RU2174714C2 - Method for separating the basic tone - Google Patents

Method for separating the basic tone Download PDF

Info

Publication number
RU2174714C2
RU2174714C2 RU98108956/09A RU98108956A RU2174714C2 RU 2174714 C2 RU2174714 C2 RU 2174714C2 RU 98108956/09 A RU98108956/09 A RU 98108956/09A RU 98108956 A RU98108956 A RU 98108956A RU 2174714 C2 RU2174714 C2 RU 2174714C2
Authority
RU
Russia
Prior art keywords
signal
pitch
fundamental tone
shows
outline
Prior art date
Application number
RU98108956/09A
Other languages
Russian (ru)
Other versions
RU98108956A (en
Inventor
И.О. Архипов
Ю.В. Веркиенко
В.Б. Гитлин
В.С. Казаков
Original Assignee
Научно-технический центр "Вычислительная техника"
Архипов Игорь Олегович
Веркиенко Юрий Всеволодович
Гитлин Валерий Борисович
Казаков Виктор Степанович
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Научно-технический центр "Вычислительная техника", Архипов Игорь Олегович, Веркиенко Юрий Всеволодович, Гитлин Валерий Борисович, Казаков Виктор Степанович filed Critical Научно-технический центр "Вычислительная техника"
Priority to RU98108956/09A priority Critical patent/RU2174714C2/en
Publication of RU98108956A publication Critical patent/RU98108956A/en
Application granted granted Critical
Publication of RU2174714C2 publication Critical patent/RU2174714C2/en

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

FIELD: automation engineering. SUBSTANCE: method involves filtering-out the basic maximum points of time-dependent function of initial speech signal. Maximum search is to be blocked for single blocking interval after the selected maximum. Descending signal is formed after the blocking pause is over lowering relative to the selected maximum. The descending signal is generated with its maximum value exceeding the absolute maximum of the basic signal over the basic tone time interval under analysis. EFFECT: higher reliability in detecting basic maximums of the initial signal time function. 7 cl, 154 dwg, 15 tbl

Description

Предлагаемое изобретение относится к области выделения первичных признаков сигнала, в частности к области выделения основного тона речевого сигнала. The present invention relates to the field of primary signal extraction of a signal, in particular to the field of extraction of the fundamental tone of a speech signal.

Известны способы выделения основного тона по временной или спектральной функции исходного сигнала. Known methods for highlighting the fundamental tone by the time or spectral function of the original signal.

В фильтровом методе выделения основного тона [М. А. Сапожков. Речевой сигнал в кибернетике и связи. - М.: Связьиздат, 1963. - 472 с.] исходный сигнал ограничивают фильтром нижних частот или полосовым фильтром так, что сигнал после фильтрации содержит, в основном, только основную гармонику сигнала. По отфильтрованному сигналу определяют главные максимумы, соответствующие моментам возбуждения речевого тракта. Метод не отслеживает быстрые изменения частоты основного тона, например на переходах между вокализированными и невокализированными звуками, требует точной установки частоты среза предварительного фильтра низких частот или полосового фильтра. In the filter method for isolating the fundamental tone [M. A. Sapozhkov. Speech signal in cybernetics and communication. - M .: Svyazizdat, 1963. - 472 p.] The original signal is limited by a low-pass filter or a band-pass filter so that the signal after filtering contains mainly only the main harmonic of the signal. From the filtered signal, the main maxima corresponding to the moments of excitation of the vocal tract are determined. The method does not track fast changes in the frequency of the fundamental tone, for example, at transitions between voiced and unvoiced sounds, it requires precise setting of the cutoff frequency of the low-pass preliminary filter or the band-pass filter.

В методе Рабинера - Голда [В. Gold, L. Rabiner. Parallel processing techniques for estimating pitch period of speech in the time domain // J. Acoustic Soc. Am., 1969 - 46.- N 2 (Pt. 2). - P. 442 - 448] речевой сигнал ограничивают фильтром нижних частот с частотой среза в диапазоне 600 - 800 Гц, в отфильтрованном сигнале определяют расстояния между всеми максимумами сигнала, расстояния между всеми минимумами сигнала, расстояния между разностями минимумов и максимумов и затем определяют период по наибольшему количеству совпадений выделенных расстояний. Метод не определяет моменты возбуждения речевого тракта, имеет увеличенное количество ошибок при быстрых изменениях речевого сигнала. In the Rabiner – Gold method [V. Gold, L. Rabiner. Parallel processing techniques for estimating pitch period of speech in the time domain // J. Acoustic Soc. Am., 1969 - 46.- N 2 (Pt. 2). - P. 442 - 448] the speech signal is limited by a low-pass filter with a cutoff frequency in the range of 600 - 800 Hz, the distances between all signal maxima, the distances between all signal minima, the distance between the differences between the minima and maxima are determined in the filtered signal, and then the period is determined by the greatest number of matches of the selected distances. The method does not determine the moments of excitation of the speech tract, has an increased number of errors with rapid changes in the speech signal.

В кепстральном методе выделения основного тона [A.М. Noll. Short-Time spectrum and "Cepstrum" techniques for vocal-pitch detection // J. Acoustic. Soc. Am. - 36. - N 2, 1955] получают широкополосный спектр сигнала путем прямого преобразования Фурье, логарифмируют спектр, выполняют обратное преобразование Фурье логарифмированного спектра по пику, полученного после обратного преобразования Фурье сигнала, расположенного в области допустимых значений периода основного тона, определяют период основного тона. Метод требует большого количества вычислений, он не определяет моменты возбуждения речевого тракта, имеет большое количество ошибок при резких изменениях входного сигнала, в том числе на переходах между вокализированными и невокализированными звуками, чувствителен к широкополосным помехам. In the cepstral method for isolating the fundamental tone [A.M. Noll. Short-Time spectrum and "Cepstrum" techniques for vocal-pitch detection // J. Acoustic. Soc. Am. - 36. - N 2, 1955] receive the broadband spectrum of the signal by the direct Fourier transform, logarithm the spectrum, perform the inverse Fourier transform of the logarithmic peak, obtained after the inverse Fourier transform of the signal located in the region of valid values of the period of the fundamental tone, determine the period of the fundamental tone . The method requires a large number of calculations, it does not determine the moments of excitation of the speech path, has a large number of errors during sudden changes in the input signal, including the transitions between voiced and unvoiced sounds, and is sensitive to broadband interference.

В автокорреляционном методе выделения основного тона [А. А. Пирогов. Устройство для автоматического выделения основного тона. - А. с. N 129 739 СССР. - Приор, от 08.06.58. - НКИ 21е 1/20 42е] определяют автокорреляционную функцию входного сигнала, по максимумам которой принимают решение о периоде основного тона. Автокорреляционный метод чувствителен к изменениям формы огибающей временной функции исходного сигнала, к изменениям формы сигнала от периода к периоду основного тона, имеет сбои на гармоники и субгармоники основного тона, не определяет моменты возбуждения речевого тракта, требует большого количества вычислений. In the autocorrelation method for isolating the fundamental tone [A. A. Pirogov. Device for automatically highlighting the fundamental tone. - A. p. N 129 739 USSR. - Prior, from 08.06.58. - NKI 21e 1/20 42e] determine the autocorrelation function of the input signal, at the maximums of which they decide on the period of the fundamental tone. The autocorrelation method is sensitive to changes in the shape of the envelope of the temporal function of the original signal, to changes in the waveform from period to period of the fundamental tone, has failures in harmonics and subharmonics of the fundamental tone, does not determine the moments of excitation of the speech path, requires a large number of calculations.

В алгоритме ЛЛК (Лобанова - Левин - Коваль) [Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами / Центр речевых технологий. С. Петербург. - С. Петербург, 1997. - С. 279] сначала определяют автокорреляцию сигнала, по ней находят наиболее вероятное значение периода основного тона, после этого пиковым методом определяют максимумы сигнала с учетом значения наиболее вероятного периода основного тона. Данный метод дает повышенное количество ошибок при резких изменениях основного тона, особенно на участках переходов между вокализированными и невокализированными звуками. In the LLK algorithm (Lobanova - Levin - Koval) [Methodical recommendations for the practical use of the SIS program when working with speech signals / Center for Speech Technologies. S. Petersburg. - St. Petersburg, 1997. - S. 279] first determine the signal autocorrelation, find the most probable value of the period of the fundamental tone, then use the peak method to determine the signal maximums taking into account the values of the most probable period of the fundamental tone. This method gives an increased number of errors with sudden changes in the fundamental tone, especially in the areas of transitions between voiced and unvoiced sounds.

Из известных способов наиболее близким по технической сущности является пиковый способ выделения основного тона [L. О. Dolansky. Instantaneous pitch period indicator // J.Acoust. Sos. Am. - 27. - N 11, 1955. - P. 67 - 72], в котором определяют главные максимумы исходного сигнала путем последовательного поиска главного максимума, после определения главного максимума устанавливают интервал блокировки, в течение которого поиск максимума не производят, по окончании времени блокировки генерируют спадающий относительно последнего найденного главного максимума сигнал, в момент превышения исходным сигналом спадающего сигнала начинают поиск следующего главного максимума исходного сигнала, после чего процесс повторяется. Of the known methods, the closest in technical essence is the peak method of isolating the fundamental tone [L. O. Dolansky. Instantaneous pitch period indicator // J. Acoust. Sos. Am. - 27. - N 11, 1955. - P. 67 - 72], in which the main maxima of the initial signal are determined by sequentially searching for the main maximum, after determining the main maximum, the blocking interval is set during which the maximum is not searched for at the end of the blocking time they generate a signal falling relative to the last found maximum, at the moment the original signal exceeds the falling signal, the search begins for the next main maximum of the original signal, after which the process is repeated.

Указанный пиковый способ обладает рядом существенных недостатков. Он дает большие ошибки (сбои) в момент появления ложных максимумов после времени блокировки, сравнимых по величине с главными максимумами. Появление ложных максимумов объясняется следующими основными причинами:
1. Речевой сигнал есть нестационарный процесс. Если на стационарных участках его структура более или менее регулярна, то на переходных участках между фонемами, между паузами и речью он изменяется как по форме, так и по интенсивности. Количество ложных максимумов на нестационарных участках по сравнению со стационарными возрастает [Вокодерная телефония / Под ред. А.А. Пирогова. - М. : Связь, 1974. - 536 с.] из-за изменений спектра источника, из-за изменений формы речевого тракта и из-за нелинейных эффектов в источнике и речевом тракте.
The specified peak method has several significant disadvantages. It gives big errors (failures) at the moment of appearance of false maxima after the blocking time, comparable in magnitude with the main maxima. The appearance of false maxima is due to the following main reasons:
1. A speech signal is a non-stationary process. If in stationary sections its structure is more or less regular, then in transition sections between phonemes, between pauses and speech, it changes both in form and in intensity. The number of false maxima in non-stationary areas as compared with stationary increases [Vocoder Telephony / Ed. A.A. Pirogov. - M.: Communication, 1974. - 536 pp.] Due to changes in the source spectrum, due to changes in the shape of the vocal tract and due to non-linear effects in the source and vocal tract.

2. Передаточная характеристика речевого тракта может подчеркивать высшие гармоники основного тона. Так фонема/и/ имеет максимум передаточной характеристики в области первой форманты F1 = 240 Гц. Если частота основного тона лежит в диапазоне 100 - 120 Гц, то вторая гармоника основного тона попадает в область первой форманты и подчеркивается. Подчеркнутая вторая гармоника вызывает сбои на удвоенную частоту основного тона.2. The transmission characteristic of the vocal tract can emphasize the higher harmonics of the fundamental tone. So the phoneme / and / has a maximum transfer characteristic in the region of the first formant F 1 = 240 Hz. If the frequency of the fundamental tone lies in the range of 100 - 120 Hz, then the second harmonic of the fundamental tone falls into the region of the first formant and is emphasized. The emphasized second harmonic causes malfunctions at twice the frequency of the fundamental tone.

3. В процессе речеобразования возможно появление дополнительных возбуждений речевого тракта внутри периода основного тона [J.N. Holmes. An investigation of the volume velocity waveform at the larinx during speech by means of inverse filter // Proc. Speech Cmmun. Seminar. - Stockholm, 1962. - Vol 1. - B4]. 3. In the process of speech formation, additional excitations of the vocal tract may occur within the period of the fundamental tone [J.N. Holmes. An investigation of the volume velocity waveform at the larinx during speech by means of inverse filter // Proc. Speech Cmmun. Seminar - Stockholm, 1962. - Vol 1. - B4].

4. Ложные максимумы могут появляться из-за фазовых сдвигов между частотами формант [В. Б. Гитлин и др. Выбор интервала измерений частоты и ширины формант // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 10 Всесоюзн. школы-семинара. - Тбилиси: Мецниереба, 1978. - С. 20 - 21]. 4. False maxima may appear due to phase shifts between the frequencies of the formants [V. B. Gitlin et al. Choice of the interval for measuring the frequency and width of formants // Automatic recognition of auditory images: Abstract. doc. and message 10 All-Union. seminar schools. - Tbilisi: Metsniereba, 1978. - S. 20 - 21].

5. Ложные максимумы могут появляться из-за внешних аддитивных помех. 5. False maxima may appear due to external additive interference.

Наличие ложных максимумов приводит к тому, что надежность выделения основного тона пиковым способом зависит от формы речеобразующего тракта. При изменениях формы исходного сигнала, в частности, на переходах между фонемами, на переходах между вокализированными и невокализированными звуками, на переходах от паузы к речи, количество ошибочных решений возрастает. Надежность выделения основного тона пиковым способом чувствительна к аддитивному шуму. Метод требует предварительной оценки наличия вокализации в исходном сигнале. Надежность метода снижается при наличии нелинейных ограничений типа предельного ограничения (клиппирования). The presence of false maxima leads to the fact that the reliability of the allocation of the fundamental tone by the peak method depends on the shape of the speech-forming tract. With changes in the shape of the original signal, in particular, at transitions between phonemes, at transitions between voiced and unvoiced sounds, at transitions from pause to speech, the number of erroneous decisions increases. The reliability of the allocation of the fundamental tone by the peak method is sensitive to additive noise. The method requires a preliminary assessment of the presence of vocalization in the original signal. The reliability of the method is reduced in the presence of nonlinear constraints such as limit constraints (clipping).

Целью предлагаемого изобретения является повышение надежности выделения основного тона исходного сигнала путем более надежного выделения главных максимумов, соответствующих основному возбуждению, когда форма исходного сигнала претерпевает существенные искажения формы, в том числе из-за появления ложных максимумов внутри периода основного тона. The aim of the invention is to increase the reliability of the allocation of the fundamental tone of the source signal by more reliable selection of the main maxima corresponding to the main excitation, when the shape of the original signal undergoes significant distortion of the form, including due to the appearance of false maxima within the period of the fundamental tone.

Поставленная цель достигается тем, что в известном способе, в котором выделяют основные максимумы временной функции, после выделенного максимума в течение интервала блокировки поиск нового максимума не производят, а после интервала блокировки поиск нового максимума выполняют с использованием сигнала, снижающегося относительно выделенного максимума, для поиска каждого последующего максимума генерируют спадающий сигнал, максимальное значение которого в момент окончания времени блокировки превышает абсолютный максимум исходного сигнала на соответствующем периоде основного тона. This goal is achieved by the fact that in the known method, in which the main maxima of the time function are isolated, after the selected maximum during the blocking interval, no new maximum is searched, and after the blocked interval, the search for a new maximum is performed using a signal decreasing relative to the selected maximum to search of each subsequent maximum, a falling signal is generated, the maximum value of which at the end of the blocking time exceeds the absolute maximum of the initial signal ala at corresponding pitch period.

Кроме того, с целью упрощения генерации спадающего сигнала, исходный сигнал предварительно, до поиска максимумов, логарифмируют, а спадающий сигнал строят в виде линейно снижающегося сигнала. Время блокировки и скорость снижения спадающего сигнала адаптируют к текущему периоду основного тона. Исходный сигнал до логарифмирования сглаживают при помощи фильтра низких частот или полосового фильтра. In addition, in order to simplify the generation of the falling signal, the initial signal is preliminary, before searching for the maxima, logarithm, and the falling signal is constructed in the form of a linearly decreasing signal. The blocking time and the rate of decline of the falling signal are adapted to the current period of the fundamental tone. The source signal before the logarithm is smoothed using a low-pass filter or a band-pass filter.

С целью обеспечения устойчивости корреляционного метода линейного предсказания, анализ речи корреляционным методом выполняют синхронно с основным тоном, интервал анализа определяют как интервал между отмеченными предлагаемым методом выделения основного тона главными максимумам исходного сигнала, а исходный сигнал на анализируемом интервале между выделенными максимумами умножают на спадающую экспоненту. In order to ensure the stability of the correlation linear prediction method, the speech analysis by the correlation method is performed synchronously with the fundamental tone, the analysis interval is defined as the interval between the main maxima of the original signal marked by the proposed method for extracting the fundamental tone, and the original signal is multiplied by the decaying exponent between the selected maxima.

При принятии решения о наличии вокализации анализ исходного сигнала ведут внутри интервала между выделенными предлагаемым методом максимумами исходного сигнала. When deciding on the presence of vocalization, the analysis of the initial signal is carried out within the interval between the maxima of the initial signal selected by the proposed method.

Предлагаемый способ поясняется чертежами, где
на фиг. 1 приведена временная диаграмма, поясняющая алгоритм работы предлагаемого способа поиска основных максимумов исходного сигнала;
на фиг. 2 представлен перечень операций по предлагаемому способу;
на фиг. 3 приведена осциллограмма предложения с транскрипцией "Не видали мы такого невода", произнесенная диктором мужчиной VBG;
на фиг. 4 показан эталонный контур основного тона, полученный путем ручной обработки осциллограммы, представленной на фиг. 3;
на фиг. 5 показан контур основного тона осциллограммы, представленной на фиг. 3, полученный пиковым методом при стандартном наборе параметров, соответствующих мужскому голосу;
на фиг. 6 показан контур основного тона осциллограммы, представленной на фиг. 3, полученный фильтровым методом при стандартном наборе параметров, соответствующих мужскому голосу;
на фиг. 7 показан контур основного тона осциллограммы, представленной на фиг. 3, полученный методом Рабинера - Голда при стандартном наборе параметров, соответствующих мужскому голосу;
на фиг. 8 показан контур основного тона осциллограммы, представленной на фиг. 3, полученный кепстральным методом при стандартном наборе параметров, соответствующих мужскому голосу;
на фиг. 9 показан контур основного тона осциллограммы, представленной на фиг. 3, полученный автокорреляционным методом при стандартном наборе параметров, соответствующих мужскому голосу;
на фиг. 10 показан контур основного тона осциллограммы, представленной на фиг. 3, полученный методом ЛЛК при стандартном наборе параметров, соответствующих мужскому голосу;
на фиг. 11 показан контур основного тона осциллограммы, представленной на фиг. 3, полученный предлагаемым методом при стандартном наборе параметров, соответствующих мужскому голосу;
на фиг. 12 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого";
на фиг. 13 показан контур основного тона осциллограммы, представленной на фиг. 12, полученный пиковым методом после подстройки параметров метода;
на фиг. 14 показан контур основного тона осциллограммы, представленной на фиг. 12, полученный фильтровым методом после подстройки параметров метода;
на фиг. 15 показан контур основного тона осциллограммы, представленной на фиг. 12, полученный методом Рабинера - Голда после подстройки параметров метода;
на фиг. 16 показан контур основного тона осциллограммы, представленной на фиг. 12, полученный кепстральным методом после подстройки параметров метода;
на фиг. 17 показан контур основного тона осциллограммы, представленной на фиг. 12, полученный методом ЛЛК после подстройки параметров метода;
на фиг. 18 показан контур основного тона осциллограммы, представленной на фиг. 12, полученный автокорреляционным методом после подстройки параметров метода;
на фиг. 19 показан контур основного тона осциллограммы, представленной на фиг. 12, полученный предлагаемым методом с ручной корректировкой пауз;
на фиг. 20 приведена осциллограмма предложения с транскрипцией "Не видали мы такого невода", произнесенная диктором женщиной IGF;
на фиг. 21 показан эталонный контур основного тона, полученный путем ручной обработки осциллограммы, представленной на фиг. 20;
на фиг. 22 показан контур основного тона осциллограммы, представленной на фиг. 20, полученный пиковым методом;
на фиг. 23 показан контур основного тона осциллограммы, представленной на фиг. 20, полученный фильтровым методом;
на фиг. 24 показан контур основного тона осциллограммы, представленной на фиг. 20, полученный методом Рабинера - Голда;
на фиг. 25 показан контур основного тона осциллограммы, представленной на фиг. 20, полученный кепстральным методом;
на фиг. 26 показан контур основного тона осциллограммы, представленной на фиг. 20, полученный автокорреляционным методом;
на фиг. 27 показан контур основного тона осциллограммы, представленной на фиг. 20, полученный методом ЛЛК;
на фиг. 28 показан контур основного тона осциллограммы, представленной на фиг. 20, полученный предлагаемым методом;
на фиг. 29 приведена осциллограмма изолировано произнесенного слова "три", диктор мужчина VBG;
на фиг. 30 показан контур основного тона осциллограммы, представленной на фиг. 29, полученный пиковым методом;
на фиг. 31 показан контур основного тона осциллограммы, представленной на фиг. 29, полученный фильтровым методом;
на фиг. 32 показан контур основного тона осциллограммы, представленной на фиг. 29, полученный методом Рабинера - Голда;
на фиг. 33 показан контур основного тона осциллограммы, представленной на фиг. 29, полученный кепстральным методом;
на фиг. 34 показан контур основного тона осциллограммы, представленной на фиг. 29, полученный автокорреляционным методом;
на фиг. 35 показан контур основного тона осциллограммы, представленной на фиг. 29, полученный методом ЛЛК;
на фиг. 36 показан контур основного тона осциллограммы, представленной на фиг. 29, полученный предлагаемым методом;
на фиг. 37 приведена в увеличенном во времени масштабе осциллограмма перехода от смычки /т/ к звонкой /р/ - начало гласной /и/ для слова "три", показанного на фиг. 29;
на фиг. 38 показан контур основного тона осциллограммы, представленной на фиг. 37, полученный предлагаемым методом;
на фиг. 39 приведена в увеличенном во времени масштабе осциллограмма стационарного участка гласной /и/ для слова "три", показанного на фиг. 29;
на фиг. 40 показан контур основного тона осциллограммы, представленной на фиг. 39, полученный предлагаемым методом;
на фиг. 41 приведена в увеличенном во времени масштабе осциллограмма окончания гласной /и/ для слова "три", показанного на фиг. 29;
на фиг. 42 показан контур основного тона осциллограммы, представленной на фиг. 41, полученный предлагаемым методом;
на фиг. 43 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого" при соотношении сигнал / шум 40 дБ;
на фиг. 44 показан контур основного тона осциллограммы, представленной на фиг. 43, полученный пиковым методом;
на фиг. 45 показан контур основного тона осциллограммы, представленной на фиг. 43, полученный фильтровым методом;
на фиг. 46 показан контур основного тона осциллограммы, представленной на фиг. 43, полученный методом Рабинера - Голда;
на фиг. 47 показан контур основного тона осциллограммы, представленной на фиг. 43, полученный кепстральным методом;
на фиг. 48 показан контур основного тона осциллограммы, представленной на фиг. 43, полученный автокорреляционным методом;
на фиг. 49 показан контур основного тона осциллограммы, представленной на фиг. 43, полученный методом ЛЛК;
на фиг. 50 показан контур основного тона осциллограммы, представленной на фиг. 43, полученный предлагаемым методом;
на фиг. 51 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого" при соотношении сигнал / шум 30 дБ;
на фиг. 52 показан контур основного тона осциллограммы, представленной на фиг. 51, полученный пиковым методом;
на фиг. 53 показан контур основного тона осциллограммы, представленной на фиг. 51, полученный фильтровым методом;
на фиг. 54 показан контур основного тона осциллограммы, представленной на фиг. 51, полученный методом Рабинера - Голда;
на фиг. 55 показан контур основного тона осциллограммы, представленной на фиг. 51, полученный кепстральным методом;
на фиг. 56 показан контур основного тона осциллограммы, представленной на фиг. 51, полученный автокорреляционным методом;
на фиг. 57 показан контур основного тона осциллограммы, представленной на фиг. 51, полученный методом ЛЛК;
на фиг. 58 показан контур основного тона осциллограммы, представленной на фиг. 51, полученный предлагаемым методом;
на фиг. 59 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого" при соотношении сигнал / шум 20 дБ;
на фиг. 60 показан контур основного тона осциллограммы, представленной на фиг. 59, полученный пиковым методом;
на фиг. 61 показан контур основного тона осциллограммы, представленной на фиг. 59, полученный фильтровым методом;
на фиг. 62 показан контур основного тона осциллограммы, представленной на фиг. 59, полученный методом Рабинера - Голда;
на фиг. 63 показан контур основного тона осциллограммы, представленной на фиг. 59, полученный кепстральным методом;
на фиг. 64 показан контур основного тона осциллограммы, представленной на фиг. 59, полученный автокорреляционным методом;
на фиг. 65 показан контур основного тона осциллограммы, представленной на фиг. 59, полученный методом ЛЛК;
на фиг. 66 показан контур основного тона осциллограммы, представленной на фиг. 59, полученный предлагаемым методом;
на фиг. 67 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого" при соотношении сигнал / шум 10 дБ;
на фиг. 68 показан контур основного тона осциллограммы, представленной на фиг. 67, полученный пиковым методом;
на фиг. 69 показан контур основного тона осциллограммы, представленной на фиг. 67, полученный фильтровым методом;
на фиг. 70 показан контур основного тона осциллограммы, представленной на фиг. 67, полученный методом Рабинера - Голда;
на фиг. 71 показан контур основного тона осциллограммы, представленной на фиг. 67, полученный кепстральным методом;
на фиг. 72 показан контур основного тона осциллограммы, представленной на фиг. 67, полученный автокорреляционным методом;
на фиг. 73 показан контур основного тона осциллограммы, представленной на фиг. 67, полученный методом ЛЛК;
на фиг. 74 показан контур основного тона осциллограммы, представленной на фиг. 67, полученный предлагаемым методом;
на фиг. 75 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого" при соотношении сигнал / шум 5 дБ;
на фиг. 76 показан контур основного тона осциллограммы, представленной на фиг. 75, полученный пиковым методом;
на фиг. 77 показан контур основного тона осциллограммы, представленной на фиг. 75, полученный фильтровым методом;
на фиг. 78 показан контур основного тона осциллограммы, представленной на фиг. 75, полученный методом Рабинера - Голда;
на фиг. 79 показан контур основного тона осциллограммы, представленной на фиг. 75, полученный кепстральным методом;
на фиг. 80 показан контур основного тона осциллограммы, представленной на фиг. 75, полученный автокорреляционным методом;
на фиг. 81 показан контур основного тона осциллограммы, представленной на фиг. 75, полученный методом ЛЛК;
на фиг. 82 показан контур основного тона осциллограммы, представленной на фиг. 75, полученный предлагаемым методом;
на фиг. 83 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого" при соотношении сигнал / шум 0 дБ;
на фиг. 84 показан контур основного тона осциллограммы, представленной на фиг. 83, полученный пиковым методом;
на фиг. 85 показан контур основного тона осциллограммы, представленной на фиг. 83, полученный фильтровым методом;
на фиг. 86 показан контур основного тона осциллограммы, представленной на фиг. 83, полученный методом Рабинера - Голда;
на фиг. 87 показан контур основного тона осциллограммы, представленной на фиг. 83, полученный предлагаемым методом;
на фиг. 88 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого", отфильтрованая фильтром нижних частот с частотой среза 800 Гц;
на фиг. 89 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого" при соотношении сигнал / шум 0 дБ;
на фиг. 90 показан контур основного тона осциллограммы, представленной на фиг. 89, полученный предлагаемым методом;
на фиг. 91 приведена в увеличенном во времени масштабе осциллограмма перехода от смычки /д/ к гласной /а/ для слова "не видали", показанного на фиг. 88;
на фиг. 92 показан контур основного тона осциллограммы, представленной на фиг. 91, полученный предлагаемым методом;
на фиг. 93 приведена в увеличенном во времени масштабе осциллограмма перехода от гласной /а/ к сонорной /л/ и далее к гласной /и/ для слова "невидали", показанного на фиг. 88;
на фиг. 94 показан контур основного тона осциллограммы, представленной на фиг. 93, полученный предлагаемым методом;
на фиг. 95 приведена в увеличенном во времени масштабе осциллограмма перехода от сонорной /м/ к гласной /ы/ для слова "мы", показанного на фиг. 88;
на фиг. 96 показан контур основного тона осциллограммы, представленной на фиг. 95, полученный предлагаемым методом;
на фиг. 97 приведена в увеличенном во времени масштабе осциллограмма перехода от смычки /т/ к гласной /а/ и далее к смычке /к/ для слова "такого", показанного на фиг. 88;
на фиг. 98 показан контур основного тона осциллограммы, представленной на фиг. 97, полученный предлагаемым методом;
на фиг. 99 приведена в увеличенном во времени масштабе осциллограмма перехода от гласной /о/ к смычке /д/ для слова "невода", показанного на фиг. 88;
на фиг. 100 показан контур основного тона осциллограммы, представленной на фиг. 99, полученный предлагаемым методом;
на фиг. 101 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого";
на фиг. 102 показан контур основного тона осциллограммы, представленной на фиг. 101, полученный предлагаемым методом;
на фиг. 103 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого", сигнал ограничен на уровне 100 отсчетов;
на фиг. 104 показан контур основного тона осциллограммы, представленной на фиг. 103, полученный пиковым методом;
на фиг. 105 показан контур основного тона осциллограммы, представленной на фиг. 103, полученный фильтровым методом;
на фиг. 106 показан контур основного тона осциллограммы, представленной на фиг. 103, полученный методом Рабинера - Голда;
на фиг. 107 показан контур основного тона осциллограммы, представленной на фиг. 103, полученный кепстральным методом;
на фиг. 108 показан контур основного тона осциллограммы, представленной на фиг. 103, полученный автокорреляционным методом;
на фиг. 109 показан контур основного тона осциллограммы, представленной на фиг. 103, полученный методом ЛЛК;
на фиг. 110 показан контур основного тона осциллограммы, представленной на фиг. 103, полученный предлагаемым методом;
на фиг. 111 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого", сигнал ограничен на уровне 50 отсчетов;
на фиг. 112 показан контур основного тона осциллограммы, представленной на фиг. 111, полученный пиковым методом;
на фиг. 113 показан контур основного тона осциллограммы, представленной на фиг. 111, полученный фильтровым методом;
на фиг. 114 показан контур основного тона осциллограммы, представленной на фиг. 111, полученный методом Рабинера - Голда;
на фиг. 115 показан контур основного тона осциллограммы, представленной на фиг. 111, полученный кепстральным методом;
на фиг. 116 показан контур основного тона осциллограммы, представленной на фиг. 111, полученный автокорреляционным методом;
на фиг. 117 показан контур основного тона осциллограммы, представленной на фиг. 111, полученный методом ЛЛК;
на фиг. 118 показан контур основного тона осциллограммы, представленной на фиг. 111, полученный предлагаемым методом;
на фиг. 119 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т и /к/ в слове "такого", сигнал ограничен на уровне 10 отсчетов;
на фиг. 120 показан контур основного тона осциллограммы, представленной на фиг. 119, полученный предлагаемым методом;
на фиг. 121 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого", сигнал ограничен на уровне 5 отсчетов;
на фиг. 122 показан контур основного тона осциллограммы, представленной на фиг. 121, полученный предлагаемым методом;
на фиг. 123 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого", сигнал ограничен на уровне 1 отсчета;
на фиг. 124 показан контур основного тона осциллограммы, представленной на фиг. 123, полученный предлагаемым методом;
на фиг. 125 приведена в увеличенном во времени масштабе осциллограмма смычки /д/ для слова "не видали", показанного на фиг. 101;
на фиг. 126 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной AIO;
на фиг. 127 приведена осциллограмма ресинтезированного сигнала фиг. 126 с использованием контура основного тона, полученного предлагаемым методом и параметрами, определяемыми корреляционным методом на периоде основного тона без умножения на окно;
на фиг. 128 приведена осциллограмма ресинтезированного сигнала фиг. 126 с использованием контура основного тона, полученного предлагаемым методом и параметрами, определяемыми корреляционным методом на периоде основного тона с умножением сигнала на экспоненциальное окно;
на фиг. 129 приведена картина формантных траекторий для сигнала, показанного на фиг. 126;
на фиг. 130 приведена картина формантных траекторий для сигнала, показанного на фиг. 127;
на фиг. 131 приведена картина формантных траекторий для сигнала, показанного на фиг. 128;
на фиг. 132 приведена осциллограмма слова "четыре", произнесенная диктором мужчиной AIO;
на фиг. 133 показан эталонный контур основного тона, полученный ручным способом, для осциллограммы, показанной на фиг. 132;
на фиг. 134 представлена осциллограмма сигнала, приведенного на фиг. 132 совместно с белым шумом при соотношении сигнал / шум С/Ш = 5 дБ;
на фиг. 135 приведена осциллограмма сигнала, показанного на фиг. 132, сглаженная секансным окном;
на фиг. 136 представлен контур основного тона, полученный предлагаемым методом по сглаженному сигналу, показанному на фиг. 135; на фиг. 137 приведена временная функция секансного окна;
на фиг. 138 приведена осциллограмма сигнала с шумом, показанная на фиг. 134, сглаженная секансным окном;
на фиг. 139 представлен контур основного тона, полученный предлагаемым методом по сглаженному сигналу, показанному на фиг. 138, при синхронном с основным тоном формированием признака ТОН/НЕ_ТОН;
на фиг. 140 представлен контур основного тона, полученный предлагаемым методом по сглаженному сигналу, показанному на фиг. 138, при асинхронном с основным тоном формировании признака ТОН/НЕ_ТОН;
на фиг. 141 показан контур основного тона осциллограммы, представленной на фиг. 134, полученный пиковым методом;
на фиг. 142 показан контур основного тона осциллограммы, представленной на фиг. 134, полученный кепстральным методом;
на фиг. 143 показан контур основного тона осциллограммы, представленной на фиг. 134, полученный методом Рабинера - Голда;
на фиг. 144 показан контур основного тона осциллограммы, представленной на фиг. 134, полученный фильтровым методом;
на фиг. 145 показан контур основного тона осциллограммы, представленной на фиг. 134, полученный методом ЛЛК;
на фиг. 146 показана осциллограмма сигнала, показанного на фиг. 132, после ограничения в полосе частот 300 - 3300 Гц (телефонный канал);
на фиг. 147 показана осциллограмма сигнала, полученного после сглаживания секансным окном сигнала, показанного на фиг. 146;
на фиг. 148 представлен контур основного тона, полученный предлагаемым методом по сглаженному сигналу, показанному на фиг. 147, при синхронном с основным тоном принятии решения ТОН/НЕ_ТОН;
на фиг. 149 показан контур основного тона осциллограммы, представленной на фиг. 146, полученный пиковым методом;
на фиг. 150 показан контур основного тона осциллограммы, представленной на фиг. 146, полученный кепстральным методом;
на фиг. 151 показан контур основного тона осциллограммы, представленной на фиг. 146, полученный методом Рабинера - Голда;
на фиг. 152 показан контур основного тона осциллограммы, представленной на фиг. 146, полученный фильтровым методом;
на фиг. 153 показан контур основного тона осциллограммы, представленной на фиг. 146, полученный автокорреляционным методом;
на фиг. 154 показан контур основного тона осциллограммы, представленной на фиг. 146, полученный методом ЛЛК;
Работа алгоритма по предлагаемому способу пояснена на фиг. 1. Перечень операций по предлагаемому способу показан на фиг. 2. Исходный сигнал пропускают через фильтр низких частот (ФНЧ) с частотой среза в диапазоне от 600 до 1500 Гц (операция 1). ФНЧ повышает надежность выделения основного тона, хотя для ряда голосов не является обязательным.
The proposed method is illustrated by drawings, where
in FIG. 1 is a timing chart explaining the algorithm of the proposed method for finding the main maxima of the source signal;
in FIG. 2 presents a list of operations by the proposed method;
in FIG. Figure 3 shows the oscillogram of the sentence with the transcription "We didn’t see such a net", pronounced by the announcer male VBG;
in FIG. 4 shows the reference pitch circuit obtained by manual processing of the waveform shown in FIG. 3;
in FIG. 5 shows the outline of the pitch of the waveform shown in FIG. 3 obtained by the peak method with a standard set of parameters corresponding to the male voice;
in FIG. 6 shows the outline of the pitch of the waveform shown in FIG. 3 obtained by the filter method with a standard set of parameters corresponding to the male voice;
in FIG. 7 shows the outline of the pitch of the waveform shown in FIG. 3 obtained by the Rabiner-Gold method with a standard set of parameters corresponding to the male voice;
in FIG. 8 shows the outline of the pitch of the waveform shown in FIG. 3, obtained by the cepstral method with a standard set of parameters corresponding to the male voice;
in FIG. 9 shows the outline of the pitch of the waveform shown in FIG. 3 obtained by the autocorrelation method with a standard set of parameters corresponding to the male voice;
in FIG. 10 shows the outline of the pitch of the waveform shown in FIG. 3 obtained by the LLK method with a standard set of parameters corresponding to the male voice;
in FIG. 11 shows the outline of the pitch of the waveform shown in FIG. 3 obtained by the proposed method with a standard set of parameters corresponding to the male voice;
in FIG. Figure 12 shows the oscillogram of the sentence “We didn’t see such a net”, pronounced by the announcer VBG man with pause marks at the intervals of the bows of the explosive deaf phonemes / t / and / c / in the word “such”;
in FIG. 13 shows the outline of the pitch of the waveform shown in FIG. 12 obtained by the peak method after adjusting the parameters of the method;
in FIG. 14 shows the outline of the pitch of the waveform shown in FIG. 12 obtained by the filter method after adjusting the parameters of the method;
in FIG. 15 shows the outline of the pitch of the waveform shown in FIG. 12 obtained by the Rabiner-Gold method after adjusting the parameters of the method;
in FIG. 16 shows the outline of the pitch of the waveform shown in FIG. 12 obtained by the cepstral method after adjusting the parameters of the method;
in FIG. 17 shows the outline of the pitch of the waveform shown in FIG. 12 obtained by the LLK method after adjusting the parameters of the method;
in FIG. 18 shows the outline of the pitch of the waveform shown in FIG. 12 obtained by the autocorrelation method after adjusting the parameters of the method;
in FIG. 19 shows the outline of the pitch of the waveform shown in FIG. 12 obtained by the proposed method with manual adjustment of pauses;
in FIG. Figure 20 shows an oscillogram of the sentence with the transcription "We didn’t see such a net", delivered by the announcer of the IGF woman;
in FIG. 21 shows a reference pitch outline obtained by manually processing the waveform shown in FIG. 20;
in FIG. 22 shows the outline of the pitch of the waveform shown in FIG. 20 obtained by the peak method;
in FIG. 23 shows the outline of the pitch of the waveform shown in FIG. 20 obtained by the filter method;
in FIG. 24 shows the outline of the pitch of the waveform shown in FIG. 20 obtained by the Rabiner-Gold method;
in FIG. 25 shows the outline of the pitch of the waveform shown in FIG. 20 obtained by the cepstral method;
in FIG. 26 shows the outline of the pitch of the waveform shown in FIG. 20 obtained by the autocorrelation method;
in FIG. 27 shows the outline of the pitch of the waveform shown in FIG. 20 obtained by the LLK method;
in FIG. 28 shows the outline of the pitch of the waveform shown in FIG. 20 obtained by the proposed method;
in FIG. Figure 29 shows an oscillogram of the spoken word "three" isolated, announcer male VBG;
in FIG. 30 shows the outline of the pitch of the waveform shown in FIG. 29 obtained by the peak method;
in FIG. 31 shows the outline of the pitch of the waveform shown in FIG. 29 obtained by the filter method;
in FIG. 32 shows the outline of the pitch of the waveform shown in FIG. 29 obtained by the Rabiner-Gold method;
in FIG. 33 shows the outline of the pitch of the waveform shown in FIG. 29 obtained by the cepstral method;
in FIG. 34 shows the outline of the pitch of the waveform shown in FIG. 29 obtained by the autocorrelation method;
in FIG. 35 shows the outline of the pitch of the waveform shown in FIG. 29 obtained by the LLK method;
in FIG. 36 shows the outline of the pitch of the waveform shown in FIG. 29 obtained by the proposed method;
in FIG. 37 shows, in a time-enlarged scale, the oscillogram of the transition from the bow / t / to the bell / p / is the beginning of the vowel / and / for the word “three” shown in FIG. 29;
in FIG. 38 shows the outline of the pitch of the waveform shown in FIG. 37 obtained by the proposed method;
in FIG. 39 is a time-enlarged waveform of the stationary portion of the vowel / and / for the word “three” shown in FIG. 29;
in FIG. 40 shows the outline of the pitch of the waveform shown in FIG. 39 obtained by the proposed method;
in FIG. 41 is a time-enlarged waveform of the ending of the vowel / and / for the word “three” shown in FIG. 29;
in FIG. 42 shows the outline of the pitch of the waveform shown in FIG. 41 obtained by the proposed method;
in FIG. Figure 43 shows the oscillogram of the sentence “We didn’t see such a net”, uttered by a VBG male announcer with pause marks at the bow intervals of explosive deaf phonemes / t / and / c / in the word “such” at a signal / noise ratio of 40 dB;
in FIG. 44 shows the outline of the pitch of the waveform shown in FIG. 43 obtained by the peak method;
in FIG. 45 shows the outline of the pitch of the waveform shown in FIG. 43 obtained by the filter method;
in FIG. 46 shows the outline of the pitch of the waveform shown in FIG. 43 obtained by the Rabiner-Gold method;
in FIG. 47 shows the outline of the pitch of the waveform shown in FIG. 43 obtained by the cepstral method;
in FIG. 48 shows the outline of the pitch of the waveform shown in FIG. 43 obtained by the autocorrelation method;
in FIG. 49 shows the outline of the pitch of the waveform shown in FIG. 43 obtained by the LLK method;
in FIG. 50 shows the outline of the pitch of the waveform shown in FIG. 43 obtained by the proposed method;
in FIG. Figure 51 shows the oscillogram of the sentence “We didn’t see such a net”, uttered by a VBG male announcer with pause marks at the bow intervals of explosive deaf phonemes / t / and / c / in the word “such” at a signal / noise ratio of 30 dB;
in FIG. 52 shows the outline of the pitch of the waveform shown in FIG. 51 obtained by the peak method;
in FIG. 53 shows the outline of the pitch of the waveform shown in FIG. 51 obtained by the filter method;
in FIG. 54 shows the outline of the pitch of the waveform shown in FIG. 51 obtained by the Rabiner-Gold method;
in FIG. 55 shows the outline of the pitch of the waveform shown in FIG. 51 obtained by the cepstral method;
in FIG. 56 shows the outline of the pitch of the waveform shown in FIG. 51 obtained by the autocorrelation method;
in FIG. 57 shows the outline of the pitch of the waveform shown in FIG. 51 obtained by the LLK method;
in FIG. 58 shows the outline of the pitch of the waveform shown in FIG. 51 obtained by the proposed method;
in FIG. 59 shows the oscillogram of the sentence “We didn’t see such a net”, uttered by a VBG male announcer with pause marks at the bow intervals of explosive deaf phonemes / t / and / c / in the word “such” at a signal / noise ratio of 20 dB;
in FIG. 60 shows the outline of the pitch of the waveform shown in FIG. 59 obtained by the peak method;
in FIG. 61 shows the outline of the pitch of the waveform shown in FIG. 59 obtained by the filter method;
in FIG. 62 shows the outline of the pitch of the waveform shown in FIG. 59 obtained by the Rabiner-Gold method;
in FIG. 63 shows the outline of the pitch of the waveform shown in FIG. 59 obtained by the cepstral method;
in FIG. 64 shows the outline of the pitch of the waveform shown in FIG. 59 obtained by the autocorrelation method;
in FIG. 65 shows the outline of the pitch of the waveform shown in FIG. 59 obtained by the LLK method;
in FIG. 66 shows the outline of the pitch of the waveform shown in FIG. 59 obtained by the proposed method;
in FIG. 67 shows the oscillogram of the sentence “We didn’t see such a net”, uttered by a male speaker VBG with pause marks at the intervals of the bows of explosive deaf phonemes / t / and / c / in the word “such” at a signal / noise ratio of 10 dB;
in FIG. 68 shows the outline of the pitch of the waveform shown in FIG. 67 obtained by the peak method;
in FIG. 69 shows the outline of the pitch of the waveform shown in FIG. 67 obtained by the filter method;
in FIG. 70 shows the outline of the pitch of the waveform shown in FIG. 67 obtained by the Rabiner-Gold method;
in FIG. 71 shows the outline of the pitch of the waveform shown in FIG. 67 obtained by the cepstral method;
in FIG. 72 shows the outline of the pitch of the waveform shown in FIG. 67 obtained by the autocorrelation method;
in FIG. 73 shows the outline of the pitch of the waveform shown in FIG. 67 obtained by the LLK method;
in FIG. 74 shows the outline of the pitch of the waveform shown in FIG. 67 obtained by the proposed method;
in FIG. Figure 75 shows the oscillogram of the sentence “We didn’t see such a net”, pronounced by a male speaker VBG with pause marks at the intervals of the bows of explosive deaf phonemes / t / and / c / in the word “such” at a signal / noise ratio of 5 dB;
in FIG. 76 shows the outline of the pitch of the waveform shown in FIG. 75 obtained by the peak method;
in FIG. 77 shows the outline of the pitch of the waveform shown in FIG. 75 obtained by the filter method;
in FIG. 78 shows the outline of the pitch of the waveform shown in FIG. 75 obtained by the Rabiner-Gold method;
in FIG. 79 shows the outline of the pitch of the waveform shown in FIG. 75 obtained by the cepstral method;
in FIG. 80 shows the outline of the pitch of the waveform shown in FIG. 75 obtained by the autocorrelation method;
in FIG. 81 shows the outline of the pitch of the waveform shown in FIG. 75 obtained by the LLK method;
in FIG. 82 shows the outline of the pitch of the waveform shown in FIG. 75 obtained by the proposed method;
in FIG. Figure 83 shows the oscillogram of the sentence “We didn’t see such a net”, pronounced by VBG male announcer with pause marks at the bow intervals of explosive deaf phonemes / t / and / c / in the word “such” at a signal-to-noise ratio of 0 dB;
in FIG. 84 shows the outline of the pitch of the waveform shown in FIG. 83 obtained by the peak method;
in FIG. 85 shows the outline of the pitch of the waveform shown in FIG. 83 obtained by the filter method;
in FIG. 86 shows the outline of the pitch of the waveform shown in FIG. 83 obtained by the Rabiner-Gold method;
in FIG. 87 shows the outline of the pitch of the waveform shown in FIG. 83 obtained by the proposed method;
in FIG. 88 shows the oscillogram of the sentence “We didn’t see such a net”, uttered by a VBG male announcer with pause marks at the bow intervals of explosive deaf phonemes / t / and / c / in the word “such”, filtered by a low-pass filter with a cutoff frequency of 800 Hz;
in FIG. 89 shows the oscillogram of the sentence “We didn’t see such a net”, uttered by a VBG male announcer with pause marks at the bow intervals of explosive deaf phonemes / t / and / c / in the word “such” at a signal-to-noise ratio of 0 dB;
in FIG. 90 shows the outline of the pitch of the waveform shown in FIG. 89 obtained by the proposed method;
in FIG. 91 is a time-enlarged waveform of the transition from the bow / d / to the vowel / a / for the word “not seen” shown in FIG. 88;
in FIG. 92 shows the outline of the pitch of the waveform shown in FIG. 91 obtained by the proposed method;
in FIG. 93 is a time-enlarged waveform of the transition from the vowel / a / to the sonoric / l / and then to the vowel / and / for the word "not seen" shown in FIG. 88;
in FIG. 94 shows the outline of the pitch of the waveform shown in FIG. 93 obtained by the proposed method;
in FIG. 95 is a time-enlarged waveform of the transition from the sonoric / m / to the vowel / s / for the word “we” shown in FIG. 88;
in FIG. 96 shows the outline of the pitch of the waveform shown in FIG. 95 obtained by the proposed method;
in FIG. 97 is a time-enlarged waveform of the transition from the bow / t / to the vowel / a / and further to the bow / k / for the word "such" shown in FIG. 88;
in FIG. 98 shows the outline of the pitch of the waveform shown in FIG. 97 obtained by the proposed method;
in FIG. 99 is a time-enlarged waveform of the transition from the vowel / o / to the bow / d / for the word “net” shown in FIG. 88;
in FIG. 100 shows the outline of the pitch of the waveform shown in FIG. 99 obtained by the proposed method;
in FIG. 101 shows the oscillogram of the sentence “We didn’t see such a net”, pronounced by the announcer VBG man with pause marks at the intervals of the bows of the explosive deaf phonemes / t / and / c / in the word “such”;
in FIG. 102 shows the outline of the pitch of the waveform shown in FIG. 101 obtained by the proposed method;
in FIG. 103 shows the oscillogram of the sentence “We didn’t see such a net”, uttered by a VBG male announcer with pause marks at the bow intervals of explosive deaf phonemes / t / and / c / in the word “such”, the signal is limited to 100 samples;
in FIG. 104 shows the outline of the pitch of the waveform shown in FIG. 103 obtained by the peak method;
in FIG. 105 shows the outline of the pitch of the waveform shown in FIG. 103 obtained by the filter method;
in FIG. 106 shows the outline of the pitch of the waveform shown in FIG. 103 obtained by the Rabiner-Gold method;
in FIG. 107 shows the outline of the pitch of the waveform shown in FIG. 103 obtained by the cepstral method;
in FIG. 108 shows the outline of the pitch of the waveform shown in FIG. 103 obtained by the autocorrelation method;
in FIG. 109 shows the outline of the pitch of the waveform shown in FIG. 103 obtained by the LLK method;
in FIG. 110 shows the outline of the pitch of the waveform shown in FIG. 103 obtained by the proposed method;
in FIG. 111 shows the oscillogram of the sentence “We didn’t see such a net”, uttered by a VBG male announcer with pause marks at the intervals of the bows of explosive deaf phonemes / t / and / c / in the word “such,” the signal is limited to 50 samples;
in FIG. 112 shows the outline of the pitch of the waveform shown in FIG. 111 obtained by the peak method;
in FIG. 113 shows the outline of the pitch of the waveform shown in FIG. 111 obtained by the filter method;
in FIG. 114 shows the outline of the pitch of the waveform shown in FIG. 111 obtained by the Rabiner-Gold method;
in FIG. 115 shows the outline of the pitch of the waveform shown in FIG. 111 obtained by the cepstral method;
in FIG. 116 shows the outline of the pitch of the waveform shown in FIG. 111 obtained by the autocorrelation method;
in FIG. 117 shows the outline of the pitch of the waveform shown in FIG. 111 obtained by the LLK method;
in FIG. 118 shows the outline of the pitch of the waveform shown in FIG. 111 obtained by the proposed method;
in FIG. 119 shows the oscillogram of the sentence “We didn’t see such a net”, uttered by a VBG male announcer with pause marks at the bow intervals of explosive deaf phonemes / t and / c / in the word “such,” the signal is limited to 10 samples;
in FIG. 120 shows the outline of the pitch of the waveform shown in FIG. 119 obtained by the proposed method;
in FIG. 121 shows the oscillogram of the sentence “We didn’t see such a net”, uttered by a VBG male announcer with pause marks at the intervals of the bows of explosive deaf phonemes / t / and / c / in the word “such,” the signal is limited to 5 samples;
in FIG. 122 shows the outline of the pitch of the waveform shown in FIG. 121 obtained by the proposed method;
in FIG. 123 shows the oscillogram of the sentence “We didn’t see such a net”, pronounced by a VBG male announcer with pause marks at the intervals of the bows of explosive deaf phonemes / t / and / c / in the word “such”, the signal is limited to 1 count;
in FIG. 124 shows the outline of the pitch of the waveform shown in FIG. 123 obtained by the proposed method;
in FIG. 125 is a zoomed-in waveform of the bow / d / for the word “not seen” shown in FIG. 101;
in FIG. 126 shows the oscillogram of the sentence "We did not see such a net", uttered by the announcer male AIO;
in FIG. 127 is a waveform of the resynthesized signal of FIG. 126 using the pitch outline obtained by the proposed method and parameters determined by the correlation method on the pitch period without multiplying by the window;
in FIG. 128 is a waveform of the resynthesized signal of FIG. 126 using the outline of the fundamental tone obtained by the proposed method and the parameters determined by the correlation method on the period of the fundamental tone with the multiplication of the signal by an exponential window;
in FIG. 129 is a picture of the formant paths for the signal shown in FIG. 126;
in FIG. 130 is a picture of the formant paths for the signal shown in FIG. 127;
in FIG. 131 is a picture of the formant paths for the signal shown in FIG. 128;
in FIG. 132 shows the waveform of the word "four," pronounced by the male AIO announcer;
in FIG. 133 shows a master pitch reference loop obtained manually for the waveform shown in FIG. 132;
in FIG. 134 is a waveform diagram of the signal of FIG. 132 together with white noise at a signal-to-noise ratio S / N = 5 dB;
in FIG. 135 is a waveform diagram of the signal shown in FIG. 132, smoothed by a secant window;
in FIG. 136 shows the pitch profile obtained by the proposed method from the smoothed signal shown in FIG. 135; in FIG. 137 shows the time function of the secant window;
in FIG. 138 is a waveform of a noise signal shown in FIG. 134 smoothed by a secant window;
in FIG. 139 shows the pitch profile obtained by the proposed method from the smoothed signal shown in FIG. 138, with the formation of the TON / NE_TON sign synchronous with the fundamental tone;
in FIG. 140 shows the pitch profile obtained by the proposed method from the smoothed signal shown in FIG. 138, with the formation of the sign TON / NOT_TON; asynchronous with the fundamental tone;
in FIG. 141 shows the outline of the pitch of the waveform shown in FIG. 134 obtained by the peak method;
in FIG. 142 shows the outline of the pitch of the waveform shown in FIG. 134 obtained by the cepstral method;
in FIG. 143 shows the outline of the pitch of the waveform shown in FIG. 134 obtained by the Rabiner-Gold method;
in FIG. 144 shows the outline of the pitch of the waveform shown in FIG. 134 obtained by the filter method;
in FIG. 145 shows the outline of the pitch of the waveform shown in FIG. 134 obtained by the LLK method;
in FIG. 146 shows the waveform of the signal shown in FIG. 132, after being limited in the frequency band 300 - 3300 Hz (telephone channel);
in FIG. 147 shows the waveform of the signal obtained after smoothing by the secant window of the signal shown in FIG. 146;
in FIG. 148 shows the pitch profile obtained by the proposed method from the smoothed signal shown in FIG. 147, when the decision TON / NOT_TON is synchronized with the fundamental tone;
in FIG. 149 shows the outline of the pitch of the waveform shown in FIG. 146 obtained by the peak method;
in FIG. 150 shows the outline of the pitch of the waveform shown in FIG. 146 obtained by the cepstral method;
in FIG. 151 shows the outline of the pitch of the waveform shown in FIG. 146 obtained by the Rabiner-Gold method;
in FIG. 152 shows the outline of the pitch of the waveform shown in FIG. 146 obtained by the filter method;
in FIG. 153 shows the outline of the pitch of the waveform shown in FIG. 146 obtained by the autocorrelation method;
in FIG. 154 shows the outline of the pitch of the waveform shown in FIG. 146 obtained by the LLK method;
The operation of the algorithm according to the proposed method is illustrated in FIG. 1. The list of operations of the proposed method is shown in FIG. 2. The original signal is passed through a low-pass filter (low-pass filter) with a cutoff frequency in the range from 600 to 1500 Hz (operation 1). The low-pass filter increases the reliability of the allocation of the fundamental tone, although for a number of votes it is not mandatory.

Положительные значения исходного сигнала логарифмируют (операция 2). В предположении, что спадающий сигнал, путем сравнения с которым принимают решение о поиске следующего максимума, имеет экспоненциальный характер, операция логарифмирования входного сигнала позволяет выполнить операцию генерирования спадающего сигнала в виде линейно понижающегося сигнала. Переход к линейной форме спадающего сигнала позволяет упростить процедуру изменения параметров этого сигнала в процессе его адаптации к исходному входному сигналу. Основание логарифма выбирают так, чтобы обеспечить нормализацию прологарифмированного сигнала в пределах допустимого диапазона значений устройств обработки сигнала. Логарифм положительных значений исходного сигнала показан на фиг. 1 сплошными толстыми линиями. Positive values of the original signal are logarithmized (step 2). Assuming that the decaying signal, by comparison with which a decision is made to search for the next maximum, is exponential, the operation of logarithmizing the input signal allows the descending signal to be generated in the form of a linearly decreasing signal. The transition to the linear form of the falling signal allows us to simplify the procedure for changing the parameters of this signal in the process of its adaptation to the original input signal. The base of the logarithm is chosen so as to ensure the normalization of the prologarithmic signal within an acceptable range of values of signal processing devices. The logarithm of the positive values of the original signal is shown in FIG. 1 solid thick lines.

При выполнении операции 3 ищут первый максимум исходного сигнала, который на фиг. 1 обозначен как A1. Этому максимуму соответствует маркер M1 на оси времени, отмечающий положение максимума A1 во времени.In step 3, the first maximum of the original signal, which in FIG. 1 is designated as A 1 . This maximum corresponds to the marker M 1 on the time axis, indicating the position of the maximum A 1 in time.

На следующей операции 4 оценивают время блокировки поиска максимума по формуле
Tбл = Q*T0,
где Tбл - время блокировки принятия решений,
Q - коэффициент, меньший единицы и определяющий какую долю от периода основного тона должно составлять время блокировки,
T0 - период основного тона, оцененный на предшествующих этапах алгоритма.
In the next step 4, the maximum search blocking time is estimated by the formula
T bl = Q * T 0 ,
where T bl - decision blocking time,
Q is a coefficient less than unity and determines what proportion of the period of the fundamental tone should be the blocking time,
T 0 - period of the fundamental tone, estimated at the previous stages of the algorithm.

При поиске первого максимума в качестве T0 принимают средний период основного тона исходного сигнала T0ср, оцененный, например, так, как это осуществлено в методе ЛЛК.When searching for the first maximum, T 0 is the average period of the fundamental tone of the original signal T 0 cf , estimated, for example, as it was done in the LLK method.

Операция 5. Оценивают положение и значение максимума спадающего сигнала. Положение максимума спадающего сигнала находят как
Bk=Mk+Tблk,
где Bk - положение во времени максимума спадающего сигнала на k-м периоде основного тона,
Mk - марка k-го периода основного тона,
Tблk - время блокировки k-го периода основного тона.
Operation 5. Assess the position and maximum value of the falling signal. The peak position of the falling signal is found as
B k = M k + T bl k ,
where B k - the position in time of the maximum of the falling signal at the k-th period of the fundamental tone,
M k - mark of the k-th period of the fundamental tone,
T bl k - blocking time of the k-th period of the fundamental tone.

Максимумы спадающего сигнала определяют по формуле
Gmaxk = Ak + D,
где Gmaxk - максимумы спадающего сигнала на k-м периоде основного тона,
Ak - значение максимума сигнала, соответствующего марке Mk на k-м периоде основного тона,
D - значение приращения максимума спадающего сигнала, обеспечивающее надежное выделение последующего основного максимума исходного сигнала.
The maxima of the falling signal are determined by the formula
G max k = A k + D,
where G max k - the maximums of the falling signal on the k-th period of the fundamental tone,
A k - the maximum value of the signal corresponding to the brand M k on the k-th period of the fundamental tone,
D is the value of the increment of the maximum of the falling signal, providing reliable selection of the subsequent main maximum of the original signal.

Значение приращения D определяют из статистики исходного сигнала на этапе предварительных экспериментов. The increment value D is determined from the statistics of the initial signal at the stage of preliminary experiments.

Операция 6. Определяют наклон спадающего сигнала. Для этого сначала находят наклон на участке Tбл, при предположении линейного нарастания сигнала от Ak до Gk:
Rk = D/Tблk,
где Rk - наклон линейного нарастания на интервале Tблk k-го периода основного тона.
Step 6. Determine the slope of the falling signal. To do this, first find the slope in the plot T bl , assuming a linear increase in the signal from A k to G k :
R k = D / T bl k ,
where R k is the slope of the linear increase in the interval T bl k of the kth period of the fundamental tone.

Наклон спадающего сигнала на участке снижения определяют как
Lk = Rk*As,
где Lk наклон спадающего сигнала на участке снижения k-го периода основного тона,
As - коэффициент асимметрии, определяемый на основе статистики измерений периода основного тона в ходе предварительных экспериментов.
The slope of the falling signal in the reduction section is determined as
L k = R k * A s ,
where L k the slope of the falling signal in the area of decline of the k-th period of the fundamental tone,
A s is the asymmetry coefficient, determined on the basis of statistics of measurements of the period of the fundamental tone in the course of preliminary experiments.

Операция 7. Генерируют спадающий сигнал в соответствии с формулой
Gk(t) = Gmaxk - Lk(t - Bk),
где Gk (t) - значение спадающего сигнала в момент времени t,
t - текущее время,
Bk - положение во времени максимума спадающего сигнала на k-м периоде основного тона.
Operation 7. Generate a falling signal in accordance with the formula
G k (t) = G max k - L k (t - B k ),
where G k (t) is the value of the falling signal at time t,
t is the current time,
B k - the position in time of the maximum of the falling signal at the k-th period of the fundamental tone.

Операция 8. На каждом шаге определения спадающего сигнала проверяют условие
Gk(t) ≥ loga(s(t)),
где s(t) - исходный сигнал,
а - основание логарифма.
Step 8. At each step of determining the falling signal, check the condition
G k (t) ≥ log a (s (t)),
where s (t) is the original signal,
and - the base of the logarithm.

Если указанное условие выполнено, то продолжают определять Gk(t) для последующих значений t. Если указанное условие нарушено, то переходят к поиску следующего максимума. На фиг. 1 точка, соответствующая нарушению указанного условия для первого периода основного тона обозначена как C1, для второго - C2.If this condition is met, then continue to determine G k (t) for subsequent values of t. If the specified condition is violated, then proceed to the search for the next maximum. In FIG. 1 point corresponding to violation of the specified condition for the first period of the fundamental tone is designated as C 1 , for the second - C 2 .

Операция 9. После оценки нарушения указанного выше условия переходят к поиску следующего основного максимума исходного сигнала. Для второго периода основного тона эта точка на фиг. 1 обозначена как A2, ей соответствует временная марка М2. По разности
Mk+1 - Мk = T0k
определяют значение k-го периода основного тона. Если значение T0k не выходит за допустимые пределы изменений периода основного тона, т.е. если
T k-1 0 - Δ* T k-1 0 ≤ T k 0 ≤ T k 0 * T k-1 0 ,
где Δ - допустимое относительное изменение периода основного тона, определяемое на основе статистики исходного сигнала в ходе предварительных экспериментов,
то при определении длительности времени блокировки для (k+1)-го периода основного тона Tблk+1 значение T0 заменяют на T0k, в противном случае значение T0 в формуле для определения Tбл оставляют неизменным.
Operation 9. After assessing the violation of the above conditions, they proceed to search for the next main maximum of the original signal. For the second pitch period, this point in FIG. 1 is designated as A 2 , it corresponds to the temporary mark M 2 . By difference
M k + 1 - M k = T 0 k
determine the value of the k-th period of the fundamental tone. If the value of T 0 k does not go beyond the permissible limits of changes in the period of the fundamental tone, i.e. if
T k-1 0 - Δ * T k-1 0 T k 0 T k 0 + Δ * T k-1 0 ,
where Δ is the allowable relative change in the period of the fundamental tone, determined on the basis of statistics of the initial signal during preliminary experiments,
then when determining the duration of the blocking time for the (k + 1) -th period of the fundamental tone T bl k + 1, the value of T 0 is replaced by T 0 k , otherwise the value of T 0 in the formula for determining T bl is left unchanged.

Далее переходят к операции 4, и процесс оценки нового периода основного тона повторяется. Then go to step 4, and the process of evaluating a new period of the fundamental tone is repeated.

На фиг. 3 - 143 приведены результаты сравнительного анализа выделения основного тона предлагаемым методом и расматриваемыми аналогами (пиковый метод, фильтровой метод, метод Рабинера - Голда, кепстральный метод, автокорреляционный метод, метод ЛЛК). Методы-аналоги реализованы на установке STC-D 106.1 с использованием системы программного обеспечения SIS 4.0, разработанных и изготовленных фирмой "Центр речевых технологий" г. С. Петербург [Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами /Центр речевых технологий. - С. Петербург, 1997] . Предлагаемый метод реализован в виде программ, написанных на языке Турбо- Паскаль, СИ и СИ++. In FIG. Figures 3 to 143 show the results of a comparative analysis of the allocation of the fundamental tone by the proposed method and the considered analogues (peak method, filter method, Rabiner-Gold method, cepstral method, autocorrelation method, LLK method). Analogue methods were implemented on the STC-D 106.1 installation using the SIS 4.0 software system developed and manufactured by the Center for Speech Technologies company in St. Petersburg [Methodological recommendations for the practical use of the SIS program when working with speech signals / Speech Technology Center. - S. Petersburg, 1997]. The proposed method is implemented in the form of programs written in Turbo-Pascal, SI and SI ++.

Во всех экспериментах использована частота квантования 10000 Гц. Все методы-аналоги работают по следующей схеме:
1. Отсечение низкоэнергетических участков сигнала. Для этого производится вычисление на каждом заданном по длительности кадре анализа сигнала среднего значения амплитуды сигнала и сопоставление вычисленного значения с порогом, задаваемым пользователем. Участки, среднее значение амплитуды на которых не превышает порог, принимают за паузы.
In all experiments, a quantization frequency of 10,000 Hz was used. All analog methods work as follows:
1. Cutting off low-energy signal sections. For this, the average value of the signal amplitude is calculated on each signal analysis frame specified by the duration and the calculated value is compared with a threshold set by the user. Plots, the average value of the amplitude on which does not exceed the threshold, are taken for pauses.

2. Отсечение высокочастотных шумовых участков сигнала. Для этого на каждом кадре анализа вычисляют среднее значение частоты пересечения нуля и сопоставляют вычисленное значение с порогом, задаваемым пользователем. Участки, среднее значение частоты пересечений нуля на которых превышает заданный порог, принимают за шум. 2. Cutting off high-frequency noise sections of the signal. To do this, on each analysis frame, the average value of the frequency of zero crossing is calculated and the calculated value is compared with the threshold set by the user. Sites, the average value of the frequency of zero crossing at which exceeds a predetermined threshold, is taken as noise.

3. Определение значения периода основного тона. 3. Determination of the value of the period of the fundamental tone.

4. Проверка степени периодичности сигнала для данного периода основного тона. 4. Check the degree of periodicity of the signal for a given period of the fundamental tone.

5. Принятие решения Тон/Не_тон. 5. Decision making Tone / Ne_ton.

6. Переход к следующему кадру. 6. Go to the next frame.

Предлагаемый метод выделяет основной тон по сигналу без предварительного разделения сигнала на участки с низкой и высокой энергией, на участки шума и участки речи. Решение ТОН/НЕ_ТОН может быть принято после выделения контура основного тона, что позволяет дополнительно учесть информацию, имеющуюся в контуре основного тона и тем самым повысить надежность принятия решения ТОН/НЕ_ТОН. The proposed method selects the main tone of the signal without first dividing the signal into sections with low and high energy, into sections of noise and sections of speech. The TONE / NOT_TONE decision can be made after selecting the pitch outline, which allows you to additionally take into account the information available in the pitch circuit and thereby improve the reliability of the TONE / NOT_TONE decision.

В пиковом методе выделения основного тона, реализованном в программе SIS, на исходном сигнале выделяют кадры длительностью, например, 20 мс. Начало каждого следующего кадра анализа смещают на текущий период основного тона по сравнению с предыдущим кадром. На первом вокализированном сегменте речи ищут значение периода основного тона и начало каждого периода по максимуму амплитуды. Далее в области, отстоящей от максимума на текущее значение периода основного тона, ищут следующий максимум. Расстояние между максимумами принимают за новое значение основного тона на данном шаге. Для полученного значения основного тона считают коэффициент автокорреляции исходного сигнала и сравнивают с порогом. Если он превышает порог, то кадр считается вокализированным и основной тон полагают определенным, если нет, то шумовым. Метод очень чувствителен к установкам параметров [Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами / Центр речевых технологий. - С. Петербург, 1997. - С. 276]. In the peak pitch extraction method implemented in the SIS program, frames with a duration of, for example, 20 ms are extracted from the original signal. The beginning of each subsequent analysis frame is shifted by the current pitch period compared to the previous frame. On the first vocalized segment of speech, they look for the value of the period of the fundamental tone and the beginning of each period at the maximum amplitude. Next, in the area spaced from the maximum by the current value of the period of the fundamental tone, the next maximum is sought. The distance between the maxima is taken as the new value of the fundamental tone at this step. For the obtained value of the fundamental tone, the autocorrelation coefficient of the original signal is considered and compared with the threshold. If it exceeds the threshold, then the frame is considered vocalized and the pitch is considered defined, if not, then noise. The method is very sensitive to parameter settings [Methodological recommendations for the practical use of the SIS program when working with speech signals / Center for Speech Technologies. - S. Petersburg, 1997. - S. 276].

В фильтровом методе сигнал до начала анализа пропускают через узкополосный фильтр. Для мужских голосов полоса пропускания фильтра составляет 50 - 250 Гц, для женских - 70 - 450 Гц. Далее выполняют анализ, аналогичный пиковому методу. Метод часто не работоспособен для сигналов с подавленным диапазоном низких частот [Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами / Центр речевых технологий. - С. Петербург, 1997. - С. 278]. In the filter method, the signal is passed through a narrow-band filter before analysis begins. For male voices, the filter passband is 50 - 250 Hz, for women - 70 - 450 Hz. Next, an analysis similar to the peak method is performed. The method is often not workable for signals with a suppressed low frequency range [Methodological recommendations for the practical use of the SIS program when working with speech signals / Center for Speech Technologies. - S. Petersburg, 1997. - S. 278].

Краткое описание алгоритма Рабинера - Голда дано выше. При этом проводят отбрасывание слишком маленьких пиков в окрестности больших и проводят оценку пиков временного сигнала по ширине и амплитуде для поиска только достаточно похожих пиков. Полученные три текущие оценки длительности периодов основного тона рассматривают совместно для текущего, предыдущего и последующего периодов основного тона. Все оценки сравнивают и за оценку текущего периода основного тона принимают ту, которая чаще всего встречается в данной совокупности оценок основного тона. Схема работы алгоритма соответствует схеме пикового метода [Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами / Центр речевых технологий. - С. Петербург, 1997. - С. 278]. A brief description of the Rabiner-Gold algorithm is given above. In this case, too small peaks are discarded in the vicinity of large peaks and the peaks of the temporary signal are estimated in terms of width and amplitude to search for only sufficiently similar peaks. The obtained three current estimates of the duration of the periods of the fundamental tone are considered together for the current, previous and subsequent periods of the fundamental tone. All estimates are compared and for the assessment of the current period of the fundamental tone, take the one that is most often found in this set of assessments of the fundamental tone. The algorithm operation scheme corresponds to the peak method scheme [Methodological recommendations for the practical use of the SIS program when working with speech signals / Center for Speech Technologies. - S. Petersburg, 1997. - S. 278].

В кепстральном методе выделения основного тона для определения кепстра выполняют обратное преобразование Фурье комплексного логарифма спектра мощности сигнала на кадре анализа на основе алгоритма БПФ. Длительность анализируемого кадра должна превышать длительность по крайней мере двух наиболее длинных периодов основного тона и быть кратной степени двух, что для мужских голосов обычно составляет 51,2 мс и для женских 25,6 мс. Исходный сигнал умножают на окно Ханна или Хэминга. Сдвиг кадра анализа задают в пределах 1/16 - 1/4 длины кадра анализа. Для повышения надежности выделения основного тона может быть использовано подчеркивание кепстра в области больших его значений. Для каждого анализируемого кадра полученный кепстр исследуется с целью поиска пика в области возможных значений основного тона. В отличие от пикового метода основной тон определяется в среднем для кадра анализа, что приводит к сглаженности траектории основного тона. В остальном схема работы алгоритма соответствует схеме пикового метода [Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами / Центр речевых технологий. - С. Петербург, 1997. - С. 276]. In the cepstral method for isolating the fundamental tone to determine the cepstrum, the inverse Fourier transform of the complex logarithm of the signal power spectrum in the analysis frame is performed based on the FFT algorithm. The duration of the analyzed frame should exceed the duration of at least the two longest periods of the fundamental tone and be a multiple of a power of two, which for male voices is usually 51.2 ms and for female 25.6 ms. The original signal is multiplied by the Hann or Haming window. The shift of the analysis frame is set within 1/16 - 1/4 of the length of the analysis frame. To increase the reliability of the allocation of the fundamental tone can be used underlining cepstrum in the field of large values. For each analyzed frame, the obtained cepstrum is examined in order to search for a peak in the region of possible values of the fundamental tone. Unlike the peak method, the pitch is determined on average for the analysis frame, which leads to a smoothing of the trajectory of the pitch. The rest of the scheme of the algorithm corresponds to the peak method [Methodological recommendations for the practical use of the SIS program when working with speech signals / Center for Speech Technologies. - S. Petersburg, 1997. - S. 276].

В автокорреляционном методе выделения основного тона в области предполагаемого значения периода основного тона вычисляют автокорреляционную функцию и ищут ее максимум. Величину максимума сравнивают с порогом и принимают решение о действительной вокализированности сегмента. В случае положительного решения положение максимума автокорреляционной функции принимают за значение периода основного тона. В остальном схема работы алгоритма соответствует схеме пикового метода [Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами / Центр речевых технологий. - С. Петербург, 1997. - С. 277]. In the autocorrelation method for isolating the fundamental tone in the region of the estimated value of the period of the fundamental tone, the autocorrelation function is calculated and its maximum is sought. The maximum value is compared with the threshold and a decision is made about the actual vocalization of the segment. In the case of a positive decision, the position of the maximum of the autocorrelation function is taken as the value of the period of the fundamental tone. The rest of the scheme of the algorithm corresponds to the peak method [Methodological recommendations for the practical use of the SIS program when working with speech signals / Center for Speech Technologies. - S. Petersburg, 1997. - S. 277].

При выделении основного тона по методу ЛЛК для вокализированных участков вычисляют автокорреляцию с окном 20 мс. По 15 последовательно вычисленным значениям автокорреляции делают предположение о величине периода основного тона. Зная предполагаемое значение периода основного тона пиковый выделитель основного тона формирует окончательный результат Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами / Центр речевых технологий. - С. Петербург, 1997. - С. 279]. When isolating the fundamental tone using the LLK method, the autocorrelation with the 20 ms window is calculated for the voiced sections. Using 15 successively calculated autocorrelation values, an assumption is made about the magnitude of the pitch period. Knowing the estimated value of the period of the fundamental tone, the peak emitter of the fundamental tone forms the final result. Methodological recommendations for the practical use of the SIS program when working with speech signals / Center for Speech Technologies. - S. Petersburg, 1997. - S. 279].

При выделении основного тона методами-аналогами в программе SIS использованы следующие параметры для сигнала и шума. When isolating the fundamental tone using analog methods, the following parameters for signal and noise were used in the SIS program.

Параметры для сигнала. Parameters for the signal.

а). Размер кадра - требуемая длительность кадра анализа в отсчетах. a). Frame size - the required duration of the analysis frame in samples.

б). Начальная частота основного тона (F) - значение частоты основного тона на каждом переходе от шумового участка к вокализированному. Первое значение частоты основного тона при каждом переходе от шумового участка к вокализированному ищут на интервале от F-ID до F+ID, где ID - значение начальной гладкости. b) The initial frequency of the fundamental tone (F) is the value of the frequency of the fundamental tone at each transition from the noise section to the voiced one. The first value of the frequency of the fundamental tone at each transition from the noise section to the vocalized one is searched for in the interval from F-ID to F + ID, where ID is the initial smoothness value.

в). Гладкость мелодической кривой (в отсчетах) - устанавливает максимально возможный интервал изменения текущего периода основного тона по отношению к предыдущему периоду. in). Smoothness of the melodic curve (in counts) - sets the maximum possible interval for the change in the current period of the fundamental tone in relation to the previous period.

г). Начальная гладкость мелодической кривой (в отсчетах) - устанавливает максимально возможный интервал, в котором ищут первое значение основного тона на каждом переходе от шумового участка к вокализированному. d). The initial smoothness of the melodic curve (in samples) - sets the maximum possible interval in which the first value of the fundamental tone is searched for at each transition from the noise section to the vocalized one.

д). Абсолютный минимум частоты основного тона (Гц) - значение основного тона, ниже которого основной тон не ищут. e). The absolute minimum frequency of the fundamental tone (Hz) is the value of the fundamental tone, below which the fundamental tone is not sought.

е). Абсолютный максимум частоты основного тона - значение основного тона, выше которого основной тон не ищут. e). The absolute maximum frequency of the fundamental tone is the value of the fundamental tone, above which the fundamental tone is not sought.

Параметры для шума и паузы. Parameters for noise and pause.

а). Размер кадра для анализа шума и пауз - определяет длину кадра анализа при принятии решения (по энергии и частоте пересечений нуля) является ли кадр вокализированным, шумом или паузой. a). Frame size for analysis of noise and pauses - determines the length of the analysis frame when deciding (by energy and frequency of zero intersections) whether the frame is voiced, noise or pause.

б). Сдвиг кадра для анализа шума и пауз - устанавливает размер сдвига кадра во времени при классификации кадра как шумного или паузы. b) Frame shift for noise and pause analysis - sets the size of the frame shift in time when classifying the frame as noisy or pause.

в). Порог для определения паузы - определяет пороговое значение амплитуды. Кадр с амплитудой ниже порога относят к паузе. in). Threshold for determining the pause - determines the threshold value of the amplitude. A frame with an amplitude below the threshold is referred to as a pause.

г). Порог для определения частоты пересечения нуля для определения шума (Гц). Сигнал в кадре анализа с частотой пересечения нулевого уровня выше порога считают шумом. d). Threshold for determining the frequency of zero crossing for determining noise (Hz). The signal in the analysis frame with the frequency of crossing the zero level above the threshold is considered noise.

д). Параметр выраженности автокорреляции. При вычислении основного тона для каждого полученного значения основного тона вычисляют коэффициент автокорреляции и сравнивают с порогом. Если он превышает порог, то кадр относят к вокализированным и основной тон считают определенным, если нет - то кадр считают шумовым. e). The severity parameter of autocorrelation. When calculating the pitch for each pitch value obtained, the autocorrelation coefficient is calculated and compared with a threshold. If it exceeds the threshold, then the frame is classified as vocalized and the pitch is considered defined, if not, then the frame is considered noise.

Указанные параметры требуют предварительного анализа исходного сигнала и во многих случаях форма полученного контура основного тона критична к выбору параметров для шума и паузы. The indicated parameters require a preliminary analysis of the initial signal, and in many cases the shape of the resulting fundamental tone circuit is critical to the choice of parameters for noise and pause.

На фиг. 3 приведена осциллограмма предложения "Не видали мы такого невода", произнесенного диктором мужчиной (VBG), на фиг. 4 эталонный контур основного тона для указанной фразы. Эталонный контур получен ручным способом по осциллограмме. За начало периода основного тона брали момент пересечения нуля главным лепестком, соответствующим началу возбуждения речевого тракта. Такой подход позволяет более точно определить начало периода основного тона, поскольку часто главный максимум на периоде основного тона выражен не очень определенно. In FIG. 3 shows an oscillogram of the sentence “We didn’t see such a net”, uttered by a male announcer (VBG), in FIG. 4 reference pitch outline for the specified phrase. The reference circuit is obtained manually by the waveform. For the beginning of the period of the fundamental tone, the moment of crossing the zero with the main lobe corresponding to the beginning of the excitation of the vocal tract was taken. This approach allows you to more accurately determine the beginning of the period of the fundamental tone, because often the main maximum on the period of the fundamental tone is not very clearly expressed.

На фиг. 5 - 10 показаны контуры основного тона, выделенные пиковым методом, фильтровым методом, методом Рабинера - Голда, кепстральным методом, автокорреляционным методом и методом ЛЛК соответственно при стандартном для мужчин наборе параметров. Стандартный набор параметров для мужского голоса приведен в табл. 1. Видно, что лишь метод ЛЛК обеспечил удовлетворительное качество выделения траектории основного тона. In FIG. 5–10 show the contours of the fundamental tone identified by the peak method, the filter method, the Rabiner – Gold method, the cepstral method, the autocorrelation method, and the LLK method, respectively, with a standard set of parameters for men. The standard set of parameters for the male voice is given in table. 1. It can be seen that only the LLK method ensured a satisfactory quality of distinguishing the trajectory of the fundamental tone.

На фиг. 11 показана траектория основного тона, полученная предлагаемым методом при следующих параметрах: частота среза фильтра низких частот 1500 Гц, начальная частота основного тона 120 Гц, допустимое изменение периода основного тона Δ = 0,5, величина приращения спадающего сигнала относительно выделенного максимума D = 200 при условии нормировки сигнала на уровне не более 2048 отсчетов, коэффициент времени блокировки Q = 0,5, коэффициент асимметрии As = 1.8, допустимая максимальная частота основного тона Fmax = 500 Гц. В последующих экспериментах указанные параметры оставались неизменными, за исключением некоторых случаев, которые будут указаны отдельно. Выделение пауз выполнено вручную. Из фиг. 11 видно, что предлагаемый метод обеспечивает качественное выделение траектории основного тона для мужского голоса, не худшее, чем в методе ЛЛК.In FIG. 11 shows the trajectory of the fundamental tone obtained by the proposed method with the following parameters: cutoff frequency of the low-pass filter 1500 Hz, initial frequency of the fundamental tone 120 Hz, permissible change in the period of the fundamental tone Δ = 0.5, the increment of the decaying signal relative to the selected maximum D = 200 at provided that the signal is normalized to a level of no more than 2048 samples, the blocking coefficient is Q = 0.5, the asymmetry coefficient is A s = 1.8, the maximum permissible fundamental frequency is F max = 500 Hz. In subsequent experiments, these parameters remained unchanged, with the exception of some cases, which will be indicated separately. Pause highlighting is done manually. From FIG. 11 it can be seen that the proposed method provides high-quality selection of the trajectory of the fundamental tone for the male voice, not worse than in the LLK method.

На фиг. 12 показана та же осциллограмма, что и на фиг. 3, но с уточненным положением марок, соответствующих паузам. In FIG. 12 shows the same waveform as in FIG. 3, but with the specified position of the marks corresponding to pauses.

На фиг. 13 - 19 приведены контуры основного тона указанного предложения, выделенные после подстройки параметров пиковым методом, фильтровым методом, методом Рабинера - Голда, кепстральным методом, автокорреляционным методом, методом ЛЛК и предлагаемым методом соответственно. Параметры, полученные после подстройки, показаны в табл.2. Параметры предлагаемого метода не изменялись. In FIG. Figures 13 - 19 show the contours of the fundamental tone of the indicated sentence, identified after adjusting the parameters by the peak method, the filter method, the Rabiner-Gold method, the cepstral method, the autocorrelation method, the LLK method and the proposed method, respectively. The parameters obtained after adjustment are shown in Table 2. The parameters of the proposed method did not change.

После подстройки параметров удалось добиться существенного повышения качества выделенных контуров. Наилучшее выделение контуров среди методов-аналогов получено для кепстрального метода и метода ЛЛК. Качество выделения контура основного тона предлагаемым методом не хуже, чем в методах-аналогах. Ни один из методов аналогов не обеспечил правильного выделения траектории основного тона для короткой гласной /а/, расположенной между смычками /т/ и /к/ в слове "такого". After adjusting the parameters, a significant increase in the quality of the selected contours was achieved. The best allocation of contours among analog methods was obtained for the cepstral method and the LLK method. The quality of the outline of the fundamental tone by the proposed method is not worse than in the analogue methods. None of the analogue methods provided the correct allocation of the trajectory of the fundamental tone for the short vowel / a /, located between the bows / t / and / c / in the word "such".

На фиг. 20 приведено произнесение предложения "Не видали мы такого невода" диктором женщиной (ИГФ). На фиг. 21 представлен эталонный контур основного тона, полученный ручным способом по осциллограмме. На фиг. 22 - 28 показаны контуры основного тона указанного предложения, выделенные после подстройки параметров пиковым методом, фильтровым методом, методом Рабинера - Голда, кепстральным методом, автокорреляционным методом, методом ЛЛК и предлагаемым методом соответственно. Параметры, полученные после подстройки, показаны в табл. 3. Параметры предлагаемого метода не изменялись кроме начальной частоты основного тона, которая взята равной 240 Гц. Выводы относительно качества выделения основного тона методами-аналогами и предлагаемым методом аналогичны выводам, сделанным для мужского голоса. На фиг. 29 приведена осциллограмма слова "три", произнесенного изолированно диктором мужчиной (VBG). На фиг. 30 - 36 показаны контуры основного тона указанного слова, выделенные после подстройки параметров пиковым методом, фильтровым методом, методом Рабинера - Голда, кепстральным методом, автокорреляционным методом, методом ЛЛК и предлагаемым методом соответственно. Параметры, полученные после подстройки, показаны в табл. 4. Параметры предлагаемого метода соответствуют параметрам, использованным при выделении основного тона предложения "Не видали мы такого невода", произнесенного диктором VBG. In FIG. Figure 20 shows the utterance of the sentence “We didn’t see such a net” by the announcer woman (IHF). In FIG. 21 is a reference outline of the fundamental tone obtained manually by the waveform. In FIG. 22 - 28 show the contours of the fundamental tone of the sentence, identified after adjusting the parameters by the peak method, the filter method, the Rabiner-Gold method, the cepstral method, the autocorrelation method, the LLK method and the proposed method, respectively. The parameters obtained after adjustment are shown in table. 3. The parameters of the proposed method did not change except the initial frequency of the fundamental tone, which is taken equal to 240 Hz. The conclusions regarding the quality of emphasizing the fundamental tone by analogue methods and the proposed method are similar to the conclusions drawn for the male voice. In FIG. Figure 29 shows an oscillogram of the word "three," pronounced in isolation by a male announcer (VBG). In FIG. 30 - 36 show the contours of the fundamental tone of the specified word, highlighted after adjusting the parameters by the peak method, the filter method, the Rabiner-Gold method, the cepstral method, the autocorrelation method, the LLK method and the proposed method, respectively. The parameters obtained after adjustment are shown in table. 4. The parameters of the proposed method correspond to the parameters used to highlight the main tone of the sentence "We did not see such a net", uttered by the announcer VBG.

Анализ полученных на фиг. 30 - фиг. 36 контуров показывает, что ни один из методов-аналогов не обеспечил правильного выделения контура основного тона на переходе от смычки /т/ к звонкой /р/. Для доказательства соответствия контура основного тона, полученного предлагаемым методом, истинному контуру основного тона на фиг. 37, фиг. 39 и фиг. 41 представлены в увеличенном во времени масштабе отфильтрованные фильтром низких частот с частотой среза 1500 Гц осциллограммы отдельных участков слова "три", а на фиг. 38, фиг. 40 и фиг. 42 - соответствующие им контуры основного тона, полученные предлагаемым методом. Из этих фигур видно, что предлагаемый метод обеспечил правильную простановку марок в началах возбуждения речевого тракта, как на переходных, так и на стационарных участках произнесения. The analysis obtained in FIG. 30 - FIG. 36 circuits shows that none of the analogue methods provided the correct allocation of the pitch circuit at the transition from the bow / t / to the bell / p /. To prove the correspondence of the pitch contour obtained by the proposed method to the true pitch contour in FIG. 37, FIG. 39 and FIG. 41 shows, in an enlarged time scale, the oscillograms of individual sections of the word “three” filtered by a low-pass filter with a cutoff frequency of 1500 Hz, and in FIG. 38, FIG. 40 and FIG. 42 - the corresponding contours of the fundamental tone obtained by the proposed method. It can be seen from these figures that the proposed method ensured the correct marking at the beginning of the excitation of the vocal tract, both in transitional and stationary pronunciation areas.

На фиг. 43 приведено произнесение предложения "Не видали мы такого невода" диктором VBG с добавленным белым шумом при соотношении сигнал/шум С/Ш = 40 дБ. Соотношение определяли на участках сигнала с максимальной энергией. На фиг. 44 - 50 показаны контуры основного тона указанного произнесения с шумом при С/Ш = 40 дБ, полученные пиковым методом, фильтровым методом, методом Рабинера - Голда, кепстральным методом, автокорреляционным методом, методом ЛЛК и предлагаемым методом соответственно. Параметры методов-аналогов, полученные после подстройки для произнесения без шума, показаны в табл. 5. Параметры методов-аналогов, полученные после подстройки для произнесения с добавленным шумом при С/Ш = 40 дБ, показаны в табл. 6 Параметры предлагаемого метода соответствуют произнесению мужского голоса (фиг. 3) и не изменялись. Выводы относительно качества выделения основного тона методами-аналогами и предлагаемым методом аналогичны выводам, сделанным для произнесения без шума при анализе осциллограммы, показанной на фиг. 3. In FIG. 43 the pronunciation of the sentence “We didn’t see such a net” is given by the VBG speaker with added white noise at a signal to noise ratio S / N = 40 dB. The ratio was determined in the signal sections with maximum energy. In FIG. 44-50 show the contours of the fundamental tone of the indicated pronunciation with noise at S / N = 40 dB obtained by the peak method, filter method, Rabiner-Gold method, cepstral method, autocorrelation method, LLK method and the proposed method, respectively. The parameters of the analog methods obtained after adjustment for pronunciation without noise are shown in table. 5. The parameters of analog methods obtained after adjustment for pronunciation with added noise at S / N = 40 dB are shown in Table. 6 The parameters of the proposed method correspond to the pronunciation of the male voice (Fig. 3) and did not change. The conclusions regarding the quality of emphasizing the fundamental tone by analogue methods and the proposed method are similar to the conclusions drawn for pronouncing without noise in the analysis of the oscillogram shown in FIG. 3.

На фиг. 51 приведено произнесение предложения "Не видали мы такого невода" диктором VBG с добавленным белым шумом при соотношении сигнал/шум С/Ш = 30 дБ. На фиг. 52 - 58 показаны контуры основного тона указанного произнесения с шумом при С/Ш = 30 дБ, полученные пиковым методом, фильтровым методом, методом Рабинера - Голда, кепстральным методом, автокорреляционным методом, методом ЛЛК и предлагаемым методом соответственно. Параметры методов-аналогов, полученные после подстройки для произнесения с шумом при С/Ш = 30 дБ, показаны в табл. 7. Параметры предлагаемого метода соответствуют произнесению мужского голоса (фиг. 3) и не изменялись. In FIG. Figure 51 shows the pronunciation of the sentence “We didn’t see such a net” by the VBG speaker with added white noise at a signal to noise ratio S / N = 30 dB. In FIG. 52 - 58 show the contours of the fundamental tone of the indicated pronunciation with noise at S / N = 30 dB obtained by the peak method, filter method, Rabiner-Gold method, cepstral method, autocorrelation method, LLK method and the proposed method, respectively. The parameters of the analog methods obtained after adjustment for pronunciation with noise at S / N = 30 dB are shown in Table. 7. The parameters of the proposed method correspond to the pronunciation of the male voice (Fig. 3) and did not change.

Можно отметить появление ошибок при определении основного тона всеми без исключения методами. Наихудшие результаты показал автокорреляционный метод (фиг. 57). Лучше всего работали кепстральный метод (фиг. 55), метод ЛЛК (фиг. 57) и предлагаемый метод (фиг. 58). И в этом случае можно отдать предпочтение предлагаемому методу. Его ошибки, в основном, расположены в области фонемы /а/ между двумя смычками /т/ и /к/ слова "такого". Указанный участок методами-аналогами во всех случаях обработан с ошибками. We can note the appearance of errors in determining the fundamental tone by all methods without exception. The worst results were shown by the autocorrelation method (Fig. 57). The cepstral method worked best (Fig. 55), the LLK method (Fig. 57) and the proposed method (Fig. 58). And in this case, you can give preference to the proposed method. His mistakes are mainly located in the phoneme / a / between the two bows / t / and / c / of the word "such". The specified section by analogous methods in all cases was processed with errors.

На фиг. 59 приведено произнесение предложения "Не видали мы такого невода" диктором VBG с добавленным белым шумом при соотношении сигнал/шум С/Ш = 20 дБ. На фиг. 60 - 66 показаны контуры основного тона указанного произнесения с шумом при С/Ш = 20 дБ, полученные пиковым методом, фильтровым методом, методом Рабинера - Голда, кепстральным методом, автокорреляционным методом, методом ЛЛК и предлагаемым методом соответственно. Параметры методов-аналогов, полученные после подстройки для произнесения с шумом при С/Ш = 20 дБ, показаны в табл. 8. Параметры предлагаемого метода соответствуют произнесению мужского голоса (фиг. 3) и не изменялись. In FIG. 59 the pronunciation of the sentence “We didn’t see such a net” is given by the VBG speaker with added white noise at a signal to noise ratio S / N = 20 dB. In FIG. 60 - 66 shows the contours of the fundamental tone of the indicated pronunciation with noise at S / N = 20 dB obtained by the peak method, filter method, Rabiner-Gold method, cepstral method, autocorrelation method, LLK method and the proposed method, respectively. The parameters of the analog methods obtained after adjustment for pronouncing with noise at S / N = 20 dB are shown in Table. 8. The parameters of the proposed method correspond to the pronunciation of the male voice (Fig. 3) and did not change.

Количество ошибок во всех методах по сравнению с произнесением при С/Ш = 30 дБ возросло, но незначительно. Снова наихудшие результаты показал автокорреляционный метод (фиг. 64). Из фиг. 66 следует, что и при С/Ш = 20 дБ можно отдать предпочтение предлагаемому методу, хотя и можно отметить появление небольшого количества дополнительных ошибок на интервале смычки /д/ в слове "невода". The number of errors in all methods compared with the pronunciation at S / N = 30 dB increased, but not significantly. Again, the worst results were shown by the autocorrelation method (Fig. 64). From FIG. 66 it follows that even with S / N = 20 dB, one can give preference to the proposed method, although a small number of additional errors can be noted on the bow interval / d / in the word "net".

На фиг. 67 приведено произнесение предложения "Не видали мы такого невода" диктором VBG с добавленным белым шумом при соотношении сигнал/шум С/Ш = 10 дБ. На фиг. 68 - 74 показаны контуры основного тона указанного произнесения с шумом при С/Ш = 10 дБ, полученные пиковым методом, фильтровым методом, методом Рабинера - Голда, кепстральным методом, автокорреляционным методом, методом ЛЛК и предлагаемым методом соответственно. Параметры методов-аналогов, полученные после подстройки для произнесения с шумом при С/Ш = 10 дБ, показаны в табл. 9. Параметры предлагаемого метода соответствуют произнесению мужского голоса (фиг. 3) и не изменялись кроме частоты среза фильтра низких частот, которая взята равной 800 Гц. In FIG. 67 shows the pronunciation of the sentence “We didn’t see such a net” by the VBG speaker with added white noise at a signal to noise ratio S / N = 10 dB. In FIG. 68 - 74 show the contours of the fundamental tone of the indicated pronunciation with noise at S / N = 10 dB obtained by the peak method, filter method, Rabiner-Gold method, cepstral method, autocorrelation method, LLK method and the proposed method, respectively. The parameters of the analog methods obtained after adjustment for pronouncing with noise at S / N = 10 dB are shown in Table. 9. The parameters of the proposed method correspond to the pronunciation of the male voice (Fig. 3) and did not change except the cutoff frequency of the low-pass filter, which is taken to be 800 Hz.

Количество ошибок во всех методах по сравнению с произнесением при отсутствии шума возросло. Во всех методах-аналогах потерян участок окончания произнесения, появились ошибки на фонеме /н/ в слове "невода". В пиковом, фильтровом, автокорреляционном методе и в методе ЛЛК есть ошибки на переходе от /и/ к /м/ в сочетании слов "не видали мы". Во всех методах аналогах участок короткой /а/ между смычными /т/ и /к/ обработан с большими ошибками. Изрезанность контура основного тона, полученного предлагаемым методом, возросла, количество ошибок на участке смычки /д/ из слова "не видали" также увеличилось. Однако только предлагаемый метод в целом правильно получил траекторию основного тона, в том числе и на участке окончания произнесения и на короткой /а/ между смычками /т/ и /к/. The number of errors in all methods compared with pronunciation in the absence of noise increased. In all analogue methods, the pronunciation ending section is lost, errors appeared on the phoneme / n / in the word "net". In the peak, filter, autocorrelation and LLK methods, there are errors in the transition from / and / to / m / in the combination of the words “we did not see”. In all analogue methods, the section of short / a / between closure / t / and / c / was processed with large errors. The irregularity of the outline of the fundamental tone obtained by the proposed method has increased, the number of errors in the section of the bow / d / from the word "not seen" has also increased. However, only the proposed method as a whole correctly received the trajectory of the fundamental tone, including at the end of pronunciation and at the short / a / between the bows / t / and / k /.

На фиг. 75 приведено произнесение предложения "Не видали мы такого невода" диктором VBG с добавленным белым шумом при соотношении сигнал/шум С/Ш = 5 дБ. На фиг. 76 - 82 показаны контуры основного тона указанного произнесения с шумом при С/Ш = 5 дБ, полученные пиковым методом, фильтровым методом, методом Рабинера - Голда, кепстральным методом, автокорреляционным методом, методом ЛЛК и предлагаемым методом соответственно. Параметры методов-аналогов, полученные после подстройки для произнесения с шумом при С/Ш = 5 дБ, показаны в табл. 10. Параметры предлагаемого метода соответствуют произнесению мужского голоса (фиг. 3) и не изменялись кроме частоты среза фильтра низких частот, которая взята равной 800 Гц. In FIG. 75 the pronunciation of the sentence “We didn’t see such a net” is given by the VBG speaker with added white noise at a signal to noise ratio S / N = 5 dB. In FIG. 76 - 82 shows the contours of the fundamental tone of the specified pronunciation with noise at S / N = 5 dB obtained by the peak method, the filter method, the Rabiner-Gold method, the cepstral method, the autocorrelation method, the LLK method and the proposed method, respectively. The parameters of the analog methods obtained after adjustment for pronunciation with noise at S / N = 5 dB are shown in Table. 10. The parameters of the proposed method correspond to the pronunciation of the male voice (Fig. 3) and did not change except the cutoff frequency of the low-pass filter, which is taken to be 800 Hz.

Количество ошибок во всех методах по сравнению с произнесением при отсутствии шума существенно возросло. Во всех методах-аналогах потеряны участки начала и окончания произнесения, имеются многочисленные ошибки на переходах между фонемами. The number of errors in all methods compared with pronunciation in the absence of noise has increased significantly. In all analog methods, the areas of the beginning and end of pronunciation are lost, there are numerous errors in the transitions between phonemes.

Количество ошибок выделения основного тона предлагаемым методом также возросло, можно отметить переход на половинную частоту основного тона в начале произнесения, повышенную изрезанность и повышенное количество ошибок в конце произнесения. Однако предлагаемый метод в целом обеспечил правильное слежение за траекторией основного тона на протяжении всего произнесения. The number of errors in the allocation of the fundamental tone by the proposed method has also increased, it can be noted the transition to half the frequency of the fundamental tone at the beginning of pronunciation, increased ruggedness and an increased number of errors at the end of pronunciation. However, the proposed method as a whole ensured the correct tracking of the trajectory of the fundamental tone throughout the entire pronunciation.

На фиг. 83 приведено произнесение предложения "Не видали мы такого невода" диктором VBG с добавленным белым шумом при соотношении сигнал/шум С/Ш = 0 дБ. На фиг. 84 - 87 показаны контуры основного тона указанного произнесения с шумом при С/Ш = 0 дБ, полученные пиковым методом, фильтровым методом, методом Рабинера - Голда и предлагаемым методом соответственно. Кепстральный метод, автокорреляционный метод и метод ЛЛК оказались полностью неработоспособны. Параметры методов-аналогов, полученные после подстройки для произнесения с шумом при С/Ш = 0 дБ, показаны в табл. 11. Параметры предлагаемого метода соответствуют произнесению мужского голоса (фиг. 3) и не изменялись кроме частоты среза фильтра низких частот, которая взята равной 800 Гц. In FIG. 83 the pronunciation of the sentence “We didn’t see such a net” is given by the VBG speaker with added white noise at a signal to noise ratio S / N = 0 dB. In FIG. 84 - 87 shows the contours of the fundamental tone of the indicated pronunciation with noise at S / N = 0 dB obtained by the peak method, the filter method, the Rabiner-Gold method and the proposed method, respectively. The cepstral method, the autocorrelation method, and the LLK method were completely inoperative. The parameters of the analog methods obtained after adjustment for pronouncing with noise at S / N = 0 dB are shown in Table. 11. The parameters of the proposed method correspond to the pronunciation of the male voice (Fig. 3) and did not change except the cutoff frequency of the low-pass filter, which is taken to be 800 Hz.

Количество ошибок выделения основного тона предлагаемым методом по сравнению со случаем соотношения С/Ш = 5 дБ возросло особенно в конце произнесения. Однако предлагаемый метод, в целом, несмотря на столь низкое соотношение С/Ш, обеспечил приемлемое слежение за траекторией основного тона на протяжении всего произнесения, в то время как методы-аналоги оказались практически неработоспособны. The number of errors in the allocation of the fundamental tone by the proposed method compared with the case of the ratio S / N = 5 dB increased especially at the end of pronunciation. However, the proposed method, in general, despite such a low S / N ratio, provided acceptable tracking of the trajectory of the fundamental tone throughout the pronunciation, while analogue methods were practically inoperative.

Для доказательства правильности работы предлагаемого метода при соотношении С/Ш = 0 дБ на фиг. 88 показан исходный сигнал после фильтра низких частот с частотой среза 800 Гц, на фиг. 89 - исходный сигнал с шумом при С/Ш = 0 дБ, на фиг. 90 - контур основного тона, полученный для зашумленного сигнала при С/Ш = 0 дБ, на фиг. 91 - 100 - осциллограммы сигнала, показанного на фиг. 88, и контура основного тона, показанного на фиг. 90, в увеличенном во времени масштабе. To prove the correct operation of the proposed method with the ratio S / N = 0 dB in FIG. 88 shows the original signal after a low-pass filter with a cutoff frequency of 800 Hz, FIG. 89 is the original signal with noise at S / N = 0 dB, in FIG. 90 is a pitch profile obtained for a noisy signal at S / N = 0 dB, in FIG. 91-100 are waveforms of the signal shown in FIG. 88, and the pitch outline shown in FIG. 90, enlarged over time.

На фиг. 91 и 92 показана осциллограмма перехода от смычки /д/ к гласной /а/ и стационарная часть /а/ из слова "не видали" и соответствующий контур основного тона, полученный предлагаемым методом по зашумленному сигналу. Во всех случаях марки соответствуют моментам возбуждения речевого тракта. In FIG. 91 and 92 show the oscillogram of the transition from the bow / d / to the vowel / a / and the stationary part / a / from the word "not seen" and the corresponding pitch circuit obtained by the proposed method using a noisy signal. In all cases, the marks correspond to the moments of excitation of the vocal tract.

На фиг. 93 и 94 показана осциллограмма перехода от к гласной /а/ к сонорной /л/ далее к гласной /и/ из слова "не видали" и соответствующий контур основного тона, полученный предлагаемым методом по зашумленному сигналу. Можно отметить ошибки простановки марок на /л/, имеющей относительно низкий уровень интенсивности. Однако переход к /и/ вновь обработан правильно. In FIG. 93 and 94 show the oscillogram of the transition from to the vowel / a / to the sonor / l / further to the vowel / and / from the word "not seen" and the corresponding pitch circuit obtained by the proposed method for a noisy signal. It is possible to note errors in the marking on / l / having a relatively low level of intensity. However, the transition to / and / is again processed correctly.

На фиг. 95 и 96 показана осциллограмма перехода от сонорной /м/ к гласной /ы/ из слова "мы" и соответствующий контур основного тона, полученный предлагаемым методом по зашумленному сигналу. Можно отметить две ошибки простановки марок на /м/, что дало подъем контура основного тона. Из фиг. 95 видно, что даже на незашумленном сигнале на периоде основного тона в /м/ имеются повторные максимумы, сравнимые по амплитуде с основными, что и привело к сбоям на сигнале с шумом. Однако на переходе к /ы/ марки проставлены правильно. In FIG. Figures 95 and 96 show the oscillogram of the transition from the sonoric / m / to the vowel / s / from the word "we" and the corresponding pitch circuit obtained by the proposed method using a noisy signal. Two errors of marking on / m / can be noted, which gave rise to the pitch of the main tone. From FIG. 95 it can be seen that even on a non-noisy signal at the fundamental tone period in / m / there are repeated maxima comparable in amplitude to the main ones, which led to failures in the signal with noise. However, in the transition to / s / marks are affixed correctly.

На фиг. 97 и 98 показана осциллограмма гласной /а/, расположенной между смычками /т/ и /к/ в слове "такого" и соответствующий контур основного тона, полученный предлагаемым методом по зашумленному сигналу. Во всех случаях марки на гласной /а/ проставлены правильно. На фиг. 99 и 100 показана осциллограмма перехода от гласной /о/ к смычке /д/ в слове "невода" и соответствующий контур основного тона, полученный предлагаемым методом по зашумленному сигналу. Видно, что несмотря на то, что марки не везде соответствуют моментам возбуждения речевого тракта, периодичность основного тона на рассматриваемом участке произнесения сохранена. In FIG. 97 and 98 show the oscillogram of the vowel / a / located between the bows / t / and / c / in the word "such" and the corresponding pitch circuit obtained by the proposed method using a noisy signal. In all cases, the marks on the vowel / a / are affixed correctly. In FIG. 99 and 100 show the oscillogram of the transition from the vowel / o / to the bow / d / in the word "net" and the corresponding pitch circuit obtained by the proposed method for a noisy signal. It can be seen that despite the fact that the marks do not always correspond to the moments of excitation of the vocal tract, the frequency of the fundamental tone in the considered pronunciation section is preserved.

При дальнейшем снижении соотношения С/Ш предлагаемый метод оказался неработоспособным. В целом можно утверждать, что предлагаемый метод обеспечивает выделение траектории основного тона при соотношении С/Ш не менее чем на 5 дБ ниже по сравнению с методами аналогами. With a further decrease in the S / N ratio, the proposed method turned out to be inoperative. In general, it can be argued that the proposed method provides the allocation of the trajectory of the fundamental tone with a S / N ratio of at least 5 dB lower compared to analog methods.

На фиг. 101 и 102 показана осциллограмма произнесения диктором VBG предложения "Не видали мы такого невода" и контур основного тона, полученный предлагаемым методом, соответственно. In FIG. 101 and 102 show the oscillogram of the speaker’s utterance by the VBG sentence “We didn’t see such a net” and the pitch outline obtained by the proposed method, respectively.

Данный контур в приводимых ниже экспериментах принят за эталонный. Максимальный уровень сигнала на фиг. 101 равен 819 отсчетов. This circuit in the experiments below is taken as a reference. The maximum signal level in FIG. 101 is equal to 819 samples.

На фиг. 103 представлена осциллограмма сигнала, полученного из сигнала, показанного на фиг. 101, путем ограничения последнего на уровне 100 отсчетов. На фиг. 104 - 110 показаны контуры основного тона указанного произнесения при ограничении на уровне 100 отсчетов, полученные пиковым методом, фильтровым методом, методом Рабинера - Голда, кепстральным методом, автокорреляционным методом, методом ЛЛК и предлагаемым методом соответственно. Параметры методов-аналогов, полученные после подстройки для сигнала, ограниченного на уровне 100 отсчетов, показаны в табл. 12. Параметры предлагаемого метода соответствуют произнесению мужского голоса (фиг. 3) и оставались неизменными. Из фиг. 104 - 110 следует, что все представленные методы для сигнала, ограниченного на уровне 100 отсчетов, обеспечили удовлетворительное качество выделения основного тона. In FIG. 103 is a waveform of a signal obtained from the signal shown in FIG. 101, by limiting the latter to 100 samples. In FIG. 104 - 110 shows the contours of the fundamental tone of the indicated pronunciation with a limit of 100 samples obtained by the peak method, the filter method, the Rabiner-Gold method, the cepstral method, the autocorrelation method, the LLK method and the proposed method, respectively. The parameters of the analog methods obtained after adjustment for the signal limited at the level of 100 samples are shown in Table. 12. The parameters of the proposed method correspond to the pronunciation of the male voice (Fig. 3) and remained unchanged. From FIG. 104 - 110 it follows that all the methods presented for the signal limited at the level of 100 samples, provided a satisfactory quality of the selection of the fundamental tone.

На фиг. 111 представлена осциллограмма сигнала, полученного из сигнала, показанного на фиг. 101, путем ограничения последнего на уровне 50 отсчетов. На фиг. 112 - 118 показаны контуры основного тона указанного произнесения при ограничении на уровне 50 отсчетов, полученные пиковым методом, фильтровым методом, методом Рабинера - Голда, кепстральным методом, автокорреляционным методом, методом ЛЛК и предлагаемым методом соответственно. Параметры методов-аналогов, полученные после подстройки для сигнала, ограниченного на уровне 50 отсчетов, показаны в табл. 13. Параметры предлагаемого метода соответствуют произнесению мужского голоса (фиг. 3) и оставались неизменными. Из фиг. 112 - 117 следует, что все представленные методы, кроме автокорреляционного, обеспечили удовлетворительное качество выделения основного тона. Можно отметить появление отдельных ошибок на всех методах, кроме кепстрального. Предлагаемый метод (фиг. 118) сохранил свой контур неизменным. In FIG. 111 is a waveform diagram of a signal obtained from the signal shown in FIG. 101, by limiting the latter to 50 samples. In FIG. 112 - 118 shows the contours of the fundamental tone of the specified pronunciation with a limit of 50 samples obtained by the peak method, filter method, Rabiner-Gold method, cepstral method, autocorrelation method, LLK method and the proposed method, respectively. The parameters of the analog methods obtained after adjustment for the signal limited at the level of 50 samples are shown in Table. 13. The parameters of the proposed method correspond to the pronunciation of the male voice (Fig. 3) and remained unchanged. From FIG. 112 - 117 it follows that all the methods presented, except for the autocorrelation, provided a satisfactory quality of the selection of the fundamental tone. It is possible to note the appearance of individual errors on all methods except the cepstral one. The proposed method (Fig. 118) has kept its circuit unchanged.

При дальнейшем снижении уровня ограничения методы-аналоги оказались неработоспособными. Предлагаемый метод, тем не менее обеспечил надежное выделение контура основного тона вплоть до предельного уровня ограничения в 1 отсчет. На фиг. 119 -124 показаны осциллограммы сигналов и соответствующие им контуры основного тона, полученные предлагаемым методом для уровней ограничения 10 отсчетов, 5 отсчетов и 1 отсчет. Для иллюстрации наличия периодичности основного тона на участке смычки /д/ из слова "не видали" на фиг. 125 показан исходный сигнал в увеличенном во времени масштабе. Во всех случаях параметры предлагаемого метода оставались неизменными. With a further decrease in the level of restriction, analogue methods turned out to be inoperative. The proposed method, nevertheless, ensured a reliable selection of the fundamental tone contour up to the limiting limit level of 1 count. In FIG. 119 -124 shows the waveforms of the signals and the corresponding pitch paths obtained by the proposed method for the levels of limitation of 10 samples, 5 samples and 1 sample. To illustrate the presence of periodicity of the fundamental tone in the section of the bow / d / from the word “not seen” in FIG. 125 shows the original signal in a zoomed-in time scale. In all cases, the parameters of the proposed method remained unchanged.

Предлагаемый метод относится к локальным методам, т.е. он определяет момент возбуждения на каждом периоде основного тона. Указанное свойство предлагаемого метода позволяет вести анализ речевого сигнала на периоде основного тона и получить дополнительные полезные эффекты. The proposed method relates to local methods, i.e. it determines the moment of excitement at each period of the fundamental tone. The indicated property of the proposed method allows the analysis of the speech signal at the period of the fundamental tone and to obtain additional useful effects.

Известно [Дж. Д. Маркел, А.X. Грэй. Линейное предсказание речи. - М.: Связь, 1980. - 308 с.], что корреляционный метод линейного предсказания не обеспечивает устойчивости решения в процессе вычисления коэффициентов линейного предсказания. На фиг. 126 приведена осциллограмма произнесения предложения "Не видали мы такого невода", произнесенного диктором мужчиной AIO. На указанной осциллограмме предлагаемым методом проставлены марки начал возбуждений речевого тракта. Параметры предлагаемого метода основного тона полностью идентичны параметрам, использованным при выделении сигнала, показанного на фиг. 3 (диктор VBG). После простановки марок синхронно с основным тоном выполнен анализ корреляционным методом линейного предсказания 12 порядка. Число отсчетов в каждой рамке анализа соответствует длине одного периода основного тона (от одной марки до следующей). Ресинтезированный сигнал указанного произнесения показан на фиг. 127. На фиг. 127 отчетливо видны моменты неустойчивых решений в моменты перехода от смычных к вокализированным звукам. It is known [J. D. Markel, A.X. Gray. Linear prediction of speech. - M .: Svyaz, 1980. - 308 pp.] That the correlation method of linear prediction does not ensure the stability of the solution in the process of calculating linear prediction coefficients. In FIG. Figure 126 shows an oscillogram for pronouncing the sentence "We didn’t see such a net", uttered by an announcer male AIO. On the indicated waveform by the proposed method, stamps of the beginnings of excitations of the speech tract are affixed. The parameters of the proposed pitch method are completely identical to the parameters used to extract the signal shown in FIG. 3 (VBG speaker). After marking, synchronously with the fundamental tone, an analysis was performed by the correlation method of linear prediction of the 12th order. The number of samples in each analysis frame corresponds to the length of one period of the fundamental tone (from one brand to the next). A re-synthesized signal of said utterance is shown in FIG. 127. In FIG. 127 the moments of unstable decisions are clearly visible at the moments of transition from audible to vocalized sounds.

Предлагаемый метод позволяет устранить указанный недостаток. Для этой цели каждый период основного тона в пределах между двумя последовательными марками умножают на экспоненциально затухающее окно. Показатель степени затухания экспоненты выбирают так, чтобы обеспечить устойчивость решения корреляционного метода. На этапе ресинтеза, с целью восстановления сигнала, полученный на основе коэффициентов линейного предсказания ресинтезированный сигнал умножают на нарастающую экспоненту с соответствующим этапу анализа показателем степени. Пример ресинтезированного таким образом сигнала представлен на фиг. 128. Из фиг. 128 следует, что предлагаемый метод обработки сигнала обеспечивает устойчивость решения при использовании корреляционного метода линейного предсказания. The proposed method allows to eliminate this drawback. For this purpose, each period of the fundamental tone between two consecutive marks is multiplied by an exponentially decaying window. The exponent decay rate is chosen so as to ensure the stability of the solution of the correlation method. At the stage of resynthesis, in order to restore the signal obtained on the basis of linear prediction coefficients, the resynthesized signal is multiplied by a rising exponent with an exponent corresponding to the stage of analysis. An example of a signal thus synthesized is shown in FIG. 128. From FIG. 128 it follows that the proposed signal processing method ensures the stability of the solution when using the correlation linear prediction method.

Эксперименты по прослушиванию ресинтезированного сигнала показали, что он обладает хорошим качеством и разборчивостью. На фиг. 129, 130 и 131 представлены траектории формант исходного сигнала, ресинтезированного без умножения на экспоненту сигнала и ресинтезированного с использованием умножения на экспоненту сигнала соответственно. Можно отметить, что на большей части произнесения формантная структура в целом сохранена для обоих типов ресинтезированного сигнала. Experiments on listening to a re-synthesized signal have shown that it has good quality and intelligibility. In FIG. 129, 130, and 131 show the paths of the formants of the original signal resynthesized without multiplying by the exponent of the signal and resynthesized using multiplication by the exponential of the signal, respectively. It can be noted that for most of the pronunciation, the formant structure as a whole is preserved for both types of resynthesized signal.

Сигнал, смешанный с шумом, в значительной степени теряет свою периодичность, связанную с основным тоном. Для подчеркивания указанной периодичности предлагается методом скользящего среднего сглаживать сигнал, умноженный на временное окно. В качестве временного окна использовано окно sch(t). На фиг. 135 - 138 показаны осциллограмма слова "четыре", произнесенная диктором мужчиной AIO; эталонный контур основного тона, для указанного слова, построенный ручным способом; осциллограмма сигнала этого слова с добавленным шумом при С/Ш = 5 дБ; осциллограмма сглаженного секансным окном и нормализованного сигнала без шума; контур основного тона, построенный по сглаженному сигналу без шума предлагаемым методом; временная функция секансного окна и сглаженный секансным окном сигнал с шумом. Ширина секансного окна по уровню 0,05 от максимума взята равной 0,67 от среднего периода основного тона. Параметры предлагаемого метода оставались неизменными. A signal mixed with noise largely loses its frequency associated with the fundamental tone. To emphasize the indicated periodicity, it is proposed to use the moving average method to smooth the signal multiplied by the time window. The sch (t) window was used as a temporary window. In FIG. 135 - 138 show the waveform of the word "four" spoken by an AIO male announcer; a reference outline of the fundamental tone, for the specified word, constructed manually; waveform of the signal of this word with added noise at S / N = 5 dB; an oscillogram of a smoothed secant window and a normalized signal without noise; the main tone circuit constructed by a smoothed signal without noise by the proposed method; the time function of the secant window and the signal with noise smoothed by the secant window. The width of the secant window at the level of 0.05 from the maximum is taken equal to 0.67 from the average period of the fundamental tone. The parameters of the proposed method remained unchanged.

Из сравнения фиг. 132 и 135, фиг. 134 и 138 видно, что сглаживание секансным окном обеспечивает подчеркивание периодичности, связанной с основным тоном при одновременном упрощении формы обрабатываемого сигнала. Контур основного тона, полученный для сглаженного сигнала без шума (фиг. 136), соответствует эталонному контуру (фиг. 133). From a comparison of FIG. 132 and 135, FIG. 134 and 138 it can be seen that smoothing by the secant window provides underlining of the frequency associated with the fundamental tone while simplifying the shape of the processed signal. The pitch profile obtained for a smoothed signal without noise (Fig. 136) corresponds to the reference contour (Fig. 133).

Предлагаемый метод проставляет марки в моменты времени, соответствующие моментам возбуждения речевого тракта. Простановка этих марок позволяет вести анализ признаков речевого сигнала синхронно с основным тоном в пределах одного периода основного тона. Параметры речеобразующего тракта на одном периоде основного тона существенно не меняются, что позволяет повысить точность и надежность измерения этих параметров. Проведены эксперименты по оценке точности принятия решения ТОН/НЕ_ТОН на основе поведения трех признаков: 1) энергия, 2) частота пересечения нуля и 3) первый коэффициент линейного предсказания. Решение принимали синхронно и асинхронно с основным тоном. В случае принятия решения синхронно с основным тоном указанные параметры измеряли на сигнале между двумя последовательными марками и по превышению экспериментально установленных порогов совместно по трем признакам принимали решение о наличии или отсутствии вокализации на данном интервале времени. В случае асинхронного анализа решение ТОН/НЕ_ТОН принимали на кадре анализа длительностью 20 мс. Далее кадр анализа сдвигали на 1 мс и вновь выполняли процедуру принятия решения ТОН/НЕ_ТОН. Построенные предлагаемым методом контуры основного тона по сглаженному зашумленному сигналу (фиг. 138) в случае синхронного и асинхронного принятия решения ТОН/НЕ_ТОН показаны на фиг. 139 и 140 соответственно. Из сравнения этих контуров с эталонным контуром основного тона (фиг. 133) видно, что синхронное с основным тоном принятие решения ТОН/НЕ_ТОН обеспечивает меньшее количество ошибок. The proposed method affixes marks at time points corresponding to the moments of excitation of the vocal tract. The placement of these brands allows you to analyze the characteristics of the speech signal synchronously with the fundamental tone within the same period of the fundamental tone. The parameters of the speech-forming tract on one period of the fundamental tone do not change significantly, which allows to increase the accuracy and reliability of the measurement of these parameters. Experiments have been conducted to evaluate the accuracy of the TON / NE_TON decision based on the behavior of three signs: 1) energy, 2) the frequency of zero crossing, and 3) the first linear prediction coefficient. The decision was made synchronously and asynchronously with the main tone. If a decision was made in synchronism with the fundamental tone, the indicated parameters were measured on a signal between two consecutive marks and, after exceeding the experimentally established thresholds, together with three signs, they made a decision about the presence or absence of vocalization for a given time interval. In the case of asynchronous analysis, the TON / NE_TON decision was taken on the analysis frame with a duration of 20 ms. Next, the analysis frame was shifted by 1 ms and the decision procedure TON / NE_TON was again performed. The contours of the fundamental tone constructed by the proposed method using a smoothed, noisy signal (Fig. 138) in the case of synchronous and asynchronous TON / NOT_TON decisions are shown in FIG. 139 and 140, respectively. From a comparison of these circuits with the reference circuit of the fundamental tone (Fig. 133) it is seen that the decision TON / NOT_THON synchronous with the fundamental tone provides fewer errors.

На фиг. 141 - 145 представлены контуры основного тона сигнала с шумом, показанного на фиг. 134, полученные пиковым методом, кепстральным методом, методом Рабинера - Голда, фильтровым методом и методом ЛЛК соответственно. Параметры методов-аналогов, полученные после подстройки для сигнала с шумом при С/Ш = 5 дБ, показаны в табл. 14. Параметры предлагаемого метода соответствуют произнесению мужского голоса (фиг. 3) и оставались неизменными кроме коэффициента асимметрии As, который повысили с 1,8 до 2.0. Из фиг. 141 - 145 следует, что все представленные методы обеспечили худшее качество принятия решения ТОН/НЕ_ТОН по сравнению с синхронным с основным тоном принятием решения ТОН/НЕ_ТОН на основе предлагаемого метода. Автокорреляционный метод вообще оказался неработоспособным.In FIG. 141 to 145 show the outline of the pitch of the noise signal shown in FIG. 134 obtained by the peak method, the cepstral method, the Rabiner – Gold method, the filter method, and the LLK method, respectively. The parameters of the analog methods obtained after adjustment for the signal with noise at S / N = 5 dB are shown in Table. 14. The parameters of the proposed method correspond to the pronunciation of the male voice (Fig. 3) and remained unchanged except for the asymmetry coefficient A s , which was increased from 1.8 to 2.0. From FIG. 141 - 145 it follows that all the methods presented provided the worst quality of the TON / NE_TON decision in comparison with the TON / NE_TON decision synchronous with the main tone based on the proposed method. The autocorrelation method was generally inoperative.

На фиг. 146 показан сигнал телефонного канала, полученный путем пропускания сигнала, показанного на фиг. 132, через полосовой фильтр с частотами среза 300 - 3300 Гц. В качестве полосового фильтра использован фильтр Баттерворта восьмого порядка. Из фиг. 146 видно, что подавление диапазона первой гармоники основного тона приводит к подавлению информации об основном тоне в сигнале. In FIG. 146 shows a telephone channel signal obtained by passing the signal shown in FIG. 132, through a band-pass filter with cutoff frequencies of 300 - 3300 Hz. The eighth-order Butterworth filter is used as a band-pass filter. From FIG. 146 it can be seen that suppressing the first harmonic range of the fundamental tone suppresses fundamental information in the signal.

Операция сглаживания секансным окном телефонного сигнала позволяет восстановить информацию об основном тоне. Как и для зашумленного сигнала, сглаживание секансным окном выполнено после операции фильтрации перед операцией логарифмирования. Ширина секансного окна по уровню 0,05 от максимума взята равной 0,67 от среднего периода основного тона. Нормализованный и сглаженный секансным окном телефонный сигнал показан на фиг. 147. Из фиг. 147 видно, что сглаживание секансным окном действительно позволяет в существенной мере восстановить информацию об основном тоне. The operation of smoothing with a secant window of a telephone signal allows you to restore information about the fundamental tone. As for a noisy signal, smoothing with a secant window is performed after the filtering operation before the logarithm operation. The width of the secant window at the level of 0.05 from the maximum is taken equal to 0.67 from the average period of the fundamental tone. The telephone signal normalized and smoothed by the secant window is shown in FIG. 147. From FIG. 147 it can be seen that smoothing with a secant window does indeed allow a substantial recovery of information about the fundamental tone.

Контур основного тона, полученный по телефонному сигналу, сглаженному секансным окном (фиг. 147), показан на фиг. 148. Решение ТОН/НЕ_ТОН выполнено синхронно с основным тоном. Параметры предлагаемого метода оставались неизменными, кроме коэффициента асимметрии, который взят равным 2,6. Из сравнения с эталонным контуром (фиг. 133) видно, что и в этом случае предлагаемый метод обеспечил удовлетворительное качество выделения основного тона, хотя можно отметить ошибки в начале и в конце вокализации. The pitch outline obtained from the telephone signal smoothed by the secant window (FIG. 147) is shown in FIG. 148. The decision TONE / NOT_TONE is executed synchronously with the fundamental tone. The parameters of the proposed method remained unchanged, except for the asymmetry coefficient, which was taken equal to 2.6. From a comparison with the reference circuit (Fig. 133), it can be seen that in this case, the proposed method provided a satisfactory quality of the allocation of the fundamental tone, although errors at the beginning and at the end of vocalization can be noted.

На фиг. 149 - 154 представлены контуры основного тона для телефонного сигнала, показанного на фиг. 146, полученные пиковым методом, кепстральным методом, методом Рабинера - Голда, фильтровым методом, автокорреляционным методом и методом ЛЛК соответственно. Параметры методов-аналогов для телефонного сигнала, показаны в табл. 15. Из сравнения с эталоном (фиг. 133) контуров, показанных на фиг. 149 - 151, видно, что пиковый метод, кепстральный метод и метод Рабинера - Голда обеспечили удовлетворительное качество выделения основного тона по телефонному сигналу, хотя некоторые особенности контура и были потеряны. И в этих условиях контур, полученный предлагаемым методом, является предпочтительным. Фильтровой метод, автокорреляционный метод и метод ЛЛК (фиг. 152 - 154) показали довольно большое количество ошибок. In FIG. 149 to 154 are the pitch profiles for the telephone signal shown in FIG. 146 obtained by the peak method, cepstral method, Rabiner-Gold method, filter method, autocorrelation method, and LLK method, respectively. The parameters of analog methods for a telephone signal are shown in Table. 15. From a comparison with the reference (FIG. 133) of the circuits shown in FIG. 149 - 151, it can be seen that the peak method, the cepstral method, and the Rabiner-Gold method provided a satisfactory quality of the extraction of the fundamental tone by the telephone signal, although some features of the circuit were lost. And under these conditions, the circuit obtained by the proposed method is preferred. The filter method, the autocorrelation method, and the LLK method (Fig. 152 - 154) showed a rather large number of errors.

ЛИТЕРАТУРА
1. М. А. Сапожков. Речевой сигнал в кибернетике и связи. - М.: Связьиздат, 1963. - 472 с.
LITERATURE
1. M. A. Sapozhkov. Speech signal in cybernetics and communication. - M .: Svyazizdat, 1963 .-- 472 p.

2. В. Gold, L. Rabiner. Parallel processing techniques for estimating pitch period of speech in the time domain // J. Acoustic Soc. Am., 1969 - 46. - N 2 (Pt. 2). - P. 442 - 448. 2. B. Gold, L. Rabiner. Parallel processing techniques for estimating pitch period of speech in the time domain // J. Acoustic Soc. Am., 1969 - 46. - N 2 (Pt. 2). - P. 442 - 448.

3. A.М. Noll. Short-Time spectrum and "Cepstrum" techniques for vocal-pitch detection // J. Acoustic. Soc. Am. - 36. - N 2, 1955. 3. A.M. Noll. Short-Time spectrum and "Cepstrum" techniques for vocal-pitch detection // J. Acoustic. Soc. Am. - 36. - N 2, 1955.

4. А.А. Пирогов. Устройство для автоматического выделения основного тона. - А.с. N 129739 СССР. - Приор. от 08.06.58. - НКИ 21е 1/20 42е. 4. A.A. Pies. Device for automatically highlighting the fundamental tone. - A.S. N 129739 USSR. - Prior. from 06/08/58. - NKI 21e 1/20 42e.

5. Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами / Центр речевых технологий. С. Петербург. - С. Петербург, 1997. - 394 с. 5. Guidelines for the practical use of the SIS program when working with speech signals / Center for Speech Technologies. S. Petersburg. - S. Petersburg, 1997 .-- 394 p.

6. L.О. Dolansky. Instantaneous pitch period indicator // J.Acoust. Sos. Am. - 27. - N 11, 1955. - P. 67 - 72 (прототип). 6. L.O. Dolansky. Instantaneous pitch period indicator // J. Acoust. Sos. Am. - 27. - N 11, 1955. - P. 67 - 72 (prototype).

Claims (7)

1. Способ выделения основного тона, заключающийся в том, что выделяют основные максимумы временной функции исходного сигнала, после выделенного максимума в течение интервала блокировки блокируют поиск максимума, после интервала блокировки генерируют спадающий сигнал, снижающийся относительно выделенного максимума, отличающийся тем, что спадающий сигнал генерируют с максимальным значением, которое в момент окончания времени блокировки превышает абсолютный максимум исходного сигнала на анализируемом периоде основного тона. 1. The way to select the fundamental tone, which consists in the fact that the main maxima of the time function of the original signal are extracted, after the maximum is selected, the search for the maximum is blocked during the blocking interval, after the blocking interval, a decaying signal is generated, decreasing relative to the highlighted maximum, characterized in that the decaying signal is generated with a maximum value that at the end of the blocking time exceeds the absolute maximum of the original signal in the analyzed period of the fundamental tone. 2. Способ по п.1, отличающийся тем, что исходный сигнал предварительно логарифмируют, а спадающий сигнал строят в виде линейно снижающегося сигнала. 2. The method according to claim 1, characterized in that the original signal is pre-logarithm, and the falling signal is built in the form of a linearly decreasing signal. 3. Способ по п.1, отличающийся тем, что время блокировки и скорость снижения спадающего сигнала адаптируют к текущему периоду основного тона. 3. The method according to claim 1, characterized in that the blocking time and the rate of decrease of the falling signal are adapted to the current period of the fundamental tone. 4. Способ по п.1, отличающийся тем, что сигнал предварительно ограничивают по частоте фильтром низких частот или полосовым фильтром. 4. The method according to claim 1, characterized in that the signal is preliminarily limited in frequency by a low-pass filter or a band-pass filter. 5. Способ по п.1, отличающийся тем, что исходный сигнал между выделенными основными максимумами умножают на экспоненциально снижающийся сигнал. 5. The method according to claim 1, characterized in that the original signal between the selected main maxima is multiplied by an exponentially decreasing signal. 6. Способ по п.1, отличающийся тем, что перед операцией логарифмирования сигнал сглаживают временным окном, длительность которого определяется длительностью периода основного тона. 6. The method according to claim 1, characterized in that before the logarithm operation, the signal is smoothed by a time window, the duration of which is determined by the duration of the period of the fundamental tone. 7. Способ по п.1, отличающийся тем, что оценку параметров сигнала производят на временном интервале между выделенными главными максимумами исходного сигнала. 7. The method according to claim 1, characterized in that the evaluation of the signal parameters is performed on the time interval between the selected main maxima of the original signal.
RU98108956/09A 1998-05-12 1998-05-12 Method for separating the basic tone RU2174714C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU98108956/09A RU2174714C2 (en) 1998-05-12 1998-05-12 Method for separating the basic tone

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU98108956/09A RU2174714C2 (en) 1998-05-12 1998-05-12 Method for separating the basic tone

Publications (2)

Publication Number Publication Date
RU98108956A RU98108956A (en) 2000-03-20
RU2174714C2 true RU2174714C2 (en) 2001-10-10

Family

ID=20205833

Family Applications (1)

Application Number Title Priority Date Filing Date
RU98108956/09A RU2174714C2 (en) 1998-05-12 1998-05-12 Method for separating the basic tone

Country Status (1)

Country Link
RU (1) RU2174714C2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2490729C2 (en) * 2009-04-03 2013-08-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Apparatus and method for determining plurality of local centre of gravity frequencies of spectrum of audio signal
RU2525431C2 (en) * 2010-04-09 2014-08-10 Долби Интернешнл Аб Mdct-based complex prediction stereo coding
RU2684203C1 (en) * 2017-11-21 2019-04-04 Акционерное общество "Информационные спутниковые системы" имени академика М.Ф. Решетнёва" Method for intellectual analysis of oscillogram
RU2741762C1 (en) * 2020-02-04 2021-01-28 Акционерное общество "Информационные спутниковые системы" имени академика М.Ф.Решетнёва" Method of training system for recognizing signals non-monotonicity

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Вокодерная телефония. Методы и проблемы. /Под ред. А.А. Пирогова. - М.: Связь, 1974, с. 131, рис. 3.14. *
МИХАЙЛОВ В.Г., ЗЛАТОУСТОВА Л.В. Измерения параметров речи.-М.: Радио и связь, 1987, с.113, рис. 5.1б. Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами. STC-D106.1. С.-П.: Центр речевых технологий, 1997, с. 275-279. *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8996363B2 (en) 2009-04-03 2015-03-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal
RU2490729C2 (en) * 2009-04-03 2013-08-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Apparatus and method for determining plurality of local centre of gravity frequencies of spectrum of audio signal
US10283127B2 (en) 2010-04-09 2019-05-07 Dolby International Ab MDCT-based complex prediction stereo coding
US10734002B2 (en) 2010-04-09 2020-08-04 Dolby International Ab Audio upmixer operable in prediction or non-prediction mode
US9159326B2 (en) 2010-04-09 2015-10-13 Dolby International Ab MDCT-based complex prediction stereo coding
US9378745B2 (en) 2010-04-09 2016-06-28 Dolby International Ab MDCT-based complex prediction stereo coding
US9761233B2 (en) 2010-04-09 2017-09-12 Dolby International Ab MDCT-based complex prediction stereo coding
US9892736B2 (en) 2010-04-09 2018-02-13 Dolby International Ab MDCT-based complex prediction stereo coding
US11810582B2 (en) 2010-04-09 2023-11-07 Dolby International Ab MDCT-based complex prediction stereo coding
US10276174B2 (en) 2010-04-09 2019-04-30 Dolby International Ab MDCT-based complex prediction stereo coding
RU2525431C2 (en) * 2010-04-09 2014-08-10 Долби Интернешнл Аб Mdct-based complex prediction stereo coding
US10283126B2 (en) 2010-04-09 2019-05-07 Dolby International Ab MDCT-based complex prediction stereo coding
US10347260B2 (en) 2010-04-09 2019-07-09 Dolby International Ab MDCT-based complex prediction stereo coding
US10360920B2 (en) 2010-04-09 2019-07-23 Dolby International Ab Audio upmixer operable in prediction or non-prediction mode
US10475460B2 (en) 2010-04-09 2019-11-12 Dolby International Ab Audio downmixer operable in prediction or non-prediction mode
US10475459B2 (en) 2010-04-09 2019-11-12 Dolby International Ab Audio upmixer operable in prediction or non-prediction mode
US10553226B2 (en) 2010-04-09 2020-02-04 Dolby International Ab Audio encoder operable in prediction or non-prediction mode
US10586545B2 (en) 2010-04-09 2020-03-10 Dolby International Ab MDCT-based complex prediction stereo coding
US9111530B2 (en) 2010-04-09 2015-08-18 Dolby International Ab MDCT-based complex prediction stereo coding
US11264038B2 (en) 2010-04-09 2022-03-01 Dolby International Ab MDCT-based complex prediction stereo coding
US11217259B2 (en) 2010-04-09 2022-01-04 Dolby International Ab Audio upmixer operable in prediction or non-prediction mode
RU2684203C1 (en) * 2017-11-21 2019-04-04 Акционерное общество "Информационные спутниковые системы" имени академика М.Ф. Решетнёва" Method for intellectual analysis of oscillogram
RU2741762C1 (en) * 2020-02-04 2021-01-28 Акционерное общество "Информационные спутниковые системы" имени академика М.Ф.Решетнёва" Method of training system for recognizing signals non-monotonicity

Similar Documents

Publication Publication Date Title
EP0625774B1 (en) A method and an apparatus for speech detection
Zhu et al. On the use of variable frame rate analysis in speech recognition
US7567900B2 (en) Harmonic structure based acoustic speech interval detection method and device
US8036884B2 (en) Identification of the presence of speech in digital audio data
US7756700B2 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
JP4624552B2 (en) Broadband language synthesis from narrowband language signals
RU2419890C1 (en) Method of identifying speaker from arbitrary speech phonograms based on formant equalisation
CA2098629C (en) Speech recognition method using time-frequency masking mechanism
KR20090030063A (en) Apparatus and method for speech detection using voiced characteristics of human speech
US8489404B2 (en) Method for detecting audio signal transient and time-scale modification based on same
Dubuisson et al. On the use of the correlation between acoustic descriptors for the normal/pathological voices discrimination
Dekens et al. Speech rate determination by vowel detection on the modulated energy envelope
RU2174714C2 (en) Method for separating the basic tone
Zhao et al. A processing method for pitch smoothing based on autocorrelation and cepstral F0 detection approaches
Sorin et al. The ETSI extended distributed speech recognition (DSR) standards: client side processing and tonal language recognition evaluation
JPS60114900A (en) Voice/voiceless discrimination
Kajita et al. Speech analysis and speech recognition using subbandautocorrelation analysis
Jijomon et al. An offline signal processing technique for accurate localisation of stop release bursts in vowel-consonant-vowel utterances
KR100526110B1 (en) Method and System for Pith Synchronous Feature Generation of Speaker Recognition System
JP2001083978A (en) Speech recognition device
JPH04230798A (en) Noise predicting device
Zhu et al. Lbp based recursive averaging for babble noise reduction applied to automatic speech recognition
JP2658426B2 (en) Voice recognition method
Heckmann et al. Speaker independent voiced-unvoiced detection evaluated in different speaking styles
Shao et al. MAP prediction of pitch from MFCC vectors for speech reconstruction

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20040513