RU2559710C2 - Method of processing autocorrelation function for measuring fundamental tone of speech signal - Google Patents
Method of processing autocorrelation function for measuring fundamental tone of speech signal Download PDFInfo
- Publication number
- RU2559710C2 RU2559710C2 RU2013104317/08A RU2013104317A RU2559710C2 RU 2559710 C2 RU2559710 C2 RU 2559710C2 RU 2013104317/08 A RU2013104317/08 A RU 2013104317/08A RU 2013104317 A RU2013104317 A RU 2013104317A RU 2559710 C2 RU2559710 C2 RU 2559710C2
- Authority
- RU
- Russia
- Prior art keywords
- autocorrelation function
- signal
- speech signal
- processing
- fundamental tone
- Prior art date
Links
Images
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
Description
Изобретение относится к области обработки сигналов и может быть использовано для измерения основного тона речевых сигналов, а также других квазипериодических сигналов.The invention relates to the field of signal processing and can be used to measure the fundamental tone of speech signals, as well as other quasiperiodic signals.
Измерение основного тона является базовой процедурой при анализе и распознавании речевого сигнала. Для этих целей часто используется кратковременная автокорреляционная функция коротких вокализованных сегментов сигнала длительностью ΔT=20-50 мс. Пусть имеется сегмент речевого сигнала s(t), заданный на интервале [0, ΔT]. В этом случае частота основного тона f0=1/T0 определяется величиной, обратной координате главного пика на τ=Т0 автокорреляционной функцииThe measurement of the fundamental tone is the basic procedure in the analysis and recognition of a speech signal. For these purposes, a short-term autocorrelation function of short voiced signal segments with a duration of ΔT = 20-50 ms is often used. Let there be a segment of the speech signal s (t) defined on the interval [0, ΔT]. In this case, the fundamental frequency f 0 = 1 / T 0 is determined by the reciprocal of the coordinate of the main peak at τ = T 0 of the autocorrelation function
или нормированной автокорреляционной функции r0(τ)=r(τ)/r(0). Однако поскольку речевой сигнал является сверткой сигнала голосового источника, роль которого выполняют голосовые связки, с импульсной характеристикой речевого тракта, то за пик основного тона может быть принят пик автокорреляционной функции, связанный с первой формантой речевого сигнала, что приводит к нежелательным грубым ошибкам измерения основного тона.or the normalized autocorrelation function r 0 (τ) = r (τ) / r (0). However, since the speech signal is a convolution of the voice source signal, the role of which is the vocal cords, with the impulse response of the speech path, the peak of the pitch can be taken as the peak of the autocorrelation function associated with the first form of the speech signal, which leads to undesirable gross errors in the measurement of the pitch .
Для уменьшения амплитуды пика в r(τ), связанного с первой формантой, используется центральное клиппирование речевого сигнала (Sondhi M.M. New methods of pitch extraction // IEEE Trans. Audio and Electroacoust. 1968. V.AU-16. №2. 262-266), выравнивающее амплитуды гармоник речевого сигнала и тем самым ослабляющее его формантные резонансы. Подобная процедура обеспечивает подчеркивание пика корреляционной функции на τ=Т0 для стационарных участков речевого сигнала, однако оказывается неудовлетворительной при изменении амплитуды речевого сигнала на протяжении интервала ΔT или в присутствии импульсных помех.To reduce the peak amplitude in r (τ) associated with the first formant, central clipping of the speech signal is used (Sondhi MM New methods of pitch extraction // IEEE Trans. Audio and Electroacoust. 1968. V.AU-16. No. 2. 262- 266), equalizing the amplitudes of the harmonics of the speech signal and thereby weakening its formant resonances. Such a procedure ensures that the peak of the correlation function is emphasized by τ = T 0 for stationary sections of the speech signal, but it turns out to be unsatisfactory when the amplitude of the speech signal changes over the ΔT interval or in the presence of impulse noise.
Наиболее близким техническим решением к предлагаемому способу является способ подчеркивания в автокорреляционной функции пика на τ=Т0 (Колоколов А.С., Любинский И.А., Мещеряков А.Ю. Измерение основного тона речевого сигнала на основе его автокорреляционной функции // Наукоемкие технологии, 2012, т.13, №5, с.26-29). Он основан на клиппировании положительных пиков в автокорреляционной функции r0(τ) с помощью линейно-убывающей функции , где α - параметр, определяющий уровень клиппирования r0(τ), выбираемый в диапазоне 0<α<1, а τ ∈[0, ΔТ]. В результате получается клиппированная автокорреляционная функцияThe closest technical solution to the proposed method is the method of emphasizing in the autocorrelation function of the peak at τ = T 0 (Kolokolov A.S., Lyubinsky I.A., Meshcheryakov A.Yu. Measurement of the fundamental tone of a speech signal based on its autocorrelation function // High-tech Technology, 2012, vol. 13, No. 5, p. 26-29). It is based on clipping positive peaks in the autocorrelation function r 0 (τ) using a linearly decreasing function , where α is a parameter that determines the clipping level r 0 (τ), selected in the
Рассмотренная процедура клиппирования обеспечивает подчеркивание пика автокорреляционной функции на τ=Т0 для стационарных участков речевого сигнала и является малочувствительной к присутствию импульсных помех, однако оказывается неудовлетворительной при изменении амплитуды речевого сигнала на протяжении интервала ΔT, т.к. в этом случае автокорреляционная функция r0(τ) будет затухать быстрее, чем пороговая функция р0(τ).The considered clipping procedure ensures that the peak of the autocorrelation function is emphasized by τ = T 0 for stationary sections of the speech signal and is insensitive to the presence of impulse noise, but it is unsatisfactory when the amplitude of the speech signal changes over the ΔT interval, because in this case, the autocorrelation function r 0 (τ) will decay faster than the threshold function p 0 (τ).
Техническим результатом изобретения является повышение надежности измерения частоты основного тона ƒ0 речевого сигнала путем применения обработки автокорреляционной функции r0(τ), подчеркивающей ее пик на τ=1/ƒ0.The technical result of the invention is to increase the reliability of measuring the frequency of the fundamental tone ƒ 0 of the speech signal by applying the processing of the autocorrelation function r 0 (τ), emphasizing its peak at τ = 1 / ƒ 0 .
Технический результат обеспечивается тем, что производится подчеркивание главного пика в автокорреляционной функции с помощью вычитания из автокорреляционной функции, полученной для сегмента сигнала, меньшей по амплитуде функции автокорреляции для модуля сигнала на том же сегменте и обнуления отрицательных разностей.The technical result is ensured by emphasizing the main peak in the autocorrelation function by subtracting from the autocorrelation function obtained for the signal segment smaller in amplitude of the autocorrelation function for the signal module on the same segment and zeroing the negative differences.
Кроме того, производят дополнительное сглаживание функции автокорреляции, найденной для модуля сигнала.In addition, additional smoothing of the autocorrelation function found for the signal module is performed.
На фиг. 1 представлена блок-схема, поясняющая процесс обработки автокорреляционной функции r0(τ) в предлагаемом способе.In FIG. 1 is a flowchart explaining a process for processing an autocorrelation function r 0 (τ) in the proposed method.
На фиг. 2 предложенный способ поясняется на примере двухформантного синтетического гласного с постоянной амплитудой.In FIG. 2, the proposed method is illustrated by the example of a two-form synthetic vowel with a constant amplitude.
На фиг. 3 демонстрируется устойчивость способа при линейном убывании амплитуды на сегменте гласного до уровня 0,5 - (а) и 0,25 - (б).In FIG. 3 demonstrates the stability of the method with a linear decrease in amplitude on the vowel segment to the level of 0.5 - (a) and 0.25 - (b).
На фиг.1 представлены блок получения автокорреляционной функции сигнала 1, блок получения автокорреляционной функции модуля сигнала 2, блок сглаживания 3, блок умножения на постоянный коэффициент 4, блок вычитания 5, блок обнуления отрицательных значений 6.Figure 1 shows the unit for obtaining the autocorrelation function of
Поставленная цель достигается с помощью нахождения взвешенной разностиThe goal is achieved by finding the weighted difference
гдеWhere
⊗ - знак операции свертки; h(τ) - симметричная импульсная характеристика сглаживающего фильтра, которая в частном случае отсутствия сглаживания будет представлять собой δ - функцию Дирака; 0<α<1; τ∈[0, Т]; |s(t)| - модуль s(t).⊗ is the sign of the convolution operation; h (τ) is the symmetric impulse response of the smoothing filter, which in the particular case of no smoothing will be a δ - Dirac function; 0 <α <1; τ∈ [0, T]; | s (t) | is the module s (t).
Такого рода обработку можно рассматривать как своего рода клиппирование r0(τ) с пороговой функцией ar0e(τ), затухающей примерно так же, как и r0(τ). В результате этого rc2(τ) в сравнении с rc1(τ) выделение пика на τ=Т0 оказывается в меньшей степени зависимым от изменении амплитуды речевого сигнала на протяжении интервала ΔT.This kind of processing can be considered as a kind of clipping of r 0 (τ) with a threshold function ar 0e (τ) that attenuates in much the same way as r 0 (τ). As a result of this, r c2 (τ) in comparison with r c1 (τ), the peak allocation at τ = T 0 is less dependent on the change in the amplitude of the speech signal over the interval ΔT.
Приведенные на фиг.2(а), (б) и (с) зависимости, представляющие соответственно автокорреляционные функции r0(τ), r0e(τ) и результат обработки rc2(τ), были получены для дискретного двухформантного синтетического гласного, представленного 256 отсчетами, при частоте дискретизации 10 кГц для α=0,85. Синтезированный гласный имел частоту основного тона f0=100 Гц и частоты формант 500 и 830 Гц.The dependences shown in Fig. 2 (a), (b) and (c), which represent, respectively, the autocorrelation functions r 0 (τ), r 0e (τ) and the processing result r c2 (τ), were obtained for a discrete two-form synthetic vowel, represented by 256 samples, at a sampling frequency of 10 kHz for α = 0.85. The synthesized vowel had a fundamental frequency f 0 = 100 Hz and frequencies of formants 500 and 830 Hz.
Сглаживание r0e(τ) выполнялось с помощью фильтра низких частот с симметричной импульсной характеристикой h(n)=0,25u0(n-1)+0,5u0(n)+0,25u0(n+1), где n=…-2, -1, 0, 1, 2, …,Smoothing r 0e (τ) was performed using a low-pass filter with a symmetrical impulse response h (n) = 0.25u 0 (n-1) + 0.5u 0 (n) + 0.25u 0 (n + 1), where n = ... -2, -1, 0, 1, 2, ...,
Поэтому вычисление свертки сводилось к суммированию трех взвешенных спектральных отсчетов. В одном случае (фиг.2) амплитуда гласного была неизменной на протяжении сегмента длительностью ΔT=25,6 мс, в других двух случаях (фиг.3(а) и 3(б)) линейно спадала до уровней в два и четыре раза ниже исходного.Therefore, the calculation of the convolution was reduced to the summation of three weighted spectral samples. In one case (Fig. 2), the vowel amplitude was unchanged over a segment with a duration of ΔT = 25.6 ms, in the other two cases (Figs. 3 (a) and 3 (b)) linearly decreased to levels two and four times lower source.
Из чертежей можно видеть, что предложенный способ обработки автокорреляционной функции позволяет подчеркнуть ее пик на τ=1/f0 как в случае речевого сигнала с постоянной амплитудой, так и при изменениях амплитуды речевого сигнала на интервале анализа ΔT. При этом во всех случаях пик у rc2(τ) на τ=1/f0 является существенно более выраженным в сравнении с другими пиками, нежели у автокорреляционной функции r0(τ).From the drawings it can be seen that the proposed method for processing the autocorrelation function allows emphasizing its peak at τ = 1 / f 0 both in the case of a speech signal with a constant amplitude and when the amplitude of the speech signal changes in the analysis interval ΔT. Moreover, in all cases, the peak at r c2 (τ) at τ = 1 / f 0 is significantly more pronounced in comparison with other peaks than the autocorrelation function r 0 (τ).
Таким образом, приведенные выше данные позволяют заключить, что предложенный способ обработки функции автокорреляции может быть использован для реализации более устойчивого измерения основного тона речевого сигнала в присутствии амплитудных вариаций сигнала на интервале анализа ΔT.Thus, the above data allow us to conclude that the proposed method for processing the autocorrelation function can be used to implement a more stable measurement of the pitch of the speech signal in the presence of amplitude variations of the signal in the analysis interval ΔT.
Claims (2)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2013104317/08A RU2559710C2 (en) | 2013-02-04 | 2013-02-04 | Method of processing autocorrelation function for measuring fundamental tone of speech signal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2013104317/08A RU2559710C2 (en) | 2013-02-04 | 2013-02-04 | Method of processing autocorrelation function for measuring fundamental tone of speech signal |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2013104317A RU2013104317A (en) | 2014-08-10 |
RU2559710C2 true RU2559710C2 (en) | 2015-08-10 |
Family
ID=51354912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2013104317/08A RU2559710C2 (en) | 2013-02-04 | 2013-02-04 | Method of processing autocorrelation function for measuring fundamental tone of speech signal |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2559710C2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2168864C2 (en) * | 1999-06-16 | 2001-06-10 | Линец Геннадий Иванович | Radio communication system |
WO2005004114A1 (en) * | 2003-07-07 | 2005-01-13 | Koninklijke Philips Electronics N.V. | System and method for audio signal processing |
RU2454735C1 (en) * | 2010-12-09 | 2012-06-27 | Учреждение Российской академии наук Институт проблем управления им. В.А. Трапезникова РАН | Method of processing speech signal in frequency domain |
-
2013
- 2013-02-04 RU RU2013104317/08A patent/RU2559710C2/en not_active IP Right Cessation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2168864C2 (en) * | 1999-06-16 | 2001-06-10 | Линец Геннадий Иванович | Radio communication system |
WO2005004114A1 (en) * | 2003-07-07 | 2005-01-13 | Koninklijke Philips Electronics N.V. | System and method for audio signal processing |
RU2454735C1 (en) * | 2010-12-09 | 2012-06-27 | Учреждение Российской академии наук Институт проблем управления им. В.А. Трапезникова РАН | Method of processing speech signal in frequency domain |
Non-Patent Citations (1)
Title |
---|
А.С. КОЛОКОЛОВ, Измерение основного тона речевого сигнала. В: Автоматика и телемеханика, 2003, выпуск 8, опубл. 2003 на 13 страницах, с. 122-134 * |
Also Published As
Publication number | Publication date |
---|---|
RU2013104317A (en) | 2014-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fraile et al. | Cepstral peak prominence: A comprehensive analysis | |
Shue et al. | VoiceSauce: A program for voice analysis | |
Huang et al. | Speech pitch determination based on Hilbert-Huang transform | |
KR101110141B1 (en) | Cyclic signal processing method, cyclic signal conversion method, cyclic signal processing device, and cyclic signal analysis method | |
US9978398B2 (en) | Voice activity detection method and device | |
US20170287507A1 (en) | Pitch detection algorithm based on pwvt | |
US20140086420A1 (en) | System and method for tracking sound pitch across an audio signal using harmonic envelope | |
KR100653643B1 (en) | Method and apparatus for detecting pitch by subharmonic-to-harmonic ratio | |
JP5992427B2 (en) | Method and apparatus for estimating a pattern related to pitch and / or fundamental frequency in a signal | |
KR20070015811A (en) | Method of voiced/unvoiced classification based on harmonic to residual ratio analysis and the apparatus thereof | |
KR100724736B1 (en) | Method and apparatus for detecting pitch with spectral auto-correlation | |
JPWO2006006366A1 (en) | Pitch frequency estimation device and pitch frequency estimation method | |
EP3526792B1 (en) | Voice activity detection method and apparatus | |
US20170194016A1 (en) | Method and Apparatus for Detecting Correctness of Pitch Period | |
JP2013205830A (en) | Tonal component detection method, tonal component detection apparatus, and program | |
US9514738B2 (en) | Method and device for recognizing speech | |
KR100717396B1 (en) | Voicing estimation method and apparatus for speech recognition by local spectral information | |
RU2559710C2 (en) | Method of processing autocorrelation function for measuring fundamental tone of speech signal | |
Bouzid et al. | Voice source parameter measurement based on multi-scale analysis of electroglottographic signal | |
JP5325130B2 (en) | LPC analysis device, LPC analysis method, speech analysis / synthesis device, speech analysis / synthesis method, and program | |
JP6501917B2 (en) | Body sound analysis device, body sound analysis method, computer program and recording medium | |
CN113925472B (en) | Method and device for acquiring quantitative index of arterial pressure wave conduction velocity | |
Jain et al. | Gender voice recognition through speech analysis with higher accuracy | |
Saha et al. | A pre-processing method for improvement of vowel onset point detection under noisy conditions | |
CN116898409A (en) | Method for detecting validity of vital sign data, electronic device and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20190205 |