RU2559710C2 - Method of processing autocorrelation function for measuring fundamental tone of speech signal - Google Patents

Method of processing autocorrelation function for measuring fundamental tone of speech signal Download PDF

Info

Publication number
RU2559710C2
RU2559710C2 RU2013104317/08A RU2013104317A RU2559710C2 RU 2559710 C2 RU2559710 C2 RU 2559710C2 RU 2013104317/08 A RU2013104317/08 A RU 2013104317/08A RU 2013104317 A RU2013104317 A RU 2013104317A RU 2559710 C2 RU2559710 C2 RU 2559710C2
Authority
RU
Russia
Prior art keywords
autocorrelation function
signal
speech signal
processing
fundamental tone
Prior art date
Application number
RU2013104317/08A
Other languages
Russian (ru)
Other versions
RU2013104317A (en
Inventor
Александр Сергеевич Колоколов
Марианна Иосифовна Павлова
Original Assignee
Федеральное государственное бюджетное учреждение науки Институт проблем управления им. В.А. Трапезникова Российской академии наук
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Федеральное государственное бюджетное учреждение науки Институт проблем управления им. В.А. Трапезникова Российской академии наук filed Critical Федеральное государственное бюджетное учреждение науки Институт проблем управления им. В.А. Трапезникова Российской академии наук
Priority to RU2013104317/08A priority Critical patent/RU2559710C2/en
Publication of RU2013104317A publication Critical patent/RU2013104317A/en
Application granted granted Critical
Publication of RU2559710C2 publication Critical patent/RU2559710C2/en

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

FIELD: physics, computer engineering.
SUBSTANCE: invention relates to means of processing an autocorrelation function for measuring the fundamental tone of a speech signal and can be used in signal processing in speech recognition systems. The main peak in the autocorrelation function is emphasised by subtraction from the autocorrelation function obtained for a segment of the signal having lesser amplitude than that of the smoothed autocorrelation function for the signal modulus on the same segment and nulling negative differences.
EFFECT: high reliability of measuring base frequency of a speech signal.
2 cl, 3 dwg

Description

Изобретение относится к области обработки сигналов и может быть использовано для измерения основного тона речевых сигналов, а также других квазипериодических сигналов.The invention relates to the field of signal processing and can be used to measure the fundamental tone of speech signals, as well as other quasiperiodic signals.

Измерение основного тона является базовой процедурой при анализе и распознавании речевого сигнала. Для этих целей часто используется кратковременная автокорреляционная функция коротких вокализованных сегментов сигнала длительностью ΔT=20-50 мс. Пусть имеется сегмент речевого сигнала s(t), заданный на интервале [0, ΔT]. В этом случае частота основного тона f0=1/T0 определяется величиной, обратной координате главного пика на τ=Т0 автокорреляционной функцииThe measurement of the fundamental tone is the basic procedure in the analysis and recognition of a speech signal. For these purposes, a short-term autocorrelation function of short voiced signal segments with a duration of ΔT = 20-50 ms is often used. Let there be a segment of the speech signal s (t) defined on the interval [0, ΔT]. In this case, the fundamental frequency f 0 = 1 / T 0 is determined by the reciprocal of the coordinate of the main peak at τ = T 0 of the autocorrelation function

r ( τ ) = 1 Δ T 0 Δ T τ s ( t ) s ( t 1 ) d t

Figure 00000001
r ( τ ) = one Δ T 0 Δ T - τ s ( t ) s ( t - one ) d t
Figure 00000001

или нормированной автокорреляционной функции r0(τ)=r(τ)/r(0). Однако поскольку речевой сигнал является сверткой сигнала голосового источника, роль которого выполняют голосовые связки, с импульсной характеристикой речевого тракта, то за пик основного тона может быть принят пик автокорреляционной функции, связанный с первой формантой речевого сигнала, что приводит к нежелательным грубым ошибкам измерения основного тона.or the normalized autocorrelation function r 0 (τ) = r (τ) / r (0). However, since the speech signal is a convolution of the voice source signal, the role of which is the vocal cords, with the impulse response of the speech path, the peak of the pitch can be taken as the peak of the autocorrelation function associated with the first form of the speech signal, which leads to undesirable gross errors in the measurement of the pitch .

Для уменьшения амплитуды пика в r(τ), связанного с первой формантой, используется центральное клиппирование речевого сигнала (Sondhi M.M. New methods of pitch extraction // IEEE Trans. Audio and Electroacoust. 1968. V.AU-16. №2. 262-266), выравнивающее амплитуды гармоник речевого сигнала и тем самым ослабляющее его формантные резонансы. Подобная процедура обеспечивает подчеркивание пика корреляционной функции на τ=Т0 для стационарных участков речевого сигнала, однако оказывается неудовлетворительной при изменении амплитуды речевого сигнала на протяжении интервала ΔT или в присутствии импульсных помех.To reduce the peak amplitude in r (τ) associated with the first formant, central clipping of the speech signal is used (Sondhi MM New methods of pitch extraction // IEEE Trans. Audio and Electroacoust. 1968. V.AU-16. No. 2. 262- 266), equalizing the amplitudes of the harmonics of the speech signal and thereby weakening its formant resonances. Such a procedure ensures that the peak of the correlation function is emphasized by τ = T 0 for stationary sections of the speech signal, but it turns out to be unsatisfactory when the amplitude of the speech signal changes over the ΔT interval or in the presence of impulse noise.

Наиболее близким техническим решением к предлагаемому способу является способ подчеркивания в автокорреляционной функции пика на τ=Т0 (Колоколов А.С., Любинский И.А., Мещеряков А.Ю. Измерение основного тона речевого сигнала на основе его автокорреляционной функции // Наукоемкие технологии, 2012, т.13, №5, с.26-29). Он основан на клиппировании положительных пиков в автокорреляционной функции r0(τ) с помощью линейно-убывающей функции

Figure 00000002
, где α - параметр, определяющий уровень клиппирования r0(τ), выбираемый в диапазоне 0<α<1, а τ ∈[0, ΔТ]. В результате получается клиппированная автокорреляционная функцияThe closest technical solution to the proposed method is the method of emphasizing in the autocorrelation function of the peak at τ = T 0 (Kolokolov A.S., Lyubinsky I.A., Meshcheryakov A.Yu. Measurement of the fundamental tone of a speech signal based on its autocorrelation function // High-tech Technology, 2012, vol. 13, No. 5, p. 26-29). It is based on clipping positive peaks in the autocorrelation function r 0 (τ) using a linearly decreasing function
Figure 00000002
, where α is a parameter that determines the clipping level r 0 (τ), selected in the range 0 <α <1, and τ ∈ [0, ΔТ]. The result is a clipped autocorrelation function

Figure 00000003
Figure 00000003

Рассмотренная процедура клиппирования обеспечивает подчеркивание пика автокорреляционной функции на τ=Т0 для стационарных участков речевого сигнала и является малочувствительной к присутствию импульсных помех, однако оказывается неудовлетворительной при изменении амплитуды речевого сигнала на протяжении интервала ΔT, т.к. в этом случае автокорреляционная функция r0(τ) будет затухать быстрее, чем пороговая функция р0(τ).The considered clipping procedure ensures that the peak of the autocorrelation function is emphasized by τ = T 0 for stationary sections of the speech signal and is insensitive to the presence of impulse noise, but it is unsatisfactory when the amplitude of the speech signal changes over the ΔT interval, because in this case, the autocorrelation function r 0 (τ) will decay faster than the threshold function p 0 (τ).

Техническим результатом изобретения является повышение надежности измерения частоты основного тона ƒ0 речевого сигнала путем применения обработки автокорреляционной функции r0(τ), подчеркивающей ее пик на τ=1/ƒ0.The technical result of the invention is to increase the reliability of measuring the frequency of the fundamental tone ƒ 0 of the speech signal by applying the processing of the autocorrelation function r 0 (τ), emphasizing its peak at τ = 1 / ƒ 0 .

Технический результат обеспечивается тем, что производится подчеркивание главного пика в автокорреляционной функции с помощью вычитания из автокорреляционной функции, полученной для сегмента сигнала, меньшей по амплитуде функции автокорреляции для модуля сигнала на том же сегменте и обнуления отрицательных разностей.The technical result is ensured by emphasizing the main peak in the autocorrelation function by subtracting from the autocorrelation function obtained for the signal segment smaller in amplitude of the autocorrelation function for the signal module on the same segment and zeroing the negative differences.

Кроме того, производят дополнительное сглаживание функции автокорреляции, найденной для модуля сигнала.In addition, additional smoothing of the autocorrelation function found for the signal module is performed.

На фиг. 1 представлена блок-схема, поясняющая процесс обработки автокорреляционной функции r0(τ) в предлагаемом способе.In FIG. 1 is a flowchart explaining a process for processing an autocorrelation function r 0 (τ) in the proposed method.

На фиг. 2 предложенный способ поясняется на примере двухформантного синтетического гласного с постоянной амплитудой.In FIG. 2, the proposed method is illustrated by the example of a two-form synthetic vowel with a constant amplitude.

На фиг. 3 демонстрируется устойчивость способа при линейном убывании амплитуды на сегменте гласного до уровня 0,5 - (а) и 0,25 - (б).In FIG. 3 demonstrates the stability of the method with a linear decrease in amplitude on the vowel segment to the level of 0.5 - (a) and 0.25 - (b).

На фиг.1 представлены блок получения автокорреляционной функции сигнала 1, блок получения автокорреляционной функции модуля сигнала 2, блок сглаживания 3, блок умножения на постоянный коэффициент 4, блок вычитания 5, блок обнуления отрицательных значений 6.Figure 1 shows the unit for obtaining the autocorrelation function of signal 1, the unit for obtaining the autocorrelation function of signal module 2, the smoothing unit 3, the multiplying unit by a constant coefficient 4, the subtracting unit 5, the unit for zeroing negative values 6.

Поставленная цель достигается с помощью нахождения взвешенной разностиThe goal is achieved by finding the weighted difference

r c 2 ( τ ) = { r 0 ( τ ) α r 0 e ( τ ) 0 п р и r 0 ( τ ) α r 0 e ( τ ) h ( τ ) > 0 п р и r 0 ( τ ) α r 0 e ( τ ) h ( τ ) 0 ,

Figure 00000004
r c 2 ( τ ) = { r 0 ( τ ) - α r 0 e ( τ ) 0 P R and r 0 ( τ ) - α r 0 e ( τ ) h ( τ ) > 0 P R and r 0 ( τ ) - α r 0 e ( τ ) h ( τ ) 0 ,
Figure 00000004

гдеWhere

r 0 e ( τ ) = 1 Δ T 0 Δ T τ | s ( t ) | | s ( t 1 ) | d t ;

Figure 00000005
r 0 e ( τ ) = one Δ T 0 Δ T - τ | s ( t ) | | s ( t - one ) | d t ;
Figure 00000005

⊗ - знак операции свертки; h(τ) - симметричная импульсная характеристика сглаживающего фильтра, которая в частном случае отсутствия сглаживания будет представлять собой δ - функцию Дирака; 0<α<1; τ∈[0, Т]; |s(t)| - модуль s(t).⊗ is the sign of the convolution operation; h (τ) is the symmetric impulse response of the smoothing filter, which in the particular case of no smoothing will be a δ - Dirac function; 0 <α <1; τ∈ [0, T]; | s (t) | is the module s (t).

Такого рода обработку можно рассматривать как своего рода клиппирование r0(τ) с пороговой функцией ar0e(τ), затухающей примерно так же, как и r0(τ). В результате этого rc2(τ) в сравнении с rc1(τ) выделение пика на τ=Т0 оказывается в меньшей степени зависимым от изменении амплитуды речевого сигнала на протяжении интервала ΔT.This kind of processing can be considered as a kind of clipping of r 0 (τ) with a threshold function ar 0e (τ) that attenuates in much the same way as r 0 (τ). As a result of this, r c2 (τ) in comparison with r c1 (τ), the peak allocation at τ = T 0 is less dependent on the change in the amplitude of the speech signal over the interval ΔT.

Приведенные на фиг.2(а), (б) и (с) зависимости, представляющие соответственно автокорреляционные функции r0(τ), r0e(τ) и результат обработки rc2(τ), были получены для дискретного двухформантного синтетического гласного, представленного 256 отсчетами, при частоте дискретизации 10 кГц для α=0,85. Синтезированный гласный имел частоту основного тона f0=100 Гц и частоты формант 500 и 830 Гц.The dependences shown in Fig. 2 (a), (b) and (c), which represent, respectively, the autocorrelation functions r 0 (τ), r 0e (τ) and the processing result r c2 (τ), were obtained for a discrete two-form synthetic vowel, represented by 256 samples, at a sampling frequency of 10 kHz for α = 0.85. The synthesized vowel had a fundamental frequency f 0 = 100 Hz and frequencies of formants 500 and 830 Hz.

Сглаживание r0e(τ) выполнялось с помощью фильтра низких частот с симметричной импульсной характеристикой h(n)=0,25u0(n-1)+0,5u0(n)+0,25u0(n+1), где n=…-2, -1, 0, 1, 2, …,Smoothing r 0e (τ) was performed using a low-pass filter with a symmetrical impulse response h (n) = 0.25u 0 (n-1) + 0.5u 0 (n) + 0.25u 0 (n + 1), where n = ... -2, -1, 0, 1, 2, ...,

u 0 ( n ) = { 1, n = 0, 0, n 0.

Figure 00000006
u 0 ( n ) = { one, n = 0 0 n 0.
Figure 00000006

Поэтому вычисление свертки сводилось к суммированию трех взвешенных спектральных отсчетов. В одном случае (фиг.2) амплитуда гласного была неизменной на протяжении сегмента длительностью ΔT=25,6 мс, в других двух случаях (фиг.3(а) и 3(б)) линейно спадала до уровней в два и четыре раза ниже исходного.Therefore, the calculation of the convolution was reduced to the summation of three weighted spectral samples. In one case (Fig. 2), the vowel amplitude was unchanged over a segment with a duration of ΔT = 25.6 ms, in the other two cases (Figs. 3 (a) and 3 (b)) linearly decreased to levels two and four times lower source.

Из чертежей можно видеть, что предложенный способ обработки автокорреляционной функции позволяет подчеркнуть ее пик на τ=1/f0 как в случае речевого сигнала с постоянной амплитудой, так и при изменениях амплитуды речевого сигнала на интервале анализа ΔT. При этом во всех случаях пик у rc2(τ) на τ=1/f0 является существенно более выраженным в сравнении с другими пиками, нежели у автокорреляционной функции r0(τ).From the drawings it can be seen that the proposed method for processing the autocorrelation function allows emphasizing its peak at τ = 1 / f 0 both in the case of a speech signal with a constant amplitude and when the amplitude of the speech signal changes in the analysis interval ΔT. Moreover, in all cases, the peak at r c2 (τ) at τ = 1 / f 0 is significantly more pronounced in comparison with other peaks than the autocorrelation function r 0 (τ).

Таким образом, приведенные выше данные позволяют заключить, что предложенный способ обработки функции автокорреляции может быть использован для реализации более устойчивого измерения основного тона речевого сигнала в присутствии амплитудных вариаций сигнала на интервале анализа ΔT.Thus, the above data allow us to conclude that the proposed method for processing the autocorrelation function can be used to implement a more stable measurement of the pitch of the speech signal in the presence of amplitude variations of the signal in the analysis interval ΔT.

Claims (2)

1. Способ обработки функции автокорреляции для измерения основного тона речевого сигнала, характеризующийся тем, что производят подчеркивание главного пика функции автокорреляции на периоде сигнала, при этом вычитают из автокорреляционной функции, полученной для сегмента сигнала, меньшую по амплитуде функцию автокорреляции для модуля сигнала на том же сегменте и обнуляют отрицательные разности.1. A method for processing an autocorrelation function for measuring the pitch of a speech signal, characterized in that the main peak of the autocorrelation function is emphasized over the signal period, and the autocorrelation function for the signal module with the same amplitude is subtracted from the autocorrelation function obtained for the signal segment segment and zero negative differences. 2. Способ по п.1, характеризующийся тем, что выполняют дополнительное сглаживание автокорреляционной функции, полученной для модуля сигнала. 2. The method according to claim 1, characterized in that they perform additional smoothing of the autocorrelation function obtained for the signal module.
RU2013104317/08A 2013-02-04 2013-02-04 Method of processing autocorrelation function for measuring fundamental tone of speech signal RU2559710C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2013104317/08A RU2559710C2 (en) 2013-02-04 2013-02-04 Method of processing autocorrelation function for measuring fundamental tone of speech signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2013104317/08A RU2559710C2 (en) 2013-02-04 2013-02-04 Method of processing autocorrelation function for measuring fundamental tone of speech signal

Publications (2)

Publication Number Publication Date
RU2013104317A RU2013104317A (en) 2014-08-10
RU2559710C2 true RU2559710C2 (en) 2015-08-10

Family

ID=51354912

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2013104317/08A RU2559710C2 (en) 2013-02-04 2013-02-04 Method of processing autocorrelation function for measuring fundamental tone of speech signal

Country Status (1)

Country Link
RU (1) RU2559710C2 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2168864C2 (en) * 1999-06-16 2001-06-10 Линец Геннадий Иванович Radio communication system
WO2005004114A1 (en) * 2003-07-07 2005-01-13 Koninklijke Philips Electronics N.V. System and method for audio signal processing
RU2454735C1 (en) * 2010-12-09 2012-06-27 Учреждение Российской академии наук Институт проблем управления им. В.А. Трапезникова РАН Method of processing speech signal in frequency domain

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2168864C2 (en) * 1999-06-16 2001-06-10 Линец Геннадий Иванович Radio communication system
WO2005004114A1 (en) * 2003-07-07 2005-01-13 Koninklijke Philips Electronics N.V. System and method for audio signal processing
RU2454735C1 (en) * 2010-12-09 2012-06-27 Учреждение Российской академии наук Институт проблем управления им. В.А. Трапезникова РАН Method of processing speech signal in frequency domain

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
А.С. КОЛОКОЛОВ, Измерение основного тона речевого сигнала. В: Автоматика и телемеханика, 2003, выпуск 8, опубл. 2003 на 13 страницах, с. 122-134 *

Also Published As

Publication number Publication date
RU2013104317A (en) 2014-08-10

Similar Documents

Publication Publication Date Title
Fraile et al. Cepstral peak prominence: A comprehensive analysis
Shue et al. VoiceSauce: A program for voice analysis
Huang et al. Speech pitch determination based on Hilbert-Huang transform
KR101110141B1 (en) Cyclic signal processing method, cyclic signal conversion method, cyclic signal processing device, and cyclic signal analysis method
US9978398B2 (en) Voice activity detection method and device
US20170287507A1 (en) Pitch detection algorithm based on pwvt
US20140086420A1 (en) System and method for tracking sound pitch across an audio signal using harmonic envelope
KR100653643B1 (en) Method and apparatus for detecting pitch by subharmonic-to-harmonic ratio
JP5992427B2 (en) Method and apparatus for estimating a pattern related to pitch and / or fundamental frequency in a signal
KR20070015811A (en) Method of voiced/unvoiced classification based on harmonic to residual ratio analysis and the apparatus thereof
KR100724736B1 (en) Method and apparatus for detecting pitch with spectral auto-correlation
JPWO2006006366A1 (en) Pitch frequency estimation device and pitch frequency estimation method
EP3526792B1 (en) Voice activity detection method and apparatus
US20170194016A1 (en) Method and Apparatus for Detecting Correctness of Pitch Period
JP2013205830A (en) Tonal component detection method, tonal component detection apparatus, and program
US9514738B2 (en) Method and device for recognizing speech
KR100717396B1 (en) Voicing estimation method and apparatus for speech recognition by local spectral information
RU2559710C2 (en) Method of processing autocorrelation function for measuring fundamental tone of speech signal
Bouzid et al. Voice source parameter measurement based on multi-scale analysis of electroglottographic signal
JP5325130B2 (en) LPC analysis device, LPC analysis method, speech analysis / synthesis device, speech analysis / synthesis method, and program
JP6501917B2 (en) Body sound analysis device, body sound analysis method, computer program and recording medium
CN113925472B (en) Method and device for acquiring quantitative index of arterial pressure wave conduction velocity
Jain et al. Gender voice recognition through speech analysis with higher accuracy
Saha et al. A pre-processing method for improvement of vowel onset point detection under noisy conditions
CN116898409A (en) Method for detecting validity of vital sign data, electronic device and storage medium

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20190205