CZ2012831A3 - Method of suppressng noise and accentuation of speech signal for cellular phone with two or more microphones - Google Patents

Method of suppressng noise and accentuation of speech signal for cellular phone with two or more microphones Download PDF

Info

Publication number
CZ2012831A3
CZ2012831A3 CZ2012-831A CZ2012831A CZ2012831A3 CZ 2012831 A3 CZ2012831 A3 CZ 2012831A3 CZ 2012831 A CZ2012831 A CZ 2012831A CZ 2012831 A3 CZ2012831 A3 CZ 2012831A3
Authority
CZ
Czechia
Prior art keywords
noise
speech
filter
phone
signal
Prior art date
Application number
CZ2012-831A
Other languages
Czech (cs)
Other versions
CZ304330B6 (en
Inventor
Zbyněk Koldovský
Petr Tichavský
Original Assignee
Technická univerzita v Liberci
Ústav teorie informace a automatizace AV ČR, v.v.i.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Technická univerzita v Liberci, Ústav teorie informace a automatizace AV ČR, v.v.i. filed Critical Technická univerzita v Liberci
Priority to CZ2012-831A priority Critical patent/CZ304330B6/en
Publication of CZ2012831A3 publication Critical patent/CZ2012831A3/en
Publication of CZ304330B6 publication Critical patent/CZ304330B6/en

Links

Landscapes

  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Podstata způsobu potlačení šumu a zvýraznění řečového signálu v mobilním telefonu se dvěma nebo více mikrofony spočívá v tom, že pro daný mobilní telefon je při výrobě nebo při kalibraci vytvořena banka (20) řeč potlačujících filtrů. Každý filtr z banky je navržen pro konkrétní pozici řečníka vůči telefonu tak, aby jeho výstupní signál měl maximální odstup šumu od řeči. Pozice řečníka vůči telefonu, pro něž jsou filtry v bance odvozeny, jsou vybrány tak, aby pokrývaly nejpravděpodobnější pozice řečníka. K potlačení šumu a zvýraznění řečového signálu během hovoru jsou signály z mikrofonů paralelně filtrovány všemi filtry z banky. V daný okamžik je jeho referenční signál šumu vybrán výstupní signál z toho filtru, jehož výstupní variance je minimální. Řečový signál se zvýrazní fokusovačem (40) a šum se potlačí adaptivním filtrem. Pro danou polohu řečníka vůči telefonu se řeč-potlačující filtr odvozuje z nezašumněného záznamu řečníka. Filtr je navržen tak, aby variance jeho výstupu, je-li vstupem tento záznam, byla minimální.The principle of noise suppression and speech enhancement in a mobile phone with two or more microphones is that a speech suppression filter bank (20) is created for the given mobile phone during manufacture or calibration. Each bank filter is designed for a particular speaker position relative to the phone so that its output signal has a maximum noise-to-speech ratio. The speaker's position on the phone for which the bank's filters are derived is selected to cover the most likely speaker positions. To suppress noise and enhance speech during call, microphone signals are parallel filtered by all filters from the bank. At that moment, its noise reference signal is selected by the output signal from that filter, whose output variance is minimal. The speech signal is highlighted by the focuser (40) and the noise is suppressed by the adaptive filter. For a given speaker position with respect to the phone, the speech-suppressing filter is derived from a silent speaker record. The filter is designed so that the variance of its output, if input is a record, is minimal.

Description

Způsob potlačení šumu a zvýraznění řečového signálu pro mobilní telefon se dvěma nebo více mikrofonyA method of suppressing noise and enhancing speech for a mobile phone with two or more microphones

Oblast technikyTechnical field

Vynález se týká způsobu potlačení šumu a interferujících zvuků (dále jen „šumu) a zvýraznění řečového signálu v mobilním telefonu se dvěma nebo více mikrofony. Tento způsob potlačení šumu je založen na využití předem naměřeného systému řeč-potlačujících filtrů.The invention relates to a method of suppressing noise and interfering sounds (hereinafter referred to as "noise") and enhancing a speech signal in a mobile phone with two or more microphones. This method of noise reduction is based on the use of a pre-measured speech-suppression filter system.

Dosavadní stav technikyBACKGROUND OF THE INVENTION

Standardní metodou potlačování nežádoucího šumu pomocí mikrofonních polí je fokusování, v anglicky psané literatuře označované jako beamforming, kdy se hledá taková lineární kombinace výstupu mikrofonního pole, která maximalizuje poměr energie užitečného signálu a energie šumu. Toto fokusování je účinné v případě, že geometrie systému mikrofonní pole - zdroj signálu - zdroj šumu se nemění v čase, respektive nemění se v čase rychle, a současně jsou-li zdroje rušení spíše bodové. (Alternativou rušení pocházejícího z bodových zdrojů je šum difuzní, který přichází jakoby ze všech směrů současně.)The standard method of eliminating unwanted noise using microphone fields is to focus, in English literature referred to as beamforming, to search for a linear combination of microphone field output that maximizes the ratio of useful signal energy and noise energy. This focusing is effective when the geometry of the microphone field - signal source - noise source system does not change over time or does not change rapidly over time, and at the same time if the interference sources are rather point-like. (An alternative to point source noise is diffuse noise, which seems to come from all directions simultaneously.)

Příkladem potlačování nežádoucího šumu pomocí fokusování je metoda popsána v patentu US2012245933 autorů Flaks a kolektiv z ledna 2010, která v sobě zahrnuje řadu technik a možností. Jistá podobnost s řešením zde navrženým je v patentovém nároku č. 17, kde je zmíněna možnost využití předem naměřených fokusovacích parametrů pro určitý počet vzájemných poloh zdroje užitečného signálu (úst řečníka) a mikrofonního pole.An example of unwanted noise suppression by focusing is the method described in Flaks et al., US2012245933, January 2010, which includes a number of techniques and options. A certain similarity to the solution proposed herein is in claim 17, where the possibility of using predetermined focusing parameters for a number of relative positions of the useful signal source (speaker mouth) and the microphone field is mentioned.

Další standardní metodou potlačování nežádoucího šumu je použití Wienerova filtru v časofrekvenční oblasti. Tato metoda je vhodná pro odstraňování šumu difuzního typu. Je pro ni potřeba odhadnout okamžité frekvenční spektrum nežádoucího šumu. Tato metoda existuje v mnoha různých variantách, objevuje se například v práci S.F. Bolí, Suppression of Acoustic Noise in Speech Using Spectral Subtraction, IEEE Trans. Acoustics, Speech and Signál Processing, vol. 27, pp. 113-120, 1979. Ve variantě nazvané dvojité spektrální odečítání se objevuje v patentu H. Gustafssonem, I Claessonem a S. Nordholmem pod číslem UŠ6549^86, duben 1999. Jako jinou variantu spektrálního odečítání lze chápat algoritmus PLĎ (Power Level Differences), navrženou v práci M. Jeub a kolektiv, „Noise Reduction for DualMicrophone Mobile Phones Exploiting Power Level Differences, Proč. IEEE International Conference on Acoustics, Speech and Signál Processing (ICASSP), pp. 1693-1696, Kyoto, Japonsko, březen 2012.Another standard method of suppressing unwanted noise is to use a Wiener filter in the time-frequency domain. This method is suitable for diffuse type noise removal. It needs to estimate the instantaneous frequency spectrum of unwanted noise. This method exists in many different variants, for example in S.F. Pain, Suppression of Acoustic Noise in Speech Using Spectral Subtraction, IEEE Trans. Acoustics, Speech and Signal Processing, vol. 113-120, 1979. In a variant called double spectral subtraction, it appears in the patent by H. Gustafsson, I Claesson and S. Nordholm under US6549 ^ 86, April 1999. Another variant of spectral subtraction is the Power Level Differences, designed by M. Jeub et al., " Noise Reduction for Dual Microphone Mobile Phones Exploiting Power Level Differences, Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 1693-1696, Kyoto, Japan, March 2012.

V posledních dvou jmenovaných pracích se předpokládá, že akustický signál je snímaný dvěma mikrofony, přičemž jeden mikrofon je orientován směrem k ústům řečníka a druhý do prostoru. Metoda PLD je založena na předpokladu, že první mikrofon snímá převážně řečový signál a druhý mikrofon převážně nežádoucí šum.In the latter two works it is assumed that the acoustic signal is sensed by two microphones, one microphone oriented towards the mouth of the speaker and the other directed towards the space. The PLD method is based on the assumption that the first microphone captures mainly the speech signal and the second microphone captures unwanted noise.

1'1 '

Omezením této metody je, že řečový signál mluvčího je částečně přítomen i na vzdálenějším mikrofonu, a ačkoliv je zde typicky o 10 dB slabší, ovlivňuje to negativně přesnost odhadu spektra šumu a tím i účinnost separace užitečného signálu.A limitation of this method is that the speaker's speech signal is partially present on the distant microphone, and although it is typically 10 dB less, it negatively affects the accuracy of the noise spectrum estimation and hence the efficiency of the separation of the useful signal.

Podobná koncepce řešení mobilního, telefonu s dvěma mikrofony se objevuje v novějším patentu H.J.W.Belta a kolektivu US2007/0230712A1 z 11.8.2005. Zde se připouští, že účinnost spektrálního odečítání (Wienerova filtru) závisí na poloze mobilního telefonu vzhledem k ústům řečníka, a proto je navrženo doplnění zařízení o detektor polohy.A similar concept of a mobile, dual-microphone phone solution appears in the more recent patent by H.J.Belt and US2007 / 0230712A1 of 11.8.2005. Here, it is recognized that the efficiency of spectral readings (Wiener filter) depends on the position of the mobile phone relative to the mouth of the speaker, and therefore it is proposed to add a position detector to the device.

V patentové i další odborné literatuře existují i další metody potlačování šumu a zvýraznění řeči u systému s dvěma mikrofony, ale výše uvedené patenty a práce jsou ke zde navrženému řešení koncepčně nejbližší. Z těch dalších prací je to například patent Hao Deng, a kol., US 2007/0165879 z 13.1.2007 (metoda založená na adaptivní filtraci) nebo článek Kai Li a kolektiv, Two-Microphone Noise Reduction Using Spatial Information-Based Spectral Amplitudě Estimation, IEICE Trans, on Information and Systems, vol. E95-D, pp. 1454-1464, 2012.There are other methods of noise suppression and speech enhancement in a dual microphone system in the patent and other technical literature, but the above patents and work are conceptually closest to the solution proposed here. Among those other works, for example, Hao Deng, et al., US 2007/0165879 of January 13, 2007 (adaptive filtering method) or Kai Li et al., Two-Microphone Noise Reduction Using Spatial Information-Based Spectral Amplitude Estimation , IEICE Trans, on Information and Systems, vol. 1454-1464, 2012.

Cílem vynálezu je navrhnout způsob potlačení nežádoucího šumu, který je vhodný zejména pokud je tento šum difuzního charakteru, nebo je zdroj bodový ale rychle měnící svoji polohu, nepotřebuje detektor polohy mobilního telefonu a má lepší kvalitu než dosud známá řešení.It is an object of the present invention to provide a method of suppressing unwanted noise, which is particularly suitable when the noise is diffuse in nature or is a point source but rapidly changing its position, does not need a mobile phone position detector and has better quality than known solutions.

Podstata vynálezuSUMMARY OF THE INVENTION

Podstata způsobu potlačení šumu a zvýraznění řečového signálu v mobilním telefonu se dvěma nebo více mikrofony spočívá vtom, že pro daný mobilní telefon (dále jen „telefon) je při výrobě nebo před běžným používáním vytvořena banka 10 až 256 řečpotlačujících filtrů délky 100 až 1000 (dále jen „banka). Vstupem každého filtru z banky jsou signály z mikrofonů a výstupem je jeden signál. Každý filtr z banky je navržen pro konkrétní pozici nebo skupinu pozic řečníka vůči telefonu tak, aby jeho výstupní signál obsahoval pouze šum a co nejvíce potlačoval hlas řečníka. Pozice řečníka vůči telefonu, pro něž jsou filtry v bance odvozeny, jsou vybrány tak, aby dohromady pokrývaly nejbližší okolí telefonu a nejpravděpodobnější pozice řečníka vůči telefonu při běžném používání. Přitom se může brát v potaz i poloha a tvar hlavy řečníka, poloha a tvar ruky, kterou řečník telefon přidržuje, a typický šum v prostředí, kde je telefon používán.The principle of the method of suppressing the noise and enhancing the speech signal in a mobile phone with two or more microphones is that for a given mobile phone (hereinafter referred to as the "telephone") a bank of 10 to 256 speech filter filters of 100 to 1000 length referred to as "the bank"). The input of each filter from the bank is signals from microphones and the output is one signal. Each bank filter is designed for a specific or group of speaker-to-telephone positions so that its output signal contains only noise and suppresses the speaker's voice as much as possible. The speaker-to-telephone positions for which the filters in the bank are derived are selected to cover together the closest neighborhood of the telephone and the most likely speaker-to-telephone positions in normal use. The position and shape of the speaker's head, the position and shape of the hand held by the speaker, and the typical noise in the environment where the telephone is used may also be taken into account.

Banka řeč-potlačujících filtrů se vytváří učícím procesem po zkonstruování prototypu telefonu. Banku si dále může upravit uživatel před běžným používáním za účelem kalibrace metody na uživatelův hlas, tvar hlavy a způsob držení telefonu a případně i na nejběžnější šum okolního prostředí. Pro danou polohu nebo skupinu poloh řečníka vůči telefonu, polohu a tvar jeho hlavy a polohu a tvar jeho ruky (dále jen „situace) se filtr odvozuje tak, že se pomocí mikrofonů na telefonu pořídí záznam nebo více záznamů řečníka nebo řečníků v této situaci. Záznamy musí být takové, aby obsahovaly jen zanedbatelné množství šumu. Filtr je navržen tak, aby variance jeho výstupu, jsou-li jeho vstupem tyto záznamy, byla minimální a případně zároveň tak, aby měl propuštěný šum co nejméně pozměněné spektrum.A bank of speech-suppressing filters is created by the learning process after the phone prototype has been constructed. Furthermore, the bank can be customized by the user prior to normal use to calibrate the method to the user's voice, head shape and manner of holding the phone, and possibly to the most common environmental noise. For a given position or group of speaker positions relative to the telephone, the position and shape of his or her head and the position and shape of his hand (hereinafter referred to as "situation"), the filter is derived by recording or using multiple microphone recordings in the situation. The records shall be such that they contain only a negligible amount of noise. The filter is designed so that the variance of its output, if its input is these records, is minimal and, at the same time, so that the transmitted noise has the least altered spectrum.

2,2,

K potlačení šumu a zvýraznění řečového signálu během hovoru jsou signály z mikrofonů paralelně filtrovány všemi filtry z banky a je měřena variance signálů na jejich výstupu. V daný okamžik je jako referenční signál šumu vybrán výstupní signál z toho filtru, jehož výstupní variance je minimální. Potlačení šumu a zvýraznění řečového signálu v signálu z daného mikrofonu nebo ze signálu, který je směsicí signálů z mikrofonů (dále jen „zarušený signál), se provádí odečítáním šumu ze signálu, který je výstupem fokusovače, adaptivním Wienerovým filtrem. Jinou variantou odečítání je dvojité spektrální odečítání, navržené ve výše zmíněném patentu USŠ549586. Třetí metodou odečítání je algoritmus PLD, navržený v práci Jeuba a kol., ICASSP 2Ó12, rovněž citované výše. Konečně, u všech zmíněných metod spektrálního odečítání je možné poslechovou kvalitu vylepšit vyhlazováním (průměrováním) spektrogramu v oblasti vyšších frekvencí, jak je popsáno v práci P. Echt a P. Vary, Efficient musical noise suppression for speech enhancement systems, Proceedings of IEEE Int. Conference on Acoustics, Speech and Signál Processing, ICASSP, Taipei, Taiwan, 2009, pp. 4409-4412.To suppress the noise and enhance the speech signal during a call, the microphone signals are filtered in parallel by all bank filters and the signal variation at their output is measured. At the moment, the output signal from the filter whose output variance is minimal is selected as the noise reference signal. The noise suppression and enhancement of the speech signal in the microphone signal or a signal that is a mixture of microphone signals (the "noise signal") is performed by subtracting noise from the focusing output signal by an adaptive Wiener filter. Another variant of the subtraction is the double spectral subtraction proposed in the aforementioned U.S. Pat. A third subtraction method is the PLD algorithm proposed by Jeub et al., ICASSP 20, also cited above. Finally, for all of the aforementioned spectral subtraction methods, the listening quality can be improved by smoothing (averaging) the spectrogram at higher frequencies, as described in P. Echt and P. Vary, Effective musical noise suppression for speech enhancement systems, Proceedings of IEEE Int. Conference on Acoustics, Speech and Signal Processing, ICASSP, Taipei, Taiwan, 2009 4409-4412.

Objasnění výkresů/Clarification of drawings /

Obr. 1 - blokové znázornění způsobu potlačení šumu a zvýraznění řečového signálu v mobilním telefonu, který může být použit v některém z provedení vynálezu.Giant. 1 is a block diagram of a method of suppressing noise and enhancing a speech signal in a mobile phone that may be used in any embodiment of the invention.

Obr. 2 - znázornění typických pozic, ze kterých jsou pořizovány čisté nahrávky řečníka pro výpočet a odvození banky řeč-potlačujících filtrů.Giant. 2 is a representation of typical positions from which pure speaker recordings are taken to calculate and derive a bank of speech-suppressing filters.

Příkladyúskutečněnf vynálezuEXAMPLES OF EMBODIMENTS OF THE INVENTION

Příklad 1: vytvoření banky řeč-potlačujících filtrůExample 1: Creating a Speech-Suppressing Filter Bank

Banka řeč-potlačujících filtrů se vytváří učícím procesem po zkonstruování prototypu telefonu. Nejprve se telefonem pořídí nahrávky mluvící osoby z různých pozic vůči telefonu. Počet nahrávek je 50, délka každé nahrávky je 5 vteřin a každá nahrávka obsahuje vyslovená slova nahrávané osoby „raz, dva, tři, čtyři,Pozice řečníka vůči telefonu jsou vybrány tak, aby dohromady pokrývaly nejbližší okolí telefonu a nejpravděpodobnější pozice řečníka vůči telefonu při běžném používání (viz Obr. 2). Nahrávky jsou pořízené v tichém prostředí, kde je úroveň šumu pod hladinou 40 dB.A bank of speech-suppressing filters is created by the learning process after the phone prototype has been constructed. First, the phone records the speaker from different positions in relation to the phone. The number of recordings is 50, the length of each record is 5 seconds, and each record contains the spoken words of the person to be recorded "one, two, three, four. Speaker positions relative to the phone are selected to cover together the closest neighborhood of the phone use (see Fig. 2). Recordings are made in a quiet environment where the noise level is below 40 dB.

Dále je pořízena nahrávka šumu délky 5 vteřin, který je typický pro prostředí pro použití telefonu.In addition, a 5-second noise recording is performed, typical of the phone's environment.

Pro každou pořízenou nahrávku řečníka se vypočte řeč-potlačující filtr, který je pro ptou nahrávku určen vektory gP/L a gP/R jež obsahují koeficienty filtru a mají každý délku 300, podle vzorce [gp.L 8P,r1 ^ar§min £{|{gt *Xp,LHn) + {gR *Xp,RMn)|2 +For each speaker recording made, a speech-suppressing filter is calculated, which for the fifth recording is determined by vectors g P / L and g P / R which contain filter coefficients and each have a length of 300 according to the formula [gp.L 8 P , r1 ^ ar] min {£ | {GT * X p, n H) + gR * {X p, R n M) | 2 +

Sl »8r π e|{gL * yL}(n) + {gR * yR}(n)-yL(n-D)|2}, kde xP/L(n) a χρΚ(η) označují vzorky p-té nahrávky čisté řeči, yL(n) a yR(n) označují vzorky výšeSl »8r π e | L {g *} y L (n) + g {R} R * y (n) -y L (nd) | 2 }, where x P / L (n) and χ ρΚ (η) denote samples of the pth record of pure speech, y L (n) and y R (n) denote samples above

3' ' * í ? ! 9 * * * * > · · · zmíněné nahrávky šumu, * značí operaci konvoluce, ε je regularizační konstanta rovna 0,1 a D je celočíselná konstanta zpoždění šumu rovna 20. Účelem druhého členu ve vzorci je, aby řeč-potlačující filtr příliš neměnil spektrum šumu, který propouští. Úloha minimalizace se převede na soustavu lineárních rovnic s blokově toeplitzovskou maticí, která se rychle a úsporně vyřeší blokovým Levinson-Durbinovým algoritmem, který odvodil H. Akaike, Block Toeplitz Matrix Inversion, SIAM J. Appl. Math. 24 (2): 234-241,1973.3 '' * í? ! The noise recordings, * denotes a convolution operation, ε is a regularization constant equal to 0.1 and D is an integer noise delay constant equal to 20. The purpose of the second term in the formula is not to change the speech suppression filter too much the spectrum of noise it transmits. The task of minimization is transformed into a system of linear equations with a block toeplitz matrix, which is quickly and economically solved by the block Levinson-Durbin algorithm, derived by H. Akaike, Block Toeplitz Matrix Inversion, SIAM J. Appl. Math. 24 (2): 234-241, 1973.

Vypočtené řeč-potlačující filtry, přesněji FFT transformace filtrů prodloužených o nuly na délku bloků, tvoří banku filtrů, která je uložena do paměti telefonu.Calculated speech-suppressing filters, more precisely the FFT transformation of zero-extended filters to block lengths, form a filter bank that is stored in the phone memory.

Příklad 2: jednodušší varianta vytvoření banky řeč-potlačujících filtrůExample 2: A simpler variant of creating a bank of speech-suppressing filters

Postup je stejný jako v příkladu 1 s tím rozdílem, že nahrávka šumu yL(n) a Υκ(η) není potřeba a řeč-potlačující filtr se pro danou nahrávku řečníka počítá podle vzorce gp,L = argmin X |{gL * xp,L}(n) - xp R (n - D)|2 . V tomto případě jsou koeficienty gP(R všechny Si n nulové krom D-tého, který je roven -1 a gP)R je tedy stejný pro všechny řeč-potlačující filtry (pro všechna p). Úloha minimalizace se převede na soustavu lineárních rovnic a řeší se Levinson-Durbinovým algoritmem.The procedure is the same as in Example 1 except that the noise recording y L (n) and Υκ (η) is not needed and the speech-suppression filter is calculated for the given speaker recording using the formula gp, L = argmin X | {g L * x p , L } (n) - x p R (n - D) | 2 . In this case, the coefficients g P (R all Si n are zero except D-th, which is equal to -1 and g ) R is therefore the same for all speech-suppressing filters (for all p). The task of minimization is transformed into a system of linear equations and solved by the Levinson-Durbin algorithm.

Tato jednodušší varianta výpočtu řeč-potlačujících filtrů je výpočetně méně náročná a má menší paměťové nároky (do paměti stačí ukládat koeficienty gP;L). Neumožňuje však adaptaci na druh odstraňovaného šumu a potlačení signálu řečníka je slabší.This simpler variant of calculation of speech-suppressing filters is less computationally demanding and has less memory requirements (it is sufficient to store coefficients gP; L in memory). However, it does not allow adaptation to the type of noise removed and the speaker signal suppression is weaker.

Příklad 3: provedení způsobu potlačení šumu a zvýraznění řečového signáluExample 3: Performing a method of suppressing noise and enhancing a speech signal

Na obr. 1 je blokové znázornění způsobu potlačení šumu a zvýraznění řečového signálu v mobilním telefonu, který může být použit v některém z provedení vynálezu.Fig. 1 is a block diagram of a method of suppressing noise and enhancing a speech signal in a mobile phone that may be used in any embodiment of the invention.

Signály z mikrofonů vzorkované frekvencí 16 kHz xL(n) a xR(n), kde n je index vzorku, jsou nejprve transformovány rychlou okénkovou Diskrétní Fourierovou transformací (okénková FFT) 10, kde délka okna je 1024 vzorků a překryv oken je 50%. Blok (okénko) transformovaných signálů označujeme XL(k) a XR(k), kde k je index frekvenčního pásma.The signals from the microphones sampled at 16 kHz x L (n) and x R (n), where n is the sample index, are first transformed by a fast window Discrete Fourier Transform (window FFT) 10 where window length is 1024 samples and window overlap is 50% . The block (window) of the transformed signals is denoted X L (k) and X R (k), where k is the frequency band index.

XL(k) a XR(k) jsou vstupem do banky 20 řeč-potlačujících filtrů, kde jsou paralelně filtrovány všemi filtry z banky. Koeficienty filtrů jsou načítány z paměti telefonu. Výstup ptého filtru je počítán podle vzorce Zp(k)=GpL(k)-XL(k)+Gp,R(k)-XR(k), kde Gp,L(k) a Gp,R(k) jsou koeficienty FFT transformace p-tého filtru.X L (k) and X R (k) are input to the bank of 20 speech-suppressing filters, where they are parallel filtered by all filters from the bank. The filter coefficients are read from the phone memory. Ptého filter output is computed according to the formula Z p (k) = pL G (k) x L (k) + G p, r (k) -X r (k) where G p, L (k) and G p , R (k) are the FFT transform coefficients of the p-th filter.

Volič 30 filtru vyhodnocuje variance výstupů řeč potlačujících filtrů. Variance p-tého filtru je počítána podle vzorce ]T|zp(k)|Z. Výstup voliče 30 filtru značený Z(k) je výstup toho k filtru, jehož variance je nejmenší. Je-li to p-tý filtr, pak Z(k)=Zp(k).The filter selector 30 evaluates the output variations of the speech suppressing filters. The variation of the p-th filter is calculated according to the formula I T | from p (k) | Z. The output of the filter selector 30 labeled Z (k) is the output of that k filter, the variance of which is the least. If it is the p-th filter, then Z (k) = Z p (k).

Paralelně k výpočtu signálu Z(k) probíhá ve fokusovači 40, jehož vstupem jsou signály XL(k) a XR(k), výpočet signálu X(k), který je vstupem do odečítače 50 šumu. Cílem je zvýšit odstup řečového signálu od šumu pomocí fokusovače 40, který je možné zvolit podle •i * způsobu rozmístění mikrofonů na telefonu. Jsou-li mikrofony rozmístěny oba vpředu, je možné použít některý známý fokusovač 40, např. delay-and-sum beamformer nebo položit X(k) rovno signálu z mikrofonu, jehož variance je vyšší. V případě, že mikrofony jsou rozmístěny jeden vpředu (signál XL(k)) a druhý vzadu (signál XR(k)), pak je X(k) roven XL(k).In parallel to the calculation of the signal Z (k), the focuser 40, which is inputted by the signals X L (k) and X R (k), calculates the signal X (k), which is the input to the noise subtractor 50. The object is to increase the speech-to-noise ratio by means of a focusing device 40 which can be selected according to the manner in which the microphones are deployed on the telephone. If the microphones are positioned both in front, one of the known focusers 40 may be used, such as a delay-and-sum beamformer or set X (k) equal to the signal from the microphone whose variance is higher. If the microphones are placed one at the front (signal X L (k)) and the other at the rear (signal X R (k)), then X (k) is equal to X L (k).

Odečítač 50 šumu odečítá signál Z(k) ze signálu X(k) a výstupem je signál S(k). Použitou metodou odečítání je adaptivní Wienerův filtr, realizovaný vzorcem , |X(k)|2 The noise reader 50 reads the Z (k) signal from the X (k) signal and outputs the S (k) signal. The reading method used is an adaptive Wiener filter, realized by the formula, | X (k) | 2

S(k) = ----5—(----— X(k), kde τ je volitelný parametr rovný 10, kterým se řídí míra |x(k)| + r|z(k)| potlačení šumu. Pro zachování poslechové kvality signálu je vzorec použit jen pro hodnoty indexu k od 0 do K, kde K odpovídá frekvenci 3 kHz. Pro hodnoty k>K je potom S(k)= X(k).S (k) = ---- 5 - (----— X (k), where τ is an optional parameter equal to 10 to control the rate | x (k) | + r | z (k) | noise suppression To maintain the listening quality of the signal, the formula is used only for index values k from 0 to K, where K corresponds to a frequency of 3 kHz, for k> K then S (k) = X (k).

Inverzní FFT transformace 60 a metoda OLA převádí signál S(k) do časové oblasti s(k) pomocí inverzní FFT a metody overlap-add (OLA), která je popsaná např. v knize B. Porat, „A Course in Digital Signál Processing, John Wiley & Sons, lne., 1997.The inverse FFT transformation 60 and the OLA method convert the S (k) signal into the time domain s (k) using the inverse FFT and the overlap-add (OLA) method, which is described, for example, in B. Porat, "A Course in Digital Signal Processing" , John Wiley & Sons, Inc., 1997.

Průmyslová využitelnostIndustrial applicability

Vynález je navržen pro implementaci v mobilních telefonech, které mají dva nebo více mikrofonů, jimiž lze snímat zvuk. Vynález má usnadnit telefonování v hlučném prostředí tím, že v přenášeném telefonním hovoru potlačuje hluk z okolí a zesiluje řečový signál volajícího.The invention is designed to be implemented in mobile phones having two or more microphones to capture sound. The invention is intended to facilitate telephony in noisy environments by suppressing environmental noise and amplifying the caller's speech signal in a transmitted telephone call.

Seznam vztahových značekList of reference marks

10-okénková FFT10-window FFT

- banka řeč-potlačujících filtrů- Bank of speech-suppressing filters

- volič filtru- filter selector

- fokusovač- focuser

-odečítač šumu- Noise reader

- inverzní FFT transformace a metoda OLA- inverse FFT transformation and OLA method

Claims (3)

PATENTOVÉ NÁROKYPATENT CLAIMS 1. Způsob potlačení šumu a zvýraznění řečového signálu pro mobilní telefon se dvěma nebo více mikrofony, vyznačující se tím, že odhad šumové složky se provádí pomocí banky (20) řeč-potlačujících filtrů a voliče (30) filtru, přičemž volič (30) filtru vybírá jako referenční signál šumu vždy výstupní signál z toho filtru, jehož výstupní variance je minimální, a vlastní odhad řečového signálu se provádí vodečítači (50) šumu odečítáním odhadnuté šumové složky ze signálu fokusovače (40) některou ze známých metod spektrálního odečítání, jako je Wienerův filtr, nebo odvozených metod, jako je Power level difference.A method for suppressing noise and enhancing a speech signal for a mobile phone with two or more microphones, characterized in that the noise component is estimated by means of a speech suppression filter bank (20) and a filter selector (30), wherein the filter selector (30) always selects as the noise reference signal an output signal from the filter whose output variance is minimal, and the actual speech signal estimation is made by the noise guide (50) by subtracting the estimated noise component from the focusing signal (40) by one of the known spectral subtraction methods such as Wiener filter, or derived methods such as Power level difference. 2. Způsob podle nároku 1, vyznačující se tím, že banka (20) řeč-potlačujících filtrů je vytvořena pro existující prototyp mobilního telefonu na základě souboru nahrávek řečníka držícího telefon v různých polohách, jaké jsou předpokládány při běžném používání telefonu, na základě minimalizace výrazu gpL =argmin^|{gL*xpL}(n)-xpR(n-D)|2 kde xp,L(n) a xP/R(n) označují vzorky p-té Sl n nahrávky čisté řeči z obou mikrofonů, n je časový index, * je operátor konvoluce a D je parametr zpoždění.The method of claim 1, wherein the speech suppression filter bank (20) is formed for an existing mobile phone prototype based on a set of speaker recordings holding the phone at various positions as expected in normal use of the phone, minimizing expression. g pL = argmin ^ | {g L * x pL } (n) - x pR (nD) | 2 where x p , L (n) and x P / R (n) denote samples of the p-th Sl n recording of pure speech from both microphones, n is the time index, * is the convolution operator and D is the delay parameter. 3. Způsob podle nároku 1, vyznačující se tím, že banka (20) řeč-potlačujících filtrů je vytvořena pro existující prototyp mobilního telefonu na základě souboru nahrávek řečníka držícího prototyp telefonu v různých polohách, jaké jsou předpokládány při běžném používání telefonu, a zvukového záznamu hluku (šumu) okolí, o kterém se předpokládá, že bude typický pro použití telefonu, na základě minimalizace výrazu [gp.L gp,R 1 = argmin X{|{gL *xp>L}(n) + {gR *xp R}(n)|2 +The method of claim 1, wherein the speech suppression filter bank (20) is formed for an existing mobile phone prototype based on a set of speaker recordings holding the phone prototype at various positions as expected in normal use of the phone and audio recording. noise (noise) of the environment, which is expected to be typical for the use of the phone, by minimizing the expression [gp.L gp, R1 = argmin X {| {g L * x p> L } (n) + {g R * x p R } (n) | 2 + Bl»8r n e|{gL * yL}(n) + {gR *yR}(n)-yL(n-D)|2}, kde χρΛ(η) a xp,R(n) označují vzorky p-té nahrávky čisté řeči z obou mikrofonů, yL(n) a yR(n) označují vzorky výše zmíněného záznamu šumu, n je časový index, * je operátor konvoluce, D je parametr zpoždění a ε je regularizační konstanta.Bl »8r not | {g L * y L } (n) + {g R * y R } (n) -y L (nD) | 2 }, where χ ρΛ (η) and x p , R (n) denote samples of the pth th record of pure speech from both microphones, y L (n) and y R (n) denote samples of the aforementioned noise record, n is a time index, * is the convolution operator, D is the delay parameter and ε is the regularization constant.
CZ2012-831A 2012-11-23 2012-11-23 Method of suppressing noise and accentuation of speech signal for cellular phone with two or more microphones CZ304330B6 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CZ2012-831A CZ304330B6 (en) 2012-11-23 2012-11-23 Method of suppressing noise and accentuation of speech signal for cellular phone with two or more microphones

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CZ2012-831A CZ304330B6 (en) 2012-11-23 2012-11-23 Method of suppressing noise and accentuation of speech signal for cellular phone with two or more microphones

Publications (2)

Publication Number Publication Date
CZ2012831A3 true CZ2012831A3 (en) 2014-03-05
CZ304330B6 CZ304330B6 (en) 2014-03-05

Family

ID=50180549

Family Applications (1)

Application Number Title Priority Date Filing Date
CZ2012-831A CZ304330B6 (en) 2012-11-23 2012-11-23 Method of suppressing noise and accentuation of speech signal for cellular phone with two or more microphones

Country Status (1)

Country Link
CZ (1) CZ304330B6 (en)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7099822B2 (en) * 2002-12-10 2006-08-29 Liberato Technologies, Inc. System and method for noise reduction having first and second adaptive filters responsive to a stored vector
EP1728091A4 (en) * 2003-12-24 2013-01-09 Nokia Corp A method for efficient beamforming using a complementary noise separation filter
US8068619B2 (en) * 2006-05-09 2011-11-29 Fortemedia, Inc. Method and apparatus for noise suppression in a small array microphone system
US8565459B2 (en) * 2006-11-24 2013-10-22 Rasmussen Digital Aps Signal processing using spatial filter
US8223988B2 (en) * 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures
DK2234415T3 (en) * 2009-03-24 2012-02-13 Siemens Medical Instr Pte Ltd Method and acoustic signal processing system for binaural noise reduction

Also Published As

Publication number Publication date
CZ304330B6 (en) 2014-03-05

Similar Documents

Publication Publication Date Title
US10622009B1 (en) Methods for detecting double-talk
CN111418010B (en) Multi-microphone noise reduction method and device and terminal equipment
CN104335600B (en) The method that noise reduction mode is detected and switched in multiple microphone mobile device
Xiao et al. Deep beamforming networks for multi-channel speech recognition
Chen et al. New insights into the noise reduction Wiener filter
US8391507B2 (en) Systems, methods, and apparatus for detection of uncorrelated component
JP2019508730A (en) Adaptive audio enhancement for multi-channel speech recognition
US20100323652A1 (en) Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
JP2016042132A (en) Voice processing device, voice processing method, and program
US9240190B2 (en) Formant based speech reconstruction from noisy signals
Garg et al. A comparative study of noise reduction techniques for automatic speech recognition systems
Yen et al. Adaptive co-channel speech separation and recognition
US10937418B1 (en) Echo cancellation by acoustic playback estimation
US9437213B2 (en) Voice signal enhancement
Koldovský et al. Semi-blind noise extraction using partially known position of the target source
WO2022256577A1 (en) A method of speech enhancement and a mobile computing device implementing the method
Seltzer Bridging the gap: Towards a unified framework for hands-free speech recognition using microphone arrays
Zhang et al. Glottal Model Based Speech Beamforming for ad-hoc Microphone Arrays.
CZ2012831A3 (en) Method of suppressng noise and accentuation of speech signal for cellular phone with two or more microphones
Dietzen et al. Speech dereverberation by data-dependent beamforming with signal pre-whitening
Hong et al. Modified MFCCs for robust speaker recognition
Prasad et al. Two microphone technique to improve the speech intelligibility under noisy environment
Erkelens et al. Single-microphone late-reverberation suppression in noisy speech by exploiting long-term correlation in the DFT domain
Graf et al. Improved performance measures for voice activity detection
Font Multi-microphone signal processing for automatic speech recognition in meeting rooms

Legal Events

Date Code Title Description
MM4A Patent lapsed due to non-payment of fee

Effective date: 20171123