JP2010061151A - Voice activity detector and validator for noisy environment - Google Patents
Voice activity detector and validator for noisy environment Download PDFInfo
- Publication number
- JP2010061151A JP2010061151A JP2009251650A JP2009251650A JP2010061151A JP 2010061151 A JP2010061151 A JP 2010061151A JP 2009251650 A JP2009251650 A JP 2009251650A JP 2009251650 A JP2009251650 A JP 2009251650A JP 2010061151 A JP2010061151 A JP 2010061151A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- input
- energy acceleration
- buffer
- energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000694 effects Effects 0.000 title claims abstract description 51
- 230000001133 acceleration Effects 0.000 claims abstract description 79
- 238000005259 measurement Methods 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 62
- 238000004891 communication Methods 0.000 claims abstract description 32
- 238000001514 detection method Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 17
- 230000007246 mechanism Effects 0.000 claims abstract description 16
- 239000000872 buffer Substances 0.000 claims description 42
- 238000001228 spectrum Methods 0.000 claims description 25
- 238000005096 rolling process Methods 0.000 claims description 16
- 230000005236 sound signal Effects 0.000 claims description 10
- 230000003139 buffering effect Effects 0.000 claims 2
- 230000008901 benefit Effects 0.000 abstract description 4
- 230000004044 response Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 24
- 230000003595 spectral effect Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 239000006185 dispersion Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 206010019133 Hangover Diseases 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 238000001994 activation Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephone Function (AREA)
Abstract
Description
[発明の分野]
本発明は、音声の検出(通常、雑音環境内での音声活動検出(VAD)として知られている。)に関する。本発明は、音声検出システムにおける音声信号のエネルギ加速度測定に適用可能であるが、それに限定されるものではない。
[Field of the Invention]
The present invention relates to voice detection (typically known as voice activity detection (VAD) in noisy environments). The present invention is applicable to energy acceleration measurement of a sound signal in a sound detection system, but is not limited thereto.
[発明の背景]
移動通信セルラ電話標準用グローバル・システム(GSM)、及び個人移動無線ユーザ用地上幹線無線(TETRA)システムのような多くの音声通信システムは、音声パターンを符号化及び復号するため音声処理装置を用いている。そのような音声通信システムにおいては、音声エンコーダは、アナログ音声パターンを、送信のための適切なディジタル・フォーマットに変換する。音声デコーダは、受信したディジタル音声信号を可聴アナログ音声パターンに変換する。
[Background of the invention]
Many voice communication systems, such as the Global System for Mobile Communications Cellular Telephone Standard (GSM), and the Terrestrial Trunk Radio (TETRA) system for personal mobile radio users, use voice processors to encode and decode voice patterns. ing. In such a voice communication system, the voice encoder converts the analog voice pattern into an appropriate digital format for transmission. The audio decoder converts the received digital audio signal into an audible analog audio pattern.
音声活動を検出する方法及び装置は、当該技術において既知である。音声活動検出器(VAD)は、音声がオーディオ信号の一部にのみ存在するという仮定の下で動作する。この仮定は通常正しい。それは、沈黙又はバックグラウンド・ノイズ(背景雑音)のみを示す多くのオーディオ信号間隔が存在するからである。 Methods and apparatus for detecting voice activity are known in the art. A voice activity detector (VAD) operates under the assumption that speech is present only in a portion of the audio signal. This assumption is usually correct. This is because there are many audio signal intervals that exhibit only silence or background noise (background noise).
音声活動検出器は、多くの目的のため用いることができる。これには、発話が存在しないとき、伝送システムにおいて送信活動全体を抑制し、従ってパワー及びチャネル帯域幅を潜在的に節約することが含まれる。VADが音声活動が再開したことを検出すると、VADは、送信活動を再開することができる。 Voice activity detectors can be used for many purposes. This includes suppressing overall transmission activity in the transmission system when there is no speech, thus potentially saving power and channel bandwidth. When VAD detects that voice activity has resumed, VAD can resume transmission activity.
音声活動検出器はまた、音声を含むオーディオ部分を「音声無し(無言)」であるオーディオ部分から区別することにより、音声記憶装置と関係して用いられることができる。従って、音声を含む部分は記憶装置に格納され、そして「音声無し」部分は廃棄される。 A voice activity detector can also be used in connection with a voice storage device by distinguishing an audio part containing voice from an audio part that is "no voice". Thus, the part containing the voice is stored in the storage device and the "no voice" part is discarded.
音声を検出する従来の方法は、少なくとも一部分、音声信号のパワーを検出して評価する方法に基づいている。推定されたパワーは、信号が音声であったか否かを決定するため、或る定数又は適応的スレッショルドと比較される。これらの方法の主要利点はそれらの複雑さが低く、それは、これらの方法を低い処理資源の実現にとって適したものにしている。そのような方法の主要欠点は、バックグラウンド・ノイズが「音声」が実際に存在しないとき「音声」を検出することを間違ってもたらす場合があることである。一方、存在する「音声」がはっきりしないので、その「音声」を検出し得ない場合があり、そしてバックグラウンド・ノイズのため検出が困難である場合があることである。 Conventional methods for detecting speech are based, at least in part, on methods for detecting and evaluating the power of speech signals. The estimated power is compared to some constant or adaptive threshold to determine whether the signal was speech. The main advantage of these methods is their low complexity, which makes them suitable for the realization of low processing resources. The main drawback of such a method is that background noise can erroneously result in detecting “speech” when it is not actually present. On the other hand, since the existing “voice” is not clear, the “voice” may not be detected and may be difficult to detect due to background noise.
音声活動を検出する幾つかの方法は、雑音の多い移動環境に指向されており、そして音声信号の適応フィルタリングに基づいている。これは、最終決定の前に雑音成分を信号から低減する。周波数スペクトル及び雑音レベルは、上記方法が異なるスピーカに対してそして異なる環境で用いられるので変わり得る。従って、入力フィルタ及びスレッショルドは、多くの場合、これらの変動を追跡するように適応的である。 Some methods of detecting speech activity are directed to noisy mobile environments and are based on adaptive filtering of speech signals. This reduces the noise component from the signal before final determination. The frequency spectrum and noise level can vary as the method is used for different speakers and in different environments. Thus, input filters and thresholds are often adaptive to track these variations.
これらの方法の例が、GSM仕様06.42音声活動検出器(VAD)においてハーフ・レート、フル・レート及び増強フル・レート音声トラフィック・チャネルのそれぞれに対して与えられている。別のそのような方法は、ITUG.729添付Bで提案されている「マルチバウンダリ(多境界)(multi−boudary)音声活動検出アルゴリ
ズム」である。これらの方法は、雑音の多い環境においてより正確であるが、しかし実行するのに著しく複雑である。
Examples of these methods are given for each of half-rate, full-rate and augmented full-rate voice traffic channels in the GSM specification 06.42 voice activity detector (VAD). Another such method is described in ITUG. 729 Appendix B, “Multi-boundary voice activity detection algorithm”. These methods are more accurate in noisy environments, but are significantly more complicated to implement.
これらの全ての方法は、音声信号を入力することを必要とする。音声復元スキーム(音声デコンプレッション・スキーム)を採用する一部のアプリケーションは、音声復元プロセス中に音声検出を実行することを必要とする。 All these methods require inputting an audio signal. Some applications that employ voice recovery schemes (voice decompression schemes) require performing voice detection during the voice recovery process.
Benyassine他によるヨーロッパ特許出願No.EP−A−075419は、以下のステップ、即ち
(i)所定の組みのパラメータを到来音声信号から各フレームに対して抽出するステップと、
(ii)到来音声信号のフレーム音声化決定を各フレームに対して、所定の組みのパラメータから抽出された1組の差測定に従って行うステップと
を含む音声活動検出を指向している。
European patent application no. EP-A-075419 includes the following steps: (i) extracting a predetermined set of parameters for each frame from the incoming speech signal;
(Ii) directed to voice activity detection including the step of making a frame speechization of the incoming speech signal for each frame according to a set of difference measurements extracted from a predetermined set of parameters.
セルラ・システムのVADは、第三者が音声を発するとき、音声コーデック及びRF回路等を含む無線装置は、バックグラウンド・ノイズ及び他の障害が存在する中でその音声を他の第三者に伝えるためアクティブ状態(活性状態)にあることを保証するため、バイアス状態にされている。しかしながら、これは、第三者が音声を発していないときデータを送信することを招くことになる。この損失は、バッテリ寿命を僅かに低くし、そしてシステムの他のセルにおける同一チャネル・ユーザに対する干渉を僅かに増大させる。これらは、本質的には2次(又はより高次)的効果である。 A cellular system VAD allows a wireless device, including a voice codec and RF circuitry, to send voice to other third parties in the presence of background noise and other obstacles when the third party emits voice. In order to ensure that it is in an active state (active state) for transmission, it is in a biased state. However, this leads to sending data when the third party is not speaking. This loss slightly reduces battery life and slightly increases interference to co-channel users in other cells of the system. These are essentially secondary (or higher order) effects.
これらのシステムにおいて、有限の資源が二重呼び出し(duplex call)に対して使用可能であることの概念が無い。それは、アップリンク及びダウンリンクに関して全体に可能でありそしてそれに対して一貫している。なお、アップリンク及びダウンリンクは、通常、フルの帯域幅を同時に利用しているため異なる搬送波上である。 In these systems, there is no notion that a finite resource is available for duplex calls. It is possible and consistent with the uplink and downlink as a whole. Note that the uplink and downlink are usually on different carriers since they use the full bandwidth simultaneously.
この発明の分野では、幾つかの音声活動又は音声開始検出器(VAD/VOD)が、有声音声を区別するため高調波構造のような音声の特性を(例えば、自己相関を介して、)用いることを試みていることが知られている。しかしながら、雑音において、これらの構造的インディケータは、音声構造の崩壊のためか、又は雑音における構造のためかで失敗する場合がある。これは、車両のエンジン、タイヤ又は空調雑音であるかも知れない。最後に、これらの方法は、無声音声を検出するのに弱い。 In the field of this invention, some voice activity or voice start detectors (VAD / VOD) use voice characteristics such as harmonic structures (eg, via autocorrelation) to distinguish voiced voices. It is known that they are trying to do that. However, in noise, these structural indicators may fail due to speech structure collapse or due to structure in noise. This may be vehicle engine, tire or air conditioning noise. Finally, these methods are weak to detect unvoiced speech.
代替方法は、音声を検出するため、単純にフレーム・エネルギ・レベルを用いる方法である。これは、高い信号対雑音比(SNR)条件での音声に対して十分であり、そこでは雑音レベルを超えた任意のスレッショルドが、音声を示すため設定されることができる。しかしながら、このアプローチは、一層現実的な雑音条件で失敗である。 An alternative method is simply to use the frame energy level to detect speech. This is sufficient for speech at high signal-to-noise ratio (SNR) conditions, where any threshold above the noise level can be set to indicate speech. However, this approach fails with more realistic noise conditions.
非正規化のデータベースに対して、又は現実の応用において、1組の例における雑音レベルが別の例における音声レベルより大きい場合がありそうであり、これは、スレッショルド値を設定することを不可能にする。これを克服する従来の方法は、発話(utterance)の最初の100ミリ秒程度が雑音を表すという想定の下で、当該発話の最初の100ミリ秒程度を平均化して、その発話に関してその場限りのスレッショルドを生成する方法である。しかしながら、再度、これは、雑音が初期推定から急速に発散する場合、又は雑音が高い分散を有する場合、又は最初の数フレームが実際に、推定された雑音よりむしろ音声を含む場合、非定常雑音に関して不十分である。 For a denormalized database, or in real-world applications, it is likely that the noise level in one example is greater than the speech level in another example, which makes it impossible to set a threshold value To. The conventional method for overcoming this is that the first 100 milliseconds of the utterance represents noise, and the first 100 milliseconds of the utterance is averaged, and the utterance is ad hoc. This is a method for generating the threshold. However, again, this is not the case if the noise diverges rapidly from the initial estimate, or if the noise has a high variance, or if the first few frames actually contain speech rather than the estimated noise. Inadequate regarding.
従って、前述の欠点を改善する、雑音の多い環境のための改良された音声活動検出器及
び有効化器に対する必要性が存在する。
Accordingly, there is a need for improved voice activity detectors and enablers for noisy environments that ameliorate the aforementioned drawbacks.
[発明の陳述]
本発明の第1の局面に従って、請求項1記載の通信装置が提供される。
[Statement of invention]
According to a first aspect of the present invention, a communication device according to
本発明の第2の局面に従って、請求項11に記載された、通信装置に入力された音声信号を検出する方法が提供される。 According to a second aspect of the present invention, there is provided a method for detecting an audio signal input to a communication device according to claim 11.
本発明の第3の局面に従って、請求項14に記載された、通信装置に入力された信号が音声であるか又は雑音であるかを決定する方法が提供される。 According to a third aspect of the present invention, there is provided a method for determining whether a signal input to a communication device is speech or noise according to claim 14.
本発明の更なる態様が、それらに従属する請求項において主張されている。 Further aspects of the invention are claimed in the dependent claims.
要約すると、本発明は、音声の存在又は不在を示すため、エネルギ振幅測定よりはむしろエネルギ加速度測定を使用することにより、任意の振幅の非定常雑音のケースに対処することを目指している。 In summary, the present invention aims to address the case of non-stationary noise of arbitrary amplitude by using energy acceleration measurements rather than energy amplitude measurements to indicate the presence or absence of speech.
本発明の例示的実施形態が、ここで添付図面を参照して説明されるであろう。 Exemplary embodiments of the present invention will now be described with reference to the accompanying drawings.
[好適な実施形態の説明]
有声の音声(発話)は、その開始(onset)が振動しているか又は静止しているかのいずれかである声帯の活動に依存しているので、比較的高いエネルギ加速度値を有する。同様に、無声の開始(例えば、破裂音)はまた、高いエネルギ加速度値を有する。
[Description of Preferred Embodiment]
Voiced speech (speech) has a relatively high energy acceleration value because it depends on vocal cord activity whose onset is either oscillating or stationary. Similarly, an unvoiced start (eg, a pop) also has a high energy acceleration value.
本発明者は、狭帯域パワー・スペクトル又はメル・スペクトルのような有声化を強調する表現領域(representational domain)において、結果として生じたエネルギ加速度が非定常雑音より著しく高いことを確認した。唯一の著しい例外は、インパルス雑音(例えば、拍手)である。 The inventor has confirmed that the resulting energy acceleration is significantly higher than non-stationary noise in a representational domain that emphasizes voicing, such as a narrowband power spectrum or a mel spectrum. The only significant exception is impulse noise (eg applause).
従って、本発明の好適な実施形態に従って、本発明者は、人が音声信号の基本ピッチを含みそうである周波数領域のエネルギを集めることによりこれらの雑音に抗して追加的に区別することができることが分かった。特に、本発明の発明者は、音声の非構造化特性、即ち、エネルギ加速度(又は音声エネルギ又はその成分を表す或るメトリックの加速度)を用いることを提案する。 Thus, in accordance with a preferred embodiment of the present invention, the inventor can additionally distinguish against these noises by collecting frequency domain energy that is likely to include the fundamental pitch of the audio signal. I understood that I could do it. In particular, the inventors of the present invention propose to use unstructured characteristics of speech, ie energy acceleration (or acceleration of some metric representing speech energy or its components).
特に、本明細書に記載される発明概念に対する好適な応用は、ヨーロッパ電気通信標準協会(ETSI)により現在定義されつつある分散音声認識(DSR)標準、即ち、「音声処理、伝送及び品質アスペクト(STQ);分散音声認識;フロントエンド特徴抽出アルゴリズム;圧縮アルゴリズム」(ETSIES 201 108 vl.1.2(20
00−04)、2000年4月)である。
In particular, a preferred application for the inventive concepts described herein is the Distributed Speech Recognition (DSR) standard currently being defined by the European Telecommunications Standards Institute (ETSI): “Speech Processing, Transmission and Quality Aspects ( STQ); distributed speech recognition; front-end feature extraction algorithm; compression algorithm ”(ETSIES 201 108 vl.1.2 (20
00-04), April 2000).
ここで、図1を参照すると、本発明の好適な実施形態の発明概念をサポートするよう適合されているオーディオ加入者装置100が示されている。
Referring now to FIG. 1, there is shown an
本発明の好適な実施形態は、無線オーディオ通信装置、例えば、将来のセルラ無線通信システムのための第3世代パートナーシップ・プロジェクト(3GPP)標準で動作し且つDSR能力を提供することができる無線オーディオ通信装置を参照して説明される。しかしながら、音声活動検出及びその有効化に関連する、本明細書に記載される発明概念が音声信号に応答し、そして改良された音声活動検出回路から利益を得るいずれの電子装置に等しく適用可能であることは、本発明の意図内である。 Preferred embodiments of the present invention are wireless audio communication devices, eg, wireless audio communication capable of operating with the 3rd Generation Partnership Project (3GPP) standard for future cellular wireless communication systems and providing DSR capabilities. The description will be made with reference to the apparatus. However, the inventive concepts described herein relating to voice activity detection and its validation are equally applicable to any electronic device that responds to a voice signal and benefits from an improved voice activity detection circuit. It is within the spirit of the present invention.
当該技術で知られているように、オーディオ加入者装置100は、好ましくは二重フィルタに結合されたアンテナ102、オーディオ加入者装置100内で受信チェーンと送信チェーンとの分離を行うアンテナ・スイッチ又はサーキュレータ104を含む。
As is known in the art, the
受信機チェーンは、受信機フロントエンド回路106(実効的には受信、フィルタリング及び中間又はベースバンド周波数変換を行う)を含む。フロントエンド回路106は、信号処理機能108(一般的にはディジタル信号プロセッサ(DSP)により実現される。)に直列に接続されている。信号処理機能108は、信号復調、誤り訂正及びフォーマット化を実行する。信号処理機能108からの復元されたデータは、オーディオ処理機能109に直列に結合され、当該オーディオ処理機能109は、受信信号を適切な要領でフォーマット化して、オーディオ・イナシエータ(audio enunciator)/ディスプレイ111に送る。
The receiver chain includes a receiver front-end circuit 106 (effectively performing reception, filtering and intermediate or baseband frequency conversion). The front-end circuit 106 is connected in series with a signal processing function 108 (generally realized by a digital signal processor (DSP)). The
本発明の様々な実施形態において、信号処理機能108及びオーディオ処理機能109は、同じ物理装置内に設けられ得る。制御器114は、オーディオ加入者装置100の構成要素の情報の流れ及び動作状態を制御するよう構成されている。
In various embodiments of the present invention, the
送信チェーンに関しては、これは本質的に、オーディオ処理機能109、信号処理機能108、送信機/変調回路122及び電力増幅器124を通して直列に結合されるオーディオ入力装置120を含む。プロセッサ108、送信機/変調回路122及び電力増幅器124は、制御器114に動作的に応答する。電力増幅器124の出力は、最終の無線周波数信号を放射するため、二重フィルタ、アンテナ・スイッチ又はサーキュレータ104及びアンテナ102に結合される。
With respect to the transmit chain, this essentially includes an
特に、オーディオ処理機能109は、音声活動決定機能135に動作可能に結合される音声活動(又は音声開始)検出(VAD)機能130を含む。本発明の好適な実施形態に従って、VAD機能130及び音声活動決定機能135は、改良された音声検出及び決定機構を与えるよう適合されており、その動作は更に、図2及び図3に関して説明される。特に、音声活動検出器機能130は、3つの測定から成るフレーム単位の検出段を含む。3つの周波数範囲測定は、
(i)スペクトル全体、
(ii)スペクトルのサブバンド、及び
(iii)スペクトルの分散
を含む。
In particular, the
(I) the entire spectrum;
(Ii) spectral subbands, and (iii) spectral dispersion.
その次ぎに、音声活動決定機能135は、或る決定を、音声可能性に関して解析される測定値のバッファに基づいて実行する。決定段からの最終決定は、当該バッファの中の以前のフレームに遡及的に適用される。
Subsequently, the voice
本発明の好適な実施形態において、タイマ/カウンタ118はまた、図2及び図3の検出及び決定プロセスにおいてタイミング機能を実行するよう適合されている。
In the preferred embodiment of the present invention, timer /
信号プロセッサ機能108、オーディオ処理機能109、VAD機能130及び音声活動決定機能135は、動作可能に結合される個別の処理構成要素として実現され得る。代替として、1又はそれより多くのプロセッサを用いて、対応する処理動作のうちの1又はそれより多くの動作を実行し得る。更に別の代替実施形態において、前述の機能は、ハードウエア及びソフトウエアの混合、又はファームウエア構成要素として、特定用途向け集積回路(ASIC)及び/又はプロセッサ、例えばディジタル信号プロセッサ(DSP)を用いて、実行され得る。
勿論、オーディオ加入者装置100内の様々な構成要素は、個別の又は一体型の構成要素形式で実現されることができ、従って、最終構造は単なる任意の選択である。
Of course, the various components within the
このため、本発明の好適な実施形態で使用のためエネルギ加速度の指示を実現するための幾つかの方法がある。 For this reason, there are several ways to achieve an indication of energy acceleration for use in the preferred embodiment of the present invention.
(i)理論的に理想の方法は、以前に公開された米国特許出願No.6009391に見られるように、エネルギ・レベルを発話の連続的フレームにわたり文字通り二重に微分する(differentiate)方法である。このアプローチの欠点は、これが人が或る数のフレームを解析下でフレームの各側上で解析することが必要であるので、遅延を導入しそうであることである。 (I) The theoretically ideal method is described in previously published US patent application no. As seen in 6009391, it is a method of literally differentiating energy levels over successive frames of speech. The disadvantage of this approach is that it is likely to introduce a delay because one needs to analyze a certain number of frames under analysis on each side of the frame.
(ii)エネルギ加速度のゼロ遅延推定は、短期間平均の比を瞬時値と比較することにより、例えば、
フレーム平均
(Ii) Zero delay estimation of energy acceleration can be achieved by comparing the short-term average ratio with the instantaneous value, for example:
Frame average
を用いて、又はローリング平均(Rolling Average) Or Rolling Average
を用いて、得ることができる。 Can be used.
各ケースにおいて、この方法は、`減速度´<`1´<`加速度´として解釈することができる値を戻す。次いで、人は、A〜(本明細書では、「X〜」は記号Xの上に〜を付した記号を表す。)に対する経験値、及び音声を雑音から最良に区別する分母長(demnominator length)を見つけることができる。 In each case, the method returns a value that can be interpreted as ` deceleration '<` 1'<` acceleration '. The person then enters the empirical value for A ~ (where "X ~ " represents the symbol with ~ on the symbol X), and the denominator length that best distinguishes speech from noise. ) Can be found.
本発明の発明者は、好ましい最適解法は非定常雑音を迅速に追跡することができる分母(denominator)を見つけることであるが、しかしそれは音声開始を追跡するのに長すぎる。ローリング平均に対する提案された値シーケンスは、a=0.2、b=0.8*a、c=0.8*b等であり、それは、回帰法として単純に表されることができる。
dt=0.2xt+0.8dt−1 [3]
従って、
A=xt/dt [4]
検出段内の好適なVAD及びパラメータ初期化システムは、図2のフロー・チャートにまとめられている。非定常雑音において、長期間エネルギ・スレッショルドは、音声の信頼できるインディケータではない。同様に、高い雑音条件において、音声の構造(例えば、高調波)は、高調波が雑音により破損され得る、又は構造化された雑音が検出器を混乱させ得るので、インディケータとして全体的に依拠することができない。従って、好適な音声活動検出器は、音声の雑音に強固な特性、即ち音声開始と関連したエネルギ加速度を用いる。
The inventor of the present invention finds a denominator that can quickly track non-stationary noise, but it is too long to track speech start. The proposed sequence of values for the rolling average is a = 0.2, b = 0.8 * a, c = 0.8 * b, etc., which can be simply expressed as a regression method.
d t = 0.2x t +0.8 d t −1 [3]
Therefore,
A = x t / d t [4]
A preferred VAD and parameter initialization system within the detection stage is summarized in the flow chart of FIG. In non-stationary noise, the long-term energy threshold is not a reliable indicator of speech. Similarly, in high noise conditions, speech structure (eg, harmonics) relies entirely as an indicator because harmonics can be corrupted by noise or structured noise can disrupt the detector. I can't. Thus, the preferred voice activity detector uses a noise robust characteristic, ie energy acceleration associated with voice onset.
ここで、図2を参照すると、好適な検出プロセスのフロー・チャート200が示されて
いる。上記で示したように、この検出プロセスは、フレーム単位の解析を含む。好適なVAD機構は、「全体スペクトル」測定プロセスに関連する。ステップ205に示されるように、フレーム・カウンタを最初に評価して、それが「N」より小さいかどうかを決定する。なお、「N」はバッファされるフレームの数を定義する。好適な実施形態の例として、各フレームが例えば10ミリ秒だけ増分することが確立されたと仮定すると、「N」は「15」に設定される。ステップ205において、フレーム・カウンタが「N」より小さい場合、ステップ210に示されるように、初期加速度試験に関するローリング平均が更新される。ステップ205において、フレーム・カウンタが「N」より小さく無い場合、ステップ210を飛ばす。
Referring now to FIG. 2, a
次いで、ステップ235に示されるように、エネルギ加速度測定が1又はそれより多くの指定された余裕内にあるかどうかを評価するための決定を行う。ステップ235において、エネルギ加速度測定が1又はそれより多くの指定された余裕内にある場合、ステップ240におけるように、ローリング平均は更なるエネルギ加速度試験の結果を用いて更新される。ステップ235において、エネルギ加速度測定が1又はそれより多くの指定された余裕内に無い場合、ステップ240を飛ばす。
A determination is then made to evaluate whether the energy acceleration measurement is within one or more specified margins, as shown in
次いで、ステップ260に示されるように、エネルギ加速度測定が指定されたスレッショルドより大きいかどうかを評価するための決定を行う。ステップ260において、エネルギ加速度測定が指定されたスレッショルドより大きい場合、ステップ265におけるように、フレームは音声フレームと見なされる。ステップ260において、エネルギ加速度測定が指定されたスレッショルドより大きくない場合、ステップ270におけるように、フレームは雑音フレームと見なされる。
A determination is then made to evaluate whether the energy acceleration measurement is greater than a specified threshold, as shown in
次いで、ステップ275におけるように、フレーム・カウンタが増分され、そしてプロセスはステップ205から繰り返される。
The frame counter is then incremented, as in
このプロセスに対する改良として、スペクトル全体の測定プロセスの代わりに、又はそれに加えて、オプションのステップ215及び245に示される副領域測定プロセスを実行し得る。スペクトルの特定の副領域が、その副領域が基本ピッチを最も含みそうであるので選択される。
As an improvement to this process, instead of or in addition to the entire spectrum measurement process, the sub-region measurement process shown in
副領域測定プロセスにおいて、全体スペクトルの測定におけるステップ210において、ひとたび初期加速度試験に関するローリング平均が更新されると、ステップ220に示されるように、エネルギ加速度測定がスレッショルド値より大きいかどうかを検査するための決定を行う。ステップ220において、エネルギ加速度測定がスレッショルド値より大きい場合、ステップ225に示されるように、他のパラメータを初期化するプロセスが中断される。ステップ220において、エネルギ加速度測定がスレッショルド値より大きくない場合、ステップ230におけるように、他のパラメータの初期化が更新される。次いで、プロセスは、図示のようにステップ235に戻る。
In the sub-region measurement process, once the rolling average for the initial acceleration test is updated in
ステップ235において、上記の決定後に、エネルギ加速度測定が1又はそれより多くの指定された余裕内にあるかどうかを評価するための更に好適な決定を行う。ステップ250において、減速値を評価して、減速値が「高い」かどうかを決定し、そして「高い」場合、ステップ255に示されるように、エネルギ加速度試験に関するローリング平均が、ゆっくり更新される。次いで、ステップ260において、プロセスは、全体スペクトルの方法に戻る。
In
このようにして、副領域検出器の一般的により高い信号対雑音比(SNR)は、それを非常に雑音に対して強固にする。しかしながら、それは、マイクロフォン及びスピーカの不都合な変化並びに帯域制限された雑音に対して弱い。従って、全ての状況において、測
定に依拠すべきでない。従って、本発明の好適な実施形態は、全体スペクトルの測定を増大するため副領域検出器を組み込む。
In this way, the generally higher signal-to-noise ratio (SNR) of the sub-region detector makes it very robust against noise. However, it is vulnerable to adverse microphone and speaker changes and band-limited noise. Therefore, in all situations, you should not rely on measurements. Accordingly, the preferred embodiment of the present invention incorporates a sub-region detector to increase the overall spectral measurement.
更なる測定プロセスは、例えば、各フレームのスペクトルの低側半分内で値の分散の「加速度」を用いて実行されるのが好ましい。分散の測定は、スペクトルの低側半分内の構造を検出し、それを有声の音声に対して非常に敏感にする。分散測定が、副領域プロセスのアプローチに続き、そしてスペクトルの低側半分が、選択された特定の副領域である。この分散測定が更に、全体スペクトル測定のアプローチを補完し、そのアプローチは、無声及び破裂性の音声をより良好に検出することができる。 The further measurement process is preferably performed, for example, using the “acceleration” of the variance of values within the lower half of the spectrum of each frame. The dispersion measurement detects the structure in the lower half of the spectrum and makes it very sensitive to voiced speech. Dispersion measurements follow the subregion process approach, and the lower half of the spectrum is the specific subregion selected. This dispersion measurement further complements the whole spectrum measurement approach, which can better detect unvoiced and bursting speech.
3つ全ての測定は、それらの生の入力を、出願人がモトローラ社で発明者がYan−Ming Chenの米国特許出願No.09/427497に記載されるような二重ウィ
ナー・フィルタの最初の段により発生されたフィルタ・ゲインのスペクトル表現から取り出す。前述されたように、各測定は、このデータの異なる局面を用いる。
All three measurements were taken from the raw inputs of U.S. Patent Application No. No. 5, filed by Motorola and inventor Yan-Ming Chen. Extract from the spectral representation of the filter gain generated by the first stage of the double Wiener filter as described in 09/427497. As described above, each measurement uses a different aspect of this data.
特に、全体スペクトル検出器は、二重ウィナー・フィルタの最初の段により発生されたフィルタ・ゲインの既知のメル・フィルタリング(Mel−filter)されたスペクトル表現を用いる。単一の入力値は、メル・フィルタ・バンクの和を二乗することにより得られる。 In particular, the overall spectrum detector uses a known Mel-filtered spectral representation of the filter gain generated by the first stage of the double Wiener filter. A single input value is obtained by squaring the sum of mel filter banks.
本発明の好適な実施形態において、全体スペクトル検出器は、以下に説明されるように、次のプロセスを全てのフレームに適用する。 In the preferred embodiment of the present invention, the full spectrum detector applies the following process to every frame, as described below.
ステップ1は、雑音推定トラッカ(noise estimate Tracker)を次の要領で初期化する。
フレーム<15、且つ加速度<2.5の場合、トラッカ=MAX(トラッカ、入力)
エネルギ加速度測定は、音声が15フレームのリードイン時間(lead−in time)内で生じる場合、トラッカが更新されることを防止する。
When frame <15 and acceleration <2.5, tracker = MAX (tracker, input)
The energy acceleration measurement prevents the tracker from being updated if the sound occurs within 15 frames of lead-in time.
ステップ2は、現在の入力が雑音推定と似ている場合、トラッカ値を次の要領で更新する。
入力<トラッカ*上側限度、且つ入力>トラッカ*下側限度の場合、
トラッカ=a*トラッカ+(1−a)*入力
ステップ3は、最初の数フレーム内の音声又は非特性的に大きい雑音成分が存在する、それらのインスタンスに対するフェール・セーフ機構を提供する。これは、減衰に対するその結果生じる間違った高雑音推定を生じさせる。ステップ3は、次の要領で機能することが好ましい。
入力<トラッカ*フロアである場合、
トラッカ=b*トラッカ+(1−b)*入力
ステップ4は、現在の入力がトラッカより165%より大きい入力である場合、次の要領で「真」の音声決定として戻る。
入力>トラッカ*スレッショルドである場合は、
真を出力し、その他の場合は、偽を出力する。
短期間平均トラッカに対する瞬時入力の比は、連続の入力のエネルギ加速度の関数である。
If input <tracker * upper limit and input> tracker * lower limit,
Tracker = a * tracker + (1−a) *
If input <tracker * floor,
Tracker = b * tracker + (1−b) *
If input> tracker * threshold,
Outputs true, otherwise it outputs false.
The ratio of the instantaneous input to the short-term average tracker is a function of the energy acceleration of the continuous input.
ここで、上記においては、
a=0.8 及び b=0.97
上側限度は150%であり、そして低側限度は75%であり、
フロア(floor)は50%であり、及び
スレッショルドは165%である。
Here, in the above,
a = 0.8 and b = 0.97
The upper limit is 150% and the lower limit is 75%
The floor is 50% and the threshold is 165%.
特に、値が上側限度より大きいか又は下側限度とフロアとの間にある場合更新が無い。更に、上記で示したようにエネルギ加速度入力は、
連続した入力の二回微分法(double−differentiation)か、又は
入力の2つのローリング平均の比を追跡することにより推定するか
のいずれかとして計算されることができる。
In particular, there is no update if the value is greater than the upper limit or between the lower limit and the floor. Furthermore, as indicated above, the energy acceleration input is
It can be calculated either as a double-differentiation of successive inputs or as an estimate by tracking the ratio of the two rolling averages of the inputs.
特に、早い適応ローリング平均と遅い適応ローリング平均との比は、連続した入力のエネルギ加速度を反映する。 In particular, the ratio of the fast adaptive rolling average to the slow adaptive rolling average reflects the continuous input energy acceleration.
一例として、上記で用いられる平均に対する寄与率は、
(i) 0*平均+1*入力、及び
(ii) ((フレーム−1)*平均+1*入力)/フレーム
であって、エネルギ加速度測定を最初の15個のフレームにわたりだんだんと敏感にする。
As an example, the contribution to the average used above is
(I) 0 * average + 1 * input, and (ii) ((frame-1) * average + 1 * input) / frame, making energy acceleration measurements increasingly sensitive over the first 15 frames.
サブバンド検出器は、「全体スペクトル」測定に関して導出された第2、第3及び第4のメル・フィルタ・バンクの平均を用いるのが好ましい。次いで、検出器は、次のプロセスを全てのフレームに対して、以下に記載される要領で適用する。 The subband detector preferably uses the average of the second, third and fourth mel filter banks derived for the “overall spectrum” measurement. The detector then applies the following process to all frames as described below.
(i) 入力=p*現在の入力+(1−p)*以前の入力
(ii) フレーム<15の場合、
トラッカ=MAX(トラッカ,入力)
(iii) 入力<トラッカ*上側限度、且つ入力>トラッカ*下側限度の場合、
トラッカ=a*トラッカ+(1−a)*入力
(iv) 入力<トラッカ*フロアの場合、
トラッカ=b*トラッカ+(1−b)*入力
(v) 入力>トラッカ*スレッショルドの場合、
真を出力し、その他の場合は偽を出力する。
ここで、副領域測定において、p=0.75である。
(I) input = p * current input + (1-p) * previous input (ii) if frame <15,
Tracker = MAX (tracker, input)
(Iii) If input <tracker * upper limit and input> tracker * lower limit,
Tracker = a * tracker + (1-a) * input (iv) If input <tracker * floor,
Tracker = b * Tracker + (1-b) * Input (v) If Input> Tracker * Threshold,
Outputs true, otherwise it outputs false.
Here, in the sub-region measurement, p = 0.75.
他の全てのパラメータは、スレッショルドを除いて、全体スペクトルの測定に関して同じであり、それは3.25に等しい。 All other parameters are the same for the overall spectrum measurement, except for the threshold, which is equal to 3.25.
スペクトルの分散の測定のため、各フレームに関してゲインの狭帯域スペクトル表現の低周波数側半分を有する値の分散が、入力として用いられる。次いで、検出器は、全体スペクトルの測定に関して同じプロセスを正確に適用する。 For the measurement of the spectral variance, the variance of the value having the lower half of the narrowband spectral representation of the gain for each frame is used as input. The detector then applies exactly the same process for the measurement of the whole spectrum.
分散は次のように計算される。 The variance is calculated as follows:
ここで、
N=FFTの長さ/4、及び
wiは、ゲインの狭帯域スペクトル表示の値である。
here,
N = the FFT length / 4, and w i is a narrow-band spectrum display of the value of the gain.
本発明の好適な実施形態に従って、前述した3つの測定は、図3のフロー・チャートに示されるように、VAD決定アルゴリズムに与えられる。連続した入力はバッファに与えられ、それは文脈解析を提供する。これは、バッファの長さから1フレームを差し引いた大きさに等しいフレーム遅延を導入する。 In accordance with the preferred embodiment of the present invention, the three measurements described above are provided to the VAD determination algorithm as shown in the flow chart of FIG. Sequential input is provided to the buffer, which provides context analysis. This introduces a frame delay equal to the length of the buffer minus one frame.
ここで図3を参照すると、雑音が多い環境に対する加速度ベースの音声活動有効化プロセスのフロー・チャート300が、本発明の好適な実施形態に従って示されている。
Referring now to FIG. 3, a
N=7のフレーム・バッファに対して、ステップ305に示されるように、最も最近の真/偽の音声入力が、データ・バッファの中の位置Nに格納される。決定ロジックが、或る数の以下のステップを与え、好ましくはそれらの一つ一つを与える。
For N = 7 frame buffers, the most recent true / false audio input is stored at location N in the data buffer, as shown in
ステップ1:
VN=測定1又は測定2又は測定3
入力VNは、上記3つの測定のいずれかが真の音声指示を戻す場合、「真」と定義される。
Step 1:
V N =
Input V N is defined as “true” if any of the three measurements returns a true voice indication.
ステップ2: Step 2:
アルゴリズムは、ステップ310におけるように、バッファの中の「真」値の最も長い連続シーケンスを捜す。従って、例えば、シーケンス「T T F T T T F」に関して、Mは「3」に等しいであろう。
The algorithm looks for the longest continuous sequence of “true” values in the buffer, as in
ステップ3:
M≧SP、且つTL<LSの場合、T=LS
ここで、SPは、ステップ315において第1のスレッショルドと同等と見なして扱う。ステップ315において、真(T)の音声値の最も長いシーケンスが第1のスレッショルドに等しい又はそれを超える、即ち、SP=3又はより多くの連続の「真」値である場合、バッファは、「可能性のある(possible)」音声を含むと判断される。ステップ320において、それが既に決定から存在しない(又は超えられていない)場合、ステップ325において、例えばLS=5フレームの短いタイマ(時間1)が活動状態にされる。
Step 3:
If M ≧ S P and T L <L S , then T = L S
Here, S P is handled equated with the first threshold in
ステップ4:
M≧SL、且つF>FSの場合、T=TLであり、
その他の場合は、T=LLである。
Step 4:
If M ≧ S L and F> F S , then T = TL .
In other cases, it is T = L L.
ここで、SLはステップ330において第2のスレッショルドと同等と見なして扱う。SL=4又はより多くの連続した「真」値である場合、バッファは、再び、「可能性のありそうな(likely)」音声を含むと判断される。ステップ335において決定されるように、現在のフレームFが初期リードイン安全期間FSの外側にある場合、ステップ340において、例えば、LM=22フレームの中間タイマTが活動状態にされる。その他の場合、ステップ345において、例えば、LL=40フレームのフェールセーフの長いタイマTが用いられる。そのような構成は、発話の中の音声の早期の存在がVADの初期雑音推定を高すぎるようにし得るので、用いられる。
Here, S L are handled regarded as equivalent to the second threshold in
ステップ5:
M<SP、且つT>0の場合、T−−
ステップ350において、プロセスがSP=3より少ない連続の「真」値であると決定し、且つステップ355において、タイマがゼロより大きい場合、ステップ360において、タイマが減分される。
Step 5:
M In the case of <S P, and T> 0, T--
If, at
ステップ6:
T>0の場合、「真」を出力し、その他の場合は、「偽」を出力する。
Step 6:
If T> 0, “true” is output, otherwise “false” is output.
ステップ365において、タイマがゼロより大きい場合、ステップ370に示されるように、プロセスが「真」の音声の決定を出力する。代わりに、タイマがゼロより大きくない場合、ステップ375に示されるように、プロセスは、「雑音」の決定を出力する。
In
ステップ7:
フレーム++の場合、バッファを左にシフトし、ステップ1に戻る。
Step 7:
For frame ++, shift the buffer to the left and return to
ステップ380における次のフレームに対する準備において、バッファは、図4に示されるように、左にシフトされて、次の入力を受け入れる。出力音声決定は、バッファから放出されつつあるフレームに適用される。ステップ305において、プロセスは、データ・バッファに入力される次の真/偽に関して繰り返す。
In preparation for the next frame in
前述したエネルギ加速度プロセスに基づいて、音声又は雑音の決定をする代替機構を実現することができることは本発明の意図内である。例えば、決定機構は、1又はそれより多くのタイマに基づかないでよく、そして1又はそれより多くのエネルギ加速度スレッショルドを超えたかどうかについて単に決定し得る。 It is within the spirit of the present invention that an alternative mechanism for making speech or noise determinations can be implemented based on the energy acceleration process described above. For example, the decision mechanism may not be based on one or more timers and may simply determine whether one or more energy acceleration thresholds have been exceeded.
ここで図4を参照すると、本発明の好適な実施形態に従ったバッファ動作400の一例がより詳細に示されている。第1のスレッショルドが3つの連続の「真」値に対して設定されると仮定しよう。時間(時刻)「t」410において、現在の入力(フレーム#7)425及びその前の入力(フレーム#6)420のみが「真」であったと仮定しよう。従って、バッファがシフトされたとき、第1のフレーム(フレーム#1)415は、「偽」とマークされる。
Referring now to FIG. 4, an example of a
時間(時刻)「t+1」430において、第3の「真」入力(フレーム#8)450が受け取られ、それより早い2つの「真」入力440、445を補足する。従って、バッファがシフトされたとき、次の出力フレーム(フレーム#2)435が、「真」とマークされる。
At time (time) “t + 1” 430, a third “true” input (frame # 8) 450 is received, supplementing two earlier “true”
上記の決定プロセスにおいて、制約だけは次のとおりであることに注目すべきである。 It should be noted that in the above decision process, only the constraints are:
(i) 時間1<時間2<時間3、及び
(ii)スレッショルド1<スレッショルド2。
(I)
これら3つの入力(フレーム#6、フレーム#7及びフレーム#8)のみが「真」であると仮定すると、フルの出力シーケンスは、次のとおりである。 Assuming that only these three inputs (frame # 6, frame # 7 and frame # 8) are “true”, the full output sequence is:
ここで、フレーム#2−#5は、バッファ・リードイン機能に起因して「真」を指示する。フレーム#6−#8は、実際の元の「真」の音声入力の位置として「真」を指示する。フレーム#9−#12は、バッファ・リードアウト機能(buffer lead−out function)に起因して「真」を指示する。フレーム#13−#18は、用いられるタイマ・ハングオーバ(timer hangover)に応答して「真」を指示する。ひとたび発話の中の全てのフレームが入力されてしまうと、バッファは、空になるまで「偽」の入力(フレーム#19−#LM)をシフトする。 Here, frames # 2 to # 5 indicate “true” due to the buffer lead-in function. Frames # 6 to # 8 indicate “true” as the actual original “true” audio input position. Frames # 9- # 12 indicate “true” due to the buffer lead-out function. Frames # 13- # 18 indicate “true” in response to the timer hangover used. Once all the frames in the utterance have been input, the buffer shifts the “false” input (frames # 19- # L M ) until empty.
オーディオ通信装置の要求に適合するため、バッファの長さ及びハングオーバ・タイマを動的に調整することができることは、本発明の意図内である。そのようにして、8のバッファ長「N」、及び5フレームのハングオーバ・タイマを用いた好適な実施形態は、説明の目的のみのため用いられている。しかしながら、バッファ長「N」はN≧SLであるように常に決定されるべきであることに注目すべきである。 It is within the intent of the present invention that the buffer length and hangover timer can be adjusted dynamically to meet the requirements of the audio communication device. As such, the preferred embodiment using a buffer length “N” of 8 and a 5 frame hangover timer is used for illustrative purposes only. However, it should be noted that the buffer length “N” should always be determined such that N ≧ S L.
それをVADとして自己の権利で使用することに加えて、図2の方法ステップで実行されるエネルギ加速度測定を用いて、他のパラメータの初期化を有効化することができることは、本発明の意図内である。例えば、スペクトル減算スキームは、音声の最初の10フレーム(典型的には100ミリ秒)に基づく雑音の初期推定を必要とする。たとえ定常雑音においても、幾つかの事象が、初期推定を無効化するため起こり得る。そのような事象の例には次のものが含まれる。 In addition to using it as its own right as VAD, it is the intent of the present invention that the initialization of other parameters can be validated using the energy acceleration measurement performed in the method step of FIG. Is within. For example, spectral subtraction schemes require an initial estimate of noise based on the first 10 frames of speech (typically 100 milliseconds). Even in stationary noise, several events can occur to invalidate the initial guess. Examples of such events include:
(a)信号のランプアップ(ramp−up):
様々な可能性のある原因に起因して、記録の全くの開始は、評価の下で周期内のフル・ボリュームへ「ランプアップ」し得る。そのようなフル・ランプアップの裏にある理由は、ディジタル・システムにおけるバッファ充填、キャパシタンス、又はアナログ・システムでのテープ−ヘッド係合を含む。そのような事象の効果は、推定を無効化するであろう。従って、エネルギ加速度測定を用いて、そのようなランプアップを検出し、そこでエラーを防止し得る。
(A) Ramp-up of signal:
Due to various possible causes, the full start of recording can “ramp up” to full volume within a cycle under evaluation. The reasons behind such full ramp-up include buffer filling in digital systems, capacitance, or tape-head engagement in analog systems. The effect of such an event will invalidate the estimation. Thus, energy acceleration measurements can be used to detect such ramp-up and prevent errors there.
(b)初期信号の中のスパイク:
共通の「スパイク」が、加入者無線装置上の「プレス・ツー・トーク(話すため押す)(press−to−talk)(PTT)」ボタンのフル配置でもって生じ、そこにおいて、電気的接触は、ボタンがスイッチの背面を打つことよりほんの僅かに先行する。そのような事象が起きたとき、図2のステップ225に示されるように、前述したエネルギ加速度測定を用いて、推定プロセスを中断することができる。
(B) Spikes in the initial signal:
A common "spike" occurs with the full arrangement of "press-to-talk" (PTT) buttons on the subscriber radio device, where electrical contact is , Just slightly ahead of the button hitting the back of the switch. When such an event occurs, the energy acceleration measurement described above can be used to interrupt the estimation process, as shown in
(c)初期信号の中の音声:
特にPTTシステムの場合の別の共通の出現事項は、ユーザがPTTボタンを押すやいなやユーザが話し始めることである。このようにして、電気的接触は、しゃべりが始まった後で行われる。エネルギ加速度測定は、これを識別し、そして図2のステップ225に示されるように、雑音ベースの初期化をそのように中断し、又はデフォルト推定の使用を
強制することができる。
(C) Audio in the initial signal:
Another common occurrence, especially in the case of PTT systems, is that the user begins to speak as soon as the user presses the PTT button. In this way, electrical contact is made after talking begins. The energy acceleration measurement can identify this and so interrupt the noise-based initialization or force the use of the default estimate, as shown in
要約すると、音声活動検出機構を有するオーディオ処理装置を含む通信装置を説明した。音声活動検出機構は、通信装置に入力される信号のエネルギ加速度の指示を与え、そして上記の入力信号が音声であるか又は雑音であるかを上記指示に基づいて決定する。 In summary, a communication device including an audio processing device having a voice activity detection mechanism has been described. The voice activity detection mechanism provides an indication of energy acceleration of a signal input to the communication device, and determines whether the input signal is voice or noise based on the instruction.
その上、通信装置に入力される音声信号を検出する方法を説明した。この方法は、通信装置への入力信号の加速度を指示するステップと、上記入力信号が音声であるか又は雑音であるかを上記指示するステップに基づいて決定するステップとを含む。 In addition, a method for detecting an audio signal input to a communication device has been described. The method includes instructing acceleration of an input signal to the communication device and determining based on the instructing step whether the input signal is speech or noise.
更に、通信装置に入力される信号が音声であるか又は雑音であるかを決定する方法を説明した。この方法は、上記の入力信号が音声であるか又は雑音であるかをエネルギ加速度に基づいて、例えば或る数の入力信号のフレーム平均又はローリング平均を用いて決定するステップを含む。 Further, a method for determining whether a signal input to the communication apparatus is voice or noise has been described. The method includes determining whether the input signal is speech or noise based on energy acceleration, for example, using a frame average or rolling average of a number of input signals.
従って、前述した、雑音の多い環境に対するエネルギ加速度ベースの音声活動検出器及び有効化器は、雑音に対する強固さ及び早い応答の利点を与える。好適な実施形態が絶対的測定の代わりにエネルギ加速度に依存した測定を用いるので、本明細書で説明した発明概念は、いずれの入力レベルの音声に対しても適用することができる。 Thus, the energy acceleration based voice activity detector and enabler described above for noisy environments provides the advantages of robustness and fast response to noise. Since the preferred embodiment uses energy acceleration dependent measurements instead of absolute measurements, the inventive concepts described herein can be applied to speech at any input level.
本発明の実施形態の特定のそして好適な実行が上記で説明されたが、当業者は、本発明の範囲内に入るそのような発明概念の変更及び修正を容易に適用することができるであろうことは明らかである。 While specific and preferred implementations of embodiments of the present invention have been described above, those skilled in the art will readily be able to apply such changes and modifications of the inventive concept that fall within the scope of the present invention. It is clear that it is deaf.
従って、従来技術の構成に係わる前述の欠点が実質的に改善された、雑音の多い環境のための改良された音声活動検出器及び有効化器が説明された。 Accordingly, an improved voice activity detector and enabler for a noisy environment has been described in which the aforementioned drawbacks associated with prior art configurations have been substantially improved.
Claims (18)
前記音声活動検出機構(130,135)が、エネルギの平均値とエネルギの瞬時値との比を計算することにより前記通信装置(100)に入力される信号のエネルギ加速度を測定し、且つ前記の入力された信号が音声であるか又は雑音であるかを前記測定に基づいてフレーム単位で決定するように構成され、
前記エネルギ加速度測定がエネルギ加速度スレッショルドより大きいエネルギ加速度値を生じる場合、入力フレームは音声フレームであると決定される(265)ことを特徴とする通信装置(100)。 A communication device (100) comprising an audio processing device (109) having a voice activity detection mechanism (130, 135),
The voice activity detection mechanism (130, 135) measures an energy acceleration of a signal input to the communication device (100) by calculating a ratio between an average energy value and an instantaneous energy value, and Configured to determine frame by frame based on the measurement whether the input signal is speech or noise;
The communication device (100), wherein the input frame is determined to be an audio frame if the energy acceleration measurement yields an energy acceleration value greater than an energy acceleration threshold (265).
前記音声活動決定機能(135)はさらに、前記バッファ内の前記バッファされた入力フレームの各々に対して真又は偽の指示を割り当てるように構成され、入力フレームに対する前記1つ又は複数のエネルギ加速度測定のうちの任意の1つが音声指示を返す場合に真の指示が割り当てられ、前記音声活動決定機能(135)はさらに、前記バッファ内の前記バッファされた一連の入力フレームの各々に対して割り当てられた前記指示が真である場合に前記バッファ内の前記入力信号が音声であると決定するように構成される請求項3記載の通信装置(100)。 The voice activity detection mechanism is operatively coupled to the voice activity detector function (130), based on a buffering operation of an input frame of the input signal into a buffer, and one or more of the one or more of the A voice activity determination function (135) configured to determine whether the input signal is speech according to an energy acceleration measurement;
The voice activity determination function (135) is further configured to assign a true or false indication to each of the buffered input frames in the buffer, the one or more energy acceleration measurements for the input frames. A true indication is assigned if any one of the commands returns a voice indication, and the voice activity determination function (135) is further assigned for each of the buffered series of input frames in the buffer. 4. The communication device (100) of claim 3, wherein the communication device (100) is configured to determine that the input signal in the buffer is audio if the indication is true.
エネルギの平均値とエネルギの瞬時値との比を計算することにより前記通信装置(100)へ入力される信号のエネルギ加速度を測定するステップと、
前記の入力信号が音声(370)であるか又は雑音(375)であるかを前記測定するステップに基づいてフレーム単位で決定するステップ(315、330、350)と
を備え、前記エネルギ加速度測定がエネルギ加速度スレッショルドより大きいエネルギ加速度値を生じる場合、入力フレームは音声フレームであると決定される(265)ことを特徴とする方法。 A method of detecting an audio signal input to a communication device,
Measuring an energy acceleration of a signal input to the communication device (100) by calculating a ratio of an average energy value and an instantaneous energy value;
Determining whether the input signal is speech (370) or noise (375) on a frame basis based on the measuring step (315, 330, 350), wherein the energy acceleration measurement comprises: The method wherein the input frame is determined to be a speech frame if an energy acceleration value greater than the energy acceleration threshold is generated (265).
前記バッファ内の入力フレームが音声フレームであると決定される場合、前記決定を前記バッファの中のより以前のフレームに対して遡及的に適用するステップをさらに含む、請求項11記載の方法。 The buffer has a buffer length of N frames, and successive input frames are passed to and released from the buffer, the method comprising:
12. The method of claim 11, further comprising: retroactively applying the determination to earlier frames in the buffer if it is determined that the input frame in the buffer is a speech frame.
前記入力信号の入力フレームをバッファ内にバッファするステップと、
前記バッファ内の前記バッファされた入力フレームの各々に対して真又は偽の指示を割り当てるステップであって、入力フレームに対するエネルギ加速度測定が音声指示を返す場合に真の指示が割り当てられる、ステップと、
前記バッファ内の前記バッファされた一連の入力フレームの各々に割り当てられた前記指示が真である場合に前記バッファ内の前記入力信号が音声であると決定するステップと
をさらに含む請求項11記載の方法。 The determining step includes:
Buffering an input frame of the input signal in a buffer;
Assigning a true or false indication to each of the buffered input frames in the buffer, wherein a true indication is assigned if an energy acceleration measurement for the input frame returns a voice indication;
12. The method of claim 11, further comprising: determining that the input signal in the buffer is speech if the indication assigned to each of the buffered series of input frames in the buffer is true. Method.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0201585A GB2384670B (en) | 2002-01-24 | 2002-01-24 | Voice activity detector and validator for noisy environments |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003562919A Division JP2005516247A (en) | 2002-01-24 | 2003-01-10 | Voice activity detector and enabler for noisy environments |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010061151A true JP2010061151A (en) | 2010-03-18 |
Family
ID=9929648
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003562919A Pending JP2005516247A (en) | 2002-01-24 | 2003-01-10 | Voice activity detector and enabler for noisy environments |
JP2009251650A Pending JP2010061151A (en) | 2002-01-24 | 2009-11-02 | Voice activity detector and validator for noisy environment |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003562919A Pending JP2005516247A (en) | 2002-01-24 | 2003-01-10 | Voice activity detector and enabler for noisy environments |
Country Status (6)
Country | Link |
---|---|
JP (2) | JP2005516247A (en) |
KR (2) | KR100976082B1 (en) |
CN (1) | CN1307613C (en) |
FI (1) | FI124869B (en) |
GB (1) | GB2384670B (en) |
WO (1) | WO2003063138A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2544293C1 (en) * | 2013-10-11 | 2015-03-20 | Сергей Александрович Косарев | Method of measuring physical quantity using mobile electronic device and external unit |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100657912B1 (en) * | 2004-11-18 | 2006-12-14 | 삼성전자주식회사 | Noise reduction method and apparatus |
JP4758879B2 (en) * | 2006-12-14 | 2011-08-31 | 日本電信電話株式会社 | Temporary speech segment determination device, method, program and recording medium thereof, speech segment determination device, method |
GB2450886B (en) | 2007-07-10 | 2009-12-16 | Motorola Inc | Voice activity detector and a method of operation |
CN102272826B (en) * | 2008-10-30 | 2015-10-07 | 爱立信电话股份有限公司 | Telephony content signal is differentiated |
CN102044241B (en) | 2009-10-15 | 2012-04-04 | 华为技术有限公司 | Method and device for tracking background noise in communication system |
KR20140026229A (en) * | 2010-04-22 | 2014-03-05 | 퀄컴 인코포레이티드 | Voice activity detection |
US8898058B2 (en) | 2010-10-25 | 2014-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
KR101196518B1 (en) | 2011-04-05 | 2012-11-01 | 한국과학기술연구원 | Apparatus and method for detecting voice activity in real-time |
US9953661B2 (en) * | 2014-09-26 | 2018-04-24 | Cirrus Logic Inc. | Neural network voice activity detection employing running range normalization |
CN104575498B (en) * | 2015-01-30 | 2018-08-17 | 深圳市云之讯网络技术有限公司 | Efficient voice recognition methods and system |
JP2016167678A (en) * | 2015-03-09 | 2016-09-15 | 株式会社リコー | Communication device, communication system, log data storage method, and program |
CN109841223B (en) * | 2019-03-06 | 2020-11-24 | 深圳大学 | Audio signal processing method, intelligent terminal and storage medium |
US11217262B2 (en) * | 2019-11-18 | 2022-01-04 | Google Llc | Adaptive energy limiting for transient noise suppression |
CN112820324B (en) * | 2020-12-31 | 2024-06-25 | 平安科技(深圳)有限公司 | Multi-label voice activity detection method, device and storage medium |
KR102453919B1 (en) | 2022-05-09 | 2022-10-12 | (주)피플리 | Method, device and system for verifying of guide soundtrack related to cultural content based on artificial intelligence |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0285896A (en) * | 1988-09-22 | 1990-03-27 | Sekisui Chem Co Ltd | Voice detecting system |
JPH03114100A (en) * | 1989-09-28 | 1991-05-15 | Matsushita Electric Ind Co Ltd | Voice section detecting device |
JPH0728486A (en) * | 1993-07-13 | 1995-01-31 | Nec Corp | Voice compression device |
JPH08305388A (en) * | 1995-04-28 | 1996-11-22 | Matsushita Electric Ind Co Ltd | Voice range detection device |
JPH09198099A (en) * | 1996-01-22 | 1997-07-31 | Rockwell Internatl Corp | Method and device for generating frame voice decision in speech communication system |
JPH10171497A (en) * | 1996-12-12 | 1998-06-26 | Oki Electric Ind Co Ltd | Background noise removing device |
JPH10301600A (en) * | 1997-04-30 | 1998-11-13 | Oki Electric Ind Co Ltd | Voice detecting device |
JPH10327089A (en) * | 1997-05-23 | 1998-12-08 | Matsushita Electric Ind Co Ltd | Portable telephone set |
JPH113091A (en) * | 1997-06-13 | 1999-01-06 | Matsushita Electric Ind Co Ltd | Detection device of aural signal rise |
JP2001350488A (en) * | 2000-06-02 | 2001-12-21 | Nec Corp | Method and device for voice detection and its recording medium |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IT1209561B (en) * | 1983-07-14 | 1989-08-30 | Gte Laboratories Inc | COMPLEMENTARY REVELATION OF THE WORD. |
US5946649A (en) * | 1997-04-16 | 1999-08-31 | Technology Research Association Of Medical Welfare Apparatus | Esophageal speech injection noise detection and rejection |
US6032116A (en) * | 1997-06-27 | 2000-02-29 | Advanced Micro Devices, Inc. | Distance measure in a speech recognition system for speech recognition using frequency shifting factors to compensate for input signal frequency shifts |
FR2768544B1 (en) * | 1997-09-18 | 1999-11-19 | Matra Communication | VOICE ACTIVITY DETECTION METHOD |
-
2002
- 2002-01-24 GB GB0201585A patent/GB2384670B/en not_active Expired - Lifetime
-
2003
- 2003-01-10 JP JP2003562919A patent/JP2005516247A/en active Pending
- 2003-01-10 KR KR1020097022615A patent/KR100976082B1/en active IP Right Grant
- 2003-01-10 KR KR10-2004-7011459A patent/KR20040075959A/en not_active Application Discontinuation
- 2003-01-10 WO PCT/EP2003/000271 patent/WO2003063138A1/en active Application Filing
- 2003-01-10 CN CNB038026821A patent/CN1307613C/en not_active Expired - Lifetime
-
2004
- 2004-07-22 FI FI20041013A patent/FI124869B/en active IP Right Grant
-
2009
- 2009-11-02 JP JP2009251650A patent/JP2010061151A/en active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0285896A (en) * | 1988-09-22 | 1990-03-27 | Sekisui Chem Co Ltd | Voice detecting system |
JPH03114100A (en) * | 1989-09-28 | 1991-05-15 | Matsushita Electric Ind Co Ltd | Voice section detecting device |
JPH0728486A (en) * | 1993-07-13 | 1995-01-31 | Nec Corp | Voice compression device |
JPH08305388A (en) * | 1995-04-28 | 1996-11-22 | Matsushita Electric Ind Co Ltd | Voice range detection device |
JPH09198099A (en) * | 1996-01-22 | 1997-07-31 | Rockwell Internatl Corp | Method and device for generating frame voice decision in speech communication system |
JPH10171497A (en) * | 1996-12-12 | 1998-06-26 | Oki Electric Ind Co Ltd | Background noise removing device |
JPH10301600A (en) * | 1997-04-30 | 1998-11-13 | Oki Electric Ind Co Ltd | Voice detecting device |
JPH10327089A (en) * | 1997-05-23 | 1998-12-08 | Matsushita Electric Ind Co Ltd | Portable telephone set |
JPH113091A (en) * | 1997-06-13 | 1999-01-06 | Matsushita Electric Ind Co Ltd | Detection device of aural signal rise |
JP2001350488A (en) * | 2000-06-02 | 2001-12-21 | Nec Corp | Method and device for voice detection and its recording medium |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2544293C1 (en) * | 2013-10-11 | 2015-03-20 | Сергей Александрович Косарев | Method of measuring physical quantity using mobile electronic device and external unit |
Also Published As
Publication number | Publication date |
---|---|
KR20040075959A (en) | 2004-08-30 |
KR100976082B1 (en) | 2010-08-16 |
FI20041013A (en) | 2004-09-22 |
GB0201585D0 (en) | 2002-03-13 |
JP2005516247A (en) | 2005-06-02 |
WO2003063138A1 (en) | 2003-07-31 |
CN1623186A (en) | 2005-06-01 |
GB2384670B (en) | 2004-02-18 |
CN1307613C (en) | 2007-03-28 |
GB2384670A (en) | 2003-07-30 |
FI124869B (en) | 2015-02-27 |
KR20090127182A (en) | 2009-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010061151A (en) | Voice activity detector and validator for noisy environment | |
KR100944252B1 (en) | Detection of voice activity in an audio signal | |
US7171357B2 (en) | Voice-activity detection using energy ratios and periodicity | |
JP3878482B2 (en) | Voice detection apparatus and voice detection method | |
US9524735B2 (en) | Threshold adaptation in two-channel noise estimation and voice activity detection | |
RU2251750C2 (en) | Method for detection of complicated signal activity for improved classification of speech/noise in audio-signal | |
US20090196429A1 (en) | Signaling microphone covering to the user | |
KR20160079105A (en) | Voice recognition method, voice recognition device, and electronic device | |
JP2003514473A (en) | Noise suppression | |
JP2007179073A (en) | Voice activity detecting device, mobile station, and voice activity detecting method | |
KR100848798B1 (en) | Method for fast dynamic estimation of background noise | |
WO2012127278A1 (en) | Apparatus for audio signal processing | |
CN108133712B (en) | Method and device for processing audio data | |
EP2743923B1 (en) | Voice processing device, voice processing method | |
EP1751740B1 (en) | System and method for babble noise detection | |
US20120265526A1 (en) | Apparatus and method for voice activity detection | |
JP4601970B2 (en) | Sound / silence determination device and sound / silence determination method | |
EP3821429B1 (en) | Transmission control for audio device using auxiliary signals | |
KR100284772B1 (en) | Voice activity detecting device and method therof | |
KR101336203B1 (en) | Apparatus and method for detecting voice activity in electronic device | |
KR100881355B1 (en) | System and method for babble noise detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20110531 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110812 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110826 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120224 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120319 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120523 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120528 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120824 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120920 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130115 |