JP4236726B2 - 音声活動検出方法及び音声活動検出装置 - Google Patents
音声活動検出方法及び音声活動検出装置 Download PDFInfo
- Publication number
- JP4236726B2 JP4236726B2 JP07788898A JP7788898A JP4236726B2 JP 4236726 B2 JP4236726 B2 JP 4236726B2 JP 07788898 A JP07788898 A JP 07788898A JP 7788898 A JP7788898 A JP 7788898A JP 4236726 B2 JP4236726 B2 JP 4236726B2
- Authority
- JP
- Japan
- Prior art keywords
- threshold
- energy
- value
- input signal
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims description 17
- 230000000694 effects Effects 0.000 title description 15
- 230000000295 complement effect Effects 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims 2
- 238000000034 method Methods 0.000 description 24
- 238000012360 testing method Methods 0.000 description 22
- 230000008569 process Effects 0.000 description 13
- 230000004044 response Effects 0.000 description 11
- 230000007704 transition Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/09—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Time-Division Multiplex Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephone Function (AREA)
Description
【発明の属する技術分野】
本発明は、スピーチ信号と、雑音信号と、無音期間とを含む入力信号における音声活動を検出する音声活動検出方法に関する。本発明は、同様に、この方法を実施するための音声活動を検出する音声活動検出装置に関する。
【0002】
【従来の技術】
本発明は、スピーチ信号(及び純粋な低周波信号以外の信号)が発生する場合や、スピーチ、背景雑音及び無音期間を含む音響帯域と、雑音又は無音期間のみを含む低周波帯域とを区別することが望ましい場合への用途であればどのような用途にでも利用することができる。本発明は、特に、句又は孤立している語を認識するための用途において有用な前処理モードを構成する。
【0003】
【発明が解決しようとする課題】
本発明の第1の目的は、伝送ネットワークの場合に、スピーチのみ以外のデータ(スピーチが全通過帯域を占めていないこと、即ち、スピーチと他のデータの同時通過が実際に可能であることを確認する必要がある。)を習慣的に転送する他の種類の信号に対してスピーチ信号のために確保されている通過帯域を最適にするため、又は、たとえば、デジタル電話応答機に蓄積されているメッセージによりメモリ内で占められる領域を最適にすることである。
【0004】
本発明の他の目的は、本発明の方法を簡単に使用可能とする、音声活動を検出する装置を提案することである。
【0005】
【課題を解決するための手段】
上記第1の目的のために、本発明は、エネルギ、及び、中心化された雑音信号の零交差率を計算する第1のステップと、入力信号を分類する第2のステップとを入力信号に適用し、入力信号をスピーチとして又は雑音として分類及び処理する上記ステップは、適応閾値Bに関する入力信号のエネルギ値と、計算した零交差率とに依存することを特徴とする、発明の詳細な説明の最初の段落で述べられている方法に関するものである。
【0006】
上記他の目的のために、本発明は、スピーチ信号と、雑音信号と、無音期間とを含む入力信号における音声活動を検出する音声活動検出装置において、上記入力信号は所定の持続時間の連続するデジタル化されたフレームの形で利用でき、かつ、上記装置は、使用した変数の初期化のための段階と、各フレームのエネルギと中心化された雑音信号の零交差率との計算のための段階と、3段階オートメーションの形で実現される処理及びテスト段階とからなる一連の段階配列を行う手段を備え、これら3つの段階は、
第1のN−INITフレーム中の状態であって、上記変数の調整のために行われ、かつ、その期間中はいずれの入力信号も常にスピーチ信号とみなされる初期化の第1の状態と、
その期間中はいずれの入力信号も「スピーチ+雑音+無音」信号、「雑音+無音」信号とそれぞれみなされる第2の状態、及び、第3の状態であり、
上記装置は、第1のN−INITフレームの後は常に、第2の状態又は第3の状態のいずれかの状態であることを特徴とする音声活動検出装置に関するものである。
【0007】
提案した実施の形態においては、この分類によって、初期化状態と、スピーチの存在する状態と、雑音の存在する状態とそれぞれ呼称される3つの発生しうる状態になる。
【0008】
【発明の実施の形態】
本発明について説明する前に、提案する方法の使用における最初のいくつかの使用条件、即ち、単一の入力源から来る入力信号が、人により発せられ、起源が非常に異なることがある背景雑音(レストラン、事務所、走行車両等の背景雑音)が混じった音声信号(又はスピーチ信号)に対応するという最初の条件について詳細に説明する。さらに、これらの入力信号は本発明に従って処理する前にデジタル化すべきであり、この処理は、これらのデジタル化された入力信号の十分な範囲(又はフレーム)、例えば、約5ms乃至20msの連続するフレーム、を使用できることを意味する。最後に、スピーチ信号に適用される他の任意の後の処理とは独立である提案した方法を、ここでは8kHzで標本抽出し、電話周波数帯(300〜3400Hz)内にのみ含まれるように濾波したデジタル信号を用いて試験したことを指摘する。
【0009】
本発明に係る方法の動作モードの原理を図1に示す。手順の過程で使用する変数の初期化段階10の予備ステップの後、計算段階11において、入力Eに受信された入力信号の現在の各フレームTRnについて、このフレームのエネルギEn、及び、このフレームにおける中心化された雑音信号の零交差率の最初の計算ステップが行われる(以下の説明でZCR、又はZCとも呼称されるこの変数の意味については後述する)。その後、試験及び処理段階12における第2のステップが、入力信号が「スピーチ+雑音+無音」信号を表すのか、又は「雑音+無音」のみの信号を表すのかを判定するために、そのエネルギを適応閾値と比較すること、及び、ZCRを固定閾値と比較することを可能にする。この第2のステップは、以下で3状態オートメーションと呼称されるものにおいて実行する。その3状態オートメーションの動作を図2に示す。これら3つの状態は図1にも示す。
【0010】
第1の状態、START VADは、図1にAで示すスタート状態である。本発明に従った処理の各スタートにおいて、システムはこの状態に入る。この状態では、入力信号は常にスピーチ信号とみなされる(雑音も検出されたとしても)。この初期化状態によって内部変数を調整することが特に可能にされ、必要とされる期間だけ維持される(種々の連続するフレームの間、N−INITで示すフレームの数は明らかに調整できる)。
【0011】
第2の状態、SPEECH VADは、入力信号が「スピーチ+雑音+無音」信号とみなされる場合に対応する。第3の状態、NOISE VADは、入力信号が「雑音+無音」のみの信号とみなされる場合に対応する(「第1の」状態及び「第2の」状態という用語は重要度を定めるためのものではなく、状態を区別することを意図するためのものであることに、ここでは注意されたい)。第1のN−INITフレームの後は、システムは常にこの第2の状態又は第3の状態にある。1つの状態から次の状態への遷移については後述する。
【0012】
初期化の後、段階11における第1の計算ステップは2つの副ステップを含む。一方の副ステップは、現在のフレームのエネルギを計算する計算回路111で実行され、このフレームについてのZCRの計算は計算回路112で実行される。
【0013】
一般に、スピーチ信号(即ち、「スピーチ+雑音+無音」信号)は「雑音+無音」のみの信号より大きなエネルギを有する。背景雑音が非常に激しいことは確かに避け難く、背景雑音は雑音として(即ち、「雑音+無音」信号として)検出されず、スピーチ信号として検出される。従って、エネルギを計算するための回路111は、下記の方法で実現される試験を行うために、可変閾値の値に応じてエネルギに可変閾値を関連づける。
【0014】
(a)現在のフレームのエネルギEnがある閾値Bより小さいとすると(En<閾値B)、現在のフレームはNOISEとして分類される。
【0015】
(b)他方、エネルギEnが閾値Bより大きいか、閾値Bに等しいとすると(En≧閾値B)、現在のフレームはSPEECHとして分類される。
【0016】
実際に、背景雑音の関数として適応性のある、即ち、例えば、その閾値を「雑音+無音」信号の平均エネルギEの関数として調整する、閾値Bを有することを選択する。さらに、この「雑音+無音」信号のレベルの変動が許される。すると、適応基準は、以下の通りになる。
【0017】
(i)(En<閾値B)であるとすると、閾値Bは閾値B−αEで置き換えられる。ここで、αは経験的に決定される定数であるが、この場合には0と1との間に含まれる。
【0018】
(ii)(閾値B<En<閾値B+Δ)であるとすると、閾値Bは閾値B+αEで置き換えられる(Δ=相補閾値)。
【0019】
これら2つの状況(i)(ii)においては、信号は「雑音+無音」とみなされ、平均エネルギEは更新される。もしそうでなければ、En≧閾値B+Δであるとすると、信号はスピーチであるとみなされ、平均エネルギEは不変のままである。それを避けるために、その閾値Bをあまり大きくしたり、あまり小さくしたりせず、その値は、経験的に決定される2つの閾値THRESHOLD B MINとTHRESHOLD B MAXとの間に留まることを強制される。他方、Δ自体の値は、入力信号(それがスピーチのみ、雑音+無音、又は2つの混合のいずれであっても)が大きいか、小さいかに応じて、ここでは大きかったり、小さかったりする。例えば、En-1を入力信号の先行するフレームTRn-1(これは保存されている)のエネルギとすることにより、以下の種類の判定が行われる。
【0020】
(i)|En−En-1|<閾値であれば、Δ=DELTA1、
(ii)もしそうでなければ、Δ=DELTA2、
Δのとり得る2つの値DELTA1及びDELTA2はやはり経験的に決定される一定値である。
【0021】
回路111でエネルギの計算が行われると、回路112で行う、現在のフレームについてのZCRの計算がそれに関連づけられる。段階11におけるこれらの計算の後に、説明した種々のステップを開始した後で装置がとる状態についての判定動作が続く。より正確には、段階12で行うこの判定方法は2つの重要なテスト121及び122を含む。これらのテストについて引き続き説明する。
【0022】
本発明に従った処理の各スタートにおいては、連続するN−INITフレームの間、スタートステップはA=START VADであったことが観察されている。装置の状態についての最初のテスト121は、装置の入力に加えられるフレームの数に関するものであって、状態がSTART VAD(テスト121の後の応答Y)となりその状態を継続する結論を導くが、加えられるフレームの数はN−INITより少ないままである。その場合に、START VAD Pと呼称され、ステップ141で実行される結果的な処理を後述の図3に示す。しかし、このSTART VAD Pの間は、必然的に、観察された状態がもはやスタート状態START VADではなく、他の状態の1つ、即ち、その区別がテスト122で行われるNOISE VAD、又はSPEECH VADのいずれかであることが起こることを、今から示すことができる。
【0023】
確かに、最初のテスト121の後でこのときの応答がNである(即ち、「いいえ(no)、状態はもはやSTART VADでない」)とすると、第2のテスト122は観察された状態がB=NOISE VADであるかどうかを前のように「肯定(yes)」応答又は「否定(no)」応答で判定する。応答が「肯定」(テスト122の後の応答Y)であれば、NOISE VADと呼称される結果的な処理がブロック142で実行される。その処理を図4に示す。応答が「否定」(テスト122の後の応答N)であれば、ブロック143でSPEECH VAD Pと呼称される結果的な処理が実行される。その処理を図5に示す(START VAD Pに関する限り、図4及び図5については以下に説明する)。これらのテスト121及び122の後で実行される3つの処理のうちの1つがどのようなものであっても、その後、ブロック141及び143の出力と回路11の入力とを接続する経路15を経て、装置の入力に戻る動作が続く。従って、次のフレームを検査して処理することが可能となる。
【0024】
その重要な面が図2に要約されている図3、図4及び図5は、処理START VAD Pと、NOISE VAD Pと、SPEECH VAD Pとがどのように実行されるかを詳細に記述している。これらの図で用いられている変数は種類ごとに説明する下記の変数である。
【0025】
(1)エネルギ:Enが現在のフレームのエネルギを示し、En-1が先行するフレームのエネルギ(蓄積されている)を示し、Eが背景雑音の平均エネルギを示す。
【0026】
(2)カウンタ:
(a)カウンタfr ctrがこの方法の使用開始以後捕捉されたフレームの数を数える(このカウンタは状態START VADにおいてのみ使用され、それが到達できる値は多くてもN−INITに等しい値である);
(b)カウンタfr ctr noiseがこの方法の使用開始以後雑音として検出したフレームの数を数える(過剰な計算を避けるため、このカウンタはそれが到達する値が、それを超えるとカウンタがもはや使用されなくなるようなある値より小さいときに更新されるだけである);
(c)スピーチ/雑音の遷移を滑らかにするために用いるカウンタtransit ctrは、状態SPEECH VADから状態NOISE VADへの切り替えを条件付きで延期する間に、句の終りの切れを避け、又は音節の間のスペース(それはスピーチ信号を完全に分割する)を背景雑音として検出することを避ける;
−ある人が話している状態にあるとして、雑音が検出されると、このカウンタtransit ctrはカウントを増加する;
−スピーチが再び検出されると、このカウンタは零にリセットされ、もし検出されなければ、閾値N−TRANSMに達するまでカウンタのカウントは増加を続ける。入力信号が今は全く背景雑音であるというこの確認は、状態NOISE VADへの切り替えを行わせ、カウンタtransit ctrは零にリセットされる。
【0027】
(3)閾値:閾値Bはスピーチを低レベル背景雑音から識別するために用いる閾値を示し、(THRESHOLD B MIN及びTHRESHOLD B MAXはその許容された最小値及び最大値である)、αは閾値Bの更新係数の値であり、Δはスピーチを激しい背景雑音から識別するために用いる相補閾値である(その2つのとり得る値はDELTA1及びDELTA2であり、|En−En-1|に使用する閾値であって、入力信号が大きく変動しているか否かを、Δの更新を考慮して、知ることができるようにするDELTAEのために決定されるものである);
(4)現在のフレームのZCR:中心化された雑音信号のこの零交差率がかなり変動する;
−ある種の雑音は時間的に非常に不安定であり、したがって、雑音信号(中心化された、即ち、その平均値が除去されている)が零としばしば交差し、そのためにZCRが高い(これは、とくに、ガウス型の背景雑音の場合である);
−背景雑音が会話のがやがやという雑音であるとき(レストラン、事務所、近くの会話等)、背景雑音の特徴がスピーチ信号の特徴に近くなり、ZCRがより低い値をとる;
−ある種類のスピーチ音は有声音と呼ばれ、ある周期を持つ。それは、多くのエネルギと低いZCRとに対応する母音の場合である;
−他方、無声スピーチ音と呼称される他の種類のスピーチは、有声音と比較して、より小さいエネルギと、より高いZCRとを持つ。これは、特に摩擦音及び破裂音の場合である(そのような信号は、このテストがエネルギの1つにより終了されなければ、それらのZCRが与えられた閾値ZCGAUSSを超える雑音として分類される;それらの信号のエネルギが(閾値B+DELTA2)より低いままであるならばそれらの信号は雑音として確認されるだけであるが、逆の場合にはスピーチとして分類され続ける);
−最後に、ZCRが零である(ZCが0)という特別の場合も考慮に入れるべきである;これは平坦な入力信号に対応し(総てのサンプルが同じ値を持つ)、従って、それは「雑音+無音」に系統的に同化させられる;
(5)出力信号INFO VAD:各処理の初めに(ブロック141乃至143のいずれかにおいて)、現在のフレームについての判定が行われ、後の方のものは、実際に、スピーチ信号(INFO VAD=SPEECH)として宣言され、又は背景雑音+無音(INFO VAD=NOISE)として宣言される。
【0028】
ブロック141乃至143におけるこれらの処理は、図示のように、エネルギのテスト、又はダイヤモンドの形のフレーム中に示されているZCRのテスト(フレームの数が値N−INITより依然として小さいこと及び人が装置の初期化段階に依然としてあることを確認するために、カウンタfr ctrの値のテストである第1の処理START VAD Pにおける最初のテストを除く)、又はこれらのテストの結果により制御される動作(閾値の可能な変更、平均エネルギの計算、装置の状態の決定、カウンタの増加又は零リセット、次のフレームへの移行、等)を含む。したがって、これらの動作は長方形のフレーム内に示されている。
【0029】
以上提案した方法及び装置は非常に簡単であるから、リアルタイムでの導入が特に簡単になる。また、本発明に組合わされるメモリは扱いにくいことがほとんどないことも分かる。もちろん、本発明の範囲を逸脱することなく本発明を変更することができる。より具体的には、テスト122の性質を変更でき、かつ、テスト121の結果が否定であった後で観察される新しい状態がSPEECH VAD(及びもはやNOISE VADでない)かどうかを、上述した肯定応答又は否定応答(Y又はN)で調べることができる。テスト122の後の応答が肯定(Y)であれば、結果としての処理はSPEECH VAD Pであり(従って、ブロック142で実行される)、もしそうでなければ、この処理はNOISE VAD Pである(従って、ブロック143で実行される)。
【図面の簡単な説明】
【図1】本発明に係る音声活動検出方法の実施の形態の全体的な動作モードを示すフローチャート。
【図2】上記動作モードを一層詳細に示し、かつ、上記動作モードを確実なものとする本発明に係る音声活動検出装置がとることができる3つの状態の概略を示す説明図。
【図3】上記3つの状態のうちの第1の状態にあるときの本発明に係る音声活動検出装置で実行される処理を示すフローチャート。
【図4】上記3つの状態のうちの第2の状態にあるときの本発明に係る音声活動検出装置で実行される処理を示すフローチャート。
【図5】上記3つの状態のうちの第3の状態にあるときの本発明に係る音声活動検出装置で実行される処理を示すフローチャート。
【符号の説明】
10 初期化段階
11 計算段階
12 試験及び処理段階
Claims (5)
- スピーチ信号と、雑音信号と、無音期間とを含む入力信号において前記スピーチ信号を検出する検出方法であって、
前記入力信号の現在のフレームに関するエネルギと、前記現在のフレームにわたって前記雑音信号のエネルギを平均化することによって導出される中心化された雑音信号が前記現在のフレームで零と交差する回数を表す零交差率とを計算する第1のステップと、
前記入力信号のエネルギ値を適応閾値Bと比較し、且つ、前記計算した零交差率を固定閾値と比較することによって、前記入力信号をスピーチ信号として又は雑音信号として分類する第2のステップとを有し、
前記第2のステップは、前記入力信号のエネルギ値が前記閾値B及び相補閾値の和を上回り、且つ、前記計算した零交差率が零ではなく前記固定閾値を下回る場合は、前記入力信号はスピーチ信号に分類されると決定するステップを含み、
前記閾値Bは、現在のフレームのエネルギEnの値が前記閾値Bよりも低い場合に、経験的に決定される定数を乗じられた前記平均エネルギを減じられ、前記閾値Bは、前記現在のフレームのエネルギEnの値が前記閾値Bを上回り、且つ、前記閾値B及び前記相補閾値の和よりも低い場合に、経験的に決定される定数を乗じられた前記平均エネルギを加えられる、ことを特徴とする検出方法。 - 前記入力信号は、予めデジタル化されており、
前記第1の計算ステップ及び第2の分類ステップは、前記デジタル化された入力信号の現在のフレームに適用される、ことを特徴とする請求項1記載の検出方法。 - 前記相補閾値は、前記現在のフレームのエネルギEnの値から先行のフレームの対応するエネルギEn−1の値を減じた値の絶対値が所定の閾値DELTAEよりも低いか否かに依存して経験的に決定される2つのとり得る値のうちのいずれか一方である、ことを特徴とする請求項1記載の検出方法。
- 前記閾値Bの変動は、所定の範囲(THRESHOLD B MIN,THRESHOLDB MAX)に制限される、ことを特徴とする請求項1乃至3のうちいずれか一項記載の検出方法。
- スピーチ信号と、雑音信号と、無音期間とを含む入力信号においてスピーチ信号を検出する検出装置であって、
前記入力信号は、所定の持続時間の連続するデジタル化したフレームの形で利用することができ、
当該装置は、
夫々のフレームに関して、前記入力信号の現在のフレームに関するエネルギと、前記現在のフレームにわたって前記雑音信号のエネルギを平均化することによって導出される中心化された雑音信号が前記現在のフレームで零と交差する回数を表す零交差率とを計算する手段と、
前記入力信号のエネルギ値を適応閾値Bと比較し、且つ、前記計算した零交差率を固定閾値と比較することによって、前記入力信号をスピーチ信号として又は雑音信号として分類する手段とを有し、
前記分類する手段は、前記入力信号のエネルギ値が前記閾値B及び相補閾値の和を上回り、且つ、前記計算した零交差率が零ではなく前記固定閾値を下回る場合は、前記入力信号をスピーチ信号に分類し、
前記閾値Bは、現在のフレームのエネルギEnの値が前記閾値Bよりも低い場合に、経験的に決定される定数を乗じられた前記平均エネルギを減じられ、前記閾値Bは、前記現在のフレームのエネルギEnの値が前記閾値Bを上回り、且つ、前記閾値B及び前記相補閾値の和よりも低い場合に、経験的に決定される定数を乗じられた前記平均エネルギを加えられる、ことを特徴とする検出装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR9703616 | 1997-03-25 | ||
FR9703616 | 1997-03-25 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10274991A JPH10274991A (ja) | 1998-10-13 |
JP4236726B2 true JP4236726B2 (ja) | 2009-03-11 |
Family
ID=9505152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP07788898A Expired - Fee Related JP4236726B2 (ja) | 1997-03-25 | 1998-03-25 | 音声活動検出方法及び音声活動検出装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6154721A (ja) |
EP (1) | EP0867856B1 (ja) |
JP (1) | JP4236726B2 (ja) |
KR (1) | KR100569612B1 (ja) |
CN (1) | CN1146865C (ja) |
DE (1) | DE69831991T2 (ja) |
Families Citing this family (73)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6453285B1 (en) * | 1998-08-21 | 2002-09-17 | Polycom, Inc. | Speech activity detector for use in noise reduction system, and methods therefor |
US6351731B1 (en) | 1998-08-21 | 2002-02-26 | Polycom, Inc. | Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor |
ATE248421T1 (de) * | 1998-12-22 | 2003-09-15 | Ericsson Inc | Verfahren und vorrichtung zur speicherbedarfsreduzierung für ein sprachaufnahmesystem |
US6621834B1 (en) * | 1999-11-05 | 2003-09-16 | Raindance Communications, Inc. | System and method for voice transmission over network protocols |
WO2001039175A1 (fr) * | 1999-11-24 | 2001-05-31 | Fujitsu Limited | Procede et appareil de detection vocale |
US7263074B2 (en) * | 1999-12-09 | 2007-08-28 | Broadcom Corporation | Voice activity detection based on far-end and near-end statistics |
US20020116186A1 (en) * | 2000-09-09 | 2002-08-22 | Adam Strauss | Voice activity detector for integrated telecommunications processing |
US7472059B2 (en) * | 2000-12-08 | 2008-12-30 | Qualcomm Incorporated | Method and apparatus for robust speech classification |
US6721411B2 (en) * | 2001-04-30 | 2004-04-13 | Voyant Technologies, Inc. | Audio conference platform with dynamic speech detection threshold |
DE60217484T2 (de) * | 2001-05-11 | 2007-10-25 | Koninklijke Philips Electronics N.V. | Schätzung der signalleistung in einem komprimierten audiosignal |
US7146314B2 (en) * | 2001-12-20 | 2006-12-05 | Renesas Technology Corporation | Dynamic adjustment of noise separation in data handling, particularly voice activation |
US7187656B2 (en) | 2002-05-02 | 2007-03-06 | General Instrument Corporation | Method and system for processing tones to reduce false detection of fax and modem communications |
US20030214972A1 (en) * | 2002-05-15 | 2003-11-20 | Pollak Benny J. | Method for detecting frame type in home networking |
KR100491753B1 (ko) * | 2002-10-10 | 2005-05-27 | 서울통신기술 주식회사 | 음성처리보드의 음성신호 검출 방법 |
US20050091066A1 (en) * | 2003-10-28 | 2005-04-28 | Manoj Singhal | Classification of speech and music using zero crossing |
US7433475B2 (en) * | 2003-11-27 | 2008-10-07 | Canon Kabushiki Kaisha | Electronic device, video camera apparatus, and control method therefor |
US20050117594A1 (en) * | 2003-12-01 | 2005-06-02 | Mindspeed Technologies, Inc. | Modem pass-through panacea for voice gateways |
JP4601970B2 (ja) * | 2004-01-28 | 2010-12-22 | 株式会社エヌ・ティ・ティ・ドコモ | 有音無音判定装置および有音無音判定方法 |
JP4490090B2 (ja) * | 2003-12-25 | 2010-06-23 | 株式会社エヌ・ティ・ティ・ドコモ | 有音無音判定装置および有音無音判定方法 |
KR100636317B1 (ko) * | 2004-09-06 | 2006-10-18 | 삼성전자주식회사 | 분산 음성 인식 시스템 및 그 방법 |
CN100399419C (zh) * | 2004-12-07 | 2008-07-02 | 腾讯科技(深圳)有限公司 | 一种检测静音帧的方法 |
JP4667082B2 (ja) | 2005-03-09 | 2011-04-06 | キヤノン株式会社 | 音声認識方法 |
US7983906B2 (en) * | 2005-03-24 | 2011-07-19 | Mindspeed Technologies, Inc. | Adaptive voice mode extension for a voice activity detector |
GB2426166B (en) * | 2005-05-09 | 2007-10-17 | Toshiba Res Europ Ltd | Voice activity detection apparatus and method |
JP4557919B2 (ja) * | 2006-03-29 | 2010-10-06 | 株式会社東芝 | 音声処理装置、音声処理方法および音声処理プログラム |
CN100573663C (zh) * | 2006-04-20 | 2009-12-23 | 南京大学 | 基于语音特征判别的静音检测方法 |
CN101197130B (zh) * | 2006-12-07 | 2011-05-18 | 华为技术有限公司 | 声音活动检测方法和声音活动检测器 |
CN101256772B (zh) * | 2007-03-02 | 2012-02-15 | 华为技术有限公司 | 确定非噪声音频信号归属类别的方法和装置 |
JP4809454B2 (ja) * | 2009-05-17 | 2011-11-09 | 株式会社半導体理工学研究センター | 発話推定による回路起動方法及び回路起動装置 |
ES2371619B1 (es) * | 2009-10-08 | 2012-08-08 | Telefónica, S.A. | Procedimiento de detección de segmentos de voz. |
CN102044242B (zh) | 2009-10-15 | 2012-01-25 | 华为技术有限公司 | 语音激活检测方法、装置和电子设备 |
CN102044243B (zh) * | 2009-10-15 | 2012-08-29 | 华为技术有限公司 | 语音激活检测方法与装置、编码器 |
CN102314877A (zh) * | 2010-07-08 | 2012-01-11 | 盛乐信息技术(上海)有限公司 | 字符内容提示的声纹识别方法 |
JP5874344B2 (ja) * | 2010-11-24 | 2016-03-02 | 株式会社Jvcケンウッド | 音声判定装置、音声判定方法、および音声判定プログラム |
CN102959625B9 (zh) | 2010-12-24 | 2017-04-19 | 华为技术有限公司 | 自适应地检测输入音频信号中的话音活动的方法和设备 |
US8744068B2 (en) * | 2011-01-31 | 2014-06-03 | Empire Technology Development Llc | Measuring quality of experience in telecommunication system |
US8924206B2 (en) * | 2011-11-04 | 2014-12-30 | Htc Corporation | Electrical apparatus and voice signals receiving method thereof |
CN103137137B (zh) * | 2013-02-27 | 2015-07-01 | 华南理工大学 | 一种会议音频中的精彩说话人发现方法 |
US9467785B2 (en) | 2013-03-28 | 2016-10-11 | Knowles Electronics, Llc | MEMS apparatus with increased back volume |
US9503814B2 (en) | 2013-04-10 | 2016-11-22 | Knowles Electronics, Llc | Differential outputs in multiple motor MEMS devices |
US10028054B2 (en) | 2013-10-21 | 2018-07-17 | Knowles Electronics, Llc | Apparatus and method for frequency detection |
US10020008B2 (en) | 2013-05-23 | 2018-07-10 | Knowles Electronics, Llc | Microphone and corresponding digital interface |
US9711166B2 (en) | 2013-05-23 | 2017-07-18 | Knowles Electronics, Llc | Decimation synchronization in a microphone |
US20180317019A1 (en) | 2013-05-23 | 2018-11-01 | Knowles Electronics, Llc | Acoustic activity detecting microphone |
US9633655B1 (en) | 2013-05-23 | 2017-04-25 | Knowles Electronics, Llc | Voice sensing and keyword analysis |
US9712923B2 (en) | 2013-05-23 | 2017-07-18 | Knowles Electronics, Llc | VAD detection microphone and method of operating the same |
US9386370B2 (en) | 2013-09-04 | 2016-07-05 | Knowles Electronics, Llc | Slew rate control apparatus for digital microphones |
US9502028B2 (en) | 2013-10-18 | 2016-11-22 | Knowles Electronics, Llc | Acoustic activity detection apparatus and method |
US9147397B2 (en) | 2013-10-29 | 2015-09-29 | Knowles Electronics, Llc | VAD detection apparatus and method of operating the same |
US9831844B2 (en) | 2014-09-19 | 2017-11-28 | Knowles Electronics, Llc | Digital microphone with adjustable gain control |
US9712915B2 (en) | 2014-11-25 | 2017-07-18 | Knowles Electronics, Llc | Reference microphone for non-linear and time variant echo cancellation |
DE112016000287T5 (de) | 2015-01-07 | 2017-10-05 | Knowles Electronics, Llc | Verwendung von digitalen Mikrofonen zur Niedrigleistung-Schlüsselworterkennung und Rauschunterdrückung |
TW201640322A (zh) | 2015-01-21 | 2016-11-16 | 諾爾斯電子公司 | 用於聲音設備之低功率語音觸發及方法 |
US10121472B2 (en) | 2015-02-13 | 2018-11-06 | Knowles Electronics, Llc | Audio buffer catch-up apparatus and method with two microphones |
US9866938B2 (en) | 2015-02-19 | 2018-01-09 | Knowles Electronics, Llc | Interface for microphone-to-microphone communications |
US9685156B2 (en) * | 2015-03-12 | 2017-06-20 | Sony Mobile Communications Inc. | Low-power voice command detector |
CN107534818B (zh) | 2015-05-14 | 2020-06-23 | 美商楼氏电子有限公司 | 麦克风 |
US10291973B2 (en) | 2015-05-14 | 2019-05-14 | Knowles Electronics, Llc | Sensor device with ingress protection |
US9478234B1 (en) | 2015-07-13 | 2016-10-25 | Knowles Electronics, Llc | Microphone apparatus and method with catch-up buffer |
US10045104B2 (en) | 2015-08-24 | 2018-08-07 | Knowles Electronics, Llc | Audio calibration using a microphone |
CN105261368B (zh) * | 2015-08-31 | 2019-05-21 | 华为技术有限公司 | 一种语音唤醒方法及装置 |
US9894437B2 (en) | 2016-02-09 | 2018-02-13 | Knowles Electronics, Llc | Microphone assembly with pulse density modulated signal |
US10499150B2 (en) | 2016-07-05 | 2019-12-03 | Knowles Electronics, Llc | Microphone assembly with digital feedback loop |
US10257616B2 (en) | 2016-07-22 | 2019-04-09 | Knowles Electronics, Llc | Digital microphone assembly with improved frequency response and noise characteristics |
US10979824B2 (en) | 2016-10-28 | 2021-04-13 | Knowles Electronics, Llc | Transducer assemblies and methods |
WO2018126151A1 (en) | 2016-12-30 | 2018-07-05 | Knowles Electronics, Llc | Microphone assembly with authentication |
US10237654B1 (en) * | 2017-02-09 | 2019-03-19 | Hm Electronics, Inc. | Spatial low-crosstalk headset |
US11025356B2 (en) | 2017-09-08 | 2021-06-01 | Knowles Electronics, Llc | Clock synchronization in a master-slave communication system |
WO2019067334A1 (en) | 2017-09-29 | 2019-04-04 | Knowles Electronics, Llc | MULTICORDER AUDIO PROCESSOR WITH FLEXIBLE MEMORY ALLOCATION |
JP6560321B2 (ja) * | 2017-11-15 | 2019-08-14 | ヤフー株式会社 | 判定プログラム、判定装置及び判定方法 |
WO2020055923A1 (en) | 2018-09-11 | 2020-03-19 | Knowles Electronics, Llc | Digital microphone with reduced processing noise |
US10908880B2 (en) | 2018-10-19 | 2021-02-02 | Knowles Electronics, Llc | Audio signal circuit with in-place bit-reversal |
CN111261143B (zh) * | 2018-12-03 | 2024-03-22 | 嘉楠明芯(北京)科技有限公司 | 一种语音唤醒方法、装置及计算机可读存储介质 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4052568A (en) * | 1976-04-23 | 1977-10-04 | Communications Satellite Corporation | Digital voice switch |
US4696039A (en) * | 1983-10-13 | 1987-09-22 | Texas Instruments Incorporated | Speech analysis/synthesis system with silence suppression |
JP2539027B2 (ja) * | 1989-02-21 | 1996-10-02 | 沖電気工業株式会社 | 音声検出方式 |
JP2573352B2 (ja) * | 1989-04-10 | 1997-01-22 | 富士通株式会社 | 音声検出装置 |
JPH07113840B2 (ja) * | 1989-06-29 | 1995-12-06 | 三菱電機株式会社 | 音声検出器 |
US5307441A (en) * | 1989-11-29 | 1994-04-26 | Comsat Corporation | Wear-toll quality 4.8 kbps speech codec |
CA2040025A1 (en) * | 1990-04-09 | 1991-10-10 | Hideki Satoh | Speech detection apparatus with influence of input level and noise reduced |
FR2677828B1 (fr) * | 1991-06-14 | 1993-08-20 | Sextant Avionique | Procede de detection d'un signal utile bruite. |
JPH05165496A (ja) * | 1991-12-16 | 1993-07-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声検出装置 |
US5596680A (en) * | 1992-12-31 | 1997-01-21 | Apple Computer, Inc. | Method and apparatus for detecting speech activity using cepstrum vectors |
US5533133A (en) * | 1993-03-26 | 1996-07-02 | Hughes Aircraft Company | Noise suppression in digital voice communications systems |
US5459814A (en) * | 1993-03-26 | 1995-10-17 | Hughes Aircraft Company | Voice activity detector for speech signals in variable background noise |
JP2835483B2 (ja) * | 1993-06-23 | 1998-12-14 | 松下電器産業株式会社 | 音声判別装置と音響再生装置 |
TW271524B (ja) * | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
US5675639A (en) * | 1994-10-12 | 1997-10-07 | Intervoice Limited Partnership | Voice/noise discriminator |
KR970067095A (ko) * | 1996-03-23 | 1997-10-13 | 김광호 | 음성신호의 무성파열음 구간검출방법 및 장치 |
US5838269A (en) * | 1996-09-12 | 1998-11-17 | Advanced Micro Devices, Inc. | System and method for performing automatic gain control with gain scheduling and adjustment at zero crossings for reducing distortion |
US5737695A (en) * | 1996-12-21 | 1998-04-07 | Telefonaktiebolaget Lm Ericsson | Method and apparatus for controlling the use of discontinuous transmission in a cellular telephone |
-
1998
- 1998-03-13 DE DE69831991T patent/DE69831991T2/de not_active Expired - Lifetime
- 1998-03-13 EP EP98200805A patent/EP0867856B1/fr not_active Expired - Lifetime
- 1998-03-19 US US09/044,543 patent/US6154721A/en not_active Expired - Lifetime
- 1998-03-25 JP JP07788898A patent/JP4236726B2/ja not_active Expired - Fee Related
- 1998-03-25 CN CNB981097626A patent/CN1146865C/zh not_active Expired - Fee Related
- 1998-03-25 KR KR1019980010219A patent/KR100569612B1/ko not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
US6154721A (en) | 2000-11-28 |
CN1204766A (zh) | 1999-01-13 |
KR100569612B1 (ko) | 2006-10-11 |
EP0867856B1 (fr) | 2005-10-26 |
CN1146865C (zh) | 2004-04-21 |
KR19980080615A (ko) | 1998-11-25 |
JPH10274991A (ja) | 1998-10-13 |
DE69831991D1 (de) | 2005-12-01 |
EP0867856A1 (fr) | 1998-09-30 |
DE69831991T2 (de) | 2006-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4236726B2 (ja) | 音声活動検出方法及び音声活動検出装置 | |
RU2251750C2 (ru) | Обнаружение активности сложного сигнала для усовершенствованной классификации речи/шума в аудиосигнале | |
JP3423906B2 (ja) | 音声の動作特性検出装置および検出方法 | |
US5727072A (en) | Use of noise segmentation for noise cancellation | |
EP1008140B1 (en) | Waveform-based periodicity detector | |
JP3297346B2 (ja) | 音声検出装置 | |
JP2006189907A (ja) | 信号の音声活動を検知する方法と、この方法の実施装置を含む音声信号コーダ | |
EP0677202B1 (en) | Discriminating between stationary and non-stationary signals | |
RU2609133C2 (ru) | Способ и устройство для обнаружения голосовой активности | |
JP2002237785A (ja) | 人間の聴覚補償によりsidフレームを検出する方法 | |
JP2573352B2 (ja) | 音声検出装置 | |
EP1751740B1 (en) | System and method for babble noise detection | |
JP2586827B2 (ja) | 受信装置 | |
JPH10210075A (ja) | 有音検知装置および方法 | |
JPH0713586A (ja) | 音声判別装置と音響再生装置 | |
JPS62274941A (ja) | 音声符号化方式 | |
RU2127912C1 (ru) | Способ обнаружения и кодирования и/или декодирования стационарных фоновых звуков и устройство для кодирования и/или декодирования стационарных фоновых звуков | |
SE470577B (sv) | Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud | |
CN110444194B (zh) | 一种语音检测方法和装置 | |
JPH04115299A (ja) | 音声有音無音判定方法および装置 | |
JPH08202394A (ja) | 音声検出器 | |
Sakhnov et al. | Low-complexity voice activity detector using periodicity and energy ratio | |
JPH07225592A (ja) | 有音区間検出装置 | |
TW202226225A (zh) | 以零點交越檢測改進語音活動檢測之設備及方法 | |
JPH0832526A (ja) | 音声検出器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050323 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20070418 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070710 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20071004 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20071010 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080205 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080414 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080715 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081008 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081118 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081217 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111226 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121226 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121226 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131226 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |