JP2008151840A - 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置 - Google Patents
仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置 Download PDFInfo
- Publication number
- JP2008151840A JP2008151840A JP2006336858A JP2006336858A JP2008151840A JP 2008151840 A JP2008151840 A JP 2008151840A JP 2006336858 A JP2006336858 A JP 2006336858A JP 2006336858 A JP2006336858 A JP 2006336858A JP 2008151840 A JP2008151840 A JP 2008151840A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- speech
- voice
- vad flag
- provisional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】入力された音声信号からフレーム毎に音声パラメータを計算する。上記音声パラメータを予め定められたフレーム数分だけ遅延バッファに蓄積する。上記音声パラメータから、その音声パラメータに係るフレームが、音声区間に属するか非音声区間に属するかを仮に決定する。上記決定された、音声区間に属するか非音声区間に属するかについての仮の情報(以下、仮VADフラグとする。)を、予め定められたフレーム数分だけVADフラグバッファに蓄積する。VADフラグバッファに蓄積された仮VADフラグを、上記遅延バッファから読み出した音声パラメータの経時的変化を観測し、予め定めた規則に基づいて過去に遡って修正する。上記修正された仮VADフラグを出力する。
【選択図】図1
Description
特許文献1に、音声パケット通信を用いて、多地点で音声会議を行う装置と方法が記載されている。特許文献1に記載されている音声パケット送信部10の構成例を図12に示す。音声パケット送信部10には、フレームと呼ばれる一定時間毎に区切られた音声信号が入力音声として入力され、音声波形符号化部11において音声符号化の手法を用いて入力音声を音声符号に変換するとともに、音声区間決定部12において、入力音声を分析し、当該フレームが音声区間に属するか非音声区間に属するかの情報(以下、VADフラグとする。)を決定し、パケット構成部13において、音声符号とVADフラグを1つの音声パケットに組み込んで送出している。
音声区間決定部12の構成例を図13に示す。音声区間決定部12は、パラメータ計算部20、仮判定部21、統計量計算部22、閾値決定部24、比較部25を有する。また、図14に、音声区間決定部12の処理の流れを例示する。
仮判定部21は、予め定められた固定閾値(無音閾値A1、有声音閾値B1、無声音閾値C1)と計算された音声パラメータとを用いて、入力音声フレームが音声区間であるか非音声区間であるかの仮判定を行う(ステップS82)。
統計量計算部22は、仮判定部21で判定された音声/非音声区間の判定に基づいて、音声区間と非音声区間それぞれの平均パワーを計算する。
閾値決定部24は、音声区間と非音声区間それぞれの平均パワーから、音声/非音声判定のための動的閾値を決定する(例えば、特許文献1参照。)(ステップS83)。
比較部25は、音声パラメータと、上記音声/非音声判定のための動的閾値を比較して、最終的にそのフレームが音声区間であるか非音声区間であるかの判定を行い、その結果(VADフラグ)を出力する。最終的な判断では、区間不明は認められず、必ず音声区間か非音声区間のいずれかに判定する(ステップS84)。
なぜなら、仮判定部21は、予め定められた固定閾値のみから、音声区間、非音声区間の仮判定を行っており、その判定精度が必ずしも高くはない。このため、仮判定部21における音声区間、非音声区間の仮判定の精度が低い場合には、各区間の信号レベルを正確に測定することはできないし、各区間の信号レベルを正確に測定できなければ最終的な音声区間、非音声区間の判定精度を上げることができないからである。
本発明は、仮判定の精度を上げることを目的とする。また、仮判定の精度を上げることによって、最終的な音声区間、非音声区間の判定の精度を上げることを目的とする。
望ましくは、さらに、上記修正された仮VADフラグによって、音声区間に属すると決定されたフレーム及び/又は非音声区間に属すると決定されたフレームから、音声区間に属するか非音声区間に属するかを決定するための動的閾値を所定の時間間隔ごとに計算する。上記計算された動的閾値と、あるフレームについての上記音声パラメータとを比較することによって、その音声パラメータに係るフレームが音声区間に属するか非音声区間に属するかを最終的に決定する。
具体的には、上記遅延バッファから読み出した音声パラメータの経時的変化を観測して、過去に遡って仮VADフラグを適切なものに修正することによって、仮判定の精度を向上している。また、その結果として、最終的な判定精度の向上が可能となった。
音声区間決定装置120は、パラメータ計算部20、仮判定部21、統計量計算部22、閾値決定部24、比較部25、遅延バッファ26、VADフラグバッファ27、VADフラグバッファ修正処理指示部28を有する。なお、本明細書、特許請求の範囲では、パラメータ計算部20、仮判定部21、遅延バッファ26、VADフラグバッファ27、VADフラグバッファ修正処理指示部28を、仮音声区間決定装置30とする。また、本明細書、特許請求の範囲では、統計量計算部22と閾値決定部24を合わせて、動的閾値決定部29と呼ぶことにする。音声区間決定装置120は、遅延バッファ26、VADフラグバッファ27、VADフラグバッファ修正処理指示部28を有する点で、背景技術による音声区間決定部12とは異なる。
仮判定部21は、パラメータ計算部20で計算された音声パラメータを用いて、その音声パラメータに係るフレームが、音声区間に属するか、非音声区間に属するか、属する区間が不明であるかを仮に決定する(ステップS2)。本明細書、特許請求の範囲においては、フレームが、音声区間に属するか、非音声区間に属するか、属する区間が不明であるかどうかについての情報を、仮VADフラグとする。この仮VADフラグは、VADフラグバッファ27に格納される。仮判定部21の処理は、背景技術で説明した仮判定部21の処理と同様でよい。すなわち、図3に示されたフローチャートの処理を実行すればよい。
なお、本明細書、特許請求の範囲においては、原則として、「未満」とは、「以下」の概念を包括するものとする。すなわち、AはB未満(A<B)であると言った場合には、AがB未満(A<B)であっても、AがB以下(A≦B)であってもよいものとする。同様に「より上」とは、「以上」の概念を包括するものとする。
なお、仮判定部21の処理は、上記したものに限られない。実時間で音声区間、非音声区間(必要であれば、さらに不明区間)を判定することができる手法であればどのような方法でもよい。
遅延バッファ26とVADフラグバッファ27の蓄積フレーム数は以下のように設定することができる。例えば、フレームの時間長が20msである場合には、遅延バッファ26とVADフラグバッファ27の蓄積フレーム数を1〜100程度(さらに、好ましくは、50程度)にするとよい。また、例えば、フレームの時間長が10msである場合には、遅延バッファ26とVADフラグバッファ27の蓄積フレーム数を1〜200程度(さらに好ましくは、100程度)にするとよい。また、別の観点から言及すると、(フレームの時間長)×(蓄積フレーム数)=0.02秒〜0.2秒程度になるように、フレームの時間長と蓄積フレーム数とを設定するとよい。なお、遅延バッファ26とVADフラグバッファ27のそれぞれの蓄積フレーム数は同一にするのがよい。
なお、VADフラグバッファ修正処理指示部28は、現フレームの音声パラメータを用いずに、遅延バッファから読み出した音声パラメータの経時的状態のみを観測して、仮VADフラグを適切なものに修正してもよい。
逆に、パワーが少し大きくなったフレームの後に、またパワーの小さいフレームが続いた場合は、パワーが少し大きくなったフレームは音声区間ではなく、非音声区間であり、一瞬ノイズが入っただけと判断することが妥当である。
このように、VADフラグバッファ修正処理指示部28は、音声パラメータの状態から音声区区間、非音声区間を判断する基準を複数保持しており、それらの判断基準に照らし合わせて、VADフラグバッファ27内の仮VADフラグを修正する処理を行う。以下、VADフラグバッファ修正処理指示部28の具体例について述べる。
VADフラグバッファ修正処理指示部28の一例であるVADフラグバッファ修正処理指示部28aは、図5に記載された処理を行う。VADフラグバッファ修正処理指示部28aは、仮判定部21において非音声区間に判定されてしまった過去のフレームでも、現在のフレームkのピッチ相関値Ckが予め定めた閾値A2よりも大きければ、当該フレームの1フレーム前からM1フレーム前までを音声区間に修正する。これにより、音声区間の開始点付近では、パラメータ計算部20で得られたピッチ相関値が小さくなることがあり、実際には音声区間であるものの、非音声区間に誤ったフレームの判定を修正することができる。VADフラグバッファ修正処理指示部28aは、図1のVADフラグバッファ修正処理指示部28aに破線で示すように、比較部281a、制御部282a、指示部283aを有する。
図5に示すように、比較部281aは、kを現在のフレーム番号とし、Ckを現在のフレームにおけるピッチ相関として、予め定めた閾値A2とピッチ相関値Ckとを比較する(ステップS31a)。閾値A2は、0.7〜0.9程度にするとよい。予め定めた閾値A2がピッチ相関値Ck未満でない場合には、仮VADフラグの修正処理を行わずにステップS3は終了する。
上記処理においては、VADフラグバッファ修正処理指示部28aは、kを現在のフレームとして仮VADフラグの修正の処理を行っている。しかし、遅延バッファ26とVADフラグバッファ27の両方のバッファに格納されているフレームであれば、そのフレームの番号をkとして、処理を行うことができる。
上記VADフラグバッファ修正処理指示部28aは、あるフレームの音声パラメータと予め定められた値とを比較して、その比較結果によって、そのフレームよりも時間的に前の予め定められた数のフレームに係る仮VADフラグを修正する一例である。
ここで、本明細書、特許請求の範囲において、あるフレーム(以下、フレームAとする。)よりも時間的に後ろのフレーム(以下、フレームBとする。)とは、フレームAよりも時間的に未来のフレームを意味する。すなわち、フレームAの時刻をa、フレームBの時刻をbとすると、a<bとなる。逆に、あるフレーム(以下、フレームCとする。)よりも時間的に前のフレーム(以下、フレームDとする。)とは、フレームCよりも時間的に過去のフレームを意味する。すなわち、フレームCの時刻をc、フレームDの時刻をdとすると、d<cとなる。
VADフラグバッファ修正処理指示部28の一例であるVADフラグバッファ修正処理指示部28bは、図6に記載された処理を行う。VADフラグバッファ修正処理指示部28bは、仮判定部21において非音声区間に判定されてしまった過去のフレームでも、現在のフレームkのパワーPkよりも、k−iのフレームのパワーPk−iのほうが著しく大きい場合には、k−iのフレームの仮VADフラグを音声区間に属するという情報に変更するものである。これにより、音声区間の終了点付近で誤って非音声区間と仮判定されてしまった仮VADフラグを修正することができる。VADフラグバッファ修正処理指示部28bは、図1のVADフラグバッファ修正処理指示部28bに破線で示すように、比較部281b、制御部282b、指示部283bを有する。
上記処理においては、VADフラグバッファ修正処理指示部28bは、kを現在のフレームとして仮VADフラグの修正の処理を行っている。しかし、遅延バッファ26とVADフラグバッファ27の両方のバッファに格納されているフレームであれば、そのフレームの番号をkとして、処理を行ってもよい。
VADフラグバッファ修正処理指示部28aは、あるフレームの音声パラメータと、そのフレームよりも時間的に前のフレームの音声パラメータとを比較して、その比較結果によって、その時間的に前のフレームに係る仮VADフラグを修正する一例である。
VADフラグバッファ修正処理指示部28の一例であるVADフラグバッファ修正処理指示部28cは、図7に記載された処理を行う。VADフラグバッファ修正処理指示部28cは、仮判定部21において音声区間として判定されてしまった過去のフレームでも、その前後のフレームにおけるパワーが、その音声区間に判定されてしまったフレームのパワーよりも著しく小さい場合に、当該フレームを非音声区間に修正するものである。これにより、例えば、プツンといった短時間のノイズが原因で誤って音声区間として判定されてしまったフレームの仮VADフラグを修正することができる。VADフラグバッファ修正処理指示部28cは、図1のVADフラグバッファ修正処理指示部28cに破線で示すように、比較部281c、制御部282c、指示部283cを有する。
上記処理においては、VADフラグバッファ修正処理指示部28cは、kを現在のフレームとして仮VADフラグの修正の処理を行っている。しかし、遅延バッファ26とVADフラグバッファ27の両方のバッファに格納されているフレームであれば、そのフレームの番号をkとして、処理を行ってもよい。
このように、VADフラグバッファ修正処理指示部28cは、そのフレームよりも時間的に前の予め定められた数の各フレームのパワーに予め定めた各定数をかけた値の何れよりも大きく、かつ、そのフレームよりも時間的に後の予め定められた数の各フレームのパワーに予め定められた各定数をかけた値の何れよりも大きい場合に、上記あるフレームに係る仮VADフラグを、非音声区間に属するという情報に修正する手段である。
また、VADフラグバッファ修正処理指示部28cは、連続するγ個のフレームの各パワーの平均値を求め、その平均値が、それらの連続するγ個のフレームよりも時間的に前の予め定められたα個の各フレームにフレーム毎に予め定められた定数をかけた値のいずれよりも大きく、かつ、それら連続するγ個のフレームよりも時間的に後ろの予め定められたβ個の各フレームにフレーム毎に予め定められた定数をかけた値のいずれよりも大きい場合に、それらの連続するγ個のフレームの仮VADフラグを、非音声区間に属するという情報に修正してもよい。ここで、1フレームの長さが20msである場合には、γを2〜3程度にするとよい。
上記説明したように、仮判定部21から出力された仮VADフラグは、VADフラグバッファ27に予め定めたフレーム数分だけ蓄積され、必要であればVADフラグバッファ修正処理指示部28による修正を受けた後に、修正された仮VADフラグとして、統計量計算部22に出力される。
このVADフラグバッファ修正処理指示部28cは、あるフレームの音声パラメータと、そのフレームと時間的に前後する少なくとも1つのフレームの音声パラメータとの平均値を、それらのフレームよりも時間的に前の予め定められた数の各フレームの音声パラメータ及びそれらのフレームよりも時間的に後の予め定められた数の各フレームの音声パラメータと比較して、その比較結果によって、上記あるフレームと上記そのフレームと時間的に前後する少なくとも1つのフレームとに係る仮VADフラグを修正する一例である。
動的閾値決定部29の統計量計算部22と閾値決定部24の処理は、背景技術に記載したものと同様でよい。すなわち、統計量計算部22は、仮判定部21で判定された音声/非音声区間の判定に基づいて、音声区間と非音声区間それぞれの平均パワーを計算する。閾値決定部24は、音声区間と非音声区間それぞれの平均パワーから、例えば特許文献1に記載されたのと同様の方法で音声/非音声判定のための動的閾値を決定してもよい。決定された動的閾値は、比較部25に出力される。ここで「平均パワー」とは、音声区間に属するフレームのパワーの平均値及び非音声区間に属するフレームのパワーの平均値である。
動的閾値決定部29による動的閾値の更新頻度は、求める音声区間の判定精度、ハードウェアの性能や規模に依存する。すなわち、音声区間の判定精度を最も高くする場合には、動的閾値は毎フレームごとに更新するとよい。しかし、本発明が実装されるハードウェアの性能が低く、又は、その規模が小さい場合には、動的閾値の更新頻度を下げてもよい。具体的には、約0.1秒〜0.5秒毎に動的閾値は更新される。
なお、比較部25は、現フレーム以外のフレームについて、つまり、任意の時刻におけるフレームについて音声区間、非音声区間の判断をしてもよい。また、実時間性が求められていない場合には、実時間で音声区間、非音声区間の判断をしなくてもよい。さらに、比較部25が出力したVADフラグを基にして、他の音声区間、非音声区間決定装置(音声区間決定装置120を含む。)を用いてより精度の良い音声区間、非音声区間の決定をしてもよい。
動的閾値決定部29aの統計量計算部22aは、VADフラグバッファ27が出力した修正された仮VADフラグと、遅延バッファ26が出力した音声パラメータとを用いて、音声区間に属するフレームのパワーの平均値(以下、平均値Aとする。)と、非音声区間に属するフレームのパワーの平均値(以下、平均値Bとする。)とをそれぞれ計算して、閾値決定部24aに出力する。
動的閾値決定部29aの閾値決定部24aは、上記平均値Aを予め定められた正の定数aで割った値(以下、動的閾値Aとする。)と、上記平均値Bに予め定められた正の定数bをかけた値(以下、動的閾値Bとする。)とを計算して、比較部25aに出力する。すなわち、閾値決定部24aは、音声区間のパワーの平均値A×(1/a)を計算して動的閾値Aとし、非音声区間のパワーの平均値B×bを計算して動的閾値Bとする。正の定数aとbは、異なる値で予め実験をし、音声区間、非音声区間の精度が最も高くなるように定める。経験上、正の定数aとbはそれぞれ2〜10程度の値であるとよい。
上記説明した動的閾値決定部29aは、音声パラメータとしてパワーを用いているが、音声パラメータとして、ピッチ相関を用いて、上記と同様の処理を行っても良い。すなわち、統計量計算部22aが、修正された仮VADフラグによって音声区間に属すると決定されたフレームのピッチ相関の平均値(以下、平均値A’とする。)と、修正された仮VADフラグによって非音声区間に属すると決定されたフレームのピッチ相関の平均値(以下、平均値B’とする。)とを計算する。閾値決定部24aが、上記平均値A’を予め定められた正の定数a’で割った値(以下、動的閾値A’とする。)と、上記平均値B’に予め定められた正の定数b’をかけた値(以下、動的閾値B’とする。)とを計算する。図9に示すように、比較部25aが、フレームのピッチ相関が、上記動的閾値A’が未満でなく(ステップS51c)、かつ、上記動的閾値B’が未満でない場合に(ステップS52c)、そのフレームは音声区間に属すると決定し、それ以外の場合には、そのフレームは非音声区間に属すると最終的に決定してもよい。この場合の定数a’と定数b’は、音声パラメータとしてパワーを用いる場合とは、異なる定数であってよい。
ここで、本明細書、特許請求の範囲において、AをBで割るとは、Aに、1をBで割った値(1/B)をかけることを含むことにする。
動的閾値決定部29bの統計量計算部22bは、VADフラグバッファ27が出力した修正された仮VADフラグと、遅延バッファ26が出力した音声パラメータとを用いて、音声区間に属するフレームのパワーの平均値(以下、平均値Aとする。)及び標準偏差(以下、標準偏差Cとする。)と、非音声区間に属するフレームのパワーの平均値(以下、平均値Bとする。)及び標準偏差(以下、標準偏差Dとする。)とをそれぞれ計算して、閾値決定部24bに出力する。
動的閾値決定部29bの閾値決定部24bは、上記標準偏差Cに予め定められた正の定数cをかけた値を上記平均値Aから引いた値(以下、動的閾値Cとする。)と、上記標準偏差Dに予め定められた正の定数dをかけた値を上記平均値Bに加えた値(以下、動的閾値Dとする。)とを計算して、比較部25bに出力する。すなわち、閾値決定部24bは、音声区間のパワーの平均値A−(c×標準偏差C)を計算して動的閾値Cとし、非音声区間のパワーの平均値B+(d×標準偏差D)を計算して動的閾値Dとする。正の定数cとdは、異なる値で予め実験をしてみて、音声区間、非音声区間の精度が最も高くなるように定める。経験上、正の定数cとdはそれぞれ2〜5程度の値であるとよい。
図2に破線で示すように、ステップS4とステップS5の処理を行わずに、ステップS3の処理で、音声区間、非音声区間の判定の処理を終えてもよい。すなわち、VADフラグバッファ27から出力された修正された仮VADフラグを、フレームが、音声区間に属するか非音声区間に属するかの最終的な情報として用いてもよい。
VADフラグバッファ修正処理指示部28の例である≪修正例1≫〜≪修正例3≫は適宜組み合わせることができる。すなわち、VADフラグバッファ修正処理指示部28は、図5〜図7に記載した各処理を重ねて行ってもよい。すなわち、予め定めた規則として、≪修正例1≫〜≪修正例3≫で説明した条件を少なくともひとつ有しており、何れかの条件に当てはまったときに、その条件に対応した≪修正例1≫〜≪修正例3≫で説明した仮VADフラグの修正を行ってもよい。
また、≪修正例1≫〜≪修正例3≫では、音声パラメータとしてパワーを用いているが、パワーに限らず、例えばピッチ相関等の任意の音声パラメータを用いてよい。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
以上の各実施形態の他、本発明である仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
Claims (15)
- 入力された音声信号からフレーム毎に音声パラメータを計算するパラメータ計算手段と、
上記音声パラメータを、予め定められたフレーム数分だけ蓄積する遅延バッファと、
上記音声パラメータから、その音声パラメータに係るフレームが、音声区間に属するか非音声区間に属するかを仮に決定する仮判定手段と、
上記仮判定手段によって決定された、音声区間に属するか非音声区間に属するかについての仮の情報(以下、仮VADフラグとする。)を、予め定められたフレーム数分だけ蓄積した後に、修正された仮VADフラグとして出力するVADフラグバッファと、
VADフラグバッファに蓄積された仮VADフラグを、上記遅延バッファから読み出した音声パラメータの経時的変化を観測することにより、予め定めた規則に基づいて修正するVADフラグバッファ修正処理指示手段と、
を有する仮音声区間決定装置。 - 請求項1に記載された仮音声区間決定装置において、
上記仮判定手段は、上記音声パラメータから、その音声パラメータに係るフレームが、音声区間に属するか、非音声区間に属するか、属する区間が不明であるかを仮に決定する手段であり、
上記VADフラグバッファは、上記仮判定手段によって決定された、音声区間に属するか、非音声区間に属するか、属する区間が不明であるかについての仮の情報(以下、仮VADフラグとする。)を、予め定められたフレーム数分だけ蓄積した後に、修正された仮VADフラグとして出力する手段であり、
上記VADフラグバッファ修正処理指示手段は、VADフラグバッファに蓄積された仮VADフラグを、上記遅延バッファから読み出した音声パラメータの経時的変化を観測することにより、予め定めた規則に基づいて修正し、さらに、すべてのフレームに係る仮VADフラグを音声区間に属するか、非音声区間に属するかに必ず決定する手段である、
ことを特徴とする仮音声区間決定装置。 - 請求項1又は請求項2に記載の仮音声区間決定装置において、
上記VADフラグバッファ修正処理指示手段は、あるフレームの音声パラメータと予め定められた値とを比較して、その比較結果によって、そのフレームよりも時間的に前の予め定められた数のフレームに係る仮VADフラグを修正する手段を含む、
ことを特徴とする仮音声区間決定装置。 - 請求項1から請求項3の何れかに記載の仮音声区間決定装置において、
上記VADフラグバッファ修正処理指示手段は、あるフレームの音声パラメータと、そのフレームよりも時間的に前のフレームの音声パラメータとを比較して、その比較結果によって、その時間的に前のフレームに係る仮VADフラグを修正する手段を含む、
ことを特徴とする仮音声区間決定装置。 - 請求項1から請求項4の何れかに記載の仮音声区間決定装置において、
上記VADフラグバッファ修正処理指示手段は、あるフレームの音声パラメータと、そのフレームよりも時間的に前の予め定められた数の各フレームの音声パラメータ及びそのフレームよりも時間的に後の予め定められた数の各フレームの音声パラメータとを比較して、その比較結果によって、上記あるフレームに係る仮VADフラグを修正する手段を含む、
ことを特徴とする仮音声区間決定装置。 - 請求項1から請求項5の何れかに記載の仮音声区間決定装置において、
上記VADフラグバッファ修正処理指示手段は、あるフレームの音声パラメータと、そのフレームと時間的に前後する少なくとも1つのフレームの音声パラメータとの平均値を、それらのフレームよりも時間的に前の予め定められた数の各フレームの音声パラメータ及びそれらのフレームよりも時間的に後の予め定められた数の各フレームの音声パラメータとを比較して、その比較結果によって、上記あるフレームと上記そのフレームと時間的に前後する少なくとも1つのフレームとに係る仮VADフラグを修正する手段を含む、
ことを特徴とする仮音声区間決定装置。 - 請求項1から請求項6の何れかに記載の仮音声区間決定装置において、
上記VADフラグバッファ修正処理指示手段は、音声パラメータに定数を乗じたものを比較することを特徴とする仮音声区間決定装置。 - 請求項1から請求項7の何れかに記載の仮音声区間決定装置において、
音声パラメータとして、パワーとピッチ相関値の少なくともひとつが用いられることを特徴とする仮音声区間決定装置。 - 請求項1から請求項8の何れかに記載の仮音声区間決定装置から出力された修正された仮VADフラグを、音声区間に属するか、非音声区間に属するかの最終的な情報とする音声区間決定装置。
- 請求項1から請求項8の何れかに記載された仮音声区間決定装置を有し、
さらに、
上記仮音声区間決定装置から出力された修正された仮VADフラグによって、音声区間に属すると決定されたフレーム及び/又は非音声区間に属すると決定されたフレームの音声パラメータから、音声区間に属するか非音声区間に属するかを決定するための動的閾値を所定の時間間隔ごとに計算する動的閾値決定手段と、
上記動的閾値決定手段によって計算された動的閾値と、あるフレームについての上記音声パラメータとを比較することによって、そのフレームが音声区間に属するか非音声区間に属するかを最終的に決定する比較手段と、
を有する音声区間決定装置。 - 請求項10に記載された音声区間決定装置において、
上記動的閾値決定手段は、
上記仮音声区間決定装置から出力された修正された仮VADフラグによって音声区間に属すると決定されたフレームの音声パラメータの平均値(以下、平均値Aとする。)と、上記音声区間決定装置から出力された修正された仮VADフラグによって非音声区間に属すると決定されたフレームの音声パラメータの平均値(以下、平均値Bとする。)とを計算する統計量計算手段と、
上記平均値Aを予め定められた正の定数aで割った値(以下、動的閾値Aとする。)と、上記平均値Bに予め定められた正の定数bをかけた値(以下、動的閾値Bとする。)とを計算する閾値決定手段と、
を有し、
上記比較手段は、フレームのパワーが、上記動的閾値Aが未満であり、かつ、上記動的閾値Bが未満である場合に、そのフレームは音声区間に属すると決定し、それ以外の場合には、そのフレームは非音声区間に属すると最終的に決定する手段である、
ことを特徴とする音声区間決定装置。 - 請求項10に記載された音声区間決定装置において、
上記動的閾値決定手段は、
上記仮音声区間決定装置から出力された修正された仮VADフラグによって音声区間に属すると決定されたフレームのパワーの平均値(以下、平均値Aとする。)及び標準偏差(以下、標準偏差Cとする。)と、上記音声区間決定装置から出力された修正された仮VADフラグによって非音声区間に属すると決定されたフレームのパワーの平均値(以下、平均値Bとする。)及び標準偏差(以下、標準偏差Dとする。)とを計算する統計量計算手段と、
上記標準偏差Cに予め定められた正の定数cをかけた値を上記平均値Aから引いた値(以下、動的閾値Cとする。)と、上記標準偏差Dに予め定められた正の定数dをかけた値を上記平均値Bに加えた値(以下、動的閾値Dとする。)とを計算する閾値決定手段と、
を有し、
上記比較手段は、フレームのパワーが、上記動的閾値Cが未満であり、かつ、上記動的閾値Dが未満である場合に、そのフレームは音声区間に属すると決定し、それ以外の場合には、そのフレームは非音声区間に属すると最終的に決定する手段である、
ことを特徴とする音声区間決定装置。 - 入力された音声信号からフレーム毎に音声パラメータを計算して、予め定められたフレーム数分の音声パラメータを蓄積する遅延バッファに蓄積する蓄積ステップと、
上記計算された音声パラメータから、その音声パラメータに係るフレームが、音声区間に属するか非音声区間に属するかについての仮の情報(以下、仮VADフラグとする。)を決定して、VADフラグバッファに蓄積する仮判定ステップと、
VADフラグバッファに蓄積された仮VADフラグを、上記遅延バッファから読み出した音声パラメータの経時的変化を観測することにより、予め定めた規則に基づいて修正するVADフラグバッファ修正処理指示ステップと、
を有する音声区間決定方法。 - 請求項1から請求項8の何れかに記載した仮音声区間決定装置としてコンピュータを機能させるための仮音声区間決定プログラム。
- 請求項14に記載された仮音声区間決定プログラムを記録した仮音声区間決定プログラム記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006336858A JP4758879B2 (ja) | 2006-12-14 | 2006-12-14 | 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置、方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006336858A JP4758879B2 (ja) | 2006-12-14 | 2006-12-14 | 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置、方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008151840A true JP2008151840A (ja) | 2008-07-03 |
JP4758879B2 JP4758879B2 (ja) | 2011-08-31 |
Family
ID=39654107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006336858A Expired - Fee Related JP4758879B2 (ja) | 2006-12-14 | 2006-12-14 | 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置、方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4758879B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009069662A1 (ja) * | 2007-11-27 | 2009-06-04 | Nec Corporation | 音声検出システム、音声検出方法および音声検出プログラム |
WO2010070840A1 (ja) * | 2008-12-17 | 2010-06-24 | 日本電気株式会社 | 音声検出装置、音声検出プログラムおよびパラメータ調整方法 |
JP2017106989A (ja) * | 2015-12-07 | 2017-06-15 | ヤマハ株式会社 | 音声対話装置およびプログラム |
JP2017107151A (ja) * | 2015-12-07 | 2017-06-15 | ヤマハ株式会社 | 音声対話装置およびプログラム |
WO2017098940A1 (ja) * | 2015-12-07 | 2017-06-15 | ヤマハ株式会社 | 音声対話装置および音声対話方法 |
JP2019215513A (ja) * | 2018-06-13 | 2019-12-19 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声区間の検出方法および装置 |
US10854219B2 (en) | 2015-12-07 | 2020-12-01 | Yamaha Corporation | Voice interaction apparatus and voice interaction method |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60114900A (ja) * | 1983-11-25 | 1985-06-21 | 松下電器産業株式会社 | 有音・無音判定法 |
JPS60200300A (ja) * | 1984-03-23 | 1985-10-09 | 松下電器産業株式会社 | 音声の始端・終端検出装置 |
JPH0335297A (ja) * | 1989-07-01 | 1991-02-15 | Toshiba Corp | 有音・無音検出方式 |
JPH04299400A (ja) * | 1991-03-28 | 1992-10-22 | Kokusai Electric Co Ltd | 音声検出器 |
JPH06266380A (ja) * | 1993-03-12 | 1994-09-22 | Toshiba Corp | 音声検出回路 |
JPH08202394A (ja) * | 1995-01-27 | 1996-08-09 | Kyocera Corp | 音声検出器 |
JPH1020880A (ja) * | 1996-07-02 | 1998-01-23 | Olympus Optical Co Ltd | 音声状態判別装置 |
JPH1091192A (ja) * | 1996-09-13 | 1998-04-10 | Fujitsu Ltd | 音声検出器制御方式 |
JP2000305580A (ja) * | 1999-04-23 | 2000-11-02 | Roland Corp | 無音判別方法、無音判別装置およびコンピュータ読み取り可能な記録媒体 |
JP2000330598A (ja) * | 1999-05-18 | 2000-11-30 | Mitsubishi Electric Corp | 雑音区間判定装置,雑音抑圧装置及び推定雑音情報更新方法 |
JP2001516463A (ja) * | 1996-07-16 | 2001-09-25 | テラブス オペレーションズ,インコーポレイテッド | 複数の行列式を利用する音声検出システム |
JP2001350488A (ja) * | 2000-06-02 | 2001-12-21 | Nec Corp | 音声検出方法及び装置とその記録媒体 |
JP2005516247A (ja) * | 2002-01-24 | 2005-06-02 | モトローラ・インコーポレイテッド | 雑音環境のための音声活動検出器及び有効化器 |
JP2005229259A (ja) * | 2004-02-12 | 2005-08-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体 |
JP2006078654A (ja) * | 2004-09-08 | 2006-03-23 | Embedded System:Kk | 音声認証装置及び方法並びにプログラム |
-
2006
- 2006-12-14 JP JP2006336858A patent/JP4758879B2/ja not_active Expired - Fee Related
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60114900A (ja) * | 1983-11-25 | 1985-06-21 | 松下電器産業株式会社 | 有音・無音判定法 |
JPS60200300A (ja) * | 1984-03-23 | 1985-10-09 | 松下電器産業株式会社 | 音声の始端・終端検出装置 |
JPH0335297A (ja) * | 1989-07-01 | 1991-02-15 | Toshiba Corp | 有音・無音検出方式 |
JPH04299400A (ja) * | 1991-03-28 | 1992-10-22 | Kokusai Electric Co Ltd | 音声検出器 |
JPH06266380A (ja) * | 1993-03-12 | 1994-09-22 | Toshiba Corp | 音声検出回路 |
JPH08202394A (ja) * | 1995-01-27 | 1996-08-09 | Kyocera Corp | 音声検出器 |
JPH1020880A (ja) * | 1996-07-02 | 1998-01-23 | Olympus Optical Co Ltd | 音声状態判別装置 |
JP2001516463A (ja) * | 1996-07-16 | 2001-09-25 | テラブス オペレーションズ,インコーポレイテッド | 複数の行列式を利用する音声検出システム |
JPH1091192A (ja) * | 1996-09-13 | 1998-04-10 | Fujitsu Ltd | 音声検出器制御方式 |
JP2000305580A (ja) * | 1999-04-23 | 2000-11-02 | Roland Corp | 無音判別方法、無音判別装置およびコンピュータ読み取り可能な記録媒体 |
JP2000330598A (ja) * | 1999-05-18 | 2000-11-30 | Mitsubishi Electric Corp | 雑音区間判定装置,雑音抑圧装置及び推定雑音情報更新方法 |
JP2001350488A (ja) * | 2000-06-02 | 2001-12-21 | Nec Corp | 音声検出方法及び装置とその記録媒体 |
JP2005516247A (ja) * | 2002-01-24 | 2005-06-02 | モトローラ・インコーポレイテッド | 雑音環境のための音声活動検出器及び有効化器 |
JP2005229259A (ja) * | 2004-02-12 | 2005-08-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体 |
JP2006078654A (ja) * | 2004-09-08 | 2006-03-23 | Embedded System:Kk | 音声認証装置及び方法並びにプログラム |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009069662A1 (ja) * | 2007-11-27 | 2009-06-04 | Nec Corporation | 音声検出システム、音声検出方法および音声検出プログラム |
JP5446874B2 (ja) * | 2007-11-27 | 2014-03-19 | 日本電気株式会社 | 音声検出システム、音声検出方法および音声検出プログラム |
US8694308B2 (en) | 2007-11-27 | 2014-04-08 | Nec Corporation | System, method and program for voice detection |
WO2010070840A1 (ja) * | 2008-12-17 | 2010-06-24 | 日本電気株式会社 | 音声検出装置、音声検出プログラムおよびパラメータ調整方法 |
US8812313B2 (en) | 2008-12-17 | 2014-08-19 | Nec Corporation | Voice activity detector, voice activity detection program, and parameter adjusting method |
JP2017106989A (ja) * | 2015-12-07 | 2017-06-15 | ヤマハ株式会社 | 音声対話装置およびプログラム |
JP2017107151A (ja) * | 2015-12-07 | 2017-06-15 | ヤマハ株式会社 | 音声対話装置およびプログラム |
WO2017098940A1 (ja) * | 2015-12-07 | 2017-06-15 | ヤマハ株式会社 | 音声対話装置および音声対話方法 |
US10854219B2 (en) | 2015-12-07 | 2020-12-01 | Yamaha Corporation | Voice interaction apparatus and voice interaction method |
JP2019215513A (ja) * | 2018-06-13 | 2019-12-19 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声区間の検出方法および装置 |
Also Published As
Publication number | Publication date |
---|---|
JP4758879B2 (ja) | 2011-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4758879B2 (ja) | 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置、方法 | |
US10643624B2 (en) | Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pulse resynchronization | |
JP4146489B2 (ja) | 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体 | |
US10891964B2 (en) | Generation of comfort noise | |
US7324937B2 (en) | Method for packet loss and/or frame erasure concealment in a voice communication system | |
KR102012325B1 (ko) | 오디오 신호의 배경 잡음 추정 | |
RU2632151C2 (ru) | Устройство и способ выбора одного из первого алгоритма кодирования и второго алгоритма кодирования с использованием уменьшения гармоник | |
US20220343924A1 (en) | Apparatus and method for improved concealment of the adaptive codebook in a celp-like concealment employing improved pitch lag estimation | |
JP5914119B2 (ja) | 音響モデル性能評価装置とその方法とプログラム | |
JP2002318599A (ja) | 音声通信装置 | |
MXPA95004716A (en) | A robust density estimation method and telephone vocalization device | |
JP2009003388A (ja) | ピッチ探索範囲決定装置、ピッチ探索装置、パケット消失補償装置、それらの方法、プログラム及びその記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110418 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110524 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110603 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140610 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |