JP3721948B2

JP3721948B2 - 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置

Info

Publication number: JP3721948B2
Application number: JP2000160237A
Authority: JP
Inventors: 博史山本; ハラルド・シンガー
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2000-05-30
Filing date: 2000-05-30
Publication date: 2005-11-30
Anticipated expiration: 2020-05-30
Also published as: JP2001343983A

Description

【０００１】
【発明の属する技術分野】
この発明は、音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置に関する。
【０００２】
【従来の技術】
音声認識において、音声区間の検出は非常に重要な問題である。音声区間の検出には音声始端と音声終端の検出が必要である。音声始端の検出における要求は音声始端を確実に検出することであり、音声終端の検出では実際の音声終端に遅れることない検出が要求される。
【０００３】
音声始端の検出において最も重要な要求は、検出点が実際の発声の始端より遅れないことである。これは、検出点が実際の発声の始端より遅い場合は即座に認識誤りの原因となるためである。
【０００４】
従来のパワーおよびその変動を用いた音声区間検出法（文献１参照）では、検出点は実際の発声より大きく遅れることはないが、たとえば、「一回」の／ｉｋｋ／の音声区間のように、発声の始端において十分にパワーが上がらないような場合には、この部分を取りこぼす場合がありえる。これは音声区間をモデル化するにはパワーおよびその変動だけでは単純すぎることを意味している。
【０００５】
文献１： Ben Reaves Bigram Parameters for Noise Robust Speech Detection. In 日本音響学会平成５年春秋研究発表会講演論文集、I,2-Q-25, pp.197-198．
【０００６】
音声始端の検出において精度が最重要視されたのに対し、音声終端の検出においては実際の発声の終端に対して遅れが少ないことも重要視される。これは音声終端の検出の遅れがそのまま認識結果の出力の遅れにつながるためである。従来のパワーおよびその変動を用いた音声区間検出法（文献１参照）では、上述したように、音声区間のモデルとしては単純すぎるため、どうしても音声終端の検出が実際の発声の終端よりもかなり遅れる傾向にある。
【０００７】
【発明が解決しようとする課題】
【０００８】
この発明は、従来のＨＭＭを用いた音声始端検出方法に比べて、計算能力の低減化が図れる音声始端検出方法および音声認識装置における区間判定方法を提供することを目的とする。
【０００９】
この発明は、音声区間の検出が容易となる音声認識装置を提供することを目的とする。
【００１０】
【課題を解決するための手段】
この発明は、ＨＭＭを用いた音声始端検出方法であって、母音そのものならびに母音と音を伴う子音とからなるものを有声音と定義し、環境非依存の有声音のＨＭＭであって、ＨＭＭの時間方向の接続を無視し、時間方向の全状態に含まれるガウス分布からなる混合ガウス分布で近似したＨＭＭと、環境非依存の無音のＨＭＭとを用いて、入力音声波形の一定区間内に所定フレーム数以上の有声音区間が存在するか否かを判定し、一定区間内に所定フレーム数以上の有声音区間が存在するときに当該一定区間の先頭フレームを音声始端として検出することを特徴とする。
【００１１】
この発明は、音声認識装置における音声区間検出方法であって、母音そのものならびに母音と音を伴う子音とからなるものを有声音と定義し、環境非依存の有声音のＨＭＭであって、ＨＭＭの時間方向の接続を無視し、時間方向の全状態に含まれるガウス分布からなる混合ガウス分布で近似したＨＭＭと、環境非依存の無音のＨＭＭとを用いて、入力音声波形の一定区間内に所定フレーム数以上の有声音区間が存在するか否かを判定し、一定区間内に所定フレーム数以上の有声音区間が存在するときに当該一定区間の先頭フレームを音声始端として検出し、音声認識に用いられているＨＭＭを用いて無音区間が所定期間以上継続したか否かを判定し、無音区間が所定期間以上継続したときに音声終端と判定することを特徴とする。
【００１２】
この発明による第１の音声認識装置は、入力音声波形から特徴量を抽出する特徴量抽出手段、特徴量抽出手段によって抽出された特徴量に基づいて音声始端を検出する音声始端検出手段、特徴量抽出手段によって抽出された特徴量に基づいて音声認識処理を行なうとともに音声終端検出処理を行なうデコード手段、音声始端検出部によって音声始端が検出されたときに、特徴量抽出手段によって抽出された特徴量をデコード手段に送り、かつデコート手段によって音声終端が検出されたときに、特徴量抽出手段によって抽出された特徴量を音声始端検出部に送るように、特徴量抽出手段によって抽出された特徴量の送り先を制御する手段を備えており、音声始端検出手段は、母音そのものならびに母音と音を伴う子音とからなるものを有声音と定義し、環境非依存の有声音のＨＭＭであって、ＨＭＭの時間方向の接続を無視し、時間方向の全状態に含まれるガウス分布からなる混合ガウス分布で近似したＨＭＭと、環境非依存の無音のＨＭＭとを用いて、入力音声波形の一定区間内に所定フレーム数以上の有声音区間が存在するか否かを判定する手段、および一定区間内に所定フレーム数以上の有声音区間が存在するときに当該一定区間の先頭フレームを音声始端として検出する手段を備えており、デコート手段は、音声認識処理に用いられているＨＭＭを用いて無音区間が所定期間以上継続したか否かを判定する手段、および無音区間が所定期間以上継続したときに音声終端と判定する手段を備えていることを特徴とする。
【００１３】
この発明による第２の音声認識装置は、クライアント装置とサーバ装置とを備えており、クライアント装置は、入力音声波形からケプストラムを抽出するケプストラム抽出手段、ケプストラム抽出手段によって抽出されたケプストラムから特徴量を抽出する第１の特徴量抽出手段、第１の特徴量抽出手段によって抽出された抽出された特徴量に基づいて音声始端を検出する音声始端検出手段、およびケプストラム抽出手段によって抽出されたケプストラムをサーバ装置に送るか否かを選択するスイッチ手段を備えており、サーバ装置は、クライアント装置から送られてくるケプストラムから特徴量を抽出する第２の特徴量抽出手段、および第２の特徴量抽出手段によって抽出された特徴量に基づいて音声認識処理を行なうとともに音声終端検出処理を行なうデコード手段を備えており、音声始端検出手段は、母音そのものならびに母音と音を伴う子音とからなるものを有声音と定義し、環境非依存の有声音のＨＭＭであって、ＨＭＭの時間方向の接続を無視し、時間方向の全状態に含まれるガウス分布からなる混合ガウス分布で近似したＨＭＭと、環境非依存の無音のＨＭＭとを用いて、入力音声波形の一定区間内に所定フレーム数以上の有声音区間が存在するか否かを判定する手段、一定区間内に所定フレーム数以上の有声音区間が存在するときに当該一定区間の先頭フレームを音声始端として検出する手段、および音声始端を検出したときにスイッチ手段をオンさせる手段を備えており、デコード手段は、音声認識処理に用いられているＨＭＭを用いて無音区間が所定期間以上継続したか否かを判定する手段、無音区間が所定期間以上継続したときに音声終端と判定する手段および音声終端が検出されると、サーバ装置内の音声始端検出部に音声終端の時間を送信するとともに音声終端に続いて音声始端が検出されたと仮定してデコーディングを継続する手段を備えており、音声始端検出手段は、さらに、デコード手段から音声終端の時間を受信したときに、その音声終端の時間から現在までに音声始端を検出したかどうかを判定する手段、および音声終端の時間から現在までに音声始端を検出しているときには、スイッチ手段をオンのままとし、音声終端の時間から現在までに音声始端を検出していないときには、スイッチ手段をオフとさせる手段を備えていることを特徴とする。
【００１４】
【発明の実施の形態】
以下、この発明の実施の形態について説明する。
【００１５】
〔１〕音声始端の検出方法の説明
【００１６】
音声区間をより詳細にモデル化する方法としてはＨＭＭを用いる方法が知られている（文献２参照）。
【００１７】
文献２：堀泰宣、船田哲男、金寺登実環境下単語音声区間検出のための雑音ＥＨＭＭ再学習の効果電子情報通信学会技術報告、SP97-47, 1997.
【００１８】
しかしながらＨＭＭを用いた場合、その計算量はかなりのものとなり、特に計算能力の落ちる計算機を用いるクライアント・サーバ型の音声認識では実用面で大きな問題となる。そこで、本発明の実施の形態では、ＨＭＭを次に示す方法で簡素化することによって計算能力の削減を図ることにする。
【００１９】
▲１▼環境非依存のＨＭＭを用いることにより状態数を削減する。
▲２▼有声音および無音のＨＭＭのみを用いる。
▲３▼有声音モデルの作成にあたっては、ＨＭＭの時間方向の接続を無視し、時間方向の全状態に含まれるガウス分布からなる混合ガウス分布で近似する。
【００２０】
ここで、有声音とは、（１）母音そのもの、および（２）母音と子音の一部とからなるものをいう。上記（２）の子音の一部とは、音を伴う子音をいい、濁音、ナ行、マ行、ヤ行およびワ行の子音をいう。カ行、サ行、タ行、ハ行、パ行の子音は無音である。
【００２１】
有声音および無音のＨＭＭのみを用いた場合、子音区間は有声音と判断されるか無音と判断されるか不定である。しかし子音のみが長時間（１００ｍｓｅｃ以上）継続することは考えがたいため、一定区間内に一定フレーム以上有声音区間が存在すれば音声区間と判断する。
【００２２】
〔２〕音声終端の検出方法の説明
【００２３】
デコーディング時には詳細なモデルであるＨＭＭが認識のために用いられている。従ってこのＨＭＭの尤度を用いて音声終端の検出を行えば正確な終端検出が可能と考えられ、言語モデルとして有限状態オートマトンを用いた場合の例が報告されている（文献３参照）。
【００２４】
文献３：内藤正樹、黒岩眞吾、山本誠一、武田一哉部分文仮説のゆう度を用いた連続音声認識のための音声区間検出法. In 電子情報通信学会論文誌、J80-DII, pp.2895-2903, 1997.
【００２５】
本発明の実施の形態では、言語モデルとしてＮ−ｇｒａｍを用いた場合を前提とし、音響状態が無音である仮説が一定時間以上最尤であれば音声区間の終端と判断する。
【００２６】
〔３〕評価実験
【００２７】
上記実施の形態による手法（以下、本手法という）と、パワーおよびその変動を用いた従来法との比較実験を行った。実験は４１会話５３６発話を対象として行った。これらの発声はあらかじめ人手で前後に十分な無音を付加して切り出してある。
【００２８】
〔３−１〕始端検出の評価
【００２９】
音声始端検出のためのＨＭＭとしては無音および男女別の有声音、計１１のモデルを用いた。つまり、１つの無音のモデルと、５つの男性の有声音のモデルと、５つの女性の有声音のモデルとを用いた。
【００３０】
各モデルは環境非依存３状態であり、ガウス分布の混合数はそれぞれ５である。音声始端検出の条件としては１２フレーム（１２０ｍｓｅｃ）中、４つ以上有声音が最尤であった場合、１２フレームの先頭フレームを音声始端とした。
【００３１】
評価は実際の発声の始端とのずれとした。この時の計算コストはケプストラム抽出を含む特徴量抽出の計算のコストとほぼ同等であった。従来法との比較結果を表１に示す。
【００３２】
【表１】

【００３３】
検出した始端の時間が実際の発声の始端に先んじた発話を検出成功発話としてある。提案法において始端検出に失敗した発話が１４あるものの、これらはすべて「あ、すみません」の「あ」の部分のように後ろに無音を伴う短い間投詞であり、認識結果にはほとんど影響を及ぼさないものであった。
【００３４】
〔３−２〕終端検出の評価
【００３５】
終端検出すなわち認識に用いたＨＭＭは１４００状態５混合の性別依存モデルである。終端検出のための無音最尤の継続長は７００ｍｓｅｃとした。従来法との比較結果を表２に示す。検出した終端の時間が実際の発声の終端より後ろである発話を検出成功発話としてある。
【００３６】
【表２】

【００３７】
ここでは、音声区間検出の手法として、始端検出には無音および有声音のＨＭＭを用い、終端検出には認識に用いるＨＭＭを用いてデコーダで検出する方法を提案した。本手法は始端検出においては精度で、終端検出においては遅延時間において従来法にまさり、音声区間検出における有効性が実験により認識された。また従来法では対応の難しい非定常雑音下においてもＨＭＭで雑音モデルとして表現することにより対応できる可能性があり、適応範囲においても優れていると考えられる。
【００３８】
〔４〕応用例の説明
【００３９】
〔４−１〕スタンドアロン型における音声認識システムの説明
図１は、スタンドアロン型の音声認識システムの構成を示している。
【００４０】
音声認識システムに入力された音声波形は特徴量抽出部１に送られ、特徴量抽出部１によって特徴量が抽出される。特徴量抽出部１によって抽出された特徴量は、スイッチ２を介して音声始端検出部３へと送られる。音声始端検出部３は、特徴量抽出部１によって抽出された特徴量に基づいて、上記〔１〕で説明した音声始端検出方法によって音声始端を検出する。
【００４１】
音声始端検出部３によって音声始端が検出されると、スイッチ２がデコーダ側に切り替わり、音声始端検出部３で検出された音声始端以降の特徴量がデコーダ４に送られる。デコーダ４は、送られてきた特徴量に基づいて音声認識処理を行なうとともに音声終端検出処理を行なう。
【００４２】
この後、デコーダ４が、上記〔２〕で説明した方法によって音声終端を検出すると、再びスイッチ２が音声始端検出部側に切り替えられ、特徴量抽出部１によって抽出された特徴量が音声始端検出装置３に送られ、次の音声に対応する状態に戻され、同様な動作が繰り返される。
【００４３】
〔４−２〕クライアント・サーバ型における音声認識システム構成
【００４４】
図２は、クライント・サーバ型の音声認識システムの構成を示している。
【００４５】
この音声認識装置は、クライアント装置１０と、サーバ装置２０とから構成されている。
【００４６】
クライアント装置１０は、音声波形からケプストラムを抽出するケプストラム抽出部１１、ケプストラム抽出部１１によって抽出されたケプストラムから特徴量を抽出する特徴量抽出部１２、特徴量抽出部１２によって抽出された抽出された特徴量に基づいて上記〔１〕で説明した音声始端検出方法によって音声始端を検出する音声始端検出部１３およびケプストラム抽出部１１によって抽出されたケプストラムをサーバ装置２０に送るか否かを制御するスイッチ１４を備えている。
【００４７】
サーバ装置２０は、クライアント装置１０から送られてきたケプストラムから特徴量を抽出する特徴量抽出部２１および特徴量抽出部２１によって抽出された特徴量に基づいて音声認識処理を行なうとともに上記〔２〕で説明した音声終端検出方法によって音声終端検出処理を行なうデコーダ２２を備えている。
【００４８】
クライアント装置１０内の音声始端検出部１３は、音声始端の検出処理を常時行なっている。クライアント装置１０内の音声始端検出部１３で音声始端が検出されると、スイッチ１４がオンされ、音声始端検出部１３で検出された音声始端以降のケプストラムがサーバ装置２０に送られる。サーバ装置２０内の特徴量抽出部２１では、クライアント装置１０から送信されてきたケプストラムに基づいて特徴量を抽出する。特徴量抽出部２１によって抽出された特徴量はデコーダ２２に送られる。デコーダ２２は、特徴量抽出部２１から送られてきた特徴量に基づいて音声認識処理を行なうとともに音声終端検出処理を行なう。
【００４９】
デコーダ２２によって音声終端が検出されると、サーバ装置１０内の声始端検出部１３に音声終端の時間が送信される。この際、デコーダ２２は音声終端に続いて音声始端が検出されたと仮定してデコーディングを継続する。
【００５０】
音声始端検出部１３は、デコーダ２２から音声終端の時間を受信すると、その音声終端の時間から現在までに音声始端を検出したかどうかを調べる。音声始端検出部１３は、音声終端の時間から現在までに音声始端を検出している場合には、スイッチ１４をオンのままとする。この場合には、デコーダ２２は、デコーダ２２が仮定した音声始端を有効とみなしてデコーディングを継続することになる。
【００５１】
音声始端検出部１３は、音声終端の時間から現在までに音声始端を検出している場合には、スイッチ１４をオフとするとともに、キャンセル信号をデコーダ２２に送る。デコーダ２２は、キャンセル信号を受信すると、デコーディングを中止する。
【００５２】
なお、クライント・サーバ型の音声認識システムとして、図３に示すようなものを用いてもよい。
【００５３】
図３のシステムでは、クライアント装置１１０は、音声波形から特徴量を抽出する特徴量抽出部１１１、特徴量抽出部１１１によって抽出された抽出された特徴量に基づいて上記〔１〕で説明した音声始端検出方法によって音声始端を検出する音声始端検出部１１２および特徴量抽出部１１１によって抽出された特徴量をサーバ装置１２０に送るか否かを制御するスイッチ１１３を備えている。
【００５４】
サーバ装置１２０は、クライアント装置１１０から送られてきた特徴量に基づいて音声認識処理を行なうとともに上記〔２〕で説明した音声終端検出方法によって音声終端検出処理を行なうデコーダ１２１を備えている。
【００５５】
図３の装置においても、音声始端検出部１１２の動作およびデコーダ１２１の動作は、それぞれ図２の音声始端検出部１３の動作およびデコーダ２２の動作と同じである。
【００５６】
【発明の効果】
この発明によれば、従来のＨＭＭを用いた音声始端検出方法に比べて、計算能力の低減化が図れるようになる。また、この発明によれば、音声区間の検出が容易となる音声認識装置が得られる。
【図面の簡単な説明】
【図１】スタンドアロン型の音声認識システムの構成を示すブロック図である。
【図２】クライント・サーバ型の音声認識システムの構成を示すブロック図である。
【図３】クライント・サーバ型の他の音声認識システムの構成を示すブロック図である。
【符号の説明】
１、１２、２１、１１１特徴量抽出部
２、１４、１１３スイッチ
３、１３、１１２音声始端検出部
４、２２、１２１デコーダ
１０、１１０クライアント装置
２０、１２０サーバ装置

Claims

ＨＭＭを用いた音声始端検出方法において、
母音そのものならびに母音と音を伴う子音とからなるものを有声音と定義し、環境非依存の有声音のＨＭＭであって、ＨＭＭの時間方向の接続を無視し、時間方向の全状態に含まれるガウス分布からなる混合ガウス分布で近似したＨＭＭと、環境非依存の無音のＨＭＭとを用いて、入力音声波形の一定区間内に所定フレーム数以上の有声音区間が存在するか否かを判定し、一定区間内に所定フレーム数以上の有声音区間が存在するときに当該一定区間の先頭フレームを音声始端として検出することを特徴とする音声始端検出方法。
音声認識装置における音声区間検出方法において、
母音そのものならびに母音と音を伴う子音とからなるものを有声音と定義し、環境非依存の有声音のＨＭＭであって、ＨＭＭの時間方向の接続を無視し、時間方向の全状態に含まれるガウス分布からなる混合ガウス分布で近似したＨＭＭと、環境非依存の無音のＨＭＭとを用いて、入力音声波形の一定区間内に所定フレーム数以上の有声音区間が存在するか否かを判定し、一定区間内に所定フレーム数以上の有声音区間が存在するときに当該一定区間の先頭フレームを音声始端として検出し、音声認識に用いられているＨＭＭを用いて無音区間が所定期間以上継続したか否かを判定し、無音区間が所定期間以上継続したときに音声終端と判定することを特徴とする音声認識装置における音声区間検出方法。
入力音声波形から特徴量を抽出する特徴量抽出手段、
特徴量抽出手段によって抽出された特徴量に基づいて音声始端を検出する音声始端検出手段、
特徴量抽出手段によって抽出された特徴量に基づいて音声認識処理を行なうとともに音声終端検出処理を行なうデコード手段、
音声始端検出部によって音声始端が検出されたときに、特徴量抽出手段によって抽出された特徴量をデコード手段に送り、かつデコート手段によって音声終端が検出されたときに、特徴量抽出手段によって抽出された特徴量を音声始端検出部に送るように、特徴量抽出手段によって抽出された特徴量の送り先を制御する手段を備えており、
音声始端検出手段は、母音そのものならびに母音と音を伴う子音とからなるものを有声音と定義し、環境非依存の有声音のＨＭＭであって、ＨＭＭの時間方向の接続を無視し、時間方向の全状態に含まれるガウス分布からなる混合ガウス分布で近似したＨＭＭと、環境非依存の無音のＨＭＭとを用いて、入力音声波形の一定区間内に所定フレーム数以上の有声音区間が存在するか否かを判定する手段、および一定区間内に所定フレーム数以上の有声音区間が存在するときに当該一定区間の先頭フレームを音声始端として検出する手段を備えており、
デコート手段は、音声認識処理に用いられているＨＭＭを用いて無音区間が所定期間以上継続したか否かを判定する手段、および無音区間が所定期間以上継続したときに音声終端と判定する手段を備えていることを特徴とする音声認識装置。
クライアント装置とサーバ装置とを備えており、
クライアント装置は、
入力音声波形からケプストラムを抽出するケプストラム抽出手段、
ケプストラム抽出手段によって抽出されたケプストラムから特徴量を抽出する第１の特徴量抽出手段、
第１の特徴量抽出手段によって抽出された抽出された特徴量に基づいて音声始端を検出する音声始端検出手段、および
ケプストラム抽出手段によって抽出されたケプストラムをサーバ装置に送るか否かを選択するスイッチ手段を備えており、
サーバ装置は、
クライアント装置から送られてくるケプストラムから特徴量を抽出する第２の特徴量抽出手段、および
第２の特徴量抽出手段によって抽出された特徴量に基づいて音声認識処理を行なうとともに音声終端検出処理を行なうデコード手段を備えており、
音声始端検出手段は、母音そのものならびに母音と音を伴う子音とからなるものを有声音と定義し、環境非依存の有声音のＨＭＭであって、ＨＭＭの時間方向の接続を無視し、時間方向の全状態に含まれるガウス分布からなる混合ガウス分布で近似したＨＭＭと、環境非依存の無音のＨＭＭとを用いて、入力音声波形の一定区間内に所定フレーム数以上の有声音区間が存在するか否かを判定する手段、一定区間内に所定フレーム数以上の有声音区間が存在するときに当該一定区間の先頭フレームを音声始端として検出する手段、および音声始端を検出したときにスイッチ手段をオンさせる手段を備えており、
デコード手段は、音声認識処理に用いられているＨＭＭを用いて無音区間が所定期間以上継続したか否かを判定する手段、無音区間が所定期間以上継続したときに音声終端と判定する手段および音声終端が検出されると、サーバ装置内の音声始端検出部に音声終端の時間を送信するとともに音声終端に続いて音声始端が検出されたと仮定してデコーディングを継続する手段を備えており、
音声始端検出手段は、さらに、デコード手段から音声終端の時間を受信したときに、その音声終端の時間から現在までに音声始端を検出したかどうかを判定する手段、および音声終端の時間から現在までに音声始端を検出しているときには、スイッチ手段をオンのままとし、音声終端の時間から現在までに音声始端を検出していないときには、スイッチ手段をオフとさせる手段を備えていることを特徴とする音声認識装置。