JP4881625B2

JP4881625B2 - 音声検出装置及び音声検出プログラム

Info

Publication number: JP4881625B2
Application number: JP2006027174A
Authority: JP
Inventors: 直樹関根; 圭祐吉崎
Original assignee: Toshiba TEC Corp
Current assignee: Toshiba TEC Corp
Priority date: 2006-02-03
Filing date: 2006-02-03
Publication date: 2012-02-22
Anticipated expiration: 2026-02-03
Also published as: JP2007206524A

Description

本発明は、音声動作型音声記録装置等の前処理として入力信号中の音声区間を検出する音声検出装置及び音声検出プログラムに関する。

近年、様々な機器を音声によって操作したり、入力手段としてキーボードなどの代わりに音声を用いる音声認識の技術が用いられている。音声認識は、入力信号から音声区間を抽出し、抽出された音声区間の入力信号から音声の特徴量（ケプストラム等）を計算し、予め用意してある標準パターンと比較した上で、類似度の高いものを算出するという仕組みで動いている。ここで、入力信号から実際に人の音声が含まれる音声区間の検出に失敗すると、標準パターンにマッチせず、誤認識を引き起こす原因になる。特に、促音や撥音の音量は、誤検出しやすい。

この問題に対し、音声認識結果の類似度（累積尤度）を検証し、誤った終端だと判断した場合、音声区間の検出を継続させる方法が知られている（例えば、特許文献１参照）。
特開２００１−２４２８７９号公報

ところが、「キットカット」、「ハンバーグセット」といった促音又は撥音を複数含む語彙を発声すると、「ッ」や「ン」の音声がユーザに無音すなわち非音声となるため「キッ／トカッ／ト」、「ハン／バーグセッ／ト」のように複数に切れてしまい、特許文献１に記載されたものでは、その度に認識結果の類似度を検証し、音声区間の検出を継続しなければならない。そのため、複数回の検証時間を要するため、音声認識のリアルタイム性が損なわれ、安定した音声区間の検出が得られ難いという問題が生じる。

本発明は上記事情に鑑みてなされたものであって、その目的は、検証時間を短くして音声認識のリアルタイム性を保持し、安定した音声区間の検出を行うことができる音声認識装置及び音声認識プログラムを提供することにある。

本発明は、取り込まれた入力信号を一定時間ごとに音響分析して音声の特徴ベクトルを求め、この音声分析手段で求められた音声の特徴ベクトルを用いて音声の始端及び終端を検出し、音声区間の始端が検出されてから終端が検出されるまでの間、算出された特徴ベクトルと予め各単語の標準モデルの各状態と認識単位とを関連付けて格納する標準モデル記憶手段に格納してある標準モデルとから累積尤度を算出し、音声区間の終端が検出されたときに、最大尤度となる単語又は部分単語の中に促音又は撥音を最終の認識単位とする部分単語が含まれていたら検出された終端は非音声区間を終端と誤検出されたものと判定する音声検出装置において、促音又は撥音を最終の認識単位とする最大尤度の部分単語及び該当部分単語を含む完全単語についてモーラ数を計算するとともに検出された始端と終端から音声区間の継続時間を計算し、終端を誤検出したと判断された場合、算出された音声継続時間を部分単語のモーラ数で割ることにより１モーラ当たりの時間長を算出し、算出された完全単語のモーラ数に１モーラ当たりの時間長を掛けることにより完全単語の継続発音長を推定し、検出された始端から継続発音長が経過した位置として検出すべき音声区間の終端を計算するものである。

本発明によると、検証時間を短くして音声認識のリアルタイム性を保持し、安定した音声区間の検出を行うことができる音声認識装置及び音声認識プログラムを提供できる。

以下、本発明の各実施の形態について図面を参照して説明する。

（第１の実施の形態）
図１は本発明の第１の実施形態に係る音声検出装置１００の構成を示している。図１の音声検出装置１００は、計算処理を実行するＣＰＵ１１、制御プログラムを記憶するＲＯＭ１２、情報を記憶するＲＡＭ１３、音声を検出しその音声を認識するめの各種制御プログラムや各種データを記憶するＨＤＤ１４、音声入力デバイスを含む入出力デバイス１５で構成される。

ＨＤＤ１４には、詳細は後述する音声入力制御プログラム、音声分析制御プログラム、音声検出制御プログラム、音声認識制御プログラム、音声区間検証プログラム、モーラ数計算制御プログラム、音声継続時間計算制御プログラム、フィードバック制御プログラム等が記憶されている。ＣＰＵ１１がこれら制御プログラムをＨＤＤ１４から読み出し、ＲＡＭ１３を用いて実行することにより、音声検出装置１００は、音声入力機能、音声分析機能、音声検出機能、音声認識機能、音声区間検出機能、モーラ数計算機能、音声継続時間計算機能、フィードバック機能等を実現できるようになっている。

また、ＨＤＤ１４は、標準モデル記憶部１４ａ、単語テーブル記憶部１４ｂが記憶されている。図２は、標準モデル記憶部１４ａの一例を示す図である。図２に示すように、認識対象となる単語の標準モデルの各状態と認識単位である所定数（例えば、３５）に分割された音素とを関連付けた形で記憶されている。図３は単語テーブル記憶部１４ｂに記憶される単語テーブルの一例を示す図である。図３に示すように、部分単語と完全単語が関連付けられた形で記憶されている。例えば、部分単語「き」、「きっとか」と対応して完全単語「きっとかっと」が記憶されている。

次に、音声検出装置１００で音声を検出し音声を認識するための処理について説明する。図４は、当該処理の要部を示すフローチャートである。
先ず、入出力デバイス１５からある一定時間（以下、フレームと称する。）のアナログの音声信号が入力されると、その入力されたアナログ信号がディジタル信号に変換され、ディジタル化された音声信号が得られる（ＳＴ１１，音声入力手段）。続いて、ディジタル化された音声信号により、１フレーム毎に音響分析が行われ、音響分析の結果得られた音声の特徴ベクトルが得られる（ＳＴ１２，音声分析手段）。そして、ステップＳＴ１２で算出された音声の特徴ベクトルの少なくとも一つにより、入力信号が音声であるか非音声であるかが判定され、非音声から音声への判定が変化する時刻が音声の始端、逆に音声から非音声へ判定が変化する時刻が終端と決定され、音声の始端位置及び終端位置（すなわち、音声区間）が検出される（ＳＴ１３，音声検出手段）。このように検出された音声の始端位置及び終端位置はＲＡＭ１３に記憶される。

次に、前記始端位置が決定されると、検出された音声の始端位置及び終端位置により音声区間であるか否かが判断され（ＳＴ１４）、音声区間でないと判断されると（ＳＴ１４でＮＯ）、ステップＳＴ１１へ戻る。一方、音声区間中であると判断されると（ＳＴ１４でＹＥＳ）、１フレーム毎に詳細は後述する音声認識が実行され（ＳＴ１５，音声認識手段）、終端位置が検出されたか否かが判断される（ＳＴ１６）。終端位置が検出されたと判断されると（ＳＴ１６でＹＥＳ）、現フレームでの累積尤度をもとに区間検出の検証を行い（ＳＴ１７，音声区間検証手段）、区間検証を継続するか、あるいは終了するかといった区間検証が正しいか否かの判定が行われる（ＳＴ１８）。

終端位置が誤検知と判断され（ＳＴ１８でＮＯ）、すなわち、区間検証の継続指示が出た場合、モーラ数が計算され（ＳＴ１９，モーラ数計算手段）、音声の継続時間が計算される（ＳＴ２０，音声継続時間計算手段）。そして、このように計算されたモーラ数及び継続時間に基づいて、正確な終端位置が算出され、その算出された正確な音声の終端位置がＲＡＭ１３に保存される。このようにＲＡＭ１３に保存された終端位置は音声検出処理を行う際に参照されるため、正確な終端位置としてフィードバックされることとなる（ＳＴ２１，フィードバック手段）。尚、算出された正確な音声の終端位置を再度音声検出処理によって処理する際に参照されるため本手段をフィードバック手段と名付けているが、処理自体は正確な終端位置をＲＡＭに記憶するまでであるので、終端位置計算手段としてもよい。

以下では、上記音声認識処理（ＳＴ１５）、音声区間検証処理（ＳＴ１７）、モーラ数計算処理（ＳＴ１９）、音声継続時間計算処理（ＳＴ２０）、フィードバック処理（ＳＴ２１）についてそれぞれ説明する。

先ず、音声認識処理について説明する。音声認識の手法についてはいかなるものについても対応可能であるが、本実施の形態では、HMM（Hidden Markov Model）を用いた方法を用いて説明する。HMMを用いた方法とは、音声信号を表すモデルの状態系列を複数個用意しておき、入力信号がどのモデルから生成されたのかを求めるものである。具体的には、ある状態から別の状態に遷移するときに、次にどの状態に遷移するのが、一番尤度が高いかを求め、その尤度を状態が遷移する（自己遷移も含む）毎に累積させることによって、最終的に累積尤度がもっとも大きいものが認識結果となる方法である。認識の単位としては、単語毎や音素毎といった方法がある。説明上、上記図２で説明したように、音声を音素に分けたものを認識単位とし、音素毎の累積尤度を求める方法をとるが、これに限らない。

音声認識処理は、前記音声検出処理で音声区間の始端が検出されてから終端が検出されるまでの間実行され、前記音声分析処理で算出された音声の特徴ベクトルに基づいて、現フレームでの累積尤度及びその累積尤度に対応する音素を認識する。具体的には、１フレーム毎に入力音声の特徴ベクトルと所定数（例えば３５個）の音素の特徴ベクトルをマッチングさせ、それぞれの音素との尤度を求める。また、前フレームでの累積尤度に、現フレームで算出された尤度を足し合わせることによって、累積尤度を更新する。また、標準モデル記憶部１４ａに格納されている各状態とそれに対応する音素とが関連付けられた標準モデルをもとに、現フレームの音声は、どの単語のどの状態である可能性が高いかということを判定する。

次に音声区間検証処理について説明する。前記音声認識処理で算出された累積尤度及び音素により終端を正常に検出したか、あるいは誤検出したかを出力する。前記音声検出処理によって終端が検出された後、認識された単語、または、検出された終端が音声区間の途中の状態であるために部分的な単語になっている単語（以下、部分単語）に対する累積尤度を大きい順に並び替える。並び替えた結果、最大尤度となる単語あるいは部分単語の中に、促音や撥音を最終音素とする部分単語が含まれていたら、検出された終端は促音のユーザな無音すなわち非音声区間を終端と誤検出されたものと判定する。

上記図３を例にとれば、発話が完全単語である「きっとかっと」であり、「き／」の発声後で終端が検出された場合、音声区間検証処理は、音声認識処理の認識結果候補中から、部分単語の中に促音が含まれる「きっ」を見つけ、終端が誤検知されたと判定する。

従来の音声検出装置１００では、音声検出処理へ終端の継続指示が出されるが、「きっとか／」で再度終端が検出され、再度累積尤度の計算を行い、音声区間検証処理による判断を仰がなければならず計算時間を要するが、本実施の形態の音声検出装置１００は音声区間検証処理で誤検知と判定した後、モーラ数計算処理で計算するモーラ数と音声継続時間計算処理で計算する継続時間を用いて、正確な終端位置を計算する。なお、図４ではモーラ数計算処理でモーラ数の計算を行った後音声継続時間計算処理で継続時間を計算する場合で説明しているが、処理の順序は逆でもよい。

モーラ数計算処理について説明する。上記音声区間検証処理で誤検知と判定された「き／」に対し、音声区間検証処理で用いた部分単語と部分単語を含む認識単語すなわち完全単語からモーラ数を算出する。本実施の形態では、部分単語として考えられる「き／」でモーラ数１、それを含む完全単語として「きっとかっと」のモーラ数６となり、これらがモーラ数計算処理の出力となる。なお、日本語を仮名書きしたとき音声学で言う拗音の構成要素である「ぁ」，「ぃ」，「ぅ」，「ぇ」，「ぉ」，「ゃ」，「ゅ」，「ょ」といった小さい仮名（「っ」を除く）以外のすべての仮名は、全て基本的に同じ長さで発音される。このひとつの単位がモーラと呼ばれる。具体的な計算方法の一例について、図５を参照して説明する。

図５は、モーラ数計算処理の具体例を示すサブフローチャートである。図５に示すように、先ず、部分単語の文字数Ａ１が計算され（ＳＴ３１）、部分単語に含まれる音声学で言う拗音の構成要素である「ぁ」，「ぃ」，「ぅ」，「ぇ」，「ぉ」，「ゃ」，「ゅ」，「ょ」の文字数Ｂ１が計算される（ＳＴ３２）。そして、文字数Ａ１の計算結果から文字数Ｂ１の計算結果が引かれ、部分単語のモーラ数が計算される（ＳＴ３３）。続いて、完全単語の文字数Ａ２が計算され（ＳＴ３４）、完全単語に含まれる音声学で言う拗音の構成要素である「ぁ」，「ぃ」，「ぅ」，「ぇ」，「ぉ」，「ゃ」，「ゅ」，「ょ」の文字数Ｂ２が計算される（ＳＴ３５）。そして、文字数Ａ２の計算結果から文字数Ｂ２の計算結果が引かれ、完全単語のモーラ数が計算される（ＳＴ３６）。このように計算された部分単語及び完全単語のモーラ数はＲＡＭ１３に保存され、フィードバック処理で用いられる。

次に音声継続時間計算処理について説明する。音声継続時間計算処理は、誤検知と判定された「き／」までの音声に対し、継続時間を算出する。既に音声検出処理において始端位置と誤った終端位置は確定しているため、説明上、始端位置をｓ（ｍｓ）、終端位置をｅ（ｍｓ）と表記すれば、「き／」までの継続時間は（ｅ-ｓ）ｍｓと考えられる。このように計算された計算結果である継続時間（ｅ-ｓ）ｍｓは、ＲＡＭ１３に保存され、フィードバック処理で用いられる。具体的な計算方法の一例について、図６を参照して説明する。

図６は、音声継続時間計算処理の具体例を示すフローチャートである。図６に示すように、先ず、音声検出処理で求められた始端位置が変数ｓに代入され（ＳＴ４１）、終端位置が変数ｅに代入される（ＳＴ４２）。そして、音声継続時間がｅ-ｓにより求められる（ＳＴ４３）。

次にフィードバック処理について説明する。フィードバック処理は、モーラ数計算処理で計算されたモーラ数と音声継続時間計算処理で計算された継続時間を元に、終端位置を推定する処理を行う。すなわち、音声継続時間計算処理で計算された継続時間長をモーラ数計算処理で計算された部分単語のモーラ数で割ることにより、１モーラ当たりに要した時間長を算出する。続いて、モーラ数計算処理により計算された完全単語のモーラ数に、１モーラ当たりに要した時間長を掛けることにより、完全単語の継続発話長を推定することが出来る。本実施の形態においては、「き／」に要した時間が（ｅ-ｓ）ｍｓ、モーラ数１により、１モーラ当たり（ｅ-ｓ）ｍｓの時間を要し、完全単語である「きっとかっと」がモーラ数６であることにより、実際は６×（ｅ−ｓ）ｍｓ時間、発話の長さがあると推測出来る。従って、正しい終端位置は｛６×（ｅ−ｓ）＋ｓ｝ｍｓであると推測できる。更に、フィードバック処理は、このように計算された正しい終端位置を、音声検出処理で検出されてＲＡＭ１３に保存された終端位置に保存し、算出した正確な終端位置を音声検出処理にフィードバックさせる。

図６は、フィードバック部の処理を示すフローチャートである。図６に示すように、音声継続時間を部分単語のモーラ数で割り１モーラあたりの継続時間が求められ（ＳＴ５１）、この１モーラあたりの継続時間に完全単語のモーラ数が乗算されることにより発話の長さが求められる（ＳＴ５２）。そして、始端位置に発話の長さが加算され正しい終端位置が求められる（ＳＴ５３）。このようにした求められた正確な終端位置は、音声検出処理で検出されてＲＡＭ１３に保存された終端位置に保存される。

そして、音声検出処理はフィードバック処理によりＲＡＭ１３に保存された正しいと推測される終端位置に基づき音声区間を再度切り出し、音声認識処理は再度切り出した音声区間により音声認識を行うことができる。その結果、音声認識処理により、ユーザにより発話された「きっとかっと」を正確に、かつ従来法よりも計算時間を短縮することで認識が可能になる。

なお、モーラ数計算処理により完全単語が見つかっていれば既に音声認識を行わずともいいと判断されがちだが、本来音声でない信号が、モーラ数が少ない部分単語にマッチしてしまう現象はよく起こるものであり、例えば、金属音が誤って「き」にマッチしてしまった場合完全単語である「きっとかっと」を、そのまま認識結果として信じてしまうと誤認識になる。音声検出装置１００においても、フィードバック処理で算出される終端位置は誤りとなるが、再度音声認識を行うことで「きっとかっと」でないと判明し、誤認識を防ぐことが可能となる。

（第２の実施の形態）
次に、第２の実施の形態について述べる。この第２の実施の形態における音声検出装置は、ＨＤＤ１４にさらに単語テーブル記憶部１４ｃが設けられている点及びモーラ数計算処理及びフィードバック処理が複数の候補を計算するようになっている点を除いて同様であるため、以下では、上記点を中心に説明する。

図８は単語テーブル記憶部１４ｃに記憶される単語テーブルを示す図である。図８に示すように、当該単語テーブルは部分単語と完全単語が関連付けられた形で記憶されているが、１つの部分単語に対して複数の完全単語が記憶されている。例えば、図８に示すように、部分単語「は」に関連付けられて「はんばーぐ」、「はんばーぐせっと」が記憶されている。なお以下では、標準モデル記憶部１４ａに登録されている認識単語に「ハンバーグ」及び「ハンバーグセット」が含まれる場合を考える。

以下では、ユーザの発話が「はんばーぐ」であり、「は／」の発声後で終端位置が検出された場合で説明する。音声区間検証処理により、音声認識処理の認識結果候補中から、部分単語の中に撥音が含まれる「はん」を見つけ、終端位置が誤検知されたと判定する。

このように終端位置が誤検知されると、モーラ数計算処理は、誤検知と判定された「は／」に対し、音声区間検証処理で用いた部分単語と部分単語を含む認識単語すなわち完全単語からモーラ数を計算する。本実施の形態では、部分単語として考えられる「は／」でモーラ数１、それを含む完全単語として「はんばーぐ」のモーラ数５であるが、更に完全単語の候補として「はんばーぐセット」が想定されるため、当該完全単語のモーラ数８も、モーラ数として計算される。これらモーラ数５、モーラ数８はＲＡＭ１３に保存される。具体的な計算方法の一例について図９を参照して説明する。

図９は、モーラ数計算処理を示すフローチャートである。なお、ステップＳＴ６１からＳＴ６３は上記ＳＴ３１からＳＴ３３と，ＳＴ６７からＳＴ６９はＳＴ３４からＳＴ３６と同様な処理であるため、これらの処理については説明を省略する。

部分単語のモーラ数が計算されると（ＳＴ６１からＳＴ６３）、図８で説明した単語テーブル記憶部１４ｃの単語テーブルを参照することにより、完全単語の候補有りか否かが判断される（ＳＴ６４）。完全単語の候補がなければ（ＳＴ６４でＮＯ）処理を終了する。一方、完全単語の候補有りと判断されると（ＳＴ６４でＹＥＳ）、完全単語の候補数Ｃが変数Ｎに代入される（ＳＴ６５）。そして、変数Ｃが０である否かが判断される（ＳＴ６６）。変数Ｃが０でなければ（ＳＴ６６でＮＯ）、完全単語のモーラ数が計算され（ＳＴ６７からＳＴ６９）、変数Ｃがデクリメントされる（ＳＴ７０）。そして、ステップＳＴ６６の処理へ戻る。ステップＳＴ６６で変数Ｃが０であると（ＳＴ６６でＹＥＳ）、候補となる全ての完全単語のモーラ数が計算されたことになるため処理を終了する。これら計算した部分単語及び複数の完全単語のモーラ数は、ＲＡＭ１３に記憶されフィードバック処理で用いられる。

フィードバック処理は、ＲＡＭ１３に記憶された候補となる複数の完全単語のモーラ数とともに、音声継続時間計算処理（ＳＴ２０）により計算された継続時間を元に、終端位置を推定する処理を行う。音声継続時間計算処理により計算された継続時間長を、モーラ数計算処理で計算された部分単語のモーラ数で割ることにより、１モーラ当たりに要した時間長が算出される。モーラ数計算処理で計算された完全単語のモーラ数に、１モーラ当たりに要した時間長を掛けることにより、完全単語の継続発話長を推定することが出来る。

ただし、本実施の形態では完全単語が複数存在するため、複数個の完全単語の継続発話長を計算する。実際、本実施の形態において、「は／」に要した時間が（ｅ-ｓ）ｍｓ、モーラ数１により、１モーラ当たり（ｅ-ｓ）ｍｓの時間を要し、完全単語である「はんばーぐ」についてはモーラ数５であることにより、実際は５×（ｅ-ｓ）ｍｓ時間、発話の長さがあると推測出来る。一方、完全単語のもう一つの候補である「はんばーぐせっと」については、モーラ数７であるから、実際は７×（ｅ-ｓ）ｍｓ時間、発話の長さがあると推測出来る。従って、正しい終端位置の候補として、ｅ１＝｛５×（ｅ-ｓ）+ｓ｝ｍｓ及びｅ２＝｛７×（ｅ-ｓ）＋ｓ｝ｍｓの２つが算出される。その算出された２つの音声の終端位置はＲＡＭ１３に保存される。具体的な計算方法の一例を、図１０を参照して説明する。

図１０は、フィードバック処理の具体例を示すフローチャートである。なお、ステップＳＴ８１，ＳＴ８３，ＳＴ８４の処理は、上記ステップＳＴ５１，ＳＴ５２，ＳＴ５３とそれぞれ同様である。１モーラあたりの継続時間を求めると（ＳＴ８１）、完全単語の候補有りか否かが判断され（ＳＴ８２）、完全単語の候補有りと判断されると（ＳＴ８２でＹＥＳ）、発話の長さが計算され（ＳＴ８３）、正しい終端位置が計算される（ＳＴ８４）。このように正しいと推定される終端位置が計算されると、ステップＳＴ８２の判断が再び行われる。これにより、複数の完全単語の候補について終端位置が計算される。そして、計算された終端位置ｅ１、ｅ２は、ＲＡＭ１３に保存される。

そして、音声検出処理はフィードバック処理によりＲＡＭ１３に保存された複数の正しいと推測される終端位置ごとに音声区間を切り出し、音声認識処理は切り出した音声区間によりそれぞれ音声認識を行うことができる。

音声認識処理では、終端位置の候補ｅ１及びｅ２それぞれで音声認識を行う。始端位置ｓから終端位置ｅ１ではユーザ発声の「はんばーぐ」を認識結果として得られるが、始端位置ｓから終端位置ｅ１ではユーザ発声に「セット」が含まれないため、認識結果が「はんばーぐセット」にはならない。

したがって、この第２の実施の形態の音声検出装置によると、部分単語から推測される完全単語が複数個ある場合でも、撥音が含まれた「はんばーぐ」を正確に検出することができ、かつ従来の音声検出よりも計算時間を短縮することが出来る。

上述した実施の形態では装置内部に発明を実施する機能が予め記録されている場合で説明したが、これに限らず同様の機能をネットワークから装置にダウンロードしても良いし、同様の機能を記録媒体に記憶させたものを装置にインストールしても良い。記録媒体としては、ＣＤ−ＲＯＭ等プログラムを記憶でき、かつ、装置が読取り可能な記録媒体であれば、その形態は何れの形態であっても良い。またこのように、予めインストールやダウンロードにより得る機能は装置内部のオペレーティングシステム（ＯＳ）等と協同してその機能を実現させるものであっても良い。

また、本発明は、上述した実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化でき、また、実施の形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を変形できるものである。

本発明の第１の実施の形態における音声掲出装置を示すブロック図。同実施の形態における標準単語モデルを示す図。同実施の形態における単語テーブルを示す図。同実施の形態における処理を示すフローチャート。同実施の形態におけるモーラ数計算処理を示すフローチャート。同実施の形態における音声継続時間計算処理を示すフローチャート。同実施の形態におけるフィードバック処理を示すフローチャート。本発明の第２の実施の形態における単語テーブルを示す図。同実施の形態におけるモーラ数計算処理を示すフローチャート。同実施の形態におけるフィードバック処理を示すフローチャート。

符号の説明

１１…ＣＰＵ、１２…ＲＯＭ、１３…ＲＡＭ、１４…ＨＤＤ、１４ａ…標準モデル記憶部、１４ｂ，１４ｃ…単語テーブル記憶部、ＳＴ１９…モーラ数計算手段，ＳＴ２０…音声継続時間計算手段，ＳＴ２１…フィードバック手段

Claims

音声入力手段によって取り込まれた入力信号を一定時間ごとに音響分析して音声の特徴ベクトルを求める音声分析手段で求められた音声の特徴ベクトルを用いて音声の始端及び終端を検出する音声検出手段と、
この音声検出手段で音声区間の始端が検出されてから終端が検出されるまでの間、前記音声分析手段で算出された特徴ベクトルと予め各単語の標準モデルの各状態と認識単位とを関連付けて格納した標準モデル記憶手段に格納してある標準モデルとから累積尤度を算出する音声認識手段と、
前記音声検出手段で音声区間の終端が検出されたときに、最大尤度となる単語又は部分単語の中に促音又は撥音を最終の認識単位とする部分単語が含まれていたら前記検出された終端は非音声区間を終端と誤検出されたものと判定する音声区間検証手段とを備えた音声検出装置において、
促音又は撥音を最終の認識単位とする最大尤度の部分単語及び該当部分単語を含む完全単語についてモーラ数を計算するモーラ数計算手段と、
前記音声検出手段で検出された始端と終端から音声区間の継続時間である音声継続時間を計算する音声継続時間計算手段と、
前記音声区間検証手段で終端を誤検出したと判断された場合、前記音声継続時間算出手段から算出された音声継続時間を前記モーラ数計算手段から算出された部分単語のモーラ数で割ることにより１モーラ当たりの時間長を算出し、前記モーラ数計算手段から算出された前記完全単語のモーラ数に前記１モーラ当たりの時間長を掛けることにより前記完全単語の継続発音長を推定し、前記音声検出手段で検出された始端から前記継続発音長が経過した位置として前記完全単語に関する前記音声検出手段が検出すべき前記音声区間の終端を計算するフィードバック手段とを備えたことを特徴とする音声検出装置。
前記モーラ数計算手段は、複数の完全単語のモーラ数を計算し、
前記フィードバック手段は、前記モーラ数計算手段から算出された前記複数の完全単語のそれぞれのモーラ数に前記１モーラ当たりの時間長を掛けることにより前記複数の継続発音長を推定し、前記音声検出手段で検出された始端から前記複数の継続発音長がそれぞれ経過した位置として前記音声検出手段が検出すべき音声区間の終端の候補を複数計算することを特徴とする請求項１に記載の音声検出装置。
コンピュータに、
入力信号を一定時間ごとに音響分析して音声の特徴ベクトルを求めさせる音声分析機能で求めさせた音声の特徴ベクトルを用いて音声の始端及び終端を検出させる音声検出機能と、
この音声検出機能で音声区間の始端が検出されてから終端が検出されるまでの間、前記音声分析機能で算出された特徴ベクトルと、予め各単語の標準モデルの各状態と認識単位とを関連付けて格納した標準モデル記憶手段に格納してある標準モデルとから累積尤度を算出させる音声認識機能と、
前記音声検出機能で音声区間の終端が検出されたときに、最大尤度となる単語又は部分単語の中に促音又は撥音を最終の認識単位とする部分単語が含まれていたら前記検出された終端は非音声区間を終端と誤検出されたものと判定させる音声区間検証機能と、
促音又は撥音を最終の認識単位とする最大尤度の部分単語及び該当部分単語を含む完全単語についてモーラ数を計算させるモーラ数計算機能と、
前記音声検出機能で検出させた始端と終端から音声区間の継続時間である音声継続時間を計算させる音声継続時間計算機能と、
前記音声区間検証機能で終端を誤検出したと判断させた場合、前記音声継続時間算出手段から算出された音声継続時間を前記モーラ数計算機能で算出させた部分単語のモーラ数で割ることにより１モーラ当たりの時間長を算出し、前記モーラ数計算機能から算出された前記完全単語のモーラ数に前記１モーラ当たりの時間長を掛けることにより前記完全単語の継続発音長を推定し、前記音声検出機能で検出された始端から前記継続発音長が経過した位置として前記完全単語に関する前記音声検出手段が検出すべき前記音声区間の終端を計算させるフィードバック機能とを実現させる音声検出プログラム。
前記モーラ数計算機能を、複数の完全単語のモーラ数を計算するものとし、
前記フィードバック機能を、前記モーラ数計算から算出された前記複数の完全単語のそれぞれのモーラ数に前記１モーラ当たりの時間長を掛けることにより前記複数の継続発音長を推定し、前記音声検出機能で検出された始端から前記複数の継続発音長がそれぞれ経過した位置として前記音声検出機能が検出すべき音声区間の終端の候補を複数計算するものとする請求項３に記載の音声検出プログラム。