JPH06118990A

JPH06118990A - ワードスポッティング音声認識装置

Info

Publication number: JPH06118990A
Application number: JP4264874A
Authority: JP
Inventors: Mikio Kitai; 幹雄北井; Akihiro Imamura; 明弘今村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1992-10-02
Filing date: 1992-10-02
Publication date: 1994-04-28

Abstract

(57)【要約】【目的】不正解候補の湧き出しおよび正解候補の脱落
を防止する。【構成】認識尤度計算部９から出力される認識候補に
対して、認識候補の始端位置の音声区間判定部３により
判定された音声信号区間の始端位置に対する時間的な早
さが予め設定されている許容時間より大きいか、或は認
識候補の終端位置の音声区間判定部により判定された音
声信号区間の終端位置に対する時間的な遅さが予め設定
されている許容時間より大きいか、或は認識候補の始端
位置が音声区間判定部３により判定された音声信号区間
の終端位置より時間的に遅いか或は認識候補の終端位置
が音声区間判定部３により判定された音声信号区間の始
端位置より時間的に早い場合は、当該認識候補のリジェ
クトを行なう候補リジェクト部１５を具備するワードス
ポッティング音声認識装置。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、ワードスポッティン
グ音声認識装置に関し、特に、連続的に発声された音声
の音声区間中のどの位置にどれ位の確からしさで予め記
憶登録された単語が含まれるているかということを認識
するワードスポッティング技術において、認識の精度を
向上させるワードスポッティング音声認識装置に関す
る。

【０００２】

【従来の技術】ワードスポッティング技術は音声認識に
おける背景雑音、余剰語の付与による音声区間検出誤り
に対処するための解決策として注目されている技術であ
るが、近年は更に連続的に発声された音声から複数キー
ワードを検出してキーワードの連鎖による意味理解を行
なう試みにも応用されている。

【０００３】しかし、ワードスポッティング技術は不正
解候補の湧き出し（始端或は終端の誤った候補が検出さ
れること）、正解候補の脱落が生じ、これらが認識率を
劣化せしめる原因となっている。不正解候補の湧き出し
は、ワードスポッティング処理が入力音声の現時点を終
端として各認識対象単語に対する認識尤度最大の始点を
求めるものであるところから、根本的に避けられない問
題である。従来、この不正解候補の湧き出しに対して
は、認識候補の認識尤度にしきい値を設定すると共に、
単語長に許容範囲を設け、しきい値以下または許容範囲
外の候補をリジェクトすることで対処している。ここ
で、認識尤度のしきい値、単語長の許容範囲の設定は、
例えば学習外データによる各認識対象単語の認識実験時
の認識尤度、単語長の統計データにより決定することが
多い。しかし、認識尤度に対するしきい値、単語長の許
容範囲を適切に設定することは、これらの値が話者毎お
よび発声毎に、或は発声環境毎にかなり変動するので、
一般に困難なこととされている。

【０００４】また、正解候補の脱落は、ワードスポッテ
ィング処理は上述した通り入力音声の現時点を終端とし
て各認識対象単語に対する認識尤度最大の始点を求める
ものであるところから、候補のパス選択において認識開
始時点から現時点までの各分析単位時間毎に、その時点
毎の最適なパス選択をしてもその結果が必ずしも最終的
に最適なものになっていないために発生する。勿論、入
力音声中におけるすべての部分音声区間において各認識
対象単語の認識尤度を求めればこのような脱落は発生し
ないのであるが、この様にすると計算時間が膨大となっ
て現実的ではない。従来、この正解候補脱落の防止には
パスの候補を複数残しておく方法が考えられているが、
残すパスの候補を増加すると計算量の大幅な増加を招く
し、残すパスの候補を少なくすると効果も減少するとい
う問題がある。

【０００５】

【発明が解決しようとする課題】認識誤りについて解決
しなければならない問題点は、上述の通りの、誤った音
声区間における不正解候補の湧き出し（これには正解候
補の音声区間を含まないもの（Ａ−１）と、含むもの
（Ａ−２）とがある）、部分的にマッチングしている不
正解候補の湧き出し（Ｂ）、正しい位置における正解候
補の脱落（Ｃ）の３点である。

【０００６】図１は「１１時２０分」と発声した場合の
ワードスポッティング認識結果の誤りの例を示す図であ
る。図１の（Ａ−１）の候補は正解候補の音声区間を含
まない湧き出し候補の例である。図１の（Ａ−２）の候
補は正解候補の音声区間を含む湧き出し候補の例であ
る。そして、（Ｂ）の候補は正解候補に部分的にマッチ
ングし、正解候補より良い認識尤度で検出された湧き出
し候補の例である。

【０００７】また、破線の区間により示される（Ｃ）
は、「２０分」と発声された区間において検出されなか
った脱落候補の例である。これらの内の部分的にマッチ
ングしている不正解候補の湧き出しについての対策は特
願平２−２３４７４５および文献「部分マッチングを考
慮したワードスポッティング音声認識の検討（北井、今
村、音響学会講演論文集、２−８−９、ｐｐ．６３−６
４、１９９０年９月）」に報告されているので、この発
明は、誤った音声区間における不正解候補の湧き出し、
および正しい位置における正解候補の脱落に着目してこ
れに対処しようとするものである。

【０００８】不正解候補の湧き出し、および正解候補の
脱落に根本的に対処するには、前者に対しては例えばガ
ーベージモデルを導入することが必要であり、後者に対
してはスポッティングアルゴリズムそのものの改良が必
要である。しかし、この発明は、不正解候補の湧き出し
には音声区間検出情報の利用による検出区間誤り候補の
リジェクト手段、および複数の候補間の位置関係の矛盾
による棄却ルール手段を採用し、正解候補の脱落には部
分的な再認識処理を行なう手段を採用することによりこ
れらの問題を解消したワードスポッティング音声認識装
置を提供するものである。

【０００９】

【課題を解決するための手段】認識処理の対象となる単
語の指定、指定解除を個々の単語に対して独立に実施す
る認識対象設定部６、７を具備し、入力信号の分析を行
ない認識尤度計算用の特微量および音声区間検出用の特
微量を計算する音声分析部２を具備し、音声分析部にお
いて計算された音声区間検出用の特微量に基づいて入力
信号区間における音声信号区間の始端位置および終端位
置を判定する音声区間判定部３を具備し、音声分析部に
おいて計算された認識尤度計算用の特微量を記憶する尤
度計算用特微量記憶部５を具備し、音声分析部２におい
て計算された認識尤度計算用の特微量或は尤度計算用特
微量記憶部５に記憶されている任意の入力区間に対応す
る認識尤度計算用の特微量と、入力信号の任意の部分的
信号区間において認識対象設定部６、７により指定され
た認識対象単語とに基づいて、認識尤度を計算し、認識
結果として単語毎に予め設定されているしきい値以上の
認識尤度を持ち、候補の区間長が単語毎に予め設定され
ている範囲の長さ内である認識候補の認識単語番号、認
識尤度、および入力信号区間におけるスポッティングさ
れた始端位置および終端位置を出力する認識尤度計算部
９を具備するワードスポッティング音声認識装置におい
て、更に認識尤度計算部９から出力される認識候補に対
して、認識候補の始端位置の音声区間判定部３により判
定された音声信号区間の始端位置に対する時間的な早さ
が予め設定されている許容時間より大きいか、或は認識
候補の終端位置の音声区間判定部により判定された音声
信号区間の終端位置に対する時間的な遅さが予め設定さ
れている許容時間より大きいか、或は認識候補の始端位
置が音声区間判定部により判定された音声信号区間の終
端位置より時間的に遅いか或は認識候補の終端位置が音
声区間判定部により判定された音声信号区間の始端位置
より時間的に早い場合は、当該認識候補のリジェクトを
行なう候補リジェクト部１５を具備することを特徴とす
るワードスポッティング音声認識装置を構成した。

【００１０】そして、候補リジェクト部は、認識候補Ｃ
ｉの認識尤度が予め設定されているしきい値以上であ
り、その認識候補Ｃｉと同一単語であって認識尤度差が
予め設定されているしきい値以内の認識候補Ｃｊがあ
り、これらの始端位置同士の時間的なずれと終端同士の
時間的なずれとが、一方のずれが予め定められた時間以
内にあり他方のずれが予め定められた時間以内にない場
合、予め設定されている時間以上のずれの方の位置（始
端位置或は終端位置）を認識候補Ｃｉと認識候補Ｃｊで
入れ替える手段より成る、ものであるワードスポッティ
ング音声認識装置を構成した。

【００１１】また、候補リジェクト部は、複数キーワー
ドが入力され、認識尤度が予め定められているしきい値
より高い認識候補Ｃが属するキーワードをＫｉとした
時、キーワードＫｉに後続するキーワードＫｊの認識候
補の始端位置が、キーワードＫｉに属する認識候補中の
認識候補Ｃとの間の認識尤度差が予め設定されている値
以下の認識候補の中の最も時間的に早い始端位置より、
時間的に更に前にあるか、或は予め定められている時間
以内遅い場合はこの候補をリジェクトする手段、および
キーワードＫｉに先行するキーワードＫｈの認識候補の
終端位置が、キーワードＫｉに属する認識候補中の認識
候補Ｃとの間の認識尤度差が予め設定されている値以下
の認識候補の中の最も時間的に遅い終端位置より、時間
的に更に後ろにあるか、或は予め定められている時間以
内早い場合はこの候補をリジェクトする手段より成る、
ワードスポッティング音声認識装置をも構成した。

【００１２】更に、複数キーワードが入力され、隣接す
るキーワードＫｉ、Ｋｊについて、キーワードＫｉがキ
ーワードＫｊに先行し、キーワードＫｉに属する認識候
補中の最も高い認識尤度Ｌｉが予め定められているしき
い値より高く、キーワードＫｊに属する認識候補中の最
も高い認識尤度Ｌｊも予め定められているしきい値より
高く、キーワードＫｉに属する認識候補中の認識尤度Ｌ
ｉとの間の認識尤度差が予め設定されているしきい値以
下である認識候補の始端位置および終端位置について、
時間的に最も早い始端位置および終端位置をそれぞれＰ
１、Ｐ２とし、更にキーワードＫｊに属する認識候補中
の認識尤度Ｌｊとの間の認識尤度差が予め設定されてい
るしきい値以下である認識候補の始端位置および終端位
置について、時間的に最も遅い始端位置および終端位置
をそれぞれＰ３、Ｐ４とした場合、位置Ｐ１と位置Ｐ３
との間の区間における認識尤度計算をキーワードＫｉに
属する認識対象単語に対して行なうと共に、位置Ｐ２と
位置Ｐ４との間の区間における認識尤度計算をキーワー
ドＫｊに属する認識対象単語に対して行なって、その認
識結果を追加する手段、を具備するワードスポッティン
グ音声認識装置を構成した。

【００１３】

【実施例】この発明の実施例を説明するに先立って、こ
の発明を理解するに必要とされる次の４つの処理技術、
即ち、音声区間検出情報を利用する検出区間誤り候補の
リジェクト処理、複数の候補間の位置関係の矛盾による
棄却ルールにより湧き出し候補をリジェクトする処理、
始端位置または終端位置がずれている候補の位置の補正
をその候補と字面が同じである下位の候補の始端位置お
よび終端位置を参照して行なう手段、および正解候補の
脱落に対する部分的な再認識処理を実施する手段につい
て予め説明しておく。

【００１４】（その１）先ず、音声区間検出情報を利用
する検出区間誤り候補のリジェクト処理について説明す
る。音声区間検出の一般的な方法については、「音声認
識」（新見著、共立出版、ｐｐ．６８から６９）に示さ
れる様な音声パワーに対する２つのしきい値を使用する
方法がある。

【００１５】ここで、認識尤度順にｋ番目（ｋ＝１、
２、・・・：認識結果数）の認識候補をｗｋとし、ｗｋ
に対する音声区間と候補のスポッティング区間の重なり
時間をＣｐ（ｗｋ）、音声区間の始端位置と候補のスポ
ッティング区間の始端位置との間の時間差をＤｓ（ｗ
ｋ）、音声区間の終端位置と候補のスポッテンィグ区間
の終端位置との間の時間差をＤｅ（ｗｋ）とし、その時
のこの候補の誤り率をＲｅ（ｗｋ）と表す。更に、入力
音声区間の始端時間をＴｓ（０）、終端時間をＴｅ
（∞）とし、ｗｋのスポッティング区間の始端時間をＴ
ｓ（ｗｋ）、終端時間をＴｅ（ｗｋ）とした場合、Ｃｐ
（ｗｋ）、Ｄｓ（ｗｋ）、Ｄｅ（ｗｋ）はそれぞれ以下
の式で与えられる。 CP(WK)=0 ・・・［1 ］Te(WK)≦Ts(0) or Ts
(WK) ≧Te( ∞) ならば Te(WK)-Ts(0) ・・・［2 ］Ts(WK)≧Ts(0) and Te(WK)≦T
e( ∞) ならば Te(∞)-Ts(0) ・・・［3 ］Ts(WK)≦Ts(0) and Te(WK)≧T
e( ∞) ならば Te(WK)-Ts(0) ・・・［4 ］Ts(0) ＞Ts(wk) and Te(∞)
＞Te(wk)ならば Te(∞)-Te(wk)・・・［5 ］Ts(0) ＜Ts(wk) and Te(∞)
＜Te(wk)ならばただし、［4 ］および［5 ］は［1 ］、［2 ］、［3 ］
の何れでもない場合であって、この条件が満足された場
合に上記の様な値に設定される。

【００１６】Ｄｓ（Ｗｋ）＝Ｔｓ（０）−Ｔｓ（Ｗｋ）Ｄｅ（Ｗｋ）＝Ｔｅ（Ｗｋ）−Ｔｅ（∞）この時、Ｗｋの誤り率Ｒｅ（Ｗｋ）は、Ｃｐ（Ｗｋ）、
Ｄｓ（Ｗｋ）、Ｄｅ（Ｗｋ）により例えば以下の様に決
定され、Ｒｅ（Ｗｋ）が１の時、候補Ｗｋはリジェクト
される。条件１）Ｃｐ（Ｗｋ）が０ならばＲｅ（Ｗｋ）は１とす
る。条件２）Ｃｐ（Ｗｋ）が非零の場合は、以下の場合にＲ
ｅ（Ｗｋ）を１とする。

【００１７】２−１）Ｄｓ（Ｗｋ）＞０且つＤｓ
（Ｗｋ）＞ＴＨ（Ｄｓ，Ｗｋ）２−２）Ｄｅ（Ｗｋ）＞０且つＤｅ（Ｗｋ）＞ＴＨ
（Ｄｅ，Ｗｋ）但し、ＴＨ（Ｄｓ，Ｗｋ）は、音声区間の始端と候補の
始端の離れに関する候補Ｗｋを誤りと判定するためのし
きい値であり、同様にＴＨ（Ｄｅ，Ｗｋ）は音声区間の
終端と候補の終端の離れに関する候補Ｗｋを誤りと判定
するしきい値である。

【００１８】このしきい値ＴＨ（Ｄｓ，Ｗｋ）、ＴＨ
（Ｄｅ，Ｗｋ）は、例えば学習外データによる各認識対
象単語の認識実験時の音声区間の始端、終端位置、およ
び認識候補の始端、終端位置に関する上記データＣｐ
（Ｗｋ）、Ｄｓ（Ｗｋ）、Ｄｅ（Ｗｋ）の統計データに
より決定する。データはＷｋが最も高い認識尤度で認識
された場合のデータの組みＣｐ（Ｗｋ）、Ｄｓ（Ｗ
ｋ）、Ｄｅ（Ｗｋ）の内の条件２−１）または条件２−
２）に相当するデータＤｓ（Ｗｋ）、Ｄｅ（Ｗｋ）の平
均値および標準偏差を算出し、例えばＤｓ（Ｗｋ）、Ｄ
ｅ（Ｗｋ）の平均値に標準偏差の３倍を加えたものを、
それぞれしきい値ＴＨ（Ｄｓ，Ｗｋ）、ＴＨ（Ｄｅ，Ｗ
ｋ）とする。

【００１９】（その２）次に、複数の候補間の位置関係
の矛盾による棄却ルールにより湧き出し候補をリジェク
トする処理について説明する。これは、誤った音声区間
における候補の湧き出しの内の正解候補の音声区間を含
まないもののリジェクト処理である。この処理は、複数
の単語を入力する場合に、その単語の入力順序がある一
定のルールに従うと仮定できる場合に有効である。例を
あげると、時刻を発声する場合は、通常は「何時何分」
と発声する。この場合、一般に「何時」の認識候補と
「何分」の認識候補の位置関係は、「何時」の候補が必
ず「何分」の候補より時間的に前に存在するといえる。
この様な関係を使用して、例えば「何時」の候補が上が
るべき位置において検出される「何分」の候補をリジェ
クトする。

【００２０】このリジェクト処理は、一般的には下記の
１）、２）の如くに実施される。１）第ｋ番目のキーワードの認識候補の始端が、第ｋ
−１番目のキーワードの認識候補の上位候補中の最も時
間的に早い始端より、時間的に前にあるか、または予め
定めた時間η〔ｋ−１，ｋ〕以内遅いならこの候補をリ
ジェクトする。ここで、ηｋ〔ｋ−１，ｋ〕はｋ−１番
目のキーワードと第ｋ番目のキーワードの位置関係か
ら、第ｋ番目のキーワードの認識候補をリジェクトする
ためのしきい値である。但し、このリジェクト処理はｋ
−１番目のキーワード中の１位認識候補の認識尤度があ
る決められたしきい値より低い場合は行なわない。ｋ−
１番目のキーワードの上位候補とは、ｋ−１番目のキー
ワード中の第１位候補との認識尤度差があらかじめ設定
した値以下のものを意味する。

【００２１】２）第ｋ番目のキーワードの認識候補の
終端が、第ｋ＋１番目のキーワードの認識候補の上位候
補中の最も時間的に遅い始端より、時間的に後ろにある
か、または予め定めた時間θ〔ｋ，ｋ＋１〕以内早いな
ら、この候補をリジェクトする。ここで、θｋ〔ｋ，ｋ
＋１〕はｋ番目のキーワードと第ｋ＋１番目のキーワー
ドの位置関係から、第ｋ番目のキーワードの認識候補を
リジェクトするためのしきい値である。ただし、このリ
ジェクト処理はｋ＋１番目のキーワード中の１位認識候
補の認識尤度がある決められたしきい値より低い場合は
行なわない。また、ｋ＋１番目のキーワードの上位候補
とは、ｋ＋１番目のキーワード中の第１位候補との認識
尤度差が予め設定した値以下のものを意味する。

【００２２】但し、ここで、しきい値η［ｋ−１、ｋ］
（θｋ［ｋ、ｋ＋１］）は例えば第ｋ＋１（ｋ−１）番
目のキーワードの認識対象単語のうち最も平均単語長が
短い単語を、発声した場合の最小の単語長の半分程度に
設定する。また、上記処理を行なうか否かを判定するた
めのｋ−１（ｋ＋１）番目のキーワード中の１位認識候
補の認識尤度に対するしきい値は、例えばこの認識候補
を発声して認識した場合に１位候補として認識された場
合の認識尤度の統計量である平均値、標準偏差より、平
均値から標準偏差を１倍したものを引いた値程度に設定
する。また、上位候補として扱われる単語は、１位の候
補が不正解で、２位以下の候補が正解であった場合の１
位候補と正解候補との認識尤度差の統計データから例え
ばその平均程度に設定される。なお、この場合の２位以
下の候補の探索範囲は有限のＮ位（例えば５位までと
か）までに限定するのが妥当であると考えられる。

【００２３】（その３）次に、始端位置または終端位置
がずれている候補の位置の補正を、その候補と字面が同
じである下位の候補の始端位置および終端位置を参照し
て行なう手段について説明する。これは、誤った音声区
間での候補の湧き出しの内の正解候補の音声区間を含む
ものに関する修正処理であり、各認識候補に対してその
認識尤度の高い順に各認識対象単語に対して１回のみ以
下の処理を行なう処理である。

【００２４】即ち、認識候補Ｃｉの認識尤度が予め設定
されているしきい値以上の場合、その認識候補Ｃｉと全
く字面が同じで、且つ認識尤度差が予め設定されている
しきい値以内の認識候補Ｃｊがある場合、その始端位置
同士の時間的なずれと終端位置同士の時間的なずれが、
一方のずれが予め定められた時間以内にあり一方のずれ
が予め定められた時間以内でない場合に、予め設定され
た時間以上のずれの方の位置（始端位置或は終端位置）
を認識候補Ｃｉと認識候補Ｃｊで入れ替える処理を実施
する。

【００２５】これにより、図１に示される（Ａ−２）の
候補の始端位置または終端位置が下位の正しい候補のも
のに修正される。（その４）最後に、正解候補の脱落に対する部分的な再
認識処理を実施する手段について説明する。

【００２６】この処理は、一般的に有効な手段と、上述
された（その２）の場合と同じく複数の単語を入力する
場合であって、その単語の入力順序がある一定のルール
に従うものと仮定することができる場合に有効な手段の
２通りある。先ず、一般的な手段は、簡単に言えば音声
区間判定部３で判定された音声信号の始端位置と終端位
置とにより定められた区間において、認識尤度計算を行
なってその結果を先の認識結果に加えるである。実際に
再認識される区間は、音声信号の始端位置より少し早い
時点から音声信号の終端時点より少し遅い時点までの区
間となり、前後への増加幅は例えば上述された（その
１）の処理のＴＨ｛Ｄｓ、ｗｋ｝の最大値、ＴＨ｛Ｄ
ｅ、ｗｋ｝の最大値が設定される。

【００２７】次に、上述された（その２）の場合と同じ
く複数の単語を入力する場合で、且つその単語の入力順
序がある一定のルールに従うものと仮定することができ
る場合に有効な手段の説明をする。例えば「何時何分」
型の場合を例にとると、この手段は「何時」の候補の終
端を始点とし、「何分」の候補の終端を終点とした区間
で「何分」の候補の再認識処理を行ない、且つ「何時」
の候補の始端を始点とし、「何分」の候補の始端を終点
とした区間で「何時」の候補の再認識処理を行なうこと
により、脱落していた正解候補を検出しようとするもの
である。

【００２８】以下、この処理について説明する。各キー
ワードに属する認識対象単語について、以下の範囲にお
いて認識尤度計算をやり直し、その結果得られる認識候
補を認識結果として追加する構成を具備する。即ち、先
行するキーワードを持つキーワードに属する認識対象単
語に対して、一つ前に先行するキーワードに属する上位
候補の終端位置の内の時間的に最も早いものを再認識開
始位置とし、着目するキーワードの上位候補の終端位置
の内の時間的に最も遅い終端位置から予め設定されてい
る時間遅い位置を再認識終了位置とする。

【００２９】ただし、このリジェクト処理は着目するキ
ーワード、先行するキーワードそれぞれに属する認識候
補中の最も高い認識尤度が予め設定されているしきい値
より低い場合は実施しない。また、着目するキーワー
ド、先行するキーワードそれぞれの上位候補とは、キー
ワード中の最大認識尤度との間の認識尤度差が予め設定
されている値以下のものを意味する。

【００３０】更に、後続するキーワードを持つキーワー
ドに属する認識対象単語に対して、一つ後ろに後続する
キーワード中の上位候補の始端位置の内の時間的に最も
遅いものを再認識終了位置とし、着目するキーワードの
上位候補の始端位置の内の時間的に最も早い始端位置か
ら予め設定されている時間早い位置を再認識開始位置と
する。

【００３１】ただし、このリジェクト処理は着目するキ
ーワード、後続するキーワードそれぞれに属する認識候
補中の最も高い認識尤度が予め設定されているしきい値
より低い場合は実施しない。また、着目するキーワー
ド、後続するキーワードそれぞれの上位候補とは、キー
ワード中の最大認識尤度との間の認識尤度差が予め設定
されている値以下のものを意味する。なお、ここにおけ
るしきい値は（その２）のしきい値と同様に設定され
る。

【００３２】ここで、図２を参照してこの発明の実施例
を説明する。１は制御部であり、図２に示される各部に
接続してこの発明のワードスポッティング音声認識装置
を音声認識装置として動作させるものである。上位ＷＳ
（ＷｏｒｋＳｔａｔｉｏｎ）を介して認識辞書その他
の各種データファイルを所定の記憶部にロードしたり、
上位ＷＳから認識開始が指定されたら入力信号の分析を
開始し、認識処理を行ない、認識結果を上位ＷＳに通知
するまでの一連の処理を実施する。

【００３３】２は音声分析部であり、入力された信号を
分析して、音声パワー情報その他の音声区間検出のため
の特徴量を算出したり、認識尤度計算用の特徴量を算出
するものである。３は音声区間判定部であり、音声分析
部２において算出された音声区間検出のための特徴量に
より音声区間の判定を行なうものである。

【００３４】４は音声区間記憶部であり、音声区間判定
部３において判定された音声区間の始端位置および終端
位置と、入力信号の最終位置を記憶する。５は尤度計算
用特徴量記憶部であり、音声分析部２において算出され
た認識尤度計算用の特徴量を記憶するものである。６は
認識辞書記憶部であり、尤度計算用特徴量記憶部５に記
憶される特徴量から各認識対象単語の認識尤度を算出す
るに使用される各認識対象単語に対する認識用データを
記憶するものである。

【００３５】７は認識対象単語記憶部であり、今回の認
識処理において認識対象となる単語の内容、例えば単語
番号を記憶するものである。８は認識対象区間記憶部で
あり、尤度計算用特徴量記憶部５に記憶される尤度計算
用特徴量の部分的な区間で、認識対象単語記憶部７で認
識対象として設定された単語の部分集合またはそれ以外
の単語を認識対象として、認識尤度の算出処理を行なう
ための、部分的な区間の始端位置および終端位置、認識
対象単語に関する情報を記憶する。

【００３６】９は認識尤度計算部であり、尤度計算用特
徴量記憶部５に記憶された入力信号に対する認識尤度計
算用の特微量と認識対象単語記憶部７において指定され
た認識対象単語に対応する認識辞書記憶部６の認識デー
タとから、入力信号の現時点を終端と仮定した場合の各
認識対象単語に対する認識尤度最大の始端を求め、その
認識尤度が単語毎に予め設定されたしきい値以上で、且
つ候補の区間長も単語毎に予め設定した範囲の長さ以内
である場合、認識候補の認識単語番号、認識尤度および
入力信号区間におけるスポッティングされた始端位置、
終端位置を認識結果一時記憶部１０に出力する。ここ
で、１０は認識尤度計算部９から出力される認識結果デ
ータを一時的に記憶する認識結果一時記憶部である。こ
の処理は２つのモードを持つ。その内の一つは入力信号
に対して音声分析部２から分析単位毎に尤度計算用特徴
量記憶部５に特微量が記録される度毎に認識尤度を計算
するモードであり、他の一つは分析が終了後の任意の時
点において尤度計算用特徴量記憶部５の特微量の任意の
区間を対象として認識尤度を計算するモードである。後
者のモードにおいては、認識対象区間記憶部８に記憶さ
れている処理の開始位置、終了位置、認識対象単語を参
照して認識尤度計算が行なわれる。

【００３７】１１は候補リジェクト部であり、認識結果
一時記憶部１０に記憶された認識候補の正誤の判定を、
音声区間記憶部４に記憶された音声区間の始端位置およ
び終端位置と、認識候補の始端位置および終端位置とを
比較することにより行ない、誤りと判定した場合に認識
候補をリジェクトし、リジェクトされなかった認識候補
のデータを認識結果記憶部１２に追加する。

【００３８】１２は認識結果記憶部であり、各認識候補
の単語番号、認識尤度、始端位置および終端位置、認識
確度の順位、およびこの単語が属するキーワード番号を
記憶する。この記憶部１２のデータは認識開始時にデー
タ数０にリセットされ、候補リジェクト部１１から送り
込まれたデータは常に追加という形で記憶される。１３
はキーワード情報記憶部であり、入力信号中に含まれる
キーワード数、キーワード出現順位、各キーワードが隣
接する場合の位置上の重なりおよび離れの許容差、およ
び各キーワードに属する認識対象単語番号を記録する。

【００３９】１４はラベリング、ソーティング処理部で
あり、認識結果記憶部１２の認識データを認識尤度の高
い順に確度が高いものと評価して順位付けすると共に、
各認識データが属するキーワードの番号を付与するもの
である。１５は区間誤り候補リジェクト部であり、認識
結果記憶部１２の各認識データに対してその認識候補が
属するキーワードと前後のキーワードの位置関係からそ
の候補の正否を判断し、不正解と判断した場合に当該候
補のリジェクトを行なうものである。

【００４０】１６は再認識区間決定部であり、認識結果
記憶部１２に記憶される各キーワードに属する各認識デ
ータの始端位置および終端位置に基づいて各キーワード
に対してもう一度認識尤度計算を行なうべき区間を決定
し、その結果を認識対象区間記憶部８に書き込むもので
ある。１７は区間修正部であり、認識結果記憶部１２に
記憶される各認識データに対して同一の単語番号を持つ
がその始端位置或は終端位置が異なる認識候補の始端位
置或は終端位置を、その始端位置のずれ、終端位置のず
れ、認識尤度および認識尤度差を参照して修正する。

【００４１】１８は連結候補作成部であり、認識結果記
憶部１２の各認識データおよび、キーワード情報記憶部
１３に記憶されるキーワード数、キーワードの出現順
位、および隣接する各キーワード間の位置上の重なりお
よび離れの許容差に基づいて、例えば島駆動検索方式に
より連結候補の作成を行ない、作成された連結候補を連
結候補記憶部１９に書き込む。ここで、連結候補記憶部
１９の記憶するデータの内容は各キーワードに対する認
識候補の単語番号、認識尤度、始端位置および終端位
置、連結候補としての順位情報および確度である。

【００４２】２０は連結候補評価部であり、連結候補記
憶部１９の記憶する連結候補データの確度を評価して順
位を決定するものであり、確度の評価は例えば各連結候
補を構成する認識候補の認識尤度の総和が考えられる。
２１は認識結果出力部であり、連結候補評価部２０によ
り評価された連結候補の情報を例えば装置上のディスプ
レイ、上位ＷＳの通信ポートを通じて出力するものであ
る。

【００４３】以下、時刻「何時＋何分」を入力する場合
を例としてこの発明の動作処理を具体的に説明する。こ
こで、時刻を１０分単位とし、１２時間制により入力可
能であるものとすると、時刻として音声入力されるキー
ワードは言い直しを許容しない場合は最大３個となり、
第１番目のキーワードは０時から１１時までの「何時」
に相当する単語であり、第２番目のキーワードは０分か
ら５０分までの「何分」に相当する単語であり、そして
出現順位もこの順番とすることができる。

【００４４】音声分析部２は、制御部１から認識開始の
指令が送り込まれると、入力音声信号の分析を開始し、
音声区間検出用の特徴量および認識尤度計算用の特徴量
を算出する。認識開始前に今回認識対象となる単語の認
識辞書データが認識辞書記憶部６にロードされており、
また認識対象となる単語の情報は認識対象単語記憶部７
に記憶されている。時刻を構成する各単語に表１に示さ
れる単語番号およびキーワードが付与されているものと
する。表１単語名単語番号キーワード番号０時１１１時２１２時３１３時４１４時５１５時６１６時７１７時８１８時９１９時１０１１０時１１１１１時１２１０分１３２１０分１４２２０分１５２３０分１６２４０分１７２５０分１８２音声区間判定部３は音声分析部２により算出された音声
区間検出用の特徴量に基づいて入力音声信号中の音声区
間の始端位置および終端位置を判定し、始端位置の情報
および終端位置の情報を音声区間記憶部４に書き込む。

【００４５】認識尤度計算部９は尤度計算用特徴量記憶
部５に書き込まれた分析単位毎の認識尤度計算用特徴量
について、現時点を終端とする認識候補の認識尤度を、
表１の単語に対応する認識辞書記憶部６に記憶されてい
る認識辞書データを使用して計算し、そして認識尤度が
予め決められているしきい値以上であり、且つその単語
長が予め決められている範囲内であれば、これらの結果
を認識結果一時記憶部１０に書き込む。即ち、入力文が
「１１時２０分」であり、その内の「じゅういちじ」ま
で発声終了した時点であるものとすると、この時点にお
ける認識結果一時記憶部１０の記憶内容は図３に示され
る如くになる。

【００４６】図３は「じゅういちじ」まで発声終了した
現時点までに総計５個の候補が検出されたものとしてい
る。即ち、現時点より少し前に「１０分」が２個と「１
０時」が検出され、現時点においては正解候補「１１
時」が認識尤度８９で検出されると共に、その他に「１
１時」の部分単語「１時」も同時に検出されたものとし
ている。

【００４７】この様な尤度計算処理を、音声区間判定部
３において入力音声の終端位置が検出されるまで続け、
最終的には図４に示されるが如き認識結果が認識結果一
時記憶部１０に記憶されることとなる。図４に示される
認識結果一時記憶部１０の内容例は音声区間の終端確定
後に認識処理を中断した場合の例であり、認識尤度が７
０点以上のもののみ記録されている。また、［］内の数
字は認識尤度を示し、（）内の数字は候補の始端位置お
よび終端位置を表す数字であり、これらの数字は分析開
始時点から起算した分析フレーム番号を意味している。
ここにおける分析単位は１２ｍｓｅｃであるものとして
いる。もちろん、音声区間が検出されない場合を考慮
し、ある一定時間αが経過しても入力音声区間の始端位
置が確定できなかった場合はある一定時間βで認識処理
を中断する。また、始端位置が確定後、或る一定時間γ
以上経過しても終端が検出されない場合はその時点で認
識処理を中断する。

【００４８】候補リジェクト部１１は認識結果一時記憶
部１０に記憶された認識候補の始端位置および終端位置
と、音声区間記憶部４に記憶された音声区間の始端位置
および終端位置とを比較して候補のリジェクトの可否を
判定し、リジェクトされなかった候補のデータを認識結
果記憶部１２に書き込む。図４に示される音声区間の例
においては、音声区間の始端位置は２１フレーム目であ
り、終端位置は１５５フレーム目である。ここで、始端
位置が２１フレーム目より５フレーム以上前の候補およ
び終端位置が１５５フレーム目より１０フレーム以上後
ろの候補をリジェクトすると、６フレームを始端位置と
する候補「１０分」および１７１フレームを終端位置と
する候補「１０分」がリジェクトされることとなる。

【００４９】認識結果記憶部１２の認識候補データはラ
ベリング、ソーティング処理部１４により認識尤度順に
並べ変えられると共に、各候補に対して表１に基づいて
キーワードが付与される。図５は候補のリジェクト処理
およびラベリング、ソーティング処理終了後の認識結果
記憶部１２の記憶内容を示す図である。区間誤り候補リ
ジェクト部１５は「何時」の候補としての位置の誤りの
有無、および「何分」の候補としての位置の誤りの有無
を下記の如くに判断して候補のリジェクトの可否を判断
する。ここにおいては、キーワード１の「何時」の候補
が必ずキーワード２の「何分」の候補に先行するものと
している。キーワード１の候補の内の時間的に最も早い
始端位置は２１フレーム目であるので、キーワード２の
候補として許容される始端位置を２１フレーム目に１０
フレーム（単語長が最も短い「２時」の候補の単語長の
約半分）加えた３１フレーム以降とすると始端位置が２
１フレームである候補「１０分」はリジェクトされる。
一方、キーワード２の候補の内の時間的に最も遅い終端
位置は１６２フレームであるので、キーワード１の候補
として許容される終端位置を１６２フレームから２１フ
レーム（単語長が最も短い「２時」の候補の単語長の約
半分）引いた１４１フレーム以前とすると、終端位置が
１５４フレームである候補「１０時」はリジェクトされ
る。

【００５０】再認識区間決定部１６は、認識結果記憶部
１２に記憶される各キーワードの上位候補の位置により
キーワード１およびキーワード２それぞれに対する再認
識処理区間を以下の如くにして決定する。ここで、図５
に記載される候補は上位候補である。即ち、「何時」
「何分」の１位の認識尤度が予め決められているしきい
値より高く、１位候補との間の認識尤度差が予め決めら
れているしきい値より低いものである。

【００５１】キーワード１の候補中の時間的に最も早い
始端位置および終端位置を求める。最も早い始端位置は
２１フレームであり、最も早い終端位置は８１フレーム
である。また、キーワード２の候補中の時間的に最も遅
い始端位置および終端位置を求める。最も遅い始端位置
は１０３フレームであり、最も遅い終端位置は１６２フ
レームである。これらよりキーワード１の再認識処理区
間を２１フレームから１０３フレームとし、キーワード
２の再認識処理区間を８１フレームから１６２フレーム
とする。ただし、一般的にはキーワード１の区間は始端
位置を若干前にずらし、キーワード２の区間は終端位置
を若干後ろにずらすことを行なうのであるが、ここにお
いてはその様にはしていない。求められた再認識区間は
認識対象区間記憶部８に書き込む。

【００５２】認識尤度計算部９は、尤度計算用特微量記
憶部５のデータの内の２１フレームから１０３フレーム
の区間でキーワード１「何時」の尤度計算と８１フレー
ムから１６２フレームの区間でキーワード２「何分」の
尤度計算とを順次に行ない、認識尤度が予め決められた
しきい値以上であって単語長も予め決られた範囲内のも
のを認識結果一時記憶部１０に書き込む。この様に認識
尤度の計算開始位置を実際に「何時」または「何分」が
出現する確率の高い位置に変えることにより、先の認識
処理によっては脱落していた正解候補が検出される可能
性が高くなる。認識結果一時記憶部１０の認識候補デー
タの内の認識結果記憶部１２に存在しないデータのみを
認識結果記憶部１２に追加し、この結果に対して更に、
ラベリング、ソーティング処理部１４が上述と同様の処
理を行なう。

【００５３】今回のこの処理によって期待されること
は、キーワード２に対する８１フレームからの１６２フ
レームの区間の再認識によって、それまで脱落していた
正しい区間を持つ「２０分」の候補が検出されるに到る
ことである。この再認識処理により始端位置９５フレー
ム、終端位置１６５フレーム、認識尤度１１２で「２０
分」の候補が新たに認識結果記憶部１２に追加さるが、
図６にこの時点の認識結果記憶部１２の内容を示す。

【００５４】区間修正部１７により、各認識候補に対し
てその候補と同じ単語番号を持つ一つ下位の候補の始端
位置および終端位置双方のずれを調べ、上位の方の始端
位置または終端位置を以下の如く修正する。なお、図６
に示される同じ単語番号を持つ候補の認識尤度差はすべ
てしきい値以内にあるものとする。また、ずれとして許
容されるフレーム数は５フレームとする。

【００５５】始端位置２１フレーム、終端位置１０６フ
レームの候補「１１時」は、下位の始端位置２１フレー
ム、終端位置８７フレームの候補「１１時」と比較して
始端位置は同一であって許容差内にあるが、終端位置は
１９フレーム遅く、許容差外にある。よって、上位候補
と下位候補の終端位置を認識尤度をそのままにして入れ
替える。また、始端位置７３フレーム、終端位置１５４
フレームの候補「２０分」は、下位の始端位置９５フレ
ーム、終端位置１５６フレームの候補「２０分」と比較
して終端位置は２フレーム差であって許容差内にある
が、始端位置は２２フレーム早く、許容差外にある。よ
って、上位候補と下位候補の始端位置を認識尤度をその
ままにして入れ替える。更に、始端位置１０３フレー
ム、終端位置１６２フレームの候補「１０分」は、下位
の始端位置１０３フレーム、終端位置１５６フレームの
候補「１０分」と比較して始端位置は同一であって許容
差内にあるが、終端位置は６フレーム早く、許容差外に
ある。よって、上位候補と下位候補の終端位置を認識尤
度をそのままにして入れ替える。この処理を行なった後
の認識結果記憶部１２の内容を図７に示す。

【００５６】連結候補作成部１８は、図７に示される認
識結果から「何時」と「何分」とを連結した候補の作成
を行う。即ち、「何時」と「何分」の候補の音声区間の
重なりを或る一定範囲内で許容して「何時」と「何分」
の候補を作成する（候補の作成処理の詳細については特
願平２−９８７２「ワードスポッティング音声認識方
法」参照）。ここで、許容する重なりを５フレーム以内
として全ての連結候補を求めると、その結果は表２に示
される通りとなる。表２の結果が６個のみであるのは同
一意味内容のものは作成しないためである。表２候補番号認識尤度の和キーワード１キーワード２ 1 218 1時, ［103 ］,(43,87) 20分, ［115 ］,(95,154) 2 210 11 時, ［95］,(21,87) 20分, ［115 ］,(95,154) 3 207 10 時, ［92］,(22,81) 20分, ［115 ］,(95,154) 4 213 1時, ［103 ］,(43,87) 10分, ［110 ］,(103,156) 5 205 11 時, ［95］,(21,87) 10分, ［110 ］,(103,156) 6 202 10 時, ［92］,(22,81) 10分, ［110 ］,(103,156) 表２の内容は連結候補記憶部１９に記憶されるのである
が、連結候補評価部２０は表２の結果に対して例えば認
識尤度に着目してその高い順に優先順位を決定し、この
優先順位に基づいて認識結果出力部２１から認識結果を
出力し、或は上位ＷＳに通知する。今回の処理に依って
は「１時２０分」が１位の候補として出力され、正解の
「１１時２０分」は３位の候補として出力されることと
なる。なお、図７に示される部分単語「１時」と複合単
語「１１時」の候補について特願平２−２３４７４５の
「ワードスポッティング音声認識方法」を使用し、２１
フレームから４３フレームの間に部分単語「１時」と複
合単語「１１時」の差分である「じゅう」が或る一定値
以上で認識尤度検出されたならば候補の優先順位を入れ
替える、という処理をすることにより「１１時」が「１
時」より上位の候補であると評価されて連結候補１位は
「１１時」であると正解する可能性が高くなる。

【００５７】

【発明の効果】以上の通りであって、この発明によれ
ば、不正解候補の湧き出し、正解候補の脱落が抑えら
れ、各キーワードの認識率および各キーワードを連結し
て形成される連鎖候補の正解率を向上することができ
る。特に、冗長語が発声されず、音声区間の検出が成功
した場合にこの効果をより多く期待することができる。

【００５８】そして、この発明は、機械への音声入力手
段としてワードスポッティング音声認識方法を採用した
音声対話システムの構築をより容易にするものである。

【図面の簡単な説明】

【図１】不正解候補の湧き出しおよび正解候補の脱落を
説明する図。

【図２】この発明の実施例のブロック図。

【図３】認識結果一時記憶部の記憶内容を示す図。

【図４】認識結果一時記憶部の記憶内容を示す図。

【図５】候補リジェクト処理、ラベリング、ソーティン
グ処理後の認識結果記憶部の記憶内容を示す図。

【図６】再認識処理後の認識結果記憶部の記憶内容を示
す図。

【図７】音声区間修正処理後の認識結果記憶部の記憶内
容を示す図。

【符号の説明】

２音声分析部３音声区間判定部４音声区間記憶部５尤度計算用特微量記憶部６認識辞書記憶部７認識対象単語記憶部８認識対象区間記憶部９認識尤度計算部１０認識結果一時記憶部１１候補リジェクト部１２認識結果記憶部１３キーワード情報記憶部１４ラベリング、ソーティング処理部１５区間誤り候補リジェクト部１６再認識区間決定部１７区間修正部１８連結候補作成部１９連結候補記憶部２０連結候補評価部２１認識結果出力部

Claims

【特許請求の範囲】

【請求項１】認識処理の対象となる単語の指定、指定
解除を個々の単語に対して独立に実施する認識対象設定
部を具備し、入力信号の分析を行ない認識尤度計算用の特微量および
音声区間検出用の特微量を計算する音声分析部を具備
し、音声分析部において計算された音声区間検出用の特微量
に基づいて入力信号区間における音声信号区間の始端位
置および終端位置を判定する音声区間判定部を具備し、音声分析部において計算された認識尤度計算用の特微量
を記憶する尤度計算用特微量記憶部を具備し、音声分析部において計算された認識尤度計算用の特微量
或は尤度計算用特微量記憶部に記憶されている任意の入
力区間に対応する認識尤度計算用の特微量と、入力信号
の任意の部分的信号区間において認識対象設定部により
指定された認識対象単語とに基づいて、認識尤度を計算
し、認識結果として単語毎に予め設定されているしきい
値以上の認識尤度を持ち、候補の区間長が単語毎に予め
設定されている範囲の長さ内である認識候補の認識単語
番号、認識尤度、および入力信号区間におけるスポッテ
ィングされた始端位置および終端位置を出力する認識尤
度計算部を具備するワードスポッティング音声認識装置
において、更に認識尤度計算部から出力される認識候補
に対して、認識候補の始端位置の音声区間判定部により
判定された音声信号区間の始端位置に対する時間的な早
さが予め設定されている許容時間より大きいか、或は認
識候補の終端位置の音声区間判定部により判定された音
声信号区間の終端位置に対する時間的な遅さが予め設定
されている許容時間より大きいか、或は認識候補の始端
位置が音声区間判定部により判定された音声信号区間の
終端位置より時間的に遅いか或は認識候補の終端位置が
音声区間判定部により判定された音声信号区間の始端位
置より時間的に早い場合は、当該認識候補のリジェクト
を行なう候補リジェクト部を具備する、ことを特徴とするワードスポッティング音声認識装置。
【請求項２】請求項１に記載されるワードスポッティ
ング音声認識装置において、候補リジェクト部は認識候
補Ｃｉの認識尤度が予め設定されているしきい値以上で
あり、その認識候補Ｃｉと同一単語であって認識尤度差
が予め設定されているしきい値以内の認識候補Ｃｊがあ
り、これらの始端位置同士の時間的なずれと終端同士の
時間的なずれとが、一方のずれが予め定められた時間以
内にあり他方のずれが予め定められた時間以内にない場
合、予め設定されている時間以上のずれの方の位置（始
端位置或は終端位置）を認識候補Ｃｉと認識候補Ｃｊで
入れ替える手段より成る、ものであることを特徴とする
ワードスポッティング音声認識装置。
【請求項３】請求項１に記載されるワードスポッティ
ング音声認識装置において、候補リジェクト部は複数キ
ーワードが入力され、認識尤度が予め定められているし
きい値より高い認識候補Ｃが属するキーワードをＫｉと
した時、キーワードＫｉに後続するキーワードＫｊの認
識候補の始端位置が、キーワードＫｉに属する認識候補
中の認識候補Ｃとの間の認識尤度差が予め設定されてい
る値以下の認識候補の中の最も時間的に早い始端位置よ
り、時間的に更に前にあるか、或は予め定められている
時間以内遅い場合はこの候補をリジェクトする手段、お
よびキーワードＫｉに先行するキーワードＫｈの認識候
補の終端位置が、キーワードＫｉに属する認識候補中の
認識候補Ｃとの間の認識尤度差が予め設定されている値
以下の認識候補の中の最も時間的に遅い終端位置より、
時間的に更に後ろにあるか、或は予め定められている時
間以内早い場合はこの候補をリジェクトする手段より成
る、ものであることを特徴とするワードスポッティング音声
認識装置。
【請求項４】請求項１に記載されるワードスポッティ
ング音声認識装置において、複数キーワードが入力さ
れ、隣接するキーワードＫｉ、Ｋｊについて、キーワー
ドＫｉがキーワードＫｊに先行し、キーワードＫｉに属
する認識候補中の最も高い認識尤度Ｌｉが予め定められ
ているしきい値より高く、キーワードＫｊに属する認識
候補中の最も高い認識尤度Ｌｊも予め定められているし
きい値より高く、キーワードＫｉに属する認識候補中の
認識尤度Ｌｉとの間の認識尤度差が予め設定されている
しきい値以下である認識候補の始端位置および終端位置
について、時間的に最も早い始端位置および終端位置を
それぞれＰ１、Ｐ２とし、更にキーワードＫｊに属する
認識候補中の認識尤度Ｌｊとの間の認識尤度差が予め設
定されているしきい値以下である認識候補の始端位置お
よび終端位置について、時間的に最も遅い始端位置およ
び終端位置をそれぞれＰ３、Ｐ４とした場合、位置Ｐ１
と位置Ｐ３との間の区間における認識尤度計算をキーワ
ードＫｉに属する認識対象単語に対して行なうと共に、
位置Ｐ２と位置Ｐ４との間の区間における認識尤度計算
をキーワードＫｊに属する認識対象単語に対して行なっ
て、その認識結果を追加する手段を具備する、ことを特徴とするワードスポッティング音声認識装置。