JP3611223B2

JP3611223B2 - 音声認識装置及び方法

Info

Publication number: JP3611223B2
Application number: JP21870296A
Authority: JP
Inventors: 敬有吉
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1996-08-20
Filing date: 1996-08-20
Publication date: 2005-01-19
Anticipated expiration: 2016-08-20
Also published as: US6029130A; JPH1063289A

Description

【０００１】
【発明の属する技術分野】
本発明は、入力信号から語句を認識するワードスポッティング方式の音声認識装置および方法に関する。
【０００２】
【従来の技術】
現在、人間が発声した音声を認識する音声認識装置が開発されている。このような音声認識装置では、人間が所定の語句の音声を発声すると、その入力信号から語句の音声を認識する。このような音声認識装置を各種装置に適用すれば、その装置はキーボードの手動操作などを要することなく各種の情報を取り込むことができるので、例えば、人間が両手を使用する作業環境でも所望の情報を入力することができる。
【０００３】
このような音声認識の一つの手法であるワードスポッティングでは、音声を特徴量のパターンのマッチングにより認識する。つまり、認識候補の語句の音声の特徴量を予め用意しておき、入力信号を分析して特徴量を抽出し、この入力信号の特徴量に認識候補の特徴量をマッチングさせて類似度を累積する。この累積類似度が所定の閾値を超過すると認識候補の語句を認識結果として確定するので、入力信号から所定の語句の音声を認識することができる。
【０００４】
【発明が解決しようとする課題】
上述のようなワードスポッティングでは、入力信号から所定の語句の音声を認識することができるが、マッチングの始端部と終端部とをフリーとするため、音声でない位置にマッチングの端部が位置することがある。
【０００５】
例えば、事務所内や自動車内の騒音のスペクトルは低域が大きく、鼻音や一部の母音のスペクトルと類似していることがある。このように認識候補の語句の音声と特徴量が類似した騒音が入力信号に含まれると、この騒音まで語句の音声の一部とした誤認識が発生しやすい。このような誤認識は、認識対象の音声が小さく騒音が大きいほど顕著となるので、環境が悪化すると音声認識の精度が低下する。
【０００６】
このような課題を解決するため、特公平６−１０５４００号公報に開示された音声認識装置では、音声認識の評価結果のみに基づいてマッチング処理の終端部を決定せず、ここに入力信号の強度と時間も考慮している。つまり、音声認識の評価結果が所定の条件を満足した状態で、信号強度が所定の閾値より減少した状態が所定の時間まで継続した場合にマッチング処理を終了している。
【０００７】
しかし、これではマッチング処理の終端部の誤りしか防止できず、始端部の誤りは防止することができない。また、音声の強度に基づいてマッチングの終了を決定しているので、例えば、認識対象の語句の音声に騒音等が連続すると、マッチング処理を良好に終了することができない。さらに、このように音声の絶対強度に基づいて処理を実行すると、入力信号の全体的な強度や周囲の騒音の強度も結果に影響する。
【０００８】
【課題を解決するための手段】
請求項１記載の発明の音声認識装置は、信号の入力を受け付ける音声入力手段と、入力信号を単位時間毎に分析して特徴量を抽出する音声分析手段と、認識候補の語句の音声の特徴量を予め記憶した認識候補辞書と、入力信号の特徴量に認識候補の特徴量をマッチングさせて類似度を累積する類似度算出手段と、累積類似度が所定の閾値を超過すると認識候補の語句を認識結果として確定する結果確定手段と、入力信号の強度を検出する強度検出手段と、入力信号の特徴量に認識候補の特徴量をマッチングさせる場合の端部の累積類似度を入力信号の強度が低強度の部分で減少させる端部制御手段とを有する。従って、音声入力手段に認識対象の語句の音声が含まれる信号が入力されると、この信号が音声分析手段により単位時間毎に分析されて特徴量が抽出される。認識候補の語句の音声の特徴量が認識候補辞書により予め記憶されているので、この認識候補の特徴量が類似度算出手段により入力信号の特徴量にマッチングされて類似度が累積される。この累積類似度が所定の閾値を超過すると結果確定手段により認識候補の語句が認識結果として確定されるので、入力信号から特定の語句が認識される。上述のように入力信号の特徴量に認識候補の特徴量をマッチングさせるとき、強度検出手段により信号強度が検出され、この信号強度に対応して端部制御手段によりマッチングの端部の累積類似度を入力信号の強度が低強度の部分で減少させれば、入力信号が低強度の部分が端部となることを抑制することができるので、入力信号の音声でない部分に認識候補がマッチングされる可能性が低下する。
【００１０】
請求項２記載の発明では、請求項１記載の音声認識装置において、端部制御手段は、入力信号の強度に対応した罰点を算出して端部の累積類似度に加算する。従って、入力信号にマッチングされる認識候補の端部の累積類似度が信号強度に対応した罰点の加算により増減されるので、例えば、入力信号が低強度の部分が端部となることが抑制され、入力信号の音声でない部分に認識候補がマッチングされる可能性が低下する。
【００１１】
請求項３記載の発明の音声認識装置は、信号の入力を受け付ける音声入力手段と、入力信号を単位時間毎に分析して特徴量を抽出する音声分析手段と、認識候補の語句の音声の特徴量を予め記憶した認識候補辞書と、入力信号の特徴量に認識候補の特徴量をマッチングさせて類似度を累積する類似度算出手段と、累積類似度が所定の閾値を超過すると認識候補の語句を認識結果として確定する結果確定手段と、入力信号の強度を検出する強度検出手段と、入力信号の特徴量に認識候補の特徴量をマッチングさせる場合の端部の累積類似度を入力信号の強度変化がない部分で減少させる端部制御手段とを有する。従って、入力信号にマッチングされる認識候補の端部の累積類似度が入力信号の強度変化がない部分で減少させられるので、例えば、信号強度が増加しない部分が始端部となることを抑制することや、信号強度が減少しない部分が終端部となることを抑制することができ、入力信号の音声でない部分に認識候補がマッチングされる可能性が低下する。
【００１２】
請求項４記載の発明では、請求項３記載の音声認識装置において、端部制御手段は、入力信号の連続する複数の部分の強度の差分に対応した罰点を算出して端部の累積類似度に加算する。従って、入力信号にマッチングされる認識候補の端部の累積類似度が信号強度の変化に対応した罰点の加算により増減されるので、例えば、信号強度が増加しない部分が始端部となる可能性が低下するとともに、信号強度が減少しない部分が終端部となる可能性が低下し、入力信号の音声でない部分に認識候補がマッチングされる可能性が低下する。
【００１３】
請求項５記載の発明では、請求項４記載の音声認識装置において、端部制御手段は、信号強度を対数に変換してから差分を算出する。従って、入力信号の複数の部分の強度の差分を対数に変換してから算出するので、同一の会話の音声信号の全体的な強度が相違しても、この強度の差分の算出結果が同一となる。
【００１４】
請求項６記載の発明の音声認識方法は、認識候補の語句の音声の特徴量を予め用意しておき、入力信号を単位時間毎に分析して特徴量を抽出し、この入力信号の特徴量に認識候補の特徴量をマッチングさせて類似度を累積し、この累積類似度が所定の閾値を超過すると認識候補の語句を認識結果として確定する音声認識方法において、入力信号の強度を検出し、入力信号の特徴量に認識候補の特徴量をマッチングさせる場合の端部の累積類似度を入力信号が低強度の部分で減少させるようにした。従って、認識対象の語句の音声が含まれる信号が入力されると、この入力信号が単位時間毎に分析されて特徴量が抽出され、予め用意された認識候補の語句の音声の特徴量が入力信号の特徴量にマッチングされて類似度が累積される。この累積類似度が所定の閾値を超過すると認識候補の語句が認識結果として確定されるので、入力信号から特定の語句が認識される。上述のように入力信号の特徴量に認識候補の特徴量をマッチングさせるとき、信号強度が検出され、これに対応してマッチングの端部の累積類似度を入力信号が低強度の部分で減少させれば、入力信号が低強度の部分が端部となることを抑制することができ、入力信号の音声でない部分に認識候補がマッチングされる可能性が低下する。
【００１６】
請求項７記載の発明の音声認識方法は、認識候補の語句の音声の特徴量を予め用意しておき、入力信号を単位時間毎に分析して特徴量を抽出し、この入力信号の特徴量に認識候補の特徴量をマッチングさせて類似度を累積し、この累積類似度が所定の閾値を超過すると認識候補の語句を認識結果として確定する音声認識方法において、入力信号の強度を検出し、入力信号の特徴量に認識候補の特徴量をマッチングさせる場合の端部の累積類似度を入力信号の強度変化がない部分で減少させることにより、端部の確度を調節するようにした。従って、入力信号にマッチングされる認識候補の端部の累積類似度が入力信号の強度変化がない部分で減少させられるので、例えば、信号強度が増加しない部分が始端部となることを抑制することや、信号強度が減少しない部分が終端部となることを抑制することができ、入力信号の音声でない部分に認識候補がマッチングされる可能性が低下する。
【００２１】
【発明の実施の形態】
本発明の実施の一形態を図面に基づいて以下に説明する。まず、本実施の形態の音声認識装置１は、図２および図３に示すように、そのハードウェアとしてデータ処理装置であるコンピュータシステムを有している。このコンピュータシステムからなる音声認識装置１は、コンピュータの主体としてＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２を有しており、このＣＰＵ２には、バスライン３により、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）４、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）５、ＨＤ（ＨａｒｄＤｉｓｋ…図示せず）を内蔵したＨＤＤ（ＨＤＤｒｉｖｅ）６、ＦＤ（ＦｌｏｐｐｙＤｉｓｋ）７が装填されるＦＤＤ（ＦＤＤｒｉｖｅ）８、ＣＤ（ＣｏｍｐａｃｔＤｉｓｋ）−ＲＯＭ９が装填されるＣＤ−ＲＯＭドライブ１０、マウス１１が接続されたキーボード１２、ディスプレイ１３、入力デバイスであるマイクロフォン１４、通信Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）１５、等が接続されている。
【００２２】
この音声認識装置１は、前記ＣＰＵ２に各種の処理動作を実行させるプログラム等が予め設定されており、このプログラム等のソフトウェアは、例えば、情報記憶媒体である前記ＦＤ７や前記ＣＤ−ＲＯＭ９に予め書き込まれている。そして、このソフトウェアが情報記憶媒体である前記ＨＤＤ６に予めインストールされており、これが起動時に情報記憶媒体である前記ＲＡＭ５に複写されて前記ＣＰＵ２に読み取られる。
【００２３】
このように前記ＣＰＵ２がプログラムを読み取って各種の処理動作を実行することにより、各種機能が各種手段として実現されている。このような各種手段として、本実施の形態の音声認識装置１は、図１に示すように、音声入力手段２１、音声分析手段２２、認識候補辞書２３、類似度算出手段２４、強度検出手段２５、端部制御手段２６、結果確定手段２７、結果出力手段２８、等を有している。
【００２４】
前記音声入力手段２１は、前記マイクロフォン１４等により音声の入力を受け付け、この入力音声をデジタルの電気信号にＡ／Ｄ（Ａｎａｌｏｇ／Ｄｉｇｉｔａｌ）変換する。前記音声分析手段２２は、所定のプログラムに対応した前記ＣＰＵ２の演算処理等により、入力信号を単位時間であるフレーム毎に分析して特徴量を抽出する。
【００２５】
このように入力音声をデジタルの電気信号に変換してから特徴量を抽出することには、既存の各種手法が利用できるが、ここでは入力音声を１６（ｋＨｚ）で１６（ｂｉｔ）のデジタル信号に変換し、抽出する特徴量としてＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）メルケプストラムを算出する。この分析の条件は、
窓関数Ｈａｍｍｉｎｇ窓
窓周期２０（ｍｓ）
フレーム周期２０（ｍｓ）
ＬＰＣ分析次数２０
メル尺度化定数０．５
メルケプストラム次数１０
である。
【００２６】
前記認識候補辞書２３は、例えば、前記ＲＡＭ５にデータファイルとして格納されており、図４に示すように、認識候補の語句である単語の音声の特徴量を、音素単位の状態遷移モデルと単語単位の音素ネットワークとして予め記憶している。なお、ここで言う音素とは、／ａ／，／ｉ／，…等の母音および／ｋ／，／ｓ／，…等の子音からなる単独の音素や、／ｓ−ａ／，／ａ−ｓ／，…等の音声の連続部分に対応する音素であり、ここでは約２００種類に設定されている。各音素は最大で二状態の状態遷移モデルとして表現されており、各状態は平均特徴量と継続時間長との情報を有している。
【００２７】
前記類似度算出手段２４は、図５に示すように、入力信号の特徴量に認識候補の特徴量をマッチングさせ、その類似度をフレーム単位で算出して順次累積する。なお、図５では説明を簡略化するため、状態分岐が無い単語の場合を図示している。各フレーム毎に入力信号の特徴量と各音素の各状態の特徴量との局所的な類似度が算出され、各状態に対して音素ネットワークに従ったマッチングパスが選択され、このように選択した最適なマッチングパスに従って局所的な類似度が累積され、そのフレームまでの累積類似度が算出される。状態ｊにおけるマッチングパス選択の例を図６に示す。なお、ここでは入力フレームｉと状態ｊとに対するマッチングパスの選択の漸化式が、下記のように設定されている。
【００２８】
【数１】

【００２９】
この数式において、Ｓ（ｉ，ｊ）は格子点（ｉ，ｊ）まで累積した類似度、ｓ_Ｓ（ｉ，ｊ）は格子点（ｉ，ｊ）での局所的なスペクトルの類似度、ｓ_Ｌ（ｉ，ｊ）は格子点（ｉ，ｊ）での状態の継続長の類似度である。これらの類似度を算出する数式は、
ｓ_Ｓ（ｉ，ｊ）＝Ｗ_Ｓ（Ｂ−ｄ_Ｓ（ｉ，ｊ））
ｓ_Ｌ（ｉ，ｊ）＝−Ｗ_Ｌｄ_Ｌ（ｉ，ｊ）
として設定されている。この数式において、Ｗ_Ｓはスペクトルの類似度に対する重み係数であり、各状態毎に“０．２〜１．０”に設定されている。Ｗ_Ｌは継続長の類似度に対する重み係数であり、各状態毎に“０．０〜０．１”に設定されている。Ｂはスペクトルの類似度の中立点であり、各状態毎に“０．５〜１．５”に設定されている。ｄ_Ｓ（ｉ，ｊ）は入力信号と認識候補との局所的なスペクトルのユークリッド距離であり、ｄ_Ｌ（ｉ，ｊ）は入力信号と認識候補との状態の継続長のユークリッド距離である。
【００３０】
ただし、上述のように前記類似度算出手段２４が入力信号の特徴量に認識候補の特徴量をマッチングさせて類似度を累積する際、そのマッチングの始端部と終端部との類似度が前記端部制御手段２６により信号強度に対応して調節される。つまり、前記強度検出手段２５が入力信号の強度を対数に変換して検出すると、前記端部制御手段２６は、入力信号の強度に対応してマッチングの端部の罰点を算出し、この罰点を端部の累積類似度に加算することにより、この累積類似度を増減させて端部の確度を調節する。
【００３１】
より詳細には、前記強度検出手段２５は、最初に入力信号のフレームｉの強度を対数に変換して強度“ｐ（ｉ）＝ｌｏｇ_２（強度）”を算出し、これに基づいてフレームｉを始端部とした場合の罰点Ｐ_Ｓ（ｉ）≦０と終端部とした場合の罰点Ｐ_Ｅ（ｉ）≦０とを、
ｐ_２≦ｐ（ｉ） → Ｐ_Ｓ（ｉ）＝Ｐ_Ｅ（ｉ）＝０
ｐ_１≦ｐ（ｉ）＜ｐ_２ → Ｐ_Ｓ（ｉ）＝Ｐ_Ｅ（ｉ）＝−Ｐ_Ｐ（ｐ_２−ｐ（ｉ））／（ｐ_２−ｐ_１）
ｐ（ｉ）＜ｐ_１ → Ｐ_Ｓ（ｉ）＝Ｐ_Ｅ（ｉ）＝−Ｐ_Ｐ
として算出する。
【００３２】
上記数式のＰ_Ｐ，ｐ_１，ｐ_２は正の定数であり、通常の音声の端部では罰点が発生せず、明白に非音声の区間では明白に相違する音韻間の距離程度に罰点が発生するように、例えば、“Ｐ_Ｐ＝３，ｐ_１＝１０，ｐ_２＝１４ ”程度に設定される。このようにフレームｉを端部とした場合の罰点Ｐ_Ｓ（ｉ），Ｐ_Ｅ（ｉ）を算出すれば、図７に示すように、この罰点Ｐ_Ｓ（ｉ），Ｐ_Ｅ（ｉ）は、音声の存在する区間のみ“０”となる。
【００３３】
そこで、フレームｉを始端部とする累積類似度Ｓ（ｉ−１，ｋ）は、始端部の罰点Ｐ_Ｓ（ｉ）≦０により、
Ｓ（ｉ−１，ｋ）＝Ｐ_Ｓ（ｉ）
ｓ_Ｌ（ｉ−１，ｋ）＝０
ｋ＝始端部ノード
として算出される。また、フレームｉを終端部とする単語全体の累積類似度Ｓｉｍ（ｉ）は、終端部の罰点Ｐ_Ｅ（ｉ）≦０により以下のように算出される。
【００３４】
【数２】

【００３５】
上述のように、前記類似度算出手段２４のマッチングの始端部と終端部との類似度を、前記端部制御手段２６が信号強度に対応した罰点の加算により調節するので、入力信号が低強度の部分がマッチングの端部となることが抑制されることになる。
【００３６】
前記結果確定手段２７は、上述のように前記端部制御手段２６により端部の確度が調節された状態で前記類似度算出手段２４が入力信号と認識候補との累積類似度Ｓｉｍ（ｉ）を算出すると、この累積類似度Ｓｉｍ（ｉ）が所定の閾値Ｔｈを超過すると所定時間“ｉ〜ｉ＋Ｎ：Ｎ＝ｃｏｎｓｔ，１５〜３０”まで待機し、より高い累積類似度Ｓｉｍ（ｉ）が出現しなければ、その認識候補の単語を認識結果として確定する。なお、より高い累積類似度Ｓｉｍ（ｉ）が待機中に出現した場合には、これが認識結果の候補として更新され、待機状態に再度移行する。前記結果出力手段２８は、上述のように確定された認識候補の単語を、例えば、前記ディスプレイ１３に表示出力する。
【００３７】
上述した音声認識装置１の各種手段は、必要により前記ディスプレイ１３や前記マイクロフォン１４等のハードウェアを利用して実現されるが、その主体は前記ＲＡＭ５等に書き込まれたソフトウェアに対応して前記ＣＰＵ２が動作することにより実現されている。
【００３８】
このように前記ＲＡＭ５に書き込まれたソフトウェアは、前記ＣＰＵ２が読取自在なソフトウェアからなる前記認識候補辞書２３、前記ＣＰＵ２が読取自在で対応する動作を実行する制御プログラム、等からなる。そして、この制御プログラムは、前記マイクロフォン１４に入力された音声の信号を単位時間であるフレーム毎に分析して特徴量であるＬＰＣメルケプストラムを抽出すること、この入力信号の特徴量に認識候補の特徴量をマッチングさせて類似度を累積すること、入力信号の強度を対数に変換して検出すること、この信号強度に対応してマッチングの端部の罰点を算出すること、この罰点をマッチングの端部の累積類似度に加算すること、マッチングの累積類似度が所定の閾値Ｔｈを超過すると認識候補の単語を認識結果として確定すること、確定された認識結果を前記ディスプレイ１３に表示出力させること、として書き込まれている。
【００３９】
このような構成において、本実施の形態の音声認識装置１は、認識対象の単語が含まれる音声がマイクロフォン１４に入力されると、この入力信号から認識候補辞書２３に格納されている単語を認識し、この認識結果をディスプレイ１３に表示出力する。このような音声認識装置１の音声認識方法を、図８および図９を参照して以下に順次詳述する。
【００４０】
まず、図８に示すように、マイクロフォン１４に入力された信号は、デジタル信号にＡ／Ｄ変換されてからフレーム毎に特徴量であるＬＰＣメルケプストラムが算出され、これと並行してフレーム毎に入力信号の対数強度が検出される。つぎに、入力信号の特徴量に認識候補の特徴量がマッチングされ、その類似度がフレーム単位で算出されて順次累積される。同時に、入力信号の強度に対応してマッチングの端部の罰点が算出され、この罰点が端部の累積類似度に加算される。
【００４１】
より詳細には、図９に示すように、フレームｉをマッチングの端部とした場合の罰点Ｐ_Ｓ（ｉ），Ｐ_Ｅ（ｉ）が算出され、このフレームｉの各状態ｊでの局所的な類似度ｓ_Ｓ（ｉ，ｊ）が算出される。この各状態ｊに対して音素ネットワークのマッチングパスが選択され、このマッチングパスでの累積類似度Ｓ（ｉ，ｊ）が算出され、終端部では単語全体の累積類似度Ｓｉｍ（ｉ）が算出される。このように算出された累積類似度Ｓｉｍ（ｉ）には、その始端部での累積類似度に始端部の罰点が加算されており、終端部での累積類似度に終端部の罰点が加算されている。
【００４２】
図８に示すように、上述のように累積類似度が端部の罰点を加味して算出されると、この累積類似度が所定の閾値と比較される。この閾値を累積類似度が超過してから所定時間が経過すると、認識候補の単語が認識結果として確定され、このように確定された認識候補の単語がディスプレイ１３に表示出力される。
【００４３】
本実施の形態の音声認識装置１の音声認識方法では、上述のように入力信号に所定の単語の認識候補をマッチングさせる場合に、このマッチングの端部の確度を信号強度に対応して調節するので、入力信号の低強度の部分が始端部や終端部となることが抑制される。このため、入力信号の音声でない部分まで認識候補がマッチングされる可能性が低く、単語の認識精度が良好である。特に、認識すべき音声に類似した騒音が存在しても、この騒音より認識すべき音声が高強度であれば、この音声は高精度に認識される。
【００４４】
しかも、ここではマッチング処理での端部のパス選択を、信号強度に対応して抑制するだけで禁止はしないので、単語全体の累積類似度が充分に高ければ、端部の信号強度が低くとも単語は認識される。また、信号強度が全体的に変化した場合、マッチングの端部の確度は影響されるが、単語全体の累積類似度は充分に確保されるので、単語の認識精度は良好である。
【００４５】
なお、本発明は上記形態に限定されるものではなく、各種の変形を許容する。例えば、上記形態では音声認識装置１をコンピュータシステムの実験装置として想定し、入力信号から認識した単語をディスプレイ１３に表示することを例示した。しかし、上述のような音声認識装置１の各種手段２２〜２７等の部分をＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）として製作し、これを各種製品に組み込んで音声制御に利用することも可能である。
【００４６】
例えば、このようなＡＳＩＣをカーナビゲーションシステムに組み込めば、ユーザは自動車の運転中に発声でカーナビゲーションシステムを安全に操作することができる。自動車の室内は騒音が顕著であるが、本発明の音声認識装置１は、騒音下での音声の認識精度が良好なので、ユーザは装置を良好に操作することができる。また、上述のようなＡＳＩＣをアーケードタイプのゲームマシンに組み込むことも可能であり、この場合も騒音が顕著なアーケードにおいてユーザの発声に対応してゲーム進行を制御することができる。
【００４７】
また、上記形態では入力信号から抽出する特徴量をＬＰＣメルケプストラムとすることを例示したが、この特徴量には各種方式が適用可能である。また、認識する語句を単語とすることを例示したが、これを熟語や特定の一連の言葉とすることも可能である。
【００４８】
さらに、上記形態では信号強度を対数に変換して検出することを例示したが、これも各種の検出方法が適用可能である。また、マッチングの始端部と終端部との両方の確度を信号強度に対応して調節することを例示したが、このような信号強度に対応した確度の調節を実行する端部を一方のみとすることも可能である。
【００４９】
さらに、上記形態では１フレームの信号強度から端部の罰点を算出することを例示したが、これではピークノイズ等の影響が懸念されるので、実際には周辺の数フレームの信号強度を平均化することや、入力信号を平滑化回路により平滑化してから信号強度を検出することが好ましい。
【００５０】
さらに、上記形態ではマッチングの端部の累積類似度を信号強度に対応して増減させるため、入力信号の絶対強度に対応した罰点を算出して累積類似度に加算することを例示したが、このような罰点を入力信号の連続する複数の部分の強度の差分に対応して算出し、この入力信号の強度変化に対応した罰点の加算によりマッチングの端部の累積類似度を増減させることも可能である。
【００５１】
この場合、端部制御手段２６は、最初に入力信号のフレーム“ｉ−１”からフレームｉの強度の差分を“△ｐ（ｉ）＝ｐ（ｉ）−ｐ（ｉ−１）”として算出し、これに基づいてフレームｉを始端部とした場合の罰点Ｐ_Ｓ（ｉ）と、終端部とした場合の罰点Ｐ_Ｅ（ｉ）とを、
ｐ_２≦△ｐ（ｉ） → Ｐ_Ｓ（ｉ）＝０
ｐ_１≦△ｐ（ｉ）＜ｐ_２ → Ｐ_Ｓ（ｉ）＝−Ｐ_Ｐ（ｐ_２−△ｐ（ｉ））／（ｐ_２−ｐ_１）
△ｐ（ｉ）＜ｐ_１ → Ｐ_Ｓ（ｉ）＝−Ｐ_Ｐ
−ｐ_２≧△ｐ（ｉ） → Ｐ_Ｅ（ｉ）＝０
−ｐ_１≧△ｐ（ｉ）＞−ｐ_２ → Ｐ_Ｅ（ｉ）＝−Ｐ_Ｐ（ｐ_２＋△ｐ（ｉ））／（ｐ_２−ｐ_１）
△ｐ（ｉ）＞−ｐ_１ → Ｐ_Ｅ（ｉ）＝−Ｐ_Ｐ
として算出する。上記数式のＰ_Ｐ，ｐ_１，ｐ_２も正の定数であり、通常の音声の端部では罰点が発生せず、明白に非音声の区間では明白に相違する音韻間の距離程度に罰点が発生するように、例えば、“Ｐ_Ｐ＝４，ｐ_１＝２，ｐ_２＝４ ”程度に設定される。
【００５２】
このように入力信号の複数部分の強度の差分からマッチングの端部の罰点Ｐ_Ｓ（ｉ），Ｐ_Ｅ（ｉ）を算出すると、図１０に示すように、始端部の罰点Ｐ_Ｓ（ｉ）は音声の強度が増加する区間のみ“０”となり、終端部の罰点Ｐ_Ｅ（ｉ）は音声の強度が低下する区間のみ“０”となる。つまり、信号強度が増加しない部分が始端部となることが抑制されるとともに、信号強度が低下しない部分が終端部となることが抑制されるので、入力信号の音声でない騒音等の部分まで認識候補がマッチングされる可能性が低下することになり、より良好に入力信号から所定の単語を認識することができる。
【００５３】
しかも、このように入力信号の強度を対数に変換してから、複数の部分の強度の差分からマッチングの端部の罰点を算出すると、同一内容の音声の強度が全体的に相違しても罰点は同一となる。つまり、話者とマイクロフォン１４との距離の相違により信号強度が全体的に変化した場合でも、音声認識の精度が影響されず、単語を良好に認識することができる。
【００５４】
ここで、上述した音声認識装置１の音声認識方法の実験結果を以下に説明する。この実験の条件は、
録音環境：事務所内
マイクロフォン：無指向性口から１０（ｃｍ）
単語セット：地名３０語
話者：男性９名、女性１１名
認識用発声：孤立発声、３０語×２
とした。そして、マッチングの端部の確度を調節しない場合、音声の絶対強度に対応して調節した場合、音声の強度変化に対応して調節した場合、として音声認識の実験を実行したところ、下記の表１に示すように、上記の順番で認識精度が向上することが確認された。
【００５５】
【表１】

【００５６】
なお、前述した形態ではマッチングの端部の確度を信号強度に対応して調節するため、信号強度に対応した罰点を端部の累積類似度に加算することを例示したが、例えば、信号強度に対応してマッチングパスの選択を制御することにより、マッチングの端部の確度を信号強度に対応して調節することも可能である。つまり、単語の端部でないフレームでは、そのフレームを端部とするマッチングパスが選択されなければ良いので、始端部では継続時間長の類似度ｓ_Ｌ（ｉ−１，ｋ）が負となる信号強度ｐ（ｉ）の関数を設定し、終端部では累積類似度の閾値を信号強度ｐ（ｉ）の関数として設定すれば良い。
【００５７】
また、本実施の形態では、ＲＡＭ５等にソフトウェアとして格納されている制御プログラムに従ってＣＰＵ２が動作することにより、音声認識装置１の各部が実現されることを例示した。しかし、このような各部の各々を固有のハードウェアとして製作することも可能であり、一部をソフトウェアとしてＲＡＭ５等に格納するとともに一部をハードウェアとして製作することも可能である。また、所定のソフトウェアが格納されたＲＡＭ５等や各部のハードウェアを、例えば、ファームウェアとして製作することも可能である。
【００５８】
また、本実施の形態では、音声認識装置１の起動時に、ＨＤＤ６に格納されているソフトウェアがＲＡＭ５に複写され、このようにＲＡＭ５に格納されたソフトウェアをＣＰＵ２が読み取ることを想定したが、このようなソフトウェアをＨＤＤ６に格納したままＣＰＵ２に利用させることや、ＲＡＭ５に予め書き込んでおくことも可能である。
【００５９】
さらに、前述のように単体で取り扱える情報記憶媒体であるＦＤ７やＣＤ−ＲＯＭ９にソフトウェアを書き込んでおき、このＦＤ７等からＲＡＭ５等にソフトウェアをインストールすることも可能であるが、このようなインストールを実行することなくＦＤ７等に書き込まれたソフトウェアをＣＰＵ２が適宜読み取ってデータ処理を実行することも可能である。
【００６０】
また、このような音声認識装置１の各部を実現する制御プログラムを、複数のソフトウェアの組み合わせにより実現することも可能であり、その場合、単体の製品となる情報記憶媒体には必要最小限のソフトウェアのみを格納しておけば良い。例えば、オペレーティングシステムが実装されている音声認識装置１に、ＣＤ−ＲＯＭ９等の情報記憶媒体によりアプリケーションソフトを提供するような場合、音声認識装置１の各部を実現するソフトウェアは、アプリケーションソフトとオペレーティングシステムとの組み合わせで実現されるので、オペレーティングシステムに依存する部分のソフトウェアはアプリケーションソフトの情報記憶媒体から省略することができる。
【００６１】
特に、本発明の音声認識装置は、従来の既存の音声認識装置が累積類似度を算出する処理を制御すれば実現できるので、この制御の部分のみオプションのアプリケーションソフトとして形成するようなこともできる。その場合、ＣＤ−ＲＯＭ９等の情報記憶媒体に、強度検出手段２５と端部制御手段２６とに対応したプログラムのみ書き込んでおき、このプログラムを各手段２１〜２４，２７〜２８を具備した既存の音声認識装置にインストールすれば良い。
【００６２】
また、このように情報記憶媒体に書き込んだソフトウェアをコンピュータに供給する手法は、その情報記憶媒体をコンピュータに直接に装填することに限定されない。例えば、上述のようなソフトウェアをホストコンピュータの情報記憶媒体に書き込み、このホストコンピュータを通信ネットワークにより端末コンピュータに接続し、ホストコンピュータからデータ通信により端末コンピュータにソフトウェアを供給することも可能である。
【００６３】
この場合、端末コンピュータが自身の情報記憶媒体にソフトウェアをダウンロードした状態でスタンドアロンのデータ処理を実行することも可能であるが、ソフトウェアをダウンロードすることなくホストコンピュータとのリアルタイムのデータ通信によりデータ処理を実行することも可能である。この場合、ホストコンピュータと端末コンピュータとを通信ネットワークにより接続したシステム全体が、本発明の音声認識装置１に相当することになる。
【００６４】
【発明の効果】
請求項１記載の発明の音声認識装置は、入力信号の特徴量に認識候補の特徴量をマッチングさせる場合の端部の累積類似度を入力信号の強度が低強度の部分で減少させることにより、例えば、入力信号が低強度の部分が端部となることを抑制するようなことができるので、入力信号の音声でない部分に認識候補がマッチングされる可能性を低下させ、音声認識の精度を向上させることができる。
【００６６】
請求項２記載の発明の音声認識装置では、端部制御手段は、入力信号の強度に対応した罰点を算出して端部の累積類似度に加算することにより、入力信号が低強度の部分が端部となることが抑制されるので、入力信号の音声でない部分に認識候補がマッチングされる可能性が低下し、音声認識の精度が向上する。
【００６７】
請求項３記載の発明の音声認識装置では、入力信号の特徴量に認識候補の特徴量をマッチングさせる場合の端部の累積類似度を入力信号の強度変化がない部分で減少させることにより、信号強度が増加しない部分が始端部となることを抑制することができ、信号強度が減少しない部分が終端部となることも抑制することができるので、入力信号の音声でない部分に認識候補がマッチングされる可能性を低下させることができ、音声認識の精度を向上させることができる。
【００６８】
請求項４記載の発明の音声認識装置では、端部制御手段は、入力信号の連続する複数の部分の強度の差分に対応した罰点を算出して端部の累積類似度に加算することにより、信号強度が増加しない部分が始端部となることが抑制され、信号強度が減少しない部分が終端部となることが抑制されるので、入力信号の音声でない部分に認識候補がマッチングされる可能性が低下し、音声認識の精度が向上する。
【００６９】
請求項５記載の発明の音声認識装置では、端部制御手段は、信号強度を対数に変換してから差分を算出することにより、同一の会話の入力信号の全体的な強度が相違しても差分の算出結果は同一となるので、信号強度が全体的に変化する場合でも音声認識の精度を良好に維持することができる。
【００７０】
請求項６記載の発明の音声認識方法は、入力信号の強度を検出し、入力信号の特徴量に認識候補の特徴量をマッチングさせる場合の端部の累積類似度を入力信号の強度が低強度の部分で減少させるようにしたことにより、入力信号が低強度の部分が端部となることを抑制し、入力信号の音声でない部分に認識候補がマッチングされる可能性を低下させることができ、音声認識の精度を向上させることができる。
【００７２】
請求項７記載の発明の音声認識方法では、入力信号の特徴量に認識候補の特徴量をマッチングさせる場合の端部の累積類似度を入力信号の強度変化がない部分で減少させることにより、端部の確度を調節するようにしたことにより、信号強度が増加しない部分が始端部となることを抑制することができ、信号強度が減少しない部分が終端部となることも抑制することができるので、入力信号の音声でない部分に認識候補がマッチングされる可能性を低下させることができ、音声認識の精度を向上させることができる。
【図面の簡単な説明】
【図１】本発明の実施の一形態の音声認識装置の論理的構造を示す模式図である。
【図２】音声認識装置の物理的構造を示すブロック図である。
【図３】音声認識装置の外観を示す斜視図である。
【図４】語句である単語の状態遷移モデルを示す模式図である。
【図５】入力信号とパターンマッチングとの関係を示す模式図である。
【図６】マッチングパスが複数の状態を示す模式図である。
【図７】入力信号と罰点との関係を示すタイムチャートである。
【図８】音声認識方法のメインルーチンを示すフローチャートである。
【図９】累積類似度の算出方法のサブルーチンを示すフローチャートである。
【図１０】一変形例における入力信号と罰点との関係を示すタイムチャートである。
【符号の説明】
１音声認識装置
２コンピュータ
４〜７，９情報記憶媒体
１４入力デバイス
２１音声入力手段
２２音声分析手段
２３認識候補辞書
２４類似度算出手段
２５強度検出手段
２６端部制御手段
２７結果確定手段

Claims

信号の入力を受け付ける音声入力手段と、入力信号を単位時間毎に分析して特徴量を抽出する音声分析手段と、認識候補の語句の音声の特徴量を予め記憶した認識候補辞書と、入力信号の特徴量に認識候補の特徴量をマッチングさせて類似度を累積する類似度算出手段と、累積類似度が所定の閾値を超過すると認識候補の語句を認識結果として確定する結果確定手段と、入力信号の強度を検出する強度検出手段と、入力信号の特徴量に認識候補の特徴量をマッチングさせる場合の端部の累積類似度を入力信号の強度が低強度の部分で減少させる端部制御手段と、を有することを特徴とする音声認識装置。
端部制御手段は、入力信号の強度に対応した罰点を算出して端部の累積類似度に加算することを特徴とする請求項１記載の音声認識装置。
信号の入力を受け付ける音声入力手段と、入力信号を単位時間毎に分析して特徴量を抽出する音声分析手段と、認識候補の語句の音声の特徴量を予め記憶した認識候補辞書と、入力信号の特徴量に認識候補の特徴量をマッチングさせて類似度を累積する類似度算出手段と、累積類似度が所定の閾値を超過すると認識候補の語句を認識結果として確定する結果確定手段と、入力信号の強度を検出する強度検出手段と、入力信号の特徴量に認識候補の特徴量をマッチングさせる場合の端部の累積類似度を入力信号の強度変化がない部分で減少させる端部制御手段と、を有することを特徴とする音声認識装置。
端部制御手段は、入力信号の連続する複数の部分の強度の差分に対応した罰点を算出して端部の累積類似度に加算することを特徴とする請求項３記載の音声認識装置。
端部制御手段は、信号強度を対数に変換してから差分を算出することを特徴とする請求項４記載の音声認識装置。
認識候補の語句の音声の特徴量を予め用意しておき、入力信号を単位時間毎に分析して特徴量を抽出し、この入力信号の特徴量に認識候補の特徴量をマッチングさせて類似度を累積し、この累積類似度が所定の閾値を超過すると認識候補の語句を認識結果として確定する音声認識方法において、入力信号の強度を検出し、入力信号の特徴量に認識候補の特徴量をマッチングさせる場合の端部の累積類似度を入力信号が低強度の部分で減少させるようにしたことを特徴とする音声認識方法。
認識候補の語句の音声の特徴量を予め用意しておき、入力信号を単位時間毎に分析して特徴量を抽出し、この入力信号の特徴量に認識候補の特徴量をマッチングさせて類似度を累積し、この累積類似度が所定の閾値を超過すると認識候補の語句を認識結果として確定する音声認識方法において、入力信号の強度を検出し、入力信号の特徴量に認識候補の特徴量をマッチングさせる場合の端部の累積類似度を入力信号の強度変化がない部分で減少させるようにしたことを特徴とする音声認識方法。