JP2001013988A

JP2001013988A - 音声認識方法及び装置

Info

Publication number: JP2001013988A
Application number: JP11183216A
Authority: JP
Inventors: Akinori Koshiba; 亮典小柴; Mitsuyoshi Tatemori; 三慶舘森; Hiroshi Kanazawa; 博史金澤
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1999-06-29
Filing date: 1999-06-29
Publication date: 2001-01-19
Anticipated expiration: 2019-06-29
Also published as: JP3615088B2

Abstract

(57)【要約】【課題】発声区間内に、不規則に発生するパワーの低い
無音区間が存在しても、その影響を受けることなく、高
精度の認識を可能とする。【解決手段】入力される信号を発声区間検出部１０１に
て音響分析して発声区間を検出し、その発声区間の音声
信号から特徴ベクトル抽出部１０２にて特徴ベクトル系
列を抽出する一方、その発声区間の音声信号の短時間パ
ワーから無音区間検出部１０６にて音声信号の無音区間
を検出する。パターン照合部１０３では、抽出された特
徴ベクトル系列と記憶部１０４内の各認識候補の標準特
徴パターンとをＨＭＭ照合方式にて照合して照合スコア
を計算し、その際に無音区間の特徴ベクトル系列をパタ
ーン照合の対象外とすると共に、無音区間から有音区間
へ変化する時刻にのみナル遷移を許すＨＭＭ照合方式を
適用し、ここで得られる認識候補ごとの照合スコアに基
づき認識結果判定部１０５が認識結果を判定する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、発声された音声を
高精度に認識するのに好適な音声認識方法及び装置に関
する。

【０００２】

【従来の技術】近年、音声認識技術は、優れたマンマシ
ンインタフェースを実現する上で重要な役割を担ってい
る。最近では、ＨＭＭを用いたワードスポッティングや
連続音声認識など、発声者の発声方式に制約を要求しな
い、自然発話認識のための研究や開発が盛んに行われて
いる。従来これらの音声認識手法においては、入力信号
から、話者が音声を発声していると判断される区間を切
り出し、その部分を標準パターンとマッチングさせるこ
とにより、発話内容を認識していた。

【０００３】ところが、実際の自然発話においては、発
声区間と判断された部分にも、促音や、摩擦音、無声化
した有声音など、信号のパワーの低い無音区間が生じる
ことがある。信号のパワーの低い区間では、背景雑音の
影響が相対的に大きくなるため、信号のスペクトルが安
定せず、その結果誤ったパターンとマッチングしてしま
い、誤認識が生じることがしばしばあった。

【０００４】更に、このような自然発話において生じる
パワーの低い無音区間は、予め予期することが難しいた
め、標準パターンとして登録しておくことができなかっ
た。

【０００５】

【発明が解決しようとする課題】このように従来は、発
声区間として検出された区間内に、パワーの低い無音区
間が存在すると、その部分においては背景雑音のスペク
トルが支配的となり、誤ったパターンマッチングが生じ
るという問題があった。また、発声区間内において、パ
ワーが低くなる区間は予め予期することが難しく、その
ため、それらのパターンを標準パターンとして登録する
ことができない、という問題もあった。

【０００６】本発明は、上記事情を考慮してなされたも
ので、発声区間内に、不規則に発生するパワーの低い無
音区間が存在しても、その影響を受けることなく、高精
度の認識を可能とする音声認識方法及び装置を提供する
ことを目的とする。

【０００７】

【課題を解決するための手段】本発明は、入力される信
号を音響分析して音声が発声された区間を検出して、検
出した発声区間の音声信号から特徴ベクトル系列を抽出
し、前記抽出した特徴ベクトル系列と所定の認識候補ご
とに予め用意されている音声信号の標準パターンとを第
１の照合方式にて照合することにより、両者の類似度ま
たは距離を表す照合スコアを計算し、各認識候補ごとの
照合スコアに基づいて認識結果を判定する音声認識方法
において、上記検出した発声区間の音声信号の短時間パ
ワーから音声信号の無音区間を検出し、その無音区間の
特徴ベクトル系列をパターン照合の対象外とすると共
に、無音区間から有音区間へ変化する時刻に相当する特
徴ベクトル系列につき無音区間の影響を考慮した第２の
照合方式を用いて照合することにより照合スコアを計算
することを特徴とする。ここで、第１の照合方式にＨＭ
Ｍ（隠れマルコフモデル）照合方式を適用し、第２の照
合方式にナル遷移を許すＨＭＭ照合方式を適用するとよ
い。

【０００８】本発明によれば、発声区間内に予期しない
パワーの低い無音区間が存在していたとしても、その無
音区間を検出して、標準パターンとの照合の際には無音
区間を除いて照合を行うことにより、無音区間における
誤ったパターンマッチングを回避することができ、高精
度な認識が可能となる。しかも本発明においては、無音
区間から有音区間へ変化する時刻に相当する特徴ベクト
ル系列につき無音区間の影響を考慮した第２の照合方
式、例えばナル遷移を許すＨＭＭ照合方式を適用するこ
とから、無音区間（の特徴ベクトル）を照合に用いなか
ったことによる状態遷移の矛盾が生じない。

【０００９】ここで、無音区間から有音区間へ切り替わ
った時刻にナル遷移を許す場合、その際のＨＭＭの状態
（第１の状態ｉ）へのナル遷移を起こすＨＭＭの状態と
して、直前の時刻（フレーム）における状態ｉ以前の状
態のうち最適経路の照合スコアが最大となる状態（第２
の状態ｊ）を選択することで、状態ｊから状態ｉへのナ
ル遷移を起こし、状態ｉの上記直前の時刻における照合
スコアを、状態ｊの同時刻における照合スコアに置き換
えるとよい。この状態ｉへのナル遷移が可能な状態を、
無音区間の継続時間などによって制限するようにしても
よい。

【００１０】また本発明は、発声区間の音声信号の短時
間パワーに基づく無音区間の検出を、異なる閾値を用い
て独立に行い、発声区間の音声信号から抽出された特徴
ベクトル系列と所定の認識候補ごとに予め用意されてい
る音声信号の標準パターンとを、上記異なる閾値に基づ
いて独立に検出される無音区間の情報に基づいて、隠れ
マルコフモデル照合方式にて照合することにより、各閾
値別に照合スコアを計算し、その際に対応する閾値に基
づいて検出した無音区間の特徴ベクトル系列をパターン
照合の対象外とすると共に、無音区間から有音区間へ変
化する時刻にのみ、ナル遷移を許す隠れマルコフ照合方
式を適用し検出し、各閾値別に求めた各認識候補ごとの
照合スコアに基づいて認識結果を判定することをも特徴
とする。

【００１１】このように、各閾値別に得られる無音区間
情報を用いて、各閾値別に、対応する無音区間をパター
ン照合の対象外として各認識候補ごとの照合スコアを求
め、その照合スコアに基づいて認識結果を判定すること
で、無音区間における誤ったマッチングの影響を減らす
ことができる。

【００１２】ここで、１つの閾値について各認識候補ご
との照合スコアを計算する都度、その認識候補ごとの照
合スコアに基づいて認識候補を絞り、その動作を、上記
閾値を一定方向に段階的に切り替えながら繰り返すよう
にするとよい。なお、異なる閾値を用いた無音区間の検
出自体は、並行して行っても、閾値を切り替えながら順
次行っても構わない。前者の場合には、無音区間の検出
結果を記憶しておく必要がある。また、後者の場合に
は、少なくとも発声区間の音声信号を記憶しておく必要
がある。

【００１３】このように、無音区間検出用の閾値（パワ
ーの閾値）を一定方向に段階的に変えて、認識候補の枝
刈りをしながらパターン照合を行うことにより、段階的
に認識候補を絞ることができ、認識の精度を向上させ、
誤認識を減らすことができる。

【００１４】ここで、閾値の切り替えを当該閾値が小さ
くなる方向に行うならば、認識候補の選択の際に、スペ
クトルが安定するパワーの大きな部分に重みをかけるこ
とができ、スペクトルが不安定なパワーの低い区間の影
響を減らすことができる。

【００１５】また、閾値の切り替えを当該閾値が大きく
なる方向に行うようにしてもよい。この場合、最初は無
音区間における誤ったマッチングが許されて複数の認識
候補が選択されるものの、正解候補は無音区間以外では
正しくマッチングするので上位候補に入り、徐々に閾値
を大きくしてマッチングを行うことにより、無音区間に
おける誤ったマッチングの影響を減らすことができ、最
終的に正しい正解候補を検出することができる。

【００１６】また、閾値を一定方向に段階的に切り替え
ながら認識候補を絞るのではなく、同一認識候補につい
て各閾値別に得られる照合スコアの重み付け和を算出す
る処理を全ての認識候補について実行し、その全認識候
補各々の照合スコアの重み付け和に基づいて認識結果を
判定することも可能である。この場合、無音区間の影響
を任意に照合スコアに反映させることができ、これによ
り無音区間における誤ったマッチングの影響を減らすこ
とができる。

【００１７】なお、方法に係る本発明は装置に係る発明
としても成立する。また、本発明は、コンピュータに当
該発明に相当する手順を実行させるための（或いはコン
ピュータを当該発明に相当する手段として機能させるた
めの、或いはコンピュータに当該発明に相当する機能を
実現させるための）プログラムを記録したコンピュータ
読み取り可能な記録媒体としても成立する。

【００１８】

【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。

【００１９】［第１の実施形態］図１は、本発明の第１
の実施形態に係る音声認識装置を概略的に示すものであ
る。図１に示す音声認識装置は、入力された信号を分析
して発声区間を検出する発声区間検出部１０１と、この
発声区間検出部１０１で検出された発声区間の音声信号
を音響分析することにより、特徴ベクトルを抽出する特
徴ベクトル抽出部１０２と、発声区間検出部１０１で検
出された発声区間の音声信号から、当該音声信号のパワ
ーを用いて無音区間を検出する無音区間検出部１０６
と、予め学習された所定の各認識候補の標準特徴パター
ンが記憶されている標準特徴パターン記憶部１０４と、
無音区間検出部１０６で検出された無音区間情報を用い
て、特徴ベクトル抽出部１０２で抽出された特徴ベクト
ル系列と、標準特徴パターン記憶部１０４に記憶された
各認識候補の標準特徴パターンとを、ＨＭＭを用いた照
合方式で照合するパターン照合部１０３と、このパター
ン照合部１０３で得られる認識候補ごとの照合結果をも
とに、認識された発声内容を判定する、認識結果判定部
１０５とを具備している。

【００２０】なお図１では、発声者が発声した音声を入
力してデジタルの電気信号（デジタル音声信号）に変換
する、マイクロホン、Ａ／Ｄ（アナログ／デジタル）変
換器を含む音声入力部は省略されている。

【００２１】次に、図１の構成の音声認識装置の処理概
念を説明する。発声区間検出部１０１において検出され
た発声区間の音声信号は、特徴ベクトル抽出部１０２
で、予め定められた複数の周波数帯域毎に周波数分析さ
れ、特徴ベクトル系列（特徴ベクトル時系列）｛ｘｔ｝
に変換される。特徴ベクトル（特徴パラメータ）はフレ
ームと呼ばれる固定の時間長を単位に求められる。音声
認識に使用される代表的な特徴ベクトルとしては、バン
ドパスフィルタまたはフーリエ変換によって求めること
ができるパワースペクトラムや、ＬＰＣ（線形予測）分
析によって求められるケプストラム係数などがよく知ら
れている。但し、本実施形態では、使用する特徴ベクト
ルの種類は問わない。特徴ベクトル抽出部１０２により
抽出された特徴ベクトルの時系列は、パターン照合部１
０３に送られる。

【００２２】一方、上記発声区間の音声信号は、無音区
間検出部１０６にも送られ、当該音声信号の短時間パワ
ーから、上記特徴ベクトル系列のフレームと同期して無
音区間が検出される。図２はこの部分の処理によって、
無音区間が検出された信号の様子を概念的に表わしてい
る。図２の横軸は時間、縦軸は信号の短時間パワーであ
り、ＴＨは予め設定されているパワーの閾値である。

【００２３】無音区間検出部１０６では、各時刻ｔの短
時間パワーの値Ｐｔとパワーの閾値ＴＨが毎時刻比較さ
れ、Ｐｔ＜ＴＨとなる区間が無音区間と判定される。こ
のようにして得られた無音区間を示す情報（無音区間情
報）は、パターン照合部１０３に送られる。なお、ここ
で時刻ｔは、発声区間におけるｔ番目のフレームを指
す。

【００２４】パターン照合部１０３では、入力された特
徴ベクトル系列、無音区間情報、及び予め学習しておい
た標準特徴パターン（標準パターン）を用いて、パター
ン照合が行われる。標準特徴パターンは、所定の認識候
補（認識単位）ごとにＨＭＭとして標準特徴パターン記
憶部１０４に予め記憶されている。認識の際には、この
ＨＭＭをそのまま、或いは組み合わせて用いる。

【００２５】図３は、照合に用いられるＨＭＭの構造を
表わしている。ここで状態遷移のうち符号ｃが付された
遷移はナル遷移であり、符号ａ，ｂが付された遷移はそ
れぞれ、通常の状態遷移及び自己ループである。なお、
図３のＨＭＭでは、ナル遷移はすべての状態間に仮定し
ているが、ここに制約を設けてナル遷移が生じる状態を
制限することも可能である。

【００２６】次に、パターン照合部１０３で適用され
る、図３の構造のＨＭＭを用いたパターン照合方式につ
いて図４のフローチャートを参照して説明する。ステッ
プＳ１０１では、入力された時刻ｔの信号、即ちｔ番目
のフレームの信号が発声区間であるか否かが、発声区間
検出部１０１での検出結果に基づいて判定される。時刻
ｔの入力信号が発声区間の信号である場合にはステップ
Ｓ１０２に、発声区間の信号でなければステップＳ１０
６に進む。

【００２７】ステップＳ１０２では、無音区間検出部１
０６での検出結果に基づいて、入力された時刻ｔの信号
が無音区間の信号であるか否かが判定される。無音区間
の信号と判定された場合にはステップＳ１０７に、有音
区間の信号と判定された場合にはステップＳ１０３に進
む。

【００２８】ステップＳ１０３では、フラグ（ＦＬＡ
Ｇ）の値が評価される。フラグは０または１の値を取
り、時刻ｔ−１の信号（つまり１フレーム前の信号）が
無音区間に属していたか（ＦＬＡＧ＝０の場合）、有音
区間に属していたか（ＦＬＡＧ＝１の場合）を示す。フ
ラグの値が０の場合には時刻ｔが（時刻ｔ−１までの）
無音区間から有音期間に切り替わった（変化した）時刻
であると判定されて最終ステップＳ１０８に、１の場合
には無音区間が継続していると判定されてステップＳ１
０４に進む。

【００２９】ステップＳ１０４では、図３に示されるＨ
ＭＭにおいて、時刻ｔの信号に対する、ナル遷移を除く
すべての状態遷移確率、及びすべての分布の出力確率が
計算され、最適な遷移が決定される。決定後、ステップ
Ｓ１０５に進む。ステップＳ１０５では、時刻ｔが次の
時刻ｔ＋１に設定され、ステップＳ１０１に戻る。

【００３０】ステップＳ１０６では、各認識候補ごと
に、図３に示されたＨＭＭにおいて、発声区間終了時刻
ｔで照合スコアが最大となる状態が選択され、その認識
候補ごとの照合スコアが認識結果判定部１０５に送ら
れ、処理を終了する。ここで照合スコアは、周知のよう
に入力音声信号の特徴ベクトル系列と標準特徴パターン
との類似度または距離を表す評価値であるステップＳ１
０７では、ステップＳ１０２で時刻ｔの信号が無音区間
の信号であると判定されたことを受け、前述したフラグ
の値を０に設定し、ステップＳ１０５に進む。

【００３１】ステップＳ１０８では、ステップＳ１０３
で時刻ｔの信号が、無音区間から有音区間へ切り替わっ
た時刻であると判定されたことを受け、図３に示された
ＨＭＭにおいて、まずナル遷移を行い、各状態における
時刻ｔ−１における照合スコアを更新する。照合スコア
更新後、ナル遷移を除くすべての状態遷移確率、及びす
べての分布の出力確率が計算され、最適な遷移が決定さ
れる。決定後、ステップＳ１０９へ進む。この部分の処
理の詳細は、後述する。

【００３２】ステップＳ１０９では、ステップＳ１０２
で時刻ｔの信号が有音区間の信号であると判定されたこ
とを受けて、前述したフラグの値を１に設定し、ステッ
プＳ１０５に進む。

【００３３】以上が、本発明に直接関係するパターン照
合方式の概略と流れである。上記パターン照合方式を適
用したパターン照合部１０３での処理により、すべての
認識候補の照合スコアが計算され、認識結果判定部１０
５において最大スコアをとる認識候補が認識結果として
選択される。

【００３４】ここで、無音区間から有音区間へ切り替わ
った時刻ｔにおける上記ステップＳ１０８の処理の詳細
について、図５のフローチャートを参照して説明する。
時刻ｔにおいて、まずステップＳ４０１で状態番号ｉが
最終状態に設定される。

【００３５】ステップＳ４０２では、状態ｉについて、
状態０から状態ｉのうち、時刻ｔ−１（１フレーム前）
における最適経路の照合スコアが最大となる状態ｊが選
択される。

【００３６】ステップＳ４０３では、状態ｊから状態ｉ
へのナル遷移が起こり、状態ｉの時刻ｔ−１（１フレー
ム前）における照合スコアが、状態ｊの同時刻ｔ−１に
おける照合スコアに置き換えられる。

【００３７】ステップＳ４０４では、状態ｉが先頭の状
態０であるかどうかが判定される。状態０である場合に
は最終ステップＳ４０６に、そうでなければステップＳ
４０５に進む。

【００３８】ステップＳ４０５では、ｉが１だけカウン
トダウンされ、ステップＳ４０２に戻る。ステップＳ４
０６では、すべての状態に対して、時刻ｔにおける、ナ
ル遷移を除く最適経路、及びその照合スコアが求められ
る。

【００３９】このように無音区間から有音区間へ切り替
わった時刻にナル遷移を考えることにより、無音区間の
特徴ベクトルを照合に用いなかった影響を取り除くこと
ができる。なお、ここでは、状態ｉへのナル遷移は、状
態０から状態ｉのすべての状態から起こり得るとしてい
るが、ここに制約を設けて、例えば、無音区間の継続時
間などによって状態ｉへのナル遷移が可能な状態を制限
する（継続時間が短いほど状態数を減らす）ことも可能
である。また無音区間の継続時間が所定の閾値以下の場
合には、ナル遷移を起こさないようにすることも可能で
ある。更に、ここでは、ナル遷移が可能な状態を最終状
態から先頭の状態すべてについて探索しているが、これ
は必ずしもすべての状態について行う必要はなく、予め
事前情報に基づいて無音区間が発生しやすい状態につい
てのみナル遷移を行うことも可能である。

【００４０】次に、本実施形態の効果を図６乃至図９を
参照して説明する。図６は「とさか（ＴＯＳＡＫＡ）」
と発声したときの、信号のパワーのイメージ図である。
ここで、時刻Ｔ０，Ｔ７はそれぞれ、発声区間の始端時
刻、終端時刻を示している。また、時刻Ｔ０−Ｔ１，Ｔ
２−Ｔ３，Ｔ４−Ｔ５，Ｔ６−Ｔ７の各区間は、それぞ
れ、パワーの閾値ＴＨにより無音区間と判定された区間
である。

【００４１】一般に発声区間中の無音区間は、促音や摩
擦音、有声音の無声化などにより発生し、この区間内で
は、背景雑音の影響が相対的に大きくなるため、誤った
パターンとのマッチングが起こりやすい。そしてその結
果、誤認識が生じることがある。図６によれば、Ｔ０か
らＴ１、Ｔ２からＴ３、Ｔ４からＴ５、及びＴ６からＴ
７の区間で誤ったパターンマッチングが生じる虞があ
る。

【００４２】図７は、Ｔ２からＴ３の区間における音声
信号の短時間パワーの様子と発生内容（ここでは音素列
で表現）を更に詳細に示したものである。この例では、
摩擦音／Ｓ／に相当する区間は、完全に閾値ＴＨ以下と
なっている。上述したように、この場合、パワーの閾値
ＴＨ以下であるＴ２からＴ３の区間は、誤ったマッチン
グを起こしやすい。

【００４３】図８は、簡単のため１つの音素を１状態で
表わした「ＴＯＳＡＫＡ」を表わすＨＭＭである。ここ
では簡単のため、状態／Ｏ／／Ｓ／／Ａ／／Ｋ／／Ａ／
からのナル遷移については省略してある。

【００４４】図８のようなＨＭＭに対して、先に述べた
パターン照合方式を適用すると、Ｔ２からＴ３の区間
（音声信号の無音区間）では、特徴ベクトル系列が照合
に用いられないように制御される。このため、音声信号
の有音区間、無音区間に無関係に特徴ベクトル系列が照
合に用いられる従来技術とは異なって、Ｔ２からＴ３の
区間（無音区間）における誤ったマッチングが生じるこ
とがなく、したがって照合スコアに悪影響を与えること
がない。しかも、本実施形態で適用されるパターン照合
方式では、無音区間から有音区間へ変わる時刻にはナル
遷移を許しているので、無音区間を照合に用いなかった
ことによる状態遷移の矛盾が生じない。

【００４５】以上の結果、本実施形態では、照合スコア
に悪影響を与えることなく、図９で示したような遷移が
可能になる。この例では、音素／Ｓ／に相当する特徴ベ
クトルのパワーが、パワーの閾値ＴＨ以下となっている
ため、この部分の特徴ベクトルが照合に使われず、それ
を表現するために、音素／Ｏ／から音素／Ａ／へのナル
遷移を許し、音素／Ｓ／の状態を経由することを回避し
ている。このことは、Ｔ２−Ｔ３以外の無音区間（Ｔ０
−Ｔ１，Ｔ４−Ｔ５，Ｔ６−Ｔ７）についても全く同様
に考えられる。

【００４６】発声区間が終了した場合には、すべての状
態の、時刻Ｔ７における最適な状態遷移経路、及びその
ときの照合スコアが求まるので、最大となるスコアを認
識結果の判定に用いればよい。

【００４７】この方法を用いれば、発声に対する認識候
補の照合において、無音区間の誤ったマッチングによ
り、誤った認識候補の照合スコアが大きくなることを回
避できる。その結果、照合スコアの精度が向上するの
で、認識率の改善につながる。以上が本発明の第１の実
施形態に係る音声認識装置の構成、作用、効果の詳細な
説明である。

【００４８】［第２の実施形態］図１０は、本発明の第
２の実施形態に係る音声認識装置を概略的に示すもので
ある。

【００４９】図１０に示す音声認識装置は、発声区間検
出部２０１、特徴ベクトル抽出部２０２、パターン照合
部２０３、標準特徴パターン記憶部２０４、認識結果判
定部２０５、及びＮ個の無音区間検出部（＃１）２０６
−１〜（＃Ｎ）２０６−Ｎとを具備している。

【００５０】図１０の構成の特徴は、（図１中の無音区
間検出部１０６に相当する）Ｎ個の無音区間検出部＃１
（２０６−１）〜＃Ｎ（２０６−Ｎ）により、予め用意
された異なる信号のパワーの閾値ＴＨ１〜ＴＨＮに基づ
いて（発声区間の）音声信号の無音区間が検出されるよ
うになっている点にある。このため、（図１中のパター
ン照合部１０３、認識結果判定部１０５に相当する）パ
ターン照合部２０３、認識結果判定部２０５の機能も、
後述するように一部異なっている。なお、それ以外の構
成要素、即ち発声区間検出部２０１、特徴ベクトル抽出
部２０２、標準特徴パターン記憶部２０４は、図１中の
発声区間検出部１０１、特徴ベクトル抽出部１０２、標
準特徴パターン記憶部１０４と同様である。

【００５１】そこで、図２の構成の音声認識装置の動作
について、図１の音声認識装置と異なる部分を中心に説
明する。無音区間検出部＃１（２０６−１）〜＃Ｎ（２
０６−Ｎ）には、発声区間検出部２０１で検出された音
声信号が並列に入力される。各無音区間検出部＃ｉ（ｉ
＝１〜Ｎ）には、それぞれ異なるパワーの閾値ＴＨｉが
用意されており、それらの閾値を用いて独立に音声信号
の無音区間が検出される。

【００５２】図１１は、無音区間検出部＃１（２０６−
１）、無音区間検出部＃２（２０６−２）、…無音区間
検出部＃Ｎ（２０６−Ｎ）で、予め設定されたパワーの
閾値ＴＨ１，ＴＨ２，…ＴＨＮに基づき、発声区間にお
ける音声信号の無音区間が検出される様子を表してい
る。ここでは、ＴＨｉ＞ＴＨｉ＋１となるように設定さ
れているものとする。

【００５３】無音区間検出部＃１（２０６−１）〜＃Ｎ
（２０６−Ｎ）にて独立に検出された無音区間を示す情
報（無音区間情報）はパターン照合部２０３に送られ
る。パターン照合部２０３には、特徴ベクトル抽出部２
０２により抽出された特徴ベクトルの時系列（特徴ベク
トル系列）も送られる。パターン照合部２０３では、特
徴ベクトル抽出部２０２から入力される特徴ベクトル系
列と、各無音区間検出部＃１（２０６−１）〜＃Ｎ（２
０６−Ｎ）から入力される無音区間情報を用いて、各認
識候補の照合スコアが計算される。

【００５４】ここで、パターン照合部２０３及び認識結
果判定部２０５における処理を、図１２のフローチャー
トを参照して説明する。ステップＳ２０１では、初期設
定処理が行われ、無音区間検出部＃ｉを示すパラメータ
（無音区間検出部番号）としてｉ＝１が設定される。

【００５５】ステップＳ２０２では、すべての認識候補
について、無音区間検出部＃ｉからの無音区間情報を用
いてパターン照合部２０３により照合スコアが算出され
る。このパターン照合部２０３での照合スコア計算に
は、前記第１の実施形態で述べた（パターン照合部１０
３での）照合方式を用いる。

【００５６】ステップＳ２０３では、ステップＳ２０２
で算出された各認識候補ごとの照合スコアから、予め用
意された枝刈りのための認識候補数Ｍｉに従い、上位Ｍ
ｉ位までの認識候補が選択され、次のステップの認識候
補として残される。ここでは、Ｍｉ＞Ｍｉ＋１となるよ
うに設定されているものとする。

【００５７】ステップＳ２０４では、ｉが無音区間検出
部＃Ｎを表すパラメータ値（無音区間検出部番号）Ｎに
達したかどうかが判定される。ｉ＝Ｎとなったなら最終
ステップＳ２０６に、そうでなければステップＳ２０５
に進む。ステップＳ２０５では、ｉが１だけカウントア
ップされ、ステップＳ２０２に戻る。

【００５８】ステップＳ２０６では、その時点において
残されている（上位ＭＮ位までの）認識候補の中から照
合スコアが最大となるものが認識結果判定部２０５によ
り選ばれ、認識結果として出力される。以上、第２の実
施形態でのパターン照合部２０３及び認識結果判定部２
０５における処理について説明した。

【００５９】以上の方式を用いれば、認識候補の選択の
際に、スペクトルが安定するパワーの大きな部分に重み
をかけることができ、スペクトルが不安定なパワーの低
い区間の影響を減らすことができる。また、パワーの閾
値を段階的に変えて、認識候補の枝刈りをしながらパタ
ーン照合を行うことにより、段階的に認識候補を絞るこ
とができ、認識の精度を向上させ、誤認識を減らすこと
ができる。以上が本発明の第２の実施形態に係る音声認
識装置の構成、作用、効果の詳細な説明である。

【００６０】（第２の実施形態の第１変形例）以上に述
べた第２の実施形態では、パターン照合部２０３におけ
る認識候補の枝刈りを、パワーの閾値の大きいものから
順に用いて行うものとして説明したが、逆にパワーの閾
値の小さいものから順に行うことも可能である。

【００６１】そこで、図１０の構成において認識候補の
枝刈りをパワーの閾値の小さいものから順に行う方式を
適用した、第２の実施形態の第１変形例について、図１
３のフローチャートを参照して説明する。

【００６２】ステップＳ３０１では、ｉ＝Ｎが初期設定
される。ステップＳ３０２では、すべての認識候補に対
して、無音区間検出部＃ｉからの無音区間情報を用いて
パターン照合部２０３により照合スコアが算出される。
このパターン照合部２０３での照合スコア計算には、前
記第１の実施形態で述べた（パターン照合部１０３で
の）照合方式を用いる。

【００６３】ステップＳ３０３では、ステップＳ３０２
で算出された照合スコアから、予め用意された枝刈りの
ための認識候補数Ｍｉに従い、上位Ｍｉ位までの認識候
補が選択され、次のステップの認識候補として残され
る。ここでは、先の照合方式の例と異なって、Ｍｉ＜Ｍ
ｉ＋１となるように設定されているものとする。

【００６４】ステップＳ３０４では、ｉが無音区間検出
部＃１を表すパラメータ値（無音区間検出部番号）１に
達したかどうかが判定される。ｉ＝１となったなら最終
ステップＳ３０６に、そうでなければステップＳ３０５
に進む。ステップＳ３０５では、ｉが１だけカウントダ
ウンされ、ステップＳ３０２に戻る。

【００６５】ステップＳ３０６では、その時点において
残されている（上位Ｍ１位までの）認識候補の中から照
合スコアが最大となるものが認識結果判定部２０５によ
り選ばれ、認識結果として出力される。以上、第２の実
施形態の第１変形例に係るパターン照合部２０３及び認
識結果判定部２０５における処理について説明した。

【００６６】以上の方式では、まず小さいパワーの閾値
で、無音区間における誤ったマッチングを許して複数の
認識候補が選択される。正解候補は、無音区間以外では
正しくマッチングするので、上位候補に入る。そして、
徐々にパワーの閾値を大きくしてマッチングを行うこと
により、無音区間における誤ったマッチングの影響を減
らすことができ、最終的に正解候補を検出することが可
能である。

【００６７】このような方式を用いれば、認識候補選択
の際に、まず、無音区間における誤ったマッチングを含
む認識候補の中から、段階的に無音区間の誤ったマッチ
ングの影響を減らしていくことができ、認識の精度を向
上させ、誤認識を減らすことができる。以上が本発明の
第２の実施形態の第１変形例における音声認識装置の作
用、効果の詳細な説明である。

【００６８】（第２の実施形態の第２変形例）以上に述
べた第２の実施形態、及び当該実施形態の第１変形例で
は、異なるパワーの閾値ＴＨｉを用いて各閾値ＴＨｉご
とに検出される無音区間の情報に対してパターン照合部
２０３で得られる複数の照合スコアを順番に用いて認識
候補を枝刈りし、認識結果を求めるものとして説明した
が、これに限るものではない。例えば、各閾値ＴＨｉご
とに得られる照合スコアの重み付け和をとることにより
認識結果を判定することも可能である。

【００６９】そこで、この方式を用いた第２の実施形態
の第２変形例について、図１４のフローチャートを参照
して説明する。ステップＳ５０１では、認識候補番号ｉ
が１に初期設定される。

【００７０】ステップＳ５０２では、無音区間検出部＃
ｊを示すパラメータ（無音区間検出部番号）ｊが１に初
期設定される。ステップＳ５０３では、無音区間検出部
＃ｊからの無音区間情報を用いて認識候補ｉ（認識候補
番号がｉの認識候補）の照合スコアｓｉｊがパターン照
合部２０３により計算される。

【００７１】ステップＳ５０４では、ｊが無音区間検出
部＃Ｎを表すパラメータ値（無音区間検出部番号）Ｎに
達したかどうかが判定される。ｊ＝Ｎとなったならステ
ップＳ５０６に、そうでなければステップＳ５０５に進
む。ステップＳ５０５では、ｊが１だけカウントアップ
され、ステップＳ５０３に戻る。

【００７２】ステップＳ５０６では、各無音区間検出部
＃ｊ（ｊ＝１〜Ｎ）、つまり無音区間検出部＃１〜＃Ｎ
からの無音区間情報を用いて算出された照合スコアｓｉ
ｊの重みｗｊによる重み付け和、つまりｓｉ１〜ｓｉＮ
の重みｗ１〜ｗＮによる重み付け和が計算され、認識結
果判定に用いられる認識候補ｉの照合スコアＳｉが計算
される。ここでｗｊは予め定められている重み（０≦ｗ
ｊ≦１）であり、無音区間検出部＃ｊからの無音区間情
報を用いて算出された照合スコアｓｉｊに対する重みで
ある。

【００７３】ステップＳ５０７では、すべての認識候補
について照合スコアＳｉが計算されたかどうかが、ｉの
値により判定される。ｉが、認識候補数に達していれば
最終ステップＳ５０９に、達していなければステップＳ
５０８に進む。ステップＳ５０８では、認識候補番号ｉ
が１だけカウントアップされて、ステップＳ５０２に戻
る。

【００７４】ステップＳ５０９では、認識結果判定部２
０５により、すべての認識候補の照合スコアＳｉが比較
され、Ｓｉが最大となる認識候補が認識結果として判定
されて出力される。以上、第２の実施形態の第２変形例
に係るパターン照合部２０３及び認識結果判定部２０５
における処理について説明した。

【００７５】以上の方式では、異なるパワーの閾値ＴＨ
１〜ＴＨＮに基づいて得られる各閾値ごとの無音区間情
報を用いて算出される、同一認識候補ｉについての照合
スコアｓｉ１〜ｓｉＮに対して適当な重みｗ１〜ｗＮを
かけて和をとることにより、無音区間の影響を任意に照
合スコアに反映させることができる。このため、無音区
間における誤ったマッチングの影響を減らすことができ
る。以上が本発明の第２の実施形態の第２変形例におけ
る音声認識装置の作用、効果の詳細な説明である。

【００７６】なお、前記第２の実施形態では、無音区間
検出部＃１（２０６−１）〜＃Ｎ（２０６−Ｎ）が並行
して動作するものとして説明したが、発声区間検出部２
０１で検出された発声区間の音声信号をメモリ等の記憶
手段に格納しておき、この状態で無音区間検出部＃１
（２０６−１）〜＃Ｎ（２０６−Ｎ）を順に起動して、
上記記憶手段内の音声信号を対象としてその無音区間検
出部に固有の閾値で無音区間を検出させ、その都度検出
した無音区間情報をパターン照合部２０３に送るように
しても構わない。

【００７７】また、以上の実施形態における発声区間検
出部１０１（２０１）、特徴ベクトル抽出部１０２（２
０２）、パターン照合部１０３（２０３）、認識結果判
定部１０５（２０５）、無音区間検出部１０６（２０６
−１〜２０６−Ｎ）の各機能は、ソフトウェアとしても
実現可能である。

【００７８】また、本実施形態は、コンピュータに以上
の実施形態に係る音声認識装置で適用したパターン照合
方式を含む所定の手順を実行させるための（或いはコン
ピュータを音声認識装置の持つ所定の手段として機能さ
せるための、或いはコンピュータに音声認識装置の持つ
所定の機能を実現させるための）プログラムを記録した
コンピュータ読み取り可能なＣＤ−ＲＯＭ等の記録媒体
として実施することもできる。また、このプログラムが
通信媒体を介してダウンロードされるものであっても構
わない。

【００７９】この他、本発明の実現形態には上述の例に
対して種々の変形が可能であり、それらも趣旨に反しな
い限り本発明の実施形態の範囲内である。

【００８０】

【発明の効果】以上説明したように、本発明によれば、
発声区間内に予期しないパワーの低い無音区間が存在し
ても、その無音区間を検出し、標準特徴パターンとの照
合の際に利用することにより、無音区間における誤った
パターンマッチングを回避することができ、高精度な認
識が可能となる等の実用上多大な効果が奏せられる。

【図面の簡単な説明】

【図１】本発明の第１の実施形態に係る音声認識装置の
基本構成を表わすブロック図。

【図２】入力音声信号における無音区間を表わす概念
図。

【図３】ナル遷移を含むＨＭＭの構成を示す図。

【図４】パターン照合方式の流れを示す図。

【図５】無音区間から有音区間へ切り替わった時刻にお
ける処理の流れを示す図。

【図６】入力音声信号におけるパワーの様子を示す図。

【図７】入力音声信号におけるパワーの様子の詳細を示
す図。

【図８】ＨＭＭの構成の具体例を示す図。

【図９】パターン照合処理後の最適経路の概念図。

【図１０】本発明の第２の実施形態に係る音声認識装置
の基本構成を表わすブロック図。

【図１１】複数の閾値による入力信号の無音区間を表わ
す概念図。

【図１２】複数の閾値を用いるパターン照合方式の流れ
を示す図。

【図１３】複数の閾値を用いるパターン照合方式の流れ
の第１変形例を示す図。

【図１４】複数の閾値を用いるパターン照合方式の流れ
の第２変形例を示す図。

【符号の説明】

１０１，２０１…発声区間検出部１０２，２０２…特徴ベクトル抽出部１０３，２０３…パターン照合部１０４，２０４…標準特徴パターン記憶部１０５，２０５…認識結果判定部１０６，２０６−１〜２０６−Ｎ…無音区間検出部

───────────────────────────────────────────────────── フロントページの続き (72)発明者金澤博史兵庫県神戸市東灘区本山南町８丁目６番26 号株式会社東芝関西研究センター内Ｆターム(参考） 5D015 DD03 DD05 HH11 HH23

Claims

【特許請求の範囲】

【請求項１】入力される信号を音響分析して音声が発
声された区間を検出して、検出した発声区間の音声信号
から特徴ベクトル系列を抽出し、前記抽出した特徴ベク
トル系列と所定の認識候補ごとに予め用意されている音
声信号の標準パターンとを第１の照合方式にて照合する
ことにより、両者の類似度または距離を表す照合スコア
を計算し、各認識候補ごとの照合スコアに基づいて認識
結果を判定する音声認識方法において、前記検出した発声区間の音声信号の短時間パワーから音
声信号の無音区間を検出し、その無音区間の特徴ベクトル系列をパターン照合の対象
外とすると共に、無音区間から有音区間へ変化する時刻
に相当する特徴ベクトル系列につき無音区間の影響を考
慮した第２の照合方式を用いて照合することにより照合
スコアを計算することを特徴とする音声認識方法。
【請求項２】前記第１の照合方式は隠れマルコフモデ
ル照合方式であり、前記第２の照合方式はナル遷移を許
す隠れマルコフモデル照合方式であることを特徴とする
請求項１記載の音声認識方法。
【請求項３】入力される信号を音響分析して音声が発
声された区間を検出して、その検出した発声区間の音声
信号から特徴ベクトル系列を抽出する一方、前記検出した発声区間の音声信号の短時間パワーから、
それぞれ異なる閾値に基づいて音声信号の無音区間を独
立に検出し、前記抽出した特徴ベクトル系列と所定の認識候補ごとに
予め用意されている音声信号の標準パターンとを、前記
異なる閾値に基づいて独立に検出される無音区間の情報
に基づいて、隠れマルコフモデル照合方式にて照合する
ことにより、前記各閾値別に両者の類似度または距離を
表す照合スコアを計算し、その際に対応する閾値に基づ
いて検出した無音区間の特徴ベクトル系列をパターン照
合の対象外とすると共に、前記無音区間から有音区間へ
変化する時刻にのみ、ナル遷移を許す隠れマルコフ照合
方式を適用し、各閾値別に求めた各認識候補ごとの照合スコアに基づい
て認識結果を判定することを特徴とする音声認識方法。
【請求項４】１つの閾値について前記各認識候補ごと
の照合スコアの計算を実行する都度、その認識候補ごと
の照合スコアに基づいて認識候補を絞り、その動作を、
前記閾値を一定方向に段階的に切り替えながら繰り返す
ことを特徴とする請求項３記載の音声認識方法。
【請求項５】同一認識候補について各閾値別に得られ
る照合スコアの重み付け和を算出する処理を全ての認識
候補について実行し、その全認識候補各々の照合スコア
の重み付け和に基づいて認識結果を判定することを特徴
とする請求項３記載の音声認識方法。
【請求項６】入力される信号を音響分析して音声が発
声された区間を検出する発声区間検出手段と、前記発声区間検出手段により検出された発声区間の音声
信号から特徴ベクトル系列を抽出する特徴ベクトル抽出
手段と、前記発声区間検出手段により検出された発声区間の音声
信号の短時間パワーから、音声信号の無音区間を検出す
る無音区間検出手段と、所定の各認識候補の音声信号の標準パターンを記憶する
標準パターン記憶手段と、前記特徴ベクトル抽出手段により抽出された特徴ベクト
ル系列と前記標準パターン記憶手段に記憶されている各
認識候補の標準パターンとを隠れマルコフ照合方式にて
照合することにより、両者の類似度または距離を表す照
合スコアを計算するパターン照合手段であって、前記無
音区間検出手段により検出された無音区間の特徴ベクト
ル系列をパターン照合の対象外とすると共に、前記無音
区間から有音区間へ変化する時刻にのみ、ナル遷移を許
す隠れマルコフ照合方式にて照合するパターン照合手段
と、前記パターン照合手段により求められる各認識候補ごと
の照合スコアに基づいて認識結果を判定する認識結果判
定手段とを具備することを特徴とする音声認識装置。
【請求項７】入力される信号を音響分析して音声が発
声された区間を検出する発声区間検出手段と、前記発声区間検出手段により検出された発声区間の音声
信号から特徴ベクトル系列を抽出する特徴ベクトル抽出
手段と、前記発声区間検出手段により検出された発声区間の音声
信号の短時間パワーから、それぞれ異なる閾値に基づい
て音声信号の無音区間を検出する複数の無音区間検出手
段と、所定の各認識候補の音声信号の標準パターンを記憶する
標準パターン記憶手段と、前記特徴ベクトル抽出手段により抽出された特徴ベクト
ル系列について、前記各無音区間検出手段によりそれぞ
れ検出された無音区間の特徴ベクトル系列を除いて、前
記異なる閾値別に、前記標準パターン記憶手段に記憶さ
れている各認識候補の標準パターンと隠れマルコフ照合
方式にて照合することにより、両者の類似度または距離
を表す照合スコアを計算するパターン照合手段であっ
て、前記無音区間から有音区間へ変化する時刻にのみ、
ナル遷移を許す隠れマルコフ照合方式にて照合するパタ
ーン照合手段と、前記パターン照合手段により各閾値別に求められる各認
識候補ごとの照合スコアに基づいて認識結果を判定する
認識結果判定手段とを具備することを特徴とする音声認
識装置。