JPH08305389A

JPH08305389A - 音声認識装置

Info

Publication number: JPH08305389A
Application number: JP7114628A
Authority: JP
Inventors: Kenichi Iso; 健一磯
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1995-05-12
Filing date: 1995-05-12
Publication date: 1996-11-22
Anticipated expiration: 2013-04-08
Also published as: JP2738403B2; EP0742546B1; US5956677A; EP0742546A2; EP0742546A3; DE69633757D1; CA2176103C; CA2176103A1; DE69633757T2

Abstract

(57)【要約】【目的】音声認識装置における標準パターンの精度を
改善し、認識性能を向上させる。【構成】音声データとその記号列表記を格納した音声
データ格納部６０と、認識対象単語の記号列表記中の任
意の部分列と音声データ格納部６０中の部分列を表記に
含む音声データの指標との組を格納した標準パターン格
納部５０とを有している。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識装置の標準パ
ターンの改善に関する。

【０００２】

【従来の技術】認識対象語彙の変更が容易な音声認識装
置を実現する方法として、文脈依存音素標準パターンを
用いる方法が広く利用されている。この方法によれば、
任意の認識対象単語の標準パターンは、その音素表記に
対応する文脈依存音素標準パターンを連結して構成する
ことができる。各音素の文脈依存音素標準パターン（先
行音素と後続音素を含めた３つ組みで指定される）は、
学習用に収集した多数の音声データを音素単位にセグメ
ーションし、先行音素と後続音素まで一致する音声セグ
メントを選び出して集めて、その平均として作成され
る。このような方法は、例えば、「IEEE Transactions
on Acoustics, Speech, and Signal Processing, 1990,
Vol.38, No.4, page.599-609, Kai-Fu Lee 」に記載さ
れている。尚、この方法において、文脈依存音素標準パ
ターンを作成する際に用いる音声データベースは、音声
認識装置とは個別に設けられており、標準パターン作成
の際に用いるのみである。

【０００３】図５に、音声データベース中の「ＷＸＹ
Ｚ」という音素列に対応する音声データから文脈依存音
素標準パターンを作成する例を示す。図５において、
「Ｘ（Ｗ、Ｙ）」は音素Ｘの文脈依存音素標準パターン
であり、先行音素がＷ、後続音素がＹである。同じ文脈
依存音素が他の音声データにも出現する場合は、それら
を集めて、その平均を標準パターンとする。

【０００４】

【発明が解決しようとする課題】ところで、図５に示し
た例をも含め、従来法により前後１音素の文脈を考慮し
た音素標準パターンを作成すると、たとえ音声データベ
ース中に前後２音素まで認識対象単語中の音素と同じ文
脈を含む音声データが存在しても、認識には一切利用さ
れない。即ち、従来法においては、学習時に固定した音
素文脈に基づいて標準パターンを作成してしまい、さら
に、考慮する音素文脈も、組み合わせ数の爆発的増加を
回避するために前後１音素にとどめるものが多い。この
ため、収集した音声データベースが有効に活用されず、
認識精度を向上させることができないという問題点があ
る。

【０００５】本発明の技術的課題は、音声認識装置にお
ける標準パターンの精度を改善し、認識性能を向上させ
ることである。

【０００６】

【課題を解決するための手段】本発明では、以下に示す
手段によって、上記技術的課題に対応する。

【０００７】（１）音声データとその記号列表記を格
納した音声データ格納部と、認識対象単語の記号列表記
中の任意の部分列と前記音声データ格納部中の該部分列
を表記に含む音声データの指標との組を格納した標準パ
ターン格納部とを有することを特徴とする音声認識装
置。

【０００８】（２）上記手段（１）に記載の音声認識
装置において、前記標準パターン格納部中の部分列と入
力音声の任意の区間のあいだの距離を算出する距離計算
部と、認識対象単語記号列の部分列への可能な分割の中
で、前記距離の入力音声の全区間にわたる総和を最小に
する分割を選出し、そのときの距離の総和を入力音声と
認識対象単語とのあいだの距離として出力するパターン
マッチング部とを有することを特徴とする音声認識装
置。

【０００９】（３）上記手段（２）に記載の音声認識
装置において、前記距離計算部における距離として、部
分列に対応する前記音声データ格納部中の音声データの
任意の区間と、入力音声の任意の区間のあいだの距離を
用いることを特徴とする音声認識装置。

【００１０】

【実施例】以下、図面を参照して、本発明に基づく音声
認識装置の実施例を説明する。図１は、本実施例による
音声認識装置の基本的な構成を示すブロック図である。
図１において、特徴抽出部２０は、マイクロホン１０か
ら入力された音声を分析し、抽出した特徴ベクトル列を
距離計算部３０に送る。距離計算部３０は、標準パター
ン格納部５０に格納された部分列に対応する音声データ
を音声データ格納部６０から読み出し、その任意の区間
と入力音声の任意の区間とのあいだの距離を計算する。
パターンマッチング部４０は、距離計算部３０による距
離の認識対象単語区間にわたる総和が最小になる分割
を、各認識対象単語に対して求める。認識結果算出部７
０は、パターンマッチング部４０から出力される入力音
声と全認識対象単語の間の距離の中で、最小の距離を与
える認識対象単語を認識結果として出力する。

【００１１】以下に本実施例の音声認識装置の動作を、
図１に図２〜４を併せ参照して、さらに詳しく説明す
る。

【００１２】本発明では、音声データとその発話内容の
音素表記とを多数格納した音声データベースを用意す
る。即ち、音声データ格納部６０に格納する。認識対象
単語の標準パターンは、以下のように構成する。

【００１３】（１）図２に示すように、認識対象単語
の音素表記（音素列）を任意の長さの部分列に分割する
（重複や欠けがないように）。

【００１４】（２）図３に示すように、音声データベ
ース中の音声データで、その音素表記が上記部分列を含
む音声データを全て選び出す。

【００１５】認識対象単語の音素表記の全ての可能な分
割とそれに対応した音声データとの集合を認識対象単語
の標準パターンとして、標準パターン格納部５０に格納
する。パターンマッチング部４０における入力音声と認
識対象単語との間の距離は、以下のように定義する。

【００１６】（ａ）標準パターン格納部５０から認識
対象単語の特定の分割を選択する。認識対象単語の音素
表記をＷとすると、そのＮ個の部分列への分割をω
（１）ω（２）…ω（Ｎ）とする。

【００１７】（ｂ）選ばれた分割で定義される各部分
列を表記に含む音声データ格納部６０中の音声データか
ら、任意の区間の音声を切り出して、その部分列の音響
セグメントとする（図３）。

【００１８】部分列ω（ｎ）を表記に含む音声データの
中で第ｋ番目の音声データをＡ［ω（ｎ）、ｋ］とする
（ｋ＝１〜Ｋ（ｎ））。音声データ中の時刻σから時刻
τまでの区間の音響セグメントをＡ［ω（ｎ）、ｋ、
σ、τ］とする。

【００１９】（ｃ）図４に示すように、パターンマッ
チング部４０において部分列の順序に従って音響セグメ
ントを連結したものと入力音声との間の距離を、ＤＰマ
ッチングなどにより計算する。

【００２０】入力音声の時刻ｓから時刻ｔまでの区間の
音響セグメントをＸ［ｓ、ｔ］とすると、距離Ｄは、以
下の数式１により得られる。

【００２１】

【数１】数式１中、ｄは、２つの音響セグメントのあいだの距離
であり、距離計算部３０で算出される。

【００２２】また、入力音声の時間長をＴとすると、連
続性から以下の数式２により表される制約条件を満たす
必要がある。

【００２３】

【数２】（ｄ）工程（ｃ）における部分列への全ての可能な分
割と、工程（ｂ）における全ての可能な区間の切り出し
（ｓ、ｔ、σ、τ）の中で、工程（ｃ）において最小の
距離を与えるものを選出し、そのときの距離を入力音声
と認識対象単語とのあいだの距離とする。

【００２４】複数の認識対象単語の中で工程（ｄ）にお
ける入力音声との距離が最小になる認識対象単語を、音
声認識結果として、認識結果算出部７０が出力する。

【００２５】以上のようにして、音声認識装置の動作が
なされた。

【００２６】尚、本音声認識装置による認識結果を、本
装置の出力側に接続する図示しない情報処理機器、通信
機器、あるいは制御機器等への入力信号として利用する
ことが可能であることはいうまでもない。

【００２７】

【発明の効果】本発明では、前後１音素の音素文脈に限
定せずに、音声データベース中の音声データを認識時に
探索し、認識対象単語の音素列と文脈（従来法のように
固定的に前後１音素に限定しない）とが一致するものを
全て利用する。また、音響セグメントの切り出しも入力
音声と最も一致するものを認識時に自動決定する。この
ため、標準パターンの精度を改善し、認識性能を向上さ
せることができる。

【図面の簡単な説明】

【図１】本発明の実施例による音声認識装置の要部を示
すブロック図である。

【図２】図１に示す音声認識装置の動作を説明するため
の図である。

【図３】図１に示す音声認識装置の動作を説明するため
の図である。

【図４】図１に示す音声認識装置の動作を説明するため
の図である。

【図５】従来法を説明するための図である。

【符号の説明】

１０マイクロホン２０特徴抽出部３０距離計算部４０パターンマッチング部５０標準パターン格納部６０音声データ格納部７０認識結果算出部

Claims

【特許請求の範囲】

【請求項１】音声データとその記号列表記を格納した
音声データ格納部と、認識対象単語の記号列表記中の任
意の部分列と前記音声データ格納部中の該部分列を表記
に含む音声データの指標との組を格納した標準パターン
格納部とを有することを特徴とする音声認識装置。
【請求項２】請求項１に記載の音声認識装置におい
て、前記標準パターン格納部中の部分列と入力音声の任
意の区間のあいだの距離を算出する距離計算部と、認識
対象単語記号列の部分列への可能な分割の中で、前記距
離の入力音声の全区間にわたる総和を最小にする分割を
選出し、そのときの距離の総和を入力音声と認識対象単
語とのあいだの距離として出力するパターンマッチング
部とを有することを特徴とする音声認識装置。
【請求項３】請求項２に記載の音声認識装置におい
て、前記距離計算部における距離として、部分列に対応
する前記音声データ格納部中の音声データの任意の区間
と、入力音声の任意の区間のあいだの距離を用いること
を特徴とする音声認識装置。