JPH0470640B2

JPH0470640B2 -

Info

Publication number: JPH0470640B2
Application number: JP62306091A
Authority: JP
Inventors: Kazuhide Sugawara
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1987-12-04
Filing date: 1987-12-04
Publication date: 1992-11-11
Also published as: EP0319140B1; US5018201A; EP0319140A2; JPH01167898A; DE3878852D1; EP0319140A3; DE3878852T2

Description

【発明の詳細な説明】

Ａ産業上の利用分野この発明は音声認識装置に関し、とくに高速、
高精度かつ安定した候補単語の予備選択を行える
ようにしたものである。Ｂ従来技術マルコフ・モデルを用いる音声認識装置では、
入力音声を一定の短かい時間間隔（たとえば約１
ミリ秒、以下フレームという）ごとに分析し、ラ
ベル付けを行つて入力音声に応じたラベル列を生
成するという前処理を行うのが一般的である。そ
してこのような方式に適合した候補単語の予備選
択手法としては１−状態マルコフ・モデルを用い
るポーリング・フアースト・マツチ（Polling
Fast Match）手法が知られている（特願昭61−
58464号、米国特許出願番号第738930号）。この手
法では語彙に含まれる単語ごとにその単語の任意
のフレームにおいてラベル・アルフアベツト（ラ
ベルの組）の各ラベルが出力される確率を予め求
めておき、未知入力音声のラベル系列の各ラベル
に応じて各単語ごとに対応する確率を累積してい
き、各単語の累積値に応じて語彙の中から候補単
語を選択するようにしている。選択された単語は
こののち詳細マツチングされる。ところでこのポーリング・フアースト・マツチ
手法では時間情報を全く利用していないため、発
声の語頭部分と似た語尾を持つ単語を候補として
しまうなど明らかな誤りをし、認識精度を下げる
結果となつていた。なお他の関連する先行技術としては、
“Speaker Independent Isolated Word
Recognition Using Label Histograms”、
Proceedings of ICASSP′86、pp.2679−2682、
1986年４月、O.WatanukiおよびT.Kanekcおよ
び“Experiments in Isolated Digit
Recognition with ａ Cochlear Model”、
Proceedings of ICASSP′87、pp.1131−1134、
1987年４月、Eric P.LoebおよびRichard F.
Lyonがある。前者においては、語彙に含まれる単語のＮ分割
ブロツクごとに、そのブロツクの任意のフレーム
においてラベル・アルフアベツトの各ラベルが出
力される確率を予め求めておき、未知入力音声の
ラベル系列をＮ分割し、ラベル系列の各ラベルお
よびそれが属するブロツクに応じて各単語ごとに
対応する確率を累積していき、累積値の最大のも
のを認識単語とするようになつている。後者では
Ｎを２として同様な処理を行つている。これらの
手法では入力音声をＮまたは２分割するのに入力
音声すべての入力が完了するまで待たなくてはな
らず実時間での処理が困難となる。また各ブロツ
ク間で時間方向の平滑化を行わないため時間方向
のゆらぎに弱いという不都合がある。なお上述２つの手法は音声認識自体に関するも
のであり、候補単語の予備選択に関するものでは
ない。Ｃ発明が解決しようとする題点この発明は以上の事情を考慮してなされたもの
であり、時間情報を利用した高精度の候補単語の
予備選択を、音声の入力終了を待つことなく高速
に実行できる音声認識装置を提供することを目的
としている。また、この発明は個々の発声の時間
方向のゆらぎによる不安定性を極力抑えて候補単
語の予備選択を行える音声認識装置を提供するこ
とを目的としている。Ｄ問題点を解決するための手段この発明では以上の目的を達成するために、語
彙に含まれる単語の固定長の前半部ごとおよび残
存後半部ごとにその前半部または残存後半部の任
意のフレームにおいてラベル・フルフアベツトの
各ラベルが出力される確率を予め求めておき、未
知音声の入力に際しては、前半部の固定長の時間
が経過するまで、ラベル列のラベルに応じて前半
部に関するラベル出力確率を単語ごとに累積し、
経過後はラベル列のラベルに応じて残存後半部に
関するラベル出力確率を単語ごとに累積していく
ようにしている。このようにして未知音声の入力
の終了を待つことなく処理を進めることができ
る。また学習用音声に基づいて単語の前半部ごとお
よび残存後半部ごとにラベル出力確率を求める際
に、時間軸方向に平滑化を行う重みを付して統計
情報を得るようにし、発声の時間方向のゆらぎを
吸収するようにしている。Ｅ実施例以下この発明の一実施例について図面を参照し
ながら説明しよう。第１図はこの実施例を全体として示すものであ
り、この第１図において、入力音声データはマイ
クロホン１および増幅器２を介してアナログ・デ
ジタル（Ａ／Ｄ）変換器３に供給され、ここでデ
ジタル・データとされる。デジタル化された音声
データは特徴量抽出回路４およびパワー抽出回路
５に供給され声データの特徴量およびパワーが抽
出される。特徴量はラベル付回路６に供給され、
ラベル・プロトタイプ辞書７の参照の下ラベルに
変換されていく。なお辞書７のラベル・プロトタ
イプはクラスタリングにより生成されたものであ
り、その個数は32である。パワー抽出回路５からのパラー・データは単語
切出回路８に供給され、この単語切出回路８がパ
ワー・データに基づいて単語の前縁および後縁の
フレームを検出する。この検出では、たとえば第
２図に示すように発声のパワー・データUPが閾
値THを上まわつた直後を前縁フレーム（丸で囲
んで示す）とし、下まわる直前を後縁フレーム
（四角で囲んで示す）としている。なお第２図の
例は「円」の発声に関するものであり、数字の列
は「円」の発声に対応する一連のラベル番号を示
す。単語切り出し回路８は語頭部分および語尾部分
のフレームの検出に応じてゲート信号をゲート回
路９に供給し、発声に対応するラベル列を後段に
送出する。ラベル列は予備選択部１０および詳細認識部１
１にそれぞれ供給される。予備選択部１０は切換
回路に、スコア表作成部１３、スコア表記憶部１
４および尤度計算部１５からなつている。切換回
路１２は学習時にラベル列をスコア表作成部１３
に供給し、認識時に尤度計算部１５に供給する。
スコア表作成部１３は単語ごとに第３図に示すよ
うな単語の前半部用のスコア表Ｔ１と単語の後半
部用の同様のスコア表T2（図示しない）とを生成
し、これをスコア表記憶部１４に記憶させる。ス
コア表Ｔ１，Ｔ２の生成の詳細についてはのちに
第４図を参照して説明する。第３図の例から明ら
かなようにスコア表T1には各単語の前半部の
各々においてラベルの各々が出力される確率が示
されている。たとえば丸で囲んだ「0.08」は番号
１の単語の前半部分の任意フレームで番号１のラ
ベル出力される確率が0.08であることを示す。単
語の前半部は前半の15個のフレームからなる固定
長の部分であり、後半部は残りの部分である。尤度計算部１５はスコア表記憶部１４の各単語
のスコア表Ｔ１，Ｔ２を参照しながら入力音声が
単語の各々とどの程度似ているかを求めるもので
あり、似ている順にＭ個の候補単語を識別し、識
別データを詳細認識部１１に供給する。詳細認識
部１１は入力音声のラベル列をＭ個の候補単語の
マルコフ・モデルにたとえばビタービ・アルゴリ
ズムで整列させ、最も似ている候補単語を認識結
果として出力する。つぎに第１図のスコア表作成部１３について説
明する。スコア表作成部１３は第４図に示手順を実行し
てスコア表Ｔ１，Ｔ２を作成するものである。な
おこの手順は語彙中の単語ごとに行われる。以下
では単語の番号をｋで表わす。第４図において、
ステツプS1で語頭の検出を待期し、語頭が検出
されるとすべてのラベル番号ｉ（ｉ＝０〜31）に
対して単語前半部用のカウントCOUNT１（ｋ，
ｉ）および単語後半部用のカウントCOUNT２
（ｋ，ｉ）をゼロにし、フレーム番号ｔ（ｔ＝１，
２，……）を１にする初期化が行われる（ステツ
プS2）。こののちステツプS3ではフレーム番号ｔ
に応じて単後前半部用の重みW1および単語後半
部用の重みW2を設定する。この重みW1、W2は
たとえば〔表〕および第５図に示すように設定さ
れる。〔表〕および第５図から理解されるように
10＜ｔ≦20のフレームのラベルは発声の時間軸方
向のゆらぎを考慮して前半部用のスコア表Ｔ１お
よび後半部用のスコア表Ｔ２のそれぞれの作成に
あたり集計されるようになつている。しかもこの
集計を、フレーム番号に応じてなめらかに変化す
る重みにより平滑化するようにしている。

【表】ステツプS4ではｔ番目のラベルltに対応したカ
ウントCOUNT１（ｋ，lt）およびカウント
COUNT２（ｋ，lt）を重みW1およびW2だけ増
加させる。こののちこのフレームが語尾でなけれ
ばステツプS6でフレーム番号ｔを１だけ増加さ
せたのちステツプS3に戻る。もし語尾であれば
ステツプS7に進む（ステツプS5）。ステツプ７で
はつぎの式によりカウントの正規化を行ない、す
べてのラベル番号ｉに対してスコア表T1および
T2の値すなわちラベルｉの出力確率P1（ｋ，ｉ）
およびP2（ｋ，ｉ）を得る。 P1(k,i)＝COUNT1(k,i)／_N 〓^j=1 COUNT1（ｋ，
ｊ） P2(k,i)＝COUNT2(k,i)／_N 〓^j=1 COUNT2（ｋ，
ｊ）（ただし、Ｎは発声の全フレーム数である）ステツプS8ではラベル間の平滑化をつぎの式
で行う。これにより学習データが少なく、発生さ
れなかつたラベル種類が多い場合でもある程度安
定したラベル出力確率を得ることができる。 P1′（ｋ，ｊ）＝〓ⁱP1（ｋ，ｊ）Ｃ（ｉ，ｊ） P2′（ｋ，ｊ）＝〓ⁱP2（ｋ，ｉ）Ｃ（ｉ，ｊ）（ただしＣ（ｉ，ｊ）はＣ（ｉ，ｊ）≧０かつ〓^jＣ
（ｉ，ｊ）＝１であるような平滑化行列）平滑化行列はラベル間の距離に基づくものであ
り、たとえば第６図に示すようなものである。第７Ｃ図および第７Ｄ図はこの実施例のスコア
表Ｔ１，Ｔ２のラベル出力確率を「円」の発生を
例にとつて示している。これに対し第７Ａ図は単
語全体のスコア表に関するものであり、第７Ｂ図
は第７Ａ図のものにラベル間平滑処理を施したも
のである。これらの図から明らかなようにラベル
間平滑化を行うと確率ゼロのラベルが少なくな
り、話者の音質の変化を吸収できる。またスコア
表T1とスコア表T2とを比較すると前者では／
ｅ／に相当する第３番および第８番のラベルの出
力確率が若干大きく、／Ｎ／に相当する第23〜26
番のラベルの出力確率が小さくなつていることが
わかる。このようにスコア表Ｔ１，Ｔ２には時間
情報が含まれている。つぎに第１図に尤度計算部１５について第８図
を参照して説明する。この尤度計算部１５では入
力音声のうち前半の15フレームについては前半部
用スコア表T1を用い、残りの後半部については
後半部用スコア表T2を用いるようになつている。第８図において、ステツプS11で語頭の検出を
待期し、語頭が検出されると語彙中のすべての単
語ｋについてスコアｓ(k)をゼロにし、フレーム番
号ｔを１にする初期化が行われる（ステツプ
S12）。ステツプS13ではフレーム番号ｔが前半部
および後半部の境界に対応する番号15を超えてい
るかどうかを判別し、超えていなければステツプ
S14へ、超えていればステツプS15へ進む。ステ
ツプS14では各単語に対して前半部用のスコア表
T1を用い、ｔ番目のラベルltに対応した出力確
率P1′（ｋ，lt）をスコアＳ(k)に加算する。他方ス
テツプS15では後半部用のスコア表T2を用い、
P2′（ｋ，lt）をスコアＳ(k)に加算する。こののち
ステツプS16で現在のフレームが語尾かどうかを
判別し、フレームが語尾でなければステツプS17
でフレーム番号ｔを１だけ増加させたのち、ステ
ツプS12に戻る。他方フレームが語尾であればス
テツプS18に進み、スコア(k)を大きさの順に整列
させて、上位Ｍ個の候補単語を選択し、これらを
詳細認識部１１に渡す（ステツプS19）。この実施例では発声を固定長の前半部と、残り
の後半部にわけて個別のスコア表を用いて予備選
択用の尤度計算を行うようにしているため全部の
発声が終了するのを待つことなくフレーム同期で
処理を行うことができる（従前の例では等分して
いたので全部の発声の終了を待つ必要がある）。
また前半部用および後半部用のスコア表を作成す
る際に平滑化を行うようにしているため発声の時
間軸方向のゆらぎに対し安定した予備選択を行え
る。さらにラベル間の平滑化も行つているため少
ない学習でも良好なスコア表を形成することがで
きる。なお、この実施例では予備選択部１０、詳細認
識部１１、単語切り出し回路８およびゲート回路
９をパーソナル・コンピユータ上のソフトウエア
で実現し、特徴量抽出回路４、ラベル付け回路６
およびパワー抽出回路５をパーソナル・コンピユ
ータに実装された信号処理ボードで実現するよう
にしている。もちろんすべてハードウエアで実現
する等種々の変更が可能である。Ｆ発明の効果以上説明したようにこの発明によれば発声の固
定長の前半部および残りの後半部を個別のスコア
表で評価するようにしているので時間情報を利用
できるとともにフレーム同期で処理を行うことが
できる。またスコア表を作成する際に時間軸方向
の平滑化を行うようにしているので発声の時間軸
方向のゆらぎに対して安定した候補単語の予備選
択を行える。

【図面の簡単な説明】

第１図はこの発明の一実施例を示すブロツク
図、第２図は第１図の単語切り出し回路を説明す
るタイムチヤート、第３図は第１図のスコア表作
成部で生成されるスコア表を示す図、第４図はス
コア表作成部の動作を説明するフローチヤート、
第５図および第６図はスコア表作成部におけるカ
ウントの重みおよびラベル間平滑化行列をそれぞ
れ説明する図、第７Ａ図は「円」の発声に基づい
て生成したスコア表であつてラベル間の平滑化も
２分割も行つていない場合のものを示す図、第７
Ｂ図は同様のスコア表であつてラベル間の平滑化
のみ行つた場合のものを示す図、第７Ｃ図および
第７Ｄ図は第１図の実施例で「円」の発声に基づ
いて作成した前半部用および後半部用のスコア表
それぞれを示す図、第８図は第１図の尤度計算部
の動作を説明するフローチヤートである。６…ラベル付回路、８…単語切出回路、１０…
予備選択部、１１…詳細認識部、１３…スコア表
作成部、１４…スコア表記憶部、１５…尤度計算
部。

Claims

【特許請求の範囲】１入力音声を所定の微小時間間隔ごとにラベル
に変換し、このラベルの系列に対して音声認識処
理を実行する音声認識装置において、認識対象語彙中の各単語についてその発声の固
定長の前半部分の任意の微小時間間隔においてラ
ベル組中の各ラベルが生成される確率を記憶する
第１記憶手段と、上記認識対象語彙中の各単語についてその発声
のうち上記前半部分に続く後半部分の任意の微小
時間間隔において上記ラベル組中の各ラベルが生
成される確率を記憶する第２記憶手段と、未知入力音声に対してラベルが生成される都度
そのラベルが上記前半部分に属するのか上記後半
部分に属するのかを判別する手段と、上記未知入力音声に対して生成されたラベルが
上記前半部分に属するときに、上記第１記憶手段
を参照して、上記認識対象語彙中の各単語ごとに
その単語の発声の前半部分の任意の微小時間間隔
において当該ラベルが生成される確率を出力する
手段と、上記未知入力音声に対して生成されたラベルが
上記後半部分に属するときに、上記第２記憶手段
を参照して、上記認識対象語彙中の各単語ごとに
その単語の発声の後半部分の任意の微小時間間隔
において当該ラベルが生成される確率を出力する
手段と、上記出力された確率を累積する手段と、上記累積された値の大きさに応じて１以上の候
補単語を特定する手段と、特定された候補単語に対して詳細な認識処理を
実行する手段とを有する音声認識装置。２入力音声を所定の微小時間間隔ごとにラベル
に変換し、このラベルの系列に対して音声認識処
理を実行する音声認識装置において、認識対象語彙中の各単語ごとに、その単語の学
習用発声に対してラベルが生成されるたびに、上
記発声の前縁からラベル生成時点までの経過時間
の関数である第１の重みおよび第２の重みを、上
記ラベルの第１の統計値および第２の統計値を得
るためにそれぞれ累積する手段と、上記認識対象語彙中の各単語ごとに上記ラベル
組中の各ラベルの第１の統計値および第２の統計
値をそれぞれ正規化する手段と、上記認識対象語彙中の各単語ごとに正規化され
た上記ラベル組中の各ラベルの第１の統計値を、
その単語の発声の固定長の前半部分の任意の微小
時間間隔において上記ラベル組中の各ラベルが生
成される確率として記憶する第１記憶手段と、上記認識対象語彙中の各単語ごとに正規化され
た上記ラベル組中の各ラベルの第２の統計値を、
その単語の発声のうち上記前半部分に続く後半部
分の任意の微小時間間隔において上記ラベル組中
の各ラベルが生成される確率として記憶する第２
記憶手段と、未知入力音声に対して生成されたラベルが上記
前半部分に属するのか上記後半部分に属するのか
を判別する手段と、上記未知入力音声に対して生成されたラベルが
上記前半部分に属するときに、上記第１記憶手段
を参照して、上記認識対象語彙中の各単語ごとに
その単語を発声の前半部分の任意の微小時間間隔
において当該ラベルが生成される確率を出力する
手段と、上記未知入力音声に対して生成されたラベルが
上記後半部分に属するときに、上記第２記憶手段
を参照して、上記認識対象語彙中の各単語ごとに
その単語の発声の後半部分の任意の微小時間間隔
において当該ラベルが生成される確率を出力する
手段と、上記出力された確率を累積する手段と、上記累積された値の大きさに応じて１以上の候
補単語を特定する手段と、特定された候補単語に対して詳細な認識処理を
実行する手段とを有する音声認識装置。３少なくとも上記ラベル生成時点が上記前半部
分および後半部分の境界の近傍であるときに、上
記ラベル生成時点が遅くなるにつれて上記第１の
重みが漸時小さくなり、上記第２の重みが漸時大
きくなるようにした特許請求の範囲第２項記載の
音声認識装置。４上記学習用発声については、ラベルが生成さ
れるたびに、生成されたラベルに対して上記ラベ
ル組中の各ラベルが混同を生じる確率だけ上記各
ラベルが確率的に生成したとして上記第１の重み
および第２の重みを累積するようにした特許請求
の範囲第２項または第３項記載の音声認識装置。