JPH10254481A

JPH10254481A - 音声認識方法

Info

Publication number: JPH10254481A
Application number: JP9060238A
Authority: JP
Inventors: Yasuhiro Minami; 泰浩南; Sadahiro Furui; 貞▲煕▼ 古井
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1997-03-14
Filing date: 1997-03-14
Publication date: 1998-09-25
Anticipated expiration: 2017-03-14
Also published as: JP3535688B2

Abstract

(57)【要約】【課題】音声認識に用いる単語辞書の効率的な探索
と，単語辞書に必要なメモリ量の削減を可能にする。【解決手段】単語辞書13を木構造ではなく，ネットワ
ーク構造で記述し，音声認識部11では，単語履歴情報の
代わりに音素履歴情報（音素グラフ）を保存して，文候
補作成部16では，この音素履歴情報（音素グラフ）から
時間を逆向きにたどることにより，上位の文候補を複数
個作成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は，単語辞書と文法
とを用い，音声を自動認識する音声認識方法に関する。

【０００２】

【従来の技術】従来までの音声認識方法を，図６〜図９
を参照して説明する。図６は従来方法を説明するための
ブロック図である。

【０００３】音響分析部６０を介して入力された音声
は，パラメータに変換される。音声認識部６１では，学
習などによって得られた音素モデル６４を用い，文法６
２と単語辞書６３から参照モデルを作成し，入力音声と
のマッチングが図られる。この途中結果は単語履歴保存
部６５に保存される。文候補作成部６６では，この単語
履歴を参照して，尤度の高い文候補を複数出力する。

【０００４】ここで，文法６２は，通常図７（Ａ）に示
すようなネットワーク文法で書かれており，ここでは，
「姓」，「姓」＋「助詞」＋…，「姓」＋「名」，
「姓」＋「名」＋「助詞」＋…，「会社名」＋「助詞」
＋…などが文法上正しいことが示されている。図７
（Ａ）のネットワークにおいて，数字はノード番号を表
している。黒丸のノードは終端のノードである。

【０００５】ノードのデータ構造は，図７（Ｂ）に示す
ようになっており，ノード情報７１としてアークへのポ
インタ情報を持つ。アークのデータ構造は，図７（Ｃ）
に示すようになっており，アーク情報７２は，文法要素
と，次のアークへのポインタと，前のノードの番号と，
次のノードの番号からなる。

【０００６】例えば，図７（Ａ）に示す１番目のノード
１の構造は，図７（Ｄ）に示すように，ノード情報７１
に続いて，第１のアーク情報７２−１，それからポイン
トされる第２のアーク情報７２−２，それからポイント
される第３のアーク情報７２−３となっている。

【０００７】一方，単語辞書６３は，図８に示すように
木構造で書かれている。この例は「姓」の単語辞書の例
であり，姓の音素列として，ｏ，ｏｋａ，ｏｋｉ，ｎ
ａ，ｎａｋａ，ｎａｋｉ，ｍｉａ，ｍｉｉが存在するこ
とが示されている。

【０００８】音声認識部６１では，この２つの構造から
音素モデル６４をつなぎ合わせて参照モデルを作りだ
し，入力音声とのマッチングを各時刻で行っていく。こ
の過程で，文法のネットワークが次に変わるときに，マ
ッチング結果を単語履歴保存部６５に保存していく。単
語履歴保存部６５では，図９（Ａ）のような単語履歴の
表に，図９（Ｂ）のようなリストを挿入したものを記憶
する。すなわち，単語履歴の表に記述する情報は，その
時刻までの尤度と，認識結果の単語と，この単語の前の
文法ノードの番号と，前の文法ノードの時刻である。こ
のとき，ある時刻のある文法ノードに到達する仮説は複
数あるので，尤度順に仮説の履歴を保存していく。

【０００９】音声認識部６１でこの単語履歴の表を作成
した後，文候補作成部６６で，この表を音声の最終の時
刻からつなぎ合わせて，全ての可能な候補を作成し，尤
度の高い順に並べることで上位数個の文候補を作成して
いく。

【００１０】

【発明が解決しようとする課題】従来方法では，単語辞
書６３は，図８のように品詞毎に木構造の形式で作成し
ていた。このため，図８のように末端に行くに従って探
索すべき単語のノード数が大きくなり，探索は効率的で
はなかった。また，この単語辞書６３を格納するメモリ
も非常に大きなものが必要であった。

【００１１】本発明は，音声認識に用いる単語辞書への
格納情報を共通の接尾辞について併合し，従来の探索区
間を大幅に削減して認識時間を削減するとともに，単語
辞書に必要なメモリの削減を可能にすることを目的とす
る。

【００１２】

【課題を解決するための手段】本発明は，単語辞書を木
構造ではなく，ネットワーク構造で記述し，音声認識部
では，単語履歴情報の代わりに音素履歴情報（音素グラ
フ）を保存して，文候補作成部では，この音素履歴情報
（音素グラフ）から時間を逆向きにたどることにより，
上位の文候補を複数個作成する。

【００１３】本発明によれば，単語辞書をネットワーク
構造で記述することで，探索すべきノードの数を大幅に
削減することができる。

【００１４】

【発明の実施の形態】以下，本発明の実施の形態につい
て図面を参照して説明する。図１は，本発明の概要説明
図である。

【００１５】音響分析部１０を介して入力された音声
は，パラメータに変換され，音声認識部１１では，学習
などによって得られた音素モデル１４を用い，文法１２
と単語辞書１３から参照モデルを作成し，入力音声との
マッチングが図られる。

【００１６】このときの文法１２のデータ構造は，従来
技術として説明した図７と全く同じである。単語辞書１
３は，本発明では図１（Ｂ）のように，ネットワーク文
法で記述される。各ノードに付されている数字はノード
番号を表している。黒丸のノードは終端のノードであ
る。

【００１７】図２は，本発明における単語辞書のデータ
構造の例を示している。図２（Ａ）のネットワークは，
従来技術として説明した図８の姓の単語辞書と同様な情
報を表すものである。単語辞書１３におけるノードのデ
ータ構造は，図２（Ｂ）に示すようになっており，ノー
ド情報２１は，アークへのポインタと音素履歴表の番号
からなる。アークのデータ構造は，図２（Ｃ）に示すよ
うになっており，アーク情報２２は，音素と，次のアー
クへのポインタと，前のノードの番号と，次のノードの
番号からなる。

【００１８】例えば，図２（Ａ）に示す１番目のノード
１の構造は，図２（Ｄ）に示すようになっている。ま
ず，ノード情報２１として，第１のアーク情報２２−１
へのポインタと，音素履歴表の番号１が設定されてい
る。第１のアーク情報２２−１は，音素“ｏ”，第２の
アーク情報２２−２へのポインタ，前のノードの番号
１，次のノードの番号４からなる。第２のアーク情報２
２−２は，音素“ｎ”，第３のアーク情報２２−３への
ポインタ，前のノードの番号１，次のノードの番号２か
らなる。第３のアーク情報２２−３は，音素“ｍ”，次
のアークがないことを示す情報“ＮＵＬＬ”，前のノー
ドの番号１，次のノードの番号３からなる。

【００１９】認識の途中結果は，音素から音素へマッチ
ング処理が移るときに，音素履歴保存部１５に保存され
る。音素履歴保存部１５では，図３（Ａ）のような音素
履歴の表（テーブル）に，図３（Ｂ）のようなリストを
挿入したものを記憶する。すなわち，音素履歴の表に記
述する情報は，その時刻までの尤度３１と，認識結果の
音素３２と，この単語の前の音素ノードの番号３３と，
現在の文法ノードの番号３４と，一つ前の文法ノードの
番号３５と，一つ前のノードの時刻３６である。一つ前
の文法ノードの番号３５は，文法ノードを遷移するとき
に記入される。このとき，ある時刻のある音素ノードに
到達する仮説は複数あるので，図３（Ｂ）に示すリスト
を使って，尤度順に仮説の履歴を保存していく。

【００２０】図４は，音素履歴の表の作成例を示す。例
えば，図２（Ａ）に示すような単語辞書において，第１
候補の音素列がｏ→ｋ→ｉであったとする。第４（Ａ）
のように，時刻３における音素ノードの番号４の欄か
ら，図４（Ｂ）のリストがポイントされる。このリスト
では，時刻３までの尤度３１として値“１００”が設定
され，認識結果の音素３２として“ｏ”が設定され，前
の音素ノードの番号３３として“１”が設定され，現在
の文法ノードの番号３４として“１”が設定され，，一
つ前の文法ノードの番号３５として“０”が設定され，
一つ前のノードの時刻３６として“０”が設定されてい
る。

【００２１】また，２番目のリストとして，時刻６にお
ける音素ノードの番号５の欄から，図４（Ｃ）のリスト
がポイントされる。このリストでは，時刻６までの尤度
３１として値“２００”が設定され，認識結果の音素３
２として“ｋ”が設定され，前の音素ノードの番号３３
として“４”が設定され，現在の文法ノードの番号３４
として“１”が設定され，，一つ前の文法ノードの番号
３５として“０”が設定され，一つ前のノードの時刻３
６として“３”が設定されている。

【００２２】また，３番目のリストとして，時刻９にお
ける音素ノードの番号６の欄から，図４（Ｄ）のリスト
がポイントされる。設定内容の詳細については，図４
（Ｃ）の場合などと同様である。

【００２３】音声認識部１１でこの音素履歴の表を作成
した後，文候補作成部１６で，この音声履歴の表を参照
し，音声の最終の時刻から音素一つ一つをつなぎ合わせ
て，全ての可能な候補を作成し，尤度の高い順に並べる
ことで上位数個の文候補を作成していく。

【００２４】図５は，音声認識部における尤度を計算す
るためのＨＭＭの説明図である。音声認識部１１におけ
る尤度の計算には，ＨＭＭ（Hidden Markov Model)など
が用いられる。ここでは，ＨＭＭを用いた場合の尤度計
算について説明する。ＨＭＭでは，通常，音素ごとに図
５（Ａ）に示すような構造のモデルが作られている。Ｈ
ＭＭは，状態とアークで構成されている。各状態は，音
素内部の細かな事象を表す。例えば“ｔ”という発声で
あれば，発声前の口を閉じた状態，“ｔ”の破裂部分の
発声の状態，後の母音への渡りの状態などの事象を表し
ている。

【００２５】各状態には，状態を遷移するための遷移確
率（ａ_ij）と，入力音声がその事象に近いかどうかを計
算するための関数（ｂ_ij（ｘ））が保存されている。パ
ターンのマッチングは，図５（Ｂ）のように，入力音声
と音素ＨＭＭの状態間の経路の尤度が最大となる経路を
見つけることで実現される。ここで用いている尤度と
は，この経路の値を指している。

【００２６】これ以外の尤度計算法，例えばニューラル
ネット，ＤＰマッチングなどでも同様の計算が実現でき
る。音声認識部１１における前向きの探索アルゴリズム
と，文候補作成部１６における後向きの探索アルゴリズ
ムの例を，以下に説明する。

【００２７】〔前向きの探索アルゴリズム〕（１）まず，初期化を行う。一つの候補を文法ネットワ
ークの最初のノードに設定する。（２）各文法のノードに対して，以下の(2.1), (2.2)の
処理を行う。

【００２８】(2.1) 文法ノード上のすべての候補に対し
て，単語辞書内のネットワークの最初に候補を渡す。 (2.2) もし，複数の候補が同じ辞書ネットワークの最初
に到達した場合には，音素履歴の表に記入し，最大の尤
度のものだけ残す。（３）すべての辞書ネットワークの内部に対して，以下
の(3.1), (3.2)の処理を行う。

【００２９】(3.1) すべての辞書ネットワークのノード
上の候補に対して，以下の(3.1.1), (3.1.2)の処理を行
う。 (3.1.1) 時刻を一つ進めてマッチングを行い，候補の尤
度を計算する。

【００３０】(3.1.2) もし，候補の尤度が十分に高くな
い場合には，枝刈りを行う。 (3.2) すべての辞書ネットワークのノード上の候補に対
して，以下の(3.2.1), (3.2.2)の処理を行う。

【００３１】(3.2.1) ネットワークの次のノードに候補
を送る。もし，複数の候補が同じノードにたどりついた
場合には，尤度が最大の候補のみ残して，音素履歴の表
に記入する。

【００３２】(3.2.2) もし，ノードが終端ノードであれ
ば，この候補を文法ネットワークへ送り出す。以上の動
作を時刻が入力パターンの長さになるまで繰り返す。

【００３３】〔後向きの探索アルゴリズム〕文法の終端
ノードから，音素履歴の表を時間の逆向きにたどること
で，上位から複数個の候補を作成する。戻るのに必要な
情報はすべて音素履歴の表の中に記入してある。

【００３４】この方法を用いて電話番号案内システムを
作成して評価を行った結果，従来のシステムではメモリ
が不足し実行できないものが，本手法を用いることによ
って，５位までの候補に対して９７％の認識率を達成す
ることができた。

【００３５】

【発明の効果】以上説明したように，本発明によれば，
単語辞書をネットワーク構造にすることによって従来の
探索区間を大幅に削減し，必要なメモリの削減を行うこ
とができる。

【図面の簡単な説明】

【図１】本発明の概要説明図である。

【図２】本発明における単語辞書のデータ構造の例を示
す図である。

【図３】音素履歴の表の構成例を示す図である。

【図４】音素履歴の表の作成例を示す図である。

【図５】音声認識部における尤度を計算するためのＨＭ
Ｍの説明図である。

【図６】従来方法の説明図である。

【図７】文法の例を示す図である。

【図８】従来の姓の単語辞書の例を示す図である。

【図９】従来の単語履歴の表の構成例を示す図である。

【符号の説明】

１０音響分析部１１音声認識部１２文法１３単語辞書１４音素モデル１５音素履歴保存部１６文候補作成部

Claims

【特許請求の範囲】

【請求項１】認識対象となる単語を記憶する単語辞書
と文法情報の記憶手段とを持ち，入力音声を認識する音
声認識方法において，単語辞書のデータ構造をネットワ
ーク構造とし，文法と単語辞書から入力音声の音素とマ
ッチングする音素系列の履歴情報を保存し，保存した音
声系列の履歴情報をたどることにより複数の候補を認識
結果として出力することを特徴とする音声認識方法。