JP5703747B2

JP5703747B2 - 音声認識装置，および音声認識プログラム

Info

Publication number: JP5703747B2
Application number: JP2010289214A
Authority: JP
Inventors: 原田　将治; 将治原田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2010-12-27
Filing date: 2010-12-27
Publication date: 2015-04-22
Anticipated expiration: 2030-12-27
Also published as: JP2012137580A

Description

本発明は，音声を解析してテキストに変換する音声認識素処理技術に関するものであって，人間が発話した音声を対象とする音声認識処理に関する。

人同士が会話中に自然に発話している場合には，アナウンサのように明瞭に発声することはほとんどない。会話中の言葉はすべての音節が完全に発声されることは少なく，一部が脱落・省略されたり，変形されたりしていることが多い。このように音節の一部が脱落・省略，変形されているような発声を「怠けた発声」と，そのように発声された音声を「怠け音声」と呼ぶ。

音声認識装置において，入力される音声が怠け音声であると認識精度が劣化する。しかし，上述のように人同士の自然な会話では，ある程度怠けた発声が含まれるため，従来技術においても，それら怠け音声を認識できるように，別の読み方，すなわち，明瞭な読み方以外の音響モデルを用いて音声認識を行っている。

例えば，単語「教えて」は，明瞭に「おしえて」と発声されるだけでなく，怠けて発声された場合には中間部の「しえ」が不明瞭になり「おして」と発声される場合がある。そこで，単語「教えて」に対して「おしえて」の音響モデルとともに別の読み方「おして」の音響モデルを用意しておき，単語「教えて」を音声と照合する場合に，「おしえて」の音響モデルと照合し，さらに「おして」の音響モデルとも照合するようにして，怠け音声「おして」であっても単語「教えて」と認識できるようにしていた。

特開平１１−２８２４８６号公報特開２００４−１３８９１４号公報

しかし，従来手法のように，音声認識で用いる単語に対する正しい読み方に，怠け音声を認識するための別の読み方を追加すると，別の単語の認識時に誤認識するという問題が生じる。上述の例の場合に，単語「教えて」に読み方「おしえて」，「おして」を対応付けておくと，単語「押して」の意味として発声された音声「おして」を，単語「教えて」と誤認識する可能性がある。

本発明はかかる課題に鑑みてなされてものであり，その目的は，誤認識することなく怠け音声を精度良く認識できる音声認識処理装置およびプログラムを提供することである。

本発明の一態様として開示される音声認識装置は，１）音声データを受け付け，前記音声データの音声特徴量を算出する音声入力部と，２）単語に対応する複数の読み情報，および前記複数の読み情報各々に対応した混合の度合いである混合度を示す単語辞書を記憶する第１単語辞書記憶部と，３）音声の特徴と，読み情報の一部または全部とを対応付けた音響モデルを記憶する音響モデル記憶部と，４）前記音響モデルから，前記単語辞書の複数の読み情報各々に対応する音響モデル列をそれぞれ生成する音響モデル列生成部と，５）前記単語辞書の混合度をもとに，前記複数の読み情報各々に対応する音響モデル列を混合した音響モデル列を生成する音響モデル列混合部と，６）入力された音声データの音声特徴量を求め，前記音声特徴量と前記混合した前記音響モデル列とを照合し，単語辞書から単語を検出する照合部と，７）前記検出された単語を結果として出力する結果出力部とを備える。

上記した音声認識装置によれば，単語の読み方に対応するモデルをもとに怠け音声に対応するモデルを得て音声認識を行うことができるため，誤認識することなく自然に発声された怠け音声を精度良く認識することができる。

本発明の第１実施形態における音声認識装置の構成例を示す図である。本発明の第１実施形態において用いられる単語辞書の例を示す図である。本発明の第１実施形態における音声認識装置の処理フロー例を示す図である。本発明の第１実施形態における，音響モデルとしてテンプレートモデルを用いる場合の音響モデル列の混合例を説明するための図である。本発明の第１実施形態における，音響モデルとして１つのカテゴリに複数のテンプレートを用いる場合の音響モデル列の混合例を説明するための図である本発明の第２実施形態における音声認識装置の構成例を示す図である。本発明の第２実施形態において用いられる単語辞書の例を示す図である。本発明の第２実施形態における音声認識装置の処理フロー例を示す図である。本発明の第３実施形態における音声認識装置の構成例を示す図である。本発明の第３実施形態における音声認識装置の処理フローを示す図である。本発明の音声認識装置を実現するためのハードウェア構成例を示す図である。

以下，本発明の一態様として開示する音声認識装置の実施形態を図面にもとづいて説明する。

＜第１実施形態＞
図１は，本発明の第１実施形態における音声認識装置の構成例を示す図である。

音声認識装置１Ａは，音声入力部１１，単語辞書記憶部１２，音響モデル記憶部１３，音響モデル列生成部１４，音響モデル列混合部１５，照合部１６，および結果出力部１７を備える。

音声入力部１１は，音声データ（音声信号）を受け付け，受け付けた音声信号の音声特徴量を算出する。入力される音声信号は，マイクなどからのアナログ信号をＡ／Ｄ変換したものでもよいし，記憶装置に記録されている音声信号ファイルでもよい。

単語辞書記憶部１２は，単語に対する複数の読み情報および各読み情報の混合度を，単語に対応付けて記憶された辞書を記憶する。単語辞書記憶部１２は，第１単語辞書記憶部の一例である。

図２は，本発明の第１実施形態において単語辞書記憶部１２に記憶される単語辞書の例を示す図である。

図２に示す単語辞書では，単語の表記，単語の読み情報とその混合度が，単語ごとに定義されている。例えば，単語「教えて」に対する２つの読み情報として，読み情報１「おしえて」とその混合度１「０．７」と，読み情報２「おして」とその混合度２「０．３」とが定義されている。

混合度は，単語の複数の読み情報に対応する音響モデル列を混合する割合を示す。混合の比率は，どちらの読み方に近い発声が多いかという推測にもとづいて決定してもよい。また，単語ごとの傾向を的確に反映するために，後述の第２実施形態として説明するように，実際の音声データを照合させて選出してもよい。

音響モデル記憶部１３は，音声の特徴と，読み情報の一部または全部とを対応付けたモデルを記憶する。モデルは，例えば，音節単位のＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を用いる。モデルの単位は，読み情報と一意に対応付けられればよく，音素単位，前後の音素環境を考慮したトライフォン（ｔｒｉｐｈｏｎｅ）単位などであってもよい。

音響モデル列生成部１４は，単語の読み情報に対応する音響モデルを抽出し，抽出した音響モデルを読み情報に従って結合し，単語単位の音響モデル列を生成する。

音響モデル列混合部１５は，各読み情報に対応する複数の音響モデル列を，各読み情報に対応する混合度で混合した音響モデル列を生成する。

照合部１６は，音声入力部１１に入力された音声の音声特徴量と，混合した音響モデル列と照合し，類似度や尤度などの照合スコアが一定基準を満たした単語を検出する。

結果出力部１７は，照合部１６で検出した単語を認識結果として出力する。出力は，単語の表記をディスプレイなどの画面に出力してもよいし，単語の識別子をファイルや別のソフトウェアに出力してもよい。

図３は，本発明の第１実施形態における音声認識装置の処理フロー例を示す図である。

ステップＳ１０１：音声入力部１１は，入力された音声信号を受け付け，音響分析を行い，その音声の特徴量を算出する。音声特徴量としては，例えば，ＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ）やパワー差分などを用いる。

ステップＳ１０２：音響モデル列生成部１４は，単語の読み情報に対応する音響モデル列を生成する。

例えば，音響モデル列生成部１４は，図２に示す単語辞書記憶部１２に記憶された単語情報を参照し，表記が「教えて」となっている単語の読み情報１にある「おしえて」に対応する音響モデルを音響モデル記憶部１３から抽出する。音響モデル記憶部１３に音節単位の音響モデルが記憶されている場合には，音響モデル列生成部１４は，音節単位の「お」，「し」，「え」，「て」の音響モデルを抽出し，読み情報１の順に結合することによって音響モデル列を生成する。さらに，音響モデル列生成部１４は，読み情報２にある「おして」に対しても同様に音響モデル列を生成する。

ステップＳ１０３：音響モデル列混合部１５は，読み情報に対応する混合度で音響モデル列を混合する。

例えば，音響モデル列混合部１５は，図２に示す単語辞書の表記が「教えて」となっている単語に対して，読み情報１「おしえて」の音響モデル列を混合度１「０．７」の割合，読み情報２「おして」の音響モデル列を混合度２「０．３」の割合で混合する。

ここでは，音響モデル列の混合は，読み情報１に対応する音響モデル列（４音節）に，読み情報２の音響モデル列（３音節）が混合され，４音節の音響モデル列が生成されるとする。

音響モデル列混合部１５は，各音節がすべて１状態のＨＭＭモデルとした場合に，表記「教えて」の読み情報１に対応する音響モデル列の「お」，「し」，「え」，「て」の４状態に，読み情報２に対応する音響モデル列「お」，「し」，「て」を混合し，出力確率を算出するモデルを生成する。混合する読み情報２の音響モデル列「おして」は３状態であるので，各状態の出現確率を４／３倍して，読み情報１に対応する音響モデル列の各状態と対応付けられる。

具体的には次のようになる。音響モデル列混合部１５は，第１状態（第１番目の状態）については「お」と「お＊（３／３）」，第２状態（第２番目の状態）については「し」と「お＊（１／３）＋し＊（２／３）」，第３状態（第３番目の状態）については「え」と「し＊（２／３）＋て＊（１／３）」，第４状態（第４番目の状態）については「て」と「て＊（３／３）」を，それぞれ対応付ける。

音響モデル列混合部１５は，各状態の出力確率を，混合度１「０．７」と混合度２「０．３」の割合で混合して算出する。

第１状態は，「“お”＊０．７」＋「“お”＊（３／３）＊０．３」＝「“お”＊１．０」となるので，“お”の出力確率をそのまま用いる。

第２状態は，「“し”＊０．７」＋「“お”＊（１／３）＊０．３＋“し”＊（２／３）＊０．３」＝「“お”＊０．１」＋「“し”＊０．９」となる。よって，「お」の出力確率＊０．１と「し」の出力確率＊０．９とを加算して混合したものを出力確率とする。

第３状態は，「“え”＊０．７」＋「“し”＊（２／３）＊０．３＋“て”＊（１／３）＊０．３」＝「“え”＊０．７＋“し”＊０．２＋“て”＊０．１」となる。よって，「え」の出力確率＊０．７と「し」の出力確率＊０．２と「て」の出力確率＊０．１を加算して混合したものを出力確率とする。

第４状態は，「“て”＊０．７」＋「“て”＊（３／３）＊０．３」＝「“て”＊１．０」となるので，「て」の出力確率をそのまま用いる。

音響モデル列混合部１５は，以上のようにして出力確率を算出する音響モデル列を生成する。

また，別の混合例として，読み情報２「おして」に読み情報１「おしえて」を混合するようにしてもよい。音響モデル列混合部１５は，各状態の出力確率を，以下のように混合して算出する。

第１状態は，「“お”＊０．３」＋「“お”＊（３／４）＊０．７＋“し”＊（１／４）＊０．７」＝「“お”＊（３３／４０）＋“し”＊（７／４０）」となる。よって，「お」の出力確率＊０．８２５と「し」の出力確率＊０．１７５とを加算して混合したものを出力確率とする。

第２状態は，「“し”＊０．３」＋「“し”＊（２／４）＊０．７＋“え”＊（２／４）＊０．７」＝「“し”＊（２６／４０）」＋「“え”＊（１４／４０）」となる。よって，「し」の出力確率＊０．６５と「え」の出力確率＊０．３５とを加算して混合したものを出力確率とする。

第３状態は，「“て”＊０．３」＋「“え”＊（１／４）＊０．７＋“て”＊（３／４）＊０．７」＝「“え”＊（７／４０）＋“て”＊（３３／４０）」となる。よって，「え」の出力確率＊０．１７５と「て」の出力確率＊０．８２５とを加算して混合したものを出力確率とする。

なお，混合のベースとなる読み情報がどれであるかは，単語辞書で単語ごとに設定してもよい。または，例えば，図２の単語辞書では，読み情報１をベースとするなど，一律に設定してもよい。

さらに別の混合例として，音響モデル列の混合では，ＨＭＭの出力確率やテンプレートマッチングの類似度などを算出するために用いられる，音響モデルの平均・分散を混合してもよい。

例えば，音響モデル列混合部１５は，音響モデル列において出力確率を算出するための平均または分散の値を，混合度にもとづいて算出して使用する。具体的には，読み情報１に読み情報２を混合する場合の第２状態の出力計算に用いる平均として，「“お”の平均＊０．１＋“し”の平均＊０．９」を用いる。

または，単純に複数の音響モデル列の照合スコアを混合して照合スコアを算出するモデルでもよい。

また，上記の例では，単語全体を混合する処理例を説明したが，読み情報の文字列同士を比較して，一致しない箇所の前後を含む単語の部分同士を混合するようにしてもよい。

例えば，読み情報１「おしえて」に読み情報２「おして」を混合する場合に，先頭の「お」は一致，「し」は一致，「え」が不一致，「て」は一致となる。その場合に，音響モデル列混合部１５は，単語の読み情報１の文字列の一部である「しえて」に対応する音響モデル列に対して，読み情報２の文字列の一部である「して」の音響モデル列を混合するようにしてもよい。

ステップＳ１０４：照合部１６は，ステップＳ１０３の処理で混合された音響モデル列と，入力された音声信号の音声特徴量とを照合し，照合スコアが一定基準を満たした単語を検出する。

例えば，照合部１６は，混合した音響モデル列である音節ＨＭＭと，音声入力部１１から出力された音声特徴量であるＭＦＣＣとを照合し，照合スコアとなる確率値を算出する。算出された確率値が最も高い単語が，一定の基準，例えば，音素や音節によらず音声そのものをモデルとしたＨＭＭの確率値の定数α倍以上という基準を満たせば単語を検出する。

ステップＳ１０５：結果出力部１７は，ステップＳ１０４の処理で検出された単語があれば，認識結果として単語を出力する。検出された単語がなければ結果は「なし」を出力する。

以下に，音響モデル列の混合方法の別の例を説明する。

音響モデル列混合部１５は，音響モデルとしてテンプレートモデルを用い，音響特徴量とテンプレートとの類似度を，動的計画法（ＤＰ法）で照合する場合の音響モデル列の混合を行うことができる。

図４は，音響モデルとしてテンプレートモデルを用いる場合の音響モデル列の混合例を説明するための図である。

図４では，各音節のテンプレートとして，例えば，該当カテゴリの平均値，または平均値と分散，すなわち，音響特徴量空間上の点が用いられる。ここでは，便宜的に，特徴量ｘ，ｙとして二次元平面上にテンプレートを表している。テンプレートは，単語の各音節，「おしえて」の場合には「お」，「し」，「え」，「て」の各音節のカテゴリに１または複数のテンプレートが用いられる。

読み情報１「おしえて」に読み情報２「おして」を混合する場合であって，上記の混合処理と同様に行うとすると，音響モデル列混合部１５は，第２状態のテンプレートについて，「お」を０．１，「し」を０．９の割合で混合する。このとき，図４（Ａ）に模式的に示すように，第２状態のテンプレートの平均値は，「“お”の平均値＊０．１」＋「“し”の平均値＊０．９」で算出した値を用いる。

また，音響モデル列混合部１５は，第３状態のテンプレートについて，図４（Ｂ）に模式的に示すように，「え」を０．７，「し」を０．２，「て」を０．１の割合で混合してテンプレートを生成する。

図５は，本発明の第１実施形態における音響モデルとして１つのカテゴリに複数のテンプレートを用いる場合の音響モデル列の混合例を説明するための図である。

各カテゴリのテンプレートが複数存在する場合に，音響モデル列混合部１５は，各カテゴリのテンプレートから混合度に応じた比率でテンプレートを選出して，新しいテンプレート群を生成する。

例えば，音響モデル列混合部１５は，混合するテンプレートのすべての重心に近いものから算出する。

図５（Ａ）は，「お」のテンプレート（丸印で示す）と「え」のテンプレート（星印で示す）それぞれに５つのテンプレートがある場合に，「お」の混合度を０．８，「え」の混合度を０．２として混合する場合の重心の例を表す。

音響モデル列混合部１５は，図５（Ａ）の場合に，重心に近いテンプレートを，「お」のものから４つ（＝５＊０．８），「え」のものから１つ（＝５＊０．２）選出する。そして，音響モデル列混合部１５は，選出した５つのテンプレート群を，混合されたモデルとする。図５（Ｂ）に，混合されたモデルとなる５つのテンプレート群の例を示す。

第１実施形態に示す音声認識装置１Ａによれば，音声処理において，誤認識を増加させずに，怠け音声を精度良く認識することができる。

＜第２実施形態＞
図６は，本発明の第２実施形態における音声認識装置の構成例を示す図である。

音声認識装置１Ｂは，音声入力部１１，音響モデル記憶部１３，音響モデル列生成部１４，音響モデル列混合部１５，照合部１６，結果出力部１７，単語辞書候補生成部２１，単語辞書記憶部２２，単語辞書決定部２３，および学習用音声データ記憶部２４を備える。

音声入力部１１，音響モデル記憶部１３，音響モデル列生成部１４，音響モデル列混合部１５，照合部１６，結果出力部１７は，第１実施形態における音声認識装置１Ａが備える同一番号が付与された処理部と同様であるので，ここでは説明を省略する。

単語辞書候補生成部２１は，単語辞書記憶部２２に記憶された単語辞書の各単語に対する複数の読み情報に対して異なる混合度を付与した単語辞書候補２５を生成する。

単語辞書記憶部２２は，単語に対応する複数の読み情報の組み合わせをそれぞれ単語に対応付けた単語辞書を記憶する。単語辞書記憶部２２は，第２単語辞書記憶部の一例である。

単語辞書決定部２３は，異なる混合度が付与された単語辞書候補２５ごとに，結果出力部１７から出力される，学習用音声データに対する結果が正しいものを集計し，正解数が最大となる場合に用いられた単語辞書候補２５を単語辞書２６として出力する。

学習用音声データ記憶部２４は，音声データと認識すべき単語とを組み合わせた複数の学習用音声データを記憶する。学習用音声データは，例えば，音声データ「おしえて」と認識すべき単語（表記）「教えて」との組み合わせである。

単語辞書候補２５は，単語辞書記憶部２２の単語辞書の読み情報に対して異なる混合度が付与されたものである。

単語辞書２６は，複数の単語辞書候補２５のうち，認識処理での正解数が最大となったものである。

図７は，本発明の第２実施形態において用いられる単語辞書の例を示す図である。

単語辞書記憶部２２は，１つの単語に対応する複数の読み情報が定義された単語辞書が記憶される。

図７に示す単語辞書では，１つの単語に対して読み情報の組み合わせが複数定義されている。例えば，単語「教えて」に対して，２つの読み情報の組み合わせとして，識別子＝００１，００２の２つの組み合わせが記憶されている。識別子＝００１の組み合わせは，読み情報１「おしえて」と読み情報２「おして」であり，識別子＝００２の組み合わせは，読み情報１「おしえて」と読み情報２「おせて」であることを表す。

図８は，本発明の第２実施形態における音声認識装置の処理フロー例を示す図である。

ステップＳ２０１：単語辞書候補生成部２１は，単語辞書記憶部２２に記憶された複数の読み情報の組み合わせに対して，異なる混合度を付与した単語辞書候補２５を生成する。

例えば，単語辞書候補生成部２１は，図７に示す単語辞書の識別子＝００１で定義された読み情報の組み合わせについて，読み情報１の混合度をα，読み情報２の混合度を（１−α）とした単語辞書候補２５を生成する。さらに，識別子＝００２の組み合わせに対応する単語に対しても同様にして単語辞書候補２５が生成される。

ここで，混合度α＝０．０，０．１，…，０．９，１．０とする場合に，単語辞書候補生成部２１は，組み合わせごとに１１種類の単語辞書候補を生成する。単語辞書候補生成部２１は，読み情報の組み合わせ各々について生成した単語辞書候補（ここでは，全２２種類の単語辞書候補）を保持する。

ステップＳ２０２：単語辞書候補生成部２１は，生成した単語辞書２２のうち，学習用音声データ記憶部２４の音声認識を行っていない単語辞書候補２５を１つ選択する。

ステップＳ２０３：音響モデル列生成部１４，音響モデル列混合部１５，照合部１６，音声入力部１１，結果出力部１２により，選択された単語辞書候補２５を用い，学習用音声データ記憶部２４に記憶されている音声信号について音声認識処理を行う。ステップＳ２０３の音声認識処理は，第１実施形態と同じ処理，すなわち図３の処理フローに示すステップＳ１０１〜Ｓ１０５の処理である。

ステップＳ２０４：単語辞書決定部２３は，ステップＳ２０３の音声認識処理の結果と学習用音声データとを比較する。そして，単語辞書決定部２３は，正しく認識できた回数と正しく誤認識しなかった数との合計である正解数を集計し，その正解数が最大となる単語辞書候補２５を記憶する。

ステップＳ２０５：単語辞書決定部２３は，音声認識を行っていない単語辞書候補２５があるかを調べる。未処理の単語辞書候補２５が存在すれば（Ｙ），ステップＳ２０２の処理へ戻り，未処理の単語辞書候補２５が存在しなければ（Ｎ），ステップＳ２０６の処理へ進む。

ステップＳ２０６：単語辞書決定部２３は，正解数が最大となった単語辞書候補２５を単語辞書２６として出力する。単語辞書２６は，第１実施例の音声認識装置１Ａの単語辞書記憶部１２に記憶されてもよい。

第２実施形態において，音声認識装置１Ｂは，認識の正解数が多い単語辞書を決定することができ，怠け音声の認識精度を改善することができる。

＜第３実施形態＞
図９は，本発明の第３実施形態における音声認識装置の構成例を示す図である。

音声認識装置１Ｃは，音声入力部１１，音響モデル記憶部１３，音響モデル列生成部１４，音響モデル列混合部１５，照合部１６，結果出力部１７，単語辞書候補生成部２１，単語辞書記憶部２２，単語辞書決定部２３，学習用音声データ記憶部２４，読み列候補生成部３１，単語辞書記憶部３２，および読み列変形ルール記憶部３３を備える。

音声入力部１１，音響モデル記憶部１３，音響モデル列生成部１４，音響モデル列混合部１５，照合部１６，結果出力部１７は，第１実施形態における音声認識装置１Ａが備える同一番号が付与された処理部と同様である。単語辞書候補生成部２１，単語辞書記憶部２２，単語辞書決定部２３，学習用音声データ記憶部２４は，第２実施形態における音声認識装置１Ｂが備える同一番号が付与された処理部と同様である。したがって，これらの処理部について，ここでは説明を省略する。

読み列候補生成部３１は，単語辞書記憶部３２に記憶された読み情報に対して，読み列変形ルール記憶部３３に記憶された読み列変形ルールにもとづいて，変形させた読み情報を生成，付与し，複数の読み情報を対応付けた単語辞書を生成して，単語辞書記憶部２２に格納する。

単語辞書記憶部３２は，単語（表記）に対応する読み情報を，単語に対応付けた単語辞書を記憶する。単語辞書記憶部３２は，第３単語辞書記憶部の一例である。

読み列変形ルール記憶部３３は，単語の読み列が怠けた発声になったときに，どのような読み列になりやすいかというルールを記憶する。一例として，読み列「しえ」は怠けた発声によって読み列「せ」になりやすいというルールを記憶する。別の例として，読み列「しえて」が怠けた発声により音節が脱落し，読み列「して」に，読み列「あわ」が怠けた発声により音節が変形し，読み列「あー」になりやすいというルールを記憶する。

図１０は，本発明の第３実施形態における音声認識装置の処理フローを示す図である。

ステップＳ３０１：読み列候補生成部３１は，単語辞書記憶部３２に記憶されている読み情報に対して，読み列変形ルール記憶部３３に記憶されている読み列変形ルールのうち，適用可能なルールに従って読み情報を変形し，変形した読み情報を付与した単語辞書を生成する。

例えば，読み列候補生成部３１は，単語辞書記憶部３２に記憶されている，単語（表記）「教えて」と読み列「おしえて」である読み情報に対して，「『しえ』が『せ』になりやすい」という読み列変形ルールを適用して，図７に示す，識別子＝００２のような単語辞書を生成する。

読み列候補生成部３１は，読み列変形ルールのうち適用可能なルールすべてを適用して単語辞書を生成してもよく，または，読み列変形ルールに優先度を設けて一部のルールを適用して単語辞書を限定して生成してもよい。

ステップＳ３０１の処理後に，ステップＳ２０１〜Ｓ２０６の処理が行なわれるが，ステップＳ２０１以降は，第２実施形態における処理フロー（図８参照）の同一付番の処理ステップと同様の処理であるので説明を省略する。

第３実施形態によれば，単語辞書記憶部３２に記憶されている，単語に１つの読みが対応する単語辞書から，単語に複数の読みが対応する単語辞書を自動的に生成して，第２実施形態の音声認識装置１Ｂの単語辞書記憶部２２に記憶されている単語辞書を用意することができる。

図１１は，本発明の音声認識装置を実現するためのハードウェア構成例を示す図である。

コンピュータ９１が，所定のプログラムを実行することにより，音声認識装置１Ａ，１Ｂ，１Ｃが実現される。

開示した音声認識装置１（１Ａ，１Ｂ，１Ｃ）を実現するためのプログラムは，音声認識装置１が有すべき機能の処理内容を記述したプログラムであり，図１１に示すように，ＣＤ−ＲＯＭ，フレキシブルディスクなどの可搬型記憶媒体９２だけでなく，ネットワークを介して接続される記憶装置９３，コンピュータ９１のハードディスクやＲＡＭなどの記憶装置９４のいずれに記録されるものであってもよく，プログラム実行時にはコンピュータ９１の主メモリ上にロードされて実行される。

以上説明したように，開示した音声認識装置１によれば，次のような効果がある。すなわち，音声認識装置１によれば，既存の音響モデルを混合して，表記できないような怠け音声を対象とした専用の単語のモデルを生成することができるため，他の単語の発声について誤認識せずに，怠け音声を精度良く認識することができる。

また，利用環境に適応したモデルを用いたり，雑音環境モデルをすべての音響モデルに混合したり，音響モデルを選択したりするといった改善技術とは異なり，音声認識装置１によれば，単語別に怠けた発声に対する調整が可能となるため，前記の改善技術と組み合わせることにより，さらなる性能改善が期待できる。

１Ａ，１Ｂ，１Ｃ音声認識装置
１１音声入力部
１２単語辞書記憶部
１３音響モデル記憶部
１４音響モデル列生成部
１５音響モデル列混合部
１６照合部
１７結果出力部
２１単語辞書候補生成部
２２単語辞書記憶部
２３単語辞書決定部
２４学習用音声データ記憶部
２５単語辞書候補
２６単語辞書
３１読み列候補生成部
３２単語辞書記憶部
３３読み列変形ルール記憶部

Claims

音声データを受け付け，前記音声データの音声特徴量を算出する音声入力部と，
単語に対応する複数の読み情報，および前記複数の読み情報各々に対応した混合の度合いである混合度を示す単語辞書を記憶する第１単語辞書記憶部と，
音声の特徴と，読み情報の一部または全部とを対応付けた音響モデルを記憶する音響モデル記憶部と，
前記音響モデルから，前記単語辞書の複数の読み情報各々に対応する音響モデル列をそれぞれ生成する音響モデル列生成部と，
前記単語辞書の混合度をもとに，前記複数の読み情報各々に対応する音響モデル列を混合した音響モデル列を生成する音響モデル列混合部と，
入力された音声データの音声特徴量を求め，前記音声特徴量と前記混合した前記音響モデル列とを照合し，単語辞書から単語を検出する照合部と，
前記検出された単語を結果として出力する結果出力部とを備える
ことを特徴とする音声認識装置。
単語に対応する複数の読み情報を含む単語辞書を記憶する第２単語辞書記憶部と，
前記第２単語辞書記憶部の単語辞書に含まれる複数の読み情報各々に異なる混合度を対応付けた単語辞書候補を複数生成する単語辞書候補生成部と，
複数の単語辞書候補のうち，音声データと認識するべき単語とを示す学習用音声データに対する単語辞書を選出する単語辞書決定部とを備えて，
前記音声入力部は，学習用音声データを受け付け，前記受け付けた学習用音声データの音声特徴量を出力し，
前記音響モデル列生成部は，前記単語辞書の複数の読み情報に対応する音響モデル列をそれぞれ生成し，
前記音響モデル列混合部は，前記単語辞書候補の混合度をもとに，前記音響モデル列を混合した音響モデル列を生成し，
前記照合部は，入力された学習用音声データの音声特徴量と，前記混合した音響モデル列とを照合して単語を検出し，
前記結果出力部は，前記検出された単語を結果として出力し，
前記単語辞書決定部は，前記複数の単語辞書候補のうち，入力した学習用音声データに対する結果として正しい結果が得られた回数が最も多い処理で使用された単語辞書候補を単語辞書として選出する
ことを特徴とする請求項１に記載の音声認識装置。
単語に対応する読み情報を示す単語辞書を記憶する第３単語辞書記憶部と，
前記第３単語辞書記憶部の単語に対し，前記単語に対応する読み情報を読み列変形ルールにもとづいて変形させた読み情報を対応付けて，前記単語に対する複数の読み情報を含む単語辞書を生成する読み列候補生成部と，
前記単語辞書に含まれる複数の読み情報に異なる混合度を対応付けて前記単語辞書候補を複数生成する単語辞書候補生成部とを備える
ことを特徴とする請求項２に記載の音声認識装置。
第１単語辞書記憶部と音響モデル記憶部とを備えるコンピュータに，
音声データを受け付け，前記音声データの音声特徴量を算出する処理と，
単語に対応する複数の読み情報，および前記複数の読み情報各々に対応した混合の度合いである混合度を示す単語辞書を記憶する前記第１単語辞書記憶部と，音声の特徴と読み情報の一部または全部とを対応付けた音響モデルを記憶する前記音響モデル記憶部とを参照し，前記音響モデルから，前記単語辞書の複数の読み情報各々に対応する音響モデル列をそれぞれ生成する処理と，
前記単語辞書の混合度をもとに，前記複数の読み情報各々に対応する音響モデル列を混合した音響モデル列を生成する処理と，
入力された音声データの音声特徴量を求め，前記音声特徴量と前記混合した前記音響モデル列とを照合し，単語辞書から単語を検出する処理と，
前記検出された単語を結果として出力する処理とを，実行させる
ことを特徴とする音声認識プログラム。