JP2010079092A

JP2010079092A - 音声認識装置及び方法

Info

Publication number: JP2010079092A
Application number: JP2008249166A
Authority: JP
Inventors: Masato Yajima; 真人矢島; Noriko Yamanaka; 紀子山中
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-09-26
Filing date: 2008-09-26
Publication date: 2010-04-08

Abstract

【課題】入力音声における言い直し部分及びその対象部分を推定可能な音声認識装置を提供する。
【解決手段】入力音声を認識辞書に登録されている第１の単語列に順次置き換えた第１の音声認識結果を生成する音声認識部１０２と、第１の単語列の各々について、第１の単語列の不完全な発声に相当する第２の単語列を順次生成する生成部１０５と、第１の単語列の各々に相当する部分の前方に隣接する区間音声を入力音声から順次抽出する制御部１０４と、区間音声を第２の単語列のいずれかに置き換えた第２の音声認識結果を順次生成する音声認識部１０７と、第２の音声認識結果の各々と、第１の音声認識結果のうち区間音声の各々に相当する部分とを比較し、区間音声が不完全な発声であるか否かを順次判定する判定部１０８とを具備する。
【選択図】図１

Description

本発明は、音声認識処理に基づく言い直し部分及びその対象部分の推定に関する。

音声認識処理では、ユーザの発話を音響的類似度や言語的信頼度に基づき適切な単語に順次置き換えることにより、当該発話の内容を示す言語テキストを生成する。しかしながら、ユーザが人間である以上、発話したい内容を言い間違えたり言いよどんだりすることなく、常に正確に発話することは困難である。即ち、ユーザの発話を受ける場合、当該発話に言い間違い部分や言いよどみ部分が含まれたり、また、これらを言い直す部分が含まれたりすることが想定される。上記言い間違い部分や言いよどみ部分は、ユーザが意図的に発話した部分ではないのが通常であるから、これらの部分が推定され、他の部分とは明確に区別された状態で音声認識結果が得られることが望ましい。

特許文献１記載の発話解析装置は、「言い直し対象部分＋つなぎ語等の編集表現＋言い直し部分」という文法規則を用いて、言い直し部分及びその対象部分を推定することを目的としている。上記発話解析装置は、言い直し対象部分と言い直し部分との間には「えーと」や「いや」等の編集表現が挿入されやすいという発話傾向を利用し、当該編集表現の前後の部分（単語または句）が意味的、構文的または音韻的に類似していれば前方部分を言い直し対象部分、後方部分を言い直し部分と夫々推定している。例えば、上記発話解析装置が、「学習、えーと、勉強する」という発話を解析すると、「学習＋えーと＋勉強」が上記文法規則に適合し、「学習」が言い直し対象部分（この場合、言い間違い部分）と推定され、「勉強」が言い直し部分と推定される。上記発話解析装置は、上記文法規則に基づき抽出した部分のうち、言い直し対象部分及び編集表現（以下、単に言い直し対象部分等と称する）を削除し、言い直し部分のみを最終的な発話解析結果に反映させる。
特許第３３０９８９６号公報

特許文献１記載の発話解析装置は、ユーザが直前の発話内容を言い直す場合に、上記編集表現を挿入することを前提としている。しかしながら、「学習、勉強する」のように編集表現を挿入せずにユーザが直前の発話内容を言い直す場合もあり、このような場合には上記発話解析装置は言い直し部分及びその対象部分を推定できない。また、ユーザが上記編集表現を挿入して直前の発話内容を言い直したとしても、当該直前の発話内容が不完全な発話である場合には、上記編集表現の前後の部分が意味、構文及び音韻のいずれにおいても類似しないおそれがある。例えば、前述した発話例「学習、えーと、勉強する」のうち「学習」の部分が不完全に発話されて「額」として音声認識された場合には、「勉強」と「額」とは意味、構文及び音韻のいずれにおいても類似しないから、上記発話解析装置は言い直し部分及びその対象部分を推定できない。

また、上記発話解析装置は、推定した言い直し部分及びその対象部分のうち、言い直し対象部分等は不要なものとして削除し、最終的な発話解析結果に反映させていない。しかしながら、言い直し対象部分が意図的に発話された場合や、ユーザが発話内容を正確に発話解析結果に反映させたい場合等、言い直し対象部分等を最終的な発話解析結果に反映させたい場合もある。また、上記言い直し対象部分等は、発話者の意図や真意を理解する際に役立つこともある。一方、言い直し対象部分等を最終的な発話解析結果においてそのまま反映させると、発話意図が理解し辛くなることも十分想定されるので、例えば言い直し対象部分等を他の部分と区別しやすいような修正を選択的に実行できることが望ましい。

従って、本発明は入力音声における言い直し部分及びその対象部分を推定可能な音声認識装置を提供することを目的とする。

本発明の一態様に係る音声認識装置は、一般的な単語が網羅的に登録された第１の認識辞書が記憶される第１の記憶部と、入力音声に対し前記第１の認識辞書に基づく音声認識処理を行って、当該入力音声を前記第１の認識辞書に登録されている第１の単語列に順次置き換えた第１の音声認識結果を生成する第１の音声認識部と、前記第１の単語列の各々について、当該第１の単語列の不完全な発声に相当する第２の単語列を順次生成する生成部と、前記第２の単語列が登録された第２の認識辞書が記憶される第２の記憶部と、前記第１の単語列の各々に相当する部分の前方に隣接する区間音声を前記入力音声から順次抽出する制御部と、前記区間音声の各々に対し前記第２の認識辞書に基づく音声認識処理を行って、当該区間音声を前記第２の単語列のいずれかに置き換えた第２の音声認識結果を順次生成する第２の音声認識部と、前記第２の音声認識結果の各々と、前記第１の音声認識結果のうち前記区間音声の各々に相当する部分とを比較し、当該区間音声が不完全な発声であるか否かを順次判定する判定部とを具備する。

本発明の他の態様に係る音声認識装置は、一般的な単語が網羅的に登録された第１の認識辞書が記憶される第１の記憶部と、入力音声に対し前記第１の認識辞書に基づく音声認識処理を行って、当該入力音声を前記第１の認識辞書に登録されている第１の単語列に順次置き換えた第１の音声認識結果を生成する第１の音声認識部と、互いに関連する単語同士が関連単語グループとして記述された関連単語辞書が記憶される第２の記憶部と、前記第１の単語列の各々について、前記関連単語グループに属する第２の単語列を順次検索する検索部と、前記第２の単語列が登録された第２の認識辞書が記憶される第３の記憶部と、前記第１の単語列の各々に相当する部分の前方に隣接する区間音声を前記入力音声から順次抽出する制御部と、前記区間音声の各々に対し前記第２の認識辞書に基づく音声認識処理を行って、当該区間音声を前記第２の単語列のいずれかに置き換えた第２の音声認識結果を順次生成する第２の音声認識部と、前記第２の音声認識結果の各々と、前記第１の音声認識結果のうち前記区間音声の各々に相当する部分とを比較し、当該区間音声が言い間違いであるか否かを順次判定する判定部とを具備する。

本発明の他の態様に係る音声認識装置は、一般的な単語が網羅的に登録された第１の認識辞書が記憶される第１の記憶部と、入力音声に対し前記第１の認識辞書に基づく音声認識処理を行って、当該入力音声を前記第１の認識辞書に登録されている第１の単語列に順次置き換えた第１の音声認識結果を生成する第１の音声認識部と、互いに関連する単語同士が関連単語グループとして記述された関連単語辞書が記憶される第２の記憶部と、前記第１の単語列の各々について、前記関連単語グループに属する第３の単語列を検索する検索部と、前記第３の単語列の各々について、当該第３の単語列の不完全な発声に相当する第２の単語列を順次生成する生成部と、前記第２の単語列が登録された第２の認識辞書が記憶される第３の記憶部と、前記第１の単語列の各々に相当する部分の前方に隣接する区間音声を前記入力音声から順次抽出する制御部と、前記区間音声の各々に対し前記第２の認識辞書に基づく音声認識処理を行って、当該区間音声を前記第２の単語列のいずれかに置き換えた第２の音声認識結果を順次生成する第２の音声認識部と、前記第２の音声認識結果の各々と、前記第１の音声認識結果のうち前記区間音声の各々に相当する部分とを比較し、当該区間音声が言い間違いの不完全な発声であるか否かを順次判定する判定部とを具備する。

本発明の他の態様に係る音声認識装置は、一般的な単語が網羅的に登録された第１の認識辞書が記憶される第１の記憶部と、入力音声に対し前記第１の認識辞書に基づく第１の音声認識処理を行って、当該入力音声を前記第１の認識辞書に登録されている第１の単語列に順次置き換えた第１の音声認識結果を生成する音声認識部と、前記第１の単語列の各々について、当該第１の単語列の不完全な発声に相当する第２の単語列を生成する生成部と、前記第２の単語列が登録された第２の認識辞書が記憶される第２の記憶部と、前記入力音声に対し前記第１の認識辞書及び前記第２の認識辞書に基づく第２の音声認識処理を行って、当該入力音声を前記第１の単語列及び前記第２の単語列のいずれかに順次置き換えた第２の音声認識結果を生成するように前記音声認識部を制御する制御部と、前記第２の音声認識結果において、前記第２の単語列が含まれ、かつ、前記第２の単語列に対応する第１の単語列が当該第２の単語列の後方に隣接していれば、前記入力音声のうち当該第２の単語列及び第１の単語列に相当する部分を不完全な発声及び言い直しと判定する判定部とを具備する。

本発明の他の態様に係る音声認識装置は、一般的な単語が網羅的に登録された第１の認識辞書が記憶される第１の記憶部と、入力音声に対し前記第１の認識辞書に基づく第１の音声認識処理を行って、当該入力音声を前記第１の認識辞書に登録されている第１の単語列に順次置き換えた第１の音声認識結果を生成する音声認識部と、互いに関連する単語同士が関連単語グループとして記述された関連単語辞書が記憶される第２の記憶部と、前記第１の単語列の各々について、前記関連単語グループに属する第２の単語列を検索する検索部と、前記第２の単語列が登録された第２の認識辞書が記憶される第３の記憶部と、前記入力音声に対し前記第１の認識辞書及び前記第２の認識辞書に基づく第２の音声認識処理を行って、当該入力音声を前記第１の単語列及び前記第２の単語列のいずれかに順次置き換えた第２の音声認識結果を生成するように前記音声認識部を制御する制御部と、前記第２の音声認識結果において、前記第２の単語列が含まれ、かつ、前記第２の単語列に対応する第１の単語列が当該第２の単語列の後方に隣接していれば、前記入力音声にのうち当該第２の単語列及び第１の単語列に相当する部分を言い間違い及び言い直しと判定する判定部とを具備する。

本発明の他の態様に係る音声認識装置は、一般的な単語が網羅的に登録された第１の認識辞書が記憶される第１の記憶部と、入力音声に対し前記第１の認識辞書に基づく第１の音声認識処理を行って、当該入力音声を前記第１の認識辞書に登録されている第１の単語列に順次置き換えた第１の音声認識結果を生成する音声認識部と、互いに関連する単語同士が関連単語グループとして記述された関連単語辞書が記憶される第２の記憶部と、前記第１の単語列の各々について、前記関連単語グループに属する第３の単語列を検索する検索部と、前記第３の単語列の各々について、当該第３の単語列の不完全な発声に相当する第２の単語列を生成する生成部と、前記第２の単語列が登録された第２の認識辞書が記憶される第３の記憶部と、前記入力音声に対し前記第１の認識辞書及び前記第２の認識辞書に基づく第２の音声認識処理を行って、当該入力音声を前記第１の単語列及び前記第２の単語列のいずれかに順次置き換えた第２の音声認識結果を生成するように前記音声認識部を制御する制御部と、前記第２の音声認識結果において、前記第２の単語列が含まれ、かつ、前記第２の単語列に対応する第１の単語列が当該第２の単語列の後方に隣接していれば、前記入力音声のうち当該第２の単語列及び第１の単語列に相当する部分を言い間違いの不完全な発声及び言い直しと判定する判定部とを具備する。

本発明によれば、入力音声における言い直し部分及びその対象部分を推定可能な音声認識装置を提供できる。

以下、図面を参照して、本発明の実施形態について説明する。
（第１の実施形態）
図１に示すように、本発明の第１の実施形態に係る音声認識装置は、音声入力部１０１、音声認識部１０２、認識辞書記憶部１０３、制御部１０４、再認識候補生成部１０５、区間音声認識辞書記憶部１０６、区間音声認識部１０７、判定部１０８及び出力部１０９を有する。図１の音声認識装置は、例えばパーソナルコンピュータ（ＰＣ）等の情報処理装置のＣＰＵがプログラムに予め設定された処理工程を実行することにより実現される。

音声入力部１０１は、リアルタイムに入力される音声を電気信号に変換するマイクロホンや、メディア等の記録媒体に予め記録されている音声を電気信号に変換して再生するプレイヤー等である。音声入力部１０１は、上記電気信号を入力音声として音声認識部１０２に入力する。

音声認識部１０２は、音声入力部１０１からの入力音声に対し音声認識処理を行って、当該入力音声の内容を示す言語テキストを音声認識結果として生成する。具体的には、音声認識部１０２は、音響的類似度及び言語的信頼度に基づき、上記入力音声を認識辞書記憶部１０３に記憶されている認識辞書の登録単語に順次置き換えることにより上記音声認識結果を生成する。ここで、音響的類似度とは、認識対象となる音声と、認識候補となる単語の音響モデルとの間の音響的な類似度を指す。また、言語的信頼度とは、認識候補となる単語を含む系列の言語的（文法的、構文的）な信頼度を指し、例えばn-gramモデル等の言語モデルに基づき評価される。音声認識部１０２は、音声認識結果を制御部１０４、判定部１０８及び出力部１０９に入力する。認識辞書記憶部１０３には、一般的な単語を網羅する認識辞書が記憶されている。

制御部１０４は、音声認識部１０２からの音声認識結果から単語列を抽出する。以降の説明において、単語列とは、高々１文節の切れ目までを上限とした１以上の連続する単語を指す。例えば、「学習」や「勉強」等のような単純語、「学習＋机」のような合成語、更に「学習＋机＋に」のような句も単語列と称する。また、動詞のような活用形を有する品詞に関し、「学＋ぶ」のように語幹＋活用語尾の組み合わせも単語列に含まれる。また、文節の１部を構成する「ませ＋ん」のような助動詞＋終助詞の組み合わせも単語列に含まれる。尚、各単語は、表記情報、品詞情報及び読み情報を基本情報として有するものとする。

制御部１０４は、抽出した単語列を再認識候補生成部１０５に入力し、当該単語列に関する再認識候補を取得する。尚、再認識候補の詳細は後述する。制御部１０４は、上記単語列と、当該単語列に関する再認識候補との組を区間音声認識辞書記憶部１０６に記憶される区間音声認識辞書に登録し、入力音声を時分割した区間音声のうち、上記単語列の直前に相当するものを区間音声認識部１０７に入力する。

再認識候補生成部１０５は、制御部１０４から入力される単語列の再認識候補として、当該単語列の不完全な発声を生成する。不完全な発声には、例えば当該単語列の一部分のみの発声、当該単語列の一部分が変形した発声、当該単語列の途中に長音または促音が挿入された発声及び当該単語列から長音または促音が削除された発声が含まれる。具体的には、単語列が「しゅじゅつ」であれば、「しゅじゅ、し」、「しゅっじゅつ」、「しゅーじゅつ」、「しじゅつ」及び「しじつ」等が不完全な発声に相当する。区間音声認識辞書記憶部１０６には、制御部１０４から入力された単語列と当該単語列の再認識候補との組が記憶される。

区間音声認識部１０７は、入力音声を時分割した区間音声のうち、上記単語列の直前に相当するものに対し音声認識処理を行って、当該区間音声の内容を示す言語テキストを再音声認識結果として生成する。具体的には、区間音声認識部１０７は、制御部１０４から入力される区間音声を区間音声認識辞書記憶部１０６に記憶されている区間音声認識辞書の登録単語（本実施形態においては、上記再認識候補）に置き換えることにより上記再音声認識結果を生成する。区間音声認識部１０７は、再音声認識結果を判定部１０８に入力する。

判定部１０８は、区間音声認識部１０７からの再音声認識結果と、音声認識部１０２からの元の音声認識結果のうち当該区間音声に相当する部分とを比較し、前者が後者に比べてより適切であれば、当該区間音声を言い直し対象部分であると判定する。尚、上記比較における適切さの評価基準は後述する。より詳細には、本実施形態において再認識候補は単語列の不完全な発声に相当するので、判定部１０８は上記区間音声を、当該区間音声の後方に隣接する単語列の不完全な発声であると判定する。

出力部１０９は、音声認識部１０２による音声認識結果及び判定部１０８による言い直し判定結果を出力するディスプレイ装置である。出力部１０９は、ＣＲＴ（Cathode Ray Tube）ディスプレイ装置でもよいし、液晶ディスプレイ装置に代表されるフラットパネルディスプレイ装置でもよい。

以下、図２を用いて図１の音声認識装置が行う処理を説明する。
まず、音声認識部１０２は、音声入力部１０１からの音声入力が終了するまで、音声認識処理を続行して音声認識結果を生成する（ステップＳ２０２）。例えば、「きょうはりかをべんべんきょうする」という音声が音声入力部１０１から入力されたとすると、音声認識部１０２は「今日は理科を便勉強する」という言語テキストを音声認識結果として生成する。上記音声認識結果は、より詳細には、「今日＋は＋理科＋を＋便＋勉強＋する」のように最適な単語の系列により構成されている。音声入力部１０１からの音声入力が終了すると（ステップＳ２０１）、処理はステップＳ２０３に進む。音声入力の終了は、例えば所定時間以上の無音区間を検出することにより判定される。

ステップＳ２０３では、制御部１０４は変数ｉに「１」を代入し、処理はステップＳ２０４に進む。ここで、変数ｉは０オリジンのカウンタであり、単語［ｉ］は、ステップＳ２０２における音声認識結果において先頭からｉ＋１番目の単語を指す。例えば、前述した音声認識結果において単語［１］は、先頭から２番目の単語である「は」を指す。後述するステップＳ２０４以降の処理ではステップＳ２０２における音声認識結果内の単語列を抽出するため、ステップＳ２０３では変数ｉを「１」に初期化し、順次増加させることにしている（即ち、音声認識結果の先頭から終端に向かって単語列の抽出を行っている）。

ステップＳ２０４において、単語［ｉ］が存在しなければ処理は終了し、単語［ｉ］が存在すれば処理はステップＳ２０５に進む。即ち、ステップＳ２０２における音声認識結果を構成する全ての単語に対してステップＳ２０５乃至ステップＳ２１８の処理が終了していれば、単語［ｉ］は存在しないので処理は終了する。ステップＳ２０５において、制御部１０４は変数ｊに変数ｉの値を代入し、処理はステップＳ２０６に進む。変数ｊは、変数ｉと同様の０オリジンのカウンタである。

ステップＳ２０６において、制御部１０４は、単語［ｊ］が単語［ｉ］から始まる単語列の終端単語として適切であるか否かを判定する。単語［ｊ］が単語［ｉ］から始まる単語列の終端単語として適切であれば処理はステップＳ２０７に進み、そうでなければ処理はステップＳ２１１に進む。ここで、単語［ｊ］が単語［ｉ］から始まる単語列の終端単語として適切であるか否かの判定基準として、例えば、単語［ｉ］から単語［ｊ」までの単語列の長さ（単語数、即ち、「ｊ−ｉ＋１」）が所定の最大長以内であるか否か、単語［ｊ］が単語［ｉ］と同一文節内にあるか否か、または、単語［ｉ］から単語［ｊ］までの単語列が所定数の文節内に収まるか否か等が挙げられる。例えば、単語［ｊ］が単語［ｉ］と同一文節内にあるか否を基準とすれば、前述した音声認識結果において「今日＋は」の「は」、「理科」の「理科」、「理科＋を」の「を」、「便」の「便」、「勉強」の「勉強」、「勉強＋する」の「する」等が単語列の終端単語として適切であると判定される。

ステップＳ２０７において、制御部１０４は、単語［ｉ］から単語［ｊ］までの一連の単語を単語列として抽出する。次に、制御部１０４はステップＳ２０７において抽出した単語列を再認識候補生成部１０５に入力し、再認識候補生成部１０５が当該単語列の再認識候補を生成する（ステップＳ２０８）。次に、制御部１０４は、ステップＳ２０７において抽出した単語列とステップＳ２０８において生成された再認識候補の組を区間音声認識辞書記憶部１０６に記憶される区間音声認識辞書に登録する（ステップＳ２０９）。次に、制御部１０４は変数ｊを１インクリメントし（ステップＳ２１０）、処理はステップＳ２０６に戻る。

例えば、ステップＳ２０７において制御部１０４が「勉強」という単語列を抽出した場合、ステップＳ２０８において再認識候補生成部１０５は「べんきょ」、「べんき」、「べん」、「べ」等の上記単語列の不完全な発声に相当する再認識候補を生成する。そして、ステップＳ２０９において、制御部１０４は上記単語列と再認識候補との組として、「勉強；べんきょ」、「勉強；べんき」、「勉強；べん」、「勉強；べ」等を区間音声認識辞書記憶部１０６に記憶される区間音声認識辞書に登録する。続けて、ステップＳ２０７において制御部１０４が「勉強する」という単語列を抽出した場合、ステップＳ２０８において再認識候補生成部１０５は「べんきょうす」、「べんきょう」等の上記単語列の不完全な発声に相当する再認識候補を生成する。そして、ステップＳ２０９において、制御部１０４は上記単語列と再認識候補との組として、「勉強する；べんきょうす」、「勉強する；べんきょう」等を区間音声認識辞書記憶部１０６に記憶される区間音声認識辞書に登録する。

ステップＳ２１１において、制御部１０４は変数ｋにｉ−１を代入し、処理はステップＳ２１２に進む。変数ｋは、変数ｉ及びｊと同様の０オリジンのカウンタである。

ステップＳ２１２において、制御部１０４は、単語［ｋ］が後述するステップＳ２１４における再音声認識処理の対象となる区間音声の開始位置（以下、単に区間開始位置と称する）として適切であるか否かを判定する。単語［ｋ］が区間開始位置として適切であれば処理はステップＳ２１４に進み、そうでなければ処理はステップＳ２１３に進む。ステップＳ２１３において、制御部１０４は変数ｋを１デクリメントし、処理はステップＳ２１２に戻る。

ここで、単語［ｋ］が区間開始位置として適切であるか否かの判定基準として、例えば、単語［ｋ］から単語［ｉ−１」までの単語列の長さ（単語数、即ち、「ｉ−ｋ」）が所定の最大長以内であるか否か、単語［ｋ］が単語［ｉ−１］と同一文節内にあるか否か、または、単語［ｋ］から単語［ｉ−１］までの単語列が所定数の文節内に収まるか否か等が挙げられる。ステップＳ２０７において制御部１０４が前述した音声認識結果から抽出した単語列が「勉強」または「勉強する」（いずれもｉ＝「５」である）であれば、制御部１０４は単語［４］に相当する「便」が区間開始位置として適切であると判定する。

ステップＳ２１４において、区間音声認識部１０７は、ステップＳ２１２において判定された区間開始位置に基づく区間音声（即ち、単語［ｋ］から単語［ｉ−１］までに相当する区間音声）に対して再音声認識処理を行う。上記例であれば、区間音声認識部１０７は、「便」に相当する区間音声に対して再音声認識処理を行って「勉強；べん」または「勉強する；べん」の再音声認識結果を生成する。

次に、判定部１０８は、ステップＳ２０２における音声認識結果（即ち、元の音声認識結果）と、ステップＳ２１４における再音声認識結果とを比較する（ステップＳ２１５）。ステップＳ２１５における比較の結果、判定部１０８が再音声認識結果の方が元の音声認識結果に比べて適切であると判定すれば処理はステップＳ２１７に進み、そうでなければ処理はステップＳ２１９に進む（ステップＳ２１６）。ここで、判定部１０８の再音声認識結果及び元の音声認識結果の評価基準として、例えば各音声認識結果における音響的類似度、言語的信頼度またはこれらを組み合わせた指標が挙げられる。

ステップＳ２１７において、判定部１０８は、ステップＳ２１４における再音声認識処理の対象区間は不完全な発声であると判定する。次に、出力部１０９がステップＳ２１７における判定結果を出力し（ステップＳ２１８）、処理はステップＳ２１９に進む。ステップＳ２１９において、制御部１０４は変数ｉを１インクリメントし、処理はステップＳ２０４に戻る。

仮に、上記例において、判定部１０８が再音声認識結果である「勉強；べん」または「勉強する；べん」が元の音声認識結果である「便」に比べて適切であると判定したとする（ステップＳ２１６）。このとき、ステップＳ２１７において、判定部１０８は、ステップＳ２１４における再音声認識処理の対象区間は「勉強」または「勉強する」の不完全な発声であると判定する。

以上説明したように本実施形態に係る音声認識装置は、音声認識結果を構成する単語列の不完全な発声に相当する再認識候補を生成し、入力音声のうち当該単語列の前方に隣接する部分に相当する区間音声に対して上記再認識候補に基づき再音声認識を行っている。従って、本実施形態に係る音声認識装置によれば、再音声認識結果と、元の音声認識結果のうち上記区間音声に相当する部分とを比較することにより、当該区間音声に相当する部分が不完全な発声部分であるか否かを判定することができる。

（第２の実施形態）
図３に示すように、本発明の第２の実施形態に係る音声認識装置は、上記図１に示す音声認識装置において、制御部１０４を制御部３０４に置き換え、再認識候補生成部１０５を除去し、関連単語検索部３１１及び関連単語辞書記憶部３１２を更に設けている。以下の説明では、図３において図１と同一部分には同一符号を付して示し、異なる部分を中心に述べる。

制御部３０４は、音声認識部１０２からの音声認識結果から単語列を抽出する。制御部３０４は、抽出した単語列を関連単語検索部３１１に入力し、当該単語列を構成する単語の関連単語を含む関連単語列を取得する。尚、関連単語の詳細は後述する。制御部３０４は、上記関連単語列を区間音声認識辞書記憶部１０６に記憶される区間音声認識辞書に登録し、入力音声を時分割した区間音声のうち、上記単語列の直前に相当するものを区間音声認識部１０７に入力する。区間音声認識辞書記憶部１０６に記憶される区間音声認識辞書には、制御部３０４から入力された関連単語列が登録される。

関連単語辞書記憶部３１２には、互いに関連する単語同士がグループ化されて記述されている関連単語辞書が記憶されている。関連単語辞書に記述される関連単語グループは、「勉強（サ変名詞）、学習（サ変名詞）・・・」のような類義語グループであってもよいし、「ます（丁寧助動詞）、ませ（丁寧助動詞）＋ん（終助詞）」のような対義語グループであってもよい。関連単語検索部３１１は、制御部３０４から入力された単語列を構成する単語の各々の関連単語を関連単語辞書記憶部３１２に記憶されている関連単語辞書から検索し、検索した関連単語によって上記単語列の一部を置き換えた関連単語列を制御部３０４に入力する。例えば、関連単語検索部３１１は、「勉強（サ変名詞）」の関連単語として「学習（サ変名詞）」を検索する。

区間音声認識部１０７は、制御部３０４から入力される区間音声を区間音声認識辞書記憶部１０６に記憶されている区間音声認識辞書の登録単語（本実施形態においては、上記関連単語列）に置き換えることにより再音声認識結果を生成する。区間音声認識部１０７は、再音声認識結果を判定部１０８に入力する。

判定部１０８は、区間音声認識部１０７からの再音声認識結果と、音声認識部１０２からの元の音声認識結果のうち当該区間音声に相当する部分とを比較し、前者が後者に比べてより適切であれば、当該区間音声を言い直し対象部分であると判定する。より詳細には、判定部１０８は上記区間音声を、当該区間音声の後方に隣接する単語列の言い間違いであると判定する。

以下、図４を用いて図３の音声認識装置が行う処理を説明する。
まず、音声認識部１０２は、音声入力部１０１からの音声入力が終了するまで、音声認識処理を続行して音声認識結果を生成する（ステップＳ４０２）。例えば、「きょうはりかをがくしゅうべんきょうする」という音声が音声入力部１０１から入力されたとすると、音声認識部１０２は「今日は理科を学習勉強する」という言語テキストを音声認識結果として生成する。上記音声認識結果は、より詳細には、「今日＋は＋理科＋を＋学習＋勉強＋する」のように最適な単語の系列により構成されている。音声入力部１０１からの音声入力が終了すると（ステップＳ４０１）、処理はステップＳ４０３に進む。

ステップＳ４０３では、制御部３０４は変数ｉに「１」を代入し、処理はステップＳ４０４に進む。ここで、変数ｉは０オリジンのカウンタであり、単語［ｉ］は、ステップＳ４０２における音声認識結果において先頭からｉ＋１番目の単語を指す。例えば、前述した音声認識結果において単語［１］は、先頭から２番目の単語である「は」を指す。後述するステップＳ４０４以降の処理ではステップＳ４０２における音声認識結果内の単語列を抽出するため、ステップＳ４０３では変数ｉを「１」に初期化し、順次増加させることにしている。

ステップＳ４０４において、単語［ｉ］が存在しなければ処理は終了し、単語［ｉ］が存在すれば処理はステップＳ４０５に進む。即ち、ステップＳ４０２における音声認識結果を構成する全ての単語に対してステップＳ４０５乃至ステップＳ４１８の処理が終了していれば、単語［ｉ］は存在しないので処理は終了する。ステップＳ４０５において、制御部３０４は変数ｊに変数ｉの値を代入し、処理はステップＳ４０６に進む。変数ｊは、変数ｉと同様の０オリジンのカウンタである。

ステップＳ４０６において、制御部３０４は、単語［ｊ］が単語［ｉ］から始まる単語列の終端単語として適切であるか否かを判定する。単語［ｊ］が単語［ｉ］から始まる単語列の終端単語として適切であれば処理はステップＳ４０７に進み、そうでなければ処理はステップＳ４１１に進む。例えば、単語［ｊ］が単語［ｉ］と同一文節内にあるか否を基準とすれば、前述した音声認識結果において「今日＋は」の「は」、「理科」の「理科」、「理科＋を」の「を」、「学習」の「学習」、「勉強」の「勉強」、「勉強＋する」の「する」等が単語列の終端単語として適切であると判定される。

ステップＳ４０７において、制御部３０４は、単語［ｉ］から単語［ｊ］までの一連の単語を単語列として抽出する。次に、制御部３０４はステップＳ４０７において抽出した単語列を関連単語検索部３１１に入力し、関連単語検索部３１１が当該単語列の関連単語列を関連単語辞書記憶部３１２に記憶されている関連単語辞書から検索する（ステップＳ４０８）。次に、制御部３０４は、ステップＳ４０８において検索された関連単語列を区間音声認識辞書記憶部１０６に記憶される区間音声認識辞書に登録する（ステップＳ４０９）。次に、制御部３０４は変数ｊを１インクリメントし（ステップＳ４１０）、処理はステップＳ４０６に戻る。

例えば、ステップＳ４０７において制御部３０４が「勉強」という単語列を抽出した場合、ステップＳ４０８において関連単語検索部３１１は関連単語辞書記憶部３１２に記憶されている関連単語辞書から「勉強（サ変名詞）、学習（サ変名詞）・・・」という関連単語グループを検索する。そして、ステップＳ４０９において、制御部３０４は上記単語列の関連単語列として、「勉強；サ変名詞；べんきょう」、「学習；サ変名詞；がくしゅう」等を区間音声認識辞書記憶部１０６に記憶される区間音声認識辞書に登録する。続けて、ステップＳ４０７において制御部３０４が「勉強する」という単語列を抽出した場合、ステップＳ４０８において関連単語検索部３１１は「勉強する（サ変名詞＋サ変動詞）、学習する（サ変名詞＋サ変動詞）・・・」という関連単語グループを検索する。そして、ステップＳ４０９において、制御部３０４は上記単語列の関連単語列として、「勉強する；（サ変名詞＋サ変動詞）；べんきょうする」、「学習する；（サ変名詞＋サ変動詞）；がくしゅうする」等を区間音声認識辞書記憶部１０６に記憶される区間音声認識辞書に登録する。

ステップＳ４１１において、制御部３０４は変数ｋにｉ−１を代入し、処理はステップＳ４１２に進む。変数ｋは、変数ｉ及びｊと同様の０オリジンのカウンタである。

ステップＳ４１２において、制御部３０４は、単語［ｋ］が区間開始位置として適切であるか否かを判定する。単語［ｋ］が区間開始位置として適切であれば処理はステップＳ４１４に進み、そうでなければ処理はステップＳ４１３に進む。ステップＳ４０７において制御部３０４が前述した音声認識結果から抽出した単語列が「勉強」または「勉強する」（いずれもｉ＝「５」である）であれば、制御部３０４は単語［４］に相当する「学習」が区間開始位置として適切であると判定する。ステップＳ４１３において、制御部３０４は変数ｋを１デクリメントし、処理はステップＳ４１２に戻る。

ステップＳ４１４において、区間音声認識部１０７は、ステップＳ４１２において判定された区間開始位置に基づく区間音声に対して再音声認識処理を行う。上記例であれば、区間音声認識部１０７は、「学習」に相当する区間音声に対して再音声認識処理を行って「学習；サ変名詞；がくしゅう」の再音声認識結果を生成する。

次に、判定部１０８は、ステップＳ４０２における音声認識結果と、ステップＳ４１４における再音声認識結果とを比較する（ステップＳ４１５）。ステップＳ４１５における比較の結果、判定部１０８が再音声認識結果の方が元の音声認識結果に比べて適切であると判定すれば処理はステップＳ４１７に進み、そうでなければ処理はステップＳ４１９に進む（ステップＳ４１６）。

ステップＳ４１７において、判定部１０８は、ステップＳ４１４における再音声認識処理の対象区間は言い間違いであると判定する。次に、出力部１０９がステップＳ４１７における判定結果を出力し（ステップＳ４１８）、処理はステップＳ４１９に進む。ステップＳ４１９において、制御部３０４は変数ｉを１インクリメントし、処理はステップＳ４０４に戻る。

仮に、上記例において、判定部１０８が再音声認識結果である「学習：サ変名詞；がくしゅう」が元の音声認識結果である「学習」に比べて適切であると判定したとする（ステップＳ４１６）。このとき、ステップＳ４１７において、判定部１０８は、ステップＳ４１４における再音声認識処理の対象区間は「勉強」または「勉強する」の言い間違いであると判定する。

以上説明したように本実施形態に係る音声認識装置は、音声認識結果を構成する単語列の関連単語列を検索し、入力音声のうち当該単語列の前方に隣接する部分に相当する区間音声に対して上記関連単語列に基づき再音声認識を行っている。従って、本実施形態に係る音声認識装置によれば、再音声認識結果と、元の音声認識結果のうち上記区間音声に相当する部分とを比較することにより、当該区間音声に相当する部分が言い間違い部分であるか否かを判定することができる。

（第３の実施形態）
図５に示すように、本発明の第３の実施形態に係る音声認識装置は、上記図１に示す音声認識装置において制御部１０４を制御部５０４に置き換え、関連単語検索部３１１及び関連単語辞書記憶部３１２を更に設けている。以下の説明では、図５において図１及び図３と同一部分には同一符号を付して示し、異なる部分を中心に述べる。

制御部５０４は、音声認識部１０２からの音声認識結果から単語列を抽出する。制御部５０４は、抽出した単語列を関連単語検索部３１１に入力し、当該単語列を構成する単語の関連単語を含む関連単語列を取得する。制御部５０４は、上記関連単語列を再認識候補生成部１０５に入力し、当該関連単語列に関する再認識候補を取得する。制御部５０４は、上記関連単語列に関する再認識候補を区間音声認識辞書記憶部１０６に記憶される区間音声認識辞書に登録し、入力音声を時分割した区間音声のうち、上記単語列の直前に相当するものを区間音声認識部１０７に入力する。区間音声認識辞書記憶部１０６には、例えば図２２に示すように、制御部５０４から入力された関連単語列と当該関連単語列に関する再認識候補との組が記憶される。

区間音声認識部１０７は、制御部５０４から入力される区間音声を区間音声認識辞書記憶部１０６に記憶されている区間音声認識辞書の登録単語（本実施形態においては、上記関連単語列に関する再認識候補）に置き換えることにより再音声認識結果を生成する。区間音声認識部１０７は、再音声認識結果を判定部１０８に入力する。

判定部１０８は、区間音声認識部１０７からの再音声認識結果と、音声認識部１０２からの元の音声認識結果のうち当該区間音声に相当する部分とを比較し、前者が後者に比べてより適切であれば、当該区間音声を言い直し対象部分であると判定する。より詳細には、判定部１０８は上記区間音声を、当該区間音声の後方に隣接する単語列の言い間違いの不完全な発声であると判定する。

以下、図６を用いて図５の音声認識装置が行う処理を説明する。
まず、音声認識部１０２は、音声入力部１０１からの音声入力が終了するまで、音声認識処理を続行して音声認識結果を生成する（ステップＳ６０２）。例えば、「きょうはりかをがくべんきょうする」という音声が音声入力部１０１から入力されたとすると、音声認識部１０２は「今日は理科を額勉強する」という言語テキストを音声認識結果として生成する。上記音声認識結果は、より詳細には、「今日＋は＋理科＋を＋額＋勉強＋する」のように最適な単語の系列により構成されている。音声入力部１０１からの音声入力が終了すると（ステップＳ６０１）、処理はステップＳ６０３に進む。

ステップＳ６０３では、制御部５０４は変数ｉに「１」を代入し、処理はステップＳ６０４に進む。ここで、変数ｉは０オリジンのカウンタであり、単語［ｉ］は、ステップＳ６０２における音声認識結果において先頭からｉ＋１番目の単語を指す。例えば、前述した音声認識結果において単語［１］は、先頭から２番目の単語である「は」を指す。後述するステップＳ６０４以降の処理ではステップＳ６０２における音声認識結果内の単語列を抽出するため、ステップＳ６０３では変数ｉを「１」に初期化し、順次増加させることにしている。

ステップＳ６０４において、単語［ｉ］が存在しなければ処理は終了し、単語［ｉ］が存在すれば処理はステップＳ６０５に進む。即ち、ステップＳ６０２における音声認識結果を構成する全ての単語に対してステップＳ６０５乃至ステップＳ６１９の処理が終了していれば、単語［ｉ］は存在しないので処理は終了する。ステップＳ６０５において、制御部５０４は変数ｊに変数ｉの値を代入し、処理はステップＳ６０６に進む。変数ｊは、変数ｉと同様の０オリジンのカウンタである。

ステップＳ６０６において、制御部５０４は、単語［ｊ］が単語［ｉ］から始まる単語列の終端単語として適切であるか否かを判定する。単語［ｊ］が単語［ｉ］から始まる単語列の終端単語として適切であれば処理はステップＳ６０７に進み、そうでなければ処理はステップＳ６１２に進む。例えば、単語［ｊ］が単語［ｉ］と同一文節内にあるか否を基準とすれば、前述した音声認識結果において「今日＋は」の「は」、「理科」の「理科」、「理科＋を」の「を」、「額」の「額」、「勉強」の「勉強」、「勉強＋する」の「する」等が単語列の終端単語として適切であると判定される。

ステップＳ６０７において、制御部５０４は、単語［ｉ］から単語［ｊ］までの一連の単語を単語列として抽出する。次に、制御部５０４はステップＳ６０７において抽出した単語列を関連単語検索部３１１に入力し、関連単語検索部３１１が当該単語列の関連単語列を関連単語辞書記憶部３１２に記憶されている関連単語辞書から検索する（ステップＳ６０８）。次に、制御部５０４はステップＳ６０８において検索された関連単語列を再認識候補生成部１０５に入力し、再認識候補生成部１０５が当該関連単語列の再認識候補を生成する（ステップＳ６０９）。次に、制御部５０４は、ステップＳ６０８において検索された関連単語列とステップＳ６０９において生成された再認識候補との組を区間音声認識辞書記憶部１０６に記憶される区間音声認識辞書に登録する（ステップＳ６１０）。次に、制御部５０４は変数ｊを１インクリメントし（ステップＳ６１１）、処理はステップＳ６０６に戻る。

例えば、ステップＳ６０７において制御部５０４が「勉強」という単語列を抽出した場合、ステップＳ６０８において関連単語検索部３１１は関連単語辞書記憶部３１２に記憶されている関連単語辞書から「勉強（サ変名詞）、学習（サ変名詞）・・・」という関連単語グループを検索する。次に、ステップＳ６０９において、制御部５０４は上記関連単語グループに属する関連単語列を夫々再認識候補生成部１０５に入力し、再認識候補生成部１０５は上記関連単語列の各々の不完全な発声に相当する再認識候補を生成する。具体的には、関連単語列として「学習；サ変名詞：がくしゅう」が入力されると、再認識候補生成部１０５は再認識候補として「がくしゅ」、「がくし」、「がく」、「が」等を生成する。そして、ステップＳ６１０において、制御部５０４は、ステップＳ６０８において検索された関連単語列とステップＳ６０９において生成された再認識候補との組として、例えば「学習；サ変名詞；がくしゅう」、「学習；サ変名詞；がくしゅ」、「学習；サ変名詞；がくし」、「学習；サ変名詞；がく」、「学習；サ変名詞；が」等を区間音声認識辞書記憶部１０６に記憶される区間音声認識辞書に登録する。

ステップＳ６１２において、制御部５０４は変数ｋにｉ−１を代入し、処理はステップＳ６１３に進む。変数ｋは、変数ｉ及びｊと同様の０オリジンのカウンタである。

ステップＳ６１３において、制御部５０４は、単語［ｋ］が区間開始位置として適切であるか否かを判定する。単語［ｋ］が区間開始位置として適切であれば処理はステップＳ６１５に進み、そうでなければ処理はステップＳ６１４に進む。ステップＳ６０７において制御部５０４が前述した音声認識結果から抽出した単語列が「勉強」または「勉強する」（いずれもｉ＝「５」である）であれば、制御部５０４は単語［４］に相当する「額」が区間開始位置として適切であると判定する。ステップＳ６１４において、制御部５０４は変数ｋを１デクリメントし、処理はステップＳ６１３に戻る。

ステップＳ６１５において、区間音声認識部１０７は、ステップＳ６１３において判定された区間開始位置に基づく区間音声に対して再音声認識処理を行う。上記例であれば、区間音声認識部１０７は、「額」に相当する区間音声に対して再音声認識処理を行って「学習；サ変名詞；がく」の再音声認識結果を生成する。

次に、判定部１０８は、ステップＳ６０２における音声認識結果と、ステップＳ６１５における再音声認識結果とを比較する（ステップＳ６１６）。ステップＳ６１６における比較の結果、判定部１０８が再音声認識結果の方が元の音声認識結果に比べて適切であると判定すれば処理はステップＳ６１８に進み、そうでなければ処理はステップＳ６２０に進む（ステップＳ６１７）。

ステップＳ６１８において、判定部１０８は、ステップＳ６１５における再音声認識処理の対象区間は言い間違いの不完全な発声であると判定する。次に、出力部１０９がステップＳ６１８における判定結果を出力し（ステップＳ６１９）、処理はステップＳ６２０に進む。ステップＳ６２０において、制御部５０４は変数ｉを１インクリメントし、処理はステップＳ６０４に戻る。

仮に、上記例において、判定部１０８が再音声認識結果である「学習：サ変名詞；がく」が元の音声認識結果である「額」に比べて適切であると判定したとする（ステップＳ６１７）。このとき、ステップＳ６１８において、判定部１０８は、ステップＳ６１５における再音声認識処理の対象区間は「勉強」または「勉強する」の言い間違い（即ち、「学習」）の不完全な発声であると判定する。

以上説明したように本実施形態に係る音声認識装置は、音声認識結果を構成する単語列の関連単語列を検索し、当該関連単語列の不完全な発声に相当する再認識候補を生成し、入力音声のうち当該単語列の前方に隣接する部分に相当する区間音声に対して上記再認識候補に基づき再音声認識を行っている。従って、本実施形態に係る音声認識装置によれば、再音声認識結果と、元の音声認識結果のうち上記区間音声に相当する部分とを比較することにより、当該区間音声に相当する部分が言い間違いの不完全な発声部分であるか否かを判定することができる。

（第４の実施形態）
図７に示すように、本発明の第４の実施形態に係る音声認識装置は、音声入力部１０１、音声認識部７０２、認識辞書記憶部１０３、制御部７０４、再認識候補生成部１０５、再認識辞書記憶部７０６、判定部７０８及び出力部１０９を有する。以下の説明では、図７において図１と同一部分には同一符号を付して示し、異なる部分を中心に述べる。

音声認識部７０２は、音声入力部１０１からの入力音声に対し音声認識処理を行って、当該入力音声の内容を示す言語テキストを音声認識結果として生成する。具体的には、音声認識部７０２は、音響的類似度及び言語的信頼度に基づき、上記入力音声を認識辞書記憶部１０３に記憶されている単語に順次置き換えることにより上記音声認識結果を生成する。音声認識部７０２は、音声認識結果を制御部７０４、判定部７０８及び出力部１０９に入力する。

また、音声認識部７０２は、後述する制御部７０４から再音声認識要求を受けると、上記入力音声に対して再音声認識処理を行って、当該入力音声の内容を示す言語テキストを再音声認識結果として生成する。具体的には、音声認識部７０２は、上記入力音声を認識辞書記憶部１０３に記憶されている認識辞書の登録単語、または、再認識辞書記憶部７０６に記憶されている再認識辞書の登録単語（本実施形態においては、前述した再認識候補）に順次置き換えることにより上記再音声認識結果を生成する。音声認識部７０２は、再音声認識結果を判定部７０８に入力する。

制御部７０４は、音声認識部７０２からの音声認識結果から単語列を抽出する。制御部７０４は、抽出した単語列を再認識候補生成部１０５に入力し、当該単語列に関する再認識候補を取得する。制御部７０４は、上記単語列と、当該単語列に関する再認識候補との組を、再認識辞書記憶部７０６に記憶される再認識辞書に登録する。また、制御部７０４は、上記再認識辞書の登録単語の各々を、当該登録単語の元の認識単語に対応付けて再認識辞書記憶部７０６に記憶させる。即ち、再認識辞書記憶部７０６には、制御部７０４から入力された単語列と当該単語列の再認識候補との組が元の認識単語に対応付けて記憶される。制御部７０４は、再認識辞書記憶部７０６に対する登録処理が完了すると、再音声認識要求を音声認識部７０２に入力する。

判定部７０８は、再音声認識結果において再認識辞書記憶部７０６に登録されている登録単語列が含まれている場合に、当該登録単語列に一致する単語列の後方に隣接する単語列が当該登録単語列に対応する元の認識単語列に一致するか否かを判定する。判定部７０８は、両者が一致すれば、上記登録単語列に一致する単語列を言い直し対象部分（本実施形態においては不完全な発声部分）、上記元の認識単語列に一致する単語列を言い直し部分と判定する。

以下、図８を用いて図７の音声認識装置が行う処理を説明する。
まず、音声認識部７０２は、音声入力部１０１からの音声入力が終了するまで、音声認識処理を続行して音声認識結果を生成する（ステップＳ８０２）。例えば、「きょうはりかをべんべんきょうする」という音声が音声入力部１０１から入力されたとすると、音声認識部７０２は「今日は理科を便勉強する」という言語テキストを音声認識結果として生成する。上記音声認識結果は、より詳細には、「今日＋は＋理科＋を＋便＋勉強＋する」のように最適な単語の系列により構成されている。音声入力部１０１からの音声入力が終了すると（ステップＳ８０１）、処理はステップＳ８０３に進む。

ステップＳ８０３では、制御部７０４は変数ｉに「１」を代入し、処理はステップＳ８０４に進む。ここで、変数ｉは０オリジンのカウンタであり、単語［ｉ］は、ステップＳ８０２における音声認識結果において先頭からｉ＋１番目の単語を指す。例えば、前述した音声認識結果において単語［１］は、先頭から２番目の単語である「は」を指す。後述するステップＳ８０４以降の処理ではステップＳ８０２における音声認識結果内の単語列を抽出するため、ステップＳ８０３では変数ｉを「１」に初期化し、順次増加させることにしている。

ステップＳ８０４において、単語［ｉ］が存在しなければ処理はステップＳ８１２に進み、単語［ｉ］が存在すれば処理はステップＳ８０５に進む。ステップＳ８０５において、制御部７０４は変数ｊに変数ｉの値を代入し、処理はステップＳ８０６に進む。変数ｊは、変数ｉと同様の０オリジンのカウンタである。

ステップＳ８０６において、制御部７０４は、単語［ｊ］が単語［ｉ］から始まる単語列の終端単語として適切であるか否かを判定する。単語［ｊ］が単語［ｉ］から始まる単語列の終端単語として適切であれば処理はステップＳ８０８に進み、そうでなければ処理はステップＳ８０７に進む。ステップＳ８０７において、制御部７０４は変数ｉを１インクリメントし、処理はステップＳ８０４に戻る。例えば、単語［ｊ］が単語［ｉ］と同一文節内にあるか否を基準とすれば、前述した音声認識結果において「今日＋は」の「は」、「理科」の「理科」、「理科＋を」の「を」、「便」の「便」、「勉強」の「勉強」、「勉強＋する」の「する」等が単語列の終端単語として適切であると判定される。

ステップＳ８０８において、制御部７０４は、単語［ｉ］から単語［ｊ］までの一連の単語を単語列として抽出する。次に、制御部７０４はステップＳ８０８において抽出した単語列を再認識候補生成部１０５に入力し、再認識候補生成部１０５が当該単語列の再認識候補を生成する（ステップＳ８０９）。次に、制御部７０４は、ステップＳ８０８において抽出した単語列とステップＳ８０９において生成された再認識候補の組を再認識辞書記憶部７０６に記憶される再認識辞書に登録する（ステップＳ８１０）。次に、制御部７０４は変数ｊを１インクリメントし（ステップＳ８１１）、処理はステップＳ８０６に戻る。

例えば、ステップＳ８０８において制御部７０４が「勉強」という単語列を抽出した場合、ステップＳ８０９において再認識候補生成部１０５は「べんきょ」、「べんき」、「べん」、「べ」等の上記単語列の不完全な発声に相当する再認識候補を生成する。そして、ステップＳ８１０において、制御部７０４は上記単語列と再認識候補との組として、「勉強；べんきょ」、「勉強；べんき」、「勉強；べん」、「勉強；べ」等を再認識辞書記憶部７０６に記憶される再認識辞書に登録する。続けて、ステップＳ８０８において制御部７０４が「勉強する」という単語列を抽出した場合、ステップＳ８０９において再認識候補生成部１０５は「べんきょうす」、「べんきょう」等の上記単語列の不完全な発声に相当する再認識候補を生成する。そして、ステップＳ８１０において、制御部７０４は上記単語列と再認識候補との組として、「勉強する；べんきょうす」、「勉強する；べんきょう」等を再認識辞書記憶部７０６に記憶される再認識辞書に登録する。

ステップＳ８１２において、制御部７０４は再音声認識要求を音声認識部７０２に入力し、音声認識部７０２はステップＳ８０２において認識対象とした入力音声に対し再音声認識処理を行って再音声認識結果を生成する。上記例であれば、音声認識部７０２は再音声認識結果として、「今日は理科を勉強（べん）勉強（べんきょう）する」（「今日＋は＋理科＋を＋勉強（べん）＋勉強（べんきょう）＋する」）を生成する。尚、「勉強（べん）」は単語「勉強；サ変名詞；べん」を示し、「勉強（べんきょう）」は単語「勉強；サ変名詞；べんきょう」を示すものとする。次に、判定部７０８が変数ｉに「０」を代入し（ステップＳ８１３）、処理はステップＳ８１４に進む。

ステップＳ８１４において、ステップＳ８１２における再音声認識結果に単語［ｉ］が存在しなければ処理はステップＳ８１５に進み、単語［ｉ］が存在すれば処理は終了する。即ち、ステップＳ８１２における再音声認識結果を構成する全ての単語に対してステップＳ８１５乃至ステップＳ８１９の処理が終了していれば、単語［ｉ］は存在しないので処理は終了する。

ステップＳ８１５において、判定部７０８は上記再音声認識結果の単語［ｉ］から始まる単語列が再認識辞書記憶部７０６に記憶されている再認識辞書に登録されているか否かを判定する。上記再音声認識結果の単語［ｉ］から始まる単語列が上記再認識辞書に登録されていれば処理はステップＳ８１６に進み、そうでなければ処理はステップＳ８２０に進む。

ステップＳ８１６において、判定部７０８は、変数ｉの値と、上記再音声認識結果の単語［ｉ］から始まる単語列に一致した登録単語列の単語数との和を変数ｊに代入する。次に、判定部７０８は、上記再音声認識結果の単語［ｊ］から始まる単語列が、上記登録単語列に対応する元の認識単語列に一致するか否かを判定する（ステップＳ８１７）。上記再音声認識結果の単語［ｊ］から始まる単語列が、上記元の認識単語列に一致すれば処理はステップＳ８１８に進み、そうでなければ処理はステップＳ８２０に進む。

ステップＳ８１８において、判定部７０８は、上記再音声認識結果における単語［ｉ］から始まる単語列を不完全な発声部分と判定し、上記再音声認識結果における単語［ｊ］から始まる単語列を上記不完全な発声部分の言い直し部分と判定する。次に、出力部１０９がステップＳ８１８における判定結果を出力し（ステップＳ８１９）、処理はステップＳ８２０に進む。ステップＳ８２０において、判定部７０８が変数ｉを１インクリメントし、処理はステップＳ８１４に戻る。

上記例において再音声認識結果が「今日＋は＋理科＋を＋勉強（べん）＋勉強（べんきょう）＋する」であれば、判定部７０８は「勉強（べん）」を不完全な発声部分と判定し、「勉強（べんきょう）」を上記不完全な発声部分の言い直し部分と判定する。

以上説明したように、本実施形態に係る音声認識装置は、音声認識結果を構成する単語列の不完全な発声に相当する再認識候補を生成し、当該再認識候補を認識候補として追加たうえで入力音声に対して再音声認識を行っている。従って、本実施形態に係る音声認識装置は、再音声認識結果において上記再認識候補が含まれ、かつ、当該再認識候補に対応する単語列が後方に隣接していれば、不完全な発声部分及び言い直し部分を判定することができる。

（第５の実施形態）
図９に示すように、本発明の第５の実施形態に係る音声認識装置は、上記図７に示す音声認識装置において、制御部７０４を制御部９０４に置き換え、再認識候補生成部１０５を除去し、関連単語検索部３１１及び関連単語辞書記憶部３１２を更に設けている。以下の説明では、図９において、図３及び図７と同一部分には同一符号を付して示し、異なる部分を中心に述べる。

制御部９０４は、音声認識部７０２からの音声認識結果から単語列を抽出する。制御部９０４は、抽出した単語列を関連単語検索部３１１に入力し、当該単語列を構成する単語の関連単語を含む関連単語列を取得する。制御部９０４は、上記関連単語を再認識辞書記憶部７０６に記憶される再認識辞書に登録する。また、制御部９０４は、上記再認識辞書の登録単語の各々を、当該登録単語の元の認識単語に対応付けて再認識辞書記憶部７０６に記憶させる。即ち、再認識辞書記憶部７０６には、制御部９０４から入力された関連単語が元の認識単語に対応付けて記憶される。制御部９０４は、再認識辞書記憶部７０６に対する登録処理が完了すると、再音声認識要求を音声認識部７０２に入力する。

判定部７０８は、再音声認識結果において再認識辞書記憶部７０６に登録されている登録単語列が含まれている場合に、当該登録単語列に一致する単語列の後方に隣接する単語列が当該登録単語列に対応する元の認識単語列に一致するか否かを判定する。判定部７０８は、両者が一致すれば、上記登録単語列に一致する単語列を言い直し対象部分（本実施形態においては言い間違い部分）、上記元の認識単語列に一致する単語列を言い直し部分と判定する。

以下、図１０を用いて図９の音声認識装置が行う処理を説明する。
まず、音声認識部７０２は、音声入力部１０１からの音声入力が終了するまで、音声認識処理を続行して音声認識結果を生成する（ステップＳ１００２）。例えば、「きょうはりかをがくしゅうべんきょうする」という音声が音声入力部１０１から入力されたとすると、音声認識部７０２は「今日は理科を学習勉強する」という言語テキストを音声認識結果として生成する。上記音声認識結果は、より詳細には、「今日＋は＋理科＋を＋学習＋勉強＋する」のように最適な単語の系列により構成されている。音声入力部１０１からの音声入力が終了すると（ステップＳ１００１）、処理はステップＳ１００３に進む。

ステップＳ１００３では、制御部９０４は変数ｉに「１」を代入し、処理はステップＳ１００４に進む。ここで、変数ｉは０オリジンのカウンタであり、単語［ｉ］は、ステップＳ１００２における音声認識結果において先頭からｉ＋１番目の単語を指す。例えば、前述した音声認識結果において単語［１］は、先頭から２番目の単語である「は」を指す。後述するステップＳ１００４以降の処理ではステップＳ１００２における音声認識結果内の単語列を抽出するため、ステップＳ１００３では変数ｉを「１」に初期化し、順次増加させることにしている。

ステップＳ１００４において、単語［ｉ］が存在しなければ処理はステップＳ１０１２に進み、単語［ｉ］が存在すれば処理はステップＳ１００５に進む。ステップＳ１００５において、制御部９０４は変数ｊに変数ｉの値を代入し、処理はステップＳ１００６に進む。変数ｊは、変数ｉと同様の０オリジンのカウンタである。

ステップＳ１００６において、制御部９０４は、単語［ｊ］が単語［ｉ］から始まる単語列の終端単語として適切であるか否かを判定する。単語［ｊ］が単語［ｉ］から始まる単語列の終端単語として適切であれば処理はステップＳ１００８に進み、そうでなければ処理はステップＳ１００７に進む。ステップＳ１００７において、制御部９０４は変数ｉを１インクリメントし、処理はステップＳ１００４に戻る。例えば、単語［ｊ］が単語［ｉ］と同一文節内にあるか否を基準とすれば、前述した音声認識結果において「今日＋は」の「は」、「理科」の「理科」、「理科＋を」の「を」、「学習」の「学習」、「勉強」の「勉強」、「勉強＋する」の「する」等が単語列の終端単語として適切であると判定される。

ステップＳ１００８において、制御部９０４は、単語［ｉ］から単語［ｊ］までの一連の単語を単語列として抽出する。次に、制御部９０４はステップＳ１００８において抽出した単語列を関連単語検索部３１１に入力し、関連単語検索部３１１が当該単語列の関連単語列を関連単語辞書記憶部３１２に記憶されている関連単語辞書から検索する（ステップＳ１００９）。次に、制御部９０４は、ステップＳ１００９において検索された関連単語列を再認識辞書記憶部７０６に記憶される再認識辞書に登録する（ステップＳ１０１０）。次に、制御部９０４は変数ｊを１インクリメントし（ステップＳ１０１１）、処理はステップＳ１００６に戻る。

例えば、ステップＳ１００８において制御部９０４が「勉強（サ変名詞）」という単語列を抽出した場合、ステップＳ１００９において関連単語検索部３１１は「勉強（サ変名詞）、学習（サ変名詞）・・・」という関連単語グループを検索する。そして、ステップＳ１０１０において、制御部９０４は上記単語列の関連単語列として、「勉強；サ変名詞；べんきょう」、「学習；サ変名詞；がくしゅう」等を再認識辞書記憶部７０６に記憶される再認識辞書に登録する。続けて、ステップＳ１００８において制御部９０４が「勉強する」という単語列を抽出した場合、ステップＳ１００９において関連単語検索部３１１は「勉強する（サ変名詞＋サ変動詞）、学習する（サ変名詞＋サ変動詞）・・・」という関連単語グループを検索する。そして、ステップＳ１０１０において、制御部９０４は上記単語列の関連単語列として、「勉強する；（サ変名詞＋サ変動詞）；べんきょうする」、「学習する；（サ変名詞＋サ変動詞）；がくしゅうする」等を再認識辞書記憶部７０６に記憶される再認識辞書に登録する。

ステップＳ１０１２において、制御部９０４は再音声認識要求を音声認識部７０２に入力し、音声認識部７０２はステップＳ１００２において認識対象とした入力音声に対し再音声認識処理を行って再音声認識結果を生成する。上記例であれば、音声認識部７０２は再音声認識結果として、「今日は理科を学習勉強する」（「今日＋は＋理科＋を＋学習（がくしゅう）＋勉強＋する」）を生成する。次に、判定部７０８が変数ｉに「０」を代入し（ステップＳ１０１３）、処理はステップＳ１０１４に進む。

ステップＳ１０１４において、ステップＳ１０１２における再音声認識結果に単語［ｉ］が存在しなければ処理はステップＳ１０１５に進み、単語［ｉ］が存在すれば処理は終了する。即ち、ステップＳ１０１２における再音声認識結果を構成する全ての単語に対してステップＳ１０１５乃至ステップＳ１０１９の処理が終了していれば、単語［ｉ］は存在しないので処理は終了する。

ステップＳ１０１５において、判定部７０８は上記再音声認識結果の単語［ｉ］から始まる単語列が再認識辞書記憶部７０６に記憶されている再認識辞書に登録されているか否かを判定する。上記再音声認識結果の単語［ｉ］から始まる単語列が上記再認識辞書に登録されていれば処理はステップＳ１０１６に進み、そうでなければ処理はステップＳ１０２０に進む。

ステップＳ１０１６において、判定部７０８は、変数ｉの値と、上記再音声認識結果の単語［ｉ］から始まる単語列に一致した登録単語列の単語数との和を変数ｊに代入する。次に、判定部７０８は、上記再音声認識結果の単語［ｊ］から始まる単語列が、上記登録単語列に対応する元の認識単語列に一致するか否かを判定する（ステップＳ１０１７）。上記再音声認識結果の単語［ｊ］から始まる単語列が、上記元の認識単語列に一致すれば処理はステップＳ１０１８に進み、そうでなければ処理はステップＳ１０２０に進む。

ステップＳ１０１８において、判定部７０８は、上記再音声認識結果における単語［ｉ］から始まる単語列を不完全な発声部分と判定し、上記再音声認識結果における単語［ｊ］から始まる単語列を上記不完全な発声部分の言い直し部分と判定する。次に、出力部１０９がステップＳ１０１８における判定結果を出力し（ステップＳ１０１９）、処理はステップＳ１０２０に進む。ステップＳ１０２０において、判定部７０８が変数ｉを１インクリメントし、処理はステップＳ１０１４に戻る。

上記例において再音声認識結果が「今日＋は＋理科＋を＋学習＋勉強＋する」であれば、判定部７０８は「学習」を言い間違い部分と判定し、「勉強」を上記言い間違い部分の言い直し部分と判定する。

以上説明したように、本実施形態に係る音声認識装置は、音声認識結果を構成する単語列の関連単語列を検索し、当該関連単語列を認識候補として追加たうえで入力音声に対して再音声認識を行っている。従って、本実施形態に係る音声認識装置は、再音声認識結果において上記関連単語列が含まれ、かつ、当該関連単語列に対応する単語列が後方に隣接していれば、言い間違い部分及び言い直し部分を判定することができる。

（第６の実施形態）
図１１に示すように、本発明の第６の実施形態に係る音声認識装置は、上記図７に示す音声認識装置において、制御部７０４を制御部１１０４に置き換え、関連単語検索部３１１及び関連単語辞書記憶部３１２を更に設けている。以下の説明では、図１１において、図３及び図７と同一部分には同一符号を付して示し、異なる部分を中心に述べる。

制御部１１０４は、音声認識部７０２からの音声認識結果から単語列を抽出する。制御部１１０４は、抽出した単語列を関連単語検索部３１１に入力し、当該単語列を構成する単語の関連単語を含む関連単語列を取得する。制御部１１０４は、上記関連単語列を再認識候補生成部１０５に入力し、当該関連単語列に関する再認識候補を取得する。制御部１１０４は、上記関連単語列に関する再認識候補を再認識辞書記憶部７０６に記憶される再認識辞書に登録する。また、制御部１１０４は、上記再認識辞書の登録単語の各々を、当該登録単語の元の認識単語に対応付けて再認識辞書記憶部７０６に記憶させる。即ち、再認識辞書記憶部７０６には、例えば図２３に示すように、制御部１１０４から入力された関連単語列に関する再認識候補が元の認識単語に対応付けて記憶される。制御部１１０４は、再認識辞書記憶部７０６に対する登録処理が完了すると、再音声認識要求を音声認識部７０２に入力する。

判定部７０８は、再音声認識結果において再認識辞書記憶部７０６に登録されている登録単語列が含まれている場合に、当該登録単語列に一致する単語列の後方に隣接する単語列が当該登録単語列に対応する元の認識単語列に一致するか否かを判定する。判定部７０８は、両者が一致すれば、上記登録単語列に一致する単語列を言い直し対象部分（本実施形態においては言い間違いの不完全な発声部分）、上記元の認識単語列に一致する単語列を言い直し部分と判定する。

以下、図１２を用いて図１１の音声認識装置が行う処理を説明する。
まず、音声認識部７０２は、音声入力部１０１からの音声入力が終了するまで、音声認識処理を続行して音声認識結果を生成する（ステップＳ１２０２）。例えば、「きょうはりかをがくべんきょうする」という音声が音声入力部１０１から入力されたとすると、音声認識部７０２は「今日は理科を額勉強する」という言語テキストを音声認識結果として生成する。上記音声認識結果は、より詳細には、「今日＋は＋理科＋を＋額＋勉強＋する」のように最適な単語の系列により構成されている。音声入力部１０１からの音声入力が終了すると（ステップＳ１２０１）、処理はステップＳ１２０３に進む。

ステップＳ１２０３では、制御部１１０４は変数ｉに「１」を代入し、処理はステップＳ１２０４に進む。ここで、変数ｉは０オリジンのカウンタであり、単語［ｉ］は、ステップＳ１２０２における音声認識結果において先頭からｉ＋１番目の単語を指す。例えば、前述した音声認識結果において単語［１］は、先頭から２番目の単語である「は」を指す。後述するステップＳ１２０４以降の処理ではステップＳ１２０２における音声認識結果内の単語列を抽出するため、ステップＳ１２０３では変数ｉを「１」に初期化し、順次増加させることにしている。

ステップＳ１２０４において、単語［ｉ］が存在しなければ処理はステップＳ１２１３に進み、単語［ｉ］が存在すれば処理はステップＳ１２０５に進む。ステップＳ１２０５において、制御部１１０４は変数ｊに変数ｉの値を代入し、処理はステップＳ１２０６に進む。変数ｊは、変数ｉと同様の０オリジンのカウンタである。

ステップＳ１２０６において、制御部１１０４は、単語［ｊ］が単語［ｉ］から始まる単語列の終端単語として適切であるか否かを判定する。単語［ｊ］が単語［ｉ］から始まる単語列の終端単語として適切であれば処理はステップＳ１２０８に進み、そうでなければ処理はステップＳ１２０７に進む。ステップＳ１２０７において、制御部１１０４は変数ｉを１インクリメントし、処理はステップＳ１２０４に戻る。例えば、単語［ｊ］が単語［ｉ］と同一文節内にあるか否を基準とすれば、前述した音声認識結果において「今日＋は」の「は」、「理科」の「理科」、「理科＋を」の「を」、「額」の「額」、「勉強」の「勉強」、「勉強＋する」の「する」等が単語列の終端単語として適切であると判定される。

ステップＳ１２０８において、制御部１１０４は、単語［ｉ］から単語［ｊ］までの一連の単語を単語列として抽出する。次に、制御部１１０４はステップＳ１２０８において抽出した単語列を関連単語検索部３１１に入力し、関連単語検索部３１１が当該単語列の関連単語列を関連単語辞書記憶部３１２に記憶されている関連単語辞書から検索する（ステップＳ１２０９）。次に、制御部１１０４は、ステップＳ１２０９において検索された関連単語列を再認識候補生成部１０５に入力し、再認識候補生成部１０５が当該関連単語列の再認識候補を生成する（ステップＳ１２１０）。次に、制御部１１０４は、ステップＳ１２０９において検索された関連単語列とステップＳ１２１０において生成された再認識候補との組を再認識辞書記憶部７０６に記憶される再認識辞書に登録する（ステップＳ１２１１）。次に、制御部１１０４は変数ｊを１インクリメントし（ステップＳ１２１２）、処理はステップＳ１２０６に戻る。

例えば、ステップＳ１２０８において制御部１１０４が「勉強（サ変名詞）」という単語列を抽出した場合、ステップＳ１２０９において関連単語検索部３１１は「勉強（サ変名詞）、学習（サ変名詞）・・・」という関連単語グループを検索する。次に、ステップＳ１２１０において、制御部１１０４は上記関連単語グループに属する関連単語列を夫々再認識候補生成部１０５に入力し、再認識候補生成部１０５は上記関連単語列の各々の不完全な発声に相当する再認識候補を生成する。具体的には、関連単語列として「学習；サ変名詞：がくしゅう」が入力されると、再認識候補生成部１０５は再認識候補として「がくしゅ」、「がくし」、「がく」、「が」等を生成する。そして、ステップＳ１２１１において、制御部１１０４は、ステップＳ１２０９において検索された関連単語列とステップＳ１２１０において生成された再認識候補との組として、例えば「学習；サ変名詞；がくしゅう」、「学習；サ変名詞；がくしゅ」、「学習；サ変名詞；がくし」、「学習；サ変名詞；がく」、「学習；サ変名詞；が」等を再認識辞書記憶部７０６に記憶される再認識辞書に登録する。

ステップＳ１２１３において、制御部１１０４は再音声認識要求を音声認識部７０２に入力し、音声認識部７０２はステップＳ１２０２において認識対象とした入力音声に対し再音声認識処理を行って再音声認識結果を生成する。上記例であれば、音声認識部７０２は再音声認識結果として、「今日は理科を学習（がく）勉強する」（「今日＋は＋理科＋を＋学習（がく）＋勉強＋する」）を生成する。次に、判定部７０８が変数ｉに「０」を代入し（ステップＳ１２１４）、処理はステップＳ１２１５に進む。

ステップＳ１２１５において、ステップＳ１２１３における再音声認識結果に単語［ｉ］が存在しなければ処理はステップＳ１２１６に進み、単語［ｉ］が存在すれば処理は終了する。即ち、ステップＳ１２１３における再音声認識結果を構成する全ての単語に対してステップＳ１２１６乃至ステップＳ１２２０の処理が終了していれば、単語［ｉ］は存在しないので処理は終了する。

ステップＳ１２１６において、判定部７０８は上記再音声認識結果の単語［ｉ］から始まる単語列が再認識辞書記憶部７０６に記憶されている再認識辞書に登録されているか否かを判定する。上記再音声認識結果の単語［ｉ］から始まる単語列が上記再認識辞書に登録されていれば処理はステップＳ１２１７に進み、そうでなければ処理はステップＳ１２２１に進む。

ステップＳ１２１７において、判定部７０８は、変数ｉの値と、上記再音声認識結果の単語［ｉ］から始まる単語列に一致した登録単語列の単語数との和を変数ｊに代入する。次に、判定部７０８は、上記再音声認識結果の単語［ｊ］から始まる単語列が、上記登録単語列に対応する元の認識単語列に一致するか否かを判定する（ステップＳ１２１８）。上記再音声認識結果の単語［ｊ］から始まる単語列が、上記元の認識単語列に一致すれば処理はステップＳ１２１９に進み、そうでなければ処理はステップＳ１２２１に進む。

ステップＳ１２１９において、判定部７０８は、上記再音声認識結果における単語［ｉ］から始まる単語列を言い間違いの不完全な発声部分と判定し、上記再音声認識結果における単語［ｊ］から始まる単語列を上記言い間違いの不完全な発声部分の言い直し部分と判定する。次に、出力部１０９がステップＳ１２１９における判定結果を出力し（ステップＳ１２２０）、処理はステップＳ１２２１に進む。ステップＳ１２２１において、判定部７０８が変数ｉを１インクリメントし、処理はステップＳ１２１５に戻る。

上記例において再音声認識結果が「今日＋は＋理科＋を＋学習（がく）＋勉強＋する」であれば、判定部７０８は「学習（がく）」を言い間違いの不完全な発声部分と判定し、「勉強」を上記言い間違いの不完全な発声部分の言い直し部分と判定する。

以上説明したように、本実施形態に係る音声認識装置は、音声認識結果を構成する単語列の関連単語列を検索し、当該関連単語列の不完全な発声に相当する再認識候補を生成し、当該再認識候補を認識候補として追加たうえで入力音声に対して再音声認識を行っている。従って、本実施形態に係る音声認識装置は、再音声認識結果において上記再認識候補が含まれ、かつ、当該再認識候補に対応する単語列が後方に隣接していれば、言い間違いの不完全な発声部分及び言い直し部分を判定することができる。

（第７の実施形態）
図１３に示すように、本発明の第７の実施形態に係る音声認識装置は、上記図１１に示す音声認識装置において、音声認識部７０２を音声認識部１３０２に置き換え、n-gramモデル記憶部１３１３を更に設けている。以下の説明では、図１３において、図１１と同一部分には同一符号を付して示し、異なる部分を中心に述べる。

音声認識部１３０２は、前述した音声認識部７０２と同様に、音声入力部１０１からの入力音声に対し音声認識処理を行って、当該入力音声の内容を示す言語テキストを音声認識結果として生成する。具体的には、音声認識部１３０２は、音響的類似度及び言語的信頼度に基づき、上記入力音声を認識辞書記憶部１０３に記憶されている認識辞書の登録単語に順次置き換えることにより上記音声認識結果を生成する。音声認識部１３０２は、上記言語的信頼度の評価において、後述するn-gramモデル記憶部１３１３に記憶されているn-gramモデルを利用する。音声認識部１３０２は、音声認識結果を制御部７０４、判定部７０８及び出力部１０９に入力する。

また、音声認識部１３０２は、前述した音声認識部７０２と同様に、制御部１１０４から再音声認識要求を受けると、上記入力音声に対して再音声認識処理を行って、当該入力音声の内容を示す言語テキストを再音声認識結果として生成する。音声認識部１３０２は、再音声認識結果を判定部７０８に入力する。

n-gramモデル記憶部１３１３にはn-gramモデルが記憶されている。ここで、n-gramモデルとは、例えば図２４に示すような、特定のｎ（ｎは自然数）単語が隣接して出現する頻度（隣接ｎ単語共起頻度）を学習用のテキストから予め集計することにより得られる統計データである。

以下、図１４を用いて音声認識部１３０２が行う音声認識処理及び再音声認識処理のうち、n-gramモデルを利用する部分を説明する。
まず、音声認識部１３０２は、現在実行中の処理が再音声認識処理であるか否かを判定する（ステップＳ１４０１）。現在実行中の処理が再音声認識処理であれば処理はステップＳ１４０３に進み、そうでなければ処理はステップＳ１４０２に進む。

ステップＳ１４０２において、音声認識部１３０２は入力音声に対する音声認識結果の候補として、認識辞書記憶部１０３に記憶されている認識辞書の登録単語によって構成される単語系列を生成し、処理はステップＳ１４０６に進む。

ステップＳ１４０３において、音声認識部１３０２は、認識辞書記憶部１０３に記憶されている認識辞書の登録単語の他に、再認識辞書記憶部７０６に記憶されている再認識辞書の登録単語を認識候補に追加する。次に、音声認識部１３０２は、入力音声に対する音声認識結果の候補として、認識辞書記憶部１０３に記憶されている認識辞書の登録単語及び再認識辞書記憶部７０６に記憶されている再認識辞書の登録単語によって構成される単語系列を生成する（ステップＳ１４０４）。次に、音声認識部１３０２はステップＳ１４０４において生成した系列に再認識辞書の登録単語が含まれていれば、当該登録単語を対応する元の認識単語に置き換えた仮系列を更に作成し、処理はステップＳ１４０５に進む。例えば、図２５において系列（３）のうち単語「学習（がく）」が「勉強（べんきょう）」の関連単語の不完全な発声に相当する再認識候補として再認識辞書に登録されているのであれば、音声認識部１３０２は系列（３）に基づく仮系列として系列（４）を生成する。

ステップＳ１４０６において、音声認識部１３０２はステップＳ１４０２において生成した系列、または、ステップＳ１４０４において生成した系列及びステップＳ１４０５において生成した仮系列の各々に関し、n-gramモデルに基づく系列評価値を算出する。具体的には、音声認識部１３０２は、n-gramモデル記憶部１３１３に記憶されているn-gramモデルを検索することにより得られる隣接ｎ単語共起頻度を、系列または仮系列の各々に関し先頭の単語から終端の単語まで順次累積加算することにより当該系列または仮系列の系列評価値を算出する。例えば、図２４に示すn-gramモデルによれば、図２５に示す各系列の先頭から３単語までの共起頻度は、系列（１）が「１０」、系列（２）が「２０」、系列（３）及び（５）が「５」、系列（４）が「１００」となる。

次に、音声認識部１３０２はステップＳ１４０６において算出した系列評価値が最大となる系列または仮系列を音声認識結果（再音声認識結果）として出力し、処理は終了する。

以上説明したように、本実施形態に係る音声認識装置は、音声認識処理においてn-gramモデルを利用している。従って、本実施形態に係る音声認識装置によれば、より言語的信頼度の高い音声認識結果を得ることができる。

（第８の実施形態）
本発明の第８の実施形態に係る音声認識装置の構成は、前述した第７の実施形態と同様であるが、音声認識部１３０２の行う処理のうちn-gramモデルを利用する部分が異なる。以下、図１５を用いて本実施形態に係る音声認識装置の音声認識部１３０２が行う音声認識処理及び再音声認識処理のうち、n-gramモデルを利用する部分を説明する。
まず、音声認識部１３０２は、現在実行中の処理が再音声認識処理であるか否かを判定する（ステップＳ１５０１）。現在実行中の処理が再音声認識処理であれば処理はステップＳ１５０３に進み、そうでなければ処理はステップＳ１５０２に進む。

ステップＳ１５０２において、音声認識部１３０２は入力音声に対する音声認識結果の候補として、認識辞書記憶部１０３に記憶されている認識辞書の登録単語によって構成される単語系列を生成し、処理はステップＳ１５０６に進む。

ステップＳ１５０３において、音声認識部１３０２は、認識辞書記憶部１０３に記憶されている認識辞書の登録単語の他に、再認識辞書記憶部７０６に記憶されている再認識辞書の登録単語を認識候補に追加する。次に、音声認識部１５０２は、入力音声に対する音声認識結果の候補として、認識辞書記憶部１０３に記憶されている認識辞書の登録単語及び再認識辞書記憶部７０６に記憶されている再認識辞書の登録単語によって構成される単語系列を生成する（ステップＳ１５０４）。次に、音声認識部１３０２は、ステップＳ１５０４において生成した系列のうち、不適切な系列を除去する。具体的には、音声認識部１３０２は、ステップＳ１５０４において生成した系列に再認識辞書の登録単語列が含まれている場合に当該登録単語列に一致する単語列の後方に隣接する単語列が、当該登録単語列に対応する元の認識単語列に一致しなければ、当該系列を不適切な系列と判定する。例えば、図２５において系列（５）のうち単語列「学習（がく）」は再認識辞書の登録単語列に一致するが、当該単語列「学習（がく）」の後方に隣接する単語列「弁証」は当該登録単語列「学習（がく）」の元の認識単語列「勉強」に一致しないので、音声認識部１３０２は、当該系列（５）を不適切な系列として除去する。

ステップＳ１５０６において、音声認識部１３０２はステップＳ１５０２において生成した系列、または、ステップＳ１５０４において生成した系列のうちステップＳ１５０５において除去されていないものの各々に関し、n-gramモデルに基づく系列評価値を算出する。

次に、音声認識部１３０２はステップＳ１５０６において算出した系列評価値が最大となる系列または仮系列を音声認識結果（再音声認識結果）として出力し、処理は終了する。

以上説明したように、本実施形態に係る音声認識装置は、音声認識処理においてn-gramモデルを利用する場合に不適切な単語系列を再音声認識結果の候補から除去している。従って、本実施形態に係る音声認識装置によれば、再音声認識結果を生成する際の演算量を削減することができる。

（第９の実施形態）
図１６に示すように、本発明の第９の実施形態に係る音声認識装置は、上記図５に示す音声認識装置において、設定部１６１４及び修正部１６１５を更に具備している。

設定部１６１４は、判定部１０８によって判定された言い直し対象部分に対する修正モードを設定する。具体的には上記言い直し対象部分の判定結果は、出力部１０９を介してユーザに提示されており、設定部１６１４は当該ユーザから言い直し対象部分に対する修正モードの設定を受理する。修正モードは、全ての言い直し対象部分に対して一括に設定されてもよいし、言い直し対象部分の各々に対して個別に設定されてもよい。また、設定部１６１４は、ユーザが各言い直し対象部分に設定されている修正モードを把握できるように、修正モードに応じて異なる色等が与えられた修正マーカを言い直し対象部分に付与し、出力部１０９において表示させるようにしてもよい。

修正部１６１５は、設定部１６１４によって設定された修正モードに応じ、上記言い直し対象部分の修正を実行する。修正部１６１５は、具体的には、言い直し対象部分を削除したり、括弧等で区切って他の部分と区別できるように明示したり、当該言い直し対象部分が不完全な発声部分（言い間違いの不完全な発声部分を含む）であれば当該不完全な発声部分を補完したり、補完しなかったり（即ち、不完全な発声に相当する読み情報を出力）する。

以下、図１８を用いて設定部１６１４及び修正部１６１５が行う処理を説明する。
まず、設定部１６１４は、出力部１０９を介して修正モードを一括設定するか否かをユーザに問い合せる。上記問い合わせに対し、ユーザは出力部１０９に表示されるボタン、キーボード、マウス等の図示しない所定の入力インタフェースを介して一括設定する／しないを指示する。設定部１６１４が、修正モードの一括設定を受理すれば処理はステップＳ１８０８に進み、そうでなければ処理はステップＳ１８０２に進む（ステップＳ１８０１）。

ステップＳ１８０２において、設定部１６１４は変数ｉに「０」を代入し、処理はステップＳ１８０３に進む。ここで、変数ｉは０オリジンのカウンタである。ステップＳ１８０３において、設定部１６１４は言い直し判定済みの音声認識結果において単語［ｉ］が存在するか否かを判定する。単語［ｉ］が存在すれば処理はステップＳ１８０４に進み、そうでなければ処理はステップＳ１８１０に進む。

ステップＳ１８０４において、設定部１６１４は単語［ｉ］が言い直し対象単語であるか否かを判定する。単語［ｉ］が言い直し対象単語であれば処理はステップＳ１８０５に進み、そうでなければ処理はステップＳ１８０７に進む。ステップＳ１８０５において、設定部１６１４は、出力部１０９を介していずれの修正モードを単語［ｉ］に対して設定するかをユーザに問い合せる。上記問い合わせに対し、ユーザは所定の入力インタフェースを介して具体的な修正モードを指示する。次に、設定部１６１４がステップＳ１８０５においてユーザから指示された修正モードに応じた修正マーカを単語［ｉ］に対して付与する（ステップＳ１８０６）。次に、設定部１６１４は変数ｉを１インクリメントし（ステップＳ１８０７）、処理はステップＳ１８０３に戻る。

ステップＳ１８０８において、設定部１６１４は、出力部１０９を介していずれの修正モードを設定するかをユーザに問い合せる。上記問い合わせに対し、ユーザは所定の入力インタフェースを介して具体的な修正モードを指示する。次に、設定部１６１４がステップＳ１８０８においてユーザから指示された修正モードに応じた修正マーカを全ての言い直し対象部分に含まれる言い直し対象単語に対して一括付与し（ステップＳ１８０９）、処理はステップＳ１８１０に進む。

ステップＳ１８１０において、修正部１６１５がステップＳ１８０９において付与された修正マーカに従って言い直し対象部分の修正を行って、処理は終了する。以下、図１９乃至図２１を用いて修正部１６１５が行う具体的処理を説明する。

図１９は、言い直し対象部分を削除する修正モード（以下、単に削除モードと称する）に関し、修正部１６１５が行う処理を示している。
まず、修正部１６１５は変数ｉに「０」を代入し（ステップＳ１９０１）、処理はステップＳ１９０２に進む。ここで、変数ｉは０オリジンのカウンタである。ステップＳ１９０２において、修正部１６１５は言い直し判定済みの音声認識結果において単語［ｉ］が存在するか否かを判定する。単語［ｉ］が存在すれば処理はステップＳ１９０３に進み、そうでなければ処理は終了する。

ステップＳ１９０３において、修正部１６１５は、上記削除モードを示す修正マーカである削除マーカが単語［ｉ］に付与されているか否かを判定する。単語［ｉ］に削除マーカが付与されていれば処理はステップＳ１９０５に進み、そうでなければ処理はステップＳ１９０４に進む。ステップＳ１９０４において、修正部１６１５が単語［ｉ］を出力結果に格納し、処理はステップＳ１９０５に進む。即ち、単語［ｉ］に削除マーカが付与されていれば、ステップＳ１９０４がスキップされるため、当該単語［ｉ］は上記出力結果に格納されないこととなる。ステップＳ１９０５において、修正部１６１５は変数ｉを１インクリメントし、処理はステップＳ１９０２に戻る。

例えば、前述した言い直し判定済みの音声認識結果「今日は理科を学習（がく）勉強する」のうち、言い直し対象部分である「学習（がく）」に削除マーカが付与されていれば、修正部１６１５の出力結果は「今日は理科を勉強する」となる。

図２０は、言い直し対象部分を括弧で区切る修正モード（以下、単に括弧付与モードと称する）に関し、修正部１６１５が行う処理を示している。
まず、修正部１６１５は変数ｉに「０」を代入し（ステップＳ２００１）、処理はステップＳ２００２に進む。ここで、変数ｉは０オリジンのカウンタである。ステップＳ２００２において、修正部１６１５は言い直し判定済みの音声認識結果において単語［ｉ］が存在するか否かを判定する。単語［ｉ］が存在すれば処理はステップＳ２００３に進み、そうでなければ処理は終了する。

ステップＳ２００３において、修正部１６１５は単語［ｉ］に括弧付与モードを示す修正マーカである括弧付与マーカが付与されているか否かを判定する。単語［ｉ］に括弧付与マーカが付与されていれば処理はステップＳ２００４に進み、そうでなければ処理はステップＳ２０１０に進む。ステップＳ２０１０において、修正部１６１５は単語［ｉ］を出力結果に格納し、処理はステップＳ２００９に進む。

ステップＳ２００４において、修正部１６１５は単語［ｉ］が言い直し対象部分である単語列の先頭単語であるか否かを判定する。単語［ｉ］が先頭単語であれば処理はステップＳ２００５に進み、そうでなければ処理はステップＳ２００６に進む。ステップＳ２００５において、修正部１６１５は言い直し対象部分の開始を示す開き括弧を出力結果に挿入し、処理はステップＳ２００６に進む。ステップＳ２００６において、修正部１６１５は単語［ｉ］を出力結果に格納し、処理はステップＳ２００７に進む。

ステップＳ２００７において、修正部１６１５は単語［ｉ］が言い直し対象部分である単語列の終端単語であるか否かを判定する。単語［ｉ］が終端単語であれば処理はステップＳ２００８に進み、そうでなければ処理はステップＳ２００９に進む。ステップＳ２００８において、修正部１６１５は言い直し対象部分の終了を示す閉じ括弧を出力結果に挿入し、処理はステップＳ２００９に進む。ステップＳ２００９において、修正部１６１５は変数ｉを１インクリメントし、処理はステップＳ２００２に戻る。

例えば、前述した言い直し判定済みの音声認識結果「今日は理科を学習（がく）勉強する」のうち、言い直し対象部分である「学習（がく）」に括弧付与マーカが付与されていれば、修正部１６１５の出力結果は「今日は理科を（学習）勉強する」となる。

図２１は、言い直し対象部分における不完全な発声部分を補完しない修正モード（以下、単に補完なしモードと称する）に関し、修正部１６１５が行う処理を示している。
まず、修正部１６１５は変数ｉに「０」を代入し（ステップＳ２１０１）、処理はステップＳ２１０２に進む。ここで、変数ｉは０オリジンのカウンタである。ステップＳ２１０２において、修正部１６１５は言い直し判定済みの音声認識結果において単語［ｉ］が存在するか否かを判定する。単語［ｉ］が存在すれば処理はステップＳ２１０３に進み、そうでなければ処理は終了する。

ステップＳ２１０３において、修正部１６１５は単語［ｉ］に対して補完なしモードを示す修正マーカである補完なしマーカが付与されているか否かを判定する。単語［ｉ］に補完なしマーカが付与されていれば処理はステップＳ２１０４に進み、そうでなければ処理はステップＳ２１０６に進む。

ステップＳ２１０４において、修正部１６１５は単語［ｉ］の読み（この場合、不完全な発声に相当する読み）を出力結果に格納し、処理はステップＳ２１０５に進む。ステップＳ２１０６において、修正部１６１５は単語［ｉ］を出力結果に格納し、処理はステップＳ２１０５に進む。ステップＳ２１０５において、修正部１６１５は変数ｉを１インクリメントし、処理はステップＳ２１０２に戻る。

例えば、前述した言い直し判定済みの音声認識結果「今日は理科を学習（がく）勉強する」のうち、言い直し対象部分である「学習（がく）」に補完なしマーカが付与されていれば、修正部１６１５の出力結果は「今日は理科をがく勉強する」となる。

尚、前述した修正モードは重畳的に設定されてもよい。例えば、前述した言い直し判定済みの音声認識結果「今日は理科を学習（がく）勉強する」のうち、言い直し対象部分である「学習（がく）」に補完なしマーカ及び括弧付与マーカが付与されていれば、修正部１６１５の出力結果は「今日は理科を（がく）勉強する」となる。

また、本実施形態に係る音声認識装置は、図１７に示すように、上記図１１に示す音声認識装置において、前述した設定部１６１４及び修正部１６１５を付加することによっても構成できる。その他、上記図１、図３、図７、図９及び図１３に関しても同様である。

以上説明したように、本実施形態に係る音声認識装置は、言い直し対象部分に対する修正モードの設定をユーザから受理し、当該修正モードに応じた修正を行っている。従って、本実施形態に係る音声認識装置によれば、ユーザの意図をより反映した出力結果を得ることができる。

以上、本発明に係る実施形態について説明したが、これに限定されるものではなく、本発明の主旨を逸脱しない範囲での種々の変更、置換、追加などが可能である。

例えば、上記した各実施形態の処理にかかるプログラムを、コンピュータで読み取り可能な記憶媒体に格納して提供することも可能である。記憶媒体としては、磁気ディスク、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＤＶＤ等）、光磁気ディスク（ＭＯ等）、半導体メモリ等、プログラムを記憶でき、且つ、コンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。

また、上記した各実施形態の処理にかかるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。

第１の実施形態に係る音声認識装置を示すブロック図。図１の音声認識装置が行う処理を示すフローチャート。第２の実施形態に係る音声認識装置を示すブロック図。図３の音声認識装置が行う処理を示すフローチャート。第３の実施形態に係る音声認識装置を示すブロック図。図５の音声認識装置が行う処理を示すフローチャート。第４の実施形態に係る音声認識装置を示すブロック図。図７の音声認識装置が行う処理を示すフローチャート。第５の実施形態に係る音声認識装置を示すブロック図。図９の音声認識装置が行う処理を示すフローチャート。第６の実施形態に係る音声認識装置を示すブロック図。図１１の音声認識装置が行う処理を示すフローチャート。第７の実施形態に係る音声認識装置を示すブロック図。図１３の音声認識部が行う処理の一部を示すフローチャート。第８の実施形態に係る音声認識装置の音声認識部が行う処理の一部を示すフローチャート。第９の実施形態に係る音声認識装置の一例を示すブロック図。第９の実施形態に係る音声認識装置の一例を示すブロック図。図１６または図１７の設定部及び修正部が行う処理を示すフローチャート。図１６または図１７の修正部が行う具体的処理の一例を示すフローチャート。図１６または図１７の修正部が行う具体的処理の一例を示すフローチャート。図１６または図１７の修正部が行う具体的処理の一例を示すフローチャート。図５の区間音声認識辞書記憶部に記憶される区間音声認識辞書の一例を示す図。図１１の再認識辞書記憶部に記憶される再認識辞書の一例を示す図。図１３のn-gramモデル記憶部に記憶されるn-gramモデルの一例を示す図。図１３の音声認識部が生成する系列の一例を示す図。

符号の説明

１０１・・・音声入力部
１０２・・・音声認識部
１０３・・・認識辞書記憶部
１０４・・・制御部
１０５・・・再認識候補生成部
１０６・・・区間音声認識辞書記憶部
１０７・・・区間音声認識部
１０８・・・判定部
１０９・・・出力部
３０４・・・制御部
３１１・・・関連単語検索部
３１２・・・関連単語辞書記憶部
５０４・・・制御部
７０２・・・音声認識部
７０４・・・制御部
７０６・・・再認識辞書記憶部
７０８・・・判定部
９０４・・・制御部
９１１・・・関連単語検索部
９１２・・・関連単語辞書記憶部
１１０４・・・制御部
１３０２・・・音声認識部
１３１３・・・n-gramモデル記憶部
１６１４・・・設定部
１６１５・・・修正部

Claims

一般的な単語が網羅的に登録された第１の認識辞書が記憶される第１の記憶部と、
入力音声に対し前記第１の認識辞書に基づく音声認識処理を行って、当該入力音声を前記第１の認識辞書に登録されている第１の単語列に順次置き換えた第１の音声認識結果を生成する第１の音声認識部と、
前記第１の単語列の各々について、当該第１の単語列の不完全な発声に相当する第２の単語列を順次生成する生成部と、
前記第２の単語列が登録された第２の認識辞書が記憶される第２の記憶部と、
前記第１の単語列の各々に相当する部分の前方に隣接する区間音声を前記入力音声から順次抽出する制御部と、
前記区間音声の各々に対し前記第２の認識辞書に基づく音声認識処理を行って、当該区間音声を前記第２の単語列のいずれかに置き換えた第２の音声認識結果を順次生成する第２の音声認識部と、
前記第２の音声認識結果の各々と、前記第１の音声認識結果のうち前記区間音声の各々に相当する部分とを比較し、当該区間音声が不完全な発声であるか否かを順次判定する判定部と、
を具備することを特徴とする音声認識装置。
一般的な単語が網羅的に登録された第１の認識辞書が記憶される第１の記憶部と、
入力音声に対し前記第１の認識辞書に基づく音声認識処理を行って、当該入力音声を前記第１の認識辞書に登録されている第１の単語列に順次置き換えた第１の音声認識結果を生成する第１の音声認識部と、
互いに関連する単語同士が関連単語グループとして記述された関連単語辞書が記憶される第２の記憶部と、
前記第１の単語列の各々について、前記関連単語グループに属する第２の単語列を順次検索する検索部と、
前記第２の単語列が登録された第２の認識辞書が記憶される第３の記憶部と、
前記第１の単語列の各々に相当する部分の前方に隣接する区間音声を前記入力音声から順次抽出する制御部と、
前記区間音声の各々に対し前記第２の認識辞書に基づく音声認識処理を行って、当該区間音声を前記第２の単語列のいずれかに置き換えた第２の音声認識結果を順次生成する第２の音声認識部と、
前記第２の音声認識結果の各々と、前記第１の音声認識結果のうち前記区間音声の各々に相当する部分とを比較し、当該区間音声が言い間違いであるか否かを順次判定する判定部と、
を具備することを特徴とする音声認識装置。
一般的な単語が網羅的に登録された第１の認識辞書が記憶される第１の記憶部と、
入力音声に対し前記第１の認識辞書に基づく音声認識処理を行って、当該入力音声を前記第１の認識辞書に登録されている第１の単語列に順次置き換えた第１の音声認識結果を生成する第１の音声認識部と、
互いに関連する単語同士が関連単語グループとして記述された関連単語辞書が記憶される第２の記憶部と、
前記第１の単語列の各々について、前記関連単語グループに属する第３の単語列を検索する検索部と、
前記第３の単語列の各々について、当該第３の単語列の不完全な発声に相当する第２の単語列を順次生成する生成部と、
前記第２の単語列が登録された第２の認識辞書が記憶される第３の記憶部と、
前記第１の単語列の各々に相当する部分の前方に隣接する区間音声を前記入力音声から順次抽出する制御部と、
前記区間音声の各々に対し前記第２の認識辞書に基づく音声認識処理を行って、当該区間音声を前記第２の単語列のいずれかに置き換えた第２の音声認識結果を順次生成する第２の音声認識部と、
前記第２の音声認識結果の各々と、前記第１の音声認識結果のうち前記区間音声の各々に相当する部分とを比較し、当該区間音声が言い間違いの不完全な発声であるか否かを順次判定する判定部と、
を具備することを特徴とする音声認識装置。
一般的な単語が網羅的に登録された第１の認識辞書が記憶される第１の記憶部と、
入力音声に対し前記第１の認識辞書に基づく第１の音声認識処理を行って、当該入力音声を前記第１の認識辞書に登録されている第１の単語列に順次置き換えた第１の音声認識結果を生成する音声認識部と、
前記第１の単語列の各々について、当該第１の単語列の不完全な発声に相当する第２の単語列を生成する生成部と、
前記第２の単語列が登録された第２の認識辞書が記憶される第２の記憶部と、
前記入力音声に対し前記第１の認識辞書及び前記第２の認識辞書に基づく第２の音声認識処理を行って、当該入力音声を前記第１の単語列及び前記第２の単語列のいずれかに順次置き換えた第２の音声認識結果を生成するように前記音声認識部を制御する制御部と、
前記第２の音声認識結果において、前記第２の単語列が含まれ、かつ、前記第２の単語列に対応する第１の単語列が当該第２の単語列の後方に隣接していれば、前記入力音声のうち当該第２の単語列及び第１の単語列に相当する部分を不完全な発声及び言い直しと判定する判定部と、
を具備することを特徴とする音声認識装置。
一般的な単語が網羅的に登録された第１の認識辞書が記憶される第１の記憶部と、
入力音声に対し前記第１の認識辞書に基づく第１の音声認識処理を行って、当該入力音声を前記第１の認識辞書に登録されている第１の単語列に順次置き換えた第１の音声認識結果を生成する音声認識部と、
互いに関連する単語同士が関連単語グループとして記述された関連単語辞書が記憶される第２の記憶部と、
前記第１の単語列の各々について、前記関連単語グループに属する第２の単語列を検索する検索部と、
前記第２の単語列が登録された第２の認識辞書が記憶される第３の記憶部と、
前記入力音声に対し前記第１の認識辞書及び前記第２の認識辞書に基づく第２の音声認識処理を行って、当該入力音声を前記第１の単語列及び前記第２の単語列のいずれかに順次置き換えた第２の音声認識結果を生成するように前記音声認識部を制御する制御部と、
前記第２の音声認識結果において、前記第２の単語列が含まれ、かつ、前記第２の単語列に対応する第１の単語列が当該第２の単語列の後方に隣接していれば、前記入力音声にのうち当該第２の単語列及び第１の単語列に相当する部分を言い間違い及び言い直しと判定する判定部と、
を具備することを特徴とする音声認識装置。
一般的な単語が網羅的に登録された第１の認識辞書が記憶される第１の記憶部と、
入力音声に対し前記第１の認識辞書に基づく第１の音声認識処理を行って、当該入力音声を前記第１の認識辞書に登録されている第１の単語列に順次置き換えた第１の音声認識結果を生成する音声認識部と、
互いに関連する単語同士が関連単語グループとして記述された関連単語辞書が記憶される第２の記憶部と、
前記第１の単語列の各々について、前記関連単語グループに属する第３の単語列を検索する検索部と、
前記第３の単語列の各々について、当該第３の単語列の不完全な発声に相当する第２の単語列を生成する生成部と、
前記第２の単語列が登録された第２の認識辞書が記憶される第３の記憶部と、
前記入力音声に対し前記第１の認識辞書及び前記第２の認識辞書に基づく第２の音声認識処理を行って、当該入力音声を前記第１の単語列及び前記第２の単語列のいずれかに順次置き換えた第２の音声認識結果を生成するように前記音声認識部を制御する制御部と、
前記第２の音声認識結果において、前記第２の単語列が含まれ、かつ、前記第２の単語列に対応する第１の単語列が当該第２の単語列の後方に隣接していれば、前記入力音声のうち当該第２の単語列及び第１の単語列に相当する部分を言い間違いの不完全な発声及び言い直しと判定する判定部と、
を具備することを特徴とする音声認識装置。
特定の単語の共起頻度を統計的に集計したn-gramモデルが記憶される第４の記憶部を更に具備し、
前記音声認識部は、（ａ）前記第１の音声認識処理において、前記第１の音声認識結果の候補となる第１の単語系列を複数生成し、当該第１の単語系列の各々について前記共起頻度を累積加算した第１の評価値を算出し、当該第１の評価値の最大となる第１の単語系列を前記第１の音声認識結果として生成し、（ｂ）前記第２の音声認識処理において、前記第２の音声認識結果の候補となる第２の単語系列を複数生成し、当該第２の単語系列の各々ついて、当該第２の単語系列に含まれる前記第２の単語列を当該第２の単語列に対応する第１の単語列に置き換えた場合の前記共起頻度を累積加算した第２の評価値を算出し、当該第２の評価値の最大となる第２の単語系列を前記第２の音声認識結果として生成することを特徴とする請求項４乃至請求項６のいずれか１項に記載の音声認識装置。
前記音声認識部は、前記第２の音声認識結果の候補となる第２の単語系列に前記第２の単語列が含まれている場合に、当該第２の単語列に対応する第１の単語列が後方に隣接していなければ、当該第２の単語系列を前記第２の音声認識結果の候補から除去することを特徴とする請求項４乃至請求項７のいずれか１項に記載の音声認識装置。
前記判定部によって（ａ）不完全な発声、（ｂ）言い間違いまたは（ｃ）言い間違いの不完全な発声として判定された部分に対する修正モードを設定する設定部と、
前記修正モードに応じて前記部分の修正を行う修正部と、
を更に具備することを特徴とする請求項１乃至請求項８のいずれか１項に記載の音声認識装置。
前記修正部は、前記判定部によって（ａ）不完全な発声、（ｂ）言い間違いまたは（ｃ）言い間違いの不完全な発声として判定された部分を削除する修正を行うことを特徴とする請求項９に記載の音声認識装置。
前記修正部は、前記判定部によって（ａ）不完全な発声、（ｂ）言い間違いまたは（ｃ）言い間違いの不完全な発声として判定された部分を明示する修正を行うことを特徴とする請求項９に記載の音声認識装置。
前記修正部は、前記判定部によって（ａ）不完全な発声または（ｃ）言い間違いの不完全な発声として判定された部分を、対応する第２の単語列の読み情報に置き換える修正を行うことを特徴とする請求項９記載の音声認識装置。
入力音声に対し一般的な単語が網羅的に登録された第１の認識辞書に基づく音声認識処理を行って、当該入力音声を前記第１の認識辞書に登録されている第１の単語列に順次置き換えた第１の音声認識結果を生成する工程と、
前記第１の単語列の各々について、当該第１の単語列の不完全な発声に相当する第２の単語列を順次生成する工程と、
前記第１の単語列の各々に相当する部分の前方に隣接する区間音声を前記入力音声から順次抽出する工程と、
前記区間音声の各々に対し前記第２の単語列が登録された第２の認識辞書に基づく音声認識処理を行って、当該区間音声を前記第２の単語列のいずれかに置き換えた第２の音声認識結果を順次生成する工程と、
前記第２の音声認識結果の各々と、前記第１の音声認識結果のうち前記区間音声の各々に相当する部分とを比較し、当該区間音声が不完全な発声であるか否かを順次判定する工程と、
を含むことを特徴とする音声認識方法。
コンピュータに、
入力音声に対し一般的な単語が網羅的に登録された第１の認識辞書に基づく音声認識処理を行って、当該入力音声を前記第１の認識辞書に登録されている第１の単語列に順次置き換えた第１の音声認識結果を生成する工程と、
前記第１の単語列の各々について、当該第１の単語列の不完全な発声に相当する第２の単語列を順次生成する工程と、
前記第１の単語列の各々に相当する部分の前方に隣接する区間音声を前記入力音声から順次抽出する工程と、
前記区間音声の各々に対し前記第２の単語列が登録された第２の認識辞書に基づく音声認識処理を行って、当該区間音声を前記第２の単語列のいずれかに置き換えた第２の音声認識結果を順次生成する工程と、
前記第２の音声認識結果の各々と、前記第１の音声認識結果のうち前記区間音声の各々に相当する部分とを比較し、当該区間音声が不完全な発声であるか否かを順次判定する工程と、
を実行させるための音声認識プログラム。