JP2010079092A - 音声認識装置及び方法 - Google Patents
音声認識装置及び方法 Download PDFInfo
- Publication number
- JP2010079092A JP2010079092A JP2008249166A JP2008249166A JP2010079092A JP 2010079092 A JP2010079092 A JP 2010079092A JP 2008249166 A JP2008249166 A JP 2008249166A JP 2008249166 A JP2008249166 A JP 2008249166A JP 2010079092 A JP2010079092 A JP 2010079092A
- Authority
- JP
- Japan
- Prior art keywords
- word
- speech
- speech recognition
- recognition
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】入力音声における言い直し部分及びその対象部分を推定可能な音声認識装置を提供する。
【解決手段】入力音声を認識辞書に登録されている第1の単語列に順次置き換えた第1の音声認識結果を生成する音声認識部102と、第1の単語列の各々について、第1の単語列の不完全な発声に相当する第2の単語列を順次生成する生成部105と、第1の単語列の各々に相当する部分の前方に隣接する区間音声を入力音声から順次抽出する制御部104と、区間音声を第2の単語列のいずれかに置き換えた第2の音声認識結果を順次生成する音声認識部107と、第2の音声認識結果の各々と、第1の音声認識結果のうち区間音声の各々に相当する部分とを比較し、区間音声が不完全な発声であるか否かを順次判定する判定部108とを具備する。
【選択図】 図1
【解決手段】入力音声を認識辞書に登録されている第1の単語列に順次置き換えた第1の音声認識結果を生成する音声認識部102と、第1の単語列の各々について、第1の単語列の不完全な発声に相当する第2の単語列を順次生成する生成部105と、第1の単語列の各々に相当する部分の前方に隣接する区間音声を入力音声から順次抽出する制御部104と、区間音声を第2の単語列のいずれかに置き換えた第2の音声認識結果を順次生成する音声認識部107と、第2の音声認識結果の各々と、第1の音声認識結果のうち区間音声の各々に相当する部分とを比較し、区間音声が不完全な発声であるか否かを順次判定する判定部108とを具備する。
【選択図】 図1
Description
本発明は、音声認識処理に基づく言い直し部分及びその対象部分の推定に関する。
音声認識処理では、ユーザの発話を音響的類似度や言語的信頼度に基づき適切な単語に順次置き換えることにより、当該発話の内容を示す言語テキストを生成する。しかしながら、ユーザが人間である以上、発話したい内容を言い間違えたり言いよどんだりすることなく、常に正確に発話することは困難である。即ち、ユーザの発話を受ける場合、当該発話に言い間違い部分や言いよどみ部分が含まれたり、また、これらを言い直す部分が含まれたりすることが想定される。上記言い間違い部分や言いよどみ部分は、ユーザが意図的に発話した部分ではないのが通常であるから、これらの部分が推定され、他の部分とは明確に区別された状態で音声認識結果が得られることが望ましい。
特許文献1記載の発話解析装置は、「言い直し対象部分+つなぎ語等の編集表現+言い直し部分」という文法規則を用いて、言い直し部分及びその対象部分を推定することを目的としている。上記発話解析装置は、言い直し対象部分と言い直し部分との間には「えーと」や「いや」等の編集表現が挿入されやすいという発話傾向を利用し、当該編集表現の前後の部分(単語または句)が意味的、構文的または音韻的に類似していれば前方部分を言い直し対象部分、後方部分を言い直し部分と夫々推定している。例えば、上記発話解析装置が、「学習、えーと、勉強する」という発話を解析すると、「学習+えーと+勉強」が上記文法規則に適合し、「学習」が言い直し対象部分(この場合、言い間違い部分)と推定され、「勉強」が言い直し部分と推定される。上記発話解析装置は、上記文法規則に基づき抽出した部分のうち、言い直し対象部分及び編集表現(以下、単に言い直し対象部分等と称する)を削除し、言い直し部分のみを最終的な発話解析結果に反映させる。
特許第3309896号公報
特許文献1記載の発話解析装置は、ユーザが直前の発話内容を言い直す場合に、上記編集表現を挿入することを前提としている。しかしながら、「学習、勉強する」のように編集表現を挿入せずにユーザが直前の発話内容を言い直す場合もあり、このような場合には上記発話解析装置は言い直し部分及びその対象部分を推定できない。また、ユーザが上記編集表現を挿入して直前の発話内容を言い直したとしても、当該直前の発話内容が不完全な発話である場合には、上記編集表現の前後の部分が意味、構文及び音韻のいずれにおいても類似しないおそれがある。例えば、前述した発話例「学習、えーと、勉強する」のうち「学習」の部分が不完全に発話されて「額」として音声認識された場合には、「勉強」と「額」とは意味、構文及び音韻のいずれにおいても類似しないから、上記発話解析装置は言い直し部分及びその対象部分を推定できない。
また、上記発話解析装置は、推定した言い直し部分及びその対象部分のうち、言い直し対象部分等は不要なものとして削除し、最終的な発話解析結果に反映させていない。しかしながら、言い直し対象部分が意図的に発話された場合や、ユーザが発話内容を正確に発話解析結果に反映させたい場合等、言い直し対象部分等を最終的な発話解析結果に反映させたい場合もある。また、上記言い直し対象部分等は、発話者の意図や真意を理解する際に役立つこともある。一方、言い直し対象部分等を最終的な発話解析結果においてそのまま反映させると、発話意図が理解し辛くなることも十分想定されるので、例えば言い直し対象部分等を他の部分と区別しやすいような修正を選択的に実行できることが望ましい。
従って、本発明は入力音声における言い直し部分及びその対象部分を推定可能な音声認識装置を提供することを目的とする。
本発明の一態様に係る音声認識装置は、一般的な単語が網羅的に登録された第1の認識辞書が記憶される第1の記憶部と、入力音声に対し前記第1の認識辞書に基づく音声認識処理を行って、当該入力音声を前記第1の認識辞書に登録されている第1の単語列に順次置き換えた第1の音声認識結果を生成する第1の音声認識部と、前記第1の単語列の各々について、当該第1の単語列の不完全な発声に相当する第2の単語列を順次生成する生成部と、前記第2の単語列が登録された第2の認識辞書が記憶される第2の記憶部と、前記第1の単語列の各々に相当する部分の前方に隣接する区間音声を前記入力音声から順次抽出する制御部と、前記区間音声の各々に対し前記第2の認識辞書に基づく音声認識処理を行って、当該区間音声を前記第2の単語列のいずれかに置き換えた第2の音声認識結果を順次生成する第2の音声認識部と、前記第2の音声認識結果の各々と、前記第1の音声認識結果のうち前記区間音声の各々に相当する部分とを比較し、当該区間音声が不完全な発声であるか否かを順次判定する判定部とを具備する。
本発明の他の態様に係る音声認識装置は、一般的な単語が網羅的に登録された第1の認識辞書が記憶される第1の記憶部と、入力音声に対し前記第1の認識辞書に基づく音声認識処理を行って、当該入力音声を前記第1の認識辞書に登録されている第1の単語列に順次置き換えた第1の音声認識結果を生成する第1の音声認識部と、互いに関連する単語同士が関連単語グループとして記述された関連単語辞書が記憶される第2の記憶部と、前記第1の単語列の各々について、前記関連単語グループに属する第2の単語列を順次検索する検索部と、前記第2の単語列が登録された第2の認識辞書が記憶される第3の記憶部と、前記第1の単語列の各々に相当する部分の前方に隣接する区間音声を前記入力音声から順次抽出する制御部と、前記区間音声の各々に対し前記第2の認識辞書に基づく音声認識処理を行って、当該区間音声を前記第2の単語列のいずれかに置き換えた第2の音声認識結果を順次生成する第2の音声認識部と、前記第2の音声認識結果の各々と、前記第1の音声認識結果のうち前記区間音声の各々に相当する部分とを比較し、当該区間音声が言い間違いであるか否かを順次判定する判定部とを具備する。
本発明の他の態様に係る音声認識装置は、一般的な単語が網羅的に登録された第1の認識辞書が記憶される第1の記憶部と、入力音声に対し前記第1の認識辞書に基づく音声認識処理を行って、当該入力音声を前記第1の認識辞書に登録されている第1の単語列に順次置き換えた第1の音声認識結果を生成する第1の音声認識部と、互いに関連する単語同士が関連単語グループとして記述された関連単語辞書が記憶される第2の記憶部と、前記第1の単語列の各々について、前記関連単語グループに属する第3の単語列を検索する検索部と、前記第3の単語列の各々について、当該第3の単語列の不完全な発声に相当する第2の単語列を順次生成する生成部と、前記第2の単語列が登録された第2の認識辞書が記憶される第3の記憶部と、前記第1の単語列の各々に相当する部分の前方に隣接する区間音声を前記入力音声から順次抽出する制御部と、前記区間音声の各々に対し前記第2の認識辞書に基づく音声認識処理を行って、当該区間音声を前記第2の単語列のいずれかに置き換えた第2の音声認識結果を順次生成する第2の音声認識部と、前記第2の音声認識結果の各々と、前記第1の音声認識結果のうち前記区間音声の各々に相当する部分とを比較し、当該区間音声が言い間違いの不完全な発声であるか否かを順次判定する判定部とを具備する。
本発明の他の態様に係る音声認識装置は、一般的な単語が網羅的に登録された第1の認識辞書が記憶される第1の記憶部と、入力音声に対し前記第1の認識辞書に基づく第1の音声認識処理を行って、当該入力音声を前記第1の認識辞書に登録されている第1の単語列に順次置き換えた第1の音声認識結果を生成する音声認識部と、前記第1の単語列の各々について、当該第1の単語列の不完全な発声に相当する第2の単語列を生成する生成部と、前記第2の単語列が登録された第2の認識辞書が記憶される第2の記憶部と、前記入力音声に対し前記第1の認識辞書及び前記第2の認識辞書に基づく第2の音声認識処理を行って、当該入力音声を前記第1の単語列及び前記第2の単語列のいずれかに順次置き換えた第2の音声認識結果を生成するように前記音声認識部を制御する制御部と、前記第2の音声認識結果において、前記第2の単語列が含まれ、かつ、前記第2の単語列に対応する第1の単語列が当該第2の単語列の後方に隣接していれば、前記入力音声のうち当該第2の単語列及び第1の単語列に相当する部分を不完全な発声及び言い直しと判定する判定部とを具備する。
本発明の他の態様に係る音声認識装置は、一般的な単語が網羅的に登録された第1の認識辞書が記憶される第1の記憶部と、入力音声に対し前記第1の認識辞書に基づく第1の音声認識処理を行って、当該入力音声を前記第1の認識辞書に登録されている第1の単語列に順次置き換えた第1の音声認識結果を生成する音声認識部と、互いに関連する単語同士が関連単語グループとして記述された関連単語辞書が記憶される第2の記憶部と、前記第1の単語列の各々について、前記関連単語グループに属する第2の単語列を検索する検索部と、前記第2の単語列が登録された第2の認識辞書が記憶される第3の記憶部と、前記入力音声に対し前記第1の認識辞書及び前記第2の認識辞書に基づく第2の音声認識処理を行って、当該入力音声を前記第1の単語列及び前記第2の単語列のいずれかに順次置き換えた第2の音声認識結果を生成するように前記音声認識部を制御する制御部と、前記第2の音声認識結果において、前記第2の単語列が含まれ、かつ、前記第2の単語列に対応する第1の単語列が当該第2の単語列の後方に隣接していれば、前記入力音声にのうち当該第2の単語列及び第1の単語列に相当する部分を言い間違い及び言い直しと判定する判定部とを具備する。
本発明の他の態様に係る音声認識装置は、一般的な単語が網羅的に登録された第1の認識辞書が記憶される第1の記憶部と、入力音声に対し前記第1の認識辞書に基づく第1の音声認識処理を行って、当該入力音声を前記第1の認識辞書に登録されている第1の単語列に順次置き換えた第1の音声認識結果を生成する音声認識部と、互いに関連する単語同士が関連単語グループとして記述された関連単語辞書が記憶される第2の記憶部と、前記第1の単語列の各々について、前記関連単語グループに属する第3の単語列を検索する検索部と、前記第3の単語列の各々について、当該第3の単語列の不完全な発声に相当する第2の単語列を生成する生成部と、前記第2の単語列が登録された第2の認識辞書が記憶される第3の記憶部と、前記入力音声に対し前記第1の認識辞書及び前記第2の認識辞書に基づく第2の音声認識処理を行って、当該入力音声を前記第1の単語列及び前記第2の単語列のいずれかに順次置き換えた第2の音声認識結果を生成するように前記音声認識部を制御する制御部と、前記第2の音声認識結果において、前記第2の単語列が含まれ、かつ、前記第2の単語列に対応する第1の単語列が当該第2の単語列の後方に隣接していれば、前記入力音声のうち当該第2の単語列及び第1の単語列に相当する部分を言い間違いの不完全な発声及び言い直しと判定する判定部とを具備する。
本発明によれば、入力音声における言い直し部分及びその対象部分を推定可能な音声認識装置を提供できる。
以下、図面を参照して、本発明の実施形態について説明する。
(第1の実施形態)
図1に示すように、本発明の第1の実施形態に係る音声認識装置は、音声入力部101、音声認識部102、認識辞書記憶部103、制御部104、再認識候補生成部105、区間音声認識辞書記憶部106、区間音声認識部107、判定部108及び出力部109を有する。図1の音声認識装置は、例えばパーソナルコンピュータ(PC)等の情報処理装置のCPUがプログラムに予め設定された処理工程を実行することにより実現される。
(第1の実施形態)
図1に示すように、本発明の第1の実施形態に係る音声認識装置は、音声入力部101、音声認識部102、認識辞書記憶部103、制御部104、再認識候補生成部105、区間音声認識辞書記憶部106、区間音声認識部107、判定部108及び出力部109を有する。図1の音声認識装置は、例えばパーソナルコンピュータ(PC)等の情報処理装置のCPUがプログラムに予め設定された処理工程を実行することにより実現される。
音声入力部101は、リアルタイムに入力される音声を電気信号に変換するマイクロホンや、メディア等の記録媒体に予め記録されている音声を電気信号に変換して再生するプレイヤー等である。音声入力部101は、上記電気信号を入力音声として音声認識部102に入力する。
音声認識部102は、音声入力部101からの入力音声に対し音声認識処理を行って、当該入力音声の内容を示す言語テキストを音声認識結果として生成する。具体的には、音声認識部102は、音響的類似度及び言語的信頼度に基づき、上記入力音声を認識辞書記憶部103に記憶されている認識辞書の登録単語に順次置き換えることにより上記音声認識結果を生成する。ここで、音響的類似度とは、認識対象となる音声と、認識候補となる単語の音響モデルとの間の音響的な類似度を指す。また、言語的信頼度とは、認識候補となる単語を含む系列の言語的(文法的、構文的)な信頼度を指し、例えばn-gramモデル等の言語モデルに基づき評価される。音声認識部102は、音声認識結果を制御部104、判定部108及び出力部109に入力する。認識辞書記憶部103には、一般的な単語を網羅する認識辞書が記憶されている。
制御部104は、音声認識部102からの音声認識結果から単語列を抽出する。以降の説明において、単語列とは、高々1文節の切れ目までを上限とした1以上の連続する単語を指す。例えば、「学習」や「勉強」等のような単純語、「学習+机」のような合成語、更に「学習+机+に」のような句も単語列と称する。また、動詞のような活用形を有する品詞に関し、「学+ぶ」のように語幹+活用語尾の組み合わせも単語列に含まれる。また、文節の1部を構成する「ませ+ん」のような助動詞+終助詞の組み合わせも単語列に含まれる。尚、各単語は、表記情報、品詞情報及び読み情報を基本情報として有するものとする。
制御部104は、抽出した単語列を再認識候補生成部105に入力し、当該単語列に関する再認識候補を取得する。尚、再認識候補の詳細は後述する。制御部104は、上記単語列と、当該単語列に関する再認識候補との組を区間音声認識辞書記憶部106に記憶される区間音声認識辞書に登録し、入力音声を時分割した区間音声のうち、上記単語列の直前に相当するものを区間音声認識部107に入力する。
再認識候補生成部105は、制御部104から入力される単語列の再認識候補として、当該単語列の不完全な発声を生成する。不完全な発声には、例えば当該単語列の一部分のみの発声、当該単語列の一部分が変形した発声、当該単語列の途中に長音または促音が挿入された発声及び当該単語列から長音または促音が削除された発声が含まれる。具体的には、単語列が「しゅじゅつ」であれば、「しゅじゅ、し」、「しゅっじゅつ」、「しゅーじゅつ」、「しじゅつ」及び「しじつ」等が不完全な発声に相当する。区間音声認識辞書記憶部106には、制御部104から入力された単語列と当該単語列の再認識候補との組が記憶される。
区間音声認識部107は、入力音声を時分割した区間音声のうち、上記単語列の直前に相当するものに対し音声認識処理を行って、当該区間音声の内容を示す言語テキストを再音声認識結果として生成する。具体的には、区間音声認識部107は、制御部104から入力される区間音声を区間音声認識辞書記憶部106に記憶されている区間音声認識辞書の登録単語(本実施形態においては、上記再認識候補)に置き換えることにより上記再音声認識結果を生成する。区間音声認識部107は、再音声認識結果を判定部108に入力する。
判定部108は、区間音声認識部107からの再音声認識結果と、音声認識部102からの元の音声認識結果のうち当該区間音声に相当する部分とを比較し、前者が後者に比べてより適切であれば、当該区間音声を言い直し対象部分であると判定する。尚、上記比較における適切さの評価基準は後述する。より詳細には、本実施形態において再認識候補は単語列の不完全な発声に相当するので、判定部108は上記区間音声を、当該区間音声の後方に隣接する単語列の不完全な発声であると判定する。
出力部109は、音声認識部102による音声認識結果及び判定部108による言い直し判定結果を出力するディスプレイ装置である。出力部109は、CRT(Cathode Ray Tube)ディスプレイ装置でもよいし、液晶ディスプレイ装置に代表されるフラットパネルディスプレイ装置でもよい。
以下、図2を用いて図1の音声認識装置が行う処理を説明する。
まず、音声認識部102は、音声入力部101からの音声入力が終了するまで、音声認識処理を続行して音声認識結果を生成する(ステップS202)。例えば、「きょうはりかをべんべんきょうする」という音声が音声入力部101から入力されたとすると、音声認識部102は「今日は理科を便勉強する」という言語テキストを音声認識結果として生成する。上記音声認識結果は、より詳細には、「今日+は+理科+を+便+勉強+する」のように最適な単語の系列により構成されている。音声入力部101からの音声入力が終了すると(ステップS201)、処理はステップS203に進む。音声入力の終了は、例えば所定時間以上の無音区間を検出することにより判定される。
まず、音声認識部102は、音声入力部101からの音声入力が終了するまで、音声認識処理を続行して音声認識結果を生成する(ステップS202)。例えば、「きょうはりかをべんべんきょうする」という音声が音声入力部101から入力されたとすると、音声認識部102は「今日は理科を便勉強する」という言語テキストを音声認識結果として生成する。上記音声認識結果は、より詳細には、「今日+は+理科+を+便+勉強+する」のように最適な単語の系列により構成されている。音声入力部101からの音声入力が終了すると(ステップS201)、処理はステップS203に進む。音声入力の終了は、例えば所定時間以上の無音区間を検出することにより判定される。
ステップS203では、制御部104は変数iに「1」を代入し、処理はステップS204に進む。ここで、変数iは0オリジンのカウンタであり、単語[i]は、ステップS202における音声認識結果において先頭からi+1番目の単語を指す。例えば、前述した音声認識結果において単語[1]は、先頭から2番目の単語である「は」を指す。後述するステップS204以降の処理ではステップS202における音声認識結果内の単語列を抽出するため、ステップS203では変数iを「1」に初期化し、順次増加させることにしている(即ち、音声認識結果の先頭から終端に向かって単語列の抽出を行っている)。
ステップS204において、単語[i]が存在しなければ処理は終了し、単語[i]が存在すれば処理はステップS205に進む。即ち、ステップS202における音声認識結果を構成する全ての単語に対してステップS205乃至ステップS218の処理が終了していれば、単語[i]は存在しないので処理は終了する。ステップS205において、制御部104は変数jに変数iの値を代入し、処理はステップS206に進む。変数jは、変数iと同様の0オリジンのカウンタである。
ステップS206において、制御部104は、単語[j]が単語[i]から始まる単語列の終端単語として適切であるか否かを判定する。単語[j]が単語[i]から始まる単語列の終端単語として適切であれば処理はステップS207に進み、そうでなければ処理はステップS211に進む。ここで、単語[j]が単語[i]から始まる単語列の終端単語として適切であるか否かの判定基準として、例えば、単語[i]から単語[j」までの単語列の長さ(単語数、即ち、「j−i+1」)が所定の最大長以内であるか否か、単語[j]が単語[i]と同一文節内にあるか否か、または、単語[i]から単語[j]までの単語列が所定数の文節内に収まるか否か等が挙げられる。例えば、単語[j]が単語[i]と同一文節内にあるか否を基準とすれば、前述した音声認識結果において「今日+は」の「は」、「理科」の「理科」、「理科+を」の「を」、「便」の「便」、「勉強」の「勉強」、「勉強+する」の「する」等が単語列の終端単語として適切であると判定される。
ステップS207において、制御部104は、単語[i]から単語[j]までの一連の単語を単語列として抽出する。次に、制御部104はステップS207において抽出した単語列を再認識候補生成部105に入力し、再認識候補生成部105が当該単語列の再認識候補を生成する(ステップS208)。次に、制御部104は、ステップS207において抽出した単語列とステップS208において生成された再認識候補の組を区間音声認識辞書記憶部106に記憶される区間音声認識辞書に登録する(ステップS209)。次に、制御部104は変数jを1インクリメントし(ステップS210)、処理はステップS206に戻る。
例えば、ステップS207において制御部104が「勉強」という単語列を抽出した場合、ステップS208において再認識候補生成部105は「べんきょ」、「べんき」、「べん」、「べ」等の上記単語列の不完全な発声に相当する再認識候補を生成する。そして、ステップS209において、制御部104は上記単語列と再認識候補との組として、「勉強;べんきょ」、「勉強;べんき」、「勉強;べん」、「勉強;べ」等を区間音声認識辞書記憶部106に記憶される区間音声認識辞書に登録する。続けて、ステップS207において制御部104が「勉強する」という単語列を抽出した場合、ステップS208において再認識候補生成部105は「べんきょうす」、「べんきょう」等の上記単語列の不完全な発声に相当する再認識候補を生成する。そして、ステップS209において、制御部104は上記単語列と再認識候補との組として、「勉強する;べんきょうす」、「勉強する;べんきょう」等を区間音声認識辞書記憶部106に記憶される区間音声認識辞書に登録する。
ステップS211において、制御部104は変数kにi−1を代入し、処理はステップS212に進む。変数kは、変数i及びjと同様の0オリジンのカウンタである。
ステップS212において、制御部104は、単語[k]が後述するステップS214における再音声認識処理の対象となる区間音声の開始位置(以下、単に区間開始位置と称する)として適切であるか否かを判定する。単語[k]が区間開始位置として適切であれば処理はステップS214に進み、そうでなければ処理はステップS213に進む。ステップS213において、制御部104は変数kを1デクリメントし、処理はステップS212に戻る。
ここで、単語[k]が区間開始位置として適切であるか否かの判定基準として、例えば、単語[k]から単語[i−1」までの単語列の長さ(単語数、即ち、「i−k」)が所定の最大長以内であるか否か、単語[k]が単語[i−1]と同一文節内にあるか否か、または、単語[k]から単語[i−1]までの単語列が所定数の文節内に収まるか否か等が挙げられる。ステップS207において制御部104が前述した音声認識結果から抽出した単語列が「勉強」または「勉強する」(いずれもi=「5」である)であれば、制御部104は単語[4]に相当する「便」が区間開始位置として適切であると判定する。
ステップS214において、区間音声認識部107は、ステップS212において判定された区間開始位置に基づく区間音声(即ち、単語[k]から単語[i−1]までに相当する区間音声)に対して再音声認識処理を行う。上記例であれば、区間音声認識部107は、「便」に相当する区間音声に対して再音声認識処理を行って「勉強;べん」または「勉強する;べん」の再音声認識結果を生成する。
次に、判定部108は、ステップS202における音声認識結果(即ち、元の音声認識結果)と、ステップS214における再音声認識結果とを比較する(ステップS215)。ステップS215における比較の結果、判定部108が再音声認識結果の方が元の音声認識結果に比べて適切であると判定すれば処理はステップS217に進み、そうでなければ処理はステップS219に進む(ステップS216)。ここで、判定部108の再音声認識結果及び元の音声認識結果の評価基準として、例えば各音声認識結果における音響的類似度、言語的信頼度またはこれらを組み合わせた指標が挙げられる。
ステップS217において、判定部108は、ステップS214における再音声認識処理の対象区間は不完全な発声であると判定する。次に、出力部109がステップS217における判定結果を出力し(ステップS218)、処理はステップS219に進む。ステップS219において、制御部104は変数iを1インクリメントし、処理はステップS204に戻る。
仮に、上記例において、判定部108が再音声認識結果である「勉強;べん」または「勉強する;べん」が元の音声認識結果である「便」に比べて適切であると判定したとする(ステップS216)。このとき、ステップS217において、判定部108は、ステップS214における再音声認識処理の対象区間は「勉強」または「勉強する」の不完全な発声であると判定する。
以上説明したように本実施形態に係る音声認識装置は、音声認識結果を構成する単語列の不完全な発声に相当する再認識候補を生成し、入力音声のうち当該単語列の前方に隣接する部分に相当する区間音声に対して上記再認識候補に基づき再音声認識を行っている。従って、本実施形態に係る音声認識装置によれば、再音声認識結果と、元の音声認識結果のうち上記区間音声に相当する部分とを比較することにより、当該区間音声に相当する部分が不完全な発声部分であるか否かを判定することができる。
(第2の実施形態)
図3に示すように、本発明の第2の実施形態に係る音声認識装置は、上記図1に示す音声認識装置において、制御部104を制御部304に置き換え、再認識候補生成部105を除去し、関連単語検索部311及び関連単語辞書記憶部312を更に設けている。以下の説明では、図3において図1と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
図3に示すように、本発明の第2の実施形態に係る音声認識装置は、上記図1に示す音声認識装置において、制御部104を制御部304に置き換え、再認識候補生成部105を除去し、関連単語検索部311及び関連単語辞書記憶部312を更に設けている。以下の説明では、図3において図1と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
制御部304は、音声認識部102からの音声認識結果から単語列を抽出する。制御部304は、抽出した単語列を関連単語検索部311に入力し、当該単語列を構成する単語の関連単語を含む関連単語列を取得する。尚、関連単語の詳細は後述する。制御部304は、上記関連単語列を区間音声認識辞書記憶部106に記憶される区間音声認識辞書に登録し、入力音声を時分割した区間音声のうち、上記単語列の直前に相当するものを区間音声認識部107に入力する。区間音声認識辞書記憶部106に記憶される区間音声認識辞書には、制御部304から入力された関連単語列が登録される。
関連単語辞書記憶部312には、互いに関連する単語同士がグループ化されて記述されている関連単語辞書が記憶されている。関連単語辞書に記述される関連単語グループは、「勉強(サ変名詞)、学習(サ変名詞)・・・」のような類義語グループであってもよいし、「ます(丁寧助動詞)、ませ(丁寧助動詞)+ん(終助詞)」のような対義語グループであってもよい。関連単語検索部311は、制御部304から入力された単語列を構成する単語の各々の関連単語を関連単語辞書記憶部312に記憶されている関連単語辞書から検索し、検索した関連単語によって上記単語列の一部を置き換えた関連単語列を制御部304に入力する。例えば、関連単語検索部311は、「勉強(サ変名詞)」の関連単語として「学習(サ変名詞)」を検索する。
区間音声認識部107は、制御部304から入力される区間音声を区間音声認識辞書記憶部106に記憶されている区間音声認識辞書の登録単語(本実施形態においては、上記関連単語列)に置き換えることにより再音声認識結果を生成する。区間音声認識部107は、再音声認識結果を判定部108に入力する。
判定部108は、区間音声認識部107からの再音声認識結果と、音声認識部102からの元の音声認識結果のうち当該区間音声に相当する部分とを比較し、前者が後者に比べてより適切であれば、当該区間音声を言い直し対象部分であると判定する。より詳細には、判定部108は上記区間音声を、当該区間音声の後方に隣接する単語列の言い間違いであると判定する。
以下、図4を用いて図3の音声認識装置が行う処理を説明する。
まず、音声認識部102は、音声入力部101からの音声入力が終了するまで、音声認識処理を続行して音声認識結果を生成する(ステップS402)。例えば、「きょうはりかをがくしゅうべんきょうする」という音声が音声入力部101から入力されたとすると、音声認識部102は「今日は理科を学習勉強する」という言語テキストを音声認識結果として生成する。上記音声認識結果は、より詳細には、「今日+は+理科+を+学習+勉強+する」のように最適な単語の系列により構成されている。音声入力部101からの音声入力が終了すると(ステップS401)、処理はステップS403に進む。
まず、音声認識部102は、音声入力部101からの音声入力が終了するまで、音声認識処理を続行して音声認識結果を生成する(ステップS402)。例えば、「きょうはりかをがくしゅうべんきょうする」という音声が音声入力部101から入力されたとすると、音声認識部102は「今日は理科を学習勉強する」という言語テキストを音声認識結果として生成する。上記音声認識結果は、より詳細には、「今日+は+理科+を+学習+勉強+する」のように最適な単語の系列により構成されている。音声入力部101からの音声入力が終了すると(ステップS401)、処理はステップS403に進む。
ステップS403では、制御部304は変数iに「1」を代入し、処理はステップS404に進む。ここで、変数iは0オリジンのカウンタであり、単語[i]は、ステップS402における音声認識結果において先頭からi+1番目の単語を指す。例えば、前述した音声認識結果において単語[1]は、先頭から2番目の単語である「は」を指す。後述するステップS404以降の処理ではステップS402における音声認識結果内の単語列を抽出するため、ステップS403では変数iを「1」に初期化し、順次増加させることにしている。
ステップS404において、単語[i]が存在しなければ処理は終了し、単語[i]が存在すれば処理はステップS405に進む。即ち、ステップS402における音声認識結果を構成する全ての単語に対してステップS405乃至ステップS418の処理が終了していれば、単語[i]は存在しないので処理は終了する。ステップS405において、制御部304は変数jに変数iの値を代入し、処理はステップS406に進む。変数jは、変数iと同様の0オリジンのカウンタである。
ステップS406において、制御部304は、単語[j]が単語[i]から始まる単語列の終端単語として適切であるか否かを判定する。単語[j]が単語[i]から始まる単語列の終端単語として適切であれば処理はステップS407に進み、そうでなければ処理はステップS411に進む。例えば、単語[j]が単語[i]と同一文節内にあるか否を基準とすれば、前述した音声認識結果において「今日+は」の「は」、「理科」の「理科」、「理科+を」の「を」、「学習」の「学習」、「勉強」の「勉強」、「勉強+する」の「する」等が単語列の終端単語として適切であると判定される。
ステップS407において、制御部304は、単語[i]から単語[j]までの一連の単語を単語列として抽出する。次に、制御部304はステップS407において抽出した単語列を関連単語検索部311に入力し、関連単語検索部311が当該単語列の関連単語列を関連単語辞書記憶部312に記憶されている関連単語辞書から検索する(ステップS408)。次に、制御部304は、ステップS408において検索された関連単語列を区間音声認識辞書記憶部106に記憶される区間音声認識辞書に登録する(ステップS409)。次に、制御部304は変数jを1インクリメントし(ステップS410)、処理はステップS406に戻る。
例えば、ステップS407において制御部304が「勉強」という単語列を抽出した場合、ステップS408において関連単語検索部311は関連単語辞書記憶部312に記憶されている関連単語辞書から「勉強(サ変名詞)、学習(サ変名詞)・・・」という関連単語グループを検索する。そして、ステップS409において、制御部304は上記単語列の関連単語列として、「勉強;サ変名詞;べんきょう」、「学習;サ変名詞;がくしゅう」等を区間音声認識辞書記憶部106に記憶される区間音声認識辞書に登録する。続けて、ステップS407において制御部304が「勉強する」という単語列を抽出した場合、ステップS408において関連単語検索部311は「勉強する(サ変名詞+サ変動詞)、学習する(サ変名詞+サ変動詞)・・・」という関連単語グループを検索する。そして、ステップS409において、制御部304は上記単語列の関連単語列として、「勉強する;(サ変名詞+サ変動詞);べんきょうする」、「学習する;(サ変名詞+サ変動詞);がくしゅうする」等を区間音声認識辞書記憶部106に記憶される区間音声認識辞書に登録する。
ステップS411において、制御部304は変数kにi−1を代入し、処理はステップS412に進む。変数kは、変数i及びjと同様の0オリジンのカウンタである。
ステップS412において、制御部304は、単語[k]が区間開始位置として適切であるか否かを判定する。単語[k]が区間開始位置として適切であれば処理はステップS414に進み、そうでなければ処理はステップS413に進む。ステップS407において制御部304が前述した音声認識結果から抽出した単語列が「勉強」または「勉強する」(いずれもi=「5」である)であれば、制御部304は単語[4]に相当する「学習」が区間開始位置として適切であると判定する。ステップS413において、制御部304は変数kを1デクリメントし、処理はステップS412に戻る。
ステップS414において、区間音声認識部107は、ステップS412において判定された区間開始位置に基づく区間音声に対して再音声認識処理を行う。上記例であれば、区間音声認識部107は、「学習」に相当する区間音声に対して再音声認識処理を行って「学習;サ変名詞;がくしゅう」の再音声認識結果を生成する。
次に、判定部108は、ステップS402における音声認識結果と、ステップS414における再音声認識結果とを比較する(ステップS415)。ステップS415における比較の結果、判定部108が再音声認識結果の方が元の音声認識結果に比べて適切であると判定すれば処理はステップS417に進み、そうでなければ処理はステップS419に進む(ステップS416)。
ステップS417において、判定部108は、ステップS414における再音声認識処理の対象区間は言い間違いであると判定する。次に、出力部109がステップS417における判定結果を出力し(ステップS418)、処理はステップS419に進む。ステップS419において、制御部304は変数iを1インクリメントし、処理はステップS404に戻る。
仮に、上記例において、判定部108が再音声認識結果である「学習:サ変名詞;がくしゅう」が元の音声認識結果である「学習」に比べて適切であると判定したとする(ステップS416)。このとき、ステップS417において、判定部108は、ステップS414における再音声認識処理の対象区間は「勉強」または「勉強する」の言い間違いであると判定する。
以上説明したように本実施形態に係る音声認識装置は、音声認識結果を構成する単語列の関連単語列を検索し、入力音声のうち当該単語列の前方に隣接する部分に相当する区間音声に対して上記関連単語列に基づき再音声認識を行っている。従って、本実施形態に係る音声認識装置によれば、再音声認識結果と、元の音声認識結果のうち上記区間音声に相当する部分とを比較することにより、当該区間音声に相当する部分が言い間違い部分であるか否かを判定することができる。
(第3の実施形態)
図5に示すように、本発明の第3の実施形態に係る音声認識装置は、上記図1に示す音声認識装置において制御部104を制御部504に置き換え、関連単語検索部311及び関連単語辞書記憶部312を更に設けている。以下の説明では、図5において図1及び図3と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
図5に示すように、本発明の第3の実施形態に係る音声認識装置は、上記図1に示す音声認識装置において制御部104を制御部504に置き換え、関連単語検索部311及び関連単語辞書記憶部312を更に設けている。以下の説明では、図5において図1及び図3と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
制御部504は、音声認識部102からの音声認識結果から単語列を抽出する。制御部504は、抽出した単語列を関連単語検索部311に入力し、当該単語列を構成する単語の関連単語を含む関連単語列を取得する。制御部504は、上記関連単語列を再認識候補生成部105に入力し、当該関連単語列に関する再認識候補を取得する。制御部504は、上記関連単語列に関する再認識候補を区間音声認識辞書記憶部106に記憶される区間音声認識辞書に登録し、入力音声を時分割した区間音声のうち、上記単語列の直前に相当するものを区間音声認識部107に入力する。区間音声認識辞書記憶部106には、例えば図22に示すように、制御部504から入力された関連単語列と当該関連単語列に関する再認識候補との組が記憶される。
区間音声認識部107は、制御部504から入力される区間音声を区間音声認識辞書記憶部106に記憶されている区間音声認識辞書の登録単語(本実施形態においては、上記関連単語列に関する再認識候補)に置き換えることにより再音声認識結果を生成する。区間音声認識部107は、再音声認識結果を判定部108に入力する。
判定部108は、区間音声認識部107からの再音声認識結果と、音声認識部102からの元の音声認識結果のうち当該区間音声に相当する部分とを比較し、前者が後者に比べてより適切であれば、当該区間音声を言い直し対象部分であると判定する。より詳細には、判定部108は上記区間音声を、当該区間音声の後方に隣接する単語列の言い間違いの不完全な発声であると判定する。
以下、図6を用いて図5の音声認識装置が行う処理を説明する。
まず、音声認識部102は、音声入力部101からの音声入力が終了するまで、音声認識処理を続行して音声認識結果を生成する(ステップS602)。例えば、「きょうはりかをがくべんきょうする」という音声が音声入力部101から入力されたとすると、音声認識部102は「今日は理科を額勉強する」という言語テキストを音声認識結果として生成する。上記音声認識結果は、より詳細には、「今日+は+理科+を+額+勉強+する」のように最適な単語の系列により構成されている。音声入力部101からの音声入力が終了すると(ステップS601)、処理はステップS603に進む。
まず、音声認識部102は、音声入力部101からの音声入力が終了するまで、音声認識処理を続行して音声認識結果を生成する(ステップS602)。例えば、「きょうはりかをがくべんきょうする」という音声が音声入力部101から入力されたとすると、音声認識部102は「今日は理科を額勉強する」という言語テキストを音声認識結果として生成する。上記音声認識結果は、より詳細には、「今日+は+理科+を+額+勉強+する」のように最適な単語の系列により構成されている。音声入力部101からの音声入力が終了すると(ステップS601)、処理はステップS603に進む。
ステップS603では、制御部504は変数iに「1」を代入し、処理はステップS604に進む。ここで、変数iは0オリジンのカウンタであり、単語[i]は、ステップS602における音声認識結果において先頭からi+1番目の単語を指す。例えば、前述した音声認識結果において単語[1]は、先頭から2番目の単語である「は」を指す。後述するステップS604以降の処理ではステップS602における音声認識結果内の単語列を抽出するため、ステップS603では変数iを「1」に初期化し、順次増加させることにしている。
ステップS604において、単語[i]が存在しなければ処理は終了し、単語[i]が存在すれば処理はステップS605に進む。即ち、ステップS602における音声認識結果を構成する全ての単語に対してステップS605乃至ステップS619の処理が終了していれば、単語[i]は存在しないので処理は終了する。ステップS605において、制御部504は変数jに変数iの値を代入し、処理はステップS606に進む。変数jは、変数iと同様の0オリジンのカウンタである。
ステップS606において、制御部504は、単語[j]が単語[i]から始まる単語列の終端単語として適切であるか否かを判定する。単語[j]が単語[i]から始まる単語列の終端単語として適切であれば処理はステップS607に進み、そうでなければ処理はステップS612に進む。例えば、単語[j]が単語[i]と同一文節内にあるか否を基準とすれば、前述した音声認識結果において「今日+は」の「は」、「理科」の「理科」、「理科+を」の「を」、「額」の「額」、「勉強」の「勉強」、「勉強+する」の「する」等が単語列の終端単語として適切であると判定される。
ステップS607において、制御部504は、単語[i]から単語[j]までの一連の単語を単語列として抽出する。次に、制御部504はステップS607において抽出した単語列を関連単語検索部311に入力し、関連単語検索部311が当該単語列の関連単語列を関連単語辞書記憶部312に記憶されている関連単語辞書から検索する(ステップS608)。次に、制御部504はステップS608において検索された関連単語列を再認識候補生成部105に入力し、再認識候補生成部105が当該関連単語列の再認識候補を生成する(ステップS609)。次に、制御部504は、ステップS608において検索された関連単語列とステップS609において生成された再認識候補との組を区間音声認識辞書記憶部106に記憶される区間音声認識辞書に登録する(ステップS610)。次に、制御部504は変数jを1インクリメントし(ステップS611)、処理はステップS606に戻る。
例えば、ステップS607において制御部504が「勉強」という単語列を抽出した場合、ステップS608において関連単語検索部311は関連単語辞書記憶部312に記憶されている関連単語辞書から「勉強(サ変名詞)、学習(サ変名詞)・・・」という関連単語グループを検索する。次に、ステップS609において、制御部504は上記関連単語グループに属する関連単語列を夫々再認識候補生成部105に入力し、再認識候補生成部105は上記関連単語列の各々の不完全な発声に相当する再認識候補を生成する。具体的には、関連単語列として「学習;サ変名詞:がくしゅう」が入力されると、再認識候補生成部105は再認識候補として「がくしゅ」、「がくし」、「がく」、「が」等を生成する。そして、ステップS610において、制御部504は、ステップS608において検索された関連単語列とステップS609において生成された再認識候補との組として、例えば「学習;サ変名詞;がくしゅう」、「学習;サ変名詞;がくしゅ」、「学習;サ変名詞;がくし」、「学習;サ変名詞;がく」、「学習;サ変名詞;が」等を区間音声認識辞書記憶部106に記憶される区間音声認識辞書に登録する。
ステップS612において、制御部504は変数kにi−1を代入し、処理はステップS613に進む。変数kは、変数i及びjと同様の0オリジンのカウンタである。
ステップS613において、制御部504は、単語[k]が区間開始位置として適切であるか否かを判定する。単語[k]が区間開始位置として適切であれば処理はステップS615に進み、そうでなければ処理はステップS614に進む。ステップS607において制御部504が前述した音声認識結果から抽出した単語列が「勉強」または「勉強する」(いずれもi=「5」である)であれば、制御部504は単語[4]に相当する「額」が区間開始位置として適切であると判定する。ステップS614において、制御部504は変数kを1デクリメントし、処理はステップS613に戻る。
ステップS615において、区間音声認識部107は、ステップS613において判定された区間開始位置に基づく区間音声に対して再音声認識処理を行う。上記例であれば、区間音声認識部107は、「額」に相当する区間音声に対して再音声認識処理を行って「学習;サ変名詞;がく」の再音声認識結果を生成する。
次に、判定部108は、ステップS602における音声認識結果と、ステップS615における再音声認識結果とを比較する(ステップS616)。ステップS616における比較の結果、判定部108が再音声認識結果の方が元の音声認識結果に比べて適切であると判定すれば処理はステップS618に進み、そうでなければ処理はステップS620に進む(ステップS617)。
ステップS618において、判定部108は、ステップS615における再音声認識処理の対象区間は言い間違いの不完全な発声であると判定する。次に、出力部109がステップS618における判定結果を出力し(ステップS619)、処理はステップS620に進む。ステップS620において、制御部504は変数iを1インクリメントし、処理はステップS604に戻る。
仮に、上記例において、判定部108が再音声認識結果である「学習:サ変名詞;がく」が元の音声認識結果である「額」に比べて適切であると判定したとする(ステップS617)。このとき、ステップS618において、判定部108は、ステップS615における再音声認識処理の対象区間は「勉強」または「勉強する」の言い間違い(即ち、「学習」)の不完全な発声であると判定する。
以上説明したように本実施形態に係る音声認識装置は、音声認識結果を構成する単語列の関連単語列を検索し、当該関連単語列の不完全な発声に相当する再認識候補を生成し、入力音声のうち当該単語列の前方に隣接する部分に相当する区間音声に対して上記再認識候補に基づき再音声認識を行っている。従って、本実施形態に係る音声認識装置によれば、再音声認識結果と、元の音声認識結果のうち上記区間音声に相当する部分とを比較することにより、当該区間音声に相当する部分が言い間違いの不完全な発声部分であるか否かを判定することができる。
(第4の実施形態)
図7に示すように、本発明の第4の実施形態に係る音声認識装置は、音声入力部101、音声認識部702、認識辞書記憶部103、制御部704、再認識候補生成部105、再認識辞書記憶部706、判定部708及び出力部109を有する。以下の説明では、図7において図1と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
図7に示すように、本発明の第4の実施形態に係る音声認識装置は、音声入力部101、音声認識部702、認識辞書記憶部103、制御部704、再認識候補生成部105、再認識辞書記憶部706、判定部708及び出力部109を有する。以下の説明では、図7において図1と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
音声認識部702は、音声入力部101からの入力音声に対し音声認識処理を行って、当該入力音声の内容を示す言語テキストを音声認識結果として生成する。具体的には、音声認識部702は、音響的類似度及び言語的信頼度に基づき、上記入力音声を認識辞書記憶部103に記憶されている単語に順次置き換えることにより上記音声認識結果を生成する。音声認識部702は、音声認識結果を制御部704、判定部708及び出力部109に入力する。
また、音声認識部702は、後述する制御部704から再音声認識要求を受けると、上記入力音声に対して再音声認識処理を行って、当該入力音声の内容を示す言語テキストを再音声認識結果として生成する。具体的には、音声認識部702は、上記入力音声を認識辞書記憶部103に記憶されている認識辞書の登録単語、または、再認識辞書記憶部706に記憶されている再認識辞書の登録単語(本実施形態においては、前述した再認識候補)に順次置き換えることにより上記再音声認識結果を生成する。音声認識部702は、再音声認識結果を判定部708に入力する。
制御部704は、音声認識部702からの音声認識結果から単語列を抽出する。制御部704は、抽出した単語列を再認識候補生成部105に入力し、当該単語列に関する再認識候補を取得する。制御部704は、上記単語列と、当該単語列に関する再認識候補との組を、再認識辞書記憶部706に記憶される再認識辞書に登録する。また、制御部704は、上記再認識辞書の登録単語の各々を、当該登録単語の元の認識単語に対応付けて再認識辞書記憶部706に記憶させる。即ち、再認識辞書記憶部706には、制御部704から入力された単語列と当該単語列の再認識候補との組が元の認識単語に対応付けて記憶される。制御部704は、再認識辞書記憶部706に対する登録処理が完了すると、再音声認識要求を音声認識部702に入力する。
判定部708は、再音声認識結果において再認識辞書記憶部706に登録されている登録単語列が含まれている場合に、当該登録単語列に一致する単語列の後方に隣接する単語列が当該登録単語列に対応する元の認識単語列に一致するか否かを判定する。判定部708は、両者が一致すれば、上記登録単語列に一致する単語列を言い直し対象部分(本実施形態においては不完全な発声部分)、上記元の認識単語列に一致する単語列を言い直し部分と判定する。
以下、図8を用いて図7の音声認識装置が行う処理を説明する。
まず、音声認識部702は、音声入力部101からの音声入力が終了するまで、音声認識処理を続行して音声認識結果を生成する(ステップS802)。例えば、「きょうはりかをべんべんきょうする」という音声が音声入力部101から入力されたとすると、音声認識部702は「今日は理科を便勉強する」という言語テキストを音声認識結果として生成する。上記音声認識結果は、より詳細には、「今日+は+理科+を+便+勉強+する」のように最適な単語の系列により構成されている。音声入力部101からの音声入力が終了すると(ステップS801)、処理はステップS803に進む。
まず、音声認識部702は、音声入力部101からの音声入力が終了するまで、音声認識処理を続行して音声認識結果を生成する(ステップS802)。例えば、「きょうはりかをべんべんきょうする」という音声が音声入力部101から入力されたとすると、音声認識部702は「今日は理科を便勉強する」という言語テキストを音声認識結果として生成する。上記音声認識結果は、より詳細には、「今日+は+理科+を+便+勉強+する」のように最適な単語の系列により構成されている。音声入力部101からの音声入力が終了すると(ステップS801)、処理はステップS803に進む。
ステップS803では、制御部704は変数iに「1」を代入し、処理はステップS804に進む。ここで、変数iは0オリジンのカウンタであり、単語[i]は、ステップS802における音声認識結果において先頭からi+1番目の単語を指す。例えば、前述した音声認識結果において単語[1]は、先頭から2番目の単語である「は」を指す。後述するステップS804以降の処理ではステップS802における音声認識結果内の単語列を抽出するため、ステップS803では変数iを「1」に初期化し、順次増加させることにしている。
ステップS804において、単語[i]が存在しなければ処理はステップS812に進み、単語[i]が存在すれば処理はステップS805に進む。ステップS805において、制御部704は変数jに変数iの値を代入し、処理はステップS806に進む。変数jは、変数iと同様の0オリジンのカウンタである。
ステップS806において、制御部704は、単語[j]が単語[i]から始まる単語列の終端単語として適切であるか否かを判定する。単語[j]が単語[i]から始まる単語列の終端単語として適切であれば処理はステップS808に進み、そうでなければ処理はステップS807に進む。ステップS807において、制御部704は変数iを1インクリメントし、処理はステップS804に戻る。例えば、単語[j]が単語[i]と同一文節内にあるか否を基準とすれば、前述した音声認識結果において「今日+は」の「は」、「理科」の「理科」、「理科+を」の「を」、「便」の「便」、「勉強」の「勉強」、「勉強+する」の「する」等が単語列の終端単語として適切であると判定される。
ステップS808において、制御部704は、単語[i]から単語[j]までの一連の単語を単語列として抽出する。次に、制御部704はステップS808において抽出した単語列を再認識候補生成部105に入力し、再認識候補生成部105が当該単語列の再認識候補を生成する(ステップS809)。次に、制御部704は、ステップS808において抽出した単語列とステップS809において生成された再認識候補の組を再認識辞書記憶部706に記憶される再認識辞書に登録する(ステップS810)。次に、制御部704は変数jを1インクリメントし(ステップS811)、処理はステップS806に戻る。
例えば、ステップS808において制御部704が「勉強」という単語列を抽出した場合、ステップS809において再認識候補生成部105は「べんきょ」、「べんき」、「べん」、「べ」等の上記単語列の不完全な発声に相当する再認識候補を生成する。そして、ステップS810において、制御部704は上記単語列と再認識候補との組として、「勉強;べんきょ」、「勉強;べんき」、「勉強;べん」、「勉強;べ」等を再認識辞書記憶部706に記憶される再認識辞書に登録する。続けて、ステップS808において制御部704が「勉強する」という単語列を抽出した場合、ステップS809において再認識候補生成部105は「べんきょうす」、「べんきょう」等の上記単語列の不完全な発声に相当する再認識候補を生成する。そして、ステップS810において、制御部704は上記単語列と再認識候補との組として、「勉強する;べんきょうす」、「勉強する;べんきょう」等を再認識辞書記憶部706に記憶される再認識辞書に登録する。
ステップS812において、制御部704は再音声認識要求を音声認識部702に入力し、音声認識部702はステップS802において認識対象とした入力音声に対し再音声認識処理を行って再音声認識結果を生成する。上記例であれば、音声認識部702は再音声認識結果として、「今日は理科を勉強(べん)勉強(べんきょう)する」(「今日+は+理科+を+勉強(べん)+勉強(べんきょう)+する」)を生成する。尚、「勉強(べん)」は単語「勉強;サ変名詞;べん」を示し、「勉強(べんきょう)」は単語「勉強;サ変名詞;べんきょう」を示すものとする。次に、判定部708が変数iに「0」を代入し(ステップS813)、処理はステップS814に進む。
ステップS814において、ステップS812における再音声認識結果に単語[i]が存在しなければ処理はステップS815に進み、単語[i]が存在すれば処理は終了する。即ち、ステップS812における再音声認識結果を構成する全ての単語に対してステップS815乃至ステップS819の処理が終了していれば、単語[i]は存在しないので処理は終了する。
ステップS815において、判定部708は上記再音声認識結果の単語[i]から始まる単語列が再認識辞書記憶部706に記憶されている再認識辞書に登録されているか否かを判定する。上記再音声認識結果の単語[i]から始まる単語列が上記再認識辞書に登録されていれば処理はステップS816に進み、そうでなければ処理はステップS820に進む。
ステップS816において、判定部708は、変数iの値と、上記再音声認識結果の単語[i]から始まる単語列に一致した登録単語列の単語数との和を変数jに代入する。次に、判定部708は、上記再音声認識結果の単語[j]から始まる単語列が、上記登録単語列に対応する元の認識単語列に一致するか否かを判定する(ステップS817)。上記再音声認識結果の単語[j]から始まる単語列が、上記元の認識単語列に一致すれば処理はステップS818に進み、そうでなければ処理はステップS820に進む。
ステップS818において、判定部708は、上記再音声認識結果における単語[i]から始まる単語列を不完全な発声部分と判定し、上記再音声認識結果における単語[j]から始まる単語列を上記不完全な発声部分の言い直し部分と判定する。次に、出力部109がステップS818における判定結果を出力し(ステップS819)、処理はステップS820に進む。ステップS820において、判定部708が変数iを1インクリメントし、処理はステップS814に戻る。
上記例において再音声認識結果が「今日+は+理科+を+勉強(べん)+勉強(べんきょう)+する」であれば、判定部708は「勉強(べん)」を不完全な発声部分と判定し、「勉強(べんきょう)」を上記不完全な発声部分の言い直し部分と判定する。
以上説明したように、本実施形態に係る音声認識装置は、音声認識結果を構成する単語列の不完全な発声に相当する再認識候補を生成し、当該再認識候補を認識候補として追加たうえで入力音声に対して再音声認識を行っている。従って、本実施形態に係る音声認識装置は、再音声認識結果において上記再認識候補が含まれ、かつ、当該再認識候補に対応する単語列が後方に隣接していれば、不完全な発声部分及び言い直し部分を判定することができる。
(第5の実施形態)
図9に示すように、本発明の第5の実施形態に係る音声認識装置は、上記図7に示す音声認識装置において、制御部704を制御部904に置き換え、再認識候補生成部105を除去し、関連単語検索部311及び関連単語辞書記憶部312を更に設けている。以下の説明では、図9において、図3及び図7と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
図9に示すように、本発明の第5の実施形態に係る音声認識装置は、上記図7に示す音声認識装置において、制御部704を制御部904に置き換え、再認識候補生成部105を除去し、関連単語検索部311及び関連単語辞書記憶部312を更に設けている。以下の説明では、図9において、図3及び図7と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
制御部904は、音声認識部702からの音声認識結果から単語列を抽出する。制御部904は、抽出した単語列を関連単語検索部311に入力し、当該単語列を構成する単語の関連単語を含む関連単語列を取得する。制御部904は、上記関連単語を再認識辞書記憶部706に記憶される再認識辞書に登録する。また、制御部904は、上記再認識辞書の登録単語の各々を、当該登録単語の元の認識単語に対応付けて再認識辞書記憶部706に記憶させる。即ち、再認識辞書記憶部706には、制御部904から入力された関連単語が元の認識単語に対応付けて記憶される。制御部904は、再認識辞書記憶部706に対する登録処理が完了すると、再音声認識要求を音声認識部702に入力する。
判定部708は、再音声認識結果において再認識辞書記憶部706に登録されている登録単語列が含まれている場合に、当該登録単語列に一致する単語列の後方に隣接する単語列が当該登録単語列に対応する元の認識単語列に一致するか否かを判定する。判定部708は、両者が一致すれば、上記登録単語列に一致する単語列を言い直し対象部分(本実施形態においては言い間違い部分)、上記元の認識単語列に一致する単語列を言い直し部分と判定する。
以下、図10を用いて図9の音声認識装置が行う処理を説明する。
まず、音声認識部702は、音声入力部101からの音声入力が終了するまで、音声認識処理を続行して音声認識結果を生成する(ステップS1002)。例えば、「きょうはりかをがくしゅうべんきょうする」という音声が音声入力部101から入力されたとすると、音声認識部702は「今日は理科を学習勉強する」という言語テキストを音声認識結果として生成する。上記音声認識結果は、より詳細には、「今日+は+理科+を+学習+勉強+する」のように最適な単語の系列により構成されている。音声入力部101からの音声入力が終了すると(ステップS1001)、処理はステップS1003に進む。
まず、音声認識部702は、音声入力部101からの音声入力が終了するまで、音声認識処理を続行して音声認識結果を生成する(ステップS1002)。例えば、「きょうはりかをがくしゅうべんきょうする」という音声が音声入力部101から入力されたとすると、音声認識部702は「今日は理科を学習勉強する」という言語テキストを音声認識結果として生成する。上記音声認識結果は、より詳細には、「今日+は+理科+を+学習+勉強+する」のように最適な単語の系列により構成されている。音声入力部101からの音声入力が終了すると(ステップS1001)、処理はステップS1003に進む。
ステップS1003では、制御部904は変数iに「1」を代入し、処理はステップS1004に進む。ここで、変数iは0オリジンのカウンタであり、単語[i]は、ステップS1002における音声認識結果において先頭からi+1番目の単語を指す。例えば、前述した音声認識結果において単語[1]は、先頭から2番目の単語である「は」を指す。後述するステップS1004以降の処理ではステップS1002における音声認識結果内の単語列を抽出するため、ステップS1003では変数iを「1」に初期化し、順次増加させることにしている。
ステップS1004において、単語[i]が存在しなければ処理はステップS1012に進み、単語[i]が存在すれば処理はステップS1005に進む。ステップS1005において、制御部904は変数jに変数iの値を代入し、処理はステップS1006に進む。変数jは、変数iと同様の0オリジンのカウンタである。
ステップS1006において、制御部904は、単語[j]が単語[i]から始まる単語列の終端単語として適切であるか否かを判定する。単語[j]が単語[i]から始まる単語列の終端単語として適切であれば処理はステップS1008に進み、そうでなければ処理はステップS1007に進む。ステップS1007において、制御部904は変数iを1インクリメントし、処理はステップS1004に戻る。例えば、単語[j]が単語[i]と同一文節内にあるか否を基準とすれば、前述した音声認識結果において「今日+は」の「は」、「理科」の「理科」、「理科+を」の「を」、「学習」の「学習」、「勉強」の「勉強」、「勉強+する」の「する」等が単語列の終端単語として適切であると判定される。
ステップS1008において、制御部904は、単語[i]から単語[j]までの一連の単語を単語列として抽出する。次に、制御部904はステップS1008において抽出した単語列を関連単語検索部311に入力し、関連単語検索部311が当該単語列の関連単語列を関連単語辞書記憶部312に記憶されている関連単語辞書から検索する(ステップS1009)。次に、制御部904は、ステップS1009において検索された関連単語列を再認識辞書記憶部706に記憶される再認識辞書に登録する(ステップS1010)。次に、制御部904は変数jを1インクリメントし(ステップS1011)、処理はステップS1006に戻る。
例えば、ステップS1008において制御部904が「勉強(サ変名詞)」という単語列を抽出した場合、ステップS1009において関連単語検索部311は「勉強(サ変名詞)、学習(サ変名詞)・・・」という関連単語グループを検索する。そして、ステップS1010において、制御部904は上記単語列の関連単語列として、「勉強;サ変名詞;べんきょう」、「学習;サ変名詞;がくしゅう」等を再認識辞書記憶部706に記憶される再認識辞書に登録する。続けて、ステップS1008において制御部904が「勉強する」という単語列を抽出した場合、ステップS1009において関連単語検索部311は「勉強する(サ変名詞+サ変動詞)、学習する(サ変名詞+サ変動詞)・・・」という関連単語グループを検索する。そして、ステップS1010において、制御部904は上記単語列の関連単語列として、「勉強する;(サ変名詞+サ変動詞);べんきょうする」、「学習する;(サ変名詞+サ変動詞);がくしゅうする」等を再認識辞書記憶部706に記憶される再認識辞書に登録する。
ステップS1012において、制御部904は再音声認識要求を音声認識部702に入力し、音声認識部702はステップS1002において認識対象とした入力音声に対し再音声認識処理を行って再音声認識結果を生成する。上記例であれば、音声認識部702は再音声認識結果として、「今日は理科を学習勉強する」(「今日+は+理科+を+学習(がくしゅう)+勉強+する」)を生成する。次に、判定部708が変数iに「0」を代入し(ステップS1013)、処理はステップS1014に進む。
ステップS1014において、ステップS1012における再音声認識結果に単語[i]が存在しなければ処理はステップS1015に進み、単語[i]が存在すれば処理は終了する。即ち、ステップS1012における再音声認識結果を構成する全ての単語に対してステップS1015乃至ステップS1019の処理が終了していれば、単語[i]は存在しないので処理は終了する。
ステップS1015において、判定部708は上記再音声認識結果の単語[i]から始まる単語列が再認識辞書記憶部706に記憶されている再認識辞書に登録されているか否かを判定する。上記再音声認識結果の単語[i]から始まる単語列が上記再認識辞書に登録されていれば処理はステップS1016に進み、そうでなければ処理はステップS1020に進む。
ステップS1016において、判定部708は、変数iの値と、上記再音声認識結果の単語[i]から始まる単語列に一致した登録単語列の単語数との和を変数jに代入する。次に、判定部708は、上記再音声認識結果の単語[j]から始まる単語列が、上記登録単語列に対応する元の認識単語列に一致するか否かを判定する(ステップS1017)。上記再音声認識結果の単語[j]から始まる単語列が、上記元の認識単語列に一致すれば処理はステップS1018に進み、そうでなければ処理はステップS1020に進む。
ステップS1018において、判定部708は、上記再音声認識結果における単語[i]から始まる単語列を不完全な発声部分と判定し、上記再音声認識結果における単語[j]から始まる単語列を上記不完全な発声部分の言い直し部分と判定する。次に、出力部109がステップS1018における判定結果を出力し(ステップS1019)、処理はステップS1020に進む。ステップS1020において、判定部708が変数iを1インクリメントし、処理はステップS1014に戻る。
上記例において再音声認識結果が「今日+は+理科+を+学習+勉強+する」であれば、判定部708は「学習」を言い間違い部分と判定し、「勉強」を上記言い間違い部分の言い直し部分と判定する。
以上説明したように、本実施形態に係る音声認識装置は、音声認識結果を構成する単語列の関連単語列を検索し、当該関連単語列を認識候補として追加たうえで入力音声に対して再音声認識を行っている。従って、本実施形態に係る音声認識装置は、再音声認識結果において上記関連単語列が含まれ、かつ、当該関連単語列に対応する単語列が後方に隣接していれば、言い間違い部分及び言い直し部分を判定することができる。
(第6の実施形態)
図11に示すように、本発明の第6の実施形態に係る音声認識装置は、上記図7に示す音声認識装置において、制御部704を制御部1104に置き換え、関連単語検索部311及び関連単語辞書記憶部312を更に設けている。以下の説明では、図11において、図3及び図7と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
図11に示すように、本発明の第6の実施形態に係る音声認識装置は、上記図7に示す音声認識装置において、制御部704を制御部1104に置き換え、関連単語検索部311及び関連単語辞書記憶部312を更に設けている。以下の説明では、図11において、図3及び図7と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
制御部1104は、音声認識部702からの音声認識結果から単語列を抽出する。制御部1104は、抽出した単語列を関連単語検索部311に入力し、当該単語列を構成する単語の関連単語を含む関連単語列を取得する。制御部1104は、上記関連単語列を再認識候補生成部105に入力し、当該関連単語列に関する再認識候補を取得する。制御部1104は、上記関連単語列に関する再認識候補を再認識辞書記憶部706に記憶される再認識辞書に登録する。また、制御部1104は、上記再認識辞書の登録単語の各々を、当該登録単語の元の認識単語に対応付けて再認識辞書記憶部706に記憶させる。即ち、再認識辞書記憶部706には、例えば図23に示すように、制御部1104から入力された関連単語列に関する再認識候補が元の認識単語に対応付けて記憶される。制御部1104は、再認識辞書記憶部706に対する登録処理が完了すると、再音声認識要求を音声認識部702に入力する。
判定部708は、再音声認識結果において再認識辞書記憶部706に登録されている登録単語列が含まれている場合に、当該登録単語列に一致する単語列の後方に隣接する単語列が当該登録単語列に対応する元の認識単語列に一致するか否かを判定する。判定部708は、両者が一致すれば、上記登録単語列に一致する単語列を言い直し対象部分(本実施形態においては言い間違いの不完全な発声部分)、上記元の認識単語列に一致する単語列を言い直し部分と判定する。
以下、図12を用いて図11の音声認識装置が行う処理を説明する。
まず、音声認識部702は、音声入力部101からの音声入力が終了するまで、音声認識処理を続行して音声認識結果を生成する(ステップS1202)。例えば、「きょうはりかをがくべんきょうする」という音声が音声入力部101から入力されたとすると、音声認識部702は「今日は理科を額勉強する」という言語テキストを音声認識結果として生成する。上記音声認識結果は、より詳細には、「今日+は+理科+を+額+勉強+する」のように最適な単語の系列により構成されている。音声入力部101からの音声入力が終了すると(ステップS1201)、処理はステップS1203に進む。
まず、音声認識部702は、音声入力部101からの音声入力が終了するまで、音声認識処理を続行して音声認識結果を生成する(ステップS1202)。例えば、「きょうはりかをがくべんきょうする」という音声が音声入力部101から入力されたとすると、音声認識部702は「今日は理科を額勉強する」という言語テキストを音声認識結果として生成する。上記音声認識結果は、より詳細には、「今日+は+理科+を+額+勉強+する」のように最適な単語の系列により構成されている。音声入力部101からの音声入力が終了すると(ステップS1201)、処理はステップS1203に進む。
ステップS1203では、制御部1104は変数iに「1」を代入し、処理はステップS1204に進む。ここで、変数iは0オリジンのカウンタであり、単語[i]は、ステップS1202における音声認識結果において先頭からi+1番目の単語を指す。例えば、前述した音声認識結果において単語[1]は、先頭から2番目の単語である「は」を指す。後述するステップS1204以降の処理ではステップS1202における音声認識結果内の単語列を抽出するため、ステップS1203では変数iを「1」に初期化し、順次増加させることにしている。
ステップS1204において、単語[i]が存在しなければ処理はステップS1213に進み、単語[i]が存在すれば処理はステップS1205に進む。ステップS1205において、制御部1104は変数jに変数iの値を代入し、処理はステップS1206に進む。変数jは、変数iと同様の0オリジンのカウンタである。
ステップS1206において、制御部1104は、単語[j]が単語[i]から始まる単語列の終端単語として適切であるか否かを判定する。単語[j]が単語[i]から始まる単語列の終端単語として適切であれば処理はステップS1208に進み、そうでなければ処理はステップS1207に進む。ステップS1207において、制御部1104は変数iを1インクリメントし、処理はステップS1204に戻る。例えば、単語[j]が単語[i]と同一文節内にあるか否を基準とすれば、前述した音声認識結果において「今日+は」の「は」、「理科」の「理科」、「理科+を」の「を」、「額」の「額」、「勉強」の「勉強」、「勉強+する」の「する」等が単語列の終端単語として適切であると判定される。
ステップS1208において、制御部1104は、単語[i]から単語[j]までの一連の単語を単語列として抽出する。次に、制御部1104はステップS1208において抽出した単語列を関連単語検索部311に入力し、関連単語検索部311が当該単語列の関連単語列を関連単語辞書記憶部312に記憶されている関連単語辞書から検索する(ステップS1209)。次に、制御部1104は、ステップS1209において検索された関連単語列を再認識候補生成部105に入力し、再認識候補生成部105が当該関連単語列の再認識候補を生成する(ステップS1210)。次に、制御部1104は、ステップS1209において検索された関連単語列とステップS1210において生成された再認識候補との組を再認識辞書記憶部706に記憶される再認識辞書に登録する(ステップS1211)。次に、制御部1104は変数jを1インクリメントし(ステップS1212)、処理はステップS1206に戻る。
例えば、ステップS1208において制御部1104が「勉強(サ変名詞)」という単語列を抽出した場合、ステップS1209において関連単語検索部311は「勉強(サ変名詞)、学習(サ変名詞)・・・」という関連単語グループを検索する。次に、ステップS1210において、制御部1104は上記関連単語グループに属する関連単語列を夫々再認識候補生成部105に入力し、再認識候補生成部105は上記関連単語列の各々の不完全な発声に相当する再認識候補を生成する。具体的には、関連単語列として「学習;サ変名詞:がくしゅう」が入力されると、再認識候補生成部105は再認識候補として「がくしゅ」、「がくし」、「がく」、「が」等を生成する。そして、ステップS1211において、制御部1104は、ステップS1209において検索された関連単語列とステップS1210において生成された再認識候補との組として、例えば「学習;サ変名詞;がくしゅう」、「学習;サ変名詞;がくしゅ」、「学習;サ変名詞;がくし」、「学習;サ変名詞;がく」、「学習;サ変名詞;が」等を再認識辞書記憶部706に記憶される再認識辞書に登録する。
ステップS1213において、制御部1104は再音声認識要求を音声認識部702に入力し、音声認識部702はステップS1202において認識対象とした入力音声に対し再音声認識処理を行って再音声認識結果を生成する。上記例であれば、音声認識部702は再音声認識結果として、「今日は理科を学習(がく)勉強する」(「今日+は+理科+を+学習(がく)+勉強+する」)を生成する。次に、判定部708が変数iに「0」を代入し(ステップS1214)、処理はステップS1215に進む。
ステップS1215において、ステップS1213における再音声認識結果に単語[i]が存在しなければ処理はステップS1216に進み、単語[i]が存在すれば処理は終了する。即ち、ステップS1213における再音声認識結果を構成する全ての単語に対してステップS1216乃至ステップS1220の処理が終了していれば、単語[i]は存在しないので処理は終了する。
ステップS1216において、判定部708は上記再音声認識結果の単語[i]から始まる単語列が再認識辞書記憶部706に記憶されている再認識辞書に登録されているか否かを判定する。上記再音声認識結果の単語[i]から始まる単語列が上記再認識辞書に登録されていれば処理はステップS1217に進み、そうでなければ処理はステップS1221に進む。
ステップS1217において、判定部708は、変数iの値と、上記再音声認識結果の単語[i]から始まる単語列に一致した登録単語列の単語数との和を変数jに代入する。次に、判定部708は、上記再音声認識結果の単語[j]から始まる単語列が、上記登録単語列に対応する元の認識単語列に一致するか否かを判定する(ステップS1218)。上記再音声認識結果の単語[j]から始まる単語列が、上記元の認識単語列に一致すれば処理はステップS1219に進み、そうでなければ処理はステップS1221に進む。
ステップS1219において、判定部708は、上記再音声認識結果における単語[i]から始まる単語列を言い間違いの不完全な発声部分と判定し、上記再音声認識結果における単語[j]から始まる単語列を上記言い間違いの不完全な発声部分の言い直し部分と判定する。次に、出力部109がステップS1219における判定結果を出力し(ステップS1220)、処理はステップS1221に進む。ステップS1221において、判定部708が変数iを1インクリメントし、処理はステップS1215に戻る。
上記例において再音声認識結果が「今日+は+理科+を+学習(がく)+勉強+する」であれば、判定部708は「学習(がく)」を言い間違いの不完全な発声部分と判定し、「勉強」を上記言い間違いの不完全な発声部分の言い直し部分と判定する。
以上説明したように、本実施形態に係る音声認識装置は、音声認識結果を構成する単語列の関連単語列を検索し、当該関連単語列の不完全な発声に相当する再認識候補を生成し、当該再認識候補を認識候補として追加たうえで入力音声に対して再音声認識を行っている。従って、本実施形態に係る音声認識装置は、再音声認識結果において上記再認識候補が含まれ、かつ、当該再認識候補に対応する単語列が後方に隣接していれば、言い間違いの不完全な発声部分及び言い直し部分を判定することができる。
(第7の実施形態)
図13に示すように、本発明の第7の実施形態に係る音声認識装置は、上記図11に示す音声認識装置において、音声認識部702を音声認識部1302に置き換え、n-gramモデル記憶部1313を更に設けている。以下の説明では、図13において、図11と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
図13に示すように、本発明の第7の実施形態に係る音声認識装置は、上記図11に示す音声認識装置において、音声認識部702を音声認識部1302に置き換え、n-gramモデル記憶部1313を更に設けている。以下の説明では、図13において、図11と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
音声認識部1302は、前述した音声認識部702と同様に、音声入力部101からの入力音声に対し音声認識処理を行って、当該入力音声の内容を示す言語テキストを音声認識結果として生成する。具体的には、音声認識部1302は、音響的類似度及び言語的信頼度に基づき、上記入力音声を認識辞書記憶部103に記憶されている認識辞書の登録単語に順次置き換えることにより上記音声認識結果を生成する。音声認識部1302は、上記言語的信頼度の評価において、後述するn-gramモデル記憶部1313に記憶されているn-gramモデルを利用する。音声認識部1302は、音声認識結果を制御部704、判定部708及び出力部109に入力する。
また、音声認識部1302は、前述した音声認識部702と同様に、制御部1104から再音声認識要求を受けると、上記入力音声に対して再音声認識処理を行って、当該入力音声の内容を示す言語テキストを再音声認識結果として生成する。音声認識部1302は、再音声認識結果を判定部708に入力する。
n-gramモデル記憶部1313にはn-gramモデルが記憶されている。ここで、n-gramモデルとは、例えば図24に示すような、特定のn(nは自然数)単語が隣接して出現する頻度(隣接n単語共起頻度)を学習用のテキストから予め集計することにより得られる統計データである。
以下、図14を用いて音声認識部1302が行う音声認識処理及び再音声認識処理のうち、n-gramモデルを利用する部分を説明する。
まず、音声認識部1302は、現在実行中の処理が再音声認識処理であるか否かを判定する(ステップS1401)。現在実行中の処理が再音声認識処理であれば処理はステップS1403に進み、そうでなければ処理はステップS1402に進む。
まず、音声認識部1302は、現在実行中の処理が再音声認識処理であるか否かを判定する(ステップS1401)。現在実行中の処理が再音声認識処理であれば処理はステップS1403に進み、そうでなければ処理はステップS1402に進む。
ステップS1402において、音声認識部1302は入力音声に対する音声認識結果の候補として、認識辞書記憶部103に記憶されている認識辞書の登録単語によって構成される単語系列を生成し、処理はステップS1406に進む。
ステップS1403において、音声認識部1302は、認識辞書記憶部103に記憶されている認識辞書の登録単語の他に、再認識辞書記憶部706に記憶されている再認識辞書の登録単語を認識候補に追加する。次に、音声認識部1302は、入力音声に対する音声認識結果の候補として、認識辞書記憶部103に記憶されている認識辞書の登録単語及び再認識辞書記憶部706に記憶されている再認識辞書の登録単語によって構成される単語系列を生成する(ステップS1404)。次に、音声認識部1302はステップS1404において生成した系列に再認識辞書の登録単語が含まれていれば、当該登録単語を対応する元の認識単語に置き換えた仮系列を更に作成し、処理はステップS1405に進む。例えば、図25において系列(3)のうち単語「学習(がく)」が「勉強(べんきょう)」の関連単語の不完全な発声に相当する再認識候補として再認識辞書に登録されているのであれば、音声認識部1302は系列(3)に基づく仮系列として系列(4)を生成する。
ステップS1406において、音声認識部1302はステップS1402において生成した系列、または、ステップS1404において生成した系列及びステップS1405において生成した仮系列の各々に関し、n-gramモデルに基づく系列評価値を算出する。具体的には、音声認識部1302は、n-gramモデル記憶部1313に記憶されているn-gramモデルを検索することにより得られる隣接n単語共起頻度を、系列または仮系列の各々に関し先頭の単語から終端の単語まで順次累積加算することにより当該系列または仮系列の系列評価値を算出する。例えば、図24に示すn-gramモデルによれば、図25に示す各系列の先頭から3単語までの共起頻度は、系列(1)が「10」、系列(2)が「20」、系列(3)及び(5)が「5」、系列(4)が「100」となる。
次に、音声認識部1302はステップS1406において算出した系列評価値が最大となる系列または仮系列を音声認識結果(再音声認識結果)として出力し、処理は終了する。
以上説明したように、本実施形態に係る音声認識装置は、音声認識処理においてn-gramモデルを利用している。従って、本実施形態に係る音声認識装置によれば、より言語的信頼度の高い音声認識結果を得ることができる。
(第8の実施形態)
本発明の第8の実施形態に係る音声認識装置の構成は、前述した第7の実施形態と同様であるが、音声認識部1302の行う処理のうちn-gramモデルを利用する部分が異なる。以下、図15を用いて本実施形態に係る音声認識装置の音声認識部1302が行う音声認識処理及び再音声認識処理のうち、n-gramモデルを利用する部分を説明する。
まず、音声認識部1302は、現在実行中の処理が再音声認識処理であるか否かを判定する(ステップS1501)。現在実行中の処理が再音声認識処理であれば処理はステップS1503に進み、そうでなければ処理はステップS1502に進む。
本発明の第8の実施形態に係る音声認識装置の構成は、前述した第7の実施形態と同様であるが、音声認識部1302の行う処理のうちn-gramモデルを利用する部分が異なる。以下、図15を用いて本実施形態に係る音声認識装置の音声認識部1302が行う音声認識処理及び再音声認識処理のうち、n-gramモデルを利用する部分を説明する。
まず、音声認識部1302は、現在実行中の処理が再音声認識処理であるか否かを判定する(ステップS1501)。現在実行中の処理が再音声認識処理であれば処理はステップS1503に進み、そうでなければ処理はステップS1502に進む。
ステップS1502において、音声認識部1302は入力音声に対する音声認識結果の候補として、認識辞書記憶部103に記憶されている認識辞書の登録単語によって構成される単語系列を生成し、処理はステップS1506に進む。
ステップS1503において、音声認識部1302は、認識辞書記憶部103に記憶されている認識辞書の登録単語の他に、再認識辞書記憶部706に記憶されている再認識辞書の登録単語を認識候補に追加する。次に、音声認識部1502は、入力音声に対する音声認識結果の候補として、認識辞書記憶部103に記憶されている認識辞書の登録単語及び再認識辞書記憶部706に記憶されている再認識辞書の登録単語によって構成される単語系列を生成する(ステップS1504)。次に、音声認識部1302は、ステップS1504において生成した系列のうち、不適切な系列を除去する。具体的には、音声認識部1302は、ステップS1504において生成した系列に再認識辞書の登録単語列が含まれている場合に当該登録単語列に一致する単語列の後方に隣接する単語列が、当該登録単語列に対応する元の認識単語列に一致しなければ、当該系列を不適切な系列と判定する。例えば、図25において系列(5)のうち単語列「学習(がく)」は再認識辞書の登録単語列に一致するが、当該単語列「学習(がく)」の後方に隣接する単語列「弁証」は当該登録単語列「学習(がく)」の元の認識単語列「勉強」に一致しないので、音声認識部1302は、当該系列(5)を不適切な系列として除去する。
ステップS1506において、音声認識部1302はステップS1502において生成した系列、または、ステップS1504において生成した系列のうちステップS1505において除去されていないものの各々に関し、n-gramモデルに基づく系列評価値を算出する。
次に、音声認識部1302はステップS1506において算出した系列評価値が最大となる系列または仮系列を音声認識結果(再音声認識結果)として出力し、処理は終了する。
以上説明したように、本実施形態に係る音声認識装置は、音声認識処理においてn-gramモデルを利用する場合に不適切な単語系列を再音声認識結果の候補から除去している。従って、本実施形態に係る音声認識装置によれば、再音声認識結果を生成する際の演算量を削減することができる。
(第9の実施形態)
図16に示すように、本発明の第9の実施形態に係る音声認識装置は、上記図5に示す音声認識装置において、設定部1614及び修正部1615を更に具備している。
図16に示すように、本発明の第9の実施形態に係る音声認識装置は、上記図5に示す音声認識装置において、設定部1614及び修正部1615を更に具備している。
設定部1614は、判定部108によって判定された言い直し対象部分に対する修正モードを設定する。具体的には上記言い直し対象部分の判定結果は、出力部109を介してユーザに提示されており、設定部1614は当該ユーザから言い直し対象部分に対する修正モードの設定を受理する。修正モードは、全ての言い直し対象部分に対して一括に設定されてもよいし、言い直し対象部分の各々に対して個別に設定されてもよい。また、設定部1614は、ユーザが各言い直し対象部分に設定されている修正モードを把握できるように、修正モードに応じて異なる色等が与えられた修正マーカを言い直し対象部分に付与し、出力部109において表示させるようにしてもよい。
修正部1615は、設定部1614によって設定された修正モードに応じ、上記言い直し対象部分の修正を実行する。修正部1615は、具体的には、言い直し対象部分を削除したり、括弧等で区切って他の部分と区別できるように明示したり、当該言い直し対象部分が不完全な発声部分(言い間違いの不完全な発声部分を含む)であれば当該不完全な発声部分を補完したり、補完しなかったり(即ち、不完全な発声に相当する読み情報を出力)する。
以下、図18を用いて設定部1614及び修正部1615が行う処理を説明する。
まず、設定部1614は、出力部109を介して修正モードを一括設定するか否かをユーザに問い合せる。上記問い合わせに対し、ユーザは出力部109に表示されるボタン、キーボード、マウス等の図示しない所定の入力インタフェースを介して一括設定する/しないを指示する。設定部1614が、修正モードの一括設定を受理すれば処理はステップS1808に進み、そうでなければ処理はステップS1802に進む(ステップS1801)。
まず、設定部1614は、出力部109を介して修正モードを一括設定するか否かをユーザに問い合せる。上記問い合わせに対し、ユーザは出力部109に表示されるボタン、キーボード、マウス等の図示しない所定の入力インタフェースを介して一括設定する/しないを指示する。設定部1614が、修正モードの一括設定を受理すれば処理はステップS1808に進み、そうでなければ処理はステップS1802に進む(ステップS1801)。
ステップS1802において、設定部1614は変数iに「0」を代入し、処理はステップS1803に進む。ここで、変数iは0オリジンのカウンタである。ステップS1803において、設定部1614は言い直し判定済みの音声認識結果において単語[i]が存在するか否かを判定する。単語[i]が存在すれば処理はステップS1804に進み、そうでなければ処理はステップS1810に進む。
ステップS1804において、設定部1614は単語[i]が言い直し対象単語であるか否かを判定する。単語[i]が言い直し対象単語であれば処理はステップS1805に進み、そうでなければ処理はステップS1807に進む。ステップS1805において、設定部1614は、出力部109を介していずれの修正モードを単語[i]に対して設定するかをユーザに問い合せる。上記問い合わせに対し、ユーザは所定の入力インタフェースを介して具体的な修正モードを指示する。次に、設定部1614がステップS1805においてユーザから指示された修正モードに応じた修正マーカを単語[i]に対して付与する(ステップS1806)。次に、設定部1614は変数iを1インクリメントし(ステップS1807)、処理はステップS1803に戻る。
ステップS1808において、設定部1614は、出力部109を介していずれの修正モードを設定するかをユーザに問い合せる。上記問い合わせに対し、ユーザは所定の入力インタフェースを介して具体的な修正モードを指示する。次に、設定部1614がステップS1808においてユーザから指示された修正モードに応じた修正マーカを全ての言い直し対象部分に含まれる言い直し対象単語に対して一括付与し(ステップS1809)、処理はステップS1810に進む。
ステップS1810において、修正部1615がステップS1809において付与された修正マーカに従って言い直し対象部分の修正を行って、処理は終了する。以下、図19乃至図21を用いて修正部1615が行う具体的処理を説明する。
図19は、言い直し対象部分を削除する修正モード(以下、単に削除モードと称する)に関し、修正部1615が行う処理を示している。
まず、修正部1615は変数iに「0」を代入し(ステップS1901)、処理はステップS1902に進む。ここで、変数iは0オリジンのカウンタである。ステップS1902において、修正部1615は言い直し判定済みの音声認識結果において単語[i]が存在するか否かを判定する。単語[i]が存在すれば処理はステップS1903に進み、そうでなければ処理は終了する。
まず、修正部1615は変数iに「0」を代入し(ステップS1901)、処理はステップS1902に進む。ここで、変数iは0オリジンのカウンタである。ステップS1902において、修正部1615は言い直し判定済みの音声認識結果において単語[i]が存在するか否かを判定する。単語[i]が存在すれば処理はステップS1903に進み、そうでなければ処理は終了する。
ステップS1903において、修正部1615は、上記削除モードを示す修正マーカである削除マーカが単語[i]に付与されているか否かを判定する。単語[i]に削除マーカが付与されていれば処理はステップS1905に進み、そうでなければ処理はステップS1904に進む。ステップS1904において、修正部1615が単語[i]を出力結果に格納し、処理はステップS1905に進む。即ち、単語[i]に削除マーカが付与されていれば、ステップS1904がスキップされるため、当該単語[i]は上記出力結果に格納されないこととなる。ステップS1905において、修正部1615は変数iを1インクリメントし、処理はステップS1902に戻る。
例えば、前述した言い直し判定済みの音声認識結果「今日は理科を学習(がく)勉強する」のうち、言い直し対象部分である「学習(がく)」に削除マーカが付与されていれば、修正部1615の出力結果は「今日は理科を勉強する」となる。
図20は、言い直し対象部分を括弧で区切る修正モード(以下、単に括弧付与モードと称する)に関し、修正部1615が行う処理を示している。
まず、修正部1615は変数iに「0」を代入し(ステップS2001)、処理はステップS2002に進む。ここで、変数iは0オリジンのカウンタである。ステップS2002において、修正部1615は言い直し判定済みの音声認識結果において単語[i]が存在するか否かを判定する。単語[i]が存在すれば処理はステップS2003に進み、そうでなければ処理は終了する。
まず、修正部1615は変数iに「0」を代入し(ステップS2001)、処理はステップS2002に進む。ここで、変数iは0オリジンのカウンタである。ステップS2002において、修正部1615は言い直し判定済みの音声認識結果において単語[i]が存在するか否かを判定する。単語[i]が存在すれば処理はステップS2003に進み、そうでなければ処理は終了する。
ステップS2003において、修正部1615は単語[i]に括弧付与モードを示す修正マーカである括弧付与マーカが付与されているか否かを判定する。単語[i]に括弧付与マーカが付与されていれば処理はステップS2004に進み、そうでなければ処理はステップS2010に進む。ステップS2010において、修正部1615は単語[i]を出力結果に格納し、処理はステップS2009に進む。
ステップS2004において、修正部1615は単語[i]が言い直し対象部分である単語列の先頭単語であるか否かを判定する。単語[i]が先頭単語であれば処理はステップS2005に進み、そうでなければ処理はステップS2006に進む。ステップS2005において、修正部1615は言い直し対象部分の開始を示す開き括弧を出力結果に挿入し、処理はステップS2006に進む。ステップS2006において、修正部1615は単語[i]を出力結果に格納し、処理はステップS2007に進む。
ステップS2007において、修正部1615は単語[i]が言い直し対象部分である単語列の終端単語であるか否かを判定する。単語[i]が終端単語であれば処理はステップS2008に進み、そうでなければ処理はステップS2009に進む。ステップS2008において、修正部1615は言い直し対象部分の終了を示す閉じ括弧を出力結果に挿入し、処理はステップS2009に進む。ステップS2009において、修正部1615は変数iを1インクリメントし、処理はステップS2002に戻る。
例えば、前述した言い直し判定済みの音声認識結果「今日は理科を学習(がく)勉強する」のうち、言い直し対象部分である「学習(がく)」に括弧付与マーカが付与されていれば、修正部1615の出力結果は「今日は理科を(学習)勉強する」となる。
図21は、言い直し対象部分における不完全な発声部分を補完しない修正モード(以下、単に補完なしモードと称する)に関し、修正部1615が行う処理を示している。
まず、修正部1615は変数iに「0」を代入し(ステップS2101)、処理はステップS2102に進む。ここで、変数iは0オリジンのカウンタである。ステップS2102において、修正部1615は言い直し判定済みの音声認識結果において単語[i]が存在するか否かを判定する。単語[i]が存在すれば処理はステップS2103に進み、そうでなければ処理は終了する。
まず、修正部1615は変数iに「0」を代入し(ステップS2101)、処理はステップS2102に進む。ここで、変数iは0オリジンのカウンタである。ステップS2102において、修正部1615は言い直し判定済みの音声認識結果において単語[i]が存在するか否かを判定する。単語[i]が存在すれば処理はステップS2103に進み、そうでなければ処理は終了する。
ステップS2103において、修正部1615は単語[i]に対して補完なしモードを示す修正マーカである補完なしマーカが付与されているか否かを判定する。単語[i]に補完なしマーカが付与されていれば処理はステップS2104に進み、そうでなければ処理はステップS2106に進む。
ステップS2104において、修正部1615は単語[i]の読み(この場合、不完全な発声に相当する読み)を出力結果に格納し、処理はステップS2105に進む。ステップS2106において、修正部1615は単語[i]を出力結果に格納し、処理はステップS2105に進む。ステップS2105において、修正部1615は変数iを1インクリメントし、処理はステップS2102に戻る。
例えば、前述した言い直し判定済みの音声認識結果「今日は理科を学習(がく)勉強する」のうち、言い直し対象部分である「学習(がく)」に補完なしマーカが付与されていれば、修正部1615の出力結果は「今日は理科をがく勉強する」となる。
尚、前述した修正モードは重畳的に設定されてもよい。例えば、前述した言い直し判定済みの音声認識結果「今日は理科を学習(がく)勉強する」のうち、言い直し対象部分である「学習(がく)」に補完なしマーカ及び括弧付与マーカが付与されていれば、修正部1615の出力結果は「今日は理科を(がく)勉強する」となる。
また、本実施形態に係る音声認識装置は、図17に示すように、上記図11に示す音声認識装置において、前述した設定部1614及び修正部1615を付加することによっても構成できる。その他、上記図1、図3、図7、図9及び図13に関しても同様である。
以上説明したように、本実施形態に係る音声認識装置は、言い直し対象部分に対する修正モードの設定をユーザから受理し、当該修正モードに応じた修正を行っている。従って、本実施形態に係る音声認識装置によれば、ユーザの意図をより反映した出力結果を得ることができる。
以上、本発明に係る実施形態について説明したが、これに限定されるものではなく、本発明の主旨を逸脱しない範囲での種々の変更、置換、追加などが可能である。
例えば、上記した各実施形態の処理にかかるプログラムを、コンピュータで読み取り可能な記憶媒体に格納して提供することも可能である。記憶媒体としては、磁気ディスク、光ディスク(CD−ROM、CD−R、DVD等)、光磁気ディスク(MO等)、半導体メモリ等、プログラムを記憶でき、且つ、コンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。
また、上記した各実施形態の処理にかかるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。
101・・・音声入力部
102・・・音声認識部
103・・・認識辞書記憶部
104・・・制御部
105・・・再認識候補生成部
106・・・区間音声認識辞書記憶部
107・・・区間音声認識部
108・・・判定部
109・・・出力部
304・・・制御部
311・・・関連単語検索部
312・・・関連単語辞書記憶部
504・・・制御部
702・・・音声認識部
704・・・制御部
706・・・再認識辞書記憶部
708・・・判定部
904・・・制御部
911・・・関連単語検索部
912・・・関連単語辞書記憶部
1104・・・制御部
1302・・・音声認識部
1313・・・n-gramモデル記憶部
1614・・・設定部
1615・・・修正部
102・・・音声認識部
103・・・認識辞書記憶部
104・・・制御部
105・・・再認識候補生成部
106・・・区間音声認識辞書記憶部
107・・・区間音声認識部
108・・・判定部
109・・・出力部
304・・・制御部
311・・・関連単語検索部
312・・・関連単語辞書記憶部
504・・・制御部
702・・・音声認識部
704・・・制御部
706・・・再認識辞書記憶部
708・・・判定部
904・・・制御部
911・・・関連単語検索部
912・・・関連単語辞書記憶部
1104・・・制御部
1302・・・音声認識部
1313・・・n-gramモデル記憶部
1614・・・設定部
1615・・・修正部
Claims (14)
- 一般的な単語が網羅的に登録された第1の認識辞書が記憶される第1の記憶部と、
入力音声に対し前記第1の認識辞書に基づく音声認識処理を行って、当該入力音声を前記第1の認識辞書に登録されている第1の単語列に順次置き換えた第1の音声認識結果を生成する第1の音声認識部と、
前記第1の単語列の各々について、当該第1の単語列の不完全な発声に相当する第2の単語列を順次生成する生成部と、
前記第2の単語列が登録された第2の認識辞書が記憶される第2の記憶部と、
前記第1の単語列の各々に相当する部分の前方に隣接する区間音声を前記入力音声から順次抽出する制御部と、
前記区間音声の各々に対し前記第2の認識辞書に基づく音声認識処理を行って、当該区間音声を前記第2の単語列のいずれかに置き換えた第2の音声認識結果を順次生成する第2の音声認識部と、
前記第2の音声認識結果の各々と、前記第1の音声認識結果のうち前記区間音声の各々に相当する部分とを比較し、当該区間音声が不完全な発声であるか否かを順次判定する判定部と、
を具備することを特徴とする音声認識装置。 - 一般的な単語が網羅的に登録された第1の認識辞書が記憶される第1の記憶部と、
入力音声に対し前記第1の認識辞書に基づく音声認識処理を行って、当該入力音声を前記第1の認識辞書に登録されている第1の単語列に順次置き換えた第1の音声認識結果を生成する第1の音声認識部と、
互いに関連する単語同士が関連単語グループとして記述された関連単語辞書が記憶される第2の記憶部と、
前記第1の単語列の各々について、前記関連単語グループに属する第2の単語列を順次検索する検索部と、
前記第2の単語列が登録された第2の認識辞書が記憶される第3の記憶部と、
前記第1の単語列の各々に相当する部分の前方に隣接する区間音声を前記入力音声から順次抽出する制御部と、
前記区間音声の各々に対し前記第2の認識辞書に基づく音声認識処理を行って、当該区間音声を前記第2の単語列のいずれかに置き換えた第2の音声認識結果を順次生成する第2の音声認識部と、
前記第2の音声認識結果の各々と、前記第1の音声認識結果のうち前記区間音声の各々に相当する部分とを比較し、当該区間音声が言い間違いであるか否かを順次判定する判定部と、
を具備することを特徴とする音声認識装置。 - 一般的な単語が網羅的に登録された第1の認識辞書が記憶される第1の記憶部と、
入力音声に対し前記第1の認識辞書に基づく音声認識処理を行って、当該入力音声を前記第1の認識辞書に登録されている第1の単語列に順次置き換えた第1の音声認識結果を生成する第1の音声認識部と、
互いに関連する単語同士が関連単語グループとして記述された関連単語辞書が記憶される第2の記憶部と、
前記第1の単語列の各々について、前記関連単語グループに属する第3の単語列を検索する検索部と、
前記第3の単語列の各々について、当該第3の単語列の不完全な発声に相当する第2の単語列を順次生成する生成部と、
前記第2の単語列が登録された第2の認識辞書が記憶される第3の記憶部と、
前記第1の単語列の各々に相当する部分の前方に隣接する区間音声を前記入力音声から順次抽出する制御部と、
前記区間音声の各々に対し前記第2の認識辞書に基づく音声認識処理を行って、当該区間音声を前記第2の単語列のいずれかに置き換えた第2の音声認識結果を順次生成する第2の音声認識部と、
前記第2の音声認識結果の各々と、前記第1の音声認識結果のうち前記区間音声の各々に相当する部分とを比較し、当該区間音声が言い間違いの不完全な発声であるか否かを順次判定する判定部と、
を具備することを特徴とする音声認識装置。 - 一般的な単語が網羅的に登録された第1の認識辞書が記憶される第1の記憶部と、
入力音声に対し前記第1の認識辞書に基づく第1の音声認識処理を行って、当該入力音声を前記第1の認識辞書に登録されている第1の単語列に順次置き換えた第1の音声認識結果を生成する音声認識部と、
前記第1の単語列の各々について、当該第1の単語列の不完全な発声に相当する第2の単語列を生成する生成部と、
前記第2の単語列が登録された第2の認識辞書が記憶される第2の記憶部と、
前記入力音声に対し前記第1の認識辞書及び前記第2の認識辞書に基づく第2の音声認識処理を行って、当該入力音声を前記第1の単語列及び前記第2の単語列のいずれかに順次置き換えた第2の音声認識結果を生成するように前記音声認識部を制御する制御部と、
前記第2の音声認識結果において、前記第2の単語列が含まれ、かつ、前記第2の単語列に対応する第1の単語列が当該第2の単語列の後方に隣接していれば、前記入力音声のうち当該第2の単語列及び第1の単語列に相当する部分を不完全な発声及び言い直しと判定する判定部と、
を具備することを特徴とする音声認識装置。 - 一般的な単語が網羅的に登録された第1の認識辞書が記憶される第1の記憶部と、
入力音声に対し前記第1の認識辞書に基づく第1の音声認識処理を行って、当該入力音声を前記第1の認識辞書に登録されている第1の単語列に順次置き換えた第1の音声認識結果を生成する音声認識部と、
互いに関連する単語同士が関連単語グループとして記述された関連単語辞書が記憶される第2の記憶部と、
前記第1の単語列の各々について、前記関連単語グループに属する第2の単語列を検索する検索部と、
前記第2の単語列が登録された第2の認識辞書が記憶される第3の記憶部と、
前記入力音声に対し前記第1の認識辞書及び前記第2の認識辞書に基づく第2の音声認識処理を行って、当該入力音声を前記第1の単語列及び前記第2の単語列のいずれかに順次置き換えた第2の音声認識結果を生成するように前記音声認識部を制御する制御部と、
前記第2の音声認識結果において、前記第2の単語列が含まれ、かつ、前記第2の単語列に対応する第1の単語列が当該第2の単語列の後方に隣接していれば、前記入力音声にのうち当該第2の単語列及び第1の単語列に相当する部分を言い間違い及び言い直しと判定する判定部と、
を具備することを特徴とする音声認識装置。 - 一般的な単語が網羅的に登録された第1の認識辞書が記憶される第1の記憶部と、
入力音声に対し前記第1の認識辞書に基づく第1の音声認識処理を行って、当該入力音声を前記第1の認識辞書に登録されている第1の単語列に順次置き換えた第1の音声認識結果を生成する音声認識部と、
互いに関連する単語同士が関連単語グループとして記述された関連単語辞書が記憶される第2の記憶部と、
前記第1の単語列の各々について、前記関連単語グループに属する第3の単語列を検索する検索部と、
前記第3の単語列の各々について、当該第3の単語列の不完全な発声に相当する第2の単語列を生成する生成部と、
前記第2の単語列が登録された第2の認識辞書が記憶される第3の記憶部と、
前記入力音声に対し前記第1の認識辞書及び前記第2の認識辞書に基づく第2の音声認識処理を行って、当該入力音声を前記第1の単語列及び前記第2の単語列のいずれかに順次置き換えた第2の音声認識結果を生成するように前記音声認識部を制御する制御部と、
前記第2の音声認識結果において、前記第2の単語列が含まれ、かつ、前記第2の単語列に対応する第1の単語列が当該第2の単語列の後方に隣接していれば、前記入力音声のうち当該第2の単語列及び第1の単語列に相当する部分を言い間違いの不完全な発声及び言い直しと判定する判定部と、
を具備することを特徴とする音声認識装置。 - 特定の単語の共起頻度を統計的に集計したn-gramモデルが記憶される第4の記憶部を更に具備し、
前記音声認識部は、(a)前記第1の音声認識処理において、前記第1の音声認識結果の候補となる第1の単語系列を複数生成し、当該第1の単語系列の各々について前記共起頻度を累積加算した第1の評価値を算出し、当該第1の評価値の最大となる第1の単語系列を前記第1の音声認識結果として生成し、(b)前記第2の音声認識処理において、前記第2の音声認識結果の候補となる第2の単語系列を複数生成し、当該第2の単語系列の各々ついて、当該第2の単語系列に含まれる前記第2の単語列を当該第2の単語列に対応する第1の単語列に置き換えた場合の前記共起頻度を累積加算した第2の評価値を算出し、当該第2の評価値の最大となる第2の単語系列を前記第2の音声認識結果として生成することを特徴とする請求項4乃至請求項6のいずれか1項に記載の音声認識装置。 - 前記音声認識部は、前記第2の音声認識結果の候補となる第2の単語系列に前記第2の単語列が含まれている場合に、当該第2の単語列に対応する第1の単語列が後方に隣接していなければ、当該第2の単語系列を前記第2の音声認識結果の候補から除去することを特徴とする請求項4乃至請求項7のいずれか1項に記載の音声認識装置。
- 前記判定部によって(a)不完全な発声、(b)言い間違いまたは(c)言い間違いの不完全な発声として判定された部分に対する修正モードを設定する設定部と、
前記修正モードに応じて前記部分の修正を行う修正部と、
を更に具備することを特徴とする請求項1乃至請求項8のいずれか1項に記載の音声認識装置。 - 前記修正部は、前記判定部によって(a)不完全な発声、(b)言い間違いまたは(c)言い間違いの不完全な発声として判定された部分を削除する修正を行うことを特徴とする請求項9に記載の音声認識装置。
- 前記修正部は、前記判定部によって(a)不完全な発声、(b)言い間違いまたは(c)言い間違いの不完全な発声として判定された部分を明示する修正を行うことを特徴とする請求項9に記載の音声認識装置。
- 前記修正部は、前記判定部によって(a)不完全な発声または(c)言い間違いの不完全な発声として判定された部分を、対応する第2の単語列の読み情報に置き換える修正を行うことを特徴とする請求項9記載の音声認識装置。
- 入力音声に対し一般的な単語が網羅的に登録された第1の認識辞書に基づく音声認識処理を行って、当該入力音声を前記第1の認識辞書に登録されている第1の単語列に順次置き換えた第1の音声認識結果を生成する工程と、
前記第1の単語列の各々について、当該第1の単語列の不完全な発声に相当する第2の単語列を順次生成する工程と、
前記第1の単語列の各々に相当する部分の前方に隣接する区間音声を前記入力音声から順次抽出する工程と、
前記区間音声の各々に対し前記第2の単語列が登録された第2の認識辞書に基づく音声認識処理を行って、当該区間音声を前記第2の単語列のいずれかに置き換えた第2の音声認識結果を順次生成する工程と、
前記第2の音声認識結果の各々と、前記第1の音声認識結果のうち前記区間音声の各々に相当する部分とを比較し、当該区間音声が不完全な発声であるか否かを順次判定する工程と、
を含むことを特徴とする音声認識方法。 - コンピュータに、
入力音声に対し一般的な単語が網羅的に登録された第1の認識辞書に基づく音声認識処理を行って、当該入力音声を前記第1の認識辞書に登録されている第1の単語列に順次置き換えた第1の音声認識結果を生成する工程と、
前記第1の単語列の各々について、当該第1の単語列の不完全な発声に相当する第2の単語列を順次生成する工程と、
前記第1の単語列の各々に相当する部分の前方に隣接する区間音声を前記入力音声から順次抽出する工程と、
前記区間音声の各々に対し前記第2の単語列が登録された第2の認識辞書に基づく音声認識処理を行って、当該区間音声を前記第2の単語列のいずれかに置き換えた第2の音声認識結果を順次生成する工程と、
前記第2の音声認識結果の各々と、前記第1の音声認識結果のうち前記区間音声の各々に相当する部分とを比較し、当該区間音声が不完全な発声であるか否かを順次判定する工程と、
を実行させるための音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008249166A JP2010079092A (ja) | 2008-09-26 | 2008-09-26 | 音声認識装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008249166A JP2010079092A (ja) | 2008-09-26 | 2008-09-26 | 音声認識装置及び方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010079092A true JP2010079092A (ja) | 2010-04-08 |
Family
ID=42209586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008249166A Withdrawn JP2010079092A (ja) | 2008-09-26 | 2008-09-26 | 音声認識装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010079092A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018507446A (ja) * | 2015-03-06 | 2018-03-15 | ゼテス・インダストリーズ・エス・ア | 音声認識結果の後処理のための方法およびシステム |
-
2008
- 2008-09-26 JP JP2008249166A patent/JP2010079092A/ja not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018507446A (ja) * | 2015-03-06 | 2018-03-15 | ゼテス・インダストリーズ・エス・ア | 音声認識結果の後処理のための方法およびシステム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2016067418A1 (ja) | 対話制御装置および対話制御方法 | |
JP5300974B2 (ja) | 検索装置 | |
JP5310563B2 (ja) | 音声認識システム、音声認識方法、および音声認識用プログラム | |
JPH07219961A (ja) | 音声対話システム | |
JP4740837B2 (ja) | 音声認識における統計的言語モデリング方法、システム及び記録媒体 | |
Bhuvanagirir et al. | Mixed language speech recognition without explicit identification of language | |
EP2308042A2 (en) | Method and device for generating vocabulary entry from acoustic data | |
CN100354929C (zh) | 语音处理设备、语言处理方法 | |
JP5073024B2 (ja) | 音声対話装置 | |
Zhang et al. | A novel decision function and the associated decision-feedback learning for speech translation | |
Prasad et al. | BBN TransTalk: Robust multilingual two-way speech-to-speech translation for mobile platforms | |
JP2010079092A (ja) | 音声認識装置及び方法 | |
JP4764203B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP2011053312A (ja) | 適応化音響モデル生成装置及びプログラム | |
JP2974621B2 (ja) | 音声認識用単語辞書作成装置及び連続音声認識装置 | |
JP3472101B2 (ja) | 音声入力解釈装置及び音声入力解釈方法 | |
JP4733436B2 (ja) | 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 | |
Chen et al. | iCNN-Transformer: An improved CNN-Transformer with Channel-spatial Attention and Keyword Prediction for Automated Audio Captioning. | |
JP4987530B2 (ja) | 音声認識辞書作成装置および音声認識装置 | |
JP2006031278A (ja) | 音声検索システムおよび方法ならびにプログラム | |
JP2006107353A (ja) | 情報処理装置および方法、記録媒体、並びにプログラム | |
Qian et al. | Automatic Speech Recognition for Irish: testing lexicons and language models | |
Long et al. | Filled pause refinement based on the pronunciation probability for lecture speech | |
Kamimura et al. | Pronunciation error detection in voice input for correct word suggestion | |
JP2001117583A (ja) | 音声認識装置および音声認識方法、並びに記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20111206 |