JP4542974B2

JP4542974B2 - 音声認識装置、音声認識方法および音声認識プログラム

Info

Publication number: JP4542974B2
Application number: JP2005280593A
Authority: JP
Inventors: 秀樹平川; 哲朗知野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-09-27
Filing date: 2005-09-27
Publication date: 2010-09-15
Anticipated expiration: 2025-09-27
Also published as: CN1941077A; JP2007093789A; US20070073540A1; US7983912B2

Description

この発明は、音声により入力された文字列を認識する音声認識装置、音声認識方法および音声認識プログラムに関するものである。

従来から、入力された音声発話と予め記憶された音声解析情報とをパターン照合することにより、音声情報を文字情報に変換する音声認識技術が開発されている。現状の音声認識技術では、誤認識の発生を完全に排除することはできないため、適切な認識結果を得るための様々な技術が提案され、広く利用されている。

例えば、複数の認識候補から最も確からしい候補を選択して利用者に提示し、選択した候補が誤っている場合には、利用者が発話全体を再入力し、その際に元の発話の認識結果を除外することにより、正しい認識結果を効率的に取得する方法が知られている。しかし、このような方法では発話全体を再度入力するため、利用者の操作負担が増大するという問題があった。

これに対し、特許文献１では、選択した候補が誤っている場合には、利用者が誤認識部分のみを再入力し、再入力した発話で候補を修正して再提示する技術が提案されている。これにより、全文を言い直す負担を軽減し操作性を向上させている。

また、特許文献１では、住所や電話番号などの階層構造を有する情報が入力されることを前提とし、再入力された発話がいずれの階層に相当するかを判定して認識候補を修正している。この際、誤認識されている階層下のパターンだけを照合の対象とすることができるため、認識処理の効率化および高精度化を実現することができる。

また、特許文献２では、利用者が誤認識部分のみを際入力し、再入力した部分の認識候補から、元の発話時に選択した認識候補を削除することにより、再度誤った候補を選択して提示することを回避する技術が提案されている。

ところで、一般に、句や文を入力し認識する音声認識システムでは、音声認識で誤認識が生じる場合として、一部の単語のみに誤認識が生じる場合と、雑音などの影響により発話全体の誤りであるバースト誤りが生じる場合が存在する。誤認識部分が少なく軽微な場合には、一部のみを修正することが効率的である。一方、バースト誤りのように修正箇所が多い場合には、発話全体を修正することが効率的である。

特開２００２−２８７７９２号公報特開２００３−３１６３８６号公報

しかしながら、従来の方法では、原則として発話の全文を再入力して修正するか、または、発話の一部を再入力して修正するかのいずれか一方のみを対象としており、誤認識の内容に応じた修正を行うことができないという問題があった。

また、特許文献２の方法のように、全体修正および部分修正の両方に適用できる技術も存在するが、それぞれの修正で修正方法は同一であるため、利用者が発話全体を再入力したか、一部のみを再入力したかという、利用者の修正入力方法に応じた修正を行うことができないという問題があった。

本発明は、上記に鑑みてなされたものであって、利用者の修正入力方法に応じた音声認識結果の修正を行うことにより、利便性が高く、高精度な音声認識結果を出力することができる音声認識装置、音声認識方法および音声認識プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、音声認識装置において、入力された音声発話を認識し、少なくとも１つの認識結果の候補と前記候補の確からしさを示す尤度とを対応づけた認識候補を生成する認識候補生成手段と、前記認識候補生成手段が生成した前記認識候補を記憶する認識候補記憶手段と、先に入力された第１の音声発話のうち、前記第１の音声発話の音声情報と後に入力された第２の音声発話の音声情報との類似度が予め定められた閾値より大きい部分である類似部分を検出し、前記類似部分が前記第１の音声発話の全体と一致する場合に前記第２の音声発話は前記第１の音声発話の全体を言い直した音声発話であると判断し、前記類似部分が前記第１の音声発話の一部と一致し、かつ、前記類似部分が前記第２の音声発話の全体と一致する場合に前記第２の音声発話は前記第１の音声発話の一部を言い直した音声発話であると判断し、前記第１の音声発話のうち前記類似部分以外の部分である不一致部分における前記第１の音声発話の前記認識候補と前記第２の音声発話の前記認識候補との間に予め定められた関係が存在する場合に、前記第２の音声発話は前記第１の音声発話の一部を異なる音声発話で置き換えて全体を言い直した音声発話であると判断する発話関係判定手段と、前記発話関係判定手段が、前記第２の音声発話は前記第１の音声発話の全体を言い直した音声発話であると判断した場合に、前記第２の音声発話に基づいて前記第１の音声発話の全体の前記認識候補を修正して前記認識候補記憶手段に出力し、前記発話関係判定手段が、前記第２の音声発話が前記第１の音声発話の一部を異なる音声発話で置き換えて全体を言い直した音声発話であると判断した場合に、前記第１の音声発話の前記関係が存在する前記認識候補を前記第２の音声発話の前記関係が存在する前記認識候補で置換して前記認識候補記憶手段に出力する全体修正手段と、前記発話関係判定手段が一部を言い直した音声発話であると判断した場合に、前記第１の音声発話の前記類似部分の前記認識候補を、前記第２の音声発話の前記認識候補で置換して前記認識候補記憶手段に出力する部分修正手段と、前記認識候補記憶手段に記憶された前記認識候補から、前記尤度に基づいて認識結果を選択する認識候補選択手段と、を備えたことを特徴とする。

また、本発明は、上記装置を実行することができる音声認識方法および音声認識プログラムである。

本発明によれば、利用者により再入力された音声が全体を修正するための音声か、一部を修正するための音声かを判断し、判断結果に応じて修正方法を変更することができるため、利用者が修正方法を指示する必要がなく、また、入力方法に応じて最適な修正方法を適用することができる。このため、利便性が高く、高精度な音声認識結果を出力することができるという効果を奏する。

以下に添付図面を参照して、この発明にかかる音声認識装置、音声認識方法および音声認識プログラムの最良な実施の形態を詳細に説明する。

（第１の実施の形態）
第１の実施の形態にかかる音声認識装置は、利用者により再入力された音声が全体を修正するための音声か、一部を修正するための音声かを判断し、判断結果に応じて修正方法を変更するものである。また、元の音声の認識候補と修正入力された音声の認識候補とを統合した認識候補から最も確からしい認識候補を選択して出力するものである。

図１は、第１の実施の形態にかかる音声認識装置１００の構成を示すブロック図である。同図に示すように、音声認識装置１００は、主要なハードウェア構成として、マイク１１１と、ディスプレイ１１２と、スピーカ１１３と、認識候補記憶部１２１と、変更差分情報記憶部１２２と、優先情報記憶部１２３と、抑制情報記憶部１２４と、を備えている。

また、音声認識装置１００は、主要なソフトウェア構成として、入力受付部１０１と、認識候補生成部１０２と、発話関係判定部１０３と、修正部１０４と、認識候補選択部１０５と、出力制御部１０６と、を備えている。

マイク１１１は、利用者が発話を入力する入力装置である。ディスプレイ１１２は、認識結果などを利用者に提示するための画面を表示する表示部である。スピーカ１１３は、正しいと判断された認識候補について音声合成された合成音を出力するものである。なお、音声翻訳システムとして構成する場合は、スピーカ１１３は、対象言語で音声合成された合成音を出力する。

認識候補記憶部１２１は、後述する認識候補生成部１０２が生成した音声認識結果の認識候補を格納するものである。図２は、認識候補記憶部１２１に格納された認識候補のデータ構造の一例を示す説明図である。

同図に示すように、認識候補記憶部１２１は、認識結果をラティス（ｌａｔｔｉｃｅ）形式で格納している。なお、同図の上部は、入力された音声に含まれる各音素と、各音素の入力位置を表す数値を対応づけて模式的に表した図である。なお、入力位置を特定できるものであれば数値以外の情報で入力位置を表してもよい。

ラティスは、認識結果を左から右へ時系列に並べたノードを、音声認識用辞書（図示せず）に格納された音声解析パターンと照合したときの類似する度合いを表すスコアを付したアークで結ぶことにより生成される。なお、ノードに対して入力するアーク（以下、入力アークという。）に、当該ノードのスコアを付すものとする。例えば、同図に示す例では、アーク２０２を表す矢印の下にスコアが付されている。スコアは、認識候補の確からしさを示すものであり、本発明における尤度に相当する。

ノードは、単語などの文字列、アクセント句などの音素列、音素、音節などの入力音声の所定区間ごとに生成される。例えば、同図のノード２０１は、入力位置が０から２までの区間に発話された３つの音素「ＷＡ」「ＴＡ」「ＳＨＩ」からなる日本語の単語「私」を表している。なお、記号“／”の部分は、単語の品詞を表すものである。例えば、ノード２０１における“／ｎ”は、単語が名詞（noun）であることを表している。

認識候補が複数存在する場合は、対応するノードが複数生成される。複数のノードのうち、最もスコアの大きいノードに対応する認識候補が、最も確からしい候補として選択され出力される。

なお、認識候補記憶部１２１は、最新の発話に対する認識結果だけでなく、過去の発話に対する認識結果も格納する。後述する発話関係判定部１０３で、過去の発話と最新の発話との関係を判定する際に参照するためである。

従って、認識候補記憶部１２１は、いずれの時点で発話された音声に対する認識結果であるか識別する情報を、認識結果と対応づけて格納している。認識候補記憶部１２１は、いずれの時点で発話された音声に対する認識結果であるか識別する情報として、少なくとも第１発話、現発話、直前発話および直前全体発話のいずれであるかを示す情報を格納する。

ここで、第１発話とは、音声認識装置１００が任意の新規な発話を受け入れる状態で入力された発話をいう。また、現発話とは、音声認識装置１００に入力された最新の発話をいう。また、直前発話とは、現発話の直前に入力された発話をいう。また、直前全体発話とは、第１発話に対して修正のために発話された現発話を除く全体発話のうち最新の発話をいう。

さらに、認識候補記憶部１２１は、発話が新規発話、全体修正発話および部分修正発話のいずれであるかを示す情報を格納する。ここで、新規発話とは新規に入力された発話をいい、全体修正発話とは、直前発話全体を言い直した発話をいい、部分修正発話とは、直前発話の一部を言い直した発話をいう。新規発話、全体修正発話および部分修正発話のいずれであるかは、後述する発話関係判定部１０３により判断され、認識候補記憶部１２１に記憶される。

変更差分情報記憶部１２２は、修正部１０４が認識候補の修正を行ったときの修正内容を記憶するものである。図３は、変更差分情報記憶部１２２に格納された修正内容のデータ構造の一例を示す説明図である。

同図に示すように、変更差分情報記憶部１２２は、修正前位置と、修正前内容と、修正後位置と、修正後内容とを対応づけて格納している。

修正前位置とは、修正前の発話における修正部分の入力位置を示す情報である。修正前内容とは、修正部分の修正前の内容を示す情報である。修正後位置とは、修正後の発話における修正部分の入力位置を示す情報である。修正後内容とは、修正部分の修正後の内容を示す情報である。

同図に示す例では、過去の発話における入力位置が０の単語である“名画”が、修正入力された発話における入力位置が０の単語である“映画”に修正されたときの修正内容が格納されている。

変更差分情報記憶部１２２は、修正部１０４が、過去の修正内容を参照して認識候補のスコアを更新する際に参照される。

優先情報記憶部１２３は、修正部１０４が、過去の修正内容を参照して優先すべきと判断した認識候補の情報である優先情報を格納するものである。図４は、優先情報記憶部１２３に格納された優先情報のデータ構造の一例を示す説明図である。

同図に示すように、優先情報記憶部１２３は、過去の発話における優先する部分の入力位置を表す位置と、優先する部分の内容とを対応づけて格納している。

優先情報記憶部１２３には、例えば、ある部分について修正が行われ、続いて別の部分について修正が行われたときに、最初に修正した部分の修正後の内容が格納される。最初に修正した部分については再度修正が行われていないため、正しく認識されたと判断することができる。従って、その修正後の内容を優先して認識候補を選択すべきだからである。

抑制情報記憶部１２４は、修正部１０４が、過去の修正内容を参照して優先すべきでないと判断した認識候補の情報である抑制情報を格納するものである。図５は、抑制情報記憶部１２４に格納された抑制情報のデータ構造の一例を示す説明図である。

同図に示すように、抑制情報記憶部１２４は、過去の発話における抑制する部分の入力位置を表す位置と、抑制する部分の内容とを対応づけて格納している。

抑制情報記憶部１２４には、例えば、ある部分について修正が行われ、続いて同一の部分について修正が行われたときに、最初に修正した部分の修正後の内容が格納される。最初に修正した部分について再度修正が行われたため、最初の修正の内容が誤っていると判断することができる。従って、その修正後の内容を抑制して認識候補を選択すべきだからである。

なお、認識候補記憶部１２１、変更差分情報記憶部１２２、優先情報記憶部１２３および抑制情報記憶部１２４は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、光ディスク、メモリカード、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などの一般的に利用されているあらゆる記憶手段により構成することができる。

入力受付部１０１は、マイク１１１により利用者が入力した音声を受信し、受信した音を認識候補生成部１０２が処理可能な電気信号に変換して出力するものである。具体的には、音声を取りこみ、電気信号に変換した後、Ａ／Ｄ（アナログデジタル）変換を行い、ＰＣＭ（パルスコードモジュレーション）形式などにより変換したデジタルデータを出力する。これらの処理は、従来から用いられている音声信号のデジタル化処理と同様の方法によって実現することができる。

出力されたデジタルデータは、記憶部（図示せず）に記憶され、後述する認識候補生成部１０２が音声認識処理を実行する際に参照される。

なお、入力受付部１０１は、音声認識装置１００がマイク１１１以外の操作ボタン、キーボード等の入力部（図示せず）を有する場合は、それらの入力部から入力されたボタン押下などの情報を取り込む。

認識候補生成部１０２は、入力受付部１０１から出力されたデジタルデータを受取り、音声認識処理を実行してその結果である認識候補を生成するものである。

具体的には、認識候補生成部１０２は、ＦＦＴ（高速フーリエ変換）などの処理による周波数分析などを行って、入力音声の所定区間ごとに、各区間についての音声認識のために必要な特徴情報（例えばスペクトルなど）を時系列に出力する。所定区間とは、例えば、単語などの文字列、アクセント句などの音素列、音素、音節など単位をいう。この処理は、従来の音声分析処理技術により実現することができる。

さらに、認識候補生成部１０２は、特徴情報と、音声認識用辞書（図示せず）格納された音声解析パターンとを照合して類似度を表すスコアを算出し、上述のラティス形式で認識候補を出力する。照合処理は、隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）、ＤＰ（ダイナミックプログラミング）、ＮＮ（ニューラルネットワーク）などの、一般的に利用されているあらゆる方法を適用することができる。

発話関係判定部１０３は、直前発話に対して利用者により入力された現発話が、直前発話全体を言い直した音声であるか、または、直前発話の一部を言い直した音声であるかを判断するものである。

具体的には、発話関係判定部１０３は、２つの発話の音声情報を比較し、両者の類似度が予め定められた閾値より大きい部分である類似部分を検出し、類似部分が直前発話全体と一致する場合に、現発話は全体修正発話であると判断する。

なお、現発話で直前発話と同じ内容を発話することを意図した場合であっても、語尾表現が異なる場合など、類似部分が発話全体と完全に一致しない場合が生じうる。そこで、類似部分と発話全体とが完全に一致する場合だけでなく、予め定められた割合（例えば８５％）以上一致すれば、全体修正発話であると判断するように構成してもよい。

また、発話関係判定部１０３は、類似部分が直前発話の一部と一致し、かつ、類似部分が現発話の全体と一致する場合に、現発話は部分修正発話であると判断する。また、発話関係判定部１０３は、現発話が全体修正発話、部分発話のいずれにも該当しないときには、現発話は新規発話であると判断する。

例えば、直前発話が、「映画を見たいのですがどこへ行けばよいですか」を意味する、「E-I-GA-WO-MI-TA-I-NO-DE-SU-GA-DO-KO-E-I-KE-BA-YO-I-DE-SU-KA」と発音される日本語の文であり、現発話が映画を意味する「E-I-GA」と発音される日本語の単語であったとする。この場合、直前発話の認識情報であるラティスに「E-I-GA」に対応するノードが存在し、現発話のラティスにも「E-I-GA」に対応するノードが存在するため、当該ノードの部分が類似部分として認識され、現発話が直前発話の部分修正発話であると判定される。また、現発話が「E-I-GA-WO-MI-TA-I-NO-DE-SU-GA-DO-KO-E-I-KE-BA-YO-I-DE-SU」であったとすると、直前発話に対して語尾の音素である「KA」の部分が一致しないが、一致部分の割合が高いため全体修正発話であると判定される。

なお、発話関係判定部１０３は、音声認識装置１００の動作状態を判断する機能も有する。例えば、音声認識装置１００の操作開始時、または、入力受付部１０１が利用者から指示を受けたときに、新規発話の入力を受け付ける初期状態であると判断する。

初期状態は、認識候補記憶部１２１に第１発話、現発話、直前発話および最新全体発話のいずれもが格納されていない状態である。初期状態で最初に入力された発話が第１発話であり、第１発話が入力されると、発話関係判定部１０３は、音声認識装置１００が修正待ち状態に遷移したと判断する。

修正待ち状態で音声発話が入力されると、発話関係判定部１０３は、上述のように現発話と直前発話との関係から、現発話が新規発話、全体修正発話、部分修正発話のいずれであるかを判定する処理を行う。なお、発話関係判定部１０３が新規発話と判定した場合は、初期状態で入力された場合と同様に処理が行なわれる。この場合、発話関係判定部１０３は、それまでに認識候補記憶部１２１に記憶されていた第１発話、現発話、直前発話および最新全体発話をすべて削除し、新規発話を新たに記憶する。

修正部１０４は、発話関係判定部１０３により現発話が全体修正発話または部分修正発話であると判定された場合に、認識候補を修正して出力する修正処理を実行するものであり、全体修正部１０４ａと、部分修正部１０４ｂとを備えている。

全体修正部１０４ａは、発話関係判定部１０３により現発話が全体修正発話であると判定された場合に、現発話の認識候補を参照して最新全体発話に対する認識候補を修正して認識候補記憶部１２１に出力するものである。

部分修正部１０４ｂは、発話関係判定部１０３により現発話が部分修正発話であると判定された場合に、現発話の認識候補を参照して最新全体発話のうち、部分修正された部分の認識候補を修正して認識候補記憶部１２１に出力するものである。

認識候補選択部１０５は、認識候補記憶部１２１に記憶された認識候補から、ラティスのスコアが最大となる認識候補を選択するものである。選択する方法としては、ビタビアルゴリズムなどの一般的に用いられているあらゆる方法を適用することができる。

出力制御部１０６は、認識候補選択部１０５により選択された認識候補をディスプレイ１１２に出力するものである。また、ディスプレイ１１２に出力された認識候補が、正しい認識結果であると利用者により指示された際に、当該認識候補に対応する文を音声合成した合成音をスピーカ１１３に出力するものである。

なお、音声合成処理は、音声素片編集音声合成、フォルマント音声合成などを用いたテキストトゥスピーチシステムなどの一般的に利用されているあらゆる方法を適用することができる。

また、音声翻訳システムとして構成する場合、出力制御部１０６は、認識候補に対応する原言語による文を対象言語で翻訳し、翻訳文を対象言語で音声合成した合成音をスピーカ１１３に出力するように構成してもよい。

次に、このように構成された第１の実施の形態にかかる音声認識装置１００による音声認識処理について説明する。図６は、第１の実施の形態における音声認識処理の全体の流れを示すフローチャートである。

ます、入力受付部１０１が、マイク１１１を介して利用者により入力された音声の入力を受付ける（ステップＳ６０１）。次に、認識候補生成部１０２が、受付けた音声を音声認識し、認識候補を生成して認識候補記憶部１２１に出力する（ステップＳ６０２）。

具体的には、認識候補生成部１０２は、ＦＦＴなどの方法により入力音声の周波数分析を行って特徴情報を出力し、特徴情報と音声解析パターンとを照合して類似度を表すスコアを算出し、ラティス形式で認識候補を出力する。

次に、発話関係判定部１０３が、直前発話と現発話とを比較して両者の関係を判断する発話関係判定処理を実行する（ステップＳ６０３）。発話関係判定処理の詳細については後述する。

発話関係判定処理の後、発話関係判定部１０３は、現発話が新規発話であると判定されたか否かを判断する（ステップＳ６０４）。新規発話であると判定されなかった場合は（ステップＳ６０４：ＮＯ）、発話関係判定部１０３は、現発話が全体修正発話であると判定されたか否かを判断する（ステップＳ６０５）。

全体修正発話であると判定された場合は（ステップＳ６０５：ＹＥＳ）、全体修正部１０４ａが全体修正処理を実行する（ステップＳ６０７）。また、全体修正発話であると判定されなかった場合（ステップＳ６０５：ＮＯ）、すなわち、現発話が部分修正発話であった場合は、部分修正部１０４ｂが部分修正処理を実行する（ステップＳ６０６）。全体修正処理および部分修正処理の詳細については後述する。

ステップＳ６０４で現発話が新規発話であると判定された場合（ステップＳ６０４：ＹＥＳ）、全体修正処理実行後（ステップＳ６０７）または部分修正処理実行後（ステップＳ６０６）、認識候補選択部１０５が、認識候補記憶部１２１に記憶されている現発話の認識候補から、スコアが最大となる候補を選択する（ステップＳ６０８）。

例えば、認識候補が図２に示すようなラティスで示されている場合、３つの候補が存在する入力位置の区間が２から７のノードでは、最大のスコア５を有する最上部のノードが選択される。同様に、３つの候補が存在する入力位置の区間が９から１０のノードでは、最大のスコア６を有する最上部のノードが選択される。この結果、認識候補選択部１０５は、選択したノードを連結した日本語「私は公演に生きたい」を認識候補として選択する。

次に、出力制御部１０６が、認識候補選択部１０５により選択された候補を認識結果としてディスプレイ１１２に出力し（ステップＳ６０９）、音声認識処理を終了する。

次に、ステップＳ６０３に示した発話関係判定処理の詳細について説明する。図７は、第１の実施の形態における発話関係判定処理の全体の流れを示すフローチャートである。

発話関係判定処理では、直前発話と現発話の類似部分と不一致部分との関係から、現発話が、新規発話、全体修正発話または部分修正発話のいずれであるかを判定する。

まず、発話関係判定部１０３は、直前発話と現発話とを比較し、類似部分と不一致部分とを算出する（ステップＳ７０１）。

類似部分の算出は、例えば、特許文献２に記載された方法を適用することができる。すなわち、２つの入力音声を音声信号に変換した結果であるデジタルデータ、デジタルデータから抽出された特徴情報、または、特徴情報に対してＤＰ（ダイナミックプログラミング）処理などにより求められた各認識候補についての類似度などから類似部分を判定することができる。

また、２つの入力音声の所定区間ごと生成された認識候補である複数の音素列または文字列のうち、両者で共通する音素列あるいは文字列の割合が予め定められた閾値以上であるときに、当該所定区間を類似部分と判定するように構成してもよい。また、両者で共通する音素列あるいは文字列の割合が予め定められた閾値より大きい区間が、予め定められた時間連続して存在するとき、当該連続する時間に相当する区間を類似部分と判定するように構成してもよい。なお、類似部分と判定されなかった区間が不一致部分となる。

次に、発話関係判定部１０３は、直前発話の一部と現発話のすべての部分が類似するか否かを判断する（ステップＳ７０２）。直前発話の一部と現発話のすべての部分が類似する場合は（ステップＳ７０２：ＹＥＳ）、発話関係判定部１０３は、現発話が部分修正発話であると判定する（ステップＳ７０３）。

直前発話の一部と現発話のすべての部分が類似しない場合は（ステップＳ７０２：ＮＯ）、発話関係判定部１０３は、不一致部分の割合が予め定められた閾値より大きいか否かを判断する（ステップＳ７０４）。閾値としては、例えば１５％を指定する。

不一致部分の割合が予め定められた閾値より大きい場合は（ステップＳ７０４：ＹＥＳ）、発話関係判定部１０３は、現発話が新規発話であると判定する（ステップＳ７０６）。不一致部分の割合が予め定められた閾値より大きくない場合は（ステップＳ７０４：ＮＯ）、発話関係判定部１０３は、現発話が全体修正発話であると判定する（ステップＳ７０５）。

このように、不一致部分が全く存在しない場合のみ全体修正発話であると判断するのではなく、例えば１５％までの不一致が存在しても全体修正発話であると判断する。これにより、語尾のみの相違等の場合でも全体修正発話であると判断することができ、利用者の使用態様を考慮した利便性の高い音声認識装置を実現することができる。

次に、ステップＳ６０７に示した全体修正処理の詳細について説明する。図８は、第１の実施の形態における全体修正処理の全体の流れを示すフローチャートである。

まず、全体修正部１０４ａが、直前発話が全体修正発話であるか否かを判断する（ステップＳ８０１）。直前発話が全体修正発話であるか否かは、認識候補記憶部１２１に記憶されている情報を参照して判断する。

直前発話が全体修正発話であると判断した場合は（ステップＳ８０１：ＹＥＳ）、直前発話で実行された全体修正処理における変更差分情報の修正後内容を変更差分情報記憶部１２２から取得し、抑制情報記憶部１２４に格納する（ステップＳ８０２）。

これは、直前発話で全体修正処理を実行したにもかかわらず、再度現発話で全体修正処理が行われていることから、直前発話の全体修正処理における修正は誤っていたと判断することができるためである。従って、直前発話の変更差分情報から、修正後内容を取得し、修正後内容に対応する認識候補のスコアを下げるために抑制情報記憶部１２４に記憶している。

なお、直前発話が新規発話であった場合、直前発話で選択された認識候補をすべて抑制情報記憶部１２４に格納するように構成してもよい。同様に、直前発話が全体修正発話であった場合も、変更差分情報だけでなく、すべての認識候補を抑制情報記憶部１２４に格納するように構成してもよい。全体発話修正が行われるということは、直前発話で選択された認識候補の大部分が正しくないという可能性が高いためである。

ステップＳ８０１で直前発話が全体修正発話であると判断されなかった場合は（ステップＳ８０１：ＮＯ）、全体修正部１０４ａは、直前発話が部分修正発話であるか否かを判断する（ステップＳ８０３）。直前発話が部分修正発話であるか否かは、認識候補記憶部１２１に記憶されている情報を参照して判断する。

直前発話が部分修正発話であると判断した場合は（ステップＳ８０３：ＹＥＳ）、直前発話で実行された部分修正処理における変更差分情報の修正後内容を変更差分情報記憶部１２２から取得し、抑制情報記憶部１２４に格納する（ステップＳ８０４）。

これは、直前発話で部分修正処理を実行したにもかかわらず、再度現発話で全体修正処理が行われていることから、直前発話の部分修正処理における修正は誤っていたと判断することができるためである。従って、直前発話の変更差分情報から、修正後内容を取得し、修正後内容に対応する認識候補のスコアを下げるために抑制情報記憶部１２４に記憶している。

ステップＳ８０３で直前発話が部分修正発話であると判断されなかった場合は（ステップＳ８０３：ＮＯ）、全体修正部１０４ａは、直前発話の認識候補を参照して現発話の認識候補を修正する全体修正候補生成処理を実行する（ステップＳ８０５）。全体修正候補生成処理の詳細については後述する。

全体修正候補生成処理の実行後、全体修正部１０４ａは、修正部分の情報を変更差分情報記憶部１２２に記憶し（ステップＳ８０６）、全体修正処理を終了する。

次に、ステップＳ８０５に示した全体修正候補生成処理の詳細について説明する。図９は、第１の実施の形態における全体修正候補生成処理の全体の流れを示すフローチャートである。

まず、全体修正部１０４ａは、直前全体発話を認識候補記憶部１２１から取得し、直前全体発話のラティス内の未処理のノード（以下、Ｘという。）を取得する（ステップＳ９０１）。次に、全体修正部１０４ａは、全体修正発話のラティス内にＸと同じノード（以下、Ｙという。）が存在するか否かを判断する（ステップＳ９０２）。

Ｘと同じノードＹが存在する場合は（ステップＳ９０２：ＹＥＳ）、全体修正部１０４ａは、Ｙの入力アークにＸの入力アークのスコアを加算する（ステップＳ９０４）。

このように、現発話である全体修正発話で算出された認識候補のスコアだけでなく、直前全体発話で算出された認識候補のスコアも加算し、両者を総合して判断することができるため、より適切な認識候補を選択することが可能となる。

Ｘと同じノードＹが存在しない場合は（ステップＳ９０２：ＮＯ）、全体修正部１０４ａは、Ｘとその入力アークを全体修正発話に対するラティスに追加する（ステップＳ９０３）。

このように、現発話である全体修正発話で算出された認識候補だけでなく、直前全体発話で算出された認識候補も追加して両者を総合して判断することができるため、より適切な認識候補を選択することが可能となる。

次に、全体修正部１０４ａは、優先情報記憶部１２３および抑制情報記憶部１２４を参照し、優先情報および抑制情報をラティスのスコアに反映する（ステップＳ９０５）。例えば、複数の認識候補が存在する区間に、優先情報に格納されている内容と同一の認識候補に対応するノードが存在する場合、当該ノードのスコアを、当該区間の最高のスコアに１を加算した値に更新する。また、例えば、複数の認識候補が存在する区間に、抑制情報に格納されている内容と同一の認識候補に対応するノードが存在する場合、当該ノードのスコアを、当該区間の最低のスコアから１を減算した値に更新する。

なお、優先情報および抑制情報をラティスのスコアに反映させる方法はこれに限られるものではなく、優先情報に対応する認識候補のスコアを増加させ、抑制情報に対応する認識候補のスコアを減少させるものであればあらゆる方法を適用することができる。

次に、全体修正部１０４ａは、直前全体発話のラティス内のすべてのノードを処理したか否かを判断し（ステップＳ９０６）、すべてのノードを処理していない場合は（ステップＳ９０６：ＮＯ）、次の未処理のノードを取得して処理を繰り返す（ステップＳ９０１）。すべてのノードを処理した場合は（ステップＳ９０６：ＹＥＳ）、全体修正候補生成処理を終了する。

次に、ステップＳ６０６に示した部分修正処理の詳細について説明する。図１０は、第１の実施の形態における部分修正処理の全体の流れを示すフローチャートである。

まず、部分修正部１０４ｂが、認識候補記憶部１２１を参照して、直前発話が新規発話または全体修正発話であるか否かを判断する（ステップＳ１００１）。

直前発話が新規発話または全体修正発話であると判断された場合（ステップＳ１００１：ＹＥＳ）、部分修正部１０４ｂは、直前発話の認識候補のうち、現発話である部分修正発話に対応する部分で選択された認識候補を抑制情報記憶部１２４に格納する（ステップＳ１００７）。

これは、直前発話で選択された候補が誤っていたために利用者が部分修正処理を行ったと判断することができるためである。従って、直前発話の該当部分の認識候補を取得し、取得した認識候補のスコアを下げるために抑制情報記憶部１２４に記憶している。

直前発話が新規発話または全体修正発話でない場合（ステップＳ１００１：ＮＯ）、すなわち、直前発話が部分修正発話である場合は、部分修正部１０４ｂが、直前発話の発話位置と現発話の発話位置が等しいか否かを判断する（ステップＳ１００２）。

直前発話の発話位置と現発話の発話位置が等しくない場合は（ステップＳ１００２：ＮＯ）、部分修正部１０４ｂは、直前の部分修正処理における変更差分情報の修正後内容を優先情報記憶部１２３に格納する（ステップＳ１００３）。次に、部分修正部１０４ｂは、直前の部分修正処理における変更差分情報の修正前内容を抑制情報記憶部１２４に格納する（ステップＳ１００４）。

これは、直前発話で部分修正処理を実行した部分と異なる部分に、現発話で部分修正処理を行っていることから、直前発話の部分修正処理における修正は正常に行われたと判断することができるためである。従って、直前発話の変更差分情報から、修正後内容を取得し、修正後内容に対応する認識候補のスコアを上げるために優先情報記憶部１２３に記憶している。また、直前発話の変更差分情報から、修正前内容を取得し、修正前内容に対応する認識候補のスコアを下げるために抑制情報記憶部１２４に記憶している。

さらに、部分修正部１０４ｂは、直前全体発話の認識候補のうち、現発話である部分修正発話に対応する部分で選択された認識候補を抑制情報記憶部１２４に格納する（ステップＳ１００５）。

これは、直前発話である部分修正発話による部分修正処理は正常に行われたが、直前全体発話の別の部分で選択された候補が誤っていたために利用者が当該別の部分に対して部分修正処理を行ったと判断することができるためである。従って、直前全体発話の該当部分の認識候補を取得し、取得した認識候補のスコアを下げるために抑制情報記憶部１２４に記憶している。

直前発話の発話位置と現発話の発話位置が等しい場合は（ステップＳ１００２：ＹＥＳ）、部分修正部１０４ｂは、直前の部分修正処理における変更差分情報の修正後内容を抑制情報記憶部１２４に格納する（ステップＳ１００６）。

これは、直前発話で部分修正処理を実行した部分と同じ部分に、現発話で部分修正処理を行っていることから、直前発話の部分修正処理における修正は誤っていたと判断することができるためである。従って、直前発話の変更差分情報から、修正後内容を取得し、修正後内容に対応する認識候補のスコアを下げるために抑制情報記憶部１２４に記憶している。

ステップＳ１００５、ステップＳ１００６またはステップＳ１００７の実行後、部分修正部１０４ｂは、現発話である部分修正発話の認識候補で直前全体発話のラティスの対応部分を置換する(ステップＳ１００８)。

なお、直前全体発話のラティスの対応部分のノードと、部分修正発話の認識候補を示すノードとを統合するように構成してもよい。この場合は、共通する認識候補のノードのスコアを加算する。これにより、現発話だけでなく、直前全体発話で算出されたスコアも考慮し、両者を総合して判断することができるため、より適切な認識候補を選択することが可能となる。

次に、部分修正部１０４ｂは、優先情報記憶部１２３および抑制情報記憶部１２４を参照し、優先情報および抑制情報をラティスのスコアに反映する（ステップＳ１００９）。

次に、部分修正部１０４ｂは、修正部分の情報を変更差分情報記憶部１２２に記憶し（ステップＳ１０１０）、部分修正処理を終了する。

次に、上述した手順に従って実行される音声認識処理の具体例について説明する。図１１は、音声認識処理で処理されるデータの一例を示す説明図である。

まず、新規発話として「私は公園に行きたい」を意味する、「WA-TA-SHI-WA-KO-U-E-N-NI-I-KI-TA-I」と発音される日本語の文が入力され（ステップＳ６０１）、認識候補生成部１０２が、認識候補として同図の（ａ）に示すようなラティスを出力したとする（ステップＳ６０２）。

同図の（ａ）では、入力位置の区間が２から７のノード、および、入力位置の区間が９から１０のノードに、それぞれ３つの認識候補が存在する例が示されている。各ノードのスコアはそれぞれ５，３，１および６，２，２である。

この後、認識候補選択部１０５が、スコアが最大となるノードを選択し、選択したノードを連結した日本語「私は公演に生きたい」を認識候補として選択する（ステップＳ６０８）。選択された認識候補は、出力制御部１０６によりディスプレイ１１２に表示される（ステップＳ６０９）。

表示された認識候補が誤っているため、利用者が「公園」を意味する「KO-U-E-N」と発音される日本語の単語を再度入力したとする（ステップＳ６０１）。

また、この入力に対して、認識候補生成部１０２が、「KO-U-E-N」と発音される音声の認識候補として、４つの日本語の単語「公演」、「公園」、「後援」、「好演」を出力したとする（ステップＳ６０２）。なお、ここでは、４つの認識候補のスコアがそれぞれ７，７，５，１であるものとする。

発話関係判定部１０３は、再度入力された発話が部分修正発話であると判断するため（ステップＳ６０３）、部分修正部１０４ｂによる部分修正処理が実行される（ステップＳ６０６）。

部分修正処理では、直前発話が新規発話であるため（ステップＳ１００１：ＹＥＳ）、
直前発話で選択された単語「公演」に対応するスコアが５の認識候補が、抑制情報記憶部１２４に格納される（ステップＳ１００７）。

次に、部分修正発話の認識候補で直前全体発話のラティスの対応部分が置換され（ステップＳ１００８）、抑制情報記憶部１２４に格納された抑制情報の内容が反映される（ステップＳ１００９）。ここでは、抑制情報として単語「公演」に対応する認識候補が格納されているため、この認識候補に対応するノードのスコアが、４つの認識候補のうち最低のスコアである１から１を減算した値である０に設定される。

このときの状態を示したのが同図の（ｂ）に示すラティスである。この結果、認識候補選択部１０５は、スコアが最大となるノードを選択し、選択したノードを連結した日本語「私は公園に生きたい」を認識候補として選択する（ステップＳ６０８）。

同様に、再度利用者が「行きたい」を意味する「I-KI-TA-I」と発音される日本語の単語を入力したとする（ステップＳ６０１）。この場合は、直前発話が部分修正発話であるため（ステップＳ１００１：ＮＯ）、発話位置が等しいか否かが判断される（ステップＳ１００２）。

この例では発話位置が等しくないため（ステップＳ１００２：ＮＯ）、直前の部分修正処理における変更差分情報を参照し、位置が２、内容が単語「公園」である優先情報が優先情報記憶部１２３に格納される（ステップＳ１００３）。これにより、以降の処理で単語「公園」のスコアを増加させることができる。

また、位置が２、内容が単語「公演」である抑制情報が抑制情報記憶部１２４に格納される（ステップＳ１００４）。これにより、以降の処理で単語「公演」のスコアを減少させることができる。

さらに、直前全体発話内の再度入力された部分に対応する認識候補を抑制するため、位置が９、内容が単語「生き」である抑制情報が抑制情報記憶部１２４に格納される（ステップＳ１００５）。これにより、以降の処理で単語「生き」のスコアを減少させることができる。

この結果、認識候補選択部１０５は、スコアが最大となるノードを選択し、選択したノードを連結した日本語「私は公園に行きたい」を認識候補として選択する（ステップＳ６０８）。利用者が、選択された認識候補が正しいと判断し、例えばＯＫボタンをクリックした場合に音声認識処理を終了する。

次に、音声認識処理の別の具体例について説明する。図１２は、音声認識処理で処理されるデータの別の一例を示す説明図である。図１１は部分修正処理で処理されるデータの例を示していたが、図１２は、全体修正処理で処理されるデータの例を示している。

まず、新規発話として「映画を見たいのですがどこへ行けばよいですか」を意味する、「E-I-GA-WO-MI-TA-I-NO-DE-SU-GA-DO-KO-E-I-KE-BA-YO-I-DE-SU-KA」と発音される日本語の文が入力されたとする（ステップＳ６０１）。また、認識候補生成部１０２が、認識候補として同図の（ａ）に示すようなラティスを出力したとする（ステップＳ６０２）。なお、同図では入力位置が８から１５までの区間のノードを省略している。

これに対し、認識候補選択部１０５が、スコアが最大となるノードを選択し、選択したノードを連結した日本語「名画生みたいのですがどこへ行けばよいですか」を認識候補として選択する（ステップＳ６０８）。選択された認識候補は、出力制御部１０６によりディスプレイ１１２に表示される（ステップＳ６０９）。

表示された認識候補が誤っているため、利用者が「E-I-GA-WO-MI-TA-I-NO-DE-SU-GA-DO-KO-E-I-KE-BA-YO-I-I-KA」と発音される文を再度入力したとする（ステップＳ６０１）。また、認識候補生成部１０２が、同図の（ｂ）に示すようなラティスを出力したとする（ステップＳ６０２）。

発話関係判定部１０３は、直前発話と現発話である全体修正発話とを比較し、類似部分を算出する（ステップＳ７０１）。同図の（ａ）に示すラティスと、同図の（ｂ）に示すラティスとでは、語尾の表現が相違するのみであるため、入力位置が０から１８までの区間が類似部分となる。

また、不一致部分の割合は約１４％（＝（２２−１９）×１００／２２））である。閾値が１５％に定められていたとすると、不一致部分の割合が閾値より小さいため、発話関係判定部１０３は、再度入力された発話が全体修正発話であると判断する（ステップＳ７０４：ＮＯ、ステップＳ７０５）。従って、全体修正部１０４ａによる全体修正処理が実行される（ステップＳ６０７）。

全体修正処理では、直前発話である新規発話のラティス（同図の（ａ））と、現発話である全体修正発話のラティス（同図の（ｂ））とを統合したラティス（同図の（ｃ））を出力する（ステップＳ８０５）。

例えば、同図（ａ）の入力位置が４から６の区間に対応するノード１２０１に対し、同図（ｂ）に同じノード１２０２が存在するため（ステップＳ９０２：ＹＥＳ）、ノード１２０１のスコア１０とノード１２０２のスコア１０とを加算した値である２０が、（ｃ）のノード１２０３のスコアとして算出される（ステップＳ９０４）。

また、例えば、同図（ａ）の入力位置が０から３の区間に対応するノード１２０４は、同図（ｂ）には存在しないため（ステップＳ９０２：ＮＯ）、（ｂ）のラティスに当該ノードが追加され、（ｃ）のノード１２０５が出力される（ステップＳ９０３）。

このようにして統合されたラティス（同図の（ｃ））を対象として、認識候補選択部１０５が、スコアが最大となるノードを選択し、選択したノードを連結した日本語「映画を見たいのですがどこへ行けばよいですか」を認識候補として選択する（ステップＳ６０８）。

次に、音声認識処理で利用者に提示される画面例について説明する。図１３は、音声認識処理で表示される操作画面の一例を示す説明図である。

同図の中央が、操作画面の表示例と画面遷移を示している。また、同図の左側が、利用者が行った操作の一例を示している。また、同図の右側が、音声認識装置１００の動作状態の一例を示している。

画面１３０１は、音声認識処理の初期画面であり、画面上部の確定結果表示領域１３０２との認識結果表示領域１３０３を含んでいる。音声認識の結果が、出力制御部１０６により認識結果表示領域１３０３に表示される。この時点の動作状態１３０４は初期状態である。

利用者が、「映画を見たいのですがどこへ行けば良いでしょうか」を意味する日本語の文を入力する場合を想定する。まず、初期状態で、「映画を見たいのですが」を意味する、「E-I-GA-WO-MI-TA-I-NO-DE-SU-GA」と発音される日本語の音声１３０５を利用者が入力する。

この入力に対し、認識結果として日本語１３０６（「名画を見たいのですが」）が画面の認識結果表示領域１３０３に表示される。この時、動作状態は、修正待ち状態となり、利用者は修正発話または次の新規発話を入力することができる。

認識結果のうち単語「名画」が単語「映画」であるべきである点以外は正しい認識結果であるため、利用者が単語「映画」の音声１３０７（「E-I-GA」）を入力する。この場合は、発話関係判定部１０３により部分修正発話であると判定され、部分修正部１０４ｂによる部分修正処理が実行される。

部分修正処理により正しく修正が行われたとすると、正しい認識結果として日本語１３０８（「映画を見たいのですが」）が認識結果表示領域１３０３に表示される。

続けて利用者が、「どこへ行けば良いでしょうか」を意味する、「DO-KO-E-I-KE-BA-YO-I-DE-SHO-U-KA」と発音される日本語の音声１３０９を入力する。

発話関係判定部１０３は、この発話と直前発話とを比較して、発話が新規発話であると判定し、直前発話の認識結果を確定し確定結果表示領域１３０２に表示する。また、入力音声に対する音声認識を行い、認識結果として日本語１３１０（「ど声けば胃ですか」）が表示される。

この場合は、バースト的な誤りであるため、利用者は、音声１３０９と同じ日本語の音声１３１１を再度入力する。この場合は、発話関係判定部１０３により全体修正発話であると判定され、全体修正部１０４ａによる全体修正処理が実行される。

全体修正処理により正しく修正が行われたとすると、正しい認識結果として日本語１３１２（「どこに行けば良いでしょうか」）が認識結果表示領域１３０３に表示される。

すべての音声入力が正しく認識されたため、利用者がＯＫボタンを押下すると、出力制御部１０６は、認識結果表示領域１３０３に表示されている認識結果を確定結果表示領域１３０２に移動した画面１３１３を再表示する。

このように、利用者は音声認識の結果を確認して、部分修正発話と全体修正発話を適宜選択して音声入力を行うことが可能となる。すなわち、誤りが少ない場合は部分の再入力を行い、誤りが多い場合は、全体の再入力を行うという分かりやすい基準で再入力を行うことができる。また、部分修正と全体修正を切り替える操作等が必要ないため、円滑に修正処理の操作を行うことができる。

また、認識結果を確定する際にＯＫボタンを押下する以外は、音声入力のみによって文の入力または修正を行うことができる。このため、利用者にとって操作性および利便性の高い音声認識装置を提供することができる。

以上のように、第１の実施の形態にかかる音声認識装置では、利用者により再入力された音声が全体を修正するための音声か、一部を修正するための音声かを判断し、判断結果に応じて修正方法を変更することができる。このため、利用者が修正方法を指示する必要がなく、また、入力方法に応じて最適な修正方法を適用することができる。従って、利用者にとって利便性が高く、高精度な音声認識結果を出力することができる。

また、元の音声の認識候補と修正入力された音声の認識候補とを統合した認識候補から最も確からしい認識候補を選択して出力することができるため、元の音声の認識結果が正しかったにもかかわらず誤認識した内容で置き換えて出力するという問題が生じることがない。すなわち、より精度の高い認識結果を得ることが可能となる。

（第２の実施の形態）
第２の実施の形態にかかる音声認識装置は、元の音声の認識結果と修正入力された音声の認識結果に不一致部分が存在する場合であって、不一致部分が予め定められた関係にある認識結果の組が存在する場合に、当該認識結果の組を認識候補として出力するものである。

図１４は、第２の実施の形態にかかる音声認識装置１４００の構成を示すブロック図である。同図に示すように、音声認識装置１４００は、主要なハードウェア構成として、マイク１１１と、ディスプレイ１１２と、スピーカ１１３と、認識候補記憶部１２１と、変更差分情報記憶部１２２と、優先情報記憶部１２３と、抑制情報記憶部１２４と、同義語辞書記憶部１４２５と、を備えている。

また、音声認識装置１４００は、主要なソフトウェア構成として、入力受付部１０１と、認識候補生成部１０２と、発話関係判定部１４０３と、修正部１０４と、認識候補選択部１０５と、出力制御部１０６と、を備えている。

第２の実施の形態では、同義語辞書記憶部１４２５を追加したこと、および、発話関係判定部１４０３の機能が第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる音声認識装置１００の構成を表すブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

同義語辞書記憶部１４２５は、任意の単語と当該単語に対する同義語とを対応づけた同義語辞書を格納するものである。図１５は、同義語辞書記憶部１４２５に格納された同義語辞書のデータ構造の一例を示す説明図である。

同図に示すように、同義語辞書記憶部１４２５は、単語と、当該単語の同義語とを対応づけて格納している。同図では、例えば、日本語「映画」と、当該日本語の英語による訳語を片仮名で表した日本語「ムービー」とを対応づけた例が示されている。

発話関係判定部１４０３は、第１の実施の形態における発話関係判定部１０３と同様に、直前発話に対して利用者により入力された現発話が、直前発話全体を言い直した音声であるか、または、直前発話の一部を言い直した音声であるかを判断するものである。

それに加えて、発話関係判定部１４０３は、直前発話に対して利用者により入力された現発話が、直前発話の一部を同義語に置き換えて全体を言い直した音声であるかについて判断する点が、第１の実施の形態における発話関係判定部１０３と異なっている。

すなわち、発話関係判定部１４０３は、直前発話と現発話との間に不一致部分が存在する場合であっても、不一致部分における直前発話の認識結果と現発話の認識結果との間に同義語の関係が存在する場合、新規発話ではなく、全体を言い直した音声であると判断する。この場合の全体を言い直した音声を、以下では部分言い換え全体発話という。

なお、直前発話の認識結果と現発話の認識結果との間の関係は同義語の関係に限られるものではなく、任意の言語に翻訳したときに同じ訳語を有する関係（以下、同訳語の関係という。）、または、上位下位概念の関係を判定するように構成してもよい。

例えば、単語「映画」と単語「ムービー」のように英語の訳語として同じ単語「movie」を有する関係が同訳語の関係である。また、例えば、単語「ジェット機」と単語「飛行機」のように単語の表す概念の間に上位/下位関係が成立するような関係が上位下位概念の関係である。この場合は、同義語辞書記憶部１４２５に相当する辞書として、訳語辞書やシソーラス辞書を記憶するように構成する。

次に、このように構成された第２の実施の形態にかかる音声認識装置１４００による音声認識処理について説明する。図１６は、第２の実施の形態における音声認識処理の全体の流れを示すフローチャートである。

ステップＳ１６０１の音声入力受付処理、および、ステップＳ１６０２の音声認識処理は、第１の実施の形態にかかる音声認識装置１００におけるステップＳ６０１およびステップＳ６０２と同様の処理なので、その説明を省略する。

ステップＳ１６０３の発話関係判定処理では、発話関係判定部１４０３は、直前発話と現発話とを比較して、現発話が新規発話、全体修正発話、部分修正発話または部分言い換え全体発話のいずれであるかを判断する発話関係判定処理を実行する。発話関係判定処理の詳細については後述する。

発話関係判定処理の実行後、発話関係判定部１４０３は、現発話が部分言い換え全体発話であると判定されたか否かを判断する（ステップＳ１６０４）。部分言い換え全体発話であると判定された場合は（ステップＳ１６０４：ＹＥＳ）、全体修正部１０４ａは、言い換え部分の単語系列の組に対応する認識候補で直前全体発話のラティスの対応部分を置換し、全体修正処理を実行する（ステップＳ１６０５）。

言い換え部分の単語系列の組は、発話関係判定処理の中で取得される。すなわち、発話関係判定処理で、直前発話の認識結果と現発話の認識結果との間に同義語の関係が存在するため、現発話が部分言い換え全体発話であると判断されたとすると、同義語の関係にある認識結果の組が、言い換え部分の単語系列の組として取得される。

例えば、直前発話の認識候補として、単語「名画」および単語「映画」が生成され、現発話の認識候補として、単語「ムービー」および単語「マービー」が生成されたとする。この場合、直前発話における単語「映画」と現発話における単語「ムービー」との間に同義語の関係が存在するため、現発話が部分言い換え全体発話であると判断される。同時に、単語「映画」および単語「ムービー」の組が、言い換え部分の単語系列の組として取得される。

なお、ステップＳ１６０５における全体修正処理は、直前全体発話のラティスを言い換え部分の単語系列に対応する認識候補で置換する以外は、第１の実施の形態で説明した全体修正処理と同様の処理となるため、その説明を省略する。

ステップＳ１６０６からステップＳ１６１１までの全体修正処理、部分修正処理、認識候補選択処理、認識結果出力処理は、第１の実施の形態におけるステップＳ６０４からステップＳ６０９までと同様の処理なので、その説明を省略する。

次に、ステップＳ１６０３で示した発話関係判定処理の詳細について説明する。図１７は、第２の実施の形態における発話関係判定処理の全体の流れを示すフローチャートである。

ステップＳ１７０１からステップＳ１７０５までの類似部分算出処理、部分修正発話判定処理、全体修正発話判定処理は、第１の実施の形態におけるステップＳ７０１からステップＳ７０５までと同様の処理なので、その説明を省略する。

第２の実施の形態では、不一致部分の割合が予め定められた閾値より大きいと判断された場合に、単純に新規発話であると判定するのではなく、不一致部分における認識結果間の関係を考慮して部分言い換え全体発話であると判定する場合がある点が、第１の実施の形態と異なっている。

すなわち、ステップＳ１７０４で、不一致部分の割合が予め定められた閾値より大きいと判断された場合（ステップＳ１７０４：ＹＥＳ）、発話関係判定部１４０３は、不一致部分における対応する単語系列の組を取得する（ステップＳ１７０６）。

例えば、直前発話の認識候補として、単語「名画」および単語「映画」が生成され、現発話の認識候補として、単語「ムービー」および単語「マービー」が生成され、この部分が不一致部分と判定されたとする。この場合は、対応する単語系列の組として、単語「名画」と単語「ムービー」の組、単語「名画」と単語「マービー」の組、単語「映画」と単語「ムービー」の組、単語「映画」と単語「マービー」の組の４つの組が存在する。ステップＳ１７０６では、発話関係判定部１４０３は、このうちの１つを取得する。

なお、この際に、直前発話で選択された認識候補を含まない組を優先して取得するように構成してもよい。直前発話で選択された認識候補は誤っている可能性が高いため、これを除外して判定処理を行うことにより処理の効率化を実現できるためである。

次に、発話関係判定部１４０３は、取得した組に含まれる単語系列間に所定の関係が存在するか否かを判断する（ステップＳ１７０７）。所定の関係とは、上述のように、同義語の関係、同訳語の関係、上位下位概念の関係などをいう。

所定の関係が存在する場合は（ステップＳ１７０７：ＹＥＳ）、発話関係判定部１４０３は、現発話が部分言い換え全体発話であると判定し（ステップＳ１７０８）、発話関係判定処理を終了する。この際、所定の関係が存在する単語系列の組をＲＡＭ（図示せず）などの記憶部に記憶しておく。ステップＳ１６０５の全体修正処理で参照するためである。

なお、この例では最初に所定の関係を持つと判断された単語系列の組を正解の組として記憶しているが、すべての組について所定の関係が存在するか否かを判定し、所定の関係の確からしさや、単語系列の音響的な類似度などを利用して最適な組を算出するように構成してもよい。

所定の関係が存在しない場合は（ステップＳ１７０７：ＮＯ）、発話関係判定部１４０３は、すべての単語系列の組を処理したか否かを判断し（ステップＳ１７０９）、すべての単語系列の組を処理していない場合は（ステップＳ１７０９：ＮＯ）、次の未処理の単語系列の組を取得して処理を繰り返す（ステップＳ１７０６）。

すべてのノードを処理した場合は（ステップＳ１７０９：ＹＥＳ）、発話関係判定部１４０３は、現発話が新規発話であると判定して（ステップＳ１７１０）、発話関係判定処理を終了する。

次に、上述した手順に従って実行される音声認識処理の具体例について説明する。図１８は、音声認識処理で処理されるデータの一例を示す説明図である。

まず、新規発話として「映画を見たいのですが」を意味する、「E-I-GA-WO-MI-TA-I-NO-DE-SU-GA」と発音される日本語の文が入力され（ステップＳ１６０１）、認識候補生成部１０２が、認識候補として同図の（ａ）に示すようなラティスを出力したとする（ステップＳ１６０２）。

これに対し、認識候補選択部１０５が、スコアが最大となるノードを選択し、選択したノードを連結した日本語「名画生みたいのですが」を認識候補として選択する（ステップＳ１６１０）。選択された認識候補は、出力制御部１０６によりディスプレイ１１２に表示される（ステップＳ１６１１）。

表示された認識候補が誤っているため、利用者が最初の文における単語「映画」の部分を、同義語である単語「ムービー」に置き換えた文であり、「MU-U-BI-I-WO-MI-TA-I-NO-DE-SU-GA」と発音される日本語の文を再度入力したとする（ステップＳ１６０１）。

これに対し、認識候補生成部１０２は、認識候補として同図の（ｂ）に示すようなラティスを出力する（ステップＳ１６０２）。

この場合、発話関係判定部１４０３は、入力位置が４以降の区間が類似部分であり、入力位置が０から３までの区間が不一致部分であると算出する（ステップＳ１７０１）。不一致部分の割合は、約３３％（＝（１２−８）×１００／１２））である。閾値が１５％に定められていたとすると、不一致部分の割合が閾値より大きいため（ステップＳ１７０６：ＹＥＳ）、発話関係判定部１４０３は、不一致部分に対応する単語系列の組を取得する（ステップＳ１７０６）。

例えば、発話関係判定部１４０３は、単語「映画」と単語「マービー」の組を取得したとすると（ステップＳ１７０６）、同義語辞書記憶部１４２５には両者間の同義語関係は格納されていないため、所定の関係が存在しないと判断する（ステップＳ１７０７：ＮＯ）。

次に、単語「映画」と単語「ムービー」の組を取得したとすると（ステップＳ１７０６）、両者間の同義語関係が同義語辞書記憶部１４２５に格納されているため、発話関係判定部１４０３は、両者間に所定の関係が存在すると判断する（ステップＳ１７０７：ＹＥＳ）。従って、発話関係判定部１４０３は、現発話が部分言い換え全体発話であると判定する（ステップＳ１７０８）。

全体修正部１０４ａは、単語「映画」と単語「ムービー」を不一致部分の認識結果とし、直前発話のラティスである同図の（ｂ）のラティスの入力位置が０から３までの区間の認識結果と置換して全体修正処理を実行する（ステップＳ１６０５）。

このように、第２の実施の形態にかかる音声認識装置では、元の音声の認識結果と修正入力された音声の認識結果に不一致部分が存在する場合であって、不一致部分が予め定められた関係にある認識結果が存在する場合に、当該認識結果を認識候補として出力することができる。このため、不一致部分の特定と同時に認識候補を決定することができ、音声認識処理を効率的に行うことが可能となる。

第１および第２の実施の形態は、音声翻訳システムにおける音声入力装置に適用することができる。音声翻訳システムは、カーナビゲーションや家電操作などのコマンド入力系の音声システムとは異なり、入力される発話として様々な内容が想定される。また、入力の形態も名詞句などの断片的な語句ではなく、文や句といったある程度の長さを有することに特徴がある。

なお、音声ディクテータにおける認識結果の編集機能に上述した音声認識処理を適用してもよい。音声ディクテータも音声翻訳システムと同様に長い文書が音声により入力され、音声認識の誤認識の修正が行われるためである。一般に、音声ディクテータはＰＣ（Personal Computer）などのハードウェアで使用され、キーボードやマウスなどの音声入力装置以外の入力装置で音声認識結果の編集が可能である。従って、編集方法の一つとして、音声を再入力することによる音声認識結果の修正機能を適用することができる。

一方、音声翻訳システムは、携帯性が求められ、キーボードやマウスといった周辺機器の利用は想定していない。また、画面も小型であり、人間相手のコミュニケーションに利用するため音声による操作が最適である。

なお、本発明は、上記実施の形態に限定されるものではなく、例えば、パソコンの音声入力インタフェースやカーナビゲーション、家電制御などの入力インタフェースなどにも適用することが可能である。

なお、第１または第２の実施の形態にかかる音声認識装置で実行される音声認識プログラムは、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等に予め組み込まれて提供される。

第１または第２の実施の形態にかかる音声認識装置で実行される音声認識プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（ＣｏｍｐａｃｔＤｉｓｋＲｅｃｏｒｄａｂｌｅ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。

さらに、第１または第２の実施の形態にかかる音声認識装置で実行される音声認識プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、第１または第２の実施の形態にかかる音声認識装置で実行される音声認識プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。

第１または第２の実施の形態にかかる音声認識装置で実行される音声認識プログラムは、上述した各部（入力受付部、認識候補生成部、発話関係判定部、修正部、認識候補選択部、出力制御部）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）が上記ＲＯＭから音声認識プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。

以上のように、本発明にかかる音声認識装置、音声認識方法および音声認識プログラムは、入力された音声を音声認識した結果に応じて動作する音声翻訳システム、カーナビゲーションシステム、家電制御システムなどに適している。

第１の実施の形態にかかる音声認識装置の構成を示すブロック図である。認識候補記憶部に格納された認識候補のデータ構造の一例を示す説明図である。変更差分情報記憶部に格納された修正内容のデータ構造の一例を示す説明図である。優先情報記憶部に格納された優先情報のデータ構造の一例を示す説明図である。抑制情報記憶部に格納された抑制情報のデータ構造の一例を示す説明図である。第１の実施の形態における音声認識処理の全体の流れを示すフローチャートである。第１の実施の形態における発話関係判定処理の全体の流れを示すフローチャートである。第１の実施の形態における全体修正処理の全体の流れを示すフローチャートである。第１の実施の形態における全体修正候補生成処理の全体の流れを示すフローチャートである。第１の実施の形態における部分修正処理の全体の流れを示すフローチャートである。音声認識処理で処理されるデータの一例を示す説明図である。音声認識処理で処理されるデータの別の一例を示す説明図である。音声認識処理で表示される操作画面の一例を示す説明図である。第２の実施の形態にかかる音声認識装置の構成を示すブロック図である。同義語辞書記憶部に格納された同義語辞書のデータ構造の一例を示す説明図である。第２の実施の形態における音声認識処理の全体の流れを示すフローチャートである。第２の実施の形態における発話関係判定処理の全体の流れを示すフローチャートである。音声認識処理で処理されるデータの一例を示す説明図である。

符号の説明

１００音声認識装置
１０１入力受付部
１０２認識候補生成部
１０３発話関係判定部
１０４修正部
１０４ａ全体修正部
１０４ｂ部分修正部
１０５認識候補選択部
１０６出力制御部
１１１マイク
１１２ディスプレイ
１１３スピーカ
１２１認識候補記憶部
１２２変更差分情報記憶部
１２３優先情報記憶部
１２４抑制情報記憶部
２０１ノード
２０２アーク
１２０１、１２０２、１２０３、１２０４ノード
１３０１画面
１３０２確定結果表示領域
１３０３認識結果表示領域
１３０４動作状態
１３０５、１３０７、１３０９、１３１１音声
１３０６、１３０８、１３１０、１３１２日本語
１３１３画面
１４００音声認識装置
１４０３発話関係判定部
１４２５同義語辞書記憶部

Claims

入力された音声発話を認識し、少なくとも１つの認識結果の候補と前記候補の確からしさを示す尤度とを対応づけた認識候補を生成する認識候補生成手段と、
前記認識候補生成手段が生成した前記認識候補を記憶する認識候補記憶手段と、
先に入力された第１の音声発話のうち、前記第１の音声発話の音声情報と後に入力された第２の音声発話の音声情報との類似度が予め定められた閾値より大きい部分である類似部分を検出し、前記類似部分が前記第１の音声発話の全体と一致する場合に前記第２の音声発話は前記第１の音声発話の全体を言い直した音声発話であると判断し、前記類似部分が前記第１の音声発話の一部と一致し、かつ、前記類似部分が前記第２の音声発話の全体と一致する場合に前記第２の音声発話は前記第１の音声発話の一部を言い直した音声発話であると判断し、前記第１の音声発話のうち前記類似部分以外の部分である不一致部分における前記第１の音声発話の前記認識候補と前記第２の音声発話の前記認識候補との間に予め定められた関係が存在する場合に、前記第２の音声発話は前記第１の音声発話の一部を異なる音声発話で置き換えて全体を言い直した音声発話であると判断する発話関係判定手段と、
前記発話関係判定手段が、前記第２の音声発話は前記第１の音声発話の全体を言い直した音声発話であると判断した場合に、前記第２の音声発話に基づいて前記第１の音声発話の全体の前記認識候補を修正して前記認識候補記憶手段に出力し、前記発話関係判定手段が、前記第２の音声発話が前記第１の音声発話の一部を異なる音声発話で置き換えて全体を言い直した音声発話であると判断した場合に、前記第１の音声発話の前記関係が存在する前記認識候補を前記第２の音声発話の前記関係が存在する前記認識候補で置換して前記認識候補記憶手段に出力する全体修正手段と、
前記発話関係判定手段が一部を言い直した音声発話であると判断した場合に、前記第１の音声発話の前記類似部分の前記認識候補を、前記第２の音声発話の前記認識候補で置換して前記認識候補記憶手段に出力する部分修正手段と、
前記認識候補記憶手段に記憶された前記認識候補から、前記尤度に基づいて認識結果を選択する認識候補選択手段と、
を備えたことを特徴とする音声認識装置。
前記全体修正手段は、前記第１の音声発話に対する前記認識候補と前記第２の音声発話に対する前記認識候補とを統合し、前記第１の音声発話に対する前記認識候補と前記第２の音声発話に対する前記認識候補とが同じであるか否かを判断し、同じであるときは、同じである前記認識候補について前記第１の音声発話に対する前記認識候補に対応づけられた前記尤度と、前記第２の音声発話に対する前記認識候補に対応づけられた前記尤度より新たな前記尤度を算出して前記認識候補記憶手段に出力することを特徴とする請求項１に記載の音声認識装置。
前記部分修正手段は、前記第１の音声発話に対する前記認識候補のうち前記類似部分の前記認識候補と前記第２の音声発話に対する前記認識候補とが同じであるか否かを判断し、同じである前記認識候補について前記第１の音声発話に対する前記認識候補に対応づけられた前記尤度と前記第２の音声発話に対する前記認識候補に対応づけられた前記尤度より新たな前記尤度を算出して前記認識候補記憶手段に出力することを特徴とする請求項１に記載の音声認識装置。
前記全体修正手段または前記部分修正手段により修正または置換された前記認識候補を記憶する変更差分情報記憶手段をさらに備え、
前記全体修正手段は、前記第１の音声発話の直前の音声発話に対して修正され前記変更差分情報記憶手段に記憶された前記認識候補と一致する前記認識候補記憶手段の前記認識候補の前記尤度を減少させることを特徴とする請求項３に記載の音声認識装置。
前記全体修正手段または前記部分修正手段により修正または置換された前記認識候補を記憶する変更差分情報記憶手段をさらに備え、
前記部分修正手段は、前記第１の音声発話の直前の音声発話に対して修正され前記変更差分情報記憶手段に記憶された前記認識候補と前記類似部分の前記認識候補とが一致しない場合、前記変更差分情報記憶手段に記憶された前記認識候補と一致する前記認識候補記憶手段の前記認識候補の前記尤度を増加させることを特徴とする請求項４に記載の音声認識装置。
前記全体修正手段または前記部分修正手段により修正または置換された前記認識候補を記憶する変更差分情報記憶手段をさらに備え、
前記部分修正手段は、前記第１の音声発話の直前の音声発話に対して修正され前記変更差分情報記憶手段に記憶された前記認識候補と前記類似部分の前記認識候補とが一致する場合、前記変更差分情報記憶手段に記憶された前記認識候補と一致する前記認識候補記憶手段の前記認識候補の前記尤度を減少させることを特徴とする請求項４に記載の音声認識装置。
前記発話関係判定手段は、前記予め定められた関係として、同義語の関係が存在するか否かを判断する請求項１に記載の音声認識装置。
前記発話関係判定手段は、前記予め定められた関係として、同じ訳語を有する関係が存在するか否かを判断する請求項１に記載の音声認識装置。
前記発話関係判定手段は、前記予め定められた関係として、上位下位概念の関係が存在するか否かを判断する請求項１に記載の音声認識装置。
入力された音声発話を認識し、少なくとも１つの認識結果の候補と前記候補の確からしさを示す尤度とを対応づけた認識候補を生成する認識候補生成ステップと、
先に入力された第１の音声発話のうち、前記第１の音声発話の音声情報と後に入力された第２の音声発話の音声情報との類似度が予め定められた閾値より大きい部分である類似部分を検出し、前記類似部分が前記第１の音声発話の全体と一致する場合に前記第２の音声発話は前記第１の音声発話の全体を言い直した音声発話であると判断し、前記類似部分が前記第１の音声発話の一部と一致し、かつ、前記類似部分が前記第２の音声発話の全体と一致する場合に前記第２の音声発話は前記第１の音声発話の一部を言い直した音声発話であると判断し、前記第１の音声発話のうち前記類似部分以外の部分である不一致部分における前記第１の音声発話の前記認識候補と前記第２の音声発話の前記認識候補との間に予め定められた関係が存在する場合に、前記第２の音声発話は前記第１の音声発話の一部を異なる音声発話で置き換えて全体を言い直した音声発話であると判断する発話関係判定ステップと、
前記発話関係判定ステップが、前記第２の音声発話は前記第１の音声発話の全体を言い直した音声発話であると判断した場合に、前記第２の音声発話に基づいて前記第１の音声発話の全体の前記認識候補を修正して、前記認識候補を記憶する認識候補記憶手段に出力し、前記発話関係判定ステップが、前記第２の音声発話が前記第１の音声発話の一部を異なる音声発話で置き換えて全体を言い直した音声発話であると判断した場合に、前記第１の音声発話の前記関係が存在する前記認識候補を前記第２の音声発話の前記関係が存在する前記認識候補で置換して前記認識候補記憶手段に出力する全体修正ステップと、
前記発話関係判定ステップが一部を言い直した音声発話であると判断した場合に、前記第１の音声発話の前記類似部分の前記認識候補を、前記第２の音声発話の前記認識候補で置換して前記認識候補記憶手段に出力する部分修正ステップと、
前記認識候補記憶手段に記憶された前記認識候補から、前記尤度に基づいて認識結果を選択する認識候補選択ステップと、
を備えたことを特徴とする音声認識方法。
入力された音声発話を認識し、少なくとも１つの認識結果の候補と前記候補の確からしさを示す尤度とを対応づけた認識候補を生成する認識候補生成手順と、
先に入力された第１の音声発話のうち、前記第１の音声発話の音声情報と後に入力された第２の音声発話の音声情報との類似度が予め定められた閾値より大きい部分である類似部分を検出し、前記類似部分が前記第１の音声発話の全体と一致する場合に前記第２の音声発話は前記第１の音声発話の全体を言い直した音声発話であると判断し、前記類似部分が前記第１の音声発話の一部と一致し、かつ、前記類似部分が前記第２の音声発話の全体と一致する場合に前記第２の音声発話は前記第１の音声発話の一部を言い直した音声発話であると判断し、前記第１の音声発話のうち前記類似部分以外の部分である不一致部分における前記第１の音声発話の前記認識候補と前記第２の音声発話の前記認識候補との間に予め定められた関係が存在する場合に、前記第２の音声発話は前記第１の音声発話の一部を異なる音声発話で置き換えて全体を言い直した音声発話であると判断する発話関係判定手順と、
前記発話関係判定手順が、前記第２の音声発話は前記第１の音声発話の全体を言い直した音声発話であると判断した場合に、前記第２の音声発話に基づいて前記第１の音声発話の全体の前記認識候補を修正して、前記認識候補を記憶する認識候補記憶手段に出力し、前記発話関係判定手順が、前記第２の音声発話が前記第１の音声発話の一部を異なる音声発話で置き換えて全体を言い直した音声発話であると判断した場合に、前記第１の音声発話の前記関係が存在する前記認識候補を前記第２の音声発話の前記関係が存在する前記認識候補で置換して前記認識候補記憶手段に出力する全体修正手順と、
前記発話関係判定手順が一部を言い直した音声発話であると判断した場合に、前記第１の音声発話の前記類似部分の前記認識候補を、前記第２の音声発話の前記認識候補で置換して前記認識候補記憶手段に出力する部分修正手順と、
前記認識候補記憶手段に記憶された前記認識候補から、前記尤度に基づいて認識結果を選択する認識候補選択手順と、
をコンピュータに実行させる音声認識プログラム。