JP2007264471A

JP2007264471A - 音声認識装置および音声認識方法

Info

Publication number: JP2007264471A
Application number: JP2006091992A
Authority: JP
Inventors: Hideki Hirakawa; 秀樹平川
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-03-29
Filing date: 2006-03-29
Publication date: 2007-10-11

Abstract

【課題】高精度に発話の修正を実行する音声認識装置を提供する。
【解決手段】音声発話の入力を受付ける音声受付部１０１と、操作入力を行う第１操作部１１２ａおよび第２操作部１１２ｂから、受付けた音声発話に対する音声認識の開始を受付ける操作受付部１０２と、操作受付部１０２が第１操作部１１２ａにより音声認識の開始を受付けた第１の音声発話、または、操作受付部１０２が第２操作部１１２ｂにより音声認識の開始を受付けた第２の音声発話を認識し認識候補を生成する認識候補生成部１０３と、生成した認識候補を記憶する認識情報記憶部１２１と、第２の音声発話が、第１の音声発話を修正した音声発話、または、２の音声発話より前に入力された第２の音声発話を修正した音声発話であるものとして認識情報記憶部１２１に記憶された認識候補を修正する修正部１０４と、を備えた。
【選択図】図２

Description

この発明は、音声認識する音声認識装置および音声認識方法に関するものである。

従来から、入力された音声発話と予め記憶された音声解析情報とをパターン照合することにより、音声情報を文字情報に変換する音声認識技術が開発されている。現状の音声認識技術では、誤認識の発生を完全に排除することはできないため、適切な認識結果を得るための様々な技術が提案され、広く利用されている。

例えば、音声認識装置が複数の認識候補を生成して利用者に提示し、利用者が適切な認識候補を選択することで正しい認識結果を得る手法が広く用いられている。このような手法は、一覧性の高い画面に認識候補を表示できる場合には有効な手法であるが、携帯型端末のように小さい画面では一覧表示が困難になるという課題がある。また、認識のたびに利用者が結果を選択しなければならないので操作が煩雑になるという課題がある。

このような課題を解決するため、音声認識結果が誤っている場合に、認識結果を修正することを目的として再度入力を行うことにより正しい認識結果を得る技術が提案されている。

例えば、特許文献１では、所定期間内に再度音声入力がなされ、その入力音声が前回の認識結果と同じカテゴリに属する場合に、前回の認識結果及びそれと実質的に同一と見なされる認識結果に対応する比較対象パターンを除外して認識結果を決定することにより、再入力のための操作負担を軽減しつつ、誤認識を解消して正しい認識結果を得る技術が提案されている。

また、特許文献２では、修正入力発話が事前の発話のいずれの部分に相当するかを判定する訂正個所判定部により訂正個所を判断し、修正入力発話で事前の発話を置き換えて認識することにより誤認識を解消する技術が提案されている。特許文献２では、修正入力発話が認識結果として想定されている階層の一部と認識された場合に、当該一部のみを比較対象パターン候補とすることにより、認識精度の向上を実現している。

一方、音声認識装置では、認識精度の問題のほかに、利用者が発話を行っている期間を正しく認識する必要があるという課題がある。発話期間の認識を誤ると、利用者が発話していない間の雑音等を音声認識し、誤動作が生じる可能性がある。

音声ディクテーションソフトなどのように音声入力を専門に行うシステムでは、利用者が装着したマイクから入力された発話の開始点と終了点とを認識する手法が一般に用いられる。

これに対し、カーナビゲーションシステムや携帯機器では、マイク装着が困難であることなどの理由から、利用者が音声入力を行う際には、プレストークやプッシュトークと呼ばれる方法が採用されている。これは、トランシーバなどによる通信で採用されている方法であり、ボタン押下などの操作により発話期間を利用者自身が指定する方法である。

特開平１０−３９８９２号公報特開２００２−２８７７９２号公報

しかしながら、特許文献１の方法では、発話期間を適切に指定したとしても、発話が修正発話であるか否かは音声認識の結果により判定するため、音声認識で再度誤認識が発生したときに、修正処理を正常に実行できない場合があるという問題があった。

また、特許文献２では、トークスイッチをクリックした場合に通常の認識処理を実行し、ダブルクリックした場合に修正発話であることを前提として認識処理を実行する技術も提案されているが、通常発話と修正発話とで共通のスイッチを操作するため誤操作が生じやすく、修正処理を正常に実行できない場合があるという問題があった。

本発明は、上記に鑑みてなされたものであって、修正発話を入力して誤認識を解消する方式において、高い操作性を確保しつつ高精度に発話の修正を実行することができる音声認識装置および音声認識方法を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、操作入力を行う第１の操作手段と、前記第１の操作手段と異なる操作手段であって、他の操作入力を行う第２の操作手段と、音声発話の入力を受付ける音声受付手段と、前記第１の操作手段または前記第２の操作手段から、前記音声受付手段が受付けた前記音声発話に対する音声認識の開始を受付ける操作受付手段と、前記操作受付手段が前記第１の操作手段により音声認識の開始を受付けた前記音声発話である第１の音声発話、または、前記操作受付手段が前記第２の操作手段により音声認識の開始を受付けた前記音声発話である第２の音声発話を認識し、認識候補を生成する認識候補生成手段と、生成された前記認識候補を記憶する認識候補記憶手段と、前記第２の音声発話が、前記第１の音声発話を修正した前記音声発話であるか、または、前記第２の音声発話より前に入力された前記第２の音声発話を修正した前記音声発話であるものとして前記認識候補記憶手段に記憶された前記認識候補を修正する修正手段と、を備えたことを特徴とする。

また、本発明は、上記装置を実行することができる音声認識方法である。

本発明によれば、通常発話時の操作手段と異なる操作手段を用いて修正発話の発話期間を指定することにより、修正発話であることを容易かつ明確に指定することができる。このため、高い操作性を確保しつつ高精度に発話の修正を実行できるという効果を奏する。

以下に添付図面を参照して、この発明にかかる音声認識装置および音声認識方法の最良な実施の形態を詳細に説明する。

（本実施の形態）
本実施の形態にかかる音声認識装置は、２つの操作ボタンを備え、一方を通常発話時の発話期間を指定する操作ボタンとし、他方を修正発話時の発話期間を指定する操作ボタンとすることにより、修正発話であることを明確に指定可能とするものである。

図１は、本実施の形態にかかる音声認識装置１００の概要を説明するための説明図である。同図に示すように、音声認識装置１００は、片手で操作できるような携帯型の端末であり、主なハードウェア構成として、マイク１１１と、利用者による押下操作が可能なボタンである第１操作部１１２ａおよび第２操作部１１２ｂと、ディスプレイ１１３と、スピーカ１１４と、を備えている。

マイク１１１は、利用者が発声した音声を入力するものである。ディスプレイ１１３は、認識結果などの情報を表示するものであり、確定結果表示領域１１３ａと認識候補表示領域１１３ｂとの２つの表示領域を含んでいる。スピーカ１１４は、認識結果や翻訳結果の合成音声などを出力するものである。

本実施の形態では、発話期間を指定するために、第１操作部１１２ａと第２操作部１１２ｂとを使用することができる。第１操作部１１２ａは、通常の認識処理を行う発話の期間を指定する場合に操作する。第２操作部１１２ｂは、前に入力した発話を修正するために入力する発話である修正発話の認識処理を行う期間を指定する場合に操作する。

このように、通常の発話と、修正発話とを利用者が明確に区別して指定することができるため、音声処理により修正発話か否かを判定する必要がない。また、修正発話のための専用の操作ボタンを用いるため、操作ミスなどの発生の可能性が低減できる。

図２は、本実施の形態にかかる音声認識装置１００の構成を示すブロック図である。同図に示すように、音声認識装置１００は、主なハードウェア構成として、上述のマイク１１１と、第１操作部１１２ａおよび第２操作部１１２ｂと、ディスプレイ１１３と、スピーカ１１４との他に、認識結果に関する情報を格納する認識情報記憶部１２１を備えている。

また、音声認識装置１００は、主なソフトウェア構成として、音声受付部１０１と、操作受付部１０２と、認識候補生成部１０３と、修正部１０４と、翻訳部１０５と、出力制御部１０６と、制御部１０７とを備えている。

認識情報記憶部１２１は、後述する認識候補生成部１０３が生成した認識候補を記憶するものである。なお、入力された音声に対する認識候補は、音声認識処理を実行するたびに認識情報記憶部１２１に記憶され、過去の認識候補の情報が参照できるようになっている。

認識情報記憶部１２１は、ＨＤＤ（Hard Disk Drive）、光ディスク、メモリカード、ＲＡＭ（Random Access Memory）などの一般的に利用されているあらゆる記憶媒体により構成することができる。

音声受付部１０１は、マイク１１１から入力された音声を電気信号（音声データ）に変換した後、音声データをＡ／Ｄ（アナログデジタル）変換し、ＰＣＭ（パルスコードモジュレーション）形式などによるデジタルデータに変換して出力するものである。これらの処理は、従来から用いられている音声信号のデジタル化処理と同様の方法によって実現することができる。

出力されたデジタルデータは、記憶部（図示せず）に記憶され、後述する認識候補生成部１０３が音声認識処理を実行する際に参照される。

操作受付部１０２は、第１操作部１１２ａと第２操作部１１２ｂの２つのボタンの操作イベント（押下、開放などのイベント）を受付けることにより、音声受付部１０１が受付けた音声のうち、音声認識の対象とする音声の開始位置や終了位置の指定を受付けるものである。具体的には、操作受付部１０２は、第１操作部１１２ａおよび第２操作部１１２ｂが予め定められた時間以上押下されている期間を、音声認識の対象区間として受付ける。これにより、いわゆるプッシュトーク方式の音声認識処理を実行することができる。

なお、ボタンの押下および開放を１つの動作（以下、クリックという。）とすると、クリックごとに対象区間の開始と終了の指定を切り替えるように構成してもよい。すなわち、対象区間の開始が入力されていないときに第１操作部１１２ａまたは第２操作部１１２ｂをクリックすると対象区間の入力を開始し、次に第１操作部１１２ａまたは第２操作部１１２ｂをクリックしたときに、対象区間の入力を終了するように構成してもよい。

認識候補生成部１０３は、音声受付部１０１から出力されたデジタルデータを受取り、音声認識処理を実行してその認識結果の候補である認識候補を生成し、認識情報記憶部１２１に格納するものである。

具体的には、認識候補生成部１０３は、ＦＦＴ（高速フーリエ変換）などの処理による周波数分析などを行って、入力音声の所定区間ごとに、各区間についての音声認識のために必要な特徴情報（例えばスペクトルなど）を時系列に出力する。所定区間とは、例えば、単語などの文字列、アクセント句などの音素列、音素、音節など単位をいう。この処理は、従来の音声分析処理技術により実現することができる。

さらに、認識候補生成部１０３は、特徴情報と、音声認識用辞書（図示せず）格納された音声解析パターンとを照合して類似度を表すスコアを算出し、スコアが付されたラティス形式で認識候補を出力する。照合処理は、隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）、ＤＰ（ダイナミックプログラミング）、ＮＮ（ニューラルネットワーク）などの、一般的に利用されているあらゆる方法を適用することができる。

修正部１０４は、第２操作部１１２ｂの押下中に入力された発話である修正発話が入力された際に、認識情報記憶部１２１に記憶された過去に入力された修正対象となる発話と比較して認識候補を修正して出力するものである。

修正発話には、修正対象となる発話全体を言い直して修正する全体修正入力方式と修正対象の一部の発話を入力する部分修正入力方式の２つが存在する。いずれの方式で修正を実行するかを判断する際には、従来から用いられているあらゆる方法を適用できる。

例えば、２つの発話の音声情報を比較し、両者の類似度が予め定められた閾値より大きい部分である類似部分が直前の発話全体と一致する場合に全体を修正した発話であると判断し、類似部分が直前発話の一部と一致し、かつ、類似部分が最新の発話の全体と一致する場合に、最新の発話は直前の発話の一部を修正した発話であると判断する方法を適用できる。

また、修正部１０４は、修正発話を音声認識した結果である認識候補で、修正対象である過去の発話の認識候補を置き換えることにより、認識候補の修正を行う。なお、修正部１０４は、修正発話で算出された認識候補のスコアだけでなく、修正対象の発話で算出された認識候補のスコアも加算して両者を総合して判断して認識候補を修正するように構成してもよい。これにより、より適切な認識候補を生成することができる。

翻訳部１０５は、認識候補生成部１０３が出力した認識候補または修正部１０４が修正した認識候補の文字列を受け取り、翻訳の目的言語に変換して出力制御部１０６に出力するものである。翻訳部１０５における翻訳処理では、ルールベース翻訳、用例ベース翻訳などの従来から用いられているあらゆる翻訳技術を用いることができる。

出力制御部１０６は、認識候補生成部１０３により生成された認識候補をテキスト形式でディスプレイ１１３に出力するものである。なお、複数の認識候補が生成された場合、出力制御部１０６は、最もスコアの高い認識候補をディスプレイ１１３に出力する。

また、出力制御部１０６は、ディスプレイ１１３に出力された認識候補が、正しい認識結果であるとして確定された場合に、当該認識候補に対応する文を音声合成した合成音をスピーカ１１４に出力する。さらに、出力制御部１０６は、認識候補に対応する原言語による文を対象言語で翻訳し、翻訳文を対象言語で音声合成した合成音をスピーカ１１４に出力する。

なお、音声合成処理は、音声素片編集音声合成、フォルマント音声合成などを用いたテキストトゥスピーチシステムなどの一般的に利用されているあらゆる方法を適用することができる。

制御部１０７は、システム全体の制御を行うものである。具体的には、制御部１０７は、入力処理、認識処理、および翻訳処理の進行状態を管理し、所定の操作が実行された場合は、進行状態を直前の状態に戻す処理や、再度入力処理からやり直す初期化処理などを実行する。なお、処理の進行状態を管理するための情報は、記憶部（図示せず）に記憶される。

また、制御部１０７は、認識候補の中から最もスコアの高い認識候補を選択し出力制御部１０６に出力の指示を与える処理や、利用者が所定の操作により認識候補の確定を指示した場合に当該認識候補の翻訳処理を開始する処理などを制御する。

次に、このように構成された本実施の形態にかかる音声認識装置１００による音声翻訳処理について説明する。なお、音声翻訳処理は、主に音声の入力を受付ける入力処理、入力した音声を音声認識する認識処理、および音声認識結果を翻訳する翻訳処理を含む。図３は、本実施の形態における音声翻訳処理の全体の流れを示すフローチャートである。

まず、音声受付部１０１が、マイク１１１を介して利用者により入力された音声の入力を受付ける（ステップＳ３０１）。次に、操作受付部１０２が、第１操作部１１２ａまたは第２操作部１１２ｂの操作イベントを受付ける（ステップＳ３０２）。本実施の形態では、操作イベントとして、第１操作部１１２ａのプッシュまたはクリックと、第２操作部１１２ｂのプッシュ、クリック、またはダブルクリックを受付ける。なお、プッシュとは、予め定められた時間以上ボタンを押下する操作をいう。また、ダブルクリックとは、クリック操作を予め定められた時間内に２回繰り返す操作をいう。

次に、認識候補生成部１０３が、入力された音声のうち、第１操作部１１２ａまたは第２操作部１１２ｂのプッシュイベント検出中の音声を音声認識し、認識候補を生成して認識情報記憶部１２１に出力する（ステップＳ３０３）。

次に、制御部１０７が、認識した音声が、第２操作部１１２ｂのプッシュイベント検出中に入力された音声か否かを判断する（ステップＳ３０４）。

第２操作部１１２ｂのプッシュイベント検出中に入力された音声である場合は（ステップＳ３０４：ＹＥＳ）、当該音声は、修正発話であると判断できるため、修正部１０４による修正処理が実行される。

修正処理では、修正部１０４が、入力された音声を修正発話として前回の発話の認識候補を修正して認識情報記憶部１２１の認識候補を更新する（ステップＳ３０５）。具体的には、修正部１０４は、修正発話が前回の発話の全体を修正した発話であるか、一部を修正した発話であるかを判断する。

全体を修正した発話であると判断した場合は、修正部１０４は、発話全体の認識候補を修正発話の認識候補に置き換えて認識情報記憶部１２１を更新する。また、一部を修正した発話であると判断した場合は、修正部１０４は、発話の一部の認識候補のみを修正発話の認識候補に置き換えて認識情報記憶部１２１を更新する。

なお、上述のように、修正部１０４が、修正対象の発話の認識候補のスコアと修正発話の認識候補のスコアとを総合して最適な認識候補を選択し、選択した認識候補で認識情報記憶部１２１を更新するように構成してもよい。

ステップＳ３０４で、第２操作部１１２ｂのプッシュイベント検出中に入力された音声でないと判断された場合（ステップＳ３０４：ＮＯ）、すなわち、第１操作部１１２ａのプッシュイベント検出中に入力された音声である場合は、当該音声は修正発話ではないため、ステップＳ３０５の修正処理は実行されない。

次に、制御部１０７が、認識候補が確定されたか否かを判断する（ステップＳ３０６）。例えば、制御部１０７は、操作受付部１０２により第１操作部１１２ａのプッシュイベントまたはクリックイベントが検出された場合に、直前までに入力された音声の認識候補の確定が指定されたものと判断する。認識候補の確定処理については図４の状態遷移図で詳細に説明する。

なお、ステップＳ３０３では、プッシュイベント検出時の処理のみについて説明したが、実際にはプッシュイベント以外の操作イベントも検出され、各操作イベントに応じた処理が実行される。各操作イベントに応じた処理の詳細については後述する。

ステップＳ３０６で認識候補が確定されていないと判断された場合は（ステップＳ３０６：ＮＯ）、音声受付部１０１による音声受付処理に戻る（ステップＳ３０１）。ステップＳ３０６で認識候補が確定されたと判断された場合（ステップＳ３０６：ＹＥＳ）、翻訳部１０５が、確定された認識候補である認識結果に対する翻訳処理を実行する（ステップＳ３０７）。

次に、出力制御部１０６が、翻訳部１０５の翻訳処理で出力された翻訳結果をディスプレイ１１３に出力する（ステップＳ３０８）。なお、出力制御部１０６は、翻訳結果を音声合成してスピーカ１１４に出力するように構成してもよいし、ディスプレイ１１３とスピーカ１１４に同時に出力するように構成してもよい。

次に、本実施の形態における音声翻訳処理の処理状態の遷移について説明する。図４は、本実施の形態における音声翻訳処理の状態遷移の一例を示す説明図である。

音声翻訳処理の処理状態は、制御部１０７によって管理される。同図に示すように、音声翻訳処理には、状態４０１〜状態４０５までの５つの状態が存在する。

状態４０１は、各処理を実行する前の初期状態を表す。状態４０２は、音声認識が実行され、認識候補が出力されたが認識候補が確定されていない状態を表す。状態４０３は、一部の認識候補が確定され、一部の認識候補は確定されていない状態を表す。状態４０４は、すべての認識候補が確定された状態を表す。状態４０５は、確定された認識結果が翻訳されて出力された状態を表す。

各状態を表す矩形の下部に「確定：Ｘ、認識：Ｙ」の形式で記述されている値Ｘおよび値Ｙは、それぞれ、確定結果表示領域１１３ａおよび認識候補表示領域１１３ｂに表示されている認識結果または認識候補の個数を表している。

なお、状態４０５では、音声入力に対する翻訳結果が確定結果表示領域１１３ａに表示されるため、「翻訳：Ｘ、認識：Ｙ」の形式で記述する。この場合、値Ｘは、確定結果表示領域１１３ａに表示されている翻訳結果の個数を表す。また、各状態を表す矩形は、各領域の画面出力を模式的に示している。

例えば、状態４０１は初期状態であり、確定結果表示領域１１３ａおよび認識候補表示領域１１３ｂには何も表示されないことを示している。また、状態４０２は、認識候補表示領域１１３ｂに音声入力に対する認識候補が表示されていること示している。

各状態から出ている矢印には、利用者が行った操作イベントに対応した操作が記号で記述されている。本実施の形態では、以下の（ａ）から（ｅ）の５つの操作が指定される。

（ａ）１Ｐ：第１操作部１１２ａを押下し、音声入力を行い、第１操作部１１２ａを開放する。
（ｂ）１Ｃ：第１操作部１１２ａをクリックする。
（ｃ）２Ｐ：第２操作部１１２ｂを押下し、音声入力を行い、第２操作部１１２ｂを開放する。
（ｄ）２Ｃ：第２操作部１１２ｂをクリックする。
（ｅ）２ＤＣ：第２操作部１１２ｂをダブルクリックする。

操作（ａ）、（ｃ）のＰは、プッシュトーク、操作（ｂ）、（ｄ）のＣは、クリック、操作（ｅ）のＤＣはダブルクリックを表している。なお、以下では、第１操作部１１２ａを「ＯＫボタン」、第２操作部１１２ｂを「ＮＧボタン」と呼ぶこととし、例えば、（ａ）を「ＯＫプッシュトーク」、（ｃ）を「ＮＧクリック」などと記述する場合がある。

利用者の操作を行う前の状態は、常に制御部１０７により記憶部（図示せず）により記憶され、利用者の操作に応じて各操作の取り消しを実行する際に参照される。各状態は、スタック構成で複数個記憶する構成（以下、状態スタックという。）とし、操作の取り消しは、初期の状態に戻るまで何回でもできるように構成する。

上述のように初期状態は状態４０１であり、確定結果表示領域１１３ａ、認識候補表示領域１１３ｂともに空の状態である。この状態では、新規の音声入力のみが可能であり、利用者の新規音声入力操作１Ｐにより、利用者の音声発話が入力され、入力された音声に対して音声認識が実行され、音声認識結果が認識候補表示領域１１３ｂに表示される。

状態４０２が、このときの状態を表す。状態４０１で１Ｐ以外の操作（１Ｃ、２Ｐ、２Ｃ、２ＤＣ）が行われた場合には、適切な操作でない旨の表示や警告音を出して、状態４０１の状態で次の操作を待つ。

状態４０２では、確定結果表示領域１１３ａには何も表示されていないが、認識候補表示領域１１３ｂには利用者により入力された発話に対する音声認識の結果である認識候補が表示されている。状態４０２における各操作に対する制御部１０７の動作は次のようになる。

（１）１Ｐ：制御部１０７は、認識候補表示領域１１３ｂに表示されている認識候補を確定し確定結果表示領域１１３ａに追加する。また、新規入力された利用者発話を認識候補生成部１０３が音声認識し、出力制御部１０６が認識候補を認識候補表示領域１１３ｂに表示する。その後、制御部１０７が状態を状態４０３に移行する。

（２）１Ｃ：制御部１０７は、認識候補表示領域１１３ｂに表示されている認識候補を確定し確定結果表示領域１１３ａに追加表示し、状態４０４に移行する。

（３）２Ｐ：修正部１０４が前回の発話と新規の発話をもとに認識候補に対する修正処理を行い、出力制御部１０６が修正後の認識候補を認識候補表示領域１１３ｂに出力する。この際、状態は変更されず、状態４０２にとどまる。

（４）２Ｃ：制御部１０７は、状態スタックを参照し、記憶された１つ前の状態に戻す。

（５）２ＤＣ：制御部１０７は、状態スタックを参照し、最も近い状態４０１の状態（初期状態）に戻す。

なお、２Ｐの操作に対する処理として、表示されていた認識候補を残したまま修正後の認識候補を出力制御部１０６が追加表示するように構成してもよい。これにより、例えばペン入力等による修正が可能な装置であれば、過去の認識候補を含む複数の認識候補の中から、より適切な認識候補を選択し、ペン入力等による修正を行うことが可能となる。

状態４０３では、確定結果表示領域１１３ａ、認識候補表示領域１１３ｂともに入力発話の認識結果が表示されている。状態４０３における各操作に対する制御部１０７の動作は次のようになる。

（１）１Ｐ：制御部１０７は、認識候補表示領域１１３ｂに表示されている認識候補を確定し確定結果表示領域１１３ａに追加する。また、新規入力された利用者発話を認識候補生成部１０３が音声認識し、出力制御部１０６が認識候補を認識候補表示領域１１３ｂに表示する。この際、状態は変更されず、状態４０３にとどまる。

（３）２Ｐ：修正部１０４が前回の発話と新規の発話をもとに認識候補に対する修正処理を行い、出力制御部１０６が修正後の認識候補を認識候補表示領域１１３ｂに出力する。この際、状態は変更されず、状態４０３にとどまる。

（５）２ＤＣ：制御部１０７は、状態スタックを参照し、最も近い状態４０４または状態４０１の状態に戻す。

状態４０４では、確定結果表示領域１１３ａには入力発話の認識結果が表示されており、認識候補表示領域１１３ｂには何も表示されていない。状態４０４における各操作に対する制御部１０７の動作は次のようになる。

（１）１Ｐ：新規入力された利用者発話を認識候補生成部１０３が音声認識し、出力制御部１０６が認識候補を認識候補表示領域１１３ｂに表示する。その後、制御部１０７が状態を状態４０３に移行する。

（２）１Ｃ：確定結果表示領域１１３ａに表示されている認識結果を翻訳部１０５が翻訳し、出力制御部１０６が翻訳結果を確定結果表示領域１１３ａに表示する。その後、制御部１０７が状態を状態４０５に移行する。

（３）２Ｐ：制御部１０７は、適切な操作でない旨の表示や警告音を出す。この際、状態は変更されず、状態４０４にとどまる。

なお、１Ｃの操作に対する処理で、出力制御部１０６は翻訳結果を確定結果表示領域１１３ａに表示しているが、認識候補を残したまま翻訳結果を追加表示するように構成してもよい。また、出力制御部１０６は、翻訳結果を認識候補とは別表示領域に表示するように構成してもよい。また、出力制御部１０６は、音声合成の技術により翻訳結果を音声合成した音声を出力するように構成してもよい。

状態４０５では、確定結果表示領域１１３ａには発話入力の認識候補に対する翻訳結果が表示されており、認識候補表示領域１１３ｂには何も表示されていない。状態４０５における各操作に対する制御部１０７の動作は次のようになる。

（１）１Ｐ：新規入力された利用者発話を認識候補生成部１０３が音声認識し、出力制御部１０６が認識候補を認識候補表示領域１１３ｂに表示する。その後、制御部１０７が状態を状態４０２に移行する。

（２）１Ｃ：出力制御部１０６が認識候補表示領域１１３ｂの表示をクリアする。その後、制御部１０７が状態を状態４０１に移行する。

（３）２Ｐ：制御部１０７は、適切な操作でない旨の表示や警告音を出す。この際、状態は変更されず、状態４０５にとどまる。

（５）２ＤＣ：出力制御部１０６が認識候補表示領域１１３ｂの表示をクリアする。その後、制御部１０７が状態を状態４０１に移行する。

このように、本実施の形態では、ＯＫボタンとＮＧボタンのように、処理の成功と処理の失敗を示す２種類の操作部に、新規発話（処理がＯＫ）と修正発話（処理がＮＧ）の２種類プッシュトークを割り当てている。また、ＯＫボタンのクリックで認識候補の確定（処理がＯＫ）、ＮＧボタンのクリックで取り消しや初期状態への遷移（処理がＮＧ）を割り当てている。すなわち、成功か失敗かを表す操作の意味ごとに各操作ボタンを割り当てることができる。したがって、最小限のボタンで誤操作の発生が少ないインタフェースを提供することが可能となる。

次に、本実施の形態における音声翻訳処理の具体例および表示画面の例について説明する。図５は、音声翻訳処理における表示画面の画面遷移の一例を示す説明図である。

画面５０１は初期画面であり、表示領域５０２は確定結果表示領域１１３ａ、表示領域５０３は認識候補表示領域１１３ｂを表す。画面の右側には、図４で説明した各処理状態が記述されている。例えば、画面５０１では、処理の状態が状態４０１（初期状態）であることが示されている。また、画面の左側には利用者の操作が記述されている。

利用者の操作により、画面は次の画面に遷移する。なお、既に述べたように状態スタックには過去の各状態が保存されており、任意の操作の操作前の状態に戻ることが可能である。すなわち、操作２Ｃ（ＮＧクリック）により順次１つ前の状態に戻ることができる。

以下では、利用者が「映画を見たいのですがどこへゆけばよいでしょうか」を意味する日本語を入力し、翻訳する場合を例に説明する。

初期状態で、利用者は、まず日本語の音声５０４（「えいがをみたいのですが」）を入力する。この場合、状態４０１における１Ｐ（ＯＫプッシュトーク）入力処理が実行される（ステップＳ３０１、ステップＳ３０２）。

認識候補生成部１０３は、入力された音声５０４を認識し、その結果として、日本語５０５（「名画を見たいのですが」）を認識候補として生成したとする（ステップＳ３０３）。出力制御部１０６は生成された認識候補を画面５０６の認識候補表示領域１１３ｂに表示する。なお、日本語５０５は、認識候補のうち「EIGA」と発音される音声の部分が、誤って「MEIGA」と発音されたものとして認識された点以外は正しく認識されたことを表している。

この時点では、処理の状態は状態４０２となる。この状態で、利用者は各種操作を実行することができるが、誤認識部分を修正するために２Ｐ（ＮＧプッシュトーク）操作で日本語の音声５０７（「えいが」）を入力したと仮定する。

制御部１０７は、２Ｐ操作時の入力であるため、入力された発話が修正発話であることを認識できる（ステップＳ３０４）。このため、修正部１０４が、修正処理を実行する（ステップＳ３０５）。修正処理の結果、正しい認識候補である日本語５０８（「映画を見たいのですが」）が得られたとする。修正結果は出力制御部１０６により、画面５０９のように認識候補表示領域１１３ｂに表示される。

正しい認識候補が得られたため、利用者は１Ｃ操作（ＯＫクリック）である操作５１０を実行する。制御部１０７は、認識候補表示領域１１３ｂに表示されている認識候補を確定する。また、画面５１１に示すように、出力制御部１０６が確定した認識候補を確定結果表示領域１１３ａに表示する。これにより、処理の状態は状態４０４となる。

次に、利用者が意図する発話の残りの部分である日本語の音声５１２（「どこへいけばよいでしょうか」）を新規入力として１Ｐ操作で入力する（ステップＳ３０１、ステップＳ３０２）。

認識候補生成部１０３は、入力された日本語の音声５１２を認識し、その結果として、日本語５１３（「ど声けば胃ですか」）を認識候補として生成したとする（ステップＳ３０３）。出力制御部１０６は生成された認識候補を画面５１４の認識候補表示領域１１３ｂに表示する。なお、日本語５１３は、全体が誤認識されたバースト的な誤りであることを表している。

このため、利用者は、日本語の音声５１２と同様の意味を有する日本語の音声５１５（「どこにいけばよいでしょうか」）を２Ｐ操作で入力する（ステップＳ３０１、ステップＳ３０２）。

制御部１０７は、２Ｐ操作時の入力であるため、入力された発話が修正発話であることを認識できる（ステップＳ３０４）。このため、修正部１０４が、修正処理を実行し（ステップＳ３０５）、修正処理の結果、正しい認識候補である日本語５１６（「どこに行けばよいでしょうか」）が得られたとする。修正結果は出力制御部１０６により、画面５１７のように認識候補表示領域１１３ｂに表示される。

正しい認識候補が得られたため、利用者は１Ｃ操作である操作５１８を実行する。制御部１０７は、認識候補表示領域１１３ｂに表示されている認識候補を確定する。また、画面５１９に示すように、出力制御部１０６が確定した認識候補を確定結果表示領域１１３ａに表示する。この場合は、前の認識候補と現在の認識候補を合わせた日本語５２０（「映画を見たいのですがどこに行けばよいでしょうか」）が画面５１９に表示される。また、処理の状態は状態４０４となる。

次に、翻訳操作を実行するため利用者が１Ｃ操作である操作５２１を実行する。これにより、制御部１０７は認識候補が確定されたと判断し（ステップＳ３０６）、翻訳部１０５による翻訳処理が実行される（ステップＳ３０７）。

翻訳処理により日本語５２０が翻訳され、英語５２２（「I would like to enjoy some movie. Where should I go?」）が翻訳文として得られたとする。英語５２２は、画面５２３に示すように出力制御部１０６により確定結果表示領域１１３ａに表示される。このときの処理の状態は状態４０５となる。

この状態で再度１Ｃ操作である操作５２４が実行されると、画面５２５に示すように初期状態である状態４０１に戻る。

次に、本実施の形態における音声翻訳処理の別の具体例および表示画面の例について説明する。図６は、音声翻訳処理における表示画面の画面遷移の一例を示す説明図である。

同図の画面６０１は、日本語６０２（「映画を見たいのですが」）が確定結果表示領域１１３ａに表示された状態４０４の場合を表しており、図５の画面５１１と同様の状態を示している。

この状態で、利用者が日本語の音声６０３（「どこへいけばよいでしょうか」）を新規入力として１Ｐ操作で入力する（ステップＳ３０１、ステップＳ３０２）。

認識候補生成部１０３は、入力された日本語の音声６０３を認識し、その結果として、日本語６０４（「ど声けば胃ですか」）を認識候補として生成したとする（ステップＳ３０３）。出力制御部１０６は生成された認識候補を画面６０５の認識候補表示領域１１３ｂに表示する。

誤認識されたため、利用者は２Ｐ操作で再度日本語の音声６０６（「どこにいけばよいでしょうか」）を入力する（ステップＳ３０１、ステップＳ３０２）。

制御部１０７は、２Ｐ操作時の入力であるため、入力された発話が修正発話であることを認識できる（ステップＳ３０４）。このため、修正部１０４が、修正処理を実行し（ステップＳ３０５）、修正処理の結果、再度誤った認識候補である日本語６０７（「どこに池よいでしょうか」）が得られたとする。修正結果は出力制御部１０６により、画面６０８のように認識候補表示領域１１３ｂに表示される。

再度誤認識されたため、利用者が最初から入力をやり直すことを考え、２ＤＣ操作である操作６０９を実行したとする。この場合、制御部１０７は、２ＤＣ操作に対応する処理として、処理の状態を最も近い状態４０４または状態４０１の状態に戻す処理を実行する。

この例では、最も近い状態４０４は、画面６０１に示す状態であるため、画面６１０に示すように状態４０４の状態に戻る。この後、例えば、利用者は日本語の音声６１１（「えいがかんはどこにありますか」）を１Ｐ操作で入力することにより、追加入力する発話の入力をやり直すことができる。

２Ｃ操作で画面６０１の状態に戻るには２回の操作が必要だが、２ＤＣ操作であれば、１回の操作で画面６０１の状態に戻ることができる。

以上のように、本実施の形態にかかる音声認識装置１００では、利用者が音声認識の結果を見ながら、修正発話と新規発話を区別して入力することができるため、修正発話か新規発話かの判断を誤ることなく音声認識処理が行うことができる。このため、認識精度、特に修正発話の処理精度の向上を図ることができる。

また、携帯型の音声翻訳装置などのような携帯機器では、利用者に提供する操作ボタンなどを極力少なくすること、および、操作自体が煩雑とならないようにすることが必要となる。本実施の形態の方法によれば、例えば、新規音声入力のプッシュトーク操作ボタンでクリック操作を行った場合には「ＯＫ」の意図を通知する機能を割り当て、修正音声入力のプッシュトーク操作ボタンでクリック操作を行った場合には「ＮＧ」の意図を通知する機能を割り当てることが可能となる。このため、少数のボタンに多くの機能を割り当てるとともに、同類の処理内容を同一のボタンに割り当てることにより、操作誤りが少ないインタフェースを提供することが可能となる。

なお、本実施の形態は、音声翻訳システムにおける音声入力装置に適用することができる。音声翻訳システムは、カーナビゲーションや家電操作などのコマンド入力系の音声システムとは異なり、入力される発話として様々な内容が想定される。また、入力の形態も名詞句などの断片的な語句ではなく、文や句といったある程度の長さを有することに特徴がある。

さらに、音声翻訳システムは、言い換えのための修正入力も複雑になる場合があるため、音声入力が新規音声入力であるか修正のための音声入力であるかの判定は困難度が高く、本実施の形態のように利用者が修正の意図を明確に入力できる場合の効果が大きい。

なお、音声ディクテータにおける認識結果の編集機能に上述した音声認識処理を適用してもよい。音声ディクテータも音声翻訳システムと同様に長い文書が音声により入力され、音声認識の誤認識の修正が行われるためである。一般に、音声ディクテータはＰＣ（Personal Computer）などのハードウェアで使用され、キーボードやマウスなどの音声入力装置以外の入力装置で音声認識結果の編集が可能である。従って、編集方法の一つとして、音声を再入力することによる音声認識結果の修正機能を適用することができる。

一方、音声翻訳システムは、携帯性が求められ、キーボードやマウスといった周辺機器の利用は想定していない。また、画面も小型であり、操作できるボタンやキーの個数も限定されるため、人間相手のコミュニケーションに利用するため音声による操作が最適である。

なお、本発明は、上記実施の形態に限定されるものではなく、例えば、パソコンの音声入力インタフェースやカーナビゲーション、家電制御などの入力インタフェースなどにも適用することが可能である。

以上のように、本発明にかかる音声認識装置および音声認識方法は、入力された音声を音声認識した結果に応じて動作する音声翻訳システム、カーナビゲーションシステム、家電制御システムなどに適している。

本実施の形態にかかる音声認識装置の概要を説明するための説明図である。本実施の形態にかかる音声認識装置の構成を示すブロック図である。本実施の形態における音声翻訳処理の全体の流れを示すフローチャートである。本実施の形態における音声翻訳処理の状態遷移の一例を示す説明図である。音声翻訳処理における表示画面の画面遷移の一例を示す説明図である。音声翻訳処理における表示画面の画面遷移の一例を示す説明図である。

符号の説明

１００音声認識装置
１０１音声受付部
１０２操作受付部
１０３認識候補生成部
１０４修正部
１０５翻訳部
１０６出力制御部
１０７制御部
１１１マイク
１１２ａ第１操作部
１１２ｂ第２操作部
１１３ディスプレイ
１１３ａ確定結果表示領域
１１３ｂ認識候補表示領域
１１４スピーカ
１２１認識情報記憶部
４０１、４０２、４０３、４０４、４０５状態
５０１画面
５０２、５０３表示領域
５０４音声
５０５日本語
５０６画面
５０７音声
５０８日本語
５０９画面
５１０操作
５１１画面
５１２音声
５１３日本語
５１４画面
５１５音声
５１６日本語
５１７画面
５１８操作
５１９画面
５２０日本語
５２１操作
５２２英語
５２３画面
５２４操作
５２５画面
６０１画面
６０２日本語
６０３音声
６０４日本語
６０５画面
６０６音声
６０７日本語
６０８画面
６０９操作
６１０画面
６１１音声

Claims

操作入力を行う第１の操作手段と、
前記第１の操作手段と異なる操作手段であって、他の操作入力を行う第２の操作手段と、
音声発話の入力を受付ける音声受付手段と、
前記第１の操作手段または前記第２の操作手段から、前記音声受付手段が受付けた前記音声発話に対する音声認識の開始を受付ける操作受付手段と、
前記操作受付手段が前記第１の操作手段により音声認識の開始を受付けた前記音声発話である第１の音声発話、または、前記操作受付手段が前記第２の操作手段により音声認識の開始を受付けた前記音声発話である第２の音声発話を認識し、認識候補を生成する認識候補生成手段と、
生成された前記認識候補を記憶する認識候補記憶手段と、
前記第２の音声発話が、前記第１の音声発話を修正した前記音声発話であるか、または、前記第２の音声発話より前に入力された前記第２の音声発話を修正した前記音声発話であるものとして前記認識候補記憶手段に記憶された前記認識候補を修正する修正手段と、
を備えたことを特徴とする音声認識装置。
前記操作受付手段は、前記第１の操作手段または前記第２の操作手段を予め定められた時間以上押下する押下操作中の期間を音声認識の対象区間として受付け、
前記認識候補生成手段は、前記操作受付手段が前記第１の操作手段により受付けた前記対象区間に対応する前記第１の音声発話、または、前記操作受付手段が前記第２の操作手段により受付けた前記対象区間に対応する前記第２の音声発話を認識することを特徴とする請求項１に記載の音声認識装置。
前記操作受付手段は、前記第１の操作手段により受付けた前記対象区間に対応する前記第１の音声発話に対して前記認識候補生成手段が前記認識候補を生成した後、さらに前記第１の操作手段により前記対象区間を受付けた場合に、前記認識候補生成手段が生成した前記認識候補を認識結果として確定する確定指示をさらに受付けることを特徴とする請求項２に記載の音声認識装置。
前記認識候補を認識結果として確定する確定手段をさらに備え、
前記操作受付手段は、前記第１の操作手段の操作であって前記押下操作と異なる第１の操作により、前記認識候補の確定指示をさらに受付け、
前記確定手段は、前記操作受付手段により前記確定指示が受付けられたときに、前記認識候補を認識結果として確定することを特徴とする請求項２に記載の音声認識装置。
前記音声発話の入力処理から認識処理までの処理の進行状態を管理する状態管理手段をさらに備え、
前記操作受付手段は、前記第２の操作手段の操作であって前記押下操作と異なる第１の操作により、前記進行状態を直前の前記進行状態に戻す取消指示をさらに受付け、
前記状態管理手段は、前記操作受付手段により前記取消指示が指定されたときに、前記進行状態を直前の前記進行状態に戻すことを特徴とする請求項２に記載の音声認識装置。
前記操作受付手段は、前記押下操作および前記第１の操作と異なる第２の操作により、入力処理を実行する前の前記進行状態である初期状態に戻す初期化指示をさらに指定し、
前記状態管理手段は、前記操作受付手段により前記初期化指示が受付けられたときに、前記進行状態を前記初期状態に戻すことを特徴とする請求項５に記載の音声認識装置。
前記操作受付手段は、シングルクリック操作を前記第１の操作として受付けることを特徴とする請求項４〜６のいずれか１つに記載の音声認識装置。
前記操作受付手段は、ダブルクリック操作を前記第２の操作として受付けることを特徴とする請求項６に記載の音声認識装置。
前記操作受付手段は、前記第１の操作手段または前記第２の操作手段の押下操作から、次の押下操作までの期間を音声認識の対象区間として受付け、
前記認識候補生成手段は、前記操作受付手段が前記第１の操作手段により受付けた前記対象区間に対応する前記第１の音声発話、または、前記操作受付手段が前記第２の操作手段により受付けた前記対象区間に対応する前記第２の音声発話を認識することを特徴とする請求項１に記載の音声認識装置。
前記認識候補を認識結果として確定する確定手段と、
認識結果を翻訳の対象言語で記述された対訳文に変換して出力する翻訳手段と、をさらに備え、
前記操作受付手段は、前記第１の操作手段の操作であって前記押下操作と異なる第１の操作により、前記認識候補の確定指示をさらに受付け、
前記確定手段は、前記操作受付手段により前記確定指示が受付けられたときに、前記認識候補を認識結果として確定し、
前記翻訳手段は、前記確定手段が確定した認識結果を前記対訳文に変換して出力することを特徴とする請求項２に記載の音声認識装置。
前記音声発話の入力処理から翻訳処理までの処理の進行状態を管理する状態管理手段をさらに備え、
前記操作受付手段は、前記第２の操作手段の操作であって前記押下操作と異なる第１の操作により、前記進行状態を直前の前記進行状態に戻す取消指示をさらに受付け、
前記状態管理手段は、前記操作受付手段により前記取消指示が指定されたときに、前記進行状態を直前の前記進行状態に戻すことを特徴とする請求項１０に記載の音声認識装置。
前記操作受付手段は、シングルクリック操作を前記第１の操作として受付けることを特徴とする請求項１０または１１に記載の音声認識装置。
音声発話の入力を受付ける音声受付ステップと、
操作入力を行う第１の操作手段、または前記第１の操作手段と異なる操作手段であって、他の操作入力を行う第２の操作手段から、前記音声受付ステップが受付けた前記音声発話に対する音声認識の開始を受付ける操作受付ステップと、
前記操作受付ステップが前記第１の操作手段により音声認識の開始を受付けた前記音声発話である第１の音声発話、または、前記操作受付ステップが前記第２の操作手段により音声認識の開始を受付けた前記音声発話である第２の音声発話を認識し、認識候補を生成して記憶手段に記憶する認識候補生成ステップと、
前記第２の音声発話が、前記第１の音声発話を修正した前記音声発話であるか、または、前記第２の音声発話より前に入力された前記第２の音声発話を修正した前記音声発話であるものとして前記記憶手段に記憶された前記認識候補を修正する修正ステップと、
を備えたことを特徴とする音声認識方法。