JP2013114020A

JP2013114020A - 音声処理装置及び音声処理装置の制御方法

Info

Publication number: JP2013114020A
Application number: JP2011259916A
Authority: JP
Inventors: Tsutomu Nonaka; 勉野中
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2011-11-29
Filing date: 2011-11-29
Publication date: 2013-06-10

Abstract

【課題】話者に対して音声認識の可能な期間を正確に明示できる音声処理装置を提供する。
【解決手段】入力された話者の音声を用いる音声処理装置が、中央制御部と、前記中央制御部により制御される音声認識部と、表示部と、前記音声認識部で用いられる選択肢情報と、を含み、前記選択肢情報は、選択肢データと、前記選択肢データに対応した表示タイミングデータと、を有し、前記表示タイミングデータは、前記表示部に対する所定の制御に用いられ、前記所定の制御は、前記音声認識部における音声認識処理の実行が可能である期間を前記話者に明示する制御であることを特徴とする。
【選択図】図１

Description

本発明は、音声認識処理を行う音声処理装置及び音声処理装置の制御方法に関する。

従来、美術館等で用いられる解説や案内の装置や電話における自動応答に用いられる装置などのように、音声を利用する様々な装置が開発され、使用されている。このような音声を利用する処理装置（以降、音声処理装置と呼ぶ）の中には、利用者（話者）の音声を認識し、認識した内容に応じて適切な応答を出力するように開発された音声処理装置が存在する。

しかしながら、音声処理装置の処理のタイミングによっては話者の音声が正しく認識できない場合がある。例えば、音声処理装置が質問を行い話者から回答を得るような場合では、音声処理装置が質問を発声しているときは話者からの回答がないことを前提にして設計がなされている場合がある。この場合、話者が音声処理装置による質問の終了を待たずに回答すると、正しい音声認識がなされないことになる。又、消費電力の削減などを目的として、音声処理装置の設定が、音声認識が必要と判断したときにだけ音声認識処理を行うようになされている場合がある。例えば、自動案内受付などのような場合で、人の存在を察知してから音声認識処理を起動するような場合である。このような場合では、人の存在を察知してから音声認識処理の起動までには所定の時間を要することから、該所定の時間における話者の音声に対する音声認識処理を行うことができないことになる。

しかしながら、話者に対して音声認識処理が可能である状態を示すことができ、話者がこれに対応して音声を発すれば上述した問題は解決する。例えば、特許文献１には、利用者とのスムーズな対話を実現するために、利用者が何時発声して良いか否かを容易に認識することが可能な音声対話システムが提案されている。該音声対話システムは、利用者からの発声を音声対話システムが受け付ける場合には、その受け付け可能の期間の間、副音発生部で一定の音（副音）の信号を生成し、スピーカー等の発音器を用いて利用者に副音を発生する。また、システム発話中以外の所定期間中は、音声対話システムへの発声が可能であることを利用者に提示するために、継続して副音が発声されることが記載されている。また、当該副音は、利用者発声内容認識部における辞書が応答内容用に切り替えられた後で発声の指示がされることが記載されている。また、副音を発生するタイミングは、発話シナリオ若しくはロジック（例えば、利用者の発声内容に応じて、システム発話を選択するツリー状の階層構造のロジック）中に記述しておき、その記述に従う様にしても良いし、対話遂行制御部が予め設定されたタイミングで自動的に行なう様にしても良いことが記載されている。

特開２００３−２４１７９７号公報

一般的に、音声認識部を有するようなシステム（装置）には装置全体を制御するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）が存在する。このような構成の場合には、ＣＰＵは、自身に集められた装置内の情報を基にして装置内部の構成要素に対する制御を行うことになる。このため、集められた装置内の情報と実際の装置内の情報との間に違いがあると、ＣＰＵの行う制御は適切なものでなくなる場合がある。このような情報の違いは、ＣＰＵに間接的に伝達される情報において発生しやすいと考えられる。例えば、音声認識部に入力される音声信号に異常が発生した場合などは、ＣＰＵは直接この情報を知ることができず、音声認識部からのエラー情報やステータス情報が伝達されてから知ることになる。このため、音声認識部に対して音声認識処理の開始を指示してから話者に対して発声を促す指示をしても、実際には音声認識部が正しく動作しない状態があることが想定される。実際に異常な状態になってからＣＰＵが音声認識部の異常を認識するまでには所定の時間差が生じ、この間話者に対して音声認識の処理が出来ないことの明示ができず、話者に対して適切なサービスが出来ない場合が発生することが考えられる。

本発明は、上述した問題若しくは課題の少なくともひとつを解決するためになされたものであり、以下の適用例若しくは実施形態として実現することが可能である。

［適用例１］
本適用例にかかる音声処理装置は、入力された話者の音声を用いる音声処理装置であって、中央制御部と、前記中央制御部により制御される音声認識部と、表示部と、前記音声認識部で用いられる選択肢情報と、を含み、前記選択肢情報は、選択肢データと、前記選択肢データに対応した表示タイミングデータと、を有し、前記表示タイミングデータは、前記表示部に対する所定の制御に用いられ、前記所定の制御は、前記音声認識部における音声認識処理の実行が可能である期間を前記話者に明示する制御であることを特徴とする。

この構成によれば、音声処理装置が、音声認識部、表示部、及び、音声認識部で用いられる選択肢情報を含み、当該選択肢情報に含まれる表示タイミングデータが音声認識処理の実行が可能な期間を話者に明示する制御に用いられることで、音声認識部により表示部に表示するタイミングの制御を行うことができる。これにより、中央制御部における音声認識部のエラー情報若しくはステータス情報と実際の音声認識部における状態との差によって生じる話者に対する不適切な表示をなくすことができる。

ここで、選択肢データとは、発話シナリオなどに設定される音声処理装置からの設問に対して行う話者の返答の選択肢のことである。選択肢データは、質問ごとに異なった内容のものとなり、その長さも異なる。従って、選択肢データに対応して表示タイミングデータを設定することで、個々の設問に対する選択肢データに対して適切な期間の長さの設定なども可能であり、これにより話者との間との適切な間合いの設定なども可能となる。また、所定の制御は、音声認識部が直接行ってもよく、他の部分を介して間接的に行ってもよい。

［適用例２］
上記適用例にかかる音声処理装置において、前記所定の制御は前記中央制御部により行われ、前記表示タイミングデータで規定されるタイミングの指示が、前記音声認識部から前記中央制御部に対して行われることが好ましい。

この構成によれば、上述した所定の制御が中央制御部により行われ、表示タイミングデータで規定されるタイミング指示が音声認識部から中央制御部に対して行われることで、中央制御部に表示部に対する制御をまとめることができる。これより、音声処理装置内の表示部に対する制御をより簡単なものにすることができる。

表示部は、話者が音声処理装置を使用するために必要な情報を表示することができるが、表示される内容は音声認識可能な期間だけというわけではない。しかしながら、音声処理装置を構成するひとつの構成要素に対する制御が他の複数の構成要素から行われる場合は、他のひとつの構成要素から行われる場合に比較して制御が複雑となる。このため、表示部の制御は中央制御部に限定して行うことが好ましいこととなる。従って、表示タイミングデータで規定されるタイミング指示が音声認識部から中央制御部に対して行われることで、表示部に対する制御を中央制御部のみで行うようにすることができ、音声処理装置内部における構成要素間の制御のあり方をより簡易なものとすることができる。

［適用例３］
上記適用例にかかる音声処理装置において、更に、前記話者の音声を入力する音声入力部と、を含み、前記音声入力部は前記音声認識部により制御されることが好ましい。

この構成によれば、音声処理装置が更に音声入力部を含み、音声入力部の制御を音声認識部が行うことにより中央制御部の負荷の低減化を図ることができる。また、音声認識部が音声入力部の制御を行うことで、音声認識部の動作状況の把握が可能となり、音声認識が可能である期間の中央制御部に対する指示を確実なものとすることができる。

［適用例４］
本適用例にかかる音声処理装置の制御方法は、前記音声処理装置が、中央制御部と、前記中央制御部により制御される音声認識部と、表示部と、前記音声認識部で用いられる選択肢情報と、を含み、前記選択肢情報は、選択肢データと、前記選択肢データに対応した表示タイミングデータと、を有し、前記表示タイミングデータを用いた表示制御により、前記音声認識部における音声認識処理の実行が可能である期間の明示を前記表示部に行うことを特徴とする。

この方法によれば、音声認識部により表示部に表示するタイミングの制御を行うことができる。これにより、中央制御部における音声認識部のエラー情報若しくはステータス情報と実際の音声認識部における状態との差によって生じる話者に対する不適切な表示をなくすことができる。

［適用例５］
上記適用例にかかる音声処理装置の制御方法において、前記表示制御は前記中央制御部により行われ、前記表示タイミングデータで規定されるタイミングの指示が前記音声認識部から前記中央制御部に対して行われることが好ましい。

この方法によれば、表示制御が中央制御部により行われ、表示タイミングデータで規定されるタイミング指示が音声認識部から中央制御部に対して行われることで、中央制御部に表示部に対する制御をまとめることができる。これより、音声処理装置内の表示部に対する制御をより簡単なものにすることができる。

［適用例６］
上記適用例にかかる音声処理装置の制御方法において、前記音声処理装置が、更に、話者の音声を入力する音声入力部と、を含み、前記音声入力部は前記音声認識部により制御されることが好ましい。

この方法によれば、音声処理装置が更に音声入力部を含み、音声入力部の制御を音声認識部が行うことにより中央制御部の負荷の低減化を図ることができる。また、音声認識部が音声入力部の制御を行うことで、音声認識部の動作状況の把握が可能となり、音声認識が可能である期間の中央制御部に対する指示を確実なものとすることができる。

音声処理装置の概略ブロック図。選択肢情報の模式図。中央制御部における処理のフローチャート。音声認識部における処理のフローチャート。状態遷移モデルの模式図。選択肢情報の模式図。画面領域分割の例。実行情報の内容イメージと画面表示の例。

以下、図を用いて本発明の実施形態について説明する。尚、説明に用いる図は説明に必要な部分のみを記載した便宜上のものである。また、説明の記載においても、処理の内容がイメージし易いように、機能的な表現を用いて記載をする場合がある。また、数字の後にｈが記載されている場合は、その数字は１６進数を示すものとする。

（第１実施形態）
図１に、本発明にかかる音声処理装置１００のブロック図を示す。音声処理装置１００は、話者に対して情報や質問などを提示して、これに対する話者の返答などの音声を認識して処理を行うことで、話者に対するサービスを行う装置である。

音声処理装置１００は、中央制御部１１０、音声認識部１２０、表示部１３０、記憶部１４０及び音声合成部１６０を有する。中央制御部１１０、音声認識部１２０及び記憶部１４０は第１バス１１１により接続されている。また、中央制御部１１０と音声認識部１２０との間は第１制御信号１１２が接続されている。表示部１３０は、第２制御信号１１３を介して中央制御部１１０に接続されている。音声合成部１６０は、第３制御信号１１４を介して中央制御部１１０に接続されている。また、マイク１８１は、変換回路１５０を介して音声認識部１２０に接続されている。また、スピーカー１８２は、変換回路１７０を介して音声合成部１６０に接続されている。第１制御信号１１２、第２制御信号１１３及び第３制御信号１１４には、それぞれの接続先に必要な複数の制御信号、データ信号及び割り込み信号などが含まれる。

中央制御部１１０は、音声処理装置１００内の制御を行う部分である。音声認識部１２０、音声合成部１６０及び表示部１３０は中央制御部１１０の周辺装置という位置付けになる。また、音声認識部１２０や音声合成部１６０などからの割込み要求に対する処理も中央制御部１１０により行われる。

音声認識部１２０は、話者の話した言葉（音声）を認識（音声認識）するための部分である。話者の音声は、マイク１８１により取り込まれ、変換回路１５０により適切な信号に変換されて音声認識部１２０に入力される。音声認識処理の開始指示は、中央制御部１１０から音声認識部１２０に対して行われ、音声認識処理の終了通知は音声認識部１２０から中央制御部１１０に対する割込み要求により行われる。音声認識処理に必要な情報は記憶部１４０に記憶されており、中央制御部１１０により第１バス１１１を介して伝達されるが、音声認識部１２０自身も第１バス１１１を介して記憶部１４０から読み出すことが可能である。

音声合成部１６０は、予め用意されたテキストデータなどを音声に合成（音声合成）する部分である。当該テキストデータは記憶部１４０に記憶され、中央制御部１１０からの音声合成開始の指示と共に音声合成部１６０に対して伝達される。音声合成処理の終了通知は、音声合成部１６０から中央制御部１１０に対する割込み要求により行われる。音声合成部１６０により音声合成された信号は変換回路１７０を介してスピーカー１８２により話者に伝達される。

表示部１３０は、第２制御信号１１３を介して中央制御部１１０により制御される。表示部１３０内には表示メモリー１３２が存在し、表示部１３０は表示メモリー１３２に保存された表示データの内容を解釈して、その結果を表示画面１３１に表示する。表示データは中央制御部１１０により第２制御信号１１３を介して表示メモリー１３２に書き込まれる。表示画面１３１は、液晶ディスプレイなどで構成されてよい。表示画面１３１には、話者に対する情報の表示や、音声処理装置１００の操作及び制御に必要な情報の表示も行われる。話者に対する情報には、例えば、話者に対する質問の内容や該質問に対する回答の選択肢などが含まれる。

記憶部１４０には、上述した音声認識処理に必要な情報及び音声合成処理に用いるテキストデータや、音声処理装置１００の制御に必要な制御プログラムなどが保存される。音声認識処理に必要な情報のひとつに、後述する選択肢情報１４１がある。選択肢情報１４１は、選択肢データ１４２と及び表示タイミングデータ１４３から構成される。選択肢情報１４１は、第１バス１１１を介して中央制御部１１０及び音声認識部１２０の双方から読み出されることが可能である。

選択肢情報１４１の形式を図２に示す。選択肢情報１４１に含まれる選択肢データ１４２は質問に対して話者が選択する回答に該当するものであり、中央制御部１１０により選択肢データ１４２で示される情報を表示画面１３１に表示させ、話者に明示することが可能である。また、選択肢データ１４２は音声認識部１２０においては、音声認識処理の中で検出すべき単語を記載した情報としても使用される。

表示タイミングデータ１４３は、音声認識処理を行う期間などに関わる制御を行うためのデータである。表示タイミングデータ１４３は、音声認識部１２０で用いられ、音声認識部１２０内部の状態に応じて、必要なタイミングに関する指示を中央制御部１１０に対して行う。中央制御部１１０は、当該必要なタイミングに関する指示を受けて音声処理装置１００内部で必要な処理を実行する。当該必要なタイミングに関する指示は、割込み要求で行われることでよい。

話者に対して情報や質問などを提示し、これに対する話者の返答などの音声を認識して処理を行うサービスは、一連の対話を想定して作られたシナリオに従って処理が行われる。当該シナリオは、例えば、所定の質問と当該所定の質問に対する回答による分岐先との繋がりを記載した状態遷移モデルと考えることができる。分岐先には別な質問が用意されており、質問、回答が繰り返され状態遷移モデルにおける状態が遷移することで、予め用意された結論のひとつに導かれる。選択肢情報１４１は、状態遷移モデルを記述するための構成要素のひとつと考えてよい。

尚、図１に示した音声処理装置１００には、話者が指示をするための操作入力装置（キーボード、マウス、ジョイステックなど）を図示していないが、図示がなくともこれら操作入力装置若しくは操作入力装置と同等の機能を有するものを有することとする。たとえば、音声認識部１２０が操作入力装置として機能するように設定され、音声により操作が行えるようになっていてもよい。

続いて、フローチャートを用いて音声処理装置１００における処理について説明する。

音声処理装置１００におけるメイン処理のフローチャート１０を図３−（ａ）に示す。フローチャート１０は中央制御部１１０で実行される処理である。

音声処理装置１００の電源がオンにされると、まず初期設定が行われる（Ｓ１０１）。初期設定は、ハードウェア的に設定されたパワーオンリセットと、その後に実行される初期設定プログラムによる設定の両方が含まれる。初期設定がなされることにより、上述した操作入力装置による操作が可能となると共に、話者の操作に必要な情報が表示画面１３１に表示される。

次に、話者により音声処理装置１００の動作モードの設定が行われる（Ｓ１０２）。実行するシナリオの選択などが動作モードの設定に含まれる。次に、選択されたシナリオの実行開始が指示され（Ｓ１０３）され、シナリオ処理が実行される（Ｓ１０４）。シナリオ処理が終了すると、音声処理装置１００における処理を終了するかどうかの確認が行われ（Ｓ１０５）、処理を続ける場合には動作モード設定の処理（Ｓ１０２）に戻り、処理を続けない場合は終了する。

ここで、シナリオについて説明する。シナリオを図式化したものとして、状態遷移モデル３００を図５に示す。○を用いて表しているのはひとつひとつの状態であり、それぞれをノードと呼ぶことにする。図中の→はノード間の状態の遷移の方向を示す。状態遷移の起点となるノードを開始ノードと呼び、状態遷移の終点となるノードを終了ノードと呼ぶことにする。また、開始ノード及び終了ノード以外のノードを実行ノードと呼ぶことにする。状態遷移モデル３００は記憶部１４０に記憶されており、状態遷移が起こるたびに（実行されるノードが変わるたびに）、ノードの実行に必要な情報が中央制御部１１０に読み出され、当該読み出された情報が中央制御部１１０から音声認識部１２０に設定される。

次に、シナリオ処理（Ｓ１０４）について説明する。シナリオ処理のフローチャート２０を図３−（ｂ）に示す。

まず、中央制御部１１０は、選択されたシナリオの情報を記憶部１４０から読み出し（Ｓ２０１）、実行を開始する（Ｓ２０２）。具体的には、状態遷移モデル３００における開始ノードＫ００の情報を読み出し、シナリオの処理が開始される。開始ノードＫ００には、シナリオの実行を開始するに当たって、話者に必要な情報などが記載されており、所定の形式で表示画面１３１に表示されると共に、スピーカー１８２から案内情報が流される。その後、次に実行する実行ノードＮ０１の情報を読み出し、次の処理（Ｓ２０３）に進む。

中央制御部１１０は、読み出された情報の解析を行う（Ｓ２０３）。解析の後、中央制御部１１０は、話者に対して必要な情報を明示する。

処理Ｓ２０３における解析の結果、音声合成を行う必要がある場合は、音声合成処理（Ｓ２０５）に進み、音声合成を行う必要がない場合は音声認識を行うかどうかの判断（Ｓ２０６）に進む（Ｓ２０４）。

音声合成処理（Ｓ２０５）の処理は、次のようなものである。まず、中央制御部１１０は、音声合成処理の指示と共に音声合成用データを、第３制御信号１１４を介して音声合成部１６０に通知する。次に、中央制御部１１０は、音声合成部１６０から割込み要求をイネーブルとし、音声合成部１６０からの音声合成処理の終了割込みの発生を待つ。その後、音声合成部１６０からの終了割込みが発生し、エラーの発生がないことを確認することで音声合成処理の終了を判断する。

処理Ｓ２０３における解析の結果、音声認識を行う必要がある場合は、音声認識処理（Ｓ２０７）に進み、音声認識を行う必要がない場合はシーン情報更新の処理（Ｓ２０８）に進む（Ｓ２０６）。ここで、シーン情報更新とは、次に実行するノードの情報を記憶部１４０から読み出すことである。

音声認識処理（Ｓ２０７）は、ノード（実行ノード若しくは終了ノード）の情報の解析の結果、音声認識を行う必要がある場合に実行される処理である。音声認識処理（Ｓ２０７）の説明は後述する。音声認識処理（Ｓ２０７）が終了するか、音声認識の処理を行う必要がない場合は、シーン情報更新の処理（Ｓ２０８）が実行され、次に実行すべきノードがない場合にはシナリオ処理を終了する（Ｓ２０９）。

音声認識部１２０における音声認識の処理は、音声認識開始の指示及び選択肢情報１４１が、第１制御信号１１２並びに第１バス１１１を介して中央制御部１１０から音声認識部１２０に伝達されることで開始される。音声認識処理（Ｓ２０７）における処理を示すフローチャートを図４に示す。図４−（ａ）に音声認識部１２０における音声認識処理（Ｓ２０７）におけるメインのフローチャート３０を、図４−（ｂ）にフローチャート３０実行中におけるタイマー割込みのフローチャート４０を示す。

音声認識部１２０における音声認識の処理は、中央制御部１１０から音声認識の処理開始の指示と選択肢情報１４１とを伝達されて開始される。まず、選択肢情報１４１に含まれる表示タイミングデータで示される条件を確認する（Ｓ３０１）。これにより、音声認識部１２０は、指示された音声認識の処理の間に中央制御部１１０に対して指示しなくてはいけない表示タイミング制御のタイミング条件の確認をすることができる。

次に、音声信号の入力をイネーブルにする（Ｓ３０２）。これにより、マイク１８１を用いての話者の音声の取り込みが許可される。

次に、表示タイミング制御に用いる計測タイマーの起動を行う（Ｓ３０３）。計測タイマーは、音声認識部１２０内に専用に設けられていることでよい。また、専用に設けられたものでなくて、汎用のタイマーを流用することでも構わない。処理Ｓ３０１の中で確認された条件に見合った数のタイマーの起動が行われる。

次にマイク１８１からの音声信号の入力経路に異常が発生していないかどうかの確認が行われる（Ｓ３０４）。異常の発生の確認は、音声認識部１２０内にエラーレジスターを設け、当該エラーレジスターの確認を行うことでもよく、所定のレジスターにおける値を読み出しチェックを行うことで実施してもよい。尚、変換回路１５０のステータスを音声認識部１２０において確認できるように回路を設定しておくことにより、変換回路１５０の状態を含めた入力経路の状態の確認を行うことができる。

処理Ｓ３０４の結果、音声認識部１２０の状態に問題がない場合は計測タイマーの割込み処理のためにタイマー割込みをイネーブルとし（Ｓ３０６）、問題がある場合はエラー処理（Ｓ３０９）に進む（Ｓ３０５）。音声認識部１２０は、エラー処理（Ｓ３０９）において中央制御部１１０にエラー割込みを発生させ、その後音声入力をディスイネーブルとする（Ｓ３１０）。

タイマー割込みをイネーブルとした（Ｓ３０６）後、マイク１８１及び変換回路１５０を介して入力された音声信号に対する認識処理を実行する（Ｓ３０７）。尚、本実施形態においては、音声信号に対する認識処理の具体的に方法については言及しないことにする。

音声信号に対する認識処理（Ｓ３０７）が終了した後、タイマー割込みをディスイネーブルとし（Ｓ３０８）、続いて音声入力をディスイネーブルとし（Ｓ３１０）、中央制御部１１０に対して音声認識の処理の終了通知のための割込みを発生させ（Ｓ３１１）、音声認識処理が終了する。上述したように、中央制御部１１０は、音声認識処理（Ｓ２０７）が終了すると、シーン情報更新の処理（Ｓ２０８）に進むことになる。尚、音声認識部１２０から中央制御部１１０対するエラー割込みを行わず、エラー処理（Ｓ３０９）における処理を音声認識部１２０内のエラーステータスを整える処理とし、中央制御部１１０における終了通知の割込み処理の中で該エラーステータスのチェックを行うようにしても構わない。

音声信号の認識処理（Ｓ３０７）の実行中は音声認識部１２０におけるタイマー割込みが有効となっている。タイマー割込みの条件の設定は、表示タイミングデータ条件確認の処理（Ｓ３０１）において行うことが可能である。

タイマー割込み処理のフローチャート４０を図４−（ｂ）に示す。タイマー割込みが発生すると、音声認識部１２０は、表示タイミングデータによる条件が成立しているかどうかを判断する（Ｓ４０１）。成立していない場合にはタイマー割込み処理を終了する。また、成立している場合は、表示タイミングデータで規定される指示を中央制御部１１０に対して行い（Ｓ４０２）、タイマー割込み処理を終了する。

表示タイミングデータによる条件は、音声認識部１２０における内部状態を加味して設定することができる。これにより、話者に明示するタイミングを音声認識部１２０の内部状態が反映されたものとすることができる。中央制御部１１０が音声認識部１２０の内部状態をすべて把握するには、音声認識部１２０内部の所定のレジスターの内容を読出し確認するなど、中央制御部１１０におけるそれなりの処理が要求される。しかしながら、本発明を適用することにより、中央制御部１１０の負荷の増加の低減化を図りながら、音声認識部１２０の内部状態を反映させたタイミング指示を話者に対して行うことができる。

本実施例の説明において、図５に示した状態遷移モデル３００を用いる。状態遷移モデル３００は、開始ノードＫ００により話者との対話が開始され、いくつかの実行ノードＮｋ（ｋは整数）に定義された内容（以降、実行情報と呼ぶ）が実行され、複数の終了ノード（終了ノードＥ０１、終了ノードＥ０２、終了ノードＥ０３及び終了ノードＥ０４）のいずれかに至ることで、話者と音声処理装置１００との対話が終了する。例えば、開始ノードＫ００から、実行ノードＮ０１、Ｎ２３、Ｎ３６及びＮ４７を経て終了ノードＥ０４に至る状態遷移が存在する。

ここで、実行ノードＮ１１における処理について具体的に設定し、その説明を行う。

実行ノードＮ１１を、話者の旅行先の希望を尋ねる過程の最初の対話状態であるとし、まず外国旅行か国内旅行かを尋ねるものとする。この対話は、実行ノードＮ１１の状態を記載した実行情報が処理されることで行われる。実行ノードＮ１１の実行情報４００を図６−（ａ）に示す。実行情報４００は、条件設定情報４０１と選択肢情報４０２とから構成される。条件設定情報４０１には、話者に対して提供する情報や質問などが記載される。選択肢情報４０２は、上述した選択肢情報１４１と同様のものであり、図６−（ｂ）に示すように、選択肢データ５０１と表示タイミングデータ５０２とから構成される。選択肢データ５０１には、選択肢ＳＤ００、ＳＤ０１、・・・、ＳＤｎ（ｎは整数）が含まれる。また、表示タイミングデータ５０２には、タイミング制御データＤＴ００、ＤＴ０１、・・・、ＤＴｍ（ｍは整数）が含まれる。

条件設定情報４０１を図８−（ａ）に示す。条件設定情報４０１は、第１領域２３１に関する表示制御コードを保持するＲ０１フィールド、第２領域２３２に関する表示制御コードを保持するＲ０２フィールド及び第３領域２３３に関する表示制御コードを保持するＲ０３フィールドを有する。ここで、第１領域２３１、第２領域２３２及び第３領域２３３は、表示画面１３１における表示領域のことであり、それぞれの表示領域を図７に示す。表示画面１３１は、第１領域２３１、第２領域２３２及び第３領域２３３に分割され管理されている。

また、上述した表示制御コードには表示されるデータの記載が含まれる。例えば、Ｒ０１フィールドには、第１領域２３１に「旅行するなら」と表示することが可能なデータが記載されている。また、Ｒ０２フィールドには選択肢データ５０１の内容を表示することを指示するコードが記載されている。また、Ｒ０３フィールドには「どっち？」と表示することが可能なデータが記載されている。このように、条件設定情報を図８−（ａ）のようにすることにより、質問内容をＲ０１フィールド及びＲ０３フィールドに表示すると共に、選択肢データ５０１をＲ０２フィールドに表示することが可能となる。

実行ノードＮ１１における選択肢情報４０２を図８−（ｂ）に示す。選択肢データとしては、ＳＤ００として「外国」と表示することが可能なコードが記載されて、ＳＤ０１として「国内」と表示することが可能なコードが記載されている。尚、本実施形態における選択肢は２つであるが、選択肢データの数は、それ自体に論理的な制限の必要はなく、表示画面の大きさや表示する文字のサイズなどの物理的な制限により規定されるものとなる。

また、タイミング制御データは、第１フィールドと第２フィールドとを有する。

第１フィールドは、第１領域２３１、第２領域２３２及び第３領域２３３の表示制御を行うために用いられる各々４ビットの制御コードと、表示画面全体の制御を行うための制御コードが４ビットとの、合わせて１６ビットの制御コードから構成される。

第１フィールドにおける制御コードの記載は、ＭＳＢ（ＭｏｓｔＳｉｇｎｉｆｉｃａｎｔＢｉｔ）側から、第１領域２３１の制御コード、第２領域２３２の制御コード、第３領域２３３の制御コード及び表示画面全体の制御コードの順である。特に制御を行わない標準表示の状態を含めて、各々の表示領域に対して１６種類の制御を行うことが可能となる。尚、この制御コードの解釈は中央制御部１１０側で実行される音声認識部１２０の制御ドライバー内で行われ、その解釈の結果が中央制御部１１０の行う表示部１３０に対する制御に反映される。ここで、制御コードが“０ｈ”であるときは標準表示（初期設定による表示でよい）を指示するものとし、制御コードが“１ｈ”が拡大表示を指示するものとする。

第２フィールドの制御コードは、次の表示タイミングデータが実行されるまでのインターバルを示すコードである。具体的には音声認識部１２０内に設けられた計測タイマーにおけるカウント値を示すものである。該計測タイマーは、音声認識部１２０における音声認識が可能となったときにカウントが開始される（フローチャート３０、処理Ｓ３０３）。また、第２フィールドの値が“ＦＦＦＦｈ”である場合は、当該タイミング制御データが最後のタイミング制御データであることを示している。第２フィールドに所定の値を設定しておくことで、所定の値に相当する期間の長さの分、次のタイミング制御データの実行を遅らせることが可能となる。

実行ノードＮ１１の実行情報の解釈が行われる（フローチャート２０、処理Ｓ２０３）と、表示画面１３１の表示は図８−（ｃ）に示すようになる。第２領域２３２に選択肢データが表示されているが、表示される選択肢データは中央制御部１１０により、例えば、操作ボタンをイメージするような形で表示される。表示画面１３１に図８−（ｃ）の表示がなされている状態で、音声認識処理（フローチャート２０、処理Ｓ２０７）が実行され、中央制御部１１０から音声認識部１２０に対して、音声認識処理の開始指示と選択肢情報データ（図８−（ｂ））とが伝達される。

ここで、タイミング制御データＤＴ００の第２フィールドに設定されている“０５００ｈ”は、音声認識部１２０内で、音声入力イネーブル（フローチャート３０、処理Ｓ３０２）が行われてから、変換回路１５０による信号処理回路が安定的に動作するようになるまでに要する期間を保障するためのものである。このようにすることで、例えば、次のタイミング制御データの実行が行われる前に、信号処理回路に用いられている発振器による発振周波数が安定するまでに要する時間の経過を確実に行うことができる。従って、次のタイミング制御データにより表示画面１３１の表示に変化を与えることで、音声認識を確実に行える状態を話者に対して明示することが可能となる。

音声認識部１２０において音声認識の処理が開始され、タイマー割込みがイネーブルにされ（フローチャート３０、処理Ｓ３０６）、音声信号の認識処理（フローチャート３０、処理Ｓ３０７）の処理に入ったとする。この状態で、計測タイマーによる割込みが発生すると、音声認識部１２０において、タイミング制御データＤＴ００の第２フィールドに設定されたカウント値が経過しているかどうかの判断が行われ、経過している場合には次のタイミング制御データＤＴ０１に記載された内容の実行指示が、音声認識部１２０から中央制御部１１０に対して行われる。

上述したように、タイミング制御データＤＴ０１の第１フィールドにある制御コードは、第１領域２３１及び第３領域２３３に表示されているものを拡大表示することを示している。中央制御部１１０は、音声認識部１２０から指示をうけると、表示メモリー１３２の内容を指示に従った形に変更する。これにより、表示画面１３１における表示は図８−（ｄ）に示したようになる。タイミング制御データＤＴ０１が最後のタイミング制御データであることから、次の実行ノードに処理が移るまでは、図８−（ｄ）の表示が継続することになる。

タイミング制御データＤＴ００の第２フィールドに設定された値は、音声認識の処理を確実に行えるようになるまでの期間を保障するためのものである。従って、話者は表示画面１３１が図８−（ｄ）の表示になってから音声で回答すれば、より正確な音声認識処理がなされることになる。

また、他の実行ノードにおいても、音声認識の処理が確実に行えるようになってから一部の表示を拡大するようにすることで、話者は表示画面１３１の任意の場所の表示が拡大されてから返答すればよいと認識することができ、話者にとって、音声処理装置１００との間のコミュニケーションの間合いが取り易くなるという効果もある。

以上、本発明の適用例並びに実施形態の説明を行ったが、本発明を適用することにより、音声処理装置全体の制御を行う処理部分の負荷の増加の低減化を図りながら、音声認識部の内部状態を反映させたタイミング指示を話者に対して行うことができる。尚、本発明の適用は、上述した適用例並びに実施形態に限られたものではなく、本発明の趣旨を逸脱しない範囲において、広く適用が可能である。

１０…フローチャート、２０…フローチャート、３０…フローチャート、４０…フローチャート、１００…音声処理装置、１１０…中央制御部、１１１…第１バス、１１２…第１制御信号、１１３…第２制御信号、１１４…第３制御信号、１２０…音声認識部、１３０…表示部、１３１…表示画面、１３２…表示メモリー、１４０…記憶部、１４１…選択肢情報、１４２…選択肢データ、１４３…表示タイミングデータ、１５０…変換回路、１６０…音声合成部、１７０…変換回路、１８１…マイク、１８２…スピーカー、２３１…第１領域、２３２…第２領域、２３３…第３領域、３００…状態遷移モデル、４００…実行情報、４０１…条件設定情報、４０２…選択肢情報、５０１…選択肢データ、５０２…表示タイミングデータ。

Claims

入力された話者の音声を用いる音声処理装置であって、
中央制御部と、
前記中央制御部により制御される音声認識部と、
表示部と、
前記音声認識部で用いられる選択肢情報と、
を含み、
前記選択肢情報は、選択肢データと、前記選択肢データに対応した表示タイミングデータと、を有し、
前記表示タイミングデータは、前記表示部に対する所定の制御に用いられ、
前記所定の制御は、前記音声認識部における音声認識処理の実行が可能である期間を前記話者に明示する制御であることを特徴とする音声処理装置。
前記所定の制御は前記中央制御部により行われ、前記表示タイミングデータで規定されるタイミングの指示が前記音声認識部から前記中央制御部に対して行われることを特徴とする請求項１に記載の音声処理装置。
更に、前記話者の音声を入力する音声入力部と、を含み、
前記音声入力部は前記音声認識部により制御されることを特徴とする請求項１又は２に記載の音声処理装置。
音声処理装置の制御方法であって、
前記音声処理装置が、
中央制御部と、
前記中央制御部により制御される音声認識部と、
表示部と、
前記音声認識部で用いられる選択肢情報と、
を含み、
前記選択肢情報は、選択肢データと、前記選択肢データに対応した表示タイミングデータと、を有し、
前記表示タイミングデータを用いた表示制御により、前記音声認識部における音声認識処理の実行が可能である期間の明示を前記表示部に行うことを特徴とする音声処理装置の制御方法。
前記表示制御は前記中央制御部により行われ、前記表示タイミングデータで規定されるタイミングの指示が前記音声認識部から前記中央制御部に対して行われることを特徴とする請求項４に記載の音声処理装置の制御方法。
前記音声処理装置が、更に、話者の音声を入力する音声入力部と、を含み、
前記音声入力部は前記音声認識部により制御されることを特徴とする請求項４又は５に記載の音声処理装置の制御方法。