JP2013114020A - 音声処理装置及び音声処理装置の制御方法 - Google Patents

音声処理装置及び音声処理装置の制御方法 Download PDF

Info

Publication number
JP2013114020A
JP2013114020A JP2011259916A JP2011259916A JP2013114020A JP 2013114020 A JP2013114020 A JP 2013114020A JP 2011259916 A JP2011259916 A JP 2011259916A JP 2011259916 A JP2011259916 A JP 2011259916A JP 2013114020 A JP2013114020 A JP 2013114020A
Authority
JP
Japan
Prior art keywords
unit
voice
display
speech
central control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011259916A
Other languages
English (en)
Inventor
Tsutomu Nonaka
勉 野中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2011259916A priority Critical patent/JP2013114020A/ja
Publication of JP2013114020A publication Critical patent/JP2013114020A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】話者に対して音声認識の可能な期間を正確に明示できる音声処理装置を提供する。
【解決手段】入力された話者の音声を用いる音声処理装置が、中央制御部と、前記中央制御部により制御される音声認識部と、表示部と、前記音声認識部で用いられる選択肢情報と、を含み、前記選択肢情報は、選択肢データと、前記選択肢データに対応した表示タイミングデータと、を有し、前記表示タイミングデータは、前記表示部に対する所定の制御に用いられ、前記所定の制御は、前記音声認識部における音声認識処理の実行が可能である期間を前記話者に明示する制御であることを特徴とする。
【選択図】図1

Description

本発明は、音声認識処理を行う音声処理装置及び音声処理装置の制御方法に関する。
従来、美術館等で用いられる解説や案内の装置や電話における自動応答に用いられる装置などのように、音声を利用する様々な装置が開発され、使用されている。このような音声を利用する処理装置(以降、音声処理装置と呼ぶ)の中には、利用者(話者)の音声を認識し、認識した内容に応じて適切な応答を出力するように開発された音声処理装置が存在する。
しかしながら、音声処理装置の処理のタイミングによっては話者の音声が正しく認識できない場合がある。例えば、音声処理装置が質問を行い話者から回答を得るような場合では、音声処理装置が質問を発声しているときは話者からの回答がないことを前提にして設計がなされている場合がある。この場合、話者が音声処理装置による質問の終了を待たずに回答すると、正しい音声認識がなされないことになる。又、消費電力の削減などを目的として、音声処理装置の設定が、音声認識が必要と判断したときにだけ音声認識処理を行うようになされている場合がある。例えば、自動案内受付などのような場合で、人の存在を察知してから音声認識処理を起動するような場合である。このような場合では、人の存在を察知してから音声認識処理の起動までには所定の時間を要することから、該所定の時間における話者の音声に対する音声認識処理を行うことができないことになる。
しかしながら、話者に対して音声認識処理が可能である状態を示すことができ、話者がこれに対応して音声を発すれば上述した問題は解決する。例えば、特許文献1には、利用者とのスムーズな対話を実現するために、利用者が何時発声して良いか否かを容易に認識することが可能な音声対話システムが提案されている。該音声対話システムは、利用者からの発声を音声対話システムが受け付ける場合には、その受け付け可能の期間の間、副音発生部で一定の音(副音)の信号を生成し、スピーカー等の発音器を用いて利用者に副音を発生する。また、システム発話中以外の所定期間中は、音声対話システムへの発声が可能であることを利用者に提示するために、継続して副音が発声されることが記載されている。また、当該副音は、利用者発声内容認識部における辞書が応答内容用に切り替えられた後で発声の指示がされることが記載されている。また、副音を発生するタイミングは、発話シナリオ若しくはロジック(例えば、利用者の発声内容に応じて、システム発話を選択するツリー状の階層構造のロジック)中に記述しておき、その記述に従う様にしても良いし、対話遂行制御部が予め設定されたタイミングで自動的に行なう様にしても良いことが記載されている。
特開2003−241797号公報
一般的に、音声認識部を有するようなシステム(装置)には装置全体を制御するCPU(Central Processing Unit)が存在する。このような構成の場合には、CPUは、自身に集められた装置内の情報を基にして装置内部の構成要素に対する制御を行うことになる。このため、集められた装置内の情報と実際の装置内の情報との間に違いがあると、CPUの行う制御は適切なものでなくなる場合がある。このような情報の違いは、CPUに間接的に伝達される情報において発生しやすいと考えられる。例えば、音声認識部に入力される音声信号に異常が発生した場合などは、CPUは直接この情報を知ることができず、音声認識部からのエラー情報やステータス情報が伝達されてから知ることになる。このため、音声認識部に対して音声認識処理の開始を指示してから話者に対して発声を促す指示をしても、実際には音声認識部が正しく動作しない状態があることが想定される。実際に異常な状態になってからCPUが音声認識部の異常を認識するまでには所定の時間差が生じ、この間話者に対して音声認識の処理が出来ないことの明示ができず、話者に対して適切なサービスが出来ない場合が発生することが考えられる。
本発明は、上述した問題若しくは課題の少なくともひとつを解決するためになされたものであり、以下の適用例若しくは実施形態として実現することが可能である。
[適用例1]
本適用例にかかる音声処理装置は、入力された話者の音声を用いる音声処理装置であって、中央制御部と、前記中央制御部により制御される音声認識部と、表示部と、前記音声認識部で用いられる選択肢情報と、を含み、前記選択肢情報は、選択肢データと、前記選択肢データに対応した表示タイミングデータと、を有し、前記表示タイミングデータは、前記表示部に対する所定の制御に用いられ、前記所定の制御は、前記音声認識部における音声認識処理の実行が可能である期間を前記話者に明示する制御であることを特徴とする。
この構成によれば、音声処理装置が、音声認識部、表示部、及び、音声認識部で用いられる選択肢情報を含み、当該選択肢情報に含まれる表示タイミングデータが音声認識処理の実行が可能な期間を話者に明示する制御に用いられることで、音声認識部により表示部に表示するタイミングの制御を行うことができる。これにより、中央制御部における音声認識部のエラー情報若しくはステータス情報と実際の音声認識部における状態との差によって生じる話者に対する不適切な表示をなくすことができる。
ここで、選択肢データとは、発話シナリオなどに設定される音声処理装置からの設問に対して行う話者の返答の選択肢のことである。選択肢データは、質問ごとに異なった内容のものとなり、その長さも異なる。従って、選択肢データに対応して表示タイミングデータを設定することで、個々の設問に対する選択肢データに対して適切な期間の長さの設定なども可能であり、これにより話者との間との適切な間合いの設定なども可能となる。また、所定の制御は、音声認識部が直接行ってもよく、他の部分を介して間接的に行ってもよい。
[適用例2]
上記適用例にかかる音声処理装置において、前記所定の制御は前記中央制御部により行われ、前記表示タイミングデータで規定されるタイミングの指示が、前記音声認識部から前記中央制御部に対して行われることが好ましい。
この構成によれば、上述した所定の制御が中央制御部により行われ、表示タイミングデータで規定されるタイミング指示が音声認識部から中央制御部に対して行われることで、中央制御部に表示部に対する制御をまとめることができる。これより、音声処理装置内の表示部に対する制御をより簡単なものにすることができる。
表示部は、話者が音声処理装置を使用するために必要な情報を表示することができるが、表示される内容は音声認識可能な期間だけというわけではない。しかしながら、音声処理装置を構成するひとつの構成要素に対する制御が他の複数の構成要素から行われる場合は、他のひとつの構成要素から行われる場合に比較して制御が複雑となる。このため、表示部の制御は中央制御部に限定して行うことが好ましいこととなる。従って、表示タイミングデータで規定されるタイミング指示が音声認識部から中央制御部に対して行われることで、表示部に対する制御を中央制御部のみで行うようにすることができ、音声処理装置内部における構成要素間の制御のあり方をより簡易なものとすることができる。
[適用例3]
上記適用例にかかる音声処理装置において、更に、前記話者の音声を入力する音声入力部と、を含み、前記音声入力部は前記音声認識部により制御されることが好ましい。
この構成によれば、音声処理装置が更に音声入力部を含み、音声入力部の制御を音声認識部が行うことにより中央制御部の負荷の低減化を図ることができる。また、音声認識部が音声入力部の制御を行うことで、音声認識部の動作状況の把握が可能となり、音声認識が可能である期間の中央制御部に対する指示を確実なものとすることができる。
[適用例4]
本適用例にかかる音声処理装置の制御方法は、前記音声処理装置が、中央制御部と、前記中央制御部により制御される音声認識部と、表示部と、前記音声認識部で用いられる選択肢情報と、を含み、前記選択肢情報は、選択肢データと、前記選択肢データに対応した表示タイミングデータと、を有し、前記表示タイミングデータを用いた表示制御により、前記音声認識部における音声認識処理の実行が可能である期間の明示を前記表示部に行うことを特徴とする。
この方法によれば、音声認識部により表示部に表示するタイミングの制御を行うことができる。これにより、中央制御部における音声認識部のエラー情報若しくはステータス情報と実際の音声認識部における状態との差によって生じる話者に対する不適切な表示をなくすことができる。
[適用例5]
上記適用例にかかる音声処理装置の制御方法において、前記表示制御は前記中央制御部により行われ、前記表示タイミングデータで規定されるタイミングの指示が前記音声認識部から前記中央制御部に対して行われることが好ましい。
この方法によれば、表示制御が中央制御部により行われ、表示タイミングデータで規定されるタイミング指示が音声認識部から中央制御部に対して行われることで、中央制御部に表示部に対する制御をまとめることができる。これより、音声処理装置内の表示部に対する制御をより簡単なものにすることができる。
[適用例6]
上記適用例にかかる音声処理装置の制御方法において、前記音声処理装置が、更に、話者の音声を入力する音声入力部と、を含み、前記音声入力部は前記音声認識部により制御されることが好ましい。
この方法によれば、音声処理装置が更に音声入力部を含み、音声入力部の制御を音声認識部が行うことにより中央制御部の負荷の低減化を図ることができる。また、音声認識部が音声入力部の制御を行うことで、音声認識部の動作状況の把握が可能となり、音声認識が可能である期間の中央制御部に対する指示を確実なものとすることができる。
音声処理装置の概略ブロック図。 選択肢情報の模式図。 中央制御部における処理のフローチャート。 音声認識部における処理のフローチャート。 状態遷移モデルの模式図。 選択肢情報の模式図。 画面領域分割の例。 実行情報の内容イメージと画面表示の例。
以下、図を用いて本発明の実施形態について説明する。尚、説明に用いる図は説明に必要な部分のみを記載した便宜上のものである。また、説明の記載においても、処理の内容がイメージし易いように、機能的な表現を用いて記載をする場合がある。また、数字の後にhが記載されている場合は、その数字は16進数を示すものとする。
(第1実施形態)
図1に、本発明にかかる音声処理装置100のブロック図を示す。音声処理装置100は、話者に対して情報や質問などを提示して、これに対する話者の返答などの音声を認識して処理を行うことで、話者に対するサービスを行う装置である。
音声処理装置100は、中央制御部110、音声認識部120、表示部130、記憶部140及び音声合成部160を有する。中央制御部110、音声認識部120及び記憶部140は第1バス111により接続されている。また、中央制御部110と音声認識部120との間は第1制御信号112が接続されている。表示部130は、第2制御信号113を介して中央制御部110に接続されている。音声合成部160は、第3制御信号114を介して中央制御部110に接続されている。また、マイク181は、変換回路150を介して音声認識部120に接続されている。また、スピーカー182は、変換回路170を介して音声合成部160に接続されている。第1制御信号112、第2制御信号113及び第3制御信号114には、それぞれの接続先に必要な複数の制御信号、データ信号及び割り込み信号などが含まれる。
中央制御部110は、音声処理装置100内の制御を行う部分である。音声認識部120、音声合成部160及び表示部130は中央制御部110の周辺装置という位置付けになる。また、音声認識部120や音声合成部160などからの割込み要求に対する処理も中央制御部110により行われる。
音声認識部120は、話者の話した言葉(音声)を認識(音声認識)するための部分である。話者の音声は、マイク181により取り込まれ、変換回路150により適切な信号に変換されて音声認識部120に入力される。音声認識処理の開始指示は、中央制御部110から音声認識部120に対して行われ、音声認識処理の終了通知は音声認識部120から中央制御部110に対する割込み要求により行われる。音声認識処理に必要な情報は記憶部140に記憶されており、中央制御部110により第1バス111を介して伝達されるが、音声認識部120自身も第1バス111を介して記憶部140から読み出すことが可能である。
音声合成部160は、予め用意されたテキストデータなどを音声に合成(音声合成)する部分である。当該テキストデータは記憶部140に記憶され、中央制御部110からの音声合成開始の指示と共に音声合成部160に対して伝達される。音声合成処理の終了通知は、音声合成部160から中央制御部110に対する割込み要求により行われる。音声合成部160により音声合成された信号は変換回路170を介してスピーカー182により話者に伝達される。
表示部130は、第2制御信号113を介して中央制御部110により制御される。表示部130内には表示メモリー132が存在し、表示部130は表示メモリー132に保存された表示データの内容を解釈して、その結果を表示画面131に表示する。表示データは中央制御部110により第2制御信号113を介して表示メモリー132に書き込まれる。表示画面131は、液晶ディスプレイなどで構成されてよい。表示画面131には、話者に対する情報の表示や、音声処理装置100の操作及び制御に必要な情報の表示も行われる。話者に対する情報には、例えば、話者に対する質問の内容や該質問に対する回答の選択肢などが含まれる。
記憶部140には、上述した音声認識処理に必要な情報及び音声合成処理に用いるテキストデータや、音声処理装置100の制御に必要な制御プログラムなどが保存される。音声認識処理に必要な情報のひとつに、後述する選択肢情報141がある。選択肢情報141は、選択肢データ142と及び表示タイミングデータ143から構成される。選択肢情報141は、第1バス111を介して中央制御部110及び音声認識部120の双方から読み出されることが可能である。
選択肢情報141の形式を図2に示す。選択肢情報141に含まれる選択肢データ142は質問に対して話者が選択する回答に該当するものであり、中央制御部110により選択肢データ142で示される情報を表示画面131に表示させ、話者に明示することが可能である。また、選択肢データ142は音声認識部120においては、音声認識処理の中で検出すべき単語を記載した情報としても使用される。
表示タイミングデータ143は、音声認識処理を行う期間などに関わる制御を行うためのデータである。表示タイミングデータ143は、音声認識部120で用いられ、音声認識部120内部の状態に応じて、必要なタイミングに関する指示を中央制御部110に対して行う。中央制御部110は、当該必要なタイミングに関する指示を受けて音声処理装置100内部で必要な処理を実行する。当該必要なタイミングに関する指示は、割込み要求で行われることでよい。
話者に対して情報や質問などを提示し、これに対する話者の返答などの音声を認識して処理を行うサービスは、一連の対話を想定して作られたシナリオに従って処理が行われる。当該シナリオは、例えば、所定の質問と当該所定の質問に対する回答による分岐先との繋がりを記載した状態遷移モデルと考えることができる。分岐先には別な質問が用意されており、質問、回答が繰り返され状態遷移モデルにおける状態が遷移することで、予め用意された結論のひとつに導かれる。選択肢情報141は、状態遷移モデルを記述するための構成要素のひとつと考えてよい。
尚、図1に示した音声処理装置100には、話者が指示をするための操作入力装置(キーボード、マウス、ジョイステックなど)を図示していないが、図示がなくともこれら操作入力装置若しくは操作入力装置と同等の機能を有するものを有することとする。たとえば、音声認識部120が操作入力装置として機能するように設定され、音声により操作が行えるようになっていてもよい。
続いて、フローチャートを用いて音声処理装置100における処理について説明する。
音声処理装置100におけるメイン処理のフローチャート10を図3−(a)に示す。フローチャート10は中央制御部110で実行される処理である。
音声処理装置100の電源がオンにされると、まず初期設定が行われる(S101)。初期設定は、ハードウェア的に設定されたパワーオンリセットと、その後に実行される初期設定プログラムによる設定の両方が含まれる。初期設定がなされることにより、上述した操作入力装置による操作が可能となると共に、話者の操作に必要な情報が表示画面131に表示される。
次に、話者により音声処理装置100の動作モードの設定が行われる(S102)。実行するシナリオの選択などが動作モードの設定に含まれる。次に、選択されたシナリオの実行開始が指示され(S103)され、シナリオ処理が実行される(S104)。シナリオ処理が終了すると、音声処理装置100における処理を終了するかどうかの確認が行われ(S105)、処理を続ける場合には動作モード設定の処理(S102)に戻り、処理を続けない場合は終了する。
ここで、シナリオについて説明する。シナリオを図式化したものとして、状態遷移モデル300を図5に示す。○を用いて表しているのはひとつひとつの状態であり、それぞれをノードと呼ぶことにする。図中の→はノード間の状態の遷移の方向を示す。状態遷移の起点となるノードを開始ノードと呼び、状態遷移の終点となるノードを終了ノードと呼ぶことにする。また、開始ノード及び終了ノード以外のノードを実行ノードと呼ぶことにする。状態遷移モデル300は記憶部140に記憶されており、状態遷移が起こるたびに(実行されるノードが変わるたびに)、ノードの実行に必要な情報が中央制御部110に読み出され、当該読み出された情報が中央制御部110から音声認識部120に設定される。
次に、シナリオ処理(S104)について説明する。シナリオ処理のフローチャート20を図3−(b)に示す。
まず、中央制御部110は、選択されたシナリオの情報を記憶部140から読み出し(S201)、実行を開始する(S202)。具体的には、状態遷移モデル300における開始ノードK00の情報を読み出し、シナリオの処理が開始される。開始ノードK00には、シナリオの実行を開始するに当たって、話者に必要な情報などが記載されており、所定の形式で表示画面131に表示されると共に、スピーカー182から案内情報が流される。その後、次に実行する実行ノードN01の情報を読み出し、次の処理(S203)に進む。
中央制御部110は、読み出された情報の解析を行う(S203)。解析の後、中央制御部110は、話者に対して必要な情報を明示する。
処理S203における解析の結果、音声合成を行う必要がある場合は、音声合成処理(S205)に進み、音声合成を行う必要がない場合は音声認識を行うかどうかの判断(S206)に進む(S204)。
音声合成処理(S205)の処理は、次のようなものである。まず、中央制御部110は、音声合成処理の指示と共に音声合成用データを、第3制御信号114を介して音声合成部160に通知する。次に、中央制御部110は、音声合成部160から割込み要求をイネーブルとし、音声合成部160からの音声合成処理の終了割込みの発生を待つ。その後、音声合成部160からの終了割込みが発生し、エラーの発生がないことを確認することで音声合成処理の終了を判断する。
処理S203における解析の結果、音声認識を行う必要がある場合は、音声認識処理(S207)に進み、音声認識を行う必要がない場合はシーン情報更新の処理(S208)に進む(S206)。ここで、シーン情報更新とは、次に実行するノードの情報を記憶部140から読み出すことである。
音声認識処理(S207)は、ノード(実行ノード若しくは終了ノード)の情報の解析の結果、音声認識を行う必要がある場合に実行される処理である。音声認識処理(S207)の説明は後述する。音声認識処理(S207)が終了するか、音声認識の処理を行う必要がない場合は、シーン情報更新の処理(S208)が実行され、次に実行すべきノードがない場合にはシナリオ処理を終了する(S209)。
音声認識部120における音声認識の処理は、音声認識開始の指示及び選択肢情報141が、第1制御信号112並びに第1バス111を介して中央制御部110から音声認識部120に伝達されることで開始される。音声認識処理(S207)における処理を示すフローチャートを図4に示す。図4−(a)に音声認識部120における音声認識処理(S207)におけるメインのフローチャート30を、図4−(b)にフローチャート30実行中におけるタイマー割込みのフローチャート40を示す。
音声認識部120における音声認識の処理は、中央制御部110から音声認識の処理開始の指示と選択肢情報141とを伝達されて開始される。まず、選択肢情報141に含まれる表示タイミングデータで示される条件を確認する(S301)。これにより、音声認識部120は、指示された音声認識の処理の間に中央制御部110に対して指示しなくてはいけない表示タイミング制御のタイミング条件の確認をすることができる。
次に、音声信号の入力をイネーブルにする(S302)。これにより、マイク181を用いての話者の音声の取り込みが許可される。
次に、表示タイミング制御に用いる計測タイマーの起動を行う(S303)。計測タイマーは、音声認識部120内に専用に設けられていることでよい。また、専用に設けられたものでなくて、汎用のタイマーを流用することでも構わない。処理S301の中で確認された条件に見合った数のタイマーの起動が行われる。
次にマイク181からの音声信号の入力経路に異常が発生していないかどうかの確認が行われる(S304)。異常の発生の確認は、音声認識部120内にエラーレジスターを設け、当該エラーレジスターの確認を行うことでもよく、所定のレジスターにおける値を読み出しチェックを行うことで実施してもよい。尚、変換回路150のステータスを音声認識部120において確認できるように回路を設定しておくことにより、変換回路150の状態を含めた入力経路の状態の確認を行うことができる。
処理S304の結果、音声認識部120の状態に問題がない場合は計測タイマーの割込み処理のためにタイマー割込みをイネーブルとし(S306)、問題がある場合はエラー処理(S309)に進む(S305)。音声認識部120は、エラー処理(S309)において中央制御部110にエラー割込みを発生させ、その後音声入力をディスイネーブルとする(S310)。
タイマー割込みをイネーブルとした(S306)後、マイク181及び変換回路150を介して入力された音声信号に対する認識処理を実行する(S307)。尚、本実施形態においては、音声信号に対する認識処理の具体的に方法については言及しないことにする。
音声信号に対する認識処理(S307)が終了した後、タイマー割込みをディスイネーブルとし(S308)、続いて音声入力をディスイネーブルとし(S310)、中央制御部110に対して音声認識の処理の終了通知のための割込みを発生させ(S311)、音声認識処理が終了する。上述したように、中央制御部110は、音声認識処理(S207)が終了すると、シーン情報更新の処理(S208)に進むことになる。尚、音声認識部120から中央制御部110対するエラー割込みを行わず、エラー処理(S309)における処理を音声認識部120内のエラーステータスを整える処理とし、中央制御部110における終了通知の割込み処理の中で該エラーステータスのチェックを行うようにしても構わない。
音声信号の認識処理(S307)の実行中は音声認識部120におけるタイマー割込みが有効となっている。タイマー割込みの条件の設定は、表示タイミングデータ条件確認の処理(S301)において行うことが可能である。
タイマー割込み処理のフローチャート40を図4−(b)に示す。タイマー割込みが発生すると、音声認識部120は、表示タイミングデータによる条件が成立しているかどうかを判断する(S401)。成立していない場合にはタイマー割込み処理を終了する。また、成立している場合は、表示タイミングデータで規定される指示を中央制御部110に対して行い(S402)、タイマー割込み処理を終了する。
表示タイミングデータによる条件は、音声認識部120における内部状態を加味して設定することができる。これにより、話者に明示するタイミングを音声認識部120の内部状態が反映されたものとすることができる。中央制御部110が音声認識部120の内部状態をすべて把握するには、音声認識部120内部の所定のレジスターの内容を読出し確認するなど、中央制御部110におけるそれなりの処理が要求される。しかしながら、本発明を適用することにより、中央制御部110の負荷の増加の低減化を図りながら、音声認識部120の内部状態を反映させたタイミング指示を話者に対して行うことができる。
本実施例の説明において、図5に示した状態遷移モデル300を用いる。状態遷移モデル300は、開始ノードK00により話者との対話が開始され、いくつかの実行ノードNk(kは整数)に定義された内容(以降、実行情報と呼ぶ)が実行され、複数の終了ノード(終了ノードE01、終了ノードE02、終了ノードE03及び終了ノードE04)のいずれかに至ることで、話者と音声処理装置100との対話が終了する。例えば、開始ノードK00から、実行ノードN01、N23、N36及びN47を経て終了ノードE04に至る状態遷移が存在する。
ここで、実行ノードN11における処理について具体的に設定し、その説明を行う。
実行ノードN11を、話者の旅行先の希望を尋ねる過程の最初の対話状態であるとし、まず外国旅行か国内旅行かを尋ねるものとする。この対話は、実行ノードN11の状態を記載した実行情報が処理されることで行われる。実行ノードN11の実行情報400を図6−(a)に示す。実行情報400は、条件設定情報401と選択肢情報402とから構成される。条件設定情報401には、話者に対して提供する情報や質問などが記載される。選択肢情報402は、上述した選択肢情報141と同様のものであり、図6−(b)に示すように、選択肢データ501と表示タイミングデータ502とから構成される。選択肢データ501には、選択肢SD00、SD01、・・・、SDn(nは整数)が含まれる。また、表示タイミングデータ502には、タイミング制御データDT00、DT01、・・・、DTm(mは整数)が含まれる。
条件設定情報401を図8−(a)に示す。条件設定情報401は、第1領域231に関する表示制御コードを保持するR01フィールド、第2領域232に関する表示制御コードを保持するR02フィールド及び第3領域233に関する表示制御コードを保持するR03フィールドを有する。ここで、第1領域231、第2領域232及び第3領域233は、表示画面131における表示領域のことであり、それぞれの表示領域を図7に示す。表示画面131は、第1領域231、第2領域232及び第3領域233に分割され管理されている。
また、上述した表示制御コードには表示されるデータの記載が含まれる。例えば、R01フィールドには、第1領域231に「旅行するなら」と表示することが可能なデータが記載されている。また、R02フィールドには選択肢データ501の内容を表示することを指示するコードが記載されている。また、R03フィールドには「どっち?」と表示することが可能なデータが記載されている。このように、条件設定情報を図8−(a)のようにすることにより、質問内容をR01フィールド及びR03フィールドに表示すると共に、選択肢データ501をR02フィールドに表示することが可能となる。
実行ノードN11における選択肢情報402を図8−(b)に示す。選択肢データとしては、SD00として「外国」と表示することが可能なコードが記載されて、SD01として「国内」と表示することが可能なコードが記載されている。尚、本実施形態における選択肢は2つであるが、選択肢データの数は、それ自体に論理的な制限の必要はなく、表示画面の大きさや表示する文字のサイズなどの物理的な制限により規定されるものとなる。
また、タイミング制御データは、第1フィールドと第2フィールドとを有する。
第1フィールドは、第1領域231、第2領域232及び第3領域233の表示制御を行うために用いられる各々4ビットの制御コードと、表示画面全体の制御を行うための制御コードが4ビットとの、合わせて16ビットの制御コードから構成される。
第1フィールドにおける制御コードの記載は、MSB(Most Significant Bit)側から、第1領域231の制御コード、第2領域232の制御コード、第3領域233の制御コード及び表示画面全体の制御コードの順である。特に制御を行わない標準表示の状態を含めて、各々の表示領域に対して16種類の制御を行うことが可能となる。尚、この制御コードの解釈は中央制御部110側で実行される音声認識部120の制御ドライバー内で行われ、その解釈の結果が中央制御部110の行う表示部130に対する制御に反映される。ここで、制御コードが“0h”であるときは標準表示(初期設定による表示でよい)を指示するものとし、制御コードが“1h”が拡大表示を指示するものとする。
第2フィールドの制御コードは、次の表示タイミングデータが実行されるまでのインターバルを示すコードである。具体的には音声認識部120内に設けられた計測タイマーにおけるカウント値を示すものである。該計測タイマーは、音声認識部120における音声認識が可能となったときにカウントが開始される(フローチャート30、処理S303)。また、第2フィールドの値が“FFFFh”である場合は、当該タイミング制御データが最後のタイミング制御データであることを示している。第2フィールドに所定の値を設定しておくことで、所定の値に相当する期間の長さの分、次のタイミング制御データの実行を遅らせることが可能となる。
実行ノードN11の実行情報の解釈が行われる(フローチャート20、処理S203)と、表示画面131の表示は図8−(c)に示すようになる。第2領域232に選択肢データが表示されているが、表示される選択肢データは中央制御部110により、例えば、操作ボタンをイメージするような形で表示される。表示画面131に図8−(c)の表示がなされている状態で、音声認識処理(フローチャート20、処理S207)が実行され、中央制御部110から音声認識部120に対して、音声認識処理の開始指示と選択肢情報データ(図8−(b))とが伝達される。
ここで、タイミング制御データDT00の第2フィールドに設定されている“0500h”は、音声認識部120内で、音声入力イネーブル(フローチャート30、処理S302)が行われてから、変換回路150による信号処理回路が安定的に動作するようになるまでに要する期間を保障するためのものである。このようにすることで、例えば、次のタイミング制御データの実行が行われる前に、信号処理回路に用いられている発振器による発振周波数が安定するまでに要する時間の経過を確実に行うことができる。従って、次のタイミング制御データにより表示画面131の表示に変化を与えることで、音声認識を確実に行える状態を話者に対して明示することが可能となる。
音声認識部120において音声認識の処理が開始され、タイマー割込みがイネーブルにされ(フローチャート30、処理S306)、音声信号の認識処理(フローチャート30、処理S307)の処理に入ったとする。この状態で、計測タイマーによる割込みが発生すると、音声認識部120において、タイミング制御データDT00の第2フィールドに設定されたカウント値が経過しているかどうかの判断が行われ、経過している場合には次のタイミング制御データDT01に記載された内容の実行指示が、音声認識部120から中央制御部110に対して行われる。
上述したように、タイミング制御データDT01の第1フィールドにある制御コードは、第1領域231及び第3領域233に表示されているものを拡大表示することを示している。中央制御部110は、音声認識部120から指示をうけると、表示メモリー132の内容を指示に従った形に変更する。これにより、表示画面131における表示は図8−(d)に示したようになる。タイミング制御データDT01が最後のタイミング制御データであることから、次の実行ノードに処理が移るまでは、図8−(d)の表示が継続することになる。
タイミング制御データDT00の第2フィールドに設定された値は、音声認識の処理を確実に行えるようになるまでの期間を保障するためのものである。従って、話者は表示画面131が図8−(d)の表示になってから音声で回答すれば、より正確な音声認識処理がなされることになる。
また、他の実行ノードにおいても、音声認識の処理が確実に行えるようになってから一部の表示を拡大するようにすることで、話者は表示画面131の任意の場所の表示が拡大されてから返答すればよいと認識することができ、話者にとって、音声処理装置100との間のコミュニケーションの間合いが取り易くなるという効果もある。
以上、本発明の適用例並びに実施形態の説明を行ったが、本発明を適用することにより、音声処理装置全体の制御を行う処理部分の負荷の増加の低減化を図りながら、音声認識部の内部状態を反映させたタイミング指示を話者に対して行うことができる。尚、本発明の適用は、上述した適用例並びに実施形態に限られたものではなく、本発明の趣旨を逸脱しない範囲において、広く適用が可能である。
10…フローチャート、20…フローチャート、30…フローチャート、40…フローチャート、100…音声処理装置、110…中央制御部、111…第1バス、112…第1制御信号、113…第2制御信号、114…第3制御信号、120…音声認識部、130…表示部、131…表示画面、132…表示メモリー、140…記憶部、141…選択肢情報、142…選択肢データ、143…表示タイミングデータ、150…変換回路、160…音声合成部、170…変換回路、181…マイク、182…スピーカー、231…第1領域、232…第2領域、233…第3領域、300…状態遷移モデル、400…実行情報、401…条件設定情報、402…選択肢情報、501…選択肢データ、502…表示タイミングデータ。

Claims (6)

  1. 入力された話者の音声を用いる音声処理装置であって、
    中央制御部と、
    前記中央制御部により制御される音声認識部と、
    表示部と、
    前記音声認識部で用いられる選択肢情報と、
    を含み、
    前記選択肢情報は、選択肢データと、前記選択肢データに対応した表示タイミングデータと、を有し、
    前記表示タイミングデータは、前記表示部に対する所定の制御に用いられ、
    前記所定の制御は、前記音声認識部における音声認識処理の実行が可能である期間を前記話者に明示する制御であることを特徴とする音声処理装置。
  2. 前記所定の制御は前記中央制御部により行われ、前記表示タイミングデータで規定されるタイミングの指示が前記音声認識部から前記中央制御部に対して行われることを特徴とする請求項1に記載の音声処理装置。
  3. 更に、前記話者の音声を入力する音声入力部と、を含み、
    前記音声入力部は前記音声認識部により制御されることを特徴とする請求項1又は2に記載の音声処理装置。
  4. 音声処理装置の制御方法であって、
    前記音声処理装置が、
    中央制御部と、
    前記中央制御部により制御される音声認識部と、
    表示部と、
    前記音声認識部で用いられる選択肢情報と、
    を含み、
    前記選択肢情報は、選択肢データと、前記選択肢データに対応した表示タイミングデータと、を有し、
    前記表示タイミングデータを用いた表示制御により、前記音声認識部における音声認識処理の実行が可能である期間の明示を前記表示部に行うことを特徴とする音声処理装置の制御方法。
  5. 前記表示制御は前記中央制御部により行われ、前記表示タイミングデータで規定されるタイミングの指示が前記音声認識部から前記中央制御部に対して行われることを特徴とする請求項4に記載の音声処理装置の制御方法。
  6. 前記音声処理装置が、更に、話者の音声を入力する音声入力部と、を含み、
    前記音声入力部は前記音声認識部により制御されることを特徴とする請求項4又は5に記載の音声処理装置の制御方法。
JP2011259916A 2011-11-29 2011-11-29 音声処理装置及び音声処理装置の制御方法 Pending JP2013114020A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011259916A JP2013114020A (ja) 2011-11-29 2011-11-29 音声処理装置及び音声処理装置の制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011259916A JP2013114020A (ja) 2011-11-29 2011-11-29 音声処理装置及び音声処理装置の制御方法

Publications (1)

Publication Number Publication Date
JP2013114020A true JP2013114020A (ja) 2013-06-10

Family

ID=48709617

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011259916A Pending JP2013114020A (ja) 2011-11-29 2011-11-29 音声処理装置及び音声処理装置の制御方法

Country Status (1)

Country Link
JP (1) JP2013114020A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014203495A1 (ja) * 2013-06-19 2014-12-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声対話方法、及び機器
WO2017175351A1 (ja) * 2016-04-07 2017-10-12 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014203495A1 (ja) * 2013-06-19 2014-12-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声対話方法、及び機器
CN105144285A (zh) * 2013-06-19 2015-12-09 松下电器(美国)知识产权公司 声音对话方法及设备
US9564129B2 (en) 2013-06-19 2017-02-07 Panasonic Intellectual Property Corporation Of America Voice interaction method, and device
JPWO2014203495A1 (ja) * 2013-06-19 2017-02-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声対話方法、及び機器
CN105144285B (zh) * 2013-06-19 2018-11-02 松下电器(美国)知识产权公司 声音对话方法及设备
USRE49014E1 (en) 2013-06-19 2022-04-05 Panasonic Intellectual Property Corporation Of America Voice interaction method, and device
WO2017175351A1 (ja) * 2016-04-07 2017-10-12 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
JPWO2017175351A1 (ja) * 2016-04-07 2018-08-02 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
US10839800B2 (en) 2016-04-07 2020-11-17 Sony Interactive Entertainment Inc. Information processing apparatus

Similar Documents

Publication Publication Date Title
KR100753780B1 (ko) 음성 입력 디바이스
JP3662780B2 (ja) 自然言語を用いた対話システム
JP3705735B2 (ja) オンデマンド・インタフェース装置とそのウィンドウ表示装置
US9613623B2 (en) User interface method and device comprising repeated output of an audible signal and a visual display and vibration for user notification
JP2010066519A (ja) 音声対話装置、音声対話方法、および音声対話プログラム
KR20140014812A (ko) 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치
JP2006154724A (ja) 対話システム、対話方法、及びコンピュータプログラム
JP2008129412A (ja) 半導体集積回路装置、電子機器
JP2017083713A (ja) 対話装置、対話機器、対話装置の制御方法、制御プログラム、および記録媒体
JP2018097029A (ja) 音声認識装置および音声認識方法
US20210200597A1 (en) Information processing device, information processing method, and program
JP2013114020A (ja) 音声処理装置及び音声処理装置の制御方法
JP6689953B2 (ja) 通訳サービスシステム、通訳サービス方法及び通訳サービスプログラム
JP4162074B2 (ja) 対話型情報検索装置
JP2007127896A (ja) 音声認識装置及び音声認識方法
KR101450188B1 (ko) 휴대용 단말기의 음성 제어 장치 및 방법
EP3955099A1 (en) Method and device for controlling the operation mode of a terminal device, and storage medium
JP2019060914A (ja) 学習支援装置、学習支援システム、学習支援方法及びプログラム
JP2011128260A (ja) 外国語会話支援装置、方法、プログラム、および電話端末装置
JP2005164944A (ja) 動作パラメータ決定装置、電子装置、音声合成装置、対話システム、動作パラメータ決定方法、及びコンピュータで読み取り可能な制御プログラム
JP2007183516A (ja) 音声対話装置及び音声認識方法
JP4498902B2 (ja) 音声認識装置
JP2006162782A (ja) 音声認識装置
JP2015076038A (ja) 情報処理方法、情報処理装置、及びプログラム
KR102632806B1 (ko) Stt결과 조기 확정을 위한 음성 인식 방법 및 장치