JP2014191212A - 音声処理装置、集積回路装置、音声処理システム及び音声処理装置の制御方法 - Google Patents

音声処理装置、集積回路装置、音声処理システム及び音声処理装置の制御方法 Download PDF

Info

Publication number
JP2014191212A
JP2014191212A JP2013067149A JP2013067149A JP2014191212A JP 2014191212 A JP2014191212 A JP 2014191212A JP 2013067149 A JP2013067149 A JP 2013067149A JP 2013067149 A JP2013067149 A JP 2013067149A JP 2014191212 A JP2014191212 A JP 2014191212A
Authority
JP
Japan
Prior art keywords
information
voice
output
dialog
timing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013067149A
Other languages
English (en)
Inventor
Shoji Hoshina
彰治 保科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2013067149A priority Critical patent/JP2014191212A/ja
Priority to US14/187,999 priority patent/US20140297275A1/en
Publication of JP2014191212A publication Critical patent/JP2014191212A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声処理装置における制御情報管理を容易にするとともに低消費電力化を図る。
【解決手段】音声処理装置が、音声出力情報、音声認識情報及び制御情報を含むダイアログ情報に従い音声出力制御及び音声認識のタイミング制御を行うダイアログ実行制御部と、前記ダイアログ実行制御部の制御により前記音声出力情報で指定される出力音声信号の出力を行う音声出力制御部と、前記ダイアログ実行制御部の制御により前記音声認識情報を用いて、入力された入力音声信号に対する音声認識の処理を行う音声認識部と、を含み、前記制御情報は、前記出力音声信号の音声出力タイミング情報及び前記入力音声信号に対する音声認識開始タイミング情報を含み、前記音声認識開始タイミング情報は、前記音声出力タイミング情報で規定される第1のタイミングからの経過時間で規定されることを特徴とする。
【選択図】図1

Description

本発明は、音声処理装置、音声処理システム及び音声処理装置の制御方法に関する。
人の音声に基づいて特定の語を認識する音声認識技術が開発されている。また、音声認識技術を用いて、種々の機器を制御するアイディアが提案されている。
係る音声処理システムにおいて、音声ガイダンスやテキスト情報を表示して、それらに回答する形式でユーザーが発話した音声を取得して音声認識を行う対話(ダイアログ)型の機器の開発が行われている。音声ガイダンスやテキスト情報などの対話に必要な情報はシナリオとしてまとめられる。特許文献1には、複数のシナリオの中から選択したシナリオを用いて対話型のトレーニングを行う音声入力評価装置が記載されている。
特開2007−108524号公報
音声ガイドやテキスト情報を出力し、それに応じて音声認識を行う対話(ダイアログ)型の音声処理装置では、音声ガイドとテキスト情報の出力と音声認識のタイミング管理が必要となる。音声処理装置を利用する機器(ホスト)のアプリケーションで、音声ガイドとテキスト情報の出力と音声認識のタイミング管理を行う場合、タイミング管理のためのアプリケーションの開発は容易ではなく、機器(ホスト)側の処理負荷も増大する。また、音声処理装置にシナリオなどを実装した後の、音声ガイド、音声認識及び表示情報などの編集は容易ではなかった。
本発明は、以上のような問題点、課題の少なくともひとつを解決するためになされたものであり、本発明のいくつかの態様によれば、音声ガイド及びテキスト情報の少なくとも一方を出力して音声認識を行う対話(ダイアログ)型の音声認識を行う場合に、音声ガイド及びテキスト情報の少なくとも一方の出力タイミング及び音声認識のタイミング管理を容易にする集積回路装置、音声処理装置及び音声処理方法を提供することができる。
[適用例1]
本適用例にかかる音声処理装置は、音声出力情報、音声認識情報及び制御情報を含むダイアログ情報に従い音声出力制御及び音声認識のタイミング制御を行うダイアログ実行制御部と、前記ダイアログ実行制御部の制御により前記音声出力情報で指定される出力音声信号の出力を行う音声出力制御部と、前記ダイアログ実行制御部の制御により前記音声認識情報を用いて、入力された入力音声信号に対する音声認識の処理を行う音声認識部と、を含み、前記制御情報は、前記出力音声信号の音声出力タイミング情報及び前記入力音声信号に対する音声認識開始タイミング情報を含み、前記音声認識開始タイミング情報は、前記音声出力タイミング情報で規定される第1のタイミングからの経過時間で規定されることを特徴とする。
この構成によれば、音声処理装置が、音声出力情報、音声認識情報及び制御情報を含むダイアログ情報に従い音声出力制御及び音声認識のタイミング制御を行うダイアログ実行制御部と、ダイアログ実行制御部の制御により音声出力情報で指定される出力音声信号の出力を行う音声出力制御部と、ダイアログ実行制御部の制御により音声認識情報を用いて、入力された入力音声信号に対する音声認識の処理を行う音声認識部と、を含み、制御情報は、出力音声信号の音声出力タイミング情報及び入力音声信号に対する音声認識開始タイミング情報を含み、音声認識開始タイミング情報は、音声出力タイミング情報で規定される第1のタイミングからの経過時間で規定されることで、音声認識の処理を開始するタイミングを音声ガイドなどの音声の出力タイミングに関連付けて設定することができる。これにより、処理情報の管理が容易となると共に、音声処理装置の利用者の対応がなされないと判断される時間における音声認識の処理を停止することができ、利用者にとって不自然な感覚を与えることなく、消費電力の低減化を図ることができる。
[適用例2]
上記適用例にかかる音声処理装置において、前記ダイアログ情報には、複数の前記音声出力情報が含まれ、所定の前記音声出力情報の出力を規定する前記音声出力タイミング情報は、直前に出力された前記音声出力情報の出力制御が終了してからの経過時間で規定されることが好ましい。
この構成によれば、ダイアログ情報に複数の音声出力情報が含まれることでひとつの音声出力情報により案内される場合に比較してより多くの情報を音声で利用者に伝えることができると共に、所定の音声出力情報の出力を規定する音声出力タイミング情報が直前に出力された音声出力情報の出力制御が終了してからの経過時間で規定されることで、複数の音声出力の間に適切な時間間隔を保持することが可能となり、利用者にとって聞き取りやすい音声出力とすることができる。
[適用例3]
上記適用例にかかる音声処理装置において、更に、前記ダイアログ情報を記憶するダイアログ記憶部を有することが好ましい。
この構成によれば、更にダイアログ記憶部を有することで、多くのダイアログ情報を保持することが可能となり、ダイアログ情報の書き換えをすることなしに、音声処理装置の活用範囲を広げることが可能となる。
[適用例4]
上記適用例にかかる音声処理装置において、前記第1のタイミングは、前記ダイアログ情報に含まれる前記音声出力情報の中で最後に出力される前記音声出力情報に対する前記音声出力タイミング情報で規定されることが好ましい。
この構成によれば、第1のタイミングをダイアログ情報に含まれる音声出力情報の中で最後に出力される音声出力情報に対する音声出力タイミング情報で規定されるようにすることで、音声認識の処理を開始するまでの経過時間をどの程度に決定するかの判断を容易にすることができる。これにより、音声処理装置の内部制御を適切なものとすることができ、消費電力のより好ましい低減化を図ることができる。
[適用例5]
本発明にかかる集積回路装置は、上記の音声処理装置を有することが好ましい。
この構成によれば、消費電力の低減化を図った音声処理装置を有した集積回路装置を構成することができる。
[適用例6]
本適用例にかかる音声処理システムは、音声処理装置と、音声入力部と、情報表示部と、音声出力部と、を含み、前記音声処理部は、音声出力情報、音声認識情報及び制御情報を含むダイアログ情報に従い音声出力制御及び音声認識のタイミング制御を行うダイアログ実行制御部と、前記音声出力部を制御し、前記ダイアログ実行制御部の制御により前記音声出力情報で指定される出力音声信号の出力を行う音声出力制御部と、前記ダイアログ実行制御部の制御により前記音声認識情報を用いて、前記音声入力部から出力された入力音声信号に対する音声認識の処理を行う音声認識部と、を有し、前記制御情報は、前記出力音声信号の音声出力タイミング情報、前記入力音声信号に対する音声認識開始タイミング情報及び前記情報表示部に対する表示開始タイミング情報を含み、前記音声認識開始タイミング情報及び前記表示開始タイミング情報は、前記音声出力タイミング情報で規定される第1のタイミングからの経過時間で規定されることを特徴とする。
この構成によれば、音声処理システムが音声処理装置と音声入力部と情報表示部と音声出力部とを含み、音声処理部がダイアログ実行制御部と音声出力制御部と音声認識部とを有し、ダイアログ情報の中の制御情報に含まれる音声認識開始タイミング情報及び表示開始タイミング情報が音声出力タイミング情報で規定される第1のタイミングからの経過時間で規定されることで、表示情報の表示開始タイミング及び音声認識の処理を開始するタイミングを音声ガイドなどの音声の出力タイミングに関連付けて設定することができる。これにより、音声処理装置の利用者の対応がなされないと判断される時間における音声認識の処理を停止することができ、利用者にとって不自然な感覚を与えることなく、消費電力の低減化を図ることができる。
[適用例7]
上記の適用例にかかる音声処理システムにおいて、前記第1のタイミングは、前記ダイアログ情報に含まれる前記音声出力情報の中で最後に出力される前記音声出力情報に対する前記音声出力タイミング情報で規定されることが好ましい。
この構成によれば、第1のタイミングをダイアログ情報に含まれる音声出力情報の中で最後に出力される音声出力情報に対する音声出力タイミング情報で規定されるようにすることで、表示の開始及び音声認識の処理を開始するまでの経過時間をどの程度に決定するかの判断を容易にすることができる。これにより、音声処理装置の内部制御を適切なものとすることができ、消費電力のより好ましい低減化を図ることができる。
[適用例8]
本適用例にかかる音声処理装置の制御方法は、音声出力情報、音声認識情報及び制御情報を含むダイアログ情報を制定し、前記制御情報には、音声出力タイミング情報及び音声認識開始タイミング情報が含まれ、前記音声出力情報の出力を前記音声出力タイミング情報により行う第1のステップと、前記音声認識情報を用いての音声認識の処理を前記音声認識タイミング情報により行う第2のステップと、を含み、前記音声認識開始タイミング情報は、前記音声出力タイミング情報で規定される第1のタイミングからの経過時間で規定されることを特徴とする。
この方法によれば、ダイアログ情報を制定し、音声出力情報の出力をダイアログ情報の中の制御情報に含まれる音声出力タイミング情報により行う第1のステップと、音声認識情報を用いての音声認識の処理をダイアログ情報の中の制御情報に含まれる音声認識タイミング情報により行う第2のステップと、を含み、音声認識開始タイミング情報が音声出力タイミング情報で規定される第1のタイミングからの経過時間で規定されることで、音声認識の処理を開始するタイミングを音声ガイドなどの音声の出力タイミングに関連付けて設定することができる。これにより、音声処理装置の利用者の対応がなされないと判断される時間における音声認識の処理を停止することができ、利用者にとって不自然な感覚を与えることなく、消費電力の低減化を図ることができる。
[適用例9]
上記適用例にかかる音声処理装置の制御方法において、更に、前記ダイアログ情報は表示情報を含むと共に前記制御情報は表示開始タイミング情報を含み、前記表示開始タイミング情報は、前記第1のタイミングからの経過時間で規定され、前記表示情報を用いての表示の処理を前記表示開始タイミング情報により行う第3のステップを含むことが好ましい。
この方法によれば、ダイアログ情報に表示情報を含み、ダイアログ情報の中の制御情報に表示開始タイミング情報を含み、表示開始タイミング情報が第1のタイミングからの経過時間で規定され、表示情報を用いての表示の処理を前記表示開始タイミング情報により行う第3のステップを含むことで、表示を開始するまでの経過時間をどの程度に決定するかの判断を容易にすることができる。これにより、利用者にとって分かりやすい音声処理装置を構成することができる。
音声処理装置の機能ブロック図。 ダイアログ情報の例を示す図。 ダイアログ情報の実行におけるタイムトラックを示す図。 ダイアログ情報の関係を示す図。 ダイアログ情報の例を示す図。 シナリオの構成例を示す図。 次のダイアログ開始タイミングに関する情報について説明する図。 音声処理システムの構成例を示す図。 音声処理システムの他の構成例を示す図。
以下、本発明の好適な実施形態について図面を用いて詳細に説明する。なお、以下に説明する実施形態は、特許請求の範囲に記載された本発明の内容を不当に限定するものではない。また、以下で説明される構成の全てが本発明の必須構成要件であるとは限らない。用いる図は、説明のための便宜上のものである。
(第1実施形態)
図1に、本実施形態に係る音声処理装置1の機能ブロック図を示す。音声処理装置1は、音声認識部10、表示情報出力処理部20、ダイアログ実行制御部30、ダイアログ情報記憶部40、音声ガイド出力処理部50、音声辞書記憶部60、表示情報記憶部70、及び、音声ガイド記憶部80を有する。音声認識部10には、図示しない音声入力装置から入力された音声が音声信号となって入力される。また、表示情報出力処理部20が出力する表示情報は、図示しない表示部により表示される。また、音声ガイド出力処理部50が出力する音声ガイドは図示しない音声出力部により音声として出力される。
音声認識部10は、入力される音声信号に対する音声認識を行う部分である。音声認識の処理を行う期間は、ダイアログ実行制御部30から出力される信号により制御される。
表示情報出力処理部20は、表示情報の出力処理を行う部分である。表示情報の出力タイミングは、ダイアログ実行制御部30から出力される信号により制御される。
ダイアログ実行制御部30は、後述するダイアログ情報記憶部40に記憶されたダイアログ情報に基づいて、音声認識部10、表示情報出力処理部20、及び、音声ガイド出力処理部50などの制御を行う部分である。ダイアログ情報には、所定のシーンにおける、音声出力情報、表示情報、音声認識情報、及び、これら各々の情報に対する制御情報などが含まれる。
なお、ダイアログ情報に含まれる音声出力情報は、予め音声ガイド記憶部80に記憶されているフレーズなどの複数の音声データの中から所定の音声データを選択するための選択情報であってもよいし、音声データそのものであってもよい。音声データそのものの場合には、ダイアログ情報に含まれた音声データに対して音声合成の処理が行われ、音声ガイドとして出力される。
同様に、ダイアログ情報に含まれる表示情報は、予め表示情報に含まれる複数の表示データの中から所定の表示データを選択するための選択情報であってもよいし、表示データそのものであってもよい。表示データそのものである場合には、ダイアログ情報に含まれた表示情報が表示情報として出力される。
ダイアログ情報記憶部40は、上述したダイアログ情報を記憶する部分である。
音声ガイド出力処理部50は、ダイアログ実行制御部30の指示に従い、例えば音声合成を行うことにより音声信号を生成し音声ガイドとして出力する。
音声辞書記憶部60は、音声認識部10において音声認識の処理で用いる音声認識データベースを記憶する部分である。入力された音声信号は、音声認識データベースのデータと比較されることで音声認識が行われる。なお、音声認識の処理の手法としては種々の公知の方法を用いることができ、例えば、隠れマルコフモデル(Hidden Markov Model)を用いて音声認識の処理を行ってもよいし、ダイレクトマッチングの手法を用いて音声認識の処理を行っても良い。音声認識の手法若しくは処理自体は本実施形態においては特に限定は行わないものとする。
ダイアログ実行制御部30は、ダイアログ情報を実行する部分である。具体的には、実行するダイアログ情報を特定し、当該特定したダイアログ情報を解析し音声処理装置1内部の処理が必要な部分に制御信号を出力したりデータを供給したりする。
ダイアログ実行制御部30は、所与のイベントの発生により、所与のイベントに対応する所与のダイアログ情報の実行を開始する。当該ダイアログ情報の内容に基づいて、音声ガイド出力処理部50の制御を行い音声ガイドを出力し、その後所定のタイミングで表示情報出力処理部20の制御を行い表示情報を出力し、同様に所定のタイミングで音声認識部10の制御を行い入力された音声信号に対する音声認識の処理を行う。音声認識の処理の結果はダイアログ実行制御部30に伝達される。その後、音声認識の処理の結果は、ダイアログ実行制御部30の指示で、表示情報出力処理部20により表示部に表示されたり、音声ガイド出力処理部50により音声として出力されることにより、利用者に伝えられることになる。
なお、音声処理装置1は、単独で用いられることでもよく、他の装置と接続されて用いられることでもよい。また、何らかの装置の中に組み込まれて用いられることでもよい。また、音声処理装置1を制御するホスト装置が接続されていてもよい。ホスト装置が接続されている場合、ダイアログ情報はホスト装置から予め供給されてダイアログ情報記憶部40に記憶されていてもよく、個々のダイアログ情報が実行毎にホスト装置から供給されることでもよい。同様に、表示情報記憶部70及び音声ガイド記憶部80の各々に記憶されているデータも、ホスト装置から予め供給されたものであってもよいし、実行毎にホスト装置から供給されることでもよい。
なお、上記した所与のイベントは、ホスト装置からのコマンドやトリガ信号の受信でも良いし、音声処理装置自体が生成したイベント、例えば前のダイアログ情報の実行により発生したイベントでもよい。
また、音声処理装置1に入力される音声信号は、図示しないA/Dコンバーターや図示しないフィルターなどでノイズ除去などが施されていてもよい。
次に、簡単なダイアログ情報の例を示し、当該ダイアログ情報に基づく音声処理装置1の動作について説明する。
本実施例は、エアコンのリモコン装置(図示は行わない)に本発明を適用した場合の例である。図2にダイアログ情報の形式を、図3に図2で示したダイアログ情報のタイムトラックを模式的に示す。また、当該リモコン装置には表示部が実装されているものとする。また、本実施例で用いるダイアログ情報は、エアコンの動作モードのひとつの設定を行う場合に実行されるダイアログ情報である。
図2−(A)は、ダイアログ情報の後半部分に制御情報がまとめて置かれている形式のダイアログ情報である。図2−(A)に示したダイアログ情報300は、ダイアログ番号302、音声ガイド制御情報310(音声ガイド情報312及び音声ガイド情報314)、表示情報321、音声認識選択肢情報331、及び、複数のタイミング情報(タイミング情報340(d1)、タイミング情報350(d2)、タイミング情報360(g1)、及び、タイミング情報370(g2))から構成される。それぞれの情報には、図示はしていないが情報を識別するためのタグが振られている。ここで、ダイアログ番号302は、自身のダイアログ情報を指し示す番号である。
タイミング情報340(d1)は、最初に出力される音声ガイド情報312の出力タイミングを規定する制御情報である。ダイアログ情報300の実行がダイアログ実行制御部30により開始されると、タイミング情報340(d1)で規定された時間の経過後にダイアログ実行制御部30は音声ガイド出力処理部50に対して音声ガイド情報312の出力を指示する。これにより、音声ガイド出力処理部50により音声出力の処理が実行される。音声ガイド情報312の音声出力処理が終了すると、音声ガイド出力処理部50は、ダイアログ実行制御部30に対して処理の終了を通知する。この段階で「モード設定」というフレーズが音声で出力されている。
次に、ダイアログ実行制御部30は、タイミング情報350(d2)で規定された時間の経過後に音声ガイド出力処理部50に対して音声ガイド情報314の出力を指示すると共に、タイミング情報360(g1)及びタイミング情報370(g2)の計測を開始する。
音声ガイド出力処理部50は、ダイアログ実行制御部30の指示を受けて音声出力の処理を実行し、終了するとダイアログ実行制御部30に対して処理の終了を通知する。この段階で、「してください」というフレーズが音声で出力されている。ここまでの段階で、音声ガイド「モード設定」「してください」の2つのフレーズが時間間隔d2をあけて出力されており、利用者にとってはより人の発話に近い、自然な聞きやすい音声として捉えさせることが可能となる。
ダイアログ実行制御部30は、タイミング情報360(g1)の計測が終了すると表示情報321の表示を表示情報出力処理部20に指示する。これなより、リモコン装置の表示部に「通常冷暖房」「おやすみ冷暖房」「急速冷暖房」の文字が表示される。
ダイアログ実行制御部30は、タイミング情報370(g2)の計測が終了すると
音声認識部10に対して、音声認識選択肢情報331を出力すると共に入力される音声信号に対する音声認識の処理の開始を指示する。その後、音声認識部10において音声認識の処理が終了すると音声認識部10は処理の終了を結果と共にダイアログ実行制御部30に通知する。ダイアログ実行制御部30は、音声認識の処理の結果に対応した処理(例えば、対応する制御信号の生成)を行い、ダイアログ情報300の実行を終了させる。
図2−(A)に対し、図2−(B)は、制御情報が用いられるデータの直前に置かれる形式のダイアログ情報である。図2−(B)に示したダイアログ情報400は、含まれる情報の内容はダイアログ情報300と同様であるが、情報の並びの順番が異なる。ダイアログ情報400は、ダイアログ番号402、音声ガイド制御情報410、表示制御情報420及び音声認識制御情報430を含む。
音声ガイド制御情報410には、音声ガイド情報412と音声ガイド情報412に対するタイミング情報440 (d1)、及び、音声ガイド情報414と音声ガイド情報414に対するタイミング情報450(d2)が含まれる。
表示制御情報420には、表示情報421と表示情報421に対するタイミング情報460(g1)が含まれる。
音声認識制御情報430には、音声認識選択肢情報431と音声認識選択肢情報431に対するタイミング情報470(g2)が含まれる。
図2−(A)または図2−(B)のいずれの形式を用いるかは特に限定するものではなく、音声処理装置の用途にあったものを選択して使用することでよい。本発明において、ダイアログ情報におけるそれぞれの情報の並びは特に限定するものではなく、音声処理装置1若しくは音声処理装置1と接続される装置にとって好ましい形式のものであればよい。また、ダイアログ情報300及びタイミング情報400のそれぞれにおいては共にフレーズ数の制限はなく、必要なフレーズ数に見合った数の音声ガイド情報及び音声タイミング情報が含まれることでよい。
図3に示したタイムトラックは、ダイアログ情報400の場合として描いているが、ダイアログ情報300の場合においても同様のタイムトラックとなる。図3の横軸tは時間軸(1つのダイアログ内におけるローカル時間の時間軸)である。
時刻t0は、ダイアログ情報400の開始タイミングである。ダイアログの開始時刻t0からタイミング情報470(d1)後の時刻t1に最初のフレーズである「モード設定」の音声ガイドの再生が開始される。「モード設定」の音声ガイドの再生が終了する時刻t2の後、タイミング情報(d2)後の時刻t3に次のフレーズである「してください」314の音声ガイドの再生が開始される。
時刻t3においてタイミング情報460(g1)及びタイミング情報470(g2)の計測が開始され、タイミング情報460(g1)後の時刻t5に表示情報421の表示が実行され、タイミング情報470(g2)後の時刻t7に音声認識選択肢情報431が音声認識部10に出力されて音声認識の処理が開始される。
なお、図3においては、表示情報の表示後に音声認識の処理が開始される形となっているが、タイミング情報460(g1)及びタイミング情報470(g2)で規定される時間には制限があるわけではなく、タイミング情報470(g2)で規定される時間間隔をタイミング情報460(g1)で規定される時間間隔よりも短くし、音声認識の処理の開始を表示情報421の表示の先にすることでもかまわない。
(第2実施形態)
本実施形態は、複数のダイアログ情報を続けて実行する場合の例である。
ダイアログ情報を複数組み合わせてひとつのシナリオとし、実行するダイアログ情報を利用者の返答により選択していくことで、例えば、より複雑な機器の制御なども可能となる。
図4−(A)及び図4−(B)のそれぞれに、ダイアログ情報の遷移の形式を示す。図4−(A)に示したのは、複数のダイアログ情報の実行が先に実行されるダイアログ情報の実行結果によって左右される場合であり、図4−(B)に示したのは、複数のダイアログ情報が予め定められた順序で実行される場合である。
図4−(A)では、ダイアログ情報1の音声ガイドによる質問に対する音声認識情報に選択肢1〜選択肢3があり、それぞれの選択肢に対応するダイアログ情報2〜4が用意されており、ダイアログ情報1の実行結果として選択された選択肢nに対応するダイアログ情報nが次に実行される構成となっている。
図4−(B)では、ダイアログ情報1の実行後、ダイアログ情報1の実行結果(例えば音声認識の結果)にかかわらず、ダイアログ情報2が実行されることになる。続いて、ダイアログ情報2の実行後にダイアログ情報2の実行結果にかかわらずダイアログ情報3が実行される。
図4−(A)及び図4−(B)のいずれの形式でも、次に実行されるダイアログ情報の指定が必要となる。ダイアログ情報の指定はダイアログ番号により行うことでよい。
図5に、次に実行するダイアログ情報を含むダイアログ情報500の例を示す。ダイアログ情報500は、ダイアログ番号502、音声ガイド情報511、音声ガイド情報512、表示情報520、音声認識情報530、タイミング情報540、タイミング情報550、タイミング情報560、タイミング情報570、ダイアログ間隔情報580、次段ダイアログ情報591、次段ダイアログ情報592、及び、次段ダイアログ情報593から構成される。
ダイアログ情報500には音声認識の処理の選択肢として「通常冷暖房」、「おやすみ冷暖房」及び「急速冷暖房」の3つの選択肢がある。「通常冷暖房」が選択された場合には次段ダイアログ情報591で示されるダイアログ番号を有するダイアログ情報が実行され、「おやすみ冷暖房」が選択された場合には次段ダイアログ情報592で示されるダイアログ番号を有するダイアログ情報が実行され、「急速冷暖房」が選択された場合には次段ダイアログ情報593で示されるダイアログ番号を有するダイアログ情報が実行される。
ダイアログ間隔情報580は、ダイアログ情報500の実行における音声認識の処理の結果が出されてから次のダイアログ情報の実行を開始するまでの時間間隔を示すものである。なお、ダイアログ実行制御部30は、予め実行に必要なダイアログ情報をダイアログ情報記憶部40などから読みだしておいてもよく、ダイアログ間隔情報580で規定されている時間にダイアログ情報記憶部40などから読みだすようにしてもよい。
なお、次段ダイアログ情報591〜593に同じダイアログ番号を設定しておくことで図4−(B)で示した形式にも対応することが可能である。また、図4−(B)で示した形式においては、図5において次に実行するダイアログ情報の領域をひとつとすることで定義してもよい。
本実施例は、エアコン、テレビ及び照明機器の操作を行うリモコン装置を想定したシナリオの実行において、実行されるダイアログ情報の遷移について説明するものである。
図6は、実行されるダイアログ情報の関係(シナリオの構成)を示した図である。図6には、ダイアログイメージ610〜640を図示している。ダイアログイメージとは、ダイアログ情報の内容の一部を図式的に示したものである。リモコンの操作は、最初に操作を行う機器を選択し、次に選択した機器に対する操作を行う、という順番で行われる。
図6で示したシナリオの構成は図4−(A)で示した構成である。ダイアログイメージ610は図4−(A)におけるダイアログ情報1に対応する。同様に、ダイアログイメージ620は図4−(A)におけるダイアログ情報2に、ダイアログイメージ630は図4−(A)におけるダイアログ情報3に、ダイアログイメージ640は図5−(A)におけるダイアログ情報4に対応する。
ダイアログイメージ610は最初に実行されるダイアログ情報(以降、ダイアログ情報1と記載する)を示している。ダイアログ情報1では、対話開始となる最初の質問であるフレーズ710(「機器を選択してください」、音声ガイド1)に対して、回答1としてフレーズ720(「エアコン」、選択肢1)、回答2としてフレーズ730(「テレビ」、選択肢2)、回答3としてフレーズ740(「照明」、選択肢3)の複数の選択肢が設定されている。
本実施の形態では、例えば音声ガイド1が出力されると、当該音声ガイド1に対応づけられた複数の選択肢である回答1〜回答3のフレーズに対応する言語モデルについて音声認識処理をおこない、ユーザーの回答音声がいずれのフレーズであるか判定して、判定結果に基づいて、次に出力する音声ガイドの選択、又は対話の終了の判断等を行う。
各選択肢について、対応するダイアログ情報が用意されている。ダイアログイメージ610における音声認識の処理の結果が回答1の場合には、次にダイアログイメージ620(以降、ダイアログ情報2と記載する)が実行される。ダイアログ情報2では、対話開始となる最初の質問であるフレーズ750(「モード設定してください」、音声ガイド11)に対して、回答111としてフレーズ760(「通常冷暖房」、選択肢1)、回答2としてのフレーズ770(「おやすみ冷暖房」、選択肢2)、回答3としてのフレーズ780(「急速冷暖房」、選択肢3)の複数の選択肢が設定されている。
図6は、次のダイアログ開始タイミングに関して説明する図である。
図7の横軸Tは時間軸(複数の関連づけられたダイアログを管理する際の時間軸)であり、ダイアログ情報1の開始タイミングを時刻t10、ダイアログ情報1の終了タイミングを時刻t12、ダイアログ情報2の開始タイミングを時刻t13とする。時刻t13と時刻t12との間の時間間隔は、ダイアログ間隔情報580により規定される。
音声処理装置1が指定されたダイアログ情報に従ってタイミング管理を行うので、音声処理装置1を含むシステムのアプリケーションの開発の負荷低減並びに音声処理装置1のホスト側における処理の負荷低減を図ることができる。
(第3実施形態)
本実施形態は、音声処理装置1を含むシステムの例を示すものである。
図8は、本実施の形態の音声処理システム100の構成例を示す図である。
音声処理システム100は、音声処理装置1と、ホスト200を含んで構成されている。
ホスト200は音声処理システム100を搭載する機器のプロセッサー(例えばCPU等)でもよい。ホスト200は、例えばダイアログ開始時刻情報210を保持しており、ダイアログ開始時刻に、音声処理装置1に対してダイアログ開始要求220(所与のイベントの一例)を行ってもよい。ダイアログ開始要求220は、例えばコマンドやトリガ信号として送信されてもよい。
音声処理装置(集積回路装置)1は、図1で説明した各部を含み、ダイアログ情報42を保持している。ダイアログ情報は、予め音声処理装置1に組み込まれている構成でもよいし、所与のタイミングでホスト200から受信し記憶部に格納する構成でもよい。
音声処理装置(集積回路装置)1は、ホスト200からのダイアログ開始要求220によって、ダイアログの実行を開始する。実行するダイアログのダイアログ情報42に従って、音声ガイド(音声ガイド情報82)をスピーカー120から出力する。また実行するダイアログのダイアログ情報42に従って、表示テキスト(表示テキスト情報72)をパネル130に表示する。また実行するダイアログのダイアログ情報42に従って、マイク110から入力された音声の音声認識を行う。
音声認識の結果は音声処理装置1からホスト200に知らせてもよいし、知らせなくてもよい。
図9は、本実施の形態の音声処理システム101の構成例を示す図である。
図9では、ホスト200がパネル240に表示画像を出力する構成を有しており、音声処理装置1は表示テキストの出力を行わない。
このような場合、音声処理装置(集積回路装置)1は、図8の場合と同様に、ホスト200からのダイアログ開始要求220によって、ダイアログの実行を開始する。実行するダイアログのダイアログ情報42に従って、音声ガイド情報82をスピーカー120から出力する。
しかし図8の場合のように実行するダイアログのダイアログ情報42に従って、表示テキスト情報72をパネル130に表示する代わりに、ホスト200に表示情報の出力を指示する割り込み信号140を送信する。ホスト200は、音声処理装置1からの割り込み信号140を受けると、表示画像(表示画像情報230)をパネル240に表示する。
なお、上述した実施形態及び変形例は一例であって、これらに限定されるわけではない。例えば各実施形態及び各変形例は、複数を適宜組み合わせることが可能である。
本発明は、上述した実施形態及び具体例に限定されるものではなく、さらに種々の変形が可能である。例えば、本発明は、実施形態で説明した構成と実質的に同一の構成(例えば、機能、方法及び結果が同一の構成、あるいは目的及び効果が同一の構成)を含む。また、本発明は、実施形態で説明した構成の本質的でない部分を置き換えた構成を含む。また、本発明は、実施形態で説明した構成と同一の作用効果を奏する構成又は同一の目的を達成することができる構成を含む。また、本発明は、実施形態で説明した構成に公知技術を付加した構成を含む。
1…音声処理装置、10…音声認識部、20…表示情報出力処理部、30…ダイアログ実行制御部、40…ダイアログ情報記憶部、42…ダイアログ情報、50…音声ガイド出力処理部、60…音声辞書記憶部、70…表示情報記憶部、72…表示テキスト情報、80…音声ガイド記憶部、82…音声ガイド情報、100…音声処理システム、101…音声処理システム、110…マイク、120…スピーカー、130…パネル、140…割り込み信号、200…ホスト、210…ダイアログ開始時刻情報、220…ダイアログ開始要求、230…表示画像情報、240…パネル、300…ダイアログ情報、302…ダイアログ番号、310…音声ガイド制御情報、321…表示情報、331…音声認識情報、331…音声認識選択肢情報、340…タイミング情報、350…タイミング情報、360…タイミング情報、370…タイミング情報、400…ダイアログ情報、402…ダイアログ番号、410…音声ガイド制御情報、412…音声ガイド情報、414…音声ガイド情報、420…表示制御情報、421…表示情報、430…音声認識制御情報、431…音声認識選択肢情報、440…対するタイミング情報、450…対するタイミング情報、460…タイミング情報、470…タイミング情報、500…ダイアログ情報、502…ダイアログ番号、511…音声ガイド情報、512…音声ガイド情報、520…表示情報、530…音声認識情報、540…タイミング情報、550…タイミング情報、560…タイミング情報、570…タイミング情報、580…ダイアログ間隔情報、591…次段ダイアログ情報、592…次段ダイアログ情報、593…次段ダイアログ情報、610…ダイアログイメージ、620…ダイアログイメージ、630…ダイアログイメージ、640…ダイアログイメージ、710…フレーズ、720…フレーズ、730…フレーズ、740…フレーズ、750…フレーズ、760…フレーズ、770…フレーズ、780…フレーズ。

Claims (9)

  1. 音声出力情報、音声認識情報及び制御情報を含むダイアログ情報に従い音声出力制御及び音声認識のタイミング制御を行うダイアログ実行制御部と、
    前記ダイアログ実行制御部の制御により前記音声出力情報で指定される出力音声信号の出力を行う音声出力制御部と、
    前記ダイアログ実行制御部の制御により前記音声認識情報を用いて、入力された入力音声信号に対する音声認識の処理を行う音声認識部と、を含み、
    前記制御情報は、前記出力音声信号の音声出力タイミング情報及び前記入力音声信号に対する音声認識開始タイミング情報を含み、
    前記音声認識開始タイミング情報は、前記音声出力タイミング情報で規定される第1のタイミングからの経過時間で規定されることを特徴とする音声処理装置。
  2. 前記ダイアログ情報には、複数の前記音声出力情報が含まれ、所定の前記音声出力情報の出力を規定する前記音声出力タイミング情報は、直前に出力された前記音声出力情報の出力制御が終了してからの経過時間で規定されることを特徴とする請求項1に記載の音声処理装置。
  3. 更に、前記ダイアログ情報を記憶するダイアログ記憶部を有することを特徴とする請求項1又は2に記載の音声処理装置。
  4. 前記第1のタイミングは、前記ダイアログ情報に含まれる前記音声出力情報の中で最後に出力される前記音声出力情報に対する前記音声出力タイミング情報で規定されることを特徴とする請求項1乃至3のいずれか1項に記載の音声処理装置。
  5. 請求項1乃至4のいずれか1項に記載の音声処理装置を有することを特徴とする集積回路装置。
  6. 音声処理装置と、
    音声入力部と、
    情報表示部と、
    音声出力部と、を含み、
    前記音声処理部は、
    音声出力情報、音声認識情報及び制御情報を含むダイアログ情報に従い音声出力制御及び音声認識のタイミング制御を行うダイアログ実行制御部と、
    前記音声出力部を制御し、前記ダイアログ実行制御部の制御により前記音声出力情報で指定される出力音声信号の出力を行う音声出力制御部と、
    前記ダイアログ実行制御部の制御により前記音声認識情報を用いて、前記音声入力部から出力された入力音声信号に対する音声認識の処理を行う音声認識部と、を有し、
    前記制御情報は、前記出力音声信号の音声出力タイミング情報、前記入力音声信号に対する音声認識開始タイミング情報及び前記情報表示部に対する表示開始タイミング情報を含み、
    前記音声認識開始タイミング情報及び前記表示開始タイミング情報は、前記音声出力タイミング情報で規定される第1のタイミングからの経過時間で規定されることを特徴とする音声処理システム。
  7. 前記第1のタイミングは、前記ダイアログ情報に含まれる前記音声出力情報の中で最後に出力される前記音声出力情報に対する前記音声出力タイミング情報で規定されることを特徴とする請求項6に記載の音声処理システム。
  8. 音声出力情報、音声認識情報及び制御情報を含むダイアログ情報を制定し、
    前記制御情報には、音声出力タイミング情報及び音声認識開始タイミング情報が含まれ、
    前記音声出力情報の出力を前記音声出力タイミング情報により行う第1のステップと、
    前記音声認識情報を用いての音声認識の処理を前記音声認識タイミング情報により行う第2のステップと、を含み、
    前記音声認識開始タイミング情報は、前記音声出力タイミング情報で規定される第1のタイミングからの経過時間で規定されることを特徴とする音声処理装置の制御方法。
  9. 更に、前記ダイアログ情報は表示情報を含むと共に前記制御情報は表示開始タイミング情報を含み、
    前記表示開始タイミング情報は、前記第1のタイミングからの経過時間で規定され、
    前記表示情報を用いての表示の処理を前記表示開始タイミング情報により行う第3のステップを含むことを特徴とする請求項8に記載の音声処理装置の制御方法。
JP2013067149A 2013-03-27 2013-03-27 音声処理装置、集積回路装置、音声処理システム及び音声処理装置の制御方法 Pending JP2014191212A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013067149A JP2014191212A (ja) 2013-03-27 2013-03-27 音声処理装置、集積回路装置、音声処理システム及び音声処理装置の制御方法
US14/187,999 US20140297275A1 (en) 2013-03-27 2014-02-24 Speech processing device, integrated circuit device, speech processing system, and control method for speech processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013067149A JP2014191212A (ja) 2013-03-27 2013-03-27 音声処理装置、集積回路装置、音声処理システム及び音声処理装置の制御方法

Publications (1)

Publication Number Publication Date
JP2014191212A true JP2014191212A (ja) 2014-10-06

Family

ID=51621691

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013067149A Pending JP2014191212A (ja) 2013-03-27 2013-03-27 音声処理装置、集積回路装置、音声処理システム及び音声処理装置の制御方法

Country Status (2)

Country Link
US (1) US20140297275A1 (ja)
JP (1) JP2014191212A (ja)

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5548681A (en) * 1991-08-13 1996-08-20 Kabushiki Kaisha Toshiba Speech dialogue system for realizing improved communication between user and system
DE69232407T2 (de) * 1991-11-18 2002-09-12 Toshiba Kawasaki Kk Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung
JPH06259090A (ja) * 1993-03-09 1994-09-16 Nec Corp 音声対話システム
US20020055844A1 (en) * 2000-02-25 2002-05-09 L'esperance Lauren Speech user interface for portable personal devices
JP3644955B2 (ja) * 2001-09-27 2005-05-11 松下電器産業株式会社 会話装置、会話親機装置、会話子機装置、会話制御方法、および会話制御プログラム
KR100580619B1 (ko) * 2002-12-11 2006-05-16 삼성전자주식회사 사용자와 에이전트 간의 대화 관리방법 및 장치
DE10338512A1 (de) * 2003-08-22 2005-03-17 Daimlerchrysler Ag Unterstützungsverfahren für Sprachdialoge zur Bedienung von Kraftfahrzeugfunktionen
JP2006039120A (ja) * 2004-07-26 2006-02-09 Sony Corp 対話装置および対話方法、並びにプログラムおよび記録媒体
JP2007213176A (ja) * 2006-02-08 2007-08-23 Sony Corp 情報処理装置および方法、並びにプログラム
JP4471128B2 (ja) * 2006-11-22 2010-06-02 セイコーエプソン株式会社 半導体集積回路装置、電子機器
JP2008203559A (ja) * 2007-02-20 2008-09-04 Toshiba Corp 対話装置及び方法
US8155959B2 (en) * 2007-11-07 2012-04-10 Robert Bosch Gmbh Dialog system for human agent to correct abnormal output
JP5381988B2 (ja) * 2008-07-28 2014-01-08 日本電気株式会社 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム
WO2010084881A1 (ja) * 2009-01-20 2010-07-29 旭化成株式会社 音声対話装置、対話制御方法及び対話制御プログラム
JP5431282B2 (ja) * 2010-09-28 2014-03-05 株式会社東芝 音声対話装置、方法、プログラム

Also Published As

Publication number Publication date
US20140297275A1 (en) 2014-10-02

Similar Documents

Publication Publication Date Title
US11854527B2 (en) Electronic device and method of controlling speech recognition by electronic device
JP6751433B2 (ja) アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体
EP3788620B1 (en) Supplementing voice inputs to an automated assistant according to selected suggestions
JP6752870B2 (ja) 複数のウェイクワードを利用して人工知能機器を制御する方法およびシステム
US9953648B2 (en) Electronic device and method for controlling the same
KR102411619B1 (ko) 전자 장치 및 그 제어 방법
JP6078964B2 (ja) 音声対話システム及びプログラム
JP6725006B2 (ja) 制御装置および機器制御システム
JP2008129412A (ja) 半導体集積回路装置、電子機器
CN104240718A (zh) 转录支持设备和方法
JP2007232829A (ja) 音声対話装置とその方法及びプログラム
CN112017650A (zh) 电子设备的语音控制方法、装置、计算机设备和存储介质
KR20220037819A (ko) 복수의 기동어를 인식하는 인공 지능 장치 및 그 방법
WO2018105373A1 (ja) 情報処理装置、情報処理方法、および情報処理システム
CN113227962A (zh) 电子装置及其控制方法
JPWO2017175442A1 (ja) 情報処理装置、および情報処理方法
US10224021B2 (en) Method, apparatus and program capable of outputting response perceivable to a user as natural-sounding
CN111063356A (zh) 电子设备响应方法及系统、音箱和计算机可读存储介质
JP2017021245A (ja) 語学学習支援装置、語学学習支援方法および語学学習支援プログラム
JP2014191212A (ja) 音声処理装置、集積回路装置、音声処理システム及び音声処理装置の制御方法
KR20200017293A (ko) 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법
EP3955099A1 (en) Method and device for controlling the operation mode of a terminal device, and storage medium
KR20190091265A (ko) 정보 처리 장치, 정보 처리 방법, 및 정보 처리 시스템
US11150923B2 (en) Electronic apparatus and method for providing manual thereof
KR102093353B1 (ko) 서비스 제공 장치 및 방법

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150109