JP6359327B2 - 情報処理装置および制御プログラム - Google Patents

情報処理装置および制御プログラム Download PDF

Info

Publication number
JP6359327B2
JP6359327B2 JP2014091919A JP2014091919A JP6359327B2 JP 6359327 B2 JP6359327 B2 JP 6359327B2 JP 2014091919 A JP2014091919 A JP 2014091919A JP 2014091919 A JP2014091919 A JP 2014091919A JP 6359327 B2 JP6359327 B2 JP 6359327B2
Authority
JP
Japan
Prior art keywords
call
phrase
response
information processing
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014091919A
Other languages
English (en)
Other versions
JP2015210390A (ja
Inventor
暁 本村
暁 本村
正徳 荻野
正徳 荻野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2014091919A priority Critical patent/JP6359327B2/ja
Priority to PCT/JP2015/051703 priority patent/WO2015162953A1/ja
Priority to US15/303,583 priority patent/US20170032788A1/en
Priority to CN201580021261.4A priority patent/CN106233377B/zh
Publication of JP2015210390A publication Critical patent/JP2015210390A/ja
Application granted granted Critical
Publication of JP6359327B2 publication Critical patent/JP6359327B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Description

本発明は、発話者が発した音声に応じたフレーズを決定する情報処理装置等に関する。
人間とロボットとが対話可能な対話システムが、従来から広く研究されている。例えば、特許文献1には、入力音声信号の蓄積と、入力音声信号の分析と、蓄積した入力音声信号の分析と、の何れの処理を行うかを切り換え、入力音声信号を蓄積する場合は、入力音声信号の順序を入れ替えて音声認識することが記載されている。
特開平10−124087号公報(1998年5月15日公開) 特開2006−106761号公報(2006年4月20日公開) 特開2006−171719号公報(2006年6月29日公開) 特開2007−79397号公報(2007年3月29日公開)
特許文献1〜4に開示された技術をはじめとして、従来技術においては、質問に対するロボットからの回答が終了するまで、発話者は待機するであろうことが想定される一問一答のコミュニケーションが前提とされている。そのため、複数の呼びかけが連続してなされた場合に不適切な応答をする場合があるという問題がある。なお、このような問題点は、ロボットに限られず、人間の発する音声を認識して、その音声に対する応答を決定する情報処理装置全般に生じる問題点である。本発明は、この問題に鑑みてなされたものであって、複数の呼びかけが連続してなされた場合であっても適切な応答を行うことのできる情報処理装置等を提供することにある。
上記の課題を解決するために、本発明の一態様に係る情報処理装置は、ユーザが呼びかけた音声に応答するフレーズを決定する情報処理装置であって、応答のフレーズを決定すべき対象呼びかけを受け付けた場合に、該対象呼びかけとは異なる他の呼びかけに対する自装置の対応状況を特定する対応状況特定手段と、上記対象呼びかけに応答するフレーズとして、上記対応状況特定手段が特定した対応状況に応じたフレーズを決定するフレーズ決定手段とを備えている。
本発明の一態様によれば、複数の呼びかけが連続してなされた場合であっても、適切な応答を行うことができるという効果を奏する。
本発明の実施形態1に係る情報処理装置の構成を示す機能ブロック図である。 本発明の実施形態1に係る情報処理装置が呼びかけに対する応答を出力する処理を示すフローチャートである。 呼びかけに対する対応状況の例を示す図である。 特定された対応状況のパターンに応じたテンプレートを選択する処理の詳細を示すフローチャートである。 本発明の実施形態2に係る情報処理装置の構成を示す機能ブロック図である。 本発明の実施形態2に係る情報処理装置が呼びかけに対する応答を出力する処理を示すフローチャートである。 本発明の実施形態3に係る情報処理装置のハードウェア構成を示すブロック図である。
〔実施形態1〕
〔1.情報処理装置1の概要〕まず、情報処理装置1の構成について図1に基づいて説明する。図1は情報処理装置1の構成を示す機能ブロック図である。情報処理装置1は、ユーザの音声による一つの呼びかけ(以下、当該呼びかけを“処理対象の呼びかけ(対象呼びかけ)”と表す)に対する応答として、当該処理対象の呼びかけ以外の呼びかけ(以下、“他の呼びかけ”と表す。)に対する情報処理装置1の対応状況に基づいて生成したフレーズを出力する装置である。情報処理装置1は、例えば対話ロボットのように、ユーザとの対話を主機能とする装置であってもよいし、例えば掃除ロボットのように、他の機能を主機能とする装置であってもよい。また、図1に示すように、情報処理装置1は、音声入力部2、音声出力部3、制御部4、および記憶部5を備えている。
音声入力部2は、ユーザの音声を信号に変換し、制御部4へ出力する。音声入力部2はマイクロフォンであってもよく、またA/D(Analog/Digital)コンバータを備えていてもよい。音声出力部3は、制御部4から出力される信号に基づき、音声を出力する。音声出力部3は、スピーカーであってもよく、また増幅回路やD/A(Digital/Analog)コンバータを備えていてもよい。制御部4は、図1に示す通り、音声解析部41、パターン特定部(対応状況特定手段)42、フレーズ生成部(フレーズ決定手段)43、およびフレーズ出力制御部44を含んでいる。
音声解析部41は、音声入力部2から出力された信号を解析し、呼びかけとして受け付ける。呼びかけを受け付けた場合、音声解析部41は、当該呼びかけを受け付けた順番を示す番号(以下、受付番号と表す)および該呼びかけを受け付けたことを対応状況情報51へ記録し、また、受付番号をパターン特定部42へ通知する。また、音声解析部41は、音声を解析した結果を音声解析情報53として、呼びかけごとに記憶部5へ記録する。
パターン特定部42は、受付番号を音声解析部41から通知された場合、対応状況情報51を参照することによって、複数の呼びかけのそれぞれに対する情報処理装置1の対応状況(以下、単に対応状況と表す)が、予め定められたパターンのいずれに合致するかを特定する。より詳細には、パターン特定部42は、パターンを特定する時点(処理対象の呼びかけの受付後、応答前)の直近に行われた他の呼びかけの処理(他の呼びかけの受付または応答)に応じて対応状況を特定する。そして、パターン特定部42は、特定された対応状況のパターンを、受付番号と合わせてフレーズ生成部43へ通知する。なお、パターン特定部42が対応状況を判断するタイミングは、受付番号を通知された直後(処理対象の呼びかけが受け付けられた直後)に限られない。例えば、パターン特定部42は、受付番号を通知された後、所定の時間経過時に対応状況を判断してもよい。
フレーズ生成部43は、パターン特定部42が特定した対応状況のパターンに応じて、呼びかけに対する応答となるフレーズを生成(決定)する。フレーズ生成部43がフレーズを生成する処理の詳細は後述する。また、フレーズ生成部43は生成したフレーズを、受付番号と合わせてフレーズ出力制御部44へ出力する。
フレーズ出力制御部44は、フレーズ生成部43から出力されたフレーズを、音声出力部3から音声として出力させる。また、フレーズ出力制御部44は、呼びかけに対して応答したことを、受付番号と合わせて、対応状況情報51として記憶部5へ記録させる。
記憶部5は、対応状況情報51、テンプレート情報52、音声解析情報53、および基本フレーズ情報54を記憶する。記憶部5は、揮発性の記録媒体および/または不揮発性の記録媒体によって構成されていてもよい。対応状況情報51は、呼びかけの受付の順序を示す情報、および呼びかけに対する応答の出力の順序を示す情報を含んでいる。下記の表1は対応状況情報51の一例を示す表である。該表において、“#”行は記録した順番、“受付番号”行は呼びかけの受付番号、“処理”行は情報処理装置1が呼びかけを受け付ける処理を行ったことまたは呼びかけへの応答を出力する処理を行ったことを示す。
テンプレート情報52は、フレーズ生成部43が呼びかけに対する応答となるフレーズを生成するために用いる予め定められたテンプレートが対応状況のパターンごとに定められた情報である。なお、対応状況のパターンとテンプレートの対応付けについては、のちに表4を参照して詳細に説明する。本実施形態におけるテンプレート情報52は、下記に説明するテンプレートA〜Eの情報を含んでいる。
テンプレートAは、呼びかけに対して、呼びかけの直接の回答(応答)となるフレーズ(基本フレーズ情報54に基づいて決定されるフレーズ)を、そのまま応答となるフレーズとするというテンプレートである。テンプレートAは、呼びかけとそれに対する応答との対応関係をユーザが認識可能な対応状況にて用いられる。
テンプレートBは、いずれの呼びかけに対する応答であるかを示す文言を、応答となるフレーズに含めるというテンプレートである。テンプレートBは、例えば複数の呼びかけが連続してなされた場合のように、呼びかけとそれに対する応答との対応関係を、ユーザが認識することが困難な対応状況にて用いられる。いずれの呼びかけに対する応答であるかを示す文言は、“そう言えばさっきの話だけど”などの予め定められた文言であってもよい。また、呼びかけを要約した文言であってもよい。具体的には、例えば呼びかけが「好きな動物は何?」であった場合、「好きな動物は」、「好きなのは」、「好きな動物」などの文言であってもよい。また、呼びかけを繰り返し、さらに、定型句を付した文言であってもよい。具体的には、例えば、呼びかけが「好きな動物は何?」であった場合は、「“好きな動物は何?”(呼びかけの繰り返し)“って聞いた?”(定型句)」という文言であってもよい。また、「一つ前の話題だけど」などの、応答を返す呼びかけの順序を特定する文言であってもよい。
テンプレートCは、呼びかけを再度行ってもらうためのフレーズを生成するためのテンプレートである。テンプレートCは、例えば、「さっきの話、何でしたっけ?」、「さっきなんて言った?」、「もう一度さっきの話をして」などの予め定められたフレーズであってもよい。テンプレートCもテンプレートBと同様に、呼びかけとそれに対する応答との対応関係をユーザが認識することが困難な対応状況にて用いられる。テンプレートCの場合、ユーザに再度呼びかけを行わせるので、例えば2つの呼びかけが連続してなされ、そのいずれにも応答が返されていない対応状況において、応答させたい呼びかけを何れにするかをユーザに選択させることができる。
テンプレートDは、処理対象の呼びかけより前に受け付けられた呼びかけに関する処理を行っているため、処理対象の呼びかけに対する直接的な応答を返すことができないことを示すフレーズを生成するためのテンプレートである。テンプレートDもテンプレートB、Cと同様に、呼びかけとそれに対する応答との対応関係をユーザが認識することが困難な対応状況にて用いられる。テンプレートDでは、先に受け付けた呼びかけを優先する旨をユーザに伝えて、後の呼びかけ(処理対象の呼びかけ)への応答をキャンセルする(先勝ち)ことにより、呼びかけとそれに対する応答との対応関係をユーザに認識させる。テンプレートDは、例えば、「他のことを考え中なので答えられないよ」、「ちょっと待ってね」、「あとにしてくれる」などの予め定められたフレーズであってもよい。
テンプレートEは、処理対象の呼びかけより後に受け付けられた呼びかけに対する処理が開始されたために、処理対象の呼びかけに対する応答を返すことができなくなったことを示すフレーズを生成するためのテンプレートである。テンプレートEもテンプレートB〜Dと同様に、呼びかけとそれに対する応答との対応関係をユーザが認識することが困難な対応状況にて用いられる。テンプレートEでは、後に受け付けた呼びかけ(処理対象の呼びかけ)を優先する旨をユーザに伝えて、後の呼びかけへの応答をキャンセルする(後勝ち)ことにより、呼びかけとそれに対する応答との対応関係をユーザに認識させる。テンプレートEは、例えば「何言おうとしていたのか忘れちゃった」、「続けて聞くから前になんて聞かれたのか忘れちゃったよ」などの予め定められたフレーズであってもよい。
音声解析情報53は、ユーザからの音声による呼びかけを解析した結果を示す情報である。ユーザからの音声による呼びかけを解析した結果は受付番号と対応付けられている。基本フレーズ情報54は、呼びかけに対する直接の回答となるフレーズを生成するための情報である。具体的には、予め定められた呼びかけの文言と、直接の回答となるフレーズまたは直接の回答となるフレーズを生成するための情報とが対応付けられた情報である。下記の表2は、基本フレーズ情報54の一例である。基本フレーズ情報54が表2に示す情報である場合、“好きな動物は何?”という呼びかけに対する直接の回答となるフレーズ(テンプレートAが用いられた場合のフレーズ)は“犬だよ”である。また、“今日の天気は何?”という呼びかけに対する直接の回答となるフレーズは、図示しないサーバに、図示しない通信部を介して問い合わせた結果である。なお、基本フレーズ情報54は、情報処理装置1の記憶部5に格納されていてもよいが、情報処理装置1に外付けされた外部記憶装置に格納されていてもよい。また、図示しないサーバに基本フレーズ情報54を格納されていてもよい。他の情報についても同様である。
〔2.呼びかけに対する応答の生成に係る処理〕次に、情報処理装置1における呼びかけに対する応答を出力する処理を図2に基づいて説明する。図2は情報処理装置1における呼びかけに対する応答を出力する処理を示すフローチャートである。
最初に、ユーザが呼びかけを音声によって発呼した場合(S0)、音声入力部2は当該音声の入力を信号に変換し、音声解析部41へ出力する。音声解析部41は、音声入力部2から出力された信号を解析し、ユーザからの呼びかけとして受け付ける(S1)。呼びかけを受け付けた場合、音声解析部41は、当該呼びかけ(処理対象の呼びかけ)の受付番号および処理対象の呼びかけを受け付けたことを対応状況情報51へ記録し、また、受付番号をパターン特定部42へ通知する。また、音声解析部41は、処理対象の呼びかけの音声を解析した結果を音声解析情報53として、記憶部5へ記録する。
音声解析部41から受付番号を通知されたパターン特定部42は、対応状況情報51を参照し、呼びかけに対する情報処理装置1の直前の対応状況が、予め定められたいずれの対応状況のパターンに合致するかを特定する(S2)。続いて、パターン特定部42は、特定された対応状況のパターンを、受付番号と合わせてフレーズ生成部43へ通知する。
パターン特定部42から受付番号および対応状況のパターンの通知を受けたフレーズ生成部43は、当該対応状況のパターンに応じたテンプレートを選択する(S3)。続いて、パターン特定部42は、選択されたテンプレートが複数であるか否かを判定する(S4)。選択されたテンプレートが複数であった場合(S4でYES)、フレーズ生成部43は、選択されたテンプレートから一つのテンプレートを選択する(S5)。フレーズ生成部43は、選択する一つのテンプレートを、音声解析情報53を参照して呼びかけの内容に基づいて決定してもよいし、情報処理装置1に関する他の情報に基づいて決定してもよい。
続いて、フレーズ生成部43は、選択された一つのテンプレートを用いて呼びかけに対するフレーズ(応答)を生成(決定)する(S6)。また、フレーズ生成部43は生成したフレーズを、受付番号と合わせてフレーズ出力制御部44へ出力する。続いて、フレーズ出力制御部44は、フレーズ生成部43から出力されたフレーズを、音声出力部3から音声として出力させる(S7)。また、フレーズ出力制御部44は、呼びかけに対して応答したことを、受付番号と合わせて、対応状況情報51として記憶部5へ記録させる。
〔2.1.対応状況のパターンの特定〕図2のS2に示す対応状況のパターンの特定に係る処理について、図3および下記の表3に基づき詳細に説明する。図3は呼びかけに対する対応状況の例を示す図である。また、表3は、パターン特定部42によって特定される呼びかけの対応状況のパターンを示す表である。表3の例では、処理対象呼びかけの受付後に他の呼びかけ(呼びかけN+L)を受け付けた場合と、他の呼びかけ(呼びかけN−M)の受付後に処理対象呼びかけを受け付けた場合とを、それぞれ異なるパターンとしている。
なお、N、M、Lはそれぞれ正の整数を示す。ただし、以下では簡単のため、M=1,L=1である例を説明する。また、“●”および“○”は共にパターン特定部42がパターンを特定する時点において、処理(呼びかけの受付または呼びかけへの応答)が行われていることを示す。“●”と“○”との差異は、“●”は呼びかけNが受け付けられた時点において既に処理が行われていたことを示し、“○”は呼びかけNが受け付けられた時点において処理が行われていなかったことを示す点である。“×”は、パターンが特定される時点において処理が行われていないことを示す。なお、所定の処理の“●”と“○”は、処理対象の呼びかけの“受付”を示す列の“#”行の値と、当該所定の処理を示す列の“#”行の値との大小関係に基づいて識別される。“呼びかけa”は、受付番号が“a”である呼びかけを示し、“応答a”は、“呼びかけa”に対する応答を示す。パターン特定部42が図2のS2に示す処理において特定するパターンは、表3に示すパターン1〜5のいずれかである。
まず、パターン特定部42が、対応状況情報51に基づいて対応状況のパターンを特定する方法について説明する。なお、処理対象の呼びかけを呼びかけNとする。例えば、表1の対応状況情報51のうち、#=2の処理の受付が完了した時点においては、呼びかけN−M(M=1)の受付が完了しており、該呼びかけN−Mについて未応答である。よって、この時点においては呼びかけN−Mの受付が“●”であり、応答が“×”であるから、パターン特定部42は、表3に従って対応状況がパターン2であると特定する。
また、例えば、呼びかけNの受付後、応答前に、次の呼びかけN+L(L=1)がなされ、該呼びかけN+L(L=1)の方に先に応答した場合、対応状況情報51の最も“#”行の数値が大きい列が呼びかけN+1となり、この列の“処理”行は“応答”となる。これにより、パターン特定部42は、呼びかけN+Lの“受付”および“応答”が“●”であると判定する。よって、この場合、パターン特定部42は、対応状況がパターン5であると特定する。
続いて、図3に基づき、図2のS1に示す処理において呼びかけNを受け付けた場合に、図3のαに示す時点において対応状況のパターンの特定が行われた場合について例示する。なお、パターンの特定は、呼びかけNの受付後、応答までの期間(呼びかけNに対する応答の生成期間)に行えばよく、パターンを特定するタイミングは、図示のαに限定されない。
図3の(1−2)のαに示す時点では、直前の呼びかけは、呼びかけN−1である(つまり、呼びかけN−Mの受付処理が“●”)。また、呼びかけNが受け付けられた時点において、呼びかけN−1に対する応答N−1が出力済みである(つまり、呼びかけN−Mの応答処理が“●”)。よって、パターン特定部42は、表3に従い、図3の(1−2)のαにおける対応状況がパターン1であると特定する。
図3の(2)のαに示す時点では、直前の呼びかけは、呼びかけN−1である(つまり、呼びかけN−Mの受付処理が“●”)。また、呼びかけN−1に対する応答は出力されていない(つまり、呼びかけN−Mの応答処理が“×”)。よって、パターン特定部42は、表3に従い、図3の(2)のαにおける対応状況がパターン2であると特定する。
以下、同様に、パターン特定部42は、図3の(3)のαではパターン3、(4)のαではパターン4、(5)のαではパターン5であると特定する。なお、図3の(1−1)のαでは直前の呼びかけが存在しないが、本実施形態においては、パターン特定部42は、このような直前の呼びかけが存在しない場合には、パターン1であると特定する。
〔2.2.対応状況のパターンに応じたテンプレートの選択〕図2のS3に示す、特定されたパターンに応じたテンプレートを選択する処理について、図4および下記の表4に基づき詳細に説明する。図4は図2のS3に示す処理の詳細を表すフローチャートである。また、表4は、各パターンと選択されるテンプレートの対応関係を示す表である。
フレーズ生成部43は、パターン特定部42から通知されたパターンが何であるかを確認する(S31)。続いて、フレーズ生成部43は、通知されたパターンと対応するテンプレートを選択する(S32〜S35)。選択されるテンプレートは、表4において“○”が記載されたテンプレートである。例えば、通知されたパターンがパターン1であった場合、テンプレートAが選択される(S32)。
上記の構成によれば、いずれの呼びかけに対する応答であるか明らかである場合(パターン1−1または1−2である場合)は、呼びかけに対する直接の回答となる簡潔なフレーズを生成するためのテンプレートが用いられる。一方、いずれの呼びかけに対する応答であるか必ずしも明らかではない場合(パターン2〜5である場合)、他の呼びかけに対する対応状況が考慮されたテンプレート(テンプレートB〜E)が用いられる。
〔変形例〕
上記実施形態において、図2のS2において特定された対応状況がパターン2〜5のいずれか(第2の対応状況)であった場合、フレーズ生成部43は、いずれの呼びかけに対する応答であるかを示す文言を応答となるフレーズに含めるテンプレート(テンプレートB)を選択してもよい。
上記の構成によれば、連続してなされた複数の呼びかけに対し、いずれの呼びかけに対する応答であるかが明らかな応答を行うことができる。これにより、ユーザは応答がどの呼びかけと対応するものであるかを知ることができる。また、対応状況がパターン1(第1の対応状況)である場合には、テンプレートBを用いない(テンプレートAを用いる)ので、常にテンプレートBを用いる場合と比較して、いずれの呼びかけに対する応答であるかが明らかである場合(パターン1の場合)に、簡潔なフレーズを応答として出力することができる。
また、パターン2や4のように、受付後、未応答の呼びかけが複数併存した対応状況となった場合、フレーズ生成部43は、テンプレートDやEのような、応答の対象とする呼びかけを絞り込んだことを示すフレーズを生成するテンプレートを選択してもよい。そして、この場合、絞り込みの対象から外れた呼びかけ(応答をキャンセルした呼びかけ)については、音声解析等の処理をキャンセルしてもよい。また、情報処理装置1の処理の負荷が予め定めた閾値を超える場合に、未応答の呼びかけの少なくとも1つについて音声解析等の処理をキャンセルしてもよい。そして、この場合、処理がキャンセルされていない呼びかけに応じたテンプレートを選択してもよい。また、テンプレートDやE等のように、呼びかけの内容を解析することなく応答を生成することのできるテンプレートを用いる場合、すぐに応答を返すことができる。そのため、上記の構成をとる場合は、ユーザとのコミュニケーションがより円滑になる。
また、応答の内容がいずれの呼びかけに対する応答であるかをユーザが認識することが困難であるか否かを判断し、困難であると判断した場合にテンプレートBを選択してもよい。上記判断の手法は特に限定されないが、例えば呼びかけまたはその応答(基本フレーズ情報54に登録された応答のフレーズ)に含まれる語および/またはフレーズに基づいて判断してもよい。例えば、「苦手な動物は何?」と「好きな動物は何?」の呼びかけがなされた場合、これらの呼びかけはいずれも「動物」の語を含む類似した呼びかけであり、応答も類似したものとなる可能性があるので、テンプレートBを選択してもよい。
また、上記実施形態においては、他の呼びかけが1つである場合の例を説明したため、対応状況のパターンは1つのみ特定されたが、他の呼びかけが複数存在する場合、他の呼びかけのそれぞれについて対応状況のパターンを特定してもよい。この場合、複数の異なるパターンが特定される場合がある。複数のパターンが特定された場合は、特定されたすべてのパターンに共通するテンプレートを選択してもよい。例えば、パターン2およびパターン4が特定された場合、表4においてパターン2およびパターン4の行の両方において“○”が記されているテンプレートBが選択される。また、パターン1以外の複数のパターンが対応状況のパターンとして特定された場合、テンプレートEを選択してもよい。
また、上記実施形態においては、情報処理装置1がユーザの呼びかけを直接受け付ける例を説明したが、情報処理装置1と、ユーザの呼びかけを受け付ける装置とを独立の装置とした対話システムであっても、上記実施形態と同様の機能を実現できる。この対話システムは、例えば、ユーザの呼びかけを受け付け、その呼びかけに応答する音声を出力する音声対話装置と、該音声対話装置の出力する音声を制御する情報処理装置とを含んでいてもよい。そして、音声対話装置は、ユーザの呼びかけ内容を示す情報を上記情報処理装置に通知し、該情報処理装置は、該通知に基づいて情報処理装置1と同様の処理を行うものであってもよい。なお、この場合、情報処理装置は、音声対話装置に出力させるフレーズを決定する機能を少なくとも備えていればよく、フレーズの生成は該情報処理装置が行ってもよいし、音声対話装置に行わせてもよい。
〔実施形態2〕
本発明の他の実施形態について、図5および6に基づいて説明すれば、以下の通りである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材および処理については、同じ符号を付記し、その説明を省略する。まず、図5に基づいて、本実施形態に係る情報処理装置1Aと、実施形態1に係る情報処理装置1との差異を説明する。図5は、実施形態2に係る情報処理装置1Aの構成を示す機能ブロック図である。
本実施形態に係る情報処理装置1Aと、実施形態1に係る情報処理装置1との差異は、制御部4に替えて、制御部4Aを備えている点である。また、制御部4Aと、制御部4との差異は、パターン特定部42およびフレーズ生成部43に替えて、パターン特定部42Aおよびフレーズ生成部43Aを備えている点である。
パターン特定部42Aとパターン特定部42の差異は、パターン特定部42Aは、フレーズ生成部43Aから処理対象の呼びかけに対する応答となるフレーズが生成されたことの通知を受けて、対応状況がいずれのパターンに合致するかを再度特定する点である。パターン特定部42Aは、特定した対応状況のパターンを受付番号と合わせてフレーズ生成部43Aへ再度通知する。
フレーズ生成部43Aとフレーズ生成部43の差異は、フレーズ生成部43Aは、処理対象の呼びかけの応答となるフレーズを生成した場合に、パターン特定部42Aへ当該フレーズを生成したことを通知する点である。また、パターン特定部42Aから同一の受付番号と合わせて対応状況のパターンを通知された場合に、対応状況のパターンが変化しているか否かを判定し、対応状況のパターンが変化していた場合、変化後の対応状況のパターンに応じたフレーズを生成する点も異なる。
続いて、情報処理装置1Aにおける呼びかけに対する応答を出力する処理を、図6に基づいて説明する。図6は情報処理装置1Aにおける呼びかけに対する応答を出力する処理を示すフローチャートである。
S6に示す処理において、処理対象の呼びかけに対する応答を生成したフレーズ生成部43Aは、パターン特定部42Aへ当該フレーズを生成したことを通知する。パターン特定部42Aは、当該通知を受けて、他の呼びかけの対応状況を確認し(S6A)、当該対応状況を受付番号と合わせてフレーズ生成部43Aへ通知する。
再度の対応状況の通知を受けたフレーズ生成部43Aは、対応状況のパターンが変化しているか否かを判定する(S6B)。対応状況のパターンが変化していた場合(S6BでYES)、フレーズ生成部43Aは、再度S3以下の処理を実行する。すなわち、処理対象の呼びかけに対する応答となるフレーズを再度生成する。一方、対応状況のパターンが変化していなかった場合(S6BでNO)、S7からの処理が実行されることにより、処理対象の呼びかけに対する応答として、S6で生成されたフレーズが出力される。
上記の構成によれば、呼びかけに応じたフレーズを生成している間に、他の呼びかけの対応状況が変化していた場合であっても、適切なフレーズを出力することができる。なお、対応状況を再確認するタイミングは、1度目の対応状況の確認後、処理対象の呼びかけに対する応答出力までの期間であり、対応状況が変化している可能性のある時点であればよく、上記の例(フレーズの生成完了時)に限られない。例えば、1度目の対応状況の確認後、所定の時間が経過したときに、対応状況を再確認してもよい。
〔実施形態3〕
情報処理装置1および1Aの各ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、情報処理装置1および1Aを図7に示すようなコンピュータ(電子計算機)を用いて構成することができる。図7は、上記の情報処理装置1および1Aとして利用可能なコンピュータの構成を例示したブロック図である。
この場合、情報処理装置1および1Aは、図7に示すように、バス14を介して互いに接続された演算部11と、主記憶部12と、補助記憶部13と、音声入力部2と、音声出力部3とを備えている。演算部11、主記憶部12、および補助記憶部13は、それぞれ、例えばCPU、RAM(random access memory)、ハードディスクドライブであってもよい。なお、主記憶部12は、コンピュータ読み取り可能な「一時的でない有形の媒体」であればよく、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブル論理回路などを用いることができる。
補助記憶部13には、コンピュータを情報処理装置1および1Aとして動作させるための各種プログラムが格納されている。そして、演算部11は、補助記憶部13に格納された上記各プログラムを主記憶部12上に展開し、主記憶部12上に展開された上記各プログラムに含まれる命令を実行することによって、コンピュータを、情報処理装置1および1Aが備える各部として機能させる。
なお、ここでは、内部記録媒体である補助記憶部13に記録されている上記各プログラムを用いてコンピュータを情報処理装置1および1Aとして機能させる構成について説明したが、外部記録媒体に記録されているプログラムを用いてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔まとめ〕
本発明の態様1に係る情報処理装置(1、1A)は、ユーザが呼びかけた音声に応答するフレーズを決定する情報処理装置であって、応答のフレーズを決定すべき対象呼びかけを受け付けた場合に、該対象呼びかけとは異なる他の呼びかけに対する自装置の対応状況を特定する対応状況特定手段(パターン特定部42、42A)と、上記対象呼びかけに応答するフレーズとして、上記対応状況特定手段が特定した対応状況に応じた上記フレーズを決定するフレーズ決定手段(フレーズ生成部43)と、を備えている。
上記の構成によれば、ユーザが発した呼びかけに対して、他の呼びかけの対応状況に応じたフレーズが出力される。なお、他の呼びかけは、対象呼びかけに応答するフレーズを決定するために考慮すべき呼びかけであり、例えば対象呼びかけの直前に受け付けたM個の呼びかけであってもよいし、対象呼びかけの直後に受け付けたL個の呼びかけであってもよく、これらの両方であってもよい(L,Mは正数)。また、他の呼びかけの対応状況は、他の呼びかけが複数存在する場合には、複数の他の呼びかけのうちの1つに対する対応状況であってもよいし、複数の他の呼びかけの各対応状況を総合して特定された対応状況であってもよい。よって、他の呼びかけに対する対応状況にかかわらず呼びかけに対して画一的なフレーズを出力する構成と比較して、複数の呼びかけに対して適切なフレーズを出力することができる。なお、対応状況特定手段は、呼びかけが受け付けられてから、その呼びかけに応じたフレーズが出力されるまでのいずれかの時点において、対応状況を判断する。また、上記情報処理装置が決定したフレーズは、該情報処理装置から出力してもよいし、他の装置に出力させてもよい。
本発明の態様2に係る情報処理装置は、上記態様1において、上記対応状況特定手段は、上記対象呼びかけの受付後に上記他の呼びかけを受け付けた場合と、上記他の呼びかけの受付後に上記対象呼びかけを受け付けた場合とを、それぞれ異なる対応状況と特定してもよい。該構成によれば、上記対象呼びかけの受付後に上記他の呼びかけを受け付けた場合と、上記他の呼びかけの受付後に上記対象呼びかけを受け付けた場合とのそれぞれに応じた適切なフレーズを決定することが可能になる。例えば、2つの呼びかけが連続してなされた場合に、(1)先の呼びかけのみ応答済み、および(2)後の呼びかけのみ応答済み、の各対応状況に適したフレーズを出力することも可能である。
本発明の態様3に係る情報処理装置は、上記態様1または2において、上記対応状況には、上記他の呼びかけに対してフレーズを決定済みである状態で上記対象呼びかけを受け付けた第1の対応状況と、上記他の呼びかけに対するフレーズが未決定である状態で上記対象呼びかけを受け付けた第2の対応状況とが含まれており、上記フレーズ決定手段は、上記対応状況特定手段が上記第2の対応状況であると特定した場合に、上記第1の対応状況で決定するフレーズと、上記対象呼びかけを示すフレーズとを組み合わせたフレーズを決定してもよい。該構成によれば、呼びかけとその応答との対応がユーザにとって認識困難な第2の対応状況において、呼びかけとその応答との対応がユーザにとって明らかな第1の対応状況で決定するフレーズと、対象呼びかけを示すフレーズとを組み合わせたフレーズを決定するので、出力されるフレーズが対象呼びかけに応答するものであることをユーザに認識させることができる。
本発明の態様4に係る情報処理装置は、上記態様1から3において、上記対応状況特定手段は、対応状況の特定後、特定した対応状況が他の対応状況に変化する可能性のある時点において再度対応状況を特定し、上記フレーズ決定手段(フレーズ生成部43A)は、上記対応状況特定手段が先に特定した対応状況と、後に特定した対応状況とが異なっていた場合、後に特定された対応状況に応じたフレーズを決定してもよい。該構成によれば、呼びかけに応じたフレーズを生成している間に、対応状況が変化した場合であっても、適切なフレーズを出力することができる。
本発明の各態様に係る情報処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記情報処理装置が備える各手段として動作させることにより上記情報処理装置をコンピュータにて実現させる情報処理装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
本発明は、ユーザが発した音声に応じて、当該ユーザに所定のフレーズを出力する情報処理装置および情報処理システムに利用することができる。
1、1A 情報処理装置
42、42A パターン特定部(対応状況特定手段)
43、43A フレーズ生成部(フレーズ決定手段)

Claims (5)

  1. ユーザが呼びかけた音声に応答するフレーズを決定する情報処理装置であって、
    応答のフレーズを決定すべき対象呼びかけを受け付けた場合に、該対象呼びかけとは異なる他の呼びかけに対する対応状況を特定する対応状況特定手段と、
    上記対象呼びかけに応答するフレーズとして、上記対応状況特定手段が特定した対応状況に応じたフレーズを決定するフレーズ決定手段と、を備えていることを特徴とする情報処理装置。
  2. 上記対応状況特定手段は、上記対象呼びかけの受付後に上記他の呼びかけを受け付けた場合と、上記他の呼びかけの受付後に上記対象呼びかけを受け付けた場合とを、それぞれ異なる対応状況と特定することを特徴とする請求項1に記載の情報処理装置。
  3. 上記対応状況には、上記他の呼びかけに対してフレーズを決定済みである状態で上記対象呼びかけを受け付けた第1の対応状況と、上記他の呼びかけに対するフレーズが未決定である状態で上記対象呼びかけを受け付けた第2の対応状況とが含まれており、
    上記フレーズ決定手段は、上記対応状況特定手段が上記第2の対応状況であると特定した場合に、上記第1の対応状況で決定するフレーズと、上記対象呼びかけを示すフレーズとを組み合わせたフレーズを決定することを特徴とする請求項1または2に記載の情報処理装置。
  4. 上記対応状況特定手段は、対応状況の特定後、特定した対応状況が他の対応状況に変化する可能性のある時点において再度対応状況を特定し、
    上記フレーズ決定手段は、上記対応状況特定手段が先に特定した対応状況と、後に特定した対応状況とが異なっていた場合、後に特定された対応状況に応じたフレーズを決定することを特徴とする請求項1から3のいずれか1項に記載の情報処理装置。
  5. 請求項1から4のいずれか1項に記載の情報処理装置としてコンピュータを機能させるための制御プログラムであって、コンピュータを上記各手段として機能させるための制御プログラム。
JP2014091919A 2014-04-25 2014-04-25 情報処理装置および制御プログラム Expired - Fee Related JP6359327B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2014091919A JP6359327B2 (ja) 2014-04-25 2014-04-25 情報処理装置および制御プログラム
PCT/JP2015/051703 WO2015162953A1 (ja) 2014-04-25 2015-01-22 情報処理装置および制御プログラム
US15/303,583 US20170032788A1 (en) 2014-04-25 2015-01-22 Information processing device
CN201580021261.4A CN106233377B (zh) 2014-04-25 2015-01-22 信息处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014091919A JP6359327B2 (ja) 2014-04-25 2014-04-25 情報処理装置および制御プログラム

Publications (2)

Publication Number Publication Date
JP2015210390A JP2015210390A (ja) 2015-11-24
JP6359327B2 true JP6359327B2 (ja) 2018-07-18

Family

ID=54332127

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014091919A Expired - Fee Related JP6359327B2 (ja) 2014-04-25 2014-04-25 情報処理装置および制御プログラム

Country Status (4)

Country Link
US (1) US20170032788A1 (ja)
JP (1) JP6359327B2 (ja)
CN (1) CN106233377B (ja)
WO (1) WO2015162953A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020106315A1 (en) 2018-11-21 2020-05-28 Google Llc Orchestrating execution of a series of actions requested to be performed via an automated assistant

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3844367B2 (ja) * 1994-05-17 2006-11-08 沖電気工業株式会社 音声情報通信システム
JP2770747B2 (ja) * 1994-08-18 1998-07-02 日本電気株式会社 音声合成装置
US5483588A (en) * 1994-12-23 1996-01-09 Latitute Communications Voice processing interface for a teleconference system
JP3729918B2 (ja) * 1995-07-19 2005-12-21 株式会社東芝 マルチモーダル対話装置及び対話方法
JPH11296975A (ja) * 1998-04-06 1999-10-29 Sony Corp 編集装置および方法、並びに提供媒体
JP2000187435A (ja) * 1998-12-24 2000-07-04 Sony Corp 情報処理装置、携帯機器、電子ペット装置、情報処理手順を記録した記録媒体及び情報処理方法
TW501046B (en) * 1999-06-11 2002-09-01 Ind Tech Res Inst A portable dialogue manager
US7257537B2 (en) * 2001-01-12 2007-08-14 International Business Machines Corporation Method and apparatus for performing dialog management in a computer conversational interface
JP3762327B2 (ja) * 2002-04-24 2006-04-05 株式会社東芝 音声認識方法および音声認識装置および音声認識プログラム
US20060276230A1 (en) * 2002-10-01 2006-12-07 Mcconnell Christopher F System and method for wireless audio communication with a computer
CN1842788B (zh) * 2004-10-08 2012-04-04 松下电器产业株式会社 对话支援装置、系统及方法
WO2007032003A2 (en) * 2005-09-13 2007-03-22 Yedda, Inc. Device, system and method of handling user requests
JP2008203559A (ja) * 2007-02-20 2008-09-04 Toshiba Corp 対話装置及び方法
CN101075435B (zh) * 2007-04-19 2011-05-18 深圳先进技术研究院 一种智能聊天系统及其实现方法
US7962578B2 (en) * 2008-05-21 2011-06-14 The Delfin Project, Inc. Management system for a conversational system
CN101609671B (zh) * 2009-07-21 2011-09-07 北京邮电大学 一种连续语音识别结果评价的方法和装置
US8943094B2 (en) * 2009-09-22 2015-01-27 Next It Corporation Apparatus, system, and method for natural language processing
US8700405B2 (en) * 2010-02-16 2014-04-15 Honeywell International Inc Audio system and method for coordinating tasks
US9570086B1 (en) * 2011-11-18 2017-02-14 Google Inc. Intelligently canceling user input
WO2013080406A1 (ja) * 2011-11-28 2013-06-06 Necソフト株式会社 対話システム、冗長メッセージ排除方法および冗長メッセージ排除プログラム
CN202736475U (zh) * 2011-12-08 2013-02-13 华南理工大学 一种聊天机器人
US9934780B2 (en) * 2012-01-17 2018-04-03 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance spoken dialogue by modifying dialogue's prompt pitch
US9236064B2 (en) * 2012-02-15 2016-01-12 Microsoft Technology Licensing, Llc Sample rate converter with automatic anti-aliasing filter
CN104159783B (zh) * 2012-03-08 2019-05-17 亮锐控股有限公司 具有移动光源的可控高亮度照明
US9924002B1 (en) * 2012-06-21 2018-03-20 EMC IP Holding Company LLC Managing stateless processes
US9576574B2 (en) * 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
TWI557722B (zh) * 2012-11-15 2016-11-11 緯創資通股份有限公司 語音干擾的濾除方法、系統,與電腦可讀記錄媒體
CN103198831A (zh) * 2013-04-10 2013-07-10 威盛电子股份有限公司 语音操控方法与移动终端装置
CN103413549B (zh) * 2013-07-31 2016-07-06 深圳创维-Rgb电子有限公司 语音交互的方法、系统以及交互终端
JP6257368B2 (ja) * 2014-02-18 2018-01-10 シャープ株式会社 情報処理装置
US9589562B2 (en) * 2014-02-21 2017-03-07 Microsoft Technology Licensing, Llc Pronunciation learning through correction logs
US20150370787A1 (en) * 2014-06-18 2015-12-24 Microsoft Corporation Session Context Modeling For Conversational Understanding Systems
US9767794B2 (en) * 2014-08-11 2017-09-19 Nuance Communications, Inc. Dialog flow management in hierarchical task dialogs

Also Published As

Publication number Publication date
US20170032788A1 (en) 2017-02-02
WO2015162953A1 (ja) 2015-10-29
CN106233377B (zh) 2019-08-20
CN106233377A (zh) 2016-12-14
JP2015210390A (ja) 2015-11-24

Similar Documents

Publication Publication Date Title
US11074924B2 (en) Speech recognition method, device, apparatus and computer-readable storage medium
JP2020181566A (ja) マンマシン対話の方法、装置、および電子機器
JP5996603B2 (ja) サーバ、発話制御方法、発話装置、発話システムおよびプログラム
WO2015125549A1 (ja) 情報処理装置
JP6526399B2 (ja) 音声対話装置、音声対話装置の制御方法、および制御プログラム
JP2007232829A (ja) 音声対話装置とその方法及びプログラム
JP2006251545A (ja) 音声対話システム及びコンピュータプログラム
JP6766675B2 (ja) 音声対話装置
WO2018135276A1 (ja) 言動制御装置、ロボット、制御プログラムおよび言動制御装置の制御方法
JP6359327B2 (ja) 情報処理装置および制御プログラム
JP6255274B2 (ja) 情報処理装置、音声対話装置、および制御プログラム
US5483618A (en) Method and system for distinguishing between plural audio responses in a multimedia multitasking environment
CN110716867B (zh) 多页面跳转压力的检测方法、装置及设备
JP2018092117A (ja) 音響信号処理のパラメータ予測装置及びパラメータ予測方法
JP6772881B2 (ja) 音声対話装置
US20230033305A1 (en) Methods and systems for audio sample quality control
JP6265670B2 (ja) 情報処理装置、サーバ、および、制御プログラム
JP6688252B2 (ja) 決定装置、決定方法及び決定プログラム
US20200258519A1 (en) Electronic apparatus, control device, control method, and non-transitory computer readable recording medium
JP2017097160A (ja) 音声処理装置、音声処理方法、およびプログラム
JP6721676B2 (ja) 対話装置、対話装置の制御方法、および制御プログラム
JP7303091B2 (ja) 制御装置、電子機器、制御装置の制御方法および制御プログラム
JP7172299B2 (ja) 情報処理装置、情報処理方法、プログラムおよび情報処理システム
US11275551B2 (en) System for voice-based alerting of person wearing an obstructive listening device
JP2020106746A (ja) 制御装置、制御方法、制御プログラム、及び対話装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180522

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180620

R150 Certificate of patent or registration of utility model

Ref document number: 6359327

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees