JP6559417B2 - 情報処理装置、情報処理方法、対話システム、および制御プログラム - Google Patents

情報処理装置、情報処理方法、対話システム、および制御プログラム Download PDF

Info

Publication number
JP6559417B2
JP6559417B2 JP2014245349A JP2014245349A JP6559417B2 JP 6559417 B2 JP6559417 B2 JP 6559417B2 JP 2014245349 A JP2014245349 A JP 2014245349A JP 2014245349 A JP2014245349 A JP 2014245349A JP 6559417 B2 JP6559417 B2 JP 6559417B2
Authority
JP
Japan
Prior art keywords
voice
utterance
user
recognition result
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014245349A
Other languages
English (en)
Other versions
JP2016109784A (ja
Inventor
和典 柴田
和典 柴田
広瀬 斉志
斉志 広瀬
章友 大西
章友 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2014245349A priority Critical patent/JP6559417B2/ja
Publication of JP2016109784A publication Critical patent/JP2016109784A/ja
Application granted granted Critical
Publication of JP6559417B2 publication Critical patent/JP6559417B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Description

本発明は、ユーザと音声で対話する音声対話装置が取得した音声を用いて処理を行う情報処理装置等に関する。
従来から、ユーザと音声で対話する音声対話装置に関する技術の研究開発が進められている。音声対話装置に関する文献としては、例えば下記特許文献1〜5が挙げられる。このうち、特許文献1には、会話のシーンに応じた音声認識辞書を用いて音声認識することにより、入力された音声と音声認識辞書に記録された単語とのマッチングを高速化する技術が開示されている。これにより、ユーザの発話に対する応答を迅速に行うことができ、スムーズで自然な会話が実現される。
国際公開第2002/67244号(2002年8月29日公開) 特開昭60−246468号公報(1985年12月6日公開) 特開2006−227611号公報(2006年8月31日公開) 特開2004−287016号公報(2004年10月14日公開) 特開2004−5530号公報(2004年1月8日公開)
上述のような従来技術は、ユーザが音声対話装置と自然な会話を行うことに主眼を置いたものが多く、単なる会話以上の価値を生み出すものではなかった。しかしながら、ユーザが対話する相手が人ではなく音声対話装置である場合には、それを利用して付加価値を生み出すことができるはずである。例えば、人であれば聞いたことを忘れてしまうが、装置であれば不揮発性のメモリ等を用いることにより、正確に会話内容を記録しておくことが可能である。
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、ユーザが音声対話装置に対して発話した発話内容をテキストデータとして記録することのできる情報処理装置等を提供することにある。
上記の課題を解決するために、本発明の一態様に係る情報処理装置は、ユーザの発する音声を取得して応答音声を出力する音声対話装置による上記音声への応答に用いられる、該音声の音声認識結果を取得する認識結果取得部と、上記音声認識結果から上記ユーザの発話内容を示すテキストデータを生成して記録するテキスト記録部と、を備えている。
また、本発明の一態様に係る情報処理方法は、上記の課題を解決するために、情報処理装置が実行する情報処理方法であって、ユーザの発する音声を取得して応答音声を出力する音声対話装置による上記音声への応答に用いられる、該音声の音声認識結果を取得する認識結果取得ステップと、上記音声認識結果から上記ユーザの発話内容を示すテキストデータを生成して記録するテキスト記録ステップと、を含む。
そして、本発明の一態様に係る対話システムは、上記の課題を解決するために、ユーザの発する音声を取得する音声対話装置と、該音声対話装置に上記音声に応じた応答音声を出力させる発話制御装置とを含む対話システムであって、上記発話制御装置は、上記音声対話装置から取得した上記音声を音声認識する音声認識部と、上記音声認識部の音声認識結果を取得する認識結果取得部と、上記音声認識結果から上記ユーザの発話内容を示すテキストデータを生成して記録するテキスト記録部と、を備えている。
本発明の上記各態様によれば、ユーザが音声対話装置に対して発話した発話内容をテキストデータとして記録することができるという効果を奏する。
本発明の一実施形態に係る対話システムに含まれる音声対話装置および発話制御装置の要部構成の一例を示すブロック図である。 上記音声対話装置とユーザとの対話の一例を示す図である。 ユーザの発話に応じて上記発話制御装置が実行する発話制御処理の流れの一例を示すフローチャートである。 上記発話制御処理の別の例を示すフローチャートである。 図3および図4のフローチャートにおける口頭メモモードにおける処理の流れの一例を示すフローチャートである。 本発明の別の実施形態における音声対話装置とユーザとの対話の一例を示す図である。 図6に示す実施形態における口頭メモモードの流れの一例を示すフローチャートである。 上記音声対話装置および上記発話制御装置として利用可能なコンピュータの構成を例示したブロック図である。
〔実施形態1〕
本発明の一実施形態について図1〜図5に基づいて説明すれば以下のとおりである。
(本実施形態の概要)
まず、図2に基づいて本実施形態の概要を説明する。図2は、本実施形態に係る音声対話装置1とユーザとの対話例を示す図である。図2に示すように、本実施形態では、音声対話装置1がロボット掃除機である例を説明する。ただし、音声対話装置1はユーザの声などの外部の音声を取得し、取得した音声に対する応答音声を発することができるものであればよく、ロボット掃除機に限定されない。例えば、対話ロボットであってもよいし、音声の入出力機能を有する冷蔵庫、エアコンなどの家電であってもよいし、タブレット端末、スマートフォン、パーソナルコンピュータ等の多機能端末であってもよい。
ユーザが口頭メモモードの開始キーワード(所定の語句)を発話すると、音声対話装置1は、口頭メモモードに遷移する。口頭メモモードでは、ユーザが発話した内容が、テキスト形式のメモとして記録されるので、この動作モードは記録モードとも言える。
図2の例では、ユーザが発した「ちょっとメモしてくれる?」というメッセージM1には、「メモして」という、口頭メモモードの開始キーワードが含まれている。このため、メッセージM1を取得した音声対話装置1は口頭メモモードに遷移する。そして、口頭メモモードに遷移した音声対話装置1は、「わかった。喋っていいよ。」という応答R1を音声出力して、ユーザに口頭メモモードに遷移したことを通知する。
続いて、ユーザはメモとして記録したい内容を発話し、音声対話装置1はその音声を取得する。図2の例では、音声対話装置1は、「スーパーでジャガイモとニンジンを買わないといけない。それとバターが切れているので買わないと」というメッセージM2の音声を取得している。これにより、このメッセージM2がメモとして記録される。
ここで、ユーザの発話が途切れると、音声対話装置1は、これまでに記録したメモの内容を応答R2として音声出力する。すなわち、音声対話装置1は、発話が途切れるまでに入力されたメッセージM2を復唱する。
ユーザは、さらに記録したい内容がある場合は、続けて発話してもよい。図2の例では、「その後、ホームセンターでプランターとプチトマトの苗を買おうか」というメッセージM3を発話し、音声対話装置1はその音声を取得しているので、メッセージM3もメモとして記録される。そして、ユーザの発話が途切れると、音声対話装置1は、R2の応答を行ったときと同様にして、メッセージM3の復唱である応答R3を音声出力する。
ここで、所定の終了キーワードが発話されると、メモの最終確認が行われる。図示の例では、メッセージM4に「いいよ」という終了キーワードが含まれているので、音声対話装置1がメッセージM4を取得すると、メモの最終確認が行われる。この最終確認では、音声対話装置1は、今までに記録されたメモ(図2の例では、メッセージM2およびM3)をまとめて復唱する応答R4を音声出力する。これにより、ユーザは、自分の意図通りのメモが記録されたかを確認することができる。
この最終確認において、所定の終了キーワードが再度発話されると、口頭メモモードは終了する。図示の例では、ユーザは、メッセージM5を発話しており、これには終了キーワードである「いいよ」が含まれているので、口頭メモモードは終了する。なお、図2には示していないが、最終確認において、所定のやりなおしキーワードが発話されると、これまでに記録したメモは破棄され、音声対話装置1は、応答R1を再び音声出力して、メモの記録をやり直す。
また、口頭メモモードの終了時に、音声対話装置1は、記録したメモをユーザに電子メールで送信することを伝える応答R5を音声出力する。なお、メモの送信については後述する。ここで、応答R5に対してユーザが何らかの発話を行った場合、音声対話装置1は、その発話に対して応答してもよい。図示の例では、ユーザが「ありがとう」というメッセージM6を発話しており、音声対話装置1はこれに対して「また何かあったらメモするよ」という応答R6を音声出力している。
(対話システム5の構成)
次に、上記音声対話装置1に上述のような発話を行わせる対話システム5の構成を図1に基づいて説明する。図1は、対話システム5に含まれる音声対話装置1および発話制御装置(情報処理装置)2の要部構成の一例を示すブロック図である。図示のように、対話システム5は、ユーザの発話する音声を取得する音声対話装置1と発話制御装置2を含むシステムであり、発話制御装置2の制御により、音声対話装置1に発話させるシステムである。
より詳細には、音声対話装置1はユーザの発した音声を取得し、これを音声データとして発話制御装置2に送信する。そして、発話制御装置2は、受信した音声データを解析して音声認識し、その音声認識結果に応じた応答音声データを生成し、音声対話装置1に送信して出力させる。また、メモの記録や、電子メールによるメモの送信についても発話制御装置2が行う。なお、同図では、音声対話装置1と発話制御装置2がネットワークを介して通信する例を示しているが、音声対話装置1と発話制御装置2の通信態様は特に限定されない。
同図に示す端末装置3は、発話制御装置2が電子メールで送信したメモの閲覧に使用される端末装置である。なお、発話制御装置2は、メモを端末装置3に直接送信してもよいし、図示しないメールサーバ等に送信することにより、端末装置3から当該メモを閲覧できるようにしてもよい。また、メモの通知方法はこれらの例に限られず、例えば端末装置3から閲覧できるSNS(social networking service)に投稿することによってメモの内容を通知してもよい。
(音声対話装置1の要部構成)
次に、音声対話装置1の構成を説明する。図示のように、音声対話装置1は、制御部10、音声入力部11、音声出力部12、記憶部13、および通信部14を備えている。また、制御部10は、入力音声送信部101および応答音声取得部102を含む。
制御部10は、音声対話装置1が備える各部を統括制御するものであり、音声入力部11は、音声対話装置1の外部の音声を取得する装置であり、音声出力部12は、音声を出力する装置である。音声入力部11は、例えばマイクであってもよく、音声出力部12は例えばスピーカであってもよい。記憶部13は、音声対話装置1にて使用される各種データを記憶する記憶装置であり、通信部14は、音声対話装置1と外部の装置(特に発話制御装置2)との間で情報の送受信を行う通信装置である。
入力音声送信部101は、音声入力部11によって取得された外部の音声を、通信部14を介して発話制御装置2に送信する。そして、応答音声取得部102は、発話制御装置2が生成した、入力音声送信部101が送信した音声に対する応答音声を、通信部14を介して取得し、音声出力部12から出力する。
(発話制御装置2の要部構成)
次に、発話制御装置2の要部構成について説明する。発話制御装置2は、制御部20、記憶部21、および通信部22を備えている。制御部20は、発話制御装置2が備える各部を統括制御するものであり、記憶部21は、発話制御装置2にて使用される各種データを記憶する記憶装置である。また、通信部22は、発話制御装置2が外部の装置(特に音声対話装置1と端末装置3)と通信するための通信装置である。なお、音声対話装置1と通信するための通信部と、端末装置3と通信するための通信部が個別に設けられていてもよい。
図1に示す記憶部21には、登録キーワード211、対話DB(データベース)212、およびメモデータ(ユーザの発話内容を示すテキストデータ)213が格納されている。
登録キーワード211は、所定の処理の契機となるキーワードとして予め登録されたものであり、登録キーワード211には、上述した開始キーワード、やりなおしキーワード、および終了キーワードが含まれる。ここでは登録キーワード211がテキストデータである例を説明する。
対話DB212は、ユーザの発話に対する応答内容を決定するために用いられるデータベースである。対話DB212では、想定されるユーザの発話内容がテキストデータとして登録されており、このテキストデータに対して、応答内容を示すテキストデータが対応付けられている。例えば、「調子はどう?」というテキストデータには、「絶好調!」というテキストデータが対応付けられており、これによりユーザの「調子はどう?」との発話に対して、「絶好調!」との応答を音声対話装置1に発話させることができる。
メモデータ213は、口頭メモモード時に記録されるデータであり、ユーザの発話内容を示すテキストデータである。
制御部20には、入力音声取得部201、音声解析部(音声認識部)202、キーワード判定部(認識結果取得部、記録制御部)203、通常応答部204、口頭メモ応答部205、音声合成部206、発話制御部207、メモ生成部(テキスト記録部)208、およびメモ通知部(テキスト送信部)209が含まれる。
入力音声取得部201は、通信部22を介して、音声対話装置1から音声データを取得し、取得した音声データを音声解析部202に送信する。
音声解析部202は、入力音声取得部201から受信した音声データを解析して音声認識し、音声認識結果としてテキストデータを出力する。つまり、音声解析部202は、音声データをテキストデータに変換する。そして、当該テキストデータをキーワード判定部203に送信する。なお、音声データをテキストデータに変換する方法は公知であるから、ここでは説明を省略する。また、音声解析部202を音声対話装置1に設けてもよく、この場合には、入力音声取得部201は、音声データの代わりに音声認識結果を取得することになる。
キーワード判定部203は、音声解析部202から音声認識結果を受信する。そして、受信した音声認識結果に所定のキーワードが含まれているか否かを判定し、含まれていると判定した場合には、含まれているキーワードに応じた処理を実行する。なお、上記所定のキーワードとは、記憶部21に記憶されている登録キーワード211である。また、所定のキーワードが含まれていない場合には、当該音声認識結果を通常応答部204に送信する。
具体的には、キーワード判定部203は、開始キーワードが含まれていると判定し、口頭メモモードに遷移させることを決定した場合には、口頭メモ応答部205とメモ生成部208にその旨を通知する。これにより、発話制御装置2は、口頭メモモードに遷移し、音声対話装置1に口頭メモモード特有の音声応答を行わせると共に、これ以降に音声対話装置1から受信した音声データをテキストデータとして記録する。
また、キーワード判定部203は、口頭メモモードにおいては、音声解析部202から受信したテキストデータに、やりなおしキーワードまたは終了キーワードが含まれているか判定し、その判定結果に応じた処理を行う。なお、この処理の詳細は後述する。
通常応答部204は、口頭メモ応答部205と共に、応答内容決定部を構成している。応答内容決定部では、音声対話装置1に発話させる応答内容を決定する。通常応答部204は、非口頭メモモード時の応答内容を決定し、口頭メモ応答部205は、口頭メモモード時の応答内容を決定する。なお、非口頭メモモードでは、テキストデータは記録せずに音声対話装置1にユーザと対話させるので、非口頭メモモードは対話モードであるとも言える。無論、動作モードは、これらの2つに限られず、発話制御装置2は、その他の動作モードを有していてもよい。
具体的には、通常応答部204は、非口頭メモモード時において、対話DB212を参照して音声認識結果に応じた応答内容を決定し、その応答内容を示すテキストデータを音声合成部206に送信する。
一方、口頭メモ応答部205は、キーワード判定部203の指示に従って応答内容を決定し、その応答内容を示すテキストデータを音声合成部206に送信する。詳細は後述するが、口頭メモ応答部205は、確認発話、開始発話、復唱発話、復唱・確認発話、および終了発話のそれぞれについて、その内容を示すテキストデータを音声合成部206に送信する。これらのテキストデータを生成するために必要なデータ(テキストデータ)は、予め記録しておく。なお、確認発話は、口頭メモモードへの遷移の可否を確認する発話であり、開始発話は、口頭メモモードへの遷移を通知する発話であり、復唱発話は、記録した口頭メモを復唱する発話である。そして、復唱・確認発話は、記録した全てのメモを復唱する発話であり、終了発話は、口頭メモモードの終了を通知する発話である。
音声合成部206は、応答内容決定部から受信したテキストデータを音声データに変換し、この音声データを発話制御部207に送信する。そして、発話制御部207は、音声合成部206から受信した音声データを、通信部22を介して音声対話装置1に送信して出力させる。つまり、発話制御部207が送信する音声データは、音声対話装置1に対して発話したユーザ向けの応答音声データである。
メモ生成部208は、音声解析結果からユーザの発話内容を示すテキストデータを生成し、これをメモデータ213として記憶部21に格納する。
メモ通知部209は、メモデータ213の内容をユーザに通知する。具体的には、メモ通知部209は、キーワード判定部203からの指示を受けて、メモデータ213を読み出し、当該メモデータ213の内容を含むメールを生成する。そして、生成したメールを、通信部22を介してユーザのアドレス宛に送信する。なお、メモデータ213は、メールの本文としてもよいし、添付ファイルとしてもよい。
(発話制御処理の流れ)
次に、図3を参照して、発話制御装置2が実行する発話制御処理の流れについて説明する。図3は、発話制御処理(情報処理方法)の一例を示すフローチャートである。なお、図3のフローの開始時には、発話制御装置2は非口頭メモモードである。
まず、入力音声取得部201が、音声入力を受け付ける(S1)。具体的には、入力音声取得部201は、通信部22を介して、音声対話装置1が取得した音声データを受信する。そして、入力音声取得部201は、この音声データを音声解析部202に送信し、音声解析部202がこれを解析する(S2)。
ここで、音声解析部202は、音声解析が成功したか否かを判定する(S3)。そして、成功していないと判定した場合(S3でNO)には、解析失敗発話を行うよう通常応答部204に指示する。なお、例えば、ユーザの発話した言葉が不明瞭であった場合や、ユーザの発話以外の雑音などを音声対話装置1が取得した場合等に、音声解析が失敗したと判定される。
この指示を受信した通常応答部204は、解析が失敗したことを示す所定のテキストデータ(例えば、「もう1回言って」や「わからないよ」等)を音声合成部206に送信する。これにより、このテキストデータが音声合成部206によって音声データに変換され、発話制御部207は、この音声データを音声対話装置1に発話させる(S6)。これにより、音声対話装置1によって解析失敗発話が行われる。
一方、解析に成功したと判定した場合(S3でYES)、音声解析部202は、音声解析によって得た音声認識結果をキーワード判定部203に送信する。そして、キーワード判定部203は、受信した音声認識結果に開始キーワードが含まれるか否かを判定する(S4、認識結果取得ステップ)。
ここで、開始キーワードが含まれていないと判定した場合(S4でNO)、キーワード判定部203は、通常の応答(非口頭メモモードにおける応答)が行われるようにするため、通常応答部204に音声認識結果を送信する。そして、通常応答部204は、受信した音声認識結果に対応する応答が対話DB212に登録されているか判定する(S7)。
ここで、登録されていないと判定した場合(S7でNO)、通常応答部204は、未登録の発話への応答に用いる未登録時発話を行わせる(S8)。具体的には、通常応答部204は、予め定められた未登録時発話の発話内容を音声合成部206に通知して音声データに変換させる。そして、発話制御部207は、この音声データを音声対話装置1に発話させる。
なお、未登録時発話は、開始キーワードが認識されなかったことをユーザが認識できるような内容であれば特に限定されず、例えば解析失敗発話と同じ発話内容としてもよいし、異なる発話内容としてもよい。異なる発話内容とする場合、例えば音声認識結果のテキストを発話内容に組み込んでもよい。例えば、音声認識したテキストに「AAA」という文字列が含まれていた場合、この文字列を組み込んだ「AAAは知らないよ」のような発話内容としてもよい。
一方、登録されていると判定した場合(S7でYES)、登録済み応答が行われる(S9)。具体的には、通常応答部204は、受信した音声認識結果に応じた応答内容を特定し、当該応答内容が音声合成部206にて音声データに変換される。そして、発話制御部207は、この音声データ、すなわち対話DB212に登録済みの応答を音声対話装置1に発話させる。
例えば、ユーザが音声対話装置1に対して「調子はどう?」と話しかけた場合、この音声の音声データが発話制御装置2に送信され、上述のS1およびS2の処理で「調子はどう?」との音声認識結果が生成される。そして、この音声認識結果には開始キーワードが含まれていないので、S4でNOと判定され、S9では、対話DB212において「調子はどう?」に対応付けられている「絶好調!」を発話させる制御が行われる。
一方、開始キーワード(例えば「メモして」)が含まれると判定した場合、キーワード判定部203は、S4でYESと判定し、発話制御装置2を口頭メモモードに遷移させる(S5)。なお、口頭メモモードにおける処理の詳細は後述する。
また、発話制御処理は、図4に示すようなものであってもよい。図4は、発話制御処理の別の例を示すフローチャートである。図4の発話制御処理は、S4でYESと判定された場合に、S10およびS11の処理を行う点で図3の発話制御処理と相違している。このため、ここではS10およびS11の処理を中心に説明し、他の処理の説明は省略する。
図4の発話制御処理では、S4でYESと判定したキーワード判定部203は、確認発話を行うように口頭メモ応答部205に指示する。そして、この指示を受信した口頭メモ応答部205は、ユーザに開始キーワードの反復を促す内容のテキストデータを音声合成部206に送信する。これにより、音声合成部206はこのテキストデータを音声データに変換し、発話制御部207はこの音声データを音声対話装置1に送信して出力させる(S10)。これにより、音声対話装置1によって確認発話が行われる。なお、上記テキストデータの内容は、開始キーワードの反復を促すものであればよく、特に限定されないが、例えば「何々?」のようなものであってもよい。
この確認発話に応じてユーザが発話すると、その音声データが音声対話装置1から発話制御装置2に送信され、音声解析されて音声認識結果が生成される。そして、キーワード判定部203は、この音声認識結果に開始キーワードが含まれているか否か、すなわち開始キーワードが反復されたかを判定する(S11)。
ここで、開始キーワードが反復されたと判定した場合(S11でYES)には、S5の処理に進み、発話制御装置2は口頭メモモードに遷移する。一方、開始キーワードが反復されていないと判定した場合(S11でNO)には、S1の処理に戻り、この場合、非口頭メモモードが継続する。なお、キーワード判定部203は、所定時間経過しても音声認識結果が受信されない場合には、開始キーワードが反復されていないと判定してもよい。
上記S10およびS11の処理を行うことにより、例えばテレビ等の音声に開始キーワードが含まれていたような場合に、ユーザが意図していないタイミングで口頭メモの記録が行われることを防ぐことができる。つまり、上記S10およびS11の処理は、口頭メモモードに遷移することをユーザが意図しているか確認するための処理である。
このため、S10の確認発話の内容は、開始キーワードの反復を促すものに限られず、例えば口頭メモモードに遷移することの可否をユーザに確認する内容(例えば「メモするんだね?」等)であってもよい。ただし、このような確認発話を行った場合、これに対するユーザの応答内容にばらつきが生じると考えられるので、S11では、このようなばらつきをカバーするような判定を行う必要がある。例えば、開始キーワードが反復された場合の他、「はい」や「そうだよ」等の肯定的な文言が発話された場合にも、YESと判定するようにしておくことが望ましい。この点、同一の開始キーワードを反復させる上記の構成では、S11を簡易な処理とすることができる。
(口頭メモモードにおける処理の流れ)
次に、口頭メモモードにおける処理の流れについて、図5を参照して説明する。図5は、口頭メモモードにおける処理の流れの一例を示すフローチャートである。
まず、キーワード判定部203は、メモ生成部208に口頭メモモードに遷移する旨を通知する。また、口頭メモ応答部205に開始発話を行うように指示する。この通知を受信した口頭メモ応答部205は、開始発話のテキストデータを音声合成部206に送信する。
そして、音声合成部206はこのテキストデータを音声データに変換し、発話制御部207はこの音声データを音声対話装置1に送信して出力させる(S20)。上記テキストデータの内容、すなわち開始発話の内容は特に限定されず、例えば「わかった。喋っていいよ。」のようなユーザの発話を促すものであってもよい。
ユーザは、上記開始発話に応じて、音声対話装置1に対してメモとして記録して欲しい内容を発話するので、その発話内容を示す音声データが入力音声取得部201によって取得され、音声解析部202によって解析されて、音声認識結果が生成される。そして、キーワード判定部203は、この音声認識結果に終了キーワードが含まれるか、すなわちユーザによって終了キーワードが入力されたか判定する(S21)。なお、音声解析に失敗した場合には、図3および図4のS6と同様に、音声対話装置1に解析失敗発話を行わせてもよい。
ここで、終了キーワードが入力されていないと判定した場合(S21でNO)、キーワード判定部203は、メモ生成部208に音声認識結果を送信する。そして、メモ生成部208は、受信した音声認識結果を記録する(S27、テキスト記録ステップ)。このようにして記録された音声認識結果(テキストデータ)がメモデータ213である。また、メモ生成部208は、メモデータ213を記録した旨を口頭メモ応答部205に通知する。
上記通知を受信した口頭メモ応答部205は、直前の記録文章、すなわちS27で記録されたテキストデータを読み込む(S28)。また、口頭メモ応答部205は、読み出したテキストデータを音声合成部206に送信する。そして、音声合成部206はこのテキストデータを音声データに変換し、発話制御部207はこの音声データを音声対話装置1に送信して出力させる(S29)。この後、処理はS21に戻る。つまり、ユーザの発話が途切れる毎に、それまでに発話された内容を記録し、復唱するという処理が、終了キーワードが入力されるまで(S21でYESと判定されるまで)繰り返される。
上記S28およびS29の処理によれば、ユーザは、音声対話装置1の発話を聞くことにより、記録されたメモデータ213の内容を確認することができる。例えば、図2の例では、ユーザのメッセージM2が発話された後に行われるS29の処理により、音声対話装置1は応答R2を出力する。これにより、ユーザは、自らが発話したメッセージM2の内容がメモデータ213として記録されていることを確認することができる。メッセージM3に対する応答R3についても同様である。
ここで、S21において、終了キーワードが入力されたと判定した場合(S21でYES)、キーワード判定部203は、復唱・確認発話を行うよう、口頭メモ応答部205に指示する。この指示を受信した口頭メモ応答部205は、全記録文章、すなわちメモデータ213として記録されたテキストデータ(開始キーワードの検出から終了キーワードの検出までに記録された全テキストデータ)を読み込む(S22)。
そして、口頭メモ応答部205は、読み出したテキストデータに所定のテキストデータを付加して復唱・確認発話用のテキストデータを生成し、これを音声合成部206に送信する。音声合成部206はこのテキストデータを音声データに変換し、発話制御部207はこの音声データを音声対話装置1に送信して出力させる(S23)。図2の例では、応答R4が復唱・確認発話に相当する。
ユーザは、上記復唱・確認発話に応じて発話するので、その発話内容を示す音声データが入力音声取得部201によって取得され、音声解析部202によって解析されて、音声認識結果が生成される。そして、キーワード判定部203は、この音声認識結果に終了キーワードが含まれるか、すなわちユーザによって終了キーワードが入力されたか判定する(S24)。なお、S24の終了キーワードは、S21の終了キーワードと同じであってもよいし、異なっていてもよい。異なるキーワードを使用する場合には、各ステップで使用するキーワードのそれぞれを登録キーワード211に含めておけばよい。また、音声解析に失敗した場合には、図3および図4のS6と同様に、音声対話装置1に解析失敗発話を行わせてもよい。
ここで、終了キーワードが入力されていないと判定した場合(S24でNO)、キーワード判定部203は、やりなおしキーワードが入力されたか否かを判定する(S30)。そして、やりなおしキーワードが入力されていないと判定した場合(S30でNO)、処理はS24に戻る。
一方、やりなおしキーワードが入力されたと判定した場合(S30でYES)、キーワード判定部203は、その旨を口頭メモ応答部205とメモ生成部208に通知する。この通知を受信したメモ生成部208は、記録したメモデータ213を削除し、この通知を受信した口頭メモ応答部205は、開始発話のテキストデータを音声合成部206に送信する。つまり、処理はS20に戻り、音声対話装置1によって再度開始発話が行われ、その後に入力された音声がメモデータ213として新たに記録されることになる。なお、S30でYESの場合、記録したメモデータ213は削除せずに、S21の処理に戻り、更なる音声の入力を受け付けてもよい。
ここで、S24において終了キーワードが入力されたと判定した場合(S24でYES)、キーワード判定部203は、メモ生成部208に口頭メモモードを終了する旨通知すると共に、終了発話を行うよう口頭メモ応答部205に指示する。これにより、口頭メモモードは終了し、発話制御装置2は非口頭メモモードに戻る。
口頭メモ応答部205は、キーワード判定部203からの指示に応じて、終了発話のテキストデータを音声合成部206に送信する。そして、音声合成部206はこのテキストデータを音声データに変換し、発話制御部207はこの音声データを音声対話装置1に送信して出力させる(S25)。これにより、音声対話装置1は終了発話を行う。図2の例では、R5の「メモをメールするね。」が終了発話である。
また、口頭メモモードを終了する旨の通知を受信したメモ生成部208は、記録したメモデータ213をユーザに通知するようメモ通知部209に指示する。そして、メモ通知部209は、この指示に従ってメモデータ213を読み出し、該メモデータ213の内容を文面とする電子メールを生成し、所定の送信先に送信することにより、該内容をユーザに通知する(S26)。これにより、口頭メモモードにおける処理は終了する。
なお、記録されるメモデータ213は、その内容をユーザが参照可能になっていればよく、メモの内容を通知するS26の処理は必須ではない。例えば、メモデータ213をユーザの識別情報と対応付けて、該ユーザがアクセス可能な所定のデータベースに記録してもよい。この場合、例えばユーザが所定のアプリケーションソフトウェアを使用して当該データベースにアクセスすることにより、自身が記録させたメモデータ213の内容を参照できるようにしてもよい。
〔実施形態2〕
本発明の他の実施形態について、図6および図7に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
本実施形態の対話システム5では、発話制御装置2は、ユーザの発話内容をそのまま記録するのではなく、その内容を解析して要約を作成し、その要約を記録する。このため、復唱の際には、ユーザが発話した内容の要約を音声対話装置1に音声出力させる。これについて、図6に基づいて説明する。図6は、本実施形態における音声対話装置とユーザとの対話を示す図である。なお、図6の対話例は、図2の対話例のR2、R3、およびR4がそれぞれR20、R30、およびR40に置換されたものであるため、ここではR20、R30、およびR40を中心に説明し、他の発話の説明は省略する。
図6の応答R20は、「わかった。ジャガイモとニンジンとバターを買うんだね。」というものであり、ユーザのメッセージM2の内容が要約されている。同様に、応答R30は、ユーザのメッセージM3の内容が要約されたものである。そして、復唱・確認発話であるR40も、ユーザのメッセージM2およびM3が要約された内容となっている。
これは、本実施形態のメモ生成部208が、音声認識結果をそのまま記録するのではなく、音声認識結果から必要な単語を抽出して要約を生成し、当該要約をメモデータ213として記録することによる。この要約は、音声認識結果を所定の規則に従って処理することによって生成される。
例えば、メッセージM2の音声認識結果を受信した場合、メモ生成部208は、そのテキストデータから「ジャガイモ」、「ニンジン」、「買わないといけない」、「バター」、「買わないと」という単語を抽出する。そして、「ジャガイモとニンジンとバターを買う」という要約を生成して、メモデータ213として記録する。
また、本実施形態の口頭メモ応答部205は、復唱発話の際に、メモデータ213から読み出したテキストデータに所定のテキストを付加した復唱発話メッセージを生成し、音声合成部206に送信する。図6の例では、メモデータ213のテキストの冒頭に「わかった。」を付加し、末尾に「〜んだね。」を付加した復唱発話メッセージとしている。このテキストの付加は、必須の処理ではないが、テキストを付加した場合、要約がなされたことをユーザに認識させることができると共に、より自然な発話とすることができるので好ましい。
(口頭メモモードにおける処理の流れ)
次に、図7を参照して、本実施形態の口頭メモモードにおける処理の流れについて説明する。図7は、口頭メモモードにおける処理の一例を示すフローチャートである。なお、図7の例は、S21でNOの場合に、S27の処理を行う前にS40の処理を行う点で図5の例と異なっているから、ここではこの相違点を中心に説明し、他の処理の説明は省略する。
S40では、メモ生成部208は、キーワード判定部203から受信した音声認識結果の要約を作成する。具体的には、メモ生成部208は、受信した音声認識結果から所定の規則に従って単語を抽出して組み合わせることにより要約を作成する。この後は図5の例と同様に、S27にて上記作成した要約がメモデータ213として記録される。よって、S23およびS29では音声対話装置1に当該要約を音声出力させることになる。
〔実施形態3〕
上記各実施形態では、発話制御装置2の制御により音声対話装置1に発話させ、また発話制御装置2が口頭メモを記録する例を説明した。しかしながら、音声対話装置1が単体でユーザの発話に応答する機能、開始キーワード等の各種キーワードを検出する機能、および口頭メモを記録する機能を備えていてもよい。
つまり、本実施形態の音声対話装置(情報処理装置)1は、制御部10に発話制御装置2の制御部20に含まれる各ブロックを備え、記憶部13に登録キーワード211、対話DB212、およびメモデータ213を格納している。この音声対話装置1によれば、発話制御装置2と通信することなく、ユーザと対話し、必要に応じてユーザの発話内容を記録することができる。
また、上記各実施形態の発話制御装置2の機能の一部を音声対話装置1に持たせてもよい。例えば、非口頭メモモード時には発話制御装置2の制御によって音声対話装置1に通常の対話を行わせ、口頭メモモード時には音声対話装置1単体で応答およびメモの記録を行ってもよい。
〔実施形態4〕
また、例えば音声解析部202および音声合成部206を音声対話装置1の制御部10に含めてもよい。この場合、音声対話装置1は、音声入力部11から入力されるユーザの発話音声を音声解析部202によって音声解析し、これによって得られた音声認識結果のテキストデータを発話制御装置2に送信する。
そして、発話制御装置2は、受信したテキストデータからキーワードの検出などを行い、発話内容を決定すると、決定した発話内容を示すデータ(例えばテキストデータ)を音声対話装置1に送信する。
これにより、音声対話装置1は、音声合成部206によって当該データから音声データを生成し、この音声データを音声出力部12から音声出力する。この例では、発話制御装置2の処理の負荷を低減できると共に、音声データを送受信する上記各実施形態の構成と比べて、ネットワークの負荷を低減することができる。
〔実施形態5〕
さらに、例えば音声解析部202および音声合成部206に加えて、キーワード判定部203および通常応答部204についても音声対話装置1の制御部10に含めてもよい。この場合、音声対話装置1は、キーワード判定部203が開始キーワードを検出したときには、発話制御装置2に音声認識結果のテキストデータを送信して、これをメモデータ213として記録させる。また、この場合、非口頭メモモードでは、発話制御装置2と通信することなく、速やかにユーザに応答を返すことができる。
このように、通常の発話応答のような使用頻度の高い処理や早い応答速度が求められる処理については音声対話装置1で実行することが好ましい。一方、外部リソースが必要な処理や、早い応答速度は求められない処理(例えばテキストベースの記事を音声データに変換して出力するテキスト読み上げ処理等)は発話制御装置2に実行させることが好ましい。処理の特性に応じて、音声対話装置1と発話制御装置2に分担させる処理を決めることにより、全体として効率が良く、ユーザメリットの大きいシステム構成とすることができる。また、発話制御装置2以外のサーバに処理の一部を分担させてもよい。
〔変形例〕
上記対話システム5は、音声対話装置1を複数含んでもよく、この場合、音声対話装置1毎に、ユーザに対する応答やメモの記録の態様を異ならせてもよい。これにより、音声対話装置1毎の個性をユーザに感じさせることができる。
この場合、発話制御装置2は、複数の音声対話装置のうち何れの音声対話装置1から音声データを受信したかを特定する。これにより、口頭メモモードにおいて、特定した音声対話装置1に応じた各種発話(開始発話等)を行わせることができる。なお、音声対話装置1毎の発話内容は予め登録しておけばよい。また、要約作成のアルゴリズムを音声対話装置1に応じて変更することにより、メモの記録の態様を異ならせることができる。これは、上記実施形態3のように、音声対話装置1が口頭メモを記録する機能等を有している場合にも適用可能である。この場合、各音声対話装置1の発話内容や、使用する要約作成のアルゴリズムを異なるものとすればよい。
また、上記各実施形態で使用している各キーワード(開始キーワードや終了キーワード等)は一例にすぎず、任意のキーワードを適用することができる。また、同じ処理のトリガとなるキーワードを複数種類設定してもよい。例えば、上述の「メモして」に加えて、「メモお願い」や「控えておいて」等についても開始キーワードと設定してもよい。終了キーワード等の他のキーワードについても同様である。
〔実施形態6〕
上記各実施形態では、1つの発話制御装置2を用いる例を説明したが、発話制御装置2の有する各機能が、個別のサーバにて実現されていてもよい。例えば、音声対話装置1に通常の対話(非口頭メモモードにおける対話)を行わせる機能と、口頭メモモードを実現する機能(メモの生成、記録、復唱など)とを個別のサーバで実現してもよい。そして、複数のサーバを適用する場合においては、各サーバは、同じ事業者によって管理されていてもよいし、異なる事業者によって管理されていてもよい。
〔実施形態7〕
音声対話装置1および発話制御装置2の各ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、音声対話装置1および発話制御装置2のそれぞれを、図8に示すようなコンピュータ(電子計算機)を用いて構成することができる。
図8は、音声対話装置1および発話制御装置2として利用可能なコンピュータ910の構成を例示したブロック図である。コンピュータ910は、バス911を介して互いに接続された演算装置912と、主記憶装置913と、補助記憶装置914と、入出力インターフェース915と、通信インターフェース916とを備えている。演算装置912、主記憶装置913、および補助記憶装置914は、それぞれ、例えばCPU、RAM(random access memory)、ハードディスクドライブであってもよい。入出力インターフェース915には、ユーザがコンピュータ910に各種情報を入力するための入力装置920、および、コンピュータ910がユーザに各種情報を出力するための出力装置930が接続される。入力装置920および出力装置930は、コンピュータ910に内蔵されたものであってもよいし、コンピュータ910に接続された(外付けされた)ものであってもよい。例えば、入力装置920は、マイク、キーボード、マウス、タッチセンサなどであってもよく、出力装置930は、ディスプレイ、プリンタ、スピーカなどであってもよい。そして、通信インターフェース916は、コンピュータ910が外部の装置と通信するためのインターフェースである。
補助記憶装置914には、コンピュータ910を音声対話装置1および発話制御装置2として動作させるための各種のプログラムが格納されている。そして、演算装置912は、補助記憶装置914に格納された上記プログラムを主記憶装置913上に展開して該プログラムに含まれる命令を実行することによって、コンピュータ910を、音声対話装置1および発話制御装置2が備える各部として機能させる。なお、補助記憶装置914が備える、プログラム等の情報を記録する記録媒体は、コンピュータ読み取り可能な「一時的でない有形の媒体」であればよく、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブル論理回路などであってもよい。
また、上記プログラムは、コンピュータ910の外部から取得してもよく、この場合、任意の伝送媒体(通信ネットワークや放送波等)を介して取得してもよい。そして、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔まとめ〕
本発明の態様1に係る情報処理装置(発話制御装置2)は、ユーザの発する音声を取得して応答音声を出力する音声対話装置(1)による上記音声への応答に用いられる、該音声の音声認識結果を取得する認識結果取得部(キーワード判定部203)と、上記音声認識結果から上記ユーザの発話内容を示すテキストデータを生成して記録するテキスト記録部(メモ生成部208)と、を備えている。
上記の構成によれば、音声対話装置による応答に用いられる音声認識結果を取得し、この音声認識結果からユーザの発話内容を示すテキストデータを生成して記録する。よって、音声対話装置による応答に用いられる音声認識結果を利用して、ユーザが音声対話装置に対して発話した発話内容をテキストデータとして記録することができるという効果を奏する。
なお、上記情報処理装置と上記音声対話装置とは、別体の装置であってもよいし、一体の装置であってもよい。また、音声認識結果は、上記情報処理装置が生成したものであってもよいし、上記音声対話装置が生成したものであってもよく、その他の装置が生成したものであってもよい。
本発明の態様2に係る情報処理装置は、上記態様1において、上記情報処理装置の動作モードには、上記ユーザの発話内容を示すテキストデータを記録する記録モード(口頭メモモード)と、該テキストデータは記録せずに上記音声対話装置にユーザと対話させる対話モード(非口頭メモモード)とが含まれており、上記認識結果取得部が取得した上記音声認識結果に所定の語句が含まれているときに、上記情報処理装置を上記記録モードに遷移させる記録制御部(キーワード判定部203)を備えていてもよい。
上記の構成によれば、音声認識結果に所定の語句が含まれているときに、情報処理装置を記録モードに遷移させる。よって、該構成によれば、ユーザは、対話モードにおいて音声対話装置と対話する中で、発話内容を記録したいタイミングで上記所定の語句を発話するという極めて簡易な行為により、その後の発話内容をテキストデータとして記録させることができる。
本発明の態様3に係る情報処理装置は、上記態様2において、上記認識結果取得部が取得した上記音声認識結果に上記所定の語句が含まれているときに、該語句を再度発話することを促す音声を上記音声対話装置に出力させる発話制御部(207)を備え、上記記録制御部は、上記発話制御部が上記語句を再度発話することを促す音声を上記音声対話装置に出力させた後、上記認識結果取得部が取得した音声認識結果に上記所定の語句が含まれている場合に、上記情報処理装置を上記記録モードに遷移させてもよい。
上記の構成によれば、音声認識結果に所定の語句が含まれるときに、該語句を再度発話することを促す音声を音声対話装置に出力させる。そして、この音声を出力させた後の音声認識結果に上記所定の語句が含まれる場合に、情報処理装置を記録モードに遷移させる。
これにより、ユーザが発話内容を記録することを意図していないときに、発話内容が記録されることを防ぐことができる。例えば、音声対話装置が、テレビの音やユーザが他のユーザと会話している声を取得した際の音声認識結果に上記所定の語句が含まれていたような場合には、その所定の語句が再度発話される可能性が低い。よって、このような場合に発話内容が記録されることを防ぐことができる。
本発明の態様4に係る情報処理装置は、上記態様1から3の何れかにおいて、上記音声対話装置に上記テキスト記録部が記録したテキストデータを音声出力させる発話制御部(207)を備えていてもよい。
上記の構成によれば、記録したテキストデータを音声対話装置に音声出力させるので、ユーザは、音声対話装置との対話の中で、どのような内容が記録されたかを認識することができる。
本発明の態様5に係る情報処理装置は、上記態様1から4の何れかにおいて、上記テキスト記録部は、上記認識結果取得部が取得した上記音声認識結果の内容を所定の規則に従って要約して生成したテキストデータを記録してもよい。
一般に、ユーザの発話する音声には、そのユーザが伝達したい情報以外にも様々な情報が含まれる。このため、ユーザの発話する音声をそのままテキスト化した場合、冗長で意図が伝わりにくいものとなる可能性がある。そこで、上記の構成によれば、ユーザの発話した音声の音声認識結果の内容を要約したテキストデータを記録している。これにより、記録するテキストデータを、簡潔でユーザの伝達したい情報が読み取りやすいものとすることができる。
本発明の態様6に係る情報処理装置は、上記態様1から5の何れかにおいて、上記テキスト記録部が記録したテキストデータを所定の送信先に送信するテキスト送信部(メモ通知部209)を備えていてもよい。
上記の構成によれば、記録したテキストデータを所定の送信先に送信するので、ユーザは、この所定の送信先にアクセスすることにより、上記テキストデータの内容を確認することができる。これにより、情報処理装置から離れた場所においても、上記テキストデータの内容を確認することが可能になる。
本発明の態様7に係る情報処理方法は、情報処理装置が実行する情報処理方法であって、ユーザの発する音声を取得して応答音声を出力する音声対話装置による上記音声への応答に用いられる、該音声の音声認識結果を取得する認識結果取得ステップと(S4)、上記音声認識結果から上記ユーザの発話内容を示すテキストデータを生成して記録するテキスト記録ステップ(S27)と、を含む。よって、態様1と同様の作用効果を奏する。
本発明の態様8に係る対話システム(5)は、ユーザの発する音声を取得する音声対話装置(1)と、該音声対話装置に上記音声に応じた応答音声を出力させる情報処理装置(2)とを含む対話システムであって、上記情報処理装置は、上記音声対話装置が取得した上記音声の音声認識結果を取得する認識結果取得部(キーワード判定部203)と、上記音声認識結果から上記ユーザの発話内容を示すテキストデータを生成して記録するテキスト記録部(メモ生成部208)と、を備えている。よって、態様1と同様の作用効果を奏する。
本発明の各態様に係る情報処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記情報処理装置が備える各部(ソフトウェア要素)として動作させることにより上記情報処理装置をコンピュータにて実現させる情報処理装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
本発明は、ユーザの音声発話に対して応答音声を出力する音声対話装置や、このような音声対話装置に発話させる発話制御装置等に利用することができる。
1 音声対話装置
2 発話制御装置(情報処理装置)
202 音声解析部(音声認識部)
203 キーワード判定部(認識結果取得部、記録制御部)
207 発話制御部
208 メモ生成部(テキスト記録部)
209 メモ通知部(テキスト送信部)
213 メモデータ(ユーザの発話内容を示すテキストデータ)
5 対話システム

Claims (8)

  1. ユーザの発する音声を取得して応答音声を出力する音声対話装置による上記音声への応答に用いられる、該音声の音声認識結果を取得する認識結果取得部と、
    上記音声認識結果から上記ユーザの発話内容を示すテキストデータを生成して記録するテキスト記録部と、
    音声入力をやり直すためのキーワードが音声認識された場合に、発話を促す音声を上記音声対話装置に出力させる発話制御部と、を備え、
    上記テキスト記録部は、音声入力をやり直すためのキーワードが音声認識された場合、上記発話制御部が発話を促す音声を上記音声対話装置に出力させた後の音声認識結果から上記ユーザの発話内容を示すテキストデータを生成して記録し、
    上記発話制御部は、上記ユーザの一連の発話が終了するまでの期間、上記ユーザの発話が途切れる毎に、それまでに上記テキスト記録部が記録した上記一連の発話のテキストデータを上記音声対話装置に音声出力させる、ことを特徴とする情報処理装置。
  2. 上記情報処理装置の動作モードには、上記ユーザの発話内容を示すテキストデータを記録する記録モードと、該テキストデータは記録せずに上記音声対話装置にユーザと対話させる対話モードとが含まれており、
    上記認識結果取得部が取得した上記音声認識結果に所定の語句が含まれているときに、上記情報処理装置を上記記録モードに遷移させる記録制御部を備えていることを特徴とする請求項1に記載の情報処理装置。
  3. 上記認識結果取得部が取得した上記音声認識結果に上記所定の語句が含まれているときに、該語句を再度発話することを促す音声を上記音声対話装置に出力させる発話制御部を備え、
    上記記録制御部は、上記発話制御部が上記語句を再度発話することを促す音声を上記音声対話装置に出力させた後、上記認識結果取得部が取得した音声認識結果に上記所定の語句が含まれている場合に、上記情報処理装置を上記記録モードに遷移させることを特徴とする請求項2に記載の情報処理装置。
  4. 上記テキスト記録部は、上記認識結果取得部が取得した上記音声認識結果の内容を所定の規則に従って要約して生成したテキストデータを記録することを特徴とする請求項1からの何れか1項に記載の情報処理装置。
  5. 上記テキスト記録部が記録したテキストデータを所定の送信先に送信するテキスト送信部を備えていることを特徴とする請求項1からの何れか1項に記載の情報処理装置。
  6. 情報処理装置が実行する情報処理方法であって、
    ユーザの発する音声を取得して応答音声を出力する音声対話装置による上記音声への応答に用いられる、該音声の音声認識結果を取得する認識結果取得ステップと、
    音声入力をやり直すためのキーワードが音声認識された場合に、発話を促す音声を上記音声対話装置に出力させるステップと、
    発話を促す音声を上記音声対話装置に出力させた後の音声認識結果から上記ユーザの発話内容を示すテキストデータを生成して記録するテキスト記録ステップと
    上記ユーザの一連の発話が終了するまでの期間、上記ユーザの発話が途切れる毎に、それまでに記録した上記一連の発話のテキストデータを上記音声対話装置に音声出力させるステップと、を含むことを特徴とする情報処理方法。
  7. ユーザの発する音声を取得する音声対話装置と、該音声対話装置に上記音声に応じた応答音声を出力させる情報処理装置とを含む対話システムであって、
    上記情報処理装置は、
    上記音声対話装置が取得した上記音声の音声認識結果を取得する認識結果取得部と、
    上記音声認識結果から上記ユーザの発話内容を示すテキストデータを生成して記録するテキスト記録部と、
    音声入力をやり直すためのキーワードが音声認識された場合に、発話を促す音声を上記音声対話装置に出力させる発話制御部と、を備え、
    上記テキスト記録部は、音声入力をやり直すためのキーワードが音声認識された場合、上記発話制御部が発話を促す音声を上記音声対話装置に出力させた後の音声認識結果から上記ユーザの発話内容を示すテキストデータを生成して記録し、
    上記発話制御部は、上記ユーザの一連の発話が終了するまでの期間、上記ユーザの発話が途切れる毎に、それまでに上記テキスト記録部が記録した上記一連の発話のテキストデータを上記音声対話装置に音声出力させる、ことを特徴とする対話システム。
  8. 請求項1に記載の情報処理装置としてコンピュータを機能させるための制御プログラムであって、上記認識結果取得部上記テキスト記録部、および上記発話制御部としてコンピュータを機能させるための制御プログラム。
JP2014245349A 2014-12-03 2014-12-03 情報処理装置、情報処理方法、対話システム、および制御プログラム Expired - Fee Related JP6559417B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014245349A JP6559417B2 (ja) 2014-12-03 2014-12-03 情報処理装置、情報処理方法、対話システム、および制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014245349A JP6559417B2 (ja) 2014-12-03 2014-12-03 情報処理装置、情報処理方法、対話システム、および制御プログラム

Publications (2)

Publication Number Publication Date
JP2016109784A JP2016109784A (ja) 2016-06-20
JP6559417B2 true JP6559417B2 (ja) 2019-08-14

Family

ID=56124042

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014245349A Expired - Fee Related JP6559417B2 (ja) 2014-12-03 2014-12-03 情報処理装置、情報処理方法、対話システム、および制御プログラム

Country Status (1)

Country Link
JP (1) JP6559417B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7028179B2 (ja) * 2016-09-29 2022-03-02 日本電気株式会社 情報処理装置、情報処理方法およびコンピュータ・プログラム
CN107231478A (zh) * 2017-06-06 2017-10-03 深圳市乃斯网络科技有限公司 终端记事本的应用方法及系统
JP2019086903A (ja) 2017-11-02 2019-06-06 東芝映像ソリューション株式会社 音声対話端末、および音声対話端末制御方法
CN107895016B (zh) * 2017-11-14 2022-02-15 百度在线网络技术(北京)有限公司 一种播放多媒体的方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09330096A (ja) * 1996-06-10 1997-12-22 Fujitsu Ten Ltd 車載用音声メモ装置
JP2004226698A (ja) * 2003-01-23 2004-08-12 Yaskawa Electric Corp 音声認識装置
JP4014044B2 (ja) * 2003-01-28 2007-11-28 株式会社国際電気通信基礎技術研究所 コミュニケーションロボットおよびそれを用いたコミュニケーションシステム
JP2009025538A (ja) * 2007-07-19 2009-02-05 Nissan Motor Co Ltd 音声対話装置
JP2009025517A (ja) * 2007-07-19 2009-02-05 Nissan Motor Co Ltd 車載用情報提供対話装置
JP2011257626A (ja) * 2010-06-10 2011-12-22 Murata Mach Ltd 音声認識装置と認識方法

Also Published As

Publication number Publication date
JP2016109784A (ja) 2016-06-20

Similar Documents

Publication Publication Date Title
US11341972B2 (en) Speech recognition using two language models
KR100679043B1 (ko) 음성 대화 인터페이스 장치 및 방법
US9721563B2 (en) Name recognition system
US10887764B1 (en) Audio verification
US20160293157A1 (en) Contextual Voice Action History
WO2015098306A1 (ja) 応答制御装置、制御プログラム
US20170287465A1 (en) Speech Recognition and Text-to-Speech Learning System
JP5731998B2 (ja) 対話支援装置、対話支援方法および対話支援プログラム
JP6559417B2 (ja) 情報処理装置、情報処理方法、対話システム、および制御プログラム
CN107622768B (zh) 音频截剪器
JP2019090942A (ja) 情報処理装置、情報処理システム、情報処理方法、および情報処理プログラム
CN112513984A (zh) 电子设备及其控制方法
JPWO2018043138A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
US20120053937A1 (en) Generalizing text content summary from speech content
JP6715943B2 (ja) 対話装置、対話装置の制御方法、および制御プログラム
JP6904225B2 (ja) 情報処理装置
JP6644141B2 (ja) 応答装置および応答装置の制御方法、制御プログラム
CN111104071A (zh) 用于语音助手搜索结果的集成打印的系统和方法
JP2021113835A (ja) 音声処理装置および音声処理方法
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
JP2018022086A (ja) サーバ装置、制御システム、方法、情報処理端末、および制御プログラム
JP2021149664A (ja) 出力装置、出力方法及び出力プログラム
JPWO2016104193A1 (ja) 対応決定装置、音声対話システム、対応決定装置の制御方法、および音声対話装置
JP2015036826A (ja) コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム
JP6468069B2 (ja) 電子機器制御システム、サーバー、及び、端末装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170925

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180910

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180925

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190618

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190717

R150 Certificate of patent or registration of utility model

Ref document number: 6559417

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees