WO2021200307A1

WO2021200307A1 - 情報処理装置、対話型ロボット、制御方法

Info

Publication number: WO2021200307A1
Application number: PCT/JP2021/011574
Authority: WO
Inventors: 凌輔中山; 玄阿部; 妙織吉戸
Original assignee: ソニーグループ株式会社
Priority date: 2020-03-30
Filing date: 2021-03-22
Publication date: 2021-10-07
Also published as: EP4129122A1; EP4129122A4; US20230147704A1; CN115335898A; JPWO2021200307A1

Abstract

本技術は、２者間のコミュニケーションを円滑に行わせることができるようにする情報処理装置、対話型ロボット、制御方法に関する。本技術の一側面の情報処理装置は、ネットワークを介して会話を行っている２人のユーザが使用するそれぞれの対話型ロボットにより検出された、２人のユーザのそれぞれの発話を解析し、２人のユーザの会話の状況に応じて、会話の補助となる音声である会話補助音声をそれぞれの対話型ロボットから出力させる装置である。本技術は、遠隔で会話を行う２人が利用する対話型ロボットの動作を制御するサーバに適用することができる。

Description

情報処理装置、対話型ロボット、制御方法

　本技術は、特に、２者間のコミュニケーションを円滑に行わせることができるようにした情報処理装置、対話型ロボット、制御方法に関する。

　近年、音声によるユーザの問いかけに対して音声で応答することによってユーザを支援する対話型エージェントが普及してきている。ユーザは、このような対話型エージェントの機能を搭載したデバイスに話しかけることによって、天気予報を聞いたり、音楽を再生したり、予定を確認したりすることができる。

　特許文献１には、会話形式で個人情報を収集し、収集した個人情報に基づいて、個別のユーザに的確な商品等を提案する対話型エージェントシステムが記載されている。

　非特許文献１には、仲人と呼ばれる第三者を介してビデオ通話を行うマッチングサービスが開示されている。

特開２００８-５２４４９号公報

「Yi Dui」，インターネット，<URL　https://www.520yidui.com/>，令和２年３月１６日検索

　従来の対話型エージェントシステムは、一般的に、ユーザとシステムの関係が１：１の関係となって、ユーザの質問等に対して応答するものである。

　本技術はこのような状況に鑑みてなされたものであり、２者間のコミュニケーションを円滑に行わせることができるようにするものである。

　本技術の一側面の情報処理装置は、ネットワークを介して会話を行っている２人のユーザが使用するそれぞれの対話型ロボットにより検出された、２人の前記ユーザのそれぞれの発話を解析する解析部と、２人の前記ユーザの会話の状況に応じて、会話の補助となる音声である会話補助音声をそれぞれの前記対話型ロボットから出力させる制御部とを備える。

　本技術の他の側面の対話型ロボットは、ユーザに対してお酒を提供する給仕部と、お酒が提供された後の前記ユーザの発話を検出し、検出した発話の音声データを、前記ユーザの発話と、会話の相手となる他のユーザの発話とを解析する情報処理装置に対して送信させるとともに、２人の会話の状況に応じて前記情報処理装置から送信されてきた、会話の補助となる音声である会話補助音声を出力させる会話制御部とを備える。

　本技術の一側面においては、ネットワークを介して会話を行っている２人のユーザが使用するそれぞれの対話型ロボットにより検出された、２人の前記ユーザのそれぞれの発話が解析され、２人の前記ユーザの会話の状況に応じて、会話の補助となる音声である会話補助音声をそれぞれの前記対話型ロボットから出力させる処理が行われる。

　本技術の他の側面においては、ユーザに対してお酒が提供され、お酒が提供された後の前記ユーザの発話が検出され、検出した発話の音声データを、前記ユーザの発話と、会話の相手となる他のユーザの発話とを解析する情報処理装置に対して送信させる処理が行われる。また、２人の会話の状況に応じて前記情報処理装置から送信されてきた、会話の補助となる音声である会話補助音声を出力させる処理が行われる。

本技術の一実施形態に係る音声コミュニケーションシステムの構成例を示す図である。アシスト発話の出力例を示す図である。会話アシスト機能を実現するAIの例を示す図である。会話の様子を示す図である。対話型エージェント装置の外観を拡大して示す斜視図である。ボトルの取り付け例を示す図である。飲酒記録の表示例を示す図である。会話記録の表示例を示す図である。ユーザＡ－ユーザＢ間の会話の具体例を示す図である。図９に続く会話の具体例を示す図である。図１０に続く会話の具体例を示す図である。ユーザＣ－ユーザＤ間の会話の具体例を示す図である。図１２に続く会話の具体例を示す図である。ユーザＡ－ユーザＢ間の会話の具体例を示す図である。図１４に続く会話の具体例を示す図である。ユーザＡ－ユーザＢ間の会話の具体例を示す図である。マッチングの例を示す図である。対話型エージェント装置の構成例を示すブロック図である。コミュニケーション管理サーバのハードウェア構成例を示すブロック図である。コミュニケーション管理サーバの機能構成例を示すブロック図である。コミュニケーション管理サーバの処理について説明するフローチャートである。対話型エージェント装置の処理について説明するフローチャートである。対話型エージェント装置の使用例を示す図である。

＜本技術の概要＞
　本技術の音声コミュニケーションシステムを管理するサーバは、AI(Artificial Intelligence)による会話アシスト機能によって、２者間の円滑な会話を実現させる情報処理装置である。会話アシスト機能により、システム側の発話が出力され、会話を行っているユーザに対して発話が促される。

　例えば、２者間の会話中におけるそれぞれの発話時間が計測される。それぞれのユーザの発話時間に差がある場合、システム側の発話によって、発話時間の少ないユーザに対して発話が促される。システム側の発話のフレーズは、あらかじめ設定されたフレーズの中から選択される。例えば、「Ａさんはどう思いますか？」などのような、ユーザのアカウント名を含むフレーズがシステム側の発話として出力される。

　また、２者間の会話中における沈黙時間が計測される。１０秒間といったような一定の時間の沈黙が生じた場合、システム側の発話によって新たな話題が提供される。例えば、２人のユーザが共通して興味のあるトピックスに該当するタイトルの最新記事がWeb上のニュースサイトから抽出され、その記事に関する内容が新たな話題として提供される。

　すなわち、本技術の音声コミュニケーションシステムは、ユーザ：AI＝２：１の構成によって、ユーザ同士のコミュニケーションを補助する役割をAIによって実現するものである。それぞれのユーザの近傍には、音声の入出力等を行う専用のハードウェアが用意される。また、詳細な設定や会話のアーカイブの確認の機能などが、それぞれのユーザが有するスマートフォンなどの携帯端末にインストールされた専用のアプリケーションによって提供される。

　以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
　１．音声コミュニケーションシステムの構成
　２．対話型エージェント装置の外観構成
　３．専用アプリケーションについて
　４．アシスト発話を含む会話の具体例
　５．各装置の構成例
　６．各装置の動作
　７．その他

＜音声コミュニケーションシステムの構成＞
　図１は、本技術の一実施形態に係る音声コミュニケーションシステムの構成例を示す図である。

　図１の音声コミュニケーションシステムは、２台の対話型エージェント装置１である対話型エージェント装置１Ａ，１Ｂがネットワーク２１を介して接続されることによって構成される。インターネットなどよりなるネットワーク２１にはコミュニケーション管理サーバ１１も接続される。

　対話型エージェント装置１Ａは、ユーザＡによって使用される装置であり、ユーザＡの自宅などに設置される。同様に、対話型エージェント装置１Ｂは、ユーザＢによって使用される装置であり、ユーザＢの自宅などに設置される。図１には２台の対話型エージェント装置１が示されているが、実際には、さらに多くの対話型エージェント装置１がネットワーク２１に接続される。

　図１の例においては、ユーザＡ，Ｂは、それぞれ、スマートフォンなどの携帯端末２Ａ，２Ｂを有している。携帯端末２Ａ，２Ｂもネットワーク２１に接続される。

　対話型エージェント装置１は、ユーザとの間で音声によるやりとりが可能な対話型のエージェント機能を有する装置である。対話型エージェント装置１には、ユーザの音声を検出するマイクロフォン、他のユーザの音声などを出力するスピーカなどが設けられる。対話型エージェント装置１が有するエージェント機能は、適宜、対話型エージェント装置１とコミュニケーション管理サーバ１１が連携することによって実現される。対話型エージェント装置１とコミュニケーション管理サーバ１１との間では各種の情報の送受信が行われる。

　対話型エージェント装置１が有するエージェント機能により、例えば、マッチングされた２人のユーザ間での会話が実現される。図１に示すユーザＡとユーザＢは、コミュニケーション管理サーバ１１によりマッチングされたユーザである。

　ユーザＡの音声は、対話型エージェント装置１Ａにより集音され、コミュニケーション管理サーバ１１を介して対話型エージェント装置１Ｂに対して送信される。対話型エージェント装置１Ｂにおいては、コミュニケーション管理サーバ１１を介して送信されてきたユーザＡの音声が出力される。

　同様に、ユーザＢの音声は、対話型エージェント装置１Ｂにより集音され、コミュニケーション管理サーバ１１を介して対話型エージェント装置１Ａに対して送信される。対話型エージェント装置１Ａにおいては、コミュニケーション管理サーバ１１を介して送信されてきたユーザＢの音声が出力される。これにより、ユーザＡとユーザＢは、それぞれ自宅において、遠隔での会話を行うことが可能となる。

　ユーザＡとユーザＢの会話中、適宜、２人の会話をアシスト（補助）する発話が、システム側の発話としてコミュニケーション管理サーバ１１から対話型エージェント装置１Ａと対話型エージェント装置１Ｂに対して送信され、対話型エージェント装置１Ａと対話型エージェント装置１Ｂにおいてそれぞれ出力される。ユーザＡとユーザＢは、それぞれ、システム側の発話を聞いてリアクションをとることになる。

　すなわち、コミュニケーション管理サーバ１１は、会話を行う２人をマッチングさせるだけでなく、２人の会話の状況を解析し、２人の会話の状況に応じて、２人の会話をアシストするような発話を行う会話アシスト機能を有する。以下、適宜、会話アシスト機能によってコミュニケーション管理サーバ１１が対話型エージェント装置１から出力させる発話をアシスト発話という。アシスト発話は、会話の補助となる会話補助音声である。

　図２は、アシスト発話の出力例を示す図である。

　図２の上段は、活発に会話をしているユーザＡとユーザＢの状態を示す。図２においては対話型エージェント装置１等の図示を省略しているが、それぞれのユーザの発話は、自分が使用する対話型エージェント装置１から相手が使用する対話型エージェント装置１に対して送信され、出力される。

　ユーザＡとユーザＢの会話が図２の中段に示すように途切れた場合、図２の下段に示すように、対話型エージェント装置１Ａと対話型エージェント装置１Ｂからアシスト発話が出力される。図２の例においては、２人の共通の趣味である「野球」を話題にして会話をすることを促すアシスト発話が出力されている。ユーザＡとユーザＢは、「野球」を話題にして会話を再開することになる。

　このように、コミュニケーション管理サーバ１１においては、会話が途切れたかどうかなどの会話の状況が解析され、解析結果に基づいてアシスト発話が出力される。会話アシスト機能は、コミュニケーション管理サーバ１１に用意されたAIによって実現される。コミュニケーション管理サーバ１１は、例えば対話型エージェント装置１のメーカーにより管理される。

　図３は、会話アシスト機能を実現するAIの例を示す図である。

　図３の上方に示すように、コミュニケーション管理サーバ１１には、会話アシスト機能を実現するAIである会話アシストAIが用意される。会話アシストAIは、例えば、会話の状況と、趣味趣向等の、ユーザＡとユーザＢのそれぞれの個人情報とを入力とし、話題として提供する内容を出力とするニューラルネットワークなどにより構成される推論モデルである。会話の状況には、ユーザＡとユーザＢのそれぞれの発話時間、沈黙の時間（会話が途切れた時間）などが含まれる。

　会話アシストAIを構成する推論モデルは、様々な会話の状況を表す情報、様々なユーザの個人情報、および、ニュースサイトから取得されたニュース記事の情報などを用いた機械学習が行われることによって生成される。

　破線＃１，＃２に示すように、対話型エージェント装置１Ａと対話型エージェント装置１Ｂは、それぞれ会話アシストAIに接続されている。会話アシストAIにおいては、対話型エージェント装置１Ａと対話型エージェント装置１Ｂから送信されてきた情報に基づいて２人の会話の状況が解析され、適宜、会話アシスト機能による話題の提供が行われる。

　なお、図３の下方に示すように、ユーザＡとユーザＢは、それぞれ、専用のアプリケーションがインストールされた自分の携帯端末２を用いて、興味のあるトピックス（出来事、話題）などのプロフィール情報をあらかじめ入力している。ユーザＡとユーザＢが専用のアプリケーションを起動させ、アカウント情報を入力するなどしてログイン操作を行ったとき、アカウント情報と紐付けてコミュニケーション管理サーバ１１において管理されていたユーザＡとユーザＢのプロフィール情報が特定される。

　このような会話アシスト機能を利用した２人の会話は、例えば、２人のユーザが、それぞれの自宅で、対話型エージェント装置１により用意されたお酒を飲んでいる状況で行われる。すなわち、対話型エージェント装置１には、ユーザのリクエストに応じてお酒を提供する機能が用意されている。アシスト発話は、２人のユーザに対してそれぞれの対話型エージェント装置１によりお酒が提供された後の会話の状況に応じて出力される。

　ユーザＡとユーザＢは、それぞれ、対話型エージェント装置１により用意されたお酒を自宅で飲みながら、１対１で相手と会話を行うことになる。１対１で行われるユーザＡとユーザＢの会話には第三者の発話であるアシスト発話が会話の状況に応じて適宜挟まれるから、ユーザＡとユーザＢが会話を行っている状況は、図４に示すように、あたかも、適切なタイミングで会話に入ってくるバーテンダーを前にした状況と同じような状況となる。

　ユーザＡとユーザＢは、お酒を飲みながらアシスト発話によるサポートを受けて会話を行い、円滑なコミュニケーションを図ることが可能となる。

　なお、図４にはユーザＡとユーザＢが隣同士に座っている状況が示されているが、実際には、ユーザＡとユーザＢは、それぞれの自宅にいて、対話型エージェント装置１に向かって話をしていることになる。１対１の会話に適切なタイミングで入り込むバーテンダーの役割を担って、バーにいる感覚を演出する対話型エージェント装置１は、バーテンダーロボットということもできる。

＜対話型エージェント装置の外観＞
　図５は、対話型エージェント装置１の外観を拡大して示す斜視図である。

　図５に示すように、対話型エージェント装置１は、上面に緩やかな斜面が形成された、縦長の略直方体状の筐体５１を有する。筐体５１の上面には凹陥部５１Ａが形成される。凹陥部５１Ａには、図６の矢印で示すように、ウィスキーなどのお酒が入ったボトル６１が取り付けられる。

　また、筐体５１の正面下方には矩形の開口部５１Ｂが形成される。開口部５１Ｂはグラス６２の取り出し口として用いられる。開口部５１Ｂにグラス６２が置かれ、ユーザによりお酒のリクエストがあったことに応じて、ボトル６１に入っているお酒がグラス６２に注がれる。筐体５１の内部には、お酒を自動的に注ぐサーバ機構も設けられる。

　ボトル６１が空になった場合、ユーザは、届けられた新しいボトル６１を凹陥部５１Ａに取り付けることによって、対話型エージェント装置１を継続して利用することができる。例えば、対話型エージェント装置１のユーザ向けのサービスとして、ボトル６１が定期的に届けられる、お酒のサブスクリプションサービスが用意される。

　筐体５１の側面には、氷や、割り材となる水、炭酸水などの投入口が設けられる。ユーザは、飲み方を音声でリクエストすることにより、ストレート、オンザロック、ハイボールなどの様々な飲み方を試すことができる。対話型エージェント装置１には、サーバ機構を制御してバーテンダーの注ぎ方を再現するレシピデータが用意されている。

＜専用アプリケーションについて＞
　上述したように、それぞれの携帯端末２には、音声コミュニケーションシステムの専用のアプリケーションがインストールされる。専用アプリケーションは、例えば対話型エージェント装置１のメーカーにより用意される。

　ユーザは、専用アプリケーションを操作して、年齢、住所、趣味などのプロフィール情報の登録を行う。登録されたプロフィール情報は、コミュニケーション管理サーバ１１に対して送信され、ユーザのアカウント情報と紐付けて管理される。

　図７および図８は、専用アプリケーションの画面の例を示す図である。

　専用アプリケーションの画面には、飲酒記録タブＴ１と会話記録タブＴ２が用意される。飲酒記録タブＴ１がタップされた場合、図７に示すように飲酒記録が表示される。図７の例においては、お酒を飲んだ日時と量、飲み方などの情報が飲酒記録として表示されている。

　一方、会話記録タブＴ２がタップされた場合、図８に示すように会話記録が表示される。図８の例においては、相手の名前、会話を行った日時、会話の内容を表すタグなどの情報が会話記録として表示されている。

　このような飲酒記録と会話記録を表示する機能が、コミュニケーション管理サーバ１１により管理されている情報に基づいて実現される。専用アプリケーションは、コミュニケーション管理サーバ１１と通信を行い、コミュニケーション管理サーバ１１から送信されてきた情報に基づいて各種の画面を表示させる。

＜アシスト発話を含む会話の具体例＞
　ここで、音声コミュニケーションシステムにおいて２者間で行われる会話の具体例について説明する。

　１．会話の状況に応じたアシスト発話
　（１）発話時間に応じたアシスト発話
　例えば、ユーザＢの発話時間がユーザＡの発話時間よりも多い場合、定型文を用いてユーザＡに話を投げかける以下のようなアシスト発話が出力される。
　「Ａさんはどう思いますか？」（Ｂさんの話に対する意見を求める発話）
　「Ａさんは何が好きですか？」（Ａさんに問いかける発話）
　「Ａさんは最近何をしていますか？」（話題転換の発話）

　このようなアシスト発話は、ユーザＢの発話時間が全体の８０％を超えるといったように、ユーザＡの発話時間とユーザＢの発話時間の差が大きい場合に出力される。なお、アシスト発話の具体例において、「Ａさん」はユーザＡを表し、「Ｂさん」はユーザＢを表す。

　（２）沈黙時間に応じたアシスト発話
　１０秒間などの一定の時間、どちらのユーザも話さなかった場合、話題を提供する以下のようなアシスト発話が出力される。
　「（ニュースタイトル）について知っていますか？」（話の継続・深堀りを促す発話）
　「（ニュースタイトル）なんですよ。」（情報を提供する発話）

　このようなアシスト発話は、直近１０分間の会話の中で最も多く現れた単語に関連のあるニュース記事をWeb上で検索し、例えばニュースサイトにおいて注目されている最新のニュース記事のタイトルを含むようにして生成される。

　図９乃至図１１は、ユーザＡ－ユーザＢ間の会話の具体例を示す図である。

　図９乃至図１１において、左列に示す発話はユーザＡの発話を表し、右列に示す発話はユーザＢの発話を表す。中央に示す発話は、コミュニケーション管理サーバ１１による制御に従って対話型エージェント装置１から出力されるシステム側の発話（システム発話）である。システム発話には上述したアシスト発話も含まれる。他の会話の具体例を示す後述する図においても同様である。

　ユーザＡ－ユーザＢ間の会話は、例えば、「Ａさん、Ｂさんからお声がかかっています。」のようなシステム発話Ｓ１が対話型エージェント装置１Ａから出力され、システム発話Ｓ１を聞いたユーザＡが、ユーザＢとの会話を始めることを承諾することに応じて開始される。

　システム発話Ｓ１は、ユーザＡを相手として会話を始めることをユーザＢが希望していることをユーザＡに対して伝える発話である。システム発話Ｓ１は、例えば、コミュニケーション管理サーバ１１によりマッチングされた話し相手の候補の中から、ユーザＡがユーザＢにより選択されたときに出力される。

　コミュニケーション管理サーバ１１によるマッチングは、例えば、それぞれのユーザによりあらかじめ登録された、「経済」、「エンタテインメント」などの興味のあるトピックスに基づいて行われる。あらかじめ登録されたトピックスではなく、話し相手の選択時に入力されたテキストデータに基づいてマッチングが行われるようにしてもよい。これにより、それぞれのユーザは、興味のあるトピックスが共通するユーザを話し相手として選択することが可能となる。

　図９の例においては、時刻ｔ１から時刻ｔ２までの時間において、「はいー、お願いしますー」の発話がユーザＡにより行われ、時刻ｔ２から時刻ｔ３までの時間において、「はじめましてー、よろしくお願いします。Ａさんも野球がお好きなんですね。」の発話がユーザＢにより行われている。ユーザＡの音声データは、対話型エージェント装置１Ａからコミュニケーション管理サーバ１１を経由して対話型エージェント装置１Ｂに対して送信され、ユーザＡの発話として対話型エージェント装置１Ｂにおいて出力される。一方、ユーザＢの音声データは、対話型エージェント装置１Ｂからコミュニケーション管理サーバ１１を経由して対話型エージェント装置１Ａに対して送信され、ユーザＢの発話として対話型エージェント装置１Ａにおいて出力される。

　コミュニケーション管理サーバ１１においては、ユーザＡとユーザＢの発話の状況として、ユーザＡの発話時間とユーザＢの発話時間がそれぞれ計測される。図９の中央に示す帯状部分のうち、ハッチを付して示す区間はユーザＡの発話時間を表し、薄く色を付して示す区間はユーザＢの発話時間を表す。他の図においても同様である。

　また、コミュニケーション管理サーバ１１においては、ユーザＡとユーザＢの発話の状況として、ユーザＡの発話とユーザＢの発話からキーワードとなる単語が抽出される。図９において枠で囲んで示す単語は、キーワードとしてコミュニケーション管理サーバ１１により抽出された単語である。

　時刻ｔ３以降、ユーザＡとユーザＢにより交互に発話が行われ、ユーザＡ－ユーザＢ間の会話が続けられる。図９、図１０の例においては、ユーザＢの方が、ユーザＡより長い時間話している。

　ユーザＡの発話時間とユーザＢの発話時間の差が閾値より大きくなった場合、図１０の時刻ｔ１２において、「Ａさんは何が好きですか？」のようなシステム発話Ｓ２が出力される。システム発話Ｓ２は、定型文を用いてユーザＡに話を投げかけるアシスト発話である。例えば、ユーザＢの発話時間が、２人の会話全体の時間のうちの８０％を超えるようになった場合に、このようなアシスト発話が出力される。

　システム発話Ｓ２の音声データは、コミュニケーション管理サーバ１１から対話型エージェント装置１Ａと対話型エージェント装置１Ｂの双方に対して送信され、対話型エージェント装置１Ａと対話型エージェント装置１Ｂのそれぞれにおいてアシスト発話として出力される。システム発話Ｓ２を聞いたユーザＡは、話が投げかけられたことに応じて、時刻ｔ１３から時刻ｔ１４までの時間において、「えっと私は東京スクルナハヤブサズが好きです。」のような発話を行うことになる。

　コミュニケーション管理サーバ１１は、発話時間が短いユーザＡに対して発話の機会を与え、ユーザＡの発話時間とユーザＢの発話時間のバランスをとることで、円滑なコミュニケーションを実現させることが可能となる。

　時刻ｔ１４から時刻ｔ１７までの間、アシスト発話をきっかけとして、ユーザＡとユーザＢにより交互に発話が行われる。

　図１１の上段に示すように、ユーザＡとユーザＢが２人とも沈黙し、会話が１０秒間などの一定の時間途切れた場合、『「2019年のセリーグ優勝は東都」についてどう思いますか？』のようなシステム発話Ｓ３が出力される。システム発話Ｓ３は、沈黙が続いたことから、２人に話題を提供するアシスト発話である。

　このように、コミュニケーション管理サーバ１１においては、ユーザＡとユーザＢの発話の状況として、２人が沈黙している時間なども計測される。

　システム発話Ｓ３による話題の提供を受けたユーザＡとユーザＢのうちのユーザＢは、時刻ｔ２１から時刻ｔ２２までの時間において、「今年は完敗でしたねー。でも来年はもちろん京阪ですよ！」のような発話を行うことになる。

　コミュニケーション管理サーバ１１は、沈黙している２人に対して発話を促し、会話を行わせることで円滑なコミュニケーションを実現させることが可能となる。

　時刻ｔ２２から時刻ｔ２４までの間、アシスト発話をきっかけとして、ユーザＡとユーザＢにより交互に発話が行われる。

　例えば、１時間などのあらかじめ決められた時間が経過した場合、図１１の下方に示すように、「会話終了のお時間です。ありがとうございました。」のようなシステム発話Ｓ４が出力される。システム発話Ｓ４を聞いたユーザＡとユーザＢは、それぞれ挨拶をして会話を終えることになる。

　このように、ユーザＡ－ユーザＢ間の会話中、コミュニケーション管理サーバ１１においては、２人の会話の状況が解析される。会話の状況に応じたアシスト発話が適宜出力され、これにより、ユーザＡ－ユーザＢ間の円滑なコミュニケーションが実現される。

　２．Webサービスと連携したアシスト発話
　ユーザ間の会話から抽出された単語の中に、連携するWebサービスに関連する単語がある場合、連携するWebサービスのユーザの利用状況等の情報を含むアシスト発話が、新たな話題としてユーザに提供される。

　（１）音楽ストリーミングサービスとの連携
　ユーザが聴いている曲の情報に基づいて、会話の内容に関連する情報を話題として提供するアシスト発話が出力される。ユーザが聴いている曲の情報は、例えば、専用アプリケーションにより、音楽ストリーミングサービスを提供するサーバから、または、音楽ストリーミングサービスを利用するためにユーザが携帯端末２にインストールしているアプリケーションから取得される。

　（２）ショッピングサービスとの連携
　ユーザのショッピング履歴の情報に基づいて、会話の内容に関連する情報を話題として提供するアシスト発話が出力される。ユーザのショッピング履歴の情報は、例えば、専用アプリケーションにより、ショッピングサイトを管理するサーバから、または、ショッピングを行うためにユーザが携帯端末２にインストールしているアプリケーションから取得される。

　（３）Webから取得されたイベント情報との連携
　Webから取得された情報に基づいて、会話の内容に関連するイベントの情報を話題として提供するアシスト発話が出力される。

　図１２および図１３は、ユーザＣ－ユーザＤ間の会話の具体例を示す図である。

　図１２に示すように、ユーザＣ－ユーザＤ間の会話は、図９を参照して説明したユーザＡ－ユーザＢ間の会話と同様にして開始される。ユーザＣとユーザＤは、例えば、共通の趣味が「海外ドラマ」であることに基づいて話し相手としてマッチングされたユーザである。

　時刻ｔ１から時刻ｔ７までの時間において、ユーザＣとユーザＤにより交互に発話が行われる。ユーザＣの音声データは、ユーザＣが使用する対話型エージェント装置１である対話型エージェント装置１Ｃからコミュニケーション管理サーバ１１を経由して対話型エージェント装置１Ｄに対して送信され、ユーザＣの発話として対話型エージェント装置１Ｄにおいて出力される。対話型エージェント装置１Ｄは、ユーザＤが使用する対話型エージェント装置１である。一方、ユーザＤの音声データは対話型エージェント装置１Ｄからコミュニケーション管理サーバ１１を経由して対話型エージェント装置１Ｃに対して送信され、ユーザＤの発話として対話型エージェント装置１Ｃにおいて出力される。

　例えば時刻ｔ６から時刻ｔ７までの時間において、映画のシーンを話題として「わかります！私も第３シーズンが一番好きです。最後の〇〇storyのシーンが最高でした。」の発話がユーザＤにより行われている。また、時刻ｔ７から時刻ｔ８までの時間においては、「いいですよねあのシーン！はまりすぎて最近はストレンジャーXXXXのサントラばっかり聞いてます。」の発話がユーザＣにより行われる。

　コミュニケーション管理サーバ１１においては、会話の内容が解析され、例えば、ユーザＣが好んで聞いている映画のサウンドトラックの単語が検出される。ここでは、ユーザＣが、コミュニケーション管理サーバ１１と連携可能な音楽ストリーミングサービスを使って映画のサウンドトラックを聞いているものとする。

　ユーザＣが聞いているサウンドトラックの単語が検出された後、時刻ｔ８において、『Ｃさんはこの１週間で「〇〇story」を10回以上聴いているようです。』のようなシステム発話Ｓ１２が出力される。システム発話Ｓ１２は、ユーザＣが聴いている曲の情報に基づいて、会話の内容に関連する情報を話題として提供するアシスト発話である。

　システム発話Ｓ１２の音声データは、コミュニケーション管理サーバ１１から対話型エージェント装置１Ｃと対話型エージェント装置１Ｄの双方に対して送信され、対話型エージェント装置１Ｃと対話型エージェント装置１Ｄのそれぞれにおいてアシスト発話として出力される。システム発話Ｓ１２を聞いたユーザＤは、話題が提供されたことに応じて、時刻ｔ９から時刻ｔ１０までの時間において、「私もサントラ聞いてます！あの曲何回もリピートしちゃいますよね。」のような発話を行うことになる。

　コミュニケーション管理サーバ１１は、発話のきっかけとなるようなユーザＣに関する情報をユーザＤに与えることにより、ユーザＤの発話を促し、円滑なコミュニケーションを実現させることが可能となる。

　時刻ｔ１０以降、図１３に示すように、アシスト発話をきっかけとして、ユーザＣとユーザＤにより交互に発話が行われる。

　例えば、時刻ｔ１０から時刻ｔ１１までの間に行われたユーザＣの発話が解析されることによって、ユーザＣが購入した商品の単語が検出された後、時刻ｔ１２において、「Ｃさんは１週間前にマグカップを購入したそうですね。他の人気商品にはＴシャツもありますよ。」のようなシステム発話Ｓ１３が出力される。システム発話Ｓ１３は、ユーザＣのショッピング履歴の情報に基づいて、会話の内容に関連する情報を話題として提供するアシスト発話である。

　また、発話の内容が解析されることによってユーザＣとユーザＤの嗜好が特定された後、時刻ｔ１４において、『「ストレンジャーXXXX」好きのお二人には渋谷で開催中のイベントがおすすめですよ』のようなシステム発話Ｓ１４が出力される。システム発話Ｓ１４は、Webから取得された情報に基づいて、会話の内容に関連するイベントの情報を話題として提供するアシスト発話である。

　このようなアシスト発話をきっかけとした会話が続けられた後、図１３の下方に示すように、ユーザＣとユーザＤは、それぞれ挨拶をして会話を終えることになる。

　このように、ユーザＣ－ユーザＤ間の会話中、コミュニケーション管理サーバ１１においては、２人の会話の内容が解析され、会話の内容に関連する情報が、Webサービスの利用状況に基づいて取得される。また、Webサービスの利用状況に基づいて取得された情報を話題として提供するアシスト発話が出力される。これにより、ユーザＣ－ユーザＤ間の円滑なコミュニケーションが実現される。

　３．お酒の残量に応じたアシスト発話
　ユーザが飲んでいるお酒の残量に応じて以下のようなアシスト発話が出力される。
　（１）会話を終わらせるアシスト発話（２人ともお酒がなくなった場合）
　（２）２杯目のお酒を勧めるアシスト音声（一方のユーザのお酒だけがなくなり、他方のユーザのお酒が半分以上残っている場合）

　例えば、ユーザが使うグラス６２には、お酒の残量を検出するセンサが設けられる。センサにより検出されたお酒の残量の情報は、対話型エージェント装置１により取得され、コミュニケーション管理サーバ１１に対して送信される。

　対話型エージェント装置１に設けられたカメラにより撮影された画像を解析することによってお酒の残量が検出されるようにしてもよい。お酒の残量を検出するための画像の解析が対話型エージェント装置１において行われるようにしてもよいし、コミュニケーション管理サーバ１１において行われるようにしてもよい。

　図１４および図１５は、ユーザＡ－ユーザＢ間の会話の具体例を示す図である。

　図１４に示す会話は、図９を参照して説明したユーザＡ－ユーザＢ間の会話と同じ会話である。図１４の左端には、ユーザＡが飲んでいるお酒の残量の時系列が示されている。また、図１４の右端には、ユーザＢが飲んでいるお酒の残量の時系列が示されている。お酒の残量は、それぞれが使用する対話型エージェント装置１から送信されてきた情報に基づいてコミュニケーション管理サーバ１１において特定される。

　図１４の例においては、ユーザＡの発話が終わった時刻ｔ１０のタイミングでのユーザＡのお酒の残量は８０％であり、ユーザＢのお酒の残量は５０％である。

　時刻ｔ１０以降、図１５に示すように、ユーザＡとユーザＢにより交互に発話が行われる。図１５の例においては、１０秒間などの所定の時間の沈黙の後、図１１を参照して説明したアシスト発話と同じシステム発話Ｓ２２が出力されている。

　ユーザＢにより発話が行われた時刻ｔ２４において、図１５の右側に示すように、ユーザＢのお酒の残量は０％になっている。この場合、時刻ｔ２４において、「Ｂさん、２杯目のお酒はいかがですか？」のようなシステム発話Ｓ２３が出力される。システム発話Ｓ２３は、２杯目のお酒を勧めるアシスト発話である。

　システム発話Ｓ２３の音声データは、コミュニケーション管理サーバ１１から対話型エージェント装置１Ａと対話型エージェント装置１Ｂの双方に対して送信され、対話型エージェント装置１Ａと対話型エージェント装置１Ｂのそれぞれにおいてアシスト発話として出力される。システム発話Ｓ２３を聞いたユーザＢは、２杯目をリクエストし、対話型エージェント装置１Ｂにお酒を用意してもらうことができる。なお、時刻ｔ２４においては、図１５の左側に示すように、ユーザＡのお酒の残量は６０％であり、半分以上残っている。

　コミュニケーション管理サーバ１１は、一方のユーザのお酒だけがなくなったことに応じて２杯目を勧め、２人のお酒の進み具合を調整することにより、ユーザＡ－ユーザＢ間の円滑なコミュニケーションを実現させることが可能となる。お酒がなくなったユーザは、通常、そのことを気にしてしまい、会話に集中することができなくなるが、そのようなことを防ぐことが可能となる。

　図１５に示すユーザＡ－ユーザＢ間の会話は、例えば、２人のお酒がなくなったタイミングで出力されるアシスト発話に応じて終了となる。

　４．感情の解析結果を用いた例
　発話に基づいてユーザの感情が解析され、感情の解析結果に応じて以下のような処理が行われる。コミュニケーション管理サーバ１１には感情解析機能（感情解析エンジン）が搭載される。ユーザの感情は、ユーザが話している時間、聞いている時間、発話に含まれるキーワードなどに基づいて解析される。

　（１）ネガティブな感情を持っているユーザに対して、ポジティブな感情を与えるであろうと考えられる話題を提供するアシスト発話が出力される。例えば、ネガティブな感情を持つユーザが好む内容に関する話題がアシスト発話によって提供される。

　（２）感情の解析結果に基づいて特定されたユーザの性格・好みに応じて最適なユーザとのマッチングが行われる。この場合、例えば、ユーザの性格・好みは、ネガティブな感情からポジティブな感情に変化するタイミングの直前のタイミングの発話などに基づいて解析される。ある会話のときの感情の変化に基づいてユーザの性格・好みが解析され、次の会話のマッチングのときに、お互いがポジティブな感情になる可能性が高いユーザとのマッチングが行われる。

　（３）感情の解析結果に基づいて、IoT(Internet of Things)デバイスの制御が行われる。ユーザがいる空間には、対話型エージェント装置１とともに、対話型エージェント装置１から制御することが可能なIoTデバイスが設けられる。例えば、輝度、色温度の調整が可能なLED照明などがIoTデバイスとして設けられる。

　コミュニケーション管理サーバ１１は、制御コマンドを対話型エージェント装置１に対して送信することにより、対話型エージェント装置１経由でIoTデバイスの動作を制御する。コミュニケーション管理サーバ１１によるIoTデバイスの動作の制御が、制御コマンドを携帯端末２に対して送信することにより、携帯端末２経由で行われるようにしてもよい。

　図１６は、ユーザＡ－ユーザＢ間の会話の具体例を示す図である。

　図１６に示す会話は、基本的には、図９を参照して説明したユーザＡ－ユーザＢ間の会話と同じ会話である。ユーザＡの発話の右側に示す波形は、発話中のユーザＡの感情を表し、ユーザＢの発話の左側に示す波形は、発話中のユーザＢの感情を表す。感情を表す波形のうち、ハッチを付して示す波形はネガティブな感情を表し、薄い色を付して示す波形はポジティブな感情を表す。波形の振幅は感情の度合いである感情値を表す。

　図１６の例においては、時刻ｔ１から時刻ｔ２、時刻ｔ３から時刻ｔ４、時刻ｔ５から時刻ｔ６までのそれぞれの時間において、ユーザＢにより発話が行われている。それぞれの発話の間のユーザＢの感情は、ポジティブな感情である。

　一方、時刻ｔ２から時刻ｔ３、時刻ｔ４から時刻ｔ５、時刻ｔ６から時刻ｔ７までのそれぞれの短い時間において、ユーザＡにより発話が行われている。時刻ｔ２から時刻ｔ３までの時間に行われた発話の間と、時刻ｔ４から時刻ｔ５までの時間に行われた発話の間のユーザＡの感情は、ネガティブな感情である。時刻ｔ６から時刻ｔ７までの時間に行われた発話の間のユーザＡの感情は、ポジティブな感情である。

　コミュニケーション管理サーバ１１においては、それぞれの発話に基づいて、会話の状況とともに、ユーザの感情、ユーザの性格・好みなどが解析される。例えば、ユーザＢについては、発話時間が長い、聞く時間が短い、常にポジティブな感情である、などの特性が推測される。また、自分が話すことが好き、「野球」等の話題に興味がある、などの特性が推測される。

　一方、ユーザＡについては、発話時間が短い、聞く時間が長い、などの特性が推測される。また、時刻ｔ５から時刻ｔ６までの時間のユーザＢの発話を聞くことに応じてポジティブな感情になったことから、その発話にキーワードとして含まれる「高森」という野球選手の名前に対して興味があるということが推測される。

　この場合、時刻ｔ７において、「高森選手について最新のニュースをお調べいたしました」のようなシステム発話Ｓ３１が出力される。システム発話Ｓ３１は、ポジティブな感情を与えるであろうと考えられる話題を提供するアシスト発話である。システム発話Ｓ３１の出力後、検索された最新のニュース記事の内容を伝えるシステム発話が出力される。

　これにより、コミュニケーション管理サーバ１１は、ユーザＡの感情をポジティブな感情とさせ、それ以降、ユーザＡ－ユーザＢ間の円滑なコミュニケーションを実現させることが可能となる。

　図１７は、マッチングの例を示す図である。

　この例においては、様々なユーザとの会話の履歴から、ユーザＡは、基本的に、人の話を聞くのは苦手だが、自分の興味のある話であれば積極的に会話に参加する特性を有していることがコミュニケーション管理サーバ１１において推測されているものとする。

　また、上述したような感情の変化のタイミングにおける発話の内容に基づいて、「新人王」、「ドラフト」、「甲子園」などの、プロ野球に関する事柄の中でも、特定の事柄に興味があることが推測されているものとする。

　この場合、図１７に示すように、要点をまとめて話すため、１回の発話が比較的短く、プロ野球の育成に興味のあるユーザであるユーザＣとのマッチングが行われる。ユーザＡとユーザＣのマッチングは、会話中のそれぞれの感情などに基づいて推測されたユーザの性格・好みに応じて行われたものである。

　ユーザＡ－ユーザＣ間の会話は、例えば、「Ａさん、Ｃさんからお声がかかっています。」のようなシステム発話Ｓ４１が対話型エージェント装置１Ａから出力され、システム発話Ｓ４１を聞いたユーザＡが、ユーザＣとの会話を始めることを承諾することに応じて開始される。

　これにより、コミュニケーション管理サーバ１１は、ユーザの性格・好みに応じて最適なユーザとのマッチングを行うことが可能となる。最適であると考えられるユーザの組み合わせに関する情報をコミュニケーション管理サーバ１１は有している。

　なお、感情の解析結果に基づくLED照明の制御は、会話の内容が明るい内容である場合には、明るい光に調整するようにして行われる。また、LED照明の制御は、会話の内容が暗い内容である場合には、落ち着いた暗めの光に調整するようにして行われる。例えば、趣味、家族、恋愛などに関する会話は明るい内容の会話となり、相談、悩み、葬式などに関する会話は暗い内容の会話となる。

　これにより、コミュニケーション管理サーバ１１は、ユーザの周りの環境を会話の内容に応じて調整することが可能となる。

＜各装置の構成例＞
　ここで、図１の音声コミュニケーションシステムの各装置の構成について説明する。

・対話型エージェント装置１の構成
　図１８は、対話型エージェント装置１の構成例を示すブロック図である。

　対話型エージェント装置１は、スピーカ５２とともに、マイクロフォン１０２、通信部１０３、および、お酒給仕部１０４が制御部１０１に接続されることによって構成される。

　制御部１０１は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)により構成される。制御部１０１は、所定のプログラムをCPUにより実行し、対話型エージェント装置１の全体の動作を制御する。

　制御部１０１においては、所定のプログラムが実行されることによって、エージェント機能部１１１、会話制御部１１２、デバイス制御部１１３、およびセンサデータ取得部１１４が実現される。

　エージェント機能部１１１は、対話型エージェント装置１のエージェント機能を実現する。例えば、エージェント機能部１１１は、音声によってユーザによりリクエストされた各種のタスクを実行し、タスクの実行結果を合成音声によってユーザに提示する。例えば、エージェント機能部１１１は、天気を調べたり、お酒を用意したりするなどの各種のタスクを実行する。エージェント機能は、適宜、コミュニケーション管理サーバ１１などの外部のサーバとの間で通信を行うことによって実現される。

　会話制御部１１２は、話し相手として選択されたユーザとの会話を制御する。例えば、会話制御部１１２は、通信部１０３を制御することによって、マイクロフォン１０２から供給されたユーザの音声データをコミュニケーション管理サーバ１１に送信する。コミュニケーション管理サーバ１１に対して送信された音声データは、話し相手のユーザが使う対話型エージェント装置１に対して送信される。

　また、会話制御部１１２は、コミュニケーション管理サーバ１１から送信されてきた話し相手のユーザの音声データが通信部１０３において受信された場合、通信部１０３から供給された音声データに基づいて、話し相手のユーザの発話をスピーカ５２から出力させる。

　会話制御部１１２は、コミュニケーション管理サーバ１１から送信されてきたシステム発話の音声データが通信部１０３において受信された場合、通信部１０３から供給された音声データに基づいて、システム発話をスピーカ５２から出力させる。

　デバイス制御部１１３は、通信部１０３を制御することによって、制御対象となる外部のデバイスに対して制御コマンドを送信し、デバイスの動作を制御する。上述したようなユーザの感情に応じたIoTデバイスなどの制御が、コミュニケーション管理サーバ１１から送信されてきた情報に基づいて、デバイス制御部１１３により行われる。

　センサデータ取得部１１４は、通信部１０３を制御することによって、グラス６２に設けられたセンサから送信されてきたセンサデータを受信する。グラス６２に設けられたセンサからは、例えば、お酒の残量を表すセンサデータが送信されてくる。センサデータ取得部１１４は、お酒の残量を表す情報をコミュニケーション管理サーバ１１に送信する。センサデータ取得部１１４は、ユーザのお酒の残量をグラス６２に設けられたセンサから送信されてきたセンサデータに基づいて検出する検出部として機能する。

　マイクロフォン１０２は、ユーザの発話を検出し、音声データを制御部１０１に出力する。

　通信部１０３は、ネットワーク２１上の装置と通信を行うネットワークインタフェースや、無線LAN、Bluetooth（登録商標）などの近距離の無線通信を行う無線通信インタフェースなどにより構成される。通信部１０３は、コミュニケーション管理サーバ１１との間で音声データなどの各種のデータの送受信を行う。また、通信部１０３は、制御対象のデバイス、グラス６２に設けられたセンサなどの、対話型エージェント装置１と同じ空間に設けられた外部の装置との間で各種のデータの送受信を行う。

　お酒給仕部１０４は、エージェント機能部１１１による制御に従って、ボトル６１に入っているお酒をグラス６２に注ぐ。上述したお酒のサーバ機構がお酒給仕部１０４により実現される。お酒給仕部１０４によるお酒の用意は、レシピデータに従って行われる。制御部１０１が有するレシピデータには、飲み方に応じたお酒の用意の仕方に関する情報が記述されている。

・コミュニケーション管理サーバ１１の構成
　図１９は、コミュニケーション管理サーバ１１のハードウェア構成例を示すブロック図である。

　CPU２０１、ROM２０２、RAM２０３は、バス２０４により相互に接続される。

　バス２０４には、さらに、入出力インタフェース２０５が接続される。入出力インタフェース２０５には、キーボード、マウスなどよりなる入力部２０６、ディスプレイ、スピーカなどよりなる出力部２０７が接続される。

　また、入出力インタフェース２０５には、ハードディスクや不揮発性のメモリなどよりなる記憶部２０８、ネットワークインタフェースなどよりなる通信部２０９、リムーバブルメディア２１１を駆動するドライブ２１０が接続される。

　コミュニケーション管理サーバ１１は、このような構成を有するコンピュータにより構成される。１台のコンピュータではなく、複数台のコンピュータによりコミュニケーション管理サーバ１１が構成されるようにしてもよい。

　図２０は、コミュニケーション管理サーバ１１の機能構成例を示すブロック図である。

　図２０に示すように、コミュニケーション管理サーバ１１においては制御部２２１が実現される。制御部２２１は、プロフィール管理部２３１、マッチング部２３２、Webサービス解析部２３３、ロボット制御部２３４、会話解析部２３５、感情解析部２３６、お酒進み具合解析部２３７、およびシステム発話生成部２３８により構成される。図２０に示す構成のうちの少なくとも一部は、図１９のCPU２０１により所定のプログラムが実行されることによって実現される。

　プロフィール管理部２３１は、音声コミュニケーションシステムを利用するそれぞれのユーザのプロフィール情報を管理する。専用アプリケーションを用いて登録された情報だけでなく、会話中の感情や、会話の内容に基づいて特定されたユーザの特性などの情報もプロフィール情報としてプロフィール管理部２３１により管理される。

　マッチング部２３２は、プロフィール管理部２３１が管理するプロフィール情報などに基づいて、話し相手となるユーザのマッチングを行う。マッチング部２３２によりマッチングされたユーザの情報はWebサービス解析部２３３とロボット制御部２３４に供給される。

　Webサービス解析部２３３は、会話を行っているそれぞれのユーザによるWebサービスの利用状況を解析する。例えば、Webサービス解析部２３３は、Webサービスの利用状況に関する情報を、携帯端末２にインストールされた専用アプリケーションから取得し、解析する。

　Webサービス解析部２３３による解析により、音楽ストリーミングサービスを利用してユーザが聴いている曲、ショッピングサイトを利用してユーザが購入した商品などの情報が特定される。Webサービス解析部２３３による解析結果はシステム発話生成部２３８に供給される。Webサービス解析部２３３による解析結果に基づいて、図１２、図１３を参照して説明したような、Webサービスと連携したアシスト発話の生成が行われる。

　ロボット制御部２３４は、会話を行っているユーザが使用するバーテンダーロボットである対話型エージェント装置１を制御する。例えば、ロボット制御部２３４は、通信部２０９を制御し、一方のユーザの対話型エージェント装置１から送信されてきた音声データを他方のユーザの対話型エージェント装置１に対して送信する。ロボット制御部２３４により受信されたユーザの発話の音声データは会話解析部２３５と感情解析部２３６に供給される。

　また、ロボット制御部２３４は、システム発話生成部２３８により生成されたシステム発話の音声データを、会話を行っている双方のユーザの対話型エージェント装置１に対して送信し、システム発話を出力させる。

　さらに、ロボット制御部２３４は、お酒の残量を表す情報が対話型エージェント装置１から送信されてきた場合、通信部２０９において受信された、お酒の残量を表す情報をお酒進み具合解析部２３７に出力する。ロボット制御部２３４は、対話型エージェント装置１と通信を行い、対話型エージェント装置１を介してIoTデバイスを制御するなどの各種の処理を行う。

　会話解析部２３５は、ロボット制御部２３４から供給された音声データに基づいて、会話を行っているそれぞれのユーザの発話時間、沈黙時間などの発話の状況を解析する。また、会話解析部２３５は、会話の内容を解析することによって、発話に含まれるキーワードを解析する。会話解析部２３５による解析結果はシステム発話生成部２３８に供給される。会話解析部２３５による解析結果に基づいて、図９乃至図１１を参照して説明したような、会話の状況に応じたアシスト発話の生成が行われる。

　感情解析部２３６は、ロボット制御部２３４から供給された音声データに基づいて、会話を行っているそれぞれのユーザの感情を解析する。感情解析部２３６による解析結果はシステム発話生成部２３８に供給される。感情解析部２３６による解析結果に基づいて、図１６を参照して説明したような、感情に応じたアシスト発話の生成が行われる。

　お酒進み具合解析部２３７は、ロボット制御部２３４から供給された情報に基づいて、会話を行っているそれぞれのユーザのお酒の進み具合を解析する。上述したように、対話型エージェント装置１から送信されてきたお酒の残量を表す情報は、グラス６２に設けられたセンサから送信されてきたセンサデータである。お酒進み具合解析部２３７によるそれぞれのユーザのお酒の進み具合の解析は、グラス６２に設けられたセンサから送信されてきたセンサデータに基づいて行われる。

　お酒進み具合解析部２３７による解析結果はシステム発話生成部２３８に供給される。お酒進み具合解析部２３７による解析結果に基づいて、図１４、図１５を参照して説明したような、お酒の残量に応じたアシスト発話の生成が行われる。

　システム発話生成部２３８は、Webサービス解析部２３３、会話解析部２３５、感情解析部２３６、お酒進み具合解析部２３７の各部における解析結果に基づいてアシスト発話を生成し、生成したアシスト発話の音声データをロボット制御部２３４に供給する。また、システム発話生成部２３８は、アシスト発話以外のシステム発話を適宜生成し、生成したシステム発話の音声データをロボット制御部２３４に供給する。

＜各装置の動作＞
　ここで、以上のような構成を有するコミュニケーション管理サーバ１１と対話型エージェント装置１の基本的な動作について説明する。

・コミュニケーション管理サーバ１１の動作
　はじめに、図２１のフローチャートを参照して、コミュニケーション管理サーバ１１の処理について説明する。

　ステップＳ１において、マッチング部２３２は、プロフィール管理部２３１が管理するプロフィール情報を参照して話し相手となるユーザのマッチングを行い、会話を開始させる。

　ステップＳ２において、ロボット制御部２３４は、会話を行っているユーザが使用する対話型エージェント装置１との間でユーザ発話の音声データの送受信を行う。

　ステップＳ３において、会話解析部２３５は、発話の音声データに基づいて、会話を行っている２人のユーザの会話の状況を解析する。

　ステップＳ４において、システム発話生成部２３８は、会話の状況の解析の結果に基づいて、アシスト発話が必要であるか否かを判定する。

　アシスト発話が必要であるとステップＳ４において判定した場合、ステップＳ５において、システム発話生成部２３８は、アシスト発話を生成し、アシスト発話の音声データをロボット制御部２３４からそれぞれのユーザの対話型エージェント装置１に対して送信させる。

　ステップＳ６において、ロボット制御部２３４は、会話終了か否かを判定する。

　会話終了ではないとステップＳ６において判定された場合、ステップＳ２に戻り、上述した処理が繰り返される。アシスト発話が必要ではないとステップＳ４において判定された場合も同様に、ステップＳ２以降の処理が繰り返される。

　会話終了であるとステップＳ６において判定された場合、処理は終了となる。

・対話型エージェント装置１の動作
　次に、図２２のフローチャートを参照して、対話型エージェント装置１の処理について説明する。

　ステップＳ１１において、マイクロフォン１０２は、ユーザの発話を検出する。

　ステップＳ１２において、会話制御部１１２は、マイクロフォン１０２から供給されたユーザの発話の音声データをコミュニケーション管理サーバ１１に送信する。

　ステップＳ１３において、会話制御部１１２は、話し相手のユーザの発話またはシステム発話の音声データがコミュニケーション管理サーバ１１から送信されてきたか否かを判定する。

　音声データが送信されてきたとステップＳ１３において判定した場合、ステップＳ１４において、スピーカ５２は、会話制御部１１２による制御に従って、話し相手のユーザの発話またはシステム発話を出力する。

　会話終了であるとステップＳ１５において判定された場合、処理は終了となる。

　以上の処理により、対話型エージェント装置１のユーザは、対話型エージェント装置１によって用意されたお酒を晩酌に使うなどして、他のユーザとの会話を自宅で気軽に楽しむことができる。例えば会話が途切れた場合でもコミュニケーション管理サーバ１１によるアシストが行われるため、ユーザは、話し相手と円滑なコミュニケーションをとることが可能となる。

　特に一人暮らしの高齢者にとっては外出などが困難になる。対話型エージェント装置１をコミュニケーションツールとして利用し、図２３に示すように遠隔にいる人と会話を行うことにより、一人暮らしの高齢者は、孤独感を解消させることが可能となる。

　不安や悩み事を他人に気軽に話せるようにするためには、相手が聞き上手であること、直接会わないことが保証されていること、個人情報を守ってくれること、周りから信用されている人であること、仲介者のような第三者がいること、などの条件を満たす環境が必要となる。対話型エージェント装置１により、ユーザは、そのような環境を容易に自宅に導入することができる。

　さらに、ユーザは、専用アプリケーションにより、アルコール摂取量の管理や会話の記録の振り返りなどを行うことが可能となる。

＜その他＞
　図２０に示す全ての構成がコミュニケーション管理サーバ１１に設けられるものとしたが、図２０に示す構成のうちの少なくとも一部の構成が、対話型エージェント装置１に設けられるようにしてもよい。

　対話型エージェント装置１により提供される物がお酒であるものとしたが、コーヒー、紅茶、ジュースなどの他の飲料であってもよい。また、料理が提供されるようにしてもよい。料理が提供されることにより、それぞれのユーザは、料理を食べながら他のユーザとの会話を楽しむことができる。

・プログラムについて
　上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

　インストールされるプログラムは、光ディスク（CD-ROM(Compact Disc-Read Only Memory)，DVD(Digital Versatile Disc)等）や半導体メモリなどよりなるリムーバブルメディアに記録して提供される。また、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供されるようにしてもよい。プログラムは、ROMや記憶部に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

　本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

＜構成の組み合わせ例＞
　本技術は、以下のような構成をとることもできる。

（１）
　ネットワークを介して会話を行っている２人のユーザが使用するそれぞれの対話型ロボットにより検出された、２人の前記ユーザのそれぞれの発話を解析する解析部と、
　２人の前記ユーザの会話の状況に応じて、会話の補助となる音声である会話補助音声をそれぞれの前記対話型ロボットから出力させる制御部と
　を備える情報処理装置。
（２）
　前記制御部は、２人の前記ユーザに対してそれぞれの前記対話型ロボットによりお酒が提供された後の会話の状況に応じて前記会話補助音声を出力させる
　前記（１）に記載の情報処理装置。
（３）
　それぞれの前記ユーザのプロフィール情報に基づいて、会話を行う２人の前記ユーザのマッチングを行うマッチング部をさらに備える
　前記（１）または（２）に記載の情報処理装置。
（４）
　前記制御部は、２人の前記ユーザのそれぞれの発話時間に基づいて、発話時間が短い前記ユーザの発話を促す前記会話補助音声を出力させる
　前記（１）乃至（３）のいずれかに記載の情報処理装置。
（５）
　前記制御部は、２人の前記ユーザの発話が一定時間途切れたことに応じて、発話を促す前記会話補助音声を出力させる
　前記（１）乃至（４）のいずれかに記載の情報処理装置。
（６）
　前記制御部は、前記ネットワーク上のニュースサイトにおいて注目されている情報に関する内容の前記会話補助音声を出力させる
　前記（１）乃至（５）のいずれかに記載の情報処理装置。
（７）
　前記制御部は、前記ユーザが利用するWebサービスに関連する単語が２人の前記ユーザの発話に含まれる場合、前記Webサービスの利用状況に基づいて前記会話補助音声を出力させる
　前記（１）乃至（６）のいずれかに記載の情報処理装置。
（８）
　前記制御部は、発話に基づいて解析された２人の前記ユーザの感情に基づいて前記会話補助音声を出力させる
　前記（１）乃至（７）のいずれかに記載の情報処理装置。
（９）
　前記制御部は、２人の前記ユーザのそれぞれの嗜好情報に基づいて特定された、ネガティブな感情を持っている前記ユーザが好む内容に関する前記会話補助音声を出力させる
　前記（８）に記載の情報処理装置。
（１０）
　前記制御部は、発話に基づいて解析された２人の前記ユーザの感情に基づいて、それぞれの前記ユーザがいる空間に前記対話型ロボットとともに設置されたデバイスを制御する
　前記（１）乃至（９）のいずれかに記載の情報処理装置。
（１１）
　前記制御部は、前記デバイスを制御する制御コマンドを前記対話型ロボットに送信し、前記対話型ロボット経由で、または、前記制御コマンドを前記ユーザが有する携帯端末に送信し、前記携帯端末経由で、前記デバイスを制御する
　前記（１０）に記載の情報処理装置。
（１２）
　前記制御部は、センサデータに基づいて解析された２人の前記ユーザのそれぞれのお酒の進み具合に応じて前記会話補助音声を出力させる
　前記（２）に記載の情報処理装置。
（１３）
　情報処理装置が、
　ネットワークを介して会話を行っている２人のユーザが使用するそれぞれの対話型ロボットにより検出された、２人の前記ユーザのそれぞれの発話を解析し、
　２人の前記ユーザの会話の状況に応じて、会話の補助となる音声である会話補助音声をそれぞれの前記対話型ロボットから出力させる
　制御方法。
（１４）
　ユーザに対してお酒を提供する給仕部と、
　お酒が提供された後の前記ユーザの発話を検出し、検出した発話の音声データを、前記ユーザの発話と、会話の相手となる他のユーザの発話とを解析する情報処理装置に対して送信させるとともに、２人の会話の状況に応じて前記情報処理装置から送信されてきた、会話の補助となる音声である会話補助音声を出力させる会話制御部と
　を備える対話型ロボット。
（１５）
　前記ユーザのお酒の残量を検出し、検出したお酒の残量を表す情報を前記情報処理装置に対して送信する検出部をさらに備え、
　前記会話制御部は、２人のそれぞれのお酒の進み具合に応じて前記情報処理装置から送信されてきた前記会話補助音声を出力させる
　前記（１４）に記載の対話型ロボット。
（１６）
　対話型ロボットが、
　ユーザに対してお酒を提供し、
　お酒が提供された後の前記ユーザの発話を検出し、検出した発話の音声データを、前記ユーザの発話と、会話の相手となる他のユーザの発話とを解析する情報処理装置に対して送信させ、
　２人の会話の状況に応じて前記情報処理装置から送信されてきた、会話の補助となる音声である会話補助音声を出力させる
　制御方法。

　１Ａ，１Ｂ　対話型エージェント装置，　２Ａ，２Ｂ　携帯端末，　１１　コミュニケーション管理サーバ，　２１　ネットワーク，　５１　筐体，　６１　ボトル，　６２　グラス，　１０１　制御部，　１０２　マイクロフォン，　１０３　通信部，　１０４　お酒給仕部，　１１１　エージェント機能部，　１１２　会話制御部，　１１３　デバイス制御部，　１１４　センサデータ取得部，　２２１　制御部，　２３１　プロフィール管理部，　２３２　マッチング部，　２３３　Webサービス解析部，　２３４　ロボット制御部，　２３５　会話解析部，　２３６　感情解析部，　２３７　お酒進み具合解析部，　２３８　システム発話生成部

Claims

　ネットワークを介して会話を行っている２人のユーザが使用するそれぞれの対話型ロボットにより検出された、２人の前記ユーザのそれぞれの発話を解析する解析部と、
　２人の前記ユーザの会話の状況に応じて、会話の補助となる音声である会話補助音声をそれぞれの前記対話型ロボットから出力させる制御部と
　を備える情報処理装置。
　前記制御部は、２人の前記ユーザに対してそれぞれの前記対話型ロボットによりお酒が提供された後の会話の状況に応じて前記会話補助音声を出力させる
　請求項１に記載の情報処理装置。
　それぞれの前記ユーザのプロフィール情報に基づいて、会話を行う２人の前記ユーザのマッチングを行うマッチング部をさらに備える
　請求項１に記載の情報処理装置。
　前記制御部は、２人の前記ユーザのそれぞれの発話時間に基づいて、発話時間が短い前記ユーザの発話を促す前記会話補助音声を出力させる
　請求項１に記載の情報処理装置。
　前記制御部は、２人の前記ユーザの発話が一定時間途切れたことに応じて、発話を促す前記会話補助音声を出力させる
　請求項１に記載の情報処理装置。
　前記制御部は、前記ネットワーク上のニュースサイトにおいて注目されている情報に関する内容の前記会話補助音声を出力させる
　請求項１に記載の情報処理装置。
　前記制御部は、前記ユーザが利用するWebサービスに関連する単語が２人の前記ユーザの発話に含まれる場合、前記Webサービスの利用状況に基づいて前記会話補助音声を出力させる
　請求項１に記載の情報処理装置。
　前記制御部は、発話に基づいて解析された２人の前記ユーザの感情に基づいて前記会話補助音声を出力させる
　請求項１に記載の情報処理装置。
　前記制御部は、２人の前記ユーザのそれぞれの嗜好情報に基づいて特定された、ネガティブな感情を持っている前記ユーザが好む内容に関する前記会話補助音声を出力させる
　請求項８に記載の情報処理装置。
　前記制御部は、発話に基づいて解析された２人の前記ユーザの感情に基づいて、それぞれの前記ユーザがいる空間に前記対話型ロボットとともに設置されたデバイスを制御する
　請求項１に記載の情報処理装置。
　前記制御部は、前記デバイスを制御する制御コマンドを前記対話型ロボットに送信し、前記対話型ロボット経由で、または、前記制御コマンドを前記ユーザが有する携帯端末に送信し、前記携帯端末経由で、前記デバイスを制御する
　請求項１０に記載の情報処理装置。
　前記制御部は、センサデータに基づいて解析された２人の前記ユーザのそれぞれのお酒の進み具合に応じて前記会話補助音声を出力させる
　請求項２に記載の情報処理装置。
　情報処理装置が、
　ネットワークを介して会話を行っている２人のユーザが使用するそれぞれの対話型ロボットにより検出された、２人の前記ユーザのそれぞれの発話を解析し、
　２人の前記ユーザの会話の状況に応じて、会話の補助となる音声である会話補助音声をそれぞれの前記対話型ロボットから出力させる
　制御方法。
　ユーザに対してお酒を提供する給仕部と、
　お酒が提供された後の前記ユーザの発話を検出し、検出した発話の音声データを、前記ユーザの発話と、会話の相手となる他のユーザの発話とを解析する情報処理装置に対して送信させるとともに、２人の会話の状況に応じて前記情報処理装置から送信されてきた、会話の補助となる音声である会話補助音声を出力させる会話制御部と
　を備える対話型ロボット。
　前記ユーザのお酒の残量を検出し、検出したお酒の残量を表す情報を前記情報処理装置に対して送信する検出部をさらに備え、
　前記会話制御部は、２人のそれぞれのお酒の進み具合に応じて前記情報処理装置から送信されてきた前記会話補助音声を出力させる
　請求項１４に記載の対話型ロボット。
　対話型ロボットが、
　ユーザに対してお酒を提供し、
　お酒が提供された後の前記ユーザの発話を検出し、検出した発話の音声データを、前記ユーザの発話と、会話の相手となる他のユーザの発話とを解析する情報処理装置に対して送信させ、
　２人の会話の状況に応じて前記情報処理装置から送信されてきた、会話の補助となる音声である会話補助音声を出力させる
　制御方法。