JP2018021987A

JP2018021987A - 会話処理装置、及びプログラム

Info

Publication number: JP2018021987A
Application number: JP2016151925A
Authority: JP
Inventors: 高史小山; Takashi Koyama; 佐知夫前田; Sachio Maeda; 真人土居; Masato Doi
Original assignee: Unirobot Corp
Current assignee: Unirobot Corp
Priority date: 2016-08-02
Filing date: 2016-08-02
Publication date: 2018-02-08
Also published as: WO2018025668A1

Abstract

【課題】ユーザとの会話をより自然に行うことができるシステムが望まれている。【解決手段】会話処理装置は、ユーザの発言を検出する検出部と、実行中の会話アプリケーションがユーザの発言に対して応答できる場合、実行中の会話アプリケーションを選択し、実行中の会話アプリケーションがユーザの発言に対して応答できない場合、ユーザの発言に対して応答できる他の会話アプリケーションを選択する選択部と、選択された会話アプリケーションが実行中の会話アプリケーションの場合、実行中の会話アプリケーションを継続し、選択された会話アプリケーションが他の会話アプリケーションの場合、実行中の会話アプリケーションを中断して、他の会話アプリケーションを実行することにより、ユーザの発言に対して応答する応答部とを備える。【選択図】図５

Description

本発明は、会話処理装置、及びプログラムに関する。

ユーザとの会話を実現するシステムが様々提案されている。
特許文献１特開２０１５−０１１６２１号公報

ユーザとの会話をより自然に行うことができるシステムが望まれている。

本発明の一態様に係る会話処理装置は、ユーザの発言に対して予め定められたアルゴリズムに従って応答する複数の会話アプリケーションを実行する。会話処理装置は、ユーザの発言を検出する検出部と、実行中の会話アプリケーションがユーザの発言に対して応答できる場合、実行中の会話アプリケーションを選択し、実行中の会話アプリケーションがユーザの発言に対して応答できない場合、ユーザの発言に対して応答できる他の会話アプリケーションを選択する選択部と、選択された会話アプリケーションが実行中の会話アプリケーションの場合、実行中の会話アプリケーションを継続し、選択された会話アプリケーションが他の会話アプリケーションの場合、実行中の会話アプリケーションを中断して、他の会話アプリケーションを実行することにより、ユーザの発言に対して応答する応答部とを備える。

複数の会話アプリケーションは、予め定められた条件を満たすまでアルゴリズムに従ってユーザとの会話を継続する複数の特定会話アプリケーションを含んでよい。選択部は、実行中の特定会話アプリケーションがユーザの発言に対して応答できる場合、実行中の特定会話アプリケーションを選択し、実行中の特定会話アプリケーションがユーザの発言に対して応答できない場合、ユーザの発言に対して応答できる他の特定会話アプリケーションを選択してよい。

複数の会話アプリケーションは、ユーザの１つの発言に対して１つの応答を実行する日常会話アプリケーションを更に含んでよい。選択部は、実行中の特定会話アプリケーションがユーザの発言に対して応答できる場合、実行中の特定会話アプリケーションを選択し、実行中の特定会話アプリケーションがユーザの発言に対して応答できない場合、ユーザの発言に対して応答できる他の特定会話アプリケーションを選択し、ユーザの発言に対して応答できる他の特定会話アプリケーションを選択できない場合、日常会話アプリケーションを選択してよい。

日常会話アプリケーションは、深層学習アルゴリズムに従ってユーザの１つの発言に対して１つの応答を実行してよい。

上記会話処理装置は、検出部により検出されたユーザの発言から抽出された少なくとも１つの単語を含む単語情報を取得する単語情報取得部と、複数の特定会話アプリケーションに関連付けて、複数の特定会話アプリケーションが応答できるユーザの発言に対応する少なくとも１つの単語が登録された単語リストを格納する単語リスト格納部とを更に備えてよい。選択部は、単語リストを参照して、単語情報に含まれる少なくとも１つの単語が実行中の特定会話アプリケーションに関連付けて単語リストに登録されている場合、実行中の特定会話アプリケーションを選択し、単語情報に含まれる少なくとも１つの単語が、実行中の特定会話アプリケーションに関連付けて単語リストに登録されておらず、かつ他の特定会話アプリケーションに関連付けて単語リストに登録されている場合、単語リストに登録されている他の特定会話アプリケーションを選択してよい。

リスト格納部は、複数の特定会話アプリケーションごとに単語リストを格納してよい。選択部は、実行中の特定会話アプリケーションに関連付けられた単語リストを参照して、特定会話アプリケーションを選択してよい。

応答部は、実行中の特定会話アプリケーションを中断して、他の特定会話アプリケーションを実行することにより、ユーザの発言に対して応答する場合、実行中の特定会話アプリケーションの実行中にユーザから得られた情報に基づいて、他の特定会話アプリケーションのアルゴリズムの開始位置を決定し、決定された開始位置に基づいて他の特定会話アプリケーションを実行してよい。

上記会話処理装置は、実行中の特定会話アプリケーションを中断する場合に、実行中の特定会話アプリケーションのアルゴリズムの中断状態を記憶する中断状態記憶部を更に備えてよい。応答部は、中断状態記憶部を参照して、実行中の特定会話アプリケーションのアルゴリズムの中断状態を特定し、他の特定会話アプリケーションが終了または中断したことに対応して、先に中断された特定会話アプリケーションを中断状態に基づいて再開してよい。

上記会話処理装置は、検出部により検出されたユーザの発言が、予め定められた特定の発言である場合、実行中の会話アプリケーションを強制的に終了する終了部を更に備えてよい。

上記会話処理装置は、会話処理装置の周囲を撮像する撮像部と、会話処理装置の周囲に存在する物体の存在を検出する赤外線センサと、赤外線センサによる検出結果に応じて、ユーザの顔が撮像部の撮像範囲に含まれるように、撮像部の撮像範囲を調整する調整部とを更に備えてよい。

本発明の一態様に係るプログラムは、ユーザの発言に対して予め定められたアルゴリズムに従って応答する複数の会話アプリケーションをコンピュータに実行させるためのプログラムである。プログラムは、ユーザの発言を検出する手順と、実行中の会話アプリケーションがユーザの発言に対して応答できる場合、実行中の会話アプリケーションを選択し、実行中の会話アプリケーションがユーザの発言に対して応答できない場合、ユーザの発言に対して応答できる他の会話アプリケーションを選択する手順と、選択された会話アプリケーションが実行中の会話アプリケーションの場合、実行中の会話アプリケーションを継続し、選択された会話アプリケーションが他の会話アプリケーションの場合、実行中の会話アプリケーションを中断して、他の会話アプリケーションを実行することにより、ユーザの発言に対して応答する手順とをコンピュータに実行させる。

上記の発明の概要は、本発明の特徴の全てを列挙したものではない。これらの特徴群のサブコンビネーションも発明となりうる。

会話処理システムのシステム構成の一例を示す図である。会話処理装置の機能ブロックの一例を示す図である。単語リストの一例を示す図である。ユーザプロファイルの一例を示す図である。会話処理装置の会話処理の手順の一例を示すフローチャートである。コンピュータの一例を示す図である。

以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

本発明の様々な実施形態は、フローチャートおよびブロック図を参照して記載されてよく、ここにおいてブロックは、（１）操作が実行されるプロセスの段階または（２）操作を実行する役割を持つ装置のセクションを表わしてよい。特定の段階およびセクションが、専用回路、コンピュータ可読媒体上に格納されるコンピュータ可読命令と共に供給されるプログラマブル回路、および／またはコンピュータ可読媒体上に格納されるコンピュータ可読命令と共に供給されるプロセッサによって実装されてよい。専用回路は、デジタルおよび／またはアナログハードウェア回路を含んでよく、集積回路（ＩＣ）および／またはディスクリート回路を含んでよい。プログラマブル回路は、論理ＡＮＤ、論理ＯＲ、論理ＸＯＲ、論理ＮＡＮＤ、論理ＮＯＲ、および他の論理操作、フリップフロップ、レジスタ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラマブルロジックアレイ（ＰＬＡ）等のようなメモリ要素等を含む、再構成可能なハードウェア回路を含んでよい。

コンピュータ可読媒体は、適切なデバイスによって実行される命令を格納可能な任意の有形なデバイスを含んでよく、その結果、そこに格納される命令を有するコンピュータ可読媒体は、フローチャートまたはブロック図で指定された操作を実行するための手段を作成すべく実行され得る命令を含む、製品を備えることになる。コンピュータ可読媒体の例としては、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体等が含まれてよい。コンピュータ可読媒体のより具体的な例としては、フロッピー（登録商標）ディスク、ディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、コンパクトディスクリードオンリメモリ（ＣＤ-ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（ＲＴＭ）ディスク、メモリスティック、集積回路カード等が含まれてよい。

コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ、ＪＡＶＡ（登録商標）、Ｃ＋＋等のようなオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語または同様のプログラミング言語のような従来の手続型プログラミング言語を含む、１または複数のプログラミング言語の任意の組み合わせで記述されたソースコードまたはオブジェクトコードのいずれかを含んでよい。

コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサまたはプログラマブル回路に対し、ローカルにまたはローカルエリアネットワーク（ＬＡＮ）、インターネット等のようなワイドエリアネットワーク（ＷＡＮ）を介して提供され、フローチャートまたはブロック図で指定された操作を実行するための手段を作成すべく、コンピュータ可読命令を実行してよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラ等を含む。

図１は、本実施形態に係る会話処理システムのシステム構成の一例を示す。会話処理システムは、会話処理装置１００、テキスト変換装置２００、及び形態素解析装置３００を備える。会話処理装置１００、テキスト変換装置２００、及び形態素解析装置３００は、ネットワーク５０を介して接続される。会話処理装置１００は、ユーザの発言に対して音声、画像、動きなどで応答する。

会話処理装置１００は、マイク１０１、カメラ１０２、スピーカ１０４、表示部１０５、タッチセンサ１０６などを備える。会話処理装置１００は、マイク１０１を介してユーザの音声を検出する。会話処理装置１００は、カメラ１０２を介してユーザの表情等を検出する。会話処理装置１００は、スピーカ１０４を介してユーザに音声で情報を伝達する。会話処理装置１００は、表示部１０５を介してユーザに画像で情報を伝達する。会話処理装置１００は、タッチセンサ１０６等を介して音声以外の手段でユーザとコミュニケーションしてよい。

テキスト変換装置２００は、会話処理装置１００から提供された音声データから単語を抽出してテキストデータを生成する。テキスト変換装置２００は、生成されたテキストデータを会話処理装置１００に返信する。形態素解析装置３００は、会話処理装置１００から提供されたテキストデータに対して形態素解析を実行して、形態素解析データを生成する。形態素解析装置３００は、生成された形態素解析データを会話処理装置１００に返信する。会話処理装置１００は、形態素解析データを参照して、ユーザの発言に対して応答する。

図２は、会話処理装置１００の機能ブロックの一例を示す。会話処理装置１００は、ユーザの発言に対して予め定められたアルゴリズムに従って応答する複数の会話アプリケーションを実行する。複数の会話アプリケーションは、予め定められた条件を満たすまでアルゴリズムに従ってユーザとの会話を継続する複数の特定会話アプリケーションを含んでよい。特定会話アプリケーションは、ユーザとの会話を通じて特定の目的を達成するための会話アプリケーションでよい。複数の特定会話アプリケーションは、ユーザの所望のスケジュールが登録されるまでユーザとの会話を継続するスケジュール会話アプリケーションを含む。複数の特定会話アプリケーションは、特定の場所の特定の日時における天気情報を提供するまでユーザとの会話を継続する天気会話アプリケーションを含む。複数の特定会話アプリケーションは、特定の料理のレシピを提供するまでユーザとの会話を継続するレシピ会話アプリケーションを含む。複数の特定会話アプリケーションは、ユーザとの会話を通じて予め定められたルールに従ったゲームを実行するゲーム会話アプリケーションを含む。

複数の会話アプリケーションは、更にユーザの１つの発言に対して１つの応答を実行する日常会話アプリケーションを含む。日常会話アプリケーションは、特定会話アプリケーションとは異なるアルゴリズムに従って動作してよい。日常会話アプリケーションは、例えば、深層学習アルゴリズムに従ってユーザの特性に合わせた応答を実行する。

会話処理装置１００が日常会話アプリケーションを実行中に、ユーザが会話処理装置１００にとって未知の単語を発言したとする。会話処理装置１００がその単語の意味をユーザに聞くように、日常会話アプリケーションのアルゴリズムが設計されてよい。例えば、会話処理装置１００にとって未知の単語を、「_ＵＮＫ」と定義する。例えば、「今日、○○で_ＵＮＫに会ったよ。」というユーザの発言に対して、「_ＵＮＫってどんな人ですか？」と応答するように、日常会話アプリケーションのアルゴリズムが設計されてよい。このような設計により、会話処理装置１００にとって未知の単語をユーザが発言した場合でも、適切な回答ができるように、アルゴリズムが設計されてよい。

複数の会話アプリケーションは、更に、ユーザとの会話を通じて会話処理装置１００の各種設定を行うシステム会話アプリケーションを含む。ユーザは、会話処理装置１００の音量を設定したい場合、通信設定をしたい場合などにシステム会話アプリケーションを通じて、会話処理装置１００と会話して、会話処理装置１００の各種設定を行う。

会話処理装置１００は、ユーザの発言に対する応答を現在実行中の会話アプリケーションで実行できないと判断した場合、実行中の会話アプリケーションを中断する。会話処理装置１００は、そのユーザの発言に対する応答が可能な適切な会話アプリケーションを選択して、そのユーザの発言に対して応答する。

会話処理装置１００は、マイク１０１、カメラ１０２、スピーカ１０４、表示部１０５、タッチセンサ１０６、赤外線センサ１０７、アクチュエータ１０８、検出部１１０、画像処理部１１２、音声制御部１１４、表示制御部１１６、センサ制御部１１８、及びアクチュエータ制御部１１９を備える。会話処理装置１００は、アプリケーション実行部１２０、送受信部１３０、単語情報取得部１３２、選択部１３４、アプリケーション格納部１４０、単語リスト格納部１４２、及びユーザプロファイル格納部１４４を更に備える。

マイク１０１は、ユーザが発した音声を検出する。マイク１０１は、指向性マイクでよい。カメラ１０２は、会話処理装置１００の周囲の環境を撮像する。カメラ１０２は、例えば、会話処理装置１００と会話するユーザの顔を撮像する。スピーカ１０４は、音声を出力する。表示部１０５は、ユーザに提示する各種情報を表示する。表示部１０５は、タッチパネル付きの液晶表示ユニットでよい。タッチセンサ１０６は、ユーザの指、掌などが接触したことを検出する。赤外線センサ１０７は、会話処理装置１００の周囲に存在するユーザなどの物体を検出する。赤外線センサ１０７は、焦電型赤外線センサでよい。あアクチュエータ１０８は、会話処理装置１００が備える可動部材を作動させる動力を提供する。会話処理装置１００が、頭部、及び腕部を有する場合、アクチュエータ１０８は、例えば、頭部、及び腕部の少なくとも一方を回転させてよい。

会話処理装置１００は、カメラ１０２により撮像された画像に基づいて、ユーザが存在する方向を特定してよい。会話処理装置１００は、特定された方向に、マイク１０１が向くように、アクチュエータ１０８を制御して、マイク１０１が設けられた頭部などの可動部材を回転させてよい。

赤外線センサ１０７は、カメラ１０２の撮像範囲外に存在する物体を検出するように配置されてよい。例えば、ユーザがカメラ１０２の撮像範囲外に存在する場合に、会話処理装置１００は、赤外線センサ１０７を利用してユーザの位置を推定する。会話処理装置１００は、ユーザがカメラ１０２の撮像範囲内に含まれるように、カメラ１０２が設けられた頭部などの可動部材を回転させてよい。ユーザがカメラ１０２の画角内に存在しない場合でも、会話処理装置１００は、容易にユーザを検出して、ユーザとの会話に最適な方向にカメラ１０２及びマイク１０１を向けることができる。

検出部１１０は、ユーザの発言を検出する。検出部１１０は、音声認識部１１１を含む。音声認識部１１１は、ユーザの発言を音声データに変換する。画像処理部１１２は、カメラ１０２により撮像された画像データを処理する。画像処理部１１２は、例えば、画像データからユーザの顔画像データを抽出する。画像処理部１１２は、抽出された顔画像データから顔の特徴量を抽出する。特徴量は、人物などの対象物を識別可能な情報であればよく、顔画像データの画素値の情報、または顔画像データに含まれる顔の目、鼻、口の間隔または大きさ、肌の色、髪型などの外見的特徴を数値で示した情報などでよい。画像処理部１１２は、顔の特徴量を示すデータをアプリケーション実行部１２０に提供する。

音声制御部１１４は、アプリケーション実行部１２０から提供された音声情報に基づく音声をスピーカ１０４に出力する。表示制御部１１６は、アプリケーション実行部１２０から提供される画像情報を表示部１０５に表示させる。センサ制御部１１８は、タッチセンサ１０６及び赤外線センサ１０７からの検出信号を受信して、アクチュエータ制御部１１９及びアプリケーション実行部１２０に提供する。

アクチュエータ制御部１１９は、アクチュエータ１０８を制御する。アクチュエータ制御部１１９は、調整部１０９を有する。調整部１０９は、赤外線センサ１０７による検出結果に応じて、カメラ１０２の撮像範囲を調整する。ユーザがカメラ１０２の撮像範囲外に存在する場合に、調整部１０９は、赤外線センサ１０７を利用してユーザの位置を推定する。調整部１０９は、ユーザの顔がカメラ１０２の撮像範囲内に含まれるように、アクチュエータ１０８を制御して、カメラ１０２が設けられた頭部などの可動部材を回転させてよい。調整部１０９は、カメラ１０２の画角を調整することで、カメラ１０２の撮像範囲を調整してよい。

会話処理装置１００は、カメラ１０２を利用してビデオ通話を実現してよい。会話処理装置１００は、カメラ１０２、カメラ１０２が設けられた頭部などの可動部材、カメラ１０２の画角の制御により、会話処理装置１００の周囲の環境を遠隔から監視する遠隔カメラとしてカメラ１０２を機能させてよい。また、会話処理装置１００は、ユーザとの会話などのユーザとのコミュニケーションを履歴情報として記憶してよい。会話処理装置１００は、履歴情報に基づいてユーザに異常がないかどうかを判断してよい。会話処理装置１００は、履歴情報からユーザの生活パターンを予測し、その生活パターンと異なる行動をユーザがとった場合に、ユーザに異常があると判断してよい。会話処理装置１００は、ユーザに異常があると判断した場合に、送受信部１３０を介して特定の宛先に異常を通知してよい。

送受信部１３０は、ネットワーク５０を介してテキスト変換装置２００及び形態素解析装置３００とデータを送受信する。単語情報取得部１３２は、検出部１１０により検出されたユーザの発言から抽出された少なくとも１つの単語を含む単語情報を取得する。単語情報取得部１３２は、形態素解析装置３００から送受信部１３０を介して提供された形態素解析データを単語情報として取得してよい。形態素解析データは、ユーザの発言に含まれる各単語、各単語の発言順、各単語の品詞などを含むデータでよい。

アプリケーション格納部１４０は、複数の会話アプリケーションを格納する。アプリケーション格納部１４０は、複数の特定会話アプリケーション、及び日常会話アプリケーションを格納してよい。

選択部１３４は、実行中の会話アプリケーションがユーザの発言に対して応答できる場合、実行中の会話アプリケーションを選択する。選択部１３４は、実行中の会話アプリケーションがユーザの発言に対して応答できない場合、ユーザの発言に対して応答できる他の会話アプリケーションを選択する。

選択部１３４は、実行中の特定会話アプリケーションがユーザの発言に対して応答できる場合、実行中の特定会話アプリケーションを選択する。選択部１３４は、実行中の特定会話アプリケーションがユーザの発言に対して応答できない場合、ユーザの発言に対して応答できる他の特定会話アプリケーションを選択する。選択部１３４は、ユーザの発言に対して応答できる他の特定会話アプリケーションを選択できない場合、日常会話アプリケーションを選択する。選択部１３４により選択された会話アプリケーションがアプリケーション実行部１２０により実行される。

単語リスト格納部１４２は、複数の特定会話アプリケーションに関連付けて、複数の特定会話アプリケーションが応答できるユーザの発言に対応する少なくとも１つの単語が登録された単語リストを格納する。単語リスト格納部１４２は、例えば、図３に示すような単語リストを格納する。単語リストは、ユーザの発言に含まれる発言順に並ぶ単語の組み合わせと、その単語の組み合わせから適切な応答ができると推定される特定会話アプリケーションとを含む。単語リストは、更に選択部１３４により選択される優先度を含む。例えば、実行中の特定会話アプリケーションの種類に関わらず、ユーザが特定の発言をした場合に、選択される会話アプリケーションに対して最も高い優先度「１」が設定される。次いで、実行中の特定会話アプリケーションに対して次の優先度「２」が設定される。その他の特定会話アプリケーションに対して優先度「３」が設定される。図３に示す単語リストは、数値が小さいほど優先度が高いことを示している。しかし、単語リストは、数値が大きいほど優先度が高いことを示してもよい。優先の度合いを示す指標は、数値でなくてもよい。

実行中の特定会話アプリケーションの種類によって、より自然な会話を実現すべく実行中の特定会話アプリケーションを中断して割り込んで実行される他の特定会話アプリケーションの種類は異なる可能性がある。よって、単語リスト格納部１４２は、特定会話アプリケーションごとに単語リストを格納してよい。

選択部１３４は、単語情報に含まれる少なくとも１つの単語が実行中の特定会話アプリケーションに関連付けて単語リストに登録されている場合、実行中の特定会話アプリケーションを選択する。選択部１３４は、単語情報に含まれる少なくとも１つの単語が、実行中の特定会話アプリケーションに関連付けて単語リストに登録されておらず、かつ他の特定会話アプリケーションに関連付けて単語リストに登録されている場合、単語リストに登録されている他の特定会話アプリケーションを選択する。

例えば、ユーザが「明日の天気は？」と発言したとする。選択部１３４は、ユーザの発言に含まれる（１）「明日」−（２）「天気」という単語の組み合わせに対して応答できる特定会話アプリケーションとして、天気会話アプリケーションを選択する。その後、ユーザが「じゃあ、明後日は？」と発言したとする。この場合、選択部１３４は、実行中の特定会話アプリケーションとして、引き続き天気会話アプリケーションを選択する。一方、その後、ユーザが「じゃあ、明日の予定を入力しよう。」と発言したとする。この場合、選択部１３４は、天気会話アプリケーションを中断して、他の特定会話アプリケーションとして、スケジュール会話アプリケーションを選択する。

ユーザプロファイル格納部１４４は、ユーザに関連する少なくとも１つの項目を含む少なくとも１つのユーザプロファイルを格納する。ユーザプロファイルの各項目には、ユーザとの会話を通じて抽出された単語が登録される。ユーザプロファイル格納部１４４は、例えば、図４に示すような、ユーザの名前、生年月日、住所、好きな食べ物、好きなスポーツなどユーザの個性を示す複数の項目を含むユーザプロファイルを格納する。応答部１２１は、ユーザプロファイルの各項目の単語に基づいて、ユーザへの応答に含める情報を決定してよい。

アプリケーション実行部１２０は、応答部１２１、登録部１２２、中断状態記憶部１２３、及び終了部１２４を含む。応答部１２１は、選択された会話アプリケーションが実行中の会話アプリケーションの場合、実行中の会話アプリケーションを継続する。応答部１２１は、選択された会話アプリケーションが他の会話アプリケーションの場合、実行中の会話アプリケーションを中断して、他の会話アプリケーションを実行することにより、ユーザの発言に対して応答する。

登録部１２２は、単語情報に含まれる少なくとも１つの単語のうち少なくとも１つの項目に属する単語をユーザプロファイルに登録する。例えば、ユーザが好きな食べ物を発言したとする。すると、登録部１２２は、ユーザの発言からユーザの好きな食べ物の単語を抽出して、ユーザプロファイルに登録する。応答部１２１は、ユーザプロファイルを参照して、ユーザへの応答の内容を最適化してよい。応答部１２１は、ユーザへの応答の内容の一部を、ユーザプロファイルの内容を応じて変更して、応答を最適化してよい。

例えば、ユーザの好きな食べ物を、_ＦＡＶ_ＦＯＯＤと定義する。「今日はすごくいいことがあったよ」というユーザの発言に対して、「それは良かったですね。今日の夕飯は、_ＦＡＶ_ＦＯＯＤでお祝いしましょう。」という応答用のフレーズを定義する。この場合、応答部１２１は、ユーザプロファイルを参照して、ユーザの好きな食べ物を特定して、特定された単語を応答用のフレーズに挿入して、応答の内容を最適化する。

中断状態記憶部１２３は、実行中の特定会話アプリケーションを中断する場合に、実行中の特定会話アプリケーションのアルゴリズムの中断状態を記憶する。中断状態は、特定会話アプリケーションのアルゴリズムの中断位置、及び特定会話アプリケーションが中断されるまでにユーザの発言から得られた情報を含む。ユーザの発言から得られた情報は、ユーザプロファイルに登録される情報を含んでよい。応答部１２１は、実行中の特定会話アプリケーションを中断して、他の特定会話アプリケーションを実行することにより、ユーザの発言に対して応答する場合、実行中の特定会話アプリケーションの実行中にユーザから得られた情報に基づいて、他の特定会話アプリケーションのアルゴリズムの開始位置を決定してよい。応答部１２１は、決定された開始位置に基づいて他の特定会話アプリケーションを実行してよい。

例えば、天気会話アプリケーションを利用して、ユーザが週末の天気について会話処理装置１００と会話しているときに、ユーザが、週末が晴れそうなことがわかり、外出の予定を入れたくなったとする。ユーザは、会話処理装置１００に対して「では、その日の予定を入力したい。」のような発言をする。応答部１２１は、入力すべき予定が週末であることを考慮して、スケジュール会話アプリケーションのアルゴリズムの開始位置を決定する。例えば、応答部１２１は、スケジュールを入力すべき日が決定された後の時点から、スケジュール会話アプリケーションのアルゴリズムを開始する。

応答部１２１は、実行中の特定会話アプリケーションを中断して、他の特定会話アプリケーションを実行することにより、ユーザの発言に対して応答する場合、中断状態記憶部１２３を参照して、実行中の特定会話アプリケーションのアルゴリズムの中断状態を特定する。応答部１２１は、他の特定会話アプリケーションが終了または中断したことに対応して、先に中断された特定会話アプリケーションを中断状態に基づいて再開する。例えば、応答部１２１は、他の特定会話アプリケーションを実行中に、他の会話アプリケーションが応答できない発言をユーザがした場合、他の特定会話アプリケーションを中断する。言い換えれば、応答部１２１は、他の特定会話アプリケーションを実行中に、ユーザが他の特定会話アプリケーションに関する話題とは異なる話題を開始した場合、他の特定会話アプリケーションを中断する。応答部１２１は、他の特定会話アプリケーションが中断したことに対応して、先に中断された特定会話アプリケーションのうちユーザの発言に対して応答できる特定会話アプリケーションを、その特定会話アプリケーションの中断状態に基づいて再開してよい。すなわち、応答部１２１は、他の特定会話アプリケーションが中断したことに対応して、先に中断された特定会話アプリケーションのうちユーザが新たに始めた話題に対応する特定会話アプリケーションを、その特定会話アプリケーションの中断状態に基づいて再開してよい。

終了部１２４は、検出部１１０により検出されたユーザの発言が、予め定められた特定の発言である場合、実行中の会話アプリケーションを強制的に終了する。例えば、ユーザが、「ホーム」、「強制終了」などの特定の発言をした場合、終了部１２４は、実行中の会話アプリケーションを強制的に終了する。

会話処理装置１００は、赤外線受光部１２６、赤外線発光部１２８、及び周辺機器制御部１２９を更に備える。周辺機器制御部１２９は、会話処理装置１００を周辺機器用の遠隔制御端末（例えば、リモートコントローラ）として機能させる。周辺機器は、例えば、テレビ及びレコーダなどのＡＶ機器、エアコン及び扇風機などの家電機器など、遠隔制御端末から赤外線または無線で送信される制御命令に応じて動作する機器である。赤外線受光部１２６は、遠隔制御端末から赤外線で制御命令を受信する。赤外線発光部１２８は、周辺機器を制御するための制御命令を赤外線で送信する。

周辺機器制御部１２９は、制御対象の周辺機器の制御命令と制御内容とを関連付けた制御命令リストを記憶する。周辺機器制御部１２９は、例えば、ユーザが新たな制御対象の周辺機器を登録することを希望する場合に、ユーザとの会話を通じて制御命令の登録処理を実行する。例えば、周辺機器制御部１２９は、ユーザに遠隔制御端末の操作を依頼して、遠隔制御端末から各種の制御命令を送信させ、受信した各種の制御命令と各制御内容とを関連付けた制御命令リストを生成する。周辺機器制御部１２９は、制御内容に応じた遠隔制御端末のボタンを順次ユーザに押下させて、遠隔制御端末から発光された各制御命令を赤外線受光部１２６を介して受光してよい。周辺機器制御部１２９は、受光された各制御命令と各制御内容とを関連付けた制御命令リストに生成してよい。あるいは、周辺機器制御部１２９は、制御対象の周辺機器の種類を一意に特定する番号を遠隔制御端末を介してユーザに入力させてもよい。周辺機器制御部１２９は、入力された番号に対応する制御命令リストをインターネットなどネットワーク５０を介して取得してよい。周辺機器制御部１２９は、周辺機器の制御をユーザから依頼された場合、制御命令リストを参照して、依頼された制御内容に関連付けられた制御命令を特定する。周辺機器制御部１２９は、特定された制御命令を赤外線発光部１２８を介して赤外線で制御対象の周辺機器に送信する。

会話処理装置１００は、ＷｉＦｉ、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの無線を介して周辺機器と通信してもよい。周辺機器制御部１２９は、制御対象の周辺機器を制御するためのデバイスドライバをネットワーク５０を介して取得してよい。周辺機器制御部１２９は、デバイスドライバを利用して、ユーザとの会話を通じて、周辺機器を制御してよい。

図５は、会話処理装置１００の会話処理の手順の一例を示すフローチャートである。会話処理装置１００は、ユーザの発言を検出した場合に図５に示すフローチャートの手順を実行してよい。

マイク１０１を介して検出部１１０がユーザの音声を検出する（Ｓ１００）。音声認識部１１１は、検出された音声から音声データを生成する（Ｓ１０２）。送受信部１３０は、音声データをテキスト変換装置２００に送信する（Ｓ１０４）。テキスト変換装置２００は、音声データから単語を抽出して、例えば、単語が発言順に並んだテキストデータを生成する。送受信部１３０は、テキスト変換装置２００からテキストデータを受信する（Ｓ１０６）。送受信部１３０は、受信したテキストデータを形態素解析装置３００に送信する（Ｓ１０８）。選択部１３４は、テキストデータに基づいてパターンマッチを実行する（Ｓ１１０）。選択部１３４は、受信したテキストデータに基づいて、ユーザの発言が会話処理装置１００の各種設定などのシステムに関する話題であるか否かを判定する（Ｓ１１２）。選択部１３４は、受信したテキストデータと一致するテキストデータがシステム会話アプリケーションに関連付けられている場合、システム会話アプリケーションを選択する（Ｓ１２０）。

形態素解析装置３００は、テキストデータを受信すると、受信したテキストデータを形態素解析して形態素解析データを生成する。形態素解析装置３００は、生成された形態素解析データを会話処理装置１００に送信する。送受信部１３０は、形態素解析装置３００から形態素解析データを受信する（Ｓ１１４）。単語情報取得部１３２は、形態素解析データを単語情報として取得し、選択部１３４に提供する。選択部１３４は、単語情報に基づいてパターンマッチを実行する（Ｓ１１６）。選択部１３４は、実行中の特定会話アプリケーションに関連付けられた単語リストを参照して、ユーザの発言に対して応答する会話アプリケーションを選択する。

選択部１３４は、単語リストを参照して、ユーザの発言が、会話処理装置１００の各種設定などのシステムに関する話題であるか否かを判定する（Ｓ１１８）。ユーザの発言が、会話処理装置１００の各種設定などのシステムに関する話題であれば、選択部１３４は、システム会話アプリケーションを選択する（Ｓ１２０）。

ユーザの発言がシステムに関する話題でなければ、選択部１３４は、単語リストを参照して、ユーザの発言が現在の話題の続きかどうかを判定する（Ｓ１２２）。選択部１３４は、単語リストを参照して、単語情報に含まれる少なくとも１つの単語が実行中の特定会話アプリケーションに関連付けて単語リストに登録されている場合、ユーザの発言が現在の話題の続きであると判断する。ユーザの発言が現在の話題の続きであれば、選択部１３４は、実行中の特定会話アプリケーションを選択する（Ｓ１２４）。

ユーザの発言が現在の話題の続きでなければ、選択部１３４は、単語リストを参照して、ユーザの発言が新たな話題であるかどうかを判定する（Ｓ１２６）。選択部１３４は、単語情報に含まれる少なくとも１つの単語が、実行中の特定会話アプリケーションに関連付けて単語リストに登録されておらず、かつ他の特定会話アプリケーションに関連付けて単語リストに登録されている場合、新たな話題であると判断する。ユーザの発言が新たな話題であれば、選択部１３４は、単語情報に含まれる少なくとも１つの単語と関連付けて単語リストに登録されている他の特定会話アプリケーションを選択する（Ｓ１２８）。

ユーザの発言が新たな話題でなければ、すなわちユーザの発言に対して適切な応答ができる特定会話アプリケーションがなければ、選択部１３４は、日常会話アプリケーションを選択する（Ｓ１３０）。

ユーザの発言に対して適当な会話アプリケーションが選択部１３４により選択された後、応答部１２１は、選択された会話アプリケーションを実行して、ユーザの発言に対して応答する（Ｓ１３４）。

以上のとおり、本実施形態に係る会話処理装置１００によれば、ユーザの発言に対して現在実行中の特定会話アプリケーションによる応答が適切でない場合には、そのユーザの発言に対して適当な応答ができる他の特定会話アプリケーションを実行する。さらに、そのユーザの発言に対して適当な応答ができる他の特定会話アプリケーションが存在しない場合には、会話処理装置１００は、日常会話アプリケーションを実行する。よって、ユーザが、１つの話題の会話の途中で、他の話題の会話を始めようとした場合でも、会話処理装置１００は、ユーザの発言に対してより自然な応答を実現できる。

また、中断された特定会話アプリケーションを再開する場合には、会話処理装置１００は、中断前に特定会話アプリケーションを介したユーザとの会話で得られた情報に基づいて、特定会話アプリケーションのアルゴリズムの開始位置を決定する。よって、新たな話題に移ったのち、前回の話題に戻った場合でも、会話処理装置１００は、ユーザの発言に対してより自然な応答を実現できる。

図６は、本発明の複数の態様が全体的または部分的に具現化されてよいコンピュータ１２００の例を示す。コンピュータ１２００にインストールされたプログラムは、コンピュータ１２００に、本発明の実施形態に係る装置に関連付けられる操作または当該装置の１または複数のセクションとして機能させることができ、または当該操作または当該１または複数のセクションを実行させることができ、および／またはコンピュータ１２００に、本発明の実施形態に係るプロセスまたは当該プロセスの段階を実行させることができる。そのようなプログラムは、コンピュータ１２００に、本明細書に記載のフローチャートおよびブロック図のブロックのうちのいくつかまたはすべてに関連付けられた特定の操作を実行させるべく、ＣＰＵ１２１２によって実行されてよい。

本実施形態によるコンピュータ１２００は、ＣＰＵ１２１２、ＲＡＭ１２１４、ＲＯＭ１２３０、グラフィックコントローラ１２１６、およびディスプレイデバイス１２１８を含み、それらはホストコントローラ１２１０によって相互に接続されている。コンピュータ１２００はまた、通信インタフェース１２２２、及び入力／出力コントローラ１２２０を含む。コンピュータ１２００は、任意の入／出力ユニットを含んでよく、それらは入力／出力コントローラ１２２０を介してホストコントローラ１２１０に接続されてよい。

ＣＰＵ１２１２は、ＲＯＭ１２３０およびＲＡＭ１２１４内に格納されたプログラムに従い動作し、それにより各ユニットを制御する。グラフィックコントローラ１２１６は、ＲＡＭ１２１４内に提供されるフレームバッファ等またはそれ自体の中にＣＰＵ１２１２によって生成されたイメージデータを取得し、イメージデータがディスプレイデバイス１２１８上に表示されるようにする。通信インタフェース１２２２は、ネットワークを介してテキスト変換装置２００及び形態素解析装置３００などの他の電子デバイスと通信する。

ＲＯＭ１２３０はその中に、アクティブ化時にコンピュータ１２００によって実行されるブートプログラム等、および／またはコンピュータ１２００のハードウェアに依存するプログラムを格納する。プログラムは、コンピュータ可読媒体から読み取られ、コンピュータ可読媒体の例でもある、ＲＡＭ１２１４、またはＲＯＭ１２３０にインストールされ、ＣＰＵ１２１２によって実行される。これらのプログラム内に記述される情報処理は、コンピュータ１２００に読み取られ、プログラムと、上記様々なタイプのハードウェアリソースとの間の連携をもたらす。装置または方法が、コンピュータ１２００の使用に従い情報の操作または処理を実現することによって構成されてよい。

例えば、通信がコンピュータ１２００および外部デバイス間で実行される場合、ＣＰＵ１２１２は、ＲＡＭ１２１４にロードされた通信プログラムを実行し、通信プログラムに記述された処理に基づいて、通信インタフェース１２２２に対し、通信処理を命令してよい。通信インタフェース１２２２は、ＣＰＵ１２１２の制御下、ＲＡＭ１２１４のような記録媒体内に提供される送信バッファ処理領域に格納された送信データを読み取り、読み取られた送信データをネットワークに送信し、またはネットワークから受信された受信データを記録媒体上に提供される受信バッファ処理領域等に書き込む。

様々なタイプのプログラム、データ、テーブル、およびデータベースのような様々なタイプの情報が記録媒体に格納され、情報処理を受けてよい。ＣＰＵ１２１２は、ＲＡＭ１２１４から読み取られたデータに対し、本開示の随所に記載され、プログラムの命令シーケンスによって指定される様々なタイプの操作、情報処理、条件判断、条件分岐、無条件分岐、情報の検索／置換等を含む、様々なタイプの処理を実行してよく、結果をＲＡＭ１２１４に対しライトバックする。

上で説明したプログラムまたはソフトウェアモジュールは、コンピュータ１２００上またはコンピュータ１２００近傍のコンピュータ可読媒体に格納されてよい。また、専用通信ネットワークまたはインターネットに接続されたサーバーシステム内に提供されるハードディスクまたはＲＡＭのような記録媒体が、コンピュータ可読媒体として使用可能であり、それによりプログラムを、ネットワークを介してコンピュータ１２００に提供する。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。

１００会話処理装置
１０１マイク
１０２カメラ
１０４スピーカ
１０５表示部
１０６タッチセンサ
１０７赤外線センサ
１０８アクチュエータ
１０９調整部
１１０検出部
１１１音声認識部
１１２画像処理部
１１４音声制御部
１１６表示制御部
１１８センサ制御部
１１９アクチュエータ制御部
１２０アプリケーション実行部
１２１応答部
１２２登録部
１２３中断状態記憶部
１２４終了部
１２６赤外線受光部
１２８赤外線発光部
１２９周辺機器制御部
１３０送受信部
１３２単語情報取得部
１３４選択部
１４０アプリケーション格納部
１４２単語リスト格納部
１４４ユーザプロファイル格納部
２００テキスト変換装置
３００形態素解析装置
１２００コンピュータ
１２１０ホストコントローラ
１２１２ＣＰＵ
１２１４ＲＡＭ
１２１６グラフィックコントローラ
１２１８ディスプレイデバイス
１２２０入力／出力コントローラ
１２２２通信インタフェース
１２３０ＲＯＭ

Claims

ユーザの発言に対して予め定められたアルゴリズムに従って応答する複数の会話アプリケーションを実行する会話処理装置であって、
ユーザの発言を検出する検出部と、
実行中の会話アプリケーションが前記ユーザの発言に対して応答できる場合、前記実行中の会話アプリケーションを選択し、前記実行中の会話アプリケーションが前記ユーザの発言に対して応答できない場合、前記ユーザの発言に対して応答できる他の会話アプリケーションを選択する選択部と、
選択された会話アプリケーションが前記実行中の会話アプリケーションの場合、前記実行中の会話アプリケーションを継続し、選択された会話アプリケーションが前記他の会話アプリケーションの場合、前記実行中の会話アプリケーションを中断して、前記他の会話アプリケーションを実行することにより、前記ユーザの発言に対して応答する応答部と
を備える会話処理装置。
前記複数の会話アプリケーションは、予め定められた条件を満たすまで前記アルゴリズムに従って前記ユーザとの会話を継続する複数の特定会話アプリケーションを含み、
前記選択部は、実行中の特定会話アプリケーションが前記ユーザの発言に対して応答できる場合、前記実行中の特定会話アプリケーションを選択し、前記実行中の特定会話アプリケーションが前記ユーザの発言に対して応答できない場合、前記ユーザの発言に対して応答できる他の特定会話アプリケーションを選択する、請求項１に記載の会話処理装置。
前記複数の会話アプリケーションは、前記ユーザの１つの発言に対して１つの応答を実行する日常会話アプリケーションを更に含み、
前記選択部は、実行中の特定会話アプリケーションが前記ユーザの発言に対して応答できる場合、前記実行中の特定会話アプリケーションを選択し、前記実行中の特定会話アプリケーションが前記ユーザの発言に対して応答できない場合、前記ユーザの発言に対して応答できる他の特定会話アプリケーションを選択し、前記ユーザの発言に対して応答できる他の特定会話アプリケーションを選択できない場合、前記日常会話アプリケーションを選択する、請求項２に記載の会話処理装置。
前記日常会話アプリケーションは、深層学習アルゴリズムに従って前記ユーザの１つの発言に対して１つの応答を実行する、請求項３に記載の会話処理装置。
前記検出部により検出された前記ユーザの発言から抽出された少なくとも１つの単語を含む単語情報を取得する単語情報取得部と、
前記複数の特定会話アプリケーションに関連付けて、前記複数の特定会話アプリケーションが応答できるユーザの発言に対応する少なくとも１つの単語が登録された単語リストを格納する単語リスト格納部と
を更に備え、
前記選択部は、前記単語リストを参照して、前記単語情報に含まれる前記少なくとも１つの単語が前記実行中の特定会話アプリケーションに関連付けて前記単語リストに登録されている場合、前記実行中の特定会話アプリケーションを選択し、前記単語情報に含まれる前記少なくとも１つの単語が、前記実行中の特定会話アプリケーションに関連付けて前記単語リストに登録されておらず、かつ他の特定会話アプリケーションに関連付けて前記単語リストに登録されている場合、前記単語リストに登録されている前記他の特定会話アプリケーションを選択する、請求項２から４のいずれか１つに記載の会話処理装置。
前記リスト格納部は、前記複数の特定会話アプリケーションごとに前記単語リストを格納し、
前記選択部は、前記実行中の特定会話アプリケーションに関連付けられた前記単語リストを参照して、特定会話アプリケーションを選択する、請求項５に記載の会話処理装置。
前記応答部は、前記実行中の特定会話アプリケーションを中断して、前記他の特定会話アプリケーションを実行することにより、前記ユーザの発言に対して応答する場合、前記実行中の特定会話アプリケーションの実行中に前記ユーザから得られた情報に基づいて、前記他の特定会話アプリケーションの前記アルゴリズムの開始位置を決定し、決定された前記開始位置に基づいて前記他の特定会話アプリケーションを実行する、請求項２から６のいずれか１つに記載の会話処理装置。
前記実行中の特定会話アプリケーションを中断する場合に、前記実行中の特定会話アプリケーションの前記アルゴリズムの中断状態を記憶する中断状態記憶部を更に備え、
前記応答部は、前記中断状態記憶部を参照して、前記実行中の特定会話アプリケーションの前記アルゴリズムの中断状態を特定し、前記他の特定会話アプリケーションが終了または中断したことに対応して、先に中断された前記特定会話アプリケーションを前記中断状態に基づいて再開する、請求項２から７のいずれか１つに記載の会話処理装置。
前記検出部により検出されたユーザの発言が、予め定められた特定の発言である場合、前記実行中の会話アプリケーションを強制的に終了する終了部を更に備える、請求項１から８のいずれか１つに記載の会話処理装置。
前記会話処理装置の周囲を撮像する撮像部と、
前記会話処理装置の周囲に存在する物体の存在を検出する赤外線センサと、
前記赤外線センサによる検出結果に応じて、前記ユーザの顔が前記撮像部の撮像範囲に含まれるように、前記撮像部の撮像範囲を調整する調整部と
を更に備える、請求項１から９のいずれか１つに会話処理装置。
ユーザの発言に対して予め定められたアルゴリズムに従って応答する複数の会話アプリケーションをコンピュータに実行させるためのプログラムであって、
ユーザの発言を検出する手順と、
実行中の会話アプリケーションが前記ユーザの発言に対して応答できる場合、前記実行中の会話アプリケーションを選択し、前記実行中の会話アプリケーションが前記ユーザの発言に対して応答できない場合、前記ユーザの発言に対して応答できる他の会話アプリケーションを選択する手順と、
選択された会話アプリケーションが前記実行中の会話アプリケーションの場合、前記実行中の会話アプリケーションを継続し、選択された会話アプリケーションが前記他の会話アプリケーションの場合、前記実行中の会話アプリケーションを中断して、前記他の会話アプリケーションを実行することにより、前記ユーザの発言に対して応答する手順と
を前記コンピュータに実行させるためのプログラム。