JP7112487B2

JP7112487B2 - 対話装置

Info

Publication number: JP7112487B2
Application number: JP2020518183A
Authority: JP
Inventors: 剛田中; 公亮角野
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2018-05-11
Filing date: 2019-03-29
Publication date: 2022-08-03
Anticipated expiration: 2039-03-29
Also published as: US20210005200A1; JPWO2019216053A1; US11430440B2; WO2019216053A1

Description

本発明の一側面は対話装置に関する。

あたかも人同士の会話のように自然な発話を出力するための仕組みが知られている。例えば、特許文献１には、発言に対する回答における特定の第２区間の音高が第１区間の音高に対して所定の関係にある音高となるように変更させる規則で音声合成を制御するとともに、発言者の話者属性、または、エージェント属性の少なくとも一方にしたがって該規則を修正する音声合成装置が記載されている。

特開２０１５－６９１３８号公報

人同士の会話では、第１の人の発話を第２の人がいったん受けて第３の人につなぎ、第３の人が第１の人に応答するような場面（例えば、電話での問合せを受付の人が受けて担当者につなぐ場面）がある。このような場面と同様に、一つの発話に対して複数の人が応答するような場面を疑似的に表現できる対話装置が望まれている。

本発明の一側面に係る対話装置は、ユーザにより入力されたユーザ発話を取得する取得部と、ユーザ発話に対応するシステム発話を生成する複数の生成部と、複数の生成部から選択された一つの生成部により生成されたシステム発話を出力する出力部とを備え、複数の生成部が、第１シナリオを有する第１生成部と、該第１シナリオとは異なる第２シナリオを有する第２生成部とを含み、出力部が、ユーザ発話に応じて第１生成部により生成された第１システム発話を第１表現形式で出力し、第１システム発話に続けて、ユーザ発話に応じて第２生成部により生成された第２システム発話を、第１表現形式とは異なる第２表現形式で出力する。

このような側面においては、互いに異なるシナリオを有する第１および第２のエージェント（生成部）による２種類のシステム発話が、互いに異なる表現形式で一のユーザ発話に対して出力される。このユーザインタフェースにより、あたかも人格の異なる複数のエージェントがユーザと連続的に会話するような場面がユーザに提供されるので、一つの発話に対して複数の人が応答するような場面を疑似的に表現することができる。

本発明の一側面によれば、一つの発話に対して複数の人が応答するような場面を対話装置で疑似的に表現することができる。

実施形態に係る対話装置の機能構成の一例を示す図である。実施形態に係る対話装置の詳細な機能構成の一例を示す図である。実施形態に係る対話装置の動作の一例を示すシーケンス図である。実施形態に係る対話装置の動作の別の例を示すシーケンス図である。チャットルームの切り替えを伴う自動対話の例を示す図である。実施形態に係る対話装置に用いられるコンピュータのハードウェア構成の一例を示す図である。

以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明において同一または同等の要素には同一の符号を付し、重複する説明を省略する。

対話装置は、ユーザとの間で自動対話を実行するコンピュータである。ユーザとは対話装置を利用する人である。自動対話とはユーザとコンピュータ（このコンピュータは一般に「ボット」ともいわれる。）との間の会話のやり取りであり、この自動対話ではコンピュータはユーザからの発話に応答して自動的に発話する。発話とはユーザまたはコンピュータが発する一回分の話である。以下では、ユーザの発話を「ユーザ発話」ともいい、コンピュータの発話を「システム発話」ともいう。

対話装置の利用目的は何ら限定されない。例えば、対話装置はユーザの質問に回答するＦＡＱ（Frequently Asked Questions）システムで用いられてもよいし、ＦＡＱに限られない任意の話を行う雑談システムで用いられてもよい。あるいは、対話装置は、音声操作に基づいて任意のタスクを実行するバーチャルアシスタント機能に組み込まれてもよい。

対話装置はクライアント－サーバ型システムの一部であってもよいし、単体の装置であってもよい。本実施形態では、対話装置はサーバとして機能するコンピュータであるとする。図１は、実施形態に係る対話装置１０の機能構成の一例を示す図である。図２は、対話装置１０のより詳細な機能構成の一例を示す図である。対話装置１０は通信ネットワークを介して少なくとも一つのユーザ端末９０と接続することができる。通信ネットワークの構成は何ら限定されず、例えばインターネットおよびイントラネットの少なくとも一方を用いて構成されてもよい。

ユーザ端末９０はユーザにより操作されるコンピュータ（クライアント端末）である。ユーザ端末９０は、ユーザにより入力された発話（ユーザ発話）を対話装置１０に送信する機能と、対話装置１０から受信した発話（システム発話）を出力する機能とを備える。ユーザ端末９０の種類は限定されず、例えば、据置型のコンピュータまたは装置であってもよいし、携帯型のコンピュータまたは装置であってもよい。ユーザ端末９０の具体的な例として、スマートフォン、タブレット端末、ウェアラブル端末、パーソナルコンピュータ、スマートスピーカ、スマートテレビ、およびスマート家電が挙げられるが、これらに限定されない。

対話装置１０は、ユーザ端末９０からユーザ発話を受信すると、そのユーザ発話に対応するシステム発話をシナリオに基づいて生成し、生成したシステム発話をユーザ端末９０に送信する。シナリオとは対話のルール（どのようなユーザ発話を受け付けた場合にどのようなシステム発話を出力するかを規定したルール）を規定するデータである。対話装置１０の特徴の一つは、或る一つのユーザ発話に対して、あたかも、人格の異なる複数のエージェントがユーザと連続的に会話するように複数のシステム発話を連続して出力する点にある。以下では、その特徴について特に詳しく説明する。

図１に示すように、対話装置１０は機能要素として、自動対話を統括的に制御するフロント機能２０と、特定の話題に関するシステム発話を出力する１以上のボット機能３０とを備える。

フロント機能２０は、ユーザ端末９０から受信したユーザ発話に対応するシステム発話をシナリオデータベース２１内のシナリオに基づいて生成し、生成したシステム発話をユーザ端末９０に送信する。この段階でユーザ端末９０に送信されるシステム発話は第１システム発話に相当する。また、フロント機能２０はそのユーザ発話を処理させるボット機能３０を決定し、ユーザ発話に基づく情報をそのボット機能３０に出力する。その後、フロント機能２０は、そのボット機能３０で生成されたシステム発話を第２システム発話としてユーザ端末９０に送信する。

それぞれのボット機能３０は、フロント機能２０から受け付けた情報（ユーザ発話に基づく情報）に対応するシステム発話をシナリオデータベース３１内のシナリオに基づいて生成し、生成したシステム発話をフロント機能２０に出力する。このシステム発話もユーザ発話に対応するものである。

第１システム発話は、或る一つのユーザ発話に対して最初に出力されるシステム発話（応答）であり、第２システム発話はそのユーザ発話に対して２番目に出力されるシステム発話（応答）である。本実施形態では、フロント機能２０が第１システム発話を生成し、ボット機能３０が第２システム発話を生成する例を特に示す。しかし、第１および第２のシステム発話を対話装置１０内のどの機能が生成するかは限定されない。例えば、或る一つのボット機能３０が第１システム発話を生成し、別のボット機能３０が第２システム発話を生成してもよい。あるいは、ボット機能３０が第１システム発話を生成し、フロント機能２０が第２システム発話を生成してもよい。いずれにしても、対話装置１０は、或るユーザ発話に対して第１システム発話を出力した後に、別のユーザ発話を取得することなく第２システム発話を出力する。

それぞれのボット機能３０は特定の知識を有するエキスパート・エージェントであり、フロント機能２０は１以上のボット機能３０を統括するメインエージェントである、ということができる。本実施形態では、対話装置１０は一つのユーザ発話に対して、まずフロント機能２０で生成された第１システム発話を出力し、次いで、ボット機能３０で生成された第２システム発話を出力する。上述したように、第１システム発話と第２システム発話との間に新たなユーザ発話は発生しない。したがって、ユーザからすると、この仕組みは、自分の話を第１の人格がいったん受け付けて第２の人格に取り次ぎ、該第２の人格がその話に対して最終的に答えるようなものである。これは、例えば、電話での問合せを受付の人が受けて担当者につなぐ場面に似ている。

図２に示すように、フロント機能２０はシナリオデータベース２１、取得部２２、発話制御部２３、生成部２４、および出力部２５を備える。シナリオデータベース２１は、特定の話題に関する複数のシナリオを記憶するデータベースであり、例えば、他のボット機能３０への取り次ぎのためのシナリオを記憶する。取得部２２は、ユーザ発話などのデータ信号をユーザ端末９０から取得する機能要素である。発話制御部２３はユーザ発話をどのように処理するかを決定する機能要素である。生成部２４は、シナリオデータベース２１を参照して、ユーザ発話に対応するシステム発話を生成する機能要素である。出力部２５は、フロント機能２０またはボット機能３０により生成されたシステム発話を出力する機能要素である。

図２に示すように、それぞれのボット機能３０はシナリオデータベース３１および生成部３２を備える。シナリオデータベース３１は、特定の話題に関する複数のシナリオを記憶するデータベースであり、例えば、フロント機能２０よりも専門的な応答を出力するためのシナリオを記憶する。生成部３２は、シナリオデータベース３１を参照して、ユーザ発話に対応するシステム発話を生成してそのシステム発話をフロント機能２０に出力する機能要素である。

シナリオデータベース３１に記憶されるシナリオは、フロント機能２０のシナリオデータベース２１に記憶されているシナリオとは異なる。これら２種類のシナリオでは、一方が第１シナリオに相当し、他方が第２シナリオに相当する。この構成は、生成部２４および生成部３２の一方が、第１シナリオを有する第１生成部に相当し、他方が、第２シナリオを有する第２生成部に相当することを意味する。

図３および図４を参照しながら、ユーザ端末９０との間で自動対話を実行する際の対話装置１０の動作を説明する。図３は対話装置１０の動作の一例を示すシーケンス図である。図４は対話装置１０の動作の別の例を示すシーケンス図である。理解を容易にするために、図３および図４では、対話装置１０のフロント機能２０およびボット機能３０を個々に示すと共に、ユーザ発話を処理するボット機能３０のみを示す。

ステップＳ１１では、ユーザ端末９０がユーザ発話データを対話装置１０に送信する。対話装置１０ではフロント機能２０がそのユーザ発話データを受信する。ユーザ発話データはユーザ発話を少なくとも含むデータである。ユーザ発話データは、発話属性などの他のデータ項目を含んでもよい。

ユーザ端末９０におけるユーザ発話の取得方法は限定されない。例えば、ユーザ端末９０は音声入力されたユーザ発話（すなわち音声データで表されるユーザ発話）を取得してもよいし、文字列で入力されたユーザ発話（すなわちテキストデータで表されるユーザ発話）を取得してもよい。あるいは、ユーザ端末９０はユーザの指示に基づいて自動的にユーザ発話を音声データまたはテキストデータの形式で生成してもよい。

発話属性とはユーザ発話に関連する性質または特徴を示す情報であり、自動対話で用いられ得る。例えば、発話属性はシステム発話を決定するために用いられてもよい。発話属性の具体的な内容は限定されない。例えば、発話属性は、自動対話を利用しようとするユーザの性質または特徴を示すユーザ属性と、ユーザ端末９０の性質または特徴を示す端末属性とを含んでもよい。ユーザ属性を示すデータ項目の種類および個数は何ら限定されない。例えば、ユーザ属性は名前、性別、年齢、および住所から選択される一つであってもよいし、該４項目から任意に選択される２以上の項目の組合せであってもよい。あるいは、ユーザ属性は該４項目とは異なる他の１以上のデータ項目を含んでもよい。端末属性を示すデータ項目の種類および個数も何ら限定されない。例えば、端末属性は端末名、オペレーティングシステム名、および作動モードから選択される一つであってもよいし、該３項目から任意に選択される２以上の項目の組合せであってもよい。あるいは、端末属性は該３項目とは異なる他の１以上のデータ項目を含んでもよい。

ステップＳ１２では、発話制御部２３がそのユーザ発話データを処理させるボット機能３０を決定する。例えば、発話制御部２３はユーザ発話データに含まれるユーザ発話および発話属性の少なくとも一方と、予め設定されている規則とに基づいて、どのボット機能３０にユーザ発話データを処理させるかを決定する。

ステップＳ１３では、生成部２４がそのユーザ発話データに対応する第１システム発話を生成する。生成部２４はユーザ発話データを用いてシナリオデータベース２１を検索することでユーザ発話に対応するシナリオを選択し、そのシナリオで定義されるシステム発話を第１システム発話として生成する。ここで生成される第１システム発話は、例えば、取り次ぎの際によく用いられる言い回しで表現されてもよい。このような表現の例として、「交通案内につなぎます」「アシスタントにつなぐのでしばらくお待ちください」などが挙げられる。

ステップＳ１４では、出力部２５がその第１システム発話を含む第１システム発話データをユーザ端末９０に送信する。この第１システム発話データは、ユーザ端末９０での第１システム発話の表現形式を第１表現形式として含む。表現形式とは、人が知覚できる態様でシステム発話を表現するための方法である。表現形式の種類および具体的な実現方法は限定されない。例えば、表現形式は、人の聴覚で把握できる表現である聴覚表現で定義されてもよいし、人の視覚で把握できる表現である視覚表現で定義されてもよいし、その聴覚表現および視覚表現の双方で定義されてもよい。聴覚表現および視覚表現の具体的な手法は限定されない。例えば、聴覚表現は、音声および効果音から選択される少なくとも一つを含んでもよい。視覚表現は吹き出し、フォント、文字装飾、画面色、アイコン、キャラクタ、およびチャットルームから選択される少なくとも一つを含んでもよい。

フロント機能２０内において第１表現形式は任意の手法で定義されてよい。例えば、第１表現形式はメタデータ、設定ファイル、およびプログラム（アルゴリズム）のいずれかで定義されてもよいし、これらの手法から選択される任意の２以上の手法の組合せで定義されてもよい。第１表現形式は出力部２５または生成部２４で設定されてもよいし、フロント機能２０の他の構成要素で設定されてもよい。

このように、第１表現形式の具体的な手法および実現方法は限定されない。いずれにしても、出力部２５は、第１システム発話および第１表現形式を含む第１システム発話データをユーザ端末９０に送信する。すなわち、出力部２５は、第１システム発話を第１表現形式で出力する。

本実施形態では、第１システム発話データは指示データをさらに含む。指示データは、第２システム発話の取得を目的とする要求信号をユーザ端末９０に送信させるためのデータである。この指示データは、例えばメタデータの形式で生成されてもよいし、他の手法で定義されてもよい。本実施形態では出力部２５は指示データを第１システム発話と共にユーザ端末９０に送信するが、指示データの送信方法はこれに限定されない。例えば、出力部２５は第１システム発話とは独立したかたちで指示データをユーザ端末９０に送信してもよく、例えば、第１システム発話データを送信した後に指示データを送信してもよい。

ユーザ端末９０は第１システム発話データを受信すると第１システム発話を第１表現形式で出力する。これにより、ユーザはユーザ発話に対する最初の返事（例えば、取り次ぎを示すシステム発話）を認識できる。

ステップＳ１５では、ユーザ端末９０が、第１システム発話データに含まれていた指示データに応答して、要求信号を対話装置１０に送信する。この要求信号は、第１システム発話に続けて第２システム発話を得るためのデータ信号である。対話装置１０では取得部２２がその要求信号を受信する。

ステップＳ１６では、発話制御部２３がその要求信号に応答して、対応するボット機能３０にユーザ発話データを出力する。フロント機能２０からボット機能３０に渡されるユーザ発話データは、ユーザ発話に基づく情報を含み、発話属性をさらに含んでもよい。ユーザ発話に基づく情報は、ユーザ端末９０から受信されたユーザ発話そのものでもよく、したがって、発話制御部２３はステップＳ１１で受信されたユーザ発話データをボット機能３０に転送してもよい。あるいは、ユーザ発話に基づく情報は、ユーザ端末９０から受信されたユーザ発話に基づいて生成される別のデータ（例えば別のテキスト）でもよい。例えば、発話制御部２３は、受信されたユーザ発話に対応する初期化用のテキスト（例えば「＃ｉｎｉｔ」というテキスト）を生成し、このテキストを含むユーザ発話データをボット機能３０に出力してもよい。あるいは、発話制御部２３は、受信されたユーザ発話を変形することで生成した別のテキストを含むユーザ発話データをボット機能３０に出力してもよい。

ステップＳ１７では、生成部３２がそのユーザ発話データに対応する第２システム発話を生成する。これは、生成部３２が要求信号の受信に応答して第２システム発話を生成することを意味する。生成部３２はユーザ発話データを用いてシナリオデータベース３１を検索することでユーザ発話に対応するシナリオを選択し、そのシナリオで定義されるシステム発話を第２システム発話として生成する。上述したように、ボット機能３０がフロント機能２０から取得するユーザ発話データの内容は限定されない。いずれにしても、生成部３２は、ユーザ端末９０から受信されたユーザ発話に応じた第２システム発話を生成する。

ステップＳ１８では、ボット機能３０がその第２システム発話を含む第２システム発話データをフロント機能２０に出力する。この第２システム発話データはさらに、ユーザ端末９０での第２システム発話の表現形式を第２表現形式として含む。第１表現形式と同様に、第２表現形式の具体的な手法は限定されず、任意の視覚表現または任意の聴覚表現であってもよいし、視覚表現および聴覚表現の組合せであってもよい。ただし、第２表現形式は第１表現形式とは異なる。第１表現形式と同様に、ボット機能３０内において第２表現形式は任意の手法（メタデータ、設定ファイル、プログラムなど）で定義されてよい。第２表現形式は生成部３２で設定されてもよいし、ボット機能３０の他の構成要素で設定されてもよい。

ステップＳ１９では、フロント機能２０の出力部２５がその第２システム発話データをユーザ端末９０に送信する。したがって、出力部２５は、ステップＳ１１でユーザ発話が取得された後に対話装置１０で別のユーザ発話が取得されることなく、第１システム発話に続けて第２システム発話を第２表現形式で出力する。ユーザ端末９０はその第２システム発話データを受信すると第２システム発話を第２表現形式で出力する。これにより、ユーザはユーザ発話に対するさらなる返事（例えば、ユーザ発話への直接的な回答）を認識できる。

ステップＳ１１～Ｓ１９の一連の処理は再び実行され得る。例えば、対話装置１０は、話題（シナリオ）が変わるようなユーザ発話を受信した場合に、そのユーザ発話を異なるボット機能３０に取り次ぐためにその一連の処理を実行してもよい。

図３の例はフロント機能２０がユーザ発話をボット機能３０に取り次ぐ処理を示す。この取り次ぎに加えてまたは代えて、或るボット機能が別のボット機能のためにユーザ発話を取り次いでもよい。図４を参照しながら、ボット機能３０間での取り次ぎの例を説明する。この説明では、二つのボット機能３０をボット機能Ａ，Ｂと区別する。

ステップＳ１１～Ｓ１７までの処理は図３の例と同じである。ステップＳ１７に続いて、ステップＳ１８Ａでは、ボット機能Ａが第２システム発話、第２表現形式、および指示データを含む第２システム発話データをフロント機能２０に出力する。第２システム発話データに含まれる指示データは、ボット機能Ｂにより生成される第３システム発話の取得を目的とする要求信号をユーザ端末９０に送信させるためのデータである。

ステップＳ１９Ａでは、出力部２５がその第２システム発話データをユーザ端末９０に出力する。ユーザ端末９０は第２システム発話データを受信すると第２システム発話を第２表現形式で出力する。これにより、ユーザはユーザ発話に対するさらなる返事（例えば、ユーザ発話への直接的な回答、または、さらなる取り次ぎを示すシステム発話）を認識できる。

ステップＳ２０では、ユーザ端末９０が、第２システム発話データに含まれていた指示データに応答して、要求信号を対話装置１０に送信する。この要求信号は、第２システム発話に続けて第３システム発話を得るためのデータ信号である。対話装置１０では取得部２２がその要求信号を受信する。

ステップＳ２１では、発話制御部２３がその要求信号に応答して、対応するボット機能Ｂにユーザ発話データを出力する。このユーザ発話データの内容が限定されないことは上記のステップＳ１６と同じである。したがって、ユーザ発話データは、ユーザ端末９０から受信されたユーザ発話そのものを含んでもよいし、該ユーザ発話に基づいて生成される別のデータ（例えば別のテキスト）を含んでもよい。

ステップＳ２２では、ボット機能Ｂがそのユーザ発話データに対応する第３システム発話を生成する。これは、生成部３２がステップＳ２０での要求信号の受信に応答して第３システム発話を生成することを意味する。生成部３２はユーザ発話データを用いてシナリオデータベース３１を検索することでユーザ発話に対応するシナリオを選択し、そのシナリオで定義されるシステム発話を第３システム発話として生成する。上述したように、ボット機能Ｂがフロント機能２０から取得するユーザ発話データの内容は限定されない。いずれにしても、ボット機能Ｂの生成部３２は、ユーザ端末９０から受信されたユーザ発話に応じた第３システム発話を生成する。

ステップＳ２３では、ボット機能Ｂのボット機能３０がその第３システム発話を含む第３システム発話データをフロント機能２０に出力する。この第３システム発話データはさらに、ユーザ端末９０での第３システム発話の表現形式を第３表現形式として含む。第１および第２の表現形式と同様に、第３表現形式の具体的な手法も限定されない。ただし、第３表現形式は第１表現形式とも第２表現形式とも異なる。

ステップＳ２４では、フロント機能２０の出力部２５がその第３システム発話データをユーザ端末９０に送信する。したがって、出力部２５は、ステップＳ１１でユーザ発話が取得された後に対話装置１０で別のユーザ発話が受信されることなく、要求信号の受信に応答して第３システム発話を第３表現形式で出力する。ユーザ端末９０は第３システム発話データを受信すると第３システム発話を第３表現形式で出力する。これにより、ユーザはユーザ発話に対するさらなる返事（例えば、ユーザ発話への直接的な回答）を認識できる。

上述したように、第１および第２のシステム発話を対話装置１０内のどの機能が生成するかは限定されない。したがって、例えば、ボット機能Ａが、第１表現形式で出力される第１システム発話を生成し、ボット機能Ｂが、第２表現形式で出力される第２システム発話を生成してもよい。あるいは、ボット機能３０がその第１システム発話を生成し、フロント機能２０がその第２システム発話を生成してもよい。図３および図４はいずれも対話装置１０の処理の一例に過ぎないことに留意されたい。

対話装置１０は、第１システム発話の送信に伴って指示データもユーザ端末９０に送信することでユーザ端末９０に要求信号を送信させ、その要求信号に応じて第２システム発話をユーザ端末９０に送信する。この仕組みは、クライアント端末で入力されたデータを別のプログラムではなく同一プログラムに再送する仕組みであるポストバック（Ｐｏｓｔｂａｃｋ）の一種であるといえる。

第２表現形式は第１表現形式と異なるので、ユーザはあたかも第１の人格が第１システム発話を発し、その第１の人格とは異なる第２の人格が第２システム発話を発するような状況を経験することができる。上述したように、表現形式の具体的な手法は限定されないので、対話装置１０は様々な手法でシステム発話の表現を切り替えることができる。例えば、第１表現形式が女性の声で第２表現形式が男性の声でもよい。あるいは、第１表現形式が或る声質の男性の声（例えば大人の声）であり、第２表現形式が異なる声質の男性の声（例えば子供の声）でもよい。あるいは、第１表現形式が楕円形の吹き出しであり、第２表現形式が矩形の吹き出しでもよい。あるいは、第１表現形式が或る声質を持つ或るキャラクタであり、第２表現形式が異なる声質を持つ異なるキャラクタでもよい。このように、第２表現形式は、第１表現形式と同種で且つ異なる表現形式であってもよい。

図５を参照しながらシステム発話の表現のさらに別の例を説明する。図５は、システム発話をチャットルームで表現する例を示す図である。チャットルームとは、ユーザと一つのボットとの間の対話履歴を視覚的に示す表現方法である。例えば、ユーザが「今日の東京の天気を教えて。」と入力すると、ユーザ端末９０はそのユーザ発話をチャットルーム２００内に吹き出し２０１で表示すると共に、そのユーザ発話を対話装置１０に送信する。対話装置１０はそのユーザ発話に応答して「天気情報につなぎます。」というシステム発話をユーザ端末９０に送信する。このシステム発話はフロント機能２０の生成部２４により生成される第１システム発話である。ユーザ端末９０はこの第１システム発話をチャットルーム２００内に吹き出し２０２で表示する。チャットルーム２００は、フロント機能２０（生成部２４）に対応するユーザインタフェースである。

その第１システム発話に続いて、そのユーザ発話を処理するボット機能３０が「晴れますが、夜遅くから雨が降ります。」というシステム発話をユーザ端末９０に送信する。このシステム発話はボット機能３０の生成部３２により生成される第２システム発話である。ユーザ端末９０は第２システム発話データに応答して、画面をチャットルーム２００からチャットルーム２１０に切り替えると共に、このチャットルーム２１０内にその第２システム発話を吹き出し２１１で表示する。チャットルーム２１０は、ボット機能３０（生成部３２）に対応するユーザインタフェースである。この第２システム発話を受けてユーザが「気温は？」と入力すると、ユーザ端末９０はそのユーザ発話をチャットルーム２１０内に吹き出し２１２で表示すると共に、そのユーザ発話を対話装置１０に送信する。対話装置１０はそのユーザ発話に応答して「最高気温は２０℃になる見込みです。」というシステム発話をユーザ端末９０に送信する。このシステム発話は、ボット機能３０の生成部３２により生成されるシステム発話であるので、ユーザ端末９０はそのシステム発話をチャットルーム２１０内に吹き出し２１３で表示する。

そのシステム発話に続いてユーザが「赤坂への行き方は？」と入力すると、ユーザ端末９０はそのユーザ発話を対話装置１０に送信する。対話装置１０はそのユーザ発話に応答して「交通案内につなぎます。」というシステム発話をユーザ端末９０に送信する。このシステム発話はフロント機能２０の生成部２４により生成される第１システム発話である。ユーザ端末９０は画面をチャットルーム２１０からチャットルーム２００に切り替え、そのユーザ発話を吹き出し２０３で表示し、その第１システム発話を吹き出し２０４で表示する。

その第１システム発話に続いて、そのユーザ発話を処理するボット機能３０が「交通手段は何を使いますか？」というシステム発話をユーザ端末９０に送信する。このシステム発話は別のボット機能３０の生成部３２により生成される第２システム発話である。ユーザ端末９０は画面をチャットルーム２００からチャットルーム２２０に切り替えると共に、このチャットルーム２２０内にその第２システム発話を吹き出し２２１で表示する。チャットルーム２２０は、該別のボット機能３０（生成部３２）に対応するユーザインタフェースである。この第２システム発話を受けてユーザが「電車」と入力すると、ユーザ端末９０はそのユーザ発話をチャットルーム２２０内に吹き出し２２２で表示すると共に対話装置１０に送信する。対話装置１０はそのユーザ発話に応答して「銀座線の赤坂見附で降りてください」というシステム発話をユーザ端末９０に送信する。このシステム発話は、該別のボット機能３０の生成部３２により生成されるシステム発話であるので、ユーザ端末９０はそのシステム発話をチャットルーム２２０内に吹き出し２２３で表示する。このように、一つのチャットルームは、ユーザと一つのエージェントとの対話履歴を示してもよい。これは、一つの生成部に対応する一つのチャットルームで示される対話が、１以上のユーザ発話と該生成部により生成される１以上のシステム発話とに限定されることを意味する。

図５の例ではチャットルーム２００内の吹き出しの形状がチャットルーム２１０，２２０と異なるが、吹き出しの形状はチャットルーム間で統一されてもよい。あるいは、吹き出しの形状はチャットルーム毎に異なってもよい。あるいは、チャットルーム２００，２１０，２２０の間でフォント、画面色などの他の視覚表現が異なってもよい。

上記実施の形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成要素）は、ハードウェアおよび／またはソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的および／または論理的に結合した一つの装置により実現されてもよいし、物理的および／または論理的に分離した２つ以上の装置を直接的および／または間接的に（例えば、有線および／または無線）で接続し、これら複数の装置により実現されてもよい。

例えば、本発明の一実施の形態における対話装置１０は、本実施形態の処理を行うコンピュータとして機能してもよい。図６は、対話装置１０として機能するコンピュータ１００のハードウェア構成の一例を示す図である。コンピュータ１００は、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、バス１００７などを含んでもよい。

なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。対話装置１０のハードウェア構成は、図に示した各装置を一つまたは複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。

対話装置１０における各機能は、プロセッサ１００１、メモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることで、プロセッサ１００１が演算を行い、通信装置１００４による通信や、メモリ１００２およびストレージ１００３におけるデータの読み出しおよび／または書き込みを制御することで実現される。

プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置（ＣＰＵ：Central Processing Unit）で構成されてもよい。例えば、対話装置１０の少なくとも一部の機能要素はプロセッサ１００１で実現されてもよい。

また、プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュールやデータを、ストレージ１００３および／または通信装置１００４からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、対話装置１０の少なくとも一部の機能要素は、メモリ１００２に格納され、プロセッサ１００１で動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、一つのプロセッサ１００１で実行される旨を説明してきたが、２以上のプロセッサ１００１により同時または逐次に実行されてもよい。プロセッサ１００１は、１以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されてもよい。

メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（Read Only Memory）、ＥＰＲＯＭ（Erasable Programmable ROM）、ＥＥＰＲＯＭ（Electrically Erasable Programmable ROM）、ＲＡＭ（Random Access Memory）などの少なくとも一つで構成されてもよい。メモリ１００２は、レジスタ、キャッシュ、メインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本発明の一実施の形態に係る無線通信方法を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。

ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、ＣＤＲＯＭ（Compact Disc ROM）などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク（例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ－ｒａｙ（登録商標）ディスク）、スマートカード、フラッシュメモリ（例えば、カード、スティック、キードライブ）、フロッピー（登録商標）ディスク、磁気ストリップなどの少なくとも一つで構成されてもよい。ストレージ１００３は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ１００２および／またはストレージ１００３を含むテーブル、サーバその他の適切な媒体であってもよい。

通信装置１００４は、有線および／または無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。例えば、対話装置１０の少なくとも一部の機能要素は通信装置１００４で実現されてもよい。

入力装置１００５は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど）である。出力装置１００６は、外部への出力を実施する出力デバイス（例えば、ディスプレイ、スピーカー、ＬＥＤランプなど）である。なお、入力装置１００５および出力装置１００６は、一体となった構成（例えば、タッチパネル）であってもよい。

また、プロセッサ１００１やメモリ１００２などの各装置は、情報を通信するためのバス１００７で接続される。バス１００７は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。

また、コンピュータ１００は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）、ＦＰＧＡ（Field Programmable Gate Array）などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部または全てが実現されてもよい。例えば、プロセッサ１００１は、これらのハードウェアの少なくとも一つで実装されてもよい。

以上説明したように、本発明の一側面に係る対話装置は、ユーザにより入力されたユーザ発話を取得する取得部と、ユーザ発話に対応するシステム発話を生成する複数の生成部と、複数の生成部から選択された一つの生成部により生成されたシステム発話を出力する出力部とを備え、複数の生成部が、第１シナリオを有する第１生成部と、該第１シナリオとは異なる第２シナリオを有する第２生成部とを含み、出力部が、ユーザ発話に応じて第１生成部により生成された第１システム発話を第１表現形式で出力し、第１システム発話に続けて、ユーザ発話に応じて第２生成部により生成された第２システム発話を、第１表現形式とは異なる第２表現形式で出力する。

他の側面に係る対話装置では、取得部がユーザ端末からユーザ発話を受信し、出力部が、第１システム発話をユーザ端末に送信し、ユーザ端末に要求信号を送信させるための指示データをユーザ端末に送信し、別のユーザ発話を受信することなくユーザ端末から要求信号を受信したことに応答して、第２システム発話をユーザ端末に送信してもよい。このポストバックのような手順により、一つのユーザ発話に対して、２種類のエージェント（生成部）による２種類のシステム発話を連続してユーザ端末に提供することができる。

他の側面に係る対話装置では、出力部が、指示データを第１システム発話と共にユーザ端末に送信してもよい。指示データおよび第１システム発話を一回の送信処理でユーザ端末に提供することで、全体の処理時間と、ユーザ端末および対話装置の双方における処理時間とを短縮することができる。

他の側面に係る対話装置では、第２生成部が、要求信号を受信したことに応答して第２システム発話を生成してもよい。ユーザ端末から要求信号を受信するということは、ユーザ端末も、ユーザ端末と対話装置との間の通信も正常であると推定される。システム環境が正常であると見込まれる場合に初めて第２システム発話を生成することで、その生成処理が無駄になることを回避できる。例えば、生成した第２システム発話をユーザ端末に提供できないという状況を防ぐことができる。

他の側面に係る対話装置では、表現形式が聴覚表現および視覚表現の少なくとも一方で定義されてもよい。この場合には、一つの発話に対して複数の人が応答するような場面を人の聴覚または視覚を介してその人に経験させることができる。

他の側面に係る対話装置では、聴覚表現が、音声および効果音から選択される少なくとも一つを含み、視覚表現が、吹き出し、フォント、文字装飾、画面色、アイコン、キャラクタ、およびチャットルームから選択される少なくとも一つを含んでもよい。このような表現形式により、一つの発話に対して複数の人が応答するような場面を人の聴覚または視覚を介してその人にわかり易く伝えることができる。

他の側面に係る対話装置では、一つの生成部に対応する一つのチャットルームで示される対話が、１以上のユーザ発話と該生成部により生成される１以上のシステム発話とに限定されてもよい。複数の生成部のそれぞれについて専用のチャットルームを用意することで、シナリオ発話の内容に応じてチャットルームが変わるような体験をユーザに提供することができる。

以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨および範囲を逸脱することなく修正および変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。

情報の通知は、本明細書で説明した態様および実施形態に限られず、他の方法で行われてもよい。例えば、情報の通知は、物理レイヤシグナリング（例えば、ＤＣＩ（Downlink Control Information）、ＵＣＩ（Uplink Control Information））、上位レイヤシグナリング（例えば、ＲＲＣ（Radio Resource Control）シグナリング、ＭＡＣ（Medium Access Control）シグナリング、報知情報（ＭＩＢ（Master Information Block）、ＳＩＢ（System Information Block）））、その他の信号またはこれらの組み合わせによって実施されてもよい。また、ＲＲＣシグナリングは、ＲＲＣメッセージと呼ばれてもよく、例えば、ＲＲＣ接続セットアップ（RRC Connection Setup）メッセージ、ＲＲＣ接続再構成（RRC Connection Reconfiguration）メッセージなどであってもよい。

本明細書で説明した各態様／実施形態は、ＬＴＥ（Long Term Evolution）、ＬＴＥ－Ａ（LTE-Advanced）、ＳＵＰＥＲ３Ｇ、ＩＭＴ－Ａｄｖａｎｃｅｄ、４Ｇ、５Ｇ、ＦＲＡ（Future Radio Access）、Ｗ－ＣＤＭＡ（登録商標）、ＧＳＭ（登録商標）、ＣＤＭＡ２０００、ＵＭＢ（Ultra Mobile Broadband）、ＩＥＥＥ８０２．１１（Ｗｉ－Ｆｉ）、ＩＥＥＥ８０２．１６（ＷｉＭＡＸ）、ＩＥＥＥ８０２．２０、ＵＷＢ（Ultra-Wideband）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、その他の適切なシステムを利用するシステムおよび／またはこれらに基づいて拡張された次世代システムに適用されてもよい。

本明細書で説明した各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。

情報等は、上位レイヤ（または下位レイヤ）から下位レイヤ（または上位レイヤ）へ出力され得る。複数のネットワークノードを介して入出力されてもよい。

入出力された情報等は特定の場所（例えば、メモリ）に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

判定は、１ビットで表される値（０か１か）によって行われてもよいし、真偽値（Boolean：trueまたはfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

本明細書で説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行うものに限られず、暗黙的（例えば、当該所定の情報の通知を行わない）ことによって行われてもよい。

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペアおよびデジタル加入者回線（ＤＳＬ）などの有線技術および／または赤外線、無線およびマイクロ波などの無線技術を使用してウェブサイト、サーバ、または他のリモートソースから送信される場合、これらの有線技術および／または無線技術は、伝送媒体の定義内に含まれる。

本明細書で説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、またはこれらの任意の組み合わせによって表されてもよい。

なお、本明細書で説明した用語および／または本明細書の理解に必要な用語については、同一のまたは類似する意味を有する用語と置き換えてもよい。

本明細書で使用する「システム」および「ネットワーク」という用語は、互換的に使用される。

また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。例えば、無線リソースはインデックスで指示されるものであってもよい。

上述したパラメータに使用する名称はいかなる点においても限定的なものではない。さらに、これらのパラメータを使用する数式等は、本明細書で明示的に開示したものと異なる場合もある。様々なチャネル（例えば、ＰＵＣＣＨ、ＰＤＣＣＨなど）および情報要素（例えば、ＴＰＣなど）は、あらゆる好適な名称によって識別できるので、これらの様々なチャネルおよび情報要素に割り当てている様々な名称は、いかなる点においても限定的なものではない。

ユーザ端末および移動通信端末は、当業者によって、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、またはいくつかの他の適切な用語で呼ばれる場合もある。

本明細書で使用する「判断（determining）」、「決定（determining）」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定（judging）、計算（calculating）、算出（computing）、処理（processing）、導出（deriving）、調査（investigating）、探索（looking up）（例えば、テーブル、テーブルまたは別のデータ構造での探索）、確認（ascertaining）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信（receiving）（例えば、情報を受信すること）、送信（transmitting）（例えば、情報を送信すること）、入力（input）、出力（output）、アクセス（accessing）（例えば、メモリ中のデータにアクセスすること）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決（resolving）、選択（selecting）、選定（choosing）、確立（establishing）、比較（comparing）などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。

「接続された（connected）」、「結合された（coupled）」という用語、またはこれらのあらゆる変形は、２またはそれ以上の要素間の直接的または間接的なあらゆる接続または結合を意味し、互いに「接続」または「結合」された２つの要素間に１またはそれ以上の中間要素が存在することを含むことができる。要素間の結合または接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。本明細書で使用する場合、２つの要素は、１またはそれ以上の電線、ケーブルおよび／またはプリント電気接続を使用することにより、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域および光（可視および不可視の両方）領域の波長を有する電磁エネルギーなどの電磁エネルギーを使用することにより、互いに「接続」または「結合」されると考えることができる。

本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

本明細書で「第１の」、「第２の」などの呼称を使用した場合においては、その要素へのいかなる参照も、それらの要素の量または順序を全般的に限定するものではない。これらの呼称は、２つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第１および第２の要素への参照は、２つの要素のみがそこで採用され得ること、または何らかの形で第１の要素が第２の要素に先行しなければならないことを意味しない。

「含む（include）」、「含んでいる（including）」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える（comprising）」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または（or）」は、排他的論理和ではないことが意図される。

本明細書において、文脈または技術的に明らかに一つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。

１０…対話装置、２０…フロント機能、２１…シナリオデータベース、２２…取得部、２３…発話制御部、２４…生成部、２５…出力部、３０…ボット機能、３１…シナリオデータベース、３２…生成部、９０…ユーザ端末、２００，２１０，２２０…チャットルーム。

Claims

ユーザにより入力されたユーザ発話をユーザ端末から受信する取得部と、
前記ユーザ発話に対応するシステム発話を生成する複数の生成部と、
前記複数の生成部から選択された一つの生成部により生成された前記システム発話を出力する出力部と
を備え、
前記複数の生成部が、第１シナリオを有する第１エージェントに対応する第１生成部と、該第１シナリオとは異なる第２シナリオを有する第２エージェントに対応する第２生成部とを含み、
前記出力部が、
前記ユーザ発話に応じて前記第１生成部により生成された前記第１エージェントの第１システム発話を第１表現形式で前記ユーザ端末に送信し、
前記ユーザ端末に要求信号を送信させるための指示データを前記ユーザ端末に送信し、
別のユーザ発話を受信することなく前記ユーザ端末から前記要求信号を受信したことに応答して、前記第１システム発話に続けて、前記ユーザ発話に応じて前記第２生成部により生成された前記第２エージェントの第２システム発話を、前記第１表現形式とは異なる第２表現形式で前記ユーザ端末に送信する、
対話装置。
前記出力部が、前記指示データを前記第１システム発話と共に前記ユーザ端末に送信する、
請求項１に記載の対話装置。
前記第２生成部が、前記要求信号を受信したことに応答して前記第２システム発話を生成する、
請求項１または２に記載の対話装置。
前記表現形式が聴覚表現および視覚表現の少なくとも一方で定義される、
請求項１～３のいずれか一項に記載の対話装置。
前記聴覚表現が、音声および効果音から選択される少なくとも一つを含み、
前記視覚表現が、吹き出し、フォント、文字装飾、画面色、アイコン、キャラクタ、およびチャットルームから選択される少なくとも一つを含む、
請求項４に記載の対話装置。
一つの前記生成部に対応する一つの前記チャットルームで示される対話が、１以上のユーザ発話と該生成部により生成される１以上のシステム発話とに限定される、
請求項５に記載の対話装置。