JP2022047550A

JP2022047550A - 情報処理装置、及び情報処理方法

Info

Publication number: JP2022047550A
Application number: JP2019008895A
Authority: JP
Inventors: 淳己大村; Junki Omura
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2022-03-25
Also published as: WO2020153146A1; US20220051673A1

Abstract

【課題】より適切に対話応答を提供することができるようにする。【解決手段】対話応答を出力する機器ごとのケイパビリティを取得し、対話応答を生成する際のシードとして利用される対話応答フレームから、取得したケイパビリティに応じた対話応答を生成し、生成した対話応答を機器ごとに展開する処理部を備える情報処理装置が提供される。本技術は、例えば、対話応答を設計する対話応答設計機器に適用することができる。【選択図】図１

Description

本技術は、情報処理装置、及び情報処理方法に関し、特に、より適切に対話応答を提供することができるようにした情報処理装置、及び情報処理方法に関する。

近年、ユーザとの対話を行う対話エージェントが利用されている。この種の対話エージェントが搭載されたエージェント機器は、スピーカやディスプレイ、ボディ等の様々な表現手段を有している。そのため、バックエンドでは同一の対話エージェントを利用したとしても、ユーザとのインターフェースは、エージェント機器によって異なる場合がある。

このような場合において、各エージェント機器が保持する表現手段の組み合わせに適合するように対話設計を行う必要があり、対話応答の開発を行う開発者からすれば、手間がかかっていた。

例えば、開発者の労力を減らすための技術として、特許文献１に開示された技術が提案されている。特許文献１では、入力された文章に対して、事前設計された対話ＤＢと単語間の相関を計算して対話生成手段を利用し、設計済み対話ＤＢ及び対話生成手段から、出力する対話を決定している。

特開2005-25602号公報

このように、対話応答の開発を行う開発者にとっては、各エージェント機器が保持する表現手段に応じた対話設計を行うことは手間である。一方で、エージェント機器にとっても、ユーザに対して、保持する表現手段を最大限に利用した対話応答が提供されることが求められる。

本技術はこのような状況に鑑みてなされたものであり、より適切に対話応答を提供することができるようにするものである。

本技術の一側面の情報処理装置は、対話応答を出力する機器ごとのケイパビリティを取得し、前記対話応答を生成する際のシードとして利用される対話応答フレームから、取得した前記ケイパビリティに応じた前記対話応答を生成し、生成した前記対話応答を前記機器ごとに展開する処理部を備える情報処理装置である。

本技術の一側面の情報処理方法は、情報処理装置が、対話応答を出力する機器ごとのケイパビリティを取得し、前記対話応答を生成する際のシードとして利用される対話応答フレームから、取得した前記ケイパビリティに応じた前記対話応答を生成し、生成した前記対話応答を前記機器ごとに展開する情報処理方法である。

本技術の一側面の情報処理装置、及び情報処理方法においては、対話応答を出力する機器ごとのケイパビリティが取得され、前記対話応答を生成する際のシードとして利用される対話応答フレームから、取得された前記ケイパビリティに応じた前記対話応答が生成され、生成された前記対話応答が前記機器ごとに展開される。

本技術の一側面の情報処理装置は、対話応答のイベントが発生した場合に、前記対話応答を生成する際のシードとして利用される対話応答フレームからケイパビリティに応じて生成された前記対話応答を取得し、コンテキストに関するコンテキスト情報を取得し、取得した前記対話応答の中から、前記コンテキストに適合した前記対話応答を選択し、選択した前記対話応答を出力する処理部を備える情報処理装置である。

本技術の一側面の情報処理方法は、情報処理装置が、対話応答のイベントが発生した場合に、前記対話応答を生成する際のシードとして利用される対話応答フレームからケイパビリティに応じて生成された前記対話応答を取得し、コンテキストに関するコンテキスト情報を取得し、取得した前記対話応答の中から、前記コンテキストに適合した前記対話応答を選択し、選択した前記対話応答を出力する情報処理方法である。

本技術の一側面の情報処理装置、及び情報処理方法においては、対話応答のイベントが発生した場合に、前記対話応答を生成する際のシードとして利用される対話応答フレームからケイパビリティに応じて生成された前記対話応答が取得され、コンテキストに関するコンテキスト情報が取得され、取得された前記対話応答の中から、前記コンテキストに適合した前記対話応答が選択され、選択された前記対話応答が出力される。

なお、本技術の一側面の情報処理装置は、独立した装置であってもよいし、１つの装置を構成している内部ブロックであってもよい。

本技術を適用した情報処理装置としての対話応答設計器の一実施の形態の構成の例を示す図である。対話応答設計処理の流れを説明するフローチャートである。汎用対話応答フレームを用いた対話応答の展開の例を示す図である。汎用対話応答フレームを用いた対話応答の生成の例を示す図である。異なるケイパビリティを有するエージェント機器間の変換の第１の例を示す図である。異なるケイパビリティを有するエージェント機器間の変換の第２の例を示す図である。変換後の対話応答のカスタムレイアウトの反映の例を示す図である。 Sequence-to-Sequenceモデルによる任意のケイパビリティの対話応答の生成の例を示す図である。エージェント機器における表現性能に応じた対話応答の切り替えの例を示す図である。本技術を適用した情報処理装置としてのエージェント機器の一実施の形態の構成の例を示す図である。対話応答実行処理の流れを説明するフローチャートである。一般的な対話応答の生成の例を示す図である。具体的な対話応答の生成の例を示す図である。本技術を適用したネットワークシステムの構成の例を示す図である。コンピュータの構成の例を示す図である。

以下、図面を参照しながら本技術の実施の形態について説明する。なお、説明は以下の順序で行うものとする。

１．本技術の実施の形態
２．変形例
３．コンピュータの構成

＜１．本技術の実施の形態＞

（用語の定義）
まず、本技術の詳細な内容を説明する前に、本開示で使用される用語の定義をする。

「対話」とは、人同士、あるいは機械を含めて、発話などの情報をやり取りする行為である。１回のやり取りでは終わらず、複数回のやり取りになる場合も多い。その場合には、これまでのやり取りを考慮したやり取りを選択する必要がある。例えば、対話の形態としては、１対１、１対多、多対多などの形態がある。なお、本開示において、対話とインタラクションは同義語として扱うものとする。

「対話システム」とは、ユーザとの間で何らかの情報をやり取り（対話）できるシステムである。ここで、やり取りは一般に、テキストや発話などを利用した自然言語を利用する場合が多いが、例えばジェスチャやアイコンタクトなど、必ずしも言語に限定されるものではない。

「対話エージェント」とは、対話システムを搭載して展開されたサービスである。対話エージェントの提供方法としては、例えば、電子機器として実際に表示デバイスや身体（ボディ）を有してもよいし、あるいはアプリケーションなどのように、GUI(Graphical User Interface)として提供されてもよい。

「対話応答」とは、対話システムとユーザとの対話において、一方（例えばユーザ）からの発話等に対する他方（例えば対話システム）によるリアクションである。このリアクションとしては、例えば、発話応答や画面応答などがあり、それらの応答を組み合わせてもよい。

なお、以下の説明では、対話システムを「Ｓ」とも表記し、ユーザを「Ｕ」とも表記する。また、「発話応答（音声応答）」は、例えば、TTS(Text To Speech）を利用してテキストを読み上げることで実現されるため、「TTS」とも表記する。「画面応答」は、例えばGUIを表示することで実現されるため、「GUI」とも表記する。

対話応答の具体例：
Ｕ：「天気教えて」
Ｓ：「天気はこちらです」（天気に関するGUIも表示）

「ケイパビリティ」とは、対話エージェントが搭載されたエージェント機器が持つ様々な対話応答の表現手段である。ここで、「ケイパビリティ」には、「インターフェース情報」と「ケイパビリティ情報」が含まれる。

「インターフェース情報」は、エージェント機器が有するインターフェースに関する情報である。「ケイパビリティ情報」は、インターフェースの能力に関する情報である。

「対話応答フレーム」とは、対話システムの対話応答設計書である。以下の説明では、対話応答フレームは、「汎用対話応答」と同義であるものとする。ここでは、「汎用対話応答」に対する「具体対話応答」も定義する。「具体対話応答」は、実際に各対話エージェントが保有する具体的な対話応答データを指すものとする。

以下、図面を参照しながら、本技術の詳細について説明する。

（情報処理装置の構成）
図１は、本技術を適用した情報処理装置としての対話応答設計器の一実施の形態の構成の例を示す図である。

図１において、対話応答設計器１０は、対話応答を設計（生成）して、エージェント機器２０－１乃至２０－Ｎに展開する機器（対話応答生成器）である。対話応答設計器１０は、対話応答設計ツール１０１、対話応答変換関数群１０２、ケイパビリティリスト１０３、及び対話応答ＤＢ１０４を含んで構成される。

対話応答設計ツール１０１は、対話エージェントの開発に関わる開発者１が扱うツール（GUIツール）である。対話応答設計ツール１０１は、例えばウェブアプリケーションや、クライアントツールなどを含み、ここでは、対話応答を一貫して設計するための機能を有する。また、開発者１には、例えば、アプリケーション開発者や、デザイナ（インタラクションデザイナやUIデザイナを含む）、シナリオライタなどが含まれる。

具体的には、対話応答設計ツール１０１の機能としては、例えば、次に示した（ａ１）乃至（ａ５）の機能が含まれる。

（ａ１）展開可能なケイパビリティ、及び展開エージェント一覧の取得
（ａ２）対話応答の設計（汎用対話応答と具体対話応答の設計はどちらでも可能）
（ａ３）汎用対話応答又は具体対話応答から、任意のケイパビリティへの対話応答を生成（対話応答変換モジュールを利用）
（ａ４）自動生成された対話応答の修正
（ａ５）生成された対話応答の保存、及び各エージェント機器２０－１乃至２０－Ｎ（Ｎ：１以上の整数）に対する対話応答の展開

対話応答変換関数群１０２は、汎用対話応答又は具体対話応答に対して、任意のケイパビリティリスト１０３を与えた際に、そのケイパビリティを利用した具体対話応答を生成するためのマッピング関数を保有している。

このマッピング関数には、人手により調整したルールベースによるものと、機械学習による機械学習ベースによるものが含まれる。ルールベースによるマッピング関数は、ルールベースＤＢ１０２Ａに記憶され、機械学習によるマッピング関数は、機械学習ベースＤＢ１０２Ｂに記憶される。

ケイパビリティリスト１０３は、対話応答設計ツール１０１が利用可能なケイパビリティの一覧である。ケイパビリティリスト１０３は、想定するサービスに応じて、当該サービスが対応するケイパビリティのみを表示するなどのフィルタ機能を有する。

対話応答ＤＢ１０４は、対話応答設計ツール１０１により生成された対話応答（のデータ）を記憶する。例えば、対話応答ＤＢ１０４では、生成された対話応答とともに、変換前の対話応答及びその時の入力情報を記録することができる。この入力情報には、例えば、ケイパビリティやコンテキスト情報などが含まれる。

対話応答ＤＢ１０４に記憶されたデータは、機械学習ベースの学習器（対話応答変換学習器１１）が利用したり、あるいは、開発者１が変換情報を解析したりするのに利用できる。

また、対話応答設計ツール１０１が有する機能で、対話応答ＤＢ１０４に記憶されたデータにアクセスすることもできるし、あるいは、汎用的なデータベース（例えば、オープンソースのRDBMS(Relational Database Management System)や商用のRDBMS等）を利用して外部アクセスを提供することができる。

対話応答変換学習器１１は、マッピング情報（マッピング関数）を利用して、対話応答を生成可能なモデルを含む。この学習済みモデルは、その変換部の関数を、対話応答変換関数群１０２の中の関数として登録することができる。

エージェント機器２０－１は、対話エージェントが搭載された電子機器であって、例えば、スマートフォンやスマートスピーカ、ディスプレイ付スピーカ、テレビ受像機、ロボット、ウェアラブル機器、タブレット端末、ディスプレイ装置、パーソナルコンピュータ、その他の家電機器などを含む。

エージェント機器２０－２乃至２０－Ｎは、エージェント機器２０－１と同様に、対話エージェントが搭載された電子機器としてそれぞれ構成される。なお、以下の説明では、エージェント機器２０－１乃至２０－Ｎを特に区別する必要がない場合には、単にエージェント機器２０と称する。

ここで、エージェント機器２０－１乃至２０－Ｎのそれぞれが有するケイパビリティは、異なっており、また、その対話エージェント（サービス）としては、同一のものが搭載されていることを想定するが、異なるサービス群を登録して、所望のサービスに切り替えて設計できるようにしてもよい。

例えば、ある対話エージェント（サービス）として、同一のキャラクタが、様々なケイパビリティを有するエージェント機器２０－１乃至２０－Ｎにそれぞれ展開されることが想定される。

また、ケイパビリティは、インターフェース情報とケイパビリティ情報を含むが、エージェント機器２０－１乃至２０－Ｎにおいては、ケイパビリティとして、同一のインターフェース情報（例えば、ディスプレイ）を有していても、ケイパビリティ情報（例えば、表示方式や画面サイズ等）が異なる場合が想定される。

なお、対話応答設計器１０は、情報処理装置であって、例えば、パーソナルコンピュータやワークステーション、専用のコンソールなどのコンピュータ（例えば、図１５のコンピュータ１０００）として構成される。例えば、対話応答設計器１０において、対話応答設計ツール１０１は、処理部１００（例えば、図１５のCPU１００１）によりプログラムが実行されることで実現される。

また、対話応答設計器１０において、対話応答変換関数群１０２、及び対話応答ＤＢ１０４は、HDD(Hard Disk Drive)や半導体メモリ等の記憶装置（例えば、図１５の記録部１００８）に記憶される。さらに、ケイパビリティリスト１０３は、通信モジュール等の通信部（例えば、図１５の通信部１００９）によって、エージェント機器２０－１乃至２０－Ｎとの間で、所定の規格に準拠した無線通信又は有線通信を行い、各種の情報をそれぞれやりとりすることで取得される。

（対話応答設計処理の流れ）
次に、図２のフローチャートを参照して、対話応答設計ツール１０１により実行される対話応答設計処理の流れを説明する。

ステップＳ１０１において、対話応答設計ツール１０１は、ケイパビリティリスト１０３の取得と選択を行う。

ステップＳ１０２において、対話応答設計ツール１０１は、例えば開発者１からの操作等に応じて、汎用対話応答を利用するかどうかを判定する。

ステップＳ１０２の判定処理で、汎用対話応答を利用すると判定された場合、処理は、ステップＳ１０３に進められる。ステップＳ１０３において、対話応答設計ツール１０１は、汎用対話応答フレームを生成する。

また、ステップＳ１０２の判定処理で、汎用対話応答を利用しないと判定された場合、処理は、ステップＳ１０４に進められる。ステップＳ１０４において、対話応答設計ツール１０１は、例えば開発者１からの操作等に応じて、新規応答を生成するかどうかが判定される。

ステップＳ１０４の判定処理で、新規応答を生成すると判定された場合、処理は、ステップＳ１０５に進められる。ステップＳ１０５において、対話応答設計ツール１０１は、具体対話応答を生成する。

また、ステップＳ１０４の判定処理で、新規応答を生成しないと判定された場合、処理は、ステップＳ１０６に進められる。ステップＳ１０６において、対話応答設計ツール１０１は、対話応答ＤＢ１０４を参照して、既存対話応答の取得と選択を行う。

ステップＳ１０３，Ｓ１０５，又はＳ１０６の処理が終了すると、処理は、ステップＳ１０７に進められる。

ステップＳ１０７において、対話応答設計ツール１０１は、対話応答変換方法の選択と生成を行う。この対話応答変換方法の選択と生成の詳細は、例えば、図４等を参照して後述する。

ステップＳ１０８において、対話応答設計ツール１０１は、例えば開発者１からの操作等に応じて、対話応答の修正を必要かどうかが判定される。

ステップＳ１０８の判定処理で、対話応答の修正が必要であると判定された場合、処理は、ステップＳ１０９に進められる。ステップＳ１０９において、対話応答設計ツール１０１は、対話応答の修正を行う。

ステップＳ１０９の処理が終了すると、処理は、ステップＳ１１０に進められる。また、ステップＳ１０８の判定処理で、対話応答の修正が不要であると判定された場合、処理は、ステップＳ１１０に進められる。

ステップＳ１１０において、対話応答設計ツール１０１は、対話応答を、対話応答ＤＢ１０４へ保存する。

ステップＳ１１１において、対話応答設計ツール１０１は、対話応答を、エージェント機器２０に展開する。

以上、対話応答設計処理の流れを説明した。

ここで、対話応答設計ツール１０１は、例えばエージェントサービスプロバイダ（ASP：Agent Service Provider）向けに提供するツールとされる。ここでの対話エージェントは、同一の対話エージェントであっても、様々なケイパビリティを有するエージェント機器２０に対応することが想定される。

例えば、ある対話エージェント（サービス）は、スマートフォンのアプリケーション、スピーカ、又はディスプレイ付スピーカなど、同一の対話エージェントでありながら、様々なケイパビリティを有するエージェント機器２０に展開されている。

このようなエージェント機器２０に対する対話応答を設計する場合に、同一のユーザ発話に対する対話応答は、内容としては同一の内容となるかもしれないが、各エージェント機器２０のケイパビリティに合わせて調整する必要があるため、開発者１にとっては非常に手間のかかる作業となる。

そこで、対話応答設計ツール１０１においては、汎用対話応答フレームを利用することで、１つの汎用対話応答フレームから、様々なケイパビリティを有するエージェント機器２０に対する対話応答を一括して生成（自動生成）できるような仕組みを提供している。

つまり、汎用対話応答フレームは、汎用の対話応答の仕様に則して記述されたフレーム（ファイル）であり、開発者１は、汎用対話応答フレームを記述するだけで、エージェント機器２０が有するケイパビリティ（表現手段）を意識することなく、対話応答を設計（自動設計）することが可能とされる。

（汎用対話応答フレームを用いた対話応答の展開の例）
図３は、汎用対話応答フレームを用いた対話応答の展開の例を示している。

図３において、対話応答設計器１０は、開発者１により作成された汎用対話応答フレーム１１０と、あらかじめ用意された変換テンプレート１６０を用いて、対話応答を生成し、エージェント機器２０－１乃至２０－７にそれぞれ展開している。

図３の例では、展開先のエージェント機器２０－１乃至２０－７が様々なケイパビリティを有している。そのため、ここではまず、展開先のエージェント機器２０が有するケイパビリティの詳細を説明する。

（ケイパビリティの詳細）
ケイパビリティは、インターフェース情報とケイパビリティ情報を含む。インターフェース情報としては、例えば、ディスプレイ、スピーカ、ロボット、ハプティクス、メッセージ通知、ランプ等を示す情報が含まれる。以下、インターフェース情報とそれに対応するケイパビリティ情報の詳細を、（ｂ１）乃至（ｂ６）に示している。

（ｂ１）ディスプレイ
ディスプレイは、例えば、液晶ディスプレイ（LCD：liquid crystal display)やOLED(Organic Light Emitting Diode)ディスプレイ等の表示装置を表現手段として有する場合に指定される。なお、表示装置には、タッチパネル等の機能が搭載されていてもよい。

インターフェース情報としてディスプレイが指定される場合、ケイパビリティ情報としては、例えば、表示方式や画面サイズ、タッチパネル情報などが指定可能である。

具体的には、表示方式として、例えば、GUIの表示方式として、モノクローム（例えば白黒のモノクロ）又はカラーを示す情報を含めることができる。また、画面サイズには、大型や中型、小型の分類を含めるほか、例えば640×480，1920×1080，3940×2160等の画面解像度を示す情報等を含めてもよい。さらに、タッチパネル情報には、タッチパネルの搭載の有無を示す情報を含めることができる。

例えば、図３において、エージェント機器２０－１，２０－３，２０－４，２０－７（スマートフォン、ディスプレイ付スピーカ、テレビ受像機、スマートグラス）には、インターフェース情報として「ディスプレイ」が指定され、ケイパビリティ情報として表示方式や画面サイズ等が指定される。ここでは、例えば、ケイパビリティ情報として、スマートグラスには「小型」、スマートフォンやディスプレイ付スピーカには「中型」、テレビ受像機には「大型」である画面サイズがそれぞれ指定される。

（ｂ２）スピーカ
スピーカは、音声や音楽等の音を再生する音声出力装置を表現手段として有する場合に指定される。スピーカは、モノラルやステレオに限らず、例えば、複数のチャンネルからなるようにしてもよい。なお、複数のチャンネルとしては、スピーカアレイを利用した指向性スピーカを含む。

インターフェース情報としてスピーカが指定される場合、ケイパビリティ情報としては、例えば、再生方式やサウンドチャンネル数などが指定可能である。具体的には、再生方式として、例えばステレオやモノラル等を示す情報を含めることができる。

例えば、図３において、エージェント機器２０－２，２０－３（スマートスピーカ、ディスプレイ付スピーカ）には、インターフェース情報として「スピーカ」が指定され、ケイパビリティ情報として再生方式等が指定される。ここでは、例えば、ケイパビリティ情報として、スマートスピーカには「モノラル」、ディスプレイ付スピーカには「ステレオ」である再生方式がそれぞれ指定される。

なお、図３では、エージェント機器２０－１，２０－４（スマートフォン、テレビ受像機）は、音声等の音を出力する機能を有しているため、インターフェース情報として「スピーカ」を指定し、「ステレオ」等のケイパビリティ情報を指定してもよい。

（ｂ３）ロボット
ロボットは、例えば、人や動物（ペット）を模した又は近似した形状及び機能を有し、主にアクチュエータにより身体（ボディ）の部位を動かすことで、何らかの動作を自律的に行う装置又は機械を表現手段として有する場合に指定される。ここでは、ロボットは人型や動物型に限定されるものではなく、例えば、ロボットアームやキャタピラカー等が含まれるため、工場等に設置される作業ロボットなども対象に含まれる。

インターフェース情報としてロボットが指定される場合、ケイパビリティ情報としては、例えば、駆動部位や点灯部位などが指定可能である。具体的には、駆動部位として、例えば、頭部、手等を示す情報を含めることができる。例えば、図３において、エージェント機器２０－５（犬型ロボット）には、インターフェース情報として「ロボット」が指定され、ケイパビリティ情報として「頭部」等の駆動部位が指定される。

なお、ここでは、身体を持つロボットを一例に説明したが、物理的な実体を持たなくても、例えば、コンピュータグラフィックス（CG：Computer Graphics）や、仮想現実（VR：Virtual Reality）、拡張現実（AR：Augmented Reality）などで表現される対話エージェントを含めてもよい。

（ｂ４）ハプティクス
ハプティクスは、例えば振動素子等によって、ユーザの皮膚感覚を疑似再現してフィードバックする機能を表現手段として有する場合に指定される。例えば、腕時計型やブレスレット型等のウェアラブル機器により実装される。

インターフェース情報としてハプティクスが指定される場合、ケイパビリティ情報としては、例えば、振動のパターンや強弱などが指定可能である。具体的には、振動のパターンとして、例えば小刻みに震えるパターンや長い振動が続くパターン等を示す情報を含めることができる。また、振動の強弱として、例えば強い振動や、弱い振動等を示す情報を含めることができる。

例えば、図３において、エージェント機器２０－１，２０－６（スマートフォン、スマートウォッチ）には、インターフェース情報として「ハプティクス」が指定され、ケイパビリティ情報として「小刻みに震える」などの振動のパターンが指定される。

（ｂ５）メッセージ通知
メッセージ通知は、例えば電子メールや、ソーシャルネットワークサービス（SNS：Social Networking Service）等のアプリケーションを利用してメッセージを通知する機能を表現手段として有する場合に指定される。このメッセージとしては、例えば、テキストのほか、画像や動画などを伴うようにしてもよい。

インターフェース情報としてメッセージ通知が指定される場合、ケイパビリティ情報としては、例えば、画像や動画等の対応メディアなどが指定可能である。例えば、図３において、エージェント機器２０－１，２０－３（スマートフォン、ディスプレイ付スピーカ）には、インターフェース情報として「メッセージ通知」が指定され、ケイパビリティ情報として「画像」、「動画」である対応メディアが指定される。

（ｂ６）ランプ
ランプは、例えば、LED(Light Emitting Diode)等の光源を表現手段として有する場合に指定される。なお、このLED等の光源（ランプ）によって、点灯や明滅、色、輝度などを変化させることで、各種の情報を表現することが可能である。

インターフェース情報としてランプが指定される場合、ケイパビリティ情報としては、例えば、色の種類や点灯（点滅）のパターン、輝度などが指定可能である。具体的には、例えば、「赤」や「青」等の色の種類、「短い間隔」や「長い間隔」で点灯する等の点滅のパターン、「明るい」や「暗い」等の輝度などを示す情報を含めることができる。

例えば、図３において、エージェント機器２０－５，２０－６（犬型ロボット、スマートウォッチ）には、インターフェース情報として「ランプ」が指定され、ケイパビリティ情報として「青」である色の種類や「短い間隔」である点灯のパターンが指定される。

なお、各エージェント機器２０が有するケイパビリティとしては、１又は複数のインターフェース情報と、１又は複数のケイパビリティ情報を含めることができる。ただし、ケイパビリティに、ケイパビリティ情報を含めるかどうかは任意である。

例えば、エージェント機器２０－１（スマートフォン）は、「ディスプレイ」、「スピーカ」、「ハプティクス」、「メッセージ通知」、及び「ランプ」をインターフェース情報として有し、それらのインターフェース情報に対してケイパビリティ情報をそれぞれ有している。

図３において、対話応答設計器１０では、開発者１により作成された汎用対話応答フレーム１５０を、様々なケイパビリティの対話応答を生成する際のシード（Seed：種）として利用して、あらかじめ用意した変換テンプレート１６０に適用する。これにより、対話応答設計器１０では、様々なケイパビリティを有するエージェント機器２０－１乃至２０－７のそれぞれに適合した対話応答を生成して展開することができる。

（汎用対話応答フレームを用いた対話応答の生成の例）
図４は、汎用対話応答フレームを用いた対話応答の生成の例を示している。

図４においては、汎用対話応答フレーム１５０を用いた対話応答の生成の代表的な例として、変換テンプレート１６０を利用した対話応答（画面応答と発話応答：GUI + TTS）の展開事例を示している。

図４において、汎用対話応答フレーム１５０は、対話行動（ACT）、対話行動タイプ（TYPE）、及び対話行動に対するパラメタ（PRAMS）を記述する。

対話行動（ACT）とは、実際に起動するアプリケーション関数に対するIDを記述する。図４の汎用対話応答フレーム１５０では、対話行動として、「ACT: WETHER-SHOW」を記述しているが、これは、＜アプリケーション名＞ - ＜アプリケーションの実行関数＞、すなわち、"WETHER"であるアプリケーション名と、"SHOW"であるアプリケーションの実行関数を意味している。これには、実行時引数（例えば天気確認における日付情報）は含めない。

対話行動タイプ（TYPE）は、アプリケーションに依存しない一般的な対話行動の種類を記述する。例えば、対話行動タイプとしては、"INFORM"，"ACK"，"ASK"，"EXPLICIT_CONFIRM"，"IMPLICIT_CONFIRM"などを含む。図４の汎用対話応答フレーム１５０では、対話行動タイプとして、「TYPE：INFORM」を記述している。詳しくは後述するが、"INFORM"は、システム側からユーザ側に何らかの情報を提供する行為を指している。

対話行動に対するパラメタ（PRAMS）は、対話行動の実行時に必要なパラメタ情報を記述する。このパラメタ（PRAMS）は、対話行動によって異なり、必須又は任意とすることができる。図４の汎用対話応答フレーム１５０では、パラメタ（天気の情報）として、「DOMAIN：天気」、「DATE：明日」、「PLACE：大崎」、「CONTENTS：[{TEMP：30/24, STATE：晴れ}]」を記述している。

図４において、変換テンプレート１６０は、汎用対話応答フレーム１５０から、具体対話応答を生成するためのものである。この変換テンプレート１６０は、ケイパビリティの組み合わせごとに設計されており、様々な対話応答を生成することができる。

変換テンプレート１６０では、対話行動タイプ（TYPE）が"INFORM"である場合の例を示している。前述した通り、"INFORM"は、対話行動に依存しないため、他の"INFORM"の対話行動にも利用できるように設計されている。変換テンプレート１６０は、変数（例えば、$DATE，$DOMAIN等）を受け付けるようになっており、汎用対話応答フレーム１５０のパラメタ（PRAMS）の値を入力することで、最終的な対話応答を出力することができる。

図４においては、変換テンプレート１６０として、FULL TEXTと、GUI+TEXTの２パターンが用意されている。ここで、FULL TEXTは、受け付けた入力パラメタの値を、テキストのみに変換するものである。変換テンプレート１６０では、FULL TEXT 1とFULL TEXT 2の２種類のFULL TEXT変換用のテンプレートを用意している。

FULL TEXT
1. $DATEの$PLACEの$DOMAINは$CONTENTSです
2. $DATEの$DOMAINは$CONTENTS[0][STATE]です

また、例えばウェブアプリケーションを実行可能であれば、HTML(HyperText Markup Language)文書を、GUI要素として、変換テンプレート１６０を適用してもよい。HTML文書では、前述した場合と同様に、パラメタ（PRAMS）を受け付けることが可能であり、さらに適当な変数の値に応じてコンテンツを切り替えてもよい。

ここで、GUI+TEXTは、受け付けた入力パラメタの値を、GUIとテキストに変換するものである。変換テンプレート１６０では、GUI+TEXT 3とGUI+TEXT 4の２種類のGUI+TEXT変換用のテンプレートを用意している。

GUI+TEXT
3. $DATEの$DOMAINはこちらです + GUI(PARAMS)
4. こちらです + GUI(PARAMS)

<div>
日付：$DATE
場所：$PLACE
気温：$TEMP
</div>
<img src="sunny.png" % if$STATE == "晴れ" %>
<img src="rainy.png" % if$STATE == "雨" %></div>

このGUI+TEXT変換用のテンプレートの例では、$STATEで指定される文字列（例えば"晴れ"や"雨"等）に応じて、天気アイコン（例えば"sunny.png"や"rainy.png"等）を切り替えている。

図４において、図中の右側の変換例では、変換テンプレート１６０を経由することで、様々なケイパビリティに応じた対話応答が生成されている。

例えば、ケイパビリティとして、「スピーカ」であるインターフェース情報を有するエージェント機器２０に対しては、変換テンプレート１６０にて、FULL TEXT変換用のテンプレート（FULL TEXT 1又はFULL TEXT 2）を適用することで、受け付けた入力パラメタの値がテキストのみに変換される。そして、この変換後のテキストは、テキスト読み上げ機能（TTS）により音声に変換され、当該音声が対話応答（発話応答）として出力される。

具体的には、FULL TEXT 1を適用することで、対話応答として、「明日の大崎の天気は晴れ、気温は30/24度です」である発話応答が出力される。また、FULL TEXT 2を適用することで、対話応答として、「明日の天気は晴れです」である発話応答が出力される。

また、例えば、ケイパビリティとして、「ディスプレイ」及び「スピーカ」であるであるインターフェース情報を有するエージェント機器２０に対しては、変換テンプレート１６０にて、GUI+TEXT変換用のテンプレート（GUI+TEXT 3又はGUI+TEXT 4）を適用することで、受け付けた入力パラメタの値がGUIとテキストに変換される。そして、この変換後のテキストは音声に変換され、当該音声がGUIとともに対話応答（画面応答と発話応答）として出力される。

具体的には、GUI+TEXT 3を適用することで、対話応答として、場所や日付や気温、曇りアイコン等のGUIの画面応答とともに、「明日の天気はこちらです」である発話応答が出力される。また、GUI+TEXT 4を適用することで、対話応答として、場所や日付や気温、曇りアイコン等のGUIの画面応答とともに、「こちらです」である発話応答が出力される。

なお、同一のケイパビリティにおいても、複数の対話応答が生成可能であり、最終的な対話応答は、開発者１（例えばアプリケーション開発者）が決定すればよい。また、詳細は後述するが、対話応答設計ツール１０１では、自動生成された対話応答の変更手段も提供している。

（対話行動タイプごとの変換テンプレートの例）
ここで、対話行動タイプ（TYPE）ごとの変換テンプレート１６０の詳細を説明する。対話行動タイプ（TYPE）は、アプリケーション（ドメイン）に依存しない汎用的な行動タイプである。

対話行動タイプ（TYPE）としては、例えば、INFORM，ACK，ASK，EXPLICIT_CONFIRM，IMPLICIT_CONFIRMなどが含まれる。以下、対話行動タイプ（TYPE）ごとの変換テンプレート１６０の詳細を、（ｃ１）乃至（ｃ５）に示している。

（ｃ１）INFORM
TYPE：INFORM
意味：対話システムからユーザに何らかの情報を伝える行動を示す。

変換テンプレート１６０の例：
「$1はこちらです」
「$1は$2です」
「$1は［$2, $3, ... $N］です」

対話応答の例：
「明日の天気は晴れです」
「本日は予定が３件あります１つ目は、XXX, ２つ目はYYYです」

（ｃ２）ACK
TYPE：ACK
意味：ユーザからの何らかの指示に対する応答を意味する。ACK-YES/ACK-NOのように詳細化してもよい。

変換テンプレート１６０の例：
「わかりました」
「承知しました」
「$1, 了解しました」
「わかりません」

対話応答の例：
Ｕ：「アラーム止めて」
Ｓ：「わかりました」

Ｕ：「テレビ消して」
Ｓ：「ＯＫ」

Ｕ：「テレビ消して」
Ｓ：「テレビが応答していません」（ACK-NOに相当）

（ｃ３）ASK
TYPE：ASK
意味：対話システムがユーザの目的の達成（例えば、「天気を確認する」、「レストランを検索する」など）のために、ユーザに問い合わせをする行動を示す。

変換テンプレート１６０の例：
「$1を教えて下さい」
「$1を確認しますか？」
「$1は何ですか？」

対話応答の例：
「どこの天気を確認しますか？」
「いつの予定を確認しますか？」
「好きな料理は何ですか？」

（ｃ４）EXPLICIT_CONFIRM
TYPE：EXPLICIT_CONFIRM
意味：明示的に情報を確認する行動を示す。一般に音声認識などを利用した際に、認識エンジンの信頼性が低い場合などに、ユーザに確認の意味も込めて行う。一般に、INFORM等の他のTYPEの行動と合わせて利用する場合が多い。

変換テンプレート１６０の例：
「$1ですね合っていますか？」
「$1ですね？」

対話応答の例
「中華料理ですね？」、「近場で３件見つかりました」

（ｃ５）IMPLICIT_CONFIRM
TYPE：IMPLICIT_CONFIRM
意味：前述のEXPLICIT_CONFIRMとは異なり、暗黙的に情報をユーザに確認する。暗黙的に行うため、ユーザには、確認に対する応答を求めるわけではないが、対話システムが情報を発話するため、例えば誤って認識されている場合などに、ユーザがそれに気づき、間違いを指摘できるというメリットがある。

変換テンプレート１６０の例：
「$1はこちらです」（INFORMと同一の内容でもよい）
「$1ですねこちらになります」（INFORMと同一の内容でもよい）
「$1ですね $2は何ですか？」（ASKと組み合わせたようなものでもよい）

（応答モダリティ変換）
上述した説明では、対話応答生成として、汎用対話応答フレーム１５０から自動展開する流れを説明したが、ここでは、既に生成された具体対話応答から、他のケイパビリティに変換する流れを説明する。

例えば、初期の段階では、スピーカを有するエージェント機器２０を展開していたが、その後にサービスを拡大して、ディスプレイを有するエージェント機器２０をさらに展開するときなどに、既存の対話応答資源を再利用できるという意味で有用な手段である。

図５及び図６は、異なるケイパビリティを有するエージェント機器２０の間の変換の例を示している。

図５においては、「ディスプレイ」であるケイパビリティ（インターフェース情報）を有するエージェント機器２０－１（スマートフォン）に展開した対話応答を、「スピーカ」であるケイパビリティ（インターフェース情報）を有する他のエージェント機器２０－２（スマートスピーカ）で再利用するための変換の例を示している。

具体的には、エージェント機器２０－１（スマートフォン）では、例えば、ユーザにより「明日の大崎の天気教えて」である発話がなされた場合に、その対話応答の大部分を画面応答（GUI）によって、グラフィカルな情報として表現している。このとき、これと同様の対話応答を、他のエージェント機器２０－２（スマートスピーカ）で行う場合を想定する。

この場合において、エージェント機器２０－２は、「スピーカ」であるインターフェース情報のみを有しているため、グラフィカルな情報は不要である。そのため、ここでは、グラフィカルな情報をテキストとして変換して（変換ルールに従い変換して）、発話応答（TTS）を可能にする。

これにより、エージェント機器２０－２（スマートスピーカ）では、ユーザにより「明日の大崎の天気教えて」である発話がなされた場合に、その対話応答として、「明日の大崎の天気は曇り最高気温は21度です」である発話応答が出力される。

また、図６においては、「スピーカ」であるケイパビリティ（インターフェース情報）を有するエージェント機器２０－２（スマートスピーカ）に展開した対話応答を、「ディスプレイ」であるケイパビリティ（インターフェース情報）を有する他のエージェント機器２０－３（ディスプレイ付スピーカ）で再利用するための変換の例を示している。

具体的には、エージェント機器２０－２（スマートスピーカ）では、例えば、ユーザにより「明日の大崎の天気教えて」である発話がなされた場合、その対話応答として、「明日の大崎の天気は曇り最高気温は21度です」である発話応答が出力される。このとき、これと同様の機能を、他のエージェント機器２０－３（ディスプレイ付スピーカ）で行う場合を想定する。

この場合において、エージェント機器２０－３は、「ディスプレイ」であるインターフェース情報を有しているため、その対話応答をGUIによって、グラフィカルな情報として表現することが可能である。そのため、ここでは、TTSのテキストをGUIのコンポーネントに変換（自動変換）して、グラフィカルな情報を表示可能にしている。

また、ここでは、開発者１によって、変換後の情報（グラフィカルな情報）を最終調整（カスタム）することが可能である。図６の例では、開発者１が最終調整を行うことで、グラフィカルな情報として、場所や日付や天気などの文字情報に対して、曇りアイコンや温度などの画像情報が追加されている。ここでは、土台の対話応答がすでに自動で生成されているため、開発者１は、ゼロから対話応答を設計するよりも作業量を軽減することができる。

これにより、エージェント機器２０－３（ディスプレイ付スピーカ）では、ユーザにより「明日の大崎の天気教えて」である発話がなされた場合に、その対話応答として、場所や日付や天気、曇りアイコンや温度などのグラフィカルな情報を含む画面応答が出力される。

なお、エージェント機器２０－３（ディスプレイ付スピーカ）は、「スピーカ」であるインターフェース情報を有していることから、例えば、対話応答の一部が発話応答により出力されるように調整してもよい。また、図５の例においても、図６の例と同様に、開発者１が最終調整を行ってもよい。また、図５及び図６に例示した変換方法の詳細は後述する。

（ルールベースによる変換アルゴリズム）
異なるケイパビリティを有するエージェント機器２０の間の変換方法としては、当該変換方法をルールとして記載するルールベースの変換アルゴリズムを用いることができる。この変換方法では、ルールベースの変換アルゴリズムをあらかじめ設計しておく必要があるが、調整が容易で、柔軟な対話応答を設計可能である。

なお、ここでは全てを手動で設計する必要はなく、例えばデータ構造に着目して規則性などがある場合にはある程度は自動化することもできる。またこれらの変換は、例えば開発者１などによって、誰でも気軽に追加や編集等の作業を行うことができる。以下、具体例を、（ｄ１）乃至（ｄ２）に示している。

（ｄ１）TTSとGUIの相互変換
発話応答（TTS）と画面応答（GUI）の相互変換では、リスト表記の解析と展開が行われる。このとき、最大リスト項目数などは可変であって、パラメタとして設定可能である。

TTSの例：
「今週の天気は、東京は晴れ、京都は雨、福岡も雨でしょう」

ここでは、テキストのリスト構造が検出される。このリスト構造の検出の際には、専用の検出器により学習してもよいし、人手によりリスト構造のアノテーションをおこなってもよい。なお、スケジュールやToDoリストなど、リスト構造を扱うアプリケーションにも応用が可能である。

GUIの例：
<p>今週の天気</p>
<ul>
<li>東京：晴れ</li>
<li>京都：雨</li>
<li>福岡：雨</li>
</ul>

ここでは、並列情報を解析（例えば形態素解析）し、リスト化して表示する。また、画面応答（GUI）から発話応答（TTS）への変換に際し、HTML文書では、リスト構造が明示的（ul-li）であるため、検出は容易であり、他のケイパビリティへの展開は容易である。

GUI＋TTSの例：
//TTS
「今週の天気は、こちらです」

//GUI
<ul>
<li>東京：晴れ</li>
<li>京都：雨</li>
<li>福岡：雨</li>
</ul>

発話応答（TTS）と画面応答（GUI）の両方を用いる場合には、並列情報を解析してリスト化表示を意識したTTSのテキストを生成する。ここでは、リスト化表示を意識することで、例えば、TTSのテキストを省略することができる。

（ｄ２）簡潔発話応答と、SE(Sound Effect)応答と、GUIとの相互の変換
例えば、対話行動タイプ（TYPE）がACK（ACK-YES/ACK-NO）となる場合には、以下に示すように、様々なシチュエーションで使いまわすことができる。

TTSの例：
Ｕ：「電気消して」
Ｓ：「電気を消しました」

Ｕ：「電気消して」
Ｓ：「電気を消しませんでした」

SEの例：
Ｕ：「電気消して」
Ｓ：「ピコーン」（成功の効果音）

Ｕ：「電気消して」
Ｓ：「ブブー」（失敗の効果音）

GUIの例：
Ｕ：「電気消して」
Ｓ：<img src="OK-mark.png">（成功の画像表示）

Ｕ：「電気消して」
Ｓ：<img src="FAIL-mark.png">（失敗の画像表示）

（変換後の対話応答のカスタムサポート）
HTML等のマークアップ言語を用いる場合には、データ構造とレイアウトデザインを分離できるため、対話応答のカスタムとの相性がよい。特に、HTMLの場合には、CSS(Cascading Style Sheets)等のスタイルシートを利用することで、生成された対話応答のカスタムを容易に行うことができる。

ここで用いるスタイルシートとしては、標準で用意されているものを選択してもよいし、開発者がレイアウトを修正してもよい。図７には、変換後の対話応答のカスタムレイアウトの反映の例を示している。

例えば、HTML文書において、<ul class="custom-list">….</ul>のような構成を用いることで、このcustom-listクラスのCSSを編集するだけで、レイアウトを変更することができる。この場合、データ構造はそのまま利用することができるため、図７のＡ乃至Ｃに示すように、異なるCSSを用いることで、「明日の大崎の天気は曇り最高気温は21度です」である画面応答の表示レイアウトを変えることができる。

（パラメタ調整）
言語や方言、丁寧度などのパラメタを調整するようにしてもよい。方言や丁寧度等を調整することで、画面応答（GUI）で表示されるテキスト（文字）や、発話応答（TTS）で読み上げられるテキストのイントネーションなどが変更可能となる。

（機械学習ベースによる変換アルゴリズム）
ここでは、例えば、機械学習の手法の１つである深層学習（Deep Learning）を用いて、ルールやヒューリスティックに頼らずに対話応答を生成することも可能である。

図８は、Sequence-to-Sequenceモデルによる任意のケイパビリティの対話応答の生成の例を示している。

図８に示したSequence-to-Sequenceモデルでは、現在ある既存の対話応答、又は汎用対話応答フレーム１５０が系列として入力され、所望の対話応答が系列として出力される。具体的には、「大崎は晴れです」であるテキストを入力として、「大崎」であるテキストと、太陽のアイコン（画像）とからなる対話応答が出力される。

ここでは、タグ（図中の「TAG」）として、"HTML"を入力することで、HTML形式の対話応答が出力される。ただし、タグを入力するほか、例えば、ケイパビリティのペアごとに、モデルを学習してもよい。

（コンテキスト利用による動的対話応答生成）
同一のユーザ発話に対しても、コンテキストによっては、対話応答を柔軟にカスタマイズする必要がある。ここでは、コンテキストに関するコンテキスト情報として、例えば、時間帯、人別、距離別、シーン別などに関する情報を含めることができる。以下、コンテキスト情報に応じた対話応答の例を、（ｅ１）乃至（ｅ４）に示している。

（ｅ１）時間帯
ユーザからの発話に応じた対話応答を行うに際して、その時間帯に応じた対話応答を生成することができる。例えば、夜の時間帯である場合において、エージェント機器２０が、ディスプレイにおける表示画面の輝度を下げて画面応答を行ったり、あるいはスピーカからの再生音量を落として発話応答を行ったりするような対話応答を生成することができる。

（ｅ２）人別
その周囲に存在する人物に応じた対話応答を生成することができる。例えば、エージェント機器２０が、その周囲に存在する人に合わせて、一人用、夫婦用、家族用、又はゲスト用などの画面応答や発話応答をするような対話応答を生成することができる。

（ｅ３）距離別
対話を行うユーザとの距離に応じた対話応答を生成することができる。例えば、エージェント機器２０が、ユーザとの距離が離れている場合には、画像サイズや、テキストのフォントサイズを大きくした画面応答を行ったり、あるいはスピーカからの再生音量を上げた発話応答を行ったりするような対話応答を生成することができる。

（ｅ４）シーン別
シーンに応じた対話応答を生成することができる。例えば、ユーザが電車内にいる場合には、エージェント機器２０では、スピーカからの発話応答を、他のケイパビリティ（例えば、電子メールや振動等）による応答に置き換えるような対話応答を生成することができる。

また、例えば、部屋内に客人がいる場合には、エージェント機器２０では、ユーザのプライベートな情報（例えば個人的な予定等）は、画面応答や発話応答の代わりに、対応するメッセージを携帯端末（例えば、ユーザの所持するスマートフォン等）に通知するような対話応答を生成することができる。

なお、ここでは、コンテキスト情報として、時間帯、人別、距離別、シーン別を利用した場合を例示したが、これらは一例であって、例えば、エージェント機器２０のセンサ部で検出されるセンシング情報等の情報に応じた他のコンテキストを用いるようにしてもよい。

（アクセシビリティ対応）
本技術を利用したアクセシビリティへの配慮も可能である。例えば、ディスプレイ、スピーカ、及びハプティクス（例えば振動素子）をケイパビリティ（インターフェース情報）として有しているエージェント機器２０に対して、全てのケイパビリティ（インターフェース情報）の組み合わせの対話応答を生成可能なようにしておく。

これにより、エージェント機器２０においては、アクセシビリティに対応したケイパビリティが選択され、様々なユーザに応じた柔軟なアクセシビリティへの対応が可能になる。

例えば、事前の設定やセンシング情報等に基づき、全盲のユーザに対しては、画面応答（GUI）の機能はオフにして、発話応答（TTS）の機能のみのケイパビリティに切り替えることができる。また、例えば、難聴のユーザに対しては、発話応答（TTS）の機能をオフにして、画面応答（GUI）の機能に切り替えることができる。

（ケイパビリティ情報に応じた出力）
エージェント機器２０は、同一の機器でも、表現性能（例えばCPU(Central Processing Unit)性能や画面解像度、サウンドチャンネル数等）が異なる場合があり、その表現性能の違いはケイパビリティ（ケイパビリティ情報）により表される。そして、エージェント機器２０は、ケイパビリティ情報に応じた対話応答を出力することができる。

図９は、エージェント機器２０における表現性能に応じた対話応答の切り替えの例を示している。

例えば、画面応答としてxxx.mp4である動画ファイルを再生する場合に、その表現性能としてCPU性能が高い等、エージェント機器２０－１（スマートフォン）が高スペックマシンであるときには、動画ファイルをそのまま再生する。

一方で、例えば、表現性能としてCPU性能が低い等、エージェント機器２０－１（スマートフォン）が低スペックマシンであるときには、動画ファイルのサムネイルを利用したり、あるいは動画ファイルから所定の形式（例えばGIF(Graphics Interchange Format)形式）の静止画ファイルを生成したりして、画面応答として静止画を表示する。

このように、対話応答設計器１０では、展開先のエージェント機器２０のケイパビリティ（ケイパビリティ情報）に応じた対話応答（画面応答や発話応答等）を生成して展開することができる。なお、この表現性能に応じた対話応答の変換は、対話応答設計器１０が自動で処理を行ってもよいし、開発者１が明示的に指示してもよい。

（付与応答の利用）
事前に人のデータから学習した対話モデル、あるいは人手による対話設計を利用した対話モデルを利用して、新規対話応答又は既存対話応答に対して、付加情報を含めた付与応答（自動付与応答）を用いることができる。開発者１は、付与応答に関しては何もしなくても利用可能である。また、開発者１は、付与応答に対し、必要に応じてパラメタによる細かい調整も可能である。以下、付与応答の例を、（ｆ１）乃至（ｆ４）に示している。

（ｆ１）新規応答型
新規応答型では、例えば、簡単な事実に関する質問応答（QA：Question Answering）などについては、開発者が対話応答を設定していなくても、応答できるようにする。換言すれば、ビルトインのQA機能を提供しているとも言える。

第１の具体例：
Ｕ：「アメリカの大統領は？」
Ｓ：「XXXXXXXXです」

第２の具体例：
Ｕ：「テレビつけて」
Ｓ：「ピコーン」（効果音）

（ｆ２）新規付与型
新規付与型では、例えば、相槌や簡単な挨拶などの言葉を付与する。付与する言葉の頻度やタイミングは、開発者により設定される。当該タイミングとしては、例えば、ユーザが長く話しているときや、サービスのロードに時間がかかっているときなどが想定される。

第１の具体例：
Ｕ：「今日は楽しいことがあってね」
Ｓ：「うんうん」

第２の具体例：
Ｓ：「ヒマラヤは8848mなんですよ」
Ｕ：「君賢いね！」
Ｓ：「ありがとう！」

（ｆ３）追加付与型
追加付与型では、例えば、自然な発話の再現やバックグラウンドサービスの実行に時間がかかっている場合などに、フィラーを追加したり、簡単な挨拶を付け加えたりする。

第１の具体例：
Ｕ：「渋谷でやっているイベント見せて」
Ｓ：「えっーと、こちらになります」

第２の具体例：
Ｕ：「おはよ今日の予定見せて」
Ｓ：「おはようございます今日の予定は、・・・」

（ｆ４）機能補填型
機能補填型では、例えば、音声認識や意味解析の信頼度が低かった場合に、対話応答に、明示的又は暗黙的な確認情報を付与する。

第１の具体例：
Ｕ：「天気見せて、※○△明日の」（ノイズが入ってしまい音声認識の精度が低いケース）
Ｓ（オリジナル）：「天気はこちらです」＋ GUI
Ｓ（他の第１の例）：「明日の天気はこちらです」＋ GUI
Ｓ（他の第２の例）：「明日ですね明日の天気はこちらです」＋ GUI

以上、対話応答設計器１０の機能を中心に説明した。この対話応答設計器１０では、対話応答を出力するエージェント機器２０ごとのケイパビリティ（インターフェース情報とケイパビリティ情報を含む）が取得され、対話応答を生成する際のシード（種）として利用される汎用対話応答フレーム１５０から、取得されたケイパビリティに応じた対話応答が生成され、生成された対話応答がエージェント機器２０ごとに展開される。

つまり、汎用対話応答フレーム１５０は、汎用の対話応答の仕様に則して記述されたフレーム（ファイル）であり、対話応答設計器１０は、汎用対話応答フレーム１５０、変換テンプレート１６０、及びケイパビリティリスト１０３を入力として、任意のエージェント機器２０に適合した対話応答を出力するジェネレータとして構成される。

これにより、開発者１は、汎用対話応答フレーム１５０を記述するだけで、エージェント機器２０が有するケイパビリティ（表現手段）を意識することなく、対話応答を設計（自動設計）することが可能とされる。そのため、１つの汎用の対話応答の仕様をメンテナンスするだけで、様々なケイパビリティを有するエージェント機器２０に対応することができる。また、例えば、対話エージェントが対応する機器が変化（増減）したときでも柔軟に対応することができる。その結果として、より適切に対話応答を提供することができる。

また、対話応答設計器１０では、特定のエージェント機器２０に向けた設計済みの対話応答を、異なるケイパビリティを有する他のエージェント機器２０の対話応答に変換することができる（上述の「応答モダリティ変換」）。さらに、ビルトインによる対話応答のテンプレートを用いるだけでなく、開発者１がカスタムすることで、エージェント機器２０への展開に際して、細かな対話応答の展開ルールを設計することができる。

なお、上述した特許文献１に開示された技術は、入力された文章に対して、事前設計された対話ＤＢと単語間の相関を計算して対話生成手段を利用し、設計済み対話ＤＢ及び対話生成手段から、出力する対話を決定するものであって、開発者がすべての対話応答を設計しなくても、ある条件下においては対話生成手段を用いることで、開発者の労力を減らそうとしている。

一方で、本開示に係る技術は、対話応答設計器１０によって、様々な表現手段（ケイパビリティ）を有するエージェント機器２０への対話応答の展開による開発者の労力の低減であるため、そのアプローチが異なっている。また、本開示に係る技術は、様々な表現手段（ケイパビリティ）を有するエージェント機器２０を対象としているが、特許文献１に開示された技術は、テキスト表示と音声合成発話を対象としており、その対象が限定的である。

また、特許文献１に開示された技術では、機器に適合したテンプレート展開のような概念は存在せず、対話応答の一部又は全部を、対話生成手段により書き換えるものであって、その点においても、本開示に係る技術と大きく異なっている。さらに、レスポンシブウェブデザインと称される手法が知られているが、このデザイン手法は、ディスプレイ表示に限定したものであり、様々な表現手段（ケイパビリティ）を有するエージェント機器２０を対象とする本開示に係る技術とは異なっている。

（エージェント機器の構成）
ところで、エージェント機器２０では、対話応答設計器１０により展開された対話応答を実行するに際し、展開された対話応答をそのまま出力するだけでなく、ユーザに対して、より適切な対話応答が出力されるようにしてもよい。

図１０は、本技術を適用した情報処理装置としてのエージェント機器の一実施の形態の構成の例を示す図である。

エージェント機器２０は、制御部２００、センサ部２０１、カメラ部２０２、マイク部２０３、記憶部２０４、通信部２０５、電源部２０６、及びインターフェース２０７を含んで構成される。

制御部２００は、例えば、CPU等のプロセッサやFPGA(Field Programmable Gate Array)などから構成される。制御部２００は、各部の動作の制御や各種の演算処理を行う中心的な処理装置である。制御部２００は、対話応答処理部２１１を含む。対話応答処理部２１１は、対話応答に関する処理を行う。

センサ部２０１は、例えば、各種のセンサデバイス等から構成される。センサ部２０１は、ユーザやその周辺などのセンシングを行い、その結果得られるセンシング情報を、制御部２００に供給する。

ここで、センサ部２０１としては、例えば、磁場（磁界）の大きさや方向を検出する磁気センサ、加速度を検出する加速度センサ、角度（姿勢）や角速度、角加速度を検出するジャイロセンサ、近接するものを検出する近接センサなどを含めることができる。

センサ部２０１にはまた、温度を検出する温度センサや、湿度を検出する湿度センサ、周囲の明るさを検出する環境光センサなどの周囲の環境を測定するためのセンサや、呼吸や脈拍、指紋、虹彩などの生体情報を検出する生体センサなどを含めることができる。

カメラ部２０２は、例えばCMOS(Complementary Metal Oxide Semiconductor)イメージセンサやCCD(Charge Coupled Device)イメージセンサ等のイメージセンサと、カメラISP(Image Signal Processor)等の信号処理部を含んで構成される。カメラ部２０２では、イメージセンサによって被写体を撮像して得られる撮像信号に対し、信号処理部が各種の信号処理を行うことで得られる画像情報が生成され、制御部２００に供給される。

マイク部２０３は、外部からの音（音声）を電気信号に変換し、その結果得られる音声情報を、制御部２００に供給する。

記憶部２０４は、例えば半導体メモリやHDD(Hard Disk Drive)などの記憶装置から構成される。記憶部２０４は、制御部２００からの制御に従い、各種のデータを記憶する。なお、記憶部２０４には、対話応答設計器１０により展開された対話応答（以下、展開済み具体対話応答ともいう）をデータベース（後述する図１２又は図１３の展開済み具体対話応答ＤＢ２５０）として記憶することができる。

通信部２０５は、所定の規格に準拠した無線通信又は有線通信に対応した通信モジュールなどから構成される。この通信モジュールとしては、例えば、無線LAN(Local Area Network)や、セルラ方式の通信（例えばLTE-Advancedや5G等）等の通信方式に対応したものとされる。通信部２０５は、制御部２００からの制御に従い、各種の情報を、他の機器（例えば、対話応答設計器１０）との間でやりとりする。

電源部２０６は、制御部２００からの制御に従い、外部電源又は蓄電池から得られる電源電力を、制御部２００を含むエージェント機器２０の各部に供給する。

インターフェース２０７は、ユーザ２との間で情報をやりとりするためのユーザインターフェースである。換言すれば、インターフェース２０７は、エージェント機器２０が持つ様々な対話応答の表現手段であると言える。

例えば、インターフェース２０７は、ディスプレイ２２１、スピーカ２２２、振動素子２２３、又はランプ２２４などの表現手段を含む。この表現手段は、エージェント機器２０ごとに同一又は異なるものであって、エージェント機器２０ごとに、１つの表現手段に限らず、複数の表現手段を設けてもよい。そして、エージェント機器２０においては、インターフェース２０７（ディスプレイ２２１等の表現手段）に応じたインターフェース情報とケイパビリティ情報がケイパビリティとされるのである。

なお、図１０に示した構成は一例であって、すべての構成要素を備える必要はなく、例えば、カメラ部２０２やマイク部２０３などの一部の構成要素を除いた構成としてもよい。あるいは、図１０に示した構成に対して、例えば、GPS(Global Positioning System)信号を含む位置情報を検出するための位置情報検出部などの他の構成要素を加えてもよい。

（対話応答実行処理の流れ）
次に、図１１のフローチャートを参照して、エージェント機器２０により実行される対話応答実行処理の流れを説明する。

ただし、図１１に示した処理を実行するに際して、エージェント機器２０には、対話応答設計器１０により展開された展開済み具体対話応答が、記憶部２０４（後述する図１２等の展開済み具体対話応答ＤＢ２５０）に記憶されているものとする。

ステップＳ２０１において、対話応答処理部２１１は、対話応答イベントが発生したかどうかを判定する。この対話応答イベントは、対話応答システムが対話応答を実際に実行し、表出させる原因（トリガ）となるイベントである。

対話応答イベントとしては、ユーザ２からの発話が一般的ではあるが、対話応答システムが能動的に検出したユーザ情報や、別サービスからのイベントフックなども該当する。前者のユーザ情報としては、例えば、「帰宅したら音楽を再生しよう」等の情報が含まれる。また、後者のイベントフックとしては、例えば、ユーザがスケジュール管理のアプリケーションで登録した予定になったときなどが含まれる。

ステップＳ２０１の判定処理で、対話応答イベントが発生したと判定された場合、処理は、ステップＳ２０２に進められる。

ステップＳ２０２において、対話応答処理部２１１は、展開済み具体対話応答の中から、発生した対話応答イベントに対応する対話応答を選択する。ここで選択される対話応答は、１つに限らず、複数選択されてもよい。すなわち、エージェント機器２０ごとのケイパビリティの違いによって、該当する対話応答が複数存在する場合などが想定される。以下、ここで選択された対話応答を、特に候補対話応答と称する。

ステップＳ２０３において、対話応答処理部２１１は、コンテキスト情報を取得する。このコンテキスト情報としては、例えば、現在のユーザの状況、エージェント機器２０の状態、周辺の環境状態、対話履歴など、コンテキストに関する様々な情報が含まれる。例えば、コンテキスト情報は、ユーザ設定やセンシング情報、外部のサービス等の情報に基づき、取得することができる。

ステップＳ２０４において、対話応答処理部２１１は、取得したコンテキスト情報に基づいて、コンテキストに合致していない対話応答を、候補対話応答から除外する。

ここでは、例えば、ユーザが全盲の場合には、ケイパビリティ（インターフェース情報）に応じてディスプレイは使用不可として、候補対話応答から対応する対話応答を除外する。また、例えば、時間帯が夜の遅い時間の場合には、スピーカは使用不可として対応する対話応答を除外する。あるいは、例えば、エージェント機器２０の周辺に大型のディスプレイ装置が設置されている場合には、当該ディスプレイ装置を利用するとして、他のディスプレイ装置に関する対話応答を除外する。

ステップＳ２０５において、対話応答処理部２１１は、候補対話応答が１件以上存在するかどうかを判定する。ステップＳ２０５において、候補対話応答が１件以上存在すると判定された場合、処理は、ステップＳ２０６に進められる。

ステップＳ２０６において、対話応答処理部２１１は、取得したコンテキスト情報に基づいて、候補対話応答の中から、コンテキストに最も合致した対話応答を選択する。

ここでは、例えば、候補対話応答の中から、コンテキストの条件に最も即した対話応答を選択できる。あるいは、例えば、ケイパビリティを最大限活用する対話応答を選択したり、最も消費電力が抑えられる対話応答を選択したりするなど、開発者１が自由に選択方針（ポリシー）を設定してもよい。

一方で、ステップＳ２０５において、候補対話応答が存在しないと判定された場合、処理は、ステップＳ２０７に進められる。

ステップＳ２０７において、対話応答処理部２１１は、ステップＳ２０４の処理でのコンテキスト適用前の候補対話応答を再取得する（取得し直す）。

すなわち、ここでは、コンテキストに沿った事前定義済みの対話応答が存在しなかったため、一度コンテキストは無視して、該当する対話応答を取り戻している。換言すれば、ここでは、コンテキストフィルタを取り除いているとも言える。

ステップＳ２０８において、対話応答処理部２１１は、ビルトイン機能によって（汎用的な処理を行うためにあらかじめ用意されたコンテキストを用いて）、対話応答へのコンテキストの適用を行い、具体対話応答を再生成する（生成し直す）。

ここでは、例えば、コンテキストに応じた対話応答になるように調整（自動調整）がなされる。すなわち、上述した「コンテキスト利用による動的対話応答生成」に示した場合と同様に、例えば、時間帯や人別、距離別、シーン別などに応じて、動的に具体対話応答が生成される。

なお、コンテキストの利用による対話応答の設計は、事前に開発者１（アプリケーション開発者）が行ってもよいし、あるいは、対応するコンテキスト対応済みの対話応答が存在しない場合には、対話システム側で（自動で）サポートするような形式を採用してもよい。

また、このビルトイン機能がない場合、あるいはビルトイン機能を使用しても完全にコンテキストに沿った対話応答を生成できない場合には、例えば、次のような処理を行うことができる。すなわち、対話応答処理部２１１では、コンテキストを最も満たせる対話応答を選択するほか、例えば、対話応答ができない旨を伝える応答（通知）が生成されるようにしてもよい。この応答としては、例えば、「現在その機能を実行できません」であるメッセージを出力したり、あるいは、LEDを赤く点滅させたりすることができる。

ステップＳ２０６又はＳ２０８の処理が終了すると、処理は、ステップＳ２０９に進められる。ステップＳ２０９において、対話応答処理部２１１は、インターフェース２０７を介して対話応答を出力する。これにより、ユーザ２は、エージェント機器２０から出力される対話応答を認識することができる。

以上、対話応答実行処理の流れを説明した。

ここで、図１２及び図１３には、図１１に示した対話応答実行処理の各処理を模式的に表している。図１２は、一般的な対話応答の生成の例を示している。

図１２において、エージェント機器２０では、対話応答イベントが発生した場合（図１１のＳ２０１の「YES」）に、展開済み具体対話応答ＤＢ２５０から、対話応答イベントに応じた展開済み具体対話応答が取得される（図１１のＳ２０２）。

このとき、エージェント機器２０では、ユーザ設定やセンシング情報、外部のサービス等の情報に基づき、コンテキスト情報が取得され（図１１のＳ２０３）、当該コンテキスト情報に基づき、コンテキストに合致した対話応答がフィルタリングされる（図１１のＳ２０４）。

そして、エージェント機器２０では、候補対話応答が１件以上存在する場合には、候補対話応答の中から選択された対話応答を出力する（図１１のＳ２０６，Ｓ２０９）。一方で、候補対話応答が存在しない場合には、対話応答へのコンテキストの適用を行うことで具体対話応答を再生成して出力する（図１１のＳ２０７乃至Ｓ２０９）。

なお、ここでは、エージェント機器２０内で処理を実行するだけでなく、例えば、クラウド経由でコンテキストに応じた動的な対話応答の生成などの処理が行われるようにしてもよい。

また、図１３は、対話応答イベントとして、「天気教えて」であるユーザ２からの発話を受けた場合における対話応答の生成の例を示している。

図１３において、エージェント機器２０－３（ディスプレイ付スピーカ）では、「天気教えて」であるユーザ発話が、対話応答イベントとして発生した場合（図１１のＳ２０１の「YES」）、展開済み具体対話応答ＤＢ２５０から、当該対話応答イベントに対応する展開済み具体対話応答として２件の対話応答が取得される（図１１のＳ２０２）。

１件目の対話応答は、「ディスプレイ」と「スピーカ」であるケイパビリティに応じた画面応答（GUI）と発話応答（TTS）によるものである。一方で、２件目の対話応答は、「スピーカ」であるケイパビリティに応じた発話応答（TTS）によるものである。

このとき、エージェント機器２０－３では、センシング情報等の情報に基づき、コンテキスト情報が取得され、ユーザ２は現在キッチンで目が離せない状況、すなわち、エージェント機器２０－３には目を向けていない状況であることが認識される（図１１のＳ２０３）。そのため、２件の対話応答のうち、画面応答（GUI）を含む１件目の対話応答をコンテキストに合致していないものとして除外する（図１１のＳ２０４）。

これにより、エージェント機器２０では、２件目の対話応答（発話応答（TTS））がコンテキストに最も合致した対話応答であるとして選択され（図１１のＳ２０６）、対話応答として、「天気は晴れます」である発話応答が出力される（図１１のＳ２０９）。

以上のように、エージェント機器２０では、対話応答のイベントが発生した場合に、対話応答を生成する際のシード（種）として利用される汎用対話応答フレーム１５０からケイパビリティ（インターフェース情報とケイパビリティ情報を含む）に応じて生成された対話応答が取得され、コンテキストに関するコンテキスト情報が取得され、取得された対話応答の中から、コンテキストに適合した対話応答が選択され、選択された対話応答が出力される。

ところで、エージェント機器２０が有するケイパビリティに選択肢が多いほど、その対話応答の表現により多くの情報量を載せることができる。本技術では、コンテキスト情報やケイパビリティ情報に応じて、表現すべき機器や対話応答を変化させるようなモダリティ変換を行うことができるが、ここでは、特に、その変換時に、エージェント機器２０ごとの表現能力（ケイパビリティ情報）が大きくかわるとき（大差があるとき）のモダリティ変換について説明する。

（ｇ１）表現能力が大きいものから小さいものに変換
表現能力が大きいもの（SRC：Source）から小さいもの（DST：Destination）に変換する場合には、情報量を落とすか、あるいは他のデバイスなどと連携して情報量を維持する方法が想定される。

ここでは、エージェント機器２０－４（テレビ受像機）がSRCとなり、エージェント機器２０－６（スマートウォッチ）がDSTとなる場合を想定して例示する。

なお、テレビ受像機では、ケイパビリティとして、「ディスプレイ」、「スピーカ」であるインターフェース情報と、「ディスプレイ」に対する「大型（高解像度）」である画面サイズ（画面解像度）のケイパビリティ情報を含む。また、スマートウォッチは、「ディスプレイ」、「ハプティクス」、「ランプ」であるインターフェース情報と、「ディスプレイ」に対する「小型（超低解像度）」である画面サイズ（画面解像度）のケイパビリティ情報を含む。

このとき、スマートウォッチにおいて、テレビ受像機に対する対話応答に応じた画面応答（GUI）のみを行う場合には、例えば、対話応答に応じた情報を表示する際の解像度を落としたり、分割して表示したりすることでGUIの表示が可能となる。この分割表示としては、例えば、分割した情報を、スライドショーにより表示したり、ユーザ２のタッチ操作で表示を切り替えたりすることができる。

また、スマートウォッチにおいては、画面応答（GUI）を、当該応答に関するアイコンや簡単な説明の表示に留めて、他のデバイスを利用して情報を伝えるようにしてもよい。

具体的には、スマートウォッチでは、例えば天気予報の表示であれば、天気予報を提供するアプリケーションのアイコンや、”天気”という文字列だけを表示する一方で、スマートフォンと連携する場合には、そのディスプレイを利用して天気予報の詳細な情報を表示することができる。あるいは、付近に設置されたスピーカや、近距離無線通信（例えばBluetooth（登録商標））に対応したイヤホンなどに対して、画面応答（GUI）から発話応答（TTS）への変換を行い、天気予報の詳細な情報（画面応答に相当する情報）を、発話応答により出力してもよい。

（ｇ２）表現能力が小さいものから大きいものに変換
表示能力が小さいもの（SRC）から大きいもの（DST）に変換する場合には、そのまま情報量を維持して対話応答を出力することができる。そのため、余剰能力に情報を付与してもよいし、オリジナルの対話応答に対して情報量を付与してもよい。勿論、何ら情報量を付与しないまま、オリジナルの対話応答を維持してもよい。

ここでは、エージェント機器２０－６（スマートウォッチ）がSRCとなり、エージェント機器２０－４（テレビ受像機）がDSTとなる場合を想定して例示する。

このとき、テレビ受像機において、スマートウォッチに対する対話応答に情報量を付与して画面応答（GUI）を行う場合には、例えば、ユーザ２から「今日の天気」を質問された場合には、今日の天気に関する情報を表示するとともに、今週の天気や付近の天気、雨雲レーダなどの情報を、余ったスペースに表示することができる。

また、ここでは、今日の天気に関する情報とともに、コンテキスト情報等の情報に基づき、例えば、ユーザ２の今日の予定や、頻繁に起動するアプリケーションの応答や広告などの情報を、余ったスペースに表示してもよい。さらには、テレビ受像機では、TTSを利用した音声により、例えば、ユーザに挨拶をしたり、今日の占いなどを伝えたりしてもよい。

＜２．変形例＞

図１４は、本技術を適用したネットワークシステムの構成の例を示す図である。

図１４のネットワークシステムは、対話応答設計器１０、エージェント機器２０－１乃至２０－Ｎ、及びサーバ３０を含んで構成され、インターネット等のネットワーク４０を介して相互に接続されている。

対話応答設計器１０において、対話応答設計ツール１０１の機能（の一部又は全部）がネットワーク４０を介してサーバ３０により提供されるようにしてもよい。また、対話応答変換関数群１０２、及び対話応答ＤＢ１０４は、サーバ３０により管理され、ネットワーク４０を介して、対話応答設計器１０（の対話応答設計ツール１０１）が適宜アクセスするようにしてもよい。また、対話応答変換学習器１１は、サーバ３０により提供されるようにしてもよい。

エージェント機器２０において、対話応答処理部２１１の機能（の一部又は全部）がネットワーク４０を介してサーバ３０により提供されるようにしてもよい。また、エージェント機器２０により提供される対話システムの機能の一部（例えば、音声認識や意味解析等の機能）が、ネットワーク４０を介してサーバ３０により提供されるようにしてもよい。

また、展開済み具体対話応答ＤＢ２５０がサーバ３０により管理され、ネットワーク４０を介して、エージェント機器２０（の対話応答処理部２１１）が適宜アクセスするようにしてもよい。さらに、エージェント機器２０は、ネットワーク４０を介して対話応答設計器１０と通信を行い、ケイパビリティを送信したり、あるいは対話応答を受信したりしてもよい。

＜３．コンピュータの構成＞

上述した一連の処理（例えば、図２に示した対話応答設計処理、又は図１１に示した対話応答実行処理）は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、各装置のコンピュータにインストールされる。図１５は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成の例を示す図である。

コンピュータ１０００において、CPU(Central Processing Unit)１００１、ROM(Read Only Memory)１００２、RAM(Random Access Memory)１００３は、バス１００４により相互に接続されている。バス１００４には、さらに、入出力インターフェース１００５が接続されている。入出力インターフェース１００５には、入力部１００６、出力部１００７、記録部１００８、通信部１００９、及び、ドライブ１０１０が接続されている。

入力部１００６は、マイクロフォン、キーボード、マウスなどよりなる。出力部１００７は、スピーカ、ディスプレイなどよりなる。記録部１００８は、ハードディスクや不揮発性のメモリなどよりなる。通信部１００９は、ネットワークインターフェースなどよりなる。ドライブ１０１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体１０１１を駆動する。

以上のように構成されるコンピュータ１０００では、CPU１００１が、ROM１００２や記録部１００８に記録されているプログラムを、入出力インターフェース１００５及びバス１００４を介して、RAM１００３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ１０００（CPU１００１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体１０１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。

コンピュータ１０００では、プログラムは、リムーバブル記録媒体１０１１をドライブ１０１０に装着することにより、入出力インターフェース１００５を介して、記録部１００８にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部１００９で受信し、記録部１００８にインストールすることができる。その他、プログラムは、ROM１００２や記録部１００８に、あらかじめインストールしておくことができる。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであってもよいし、複数のコンピュータによって分散処理されてもよい。

なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

また、上述した処理の各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

なお、本技術は、以下のような構成をとることができる。

（１）
対話応答を出力する機器ごとのケイパビリティを取得し、
前記対話応答を生成する際のシードとして利用される対話応答フレームから、取得した前記ケイパビリティに応じた前記対話応答を生成し、
生成した前記対話応答を前記機器ごとに展開する
処理部を備える
情報処理装置。
（２）
前記ケイパビリティは、前記機器が有するインターフェースに関するインターフェース情報と、前記インターフェースの能力に関するケイパビリティ情報を含む
前記（１）に記載の情報処理装置。
（３）
前記対話応答フレームは、汎用の対話応答の仕様に則して記述されたフレームである
前記（１）又は（２）に記載の情報処理装置。
（４）
前記処理部は、前記対話応答フレームを、前記ケイパビリティの組み合わせごとの変換用のテンプレートを含む変換テンプレートに適用して、前記対話応答を生成する
前記（３）に記載の情報処理装置。
（５）
前記処理部は、前記ケイパビリティに応じた前記対話応答を、他のケイパビリティに応じた前記対話応答に変換する
前記（１）乃至（４）のいずれかに記載の情報処理装置。
（６）
前記処理部は、ルールベースによる変換アルゴリズム、又は機械学習ベースによる変換アルゴリズムを用いて、前記対話応答を変換する
前記（５）に記載の情報処理装置。
（７）
前記処理部は、
コンテキストに関するコンテキスト情報に基づいて、前記ケイパビリティを選択し、
選択した前記ケイパビリティに応じた前記対話応答を生成する
前記（１）乃至（６）のいずれかに記載の情報処理装置。
（８）
前記処理部は、
アクセシビリティに対応した前記ケイパビリティを選択し、
選択した前記ケイパビリティに応じた前記対話応答を生成する
前記（１）乃至（７）のいずれかに記載の情報処理装置。
（９）
前記処理部は、前記対話応答に対して付加情報を含める
前記（１）乃至（８）のいずれかに記載の情報処理装置。
（１０）
情報処理装置が、
対話応答を出力する機器ごとのケイパビリティを取得し、
前記対話応答を生成する際のシードとして利用される対話応答フレームから、取得した前記ケイパビリティに応じた前記対話応答を生成し、
生成した前記対話応答を前記機器ごとに展開する
情報処理方法。
（１１）
対話応答のイベントが発生した場合に、前記対話応答を生成する際のシードとして利用される対話応答フレームからケイパビリティに応じて生成された前記対話応答を取得し、
コンテキストに関するコンテキスト情報を取得し、
取得した前記対話応答の中から、前記コンテキストに適合した前記対話応答を選択し、
選択した前記対話応答を出力する
処理部を備える
情報処理装置。
（１２）
前記ケイパビリティは、インターフェースに関するインターフェース情報と、前記インターフェースの能力に関するケイパビリティ情報を含む
前記（１１）に記載の情報処理装置。
（１３）
前記対話応答フレームは、汎用の対話応答の仕様に則して記述されたフレームである
前記（１１）又は（１２）に記載の情報処理装置。
（１４）
前記対話応答は、前記対話応答フレームを、前記ケイパビリティの組み合わせごとの変換用のテンプレートを含む変換テンプレートに適用することで生成される
前記（１３）に記載の情報処理装置。
（１５）
前記処理部は、取得した前記対話応答が１以上存在する場合、取得した前記対話応答の中から、前記コンテキストに最も合致した前記対話応答を選択する
前記（１１）乃至（１４）のいずれかに記載の情報処理装置。
（１６）
前記処理部は、取得した前記対話応答が存在しない場合、あらかじめ用意されたコンテキストに応じた前記対話応答を生成する
前記（１１）乃至（１５）のいずれかに記載の情報処理装置。
（１７）
前記イベントは、ユーザの発話を含み、
前記コンテキスト情報は、前記ユーザの状態に関する情報を含む
前記（１１）乃至（１６）のいずれかに記載の情報処理装置。
（１８）
情報処理装置が、
対話応答のイベントが発生した場合に、前記対話応答を生成する際のシードとして利用される対話応答フレームからケイパビリティに応じて生成された前記対話応答を取得し、
コンテキストに関するコンテキスト情報を取得し、
取得した前記対話応答の中から、前記コンテキストに適合した前記対話応答を選択し、
選択した前記対話応答を出力する
情報処理方法。

１０対話応答設計機器，１１対話応答変換学習器，２０，２０－１乃至２０－Ｎエージェント機器，３０サーバ，４０ネットワーク，１００制御部，１０１対話応答設計ツール，１０２対話応答変換関数群，１０２ＡルールベースＤＢ，１０２Ｂ機械学習ベースＤＢ，１０３ケイパビリティリスト，１０４対話応答ＤＢ，１５０汎用対話応答フレーム，１６０変換テンプレート，２００制御部，２０１センサ部，２０２カメラ部，２０３マイク部，２０４記憶部，２０５通信部，２０６電源部，２０７インターフェース，２１１対話応答処理部，２２１ディスプレイ，２２２スピーカ，２２３振動素子，２２４ランプ，２５０展開済み具体対話応答ＤＢ，１０００コンピュータ，１００１ CPU

Claims

対話応答を出力する機器ごとのケイパビリティを取得し、
前記対話応答を生成する際のシードとして利用される対話応答フレームから、取得した前記ケイパビリティに応じた前記対話応答を生成し、
生成した前記対話応答を前記機器ごとに展開する
処理部を備える
情報処理装置。
前記ケイパビリティは、前記機器が有するインターフェースに関するインターフェース情報と、前記インターフェースの能力に関するケイパビリティ情報を含む
請求項１に記載の情報処理装置。
前記対話応答フレームは、汎用の対話応答の仕様に則して記述されたフレームである
請求項１に記載の情報処理装置。
前記処理部は、前記対話応答フレームを、前記ケイパビリティの組み合わせごとの変換用のテンプレートを含む変換テンプレートに適用して、前記対話応答を生成する
請求項３に記載の情報処理装置。
前記処理部は、前記ケイパビリティに応じた前記対話応答を、他のケイパビリティに応じた前記対話応答に変換する
請求項１に記載の情報処理装置。
前記処理部は、ルールベースによる変換アルゴリズム、又は機械学習ベースによる変換アルゴリズムを用いて、前記対話応答を変換する
請求項５に記載の情報処理装置。
前記処理部は、
コンテキストに関するコンテキスト情報に基づいて、前記ケイパビリティを選択し、
選択した前記ケイパビリティに応じた前記対話応答を生成する
請求項１に記載の情報処理装置。
前記処理部は、
アクセシビリティに対応した前記ケイパビリティを選択し、
選択した前記ケイパビリティに応じた前記対話応答を生成する
請求項１に記載の情報処理装置。
前記処理部は、前記対話応答に対して付加情報を含める
請求項１に記載の情報処理装置。
情報処理装置が、
対話応答を出力する機器ごとのケイパビリティを取得し、
前記対話応答を生成する際のシードとして利用される対話応答フレームから、取得した前記ケイパビリティに応じた前記対話応答を生成し、
生成した前記対話応答を前記機器ごとに展開する
情報処理方法。
対話応答のイベントが発生した場合に、前記対話応答を生成する際のシードとして利用される対話応答フレームからケイパビリティに応じて生成された前記対話応答を取得し、
コンテキストに関するコンテキスト情報を取得し、
取得した前記対話応答の中から、前記コンテキストに適合した前記対話応答を選択し、
選択した前記対話応答を出力する
処理部を備える
情報処理装置。
前記ケイパビリティは、インターフェースに関するインターフェース情報と、前記インターフェースの能力に関するケイパビリティ情報を含む
請求項１１に記載の情報処理装置。
前記対話応答フレームは、汎用の対話応答の仕様に則して記述されたフレームである
請求項１１に記載の情報処理装置。
前記対話応答は、前記対話応答フレームを、前記ケイパビリティの組み合わせごとの変換用のテンプレートを含む変換テンプレートに適用することで生成される
請求項１３に記載の情報処理装置。
前記処理部は、取得した前記対話応答が１以上存在する場合、取得した前記対話応答の中から、前記コンテキストに最も合致した前記対話応答を選択する
請求項１１に記載の情報処理装置。
前記処理部は、取得した前記対話応答が存在しない場合、あらかじめ用意されたコンテキストに応じた前記対話応答を生成する
請求項１１に記載の情報処理装置。
前記イベントは、ユーザの発話を含み、
前記コンテキスト情報は、前記ユーザの状態に関する情報を含む
請求項１１に記載の情報処理装置。
情報処理装置が、
対話応答のイベントが発生した場合に、前記対話応答を生成する際のシードとして利用される対話応答フレームからケイパビリティに応じて生成された前記対話応答を取得し、
コンテキストに関するコンテキスト情報を取得し、
取得した前記対話応答の中から、前記コンテキストに適合した前記対話応答を選択し、
選択した前記対話応答を出力する
情報処理方法。