JP7205962B1

JP7205962B1 - 自動対話のためのシステム

Info

Publication number: JP7205962B1
Application number: JP2022165681A
Authority: JP
Inventors: 佐知夫前田
Original assignee: UNIROBOT CORPORATION
Current assignee: UNIROBOT CORPORATION
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2023-01-17
Anticipated expiration: 2042-10-14
Also published as: JP2024058368A

Abstract

【課題】従来技術と比較し、ユーザが効率的に情報交換を行える自動対話の仕組みを提供する。【解決手段】本発明に係るコミュニケーションシステムにおいて、エンドユーザが使用する端末装置は、サーバ装置から提供される自動応答において、ユーザに対しＧＵＩとＶＵＩの両方を同時に提供する。ユーザは、端末装置との間で、画面に表示される情報に対するデータの入力による対話と、音声による対話を適宜、使い分けて、サーバ装置との間で対話を行うことができる。従って、ユーザは、必ずしもサーバ装置の音声に応じた回答を行う必要はなく、ＧＵＩに表示される項目のうち、優先順位の高い項目を選択し、その項目に関する回答をサーバ装置に対し行うことができる。【選択図】図２

Description

本発明は、ユーザと自動対話するシステムに関する。

企業が顧客からの問い合わせに応じたり、企業が顧客に対し情報サービスを提供したりする際の労力、費用等を削減する目的で、近年、チャットボットと呼ばれる自動対話のシステムが普及しつつある。チャットボットは、インターネット等のネットワークを介して、ユーザが端末装置に入力した質問を取得し、その質問に応じた回答を、例えば人工知能を用いて特定し、特定した回答をユーザの端末装置に送信する、という処理を繰り返すことによって、ユーザとの間で情報のやりとりを行う。

例えば、特許文献１には、ユーザ毎に設定を行うことでユーザに応じたサービス提供を行うチャットボット（ソフトウェアロボットプログラム）に関する技術が記載されている。

特開２０１９－１６０１９２号公報

通常、チャットボットとユーザとの対話は、ユーザの発話とチャットボットの発話が交互に繰り返される形で行われる。そのため、ユーザは、知りたい情報をチャットボットから得るために、多くの発話を行わなければならない場合がある。また、ユーザは、チャットボットを介して企業等に提供したい情報をチャットボットに伝えるまでに、多くの対話を行わなければならない場合がある。

上記の事情に鑑み、本発明は、従来技術と比較し、ユーザが効率的に情報交換を行える自動対話の仕組みを提供する。

本発明は、グラフィックユーザインタフェースを表すＧＵＩデータと、対話のシナリオを表すシナリオデータとを記憶する記憶手段と、ユーザが使用する端末装置にＧＵＩデータと、発話の内容を表すシステム発話データとを送信する送信手段と、前記端末装置が前記送信手段から受信したＧＵＩデータを用いて表示したグラフィックユーザインタフェースに対し前記ユーザが入力した入力データと、前記端末装置が当該グラフィックユーザインタフェースを表示しているときに前記ユーザが発話した内容を表すユーザ発話データとを受信する受信手段と、前記受信手段が入力データ又はユーザ発話データを受信すると、前記受信手段が受信した入力データと前記受信手段が受信したユーザ発話データとのいずれかに基づき、前記記憶手段に記憶されているシナリオデータに従い、前記送信手段が前記端末装置に送信すべきシステム発話データを決定する決定手段とを備え、前記送信手段は、前記決定手段が決定したシステム発話データを前記端末装置に送信し、前記記憶手段が記憶しているＧＵＩデータは、複数の異なる項目に関する入力欄を同時に表示し、表示する複数の異なる項目の全てに関し、前記送信手段が前記端末装置に送信するシステム発話データが表す発話の内容に応じた項目であるか否かにかかわらず、前記ユーザによる入力データの入力、及び、前記ユーザによる発話を受け付けるユーザグラフィックユーザインタフェースを表すシステムを提供する。

本発明のシステムを利用するユーザは、ＧＵＩ（Graphical User Interface）とＶＵＩ（Voice User Interface）の両方を適宜使い分けながら、システムと対話できる。その結果、ユーザは、システムとの間で効率的に情報交換を行うことができる。

一実施形態に係るコミュニケーションシステムの全体構成を示した図。一実施形態に係るエンドユーザ端末装置がＵＩ管理サーバ装置から受信するデータに従い表示するＷｅｂページを例示した図。一実施形態に係るＵＩ管理サーバ装置の機能構成を示した図。

［実施形態］
以下に、本発明の一実施形態に係るコミュニケーションシステム１を説明する。図１は、コミュニケーションシステム１の全体構成を示した図である。コミュニケーションシステム１は、ＵＩ（User Interface）管理サーバ装置１１、音声合成サーバ装置１２、音声認識サーバ装置１３、Ｗｅｂ配信サーバ装置１４、管理者端末装置１５、企業ユーザ端末装置１６、及び、エンドユーザ端末装置１７を備える。

管理者端末装置１５、企業ユーザ端末装置１６、及び、エンドユーザ端末装置１７は、通信機能を備えた一般的な端末装置である。これらの端末装置のハードウェアは、プロセッサ、メモリ、通信ＩＦ（Interface）、ディスプレイ、キーボード等の入力デバイスを備えるコンピュータであり、メモリに記憶されているプログラムに従うデータ処理をプロセッサが実行することにより、コミュニケーションシステム１を構成する端末装置として機能する。

また、エンドユーザ端末装置１７のハードウェアは、ユーザとの間で音声による対話を行うために、マイクとスピーカを備えている。

管理者端末装置１５は、ＵＩ管理サーバ装置１１の管理者Ｍが使用する端末装置であり、インターネット等のネットワークを介してＵＩ管理サーバ装置１１と通信を行う。

企業ユーザ端末装置１６は、コミュニケーションシステム１を介してエンドユーザに対し情報提供サービスを行う企業Ｐの職員であるユーザＸ（第２のユーザの一例）が使用する端末装置であり、インターネット等のネットワークを介してＵＩ管理サーバ装置１１及びＷｅｂ配信サーバ装置１４と通信を行う。

エンドユーザ端末装置１７は、コミュニケーションシステム１を介して企業から情報提供サービスを受けるエンドユーザであるユーザＡ（第１のユーザの一例）が使用する端末装置であり、インターネット等のネットワークを介してＵＩ管理サーバ装置１１及びＷｅｂ配信サーバ装置１４と通信を行う。

ＵＩ管理サーバ装置１１、音声合成サーバ装置１２、音声認識サーバ装置１３、及び、Ｗｅｂ配信サーバ装置１４は、一般的なサーバ装置である。これらのサーバ装置のハードウェアは、プロセッサ、メモリ、通信ＩＦ（Interface）を備えるコンピュータであり、メモリに記憶されているプログラムに従うデータ処理をプロセッサが実行することにより、コミュニケーションシステム１を構成するサーバ装置として機能する。

音声合成サーバ装置１２は、ＵＩ管理サーバ装置１１からの要求に応じて、当該要求に含まれるテキストデータが示す文章を人間が発話した場合の音声を表す音声データを、既知の音声合成技術により生成し、生成した音声データをＵＩ管理サーバ装置１１に送信するサーバ装置である。

音声認識サーバ装置１３は、ＵＩ管理サーバ装置１１からの要求に応じて、当該要求に含まれる音声データが表す音声が示す文章を、既知の音声認識技術により認識し、認識した文章を示すテキストデータをＵＩ管理サーバ装置１１に送信するサーバ装置である。

Ｗｅｂ配信サーバ装置１４は、エンドユーザ端末装置１７に対し、Ｗｅｂページを表示するためのデータ（ＨＴＭＬデータ等。以下、「Ｗｅｂページデータ」という。）を送信するサーバ装置である。ユーザＸは、例えば企業ユーザ端末装置１６を用いて、企業ＰのＷｅｂページを表示するためのＷｅｂページデータ（以下、「ＷｅｂページデータＷ」という）をＷｅｂ配信サーバ装置１４にアップロードしている。Ｗｅｂ配信サーバ装置１４は、エンドユーザ端末装置１７からの要求に応じて、ＷｅｂページデータＷをエンドユーザ端末装置１７に送信する。エンドユーザ端末装置１７は、Ｗｅｂ配信サーバ装置１４から受信したＷｅｂページデータＷに従い、企業ＰのＷｅｂページを表示する。

企業ＰのＷｅｂページには、企業Ｐがエンドユーザとの間で行う対話を代行する自動応答用のＷｅｂページ（以下、「自動応答用Ｗｅｂページ」という）へのリンクが含まれている。ユーザＡが、企業ＰのＷｅｂページに表示される所定のボタンに対しクリック、タップ等の操作を行うと、そのボタンにリンクされているＵＲＬ（Uniform Resource Locator）に従い、エンドユーザ端末装置１７はＵＩ管理サーバ装置１１に対しＷｅｂページデータの要求を行う。この要求に応じて、ＵＩ管理サーバ装置１１は、企業Ｐの自動応答用Ｗｅｂページを表示するためのＷｅｂページデータ（以下、「ＷｅｂページデータＺ」という）をエンドユーザ端末装置１７に送信する。エンドユーザ端末装置１７は、ＵＩ管理サーバ装置１１から受信したＷｅｂページデータＺに従い、企業Ｐの自動応答用Ｗｅｂページ（以下、「ＷｅｂページＱ」という）を表示する。

なお、エンドユーザ端末装置１７においてＷｅｂページＱが表示される際、ＷｅｂページＱのリンク元のＷｅｂページは開かれたままでもよいし、閉じられてもよい。また、前者の場合、ＷｅｂページＱがリンク元のＷｅｂページを親ページとする子ページとして、リンク元のＷｅｂページ内に表示されてもよい。また、ＷｅｂページＱのリンク元のＷｅｂページからＷｅｂページＱへの遷移は、エンドユーザによる操作をトリガとせず、リダイレクトにより行われてもよい。

上記のように、ＵＩ管理サーバ装置１１は、エンドユーザ端末装置１７からの要求に応じて、ＷｅｂページＱを表示するためのＷｅｂページデータＺをエンドユーザ端末装置１７に送信するサーバ装置である。図２は、ＵＩ管理サーバ装置１１が送信するＷｅｂページデータＺに従いエンドユーザ端末装置１７が表示するＷｅｂページＱを例示した図である。

ＷｅｂページＱには、エンドユーザがデータを入力するためのテキストボックス、リストボックス、コンボボックス等の入力欄を含む領域Ａ１と、エンドユーザがＷｅｂページＱを介してＵＩ管理サーバ装置１１との間で音声により行った対話の内容（すなわち、エンドユーザ端末装置１７がＵＩ管理サーバ装置１１から受信したシステム発話音声データを用いて発した音声の内容と、当該音声に応じてユーザＡが発話した内容）を示すテキストが表示される領域Ａ２が含まれている。以下、領域Ａ２に表示される情報をチャットログという。

領域Ａ１には、通常、複数の異なる項目に関する入力欄が含まれる。なお、ユーザＡによる入力は、文字等の入力に限られず、例えば選択肢の中からの選択等の、エンドユーザ端末装置１７に対しユーザＡが望む情報を取得させる操作全般を意味する。

図２に例示のＷｅｂページＱは、企業Ｐが経営しているレストランＲの予約受付用のＷｅｂページである。エンドユーザ端末装置１７はＷｅｂページデータＺに従い、ＷｅｂページＱを表示すると、まず、「お名前を教えて下さい。」という音声を発音するとともに、領域Ａ１の「お名前」欄をハイライト表示し、また、領域Ａ２にその発話内容を示すテキストを表示する。

ユーザＡがエンドユーザ端末装置１７からの音声による質問に応じて、例えば「山田花子です。」と発声すると、エンドユーザ端末装置１７は、領域Ａ１内の「お名前」欄に「山田花子」を自動入力するとともに、領域Ａ２にその発話内容を示すテキストを追加表示する。

なお、ユーザＡの音声が誤認識されて、入力欄に誤ったデータが自動入力された場合、ユーザＡはその入力欄に対し文字等の入力操作を行って、誤ったデータの訂正を行うことができる。

続いて、エンドユーザ端末装置１７は、「予約日を教えて下さい。」という音声を発音するとともに、領域Ａ１の「日付」欄をハイライト表示し、また、領域Ａ２にその発話内容を示すテキストを追加表示する。

ユーザＡがエンドユーザ端末装置１７からの音声による質問に応じて、例えば「２月１０日です。」と発声すると、エンドユーザ端末装置１７は、領域Ａ１内の「日付」欄に「２月１０日」を自動入力するとともに、領域Ａ２にその発話内容を示すテキストを追加表示する。

上記のように、ＷｅｂページＱを介してユーザＡとＵＩ管理サーバ装置１１との間の対話が行われ、領域Ａ１に含まれる全ての入力欄に対するデータの入力が完了すると、ＷｅｂページＱに含まれる「予約確定」ボタンがアクティブ化される。ユーザＡが領域Ａ１に入力されているデータを確認し、問題がないと判断して「予約確定」ボタンに対しクリック、タップ等の操作を行うと、ユーザＡによるレストランＲの予約が完了する。

なお、ＷｅｂページＱを介してユーザＡにより行われた予約に関するデータ（名前、日付等）は、ＵＩ管理サーバ装置１１からユーザＸに、例えば電子メール、ＳＮＳ（Social Networking Service）におけるトーク、Ｗｅｂページ等により通知される。

ユーザＡは、上記のように、発声によりＷｅｂページＱに対するデータの入力を行ってもよいし、領域Ａ１の入力欄に対し文字の入力、リスト表示される選択肢のいずれかの選択等の操作を行うことによってデータの入力を行ってもよい。すなわち、ＷｅｂページＱは、ユーザＡに対しＧＵＩとＶＵＩの両方を同時に提供する。そして、ユーザＡは、項目毎に、ＧＵＩとＶＵＩのいずれを用いてデータの入力を行ってもよい。

ところで、ＷｅｂページＱを介した予約において、ユーザＡは必ずしもエンドユーザ端末装置１７から発音される音声に応じた入力欄に対しデータの入力を行う必要はない。

例えば、ユーザＡが、まず希望するコースの選択肢があるかを確認した後に、希望するコースがあればレストランＲへの予約を行いたい、と考えていたとする。この場合、ユーザＡは、名前、日付、人数といった質問に応じる前に、領域Ａ１に表示されている「コース予約」欄に対しクリック、タップ等の操作を行い、メニューボックスを開いて、レストランＲが提供できるコースを確認することができる。もし、メニューボックスにユーザＡが希望するコースの表示がなければ、ユーザＡはレストランＲの予約の作業を中止し、ＷｅｂページＱを閉じて、他のレストランを探せばよい。その場合、ユーザＡは、ＷｅｂページＱにおいて、名前、日付、人数等の入力を無駄に行わなくて済む。

また、ユーザＡは、ＷｅｂページＱに表示されている入力欄の項目を見て、ＶＵＩによる質問を待たずに、例えば「私の名前は山田花子で、日付は２月１０日で、人数は４人です。」と発話してもよい。この場合、領域Ａ１の「名前」欄に「山田花子」、「日付」欄に「２月１０日」、「人数」欄に「４人」が自動入力され、「コース名」欄がハイライト表示される。その後、ＶＵＩにより、例えば「コース名を教えて下さい。」といった発話が行われる。

なお、エンドユーザ端末装置１７は、上記のようにユーザＡが、その時に行っている質問に応じたデータの入力とは異なる動作（ＧＵＩに対する操作、又は、ＶＵＩに対する発声）を行った場合、エンドユーザ端末装置１７は、その時々のユーザＡの動作に応じた情報の表示や発声を行う。例えば、エンドユーザ端末装置１７の「お名前を教えて下さい。」という発声に対し、ユーザＡが「コース予約」欄に対し操作を行った場合、エンドユーザ端末装置１７は、例えば「コース内容のご案内が必要ですか？」といった発声を行い、その音声に応じてユーザＡが、例えば「はい、案内をお願いします。」といった発声を行うと、エンドユーザ端末装置１７は、例えばＷｅｂページＱに代えて、コース内容の案内ページを表示する。このように、エンドユーザ端末装置１７は、ユーザＡの動作に応じて、適宜ＧＵＩ及びＶＵＩを変更する。

上述したエンドユーザ端末装置１７の動作は、エンドユーザ端末装置１７がＵＩ管理サーバ装置１１から受信するＷｅｂページデータに従い行われる。すなわち、エンドユーザ端末装置１７の動作を決定しているのはＵＩ管理サーバ装置１１である。ＵＩ管理サーバ装置１１は、エンドユーザ端末装置１７に上述したようなＧＵＩ及びＶＵＩを提供させるために、図３に示す機能構成を備えている。すなわち、ＵＩ管理サーバ装置１１を構成するコンピュータのプロセッサが、本実施形態に係るプログラムに従うデータ処理を行うと、そのコンピュータが図３に示す構成を備えるＵＩ管理サーバ装置１１として動作する。以下に、ＵＩ管理サーバ装置１１の機能構成を説明する。

記憶手段１１１は、各種データを記憶する。記憶手段１１１が記憶するデータには、ＧＵＩを表すＧＵＩデータと、対話のシナリオを表すシナリオデータが含まれる。

本実施形態において、記憶手段１１１が記憶するＧＵＩデータには、管理者Ｍが管理者端末装置１５を用いてＵＩ管理サーバ装置１１にアップロードするパブリックＧＵＩデータと、ユーザＸが企業ユーザ端末装置１６を用いてＵＩ管理サーバ装置１１にアップロードするプライベートＧＵＩデータが含まれる。パブリックＧＵＩデータは、ユーザＸにより変更が許可されない。一方、プライベートＧＵＩデータは、ユーザＸによる変更が許可されている。

また、本実施形態において、記憶手段１１１が記憶するシナリオデータには、管理者Ｍが管理者端末装置１５を用いてＵＩ管理サーバ装置１１にアップロードするパブリックシナリオデータと、ユーザＸが企業ユーザ端末装置１６を用いてＵＩ管理サーバ装置１１にアップロードするプライベートシナリオデータが含まれる。パブリックシナリオデータは、ユーザＸにより変更が許可されない。一方、プライベートシナリオデータは、ユーザＸによる変更が許可されている。

なお、ユーザＸがプライベートＧＵＩデータやプライベートシナリオデータを開発できるように、ＵＩ管理サーバ装置１１が使用可能なＧＵＩデータとシナリオデータの仕様（データフォーマット等）はユーザＸに通知されている。なお、それらの仕様が広く公開されていてもよい。

ユーザＸは、管理者Ｍから提供されるパブリックＧＵＩデータとパブリックシナリオデータを用いて汎用的なＧＵＩ及びＶＵＩをエンドユーザに提供することもできるし、自らが開発したプライベートＧＵＩデータとプライベートシナリオデータを用いて企業Ｐ用にカスタマイズされたＧＵＩ及びＶＵＩをエンドユーザに提供することもできる。また、ユーザＸは、パブリックＧＵＩデータとプライベートＧＵＩデータの両方を用いて一部に汎用的な部分を含む企業Ｐ用にカスタマイズされたＧＵＩをエンドユーザに提供してもよい。同様に、ユーザＸは、パブリックシナリオデータとプライベートシナリオデータの両方を用いて一部に汎用的な部分を含む企業Ｐ用にカスタマイズされたＶＵＩをエンドユーザに提供してもよい。

送信手段１１２は、音声合成サーバ装置１２、音声認識サーバ装置１３、管理者端末装置１５、企業ユーザ端末装置１６、及び、エンドユーザ端末装置１７に対し、各種データを送信する。受信手段１１３は、音声合成サーバ装置１２、音声認識サーバ装置１３、管理者端末装置１５、企業ユーザ端末装置１６、及び、エンドユーザ端末装置１７から、各種データを受信する。

例えば、送信手段１１２は音声合成サーバ装置１２に、決定手段１１４（後述）が決定した、エンドユーザ端末装置１７に送信されるべき発話の内容をテキストで示すシステム発話テキストデータを含む要求を音声合成サーバ装置１２に送信する。受信手段１１３は、その要求に対する応答として音声合成サーバ装置１２から送信されてくるシステム発話音声データを受信する。なお、システム発話音声データは、システム発話テキストデータが示すテキストを発声した場合の音声を表すデータである。

また、送信手段１１２はエンドユーザ端末装置１７に、判定手段１１６（後述）が生成した、エンドユーザ端末装置１７が表示しているＧＵＩに対する処理を指示する指示データを送信する。

また、受信手段１１３は、エンドユーザ端末装置１７からユーザＡが発話した音声を表すユーザ発話音声データを受信する。送信手段１１２は、受信手段１１３が受信したユーザ発話音声データを含む要求を音声認識サーバ装置１３に送信する。受信手段１１３は、その要求に対する応答として音声認識サーバ装置１３から送信されてくるユーザ発話テキストデータを受信する。なお、ユーザ発話テキストデータは、ユーザ発話音声データが表す文章を示すデータである。

また、受信手段１１３は、エンドユーザ端末装置１７からユーザＡがエンドユーザ端末装置１７に対する操作（文字入力、選択操作等）により入力したデータ（以下、「入力データ」という）を受信する。

また、送信手段１１２は、エンドユーザ端末装置１７からの要求に応じて、ＷｅｂページデータＺに例示されるＷｅｂページデータをエンドユーザ端末装置１７に送信する。

また、受信手段１１３は、管理者端末装置１５からパブリックＧＵＩデータとパブリックシナリオデータを受信する。

また、受信手段１１３は、企業ユーザ端末装置１６からプライベートＧＵＩデータとプライベートシナリオデータを受信する。

決定手段１１４は、いわゆる対話エンジンであり、受信手段１１３がエンドユーザ端末装置１７から受信した入力データと、受信手段１１３がエンドユーザ端末装置１７から受信したユーザ発話音声データとのいずれかに基づき、記憶手段１１１に記憶されている複数のシナリオデータの中から使用するシナリオデータを選択し、選択したシナリオデータに従い、送信手段１１２がエンドユーザ端末装置１７に送信すべき発話の内容を示すシステム発話テキストデータを決定する。

なお、決定手段１１４は、受信手段１１３がエンドユーザ端末装置１７から受信したユーザ発話音声データを含む要求に応じて音声認識サーバ装置１３から送信されてくるユーザ発話テキストデータを用いて、システム発話テキストデータを決定する。

また、送信手段１１２は、決定手段１１４により決定されたシステム発話テキストデータを含む要求に応じて音声合成サーバ装置１２から送信されてくるシステム発話音声データを、システム発話テキストデータとともに、エンドユーザ端末装置１７に送信する。なお、システム発話テキストデータは、エンドユーザ端末装置１７において、領域Ａ２のチャットログの表示に用いられる。

決定手段１１４は、どのような方式の対話エンジンであってもよい。例えば、決定手段１１４が、ルールベースの対話エンジンであってもよいし、機械学習モデル等の人工知能を用いた対話エンジンであってもよい。

選択手段１１５は、受信手段１１３がエンドユーザ端末装置１７から受信した入力データと、受信手段１１３がエンドユーザ端末装置１７から受信したユーザ発話音声データとのいずれかに基づき、記憶手段１１１に記憶されている複数のＧＵＩデータの中から、送信手段１１２がエンドユーザ端末装置１７に送信すべきＧＵＩデータを選択する。

なお、選択手段１１５は、受信手段１１３がエンドユーザ端末装置１７から受信したユーザ発話音声データを含む要求に応じて音声認識サーバ装置１３から送信されてくるユーザ発話テキストデータを用いて、ＧＵＩデータを選択する。

選択手段１１５がＧＵＩデータを選択する方法は、ルールベースによる方法、人工知能を用いた方法等のいずれであってもよい。

判定手段１１６は、エンドユーザ端末装置１７が表示しているＧＵＩに対し、受信手段１１３がエンドユーザ端末装置１７から受信したユーザ発話音声データに応じた処理を指示する指示データを生成する。

判定手段１１６が生成する指示データが示す指示には、ＧＵＩに表示されている入力欄（例えば、「名前」欄）に対する、ユーザＡの発話内容に含まれる回答を示すテキスト（例えば、「山田花子」）の入力の指示が含まれる。この場合、判定手段１１６は、受信手段１１３がエンドユーザ端末装置１７から受信したユーザ発話音声データを含む要求に応じて音声認識サーバ装置１３から送信されてくるユーザ発話テキストデータが示すテキストに、エンドユーザ端末装置１７がその時に表示しているＧＵＩに含まれる入力欄に応じた回答を示すテキストが含まれるか否かを判定し、含まれると判定した場合、その回答を示すテキストを、その回答に応じた入力欄に入力する指示を示す指示データを生成する。

判定手段１１６により生成された指示データは、送信手段１１２によりエンドユーザ端末装置１７に送信される。エンドユーザ端末装置１７は、ＵＩ管理サーバ装置１１から受信した指示データが示す指示に従い、ＧＵＩに含まれる入力欄に回答を入力する。

変更手段１１７は、受信手段１１３が企業ユーザ端末装置１６から受信するデータに基づき、記憶手段１１１が記憶するプライベートＧＵＩデータ及びプライベートシナリオデータを変更する。なお、変更手段１１７がエンドユーザ端末装置１７から受信するプライベートＧＵＩデータを変更するためのデータは、変更後のプライベートＧＵＩデータの全部を示すデータであってもよいし、既存のプライベートＧＵＩデータの一部の変更を指示するデータであってもよい。同様に、変更手段１１７がエンドユーザ端末装置１７から受信するプライベートシナリオデータを変更するためのデータは、変更後のプライベートシナリオデータの全部を示すデータであってもよいし、既存のプライベートシナリオデータの一部の変更を指示するデータであってもよい。

上述したコミュニケーションシステム１によれば、ユーザＡはＧＵＩとＶＵＩの両方を適宜使い分けながら、ＵＩ管理サーバ装置１１との間で効率的に情報交換を行うことができる。

［変形例］
上述した実施形態は、本発明の技術的思想の範囲内で様々に変形されてよい。以下にそれらの変形の例を示す。なお、以下に示す変形の例の２以上が適宜、組み合わされてもよい。

（１）上述した実施形態においてＵＩ管理サーバ装置１１が行うものとした処理の一部が、エンドユーザ端末装置１７により行われてもよい。

例えば、上述した実施形態においてＵＩ管理サーバ装置１１が音声合成サーバ装置１２との間で通信を行うことによりシステム発話テキストデータからシステム発話音声データを取得する処理がエンドユーザ端末装置１７により行われてもよい。その場合、エンドユーザ端末装置１７はＵＩ管理サーバ装置１１からシステム発話テキストデータを受信し、そのシステム発話テキストデータを含む要求を音声合成サーバ装置１２に送信し、その応答として音声合成サーバ装置１２から送信されてくるシステム発話音声データを受信し、受信したシステム発話音声データが表す音声を発音する。

また、上述した実施形態においてＵＩ管理サーバ装置１１が音声認識サーバ装置１３との間で通信を行うことによりユーザ発話音声データからユーザ発話テキストデータを取得する処理がエンドユーザ端末装置１７により行われてもよい。その場合、エンドユーザ端末装置１７はユーザ発話音声データを含む要求を音声認識サーバ装置１３に送信し、その応答として音声認識サーバ装置１３から送信されてくるユーザ発話テキストデータを受信し、受信したユーザ発話テキストデータをＵＩ管理サーバ装置１１に送信する。

また、上述した実施形態においてＵＩ管理サーバ装置１１の決定手段１１４が行う処理がエンドユーザ端末装置１７により行われてもよい。その場合、エンドユーザ端末装置１７はＵＩ管理サーバ装置１１から受信するＧＵＩデータに含まれるプログラムに従い、ＵＩ管理サーバ装置１１から受信したシステム発話音声データを用いて発した音声に応じてユーザＡが発話した内容を表すユーザ発話テキストデータに応じた処理を、その時に表示しているＧＵＩ（ＷｅｂページＱ）に対し行う。

例えば、ユーザＡが「私の名前は山田花子です。」と発話すると、エンドユーザ端末装置１７はその発話の内容に含まれる「山田花子」が「名前」欄に応じた回答を判定し、「名前」欄に「山田花子」を入力する処理を行う。

（２）記憶手段１１１が複数のシナリオデータを記憶している場合、ＵＩ管理サーバ装置１１が、それら複数のシナリオデータの中から、ユーザＡの属性に応じたシナリオデータを選択して用いてもよい。その場合、ＵＩ管理サーバ装置１１は、ユーザＡの属性を示すユーザ属性データを取得する取得手段を機能構成として備える。そして、決定手段１１４は、取得手段が取得したユーザ属性データに基づき、使用するシナリオデータの選択を行う。

ＵＩ管理サーバ装置１１は、例えば、過去にエンドユーザ端末装置１７との間で行った対話の内容に基づき、ユーザの属性を取得してもよい。その場合、ＵＩ管理サーバ装置１１は、送信手段１１２が過去にエンドユーザ端末装置１７に送信したデータと、受信手段１１３が過去にエンドユーザ端末装置１７から受信したデータとに基づき、ユーザＡの属性を特定し、特定した属性を示すユーザ属性データを生成する生成手段を機能構成として備える。そして、取得手段は、生成手段が生成したユーザ属性データを取得する。

なお、ＵＩ管理サーバ装置１１がユーザＡの属性を特定するために用いる過去の対話の内容は、過去に完結した対話の内容であってもよいし、現在進行している対話の内容であってもよい。前者の場合、ＵＩ管理サーバ装置１１は、例えばＣｏｏｋｉｅ等の既知の技術によって、以前に対話したユーザＡと現在対話中のユーザＡとの同定を行う。

また、ＵＩ管理サーバ装置１１が特定するユーザＡの属性の種別は、年齢、性別、趣味嗜好等、いずれであってもよい。例えば、ＵＩ管理サーバ装置１１が、ユーザＡの性格や現在の感情を属性として特定してもよい。

（３）コミュニケーションシステム１が備えるサーバ装置の構成は、上述した実施形態に例示の構成に限れない。例えば、ＵＩ管理サーバ装置１１が１つのサーバ装置により構成される代わりに、複数のサーバ装置（サーバ装置群）により構成されてもよい。

また、例えば、ＵＩ管理サーバ装置１１が音声合成サーバ装置１２、音声認識サーバ装置１３、Ｗｅｂ配信サーバ装置１４の１以上を兼ねてもよい。

また、例えば、コミュニケーションシステム１が、予約管理を行う予約管理サーバ装置を備え、ＵＩ管理サーバ装置１１が予約管理サーバ装置と通信を行うことによって、エンドユーザ端末装置１７に表示させるＷｅｂページの内容を決定してもよい。この例のように、ＵＩ管理サーバ装置１１がエンドユーザ端末装置１７に提供する情報の種別等に応じて、ＵＩ管理サーバ装置１１が必要な機能を提供するサーバ装置がコミュニケーションシステム１を構成するサーバ装置群に追加されてもよい。

（４）上述した実施形態において、エンドユーザとの情報交換をＵＩ管理サーバ装置１１に代行させる主体は企業であるものとしたが、企業以外の個人や団体が、エンドユーザとの情報交換をＵＩ管理サーバ装置１１に代行させてもよい。

（５）上述した実施形態において、エンドユーザ端末装置１７が表示するＧＵＩに含まれる項目のうち、ＶＵＩが現在質問等を行っている項目がハイライト表示により他の項目と区別されるものとしたが、ハイライト表示以外の表示態様（例えば、太字表示、異なる色による表示、点滅表示、拡大表示等）により、ＶＵＩが現在質問等を行っている項目が他の項目と区別されてもよい。

（６）本発明は、上述したコミュニケーションシステム１又はＵＩ管理サーバ装置１１に例示されるシステムに加え、コンピュータにＵＩ管理サーバ装置１１が行う処理を実行させるためのプログラム、コンピュータにエンドユーザ端末装置１７が行う処理を実行させるためのプログラム、それらのプログラムを記録した記録媒体等を提供する。

１…コミュニケーションシステム、１１…ＵＩ管理サーバ装置、１２…音声合成サーバ装置、１３…音声認識サーバ装置、１４…Ｗｅｂ配信サーバ装置、１５…管理者端末装置、１６…企業ユーザ端末装置、１７…エンドユーザ端末装置、１１１…記憶手段、１１２…送信手段、１１３…受信手段、１１４…決定手段、１１５…選択手段、１１６…判定手段、１１７…変更手段。

Claims

グラフィックユーザインタフェースを表すＧＵＩデータと、対話のシナリオを表すシナリオデータとを記憶する記憶手段と、
ユーザが使用する端末装置にＧＵＩデータと、発話の内容を表すシステム発話データとを送信する送信手段と、
前記端末装置が前記送信手段から受信したＧＵＩデータを用いて表示したグラフィックユーザインタフェースに対し前記ユーザが入力した入力データと、前記端末装置が当該グラフィックユーザインタフェースを表示しているときに前記ユーザが発話した内容を表すユーザ発話データとを受信する受信手段と、
前記受信手段が入力データ又はユーザ発話データを受信すると、前記受信手段が受信した入力データと前記受信手段が受信したユーザ発話データとのいずれかに基づき、前記記憶手段に記憶されているシナリオデータに従い、前記送信手段が前記端末装置に送信すべきシステム発話データを決定する決定手段と
を備え、
前記送信手段は、前記決定手段が決定したシステム発話データを前記端末装置に送信し、
前記記憶手段が記憶しているＧＵＩデータは、複数の異なる項目に関する入力欄を同時に表示し、表示する複数の異なる項目の全てに関し、前記送信手段が前記端末装置に送信するシステム発話データが表す発話の内容に応じた項目であるか否かにかかわらず、前記ユーザによる入力データの入力、及び、前記ユーザによる発話を受け付けるユーザグラフィックユーザインタフェースを表す
システム。
前記記憶手段は複数のＧＵＩデータを記憶し、
前記受信手段が受信した入力データと前記受信手段が受信したユーザ発話データとのいずれかに基づき、前記記憶手段に記憶されている複数のＧＵＩデータの中から前記送信手段が前記端末装置に送信すべきＧＵＩデータを選択する選択手段を備え、
前記送信手段は、前記選択手段が選択したＧＵＩデータを前記端末装置に送信する
請求項１に記載のシステム。
前記記憶手段は複数のシナリオデータを記憶し、
前記決定手段は、前記受信手段が受信した入力データと前記受信手段が受信したユーザ発話データとのいずれかに基づき、前記記憶手段に記憶されている複数のシナリオデータの中から使用するシナリオデータを選択し、選択したシナリオデータに従い、前記送信手段が前記端末装置に送信するシステム発話データを決定する
請求項１に記載のシステム。
前記記憶手段に記憶されているＧＵＩデータが表すグラフィックユーザインタフェースは、前記端末装置が前記送信手段から受信したシステム発話データを用いて発した音声の内容と、当該音声に応じて前記ユーザが発話した内容とを表示する領域を含む
請求項１に記載のシステム。
前記送信手段は、前記端末装置が表示しているグラフィックユーザインタフェースに対し、前記受信手段が受信したユーザ発話データに応じた処理を指示する指示データを前記端末装置に送信する
請求項１に記載のシステム。
前記記憶手段に記憶されているＧＵＩデータは、前記端末装置が前記送信手段から受信したシステム発話データを用いて発した音声に応じて前記ユーザが発話した内容を表すユーザ発話データに応じた処理を、当該ＧＵＩデータを用いて前記端末装置が表示しているグラフィックユーザインタフェースに対し行わせるプログラムを含む
請求項１に記載のシステム。
前記記憶手段は複数のシナリオデータを記憶し、
前記ユーザの属性を示すユーザ属性データを取得する取得手段を備え、
前記決定手段は、前記取得手段が取得したユーザ属性データに基づき、前記記憶手段に記憶されている複数のシナリオデータの中から使用するシナリオデータを選択し、選択したシナリオデータに従い、前記送信手段が前記端末装置に送信するシステム発話データを決定する
請求項１に記載のシステム。
前記送信手段が過去に前記ユーザの端末装置に送信したデータと、前記受信手段が過去に前記ユーザの端末装置から受信したデータとに基づき、前記ユーザの属性を特定し、特定した属性を示すユーザ属性データを生成する生成手段を備え、
前記取得手段は前記生成手段が生成したユーザ属性データを取得する
請求項７に記載のシステム。
前記生成手段は、前記ユーザの現在の感情を前記ユーザの属性として特定し、当該感情を示すユーザ属性データを生成する
請求項８に記載のシステム。
前記ユーザを第１のユーザとし、前記システムにより前記第１のユーザと情報交換を行うユーザを第２のユーザとするとき、
前記記憶手段は、前記第２のユーザによる変更が許可されていないＧＵＩデータであるパブリックＧＵＩデータと、前記第２のユーザによる変更が許可されているＧＵＩデータであるプライベートＧＵＩデータを記憶し、
前記受信手段が前記第２のユーザが使用する端末装置から受信するデータに基づき、前記記憶手段が記憶するプライベートＧＵＩデータを変更する変更手段を備える
請求項１に記載のシステム。
前記ユーザを第１のユーザとし、前記システムにより前記第１のユーザと情報交換を行うユーザを第２のユーザとするとき、
前記記憶手段は、前記第２のユーザによる変更が許可されていないシナリオデータであるパブリックシナリオデータと、前記第２のユーザによる変更が許可されているシナリオデータであるプライベートシナリオデータを記憶し、
前記受信手段が前記第２のユーザが使用する端末装置から受信するデータに基づき、前記記憶手段が記憶するプライベートシナリオデータを変更する変更手段を備える
請求項１に記載のシステム。