JP7411369B2

JP7411369B2 - コミュニケーションシステム、応対端末装置およびそのプログラム

Info

Publication number: JP7411369B2
Application number: JP2019181602A
Authority: JP
Inventors: 勇気津田
Original assignee: NTT Communications Corp
Current assignee: NTT Communications Corp
Priority date: 2019-10-01
Filing date: 2019-10-01
Publication date: 2024-01-11
Anticipated expiration: 2039-10-01
Also published as: JP2021056940A

Description

この発明の実施形態は、例えばチャットボットを用いたコミュニケーションシステムとこのシステムで使用される応対端末装置およびプログラムに関する。

チャットボット（ChatBOT）を使用して、ネットワークを利用した問合せや来客の応対を行うコミュニケーションシステムが種々開発されている。チャットボットとは、例えばテキストデータや音声を通じて自動的に会話するプログラムのことで、ユーザのテキストデータや音声から質問内容を認識し、それに対応する応答をデータベースから選択して出力するように動作する。また、チャットボットを用いたコミュニケーションシステムには、必要に応じてチャットボットから人のオペレータに切り替えて以後オペレータが応対する、いわゆるエスカレーション機能を備えるものもある（例えば非特許文献１を参照）。

"Communication Engine COTOHA(登録商標) Virtual Assistant"、ＮＴＴコミュニケーションズ、インターネット＜URL; https://www.ntt.com/business/services/application/ai/cotoha.html＞

ところが従来のシステムは、エスカレーションを実行した場合に、通常では人のオペレータが直接応対するものとなっているため、オペレータの顔などがユーザに知られてしまいプライバシーが脅かされるおそれがある。また、ユーザにとっても、アバターから人のオペレータに切り替わったときの違和感から、問合せを円滑に継続できなくなることがある。

この発明は、上記事情に着目してなされたもので、一側面では、エスカレーションを行ったときの応対上のセキュリティおよび品質の向上を図った技術を提供しようとするものである。

上記課題を解決するためにこの発明に係るコミュニケーションシステムの一態様は、ユーザの発話音声またはテキストデータを含む問合せ情報を受け取る応対端末と、前記応対端末との間で通信が可能なオペレータ端末とを具備するコミュニケーションシステムであって、前記オペレータ端末は、前記応対端末から送られる前記問合せ情報を受信する問合せ情報受信部と、受信された前記問合せ情報に含まれる前記発話音声またはテキストデータの出力に対するオペレータの応答音声およびジェスチャを検出する検出部と、検出された前記応答音声およびジェスチャを表す情報を含むオペレータ応対情報を生成し、生成された前記オペレータ応対情報を前記応対端末へ送信するオペレータ応対情報生成部を備える。また、前記応対端末は、前記オペレータ端末から送信された前記オペレータ応対情報を受信するオペレータ応対情報受信部と、受信された前記オペレータ応対情報に含まれる前記応答音声およびジェスチャをキャラクタの動きに反映させた第１のキャラクタ応対情報を生成し、生成された前記第１のキャラクタ応対情報を前記ユーザに向け出力する第１のキャラクタ応対情報生成部を備え、さらに応対モードとして、前記応対端末が自律的に応対動作を行う自律応対モードと、前記応対端末が前記オペレータ端末と協働して応対動作を行うオペレータ応対モードとを選択的に設定する設定部と、前記自律応対モードが設定された状態では、前記問合せ情報に含まれる発話音声またはテキストデータをもとに問合せ内容を認識し、認識された問合せ内容に対応する応対情報を前記キャラクタの動きに反映させた第２のキャラクタ応対情報を生成し、生成された前記第２のキャラクタ応対情報を前記ユーザに向け出力する第２のキャラクタ応対情報生成部と、前記オペレータ応対モードが設定された状態では、前記問合せ情報を前記オペレータ端末へ転送する転送部とを備えるようにしたものである。

この発明の一態様によれば、応対端末において、オペレータの送話音声およびジェスチャがキャラクタの動きに反映されたキャラクタ応対情報が生成され、ユーザに向け出力される。すなわち、あたかもオペレータがキャラクタに憑依したようにキャラクタがオペレータの応対動作に連動するため、ユーザは違和感を覚えることなく問合せを継続することが可能となる。また、オペレータの顔などの個人情報がユーザに直接知られる心配が軽減され、オペレータのプライバシーを保護してセキュリティを高めることができ、また事業者のオペレータ配置の自由度を高めることも可能となる。

すなわちこの発明の一態様によれば、エスカレーションを行ったときの応対のセキュリティおよび品質の向上を図った技術を提供することができる。

図１は、この発明の一実施形態に係るコミュニケーションシステムの概略構成図である。図２は、図１に示したシステムの応対端末のハードウェア構成の一例を示すブロック図である。図３は、図１に示したシステムの応対端末のソフトウェア構成の一例を示すブロック図である。図４は、図１に示したシステムのオペレータ端末のハードウェア構成の一例を示すブロック図である。図５は、図１に示したシステムのオペレータ端末のソフトウェア構成の一例を示すブロック図である。図６は、図３に示した応対端末による応対制御の処理手順と処理内容の一例を示すフローチャートである。図７は、図５に示したオペレータ端末による応対制御の処理手順と処理内容の一例を示すフローチャートである。図８は、チャットボットモードにおいて応対端末に表示される応対画面の一例を示す図である。図９は、テレイグジスタンスモードにおけるオペレータとアバターとの連動動作を説明するための図である。図１０は、テレイグジスタンスモードにおいて応対端末に表示される応対画面の一例を示す図である。図１１は、テレイグジスタンスモードにおけるアバターの変化の一例を示す図である。

以下、図面を参照してこの発明に係わる実施形態を説明する。

［一実施形態］
（構成例）
（１）システム
図１は、この発明の一実施形態に係るコミュニケーションシステムの概略構成図である。
このシステムは、応対端末ＲＴＭと、オペレータ端末ＯＴＭと、Ｗｅｂ Real-Time Communication（ＲＴＣ）サーバＳＶ１と、応対分析用サーバＳＶ２とを備え、これらの端末ＲＴＭ，ＯＴＭおよびサーバＳＶ１，ＳＶ２はネットワークＮＷを介してデータ通信が可能になっている。

ＷｅｂＲＴＣサーバＳＶ１は、例えばＷｅｂブラウザを介して映像や音声等の容量が大きいデータをリアルタイムに送受信するもので、ピアツーピア（Peer to Peer：Ｐ２Ｐ）通信を可能にする仕組みを有している。この例では、応対端末ＲＴＭとオペレータ端末ＯＴＭとの間でデータ通信を行う場合に、リンクＬ１，Ｌ２によりそれぞれ応対端末ＲＴＭおよびオペレータ端末ＯＴＭに対しＩＰアドレスを付与し、以後応対端末ＲＴＭとオペレータ端末ＯＴＭとの間でリンクＬ３を介してＰ２Ｐ通信を可能にする。

応対分析用サーバＳＶ２は、応対端末ＲＴＭおよびオペレータ端末ＯＴＭにより行われた応対の内容を表す応対履歴情報を蓄積して、分析に供する機能を有する。応対履歴情報を分析することにより、応対端末ＲＴＭがチャットボット機能により自律的に応対を行う際の応対のパターン、つまりＦＡＱ（Frequently Asked Question）をさらに適切なデータとなるように学習することが可能となる。

ネットワークＮＷは、インターネットを含むＩＰ網と、このＩＰ網にアクセスするためのアクセス網とから構成される。アクセス網としては、例えば公衆有線網や携帯電話網、有線ＬＡＮ（Local Area Network）、無線ＬＡＮ、ＣＡＴＶ（Cable Television）等が用いられる。

（２）装置
（２－１）応対端末ＲＴＭ
応対端末ＲＴＭは、例えばサービスカウンタやオフィス等の受付カウンタに設置されるもので、パーソナルコンピュータに、タッチパネル型の入力部と、透明な有機発光素子（Organic Light-Emitting Diode：ＯＬＥＤ）や等身大サイズの透明スクリーン等を使用した表示部を接続したものとなっている。

図２および図３は、それぞれ応対端末ＲＴＭのハードウェア構成およびソフトウェア構成を示すブロック図である。
応対端末ＲＴＭは、中央処理ユニット（Central Processing Unit：ＣＰＵ）等のハードウェアプロセッサを有する制御部１１を備える。そして、この制御部１１に対しバス１９を介して記憶部１２、通信インタフェース（通信Ｉ／Ｆ）１３および入出力インタフェース（入出力Ｉ／Ｆ）１４を接続したものとなっている。

通信Ｉ／Ｆ１３は、制御部１１の制御の下、ネットワークＮＷを介して上記ＷｅｂＲＴＣサーバＳＶ１、オペレータ端末ＯＴＭおよび応対分析用サーバＳＶ２との間で、制御信号およびデータの送受信を行うために有線インタフェースを有する。なお、通信Ｉ／Ｆ３としては、例えば無線ＬＡＮやBluetooth（登録商標）等の無線インタフェースを使用することもできる。

入出力Ｉ／Ｆ１４には、入力部１５および表示部１６と、ユーザとの間で音声会話を行うために使用するマイクロフォン１７およびスピーカ１８が接続されている。入力部１５には、例えば前述したタッチパネル型のディスプレイが用いられるが、キーボードやマウスを使用したものであっても構わない。表示部１６には、例えば前述した透明ＯＬＥＤや等身大サイズの透明スクリーン等を使用したディスプレイが用いられる。

入出力Ｉ／Ｆ１４は、マイクロフォン１７で検出されたユーザの音声をデジタル音声データに変換して制御部１１へ出力すると共に、制御部１１から出力される応答音声データをアナログ音声信号に変換してスピーカ１８から出力させる。入出力Ｉ／Ｆ１４は、入力部１５により入力された操作情報を制御部１１に通知すると共に、制御部１１から出力されるキャラクタを含む応対用表示データを表示部１６に表示させる。

なお、応対端末ＲＴＭには、ユーザの様子を撮影するカメラを備えるようにしてもよく、この場合は入出力Ｉ／Ｆ１４にカメラインタフェース機能を追加することで対応可能である。

記憶部１２は、例えば、主記憶媒体としてＳＳＤ（Solid State Drive）等の随時書込みおよび読出しが可能な不揮発性メモリを使用する。なお、記憶媒体は、上記ＳＳＤに加えて、あるいは代えて、ＨＤＤ（Hard Disk Drive）、ＲＯＭ（Read Only Memory）およびＲＡＭ（Random Access Memory）を組み合わせたものを使用してもよい。

記憶部１２の記憶領域には、プログラム記憶領域およびデータ記憶領域が設けられている。プログラム記憶領域には、ＯＳ（Operating System）等のミドルウェアに加えて、この発明の一実施形態に係る制御処理を実行するために必要なアプリケーション・プログラムが格納される。

データ記憶領域には、この発明の一実施形態を実施する上で必要な記憶部として、問合せ情報記憶部１２１と、辞書記憶部１２２と、応対パターン記憶部１２３と、キャラクタデータ記憶部１２４が記憶されている。

問合せ情報記憶部１２１は、ユーザが入力した発話音声またはテキストデータからなる問合せ情報を一時保存するために使用される。辞書記憶部１２２には、上記問合せ情報として入力されたユーザの発話音声またはテキストデータを解析して問合せ内容を認識するために必要な辞書データが記憶されている。応対パターン記憶部１２３には、想定される問合せ内容に対する応対パターン、すなわちＦＡＱ（Frequently Asked Question）を表す情報が記憶されている。

キャラクタデータ記憶部１２４には、キャラクタとして使用される少なくとも１種類のアバターの画像データが記憶される。アバターの画像データは、二次元ＣＧ画像データまたは三次元ＣＧ画像データにより構成される。これらの画像データはその各部位の位置が座標データにより定義され、座標データを与えることでアバターの表情や仕草を変化させることが可能となっている。

例えば、アバターの目、鼻および口の位置が座標データにより定義され、これらの座標データによりアバターの表情を変化させることができる。また、手および腕の位置も座標データにより定義され、この座標データによりアバターの仕草（ジェスチャ）を制御することが可能である。ほかに、瞬き、口唇部、顔の向き、奥行きなどについても座標データにより変化させることが可能となっている。

制御部１１は、この発明の一実施形態に係る制御処理機能として、問合せ情報受付部１１１と、問合せ内容解析部１１２と、チャットボット応対情報生成出力部１１３と、エスカレーション制御部１１４と、問合せ情報転送部１１５と、オペレータ応対情報受信部１１６と、テレイグジスタンス応対情報生成出力部１１７と、応対履歴管理部１１８とを備えている。これらの処理部１１１～１１８は、いずれも記憶部１２内のプログラム記憶領域に格納されたアプリケーション・プログラムをハードウェアプロセッサに実行させることにより実現される。

エスカレーション制御部１１４は、応対端末ＲＴＭの応対モードを制御するもので、応対開始時には応対端末ＲＴＭが自律的に応対処理を行う自律応対モード（以後チャットボットモードとも云う）を設定する。また、ユーザが入力部１５においてオペレータへの接続を要求する接続要求ボタンを操作するかあるいはその旨の音声要求メッセージを入力した場合に、応対端末ＲＴＭの応対モードを、オペレータと応対端末ＲＴＭとが協働して応対処理を行うオペレータ応対モード（以後テレイグジスタンスモードとも云う）に設定する処理を行う。

問合せ情報受付部１１１は、応対モードがチャットボットモードおよびテレイグジスタンスモードのいずれに設定されている場合にも、マイクロフォン１７に入力されたユーザの発話音声データまたは入力部１５においてユーザが入力したテキストデータを、ユーザの問合せ情報として入出力Ｉ／Ｆ１４から受け取り、受け取った問合せ情報を問合せ情報記憶部１２１に一旦保存する処理を行う。

問合せ内容解析部１１２は、チャットボットモードが設定されているときに動作し、辞書記憶部１２２に記憶された辞書データを用い、上記問合せ情報記憶部１２１に保存された問合せ情報に対し構文・意味解析および固有名詞抽出などの自然言語処理を行って、問い合わせの内容を解析する。なお、問合せ情報に含まれるデータ種別が音声データの場合には、問合せ内容解析部１１２は上記自然言語処理に先立ち音声データをテキストデータに変換する。

チャットボット応対情報生成出力部１１３は、上記問合せ内容解析部１１２により解析された問合せ内容に対応する応対パターンを応対パターン記憶部１２３から選択する処理を行う。この処理には、例えば機械学習やルールベースを用いた抽出／分類処理が用いられる。

チャットボット応対情報生成出力部１１３は、選択された上記応対パターンに含まれる表情（瞬きを含む）および仕草（手や腕の動き、顔の向きを含む）の制御データ（座標データ）に基づいて、キャラクタデータ記憶部１２４から読み出されるアバターの画像データの座標を制御することで、表情および仕草が上記応対パターンに応じて変化するアバター画像を生成する。その際、応対パターンに含まれる応答音声に同期してアバターの口唇部を動かすリップシンク処理も行う。そして、生成された上記アバターの画像データを入出力Ｉ／Ｆ１４を介して表示部１６へ出力し、表示させる。

チャットボット応対情報生成出力部１１３は、上記応対パターンに含まれる応答音声データを、上記アバターの画像データと同期させて入出力Ｉ／Ｆ１４へ出力し、スピーカ１８から拡声出力させる。

問合せ情報転送部１１５は、テレイグジスタンスモードが設定されているときに動作し、上記問合せ情報受付部１１１が受け取ったユーザの問合せ情報を通信Ｉ／Ｆ１３からオペレータ端末ＯＴＭへ転送する処理を行う。

オペレータ応対情報受信部１１６は、テレイグジスタンスモードが設定されている状態で、オペレータ端末ＯＴＭから送信されたオペレータ応対情報を通信Ｉ／Ｆ１３を介して受信する処理を行う。

テレイグジスタンス応対情報生成出力部１１７は、上記オペレータ端末ＯＴＭから送られたオペレータ応対情報に対応するキャラクタ応対情報を生成し、表示部１６に表示させる処理を行う。このキャラクタ応対情報の生成処理は、オペレータ応対情報に含まれるオペレータの表情およびジェスチャをアバターの表情および仕草に反映させる処理であり、詳細は後述する。また上記生成処理には、オペレータの応答音声の発生に応じてアバターの口唇部を動かすリップシンク処理も含まれる。

応対履歴管理部１１８は、応対期間中に上記問合せ情報受付部１１１により受け取った問合せ情報、上記オペレータ応対情報受信部１１６により受信されたオペレータ応対情報、および上記テレイグジスタンス応対情報生成出力部１１７により生成された応対情報を、応対終了後に、日時情報と紐づけて応対分析用サーバＳＶ２に記憶させる処理を行う。

（２－２）オペレータ端末ＯＴＭ
オペレータ端末ＯＴＭは、サーバ装置ＳＶは、例えばコールセンタに設置され、ＩＰベースでテレビジョン音声通話を行う機能を備えている。

図４および図５は、それぞれオペレータ端末ＯＴＭのハードウェア構成およびソフトウェア構成を示すブロック図である。
オペレータ端末ＯＴＭは、ＣＰＵ等のハードウェアプロセッサを有する制御部２１を備える。そして、この制御部２１に対しバス３０を介して記憶部２２、通信インタフェース（通信Ｉ／Ｆ）２３、入出力インタフェース（入出力Ｉ／Ｆ）２４およびセンサインタフェース（センサＩ／Ｆ）２７を接続したものとなっている。

通信Ｉ／Ｆ２３は、制御部２１の制御の下、ネットワークＮＷを介してＷｅｂＲＴＣサーバＳＶ１および応対端末ＲＴＭとの間で制御信号およびデータの送受信を行うもので、例えば有線インタフェースを有している。

入出力Ｉ／Ｆ２４には、入力部２５および表示部２６と、オペレータがユーザとの間で音声通話を行うために使用するヘッドセット型のマイクロフォン３１およびスピーカ３２が接続されている。入力部２５および表示部２６は、例えば液晶又は有機ＥＬ等のディスプレイ上に感圧式または静電容量検出方式を採用した入力検知シートを配置したタブレット型のデバイスからなる。なお、入力部２５は、タッチパネル型デバイス以外に、キーボードやマウスを使用したものを用いてもよい。

入出力Ｉ／Ｆ２４は、上記マイクロフォン３１で検出されたオペレータの音声をデジタル音声データに変換して制御部２１へ出力すると共に、制御部２１から出力されたデジタル音声データをアナログ音声信号に変換してスピーカ３２から出力させる。また入出力Ｉ／Ｆ２４は、入力部２５により検出された操作情報を制御部２１に通知すると共に、制御部２１から出力される表示データを表示部２６に表示させる。

センサＩ／Ｆ２７には、主としてオペレータの顔を撮影するカメラ２８と、オペレータの手の動きを検出する三次元モーションセンサデバイス２９が接続されている。カメラ２８は例えばＷｅｂカメラからなる。三次元モーションセンサデバイス２９としては例えばリープモーション（登録商標）が用いられる。

記憶部２２は、例えば、主記憶媒体としてＨＤＤまたはＳＳＤ等の随時書込みおよび読出しが可能な不揮発性メモリを使用する。なお、記憶媒体としては、ＲＯＭおよびＲＡＭを組み合わせて使用してもよい。

記憶部２２の記憶領域には、プログラム記憶領域およびデータ記憶領域が設けられている。プログラム記憶領域には、ＯＳ等のミドルウェアに加えて、この発明の一実施形態に係る各種制御処理を実行するために必要なプログラムが格納される。

データ記憶領域には、この発明の一実施形態を実施する上で必要な記憶部として、資料記憶部２２１が設けられている。資料記憶部２２１には、予想されるユーザの問合せ内容に対する応対に使用可能な各種資料情報が記憶されている。なお、資料情報は、予め作成して資料記憶部２２１に記憶しておいてもよいが、必要に応じてオペレータがＷｅｂサイト等から取得するようにしてもよい。

制御部２１は、この発明の一実施形態に係る制御処理機能として、エスカレーション制御部２１１と、問合せ情報受信出力部２１２と、応対情報生成送信部２１３とを備えている。エスカレーション制御部２１１は、応対端末ＲＴＭからエスカレーションの通知が送られた場合に、オペレータにその旨を報知する。問合せ情報受信出力部２１２は、エスカレーション通知後に応対端末ＲＴＭから転送されるユーザの問合せ情報を通信Ｉ／Ｆ２３を介して受信し、受信された問合せ情報に含まれる音声データを入出力Ｉ／Ｆ２４を介してヘッドセットのスピーカ３２へ出力する。

応対情報生成送信部２１３は、オペレータの応答音声をマイクロフォン３１により検出すると共に、カメラ２８により撮影された顔画像データをもとにオペレータの表情（瞬きを含む）を検出する。また応対情報生成送信部２１３は、オペレータのジェスチャ（手や腕の動き、顔の向きを含む）を上記撮影画像データ、あるいは三次元モーションセンサデバイス２９の検出データから検出する。そして応対情報生成送信部２１３は、検出された上記応答音声を符号化すると共に、検出された上記オペレータの表情およびジェスチャを表す情報を座標データに変換する。この表情およびジェスチャを座標データへ変換する処理の一例は後述する。

応対情報生成送信部２１３は、上記符号化された応答音声データおよび上記変換された座標データと、オペレータの操作に応じて資料記憶部２２１から読み出された資料情報とを含めたオペレータ応対情報を生成し、生成されたオペレータ応対情報を通信Ｉ／Ｆ２３から応対端末ＲＴＭへ送信する処理を行う。

（動作例）
次に、以上のように構成されたシステムの動作例を説明する。
図６は応対端末ＲＴＭの動作手順と処理内容の一例を示すフローチャート、図７はオペレータ端末ＯＴＭの動作手順と処理内容の一例を示すフローチャートである。

（１）チャットボットモード
（１－１）問合せ情報の取得
ユーザが応対端末ＲＴＭの前で立ち止まると、応対端末ＲＴＭは上記ユーザの接近を例えばカメラの撮像画像または近接センサにより検出し、先ずチャットボットモードの待受画面を表示部１６に表示させる。図８は、チャットボットモードの待受画面の一例を示すもので、画面にはアバターＡＢ、問合せメニューＭＵ、問合せ開始ボタン１５１およびオペレータ呼出しボタン１５２が表示される。なお、上記チャットボットモードの待受画面は、常時表示されるようにしてもよいし、ユーザの要求操作に応じて表示されるようにしてもよい。

上記チャットボットモードの待受画面が表示された状態で、ユーザが問合せ開始ボタン１５１を操作すると、応対端末ＲＴＭは上記問合せ開始ボタン１５１の操作をステップＳ１０で検出し、問合せ情報の入力待機状態となる。この状態で、ユーザが応対端末ＲＴＭに向かって例えば問合せ内容を音声により入力すると、この音声がマイクロフォン１７により検出され、応対端末ＲＴＭは問合せ情報受付部１１１の制御の下、ステップＳ１１で上記音声データを含む問合せ情報を取得して問合せ情報記憶部１２１に一旦保存する。

なお、問合せ情報の入力は、音声入力に限らず、メニューＭＵをタッチすることによっても行える。また、応対端末ＲＴＭがキーボード等の入力デバイスを備えている場合には、この入力デバイスの操作により入力されたテキストデータを問合せ情報として扱うようにしてもよい。

（１－２）問合せ情報の解析
上記問合せ情報が入力されると、応対端末ＲＴＭは、問合せ内容解析部１１２の制御の下、ステップＳ１２において上記問合せ情報を解析する処理を以下のように行う。すなわち、先ず問合せ情報に含まれるデータ種別が音声であるかテキストであるかを判定する。この判定の結果、データ種別が音声であれば当該音声データをテキストデータに変換する処理を行う。そして、テキストデータに対し辞書記憶部１２２に記憶された辞書データを用いて、構文・意味解析および固有名詞抽出などの自然言語処理を行い、これにより問い合わせの内容を解析する。

（１－３）チャットボット応対情報の生成と出力
応対端末ＲＴＭは、次にチャットボット応対情報生成出力部１１３の制御の下、先ずステップＳ１３において、例えば機械学習やルールベースを用いた抽出／分類処理を実行することにより、上記解析された問合せ内容に対応する応対パターンを応対パターン記憶部１２３から選択する。このとき応対パターンには、応答音声データと共に、アバターの表情（瞬きを含む）および仕草（手や腕の動き、顔の向きを含む）を制御するための座標データが含まれている。

チャットボット応対情報生成出力部１１３は、続いてステップＳ１４において、キャラクタデータ記憶部１２４からアバターの画像データを読み出し、このアバターの画像データ上に定義された目、鼻、口、手または腕、顔の向き等の各部位の座標値を、上記応対パターンに含まれる表情（瞬きを含む）および仕草（手や腕の動き、顔の向きを含む）の制御データに基づいて制御することにより、表情および仕草が上記応対パターンに応じて変化するアバター画像を生成する。またその際、応対パターンに含まれる応答音声データに同期して、応答音声が発生される期間にアバターの口唇部を動かすリップシンク処理を行う。

そしてチャットボット応対情報生成出力部１１３は、生成された上記アバターの画像データを入出力Ｉ／Ｆ１４へ出力し、表示部１６に表示させる。またそれと共に、応対パターンに含まれる応答音声データを、上記アバターの画像データと同期させて入出力Ｉ／Ｆ１４へ出力し、スピーカ１８から拡声出力させる。以後、ユーザが問合せ情報を入力するごとに、以上述べたステップＳ１１～Ｓ１４によるチャットボット応対処理が行われる。

なお、上記アバターの画像データとしては、顔画像に限らず上半身画像や全身画像であってもよく、また２Ｄ画像に限らず３Ｄ画像であってもよい。また、周辺等の現実空間の映像に上記アバターの画像データ等を合成した拡張現実（Augmented Reality；ＡＲ）画像を表示させるようにしてもよい。

（２）テレイグジスタンスモードによる動作
（２－１）エスカレーション動作
上記チャットボットモードによる応対では解決されない問合せを行う場合、ユーザはチャットボットモード待受画面に設けられているオペレータ呼出しボタン１５２を押下する。なお、オペレータの呼出し要求は、音声メッセージの入力によって行われるようにしてもよい。

応対端末ＲＴＭは、エスカレーション制御部１１４の制御の下、ステップＳ１５により上記オペレータの呼出し要求を検出すると、ステップＳ１６において応対端末ＲＴＭの応対モードをチャットボットモードからテレイグジスタンスモードに切り替える。またそれと同時に、ＷｅｂＲＴＣサーバＳＶ１に対しオペレータ端末ＯＴＭへの接続を要求し、この接続要求に対し応対端末ＲＴＭとオペレータ端末ＯＴＭとの間がＰ２Ｐ接続されると、エスカレーション切替要求をオペレータ端末ＯＴＭへ送信する。

一方、オペレータ端末ＯＴＭは、上記ＷｅｂＲＴＣサーバＳＶ１の制御により応対端末ＲＴＭとの間がＰ２Ｐ接続されると、エスカレーション制御部２１１の制御の下、ステップＳ３０においてエスカレーション切替要求を受信する。そして、エスカレーション切替要求が受信されると、エスカレーション制御部２１１はステップＳ３１において、呼出しが発生したことを、光の点滅、鳴音、あるいは表示メッセージによりオペレータに報知する。

（２－２）オペレータ端末ＯＴＭの応対動作
上記呼出しの報知に対しオペレータが応答操作を行うと、以後応対端末ＲＴＭとオペレータ端末ＯＴＭは、協働してテレイグジスタンスモードによる応対動作を以下のように実行する。図９はその動作の手順の一例を示す図である。

すなわち、応対端末ＲＴＭは、問合せ情報転送部１１５の制御の下、ステップＳ１７において、ユーザが入力した音声データによる問合せ情報を通信Ｉ／Ｆ１３からオペレータ端末ＯＴＭへ転送する。なお、このとき応対端末ＲＴＭにＷｅｂカメラが備えられている場合には、このＷｅｂカメラによりユーザの顔または上半身の画像データを取得し、この画像データを音声データと共にオペレータ端末ＯＴＭへ転送するようにしてもよい。

これに対しオペレータ端末ＯＴＭは、問合せ情報受信出力部２１２の制御の下、ステップＳ３２で問合せ情報の到来を検出すると、ステップＳ３３において、上記問合せ情報を通信Ｉ／Ｆ２３を介して受信し、受信された問合せ情報に含まれるユーザの音声データを入出力Ｉ／Ｆ２４へ出力して、スピーカ３２から音声として拡声出力する。そして、オペレータの応対動作をステップＳ３４で検出すると、応対情報生成送信部２１３の制御の下、以下のようにオペレータ応対情報の生成および送信処理を実行する。

すなわち、応対情報生成送信部２１３は、マイクロフォン３１に入力されたオペレータＯＰの送話音声を入出力Ｉ／Ｆ２４を介して取得すると共に、カメラ２８により撮影されたオペレータＯＰの顔画像をセンサＩ／Ｆ２７を介して取得する（図９中の(1)）。また、三次元モーションセンサデバイス２９により検出されたオペレータＯＰの手または腕の動きを示す検出データを、センサＩ／Ｆ２７を介して取得する（図９中の(2)）。

そして応対情報生成送信部２１３は、ステップＳ３５において、取得された上記音声データを一定の周期で符号化する。また、一定の周期でフェイストラッキング処理を行って、顔画像データからオペレータＯＰの顔の表情を表す複数の部位、例えば目、鼻、口、顔の輪郭の位置を検出し、検出された各部位の位置を座標データに変換する（図９中の(3)）。またそれと共に、三次元モーションセンサデバイス２９の検出データをもとに、オペレータＯＰのジェスチャを表す手または腕の動きを検出して座標データに変換する。なお、応対端末ＲＴＭが３Ｄアバターを使用する場合に備え、顔画像データをもとに顔の奥行きを検出して座標データに変換するようにしてもよい。

応対情報生成送信部２１３は、以上のように得られた符号化音声データおよび各座標データをオペレータ応対情報に含め、このオペレータ応対情報を通信Ｉ／Ｆ２３から応対端末ＲＴＭへ送信する（図９中の(4)）。なお、オペレータＯＰが応対に必要な資料を選択した場合には、当該資料情報を資料記憶部２２１から読み出して上記オペレータ応対情報に含める。またオペレータがＷｅｂサイトから資料をダウンロードした場合には、ダウンロードされた資料を上記オペレータ応対情報に含める。

（２－３）応対端末ＲＴＭによるテレイグジスタンス動作
応対端末ＲＴＭは、上記問合せ情報をオペレータ端末ＯＴＭへ転送しながら、オペレータ応対情報受信部１１６の制御の下、ステップＳ１８でオペレータ応対情報の受信を監視している。この状態で、オペレータ応対情報が受信されると、テレイグジスタンス応対情報生成出力部１１７の制御の下、ステップＳ１９において以下のようにテレイグジスタンス応対情報を生成し出力させる（図９中の(5)）。

すなわち、先ずテレイグジスタンス応対情報生成出力部１１７は、オペレータ応対情報に含まれるオペレータＯＰの送話音声データを入出力Ｉ／Ｆ１４へ出力してスピーカ１８から応対音声として出力させる。

またそれと共に、テレイグジスタンス応対情報生成出力部１１７は、受信された上記オペレータ応対情報に含まれる、オペレータＯＰの顔の表情を表す目、鼻、口の座標データと、顔の向きを表す輪郭の座標データと、オペレータＯＰのジェスチャを表す手または腕の座標データを、アバター画像の対応する各部位の座標に反映させる。このとき、目の瞬きについても連動の対象に含まれる。さらに、テレイグジスタンス応対情報生成出力部１１７は、上記オペレータ応対情報に含まれるオペレータＯＰの送話音声データをもとに、当該送話音声が発生している期間に上記アバターの口唇部を動かすリップシンク処理を行う。

そして、テレイグジスタンス応対情報生成出力部１１７は、生成された上記アバター画像と、上記オペレータ応対情報に含まれている資料情報とを一画面に配置したテレイグジスタンスモードの表示画像データを生成し、生成された上記表示画像データを入出力Ｉ／Ｆ１４へ出力して、表示部１６に表示させる。

図１０は、このとき表示されるテレイグジスタンスモード表示画面の一例を示すもので、アバターＡＢと資料情報ＷＤが並べて表示された場合を示している。また、図１１はオペレータの表情の変化に連動するアバターＡＢの表情の変化例を示している。

応対端末ＲＴＭおよびオペレータ端末ＯＴＭは、それぞれステップＳ２０およびステップＳ３７においてテレイグジスタンスモードの終了を監視している。そして、テレイグジスタンスモードが継続している状態では、オペレータＯＰの表情およびジェスチャがアバターＡＢの表情および仕草に反映されたアバター画像が生成され表示される。

これに対し、オペレータが応対終了操作を行うと、オペレータ端末ＯＴＭはそのまま応対処理を終了する。一方、応対端末ＲＴＭはエスカレーション制御部１１４の制御の下、ステップＳ２０からステップＳ１１に戻り、引き続きチャットボットモードによる応対処理を実行する。

（３）応対履歴情報の蓄積
応対端末ＲＴＭは、一人のユーザに対する応対動作が終了し、ステップＳ２１でこの応対動作の終了を検知すると、応対履歴管理部１１８の制御の下、ステップＳ２２において、上記ユーザとの間で応答期間中に行われた問合せとそれに対する応対の過程で取得または生成された、問合せ情報、チャットボット応対情報およびオペレータ応対情報を、日時情報と関連付けることで応対履歴情報を生成する。そして、生成された応対履歴情報を通信Ｉ／Ｆ１３から応対分析用サーバＳＶ２へ送信し、記憶させる。記憶された応対履歴情報は、例えばシステム管理者が分析して応対パターンの更新を行うために使用される。

（作用・効果）
以上述べたように一実施形態では、チャットボットモードからテレイグジスタンスモードに切り替えられた状態で、オペレータ端末ＯＴＭにおいてオペレータＯＰの表情およびジェスチャを座標データに変換して、応答音声データと共に応対端末ＲＴＭへ送信し、応対端末ＲＴＭにおいて、上記オペレータ端末ＯＴＭから送られた座標データに基づいてアバターを生成することで、オペレータの表情およびジェスチャがアバターの表情および仕草に反映されたキャラクタ応対情報を生成して表示するようにしている。また、オペレータの音声の発話に同期してアバターの口唇部を動かす、いわゆるリップシンク処理を行うようにしている。

従って、あたかもオペレータがアバターに憑依したようにアバターがオペレータの応対動作に連動することになり、これによりユーザはチャットボットモードからテレイグジスタンスモードに切り替わった後に、違和感を覚えることなく問合せを継続することが可能となる。また、オペレータの顔などの個人情報がユーザに直接知られる心配が軽減され、オペレータのプライバシーを保護してセキュリティを高めることができ、また事業者のオペレータ配置の自由度を高めることも可能となる。

また、オペレータ端末ＯＴＭでオペレータＯＰの表情およびジェスチャを座標データに変換して応対端末ＲＴＭへ送信しているので、オペレータＯＰの表情およびジェスチャを表す画像データをそのまま送信する場合に比べ、オペレータ応対情報の情報量を大幅に削減することができ、これにより伝送遅延の影響を低減してテレイグジスタンス画像の応答性を高めることができる。

［その他の実施形態］
（１）一実施形態では、オペレータの送話音声データはそのまま応対端末ＲＴＭのスピーカ１８から出力するようにした。しかし、それに限定されるものではなく、オペレータの送話音声データを、チャットボットモードにおいてアバターの送話音声として使用されている音質（周波数特性）に変換して出力するようにしてもよい。このようにすると、オペレータの音声はアバターの音声として出力されることになるため、テレイグジスタンスモードに切り替わったときにユーザが受ける違和感をさらに軽減することが可能となる。

（２）一実施形態では、オペレータの表情およびジェスチャをアバターに連動させる際の対象として、瞬き、表情、顔の向き、手、口唇部とした場合を例にとって説明したが、顔の左右または前後の傾きや眉の位置などを連動対象に加えてもよい。またその反対に、表情のみを連動対象とするようにしてもよい。

（３）一実施形態では、応対端末ＲＴＭが受付カウンタなどに設置され、ユーザが応対端末と対面して問合せを行う場合を例にとって説明した。しかし、この発明はこれに限るものではなく、例えばユーザが携帯端末や据置型のパーソナルコンピュータ等のユーザ端末を使用し、このユーザ端末からネットワークを介して応対端末に問合せ情報を送信し、応対端末がこの問合せ情報を受信し、オペレータと協働してテレイグジスタンスモードによる応対動作を行う場合にも、この発明は適用できる。

（４）応対端末ＲＴＭとオペレータ端末ＯＴＭとをグルーピングする機能を持たせるようにしてもよい。これは、例えば、ＷｅｂＲＴＣサーバＳＶ１が、グループを構成する応対端末ＲＴＭとオペレータ端末ＯＴＭに与える接続先情報（ＩＰアドレス）を、事前にシグナリングサーバに登録しておく。そして、応対端末ＲＴＭとオペレータ端末ＯＴＭとがテレイグジスタンスモードによる応対動作を行う際に、上記登録された接続先情報を所得してＰ２Ｐ通信のためのリンクを形成することで実現できる。
その他、応対端末およびオペレータ端末の構成や動作手順と処理内容、問合せ情報および応対情報の構成、アバター等のキャラクタの種類等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。

以上、本発明の実施形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。

要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

ＲＴＭ…応対端末
ＯＴＭ…オペレータ端末
ＳＶ１…ＷｅｂＲＴＣサーバ
ＳＶ２…応対分析用サーバ
ＮＷ…ネットワーク
１１，２１…制御部
１２，２２…記憶部
１３，２３…通信Ｉ／Ｆ
１４，２４…入出力Ｉ／Ｆ
１５，２５…入力部
１６，２６…表示部
１７，３１…マイクロフォン
１８，３２…スピーカ
１９，３０…バス
２７…センサＩ／Ｆ
２８…カメラ
２９…三次元モーションセンサデバイス
１１１…問合せ情報受付部
１１２…問合せ内容解析部
１１３…チャットボット応対情報生成出力部
１１４，２１１…エスカレーション制御部
１１５…問合せ情報転送部
１１６…オペレータ応対情報受信部
１１７…テレイグジスタンス応対情報生成出力部
１１８…応対履歴管理部
１２１…問合せ情報記憶部
１２２…辞書記憶部
１２３…応対パターン記憶部
１２４…キャラクタデータ記憶部
２１２…問合せ情報受信出力部
２１３…応対情報生成送信部
２２１…資料記憶部

Claims

ユーザの発話音声またはテキストデータを含む問合せ情報を受け取る応対端末と、前記応対端末との間で通信が可能なオペレータ端末とを具備するコミュニケーションシステムであって、
前記オペレータ端末は、
前記応対端末から送られる前記問合せ情報を受信する問合せ情報受信部と、
受信された前記問合せ情報に含まれる前記発話音声またはテキストデータの出力に対するオペレータの応答音声およびジェスチャを検出する検出部と、
検出された前記応答音声および前記ジェスチャを表す情報を含むオペレータ応対情報を生成し、生成された前記オペレータ応対情報を前記応対端末へ送信するオペレータ応対情報生成部と
を備え、
前記応対端末は、
前記オペレータ端末から送信された前記オペレータ応対情報を受信するオペレータ応対情報受信部と、
受信された前記オペレータ応対情報に含まれる前記応答音声および前記ジェスチャをキャラクタの動きに反映させた第１のキャラクタ応対情報を生成し、生成された前記第１のキャラクタ応対情報を前記ユーザに向け出力する第１のキャラクタ応対情報生成部と、
応対モードとして、前記応対端末が自律的に応対動作を行う自律応対モードと、前記応対端末が前記オペレータ端末と協働して応対動作を行うオペレータ応対モードとを選択的に設定する設定部と、
前記自律応対モードが設定された状態では、前記問合せ情報に含まれる発話音声またはテキストデータをもとに問合せ内容を認識し、認識された問合せ内容に対応する応対情報を前記キャラクタの動きに反映させた第２のキャラクタ応対情報を生成し、生成された前記第２のキャラクタ応対情報を前記ユーザに向け出力する第２のキャラクタ応対情報生成部と、
前記オペレータ応対モードが設定された状態では、前記問合せ情報を前記オペレータ端末へ転送する転送部と
を備える、コミュニケーションシステム。
前記オペレータ端末のオペレータ応対情報生成部は、検出された前記ジェスチャを二次元空間における座標値の変化として表し、この座標値の変化を表す情報を前記応答音声と共に前記オペレータ応対情報に含めて送信し、
前記応対端末の第１のキャラクタ応対情報生成部は、受信された前記オペレータ応対情報に含まれる前記座標値の変化を表す情報に基づいて前記キャラクタの動きを変化させる、請求項１に記載のコミュニケーションシステム。
前記応対端末の第１のキャラクタ応対情報生成部は、受信された前記オペレータ応対情報に含まれる送話音声の発話タイミングに同期しその発話期間に前記キャラクタの口唇部を動作させる、請求項１又は２に記載のコミュニケーションシステム。
オペレータ端末との間で通信が可能であり、ユーザの問合せに対し応対動作を行う応対端末装置であって、
前記オペレータ端末から送信される、オペレータの応答音声およびジェスチャを表す情報を含むオペレータ応対情報を受信する受信部と、
受信された前記オペレータ応対情報に含まれる前記応答音声および前記ジェスチャを、キャラクタの動きに反映させた第１のキャラクタ応対情報を生成し、生成された前記第１のキャラクタ応対情報を前記ユーザに向け出力する第１のキャラクタ応対情報生成部と、
応対モードとして、前記応対端末が自律的に応対動作を行う自律応対モードと、前記応対端末が前記オペレータ端末と協働して応対動作を行うオペレータ応対モードとを選択的に設定する設定部と、
前記自律応対モードが設定された状態では、前記ユーザの発話音声またはテキストデータを含む問合せ情報をもとに問合せ内容を認識し、認識された問合せ内容に対応する応対情報を前記キャラクタの動きに反映させた第２のキャラクタ応対情報を生成し、生成された前記第２のキャラクタ応対情報を前記ユーザに向け出力する第２のキャラクタ応対情報生成部と、
前記オペレータ応対モードが設定された状態では、前記問合せ情報を前記オペレータ端末へ転送する転送部と
を具備する応対端末装置。
請求項４に記載の応対端末が具備する前記各部の処理を、前記応対端末装置が備えるプロセッサに実行させるプログラム。