JP7411369B2 - コミュニケーションシステム、応対端末装置およびそのプログラム - Google Patents

コミュニケーションシステム、応対端末装置およびそのプログラム Download PDF

Info

Publication number
JP7411369B2
JP7411369B2 JP2019181602A JP2019181602A JP7411369B2 JP 7411369 B2 JP7411369 B2 JP 7411369B2 JP 2019181602 A JP2019181602 A JP 2019181602A JP 2019181602 A JP2019181602 A JP 2019181602A JP 7411369 B2 JP7411369 B2 JP 7411369B2
Authority
JP
Japan
Prior art keywords
operator
reception
response
information
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019181602A
Other languages
English (en)
Other versions
JP2021056940A (ja
Inventor
勇気 津田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Communications Corp
Original Assignee
NTT Communications Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Communications Corp filed Critical NTT Communications Corp
Priority to JP2019181602A priority Critical patent/JP7411369B2/ja
Publication of JP2021056940A publication Critical patent/JP2021056940A/ja
Application granted granted Critical
Publication of JP7411369B2 publication Critical patent/JP7411369B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • User Interface Of Digital Computer (AREA)

Description

この発明の実施形態は、例えばチャットボットを用いたコミュニケーションシステムとこのシステムで使用される応対端末装置およびプログラムに関する。
チャットボット(ChatBOT)を使用して、ネットワークを利用した問合せや来客の応対を行うコミュニケーションシステムが種々開発されている。チャットボットとは、例えばテキストデータや音声を通じて自動的に会話するプログラムのことで、ユーザのテキストデータや音声から質問内容を認識し、それに対応する応答をデータベースから選択して出力するように動作する。また、チャットボットを用いたコミュニケーションシステムには、必要に応じてチャットボットから人のオペレータに切り替えて以後オペレータが応対する、いわゆるエスカレーション機能を備えるものもある(例えば非特許文献1を参照)。
"Communication Engine COTOHA(登録商標) Virtual Assistant"、NTTコミュニケーションズ、インターネット<URL; https://www.ntt.com/business/services/application/ai/cotoha.html>
ところが従来のシステムは、エスカレーションを実行した場合に、通常では人のオペレータが直接応対するものとなっているため、オペレータの顔などがユーザに知られてしまいプライバシーが脅かされるおそれがある。また、ユーザにとっても、アバターから人のオペレータに切り替わったときの違和感から、問合せを円滑に継続できなくなることがある。
この発明は、上記事情に着目してなされたもので、一側面では、エスカレーションを行ったときの応対上のセキュリティおよび品質の向上を図った技術を提供しようとするものである。
上記課題を解決するためにこの発明に係るコミュニケーションシステムの一態様は、ユーザの発話音声またはテキストデータを含む問合せ情報を受け取る応対端末と、前記応対端末との間で通信が可能なオペレータ端末とを具備するコミュニケーションシステムであって、前記オペレータ端末は、前記応対端末から送られる前記問合せ情報を受信する問合せ情報受信部と、受信された前記問合せ情報に含まれる前記発話音声またはテキストデータの出力に対するオペレータの応答音声およびジェスチャを検出する検出部と、検出された前記応答音声およびジェスチャを表す情報を含むオペレータ応対情報を生成し、生成された前記オペレータ応対情報を前記応対端末へ送信するオペレータ応対情報生成部を備える。また、前記応対端末は、前記オペレータ端末から送信された前記オペレータ応対情報を受信するオペレータ応対情報受信部と、受信された前記オペレータ応対情報に含まれる前記応答音声およびジェスチャをキャラクタの動きに反映させた第1のキャラクタ応対情報を生成し、生成された前記第1のキャラクタ応対情報を前記ユーザに向け出力する第1のキャラクタ応対情報生成部を備え、さらに応対モードとして、前記応対端末が自律的に応対動作を行う自律応対モードと、前記応対端末が前記オペレータ端末と協働して応対動作を行うオペレータ応対モードとを選択的に設定する設定部と、前記自律応対モードが設定された状態では、前記問合せ情報に含まれる発話音声またはテキストデータをもとに問合せ内容を認識し、認識された問合せ内容に対応する応対情報を前記キャラクタの動きに反映させた第2のキャラクタ応対情報を生成し、生成された前記第2のキャラクタ応対情報を前記ユーザに向け出力する第2のキャラクタ応対情報生成部と、前記オペレータ応対モードが設定された状態では、前記問合せ情報を前記オペレータ端末へ転送する転送部とを備えるようにしたものである。
この発明の一態様によれば、応対端末において、オペレータの送話音声およびジェスチャがキャラクタの動きに反映されたキャラクタ応対情報が生成され、ユーザに向け出力される。すなわち、あたかもオペレータがキャラクタに憑依したようにキャラクタがオペレータの応対動作に連動するため、ユーザは違和感を覚えることなく問合せを継続することが可能となる。また、オペレータの顔などの個人情報がユーザに直接知られる心配が軽減され、オペレータのプライバシーを保護してセキュリティを高めることができ、また事業者のオペレータ配置の自由度を高めることも可能となる。
すなわちこの発明の一態様によれば、エスカレーションを行ったときの応対のセキュリティおよび品質の向上を図った技術を提供することができる。
図1は、この発明の一実施形態に係るコミュニケーションシステムの概略構成図である。 図2は、図1に示したシステムの応対端末のハードウェア構成の一例を示すブロック図である。 図3は、図1に示したシステムの応対端末のソフトウェア構成の一例を示すブロック図である。 図4は、図1に示したシステムのオペレータ端末のハードウェア構成の一例を示すブロック図である。 図5は、図1に示したシステムのオペレータ端末のソフトウェア構成の一例を示すブロック図である。 図6は、図3に示した応対端末による応対制御の処理手順と処理内容の一例を示すフローチャートである。 図7は、図5に示したオペレータ端末による応対制御の処理手順と処理内容の一例を示すフローチャートである。 図8は、チャットボットモードにおいて応対端末に表示される応対画面の一例を示す図である。 図9は、テレイグジスタンスモードにおけるオペレータとアバターとの連動動作を説明するための図である。 図10は、テレイグジスタンスモードにおいて応対端末に表示される応対画面の一例を示す図である。 図11は、テレイグジスタンスモードにおけるアバターの変化の一例を示す図である。
以下、図面を参照してこの発明に係わる実施形態を説明する。
[一実施形態]
(構成例)
(1)システム
図1は、この発明の一実施形態に係るコミュニケーションシステムの概略構成図である。
このシステムは、応対端末RTMと、オペレータ端末OTMと、Web Real-Time Communication(RTC)サーバSV1と、応対分析用サーバSV2とを備え、これらの端末RTM,OTMおよびサーバSV1,SV2はネットワークNWを介してデータ通信が可能になっている。
WebRTCサーバSV1は、例えばWebブラウザを介して映像や音声等の容量が大きいデータをリアルタイムに送受信するもので、ピアツーピア(Peer to Peer:P2P)通信を可能にする仕組みを有している。この例では、応対端末RTMとオペレータ端末OTMとの間でデータ通信を行う場合に、リンクL1,L2によりそれぞれ応対端末RTMおよびオペレータ端末OTMに対しIPアドレスを付与し、以後応対端末RTMとオペレータ端末OTMとの間でリンクL3を介してP2P通信を可能にする。
応対分析用サーバSV2は、応対端末RTMおよびオペレータ端末OTMにより行われた応対の内容を表す応対履歴情報を蓄積して、分析に供する機能を有する。応対履歴情報を分析することにより、応対端末RTMがチャットボット機能により自律的に応対を行う際の応対のパターン、つまりFAQ(Frequently Asked Question)をさらに適切なデータとなるように学習することが可能となる。
ネットワークNWは、インターネットを含むIP網と、このIP網にアクセスするためのアクセス網とから構成される。アクセス網としては、例えば公衆有線網や携帯電話網、有線LAN(Local Area Network)、無線LAN、CATV(Cable Television)等が用いられる。
(2)装置
(2-1)応対端末RTM
応対端末RTMは、例えばサービスカウンタやオフィス等の受付カウンタに設置されるもので、パーソナルコンピュータに、タッチパネル型の入力部と、透明な有機発光素子(Organic Light-Emitting Diode:OLED)や等身大サイズの透明スクリーン等を使用した表示部を接続したものとなっている。
図2および図3は、それぞれ応対端末RTMのハードウェア構成およびソフトウェア構成を示すブロック図である。
応対端末RTMは、中央処理ユニット(Central Processing Unit:CPU)等のハードウェアプロセッサを有する制御部11を備える。そして、この制御部11に対しバス19を介して記憶部12、通信インタフェース(通信I/F)13および入出力インタフェース(入出力I/F)14を接続したものとなっている。
通信I/F13は、制御部11の制御の下、ネットワークNWを介して上記WebRTCサーバSV1、オペレータ端末OTMおよび応対分析用サーバSV2との間で、制御信号およびデータの送受信を行うために有線インタフェースを有する。なお、通信I/F3としては、例えば無線LANやBluetooth(登録商標)等の無線インタフェースを使用することもできる。
入出力I/F14には、入力部15および表示部16と、ユーザとの間で音声会話を行うために使用するマイクロフォン17およびスピーカ18が接続されている。入力部15には、例えば前述したタッチパネル型のディスプレイが用いられるが、キーボードやマウスを使用したものであっても構わない。表示部16には、例えば前述した透明OLEDや等身大サイズの透明スクリーン等を使用したディスプレイが用いられる。
入出力I/F14は、マイクロフォン17で検出されたユーザの音声をデジタル音声データに変換して制御部11へ出力すると共に、制御部11から出力される応答音声データをアナログ音声信号に変換してスピーカ18から出力させる。入出力I/F14は、入力部15により入力された操作情報を制御部11に通知すると共に、制御部11から出力されるキャラクタを含む応対用表示データを表示部16に表示させる。
なお、応対端末RTMには、ユーザの様子を撮影するカメラを備えるようにしてもよく、この場合は入出力I/F14にカメラインタフェース機能を追加することで対応可能である。
記憶部12は、例えば、主記憶媒体としてSSD(Solid State Drive)等の随時書込みおよび読出しが可能な不揮発性メモリを使用する。なお、記憶媒体は、上記SSDに加えて、あるいは代えて、HDD(Hard Disk Drive)、ROM(Read Only Memory)およびRAM(Random Access Memory)を組み合わせたものを使用してもよい。
記憶部12の記憶領域には、プログラム記憶領域およびデータ記憶領域が設けられている。プログラム記憶領域には、OS(Operating System)等のミドルウェアに加えて、この発明の一実施形態に係る制御処理を実行するために必要なアプリケーション・プログラムが格納される。
データ記憶領域には、この発明の一実施形態を実施する上で必要な記憶部として、問合せ情報記憶部121と、辞書記憶部122と、応対パターン記憶部123と、キャラクタデータ記憶部124が記憶されている。
問合せ情報記憶部121は、ユーザが入力した発話音声またはテキストデータからなる問合せ情報を一時保存するために使用される。辞書記憶部122には、上記問合せ情報として入力されたユーザの発話音声またはテキストデータを解析して問合せ内容を認識するために必要な辞書データが記憶されている。応対パターン記憶部123には、想定される問合せ内容に対する応対パターン、すなわちFAQ(Frequently Asked Question)を表す情報が記憶されている。
キャラクタデータ記憶部124には、キャラクタとして使用される少なくとも1種類のアバターの画像データが記憶される。アバターの画像データは、二次元CG画像データまたは三次元CG画像データにより構成される。これらの画像データはその各部位の位置が座標データにより定義され、座標データを与えることでアバターの表情や仕草を変化させることが可能となっている。
例えば、アバターの目、鼻および口の位置が座標データにより定義され、これらの座標データによりアバターの表情を変化させることができる。また、手および腕の位置も座標データにより定義され、この座標データによりアバターの仕草(ジェスチャ)を制御することが可能である。ほかに、瞬き、口唇部、顔の向き、奥行きなどについても座標データにより変化させることが可能となっている。
制御部11は、この発明の一実施形態に係る制御処理機能として、問合せ情報受付部111と、問合せ内容解析部112と、チャットボット応対情報生成出力部113と、エスカレーション制御部114と、問合せ情報転送部115と、オペレータ応対情報受信部116と、テレイグジスタンス応対情報生成出力部117と、応対履歴管理部118とを備えている。これらの処理部111~118は、いずれも記憶部12内のプログラム記憶領域に格納されたアプリケーション・プログラムをハードウェアプロセッサに実行させることにより実現される。
エスカレーション制御部114は、応対端末RTMの応対モードを制御するもので、応対開始時には応対端末RTMが自律的に応対処理を行う自律応対モード(以後チャットボットモードとも云う)を設定する。また、ユーザが入力部15においてオペレータへの接続を要求する接続要求ボタンを操作するかあるいはその旨の音声要求メッセージを入力した場合に、応対端末RTMの応対モードを、オペレータと応対端末RTMとが協働して応対処理を行うオペレータ応対モード(以後テレイグジスタンスモードとも云う)に設定する処理を行う。
問合せ情報受付部111は、応対モードがチャットボットモードおよびテレイグジスタンスモードのいずれに設定されている場合にも、マイクロフォン17に入力されたユーザの発話音声データまたは入力部15においてユーザが入力したテキストデータを、ユーザの問合せ情報として入出力I/F14から受け取り、受け取った問合せ情報を問合せ情報記憶部121に一旦保存する処理を行う。
問合せ内容解析部112は、チャットボットモードが設定されているときに動作し、辞書記憶部122に記憶された辞書データを用い、上記問合せ情報記憶部121に保存された問合せ情報に対し構文・意味解析および固有名詞抽出などの自然言語処理を行って、問い合わせの内容を解析する。なお、問合せ情報に含まれるデータ種別が音声データの場合には、問合せ内容解析部112は上記自然言語処理に先立ち音声データをテキストデータに変換する。
チャットボット応対情報生成出力部113は、上記問合せ内容解析部112により解析された問合せ内容に対応する応対パターンを応対パターン記憶部123から選択する処理を行う。この処理には、例えば機械学習やルールベースを用いた抽出/分類処理が用いられる。
チャットボット応対情報生成出力部113は、選択された上記応対パターンに含まれる表情(瞬きを含む)および仕草(手や腕の動き、顔の向きを含む)の制御データ(座標データ)に基づいて、キャラクタデータ記憶部124から読み出されるアバターの画像データの座標を制御することで、表情および仕草が上記応対パターンに応じて変化するアバター画像を生成する。その際、応対パターンに含まれる応答音声に同期してアバターの口唇部を動かすリップシンク処理も行う。そして、生成された上記アバターの画像データを入出力I/F14を介して表示部16へ出力し、表示させる。
チャットボット応対情報生成出力部113は、上記応対パターンに含まれる応答音声データを、上記アバターの画像データと同期させて入出力I/F14へ出力し、スピーカ18から拡声出力させる。
問合せ情報転送部115は、テレイグジスタンスモードが設定されているときに動作し、上記問合せ情報受付部111が受け取ったユーザの問合せ情報を通信I/F13からオペレータ端末OTMへ転送する処理を行う。
オペレータ応対情報受信部116は、テレイグジスタンスモードが設定されている状態で、オペレータ端末OTMから送信されたオペレータ応対情報を通信I/F13を介して受信する処理を行う。
テレイグジスタンス応対情報生成出力部117は、上記オペレータ端末OTMから送られたオペレータ応対情報に対応するキャラクタ応対情報を生成し、表示部16に表示させる処理を行う。このキャラクタ応対情報の生成処理は、オペレータ応対情報に含まれるオペレータの表情およびジェスチャをアバターの表情および仕草に反映させる処理であり、詳細は後述する。また上記生成処理には、オペレータの応答音声の発生に応じてアバターの口唇部を動かすリップシンク処理も含まれる。
応対履歴管理部118は、応対期間中に上記問合せ情報受付部111により受け取った問合せ情報、上記オペレータ応対情報受信部116により受信されたオペレータ応対情報、および上記テレイグジスタンス応対情報生成出力部117により生成された応対情報を、応対終了後に、日時情報と紐づけて応対分析用サーバSV2に記憶させる処理を行う。
(2-2)オペレータ端末OTM
オペレータ端末OTMは、サーバ装置SVは、例えばコールセンタに設置され、IPベースでテレビジョン音声通話を行う機能を備えている。
図4および図5は、それぞれオペレータ端末OTMのハードウェア構成およびソフトウェア構成を示すブロック図である。
オペレータ端末OTMは、CPU等のハードウェアプロセッサを有する制御部21を備える。そして、この制御部21に対しバス30を介して記憶部22、通信インタフェース(通信I/F)23、入出力インタフェース(入出力I/F)24およびセンサインタフェース(センサI/F)27を接続したものとなっている。
通信I/F23は、制御部21の制御の下、ネットワークNWを介してWebRTCサーバSV1および応対端末RTMとの間で制御信号およびデータの送受信を行うもので、例えば有線インタフェースを有している。
入出力I/F24には、入力部25および表示部26と、オペレータがユーザとの間で音声通話を行うために使用するヘッドセット型のマイクロフォン31およびスピーカ32が接続されている。入力部25および表示部26は、例えば液晶又は有機EL等のディスプレイ上に感圧式または静電容量検出方式を採用した入力検知シートを配置したタブレット型のデバイスからなる。なお、入力部25は、タッチパネル型デバイス以外に、キーボードやマウスを使用したものを用いてもよい。
入出力I/F24は、上記マイクロフォン31で検出されたオペレータの音声をデジタル音声データに変換して制御部21へ出力すると共に、制御部21から出力されたデジタル音声データをアナログ音声信号に変換してスピーカ32から出力させる。また入出力I/F24は、入力部25により検出された操作情報を制御部21に通知すると共に、制御部21から出力される表示データを表示部26に表示させる。
センサI/F27には、主としてオペレータの顔を撮影するカメラ28と、オペレータの手の動きを検出する三次元モーションセンサデバイス29が接続されている。カメラ28は例えばWebカメラからなる。三次元モーションセンサデバイス29としては例えばリープモーション(登録商標)が用いられる。
記憶部22は、例えば、主記憶媒体としてHDDまたはSSD等の随時書込みおよび読出しが可能な不揮発性メモリを使用する。なお、記憶媒体としては、ROMおよびRAMを組み合わせて使用してもよい。
記憶部22の記憶領域には、プログラム記憶領域およびデータ記憶領域が設けられている。プログラム記憶領域には、OS等のミドルウェアに加えて、この発明の一実施形態に係る各種制御処理を実行するために必要なプログラムが格納される。
データ記憶領域には、この発明の一実施形態を実施する上で必要な記憶部として、資料記憶部221が設けられている。資料記憶部221には、予想されるユーザの問合せ内容に対する応対に使用可能な各種資料情報が記憶されている。なお、資料情報は、予め作成して資料記憶部221に記憶しておいてもよいが、必要に応じてオペレータがWebサイト等から取得するようにしてもよい。
制御部21は、この発明の一実施形態に係る制御処理機能として、エスカレーション制御部211と、問合せ情報受信出力部212と、応対情報生成送信部213とを備えている。エスカレーション制御部211は、応対端末RTMからエスカレーションの通知が送られた場合に、オペレータにその旨を報知する。問合せ情報受信出力部212は、エスカレーション通知後に応対端末RTMから転送されるユーザの問合せ情報を通信I/F23を介して受信し、受信された問合せ情報に含まれる音声データを入出力I/F24を介してヘッドセットのスピーカ32へ出力する。
応対情報生成送信部213は、オペレータの応答音声をマイクロフォン31により検出すると共に、カメラ28により撮影された顔画像データをもとにオペレータの表情(瞬きを含む)を検出する。また応対情報生成送信部213は、オペレータのジェスチャ(手や腕の動き、顔の向きを含む)を上記撮影画像データ、あるいは三次元モーションセンサデバイス29の検出データから検出する。そして応対情報生成送信部213は、検出された上記応答音声を符号化すると共に、検出された上記オペレータの表情およびジェスチャを表す情報を座標データに変換する。この表情およびジェスチャを座標データへ変換する処理の一例は後述する。
応対情報生成送信部213は、上記符号化された応答音声データおよび上記変換された座標データと、オペレータの操作に応じて資料記憶部221から読み出された資料情報とを含めたオペレータ応対情報を生成し、生成されたオペレータ応対情報を通信I/F23から応対端末RTMへ送信する処理を行う。
(動作例)
次に、以上のように構成されたシステムの動作例を説明する。
図6は応対端末RTMの動作手順と処理内容の一例を示すフローチャート、図7はオペレータ端末OTMの動作手順と処理内容の一例を示すフローチャートである。
(1)チャットボットモード
(1-1)問合せ情報の取得
ユーザが応対端末RTMの前で立ち止まると、応対端末RTMは上記ユーザの接近を例えばカメラの撮像画像または近接センサにより検出し、先ずチャットボットモードの待受画面を表示部16に表示させる。図8は、チャットボットモードの待受画面の一例を示すもので、画面にはアバターAB、問合せメニューMU、問合せ開始ボタン151およびオペレータ呼出しボタン152が表示される。なお、上記チャットボットモードの待受画面は、常時表示されるようにしてもよいし、ユーザの要求操作に応じて表示されるようにしてもよい。
上記チャットボットモードの待受画面が表示された状態で、ユーザが問合せ開始ボタン151を操作すると、応対端末RTMは上記問合せ開始ボタン151の操作をステップS10で検出し、問合せ情報の入力待機状態となる。この状態で、ユーザが応対端末RTMに向かって例えば問合せ内容を音声により入力すると、この音声がマイクロフォン17により検出され、応対端末RTMは問合せ情報受付部111の制御の下、ステップS11で上記音声データを含む問合せ情報を取得して問合せ情報記憶部121に一旦保存する。
なお、問合せ情報の入力は、音声入力に限らず、メニューMUをタッチすることによっても行える。また、応対端末RTMがキーボード等の入力デバイスを備えている場合には、この入力デバイスの操作により入力されたテキストデータを問合せ情報として扱うようにしてもよい。
(1-2)問合せ情報の解析
上記問合せ情報が入力されると、応対端末RTMは、問合せ内容解析部112の制御の下、ステップS12において上記問合せ情報を解析する処理を以下のように行う。すなわち、先ず問合せ情報に含まれるデータ種別が音声であるかテキストであるかを判定する。この判定の結果、データ種別が音声であれば当該音声データをテキストデータに変換する処理を行う。そして、テキストデータに対し辞書記憶部122に記憶された辞書データを用いて、構文・意味解析および固有名詞抽出などの自然言語処理を行い、これにより問い合わせの内容を解析する。
(1-3)チャットボット応対情報の生成と出力
応対端末RTMは、次にチャットボット応対情報生成出力部113の制御の下、先ずステップS13において、例えば機械学習やルールベースを用いた抽出/分類処理を実行することにより、上記解析された問合せ内容に対応する応対パターンを応対パターン記憶部123から選択する。このとき応対パターンには、応答音声データと共に、アバターの表情(瞬きを含む)および仕草(手や腕の動き、顔の向きを含む)を制御するための座標データが含まれている。
チャットボット応対情報生成出力部113は、続いてステップS14において、キャラクタデータ記憶部124からアバターの画像データを読み出し、このアバターの画像データ上に定義された目、鼻、口、手または腕、顔の向き等の各部位の座標値を、上記応対パターンに含まれる表情(瞬きを含む)および仕草(手や腕の動き、顔の向きを含む)の制御データに基づいて制御することにより、表情および仕草が上記応対パターンに応じて変化するアバター画像を生成する。またその際、応対パターンに含まれる応答音声データに同期して、応答音声が発生される期間にアバターの口唇部を動かすリップシンク処理を行う。
そしてチャットボット応対情報生成出力部113は、生成された上記アバターの画像データを入出力I/F14へ出力し、表示部16に表示させる。またそれと共に、応対パターンに含まれる応答音声データを、上記アバターの画像データと同期させて入出力I/F14へ出力し、スピーカ18から拡声出力させる。以後、ユーザが問合せ情報を入力するごとに、以上述べたステップS11~S14によるチャットボット応対処理が行われる。
なお、上記アバターの画像データとしては、顔画像に限らず上半身画像や全身画像であってもよく、また2D画像に限らず3D画像であってもよい。また、周辺等の現実空間の映像に上記アバターの画像データ等を合成した拡張現実(Augmented Reality;AR)画像を表示させるようにしてもよい。
(2)テレイグジスタンスモードによる動作
(2-1)エスカレーション動作
上記チャットボットモードによる応対では解決されない問合せを行う場合、ユーザはチャットボットモード待受画面に設けられているオペレータ呼出しボタン152を押下する。なお、オペレータの呼出し要求は、音声メッセージの入力によって行われるようにしてもよい。
応対端末RTMは、エスカレーション制御部114の制御の下、ステップS15により上記オペレータの呼出し要求を検出すると、ステップS16において応対端末RTMの応対モードをチャットボットモードからテレイグジスタンスモードに切り替える。またそれと同時に、WebRTCサーバSV1に対しオペレータ端末OTMへの接続を要求し、この接続要求に対し応対端末RTMとオペレータ端末OTMとの間がP2P接続されると、エスカレーション切替要求をオペレータ端末OTMへ送信する。
一方、オペレータ端末OTMは、上記WebRTCサーバSV1の制御により応対端末RTMとの間がP2P接続されると、エスカレーション制御部211の制御の下、ステップS30においてエスカレーション切替要求を受信する。そして、エスカレーション切替要求が受信されると、エスカレーション制御部211はステップS31において、呼出しが発生したことを、光の点滅、鳴音、あるいは表示メッセージによりオペレータに報知する。
(2-2)オペレータ端末OTMの応対動作
上記呼出しの報知に対しオペレータが応答操作を行うと、以後応対端末RTMとオペレータ端末OTMは、協働してテレイグジスタンスモードによる応対動作を以下のように実行する。図9はその動作の手順の一例を示す図である。
すなわち、応対端末RTMは、問合せ情報転送部115の制御の下、ステップS17において、ユーザが入力した音声データによる問合せ情報を通信I/F13からオペレータ端末OTMへ転送する。なお、このとき応対端末RTMにWebカメラが備えられている場合には、このWebカメラによりユーザの顔または上半身の画像データを取得し、この画像データを音声データと共にオペレータ端末OTMへ転送するようにしてもよい。
これに対しオペレータ端末OTMは、問合せ情報受信出力部212の制御の下、ステップS32で問合せ情報の到来を検出すると、ステップS33において、上記問合せ情報を通信I/F23を介して受信し、受信された問合せ情報に含まれるユーザの音声データを入出力I/F24へ出力して、スピーカ32から音声として拡声出力する。そして、オペレータの応対動作をステップS34で検出すると、応対情報生成送信部213の制御の下、以下のようにオペレータ応対情報の生成および送信処理を実行する。
すなわち、応対情報生成送信部213は、マイクロフォン31に入力されたオペレータOPの送話音声を入出力I/F24を介して取得すると共に、カメラ28により撮影されたオペレータOPの顔画像をセンサI/F27を介して取得する(図9中の(1))。また、三次元モーションセンサデバイス29により検出されたオペレータOPの手または腕の動きを示す検出データを、センサI/F27を介して取得する(図9中の(2))。
そして応対情報生成送信部213は、ステップS35において、取得された上記音声データを一定の周期で符号化する。また、一定の周期でフェイストラッキング処理を行って、顔画像データからオペレータOPの顔の表情を表す複数の部位、例えば目、鼻、口、顔の輪郭の位置を検出し、検出された各部位の位置を座標データに変換する(図9中の(3))。またそれと共に、三次元モーションセンサデバイス29の検出データをもとに、オペレータOPのジェスチャを表す手または腕の動きを検出して座標データに変換する。なお、応対端末RTMが3Dアバターを使用する場合に備え、顔画像データをもとに顔の奥行きを検出して座標データに変換するようにしてもよい。
応対情報生成送信部213は、以上のように得られた符号化音声データおよび各座標データをオペレータ応対情報に含め、このオペレータ応対情報を通信I/F23から応対端末RTMへ送信する(図9中の(4))。なお、オペレータOPが応対に必要な資料を選択した場合には、当該資料情報を資料記憶部221から読み出して上記オペレータ応対情報に含める。またオペレータがWebサイトから資料をダウンロードした場合には、ダウンロードされた資料を上記オペレータ応対情報に含める。
(2-3)応対端末RTMによるテレイグジスタンス動作
応対端末RTMは、上記問合せ情報をオペレータ端末OTMへ転送しながら、オペレータ応対情報受信部116の制御の下、ステップS18でオペレータ応対情報の受信を監視している。この状態で、オペレータ応対情報が受信されると、テレイグジスタンス応対情報生成出力部117の制御の下、ステップS19において以下のようにテレイグジスタンス応対情報を生成し出力させる(図9中の(5))。
すなわち、先ずテレイグジスタンス応対情報生成出力部117は、オペレータ応対情報に含まれるオペレータOPの送話音声データを入出力I/F14へ出力してスピーカ18から応対音声として出力させる。
またそれと共に、テレイグジスタンス応対情報生成出力部117は、受信された上記オペレータ応対情報に含まれる、オペレータOPの顔の表情を表す目、鼻、口の座標データと、顔の向きを表す輪郭の座標データと、オペレータOPのジェスチャを表す手または腕の座標データを、アバター画像の対応する各部位の座標に反映させる。このとき、目の瞬きについても連動の対象に含まれる。さらに、テレイグジスタンス応対情報生成出力部117は、上記オペレータ応対情報に含まれるオペレータOPの送話音声データをもとに、当該送話音声が発生している期間に上記アバターの口唇部を動かすリップシンク処理を行う。
そして、テレイグジスタンス応対情報生成出力部117は、生成された上記アバター画像と、上記オペレータ応対情報に含まれている資料情報とを一画面に配置したテレイグジスタンスモードの表示画像データを生成し、生成された上記表示画像データを入出力I/F14へ出力して、表示部16に表示させる。
図10は、このとき表示されるテレイグジスタンスモード表示画面の一例を示すもので、アバターABと資料情報WDが並べて表示された場合を示している。また、図11はオペレータの表情の変化に連動するアバターABの表情の変化例を示している。
応対端末RTMおよびオペレータ端末OTMは、それぞれステップS20およびステップS37においてテレイグジスタンスモードの終了を監視している。そして、テレイグジスタンスモードが継続している状態では、オペレータOPの表情およびジェスチャがアバターABの表情および仕草に反映されたアバター画像が生成され表示される。
これに対し、オペレータが応対終了操作を行うと、オペレータ端末OTMはそのまま応対処理を終了する。一方、応対端末RTMはエスカレーション制御部114の制御の下、ステップS20からステップS11に戻り、引き続きチャットボットモードによる応対処理を実行する。
(3)応対履歴情報の蓄積
応対端末RTMは、一人のユーザに対する応対動作が終了し、ステップS21でこの応対動作の終了を検知すると、応対履歴管理部118の制御の下、ステップS22において、上記ユーザとの間で応答期間中に行われた問合せとそれに対する応対の過程で取得または生成された、問合せ情報、チャットボット応対情報およびオペレータ応対情報を、日時情報と関連付けることで応対履歴情報を生成する。そして、生成された応対履歴情報を通信I/F13から応対分析用サーバSV2へ送信し、記憶させる。記憶された応対履歴情報は、例えばシステム管理者が分析して応対パターンの更新を行うために使用される。
(作用・効果)
以上述べたように一実施形態では、チャットボットモードからテレイグジスタンスモードに切り替えられた状態で、オペレータ端末OTMにおいてオペレータOPの表情およびジェスチャを座標データに変換して、応答音声データと共に応対端末RTMへ送信し、応対端末RTMにおいて、上記オペレータ端末OTMから送られた座標データに基づいてアバターを生成することで、オペレータの表情およびジェスチャがアバターの表情および仕草に反映されたキャラクタ応対情報を生成して表示するようにしている。また、オペレータの音声の発話に同期してアバターの口唇部を動かす、いわゆるリップシンク処理を行うようにしている。
従って、あたかもオペレータがアバターに憑依したようにアバターがオペレータの応対動作に連動することになり、これによりユーザはチャットボットモードからテレイグジスタンスモードに切り替わった後に、違和感を覚えることなく問合せを継続することが可能となる。また、オペレータの顔などの個人情報がユーザに直接知られる心配が軽減され、オペレータのプライバシーを保護してセキュリティを高めることができ、また事業者のオペレータ配置の自由度を高めることも可能となる。
また、オペレータ端末OTMでオペレータOPの表情およびジェスチャを座標データに変換して応対端末RTMへ送信しているので、オペレータOPの表情およびジェスチャを表す画像データをそのまま送信する場合に比べ、オペレータ応対情報の情報量を大幅に削減することができ、これにより伝送遅延の影響を低減してテレイグジスタンス画像の応答性を高めることができる。
[その他の実施形態]
(1)一実施形態では、オペレータの送話音声データはそのまま応対端末RTMのスピーカ18から出力するようにした。しかし、それに限定されるものではなく、オペレータの送話音声データを、チャットボットモードにおいてアバターの送話音声として使用されている音質(周波数特性)に変換して出力するようにしてもよい。このようにすると、オペレータの音声はアバターの音声として出力されることになるため、テレイグジスタンスモードに切り替わったときにユーザが受ける違和感をさらに軽減することが可能となる。
(2)一実施形態では、オペレータの表情およびジェスチャをアバターに連動させる際の対象として、瞬き、表情、顔の向き、手、口唇部とした場合を例にとって説明したが、顔の左右または前後の傾きや眉の位置などを連動対象に加えてもよい。またその反対に、表情のみを連動対象とするようにしてもよい。
(3)一実施形態では、応対端末RTMが受付カウンタなどに設置され、ユーザが応対端末と対面して問合せを行う場合を例にとって説明した。しかし、この発明はこれに限るものではなく、例えばユーザが携帯端末や据置型のパーソナルコンピュータ等のユーザ端末を使用し、このユーザ端末からネットワークを介して応対端末に問合せ情報を送信し、応対端末がこの問合せ情報を受信し、オペレータと協働してテレイグジスタンスモードによる応対動作を行う場合にも、この発明は適用できる。
(4)応対端末RTMとオペレータ端末OTMとをグルーピングする機能を持たせるようにしてもよい。これは、例えば、WebRTCサーバSV1が、グループを構成する応対端末RTMとオペレータ端末OTMに与える接続先情報(IPアドレス)を、事前にシグナリングサーバに登録しておく。そして、応対端末RTMとオペレータ端末OTMとがテレイグジスタンスモードによる応対動作を行う際に、上記登録された接続先情報を所得してP2P通信のためのリンクを形成することで実現できる。
その他、応対端末およびオペレータ端末の構成や動作手順と処理内容、問合せ情報および応対情報の構成、アバター等のキャラクタの種類等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。
以上、本発明の実施形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。
要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
RTM…応対端末
OTM…オペレータ端末
SV1…WebRTCサーバ
SV2…応対分析用サーバ
NW…ネットワーク
11,21…制御部
12,22…記憶部
13,23…通信I/F
14,24…入出力I/F
15,25…入力部
16,26…表示部
17,31…マイクロフォン
18,32…スピーカ
19,30…バス
27…センサI/F
28…カメラ
29…三次元モーションセンサデバイス
111…問合せ情報受付部
112…問合せ内容解析部
113…チャットボット応対情報生成出力部
114,211…エスカレーション制御部
115…問合せ情報転送部
116…オペレータ応対情報受信部
117…テレイグジスタンス応対情報生成出力部
118…応対履歴管理部
121…問合せ情報記憶部
122…辞書記憶部
123…応対パターン記憶部
124…キャラクタデータ記憶部
212…問合せ情報受信出力部
213…応対情報生成送信部
221…資料記憶部

Claims (5)

  1. ユーザの発話音声またはテキストデータを含む問合せ情報を受け取る応対端末と、前記応対端末との間で通信が可能なオペレータ端末とを具備するコミュニケーションシステムであって、
    前記オペレータ端末は、
    前記応対端末から送られる前記問合せ情報を受信する問合せ情報受信部と、
    受信された前記問合せ情報に含まれる前記発話音声またはテキストデータの出力に対するオペレータの応答音声およびジェスチャを検出する検出部と、
    検出された前記応答音声および前記ジェスチャを表す情報を含むオペレータ応対情報を生成し、生成された前記オペレータ応対情報を前記応対端末へ送信するオペレータ応対情報生成部と
    を備え、
    前記応対端末は、
    前記オペレータ端末から送信された前記オペレータ応対情報を受信するオペレータ応対情報受信部と、
    受信された前記オペレータ応対情報に含まれる前記応答音声および前記ジェスチャをキャラクタの動きに反映させた第1のキャラクタ応対情報を生成し、生成された前記第1のキャラクタ応対情報を前記ユーザに向け出力する第1のキャラクタ応対情報生成部と
    応対モードとして、前記応対端末が自律的に応対動作を行う自律応対モードと、前記応対端末が前記オペレータ端末と協働して応対動作を行うオペレータ応対モードとを選択的に設定する設定部と、
    前記自律応対モードが設定された状態では、前記問合せ情報に含まれる発話音声またはテキストデータをもとに問合せ内容を認識し、認識された問合せ内容に対応する応対情報を前記キャラクタの動きに反映させた第2のキャラクタ応対情報を生成し、生成された前記第2のキャラクタ応対情報を前記ユーザに向け出力する第2のキャラクタ応対情報生成部と、
    前記オペレータ応対モードが設定された状態では、前記問合せ情報を前記オペレータ端末へ転送する転送部と
    を備える、コミュニケーションシステム。
  2. 前記オペレータ端末のオペレータ応対情報生成部は、検出された前記ジェスチャを二次元空間における座標値の変化として表し、この座標値の変化を表す情報を前記応答音声と共に前記オペレータ応対情報に含めて送信し、
    前記応対端末の第1のキャラクタ応対情報生成部は、受信された前記オペレータ応対情報に含まれる前記座標値の変化を表す情報に基づいて前記キャラクタの動きを変化させる、請求項1に記載のコミュニケーションシステム。
  3. 前記応対端末の第1のキャラクタ応対情報生成部は、受信された前記オペレータ応対情報に含まれる送話音声の発話タイミングに同期しその発話期間に前記キャラクタの口唇部を動作させる、請求項1又は2に記載のコミュニケーションシステム。
  4. オペレータ端末との間で通信が可能であり、ユーザの問合せに対し応対動作を行う応対端末装置であって、
    前記オペレータ端末から送信される、オペレータの応答音声およびジェスチャを表す情報を含むオペレータ応対情報を受信する受信部と、
    受信された前記オペレータ応対情報に含まれる前記応答音声および前記ジェスチャを、キャラクタの動きに反映させた第1のキャラクタ応対情報を生成し、生成された前記第1のキャラクタ応対情報を前記ユーザに向け出力する第1のキャラクタ応対情報生成部と
    応対モードとして、前記応対端末が自律的に応対動作を行う自律応対モードと、前記応対端末が前記オペレータ端末と協働して応対動作を行うオペレータ応対モードとを選択的に設定する設定部と、
    前記自律応対モードが設定された状態では、前記ユーザの発話音声またはテキストデータを含む問合せ情報をもとに問合せ内容を認識し、認識された問合せ内容に対応する応対情報を前記キャラクタの動きに反映させた第2のキャラクタ応対情報を生成し、生成された前記第2のキャラクタ応対情報を前記ユーザに向け出力する第2のキャラクタ応対情報生成部と、
    前記オペレータ応対モードが設定された状態では、前記問合せ情報を前記オペレータ端末へ転送する転送部と
    を具備する応対端末装置。
  5. 請求項に記載の応対端末が具備する前記各部の処理を、前記応対端末装置が備えるプロセッサに実行させるプログラム。
JP2019181602A 2019-10-01 2019-10-01 コミュニケーションシステム、応対端末装置およびそのプログラム Active JP7411369B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019181602A JP7411369B2 (ja) 2019-10-01 2019-10-01 コミュニケーションシステム、応対端末装置およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019181602A JP7411369B2 (ja) 2019-10-01 2019-10-01 コミュニケーションシステム、応対端末装置およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2021056940A JP2021056940A (ja) 2021-04-08
JP7411369B2 true JP7411369B2 (ja) 2024-01-11

Family

ID=75272625

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019181602A Active JP7411369B2 (ja) 2019-10-01 2019-10-01 コミュニケーションシステム、応対端末装置およびそのプログラム

Country Status (1)

Country Link
JP (1) JP7411369B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005071145A (ja) 2003-08-26 2005-03-17 Shinko Electric Co Ltd 発券システムおよび発券端末
JP2006048352A (ja) 2004-08-04 2006-02-16 Matsushita Electric Ind Co Ltd キャラクタ映像表示機能付き通信端末およびその制御方法
JP2016038601A (ja) 2014-08-05 2016-03-22 日本放送協会 Cgキャラクタ対話装置及びcgキャラクタ対話プログラム
US20170277993A1 (en) 2016-03-22 2017-09-28 Next It Corporation Virtual assistant escalation
JP2019149630A (ja) 2018-02-26 2019-09-05 パナソニックIpマネジメント株式会社 双方向映像通信システム及びキオスク端末
JP2019159880A (ja) 2018-03-14 2019-09-19 Kddi株式会社 応答装置、応答方法、応答プログラム及び応答システム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005071145A (ja) 2003-08-26 2005-03-17 Shinko Electric Co Ltd 発券システムおよび発券端末
JP2006048352A (ja) 2004-08-04 2006-02-16 Matsushita Electric Ind Co Ltd キャラクタ映像表示機能付き通信端末およびその制御方法
JP2016038601A (ja) 2014-08-05 2016-03-22 日本放送協会 Cgキャラクタ対話装置及びcgキャラクタ対話プログラム
US20170277993A1 (en) 2016-03-22 2017-09-28 Next It Corporation Virtual assistant escalation
JP2019149630A (ja) 2018-02-26 2019-09-05 パナソニックIpマネジメント株式会社 双方向映像通信システム及びキオスク端末
JP2019159880A (ja) 2018-03-14 2019-09-19 Kddi株式会社 応答装置、応答方法、応答プログラム及び応答システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
河野 泉 ほか,擬人化キャラクタを利用した知的対話システム Intelligent Interaction System Using a Human-like Computer Character Interface,情報処理学会研究報告 Vol.98 No.95 IPSJ SIG Notes,日本,社団法人情報処理学会 Information Processing Society of Japan,1998年10月17日,pp.19-24

Also Published As

Publication number Publication date
JP2021056940A (ja) 2021-04-08

Similar Documents

Publication Publication Date Title
US11403595B2 (en) Devices and methods for creating a collaborative virtual session
CN103530096B (zh) 远程控制方法、远程控制设备和显示设备
WO2020203999A1 (ja) コミュニケーション支援システム、コミュニケーション支援方法、および画像制御プログラム
US10176798B2 (en) Facilitating dynamic and intelligent conversion of text into real user speech
WO2018186416A1 (ja) 翻訳処理方法、翻訳処理プログラム、及び、記録媒体
US20090157223A1 (en) Robot chatting system and method
JP6175969B2 (ja) 情報処理装置、情報処理システム及びプログラム
KR20210060196A (ko) 아바타 메시지 서비스를 제공하는 서버, 방법 및 사용자 단말
JPWO2019155735A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP7411369B2 (ja) コミュニケーションシステム、応対端末装置およびそのプログラム
US20130093834A1 (en) Device, Method and System for Real-time Screen Interaction in Video Communication
KR20190035373A (ko) 혼합 현실에서의 가상 모바일 단말 구현 시스템 및 이의 제어 방법
KR20120079636A (ko) 다자간 회의에서 문서 작업 공유 방법
WO2021157530A1 (ja) 対話ユーザの感情情報の提供装置
CN114884914A (zh) 一种应用程序同屏交流方法、系统
JP2017163251A (ja) テレイグジスタンスを利用したコミュニケーションシステム
US11899846B2 (en) Customizable gesture commands
US11991220B2 (en) Electronic device performing call with user of metaverse and method for operating the same
JP6957067B1 (ja) 人とコミュニケーションを行うシステム及びそのためのプログラム
US20230178081A1 (en) Display control system, display control method and information storage medium
US20230215295A1 (en) Spatially accurate sign language choreography in multimedia translation systems
CN113850899A (zh) 数字人渲染方法、系统、存储介质和电子设备
KR100799160B1 (ko) 메신저와 로봇 연동 방법 및 장치
JP2022129633A (ja) 情報処理装置、情報処理システム、及びプログラム
KR20210112016A (ko) 증강현실을 이용한 영상통화 서비스를 제공하는 장치 및 방법

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220131

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220812

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20230113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230502

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230828

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231225

R150 Certificate of patent or registration of utility model

Ref document number: 7411369

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150