JP6708865B2 - 顧客応対システム及び顧客応対方法 - Google Patents

顧客応対システム及び顧客応対方法 Download PDF

Info

Publication number
JP6708865B2
JP6708865B2 JP2017212324A JP2017212324A JP6708865B2 JP 6708865 B2 JP6708865 B2 JP 6708865B2 JP 2017212324 A JP2017212324 A JP 2017212324A JP 2017212324 A JP2017212324 A JP 2017212324A JP 6708865 B2 JP6708865 B2 JP 6708865B2
Authority
JP
Japan
Prior art keywords
customer
voice
operator
character image
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017212324A
Other languages
English (en)
Other versions
JP2019086858A (ja
Inventor
淳二 高岡
淳二 高岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Usideu
Original Assignee
Usideu
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Usideu filed Critical Usideu
Priority to JP2017212324A priority Critical patent/JP6708865B2/ja
Publication of JP2019086858A publication Critical patent/JP2019086858A/ja
Application granted granted Critical
Publication of JP6708865B2 publication Critical patent/JP6708865B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、オペレータと顧客との間で双方向の応答を行って接客業務等を支援する顧客応対システム及び顧客応対方法に関する。
ネットワークに接続されたオペレータ側端末と顧客側端末との間で画像や音声を双方向に伝送し、接客業務等を支援するシステムとして、例えば、自動化可能な定型業務と自動化が困難な非定型業務とを区別し、オペレータと顧客とが遠隔でコミュニケーションする際に、定型業務ではコンピュータグラフィックス(CG)により製作されたキャラクタ画像による応答を行い、非定型業務ではTV電話によるオペレータとの直接的なコミュニケーション又はキャラクタ画像による代理応答を切り替え可能に構成した応答コールセンターシステムが開示されている(特許文献1)。
特開2005−51554号公報
特許文献1によれば、代理応答とはオペレータの実映像を顧客端末に送信する代わりにキャラクタ画像を送信して応答させる機能であり、その際のキャラクタ画像の動作はオペレータが遠隔操作するとされている。この遠隔操作は、キーボードによる動作選択であり、これにより複雑な動きも簡単な操作で制御可能になるとされている。また、代理応答においては、リップシンクによってオペレータの発話に基づいてキャラクタ画像の口の動きが決定される。
しかしながら、上述のごとく代理応答において、キャラクタ画像の動作はオペレータがキーボードを操作して選択するが、具体的には「おじぎする」や「指さしする」等の限定的な動作であり、例えリップシンクを行ったとしてもオペレータと顧客との間で自然かつ円滑なコミュニケーションを図ることは困難である。
また、特許文献1では、定型業務で用いられるキャラクタ画像(いくつかの固定パターン)と非定型業務で用いられるキャラクタ画像との同一性、あるいは類似性については言及されておらず、定型業務と非定型業務とで用いられるキャラクタ画像の同一性が損なわれている場合には、キャラクタ画像が切り替わった際に顧客が違和感を覚えることとなる。
本発明は、このような従来技術の課題を解決するべく案出されたものであり、その主な目的は、キャラクタ画像を介した顧客との応答においてオペレータと顧客との間で自然かつ円滑なコミュニケーションを成立させることが可能な、顧客応対システム及び顧客応対方法を提供することにある。
また、本発明の他の目的は、オペレータの実際の動きに基づくキャラクタ画像のモーションデータをデータベースに蓄積し、活用することで、オペレータが介在することなく、キャラクタ画像(仮想オペレータ)と顧客との間で自然かつ円滑なコミュニケーションを成立させることが可能な、顧客応対システム及び顧客応対方法を提供することにある。
前記課題を解決するためになされた本発明は、顧客2に対して情報を提供する顧客側端末1と、前記顧客側端末1に設けられ前記顧客2の音声を取得する第1マイク21と、前記第1マイク21で取得した音声を認識し、前記音声に含まれる語句を抽出する音声認識部72と、前記顧客2と応対する際のオペレータ4の動作を検出するモーション検出部5と、前記モーション検出部5の出力に基づいてモーションデータを生成するモーション認識部36と、前記モーションデータに基づいてキャラクタ画像80を生成するキャラクタ画像生成部15と、データベース73と、を備え、前記オペレータ4が前記顧客2と応対する際に、前記顧客側端末1に、前記キャラクタ画像生成部15で生成されたキャラクタ画像80を表示して、前記情報を提供するとともに、前記データベース73に前記モーションデータと前記音声認識部72で抽出された語句とを関連付けて記憶することを特徴とする顧客応対システムである。
これによって、キャラクタ画像を介した顧客との応答において、オペレータと顧客との間で自然かつ円滑なコミュニケーションを成立させることが可能となり、更にオペレータの実際の動きに基づくキャラクタ画像のモーションデータをデータベースに蓄積し、活用することが可能となる。
また、本発明は、前記顧客2の音声に含まれる語句と一致する語句が前記データベース73に記憶されている場合、前記データベース73に記憶された語句に対応する前記モーションデータに基づくキャラクタ画像80を前記顧客側端末1に表示し、前記顧客2の音声に含まれる語句と一致する語句が前記データベース73に記憶されていない場合、前記オペレータ4が前記顧客2に応対する際の動作を検出して得たモーションデータに基づくキャラクタ画像80を前記顧客側端末1に表示するようにしたものである。
これによって、顧客の発話に対してオペレータが介在する必要がない場合は、仮想オペレータと顧客との間で自然かつ円滑なコミュニケーションを成立させ、他方、顧客の発話に対して顧客応対システムが的確に応対できない状況では、オペレータを介在させることで顧客との間で自然かつ円滑なコミュニケーションを成立させることが可能となる。即ち、オペレータが介在するか否かにかかわらず顧客に対して的確なサービスを提供することが可能となる。
また、本発明は、前記顧客側端末1に設けられて前記顧客2を撮影するカメラ22と、前記カメラ22で撮影された画像に基づき、前記顧客2の満足度を推定する画像認識部35とを備え、前記顧客2の満足度を、前記音声認識部72で抽出された語句と対応付けて前記データベース73に記憶するようにしたものである。
これによって、キャラクタ画像を生成する際に、データベースに記憶された顧客の満足度を参酌することが可能となる。
また、本発明は、前記顧客側端末1に設けられて前記顧客を撮影するカメラ22と、前記カメラ22で撮像された画像に基づき、前記オペレータ4が判断した前記顧客2の満足度を、前記音声認識部72で抽出された語句と対応付けて前記データベース73に記憶するようにしたものである。
これによって、キャラクタ画像を生成する際に、データベースに記憶された顧客の満足度を参酌することが可能となる。
また、本発明は、前記顧客2の音声に含まれる語句と一致する語句が前記データベース73に複数記憶されている場合、より高い前記顧客2の満足度と対応する、前記データベース73に記憶された語句と関連づけられた前記モーションデータに基づくキャラクタ画像80を前記顧客側端末1に表示するようにしたものである。
これによって、キャラクタ画像を生成する際に、満足度を参酌することによって、より顧客の心証が良好なキャラクタ画像を生成することが可能となる。
また、本発明は、オペレータ4の音声を取得する第2マイク41と、前記第2マイク41で取得したオペレータの音声を前記キャラクタ画像80のキャラクタに対応した音声に変換する音声変換処理部37とを更に備え、前記顧客側端末1で、前記キャラクタ画像80の表示と同期して、前記音声変換処理部37で変換された音声を出力するようにしたものである。
これによって、複数のオペレータの声質が異なっていても、単一のキャラクタに対応する声質に変換することが可能となる。
本発明は、顧客2に対して情報を提供する際の顧客応対方法であって、前記顧客2と応対する際のオペレータ4の動作を検出し、検出された前記オペレータ4の動作に基づいてモーションデータを生成し、前記モーションデータに基づいてキャラクタ画像80を生成し、前記オペレータ4が前記顧客2と応対する際に、前記顧客2に対して、前記モーションデータに基づいて生成されたキャラクタ画像80を表示して、前記情報を提供するとともに、前記顧客2の音声を取得し、取得した前記音声を認識して、前記音声に含まれる語句を抽出し、前記モーションデータと前記音声を認識することで抽出された語句とを関連付けてデータベース73に記憶することを特徴とする顧客応対方法である。
これによって、キャラクタ画像を介した顧客との応答においてオペレータと顧客との間で自然かつ円滑なコミュニケーションを成立させることが可能となり、更にオペレータの実際の動きに基づくキャラクタ画像のモーションデータをデータベースに蓄積し、活用することが可能となる。
また、本発明は、前記顧客2の音声に含まれる語句と一致する語句が前記データベース73に記憶されている場合、前記データベース73に記憶された語句に対応する前記モーションデータに基づくキャラクタ画像80を前記顧客2に対して表示し、前記顧客2の音声に含まれる語句と一致する語句が前記データベース73に記憶されていない場合、前記オペレータ4が前記顧客2に応対する際の動作を検出して得たモーションデータに基づくキャラクタ画像80を前記顧客2に対して表示するようにしたものである。
これによって、顧客の発話に対してオペレータが介在する必要がない場合は、仮想オペレータと顧客との間で自然かつ円滑なコミュニケーションを成立させ、他方、顧客の発話に対して顧客応対システムが的確に応対できない状況では、オペレータを介在させることで顧客との間で自然かつ円滑なコミュニケーションを成立させることが可能となる。即ち、オペレータが介在するか否かにかかわらず顧客に対して的確なサービスを提供することが可能となる。
このように本発明によれば、キャラクタ画像を用いた顧客との応答においてオペレータと顧客との間で自然かつ円滑なコミュニケーションを成立させ、更にオペレータが介在しない状況においても、仮想オペレータと顧客との間で自然かつ円滑なコミュニケーションを成立させることができる顧客応対システム及び顧客応対方法を提供することが可能となる。
本発明の第1実施形態に係る顧客応対システムS1の概要を示す説明図 本発明の第1実施形態に係る顧客応対システムS1の構成を示すブロック構成図 本発明の第1実施形態においてオペレータ4と顧客2との双方向の応答の状況を説明する説明図 本発明の第1実施形態においてオペレータ4の動作を検出するモーションキャプチャの状況を説明する説明図 本発明の第2実施形態に係る顧客応対システムS2における各種データの流れ、及び顧客2との応対の内容を示す説明図 本発明の第2実施形態に係る顧客応対システムS2における顧客2との応対のプロセスを示すフローチャート 本発明の第2実施形態において音声・モーションデータベース73に記憶されるデータのデータ構造を示す説明図 本発明の第2実施形態において顧客側端末1に表示されるキャラクタ画像80を示す説明図 本発明の第1実施形態及び第2実施形態において顧客側端末1にて表示される他の情報の例を示す説明図
(第1実施形態)
以下、本発明の第1実施形態について図面を参照して説明する。図1は、本発明の第1実施形態に係る顧客応対システムS1の概要を示す説明図である。
図1において、1は顧客2が飲食店等におけるサービスに関する情報の提供を受ける顧客側端末である。以降、主に顧客側端末1は飲食店の客席に配置されたものとして説明するが、顧客側端末1は一般の店舗や企業の受付等に配置されていてもよい。第1実施形態では、顧客側端末1として表面にタッチパネルを備える情報端末を想定しているが、顧客側端末1は、例えばタッチパネルを画像面に重畳して配したディスプレイやその他の入力デバイスが接続されたPC(Personal Computer)等で構成してもよい。
3は顧客側端末1との間で所定の情報を送受信し、オペレータ4が介在して接客の用に供されるオペレータ側端末である。5はオペレータ4の体の動き(動作)を検出するモーション検出部である。顧客側端末1とオペレータ側端末3とは、例えばインターネット等のネットワーク6を介して接続され双方向で情報を送受信する。
モーション検出部5で検出されたオペレータ4の動作(モーション)はオペレータ側端末3に入力され、モーションデータに変換された後にネットワーク6を介して顧客側端末1に送信される。顧客側端末1は、受信したモーションデータに基づきコンピュータグラフィックス(CG:Computer Graphics)によるキャラクタ画像80(図8等を参照)を生成して表示する。
7は顧客側端末1及びオペレータ側端末3にネットワーク6を介して接続されたクラウド処理部である。クラウド処理部7は例えばサーバで構成され、顧客側端末1によって取得された顧客2の音声に関するデータ、及びモーション検出部5で検出されオペレータ側端末3で生成されたモーションデータを管理する。なお、クラウド処理部7は、後に説明する第2実施形態に係る顧客応対システムS2で用いられる。
図2は、本発明の第1実施形態に係る顧客応対システムS1の構成を示すブロック構成図である。以降、図2を用いて顧客応対システムS1の構成について詳細に説明する。
顧客側端末1は、顧客側制御部10と、顧客側入力部20と、顧客側出力部25とで構成されている。顧客側制御部10は、CPU(Central Processing Unit)等で構成される第1演算部11と、第1演算部11が実行するプログラムを格納したROM(Read Only Memory)やワーキングメモリとしてのRAM(Random Access Memory)で構成された第1記憶部12と、ネットワーク6を介してオペレータ側端末3及びクラウド処理部7との間で双方向にデータを送受信する第1通信部13と、タッチパネル等(図示せず)で構成されて顧客2の操作に基づき顧客側端末1に顧客2の指示を入力する第1指示入力部14と、オペレータ側端末3から送信されたモーションデータに基づきキャラクタ画像80(図8参照)を生成するキャラクタ画像生成部15と、キャラクタ画像生成部15で生成されたキャラクタ画像80及びオペレータ側端末3から送信された音声データ(正確には、後述する変換後音声データ)を同期して再生する音声・キャラクタ画像再生部16とを備える。
顧客側入力部20は、顧客2が発する音声を取得する第1マイク21と、顧客2を撮影するカメラ22を備える。また、顧客側出力部25は、音声・キャラクタ画像再生部16が出力したキャラクタ画像80を表示する表示画面としての第1表示部26と、音声・キャラクタ画像再生部16が出力した音声を再生する第1スピーカ27とを備える。第1実施形態では、顧客側端末1は顧客側制御部10、顧客側入力部20、顧客側出力部25が一体に構成されているものとするが、顧客側入力部20と顧客側出力部25とは、顧客側端末1と別体として構成され、顧客側端末1に対して電気的に接続される構成としてもよい。
オペレータ側端末3は、オペレータ側制御部30と、オペレータ側入力部40と、オペレータ側出力部45とで構成されている。オペレータ側制御部30は、CPU等で構成される第2演算部31と、第2演算部31が実行するプログラムを格納したROMやワーキングメモリとしてのRAMで構成された第2記憶部32と、ネットワーク6を介して顧客側端末1及びクラウド処理部7との間で双方向にデータを送受信する第2通信部33と、キーボード等(図示せず)で構成されてオペレータ4の操作に基づきオペレータ側端末3にオペレータ4の指示を入力する第2指示入力部34と、顧客側端末1のカメラ22で撮影された後、ネットワーク6を介してオペレータ側端末3に送信された顧客2の動画像に基づき顧客2の顔の表情を認識する画像認識部35と、モーション検出部5が出力するデータを統合してオペレータ4の実際の動作に基づくモーションデータを生成するモーション認識部36と、オペレータ側端末3(正確には、後述する第2マイク41)で取得したオペレータ4の音声を特定のトーン(声質)に変換する音声変換処理部37とを備える。
オペレータ側入力部40は、オペレータ4の発する音声を取得する第2マイク41を備え、オペレータ側出力部45は、顧客側端末1のキャラクタ画像生成部15で生成されネットワーク6を介してオペレータ側端末3に送信されたキャラクタ画像80及び顧客側端末1のカメラ22で撮影された顧客2の画像を表示する第2表示部46と、顧客側端末1の第1マイク21で取得されネットワーク6を介してオペレータ側端末3に送信された顧客2の音声を再生する第2スピーカ47とを備えている。第1実施形態では、オペレータ側端末3において、オペレータ側制御部30、オペレータ側入力部40、オペレータ側出力部45は一体に構成されているが、オペレータ側入力部40とオペレータ側出力部45とをオペレータ側端末3とは別体に構成し、オペレータ側端末3に電気的に接続される構成としてもよい。
オペレータ側制御部30には、モーション検出部5の出力が入力される。モーション検出部5は、赤外線カメラ51と前処理部52とを備える。赤外線カメラ51はオペレータ4の体の所定位置に配置された複数のマーカ53が反射する赤外線に基づき赤外線画像を撮影する。前処理部52は、オペレータ4が両手に装着したデータグローブ54が出力するアナログ信号をディジタルデータに変換する。モーション検出部5の出力はオペレータ側制御部30に入力され、モーション認識部36でモーションデータに変換される。
図3は、本発明の第1実施形態においてオペレータ4と顧客2とによる双方向の応答の状況を説明する説明図、図4は、本発明の第1実施形態においてオペレータ4の動作を検出するモーションキャプチャの状況を説明する説明図である。以降、図3、図4に図2を併用して、顧客側端末1とオペレータ側端末3との間で送受信されるデータ、顧客2とオペレータ4の間で図られるコミュニケーションの状況、更にオペレータ側端末3でモーションキャプチャされたオペレータ4の動作を顧客側端末1で再生する処理について詳細に説明する。
なお、上述したように、顧客側端末1とオペレータ側端末3とはネットワーク6を介して相互に情報を送受信するが、説明を簡単にするために図3ではネットワーク6は図示していない。
図3において、85は店舗の受付や飲食店の客室(以降、単に「客室85」と称することがある。)である。客室85には顧客側端末1が設置されており、顧客側端末1の第1表示部26には、コンピュータグラフィックスにより生成されたキャラクタ画像80が表示されている(以降、「顧客側端末1に表示されているキャラクタ画像80」のように簡略して記載することがある。)。86はオペレータ4が接客業務を行うオペレータ室である。図4に詳細に示すように、オペレータ室86にはオペレータ側端末3と、赤外線カメラ51と、前処理部52、赤外線ライト(図示せず)等が設置されている。
まず客室85において、顧客2が顧客側端末1に対して発話を行うと、顧客2の発した音声は第1マイク21によって取得され、顧客側制御部10に入力される。取り込まれた音声は第1演算部11でAD変換を施され音声データ(ディジタル)に変換される。
音声の取得と同時に顧客2の顔等はカメラ22によって撮影され、カメラ22が出力する画像データ(ディジタル)は第1演算部11に入力される。第1演算部11は音声データと画像データを符号化し、これらのデータは第1通信部13によってオペレータ側端末3に送信される。
顧客側端末1から送信された音声データ及び画像データを受信したオペレータ側端末3の第2通信部33は、これらのデータを第2演算部31に出力する。第2演算部31は入力された音声データと画像データとを復号して、第2スピーカ47で顧客2の音声が再生され、第2表示部46で顧客2の画像が表示される。なお、顧客2の画像は、第2表示部46の隅に設定されたウィンドウ87に表示される。
一方、オペレータ室86にはオペレータ4が待機している。顧客側端末1から顧客2の音声データ及び画像データがオペレータ側端末3に送信されると、例えば、オペレータ側端末3には、顧客2から応答リクエストが発生している旨が表示され(図示せず)、第2スピーカ47から所定の音声が再生される。もちろん、顧客側端末1を用いて顧客2が客室85に在室していることを検出し、この検出結果に基づいてオペレータ側端末3に応答リクエストを通知するようにしてもよい(後述する)。オペレータ4は、応答リクエストが発生していることを確認すると、赤外線カメラ51の撮像範囲において予め設定されている撮影エリアに移動する。
以降、図4に図2、図3を併用して説明を続ける。
オペレータ室86は、モーション検出部5としてオペレータ4の位置や関節の動きを時系列に計測する、いわゆるモーションキャプチャシステムを備えている。オペレータ室86には図示しない赤外線ライトが複数備えられており、またオペレータ4の体には、赤外光を反射する素材で構成された複数の小球状のマーカ53が取り付けられている。なお、図4ではオペレータ4を背後から見た状態においてマーカ53が直視されるように記載しているが、実際にはマーカ53はオペレータ4の体表において赤外線カメラ51と対向する位置に配置されている。
ここで赤外線カメラ51は撮像光学系を複数(ここでは2つ)有する複眼カメラである。オペレータ4の姿勢によってはマーカ53が隠れる場合があることを考慮して、複数の赤外線カメラ51を設けてもよい。赤外線ライトの出射光を反射したマーカ53が赤外線カメラ51によって撮影され、赤外線画像データがモーション検出部5からモーション認識部36に対して出力される。即ち、赤外線カメラ51はトラッカーとして機能する。このように、第1実施形態では光学式のモーションキャプチャを採用しているが、例えば赤外線カメラ51に替えて可視光を撮像する単眼カメラあるいはステレオカメラ、あるいは単眼カメラとDepthセンサとを組み合わせてオペレータ4の動作を検出してもよい。更に、磁気式、機械式といった他の公知のモーションキャプチャシステムを採用してもよく、また複数の方式を併用してもよい。
更に、オペレータ4は両手にデータグローブ54を装着している。データグローブ54には、薄い電気絶縁物のベース材に格子状の抵抗箔を形成したフレキシブルな歪ゲージ(図示せず)が複数埋め込まれ、オペレータ4の両手の各指の関節の屈曲、各指同士の開き具合、手の平の曲げ、手首の動き等に係る三次元座標が時系列に検出される。なお、データグローブ54においてオペレータ4の手首に相当する位置にはマーカ53aが配置されており、マーカ53aを検出することでオペレータ4の手首と指との相対的な位置関係が特定される。データグローブ54の出力は前処理部52でディジタル化され、モーション認識部36に対して出力される。なお、データグローブ54にAD変換器や演算部(共に図示せず)が備えられている場合は、データグローブ54においてディジタルデータを生成してもよい。
モーション認識部36は、赤外線カメラ51の複数の撮像光学系で撮影された個々のマーカ53に対して(ここでは、2つの画像間での)位置合わせを行って、いわゆるステレオ法によって各マーカ53の三次元座標を求めるとともに、データグローブ54によって取得された手や指の三次元座標を、マーカ53aの三次元座標を基準として統合する。更に、モーション認識部36は、統合後の三次元座標を予め定義した人体の多関節モデルにマッピング(インバースキネマティクス)することで、オペレータ4の位置、手首や指の関節を含む関節角度等を時系列に算出し、例えばBVH形式に準拠したモーションデータとして出力する。
他方、オペレータ4が発した音声は第2マイク41で取得され、取得された音声は第2演算部31でAD変換を施され音声データが生成される。第2演算部31は生成した音声データを音声変換処理部37に対して出力する。
音声変換処理部37はいわゆるボイスチェンジャであり、オペレータ4の発した音声に基づく音声データをキャラクタ画像80のキャラクタに対応する音質(トーン)に変換して変換後音声データを生成する。音声変換処理部37によって、複数のオペレータ4間で声質が異なっていても、単一のキャラクタに対応する声質に変換することができる。
音声変換処理部37によって生成された変換後音声データ、及びモーション認識部36によって生成されたモーションデータは第2通信部33によって、顧客側端末1に送信される。なお、例えば顧客2に対するオペレータ4が一人であり、当該オペレータ4の声質がキャラクタ画像80のキャラクタの声質として妥当と考えられる場合、音声変換処理部37でボイスチェンジを行うことなく顧客2との応対を行ってもよい。この場合、第2マイク41で取得したオペレータ4の音声は、第2演算部31でAD変換され、変換後音声データに替えて顧客側端末1に送信される。
顧客側端末1の第1演算部11は、変換後音声データ及びモーションデータを受信すると、このうちモーションデータをキャラクタ画像生成部15に対して出力する。キャラクタ画像生成部15は予め定められたキャラクタの多関節モデルにモーションデータをマッピングすることでキャラクタ画像80を生成する。モーションデータは時系列に生成されるから、当該キャラクタ画像80は時系列に再生される動画像となる。キャラクタ画像生成部15は、生成したキャラクタ画像80を音声・キャラクタ画像再生部16に対して出力する。
音声・キャラクタ画像再生部16は、変換後音声データをDA変換し、変換後のアナログ信号を増幅して第1スピーカ27で再生し、更にキャラクタ画像80をラスタ信号に変換して第1表示部26で表示する。なお、音声・キャラクタ画像再生部16は、変換後音声データとキャラクタ画像80が互いに同期するように第1スピーカ27及び第1表示部26に対する音声及び動画像の出力タイミングを制御する。これらの制御によって顧客側端末1は顧客2に対して情報を提供する。そして当該情報の提供に基づき、顧客2が再度応答を行うことで、キャラクタ画像80を介してオペレータ4と顧客2との間で自然かつ円滑なコミュニケーションを成立させることが可能となる。
以上述べてきたように、第1実施形態の顧客応対システムS1は、顧客2に対して情報を提供する顧客側端末1と、顧客2に応対するオペレータ4の動作を検出するモーション検出部5と、モーション検出部5の検出結果に基づいてキャラクタ画像80を生成するキャラクタ画像生成部15とを備え、顧客側端末1(第1表示部26)に、キャラクタ画像生成部15で生成されたキャラクタ画像80を表示する。
さて、第1実施形態において、顧客側端末1は客室85の座席に顧客2が居るか居ないかにかかわらず、カメラ22はアクティブな状態に保たれ、常に画像を撮影している。第1演算部11は、カメラ22で撮影した画像データと例えば事前に撮影しておいた顧客2が不在の際における画像データとの画素ごとの背景差分の絶対値を合計し、これが所定の期間を超えて予め定められた閾値より大きい場合は、顧客2が座席に着席したと判断する。逆に、背景差分の絶対値の合計が所定の期間を超えて予め定められた閾値以下の場合は、顧客2が座席に不在だと判断する。もちろん、顧客2が客室85に在室するか否かは、例えば座席に圧力センサを設ける等、他のいわゆるプレゼンスセンサによって検出してもよい。
顧客2が座席に不在と判断している間、第1演算部11は第1表示部26に何ら表示を行っていないが、顧客2が座席に着先したと判断すると、第1演算部11は、予め定められたキャラクタ画像80を第1表示部26に表示する(以降、接客が開始される前に表示されるキャラクタ画像80を「初期画像」と称することがある。)とともに、第1スピーカ27から顧客2に対して例えば「いらっしゃいませ。御用はございませんか?」のようなメッセージを出力して(音声・画像のいずれでも構わない)、顧客2の発話を促す。更に第1演算部11は、顧客2が座席に着席した旨を応答リクエストとしてオペレータ側端末3に通知する。なお、このときのキャラクタ画像80は、第1記憶部12に予め記憶されたモーションデータに基づきキャラクタ画像生成部15によって生成される。顧客2がメッセージに促されて発話を行うと、上述のごとくキャラクタ画像80を介してオペレータ4による接客が行われる。
さて、顧客側端末1の初期画面におけるキャラクタ画像80を生成するモーションデータはオペレータ側端末3の第2記憶部32にも記憶されている。第2演算部31は、顧客2が座席に着席した旨の通知を受信すると、オペレータ側端末3の第2表示部46に、顧客側端末1と同一の初期画像を表示する。
顧客2に対する応対が開始されると、第2演算部31は、オペレータ4の姿勢に基づくモーションデータと初期画像に表示されるキャラクタ画像80のモーションデータとを比較する。モーションデータは関節等の三次元座標を含むので、これらの三次元座標のユークリッド距離を算出することで、双方の姿勢の近似度を算出することができる。第2演算部31は、双方の姿勢が近似することを検出した場合、顧客側端末1へのオペレータ4の動きに基づくモーションデータの送信を開始する。そしてモーションデータを受信した顧客側端末1は、初期画像に替えてキャラクタ画像生成部15で生成したキャラクタ画像80(以降、オペレータ4による接客が開始された後のキャラクタ画像80を「本人接客画像」と称することがある。)を表示する。このようにすることで、初期画像から本人接客画像に切り替わった際にキャラクタ画像80の姿勢が極端に変化することを防止できる。
また、初期画像から本人接客画像に切り替える際に、初期画面におけるキャラクタ画像80のモーションデータと、本人接客画像のモーションデータに差異がある場合、それぞれのモーションデータを連結する中間的なモーションデータを生成してキャラクタ画像80を動的に変化させるようにしてもよい。
また、赤外線カメラ51の近傍で、かつ予め赤外線カメラ51との位置関係が定められた位置に、赤外線カメラ51と同等の画角を持つか、あるいは両者の画角の差異が既知の可視光を撮像可能な第2カメラ(図示せず)を配置し、第2カメラでオペレータ4を撮影し、撮影した画像の位置と倍率とを、赤外線カメラ51と第2カメラの相対的な位置関係及び画角に応じて補正し、補正後の画像をオペレータ側端末3に表示された初期画像と重ねて表示するようにしてもよい。このようにすることでオペレータ4は、自己の姿勢を初期画像のキャラクタの姿勢と略一致させることが容易になる。
また、初期画像から本人接客画像に切り替える他の方法として、オペレータ4が初期画像と近似する姿勢となり自ら接客が可能と判断した際に、例えば図示しない物理スイッチ等で接客開始の指示を第2演算部31に通知するように構成し、通知を受けた第2演算部31が顧客側端末1にイベント情報を送出し、顧客側端末1は当該イベント情報を受信すると、第1表示部26に表示されている初期画像を一旦消去(例えばフェードアウト)し、その後にオペレータ側端末3から送信されたモーションデータに基づき本人接客画像を表示(例えばフェードイン)するようにしてもよい。
上述したような初期画像から本人接客画像への切り替え処理を行うことで、初期画像を生成するモーションデータと、本人接客画像を生成するモーションデータに差異があっても、キャラクタ画像80の切り替えを顧客2にとって違和感なく行うことができる。
(第2実施形態)
第1実施形態では、オペレータ4自身がキャラクタ画像80を介して顧客2と応対する顧客応対システムS1について詳細に説明した。以降、本発明の第2実施形態について詳細に説明する。第2実施形態は第1実施形態で説明した顧客2との応対の内容を拡張するものである。
図5は、本発明の第2実施形態に係る顧客応対システムS2における各種データの流れ、及び顧客2との応対の内容を示す説明図、図6は、本発明の第2実施形態に係る顧客応対システムS2における顧客2との応対のプロセスを示すフローチャート、図7は、本発明の第2実施形態において音声・モーションデータベース73に記憶されるデータのデータ構造を示す説明図である。なお、第2実施形態の説明においても図2を用いるものとし、図2における各構成要素のうち、既に説明したものについては再度の説明を省略する。
まず、図5に図2を併用して第2実施形態に係る顧客応対システムS2の構成、及び各構成要素間で送受信されるデータについて説明する。
図2において、クラウド処理部7は、ネットワーク6を介して顧客側端末1及びオペレータ側端末3との間で双方向にデータを送受信する第3通信部71と、顧客側端末1で取得された顧客2が発する音声から語句を認識する音声認識部72と、オペレータ側端末3のモーション認識部36が出力しネットワーク6を介してクラウド処理部7に入力されたモーションデータ及び音声認識部72で認識された語句を記憶する音声・モーションデータベース73(以降、単に「データベース73」と称することがある。)と、CPU等で構成された第3演算部74とを有している。
第2実施形態でも、顧客側端末1とオペレータ側端末3との間で、第1実施形態と同様にPeer to Peerのデータの送受信が行われる。即ち、図5に示すように、客室85aに設けられた顧客側端末1からオペレータ室86に設けられたオペレータ側端末3に対して音声データと画像データとが送信され、逆にオペレータ側端末3から顧客側端末1に対して変換後音声データとモーションデータとが送信される。
更に、第2実施形態では、客室85a,85bに配置された顧客側端末1からクラウド処理部7に対して音声データが送信される。またオペレータ室86に配置されたオペレータ側端末3からクラウド処理部7に対して変換後音声データ及びモーションデータが送信され、更にクラウド処理部7から客室85bに配置された顧客側端末1に対して変換後音声データとモーションデータとが送信される。なお、以降の説明において、客室85a,85bを区別しないときは、客室85と称する。また、顧客側端末1とオペレータ側端末3とクラウド処理部7はネットワーク6(図2参照)を介して相互に情報を送受信するが、説明を簡単にするために図5ではネットワーク6は図示していない。
第2実施形態においては、客室85に設置された顧客側端末1で取得された音声データは、顧客側端末1の第1通信部13を介してクラウド処理部7に送信される。クラウド処理部7の第3通信部71は受信した音声データを音声認識部72に対して出力する。音声認識部72は、顧客2の発話の1フレーズ単位に、音声データからいわゆる5W1Hとしての、「いつ(When)」、「どこで(Where)」、「だれが(Who)」、「なにを(What)」、「なぜ(Why)」、「どのように(How)」に関する語句を抽出する。具体的には場所の名称、商品の名称、人名等がこれに相当する。
更に音声認識部72は「いつ」、「どこ」、「だれ」、「なに」といった、いわゆる六何を問う語句や、「する」、「したい」、「いく」、「いきたい」等の顧客2の行為や要望を表す語句も分離抽出する。音声認識部72によって抽出された複数の語句のセット(以降、「抽出語句」と称することがある。)は音声・モーションデータベース73(以降、単に「データベース73」と称することがある。)に1フレーズを1レコードとして記憶される。なお、データベース73におけるデータ構造については後述する。
第1実施形態で詳細に説明したように、顧客側端末1から送信された顧客2の音声データに対するオペレータ4の応答は、オペレータ側端末3から変換後音声データ(ボイスチェンジされていない音声データであってもよい)及びモーションデータとして出力される。第2実施形態では、これらのデータは顧客側端末1に送信されるのと並行してクラウド処理部7にも送信される。クラウド処理部7の第3演算部74は、オペレータ4の発話に基づく音声データ(正確には、変換後音声データ)を1フレーズ毎に抽出して音声ファイルを生成する。この音声ファイルには例えば「V0001」のようなファイル名が付与され、データベース73に記憶される。なお、音声ファイル形式としてはmp3等のフォーマットを用いることができる。
他方、オペレータ側端末3から受信したモーションデータに基づき第3演算部74はモーションデータをファイル化する(以降、このファイルを「モーションファイル」と称することがある。)。モーションファイルには例えば「M0001」のようなファイル名が付与され、データベース73に記憶される。なお、モーションファイルのファイル形式としてはBVH等のフォーマットを用いることができる。また、第3演算部74は、変換後音声データ及びモーションデータを受信した日時分秒を時刻情報としてデータベース73に記憶する。
さて、第2実施形態では、オペレータ側端末3の画像認識部35は、受信した顧客2の画像データから顔領域を抽出し、更に顔領域から目や口のパーツの周辺にあって人の感情を表すとされる複数の特徴領域を抽出する。人が笑顔になった時の顔には「口角が上がる」、「目尻が下がる」、「口が開く」、「目が細くなる」、「鼻の脇にしわができる」等の特徴が生じる。これらの特徴を予め定めておいた3次元顔モデルにフィッティングし、統計的な識別手法を適用することで、顧客2の満足度として人の笑顔を指標化、即ち満足度を推定して0〜100%の間で数値化できる。このようにして得られた満足度は、オペレータ側端末3からクラウド処理部7に送信され、データベース73に記憶される。
また、画像認識部35は、抽出した顔領域から目や口の周辺にあって人の感情を表すN個の特徴点を抽出し、これらの特徴点を予め学習モデルが生成されたサポートベクターマシン(SVM:Support Vector Machine)に入力することで、顧客2の表情から反応度(活性度)をポジティブ、ニュートラル、ネガティブのようにクラスタリングすることができる。このようにして得られた反応度には予め定められたフラグが付与され、当該フラグもクラウド処理部7に送信され、データベース73に記憶される。
更に、SVMを用いることで、人の表情から感情、即ち「喜び」、「怒り」、「悲しみ」等を推定することも可能である。この感情の推定結果をデータベース73に記憶してもよい。なお、ここではSVMが取扱うデータとして顧客2の顔画像おける特徴点を想定しているが、音声を併用することで推定精度が向上する。
更に、例えば顧客2がキャラクタ画像80を正視しているときは、顧客2が応対に集中していると考えられることから、顧客2の顔の位置及び目や口のパーツの位置に基づいて顧客2の顔の向きを判定し、顧客2の集中度を推定してもよく、この集中度の推定結果をデータベース73に記憶してもよい。
なお、第1実施形態でも説明したように、オペレータ側端末3には顧客側端末1から顧客2を撮影した画像が送信されており、オペレータ側端末3の第2表示部46の隅に設けられたウィンドウ87には顧客2の姿(顔)が表示されている。そこで、これを目視したオペレータ4が顧客2の表情から満足度と反応度(並びに感情や集中度)を判定し、第2指示入力部34を操作して手動で数値を入力するようにしてもよい。オペレータ4が手動で入力した満足度と反応度もデータベース73に記憶される。
上述した抽出語句、モーションファイル、音声ファイル、時刻情報、満足度、反応度(並びに感情や集中度)の各種データやファイルは、第1実施形態で説明した顧客2とキャラクタ画像80を介したオペレータ4との応答が行われる毎にデータベース73に記憶される。即ち、第1実施形態で説明したオペレータ4による接客行為及び顧客2の応答に基づき、データベース73にはこれらのデータとファイルとが記憶・蓄積されていく。
図7は、本発明の第2実施形態において音声・モーションデータベース73(データベース73)に記憶されるデータのデータ構造を示す説明図であり、図7(a)は主に飲食店を想定したテーブル、図7(b)は主に企業や店舗の受付を想定したテーブルである。以降、図7を用いてデータベース73のデータ構造について説明する。
図7に示すように、データベース73に構築されるテーブルにおいて、各レコードには抽出語句、モーションファイル、音声ファイル、時刻情報、満足度、反応度の6つのフィールドが設けられる。もちろん上述した、感情、集中度のフィールドを追加して設けてもよい。
抽出語句のフィールドには、クラウド処理部7の音声認識部72で抽出された六何に関する情報(語句のセット)が、例えば「どこ,レジ」のように格納される。モーションファイルのフィールドには、クラウド処理部7の第3演算部74で生成されてデータベース73に記憶されたモーションファイルにアクセスするためのファイルポインタが格納される。音声ファイルのフィールドには、第3演算部74でファイル化されてデータベース73に記憶されたモーションファイルのファイルポインタが格納される。
時刻情報のフィールドには、第3演算部74が変換後音声データ及びモーションデータを受信した日時分秒が格納される。満足度のフィールドには、オペレータ側端末3から送信された満足度を示す数値(パーセンテージ)が格納される。反応度のフィールドには、オペレータ側端末3から送信された顧客2の反応を示すフラグ(ここでは、ポジティブ、ニュートラル、ネガティブの3つのうちのいずれか)が格納される。
第2実施形態において、データベース73はリレーショナルデータベースとして構築されており、主キーとして抽出語句(音声認識部72で抽出された語句のセット)が用いられる。抽出語句をキーとしてデータベース73を検索することで、同一の抽出語句を持つレコードにおいて、これに関連づけられた他のフィールドのデータ(1レコードに含まれるデータ)が参照される。即ち、モーションファイルとして記憶されたモーションデータ、音声ファイルとして記憶された変換後音声データ、顧客2の満足度、顧客2の反応度(満足度と反応度については、画像認識部35が推定した結果、またはオペレータ4が判断した結果)と、音声認識部72で抽出された語句(抽出語句)とは関連付けられて記憶されている。
以降、図6に図2、図5、図7を併用して、第2実施形態における接客に際する顧客応対システムS2の処理について詳細に説明する。なお、ここでは顧客2は図5に示す客室85bに在室するものとして説明する。
さて、上述したデータベース73に十分な量のデータを蓄積するためには相当の期間を要するのが通例である。このため、専らデータを収集してデータベース73を構築中の期間にオペレータ4が介在して応対した顧客2と、データベース73を構築した後にデータベース73に記憶されたデータに基づき応対を受ける顧客2とは、異なる人物であるか、あるいは同一人物であっても応対が行われる(即ち、サービスの提供を受ける)タイミングが異なる。そこで、以降の説明において顧客2は、データベース73を構築中に応対を受けた顧客2とは別人であるものとする。
顧客2は、顧客側端末1を用いて問い合わせを行う(ST001)。具体的には、顧客側端末1に表示されたキャラクタ画像80に対して顧客2が発話を行う。顧客2が発した音声は顧客側端末1の第1マイク21で取得され、第1演算部11でディジタル化された音声データがクラウド処理部7に送信される。
クラウド処理部7では、音声データを受信すると音声認識部72によって音声認識処理が実行される(ST002)。音声認識部72は、音声データに含まれる語句を抽出し、抽出結果に基づいて第3演算部74はデータベース73にアクセスし、主キーである抽出語句のフィールドを検索する。
データベース73に音声認識結果とマッチングするデータが記憶されている場合、即ち、音声認識部72による抽出結果と同一の抽出語句を格納するレコードが発見された場合(ST003でYes)、第3演算部74は、データベース73から変換後音声データとモーションデータとを抽出する(ST004)。具体的には、第3演算部74は、発見された抽出語句を含むレコードを参照することで音声ファイルのフィールドから音声ファイルのファイルポインタを取得し、音声ファイルにアクセスして変換後音声データを得る。また、同様にモーションファイルのフィールドからモーションファイルのファイルポインタを取得し、モーションファイルにアクセスしてモーションデータを得る。そして、第3演算部74は、第3通信部71を介して取得した変換後音声データ及びモーションデータを顧客側端末1に送信する。
変換後音声データ及びモーションデータを受信した顧客側端末1は、キャラクタ画像80を生成し、音声とキャラクタ画像80を再生する(ST005)。具体的には、キャラクタ画像生成部15がキャラクタ画像80で生成され、音声・キャラクタ画像再生部16は第1スピーカ27で音声を再生するとともに、キャラクタ画像80を第1表示部26に表示する。
このように第2実施形態では、顧客側端末1で取得された顧客2の発話に基づく音声データに、過去にデータベース73に記憶された抽出語句が含まれる場合、オペレータ4は応対を行わず、顧客側端末1では過去にデータベース73に記憶された変換後音声データ及びモーションデータに基づく音声及びキャラクタ画像80(以降、過去にデータベース73に記憶されたモーションデータに基づいて再生されるキャラクタ画像80を「代理接客画像」と称することがある。)が再生される。
即ち、第2実施形態の顧客応対システムS2は、顧客側端末1に設けられ顧客2の音声を取得する第1マイク21と、第1マイク21で取得した音声を認識し、音声に含まれる語句を抽出する音声認識部72と、モーションデータと音声認識部72で抽出された語句とを関連付けて記憶するデータベース73とを備え、顧客2の音声に含まれる語句と一致する語句がデータベース73に記憶されている場合、データベース73に記憶された語句に対応するモーションデータに基づくキャラクタ画像80を顧客側端末1に表示する。
代理接客画像は、顧客2の発話に含まれる語句の一致のみならず、上述した満足度、反応度を参酌することによって、より顧客2の心証が良好なモーションデータによって生成される。これによって、オペレータ4の実際の動きをキャプチャした際のモーションデータをデータベース73に蓄積し、活用することで、オペレータ4が介在しない状況によっても、キャラクタ画像80と顧客2との間で自然かつ円滑なコミュニケーションを成立させることが可能となる。
さて、上述したST002で、第3演算部74がデータベース73にアクセスし、各レコードの抽出語句のフィールドを検索した結果、図7(a)にL1,L2として示すように、抽出語句のフィールドに「注文,したい」の語句を含むレコードが複数抽出される場合がある。このような場合、クラウド処理部7の第3演算部74は、各レコードの満足度及び反応度のフィールドを参照し、より満足度の数値が大きく、反応度のフラグがポジティブとなっているレコードを選択し、このレコードに格納されたファイルポインタを参照して、変換後音声データとモーションデータとを抽出する。もちろん満足度の数値と反応度のフラグ(並びに、感情、集中度)の重み付は任意に行ってよく、例えば満足度の数値を優先させるようにしてもよい。
このようにすることで、顧客2の音声に含まれる語句と一致する語句がデータベース73に複数記憶されている場合、より高い顧客2の満足度等と対応する、データベース73に記憶された語句と関連づけられたモーションデータに基づくキャラクタ画像80が顧客側端末1に表示されるようになる。
また、データベース73を構成するテーブルに同一の語句が格納されたレコードが複数個存在する場合、データベース73に、より高い満足度の数値を持ち、より反応度が良好なレコードのみを記憶するようデータベース73を再構築してもよい。
データベース73に音声認識結果とマッチングするデータがなかった場合、即ち、抽出結果と同一の内容を含むレコードが発見されなかった場合(ST003でNo)、第3演算部74は、オペレータ4に応答指示を行う(ST006)。具体的には、クラウド処理部7の第3演算部74は、オペレータ側端末3にイベント情報を送信して、オペレータ4に対して応答リクエストを通知する。即ち、顧客2の音声に含まれる語句と一致する語句がデータベース73に記憶されていない場合、オペレータ4にその旨が通知される。データベース73に音声認識結果とマッチングするデータがなかった、という状況は、その際の顧客2の発話に対して顧客応対システムS2が的確に応答できないことを意味する。
このような状況においては、オペレータ4を介在させることで顧客2に対して的確な応答を行うことが可能となる。なお、ここでは顧客2は図5に示す客室85aに在室するものとして説明する。
イベントを受信したオペレータ側端末3では、オペレータ4による音声、モーション応答が行われる(ST007)。具体的にはオペレータ4のモーションキャプチャ等が実行され、変換後音声データ及びモーションデータがオペレータ側端末3から客室85aに配置された顧客側端末1に送信される(ST008)。
変換後音声データ及びモーションデータを受信した顧客側端末1では、キャラクタ画像80が生成され、変換後音声データに基づく音声とキャラクタ画像80が再生される(ST009)。なお、ST008とST009の処理は、第1実施形態で詳細に説明した処理と同等である。
更に、オペレータ側端末3は、変換後音声データ及びモーションデータをクラウド処理部7に送信し、これらはクラウド処理部7のデータベース73に記憶される(ST010)。このように、第2実施形態においても、オペレータ4の動きに基づくモーションデータ及び変換後音声データはデータベース73に記憶されていく。また、図5に示すように、客室85aに在室する顧客2が発した音声に基づく音声データも顧客側端末1からクラウド処理部7に送信され、音声認識部72により抽出された語句がデータベース73に記憶されていく。これによって、キャラクタ画像80を介してオペレータ4が顧客2に応対する度に、データベース73を構成するテーブルに新たなレコードが追加されることとなる。
なお第2実施形態では、ST003で説明したようにデータベース73に音声認識結果とマッチングするデータがなかった場合に、クラウド処理部7の第3演算部74がオペレータ側端末3に対してオペレータ4による応答をリクエストするイベントを発行している。他方、顧客側端末1にはタッチパネル(図示せず)等で構成された第1指示入力部14が設けられおり、顧客2自身が、オペレータ4が介在する接客の形態(即ち、キャラクタ画像80として本人接客画像を介した応対)を望む場合、顧客2が第1指示入力部14を操作することで、オペレータ4に対して応答リクエストを通知することが可能となっている。この場合は、ST006〜ST010の処理が実行される。
図8は、本発明の第2実施形態において顧客側端末1に表示されるキャラクタ画像80を示す説明図である。以下、図5を併用して説明を続ける。
上述したように第2実施形態では、顧客2に対する応対には2つのモードが存在する。一つ目は、オペレータ室86に在室するオペレータ4がキャラクタ画像80を介して客室85aに在室する顧客2に応対する第1のモードであり、この際はキャラクタ画像80としてオペレータ4が顧客2に応対する際の動作を検出して得た本人接客画像が用いられ、同時に取得された音声に基づく変換後音声データが、本人接客画像の表示と同期してリアルタイムに再生される。二つ目は、過去にデータベース73に記憶されたモーションデータに基づき、オペレータ4が介入することなくキャラクタ画像80を介して客室85bに在室する顧客2に応対する第2のモードであり、この際はキャラクタ画像80として代理接客画像が用いられ、変換後音声データはデータベース73に格納された音声ファイルに基づく。即ち、第2のモードはオペレータ4に代わって仮想オペレータ88が顧客2と応対するモードである、ということができる。
そして、第1のモード及び第2のモードのいずれにおいても、顧客側端末1の第1表示部26に表示されるキャラクタ画像80の容姿は不変とされ、顧客2に対する応対の形態が第1のモードから第2のモード、あるいは第2のモードから第1のモードに遷移したとしても、常に同一のキャラクタ画像80を介して応対が行われることから、顧客2は二つのモードが相互に遷移しても違和感を覚えることがない。
また、第1のモードと第2のモードとは相互に切り替え可能となっている。即ち、第1のモードでオペレータ4が本人接客画像を介して顧客2に応対している状況で、顧客2の次の発話において、顧客2の発する音声に含まれる語句がデータベース73に記憶されている場合、クラウド処理部7の第3演算部74は、オペレータ側端末3に対して、仮想オペレータ88による第2のモードに切り替え可能であることを通知し、これを受けたオペレータ4が図示しない物理スイッチ等を操作して、第1のモードから第2のモードへの遷移を指示することができる。もちろん第3演算部74の判断によって第1のモードから第2のモードに遷移させることも可能である。
図9は、本発明の第1実施形態及び第2実施形態において顧客側端末1にて表示される他の情報の例を示す説明図である。以降、図9に図8、図2を併用して説明を続ける。第1のモード、第2のモードのいずれで顧客2との応答がなされているかにかかわらず、顧客側端末1の第1表示部26の下部にはキャラクタ画像80とともに、操作メニュー90が表示されている。操作メニュー90としては、例えば商品の注文を行う際に使用される「注文」、飲食店等の周辺の観光情報を提供する際に使用される「おすすめ観光名所」等が表示される。
顧客2が例えば、顧客側端末1のタッチパネル等で構成される第1指示入力部14を操作して「注文」を選択(即ち、タッチパネルの該当領域をタップ)すると、第1表示部26には商品メニュー91が表示される。顧客2は商品メニュー91から所望の商品を選択することで、商品の発注が行われる。
以上、本発明に係る顧客応対システムS1,S2について特定の実施形態に基づいて詳細に説明したが、これらの実施形態はあくまでも例示であって、本発明はこれらの実施形態によって限定されるものではない。例えば、第1実施形態及び第2実施形態において、顧客側端末1とオペレータ側端末3とはネットワーク6を介して接続されているとしたが、これらの端末は有線にて直接的に接続されていてもよく、また同様に第2実施形態におけるクラウド処理部7もいわゆるクラウドを利用することなく所定の回線で顧客側端末1及びオペレータ側端末3と接続されていてもよい。
また、上述した実施形態においては、飲食店の客室85に顧客側端末1が置かれ、主として飲食店におけるサービスの提供に顧客応対システムS1,S2が適用される事例について説明したが、本発明に係る顧客応対システムS1,S2がホテルのフロントや企業や店舗の受付に配置されて、顧客2の応対に供されうることは明白である。
本発明に係る顧客応対システム及び顧客応対方法は、接客業務や受付業務等を支援する支援システムや支援装置に好適に応用することができる。
1 顧客側端末
2 顧客
3 オペレータ側端末
4 オペレータ
5 モーション検出部
6 ネットワーク
7 クラウド処理部
10 顧客側制御部
11 第1演算部
12 第1記憶部
13 第1通信部
14 第1指示入力部
15 キャラクタ画像生成部
16 音声・キャラクタ画像再生部
20 顧客側入力部
21 第1マイク
22 カメラ
25 顧客側出力部
30 オペレータ側制御部
31 第2演算部
32 第2記憶部
33 第2通信部
34 第2指示入力部
35 画像認識部
36 モーション認識部
40 オペレータ側入力部
41 第2マイク
45 オペレータ側出力部
46 第2表示部
47 第2スピーカ
51 赤外線カメラ
52 前処理部
53 マーカ
54 データグローブ
55 信号線
71 第3通信部
72 音声認識部
73 音声・モーションデータベース(データベース)
74 第3演算部
80 キャラクタ画像
85,85a,85b 客室
86 オペレータ室
87 ウィンドウ
88 仮想オペレータ
90 操作メニュー
91 商品メニュー
S1,S2 顧客応対システム

Claims (8)

  1. 顧客に対して情報を提供する顧客側端末と、
    前記顧客側端末に設けられ前記顧客の音声を取得する第1マイクと、
    前記第1マイクで取得した音声を認識し、前記音声に含まれる語句を抽出する音声認識部と、
    前記顧客と応対する際のオペレータの動作を検出するモーション検出部と、
    前記モーション検出部の出力に基づいてモーションデータを生成するモーション認識部と、
    前記モーションデータに基づいてキャラクタ画像を生成するキャラクタ画像生成部と、
    データベースと、
    を備え、
    前記オペレータが前記顧客と応対する際に、前記顧客側端末に、前記キャラクタ画像生成部で生成されたキャラクタ画像を表示して、前記情報を提供するとともに、前記データベースに前記モーションデータと前記音声認識部で抽出された語句とを関連付けて記憶することを特徴とする顧客応対システム。
  2. 前記顧客の音声に含まれる語句と一致する語句が前記データベースに記憶されている場合、前記データベースに記憶された語句に対応する前記モーションデータに基づくキャラクタ画像を前記顧客側端末に表示し、
    前記顧客の音声に含まれる語句と一致する語句が前記データベースに記憶されていない場合、前記オペレータが前記顧客に応対する際の動作を検出して得たモーションデータに基づくキャラクタ画像を前記顧客側端末に表示することを特徴とする請求項1に記載の顧客応対システム。
  3. 前記顧客側端末に設けられて前記顧客を撮影するカメラと、
    前記カメラで撮影された画像に基づき、前記顧客の満足度を推定する画像認識部と
    を備え、
    前記顧客の満足度を、前記音声認識部で抽出された語句と対応付けて前記データベースに記憶することを特徴とする請求項1または請求項2に記載の顧客応対システム。
  4. 前記顧客側端末に設けられて前記顧客を撮影するカメラを備え、
    前記カメラで撮像された画像に基づき、前記オペレータが判断した前記顧客の満足度を、前記音声認識部で抽出された語句と対応付けて前記データベースに記憶することを特徴とする請求項1または請求項2に記載の顧客応対システム。
  5. 前記顧客の音声に含まれる語句と一致する語句が前記データベースに複数記憶されている場合、より高い前記顧客の満足度と対応する、前記データベースに記憶された語句と関連づけられた前記モーションデータに基づくキャラクタ画像を前記顧客側端末に表示することを特徴とする請求項3または請求項4に記載の顧客応対システム。
  6. 前記オペレータの音声を取得する第2マイクと、
    前記第2マイクで取得した前記オペレータの音声を前記キャラクタ画像のキャラクタに対応した音声に変換する音声変換処理部と
    を更に備え、
    前記顧客側端末で、前記キャラクタ画像の表示と同期して、前記音声変換処理部で変換された音声を出力することを特徴とする請求項1〜請求項5のいずれか一項に記載の顧客応対システム。
  7. 顧客に対して情報を提供する際の顧客応対方法であって、
    前記顧客と応対する際のオペレータの動作を検出し、
    検出された前記オペレータの動作に基づいてモーションデータを生成し、
    前記モーションデータに基づいてキャラクタ画像を生成し、
    前記オペレータが前記顧客と応対する際に、前記顧客に対して、前記モーションデータに基づいて生成されたキャラクタ画像を表示して、前記情報を提供するとともに、
    前記顧客の音声を取得し、
    取得した前記音声を認識して、前記音声に含まれる語句を抽出し、
    前記モーションデータと前記音声を認識することで抽出された語句とを関連付けてデータベースに記憶することを特徴とする顧客応対方法。
  8. 前記顧客の音声に含まれる語句と一致する語句が前記データベースに記憶されている場合、前記データベースに記憶された語句に対応する前記モーションデータに基づくキャラクタ画像を前記顧客に対して表示し、
    前記顧客の音声に含まれる語句と一致する語句が前記データベースに記憶されていない場合、前記オペレータが前記顧客に応対する際の動作を検出して得たモーションデータに基づくキャラクタ画像を前記顧客に対して表示することを特徴とする請求項7に記載の顧客応対方法。
JP2017212324A 2017-11-02 2017-11-02 顧客応対システム及び顧客応対方法 Active JP6708865B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017212324A JP6708865B2 (ja) 2017-11-02 2017-11-02 顧客応対システム及び顧客応対方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017212324A JP6708865B2 (ja) 2017-11-02 2017-11-02 顧客応対システム及び顧客応対方法

Publications (2)

Publication Number Publication Date
JP2019086858A JP2019086858A (ja) 2019-06-06
JP6708865B2 true JP6708865B2 (ja) 2020-06-10

Family

ID=66763031

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017212324A Active JP6708865B2 (ja) 2017-11-02 2017-11-02 顧客応対システム及び顧客応対方法

Country Status (1)

Country Link
JP (1) JP6708865B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6656447B1 (ja) * 2019-03-27 2020-03-04 ダイコク電機株式会社 動画出力システム
US11446567B2 (en) 2019-06-11 2022-09-20 Universal City Studios Llc Digital character interacting with customer in physical realm
JP6776409B1 (ja) * 2019-06-21 2020-10-28 株式会社コロプラ プログラム、方法、および端末装置
JP2021107873A (ja) * 2019-12-27 2021-07-29 パナソニックIpマネジメント株式会社 音声特性変更システムおよび音声特性変更方法
EP4145444A1 (en) * 2021-09-07 2023-03-08 Avaya Management L.P. Optimizing interaction results using ai-guided manipulated speech

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2002033944A1 (ja) * 2000-10-17 2004-03-04 株式会社鷹山 応答システム
US20040001616A1 (en) * 2002-06-27 2004-01-01 Srinivas Gutta Measurement of content ratings through vision and speech recognition
JP2015049337A (ja) * 2013-08-30 2015-03-16 株式会社東芝 音声応答装置、音声応答プログラム及び音声応答方法
JP2016038601A (ja) * 2014-08-05 2016-03-22 日本放送協会 Cgキャラクタ対話装置及びcgキャラクタ対話プログラム
JP6391465B2 (ja) * 2014-12-26 2018-09-19 Kddi株式会社 ウェアラブル端末装置およびプログラム

Also Published As

Publication number Publication date
JP2019086858A (ja) 2019-06-06

Similar Documents

Publication Publication Date Title
JP6708865B2 (ja) 顧客応対システム及び顧客応対方法
US11948241B2 (en) Robot and method for operating same
US6975991B2 (en) Wearable display system with indicators of speakers
US8830292B2 (en) Enhanced interface for voice and video communications
US9639770B2 (en) System and method for improving communication productivity
CN111163906B (zh) 能够移动的电子设备及其操作方法
CN114391163A (zh) 手势检测系统和方法
US11703941B2 (en) Information processing system, information processing method, and program
JP5854806B2 (ja) 映像処理装置および映像処理方法
CN102981603A (zh) 图像处理装置、图像处理方法和程序
JP2019061557A (ja) 情報処理装置、情報処理システム及びプログラム
KR102148151B1 (ko) 디지털 커뮤니케이션 네트워크에 기반한 지능형 채팅
KR20070029794A (ko) 유저와 시스템 사이에 통신을 하기 위한 방법 및 시스템
JP6109288B2 (ja) 情報処理装置、情報処理方法及びプログラム
KR20160001465A (ko) 글래스 타입 단말기 및 이의 제어방법
CN113303791A (zh) 一种机动车驾驶人在线自助体检系统、移动终端及存储介质
JPWO2019155735A1 (ja) 情報処理装置、情報処理方法及びプログラム
US20110176025A1 (en) Video information processing apparatus, video information processing method, and computer-readable storage medium
JP2017224166A (ja) 画像生成装置、画像生成プログラム及び画像生成方法
JP4287770B2 (ja) 情報伝達方法及びこの方法を実現するための通信装置とそのプログラム
JP7088270B2 (ja) 質問応答システム、及び質問応答方法
JP2023117068A (ja) 音声認識装置、音声認識方法、音声認識プログラム、音声認識システム
US11604830B2 (en) Systems and methods for performing a search based on selection of on-screen entities and real-world entities
WO2019138682A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP2021107873A (ja) 音声特性変更システムおよび音声特性変更方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190920

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190920

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190924

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200407

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200410

R150 Certificate of patent or registration of utility model

Ref document number: 6708865

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250