JP6708865B2

JP6708865B2 - 顧客応対システム及び顧客応対方法

Info

Publication number: JP6708865B2
Application number: JP2017212324A
Authority: JP
Inventors: 淳二高岡
Original assignee: Usideu
Current assignee: Usideu
Priority date: 2017-11-02
Filing date: 2017-11-02
Publication date: 2020-06-10
Anticipated expiration: 2037-11-02
Also published as: JP2019086858A

Description

本発明は、オペレータと顧客との間で双方向の応答を行って接客業務等を支援する顧客応対システム及び顧客応対方法に関する。

ネットワークに接続されたオペレータ側端末と顧客側端末との間で画像や音声を双方向に伝送し、接客業務等を支援するシステムとして、例えば、自動化可能な定型業務と自動化が困難な非定型業務とを区別し、オペレータと顧客とが遠隔でコミュニケーションする際に、定型業務ではコンピュータグラフィックス（ＣＧ）により製作されたキャラクタ画像による応答を行い、非定型業務ではＴＶ電話によるオペレータとの直接的なコミュニケーション又はキャラクタ画像による代理応答を切り替え可能に構成した応答コールセンターシステムが開示されている（特許文献１）。

特開２００５−５１５５４号公報

特許文献１によれば、代理応答とはオペレータの実映像を顧客端末に送信する代わりにキャラクタ画像を送信して応答させる機能であり、その際のキャラクタ画像の動作はオペレータが遠隔操作するとされている。この遠隔操作は、キーボードによる動作選択であり、これにより複雑な動きも簡単な操作で制御可能になるとされている。また、代理応答においては、リップシンクによってオペレータの発話に基づいてキャラクタ画像の口の動きが決定される。

しかしながら、上述のごとく代理応答において、キャラクタ画像の動作はオペレータがキーボードを操作して選択するが、具体的には「おじぎする」や「指さしする」等の限定的な動作であり、例えリップシンクを行ったとしてもオペレータと顧客との間で自然かつ円滑なコミュニケーションを図ることは困難である。

また、特許文献１では、定型業務で用いられるキャラクタ画像（いくつかの固定パターン）と非定型業務で用いられるキャラクタ画像との同一性、あるいは類似性については言及されておらず、定型業務と非定型業務とで用いられるキャラクタ画像の同一性が損なわれている場合には、キャラクタ画像が切り替わった際に顧客が違和感を覚えることとなる。

本発明は、このような従来技術の課題を解決するべく案出されたものであり、その主な目的は、キャラクタ画像を介した顧客との応答においてオペレータと顧客との間で自然かつ円滑なコミュニケーションを成立させることが可能な、顧客応対システム及び顧客応対方法を提供することにある。

また、本発明の他の目的は、オペレータの実際の動きに基づくキャラクタ画像のモーションデータをデータベースに蓄積し、活用することで、オペレータが介在することなく、キャラクタ画像（仮想オペレータ）と顧客との間で自然かつ円滑なコミュニケーションを成立させることが可能な、顧客応対システム及び顧客応対方法を提供することにある。

前記課題を解決するためになされた本発明は、顧客２に対して情報を提供する顧客側端末１と、前記顧客側端末１に設けられ前記顧客２の音声を取得する第１マイク２１と、前記第１マイク２１で取得した音声を認識し、前記音声に含まれる語句を抽出する音声認識部７２と、前記顧客２と応対する際のオペレータ４の動作を検出するモーション検出部５と、前記モーション検出部５の出力に基づいてモーションデータを生成するモーション認識部３６と、前記モーションデータに基づいてキャラクタ画像８０を生成するキャラクタ画像生成部１５と、データベース７３と、を備え、前記オペレータ４が前記顧客２と応対する際に、前記顧客側端末１に、前記キャラクタ画像生成部１５で生成されたキャラクタ画像８０を表示して、前記情報を提供するとともに、前記データベース７３に前記モーションデータと前記音声認識部７２で抽出された語句とを関連付けて記憶することを特徴とする顧客応対システムである。

これによって、キャラクタ画像を介した顧客との応答において、オペレータと顧客との間で自然かつ円滑なコミュニケーションを成立させることが可能となり、更にオペレータの実際の動きに基づくキャラクタ画像のモーションデータをデータベースに蓄積し、活用することが可能となる。

また、本発明は、前記顧客２の音声に含まれる語句と一致する語句が前記データベース７３に記憶されている場合、前記データベース７３に記憶された語句に対応する前記モーションデータに基づくキャラクタ画像８０を前記顧客側端末１に表示し、前記顧客２の音声に含まれる語句と一致する語句が前記データベース７３に記憶されていない場合、前記オペレータ４が前記顧客２に応対する際の動作を検出して得たモーションデータに基づくキャラクタ画像８０を前記顧客側端末１に表示するようにしたものである。

これによって、顧客の発話に対してオペレータが介在する必要がない場合は、仮想オペレータと顧客との間で自然かつ円滑なコミュニケーションを成立させ、他方、顧客の発話に対して顧客応対システムが的確に応対できない状況では、オペレータを介在させることで顧客との間で自然かつ円滑なコミュニケーションを成立させることが可能となる。即ち、オペレータが介在するか否かにかかわらず顧客に対して的確なサービスを提供することが可能となる。

また、本発明は、前記顧客側端末１に設けられて前記顧客２を撮影するカメラ２２と、前記カメラ２２で撮影された画像に基づき、前記顧客２の満足度を推定する画像認識部３５とを備え、前記顧客２の満足度を、前記音声認識部７２で抽出された語句と対応付けて前記データベース７３に記憶するようにしたものである。

これによって、キャラクタ画像を生成する際に、データベースに記憶された顧客の満足度を参酌することが可能となる。

また、本発明は、前記顧客側端末１に設けられて前記顧客を撮影するカメラ２２と、前記カメラ２２で撮像された画像に基づき、前記オペレータ４が判断した前記顧客２の満足度を、前記音声認識部７２で抽出された語句と対応付けて前記データベース７３に記憶するようにしたものである。

また、本発明は、前記顧客２の音声に含まれる語句と一致する語句が前記データベース７３に複数記憶されている場合、より高い前記顧客２の満足度と対応する、前記データベース７３に記憶された語句と関連づけられた前記モーションデータに基づくキャラクタ画像８０を前記顧客側端末１に表示するようにしたものである。

これによって、キャラクタ画像を生成する際に、満足度を参酌することによって、より顧客の心証が良好なキャラクタ画像を生成することが可能となる。

また、本発明は、オペレータ４の音声を取得する第２マイク４１と、前記第２マイク４１で取得したオペレータの音声を前記キャラクタ画像８０のキャラクタに対応した音声に変換する音声変換処理部３７とを更に備え、前記顧客側端末１で、前記キャラクタ画像８０の表示と同期して、前記音声変換処理部３７で変換された音声を出力するようにしたものである。

これによって、複数のオペレータの声質が異なっていても、単一のキャラクタに対応する声質に変換することが可能となる。

本発明は、顧客２に対して情報を提供する際の顧客応対方法であって、前記顧客２と応対する際のオペレータ４の動作を検出し、検出された前記オペレータ４の動作に基づいてモーションデータを生成し、前記モーションデータに基づいてキャラクタ画像８０を生成し、前記オペレータ４が前記顧客２と応対する際に、前記顧客２に対して、前記モーションデータに基づいて生成されたキャラクタ画像８０を表示して、前記情報を提供するとともに、前記顧客２の音声を取得し、取得した前記音声を認識して、前記音声に含まれる語句を抽出し、前記モーションデータと前記音声を認識することで抽出された語句とを関連付けてデータベース７３に記憶することを特徴とする顧客応対方法である。

これによって、キャラクタ画像を介した顧客との応答においてオペレータと顧客との間で自然かつ円滑なコミュニケーションを成立させることが可能となり、更にオペレータの実際の動きに基づくキャラクタ画像のモーションデータをデータベースに蓄積し、活用することが可能となる。

また、本発明は、前記顧客２の音声に含まれる語句と一致する語句が前記データベース７３に記憶されている場合、前記データベース７３に記憶された語句に対応する前記モーションデータに基づくキャラクタ画像８０を前記顧客２に対して表示し、前記顧客２の音声に含まれる語句と一致する語句が前記データベース７３に記憶されていない場合、前記オペレータ４が前記顧客２に応対する際の動作を検出して得たモーションデータに基づくキャラクタ画像８０を前記顧客２に対して表示するようにしたものである。

このように本発明によれば、キャラクタ画像を用いた顧客との応答においてオペレータと顧客との間で自然かつ円滑なコミュニケーションを成立させ、更にオペレータが介在しない状況においても、仮想オペレータと顧客との間で自然かつ円滑なコミュニケーションを成立させることができる顧客応対システム及び顧客応対方法を提供することが可能となる。

本発明の第１実施形態に係る顧客応対システムＳ１の概要を示す説明図本発明の第１実施形態に係る顧客応対システムＳ１の構成を示すブロック構成図本発明の第１実施形態においてオペレータ４と顧客２との双方向の応答の状況を説明する説明図本発明の第１実施形態においてオペレータ４の動作を検出するモーションキャプチャの状況を説明する説明図本発明の第２実施形態に係る顧客応対システムＳ２における各種データの流れ、及び顧客２との応対の内容を示す説明図本発明の第２実施形態に係る顧客応対システムＳ２における顧客２との応対のプロセスを示すフローチャート本発明の第２実施形態において音声・モーションデータベース７３に記憶されるデータのデータ構造を示す説明図本発明の第２実施形態において顧客側端末１に表示されるキャラクタ画像８０を示す説明図本発明の第１実施形態及び第２実施形態において顧客側端末１にて表示される他の情報の例を示す説明図

（第１実施形態）
以下、本発明の第１実施形態について図面を参照して説明する。図１は、本発明の第１実施形態に係る顧客応対システムＳ１の概要を示す説明図である。

図１において、１は顧客２が飲食店等におけるサービスに関する情報の提供を受ける顧客側端末である。以降、主に顧客側端末１は飲食店の客席に配置されたものとして説明するが、顧客側端末１は一般の店舗や企業の受付等に配置されていてもよい。第１実施形態では、顧客側端末１として表面にタッチパネルを備える情報端末を想定しているが、顧客側端末１は、例えばタッチパネルを画像面に重畳して配したディスプレイやその他の入力デバイスが接続されたＰＣ（Personal Computer）等で構成してもよい。

３は顧客側端末１との間で所定の情報を送受信し、オペレータ４が介在して接客の用に供されるオペレータ側端末である。５はオペレータ４の体の動き（動作）を検出するモーション検出部である。顧客側端末１とオペレータ側端末３とは、例えばインターネット等のネットワーク６を介して接続され双方向で情報を送受信する。

モーション検出部５で検出されたオペレータ４の動作（モーション）はオペレータ側端末３に入力され、モーションデータに変換された後にネットワーク６を介して顧客側端末１に送信される。顧客側端末１は、受信したモーションデータに基づきコンピュータグラフィックス（ＣＧ：Computer Graphics）によるキャラクタ画像８０（図８等を参照）を生成して表示する。

７は顧客側端末１及びオペレータ側端末３にネットワーク６を介して接続されたクラウド処理部である。クラウド処理部７は例えばサーバで構成され、顧客側端末１によって取得された顧客２の音声に関するデータ、及びモーション検出部５で検出されオペレータ側端末３で生成されたモーションデータを管理する。なお、クラウド処理部７は、後に説明する第２実施形態に係る顧客応対システムＳ２で用いられる。

図２は、本発明の第１実施形態に係る顧客応対システムＳ１の構成を示すブロック構成図である。以降、図２を用いて顧客応対システムＳ１の構成について詳細に説明する。

顧客側端末１は、顧客側制御部１０と、顧客側入力部２０と、顧客側出力部２５とで構成されている。顧客側制御部１０は、ＣＰＵ（Central Processing Unit）等で構成される第１演算部１１と、第１演算部１１が実行するプログラムを格納したＲＯＭ（Read Only Memory）やワーキングメモリとしてのＲＡＭ（Random Access Memory）で構成された第１記憶部１２と、ネットワーク６を介してオペレータ側端末３及びクラウド処理部７との間で双方向にデータを送受信する第１通信部１３と、タッチパネル等（図示せず）で構成されて顧客２の操作に基づき顧客側端末１に顧客２の指示を入力する第１指示入力部１４と、オペレータ側端末３から送信されたモーションデータに基づきキャラクタ画像８０（図８参照）を生成するキャラクタ画像生成部１５と、キャラクタ画像生成部１５で生成されたキャラクタ画像８０及びオペレータ側端末３から送信された音声データ（正確には、後述する変換後音声データ）を同期して再生する音声・キャラクタ画像再生部１６とを備える。

顧客側入力部２０は、顧客２が発する音声を取得する第１マイク２１と、顧客２を撮影するカメラ２２を備える。また、顧客側出力部２５は、音声・キャラクタ画像再生部１６が出力したキャラクタ画像８０を表示する表示画面としての第１表示部２６と、音声・キャラクタ画像再生部１６が出力した音声を再生する第１スピーカ２７とを備える。第１実施形態では、顧客側端末１は顧客側制御部１０、顧客側入力部２０、顧客側出力部２５が一体に構成されているものとするが、顧客側入力部２０と顧客側出力部２５とは、顧客側端末１と別体として構成され、顧客側端末１に対して電気的に接続される構成としてもよい。

オペレータ側端末３は、オペレータ側制御部３０と、オペレータ側入力部４０と、オペレータ側出力部４５とで構成されている。オペレータ側制御部３０は、ＣＰＵ等で構成される第２演算部３１と、第２演算部３１が実行するプログラムを格納したＲＯＭやワーキングメモリとしてのＲＡＭで構成された第２記憶部３２と、ネットワーク６を介して顧客側端末１及びクラウド処理部７との間で双方向にデータを送受信する第２通信部３３と、キーボード等（図示せず）で構成されてオペレータ４の操作に基づきオペレータ側端末３にオペレータ４の指示を入力する第２指示入力部３４と、顧客側端末１のカメラ２２で撮影された後、ネットワーク６を介してオペレータ側端末３に送信された顧客２の動画像に基づき顧客２の顔の表情を認識する画像認識部３５と、モーション検出部５が出力するデータを統合してオペレータ４の実際の動作に基づくモーションデータを生成するモーション認識部３６と、オペレータ側端末３（正確には、後述する第２マイク４１）で取得したオペレータ４の音声を特定のトーン（声質）に変換する音声変換処理部３７とを備える。

オペレータ側入力部４０は、オペレータ４の発する音声を取得する第２マイク４１を備え、オペレータ側出力部４５は、顧客側端末１のキャラクタ画像生成部１５で生成されネットワーク６を介してオペレータ側端末３に送信されたキャラクタ画像８０及び顧客側端末１のカメラ２２で撮影された顧客２の画像を表示する第２表示部４６と、顧客側端末１の第１マイク２１で取得されネットワーク６を介してオペレータ側端末３に送信された顧客２の音声を再生する第２スピーカ４７とを備えている。第１実施形態では、オペレータ側端末３において、オペレータ側制御部３０、オペレータ側入力部４０、オペレータ側出力部４５は一体に構成されているが、オペレータ側入力部４０とオペレータ側出力部４５とをオペレータ側端末３とは別体に構成し、オペレータ側端末３に電気的に接続される構成としてもよい。

オペレータ側制御部３０には、モーション検出部５の出力が入力される。モーション検出部５は、赤外線カメラ５１と前処理部５２とを備える。赤外線カメラ５１はオペレータ４の体の所定位置に配置された複数のマーカ５３が反射する赤外線に基づき赤外線画像を撮影する。前処理部５２は、オペレータ４が両手に装着したデータグローブ５４が出力するアナログ信号をディジタルデータに変換する。モーション検出部５の出力はオペレータ側制御部３０に入力され、モーション認識部３６でモーションデータに変換される。

図３は、本発明の第１実施形態においてオペレータ４と顧客２とによる双方向の応答の状況を説明する説明図、図４は、本発明の第１実施形態においてオペレータ４の動作を検出するモーションキャプチャの状況を説明する説明図である。以降、図３、図４に図２を併用して、顧客側端末１とオペレータ側端末３との間で送受信されるデータ、顧客２とオペレータ４の間で図られるコミュニケーションの状況、更にオペレータ側端末３でモーションキャプチャされたオペレータ４の動作を顧客側端末１で再生する処理について詳細に説明する。

なお、上述したように、顧客側端末１とオペレータ側端末３とはネットワーク６を介して相互に情報を送受信するが、説明を簡単にするために図３ではネットワーク６は図示していない。

図３において、８５は店舗の受付や飲食店の客室（以降、単に「客室８５」と称することがある。）である。客室８５には顧客側端末１が設置されており、顧客側端末１の第１表示部２６には、コンピュータグラフィックスにより生成されたキャラクタ画像８０が表示されている（以降、「顧客側端末１に表示されているキャラクタ画像８０」のように簡略して記載することがある。）。８６はオペレータ４が接客業務を行うオペレータ室である。図４に詳細に示すように、オペレータ室８６にはオペレータ側端末３と、赤外線カメラ５１と、前処理部５２、赤外線ライト（図示せず）等が設置されている。

まず客室８５において、顧客２が顧客側端末１に対して発話を行うと、顧客２の発した音声は第１マイク２１によって取得され、顧客側制御部１０に入力される。取り込まれた音声は第１演算部１１でＡＤ変換を施され音声データ（ディジタル）に変換される。

音声の取得と同時に顧客２の顔等はカメラ２２によって撮影され、カメラ２２が出力する画像データ（ディジタル）は第１演算部１１に入力される。第１演算部１１は音声データと画像データを符号化し、これらのデータは第１通信部１３によってオペレータ側端末３に送信される。

顧客側端末１から送信された音声データ及び画像データを受信したオペレータ側端末３の第２通信部３３は、これらのデータを第２演算部３１に出力する。第２演算部３１は入力された音声データと画像データとを復号して、第２スピーカ４７で顧客２の音声が再生され、第２表示部４６で顧客２の画像が表示される。なお、顧客２の画像は、第２表示部４６の隅に設定されたウィンドウ８７に表示される。

一方、オペレータ室８６にはオペレータ４が待機している。顧客側端末１から顧客２の音声データ及び画像データがオペレータ側端末３に送信されると、例えば、オペレータ側端末３には、顧客２から応答リクエストが発生している旨が表示され（図示せず）、第２スピーカ４７から所定の音声が再生される。もちろん、顧客側端末１を用いて顧客２が客室８５に在室していることを検出し、この検出結果に基づいてオペレータ側端末３に応答リクエストを通知するようにしてもよい（後述する）。オペレータ４は、応答リクエストが発生していることを確認すると、赤外線カメラ５１の撮像範囲において予め設定されている撮影エリアに移動する。

以降、図４に図２、図３を併用して説明を続ける。
オペレータ室８６は、モーション検出部５としてオペレータ４の位置や関節の動きを時系列に計測する、いわゆるモーションキャプチャシステムを備えている。オペレータ室８６には図示しない赤外線ライトが複数備えられており、またオペレータ４の体には、赤外光を反射する素材で構成された複数の小球状のマーカ５３が取り付けられている。なお、図４ではオペレータ４を背後から見た状態においてマーカ５３が直視されるように記載しているが、実際にはマーカ５３はオペレータ４の体表において赤外線カメラ５１と対向する位置に配置されている。

ここで赤外線カメラ５１は撮像光学系を複数（ここでは２つ）有する複眼カメラである。オペレータ４の姿勢によってはマーカ５３が隠れる場合があることを考慮して、複数の赤外線カメラ５１を設けてもよい。赤外線ライトの出射光を反射したマーカ５３が赤外線カメラ５１によって撮影され、赤外線画像データがモーション検出部５からモーション認識部３６に対して出力される。即ち、赤外線カメラ５１はトラッカーとして機能する。このように、第１実施形態では光学式のモーションキャプチャを採用しているが、例えば赤外線カメラ５１に替えて可視光を撮像する単眼カメラあるいはステレオカメラ、あるいは単眼カメラとDepthセンサとを組み合わせてオペレータ４の動作を検出してもよい。更に、磁気式、機械式といった他の公知のモーションキャプチャシステムを採用してもよく、また複数の方式を併用してもよい。

更に、オペレータ４は両手にデータグローブ５４を装着している。データグローブ５４には、薄い電気絶縁物のベース材に格子状の抵抗箔を形成したフレキシブルな歪ゲージ（図示せず）が複数埋め込まれ、オペレータ４の両手の各指の関節の屈曲、各指同士の開き具合、手の平の曲げ、手首の動き等に係る三次元座標が時系列に検出される。なお、データグローブ５４においてオペレータ４の手首に相当する位置にはマーカ５３ａが配置されており、マーカ５３ａを検出することでオペレータ４の手首と指との相対的な位置関係が特定される。データグローブ５４の出力は前処理部５２でディジタル化され、モーション認識部３６に対して出力される。なお、データグローブ５４にＡＤ変換器や演算部（共に図示せず）が備えられている場合は、データグローブ５４においてディジタルデータを生成してもよい。

モーション認識部３６は、赤外線カメラ５１の複数の撮像光学系で撮影された個々のマーカ５３に対して（ここでは、２つの画像間での）位置合わせを行って、いわゆるステレオ法によって各マーカ５３の三次元座標を求めるとともに、データグローブ５４によって取得された手や指の三次元座標を、マーカ５３ａの三次元座標を基準として統合する。更に、モーション認識部３６は、統合後の三次元座標を予め定義した人体の多関節モデルにマッピング（インバースキネマティクス）することで、オペレータ４の位置、手首や指の関節を含む関節角度等を時系列に算出し、例えばＢＶＨ形式に準拠したモーションデータとして出力する。

他方、オペレータ４が発した音声は第２マイク４１で取得され、取得された音声は第２演算部３１でＡＤ変換を施され音声データが生成される。第２演算部３１は生成した音声データを音声変換処理部３７に対して出力する。

音声変換処理部３７はいわゆるボイスチェンジャであり、オペレータ４の発した音声に基づく音声データをキャラクタ画像８０のキャラクタに対応する音質（トーン）に変換して変換後音声データを生成する。音声変換処理部３７によって、複数のオペレータ４間で声質が異なっていても、単一のキャラクタに対応する声質に変換することができる。

音声変換処理部３７によって生成された変換後音声データ、及びモーション認識部３６によって生成されたモーションデータは第２通信部３３によって、顧客側端末１に送信される。なお、例えば顧客２に対するオペレータ４が一人であり、当該オペレータ４の声質がキャラクタ画像８０のキャラクタの声質として妥当と考えられる場合、音声変換処理部３７でボイスチェンジを行うことなく顧客２との応対を行ってもよい。この場合、第２マイク４１で取得したオペレータ４の音声は、第２演算部３１でＡＤ変換され、変換後音声データに替えて顧客側端末１に送信される。

顧客側端末１の第１演算部１１は、変換後音声データ及びモーションデータを受信すると、このうちモーションデータをキャラクタ画像生成部１５に対して出力する。キャラクタ画像生成部１５は予め定められたキャラクタの多関節モデルにモーションデータをマッピングすることでキャラクタ画像８０を生成する。モーションデータは時系列に生成されるから、当該キャラクタ画像８０は時系列に再生される動画像となる。キャラクタ画像生成部１５は、生成したキャラクタ画像８０を音声・キャラクタ画像再生部１６に対して出力する。

音声・キャラクタ画像再生部１６は、変換後音声データをＤＡ変換し、変換後のアナログ信号を増幅して第１スピーカ２７で再生し、更にキャラクタ画像８０をラスタ信号に変換して第１表示部２６で表示する。なお、音声・キャラクタ画像再生部１６は、変換後音声データとキャラクタ画像８０が互いに同期するように第１スピーカ２７及び第１表示部２６に対する音声及び動画像の出力タイミングを制御する。これらの制御によって顧客側端末１は顧客２に対して情報を提供する。そして当該情報の提供に基づき、顧客２が再度応答を行うことで、キャラクタ画像８０を介してオペレータ４と顧客２との間で自然かつ円滑なコミュニケーションを成立させることが可能となる。

以上述べてきたように、第１実施形態の顧客応対システムＳ１は、顧客２に対して情報を提供する顧客側端末１と、顧客２に応対するオペレータ４の動作を検出するモーション検出部５と、モーション検出部５の検出結果に基づいてキャラクタ画像８０を生成するキャラクタ画像生成部１５とを備え、顧客側端末１（第１表示部２６）に、キャラクタ画像生成部１５で生成されたキャラクタ画像８０を表示する。

さて、第１実施形態において、顧客側端末１は客室８５の座席に顧客２が居るか居ないかにかかわらず、カメラ２２はアクティブな状態に保たれ、常に画像を撮影している。第１演算部１１は、カメラ２２で撮影した画像データと例えば事前に撮影しておいた顧客２が不在の際における画像データとの画素ごとの背景差分の絶対値を合計し、これが所定の期間を超えて予め定められた閾値より大きい場合は、顧客２が座席に着席したと判断する。逆に、背景差分の絶対値の合計が所定の期間を超えて予め定められた閾値以下の場合は、顧客２が座席に不在だと判断する。もちろん、顧客２が客室８５に在室するか否かは、例えば座席に圧力センサを設ける等、他のいわゆるプレゼンスセンサによって検出してもよい。

顧客２が座席に不在と判断している間、第１演算部１１は第１表示部２６に何ら表示を行っていないが、顧客２が座席に着先したと判断すると、第１演算部１１は、予め定められたキャラクタ画像８０を第１表示部２６に表示する（以降、接客が開始される前に表示されるキャラクタ画像８０を「初期画像」と称することがある。）とともに、第１スピーカ２７から顧客２に対して例えば「いらっしゃいませ。御用はございませんか？」のようなメッセージを出力して（音声・画像のいずれでも構わない）、顧客２の発話を促す。更に第１演算部１１は、顧客２が座席に着席した旨を応答リクエストとしてオペレータ側端末３に通知する。なお、このときのキャラクタ画像８０は、第１記憶部１２に予め記憶されたモーションデータに基づきキャラクタ画像生成部１５によって生成される。顧客２がメッセージに促されて発話を行うと、上述のごとくキャラクタ画像８０を介してオペレータ４による接客が行われる。

さて、顧客側端末１の初期画面におけるキャラクタ画像８０を生成するモーションデータはオペレータ側端末３の第２記憶部３２にも記憶されている。第２演算部３１は、顧客２が座席に着席した旨の通知を受信すると、オペレータ側端末３の第２表示部４６に、顧客側端末１と同一の初期画像を表示する。

顧客２に対する応対が開始されると、第２演算部３１は、オペレータ４の姿勢に基づくモーションデータと初期画像に表示されるキャラクタ画像８０のモーションデータとを比較する。モーションデータは関節等の三次元座標を含むので、これらの三次元座標のユークリッド距離を算出することで、双方の姿勢の近似度を算出することができる。第２演算部３１は、双方の姿勢が近似することを検出した場合、顧客側端末１へのオペレータ４の動きに基づくモーションデータの送信を開始する。そしてモーションデータを受信した顧客側端末１は、初期画像に替えてキャラクタ画像生成部１５で生成したキャラクタ画像８０（以降、オペレータ４による接客が開始された後のキャラクタ画像８０を「本人接客画像」と称することがある。）を表示する。このようにすることで、初期画像から本人接客画像に切り替わった際にキャラクタ画像８０の姿勢が極端に変化することを防止できる。

また、初期画像から本人接客画像に切り替える際に、初期画面におけるキャラクタ画像８０のモーションデータと、本人接客画像のモーションデータに差異がある場合、それぞれのモーションデータを連結する中間的なモーションデータを生成してキャラクタ画像８０を動的に変化させるようにしてもよい。

また、赤外線カメラ５１の近傍で、かつ予め赤外線カメラ５１との位置関係が定められた位置に、赤外線カメラ５１と同等の画角を持つか、あるいは両者の画角の差異が既知の可視光を撮像可能な第２カメラ（図示せず）を配置し、第２カメラでオペレータ４を撮影し、撮影した画像の位置と倍率とを、赤外線カメラ５１と第２カメラの相対的な位置関係及び画角に応じて補正し、補正後の画像をオペレータ側端末３に表示された初期画像と重ねて表示するようにしてもよい。このようにすることでオペレータ４は、自己の姿勢を初期画像のキャラクタの姿勢と略一致させることが容易になる。

また、初期画像から本人接客画像に切り替える他の方法として、オペレータ４が初期画像と近似する姿勢となり自ら接客が可能と判断した際に、例えば図示しない物理スイッチ等で接客開始の指示を第２演算部３１に通知するように構成し、通知を受けた第２演算部３１が顧客側端末１にイベント情報を送出し、顧客側端末１は当該イベント情報を受信すると、第１表示部２６に表示されている初期画像を一旦消去（例えばフェードアウト）し、その後にオペレータ側端末３から送信されたモーションデータに基づき本人接客画像を表示（例えばフェードイン）するようにしてもよい。

上述したような初期画像から本人接客画像への切り替え処理を行うことで、初期画像を生成するモーションデータと、本人接客画像を生成するモーションデータに差異があっても、キャラクタ画像８０の切り替えを顧客２にとって違和感なく行うことができる。

（第２実施形態）
第１実施形態では、オペレータ４自身がキャラクタ画像８０を介して顧客２と応対する顧客応対システムＳ１について詳細に説明した。以降、本発明の第２実施形態について詳細に説明する。第２実施形態は第１実施形態で説明した顧客２との応対の内容を拡張するものである。

図５は、本発明の第２実施形態に係る顧客応対システムＳ２における各種データの流れ、及び顧客２との応対の内容を示す説明図、図６は、本発明の第２実施形態に係る顧客応対システムＳ２における顧客２との応対のプロセスを示すフローチャート、図７は、本発明の第２実施形態において音声・モーションデータベース７３に記憶されるデータのデータ構造を示す説明図である。なお、第２実施形態の説明においても図２を用いるものとし、図２における各構成要素のうち、既に説明したものについては再度の説明を省略する。

まず、図５に図２を併用して第２実施形態に係る顧客応対システムＳ２の構成、及び各構成要素間で送受信されるデータについて説明する。

図２において、クラウド処理部７は、ネットワーク６を介して顧客側端末１及びオペレータ側端末３との間で双方向にデータを送受信する第３通信部７１と、顧客側端末１で取得された顧客２が発する音声から語句を認識する音声認識部７２と、オペレータ側端末３のモーション認識部３６が出力しネットワーク６を介してクラウド処理部７に入力されたモーションデータ及び音声認識部７２で認識された語句を記憶する音声・モーションデータベース７３（以降、単に「データベース７３」と称することがある。）と、ＣＰＵ等で構成された第３演算部７４とを有している。

第２実施形態でも、顧客側端末１とオペレータ側端末３との間で、第１実施形態と同様にPeer to Peerのデータの送受信が行われる。即ち、図５に示すように、客室８５ａに設けられた顧客側端末１からオペレータ室８６に設けられたオペレータ側端末３に対して音声データと画像データとが送信され、逆にオペレータ側端末３から顧客側端末１に対して変換後音声データとモーションデータとが送信される。

更に、第２実施形態では、客室８５ａ，８５ｂに配置された顧客側端末１からクラウド処理部７に対して音声データが送信される。またオペレータ室８６に配置されたオペレータ側端末３からクラウド処理部７に対して変換後音声データ及びモーションデータが送信され、更にクラウド処理部７から客室８５ｂに配置された顧客側端末１に対して変換後音声データとモーションデータとが送信される。なお、以降の説明において、客室８５ａ，８５ｂを区別しないときは、客室８５と称する。また、顧客側端末１とオペレータ側端末３とクラウド処理部７はネットワーク６（図２参照）を介して相互に情報を送受信するが、説明を簡単にするために図５ではネットワーク６は図示していない。

第２実施形態においては、客室８５に設置された顧客側端末１で取得された音声データは、顧客側端末１の第１通信部１３を介してクラウド処理部７に送信される。クラウド処理部７の第３通信部７１は受信した音声データを音声認識部７２に対して出力する。音声認識部７２は、顧客２の発話の１フレーズ単位に、音声データからいわゆる５Ｗ１Ｈとしての、「いつ（When）」、「どこで（Where）」、「だれが（Who）」、「なにを（What）」、「なぜ（Why）」、「どのように（How）」に関する語句を抽出する。具体的には場所の名称、商品の名称、人名等がこれに相当する。

更に音声認識部７２は「いつ」、「どこ」、「だれ」、「なに」といった、いわゆる六何を問う語句や、「する」、「したい」、「いく」、「いきたい」等の顧客２の行為や要望を表す語句も分離抽出する。音声認識部７２によって抽出された複数の語句のセット（以降、「抽出語句」と称することがある。）は音声・モーションデータベース７３（以降、単に「データベース７３」と称することがある。）に１フレーズを１レコードとして記憶される。なお、データベース７３におけるデータ構造については後述する。

第１実施形態で詳細に説明したように、顧客側端末１から送信された顧客２の音声データに対するオペレータ４の応答は、オペレータ側端末３から変換後音声データ（ボイスチェンジされていない音声データであってもよい）及びモーションデータとして出力される。第２実施形態では、これらのデータは顧客側端末１に送信されるのと並行してクラウド処理部７にも送信される。クラウド処理部７の第３演算部７４は、オペレータ４の発話に基づく音声データ（正確には、変換後音声データ）を１フレーズ毎に抽出して音声ファイルを生成する。この音声ファイルには例えば「Ｖ０００１」のようなファイル名が付与され、データベース７３に記憶される。なお、音声ファイル形式としてはｍｐ３等のフォーマットを用いることができる。

他方、オペレータ側端末３から受信したモーションデータに基づき第３演算部７４はモーションデータをファイル化する（以降、このファイルを「モーションファイル」と称することがある。）。モーションファイルには例えば「Ｍ０００１」のようなファイル名が付与され、データベース７３に記憶される。なお、モーションファイルのファイル形式としてはＢＶＨ等のフォーマットを用いることができる。また、第３演算部７４は、変換後音声データ及びモーションデータを受信した日時分秒を時刻情報としてデータベース７３に記憶する。

さて、第２実施形態では、オペレータ側端末３の画像認識部３５は、受信した顧客２の画像データから顔領域を抽出し、更に顔領域から目や口のパーツの周辺にあって人の感情を表すとされる複数の特徴領域を抽出する。人が笑顔になった時の顔には「口角が上がる」、「目尻が下がる」、「口が開く」、「目が細くなる」、「鼻の脇にしわができる」等の特徴が生じる。これらの特徴を予め定めておいた３次元顔モデルにフィッティングし、統計的な識別手法を適用することで、顧客２の満足度として人の笑顔を指標化、即ち満足度を推定して０〜１００％の間で数値化できる。このようにして得られた満足度は、オペレータ側端末３からクラウド処理部７に送信され、データベース７３に記憶される。

また、画像認識部３５は、抽出した顔領域から目や口の周辺にあって人の感情を表すＮ個の特徴点を抽出し、これらの特徴点を予め学習モデルが生成されたサポートベクターマシン（ＳＶＭ：Support Vector Machine）に入力することで、顧客２の表情から反応度（活性度）をポジティブ、ニュートラル、ネガティブのようにクラスタリングすることができる。このようにして得られた反応度には予め定められたフラグが付与され、当該フラグもクラウド処理部７に送信され、データベース７３に記憶される。

更に、ＳＶＭを用いることで、人の表情から感情、即ち「喜び」、「怒り」、「悲しみ」等を推定することも可能である。この感情の推定結果をデータベース７３に記憶してもよい。なお、ここではＳＶＭが取扱うデータとして顧客２の顔画像おける特徴点を想定しているが、音声を併用することで推定精度が向上する。

更に、例えば顧客２がキャラクタ画像８０を正視しているときは、顧客２が応対に集中していると考えられることから、顧客２の顔の位置及び目や口のパーツの位置に基づいて顧客２の顔の向きを判定し、顧客２の集中度を推定してもよく、この集中度の推定結果をデータベース７３に記憶してもよい。

なお、第１実施形態でも説明したように、オペレータ側端末３には顧客側端末１から顧客２を撮影した画像が送信されており、オペレータ側端末３の第２表示部４６の隅に設けられたウィンドウ８７には顧客２の姿（顔）が表示されている。そこで、これを目視したオペレータ４が顧客２の表情から満足度と反応度（並びに感情や集中度）を判定し、第２指示入力部３４を操作して手動で数値を入力するようにしてもよい。オペレータ４が手動で入力した満足度と反応度もデータベース７３に記憶される。

上述した抽出語句、モーションファイル、音声ファイル、時刻情報、満足度、反応度（並びに感情や集中度）の各種データやファイルは、第１実施形態で説明した顧客２とキャラクタ画像８０を介したオペレータ４との応答が行われる毎にデータベース７３に記憶される。即ち、第１実施形態で説明したオペレータ４による接客行為及び顧客２の応答に基づき、データベース７３にはこれらのデータとファイルとが記憶・蓄積されていく。

図７は、本発明の第２実施形態において音声・モーションデータベース７３（データベース７３）に記憶されるデータのデータ構造を示す説明図であり、図７（ａ）は主に飲食店を想定したテーブル、図７（ｂ）は主に企業や店舗の受付を想定したテーブルである。以降、図７を用いてデータベース７３のデータ構造について説明する。

図７に示すように、データベース７３に構築されるテーブルにおいて、各レコードには抽出語句、モーションファイル、音声ファイル、時刻情報、満足度、反応度の６つのフィールドが設けられる。もちろん上述した、感情、集中度のフィールドを追加して設けてもよい。

抽出語句のフィールドには、クラウド処理部７の音声認識部７２で抽出された六何に関する情報（語句のセット）が、例えば「どこ，レジ」のように格納される。モーションファイルのフィールドには、クラウド処理部７の第３演算部７４で生成されてデータベース７３に記憶されたモーションファイルにアクセスするためのファイルポインタが格納される。音声ファイルのフィールドには、第３演算部７４でファイル化されてデータベース７３に記憶されたモーションファイルのファイルポインタが格納される。

時刻情報のフィールドには、第３演算部７４が変換後音声データ及びモーションデータを受信した日時分秒が格納される。満足度のフィールドには、オペレータ側端末３から送信された満足度を示す数値（パーセンテージ）が格納される。反応度のフィールドには、オペレータ側端末３から送信された顧客２の反応を示すフラグ（ここでは、ポジティブ、ニュートラル、ネガティブの３つのうちのいずれか）が格納される。

第２実施形態において、データベース７３はリレーショナルデータベースとして構築されており、主キーとして抽出語句（音声認識部７２で抽出された語句のセット）が用いられる。抽出語句をキーとしてデータベース７３を検索することで、同一の抽出語句を持つレコードにおいて、これに関連づけられた他のフィールドのデータ（１レコードに含まれるデータ）が参照される。即ち、モーションファイルとして記憶されたモーションデータ、音声ファイルとして記憶された変換後音声データ、顧客２の満足度、顧客２の反応度（満足度と反応度については、画像認識部３５が推定した結果、またはオペレータ４が判断した結果）と、音声認識部７２で抽出された語句（抽出語句）とは関連付けられて記憶されている。

以降、図６に図２、図５、図７を併用して、第２実施形態における接客に際する顧客応対システムＳ２の処理について詳細に説明する。なお、ここでは顧客２は図５に示す客室８５ｂに在室するものとして説明する。

さて、上述したデータベース７３に十分な量のデータを蓄積するためには相当の期間を要するのが通例である。このため、専らデータを収集してデータベース７３を構築中の期間にオペレータ４が介在して応対した顧客２と、データベース７３を構築した後にデータベース７３に記憶されたデータに基づき応対を受ける顧客２とは、異なる人物であるか、あるいは同一人物であっても応対が行われる（即ち、サービスの提供を受ける）タイミングが異なる。そこで、以降の説明において顧客２は、データベース７３を構築中に応対を受けた顧客２とは別人であるものとする。

顧客２は、顧客側端末１を用いて問い合わせを行う（ＳＴ００１）。具体的には、顧客側端末１に表示されたキャラクタ画像８０に対して顧客２が発話を行う。顧客２が発した音声は顧客側端末１の第１マイク２１で取得され、第１演算部１１でディジタル化された音声データがクラウド処理部７に送信される。

クラウド処理部７では、音声データを受信すると音声認識部７２によって音声認識処理が実行される（ＳＴ００２）。音声認識部７２は、音声データに含まれる語句を抽出し、抽出結果に基づいて第３演算部７４はデータベース７３にアクセスし、主キーである抽出語句のフィールドを検索する。

データベース７３に音声認識結果とマッチングするデータが記憶されている場合、即ち、音声認識部７２による抽出結果と同一の抽出語句を格納するレコードが発見された場合（ＳＴ００３でＹｅｓ）、第３演算部７４は、データベース７３から変換後音声データとモーションデータとを抽出する（ＳＴ００４）。具体的には、第３演算部７４は、発見された抽出語句を含むレコードを参照することで音声ファイルのフィールドから音声ファイルのファイルポインタを取得し、音声ファイルにアクセスして変換後音声データを得る。また、同様にモーションファイルのフィールドからモーションファイルのファイルポインタを取得し、モーションファイルにアクセスしてモーションデータを得る。そして、第３演算部７４は、第３通信部７１を介して取得した変換後音声データ及びモーションデータを顧客側端末１に送信する。

変換後音声データ及びモーションデータを受信した顧客側端末１は、キャラクタ画像８０を生成し、音声とキャラクタ画像８０を再生する（ＳＴ００５）。具体的には、キャラクタ画像生成部１５がキャラクタ画像８０で生成され、音声・キャラクタ画像再生部１６は第１スピーカ２７で音声を再生するとともに、キャラクタ画像８０を第１表示部２６に表示する。

このように第２実施形態では、顧客側端末１で取得された顧客２の発話に基づく音声データに、過去にデータベース７３に記憶された抽出語句が含まれる場合、オペレータ４は応対を行わず、顧客側端末１では過去にデータベース７３に記憶された変換後音声データ及びモーションデータに基づく音声及びキャラクタ画像８０（以降、過去にデータベース７３に記憶されたモーションデータに基づいて再生されるキャラクタ画像８０を「代理接客画像」と称することがある。）が再生される。

即ち、第２実施形態の顧客応対システムＳ２は、顧客側端末１に設けられ顧客２の音声を取得する第１マイク２１と、第１マイク２１で取得した音声を認識し、音声に含まれる語句を抽出する音声認識部７２と、モーションデータと音声認識部７２で抽出された語句とを関連付けて記憶するデータベース７３とを備え、顧客２の音声に含まれる語句と一致する語句がデータベース７３に記憶されている場合、データベース７３に記憶された語句に対応するモーションデータに基づくキャラクタ画像８０を顧客側端末１に表示する。

代理接客画像は、顧客２の発話に含まれる語句の一致のみならず、上述した満足度、反応度を参酌することによって、より顧客２の心証が良好なモーションデータによって生成される。これによって、オペレータ４の実際の動きをキャプチャした際のモーションデータをデータベース７３に蓄積し、活用することで、オペレータ４が介在しない状況によっても、キャラクタ画像８０と顧客２との間で自然かつ円滑なコミュニケーションを成立させることが可能となる。

さて、上述したＳＴ００２で、第３演算部７４がデータベース７３にアクセスし、各レコードの抽出語句のフィールドを検索した結果、図７（ａ）にＬ１，Ｌ２として示すように、抽出語句のフィールドに「注文，したい」の語句を含むレコードが複数抽出される場合がある。このような場合、クラウド処理部７の第３演算部７４は、各レコードの満足度及び反応度のフィールドを参照し、より満足度の数値が大きく、反応度のフラグがポジティブとなっているレコードを選択し、このレコードに格納されたファイルポインタを参照して、変換後音声データとモーションデータとを抽出する。もちろん満足度の数値と反応度のフラグ（並びに、感情、集中度）の重み付は任意に行ってよく、例えば満足度の数値を優先させるようにしてもよい。

このようにすることで、顧客２の音声に含まれる語句と一致する語句がデータベース７３に複数記憶されている場合、より高い顧客２の満足度等と対応する、データベース７３に記憶された語句と関連づけられたモーションデータに基づくキャラクタ画像８０が顧客側端末１に表示されるようになる。

また、データベース７３を構成するテーブルに同一の語句が格納されたレコードが複数個存在する場合、データベース７３に、より高い満足度の数値を持ち、より反応度が良好なレコードのみを記憶するようデータベース７３を再構築してもよい。

データベース７３に音声認識結果とマッチングするデータがなかった場合、即ち、抽出結果と同一の内容を含むレコードが発見されなかった場合（ＳＴ００３でＮｏ）、第３演算部７４は、オペレータ４に応答指示を行う（ＳＴ００６）。具体的には、クラウド処理部７の第３演算部７４は、オペレータ側端末３にイベント情報を送信して、オペレータ４に対して応答リクエストを通知する。即ち、顧客２の音声に含まれる語句と一致する語句がデータベース７３に記憶されていない場合、オペレータ４にその旨が通知される。データベース７３に音声認識結果とマッチングするデータがなかった、という状況は、その際の顧客２の発話に対して顧客応対システムＳ２が的確に応答できないことを意味する。

このような状況においては、オペレータ４を介在させることで顧客２に対して的確な応答を行うことが可能となる。なお、ここでは顧客２は図５に示す客室８５ａに在室するものとして説明する。

イベントを受信したオペレータ側端末３では、オペレータ４による音声、モーション応答が行われる（ＳＴ００７）。具体的にはオペレータ４のモーションキャプチャ等が実行され、変換後音声データ及びモーションデータがオペレータ側端末３から客室８５ａに配置された顧客側端末１に送信される（ＳＴ００８）。

変換後音声データ及びモーションデータを受信した顧客側端末１では、キャラクタ画像８０が生成され、変換後音声データに基づく音声とキャラクタ画像８０が再生される（ＳＴ００９）。なお、ＳＴ００８とＳＴ００９の処理は、第１実施形態で詳細に説明した処理と同等である。

更に、オペレータ側端末３は、変換後音声データ及びモーションデータをクラウド処理部７に送信し、これらはクラウド処理部７のデータベース７３に記憶される（ＳＴ０１０）。このように、第２実施形態においても、オペレータ４の動きに基づくモーションデータ及び変換後音声データはデータベース７３に記憶されていく。また、図５に示すように、客室８５ａに在室する顧客２が発した音声に基づく音声データも顧客側端末１からクラウド処理部７に送信され、音声認識部７２により抽出された語句がデータベース７３に記憶されていく。これによって、キャラクタ画像８０を介してオペレータ４が顧客２に応対する度に、データベース７３を構成するテーブルに新たなレコードが追加されることとなる。

なお第２実施形態では、ＳＴ００３で説明したようにデータベース７３に音声認識結果とマッチングするデータがなかった場合に、クラウド処理部７の第３演算部７４がオペレータ側端末３に対してオペレータ４による応答をリクエストするイベントを発行している。他方、顧客側端末１にはタッチパネル（図示せず）等で構成された第１指示入力部１４が設けられおり、顧客２自身が、オペレータ４が介在する接客の形態（即ち、キャラクタ画像８０として本人接客画像を介した応対）を望む場合、顧客２が第１指示入力部１４を操作することで、オペレータ４に対して応答リクエストを通知することが可能となっている。この場合は、ＳＴ００６〜ＳＴ０１０の処理が実行される。

図８は、本発明の第２実施形態において顧客側端末１に表示されるキャラクタ画像８０を示す説明図である。以下、図５を併用して説明を続ける。

上述したように第２実施形態では、顧客２に対する応対には２つのモードが存在する。一つ目は、オペレータ室８６に在室するオペレータ４がキャラクタ画像８０を介して客室８５ａに在室する顧客２に応対する第１のモードであり、この際はキャラクタ画像８０としてオペレータ４が顧客２に応対する際の動作を検出して得た本人接客画像が用いられ、同時に取得された音声に基づく変換後音声データが、本人接客画像の表示と同期してリアルタイムに再生される。二つ目は、過去にデータベース７３に記憶されたモーションデータに基づき、オペレータ４が介入することなくキャラクタ画像８０を介して客室８５ｂに在室する顧客２に応対する第２のモードであり、この際はキャラクタ画像８０として代理接客画像が用いられ、変換後音声データはデータベース７３に格納された音声ファイルに基づく。即ち、第２のモードはオペレータ４に代わって仮想オペレータ８８が顧客２と応対するモードである、ということができる。

そして、第１のモード及び第２のモードのいずれにおいても、顧客側端末１の第１表示部２６に表示されるキャラクタ画像８０の容姿は不変とされ、顧客２に対する応対の形態が第１のモードから第２のモード、あるいは第２のモードから第１のモードに遷移したとしても、常に同一のキャラクタ画像８０を介して応対が行われることから、顧客２は二つのモードが相互に遷移しても違和感を覚えることがない。

また、第１のモードと第２のモードとは相互に切り替え可能となっている。即ち、第１のモードでオペレータ４が本人接客画像を介して顧客２に応対している状況で、顧客２の次の発話において、顧客２の発する音声に含まれる語句がデータベース７３に記憶されている場合、クラウド処理部７の第３演算部７４は、オペレータ側端末３に対して、仮想オペレータ８８による第２のモードに切り替え可能であることを通知し、これを受けたオペレータ４が図示しない物理スイッチ等を操作して、第１のモードから第２のモードへの遷移を指示することができる。もちろん第３演算部７４の判断によって第１のモードから第２のモードに遷移させることも可能である。

図９は、本発明の第１実施形態及び第２実施形態において顧客側端末１にて表示される他の情報の例を示す説明図である。以降、図９に図８、図２を併用して説明を続ける。第１のモード、第２のモードのいずれで顧客２との応答がなされているかにかかわらず、顧客側端末１の第１表示部２６の下部にはキャラクタ画像８０とともに、操作メニュー９０が表示されている。操作メニュー９０としては、例えば商品の注文を行う際に使用される「注文」、飲食店等の周辺の観光情報を提供する際に使用される「おすすめ観光名所」等が表示される。

顧客２が例えば、顧客側端末１のタッチパネル等で構成される第１指示入力部１４を操作して「注文」を選択（即ち、タッチパネルの該当領域をタップ）すると、第１表示部２６には商品メニュー９１が表示される。顧客２は商品メニュー９１から所望の商品を選択することで、商品の発注が行われる。

以上、本発明に係る顧客応対システムＳ１，Ｓ２について特定の実施形態に基づいて詳細に説明したが、これらの実施形態はあくまでも例示であって、本発明はこれらの実施形態によって限定されるものではない。例えば、第１実施形態及び第２実施形態において、顧客側端末１とオペレータ側端末３とはネットワーク６を介して接続されているとしたが、これらの端末は有線にて直接的に接続されていてもよく、また同様に第２実施形態におけるクラウド処理部７もいわゆるクラウドを利用することなく所定の回線で顧客側端末１及びオペレータ側端末３と接続されていてもよい。

また、上述した実施形態においては、飲食店の客室８５に顧客側端末１が置かれ、主として飲食店におけるサービスの提供に顧客応対システムＳ１，Ｓ２が適用される事例について説明したが、本発明に係る顧客応対システムＳ１，Ｓ２がホテルのフロントや企業や店舗の受付に配置されて、顧客２の応対に供されうることは明白である。

本発明に係る顧客応対システム及び顧客応対方法は、接客業務や受付業務等を支援する支援システムや支援装置に好適に応用することができる。

１顧客側端末
２顧客
３オペレータ側端末
４オペレータ
５モーション検出部
６ネットワーク
７クラウド処理部
１０顧客側制御部
１１第１演算部
１２第１記憶部
１３第１通信部
１４第１指示入力部
１５キャラクタ画像生成部
１６音声・キャラクタ画像再生部
２０顧客側入力部
２１第１マイク
２２カメラ
２５顧客側出力部
３０オペレータ側制御部
３１第２演算部
３２第２記憶部
３３第２通信部
３４第２指示入力部
３５画像認識部
３６モーション認識部
４０オペレータ側入力部
４１第２マイク
４５オペレータ側出力部
４６第２表示部
４７第２スピーカ
５１赤外線カメラ
５２前処理部
５３マーカ
５４データグローブ
５５信号線
７１第３通信部
７２音声認識部
７３音声・モーションデータベース（データベース）
７４第３演算部
８０キャラクタ画像
８５，８５ａ，８５ｂ客室
８６オペレータ室
８７ウィンドウ
８８仮想オペレータ
９０操作メニュー
９１商品メニュー
Ｓ１，Ｓ２顧客応対システム

Claims

顧客に対して情報を提供する顧客側端末と、
前記顧客側端末に設けられ前記顧客の音声を取得する第１マイクと、
前記第１マイクで取得した音声を認識し、前記音声に含まれる語句を抽出する音声認識部と、
前記顧客と応対する際のオペレータの動作を検出するモーション検出部と、
前記モーション検出部の出力に基づいてモーションデータを生成するモーション認識部と、
前記モーションデータに基づいてキャラクタ画像を生成するキャラクタ画像生成部と、
データベースと、
を備え、
前記オペレータが前記顧客と応対する際に、前記顧客側端末に、前記キャラクタ画像生成部で生成されたキャラクタ画像を表示して、前記情報を提供するとともに、前記データベースに前記モーションデータと前記音声認識部で抽出された語句とを関連付けて記憶することを特徴とする顧客応対システム。
前記顧客の音声に含まれる語句と一致する語句が前記データベースに記憶されている場合、前記データベースに記憶された語句に対応する前記モーションデータに基づくキャラクタ画像を前記顧客側端末に表示し、
前記顧客の音声に含まれる語句と一致する語句が前記データベースに記憶されていない場合、前記オペレータが前記顧客に応対する際の動作を検出して得たモーションデータに基づくキャラクタ画像を前記顧客側端末に表示することを特徴とする請求項１に記載の顧客応対システム。
前記顧客側端末に設けられて前記顧客を撮影するカメラと、
前記カメラで撮影された画像に基づき、前記顧客の満足度を推定する画像認識部と
を備え、
前記顧客の満足度を、前記音声認識部で抽出された語句と対応付けて前記データベースに記憶することを特徴とする請求項１または請求項２に記載の顧客応対システム。
前記顧客側端末に設けられて前記顧客を撮影するカメラを備え、
前記カメラで撮像された画像に基づき、前記オペレータが判断した前記顧客の満足度を、前記音声認識部で抽出された語句と対応付けて前記データベースに記憶することを特徴とする請求項１または請求項２に記載の顧客応対システム。
前記顧客の音声に含まれる語句と一致する語句が前記データベースに複数記憶されている場合、より高い前記顧客の満足度と対応する、前記データベースに記憶された語句と関連づけられた前記モーションデータに基づくキャラクタ画像を前記顧客側端末に表示することを特徴とする請求項３または請求項４に記載の顧客応対システム。
前記オペレータの音声を取得する第２マイクと、
前記第２マイクで取得した前記オペレータの音声を前記キャラクタ画像のキャラクタに対応した音声に変換する音声変換処理部と
を更に備え、
前記顧客側端末で、前記キャラクタ画像の表示と同期して、前記音声変換処理部で変換された音声を出力することを特徴とする請求項１〜請求項５のいずれか一項に記載の顧客応対システム。
顧客に対して情報を提供する際の顧客応対方法であって、
前記顧客と応対する際のオペレータの動作を検出し、
検出された前記オペレータの動作に基づいてモーションデータを生成し、
前記モーションデータに基づいてキャラクタ画像を生成し、
前記オペレータが前記顧客と応対する際に、前記顧客に対して、前記モーションデータに基づいて生成されたキャラクタ画像を表示して、前記情報を提供するとともに、
前記顧客の音声を取得し、
取得した前記音声を認識して、前記音声に含まれる語句を抽出し、
前記モーションデータと前記音声を認識することで抽出された語句とを関連付けてデータベースに記憶することを特徴とする顧客応対方法。
前記顧客の音声に含まれる語句と一致する語句が前記データベースに記憶されている場合、前記データベースに記憶された語句に対応する前記モーションデータに基づくキャラクタ画像を前記顧客に対して表示し、
前記顧客の音声に含まれる語句と一致する語句が前記データベースに記憶されていない場合、前記オペレータが前記顧客に応対する際の動作を検出して得たモーションデータに基づくキャラクタ画像を前記顧客に対して表示することを特徴とする請求項７に記載の顧客応対方法。