JP2023131825A

JP2023131825A - 情報処理装置、制御プログラムおよび制御方法

Info

Publication number: JP2023131825A
Application number: JP2022036796A
Authority: JP
Inventors: 崇志三上; Takashi Mikami; 浩石黒; Hiroshi Ishiguro; 昇吾西口; Shogo Nishiguchi
Original assignee: Avita Inc
Current assignee: Avita Inc
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2023-09-22

Abstract

【課題】対話画面を通して利用者との対話状況を知ることができ、対話の相手である利用者と対話し易くすることができる情報処理装置、制御プログラム及び制御方法を提供する。【解決手段】利用者側端末が、ネットワークを介して、操作者側端末及びサーバに通信可能に接続される情報処理システムにおいて、操作者側端末は、ＣＰＵを含む。操作者は、表示装置に表示された対話画面２００を見て、通信可能に接続された利用者側端末を使用する利用者のアバターの画像２１０と対話する。仮想空間には、利用者及び操作者のそれぞれに対応するアバター画像２１０、２１２が配置され、利用者と操作者の対話状況に応じて仮想カメラの位置及び向きが制御され、一人称視点、斜め後方から見た三人称視点或いは真横から見た三人称視点の対話画面が表示される。【選択図】図５

Description

この発明は、情報処理装置、制御プログラムおよび制御方法に関し、特にたとえば、通信可能に接続される端末の利用者と音声で対話する操作者が使用する、情報処理装置、制御プログラムおよび制御方法に関する。

この種の従来の情報処理装置の一例が特許文献１に開示されている。特許文献１に開示される情報処理システムでは、ユーザが商品に関することや、ショッピングサイトの利用方法に関することについて相談したい場合、ユーザは呼出ボタンを押下することで、オペレータを呼び出して相談することが可能である。ユーザ端末とオペレータ端末が接続されると、オペレータ端末には、ユーザ端末に表示されたウェブサイトが現在の表示態様で表示される。また、ユーザ端末には、ウェブサイトに、オペレータの画像またはこれに同期したアバター画像が表示される。したがって、オペレータは、ユーザに対して身振り手振りを用いながら接客する。

特許第６９３７５３４号

上記の特許文献１では、ショッピングサイト画面以外のウェブサイト画面や、他の個人情報など、ユーザが意図しない画面がオペレータ端末に映り込むことがない。つまり、オペレータ端末には、ユーザの画像またはこれに同期したアバター画像が表示されることが無く、オペレータはユーザまたはこれに同期したアバターの顔を見ることができないため、対話し難い。このため、ユーザの画像をオペレータ端末に表示することが考えられるが、ユーザのプライバシーを侵害する虞がある。また、ユーザの画像に同期したアバター画像を表示することも考えられるが、オペレータがより対話し易くするためには改善の余地がある。

それゆえに、この発明の主たる目的は、新規な、情報処理装置、制御プログラムおよび制御方法を提供することである。

また、この発明の他の目的は、相手と対話し易くすることができる、情報処理装置、制御プログラムおよび制御方法を提供することである。

第１の発明は、操作者が対話する利用者の音声である利用者音声を利用者側端末から受信する音声受信手段、操作者の顔画像である操作者顔画像を撮影する撮影手段、少なくとも、音声受信手段によって受信された利用者音声および撮影手段によって撮影された操作者顔画像を用いて、操作者と利用者の対話状況を判断する対話状況判断手段、操作者に対応するアバターである操作者アバターと利用者に対応するアバターである利用者アバターを仮想空間に配置するアバター配置手段、および仮想空間を撮影する仮想カメラの位置および向きを対話状況判断手段によって判断された対話状況に応じて設定する仮想カメラ制御手段を備える、情報処理装置である。

第２の発明は、第１の発明に従属し、仮想カメラ制御手段は、対話状況に応じて、仮想カメラの位置および向きを、操作者アバターから利用者アバターを見た一人称視点、操作者アバターの斜め後方から操作者アバターと利用者アバターの間の第１所定位置を見た後方の三人称視点、または、操作者アバターと利用者アバターの横から操作者アバターと利用者の間の第２所定位置を見た側方の三人称視点のいずれかに設定する。

第３の発明は、第１または第２の発明に従属し、対話状況は、操作者が利用者だけを意識している第１の状況、操作者が利用者のみならず、操作者自身のリアクションを確認したい第２の状況、および、操作者と操作者が対等に話し合っている第３の状況のいずれかである。

第４の発明は、第３の発明に従属し、第１の状況は、操作者が利用者音声を単に傾聴している第４の状況を含み、操作者顔画像に基づいて操作者の表情を認識する操作者表情認識手段をさらに備え、対話状況判断手段は、音声受信手段によって利用者音声を受信している場合に、操作者表情認識手段によって認識された操作者の表情に基づいて第４の状況を判断し、仮想カメラ制御手段は、対話状況判断手段によって第４の状況が判断された場合に、仮想カメラを一人称視点に設定する。

第５の発明は、第３の発明に従属し、第２の状況は、操作者が利用者音声を納得しながら傾聴している第５の状況を含み、操作者顔画像に基づいて操作者の頭部の動きを検出する操作者頭部の動き検出手段をさらに備え、対話状況判断手段は、音声受信手段によって利用者音声を受信している場合に、操作者頭部の動き検出手段によって検出された操作者の頭部の動きに基づいて第５の状況を判断し、仮想カメラ制御手段は、対話状況判断手段によって第５の状況が判断された場合に、仮想カメラを後方の三人称視点に設定する。

第６の発明は、第３の発明に従属し、第２の状況は、操作者が強い感情の利用者音声を傾聴している第６の状況を含み、操作者顔画像に基づいて操作者の頭部の動きを検出する操作者頭部の動き検出手段をさらに備え、対話状況判断手段は、音声受信手段によって利用者音声を受信している場合に、利用者感情認識手段によって検出された利用者の感情に基づいて第６の状況を判断し、仮想カメラ制御手段は、対話状況判断手段によって第６の状況が判断された場合に、仮想カメラを後方の三人称視点に設定する。

第７の発明は、第３の発明に従属し、第２の状況は、操作者が利用者に謝っている第７の状況を含み、操作者顔画像に基づいて操作者の表情を認識する操作者表情認識手段、および操作者の音声である操作者音声を検出する音声検出手段をさらに備え、対話状況判断手段は、操作者表情認識手段によって認識された操作者の表情と音声検出手段によって検出された操作者音声に基づいて第７の状況を判断し、仮想カメラ制御手段は、対話状況判断手段によって第７の状況が判断された場合に、仮想カメラを後方の三人称視点に設定する。

第８の発明は、第３の発明に従属し、第３の状況は、操作者または利用者が挨拶している第８の状況を含み、操作者の音声である操作者音声を検出する音声検出手段をさらに備え、対話状況判断手段は、音声受信手段によって受信された利用者音声と音声検出手段によって検出された操作者音声に基づいて第８の対話状況を判断し、仮想カメラ制御手段は、対話状況判断手段によって第８の状況が判断された場合に、仮想カメラを側方の三人称視点に設定する。

第９の発明は、第３の発明に従属し、第３の状況は、操作者と利用者が言い合っている第９の状況を含み、操作者の音声である操作者音声を検出する音声検出手段をさらに備え、対話状況判断手段は、音声受信手段によって受信された利用者音声と音声検出手段によって検出された操作者音声に基づいて第９の状況を判断し、仮想カメラ制御手段は、対話状況判断手段によって第９の状況が判断された場合に、仮想カメラを側方の三人称視点に設定する。

第１０の発明は、第３の発明に従属し、第３の状況は、操作者と利用者が共感している第１０の状況を含み、操作者顔画像に基づいて操作者の表情を認識する操作者表情認識手段、利用者の顔画像である利用者顔画像を利用者側端末から受信する顔画像受信手段、および顔画像受信手段によって受信された利用者顔画像に基づいて利用者の表情を認識する利用者表情認識手段をさらに備え、対話状況判断手段は、少なくとも、操作者表情認識手段によって認識された操作者の表情と利用者表情認識手段によって認識された利用者の表情に基づいて第１０の状況を判断し、仮想カメラ制御手段は、対話状況判断手段によって第１０の対話状況が判断された場合に、仮想カメラを側方の三人称視点に設定する。

第１１の発明は、第３の発明に従属し、第３の状況は、操作者と利用者が共感している第１０の状況を含み、操作者顔画像に基づいて操作者の表情を認識する操作者表情認識手段、および利用者側端末から利用者の表情を受信する表情受信手段をさらに備え、対話状況判断手段は、少なくとも、操作者表情認識手段によって認識された操作者の表情と表情受信手段によって受信された利用者の表情に基づいて第１０の状況を判断し、仮想カメラ制御手段は、対話状況判断手段によって第１０の状況が判断された場合に、仮想カメラを側方の三人称視点に設定する。

第１２の発明は、情報処理装置で実行される制御プログラムであって、情報処理装置のプロセッサに、操作者が対話する利用者の音声である利用者音声を利用者側端末から受信する音声受信ステップ、操作者の顔画像である操作者顔画像を撮影する撮影ステップ、少なくとも、音声受信ステップにおいて受信した利用者音声および撮影ステップにおいて撮影した操作者顔画像を用いて、操作者と利用者の対話状況を判断する対話状況判断ステップ、操作者に対応するアバターである操作者アバターと利用者に対応するアバターである利用者アバターを仮想空間に配置するアバター配置ステップ、および仮想空間を撮影する仮想カメラの位置および向きを対話状況判断ステップにおいて判断した対話状況に応じて設定する仮想カメラ制御ステップを実行させる、制御プログラムである。

第１３の発明は、情報処理装置の制御方法であって、 (ａ)操作者が対話する利用者の音声である利用者音声を利用者側端末から受信するステップ、（ｂ）操作者の顔画像である操作者顔画像を撮影するステップ、（ｃ）少なくとも、ステップ（ａ）において受信した利用者音声およびステップ（ｂ）において撮影した操作者顔画像を用いて、操作者と利用者の対話状況を判断するステップ、（ｄ）操作者に対応するアバターである操作者アバターと利用者に対応するアバターである利用者アバターを仮想空間に配置するステップ、および（ｅ）仮想空間を撮影する仮想カメラの位置および向きをステップ（ｃ）において判断した対話状況に応じて設定するステップを含む、制御方法である。

この発明によれば、利用者のような相手と対話し易くすることができる。

この発明の上述の目的、その他の目的，特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。

図１はこの発明の一実施例の情報処理システムを示す図である。図２は図１に示す利用者側端末の電気的な構成を示すブロック図である。図３は図１に示す操作者側端末の電気的な構成を示すブロック図である。図４は利用者側端末の表示装置に表示される画面の一例を示す図である。図５（Ａ）は操作者側端末の表示装置に表示される対話画面の一例を示す図であり、図５（Ｂ）は操作者側端末の表示装置に表示される対話画面の他の例を示す図であり、図５（Ｃ）は操作者側端末の表示装置に表示される対話画面のその他の例を示す図である。図６（Ａ）は仮想カメラの位置および向きの第１設定値を説明するための図であり、図６（Ｂ）は仮想カメラの位置および向きの第２設定値を説明するための図であり、図６（Ｃ）は仮想カメラの位置および向きの第３設定値を説明するための図である。図７（Ａ）は度合の異なるアバターの怒りの表情の一例を示す図であり、図７(Ｂ)は度合の異なるアバターの嫌悪の表情の一例を示す図である。図８は操作者側端末のＲＡＭのメモリマップの一例を示す図である。図９は図８に示すデータ記憶領域の具体的な内容の一例を示す図である。図１０は図３に示す操作者側端末のＣＰＵの仮想カメラ制御処理の一例の第１の一部を示すフロー図である。図１１は図３に示す操作者側端末のＣＰＵの仮想カメラ制御処理の一例の第２の一部であって、図１０に後続するフロー図である。図１２は図３に示す操作者側端末のＣＰＵの仮想カメラ制御処理の一例の第３の一部であって、図１１に後続するフロー図である。図１３は図３に示す操作者側端末のＣＰＵの状態検出処理の一例を示すフロー図である。図１４は図３に示す操作者側端末のＣＰＵの出力処理の一例を示すフロー図である。図１５は図３に示す操作者側端末のＣＰＵの送受信処理の一例を示すフロー図である。図１６は図２に示す利用者側端末のＣＰＵの送受信処理の一例を示すフロー図である。図１７は第２実施例の操作者側端末のＣＰＵの制御処理の一部を示すフロー図である。図１８は第２実施例の利用者側端末のＣＰＵの送受信処理を示すフロー図である。

＜第１実施例＞
図１を参照して、この第１実施例の情報処理システム１０は利用者側端末１２を含み、利用者側端末１２は、ネットワーク１４を介して、操作者側端末１６およびサーバ１８に通信可能に接続される。

なお、この第１実施例では、１台の利用者側端末１２および１台の操作者側端末１６を示すが、実際には、複数台の利用者側端末１２および複数台の操作者側端末１６が設けられ、後述するように、１台の利用者側端末１２と、この１台の利用者側端末１２からの要求に応じてサーバ１８によって選択された１台の操作者側端末１６の間でチャットまたはトークの処理が行われる。

利用者側端末１２は、サーバ１８によって提供される所定のサービスを利用する利用者によって使用され、操作者側端末１６は、利用者に応対する操作者によって使用される。

利用者側端末１２は、情報処理装置であり、一例として、汎用のスマートフォンであり、ブラウザ機能を備えている。他の例では、利用者側端末１２として、タブレットＰＣ、ノート型ＰＣまたはデスクトップ型ＰＣなどの他の汎用の端末を用いることもできる。

ネットワーク１４は、インターネットを含むＩＰ網（または、ＩＰネットワーク）と、このＩＰ網にアクセスするためのアクセス網（または、アクセスネットワーク）とから構成される。アクセス網としては、公衆電話網、携帯電話網、有線ＬＡＮ、無線ＬＡＮ、ＣＡＴＶ（Cable Television）等を用いることができる。

操作者側端末１６は、利用者側端末１２とは異なる他の情報処理装置であり、一例として、汎用のノート型ＰＣまたはデスクトップ型ＰＣであるが、他の例では、スマートフォンまたはタブレットＰＣなどの他の汎用の端末を用いることもできる。

サーバ１８は、利用者側端末１２および操作者側端末１６とは異なるその他の情報処理装置であり、汎用のサーバを用いることができる。したがって、サーバ１８は、ＣＰＵ１８ａおよび記憶部（ＨＤＤ、ＲＯＭおよびＲＡＭを含む）１８ｂを備えるとともに、通信インタフェースおよび入出力インタフェースなどのコンポーネントを備える。第１実施例では、サーバ１８は、所定のサービスを提供するサイトを運営する。

図２は図１に示した利用者側端末１２の電気的な構成を示すブロック図である。図２に示すように、利用者側端末１２はＣＰＵ２０を含み、ＣＰＵ２０は、内部バスを介して、記憶部２２、通信インタフェース（以下、「通信Ｉ／Ｆ」という）２４および入出力インタフェース（以下、「入出力Ｉ／Ｆ」という）２６に接続される。

ＣＰＵ２０は、利用者側端末１２の全体的な制御を司る。ただし、ＣＰＵ２０に代えて、ＣＰＵ機能、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）機能等の複数の機能を含むＳｏＣ（Ｓｙｓｔｅｍ－ｏｎ－ａ－ｃｈｉｐ）を設けてもよい。記憶部２２は、ＨＤＤ、ＲＯＭおよびＲＡＭを含む。ただし、ＨＤＤに代えて、または、ＨＤＤ、ＲＯＭおよびＲＡＭに加えて、ＳＳＤ等の不揮発性メモリが使用されてもよい。

通信Ｉ／Ｆ２４は、ＣＰＵ２０の制御の下、ネットワーク１４を介して、操作者側端末１６およびサーバ１８などの外部のコンピュータとの間で、制御信号およびデータの送受信を行うために有線インタフェースを有する。ただし、通信Ｉ／Ｆ２４としては、無線ＬＡＮまたはBluetooth（登録商標）等の無線インタフェースを使用することもできる。

入出力Ｉ／Ｆ２６には、入力装置２８および表示装置３０、マイク３２およびスピーカ３４が接続されている。入力装置２８は、タッチパネルおよびハードウェアのボタンである。タッチパネルは、汎用のタッチパネルであり、静電容量方式、電磁誘導方式、抵抗膜方式、赤外線方式など、任意の方式のものを用いることができる。後述する操作者側端末１６についても同様である。

ただし、利用者側端末１２として、ノート型ＰＣまたはデスクトップ型ＰＣが用いられる場合には、入力装置２８として、キーボードおよびコンピュータマウスが使用される。

また、表示装置３０は、ＬＣＤまたは有機ＥＬ表示装置である。上記のタッチパネルは、表示装置３０の表示面上に設けられてもよいし、タッチパネルが表示装置３０と一体的に形成されたタッチパネルディスプレイが設けられてもよい。このことは、後述する操作者側端末１６についても同様である。

入出力Ｉ／Ｆ２６は、入力装置２８から入力された操作データ（または、操作情報）をＣＰＵ２０に出力するとともに、ＣＰＵ２０によって生成された画像データを表示装置３０に出力して、画像データに対応する画面または画像を表示装置３０に表示させる。ただし、外部のコンピュータ（たとえば、操作者側端末１６またはサーバ１８）から受信した画像データがＣＰＵ２０によって出力される場合もある。

また、入出力Ｉ／Ｆ２６は、マイク３２で検出された利用者の音声をデジタルの音声データに変換してＣＰＵ２０に出力するとともに、ＣＰＵ２０によって出力される音声データをアナログの音声信号に変換してスピーカ３４から出力させる。ただし、第１実施例では、ＣＰＵ２０から出力される音声データは、操作者側端末１６から受信した音声データである。

また、利用者側端末１２は、センサインタフェース（センサＩ／Ｆ）３６およびカメラ３８を備えている。ＣＰＵ２０は、バスおよびセンサＩ／Ｆ３６を介してカメラ３８に接続される。カメラ３８は、ＣＣＤまたはＣＭＯＳのような撮像素子を用いたカメラである。

なお、図２に示す利用者側端末１２の電気的な構成は一例であり、限定される必要はない。

また、利用者側端末１２がスマートフォンである場合には、携帯電話通信網、または、携帯電話網および公衆電話網を介して、通話するための通話回路を備えるが、第１実施例では、そのような通話は行わないため、図示は省略してある。このことは、後述する操作者側端末１６がスマートフォンである場合についても同じである。

図３は図１に示した操作者側端末１６の電気的な構成を示すブロック図である。図３に示すように、操作者側端末１６はＣＰＵ５０を含み、ＣＰＵ５０は、内部バスを介して、記憶部５２、通信Ｉ／Ｆ５４および入出力Ｉ／Ｆ５６に接続される。

ＣＰＵ５０は、操作者側端末１６の全体的な制御を司る。ただし、ＣＰＵ５０に代えて、ＣＰＵ機能、ＧＰＵ機能等の複数の機能を含むＳｏＣを設けてもよい。記憶部５２は、ＨＤＤ、ＲＯＭおよびＲＡＭを含む。ただし、ＨＤＤに代えて、または、ＨＤＤ、ＲＯＭおよびＲＡＭに加えて、ＳＳＤ等の不揮発性メモリが使用されてもよい。

通信Ｉ／Ｆ５４は、ＣＰＵ５０の制御の下、ネットワーク１４を介して、利用者側端末１２およびサーバ１８などの外部のコンピュータとの間で、制御信号およびデータの送受信を行うために有線インタフェースを有する。ただし、通信Ｉ／Ｆ５４としては、無線ＬＡＮまたはBluetooth（登録商標）等の無線インタフェースを使用することもできる。

入出力Ｉ／Ｆ５６には、入力装置５８および表示装置６０、マイク６２およびスピーカ６４が接続されている。マイク６２およびスピーカ６４は、操作者が利用者との間で音声通話するために使用するマイク付きのヘッドセットを構成する。

また、入力装置５８としては、キーボードおよびコンピュータマウスが用いられる。ただし、操作者側端末１６として、スマートフォンまたはタブレットＰＣが用いられる場合には、入力装置５８として、タッチパネルおよびハードウェアのボタンが設けられる。また、表示装置６０は、ＬＣＤまたは有機ＥＬ表示装置である。

入出力Ｉ／Ｆ５６は、入力装置５８から入力された操作データ（または、操作情報）をＣＰＵ５０に出力するとともに、ＣＰＵ５０によって生成された画像データを表示装置６０に出力して、画像データに対応する画面を表示装置６０に表示させる。

また、入出力Ｉ／Ｆ５６は、マイク６２で検出された操作者の音声をデジタルの音声データに変換してＣＰＵ５０に出力するとともに、ＣＰＵ５０によって出力される音声データをアナログの音声信号に変換してスピーカ６４から出力させる。ただし、第１実施例では、ＣＰＵ５０から出力される音声データは、利用者側端末１２から受信した音声データである。

また、操作者側端末１６は、センサＩ／Ｆ６６およびカメラ６８を備えている。ＣＰＵ５０は、バスおよびセンサＩ／Ｆ６６を介してカメラ６８に接続される。カメラ６８は、ＣＣＤまたはＣＭＯＳのような撮像素子を用いたカメラである。

このような情報処理システム１０では、利用者が利用者側端末１２を使用して、サーバ１８が提供する所定のサービスのウェブ画面１００を見て、ショッピング等を行う。ウェブ画面１００の前面には、操作者（オペレータ）とチャットまたはトークでコミュニケーションするためのボタン１１０およびボタン１１２が表示される。

ただし、ウェブ画面１００は、ウェブブラウザを起動し、所定のＵＲＬを入力することにより、表示装置３０に表示される。ウェブ画面１００は、所定のサービスのウェブサイト（または、ウェブページ）の画面である。図４では、或るオンラインショッピングのウェブ画面１００の例が示される。一例として、所定のサービスは、オンラインショッピングであるが、チャットまたはトークで、利用者の問い合わせに対して応対（応答）することができる、任意のオンラインサービスである。

また、ボタン１１０およびボタン１１２は、所定の条件を満たした場合に表示されるようにしてもよい。所定の条件は、利用者がボタン１１０およびボタン１１２の表示を指示したこと、利用者の操作が長時間（たとえば、３０秒から数分）以上無いこと、表示装置３０に表示中のウェブ画面１００において同じ位置または似たような場所（近くの位置）を繰り返し指示または継続して指示していること、所定のサービスにおいて複数回（たとえば、３回）同じウェブ画面１００に戻ってくることである。

利用者がボタン１１０をオンすると、利用者にチャットサービスが提供され、利用者とサーバ１８によって選択された操作者の間でチャットが行われる。つまり、利用者側端末１２と操作者側端末１６の間でテキストによるメッセージの送受信が行われる。チャットサービスは既に周知であり、また、本願発明の本質的な内容ではないため、説明を省略する。一例として、特開２０２０－８６６７７号に開示されたチャットサービスを用いることができる。ただし、操作者が応対することに代えて、チャットボットが応対することもできる。

また、利用者がボタン１１２をオンすると、利用者はオンラインショッピングのサイトの利用方法および商品に関する問い合わせを、サーバ１８によって選択された操作者に対して音声で行うことができる。

この場合、操作者に対応するアバター（以下、「操作者のアバター」という）の画像が利用者側端末１２の表示装置３０に表示される。一例として、操作者のアバターの画像は、人間を模したキャラクタの顔を含む一部または全身の画像であり、ウェブ画面１００の前面に表示される。また、操作者のアバターの画像は、操作者の音声の出力に合せて動作される。アバターは、口を動かしたり、瞬きしたり、顔の表情を変えたりする。ただし、アバターの画像が、人間を模したキャラクタの上半身または全身の画像である場合には、アバターは、さらに、身振り手振りする。

なお、利用者側端末１２において、操作者のアバターの画像の表示およびその制御は本願発明の本質的な内容ではなく、公知技術を採用することができるため、説明を省略する。

ただし、操作者のアバターの画像を表示することに代えて、操作者の画像を表示するようにしてもよい。

上述したような情報処理システム１０においては、操作者は、利用者の映像を見ながら利用者と対話するか、利用者の映像を見ずに利用者と対話することが一般的である。

前者の場合には、操作者は、利用者の映像を見ることができ、しかも、利用者の表情を認識することができるため、利用者と対話し易い。しかし、利用者の映像を表示するため、利用者のプライバシーを侵害する虞がある。また、初心者の操作者は、利用者の表情が怒っているように見えるまたは不機嫌そうに見えることで緊張してしまい、適切な応対が困難になる場合もある。

また、後者の場合には、利用者のプライバシーを守ることができ、また、初心者の操作者が利用者の表情を見て緊張することは無いと考えられるが、操作者は利用者の映像を見ることができないため、対話し難いという問題がある。

したがって、第１実施例では、利用者のプライバシーを守りつつ、初心者の操作者であっても利用者と対話し易くするために、利用者と操作者の対話状況に応じて視点（つまり、仮想カメラ）を適宜切り替えて、利用者に対応するアバター（以下、「利用者のアバター」という）と操作者のアバターが対話する様子の画像を操作者側端末１６の表示装置６０に表示し、各々のアバターの表情（第１実施例では、顔の表情）、各々のアバターの視線および各々アバターの動作を制御するようにしてある。

図５（Ａ）は、操作者側端末１６の表示装置６０に表示される、対話画面２００の一例を示し、図５（Ｂ）は、操作者側端末１６の表示装置６０に表示される、対話画面２００の他の例を示し、図５（Ｃ）は、操作者側端末１６の表示装置６０に表示される、対話画面２００のその他の例を示す。

図５（Ａ）に示す対話画面２００は、操作者のアバターの視点で利用者のアバターを見た場合の画像である。つまり、一人称視点の対話画面２００である。したがって、図５（Ａ）に示す一人称視点の対話画面２００では、画面の中央に、利用者のアバターの画像２１０が表示される。利用者アバターの画像２１０は、人間を模したキャラクタの顔を含む一部の画像である。より具体的には、アバターの画像２１０は、人間の頭部（顔を含む）を含む上半身の画像である。

図示は省略するが、後述するように、アバターの表情を制御する場合には、身振り手振りも制御される。なお、アバターに身振り手振りを行わせるためのデータ（後述する、画像生成データ３０４ｄに含まれる）は予め用意されている。

なお、利用者側端末１２の表示装置３０に表示されたウェブ画面１００と同じウェブ画面１００を表示装置６０に表示し、このウェブ画面１００の前面に、または、ウェブ画面１００と並べて、対話画面２００が表示されるようにすることもできる。

この場合、利用者側端末１２の表示装置３０に表示されているウェブサイトのＵＲＬと、ウィンドウサイズと、カーソルの位置座標を含む表示情報が、利用者側端末１２においてボタン１１２がオンされたときにサーバ１８に送信され、さらに、応対する操作者すなわち操作者側端末１６が選択されたときに、サーバ１８からこの操作者側端末１６に送信される。ただし、表示情報は、通信が開始されてからトークが開始されるまでの間に、利用者側端末１２から操作者側端末１６に直接送信されてもよい。

利用者のアバターの画像２１０は、利用者が予め選択したアバターまたは操作者が予め選択したアバターについての画像である。利用者が予め選択したアバターについての画像が利用者のアバターの画像２１０として表示される場合には、アバターの種類が、利用者側端末１２からサーバ１８を介して、または、利用者側端末１２から直接、操作者側端末１６に通知される。

また、図５（Ｂ）に示す対話画面２００は、操作者のアバターの右斜め後方の視点で、利用者のアバターおよび当該操作者のアバターを見た場合の画像である。つまり、後方の三人称視点の対話画面２００である。したがって、図５（Ｂ）に示す後方の三人称視点の対話画面２００では、画面の右側に、利用者のアバターの画像２１０が表示され、画面の左側に、操作者のアバターの画像２１２が表示される。利用者のアバターの画像２１０と操作者のアバターの画像２１２は、対面するように表示される。したがって、図５（Ｂ）に示す対話画面２００では、利用者のアバターの前面が表示され、操作者のアバターの背面が表示される。

操作者に対応するアバターの画像２１２もまた、人間を模したキャラクタの顔を含む一部の画像である。より具体的には、アバターの画像２１２は、人間の頭部（顔を含む）を含む上半身の画像である。また、操作者のアバターの画像２１２は、操作者が予め選択したアバターについての画像である。これらのことは、図５（Ｃ）に示す対話画面２００についても同じである。

また、図５（Ｃ）に示す対話画面２００は、利用者のアバターと操作者のアバターの側方（この第１実施例では、真横）の視点で、当該利用者のアバターおよび当該操作者のアバターを見た場合の画像である。つまり、真横の三人称視点の対話画面２００である。したがって、図５（Ｃ）に示す真横の三人称視点の対話画面２００では、画面の右側に、利用者のアバターの画像２１０が表示され、画面の左側に、操作者のアバターの画像２１２が表示される。図５（Ｃ）においても、利用者のアバターの画像２１０と操作者のアバターの画像２１２は、対面するように表示される。したがって、図５（Ｃ）に示す対話画面２００では、利用者のアバターの左側面が表示され、操作者のアバターの右側面が表示される。

図６（Ａ）は図５（Ａ）に示す一人称視点の対話画面２００を表示する場合の仮想カメラの位置および向きの設定値（以下、「第１設定値」という）を説明するための図である。図６（Ｂ）は図５（Ｂ）に示す後方の三人称視点の対話画面２００を表示する場合の仮想カメラの位置および向きの設定値（以下、「第２設定値」という）を説明するための図である。図６（Ｃ）は図５（Ｃ）に示す真横の三人称視点の対話画面２００を表示する場合の仮想カメラの位置および向きの設定値（以下、「第３設定値」という）を説明するための図である。ただし、図６（Ａ）－図６（Ｃ）は３次元の仮想空間を真上から見た状態を示す。

３次元の仮想空間において、利用者のアバターと操作者のアバターは所定位置に互いに対面して配置され、図６（Ａ）－図６（Ｃ）に示すように、利用者のアバターの首の中心位置と操作者のアバターの首の中心位置の間の距離は距離ｄ１に設定される。

なお、この第１実施例では、各アバターの大きさ（伸長）は同じまたはほぼ同じに設定される。

一人称視点では、仮想カメラは操作者のアバターの頭部の中心位置に配置される。つまり、仮想カメラは、図６（Ａ）に示す操作者のアバターの首の中心位置の上方に配置される。また、仮想カメラの注視点は、利用者のアバターの首の中心位置に設定される。ただし、仮想カメラの注視点は、仮想カメラの撮影方向を示す点である。

後方の三人称視点では、仮想カメラは操作者のアバターの頭部の中心位置の右斜め後方に配置される。図６（Ｂ）に示すように、３次元の仮想空間の上方から見た場合に、操作者のアバターの首の中心位置から後方に距離ｄ２隔てるとともに、操作者のアバターの首の中心位置から右方に距離ｄ３隔てた位置に配置される。また、仮想カメラの注視点は、利用者のアバターの首の中心位置と操作者のアバターの首の中心位置を結ぶ線分の中間位置に設定される。距離ｄ３は、利用者のアバターの首の中心位置と操作者のアバターの首の中心位置を結ぶ線分に対する撮影方向の角度θが所定角度（たとえば、４５度）になるように設定される。

真横の三人称視点では、仮想カメラは操作者のアバターの頭部の中心位置の右斜め前方（利用者のアバターの左斜め前方）に配置される。図６（Ｃ）に示すように、３次元の仮想空間の上方から見た場合に、仮想カメラは、利用者のアバターの首の中心位置と操作者のアバターの首の中心位置の中間位置から右方に距離ｄ４隔てた位置に配置される。また、仮想カメラの注視点は、利用者のアバターの首の中心位置と操作者のアバターの首の中心位置を結ぶ線分の中間位置に設定される。距離ｄ４は、利用者のアバターの上半身と操作者のアバターの上半身が収まる大きさに設定される。

なお、三人称視点の場合には、仮想カメラの注視点は、利用者のアバターの首の中心位置と操作者のアバターの首の中心位置を結ぶ線分の中間位置に設定されるが、その中間位置から利用者のアバター側または操作者のアバター側にずらしてもよい。

利用者と操作者が対話中では、上記のような対話画面２００が表示装置６０に表示され、利用者の顔の表情、視線および頭部の動きは、利用者のアバターの画像２１０で表現され、操作者の顔の表情、視線および頭部の動きは、操作者のアバターの画像２１２で表現される。

利用者および操作者の表情（第１実施例では、喜び、恐れ、悲しみ、嫌悪および怒りの各表情）は、それぞれ、対話中における利用者および操作者の顔画像に基づいて認識することができる。

顔画像を用いて、利用者および操作者のような人間の表情を認識する方法はすでに公知であるため、その方法の説明については省略する。一例として、「小林宏、原文雄：ニューラルネットワークによる人の基本表情認識、計測自動制御学会論文集 Vol.29, No.1, 112/118(1993)」、「小谷中陽介、本間経康、酒井正夫、阿部健一：ニューラルネットワークを用いた顔表情認識、東北大医保健学科紀要 13(1):23～32, 2004」および「西銘大喜、遠藤聡志、當間愛晃、山田孝治、赤嶺有平：畳み込みニューラルネットワークを用いた表情表現の獲得と顔特徴量の分析、人工知能学会論文誌３２巻５号ＦＺ（２０１７年）」などに開示された公知技術を用いることができる。

また、他の公知技術では、顔画像から抽出した特徴点に基づいて人間の表情を認識する手法として、特開２０２０－１６３６６０号公報に開示された技術を用いることもできる。

ただし、人間の顔画像に基づいて表情を認識するために必要な回路コンポーネントおよびデータは適宜操作者側端末１６に設けられる。また、顔画像に基づいて表情を認識する装置（以下、「認識装置」という）をクラウド上に設けて、認識装置に顔画像を送信し、表情の認識結果を推定装置から受け取るようにしてもよい。

また、度合の異なる複数の表情（たとえば、喜び、恐れ、悲しみ、嫌悪および怒り）をニューラルネットワークに学習させておくことにより、表情の認識のみならず、表情の度合も認識（または、推定）することができる。また、表情を認識したときのニューラルネットワークの出力の差に基づいて、表情の度合を認識することもできる。たとえば、無表情の顔画像についての出力と、認識された表情についての出力の差に基づいて表情の度合が認識される。一例として、表情の度合は、０－１００％の間で認識される。

また、特開２０２０－１６３６６０号公報の方法を用いて人間の表情を認識する場合には、顔画像から抽出された特徴点の差（距離）に基づいて、表情の度合を認識（または、推定）することもできる。たとえば、無表情の顔画像から抽出された各特徴点に対する、表情の認識に使用した利用者の顔画像から抽出された各特徴点についての距離を算出し、算出した距離に基づいて表情の度合が決定される。距離は、各特徴点について算出されるため、表情の度合は、たとえば、算出された複数の距離についての平均値、最大値または分散に基づいて決定される。

図７（Ａ）は、利用者のアバターの怒りの表情についての度合の違いを説明するための図であり、図７（Ｂ）は、利用者のアバターの嫌悪の表情についての度合の違いを説明するための図である。

怒りの表情および嫌悪の表情は、それぞれ、その度合（または、大きさ）を最小（０％）から最大（１００％）まで複数の段階（たとえば、２０段階）で設定可能である。アバターの顔の表情は、各表情および各表情の度合について、眉毛（位置、形状）、眉間のしわ（寄り具合）、眼（黒目の大きさ、目尻の上げ下げ具合）、瞼（開き具合）、ほうれい線（寄り具合）、および口（位置、形状および開き具合）の各部位についてのパラメータ（以下、「表情パラメータ」という）で決定される。

上述したように、利用者および操作者のような人間の表情の度合を０－１００％の間で認識し、アバターの表情を０－１００％の度合で表現するため、この第１実施例では、表情パラメータは、人間の表情の度合に合わせて決定される。したがって、顔画像から認識された人間の表情と同じ表情を同じ度合で表現された利用者のアバターの画像２１０はその利用者と同様の表情となり、操作者のアバターの画像２１２はその操作者と同様の表情になる。

図７（Ａ）および図７（Ｂ）に示す例では、左端（すなわち、無表情）から右端に向かうに従って表情の度合が大きくされ、左端に近づくに従って表情の度合が小さくされる。図７（Ａ）および図７（Ｂ）では、各表情について、表現の度合が中くらい（普通）である場合と、表現の度合が最大である場合についてのアバターの画像２１０を示してある。

ただし、上記の無表情のアバターの画像２１０が、怒りの表情および嫌悪の表情の各々について表情の度合が最低である場合のアバターの画像２１０である。

また、図示は省略するが、上述したように、各感情の度合は複数の段階に設定されているため、各段階の表情を有するアバターの画像２１０を表示することが可能である。

さらに、各表情は２０段階で設定可能であるため、後述する抑制度合および誇張度合の設定パラメータは、５％刻みで設定可能である。

なお、無表情のアバターでは、しわが無く、顔が左右対称に設定される。このようにデザインすることで、性別が判断し難くなり、男性または女性に偏った好みを持つ利用者にも受け入れられるアバターになる。また、しわが無く、左右対称に設定された特徴の無い顔にすることで、少しのしわを作るだけで、笑顔またはしかめ面のような表情を簡単に表現することができ、その表情の強さも簡単に制御することができる。

また、図示は省略するが、喜びの表情、恐れの表情および悲しみの表情の各々をアバターの画像２１０で表現する場合も、怒りの表情および嫌悪の表情の各々をアバターの画像２１０で表現する場合と同様である。

さらに、図示は省略するが、操作者のアバターも、利用者のアバターと同様に、喜び、恐れ、悲しみ、嫌悪および怒りの各表情を、最小（０％）から最大（１００％）まで複数の段階で表現する。

また、利用者と操作者が対話中の利用者および操作者の各々の視線および頭部の動きは、利用者および操作者の顔画像に基づいてそれぞれ検出される。顔画像から視線を検出する方法は既に周知であるため、その説明は省略することにする。

利用者および操作者の頭部の動きは次のように検出（推定）される。利用者の顔の向きが、カメラ３８に正対する利用者の顔画像の向きを基準として、現在の顔の向きが現在の顔画像に基づいて算出され、現在の顔の向きに基づいて利用者の頭部の動きが検出（または、推定）される。ただし、顔の向きは、顔画像から抽出した複数の顔の特徴点の動きで検出することができる。説明は省略するが、操作者の顔の向きを算出し、頭部の動きを検出する場合も同様である。

上述したように、利用者の視線および頭部の動きは、利用者のアバターの視線および頭部の動きに反映され、操作者の視線および頭部の動きは、操作者のアバターの視線および頭部の動きに反映される。このことは、利用者および操作者が発話している場合も同様である。

さらに、利用者が発話している場合には、利用者の音声の出力に合わせて利用者のアバターの口唇部が動かされ、操作者が発話している場合には、操作者の音声の出力に合わせて操作者のアバターの口唇部が動かされる。また、利用者が発話している場合には、利用者の表情に応じて、利用者のアバターに身振り手振りを行わせる。同様に、操作者が発話している場合には、操作者の表情に応じて、操作者のアバターに身振り手振りを行わせる。以下、利用者または操作者のアバターが、利用者または操作者の音声の出力に合わせて口唇部を動かし、利用者または操作者の表情に応じて身振り手振りを行うことを発話動作と呼ぶことがある。

上述したように、この第１実施例では、対話状況に応じて、仮想カメラの位置および向きが第１設定値、第２設定値または第３設定値に設定される。ただし、利用者と操作者が対話を開始した当初では、操作者が予め設定した第１設定値、第２設定値または第３設定値（以下、「初期設定値」ということがある）で仮想カメラの位置および向きが設定される。また、操作者は、利用者との対話中に、仮想カメラの位置および向きを第１設定値、第２設定値または第３設定値に自由に変更することもできる。操作者が仮想カメラの位置および向きを変更した場合には、対話終了まで、変更後の仮想カメラの位置および向きに固定するようにしてもよい。

この第１実施例では、対話状況は、操作者が対話の相手である利用者だけを意識している状況、操作者が対話の相手である利用者のみならず、操作者自身のリアクションを確認したい状況、および、操作者と、この操作者の対話の相手である利用者が対等に話し合っている状況である。

より具体的には、操作者が対話の相手である利用者だけを意識している状況は、操作者が無表情で単に利用者の話を聞いている状況である。また、操作者が対話の相手である利用者のみならず、操作者自身のリアクションを確認したい状況は、利用者の話を操作者が頷きながら聞いている状況、利用者が怒って強い口調で話している状況、および、操作者が利用者に対して謝っている状況のいずれかである。さらに、操作者と、この操作者の対話の相手である利用者が対等に話し合っている状況は、対話の最初に操作者または利用者が挨拶した状況、操作者と利用者が互いに言い合っている状況、および、操作者と利用者が互いに頷いて、一緒に笑っている状況のいずれかである。

ただし、これらは単なる例示であり、仮想カメラの位置および向きを第１設定値、第２設定値および第３設定値に設定できれば良いため、第１設定値、第２設定値および第３設定値の各々に応じた対話状況が少なくとも１つ設定されていればよい。

上記の各対話状況が発生しているかどうかは、利用者および操作者の動作などを解析することで判断される。操作者が無表情で単に利用者の話を聞いている状況は、利用者が発話しており、このとき、操作者は、無表情であり、視線を動かさず、頭部が動いていない（顔が正面を向いている）場合に判断される。

利用者が発話していることは、利用者側端末１２から受信したデータに音声データが含まれていることで知ることができる。以下、利用者が発話していることを判断する場合について同じである。また、上述したように、操作者の表情は、操作者側端末１６で撮影された撮影画像データに基づいて判断され、操作者の視線および頭部の動きは、操作者側端末１６で撮影された撮影画像データに基づいて検出される。

なお、この第１実施例では、操作者が無表情で単に利用者の話を聞いている状況が判断される場合の条件として、視線を動かしていないことを含めているが、視線については条件から外してもよい。

第１実施例では、対話状況として、操作者が無表情で単に利用者の話を聞いている状況が判断された場合には、つまり、操作者が利用者の話を単に傾聴している状況が判断された場合には、仮想カメラの位置および向きは第１設定値に設定される。このように、操作者が対話の相手である利用者だけを意識している場合には、一人称視点の対話画面２００が表示される。

利用者の話を操作者が頷きながら聞いている状況は、利用者が発話しており、このとき、操作者の頭部が少し前に傾いたり、元に戻ったり（つまり、操作者の顔が少し下を向いたり、正面を向いたり）することを数回行っている場合に判断される。以下、操作者および利用者が頷いていることを判断する場合について同様である。

第１実施例では、対話状況として、利用者の話を操作者が頷きながら聞いている状況が判断された場合には、つまり、操作者が利用者の話を納得しながら傾聴している状況が判断された場合には、仮想カメラの位置および向きは第２設定値に設定される。

利用者が怒って強い口調で話している状況は、利用者が発話しており、その口調が怒って強い場合に判断される。口調を解析して、人間（ここでは、利用者）の感情を分析する手法としては、一般的な手法を用いることができる。つまり、テキスト情報または韻律情報に基づいて発話した人間の感情が分析される。

なお、テキスト情報に基づいて発話した人間の感情を分析（センチメント分析）する方法としては、公知の文献「国内企業の決算説明会の感情分析」（https://corporate.quick.co.jp/wp-content/uploads/JAFEE2021.pdf）に開示された手法を用いることができる。ただし、テキスト情報に基づいて発話した人間の感情を分析する場合には、発話した内容を音声認識し、テキスト変換する必要がある。音声認識およびテキスト変換については既に周知であるため、説明は省略する。以下、同様である。

また、韻律情報に基づいて発話した人間の感情を分析する方法としては、特開２００６－０７１９３６に開示された技術または音声解析ＡＩ電話「MiiTel」の技術を用いることができる（https://it.impress.co.jp/articles/-/22697）。

ただし、強い口調かどうかは、公知の文献「K. Maehama, J. Even, C.T. Ishi, T. Kanda (2021). Enabling Robots to Distinguish Between Aggressive and Joking Attitudes. IEEE Robotics and Automation Letters 6(4): 8037-8044, Oct. 2021.」および「C.T. Ishi and T. Kanda (2019). “Prosodic and voice quality analyses of offensive speech,” Proc. of International Congress of Phonetic Sciences (ICPhS 2019), Melbourne, Australia, 2174-2178, Aug. 2019.」に開示された技術を用いて判断することができる。

なお、この第１実施例では、利用者が怒っているのみならず、強い口調で話していることも判断しているが、口調に関係無く、利用者が怒って話している状況を判断するようにしてもよい。

また、この第１実施例では、テキスト情報または韻律情報に基づいて発話した人間の感情を分析するのは、怒っているように見える顔の人間も存在するため、顔画像に基づいて感情を認識しただけでは、怒っているかどうかを正しく判断できない場合があるからである。

第１実施例では、対話状況として、利用者が怒って強い口調で話している状況が判断された場合には、つまり、操作者が利用者の強い感情的な話を傾聴している状況が判断された場合には、仮想カメラの位置および向きは第２設定値に設定される。

また、第１実施例では、対話状況として、利用者が怒って強い口調で話している状況が判断された場合には、利用者のアバターの表情が抑制される。つまり、利用者が怒っているため、怒りの表情の度合が抑制される。抑制される度合（以下、「抑制度合」という）は、予め操作者によって設定され、設定パラメータとして記憶されている。したがって、操作者は、怒りの表情が抑制された利用者のアバターの画像２１０を見て対話する。このため、操作者は、利用者が怒っていることを視認することができ、しかも、その表情を抑えた利用者のアバターを視認することで、怒りの表情を抑制しない場合よりも、利用者と対話し易いと考えられる。

ただし、これは一例であり、怒りの表情の度合を抑制することに代えて、または、怒りの表情の度合を抑制することに加えて、利用者のアバターの画像２１０を一回り小さく表示するようにしてもよい。たとえば、通常の利用者のアバターの画像２１０の大きさを１とした場合に、０．８倍の大きさで利用者のアバターの画像２１０が描画される。利用者のアバターの画像２１０を一回り小さく表示した場合には、利用者のアバターの画像２１０から受ける威圧感を低減することができ、したがって、操作者は利用者と対話し易いと考えられる。

なお、操作者のアバターの画像２１０に対して利用者のアバターの画像２１０が小さく表示されればよいため、利用者のアバターの画像２１０を一回り小さく表示することに代えて、または、利用者のアバターの画像２１０を一回り小さく表示することに加えて、操作者のアバターの画像２１０を一回り大きくしてもよい。

操作者が利用者に対して謝っている状況は、操作者が発話しており、その発話内容が謝罪を表す言葉である場合に判断される。操作者が発話していることは、操作者側端末１６のマイク６２で音声を検出していることで知ることができる。以下、操作者が発話していることを判断する場合について同じである。また、謝罪を表す言葉としては、「申し訳ありません」、「すみません」、「失礼しました」、「ごめんなさい」などである。ただし、発話内容が音声認識され、テキスト変換された文字列から謝罪を表す言葉が検出される。謝罪を表す言葉を検出することに加えて、韻律情報を深層学習で判断することにより、人間（ここでは、操作者）が申し訳なさそうに話しているかどうかを認識し、謝っている状況であることを正確に判断するようにしてもよい。

第１実施例では、対話状況として、操作者が利用者に対して謝っている状況が判断された場合には、つまり、操作者が利用者の強い感情的な話を傾聴している状況が判断された場合には、仮想カメラの位置および向きは第２設定値に設定される。

また、第１実施例では、対話状況として、操作者が利用者に対して謝っている状況が判断された場合には、利用者のアバターの表情が誇張される。つまり、操作者が謝罪し易くされる。誇張される度合（以下、「誇張度合」という）は、予め操作者によって設定され、設定パラメータとして記憶される。したがって、操作者は、表情が誇張された利用者のアバターの画像２１０を見て対話する。このため、操作者は、たとえば、利用者が不機嫌であることまたは悲しんでいることを視認することができ、しかも、その表情を誇張した利用者のアバターを視認することで、表情を誇張しない場合よりも、利用者に対して謝り易い、すなわち、利用者と対話し易いと考えられる。

ただし、これは一例であり、利用者のアバターの表情の度合を誇張することに代えて、または、利用者のアバターの表情の度合を誇張することに加えて、利用者のアバターの画像２１０を一回り大きく表示するようにしてもよい。たとえば、通常の利用者のアバターの画像２１０の大きさを１とした場合に、１．２倍の大きさで利用者のアバターの画像２１０が描画される。利用者のアバターの画像２１０を一回り小さく表示した場合には、操作者が謝罪する側であることを容易に知ることができ、したがって、操作者は利用者に謝り易い、つまり、利用者と対話し易いと考えられる。

なお、操作者のアバターの画像２１０に対して利用者のアバターの画像２１０が大きく表示されればよいため、利用者のアバターの画像２１０を一回り大きく表示することに代えて、または、利用者のアバターの画像２１０を一回り大きく表示することに加えて、操作者のアバターの画像２１０を一回り小さくしてもよい。

このように、操作者が、対話の相手である利用者だけでなく、自身のリアクションを確認したい場合には、斜め後方の三人称視点の対話画面２００が表示される。

対話の最初に操作者または利用者が挨拶した状況は、利用者と操作者が対話を開始した当初（たとえば、開始してから数秒～数十秒の期間）において、利用者および操作者の少なくとも一方が発話し、発話内容に挨拶を示す言葉が含まれているかどうかを判断する。挨拶を示す言葉は、「おはようございます」、「こんにちは」、「こんばんは」、「はじめまして」、「よろしくお願いします」などである。ただし、利用者または／および操作者の発話内容は、音声認識してテキスト変換される。

第１実施例では、対話状況として、対話の最初に操作者または利用者が挨拶した状況が判断された場合には、仮想カメラの位置および向きは第３設定値に設定される。

操作者と利用者が互いに言い合っている状況は、操作者および利用者の両方が発話し、操作者の発話と利用者の発話が被っている（つまり、操作者と利用者が同時に話す）時間が多く、利用者および操作者の双方の口調が強く、利用者および操作者の双方の発話内容に怒りを示す言葉が含まれている場合に判断される。

ただし、操作者の発話と利用者の発話が被っている時間が多いこと、利用者および操作者の双方の口調が強いこと、利用者および操作者の双方の発話内容に怒りを示す言葉が含まれていることは、いずれか１つまたは２つが該当すれば良いことにすることもできる。

操作者の音声を検出している状態で、利用者の音声データを受信した場合に、操作者の発話と利用者の発話が被っていると判断し、被っている状態が継続する時間がカウントされる。カウントされた時間が所定時間（たとえば、数秒程度）を超えた場合に、操作者の発話と利用者の発話が被っている時間が多いと判断する。

利用者および操作者の双方の口調が強いことは、利用者の口調および操作者の口調を上述した文献に記載の手法で検出し、双方の口調が強い場合に判断される。

また、利用者および操作者の双方の発話内容に怒りを示す言葉が含まれていることは、利用者の発話内容および操作者の発話内容の両方に怒りの言葉が含まれている場合に判断される。ただし、怒りの言葉は、「腹が立つ」、「怒っている」などである。ただし、利用者および操作者の発話内容は、音声認識してテキスト変換される。

第１実施例では、対話状況として、操作者と利用者が互いに言い合っている状況が判断された場合には、つまり、操作者と利用者が感情的に口論している状況が判断された場合には、仮想カメラの位置および向きは第３設定値に設定される。

操作者と利用者が互いに頷いて、一緒に笑っている状況は、操作者および利用者がそれぞれ頷いており、双方の表情が喜びである場合に判断される。

なお、この第１実施例では、操作者と利用者が一緒に笑っているのみならず、互いに頷いていることも判断するが、操作者と利用者が互いに頷いていることに関係無く、一緒に笑っている状況を判断するようにしてもよい。

第１実施例では、対話状況として、操作者と利用者が互いに頷いて、一緒に笑っている状況が判断された場合には、つまり、操作者と利用者が共感している状況が判断された場合には、仮想カメラの位置および向きは第３設定値に設定される。

このように、操作者と、この操作者の対話の相手である利用者が対等に話し合っている場合には、真横の三人称視点の対話画面２００が表示される。

なお、上述したように、この第１実施例では、具体的な対話状況に応じて、仮想カメラの位置および向きを第１設定値、第２設定値および第３設定値のいずれかに設定するが、対話状況の内容および仮想カメラの位置および向きは例示であり、限定されるべきでない。対話画面２００から対話状況を認識可能であれば、対話状況の内容および仮想カメラの位置および向きの設定値は適宜変更可能である。

図８は操作者側端末１６に内蔵される記憶部（ここでは、ＲＡＭ）５２のメモリマップ３００の一例を示す。ＲＡＭは、ＣＰＵ５０のワーク領域およびバッファ領域として使用される。図８に示すように、ＲＡＭは、プログラム記憶領域３０２およびデータ記憶領域３０４を含む。プログラム記憶領域３０２には、この第１実施例の操作者側端末１６で実行される全体的な処理についての制御プログラムが記憶されている。

制御プログラムは、操作検出プログラム３０２ａ、撮影プログラム３０２ｂ、音検出プログラム３０２ｃ、音声認識プログラム３０２ｄ、通信プログラム３０２ｅ、画像生成プログラム３０２ｆ、画像出力プログラム３０２ｇ、アバター制御プログラム３０２ｈ、表情認識プログラム３０２ｉ、視線および頭部の動き検出プログラム３０２ｊ、音出力プログラム３０２ｋ、対話状況判断プログラム３０２ｍおよび仮想カメラ制御プログラム３０２ｎなどを含む。

操作検出プログラム３０２ａは、操作者の操作に従って入力装置５８から入力される操作データ３０４ａを検出し、データ記憶領域３０４に記憶するためのプログラムである。撮影プログラム３０２ｂは、カメラ６８で画像を撮影し、撮影画像データを送信データ３０４ｂとしてデータ記憶領域３０４に記憶するとともに、撮影画像データ３０４ｍをデータ記憶領域３０４に記憶するとともに、送信データ３０４ｂとしてデータ記憶領域３０４に記憶するためのプログラムである。

音検出プログラム３０２ｃは、マイク６２から入力される音声を検出し、対応する音声データを送信データ３０４ｂとしてデータ記憶領域３０４に記憶するとともに、音声データ３０４ｑをデータ記憶領域３０４に記憶するためのプログラムである。音声認識プログラム３０２ｄは、音検出プログラム３０２ｃに従って検出した音声を音声認識するためのプログラムである。音声認識のために必要な辞書データについては図示を省略するが、操作者側端末１６の記憶部（ここでは、ＨＤＤまたはＲＯＭ）５２に記憶される。

通信プログラム３０２ｅは、外部の機器、この第１実施例では、利用者側端末１２およびサーバ１８と有線または無線で通信（データの送信および受信）するためのプログラムである。

画像生成プログラム３０２ｆは、表示装置６０に表示するための各種の画面の全部または一部に対応する画像（利用者のアバターの画像２１０および操作者のアバターの画像２１２を含む）の画像データを、画像生成データ３０４ｄを用いて生成するためのプログラムである。画像出力プログラム３０２ｇは、画像生成プログラム３０２ｆに従って生成した画像データを表示装置６０に出力するためのプログラムである。

アバター制御プログラム３０２ｈは、利用者のアバターおよび操作者のアバターを制御するためのプログラムである。この第１実施例では、ＣＰＵ５０は、アバター制御プログラム３０２ｈに従って、各アバターの表情を変化させたり、各アバターを動作（発話動作および頭部の動作）させたり、各アバターの視線を移動させたりする。

表情認識プログラム３０２ｉは、利用者および操作者の表情を認識するためのプログラムである。上述したように、利用者側端末１２から受信した撮影画像データに基づいて利用者の表情およびその度合が認識される。また、操作者側端末１６のカメラ６８で撮影された撮影画像データ３０４ｍに基づいて操作者の表情およびその度合が認識される。

視線および頭部の動き検出プログラム３０２ｊは、利用者側端末１２から受信した撮影画像データに基づいて利用者の視線および頭部の動き（顔の向き）を検出したり、操作者側端末１６のカメラ６８で撮影された撮影画像データ３０４ｍに基づいて操作者の視線および頭部の動き（顔の向き）を検出したりするためのするためのプログラムである。音出力プログラム３０２ｋは、利用者側端末１２から受信した利用者の音声データをスピーカ６４に出力するためのプログラムである。

このように、表情認識プログラム３０２ｉによって利用者および操作者の表情およびその度合が認識され、視線および頭部の動き検出プログラム３０２ｊによって利用者および操作者の視線および頭部の動きが検出される。つまり、対話中における利用者および操作者の各々の状態が検出される。

対話状況判断プログラム３０２ｍは、上述したように、利用者と操作者の対話状況を判断するためのプログラムである。

仮想カメラ制御プログラム３０２ｎは、対話状況判断プログラム３０２ｍによって判断された対話状況に応じて仮想カメラの位置および向きを制御するためのプログラムである。

図示は省略するが、プログラム記憶領域３０２には、操作者側端末１６のオペレーティングシステムなどのミドルウェア、ブラウザ機能を実行するためのプログラムおよび各種のアプリケーションプログラムなどの他のプログラムも記憶される。

図９は図８に示したＲＡＭのデータ記憶領域３０４の具体的な内容の一例を示す図である。図９に示すように、データ記憶領域３０４には、操作データ３０４ａ、送信データ３０４ｂ、受信データ３０４ｃ、画像生成データ３０４ｄ、表情パラメータデータ３０４ｅ、設定パラメータデータ３０４ｆ、アバター位置データ３０４ｇ、視点位置データ３０４ｈ、注視点位置データ３０４ｉ、利用者表情データ３０４ｊ、利用者視線および頭部の動きデータ３０４ｋ、撮影画像データ３０４ｍ、操作者表情データ３０４ｎ、操作者視線および頭部の動きデータ３０４ｐおよび音声データ３０４ｑなどが記憶される。

操作データ３０４ａは、操作検出プログラム３０２ａに従って検出された操作データである。送信データ３０４ｂは、利用者側端末１２に送信するデータであり、チャットにおける操作者の応答内容についてのテキストデータおよびトークにおける操作者の応答内容についての音声データである。

受信データ３０４ｃは、利用者側端末１２から送信され、受信したデータであり、チャットにおける利用者の質問内容についてのテキストデータ、トークにおける利用者の質問内容についての音声データおよび利用者側端末１２のカメラ３８で撮影された撮影画像データである。また、受信データ３０４ｃは、サーバ１８から送信される利用者側端末１２の接続情報データを含む。

画像生成データ３０４ｄは、操作者側端末１６の表示装置６０に表示される各種の画面を生成するためのデータであり、利用者のアバターの画像２１０および操作者のアバターの画像２１２を生成するためのデータを含む。利用者のアバターの画像２１０および操作者のアバターの画像２１２を生成するためのデータは、各アバターの静止した状態の画像データ、頭部（または、首）の動きについてのデータおよび身振り手振りについてのデータを含む。頭部の動きは、発話時の頭部の動きおよび頷く時の頭部の動きである。ただし、複数種類のアバターが設けられるため、アバターの静止した状態の画像データはアバター毎に記憶され、選択されたアバターの画像データが使用される。

表情パラメータデータ３０４ｅは、喜びの表情、恐れの表情、悲しみの表情、嫌悪の表情および怒りの表情の各々について、表情の度合を最小から最大まで複数の段階で変化させるための各部位の表情パラメータについてのデータである。ただし、複数のアバターが設けられるため、表情パラメータについてのデータはアバター毎に記憶され、選択されたアバターについての表情パラメータが使用される。設定パラメータデータ３０４ｆは、仮想カメラの初期設定値、抑制度合および誇張度合の各設定パラメータについてのデータである。

アバター位置データ３０４ｇは、３次元の仮想空間に配置される利用者のアバターおよび操作者のアバターの位置の座標データである。視点位置データ３０４ｈは、３次元の仮想空間に配置される仮想カメラの位置（すなわち、視点）の座標データである。注視点位置データ３０４ｉは、３次元の仮想空間に配置される仮想カメラの注視点の位置の座標データすなわち仮想カメラの向きを決定するためのデータである。

利用者表情データ３０４ｊは、利用者側端末１２から受信した撮影画像データから認識した利用者の表情およびその度合を示すデータである。利用者視線および頭部の動きデータ３０４ｋは、利用者側端末１２から受信した撮影画像データから算出した利用者の視線および頭部の動き（顔の向き）を示すデータである。

撮影画像データ３０４ｍは、カメラ６８で撮影した画像データである。操作者表情データ３０４ｎは、撮影画像データ３０４ｍから認識した操作者の表情およびその度合を示すデータである。操作者視線および頭部の動きデータ３０４ｐは、撮影画像データ３０４ｍから算出した操作者の視線および頭部の動き（顔の向き）を示すデータである。

音声データ３０４ｑは、音検出プログラム３０２ｃに従って検出された操作者の音声についてのデータであり、操作者の音声を認識するために用いられる。

図示は省略するが、データ記憶領域３０４には、制御処理を実行するために必要な他のデータが記憶されたり、タイマ（カウンタ）およびフラグが設けられたりする。

また、図示は省略するが、利用者側端末１２は操作者側端末１６との間でチャットまたはトークを行うため、利用者側端末１２の記憶部（ここでは、ＲＡＭ）２２には、操作者側端末１６のＲＡＭに記憶されるプログラムおよびデータのうち、チャットまたはトークに必要なプログラムおよびデータと同様のプログラムおよびデータが記憶される。

具体的には、利用者側端末１２のＲＡＭのプログラム記憶領域には、操作検出プログラム、撮影プログラム、音検出プログラム、通信プログラム、画像生成プログラム、画像出力プログラムおよび音出力プログラムなどが記憶される。

操作検出プログラムは、利用者の操作に従って入力装置２８から入力される操作データを検出し、記憶部２２のデータ記憶領域に記憶するためのプログラムである。撮影プログラムは、カメラ３８で画像を撮影し、撮影した画像についての撮影画像データを送信データとしてデータ記憶領域に記憶するためのプログラムである。音検出プログラムは、マイク３２から入力される音声を検出し、検出した音声についての音声データを送信データとしてデータ記憶領域に記憶するためのプログラムである。

通信プログラムは、外部の機器、この第１実施例では、操作者側端末１６およびサーバ１８と有線または無線で通信するためのプログラムである。画像生成プログラムは、表示装置３０に表示するための各種の画面に対応する画像データを、画像生成データを用いて生成するためのプログラムである。画像出力プログラムは、画像生成プログラムに従って生成した画像データを表示装置３０に出力するためのプログラムである。音出力プログラムは、受信した操作者の音声データを出力するためのプログラムである。

また、記憶部２２のデータ記憶領域には、操作データ、送信データ、受信データおよび画像生成データなどが記憶される。

操作データは、操作検出プログラムに従って検出された操作データである。送信データは、操作者側端末１６およびサーバ１８に送信するデータである。操作者側端末１６に送信するデータは、チャットにおける利用者の質問内容についてのテキストデータ、トークにける利用者の質問内容についての音声データおよびカメラ３８で撮影した撮影画像データである。サーバ１８に送信するデータは、オンラインショッピングに関するブラウザ上の操作データ（ボタン１１０および１１２についての操作データを含む）である。

受信データは、操作者側端末１６またはサーバ１８から送信され、受信したデータである。操作者側端末１６から受信したデータは、チャットにおける操作者の応答内容についてのテキストデータおよびトークにおける操作者の応答内容についての音声データである。ただし、操作者側端末１６で撮影された撮影画像データを受信する場合もある。また、サーバ１８から受信したデータは、ブラウザに表示するデータおよびサーバ１８によって選択された操作者側端末１６の接続情報データである。

画像生成データは、利用者側端末１２の表示装置３０に表示される各種の画面を生成するためのデータである。

なお、記憶部５２には、利用者側端末１２のオペレーティングシステムなどのミドルウェア、ブラウザ機能を実行するためのプログラムに加え、利用者とチャットまたはトークを実行するために必要な他のプログラムおよびデータも記憶される。

図１０－図１２は操作者側端末１６のＣＰＵ５０の仮想カメラ制御処理を示すフロー図である。図１３は操作者側端末１６のＣＰＵ５０の状態検出処理を示すフロー図である。図１４は操作者側端末１６のＣＰＵ５０の出力処理を示すフロー図である。図１５は操作者側端末１６のＣＰＵ５０の送受信処理を示すフロー図である。図１６は利用者側端末１２のＣＰＵ２０の送受信処理を示すフロー図である。

図示は省略するが、ＣＰＵ５０は、仮想カメラ制御処理、状態検出処理、出力処理および送受信処理を並行して実行するとともに、操作者の操作を検出する処理、操作者の画像を撮影する処理および操作者の音声を検出する処理もそれぞれ並行して実行する。

図１０に示すように、操作者側端末１６のＣＰＵ５０は、仮想カメラ制御処理を開始すると、ステップＳ１で、仮想カメラの位置および向きを初期設定値に設定する。上述したように、初期設定値は、第１設定値、第２設置値または第３設定値であり、操作者によって予め設定され、設定パラメータデータ３０４ｆに含まれる。また、ＣＰＵ５０は、制御処理を開始したときに、予め設定された第１設定値、第２設置値または第３設定値に応じた視点位置データ３０４ｈおよび注視点位置データ３０４ｉを設定する。

次のステップＳ３では、仮想カメラの設定変更の指示が有るかどうかを判断する。ステップＳ３で“ＮＯ”であれば、つまり、仮想カメラの設定変更の指示が無ければ、ステップＳ９に進む。一方、ステップＳ３で“ＹＥＳ”であれば、つまり、仮想カメラの設定変更の指示が有れば、ステップＳ５で、指示に応じて仮想カメラの設定を変更する。ここでは、ＣＰＵ５０は、指示された第１設定値、第２設置値または第３設定値に応じて、視点位置データ３０４ｈおよび注視点位置データ３０４ｉを更新する。以下、仮想カメラの位置および向きを設定（変更）する場合について同様である。

続いて、ステップＳ７では、操作者と利用者の対話状況を判断する。具体的には、ＣＰＵ５０は、操作者が無表情で単に利用者の話を聞いているか、利用者の話を操作者が頷きながら聞いているか、利用者が怒って強い口調で話しているか、操作者が利用者に対して謝っているか、対話の最初に操作者または利用者が挨拶したか、操作者と利用者が互いに言い合っているか、操作者と利用者が互いに頷いて、一緒に笑っているかを、それぞれ、判断する。

図１１に示すように、次のステップＳ９では、操作者が無表情で単に利用者の話を聞いているかどうかを判断する。つまり、ＣＰＵ５０は、ステップＳ７の判断結果が、操作者が無表情で単に利用者の話を聞いているかどうかを判断する。以下、ステップＳ１３、Ｓ１７、Ｓ２３、Ｓ２９、Ｓ３１およびＳ３３も同様用である。

ステップＳ９で“ＹＥＳ”であれば、操作者が無表情で単に利用者の話を聞いている場合には、ステップＳ１１で、仮想カメラの位置および向きを第１設定値に設定して、図１２に示すステップＳ３７に進む。

一方、ステップＳ１１で“ＮＯ”であれば、つまり、操作者が無表情で単に利用者の話を聞いていない場合には、ステップＳ１３で、利用者の話を操作者が頷きながら聞いているかどうかを判断する。

ステップＳ１３で“ＹＥＳ”であれば、つまり、利用者の話を操作者が頷きながら聞いている場合には、ステップＳ１５で、仮想カメラの位置および向きを第２設定値に設定して、ステップＳ３７に進む。

一方、ステップＳ１３で“ＮＯ”であれば、つまり、利用者の話を操作者が頷きながら聞いていない場合には、ステップＳ１７で、利用者が怒って強い口調で話しているかどうかを判断する。

ステップＳ１７で“ＹＥＳ”であれば、つまり、利用者が怒って強い口調で話している場合には、ステップＳ１９で、仮想カメラの位置および向きを第２設定値に設定し、ステップＳ２１で、利用者のアバターの表情を抑制することを決定し、ステップＳ３７に進む。

一方、ステップＳ１７で“ＮＯ”であれば、つまり、利用者が怒って強い口調で話していない場合には、ステップＳ２３で、操作者が利用者に対して謝っているかどうかを判断する。

ステップＳ２３で“ＹＥＳ”であれば、つまり、操作者が利用者に対して謝っている場合には、ステップＳ２５で、仮想カメラの位置および向きを第２設定値に設定し、ステップＳ２７で、利用者のアバターの表情を誇張することを決定し、ステップＳ３７に進む。

一方、ステップＳ２３で“ＮＯ”であれば、つまり、操作者が利用者に対して謝っていない場合には、図１２に示すステップＳ２９で、対話の最初に操作者または利用者が挨拶したかどうかを判断する。

ステップＳ２９で“ＹＥＳ”であれば、つまり、対話の最初に操作者または利用者が挨拶した場合には、ステップＳ３５に進む。一方、ステップＳ２９で“ＮＯ”であれば、つまり、対話の最初に操作者および利用者が挨拶していない場合には、ステップＳ３１で、操作者と利用者が互いに言い合っているかどうかを判断する。

ステップＳ３１で“ＹＥＳ”であれば、つまり、操作者と利用者が互いに言い合っている場合には、ステップＳ３５に進む。一方、ステップＳ３１で“ＮＯ”であれば、つまり、操作者と利用者が互いに言い合っていない場合には、ステップＳ３３で、操作者と利用者が互いに頷いて、一緒に笑っているかどうかを判断する。

ステップＳ３３で“ＹＥＳ”であれば、つまり、操作者と利用者が互いに頷いて、一緒に笑っている場合には、ステップＳ３５で、仮想カメラの位置および向きを第３設定値に設定して、ステップＳ３７に進む。一方、ステップＳ３３で“ＮＯ”であれば、つまり、操作者と利用者が互いに頷いて、一緒に笑っていない場合には、ステップＳ３７に進む。

ステップＳ３７では、終了かどうかを判断する。ここでは、ＣＰＵ５０は、操作者が対話を終了することを指示したり、利用者が対話を終了したりしたかどうかを判断する。

ステップＳ３７で“ＮＯ”であれば、つまり、終了でなければ、図１０に示したステップＳ３に戻る。一方、ステップＳ６７で“ＹＥＳ”であれば、つまり、終了であれば、仮想カメラ制御処理を終了する。

図１３に示すように、ＣＰＵ５０は、状態検出処理を開始すると、ステップＳ５１で、撮影画像を取得する。ここでは、ＣＰＵ５０は、カメラ６８で撮影された撮影画像データ３０４ｍを取得する。次のステップＳ５３では、操作者の表情を認識する。ここでは、ＣＰＵ５０は、ステップＳ５１で取得した撮影画像データ３０４ｍに含まれる操作者の顔画像から表情およびその度合を認識し、対応する操作者表情データ３０４ｎをデータ記憶領域３０４に記憶（更新）する。

次のステップＳ５５では、操作者の視線および頭部の動きを検出する。ここでは、ＣＰＵ５０は、ステップＳ５１で取得した撮影画像データ３０４ｍに含まれる操作者の顔画像から視線および頭部の動き（すなわち、顔の向き）を検出し、対応する操作者の視線および頭部の動きデータ３０４ｐをデータ記憶領域３０４に記憶（更新）する。

ただし、取得した撮影画像データ３０４ｍに操作者の顔画像が含まれていない場合には、操作者の表情は認識されず、操作者の視線および頭の向きも検出されない。

続いて、ステップＳ５７では、利用者の表情を認識する。ここでは、ＣＰＵ５０は、受信データ３０４ｃに含まれる撮影画像データを取得し、取得した撮影画像データに含まれる利用者の顔画像から表情およびその度合を認識し、対応する利用者表情データ３０４ｊをデータ記憶領域３０４に記憶（更新）する。

次のステップＳ５９では、利用者の視線および頭の向きを検出する。ここでは、ＣＰＵ５０は、ステップ５７で取得した撮影画像データに含まれる利用者の顔画像から視線および頭の向きを検出し、対応する操作者の視線および頭部の動きデータ３０４ｋをデータ記憶領域３０４に記憶（更新）する。

ただし、取得した撮影画像データに利用者の顔画像が含まれていない場合には、利用者の表情は認識されず、利用者の視線および頭の向きも検出されない。

そして、ステップＳ６１では、終了かどうかを判断する。ここでは、ＣＰＵ５０は、操作者が対話を終了することを指示したり、利用者が対話を終了したりしたかどうかを判断する。

ステップＳ６１で“ＮＯ”であれば、つまり、終了でなければ、ステップＳ５１に戻る。一方、ステップＳ６１で“ＹＥＳ”であれば、つまり、終了であれば、状態検出処理を終了する。

図１４に示すように、ＣＰＵ５０は、出力処理を開始すると、ステップＳ８１で、アバターと仮想カメラを配置する。つまり、ＣＰＵ５０は、３次元の仮想空間を構築し、利用者のアバターおよび操作者のアバターを、この仮想空間においてアバター位置データ３０４ｇが示す所定位置に配置する。また、ＣＰＵ５０は、仮想カメラを視点位置データ３０４ｈが示す位置に配置し、仮想カメラの向きを注視点位置データ３０４ｉが示す位置を撮影する方向に設定する。

続くステップＳ８３で、操作者の表情、視線および頭部の動きを操作者のアバターに反映し、ステップＳ８５で、操作者が発話しているかどうかを判断する。ここでは、ＣＰＵ５０は、マイク６２で音声を検出しているかどうかを判断する。

ステップＳ８５で“ＹＥＳ”であれば、つまり、操作者が発話している場合には、ステップＳ８７で、操作者のアバターを発話動作させて、ステップＳ８９に進む。一方、ステップＳ８５で“ＮＯ”であれば、つまり、操作者が発話していない場合には、ステップＳ８９に進む。

ステップＳ８９では、利用者の表情、視線および頭部の動きを利用者のアバターに反映し、ステップＳ９１で、利用者が発話しているかどうかを判断する。ここでは、ＣＰＵ５０は、受信データに利用者の音声データが含まれるかどうかを判断する。

ステップＳ９１で“ＹＥＳ”であれば、つまり、利用者が発話している場合には、ステップＳ９３で、利用者のアバターを発話動作させて、ステップＳ９５に進む。一方、ステップＳ９１で“ＮＯ”であれば、つまり、利用者が発話していない場合には、ステップＳ９５に進む。

なお、説明の便宜上、ステップＳ８３－Ｓ８７の処理と、ステップＳ８９－Ｓ９３の処理は順番に実行されるように記載してあるが、実際には、同時またはほぼ同時に実行される。

ステップＳ９５では、画像生成および出力する。ここでは、ＣＰＵ５０は、仮想空間に配置された利用者のアバター、または、操作者のアバターおよび利用者のアバターを仮想カメラで撮影した（つまり、視点から見た）画像に対応する画像データを生成し、生成した画像データを表示装置６０に出力する。したがって、図５（Ａ）－図５（Ｃ）に示すような対話画面２００が表示装置６０に表示される。

ただし、仮想カメラ制御処理において、ステップＳ２１の処理が実行されている場合には、ステップＳ８９およびＳ９３では、反映する利用者の表情は抑制され、また、ステップＳ２７の処理が実行されている場合には、ステップＳ８９およびＳ９３では、反映する利用者の表情は誇張される。抑制度合および誇張度合は、設定パラメータデータ３０４ｆを参照して決定される。

なお、出力処理が開始された当初では、利用者のアバターと操作者のアバターは予め設定された表情（たとえば、喜びの表情）およびその度合（たとえば、２５％）で表現される。つまり、利用者のアバターと操作者のアバターは微笑む。

次のステップＳ９７では、利用者の音声を出力する。つまり、ＣＰＵ５０は、受信した利用者の音声データをスピーカ６４に出力する。ただし、ＣＰＵ５０は、利用者の音声データを受信していない場合には、ステップＳ９７の処理はスキップされる。

なお、説明の便宜上、ステップＳ９５の処理とステップ９７の処理は順番に実行されるように記載してあるが、実際には、同時またはほぼ同時に実行され、利用者の音声の出力に合わせて利用者のアバターの口唇部が動かされる。

そして、ステップＳ９９では、終了かどうかを判断する。ここでは、ＣＰＵ５０は、操作者が対話を終了することを指示したり、利用者が対話を終了したりしたかどうかを判断する。

ステップＳ９９で“ＮＯ”であれば、つまり、終了でなければ、ステップＳ８３に戻る。一方、ステップＳ９９で“ＹＥＳ”であれば、つまり、終了であれば、出力処理を終了する。

図１５に示すように、ＣＰＵ５０は、送受信処理を開始すると、ステップＳ１２１で、利用者側端末１２と通信を開始する。続くステップＳ１２３では、操作者の音声を検出したかどうかを判断する。ステップＳ１２３で“ＮＯ”であれば、つまり、操作者の音声を検出していなければ、ステップＳ１２７に進む。

一方、ステップＳ１２３で“ＹＥＳ”であれば、つまり、操作者の音声を検出していれば、ステップＳ１２５で、操作者の音声を利用者側端末１２に送信して、ステップＳ１２７に進む。

ステップＳ１２７では、利用者側端末１２からデータを受信したかどうかを判断する。ステップＳ１２７で“ＮＯ”であれば、つまり、利用者側端末１２からデータを受信していない場合には、ステップＳ１３１に進む。

一方、ステップＳ１２７で“ＹＥＳ”であれば、つまり、利用者側端末１２からデータを受信している場合には、ステップＳ１２９で、受信したデータを記憶して、ステップＳ１３１に進む。

ステップＳ１３１では、終了かどうかを判断する。ここでは、ＣＰＵ５０は、操作者が送受信処理を終了することを指示したり、利用者が対話を終了したりしたかどうかを判断する。

ステップＳ１３１で“ＮＯ”であれば、つまり、終了でなければ、ステップＳ１２３に戻る。一方、ステップＳ１３１で“ＹＥＳ”であれば、つまり、終了であれば、利用者側端末１２との送受信処理を終了する。

図１６に示すように、利用者側端末１２のＣＰＵ２０は送受信処理を開始すると、ステップＳ１４１で、操作者側端末１６との通信を開始する。次のステップＳ１４３では、利用者の音声を検出したかどうかを判断する。

ステップＳ１４３で“ＮＯ”であれば、つまり、利用者の音声を検出していなければ、ステップＳ１４７に進む。一方、ステップＳ１４３で“ＹＥＳ”であれば、つまり、利用者の音声を検出していれば、ステップＳ１４５で、検出した音声を操作者側端末１６に送信して、ステップＳ１４７に進む。

ステップＳ１４７では、撮影画像を取得する。次のステップＳ１４９では、撮影画像を操作者側端末１６に送信する。続いて、ステップＳ１５１で、操作者の音声を受信したかどうかを判断する。

ステップＳ１５１で“ＮＯ”であれば、つまり、操作者の音声を受信していなければ、ステップＳ１５５に進む。一方、ステップＳ１５１で“ＹＥＳ”であれば、つまり、操作者の音声を受信していれば、ステップＳ１５３で、操作者の音声を出力して、ステップＳ１５５に進む。

ステップＳ１５５では、終了かどうかを判断する。ここでは、ＣＰＵ２０は、利用者が送受信処理を終了することを指示したり、操作者が対話を終了したりしたかどうかを判断する。

ステップＳ１５５で“ＮＯ”であれば、つまり、終了でなければ、ステップＳ１４３に戻る。一方、ステップＳ１５５で“ＹＥＳ”であれば、つまり、終了であれば、操作者側端末１６との送受信処理を終了する。

第１実施例によれば、利用者のアバターおよび操作者のアバターを仮想空間に配置し、利用者と操作者の対話状況に応じて、仮想カメラの位置および向きを設定して、利用者のアバターおよび操作者のアバターを表示するので、画像を通して、対話状況を認識しながら対話することができる。つまり、操作者は対話の相手である利用者と対話し易い。このため、利用者に応対し易くすることができる。

また、第１実施例によれば、利用者が怒って強い口調で話している場合には、利用者のアバターの表情を抑制し、操作者が利用者に対して謝っている場合には、利用者のアバターの表情を誇張することで、利用者が怒っている表情を緩和したり、操作者が利用者に謝っている様子を表現したりするので、操作者は利用者と対話し易い。

なお、第１実施例では、対話状況として７つの状況を判断し、それぞれに応じて仮想カメラの位置および向きを設定するようにしたが、これらすべての処理が実行される必要はない。いずれか１つまたは２つ以上の状況を判断し、それぞれに応じて仮想カメラの位置および向きを設定するようにした場合にも、操作者は利用者と対話し易い。各状況を判断するかどうかを操作者が設定し、判断しない状況については、図１０－図１２に示した仮想カメラ制御処理においてスキップされる。

一例として、操作者が無表情で単に利用者の話を聞いているかどうかを判断しない場合には、ステップＳ７の処理が実行されると、ステップＳ９の処理がスキップされ、ステップＳ１３の処理に移行される。したがって、ステップＳ１１の処理が実行されることはない。

説明は省略するが、他の状況を判断しない場合も同様である。また、２つ以上の状況を判断しない場合には、該当する状況の各々についての判断処理がスキップされる。

なお、第１実施例では、利用者および操作者の表情を顔画像から認識するようにしたが、これに限定される必要はない。利用者および操作者の表情は、利用者および操作者の音声からそれぞれ認識することもできる。音声から人間の表情を推定する手法としては、公知技術を用いることができる。たとえば、特開２０２１－１２２８５号および「森大毅：音声から感情・態度の理解、電子情報通信学会誌 Vol. 101, No. 9, 2018」などに開示された技術を用いることができる。

＜第２実施例＞
第２実施例では、利用者側端末１２で、利用者の表情を認識するとともに、利用者の視線を検出し、認識した利用者の表情および検出した利用者の視線を操作者側端末１６に送信するようにした以外は、第１実施例と同じであるため、異なる内容について説明し、重複した説明についての説明は省略する。

したがって、第２実施例では、表情認識プログラム３０２ｉおよび視線および頭部の動き検出プログラム３０２ｊは、利用者側端末１２にも記憶される。

具体的には、図１７に示すように、操作者側端末１６のＣＰＵ５０の状態検出処理の一部が変更され、図１８に示すように、利用者側端末１２のＣＰＵ２０の送受信処理の一部が変更される。

第２実施例では、ＣＰＵ５０の状態検出処理から、ステップＳ５７の利用者の表情を認識する処理と、ステップＳ５９の利用者の視線および頭部の動きの検出処理が削除される。

また、第２実施例では、ＣＰＵ２０の送受信処理から、ステップＳ１４９の撮影画像を操作者側端末１６に送信する処理が削除され、ステップＳ１４７とステップＳ１５１の間に、利用者の表情を認識するステップＳ２０１の処理、利用者の視線および頭部の動きを検出するステップＳ２０３の処理および利用者の表情、視線および頭部の動きを操作者側端末１６に送信するステップＳ２０５の処理がその順番で追加される。

第２実施例においても、第１実施例と同様に、対話の相手である利用者と対話し易く、利用者に応対し易くすることができる。

なお、上述の各実施例では、利用者側端末および操作者側端末がネットワークを介して通信するようにしたが、利用者側端末および操作者側端末はネットワークおよびサーバを介して通信するようにしてもよい。この場合、サーバは、利用者側端末から操作者側端末に送信した画像データを受信した場合に、受信した画像データに基づいて、利用者の表情を認識するとともに、利用者の視線および頭部の動きを検出して、受信した画像データに代えて、利用者の表情、利用者の視線および利用者の頭部の動きについてのデータを操作者側端末に送信するようにしてもよい。

また、上述の各実施例では、ショッピングサイトの利用者とこの利用者に応対する操作者が対話する場合について説明したが、これに限定される必要はない。２人または３人以上の参加者がビデオ通話またはウェブ会議する場合に、対話する相手または会議に参加する他の参加者の各々に対応するアバターの画像を、各参加者が使用する端末の表示装置に表示し、各アバターを上述の実施例で示した方法で個別に制御するようにしてもよい。

さらに、上述の各実施例で示したフロー図の各ステップは同じ結果が得られる場合には、処理する順番を変更することが可能である。

さらにまた、上述の各実施例で挙げた各種の画面、具体的数値はいずれも単なる例示であり、必要に応じて適宜変更可能である。

１０ …情報処理システム
１２ …利用者側端末
１４ …ネットワーク
１６ …操作者側端末
１８ …サーバ
１８ａ、２０、５０ …ＣＰＵ
１８ｂ、２２、５２ …記憶部
２４、５４ …通信Ｉ／Ｆ
２６、５６ …入出力Ｉ／Ｆ
２８、５８ …入力装置
３０、６０ …表示装置
３２、６２ …マイク
３４、６４ …スピーカ
３６、６６ …センサＩ／Ｆ
３８、６８ …カメラ

Claims

操作者が対話する利用者の音声である利用者音声を利用者側端末から受信する音声受信手段、
前記操作者の顔画像である操作者顔画像を撮影する撮影手段、
少なくとも、前記音声受信手段によって受信された利用者音声および前記撮影手段によって撮影された操作者顔画像を用いて、前記操作者と前記利用者の対話状況を判断する対話状況判断手段、
前記操作者に対応するアバターである操作者アバターと前記利用者に対応するアバターである利用者アバターを仮想空間に配置するアバター配置手段、および
前記仮想空間を撮影する仮想カメラの位置および向きを前記対話状況判断手段によって判断された対話状況に応じて設定する仮想カメラ制御手段を備える、情報処理装置。
前記仮想カメラ制御手段は、前記対話状況に応じて、前記仮想カメラの位置および向きを、前記操作者アバターから前記利用者アバターを見た一人称視点、前記操作者アバターの斜め後方から前記操作者アバターと前記利用者アバターの間の第１所定位置を見た後方の三人称視点、または、前記操作者アバターと前記利用者アバターの横から前記操作者アバターと前記利用者の間の第２所定位置を見た側方の三人称視点のいずれかに設定する、請求項１記載の情報処理装置。
前記対話状況は、前記操作者が前記利用者だけを意識している第１の状況、前記操作者が前記利用者のみならず、前記操作者自身のリアクションを確認したい第２の状況、および、前記操作者と前記操作者が対等に話し合っている第３の状況のいずれかである、請求項１または２記載の情報処理装置。
前記第１の状況は、前記操作者が前記利用者音声を単に傾聴している第４の状況を含み、
前記操作者顔画像に基づいて前記操作者の表情を認識する操作者表情認識手段をさらに備え、
前記対話状況判断手段は、前記音声受信手段によって前記利用者音声を受信している場合に、前記操作者表情認識手段によって認識された前記操作者の表情に基づいて前記第４の状況を判断し、
前記仮想カメラ制御手段は、前記対話状況判断手段によって前記第４の状況が判断された場合に、前記仮想カメラを前記一人称視点に設定する、請求項３記載の情報処理装置。
前記第２の状況は、前記操作者が前記利用者音声を納得しながら傾聴している第５の状況を含み、
前記操作者顔画像に基づいて前記操作者の頭部の動きを検出する操作者頭部の動き検出手段をさらに備え、
前記対話状況判断手段は、前記音声受信手段によって前記利用者音声を受信している場合に、前記操作者頭部の動き検出手段によって検出された前記操作者の頭部の動きに基づいて前記第５の状況を判断し、
前記仮想カメラ制御手段は、前記対話状況判断手段によって前記第５の状況が判断された場合に、前記仮想カメラを前記後方の三人称視点に設定する、請求項３記載の情報処理装置。
前記第２の状況は、前記操作者が強い感情の前記利用者音声を傾聴している第６の状況を含み、
前記操作者顔画像に基づいて前記操作者の頭部の動きを検出する操作者頭部の動き検出手段をさらに備え、
前記対話状況判断手段は、前記音声受信手段によって前記利用者音声を受信している場合に、前記利用者感情認識手段によって検出された前記利用者の感情に基づいて前記第６の状況を判断し、
前記仮想カメラ制御手段は、前記対話状況判断手段によって前記第６の状況が判断された場合に、前記仮想カメラを前記後方の三人称視点に設定する、請求項３記載の情報処理装置。
前記第２の状況は、前記操作者が前記利用者に謝っている第７の状況を含み、
前記操作者顔画像に基づいて前記操作者の表情を認識する操作者表情認識手段、および
前記操作者の音声である操作者音声を検出する音声検出手段をさらに備え、
前記対話状況判断手段は、前記操作者表情認識手段によって認識された前記操作者の表情と前記音声検出手段によって検出された前記操作者音声に基づいて第７の状況を判断し、
前記仮想カメラ制御手段は、前記対話状況判断手段によって前記第７の状況が判断された場合に、前記仮想カメラを前記後方の三人称視点に設定する、請求項３記載の情報処理装置。
前記第３の状況は、前記操作者または前記利用者が挨拶している第８の状況を含み、
前記操作者の音声である操作者音声を検出する音声検出手段をさらに備え、
前記対話状況判断手段は、前記音声受信手段によって受信された利用者音声と前記音声検出手段によって検出された前記操作者音声に基づいて前記第８の状況を判断し、
前記仮想カメラ制御手段は、前記対話状況判断手段によって前記第８の状況が判断された場合に、前記仮想カメラを前記側方の三人称視点に設定する、請求項３記載の情報処理装置。
前記第３の状況は、前記操作者と前記利用者が言い合っている第９の状況を含み、
前記操作者の音声である操作者音声を検出する音声検出手段をさらに備え、
前記対話状況判断手段は、前記音声受信手段によって受信された利用者音声と前記音声検出手段によって検出された前記操作者音声に基づいて前記第９の状況を判断し、
前記仮想カメラ制御手段は、前記対話状況判断手段によって前記第９の状況が判断された場合に、前記仮想カメラを前記側方の三人称視点に設定する、請求項３記載の情報処理装置。
前記第３の状況は、前記操作者と前記利用者が共感している第１０の状況を含み、
前記操作者顔画像に基づいて前記操作者の表情を認識する操作者表情認識手段、
前記利用者の顔画像である利用者顔画像を前記利用者側端末から受信する顔画像受信手段、および
前記顔画像受信手段によって受信された利用者顔画像に基づいて前記利用者の表情を認識する利用者表情認識手段をさらに備え、
前記対話状況判断手段は、少なくとも、前記操作者表情認識手段によって認識された前記操作者の表情と前記利用者表情認識手段によって認識された前記利用者の表情に基づいて前記第１０の状況を判断し、
前記仮想カメラ制御手段は、前記対話状況判断手段によって前記第１０の状況が判断された場合に、前記仮想カメラを前記側方の三人称視点に設定する、請求項３記載の情報処理装置。
前記第３の状況は、前記操作者と前記利用者が共感している第１０の状況を含み、
前記操作者顔画像に基づいて前記操作者の表情を認識する操作者表情認識手段、および
前記利用者側端末から前記利用者の表情を受信する表情受信手段をさらに備え、
前記対話状況判断手段は、少なくとも、前記操作者表情認識手段によって認識された前記操作者の表情と前記表情受信手段によって受信された前記利用者の表情に基づいて前記第１０の状況を判断し、
前記仮想カメラ制御手段は、前記対話状況判断手段によって前記第１０の状況が判断された場合に、前記仮想カメラを前記側方の三人称視点に設定する、請求項３記載の情報処理装置。
情報処理装置で実行される制御プログラムであって、
前記情報処理装置のプロセッサに、
操作者が対話する利用者の音声である利用者音声を利用者側端末から受信する音声受信ステップ、
前記操作者の顔画像である操作者顔画像を撮影する撮影ステップ、
少なくとも、前記音声受信ステップにおいて受信した利用者音声および前記撮影ステップにおいて撮影した操作者顔画像を用いて、前記操作者と前記利用者の対話状況を判断する対話状況判断ステップ、
前記操作者に対応するアバターである操作者アバターと前記利用者に対応するアバターである利用者アバターを仮想空間に配置するアバター配置ステップ、および
前記仮想空間を撮影する仮想カメラの位置および向きを前記対話状況判断ステップにおいて判断した対話状況に応じて設定する仮想カメラ制御ステップを実行させる、制御プログラム。
情報処理装置の制御方法であって、
(ａ)操作者が対話する利用者の音声である利用者音声を利用者側端末から受信するステップ、
（ｂ）前記操作者の顔画像である操作者顔画像を撮影するステップ、
（ｃ）少なくとも、前記ステップ（ａ）において受信した利用者音声および前記ステップ（ｂ）において撮影した操作者顔画像を用いて、前記操作者と前記利用者の対話状況を判断するステップ、
（ｄ）前記操作者に対応するアバターである操作者アバターと前記利用者に対応するアバターである利用者アバターを仮想空間に配置するステップ、および
（ｅ）前記仮想空間を撮影する仮想カメラの位置および向きを前記ステップ（ｃ）において判断した対話状況に応じて設定するステップを含む、制御方法。