JP2023072110A

JP2023072110A - 情報処理装置、制御プログラムおよび制御方法

Info

Publication number: JP2023072110A
Application number: JP2021184438A
Authority: JP
Inventors: 浩石黒; Hiroshi Ishiguro; 昇吾西口; Shogo Nishiguchi
Original assignee: Avita Inc; Osaka University NUC
Current assignee: Avita Inc; Osaka University NUC
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2023-05-24

Abstract

【課題】アバターの感情表現の度合を利用者に対して適切に設定する情報処理装置、制御プログラムおよび制御方法を提供する。【解決手段】情報処理システム１０において、利用者側端末１２は、ＣＰＵを含み、利用者側端末１２の利用者と操作者側端末１６の操作者がリアルタイムに音声で話し、利用者からの問い合わせに対して操作者が応答すると、利用者側端末１２のＣＰＵが、操作者の音声の音声データを受信する。また、利用者側端末１２のＣＰＵは、操作者の感情を推定し、推定した感情をスライダーバーで設定された個別の感情表現の度合の範囲内で表現したアバターの画像を表示し、受信した音声データを出力する。感情表現の度合は、スライダーバーで設定された全体的な感情表現の度合で決定される。【選択図】図１

Description

この発明は、情報処理装置、制御プログラムおよび制御方法に関し、特にたとえば、利用者と操作者がチャットまたはトークでコミュニケーションを行う、情報処理装置、制御プログラムおよび制御方法に関する。

この種の従来の情報処理装置の一例が特許文献１に開示されている。特許文献１に開示されるテレビ会議システムは、テレビ会議装置としての情報処理装置を備えている。情報処理装置は、テレビ会議の複数の参加者を有するグループを設定し、グループの全ての参加者に対応する基準の感情種別の１つのアバターの画像データを作成し、テレビ会議におけるグループの全ての参加者の感情情報を判断し、判断された感情種別を、アバターの画像データに反映する。

特開２０２１－１１４６４２号

上記の特許文献１では、テレビ会議におけるグループのすべての参加者の感情を判断し、判断された感情種別を作成されたアバターの画像データに反映するようにしてあるが、アバターの感情表現の度合、すなわち、感情の強さについては考慮されていない。小さい感情表現のアバターの画像を好む利用者もいれば、大きい感情表現のアバターの画像を好む利用者もいる。また、利用者の気分によって、アバターの感情表現の大小の好みが変わる場合もある。したがって、アバターの画像の表示方法には改善の余地がある。

それゆえに、この発明の主たる目的は、新規な、情報処理装置、制御プログラムおよび制御方法を提供することである。

また、この発明の他の目的は、アバターの感情表現の度合を利用者に対して適切に設定することができる、情報処理装置、制御プログラムおよび制御方法を提供することである。

第１の発明は、利用者によって、複数の感情の種類に対して個別に設定された個別の感情表現の度合の範囲を記憶する記憶手段、利用者と対話する操作者が発話した音声を受信する受信手段、受信手段によって音声を受信した場合に、操作者または利用者の感情を推定する推定手段、推定手段によって推定された操作者または利用者の感情を範囲内で表現し、操作者に対応するアバターの画像をディスプレイに表示するアバター表示手段、および受信手段によって受信された音声を出力する音出力手段を備える、情報処理装置である。

第２の発明は、第１の発明に従属し、個別の感情表現の度合を範囲内において設定する度合設定手段をさらに備え、アバター表示手段は、度合設定手段によって範囲内において設定された個別の感情表現の度合で、アバターの画像を表示する。

第３の発明は、第２の発明に従属し、度合設定手段は、利用者が設定した全体的な感情表現の度合で、個別の感情表現の度合を範囲内において設定する。

第４の発明は、第２の発明に従属し、推定手段は、利用者の少なくとも顔を撮影した顔画像から当該利用者の感情および当該利用者の感情の強さを推定し、度合設定手段は、推定手段の推定結果に基づいて、アバターの画像で表現する感情および個別の感情表現の度合を範囲内において設定する。

第５の発明は、第１の発明に従属し、推定手段によって推定された利用者の感情である第１の感情に基づいて設定された第２の感情を表現するアバターの画像を表示する所定の表示モードを設定するモード設定手段をさらに備え、アバター表示手段は、モード設定手段によって所定の表示モードが設定されている場合に、第２の感情を表現するアバターの画像を表示する。

第６の発明は、利用者によって、複数の感情の種類に対して個別に設定された個別の感情表現の度合の範囲を記憶する記憶手段、利用者が発話した場合に、個別の感情表現の度合の範囲を操作者側端末に送信する送信手段、利用者と対話する操作者が発話した音声と、操作者側端末で推定された操作者または利用者の感情を範囲内で表現する、操作者に対応するアバターの画像を受信する受信手段、受信手段によって受信された音声を出力する音出力手段、および音出力手段によって音声を出力するときに、受信手段によって受信されたアバターの画像を表示するアバター表示手段を備える、情報処理装置である。

第７の発明は、利用者によって、複数の感情の種類に対して個別に設定された個別の感情表現の度合の範囲を利用者側端末から受信する第１受信手段、利用者と対話する操作者が発話した音声を受信する第２受信手段、第２受信手段によって音声を受信した場合に、操作者または利用者の感情を推定する推定手段、および推定手段によって推定された操作者または利用者の感情を範囲内で表現し、操作者に対応するアバターの画像を生成し、当該アバターの画像と第２受信手段によって受信された音声を利用者側端末に出力する出力手段を備える、情報処理装置である。

第８の発明は、利用者によって、複数の感情の種類に対して個別に設定された個別の感情表現の度合の範囲を記憶する記憶手段を備える情報処理装置で実行される制御プログラムであって、情報処理装置のプロセッサに、利用者を対話する操作者が発話した音声を受信する受信ステップ、受信ステップにおいて音声を受信した場合に、操作者または利用者の感情を推定する推定ステップ、推定ステップにおいて推定した操作者または利用者の感情を範囲内で表現し、操作者に対応するアバターの画像をディスプレイに表示するアバター表示ステップ、および受信ステップにおいて受信した音声を出力する音出力ステップを実行させる、制御プログラムである。

第９の発明は、利用者によって、複数の感情の種類に対して個別に設定された個別の感情表現の度合の範囲を記憶する記憶手段を備える情報処理装置で実行される制御プログラムであって、情報処理装置のプロセッサに、利用者が発話した場合に、個別の感情表現の度合の範囲を操作者側端末に送信する送信ステップ、利用者と対話する操作者が発話した音声と、操作者側端末で推定された操作者または利用者の感情を範囲内で表現する、操作者に対応するアバターの画像を受信する受信ステップ、および受信ステップにおいて受信した音声を出力に合わせて、受信ステップにおいて受信したアバターの画像を表示するステップを実行させる、制御プログラムである。

第１０の発明は、情報処理装置で実行される制御プログラムであって、情報処理装置のプロセッサに、利用者によって、複数の感情の種類に対して個別に設定された個別の感情表現の度合の範囲を利用者側端末から受信する第１受信ステップ、利用者と対話する操作者が発話した音声を受信する第２受信ステップ、第２受信ステップにおいて音声を受信した場合に、操作者または利用者の感情を推定する推定ステップ、および推定ステップにおいて推定した操作者または利用者の感情を範囲内で表現し、操作者に対応するアバターの画像を生成し、当該アバターの画像と第２受信ステップにおいて受信した音声を利用者側端末に出力する出力ステップを実行させる、制御プログラムである。

第１１の発明は、利用者によって、複数の感情の種類に対して個別に設定された個別の感情表現の度合の範囲を記憶する記憶手段を備える情報処理装置の制御方法であって、（ａ）利用者と対話する操作者が発話した音声を受信するステップ、（ｂ）ステップ（ａ）において音声を受信した場合に、操作者または利用者の感情を推定するステップ、（ｃ）ステップ（ｂ）において推定した操作者または利用者の感情を範囲内で表現し、操作者に対応するアバターの画像をディスプレイに表示するステップ、および（ｄ）ステップ（ａ）において受信した音声を出力するステップを含む、制御方法である。

第１２の発明は、利用者によって、複数の感情の種類に対して個別に設定された個別の感情表現の度合の範囲を記憶する記憶手段を備える情報処理装置の制御方法であって、（ａ）利用者が発話した場合に、個別の感情表現の度合の範囲を操作者側端末に送信するステップ、（ｂ）利用者と対話する操作者が発話した音声と、操作者側端末で推定された操作者または利用者の感情を範囲内で表現し、当該音声を発話するように動作する、操作者に対応するアバターの画像を受信するステップ、および（ｃ）ステップ（ｂ）において受信した音声の出力するステップを含む、制御方法である。

第１３の発明は、情報処理装置の制御方法であって、（ａ）利用者によって、複数の感情の種類に対して個別に設定された個別の感情表現の度合の範囲を利用者側端末から受信するステップ、（ｂ）利用者と対話する操作者が発話した音声を受信するステップ、（ｃ）ステップ（ｂ）において音声を受信した場合に、操作者または利用者の感情を推定するステップ、および（ｄ）ステップ（ｃ）において推定した操作者または利用者の感情を範囲内で表現し、操作者に対応するアバターの画像を生成し、当該アバターの画像とステップ（ｂ）において受信した音声を利用者側端末に出力するステップを含む、制御方法である。

この発明によれば、利用者が設定した個別の感情についての感情表現の度合の範囲内において、推定した操作者または利用者の感情を表現するアバターの画像を表示するので、アバターの感情表現の度合を利用者に対して適切に設定することができる。

この発明の上述の目的、その他の目的，特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。

図１はこの発明の一実施例の情報処理システムを示す図である。図２は図１に示す利用者側端末の電気的な構成を示すブロック図である。図３は図１に示す操作者側端末の電気的な構成を示すブロック図である。図４は利用者側端末の表示装置に表示される画面の一例を示す図である。図５は利用者側端末の表示装置に表示される画面の他の例を示す図である。図６は利用者側端末の表示装置に表示されるその他の画面の一例を示す図である。図７は５つの感情についてニュートラルの状態から感情の強さが中くらいおよび最大に変化したときのアバターの画像の一例を示す図である。図８は利用者側端末の表示装置に表示される設定画面の一例を示す図である。図９は利用者側端末に記憶される感情辞書の一例を示す図である。図１０は図２に示す利用者側端末のＲＡＭのメモリマップの一例を示す図である。図１１は図２に示す利用者側端末のＣＰＵの制御処理の一例の第１の一部を示すフロー図である。図１２は図２に示す利用者側端末のＣＰＵの制御処理の一例の第２の一部であって、図１１に後続するフロー図である。図１３は図２に示す利用者側端末のＣＰＵの制御処理の一例の第３の一部であって、図１１に後続するフロー図である。図１４は第２実施例の利用者側端末のＣＰＵの制御処理の一部を示すフロー図である。図１５は第２実施例の操作者側端末のＣＰＵのアバターの画像生成処理の一例を示すフロー図である。図１６は第３実施例における利用者側端末のＣＰＵの制御処理の一部を示すフロー図である。図１７は第４実施例における利用者側端末の表示装置に表示されるモード設定画面の一例を示す図である。図１８は第４実施例における利用者側端末のＣＰＵの制御処理の一部を示すフロー図である。図１９は第５実施例における利用者側端末のＣＰＵの制御処理の一部を示すフロー図である。図２０は第５実施例の操作者側端末のＣＰＵのアバターの画像生成処理の一例を示すフロー図である。図２１は第６実施例のサーバのＣＰＵの制御処理の一例の第１の一部を示すフロー図である。図２２は第６実施例におけるサーバのＣＰＵの制御処理の一例の第２の一部であって、図２１に後続するフロー図である。図２３は第６実施例におけるサーバのＣＰＵの制御処理の一例の第３の一部であって、図２１に後続するフロー図である。

＜第１実施例＞
図１を参照して、この第１実施例の情報処理システム１０は利用者側端末１２を含み、利用者側端末１２は、ネットワーク１４を介して、操作者側端末１６およびサーバ１８に通信可能に接続される。

利用者側端末１２は、サーバ１８によって提供される所定のサービスを利用する利用者によって使用され、操作者側端末１６は、利用者に応対する操作者によって使用される。

利用者側端末１２は、情報処理装置であり、一例として、スマートフォンであり、ブラウザ機能を備えている。他の実施例では、利用者側端末１２として、タブレットＰＣ、ノート型ＰＣまたはデスクトップ型ＰＣなどの汎用の端末を用いることもできる。

ネットワーク１４は、インターネットを含むＩＰ網（または、ＩＰネットワーク）と、このＩＰ網にアクセスするためのアクセス網（または、アクセスネットワーク）とから構成される。アクセス網としては、公衆電話網、携帯電話網、有線ＬＡＮ、無線ＬＡＮ、ＣＡＴＶ（Cable Television）等を用いることができる。

操作者側端末１６は、利用者側端末１２とは異なる他の情報処理装置であり、一例として、ノート型ＰＣまたはデスクトップ型ＰＣであるが、他の実施例では、スマートフォンまたはタブレットＰＣなどの汎用の端末を用いることもできる。

サーバ１８は、利用者側端末１２および操作者側端末１６とは異なるその他の情報処理装置であり、汎用のサーバを用いることができる。したがって、サーバ１８は、ＣＰＵ１８ａおよび記憶部（ＨＤＤ、ＲＯＭおよびＲＡＭを含む）１８ｂを備えるとともに、通信インタフェースおよび入出力インタフェースなどのコンポーネントを備える。第１実施例では、サーバ１８は、所定のサービスを提供するサイトを運営するために設けられる。

図２は図１に示した利用者側端末１２の電気的な構成を示すブロック図である。図２に示すように、利用者側端末１２はＣＰＵ２０を含み、ＣＰＵ２０は、内部バスを介して、記憶部２２、通信インタフェース（以下、「通信Ｉ／Ｆ」という）２４および入出力インタフェース（以下、「入出力Ｉ／Ｆ」という）２６に接続される。

ＣＰＵ２０は、利用者側端末１２の全体的な制御を司る。ただし、ＣＰＵ２０に代えて、ＣＰＵ機能、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）機能等の複数の機能を含むＳｏＣ（Ｓｙｓｔｅｍ－ｏｎ－ａ－ｃｈｉｐ）を設けてもよい。記憶部２２は、ＨＤＤ、ＲＯＭおよびＲＡＭを含む。ただし、ＨＤＤに代えて、または、ＨＤＤ、ＲＯＭおよびＲＡＭに加えて、ＳＳＤ等の不揮発性メモリが使用されてもよい。

通信Ｉ／Ｆ２４は、ＣＰＵ２０の制御の下、ネットワーク１４を介して、操作者側端末１６およびサーバ１８などの外部のコンピュータとの間で、制御信号およびデータの送受信を行うために有線インタフェースを有する。ただし、通信Ｉ／Ｆ２４としては、無線ＬＡＮまたはBluetooth（登録商標）等の無線インタフェースを使用することもできる。

入出力Ｉ／Ｆ２６には、入力装置２８および表示装置３０、マイク３２およびスピーカ３４が接続されている。入力装置２８は、タッチパネルおよびハードウェアのボタンである。タッチパネルは、汎用のタッチパネルであり、静電容量方式、電磁誘導方式、抵抗膜方式、赤外線方式など、任意の方式のものを用いることができる。後述する操作者側端末１６についても同様である。

ただし、利用者側端末１２として、ノート型ＰＣまたはデスクトップ型ＰＣが用いられる場合には、入力装置２８として、キーボードおよびコンピュータマウスが使用される。

また、表示装置３０は、ＬＣＤまたは有機ＥＬディスプレイである。上記のタッチパネルは、表示装置３０の表示面上に設けられてもよいし、タッチパネルが表示装置３０と一体的に形成されたタッチディスプレイが設けられてもよい。このことは、後述する操作者側端末１６についても同様である。

入出力Ｉ／Ｆ２６は、マイク３２で検出された利用者の音声をデジタルの音声データに変換してＣＰＵ２０に出力するとともに、ＣＰＵ２０によって出力される音声データをアナログの音声信号に変換してスピーカ３４から出力させる。ただし、第１実施例では、ＣＰＵ２０から出力される音声データは、操作者側端末１６から受信した音声データである。また、入出力Ｉ／Ｆ２６は、入力装置２８から入力された操作データ（または、操作情報）をＣＰＵ２０に出力するとともに、ＣＰＵ２０によって生成された画像データを表示装置３０に出力して、画像データに対応する画面または画像を表示装置３０に表示させる。ただし、外部のコンピュータ（たとえば、操作者側端末１６またはサーバ１８）から受信した画像データがＣＰＵ２０によって出力される場合もある。

また、利用者側端末１２は、センサインタフェース（センサＩ／Ｆ）３６およびカメラ３８を備えている。ＣＰＵ２０は、バスおよびセンサＩ／Ｆ３６を介してカメラ３８に接続される。カメラ３８は、ＣＣＤまたはＣＭＯＳのような撮像素子を用いたカメラである。

なお、図２に示す利用者側端末１２の電気的な構成は一例であり、限定される必要はない。利用者の顔画像を撮影する必要が無い場合には、つまり、第１実施例および後述する第２実施例では、カメラ３８を省略してもよい。

また、利用者側端末１２がスマートフォンである場合には、携帯電話通信網、または、携帯電話網および公衆電話網を介して、通話するための通話回路を備えるが、第１実施例では、そのような通話は行わないため、図示は省略してある。このことは、後述する操作者側端末１６がスマートフォンである場合についても同じである。

図３は図１に示した操作者側端末１６の電気的な構成を示すブロック図である。図３に示すように、操作者側端末１６はＣＰＵ５０を含み、ＣＰＵ５０は、内部バスを介して、記憶部５２、通信Ｉ／Ｆ５４および入出力Ｉ／Ｆ５６に接続される。

ＣＰＵ５０は、操作者側端末１６の全体的な制御を司る。ただし、ＣＰＵ５０に代えて、ＣＰＵ機能、ＧＰＵ機能等の複数の機能を含むＳｏＣを設けてもよい。記憶部５２は、ＨＤＤ、ＲＯＭおよびＲＡＭを含む。ただし、ＨＤＤに代えて、または、ＨＤＤ、ＲＯＭおよびＲＡＭに加えて、ＳＳＤ等の不揮発性メモリが使用されてもよい。

通信Ｉ／Ｆ５４は、ＣＰＵ５０の制御の下、ネットワーク１４を介して、操作者側端末１６およびサーバ１８などの外部のコンピュータとの間で、制御信号およびデータの送受信を行うために有線インタフェースを有する。ただし、通信Ｉ／Ｆ５４としては、無線ＬＡＮまたはBluetooth（登録商標）等の無線インタフェースを使用することもできる。

入出力Ｉ／Ｆ５６には、入力装置５８および表示装置６０、マイク６２およびスピーカ６４が接続されている。マイク６２およびスピーカ６４は、操作者が利用者との間で音声通話するために使用するマイク付きのヘッドセットを構成する。

また、入力装置５８としては、キーボードおよびコンピュータマウスが用いられる。ただし、操作者側端末１６として、スマートフォンまたはタブレットＰＣが用いられる場合には、入力装置５８として、タッチパネルおよびハードウェアのボタンが設けられる。また、表示装置６０は、ＬＣＤまたは有機ＥＬディスプレイである。

入出力Ｉ／Ｆ５６は、マイク６２で検出された操作者の音声をデジタルの音声データに変換してＣＰＵ５０に出力するとともに、ＣＰＵ５０によって出力される音声データをアナログの音声信号に変換してスピーカ６４から出力させる。ただし、第１実施例では、ＣＰＵ５０から出力される音声データは、利用者側端末１２から受信した音声データである。また、入出力Ｉ／Ｆ５６は、入力装置５８から入力された操作データ（または、操作情報）をＣＰＵ５０に出力するとともに、ＣＰＵ５０によって生成された画像データを表示装置６０に出力して、画像データに対応する画面を表示装置６０に表示させる。

また、操作者側端末１６は、センサＩ／Ｆ６６および慣性センサ６８を備えている。ＣＰＵ５０は、バスおよびセンサＩ／Ｆ６６を介して慣性センサ６８に接続される。

慣性センサ６８としては、角速度センサが用いられる。第１実施例では、慣性センサ６８は、マイク６２およびスピーカ６４で構成するヘッドセットに設けられ、操作者の首の縦方向および横方向の動き（つまり、頷き動作および首振り動作）を検出する。したがって、操作者の首の縦方向の動きを検出するための軸周りと、操作者の首の横方向の動きを検出するための軸周りの角速度を検出可能な角速度センサが用いられる。一例として、操作者の首の縦方向の動きを検出するための軸は、操作者の両耳を通る直線に平行な軸である。また、一例として、操作者の首の横方向の動きを検出するための軸は、操作者の頭頂部を通り延長方向に延びる軸である。

ただし、慣性センサ６８としては、３軸の加速度センサを用いるようにしてもよい。この場合、操作者の顔の正面方向、頭部の横方向および頭部の縦方向のそれぞれに延びる軸の方向の加速度が検出される。

第１実施例では、トークにおいては、操作者の音声に対応する音声データに、慣性センサ６８で検出された角速度のデータ（後述する「首の動きデータ」）が付加され、利用者側端末１２に送信される。

ただし、首の動きデータは、慣性センサ６８で検出された第１所定時間（この第２実施例では、１／１０秒程度）分の複数の角速度の平均値についてのデータであり、第１所定時間毎に算出される。

なお、第１実施例では、慣性センサで操作者の首の動きを検出するようにしたが、これに限定される必要はない。他の例では、操作者の顔の向きに基づいて首の動きを検出するようにしてもよい。かかる場合には、慣性センサ６８に代えて、イメージセンサ（ＣＣＤカメラすなわちＷｅｂカメラ）が操作者の顔を撮影可能な位置に設けられる。一例として、表示装置６０の上部にＣＣＤカメラが設けられ、ＣＣＤカメラ（または、表示装置６０）に正対する操作者の顔画像の向きを基準として、現在の顔の向きが現在の顔画像に基づいて算出され、現在の顔の向きに基づいて操作者の首の動きが推定される。ただし、顔の向きは、顔画像から抽出した複数の顔の特徴点の動きで検出することができる。

利用者側端末１２は操作者側端末１６から音声データを受信すると、受信した音声データに付加された慣性データに応じてアバターの画像１３０の首の動きを制御する。

なお、図３に示す操作者側端末１６の電気的な構成は一例であり、限定される必要はない。他の実施例では、操作者側端末１６はカメラを備えていてもよい。

このような情報処理システム１０では、利用者が利用者側端末１２を使用して、サーバ１８が提供する所定のサービスのウェブ画面１００を見ている場合に、所定の条件を満たすと、操作者（オペレータ）とチャットまたはトークでコミュニケーションできる、アプリケーション（以下、単に「アプリ」という）が起動される。

なお、所定のサービスを提供するサイトを運営するためのサーバは、ネットワーク１４上に設けられる。

一例として、所定のサービスは、オンラインショッピングであるが、チャットまたはトークで、利用者の問い合わせに対して対応（応答）することができる、任意のオンラインサービスである。

図４は、ウェブ画面１００の前面に、アプリの選択画面１１０が表示された場合の一例を示す。ただし、ウェブ画面１００は、ウェブブラウザを起動し、所定のＵＲＬを入力することにより、表示装置３０に表示される。ウェブ画面１００は、所定のサービスのウェブサイト（または、ウェブページ）の画面である。図４では、或るオンラインショッピングのウェブ画面１００の例が示される。また、選択画面１１０は、アプリが起動されたときなどに表示される初期画面である。

上述したように、アプリは、所定の条件を満たす場合に、起動される。この第１実施例では、所定の条件は、所定のサービスのウェブ画面（第１実施例では、ウェブ画面１００）を表示した状態において、利用者がアプリの起動（または、実行）を指示したこと、利用者の操作が第２所定時間（この第１実施例では、３０秒）以上無いこと、当該ウェブ画面において同じ位置または似たような場所（近くの位置）を指示していること、所定のサービスにおいて複数回（たとえば、３回）同じウェブ画面に戻ってくることである。

なお、図４では、ウェブ画面１００が、利用者側端末１２がスマートフォンである場合の表示装置６０に表示された例を示してある。また、ウェブ画面１００は一例であり、オンラインショッピング以外の他のサービスについての画面が表示される場合もある。

選択画面１１０には、画面の上部に、表示枠１１２が設けられ、表示枠１１２の下方に、ボタン１１４、ボタン１１６およびボタン１１８が縦に並んで設けられる。また、画面の上部であり、表示枠１１２の右側には、ボタン１２０が設けられる。

表示枠１１２はアバターの画像１３０を表示するための枠画像である。アバターの画像１３０は、表示枠１１２に収まる大きさで表示（または、描画）される。この第１実施例では、アバターの画像１３０はチャットまたはトークの相手（対話の相手）である操作者の分身となるキャラクタであり、予め設定されている。したがって、アバターの画像１３０は、人間を模したキャラクタであり、この第１実施例では、頭部および首についての画像である。

ただし、アバターの画像１３０は、動物またはロボットを模したキャラクタ、アニメキャラクタ、ゲームキャラクタなどの画像でもよい。また、アバターの画像１３０は、キャラクタの上半身または全身についての画像でもよい。

また、この第１実施例では、アバターの画像１３０は、チャットまたはトークする場合に、操作者のチャットにおける応答内容の表示またはトークにおける応答内容（または、発話内容）の音声の出力に合せて発話するまたは発話動作を行う。この第１実施例では、アバターの画像１３０は頭部および首が表示されるため、発話動作では、アバターの画像１３０の口唇部がチャットにおける応答内容のテキストの表記またはトークにおける応答内容の音声の出力に合わせて動かされる。したがって、アバターが実際にしゃべっているように表現される。

また、選択画面１１０においては、アバターは、自然の動作（以下、「無意識動作」という）を行う。無意識動作の代表的な例としては、瞬きや呼吸が該当する。また、このような生理的な動作のみならず、人間の癖による動作も無意識動作に含まれる。たとえば、癖による動作としては、髪の毛を触る動作、顔を触る動作および爪を噛む動作などが該当する。ただし、選択画面１１０が表示されると、アバターの画像１３０は、最初に、静止した状態で表示され、続いて、利用者に対して挨拶する（たとえば、お辞儀する）ように表示される。

したがって、選択画面１１０においては、静止した状態のアバターの画像１３０が表示された後に、無意識動作または挨拶の動作を行うアバターの画像１３０が表示される。本願発明の本質的な内容ではないため、詳細な説明は省略するが、一例として、静止した状態のアバターの画像１３０の表示は、予め記憶され静止した状態の画像データを出力（または、再生）することにより行われる。また、無意識動作および挨拶するときの動作を行うアバターの画像１３０の表示については、予め記憶された動画（アニメーション）データを再生することにより行われる。

ボタン１１４は、利用者が操作者とチャットするためのボタンである。チャットとは、テキストのやり取りによってリアルタイムに話をすることを意味し、この第１実施例では、利用者および操作者の操作によって、利用者側端末１２と操作者側端末１６の間で、テキストデータが送受信される。

ボタン１１６は、利用者が操作者とトークするためのボタンである。トークとは、音声のやり取りによってリアルタイムに話をすることを意味し、この第１実施例では、利用者および操作者の発話によって、利用者側端末１２と操作者側端末１６の間で、音声データが送受信される。

ボタン１１８は、アプリを終了するためのボタンである。ボタン１１８がオンされると、アプリが終了され、選択画面１１０が非表示される。

ボタン１２０は、各種の設定を行なうためのボタンである。ボタン１２０がオンされると、図示は省略するが、設定項目を選択するためのメニュー画面が表示される。

図５はウェブ画面１００の前面にチャット画面１４０が表示された状態の一例を示す。選択画面１１０においてボタン１１４がオンされると、図５に示すようなチャット画面１４０が表示される。

チャット画面１４０には、画面の上部に、表示枠１４２が設けられ、表示枠１４２内にアバターの画像１３０が表示される。また、表示枠１４２の下方には、表示枠１４４および表示枠１４６が縦に並んで設けられ、表示枠１４６の下方に、ボタン１４８が設けられる。

表示枠１４４は、操作者の応答内容を表示するための枠画像である。操作者の応答内容は、利用者の問い合わせ（または、質問）に対して応答（または、回答）する具体的な内容であるが、利用者に対する挨拶および利用者に対する問いかけなども含まれる。つまり、操作者側端末１６から送信されたテキストデータが表示枠１４４に表示される。詳細な説明は省略するが、チャットの場合には、操作者側端末１６から送信されたテキストデータは、操作者が入力装置５８を用いてキー入力した内容についてのデータである。

表示枠１４６は、利用者の問い合わせ（質問）内容を表示するための枠画像である。チャットの場合には、利用者の質問内容は、利用者側端末１２の入力装置２８を用いて入力される。図５では省略するが、スマートフォンやタブレットＰＣでは、チャット画面１４０とは別にソフトウェアキーボードが表示され、ソフトウェアキーボードを用いて文字（テキスト）をタッチ入力したり、文字の入力が完了したこと（発話内容の送信）の指示をタッチ入力したりすることができる。質問内容の送信が指示されると、質問内容のテキストデータが操作者側端末１６に送信される。したがって、操作者側端末１６の表示装置６０に質問内容のテキストが表示される。図示は省略するが、チャットにおいては、操作者側端末１６の表示装置６０に、応答内容と質問内容を表示可能なチャット画面が表示される。

ボタン１４８は、チャットを終了するためのボタンである。ボタン１４８がオンされると、チャットを終了し、チャット画面１４０が非表示され、選択画面１１０がウェブ画面１００の前面に表示される。

図６はウェブ画面１００の前面にトーク画面１６０が表示された状態の一例を示す。選択画面１１０においてボタン１１６がオンされると、図６に示すようなトーク画面１６０が表示される。

トーク画面１６０には、画面の上部に、表示枠１６２が設けられ、表示枠１６２内にアバターの画像１３０が表示される。また、トーク画面１６０には、表示枠１６２の下方であり、画面の下部に、ボタン１６４が設けられる。

詳細な説明は省略するが、トークの場合には、操作者側端末１６から送信される音声データは、操作者がマイク６２を通して入力した音声についてのデータである。操作者側端末１６から送信された音声データは、利用者側端末１２で受信され、スピーカ３４から出力される。

また、トークの場合には、利用者側端末１２から送信される音声データは、利用者がマイク３２を通して入力した音声についてのデータである。また、利用者側端末１２から送信された音声データは、操作者側端末１６で受信され、スピーカ６４から出力される。

ボタン１６８は、トークを終了するためのボタンである。ボタン１６８がオンされると、トークを終了し、トーク画面１６０が非表示され、選択画面１１０がウェブ画面１００の前面に表示される。

上記のように、操作者の音声に対応する音声データは、利用者側端末１２のスピーカ６４から出力されるが、このとき、アバターは発話動作を行う。この第１実施例では、アバターの画像１３０は、スピーカ６４から出力される音声にリップシンクされる。したがって、アバターの画像１３０が喋っているように表現される。

また、操作者側端末１６では、操作者がマイク６２を通して音声を入力したときに、その操作者の首の動きを検出し、検出した首の動きについてのデータ（以下、「首の動きデータ」）を、音声データに付加して、利用者側端末１２に送信する。利用者側端末１２は、操作者側端末１６から受信した音声データに付加された首の動きデータに基づいてアバターの首の動きを制御する。

また、この第１実施例では、アバターの画像１３０は、操作者の感情に応じて顔の表情が変化される。一例として、感情は、喜び、恐れ、悲しみ、嫌悪および怒りの５つに分類される。感情毎に、その強さ（または、大きさ）が最小（０％）から最大（１００％）まで複数の段階（たとえば、２０段階）で設定可能である。顔の表情は、各感情および各感情の強さについて、眉毛（位置、形状）、眉間のしわ（寄り具合）、眼（黒目の大きさ、目尻の上げ下げ具合）、瞼（開き具合）、ほうれい線（寄り具合）、および口（位置、形状および開き具合）の各部位についてのパラメータで決定される。

図７は、感情毎に、その強さ（つまり、感情表現の度合）に応じて、顔の表情を変化させたアバターの画像１３０の例を示す。図７では、複数のアバターの画像１３０のうち、中心に表示されるアバターの画像１３０では、感情の無いニュートラルな状態の表情が表現されている。ここで、感情の無いニュートラルな状態の表情とは、いわゆる無表情のことを意味する。

ニュートラルな状態のアバターでは、しわが無く、顔が左右対称に設定される。このようにデザインすることで、性別が判断し難くなり、男性または女性に偏った好みを持つ利用者にも受け入れられるアバターになる。また、しわが無く、左右対称に設定された特徴の無い顔にすることで、少しのしわを作るだけで、笑顔またはしかめ面のような表情を簡単に表現することができ、その表情の強さも簡単に制御することができる。

図７に示すように、各感情を表現するアバターの画像１３０は、ニュートラルな状態から次第に変化される。図７に示す例では、中心（すなわち、ニュートラルな状態）から遠ざかるに従って感情表現の度合が大きくされ、中心に近づくに従って感情表現の度合が小さくされる。図７では、各感情について、感情表現の度合が中くらい（普通）である場合と、感情表現の度合が最大である場合についてのアバターの画像１３０を示してある。ただし、上記のニュートラルな状態のアバターの画像１３０が、各感情についての感情表現の度合が最低である場合のアバターの画像１３０である。また、図示は省略するが、上述したように、各感情の強さは複数の段階に設定されているため、各段階の表情を有するアバターの画像１３０を表示することが可能である。

この第１実施例では、利用者は、表示するアバターの画像１３０について、感情表現（以下、説明の都合上、「全体的な感情表現」という）の度合（または、大きさ）を設定することができ、各感情についての感情表現（以下、説明の都合上、「個別の感情表現」という）の度合の範囲（すなわち、感情表現の可能な範囲）を設定することができる。全体的な感情表現の度合と各感情についての個別の感情表現の度合の範囲に基づいて、トーク画面１６０に表示されるアバターの画像１３０の感情表現（すなわち、表情）が決まる。

図８は表示装置３０に表示される感情表現の設定画面１８０の一例を示す。図４に示した選択画面１１０において、ボタン１２０がオンされ、設定項目として、感情表現の度合についての設定が選択されると、選択画面１１０に代えて、設定画面１８０がウェブ画面１００の前面に表示される。ただし、図８では、ウェブ画面１００を省略してある。

図８に示すように、設定画面１８０には、画面の上部に、表示枠１８２が設けられ、表示枠１８２内にアバターの画像１３０が表示される。また、表示枠１８２の下方に、複数のスライダーバー１８４が横に並んで設けられ、さらに、複数のスライダーバー１８４の下方に、ボタン１８６が設けられる。

複数のスライダーバー１８４は、スライダーバー１８４ａ、１８４ｂ、１８４ｃ、１８４ｄ、１８４ｅおよび１８４ｆを含む。スライダーバー１８４ａは、全体的な感情表現の度合を設定（または、調整）するためのスライダーバーである。スライダーバー１８４ｂ－１８４ｆは、各感情について個別の感情表現の度合を設定（または、調整）するためのスライダーバーである。具体的には、スライダーバー１８４ｂは、喜びの感情表現の度合の範囲を設定するためのスライダーバーである。スライダーバー１８４ｃは、恐れの感情表現の度合の範囲を設定するためのスライダーバーである。スライダーバー１８４ｄは、悲しみの感情表現の度合の範囲を設定するためのスライダーバーである。スライダーバー１８４ｅは、嫌悪の感情表現の範囲を調整するためのスライダーバーである。そして、スライダーバー１８４ｆは、怒りの感情表現の範囲を調整するためのスライダーバーである。

各スライダーバー１８４ａ－１８４ｆは、スライダーを、最小値から最大値までの間で複数の段階（この第１実施例では、２０段階）で設定可能である。したがって、利用者は、スライダーバー１８４ｂ、１８４ｃ、１８４ｄ、１８４ｅおよび１８４ｆの各スライダーの位置（以下、「設定値」ということがある）を設定することで、喜び、恐れ、悲しみ、嫌悪および怒りのそれぞれの感情についての感情表現の度合の範囲の上限値を個別に決定することができる。つまり、利用者は、自身の好みに応じて、喜び、恐れ、悲しみ、嫌悪および怒りについての感情表現の度合の上限値を設定することができる。このため、第１実施例では、アバターの個別の感情についての感情表現は、スライダーバー１８４ｂ－１８４ｆのそれぞれで設定された感情表現の範囲内において、複数の段階で設定可能である。

たとえば、各感情についての表情の強さを異なる範囲に設定したり、一部を同じ範囲に設定したり、すべての範囲を同じに設定したりすることができる。

ただし、この第１実施例では、スライダーバー１８４ｂ－１８４ｆにおけるスライダーの位置に応じて、各感情を表現するためのアバターの画像１３０についての各部位のパラメータの値が予め設定されている。したがって、スライダーの位置で、対応する感情についてのアバターの表情が決定される。

スライダーバー１８４ｂ－１８４ｆのスライダーを最小値から最大値に向けて移動させると、アバターの画像１３０の表情は、感情の強さが最小である状態（すなわち、ニュートラルな状態）から次第に感情の強さが大きくなるように変化される。逆に、スライダーバー１８４ｂ－１８４ｆのスライダーを最大値から最小値に向けて移動させると、アバターの画像１３０の表情は、感情の強ささが最大である状態から次第にニュートラルな状態になるように変化される。

図示は省略するが、利用者が、スライダーバー１８４ｂ、１８４ｃ、１８４ｄ、１８４ｅまたは１８４ｆのスライダーを移動させると、移動させたスライダーによって設定される各部位のパラメータの値に応じて、表示枠１８２に表示されたアバターの画像１３０が変化される。したがって、利用者は、アバターの画像１３０を見ながら、各感情についての表情の強さの範囲（上限）を設定することができる。

スライダーバー１８４ａで設定された感情表現の度合で、各感情について感情表現の度合が決定される。各感情の強さは、ニュートラルの状態（最小値）から、スライダーバー１８４ｂ－１８４ｆの各々で決定された各感情の強さの最大値までの間で決定することができる。

たとえば、スライダーバー１８４ａのスライダーが最大値（１００％）に設定されている場合には、各感情の強さは、スライダーバー１８４ｂ－１８４ｆの各々で決定された各感情の強さの範囲のうちの上限値（１００％）に設定される。また、スライダーバー１８４ａのスライダーが真ん中の位置（５０％）に設定されている場合には、各感情の強さは、スライダーバー１８４ｂ－１８４ｆの各々で決定された各感情の強さの範囲のうちの真ん中の値（すなわち、上限値の５０％）の値に決定される。

なお、スライダーバー１８４ａのスライダーで決定される割合に応じて決定された感情の強さの割合に対応するパラメータが設定されていない場合には、その感情の強さの割合に近い割合に応じた感情の強さについてのパラメータが使用される。この第１実施例では、感情の強さの割合に近い割合のうち、大きい方の割合に応じた感情の強さについてのパラメータが使用される。具体的には、各スライダーバー１８４ｂ－１８４ｆは、２０段階で設定可能であるため、５％刻みでスライダーを設定することができ、したがって、決定された感情の強さの割合が５％刻みの割合でない場合には、５％刻みの数値のうち、決定された感情の強さの割合に近い割合のうち、大きい方の割合に応じた感情の強さについてのパラメータが使用される。一例として、決定された感情の強さの割合が１２．５％である場合には、１５パーセントの感情の強さについてのパラメータが使用される。

ボタン１８６は、感情表現の設定を終了するためのボタンである。ボタン１８６がオンされると、スライダーバー１８４ａ－１８４ｆの各々のスライダーの位置が記憶（更新）され、設定画面１８０が閉じられ、選択画面１１０が表示される。

なお、第１実施例では、スライダーバー１８４ａ－１８４ｆを用いて、全体的な感情表現の度合および個別の感情の強さの範囲を設定するようにしてあるが、数値を０－１００％間で入力するようにしてもよい。

したがって、トークにおいては、トーク画面１６０に表示されるアバターの画像１３０は、利用者が設定した感情の強さに応じた表情を表現するように生成される。ただし、いずれの感情を表現するかは、第１の所定の方法で選択される。この第１実施例では、アバターの画像１３０で表現する感情は、操作者の感情である。

第１の所定の方法の一例としては、応答内容の音声データに含まれる単語、すなわち、操作者が発話した音声に含まれる単語がいずれかの感情を表すまたはいずれかの感情に関連する場合に、当該感情をアバターの画像１３０で表現する感情として選択する。ただし、応答内容の音声データは、テキストに変換され、応答内容の音声データに含まれる単語がいずれかの感情を表すまたはいずれかの感情に関連するかどうかが判断される。一方、応答内容の音声データに含まれる単語がいずれの感情も表さないまたはいずれの感情にも関連しない場合には、ランダムに感情を選択する。ただし、これは一例であり、ランダムに感情を選択することに代えて、予め設定しておいた感情を選択するようにしてもよい。

この第１実施例では、感情を示すまたは感情に関連する複数の単語が予め想定されており、想定された単語（キーワード）が各感情に対応して記載された辞書のデータ（以下、「感情辞書データ」という）が利用者側端末１２に記憶されている。ただし、感情辞書データを、クラウド上のサーバに記憶して、利用者側端末１２がそのサーバにアクセスして感情辞書データを参照するようにしてもよい。

図９は感情辞書の一例を示す図である。図９に示すように、感情辞書は、感情の種類に対応して、想定されたキーワード（想定キーワード）を記述した辞書である。第１実施例では、感情の種類は、「喜び」、「恐れ」、「悲しみ」、「嫌悪」および「怒り」である。また、上述したように、想定キーワードは、感情を示すまたは感情に関連することが想定された複数の単語である。図９に示す例では、感情の種類の「喜び」に対応して、「喜び」、「楽しい」、「うれしい」などの想定キーワードが記載される。説明は省略するが、他の感情の種類についても同様である。

この感情辞書データを参照することにより、応答内容の音声データに含まれる単語がいずれかの感情を表すまたはいずれかの感情に関連するかどうかが判断され、応答内容の音声データに含まれる単語がいずれかの感情を表すまたはいずれかの感情に関連する場合に、当該単語が属する感情が操作者の感情として推定され、推定された感情がアバターの画像１３０で表現する感情として選択される。

ただし、操作者の音声に含まれる単語がいずれの感情の種類にも属さない場合には、たとえば、ランダムに感情が選択される。ただし、これは一例であり、他の例では、無表情（ニュートラルな状態）が選択されるようにしてもよい。

また、他の例では、操作者の感情を顔画像または音声に基づいて推定し、推定した感情をアバターの画像１３０で表現する感情として選択する。操作者の感情は、トーク中における操作者の顔画像または音声に基づいて推定することができる。顔画像または音声を用いて、操作者のような人間の感情を推定する方法はすでに公知であるため、その方法の説明については省略する。ただし、操作者の顔画像から操作者の感情を推定する場合には、操作者側端末１６に操作者の顔画像を撮影可能なカメラを設ける必要がある。また、操作者の感情に代えて、利用者の感情を推定し、利用者の感情をアバターでの画像１０３で表現する感情として選択するようにしてもよい。

なお、上述したように、顔画像から人間の感情を推定する手法としては、公知の技術を用いることができる。たとえば、「小林宏、原文雄：ニューラルネットワークによる人の基本表情認識、計測自動制御学会論文集 Vol.29, No.1, 112/118(1993)」、「小谷中陽介、本間経康、酒井正夫、阿部健一：ニューラルネットワークを用いた顔表情認識、東北大医保健学科紀要 13(1):23～32, 2004」および「西銘大喜、遠藤聡志、當間愛晃、山田孝治、赤嶺有平：畳み込みニューラルネットワークを用いた表情表現の獲得と顔特徴量の分析、人工知能学会論文誌３２巻５号ＦＺ（２０１７年）」などに開示された技術を用いることができる。

また、他の公知の技術では、顔画像から抽出した特徴点に基づいて人間の感情を推定する手法としては、特開２０２０－１６３６６０号公報に開示された技術を用いることもできる。

また、上述したように、音声から人間の感情を推定する手法としては、公知の技術を用いることができる。たとえば、特開２０２１－１２２８５号および「森大毅：音声から感情・態度の理解、電子情報通信学会誌 Vol. 101, No. 9, 2018」などに開示された技術を用いることができる。

ただし、顔画像また音声に基づいて感情を推定する手法として公知の技術を用いる場合には、そのために必要な回路コンポーネントおよびデータが適宜操作者側端末１６または利用者側端末１２に設けられる。ただし、顔画像また音声に基づいて感情を推定する装置（以下、「推定装置」という）をクラウド上に設けて、推定装置に顔画像または音声を送信し、感情の推定結果を推定装置から受け取るようにしてもよい。

図１０は利用者側端末１２に内蔵される記憶部（ここでは、ＲＡＭ）２２のメモリマップ３００の一例を示す。ＲＡＭは、ＣＰＵ２０のワーク領域およびバッファ領域として使用される。図１０に示すように、記憶部２２は、プログラム記憶領域３０２およびデータ記憶領域３０４を含む。プログラム記憶領域３０２には、この実施例の制御プログラムが記憶されている。

制御プログラムは、起動判断プログラム３０２ａ、メイン処理プログラム３０２ｂ、操作検出プログラム３０２ｃ、通信プログラム３０２ｄ、画像生成プログラム３０２ｅ、画像出力プログラム３０２ｆ、アバター制御プログラム３０２ｇ、感情表現設定プログラム３０２ｈ、感情選択プログラム３０２ｉ、音検出プログラム３０２ｊおよび音出力プログラム３０２ｋなどを含む。上述した第１実施例のアプリは、メイン処理プログラム３０２ｂ、操作検出プログラム３０２ｃ、通信プログラム３０２ｄ、画像生成プログラム３０２ｅ、画像出力プログラム３０２ｆ、アバター制御プログラム３０２ｇ、感情表現設定プログラム３０２ｈ、感情選択プログラム３０２ｉ、音検出プログラム３０２ｊおよび音出力プログラム３０２ｋを含む。

ただし、アプリは、利用者側端末１２が端末本体の機能として備える、操作検出プログラム、通信プログラム、画像生成プログラム、画像出力プログラムおよび音出力プログラムを利用することもできる。

起動判断プログラム３０２ａは、この第１実施例のアプリを起動するかどうかを判断するためのプログラムである。メイン処理プログラム３０２ｂは、この第１実施例のアプリのメインルーチンの処理（全体的な処理）を実行するためのプログラムである。

操作検出プログラム３０２ｃは、利用者の操作に従って入力装置２８から入力される操作データ３０４ａを検出し、データ記憶領域３０４に記憶するためのプログラムである。

通信プログラム３０２ｄは、外部の機器、この実施例では、所定のサービスを提供するサイトを運営するためのサーバおよび操作者側端末１６と有線または無線で通信（データの送信および受信）するためのプログラムである。

画像生成プログラム３０２ｅは、表示装置３０に表示するための各種の画面の全部または一部に対応する画像データを、画像生成データ３０４ｄを用いて生成するためのプログラムである。

画像出力プログラム３０２ｆは、画像生成プログラム３０２ｅに従って生成した画像データを表示装置３０に出力するためのプログラムである。

アバター制御プログラム３０２ｇは、アバターを動作させるためのプログラムである。この第１実施例では、ＣＰＵ２０は、アバター制御プログラム３０２ｇに従って、アバターに発話動作をさせたり、アバターに無意識動作をさせたり、アバターに挨拶の動作（挨拶の音声出力を含む）をさせたりする。

感情表現設定プログラム３０２ｈは、設定画面１８０における利用者の操作に応じて、全体的な感情表現の度合を設定するとともに、個別の感情表現の度合の範囲を設定するためのプログラムである。

感情選択プログラム３０２ｉは、トークにおいて、アバターの画像１３０で表現する感情を選択するためのプログラムである。

音検出プログラム３０２ｊは、マイク３２から入力される音声を検出するためのプログラムである。

音出力プログラム３０２ｋは、受信した操作者の音声データを出力するためのプログラムである。

図示は省略するが、プログラム記憶領域３０２には、利用者側端末１２のオペレーティングシステムなどのミドルウェア、ブラウザ機能を実行するためのプログラム、本願のアプリ以外の他のアプリケーション・プログラムも記憶される。

また、データ記憶領域３０４には、操作データ３０４ａ、送信データ３０４ｂ、受信データ３０４ｃ、画像生成データ３０４ｄ、表情パラメータデータ３０４ｅ、首の動きデータ３０４ｇおよびスライダー位置データ３０４ｈなどが記憶される。

操作データ３０４ａは、操作検出プログラム３０２ｃに従って検出された操作データである。送信データ３０４ｂは、操作者側端末１６に送信するデータであり、チャットにおける利用者の質問内容についてのテキストデータおよびトークにおける利用者の質問内容についての音声データである。受信データ３０４ｃは、操作者側端末１６から送信され、受信したデータであり、チャットにおける操作者の応答内容についてのテキストデータおよびトークにおける操作者の応答内容についての音声データである。

画像生成データ３０４ｄは、利用者側端末１２の表示装置に表示される各種の画面を生成するためのデータであり、アバターの画像１３０を生成するためのデータを含む。また、アバターの画像１３０を生成するためのデータは、アバターの画像１３０の静止した状態の画像データ、無意識動作および挨拶の動作についてのアニメーションデータを含む。表情パラメータデータ３０４ｅは、各感情について、感情表現を最小から最大まで複数の段階で変化させるための各部位のパラメータについてのデータである。

首の動きデータ３０４ｇは、操作者側端末１６から送信され、受信したデータ音声データに付加された操作者の首の動きについてのデータである。スライダー位置データ３０４ｈは、設定画面１８０で設定された各スライダーの位置（つまり、設定値）についてのデータであり、デフォルトでは、各スライダーの位置は真ん中に設定される。

図示は省略するが、データ記憶領域３０４には、制御処理を実行するために必要な他のデータが記憶されたり、タイマ（カウンタ）およびフラグが設けられたりする。

また、図示は省略するが、操作者側端末１６は利用者側端末１２との間でチャットまたはトークを行うため、操作者側端末１６の記憶部（ここでは、ＲＡＭ）５２には、利用者側端末１２の記憶部２２に記憶されるプログラムおよびデータと同様のプログラムおよびデータが記憶される。

具体的には、操作者側端末１６の記憶部５２のプログラム記憶領域には、メイン処理プログラム、操作検出プログラム、通信プログラム、画像生成プログラム、画像出力プログラム、音検出プログラム、首の動き検出プログラムおよび音出力プログラムなどが記憶される。

メイン処理プログラムは、チャットまたはトークでコミュニケーションを行う操作者側端末１６のアプリケーションのメインルーチンの処理（全体的な処理）を実行するためのプログラムである。

操作検出プログラムは、操作者の操作に従って入力装置５８から入力される操作データを検出し、記憶部５２のデータ記憶領域に記憶するためのプログラムである。

通信プログラムは、外部の機器、この第１実施例では、利用者側端末１２およびサーバ１８と有線または無線で通信するためのプログラムである。

画像生成プログラムは、表示装置６０に表示するための各種の画面に対応する画像データを、画像生成データを用いて生成するためのプログラムである。

画像出力プログラムは、画像生成プログラムに従って生成した画像データを表示装置６０に出力するためのプログラムである。

ただし、操作者側端末１６では、チャットまたはトークを選択したり、アバターの画像を表示したりする必要はない。このため、選択画面１１０のような画面は表示されず、チャット画面１４０およびトーク画面１６０のような画面では、利用者のアバターの画像は表示されない。ただし、利用者のアバターの画像が表示されるようにしてもよい。

音検出プログラムは、マイク６２から入力される操作者の音声を検出するためのプログラムである。

首の動き検出プログラムは、音量検出プログラムに従って音声を検出している場合に、慣性センサ６８から出力される角速度を検出し、検出した角速度に対応する首の動きデータを記憶部５２のデータ記憶部に記憶するためのプログラムである。

音出力プログラムは、受信した利用者の音声データを出力するためのプログラムである。

また、記憶部５２のデータ記憶領域には、送信データ、受信データ、画像生成データ、音声データおよび首の動きデータなどが記憶される。

操作データは、操作検出プログラムに従って検出された操作データである。送信データは、利用者側端末１２に送信するデータであり、チャットにおける操作者の応答内容についてのテキストデータおよびトークにおける操作者の応答内容についての音声データである。第１実施例では、音声データに音量データが付加される。受信データは、利用者側端末１２から送信され、受信したデータであり、チャットにおける利用者の質問内容についてのテキストデータおよびトークにおける利用者の質問内容についての音声データである。

画像生成データは、操作者側端末１６の表示装置６０に表示される各種の画面を生成するためのデータである。音声データは、音検出プログラムに従って検出された操作者の音声に対応するデータである。首の動きデータは、首の動き検出プログラムに従って検出された操作者の首の動きに対応するデータである。

なお、記憶部５２には、利用者とチャットまたはトークを実行するために必要な他のプログラムおよびデータも記憶される。

図１１－図１３は、利用者側端末１２のＣＰＵ２０の制御処理を示すフロー図である。図示は省略するが、ＣＰＵ２０は、制御処理と並行して、操作データの検出処理を実行するとともに、操作者側端末１６からのデータを受信する処理を実行する。

また、図示は省略するが、利用者側端末１２では、選択画面１１０においてボタン１２０がオンされ、感情表現の設定処理が選択された場合に、図８に示したような感情表現の設定画面１８０が表示装置３０に表示され、利用者の操作に応じて全体的な感情表現の度合および個別の感情表現の度合についての範囲が設定される処理が実行される。

図１１に示すように、利用者側端末１２のＣＰＵ２０は、制御処理を開始すると、ステップＳ１で、アプリの起動条件を満たすかどうかを判断する。上述したように、ＣＰＵ２０は、所定のサービスのウェブ画面（第１実施例では、ウェブ画面１００）を表示した状態において、利用者がアプリの起動（または、実行）を指示した場合、利用者の操作が第２所定時間（たとえば、３０秒）以上無い場合、当該ウェブ画面において同じ位置または似たような場所（近くの位置）を指示している場合、所定のサービスにおいて複数回（たとえば、３回）同じウェブ画面に戻ってくる場合に、アプリの起動条件を満たすと判断する。

ステップＳ１で“ＮＯ”であれば、つまり、アプリの起動条件を満たしていない場合には、ステップＳ１に戻る。一方、ステップＳ１で“ＹＥＳ”であれば、つまり、アプリの起動条件を満たしていれば、ステップＳ３で、アプリを起動する。なお、制御処理において、ステップＳ３以降がアプリのメインルーチンの処理である。

続くステップＳ５では、図４に示したような選択画面１１０をウェブ画面１００の前面に表示する。ステップＳ５では、ＣＰＵ２０は、選択画面１１０についての画像データを生成し、生成した画像データを表示装置３０に出力する。以下、画面を表示する場合について同様である。

上述したように、アプリを起動した当初では、すなわち、アプリを起動して最初に選択画面１１０を表示するときに、ＣＰＵ２０は、静止した状態のアバターの画像１３０を表示した後に、アニメーションデータを再生し、アバターに挨拶の動作を行わせる。

次のステップＳ７では、アバターの画像１３０に待機動作を実行させる。上述したように、ＣＰＵ２０は、無意識動作を行わせる。ただし、ＣＰＵ２０は、選択画面１１０において利用者の操作が無い場合において、数秒または数十秒毎にアバターに無意識動作を実行させる。

続いて、ステップＳ９で、ボタン操作が有るかどうかを判断する。ここでは、ＣＰＵ２０は、操作データ３０４ａを参照して、選択画面１１０のボタン１１４またはボタン１１６がオンされたかどうかを判断する。なお、図示は省略するが、ボタン１１８がオンされた場合には、選択画面１１０を閉じて（非表示して）、アプリを終了する。

ステップＳ９で“ＮＯ”であれば、つまり、ボタン操作が無ければ、ステップＳ７に戻る。一方、ステップＳ９で“ＹＥＳ”であれば、つまり、ボタン操作が有れば、ステップＳ１１で、チャットかどうかを判断する。ここでは、ＣＰＵ２０は、ボタン１１４のオンであるかを判断する。

ステップＳ１１で“ＮＯ”であれば、つまり、ボタン１１６のオンであれば、図１３に示すステップＳ３１に進む。一方、ステップＳ１１で“ＹＥＳ”であれば、つまり、ボタン１１４のオンであれば、図１２に示すステップＳ１３で、図５に示したようなチャット画面１４０をウェブ画面１００の前面に表示する。

なお、利用者側端末１２にハードウェアのキーボードが接続されていない場合には、ソフトウェアキーボードも表示される。また、チャット画面１４０が表示されるときに、選択画面１１０が非表示される。

次のステップＳ１５では、質問内容の入力かどうかを判断する。ここでは、ＣＰＵ２０は、質問内容（テキスト）のキー入力があるかどうかを判断する。ステップＳ１５で“ＹＥＳ”であれば、つまり、質問内容の入力であれば、ステップＳ１７で、入力した質問内容を表示枠１４６に表示して、ステップＳ１５に戻る。一方、ステップＳ１５で“ＮＯ”であれば、つまり、質問内容の入力でなければ、ステップＳ１９で、質問内容の送信かどうかを判断する。ここでは、ＣＰＵ２０は、質問内容が確定されたかどうかを判断する。

ステップＳ１９で“ＹＥＳ”であれば、つまり、質問内容の送信であれば、ステップＳ２１で、質問内容のテキストデータを操作者側端末１６に送信して、ステップＳ２３に進む。一方、ステップＳ１９で“ＮＯ”であれば、つまり、質問内容の送信でなければ、ステップＳ２３に進む。

ステップＳ２３では、応答内容のテキストデータを受信したかどうかを判断する。ステップＳ２３で“ＮＯ”であれば、つまり、応答内容のテキストデータを受信していなければ、ステップＳ２７に進む。一方、ステップＳ２３で“ＹＥＳ”であれば、つまり、応答内容のテキストデータを受信すれば、ステップＳ２５で、応答内容の表示に合せてアバターを発話させて、ステップＳ２７に進む。ステップＳ２５では、ＣＰＵ２０は、応答内容を表示枠１４４に一文字ずつテキストで表示し、その表示に合せてアバターが喋るように口唇部を変化させて発話動作を行うアバターの画像１３０を表示枠１４２に表示する。なお、応答内容をすべて表示枠１４４に表示すると、質問内容を入力可能とするために、表示枠１４６の文字列がすべて消去（つまり、非表示）される。

ステップＳ２７では、チャットの終了かどうかを判断する。ここでは、ＣＰＵ２０は、ボタン１４８がオンされたり、操作者側端末１６からチャットの終了が指示されたりしたかどうかを判断する。

ステップＳ２７で“ＮＯ”であれば、つまり、チャットの終了でなければ、ステップＳ１５に戻る。一方、ステップＳ２７で“ＹＥＳ”であれば、つまり、チャットの終了であれば、ステップＳ２９で、チャット画面１４０を閉じて、図１１に示したステップＳ５に戻る。

また、上述したように、ステップＳ１１で“ＮＯ”であれば、図１３に示すステップＳ３１で、図６に示したようなトーク画面１６０をウェブ画面１００の前面に表示する。なお、トーク画面１６０が表示されるときに、選択画面１１０が非表示される。

続くステップＳ３３では、音声の入力かどうかを判断する。ここでは、ＣＰＵ２０は、マイク３２で音声を検出したかどうかを判断する。ステップＳ３３で“ＮＯ”であれば、つまり、音声の入力でなければ、ステップＳ３７に進む。一方、ステップＳ３３で“ＹＥＳ”であれば、つまり、音声の入力であれば、ステップＳ３５で、入力された音声に対応する音声データ（すなわち、質問内容の音声データ）を操作者側端末１６に送信して、ステップＳ３７に進む。

ステップＳ３７では、応答内容の音声データを受信したかどうかを判断する。ステップＳ３７で“ＹＥＳ”であれば、つまり、応答内容の音声データを受信すれば、ステップＳ３９で、アバターを用いて表現する感情を選択する。ここでは、ＣＰＵ２０は、感情辞書データ３０４ｆを参照し、応答内容の音声データに含まれる単語が、感情毎に分類された想定キーワードに含まれるかどうかを判断する。また、ＣＰＵ２０は、応答内容の音声データに含まれる単語が感情毎に分類された想定キーワードに含まれている場合には、対応する感情を表現する感情として選択する。一方、ＣＰＵ２０は、応答内容の音声データに含まれる単語が感情毎に分類された想定キーワードに含まれていない場合には、表現する感情をランダムに選択する。

続くステップＳ４１では、応答内容の音声データを出力し、ステップＳ４３で、ステップＳ３９で選択した感情を全体的な感情表現の度合で表現するとともに、応答内容の音声データに合せて発話動作を行うアバターの画像１３０の画像データを生成し、出力して、ステップＳ３３に戻る。ステップＳ４３では、ＣＰＵ２０は、スライダー位置データ３０４ｈを参照して、選択した感情のスライダーバー（１８４ｂ－１８４ｆのいずれか）の設定値で設定される個別の感情表現の範囲において、感情表現のスライダーバー１８４ａの設定値が示す割合で決定される各部位のパラメータを表情パラメータデータ３０４ｅから取得し、取得した各部位のパラメータを用いるとともに、画像生成データ３０４ｄを用いてアバターの画像１３０を生成し、トーク画面１６０に表示する。このとき、ＣＰＵ２０は、首の動きデータ３０４ｇを参照して、操作者の首の動きをアバターの首の動きに反映（または、合成）する。

また、ステップＳ３７で“ＮＯ”であれば、つまり、応答内容の音声データを受信していなければ、ステップＳ４５で、トーク終了かどうかを判断する。ここでは、ＣＰＵ２０は、ボタン１６４がオンされたり、操作者側端末１６からトーク終了が指示されたりしたかどうかを判断する。

ステップＳ４５で“ＮＯ”であれば、つまり、トーク終了でなければ、ステップＳ３３に戻る。一方、ステップＳ４５で“ＹＥＳ”であれば、つまり、トーク終了であれば、ステップＳ４７で、トーク画面１６０を閉じて、ステップＳ５に戻る。

第１実施例によれば、利用者が設定した個別の感情表現の度合の範囲内において全体的な感情表現の度合で、選択した感情を表現するアバターの画像を表示するので、アバターの感情表現の度合を利用者に対して適切に設定することができる。つまり、利用者の好みに応じたアバターの画像を表示することができる。

なお、第１実施例では、操作者の首の動きをアバターの首の動きに反映するようにしたが、反映しなくてもよい。

また、第１実施例では、操作者の首の動きに応じてアバターの画像の首の動きを表現するようにしたが、これに限定される必要はない。予め感情に応じた首の動きを感情の強さ毎に設定しておき、感情の強さで決定される首の動きを表示するようにすることができる。ただし、首の動きは、感情毎の代表的な動きで決定される。たとえば、感情が「恐れ」である場合には、「ひるむ」動作を表現する首の動きに決定される。また、感情が「悲しみ」である場合には、「うなだれる」動作を表現する首の動きに決定される。さらに、感情が「嫌悪」である場合には、「のけぞる」動作を表現する首の動きに決定される。さらにまた、感情が「喜び」または「怒り」である場合には、「前に乗り出す」動作を表現する首の動きに決定される。

さらに、第１実施例では、アバターの画像は、人間を模したアバターの頭部および首の画像としたが、上半身または全身の画像とする場合には、顔の表情および首の動きのみならず、感情に応じた動作を表現する身振り手振りを行わせるようにアバターの動作を制御してもよい。感情に応じた動作は、上記のとおりであり、その動作の度合（または、大きさ）はスライダーバーの設定値で設定される。

さらにまた、第１実施例では、チャットでは、操作者との間でテキストをやり取りするようにしたが、音声でやり取りすることもできる。かかる場合には、チャットにおいても、トークの場合と同様に、操作者の発話内容を音声出力するときに、アバターの画像で操作者の感情を表現するようにしてもよい。ただし、第１実施例では、操作者の音声をテキストに変換して操作者の感情を推定するため、チャットにおいて、テキストでやり取りする場合にも、アバターの画像で操作者の感情を表現するようにしてもよい。

また、上記の第１実施例では、利用者側端末１２で操作者の感情を推定するようにしたが、これに限定される必要はない。操作者側端末１６で操作者の感情を推定し、推定結果を音声データに付加して利用者側端末１２に送信するようにしてもよい。この場合、操作者側端末１６では、ＣＰＵ５０は、操作者の音声を検出したときに、感情辞書データを用いて操作者の感情を推定し、音声データに推定結果のデータを付加して利用者側端末１２に送信する。一方、利用者側端末１２では、操作者の感情を推定する必要がないため、ステップＳ４５では、表現する感情の選択のみが実行される。
＜第２実施例＞
第２実施例は、少なくともトークにおいて、操作者側端末１６で、アバターの画像１３０に対応する画像データを生成し、生成した画像データを利用者側端末１２に送信し、利用者側端末１２は受信した画像データを用いてアバターの画像１３０をトーク画面１６０に表示するようにした以外は、第１実施例と同じであるため、重複した説明は省略する。

第２実施例では、トークにおいて、操作者側端末１６で、アバターの画像１３０に対応する画像データを生成するため、トークが開始されたときに、利用者側端末１２で設定されたスライダーバー１８４ａ－１８４ｆの各々の設定値、すなわち、スライダーの位置の情報（第１実施例で示したスライダー位置データ３０４ｈ）が操作者側端末１６に送信される。

また、トークにおいて、操作者が発話すると、操作者側端末１６は、操作者が発話した音声を記憶し、第１実施例で説明した第１の所定の方法で選択された感情を表現するアバターの画像１３０の画像データを生成する。ただし、表現される感情の強さは、第１実施例で説明したように、利用者側端末１２から送信されたスライダーの位置の情報に基づいて設定される。

なお、アバターの画像１３０の画像データを生成する方法は、第１実施例で説明した方法と同じである。

操作者側端末１６は、検出した音声の音声データと生成した画像データを利用者側端末１２に送信する。利用者側端末１２は、音声データおよび画像データを受信し、音声データの出力に合せて、画像データを用いてトーク画面１６０のアバターの画像１３０を表示する。つまり、利用者側端末１２では、スピーカ３４から操作者の音声が出力されるとともに、トーク画面１６０において、選択した感情を全体的な感情表現の度合で表示するとともに、操作者の応答内容の音声に合せて発話動作を行うアバターの画像１３０が表示される。

したがって、第２実施例では、操作者側端末１６の記憶部５２のプログラム記憶領域には、図１０に示したアバター制御プログラム３０２ｇ、感情表現設定プログラム３０２ｈおよび感情選択プログラム３０２ｉと同じプログラムがさらに記憶される。また、第２実施例では、利用者側端末１２において、感情選択プログラム３０２ｉ、感情辞書データ３０４ｆおよび首の動きデータ３０４ｇが削除される。

また、第２実施例の操作者側端末１６では、トークにおいて、利用者側端末１２から送信された音声データを受信して、出力したり、操作者の音声データおよび首の動きデータを検出して、音声データを利用者側端末１２に送信したりする処理に加えて、アバターの画像１３０の画像データを生成する処理（以下、「アバターの画像生成処理」という）が実行される。

具体的には、操作者側端末１６は、第１の所定の方法で、アバターで表現する感情を選択し、選択した感情を全体的な感情表現の度合で表示するとともに、応答内容の音声データに合せて発話動作を行うアバターの画像１３０の画像データを生成する。このとき、ＣＰＵ２０は、首の動きデータを参照して、操作者の首の動きをアバターの首の動きに反映（または、合成）する。したがって、第２実施例では、操作者側端末１６の記憶部５２のデータ記憶領域には、図１０に示した首の動きデータ３０４ｇおよびスライダー位置データ３０４ｈと同じデータがさらに記憶される。

以下、具体的な処理について説明する。図１４は、第２実施例における利用者側端末１２のＣＰＵ２０の制御処理の一部を示すフロー図である。図１５は、第２実施例における操作者側端末１６のＣＰＵ５０のアバターの画像生成処理を示すフロー図である。以下、ＣＰＵ２０の制御処理について説明するとともに、ＣＰＵ５０のアバターの画像生成処理について説明するが、既に説明した処理については説明を省略する。

図１４に示すように、ＣＰＵ２０は、ステップＳ３１で、トーク画面１６０を表示装置３０に表示し、ステップＳ７１で、スライダーバーの設定値、すなわち、スライダー位置データ３０４ｈを操作者側端末１６に送信して、ステップＳ３３に進む。

また、ステップＳ３３で“ＮＯ”である場合に、または、ステップＳ３５の処理を実行した場合に、ステップＳ７３で、応答内容の音声データおよび画像データを受信したかどうかを判断する。

ステップＳ７３で“ＹＥＳ”であれば、つまり、応答内容の音声データおよび画像データを受信した場合には、ステップＳ７５で、応答内容の音声データの出力に合せて画像データを出力する。したがって、操作者の応答内容の音声が利用者側端末１２で出力されるとともに、出力される音声に合せて、推定された操作者の感情を設定された大きさで表現するアバターが発話動作を行う画像が表示される。

一方、ステップＳ７３で“ＮＯ”であれば、つまり、応答内容の音声データおよび画像データを受信していない場合には、ステップＳ４５に進む。

次に、図１５を参照して、操作者側端末１６のＣＰＵ５０のアバターの画像生成処理について説明するが、既に説明した処理内容についての説明は省略する。

図１５に示すように、ＣＰＵ５０は、アバターの画像生成処理を開始すると、ステップＳ９１で、アバターの画像１３０で表現する感情を選択し、ステップＳ９３で、ステップＳ９１で選択した感情を全体的な感情表現の度合で表示するとともに、応答内容の音声データに合せて発話動作を行うアバターの画像１３０の画像データを生成して、アバターの画像生成処理を終了する。ただし、ステップＳ９３では、ＣＰＵ２０は、首の動きデータを参照して、操作者の首の動きをアバターの首の動きに反映（または、合成）する。

このように生成された画像データが、応答内容の音声データとともに、利用者側端末１２に送信される。

第２実施例においても、第１実施例と同様に、利用者が設定した個別の感情表現の度合の範囲内において全体的な感情表現の度合で、選択した感情を表現するアバターの画像を表示するので、アバターの感情表現の度合を利用者に対して適切に設定することができる。つまり、利用者の好みに応じたアバターの画像を表示することができる。

＜第３実施例＞
第３実施例では、利用者の感情を推定し、推定した利用者の感情をアバターで表現するようにした以外は、第１実施例と同じであるため、重複した説明は省略する。

第３実施例では、トークにおいて、利用者側端末１２は、操作者の応答内容の音声データを受信すると、利用者の感情およびその強さを第２の所定の方法で推定し、推定した感情を表現するアバターの画像１３０の画像データを生成して、表示装置３０に出力する。ただし、利用者側端末１２は、操作者の応答内容の音声データを受信したときに、カメラ３８で撮影した利用者の顔画像に基づいて、利用者の感情およびその強さを推定する。

顔画像に基づいて感情を推定する方法としては、第１実施例で示した公知の技術を採用することができる。また、感情の強さの推定については、各感情について強さの異なる複数の表情をニューラルネットワークに学習させておくことにより、感情の種類のみならず、感情の強さも推定することができる。また、感情を推定したときのニューラルネットワークの出力の差に基づいて、感情の強さを推定することもできる。たとえば、無表情（ニュートラルな状態）の顔画像についての出力と、推定された感情についての出力の差に基づいて感情の強さが推定される。

また、特開２０２０－１６３６６０号公報の方法を用いる場合には、顔画像から抽出された特徴点の差（距離）に基づいて、感情の強さを推定することもできる。たとえば、無表情（ニュートラルな状態）の顔画像から抽出された各特徴点に対する、感情の推定に使用した利用者の顔画像から抽出された各特徴点についての距離を算出し、算出した距離に基づいて感情の強さが推定される。距離は、各特徴点について算出されるため、感情の強さは、たとえば、算出された複数の距離についての平均値、最大値または分散に基づいて推定される。

第３実施例では、利用者の感情の強さを用いて、全体的な感情表現の度合が設定される。具体的には、スライダーバー１８４ａの設定値に代えて、利用者の感情の強さが用いられる。このため、第３実施例では、スライダーバー１８４ａは設けなくてもよい。この第３実施例では、利用者の感情の強さが０－１００％の間で推定され、推定された感情の強さが全体的な感情表現の度合として設定（または、推定）される。

したがって、第３実施例では第１実施例で示した感情表現設定プログラム３０２ｈの一部が変更される。つまり、第３実施例では、感情表現設定プログラム３０２ｈは、利用者の顔画像から推定した利用者の感情の強さに基づいて全体的な感情表現の度合を設定するとともに、設定画面１８０における利用者の操作に応じて、個別の感情表現の度合の範囲を設定するためのプログラムである。

また、第３実施例では、利用者側端末１２の記憶部（ＲＡＭ）２２に、利用者の顔画像から、利用者の感情およびその強さを推定するためのプログラムもさらに記憶される。

また、第３実施例では、第１実施例で示した制御処理の一部の処理が変更される。図１６は第３実施例の利用者側端末１２のＣＰＵ２０の制御処理の一部を示すフロー図である。

以下、第３実施例の利用者側端末１２のＣＰＵ２０の制御処理の一部について説明するが、既に説明した処理については説明を省略する。

図１６に示すように、ＣＰＵ２０は、ステップＳ３７で“ＹＥＳ”であれば、ステップＳ１２１で、カメラ３８で撮影された利用者の顔画像に基づいて利用者の感情およびその強さを推定する。

次のステップＳ３９ａでは、ステップＳ１２１で推定した利用者の感情を、アバターの画像１３０で表現する感情として選択し、ステップＳ４１で、応答内容の音声データを出力する。

そして、ステップＳ４３ａで、ステップＳ３９ａで選択した感情を全体的な感情表現の度合で表現するとともに、応答内容の音声データに合せて発話動作を行うアバターの画像１３０の画像データを生成し、出力して、ステップＳ３３に戻る。ステップＳ４３ａでは、ＣＰＵ２０は、スライダー位置データ３０４ｈを参照して、選択した感情のスライダーバー（１８４ｂ－１８４ｆのいずれか）の設定値で設定される個別の感情表現の範囲において、推定した利用者の感情の度合で決定される全体的な感情の度合で表現したアバターの画像１３０を、応答内容の音声データに合せて発話動作させる画像データを生成し、トーク画面１６０に表示する。このとき、ＣＰＵ２０は、首の動きデータ３０４ｇを参照して、操作者の首の動きをアバターの首の動きに反映（または、合成）する。

ステップＳ４５以降の処理については、第１実施例と同じであるため、説明を省略する。

第３実施例によれば、利用者の顔画像から推定した利用者の感情およびその強さで、アバターの画像を表示するので、利用者の感情に応じたアバターの画像を表示することができる。つまり、アバターの感情表現の度合を利用者に対して適切に設定することができる。

＜第４実施例＞
第４実施例では、利用者の感情を推定し、利用者の選択により、推定した利用者の感情に基づいて設定される感情を表現するアバターの画像１３０を表示するようにした以外は、第３実施例と同じであるため、重複した説明は省略する。

第４実施例では、推定した利用者の感情に基づいて、利用者に同情するまたは利用者を励ますように表現するアバターの画像１３０が表示される。利用者に同情する場合には、利用者の感情と同じ感情が表現され、利用者を励ます場合には、基本的には、利用者の感情と反対の感情が表現される。

第４実施例では、利用者は、利用者の感情に同情するまたは励ますようにアバターに表現させることを、モード設定画面２００において選択（または、設定）することができる。図１７はモード設定画面２００の一例を示す。モード設定画面２００は、選択画面１１０において、ボタン１２０をオンし、設定項目を選択するメニュー画面からアバターの表示方法に関する項目が選択されることにより、選択画面１１０に代えて、表示装置３０に表示される。

図１７に示すように、モード設定画面２００には、画面の上部に、表示枠２０２が設けられ、表示枠２０２内にアバターの画像１３０が表示される。また、表示枠２０２の下方に、ボタン２０４、ボタン２０６およびボタン２０８が縦に並んで設けられる。

ボタン２０４は、利用者に同情するようにアバターを表現させる表示方法（以下、「同情モード」という）を選択するためのボタンである。ボタン２０６は、利用者を励ますようにアバターを表現させる表示方法（以下、「励ましモード」という）を選択するためのボタンである。ボタン２０８は、アバターの表示方法の設定を終了するためのボタンである。ボタン２０８がオンされると、選択された同情モードまたは励ましモードが記憶（更新）され、モード設定画面２００が閉じられ、選択画面１１０が表示される。

ただし、ボタン２０６またはボタン２０８がオンされた状態で、再度オンされると、ボタン２０６またはボタン２０８がオフされた状態となる。つまり、選択された表示モードが解除される。

また、表示モードが同情モードおよび励ましモードのいずれにも設定されていない場合には、第３実施例と同様に、推定した利用者の感情およびその強さで表現したアバターの画像１３０が表示される（説明の便宜上、「通常モード」と呼ぶことにする）。

第４実施例では、トークにおいて、利用者側端末１２は、操作者の応答内容の音声データを受信すると、利用者の感情およびその強さを第２の所定の方法で推定する。アバターの画像１３０を生成するのに先立って、表示モードが判断される。つまり、表示モードとして、同情モードが設定されているか、励ましモードが設定されているかを判断する。

表示モードが同情モードである場合には、アバターの画像１３０で表現する感情として、利用者の感情に近づけるように感情が選択される。一例として、第４実施例では、利用者の感情と同じ感情が選択され、その強さが利用者の感情の強さよりも小さく設定され、次第に利用者の感情の強さに一致させるように変化される。たとえば、アバターの画像１３０で表現する感情の強さ、すなわち、全体的な感情表現の度合が、利用者の感情の強さよりも３０％小さい値（ただし、最大値は超えない）に設定され、利用者の感情が変化されない限り、第３所定時間（数フレーム－数十フレーム）毎に、アバターの画像１３０で表現する感情の強さ（すなわち、全体的な感情表現の度合）が５％ずつ大きくされる。ただし、フレームは、画面を更新する単位時間であり、１／３０秒または１／６０秒である。以下、同様である。

表示モードが励ましモードである場合には、アバターの画像１３０で表現する感情として、利用者を励ますような感情が選択される。一例として、第４実施例では、利用者のネガティブな感情に対して、ポジティブな感情が選択される。つまり、利用者の感情が、「恐れ」、「悲しみ」、「嫌悪」または「怒り」である場合に、アバターの画像１３０で表現する感情として、利用者の感情と反対の感情である「喜び」が選択される。また、アバターの画像１３０で表現する感情の強さが利用者の感情の強さよりも小さく設定され、次第に利用者の感情の強さに一致させるように変化される。

ただし、利用者の感情が「喜び」である場合には、アバターの画像１３０で表現する感情として利用者の感情と同じ「喜び」の感情が選択される。この場合、アバターの画像１３０は、操作者の音声の出力が開始された当初においては、アバターの画像１３０で表現される感情の強さが利用者の感情の強さと同じに設定され、感情の強さが次第に大きくされる。たとえば、アバターの画像１３０で表現する感情の強さが、利用者の感情の強さと同じ値に設定され、利用者の感情が変化されない限り、第３所定時間（数フレーム－数十フレーム）毎に、アバターの画像１３０で表現する感情の強さ（すなわち、全体的な感情表現の度合）が５％ずつ大きくされる。ただし、全体的な感情表現の度合は、最大値（１００％）を超えて大きくされることはない。

そして、利用者側端末１２は、選択した感情を推定または推定または設定した強さで表現したアバターの画像１３０を生成および表示する。第４実施例では、表示モードとして通常モードが設定されている場合には、第３実施例で説明したように、アバターの画像１３０が表示される。また、表示モードとして同情モードまたは励ましモードが設定されている場合には、アバターの画像１３０で表現される感情は、利用者の感情（「第１の感情」に相当する）に基づいて設定した感情（「第２の感情」に相当する）である。なお、アバターの画像１３０を生成する方法は、第１実施例で示した方法と同じである。

したがって、第４実施例では、利用者側端末１２の記憶部（ＲＡＭ）２２に、利用者の操作に従って表示モードを同情モードまたは励ましモードに設定するためのプログラムがさらに記憶される。

また、第４実施例では、利用者側端末１２の記憶部（ＲＡＭ）２２に、設定された表示モードの識別情報のデータがさらに記憶される。ただし、デフォルトでは、識別情報のデータは、通常モードを示し、利用者の設定に応じて、同情モードまたは励ましモードを示す。

また、第４実施例では、第３実施例で示した制御処理の一部の処理が変更される。図１８は第４実施例の利用者側端末１２のＣＰＵ２０の制御処理の一部を示すフロー図である。

以下、第４実施例の利用者側端末１２のＣＰＵ２０の制御処理の一部について説明するが、既に説明した処理については説明を省略する。ただし、利用者側端末１２では、制御処理が実行される前に、表示モードの設定が選択された場合には、図１７に示したようなモード設定画面２００が表示装置３０に表示され、利用者の操作に応じて表示モードが設定（変更）または解除される処理が実行される。

図１８に示すように、ＣＰＵ２０は、ステップＳ３７で“ＹＥＳ”であれば、ステップＳ１２１で、カメラ３８で撮影された利用者の顔画像に基づいて利用者の感情およびその大きさを推定する。

次のステップＳ１４１では、前回推定した感情と同じであるかどうかを判断する。ステップＳ１４１で“ＹＥＳ”であれば、つまり、前回推定した感情と同じであれば、ステップＳ１４３で、全体的な感情の度合を、推定した感情の度合に所定量（たとえば、５％）近づけて、ステップＳ４１に進む。ただし、ステップＳ１４３の処理は、第３所定時間（数フレーム－数十フレーム）毎に実行される。したがって、前回ステップＳ１４３の処理を実行してから第３所定時間を経過していない場合には、ステップＳ１４３の処理はスキップされる。

一方、ステップＳ１４１で“ＮＯ”であれば、つまり、前回推定した感情と異なる場合には、ステップＳ１４５に進む。ただし、トークを開始して、最初にステップＳ１２１の処理が実行された場合には、前回推定した感情は存在しないため、ステップＳ１４１では、“ＮＯ”と判断される。

ステップＳ１４５では、表示モードが同情モードであるかどうかを判断する。ステップＳ１４５で“ＹＥＳ”であれば、つまり、表示モードが同情モードである場合には、ステップＳ１４７で、利用者の感情に近づけるように感情を選択して、ステップＳ４１に進む。ただし、ステップＳ１４７では、全体的な感情表現の度合は、利用者の感情の強さよりも、所定の割合（たとえば、３０％）小さく設定される。

一方、ステップＳ１４５で“ＮＯ”であれば、つまり、表示モードが同情モードでない場合には、ステップＳ１４９で、表示モードが励ましモードであるかどうかを判断する。

ステップＳ１４９で“ＹＥＳ”であれば、つまり、表示モードが励ましモードである場合には、ステップＳ１５１で、利用者を励ますような感情を選択して、ステップＳ４１に進む。ただし、ステップＳ１５１では、利用者の感情が「恐れ」、「悲しみ」、「嫌悪」または「怒り」である場合には、全体的な感情表現の度合は、利用者の感情の強さよりも、所定の割合（たとえば、３０％）小さく設定される。また、ステップＳ１４７では、利用者の感情が「喜び」である場合には、全体的な感情表現の度合は、利用者の感情の強さと同じ割合に設定される。

一方、ステップＳ１４９で“ＮＯ”であれば、つまり、表示モードが通常モードである場合には、ステップＳ３９ａで選択した利用者の感情を、アバターの画像１３０で表現する感情として選択し、ステップＳ４１に進む。

ステップＳ４１では、応答内容の音声データの出力を開始し、次のステップＳ４３ｂでは、ステップＳ３９ａで推定した感情を全体的な感情表現の度合で表現するとともに、応答内容の音声データに合せて発話動作を行うアバターの画像１３０の画像データを生成し、出力して、ステップＳ３３に戻る。

つまり、表示モードとして、同情モードおよび励ましモードが選択されていない場合には、ステップＳ４３ｂでは、ステップＳ３９ａで選択した感情およびステップＳ１２１において推定した度合で表現したアバターの画像１３０が表示される。また、表示モードとして、同情モードまたは励ましモードが選択されている場合には、ステップＳ４３ｂでは、ステップＳ１４７またはＳ１５１で選択した感情および設定された度合（全体的な感情表現の度合）で表現したアバターの画像１３０が表示される。ただし、上述したように、全体的な感情表現の度合は、推定された感情が変化されない場合には、推定した感情の度合に所定量ずつ近づけられる。つまり、利用者に同情するように、または、利用者を励ますように、アバターの感情表現が変化（または、調整）される。

第４実施例によれば、利用者の顔画像から推定した利用者に同情するように、または、利用者を励ますように、アバターの感情表現を変化させるので、利用者の感情に応じたアバターの画像を表示することができる。つまり、アバターの感情表現の度合を利用者に対して適切に設定することができる。

なお、第４実施例では、表示モードとして、同情モードまたは励ましモードを設定可能な場合について説明したが、これは単なる例示であり、限定される必要はない。設定可能な表示モードの種類および表示モードにおける感情の選択方法は任意に設定することができる。

＜第５実施例＞
第５実施例は、少なくともトークにおいて、操作者側端末１６で、アバターの画像１３０に対応する画像データを生成し、生成した画像データを利用者側端末１２に送信し、利用者側端末１２は受信した画像データを用いてアバターの画像１３０をトーク画面１６０に表示するようにした以外は、第４実施例と同じであるため、重複した説明は省略する。ただし、第５実施例では、操作者側端末１６で画像データが生成されるため、操作者側端末１６に記憶されるプログラムおよびデータについては、第２実施例で説明した内容とほぼ同じである。

第５実施例では、トークにおいて、操作者側端末１６で、アバターの画像１３０に対応する画像データを生成するため、トークが開始されたときに、利用者側端末１２で設定されたスライダーバー１８４ｂ－１８４ｆの各々の設定値、すなわち、スライダーの位置の情報が操作者側端末１６に送信される。

また、トークにおいて、操作者側端末１６で、アバターの画像１３０に対応する画像データを生成するため、利用者が発話したとき、利用者側端末１２で、利用者の感情およびその強さを推定し、推定した利用者の感情およびその強さを操作者側端末１６に送信する。

また、トークにおいて、操作者が発話すると、操作者側端末１６は、操作者が発話した音声を記憶し、利用者側端末１２から受信した利用者の感情およびその強さに基づいてアバターの画像１３０の画像データを生成する。ただし、第４実施例で説明したように、アバターの画像１３０を生成するのに先立って、表示モードとして、同情モードが設定されているか、励ましモードが設定されているかを判断する。具体的なアバターの画像１３０の画像データの生成方法は、第４実施例に示した方法と同じであるため、重複した説明は省略する。

操作者側端末１６は、記憶した音声の音声データと生成した画像データを利用者側端末１２に送信する。利用者側端末１２は、音声データおよび画像データを受信し、画像データを用いてトーク画面１６０のアバターの画像１３０を表示し、音声データの出力に合せて、トーク画面１６０において、アバターが発話するように表示させる。

したがって、第５実施例では、操作者側端末１６で画像データが生成されるため、第２実施例で説明した操作者側端末１６の記憶部５２に記憶されるプログラムおよびデータにおいて、表示モードの識別情報のデータがさらに記憶される。

第５実施例では、操作者側端末１６で画像データが生成されるため、第２実施例で示した制御処理の一部の処理およびアバターの画像生成処理の一部の処理を変更して、説明することにする。つまり、第５実施例では、図１４に示したフロー図が図１９に示すフロー図に置き換えられる。また、第５実施例では、図１５に示したフロー図が図２０に示すフロー図のように変更される。

図１９は第５実施例の利用者側端末１２のＣＰＵ２０の制御処理の一部を示すフロー図である。以下、第５実施例の利用者側端末１２のＣＰＵ２０の制御処理の一部について説明するが、既に説明した処理と同じ処理については説明を省略する。

図１９に示すように、ＣＰＵ２０は、ステップＳ３１でトーク画面１６０を表示すると、ステップＳ７１ａで、スライダーバー１８４の設定値、ここでは、スライダーバー１８４ｂ－１８４ｆのスライダーの位置の情報を操作者側端末１６に送信する。

続くステップＳ１６１では、表示モードが同情モードであるかどうかを判断する。ステップＳ１６１で“ＹＥＳ”であれば、つまり、表示モードが同情モードである場合には、ステップＳ１６３で、同情モード情報を操作者側端末１６に送信して、ステップＳ３３に進む。ただし、同情モード情報とは、利用者側端末１２で設定された表示モードが同情モードであることを示す情報を意味する。

一方、ステップＳ１６１で“ＮＯ”であれば、つまり、表示モードが同情モードでない場合には、ステップＳ１６５で、表示モードが励ましモードであるかどうかを判断する。ステップＳ１６５で“ＹＥＳ”であれば、つまり、表示モードが励ましモードである場合には、ステップＳ１６７で、励ましモード情報を操作者側端末１６に送信して、ステップＳ３３に進む。ただし、励ましモード情報とは、利用者側端末１２で設定された表示モードが励ましモードであることを示す情報を意味する。

ステップＳ３３－Ｓ３５の処理は、第１実施例で説明した内容であるため、重複した説明は省略する。

第５実施例では、ステップＳ３５とステップＳ７３の間に、さらに、ステップＳ１６９およびＳ１７１が設けられる。

したがって、図１９のステップＳ３３で“ＮＯ”である場合、または、ステップＳ３５の処理を実行すると、ステップＳ１６９で、利用者の顔画像に基づいて利用者の感情およびその強さを推定し、ステップＳ１７１で、ステップＳ１６９で推定した利用者の感情およびその強さを操作者側端末１６に送信して、ステップＳ７３に進む。

次に、図２０を参照して、第５実施例の操作者側端末１６のＣＰＵ５０のアバターの画像生成処理について説明するが、既に説明した処理と同じ処理についての説明は省略する。

図２０に示すように、第５実施例では、第２実施例で示した図１５のアバターの画像生成処理の一部が変更される。簡単に説明すると、図１５に示したアバターの画像生成処理において、ステップＳ１９１、Ｓ１９３、Ｓ１９５、Ｓ１９７、Ｓ１９９およびＳ２０１の処理が追加され、ステップＳ９１およびＳ９３がステップＳ９１ａおよびＳ９３ａに変更される。

図２０に示すように、ＣＰＵ５０は、アバターの画像生成処理を開始すると、ステップＳ１９１で、前回の感情と同じであるかどうかを判断する。ステップＳ１９１で“ＹＥＳ”であれば、つまり、前回の感情と同じであれば、ステップＳ１９３で、全体的な感情の度合を、推定した感情の度合に所定量（たとえば、５％）近づけて、ステップＳ９３ａに進む。ただし、ステップＳ１９３の処理は、第３所定時間（数フレーム－数十フレーム）毎に実行される。したがって、前回ステップＳ１９３の処理を実行してから第３所定時間を経過していない場合には、ステップＳ１９３の処理はスキップされる。

一方、ステップＳ１９１で“ＮＯ”であれば、つまり、前回の感情と異なる場合には、ステップＳ１９５に進む。ただし、前回の感情が存在しない場合には、ステップＳ１９１では、“ＮＯ”と判断される。

ステップＳ１９５では、表示モードが同情モードであるかどうかを判断する。ステップＳ１９５で“ＹＥＳ”であれば、つまり、表示モードが同情モードである場合には、ステップＳ１９７で、利用者の感情に近づけるように感情を選択して、ステップＳ９３ａに進む。

ただし、ステップＳ１９７では、アバターの画像１３０で表現する感情の強さ（すなわち、全体的な感情表現の度合）は、利用者の感情の強さよりも、所定の割合（たとえば、３０％）小さく設定される。

一方、ステップＳ１９５で“ＮＯ”であれば、つまり、表示モードが同情モードでない場合には、ステップＳ１９９で、表示モードが励ましモードであるかどうかを判断する。ステップＳ１９９で“ＹＥＳ”であれば、つまり、表示モードが励ましモードである場合には、ステップＳ２０１で、利用者を励ますような感情を選択して、ステップＳ９３ａに進む。

ただし、ステップＳ２０１では、利用者の感情が「恐れ」、「悲しみ」、「嫌悪」または「怒り」である場合には、アバターの画像１３０で表現する感情（ここでは、「喜び」）の強さ（すなわち、全体的な感情表現の度合）は、利用者の感情の強さよりも、所定の割合（たとえば、３０％）小さく設定される。また、ステップＳ２０１では、利用者の感情が「喜び」である場合には、アバターの画像１３０で表現する感情（ここでは、「喜び」）の強さ（すなわち、全体的な感情表現の度合）は、利用者の感情の強さと同じ割合に設定される。

一方、ステップＳ１９９で“ＮＯ”であれば、つまり、表示モードが通常モードである場合には、ステップＳ９１ａで、推定した利用者の感情を、アバターの画像１３０で表現する感情として選択し、ステップＳ９３ａに進む。ただし、利用者の感情およびその強さについては、利用者側端末１２から送信され、操作者側端末１６で受信される。

ステップＳ９３ａでは、選択した感情を推定または設定した全体的な感情の度合で表現するとともに、応答内容の音声データに合せて発話動作を行うアバターの画像１３０の画像データを生成して、アバターの画像生成処理を終了する。ただし、ステップＳ９３ａでは、ＣＰＵ２０は、首の動きデータを参照して、操作者の首の動きをアバターの首の動きに反映（または、合成）する。

表示モードとして、同情モードおよび励ましモードが選択されていない場合、すなわち通常モードが設定されている場合には、ステップＳ９３ａでは、ステップＳ９１ａで選択した感情および利用者の感情の強さ（すなわち、全体的な感情表現の度合）で表現したアバターの画像１３０の画像データが生成される。

また、表示モードとして、同情モードまたは励ましモードが選択されている場合には、ステップＳ９３ａでは、ステップＳ１９７またはＳ２０１で選択した感情および設定した感情の強さ（すなわち、全体的な感情表現の度合）で表現したアバターの画像１３０の画像データが生成される。

ただし、表示モードとして、同情モードまたは励ましモードが選択されている場合には、上述したように、感情の強さ（すなわち、全体的な感情表現の度合）は、第３所定時間（数フレームから数十フレーム）毎に、所定量（５％）ずつ変化される。つまり、利用者に同情するように、または、利用者を励ますように、アバターの感情表現が変化（または、調整）される。

第５実施例においても、第４実施例と同様に、利用者の顔画像から推定した利用者に同情するように、または、利用者を励ますように、アバターの感情表現を変化させるので、利用者の感情に応じたアバターの画像を表示することができる。つまり、アバターの感情表現の度合を利用者に対して適切に設定することができる。

なお、第５実施例では、利用者側端末で、利用者の感情およびその強さを推定するようにしたが、限定される必要はない。利用者が発話したときの利用者の顔画像を撮影し、顔画像を操作者側端末に送信し、操作者側端末で利用者の感情およびその強さを推定するようにしてもよい。

＜第６実施例＞
第６実施例では、サーバ１８側で制御処理を実行するようにした以外は、第１実施例と同じであるため、重複した説明は省略する。

上述したように、第６実施例では、サーバ１８が制御処理を実行するため、制御処理に関しては、利用者側端末１２は入出力装置として機能する。したがって、利用者側端末１２は、制御処理において、利用者の操作または入力に応じた操作データおよび利用者の音声に応じた音声データをサーバ１８に送信し、サーバ１８が送信した画像データ、テキストデータおよび音声データを出力する。

第６実施例の情報処理システム１０では、第１実施例で説明したアプリはサーバ１８に記憶されており、サーバ１８で実行される。

したがって、第６実施例では、サーバ１８の記憶部（ＲＡＭ）１８ｂのプログラム記憶領域には、図８に示した起動判断プログラム３０２ａ、メイン処理プログラム３０２ｂ、通信プログラム３０２ｄ、画像生成プログラム３０２ｅ、画像出力プログラム３０２ｆ、アバター制御プログラム３０２ｇ、感情表現設定プログラム３０２ｈ、感情選択プログラム３０２ｉおよび音出力プログラム３０２ｋと同じプログラムが記憶される。ただし、第６実施例では、画像出力プログラム３０２ｆは、画像生成プログラム３０２ｅに従って生成した画像データを利用者側端末１２に出力（または、送信）する。また、音出力プログラム３０２ｋは、受信した操作者の応答内容の音声データを利用者側端末１２に出力（または、送信）する。

また、サーバ１８の記憶部（ＲＡＭ）１８ｂのデータ記憶領域には、送信データ、受信データ、画像生成データ、表情パラメータデータ、感情辞書データ、首の動きデータおよびスライダー位置データが記憶される。送信データは、利用者側端末１２に送信するデータであり、ウェブ画面１００、選択画面１１０、チャット画面１４０、トーク画面１６０の画像データ、アバターの画像１３０の画像データ、感情表現の度合についての設定における利用者の操作データ、チャットにおける利用者の質問内容についてのテキストデータ、チャットにおける操作者の応答内容についてのテキストデータおよびトークにおける利用者の質問内容についての音声データおよび操作者の応答内容についての音声データである。受信データは、操作者側端末１６から送信され、受信したデータであり、チャットにおける操作者の応答内容についてのテキストデータおよびトークにおける操作者の応答内容についての音声データ（第６実施例では、首の動きデータが付加された音声データ）である。

画像生成データは、利用者側端末１２の表示装置３０に表示される各種の画面を生成するためのデータであり、アバターの画像１３０を生成するためのデータを含む。また、アバターの画像１３０を生成するためのデータは、アバターの画像１３０についての静止した状態の画像データ、無意識動作および挨拶の動作についてのアニメーションデータを含む。

表情パラメータデータは、各感情について、感情表現を最小から最大まで複数の段階で変化させるための各部位のパラメータについてのデータである。

首の動きデータは、操作者側端末１６から送信され、受信したデータ音声データに付加された操作者の首の動きについてのデータである。スライダー位置データは、設定画面１８０で設定された各スライダーの位置（つまり、設定値）についてのデータであり、デフォルトでは、各スライダーの位置は真ん中に設定される。

また、第６実施例では、サーバ１８が制御処理を実行するため、利用者側端末１２では、起動判断プログラム３０２ａ、アバター制御プログラム３０２ｇ、感情表現設定プログラム３０２ｈおよび感情選択プログラム３０２ｉを省略することができる。同様に、利用者側端末１２には、表情パラメータデータ３０４ｅ、感情辞書データ３０４ｆ、首の動きデータ３０４ｇおよびスライダー位置データ３０４ｈは記憶されない。

具体的には、サーバ１８のＣＰＵ１８ａが図２１－図２３に示す制御処理を実行する。以下、図２１－図２３を用いてサーバ１８のＣＰＵ１８ａが実行する制御処理について説明するが、既に説明した内容と重複する内容については簡単に説明することにする。

図示は省略するが、第６実施例では、利用者側端末１２の表示装置３０に表示された選択画面１１０においてボタン１２０がオンされ、感情表現の設定処理が選択された場合に、サーバ１８のＣＰＵ１８ａは、図８に示したような感情表現の設定画面１８０の画像データを生成して利用者側端末１２に送信する。利用者側端末１２では、表示装置３０に設定画面１８０が表示され、利用者の操作に応じて全体的な感情表現の度合および個別の感情表現の度合についての範囲が設定され、その設定についての操作データ（ここでは、スライダー位置データ）がサーバ１８に送信される。したがって、サーバ１８は、利用者側端末１２からスライダー位置データを受信すると、利用者側端末１２（または、利用者）を識別可能にして、受信したスライダー位置データを記憶部（たとえば、ＨＤＤ）１８ｂに記憶する。

図２１に示すように、サーバ１８のＣＰＵ１８ａは、制御処理を開始すると、ステップＳ２０１で、アプリの起動条件を満たすかどうかを判断する。ステップＳ２０１で“ＮＯ”であれば、ステップＳ２０１に戻る。一方、ステップＳ２０１で“ＹＥＳ”であれば、ステップＳ２０３で、アプリを起動する。

続くステップＳ２０５では、図４に示したような選択画面１１０を利用者側端末１２に表示する。つまり、ＣＰＵ１８ａは、図４に示したような選択画面１１０の画像データを生成して利用者側端末１２に出力（または、送信）する。したがって、利用者側端末１２の表示装置３０において、選択画面１１０がウェブ画面１００の前面に表示される。以下、利用者側端末１２に画面が表示される場合について同様である。

ただし、アプリを起動した当初では、ＣＰＵ１８ａは、静止した状態のアバターの画像１３０を表示枠１１２に表示する選択画面１１０の画像データを生成して利用者側端末１２に送信し、次いで、アバターに挨拶の動作を行わせるためのアニメーションデータを利用者側端末１２に出力する。

次のステップＳ２０７では、アバターの画像１３０に待機動作を実行させる。ここでは、ＣＰＵ１８ａは、アバターに無意識動作を行わせるためのアニメーションデータを利用者側端末１２に送信する。ただし、ＣＰＵ１８ａは、選択画面１１０において利用者の操作が無い場合において、数秒または数十秒毎にアバターに無意識動作を行わせるためのアニメーションデータを送信する。

続いて、ステップＳ２０９で、ボタン操作が有るかどうかを判断する。ここでは、ＣＰＵ１８ａは、選択画面１１０のボタン１１４またはボタン１１６がオンされたことを示す操作データを利用者側端末１２から受信したかどうかを判断する。なお、図示は省略するが、ボタン１１８がオンされたことを示す操作データを受信した場合には、選択画面１１０を閉じる（非表示する）ことを利用者側端末１２に指示して、アプリを終了する。

ステップＳ２０９で“ＮＯ”であれば、ステップＳ２０７に戻る。一方、ステップＳ２０９で“ＹＥＳ”であれば、ステップＳ２１１で、チャットかどうかを判断する。ここでは、ＣＰＵ１８ａは、操作データがボタン１１４のオンを示すかどうかを判断する。

ステップＳ２１１で“ＮＯ”であれば、つまり、ボタン１１６のオンであれば、図２３に示すステップＳ２３１に進む。一方、ステップＳ２１１で“ＹＥＳ”であれば、つまり、ボタン１１４のオンであれば、図２２に示すステップＳ２１３で、図５に示したようなチャット画面１４０を利用者側端末１２に表示する。つまり、ＣＰＵ１８ａは、図５に示したようなチャット画面１４０の画像データを生成して利用者側端末１２に送信する。

したがって、利用者側端末１２の表示装置３０では、選択画面１１０が非表示され、ウェブ画面１００の前面にチャット画面１４０が表示される。

次のステップＳ２１５では、質問内容の入力かどうかを判断する。ここでは、ＣＰＵ１８ａは、質問内容（テキスト）のキー入力を示す操作データを利用者側端末１２から受信したかどうかを判断する。

ステップＳ２１５で“ＹＥＳ”であれば、ステップＳ２１７で、操作データが示すキー入力に対応する文字または文字列を表示枠１４６にテキストで表示する画像データを生成して利用者側端末１２に送信して、ステップＳ２１５に戻る。

したがって、利用者側端末１２では、チャット画面１４０の表示枠１４６に、利用者が入力した質問内容についての文字または文字列が順次表示される。

一方、ステップＳ２１５で“ＮＯ”であれば、ステップＳ２１９で、質問内容の送信かどうかを判断する。ここでは、ＣＰＵ１８ａは、質問内容が確定したことを示す操作データを利用者側端末１２から受信したかどうかを判断する。

ステップＳ２１９で“ＹＥＳ”であれば、ステップＳ２２１で、質問内容のテキストデータを操作者側端末１６に送信して、ステップＳ２２３に進む。ただし、質問内容のテキストデータは、今回の質問において、利用者が入力した文字または文字列を時系列に並べたデータである。一方、ステップＳ２１９で“ＮＯ”であれば、ステップＳ２２３に進む。

ステップＳ２２３では、応答内容のテキストデータを操作者側端末１６から受信したかどうかを判断する。ステップＳ２２３で“ＮＯ”であれば、ステップＳ２２７に進む。一方、ステップＳ２２３で“ＹＥＳ”であれば、ステップＳ２２５で、応答内容の表示に合せてアバターを発話させて、ステップＳ２２７に進む。ステップＳ２２５では、ＣＰＵ１８ａは、応答内容を表示枠１４４に一文字ずつテキストで表示する画像データを生成して利用者側端末１２に送信するとともに、その表示に合せて喋るように口唇部を変化させて発話動作を行うアバターの画像１３０の画像データを生成して利用者側端末１２に送信する。

したがって、利用者側端末１２では、チャット画面１４０の表示枠１４４に応答内容が一文字ずつ表示されるとともに、その応答内容の表示に合せて発話動作を行うアバターの画像１３０が表示枠１４２に表示される。

ステップＳ２２７では、チャットの終了かどうかを判断する。ここでは、ＣＰＵ１８ａは、ボタン１４８のオンを示す操作データを受信したり、操作者側端末１６からチャットの終了を指示する操作データを受信したりしたかどうかを判断する。

ステップＳ２２７で“ＮＯ”であれば、ステップＳ２１５に戻る。一方、ステップＳ２２７で“ＹＥＳ”であれば、ステップＳ２２９で、チャット画面１４０を閉じることを利用者側端末１２に指示して、図２１に示したステップＳ２０５に戻る。

また、上述したように、ステップＳ２１１で“ＮＯ”であれば、図２３に示すステップＳ２３１で、図６に示したようなトーク画面１６０を利用者側端末１２に表示する。つまり、ＣＰＵ１８ａは、図６に示したようなトーク画面１６０の画像データを生成して利用者側端末１２に送信する。

したがって、利用者側端末１２の表示装置３０では、選択画面１１０が非表示され、ウェブ画面１００の前面にトーク画面１６０が表示される。

続くステップＳ２３３では、当該利用者側端末１２の利用者に対応して記憶したスライダーバーの設定値を読み込む。つまり、利用者に対応するスライダー位置データ３０４ｈを記憶部（ＨＤＤ）１８ｂから読み出し、記憶部（ＲＡＭ）１８ｂに記憶する。

次のステップＳ２３５では、利用者の質問内容の音声データを利用者側端末１２から受信したかどうかを判断する。ステップＳ２３５で“ＮＯ”であれば、つまり、質問内容の音声データを受信していなければ、ステップＳ２３９に進む。一方、ステップＳ２３５で“ＹＥＳ”であれば、つまり、質問内容の音声データを受信すれば、ステップＳ２３７で、質問内容の音声データを操作者側端末１６に送信して、ステップＳ２３９に進む。

つまり、サーバ１８は受信した質問内容の音声データを操作者側端末１６に送信する。したがって、操作者側端末１６では、スピーカ６４から利用者の音声が出力される。一方、操作者側端末１６は、操作者の応答内容の音声データに音量データを付加して、サーバ１８に送信する。

ステップＳ２３９では、応答内容の音声データを受信したかどうかを判断する。ステップＳ２３９で“ＹＥＳ”であれば、つまり、応答内容の音声データを受信すれば、ステップＳ２４１で、アバターを用いて表現する感情を選択する。

続くステップＳ２４３では、選択した感情を全体的な感情表現の度合で表現するとともに、応答内容の音声データに合せて発話動作を行うアバターの画像１３０の画像データを生成する。ただし、ステップＳ２４３では、ＣＰＵ１８ａは、首の動きデータを参照して、操作者の首の動きをアバターの首の動きに反映（または、合成）する。

次のステップＳ２４５では、応答内容の音声データとステップＳ２４３で生成した画像データを利用者側端末１２に送信して、ステップＳ２３５に戻る。

また、ステップＳ２３９で“ＮＯ”であれば、つまり、応答内容の音声データを受信していなければ、ステップＳ２４７では、トーク終了かどうかを判断する。ステップＳ２４７で“ＮＯ”であれば、ステップＳ２３５に戻る。

一方、ステップＳ２４７で“ＹＥＳ”であれば、ステップＳ２４９で、トーク画面１６０を閉じることを利用者側端末１２に指示して、ステップＳ２０５に戻る。

第６実施例においても、第１実施例と同様に、利用者が設定した個別の感情表現の度合の範囲内において全体的な感情表現の度合で、選択した感情を表現するアバターの画像を表示するので、アバターの感情表現の度合を利用者に対して適切に設定することができる。つまり、利用者の好みに応じたアバターの画像を表示することができる。

なお、第６実施例では、トークにおける利用者の質問内容の音声は、利用者側端末１２からサーバ１８を介して操作者側端末１６に送信されるが、第１実施例と同様に、利用者側端末１２から操作者側端末１６に送信されるようにしてもよい。

また、第６実施例では、第３実施例で示したように、利用者の感情を推定し、推定した利用者の感情をアバターで表現するようにしてもよい。この場合、トークにおいて、サーバは、操作者の応答内容の音声データを受信すると、利用者側端末に利用者の顔画像の送信を要求し、利用者側端末から取得した利用者の顔画像に基づいて、利用者の感情およびその強さを第３実施例で説明した方法で推定する。ただし、利用者の顔画像を取得できない場合には、ランダムに、または、予め決定した感情およびその強さを選択する。

さらに、第６実施例では、第４実施例で示したように、利用者の感情を推定し、利用者の選択により、推定した利用者の感情に基づいて設定される感情を表現するアバターの画像１３０を表示することもできる。この場合、トークが開始されたときに、利用者側端末１２は、スライダーバー１８４ａ－１８４ｆのスライダーの位置の情報と、表示モードの識別情報をサーバ１８に送信し、サーバ１８はこれらの情報を利用者側端末１２から受信する。

上述の複数の実施例で示したように、情報処理システム１０においては、アバターの画像１３０を、利用者側端末１２、操作者側端末１６またはサーバ１８のいずれかで生成することができる。

なお、上述の各実施例では、全体的な感情表現の度合で、選択した感情を表現するアバターの画像を表示してから、応答内容の音声に合せて発話動作を行うアバターの画像を表示するようにしたが、発話動作を行う間だけ、全体的な感情表現の度合で、選択した感情を表現するアバターの画像を表示するようにしてよい。

また、上述の各実施例では、チャットでは、操作者との間でテキストをやり取りするようにしたが、利用者側端末は、ネットワーク（クラウド）上のチャットサービスサーバにアクセスし、チャットボットとメッセージをやり取りするようにしてもよい。

さらに、上述の各実施例では、トーク画面において、アバターの頭部および首を表示し、アバターの表情で、操作者および利用者の感情を表現するようにしたが、アバターの上半身または全身の画像を表示する場合には、アバターの上半身または全身の動きで、操作者および利用者の感情を表現するようにしてもよい。この場合には、アバターの発話動作には、身振り手振りも含まれる。

また、上述の各実施例では、操作者の音声を利用者側端末のスピーカからそのまま出力するようにしたが、操作者の音声を変換した音声を出力するようにしてもよい。一例として、アバターの画像で表現する感情に応じた音量、音高および話速の少なくとも１つを変化させて出力することが考えられる。

また、上述の各実施例では、感情を「喜び」、「恐れ」、「悲しみ」、「嫌悪」および「怒り」に分類した場合の例について説明したが、アバターの画像で感情を表現できれば良いため、感情の種類および分類する数は限定される必要はない。他の例では、ポール・エクマンによって提唱された、「怒り」、「嫌悪」、「恐れ」、「幸福」、「悲しみ」「驚き」の６種類に分類したり、ラッセルの円環モデルを用いて、複数の感情を、「快」、「不快」、「覚醒」および「非覚醒」の４種類に分類したりすることもできる。

さらにまた、上述の各実施例では、チャットまたはトークを実行可能なアプリについて説明したが、これに限定される必要はない。トーク（つまり、音声のやり取り）のみを実行可能なアプリでもよい。また、他の例では、ウェブ会議またはビデオ通話を行う場合にも適用でき、ウェブ会議またはビデオ通話においてアバターの画像を表示する場合に、全体的な感情表現の度合で、選択した感情が表現される。つまり、本願発明は、或る人間が発話する音声を当該或る人間と対話する他の人間が使用する端末で出力するとともに、当該或る人間に対応するアバターの画像を当該他の人間が使用する端末に表示する場合に適用可能である。

また、上述の各実施例では、起動条件を満たす場合に、アプリを起動するようにしたが、ウェブ画面が表示されるときに、アプリを起動するようにしてもよい。

なお、上述の各実施例で示したフロー図の各ステップは同じ結果が得られる場合には、処理する順番を変更することが可能である。

また、上述の各実施例で挙げた各種の画面、具体的数値はいずれも単なる例示であり、必要に応じて適宜変更可能である。たとえば、トークの場合には、トーク画面を表示することに代えて、アバターの画像のみを表示することも可能である。

１０ …情報処理システム
１２ …利用者側端末
１４ …ネットワーク
１６ …操作者側端末
１８ …サーバ
１８ａ、２０、５０ …ＣＰＵ
１８ｂ、２２、５２ …記憶部
２４、５４ …通信Ｉ／Ｆ
２６、５６ …入出力Ｉ／Ｆ
２８、５８ …入力装置
３０、６０ …表示装置
３２、６２ …マイク
３４、６４ …スピーカ
３６、６６ …センサＩ／Ｆ
３８ …カメラ
６８ …慣性センサ

Claims

利用者によって、複数の感情の種類に対して個別に設定された個別の感情表現の度合の範囲を記憶する記憶手段、
前記利用者と対話する操作者が発話した音声を受信する受信手段、
前記受信手段によって前記音声を受信した場合に、前記操作者または前記利用者の感情を推定する推定手段、
前記推定手段によって推定された前記操作者または前記利用者の感情を前記範囲内で表現し、前記操作者に対応するアバターの画像をディスプレイに表示するアバター表示手段、および
前記受信手段によって受信された前記音声を出力する音出力手段を備える、情報処理装置。
前記個別の感情表現の度合を前記範囲内において設定する度合設定手段をさらに備え、
前記アバター表示手段は、前記度合設定手段によって前記範囲内において設定された前記個別の感情表現の度合で、前記アバターの画像を表示する、請求項１記載の情報処理装置。
前記度合設定手段は、前記利用者が設定した全体的な感情表現の度合で、前記個別の感情表現の度合を前記範囲内において設定する、請求項２記載の情報処理装置。
前記推定手段は、前記利用者の少なくとも顔を撮影した顔画像から当該利用者の感情および当該利用者の感情の強さを推定し、
前記度合設定手段は、前記推定手段の推定結果に基づいて、前記アバターの画像で表現する感情および前記個別の感情表現の度合を範囲内において設定する、請求項２記載の情報処理装置。
前記推定手段によって推定された前記利用者の感情である第１の感情に基づいて設定された第２の感情を表現するアバターの画像を表示する所定の表示モードを設定するモード設定手段をさらに備え、
前記アバター表示手段は、前記モード設定手段によって所定の表示モードが設定されている場合に、第２の感情を表現するアバターの画像を表示する、請求項１記載の情報処理装置。
利用者によって、複数の感情の種類に対して個別に設定された個別の感情表現の度合の範囲を記憶する記憶手段、
前記利用者が発話した場合に、前記個別の感情表現の度合の範囲を操作者側端末に送信する送信手段、
前記利用者と対話する操作者が発話した音声と、前記操作者側端末で推定された前記操作者または前記利用者の感情を前記範囲内で表現する、前記操作者に対応するアバターの画像を受信する受信手段、
前記受信手段によって受信された前記音声を出力する音出力手段、および
前記音出力手段によって前記音声を出力するときに、前記受信手段によって受信された前記アバターの画像を表示するアバター表示手段を備える、情報処理装置。
利用者によって、複数の感情の種類に対して個別に設定された個別の感情表現の度合の範囲を利用者側端末から受信する第１受信手段、
前記利用者と対話する操作者が発話した音声を受信する第２受信手段、
前記第２受信手段によって前記音声を受信した場合に、前記操作者または前記利用者の感情を推定する推定手段、および
前記推定手段によって推定された前記操作者または前記利用者の感情を前記範囲内で表現し、前記操作者に対応するアバターの画像を生成し、当該アバターの画像と前記第２受信手段によって受信された前記音声を前記利用者側端末に出力する出力手段を備える、情報処理装置。
利用者によって、複数の感情の種類に対して個別に設定された個別の感情表現の度合の範囲を記憶する記憶手段を備える情報処理装置で実行される制御プログラムであって、
前記情報処理装置のプロセッサに、
前記利用者を対話する操作者が発話した音声を受信する受信ステップ、
前記受信ステップにおいて前記音声を受信した場合に、前記操作者または前記利用者の感情を推定する推定ステップ、
前記推定ステップにおいて推定した前記操作者または前記利用者の感情を前記範囲内で表現し、前記操作者に対応するアバターの画像をディスプレイに表示するアバター表示ステップ、および
前記受信ステップにおいて受信した前記音声を出力する音出力ステップを実行させる、制御プログラム。
利用者によって、複数の感情の種類に対して個別に設定された個別の感情表現の度合の範囲を記憶する記憶手段を備える情報処理装置で実行される制御プログラムであって、
前記情報処理装置のプロセッサに、
前記利用者が発話した場合に、前記個別の感情表現の度合の範囲を操作者側端末に送信する送信ステップ、
前記利用者と対話する操作者が発話した音声と、前記操作者側端末で推定された前記操作者または前記利用者の感情を前記範囲内で表現する、前記操作者に対応するアバターの画像を受信する受信ステップ、および
前記受信ステップにおいて受信した前記音声を出力に合わせて、前記受信ステップにおいて受信した前記アバターの画像を表示するステップを実行させる、制御プログラム。
情報処理装置で実行される制御プログラムであって、
前記情報処理装置のプロセッサに、
利用者によって、複数の感情の種類に対して個別に設定された個別の感情表現の度合の範囲を利用者側端末から受信する第１受信ステップ、
前記利用者と対話する操作者が発話した音声を受信する第２受信ステップ、
前記第２受信ステップにおいて前記音声を受信した場合に、前記操作者または前記利用者の感情を推定する推定ステップ、および
前記推定ステップにおいて推定した前記操作者または前記利用者の感情を前記範囲内で表現し、前記操作者に対応するアバターの画像を生成し、当該アバターの画像と前記第２受信ステップにおいて受信した前記音声を前記利用者側端末に出力する出力ステップを実行させる、制御プログラム。
利用者によって、複数の感情の種類に対して個別に設定された個別の感情表現の度合の範囲を記憶する記憶手段を備える情報処理装置の制御方法であって、
（ａ）前記利用者と対話する操作者が発話した音声を受信するステップ、
（ｂ）前記ステップ（ａ）において前記音声を受信した場合に、前記操作者または前記利用者の感情を推定するステップ、
（ｃ）前記ステップ（ｂ）において推定した前記操作者または前記利用者の感情を前記範囲内で表現し、前記操作者に対応するアバターの画像をディスプレイに表示するステップ、および
（ｄ）前記ステップ（ａ）において受信した前記音声を出力するステップを含む、制御方法。
利用者によって、複数の感情の種類に対して個別に設定された個別の感情表現の度合の範囲を記憶する記憶手段を備える情報処理装置の制御方法であって、
（ａ）前記利用者が発話した場合に、前記個別の感情表現の度合の範囲を操作者側端末に送信するステップ、
（ｂ）前記利用者と対話する操作者が発話した音声と、前記操作者側端末で推定された前記操作者または前記利用者の感情を前記範囲内で表現し、当該音声を発話するように動作する、前記操作者に対応するアバターの画像を受信するステップ、および
（ｃ）前記ステップ（ｂ）において受信した前記音声の出力するステップを含む、制御方法。
情報処理装置の制御方法であって、
（ａ）利用者によって、複数の感情の種類に対して個別に設定された個別の感情表現の度合の範囲を利用者側端末から受信するステップ、
（ｂ）前記利用者と対話する操作者が発話した音声を受信するステップ、
（ｃ）前記ステップ（ｂ）において前記音声を受信した場合に、前記操作者または前記利用者の感情を推定するステップ、および
（ｄ）前記ステップ（ｃ）において推定した前記操作者または前記利用者の感情を前記範囲内で表現し、前記操作者に対応するアバターの画像を生成し、当該アバターの画像と前記ステップ（ｂ）において受信した前記音声を前記利用者側端末に出力するステップを含む、制御方法。