JP2021135995A

JP2021135995A - アバター表情生成システム及びアバター表情生成方法

Info

Publication number: JP2021135995A
Application number: JP2020125192A
Authority: JP
Inventors: 峰森朱; feng sen Zhu; 永明周; yong ming Zhou
Original assignee: XRspace Co Ltd
Current assignee: XRspace Co Ltd
Priority date: 2020-02-27
Filing date: 2020-07-22
Publication date: 2021-09-13
Also published as: EP3872694A1; CN113313795A; TW202133117A; TWI829944B

Abstract

【課題】仮想環境において感情を有するアバターの表情をシミュレーションするための、アバター表情生成システム及びアバター表情生成方法を提供する。【解決手段】アバター表情生成システム及びによるアバター表情生成方法は、複数のユーザデータを取得し、各ユーザデータに基づき、複数の第１の感情判断をそれぞれ判定する。第１の感情判断の間で感情衝突が発生するか否かが判定される。感情衝突は、第１の感情判断の対応する感情グループが互いに一致しないことに関連し、感情衝突の判定結果に応じて、１以上の感情グループから第２の感情判断が判定される。第１又は第２の感情判断は、１つの感情グループに関連し、第２の感情判断に基づいて、アバターの表情が生成される。【選択図】図２

Description

本発明は、アバターシミュレーションに関するものであり、特に、アバター表情生成システム及びアバター表情生成方法に関するものである。

仮想現実（ＶＲ）、拡張現実（ＡＲ）、複合現実（ＭＲ）、ＸＲ（ＥｘｔｅｎｄｅｄＲｅａｌｉｔｙ）といった、感覚、知覚、及び／又は環境のシミュレーションのための技術は、最近人気が高まっている。前記技術は、ゲーム、軍事訓練、医療、遠隔操作等といった、複数の分野に応用することができる。

ユーザに仮想環境を実環境として認識させるため、実環境におけるユーザの人体部位の動き又はユーザの表情が追跡され、これによりＶＲ、ＡＲ、ＭＲ、又はＸＲの画面上で表示されるアバターの表情がユーザの動き又は表情に反応して変化することができ、仮想環境における社会的コミュニケーション効果が改善される。

表情のシミュレーションについて、従来のアプローチでは、ヘッドマウントディスプレイ（ＨＭＤ）を装着したユーザの顔を撮像するカメラが設けられ、撮像画像における顔の特徴に応じてシミュレーションされた表情が生成される。しかし、顔の一部はＨＭＤにより覆われており、このため顔の特徴と表情を識別することが難しく、アバターの表情は実環境におけるユーザの表情と同一でない可能性がある。

カメラのみで表情を予測することは困難である。従って、本発明は、仮想環境において感情を有するアバターの表情をシミュレーションするための、アバター表情生成システム及びアバター表情生成方法を対象とする。

例示的な実施形態の１つにおいて、アバター表情生成方法は、次のステップを含むが、これに限定されない。複数のユーザデータが取得される。各ユーザデータは、複数のデータソースからのユーザの感知結果に関連する。各ユーザデータに基づき、複数の第１の感情判断がそれぞれ判定される。第１の感情判断の間で感情衝突が発生するか否かが判定される。感情衝突は、第１の感情判断の対応する感情グループが互いに一致していないことに関連する。感情衝突の判定結果に応じて、１以上の感情グループから第２の感情判断が判定される。第１又は第２の感情判断は、１つの感情グループに関連する。アバターの表情は、第２の感情判断に基づき生成される。

例示的な実施形態の１つにおいて、表情生成システムは、１以上の追跡デバイスと、メモリと、プロセッサとを含むが、これに限定されない。追跡デバイスは複数のユーザデータを取得する。各ユーザデータは、複数のデータソースの１つからのユーザの感知結果に関連する。メモリはプログラムコードを格納する。プロセッサはメモリに連接され、次のステップを実行するためプログラムコードをロードする。プロセッサは、各ユーザデータそれぞれに基づき複数の第１の感情判断を判定し、第１の感情判断の間で感情衝突が発生するか否かを判定し、感情衝突の判定結果に応じて１以上の感情グループから第２の感情判断を判定し、第２の感情判断に基づきアバターの表情を生成する。感情衝突は、第１の感情判断の対応する感情グループが互いに一致していないことに関連する。第１又は第２の感情判断は、１つの感情グループに関連する。

上記を鑑み、１以上の実施形態において提供されるアバター表情生成システム及びアバター表情生成方法は、第１の感情判断の間の感情衝突が発生するとき、２以上の感情グループから第２の感情判断が更に判定され、アバターの表情生成のため１つの感情グループ（のみ）が選択される。従って、適切なアバターの表情が表示される。

ただし、この概要は本発明の全ての様態と実施形態を含むものではなく、如何なる方法でも限定又は制限を意図するものではないことを理解されたい。そして、ここで開示される発明は、その明らかな改善と改変を含むと当業者により理解される。

本発明の更なる理解のため添付図面が含まれ、本明細書に包含され、本明細書の一部を構成する。図面は本発明の実施形態を表し、明細書と共に、本発明の原理を説明する役割を果たす。

図１は、本発明の例示的な実施形態の１つによるアバター表情生成システムを表すブロック図である。

図２は、本発明の例示的な実施形態の１つによるアバター表情生成方法を表すフロー図である。

図３は、本発明の例示的な実施形態の１つによるユーザデータ生成を表すフロー図である。

図４は、本発明の例示的な実施形態の１つによる感情グループの類別を表す概略図である。

図５は、本発明の例示的な実施形態の１つによるユーザデータと第１の感情判断との関係性を表す概略図である。

図６は、本発明の例示的な実施形態の１つによる第１段階を表すフロー図である。

図７は、本発明の例示的な実施形態の１つによる第２の感情判断の生成を表すフロー図である。

図８は、本発明の例示的な実施形態の１つによるユーザデータ変換を表すフロー図である。

本発明の好ましい実施形態の詳細を述べる。実施例は添付の図面に表される。可能な限り、図面と明細書において同一の符号が同一又は類似の部材に対し用いられる。

図１は、本発明の例示的な実施形態の１つによるアバター表情生成システムを表すブロック図である。図１を参照し、アバター表情生成システム１００は、１以上の追跡デバイス１１０と、ディスプレイ１２０と、メモリ１３０と、プロセッサ１５０とを含むが、これに限定されない。アバター表情生成システム１００は、ＶＲ、ＡＲ、ＭＲ、ＸＲ又は他の現実シミュレーション関連技術に適合される。

追跡デバイス１１０は、ユーザデータを取得するために用いられる、手持ち型コントローラ、（装着型コンントローラ、スマートウォッチ、アンクルセンサ、ヘッドマウントディスプレイ（ＨＭＤ）等といった）装着型装置、又は（カメラ、慣性測定ユニット（ＩＭＵ）、心拍数モニタ、赤外線（ＩＲ）トランスミッタ／レシーバ、超音波センサ、サウンドレコーダ、歪みゲージ等といった）感知デバイスである。ユーザデータは、１以上のデータソースからのユーザの感知結果に関連する。追跡デバイス１１０は、ユーザの対応目標部位を感知し、時間間隔内の複数時点での検出結果（例えばカメラ画像、感知された強度値）から一連の感知データを生成するため、１以上のセンサ１１５を含んでよい。これらデータソースは、ユーザの目標部位、又は感知技術において異なる。例えば、目標部位は、ユーザの（顔の一部又は全体、手、頭、足首、足、手首といった）人体部位、（脳、心臓、目といった）臓器、又は（筋肉、神経組織といった）組織であってよい。センサ１１５の感知技術は、画像、音波、超音波、電流、電位、ＩＲ、力、人体部分の変位と回転に関する動作感知データ等に関連してよい。

１つの実施形態において、データソースは、顔面筋活動、音声、顔の一部又は全体の画像、腕や脚又は頭の動き、心臓の電気的活動、または脳の電気的活動であってよい。いくつかの実施形態において、データソースは、センサ１１５からのリアルタイムデータ検出、又はプロセッサ１５０により生成される事前構成されたデータであってよい。

ディスプレイ１２０は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、又は他のディスプレイであってよい。本発明の本実施形態において、ディスプレイ１２０は画像、例えば仮想環境を表示するために用いられる。いくつかの実施形態において、ディスプレイ１２０は（スマートフォン、タブレット等といった）外部装置のディスプレイであってよく、外部装置はＨＭＤの本体に置かれてもよいことに注意されたい。

メモリ１３０は、固定又は取り外し可能なランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、フラッシュメモリ、類似のデバイス、又は上記デバイスの組合せの如何なる類別であってもよい。メモリ１３０は、バッファデータ、又は、プログラムコード、デバイス構成、（ユーザデータ、訓練データ、感情分類器、感情判断、感情構成、加重関係、線形関係、感情グループといった）永続的データを記録し、これらデータについては後に紹介する。

プロセッサ１５０は、追跡デバイス１１０、ディスプレイ１２０、メモリ１３０に連接される。プロセッサ１５０は、本発明の例示的な実施形態の手順を実行するため、メモリ１３０に格納されたプログラムコードをロードするよう構成される。

いくつかの実施形態において、プロセッサ１５０は、中央処理装置（ＣＰＵ）、マイクロプロセッサ、マイクロコントローラ、デジタル信号処理（ＤＳＰ）チップ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）であってよい。プロセッサ１５０の機能は、独立した電子デバイス又は集積回路（ＩＣ）により実装されてよく、プロセッサ１５０の動作はソフトウェアにより実装されてよい。

プロセッサ１５０は、追跡デバイス１１０及びディスプレイ１２０と同一の装置に設けられなくてもよいことに注意されたい。ただし、それぞれ追跡デバイス１１０、ディスプレイ１２０、プロセッサ１５０を備えた装置は、互いにデータを送受信するため、Ｂｌｕｅｔｏｏｔｈ、Ｗｉ−Ｆｉ、赤外線無線通信、又は物理的な伝送路といった、互換性のある通信技術を有する通信トランシーバを更に含む。例えば、センサ１１５がＨＭＤの外部に設けられるのに対し、ディスプレイ１２０とプロセッサ１５０はＨＭＤ内に設けられてよい。もう１つの例として、追跡デバイス１１０とディスプレイ１２０が演算装置の外部に設けられるのに対し、プロセッサ１５０は演算装置内に設けられてよい。

本発明の１以上の実施形態において提供される動作処理をより理解し易くするよう、アバター表情生成システム１００の動作処理を詳述するため、いくつかの実施形態を以下に例示する。アバター表情生成システム１００のデバイスとモジュールは、ここで提供されるアバター表情生成方法を説明するため、次の実施形態において応用される。該方法の各ステップは、実際の実装状況に応じて調整でき、ここで説明されるものに限定されるべきではない。

図２は、本発明の例示的な実施形態の１つによるアバター表情生成方法を表すフロー図である。図２を参照し、プロセッサ１５０は追跡デバイス１１０を介し複数のユーザデータを取得する（ステップＳ２１０）。具体的には、これらユーザデータは複数のデータソースから取得される。プロセッサ１５０は、感情推定の精度を向上させるため、より多くのデータソースを用いる。図３は、本発明の例示的な実施形態の１つによるユーザデータ生成を表すフロー図である。図３を参照し、１つの実施形態において、プロセッサ１５０は、リアルタイムでのユーザデータを生成するため（即ち、上述したリアルタイムデータ検出）、各センサ１１５からの（例えば、フィルタ、増幅、アナログ−デジタル変換により処理されることのできる）未処理データ又は前処理済みデータといった感知結果を取得する（ステップＳ２１１）。例えば、ユーザデータは、ユーザの顔の一部又は全体の1以上の画像、（眉、目、鼻、口の動きといった）ユーザの顔の特徴の動き、及び／又はユーザの音声から収集された未処理データであってよい。もう１つの実施形態において、プロセッサ１５０は、事前構成データを生成する（ステップＳ２１５）ため、各センサ１１５からの各感知結果に特徴抽出を実行してよい（ステップＳ２１３）。特徴抽出は、情報提供でき且つ非冗長であることを意図された派生値（特徴）を感知結果から得るために用いられ、後続の分析ステップを容易にする。例えば、独立成分分析（ＩＣＡ）、Ｉｓｏｍａｐ、主成分分析（ＰＣＡ）である。特徴抽出は、ユーザの対応目標部位の１以上の特定の動き／活動、所定の時間間隔内の１以上の特定のキーワード又はキーフレーズ、又は（ニューラルネットワーク（ＮＮ）、Ｋ平均法、サポートベクターマシン（ＳＶＭ）といった）機械学習技術において定義された任意の特徴を収集してよい。例えば、事前構成データは、所定の時間間隔内の瞬き又は頷きの顔の特徴、又はランダム生成された顔の特徴であってよい。もう１つの例として、事前構成データは、ユーザの発言内容又は音声トーンであってよい。いくつかの実施形態において、プロセッサ１５０は、リアルタイムデータと事前構成データとの組合せを取得する。

プロセッサ１５０は、各ユーザデータに基づき、複数の第１の感情判断をそれぞれ判定してよい（ステップＳ２３０）。具体的には、プロセッサ１５０は、複数の感情グループを予め定義してよい。図４は、本発明の例示的な実施形態の１つによる感情グループの類別を表す概略図である。図４を参照し、１つの実施形態において、類別４０１として、１つの感情グループは、喜び、悲しみ、恐れ、嫌悪、怒り、驚き、又は興奮といった、１つの感情カテゴリのみを含む。もう１つの実施形態において、類別４０２として、１つの感情グループは複数の感情カテゴリを含み、各カテゴリはポジティブ又はネガティブな感情であってよい。ポジティブな感情は、例えば、喜び、興奮、驚きを含んでよい。ネガティブな感情は、例えば、悲しみ、恐れ、怒りを含んでよい。いくつかの実施形態において、いくつかの感情グループは１つの感情カテゴリのみを含み、その他は複数の感情カテゴリを含んでよい。

各第１の感情判断は、１つの感情グループ（のみ）に関連することに注意されたい。図５は、本発明の例示的な実施形態の１つによるユーザデータと第１の感情判断との関係性を表す概略図である。図５を参照し、ステップＳ２３０である第１段階において、プロセッサ１５０は、ユーザデータから第１の感情判断を生成するため、複数のデータソースからの各ユーザデータの対応感情グループをそれぞれ判定してよい。１つの実施形態において、各第１の感情判断は特定の感情である。例えば、第１のデータソースはユーザの目の画像であり、第２のデータソースは音声である。第１の感情判断は、第１と第２のデータソースにおいてそれぞれ喜びと悲しみ感情である。もう１つの実施形態において、各第１の感情判断は、２以上の感情カテゴリの感情加重された組合せである。感情加重された組合せの感情重みは、百分率又は強度（即ち、感情のレベル）の形式であってよい。例えば、第３のデータソースは顔面筋活動である。第１の感情判断は、第３のデータソースに対し６０％の喜び感情と４０％の驚き感情であり、これにおいて喜び感情の感情重みは０．６であり、驚き感情の感情重みは０．４となる。感情重みは、全ての対応感情カテゴリにおける当該対応感情カテゴリの比率であってよい。いくつかの実施形態において、各感情は複数のレベルを更に含んでよい。例えば、喜び感情は３つのレベルを含み、これにおいて第１レベルは喜び感情の最も弱い強度を表し、第３レベルは喜び感情の最も強い強度を表す。このため、感情重みは、対応感情カテゴリの強度であってよい。このため、プロセッサ１５０は、各第１の感情判断に対し感情のレベルを更に判定する。

図６は、本発明の例示的な実施形態の１つによる第１段階を表す概略図である。図６を参照し、１つの実施形態において、プロセッサ１５０は、機械学習技術（ＮＮ、Ｋ平均法、ＳＶＭ等）又はツリーベースの分類方法（ブースティングツリー、ブートストラップ集約決定木等）に基づき、第１の感情分類器２３１を用いることにより、各第１の感情判断をそれぞれ判定してよい。機械学習技術において、観測が属するのがカテゴリのセットのどれかを識別するため、分類器又はモデルが用いられる。本実施形態において、第１の感情の観測はユーザデータであり、第１の感情カテゴリは第２の感情判断に対応する。即ち、第１の感情分類器は、各ユーザデータが属するのが感情グループのどれかを識別するために用いられる。換言すれば、各ユーザデータは第１の感情分類器の入力データであってよく、各第１の感情判断は第１の感情分類器の出力データである。人工ニューラルネットワーク（ＡＮＮ）を例とすると、ＡＮＮは、入力データ又は前のニューロンの出力を受け取る人工ニューロンで構成される。ネットワークは接続からなり、各接続は前のニューロンからの１つのニューロンの出力とそれらの接続を加重和として提供し、各接続は入力重みに対応する。ＡＮＮの学習段階において、入力重みは分類器の結果の精度を向上させるため調整されてよい。学習段階において、プロセッサ１５０は、複数の第１の訓練感情と以前の訓練感知データにより、各データソースのための第１の感情分類器を訓練してよいことに注意されたい。これら第１の訓練感情は全ての感情グループを含む。これは、第１の感情分類器の出力データが感情グループの何れかであることを意味する。更には、訓練感知データは、各データソースから取得され、それぞれ（第１の訓練感情となり得る）特定の感情に対応する。

もう１つの実施形態において、プロセッサ１５０は、顔の特徴２３２に関連する１以上の距離により第１の感情判断を判定してよい。例えば、ユーザの鼻根点のしわの存在、目の形状、歯、舌、又は鼻の存在である。上瞼と眉との間の距離が閾値未満の場合、第１の感情判断は喜び又は驚き感情でありうる。更に、口の開きのサイズがもう１つの閾値より大きい場合、第１の感情判断は驚き感情でありうる。

もう１つの実施形態において、プロセッサ１５０は、音声からユーザデータ内の言葉を識別し、識別された言葉に意味解析２３３を実行してよい。意味解析の間、プロセッサ１５０は、特定のキーワード又は特定のキーフレーズがユーザデータ内に検出されるか否かを判定するため、ユーザデータ内の識別された言葉が特定のキーワード又はキーフレーズに一致するか否かを判定する。プロセッサ１５０は複数のキーワード及び／又はキーフレーズを予め定義してよく、予め定義されたキーワード又は予め定義されたキーフレーズのそれぞれは、特定の感情、特定の感情レベル、２以上の感情カテゴリの特定の感情加重された組合せ、又は特定のレベルを有する２以上の感情の特定の感情加重された組合せに対応する。例えば、ユーザデータは「私はとても嬉しい」という文に関連し、キーワード「とても嬉しい」は喜び感情の第５レベルに対応する。識別された言葉が１つの予め定義されたキーワード又は１つの予め定義されたキーフレーズと一致する（即ち、予め定義されたキーワード又はフレーズが検出された）場合、プロセッサ１５０は、対応する第１の感情判断が喜び感情の第５レベルであると判定する。

もう１つの実施形態において、プロセッサ１５０は、カメラ画像又はモーション感知データからユーザデータを解析してよい。プロセッサ１５０は、画像内に予め定義された動き又は予め定義された表情が検出されるか否かを判定するため、画像解析２３４を実行してよい。例えば、プロセッサ１５０がカメラ画像において口の端が上がっていることを検出した場合、プロセッサ１５０は喜び感情が検出されたとみなしてよい。もう１つの例として、プロセッサ１５０がモーション感知データにおいてユーザが両手を挙げたことを検出した場合、プロセッサ１５０は喜び感情が検出されたとみなしてよい。

異なるデータソースによって、第１の感情判断を判定する多くの方法がまだ存在し、本実施形態はこれに限定されないことに注意されたい。更に、いくつかの実施形態において、プロセッサ１５０は、対応する第１の感情判断を判定するため、全データソースから１以上のデータソースを選択してよい。選択されたデータソースは、他よりも感情推定においてより正確な判定を有する可能性がある。

複数のユーザデータ（又はデータソース）の第１の感情判断が判定された後、プロセッサ１５０は、第１の感情判断の間で感情衝突が起こるか否かを判定してよい（ステップＳ２５０）。具体的には、感情衝突は、これら第１の感情判断の対応感情グループが互いに一致していないことに関連する。例えば、（目の特徴といった）第４のデータソースの第１の感情判断がポジティブな感情であり、（口の特徴といった）第５のデータソースの第１の感情判断がネガティブな感情である場合、感情衝突が起こる。もう１つの例として、（心電図（ＥＣＧ）といった）第６のデータソースの第１の感情判断が喜び感情であり、（筋電図（ＥＭＧ）といった）第７のデータソースの第１の感情判断が悲しみ感情である場合、感情衝突が起こる。

１つの実施形態において、プロセッサ１５０は、感情衝突の判定に信頼度を用いてよい。信頼度は、第１の感情判断がどれほど信頼できるかである。具体的には、プロセッサ１５０は、これら第１の感情判断の感情値をそれぞれ判定してよい。感情値は、第１の感情判断がどの程度信頼できるか、又は信頼度がどの程度かに関連する。感情値が大きいほど第１の感情判断は信頼性がより高くなり、信頼度がより高くなる。感情値が小さいほど第１の感情判断はより信頼性がより低くなり、信頼度がより低くなる。感情値は、第１の感情分類器又は信頼度に関する別のアルゴリズムの出力により判定されてよい。次いで、プロセッサ１５０は、感情値の重み値の組合せを判定し、感情値の重み値の組合せを信頼できる閾値と比較する。プロセッサ１５０は、対応する感情重みを各第１の感情判断の感情値に与え、感情値に対しこれらに対応する感情重みで加重演算を実行してよい。感情重みの組合せが信頼できる閾値よりも大きい場合、感情衝突は起きない。反対に、重み値の組合せが信頼できる閾値よりも大きくない場合、感情衝突が起こる。第１の感情判断が複数の感情カテゴリの感情加重された組合せである場合、感情値も複数の感情カテゴリの感情加重された組合せであり、対応する信頼できる閾値は、感情値が位置する座標系における線形方程式、曲線方程式、又は別の方程式と同等又は類似であることに注意されたい。

いくつかの実施形態において、プロセッサ１５０は、感情衝突が起こるか否かを判定するため、より高い信頼性を有する１以上の第１の感情判断を選択してよい。例えば、プロセッサ１５０は顔面筋活動と音声から２つの第１の感情判断を選択し、これら第１の感情判断が同一の感情グループに属するか否かを比較する。

次いで、プロセッサ１５０は、感情衝突の判定結果に応じて、１以上の感情グループから第２の感情判断を判定してよい（ステップＳ２５５）。判定結果は、感情衝突が発生することであってよく、感情衝突が発生することは感情衝突が発生しないことであってよい。プロセッサ１５０は、１つの感情グループ（のみ）に関連する第２の感情判断を生成するため、１以上の感情グループを融合してよい。

１つの実施形態において、感情衝突が発生する場合、プロセッサ１５０は少なくとも２つの感情グループから第２の感情判断を判定してよい（ステップＳ２６０）。具体的には、感情衝突が発生する場合、第１の感情判断は２以上の感情グループを含む。第２段階において、プロセッサ１５０は、第１の感情判断が属する感情グループから、又は全ての感情グループから、第２の感情判断を更に判定してよく、第２の感情判断は１つの感情グループ（のみ）に関連する。

図７は、本発明の例示的な実施形態の１つによる第２の感情判断の生成を表すフロー図である。図７を参照し、１つの実施形態において、プロセッサ１５０は、第２の感情判断を判定するため、１以上の第１の感情判断を用いてよい（ステップＳ２６１）。これは、第１の感情判断が第２の感情判断のための参考となり得ることを意味する。１つの実施形態において、プロセッサ１５０は、２以上の第１の感情判断の加重された判断の組合せを判定し、該加重された判断の組合せに基づき第２の感情判断を判定する。プロセッサ１５０は第１の感情判断において加重演算を実行してよく、算出結果は第２の感情判断に関連する。第２の感情判断は、実数、特定の感情カテゴリ、特定の感情カテゴリの特定のレベル、又は複数の感情カテゴリの感情加重された組合せであってよい。もう１つの実施形態において、第２の感情判断は、第１の感情判断が判定モデルの入力データである、機械学習技術又はツリーベースの分類方法を介し判定されうる。

いくつかの実施形態において、プロセッサ１５０は、第２の感情判断を判定するため、より高い信頼性又は異なる感情グループを有する２以上の第１の感情判断を選択してよいことに注意されたい。

もう１つの実施形態において、プロセッサ１５０は、第２の感情判断を判定するため、１以上のデータソースからの１以上のユーザデータを用いてもよい（ステップＳ２６３）。これは、ユーザデータが第２の感情判断のための参照となり得ることを意味する。１つの実施形態において、プロセッサ１５０は、機械学習技術又はツリーベースの分類方法に基づき、第２の感情分類器を用いることにより第２の感情判断を判定してよい。第２の感情分類器は、これらユーザデータが属するのが感情グループのどれかを識別するために用いられる。ユーザデータは第２の感情分類器の入力データであってよく、第２の感情判断は第２の感情分類器の出力データである。プロセッサ１５０は、複数の第２の訓練感情と以前の訓練感知データにより、第２の感情分類器を事前に訓練してもよいことに注意されたい。これら第２の訓練感情は、２以上の感情グループを含む。これは、第２の感情分類器の出力データが、選択された感情グループの１つのみであり得ることを意味する。更には、訓練感知データは各データソースから得られ、それぞれ（第２の訓練感情になり得る）特定の感情に対応する。プロセッサ１５０は、第２の感情判断のために第１の感情判断の感情グループ又は全感情グループにより訓練された第２の感情分類器を選択してよい。

複数のデータソースからの未処理データ、事前処理データ、又は事前構成データは、同一の量、単位、又は収集時間間隔を有さなくてもよいことに注意されたい。図８は、本発明の例示的な実施形態の１つによるユーザデータ変換を表すフロー図である。図８を参照し、１つの実施形態において、プロセッサ１５０は、ユーザデータの組合せを生成するため、入力される２以上のユーザデータを更に組み合わせてよい。例えば、特徴抽出の後、第１のデータソースからのユーザデータは４０×１マトリックスであり、第２のデータソースからのユーザデータは８０×２マトリックスであり、ユーザデータの組合せは１２０×１マトリックスでありうる。プロセッサ１５０は、ユーザデータの組合せに線形変換を更に実行しユーザデータから顔の特徴を抽出してよい（ステップＳ２６２）。線形変換は、特定の機械学習技術又は特定のツリーベースの分類方法に基づき設計される。次いで、線形返還後のデータは第２の感情分類器の入力となりうる。

一方、１つの実施形態において、感情衝突が発生しない場合、プロセッサ１５０は、１つの感情グループ（のみ）から第２の感情判断を判定してよい（ステップＳ２７０）。具体的には、感情衝突が発生しない場合、第１の感情判断は１つの感情グループのみを含む。１つの実施形態において、１つの感情グループは１つの感情カテゴリのみを含み、プロセッサ１５０は第２の感情判断として第１の感情判断の任意の１つを判定してよい。

ただし、いくつかの実施形態において、１つの感情グループは複数の感情カテゴリを含んでよく、１つの感情カテゴリは複数のレベルを含んでよい。プロセッサ１５０は、第１の感情判断が属する感情カテゴリから第２の感情判断を更に判定してよく、第２の感情判断は、特定レベルの特定の感情カテゴリ（のみ）、又は感情カテゴリの特定の感情加重された組合せに関連する。

１つの実施形態において、プロセッサ１５０は、機械学習技術又はツリーベースの分類方法に基づき、第３の感情分類器を用いることにより第２の感情判断を判定してよい。第３の感情分類器は、ユーザデータ又は第１の感情判断が属するのが感情グループのどれかを識別するために用いられる。ユーザデータ又は１以上の第１の感情判断は第３の感情分類器の入力データであり、第２の感情判断は第３の感情分類器の出力データである。第１及び第２の感情分類器と比較し、プロセッサ１５０は第３の訓練感情により第３の感情分類器を訓練し、第３の訓練感情は１つの感情グループのみを含むことに注意されたい。プロセッサ１５０は、第２の感情判断のため、第１の感情判断の感情グループにより訓練された第３の感情分類器を選択してよい。もう１つの実施形態において、プロセッサ１５０は、２以上の第１の感情判断の加重された判断の組合せを判定し、加重された判断の組合せに基づき第２の感情判断を判定してよい。

次いで、プロセッサ１５０は、第２の感情判断に基づき、アバターの表情を生成してよい（ステップＳ２９０）。具体的には、アバターの顔は（顔、目、鼻、眉の形状又は動きといった）複数の顔の特徴を含んでよい。アバターの表情は、形状パラメータとテクスチャパラメータ（併せて表情パラメータと呼称される）を含んでよい。各形状パラメータはアバターの顔の頂点の２次元又は３次元座標を示すために用いられる。いくつかの実施形態において、各テクスチャパラメータは、対応する第２の感情判断（例えば、特定の感情、特定の感情の特定のレベル、又は複数の感情カテゴリの特定の感情加重された組合せ）の顔画像が適用される顔の位置を示すために用いられる。

プロセッサ１５０は、特定の感情に対応する表情を生成するため、表情の特徴で第２の感情判断を生成、併合又は置き換えてよい。１つの実施形態において、プロセッサ１５０は、（正規分布、幾何分布、ベルヌーイ分布といった）確率分布により、対応する表情グループから１つの表情を選択してよい。各表情グループは、複数の表情を含む。各感情又は１つの感情の各レベルは、特定の表情グループに対応する。例えば、特定の第２の感情判断には１０の表情があり、プロセッサ１５０は該１０の表情から１つをランダムに選択してよい。

いくつかの実施形態において、プロセッサ１５０は各第２の感情判断のための顔の特徴を生成してよい。各第２の感情判断は、顔の特徴のパラメータの（長さ、角度、色、サイズといった）特定の制限で構成されてよく、対応する顔の特徴は該制限に基づき生成されることができる。例えば、第２の感情判断が喜び感情を有し、喜び感情の感情的な重みが０．１以上であるとき、唇の長さはある範囲を有する。

いくつかの実施形態において、各第２の感情判断は顔テンプレートに対応し、顔テンプレートは特定の画像又は特定のアニメーションに対応する。プロセッサ１５０は顔モデルの特定の位置に顔テンプレートを貼り付けてよい。

まとめると、上記の例示的な実施形態は、顔モデルのアバター表情生成システムとアバター表情生成方法を描写している。感情判断は、第１段階において複数のデータソースに基づき判定される。第１段階において感情判断の間で感情衝突が発生する場合、第２段階において適切な感情判断が更に判定される。従って、アバターに適切な感情の通常の表情が提示される。不確かな表情パラメータは減少される。更には、仮想環境における社会的コミュニケーションが鮮やかな表情で改善される。

当業者にとって、本発明の範囲又は精神から逸脱することなく、本発明の構造に様々な改変と変形を行うことができることは明らかであろう。上記を鑑み、本発明は、以下の特許請求の範囲及びそれらの均等物の範囲内にあるという条件で、本発明の改変及び変形を網羅することを意図している。

本発明のアバター表情生成システム及びアバター表情生成方法は、アバター表情生成に適用することができる。

１００：表情生成システム
１１０：追跡デバイス
１１５：センサ
１２０：ディスプレイ
１３０：メモリ
１５０：プロセッサ
Ｓ２１０〜Ｓ２９０、Ｓ２１１〜Ｓ２１３、Ｓ２６０〜Ｓ２６３：ステップ
４０１、４０２：感情グループ
２３１：第１の感情分類器
２３２：顔の特徴に関する距離
２３３：意味解析
２３４：画像解析

仮想現実（ＶＲ）、拡張現実（ＡＲ）、複合現実（ＭＲ）を含む、ＸＲ（ＥｘｔｅｎｄｅｄＲｅａｌｉｔｙ）といった、感覚、知覚、及び／又は環境のシミュレーションのための技術は、最近人気が高まっている。前記技術は、ゲーム、軍事訓練、医療、遠隔操作等といった、複数の分野に応用することができる。

ユーザに仮想環境を実環境として認識させるため、実環境におけるユーザの人体部位の動き又はユーザの表情が追跡され、これによりＶＲ、ＡＲ、又はＭＲの画面上で表示されるアバターの表情がユーザの動き又は表情に反応して変化することができ、仮想環境における社会的コミュニケーション効果が改善される。

例示的な実施形態の１つにおいて、アバター表情生成システムは、１以上の追跡デバイスと、メモリと、プロセッサとを含むが、これに限定されない。追跡デバイスは複数のユーザデータを取得する。各ユーザデータは、複数のデータソースの１つからのユーザの感知結果に関連する。メモリはプログラムコードを格納する。プロセッサはメモリに連接され、次のステップを実行するためプログラムコードをロードする。プロセッサは、各ユーザデータそれぞれに基づき複数の第１の感情判断を判定し、第１の感情判断の間で感情衝突が発生するか否かを判定し、感情衝突の判定結果に応じて１以上の感情グループから第２の感情判断を判定し、第２の感情判断に基づきアバターの表情を生成する。感情衝突は、第１の感情判断の対応する感情グループが互いに一致していないことに関連する。第１又は第２の感情判断は、１つの感情グループに関連する。

図１は、本発明の例示的な実施形態の１つによるアバター表情生成システムを表すブロック図である。図１を参照し、アバター表情生成システム１００は、１以上の追跡デバイス１１０と、ディスプレイ１２０と、メモリ１３０と、プロセッサ１５０とを含むが、これに限定されない。アバター表情生成システム１００は、ＶＲ、ＡＲ、ＭＲ、又は他の現実シミュレーション関連技術に適合される。

図６は、本発明の例示的な実施形態の１つによる第１段階を表す概略図である。図６を参照し、１つの実施形態において、プロセッサ１５０は、機械学習技術（ＮＮ、Ｋ平均法、ＳＶＭ等）又はツリーベースの分類方法（ブースティングツリー、ブートストラップ集約決定木等）に基づき、第１の感情分類器２３１を用いることにより、各第１の感情判断をそれぞれ判定してよい。機械学習技術において、観測結果が属するのがカテゴリのセットのどれかを識別するため、分類器又はモデルが用いられる。本実施形態において、第１の感情の観測結果はユーザデータであり、第１の感情カテゴリは第１の感情判断に対応する。即ち、第１の感情分類器は、各ユーザデータが属するのが感情グループのどれかを識別するために用いられる。換言すれば、各ユーザデータは第１の感情分類器の入力データであってよく、各第１の感情判断は第１の感情分類器の出力データである。人工ニューラルネットワーク（ＡＮＮ）を例とすると、ＡＮＮは、入力データ又は前のニューロンの出力を受け取る人工ニューロンで構成される。ネットワークは接続からなり、各接続は前のニューロンからの１つのニューロンの出力とそれらの接続を加重和として提供し、各接続は入力重みに対応する。ＡＮＮの学習段階において、入力重みは分類器の結果の精度を向上させるため調整されてよい。学習段階において、プロセッサ１５０は、複数の第１の訓練感情と以前の訓練感知データにより、各データソースのための第１の感情分類器を訓練してよいことに注意されたい。これら第１の訓練感情は全ての感情グループを含む。これは、第１の感情分類器の出力データが感情グループの何れかであることを意味する。更には、訓練感知データは、各データソースから取得され、それぞれ（第１の訓練感情となり得る）特定の感情に対応する。

もう１つの実施形態において、プロセッサ１５０は、顔の特徴に関連する１以上の距離２３２により第１の感情判断を判定してよい。例えば、ユーザの鼻根点のしわの存在、目の形状、歯、舌、又は鼻の存在である。上瞼と眉との間の距離が閾値未満の場合、第１の感情判断は喜び又は驚き感情でありうる。更に、口の開きのサイズがもう１つの閾値より大きい場合、第１の感情判断は驚き感情でありうる。

１つの実施形態において、プロセッサ１５０は、感情衝突の判定に信頼度を用いてよい。信頼度は、第１の感情判断がどれほど信頼できるかである。具体的には、プロセッサ１５０は、これら第１の感情判断の感情値をそれぞれ判定してよい。感情値は、第１の感情判断がどの程度信頼できるか、又は信頼度がどの程度かに関連する。感情値が大きいほど第１の感情判断は信頼性がより高くなり、信頼度がより高くなる。感情値が小さいほど第１の感情判断はより信頼性がより低くなり、信頼度がより低くなる。感情値は、第１の感情分類器又は信頼度に関する別のアルゴリズムの出力により判定されてよい。次いで、プロセッサ１５０は、感情値の重み値の組合せを判定し、感情値の重み値の組合せを信頼性閾値と比較する。プロセッサ１５０は、対応する感情重みを各第１の感情判断の感情値に与え、感情値に対しこれらに対応する感情重みで加重演算を実行してよい。感情重みの組合せが信頼性閾値よりも大きい場合、感情衝突は起きない。反対に、重み値の組合せが信頼性閾値よりも大きくない場合、感情衝突が起こる。第１の感情判断が複数の感情カテゴリの感情加重された組合せである場合、感情値も複数の感情カテゴリの感情加重された組合せであり、対応する信頼性閾値は、感情値が位置する座標系における線形方程式、曲線方程式、又は別の方程式と同等又は類似であることに注意されたい。

次いで、プロセッサ１５０は、感情衝突の判定結果に応じて、１以上の感情グループから第２の感情判断を判定してよい（ステップＳ２５５）。判定結果は、感情衝突が発生すること、又は感情衝突が発生しないことであってよい。プロセッサ１５０は、１つの感情グループ（のみ）に関連する第２の感情判断を生成するため、１以上の感情グループを融合してよい。

複数のデータソースからの未処理データ、事前処理データ、又は事前構成データは、同一の量、単位、又は収集時間間隔を有さなくてもよいことに注意されたい。図８は、本発明の例示的な実施形態の１つによるユーザデータ変換を表すフロー図である。図８を参照し、１つの実施形態において、プロセッサ１５０は、ユーザデータの組合せを生成するため、入力される２以上のユーザデータを更に組み合わせてよい。例えば、特徴抽出の後、第１のデータソースからのユーザデータは４０×１マトリックスであり、第２のデータソースからのユーザデータは８０×２マトリックスであり、ユーザデータの組合せは１２０×１マトリックスでありうる。プロセッサ１５０は、ユーザデータから顔の特徴を抽出するため、ユーザデータの組合せに線形変換を更に実行してよい（ステップＳ２６２）。線形変換は、特定の機械学習技術又は特定のツリーベースの分類方法に基づき設計される。次いで、線形返還後のデータは第２の感情分類器の入力となりうる。

次いで、プロセッサ１５０は、第２の感情判断に基づき、アバターの表情を生成してよい（ステップＳ２９０）。具体的には、アバターの顔は（顔、目、鼻、眉の形状又は動きといった）複数の顔の特徴を含んでよい。アバターの表情は、形状パラメータとテクスチャパラメータ（併せて表情パラメータと呼称される）を含んでよい。各形状パラメータはアバターの顔の頂点の２次元又は３次元座標を示すために用いられる。いくつかの実施形態において、各テクスチャパラメータは、第２の感情判断（例えば、特定の感情、特定の感情の特定のレベル、又は複数の感情カテゴリの特定の感情加重された組合せ）に対応する顔画像が適用される顔の位置を示すために用いられる。

Claims

複数のユーザデータを取得することであって、各ユーザデータが複数のデータソースの１つからのユーザの感知結果に関連することと、
各ユーザデータに基づき複数の第１の感情判断をそれぞれ判定することであって、各前記第１の感情判断が複数の感情グループの１つに関連することと、
前記複数の第１の感情判断の間で感情衝突が発生するか否かを判定することであって、前記感情衝突が、前記複数の第１の感情判断の対応する感情グループが互いに一致しないことに関連することと、
前記感情衝突の判定結果に応じて、前記感情グループの少なくとも１つから第２の感情判断を判定することであって、前記第２の感情判断が前記複数の感情グループの１つに関連することと、
前記第２の感情判断に基づき、アバターの表情を生成することと
を含む、アバター表情生成方法。
複数のユーザデータを取得する少なくとも１つの追跡デバイスであって、各ユーザデータが複数のデータソースの１つからのユーザの感知結果に関連する、追跡デバイスと、
プログラムコードを格納する、メモリと、
前記メモリに連接され、
各ユーザデータに基づき複数の第１の感情判断をそれぞれ判定することであって、各前記第１の感情判断が複数の感情グループの１つに関連することと、
前記複数の第１の感情判断の間で感情衝突が発生するか否かを判定することであって、前記感情衝突が、前記複数の第１の感情判断の対応する感情グループが互いに一致しないことに関連することと、
前記感情衝突の判定結果に応じて、前記感情グループの少なくとも１つから第２の感情判断を判定することであって、前記第２の感情判断が前記複数の感情グループの１つに関連することと、
前記第２の感情判断に基づき、アバターの表情を生成することと
を実行するため前記プログラムコードをロードする、プロセッサと
を含む、アバター表情生成システム。
前記感情衝突の前記判定結果に応じて、前記感情グループの少なくとも１つから前記第２の感情判断を判定する前記ステップが、
前記感情衝突が発生することに応じて、前記感情グループの少なくとも２つから前記第２の感情判断を判定すること
を含む、請求項１に記載のアバター表情生成方法、又は、
前記プロセッサが、
前記感情衝突が発生することに応じて、前記感情グループの少なくとも２つから前記第２の感情判断を判定すること
を更に実行する、請求項２に記載のアバター表情生成システム。
前記感情衝突が発生することに応じて、前記感情グループの少なくとも２つから前記第２の感情判断を判定する前記ステップが、
前記第２の感情判断を判定するため、前記第１の感情判断の少なくとも１つを用いること
を含む、請求項３に記載のアバター表情生成方法、又は、
前記プロセッサが、
前記第２の感情判断を判定するため、前記第１の感情判断の少なくとも１つを用いること
を更に実行する、請求項３に記載のアバター表情生成システム。
前記感情衝突が発生することに応じて、前記感情グループの少なくとも２つから前記第２の感情判断を判定する前記ステップが、
前記第２の感情判断を判定するため、前記複数のユーザデータの少なくとも１つを用いること
を含む、
請求項１に記載のアバター表情生成方法、又は、
前記プロセッサが、
前記第２の感情判断を判定するため、前記複数のユーザデータの少なくとも１つを用いること
を更に実行する、
請求項２に記載のアバター表情生成システム。
前記第２の感情判断を判定するため、前記第１の感情判断の少なくとも１つを用いる前記ステップが、
前記第１の感情判断の少なくとも２つの加重された判断の組合せを判定することと、
前記加重された判断の組合せに基づき前記第２の感情判断を判定することと
を含む、
請求項４に記載のアバター表情生成方法、又は、
前記プロセッサが、
前記第１の感情判断の少なくとも２つの加重された判断の組合せを判定することと、
前記加重された判断の組合せに基づき前記第２の感情判断を判定することと
を更に実行する、
請求項４に記載のアバター表情生成システム。
前記第２の感情判断を判定するため、前記複数のユーザデータの少なくとも１つを用いる前記ステップが、
ユーザデータの組合せを生成するため前記複数のユーザデータの少なくとも２つを組み合わせることと、
前記複数のユーザデータの少なくとも２つから顔の特徴を抽出するため、前記ユーザデータの組合せに線形変換を実行することと
を含む、
請求項５に記載のアバター表情生成方法、又は、
前記プロセッサが、
ユーザデータの組合せを生成するため前記複数のユーザデータの少なくとも２つを組み合わせることと、
前記複数のユーザデータの少なくとも２つから顔の特徴を抽出するため、前記ユーザデータの組合せに線形変換を実行することと
を更に実行する、
請求項５に記載のアバター表情生成システム。
前記第２の感情判断を判定するため、前記複数のユーザデータの少なくとも１つを用いる前記ステップが、
機械学習技術に基づき、第１の感情分類器を用いることにより前記第２の感情判断を判定することであって、前記第１の感情分類器が前記複数のユーザデータの少なくとも１つが属するのが前記感情グループのどれかを識別するために用いられ、前記複数のユーザデータの前記少なくとも１つが前記第１の感情分類器の入力データであり、前記第２の感情判断が前記第１の感情分類器の出力データであり、前記第１の感情分類器が前記感情グループの少なくとも２つを含む複数の第１の訓練感情により訓練されること
を含む、
請求項５に記載のアバター表情生成方法、又は、
前記プロセッサが、
機械学習技術に基づき、第１の感情分類器を用いることにより前記第２の感情判断を判定することであって、前記第１の感情分類器が前記複数のユーザデータの少なくとも１つが属するのが前記感情グループのどれかを識別するために用いられ、前記複数のユーザデータの前記少なくとも１つが前記第１の感情分類器の入力データであり、前記第２の感情判断が前記第１の感情分類器の出力データであり、前記第１の感情分類器が前記感情グループの少なくとも２つを含む複数の第１の訓練感情により訓練されること
を更に実行する、
請求項５に記載のアバター表情生成システム。
各ユーザデータに基づき前記複数の第１の感情判断をそれぞれ判定する前記ステップが、
機械学習技術に基づき、第２の感情分類器を用いることにより各前記第１の感情判断を判定することであって、前記第２の感情分類器が前記複数のユーザデータのそれぞれが属するのが前記感情グループのどれかを識別するために用いられ、前記複数のユーザデータの前記少なくとも１つが前記第２の感情分類器の入力データであり、各前記第１の感情判断が前記第２の感情分類器の出力データであり、前記第２の感情分類器が前記感情グループの全てを含む複数の第２の訓練感情により訓練されること
を含む、
請求項１に記載のアバター表情生成方法、又は、
前記プロセッサが、
機械学習技術に基づき、第２の感情分類器を用いることにより各前記第１の感情判断を判定することであって、前記第２の感情分類器が前記複数のユーザデータのそれぞれが属するのが前記感情グループのどれかを識別するために用いられ、前記複数のユーザデータの前記少なくとも１つが前記第２の感情分類器の入力データであり、各前記第１の感情判断が前記第２の感情分類器の出力データであり、前記第２の感情分類器が前記感情グループの全てを含む複数の第２の訓練感情により訓練されること
を更に実行する、
請求項２に記載のアバター表情生成システム。
各前記第１の感情判断又は前記第２の感情判断が、複数の感情カテゴリの感情加重された組合せである、
請求項１に記載のアバター表情生成方法、又は、
請求項２に記載のアバター表情生成システム。
前記複数の第１の感情判断の間で前記感情衝突が発生するか否かを判定する前記ステップが、
前記複数の第１の感情判断の感情値をそれぞれ判定することと、
前記感情値の重み値の組合せを判定することと、
前記感情値の前記重み値の組合せを信頼性閾値と比較することであって、前記重み値の組合せが前記信頼性閾値よりも大きいことに応じて前記感情衝突が発生せず、前記重み値の組合せが前記信頼性閾値よりも大きくないことに応じて前記感情衝突が発生すること
を含む、
請求項１に記載のアバター表情生成方法、又は、
前記プロセッサが、
前記複数の第１の感情判断の感情値をそれぞれ判定することと、
前記感情値の重み値の組合せを判定することと、
前記感情値の前記重み値の組合せを信頼性閾値と比較することであって、前記重み値の組合せが前記信頼性閾値よりも大きいことに応じて前記感情衝突が発生せず、前記重み値の組合せが前記信頼性閾値よりも大きくないことに応じて前記感情衝突が発生すること
を更に実行する、
請求項２に記載のアバター表情生成システム。
前記感情衝突の前記判定結果に応じて、前記感情グループの少なくとも１つから前記第２の感情判断を判定する前記ステップが、
前記感情衝突が発生しないことに応じて、前記複数の感情グループの１つから前記第２の感情判断を判定すること
を含む、
請求項１に記載のアバター表情生成方法、又は、
前記プロセッサが、
前記感情衝突が発生しないことに応じて、前記複数の感情グループの１つから前記第２の感情判断を判定すること
を更に実行する、
請求項２に記載のアバター表情生成システム。
前記複数の感情グループの１つから前記第２の感情判断を判定する前記ステップが、
機械学習技術に基づき、第３の感情分類器を用いることにより前記第２の感情判断を判定することであって、前記第３の感情分類器が前記複数のユーザデータ又は前記複数の第１の感情判断が属するのが前記感情グループのどれかを識別するために用いられ、前記複数のユーザデータの前記少なくとも１つ又は前記第１の感情判断の少なくとも１つが前記第３の感情分類器の入力データであり、前記第２の感情判断が前記第３の感情分類器の出力データであり、前記第３の感情分類器が前記複数の感情グループの１つのみを含む第３の訓練感情により訓練されること
を含む、
請求項１２に記載のアバター表情生成方法、又は、
前記プロセッサが、
機械学習技術に基づき、第３の感情分類器を用いることにより前記第２の感情判断を判定することであって、前記第３の感情分類器が前記複数のユーザデータ又は前記複数の第１の感情判断が属するのが前記感情グループのどれかを識別するために用いられ、前記複数のユーザデータの前記少なくとも１つ又は前記第１の感情判断の少なくとも１つが前記第３の感情分類器の入力データであり、前記第２の感情判断が前記第３の感情分類器の出力データであり、前記第３の感情分類器が前記複数の感情グループの１つのみを含む第３の訓練感情により訓練されること
を更に実行する、
請求項１２に記載のアバター表情生成システム。
前記複数のデータソースが、前記ユーザの目標部位又は感知技術において異なる、
請求項１に記載のアバター表情生成方法、又は、
請求項２に記載のアバター表情生成システム。