JP2021135995A - アバター表情生成システム及びアバター表情生成方法 - Google Patents

アバター表情生成システム及びアバター表情生成方法 Download PDF

Info

Publication number
JP2021135995A
JP2021135995A JP2020125192A JP2020125192A JP2021135995A JP 2021135995 A JP2021135995 A JP 2021135995A JP 2020125192 A JP2020125192 A JP 2020125192A JP 2020125192 A JP2020125192 A JP 2020125192A JP 2021135995 A JP2021135995 A JP 2021135995A
Authority
JP
Japan
Prior art keywords
emotional
emotion
judgment
facial expression
user data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020125192A
Other languages
English (en)
Inventor
峰森 朱
feng sen Zhu
峰森 朱
永明 周
yong ming Zhou
永明 周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XRspace Co Ltd
Original Assignee
XRspace Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US16/802,571 external-priority patent/US11127181B2/en
Application filed by XRspace Co Ltd filed Critical XRspace Co Ltd
Publication of JP2021135995A publication Critical patent/JP2021135995A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】仮想環境において感情を有するアバターの表情をシミュレーションするための、アバター表情生成システム及びアバター表情生成方法を提供する。【解決手段】アバター表情生成システム及びによるアバター表情生成方法は、複数のユーザデータを取得し、各ユーザデータに基づき、複数の第1の感情判断をそれぞれ判定する。第1の感情判断の間で感情衝突が発生するか否かが判定される。感情衝突は、第1の感情判断の対応する感情グループが互いに一致しないことに関連し、感情衝突の判定結果に応じて、1以上の感情グループから第2の感情判断が判定される。第1又は第2の感情判断は、1つの感情グループに関連し、第2の感情判断に基づいて、アバターの表情が生成される。【選択図】図2

Description

本発明は、アバターシミュレーションに関するものであり、特に、アバター表情生成システム及びアバター表情生成方法に関するものである。
仮想現実(VR)、拡張現実(AR)、複合現実(MR)、XR(Extended Reality)といった、感覚、知覚、及び/又は環境のシミュレーションのための技術は、最近人気が高まっている。前記技術は、ゲーム、軍事訓練、医療、遠隔操作等といった、複数の分野に応用することができる。
ユーザに仮想環境を実環境として認識させるため、実環境におけるユーザの人体部位の動き又はユーザの表情が追跡され、これによりVR、AR、MR、又はXRの画面上で表示されるアバターの表情がユーザの動き又は表情に反応して変化することができ、仮想環境における社会的コミュニケーション効果が改善される。
表情のシミュレーションについて、従来のアプローチでは、ヘッドマウントディスプレイ(HMD)を装着したユーザの顔を撮像するカメラが設けられ、撮像画像における顔の特徴に応じてシミュレーションされた表情が生成される。しかし、顔の一部はHMDにより覆われており、このため顔の特徴と表情を識別することが難しく、アバターの表情は実環境におけるユーザの表情と同一でない可能性がある。
カメラのみで表情を予測することは困難である。従って、本発明は、仮想環境において感情を有するアバターの表情をシミュレーションするための、アバター表情生成システム及びアバター表情生成方法を対象とする。
例示的な実施形態の1つにおいて、アバター表情生成方法は、次のステップを含むが、これに限定されない。複数のユーザデータが取得される。各ユーザデータは、複数のデータソースからのユーザの感知結果に関連する。各ユーザデータに基づき、複数の第1の感情判断がそれぞれ判定される。第1の感情判断の間で感情衝突が発生するか否かが判定される。感情衝突は、第1の感情判断の対応する感情グループが互いに一致していないことに関連する。感情衝突の判定結果に応じて、1以上の感情グループから第2の感情判断が判定される。第1又は第2の感情判断は、1つの感情グループに関連する。アバターの表情は、第2の感情判断に基づき生成される。
例示的な実施形態の1つにおいて、表情生成システムは、1以上の追跡デバイスと、メモリと、プロセッサとを含むが、これに限定されない。追跡デバイスは複数のユーザデータを取得する。各ユーザデータは、複数のデータソースの1つからのユーザの感知結果に関連する。メモリはプログラムコードを格納する。プロセッサはメモリに連接され、次のステップを実行するためプログラムコードをロードする。プロセッサは、各ユーザデータそれぞれに基づき複数の第1の感情判断を判定し、第1の感情判断の間で感情衝突が発生するか否かを判定し、感情衝突の判定結果に応じて1以上の感情グループから第2の感情判断を判定し、第2の感情判断に基づきアバターの表情を生成する。感情衝突は、第1の感情判断の対応する感情グループが互いに一致していないことに関連する。第1又は第2の感情判断は、1つの感情グループに関連する。
上記を鑑み、1以上の実施形態において提供されるアバター表情生成システム及びアバター表情生成方法は、第1の感情判断の間の感情衝突が発生するとき、2以上の感情グループから第2の感情判断が更に判定され、アバターの表情生成のため1つの感情グループ(のみ)が選択される。従って、適切なアバターの表情が表示される。
ただし、この概要は本発明の全ての様態と実施形態を含むものではなく、如何なる方法でも限定又は制限を意図するものではないことを理解されたい。そして、ここで開示される発明は、その明らかな改善と改変を含むと当業者により理解される。
本発明の更なる理解のため添付図面が含まれ、本明細書に包含され、本明細書の一部を構成する。図面は本発明の実施形態を表し、明細書と共に、本発明の原理を説明する役割を果たす。
図1は、本発明の例示的な実施形態の1つによるアバター表情生成システムを表すブロック図である。
図2は、本発明の例示的な実施形態の1つによるアバター表情生成方法を表すフロー図である。
図3は、本発明の例示的な実施形態の1つによるユーザデータ生成を表すフロー図である。
図4は、本発明の例示的な実施形態の1つによる感情グループの類別を表す概略図である。
図5は、本発明の例示的な実施形態の1つによるユーザデータと第1の感情判断との関係性を表す概略図である。
図6は、本発明の例示的な実施形態の1つによる第1段階を表すフロー図である。
図7は、本発明の例示的な実施形態の1つによる第2の感情判断の生成を表すフロー図である。
図8は、本発明の例示的な実施形態の1つによるユーザデータ変換を表すフロー図である。
本発明の好ましい実施形態の詳細を述べる。実施例は添付の図面に表される。可能な限り、図面と明細書において同一の符号が同一又は類似の部材に対し用いられる。
図1は、本発明の例示的な実施形態の1つによるアバター表情生成システムを表すブロック図である。図1を参照し、アバター表情生成システム100は、1以上の追跡デバイス110と、ディスプレイ120と、メモリ130と、プロセッサ150とを含むが、これに限定されない。アバター表情生成システム100は、VR、AR、MR、XR又は他の現実シミュレーション関連技術に適合される。
追跡デバイス110は、ユーザデータを取得するために用いられる、手持ち型コントローラ、(装着型コンントローラ、スマートウォッチ、アンクルセンサ、ヘッドマウントディスプレイ(HMD)等といった)装着型装置、又は(カメラ、慣性測定ユニット(IMU)、心拍数モニタ、赤外線(IR)トランスミッタ/レシーバ、超音波センサ、サウンドレコーダ、歪みゲージ等といった)感知デバイスである。ユーザデータは、1以上のデータソースからのユーザの感知結果に関連する。追跡デバイス110は、ユーザの対応目標部位を感知し、時間間隔内の複数時点での検出結果(例えばカメラ画像、感知された強度値)から一連の感知データを生成するため、1以上のセンサ115を含んでよい。これらデータソースは、ユーザの目標部位、又は感知技術において異なる。例えば、目標部位は、ユーザの(顔の一部又は全体、手、頭、足首、足、手首といった)人体部位、(脳、心臓、目といった)臓器、又は(筋肉、神経組織といった)組織であってよい。センサ115の感知技術は、画像、音波、超音波、電流、電位、IR、力、人体部分の変位と回転に関する動作感知データ等に関連してよい。
1つの実施形態において、データソースは、顔面筋活動、音声、顔の一部又は全体の画像、腕や脚又は頭の動き、心臓の電気的活動、または脳の電気的活動であってよい。いくつかの実施形態において、データソースは、センサ115からのリアルタイムデータ検出、又はプロセッサ150により生成される事前構成されたデータであってよい。
ディスプレイ120は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、有機発光ダイオード(OLED)ディスプレイ、又は他のディスプレイであってよい。本発明の本実施形態において、ディスプレイ120は画像、例えば仮想環境を表示するために用いられる。いくつかの実施形態において、ディスプレイ120は(スマートフォン、タブレット等といった)外部装置のディスプレイであってよく、外部装置はHMDの本体に置かれてもよいことに注意されたい。
メモリ130は、固定又は取り外し可能なランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、フラッシュメモリ、類似のデバイス、又は上記デバイスの組合せの如何なる類別であってもよい。メモリ130は、バッファデータ、又は、プログラムコード、デバイス構成、(ユーザデータ、訓練データ、感情分類器、感情判断、感情構成、加重関係、線形関係、感情グループといった)永続的データを記録し、これらデータについては後に紹介する。
プロセッサ150は、追跡デバイス110、ディスプレイ120、メモリ130に連接される。プロセッサ150は、本発明の例示的な実施形態の手順を実行するため、メモリ130に格納されたプログラムコードをロードするよう構成される。
いくつかの実施形態において、プロセッサ150は、中央処理装置(CPU)、マイクロプロセッサ、マイクロコントローラ、デジタル信号処理(DSP)チップ、フィールドプログラマブルゲートアレイ(FPGA)であってよい。プロセッサ150の機能は、独立した電子デバイス又は集積回路(IC)により実装されてよく、プロセッサ150の動作はソフトウェアにより実装されてよい。
プロセッサ150は、追跡デバイス110及びディスプレイ120と同一の装置に設けられなくてもよいことに注意されたい。ただし、それぞれ追跡デバイス110、ディスプレイ120、プロセッサ150を備えた装置は、互いにデータを送受信するため、Bluetooth、Wi−Fi、赤外線無線通信、又は物理的な伝送路といった、互換性のある通信技術を有する通信トランシーバを更に含む。例えば、センサ115がHMDの外部に設けられるのに対し、ディスプレイ120とプロセッサ150はHMD内に設けられてよい。もう1つの例として、追跡デバイス110とディスプレイ120が演算装置の外部に設けられるのに対し、プロセッサ150は演算装置内に設けられてよい。
本発明の1以上の実施形態において提供される動作処理をより理解し易くするよう、アバター表情生成システム100の動作処理を詳述するため、いくつかの実施形態を以下に例示する。アバター表情生成システム100のデバイスとモジュールは、ここで提供されるアバター表情生成方法を説明するため、次の実施形態において応用される。該方法の各ステップは、実際の実装状況に応じて調整でき、ここで説明されるものに限定されるべきではない。
図2は、本発明の例示的な実施形態の1つによるアバター表情生成方法を表すフロー図である。図2を参照し、プロセッサ150は追跡デバイス110を介し複数のユーザデータを取得する(ステップS210)。具体的には、これらユーザデータは複数のデータソースから取得される。プロセッサ150は、感情推定の精度を向上させるため、より多くのデータソースを用いる。図3は、本発明の例示的な実施形態の1つによるユーザデータ生成を表すフロー図である。図3を参照し、1つの実施形態において、プロセッサ150は、リアルタイムでのユーザデータを生成するため(即ち、上述したリアルタイムデータ検出)、各センサ115からの(例えば、フィルタ、増幅、アナログ−デジタル変換により処理されることのできる)未処理データ又は前処理済みデータといった感知結果を取得する(ステップS211)。例えば、ユーザデータは、ユーザの顔の一部又は全体の1以上の画像、(眉、目、鼻、口の動きといった)ユーザの顔の特徴の動き、及び/又はユーザの音声から収集された未処理データであってよい。もう1つの実施形態において、プロセッサ150は、事前構成データを生成する(ステップS215)ため、各センサ115からの各感知結果に特徴抽出を実行してよい(ステップS213)。特徴抽出は、情報提供でき且つ非冗長であることを意図された派生値(特徴)を感知結果から得るために用いられ、後続の分析ステップを容易にする。例えば、独立成分分析(ICA)、Isomap、主成分分析(PCA)である。特徴抽出は、ユーザの対応目標部位の1以上の特定の動き/活動、所定の時間間隔内の1以上の特定のキーワード又はキーフレーズ、又は(ニューラルネットワーク(NN)、K平均法、サポートベクターマシン(SVM)といった)機械学習技術において定義された任意の特徴を収集してよい。例えば、事前構成データは、所定の時間間隔内の瞬き又は頷きの顔の特徴、又はランダム生成された顔の特徴であってよい。もう1つの例として、事前構成データは、ユーザの発言内容又は音声トーンであってよい。いくつかの実施形態において、プロセッサ150は、リアルタイムデータと事前構成データとの組合せを取得する。
プロセッサ150は、各ユーザデータに基づき、複数の第1の感情判断をそれぞれ判定してよい(ステップS230)。具体的には、プロセッサ150は、複数の感情グループを予め定義してよい。図4は、本発明の例示的な実施形態の1つによる感情グループの類別を表す概略図である。図4を参照し、1つの実施形態において、類別401として、1つの感情グループは、喜び、悲しみ、恐れ、嫌悪、怒り、驚き、又は興奮といった、1つの感情カテゴリのみを含む。もう1つの実施形態において、類別402として、1つの感情グループは複数の感情カテゴリを含み、各カテゴリはポジティブ又はネガティブな感情であってよい。ポジティブな感情は、例えば、喜び、興奮、驚きを含んでよい。ネガティブな感情は、例えば、悲しみ、恐れ、怒りを含んでよい。いくつかの実施形態において、いくつかの感情グループは1つの感情カテゴリのみを含み、その他は複数の感情カテゴリを含んでよい。
各第1の感情判断は、1つの感情グループ(のみ)に関連することに注意されたい。図5は、本発明の例示的な実施形態の1つによるユーザデータと第1の感情判断との関係性を表す概略図である。図5を参照し、ステップS230である第1段階において、プロセッサ150は、ユーザデータから第1の感情判断を生成するため、複数のデータソースからの各ユーザデータの対応感情グループをそれぞれ判定してよい。1つの実施形態において、各第1の感情判断は特定の感情である。例えば、第1のデータソースはユーザの目の画像であり、第2のデータソースは音声である。第1の感情判断は、第1と第2のデータソースにおいてそれぞれ喜びと悲しみ感情である。もう1つの実施形態において、各第1の感情判断は、2以上の感情カテゴリの感情加重された組合せである。感情加重された組合せの感情重みは、百分率又は強度(即ち、感情のレベル)の形式であってよい。例えば、第3のデータソースは顔面筋活動である。第1の感情判断は、第3のデータソースに対し60%の喜び感情と40%の驚き感情であり、これにおいて喜び感情の感情重みは0.6であり、驚き感情の感情重みは0.4となる。感情重みは、全ての対応感情カテゴリにおける当該対応感情カテゴリの比率であってよい。いくつかの実施形態において、各感情は複数のレベルを更に含んでよい。例えば、喜び感情は3つのレベルを含み、これにおいて第1レベルは喜び感情の最も弱い強度を表し、第3レベルは喜び感情の最も強い強度を表す。このため、感情重みは、対応感情カテゴリの強度であってよい。このため、プロセッサ150は、各第1の感情判断に対し感情のレベルを更に判定する。
図6は、本発明の例示的な実施形態の1つによる第1段階を表す概略図である。図6を参照し、1つの実施形態において、プロセッサ150は、機械学習技術(NN、K平均法、SVM等)又はツリーベースの分類方法(ブースティングツリー、ブートストラップ集約決定木等)に基づき、第1の感情分類器231を用いることにより、各第1の感情判断をそれぞれ判定してよい。機械学習技術において、観測が属するのがカテゴリのセットのどれかを識別するため、分類器又はモデルが用いられる。本実施形態において、第1の感情の観測はユーザデータであり、第1の感情カテゴリは第2の感情判断に対応する。即ち、第1の感情分類器は、各ユーザデータが属するのが感情グループのどれかを識別するために用いられる。換言すれば、各ユーザデータは第1の感情分類器の入力データであってよく、各第1の感情判断は第1の感情分類器の出力データである。人工ニューラルネットワーク(ANN)を例とすると、ANNは、入力データ又は前のニューロンの出力を受け取る人工ニューロンで構成される。ネットワークは接続からなり、各接続は前のニューロンからの1つのニューロンの出力とそれらの接続を加重和として提供し、各接続は入力重みに対応する。ANNの学習段階において、入力重みは分類器の結果の精度を向上させるため調整されてよい。学習段階において、プロセッサ150は、複数の第1の訓練感情と以前の訓練感知データにより、各データソースのための第1の感情分類器を訓練してよいことに注意されたい。これら第1の訓練感情は全ての感情グループを含む。これは、第1の感情分類器の出力データが感情グループの何れかであることを意味する。更には、訓練感知データは、各データソースから取得され、それぞれ(第1の訓練感情となり得る)特定の感情に対応する。
もう1つの実施形態において、プロセッサ150は、顔の特徴232に関連する1以上の距離により第1の感情判断を判定してよい。例えば、ユーザの鼻根点のしわの存在、目の形状、歯、舌、又は鼻の存在である。上瞼と眉との間の距離が閾値未満の場合、第1の感情判断は喜び又は驚き感情でありうる。更に、口の開きのサイズがもう1つの閾値より大きい場合、第1の感情判断は驚き感情でありうる。
もう1つの実施形態において、プロセッサ150は、音声からユーザデータ内の言葉を識別し、識別された言葉に意味解析233を実行してよい。意味解析の間、プロセッサ150は、特定のキーワード又は特定のキーフレーズがユーザデータ内に検出されるか否かを判定するため、ユーザデータ内の識別された言葉が特定のキーワード又はキーフレーズに一致するか否かを判定する。プロセッサ150は複数のキーワード及び/又はキーフレーズを予め定義してよく、予め定義されたキーワード又は予め定義されたキーフレーズのそれぞれは、特定の感情、特定の感情レベル、2以上の感情カテゴリの特定の感情加重された組合せ、又は特定のレベルを有する2以上の感情の特定の感情加重された組合せに対応する。例えば、ユーザデータは「私はとても嬉しい」という文に関連し、キーワード「とても嬉しい」は喜び感情の第5レベルに対応する。識別された言葉が1つの予め定義されたキーワード又は1つの予め定義されたキーフレーズと一致する(即ち、予め定義されたキーワード又はフレーズが検出された)場合、プロセッサ150は、対応する第1の感情判断が喜び感情の第5レベルであると判定する。
もう1つの実施形態において、プロセッサ150は、カメラ画像又はモーション感知データからユーザデータを解析してよい。プロセッサ150は、画像内に予め定義された動き又は予め定義された表情が検出されるか否かを判定するため、画像解析234を実行してよい。例えば、プロセッサ150がカメラ画像において口の端が上がっていることを検出した場合、プロセッサ150は喜び感情が検出されたとみなしてよい。もう1つの例として、プロセッサ150がモーション感知データにおいてユーザが両手を挙げたことを検出した場合、プロセッサ150は喜び感情が検出されたとみなしてよい。
異なるデータソースによって、第1の感情判断を判定する多くの方法がまだ存在し、本実施形態はこれに限定されないことに注意されたい。更に、いくつかの実施形態において、プロセッサ150は、対応する第1の感情判断を判定するため、全データソースから1以上のデータソースを選択してよい。選択されたデータソースは、他よりも感情推定においてより正確な判定を有する可能性がある。
複数のユーザデータ(又はデータソース)の第1の感情判断が判定された後、プロセッサ150は、第1の感情判断の間で感情衝突が起こるか否かを判定してよい(ステップS250)。具体的には、感情衝突は、これら第1の感情判断の対応感情グループが互いに一致していないことに関連する。例えば、(目の特徴といった)第4のデータソースの第1の感情判断がポジティブな感情であり、(口の特徴といった)第5のデータソースの第1の感情判断がネガティブな感情である場合、感情衝突が起こる。もう1つの例として、(心電図(ECG)といった)第6のデータソースの第1の感情判断が喜び感情であり、(筋電図(EMG)といった)第7のデータソースの第1の感情判断が悲しみ感情である場合、感情衝突が起こる。
1つの実施形態において、プロセッサ150は、感情衝突の判定に信頼度を用いてよい。信頼度は、第1の感情判断がどれほど信頼できるかである。具体的には、プロセッサ150は、これら第1の感情判断の感情値をそれぞれ判定してよい。感情値は、第1の感情判断がどの程度信頼できるか、又は信頼度がどの程度かに関連する。感情値が大きいほど第1の感情判断は信頼性がより高くなり、信頼度がより高くなる。感情値が小さいほど第1の感情判断はより信頼性がより低くなり、信頼度がより低くなる。感情値は、第1の感情分類器又は信頼度に関する別のアルゴリズムの出力により判定されてよい。次いで、プロセッサ150は、感情値の重み値の組合せを判定し、感情値の重み値の組合せを信頼できる閾値と比較する。プロセッサ150は、対応する感情重みを各第1の感情判断の感情値に与え、感情値に対しこれらに対応する感情重みで加重演算を実行してよい。感情重みの組合せが信頼できる閾値よりも大きい場合、感情衝突は起きない。反対に、重み値の組合せが信頼できる閾値よりも大きくない場合、感情衝突が起こる。第1の感情判断が複数の感情カテゴリの感情加重された組合せである場合、感情値も複数の感情カテゴリの感情加重された組合せであり、対応する信頼できる閾値は、感情値が位置する座標系における線形方程式、曲線方程式、又は別の方程式と同等又は類似であることに注意されたい。
いくつかの実施形態において、プロセッサ150は、感情衝突が起こるか否かを判定するため、より高い信頼性を有する1以上の第1の感情判断を選択してよい。例えば、プロセッサ150は顔面筋活動と音声から2つの第1の感情判断を選択し、これら第1の感情判断が同一の感情グループに属するか否かを比較する。
次いで、プロセッサ150は、感情衝突の判定結果に応じて、1以上の感情グループから第2の感情判断を判定してよい(ステップS255)。判定結果は、感情衝突が発生することであってよく、感情衝突が発生することは感情衝突が発生しないことであってよい。プロセッサ150は、1つの感情グループ(のみ)に関連する第2の感情判断を生成するため、1以上の感情グループを融合してよい。
1つの実施形態において、感情衝突が発生する場合、プロセッサ150は少なくとも2つの感情グループから第2の感情判断を判定してよい(ステップS260)。具体的には、感情衝突が発生する場合、第1の感情判断は2以上の感情グループを含む。第2段階において、プロセッサ150は、第1の感情判断が属する感情グループから、又は全ての感情グループから、第2の感情判断を更に判定してよく、第2の感情判断は1つの感情グループ(のみ)に関連する。
図7は、本発明の例示的な実施形態の1つによる第2の感情判断の生成を表すフロー図である。図7を参照し、1つの実施形態において、プロセッサ150は、第2の感情判断を判定するため、1以上の第1の感情判断を用いてよい(ステップS261)。これは、第1の感情判断が第2の感情判断のための参考となり得ることを意味する。1つの実施形態において、プロセッサ150は、2以上の第1の感情判断の加重された判断の組合せを判定し、該加重された判断の組合せに基づき第2の感情判断を判定する。プロセッサ150は第1の感情判断において加重演算を実行してよく、算出結果は第2の感情判断に関連する。第2の感情判断は、実数、特定の感情カテゴリ、特定の感情カテゴリの特定のレベル、又は複数の感情カテゴリの感情加重された組合せであってよい。もう1つの実施形態において、第2の感情判断は、第1の感情判断が判定モデルの入力データである、機械学習技術又はツリーベースの分類方法を介し判定されうる。
いくつかの実施形態において、プロセッサ150は、第2の感情判断を判定するため、より高い信頼性又は異なる感情グループを有する2以上の第1の感情判断を選択してよいことに注意されたい。
もう1つの実施形態において、プロセッサ150は、第2の感情判断を判定するため、1以上のデータソースからの1以上のユーザデータを用いてもよい(ステップS263)。これは、ユーザデータが第2の感情判断のための参照となり得ることを意味する。1つの実施形態において、プロセッサ150は、機械学習技術又はツリーベースの分類方法に基づき、第2の感情分類器を用いることにより第2の感情判断を判定してよい。第2の感情分類器は、これらユーザデータが属するのが感情グループのどれかを識別するために用いられる。ユーザデータは第2の感情分類器の入力データであってよく、第2の感情判断は第2の感情分類器の出力データである。プロセッサ150は、複数の第2の訓練感情と以前の訓練感知データにより、第2の感情分類器を事前に訓練してもよいことに注意されたい。これら第2の訓練感情は、2以上の感情グループを含む。これは、第2の感情分類器の出力データが、選択された感情グループの1つのみであり得ることを意味する。更には、訓練感知データは各データソースから得られ、それぞれ(第2の訓練感情になり得る)特定の感情に対応する。プロセッサ150は、第2の感情判断のために第1の感情判断の感情グループ又は全感情グループにより訓練された第2の感情分類器を選択してよい。
複数のデータソースからの未処理データ、事前処理データ、又は事前構成データは、同一の量、単位、又は収集時間間隔を有さなくてもよいことに注意されたい。図8は、本発明の例示的な実施形態の1つによるユーザデータ変換を表すフロー図である。図8を参照し、1つの実施形態において、プロセッサ150は、ユーザデータの組合せを生成するため、入力される2以上のユーザデータを更に組み合わせてよい。例えば、特徴抽出の後、第1のデータソースからのユーザデータは40×1マトリックスであり、第2のデータソースからのユーザデータは80×2マトリックスであり、ユーザデータの組合せは120×1マトリックスでありうる。プロセッサ150は、ユーザデータの組合せに線形変換を更に実行しユーザデータから顔の特徴を抽出してよい(ステップS262)。線形変換は、特定の機械学習技術又は特定のツリーベースの分類方法に基づき設計される。次いで、線形返還後のデータは第2の感情分類器の入力となりうる。
一方、1つの実施形態において、感情衝突が発生しない場合、プロセッサ150は、1つの感情グループ(のみ)から第2の感情判断を判定してよい(ステップS270)。具体的には、感情衝突が発生しない場合、第1の感情判断は1つの感情グループのみを含む。1つの実施形態において、1つの感情グループは1つの感情カテゴリのみを含み、プロセッサ150は第2の感情判断として第1の感情判断の任意の1つを判定してよい。
ただし、いくつかの実施形態において、1つの感情グループは複数の感情カテゴリを含んでよく、1つの感情カテゴリは複数のレベルを含んでよい。プロセッサ150は、第1の感情判断が属する感情カテゴリから第2の感情判断を更に判定してよく、第2の感情判断は、特定レベルの特定の感情カテゴリ(のみ)、又は感情カテゴリの特定の感情加重された組合せに関連する。
1つの実施形態において、プロセッサ150は、機械学習技術又はツリーベースの分類方法に基づき、第3の感情分類器を用いることにより第2の感情判断を判定してよい。第3の感情分類器は、ユーザデータ又は第1の感情判断が属するのが感情グループのどれかを識別するために用いられる。ユーザデータ又は1以上の第1の感情判断は第3の感情分類器の入力データであり、第2の感情判断は第3の感情分類器の出力データである。第1及び第2の感情分類器と比較し、プロセッサ150は第3の訓練感情により第3の感情分類器を訓練し、第3の訓練感情は1つの感情グループのみを含むことに注意されたい。プロセッサ150は、第2の感情判断のため、第1の感情判断の感情グループにより訓練された第3の感情分類器を選択してよい。もう1つの実施形態において、プロセッサ150は、2以上の第1の感情判断の加重された判断の組合せを判定し、加重された判断の組合せに基づき第2の感情判断を判定してよい。
次いで、プロセッサ150は、第2の感情判断に基づき、アバターの表情を生成してよい(ステップS290)。具体的には、アバターの顔は(顔、目、鼻、眉の形状又は動きといった)複数の顔の特徴を含んでよい。アバターの表情は、形状パラメータとテクスチャパラメータ(併せて表情パラメータと呼称される)を含んでよい。各形状パラメータはアバターの顔の頂点の2次元又は3次元座標を示すために用いられる。いくつかの実施形態において、各テクスチャパラメータは、対応する第2の感情判断(例えば、特定の感情、特定の感情の特定のレベル、又は複数の感情カテゴリの特定の感情加重された組合せ)の顔画像が適用される顔の位置を示すために用いられる。
プロセッサ150は、特定の感情に対応する表情を生成するため、表情の特徴で第2の感情判断を生成、併合又は置き換えてよい。1つの実施形態において、プロセッサ150は、(正規分布、幾何分布、ベルヌーイ分布といった)確率分布により、対応する表情グループから1つの表情を選択してよい。各表情グループは、複数の表情を含む。各感情又は1つの感情の各レベルは、特定の表情グループに対応する。例えば、特定の第2の感情判断には10の表情があり、プロセッサ150は該10の表情から1つをランダムに選択してよい。
いくつかの実施形態において、プロセッサ150は各第2の感情判断のための顔の特徴を生成してよい。各第2の感情判断は、顔の特徴のパラメータの(長さ、角度、色、サイズといった)特定の制限で構成されてよく、対応する顔の特徴は該制限に基づき生成されることができる。例えば、第2の感情判断が喜び感情を有し、喜び感情の感情的な重みが0.1以上であるとき、唇の長さはある範囲を有する。
いくつかの実施形態において、各第2の感情判断は顔テンプレートに対応し、顔テンプレートは特定の画像又は特定のアニメーションに対応する。プロセッサ150は顔モデルの特定の位置に顔テンプレートを貼り付けてよい。
まとめると、上記の例示的な実施形態は、顔モデルのアバター表情生成システムとアバター表情生成方法を描写している。感情判断は、第1段階において複数のデータソースに基づき判定される。第1段階において感情判断の間で感情衝突が発生する場合、第2段階において適切な感情判断が更に判定される。従って、アバターに適切な感情の通常の表情が提示される。不確かな表情パラメータは減少される。更には、仮想環境における社会的コミュニケーションが鮮やかな表情で改善される。
当業者にとって、本発明の範囲又は精神から逸脱することなく、本発明の構造に様々な改変と変形を行うことができることは明らかであろう。上記を鑑み、本発明は、以下の特許請求の範囲及びそれらの均等物の範囲内にあるという条件で、本発明の改変及び変形を網羅することを意図している。
本発明のアバター表情生成システム及びアバター表情生成方法は、アバター表情生成に適用することができる。
100:表情生成システム
110:追跡デバイス
115:センサ
120:ディスプレイ
130:メモリ
150:プロセッサ
S210〜S290、S211〜S213、S260〜S263:ステップ
401、402:感情グループ
231:第1の感情分類器
232:顔の特徴に関する距離
233:意味解析
234:画像解析
本発明は、アバターシミュレーションに関するものであり、特に、アバター表情生成システム及びアバター表情生成方法に関するものである。
仮想現実(VR)、拡張現実(AR)、複合現実(MR)を含む、XR(Extended Reality)といった、感覚、知覚、及び/又は環境のシミュレーションのための技術は、最近人気が高まっている。前記技術は、ゲーム、軍事訓練、医療、遠隔操作等といった、複数の分野に応用することができる。
ユーザに仮想環境を実環境として認識させるため、実環境におけるユーザの人体部位の動き又はユーザの表情が追跡され、これによりVR、AR、又はMRの画面上で表示されるアバターの表情がユーザの動き又は表情に反応して変化することができ、仮想環境における社会的コミュニケーション効果が改善される。
表情のシミュレーションについて、従来のアプローチでは、ヘッドマウントディスプレイ(HMD)を装着したユーザの顔を撮像するカメラが設けられ、撮像画像における顔の特徴に応じてシミュレーションされた表情が生成される。しかし、顔の一部はHMDにより覆われており、このため顔の特徴と表情を識別することが難しく、アバターの表情は実環境におけるユーザの表情と同一でない可能性がある。
カメラのみで表情を予測することは困難である。従って、本発明は、仮想環境において感情を有するアバターの表情をシミュレーションするための、アバター表情生成システム及びアバター表情生成方法を対象とする。
例示的な実施形態の1つにおいて、アバター表情生成方法は、次のステップを含むが、これに限定されない。複数のユーザデータが取得される。各ユーザデータは、複数のデータソースからのユーザの感知結果に関連する。各ユーザデータに基づき、複数の第1の感情判断がそれぞれ判定される。第1の感情判断の間で感情衝突が発生するか否かが判定される。感情衝突は、第1の感情判断の対応する感情グループが互いに一致していないことに関連する。感情衝突の判定結果に応じて、1以上の感情グループから第2の感情判断が判定される。第1又は第2の感情判断は、1つの感情グループに関連する。アバターの表情は、第2の感情判断に基づき生成される。
例示的な実施形態の1つにおいて、アバター表情生成システムは、1以上の追跡デバイスと、メモリと、プロセッサとを含むが、これに限定されない。追跡デバイスは複数のユーザデータを取得する。各ユーザデータは、複数のデータソースの1つからのユーザの感知結果に関連する。メモリはプログラムコードを格納する。プロセッサはメモリに連接され、次のステップを実行するためプログラムコードをロードする。プロセッサは、各ユーザデータそれぞれに基づき複数の第1の感情判断を判定し、第1の感情判断の間で感情衝突が発生するか否かを判定し、感情衝突の判定結果に応じて1以上の感情グループから第2の感情判断を判定し、第2の感情判断に基づきアバターの表情を生成する。感情衝突は、第1の感情判断の対応する感情グループが互いに一致していないことに関連する。第1又は第2の感情判断は、1つの感情グループに関連する。
上記を鑑み、1以上の実施形態において提供されるアバター表情生成システム及びアバター表情生成方法は、第1の感情判断の間の感情衝突が発生するとき、2以上の感情グループから第2の感情判断が更に判定され、アバターの表情生成のため1つの感情グループ(のみ)が選択される。従って、適切なアバターの表情が表示される。
ただし、この概要は本発明の全ての様態と実施形態を含むものではなく、如何なる方法でも限定又は制限を意図するものではないことを理解されたい。そして、ここで開示される発明は、その明らかな改善と改変を含むと当業者により理解される。
本発明の更なる理解のため添付図面が含まれ、本明細書に包含され、本明細書の一部を構成する。図面は本発明の実施形態を表し、明細書と共に、本発明の原理を説明する役割を果たす。
図1は、本発明の例示的な実施形態の1つによるアバター表情生成システムを表すブロック図である。
図2は、本発明の例示的な実施形態の1つによるアバター表情生成方法を表すフロー図である。
図3は、本発明の例示的な実施形態の1つによるユーザデータ生成を表すフロー図である。
図4は、本発明の例示的な実施形態の1つによる感情グループの類別を表す概略図である。
図5は、本発明の例示的な実施形態の1つによるユーザデータと第1の感情判断との関係性を表す概略図である。
図6は、本発明の例示的な実施形態の1つによる第1段階を表すフロー図である。
図7は、本発明の例示的な実施形態の1つによる第2の感情判断の生成を表すフロー図である。
図8は、本発明の例示的な実施形態の1つによるユーザデータ変換を表すフロー図である。
本発明の好ましい実施形態の詳細を述べる。実施例は添付の図面に表される。可能な限り、図面と明細書において同一の符号が同一又は類似の部材に対し用いられる。
図1は、本発明の例示的な実施形態の1つによるアバター表情生成システムを表すブロック図である。図1を参照し、アバター表情生成システム100は、1以上の追跡デバイス110と、ディスプレイ120と、メモリ130と、プロセッサ150とを含むが、これに限定されない。アバター表情生成システム100は、VR、AR、MR、又は他の現実シミュレーション関連技術に適合される。
追跡デバイス110は、ユーザデータを取得するために用いられる、手持ち型コントローラ、(装着型コンントローラ、スマートウォッチ、アンクルセンサ、ヘッドマウントディスプレイ(HMD)等といった)装着型装置、又は(カメラ、慣性測定ユニット(IMU)、心拍数モニタ、赤外線(IR)トランスミッタ/レシーバ、超音波センサ、サウンドレコーダ、歪みゲージ等といった)感知デバイスである。ユーザデータは、1以上のデータソースからのユーザの感知結果に関連する。追跡デバイス110は、ユーザの対応目標部位を感知し、時間間隔内の複数時点での検出結果(例えばカメラ画像、感知された強度値)から一連の感知データを生成するため、1以上のセンサ115を含んでよい。これらデータソースは、ユーザの目標部位、又は感知技術において異なる。例えば、目標部位は、ユーザの(顔の一部又は全体、手、頭、足首、足、手首といった)人体部位、(脳、心臓、目といった)臓器、又は(筋肉、神経組織といった)組織であってよい。センサ115の感知技術は、画像、音波、超音波、電流、電位、IR、力、人体部分の変位と回転に関する動作感知データ等に関連してよい。
1つの実施形態において、データソースは、顔面筋活動、音声、顔の一部又は全体の画像、腕や脚又は頭の動き、心臓の電気的活動、または脳の電気的活動であってよい。いくつかの実施形態において、データソースは、センサ115からのリアルタイムデータ検出、又はプロセッサ150により生成される事前構成されたデータであってよい。
ディスプレイ120は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、有機発光ダイオード(OLED)ディスプレイ、又は他のディスプレイであってよい。本発明の本実施形態において、ディスプレイ120は画像、例えば仮想環境を表示するために用いられる。いくつかの実施形態において、ディスプレイ120は(スマートフォン、タブレット等といった)外部装置のディスプレイであってよく、外部装置はHMDの本体に置かれてもよいことに注意されたい。
メモリ130は、固定又は取り外し可能なランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、フラッシュメモリ、類似のデバイス、又は上記デバイスの組合せの如何なる類別であってもよい。メモリ130は、バッファデータ、又は、プログラムコード、デバイス構成、(ユーザデータ、訓練データ、感情分類器、感情判断、感情構成、加重関係、線形関係、感情グループといった)永続的データを記録し、これらデータについては後に紹介する。
プロセッサ150は、追跡デバイス110、ディスプレイ120、メモリ130に連接される。プロセッサ150は、本発明の例示的な実施形態の手順を実行するため、メモリ130に格納されたプログラムコードをロードするよう構成される。
いくつかの実施形態において、プロセッサ150は、中央処理装置(CPU)、マイクロプロセッサ、マイクロコントローラ、デジタル信号処理(DSP)チップ、フィールドプログラマブルゲートアレイ(FPGA)であってよい。プロセッサ150の機能は、独立した電子デバイス又は集積回路(IC)により実装されてよく、プロセッサ150の動作はソフトウェアにより実装されてよい。
プロセッサ150は、追跡デバイス110及びディスプレイ120と同一の装置に設けられなくてもよいことに注意されたい。ただし、それぞれ追跡デバイス110、ディスプレイ120、プロセッサ150を備えた装置は、互いにデータを送受信するため、Bluetooth、Wi−Fi、赤外線無線通信、又は物理的な伝送路といった、互換性のある通信技術を有する通信トランシーバを更に含む。例えば、センサ115がHMDの外部に設けられるのに対し、ディスプレイ120とプロセッサ150はHMD内に設けられてよい。もう1つの例として、追跡デバイス110とディスプレイ120が演算装置の外部に設けられるのに対し、プロセッサ150は演算装置内に設けられてよい。
本発明の1以上の実施形態において提供される動作処理をより理解し易くするよう、アバター表情生成システム100の動作処理を詳述するため、いくつかの実施形態を以下に例示する。アバター表情生成システム100のデバイスとモジュールは、ここで提供されるアバター表情生成方法を説明するため、次の実施形態において応用される。該方法の各ステップは、実際の実装状況に応じて調整でき、ここで説明されるものに限定されるべきではない。
図2は、本発明の例示的な実施形態の1つによるアバター表情生成方法を表すフロー図である。図2を参照し、プロセッサ150は追跡デバイス110を介し複数のユーザデータを取得する(ステップS210)。具体的には、これらユーザデータは複数のデータソースから取得される。プロセッサ150は、感情推定の精度を向上させるため、より多くのデータソースを用いる。図3は、本発明の例示的な実施形態の1つによるユーザデータ生成を表すフロー図である。図3を参照し、1つの実施形態において、プロセッサ150は、リアルタイムでのユーザデータを生成するため(即ち、上述したリアルタイムデータ検出)、各センサ115からの(例えば、フィルタ、増幅、アナログ−デジタル変換により処理されることのできる)未処理データ又は前処理済みデータといった感知結果を取得する(ステップS211)。例えば、ユーザデータは、ユーザの顔の一部又は全体の1以上の画像、(眉、目、鼻、口の動きといった)ユーザの顔の特徴の動き、及び/又はユーザの音声から収集された未処理データであってよい。もう1つの実施形態において、プロセッサ150は、事前構成データを生成する(ステップS215)ため、各センサ115からの各感知結果に特徴抽出を実行してよい(ステップS213)。特徴抽出は、情報提供でき且つ非冗長であることを意図された派生値(特徴)を感知結果から得るために用いられ、後続の分析ステップを容易にする。例えば、独立成分分析(ICA)、Isomap、主成分分析(PCA)である。特徴抽出は、ユーザの対応目標部位の1以上の特定の動き/活動、所定の時間間隔内の1以上の特定のキーワード又はキーフレーズ、又は(ニューラルネットワーク(NN)、K平均法、サポートベクターマシン(SVM)といった)機械学習技術において定義された任意の特徴を収集してよい。例えば、事前構成データは、所定の時間間隔内の瞬き又は頷きの顔の特徴、又はランダム生成された顔の特徴であってよい。もう1つの例として、事前構成データは、ユーザの発言内容又は音声トーンであってよい。いくつかの実施形態において、プロセッサ150は、リアルタイムデータと事前構成データとの組合せを取得する。
プロセッサ150は、各ユーザデータに基づき、複数の第1の感情判断をそれぞれ判定してよい(ステップS230)。具体的には、プロセッサ150は、複数の感情グループを予め定義してよい。図4は、本発明の例示的な実施形態の1つによる感情グループの類別を表す概略図である。図4を参照し、1つの実施形態において、類別401として、1つの感情グループは、喜び、悲しみ、恐れ、嫌悪、怒り、驚き、又は興奮といった、1つの感情カテゴリのみを含む。もう1つの実施形態において、類別402として、1つの感情グループは複数の感情カテゴリを含み、各カテゴリはポジティブ又はネガティブな感情であってよい。ポジティブな感情は、例えば、喜び、興奮、驚きを含んでよい。ネガティブな感情は、例えば、悲しみ、恐れ、怒りを含んでよい。いくつかの実施形態において、いくつかの感情グループは1つの感情カテゴリのみを含み、その他は複数の感情カテゴリを含んでよい。
各第1の感情判断は、1つの感情グループ(のみ)に関連することに注意されたい。図5は、本発明の例示的な実施形態の1つによるユーザデータと第1の感情判断との関係性を表す概略図である。図5を参照し、ステップS230である第1段階において、プロセッサ150は、ユーザデータから第1の感情判断を生成するため、複数のデータソースからの各ユーザデータの対応感情グループをそれぞれ判定してよい。1つの実施形態において、各第1の感情判断は特定の感情である。例えば、第1のデータソースはユーザの目の画像であり、第2のデータソースは音声である。第1の感情判断は、第1と第2のデータソースにおいてそれぞれ喜びと悲しみ感情である。もう1つの実施形態において、各第1の感情判断は、2以上の感情カテゴリの感情加重された組合せである。感情加重された組合せの感情重みは、百分率又は強度(即ち、感情のレベル)の形式であってよい。例えば、第3のデータソースは顔面筋活動である。第1の感情判断は、第3のデータソースに対し60%の喜び感情と40%の驚き感情であり、これにおいて喜び感情の感情重みは0.6であり、驚き感情の感情重みは0.4となる。感情重みは、全ての対応感情カテゴリにおける当該対応感情カテゴリの比率であってよい。いくつかの実施形態において、各感情は複数のレベルを更に含んでよい。例えば、喜び感情は3つのレベルを含み、これにおいて第1レベルは喜び感情の最も弱い強度を表し、第3レベルは喜び感情の最も強い強度を表す。このため、感情重みは、対応感情カテゴリの強度であってよい。このため、プロセッサ150は、各第1の感情判断に対し感情のレベルを更に判定する。
図6は、本発明の例示的な実施形態の1つによる第1段階を表す概略図である。図6を参照し、1つの実施形態において、プロセッサ150は、機械学習技術(NN、K平均法、SVM等)又はツリーベースの分類方法(ブースティングツリー、ブートストラップ集約決定木等)に基づき、第1の感情分類器231を用いることにより、各第1の感情判断をそれぞれ判定してよい。機械学習技術において、観測結果が属するのがカテゴリのセットのどれかを識別するため、分類器又はモデルが用いられる。本実施形態において、第1の感情の観測結果はユーザデータであり、第1の感情カテゴリは第の感情判断に対応する。即ち、第1の感情分類器は、各ユーザデータが属するのが感情グループのどれかを識別するために用いられる。換言すれば、各ユーザデータは第1の感情分類器の入力データであってよく、各第1の感情判断は第1の感情分類器の出力データである。人工ニューラルネットワーク(ANN)を例とすると、ANNは、入力データ又は前のニューロンの出力を受け取る人工ニューロンで構成される。ネットワークは接続からなり、各接続は前のニューロンからの1つのニューロンの出力とそれらの接続を加重和として提供し、各接続は入力重みに対応する。ANNの学習段階において、入力重みは分類器の結果の精度を向上させるため調整されてよい。学習段階において、プロセッサ150は、複数の第1の訓練感情と以前の訓練感知データにより、各データソースのための第1の感情分類器を訓練してよいことに注意されたい。これら第1の訓練感情は全ての感情グループを含む。これは、第1の感情分類器の出力データが感情グループの何れかであることを意味する。更には、訓練感知データは、各データソースから取得され、それぞれ(第1の訓練感情となり得る)特定の感情に対応する。
もう1つの実施形態において、プロセッサ150は、顔の特徴に関連する1以上の距離232により第1の感情判断を判定してよい。例えば、ユーザの鼻根点のしわの存在、目の形状、歯、舌、又は鼻の存在である。上瞼と眉との間の距離が閾値未満の場合、第1の感情判断は喜び又は驚き感情でありうる。更に、口の開きのサイズがもう1つの閾値より大きい場合、第1の感情判断は驚き感情でありうる。
もう1つの実施形態において、プロセッサ150は、音声からユーザデータ内の言葉を識別し、識別された言葉に意味解析233を実行してよい。意味解析の間、プロセッサ150は、特定のキーワード又は特定のキーフレーズがユーザデータ内に検出されるか否かを判定するため、ユーザデータ内の識別された言葉が特定のキーワード又はキーフレーズに一致するか否かを判定する。プロセッサ150は複数のキーワード及び/又はキーフレーズを予め定義してよく、予め定義されたキーワード又は予め定義されたキーフレーズのそれぞれは、特定の感情、特定の感情レベル、2以上の感情カテゴリの特定の感情加重された組合せ、又は特定のレベルを有する2以上の感情の特定の感情加重された組合せに対応する。例えば、ユーザデータは「私はとても嬉しい」という文に関連し、キーワード「とても嬉しい」は喜び感情の第5レベルに対応する。識別された言葉が1つの予め定義されたキーワード又は1つの予め定義されたキーフレーズと一致する(即ち、予め定義されたキーワード又はフレーズが検出された)場合、プロセッサ150は、対応する第1の感情判断が喜び感情の第5レベルであると判定する。
もう1つの実施形態において、プロセッサ150は、カメラ画像又はモーション感知データからユーザデータを解析してよい。プロセッサ150は、画像内に予め定義された動き又は予め定義された表情が検出されるか否かを判定するため、画像解析234を実行してよい。例えば、プロセッサ150がカメラ画像において口の端が上がっていることを検出した場合、プロセッサ150は喜び感情が検出されたとみなしてよい。もう1つの例として、プロセッサ150がモーション感知データにおいてユーザが両手を挙げたことを検出した場合、プロセッサ150は喜び感情が検出されたとみなしてよい。
異なるデータソースによって、第1の感情判断を判定する多くの方法がまだ存在し、本実施形態はこれに限定されないことに注意されたい。更に、いくつかの実施形態において、プロセッサ150は、対応する第1の感情判断を判定するため、全データソースから1以上のデータソースを選択してよい。選択されたデータソースは、他よりも感情推定においてより正確な判定を有する可能性がある。
複数のユーザデータ(又はデータソース)の第1の感情判断が判定された後、プロセッサ150は、第1の感情判断の間で感情衝突が起こるか否かを判定してよい(ステップS250)。具体的には、感情衝突は、これら第1の感情判断の対応感情グループが互いに一致していないことに関連する。例えば、(目の特徴といった)第4のデータソースの第1の感情判断がポジティブな感情であり、(口の特徴といった)第5のデータソースの第1の感情判断がネガティブな感情である場合、感情衝突が起こる。もう1つの例として、(心電図(ECG)といった)第6のデータソースの第1の感情判断が喜び感情であり、(筋電図(EMG)といった)第7のデータソースの第1の感情判断が悲しみ感情である場合、感情衝突が起こる。
1つの実施形態において、プロセッサ150は、感情衝突の判定に信頼度を用いてよい。信頼度は、第1の感情判断がどれほど信頼できるかである。具体的には、プロセッサ150は、これら第1の感情判断の感情値をそれぞれ判定してよい。感情値は、第1の感情判断がどの程度信頼できるか、又は信頼度がどの程度かに関連する。感情値が大きいほど第1の感情判断は信頼性がより高くなり、信頼度がより高くなる。感情値が小さいほど第1の感情判断はより信頼性がより低くなり、信頼度がより低くなる。感情値は、第1の感情分類器又は信頼度に関する別のアルゴリズムの出力により判定されてよい。次いで、プロセッサ150は、感情値の重み値の組合せを判定し、感情値の重み値の組合せを信頼性閾値と比較する。プロセッサ150は、対応する感情重みを各第1の感情判断の感情値に与え、感情値に対しこれらに対応する感情重みで加重演算を実行してよい。感情重みの組合せが信頼性閾値よりも大きい場合、感情衝突は起きない。反対に、重み値の組合せが信頼性閾値よりも大きくない場合、感情衝突が起こる。第1の感情判断が複数の感情カテゴリの感情加重された組合せである場合、感情値も複数の感情カテゴリの感情加重された組合せであり、対応する信頼性閾値は、感情値が位置する座標系における線形方程式、曲線方程式、又は別の方程式と同等又は類似であることに注意されたい。
いくつかの実施形態において、プロセッサ150は、感情衝突が起こるか否かを判定するため、より高い信頼性を有する1以上の第1の感情判断を選択してよい。例えば、プロセッサ150は顔面筋活動と音声から2つの第1の感情判断を選択し、これら第1の感情判断が同一の感情グループに属するか否かを比較する。
次いで、プロセッサ150は、感情衝突の判定結果に応じて、1以上の感情グループから第2の感情判断を判定してよい(ステップS255)。判定結果は、感情衝突が発生すること、又は感情衝突が発生しないことであってよい。プロセッサ150は、1つの感情グループ(のみ)に関連する第2の感情判断を生成するため、1以上の感情グループを融合してよい。
1つの実施形態において、感情衝突が発生する場合、プロセッサ150は少なくとも2つの感情グループから第2の感情判断を判定してよい(ステップS260)。具体的には、感情衝突が発生する場合、第1の感情判断は2以上の感情グループを含む。第2段階において、プロセッサ150は、第1の感情判断が属する感情グループから、又は全ての感情グループから、第2の感情判断を更に判定してよく、第2の感情判断は1つの感情グループ(のみ)に関連する。
図7は、本発明の例示的な実施形態の1つによる第2の感情判断の生成を表すフロー図である。図7を参照し、1つの実施形態において、プロセッサ150は、第2の感情判断を判定するため、1以上の第1の感情判断を用いてよい(ステップS261)。これは、第1の感情判断が第2の感情判断のための参考となり得ることを意味する。1つの実施形態において、プロセッサ150は、2以上の第1の感情判断の加重された判断の組合せを判定し、該加重された判断の組合せに基づき第2の感情判断を判定する。プロセッサ150は第1の感情判断において加重演算を実行してよく、算出結果は第2の感情判断に関連する。第2の感情判断は、実数、特定の感情カテゴリ、特定の感情カテゴリの特定のレベル、又は複数の感情カテゴリの感情加重された組合せであってよい。もう1つの実施形態において、第2の感情判断は、第1の感情判断が判定モデルの入力データである、機械学習技術又はツリーベースの分類方法を介し判定されうる。
いくつかの実施形態において、プロセッサ150は、第2の感情判断を判定するため、より高い信頼性又は異なる感情グループを有する2以上の第1の感情判断を選択してよいことに注意されたい。
もう1つの実施形態において、プロセッサ150は、第2の感情判断を判定するため、1以上のデータソースからの1以上のユーザデータを用いてもよい(ステップS263)。これは、ユーザデータが第2の感情判断のための参照となり得ることを意味する。1つの実施形態において、プロセッサ150は、機械学習技術又はツリーベースの分類方法に基づき、第2の感情分類器を用いることにより第2の感情判断を判定してよい。第2の感情分類器は、これらユーザデータが属するのが感情グループのどれかを識別するために用いられる。ユーザデータは第2の感情分類器の入力データであってよく、第2の感情判断は第2の感情分類器の出力データである。プロセッサ150は、複数の第2の訓練感情と以前の訓練感知データにより、第2の感情分類器を事前に訓練してもよいことに注意されたい。これら第2の訓練感情は、2以上の感情グループを含む。これは、第2の感情分類器の出力データが、選択された感情グループの1つのみであり得ることを意味する。更には、訓練感知データは各データソースから得られ、それぞれ(第2の訓練感情になり得る)特定の感情に対応する。プロセッサ150は、第2の感情判断のために第1の感情判断の感情グループ又は全感情グループにより訓練された第2の感情分類器を選択してよい。
複数のデータソースからの未処理データ、事前処理データ、又は事前構成データは、同一の量、単位、又は収集時間間隔を有さなくてもよいことに注意されたい。図8は、本発明の例示的な実施形態の1つによるユーザデータ変換を表すフロー図である。図8を参照し、1つの実施形態において、プロセッサ150は、ユーザデータの組合せを生成するため、入力される2以上のユーザデータを更に組み合わせてよい。例えば、特徴抽出の後、第1のデータソースからのユーザデータは40×1マトリックスであり、第2のデータソースからのユーザデータは80×2マトリックスであり、ユーザデータの組合せは120×1マトリックスでありうる。プロセッサ150は、ユーザデータから顔の特徴を抽出するため、ユーザデータの組合せに線形変換を更に実行してよい(ステップS262)。線形変換は、特定の機械学習技術又は特定のツリーベースの分類方法に基づき設計される。次いで、線形返還後のデータは第2の感情分類器の入力となりうる。
一方、1つの実施形態において、感情衝突が発生しない場合、プロセッサ150は、1つの感情グループ(のみ)から第2の感情判断を判定してよい(ステップS270)。具体的には、感情衝突が発生しない場合、第1の感情判断は1つの感情グループのみを含む。1つの実施形態において、1つの感情グループは1つの感情カテゴリのみを含み、プロセッサ150は第2の感情判断として第1の感情判断の任意の1つを判定してよい。
ただし、いくつかの実施形態において、1つの感情グループは複数の感情カテゴリを含んでよく、1つの感情カテゴリは複数のレベルを含んでよい。プロセッサ150は、第1の感情判断が属する感情カテゴリから第2の感情判断を更に判定してよく、第2の感情判断は、特定レベルの特定の感情カテゴリ(のみ)、又は感情カテゴリの特定の感情加重された組合せに関連する。
1つの実施形態において、プロセッサ150は、機械学習技術又はツリーベースの分類方法に基づき、第3の感情分類器を用いることにより第2の感情判断を判定してよい。第3の感情分類器は、ユーザデータ又は第1の感情判断が属するのが感情グループのどれかを識別するために用いられる。ユーザデータ又は1以上の第1の感情判断は第3の感情分類器の入力データであり、第2の感情判断は第3の感情分類器の出力データである。第1及び第2の感情分類器と比較し、プロセッサ150は第3の訓練感情により第3の感情分類器を訓練し、第3の訓練感情は1つの感情グループのみを含むことに注意されたい。プロセッサ150は、第2の感情判断のため、第1の感情判断の感情グループにより訓練された第3の感情分類器を選択してよい。もう1つの実施形態において、プロセッサ150は、2以上の第1の感情判断の加重された判断の組合せを判定し、加重された判断の組合せに基づき第2の感情判断を判定してよい。
次いで、プロセッサ150は、第2の感情判断に基づき、アバターの表情を生成してよい(ステップS290)。具体的には、アバターの顔は(顔、目、鼻、眉の形状又は動きといった)複数の顔の特徴を含んでよい。アバターの表情は、形状パラメータとテクスチャパラメータ(併せて表情パラメータと呼称される)を含んでよい。各形状パラメータはアバターの顔の頂点の2次元又は3次元座標を示すために用いられる。いくつかの実施形態において、各テクスチャパラメータは、第2の感情判断(例えば、特定の感情、特定の感情の特定のレベル、又は複数の感情カテゴリの特定の感情加重された組合せ)に対応する顔画像が適用される顔の位置を示すために用いられる。
プロセッサ150は、特定の感情に対応する表情を生成するため、表情の特徴で第2の感情判断を生成、併合又は置き換えてよい。1つの実施形態において、プロセッサ150は、(正規分布、幾何分布、ベルヌーイ分布といった)確率分布により、対応する表情グループから1つの表情を選択してよい。各表情グループは、複数の表情を含む。各感情又は1つの感情の各レベルは、特定の表情グループに対応する。例えば、特定の第2の感情判断には10の表情があり、プロセッサ150は該10の表情から1つをランダムに選択してよい。
いくつかの実施形態において、プロセッサ150は各第2の感情判断のための顔の特徴を生成してよい。各第2の感情判断は、顔の特徴のパラメータの(長さ、角度、色、サイズといった)特定の制限で構成されてよく、対応する顔の特徴は該制限に基づき生成されることができる。例えば、第2の感情判断が喜び感情を有し、喜び感情の感情的な重みが0.1以上であるとき、唇の長さはある範囲を有する。
いくつかの実施形態において、各第2の感情判断は顔テンプレートに対応し、顔テンプレートは特定の画像又は特定のアニメーションに対応する。プロセッサ150は顔モデルの特定の位置に顔テンプレートを貼り付けてよい。
まとめると、上記の例示的な実施形態は、顔モデルのアバター表情生成システムとアバター表情生成方法を描写している。感情判断は、第1段階において複数のデータソースに基づき判定される。第1段階において感情判断の間で感情衝突が発生する場合、第2段階において適切な感情判断が更に判定される。従って、アバターに適切な感情の通常の表情が提示される。不確かな表情パラメータは減少される。更には、仮想環境における社会的コミュニケーションが鮮やかな表情で改善される。
当業者にとって、本発明の範囲又は精神から逸脱することなく、本発明の構造に様々な改変と変形を行うことができることは明らかであろう。上記を鑑み、本発明は、以下の特許請求の範囲及びそれらの均等物の範囲内にあるという条件で、本発明の改変及び変形を網羅することを意図している。
本発明のアバター表情生成システム及びアバター表情生成方法は、アバター表情生成に適用することができる。
100:表情生成システム
110:追跡デバイス
115:センサ
120:ディスプレイ
130:メモリ
150:プロセッサ
S210〜S290、S211〜S213、S260〜S263:ステップ
401、402:感情グループ
231:第1の感情分類器
232:顔の特徴に関する距離
233:意味解析
234:画像解析

Claims (14)

  1. 複数のユーザデータを取得することであって、各ユーザデータが複数のデータソースの1つからのユーザの感知結果に関連することと、
    各ユーザデータに基づき複数の第1の感情判断をそれぞれ判定することであって、各前記第1の感情判断が複数の感情グループの1つに関連することと、
    前記複数の第1の感情判断の間で感情衝突が発生するか否かを判定することであって、前記感情衝突が、前記複数の第1の感情判断の対応する感情グループが互いに一致しないことに関連することと、
    前記感情衝突の判定結果に応じて、前記感情グループの少なくとも1つから第2の感情判断を判定することであって、前記第2の感情判断が前記複数の感情グループの1つに関連することと、
    前記第2の感情判断に基づき、アバターの表情を生成することと
    を含む、アバター表情生成方法。
  2. 複数のユーザデータを取得する少なくとも1つの追跡デバイスであって、各ユーザデータが複数のデータソースの1つからのユーザの感知結果に関連する、追跡デバイスと、
    プログラムコードを格納する、メモリと、
    前記メモリに連接され、
    各ユーザデータに基づき複数の第1の感情判断をそれぞれ判定することであって、各前記第1の感情判断が複数の感情グループの1つに関連することと、
    前記複数の第1の感情判断の間で感情衝突が発生するか否かを判定することであって、前記感情衝突が、前記複数の第1の感情判断の対応する感情グループが互いに一致しないことに関連することと、
    前記感情衝突の判定結果に応じて、前記感情グループの少なくとも1つから第2の感情判断を判定することであって、前記第2の感情判断が前記複数の感情グループの1つに関連することと、
    前記第2の感情判断に基づき、アバターの表情を生成することと
    を実行するため前記プログラムコードをロードする、プロセッサと
    を含む、アバター表情生成システム。
  3. 前記感情衝突の前記判定結果に応じて、前記感情グループの少なくとも1つから前記第2の感情判断を判定する前記ステップが、
    前記感情衝突が発生することに応じて、前記感情グループの少なくとも2つから前記第2の感情判断を判定すること
    を含む、請求項1に記載のアバター表情生成方法、又は、
    前記プロセッサが、
    前記感情衝突が発生することに応じて、前記感情グループの少なくとも2つから前記第2の感情判断を判定すること
    を更に実行する、請求項2に記載のアバター表情生成システム。
  4. 前記感情衝突が発生することに応じて、前記感情グループの少なくとも2つから前記第2の感情判断を判定する前記ステップが、
    前記第2の感情判断を判定するため、前記第1の感情判断の少なくとも1つを用いること
    を含む、請求項3に記載のアバター表情生成方法、又は、
    前記プロセッサが、
    前記第2の感情判断を判定するため、前記第1の感情判断の少なくとも1つを用いること
    を更に実行する、請求項3に記載のアバター表情生成システム。
  5. 前記感情衝突が発生することに応じて、前記感情グループの少なくとも2つから前記第2の感情判断を判定する前記ステップが、
    前記第2の感情判断を判定するため、前記複数のユーザデータの少なくとも1つを用いること
    を含む、
    請求項1に記載のアバター表情生成方法、又は、
    前記プロセッサが、
    前記第2の感情判断を判定するため、前記複数のユーザデータの少なくとも1つを用いること
    を更に実行する、
    請求項2に記載のアバター表情生成システム。
  6. 前記第2の感情判断を判定するため、前記第1の感情判断の少なくとも1つを用いる前記ステップが、
    前記第1の感情判断の少なくとも2つの加重された判断の組合せを判定することと、
    前記加重された判断の組合せに基づき前記第2の感情判断を判定することと
    を含む、
    請求項4に記載のアバター表情生成方法、又は、
    前記プロセッサが、
    前記第1の感情判断の少なくとも2つの加重された判断の組合せを判定することと、
    前記加重された判断の組合せに基づき前記第2の感情判断を判定することと
    を更に実行する、
    請求項4に記載のアバター表情生成システム。
  7. 前記第2の感情判断を判定するため、前記複数のユーザデータの少なくとも1つを用いる前記ステップが、
    ユーザデータの組合せを生成するため前記複数のユーザデータの少なくとも2つを組み合わせることと、
    前記複数のユーザデータの少なくとも2つから顔の特徴を抽出するため、前記ユーザデータの組合せに線形変換を実行することと
    を含む、
    請求項5に記載のアバター表情生成方法、又は、
    前記プロセッサが、
    ユーザデータの組合せを生成するため前記複数のユーザデータの少なくとも2つを組み合わせることと、
    前記複数のユーザデータの少なくとも2つから顔の特徴を抽出するため、前記ユーザデータの組合せに線形変換を実行することと
    を更に実行する、
    請求項5に記載のアバター表情生成システム。
  8. 前記第2の感情判断を判定するため、前記複数のユーザデータの少なくとも1つを用いる前記ステップが、
    機械学習技術に基づき、第1の感情分類器を用いることにより前記第2の感情判断を判定することであって、前記第1の感情分類器が前記複数のユーザデータの少なくとも1つが属するのが前記感情グループのどれかを識別するために用いられ、前記複数のユーザデータの前記少なくとも1つが前記第1の感情分類器の入力データであり、前記第2の感情判断が前記第1の感情分類器の出力データであり、前記第1の感情分類器が前記感情グループの少なくとも2つを含む複数の第1の訓練感情により訓練されること
    を含む、
    請求項5に記載のアバター表情生成方法、又は、
    前記プロセッサが、
    機械学習技術に基づき、第1の感情分類器を用いることにより前記第2の感情判断を判定することであって、前記第1の感情分類器が前記複数のユーザデータの少なくとも1つが属するのが前記感情グループのどれかを識別するために用いられ、前記複数のユーザデータの前記少なくとも1つが前記第1の感情分類器の入力データであり、前記第2の感情判断が前記第1の感情分類器の出力データであり、前記第1の感情分類器が前記感情グループの少なくとも2つを含む複数の第1の訓練感情により訓練されること
    を更に実行する、
    請求項5に記載のアバター表情生成システム。
  9. 各ユーザデータに基づき前記複数の第1の感情判断をそれぞれ判定する前記ステップが、
    機械学習技術に基づき、第2の感情分類器を用いることにより各前記第1の感情判断を判定することであって、前記第2の感情分類器が前記複数のユーザデータのそれぞれが属するのが前記感情グループのどれかを識別するために用いられ、前記複数のユーザデータの前記少なくとも1つが前記第2の感情分類器の入力データであり、各前記第1の感情判断が前記第2の感情分類器の出力データであり、前記第2の感情分類器が前記感情グループの全てを含む複数の第2の訓練感情により訓練されること
    を含む、
    請求項1に記載のアバター表情生成方法、又は、
    前記プロセッサが、
    機械学習技術に基づき、第2の感情分類器を用いることにより各前記第1の感情判断を判定することであって、前記第2の感情分類器が前記複数のユーザデータのそれぞれが属するのが前記感情グループのどれかを識別するために用いられ、前記複数のユーザデータの前記少なくとも1つが前記第2の感情分類器の入力データであり、各前記第1の感情判断が前記第2の感情分類器の出力データであり、前記第2の感情分類器が前記感情グループの全てを含む複数の第2の訓練感情により訓練されること
    を更に実行する、
    請求項2に記載のアバター表情生成システム。
  10. 各前記第1の感情判断又は前記第2の感情判断が、複数の感情カテゴリの感情加重された組合せである、
    請求項1に記載のアバター表情生成方法、又は、
    請求項2に記載のアバター表情生成システム。
  11. 前記複数の第1の感情判断の間で前記感情衝突が発生するか否かを判定する前記ステップが、
    前記複数の第1の感情判断の感情値をそれぞれ判定することと、
    前記感情値の重み値の組合せを判定することと、
    前記感情値の前記重み値の組合せを信頼性閾値と比較することであって、前記重み値の組合せが前記信頼性閾値よりも大きいことに応じて前記感情衝突が発生せず、前記重み値の組合せが前記信頼性閾値よりも大きくないことに応じて前記感情衝突が発生すること
    を含む、
    請求項1に記載のアバター表情生成方法、又は、
    前記プロセッサが、
    前記複数の第1の感情判断の感情値をそれぞれ判定することと、
    前記感情値の重み値の組合せを判定することと、
    前記感情値の前記重み値の組合せを信頼性閾値と比較することであって、前記重み値の組合せが前記信頼性閾値よりも大きいことに応じて前記感情衝突が発生せず、前記重み値の組合せが前記信頼性閾値よりも大きくないことに応じて前記感情衝突が発生すること
    を更に実行する、
    請求項2に記載のアバター表情生成システム。
  12. 前記感情衝突の前記判定結果に応じて、前記感情グループの少なくとも1つから前記第2の感情判断を判定する前記ステップが、
    前記感情衝突が発生しないことに応じて、前記複数の感情グループの1つから前記第2の感情判断を判定すること
    を含む、
    請求項1に記載のアバター表情生成方法、又は、
    前記プロセッサが、
    前記感情衝突が発生しないことに応じて、前記複数の感情グループの1つから前記第2の感情判断を判定すること
    を更に実行する、
    請求項2に記載のアバター表情生成システム。
  13. 前記複数の感情グループの1つから前記第2の感情判断を判定する前記ステップが、
    機械学習技術に基づき、第3の感情分類器を用いることにより前記第2の感情判断を判定することであって、前記第3の感情分類器が前記複数のユーザデータ又は前記複数の第1の感情判断が属するのが前記感情グループのどれかを識別するために用いられ、前記複数のユーザデータの前記少なくとも1つ又は前記第1の感情判断の少なくとも1つが前記第3の感情分類器の入力データであり、前記第2の感情判断が前記第3の感情分類器の出力データであり、前記第3の感情分類器が前記複数の感情グループの1つのみを含む第3の訓練感情により訓練されること
    を含む、
    請求項12に記載のアバター表情生成方法、又は、
    前記プロセッサが、
    機械学習技術に基づき、第3の感情分類器を用いることにより前記第2の感情判断を判定することであって、前記第3の感情分類器が前記複数のユーザデータ又は前記複数の第1の感情判断が属するのが前記感情グループのどれかを識別するために用いられ、前記複数のユーザデータの前記少なくとも1つ又は前記第1の感情判断の少なくとも1つが前記第3の感情分類器の入力データであり、前記第2の感情判断が前記第3の感情分類器の出力データであり、前記第3の感情分類器が前記複数の感情グループの1つのみを含む第3の訓練感情により訓練されること
    を更に実行する、
    請求項12に記載のアバター表情生成システム。
  14. 前記複数のデータソースが、前記ユーザの目標部位又は感知技術において異なる、
    請求項1に記載のアバター表情生成方法、又は、
    請求項2に記載のアバター表情生成システム。
JP2020125192A 2020-02-27 2020-07-22 アバター表情生成システム及びアバター表情生成方法 Pending JP2021135995A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/802,571 US11127181B2 (en) 2018-09-19 2020-02-27 Avatar facial expression generating system and method of avatar facial expression generation
US16/802,571 2020-02-27

Publications (1)

Publication Number Publication Date
JP2021135995A true JP2021135995A (ja) 2021-09-13

Family

ID=71741629

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020125192A Pending JP2021135995A (ja) 2020-02-27 2020-07-22 アバター表情生成システム及びアバター表情生成方法

Country Status (4)

Country Link
EP (1) EP3872694A1 (ja)
JP (1) JP2021135995A (ja)
CN (1) CN113313795A (ja)
TW (1) TWI829944B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023170795A1 (ja) * 2022-03-08 2023-09-14 ソフトバンク株式会社 情報処理装置、情報処理方法、およびプログラム
WO2024171424A1 (ja) * 2023-02-17 2024-08-22 株式会社ソニー・インタラクティブエンタテインメント システム、パラメータ決定方法およびプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI824883B (zh) * 2022-12-14 2023-12-01 輔仁大學學校財團法人輔仁大學 應用虛擬實境模擬表情情緒訓練的虛擬實境互動式系統

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8965762B2 (en) * 2007-02-16 2015-02-24 Industrial Technology Research Institute Bimodal emotion recognition method and system utilizing a support vector machine
TW201244694A (en) * 2011-05-09 2012-11-16 Univ Nat Taiwan Science Tech Device for responding emotions and emotion recognition method thereof
CN107257403A (zh) * 2012-04-09 2017-10-17 英特尔公司 使用交互化身的通信
US10176619B2 (en) * 2015-07-30 2019-01-08 Intel Corporation Emotion augmented avatar animation
US10528801B2 (en) * 2016-12-07 2020-01-07 Keyterra LLC Method and system for incorporating contextual and emotional visualization into electronic communications
US10636175B2 (en) * 2016-12-22 2020-04-28 Facebook, Inc. Dynamic mask application
WO2018128996A1 (en) * 2017-01-03 2018-07-12 Clipo, Inc. System and method for facilitating dynamic avatar based on real-time facial expression detection
WO2019040669A1 (en) * 2017-08-22 2019-02-28 Silicon Algebra, Inc. METHOD FOR DETECTING EXPRESSIONS AND FACIAL EMOTIONS OF USERS
CN108764010A (zh) * 2018-03-23 2018-11-06 姜涵予 情绪状态确定方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023170795A1 (ja) * 2022-03-08 2023-09-14 ソフトバンク株式会社 情報処理装置、情報処理方法、およびプログラム
WO2024171424A1 (ja) * 2023-02-17 2024-08-22 株式会社ソニー・インタラクティブエンタテインメント システム、パラメータ決定方法およびプログラム

Also Published As

Publication number Publication date
EP3872694A1 (en) 2021-09-01
CN113313795A (zh) 2021-08-27
TW202133117A (zh) 2021-09-01
TWI829944B (zh) 2024-01-21

Similar Documents

Publication Publication Date Title
US11989340B2 (en) Systems, methods, apparatuses and devices for detecting facial expression and for tracking movement and location in at least one of a virtual and augmented reality system
JP7253017B2 (ja) 反射を利用する拡張現実システムおよび方法
JP6754817B2 (ja) データ融合を用いた顔表情生成の方法
Lou et al. Realistic facial expression reconstruction for VR HMD users
US11127181B2 (en) Avatar facial expression generating system and method of avatar facial expression generation
WO2021051579A1 (zh) 形体姿态识别方法、系统、装置及存储介质
Du et al. Non-contact emotion recognition combining heart rate and facial expression for interactive gaming environments
US9031293B2 (en) Multi-modal sensor based emotion recognition and emotional interface
TWI829944B (zh) 虛擬化身臉部表情產生系統和虛擬化身臉部表情產生方法
CN111414839A (zh) 基于姿态的情感识别方法及装置
TWI736054B (zh) 化身臉部表情產生系統及化身臉部表情產生方法
CN114998983A (zh) 一种基于增强现实技术和姿态识别技术的肢体康复方法
Parvathi et al. Emotion Analysis Using Deep Learning
WO2023108842A1 (zh) 基于健身教学训练的动作评价方法及系统
Açış et al. Classification of human movements by using Kinect sensor
Antonaras et al. Affect state recognition for adaptive human robot interaction in learning environments
CN117036877B (zh) 一种人脸表情及姿态融合的情绪识别方法及系统
de Castro Lopes Human Action and Facial Expressions Recognition in a VR game
CN117064387A (zh) 基于场景视频的孤独症谱系障碍人工智能辅助诊断系统
Lopes Human Action and Facial Expressions Recognition in a VR Game
Hjelm Gardner Spot the Pain: Exploring the Application of Skeleton Pose Estimation for Automated Pain Assessment
KR20230135532A (ko) 집단지성화 알고리즘을 이용한 정보처리방법
Fourati Classification and characterization of emotional body expression in daily actions
CN118370968A (zh) 基于vr的帕金森手部康复训练系统
Bulzacki Machine recognition of human gestures through principal joint variable analysis

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200908

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240220

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240910