JP7244390B2 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JP7244390B2
JP7244390B2 JP2019151993A JP2019151993A JP7244390B2 JP 7244390 B2 JP7244390 B2 JP 7244390B2 JP 2019151993 A JP2019151993 A JP 2019151993A JP 2019151993 A JP2019151993 A JP 2019151993A JP 7244390 B2 JP7244390 B2 JP 7244390B2
Authority
JP
Japan
Prior art keywords
user
information
situation
situation information
body motion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019151993A
Other languages
English (en)
Other versions
JP2021033559A (ja
Inventor
善数 大貫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Priority to JP2019151993A priority Critical patent/JP7244390B2/ja
Priority to PCT/JP2020/030818 priority patent/WO2021033626A1/ja
Priority to US17/633,799 priority patent/US20220327805A1/en
Publication of JP2021033559A publication Critical patent/JP2021033559A/ja
Application granted granted Critical
Publication of JP7244390B2 publication Critical patent/JP7244390B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置、情報処理方法およびプログラムに関する。
例えば特許文献1には、発話中に行われたジェスチャーの特徴量と発話に含まれる単語の単語ベクトルとの間の時間的対応関係に基づいて、ジェスチャーの特徴量から発話単語を推定するモデルを生成するモデル学習装置が記載されている。
特開2018-163400号公報
その一方で、音声認識技術の進歩によって、音声から発話内容を認識する精度は向上している。つまり、ジェスチャーから推定しなくても、発話内容を精度よく認識することが可能になっている。
しかしながら、上記の特許文献1は、ジェスチャーの特徴量と発話単語との間に相関性があることに着目しているが、ジェスチャーの特徴量から発話単語を推定することを目的とするものであり、その用途は限られている。
そこで、本発明は、ユーザの身体動作と、身体動作が発生したときのユーザの状況を示す情報との相関性を活用してユーザによりよい体験を提供することが可能な、情報処理装置、情報処理方法およびプログラムを提供することを目的とする。
本発明のある観点によれば、ユーザの身体動作の特徴量と、身体動作が発生したときのユーザの状況を示す状況情報とを収集するデータ収集部と、身体動作の特徴量と状況情報との関係性を学習することによって身体動作の特徴量を状況情報に従って分類する学習済みモデルを構築する関係性学習部と、学習済みモデルに基づいて、状況情報を身体動作の特徴量に対応付けることが可能なマップを生成するマップ生成部とを備える情報処理装置が提供される。
本発明の別の観点によれば、ユーザによって観察される状況を示す第1の状況情報を取得する状況情報取得部と、過去に発生したユーザの第1の身体動作の特徴量と第1の身体動作が発生したときのユーザの状況を示す第2の状況情報との関係性を学習することによって構築された学習済みモデルに基づいて生成されたマップによって第1の状況情報に対応付けられる特徴量から第2の身体動作を仮想的に構築する身体動作構築部とを備える情報処理装置が提供される。
本発明のさらに別の観点によれば、ユーザの第1の身体動作の特徴量と、第1の身体動作が発生したときのユーザの状況を示す第1の状況情報とを収集するステップと、第1の身体動作の特徴量と第1の状況情報との関係性を学習することによって第1の身体動作の特徴量を第1の状況情報に従って分類する学習済みモデルを構築するステップと、ユーザによって観察される状況を示す第2の状況情報を取得するステップと、学習済みモデルに基づいて生成されたマップによって第2の状況情報に対応付けられる特徴量から第2の身体動作を仮想的に構築するステップとを含む情報処理方法が提供される。
本発明のさらに別の観点によれば、ユーザの身体動作の特徴量と、身体動作が発生したときのユーザの状況を示す状況情報とを収集する機能と、身体動作の特徴量と状況情報との関係性を学習することによって身体動作の特徴量を状況情報に従って分類する学習済みモデルを構築する機能と、学習済みモデルに基づいて、状況情報を身体動作の特徴量に対応付けることが可能なマップを生成する機能とをコンピュータに実現させるためのプログラムが提供される。
本発明のさらに別の観点によれば、ユーザによって観察される状況を示す第1の状況情報を取得する機能と、過去に発生したユーザの第1の身体動作の特徴量と第1の身体動作が発生したときのユーザの状況を示す第2の状況情報との関係性を学習することによって構築された学習済みモデルに基づいて生成されたマップによって第1の状況情報に対応付けられる特徴量から第2の身体動作を仮想的に構築する機能とをコンピュータに実現させるためのプログラムが提供される。
上記のような構成によって、身体動作の特徴量と状況情報との関係性の学習結果に基づいて、ユーザによって観察される状況に適合した身体動作を仮想的に構築することができ、ユーザによりよい体験を提供することができる。
本発明の第1の実施形態に係る情報処理装置を含むシステムの概略的な構成を示すブロック図である。 ユーザの状況をValence属性とArousal属性とを用いて表現した例を示す図である。 本発明の第2の実施形態に係る情報処理装置を含むシステムの概略的な構成を示すブロック図である。 本発明の第3の実施形態に係る情報処理装置を含むシステムの概略的な構成を示すブロック図である。 本発明の実施形態における処理の例を示すフローチャートである。 本発明の実施形態においてユーザのIDまたは属性情報ごとに学習を実施する場合の効果について模式的に説明するための図である。
以下、添付図面を参照しながら、本発明のいくつかの実施形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
(第1の実施形態)
図1は、本発明の第1の実施形態に係る情報処理装置を含むシステムの概略的な構成を示すブロック図である。図示された例において、システム10は、端末装置100A,100Bと、カメラ210と、マイクロフォン220A,220Bと、ディスプレイ230と、サーバー300とを含む。カメラ210およびマイクロフォン220Aは端末装置100Aに接続され、マイクロフォン220Bおよびディスプレイ230は端末装置100Bに接続される。また、端末装置100A,100Bは、それぞれネットワークを介してサーバー300に接続される。
端末装置100A,100Bおよびサーバー300は、例えば通信インターフェース、プロセッサ、およびメモリを有するコンピュータによって実装される。端末装置100A,100Bおよびサーバー300では、プロセッサがメモリに格納された、または通信インターフェースを介して受信されたプログラムに従って動作することによって、以下で説明するような各部の機能がソフトウェア的に実現される。なお、端末装置およびサーバーの上記のような構成は、後述する他の実施形態でも同様である。
端末装置100Aは、身体動作特徴量抽出部110と、音声認識部120Aと、状況情報抽出部130Aと、データ送信部140とを含む。身体動作特徴量抽出部110は、カメラ210が取得した画像からユーザU1の身体動作の特徴量を取得する。身体動作は、例えば身体部分の動き、表情または視線方向の変化を含む。身体動作特徴量抽出部110は、ユーザU1の身体動作を捉えた画像から、ソフトウェア的に構成される認識器を用いて特徴量を取得する。なお、画像から各種の特徴量を抽出する認識器については、公知の各種の技術を利用可能であるため詳細な説明は省略する。
一方、音声認識部120Aは、マイクロフォン220Aが取得した音声からユーザU1の発話内容を認識する。状況情報抽出部130Aは、音声認識部120Aによるユーザの発話の音声認識結果、すなわち発話内容から、例えばテキスト解析によってユーザU1の状況を示す状況情報を抽出する。音声認識およびテキスト解析についても、公知の各種の技術を利用可能であるため詳細な説明は省略する。また、音声認識部120Aは、ユーザU1の発話の抑揚または強弱の特徴量から状況情報を抽出してもよい。
ここで、本実施形態において、状況情報は様々な観点でユーザの状況を分類した情報である。例えば、発話内容をテキスト解析することによって、メタ言語的な状況情報を抽出することができる。本明細書において、状況情報は、例えばユーザの発話から抽出されるものではあるが、発話内容そのものではなく、その発話内容から推定されるユーザの状況を説明するための情報である、という意味でメタ言語的である。具体的には、例えば、「はい」、「そうですね」(同意)、「いいえ」(不同意)、「おはようございます」、「こんにちは」(挨拶)、など特定の状況に固有のキーワードを認識することによって、それらの状況を意味する状況情報を抽出してもよい。また、発話内容に含まれる一人称、二人称、および三人称の名詞を用いて、ユーザの周りに他者がいるか否か、また他者を話題にしているか否かを意味する状況情報を抽出してもよい。また、発話内容の文脈を解析することによって、喜怒哀楽や好き嫌いなどのユーザの感情を意味する状況情報を抽出してもよい。発話の抑揚や強弱の特徴量は、それ自体がパラ言語的かつメタ言語的な状況情報として利用されてもよいし、発話内容のテキスト解析と組み合わせて、上述したメタ言語的な状況情報を抽出するために用いられてもよい。状況情報が示すユーザの状況は、例えば図2に示すように、Valence属性とArousal属性とを用いて表現されるものであってもよい。
再び図1を参照して、端末装置100Aのデータ送信部140は、身体動作特徴量抽出部110が抽出したユーザU1の身体動作の特徴量と、状況情報抽出部130Aが抽出した状況情報とをサーバー300に送信する。ここで、データ送信部140は、特徴量と状況情報とをタイムスタンプなどで互いに関連付けてサーバー300に送信する。つまり、ユーザU1の身体動作の特徴量は、当該身体動作が発生したときのユーザU1の状況を示す状況情報とともにサーバー300に送信される。
サーバー300は、データ収集部310と、関係性学習部330と、マップ生成部350とを含む。データ収集部310は、端末装置100Aから送信されるユーザU1の身体動作の特徴量と、当該身体動作が発生したときのユーザU1の状況を示す状況情報とを収集する。収集された特徴量および状況情報は、データ320としてサーバー300に蓄積される。データ収集部310は、例えば、同じユーザU1について、様々な身体動作の特徴量と、それぞれの身体動作が発生したときのユーザU1の状況を示す状況情報とを収集してもよい。また、データ収集部310は、異なる複数のユーザU1について、身体動作の特徴量と、当該身体動作が発生したときのユーザU1の状況を示す状況情報とを収集してもよい。
関係性学習部330は、データ320から、ユーザU1の身体動作の特徴量と状況情報との関係性を学習して学習済みモデル340を構築する。ここで、学習済みモデル340は、身体動作の特徴量を状況情報に従って分類するモデルである。本実施形態において、状況情報は、例えばテキスト解析などを用いて取得され、身体動作の特徴量に比べて確実性が高く、かつ分類しやすい。従って、関係性学習部330は、状況情報をラベルとして用いて、身体動作の特徴量について教師あり学習を実行することによって学習済みモデル340を構築することができる。なお、機械学習の具体的な手法については、公知の各種の技術を利用可能であるため詳細な説明は省略する。
マップ生成部350は、学習済みモデル340に基づいて、状況情報を身体動作の特徴量に対応付けることが可能なマップを生成する。例えば関係性学習部330が身体動作の特徴量から状況情報への推定器である場合、最終分類層のネットワークの中で重みが大きい接続を抽出することによって、ある状況情報を当該状況情報に有意に関連する身体動作の特徴量に対応付けることが可能なマップを生成することができる。このようなマップの生成手法として、例えばWord2Vec(オープンソース)などの自然言語処理で用いられる手法を用いて単語の分散表現、具体的には例えばword embeddingをする際に、パラ言語的な特徴量や身体動作の特徴量を付加した学習によってlookup tableを生成してもよい。
端末装置100Bは、音声認識部120Bと、状況情報抽出部130Bと、データ送受信部150と、身体動作構築部160とを含む。音声認識部120Bは、マイクロフォン220Bが取得した音声からユーザU2、またはユーザU2が観察可能な他者の発話内容を認識する。状況情報抽出部130Bは、音声認識部120BによるユーザU2の発話の音声認識結果、またはユーザU2の発話の抑揚または強弱の特徴量から、ユーザU2または他者がおかれた状況を示す状況情報を抽出する。
ここで、端末装置100Bの音声認識部120Bおよび状況情報抽出部130Bは上記の端末装置100Aの場合と同様にユーザの状況情報を取得するが、対象がユーザU2に限られず、ユーザU2が観察可能な他者であってもよい点で端末装置100Aの場合とは異なる。つまり、端末装置100Aでは音声認識部120Aおよび状況情報抽出部130AがユーザU1の状況を示す状況情報を取得するのに対して、端末装置100Bでは音声認識部120Bおよび状況情報抽出部130BがユーザU2によって観察される状況(必ずしもユーザU2自身の状況とは限らない)を示す状況情報を取得する。
データ送受信部150は、音声認識部120Bおよび状況情報抽出部130Bによって取得された状況情報(第1の状況情報)をサーバー300に送信し、サーバー300から身体動作の特徴量を受信する。上述のように、サーバー300では学習済みモデル340に基づいて、状況情報を身体動作の特徴量に対応付けることが可能なマップが生成されている。データ送受信部150が受信する身体動作の特徴量は、このマップによって上記の第1の状況情報に対応付けられる特徴量である。
身体動作構築部160は、データ送受信部150がサーバー300から受信した特徴量から身体動作を仮想的に構築する。身体動作構築部160は、仮想的に構築した身体動作を、例えばディスプレイ230によってユーザU2に向けて表示される仮想的なキャラクター、例えばユーザU2のアバターやコンパニオン的なキャラクターの動きとして出力してもよい。あるいは、身体動作構築部160は、ディスプレイ230による出力とともに、またはこれに代えて、仮想的に構築した身体動作をロボットの動きとして出力してもよい。具体的には、例えばオートエンコーダーやGAN(Generative Adversarial Network)などを用いて身体動作構築部160が構成されてもよい。
ここで、身体動作構築部160によって仮想的に構築される身体動作(第2の身体動作)は、過去に発生したユーザU1の身体動作(第1の身体動作)の特徴量と当該身体動作が発生したときのユーザU1の状況を示す状況情報(第2の状況情報)との関係性の学習結果を反映している。つまり、端末装置100Bでは、ユーザU2によって観察される状況を示す状況情報から、「そのような状況でユーザU1が実行するであろう身体動作」が仮想的に構築される。
以上で説明したような本発明の第1の実施形態の構成によれば、ユーザU1の身体動作の特徴量と状況情報との関係性の学習結果に基づいて、ユーザU2によって観察される状況に適合した身体動作を仮想的に構築することができる。例えばより多くのユーザU1の学習結果を取得することによって、例えばユーザU2に向けて表示される仮想的なキャラクターの動きとして出力される身体動作が、ユーザU2にとって自然な、または共感できるものになる。
(第2の実施形態)
図3は、本発明の第2の実施形態に係る情報処理装置を含むシステムの概略的な構成を示すブロック図である。図示された例において、システム20は、端末装置100と、カメラ210と、マイクロフォン220と、ディスプレイ230と、サーバー300とを含む。上記の第1の実施形態との違いとして、本実施形態では、例えばユーザIDによって特定される単一のユーザUに対して、身体動作の特徴量と状況情報との関係性が学習され、学習結果に基づいて、ユーザUによって観察される状況に対応した身体動作が仮想的に構築される。
図示された例において、端末装置100は、身体動作特徴量抽出部110と、音声認識部120と、状況情報抽出部130と、データ送信部140と、データ送受信部150と、身体動作構築部160とを含む。このうち、音声認識部120および状況情報抽出部130は、上記の第1の実施形態における音声認識部120Aおよび状況情報抽出部130A、ならびに音声認識部120Bおよび状況情報抽出部130Bを合わせた機能を有する。
つまり、サーバー300における関係性の学習段階では、音声認識部120および状況情報抽出部130が身体動作が発生したときのユーザUの状況を示す状況情報を取得し、取得された状況情報は身体動作の特徴量とともにデータ送信部140からサーバー300に送信される。一方、サーバー300における関係性の学習結果を利用して身体動作を仮想的に構築する段階では、音声認識部120および状況情報抽出部130がユーザUによって観察される状況を示す状況情報を取得し、取得された状況情報はデータ送受信部150からサーバー300に送信される。
上記のようなシステム20は、例えば、サーバー300においてデータ収集部310がユーザUのIDとともに特徴量および状況情報を収集し、関係性学習部330がユーザUのIDごとに関係性を学習することによって実現されてもよい。この場合、学習済みモデル340は、ユーザUのIDごとに構築された複数のモデルを含む。あるいは、サーバー300の機能が端末装置100に取り込まれ、ユーザUの自宅などの中でシステム20が完結してもよい。この場合、学習済みモデル340は、単一のユーザUについて構築されたモデルだけを含んでもよい。
本実施形態のシステム20は、例えば、上記の第1の実施形態のシステム10を用いて多数のユーザのデータを収集して学習済みモデル340を構築した後に、個々のユーザUに学習済みモデル340を適合させる転移学習を実施する過程で利用することができる。
以上で説明したような本発明の第2の実施形態の構成によれば、ユーザUの身体動作の特徴量と状況情報との関係性の学習結果に基づいて、同じユーザUによって観察される状況に適合した身体動作を仮想的に構築することができる。この場合、仮想的に構築される身体動作は、ユーザUにとってより自然な、またはより共感できるものになる。
(第3の実施形態)
図4は、本発明の第3の実施形態に係る情報処理装置を含むシステムの概略的な構成を示すブロック図である。図示された例において、システム30は、端末装置400A,400Bと、カメラ210と、ゲーム機240A,240Bと、サーバー300とを含む。上記の第1の実施形態との違いとして、本実施形態では、マイクロフォンの代わりにゲーム機240A,240Bによって状況情報が取得される。また、仮想的に構築された身体動作の出力にもゲーム機240Bが用いられる。
図示された例において、端末装置400Aは、身体動作特徴量抽出部110と、ログ取得部420Aと、状況情報抽出部430Aと、データ送信部140とを含む。ログ取得部420Aは、ユーザU1がゲーム機240Aでプレイするインタラクティブなコンテンツ、具体的にはゲームのログを取得する。状況情報抽出部430Aは、ログからユーザU1の状況を示す状況情報を抽出する。
具体的には、状況情報抽出部430Aは、チャットログに含まれるユーザU1のテキスト入力内容をテキスト解析することによって、上記の第1の実施形態と同様にメタ言語的な状況情報を抽出してもよい。また、状況情報抽出部430Aは、ゲームコンテンツ内のフラグ情報やパラメータなどから状況情報を抽出してもよい。この場合、ゲームのフラグ情報やパラメータから抽出される状況情報は、必ずしもユーザが言語的に認識できるものではないため、非言語的な状況情報であるともいえる。抽出された状況情報は、データ送信部140からサーバー300に送信され、上記の第1の実施形態と同様に学習に利用される。
一方、端末装置400Bは、ログ取得部420Bと、状況情報抽出部430Bと、データ送受信部150と、身体動作構築部160とを含む。ログ取得部420Bは、ユーザU2がゲーム機240Bでプレイするインタラクティブなコンテンツ、具体的にはゲームのログを取得する。状況情報抽出部430Bは、ログからユーザU2によって観察される状況を示す状況情報を抽出する。状況情報抽出部430Bは、ゲームコンテンツ内のフラグ情報やパラメータから状況情報を抽出してもよい。
ここで、第3の実施形態でも、第1の実施形態と同様に、端末装置400Bのログ取得部420Bおよび状況情報抽出部430Bは、例えばゲーム内におけるユーザU2自身の状況を示す状況情報を取得してもよいし、ユーザU2が観察可能な他者(ゲーム内の仮想的な存在を含む)の状況を示す状況情報を取得してもよい。状況情報抽出部430Bによって抽出された状況情報は、データ送受信部150からサーバー300に送信され、第1の実施形態と同様にマップによって状況情報に対応付けられる身体動作の特徴量が特定される。
以上で説明したような本発明の第3の実施形態の構成によれば、ユーザがプレイするインタラクティブなコンテンツのログなどから抽出される状況情報を用いて、ユーザU1の身体動作の特徴量と状況情報との関係性を学習し、学習結果に基づいてユーザU2によって観察される状況に適合した身体動作を仮想的に構築することができる。コンテンツ内でのユーザの状況はログなどから精度よく判定することができるため、コンテンツをプレイ中に生じる各種の状況に応じた身体動作を的確に構築することができる。
なお、上述した本発明の実施形態は、適宜組み合わせ可能である。例えば、第1の実施形態と第3の実施形態とを組み合わせ、ユーザの発話の音声認識結果、発話の抑揚または強弱の特徴量から抽出した状況情報と、コンテンツのログなどから抽出した状況情報とを併用してもよい。この場合、例えば、コンテンツ内の状況と、コンテンツ外の状況と、コンテンツ内の状況とコンテンツ外の状況とが組み合わされた複合的な状況とのそれぞれに対応した身体動作を仮想的に構築することができる。また、第2の実施形態と第3の実施形態とを組み合わせ、単一のユーザUに対してコンテンツのログなどから抽出した状況情報と身体動作の特徴量との関係性の学習、およびユーザUによって観察される状況に対応した身体動作の仮想的な構築が実施されてもよい。
また、各実施形態において、端末装置の機能とサーバーの機能とは互換的である。つまり、上記の実施形態において端末装置で実装されるものとして説明された機能は、サーバーで実装されてもよい。例えば、カメラが取得した画像やマイクロフォンが取得した音声が端末装置からサーバーに送信され、サーバーで仮想的に構築された身体動作の画像が端末装置に送信されてディスプレイに表示される場合のように、説明されたすべての機能をサーバーで実装することも可能である。あるいは、単一のユーザについて学習を実施する場合や、同じ端末装置を共用する複数のユーザについて学習を実施する場合に、説明されたすべての機能を端末装置で実装することも可能である。
図5は、本発明の実施形態における処理の例を示すフローチャートである。以下の説明では第1の実施形態の構成要素を用いて説明するが、他の実施形態についても同様である。
まず、サーバー300で、データ収集部310が、端末装置100Aから送信されるユーザU1の身体動作の特徴量および状況情報を収集する(ステップS101)。ここで、身体動作の特徴量と状況情報とは互いに関連付けられている。データ320が蓄積されると、関係性学習部330が、身体動作の特徴量と状況情報との関係性を学習することによって学習済みモデル340を構築する(ステップS102)。学習済みモデル340の構築後に、端末装置100Bで新たな状況情報が取得された場合(ステップS103のYES)、マップ生成部350が学習済みモデル340に基づいて生成したマップによって新たな状況情報に対応付けられる身体動作の特徴量が特定される(ステップS104)。特定された特徴量は端末装置100Bに送信され、端末装置100Bでは身体動作構築部160が身体動作を仮想的に構築する(ステップS105)。端末装置100Bで新たな状況情報が取得されない場合(ステップS103のNO)、端末装置100Aから送信されるデータの収集(ステップS101)と学習済みモデルの更新(ステップS102)とが継続される。
上述したような本発明の実施形態において、データ収集部は身体動作の特徴量および状況情報とともに、ユーザのIDまたは属性情報を収集してもよい。属性情報は、例えば、ユーザの年齢や性別、または所属するコミュニティなどの情報を含んでもよい。この場合、関係性学習部330は、ユーザのIDまたは属性情報ごとに身体動作の特徴量と状況情報との関係性を学習して学習済みモデル340を構築する。この場合、マップ生成部350がユーザのIDまたは属性情報ごとにマップを生成することによって、例えば同じ状況情報に対しても異なる身体動作の特徴量が特定される。
図6は、本発明の実施形態においてユーザのIDまたは属性情報ごとに学習を実施する場合の効果について模式的に説明するための図である。図6では、身体動作の特徴量が模式的に二次元平面上の分布として表現されている。図示された例において、状況情報はユーザの発話内容のテキスト解析によって抽出される。「いいえ」というキーワードに対応する状況情報とともに取得された特徴量fv1と、「そうですね」というキーワードに対応する状況情報とともに取得された特徴量fv2と、「はい」というキーワードに対応する状況情報とともに取得された特徴量fv3とが例示されている。
例えば、ユーザのIDまたは属性情報に関係なく状況情報に従って身体動作の特徴量を分類した場合、「いいえ」に対応する分類CL1と、「そうですね」に対応する分類CL2と、「はい」に対応する分類CL3とが特定される。図示された例において、これらの分類は範囲が広いために、例えば状況情報を身体情報の特徴量に対応付けるマップを生成しようとしても、対応付けられる特徴量が定まらない可能性がある。また、分類CL2と分類CL3とは同じではないものの部分的に重なっており、それぞれの分類に対応する状況情報が同じ特徴量に対応付けられるか否かが明確ではない。
これに対して、例えば、「いいえ」に対応する特徴量fv1から、特定のユーザのIDまたは属性情報に関連付けられた特徴量fv_P1を抽出して状況情報との関係性を学習した場合、より狭い範囲の分類CL_P1を特定することができる。これによって、状況情報に対してより適切な特徴量を出力することができる。また、別のユーザのIDまたは属性情報に関連付けられた特徴量fv_Q1を抽出した場合、全体の分類CL1には含まれない分類CL_Q1を特定することができる。これによって、例えば全体的な傾向とは異なる傾向を示す個別のユーザ、または特定の属性を持つユーザについて、状況情報に対して適切な特徴量を対応付けるマップを生成することができる。
また、例えば、「そうですね」に対応する特徴量fv2および「はい」に対応する特徴量fv3から、特定のユーザのIDまたは属性情報に関連付けられた特徴量fv_P2および特徴量fv_P3を抽出して状況情報との関係性を学習した場合、「そうですね」および「はい」の両方に対応する分類CL_P4を特定することができる。これによって、当該IDまたは属性情報を有するユーザについては、「そうですね」および「はい」に対応する状況情報に同じ特徴量を対応付ければよいことが明確になる。
以上、添付図面を参照しながら本発明のいくつかの実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
10,20,30…システム、100,100A,100B,400A,400B…端末装置、110…身体動作特徴量抽出部、120,120A,120B…音声認識部、130,130A,130B,430A,430B…状況情報抽出部、140…データ送信部、150…データ送受信部、160…身体動作構築部、210…カメラ、220,220A,220B…マイクロフォン、230…ディスプレイ、240A,240B…ゲーム機、300…サーバー、310…データ収集部、320…データ、330…関係性学習部、340…学習済みモデル、350…マップ生成部。

Claims (18)

  1. ユーザの身体動作の特徴量と、前記身体動作が発生したときの前記ユーザの状況を示す状況情報とを収集するデータ収集部と、
    前記身体動作の特徴量と前記状況情報との関係性を学習することによって前記身体動作の特徴量を前記状況情報に従って分類する学習済みモデルを構築する関係性学習部と、
    前記学習済みモデルに基づいて、前記状況情報を前記身体動作の特徴量に対応付けマップを生成するマップ生成部と
    を備える情報処理装置。
  2. 前記状況情報は、前記ユーザの発話の音声認識結果から抽出されるメタ言語的な情報、または前記ユーザの発話の抑揚もしくは強弱の特徴量から抽出されるパラ言語的な情報の少なくともいずれかを含む、請求項1に記載の情報処理装置。
  3. 前記状況情報は、前記ユーザがプレイするインタラクティブなコンテンツのログから抽出される情報を含む、請求項1または請求項2に記載の情報処理装置。
  4. 前記状況情報は、前記ユーザがプレイするインタラクティブなコンテンツ内のフラグ情報またはパラメータから抽出される情報を含む、請求項1から請求項3のいずれか1項に記載の情報処理装置。
  5. 前記状況情報は、前記ユーザの状況をValence属性とArousal属性とを用いて表現する、請求項1から請求項4のいずれか1項に記載の情報処理装置。
  6. 前記身体動作は、身体部分の動き、表情または視線方向の変化を含む、請求項1から請求項5のいずれか1項に記載の情報処理装置。
  7. 前記データ収集部は、前記ユーザのIDまたは属性情報をさらに収集し、
    前記関係性学習部は、前記ユーザのIDまたは前記属性情報ごとに前記関係性を学習する、請求項1から請求項6のいずれか1項に記載の情報処理装置。
  8. ユーザによって観察される状況を示す第1の状況情報を取得する状況情報取得部と、
    過去に発生した前記ユーザの第1の身体動作の特徴量と前記第1の身体動作が発生したときの前記ユーザの状況を示す第2の状況情報との関係性を学習することによって構築された学習済みモデルに基づいて生成されたマップにおいて前記第1の状況情報に対応付けられている特徴量から第2の身体動作を仮想的に構築する身体動作構築部と
    を備える情報処理装置。
  9. 前記第1および第2の状況情報は、前記ユーザの発話の音声認識結果から抽出されるメタ言語的な情報、または前記ユーザの発話の抑揚もしくは強弱の特徴量から抽出されるパラ言語的な情報の少なくともいずれかを含む、請求項8に記載の情報処理装置。
  10. 前記第1および第2の状況情報は、前記ユーザがプレイするインタラクティブなコンテンツのログから抽出される情報を含む、請求項8または請求項9に記載の情報処理装置。
  11. 前記第1および第2の状況情報は、前記ユーザがプレイするインタラクティブなコンテンツ内のフラグ情報またはパラメータから抽出される情報を含む、請求項8から請求項10のいずれか1項に記載の情報処理装置。
  12. 前記第1および第2の状況情報は、前記ユーザの状況をValence属性とArousal属性とを用いて表現する、請求項8から請求項11のいずれか1項に記載の情報処理装置。
  13. 前記第1および第2の身体動作は、身体部分の動き、表情または視線方向の変化を含む、請求項8から請求項12のいずれか1項に記載の情報処理装置。
  14. 前記ユーザは、第1のユーザと第2のユーザとを含み、
    前記第1の状況情報は、前記第1のユーザによって観察される状況を示し、
    前記第2の状況情報は、前記第2のユーザの状況を示す、請求項8から請求項13のいずれか1項に記載の情報処理装置。
  15. 前記身体動作構築部は、前記第2の身体動作を前記ユーザに向けて表示される仮想的なキャラクターの動きとして出力する、請求項8から請求項14のいずれか1項に記載の情報処理装置。
  16. ユーザの第1の身体動作の特徴量と、前記第1の身体動作が発生したときの前記ユーザの状況を示す第1の状況情報とを収集するステップと、
    前記第1の身体動作の特徴量と前記第1の状況情報との関係性を学習することによって前記第1の身体動作の特徴量を前記第1の状況情報に従って分類する学習済みモデルを構築するステップと、
    前記ユーザによって観察される状況を示す第2の状況情報を取得するステップと、
    前記学習済みモデルに基づいて生成されたマップにおいて前記第2の状況情報に対応付けられている特徴量から第2の身体動作を仮想的に構築するステップと
    を含む情報処理方法。
  17. ユーザの身体動作の特徴量と、前記身体動作が発生したときの前記ユーザの状況を示す状況情報とを収集する機能と、
    前記身体動作の特徴量と前記状況情報との関係性を学習することによって前記身体動作の特徴量を前記状況情報に従って分類する学習済みモデルを構築する機能と、
    前記学習済みモデルに基づいて、前記状況情報を前記身体動作の特徴量に対応付けマップを生成する機能と
    をコンピュータに実現させるためのプログラム。
  18. ユーザによって観察される状況を示す第1の状況情報を取得する機能と、
    過去に発生した前記ユーザの第1の身体動作の特徴量と前記第1の身体動作が発生したときの前記ユーザの状況を示す第2の状況情報との関係性を学習することによって構築された学習済みモデルに基づいて生成されたマップにおいて前記第1の状況情報に対応付けられている特徴量から第2の身体動作を仮想的に構築する機能と
    をコンピュータに実現させるためのプログラム。
JP2019151993A 2019-08-22 2019-08-22 情報処理装置、情報処理方法およびプログラム Active JP7244390B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019151993A JP7244390B2 (ja) 2019-08-22 2019-08-22 情報処理装置、情報処理方法およびプログラム
PCT/JP2020/030818 WO2021033626A1 (ja) 2019-08-22 2020-08-13 情報処理装置、情報処理方法およびプログラム
US17/633,799 US20220327805A1 (en) 2019-08-22 2020-08-13 Information processing apparatus, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019151993A JP7244390B2 (ja) 2019-08-22 2019-08-22 情報処理装置、情報処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2021033559A JP2021033559A (ja) 2021-03-01
JP7244390B2 true JP7244390B2 (ja) 2023-03-22

Family

ID=74660879

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019151993A Active JP7244390B2 (ja) 2019-08-22 2019-08-22 情報処理装置、情報処理方法およびプログラム

Country Status (3)

Country Link
US (1) US20220327805A1 (ja)
JP (1) JP7244390B2 (ja)
WO (1) WO2021033626A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012533134A (ja) 2009-07-13 2012-12-20 マイクロソフト コーポレーション ユーザーから学習した入力を介し視覚表示を実写のようにする方法及びシステム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012533134A (ja) 2009-07-13 2012-12-20 マイクロソフト コーポレーション ユーザーから学習した入力を介し視覚表示を実写のようにする方法及びシステム

Also Published As

Publication number Publication date
JP2021033559A (ja) 2021-03-01
WO2021033626A1 (ja) 2021-02-25
US20220327805A1 (en) 2022-10-13

Similar Documents

Publication Publication Date Title
Tao et al. End-to-end audiovisual speech recognition system with multitask learning
Eskimez et al. Speech driven talking face generation from a single image and an emotion condition
CN109416816B (zh) 支持交流的人工智能系统
Sadoughi et al. Speech-driven animation with meaningful behaviors
Bousmalis et al. Spotting agreement and disagreement: A survey of nonverbal audiovisual cues and tools
US20130262114A1 (en) Crowdsourced, Grounded Language for Intent Modeling in Conversational Interfaces
WO2019214456A1 (zh) 一种肢体语言翻译系统、方法及服务器
US20220172710A1 (en) Interactive systems and methods
TW201117114A (en) System, apparatus and method for message simulation
CN110209774A (zh) 处理会话信息的方法、装置及终端设备
CN113067953A (zh) 客户服务方法、系统、装置、服务器及存储介质
CN114495217A (zh) 基于自然语言和表情分析的场景分析方法、装置及系统
US20180336450A1 (en) Platform to Acquire and Represent Human Behavior and Physical Traits to Achieve Digital Eternity
CN112860213B (zh) 音频的处理方法和装置、存储介质及电子设备
CN106708950A (zh) 用于智能机器人自学习系统的数据处理方法及装置
JP7244390B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2017191531A (ja) コミュニケーションシステム、サーバ及びコミュニケーション方法
CN115171673A (zh) 一种基于角色画像的交流辅助方法、装置及存储介质
KR20210015977A (ko) 사망자와의 대화 구현 장치
CN113301352A (zh) 在视频播放期间进行自动聊天
JP7257349B2 (ja) 対象人物の特徴的な身振りを推定するプログラム、装置及び方法
WO2022180862A1 (ja) ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム
JP7407560B2 (ja) キーワード評価装置、キーワード評価方法及びキーワード評価プログラム
CN111783928A (zh) 动物互动方法、装置、设备和介质
WO2022180859A1 (ja) ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230309

R150 Certificate of patent or registration of utility model

Ref document number: 7244390

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150