JP2021523437A - 顔面表情による遠隔アバターの操縦 - Google Patents

顔面表情による遠隔アバターの操縦 Download PDF

Info

Publication number
JP2021523437A
JP2021523437A JP2020560922A JP2020560922A JP2021523437A JP 2021523437 A JP2021523437 A JP 2021523437A JP 2020560922 A JP2020560922 A JP 2020560922A JP 2020560922 A JP2020560922 A JP 2020560922A JP 2021523437 A JP2021523437 A JP 2021523437A
Authority
JP
Japan
Prior art keywords
face
user
texture
captured image
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020560922A
Other languages
English (en)
Other versions
JP7090178B2 (ja
Inventor
ヘフニー,タレク
レイター,ニコラス
ヤング,ブランドン
カンドア,アルン
カワー,ディロン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2021523437A publication Critical patent/JP2021523437A/ja
Application granted granted Critical
Publication of JP7090178B2 publication Critical patent/JP7090178B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/08Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Architecture (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

方法(300)は、第1の顔フレームワーク(144a)と顔(20)の第1の取り込み画像(130a)とを受け取るステップを含む。第1の顔フレームワークは、第1のフレームにおける顔に対応し、顔情報(140)の第1の顔メッシュ(142a)を含む。また、上記方法は、第1の取り込み画像を第1の顔フレームワーク上に投影するステップと、投影された第1の取り込み画像に基づいて、顔に対応する顔テクスチャ(212)を判断するステップとを含む。また、上記方法は、顔情報の第2の顔メッシュ(142b)を含む第2のフレームにおける第2の顔フレームワーク(144b)を受け取るステップと、受け取られた第2の顔フレームワークに基づいて顔テクスチャを更新するステップとを含む。また、上記方法は、更新された顔テクスチャを三次元アバター(160)として表示するステップを含む。三次元アバターは、顔の仮想表現に対応する。

Description

本開示は、顔面表情による遠隔アバターの操縦に関する。
背景
技術が発展するにつれて、人々は技術をコミュニケーションの一形態として利用し続けている。たとえば、技術によってコミュニケーションが単純な物理的な会話からリモートのリアルタイムでの会話へと発展することが可能になった。しかし、この発展に伴って、リモート形式のコミュニケーションは、概して、物理的な会話に含まれる表情および感情をつかむ能力が多少欠如している。たとえば、電子メールまたはテキスト会話から感情的文脈を解読することはしばしば困難であることが分かっている。これらの欠陥を克服するために、コミュニケーションの方法は、感情および表情を表現する方法を提供しようとしてきた。たとえば、テキストアプリケーションは、今では、気分、意見を表現したり、単に気まぐれな遊びを提供したりするために、幅広い絵文字およびアニメーションを含んでいる。人々はますますリアルタイムでの音声および映像接続を使用してコミュニケーションをとるようになっているので、これらのコミュニケーションチャネルの中にユーザの個性および性格を反映する方法に対する需要が高まっている。
概要
本開示の一局面は、遠隔アバターを操縦するための方法を提供する。上記方法は、データ処理ハードウェアにおいて、第1の顔フレームワークと中立の顔面表情を有するユーザの顔の第1の取り込み画像とを受け取るステップを含む。上記第1の顔フレームワークは、第1のフレームにおける上記ユーザの上記顔に対応し、顔情報の第1の顔メッシュを含む。また、上記方法は、上記データ処理ハードウェアが、上記顔の上記第1の取り込み画像を上記第1の顔フレームワーク上に投影するステップと、上記データ処理ハードウェアが、上記投影された取り込み画像に基づいて、上記ユーザの上記顔に対応する顔テクスチャを判断するステップとを含む。上記方法は、上記データ処理ハードウェアにおいて、第2の顔フレームワークを受け取るステップも含み、上記第2の顔フレームワークは、第2のフレームにおける上記ユーザの上記顔に対応する。上記第2の顔フレームワークは、顔情報の第2の顔メッシュを含む。また、上記方法は、上記データ処理ハードウェアが、上記受け取られた第2の顔フレームワークに基づいて、上記顔テクスチャを更新するステップと、上記データ処理ハードウェアが、上記更新された顔テクスチャを三次元アバターとして表示するステップとを含む。上記三次元アバターは、上記ユーザの上記顔の仮想表現に対応する。
本開示の実現例は、以下の任意の特徴のうちの1つまたは複数を含んでもよい。いくつかの実現例では、上記方法は、上記データ処理ハードウェアにおいて、上記ユーザの上記顔の第2の取り込み画像を受け取るステップも含み、上記第2の取り込み画像は、上記ユーザの顔面表情として笑顔を取り込み、上記方法は、上記データ処理ハードウェアにおいて、上記ユーザの上記顔の第3の取り込み画像を受け取るステップも含み、上記第3の取り込み画像は、上記ユーザの上記顔面表情として両方の眉を上げた状態を取り込み、上記方法は、上記データ処理ハードウェアにおいて、上記ユーザの上記顔の第4の取り込み画像を受け取るステップも含み、上記第4の取り込み画像は、上記ユーザの上記顔面表情として笑顔および両方の眉を上げた状態を取り込み、上記方法は、各々の取り込み画像について、上記データ処理ハードウェアが、上記ユーザの上記顔に対応する顔面表情テクスチャを判断するステップと、上記データ処理ハードウェアが、上記受け取られた第2の顔フレームワークに基づいて、各々の取り込み画像の上記顔面表情テクスチャと上記更新された顔テクスチャとをブレンドして、ブレンドされた顔テクスチャを生成するステップと、上記データ処理ハードウェアが、上記ブレンドされた顔テクスチャにより上記三次元アバターをレンダリングするステップとを含む。これらの実現例では、ブレンドするステップは、各々の取り込み画像についてテクスチャベクトルを判断するステップをさらに含み、上記テクスチャベクトルは、上記中立の顔面表情を有する上記第1の取り込み画像との差のベクトル表現に対応し、ブレンドするステップはさらに、上記受け取られた第2の顔フレームワークに基づいて、現在のテクスチャベクトルを判断するステップと、上記現在のテクスチャベクトルと各々の取り込み画像の上記テクスチャベクトルとの間の差に基づいて、レンダリング重みを割り当てるステップと、上記レンダリング重みに基づいて、上記ブレンドされた顔テクスチャにより上記三次元アバターをレンダリングするステップとを含む。上記レンダリング重みは、1に等しい合計を有してもよい。いくつかの例では、上記現在のテクスチャベクトルおよび各々の取り込み画像の上記テクスチャベクトルの各々は、52変数浮動ベクトルに対応してもよい。これらの例では、上記レンダリング重みは、上記現在のテクスチャベクトルと各々の取り込み画像の上記テクスチャベクトルとの間の上記差が増加するにつれて、大きさが小さくなる。
また、いくつかの例では、上記方法は、上記データ処理ハードウェアにおいて、上記第2のフレームにおける顔情報の現在の顔面表情メッシュを有する上記ユーザの上記顔の取り込まれた現在の画像を受け取るステップと、上記データ処理ハードウェアが、上記受け取られた顔フレームワークおよび上記取り込まれた現在の画像に基づいて、上記顔テクスチャを更新するステップとを含む。いくつかの実現例では、上記受け取られた取り込まれた現在の画像は、減少させた分量の顔テクスチャに対応する。また、これらの実現例では、上記方法は、上記データ処理ハードウェアが、上記受け取られた取り込まれた現在の画像に基づいて、上記ユーザの上記顔の遮られた部分を判断するステップと、上記データ処理ハードウェアが、上記ユーザの上記顔の上記遮られた部分と、以前のフレームからの遮られていない取り込まれた画像から生成された顔テクスチャとをブレンドするステップとを含んでもよい。
いくつかの実現例では、上記方法は、上記データ処理ハードウェアが、上記ユーザの眼または口の描出を生成するステップも含み、上記生成するステップは、上記データ処理ハードウェアが、上記眼または上記口のエッジを検出するステップと、上記データ処理ハードウェアが、上記眼または上記口の上記エッジに関連付けられた角度の合計が2π(360度)に対応することを判断するステップと、上記データ処理ハードウェアが、2πに対応する上記検出されたエッジに基づいて、上記眼または上記口の位置を近似するステップと、上記データ処理ハードウェアが、上記顔の上記取り込み画像から上記近似された位置における上記口または上記眼を抽出するステップと、上記データ処理ハードウェアが、上記近似された位置における上記抽出された口または上記抽出された眼をフィルでレンダリングするステップとによって行われる。上記取り込み画像は、携帯電話からの赤、緑および青の(RGB)画像を含んでもよい。上記三次元アバターは、拡張現実(AR)デバイス上に表示されてもよい。
本開示の別の局面は、遠隔アバターを操縦するためのシステムを提供する。上記システムは、データ処理ハードウェアと、上記データ処理ハードウェアと通信するメモリハードウェアとを含み、上記メモリハードウェアは、命令を格納し、上記命令は、上記データ処理ハードウェア上で実行されると、上記データ処理ハードウェアにオペレーションを実行させ、上記オペレーションは、第1の顔フレームワークと中立の顔面表情を有するユーザの顔の第1の取り込み画像とを受け取るステップを含む。上記第1の顔フレームワークは、第1のフレームにおける上記ユーザの上記顔に対応し、顔情報の第1の顔メッシュを含む。また、上記オペレーションは、上記顔の上記第1の取り込み画像を上記第1の顔フレームワーク上に投影するステップと、上記投影された取り込み画像に基づいて、上記ユーザの上記顔に対応する顔テクスチャを判断するステップとを含む。上記オペレーションは、第2の顔フレームワークを受け取るステップも含み、上記第2の顔フレームワークは、第2のフレームにおける上記ユーザの上記顔に対応する。上記第2の顔フレームワークは、顔情報の第2の顔メッシュを含む。また、上記オペレーションは、上記受け取られた第2の顔フレームワークに基づいて、上記顔テクスチャを更新するステップと、上記更新された顔テクスチャを三次元アバターとして表示するステップとを含む。上記三次元アバターは、上記ユーザの上記顔の仮想表現に対応する。
この局面は、以下の任意の特徴のうちの1つまたは複数を含んでもよい。いくつかの実現例では、上記オペレーションは、上記ユーザの上記顔の第2の取り込み画像を受け取るステップも含み、上記第2の取り込み画像は、上記ユーザの顔面表情として笑顔を取り込み、上記オペレーションは、上記ユーザの上記顔の第3の取り込み画像を受け取るステップも含み、上記第3の取り込み画像は、上記ユーザの上記顔面表情として両方の眉を上げた状態を取り込み、上記オペレーションは、上記ユーザの上記顔の第4の取り込み画像を受け取るステップも含み、上記第4の取り込み画像は、上記ユーザの上記顔面表情として笑顔および両方の眉を上げた状態を取り込み、上記オペレーションは、各々の取り込み画像について、上記ユーザの上記顔に対応する顔面表情テクスチャを判断するステップと、上記受け取られた第2の顔フレームワークに基づいて、各々の取り込み画像の上記顔面表情テクスチャと上記更新された顔テクスチャとをブレンドして、ブレンドされた顔テクスチャを生成するステップと、上記ブレンドされた顔テクスチャにより上記三次元アバターをレンダリングするステップとを含む。これらの実現例では、ブレンドするステップは、各々の取り込み画像についてテクスチャベクトルを判断するステップをさらに含み、上記テクスチャベクトルは、上記中立の顔面表情を有する上記第1の取り込み画像との差のベクトル表現に対応し、ブレンドするステップはさらに、上記受け取られた第2の顔フレームワークに基づいて、現在のテクスチャベクトルを判断するステップと、上記現在のテクスチャベクトルと各々の取り込み画像の上記テクスチャベクトルとの間の差に基づいて、レンダリング重みを割り当てるステップと、上記レンダリング重みに基づいて、上記ブレンドされた顔テクスチャにより上記三次元アバターをレンダリングするステップとを含む。上記レンダリング重みは、1に等しい合計を有してもよい。いくつかの例では、上記現在のテクスチャベクトルおよび各々の取り込み画像の上記テクスチャベクトルの各々は、52変数浮動ベクトルに対応してもよい。これらの例では、上記レンダリング重みは、上記現在のテクスチャベクトルと各々の取り込み画像の上記テクスチャベクトルとの間の上記差が増加するにつれて、大きさが小さくなる。
また、いくつかの例では、上記オペレーションは、上記第2のフレームにおける顔情報の現在の顔面表情メッシュを有する上記ユーザの上記顔の取り込まれた現在の画像を受け取るステップと、上記受け取られた顔フレームワークおよび上記取り込まれた現在の画像に基づいて、上記顔テクスチャを更新するステップとを含む。いくつかの実現例では、上記受け取られた取り込まれた現在の画像は、減少させた分量の顔テクスチャに対応する。また、これらの実現例では、上記オペレーションは、上記受け取られた取り込まれた現在の画像に基づいて、上記ユーザの上記顔の遮られた部分を判断するステップと、上記ユーザの上記顔の上記遮られた部分と、以前のフレームからの遮られていない取り込まれた画像から生成された顔テクスチャとをブレンドするステップとを含んでもよい。
いくつかの実現例では、上記オペレーションは、上記ユーザの眼または口の描出を生成するステップも含み、上記生成するステップは、上記眼または上記口のエッジを検出するステップと、上記眼または上記口の上記エッジに関連付けられた角度の合計が2π(360度)に対応することを判断するステップと、2πに対応する上記検出されたエッジに基づいて、上記眼または上記口の位置を近似するステップと、上記顔の上記取り込み画像から上記近似された位置における上記口または上記眼を抽出するステップと、上記近似された位置における上記抽出された口または上記抽出された眼をフィルでレンダリングするステップとによって行われる。上記取り込み画像は、携帯電話からの赤、緑および青の(RGB)画像を含んでもよい。上記三次元アバターは、拡張現実(AR)デバイス上に表示されてもよい。
本開示の別の局面は、遠隔アバターを操縦するための方法を提供し、上記方法は、データ処理ハードウェアにおいて、第1の顔フレームワークと中立の顔面表情を有するユーザの顔の第1の取り込み画像とを受け取るステップを含む。上記第1の顔フレームワークは、第1のフレームにおける上記ユーザの上記顔に対応し、顔情報の第1の顔メッシュを含む。また、上記方法は、上記データ処理ハードウェアが、上記顔の上記第1の取り込み画像を上記第1の顔フレームワーク上に投影するステップと、上記データ処理ハードウェアが、上記投影された第1の取り込み画像に基づいて、上記ユーザの上記顔に対応する顔テクスチャを判断するステップとを含む。上記方法は、上記データ処理ハードウェアが、上記判断された顔テクスチャを三次元アバターとして表示するステップを含み、上記三次元アバターは、上記ユーザの上記顔の仮想表現に対応する。
本開示の1または複数の実現例の詳細は、添付の図面および以下の説明に記載されている。他の局面、特徴および利点は、説明および図面、ならびに特許請求の範囲から明らかであろう。
アバター操縦環境の一例の概略図である。 図1のアバター操縦環境においてアバターを操縦するためのパペティアの一例の概略図である。 図1のアバター操縦環境においてアバターを操縦するためのパペティアの一例の概略図である。 図1のアバター操縦環境においてアバターを操縦するためのパペティアの一例の概略図である。 図1のアバター操縦環境においてアバターを操縦するためのパペティアの一例の概略図である。 図1のアバター操縦環境においてアバターを操縦するためのパペティアの一例の概略図である。 図1のアバター操縦環境においてアバターを操縦するためのパペティアの一例の概略図である。 顔面表情による遠隔アバターの操縦方法のためのオペレーションの構成の一例のフローチャートである。 本明細書に記載されているシステムおよび方法を実現するために使用され得るコンピューティングデバイスの一例の概略図である。
さまざまな図面内の同様の参照符号は同様の要素を示している。
詳細な説明
図1は、アバター操縦環境100の一例である。アバター操縦環境100は、ユーザ10,10a−bがユーザデバイス110,110a−bを介してネットワーク120を通じて会話12を行う環境である。ネットワーク120は、ユーザデバイス110に関連付けられたアドレス間でデータをルーティングするように構成された任意のタイプの通信ネットワーク(たとえば、パケット交換網)を含む。
会話12は、一般に、少なくとも2人のユーザ10aと10bとの間の聞き取れる一連の発話のことである。各ユーザ10に関連付けられたユーザデバイス110は、会話12を取り込んでネットワーク120を介して通信するように構成される。ユーザデバイス110は、会話12の発話の音声を取り込むだけでなく、ユーザ10が会話中に話しているときのユーザ10の顔20の画像130および顔情報140も取り込む。顔20の取り込み画像130および顔情報140に基づいて、各ユーザデバイス110は、関連付けられたユーザ10の顔面表情22を生成するようにさらに構成される。したがって、ユーザデバイス110は、遠隔のユーザ10同士を接続してリアルタイムの会話12に参加させることを可能にする。
ユーザデバイス110は、(1)顔画像130および顔情報140をネットワーク120および/またはリモートシステム150に通信することができ、(2)(たとえば、拡張現実(AR)機能によって)三次元(3D)アバター160を表示することができる任意のコンピューティングデバイスまたはデータ処理ハードウェアであり得る。いくつかの例では、第1のユーザ10aに関連付けられたユーザデバイス110aは、第1のユーザ10aに関連付けられた顔画像130および顔情報140を通信するように構成されるのに対して、第2のユーザ10bに関連付けられた第2のユーザデバイス110bは、第1のユーザ10aに関連付けられた3Dアバター160を表示するように構成される。示されている例では、各ユーザデバイス110は、データ処理ハードウェア112と、メモリハードウェア114と、1または複数の撮像デバイス116とを含む。撮像デバイス116のいくつかの例は、カメラ(たとえば、深度カメラもしくはRGBカメラ)または画像センサ(たとえば、レーザ画像センサ)である。ユーザデバイス110は、拡張現実(AR)デバイス、デスクトップコンピューティングデバイス、およびモバイルコンピューティングデバイス(ラップトップ、タブレット、スマートフォンおよびウェアラブルコンピューティングデバイス(たとえば、ヘッドセットおよび/または時計)など)を含むが、これらに限定されるものではない。ユーザデバイス110は、それらの撮像デバイス116を利用して、遠隔のユーザ10同士がネットワーク120を介して会話12に参加することを可能にするように構成される。
引き続き図1を参照して、各ユーザデバイス110は、リアルタイム通信(RTC)アプリケーション30を実行して(すなわち、データ処理ハードウェア112を介して実行して)、第1および第2のユーザ10a,10bが互いに会話12を行うことを可能にする。会話12中に第1のユーザ10aが第2のユーザ10bに話しかけると、第1のユーザデバイス110aは、聞き取れる発話(すなわち、音声)25、第1のユーザ10aの顔20の1または複数の顔画像130、および/または、第1のユーザ10aの顔20に対応する顔情報140を取り込む。その後、いくつかの例では、第1のユーザデバイス110aは、取り込まれた聞き取れる発話25、1または複数の顔画像130および/または顔情報140を含む出力118を、映像チャネルCh,Vではなく対応する音声チャネルCh,AおよびデータチャネルCh,Dを介して第2のユーザデバイス110bに送信する。ここで、データチャネルCh,Dは、顔画像130および/または顔情報140を送信するように構成された損失のあるデータチャネルを含むのに対して、音声チャネルCh,Aは、音声25を通信するように構成される。音声チャネルCh,Aを介して送信された聞き取れる発話25は、第1のユーザ10aによって話された発話のデジタル表現を含む。他の例では、第1のユーザデバイス110aは、音声25、1または複数の顔画像130および/または顔情報140を含む出力118を、対応する映像チャネルCh,Vを介して第2のユーザデバイス110bに送信して、会話12からの関連する音声25との同期を保証する。たとえば、映像チャネルCh,Vを介して顔画像130および/または顔情報140を音声25と同期させることは、大きなデータセット(たとえば、顔画像130および顔面情報140からの大きなデータセット)がリアルタイムでの会話中にレイテンシの問題を回避するのに望ましいであろう。任意に、RTCアプリケーション30の構成は、ユーザデバイスによって使用される通信チャネルCHを左右する。
第1のユーザデバイス110aから送信された出力118に基づいて、第2のユーザデバイス110bは、第1のユーザ10aの顔20および顔面表情に対応する3Dアバター160を第2のユーザデバイス110bのディスプレイ119上に表示するように構成される。示されている例では、第2のユーザデバイス110bで実行されるRTCアプリケーション30は、パペティア200との通信を容易にし、パペティア200は、出力118に基づいて第1のユーザ10aのアバター160を生成し、生成されたアバター160をディスプレイ119上での表示のために第2のユーザデバイス110bに提供するように構成される。パペティア200によって生成される3Dアバター160は、第1のユーザ20aの顔20の仮想表現に対応する。パペティア200は、第1のユーザデバイス110aからの出力160に基づいて、3Dアバター160をリアルタイム3Dアバター160として生成する。いくつかの実現例では、第2のユーザデバイス110bは、取り込まれた聞き取れる発話25、1または複数の顔画像130および/または顔情報140を含む出力118をネットワーク120を介して第1のユーザデバイス110aから受け取って、出力118をパペティア200に提供する。他の実現例では、第1のユーザデバイス110aは、出力118をパペティア200に直接送信する。これらの実現例では、第1のユーザデバイス110aで実行されるRTCアプリケーション30は、対応する3Dアバター特徴を起動して、第1のユーザデバイス110aが第1のユーザ10aの顔20および顔面表情に対応する3Dアバター160を生成するためのパペティア200に出力118を直接提供することを可能にしてもよい。
いくつかの実現例では、パペティア200は、ユーザデバイス110を介してアクセスされる、クラウド環境の分散システムなどのリモートシステム150によってホストされるアプリケーションを含む。他の実現例では、パペティア200は、ユーザデバイス110のメモリハードウェア114にダウンロードされるアプリケーションを含む。パペティア200は、顔画像130および/または顔情報140から3Dアバター160を生成するためにリモートシステム150と通信してリソース152(たとえば、データ処理ハードウェア154またはメモリハードウェア156)にアクセスするように構成されてもよい。加えてまたは代替的に、パペティア200は、生成された3Dアバター300をユーザデバイス110のメモリハードウェア114および/またはリモートシステム150のメモリハードウェア156にローカルに格納してもよい。たとえば、パペティア200および/またはユーザデバイス110は、その後、後に受け取られた顔画像130および/または顔情報140に基づいて、格納された3Dアバター160を拡張またはさらにレンダリングしてもよい。任意に、ユーザデバイス110で実行されるRTCアプリケーション30は、リモートシステム150のリソース152へのアクセスを必要とすることなくローカルにパペティア200を実行してもよい。
各々の顔画像130は、撮像デバイス116によって取り込まれるユーザ10の顔20の画像のことである。取り込まれた顔画像130は、顔画像130を取り込む撮像デバイス116のタイプによって、解像度および埋め込みデータの両方の点で異なっていてもよい。たとえば、深度機能を有するカメラまたはセンサがユーザ10の顔画像130を取り込む場合、取り込まれた画像130は、顔の特徴および/または顔テクスチャ(たとえば、影、明暗、肌のきめなど)間の関係を識別する深度データを含む。深度データとともに、取り込まれた画像130は、顔メッシュ142を形成するための顔情報140をもともと含んでいてもよい。たとえば、深度カメラまたはセンサの中には、表面再構成アルゴリズムを使用して、取り込まれた画像130からメッシュを生成するように構成されたものもある。他の例では、深度機能を持たないカメラまたはセンサ(たとえば、RBGカメラ)によって生成される取り込まれた画像130は、顔情報140を生成するために、顔ランドマーク検出および/または顔特徴検出などの技術を用いた一層の分析を必要とする。
顔情報140は、一般に、顔20に関連するデータのポイントクラウドのことである。顔情報140とともに、表面再構成アルゴリズムは、顔情報140に対応する顔メッシュ142を生成してもよい。いくつかの例では、顔情報140と顔メッシュ142との組み合わせは、顔フレームワーク144と称される。なぜなら、この組み合わせは、顔情報140に関連付けられた境界を有する顔構造に対応するからである。顔フレームワーク144は、ユーザ10と似ているが、顔メッシュ142は、一般に、顔情報140の滑らかな表現である。言い換えれば、しわ、えくぼ、滑らかな肌、乾燥肌、脂性肌、毛穴などの、ユーザ10の顔20のいくつかの固有の特徴は、ユーザ10を顔フレームワーク144に変換することにより失われる。これらの無くなってしまった側面を考慮に入れるために、パペティア200は、顔フレームワーク144および少なくとも1つの取り込み画像130に基づいて、これらの固有の特徴に対応する顔テクスチャ212を生成するように構成される。
図2A〜図2Fは、取り込み画像130および顔情報140を含む受け取られた出力118に基づいて3Dアバター160を生成するパペティア200の例である。パペティア200は、テクスチャラ210と、アップデータ220とを含む。テクスチャラ210は、顔テクスチャ212を判断するように構成されるのに対して、アップデータ220は、その後に受け取られた顔フレームワーク144および/または取り込み画像130に基づいて顔テクスチャ212を更新するように構成される。図2Aを参照して、パペティア200は、ユーザ10の顔20の第1の取り込み画像130およびユーザ10の顔情報140の第1の顔メッシュ142を含む第1の顔フレームワーク144aに対応する出力118を受け取る。第1の顔フレームワーク144aは、第1のフレームFiにおけるユーザ10の顔20に対応する。取り込み画像130は、ユーザ10の顔面表情22を取り込んでもよい。たとえば、取り込み画像130は、ユーザ10の中立の顔面表情22aを含んでもよい。示されている例では、テクスチャラ210は、顔20の第1の取り込み画像130を第1の顔フレームワーク144a上に投影して、顔20の中立の顔面表情22,22aに対応する顔テクスチャ212,212aを判断する。テクスチャラ210が顔テクスチャ212(たとえば、第1の顔テクスチャ212a)を判断した後、アップデータ220は、次いで、時間的に第1のフレームFiの後に生じる会話12からの後続フレームFに基づいて顔テクスチャ212を更新して、更新された顔テクスチャ212,212Uを形成してもよい。この更新された顔テクスチャ212Uに基づいて、パペティア200は、表示された3Dアバター160を更新する。なぜなら、ユーザ10は、会話を続けて顔面表情22をリアルタイムで変化させるからである。
実現例は、最小の帯域幅要件で動作するパペティア200を含む。帯域幅を意識して、テクスチャラ210によって判断される顔テクスチャ212は、もっぱら顔フレームワーク144などの顔情報140に基づいて更新される静的なテクスチャを含む。言い換えれば、パペティア200における大容量の取り込み画像ファイルに頼るのではなく、パペティア200は、会話12における後続のフレームF(たとえば、第2のフレームF)の顔情報に基づいて顔テクスチャ212を更新することによって3Dアバター160を生成する。この静的なアプローチは、アバター操縦環境100の帯域幅要件の増加を生じさせることなく、リアルタイムでの顔メッシュ142および顔面構造144に対する更新を可能にする。たとえば、図2Aは、パペティア200のアップデータ220が、第2のフレームFにおけるユーザ10の顔20に対応する第2の顔フレームワーク144bと組み合わせて顔テクスチャ212aを受け取ることを示している。ここで、第1のフレームFiと同様に、第2の顔フレームワーク144bは、第2のフレームFにおける顔情報140の第2の顔メッシュ142bを含む。この構成では、アップデータ220は、受け取られた第2の顔フレームワーク144bに基づいて顔テクスチャ212,212aを更新して、更新された顔テクスチャ212Uを形成する。その後、パペティア200は、更新された顔テクスチャ212Uを使用して3Dアバター160を生成して(または、既存の3Dアバター160を更新して)、生成された3Dアバター160をディスプレイ119上での表示のためにユーザデバイス110に提供する。いくつかの例では、パペティア200は、更新された顔テクスチャ212Uをユーザデバイス110に提供し、ユーザデバイス110は、(たとえば、RTCアプリケーション30を介して)3Dアバター160を生成するか、または既存の3Dアバター160を更新する。
図2Bを参照して、いくつかの実現例では、パペティア200は、ユーザ20の顔20の複数の取り込み画像130,130a−dを受け取って、顔20の取り込み画像130を第1の顔フレームワーク140a上に投影することによって、各々の取り込み画像130について対応する顔テクスチャ212,212a−dを判断する。その後、パペティア200は、第2の顔フレームワーク140bに基づいて各々の顔テクスチャ212a−dを更新およびブレンドして、ブレンドされた顔テクスチャ212blendを生成する。図2Bは、4つの取り込み画像130a−dを使用して、ブレンドされた顔テクスチャ212blendを生成することを示しているが、本開示の範囲から逸脱することなく任意の数の取り込み画像130が使用されてもよい。したがって、2つ以上の取り込み画像130を顔テクスチャの生成に組み込むことによって、パペティア200は、図2Aの単一の中立の顔面表情22aに加えてまたはその代わりに、他のベースライン顔面表情22,22a−dを考慮に入れることができる。
示されている例では、パペティア200は、ユーザ10の顔20の4つの取り込み画像130,130a−dおよび第1のフレームFiにおけるユーザ10の顔情報140の第1の顔メッシュ142を含む第1の顔フレームワーク144aに対応する出力118を受け取る。第1の顔フレームワーク144aは、第1のフレームFiにおけるユーザ10の顔20に対応する。ここで、各々の取り込み画像130a−dは、ユーザ10のユーザ顔面表情22の異なる顔面表情22,22a−dに対応する。たとえば、第1の取り込み画像130aは、中立の顔面表情22aに対応し、第2の取り込み画像130bは、笑顔の顔面表情22bに対応し、第3の取り込み画像130cは、両方の眉を上げた顔面表情22cに対応し、第4の取り込み画像130dは、両方の眉を上げた笑顔の顔面表情22dに対応する。したがって、テクスチャラ210は、取り込み画像130を第1の顔フレームワーク144a上に投影することによって、各々の取り込み画像130について対応する顔テクスチャ212,212a−dを判断するように構成される。
引き続き図2Bを参照して、アップデータ220は、テクスチャラ210から顔テクスチャ212a−dを受け取る。いくつかの例では、アップデータ220は、受け取られた第2の顔フレームワーク144bに基づいて各顔テクスチャ212a−dを更新し、対応する更新された顔テクスチャ212Uをブレンドして、第2のフレームFにおいてブレンドされた顔テクスチャ212blendを生成する。その後、パペティア200は、ブレンドされた顔テクスチャ212blendを使用して3Dアバター160を生成して(または、既存の3Dアバター160を更新して)、生成された3Dアバター160をディスプレイ119上での表示のためにユーザデバイス110に提供する。いくつかの例では、パペティア200は、ブレンドされた顔テクスチャ212blendをユーザデバイス110に提供し、ユーザデバイス110は、(たとえば、RTCアプリケーション30を介して)3Dアバター160を生成するか、または既存の3Dアバター160を更新する。
図2Cを参照して、いくつかの例では、パペティア200は、テクスチャラ210から出力された4つの顔テクスチャ212a−dを更新およびブレンドして、現在のフレームF(たとえば、図2Cでは第2のフレームF)においてブレンドされた顔テクスチャ212blendを生成するためのレンダリング重み244をアップデータ220に提供するように協働するベクトル生成部230および重み生成部240をさらに含む。示されている例では、ベクトル生成部230は、テクスチャラ210から出力された各顔テクスチャ212a−dを受け取って、ベースライン顔テクスチャ212に対する対応するテクスチャベクトル232を生成する。たとえば、ベースライン顔テクスチャ212は、中立の顔面表情22aに対応する第1の取り込み画像130aに関連付けられた第1の顔テクスチャ212aに対応してもよい。したがって、ベクトル生成部230は、第1の顔テクスチャ212aに対して第2の顔テクスチャ212bに基づいて第1のテクスチャベクトル232baを生成し、第1の顔テクスチャ212aに対して第3の顔テクスチャ212cに基づいて第2のテクスチャベクトル232caを生成し、第1の顔テクスチャ212aに対して第4の顔テクスチャ212dに基づいて第3のテクスチャベクトル232daを生成してもよい。さらに、ベクトル生成部230は、最近のフレームF(たとえば、第2のフレームF)における顔情報140に対応する現在のテクスチャベクトル232,232currentを生成する。たとえば、ベクトル生成部230は、第1のフレームFiにおける第1の顔フレームワーク144aと第2のフレームFにおける第2の顔フレームワーク144bとの間の現在のテクスチャベクトル232currentを生成する。
重み生成部240は、ベクトル生成部230から現在のテクスチャベクトル232currentおよびテクスチャベクトル232ba−daの各々を受け取って、現在のテクスチャベクトル232currentと各テクスチャベクトル232ba−daとの間のそれぞれの差242に基づいてレンダリング重み244を生成する。言い換えれば、レンダリング重み244は、顔テクスチャ212,212a−dに対する現在のフレームにおけるずれを考慮に入れる。レンダリング重み244は、既知の検出された顔面表情に対応するように構成されてもよい。たとえば、レンダリング重み244は、顔ランドマークの位置に関連付けられたベクトルを含んでもよく、そのため、各ベクトルは、顔ランドマークのベースライン位置(たとえば、中立の顔面表情22,22aの第1の顔フレームワーク144aから第2のフレームFにおける顔面表情22の第2の顔フレームワーク144bまで)からの大きさおよび方向を表す。一例では、レンダリング重み244は、52変数浮動ベクトルを形成する。いくつかの例では、レンダリング重み244は、ブレンド割合に対応するため、レンダリング重み244の値は、合計が1に等しいそれぞれの比率を含む。
いくつかの実現例では、重み生成部240は、テクスチャベクトル232が現在のテクスチャベクトル232currentに最も近い場合に、レンダリング重み244内の値に対して最も高い値を割り当てる。たとえば、ユーザ10の現在の顔面表情22が笑顔(たとえば、第2のテクスチャベクトル232baに関連付けられた第2の顔面表情22b)に近づいていることを第2の顔フレームワーク144bが示す場合、現在のテクスチャベクトル232currentと笑顔の顔面表情22bに関連付けられた第2のテクスチャベクトル232baとの間のそれぞれの差は、現在のテクスチャベクトル232currentと他のテクスチャベクトル232ca,232daとの間の差よりも小さい。この場合、重み生成部240は、笑顔の顔面表情22bの方へのレンダリング重み244バイアスに対して値を割り当てる(たとえば、より高いレンダリング重み値)。したがって、アップデータ220は、重み生成部240によって割り当てられたこれらのレンダリング重み244を使用して、笑顔の顔面表情22bに関連付けられた第2の顔テクスチャ212bの方により近付いたブレンドされた顔テクスチャ222blendを生成する。
最小の帯域幅要件で動作する図2Aのパペティア200とは異なって、図2Bおよび図2Cのパペティア200は、ユーザ10の顔20のより正確な視覚表現を実現するためにユーザ10の顔20のより多くの取り込み画像130a−dを考慮に入れることによって、より大きな帯域幅を必要とする。ここで、有限数の取り込み画像130(たとえば、4つの取り込み画像130a−d)を有するパペティア200は、(図2Dに示されているように)現在の取り込み画像130,130currentから顔テクスチャ212を更新するのではなく、現在のフレーム(たとえば、第2のフレームF)における顔情報140(たとえば、第2の顔フレームワーク144b)に基づいて3Dアバター160を更新することによって、依然として帯域幅を最小限に抑えながら精度を向上させることができる。
図2Dは、第2のフレームFにおける現在の取り込み画像130,130currentを受け取るパペティア200の一例である。この構成では、パペティア200は、アップデータ220が第2の顔フレームワーク144bおよび現在の取り込み画像130currentの両方に基づいて第1の顔テクスチャ212aを更新すること以外は、図2Aのパペティア200と同様に動作する。いくつかの実現例では、ユーザ10の現在の取り込み画像130currentを利用する場合、パペティア200は、現在の取り込み画像130currentに関連付けられたある分量の顔テクスチャ212を受け取るおよび/または減少させる。たとえば、アップデータ220は、(たとえば、第1の顔テクスチャ212aと比較した場合に)顔テクスチャ212の3分の1を有する現在の取り込み画像130currentに基づいて、更新された顔テクスチャ212Uを生成する。現在の取り込み画像130current内の顔テクスチャ212の分量を減少させることによって、パペティア200は、その動作帯域幅要件を減少させてもよい。
図2Eを参照して、いくつかの例では、顔情報140および/または顔フレームワーク144は、ユーザ10の顔20の部分取り込み(たとえば、遮られた画像214)に対応する。たとえば、ユーザ10は、視野内を移動するか、または撮像デバイス116を移動させる。これらの例では、パペティア200は、さらに、これらの問題を考慮に入れるように構成されてもよい。いくつかの構成では、テクスチャラ210は、現在の取り込み画像130currentおよび/または第2の顔フレームワーク144bが遮られた画像に対応するか否かを識別する。たとえば、テクスチャラ210は、平均してどのぐらいの顔情報140が受け取られるかを追跡および分析して、このデータと現在の取り込み画像130currentおよび/または第2の顔フレームワーク144bとを比較する。テクスチャラ210が遮られた画像および/または遮られた顔情報を識別すると、テクスチャラ210は、遮られていない先行するフレームFn−1を識別して、遮られた取り込み214の遮られた部分のための顔テクスチャ212を生成する。たとえば、第2のフレームFが遮られた画像214を含み、第1のフレームFiが遮られていない画像(たとえば、第1の取り込み画像130a)を含むとテクスチャラ210が判断すると、テクスチャラ210は、遮られた画像214(たとえば、受け取られた現在の取り込み画像130current)を、第1のフレームFiに関連付けられた顔情報140によりレンダリングしてもよい。
図2Fを参照して、いくつかの実現例では、パペティア200は、特徴フィラー250を含む。特徴フィラー250は、眼または口のような、しばしば厄介な特徴を識別し、これらの特徴に関連付けられた空洞を塗りつぶす(すなわち、視覚的に表現する)。図2Fは、特徴フィラー250に焦点を当てるために単純化されたパペティア200を示している。いくつかの例では、特徴フィラー250は、特徴のエッジを検出する。たとえば、特徴フィラー250は、頂点を中心とした全ての角度を合計する。この合計が2πまたは360度に等しい場合、特徴フィラー250は、特徴が眼または口などの空洞であると判断する。合計が2πに等しくない場合、特徴フィラー250は、特徴をエッジの頂点として識別する。特徴が空洞として識別されると、特徴フィラー250は、顔の割合および/または検出されたエッジの位置に基づいて空洞の位置を近似する。ここで、近似された位置において、特徴フィラー250は、特徴を抽出して、抽出された特徴をフィルでレンダリングする。いくつかの例では、特徴フィラー250のエッジ検出中に使用される頂点を顔テクスチャ212がマッピングしている間に、トゥーイヤーアプローチ(two-ear approach)を使用して特徴を塗りつぶす。
図3は、遠隔アバター160の操縦方法300のためのオペレーションの構成の一例のフローチャートである。オペレーション302において、方法300は、第1の顔フレームワーク144,144aと、中立の顔面表情22,22aを有するユーザ10の顔20の第1の取り込み画像130とを受け取る。第1の顔フレームワーク144aは、第1のフレームFiにおけるユーザ10の顔20に対応し、顔情報140の第1の顔メッシュ142,142aを含む。オペレーション304において、方法300は、顔20の第1の取り込み画像130を第1の顔フレームワーク144a上に投影する。オペレーション306において、方法300は、投影された取り込み画像130に基づいて、ユーザ10の顔20に対応する顔テクスチャ212を判断する。オペレーション308において、方法300は、第2のフレームFにおけるユーザ10の顔20に対応する第2の顔フレームワーク144bを受け取る。第2の顔フレームワーク144bは、顔情報140の第2の顔メッシュ142,142bを含む。オペレーション310において、方法300は、受け取られた第2の顔フレームワーク144bに基づいて、顔テクスチャ212を更新する。オペレーション312において、方法300は、更新された顔テクスチャ212を3Dアバター160として表示する。3Dアバター160は、ユーザ10の顔20の仮想表現に対応する。
ソフトウェアアプリケーション(すなわち、ソフトウェアリソース)は、コンピューティングデバイスにタスクを実行させるコンピュータソフトウェアのことであってもよい。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」または「プログラム」と称されてもよい。アプリケーションの例としては、システム診断アプリケーション、システム管理アプリケーション、システムメンテナンスアプリケーション、ワードプロセシングアプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲームアプリケーションが挙げられるが、これらに限定されるものではない。
図4は、たとえば本明細書に記載されているユーザデバイス110、リモートシステム150およびパペティア200のシステムおよび方法を実現するために使用され得るコンピューティングデバイス400の一例の概略図である。コンピューティングデバイス400は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームおよび他の適切なコンピュータなどのさまざまな形態のデジタルコンピュータを表すよう意図されている。ここに示されているコンポーネント、それらの接続および関係、ならびにそれらの機能は、単に例示的であるよう意図されており、本明細書に記載および/またはクレームされている発明の実現例を限定するよう意図されたものではない。
コンピューティングデバイス400は、プロセッサ410と、メモリ420と、記憶装置430と、メモリ420および高速拡張ポート450に接続する高速インターフェイス/コントローラ440と、低速バス470および記憶装置430に接続する低速インターフェイス/コントローラ460とを含む。コンポーネント410,420,430,440,450および460の各々は、さまざまなバスを使用して相互接続されており、共通のマザーボード上にまたは適宜他の態様で取り付けられていてもよい。プロセッサ410は、コンピューティングデバイス400内での実行のための命令を処理することができ、これらの命令は、グラフィカルユーザインターフェイス(GUI)のためのグラフィカル情報を、高速インターフェイス440に結合されたディスプレイ480などの外部入力/出力デバイス上に表示するための、メモリ420内または記憶装置430上に格納された命令を含む。他の実現例では、複数のメモリおよび複数のタイプのメモリとともに、複数のプロセッサおよび/または複数のバスが適宜使用されてもよい。また、複数のコンピューティングデバイス400が、各デバイスが(たとえば、サーババンク、ブレードサーバの群またはマルチプロセッサシステムとして)必要なオペレーションの一部を提供する状態で、接続されてもよい。
メモリ420は、情報をコンピューティングデバイス400内に非一時的に格納する。メモリ420は、コンピュータ読取可能媒体、揮発性メモリユニットまたは不揮発性メモリユニットであってもよい。非一時的なメモリ420は、コンピューティングデバイス400による使用のために、プログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を一時的または永久的に格納するために使用される物理デバイスであってもよい。不揮発性メモリの例としては、フラッシュメモリおよびリードオンリメモリ(ROM)/プログラマブルリードオンリメモリ(PROM)/消去可能プログラマブルリードオンリメモリ(EPROM)/電子的消去可能プログラマブルリードオンリメモリ(EEPROM)(たとえば、一般に、ブートプログラムなどのファームウェアに使用される)が挙げられるが、これらに限定されるものではない。揮発性メモリの例としては、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)およびディスクまたはテープが挙げられるが、これらに限定されるものではない。
記憶装置430は、コンピューティングデバイス400に対して大容量記憶を提供することができる。いくつかの実現例では、記憶装置430は、コンピュータ読取可能媒体である。さまざまな異なる実現例では、記憶装置430は、フロッピー(登録商標)ディスクデバイス、ハードディスクデバイス、光ディスクデバイスもしくはテープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、またはデバイスのアレイ(ストレージエリアネットワークもしくは他の構成のデバイスを含む)であってもよい。さらに他の実現例では、コンピュータプログラム製品は、情報担体の形で有形に具体化される。コンピュータプログラム製品は、実行されると上記の方法などの1または複数の方法を実行する命令を含む。情報担体は、メモリ420、記憶装置430またはメモリオンプロセッサ410などのコンピュータまたは機械読取可能媒体である。
高速コントローラ440は、コンピューティングデバイス400のための帯域幅集中型オペレーションを管理するのに対して、低速コントローラ460は、より低い帯域幅集中型オペレーションを管理する。このようなデューティの割り当ては例示に過ぎない。いくつかの実現例では、高速コントローラ440は、メモリ420に結合され、ディスプレイ480に(たとえば、グラフィックスプロセッサまたはアクセレレータを介して)結合され、さまざまな拡張カード(図示せず)を受け付け得る高速拡張ポート450に結合されている。いくつかの実現例では、低速コントローラ460は、記憶装置430および低速拡張ポート490に結合されている。さまざまな通信ポート(たとえば、USB、ブルートゥース(登録商標)、イーサネット(登録商標)、ワイヤレスイーサネット)を含み得る低速拡張ポート490は、たとえばネットワークアダプタを介して、1または複数の入力/出力デバイス(キーボード、ポインティングデバイス、スキャナ、またはネットワーキングデバイス(スイッチもしくはルータなど)など)に結合されてもよい。
コンピューティングデバイス400は、図に示されているように、いくつかの異なる形態で実現されてもよい。たとえば、それは、標準的なサーバ400aとしてもしくはこのようなサーバ400aの群で複数回実現されてもよく、ラップトップコンピュータ400bとして実現されてもよく、またはラックサーバシステム400cの一部として実現されてもよい。
本明細書に記載されているシステムおよび技術のさまざまな実現例は、デジタル電子および/もしくは光回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、ならびに/または、それらの組み合わせの形で実現可能である。これらのさまざまな実現例は、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および/または解釈可能な1または複数のコンピュータプログラムの形での実現例を含み得て、プログラマブルプロセッサは、特殊目的であってもよく、または汎用であってもよく、ストレージシステム、少なくとも1つの入力デバイスおよび少なくとも1つの出力デバイスに対してデータおよび命令を送受信するように結合されている。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られている)は、プログラマブルプロセッサのための機械命令を含み、高レベル手続き型プログラミング言語および/またはオブジェクト指向プログラミング言語および/またはアセンブリ/機械言語の形で実現可能である。本明細書における「機械読取可能媒体」および「コンピュータ読取可能媒体」という用語は、プログラマブルプロセッサに機械命令および/またはデータを提供するために使用される任意のコンピュータプログラム製品、非一時的なコンピュータ読取可能媒体、装置および/またはデバイス(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を意味するものとし、機械命令を機械読取可能信号として受信する機械読取可能媒体を含む。「機械読取可能信号」という用語は、プログラマブルプロセッサに機械命令および/またはデータを提供するために使用される任意の信号を意味するものとする。
本明細書に記載されているプロセスおよびロジックフローは、入力データ上で動作して出力を生成することによって機能を実行するように1または複数のコンピュータプログラムを実行する1または複数のプログラマブルプロセッサによって実行可能である。これらのプロセスおよびロジックフローは、特殊目的論理回路(たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路))によっても実行可能である。コンピュータプログラムの実行に好適なプロセッサの例としては、汎用および特殊目的マイクロプロセッサ、ならびに任意の種類のデジタルコンピュータの任意の1または複数のプロセッサが挙げられる。一般に、プロセッサは、リードオンリメモリまたはランダムアクセスメモリまたはそれら両方から命令およびデータを受信する。コンピュータの不可欠な要素は、命令を実行するためのプロセッサ、ならびに、命令およびデータを格納するための1または複数のメモリデバイスである。一般に、コンピュータは、データを格納するための1または複数の大容量記憶装置(たとえば、磁気ディスク、光磁気ディスクまたは光ディスク)も含んでおり、または、1または複数の大容量記憶装置からデータを受信したり、1または複数の大容量記憶装置にデータを送信したり、1または複数の大容量記憶装置に対してデータを送受信したりするように動作可能に結合される。しかし、コンピュータは、このような装置を有していなくてもよい。コンピュータプログラム命令およびデータの格納に好適なコンピュータ読取可能媒体は、全ての形態の不揮発性メモリ、媒体およびメモリデバイスを含み、これらの例としては、半導体メモリデバイス(たとえば、EPROM、EEPROMおよびフラッシュメモリデバイス)、磁気ディスク(たとえば、内部ハードディスクまたはリムーバブルディスク)、光磁気ディスク、ならびにCD ROMおよびDVD−ROMディスクが挙げられる。プロセッサおよびメモリは、特殊目的論理回路によって補完されてもよく、または特殊目的論理回路に組み込まれてもよい。
ユーザとの対話を提供するために、本開示の1または複数の局面は、情報をユーザに表示するためのディスプレイデバイス(たとえば、CRT(陰極線管)、LCD(液晶ディスプレイ)モニタまたはタッチスクリーン)と、任意にユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス(たとえば、マウスまたはトラックボール)とを有するコンピュータ上で実現可能である。ユーザとの対話を提供するために他の種類のデバイスも使用されてもよい。たとえば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック(たとえば、視覚フィードバック、聴覚フィードバックまたは触覚フィードバック)であってもよく、ユーザからの入力は、音響入力、発話入力または触覚入力を含む任意の形態で受信されてもよい。また、コンピュータは、ユーザによって使用されるデバイスに対してドキュメントを送受信することによって、たとえばウェブブラウザから受け取られた要求に応答してユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。
上記の説明に付け加えて、ユーザは、本明細書に記載されているシステム、プログラムまたは特徴がユーザ情報(たとえば、ユーザのソーシャルネットワーク、社会的行為もしくは社会活動、職業、ユーザの嗜好、またはユーザの現在位置)の収集を可能にするか否かおよびいつ可能にするか、ならびに、ユーザがサーバからコンテンツまたは通信を送信されるか否かについてユーザが選択を行うことを可能にする制御を提供されてもよい。また、特定のデータは、格納または使用される前に1または複数の方法で処理されてもよく、その結果、個人を特定できる情報は取り除かれる。たとえば、ユーザのアイデンティティは、当該ユーザについて個人を特定できる情報を突き止めることができないように処理されてもよく、または、ユーザの地理的位置は、位置情報(市、郵便番号または州レベルなど)が得られる場合には、ユーザの特定の位置を突き止めることができないように一般化されてもよい。したがって、ユーザは、どのような情報がユーザについて収集されるか、当該情報がどのように使用されるか、およびどのような情報がユーザに提供されるかを制御し得る。
いくつかの実現例について説明してきた。しかし、本開示の精神および範囲から逸脱することなくさまざまな変更がなされてもよいということが理解されるであろう。したがって、他の実現例は、以下の特許請求の範囲の範囲内である。

Claims (25)

  1. 方法(300)であって、
    データ処理ハードウェア(154)において、第1の顔フレームワーク(144a)と中立の顔面表情(22)を有するユーザ(10)の顔(20)の第1の取り込み画像(130a)とを受け取るステップを備え、前記第1の顔フレームワーク(144a)は、第1のフレームにおける前記ユーザ(10)の前記顔(20)に対応し、顔情報(140)の第1の顔メッシュ(142a)を備え、前記方法(300)はさらに、
    前記データ処理ハードウェア(154)が、前記顔の前記第1の取り込み画像(130a)を前記第1の顔フレームワーク(144a)上に投影するステップと、
    前記データ処理ハードウェア(154)が、前記投影された第1の取り込み画像(130a)に基づいて、前記ユーザ(10)の前記顔(20)に対応する顔テクスチャ(212)を判断するステップと、
    前記データ処理ハードウェア(154)において、第2の顔フレームワーク(144b)を受け取るステップとを備え、前記第2の顔フレームワーク(144b)は、第2のフレームにおける前記ユーザ(10)の前記顔(20)に対応し、顔情報(140)の第2の顔メッシュ(142b)を備え、前記方法(300)はさらに、
    前記データ処理ハードウェア(154)が、前記受け取られた第2の顔フレームワーク(144b)に基づいて、前記顔テクスチャ(212)を更新するステップと、
    前記データ処理ハードウェア(154)が、前記更新された顔テクスチャ(212)を三次元アバター(160)として表示するステップとを備え、前記三次元アバター(160)は、前記ユーザ(10)の前記顔(20)の仮想表現に対応する、方法(300)。
  2. 前記データ処理ハードウェア(154)において、前記ユーザ(10)の前記顔(20)の第2の取り込み画像(130b)を受け取るステップをさらに備え、前記第2の取り込み画像(130b)は、前記ユーザの顔面表情(22)として笑顔を取り込み、
    前記データ処理ハードウェア(154)において、前記ユーザ(10)の前記顔(20)の第3の取り込み画像(130c)を受け取るステップをさらに備え、前記第3の取り込み画像(130c)は、前記ユーザの前記顔面表情(22)として両方の眉を上げた状態を取り込み、
    前記データ処理ハードウェア(154)において、前記ユーザ(10)の前記顔(20)の第4の取り込み画像(130d)を受け取るステップをさらに備え、前記第4の取り込み画像(130d)は、前記ユーザの前記顔面表情(22)として笑顔および両方の眉を上げた状態を取り込み、
    各々の取り込み画像について、前記データ処理ハードウェア(154)が、前記ユーザ(10)の前記顔(20)に対応する顔面表情(22)テクスチャを判断するステップと、
    前記データ処理ハードウェア(154)が、前記受け取られた第2の顔フレームワーク(144b)に基づいて、各々の取り込み画像の前記顔面表情(22)テクスチャと前記更新された顔テクスチャ(212)とをブレンドして、ブレンドされた顔テクスチャ(212)を生成するステップと、
    前記データ処理ハードウェア(154)が、前記ブレンドされた顔テクスチャ(212)により前記三次元アバター(160)をレンダリングするステップとをさらに備える、請求項1に記載の方法(300)。
  3. ブレンドするステップは、
    各々の取り込み画像についてテクスチャベクトル(232)を判断するステップをさらに備え、前記テクスチャベクトル(232)は、前記中立の顔面表情(22)を有する前記第1の取り込み画像(130a)との差のベクトル表現に対応し、ブレンドするステップはさらに、
    前記受け取られた第2の顔フレームワーク(144b)に基づいて、現在のテクスチャベクトル(232)を判断するステップと、
    前記現在のテクスチャベクトル(232)と各々の取り込み画像の前記テクスチャベクトル(232)との間の差に基づいて、レンダリング重み(244)を割り当てるステップと、
    前記レンダリング重み(244)に基づいて、前記ブレンドされた顔テクスチャ(212)により前記三次元アバター(160)をレンダリングするステップとを備える、請求項2に記載の方法(300)。
  4. 前記レンダリング重み(244)は、1に等しい合計を有する、請求項3に記載の方法(300)。
  5. 前記現在のテクスチャベクトル(232)および各々の取り込み画像の前記テクスチャベクトル(232)の各々は、52変数浮動ベクトルに対応する、請求項3または4に記載の方法(300)。
  6. 前記レンダリング重み(244)は、前記現在のテクスチャベクトル(232)と各々の取り込み画像の前記テクスチャベクトル(232)との間の前記差が増加するにつれて、大きさが小さくなる、請求項5に記載の方法(300)。
  7. 前記データ処理ハードウェア(154)において、前記第2のフレームにおける顔情報(140)の現在の顔面表情(22)メッシュを有する前記ユーザ(10)の前記顔(20)の取り込まれた現在の画像を受け取るステップと、
    前記データ処理ハードウェア(154)が、前記受け取られた顔フレームワークおよび前記取り込まれた現在の画像に基づいて、前記顔テクスチャ(212)を更新するステップとをさらに備える、請求項1〜6のいずれか1項に記載の方法(300)。
  8. 前記受け取られた取り込まれた現在の画像は、減少させた分量の顔テクスチャ(212)に対応する、請求項7に記載の方法(300)。
  9. 前記データ処理ハードウェア(154)が、前記受け取られた取り込まれた現在の画像に基づいて、前記ユーザ(10)の前記顔(20)の遮られた部分を判断するステップと、
    前記データ処理ハードウェア(154)が、前記ユーザ(10)の前記顔(20)の前記遮られた部分と、以前のフレームからの遮られていない取り込まれた画像から生成された顔テクスチャ(212)とをブレンドするステップとをさらに備える、請求項8に記載の方法(300)。
  10. 前記データ処理ハードウェア(154)が、前記ユーザの眼または口の描出を生成するステップをさらに備え、前記生成するステップは、
    前記データ処理ハードウェア(154)が、前記眼または前記口のエッジを検出するステップと、
    前記データ処理ハードウェア(154)が、前記眼または前記口の前記エッジに関連付けられた角度の合計が2π(360度)に対応することを判断するステップと、
    前記データ処理ハードウェア(154)が、2πに対応する前記検出されたエッジに基づいて、前記眼または前記口の位置を近似するステップと、
    前記データ処理ハードウェア(154)が、前記顔の前記取り込み画像から前記近似された位置における前記口または前記眼を抽出するステップと、
    前記データ処理ハードウェア(154)が、前記近似された位置における前記抽出された口または前記抽出された眼をフィルでレンダリングするステップとによって行われる、請求項1〜9のいずれか1項に記載の方法(300)。
  11. 前記第1の取り込み画像(130a)は、携帯電話(100)からの赤、緑および青の(RGB)画像を備える、請求項1〜10のいずれか1項に記載の方法(300)。
  12. 前記三次元アバター(160)は、拡張現実(AR)デバイス(100)上に表示される、請求項1〜11のいずれか1項に記載の方法(300)。
  13. システム(100)であって、
    データ処理ハードウェア(154)と、
    前記データ処理ハードウェア(154)と通信するメモリハードウェア(156)とを備え、前記メモリハードウェア(156)は、命令を格納し、前記命令は、前記データ処理ハードウェア(154)上で実行されると、前記データ処理ハードウェア(154)にオペレーションを実行させ、前記オペレーションは、
    第1の顔フレームワーク(144a)と中立の顔面表情(22)を有するユーザ(10)の顔(20)の第1の取り込み画像(130a)とを受け取るステップを備え、前記第1の顔フレームワーク(144a)は、第1のフレームにおける前記ユーザ(10)の前記顔(20)に対応し、顔情報(140)の第1の顔メッシュ(142a)を備え、前記オペレーションはさらに、
    前記顔の前記第1の取り込み画像(130a)を前記第1の顔フレームワーク(144a)上に投影するステップと、
    前記投影された第1の取り込み画像(130a)に基づいて、前記ユーザ(10)の前記顔(20)に対応する顔テクスチャ(212)を判断するステップと、
    第2の顔フレームワーク(144b)を受け取るステップとを備え、前記第2の顔フレームワーク(144b)は、第2のフレームにおける前記ユーザ(10)の前記顔(20)に対応し、顔情報(140)の第2の顔メッシュ(142b)を備え、前記オペレーションはさらに、
    前記受け取られた第2の顔フレームワーク(144b)に基づいて、前記顔テクスチャ(212)を更新するステップと、
    前記更新された顔テクスチャ(212)を三次元アバター(160)として表示するステップとを備え、前記三次元アバター(160)は、前記ユーザ(10)の前記顔(20)の仮想表現に対応する、システム(100)。
  14. 前記オペレーションは、
    前記ユーザ(10)の前記顔(20)の第2の取り込み画像(130b)を受け取るステップをさらに備え、前記第2の取り込み画像(130b)は、前記ユーザの顔面表情(22)として笑顔を取り込み、前記オペレーションはさらに、
    前記ユーザ(10)の前記顔(20)の第3の取り込み画像(130c)を受け取るステップを備え、前記第3の取り込み画像(130c)は、前記ユーザの前記顔面表情(22)として両方の眉を上げた状態を取り込み、前記オペレーションはさらに、
    前記ユーザ(10)の前記顔(20)の第4の取り込み画像(130d)を受け取るステップを備え、前記第4の取り込み画像(130d)は、前記ユーザの前記顔面表情(22)として笑顔および両方の眉を上げた状態を取り込み、前記オペレーションはさらに、
    各々の取り込み画像について、前記ユーザ(10)の前記顔(20)に対応する顔面表情(22)テクスチャを判断するステップと、
    前記受け取られた第2の顔フレームワーク(144b)に基づいて、各々の取り込み画像の前記顔面表情(22)テクスチャと前記更新された顔テクスチャ(212)とをブレンドして、ブレンドされた顔テクスチャ(212)を生成するステップと、
    前記ブレンドされた顔テクスチャ(212)により前記三次元アバター(160)をレンダリングするステップとを備える、請求項13に記載のシステム(100)。
  15. ブレンドするステップは、
    各々の取り込み画像についてテクスチャベクトル(232)を判断するステップをさらに備え、前記テクスチャベクトル(232)は、前記中立の顔面表情(22)を有する前記第1の取り込み画像(130a)との差のベクトル表現に対応し、ブレンドするステップはさらに、
    前記受け取られた第2の顔フレームワーク(144b)に基づいて、現在のテクスチャベクトル(232)を判断するステップと、
    前記現在のテクスチャベクトル(232)と各々の取り込み画像の前記テクスチャベクトル(232)との間の差に基づいて、レンダリング重み(244)を割り当てるステップと、
    前記レンダリング重み(244)に基づいて、前記ブレンドされた顔テクスチャ(212)により前記三次元アバター(160)をレンダリングするステップとを備える、請求項14に記載のシステム(100)。
  16. 前記レンダリング重み(244)は、1に等しい合計を有する、請求項15に記載のシステム(100)。
  17. 前記現在のテクスチャベクトル(232)および各々の取り込み画像の前記テクスチャベクトル(232)の各々は、52変数浮動ベクトルに対応する、請求項15または16に記載のシステム(100)。
  18. 前記レンダリング重み(244)は、前記現在のテクスチャベクトル(232)と各々の取り込み画像の前記テクスチャベクトル(232)との間の前記差が増加するにつれて、大きさが小さくなる、請求項17に記載のシステム(100)。
  19. 前記オペレーションは、
    前記第2のフレームにおける顔情報(140)の現在の顔面表情(22)メッシュを有する前記ユーザ(10)の前記顔(20)の取り込まれた現在の画像を受け取るステップと、
    前記受け取られた顔フレームワークおよび前記取り込まれた現在の画像に基づいて、前記顔テクスチャ(212)を更新するステップとをさらに備える、請求項13〜18のいずれか1項に記載のシステム(100)。
  20. 前記受け取られた取り込まれた現在の画像は、減少させた分量の顔テクスチャ(212)に対応する、請求項19に記載のシステム(100)。
  21. 前記オペレーションは、
    前記データ処理ハードウェア(154)が、前記受け取られた取り込まれた現在の画像に基づいて、前記ユーザ(10)の前記顔(20)の遮られた部分を判断するステップと、
    前記データ処理ハードウェア(154)が、前記ユーザ(10)の前記顔(20)の前記遮られた部分と、以前のフレームからの遮られていない取り込まれた画像から生成された顔テクスチャ(212)とをブレンドするステップとをさらに備える、請求項20に記載のシステム(100)。
  22. 前記オペレーションは、前記ユーザの眼または口の描出を生成するステップをさらに備え、前記生成するステップは、
    前記眼または前記口のエッジを検出するステップと、
    前記眼または前記口の前記エッジに関連付けられた角度の合計が2π(360度)に対応することを判断するステップと、
    2πに対応する前記検出されたエッジに基づいて、前記眼または前記口の位置を近似するステップと、
    前記顔の前記取り込み画像から前記近似された位置における前記口または前記眼を抽出するステップと、
    前記近似された位置における前記抽出された口または前記抽出された眼をフィルでレンダリングするステップとによって行われる、請求項13〜21のいずれか1項に記載のシステム(100)。
  23. 前記第1の取り込み画像(130)は、携帯電話(110)からの赤、緑および青の(RGB)画像を備える、請求項13〜22のいずれか1項に記載のシステム(100)。
  24. 前記三次元アバター(160)は、拡張現実(AR)デバイス(110)上に表示される、請求項13〜23のいずれか1項に記載のシステム(100)。
  25. 方法(300)であって、
    データ処理ハードウェア(154)において、第1の顔フレームワーク(144a)と中立の顔面表情(22)を有するユーザ(10)の顔(20)の第1の取り込み画像(130a)とを受け取るステップを備え、前記第1の顔フレームワーク(144a)は、第1のフレームにおける前記ユーザ(10)の前記顔(20)に対応し、顔情報(140)の第1の顔メッシュ(142a)を備え、前記方法(300)はさらに、
    前記データ処理ハードウェア(154)が、前記顔の前記第1の取り込み画像(130a)を前記第1の顔フレームワーク(144a)上に投影するステップと、
    前記データ処理ハードウェア(154)が、前記投影された第1の取り込み画像(130a)に基づいて、前記ユーザ(10)の前記顔(20)に対応する顔テクスチャ(212)を判断するステップと、
    前記データ処理ハードウェア(154)が、前記判断された顔テクスチャ(212)を三次元アバター(160)として表示するステップとを備え、前記三次元アバター(160)は、前記ユーザ(10)の前記顔(20)の仮想表現に対応する、方法(300)。
JP2020560922A 2018-05-07 2019-05-01 顔面表情による遠隔アバターの操縦 Active JP7090178B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862667767P 2018-05-07 2018-05-07
US62/667,767 2018-05-07
PCT/US2019/030218 WO2019217177A1 (en) 2018-05-07 2019-05-01 Puppeteering a remote avatar by facial expressions

Publications (2)

Publication Number Publication Date
JP2021523437A true JP2021523437A (ja) 2021-09-02
JP7090178B2 JP7090178B2 (ja) 2022-06-23

Family

ID=68467043

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020560922A Active JP7090178B2 (ja) 2018-05-07 2019-05-01 顔面表情による遠隔アバターの操縦

Country Status (5)

Country Link
US (3) US11538211B2 (ja)
EP (2) EP4262193A3 (ja)
JP (1) JP7090178B2 (ja)
CN (2) CN115731294A (ja)
WO (1) WO2019217177A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6967610B2 (ja) 2017-05-16 2021-11-17 アップル インコーポレイテッドApple Inc. 絵文字の記録及び送信
US11074753B2 (en) * 2019-06-02 2021-07-27 Apple Inc. Multi-pass object rendering using a three- dimensional geometric constraint
CN111583355B (zh) * 2020-05-09 2024-01-23 维沃移动通信有限公司 面部形象生成方法、装置、电子设备及可读存储介质
AU2021290132C1 (en) 2020-06-08 2024-04-18 Apple Inc. Presenting avatars in three-dimensional environments
WO2022066450A1 (en) * 2020-09-25 2022-03-31 Sterling Labs Llc Representation of users based on current user appearance
WO2022066432A1 (en) * 2020-09-25 2022-03-31 Sterling Labs Llc Progressive body capture of user body for building an avatar of user
US11995776B2 (en) 2021-01-19 2024-05-28 Samsung Electronics Co., Ltd. Extended reality interaction in synchronous virtual spaces using heterogeneous devices
IL281554B2 (en) * 2021-03-16 2023-02-01 Emza Visual Sense Ltd Apparatus and method for detecting and outputting three-dimensional objects

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002507033A (ja) * 1998-03-11 2002-03-05 エントロピック,インコーポレーテッド 顔合成装置および顔合成方法
JP2011210118A (ja) * 2010-03-30 2011-10-20 Secom Co Ltd 顔画像合成装置
US20150042743A1 (en) * 2013-08-09 2015-02-12 Samsung Electronics, Ltd. Hybrid visual communication
JP2017531242A (ja) * 2014-08-29 2017-10-19 トムソン ライセンシングThomson Licensing 顔画像を編集する方法及びデバイス

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8893207B2 (en) * 2002-12-10 2014-11-18 Ol2, Inc. System and method for compressing streaming interactive video
JP4559092B2 (ja) * 2004-01-30 2010-10-06 株式会社エヌ・ティ・ティ・ドコモ 携帯通信端末及びプログラム
US7176956B2 (en) * 2004-05-26 2007-02-13 Motorola, Inc. Video enhancement of an avatar
CA2621191C (en) * 2005-08-29 2012-12-18 Evryx Technologies, Inc. Interactivity via mobile image recognition
JP5773323B2 (ja) * 2011-08-09 2015-09-02 インテル・コーポレーション 画像に基づくマルチビュー3d顔生成
US8933928B2 (en) * 2011-11-22 2015-01-13 Seiko Epson Corporation Multiview face content creation
CN104115503A (zh) * 2011-12-29 2014-10-22 英特尔公司 使用化身的通信
WO2014036708A1 (en) * 2012-09-06 2014-03-13 Intel Corporation System and method for avatar creation and synchronization
US9317954B2 (en) * 2013-09-23 2016-04-19 Lucasfilm Entertainment Company Ltd. Real-time performance capture with on-the-fly correctives
US10334158B2 (en) * 2014-11-03 2019-06-25 Robert John Gove Autonomous media capturing
WO2016154800A1 (en) * 2015-03-27 2016-10-06 Intel Corporation Avatar facial expression and/or speech driven animations
WO2016161553A1 (en) * 2015-04-07 2016-10-13 Intel Corporation Avatar generation and animations
US20180158246A1 (en) * 2016-12-07 2018-06-07 Intel IP Corporation Method and system of providing user facial displays in virtual or augmented reality for face occluding head mounted displays

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002507033A (ja) * 1998-03-11 2002-03-05 エントロピック,インコーポレーテッド 顔合成装置および顔合成方法
JP2011210118A (ja) * 2010-03-30 2011-10-20 Secom Co Ltd 顔画像合成装置
US20150042743A1 (en) * 2013-08-09 2015-02-12 Samsung Electronics, Ltd. Hybrid visual communication
JP2017531242A (ja) * 2014-08-29 2017-10-19 トムソン ライセンシングThomson Licensing 顔画像を編集する方法及びデバイス

Also Published As

Publication number Publication date
WO2019217177A1 (en) 2019-11-14
US20230088308A1 (en) 2023-03-23
US20210056747A1 (en) 2021-02-25
CN115731294A (zh) 2023-03-03
EP4262193A2 (en) 2023-10-18
EP3791573B1 (en) 2023-10-18
EP4262193A3 (en) 2023-11-29
JP7090178B2 (ja) 2022-06-23
US11887235B2 (en) 2024-01-30
US20240127523A1 (en) 2024-04-18
CN112042182B (zh) 2022-12-13
US11538211B2 (en) 2022-12-27
EP3791573A1 (en) 2021-03-17
CN112042182A (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
JP7090178B2 (ja) 顔面表情による遠隔アバターの操縦
US11062494B2 (en) Electronic messaging utilizing animatable 3D models
JP7110502B2 (ja) 深度を利用した映像背景減算法
JP7389840B2 (ja) 画像画質補強方法、装置、機器および媒体
JP2019012526A (ja) 映像処理方法、コンピュータプログラムおよび記録媒体
WO2022252866A1 (zh) 一种互动处理方法、装置、终端及介质
US20180295158A1 (en) Displaying group expressions for teleconference sessions
US11487498B2 (en) Volume control for audio and video conferencing applications
EP3744088A1 (en) Techniques to capture and edit dynamic depth images
US12002139B2 (en) Robust facial animation from video using neural networks
CN112470164A (zh) 姿态校正
US11741650B2 (en) Advanced electronic messaging utilizing animatable 3D models
CN116071467A (zh) 唇形驱动模型的生成方法、装置、电子设备及存储介质
US20240054657A1 (en) Frame rate up-conversion using optical flow
KR20230136109A (ko) 기계 학습을 사용한 선택적 이미지 블러링
JP2023022157A (ja) コンピュータプログラム、方法及びサーバ装置
CN117560542A (zh) 视频处理方法、计算机设备及存储介质
CN116917957A (zh) 基于神经网络的鲁棒视频面部动画

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210304

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220502

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220613

R150 Certificate of patent or registration of utility model

Ref document number: 7090178

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150