JP2023524411A - ビジュアルオーディオ処理用動的ビジョンセンサ - Google Patents

ビジュアルオーディオ処理用動的ビジョンセンサ Download PDF

Info

Publication number
JP2023524411A
JP2023524411A JP2022564808A JP2022564808A JP2023524411A JP 2023524411 A JP2023524411 A JP 2023524411A JP 2022564808 A JP2022564808 A JP 2022564808A JP 2022564808 A JP2022564808 A JP 2022564808A JP 2023524411 A JP2023524411 A JP 2023524411A
Authority
JP
Japan
Prior art keywords
person
eds
camera unit
microphone
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022564808A
Other languages
English (en)
Inventor
イエ、シャオヨン
勇一郎 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of JP2023524411A publication Critical patent/JP2023524411A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/143Sensing or illuminating at different wavelengths
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Ophthalmology & Optometry (AREA)
  • Processing Or Creating Images (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Abstract

【課題】発話中に口角及び歯等のいくつかの困難な顔の特徴を追跡するために、カメラセンサシステム(212/306/308/318/320)がRGB/IR画像を生成する。【解決手段】このシステムはまた、イベント駆動型センサ(EDS)(212/306/318)からの光強度変化信号を使用し、さらにはマイクロフォン(328)からの信号を使用した音声分析も使用する。このようにして、カメラセンサシステムは、より小さな帯域幅とより少ない消費電力とで(超高速度カメラを使用するのと同等の)改善された性能の追跡を可能にする。【選択図】図1

Description

本出願は、一般に、コンピュータ技術に必然的に根差し、具体的な技術的改善をもたらす、技術的に独創的で非定型的な解決策に関する。
騒がしい環境での話者の識別、または偽のビデオの検出、または曖昧さを解消する音声認識、またはアニメーション、またはその他の目的のために、発話中に顔追跡を実行するとき、口の中の暗い領域、歯等の顔の一部、及び発話中の顔の構造の速い動きは、正確な追跡の障害となる。
上記によってもたらされる技術的な課題は、より良い動作のためには、遅延を減らし追跡性能を向上させるために高速カメラが必要な場合があり、カメラデータのフレームレートを増加させる必要があるが、そのような高フレームレートでは、より大きな帯域幅及び処理と、したがって比較的大量の電力消費及び熱の発生が必要とされることである。
本明細書で述べた課題に対処するために、RGB画像及びIR画像を取り込むために、カラーフィルタ下及び必要に応じて赤外線フィルタ下に両方の光強度フォトダイオードが備えられたセンサセルだけでなく、イベント駆動型センサ(EDS)の原理によって動きを検出するEDS感知セルも含むカメラセンサシステムが提供される。EDSは、1つ以上のカメラピクセルによって感知された光強度の変化を動きの指標として使用する。EDSは、RGBカメラと比較して、高ダイナミックレンジ(HDR)を有し、モーションブラーがなく、遅延が少ない。EDS情報がRGBカメラ情報及びオーディオ情報と融合すると、トラッキングがより堅牢になる。速い動き(例えば、口の動き)またはHDRの状況では、より多くカメラ画像に依存する状況である遅い動き及び細部(色、テクスチャ)の状況よりも、比較的多くEDS情報に依存する可能性がある。このような融合は、顔追跡、視標追跡、及び感情認識にも適用できる。
本原理では、EDSからの生のイベントデータを使用して、RGBカメラ及びオーディオのデータと融合し、その後分類器に入力する。分類器は、オーディオ/カメラ/イベントデータからの3つの入力全てのトレーニングセットを使用して、一部の実施態様では、畳み込み層を備えた再帰型ニューラルネットワークを使用して、トレーニングされる。
したがって、アセンブリが、顔の赤緑青(RGB)画像を生成するように構成された少なくとも1つのカメラユニットを含む。本アセンブリは、顔の照度の変化を表す信号を出力するように構成された少なくとも1つのイベント駆動型センサ(EDS)をさらに含む。少なくとも1つのマイクロフォンが、発話を表す信号を出力するように構成される。さらに、このアセンブリは、カメラユニット、EDS、及びマイクロフォンから信号を受信するように実行可能命令で構成される少なくとも1つのプロセッサを含む。この命令は、少なくとも1つのニューラルネットワークを実行して、カメラユニット、EDS、及びマイクロフォンからの信号に基づいて、感情予測、顔の少なくとも一部分の追跡のうちの少なくとも1つを生成するように実行可能である。
いくつかの例では、カメラユニットは、赤外線(IR)画像を生成するように構成される。
例示的な実施態様では、カメラユニット、プロセッサ、及びEDSは、単一チップ上に配置され得る。
非限定的な実施形態では、追跡される顔の一部分は、1つ以上の目、具体的には1つ以上の瞳孔であり得、瞳孔に限定され得るか、または他の顔の特徴を含み得る。他の実施形態では、その一部分は、口角を含み、口角及び/または歯を含む口の内部に限定されることがあり、または追加の顔の特徴を含むこともある。
別の態様では、システムが、人の赤緑青(RGB)画像及び/または赤外線(IR)画像を生成するように構成された少なくとも1つのカメラユニットを含む。本システムはまた、少なくとも1つのマイクロフォンと、人を表す信号を出力するように構成された少なくとも1つのイベント駆動型センサ(EDS)とを含む。このシステムはさらに、短時間フーリエ変換(STFT)を使用してマイクロフォンの出力を処理し、少なくとも1つのオーディオ処理畳み込みニューラルネットワーク(CNN)を使用してSTFTの出力を処理するように命令をプログラムされる少なくとも1つのプロセッサを含む。この命令は、少なくとも1つのビジュアル処理CNNを使用して、カメラユニットからの画像の少なくとも特徴を処理するように実行可能である。さらに、命令は、少なくとも1つのイベント処理CNNを使用して、EDSからの出力信号の表現を処理するように実行可能である。システム内の命令は、全結合型ニューラルネットワーク層におけるCNNの出力を融合して、人の感情の予測、人の顔の少なくとも一部分の追跡、人の少なくとも1つの仮想現実(VR)画像、及び人の識別のうちの1つ以上を生成するように実行することができる。
この後者の態様の一例では、プロセッサは、再帰型ニューラルネットワーク(RNN)を使用してCNNの出力を処理することと、人の口の追跡を生成するために、全結合型ニューラルネットワーク層を使用してRNNの出力を処理することと、を行うように命令で構成され得る。
別の態様では、方法が、少なくとも1つのカメラユニットから信号を受信することと、少なくとも1つのイベント駆動型センサ(EDS)から信号を受信することと、少なくとも1つのマイクロフォンから信号を受信することとを含む。この方法は、少なくとも1つのニューラルネットワークを実行して、カメラユニット、EDS、及びマイクロフォンからの信号に基づいて、感情予測、顔の少なくとも一部分の追跡、人の識別、人の仮想現実(VR)画像の生成のうちの少なくとも1つを生成することを含む。
本出願の詳細は、その構造及び動作の両方に関して、添付図面を参照して最もよく理解することができ、図面中、同様の参照番号は同様の部分を指す。
本原理による例を含む例示的なシステムのブロック図である。 簡略化されたセンサデータフローを示す。 追跡されている人の顔に関連してセンサを示す。 システム例をブロック図形式で示す。 感情認識または話者認識のためのRGB入力、オーディオ入力、及びEDS入力からのデータフローを示す。 音声認識のための別の分類器アーキテクチャを示す。 ヘッドマウントディスプレイ(HMD)またはヘッドマウントカメラ(HMC)上のカメラからの顔追跡情報を示す。 追跡ロジックの例をフローチャート形式の例で示す。 トレーニングロジックの例をフローチャート形式の例で示す。 HMCの例を示す。 図10のHCMによって画像化された顔の特徴を示す。
本開示は、一般に、コンピュータゲームネットワーク等のコンピュータシミュレーションネットワーク等であるが限定されない家電製品(CE)デバイスネットワークだけでなく、スタンドアロンのコンピュータシミュレーションシステムの態様を含むコンピュータエコシステムに関する。本明細書のシステムは、クライアントコンポーネントとサーバコンポーネントとの間でデータが交換され得るようにネットワークを介して接続されたサーバコンポーネント及びクライアントコンポーネントを含み得る。クライアントコンポーネントは、Sony PlayStation(登録商標)等のゲーム機、あるいはMicrosoft(登録商標)もしくはNintendo(登録商標)または他の製造者によって作成されたゲーム機、仮想現実(VR)ヘッドセット、拡張現実(AR)ヘッドセット、ポータブルテレビ(例えば、スマートテレビ、インターネット対応テレビ)、ラップトップ及びタブレットコンピュータ等のポータブルコンピュータ、ならびにスマートフォン及び下記に説明される追加の例を含む他のモバイルデバイス、を含む1つ以上のコンピューティングデバイスを含み得る。これらのクライアントデバイスは、様々な動作環境で動作し得る。例えば、クライアントコンピュータの一部は、例として、Linux(登録商標)オペレーティングシステム、Microsoft(登録商標)のオペレーティングシステム、またはUnix(登録商標)オペレーティングシステム、またはApple Computer(登録商標)もしくはGoogle(登録商標)によって製造されたオペレーティングシステムを使用し得る。これらの動作環境を使用して、Microsoft(登録商標)もしくはGoogle(登録商標)もしくはMozilla(登録商標)によって作成されたブラウザ、または下記に説明されるインターネットサーバによってホストされるウェブサイトにアクセスできる他のブラウザプログラム等の1つ以上の閲覧プログラムを実行し得る。また、1つ以上のコンピュータゲームプログラムを実行するために、本原理による動作環境が用いられ得る。
サーバ及び/またはゲートウェイは、インターネット等のネットワークを介してデータの受信及び送信を行うようにサーバを構成する命令を実行する1つ以上のプロセッサを含み得る。または、クライアント及びサーバは、ローカルイントラネットまたは仮想プライベートネットワークを介して接続することができる。サーバまたはコントローラは、Sony PlayStation(登録商標)等のゲーム機、パーソナルコンピュータ等によってインスタンス化され得る。
情報は、クライアントとサーバとの間でネットワークを介して交換され得る。この目的のために及びセキュリティのために、サーバ及び/またはクライアントは、ファイアウォール、ロードバランサ、テンポラリストレージ、及びプロキシ、ならびに信頼性及びセキュリティのための他のネットワークインフラストラクチャを含み得る。1つ以上のサーバは、ネットワークメンバーにオンラインソーシャルウェブサイト等のセキュアコミュニティを提供する方法を実施する装置を形成し得る。
本明細書で使用される場合、命令は、システムにおいて情報を処理するためにコンピュータにより実施されるステップを指す。命令は、ソフトウェア、ファームウェア、またはハードウェアで実施され、システムのコンポーネントにより実行される任意の種類のプログラム化されたステップを含み得る。
プロセッサは、アドレス線、データ線、及び制御線等の各種の線、ならびにレジスタ及びシフトレジスタによってロジックを実行できる、従来の任意の汎用シングルチッププロセッサまたは汎用マルチチッププロセッサであり得る。
本明細書でフローチャート及びユーザインタフェースによって記述されるソフトウェアモジュールは、様々なサブルーチン、手順等を含み得る。本開示を限定することなく、特定のモジュールによって実行されるように規定されたロジックは、他のソフトウェアモジュールに再分配すること、及び/または単一のモジュールにまとめて集約すること、及び/または共有可能ライブラリで利用できるようにすることが可能である。
本明細書に記載された本原理は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの組み合わせとして実装することができる。したがって、実例となるコンポーネント、ブロック、モジュール、回路、及びステップは、それらの機能性の観点から説明されている。
さらに上記に示唆したものについて、以下に説明される論理ブロック、モジュール、及び回路は、汎用プロセッサ、デジタルシグナルプロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)もしくは特定用途向け集積回路(ASIC)等の他のプログラマブル論理デバイス、個別ゲートもしくはトランジスタロジック、個別ハードウェアコンポーネント、または本明細書に説明される機能を行うように設計されたそれらのいずれかの組み合わせによって実装または実行することができる。プロセッサは、コントローラもしくは状態機械、またはコンピューティングデバイスの組み合わせによって実装することができる。
以下で説明される機能及び方法は、ソフトウェアにおいて実装されるとき、限定ではないが、Java(登録商標)、C#、またはC++等の適切な言語において記述することができ、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、電気的消去可能プログラマブルリードオンリメモリ(EEPROM)、コンパクトディスクリードオンリメモリ(CD-ROM)、またはデジタル多用途ディスク(DVD)等の他の光ディスクストレージ、磁気ディスクストレージもしくは着脱可能サムドライブ等を含む他の磁気記憶装置等のコンピュータ可読記憶媒体に記憶することができ、またはそれらを通して伝送することができる。接続は、コンピュータ可読媒体を確立し得る。このような接続は、例として、光ファイバ、同軸ワイヤ、デジタル加入者回線(DSL)、及びツイストペアワイヤを含む有線ケーブルを含み得る。そのような接続は、赤外線及び無線機を含む無線通信接続を含んでもよい。
ある実施形態に含まれるコンポーネントを、他の実施形態において任意の適切な組み合わせで使用することができる。例えば、本明細書で説明される、及び/または図に描かれる様々なコンポーネントのいずれも、組み合わされてもよく、交換されてもよく、または他の実施形態から除外されてもよい。
「A、B、及びCの少なくとも1つを有するシステム」(同様に「A、B、またはCの少なくとも1つを有するシステム」及び「A、B、Cのうちの少なくとも1つを有するシステム」)は、Aを単独で、Bを単独で、Cを単独で、A及びBを一緒に、A及びCを一緒に、B及びCを一緒に、及び/またはA、B、及びCを一緒に有するシステム等を含む。
ここで具体的に図1を参照すると、例示的なシステム10が示されており、このシステムは、本原理による、上で述べられかつ以下に詳述される、例示的なデバイスの1つ以上を含むことができる。システム10に含まれる例示的なデバイスのうちの第1のデバイスは、TVチューナ(同等にTVを制御するセットトップボックス)を備えたインターネット対応TV等のこれに限定されないオーディオビデオデバイス(AVD)12といった一般消費者向け電子製品(CE)デバイスである。しかし、AVD12は、代わりに、電気器具または家庭用品、例えば、コンピュータ制御でインターネット対応の冷蔵庫、洗濯機、または乾燥機であってよい。あるいは、AVD12はまた、コンピュータ制御型インターネット対応(「スマート」)電話、タブレットコンピュータ、ノートブックコンピュータ、拡張現実(AR)ヘッドセット、仮想現実(VR)ヘッドセット、インターネット対応グラスまたはスマートグラス、例えば、コンピュータ制御型インターネット対応時計、コンピュータ制御型インターネット対応ブレスレット、他のコンピュータ制御型インターネット対応デバイス等の別の種類のウェアラブルコンピュータ制御デバイス、コンピュータ制御型インターネット対応ミュージックプレーヤ、コンピュータ制御型インターネット対応ヘッドフォン、インプラント可能な皮膚用デバイス等のコンピュータ制御型インターネット対応のインプラント可能なデバイス等であってよい。いずれにしても、AVD12は、本原理を実施する(例えば、本原理を実施するように他のCEデバイスと通信し、本明細書に説明されるロジックを実行し、本明細書に説明されるいずれかの他の機能及び/または動作を行う)ように構成されることを理解されたい。
したがって、このような原理を実施するために、AVD12は、図1に示すコンポーネントの一部または全てによって確立され得る。例えば、AVD12は、高解像度フラットスクリーンまたは「4K」以上の超高解像度フラットスクリーンによって実装してもよく、ユーザ入力信号をディスプレイ上のタッチを介して受け取るためのタッチ対応であってもよい、1つ以上のディスプレイ14を含むことが可能である。AVD12は、本原理に従ってオーディオを出力するための1つ以上のスピーカ16と、例えば、可聴コマンドをAVD12に入力して、AVD12を制御するための、例えば、オーディオ受信機/マイクロフォン等の少なくとも1つの追加の入力デバイス18とを備え得る。例示的なAVD12は、また、1つ以上のプロセッサ24の制御下でインターネット、WAN、LAN等の少なくとも1つのネットワーク22を介して通信するための1つ以上のネットワークインタフェース20を含み得る。グラフィックプロセッサ24Aを含んでいてもよい。したがって、インタフェース20は、限定ではないが、Wi-Fi送受信機であり得、Wi-Fi(登録商標)送受信機は、限定するものではないが、メッシュネットワーク送受信機等の無線コンピュータネットワークインタフェースの実施例である。プロセッサ24は、例えば、ディスプレイ14を、画像を提示するように制御することや、そこから入力を受信すること等の本明細書に説明されるAVD12の他の要素を含む、本原理を実施するようにAVD12を制御することが理解されよう。さらに、ネットワークインタフェース20は、例えば、有線もしくは無線のモデムもしくはルータ、または、例えば、無線テレフォニ送受信機もしくは上述したWi-Fi送受信機等の他の適切なインタフェースであってよいことに留意されたい。
上記に加えて、ADV12はまた、例えば、別のCEデバイスに(例えば、有線接続を使用して)物理的に接続するための高精細マルチメディアインタフェース(HDMI(登録商標))ポートもしくはUSBポート、及び/またはヘッドフォンを通してADV12からユーザにオーディオを提供するためにADV12にヘッドフォンを接続するためのヘッドフォンポート等の1つ以上の入力ポート26を含み得る。例えば、入力ポート26は、オーディオビデオコンテンツのケーブルまたは衛星ソース26aに、有線または無線を介して接続され得る。したがって、ソース26aは、例えば、分離もしくは統合されたセットトップボックス、またはサテライト受信機であり得る。あるいは、ソース26aは、さらに後ほど説明するチャンネル割り当ての目的のためにユーザによってお気に入りとみなされる可能性があるコンテンツを含むゲーム機またはディスクプレーヤであってもよい。ソース26aは、ゲーム機として実装されるとき、CEデバイス44に関連して以下で説明されるコンポーネントのいくつかまたは全てを含んでもよい。
AVD12は、ディスクベースまたはソリッドステート記憶装置等の1つ以上のコンピュータメモリ28であって、一時的信号でなく、場合により、スタンドアロンデバイスとしてAVDのシャーシに具現化され、またはAVDのシャーシの内部もしくは外部のいずれかでAVプログラムを再生するためのパーソナルビデオレコーディングデバイス(PVR)もしくはビデオディスクプレーヤとして具現化され、またはリムーバブルメモリ媒体として具現化されるコンピュータメモリ28をさらに含んでもよい。また、いくつかの実施形態では、AVD12は、限定されるものではないが、例えば、少なくとも1つの衛星または携帯電話塔から地理的位置情報を受信し、その情報をプロセッサ24に提供するように構成され、及び/またはAVD12がプロセッサ24と併せて配置される高度を判定するように構成される携帯電話受信機、GPS受信機、及び/または高度計30等の位置または場所の受信機を含み得る。しかし、例えば3つの次元全てにおいて、例えば、AVD12の場所を判定するために、本原理に従って、携帯電話受信機、GPS受信機、及び/または高度計以外の別の適切な位置受信機が使用され得ることを理解されたい。
AVD12の説明を続けると、ある実施形態では、AVD12は、1つ以上のカメラ32を備えてよく、1つ以上のカメラ32は、例えば、サーマルイメージングカメラ、ウェブカメラ等のデジタルカメラ、及び/またはAVD12に統合され、本原理に従って写真/画像及び/またはビデオを収集するようプロセッサ24によって制御可能なカメラであってよい。AVD12にはまた、ブルートゥース及び/または近距離無線通信(NFC)技術をそれぞれ使用した他のデバイスとの通信のためのブルートゥース送受信機34及び他のNFC素子36が含まれ得る。例示のNFC素子は、無線周波数識別(RFID)素子であってもよい。
さらにまた、AVD12は、プロセッサ24に入力を提供する1つ以上の補助センサ37(例えば、加速度計、ジャイロスコープ、サイクロメータ等の運動センサ、または磁気センサ、赤外線(IR)センサ、光学センサ、速度センサ及び/またはケイデンスセンサ、ジェスチャセンサ(例えば、ジェスチャコマンドを検知するためのセンサ)等)を含み得る。AVD12は、プロセッサ24への入力をもたらすOTA(無線経由)TV放送を受信するための無線経由テレビ放送ポート38を含み得る。前述に加えて、AVD12はまた、赤外線データ協会(IRDA)デバイス等の赤外線(IR)送信機及び/またはIR受信機及び/またはIR送受信機42を含み得ることに留意されたい。AVD12に給電するためのバッテリ(図示せず)が備えられてよい。
さらに図1を参照すると、AVD12に加えて、システム10は、1つ以上の他のCEデバイスタイプを含んでもよい。一実施例では、コンピュータゲームのオーディオ及びビデオを、AVD12に直接送信されるコマンドを介して、及び/または後述のサーバを通じて、AVD12に送信するために、第1のCEデバイス44が使用され得、第1のCEデバイス44と同様のコンポーネントを第2のCEデバイス46が含み得る。示される例では、第2のCEデバイス46は、図示されるようにプレーヤ47が装着するARヘッドセットとして構成され得る。図示した例では、2つのCEデバイス44、46のみを示しているが、より少ないデバイスまたはより多いデバイスを使用してもよいことが理解されよう。
示される例では、本原理を示すために、3つ全てのデバイス12、44、46は、例えば家庭のエンターテインメントネットワークのメンバーであるか、または少なくとも、住宅等の場所において相互に近接して存在していると想定される。しかし、本原理は、他に明確に主張されない限り、破線48によって示される特定の場所に限定されない。
例示の非限定的な第1のCEデバイス44は、上述のデバイス、例えば、ポータブル無線ラップトップコンピュータもしくはノートブックコンピュータ、またはゲームコントローラのいずれか1つによって確立されてもよく、そのために、以下で説明される1つ以上のコンポーネントを有してもよい。第1のCEデバイス44は、例えば、AV再生コマンド及び一時停止コマンドをAVD12に発行するためのリモート制御(RC)であってもよく、またはタブレットコンピュータ、有線もしくは無線リンクを介してAVD12及び/またはゲーム機と通信するゲームコントローラ、パーソナルコンピュータ、無線電話等のより高性能のデバイスであってもよい。第2のCEデバイス46は、ヘッドマウントディスプレイ(HMD)またはヘッドマウントカメラ(HMC)によって実施されてもよい。
したがって、第1のCEデバイス44は、ユーザ入力信号をディスプレイ50上のタッチを介して受信するためのタッチ対応であってもよい、1つ以上のディスプレイ50を含んでもよい。第1のCEデバイス44は、本原理に従ってオーディオを出力するための1つ以上のスピーカ52と、例えば、可聴コマンドを第1のCEデバイス44に入力して、デバイス44を制御するための、例えば、オーディオ受信機/マイクロフォン等の少なくとも1つの追加の入力デバイス54と、を備え得る。例示の第1のCEデバイス44はまた、1つ以上のCEデバイスプロセッサ58の制御下で、ネットワーク22を介して通信するための1つ以上のネットワークインタフェース56を含み得る。グラフィックプロセッサ58Aを含んでいてもよい。したがって、インタフェース56は、限定ではないが、Wi-Fi送受信機であり得、Wi-Fi送受信機は、メッシュネットワークインタフェースを含む無線コンピュータネットワークインタフェースの実施例である。プロセッサ58は、例えば、ディスプレイ50を、画像を提示するように制御することや、そこから入力を受信すること等の本明細書に説明される第1のCEデバイス44の他の要素を含む、本原理を実施するように第1のCEデバイス44を制御することが理解されよう。さらに、ネットワークインタフェース56は、例えば、有線もしくは無線のモデムもしくはルータ、または、例えば、無線テレフォニ送受信機もしくは上述したWi-Fi送受信機等の他の適切なインタフェースであってよいことに留意されたい。
上記に加えて、第1のCEデバイス44はまた、例えば、別のCEデバイスに(例えば、有線接続を使用して)物理的に接続するためのHDMIポートもしくはUSBポート、及び/またはヘッドフォンを通して第1のCEデバイス44からユーザにオーディオを提供するために第1のCEデバイス44にヘッドフォンを接続するためのヘッドフォンポート等の1つ以上の入力ポート60を含み得る。第1のCEデバイス44は、さらに、ディスクベースストレージまたはソリッドステートストレージ等の1つ以上の有形コンピュータ可読記憶媒体62を備えてよい。また、いくつかの実施形態では、第1のCEデバイス44は、限定するものではないが、例えば、三角測量を使用して、少なくとも1つの衛星及び/または携帯電話塔から地理的位置情報を受信し、その情報をCEデバイスプロセッサ58に提供するように構成され、及び/または第1のCEデバイス44がCEデバイスプロセッサ58と併せて配置される高度を判定するように構成される、携帯電話及び/またはGPS受信機及び/または高度計64等の位置または場所の受信機を含むことができる。しかしながら、携帯電話及び/またはGPS受信機及び/または高度計以外の別の好適な位置受信機を本原理に従って使用して、例えば、第1のCEデバイス44の位置を例えば3つの次元全てにおいて決定できることを理解されたい。
第1のCEデバイス44の説明を続けると、ある実施形態では、第1のCEデバイス44は、1つ以上のカメラ66を備えてよく、1つ以上のカメラ66は、例えば、サーマルイメージングカメラ、ウェブカメラ等のデジタルカメラ、及び/または第1のCEデバイス44に統合され、本原理に従って写真/画像及び/またはビデオを収集するようにCEデバイスプロセッサ58によって制御可能であるカメラであってよい。第1のCEデバイス44にはまた、ブルートゥース(登録商標)及び/または近距離無線通信(NFC)技術をそれぞれ使用した他のデバイスとの通信のためのブルートゥース(登録商標)送受信機68及び他のNFC素子70が含まれ得る。例示のNFC素子は、無線周波数識別(RFID)素子であってもよい。
さらにまた、第1のCEデバイス44は、CEデバイスプロセッサ58に入力を提供する1つ以上の補助センサ72(例えば、加速度計、ジャイロスコープ、サイクロメータ等の運動センサ、または磁気センサ、赤外線(IR)センサ、光学センサ、速度センサ及び/またはケイデンスセンサ、ジェスチャセンサ(例えば、ジェスチャコマンドを検知するためのセンサ)等)を含み得る。第1のCEデバイス44は、CEデバイスプロセッサ58に入力を提供する、例えば、1つ以上の気候センサ74(例えば、気圧計、湿度センサ、風センサ、光センサ、温度センサ等)及び/または1つ以上の生体認証センサ76等のさらに他のセンサを備えてよい。前述に加えて、いくつかの実施形態では、第1のCEデバイス44はまた、赤外線データ協会(IRDA)デバイス等の赤外線(IR)送信機及び/またはIR受信機及び/またはIR送受信機78を含み得ることに留意されたい。第1のCEデバイス44に給電するためのバッテリ(図示せず)が備えられてよい。CEデバイス44は、上記の通信モード及び関連コンポーネントのいずれかを介してAVD12と通信し得る。
第2のCEデバイス46は、CEデバイス44について示したコンポーネントの一部または全部を含むことができる。一方または両方のCEデバイスは、1つ以上のバッテリにより電力供給され得る。
次に、上記の少なくとも1つのサーバ80についてであるが、このサーバ80は、少なくとも1つのサーバプロセッサ82と、ディスクベースまたはソリッドステート記憶装置等の少なくとも1つの有形コンピュータ可読記憶媒体84と、サーバプロセッサ82の制御下で、ネットワーク22を通じて図1の他のデバイスとの通信を可能にし、実際に、本原理に従ってサーバとクライアントデバイスとの間の通信を促進し得る少なくとも1つのネットワークインタフェース86とを含む。ネットワークインタフェース86は、例えば、有線もしくは無線のモデムもしくはルータ、Wi-Fi(登録商標)送受信機、または、例えば、無線テレフォニ送受信機等の他の適切なインタフェースであり得ることに留意されたい。
したがって、いくつかの実施形態では、サーバ80は、インターネットサーバまたはサーバ「ファーム」全体であってもよく、システム10のデバイスは、例えばネットワークゲームアプリケーションについての例示的な実施形態においてサーバ80を介して「クラウド」環境にアクセスし得るように「クラウド」機能を含み、実行し得る。あるいは、サーバ80は、図1に示す他のデバイスと同じ部屋かまたはその近くにある1つ以上のゲーム機または他のコンピュータによって実装されてもよい。
本明細書の方法は、プロセッサ、適切に構成される特定用途向け集積回路(ASIC)もしくはフィールドプログラマブルゲートアレイ(FPGA)モジュール、または当業者によって認識されるであろうようないずれかの他の便利な様式によって実行されるソフトウェア命令として実施され得る。使用される場合、ソフトウェア命令は、CD ROMまたはフラッシュドライブ等の非一時的デバイスにおいて具体化され得る。あるいはソフトウェアコード命令は、無線信号もしくは光信号等の一時的な配置において、またはインターネット上でのダウンロードによって、代替的に具体化することができる。
図2は、唇206及び口内の領域208を含むビジュアル特徴204が抽出される口の追跡202に使用される、例えばRGBカメラからのビジュアル入力200を示す。特徴204は、RGBカメラによって画像化された同じ人を画像化する動的ビジョンセンサ(DVS)212からのイベント信号210からのキーポイントによって増強され、イベント駆動型センサ(EDS)の原理に従って実装される。イベント信号210は、例えば、200で画像化された人の仮想アニメーションに使用され得る出力218を増強するために、低遅延出力216に使用され得るイベントベースオプティカルフロー214を生成するために使用され得る。
USPN7,728,269、及びZurich, SwitzerlandのiniVationAGからのhttps://inivation.com/dvpで開示している「Dynamic Vision Platform」のモノクロ強度及びDVSセンサの複合カメラは、両方とも参照により本明細書に組み込まれ、こうしたセンサを実装する際に参照することができる。
本開示と調和するEDSは、光感知アレイの少なくとも1つのピクセルによって感知された光強度の変化を示す出力を提供する。例えば、ピクセルによって感知される光が減少している場合、EDSの出力は-1になり得、その光が増加している場合、EDSの出力は+1になり得る。特定のしきい値を下回る光強度に変化がないことは、0の出力バイナリ信号によって示され得る。
図3は、さらに示す。人302によって装着され得る仮想現実(VR)及び/または拡張現実(AR)ヘッドマウントディスプレイ(HMD)300は、図1に示され、本明細書で説明されるコンポーネントのいずれかを組み込むことができる。図示の例では、HMD300は、部分的に透明なARディスプレイまたは不透明なVRディスプレイ等のディスプレイ304を含むことができる。HMD300はまた、人302の瞳孔312を含む目310を画像化するため、さらには人の眉毛314及び鼻316も画像化するために、左目用及び右目用のDVSカメラ306、ならびに左目用及び右目用のRGBカメラ308を含むことができる。
さらに、HMD300は、舌324及び歯326を含む、人302の口322を画像化するように向けられた口画像化用のDVS318及びRGBカメラ320を含み得る。また、HMD300は、人302の発話を検出するために、少なくとも1つのマイクロフォン328を含み得る。
表現330によって示されるように、上記のセンサは、タイムスタンプを付けて人302の顔の表現330を出力することができる信号を出力する。ディスプレイの輝度情報を使用して、画像化された瞳孔312の大きさを正規化することができる。
図4は、図3に示すセンサを使用する例示的実施態様を示す。図示の例では、オーディオセンサ302、RGBセンサ304、及びDVS306は、1つ以上のニューラルネットワーク(NN)402等のアルゴリズムを実行する人工知能(AI)チップ400によって実装され得るようなプロセッサに信号を送る。センサ306/308/318/320の出力は、まとめて融合され、NN402によって処理され、例えば、感情または発話を表す出力ラベルが、コンピュータゲームまたは他のアプリケーション404に送信される。オーディオセンサ328からのオーディオ信号は、NN402への入力の前にオーディオデジタル信号プロセッサ(DSP)によって最初に処理されてもよく、同様に、DVS306からの出力は、NN402への入力の前に適切に処理されてもよいことに留意されたい。非機械学習アルゴリズムを実行することもできる。
図示の例では、カメラと、EDSと、プロセッサ400とは全て、画像を含む画像を格納するためのローカルメモリを含み得る単一チップ406上に実装される。コンポーネントの処理は、単一のデジタル信号プロセッサ(DSP)によって実行され得る。いずれにせよ、プロセッサ400は、VRオブジェクト生成アルゴリズム等の1つ以上の外部アプリケーション404にラベルを出力する。
図5は、図1~図4と適合するさらなる詳細を示す。図5では、本明細書に記載のマイクロフォン(複数可)からのオーディオ入力500は、周波数領域への変換のために短時間フーリエ変換(STFT)502に送られる。STFT502は、1つ以上のオーディオ処理畳み込みニューラルネットワーク(CNN)504に信号を出力する。
本明細書に記載のRGBカメラ(複数可)からのビジュアル入力506は、画像認識エンジン508に送られて、上述の特徴のいずれか等の顔の特徴が抽出される。エンジン508の出力は、1つ以上のビジュアル処理CNN510に送られる。
本明細書で説明するDVS(複数可)のいずれか等のDVS512からのEDS入力は、フレームジェネレータ514に送られて、低遅延で高データレートの仮想フレームが生成され、それらは画像フィルタ516に送られて仮想フレームがフィルタリングされる。フィルタ516の出力517は、1つ以上のイベント処理CNN518に送信される。
図5に示すように、CNN504、510、518の出力は、CNNと共に分類器を構築する全結合層520に送られる。分類器の出力は、画像化されている人(例えば、図3の人302)の感情を検出して、話者認識等によって人を認識するために使用され得る。
「全結合層」520はネットワークの一部であり、そこでは全てのニューロンが次の層の全てのニューロンに接続する。分類器は、特徴ベクトル抽出用のCNNを含む。「全結合層」は、出力ラベルを与えるために最後の最後にある。本質的には、全結合入力層は、CNNの出力を受け取り、それらを単一のベクトルに「平坦化」するものであり、そのベクトルは次のステージに入力される。全結合層は、特徴に重みを適用してラベルを予測し、各ラベルに対して確率を付与する。
図6は、1つ以上の長・短期記憶(LSTM)604を含み得る再帰型ニューラルネットワーク602が、CNNの出力を受け取り、次いで全結合層520に信号を出力することを除いて、図5で説明したコンポーネントを、対象人物の口600を追跡するためのCNN504、510、及び518まで使用する代替アーキテクチャを示す。RNN602は、時間情報の符号化を提供する。
図6のアーキテクチャは、DVS(複数可)からの生のイベントデータとRGBカメラ及びオーディオのデータとを分類器への入力として融合して、モーションブラー、RGBカメラで画像化が困難な口の内側の領域、異なる照明条件、画像化しにくい歯、及び速い口の動きの影響を排する。
図5のアーキテクチャは、短期間のオーディオを含む1/2フレーム画像を処理することで感情を認識するのに十分であり、人の感情認識に特に有用であるが、限定的ではないことに留意されたい。一方、図6では、RNN602を追加して、オーディオビジュアル音声認識に役立つ分類器の一時メモリが提供される。したがって、図6は図5と同じ機能を提供できるが、時間情報用のRNNが追加されている。
図7は、目の領域を画像化することに関して、図5及び図6のCNN層の実施形態のさらなる例示を提供する。目の画像700は、図3に示されるHMD300、または本明細書の他の箇所で説明されるHMCのいずれかまたは両方によって生成される。画像から、まぶた及び眉毛の特徴702が抽出され、(ディスプレイの明るさに対して正規化された)瞳孔セグメンテーション704及び注視方向706も抽出される。DVSを使用すると、他の方法では検出が困難な口内の構造を検出でき、眼球の動き、唇/舌/歯の動き等を検出するために高速な、高ダイナミックレンジが促進される。これらは、人の感情を推定する際の重要な特質であり得る。DVS画像は、目の画像をセグメント化して眼振動を検出することと、口の画像をセグメント化して唇/舌/歯及びその動きを検出することとを容易にする。
図8は、全体的なロジックの例をフローチャート形式の例で示す。ブロック800で、画像化されている人からオーディオを受信する。ブロック802で、本明細書に記載のカメラのいずれかからRGB画像を受信し、ブロック804で、本明細書に記載のDVSのいずれかからイベント情報を受信する。3つ全てを、ブロック806で、本明細書で説明する分類器のいずれかに入力し、分類器は、ブロック808で、人の仮想画像をレンダリングするために、またはコンテキストを人の感情に合わせて調整することを含む他の目的のために、感情、口の動き、目の動き等を検出するのに有用な情報を出力する。
図9は、本明細書の分類器が、ブロック900で、オーディオ、RGB画像、及びイベント信号のグラウンドトゥルーストレーニングセット(複数可)を受け取り得ることを示す。グラウンドトゥルーストレーニングセットには、ラベル付けされた感情の出力または発話テキスト出力と組み合わされたオーディオ/ビジュアルクリップ及びEDSデータが含まれ得る。対応するグラウンドトゥルースの口の追跡、感情分類、視線追跡等もまたブロック902で提供する。トレーニングセットを使用して、分類器は、実データからの正しい出力を学習する。分類器は、(オーディオ/カメラ/イベントデータからの)3つの入力全てを使用して、例示的実施形態では分類器がRNN及びCNNを含んでいる状態で、トレーニングすることができる。
図10及び図11は、HMC1000が人1002によって着用されることがあり、内向きの画像化アセンブリ1004が、人1002の顔に向けられ、人の前に間隔をおいて配置され、それ以外は人1002の目が実世界を見ることを妨げられていないことを示す。アセンブリ1004は、舌1008及び歯1010がある口1006、鼻1012、眉毛1014、及び瞳孔1018を含む目1016、を含む人1002の顔の様々な部分を表すRGB信号及びDVS信号を生成する。
図11に示すように、画像化アセンブリ1004は、本明細書に記載の原理と調和する1つ以上のDVS撮像装置1100、1つ以上のRGBカメラ1102、及び1つ以上のマイクロフォン1104を含み得る。画像化アセンブリ1004内の様々なセンサからの信号は、人1002の顔(及び声)を表す出力1106の生成に合わせて相互に関連付けられ得るように、タイムスタンプが付けられる。
いくつかの例示的な実施形態を参照して本原理を説明したが、これらは限定することを意図しておらず、各種の代替的な構成が本明細書で特許請求される主題を実施するために使用されてよいことが理解されよう。

Claims (20)

  1. 顔の赤緑青(RGB)画像を生成するように構成された少なくとも1つのカメラユニットと、
    前記顔の照度の変化を表す信号を出力するように構成された少なくとも1つのイベント駆動型センサ(EDS)と、
    発話を表す信号を出力するように構成された少なくとも1つのマイクロフォンと、
    少なくとも1つのプロセッサであって、
    前記カメラユニット、前記EDS、及び前記マイクロフォンから信号を受信することと、
    少なくとも1つのニューラルネットワークを実行して、前記カメラユニット、前記EDS、及び前記マイクロフォンからの前記信号に基づいて、感情予測、前記顔の少なくとも一部分の追跡のうちの少なくとも1つを生成することと、
    を行うための実行可能命令で構成される、前記少なくとも1つのプロセッサと、
    を備えるアセンブリ。
  2. 前記カメラユニットは、赤外線(IR)画像を生成するように構成される、請求項1に記載のアセンブリ。
  3. 前記カメラユニット、前記プロセッサ、及び前記EDSは、単一チップ上に配置される、請求項1に記載のアセンブリ。
  4. 前記命令は、
    前記少なくとも1つのニューラルネットワークを実行して、前記カメラユニット、前記EDS、及び前記マイクロフォンからの前記信号に基づいて、感情予測を生成するように実行可能である、請求項1に記載のアセンブリ。
  5. 前記命令は、
    前記少なくとも1つのニューラルネットワークを実行して、前記カメラユニット、前記EDS、及び前記マイクロフォンからの前記信号に基づいて、前記顔の少なくとも一部分の追跡を生成するように実行可能である、請求項1に記載のアセンブリ。
  6. 前記一部分は、少なくとも一つの目の瞳孔を含む、請求項5に記載のアセンブリ。
  7. 前記一部分は、口角を含む、請求項5に記載のアセンブリ。
  8. 前記一部分は、歯を含む口の内部を含む、請求項5に記載のアセンブリ。
  9. 人の赤緑青(RGB)画像及び/または赤外線(IR)画像を生成するように構成された少なくとも1つのカメラユニットと、
    少なくとも1つのマイクロフォンと、
    前記人を表す信号を出力するように構成された少なくとも1つのイベント駆動型センサ(EDS)と、
    少なくとも1つのプロセッサであって、
    短時間フーリエ変換(STFT)を使用して前記マイクロフォンの出力を処理することと、
    少なくとも1つのオーディオ処理畳み込みニューラルネットワーク(CNN)を使用して前記STFTの出力を処理することと、
    少なくとも1つのビジュアル処理CNNを使用して、前記カメラユニットからの画像の少なくとも特徴を処理することと、
    少なくとも1つのイベント処理CNNを使用して、前記EDSからの出力信号の表現を処理することと、
    全結合型ニューラルネットワーク層における前記CNNの出力を融合して、
    前記人の感情の予測と、
    前記人の顔の少なくとも一部分の追跡と、
    前記人の少なくとも1つの仮想現実(VR)画像と、
    前記人の識別と、
    のうちの1つ以上を生成することと、
    を行うための命令でプログラムされる、前記少なくとも1つのプロセッサと、
    を備えるシステム。
  10. 前記プロセッサは、
    再帰型ニューラルネットワーク(RNN)を使用して前記CNNの出力を処理することと、
    前記人の口の追跡を生成するために、前記全結合型ニューラルネットワーク層を使用して前記RNNの出力を処理することと、
    を行うための命令で構成される、請求項9に記載のシステム。
  11. 前記プロセッサは、
    前記人の感情の予測を生成するための命令で構成される、請求項9に記載のシステム。
  12. 前記プロセッサは、
    前記人の前記顔の少なくとも一部分の追跡を生成するための命令で構成される、請求項9に記載のシステム。
  13. 前記プロセッサは、
    前記人の少なくとも1つの仮想現実(VR)画像を生成するための命令で構成される、請求項9に記載のシステム。
  14. 前記プロセッサは、
    前記人の識別を生成するための命令で構成される、請求項9に記載のシステム。
  15. 少なくとも1つのカメラユニットから信号を受信することと、
    少なくとも1つのイベント駆動型センサ(EDS)から信号を受信することと、
    少なくとも1つのマイクロフォンから信号を受信することと、
    少なくとも1つのニューラルネットワークを実行して、前記カメラユニット、前記EDS、及び前記マイクロフォンからの前記信号に基づいて、感情予測、顔の少なくとも一部分の追跡、人の識別、前記人の仮想現実(VR)画像の生成、のうちの少なくとも1つを生成することと、
    を含む方法。
  16. 少なくとも1つのニューラルネットワークを実行して、前記カメラユニット、前記EDS、及び前記マイクロフォンからの前記信号に基づいて、感情予測を生成することを含む、請求項15に記載の方法。
  17. 少なくとも1つのニューラルネットワークを実行して、前記カメラユニット、前記EDS、及び前記マイクロフォンからの前記信号に基づいて、前記顔の少なくとも一部分の追跡を生成することを含む、請求項15に記載の方法。
  18. 少なくとも1つのニューラルネットワークを実行して、前記カメラユニット、前記EDS、及び前記マイクロフォンからの前記信号に基づいて、人の識別を生成することを含む、請求項15に記載の方法。
  19. 少なくとも1つのニューラルネットワークを実行して、前記カメラユニット、前記EDS、及び前記マイクロフォンからの前記信号に基づいて、前記人の仮想現実(VR)画像の生成を生成することを含む、請求項15に記載の方法。
  20. 前記顔の前記一部分は、口角及び口の内部である、請求項17に記載の方法。
JP2022564808A 2020-05-11 2021-04-21 ビジュアルオーディオ処理用動的ビジョンセンサ Pending JP2023524411A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/871,901 US11475618B2 (en) 2020-05-11 2020-05-11 Dynamic vision sensor for visual audio processing
US16/871,901 2020-05-11
PCT/US2021/028446 WO2021231053A1 (en) 2020-05-11 2021-04-21 Dynamic vision sensor for visual audio processing

Publications (1)

Publication Number Publication Date
JP2023524411A true JP2023524411A (ja) 2023-06-12

Family

ID=78412960

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022564808A Pending JP2023524411A (ja) 2020-05-11 2021-04-21 ビジュアルオーディオ処理用動的ビジョンセンサ

Country Status (5)

Country Link
US (2) US11475618B2 (ja)
EP (1) EP4150521A4 (ja)
JP (1) JP2023524411A (ja)
CN (1) CN115485748A (ja)
WO (1) WO2021231053A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2957419A1 (es) * 2022-06-03 2024-01-18 Neurologyca Science & Marketing Sl Sistema y método de detección en tiempo real de estados emocionales mediante visión artificial y escucha del lenguaje natural
US11995226B2 (en) * 2022-06-10 2024-05-28 Sony Interactive Entertainment Inc. Dynamic vision sensor tracking based on light source occlusion

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11017250B2 (en) 2010-06-07 2021-05-25 Affectiva, Inc. Vehicle manipulation using convolutional image processing
US9600443B2 (en) * 2012-01-30 2017-03-21 International Business Machines Corporation Tracking entities by means of hash values
US10203762B2 (en) * 2014-03-11 2019-02-12 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
US9558062B2 (en) 2014-07-28 2017-01-31 Qualcomm Incorporated Cyclic redundancy check (CRC) false detection reduction in communication systems
DE102016110902A1 (de) 2015-06-14 2016-12-15 Facense Ltd. Head-Mounted-Devices zur Erfassung thermischer Messwerte
KR20170052976A (ko) * 2015-11-05 2017-05-15 삼성전자주식회사 모션을 수행하는 전자 장치 및 그 제어 방법
US10046229B2 (en) 2016-05-02 2018-08-14 Bao Tran Smart device
CN112534816B (zh) * 2018-08-14 2024-04-26 华为技术有限公司 用于视频图像编码的编码参数的基于事件自适应
KR20200093090A (ko) * 2019-01-07 2020-08-05 현대자동차주식회사 차량 및 그 제어방법
US11501532B2 (en) * 2019-04-25 2022-11-15 International Business Machines Corporation Audiovisual source separation and localization using generative adversarial networks
US11200881B2 (en) * 2019-07-26 2021-12-14 International Business Machines Corporation Automatic translation using deep learning

Also Published As

Publication number Publication date
US11967087B2 (en) 2024-04-23
WO2021231053A1 (en) 2021-11-18
EP4150521A1 (en) 2023-03-22
US20210350602A1 (en) 2021-11-11
EP4150521A4 (en) 2024-05-01
US20230068416A1 (en) 2023-03-02
CN115485748A (zh) 2022-12-16
US11475618B2 (en) 2022-10-18

Similar Documents

Publication Publication Date Title
US11281709B2 (en) System and method for converting image data into a natural language description
US11967087B2 (en) Dynamic vision sensor for visual audio processing
US11640519B2 (en) Systems and methods for domain adaptation in neural networks using cross-domain batch normalization
US20200134424A1 (en) Systems and methods for domain adaptation in neural networks using domain classifier
JPWO2018155026A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN113574525A (zh) 媒体内容推荐方法及设备
CN111699529A (zh) 用于社交虚拟现实(vr)的面部动画
JP7356596B2 (ja) 仮想及び拡張現実hmdシステムにおける高速予測追跡及びレイテンシ補償のための光強度ベースのcmos及びイベント検出センサの組み合わせ
US20240168548A1 (en) Dynamic content presentation for extended reality systems
US11756251B2 (en) Facial animation control by automatic generation of facial action units using text and speech
JP6969577B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US20200402253A1 (en) Head pose estimation
US11798204B2 (en) Systems and methods of image processing based on gaze detection
CN113849142B (zh) 图像展示方法、装置、电子设备及计算机可读存储介质
EP4329320A1 (en) Method and apparatus for video playback
US20230410378A1 (en) Systems and methods for user persona management in applications with virtual content
TW202414341A (zh) 自動成像域轉移的系統和方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221025

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231031

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240510