JP2023524411A

JP2023524411A - ビジュアルオーディオ処理用動的ビジョンセンサ

Info

Publication number: JP2023524411A
Application number: JP2022564808A
Authority: JP
Inventors: イエ、シャオヨン; 勇一郎中村
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2020-05-11
Filing date: 2021-04-21
Publication date: 2023-06-12
Also published as: US11967087B2; WO2021231053A1; EP4150521A1; US20210350602A1; EP4150521A4; US20230068416A1; CN115485748A; US11475618B2

Abstract

【課題】発話中に口角及び歯等のいくつかの困難な顔の特徴を追跡するために、カメラセンサシステム（２１２／３０６／３０８／３１８／３２０）がＲＧＢ／ＩＲ画像を生成する。【解決手段】このシステムはまた、イベント駆動型センサ（ＥＤＳ）（２１２／３０６／３１８）からの光強度変化信号を使用し、さらにはマイクロフォン（３２８）からの信号を使用した音声分析も使用する。このようにして、カメラセンサシステムは、より小さな帯域幅とより少ない消費電力とで（超高速度カメラを使用するのと同等の）改善された性能の追跡を可能にする。【選択図】図１

Description

本出願は、一般に、コンピュータ技術に必然的に根差し、具体的な技術的改善をもたらす、技術的に独創的で非定型的な解決策に関する。

騒がしい環境での話者の識別、または偽のビデオの検出、または曖昧さを解消する音声認識、またはアニメーション、またはその他の目的のために、発話中に顔追跡を実行するとき、口の中の暗い領域、歯等の顔の一部、及び発話中の顔の構造の速い動きは、正確な追跡の障害となる。

上記によってもたらされる技術的な課題は、より良い動作のためには、遅延を減らし追跡性能を向上させるために高速カメラが必要な場合があり、カメラデータのフレームレートを増加させる必要があるが、そのような高フレームレートでは、より大きな帯域幅及び処理と、したがって比較的大量の電力消費及び熱の発生が必要とされることである。

本明細書で述べた課題に対処するために、ＲＧＢ画像及びＩＲ画像を取り込むために、カラーフィルタ下及び必要に応じて赤外線フィルタ下に両方の光強度フォトダイオードが備えられたセンサセルだけでなく、イベント駆動型センサ（ＥＤＳ）の原理によって動きを検出するＥＤＳ感知セルも含むカメラセンサシステムが提供される。ＥＤＳは、１つ以上のカメラピクセルによって感知された光強度の変化を動きの指標として使用する。ＥＤＳは、ＲＧＢカメラと比較して、高ダイナミックレンジ（ＨＤＲ）を有し、モーションブラーがなく、遅延が少ない。ＥＤＳ情報がＲＧＢカメラ情報及びオーディオ情報と融合すると、トラッキングがより堅牢になる。速い動き（例えば、口の動き）またはＨＤＲの状況では、より多くカメラ画像に依存する状況である遅い動き及び細部（色、テクスチャ）の状況よりも、比較的多くＥＤＳ情報に依存する可能性がある。このような融合は、顔追跡、視標追跡、及び感情認識にも適用できる。

本原理では、ＥＤＳからの生のイベントデータを使用して、ＲＧＢカメラ及びオーディオのデータと融合し、その後分類器に入力する。分類器は、オーディオ／カメラ／イベントデータからの３つの入力全てのトレーニングセットを使用して、一部の実施態様では、畳み込み層を備えた再帰型ニューラルネットワークを使用して、トレーニングされる。

したがって、アセンブリが、顔の赤緑青（ＲＧＢ）画像を生成するように構成された少なくとも１つのカメラユニットを含む。本アセンブリは、顔の照度の変化を表す信号を出力するように構成された少なくとも１つのイベント駆動型センサ（ＥＤＳ）をさらに含む。少なくとも１つのマイクロフォンが、発話を表す信号を出力するように構成される。さらに、このアセンブリは、カメラユニット、ＥＤＳ、及びマイクロフォンから信号を受信するように実行可能命令で構成される少なくとも１つのプロセッサを含む。この命令は、少なくとも１つのニューラルネットワークを実行して、カメラユニット、ＥＤＳ、及びマイクロフォンからの信号に基づいて、感情予測、顔の少なくとも一部分の追跡のうちの少なくとも１つを生成するように実行可能である。

いくつかの例では、カメラユニットは、赤外線（ＩＲ）画像を生成するように構成される。

例示的な実施態様では、カメラユニット、プロセッサ、及びＥＤＳは、単一チップ上に配置され得る。

非限定的な実施形態では、追跡される顔の一部分は、１つ以上の目、具体的には１つ以上の瞳孔であり得、瞳孔に限定され得るか、または他の顔の特徴を含み得る。他の実施形態では、その一部分は、口角を含み、口角及び／または歯を含む口の内部に限定されることがあり、または追加の顔の特徴を含むこともある。

別の態様では、システムが、人の赤緑青（ＲＧＢ）画像及び／または赤外線（ＩＲ）画像を生成するように構成された少なくとも１つのカメラユニットを含む。本システムはまた、少なくとも１つのマイクロフォンと、人を表す信号を出力するように構成された少なくとも１つのイベント駆動型センサ（ＥＤＳ）とを含む。このシステムはさらに、短時間フーリエ変換（ＳＴＦＴ）を使用してマイクロフォンの出力を処理し、少なくとも１つのオーディオ処理畳み込みニューラルネットワーク（ＣＮＮ）を使用してＳＴＦＴの出力を処理するように命令をプログラムされる少なくとも１つのプロセッサを含む。この命令は、少なくとも１つのビジュアル処理ＣＮＮを使用して、カメラユニットからの画像の少なくとも特徴を処理するように実行可能である。さらに、命令は、少なくとも１つのイベント処理ＣＮＮを使用して、ＥＤＳからの出力信号の表現を処理するように実行可能である。システム内の命令は、全結合型ニューラルネットワーク層におけるＣＮＮの出力を融合して、人の感情の予測、人の顔の少なくとも一部分の追跡、人の少なくとも１つの仮想現実（ＶＲ）画像、及び人の識別のうちの１つ以上を生成するように実行することができる。

この後者の態様の一例では、プロセッサは、再帰型ニューラルネットワーク（ＲＮＮ）を使用してＣＮＮの出力を処理することと、人の口の追跡を生成するために、全結合型ニューラルネットワーク層を使用してＲＮＮの出力を処理することと、を行うように命令で構成され得る。

別の態様では、方法が、少なくとも１つのカメラユニットから信号を受信することと、少なくとも１つのイベント駆動型センサ（ＥＤＳ）から信号を受信することと、少なくとも１つのマイクロフォンから信号を受信することとを含む。この方法は、少なくとも１つのニューラルネットワークを実行して、カメラユニット、ＥＤＳ、及びマイクロフォンからの信号に基づいて、感情予測、顔の少なくとも一部分の追跡、人の識別、人の仮想現実（ＶＲ）画像の生成のうちの少なくとも１つを生成することを含む。

本出願の詳細は、その構造及び動作の両方に関して、添付図面を参照して最もよく理解することができ、図面中、同様の参照番号は同様の部分を指す。

本原理による例を含む例示的なシステムのブロック図である。簡略化されたセンサデータフローを示す。追跡されている人の顔に関連してセンサを示す。システム例をブロック図形式で示す。感情認識または話者認識のためのＲＧＢ入力、オーディオ入力、及びＥＤＳ入力からのデータフローを示す。音声認識のための別の分類器アーキテクチャを示す。ヘッドマウントディスプレイ（ＨＭＤ）またはヘッドマウントカメラ（ＨＭＣ）上のカメラからの顔追跡情報を示す。追跡ロジックの例をフローチャート形式の例で示す。トレーニングロジックの例をフローチャート形式の例で示す。ＨＭＣの例を示す。図１０のＨＣＭによって画像化された顔の特徴を示す。

本開示は、一般に、コンピュータゲームネットワーク等のコンピュータシミュレーションネットワーク等であるが限定されない家電製品（ＣＥ）デバイスネットワークだけでなく、スタンドアロンのコンピュータシミュレーションシステムの態様を含むコンピュータエコシステムに関する。本明細書のシステムは、クライアントコンポーネントとサーバコンポーネントとの間でデータが交換され得るようにネットワークを介して接続されたサーバコンポーネント及びクライアントコンポーネントを含み得る。クライアントコンポーネントは、ＳｏｎｙＰｌａｙＳｔａｔｉｏｎ（登録商標）等のゲーム機、あるいはＭｉｃｒｏｓｏｆｔ（登録商標）もしくはＮｉｎｔｅｎｄｏ（登録商標）または他の製造者によって作成されたゲーム機、仮想現実（ＶＲ）ヘッドセット、拡張現実（ＡＲ）ヘッドセット、ポータブルテレビ（例えば、スマートテレビ、インターネット対応テレビ）、ラップトップ及びタブレットコンピュータ等のポータブルコンピュータ、ならびにスマートフォン及び下記に説明される追加の例を含む他のモバイルデバイス、を含む１つ以上のコンピューティングデバイスを含み得る。これらのクライアントデバイスは、様々な動作環境で動作し得る。例えば、クライアントコンピュータの一部は、例として、Ｌｉｎｕｘ（登録商標）オペレーティングシステム、Ｍｉｃｒｏｓｏｆｔ（登録商標）のオペレーティングシステム、またはＵｎｉｘ（登録商標）オペレーティングシステム、またはＡｐｐｌｅＣｏｍｐｕｔｅｒ（登録商標）もしくはＧｏｏｇｌｅ（登録商標）によって製造されたオペレーティングシステムを使用し得る。これらの動作環境を使用して、Ｍｉｃｒｏｓｏｆｔ（登録商標）もしくはＧｏｏｇｌｅ（登録商標）もしくはＭｏｚｉｌｌａ（登録商標）によって作成されたブラウザ、または下記に説明されるインターネットサーバによってホストされるウェブサイトにアクセスできる他のブラウザプログラム等の１つ以上の閲覧プログラムを実行し得る。また、１つ以上のコンピュータゲームプログラムを実行するために、本原理による動作環境が用いられ得る。

サーバ及び／またはゲートウェイは、インターネット等のネットワークを介してデータの受信及び送信を行うようにサーバを構成する命令を実行する１つ以上のプロセッサを含み得る。または、クライアント及びサーバは、ローカルイントラネットまたは仮想プライベートネットワークを介して接続することができる。サーバまたはコントローラは、ＳｏｎｙＰｌａｙＳｔａｔｉｏｎ（登録商標）等のゲーム機、パーソナルコンピュータ等によってインスタンス化され得る。

情報は、クライアントとサーバとの間でネットワークを介して交換され得る。この目的のために及びセキュリティのために、サーバ及び／またはクライアントは、ファイアウォール、ロードバランサ、テンポラリストレージ、及びプロキシ、ならびに信頼性及びセキュリティのための他のネットワークインフラストラクチャを含み得る。１つ以上のサーバは、ネットワークメンバーにオンラインソーシャルウェブサイト等のセキュアコミュニティを提供する方法を実施する装置を形成し得る。

本明細書で使用される場合、命令は、システムにおいて情報を処理するためにコンピュータにより実施されるステップを指す。命令は、ソフトウェア、ファームウェア、またはハードウェアで実施され、システムのコンポーネントにより実行される任意の種類のプログラム化されたステップを含み得る。

プロセッサは、アドレス線、データ線、及び制御線等の各種の線、ならびにレジスタ及びシフトレジスタによってロジックを実行できる、従来の任意の汎用シングルチッププロセッサまたは汎用マルチチッププロセッサであり得る。

本明細書でフローチャート及びユーザインタフェースによって記述されるソフトウェアモジュールは、様々なサブルーチン、手順等を含み得る。本開示を限定することなく、特定のモジュールによって実行されるように規定されたロジックは、他のソフトウェアモジュールに再分配すること、及び／または単一のモジュールにまとめて集約すること、及び／または共有可能ライブラリで利用できるようにすることが可能である。

本明細書に記載された本原理は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの組み合わせとして実装することができる。したがって、実例となるコンポーネント、ブロック、モジュール、回路、及びステップは、それらの機能性の観点から説明されている。

さらに上記に示唆したものについて、以下に説明される論理ブロック、モジュール、及び回路は、汎用プロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）もしくは特定用途向け集積回路（ＡＳＩＣ）等の他のプログラマブル論理デバイス、個別ゲートもしくはトランジスタロジック、個別ハードウェアコンポーネント、または本明細書に説明される機能を行うように設計されたそれらのいずれかの組み合わせによって実装または実行することができる。プロセッサは、コントローラもしくは状態機械、またはコンピューティングデバイスの組み合わせによって実装することができる。

以下で説明される機能及び方法は、ソフトウェアにおいて実装されるとき、限定ではないが、Ｊａｖａ（登録商標）、Ｃ＃、またはＣ＋＋等の適切な言語において記述することができ、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、コンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、またはデジタル多用途ディスク（ＤＶＤ）等の他の光ディスクストレージ、磁気ディスクストレージもしくは着脱可能サムドライブ等を含む他の磁気記憶装置等のコンピュータ可読記憶媒体に記憶することができ、またはそれらを通して伝送することができる。接続は、コンピュータ可読媒体を確立し得る。このような接続は、例として、光ファイバ、同軸ワイヤ、デジタル加入者回線（ＤＳＬ）、及びツイストペアワイヤを含む有線ケーブルを含み得る。そのような接続は、赤外線及び無線機を含む無線通信接続を含んでもよい。

ある実施形態に含まれるコンポーネントを、他の実施形態において任意の適切な組み合わせで使用することができる。例えば、本明細書で説明される、及び／または図に描かれる様々なコンポーネントのいずれも、組み合わされてもよく、交換されてもよく、または他の実施形態から除外されてもよい。

「Ａ、Ｂ、及びＣの少なくとも１つを有するシステム」（同様に「Ａ、Ｂ、またはＣの少なくとも１つを有するシステム」及び「Ａ、Ｂ、Ｃのうちの少なくとも１つを有するシステム」）は、Ａを単独で、Ｂを単独で、Ｃを単独で、Ａ及びＢを一緒に、Ａ及びＣを一緒に、Ｂ及びＣを一緒に、及び／またはＡ、Ｂ、及びＣを一緒に有するシステム等を含む。

ここで具体的に図１を参照すると、例示的なシステム１０が示されており、このシステムは、本原理による、上で述べられかつ以下に詳述される、例示的なデバイスの１つ以上を含むことができる。システム１０に含まれる例示的なデバイスのうちの第１のデバイスは、ＴＶチューナ（同等にＴＶを制御するセットトップボックス）を備えたインターネット対応ＴＶ等のこれに限定されないオーディオビデオデバイス（ＡＶＤ）１２といった一般消費者向け電子製品（ＣＥ）デバイスである。しかし、ＡＶＤ１２は、代わりに、電気器具または家庭用品、例えば、コンピュータ制御でインターネット対応の冷蔵庫、洗濯機、または乾燥機であってよい。あるいは、ＡＶＤ１２はまた、コンピュータ制御型インターネット対応（「スマート」）電話、タブレットコンピュータ、ノートブックコンピュータ、拡張現実（ＡＲ）ヘッドセット、仮想現実（ＶＲ）ヘッドセット、インターネット対応グラスまたはスマートグラス、例えば、コンピュータ制御型インターネット対応時計、コンピュータ制御型インターネット対応ブレスレット、他のコンピュータ制御型インターネット対応デバイス等の別の種類のウェアラブルコンピュータ制御デバイス、コンピュータ制御型インターネット対応ミュージックプレーヤ、コンピュータ制御型インターネット対応ヘッドフォン、インプラント可能な皮膚用デバイス等のコンピュータ制御型インターネット対応のインプラント可能なデバイス等であってよい。いずれにしても、ＡＶＤ１２は、本原理を実施する（例えば、本原理を実施するように他のＣＥデバイスと通信し、本明細書に説明されるロジックを実行し、本明細書に説明されるいずれかの他の機能及び／または動作を行う）ように構成されることを理解されたい。

したがって、このような原理を実施するために、ＡＶＤ１２は、図１に示すコンポーネントの一部または全てによって確立され得る。例えば、ＡＶＤ１２は、高解像度フラットスクリーンまたは「４Ｋ」以上の超高解像度フラットスクリーンによって実装してもよく、ユーザ入力信号をディスプレイ上のタッチを介して受け取るためのタッチ対応であってもよい、１つ以上のディスプレイ１４を含むことが可能である。ＡＶＤ１２は、本原理に従ってオーディオを出力するための１つ以上のスピーカ１６と、例えば、可聴コマンドをＡＶＤ１２に入力して、ＡＶＤ１２を制御するための、例えば、オーディオ受信機／マイクロフォン等の少なくとも１つの追加の入力デバイス１８とを備え得る。例示的なＡＶＤ１２は、また、１つ以上のプロセッサ２４の制御下でインターネット、ＷＡＮ、ＬＡＮ等の少なくとも１つのネットワーク２２を介して通信するための１つ以上のネットワークインタフェース２０を含み得る。グラフィックプロセッサ２４Ａを含んでいてもよい。したがって、インタフェース２０は、限定ではないが、Ｗｉ－Ｆｉ送受信機であり得、Ｗｉ－Ｆｉ（登録商標）送受信機は、限定するものではないが、メッシュネットワーク送受信機等の無線コンピュータネットワークインタフェースの実施例である。プロセッサ２４は、例えば、ディスプレイ１４を、画像を提示するように制御することや、そこから入力を受信すること等の本明細書に説明されるＡＶＤ１２の他の要素を含む、本原理を実施するようにＡＶＤ１２を制御することが理解されよう。さらに、ネットワークインタフェース２０は、例えば、有線もしくは無線のモデムもしくはルータ、または、例えば、無線テレフォニ送受信機もしくは上述したＷｉ－Ｆｉ送受信機等の他の適切なインタフェースであってよいことに留意されたい。

上記に加えて、ＡＤＶ１２はまた、例えば、別のＣＥデバイスに（例えば、有線接続を使用して）物理的に接続するための高精細マルチメディアインタフェース（ＨＤＭＩ（登録商標））ポートもしくはＵＳＢポート、及び／またはヘッドフォンを通してＡＤＶ１２からユーザにオーディオを提供するためにＡＤＶ１２にヘッドフォンを接続するためのヘッドフォンポート等の１つ以上の入力ポート２６を含み得る。例えば、入力ポート２６は、オーディオビデオコンテンツのケーブルまたは衛星ソース２６ａに、有線または無線を介して接続され得る。したがって、ソース２６ａは、例えば、分離もしくは統合されたセットトップボックス、またはサテライト受信機であり得る。あるいは、ソース２６ａは、さらに後ほど説明するチャンネル割り当ての目的のためにユーザによってお気に入りとみなされる可能性があるコンテンツを含むゲーム機またはディスクプレーヤであってもよい。ソース２６ａは、ゲーム機として実装されるとき、ＣＥデバイス４４に関連して以下で説明されるコンポーネントのいくつかまたは全てを含んでもよい。

ＡＶＤ１２は、ディスクベースまたはソリッドステート記憶装置等の１つ以上のコンピュータメモリ２８であって、一時的信号でなく、場合により、スタンドアロンデバイスとしてＡＶＤのシャーシに具現化され、またはＡＶＤのシャーシの内部もしくは外部のいずれかでＡＶプログラムを再生するためのパーソナルビデオレコーディングデバイス（ＰＶＲ）もしくはビデオディスクプレーヤとして具現化され、またはリムーバブルメモリ媒体として具現化されるコンピュータメモリ２８をさらに含んでもよい。また、いくつかの実施形態では、ＡＶＤ１２は、限定されるものではないが、例えば、少なくとも１つの衛星または携帯電話塔から地理的位置情報を受信し、その情報をプロセッサ２４に提供するように構成され、及び／またはＡＶＤ１２がプロセッサ２４と併せて配置される高度を判定するように構成される携帯電話受信機、ＧＰＳ受信機、及び／または高度計３０等の位置または場所の受信機を含み得る。しかし、例えば３つの次元全てにおいて、例えば、ＡＶＤ１２の場所を判定するために、本原理に従って、携帯電話受信機、ＧＰＳ受信機、及び／または高度計以外の別の適切な位置受信機が使用され得ることを理解されたい。

ＡＶＤ１２の説明を続けると、ある実施形態では、ＡＶＤ１２は、１つ以上のカメラ３２を備えてよく、１つ以上のカメラ３２は、例えば、サーマルイメージングカメラ、ウェブカメラ等のデジタルカメラ、及び／またはＡＶＤ１２に統合され、本原理に従って写真／画像及び／またはビデオを収集するようプロセッサ２４によって制御可能なカメラであってよい。ＡＶＤ１２にはまた、ブルートゥース及び／または近距離無線通信（ＮＦＣ）技術をそれぞれ使用した他のデバイスとの通信のためのブルートゥース送受信機３４及び他のＮＦＣ素子３６が含まれ得る。例示のＮＦＣ素子は、無線周波数識別（ＲＦＩＤ）素子であってもよい。

さらにまた、ＡＶＤ１２は、プロセッサ２４に入力を提供する１つ以上の補助センサ３７（例えば、加速度計、ジャイロスコープ、サイクロメータ等の運動センサ、または磁気センサ、赤外線（ＩＲ）センサ、光学センサ、速度センサ及び／またはケイデンスセンサ、ジェスチャセンサ（例えば、ジェスチャコマンドを検知するためのセンサ）等）を含み得る。ＡＶＤ１２は、プロセッサ２４への入力をもたらすＯＴＡ（無線経由）ＴＶ放送を受信するための無線経由テレビ放送ポート３８を含み得る。前述に加えて、ＡＶＤ１２はまた、赤外線データ協会（ＩＲＤＡ）デバイス等の赤外線（ＩＲ）送信機及び／またはＩＲ受信機及び／またはＩＲ送受信機４２を含み得ることに留意されたい。ＡＶＤ１２に給電するためのバッテリ（図示せず）が備えられてよい。

さらに図１を参照すると、ＡＶＤ１２に加えて、システム１０は、１つ以上の他のＣＥデバイスタイプを含んでもよい。一実施例では、コンピュータゲームのオーディオ及びビデオを、ＡＶＤ１２に直接送信されるコマンドを介して、及び／または後述のサーバを通じて、ＡＶＤ１２に送信するために、第１のＣＥデバイス４４が使用され得、第１のＣＥデバイス４４と同様のコンポーネントを第２のＣＥデバイス４６が含み得る。示される例では、第２のＣＥデバイス４６は、図示されるようにプレーヤ４７が装着するＡＲヘッドセットとして構成され得る。図示した例では、２つのＣＥデバイス４４、４６のみを示しているが、より少ないデバイスまたはより多いデバイスを使用してもよいことが理解されよう。

示される例では、本原理を示すために、３つ全てのデバイス１２、４４、４６は、例えば家庭のエンターテインメントネットワークのメンバーであるか、または少なくとも、住宅等の場所において相互に近接して存在していると想定される。しかし、本原理は、他に明確に主張されない限り、破線４８によって示される特定の場所に限定されない。

例示の非限定的な第１のＣＥデバイス４４は、上述のデバイス、例えば、ポータブル無線ラップトップコンピュータもしくはノートブックコンピュータ、またはゲームコントローラのいずれか１つによって確立されてもよく、そのために、以下で説明される１つ以上のコンポーネントを有してもよい。第１のＣＥデバイス４４は、例えば、ＡＶ再生コマンド及び一時停止コマンドをＡＶＤ１２に発行するためのリモート制御（ＲＣ）であってもよく、またはタブレットコンピュータ、有線もしくは無線リンクを介してＡＶＤ１２及び／またはゲーム機と通信するゲームコントローラ、パーソナルコンピュータ、無線電話等のより高性能のデバイスであってもよい。第２のＣＥデバイス４６は、ヘッドマウントディスプレイ（ＨＭＤ）またはヘッドマウントカメラ（ＨＭＣ）によって実施されてもよい。

したがって、第１のＣＥデバイス４４は、ユーザ入力信号をディスプレイ５０上のタッチを介して受信するためのタッチ対応であってもよい、１つ以上のディスプレイ５０を含んでもよい。第１のＣＥデバイス４４は、本原理に従ってオーディオを出力するための１つ以上のスピーカ５２と、例えば、可聴コマンドを第１のＣＥデバイス４４に入力して、デバイス４４を制御するための、例えば、オーディオ受信機／マイクロフォン等の少なくとも１つの追加の入力デバイス５４と、を備え得る。例示の第１のＣＥデバイス４４はまた、１つ以上のＣＥデバイスプロセッサ５８の制御下で、ネットワーク２２を介して通信するための１つ以上のネットワークインタフェース５６を含み得る。グラフィックプロセッサ５８Ａを含んでいてもよい。したがって、インタフェース５６は、限定ではないが、Ｗｉ－Ｆｉ送受信機であり得、Ｗｉ－Ｆｉ送受信機は、メッシュネットワークインタフェースを含む無線コンピュータネットワークインタフェースの実施例である。プロセッサ５８は、例えば、ディスプレイ５０を、画像を提示するように制御することや、そこから入力を受信すること等の本明細書に説明される第１のＣＥデバイス４４の他の要素を含む、本原理を実施するように第１のＣＥデバイス４４を制御することが理解されよう。さらに、ネットワークインタフェース５６は、例えば、有線もしくは無線のモデムもしくはルータ、または、例えば、無線テレフォニ送受信機もしくは上述したＷｉ－Ｆｉ送受信機等の他の適切なインタフェースであってよいことに留意されたい。

上記に加えて、第１のＣＥデバイス４４はまた、例えば、別のＣＥデバイスに（例えば、有線接続を使用して）物理的に接続するためのＨＤＭＩポートもしくはＵＳＢポート、及び／またはヘッドフォンを通して第１のＣＥデバイス４４からユーザにオーディオを提供するために第１のＣＥデバイス４４にヘッドフォンを接続するためのヘッドフォンポート等の１つ以上の入力ポート６０を含み得る。第１のＣＥデバイス４４は、さらに、ディスクベースストレージまたはソリッドステートストレージ等の１つ以上の有形コンピュータ可読記憶媒体６２を備えてよい。また、いくつかの実施形態では、第１のＣＥデバイス４４は、限定するものではないが、例えば、三角測量を使用して、少なくとも１つの衛星及び／または携帯電話塔から地理的位置情報を受信し、その情報をＣＥデバイスプロセッサ５８に提供するように構成され、及び／または第１のＣＥデバイス４４がＣＥデバイスプロセッサ５８と併せて配置される高度を判定するように構成される、携帯電話及び／またはＧＰＳ受信機及び／または高度計６４等の位置または場所の受信機を含むことができる。しかしながら、携帯電話及び／またはＧＰＳ受信機及び／または高度計以外の別の好適な位置受信機を本原理に従って使用して、例えば、第１のＣＥデバイス４４の位置を例えば３つの次元全てにおいて決定できることを理解されたい。

第１のＣＥデバイス４４の説明を続けると、ある実施形態では、第１のＣＥデバイス４４は、１つ以上のカメラ６６を備えてよく、１つ以上のカメラ６６は、例えば、サーマルイメージングカメラ、ウェブカメラ等のデジタルカメラ、及び／または第１のＣＥデバイス４４に統合され、本原理に従って写真／画像及び／またはビデオを収集するようにＣＥデバイスプロセッサ５８によって制御可能であるカメラであってよい。第１のＣＥデバイス４４にはまた、ブルートゥース（登録商標）及び／または近距離無線通信（ＮＦＣ）技術をそれぞれ使用した他のデバイスとの通信のためのブルートゥース（登録商標）送受信機６８及び他のＮＦＣ素子７０が含まれ得る。例示のＮＦＣ素子は、無線周波数識別（ＲＦＩＤ）素子であってもよい。

さらにまた、第１のＣＥデバイス４４は、ＣＥデバイスプロセッサ５８に入力を提供する１つ以上の補助センサ７２（例えば、加速度計、ジャイロスコープ、サイクロメータ等の運動センサ、または磁気センサ、赤外線（ＩＲ）センサ、光学センサ、速度センサ及び／またはケイデンスセンサ、ジェスチャセンサ（例えば、ジェスチャコマンドを検知するためのセンサ）等）を含み得る。第１のＣＥデバイス４４は、ＣＥデバイスプロセッサ５８に入力を提供する、例えば、１つ以上の気候センサ７４（例えば、気圧計、湿度センサ、風センサ、光センサ、温度センサ等）及び／または１つ以上の生体認証センサ７６等のさらに他のセンサを備えてよい。前述に加えて、いくつかの実施形態では、第１のＣＥデバイス４４はまた、赤外線データ協会（ＩＲＤＡ）デバイス等の赤外線（ＩＲ）送信機及び／またはＩＲ受信機及び／またはＩＲ送受信機７８を含み得ることに留意されたい。第１のＣＥデバイス４４に給電するためのバッテリ（図示せず）が備えられてよい。ＣＥデバイス４４は、上記の通信モード及び関連コンポーネントのいずれかを介してＡＶＤ１２と通信し得る。

第２のＣＥデバイス４６は、ＣＥデバイス４４について示したコンポーネントの一部または全部を含むことができる。一方または両方のＣＥデバイスは、１つ以上のバッテリにより電力供給され得る。

次に、上記の少なくとも１つのサーバ８０についてであるが、このサーバ８０は、少なくとも１つのサーバプロセッサ８２と、ディスクベースまたはソリッドステート記憶装置等の少なくとも１つの有形コンピュータ可読記憶媒体８４と、サーバプロセッサ８２の制御下で、ネットワーク２２を通じて図１の他のデバイスとの通信を可能にし、実際に、本原理に従ってサーバとクライアントデバイスとの間の通信を促進し得る少なくとも１つのネットワークインタフェース８６とを含む。ネットワークインタフェース８６は、例えば、有線もしくは無線のモデムもしくはルータ、Ｗｉ－Ｆｉ（登録商標）送受信機、または、例えば、無線テレフォニ送受信機等の他の適切なインタフェースであり得ることに留意されたい。

したがって、いくつかの実施形態では、サーバ８０は、インターネットサーバまたはサーバ「ファーム」全体であってもよく、システム１０のデバイスは、例えばネットワークゲームアプリケーションについての例示的な実施形態においてサーバ８０を介して「クラウド」環境にアクセスし得るように「クラウド」機能を含み、実行し得る。あるいは、サーバ８０は、図１に示す他のデバイスと同じ部屋かまたはその近くにある１つ以上のゲーム機または他のコンピュータによって実装されてもよい。

本明細書の方法は、プロセッサ、適切に構成される特定用途向け集積回路（ＡＳＩＣ）もしくはフィールドプログラマブルゲートアレイ（ＦＰＧＡ）モジュール、または当業者によって認識されるであろうようないずれかの他の便利な様式によって実行されるソフトウェア命令として実施され得る。使用される場合、ソフトウェア命令は、ＣＤＲＯＭまたはフラッシュドライブ等の非一時的デバイスにおいて具体化され得る。あるいはソフトウェアコード命令は、無線信号もしくは光信号等の一時的な配置において、またはインターネット上でのダウンロードによって、代替的に具体化することができる。

図２は、唇２０６及び口内の領域２０８を含むビジュアル特徴２０４が抽出される口の追跡２０２に使用される、例えばＲＧＢカメラからのビジュアル入力２００を示す。特徴２０４は、ＲＧＢカメラによって画像化された同じ人を画像化する動的ビジョンセンサ（ＤＶＳ）２１２からのイベント信号２１０からのキーポイントによって増強され、イベント駆動型センサ（ＥＤＳ）の原理に従って実装される。イベント信号２１０は、例えば、２００で画像化された人の仮想アニメーションに使用され得る出力２１８を増強するために、低遅延出力２１６に使用され得るイベントベースオプティカルフロー２１４を生成するために使用され得る。

ＵＳＰＮ７，７２８，２６９、及びＺｕｒｉｃｈ，ＳｗｉｔｚｅｒｌａｎｄのｉｎｉＶａｔｉｏｎＡＧからのｈｔｔｐｓ：／／ｉｎｉｖａｔｉｏｎ．ｃｏｍ／ｄｖｐで開示している「ＤｙｎａｍｉｃＶｉｓｉｏｎＰｌａｔｆｏｒｍ」のモノクロ強度及びＤＶＳセンサの複合カメラは、両方とも参照により本明細書に組み込まれ、こうしたセンサを実装する際に参照することができる。

本開示と調和するＥＤＳは、光感知アレイの少なくとも１つのピクセルによって感知された光強度の変化を示す出力を提供する。例えば、ピクセルによって感知される光が減少している場合、ＥＤＳの出力は－１になり得、その光が増加している場合、ＥＤＳの出力は＋１になり得る。特定のしきい値を下回る光強度に変化がないことは、０の出力バイナリ信号によって示され得る。

図３は、さらに示す。人３０２によって装着され得る仮想現実（ＶＲ）及び／または拡張現実（ＡＲ）ヘッドマウントディスプレイ（ＨＭＤ）３００は、図１に示され、本明細書で説明されるコンポーネントのいずれかを組み込むことができる。図示の例では、ＨＭＤ３００は、部分的に透明なＡＲディスプレイまたは不透明なＶＲディスプレイ等のディスプレイ３０４を含むことができる。ＨＭＤ３００はまた、人３０２の瞳孔３１２を含む目３１０を画像化するため、さらには人の眉毛３１４及び鼻３１６も画像化するために、左目用及び右目用のＤＶＳカメラ３０６、ならびに左目用及び右目用のＲＧＢカメラ３０８を含むことができる。

さらに、ＨＭＤ３００は、舌３２４及び歯３２６を含む、人３０２の口３２２を画像化するように向けられた口画像化用のＤＶＳ３１８及びＲＧＢカメラ３２０を含み得る。また、ＨＭＤ３００は、人３０２の発話を検出するために、少なくとも１つのマイクロフォン３２８を含み得る。

表現３３０によって示されるように、上記のセンサは、タイムスタンプを付けて人３０２の顔の表現３３０を出力することができる信号を出力する。ディスプレイの輝度情報を使用して、画像化された瞳孔３１２の大きさを正規化することができる。

図４は、図３に示すセンサを使用する例示的実施態様を示す。図示の例では、オーディオセンサ３０２、ＲＧＢセンサ３０４、及びＤＶＳ３０６は、１つ以上のニューラルネットワーク（ＮＮ）４０２等のアルゴリズムを実行する人工知能（ＡＩ）チップ４００によって実装され得るようなプロセッサに信号を送る。センサ３０６／３０８／３１８／３２０の出力は、まとめて融合され、ＮＮ４０２によって処理され、例えば、感情または発話を表す出力ラベルが、コンピュータゲームまたは他のアプリケーション４０４に送信される。オーディオセンサ３２８からのオーディオ信号は、ＮＮ４０２への入力の前にオーディオデジタル信号プロセッサ（ＤＳＰ）によって最初に処理されてもよく、同様に、ＤＶＳ３０６からの出力は、ＮＮ４０２への入力の前に適切に処理されてもよいことに留意されたい。非機械学習アルゴリズムを実行することもできる。

図示の例では、カメラと、ＥＤＳと、プロセッサ４００とは全て、画像を含む画像を格納するためのローカルメモリを含み得る単一チップ４０６上に実装される。コンポーネントの処理は、単一のデジタル信号プロセッサ（ＤＳＰ）によって実行され得る。いずれにせよ、プロセッサ４００は、ＶＲオブジェクト生成アルゴリズム等の１つ以上の外部アプリケーション４０４にラベルを出力する。

図５は、図１～図４と適合するさらなる詳細を示す。図５では、本明細書に記載のマイクロフォン（複数可）からのオーディオ入力５００は、周波数領域への変換のために短時間フーリエ変換（ＳＴＦＴ）５０２に送られる。ＳＴＦＴ５０２は、１つ以上のオーディオ処理畳み込みニューラルネットワーク（ＣＮＮ）５０４に信号を出力する。

本明細書に記載のＲＧＢカメラ（複数可）からのビジュアル入力５０６は、画像認識エンジン５０８に送られて、上述の特徴のいずれか等の顔の特徴が抽出される。エンジン５０８の出力は、１つ以上のビジュアル処理ＣＮＮ５１０に送られる。

本明細書で説明するＤＶＳ（複数可）のいずれか等のＤＶＳ５１２からのＥＤＳ入力は、フレームジェネレータ５１４に送られて、低遅延で高データレートの仮想フレームが生成され、それらは画像フィルタ５１６に送られて仮想フレームがフィルタリングされる。フィルタ５１６の出力５１７は、１つ以上のイベント処理ＣＮＮ５１８に送信される。

図５に示すように、ＣＮＮ５０４、５１０、５１８の出力は、ＣＮＮと共に分類器を構築する全結合層５２０に送られる。分類器の出力は、画像化されている人（例えば、図３の人３０２）の感情を検出して、話者認識等によって人を認識するために使用され得る。

「全結合層」５２０はネットワークの一部であり、そこでは全てのニューロンが次の層の全てのニューロンに接続する。分類器は、特徴ベクトル抽出用のＣＮＮを含む。「全結合層」は、出力ラベルを与えるために最後の最後にある。本質的には、全結合入力層は、ＣＮＮの出力を受け取り、それらを単一のベクトルに「平坦化」するものであり、そのベクトルは次のステージに入力される。全結合層は、特徴に重みを適用してラベルを予測し、各ラベルに対して確率を付与する。

図６は、１つ以上の長・短期記憶（ＬＳＴＭ）６０４を含み得る再帰型ニューラルネットワーク６０２が、ＣＮＮの出力を受け取り、次いで全結合層５２０に信号を出力することを除いて、図５で説明したコンポーネントを、対象人物の口６００を追跡するためのＣＮＮ５０４、５１０、及び５１８まで使用する代替アーキテクチャを示す。ＲＮＮ６０２は、時間情報の符号化を提供する。

図６のアーキテクチャは、ＤＶＳ（複数可）からの生のイベントデータとＲＧＢカメラ及びオーディオのデータとを分類器への入力として融合して、モーションブラー、ＲＧＢカメラで画像化が困難な口の内側の領域、異なる照明条件、画像化しにくい歯、及び速い口の動きの影響を排する。

図５のアーキテクチャは、短期間のオーディオを含む１／２フレーム画像を処理することで感情を認識するのに十分であり、人の感情認識に特に有用であるが、限定的ではないことに留意されたい。一方、図６では、ＲＮＮ６０２を追加して、オーディオビジュアル音声認識に役立つ分類器の一時メモリが提供される。したがって、図６は図５と同じ機能を提供できるが、時間情報用のＲＮＮが追加されている。

図７は、目の領域を画像化することに関して、図５及び図６のＣＮＮ層の実施形態のさらなる例示を提供する。目の画像７００は、図３に示されるＨＭＤ３００、または本明細書の他の箇所で説明されるＨＭＣのいずれかまたは両方によって生成される。画像から、まぶた及び眉毛の特徴７０２が抽出され、（ディスプレイの明るさに対して正規化された）瞳孔セグメンテーション７０４及び注視方向７０６も抽出される。ＤＶＳを使用すると、他の方法では検出が困難な口内の構造を検出でき、眼球の動き、唇／舌／歯の動き等を検出するために高速な、高ダイナミックレンジが促進される。これらは、人の感情を推定する際の重要な特質であり得る。ＤＶＳ画像は、目の画像をセグメント化して眼振動を検出することと、口の画像をセグメント化して唇／舌／歯及びその動きを検出することとを容易にする。

図８は、全体的なロジックの例をフローチャート形式の例で示す。ブロック８００で、画像化されている人からオーディオを受信する。ブロック８０２で、本明細書に記載のカメラのいずれかからＲＧＢ画像を受信し、ブロック８０４で、本明細書に記載のＤＶＳのいずれかからイベント情報を受信する。３つ全てを、ブロック８０６で、本明細書で説明する分類器のいずれかに入力し、分類器は、ブロック８０８で、人の仮想画像をレンダリングするために、またはコンテキストを人の感情に合わせて調整することを含む他の目的のために、感情、口の動き、目の動き等を検出するのに有用な情報を出力する。

図９は、本明細書の分類器が、ブロック９００で、オーディオ、ＲＧＢ画像、及びイベント信号のグラウンドトゥルーストレーニングセット（複数可）を受け取り得ることを示す。グラウンドトゥルーストレーニングセットには、ラベル付けされた感情の出力または発話テキスト出力と組み合わされたオーディオ／ビジュアルクリップ及びＥＤＳデータが含まれ得る。対応するグラウンドトゥルースの口の追跡、感情分類、視線追跡等もまたブロック９０２で提供する。トレーニングセットを使用して、分類器は、実データからの正しい出力を学習する。分類器は、（オーディオ／カメラ／イベントデータからの）３つの入力全てを使用して、例示的実施形態では分類器がＲＮＮ及びＣＮＮを含んでいる状態で、トレーニングすることができる。

図１０及び図１１は、ＨＭＣ１０００が人１００２によって着用されることがあり、内向きの画像化アセンブリ１００４が、人１００２の顔に向けられ、人の前に間隔をおいて配置され、それ以外は人１００２の目が実世界を見ることを妨げられていないことを示す。アセンブリ１００４は、舌１００８及び歯１０１０がある口１００６、鼻１０１２、眉毛１０１４、及び瞳孔１０１８を含む目１０１６、を含む人１００２の顔の様々な部分を表すＲＧＢ信号及びＤＶＳ信号を生成する。

図１１に示すように、画像化アセンブリ１００４は、本明細書に記載の原理と調和する１つ以上のＤＶＳ撮像装置１１００、１つ以上のＲＧＢカメラ１１０２、及び１つ以上のマイクロフォン１１０４を含み得る。画像化アセンブリ１００４内の様々なセンサからの信号は、人１００２の顔（及び声）を表す出力１１０６の生成に合わせて相互に関連付けられ得るように、タイムスタンプが付けられる。

いくつかの例示的な実施形態を参照して本原理を説明したが、これらは限定することを意図しておらず、各種の代替的な構成が本明細書で特許請求される主題を実施するために使用されてよいことが理解されよう。

Claims

顔の赤緑青（ＲＧＢ）画像を生成するように構成された少なくとも１つのカメラユニットと、
前記顔の照度の変化を表す信号を出力するように構成された少なくとも１つのイベント駆動型センサ（ＥＤＳ）と、
発話を表す信号を出力するように構成された少なくとも１つのマイクロフォンと、
少なくとも1つのプロセッサであって、
前記カメラユニット、前記ＥＤＳ、及び前記マイクロフォンから信号を受信することと、
少なくとも１つのニューラルネットワークを実行して、前記カメラユニット、前記ＥＤＳ、及び前記マイクロフォンからの前記信号に基づいて、感情予測、前記顔の少なくとも一部分の追跡のうちの少なくとも１つを生成することと、
を行うための実行可能命令で構成される、前記少なくとも1つのプロセッサと、
を備えるアセンブリ。
前記カメラユニットは、赤外線（ＩＲ）画像を生成するように構成される、請求項１に記載のアセンブリ。
前記カメラユニット、前記プロセッサ、及び前記ＥＤＳは、単一チップ上に配置される、請求項１に記載のアセンブリ。
前記命令は、
前記少なくとも１つのニューラルネットワークを実行して、前記カメラユニット、前記ＥＤＳ、及び前記マイクロフォンからの前記信号に基づいて、感情予測を生成するように実行可能である、請求項１に記載のアセンブリ。
前記命令は、
前記少なくとも１つのニューラルネットワークを実行して、前記カメラユニット、前記ＥＤＳ、及び前記マイクロフォンからの前記信号に基づいて、前記顔の少なくとも一部分の追跡を生成するように実行可能である、請求項１に記載のアセンブリ。
前記一部分は、少なくとも一つの目の瞳孔を含む、請求項５に記載のアセンブリ。
前記一部分は、口角を含む、請求項５に記載のアセンブリ。
前記一部分は、歯を含む口の内部を含む、請求項５に記載のアセンブリ。
人の赤緑青（ＲＧＢ）画像及び／または赤外線（ＩＲ）画像を生成するように構成された少なくとも１つのカメラユニットと、
少なくとも１つのマイクロフォンと、
前記人を表す信号を出力するように構成された少なくとも１つのイベント駆動型センサ（ＥＤＳ）と、
少なくとも１つのプロセッサであって、
短時間フーリエ変換（ＳＴＦＴ）を使用して前記マイクロフォンの出力を処理することと、
少なくとも１つのオーディオ処理畳み込みニューラルネットワーク（ＣＮＮ）を使用して前記ＳＴＦＴの出力を処理することと、
少なくとも１つのビジュアル処理ＣＮＮを使用して、前記カメラユニットからの画像の少なくとも特徴を処理することと、
少なくとも１つのイベント処理ＣＮＮを使用して、前記ＥＤＳからの出力信号の表現を処理することと、
全結合型ニューラルネットワーク層における前記ＣＮＮの出力を融合して、
前記人の感情の予測と、
前記人の顔の少なくとも一部分の追跡と、
前記人の少なくとも１つの仮想現実（ＶＲ）画像と、
前記人の識別と、
のうちの１つ以上を生成することと、
を行うための命令でプログラムされる、前記少なくとも１つのプロセッサと、
を備えるシステム。
前記プロセッサは、
再帰型ニューラルネットワーク（ＲＮＮ）を使用して前記ＣＮＮの出力を処理することと、
前記人の口の追跡を生成するために、前記全結合型ニューラルネットワーク層を使用して前記ＲＮＮの出力を処理することと、
を行うための命令で構成される、請求項９に記載のシステム。
前記プロセッサは、
前記人の感情の予測を生成するための命令で構成される、請求項９に記載のシステム。
前記プロセッサは、
前記人の前記顔の少なくとも一部分の追跡を生成するための命令で構成される、請求項９に記載のシステム。
前記プロセッサは、
前記人の少なくとも１つの仮想現実（ＶＲ）画像を生成するための命令で構成される、請求項９に記載のシステム。
前記プロセッサは、
前記人の識別を生成するための命令で構成される、請求項９に記載のシステム。
少なくとも１つのカメラユニットから信号を受信することと、
少なくとも１つのイベント駆動型センサ（ＥＤＳ）から信号を受信することと、
少なくとも１つのマイクロフォンから信号を受信することと、
少なくとも１つのニューラルネットワークを実行して、前記カメラユニット、前記ＥＤＳ、及び前記マイクロフォンからの前記信号に基づいて、感情予測、顔の少なくとも一部分の追跡、人の識別、前記人の仮想現実（ＶＲ）画像の生成、のうちの少なくとも１つを生成することと、
を含む方法。
少なくとも１つのニューラルネットワークを実行して、前記カメラユニット、前記ＥＤＳ、及び前記マイクロフォンからの前記信号に基づいて、感情予測を生成することを含む、請求項１５に記載の方法。
少なくとも１つのニューラルネットワークを実行して、前記カメラユニット、前記ＥＤＳ、及び前記マイクロフォンからの前記信号に基づいて、前記顔の少なくとも一部分の追跡を生成することを含む、請求項１５に記載の方法。
少なくとも１つのニューラルネットワークを実行して、前記カメラユニット、前記ＥＤＳ、及び前記マイクロフォンからの前記信号に基づいて、人の識別を生成することを含む、請求項１５に記載の方法。
少なくとも１つのニューラルネットワークを実行して、前記カメラユニット、前記ＥＤＳ、及び前記マイクロフォンからの前記信号に基づいて、前記人の仮想現実（ＶＲ）画像の生成を生成することを含む、請求項１５に記載の方法。
前記顔の前記一部分は、口角及び口の内部である、請求項１７に記載の方法。