JP2022552888A

JP2022552888A - フェイクビデオの検出

Info

Publication number: JP2022552888A
Application number: JP2022523639A
Authority: JP
Inventors: イエ、シャオヨン
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2019-10-21
Filing date: 2020-10-13
Publication date: 2022-12-20
Also published as: EP4049174A1; CN114600174A; EP4049174A4; WO2021080815A1

Abstract

ビデオ（２１２）が、元のビデオ（２００）から派生し、改変されたフェイクビデオであるかどうかの検出は、ビデオの１つまたは複数のフレームの画像分析（３０６）と、周波数領域分析（３１０）の両方を使用して実施される。分析は、ニューラルネットワークを使用して実施され得る（３０２）。【選択図】図１

Description

本出願は、一般に、コンピュータ技術に必然的に根差し、具体的な技術的改善をもたらす、技術的に独創的で非定型的な解決策に関する。

本明細書で理解されるように、深層学習アルゴリズムと組み合わされた最新のデジタル画像処理は、ある人物のビデオ画像を別の人物の画像に改変する、または人物のビデオを、その人物の声で、その人物が実際には決して話さなかった言葉を話すように改変する、興味深くかつ面白いが、潜在的に邪悪な能力を示す。このような機能は気軽に使用できるが、その機能はまた、あたかもその人物が侮辱的なことを話しているかのように見せることで、個人の名誉を毀損するために使用される可能性がある。したがって、ビデオが本物であるのか、それとも機械学習によって生成されたフェイクであるのかを判断するための技法が本明細書に提供される。

したがって、システムは、画像を受信し、画像内の顔の、または画像の顔と背景との間の、または両方の少なくとも１つのテクスチャの不規則性が画像に存在するかどうかを判断するための少なくとも顔検出モジュールを含む。システムはまた、画像を受信するための少なくとも第１のニューラルネットワーク、画像を受信し、少なくとも第２のニューラルネットワークにスペクトルを出力するための少なくとも１つの離散フーリエ変換（ＤＦＴ）、及び顔検出モジュール、第１のニューラルネットワーク、及び第２のニューラルネットワークによって出力された特徴にアクセスして、画像が元の画像から改変されているかどうかを判断し、それを表す出力を提供するための少なくとも検出モジュールを含む。

テクスチャの不規則性は、チェッカーボードパターンを含み得る。

検出モジュールは、スペクトルの少なくとも１つの不規則性を検出することによって、画像が少なくとも部分的に元の画像から改変されていると判断し得る。

スペクトルの不規則性は、元の画像の対応する領域よりも明るい明るさの少なくとも１つの領域を含み得る。明るさの領域は、周波数領域内の画像の周辺に沿って位置する場合がある。実際、スペクトルの不規則性は、周波数領域内の画像の周辺に沿って位置する複数の明るさの領域を含み得る。

顔検出モジュールは、画像が元の画像から改変されていることを示す、画像内の顔の照明の不規則性を示す特徴ベクトルを出力するために構成され得る。

別の態様では、方法は、画像内の顔の少なくとも１つの照明の不規則性、または画像内の少なくとも１つのテクスチャの不規則性、または両方を示す特徴ベクトルを出力するために、顔検出モジュールを介して画像を処理することを含む。方法はまた、周波数領域内の画像の少なくとも１つの不規則性を示す特徴ベクトルを出力するために、少なくとも１つの離散フーリエ変換（ＤＦＴ）及び少なくとも１つのニューラルネットワークを介して画像を処理すること、及び特徴ベクトルに基づいて、画像が少なくとも部分的に元の画像から改変されている旨の表示を返すことを含む。

別の態様では、装置は、画像検出モジュールを介して画像を処理して、空間領域内の画像に不規則性が存在するかどうかを判断するために、少なくとも１つのプロセッサによって実行可能な命令を備えた少なくとも１つのコンピュータ記憶媒体を含む。命令は、画像を周波数領域に変換するために、及び周波数領域内の画像を処理して、周波数領域内に不規則性が存在するかどうかを判断するために実行可能である。命令は、画像に不規則性が存在すると判断したことに少なくとも部分的に基づいて、画像が元の画像からデジタル的に改変されている旨の表示を出力するために実行可能である。

画像が元の画像からデジタル的に改変されている旨の表示は、周波数領域内の不規則性または空間領域内の不規則性のどちらか１つを決定したことに応えて出力され得る。または、画像が元の画像からデジタル的に改変されている旨の表示は、周波数領域の不規則性と空間領域の不規則性の両方が画像内に存在すると判断したことに応えてだけ、出力されてもよい。

本出願の詳細は、その構造及び動作の両方に関して、添付図面を参照して最もよく理解することができ、図面中、同様の参照番号は同様の部分を指す。

本原理に従った例を含む例示的なシステムのブロック図である。本物のビデオ及び本物のビデオから派生したフェイクビデオを示す概略図である画像処理及び周波数領域解析の両方を使用するフェイクビデオを検出するための例示的なロジックのフローチャートである。図３で使用されているニューラルネットワークをトレーニングするための例示的なロジックのフローチャートである本物のビデオフレーム及び対応するフェイクビデオフレームの図を示しており、偽のフレームのアーティファクトを示している。図３のロジックを実行するための例示的なニューラルネットワークアーキテクチャのブロック図である。ビデオシーケンス分析を使用してフェイクビデオを検出するための例示的なロジックのフローチャートである。図７のロジックを実行するための例示的なニューラルネットワークアーキテクチャのブロック図である。フェイクビデオ生成に対処するためにブロックチェーン技術を使用するための例示的なロジックのフローチャートである。インターネットサービスプロバイダ（ＩＳＰ）／配信業者がビデオを公の場から削除できるように、ＩＳＰまたは配信者にフェイクビデオを報告するための例示的なユーザーインターフェース（ＵＩ）のスクリーンショットである。ビデオに埋め込まれた検証ハッシュとともにビデオを記録、またはアップロード、またはダウンロードするための例示的なロジックのフローチャートである。真正性の検証のためにハッシュが使用される図１１で記録またはアクセスされたビデオを再生するための例示的なロジックのフローチャートである。以前の原理を使用したハイブリッドロジックの例示的なロジックのフローチャートである。２セットの本物の画像と改変された画像の例示的な照明アーティファクトを示す。画像内の例示的な敵対的生成ネットワーク（ＧＡＮ）アーティファクトまたは不規則性を示す。本物の画像及び改変された画像を使用して、別のＧＡＮ関連のアーティファクトまたは不規則性を示す。

本開示は、概して、限定するものではないが、コンピュータゲームネットワーク及びスタンドアロンコンピュータシミュレーションシステム等のコンピュータシミュレーションネットワーク等の家電製品（ＣＥ）デバイスの態様を含むコンピュータエコシステムに関する。本明細書のシステムは、クライアントコンポーネントとサーバコンポーネントとの間でデータが交換され得るようにネットワークを通じて接続されたサーバコンポーネント及びクライアントコンポーネントを含み得る。クライアントコンポーネントは、ＳｏｎｙＰｌａｙＳｔａｔｉｏｎ（登録商標）等のゲームコンソールまたはＭｉｃｒｏｓｏｆｔもしくはＮｉｎｔｅｎｄｏもしくは他の製造者によって作成されたゲームコンソール、仮想現実（ＶＲ）ヘッドセット、拡張現実（ＡＲ）ヘッドセット、ポータブルテレビ（例えば、スマートテレビ、インターネット対応テレビ）、ラップトップ及びタブレットコンピュータ等のポータブルコンピュータ、ならびにスマートフォン及び下記に説明される追加例を含む他のモバイルデバイスを含む、１つまたは複数のコンピューティングデバイスを含み得る。これらのクライアントデバイスは、様々な動作環境で動作し得る。例えば、クライアントコンピュータの一部は、例として、Ｌｉｎｕｘ（登録商標）オペレーティングシステム、Ｍｉｃｒｏｓｏｆｔのオペレーティングシステム、もしくはＵｎｉｘ（登録商標）オペレーティングシステム、またはＡｐｐｌｅＣｏｍｐｕｔｅｒもしくはＧｏｏｇｌｅによって製造されたオペレーティングシステムを使用し得る。これらの動作環境は、下記に説明されるインターネットサーバによってホストされるウェブサイトにアクセスできる、ＭｉｃｒｏｓｏｆｔもしくはＧｏｏｇｌｅもしくはＭｏｚｉｌｌａによって作成されたブラウザ、または他のブラウザプログラム等、１つまたは複数のブラウジングプログラムを実行するために使用され得る。また、本原理に従った動作環境を使用して、１つまたは複数のコンピュータゲームプログラムを実行し得る。

サーバ及び／またはゲートウェイは、インターネット等のネットワークを介してデータを受信及び送信するサーバを構成する命令を実行する１つまたは複数のプロセッサを含み得る。または、クライアント及びサーバは、ローカルイントラネットまたは仮想プライベートネットワークを通じて接続できる。サーバまたはコントローラは、ＳｏｎｙＰｌａｙＳｔａｔｉｏｎ（登録商標）等のゲームコンソール、パーソナルコンピュータ等によってインスタンス化され得る。

クライアントとサーバとの間でネットワークを通じて情報を交換し得る。この目的のために及びセキュリティのために、サーバ及び／またはクライアントは、ファイアウォール、ロードバランサ、テンポラリストレージ、及びプロキシ、ならびに信頼性及びセキュリティのための他のネットワークインフラストラクチャを含み得る。１つまたは複数のサーバは、ネットワークメンバーにオンラインソーシャルウェブサイト等のセキュアコミュニティを提供する方法を実施する装置を形成してよい。

本明細書で使用される場合、命令は、システムにおいて情報を処理するためにコンピュータにより実施されるステップを指す。命令は、ソフトウェア、ファームウェア、またはハードウェアで実施され、システムのコンポーネントにより実行される任意の種類のプログラム化されたステップを含み得る。

プロセッサは、アドレス線、データ線、及び制御線等の各種の線、ならびにレジスタ及びシフトレジスタによってロジックを実行できる、従来の任意の汎用シングルチッププロセッサまたは汎用マルチチッププロセッサであり得る。

本明細書でフローチャート及びユーザーインタフェースによって記述されるソフトウェアモジュールは、様々なサブルーチン、手順等を含み得る。本開示を限定することなく、特定のモジュールによって実行されるように規定されたロジックは、他のソフトウェアモジュールに再分配すること、及び／または単一のモジュールにまとめて集約すること、及び／または共有可能ライブラリで利用できるようにすることが可能である。

本明細書に記載された本原理は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの組み合わせとして実装することができる。したがって、実例となるコンポーネント、ブロック、モジュール、回路、及びステップは、それらの機能性の観点から説明される。

さらに上記に指摘したものについて、下記に説明される論理ブロック、モジュール、及び回路は、汎用プロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）もしくは特定用途向け集積回路（ＡＳＩＣ）等の他のプログラマブル論理デバイス、個別ゲートもしくはトランジスタ論理、個別ハードウェアコンポーネント、または本明細書に説明される機能を行うように設計されたそれらのいずれかの組み合わせによって実装できるまたは行うことができる。プロセッサは、コントローラもしくは状態機械、またはコンピューティングデバイスの組み合わせによって実装することができる。

以下で説明される機能及び方法は、ソフトウェアにおいて実装されるとき、限定ではないが、Ｊａｖａ（登録商標）、Ｃ＃、またはＣ＋＋等の適切な言語において記述することができ、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、コンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、またはデジタル多用途ディスク（ＤＶＤ）等の他の光ディスクストレージ、磁気ディスクストレージもしくは着脱可能サムドライブ等を含む他の磁気記憶装置等のコンピュータ可読記憶媒体に記憶することができ、またはそれらを通して伝送することができる。接続は、コンピュータ可読媒体を確立し得る。このような接続は、例として、光ファイバ、同軸ワイヤ、デジタル加入者回線（ＤＳＬ）、及びツイストペアワイヤを含む有線ケーブルを含み得る。このような接続には、赤外線及び無線を含む無線通信接続が含まれ得る。

ある実施形態に含まれるコンポーネントを、他の実施形態において任意の適切な組み合わせで使用することができる。例えば、本明細書で説明される、及び／または図に描かれる様々なコンポーネントのいずれも、組み合わされてもよく、交換されてもよく、または他の実施形態から除外されてもよい。

「Ａ、Ｂ、及びＣの少なくとも１つを有するシステム」（同様に「Ａ、Ｂ、またはＣの少なくとも１つを有するシステム」及び「Ａ、Ｂ、Ｃのうちの少なくとも１つを有するシステム」）は、Ａを単独で、Ｂを単独で、Ｃを単独で、Ａ及びＢを一緒に、Ａ及びＣを一緒に、Ｂ及びＣを一緒に、及び／またはＡ、Ｂ、及びＣを一緒に有するシステム等を含む。

ここで具体的に図１を参照すると、例示的なシステム１０が示されており、このシステムは、本原理による、上で述べられかつ以下に詳述される、例示的なデバイスの１つまたは複数を含み得る。システム１０に含まれる例示的なデバイスのうちの第１のデバイスは、ＴＶチューナ（同等にＴＶを制御するセットトップボックス）を備えたインターネット対応ＴＶ等の、ただしこれに限定されないオーディオビデオデバイス（ＡＶＤ）１２といった家電製品（ＣＥ）デバイスである。しかし、ＡＶＤ１２は、代わりに、電気器具または家庭用品、例えば、コンピュータ制御でインターネット対応の冷蔵庫、洗濯機、または乾燥機であってよい。代わりに、ＡＶＤ１２は、また、コンピュータ制御型インターネット対応（「スマート」）電話、タブレットコンピュータ、ノートブックコンピュータ、例えば、コンピュータ制御型インターネット対応時計、コンピュータ制御型インターネット対応ブレスレット、他のコンピュータ制御型インターネット対応デバイス等のウェアラブルコンピュータ制御デバイス、コンピュータ制御型インターネット対応ミュージックプレイヤ、コンピュータ制御型インターネット対応ヘッドフォン、インプラント可能な皮膚用デバイス等のコンピュータ制御型でインターネット対応のインプラント可能なデバイス等であってよい。それにも関わらず、ＡＤＶ１２は、本原理を実施する（例えば、本原理を実施するように他のＣＥデバイスと通信し、本明細書に説明されるロジックを実行し、本明細書に説明されるいずれかの他の機能及び／または動作を行う）ように構成されることを理解されたい。

したがって、このような原理を実施するために、ＡＶＤ１２は、図１に示されるコンポーネントの一部または全てによって確立できる。例えば、ＡＶＤ１２は、１つまたは複数のディスプレイ１４を含むことができ、ディスプレイ１４は、高解像度または「４Ｋ」もしくはそれ以上の超高解像度フラットスクリーンによって実装されてよく、ディスプレイをタッチしてユーザー入力信号を受信するためにタッチ対応であってよい。ＡＶＤ１２は、本原理に従って音声を出力するための１つまたは複数のスピーカ１６、及び、例えば、ＡＶＤ１２を制御するために可聴コマンドをＡＶＤ１２に入力するための、例えば、音声受信機／マイクロホン等の少なくとも１つの追加入力デバイス１８を含み得る。例示的なＡＶＤ１２はまた、１つまたは複数のプロセッサ２４等の制御の下、インターネット、ＷＡＮ、ＬＡＮ等の少なくとも１つのネットワーク２２を通じて通信するための１つまたは複数のネットワークインタフェース２０を含み得る。また、グラフィックプロセッサ２４Ａを含み得る。したがって、インタフェース２０は、限定ではないが、Ｗｉ－Ｆｉ送受信機であり得、Ｗｉ－Ｆｉ送受信機は、限定するものではないが、メッシュネットワーク送受信機等の無線コンピュータネットワークインタフェースの例である。プロセッサ２４は、例えば、ディスプレイ１４を、画像を提示するように制御することや、そこから入力を受信すること等の本明細書に説明されるＡＶＤ１２の他の要素を含む、本原理を実施するようにＡＶＤ１２を制御することを理解されたい。さらに、ネットワークインタフェース２０は、例えば、有線もしくは無線のモデムもしくはルータ、または、例えば、無線テレフォニ送受信機もしくは上述したＷｉ－Ｆｉ送受信機等の他の適切なインタフェースであってよいことに留意されたい。

上記に加えて、ＡＶＤ１２はまた、例えば、別のＣＥデバイスに（例えば、有線接続を使用して）物理的に接続する高解像度マルチメディアインタフェース（ＨＤＭＩ（登録商標））ポートもしくはＵＳＢポート、及び／またはヘッドフォンを通してＡＶＤ１２からユーザーに音声を提示するためにＡＶＤ１２にヘッドフォンを接続するためのヘッドフォンポート等の１つまたは複数の入力ポート２６を含み得る。例えば、入力ポート２６は、オーディオビデオコンテンツのケーブルまたは衛星ソース２６ａに有線でまたは無線で接続されてよい。したがって、ソース２６ａは、例えば、別個のもしくは統合されたセットトップボックス、または衛星受信機であってよい。または、ソース２６ａは、以下に詳述されるチャネル割り当て目的でユーザーが好みと見なし得るコンテンツを含むゲームコンソールまたはディスクプレイヤであってよい。ソース２６ａは、ゲームコンソールとして実装されるとき、ＣＥデバイス４４に関連して以下で説明される構成要素のいくつかまたは全てを含み得る。

ＡＶＤ１２は、さらに、一時的信号ではない、ディスクベースストレージまたはソリッドステートストレージ等の１つまたは複数のコンピュータメモリ２８を含んでよく、これらのメモリは、場合によっては、スタンドアロンデバイスとしてＡＶＤのシャーシ内で、またはＡＶＤプログラムを再生するためにＡＶＤのシャーシの内部もしくは外部のいずれかでパーソナルビデオ録画デバイス（ＰＶＲ）もしくはビデオディスクプレイヤとして、または取り外し可能メモリ媒体として具現化されてよい。また、いくつかの実施形態では、ＡＶＤ１２は、限定するものではないが、少なくとも１つの衛星もしくは携帯電話の中継塔から地理的位置情報を受信し、情報をプロセッサ２４に提供し、及び／またはＡＶＤ１２がプロセッサ２４と併せて配置される高度を判断するように構成される、携帯電話受信機、ＧＰＳ受信機、及び／または高度計３０等の位置受信機または場所受信機を含むことができる。しかしながら、例えば、３つの次元全てにおいて、例えば、ＡＶＤ１２の場所を決定するために、本原理に従って、携帯電話受信機、ＧＰＳ受信機、及び／または高度計以外の別の適切な位置受信機が使用され得ることを理解されたい。

ＡＶＤ１２の説明を続けると、いくつかの実施形態では、ＡＶＤ１２は、例えば、熱探知カメラ、ウェブカメラ等のデジタルカメラ、及び／またはＡＶＤ１２に組み込まれ、本原理に従って写真／画像及び／またはビデオを収集するようにプロセッサ２４によって制御可能なカメラであってもよい１つまたは複数のカメラ３２を含み得る。また、ＡＶＤ１２に含まれるのは、Ｂｌｕｅｔｏｏｔｈ（登録商標）及び／または近距離無線通信（ＮＦＣ）技術を各々使用して、他のデバイスと通信するためのＢｌｕｅｔｏｏｔｈ送受信機３４及び他のＮＦＣ要素３６であってよい。例示的なＮＦＣ要素は、無線周波数識別（ＲＦＩＤ）要素であってもよい。

さらにまた、ＡＶＤ１２は、プロセッサ２４に入力を提供する１つまたは複数の補助センサ３７（例えば、加速度計、ジャイロスコープ、サイクロメータ等の運動センサ、または磁気センサ、赤外線（ＩＲ）センサ、光学センサ、速度センサ及び／またはケイデンスセンサ、ジェスチャセンサ（例えば、ジェスチャコマンドを検知するため）等）を含み得る。ＡＶＤ１２は、プロセッサ２４への入力を提供するＯＴＡ（無線）ＴＶ放送を受信するための無線ＴＶ放送ポート３８を含み得る。上記に加えて、ＡＶＤ１２はまた、赤外線データ協会（ＩＲＤＡ）デバイス等の赤外線（ＩＲ）送信機及び／またはＩＲ受信機及び／またはＩＲ送受信機４２を含み得ることに留意されたい。ＡＶＤ１２に給電するためのバッテリ（図示せず）が備えられてよい。

さらに図１を参照して、ＡＶＤ１２に加えて、システム１０は、１つまたは複数の他のＣＥデバイスタイプを含んでもよい。一例では、第１のＣＥデバイス４４は、ＡＶＤ１２に直接送信されるコマンドを介して及び／または後述のサーバを通じて、コンピュータゲームの音声及びビデオをＡＶＤ１２に送信するために使用され得る一方、第２のＣＥデバイス４６は第１のＣＥデバイス４４と同様のコンポーネントを含み得る。示される例では、第２のＣＥデバイス４６は、示されたようにプレーヤ４７によって装着されるＶＲヘッドセットとして構成され得る。図示の例では、２つのＣＥデバイス４４、４６のみが示されるが、より少ないまたはより多くのデバイスが使用されてよいことを理解されたい。例えば、以下の原理は、ゲームコンソールによって１つまたは複数のＡＶＤ１２に供給されるコンピュータゲームのプレイ中に互いと通信するそれぞれのヘッドセットをした複数のプレーヤ４７を説明する。

示される例では、本原理を示すために、３つのデバイス１２、４４、４６は全て、例えば家庭のエンターテインメントネットワークのメンバーであること、または少なくとも、住宅等の場所において相互に近接して存在していることが想定される。しかし、本原理は、他に明確に主張されない限り、破線４８によって示される特定の場所に限定されない。

例示的な非限定的な第１のＣＥデバイス４４は、上述のデバイス、例えば、ポータブル無線ラップトップコンピュータまたはノートブックコンピュータまたはゲームコントローラのいずれか１つによって確立されてもよく、したがって、以下で説明される１つまたは複数のコンポーネントを有してもよい。第１のＣＥデバイス４４は、例えば、ＡＶ再生コマンド及び一時停止コマンドをＡＶＤ１２に発行するためのリモコン装置（ＲＣ）であってよく、またはタブレットコンピュータ、有線もしくは無線リンクを介してＡＶＤ１２及び／またはゲームコンソールと通信するゲームコントローラ、パーソナルコンピュータ、無線電話等のより高性能のデバイスであってよい。

したがって、第１のＣＥデバイス４４は、ディスプレイをタッチしてユーザー入力信号を受信するためにタッチ対応であってよい１つまたは複数のディスプレイ５０を含み得る。第１のＣＥデバイス４４は、本原理に従って音声を出力するための１つまたは複数のスピーカ５２、及び、例えば、デバイス４４を制御するために可聴コマンドを第１のＣＥデバイス４４に入力するための、例えば、音声受信機／マイクロホン等の少なくとも１つの追加入力デバイス５４を含み得る。例示的な第１のＣＥデバイス４４はまた、１つまたは複数のＣＥデバイスプロセッサ５８の制御の下、ネットワーク２２を通じて通信するための１つまたは複数のネットワークインタフェース５６を含み得る。また、グラフィックプロセッサ５８Ａを含み得る。したがって、インタフェース５６は、限定ではないが、Ｗｉ－Ｆｉ送受信機であり得、Ｗｉ－Ｆｉ送受信機は、メッシュネットワークインタフェースを含む無線コンピュータネットワークインタフェースの例である。プロセッサ５８は、例えば、ディスプレイ５０を、画像を提示するように制御することや、そこから入力を受信すること等の本明細書に説明される第１のＣＥデバイス４４の他の要素を含む、本原理を実施するように第１のＣＥデバイス４４を制御することを理解されたい。さらに、ネットワークインタフェース５６は、例えば、有線もしくは無線のモデムもしくはルータ、または、例えば、無線テレフォニ送受信機もしくは上述したＷｉ－Ｆｉ送受信機等の他の適切なインタフェースであってよいことに留意されたい。

上記に加えて、第１のＣＥデバイス４４はまた、例えば、別のＣＥデバイスに（例えば、有線接続を使用して）物理的に接続するＨＤＭＩポートもしくはＵＳＢポート、及び／またはヘッドフォンを通して第１のＣＥデバイス４４からユーザーに音声を提示するために第１のＣＥデバイス４４にヘッドフォンを接続するためのヘッドフォンポート等の１つまたは複数の入力ポート６０を含み得る。第１のＣＥデバイス４４は、さらに、ディスクベースストレージまたはソリッドステートストレージ等の１つまたは複数の有形コンピュータ可読記憶媒体６２を含み得る。また、いくつかの実施形態では、第１のＣＥデバイス４４は、限定するものではないが、例えば、三角測量を使用して、少なくとも１つの衛星及び／または携帯電話の基地局から地理的位置情報を受信し、情報をＣＥデバイスプロセッサ５８に提供し、及び／または第１のＣＥデバイス４４がＣＥデバイスプロセッサ５８と併せて配置される高度を判断するように構成される、携帯電話受信機及び／またはＧＰＳ受信機、及び／または高度計６４等の位置受信機または場所受信機を含むことができる。しかしながら、例えば、３つの次元全てにおいて、例えば、第１のＣＥデバイス４４の場所を決定するために、本原理に従って、携帯電話及び／またはＧＰＳ受信機及び／または高度計以外の別の適切な位置受信機が使用され得ることを理解されたい。

第１のＣＥデバイス４４の説明を続けると、いくつかの実施形態では、第１のＣＥデバイス４４は、例えば、熱探知カメラ、ウェブカメラ等のデジタルカメラ、及び／または第１のＣＥデバイス４４に組み込まれ、本原理に従って写真／画像及び／またはビデオを収集するようにＣＥデバイスプロセッサ５８によって制御可能なカメラであってもよい１つまたは複数のカメラ６６を含み得る。また、第１のＣＥデバイス４４に含まれるのは、Ｂｌｕｅｔｏｏｔｈ及び／または近距離無線通信（ＮＦＣ）技術を各々使用して、他のデバイスと通信するためのＢｌｕｅｔｏｏｔｈ送受信機６８及び他のＮＦＣ要素７０であってよい。例示のＮＦＣ要素は、無線周波数識別（ＲＦＩＤ）要素であってもよい。

さらにまた、第１のＣＥデバイス４４は、ＣＥデバイスプロセッサ５８に入力を提供する１つまたは複数の補助センサ７２（例えば、加速度計、ジャイロスコープ、サイクロメータ等の運動センサ、または磁気センサ、赤外線（ＩＲ）センサ、光学センサ、速度センサ及び／またはケイデンスセンサ、ジェスチャセンサ（例えば、ジェスチャコマンドを検知するため）等）を含み得る。第１のＣＥデバイス４４は、ＣＥデバイスプロセッサ５８に入力を提供する、例えば、１つまたは複数の気候センサ７４（例えば、気圧計、湿度センサ、風センサ、光センサ、温度センサ等）及び／または１つまたは複数の生体認証センサ７６等のさらに他のセンサを含み得る。上記に加えて、いくつかの実施形態では、第１のＣＥデバイス４４は、赤外線（ＩＲ）送信機及び／またはＩＲ受信機、及び／または赤外線データ協会（ＩＲＤＡ）デバイス等のＩＲ送受信機７８も含み得ることに留意されたい。第１のＣＥデバイス４４に給電するためのバッテリ（図示せず）が備えられてよい。ＣＥデバイス４４は、前述の通信モード及び関連コンポーネントのうちのいずれかを介して、ＡＶＤ１２と通信し得る。

第２のＣＥデバイス４６は、ＣＥデバイス４４について示したコンポーネントの一部または全てを含み得る。ＣＥデバイスの一方または両方のいずれかは、１つまたは複数のバッテリによって供電され得る。

ここで、上述の少なくとも１つのサーバ８０を参照すると、サーバ８０は、少なくとも１つのサーバプロセッサ８２と、ディスクベースストレージまたはソリッドステートストレージ等の少なくとも１つの有形コンピュータ可読記憶媒体８４と、サーバプロセッサ８２の制御の下、ネットワーク２２を通じて図１の他のデバイスとの通信を可能にし、実際に、本原理に従ってサーバとクライアントデバイスとの間の通信を容易にし得る少なくとも１つのネットワークインタフェース８６とを含む。ネットワークインタフェース８６は、例えば、有線もしくは無線のモデムもしくはルータ、Ｗｉ－Ｆｉ送受信機、または、例えば、無線テレフォニ送受信機等の他の適切なインタフェースであり得ることに留意されたい。

したがって、いくつかの実施形態では、サーバ８０は、インターネットサーバまたはサーバ「ファーム」全体であってもよく、「クラウド」機能を含んでもよく、「クラウド」機能を実行してもよく、その結果、システム１０のデバイスは、例えば、ネットワークゲーミングアプリケーションについての例示的な実施形態においてサーバ８０を介して「クラウド」環境にアクセスすることができる。または、サーバ８０は、図１に示す他のデバイスと同じ部屋かまたはその近くにある１つまたは複数のゲームコンソールまたは他のコンピュータによって実装されてもよい。

本明細書における方法は、プロセッサ、適切に構成された特定用途向け集積回路（ＡＳＩＣ）もしくはフィールドプログラマブルゲートアレイ（ＦＰＧＡ）モジュール、または当業者によって認識される任意の他の便利な方式によって実行されるソフトウェア命令として実装されてよい。使用される場合、ソフトウェア命令は、ＣＤＲＯＭまたはフラッシュドライブ等の非一時的デバイスで具現化されてよい。代わりに、ソフトウェアコード命令は、無線信号もしくは光信号等の一時的構成で、またはインターネットを通したダウンロードを介して具現化されてよい。

ここで図２～図６を参照すると、画像が「フェイク」であるかどうか、つまり元の画像からデジタル的に改変されているかどうかを判断するための第１の技法が示されている。図２では、可聴の言葉２０６を話している、顔２０４を有する人の、ディスプレイ２０２に提示され得る元の画像２００が示されている。画像２００は、ビデオストリームからのＩフレーム等の画像であってよく、ビデオストリームのフレームの一部または全ては、本明細書に開示されるように処理され得る。

限定するものではないが、キーボード等の入力デバイス２１０を用いてコンピュータ２０８を操作する人は、画像及び／または音声を改変して、改変された可聴の言葉２１４を話していると描かれる可能性のある人の改変された画像２１２を生成し得る。本原理は、改変された画像２１２が実際にオリジナル２００から改変されていることを検出することを対象とする。

図３は、第１の技法で実行され得るロジックを示し、一方、図６は、図３のロジックを具現化し得る例示的なアーキテクチャを示す。ブロック３００で開始すると、画像が受信される。画像は、畳み込みＮＮ（ＣＮＮ）等の第１のニューラルネットワーク（ＮＮ）を介して画像を処理することによって、ブロック３０２で直接分析することができる。第１のＮＮは、ブロック３０４で画像を表す特徴ベクトルを出力する。

また、ブロック３０６で、画像は、顔及び／または画像の背景の、本明細書では不規則性とも呼ぶアーティファクト、及び画像内の照明の不規則性がないか分析するために顔認識モジュールに入力され得る。１つまたは複数のＮＮを使用し得る顔認識モジュールは、特徴ベクトルをブロック３０４に出力する。

例として、画像（空間領域）内の顔の不規則性は、チェッカーボードのような外観を有する小さい領域を含む場合があり、デジタル改変に起因する解像度のぼやけを示す。

さらに、画像は、例えば、周波数領域内の画像の不規則性を検出するためにＣＮＮ等の別のＮＮを用いてブロック３１０で分析される周波数スペクトルを出力する離散フーリエ変換（ＤＦＴ）を使用して、ブロック３０８で周波数流域に変換され得る。スペクトルを表す特徴ベクトルは、ブロック３０４に提供される。

例として、周波数領域の不規則性は、周波数領域内の画像のグラフィック表現の周辺に沿った１つまたは複数の輝点を含み得る。

決定ひし形３１２に移動すると、１つまたは複数のＮＮを含む場合がある検出モジュールが、ブロック３０４からの特徴ベクトルを分析して、１つまたは複数の不規則性が空間領域及び／または周波数領域に存在するかどうかを判断する。不規則性が存在しない場合、プロセスは状態３１４で終了してよいが、いくつかの実施態様では、任意の領域に任意の不規則性が存在する場合、ブロック３１６で、画像がフェイクである旨の表示が返されてよい。他の実施態様では、ブロック３１６で、不規則性が空間領域内に存在する、及び不規則性が周波数領域に存在する両方の場合にだけ、画像がフェイクである旨の表示が返されてよい。

図４を簡略に参照すると、本明細書に説明するＮＮをトレーニングするためのプロセスが示されている。ブロック４００で開始すると、グラウンドトゥルースの元の改変されていない画像がＮＮに入力される。また、グラウンドトゥルースの改変された、つまりフェイクの画像もブロック４０２でＮＮに入力される。フェイク画像は、設計者によって、グラウンドトゥルースの元の画像から「ディープフェイク」技術を使用して生成され得る。ＮＮは、例えば、周波数領域と空間領域の両方について上述した任意のまたは例示的な不規則性を使用して分析を開始するようにプログラムされ得る。ＮＮは、ブロック４０４でグラウンドトゥルース入力に関してトレーニングされる。その後、ブロック４０４でＮＮのトレーニングを改良するために強化学習が適用され得る。

図５は、例示的な空間領域及び周波数領域の不規則性を示す。元の画像５００は、元の空間領域５０２及び元の周波数領域５０４に示されている。元の画像５００の改変された画像５０６は、５１０に示される改変された空間領域画像５０８及び改変された周波数領域を有する。

示されるように、改変された空間領域画像５０８内の領域５１２は、５１４で拡大され、示されるチェッカーボードパターンを有する。元の画像と改変された画像との間に、照明の不規則性が存在する場合もある。

１つまたは複数の周波数領域の不規則性５１６はまた、周波数領域５１０内の画像の表現において検出され得る。周波数領域の不規則性５１６は、示されるように、周波数領域のグラフィック描写の端縁または周辺に沿って輝点を含む場合がある。示されている例では、側面ごとに２つの輝点が存在し、周波数領域における画像改変により生じた不規則性を示している。

図６は、図３のロジックを具現化するために使用され得る例示的なアーキテクチャを示している。改変についてテストされる画像６００は、モジュール６０２のニューラルネットワーク（ＮＮ）６０４で画像の照明の不規則性、及び６０６で顔の解像度／不規則性チェックを検出するために空間領域の画像を分析する顔検出モジュール６０２に入力される。顔検出モジュール６０２は、画像認識原理を使用し得、１つまたは複数のＮＮによって具現化され得る。

また、画像６００は、追加の規則を使用した直接的な分析のために、ＣＮＮである場合があるＮＮ６０８に直接入力され得る。ＮＮ６０８が、画像の特徴ベクトルを抽出することに留意されたい。また、ＮＮ６０４は画像処理を実行し、十分なトレーニングデータがない場合に特に有利である。ただし、ＮＮ６０４、６０８は単一のＮＮによって実装される場合がある。

さらに、画像６００は、周波数領域で画像６００を表すスペクトル６１２を出力する離散フーリエ変換（ＤＦＴ）６１０によって処理される。スペクトル６１２は、スペクトルを分析するためにＣＮＮ６１４に送られる。

顔認識モジュール６０２（照明の不規則性チェック６０４及び顔の解像度／アーティファクトチェック６０６を含む）、ならびにＣＮＮ６０８及び６１４は、空間領域と周波数領域の両方で画像６００を表す特徴ベクトルのグループ６１６を生成する。長短期モジュール（ＬＳＴＭ）等のリカレントＮＮ（ＲＮＮ）等の１つまたは複数のＮＮによって実装され得る検出モジュール６１８は、特徴ベクトルを分析して、本明細書に提案される原理に従って、画像６００が元の画像からのデジタル改変を含むかどうかを確認する。画像６００がデジタル改変を含む場合、６２０で、画像６００がフェイクである可能性がある旨の表示が生成される。

図７は、改変されたビデオを検出するための第２の技法を示し、図８は、図７のロジックを具現化するための例示的なアーキテクチャを示している。ビデオクリップまたはビデオフレームの他のシーケンス等のビデオシーケンスは、ブロック７００で、ＮＮに入力される。シーケンスは、ＮＮを使用してブロック７０２で分析され、ＮＮは、７０４でビデオシーケンスを表す特徴ベクトルを出力する。

ビデオシーケンスを分析する際に、ＮＮは、例えば発話中の自然な人間の顔の動きのパターンを学習するようにトレーニングされ得る。本明細書で理解されるように、ビデオシーケンスが改変されるとき、改変者は、例えば唇の動きの自然なパターンを正確にモデル化し得ないため、わずかに不自然な動きのパターンがフェイクビデオシーケンスでＮＮによって検出され得る。

また、ビデオシーケンスと関連付けられた音声は、ブロック７０６で周波数変換に入力される。周波数変換７０６によって出力されるスペクトルは、スペクトルの分析のためにブロック７０８でＮＮに提供されて、ブロック７０４に、音声を表す特徴ベクトルを出力する。

付随する音声を分析する際に、ＮＮは、ケーデンス、トーン、ピッチパターン、及び強調等の自然な人間の発話特性を学習するようにトレーニングされ得る。本明細書で理解されるように、声の音声等の音声が改変されるとき、改変者は、人間の発話の自然なパターンを正確にモデル化し得ない。したがって、不自然なケーデンスまたはトーンまたはピッチ等のわずかに不自然な発話のパターンは、フェイク音声シーケンスでＮＮによって検出され得る。トレーニングは図４に示す線に沿って達成され得、元のグラウンドトゥルース音声から派生したグラウンドトゥルース音声及びフェイクグラウンドトゥルース音声が、トレーニングセットとして使用される。

特徴セット７０４は、特徴ベクトルを分析して、決定ひし形７１２で、入力されたビデオシーケンス及び／または付随する音声がオリジナルから改変されているかどうかを検出するためにＲＮＮ７１０等のＮＮに提供され得る。異常または不規則性が見つからない場合、プロセスは、状態７１４で終了し得るが、不規則性が検出された場合、ブロック７１６で、ビデオシーケンスが改変された可能性がある旨の表示が出力される。

いくつかの実施形態では、音声またはビデオのどちらかでなんらかの不規則性が検出された場合、フェイクの表示がブロック７１６で出力される。他の実施形態では、音声とビデオの両方で不規則性が検出された場合にのみ、フェイクの表示がブロック７１６で出力される。

図８は、図７のロジックを具現化するために使用できるアーキテクチャを示している。ビデオシーケンス８００は、ＣＮＮ等のＮＮ８０２に入力されて、そこから特徴ベクトル８０４を抽出する。また、発話８０６等の音声は、周波数領域で、そこから特徴ベクトルを抽出するためにＣＮＮ等のＮＮ８１０によって分析される音声の表現を生成するために短時間フーリエ変換（ＳＴＦＴ）等の周波数変換８０８に入力される。ＬＳＴＭ等のＲＮＮ等のＮＮ２１２は、本明細書に説明する原理に従って特徴ベクトルを分析して、ブロック８１４で、ビデオシーケンス８００及び音声８０６のあらゆる不規則性を検出する。状態８１６は、入力がフェイクである可能性がある旨の表示の出力を示す。

ここで図９に目を向けると、ブロックチェーン技術及び／またはデジタルフィンガープリント技術を使用してフェイクビデオ生成に対処するための第３の技法が示されている。一般に、ビデオのハッシュ／署名は、例えば、ウェブブラウザを使用してスマートフォンまたは他の記録デバイス等の画像化デバイスに組み込まれ得る、またはハードウェアに符号化され得る。デジタルフィンガープリントは、ビデオ全体またはサブトラックのデータのビットから生成できるため、ビデオコンテンツが変更されると、フィンガープリントも変化する。デジタルフィンガープリントは、ビデオがどこで及びいつ最初に作成されたのかの場所及びタイムスタンプ等のメタデータとともに生成できる。ビデオを再配信しようとするたびに、配信業者はブロックチェーン上の元のブロックからの許可を要求する必要があり、新しい（コピーされた）ビデオの新しいブロックが拘束されるため、元のビデオ及びブロックチェーン上の任意のノードまでたどることが容易になる。ビデオを再度アップロードする前に、ビデオのフィンガープリントを元のフィンガープリントと照合して、追加しようとするビデオが操作されているかどうかを判断できる。

例えば、ビデオウェブサイトにはビデオフィンガープリント検出器が組み込まれ得るため、ビデオがアップロード／ダウンロードされるたびに、ビデオは記録され、スタンプが付けられる。フィンガープリントが元のビデオフィンガーポイントに一致しないことに基づいて、ビデオがフェイクと分類された場合、ビデオはチェーン全体でこのようなものとして記録され得る。これはウイルス対策ソフトウェアをエミュレートするが、この場合、全てのユーザーが同時に保護される。

ブロック９００で開始すると、元の（「本物の」）ビデオはビデオのハッシュとともにビデオブロックチェーンに追加され、そのハッシュはデジタルフィンガープリントとして機能し得、通常、ビデオのピクセル値またはエンコード情報または他の画像に依存する値に基づいている。ビデオをコピーする要求はブロック９０２で受信される場合があり、要求はブロック９０４で許可される場合がある。

ブロック９０６に移動すると、元のビデオのコピーである新しいビデオを追加してブロックチェーンに戻す要求が受信される場合がある。要求には、有効であるために、新しいビデオに対するハッシュ（フィンガープリント）が伴う場合がある。決定ひし形９０８に進むと、ブロックチェーンに追加しようとするビデオのハッシュは、ビデオのコピー元であった、元のビデオのハッシュと比較され、ハッシュが一致する場合、新しいビデオはブロック９１０でブロックチェーンに追加されてよい。

他方、決定ひし形９０８で、ハッシュが一致しないと判断された場合、ロジックはブロック９１２に移動して、新しいビデオをブロックチェーンに追加することを拒否するか、またはそれを、新しいビデオがオリジナルから改変されているため、フェイクである場合がある旨の表示とともにブロックチェーンに追加し得る。所望される場合、改変されたビデオは、ブロックチェーンからアクセス不可、またはそれ以外の場合ブロック９１４で再生不可にされ得る。

さらに、改変されたビデオが検出されると、ロジックはブロック９１６に移動して、インターネットサービスプロバイダ（ＩＳＰ）または新しい改変されたビデオの他の配信業者に、ビデオが実際に元のビデオからデジタル的に改変されているため、新しい（改変された）ビデオを公けの場から削除するかどうかを決定するために調べられる必要があることを報告し得る。図１０で説明する。

示されるように、ユーザーインタフェース（ＵＩ）１０００は、図９のロジックを実行する、及び／または図９のロジックを実行するデバイスからの情報を受信するデバイスのディスプレイ１００２に提示されてよい。ＵＩ１０００は、フェイクビデオが検出された可能性がある旨のプロンプト１００４を含んでよい。ＵＩ１０００はまた、ユーザーが、識別情報とともにフェイクの存在を配信業者または他の機関に報告することを可能にするためにセレクタ１００６を含み得る。

図１１及び図１２は、追加のフィンガープリントロジックを示している。図１１のブロック１１００で開始すると、新しい元のビデオの作成に従って、及び／またはビデオのアップロードもしくはダウンロード時に、ビデオの少なくとも一部のフレーム、及びいくつかの実施形態では、ビデオの全てのフレームについて、ハッシュはフレーム内で実行される。ブロック１００２に進むと、ハッシュは次に、その派生元のフレームに埋め込まれる。

例では、ビデオフレームのハッシュは、それが肉眼では検出できず、ビデオフレーム全体で均一に分散され得るように、ビデオフレームにステガノグラフィ的に埋め込まれ得る。例えば、ステガノグラフィハッシュの各個のピクセルは、それがつねに固定位置にあるため、または場所がフレームのためのビデオメタデータに含まれている（あらゆるフレームが異なることを可能にする）ためのどちらかで、既知の場所にある場合がある。この場所を知っていることによって、ハッシュを表すピクセルをハッシュされるビデオから除外することが可能になる。言い換えれば、元のハッシュは、ステガノグラフィ的にではなく改変されたピクセルからのみ作成される。この場所はまた、ハッシュを表しているピクセルが、ハッシュに影響を与えるであろうように圧縮または改変されないことを保証するために、ビデオ圧縮アルゴリズムによって使用され得る。

図１２は、ビデオ再生ソフトウェアがこのプロセスを逆にするであろうことを示している。ブロック１２００で開始すると、ステガノグラフィ的に埋め込まれたハッシュがビデオフレームから抽出される。ブロック１２０２に移動すると、ビデオフレームの残りのピクセルがハッシュされる。決定ひし形１２０４に進むと、新たなハッシュが、フレームから抽出されたハッシュと比較される。それらが一致する場合、フレームは元のソースビデオから改変されていないため、ロジックはブロック１２０６に移動して、そのように示し、所望される場合（全てのフレームまたは少なくとも閾値数のフレームが一致すると仮定して）ブロックチェーンにビデオを追加する。ハッシュが一致しない場合、ロジックはブロック１２０８に移動して、（例えば）改変されたフレームの周りの赤い境界線または強調表示により、表示されているビデオがオリジナルから改変されていることを示す。フレームの改変された部分にも輪郭を付けてよい。

この同じ検証プロセスは、フェイクを検出し、積極的にフェイクが公開されるのを防ぐか、またはビデオに警告を付加するバックエンドサーバ上で実行され得る。

任意の悪意のある当時者が任意の意味のある方法でソースビデオを改変すると、フレームは異なるようにハッシュする、及び／または埋め込まれたステガノグラフィハッシュが破損するであろう。この活動の両端に誠実な当事者がいる限り、ビデオの改変は検出可能である。

図１３は、上記の原理を組み合わせたハイブリッド技法が使用され得ることを示す。ブロック１３００は、周波数領域分析と組み合わせた画像処理／ビデオシーケンシングの両方とも、ビデオのアーティファクト／不規則性を特定するために使用され得ることを示している。ブロック１３０２は、ビデオのアーティファクト／不規則性を特定するために、発話処理が上記技法のいずれかと組み合わせて使用され得ることをさらに示す。ブロック１３０４は、ビデオのアーティファクト／不規則性の識別が、元の（本物の）ビデオ、及び改変されているそのコピー（フェイク）を追跡するためにブロックチェーン技術と組み合わされ得ることを示す。

図１４～図１６は、図中で「フェイク」画像とラベルが付けられた、改変された画像に現れる可能性のあるアーティファクトまたは不規則性の追加の例を示す。図１４の第１の本物の画像１４００は、領域１４０４で、照明が、第１の本物の画像１４００の対応する領域においてよりも明るく見える対応する改変された画像１４０２を生成するために改変されている。同様に、第２の本物の画像１４０６は、顔の領域１４１０での照明が、本物の画像１４０６よりも明るく見える改変された画像１４０８を生成するために改変されている。改変された画像１４０２、１４０８の解像度はまた、対応する本物の画像１４００、１４０６の解像度よりも低く、ＮＮが、照明の不規則性と解像度の減少のどちらかまたは両方に基づいて改変された画像を区別することを学習できることを意味する。

図１５は、小さい領域１５０２で、改変された画像１５００を生成するために実行された敵対的生成ネットワーク（ＧＡＮ）アップサンプリングのために、画像の不規則性またはアーティファクトが存在する、改変された画像１５００を示す。領域１５０２の分解図１５０４に示されるように、ＧＡＮ不規則性は、均一ではない無地の主題（示されている例では、様々な度合いの陰影のある草）が元の画像に現れる、画像の領域の均一に無地の色を含み得る。

図１６は、本物の画像１６００、及び別の人の顔を、本物の画像１６００内の対象の顔に重ね合わせることによって本物の画像１６００から派生した改変された画像１６０２を示す。１６０４に示されるように、この重ね合わせによって、頭部または体の残りの部分に対する顔のずれ、この場合、頭部が示されている角度に対する鼻のずれが生じる。

いくつかの例示的な実施形態を参照して本原理を説明したが、これらは限定することを意図しておらず、各種の代替的な構成が本明細書で特許請求される主題を実施するために使用されてよいことを理解されたい。

Claims

システムであって、
画像を受信し、前記画像内の顔の、または前記画像の前記顔と背景との間の、または両方の少なくとも１つのテクスチャの不規則性が前記画像に存在するかどうかを判断するための少なくとも顔検出モジュールと、
前記画像を受信するための少なくとも第１のニューラルネットワークと、
前記画像を受信し、少なくとも第２のニューラルネットワークにスペクトルを出力するための少なくとも１つの離散フーリエ変換（ＤＦＴ）と、
前記顔検出モジュール、前記第１のニューラルネットワーク、及び前記第２のニューラルネットワークによって出力された特徴にアクセスして、前記画像が元の画像から改変されているかどうかを判断し、それを表す出力を提供するための少なくとも検出モジュールと
を備える、システム。
前記テクスチャの不規則性がチェッカーボードパターンを含む、請求項１に記載のシステム。
前記検出モジュールが、前記スペクトルの少なくとも１つの不規則性を検出することによって、前記画像が少なくとも部分的に元の画像から改変されていると判断する、請求項１に記載のシステム。
前記スペクトルの前記不規則性が、前記元の画像の対応する領域よりも明るい明るさの少なくとも１つの領域を含む、請求項３に記載のシステム。
前記明るさの領域が、周波数領域内の前記画像の周辺に沿って位置する、請求項４に記載のシステム。
前記スペクトルの前記不規則性が複数の明るさの領域を含む、請求項３に記載のシステム。
前記複数の明るさの領域が、周波数領域内の前記画像の周辺に沿って位置する、請求項６に記載のシステム。
前記顔検出モジュールが、前記画像が前記元の画像から改変されていることを示す、前記画像内の顔の照明の不規則性を示す特徴ベクトルを出力するために構成される、請求項１に記載のシステム。
方法であって、
画像内の顔の少なくとも１つの照明の不規則性、または前記画像内の少なくとも１つのテクスチャの不規則性、または両方を示す特徴ベクトルを出力するために、前記顔検出モジュールを介して前記画像を処理することと、
周波数領域内の前記画像の少なくとも１つの不規則性を示す特徴ベクトルを出力するために、少なくとも１つの離散フーリエ変換（ＤＦＴ）及び少なくとも１つニューラルネットワークを介して前記画像を処理することと、
前記特徴ベクトルに基づいて、前記画像が少なくとも部分的に元の画像から改変されている旨の表示を返すことと
を含む、方法。
前記テクスチャの不規則性が、前記画像内の顔のテクスチャの不規則性、または前記画像の前記顔と背景との間のテクスチャの不規則性、または両方を含む、請求項９に記載のシステム。
前記テクスチャの不規則性がチェッカーボードパターンを含む、請求項９に記載の方法。
前記周波数領域内の前記画像の前記不規則性が、前記元の画像の対応する領域よりも明るい少なくとも１つの明るさの領域を含む、請求項９に記載の方法。
前記明るさの領域が、前記周波数領域内の前記画像の周辺に沿って位置する、請求項１２に記載の方法。
前記周波数領域の前記不規則性が複数の明るさの領域を含む、請求項９に記載の方法。
前記複数の明るさの領域が、周波数領域内の前記画像の周辺に沿って位置する、請求項１４に記載の方法。
前記画像が前記元の画像から改変されていることを示す、前記画像内の顔の照明の不規則性を示す特徴ベクトルを出力することを含む、請求項９に記載の方法。
システムであって、
ビデオフレームのシーケンスを受信し、前記ビデオフレームに示される人の顔の動きが自然な動きを示すかどうかを表す特徴ベクトルを出力するための少なくとも受信モジュールと、
前記ビデオフレームのシーケンスの画像がビデオフレームの元のシーケンスの画像から改変されているかどうかを判断するために、前記受信モジュールによって出力される特徴ベクトルにアクセスするための、及びそれを表す出力を提供するための少なくとも検出モジュールと
を備える、システム。
前記ビデオフレームのシーケンスに示される前記人の顔の前記動きが、前記人が話している間の動きを含む、請求項１７に記載のシステム。
前記ビデオフレームのシーケンスに示される前記人の顔の前記動きが、前記人の唇の動きを含む、請求項１７に記載のシステム。
前記ビデオフレームのシーケンスに関連する音声を受信するために構成され、スペクトルを出力するために構成された少なくとも１つの周波数変換と、
前記スペクトルを受信し、前記音声を表す音声特徴ベクトルを出力するために構成された少なくとも１つのニューラルネットワークと、
前記音声特徴ベクトルを受信し、それに基づいて、前記音声が元の音声から改変されていることに関する表示を出力するために構成された、自然な人間の発話特性を学習するようにトレーニングされた少なくとも１つの分析モジュールと
をさらに備える、請求項１７に記載のシステム。
少なくとも１つの音声特徴ベクトルが、ケーデンス、ピッチパターン、トーンパターン、強調の少なくとも１つを表す、請求項２０に記載のシステム。