JP2023507898A

JP2023507898A - ビデオ検出方法、装置、機器及びコンピュータ可読記憶媒体

Info

Publication number: JP2023507898A
Application number: JP2022531515A
Authority: JP
Inventors: 正方; ▲華▼峰石; 国君殷; 思禹 ▲陳▼; ▲ジン▼ 邵
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2020-11-27
Filing date: 2021-06-30
Publication date: 2023-02-28
Also published as: WO2022110806A1; CN112329730B; CN112329730A; KR20220093157A

Abstract

本発明は、ビデオ検出方法、装置、機器及びコンピュータ可読記憶媒体を提供する。前記方法は、処理すべきビデオ中の複数の第１ビデオフレーム、及び前記処理すべきビデオに対応する第１ビデオストリームを取得するステップと、各前記第１ビデオフレームに対して真偽検出を行った単一フレーム検出結果を取得するステップと、前記第１ビデオストリームに対して真偽検出を行ったビデオストリーム検出結果を取得するステップと、前記複数の第１ビデオフレーム各自の単一フレーム検出結果と前記第１ビデオストリームのビデオストリーム検出結果とに基づいて、前記処理すべきビデオの真偽判別結果を特定するステップとを含む。【選択図】図１

Description

本発明は、コンピュータビジョン技術に関し、特にビデオ検出方法、装置、機器及びコンピュータ可読記憶媒体に関する。
＜関連出願の相互引用＞
本願は、２０２０年１１月２７日に提出された、出願番号が２０２０１１３６５０７４．７であって発明名称が「ビデオ検出方法、装置、機器及びコンピュータ可読記憶媒体」である中国特許出願の優先権を要求し、当該中国特許出願の全ての内容が引用によって本願に組み込まれる。

敵対的生成ネットワーク（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ、ＧＡＮ）のゲーム最適化原理又はグラフィックス方法に基づいて、現実度が極めて高い偽造ビデオを生成可能である。偽造ビデオの悪用は、多くの不良な影響をもたらす。したがって、ビデオに対して真偽検出を行ってビデオの真実性を保証する必要がある。

本発明の実施例は、ビデオ検出の技術案を提供する。

本発明の一態様は、ビデオ検出方法を提供する。前記ビデオ検出方法は、処理すべきビデオ中の複数の第１ビデオフレーム、及び前記処理すべきビデオに対応する第１ビデオストリームを取得するステップと、各前記第１ビデオフレームに対して真偽検出を行った単一フレーム検出結果を取得するステップと、前記第１ビデオストリームに対して真偽検出を行ったビデオストリーム検出結果を取得するステップと、前記複数の第１ビデオフレーム各自の単一フレーム検出結果と前記第１ビデオストリームのビデオストリーム検出結果とに基づいて、前記処理すべきビデオの真偽判別結果を特定するステップと、を含む。

本発明に係る何れか１つの実施形態を参照すると、前記処理すべきビデオ中の複数の第１ビデオフレームを取得することは、所定フレーム数スパンで前記処理すべきビデオに対してフレーム抽出処理を行い、前記複数の第１ビデオフレームを取得することを含み、前記所定フレーム数スパンは、前記処理すべきビデオに含まれるビデオフレームの総フレーム数に対して正の相関を有する。

本発明に係る何れか１つの実施形態を参照すると、各前記第１ビデオフレームに対して真偽検出を行った単一フレーム検出結果を取得するステップは、第１真偽分類ネットワークを介して前記第１ビデオフレームに対して真偽検出を行い、前記第１ビデオフレームの単一フレーム検出結果を取得することを含み、前記単一フレーム検出結果は、前記第１ビデオフレームが偽造されたものである信頼度を表すために用いられる。

本発明に係る何れか１つの実施形態を参照すると、前記第１ビデオストリームに対して真偽検出を行ったビデオストリーム検出結果を取得するステップは、第２真偽分類ネットワークを介して、前記第１ビデオストリームに含まれるビデオフレーム及びフレーム間関係に基づいて、前記第１ビデオストリームに対して真偽検出を行い、前記第１ビデオストリームのビデオストリーム検出結果を取得することを含み、前記ビデオストリーム検出結果は、前記第１ビデオストリームが偽造されたものである信頼度を表すために用いられる。

本発明に係る何れか１つの実施形態を参照すると、前記複数の第１ビデオフレーム各自の単一フレーム検出結果と前記第１ビデオストリームのビデオストリーム検出結果とに基づいて、前記処理すべきビデオの真偽判別結果を特定するステップは、前記複数の第１ビデオフレーム各自の単一フレーム検出結果をマージし、マージ結果を取得することと、前記マージ結果及び前記ビデオストリーム検出結果に基づいて、前記処理すべきビデオの真偽判別結果を特定することと、を含む。

本発明に係る何れか１つの実施形態を参照すると、前記複数の第１ビデオフレーム各自の単一フレーム検出結果をマージし、マージ結果を取得することは、前記複数の第１ビデオフレーム各自の単一フレーム検出結果をグルーピングし、１つ又は複数の単一フレーム検出結果をそれぞれ含む複数の結果グループを取得することと、各前記結果グループの平均検出結果を取得することと、非線形マッピング関数である第１所定関数によって各前記結果グループの平均検出結果を第１確率としてマッピングし、複数の前記第１確率を取得することと、各前記結果グループの平均検出結果と前記複数の第１確率とに基づいて、マージ結果を取得することと、を含む。

本発明に係る何れか１つの実施形態を参照すると、各前記結果グループの平均検出結果と前記複数の第１確率とに基づいて、マージ結果を取得することは、前記複数の第１確率のうち、第１所定閾値よりも大きい第１上側確率の割合が第１所定割合よりも大きいことに応答し、各前記第１上側確率に対応する前記結果グループの平均検出結果に基づいてマージ結果を取得することと、前記複数の第１確率のうち、第２所定閾値よりも小さい第１下側確率の割合が第２所定割合よりも大きいことに応答し、各前記第１下側確率に対応する前記結果グループの平均検出結果に基づいてマージ結果を取得することと、のうちの少なくとも１つを含み、前記第１所定閾値は、前記第２所定閾値よりも大きい。

本発明に係る何れか１つの実施形態を参照すると、前記マージ結果及び前記ビデオストリーム検出結果に基づいて、前記処理すべきビデオの真偽判別結果を特定することは、前記マージ結果と前記ビデオストリーム検出結果とを加重平均し、加重平均結果を取得することと、取得された前記加重平均結果に基づいて前記処理すべきビデオの真偽判別結果を特定することと、を含む。

本発明に係る何れか１つの実施形態を参照すると、前記第１ビデオフレームは、複数の顔を含み、各前記第１ビデオフレームに対して真偽検出を行った単一フレーム検出結果を取得するステップは、前記第１ビデオフレーム中の複数の顔に対応する顔検出枠を取得することと、各前記顔検出枠に対応する画像領域に基づいて、対応する顔の個人別検出結果を特定することと、非線形マッピング関数である第２所定関数によって各前記顔の個人別検出結果を第２確率としてマッピングし、複数の前記第２確率を取得することと、各前記顔の個人別検出結果と前記複数の第２確率とに基づいて、前記第１ビデオフレームの単一フレーム検出結果を取得することと、を含む。

本発明に係る何れか１つの実施形態を参照すると、各前記顔の個人別検出結果と前記複数の第２確率とに基づいて、前記第１ビデオフレームの単一フレーム検出結果を取得することは、前記複数の第２確率のうち、第３所定閾値よりも大きい第２確率が存在することに応答し、前記第１ビデオフレーム中の最大の個人別検出結果を前記第１ビデオフレームの単一フレーム検出結果として取得することと、前記複数の第２確率が何れも第４所定閾値よりも大きいことに応答し、前記第１ビデオフレーム中の最大の個人別検出結果を前記第１ビデオフレームの単一フレーム検出結果として取得することと、前記複数の第２確率が何れも第５所定閾値よりも小さいことに応答し、前記第１ビデオフレーム中の最小の個人別検出結果を前記第１ビデオフレームの単一フレーム検出結果として取得することと、のうちの少なくとも１つを含み、前記第３所定閾値は、前記第４所定閾値よりも大きく、前記第４所定閾値は、前記第５所定閾値よりも大きい。

本発明に係る何れか１つの実施形態を参照すると、前記第１真偽分類ネットワークは、複数種の構造の真偽分類ネットワークを含み、前記第１真偽分類ネットワークを介して前記第１ビデオフレームに対して真偽検出を行い、前記第１ビデオフレームの単一フレーム検出結果を取得することは、前記複数種の構造の真偽分類ネットワークを介して前記第１ビデオフレームに対して真偽検出を行い、複数のサブ単一フレーム検出結果を取得することと、非線形マッピング関数である第３所定関数によって前記複数のサブ単一フレーム検出結果をそれぞれ第３確率としてマッピングし、複数の第３確率を取得することと、を含み、前記第１ビデオフレームの単一フレーム検出結果は、前記複数の第３確率のうち、第６所定閾値よりも大きい第３上側確率の割合が第３所定割合よりも大きいことに応答し、各前記第３上側確率に対応するサブ単一フレーム検出結果に基づいて前記第１ビデオフレームの単一フレーム検出結果を取得することと、前記複数の第３確率のうち、第７所定閾値よりも小さい第３下側確率の割合が第４所定割合よりも大きいことに応答し、各前記第３下側確率に対応するサブ単一フレーム検出結果に基づいて前記第１ビデオフレームの単一フレーム検出結果を取得することと、のうちの少なくとも１つによって特定され、前記第６所定閾値は、前記第７所定閾値よりも大きい。

本発明に係る何れか１つの実施形態を参照すると、前記第２真偽分類ネットワークは、複数種の構造の真偽分類ネットワークを含み、前記第２真偽分類ネットワークを介して、前記第１ビデオストリームに含まれるビデオフレーム及びフレーム間関係に基づいて、前記第１ビデオストリームに対して真偽検出を行い、前記第１ビデオストリームのビデオストリーム検出結果を取得することは、前記複数種の構造の真偽分類ネットワークを介して、前記第１ビデオストリームに含まれるビデオフレーム及びフレーム間関係に基づいて、前記第１ビデオストリームに対して真偽検出を行い、複数のサブビデオストリーム検出結果を取得することと、非線形マッピング関数である第４所定関数によって前記複数のサブビデオストリーム検出結果を第４確率としてそれぞれマッピングし、複数の前記第４確率を取得することと、を含み、前記第１ビデオストリームのビデオストリーム検出結果は、前記複数の第４確率のうち、第８所定閾値よりも大きい第４上側確率の割合が第５所定割合よりも大きいことに応答し、各前記第４上側確率に対応するサブビデオストリーム検出結果に基づいて前記第１ビデオストリームのビデオストリーム検出結果を取得することと、前記複数の第４確率のうち、第９所定閾値よりも小さい第４下側確率の割合が第６所定割合よりも大きいことに応答し、各前記第４下側確率に対応するサブビデオストリーム検出結果に基づいて前記第１ビデオストリームのビデオストリーム検出結果を取得することと、のうちの少なくとも１つによって特定され、前記第８所定閾値は、前記第９所定閾値よりも大きい。

本発明に係る何れか１つの実施形態を参照すると、前記第１ビデオフレームの単一フレーム検出結果は、前記第１ビデオフレーム中のフェース画像が顔交換画像であるか否かを示し、前記第１ビデオストリームのビデオストリーム検出結果は、前記第１ビデオストリーム中のフェース画像が顔交換画像であるか否かを示し、前記処理すべきビデオの真偽判別結果は、前記処理すべきビデオが顔交換ビデオであるか否かを示す。

本発明の一態様は、ビデオ検出装置を提供する。前記ビデオ検出装置は、処理すべきビデオ中の複数の第１ビデオフレーム、及び前記処理すべきビデオに対応する第１ビデオストリームを取得するための第１取得手段と、各前記第１ビデオフレームに対して真偽検出を行った単一フレーム検出結果を取得するための第２取得手段と、前記第１ビデオストリームに対して真偽検出を行ったビデオストリーム検出結果を取得するための第３取得手段と、前記複数の第１ビデオフレーム各自の単一フレーム検出結果と前記第１ビデオストリームのビデオストリーム検出結果とに基づいて、前記処理すべきビデオの真偽判別結果を特定するための特定手段と、を備える。

本発明の一態様は、電子機器を提供する。前記電子機器は、メモリと、プロセッサとを備え、前記メモリは、プロセッサで運転され得るコンピュータ指令を記憶し、前記プロセッサは、前記コンピュータ指令を実行したときに本発明の何れかの実施形態に記載のビデオ検出方法を実施する。

本発明の一態様は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記プログラムがプロセッサによって実行されたときに、本発明の何れかの実施形態に記載のビデオ検出方法は、実施される。

コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で運転されたときに、前記電子機器におけるプロセッサは、本発明の何れかの実施形態に記載のビデオ検出方法を実施する。

本発明の実施例では、処理すべきビデオ中の複数の第１ビデオフレーム、及び前記処理すべきビデオに対応する第１ビデオストリームの両方に対して真偽検出を行い、第１ビデオフレームの単一フレーム検出結果及び第１ビデオストリームのビデオストリーム検出結果をそれぞれ取得し、前記複数の第１ビデオフレーム各自の単一フレーム検出結果と前記第１ビデオストリームのビデオストリーム検出結果とに基づいて前記処理すべきビデオの真偽判別結果を特定するため、処理すべきビデオに存在する一部の偽造ビデオフレームを検出可能であり、ビデオ検出正確率を向上させることができる。

上述した一般的な記述と後文の詳細記述が単に例示的なものと解釈的なものであり、本発明を制限するためのものではないことは、理解されるべきである。

ここでの図面は、明細書に組み込まれて明細書の一部を構成する。これらの図面は、本発明に合致する実施例を示しつつ、明細書の記載とともに本発明の仕組みを解釈するために用いられる。
本発明の少なくとも１つの実施例に示すビデオ検出方法のフローチャートである。本発明の少なくとも１つの実施例に示すビデオ検出方法の模式図である。本発明の少なくとも１つの実施例に示すビデオ検出装置の模式図である。本発明の少なくとも１つの実施例に示す電子機器の構造模式図である。

ここで、例示的な実施例を詳細に説明する。その例示は、図面に示される。以下の記述は、図面に係る際、別途示さない限り、異なる図面における同じ符号が同じ又は類似する要素を示す。以下の例示的な実施例に記述される実施形態が本発明と一致する全ての実施形態を代表するわけではない。逆に、それらは、単に添付する特許請求の範囲に詳細に記述されるような、本発明の幾つかの態様に一致する装置及び方法の例である。

本発明の実施例は、コンピュータシステム／サーバに適用可能であり、他の大量の汎用又は専用の計算システム環境又は配置とともに操作され得る。コンピュータシステム／サーバとともに使用される周知の計算システム、環境及び／又は配置に適用される例は、パソコンシステム、サーバコンピュータシステム、薄クライアント、厚クライアント、ハンドヘルド若しくはラップトップデバイス、マイクロプロセッサによるシステム、セットトップボックス、プログラム可能消費電子製品、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム、及び上記何れかのシステムを含む分散型クラウド計算技術環境等を含むが、それらに限定されない。

図１は、本発明の少なくとも１つの実施例に示すビデオ検出方法のフローチャートである。図１に示すように、当該方法は、ステップ１０１～ステップ１０４を含む。

ステップ１０１では、処理すべきビデオ中の複数の第１ビデオフレーム、及び前記処理すべきビデオに対応する第１ビデオストリームを取得する。

本発明の実施例において、前記複数の第１ビデオフレームは、前記処理すべきビデオに含まれるオリジナルビデオシーケンスに対応するビデオフレームであってもよく、オリジナルビデオシーケンスに対してフレーム抽出処理を行って取得されたビデオフレームであってもよい。前記処理すべきビデオに対応する第１ビデオストリームは、前記処理すべきビデオに含まれるオリジナルビデオシーケンスによって形成されたビデオストリームであってもよく、前記オリジナルビデオシーケンスに対してフレーム抽出処理を行って取得された、ビデオフレームによって形成されたビデオストリーム、例えば、前記複数の第１ビデオフレームによって形成されたビデオストリームであってもよい。

ステップ１０２では、各前記第１ビデオフレームに対して真偽検出を行った単一フレーム検出結果を取得する。

本発明の実施例において、第１真偽分類ネットワークを介して前記第１ビデオフレームに対して真偽検出を行い、前記第１ビデオフレームの単一フレーム検出結果を取得してもよい。前記単一フレーム検出結果は、前記第１ビデオフレームが偽造されたものである信頼度を表すために用いられ、例えば、前記単一フレーム検出結果は、単一フレーム信頼度スコアを含む。

１つの例示において、前記第１真偽分類ネットワークは、予めトレーニングされた、ビデオフレームに対して独立に検出を行う真偽分類ネットワーク、例えばＲｅｓＮｅｔ（ＲｅｓｉｄｕａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、残差ネットワーク）、ＤｅｎｓｅＮｅｔ（ＤｅｎｓｅｌｙＣｏｎｎｅｃｔｅｄＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ、密結合畳み込みネットワーク）、ＥｆｆｉｃｉｅｎｔＮｅｔ、Ｘｃｅｐｔｉｏｎ、ＳＥＮｅｔ（Ｓｑｕｅｅｚｅ－ａｎｄ－ＥｘｃｉｔａｔｉｏｎＮｅｔｗｏｒｋ、スクイーズおよび励起ネットワーク）等であってもよい。

ステップ１０３では、前記第１ビデオストリームに対して真偽検出を行ったビデオストリーム検出結果を取得する。

本発明の実施例において、第２真偽分類ネットワークを介して、前記第１ビデオストリームに対応するフレームシーケンス及びフレーム間関係に基づいて、前記第１ビデオストリームに対して真偽検出を行い、前記第１ビデオストリームのビデオストリーム検出結果を取得してもよい。前記ビデオストリーム検出結果は、前記第１ビデオストリームが偽造されたものである信頼度を表すために用いられ、例えば、前記ビデオストリーム検出結果は、ビデオストリーム信頼度スコアを含む。

１つの例示において、前記第２真偽分類ネットワークは、予めトレーニングされた、ビデオストリームを検出してフレーム間関係を考慮する真偽分類ネットワーク、例えばＣ３Ｄ（３ＤＣｏｎｖＮｅｔｓ、３Ｄ畳み込み）ネットワーク、ＳｌｏｗＦａｓｔネットワーク、Ｘ３Ｄ（Ｅｘｔｅｎｓｉｂｌｅ３Ｄ、拡張可能な３Ｄ）ネットワーク等であってもよい。

ステップ１０４では、前記複数の第１ビデオフレーム各自の単一フレーム検出結果と前記第１ビデオストリームのビデオストリーム検出結果とに基づいて、前記処理すべきビデオの真偽判別結果を特定する。

本発明の実施例において、処理すべきビデオ中の複数の第１ビデオフレーム、及び前記処理すべきビデオに対応する第１ビデオストリームに対して同時に真偽検出を行うことにより、複数の第１ビデオフレーム各自の単一フレーム検出結果及び第１ビデオストリームのビデオストリーム検出結果をそれぞれ取得し、前記複数の第１ビデオフレーム各自の単一フレーム検出結果と前記第１ビデオストリームのビデオストリーム検出結果とに基づいて前記処理すべきビデオの真偽判別結果を特定することで、処理すべきビデオに存在する一部の偽造ビデオフレームを検出可能となり、ビデオ検出正確率を向上させることができる。

幾つかの実施例において、所定フレーム数スパンで前記処理すべきビデオに対してフレーム抽出処理を行い、前記複数の第１ビデオフレームを取得してもよい。前記所定フレーム数スパンは、前記処理すべきビデオのフレーム数に基づいて特定されてもよい。例えば、前記所定フレーム数スパンは、前記処理すべきビデオに含まれるビデオフレームの総フレーム数に対して正の相関を有する。ことにより、処理すべきビデオのフレーム数に応じた所定フレーム数スパンの適応的設定を実現し、合理的な数の第１ビデオフレームを抽出できるため、ビデオ検出の効果を向上させることができる。例えば、１６０～３２０フレームを有する１０秒間のビデオについて、２をフレーム数スパンとしてフレーム抽出処理を行ってもよい。即ち、２フレームごとに１フレームを抽出する。

幾つかの実施例において、まず、前記複数の第１ビデオフレーム各自の単一フレーム検出結果をマージし、マージ結果を取得する。次に、前記マージ結果及び前記ビデオストリーム検出結果に基づいて、前記処理すべきビデオの真偽判別結果を特定してもよい。前記複数の第１ビデオフレーム各自の単一フレーム検出結果をマージすることにより、マージ結果には各単一フレーム検出結果の影響が体現されることができ、更に前記マージ結果及びビデオストリーム検出結果に基づいて処理すべきビデオの真偽判別結果を特定することで、ビデオ検出の効果を向上させることができる。

１つの例示において、以下の方式で前記複数の第１ビデオフレーム各自の単一フレーム検出結果をマージし、マージ結果を取得してもよい。

まず、前記複数の第１ビデオフレーム各自の単一フレーム検出結果をグルーピングし、１つ又は複数の単一フレーム検出結果をそれぞれ含む複数の結果グループを取得し、各前記結果グループの平均検出結果を取得する。例を挙げると、各グループの平均検出結果は、グループ内の複数のフレームの平均信頼度スコアを含んでもよい。

前記複数の第１ビデオフレームのうち、Ｍ個ずつ隣接する第１ビデオフレームを１グループとして区分することにより、前記複数の第１ビデオフレームをＮグループに分けてもよい。ただし、Ｍ、Ｎは、正整数である。当業者であれば理解できるように、前記複数の第１ビデオフレームの総数がＭの整数倍でない場合に、中の第１ビデオフレーム数がＭではないグループが出現してもよい。

例えば、第１ビデオフレームの総数が３０フレームである場合に、５個ずつ隣接する第１ビデオフレームをグルーピングすることにより、処理すべきビデオ中の複数の第１ビデオフレームを６グループに分けてもよい。

次に、第１所定関数によって各前記結果グループの平均検出結果を第１確率としてマッピングし、複数の前記第１確率を取得する。前記第１所定関数は、非線形マッピング関数である。前記第１所定関数は、例えば、正規化指数関数（Ｓｏｆｔｍａｘ関数）であってもよい。当該関数によって各グループの平均単一フレーム信頼度スコアを第１確率としてマッピングする。

本発明の実施例において、前記第１真偽分類ネットワークがロジスティック回帰ネットワークである場合に、前記第１ビデオフレームの単一フレーム検出結果は、（－∞，＋∞）区間のロジスティック出力値となる。Ｓｏｆｔｍａｘ関数によって各グループの平均検出結果を［０，１］区間の第１確率としてマッピングすることにより、各グループの平均検出結果の分布状況を体現することができる。

その後、各前記結果グループの平均検出結果と前記複数の第１確率とに基づいて、マージ結果を取得する。

各グループの平均検出結果の分布状況に応じて複数グループの平均検出結果をマージすることにより、処理すべきビデオの真偽判別結果への各グループの検出結果の影響をより正確に評価可能であるため、ビデオ検出の正確率を向上させることができる。

１つの例示において、マージ結果は、前記複数の第１確率のうち、第１所定閾値よりも大きい第１上側確率の割合が第１所定割合よりも大きいことに応答し、各前記第１上側確率に対応する前記結果グループの平均検出結果に基づいてマージ結果を取得することにより、取得されてもよい。つまり、第１所定割合を上回った第１上側確率が何れも第１所定閾値よりも大きい場合に、第１上側確率のそれぞれに対応する前記結果グループの平均検出結果に基づいてマージ結果を算出し、例えば、これらの平均検出結果の平均値をマージ結果とする。

例を挙げると、第１所定閾値が０．８５であり、第１所定割合が０．７である場合に、０．８５よりも大きい第１上側確率の割合が０．７を上回ったとき、各前記第１上側確率に対応する前記結果グループ平均検出結果の平均値をマージ結果とする。

多数の結果グループの平均検出結果が高い場合に、少数の低いグルーピング検出結果がニューラルネットワークの誤判定による結果である可能性がある。上記マージ方式により、ビデオ検出結果へのニューラルネットワークの誤判定の影響を軽減することができる。

別の例示において、マージ結果は、前記複数の第１確率のうち、第２所定閾値よりも小さい第１下側確率の割合が第２所定割合よりも大きいことに応答し、各前記第１下側確率に対応する前記結果グループの平均検出結果に基づいてマージ結果を取得することにより、取得されてもよい。つまり、第２所定割合を上回った第１下側確率が何れも第２所定閾値よりも小さい場合に、これらの第１下側確率のそれぞれに対応する前記結果グループの平均検出結果に基づいてマージ結果を算出し、例えば、これらの平均検出結果の平均値をマージ結果とする。前記第１所定閾値は、前記第２所定閾値よりも大きい。

上記例示において、前記第１所定割合と前記第２所定割合とは、同じであってもよく異なってもよい。本発明の実施例では、これについて限定しない。

例を挙げると、第２所定閾値が０．１５であり、第２所定割合が０．７である場合に、０．１５よりも小さい第１下側確率の割合が０．７を上回ったとき、各前記第１下側確率に対応する前記結果グループの平均検出結果の平均値をマージ結果とする。

多数の結果グループの平均検出結果が低い場合に、少数の高いグルーピング検出結果がニューラルネットワークの誤判定による結果である可能性がある。上記マージ方式により、ビデオ検出結果へのニューラルネットワークの誤判定の影響を軽減することができる。

１つの例示において、第１所定閾値よりも大きい第１上側確率の割合が第１所定割合以下であり、且つ第２所定閾値よりも小さい第１下側確率の割合が第２所定割合以下である場合に、前記複数の第１ビデオフレーム各自の単一フレーム検出結果に基づいてマージ結果を取得してもよい。例えば、前記複数の第１ビデオフレーム各自の単一フレーム検出結果の平均値をマージ結果としてもよい。

複数の結果グループの平均検出結果に比較的に一致する傾向がない場合に、即ち、ニューラルネットワークの各グループに対する判断に一致する傾向がない場合に、各第１ビデオフレームの単一フレーム検出結果に基づいてマージ結果を算出することにより、各第１ビデオフレームの最終的な真偽判別結果に対する貢献を同じにする。

幾つかの実施例において、前記マージ結果及び前記ビデオストリーム検出結果について、前記マージ結果と前記ビデオストリーム検出結果との加重平均結果を加重平均によって取得し、前記加重平均結果に基づいて前記処理すべきビデオの真偽判別結果を特定してもよい。

１つの例示において、前記加重平均結果を所定判別閾値と比較し、前記加重平均結果が前記所定判別閾値よりも小さいときに、前記処理すべきビデオを真として特定し、即ち、前記処理すべきビデオが偽造ビデオではないと特定してもよい。前記加重平均値が前記所定判別閾値以上であるときに、前記処理すべきビデオが偽造ビデオであると特定してもよい。

前記複数の第１ビデオフレーム中の少なくとも１つの第１ビデオフレームに複数の顔が存在する場合に、複数の顔に対してマージを行うことにより、対応する第１ビデオフレームの単一フレーム検出結果を取得してもよい。

まず、前記第１ビデオフレーム中の複数の顔に対応する顔検出枠を取得する。前記顔検出枠は、顔検出ネットワーク、例えばＲｅｔｉｎａＦａｃｅを用いて前記第１ビデオフレームに対して顔検出を行うことで取得されてもよい。顔検出が行われた第１ビデオフレームよりも後のビデオフレームについて、顔追跡ネットワーク、例えばＳｉａｍｅｓｅｎｅｔｗｏｒｋ（シャムニューラルネットワーク）を介して顔を追跡することで顔検出枠を取得してもよい。

前記第１ビデオフレームに含まれる複数の顔について、各顔ごとに対応する顔検出枠（顔検出枠は、対応する枠番号を有する）を生成し、前記顔検出枠に対して対応する顔番号をマーキングすることにより、前記第１ビデオに含まれる複数の顔を区分してもよい。例えば、前記第１ビデオフレームに３つの顔が含まれている場合に、枠番号がＡ、Ｂ、Ｃである顔検出枠をそれぞれ生成し、且つ前記顔検出枠Ａ、Ｂ、Ｃに顔番号１、２、３がそれぞれマーキングされている。

前記顔検出枠は、顔検出枠の４つの頂点の座標情報、又は、前記顔検出枠の長さと高さ情報を含む。

次に、前記顔検出枠に対応する画像領域に基づいて、対応する顔の個人別検出結果を特定する。

１つの例示において、第１真偽分類ネットワークを介して、前記顔検出枠に対応する画像領域に対して真偽検出を行い、前記顔検出枠に対応する顔の個人別検出結果を取得してもよい。

例えば、第１真偽分類ネットワークを介して、顔検出枠Ａ、Ｂ、Ｃに対応する画像領域に対してそれぞれ真偽検出を行い、顔１、２、３の個人別検出結果をそれぞれ取得してもよい。

前記第１ビデオフレーム中の複数の顔について、［顔番号、枠番号、高さ、幅、チャンネル］の入力テンソルを生成することにより、前記処理すべきビデオに存在する複数の顔を顔番号に応じてビデオフレームセットとして直列接続することができるため、処理すべきビデオ中の各顔に対して単独で検出を行い、各顔番号に対応する個人別検出結果を取得してもよい。

次に、第２所定関数によって各前記顔の個人別検出結果を第２確率としてマッピングし、複数の前記第２確率を取得する。前記第２所定関数は、非線形マッピング関数である。

前記第１ビデオフレームに対応する各結果グループの平均検出結果を第１確率としてマッピングすることと類似し、Ｓｏｆｔｍａｘ関数によって各顔の個人別検出結果を［０，１］区間の第２確率としてマッピングすることにより、処理すべきビデオに含まれる複数の顔の個人別検出結果の分布状況を体現してもよい。

最後に、各前記顔の個人別検出結果と複数の第２確率とに基づいて、前記第１ビデオフレームの単一フレーム検出結果を取得してもよい。

各顔に対応する単一フレーム検出結果の分布状況に基づいて複数の顔に対応する個人別検出結果をマージすることにより、処理すべきビデオ中の各顔に対する単独検出を実現可能であり、処理すべきビデオの真偽判別結果への各顔に対応する個人別検出結果の影響をより正確に評価することができるため、ビデオ検出の正確率を向上させることができる。

１つの例示において、複数の顔のマージ結果は、前記複数の第２確率のうち、第３所定閾値よりも大きい第２確率が存在することに応答し、又は前記第１ビデオフレームの複数の第２確率が第４所定閾値よりも大きいことに応答し、前記第１ビデオフレームの個人別検出結果のうちの最大値を前記第１ビデオフレームの単一フレーム検出結果として取得することにより、取得されてもよい。つまり、対応する第２確率が第３所定閾値よりも大きい顔が前記第１ビデオフレームに存在するとき、当該第１ビデオフレームに信頼度の高い顔検出結果が存在することを意味する。これにより、前記第１ビデオフレーム中の最大の個人別検出結果を単一フレーム検出結果とすることにより、第１ビデオフレーム全体が高い単一フレーム検出結果を有するようにしてもよい。前記複数の第２確率が何れも第４所定閾値よりも大きいとき、当該第１ビデオフレーム中の各顔検出結果の信頼度が何れも高いことを意味する。これにより、同様に前記第１ビデオフレーム中の最大の個人別検出結果を当該第１ビデオフレームの単一フレーム検出結果とすることにより、第１ビデオフレーム全体が高い単一フレーム検出結果を有するようにしてもよい。前記第３所定閾値は、前記第４所定閾値よりも大きい。

例を挙げると、第３所定閾値が０．９であり、第４所定閾値が０．６である場合に、第１ビデオフレームに０．９よりも大きい第２確率が存在し、又は第１ビデオフレームの全ての第２確率が何れも０．６よりも大きいとき、当該第１ビデオフレーム中の個人別信頼度スコアのうちの最大値を当該フレームの単一フレーム検出結果とする。

別の例示において、複数の顔のマージ結果は、前記複数の第２確率が何れも第５所定閾値よりも小さいことに応答し、前記第１ビデオフレームの個人別検出結果のうちの最小値を前記第１ビデオフレームの単一フレーム検出結果として取得することにより、取得されてもよい。つまり、前記第１ビデオフレーム中の全ての顔に対応する第２確率が何れも第５所定閾値よりも小さいとき、当該第１ビデオフレーム中の各顔検出結果の信頼度が何れも低いことを意味する。これにより、前記第１ビデオフレーム中の最小の個人別検出結果を当該第１ビデオフレームの単一フレーム検出結果とすることにより、第１ビデオフレーム全体が低い単一フレーム検出結果を有するようにしてもよい。前記第４所定閾値は、前記第５所定閾値よりも大きい。

例を挙げると、第５所定閾値が０．４である場合に、第１ビデオフレームの全ての第２確率が何れも０．４よりも小さいとき、当該第１ビデオフレーム中の個人別信頼度スコアのうちの最小値を当該フレームの単一フレーム検出結果とする。

本発明の実施例において、処理すべきビデオの第１ビデオフレームに複数の顔が存在する場合に、各顔に対応する個人別検出結果を取得し、複数の顔の個人別検出結果をマージすることにより、当該第１ビデオフレームの単一フレーム検出結果を取得する。このように、ビデオの真偽判別結果には異なる顔の検出結果の影響が考慮されたため、ビデオ検出効果を向上させる。

幾つかの実施例において、前記第１真偽分類ネットワークは、複数種の構造の真偽分類ネットワークを含み、前記複数種の構造の真偽分類ネットワークを介して前記第１ビデオフレームに対して真偽検出を行い、複数のサブ単一フレーム検出結果を取得することは、複数種の方法を採用して前記第１ビデオフレームに対して真偽検出を行ったサブ単一フレーム検出結果を取得することに等価する。第１ビデオフレームに対応する複数のサブ単一フレーム検出結果をマージすることにより、当該第１ビデオフレームの単一フレーム検出結果を取得することができる。

幾つかの実施例において、以下の方法によって第１ビデオフレームに対応する複数のサブ単一フレーム検出結果をマージしてもよい。

まず、第３所定関数によって前記複数のサブ単一フレーム検出結果をそれぞれ第３確率としてマッピングし、複数の第３確率を取得する。

前記第１ビデオフレームに対応する各グループの平均検出結果を第１確率としてマッピングすることと類似し、Ｓｏｆｔｍａｘ関数によって各サブ単一フレーム検出結果を［０，１］区間の第３確率としてマッピングすることにより、複数種の真偽分類方法で得られたサブ単一フレーム検出結果の分布状況を体現してもよい。

次に、複数のサブ単一フレーム検出結果及び複数の第３確率に基づいて、単一フレーム検出結果を取得する。

１つの例示において、前記複数の第３確率のうち、第６所定閾値よりも大きい第３上側確率の割合が第３所定割合よりも大きいことに応答し、各前記第３上側確率に対応するサブ単一フレーム検出結果に基づいて前記第１ビデオフレームの単一フレーム検出結果を取得する。つまり、第３所定割合を上回った第３上側確率が何れも第６所定閾値よりも大きい場合に、これらの第３上側確率のそれぞれに対応するサブ単一フレーム検出結果に基づいて当該第１ビデオフレームの単一フレーム検出結果を算出し、例えば、これらのサブ単一フレーム検出結果の平均値を単一フレーム検出結果とする。

例を挙げると、第６所定閾値が０．８であり、第３所定割合が０．７である場合に、０．８よりも大きい第３上側確率の割合が０．７を上回ったとき、各前記第３上側確率に対応するサブ単一フレーム信頼度スコアの平均値を単一フレーム検出結果とする。

複数のサブ単一フレーム検出結果が比較的に高い場合に、少数の比較的に低いサブ単一フレーム検出結果が、採用された対応する構造の真偽分類ネットワークの誤判定による結果である可能性がある。上記マージ方式により、ビデオ検出結果への真偽分類ネットワークの誤判定の影響を軽減することができる。

別の例示において、前記複数の第３確率のうち、第７所定閾値よりも小さい第３下側確率の割合が第４所定割合よりも大きいことに応答し、各前記第３下側確率に対応するサブ単一フレーム検出結果に基づいて前記第１ビデオフレームの単一フレーム検出結果を取得する。つまり、第４所定割合を上回った第３下側確率が何れも第７所定閾値よりも小さい場合に、これらの第３下側確率のそれぞれに対応するサブ単一フレーム検出結果に基づいて当該第１ビデオフレームの単一フレーム検出結果を算出し、例えば、これらのサブ単一フレーム検出結果の平均値をマージ結果とする。前記第６所定閾値は、前記第７所定閾値よりも大きい。

上記例示において、前記第３所定割合と前記第４所定割合は、同じであってもよく異なってもよい。本発明の実施例では、これについて限定しない。

例を挙げると、第７所定閾値が０．２であり、第４所定割合が０．７である場合に、０．２よりも小さい第３下側確率の割合が０．７を上回ったとき、各前記第３下側確率に対応するサブ単一フレーム信頼度スコアの平均値を単一フレーム検出結果とする。

複数のサブ単一フレーム検出結果が低い場合に、少数の高いサブ単一フレーム検出結果が、採用された対応する構造の真偽分類ネットワークの誤判定による結果である可能性がある。上記マージ方式により、ビデオ検出結果への真偽分類ネットワークの誤判定の影響を軽減することができる。

幾つかの実施例において、前記第２真偽分類ネットワークは、複数種の構造の真偽分類ネットワークを含み、前記複数種の構造の真偽分類ネットワークを介して前記第１ビデオフレームストリームに対して真偽検出を行い、複数のサブビデオストリーム検出結果を取得することは、複数種の方法を採用して前記第１ビデオフレームストリームに対して真偽検出を行ったサブビデオストリーム検出結果を取得することに等価する。複数のサブビデオストリーム検出結果をマージすることにより、前記第１ビデオストリームのビデオストリーム検出結果を取得することができる。

幾つかの実施例において、以下の方法によって第１ビデオストリームに対応する複数のサブビデオストリーム検出結果をマージしてもよい。

まず、第４所定関数によって前記複数のサブビデオストリーム検出結果を第４確率としてそれぞれマッピングし、複数の第４確率を取得する。

前記第１ビデオフレームに対応する各グループの平均検出結果を第１確率としてマッピングすることと類似し、Ｓｏｆｔｍａｘ関数によって各サブビデオストリーム検出結果を［０，１］区間の第４確率としてマッピングすることにより、複数種の真偽分類方法で得られたサブビデオストリーム検出結果の分布状況を体現してもよい。

次に、複数のサブビデオストリーム検出結果及び第４確率に基づいて、前記第１ビデオストリームのビデオストリーム検出結果を取得する。

１つの例示において、前記複数の第４確率のうち、第８所定閾値よりも大きい第４上側確率の割合が第５所定割合よりも大きいことに応答し、各前記第４上側確率に対応するサブビデオストリーム検出結果に基づいて前記第１ビデオストリームのビデオストリーム検出結果を取得する。つまり、第５所定割合を上回った第４上側確率が何れも第８所定閾値よりも大きい場合に、これらの第４上側確率のそれぞれに対応するサブビデオストリーム検出結果に基づいて当該第１ビデオストリームのビデオストリーム検出結果を算出し、例えば、これらのサブビデオストリーム検出結果の平均値を前記第１ビデオストリームのビデオストリーム検出結果とする。

例を挙げると、第８所定閾値が０．８であり、第５所定割合が０．７である場合に、０．８よりも大きい第４上側確率の割合が０．７を上回ったとき、各前記第４上側確率に対応するサブビデオストリーム信頼度スコアの平均値を前記第１ビデオストリームのビデオストリーム検出結果とする。

複数のサブビデオストリーム検出結果が比較的に高い場合に、少数の比較的に低いサブビデオストリーム検出結果が、採用された対応する構造の真偽分類ネットワークの誤判定による結果である可能性がある。上記マージ方式により、ビデオ検出結果への真偽分類ネットワークの誤判定の影響を軽減することができる。

別の例示において、前記複数の第４確率のうち、第９所定閾値よりも小さい第４下側確率の割合が第６所定割合よりも大きいことに応答し、各前記第４下側確率に対応するサブビデオストリーム検出結果に基づいて前記第１ビデオストリームのビデオストリーム検出結果を取得する。つまり、第６所定割合を上回った第４下側確率が何れも第９所定閾値よりも小さい場合に、これらの第４下側確率のそれぞれに対応するサブビデオストリーム検出結果に基づいて前記第１ビデオストリームのビデオストリーム検出結果を算出し、例えば、これらのサブビデオストリーム検出結果の平均値を前記第１ビデオストリームのビデオストリーム検出結果とする。前記第８所定閾値は、前記第９所定閾値よりも大きい。

上記例示において、前記第５所定割合と前記第６所定割合は、同じであってもよく異なってもよい。本発明の実施例では、これについて限定しない。

例を挙げると、第９所定閾値が０．２であり、第６所定割合が０．７である場合に、０．２よりも小さい第４下側確率の割合が０．７を上回ったとき、各前記第４下側確率に対応するサブビデオストリーム信頼度スコアの平均値を前記第１ビデオストリームのビデオストリーム検出結果とする。

複数のサブビデオストリーム検出結果が比較的に低い場合に、少数の比較的に高いサブビデオストリーム検出結果が、採用された対応する構造の真偽分類ネットワークの誤判定による結果である可能性がある。上記マージ方式により、ビデオ検出結果への真偽分類ネットワークの誤判定の影響を軽減することができる。

本発明の実施例において、各所定閾値及び各所定割合の具体的な値は、ビデオ検出結果に対する精度要求に応じて特定されてもよく、ここで限定しない。

幾つかの実施例において、処理すべきビデオ中の複数の第１ビデオフレームは、複数の顔だけでなく、複数の方法で取得されたサブ単一フレーム検出結果に対してもマージを行い、２種のマージで得られた結果を加重平均することにより、最終的な単一フレーム検出結果を取得してもいい。

また、２種のマージを行う前後順について制限しない。

図２は、本発明の少なくとも１つの実施例に示すビデオ検出方法の模式図である。

図２に示すように、まず、処理すべきビデオ中の複数の第１ビデオフレーム、及び前記複数の第１ビデオフレームによって形成される第１ビデオストリームを取得する。

第１ビデオフレームを処理することにより、前記第１ビデオフレームの単一フレーム検出結果を取得する。まず、第１ビデオフレームに含まれる複数の顔に対してそれぞれ真偽検出を行い、各顔に対応する個人別検出結果をマージすることで顔マージ結果を取得する。次に、複数種の方法によって前記第１ビデオフレームに対して真偽検出を行い、各種の方法に対応するサブ単一フレーム検出結果をマージすることで方法マージ結果を取得し、前記顔マージ結果と前記方法マージ結果とを加重平均することで、前記第１ビデオフレームに対応する単一フレーム検出結果を取得する。更に、複数の第１ビデオフレーム各自の単一フレーム検出結果をマージすることにより、複数の第１ビデオフレームに対応するマージ結果を取得する。

一方で、第１ビデオストリームを処理することで前記第１ビデオストリームのビデオストリーム検出結果を取得する。複数種の方法によって前記第１ビデオストリームに対して真偽検出を行い、各種の方法に対応するサブビデオ検出結果をマージすることでビデオストリーム検出結果を取得する。

最後に、前記複数の第１ビデオフレームに対応するマージ結果と前記第１ビデオストリームに対応するビデオストリーム検出結果とを加重平均し、加重平均の結果に基づいて前記処理すべきビデオの真偽判別結果を特定する。

本発明の実施例において、複数種のマージ方式を組み合わせることによって処理すべきビデオの真偽判別結果を取得し、実ビデオフレームと偽造ビデオフレームとが同時に存在するビデオ、及び実顔と偽造顔とが同時に存在するビデオについて、有効的な真偽検出を行い、正確率の高いビデオ検出結果を取得することができる。

ビデオへの顔交換技術の応用が肖像権、著作権等の複数の側面の問題を引き起こす可能性があるため、ビデオが顔交換ビデオであるか否かを検出することは、重要な意義を有する。

幾つかの実施例において、第１ビデオフレームに対する真偽検出は、顔交換検出であってもよく、取得された単一フレーム検出結果は、前記第１ビデオフレーム中のフェース画像が顔交換フェース画像であるか否かを示すための検出結果である。例えば、前記検出結果に含まれるスコアが高いほど、前記第１ビデオフレーム中のフェース画像が顔交換フェース画像である信頼度が高くなることを意味する。同理にて、第１ビデオストリームに対する真偽検出は、顔交換検出であってもよく、取得されたビデオストリーム検出結果は、前記第１ビデオストリーム中のフェース画像が顔交換フェース画像であるか否かを示すための検出結果である。前記複数の第１ビデオフレーム各自の単一フレーム検出結果と前記第１ビデオストリームのビデオストリーム検出結果とに基づいて、前記処理すべきビデオが顔交換ビデオであるか否かの判別結果を取得してもよい。

図３は、本発明の実施例に示すビデオ検出装置の模式図である。図３に示すように、当該装置は、処理すべきビデオ中の複数の第１ビデオフレーム、及び前記処理すべきビデオに対応する第１ビデオストリームを取得するための第１取得手段３０１と、各前記第１ビデオフレームに対して真偽検出を行った単一フレーム検出結果を取得するための第２取得手段３０２と、前記第１ビデオストリームに対して真偽検出を行ったビデオストリーム検出結果を取得するための第３取得手段３０３と、前記複数の第１ビデオフレーム各自の単一フレーム検出結果と前記第１ビデオストリームのビデオストリーム検出結果とに基づいて、前記処理すべきビデオの真偽判別結果を特定するための特定手段３０４と、を備える。

幾つかの実施例において、前記第１取得手段は、具体的に、所定フレーム数スパンで前記処理すべきビデオに対してフレーム抽出処理を行い、前記複数の第１ビデオフレームを取得する。前記所定フレーム数スパンは、前記処理すべきビデオに含まれるビデオフレームの総フレーム数に対して正の相関を有する。

幾つかの実施例において、前記第２取得手段は、具体的に、第１真偽分類ネットワークを介して各前記第１ビデオフレームに対して真偽検出を行い、各前記第１ビデオフレームの単一フレーム検出結果を取得する。前記単一フレーム検出結果は、前記第１ビデオフレームが偽造されたものである信頼度を表すために用いられる。

幾つかの実施例において、前記第２取得手段は、具体的に、第２真偽分類ネットワークを介して、各前記第１ビデオストリームに含まれるビデオフレーム及びフレーム間関係に基づいて、各前記第１ビデオストリームに対して真偽検出を行い、各前記第１ビデオストリームのビデオストリーム検出結果を取得する。前記ビデオストリーム検出結果は、前記第１ビデオストリームが偽造されたものである信頼度を表すために用いられる。

幾つかの実施例において、前記特定手段は、具体的に、前記複数の第１ビデオフレーム各自の単一フレーム検出結果をマージし、マージ結果を取得し、前記マージ結果及び前記ビデオストリーム検出結果に基づいて、前記処理すべきビデオの真偽判別結果を特定する。

幾つかの実施例において、前記特定手段は、前記複数の第１ビデオフレーム各自の単一フレーム検出結果をマージし、マージ結果を取得する際に、具体的に、前記複数の第１ビデオフレーム各自の単一フレーム検出結果をグルーピングし、１つ又は複数の単一フレーム検出結果をそれぞれ含む複数の結果グループを取得し、各前記結果グループの平均検出結果を取得し、第１所定関数によって各前記結果グループの平均検出結果を第１確率としてマッピングし、複数の前記第１確率を取得し、各前記結果グループの平均検出結果と前記複数の第１確率とに基づいて、マージ結果を取得する。前記第１所定関数は、非線形マッピング関数である。

幾つかの実施例において、前記特定手段は、各前記結果グループの平均検出結果と前記複数の第１確率とに基づいて、マージ結果を取得する際に、具体的に、前記複数の第１確率のうち、第１所定閾値よりも大きい第１上側確率の割合が第１所定割合よりも大きいことに応答し、各前記第１上側確率に対応する前記結果グループの平均検出結果に基づいてマージ結果を取得し、及び／又は、前記複数の第１確率のうち、第２所定閾値よりも小さい第１下側確率の割合が第２所定割合よりも大きいことに応答し、各前記第１下側確率に対応する前記結果グループの平均検出結果に基づいてマージ結果を取得し、前記第１所定閾値は、前記第２所定閾値よりも大きい。

幾つかの実施例において、前記特定手段は、前記マージ結果及び前記ビデオストリーム検出結果に基づいて、前記処理すべきビデオの真偽判別結果を特定する際に、具体的に、前記マージ結果と前記ビデオストリーム検出結果とを加重平均し、取得された加重平均結果に基づいて前記処理すべきビデオの真偽判別結果を特定する。

幾つかの実施例において、前記第１ビデオフレームは、複数の顔を含み、前記第２取得手段は、具体的に、前記第１ビデオフレーム中の複数の顔に対応する顔検出枠を取得し、前記顔検出枠に対応する画像領域に基づいて、対応する顔の個人別検出結果を特定し、第２所定関数によって各顔の個人別検出結果を第２確率としてマッピングし、複数の前記第２確率を取得し、各前記顔の個人別検出結果と前記複数の第２確率とに基づいて、前記第１ビデオフレームの単一フレーム検出結果を取得する。前記第２所定関数は、非線形マッピング関数である。

幾つかの実施例において、前記第２取得手段は、各前記顔の個人別検出結果と前記複数の第２確率とに基づいて、前記第１ビデオフレームの単一フレーム検出結果を取得する際に、具体的に、前記複数の第２確率のうち、第３所定閾値よりも大きい第２確率が存在することに応答し、前記第１ビデオフレーム中の最大の個人別検出結果を前記第１ビデオフレームの単一フレーム検出結果として取得し、及び／又は、前記複数の第２確率が何れも第４所定閾値よりも大きいことに応答し、前記第１ビデオフレーム中の最大の個人別検出結果を前記第１ビデオフレームの単一フレーム検出結果として取得し、及び／又は、複数の第２確率が何れも第５所定閾値よりも小さいことに応答し、前記第１ビデオフレーム中の最小の個人別検出結果を前記第１ビデオフレームの単一フレーム検出結果として取得する。前記第３所定閾値は、前記第４所定閾値よりも大きく、前記第４所定閾値は、前記第５所定閾値よりも大きい。

幾つかの実施例において、前記第１真偽分類ネットワークは、複数種の構造の真偽分類ネットワークを含み、前記第２取得手段は、第１真偽分類ネットワークを介して前記第１ビデオフレームに対して真偽検出を行い、前記第１ビデオフレームの単一フレーム検出結果を取得する際に、具体的に、前記複数種の構造の真偽分類ネットワークを介して前記第１ビデオフレームに対して真偽検出を行い、複数のサブ単一フレーム検出結果を取得し、第３所定関数によって前記複数のサブ単一フレーム検出結果をそれぞれ第３確率としてマッピングし、複数の第３確率を取得し、前記複数の第３確率のうち、第６所定閾値よりも大きい第３上側確率の割合が第３所定割合よりも大きいことに応答し、各前記第３上側確率に対応するサブ単一フレーム検出結果に基づいて前記第１ビデオフレームの単一フレーム検出結果を取得し、及び／又は、前記複数の第３確率のうち、第７所定閾値よりも小さい第３下側確率の割合が第４所定割合よりも大きいことに応答し、各前記第３概下率に対応するサブ単一フレーム検出結果に基づいて前記第１ビデオフレームの単一フレーム検出結果を取得する。前記第３所定関数は、非線形マッピング関数であり、前記第６所定閾値は、前記第７所定閾値よりも大きい。

幾つかの実施例において、前記第２真偽分類ネットワークは、複数種の構造の真偽分類ネットワークを含み、前記第３取得手段は、第２真偽分類ネットワークを介して、前記第１ビデオストリームに含まれるビデオフレーム及びフレーム間関係に基づいて、前記第１ビデオストリームに対して真偽検出を行い、前記第１ビデオストリームのビデオストリーム検出結果を取得する際に、具体的に、前記複数種の構造の真偽分類ネットワークを介して、前記第１ビデオストリームに含まれるビデオフレーム及びフレーム間関係に基づいて、前記第１ビデオストリームに対して真偽検出を行い、複数のサブビデオストリーム検出結果を取得し、第４所定関数によって前記複数のサブビデオストリーム検出結果を第４確率としてそれぞれマッピングし、複数の前記第４確率を取得し、前記複数の第４確率のうち、第８所定閾値よりも大きい第４上側確率の割合が第５所定割合よりも大きいことに応答し、各前記第４概上率に対応するサブビデオストリーム検出結果に基づいて前記第１ビデオストリームのビデオストリーム検出結果を取得し、及び／又は、前記複数の第４確率のうち、第９所定閾値よりも小さい第４下側確率の割合が第６所定割合よりも大きいことに応答し、各前記第４下側確率に対応するサブビデオストリーム検出結果に基づいて前記第１ビデオストリームのビデオストリーム検出結果を取得する。前記第４所定関数は、非線形マッピング関数であり、前記第８所定閾値は、前記第９所定閾値よりも大きい。

幾つかの実施例において、前記単一フレーム検出結果は、前記第１ビデオフレーム中のフェース画像が顔交換画像であるか否かを示し、前記第１ビデオストリームのビデオストリーム検出結果は、前記第１ビデオストリーム中のフェース画像が顔交換画像であるか否かを示し、前記処理すべきビデオの真偽判別結果は、前記処理すべきビデオが顔交換ビデオであるか否かを示す。

図４は、本発明の少なくとも１つの実施例に係る電子機器を示す。前記電子機器は、メモリと、プロセッサとを備える。前記メモリは、プロセッサで運転され得るコンピュータ指令を記憶し、前記プロセッサは、前記コンピュータ指令を実行したときに本発明の何れかの実現方式に記載のビデオ検出方法を実施する。

本発明の少なくとも１つの実施例は、コンピュータ可読記憶媒体を更に提供する。当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記プログラムがプロセッサによって実行されたときに、本発明の何れかの実現方式に記載のビデオ検出方法は、実施される。

当業者であれば理解できるように、本明細書の１つ又は複数の実施例は、方法、システム又はコンピュータプログラム製品として提供され得る。したがって、本明細書の１つ又は複数の実施例は、１００％ハードウェアの実施例、１００％ソフトウェアの実施例、又はソフトウェアとハードウェアとを組み合わせた態様の実施例の形式を採用してもよい。また、本明細書の１つ又は複数の実施例は、１つまたは複数の、コンピュータ利用可能なプログラムコードを含むコンピュータ利用可能な記憶媒体（磁気ディスクメモリ、ＣＤ－ＲＯＭ、光学メモリ等を含むが、それらに限定されない）で実施されるコンピュータプログラム製品の形式を採用してもよい。

本明細書における各実施例は、何れも漸進の方式で記述され、各実施例は、他の実施例との相違点を重点的に説明し、各実施例同士の同じ又は類似する部分が互いに参照すればよい。特にデータ処理機器の実施例は、方法実施例に基本的に類似するため、記述が相対的に簡単であり、関連箇所が方法実施例の部分の説明を参照すればよい。

上述したのは、本明細書の特定の実施例について記述した。他の実施例は、添付する特許請求の範囲のスコープ内に含まれる。幾つかの場合において、特許請求の範囲に記載の挙動又はステップは、実施例における順番と異なる順番で実行可能であり、且つ依然として所望の結果を得ることができる。また、図面に描かれた手順は、示された特定の順番又は連続順番でないと所望の結果を得られないことを要求するとは限らない。幾つかの実施形態において、マルチタスク処理及び並行処理も、実行可能であり、又は有利なものである。

本明細書における記述されたテーマ及び機能操作の実施例は、デジタル電子回路、有形的に体現されたコンピュータソフトウェア若しくはファームウェア、本発明に開示された構造及びその構造的均等物を含むコンピュータハードウェア、又はそれらのうちの１つ又は複数の組み合わせにおいて実現され得る。本明細書に記述されたテーマの実施例は、１つ又は複数のコンピュータプログラム、即ち、有形の非一時的なプログラムキャリア上にコーディングされることでデータ処理装置によって実行され又はデータ処理装置の操作を制御されるコンピュータプログラム指令における１つ又は複数のモジュールとして実現され得る。代替的に又は追加的に、プログラム指令は、人工で生成された伝送信号、例えば機器で生成された電気、光又は電磁的信号にコーディングされてもよい。当該信号は、生成されることで情報を符号化して適切な受信機装置へ伝送されてデータ処理装置に実行させる。コンピュータ記憶媒体は、機器読み取り可能な記憶機器、機器読み取り可能な記憶基板、ランダム若しくはシリアルアクセスメモリ機器、又はそれらのうちの１つ又は複数の組み合わせであってもよい。

本明細書に記述された処理及び論理フローは、１つ又は複数のコンピュータプログラムを実行する１つ又は複数のプログラマブルコンピュータによって実施されて、入力データに応じて操作を行って出力を生成して対応する機能を実行させてもよい。前記処理及び論理フローは、専用論理回路、例えばＦＰＧＡ（フィールドプログラマブルゲートアレイ）又はＡＳＩＣ（特定用途向け集積回路）によって実行されてもよく、装置も専用論理回路として実現されてもよい。

コンピュータプログラムの実行に適するコンピュータは、例えば、汎用及び／又は専用マイクロプロセッサ、又は如何なる他のタイプの中央処理装置を含む。通常、中央処理装置は、読み出し専用メモリ及び／又はランダムアクセスメモリから指令及びデータを受信する。コンピュータの基本ユニットは、指令を実施や実行するための中央処理装置と、指令及びデータを記憶するための１つ又は複数のメモリ機器とを備える。通常、コンピュータは、更に、データを記憶するための１つ又は複数の大容量記憶機器、例えば、磁気ディスク、磁光ディスク又は光ディスク等を含み、又は、コンピュータは、この大容量記憶機器に操作可能にカップリングされてそれからデータを受信したりそれへデータを伝送したりし、又は、２種の状況を兼ね備える。しかし、コンピュータは、このような機器を必ず有するとは限らない。また、コンピュータは、別の機器、例えば、携帯電話、パーソナルデジタルアシスタント（ＰＤＡ）、モバイルオーディオ又はビデオプレーヤ、ゲームコンソール、全地球測位システム（ＧＰＳ）受信機、又は、例えばユニバーサルシリアルバス（ＵＳＢ）フラッシュメモリドライバの携帯型記憶機器に組み込まれてもよい。以上は、単に幾つかの例である。

コンピュータプログラム指令及びデータを記憶するのに適するコンピュータ可読媒体は、あらゆる形態の不揮発性メモリ、メディアとメモリ機器を含み、例えば、半導体メモリ機器（例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭとフラッシュメモリ機器）、磁気ディスク（例えば、内部ハードディスク又はリムーバブルディスク）、磁光ディスク及びＣＤＲＯＭとＤＶＤ－ＲＯＭディスクを含む。プロセッサとメモリは、専用論理回路によって補充され又は専用論理回路に統合されてもよい。

本発明が大量の具体的な実施詳細を含むが、これらの詳細は、如何なる開示範囲又は保護請求される範囲を制限するとは解釈されるべきではなく、主に特定の開示された具体的な実施例の特徴を記述するために用いられる。本明細書の複数の実施例に記述された幾つかの特徴は、単一の実施例において組み合わせて実施されてもよい。その一方、単一の実施例に記述された各種の特徴は、複数の実施例に分けて実施され、又は、如何なる適切なサブ組み合わせとして実施されてもよい。また、特徴が上記のように幾つかの組み合わせにおいて役割を果たし、ひいてはこのように保護するように要求されてもよいが、保護請求される組み合わせからの１つ又は複数の特徴は、幾つかの場合において当該組み合わせから除去されてもよく、更に、保護請求される組み合わせは、サブ組み合わせ又はサブ組み合わせの変形を指してもよい。

類似的に、図面に特定の順番で操作が描かれたが、これらの操作が示された特定の順番で実行され又は順に実行され又は全ての例示の操作が実行されて所望の結果を得ることを要求するとして理解されるべきではない。幾つかの場合に、マルチタスク及び並行処理は、有利である可能性がある。また、上記実施例における各種のシステムモジュールとユニットの分離は、全ての実施例においてこのような分離を必要とすると理解されるべきではない。更に、理解できるように、記述されるプログラムユニット及びシステムは、通常、単一のソフトウェア製品に統合されてもよく、又は複数のソフトウェア製品としてカプセル化されてもよい。

このように、テーマの特定実施例が記述された。他の実施例は、添付する特許請求の範囲のスコープ内に含まれる。幾つかの場合において、特許請求の範囲に記載の動作は、異なる順番で実行可能であり、且つ依然として所望の結果を得ることができる。また、図面に描かれた処理が必ずしも示された特定の順番又は連続順番で所望の結果を得るとは限らない。幾つかの実施形態において、マルチタスク処理及び並行処理は、有利である可能性がある。

上述したのは、本明細書の１つ又は複数の実施例の好適な実施例に過ぎず、本明細書の１つ又は複数の実施例を制限するためのものではない。本発明の１つ又は複数の実施例の精神及び原則内でなされた如何なる変更、均等物による置換、改良等も、本発明の１つ又は複数の実施例の保護範囲内に含まれるべきである。

Claims

処理すべきビデオ中の複数の第１ビデオフレーム、及び前記処理すべきビデオに対応する第１ビデオストリームを取得するステップと、
各前記第１ビデオフレームに対して真偽検出を行った単一フレーム検出結果を取得するステップと、
前記第１ビデオストリームに対して真偽検出を行ったビデオストリーム検出結果を取得するステップと、
前記複数の第１ビデオフレーム各自の単一フレーム検出結果と前記第１ビデオストリームのビデオストリーム検出結果とに基づいて、前記処理すべきビデオの真偽判別結果を特定するステップと、を含むことを特徴とするビデオ検出方法。
前記処理すべきビデオ中の複数の第１ビデオフレームを取得することは、
所定フレーム数スパンで前記処理すべきビデオに対してフレーム抽出処理を行い、前記複数の第１ビデオフレームを取得することを含み、
前記所定フレーム数スパンは、前記処理すべきビデオに含まれるビデオフレームの総フレーム数に対して正の相関を有することを特徴とする請求項１に記載のビデオ検出方法。
各前記第１ビデオフレームに対して真偽検出を行った単一フレーム検出結果を取得するステップは、
第１真偽分類ネットワークを介して前記第１ビデオフレームに対して真偽検出を行い、前記第１ビデオフレームの単一フレーム検出結果を取得することを含み、
前記単一フレーム検出結果は、前記第１ビデオフレームが偽造されたものである信頼度を表すために用いられることを特徴とする請求項１又は２に記載のビデオ検出方法。
前記第１ビデオストリームに対して真偽検出を行ったビデオストリーム検出結果を取得するステップは、
第２真偽分類ネットワークを介して、前記第１ビデオストリームに含まれるビデオフレーム及びフレーム間関係に基づいて、前記第１ビデオストリームに対して真偽検出を行い、前記第１ビデオストリームのビデオストリーム検出結果を取得することを含み、
前記ビデオストリーム検出結果は、前記第１ビデオストリームが偽造されたものである信頼度を表すために用いられることを特徴とする請求項１から３の何れか一項に記載のビデオ検出方法。
前記複数の第１ビデオフレーム各自の単一フレーム検出結果と前記第１ビデオストリームのビデオストリーム検出結果とに基づいて、前記処理すべきビデオの真偽判別結果を特定するステップは、
前記複数の第１ビデオフレーム各自の単一フレーム検出結果をマージし、マージ結果を取得することと、
前記マージ結果及び前記ビデオストリーム検出結果に基づいて、前記処理すべきビデオの真偽判別結果を特定することと、を含むことを特徴とする請求項１から４の何れか一項に記載のビデオ検出方法。
前記複数の第１ビデオフレーム各自の単一フレーム検出結果をマージし、マージ結果を取得することは、
前記複数の第１ビデオフレーム各自の単一フレーム検出結果をグルーピングし、１つ又は複数の単一フレーム検出結果をそれぞれ含む複数の結果グループを取得することと、
各前記結果グループの平均検出結果を取得することと、
非線形マッピング関数である第１所定関数によって各前記結果グループの平均検出結果を第１確率としてマッピングし、複数の前記第１確率を取得することと、
各前記結果グループの平均検出結果と前記複数の第１確率とに基づいて、マージ結果を取得することと、を含むことを特徴とする請求項５に記載のビデオ検出方法。
各前記結果グループの平均検出結果と前記複数の第１確率とに基づいて、マージ結果を取得することは、
前記複数の第１確率のうち、第１所定閾値よりも大きい第１上側確率の割合が第１所定割合よりも大きいことに応答し、各前記第１上側確率に対応する前記結果グループの平均検出結果に基づいてマージ結果を取得することと、
前記複数の第１確率のうち、第２所定閾値よりも小さい第１下側確率の割合が第２所定割合よりも大きいことに応答し、各前記第１下側確率に対応する前記結果グループの平均検出結果に基づいてマージ結果を取得することと、のうちの少なくとも１つを含み、
前記第１所定閾値は、前記第２所定閾値よりも大きいことを特徴とする請求項６に記載のビデオ検出方法。
前記マージ結果及び前記ビデオストリーム検出結果に基づいて、前記処理すべきビデオの真偽判別結果を特定することは、
前記マージ結果と前記ビデオストリーム検出結果とを加重平均し、加重平均結果を取得することと、
取得された前記加重平均結果に基づいて前記処理すべきビデオの真偽判別結果を特定することと、を含むことを特徴とする請求項５から７の何れか一項に記載のビデオ検出方法。
前記第１ビデオフレームは、複数の顔を含み、
各前記第１ビデオフレームに対して真偽検出を行った単一フレーム検出結果を取得するステップは、
前記第１ビデオフレーム中の複数の顔に対応する顔検出枠を取得することと、
各前記顔検出枠に対応する画像領域に基づいて、対応する顔の個人別検出結果を特定することと、
非線形マッピング関数である第２所定関数によって各前記顔の個人別検出結果を第２確率としてマッピングし、複数の前記第２確率を取得することと、
各前記顔の個人別検出結果と前記複数の第２確率とに基づいて、前記第１ビデオフレームの単一フレーム検出結果を取得することと、を含むことを特徴とする請求項１から８の何れか一項に記載のビデオ検出方法。
各前記顔の個人別検出結果と前記複数の第２確率とに基づいて、前記第１ビデオフレームの単一フレーム検出結果を取得することは、
前記複数の第２確率のうち、第３所定閾値よりも大きい第２確率が存在することに応答し、前記第１ビデオフレーム中の最大の個人別検出結果を前記第１ビデオフレームの単一フレーム検出結果として取得することと、
前記複数の第２確率が何れも第４所定閾値よりも大きいことに応答し、前記第１ビデオフレーム中の最大の個人別検出結果を前記第１ビデオフレームの単一フレーム検出結果として取得することと、
前記複数の第２確率が何れも第５所定閾値よりも小さいことに応答し、前記第１ビデオフレーム中の最小の個人別検出結果を前記第１ビデオフレームの単一フレーム検出結果として取得することと、のうちの少なくとも１つを含み、
前記第３所定閾値は、前記第４所定閾値よりも大きく、前記第４所定閾値は、前記第５所定閾値よりも大きいことを特徴とする請求項９に記載のビデオ検出方法。
前記第１真偽分類ネットワークは、複数種の構造の真偽分類ネットワークを含み、
前記第１真偽分類ネットワークを介して前記第１ビデオフレームに対して真偽検出を行い、前記第１ビデオフレームの単一フレーム検出結果を取得することは、
前記複数種の構造の真偽分類ネットワークを介して前記第１ビデオフレームに対して真偽検出を行い、複数のサブ単一フレーム検出結果を取得することと、
非線形マッピング関数である第３所定関数によって前記複数のサブ単一フレーム検出結果をそれぞれ第３確率としてマッピングし、複数の第３確率を取得することと、を含み、
前記第１ビデオフレームの単一フレーム検出結果は、
前記複数の第３確率のうち、第６所定閾値よりも大きい第３上側確率の割合が第３所定割合よりも大きいことに応答し、各前記第３上側確率に対応するサブ単一フレーム検出結果に基づいて前記第１ビデオフレームの単一フレーム検出結果を取得することと、
前記複数の第３確率のうち、第７所定閾値よりも小さい第３下側確率の割合が第４所定割合よりも大きいことに応答し、各前記第３下側確率に対応するサブ単一フレーム検出結果に基づいて前記第１ビデオフレームの単一フレーム検出結果を取得することと、のうちの少なくとも１つによって特定され、
前記第６所定閾値は、前記第７所定閾値よりも大きいことを特徴とする請求項３に記載のビデオ検出方法。
前記第２真偽分類ネットワークは、複数種の構造の真偽分類ネットワークを含み、
前記第２真偽分類ネットワークを介して、前記第１ビデオストリームに含まれるビデオフレーム及びフレーム間関係に基づいて、前記第１ビデオストリームに対して真偽検出を行い、前記第１ビデオストリームのビデオストリーム検出結果を取得することは、
前記複数種の構造の真偽分類ネットワークを介して、前記第１ビデオストリームに含まれるビデオフレーム及びフレーム間関係に基づいて、前記第１ビデオストリームに対して真偽検出を行い、複数のサブビデオストリーム検出結果を取得することと、
非線形マッピング関数である第４所定関数によって前記複数のサブビデオストリーム検出結果を第４確率としてそれぞれマッピングし、複数の前記第４確率を取得することと、を含み、
前記第１ビデオストリームのビデオストリーム検出結果は、
前記複数の第４確率のうち、第８所定閾値よりも大きい第４上側確率の割合が第５所定割合よりも大きいことに応答し、各前記第４上側確率に対応するサブビデオストリーム検出結果に基づいて前記第１ビデオストリームのビデオストリーム検出結果を取得することと、
前記複数の第４確率のうち、第９所定閾値よりも小さい第４下側確率の割合が第６所定割合よりも大きいことに応答し、各前記第４下側確率に対応するサブビデオストリーム検出結果に基づいて前記第１ビデオストリームのビデオストリーム検出結果を取得することと、のうちの少なくとも１つによって特定され、
前記第８所定閾値は、前記第９所定閾値よりも大きいことを特徴とする請求項４に記載のビデオ検出方法。
前記第１ビデオフレームの単一フレーム検出結果は、前記第１ビデオフレーム中のフェース画像が顔交換画像であるか否かを示し、前記第１ビデオストリームのビデオストリーム検出結果は、前記第１ビデオストリーム中のフェース画像が顔交換画像であるか否かを示し、前記処理すべきビデオの真偽判別結果は、前記処理すべきビデオが顔交換ビデオであるか否かを示すことを特徴とする請求項１から１２の何れか一項に記載のビデオ検出方法。
処理すべきビデオ中の複数の第１ビデオフレーム、及び前記処理すべきビデオに対応する第１ビデオストリームを取得するための第１取得手段と、
各前記第１ビデオフレームに対して真偽検出を行った単一フレーム検出結果を取得するための第２取得手段と、
前記第１ビデオストリームに対して真偽検出を行ったビデオストリーム検出結果を取得するための第３取得手段と、
前記複数の第１ビデオフレーム各自の単一フレーム検出結果と前記第１ビデオストリームのビデオストリーム検出結果とに基づいて、前記処理すべきビデオの真偽判別結果を特定するための特定手段と、を備えることを特徴とするビデオ検出装置。
電子機器であって、
メモリと、プロセッサとを備え、
前記メモリは、プロセッサで運転され得るコンピュータ指令を記憶し、前記プロセッサは、前記コンピュータ指令を実行したときに請求項１から１３の何れか一項に記載のビデオ検出方法を実施することを特徴とする電子機器。
コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、
前記プログラムがプロセッサによって実行されたときに、請求項１から１３の何れか一項に記載のビデオ検出方法は、実施されることを特徴とするコンピュータ可読記憶媒体。
コンピュータ可読コードを含むコンピュータプログラムであって、
前記コンピュータ可読コードが電子機器で運転されたときに、前記電子機器におけるプロセッサは、請求項１から１３の何れか一項に記載のビデオ検出方法を実施することを特徴とするコンピュータプログラム。