JP2023507898A - ビデオ検出方法、装置、機器及びコンピュータ可読記憶媒体 - Google Patents

ビデオ検出方法、装置、機器及びコンピュータ可読記憶媒体 Download PDF

Info

Publication number
JP2023507898A
JP2023507898A JP2022531515A JP2022531515A JP2023507898A JP 2023507898 A JP2023507898 A JP 2023507898A JP 2022531515 A JP2022531515 A JP 2022531515A JP 2022531515 A JP2022531515 A JP 2022531515A JP 2023507898 A JP2023507898 A JP 2023507898A
Authority
JP
Japan
Prior art keywords
video
detection
frame
result
detection result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022531515A
Other languages
English (en)
Inventor
正 方
▲華▼峰 石
国君 殷
思禹 ▲陳▼
▲ジン▼ 邵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sensetime Intelligent Technology Co Ltd
Original Assignee
Shanghai Sensetime Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sensetime Intelligent Technology Co Ltd filed Critical Shanghai Sensetime Intelligent Technology Co Ltd
Publication of JP2023507898A publication Critical patent/JP2023507898A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/95Pattern authentication; Markers therefor; Forgery detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本発明は、ビデオ検出方法、装置、機器及びコンピュータ可読記憶媒体を提供する。前記方法は、処理すべきビデオ中の複数の第1ビデオフレーム、及び前記処理すべきビデオに対応する第1ビデオストリームを取得するステップと、各前記第1ビデオフレームに対して真偽検出を行った単一フレーム検出結果を取得するステップと、前記第1ビデオストリームに対して真偽検出を行ったビデオストリーム検出結果を取得するステップと、前記複数の第1ビデオフレーム各自の単一フレーム検出結果と前記第1ビデオストリームのビデオストリーム検出結果とに基づいて、前記処理すべきビデオの真偽判別結果を特定するステップとを含む。【選択図】図1

Description

本発明は、コンピュータビジョン技術に関し、特にビデオ検出方法、装置、機器及びコンピュータ可読記憶媒体に関する。
<関連出願の相互引用>
本願は、2020年11月27日に提出された、出願番号が202011365074.7であって発明名称が「ビデオ検出方法、装置、機器及びコンピュータ可読記憶媒体」である中国特許出願の優先権を要求し、当該中国特許出願の全ての内容が引用によって本願に組み込まれる。
敵対的生成ネットワーク(Generative Adversarial Network、GAN)のゲーム最適化原理又はグラフィックス方法に基づいて、現実度が極めて高い偽造ビデオを生成可能である。偽造ビデオの悪用は、多くの不良な影響をもたらす。したがって、ビデオに対して真偽検出を行ってビデオの真実性を保証する必要がある。
本発明の実施例は、ビデオ検出の技術案を提供する。
本発明の一態様は、ビデオ検出方法を提供する。前記ビデオ検出方法は、処理すべきビデオ中の複数の第1ビデオフレーム、及び前記処理すべきビデオに対応する第1ビデオストリームを取得するステップと、各前記第1ビデオフレームに対して真偽検出を行った単一フレーム検出結果を取得するステップと、前記第1ビデオストリームに対して真偽検出を行ったビデオストリーム検出結果を取得するステップと、前記複数の第1ビデオフレーム各自の単一フレーム検出結果と前記第1ビデオストリームのビデオストリーム検出結果とに基づいて、前記処理すべきビデオの真偽判別結果を特定するステップと、を含む。
本発明に係る何れか1つの実施形態を参照すると、前記処理すべきビデオ中の複数の第1ビデオフレームを取得することは、所定フレーム数スパンで前記処理すべきビデオに対してフレーム抽出処理を行い、前記複数の第1ビデオフレームを取得することを含み、前記所定フレーム数スパンは、前記処理すべきビデオに含まれるビデオフレームの総フレーム数に対して正の相関を有する。
本発明に係る何れか1つの実施形態を参照すると、各前記第1ビデオフレームに対して真偽検出を行った単一フレーム検出結果を取得するステップは、第1真偽分類ネットワークを介して前記第1ビデオフレームに対して真偽検出を行い、前記第1ビデオフレームの単一フレーム検出結果を取得することを含み、前記単一フレーム検出結果は、前記第1ビデオフレームが偽造されたものである信頼度を表すために用いられる。
本発明に係る何れか1つの実施形態を参照すると、前記第1ビデオストリームに対して真偽検出を行ったビデオストリーム検出結果を取得するステップは、第2真偽分類ネットワークを介して、前記第1ビデオストリームに含まれるビデオフレーム及びフレーム間関係に基づいて、前記第1ビデオストリームに対して真偽検出を行い、前記第1ビデオストリームのビデオストリーム検出結果を取得することを含み、前記ビデオストリーム検出結果は、前記第1ビデオストリームが偽造されたものである信頼度を表すために用いられる。
本発明に係る何れか1つの実施形態を参照すると、前記複数の第1ビデオフレーム各自の単一フレーム検出結果と前記第1ビデオストリームのビデオストリーム検出結果とに基づいて、前記処理すべきビデオの真偽判別結果を特定するステップは、前記複数の第1ビデオフレーム各自の単一フレーム検出結果をマージし、マージ結果を取得することと、前記マージ結果及び前記ビデオストリーム検出結果に基づいて、前記処理すべきビデオの真偽判別結果を特定することと、を含む。
本発明に係る何れか1つの実施形態を参照すると、前記複数の第1ビデオフレーム各自の単一フレーム検出結果をマージし、マージ結果を取得することは、前記複数の第1ビデオフレーム各自の単一フレーム検出結果をグルーピングし、1つ又は複数の単一フレーム検出結果をそれぞれ含む複数の結果グループを取得することと、各前記結果グループの平均検出結果を取得することと、非線形マッピング関数である第1所定関数によって各前記結果グループの平均検出結果を第1確率としてマッピングし、複数の前記第1確率を取得することと、各前記結果グループの平均検出結果と前記複数の第1確率とに基づいて、マージ結果を取得することと、を含む。
本発明に係る何れか1つの実施形態を参照すると、各前記結果グループの平均検出結果と前記複数の第1確率とに基づいて、マージ結果を取得することは、前記複数の第1確率のうち、第1所定閾値よりも大きい第1上側確率の割合が第1所定割合よりも大きいことに応答し、各前記第1上側確率に対応する前記結果グループの平均検出結果に基づいてマージ結果を取得することと、前記複数の第1確率のうち、第2所定閾値よりも小さい第1下側確率の割合が第2所定割合よりも大きいことに応答し、各前記第1下側確率に対応する前記結果グループの平均検出結果に基づいてマージ結果を取得することと、のうちの少なくとも1つを含み、前記第1所定閾値は、前記第2所定閾値よりも大きい。
本発明に係る何れか1つの実施形態を参照すると、前記マージ結果及び前記ビデオストリーム検出結果に基づいて、前記処理すべきビデオの真偽判別結果を特定することは、前記マージ結果と前記ビデオストリーム検出結果とを加重平均し、加重平均結果を取得することと、取得された前記加重平均結果に基づいて前記処理すべきビデオの真偽判別結果を特定することと、を含む。
本発明に係る何れか1つの実施形態を参照すると、前記第1ビデオフレームは、複数の顔を含み、各前記第1ビデオフレームに対して真偽検出を行った単一フレーム検出結果を取得するステップは、前記第1ビデオフレーム中の複数の顔に対応する顔検出枠を取得することと、各前記顔検出枠に対応する画像領域に基づいて、対応する顔の個人別検出結果を特定することと、非線形マッピング関数である第2所定関数によって各前記顔の個人別検出結果を第2確率としてマッピングし、複数の前記第2確率を取得することと、各前記顔の個人別検出結果と前記複数の第2確率とに基づいて、前記第1ビデオフレームの単一フレーム検出結果を取得することと、を含む。
本発明に係る何れか1つの実施形態を参照すると、各前記顔の個人別検出結果と前記複数の第2確率とに基づいて、前記第1ビデオフレームの単一フレーム検出結果を取得することは、前記複数の第2確率のうち、第3所定閾値よりも大きい第2確率が存在することに応答し、前記第1ビデオフレーム中の最大の個人別検出結果を前記第1ビデオフレームの単一フレーム検出結果として取得することと、前記複数の第2確率が何れも第4所定閾値よりも大きいことに応答し、前記第1ビデオフレーム中の最大の個人別検出結果を前記第1ビデオフレームの単一フレーム検出結果として取得することと、前記複数の第2確率が何れも第5所定閾値よりも小さいことに応答し、前記第1ビデオフレーム中の最小の個人別検出結果を前記第1ビデオフレームの単一フレーム検出結果として取得することと、のうちの少なくとも1つを含み、前記第3所定閾値は、前記第4所定閾値よりも大きく、前記第4所定閾値は、前記第5所定閾値よりも大きい。
本発明に係る何れか1つの実施形態を参照すると、前記第1真偽分類ネットワークは、複数種の構造の真偽分類ネットワークを含み、前記第1真偽分類ネットワークを介して前記第1ビデオフレームに対して真偽検出を行い、前記第1ビデオフレームの単一フレーム検出結果を取得することは、前記複数種の構造の真偽分類ネットワークを介して前記第1ビデオフレームに対して真偽検出を行い、複数のサブ単一フレーム検出結果を取得することと、非線形マッピング関数である第3所定関数によって前記複数のサブ単一フレーム検出結果をそれぞれ第3確率としてマッピングし、複数の第3確率を取得することと、を含み、前記第1ビデオフレームの単一フレーム検出結果は、前記複数の第3確率のうち、第6所定閾値よりも大きい第3上側確率の割合が第3所定割合よりも大きいことに応答し、各前記第3上側確率に対応するサブ単一フレーム検出結果に基づいて前記第1ビデオフレームの単一フレーム検出結果を取得することと、前記複数の第3確率のうち、第7所定閾値よりも小さい第3下側確率の割合が第4所定割合よりも大きいことに応答し、各前記第3下側確率に対応するサブ単一フレーム検出結果に基づいて前記第1ビデオフレームの単一フレーム検出結果を取得することと、のうちの少なくとも1つによって特定され、前記第6所定閾値は、前記第7所定閾値よりも大きい。
本発明に係る何れか1つの実施形態を参照すると、前記第2真偽分類ネットワークは、複数種の構造の真偽分類ネットワークを含み、前記第2真偽分類ネットワークを介して、前記第1ビデオストリームに含まれるビデオフレーム及びフレーム間関係に基づいて、前記第1ビデオストリームに対して真偽検出を行い、前記第1ビデオストリームのビデオストリーム検出結果を取得することは、前記複数種の構造の真偽分類ネットワークを介して、前記第1ビデオストリームに含まれるビデオフレーム及びフレーム間関係に基づいて、前記第1ビデオストリームに対して真偽検出を行い、複数のサブビデオストリーム検出結果を取得することと、非線形マッピング関数である第4所定関数によって前記複数のサブビデオストリーム検出結果を第4確率としてそれぞれマッピングし、複数の前記第4確率を取得することと、を含み、前記第1ビデオストリームのビデオストリーム検出結果は、前記複数の第4確率のうち、第8所定閾値よりも大きい第4上側確率の割合が第5所定割合よりも大きいことに応答し、各前記第4上側確率に対応するサブビデオストリーム検出結果に基づいて前記第1ビデオストリームのビデオストリーム検出結果を取得することと、前記複数の第4確率のうち、第9所定閾値よりも小さい第4下側確率の割合が第6所定割合よりも大きいことに応答し、各前記第4下側確率に対応するサブビデオストリーム検出結果に基づいて前記第1ビデオストリームのビデオストリーム検出結果を取得することと、のうちの少なくとも1つによって特定され、前記第8所定閾値は、前記第9所定閾値よりも大きい。
本発明に係る何れか1つの実施形態を参照すると、前記第1ビデオフレームの単一フレーム検出結果は、前記第1ビデオフレーム中のフェース画像が顔交換画像であるか否かを示し、前記第1ビデオストリームのビデオストリーム検出結果は、前記第1ビデオストリーム中のフェース画像が顔交換画像であるか否かを示し、前記処理すべきビデオの真偽判別結果は、前記処理すべきビデオが顔交換ビデオであるか否かを示す。
本発明の一態様は、ビデオ検出装置を提供する。前記ビデオ検出装置は、処理すべきビデオ中の複数の第1ビデオフレーム、及び前記処理すべきビデオに対応する第1ビデオストリームを取得するための第1取得手段と、各前記第1ビデオフレームに対して真偽検出を行った単一フレーム検出結果を取得するための第2取得手段と、前記第1ビデオストリームに対して真偽検出を行ったビデオストリーム検出結果を取得するための第3取得手段と、前記複数の第1ビデオフレーム各自の単一フレーム検出結果と前記第1ビデオストリームのビデオストリーム検出結果とに基づいて、前記処理すべきビデオの真偽判別結果を特定するための特定手段と、を備える。
本発明の一態様は、電子機器を提供する。前記電子機器は、メモリと、プロセッサとを備え、前記メモリは、プロセッサで運転され得るコンピュータ指令を記憶し、前記プロセッサは、前記コンピュータ指令を実行したときに本発明の何れかの実施形態に記載のビデオ検出方法を実施する。
本発明の一態様は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記プログラムがプロセッサによって実行されたときに、本発明の何れかの実施形態に記載のビデオ検出方法は、実施される。
コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で運転されたときに、前記電子機器におけるプロセッサは、本発明の何れかの実施形態に記載のビデオ検出方法を実施する。
本発明の実施例では、処理すべきビデオ中の複数の第1ビデオフレーム、及び前記処理すべきビデオに対応する第1ビデオストリームの両方に対して真偽検出を行い、第1ビデオフレームの単一フレーム検出結果及び第1ビデオストリームのビデオストリーム検出結果をそれぞれ取得し、前記複数の第1ビデオフレーム各自の単一フレーム検出結果と前記第1ビデオストリームのビデオストリーム検出結果とに基づいて前記処理すべきビデオの真偽判別結果を特定するため、処理すべきビデオに存在する一部の偽造ビデオフレームを検出可能であり、ビデオ検出正確率を向上させることができる。
上述した一般的な記述と後文の詳細記述が単に例示的なものと解釈的なものであり、本発明を制限するためのものではないことは、理解されるべきである。
ここでの図面は、明細書に組み込まれて明細書の一部を構成する。これらの図面は、本発明に合致する実施例を示しつつ、明細書の記載とともに本発明の仕組みを解釈するために用いられる。
本発明の少なくとも1つの実施例に示すビデオ検出方法のフローチャートである。 本発明の少なくとも1つの実施例に示すビデオ検出方法の模式図である。 本発明の少なくとも1つの実施例に示すビデオ検出装置の模式図である。 本発明の少なくとも1つの実施例に示す電子機器の構造模式図である。
ここで、例示的な実施例を詳細に説明する。その例示は、図面に示される。以下の記述は、図面に係る際、別途示さない限り、異なる図面における同じ符号が同じ又は類似する要素を示す。以下の例示的な実施例に記述される実施形態が本発明と一致する全ての実施形態を代表するわけではない。逆に、それらは、単に添付する特許請求の範囲に詳細に記述されるような、本発明の幾つかの態様に一致する装置及び方法の例である。
本発明の実施例は、コンピュータシステム/サーバに適用可能であり、他の大量の汎用又は専用の計算システム環境又は配置とともに操作され得る。コンピュータシステム/サーバとともに使用される周知の計算システム、環境及び/又は配置に適用される例は、パソコンシステム、サーバコンピュータシステム、薄クライアント、厚クライアント、ハンドヘルド若しくはラップトップデバイス、マイクロプロセッサによるシステム、セットトップボックス、プログラム可能消費電子製品、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム、及び上記何れかのシステムを含む分散型クラウド計算技術環境等を含むが、それらに限定されない。
図1は、本発明の少なくとも1つの実施例に示すビデオ検出方法のフローチャートである。図1に示すように、当該方法は、ステップ101~ステップ104を含む。
ステップ101では、処理すべきビデオ中の複数の第1ビデオフレーム、及び前記処理すべきビデオに対応する第1ビデオストリームを取得する。
本発明の実施例において、前記複数の第1ビデオフレームは、前記処理すべきビデオに含まれるオリジナルビデオシーケンスに対応するビデオフレームであってもよく、オリジナルビデオシーケンスに対してフレーム抽出処理を行って取得されたビデオフレームであってもよい。前記処理すべきビデオに対応する第1ビデオストリームは、前記処理すべきビデオに含まれるオリジナルビデオシーケンスによって形成されたビデオストリームであってもよく、前記オリジナルビデオシーケンスに対してフレーム抽出処理を行って取得された、ビデオフレームによって形成されたビデオストリーム、例えば、前記複数の第1ビデオフレームによって形成されたビデオストリームであってもよい。
ステップ102では、各前記第1ビデオフレームに対して真偽検出を行った単一フレーム検出結果を取得する。
本発明の実施例において、第1真偽分類ネットワークを介して前記第1ビデオフレームに対して真偽検出を行い、前記第1ビデオフレームの単一フレーム検出結果を取得してもよい。前記単一フレーム検出結果は、前記第1ビデオフレームが偽造されたものである信頼度を表すために用いられ、例えば、前記単一フレーム検出結果は、単一フレーム信頼度スコアを含む。
1つの例示において、前記第1真偽分類ネットワークは、予めトレーニングされた、ビデオフレームに対して独立に検出を行う真偽分類ネットワーク、例えばResNet(Residual Neural Network、残差ネットワーク)、DenseNet(Densely Connected Convolutional Networks、密結合畳み込みネットワーク)、EfficientNet、Xception、SENet(Squeeze-and-Excitation Network、スクイーズおよび励起ネットワーク)等であってもよい。
ステップ103では、前記第1ビデオストリームに対して真偽検出を行ったビデオストリーム検出結果を取得する。
本発明の実施例において、第2真偽分類ネットワークを介して、前記第1ビデオストリームに対応するフレームシーケンス及びフレーム間関係に基づいて、前記第1ビデオストリームに対して真偽検出を行い、前記第1ビデオストリームのビデオストリーム検出結果を取得してもよい。前記ビデオストリーム検出結果は、前記第1ビデオストリームが偽造されたものである信頼度を表すために用いられ、例えば、前記ビデオストリーム検出結果は、ビデオストリーム信頼度スコアを含む。
1つの例示において、前記第2真偽分類ネットワークは、予めトレーニングされた、ビデオストリームを検出してフレーム間関係を考慮する真偽分類ネットワーク、例えばC3D(3D ConvNets、3D畳み込み)ネットワーク、SlowFastネットワーク、X3D(Extensible 3D、拡張可能な3D)ネットワーク等であってもよい。
ステップ104では、前記複数の第1ビデオフレーム各自の単一フレーム検出結果と前記第1ビデオストリームのビデオストリーム検出結果とに基づいて、前記処理すべきビデオの真偽判別結果を特定する。
本発明の実施例において、処理すべきビデオ中の複数の第1ビデオフレーム、及び前記処理すべきビデオに対応する第1ビデオストリームに対して同時に真偽検出を行うことにより、複数の第1ビデオフレーム各自の単一フレーム検出結果及び第1ビデオストリームのビデオストリーム検出結果をそれぞれ取得し、前記複数の第1ビデオフレーム各自の単一フレーム検出結果と前記第1ビデオストリームのビデオストリーム検出結果とに基づいて前記処理すべきビデオの真偽判別結果を特定することで、処理すべきビデオに存在する一部の偽造ビデオフレームを検出可能となり、ビデオ検出正確率を向上させることができる。
幾つかの実施例において、所定フレーム数スパンで前記処理すべきビデオに対してフレーム抽出処理を行い、前記複数の第1ビデオフレームを取得してもよい。前記所定フレーム数スパンは、前記処理すべきビデオのフレーム数に基づいて特定されてもよい。例えば、前記所定フレーム数スパンは、前記処理すべきビデオに含まれるビデオフレームの総フレーム数に対して正の相関を有する。ことにより、処理すべきビデオのフレーム数に応じた所定フレーム数スパンの適応的設定を実現し、合理的な数の第1ビデオフレームを抽出できるため、ビデオ検出の効果を向上させることができる。例えば、160~320フレームを有する10秒間のビデオについて、2をフレーム数スパンとしてフレーム抽出処理を行ってもよい。即ち、2フレームごとに1フレームを抽出する。
幾つかの実施例において、まず、前記複数の第1ビデオフレーム各自の単一フレーム検出結果をマージし、マージ結果を取得する。次に、前記マージ結果及び前記ビデオストリーム検出結果に基づいて、前記処理すべきビデオの真偽判別結果を特定してもよい。前記複数の第1ビデオフレーム各自の単一フレーム検出結果をマージすることにより、マージ結果には各単一フレーム検出結果の影響が体現されることができ、更に前記マージ結果及びビデオストリーム検出結果に基づいて処理すべきビデオの真偽判別結果を特定することで、ビデオ検出の効果を向上させることができる。
1つの例示において、以下の方式で前記複数の第1ビデオフレーム各自の単一フレーム検出結果をマージし、マージ結果を取得してもよい。
まず、前記複数の第1ビデオフレーム各自の単一フレーム検出結果をグルーピングし、1つ又は複数の単一フレーム検出結果をそれぞれ含む複数の結果グループを取得し、各前記結果グループの平均検出結果を取得する。例を挙げると、各グループの平均検出結果は、グループ内の複数のフレームの平均信頼度スコアを含んでもよい。
前記複数の第1ビデオフレームのうち、M個ずつ隣接する第1ビデオフレームを1グループとして区分することにより、前記複数の第1ビデオフレームをNグループに分けてもよい。ただし、M、Nは、正整数である。当業者であれば理解できるように、前記複数の第1ビデオフレームの総数がMの整数倍でない場合に、中の第1ビデオフレーム数がMではないグループが出現してもよい。
例えば、第1ビデオフレームの総数が30フレームである場合に、5個ずつ隣接する第1ビデオフレームをグルーピングすることにより、処理すべきビデオ中の複数の第1ビデオフレームを6グループに分けてもよい。
次に、第1所定関数によって各前記結果グループの平均検出結果を第1確率としてマッピングし、複数の前記第1確率を取得する。前記第1所定関数は、非線形マッピング関数である。前記第1所定関数は、例えば、正規化指数関数(Softmax関数)であってもよい。当該関数によって各グループの平均単一フレーム信頼度スコアを第1確率としてマッピングする。
本発明の実施例において、前記第1真偽分類ネットワークがロジスティック回帰ネットワークである場合に、前記第1ビデオフレームの単一フレーム検出結果は、(-∞,+∞)区間のロジスティック出力値となる。Softmax関数によって各グループの平均検出結果を[0,1]区間の第1確率としてマッピングすることにより、各グループの平均検出結果の分布状況を体現することができる。
その後、各前記結果グループの平均検出結果と前記複数の第1確率とに基づいて、マージ結果を取得する。
各グループの平均検出結果の分布状況に応じて複数グループの平均検出結果をマージすることにより、処理すべきビデオの真偽判別結果への各グループの検出結果の影響をより正確に評価可能であるため、ビデオ検出の正確率を向上させることができる。
1つの例示において、マージ結果は、前記複数の第1確率のうち、第1所定閾値よりも大きい第1上側確率の割合が第1所定割合よりも大きいことに応答し、各前記第1上側確率に対応する前記結果グループの平均検出結果に基づいてマージ結果を取得することにより、取得されてもよい。つまり、第1所定割合を上回った第1上側確率が何れも第1所定閾値よりも大きい場合に、第1上側確率のそれぞれに対応する前記結果グループの平均検出結果に基づいてマージ結果を算出し、例えば、これらの平均検出結果の平均値をマージ結果とする。
例を挙げると、第1所定閾値が0.85であり、第1所定割合が0.7である場合に、0.85よりも大きい第1上側確率の割合が0.7を上回ったとき、各前記第1上側確率に対応する前記結果グループ平均検出結果の平均値をマージ結果とする。
多数の結果グループの平均検出結果が高い場合に、少数の低いグルーピング検出結果がニューラルネットワークの誤判定による結果である可能性がある。上記マージ方式により、ビデオ検出結果へのニューラルネットワークの誤判定の影響を軽減することができる。
別の例示において、マージ結果は、前記複数の第1確率のうち、第2所定閾値よりも小さい第1下側確率の割合が第2所定割合よりも大きいことに応答し、各前記第1下側確率に対応する前記結果グループの平均検出結果に基づいてマージ結果を取得することにより、取得されてもよい。つまり、第2所定割合を上回った第1下側確率が何れも第2所定閾値よりも小さい場合に、これらの第1下側確率のそれぞれに対応する前記結果グループの平均検出結果に基づいてマージ結果を算出し、例えば、これらの平均検出結果の平均値をマージ結果とする。前記第1所定閾値は、前記第2所定閾値よりも大きい。
上記例示において、前記第1所定割合と前記第2所定割合とは、同じであってもよく異なってもよい。本発明の実施例では、これについて限定しない。
例を挙げると、第2所定閾値が0.15であり、第2所定割合が0.7である場合に、0.15よりも小さい第1下側確率の割合が0.7を上回ったとき、各前記第1下側確率に対応する前記結果グループの平均検出結果の平均値をマージ結果とする。
多数の結果グループの平均検出結果が低い場合に、少数の高いグルーピング検出結果がニューラルネットワークの誤判定による結果である可能性がある。上記マージ方式により、ビデオ検出結果へのニューラルネットワークの誤判定の影響を軽減することができる。
1つの例示において、第1所定閾値よりも大きい第1上側確率の割合が第1所定割合以下であり、且つ第2所定閾値よりも小さい第1下側確率の割合が第2所定割合以下である場合に、前記複数の第1ビデオフレーム各自の単一フレーム検出結果に基づいてマージ結果を取得してもよい。例えば、前記複数の第1ビデオフレーム各自の単一フレーム検出結果の平均値をマージ結果としてもよい。
複数の結果グループの平均検出結果に比較的に一致する傾向がない場合に、即ち、ニューラルネットワークの各グループに対する判断に一致する傾向がない場合に、各第1ビデオフレームの単一フレーム検出結果に基づいてマージ結果を算出することにより、各第1ビデオフレームの最終的な真偽判別結果に対する貢献を同じにする。
幾つかの実施例において、前記マージ結果及び前記ビデオストリーム検出結果について、前記マージ結果と前記ビデオストリーム検出結果との加重平均結果を加重平均によって取得し、前記加重平均結果に基づいて前記処理すべきビデオの真偽判別結果を特定してもよい。
1つの例示において、前記加重平均結果を所定判別閾値と比較し、前記加重平均結果が前記所定判別閾値よりも小さいときに、前記処理すべきビデオを真として特定し、即ち、前記処理すべきビデオが偽造ビデオではないと特定してもよい。前記加重平均値が前記所定判別閾値以上であるときに、前記処理すべきビデオが偽造ビデオであると特定してもよい。
前記複数の第1ビデオフレーム中の少なくとも1つの第1ビデオフレームに複数の顔が存在する場合に、複数の顔に対してマージを行うことにより、対応する第1ビデオフレームの単一フレーム検出結果を取得してもよい。
まず、前記第1ビデオフレーム中の複数の顔に対応する顔検出枠を取得する。前記顔検出枠は、顔検出ネットワーク、例えばRetinaFaceを用いて前記第1ビデオフレームに対して顔検出を行うことで取得されてもよい。顔検出が行われた第1ビデオフレームよりも後のビデオフレームについて、顔追跡ネットワーク、例えばSiamese network(シャムニューラルネットワーク)を介して顔を追跡することで顔検出枠を取得してもよい。
前記第1ビデオフレームに含まれる複数の顔について、各顔ごとに対応する顔検出枠(顔検出枠は、対応する枠番号を有する)を生成し、前記顔検出枠に対して対応する顔番号をマーキングすることにより、前記第1ビデオに含まれる複数の顔を区分してもよい。例えば、前記第1ビデオフレームに3つの顔が含まれている場合に、枠番号がA、B、Cである顔検出枠をそれぞれ生成し、且つ前記顔検出枠A、B、Cに顔番号1、2、3がそれぞれマーキングされている。
前記顔検出枠は、顔検出枠の4つの頂点の座標情報、又は、前記顔検出枠の長さと高さ情報を含む。
次に、前記顔検出枠に対応する画像領域に基づいて、対応する顔の個人別検出結果を特定する。
1つの例示において、第1真偽分類ネットワークを介して、前記顔検出枠に対応する画像領域に対して真偽検出を行い、前記顔検出枠に対応する顔の個人別検出結果を取得してもよい。
例えば、第1真偽分類ネットワークを介して、顔検出枠A、B、Cに対応する画像領域に対してそれぞれ真偽検出を行い、顔1、2、3の個人別検出結果をそれぞれ取得してもよい。
前記第1ビデオフレーム中の複数の顔について、[顔番号、枠番号、高さ、幅、チャンネル]の入力テンソルを生成することにより、前記処理すべきビデオに存在する複数の顔を顔番号に応じてビデオフレームセットとして直列接続することができるため、処理すべきビデオ中の各顔に対して単独で検出を行い、各顔番号に対応する個人別検出結果を取得してもよい。
次に、第2所定関数によって各前記顔の個人別検出結果を第2確率としてマッピングし、複数の前記第2確率を取得する。前記第2所定関数は、非線形マッピング関数である。
前記第1ビデオフレームに対応する各結果グループの平均検出結果を第1確率としてマッピングすることと類似し、Softmax関数によって各顔の個人別検出結果を[0,1]区間の第2確率としてマッピングすることにより、処理すべきビデオに含まれる複数の顔の個人別検出結果の分布状況を体現してもよい。
最後に、各前記顔の個人別検出結果と複数の第2確率とに基づいて、前記第1ビデオフレームの単一フレーム検出結果を取得してもよい。
各顔に対応する単一フレーム検出結果の分布状況に基づいて複数の顔に対応する個人別検出結果をマージすることにより、処理すべきビデオ中の各顔に対する単独検出を実現可能であり、処理すべきビデオの真偽判別結果への各顔に対応する個人別検出結果の影響をより正確に評価することができるため、ビデオ検出の正確率を向上させることができる。
1つの例示において、複数の顔のマージ結果は、前記複数の第2確率のうち、第3所定閾値よりも大きい第2確率が存在することに応答し、又は前記第1ビデオフレームの複数の第2確率が第4所定閾値よりも大きいことに応答し、前記第1ビデオフレームの個人別検出結果のうちの最大値を前記第1ビデオフレームの単一フレーム検出結果として取得することにより、取得されてもよい。つまり、対応する第2確率が第3所定閾値よりも大きい顔が前記第1ビデオフレームに存在するとき、当該第1ビデオフレームに信頼度の高い顔検出結果が存在することを意味する。これにより、前記第1ビデオフレーム中の最大の個人別検出結果を単一フレーム検出結果とすることにより、第1ビデオフレーム全体が高い単一フレーム検出結果を有するようにしてもよい。前記複数の第2確率が何れも第4所定閾値よりも大きいとき、当該第1ビデオフレーム中の各顔検出結果の信頼度が何れも高いことを意味する。これにより、同様に前記第1ビデオフレーム中の最大の個人別検出結果を当該第1ビデオフレームの単一フレーム検出結果とすることにより、第1ビデオフレーム全体が高い単一フレーム検出結果を有するようにしてもよい。前記第3所定閾値は、前記第4所定閾値よりも大きい。
例を挙げると、第3所定閾値が0.9であり、第4所定閾値が0.6である場合に、第1ビデオフレームに0.9よりも大きい第2確率が存在し、又は第1ビデオフレームの全ての第2確率が何れも0.6よりも大きいとき、当該第1ビデオフレーム中の個人別信頼度スコアのうちの最大値を当該フレームの単一フレーム検出結果とする。
別の例示において、複数の顔のマージ結果は、前記複数の第2確率が何れも第5所定閾値よりも小さいことに応答し、前記第1ビデオフレームの個人別検出結果のうちの最小値を前記第1ビデオフレームの単一フレーム検出結果として取得することにより、取得されてもよい。つまり、前記第1ビデオフレーム中の全ての顔に対応する第2確率が何れも第5所定閾値よりも小さいとき、当該第1ビデオフレーム中の各顔検出結果の信頼度が何れも低いことを意味する。これにより、前記第1ビデオフレーム中の最小の個人別検出結果を当該第1ビデオフレームの単一フレーム検出結果とすることにより、第1ビデオフレーム全体が低い単一フレーム検出結果を有するようにしてもよい。前記第4所定閾値は、前記第5所定閾値よりも大きい。
例を挙げると、第5所定閾値が0.4である場合に、第1ビデオフレームの全ての第2確率が何れも0.4よりも小さいとき、当該第1ビデオフレーム中の個人別信頼度スコアのうちの最小値を当該フレームの単一フレーム検出結果とする。
本発明の実施例において、処理すべきビデオの第1ビデオフレームに複数の顔が存在する場合に、各顔に対応する個人別検出結果を取得し、複数の顔の個人別検出結果をマージすることにより、当該第1ビデオフレームの単一フレーム検出結果を取得する。このように、ビデオの真偽判別結果には異なる顔の検出結果の影響が考慮されたため、ビデオ検出効果を向上させる。
幾つかの実施例において、前記第1真偽分類ネットワークは、複数種の構造の真偽分類ネットワークを含み、前記複数種の構造の真偽分類ネットワークを介して前記第1ビデオフレームに対して真偽検出を行い、複数のサブ単一フレーム検出結果を取得することは、複数種の方法を採用して前記第1ビデオフレームに対して真偽検出を行ったサブ単一フレーム検出結果を取得することに等価する。第1ビデオフレームに対応する複数のサブ単一フレーム検出結果をマージすることにより、当該第1ビデオフレームの単一フレーム検出結果を取得することができる。
幾つかの実施例において、以下の方法によって第1ビデオフレームに対応する複数のサブ単一フレーム検出結果をマージしてもよい。
まず、第3所定関数によって前記複数のサブ単一フレーム検出結果をそれぞれ第3確率としてマッピングし、複数の第3確率を取得する。
前記第1ビデオフレームに対応する各グループの平均検出結果を第1確率としてマッピングすることと類似し、Softmax関数によって各サブ単一フレーム検出結果を[0,1]区間の第3確率としてマッピングすることにより、複数種の真偽分類方法で得られたサブ単一フレーム検出結果の分布状況を体現してもよい。
次に、複数のサブ単一フレーム検出結果及び複数の第3確率に基づいて、単一フレーム検出結果を取得する。
1つの例示において、前記複数の第3確率のうち、第6所定閾値よりも大きい第3上側確率の割合が第3所定割合よりも大きいことに応答し、各前記第3上側確率に対応するサブ単一フレーム検出結果に基づいて前記第1ビデオフレームの単一フレーム検出結果を取得する。つまり、第3所定割合を上回った第3上側確率が何れも第6所定閾値よりも大きい場合に、これらの第3上側確率のそれぞれに対応するサブ単一フレーム検出結果に基づいて当該第1ビデオフレームの単一フレーム検出結果を算出し、例えば、これらのサブ単一フレーム検出結果の平均値を単一フレーム検出結果とする。
例を挙げると、第6所定閾値が0.8であり、第3所定割合が0.7である場合に、0.8よりも大きい第3上側確率の割合が0.7を上回ったとき、各前記第3上側確率に対応するサブ単一フレーム信頼度スコアの平均値を単一フレーム検出結果とする。
複数のサブ単一フレーム検出結果が比較的に高い場合に、少数の比較的に低いサブ単一フレーム検出結果が、採用された対応する構造の真偽分類ネットワークの誤判定による結果である可能性がある。上記マージ方式により、ビデオ検出結果への真偽分類ネットワークの誤判定の影響を軽減することができる。
別の例示において、前記複数の第3確率のうち、第7所定閾値よりも小さい第3下側確率の割合が第4所定割合よりも大きいことに応答し、各前記第3下側確率に対応するサブ単一フレーム検出結果に基づいて前記第1ビデオフレームの単一フレーム検出結果を取得する。つまり、第4所定割合を上回った第3下側確率が何れも第7所定閾値よりも小さい場合に、これらの第3下側確率のそれぞれに対応するサブ単一フレーム検出結果に基づいて当該第1ビデオフレームの単一フレーム検出結果を算出し、例えば、これらのサブ単一フレーム検出結果の平均値をマージ結果とする。前記第6所定閾値は、前記第7所定閾値よりも大きい。
上記例示において、前記第3所定割合と前記第4所定割合は、同じであってもよく異なってもよい。本発明の実施例では、これについて限定しない。
例を挙げると、第7所定閾値が0.2であり、第4所定割合が0.7である場合に、0.2よりも小さい第3下側確率の割合が0.7を上回ったとき、各前記第3下側確率に対応するサブ単一フレーム信頼度スコアの平均値を単一フレーム検出結果とする。
複数のサブ単一フレーム検出結果が低い場合に、少数の高いサブ単一フレーム検出結果が、採用された対応する構造の真偽分類ネットワークの誤判定による結果である可能性がある。上記マージ方式により、ビデオ検出結果への真偽分類ネットワークの誤判定の影響を軽減することができる。
幾つかの実施例において、前記第2真偽分類ネットワークは、複数種の構造の真偽分類ネットワークを含み、前記複数種の構造の真偽分類ネットワークを介して前記第1ビデオフレームストリームに対して真偽検出を行い、複数のサブビデオストリーム検出結果を取得することは、複数種の方法を採用して前記第1ビデオフレームストリームに対して真偽検出を行ったサブビデオストリーム検出結果を取得することに等価する。複数のサブビデオストリーム検出結果をマージすることにより、前記第1ビデオストリームのビデオストリーム検出結果を取得することができる。
幾つかの実施例において、以下の方法によって第1ビデオストリームに対応する複数のサブビデオストリーム検出結果をマージしてもよい。
まず、第4所定関数によって前記複数のサブビデオストリーム検出結果を第4確率としてそれぞれマッピングし、複数の第4確率を取得する。
前記第1ビデオフレームに対応する各グループの平均検出結果を第1確率としてマッピングすることと類似し、Softmax関数によって各サブビデオストリーム検出結果を[0,1]区間の第4確率としてマッピングすることにより、複数種の真偽分類方法で得られたサブビデオストリーム検出結果の分布状況を体現してもよい。
次に、複数のサブビデオストリーム検出結果及び第4確率に基づいて、前記第1ビデオストリームのビデオストリーム検出結果を取得する。
1つの例示において、前記複数の第4確率のうち、第8所定閾値よりも大きい第4上側確率の割合が第5所定割合よりも大きいことに応答し、各前記第4上側確率に対応するサブビデオストリーム検出結果に基づいて前記第1ビデオストリームのビデオストリーム検出結果を取得する。つまり、第5所定割合を上回った第4上側確率が何れも第8所定閾値よりも大きい場合に、これらの第4上側確率のそれぞれに対応するサブビデオストリーム検出結果に基づいて当該第1ビデオストリームのビデオストリーム検出結果を算出し、例えば、これらのサブビデオストリーム検出結果の平均値を前記第1ビデオストリームのビデオストリーム検出結果とする。
例を挙げると、第8所定閾値が0.8であり、第5所定割合が0.7である場合に、0.8よりも大きい第4上側確率の割合が0.7を上回ったとき、各前記第4上側確率に対応するサブビデオストリーム信頼度スコアの平均値を前記第1ビデオストリームのビデオストリーム検出結果とする。
複数のサブビデオストリーム検出結果が比較的に高い場合に、少数の比較的に低いサブビデオストリーム検出結果が、採用された対応する構造の真偽分類ネットワークの誤判定による結果である可能性がある。上記マージ方式により、ビデオ検出結果への真偽分類ネットワークの誤判定の影響を軽減することができる。
別の例示において、前記複数の第4確率のうち、第9所定閾値よりも小さい第4下側確率の割合が第6所定割合よりも大きいことに応答し、各前記第4下側確率に対応するサブビデオストリーム検出結果に基づいて前記第1ビデオストリームのビデオストリーム検出結果を取得する。つまり、第6所定割合を上回った第4下側確率が何れも第9所定閾値よりも小さい場合に、これらの第4下側確率のそれぞれに対応するサブビデオストリーム検出結果に基づいて前記第1ビデオストリームのビデオストリーム検出結果を算出し、例えば、これらのサブビデオストリーム検出結果の平均値を前記第1ビデオストリームのビデオストリーム検出結果とする。前記第8所定閾値は、前記第9所定閾値よりも大きい。
上記例示において、前記第5所定割合と前記第6所定割合は、同じであってもよく異なってもよい。本発明の実施例では、これについて限定しない。
例を挙げると、第9所定閾値が0.2であり、第6所定割合が0.7である場合に、0.2よりも小さい第4下側確率の割合が0.7を上回ったとき、各前記第4下側確率に対応するサブビデオストリーム信頼度スコアの平均値を前記第1ビデオストリームのビデオストリーム検出結果とする。
複数のサブビデオストリーム検出結果が比較的に低い場合に、少数の比較的に高いサブビデオストリーム検出結果が、採用された対応する構造の真偽分類ネットワークの誤判定による結果である可能性がある。上記マージ方式により、ビデオ検出結果への真偽分類ネットワークの誤判定の影響を軽減することができる。
本発明の実施例において、各所定閾値及び各所定割合の具体的な値は、ビデオ検出結果に対する精度要求に応じて特定されてもよく、ここで限定しない。
幾つかの実施例において、処理すべきビデオ中の複数の第1ビデオフレームは、複数の顔だけでなく、複数の方法で取得されたサブ単一フレーム検出結果に対してもマージを行い、2種のマージで得られた結果を加重平均することにより、最終的な単一フレーム検出結果を取得してもいい。
また、2種のマージを行う前後順について制限しない。
図2は、本発明の少なくとも1つの実施例に示すビデオ検出方法の模式図である。
図2に示すように、まず、処理すべきビデオ中の複数の第1ビデオフレーム、及び前記複数の第1ビデオフレームによって形成される第1ビデオストリームを取得する。
第1ビデオフレームを処理することにより、前記第1ビデオフレームの単一フレーム検出結果を取得する。まず、第1ビデオフレームに含まれる複数の顔に対してそれぞれ真偽検出を行い、各顔に対応する個人別検出結果をマージすることで顔マージ結果を取得する。次に、複数種の方法によって前記第1ビデオフレームに対して真偽検出を行い、各種の方法に対応するサブ単一フレーム検出結果をマージすることで方法マージ結果を取得し、前記顔マージ結果と前記方法マージ結果とを加重平均することで、前記第1ビデオフレームに対応する単一フレーム検出結果を取得する。更に、複数の第1ビデオフレーム各自の単一フレーム検出結果をマージすることにより、複数の第1ビデオフレームに対応するマージ結果を取得する。
一方で、第1ビデオストリームを処理することで前記第1ビデオストリームのビデオストリーム検出結果を取得する。複数種の方法によって前記第1ビデオストリームに対して真偽検出を行い、各種の方法に対応するサブビデオ検出結果をマージすることでビデオストリーム検出結果を取得する。
最後に、前記複数の第1ビデオフレームに対応するマージ結果と前記第1ビデオストリームに対応するビデオストリーム検出結果とを加重平均し、加重平均の結果に基づいて前記処理すべきビデオの真偽判別結果を特定する。
本発明の実施例において、複数種のマージ方式を組み合わせることによって処理すべきビデオの真偽判別結果を取得し、実ビデオフレームと偽造ビデオフレームとが同時に存在するビデオ、及び実顔と偽造顔とが同時に存在するビデオについて、有効的な真偽検出を行い、正確率の高いビデオ検出結果を取得することができる。
ビデオへの顔交換技術の応用が肖像権、著作権等の複数の側面の問題を引き起こす可能性があるため、ビデオが顔交換ビデオであるか否かを検出することは、重要な意義を有する。
幾つかの実施例において、第1ビデオフレームに対する真偽検出は、顔交換検出であってもよく、取得された単一フレーム検出結果は、前記第1ビデオフレーム中のフェース画像が顔交換フェース画像であるか否かを示すための検出結果である。例えば、前記検出結果に含まれるスコアが高いほど、前記第1ビデオフレーム中のフェース画像が顔交換フェース画像である信頼度が高くなることを意味する。同理にて、第1ビデオストリームに対する真偽検出は、顔交換検出であってもよく、取得されたビデオストリーム検出結果は、前記第1ビデオストリーム中のフェース画像が顔交換フェース画像であるか否かを示すための検出結果である。前記複数の第1ビデオフレーム各自の単一フレーム検出結果と前記第1ビデオストリームのビデオストリーム検出結果とに基づいて、前記処理すべきビデオが顔交換ビデオであるか否かの判別結果を取得してもよい。
図3は、本発明の実施例に示すビデオ検出装置の模式図である。図3に示すように、当該装置は、処理すべきビデオ中の複数の第1ビデオフレーム、及び前記処理すべきビデオに対応する第1ビデオストリームを取得するための第1取得手段301と、各前記第1ビデオフレームに対して真偽検出を行った単一フレーム検出結果を取得するための第2取得手段302と、前記第1ビデオストリームに対して真偽検出を行ったビデオストリーム検出結果を取得するための第3取得手段303と、前記複数の第1ビデオフレーム各自の単一フレーム検出結果と前記第1ビデオストリームのビデオストリーム検出結果とに基づいて、前記処理すべきビデオの真偽判別結果を特定するための特定手段304と、を備える。
幾つかの実施例において、前記第1取得手段は、具体的に、所定フレーム数スパンで前記処理すべきビデオに対してフレーム抽出処理を行い、前記複数の第1ビデオフレームを取得する。前記所定フレーム数スパンは、前記処理すべきビデオに含まれるビデオフレームの総フレーム数に対して正の相関を有する。
幾つかの実施例において、前記第2取得手段は、具体的に、第1真偽分類ネットワークを介して各前記第1ビデオフレームに対して真偽検出を行い、各前記第1ビデオフレームの単一フレーム検出結果を取得する。前記単一フレーム検出結果は、前記第1ビデオフレームが偽造されたものである信頼度を表すために用いられる。
幾つかの実施例において、前記第2取得手段は、具体的に、第2真偽分類ネットワークを介して、各前記第1ビデオストリームに含まれるビデオフレーム及びフレーム間関係に基づいて、各前記第1ビデオストリームに対して真偽検出を行い、各前記第1ビデオストリームのビデオストリーム検出結果を取得する。前記ビデオストリーム検出結果は、前記第1ビデオストリームが偽造されたものである信頼度を表すために用いられる。
幾つかの実施例において、前記特定手段は、具体的に、前記複数の第1ビデオフレーム各自の単一フレーム検出結果をマージし、マージ結果を取得し、前記マージ結果及び前記ビデオストリーム検出結果に基づいて、前記処理すべきビデオの真偽判別結果を特定する。
幾つかの実施例において、前記特定手段は、前記複数の第1ビデオフレーム各自の単一フレーム検出結果をマージし、マージ結果を取得する際に、具体的に、前記複数の第1ビデオフレーム各自の単一フレーム検出結果をグルーピングし、1つ又は複数の単一フレーム検出結果をそれぞれ含む複数の結果グループを取得し、各前記結果グループの平均検出結果を取得し、第1所定関数によって各前記結果グループの平均検出結果を第1確率としてマッピングし、複数の前記第1確率を取得し、各前記結果グループの平均検出結果と前記複数の第1確率とに基づいて、マージ結果を取得する。前記第1所定関数は、非線形マッピング関数である。
幾つかの実施例において、前記特定手段は、各前記結果グループの平均検出結果と前記複数の第1確率とに基づいて、マージ結果を取得する際に、具体的に、前記複数の第1確率のうち、第1所定閾値よりも大きい第1上側確率の割合が第1所定割合よりも大きいことに応答し、各前記第1上側確率に対応する前記結果グループの平均検出結果に基づいてマージ結果を取得し、及び/又は、前記複数の第1確率のうち、第2所定閾値よりも小さい第1下側確率の割合が第2所定割合よりも大きいことに応答し、各前記第1下側確率に対応する前記結果グループの平均検出結果に基づいてマージ結果を取得し、前記第1所定閾値は、前記第2所定閾値よりも大きい。
幾つかの実施例において、前記特定手段は、前記マージ結果及び前記ビデオストリーム検出結果に基づいて、前記処理すべきビデオの真偽判別結果を特定する際に、具体的に、前記マージ結果と前記ビデオストリーム検出結果とを加重平均し、取得された加重平均結果に基づいて前記処理すべきビデオの真偽判別結果を特定する。
幾つかの実施例において、前記第1ビデオフレームは、複数の顔を含み、前記第2取得手段は、具体的に、前記第1ビデオフレーム中の複数の顔に対応する顔検出枠を取得し、前記顔検出枠に対応する画像領域に基づいて、対応する顔の個人別検出結果を特定し、第2所定関数によって各顔の個人別検出結果を第2確率としてマッピングし、複数の前記第2確率を取得し、各前記顔の個人別検出結果と前記複数の第2確率とに基づいて、前記第1ビデオフレームの単一フレーム検出結果を取得する。前記第2所定関数は、非線形マッピング関数である。
幾つかの実施例において、前記第2取得手段は、各前記顔の個人別検出結果と前記複数の第2確率とに基づいて、前記第1ビデオフレームの単一フレーム検出結果を取得する際に、具体的に、前記複数の第2確率のうち、第3所定閾値よりも大きい第2確率が存在することに応答し、前記第1ビデオフレーム中の最大の個人別検出結果を前記第1ビデオフレームの単一フレーム検出結果として取得し、及び/又は、前記複数の第2確率が何れも第4所定閾値よりも大きいことに応答し、前記第1ビデオフレーム中の最大の個人別検出結果を前記第1ビデオフレームの単一フレーム検出結果として取得し、及び/又は、複数の第2確率が何れも第5所定閾値よりも小さいことに応答し、前記第1ビデオフレーム中の最小の個人別検出結果を前記第1ビデオフレームの単一フレーム検出結果として取得する。前記第3所定閾値は、前記第4所定閾値よりも大きく、前記第4所定閾値は、前記第5所定閾値よりも大きい。
幾つかの実施例において、前記第1真偽分類ネットワークは、複数種の構造の真偽分類ネットワークを含み、前記第2取得手段は、第1真偽分類ネットワークを介して前記第1ビデオフレームに対して真偽検出を行い、前記第1ビデオフレームの単一フレーム検出結果を取得する際に、具体的に、前記複数種の構造の真偽分類ネットワークを介して前記第1ビデオフレームに対して真偽検出を行い、複数のサブ単一フレーム検出結果を取得し、第3所定関数によって前記複数のサブ単一フレーム検出結果をそれぞれ第3確率としてマッピングし、複数の第3確率を取得し、前記複数の第3確率のうち、第6所定閾値よりも大きい第3上側確率の割合が第3所定割合よりも大きいことに応答し、各前記第3上側確率に対応するサブ単一フレーム検出結果に基づいて前記第1ビデオフレームの単一フレーム検出結果を取得し、及び/又は、前記複数の第3確率のうち、第7所定閾値よりも小さい第3下側確率の割合が第4所定割合よりも大きいことに応答し、各前記第3概下率に対応するサブ単一フレーム検出結果に基づいて前記第1ビデオフレームの単一フレーム検出結果を取得する。前記第3所定関数は、非線形マッピング関数であり、前記第6所定閾値は、前記第7所定閾値よりも大きい。
幾つかの実施例において、前記第2真偽分類ネットワークは、複数種の構造の真偽分類ネットワークを含み、前記第3取得手段は、第2真偽分類ネットワークを介して、前記第1ビデオストリームに含まれるビデオフレーム及びフレーム間関係に基づいて、前記第1ビデオストリームに対して真偽検出を行い、前記第1ビデオストリームのビデオストリーム検出結果を取得する際に、具体的に、前記複数種の構造の真偽分類ネットワークを介して、前記第1ビデオストリームに含まれるビデオフレーム及びフレーム間関係に基づいて、前記第1ビデオストリームに対して真偽検出を行い、複数のサブビデオストリーム検出結果を取得し、第4所定関数によって前記複数のサブビデオストリーム検出結果を第4確率としてそれぞれマッピングし、複数の前記第4確率を取得し、前記複数の第4確率のうち、第8所定閾値よりも大きい第4上側確率の割合が第5所定割合よりも大きいことに応答し、各前記第4概上率に対応するサブビデオストリーム検出結果に基づいて前記第1ビデオストリームのビデオストリーム検出結果を取得し、及び/又は、前記複数の第4確率のうち、第9所定閾値よりも小さい第4下側確率の割合が第6所定割合よりも大きいことに応答し、各前記第4下側確率に対応するサブビデオストリーム検出結果に基づいて前記第1ビデオストリームのビデオストリーム検出結果を取得する。前記第4所定関数は、非線形マッピング関数であり、前記第8所定閾値は、前記第9所定閾値よりも大きい。
幾つかの実施例において、前記単一フレーム検出結果は、前記第1ビデオフレーム中のフェース画像が顔交換画像であるか否かを示し、前記第1ビデオストリームのビデオストリーム検出結果は、前記第1ビデオストリーム中のフェース画像が顔交換画像であるか否かを示し、前記処理すべきビデオの真偽判別結果は、前記処理すべきビデオが顔交換ビデオであるか否かを示す。
図4は、本発明の少なくとも1つの実施例に係る電子機器を示す。前記電子機器は、メモリと、プロセッサとを備える。前記メモリは、プロセッサで運転され得るコンピュータ指令を記憶し、前記プロセッサは、前記コンピュータ指令を実行したときに本発明の何れかの実現方式に記載のビデオ検出方法を実施する。
本発明の少なくとも1つの実施例は、コンピュータ可読記憶媒体を更に提供する。当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記プログラムがプロセッサによって実行されたときに、本発明の何れかの実現方式に記載のビデオ検出方法は、実施される。
当業者であれば理解できるように、本明細書の1つ又は複数の実施例は、方法、システム又はコンピュータプログラム製品として提供され得る。したがって、本明細書の1つ又は複数の実施例は、100%ハードウェアの実施例、100%ソフトウェアの実施例、又はソフトウェアとハードウェアとを組み合わせた態様の実施例の形式を採用してもよい。また、本明細書の1つ又は複数の実施例は、1つまたは複数の、コンピュータ利用可能なプログラムコードを含むコンピュータ利用可能な記憶媒体(磁気ディスクメモリ、CD-ROM、光学メモリ等を含むが、それらに限定されない)で実施されるコンピュータプログラム製品の形式を採用してもよい。
本明細書における各実施例は、何れも漸進の方式で記述され、各実施例は、他の実施例との相違点を重点的に説明し、各実施例同士の同じ又は類似する部分が互いに参照すればよい。特にデータ処理機器の実施例は、方法実施例に基本的に類似するため、記述が相対的に簡単であり、関連箇所が方法実施例の部分の説明を参照すればよい。
上述したのは、本明細書の特定の実施例について記述した。他の実施例は、添付する特許請求の範囲のスコープ内に含まれる。幾つかの場合において、特許請求の範囲に記載の挙動又はステップは、実施例における順番と異なる順番で実行可能であり、且つ依然として所望の結果を得ることができる。また、図面に描かれた手順は、示された特定の順番又は連続順番でないと所望の結果を得られないことを要求するとは限らない。幾つかの実施形態において、マルチタスク処理及び並行処理も、実行可能であり、又は有利なものである。
本明細書における記述されたテーマ及び機能操作の実施例は、デジタル電子回路、有形的に体現されたコンピュータソフトウェア若しくはファームウェア、本発明に開示された構造及びその構造的均等物を含むコンピュータハードウェア、又はそれらのうちの1つ又は複数の組み合わせにおいて実現され得る。本明細書に記述されたテーマの実施例は、1つ又は複数のコンピュータプログラム、即ち、有形の非一時的なプログラムキャリア上にコーディングされることでデータ処理装置によって実行され又はデータ処理装置の操作を制御されるコンピュータプログラム指令における1つ又は複数のモジュールとして実現され得る。代替的に又は追加的に、プログラム指令は、人工で生成された伝送信号、例えば機器で生成された電気、光又は電磁的信号にコーディングされてもよい。当該信号は、生成されることで情報を符号化して適切な受信機装置へ伝送されてデータ処理装置に実行させる。コンピュータ記憶媒体は、機器読み取り可能な記憶機器、機器読み取り可能な記憶基板、ランダム若しくはシリアルアクセスメモリ機器、又はそれらのうちの1つ又は複数の組み合わせであってもよい。
本明細書に記述された処理及び論理フローは、1つ又は複数のコンピュータプログラムを実行する1つ又は複数のプログラマブルコンピュータによって実施されて、入力データに応じて操作を行って出力を生成して対応する機能を実行させてもよい。前記処理及び論理フローは、専用論理回路、例えばFPGA(フィールドプログラマブルゲートアレイ)又はASIC(特定用途向け集積回路)によって実行されてもよく、装置も専用論理回路として実現されてもよい。
コンピュータプログラムの実行に適するコンピュータは、例えば、汎用及び/又は専用マイクロプロセッサ、又は如何なる他のタイプの中央処理装置を含む。通常、中央処理装置は、読み出し専用メモリ及び/又はランダムアクセスメモリから指令及びデータを受信する。コンピュータの基本ユニットは、指令を実施や実行するための中央処理装置と、指令及びデータを記憶するための1つ又は複数のメモリ機器とを備える。通常、コンピュータは、更に、データを記憶するための1つ又は複数の大容量記憶機器、例えば、磁気ディスク、磁光ディスク又は光ディスク等を含み、又は、コンピュータは、この大容量記憶機器に操作可能にカップリングされてそれからデータを受信したりそれへデータを伝送したりし、又は、2種の状況を兼ね備える。しかし、コンピュータは、このような機器を必ず有するとは限らない。また、コンピュータは、別の機器、例えば、携帯電話、パーソナルデジタルアシスタント(PDA)、モバイルオーディオ又はビデオプレーヤ、ゲームコンソール、全地球測位システム(GPS)受信機、又は、例えばユニバーサルシリアルバス(USB)フラッシュメモリドライバの携帯型記憶機器に組み込まれてもよい。以上は、単に幾つかの例である。
コンピュータプログラム指令及びデータを記憶するのに適するコンピュータ可読媒体は、あらゆる形態の不揮発性メモリ、メディアとメモリ機器を含み、例えば、半導体メモリ機器(例えば、EPROM、EEPROMとフラッシュメモリ機器)、磁気ディスク(例えば、内部ハードディスク又はリムーバブルディスク)、磁光ディスク及びCD ROMとDVD-ROMディスクを含む。プロセッサとメモリは、専用論理回路によって補充され又は専用論理回路に統合されてもよい。
本発明が大量の具体的な実施詳細を含むが、これらの詳細は、如何なる開示範囲又は保護請求される範囲を制限するとは解釈されるべきではなく、主に特定の開示された具体的な実施例の特徴を記述するために用いられる。本明細書の複数の実施例に記述された幾つかの特徴は、単一の実施例において組み合わせて実施されてもよい。その一方、単一の実施例に記述された各種の特徴は、複数の実施例に分けて実施され、又は、如何なる適切なサブ組み合わせとして実施されてもよい。また、特徴が上記のように幾つかの組み合わせにおいて役割を果たし、ひいてはこのように保護するように要求されてもよいが、保護請求される組み合わせからの1つ又は複数の特徴は、幾つかの場合において当該組み合わせから除去されてもよく、更に、保護請求される組み合わせは、サブ組み合わせ又はサブ組み合わせの変形を指してもよい。
類似的に、図面に特定の順番で操作が描かれたが、これらの操作が示された特定の順番で実行され又は順に実行され又は全ての例示の操作が実行されて所望の結果を得ることを要求するとして理解されるべきではない。幾つかの場合に、マルチタスク及び並行処理は、有利である可能性がある。また、上記実施例における各種のシステムモジュールとユニットの分離は、全ての実施例においてこのような分離を必要とすると理解されるべきではない。更に、理解できるように、記述されるプログラムユニット及びシステムは、通常、単一のソフトウェア製品に統合されてもよく、又は複数のソフトウェア製品としてカプセル化されてもよい。
このように、テーマの特定実施例が記述された。他の実施例は、添付する特許請求の範囲のスコープ内に含まれる。幾つかの場合において、特許請求の範囲に記載の動作は、異なる順番で実行可能であり、且つ依然として所望の結果を得ることができる。また、図面に描かれた処理が必ずしも示された特定の順番又は連続順番で所望の結果を得るとは限らない。幾つかの実施形態において、マルチタスク処理及び並行処理は、有利である可能性がある。
上述したのは、本明細書の1つ又は複数の実施例の好適な実施例に過ぎず、本明細書の1つ又は複数の実施例を制限するためのものではない。本発明の1つ又は複数の実施例の精神及び原則内でなされた如何なる変更、均等物による置換、改良等も、本発明の1つ又は複数の実施例の保護範囲内に含まれるべきである。

Claims (17)

  1. 処理すべきビデオ中の複数の第1ビデオフレーム、及び前記処理すべきビデオに対応する第1ビデオストリームを取得するステップと、
    各前記第1ビデオフレームに対して真偽検出を行った単一フレーム検出結果を取得するステップと、
    前記第1ビデオストリームに対して真偽検出を行ったビデオストリーム検出結果を取得するステップと、
    前記複数の第1ビデオフレーム各自の単一フレーム検出結果と前記第1ビデオストリームのビデオストリーム検出結果とに基づいて、前記処理すべきビデオの真偽判別結果を特定するステップと、を含むことを特徴とするビデオ検出方法。
  2. 前記処理すべきビデオ中の複数の第1ビデオフレームを取得することは、
    所定フレーム数スパンで前記処理すべきビデオに対してフレーム抽出処理を行い、前記複数の第1ビデオフレームを取得することを含み、
    前記所定フレーム数スパンは、前記処理すべきビデオに含まれるビデオフレームの総フレーム数に対して正の相関を有することを特徴とする請求項1に記載のビデオ検出方法。
  3. 各前記第1ビデオフレームに対して真偽検出を行った単一フレーム検出結果を取得するステップは、
    第1真偽分類ネットワークを介して前記第1ビデオフレームに対して真偽検出を行い、前記第1ビデオフレームの単一フレーム検出結果を取得することを含み、
    前記単一フレーム検出結果は、前記第1ビデオフレームが偽造されたものである信頼度を表すために用いられることを特徴とする請求項1又は2に記載のビデオ検出方法。
  4. 前記第1ビデオストリームに対して真偽検出を行ったビデオストリーム検出結果を取得するステップは、
    第2真偽分類ネットワークを介して、前記第1ビデオストリームに含まれるビデオフレーム及びフレーム間関係に基づいて、前記第1ビデオストリームに対して真偽検出を行い、前記第1ビデオストリームのビデオストリーム検出結果を取得することを含み、
    前記ビデオストリーム検出結果は、前記第1ビデオストリームが偽造されたものである信頼度を表すために用いられることを特徴とする請求項1から3の何れか一項に記載のビデオ検出方法。
  5. 前記複数の第1ビデオフレーム各自の単一フレーム検出結果と前記第1ビデオストリームのビデオストリーム検出結果とに基づいて、前記処理すべきビデオの真偽判別結果を特定するステップは、
    前記複数の第1ビデオフレーム各自の単一フレーム検出結果をマージし、マージ結果を取得することと、
    前記マージ結果及び前記ビデオストリーム検出結果に基づいて、前記処理すべきビデオの真偽判別結果を特定することと、を含むことを特徴とする請求項1から4の何れか一項に記載のビデオ検出方法。
  6. 前記複数の第1ビデオフレーム各自の単一フレーム検出結果をマージし、マージ結果を取得することは、
    前記複数の第1ビデオフレーム各自の単一フレーム検出結果をグルーピングし、1つ又は複数の単一フレーム検出結果をそれぞれ含む複数の結果グループを取得することと、
    各前記結果グループの平均検出結果を取得することと、
    非線形マッピング関数である第1所定関数によって各前記結果グループの平均検出結果を第1確率としてマッピングし、複数の前記第1確率を取得することと、
    各前記結果グループの平均検出結果と前記複数の第1確率とに基づいて、マージ結果を取得することと、を含むことを特徴とする請求項5に記載のビデオ検出方法。
  7. 各前記結果グループの平均検出結果と前記複数の第1確率とに基づいて、マージ結果を取得することは、
    前記複数の第1確率のうち、第1所定閾値よりも大きい第1上側確率の割合が第1所定割合よりも大きいことに応答し、各前記第1上側確率に対応する前記結果グループの平均検出結果に基づいてマージ結果を取得することと、
    前記複数の第1確率のうち、第2所定閾値よりも小さい第1下側確率の割合が第2所定割合よりも大きいことに応答し、各前記第1下側確率に対応する前記結果グループの平均検出結果に基づいてマージ結果を取得することと、のうちの少なくとも1つを含み、
    前記第1所定閾値は、前記第2所定閾値よりも大きいことを特徴とする請求項6に記載のビデオ検出方法。
  8. 前記マージ結果及び前記ビデオストリーム検出結果に基づいて、前記処理すべきビデオの真偽判別結果を特定することは、
    前記マージ結果と前記ビデオストリーム検出結果とを加重平均し、加重平均結果を取得することと、
    取得された前記加重平均結果に基づいて前記処理すべきビデオの真偽判別結果を特定することと、を含むことを特徴とする請求項5から7の何れか一項に記載のビデオ検出方法。
  9. 前記第1ビデオフレームは、複数の顔を含み、
    各前記第1ビデオフレームに対して真偽検出を行った単一フレーム検出結果を取得するステップは、
    前記第1ビデオフレーム中の複数の顔に対応する顔検出枠を取得することと、
    各前記顔検出枠に対応する画像領域に基づいて、対応する顔の個人別検出結果を特定することと、
    非線形マッピング関数である第2所定関数によって各前記顔の個人別検出結果を第2確率としてマッピングし、複数の前記第2確率を取得することと、
    各前記顔の個人別検出結果と前記複数の第2確率とに基づいて、前記第1ビデオフレームの単一フレーム検出結果を取得することと、を含むことを特徴とする請求項1から8の何れか一項に記載のビデオ検出方法。
  10. 各前記顔の個人別検出結果と前記複数の第2確率とに基づいて、前記第1ビデオフレームの単一フレーム検出結果を取得することは、
    前記複数の第2確率のうち、第3所定閾値よりも大きい第2確率が存在することに応答し、前記第1ビデオフレーム中の最大の個人別検出結果を前記第1ビデオフレームの単一フレーム検出結果として取得することと、
    前記複数の第2確率が何れも第4所定閾値よりも大きいことに応答し、前記第1ビデオフレーム中の最大の個人別検出結果を前記第1ビデオフレームの単一フレーム検出結果として取得することと、
    前記複数の第2確率が何れも第5所定閾値よりも小さいことに応答し、前記第1ビデオフレーム中の最小の個人別検出結果を前記第1ビデオフレームの単一フレーム検出結果として取得することと、のうちの少なくとも1つを含み、
    前記第3所定閾値は、前記第4所定閾値よりも大きく、前記第4所定閾値は、前記第5所定閾値よりも大きいことを特徴とする請求項9に記載のビデオ検出方法。
  11. 前記第1真偽分類ネットワークは、複数種の構造の真偽分類ネットワークを含み、
    前記第1真偽分類ネットワークを介して前記第1ビデオフレームに対して真偽検出を行い、前記第1ビデオフレームの単一フレーム検出結果を取得することは、
    前記複数種の構造の真偽分類ネットワークを介して前記第1ビデオフレームに対して真偽検出を行い、複数のサブ単一フレーム検出結果を取得することと、
    非線形マッピング関数である第3所定関数によって前記複数のサブ単一フレーム検出結果をそれぞれ第3確率としてマッピングし、複数の第3確率を取得することと、を含み、
    前記第1ビデオフレームの単一フレーム検出結果は、
    前記複数の第3確率のうち、第6所定閾値よりも大きい第3上側確率の割合が第3所定割合よりも大きいことに応答し、各前記第3上側確率に対応するサブ単一フレーム検出結果に基づいて前記第1ビデオフレームの単一フレーム検出結果を取得することと、
    前記複数の第3確率のうち、第7所定閾値よりも小さい第3下側確率の割合が第4所定割合よりも大きいことに応答し、各前記第3下側確率に対応するサブ単一フレーム検出結果に基づいて前記第1ビデオフレームの単一フレーム検出結果を取得することと、のうちの少なくとも1つによって特定され、
    前記第6所定閾値は、前記第7所定閾値よりも大きいことを特徴とする請求項3に記載のビデオ検出方法。
  12. 前記第2真偽分類ネットワークは、複数種の構造の真偽分類ネットワークを含み、
    前記第2真偽分類ネットワークを介して、前記第1ビデオストリームに含まれるビデオフレーム及びフレーム間関係に基づいて、前記第1ビデオストリームに対して真偽検出を行い、前記第1ビデオストリームのビデオストリーム検出結果を取得することは、
    前記複数種の構造の真偽分類ネットワークを介して、前記第1ビデオストリームに含まれるビデオフレーム及びフレーム間関係に基づいて、前記第1ビデオストリームに対して真偽検出を行い、複数のサブビデオストリーム検出結果を取得することと、
    非線形マッピング関数である第4所定関数によって前記複数のサブビデオストリーム検出結果を第4確率としてそれぞれマッピングし、複数の前記第4確率を取得することと、を含み、
    前記第1ビデオストリームのビデオストリーム検出結果は、
    前記複数の第4確率のうち、第8所定閾値よりも大きい第4上側確率の割合が第5所定割合よりも大きいことに応答し、各前記第4上側確率に対応するサブビデオストリーム検出結果に基づいて前記第1ビデオストリームのビデオストリーム検出結果を取得することと、
    前記複数の第4確率のうち、第9所定閾値よりも小さい第4下側確率の割合が第6所定割合よりも大きいことに応答し、各前記第4下側確率に対応するサブビデオストリーム検出結果に基づいて前記第1ビデオストリームのビデオストリーム検出結果を取得することと、のうちの少なくとも1つによって特定され、
    前記第8所定閾値は、前記第9所定閾値よりも大きいことを特徴とする請求項4に記載のビデオ検出方法。
  13. 前記第1ビデオフレームの単一フレーム検出結果は、前記第1ビデオフレーム中のフェース画像が顔交換画像であるか否かを示し、前記第1ビデオストリームのビデオストリーム検出結果は、前記第1ビデオストリーム中のフェース画像が顔交換画像であるか否かを示し、前記処理すべきビデオの真偽判別結果は、前記処理すべきビデオが顔交換ビデオであるか否かを示すことを特徴とする請求項1から12の何れか一項に記載のビデオ検出方法。
  14. 処理すべきビデオ中の複数の第1ビデオフレーム、及び前記処理すべきビデオに対応する第1ビデオストリームを取得するための第1取得手段と、
    各前記第1ビデオフレームに対して真偽検出を行った単一フレーム検出結果を取得するための第2取得手段と、
    前記第1ビデオストリームに対して真偽検出を行ったビデオストリーム検出結果を取得するための第3取得手段と、
    前記複数の第1ビデオフレーム各自の単一フレーム検出結果と前記第1ビデオストリームのビデオストリーム検出結果とに基づいて、前記処理すべきビデオの真偽判別結果を特定するための特定手段と、を備えることを特徴とするビデオ検出装置。
  15. 電子機器であって、
    メモリと、プロセッサとを備え、
    前記メモリは、プロセッサで運転され得るコンピュータ指令を記憶し、前記プロセッサは、前記コンピュータ指令を実行したときに請求項1から13の何れか一項に記載のビデオ検出方法を実施することを特徴とする電子機器。
  16. コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、
    前記プログラムがプロセッサによって実行されたときに、請求項1から13の何れか一項に記載のビデオ検出方法は、実施されることを特徴とするコンピュータ可読記憶媒体。
  17. コンピュータ可読コードを含むコンピュータプログラムであって、
    前記コンピュータ可読コードが電子機器で運転されたときに、前記電子機器におけるプロセッサは、請求項1から13の何れか一項に記載のビデオ検出方法を実施することを特徴とするコンピュータプログラム。
JP2022531515A 2020-11-27 2021-06-30 ビデオ検出方法、装置、機器及びコンピュータ可読記憶媒体 Pending JP2023507898A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011365074.7 2020-11-27
CN202011365074.7A CN112329730B (zh) 2020-11-27 2020-11-27 视频检测方法、装置、设备及计算机可读存储介质
PCT/CN2021/103766 WO2022110806A1 (zh) 2020-11-27 2021-06-30 视频检测方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
JP2023507898A true JP2023507898A (ja) 2023-02-28

Family

ID=74309312

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022531515A Pending JP2023507898A (ja) 2020-11-27 2021-06-30 ビデオ検出方法、装置、機器及びコンピュータ可読記憶媒体

Country Status (4)

Country Link
JP (1) JP2023507898A (ja)
KR (1) KR20220093157A (ja)
CN (1) CN112329730B (ja)
WO (1) WO2022110806A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329730B (zh) * 2020-11-27 2024-06-11 上海商汤智能科技有限公司 视频检测方法、装置、设备及计算机可读存储介质
CN113792701A (zh) * 2021-09-24 2021-12-14 北京市商汤科技开发有限公司 一种活体检测方法、装置、计算机设备和存储介质
CN115412726B (zh) * 2022-09-02 2024-03-01 北京瑞莱智慧科技有限公司 视频真伪检测方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444873A (zh) * 2020-04-02 2020-07-24 北京迈格威科技有限公司 视频中人物真伪的检测方法、装置、电子设备及存储介质
WO2020195732A1 (ja) * 2019-03-22 2020-10-01 日本電気株式会社 画像処理装置、画像処理方法、およびプログラムが格納された記録媒体
US10810725B1 (en) * 2018-12-07 2020-10-20 Facebook, Inc. Automated detection of tampered images

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103826082B (zh) * 2014-01-21 2017-07-14 华为技术有限公司 一种视频处理方法及装置
CN109299650B (zh) * 2018-07-27 2021-09-07 东南大学 基于视频的非线性在线表情预检测方法及装置
CN110059542A (zh) * 2019-03-04 2019-07-26 平安科技(深圳)有限公司 基于改进的Resnet的人脸活体检测的方法及相关设备
CN111444881B (zh) * 2020-04-13 2020-12-25 中国人民解放军国防科技大学 伪造人脸视频检测方法和装置
CN111783632B (zh) * 2020-06-29 2022-06-10 北京字节跳动网络技术有限公司 针对视频流的人脸检测方法、装置、电子设备及存储介质
CN111967427A (zh) * 2020-08-28 2020-11-20 广东工业大学 一种伪造人脸视频鉴别方法、系统和可读存储介质
CN112329730B (zh) * 2020-11-27 2024-06-11 上海商汤智能科技有限公司 视频检测方法、装置、设备及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10810725B1 (en) * 2018-12-07 2020-10-20 Facebook, Inc. Automated detection of tampered images
WO2020195732A1 (ja) * 2019-03-22 2020-10-01 日本電気株式会社 画像処理装置、画像処理方法、およびプログラムが格納された記録媒体
CN111444873A (zh) * 2020-04-02 2020-07-24 北京迈格威科技有限公司 视频中人物真伪的检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2022110806A1 (zh) 2022-06-02
CN112329730B (zh) 2024-06-11
CN112329730A (zh) 2021-02-05
KR20220093157A (ko) 2022-07-05

Similar Documents

Publication Publication Date Title
JP2023507898A (ja) ビデオ検出方法、装置、機器及びコンピュータ可読記憶媒体
Zhang et al. RGB-T salient object detection via fusing multi-level CNN features
Huo et al. Efficient context-guided stacked refinement network for RGB-T salient object detection
US11676408B2 (en) Identification of neural-network-generated fake images
WO2021026805A1 (zh) 对抗样本检测方法、装置、计算设备及计算机存储介质
Tang et al. DeFusionNET: Defocus blur detection via recurrently fusing and refining discriminative multi-scale deep features
US20230041233A1 (en) Image recognition method and apparatus, computing device, and computer-readable storage medium
CN106415594B (zh) 用于面部验证的方法和系统
US8605957B2 (en) Face clustering device, face clustering method, and program
CN110853033B (zh) 基于帧间相似度的视频检测方法和装置
Yu et al. Predicting human activities using spatio-temporal structure of interest points
CN111160555B (zh) 基于神经网络的处理方法、装置及电子设备
TWI667621B (zh) 人臉辨識方法
CN112800944B (zh) 人群行为检测方法及装置、电子设备和存储介质
Wang et al. Adversarial point cloud perturbations against 3D object detection in autonomous driving systems
Zhou et al. TMFNet: Three-input multilevel fusion network for detecting salient objects in RGB-D images
CN103955713B (zh) 一种图标识别方法和装置
Zaheer et al. Clustering aided weakly supervised training to detect anomalous events in surveillance videos
CN113301017B (zh) 基于联邦学习的攻击检测与防御方法、装置及存储介质
CN113689527B (zh) 一种人脸转换模型的训练方法、人脸图像转换方法
CN110709841B (zh) 用于检测和转换旋转的视频内容项的方法、系统和介质
CN109933679A (zh) 图像中的对象类型识别方法、装置和设备
Li et al. Disguise of steganography behaviour: Steganography using image processing with generative adversarial network
CN113095257A (zh) 异常行为检测方法、装置、设备及存储介质
Yang et al. Crowd Density Estimation Based on ELM learning algorithm.

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220527

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220527

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230721

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240228