JP2023163706A

JP2023163706A - 動画識別装置、動画識別方法、および動画識別プログラム

Info

Publication number: JP2023163706A
Application number: JP2022074778A
Authority: JP
Inventors: 晴也鈴木; Seiya Suzuki; 孝尚宮武; Takahisa Miyatake; 浩司藤本; Koji Fujimoto
Original assignee: TENSOR CONSULTING CO Ltd
Current assignee: TENSOR CONSULTING CO Ltd
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2023-11-10
Also published as: WO2023210095A1

Abstract

【課題】対象動画に依拠する動画を複数の公開動画の中から適切に検知する。【解決手段】動画識別装置１０は、複数の公開動画ＲＭの中から対象動画に依拠する動画を検知する。動画識別装置１０は、対象動画画像記録部１１と、公開動画画像選択部１２と、判定部１３と、を有する。対象動画画像記録部１１は、対象動画から、その対象動画の時間軸方向の構成単位毎にその構成単位に含まれるフレームの画像を代表画像ＴＭｘとして記録する。公開動画画像選択部１２は、複数の公開動画ＲＭのそれぞれについて、その公開動画ＲＭから所定時間毎にフレームの画像を切り取り画像ＲＭｘとして選択する。判定部１３は、対象動画の代表画像ＴＭｘと公開動画ＲＭの切り取り画像ＲＭｘとに基づいて、公開動画ＲＭが対象動画に依拠している可能性にある動画であるか否かを判定する。【選択図】図１

Description

本発明は、複数の公開動画の中から対象動画に依拠する動画を検知する技術に関する。

インターネット上では、多くの動画のコンテンツが公開されている。他人の動画を盗用してサイトで公開し、広告収入を得るという不正行為が存在する。動画の正当な所有者は、そのような不正なサイトを発見し、発見した不正な動画の削除を依頼するなどの対処が必要となっている。

特許文献１には、個々の利用者から投稿されたコンテンツの相互の類似度を算出し、算出した相互の類似度に基づき、投稿されたコンテンツが著作権的に適切であるか否かの判定を行う技術が開示されている。

国際公開第２００９／０５０８７７号公報

ドラマや映画など自身の動画コンテンツをテレビや映画あるいはインターネット等を通じて提供するコンテンツ提供者は、自身の動画コンテンツが他者に盗用され、不正に公開されれば、利益が害される。そのため、コンテンツ提供者は、自身の動画コンテンツが動画共有サイトなどで不正に公開されていた場合、できるだけ迅速に、それを見つけて公開を停止させる等の対処を行いたい。

しかし、特許文献１に開示された不適切コンテンツ検出方法では、投稿されたコンテンツ間の類似度を算出し、相互に類似しているコンテンツ群を著作権的に不適切なコンテンツとして検出する。したがって、特許文献１の方法は、コンテンツ提供者が自身の特定のコンテンツを対象として他者による盗用を見つけ出すという目的には適していない。

本開示の一つの目的は、対象動画に依拠する動画を複数の公開動画の中から適切に検知する技術を提供することである。

本発明の一つの実施例に従う動画識別装置は、複数の公開動画の中から対象動画に依拠する動画を検知する動画識別装置であって、前記対象動画から、該対象動画の時間軸方向の構成単位毎に該構成単位に含まれるフレームの画像を代表画像として記録する対象動画画像記録部と、前記複数の公開動画のそれぞれについて、該公開動画から所定時間毎にフレームの画像を切り取り画像として選択する公開動画画像選択部と、前記対象動画の前記代表画像と前記公開動画の前記切り取り画像とに基づいて、前記公開動画が前記対象動画に依拠している可能性にある動画であるか否かを判定する判定部と、を有する。

本発明によれば、対象動画に依拠する動画を複数の公開動画の中から適切に検知することが可能となる。

動画識別装置の機能構成を示すブロック図。動画識別装置のハードウェア構成を示すブロック図。判定部の機能構成を示すブロック図。全体処理のフローチャート。全体処理について説明するためのイメージ図。判定処理のフローチャート。二次判定処理のフローチャート

以下、本発明の実施形態について図面を参照して説明する。

図１は、動画識別装置の機能構成を示すブロック図である。図２は、動画識別装置のハードウェア構成を示すブロック図である。

動画識別装置１０は、対象動画画像記録部１１と、公開動画画像選択部１２と、判定部１３と、表示部１４と、を備えている。

本実施例の動画識別装置１０は、複数の公開動画ＲＭの中から対象動画ＴＭ（図４参照）に依拠する動画を検知する装置である。公開動画ＲＭは、ウェブサーバ９１が提供する動画共有サイトなどのウェブページによって企業や個人などがインターネット等の通信ネットワーク９０上に公開している動画である。対象動画ＴＭは、インターネット上で盗用されていないか探索する対象となる著作権のある動画である。公開動画ＲＭの中には、対象動画ＴＭに依拠する動画が含まれていることが想定される。対象動画ＴＭを基にして作成されている動画は、対象動画ＴＭに依拠するものとなりうる。対象動画ＴＭに依拠する動画を、対象動画ＴＭの著作権者に無断で作成すると盗用になりうる。

動画識別装置１０は、対象動画ＴＭを盗用した公開動画ＲＭを発見するために、対象動画ＴＭと同一のものと推定される公開動画ＲＭや対象動画ＴＭに依拠していると推定される公開動画ＲＭを探索する。

対象動画画像記録部１１は、対象動画ＴＭから、その対象動画ＴＭの時間軸方向の構成単位であるシーン毎にそのシーンに含まれるフレームの画像を、そのシーンを代表する代表画像ＴＭｘとして記録する。即ち、対象動画ＴＭは、複数の代表画像ＴＭｘを含んでいる。構成単位は、対象動画ＴＭを構成するシーンの他、カット、またはショットであってもよい。フレームは、例えば、対象動画ＴＭを構成する静止画像の全域である。

対象動画ＴＭは、複数の種類の映像コンテンツでよい。映像コンテンツは、例えば、映画、演劇、文芸、アニメーション、スポーツ等の動画でよい。一例として、代表画像ＴＭｘは、対象動画ＴＭの各シーンの先頭の画像である、代表画像ＴＭｘは、ユーザによって対象動画ＴＭの中から選択された特徴のある画像でもよい。代表画像ＴＭｘには、例えば、サムネイル画像が含まれてよい。

公開動画画像選択部１２は、複数の公開動画ＲＭのそれぞれについて、その公開動画ＲＭから所定時間毎にフレームの画像を切り取り画像ＲＭｘとして選択する。即ち、公開動画ＲＭは、複数の切り取り画像ＲＭｘを含んでいる。所定時間は、例えば、１０秒などの一定時間でよい。ここで、代表画像ＴＭｘは対象動画ＴＭのシーンから選択されるのに対して、切り取り画像ＲＭｘは公開動画ＲＭから所定時間毎に取得される。これは、公開動画ＲＭが不正に作成されたものである場合、加工あるいは劣化などによってシーンの境界が判別しづらくなっている可能性があるからである。

公開動画画像選択部１２は、公開動画ＲＭから、公開動画ＲＭのフレーム間に差し込まれた差し込み画像でない画像を切り取り画像ＲＭｘとして選択してよい。差し込み画像とは、対象動画ＴＭの著作権者以外によって公開動画ＲＭのフレーム間に検知を逃れのために差し込まれたコンテンツと無関係の画像である。

判定部１３は、対象動画ＴＭの代表画像ＴＭｘと公開動画ＲＭの切り取り画像ＲＭｘとを比較することにより、公開動画ＲＭが対象動画ＴＭに依拠している可能性のある動画であるか否か判定する。その際、判定部１３は、まず簡易的な一次判定により対象動画ＴＭに依拠する可能性の極めて低い公開動画ＲＭを除外し、残った公開動画ＲＭについて対象動画ＴＭに依拠する可能性があるか否か詳細な二次判定を行う。これにより判定に要する処理時間の短縮と判定結果の精度向上の両立が可能となっている。

図３は、判定部の機能構成を示すブロック図である。

判定部１３は、より詳細には、特徴点抽出部１３１と、第一類似動画決定部１３２と、第二類似動画決定部１３３とを有する。

特徴点抽出部１３１は、対象動画ＴＭの代表画像ＴＭｘおよび公開動画ＲＭの切り取り画像ＲＭｘのそれぞれの特徴点を抽出する。また、特徴点抽出部１３１は、抽出した特徴点の特徴量を特定する。その際、特徴点抽出部１３１は、対象動画ＴＭの代表画像ＴＭｘおよび公開動画ＲＭの切り取り画像ＲＭｘのそれぞれの特徴点の周囲の輝度勾配から特徴量を特定してよい。

第一類似動画決定部１３２は、対象動画ＴＭの全ての代表画像ＴＭｘの全ての特徴点をクラスタリングすることにより複数のグループを作成し、特徴点抽出部１３１により抽出された対象動画ＴＭの代表画像ＴＭｘおよび公開動画ＲＭの切り取り画像ＲＭｘのそれぞれの特徴点をグループに分類し、分類した結果に基づいて対象動画ＴＭに類似する公開動画ＲＭを決定する。尚、第一類似動画決定部１３２は、カテゴリ認識の一例としてのｂａｇ－ｏｆ－ｆｅａｔｕｒｅｓの手法を用いてよい。第一類似動画決定部１３２は、特徴点抽出部１３１により抽出された対象動画ＴＭの代表画像ＴＭｘおよび公開動画ＲＭの切り取り画像ＲＭｘのそれぞれの特徴点をその特徴点の周囲の輝度勾配に基づく特徴量によって分類してよい。

第一類似動画決定部１３２は、特徴点抽出部１３１により抽出された対象動画ＴＭの代表画像ＴＭｘおよび公開動画ＲＭの切り取り画像ＲＭｘのそれぞれの特徴点を分類してヒストグラムを作成し、作成した代表画像ＴＭｘのヒストグラムと切り取り画像ＲＭｘのヒストグラムとのバタチャリア距離に基づいて代表画像ＴＭｘと切り取り画像ＲＭｘとが類似するか否か判定する。これにより、対象動画ＴＭに類似する公開動画ＲＭを簡易比較することができる。

第二類似動画決定部１３３は、第一類似決定部１３２により一次判定で類似していないと判定された対象動画ＴＭと公開動画ＲＭの組合せを除外し、残った対象動画ＴＭと公開動画ＲＭの組合せについて、対象動画ＴＭの代表画像ＴＭｘと公開動画ＲＭの切り取り画像ＲＭｘとの特徴点を比較することにより画像間の類似度を算出し、その画像間の類似度に基づいて対象動画ＴＭと公開動画ＲＭの動画間の類似度を算出し、動画間の類似度に基づいて公開動画ＲＭが対象動画ＴＭに依拠するものか否か判定する。

その際、第二類似動画決定部１３３は、まず、第一類似動画決定部１３２による一次判定で除外されなかった対象動画ＴＭと公開動画ＲＭの組合せのそれぞれについて、代表画像ＴＭｘと切り取り画像ＲＭｘとの総当たりの組み合わせのそれぞれにおける代表画像ＴＭｘと切り取り画像ＲＭｘの互いの類似度（特徴点間類似度）を算出する。さらに、第二類似動画決定部１３３は、代表画像ＴＭｘと切り取り画像ＲＭｘとの総当たりの組み合わせ毎に、特徴点間類似度が所定の閾値を超える特徴点の対（類似特徴点対）を特定する。さらに、第二類似動画決定部１３３は、類似特徴点対の個数が所定のペアリング条件を満たす代表画像ＴＭｘと切り取り画像ＲＭｘとの組み合わせ（特徴点ペアリング画像対）を特定する。ペアリング条件は、同じシーンである可能性のある代表画像ＴＭｘと切り取り画像ＲＭｘとを対応づけるための条件である。そして、第二類似動画決定部１３３は、特徴点ペアリング画像対における類似特徴点対の個数に基づいて動画間の類似度のスコアを算出し、スコアに基づいて公開動画ＲＭが対象動画ＴＭに依拠している可能性があるか否かの二次判定を行う。

表示部１４は、判定部１３による判定結果を後述する表示装置２６の画面に表示する。

本実施例によれば、対象動画ＴＭと公開動画ＲＭのそれぞれの動画を構成する画像ＴＭｘ，ＲＭｘを用いて判定を行うので、複数の公開動画ＲＭの中から対象動画ＴＭに依拠する公開動画ＲＭを適切かつ高速に検知することが可能となる。

特に、対象動画ＴＭのコンテンツの構成単位に含まれる代表画像ＴＭｘと、複数の公開動画ＲＭのそれぞれから所定時間毎に選択された切り取り画像ＲＭｘとを用いて判定を行うので、映像コンテンツとしての類似の度合いを考慮した判定を画像ＴＭｘ，ＲＭｘ同士の比較により実現することができる。

さらに、公開動画ＲＭから差し込み画像以外の画像を選択して判定に用いるので、公開動画ＲＭに無関係な画像が差し込まれていても、対象動画ＴＭと公開動画ＲＭとの類似の度合いを適切に評価することが可能となる。

本実施形態による動画識別装置１０は、図１に示した各部の処理手順を規定したソフトウェアプログラムをコンピュータに実行させることにより実現することも可能である。図２には、動画識別装置を実現するコンピュータのハードウェア構成の一例が示されている。

図２を参照すると、動画識別装置１０は、インターネット等の通信ネットワーク９０経由でウェブサーバ９１と接続可能である。ハードウェア構成として、動画識別装置１０は、処理装置２１と、メインメモリ２２と、記憶装置２３と、通信装置２４と、入力装置２５と、表示装置２６とを有し、それらがバス２７に接続されている。

記録装置２３は、書き込みおよび読み出しが可能にデータを記録するものであって、この記憶装置２３には動画識別装置１０が処理に用いる公開動画ＲＭ（切り取り画像ＲＭｘ），および対象動画ＴＭ（代表画像ＴＭｘ）のデータが記録される。例えば、複数のウェブサーバ９１から収集した公開動画ＲＭ（切り取り画像ＲＭｘ）のデータは、記録装置２３に蓄積される。また、その動画の盗用がされているか否か探索する対象となる対象動画ＴＭ（代表画像ＴＭｘ）のデータも、記録装置２３に記録される。

処理装置２１は、記憶装置２３に記録されたデータをメインメモリ２２に読み出し、メインメモリ２２を利用してソフトウェアプログラムの処理を実行するプロセッサである。処理装置２１によって、図１に示した対象動画画像記録部１１、公開動画画像選択部１２、判定部１３、および表示部１４が実現される。

通信装置２４は、処理装置２１にて処理された情報を優先または無線あるいはそれら両方を含む通信ネットワーク０を介して送信し、また通信ネットワーク９０を介して受信した情報を処理装置２１に伝達する。受信した情報は、処理装置２１にてソフトウェアの処理に利用される。

入力装置２５は、キーボードやマウスなどオペレータによる操作入力による情報を受け付ける装置である。入力装置２５に入力された情報は、処理装置２１にてソフトウェア処理に利用される。

表示装置２６は、処理装置２１によるソフトウェア処理に伴って動画ＴＭｘ，ＲＭ、画像ＴＭｘ，ＲＭｘやテキストの情報をディスプレイ画面に表示する装置である。

図４は、全体処理のフローチャートである。図５は、全体処理について説明するためのイメージ図である。

図４を参照すると、動画識別装置１０は、まず、対象動画画像記録部１１により対象動画画像記録処理を行う（ステップＳ４０１）。対象動画画像記録処理において、対象動画画像記録部１１は、まず、盗用を探索する対象動画ＴＭの隣接するフレーム間の画像の差分を算出し、算出された差分が所定の閾値を超える箇所をシーンの境界と特定する。更に、対象動画画像記録部１１は、各シーンに含まれるフレームの画像から当該シーンを代表する画像を代表画像ＴＭｘとして選択し、選択された代表画像ＴＭｘ（図５のＴＭ１，ＴＭ２，ＴＭ３…）のデータを記憶装置２３に格納する。例えば、シーンにおける所定の時間位置のフレームの画像をそのシーンの代表画像ＴＭｘとしてもよい。例えば、シーンの先頭フレームの画像を代表画像ＴＭｘとしてもよいし、先頭から所定の時間経過したフレームの画像を代表画像ＴＭｘとしてもよい。

次に、動画識別装置１０は、公開動画画像選択部１２により、公開動画画像選択処理を実行する（ステップＳ４０２）。公開動画画像選択処理にて、公開動画画像選択部１２は、まず、通信ネットワーク９０経由でウェブサーバ９１の各ウェブサイトを巡回し、ウェブサイトに含まれるウェブページで公開されている公開動画ＲＭのデータを収集（クローリング）し、収集した公開動画ＲＭのデータを記録装置２３に蓄積する。次に、公開動画画像選択部１２は、公開動画ＲＭから一定時間間隔で切り取り画像ＲＭｘ（図５のＲＭ１，ＲＭ２，ＲＭ３…）を選択し、選択した切り取り画像ＲＭｘのデータを記録装置２３に蓄積する。

なお、本実施形態では、一例として対象動画画像記録処理を行った後に公開動画画像選択処理を行う例を示すが、この処理順序に限定されることはない。公開動画画像選択処理を対象動画画像記録処理の前に実行してもよい。

次に、動画識別装置１０は、判定部１３により、判定処理を実行する（ステップＳ４０３）。判定処理は、対象動画ＴＭの代表画像ＴＭｘと公開動画ＲＭの切り取り画像ＲＭｘとに基づいて、公開動画ＲＭが対象動画ＴＭに依拠している可能性にある動画であるか否かを判定する処理である。判定処理の詳細は後述する。

次に、動画識別装置１０は、表示部１４により、判定部１３による判定結果を画面に表示する（ステップＳ４０４）。対象動画ＴＭを盗用して作成したと推定される公開動画ＲＭについて、判定に用いた類似度を表示してもよい。また、例えば、対象動画ＴＭと、その対象動画ＴＭを盗用して作成したと推定される公開動画ＲＭとを並べて表示することにしてもよい。

次に、動画識別装置１０は、対象動画ＴＭを盗用して作成したと推定される公開動画ＲＭの公開元に対して警告を通知する（ステップＳ４０５）。なお、警告の通知は、ユーザが判定部１３による判定結果を判断し、判断結果に基づいて対象動画ＴＭを盗用して作成したと推定される公開動画ＲＭの公開元に対して警告を通知してよい。この場合、ステップＳ３０４の判定部１３による判定結果の表示が省略されてもよい。

図６は、判定処理のフローチャートである。

図６を参照すると、判定処理にて、判定部１３は、まず、記憶装置２３から全代表画像ＴＭｘのデータを取得し、各代表画像ＴＭｘの特徴点を抽出し、特徴点の特徴量を特定する（ステップＳ６０１）。代表画像ＴＭｘの特徴点を抽出する方法は特に限定されないが、例えば、代表画像ＴＭｘにおけるコーナーの点を特徴点として抽出してもよい。また、各代表画像ＴＭｘの特徴点の特徴量を特定する方法も特に限定されないが、各特徴点の輝度勾配から特徴量を特定してもよい。

次に、判定部１３は、記憶装置２３から全切り取り画像ＲＭｘのデータを取得し、各切り取り画像ＲＭｘの特徴点を抽出し、特徴点の特徴量を特定する（ステップＳ６０２）。切り取り画像ＲＭｘの特徴点は、代表画像ＴＭｘの特徴点を抽出する方法と同じ方法で抽出すればよい。また、切り取り画像ＲＭｘの特徴点の特徴量は、代表画像ＴＭｘの特徴点の特徴量を特定する方法と同じ方法で特定すればよい。

次に、判定部１３は、全ての代表画像ＴＭｘの全ての特徴点を特徴量によってクラスタリングすることにより複数のグループを作成する（ステップＳ６０３）。

次に、判定部１３は、代表画像ＴＭｘの特徴点を、特徴量空間におけるクラスタ重心との最近傍探索によりグループに分類し、代表画像ＴＭｘ毎の特徴点のヒストグラムを作成する（ステップＳ６０４）。

次に、判定部１３は、切り取り画像ＲＭｘの特徴点を、特徴量空間におけるクラスタ重心との最近傍探索によりグループに分類し、切り取り画像ＲＭｘ毎の特徴点のヒストグラムを作成する（ステップＳ６０５）。

次に、判定部１３は、代表画像ＴＭｘの特徴点のヒストグラムと切り取り画像ＲＭｘの特徴点のヒストグラムを比較することにより、対象動画ＴＭと公開動画ＲＭとの類否の一次判定を行う（ステップＳ６０６）。

その際、判定部１３は、まず、対象動画ＴＭの全ての代表画像ＴＭｘと公開動画ＲＭの全ての切り取り画像ＲＭｘとを総当たりで特徴点のヒストグラムの類似度（以下「画像間特徴点分類類似度」ともいう）を算出する。ヒストグラムの類似度はバタチャリア距離を基に定めてもよい。その場合、バタチャリア距離が短いほど類似度は高い。続いて、判定部１３は、画像間特徴点分類類似度が所定の閾値を超える、あるいはバタチャリア距離が所定の閾値より短い代表画像ＴＭｘと切り取り画像ＲＭｘとの組み合わせ（以下「特徴点分類類似画像対」ともいう）を特定する。なお、判定部１３は、画像間特徴点分類類似度が上位Ｎ位までの特徴点分類類似画像対を特定してもよい。更に、判定部１３は、特徴点分類類似画像対の個数に基づいて、対象動画ＴＭと公開動画ＲＭの類否の一次判定を行う。この一次判定は、対象動画ＴＭに依拠する可能性の極めて低い無関係な公開動画ＲＭをヒストグラムの簡易比較によって短時間で除外するためのものである。例えば、特徴点分類類似画像対が０個であれば、公開動画ＲＭが対象動画ＴＭに依拠する可能性は極めて低いすなわち非類似と判定することにしてもよい。

次に、判定部１３は、一次判定で非類似ではないと判定された対象動画ＴＭと公開動画ＲＭとの組み合わせについて、互いの特徴点を比較することにより、対象動画ＴＭと公開動画ＲＭとの類否の二次判定を行う（ステップＳ６０７）。ステップＳ６０７の処理を以下、二次判定処理ともいう。

図７は、二次判定処理のフローチャートである。

図７を参照すると、判定部１３は、まず、一次判定で非類似でないと判定された対象動画ＴＭと公開動画ＲＭの組合せのそれぞれについて、全ての代表画像ＴＭｘと全ての切り取り画像ＲＭｘとの組み合わせのそれぞれにおける特徴点同士を総当たりで特徴点間の類似度（以下「特徴点間類似度」ともいう）を算出する（ステップＳ７０１）。特徴点間類似度は、例えば、特徴量間のユークリッド距離を基に定めてもよい。その場合、ユークリッド距離が短いほど特徴点間類似度は高い。

次に、判定部１３は、代表画像ＴＭｘと切り取り画像ＲＭｘの特徴点間類似度が最大となる、すなわちユークリッド距離が最小となる特徴点の組合せ（以下「類似特徴点対」）を特定する（ステップＳ７０２）。この処理は、代表画像ＴＭｘと切り取り画像ＲＭｘとの、特徴点同士の対応点を探索する処理である。なお、判定部１３は、任意の特徴点ｐについて、代表画像ＴＭｘと切り取り画像ＲＭｘの特徴点間類似度が最も近い組合せの距離が、二番目に近い組合せの距離をｎ倍（ｎ＜１）した距離よりも小さい場合、最も近い特徴点との対を類似特徴点対として特定し、この条件を満たさない類似特徴点対を削除してもよい（ratio test）。

次に、判定部１３は、類似特徴点対の個数が所定のペアリング条件を満たす代表画像ＴＭｘと切り取り画像ＲＭｘとの対（以下「特徴点ペアリング画像対」ともいう）を特定する（ステップＳ７０３）。ここでペアリング条件は、例えば、類似特徴点対の個数が所定の閾値を超えかつその個数が切り取り画像ＲＭｘにとって最大であるという条件である。

次に、判定部１３は、対象動画ＴＭと公開動画ＲＭの組み合わせにおける動画間の類似度を算出する（ステップＳ７０４）。その際、判定部１３は、まず、各特徴点ペアリング画像対をなす対象動画ＴＭと公開動画ＲＭとの画像間の類似度の積算値と平均値とを動画間の類似度として算出する。以下、この対象動画ＴＭと公開動画ＲＭとの動画間の類似度を表す積算値をトータルスコアという場合がある。また、対象動画ＴＭと公開動画ＲＭとの動画間の類似度を表す平均値を平均スコアという場合がある。

上述した特徴点ペアリング画像対をなす対象動画ＴＭと公開動画ＲＭとの画像間の類似度は、類似特徴点対の個数に基づいて定められる。例えば、代表画像ＴＭｘにおける特徴点の総個数に占める、類似特徴点の個数の割合を、特徴点ペアリング画像対をなす代表画像ＴＭｘと切り取り画像ＲＭｘとの画像間の類似度としてもよい。なお、ここでは、代表画像ＴＭｘにおける特徴点の総個数に占める、類似特徴点の個数の割合を、特徴点ペアリング画像対をなす代表画像ＴＭｘと切り取り画像ＲＭｘとの画像間の類似度としたが、他の構成も可能である。例えば、公開画像ＲＭｘにおける特徴点の総個数に占める、類似特徴点の個数の割合を、特徴点ペアリング画像対をなす代表画像ＴＭｘと切り取り画像ＲＭｘとの画像間の類似度としてもよい。

次に、判定部１３は、特徴点ペアリング画像対をなす代表画像ＴＭｘと切り取り画像ＲＭｘとの動画間のトータルスコアと平均スコアとに基づいて、公開動画ＲＭが対象動画ＴＭに依拠する可能性があるか否かの二次判定を行う（ステップＳ７０５）。

その際、判定部１３は、トータルスコアと平均スコアが共にそれぞれの閾値を超えていたら、公開動画ＲＭが対象動画ＴＭに依拠する可能性があると判定してもよい。公開動画ＲＭが対象動画ＴＭに依拠したものであれば、類似するシーンが存在するため積算値を用いて判定することにより検知が可能となる。また、対象動画ＴＭおよび公開動画ＲＭが長時間にわたる動画であればシーン数が多くなるので、公開動画ＲＭが対象動画ＴＭに依拠したものでなかったとしても、偶然類似したシーンの画像間類似度が積算されて積算値（トータルスコア）が閾値を超える可能性がある。そのような場合も平均スコアを併用することで、平均値による判定により、対象動画ＴＭに依拠しない公開画像ＲＭが誤って検知されることを抑制することができる。また、同じあるいは似た場所で撮影されたシーンや同じあるいは似たものを撮影したシーンがあると、公開動画ＲＭが対象動画ＴＭに依拠したものでなくても特定のシーンだけが類似する場合がある。しかし、そのような場合も平均スコアによる判定で除外できる。

なお、上記の各閾値は、予め定めた固定値でもよいし、ユーザが設定したり変更したりできる値であってもよい。

上述した本発明の実施形態は、本発明の説明のための例示であり、本発明の範囲をそれらの実施形態にのみ限定する趣旨ではない。当業者は、本発明の要旨を逸脱することなしに、他の様々な態様で本発明を実施することができる。

例えば、上記した実施形態では、対象動画ＴＭのフレーム画像をそのまま代表画像ＴＭｘとして用いたが、他の構成も可能である。対象動画ＴＭを加工して盗用した公開動画ＲＭの検知性を高めるために、予め対象動画ＴＭのフレーム画像を加工して加工画像を作成し、加工画像を代表画像ＴＭｘと同様に用いて上述の処理を行うことにしてもよい。

加工画像は、代表画像ＴＭｘを、コンテンツに影響の少ない周辺部を切り落とした画像、左右反転した画像、分割した画像、補正（画素を低下）した画像などである。代表画像ＴＭｘを加工して盗用する場合に想定される加工方法で代表画像ＴＭｘを加工した加工画像を準備しておくことが好ましい。

この構成によれば、不正を行う者は、発見されにくくするために、盗用した動画に対して何らかの加工を行って公開する場合がある。何らかの加工が行われた動画は、元の対象動画ＴＭとの類似度が低下し、特定が困難となる。本構成によれば、公開動画ＲＭが対動画ＴＭを加工した動画である可能性について容易に判定することができる。

また、対象動画ＴＭを公開動画ＲＭの画面上の一部に埋め込むことにより不正の検知を逃れようとする動画盗用手法が存在する。上述した実施形態にそのような埋め込みによる不正の検知性を高める変形を加えてもよい。

その場合、判定部１３は、ステップＳ７０３にて特徴点ペアリング画像対を特定した後、切り取り画像ＲＭｘにおける盗用動画の画像が埋め込まれている領域を特定する処理を行い、ステップ７０４では、切り取り画像ＲＭｘにおける特定された領域に存在する類似特徴点対の個数に基づいて動画間の類似度を算出することにすればよい。

具体的には、最初の特徴点ペアリング画像対における類似特徴点対の座標を基に、代表画像ＴＭｘと切り取り画像ＲＭｘにおける盗用動画が埋め込まれた領域とを対応づける射影変換行列を作成し、２番目以降の特徴点ペアリング画像対については代表画像ＴＭｘと切り取り画像ＲＭｘにおける盗用動画が埋め込まれた領域との類似度特徴点対の個数に基づいて動画間の類似度を算出すればよい。

また、例えば、上記した実施形態では、公開動画画像選択部１２は、ウェブサーバ９１が提供するウェブページなどによって企業や個人などがインターネット等の通信ネットワーク９０上に公開している公開動画ＲＭから切り取り画像ＲＭｘを選択していた。これに限らず、公開動画画像選択部１２は、複数の公開動画ＲＭを公開する特定のウェブページから公開動画ＲＭを選択してもよい。特定のウェブページは、例えば、個人などが投稿可能な動画投稿サイトのウェブページでよい。これにより、複数の公開動画ＲＭの中から対象動画ＴＭに依拠する公開動画ＲＭを高速に検知することが可能となる。

公開動画画像選択部１２は、複数の公開動画ＲＭを公開する特定のウェブページにリンクする他のウェブページから公開動画ＲＭを選択してもよい。これにより、複数の公開動画ＲＭの中から対象動画ＴＭに依拠する公開動画ＲＭを検知する精度を高めることが可能となる。

１０…動画識別装置、１１…対象動画画像記録部、１２…公開動画画像選択部、１３…判定部、１３１…特徴点抽出部、１３２…第一類似動画部、１３３…第二類似動画部、ＲＭ…公開動画、ＲＭｘ…切り取り画像、ＴＭ…対象動画、ＴＭｘ…代表画像

Claims

複数の公開動画の中から対象動画に依拠する動画を検知する動画識別装置であって、
前記対象動画から、該対象動画の時間方向の構成単位毎に該構成単位に含まれるフレームの画像を代表画像として記録する対象動画画像記録部と、
前記複数の公開動画のそれぞれについて、該公開動画から所定時間毎にフレームの画像を切り取り画像として選択する公開動画画像選択部と、
前記対象動画の前記代表画像と前記公開動画の前記切り取り画像とに基づいて、前記公開動画が前記対象動画に依拠している可能性にある動画であるか否かを判定する判定部と、
を有する動画識別装置。
前記判定部は、
前記対象動画の前記代表画像および前記公開動画の前記切り取り画像のそれぞれの特徴点を抽出し、
前記代表画像の特徴点を特徴量によってクラスタリングすることにより複数のグループを作成し、前記代表画像毎に該代表画像の特徴点を前記グループに分類し、前記切り取り画像毎に該切り取り画像の特徴点を前記グループに分類し、前記対象動画と前記公開動画の組合せのそれぞれについて、各グループへの特徴点の分類に基づく画像間特徴点分類類似度が所定の閾値を超える、あるいは該画像間特徴点分類類似度が上位Ｎ位までの代表画像と切り取り画像との対を特徴点分類類似画像対として特定し、前記特徴点分類類似画像対に基づいて前記対象動画と前記公開動画の類否の一次判定を行い、
前記一次判定で非類似でないと判定された対象動画と公開動画の組合せのそれぞれについて、代表画像と切り取り画像との組み合わせのそれぞれにおける前記代表画像と前記切り取り画像の互いに特徴点間類似度が最大となる特徴点の対を類似特徴点対として特定し、前記類似特徴点対の個数が所定のペアリング条件を満たす代表画像と切り取り画像との対を特徴点ペアリング画像対として特定し、前記特徴点ペアリング画像対における前記類似特徴点対の個数に基づいて前記公開動画が前記対象動画に依拠している可能性があるという二次判定を行う、
請求項１に記載の動画識別装置。
前記判定部は、
前記対象動画の前記代表画像および前記公開動画の前記切り取り画像のそれぞれの特徴点の周囲の輝度勾配に基づいて前記特徴点の前記特徴量を特定する、
請求項２に記載の動画識別装置。
前記判定部は、前記対象動画と前記公開動画のそれぞれについて、各グループへ分類される特徴点の度数の分布をヒストグラムに表し、前記ヒストグラムのバタチャリア距離を前記画像間特徴点分類類似度として前記特徴点分類類似画像対を特定する、
請求項２に記載の動画識別装置。
前記判定部は、前記特徴点ペアリング画像対における前記類似特徴点対の個数に基づいて、前記特徴点ペリング画像対の類似度である画像間特徴点類似度を算出し、前記画像間特徴点類似度の積算値と平均値とに基づいて、前記公開動画が前記対象動画に依拠している可能性があるという二次判定を行う、
請求項２に記載の動画識別装置。
前記画像間特徴点類似度は、前記対象動画の前記代表画像の前記特徴点の総数または前記公開画像の前記切り取り画像の前記特徴点の総数に占める前記類似特徴点対の数の割合である、
請求項５に記載の動画識別装置。
前記判定部は、前記累積値が第一閾値以上、且つ、前記平均値が第二閾値以上であれば前記公開動画が前記対象動画に依拠している可能性があるという二次判定を行う、
請求項５に記載の動画識別装置。
前記対象動画画像記録部は、前記対象動画を構成する代表画像と該代表画像に対して所定の加工を行った加工画像とを記録し、
前記判定部は、前記公開動画から選択された前記切り取り画像と、前記対象動画の前記代表画像および前記加工画像とに基づいて、前記公開動画が前記対象動画に依拠している可能性のある動画であるか否か判定する、
請求項１に記載の動画識別装置。
前記加工画像は、前記代表画像を劣化させた劣化画像である、
請求項９に記載の動画識別装置。
前記公開動画画像選択部は、前記公開動画から、前記公開動画のフレーム間に差し込まれた差し込み画像ではない画像を選択する、
請求項１に記載の動画識別装置。
前記構成単位は、前記対象動画を構成するシーンである、
請求項１に記載の動画識別装置。
前記判定部は、前記切り取り画像における前記対象動画に依拠している可能性にある前記公開動画の画像が埋め込まれている領域を特定し、前記切り取り画像における特定された領域に存在する前記類似特徴点対の個数に基づいて、前記画像間特徴点類似度を算出する、
請求項５に記載の動画識別装置。
前記判定部は、前記特徴点ペアリング画像対における前記類似特徴点対の座標に基づいて、前記代表画像と、前記切り取り画像における前記対象動画に依拠している可能性にある前記公開動画の画像が埋め込まれている領域とを対応づける射影変換行列を作成する、
請求項１２に記載の動画識別装置。
対象動画から、該対象動画の時間軸方向の構成単位毎に該構成単位に含まれるフレームの画像を代表画像として記録する対象動画画像記録ステップと、
複数の公開動画のそれぞれについて、該公開動画から所定時間毎にフレームの画像を切り取り画像として選択する公開動画画像選択ステップと、
前記対象動画の前記代表画像と前記公開動画の前記切り取り画像とに基づいて、前記公開動画が前記対象動画に依拠している可能性にある動画であるか否かを判定する判定ステップと、
を有する動画識別方法。
コンピュータが備える対象動画画像記録部に、対象動画から、該対象動画の時間軸方向の構成単位毎に該構成単位に含まれるフレームの画像を代表画像として記録させ、
前記コンピュータが備える公開動画画像選択部に、複数の公開動画のそれぞれについて、該公開動画から所定時間毎にフレームの画像を切り取り画像として選択させ、
前記コンピュータが備える判定部に、前記対象動画の前記代表画像と前記公開動画の前記切り取り画像とに基づいて、前記公開動画が前記対象動画に依拠している可能性にある動画であるか否かを判定させる動画識別プログラム。