JP5297297B2

JP5297297B2 - 動画コンテンツ検出装置

Info

Publication number: JP5297297B2
Application number: JP2009186566A
Authority: JP
Inventors: 祐介内田; 真幸橋本; 暁夫米山
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2009-08-11
Filing date: 2009-08-11
Publication date: 2013-09-25
Anticipated expiration: 2029-08-11
Also published as: JP2011039776A

Description

本発明は、動画コンテンツ検出装置に関する。

近年のブロードバンドの普及、およびＨＤＤ（Hard Disk Drive）、DVD（Digital Versatile Disk）、Blu-ray disc等のストレージの大容量化に伴って、デジタルコンテンツを著作権者やコンテンツプロバイダ（以下、「著作権者等」という）の許諾を得ずに、ネットワークを介して共有・公開することが容易になってきており、このような不正な共有・公開が問題となっている。このような問題に対して、デジタルコンテンツの指紋（特徴量）を利用して、複数のデジタルコンテンツの中から、著作権者等が自由配布を許諾していない特定のコンテンツを自動的に検出する技術が提案されている（特許文献１、２、非特許文献１参照）。

特許文献１では、三次元周波数解析と主成分分析を用いて、コンテンツの特徴量を記述し、特定のコンテンツを検出している。この手法では、空間周波数解析（DCT）で得られた係数に時間軸方向への周波数解析（FFT）を加えた三次元周波数解析を行ない、さらに主成分分析により三次元周波数解析で得られた係数から特徴量を抽出している。特許文献２では、特許文献１で利用されている特徴量を用いて、流通コンテンツと類似している特定コンテンツを絞り込み、絞り込めない場合には、位相限定相関法を用いて流通コンテンツと最も類似している特定コンテンツを決定し、閾値によって同一コンテンツであるか否かを判定している。

また、非特許文献１ではまず、映像から隣接フレームの輝度値の平均絶対誤差（Motion intensity）を求め、その平均絶対誤差が極値を取るフレームをキーフレームとする。次に各キーフレームからHarris detectorによってコーナーと呼ばれる特徴点を検出し、その周辺からGaussian derivativeを用いて特徴量を抽出する。その後、各特徴量とデータベースとのマッチング・投票を行い、投票数が多いコンテンツを不正流通コンテンツとして検出している。この手法では映像に時間的な編集が行なわれた場合であっても、不正流通コンテンツを検出できるようにしている。

特開２００５−１８６７５号公報特開２００６−２８５９０７号公報

J.Law-To et al.,“Video Copy Detection:A Comparative Study,”in Proc.ACM CIVR’07,pp.371-378,2007.

しかしながら、特許文献１および２で開示されている手法では、動画コンテンツ１つから１つの特徴量を抽出するため、例えば、動画コンテンツを分割する等の時間軸方向の編集が行われると検出ができなくなるという問題がある。一方、非特許文献１で開示されている手法では、下記の問題がある。まず、Motion intensityによってキーフレームを選択しているが、Motion intensityの極値がノイズに対して不安定であり、キーフレームがずれることによって精度が低下するという問題がある。また、Motion intensityによって抽出されるキーフレームの数がシーンによって異なり、冗長なキーフレームが抽出されることにより処理時間が増加するという問題がある。さらに、抽出されるGaussian derivative特徴量は圧縮ノイズ等に比較的敏感であるため、このようなノイズが付加された場合には精度が低下するという問題がある。

本発明は、このような事情に鑑みてなされたものであり、著作権者等が自由配布を許諾していないコンテンツの一部分を切り出すなど時間軸方向の編集が行われた不正流通コンテンツや、全体が圧縮ノイズなどによって劣化した不正流通コンテンツであっても、精度よくかつ高速に検出することができる技術を提供することを目的とする。

上記問題を解決するために、本発明の一態様である動画コンテンツ検出装置は、動画コンテンツのショット境界を検出するショット境界検出部と、前記ショット境界検出部によって検出されたショット境界の前後のフレームから特徴量を抽出するショット境界特徴量抽出部と、一の動画コンテンツに係る特徴量であって前記ショット境界特徴量抽出部によって抽出されたショット境界特徴量を、記憶部に記憶されている複数の動画コンテンツに係る前記ショット境界特徴量と照合する特徴量照合部とを備え、前記ショット境界検出部は、動画コンテンツを構成するフレームであって一定間隔毎に存在する所定のフレームの情報を用いて一定間隔内に前記ショット境界が存在するか否かを判定し、前記ショット境界が存在すると判定した一定間隔内の各フレーム間がショット境界であるか否かを判定して、動画コンテンツのショット境界を検出し、前記ショット境界特徴量抽出部は、前記ショット境界の前後のフレームの相関を基に前記ショット境界特徴量を抽出することを特徴とする。

上記問題を解決するために、本発明の他の態様である動画コンテンツ検出装置は、動画コンテンツのショット境界を検出するショット境界検出部と、前記ショット境界検出部によって検出されたショット境界の前後のフレームから特徴量を抽出するショット境界特徴量抽出部と、一の動画コンテンツに係る特徴量であって前記ショット境界特徴量抽出部によって抽出されたショット境界特徴量を、記憶部に記憶されている複数の動画コンテンツに係る前記ショット境界特徴量と照合する特徴量照合部とを備え、前記ショット境界検出部は、動画コンテンツを構成するフレームであって一定間隔毎に存在する所定のフレームの情報を用いて一定間隔内に前記ショット境界が存在するか否かを判定し、前記ショット境界が存在すると判定した一定間隔内の各フレーム間がショット境界であるか否かを判定して、動画コンテンツのショット境界を検出し、前記ショット境界特徴量抽出部は、前記ショット境界の前後のフレームをそれぞれ複数のブロックに分割し、これら複数のブロックから一定個数のブロックの組を作成し、それらブロックの組の相関を基に前記ショット境界特徴量を抽出することを特徴とする。

上記問題を解決するために、本発明の他の態様である動画コンテンツ検出装置は、動画コンテンツのショット境界を検出するショット境界検出部と、前記ショット境界検出部によって検出されたショット境界の前後のフレームから特徴量を抽出するショット境界特徴量抽出部と、一の動画コンテンツに係る特徴量であって前記ショット境界特徴量抽出部によって抽出されたショット境界特徴量を、記憶部に記憶されている複数の動画コンテンツに係る前記ショット境界特徴量と照合する特徴量照合部とを備え、前記ショット境界検出部は、動画コンテンツを構成するフレームであって一定間隔毎に存在する所定のフレームの情報を用いて一定間隔内に前記ショット境界が存在するか否かを判定し、前記ショット境界が存在すると判定した一定間隔内の各フレーム間がショット境界であるか否かを判定して、動画コンテンツのショット境界を検出し、前記ショット境界特徴量抽出部は、前記ショット境界の前後のフレームをそれぞれ複数のブロックに分割し、これら複数のブロックから一定個数のブロックの組を作成し、ブロックの組の平均輝度の大小関係、動き強度の大小関係、エッジ量の大小関係の少なくとも１つを基に前記ショット境界特徴量を抽出することを特徴とする。

上記問題を解決するために、本発明の他の態様である動画コンテンツ検出装置は、動画コンテンツのショット境界を検出するショット境界検出部と、前記ショット境界検出部によって検出されたショット境界の前後のフレームから特徴量を抽出するショット境界特徴量抽出部と、一の動画コンテンツに係る特徴量であって前記ショット境界特徴量抽出部によって抽出されたショット境界特徴量を、記憶部に記憶されている複数の動画コンテンツに係る前記ショット境界特徴量と照合する特徴量照合部とを備え、前記ショット境界の前後のフレームは、それぞれ複数のブロックに分割されるものであり、前記ショット境界検出部は、動画コンテンツを構成するフレームであって一定間隔毎に存在する所定のフレームの情報を用いて一定間隔内に前記ショット境界が存在するか否かを判定し、前記ショット境界が存在すると判定した一定間隔内の各フレーム間がショット境界であるか否かを判定して、動画コンテンツのショット境界を検出し、前記特徴量照合部は、前記一の動画コンテンツに係る前記ショット境界特徴量と前記記憶部に記憶されている動画コンテンツに係る前記ショット境界特徴量との距離を算出し、当該距離に基づいて前記一の動画コンテンツと前記記憶部に記憶されている動画コンテンツとを照合し、前記距離算出において、前記複数のブロックから得られる一定個数のブロックの組のうち、平均輝度、動き強度、エッジ量が近いブロックの組の大小関係は利用しないことを特徴とする。

上記動画コンテンツ検出装置において、前記所定のフレームは、圧縮後の動画コンテンツを構成するフレームのうち他のフレームを参照することなくデコードできるフレームであってもよい。

本発明によれば、著作権者等が自由配布を許諾していないコンテンツの一部分を切り出すなど時間軸方向の編集が行われた不正流通コンテンツや、全体が圧縮ノイズなどによって劣化した不正流通コンテンツであっても、精度よくかつ高速に検出することができるようになる。

本発明の一実施形態による動画コンテンツ検出装置１の機能ブロック図である。ショット境界検出部１０の動作の一例を示すフローチャートである。ショット境界検出部１０の動作を説明する説明図である。ショット境界特徴量抽出部２０の動作を説明する説明図である。特徴量照合部４０の動作を説明する説明図である。

以下、本発明の一実施形態について図面を参照して説明する。本発明の一実施形態による動画コンテンツ検出装置１は、検査対象の動画コンテンツ（クエリコンテンツ）の特徴量と、著作権者等が自由配布を許諾していない特定のコンテンツ（以下、「リファレンスコンテンツ」という）の特徴量とを用いて、不正流通コンテンツと推測されるクエリコンテンツを検出する。動画コンテンツ検出装置１は、図１（ａ）に示すように、ショット境界検出部１０、ショット境界特徴量抽出部２０、特徴量登録部３０、特徴量照合部４０およびデータベース（記憶部）５０を備える。

ショット境界検出部１０は、動画コンテンツ（リファレンスコンテンツおよびクエリコンテンツ）のショット境界を検出する。具体的には、まず、ショット境界検出部１０は、動画コンテンツを構成するフレームであって一定間隔毎に存在する所定のフレームの情報を用いて一定間隔内にショット境界が存在するか否かを判定する。所定のフレームは、例えば、圧縮された動画コンテンツを構成するフレームのうち他のフレームを参照することなくデコードできるフレーム、即ち、該フレーム単独でデコードできるフレームである。ＧＯＰ（Group of Picture）におけるＩフレーム（Intra Picture）は、上記所定のフレームに相当する。

続いて、ショット境界検出部１０は、ある一定間隔内にショット境界が存在すると判定した場合、当該一定間隔内の各フレーム間について、各フレーム間がショット境界に該当するか否かを更に判定する。一方、ショット境界検出部１０は、ショット境界が存在しないと判定した一定間隔内の各フレーム間については、各フレーム間がショット境界に該当するか否かを更に判定しない。即ち、ショット境界検出部１０は、所定のフレームの情報を用いて各一定間隔のショット境界の存否を判定し、ショット境界が存在すると判定した一定間隔内からのみショット境界を検出する。

ショット境界を検出したショット境界検出部１０は、ショット境界の前後２枚のフレームをキーフレームとして抽出する。以下、キーフレームとして抽出した前後２枚のフレームをキーフレームペアともいう。キーフレームペアを抽出したショット境界検出部１０は、抽出したキーフレームペアをショット境界特徴量抽出部２０に供給する。

以下、図２乃至図４を用いてショット境界検出部１０の動作を詳細に説明する。なお、ショット境界検出部１０において利用する特徴量は、例えば、下記参考文献１に記載の特徴量としてもよいが、高速化のために単体で最も精度が高いとされる色ヒストグラム間のカイ二乗値とする。
（参考文献１）K.Matsumoto,M.Naito,K.Hoashi,and F.Sugaya,“SVM-Based Shot Boundary Detection With a Novel Feature,”in Proc.of ICME’06, pp.1837-1840,2006.

図２のフローチャートに示すように、ショット境界検出部１０は、まず、動画コンテンツ（リファレンスコンテンツおよびクエリコンテンツ）内のあるＧＯＰに係るＩフレームを抽出する（ステップＳ１０）。例えば、ショット境界検出部１０は、本処理を実行する毎に、動画コンテンツの先頭から順にＩフレームを抽出する。

ショット境界検出部１０は、当該Ｉフレームを含むＧＯＰ内にショット境界が存在するか否かを判定する（ステップＳ２０）。以下、あるＧＯＰ内にショット境界が存在するか否かを判定する処理をＧＯＰレベルショット境界検出処理という。

図３（ａ）は、ＧＯＰレベルショット境界判定処理に利用する特徴量の抽出法を示す概念図である。ショット境界検出部１０は、例えば、ＧＯＰレベルショット境界判定処理の判定対象となるＧＯＰ、即ち当該Ｉフレームを含むＧＯＰの前後各Ｎ個のＩフレームから特徴量を抽出する。

具体的には、まず、ショット境界検出部１０は、各ＩフレームをＸ×Ｙ個の領域に等分割し、等分割後の各領域から色ヒストグラムを抽出する。なお、上記参考文献１では、Ｏｈｔａの色空間でのヒストグラムを利用しているが、色空間の変換に必要な計算量を省くためＹＣｂＣｒ色空間でのヒストグラムを利用する。次に、ショット境界検出部１０は、隣接するＩフレームの同一の領域のヒストグラム間距離として、下記式（１）を用いてカイ二乗値ｄ_Ｘを算出する。

次に、ショット境界検出部１０は、ＳＶＭ判別に利用する特徴量として、下記式（２）を用いて、全ての隣接Ｉフレーム間の全ての領域に対するカイ二乗値ｄ_ＸであるＶ_{ｉｎｔｅｒ}を算出する。

ショット境界検出部１０は、上記特徴量を利用し、予めショット境界のラベリングを行ったコンテンツを利用し、当該Ｉフレームを含むＧＯＰ内にショット境界が存在する特徴を正例、それ以外の特徴を負例として学習しておくことでＧＯＰレベルショット境界判定処理を実現する。

ショット境界検出部１０は、ＧＯＰレベルショット境界検出処理の結果、当該Ｉフレームを含むＧＯＰ内にショット境界が存在すると判定した場合（ステップＳ２０：Ｙｅｓ）、当該ＧＯＰ内のあるフレーム間がショット境界に該当するか否かを判定する（ステップＳ３０）。例えば、ショット境界検出部１０は、本処理を実行する毎に、当該ＧＯＰの先頭のフレーム間から順に、ショット境界に該当するか否かを判定する。以下、あるフレーム間がショット境界に該当するか否かを判定する処理をフレームレベルショット境界検出処理という。即ち、ショット境界検出部１０は、ＧＯＰレベルショット境界検出処理においてＧＯＰ内にショット境界が存在すると判定されたＧＯＰについて、フレームレベルショット境界検出処理を実行する。

図３（ｂ）は、フレームレベルショット境界判定処理に利用する特徴量の抽出法を示す概念図である。フレームレベルショット境界判定処理において利用する特徴量は、図３（ｂ）に示す通り、ＧＯＰレベル境界検出処理で利用した特徴量とほぼ同じである。但し、特徴量を抽出するフレームが、判定対象のＧＯＰ外に存在する場合は、不要なデコード処理の発生を防ぐため、判定対象のＧＯＰ外に存在するフレームとの間のカイ二乗値ｄ_Ｘを実際には求めずにショット境界でないフレーム間のカイ二乗値の平均値を利用する。

ショット境界検出部１０は、フレームレベルショット境界検出処理の結果、当該ＧＯＰ内の当該フレーム間がショット境界に該当すると判定した場合（ステップＳ３０：Ｙｅｓ）、当該フレーム間の前後のキーフレームペアを抽出する（ステップＳ４０）。なお、キーフレームペアを抽出したショット境界検出部１０は、ショット境界に該当すると判定した当該フレーム間の時刻（例えば、コンテンツの先頭からの時刻。以下、「ショット境界時刻」という）に対応付けて当該キーフレームペアを一時記憶する。

ショット境界検出部１０は、当該ＧＯＰ内の当該フレーム間がショット境界に該当しないと判定した場合（ステップＳ３０：Ｎｏ）、または、キーフレームペアを抽出した場合（ステップＳ４０）、当該ＧＯＰ内の全フレーム間を対象にフレームレベルショット境界判定処理を実施したか否かを判断する（ステップＳ５０）。ショット境界検出部１０は、当該ＧＯＰ内の全フレーム間を対象にフレームレベルショット境界判定処理を実施していないと判断した場合（ステップＳ５０：Ｎｏ）、ステップＳ３０に戻って、当該ＧＯＰ内の次のフレーム間がショット境界に該当するか否かを判定する（ステップＳ３０）。

ショット境界検出部１０は、当該Ｉフレームを含むＧＯＰ内にショット境界が存在しないと判定した場合（ステップＳ２０：Ｎｏ）、または、当該ＧＯＰ内の全フレーム間を対象にフレームレベルショット境界判定処理を実施したと判断した場合（ステップＳ５０：Ｙｅｓ）、当該コンテンツ内の全ＧＯＰを対象にＧＯＰレベルショット境界判定処理を実施したか否かを判断する（ステップＳ６０）。ショット境界検出部１０は、当該コンテンツ内の全ＧＯＰを対象にＧＯＰレベルショット境界判定処理を実施していないと判断した場合（ステップＳ６０：Ｎｏ）、ステップＳ１０に戻って、当該コンテンツ内の次のＧＯＰに係るＩフレームを抽出する（ステップＳ１０）。

ショット境界検出部１０は、当該コンテンツ内の全ＧＯＰを対象にＧＯＰレベルショット境界判定処理を実施したと判断した場合（ステップＳ６０：Ｙｅｓ）、コンテンツを識別するコンテンツＩＤとともに、一時記憶しているショット境界時刻とキーフレームペアとをショット境界特徴量抽出部２０に供給し、本フローチャートは終了する。

以上説明した様に、ショット境界検出においては、圧縮されたコンテンツの基本構造であるＧＯＰに着目し、フレームレベルショット境界判定処理に先立ってＧＯＰレベルショット境界検出処理を実行している。従って、デコード等の処理時間が削減され、ショット境界の検出処理が高速化する。なお、動画コンテンツの符号化情報を利用することによって、全フレームをデコードすることなく、ショット境界を高速に検出する手法が存在するが、当該方法は、特定のコーデックに依存した符号化情報を利用するため、特定のコーデックで圧縮された動画コンテンツのみにしか適用できず、汎用的ではない。

ショット境界特徴量抽出部２０は、ショット境界検出部１０から、コンテンツＩＤとショット境界時刻とキーフレームペアとを取得する。ショット境界特徴量抽出部２０は、ショット境界検出部１０から取得したキーフレームペアから特徴量（以下、「ショット境界特徴量」という）を抽出する。

具体的には、ショット境界特徴量抽出部２０は、各キーフレームの相関を基にショット境界特徴量を抽出する。例えば、ショット境界特徴量抽出部２０は、各キーフレームをそれぞれ複数のブロックに分割し、これら複数のブロックから一定個数のブロックの組を作成し、それらブロックの組の相関を基にショット境界特徴量を抽出する。例えば、ショット境界特徴量抽出部２０は、ブロックの組の平均輝度、動き強度、エッジ量の大小関係の少なくとも１つを基にショット境界特徴量を抽出する。

リファレンスコンテンツのショット境界特徴量を抽出したショット境界特徴量抽出部２０は、当該リファレンスコンテンツに係るショット情報（コンテンツＩＤ、ショット境界時刻、ショット境界特徴量）を特徴量登録部３０に供給する。クエリコンテンツのショット境界特徴量を抽出したショット境界特徴量抽出部２０は、当該クエリコンテンツに係るショット情報（コンテンツＩＤ、ショット境界時刻、ショット境界特徴量）を特徴量照合部４０に供給する。なお、ショット境界特徴量抽出部２０は、例えば、ユーザからの入力に基づいて、当該コンテンツがリファレンスコンテンツであるかクエリコンテンツであるかを判断してもよい。例えば、動画コンテンツ検出装置はユーザからのモード選択を受け付けるモード選択受付部（非図示）を備え、モード選択受付部を介してリファレンスコンテンツのショット境界特徴量をデータベース５０に登録する登録モードを受け付けた場合には、ショット境界特徴量抽出部２０は当該コンテンツがリファレンスコンテンツであると判断し、クエリコンテンツとリファレンスコンテンツとを照合する照合モードを受け付けた場合には、ショット境界特徴量抽出部２０は当該コンテンツがクエリコンテンツであると判断する。

以下、ショット境界特徴量抽出部２０がブロックの組のエッジ量の大小関係を基にショット境界特徴量を抽出する例を説明する。まず、ショット境界特徴量抽出部２０は、各キーフレームをそれぞれＮ×Ｍ個の領域に分割する。次に、ショット境界特徴量抽出部２０は、下記式（３）または下記式（４）を用いて、分割後の各領域のエッジ量Ｅ（ｉ，ｊ）を算出する。

次に、ショット境界特徴量抽出部２０は、図４に示すように、下記式（５）（６）にて表されるＮ×Ｍビットのショット境界特徴量Ｂ（ｉ，ｊ）を算出する。但し、エッジ量Ｅ⁻（ｉ，ｊ）はショット境界の前のキーフレーム、エッジ量Ｅ^＋（ｉ，ｊ）はショット境界の後のキーフレームである。

以上説明した様に、ショット境界特徴量の抽出においては、ビット表現されるショット境界特徴量を生成するため、ＸＯＲによる高速な特徴量間の距離計算が可能になる。また、データベース５０の登録（蓄積）コストの削減が可能になる。なお、画像をビット列表現する手法は複数存在するが、それらの主な課題はロバスト性である。ロバスト性とは、画像に何らかの改変が加えられた際に、特徴量がなるべく変化しない特性のことである。従来の手法は、主にロゴやキャプション等のパターンが挿入された際に、大きく特徴量が変化してしまうという課題があった。本実施形態の手法では、1枚のフレームから特徴量を抽出するのではなく、キーフレームペア、すなわち２枚のキーフレームの相関情報を利用して特徴量を抽出するため、パターン挿入を含む様々な改変にロバストな特徴量を抽出することができる。

なお、具体例として、ショット境界特徴量抽出部２０がブロックの組のエッジ量の大小関係を基にショット境界特徴量を抽出する例を説明したが、平均輝度、動き強度の大小関係を基に境界特徴量を抽出する場合も同様である。

特徴量登録部３０は、ショット境界特徴量抽出部２０から、リファレンスコンテンツに係るショット情報（コンテンツＩＤ、ショット境界時刻、ショット境界特徴量）を取得する。リファレンスコンテンツに係るショット情報を取得した特徴量登録部３０は、当該リファレンスコンテンツに係るショット情報をデータベース５０に登録（記憶）する。なお、特徴量登録部３０は、ショット境界特徴量のハッシュ値を算出し、当該ハッシュ値をハッシュキーとして、各ショット情報を複数のハッシュテーブルに記憶する。なお、ハッシングは、例えば、下記参考文献２に記載のLocal Sensitive Hashingを利用してもよい。
（参考文献２）Datar,M.,N.Immorlica,P.Indyk and V.Mirrokni,“Locality-Sensitive Hashing Scheme Based on p-Stable Distributions,” Proceedings of the 20th Symposium on Computational Geometry,pp.253-262,2004.

以上説明した様に、特徴量の登録においては、各ショット情報は、ショット境界特徴量を基に、例えばLocal Sensitive Hashingによって複数のハッシュテーブルに登録されるため、探索処理が高速化する。

データベース５０は、リファレンスコンテンツに係るショット情報（コンテンツＩＤ、ショット境界の時刻、ショット境界特徴量）が登録（記憶）されている。なお、上述の如く、各ショット情報は、ショット境界特徴量をハッシュキーとして、複数のハッシュテーブルに登録されている。

特徴量照合部４０は、ショット境界特徴量抽出部２０から、クエリコンテンツに係るショット情報（コンテンツＩＤ、ショット境界時刻、ショット境界特徴量）を取得する。クエリコンテンツに係るショット情報を取得した特徴量照合部４０は、当該クエリコンテンツに係るショット境界特徴量を、データベース５０に記憶されている複数のリファレンスコンテンツに係るショット境界特徴量と照合する。即ち、特徴量照合部４０は、クエリコンテンツのショット境界特徴量を取得した場合、リファレンスコンテンツのショット境界特徴量を予め登録しているデータベース５０を参照し、クエリコンテンツがリファレンスコンテンツの少なくとも一部をコピーしたものに該当するか否かを照合する。

具体的には、まず、特徴量照合部４０は、クエリコンテンツの各ショット境界のショット情報（ショット境界の時刻、ショット境界特徴量）を基に、クエリコンテンツと最も類似するリファレンスコンテンツの区間を推定し、当該区間の類似度と閾値とを利用してクエリコンテンツがリファレンスコンテンツのコピーであるか否かを判定する。類似するリファレンス区間の推定は、クエリコンテンツとリファレンスコンテンツのショット境界同士のマッチングを投票によって纏めることで実現する。また、当該区間の類似度は、当該区間の投票数に基づいて算出する。

以下、図５を用いて特徴量照合部４０の動作を具体的に説明する。なお、データベース５０には、複数のリファレンスコンテンツに係るショット情報（コンテンツＩＤ、ショット境界時刻、ショット境界特徴量）が登録されているものとする。

特徴量照合部４０は、ショット境界特徴量抽出部２０から、図５（ａ）に示すクエリコンテンツＱに係るショット情報（コンテンツＩＤ、ショット境界時刻、ショット境界特徴量）を取得する。なお、ショット境界時刻ｔ_１はショット境界Ｑ_１のショット境界時刻、ショット境界時刻ｔ_２はショット境界Ｑ_２のショット境界時刻、ショット境界時刻ｔ_３はショット境界Ｑ_３のショット境界時刻であるものとする。

クエリコンテンツＱに係るショット情報を取得した特徴量照合部４０は、クエリコンテンツＱの各ショット境界Ｑ_１、Ｑ_２、Ｑ_３の各ショット特徴量と類似するショット特徴量を有するリファレンスコンテンツに係るショット境界をマッチングによってデータベース５０から検索する。具体的には、特徴量照合部４０は、クエリコンテンツとリファレンスコンテンツのショット特徴量同士の距離（類似度）が一定以下になるショット境界、または、当該ショット特徴量同士の距離が近い方から所定の個数のショット境界の何れかを類似するショット境界として検索する。

具体的には、特徴量照合部４０は、上述のショット特徴量同士の距離は、例えば、クエリコンテンツに係るショット境界特徴量であるＮ×Ｍビット、リファレンスコンテンツに係るショット境界特徴量であるＮ×Ｍビットの同士のハミング距離として単純なビット操作によって高速に算出可能である。例えば、Ｎ×Ｍビットのクエリコンテンツに係るショット境界特徴量Ｂが下記式（７）、Ｎ×Ｍビットのリファレンスコンテンツに係るショット境界特徴量Ｂ’が下記式（８）によって表される場合、特徴量照合部４０は、Ｎ×Ｍビットのビット列（ＢＸＯＲＢ’）を生成し、当該ビット列（ＢＸＯＲＢ’）に含まれる１の個数をＢとＢ’のハミング距離として算出する。

但し、特徴量照合部４０は、平均輝度、動き強度、エッジ量が近いブロックの組の大小関係については、上記距離の算出対象から除外してもよい。例えば、エッジ量が近いブロックの組の大小関係を上記距離の算出対象から除外する場合、クエリコンテンツのショット境界の前後の各キーフレームのブロック（ｉ，ｊ）のエッジ量をＥ⁻（ｉ，ｊ）およびＥ^＋（ｉ，ｊ）とするとき、｜Ｅ^＋（ｉ，ｊ）−Ｅ⁻（ｉ，ｊ）｜が小さい方から一定個のブロックに相当するビットに関しては距離算出に利用しないようにしてもよい。カイ二乗値ｄ_Ｘ（ｉ，ｊ）が小さいブロックは、Ｅ⁻（ｉ，ｊ）とＥ^＋（ｉ，ｊ）の大小関係が変わりやすいためビットの値の信頼性が低いためである。

なお、距離の算出に｜Ｅ^＋（ｉ，ｊ）−Ｅ⁻（ｉ，ｊ）｜が小さい方から一定個のブロックに相当するビットを利用しないときは、まず、特徴量照合部４０は、下記式（９）によって表されるマスク特徴量Ｈ（ｉ，ｊ）を作成する。そして、特徴量照合部４０は、上述のビット列（ＢＸＯＲＢ’）に代えて、下記式（１０）によって表されるＮ×Ｍビットのビット列Ｈを利用して、ビット列（（ＢＸＯＲＢ’）ＡＮＤＨ）を生成し、生成したビット列（（ＢＸＯＲＢ’）ＡＮＤＨ）に含まれる１の個数をＢとＢ’のハミング距離として算出する。

以上にようにして、特徴量照合部４０は、例えば、図５（ｂ）に示すように、リファレンスコンテンツＡの各ショット境界Ａ_１、Ａ_２、Ａ_３、Ａ_４、Ａ_５、リファレンスコンテンツＢの各ショット境界Ｂ_１、Ｂ_２、Ｂ_３を検索する。

リファレンスコンテンツに係るショット境界を検索した特徴量照合部４０は、マッチングを行った全てのショット境界のペアに関して、（リファレンスコンテンツに係るショット境界の時刻−クエリコンテンツに係るショット境界の時刻）に投票を行う。当該投票は、コピー区間の先頭の推定である。即ち、当該投票は、図５（ｃ）に示すように、マッチングが正しければ、実際のコピー区間の先頭と推定される時刻に集中し、マッチングが正しくなければ、分散する。従って、特徴量照合部４０は、最も多くの投票が集中する時刻への投票数が閾値以上であるか否かを判定し、閾値以上であれば、当該時刻はコピー区間の先頭であると推定する。なお、最も多くの投票が集中する時刻はコピー区間の先頭であると推定した特徴量照合部４０は、当該クエリコンテンツは不正流通コンテンツであると推測した旨の情報を外部に出力する。また、特徴量照合部４０は、当該クエリコンテンツは不正流通コンテンツであると推測した旨の情報に代えてまたは加えて、例えば、クエリコンテンツおよびリファレンスコンテンツに係るショット情報、並びに、コピー区間の先頭位置を示す情報などを外部に出力してもよい。

以上説明したように、動画コンテンツ検出装置１は、クエリコンテンツの特徴量とリファレンスコンテンツの特徴量とを用いて、不正流通コンテンツと推測されるクエリコンテンツを検出する。動画コンテンツ検出装置１は、クエリコンテンツがリファレンスコンテンツの少なくとも一部を含む不正流通コンテンツであるか否かを判定する。

動画コンテンツ検出装置１では、ショット境界からキーフレームを抽出するため、ノイズにロバストかつ冗長でないキーフレームが抽出される。また、ショット境界の前後２枚のキーフレームの相関を基に算出した特徴量を利用するため、コンテンツの変容（例えば、編集、改変、ノイズ）に対してロバストなマッチングが可能になる。また、コンテンツ内の全フレームのデコードを要しないため、高速に検出することができる。即ち、動画コンテンツ検出装置１によれば、著作権者等が自由配布を許諾していないコンテンツの一部分を切り出すなど時間軸方向の編集が行われた不正流通コンテンツや、全体が圧縮ノイズなどによって劣化した不正流通コンテンツであっても、精度よくかつ高速に検出することができるようになる。

なお、動画コンテンツ検出装置１は、図１（ａ）に示すように、ショット境界検出部１０、ショット境界特徴量抽出部２０および特徴量照合部４０に加え、特徴量登録部３０およびデータベース５０を備える例を説明したが、当該構成に限定されない。例えば、動画コンテンツ検出装置１は、図１（ｂ）に示すように、ショット境界検出部１０、ショット境界特徴量抽出部２０および特徴量照合部４０のみを備えてもよい。動画コンテンツ検出装置１は、図１（ｂ）に示す構成の場合、上述のショット境界検出部１０、ショット境界特徴量抽出部２０および特徴量登録部３０を備える外部の装置によってリファレンスコンテンツに係るショット情報が登録されている外部のデータベース５０を参照し、不正流通コンテンツと推測されるクエリコンテンツを検出する。

なお、本発明の一実施形態による動画コンテンツ検出装置１の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、本発明の一実施形態による動画コンテンツ検出装置１の各処理に係る上述した種々の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリ等の書き込み可能な不揮発性メモリ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Dynamic Random Access Memory））のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１動画コンテンツ検出装置１０ショット境界検出部２０ショット境界特徴量抽出部３０特徴量登録部４０特徴量照合部５０データベース（記憶部）

Claims

動画コンテンツのショット境界を検出するショット境界検出部と、
前記ショット境界検出部によって検出されたショット境界の前後のフレームから特徴量を抽出するショット境界特徴量抽出部と、
一の動画コンテンツに係る特徴量であって前記ショット境界特徴量抽出部によって抽出されたショット境界特徴量を、記憶部に記憶されている複数の動画コンテンツに係る前記ショット境界特徴量と照合する特徴量照合部と
を備え、
前記ショット境界検出部は、
動画コンテンツを構成するフレームであって一定間隔毎に存在する所定のフレームの情報を用いて一定間隔内に前記ショット境界が存在するか否かを判定し、前記ショット境界が存在すると判定した一定間隔内の各フレーム間がショット境界であるか否かを判定して、動画コンテンツのショット境界を検出し、
前記ショット境界特徴量抽出部は、
前記ショット境界の前後のフレームの相関を基に前記ショット境界特徴量を抽出する
ことを特徴とする動画コンテンツ検出装置。
動画コンテンツのショット境界を検出するショット境界検出部と、
前記ショット境界検出部によって検出されたショット境界の前後のフレームから特徴量を抽出するショット境界特徴量抽出部と、
一の動画コンテンツに係る特徴量であって前記ショット境界特徴量抽出部によって抽出されたショット境界特徴量を、記憶部に記憶されている複数の動画コンテンツに係る前記ショット境界特徴量と照合する特徴量照合部と
を備え、
前記ショット境界検出部は、
動画コンテンツを構成するフレームであって一定間隔毎に存在する所定のフレームの情報を用いて一定間隔内に前記ショット境界が存在するか否かを判定し、前記ショット境界が存在すると判定した一定間隔内の各フレーム間がショット境界であるか否かを判定して、動画コンテンツのショット境界を検出し、
前記ショット境界特徴量抽出部は、
前記ショット境界の前後のフレームをそれぞれ複数のブロックに分割し、これら複数のブロックから一定個数のブロックの組を作成し、それらブロックの組の相関を基に前記ショット境界特徴量を抽出する
ことを特徴とする動画コンテンツ検出装置。
動画コンテンツのショット境界を検出するショット境界検出部と、
前記ショット境界検出部によって検出されたショット境界の前後のフレームから特徴量を抽出するショット境界特徴量抽出部と、
一の動画コンテンツに係る特徴量であって前記ショット境界特徴量抽出部によって抽出されたショット境界特徴量を、記憶部に記憶されている複数の動画コンテンツに係る前記ショット境界特徴量と照合する特徴量照合部と
を備え、
前記ショット境界検出部は、
動画コンテンツを構成するフレームであって一定間隔毎に存在する所定のフレームの情報を用いて一定間隔内に前記ショット境界が存在するか否かを判定し、前記ショット境界が存在すると判定した一定間隔内の各フレーム間がショット境界であるか否かを判定して、動画コンテンツのショット境界を検出し、
前記ショット境界特徴量抽出部は、
前記ショット境界の前後のフレームをそれぞれ複数のブロックに分割し、これら複数のブロックから一定個数のブロックの組を作成し、ブロックの組の平均輝度の大小関係、動き強度の大小関係、エッジ量の大小関係の少なくとも１つを基に前記ショット境界特徴量を抽出する
ことを特徴とする動画コンテンツ検出装置。
動画コンテンツのショット境界を検出するショット境界検出部と、
前記ショット境界検出部によって検出されたショット境界の前後のフレームから特徴量を抽出するショット境界特徴量抽出部と、
一の動画コンテンツに係る特徴量であって前記ショット境界特徴量抽出部によって抽出されたショット境界特徴量を、記憶部に記憶されている複数の動画コンテンツに係る前記ショット境界特徴量と照合する特徴量照合部と
を備え、
前記ショット境界の前後のフレームは、それぞれ複数のブロックに分割されるものであり、
前記ショット境界検出部は、
動画コンテンツを構成するフレームであって一定間隔毎に存在する所定のフレームの情報を用いて一定間隔内に前記ショット境界が存在するか否かを判定し、前記ショット境界が存在すると判定した一定間隔内の各フレーム間がショット境界であるか否かを判定して、動画コンテンツのショット境界を検出し、
前記特徴量照合部は、
前記一の動画コンテンツに係る前記ショット境界特徴量と前記記憶部に記憶されている動画コンテンツに係る前記ショット境界特徴量との距離を算出し、当該距離に基づいて前記一の動画コンテンツと前記記憶部に記憶されている動画コンテンツとを照合し、
前記距離算出において、前記複数のブロックから得られる一定個数のブロックの組のうち、平均輝度、動き強度、エッジ量が近いブロックの組の大小関係は利用しない
ことを特徴とする動画コンテンツ検出装置。
前記所定のフレームは、
圧縮後の動画コンテンツを構成するフレームのうち他のフレームを参照することなくデコードできるフレームであることを特徴とする請求項１乃至請求項４の何れか１項に記載の動画コンテンツ検出装置。