JP2006351001A - コンテンツ特徴量抽出方法及び装置及びコンテンツ同一性判定方法及び装置 - Google Patents

コンテンツ特徴量抽出方法及び装置及びコンテンツ同一性判定方法及び装置 Download PDF

Info

Publication number
JP2006351001A
JP2006351001A JP2006132738A JP2006132738A JP2006351001A JP 2006351001 A JP2006351001 A JP 2006351001A JP 2006132738 A JP2006132738 A JP 2006132738A JP 2006132738 A JP2006132738 A JP 2006132738A JP 2006351001 A JP2006351001 A JP 2006351001A
Authority
JP
Japan
Prior art keywords
content
region
feature
feature amount
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006132738A
Other languages
English (en)
Inventor
Takehito Abe
剛仁 阿部
Tomonori Takada
智規 高田
Harumi Kawamura
春美 川村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006132738A priority Critical patent/JP2006351001A/ja
Publication of JP2006351001A publication Critical patent/JP2006351001A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】フォーマットや品質などが変化したコンテンツであっても、一定の範囲内で表す内容が同じであるコンテンツについては同一であると判断可能にする
【解決手段】本発明は、入力されたコンテンツデータの複数の特定領域を一組の領域群として選択し、領域選択ステップで選択された各々の領域におけるデータ分布特徴を数値化し、領域毎の特徴値を一組の領域群内で比較し、比較結果に特定の符号を割り当て、該符号をコンテンツの特徴量として出力する。
【選択図】図1

Description

本発明は、コンテンツ特徴量抽出方法及び装置及びコンテンツ同一性判定方法及び装置に係り、特に、動画像、静止画像、音声、テキスト情報などのディジタルコンテンツ個々の特徴を抽出するコンテンツ特徴量抽出方法及び装置、さらに、コンテンツ特徴量抽出装置により抽出された特徴量を用いて、コンテンツの同一性を判定するコンテンツ同一性判定方法及び装置に関する。
パーソナルコンピュータや携帯端末等の情報処理装置及び光ファイバー、3G携帯通信が普及し、多くの家庭や企業において、動画像、静止画、音声、テキスト情報等様々なコンテンツが流通・利用されている。このような環境の下では、大量の情報の中から、利用者が所望のコンテンツを効率よく見つけ出す検索の手段が求められている。また、コンテンツの不正な配布などにより、提供者が意図せぬ流通拡大が行われる場合があり、それら不正流通コンテンツの所在を確認するための、特定コンテンツの検索手段が求められている。
特定のコンテンツを同一のコンテンツを検索する手段としては、コンテンツの全体もしくは一部構成要素の固有情報を特徴量として抽出し、それらの類似度もしくは一致度を判定する方法がある。例えば、コンテンツが画像の場合は、類似画像検索技術としていくつかの方式が提案されており、画像中のオブジェクトを切り出して、その形状や色ヒストグラムのデータを比較する方法がある(例えば、非特許文献1参照)。
また、画像を数十の領域に分割して離散コサイン変換(DCT変換)などを行い、各領域の代表色を算出して特徴量列を決定し、比較する方法などが提案されている(例えば、非特許文献2参照)。
「オブジェクトに基づく高速画像検索システム:ExSight:」串間和彦他、情報処理学会論文誌、Vol.40, No.2, pp832-741, (1999). 「高速映像検索のためのColorLayout 記述子の開発とその国際標準化」、山田昭雄他、NEC技法、Vol.56, No3, pp.11-14, (2003).
コンテンツの構成要素を固有の特徴として抽出する、例えば、類似画像検索による特徴値比較の方法では、特徴量抽出のため、画像からのオブジェクト切り出しなど負荷の高い計算処理が必要であったり、フォーマット変換時の使用色数の減少などによって全体の色調が変化した場合などに検出率が低下するといった問題がある。
本発明は、上記の点に鑑みなされたもので、フォーマットや品質などが変化したコンテンツであっても、一定の範囲内で表す内容が同じであるコンテンツについては同一であると判断可能にするためのコンテンツ特徴量抽出方法及び装置及びコンテンツ同一性判定方法及び装置を提供することを目的とする。
また、特徴量の算出、蓄積、及び比較について、携帯端末のような演算処理性能の低い機器においても容易に実行が可能である、演算負荷の小さい効率のよいコンテンツ特徴量抽出方法及び装置及びコンテンツ同一性判定方法及び装置を提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、ディジタルコンテンツを構成するデータの分布特徴に基づき、コンテンツ固有の特徴量を抽出するコンテンツ特徴量抽出装置におけるコンテンツ特徴量抽出方法であって、
領域選択手段が、入力されたコンテンツデータの複数の特定領域を一組の領域群として選択する領域選択ステップ(ステップ1)と、
領域内特徴値算出手段が、領域選択ステップで選択された各々の領域におけるデータ分布特徴を数値化する領域内特徴値算出ステップ(ステップ2)と、
領域内特徴値比較手段が、領域毎の特徴値を一組の領域群内で比較する領域内特徴値比較ステップ(ステップ3)と、
符号化手段が、領域内特徴値比較ステップの比較結果に特定の符号を割り当て、該符号をコンテンツの特徴量として出力する符号化ステップ(ステップ4)と、を行う。
本発明(請求項2)は、別の領域群からなる一組の一度以上再選択させるスケジューラを用いて、新しい一組の領域群を領域選択手段に選択させ、符号化ステップにおいて割り当てた符号を結合手段により結合して結合データを生成する処理を、複数回繰り返すステップを更に行い、
結合データをコンテンツ特徴量として出力する。
本発明(請求項3)は、請求項1乃至2に記載のコンテンツ特徴量抽出方法により出力されたコンテンツ特徴量を用いて、2つのコンテンツの同一性を判定するコンテンツ同一性判定装置における、コンテンツ同一性判定方法であって、
入力手段が、出力された2つのコンテンツの特徴量を構成する符号を入力し、該2つのコンテンツの特徴量から、コンテンツ特徴量抽出装置の領域選択手段が各々のコンテンツにおいて、同一の領域選択を行った領域群内の比較結果から得られた符号を抜粋するステップと、
比較手段が、抜粋された符号同士を逐次比較し、値が一致する割合から同一性を判定するステップと、を行う。
また、本発明(請求項4)は、比較手段が、比較対象のコンテンツから各々抽出された2つの符号のうち、片方の符号が特定の符号である場合に、比較対象から除外する。
図2は、本発明の原理構成図である。
本発明(請求項5)は、ディジタルコンテンツを構成するデータの分布特徴に基づき、コンテンツ固有の特徴量を抽出するコンテンツ特徴量抽出装置であって、
入力されたコンテンツデータの複数の特定領域を一組の領域群として選択する領域選択手段101と、
各々の領域におけるデータ分布特徴を数値化する領域内特徴値算出手段102と、
領域毎の特徴値を一組の領域群内で比較する領域内特徴値比較手段103と、
領域内特徴値比較手段による特徴値比較結果に特定の符号を割り当て、該符号をコンテンツの特徴量として出力する符号化手段104と、を有する。
また、本発明(請求項6)は、領域選択手段101に対して、別の領域群からなる一組を一度以上再選択させるスケジューラと、
符号化手段104において割り当てられた符号を結合した結合データをコンテンツ特徴量として出力する結合手段と、
スケジューラと結合手段の処理を複数回繰り返した後、前記結合データをコンテンツ特徴量として出力する手段を、さらに有する。
また、本発明(請求項7)は、領域内特徴値比較手段103において、特徴値の差分を比較結果とし、
符号化手段104において、差分を一定のビット長で収まる値に量子化した数値を符号とする。
また、本発明(請求項8)は、領域内特徴値算出手段102において、
領域内のバイナリデータの平均値を算出する手段を含む。
また、本発明(請求項9)は、領域選択手段101において、コンテンツが画像データである場合、画像の空間的な特定位置の画素値集合を選択する手段を含む。
また、本発明(請求項10)は、領域選択手段101において、コンテンツが画像データである場合、画像の空間的な特定位置の画素集合の、分布関数による変換後の周波数成分値を選択する手段を含む。
また、本発明(請求項11)は、領域選択手段101において、コンテンツが画像データであり、空間的な特定位置の画素値集合を選択する際に、
ある特定の画素値集合領域と、該画素値集合から空間位置的に一定距離範囲内に存在する画素値集合領域を選択する手段を含み、
領域内特徴値算出手段102において、領域の画素値の平均値を領域内特徴値として算出する手段を含む。
また、本発明(請求項12)は、領域選択手段101において、コンテンツが画像データであり、画像の空間的な特定位置の画素集合の、分布関数による変換後の周波数成分値を選択する際に、
ある特定の周波数成分領域と、その画素値集合から周波数的に一定距離離れた領域内に存在する周波数成分値を選択する手段を含み、
領域内特徴値算出手段102において、
領域の周波数成分値の平均値を領域内特徴値として算出する手段を含む。
また、本発明(請求項13)は、領域選択手段101において、コンテンツが動画像データであり、時系列で変化する任意のフレーム画像を選択の対象に加える手段を含む。
本発明(請求項14)は、請求項5乃至12記載のコンテンツ特徴量抽出装置により得られるコンテンツ特徴量を用いて、2つのコンテンツの同一性を判定するコンテンツ同一性判定装置であって、
コンテンツ特徴量抽出装置から入力された2つのコンテンツの特徴量を構成する符号から、該コンテンツ特徴量抽出装置の領域選択手段が各々のコンテンツにおいて、同一の領域選択を行った領域群内の比較結果から得られた符号を抜粋する入力手段と、
抜粋した符号同士を逐次比較し、値が一致する割合から同一性を判定する比較手段と、を有する。
また、本発明(請求項15)は、比較手段において、比較対象のコンテンツから各々抽出された2つの符号のうち、片方の符号が特定の符号である場合に、比較対象から除外する手段を含む。
上記のように、本発明のコンテンツ特徴量抽出方法(装置)では、コンテンツの部分領域を複数求め、それぞれの領域の特徴量を求め、複数の特徴量の比較を行って、比較結果を符号化し、コンテンツの最終的な特徴量とすることにより、携帯端末のような演算処理能力の小さな端末においても、フォーマットや品質などの変化にも影響を受けにくい、コンテンツ固有の特徴量を算出することが可能になる。
また、コンテンツ特徴量に対し、コンテンツ同一性判定方法(装置)では、特徴量を利用してコンテンツの同一性を判定することにより、一定の範囲内で表す内容が同じであるコンテンツについては同一であると判断可能になる。
以下、図面と共に本発明の実施の形態を説明する。
以下の説明において、特に断りがない限り、「コンテンツ」とは、動画像、静止画像、音声、テキスト、メタデータ等のディジタルデータ全てを対象とする。
[第1の実施の形態]
図3は、本発明の第1の実施の形態におけるコンテンツ特徴量抽出装置の構成を示す。
なお、同図においてコンテンツ特徴量抽出装置100の上部にデータの模式図を併せて示している。
コンテンツ特徴量抽出装置100は、領域選択部101、領域内特徴値算出部102、領域内特徴値比較部103、符号化部104から構成される。
コンテンツ特徴量抽出装置100にコンテンツデータ110を入力すると、領域選択部101がコンテンツデータから特定の部分を選択する。図3(a)の例では、3つの領域をまとめて領域群と呼ぶ。
コンテンツデータ110より選択された各々の領域のデータに対して、領域内特徴値算出部102は、領域内のデータの特徴値を算出する。図3(b)は、(a)の3領域の選択例において、領域内特徴値算出部102により、各々“3”、“50”、“271”が算出された例を示す。
領域内特徴値は領域内特徴値比較部103へと送られ、特徴値同士の比較が行われる。図3(c)は、領域内特徴値算出部102の算出結果例に対して大小関係の比較を行い、結果を符号化部104へと送信する例である。
領域内特徴値比較部103の比較結果情報を受け取った符号化部104は、定められた手順に従って比較結果に対応した符合を割り当てる。図3(d)は、各領域内特徴値の大小関係を元に、対応表を用いて特定の目次列を符号として割り当てる例である。
コンテンツ特徴量抽出装置100は、符号化部104から出力された符号をコンテンツ特徴量115として出力する。
図4は、本発明の第1の実施の形態における動作のフローチャートである。
ステップ101) コンテンツデータ110が領域選択部101に入力される
ステップ102) 領域選択部101は、当該コンテンツデータの複数の特定領域を1つの領域群として選択する。
例えば、コンテンツがテキストの場合、領域選択部101で選択されるデータは、文章の先頭から特定文字数後の任意の文字数からなる文字列集合や、文字列のアスキーコード、UNICODE、EUC、SJIS、JISなどの文字コード集合である。
ステップ103) 領域内特徴値算出部102において、領域選択部101で選択されたデータの各領域におけるデータ分布特徴値(領域内特徴値)を算出する。領域内特徴値算出部102で算出する領域内特徴値は、文字列の単語辞書マッチングによるインデックス値、文字コードに対する平均値、標準偏差、ハッシュ演算、その他の関数により写像された値である。
例えば、コンテンツが音声データの場合、領域選択部101で選択されるデータは、ある時間帯に相当する音量強度データや、PCM符号化、MPEG Audio等の音声符号化データの符号の集合である。
また、領域内特徴値算出部102で算出する領域内特徴値は、強度データ、符号化データ値の平均値、標準偏差、ハッシュ演算、その他の関数により写像された値である。
例えば、静止画像データの場合、領域選択部101で選択されるデータは、空間的な特定部分の矩形もしくは、任意の形状の領域における画素値の集合、または、離散コサイン変換(DCT)、ウェーブレット変換、その他の変換関数により得られる係数値の部分集合、JPEG、GIF等の画像符号化データの集合である。画素値は、RGB、YCrCb等の色空間における個々の要素の値、要素の合計値、要素の平均値、もしくは、カラーインデックス値である。また、領域内特徴値算出部102で算出する領域内特徴値は、画素値、係数値、符号化データ値等に対する平均値、標準偏差、ハッシュ演算、その他の関数により写像された値である。
あるいは、領域選択部101で選択されるデータは、コンテンツの種別に関係なく先頭から特定バイト後の任意のバイト数のバイナリデータの集合であり、領域内特徴値算出部102で算出する領域内特徴値は、バイナリデータの平均値、標準偏差、ハッシュ演算、その他の関数により写像された値である。
ステップ104) 領域内特徴値比較部103において、領域内特徴値算出部102から送られる特徴値に対し、値の大小の情報を昇順もしくは降順で符号化部104に出力する。もしくは、各領域特徴値の差分情報、分散情報として符号化部104に出力する場合もある。
ステップ105) 符号化部104は、領域内特徴値比較部103から出力された比較結果の情報に基づいて、ある一定の符号を決定する。符号は、数値データ、文字データの集合体である場合がある。符号の決定は、比較結果に対応する対応表を用いて対応する符号に決定する方法や、決定結果をある関数を用いて変換した写像の値とする方法がある。また、領域の選択が2つの場合は、値の大小を1ビットで表す方法があり、また、2つの領域内特徴値の差分を元に、符号を割り当てる方法もある。
ステップ106) 上記のようにして決定された符号は、コンテンツ特徴量抽出装置100よりコンテンツ特徴量として後述するコンテンツ同一性判定装置や記憶手段に出力される。
[第2の実施の形態]
図5は、本発明の第2の実施の形態におけるコンテンツ特徴量抽出装置の構成を示す。第1の実施の形態の図3の構成と同一構成要素には同一符号を付し、その説明を省略する。
図5に示す本実施の形態のコンテンツ特徴量抽出装置200は、第1の実施の形態と同様に、入力コンテンツの特徴量を出力する装置である。第1の実施の形態と異なる点は、結合部205とスケジューラ206が追加実装されている点である。
図6は、本発明の第2の実施の形態における動作のフローチャートである。
本実施の形態では、前述の第1の実施の形態の符号化部104で作成された符号を結合部205内のメモリで一旦保持し、スケジューラ206は、領域選択部101に対して異なる領域群の選択を指示し(ステップ204)、結合部205は、再度得られた符号を保持していた符号と結合し、結合後の符号を保持する(ステップ207)。スケジューラ206は、領域選択部101に対して再度別の領域群を選択する指示を出すことを必要回数繰り返し(ステップ208)、最終的に結合部205が保持していた結合済み符号をコンテンツ特徴量211として後述するコンテンツ同一性判定装置や記憶手段に出力する(ステップ209)。
なお、上記の第1の実施の形態、及び、第2の実施の形態において、領域内特徴値比較部103が、特徴量の差分データを量子化した数値を符号にする方法がある。
例えば、領域選択部101が2つの領域として領域X、領域Yを選択し、領域内特徴値算出部102が各々1バイトの数値データfx,fyを算出する場合を考える。ここで、fx−fyの差分に対して、符号化部104が図7に示すような量子化テーブルを用いて符号を割り当てる。また、fx−fyに対して、ある関数で写像した値を量子化値とすることもある。図8は、以下の関数による変換例である。
Ceil((fx−fy)÷85)
但し、関数Ceil()は、小数点以下切り上げを行う関数である。
図9は、本発明の第1・第2の実施の形態における領域内特徴値算出部が領域内のバイナリデータの平均値を領域内特徴値とする方法を説明するための図である。同図の例では、領域選択部101が2つの領域として、先頭から17バイト目から8バイト目を領域X、先頭から33バイト目から8バイトを領域Yとして選択し、領域内特徴値算出部102が各々1バイトの数値データfx,fyを算出する。fxは領域内の平均値として“1”を、fyは領域内の平均値として“6”を領域内特徴値とする。小数点以下が生じる場合は、切り上げもしくは切り捨ての処理を行う。
図10〜図18は、本発明の第1・第2の実施の形態における領域選択の例を示している。
図10、図11は、コンテンツが画像データである場合の例である。領域選択部101が2つの領域として、画像が空間的な特定位置である領域X、領域Yを選択している。図10では、選択領域が矩形である。また、領域サイズは領域X、領域Yで同等である。図11のように、選択領域が矩形ではなく、サイズが異なる場合もある。
スケジューラにより、コンテンツから領域群を何度も選択する場合には、予め用意した領域選択マスクを用いる。図12は、4つの領域選択パターンを示しており、例として塗り分けた領域を領域X、領域Yとしている。このような選択パターンを定めておくことで、画像コンテンツの空間的な特徴量算出の基礎となる領域の選択が、定格的に行えるようになる。
図13は、画像の選択方法の例を、前述の領域選択マスクの形式で記述している。領域Xをある位置に選択した場合、領域Yを領域Xから一定距離内に選択する方法がある。このような領域選択を加えることで、本発明のコンテンツ特徴量抽出装置100,200により作成された特徴量を用いて画像の同一性を判定する際に、画像内のオブジェクトの微小な位置の移動を検知することが可能になり、コンテンツ特徴量の唯一化と、類似画像の判別の精度向上に役立つ。
図15は、本発明の第1・第2の実施の形態において、コンテンツが画像データである場合の領域選択の例を示している。領域選択部101は、画像の空間的な特定位置の画像集合を切り出し、その画像集合に対して、例えば、DCT変換を行って周波数的な分布を計算する。図15の例は、画像コンテンツ1000にある画像集合1001にDCT変換を行い、8×8のDCT係数テーブル1002を作成し、DCT係数テーブルより特定の9係数を選択し、選択領域としている。DCT係数1003はDC係数であり、DC係数を選択領域とすることもできる。
図16、図17は、DCT係数テーブルの領域選択の例を示しており、図16、図17とも2つの領域を選択する場合である。図16は、領域XをDC係数値にとり、領域Yに隣接するAC係数値の領域を選択している。図17は、領域XをDC係数値にとり、領域Yに領域Xとは隔離した係数値から領域を選択している。このような領域選択を加えることにより、本発明のコンテンツ特徴量抽出装置100,200により作成された特徴量を用いて画像の同一性を判定する際に、コンテンツ特徴値の唯一化と、類似画像の判別の精度向上に役立つ。
図18は、動画像からの領域選択の方法を示す。ある時刻tのフレーム画像Itにおいて、前述の静止画像に対する領域選択の方法に加えて、t±n(nは整数)のフレーム画像を対象として同様の領域選択を行う。
[第3の実施の形態]
図19は、本発明の第3の実施の形態におけるコンテンツ同一性判定装置の構成を示す。
同図に示すコンテンツ同一性判定装置300は、入力部301、メモリ302、比較部303から構成される。
図20は、本発明の第3の実施の形態におけるコンテンツ特徴量の例を示しており、前述の第1または第2の実施の形態におけるコンテンツ特徴量抽出装置100,200により抽出された2つのコンテンツ、コンテンツAとコンテンツBの特徴量(Fa,Fb)の例である。
入力部301には、このコンテンツAとコンテンツBの特徴量が入力され、メモリ302に格納される。比較部303では、同一性判断を行う。数値を先頭から逐次照合していくと、Fa、Fbは▲マークを添付した3箇所で数値が異なっている。ここでコンテンツA、コンテンツBは同一でないと見なす。逆に全ての値が一致する場合に同一と判断することができる。また、ある閾値を設けて、数値が異なる箇所が閾値以下ならば同一と判断してもよい。
上記の同一性判定方法では、2つの特徴量の要素を逐次比べて、数値が異なる数をカウントして不一致度とし、不一致度が閾値以下の場合を一致コンテンツと見做しているが、この方法では、例えば、元の同一の画像コンテンツ(I)でありながら、片方にフォーマット変換等による全体に微小な劣化がある画像(I’)と比較すると、不一致と検出される可能性がある。これは、わずかな画素値の変換によりI’の符号が、図7に記載の図の中の隣の左右何れかの符号、例えば、3→2,0→1、2→1等に変化した場合を、全て不一致度としてカウントしてしまうからである。
上記の同一性判断方法において、逐次先頭から数値を比較していく中で、例えば、Fa,Fbの少なくとも一方が、“0”か“1”である場合に、数値の不一致をカウントしないという方法もある。この方法では、図20では星印が付与された部分のみが不一致と判定される。
符号が大きく変化した場合のみをカウントして不一致度を算出する方法では、この問題点は改善されるものの、全体として色成分が平坦な画像の場合においては、多くの符号が0と1に偏るため、全く異なる画像との一致度比較においても、不一致度のカウントが低くなるため、誤って同一と判定される場合が生じる。
これらの問題を解決するために次のような同一性判断方法もある。
上記の同一性判断方法において、単純に特徴量の不一致度をカウントするのではなく、符号の近い(差分の小さい)物を一致度係数、符号の遠い(差分の大きい)物を不一致度係数としてそれらの比率を求めて一致判定を行う方法である。例えば、差分が0の個数をd、差分が1の個数をd、差分が2の個数をd、差分が3の個数をdとし、差の大きいものの個数に占める差分が無いものの個数の割合をスコアとして計算し、スコアが一定の閾値以上の場合を一致と判定する方法である。
図21は、本発明の第3の実施の形態における同一画像判定の例を示す図である。
同図の例では、dからdまで全てを用いるスコアの計算式を記載しているが、例えば、重み付けパラメータbを0にし、スコアをd/a*d+a*dと計算する方法もある。また、差分の大きな符号の一致を重視する観点から、dのカウント時に符号1と1同士、符号2と2同士の場合を除く方法もある。
この方法により、不一致度が低いばかりでなく、一致度の高さも勘案した正確な一致コンテンツの比較が可能になる。また、低演算量であるため、携帯電話等の低リソース環境での同一性判断が実現可能となる。
なお、上記の第1〜第3の実施の形態における図3、図5に示すコンテンツ特徴量抽出装置及び図19に示すコンテンツ同一性判定装置の各構成要素の動作をプログラムとして構築し、コンテンツ特徴量抽出装置及びコンテンツ同一性判定装置として利用されるコンピュータにインストールして実行させる、または、ネットワーク介して流通させることも可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、ディジタルコンテンツの特徴を抽出する、コンテンツの同一性を判定する技術に適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の第1の実施の形態におけるコンテンツ特徴量抽出装置の構成図である。 本発明の第1の実施の形態における動作のフローチャートである。 本発明の第2の実施の形態におけるコンテンツ特徴量抽出装置の構成図である。 本発明の第2の実施の形態における動作のフローチャートである。 本発明の第1・第2の実施の形態における量子化テーブルの例である。 本発明の第1・第2の実施の形態における関数による変換の例である。 本発明の第1・第2の実施の形態における領域内特徴値算出部が領域内のバイナリデータの平均値を領域内特徴値とする方法を説明するための図である。 本発明の第1・第2の実施の形態における領域選択の例(その1)である。 本発明の第1・第2の実施の形態における領域選択の例(その2)である。 本発明の第1・第2の実施の形態における領域選択の例(その3)である。 本発明の第1・第2の実施の形態における領域選択の例(その4)である。 本発明の第1・第2の実施の形態における領域選択の例(その5)である。 本発明の第1・第2の実施の形態における領域選択の例(その6)である。 本発明の第1・第2の実施の形態における領域選択の例(その7)である。 本発明の第1・第2の実施の形態における領域選択の例(その8)である。 本発明の第1・第2の実施の形態における領域選択の例(その9)である。 本発明の第3の実施の形態におけるコンテンツ同一性判定装置の構成図である。 本発明の第3の実施の形態におけるコンテンツ特徴量の例である。 本発明の第3の実施の形態における同一画像判定の例である。
符号の説明
100,200 コンテンツ特徴量抽出装置
101 領域選択手段、領域選択部
102 領域内特徴値算出手段、領域内特徴値算出部
103 領域内特徴値比較手段、領域内特徴値比較部
104 符号化手段、符号化部
110 コンテンツデータ
115 コンテンツ特徴量
205 結合部
206 スケジューラ
211 コンテンツ特徴量
300 コンテンツ同一性判定装置
301 入力部
302 メモリ
303 比較部

Claims (15)

  1. ディジタルコンテンツを構成するデータの分布特徴に基づき、コンテンツ固有の特徴量を抽出するコンテンツ特徴量抽出装置におけるコンテンツ特徴量抽出方法であって、
    領域選択手段が、入力されたコンテンツデータの複数の特定領域を一組の領域群として選択する領域選択ステップと、
    領域内特徴値算出手段が、前記領域選択ステップで選択された各々の領域におけるデータ分布特徴を数値化する領域内特徴値算出ステップと、
    領域内特徴値比較手段が、前記領域毎の特徴値を一組の領域群内で比較する領域内特徴値比較ステップと、
    符号化手段が、前記領域内特徴値比較ステップの比較結果に特定の符号を割り当て、該符号をコンテンツの特徴量として出力する符号化ステップと、
    を行うことを特徴とするコンテンツ特徴量抽出方法。
  2. 別の領域群からなる一組を一度以上再選択させるスケジューラを用いて、新しい一組の領域群を前記領域選択手段に選択させ、前記符号化ステップにおいて割り当てた符号を結合手段により結合して結合データを生成する処理を、複数回繰り返すステップを更に行い、
    前記結合データをコンテンツ特徴量として出力する、請求項1記載のコンテンツ特徴量抽出方法。
  3. 前記請求項1乃至2に記載のコンテンツ特徴量抽出方法により出力されたコンテンツ特徴量を用いて、2つのコンテンツの同一性を判定するコンテンツ同一性判定装置におけるコンテンツ同一性判定方法であって、
    入力手段が、前記出力された2つのコンテンツの特徴量を構成する符号を入力し、該2つのコンテンツの特徴量から、コンテンツ特徴量抽出装置の領域選択手段が各々のコンテンツにおいて、同一の領域選択を行った領域群内の比較結果から得られた符号を抜粋するステップと、
    比較手段が、抜粋された前記符号同士を逐次比較し、値が一致する割合から同一性を判定するステップと、
    を行うことを特徴とするコンテンツ同一性判定方法。
  4. 前記比較手段が、比較対象のコンテンツから各々抽出された2つの符号のうち、片方の符号が特定の符号である場合に、比較対象から除外する、請求項3記載のコンテンツ同一性判定方法。
  5. ディジタルコンテンツを構成するデータの分布特徴に基づき、コンテンツ固有の特徴量を抽出するコンテンツ特徴量抽出装置であって、
    入力されたコンテンツデータの複数の特定領域を一組の領域群として選択する領域選択手段と、
    各々の領域におけるデータ分布特徴を数値化する領域内特徴値算出手段と、
    前記領域毎の特徴値を一組の領域群内で比較する領域内特徴値比較手段と、
    前記領域内特徴値比較手段による特徴値比較結果に特定の符号を割り当て、該符号をコンテンツの特徴量として出力する符号化手段と、
    を有することを特徴とするコンテンツ特徴量抽出装置。
  6. 前記領域選択手段に対して、別の領域群からなる一組を一度以上再選択させるスケジューラと、
    前記符号化手段において割り当てられた前記符号を結合した結合データをコンテンツ特徴量として出力する結合手段と、
    前記スケジューラと前記結合手段の処理を複数回繰り返した後、前記結合データをコンテンツ特徴量として出力する手段を、さらに有する請求項5記載のコンテンツ特徴量抽出装置。
  7. 前記領域内特徴値比較手段は、特徴値の差分を比較結果とし、
    前記符号化手段は、前記差分を一定のビット長で収まる値に量子化した数値を符号とする、請求項5記載のコンテンツ特徴量抽出装置。
  8. 前記領域内特徴値算出手段は、
    領域内のバイナリデータの平均値を算出する手段を含む請求項5記載のコンテンツ特徴量抽出装置。
  9. 前記領域選択手段は、
    前記コンテンツが画像データである場合、画像の空間的な特定位置の画素値集合を選択する手段を含む請求項6記載のコンテンツ特徴量抽出装置。
  10. 前記領域選択手段は、
    前記コンテンツが画像データである場合、画像の空間的な特定位置の画素集合の、分布関数による変換後の周波数成分値を選択する手段を含む請求項6記載のコンテンツ特徴量抽出装置。
  11. 前記領域選択手段は、
    前記コンテンツが画像データであり、空間的な特定位置の画素値集合を選択する際に、
    ある特定の画素値集合領域と、該画素値集合から空間位置的に一定距離範囲内に存在する画素値集合領域を選択する手段を含み、
    前記領域内特徴値算出手段は、
    領域の画素値の平均値を領域内特徴値として算出する手段を含む、請求項9記載のコンテンツ特徴量抽出装置。
  12. 前記領域選択手段は、
    前記コンテンツが画像データであり、画像の空間的な特定位置の画素集合の、分布関数による変換後の周波数成分値を選択する際に、
    ある特定の周波数成分領域と、その画素値集合から周波数的に一定距離離れた領域内に存在する周波数成分値を選択する手段を含み、
    前記領域内特徴値算出手段は、
    領域の周波数成分値の平均値を領域内特徴値として算出する手段を含む、請求項10記載のコンテンツ特徴量抽出装置。
  13. 前記領域選択手段は、
    前記コンテンツが動画像データであり、時系列で変化する任意のフレーム画像を選択の対象に加える手段を含む請求項8乃至12記載のコンテンツ特徴量抽出装置。
  14. 前記請求項5乃至13記載のコンテンツ特徴量抽出装置により得られるコンテンツ特徴量を用いて、2つのコンテンツの同一性を判定するコンテンツ同一性判定装置であって、
    前記コンテンツ特徴量抽出装置から入力された2つのコンテンツの特徴量を構成する符号から、該コンテンツ特徴量抽出装置の領域選択手段が各々のコンテンツにおいて、同一の領域選択を行った領域群内の比較結果から得られた符号を抜粋する入力手段と、
    前記抜粋した符号同士を逐次比較し、値が一致する割合から同一性を判定する比較手段と、を有することを特徴とするコンテンツ同一性判定装置。
  15. 前記比較手段は、
    比較対象のコンテンツから各々抽出された2つの符号のうち、片方の符号が特定の符号である場合に、比較対象から除外する手段を含む、請求項14記載のコンテンツ同一性判定装置。
JP2006132738A 2005-05-19 2006-05-11 コンテンツ特徴量抽出方法及び装置及びコンテンツ同一性判定方法及び装置 Pending JP2006351001A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006132738A JP2006351001A (ja) 2005-05-19 2006-05-11 コンテンツ特徴量抽出方法及び装置及びコンテンツ同一性判定方法及び装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005146688 2005-05-19
JP2006132738A JP2006351001A (ja) 2005-05-19 2006-05-11 コンテンツ特徴量抽出方法及び装置及びコンテンツ同一性判定方法及び装置

Publications (1)

Publication Number Publication Date
JP2006351001A true JP2006351001A (ja) 2006-12-28

Family

ID=37646714

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006132738A Pending JP2006351001A (ja) 2005-05-19 2006-05-11 コンテンツ特徴量抽出方法及び装置及びコンテンツ同一性判定方法及び装置

Country Status (1)

Country Link
JP (1) JP2006351001A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010092159A (ja) * 2008-10-06 2010-04-22 Fuji Xerox Co Ltd 画像データ判定装置、画像データ判定システム、及びプログラム
JP2011118498A (ja) * 2009-12-01 2011-06-16 Nec Corp 映像識別子抽出装置および方法、映像識別子照合装置および方法、ならびにプログラム
JP4894956B2 (ja) * 2009-01-29 2012-03-14 日本電気株式会社 時間区間代表特徴ベクトル生成装置
JP2012099156A (ja) * 2009-03-13 2012-05-24 Nec Corp 画像識別子抽出装置
JP2012195012A (ja) * 2009-03-13 2012-10-11 Nec Corp 画像識別子抽出装置
JP2012198832A (ja) * 2011-03-23 2012-10-18 Nec Corp 重複ファイル検出装置
KR20160031003A (ko) * 2013-07-15 2016-03-21 구글 인코포레이티드 미디어 콘텐트 항목들 중에서 파생 정도 및 가능성 결정

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010092159A (ja) * 2008-10-06 2010-04-22 Fuji Xerox Co Ltd 画像データ判定装置、画像データ判定システム、及びプログラム
JP4894956B2 (ja) * 2009-01-29 2012-03-14 日本電気株式会社 時間区間代表特徴ベクトル生成装置
US8175392B2 (en) 2009-01-29 2012-05-08 Nec Corporation Time segment representative feature vector generation device
JP2012099156A (ja) * 2009-03-13 2012-05-24 Nec Corp 画像識別子抽出装置
JP2012099157A (ja) * 2009-03-13 2012-05-24 Nec Corp 画像識別子抽出装置
JP2012195012A (ja) * 2009-03-13 2012-10-11 Nec Corp 画像識別子抽出装置
US8744193B2 (en) 2009-03-13 2014-06-03 Nec Corporation Image signature extraction device
US10133956B2 (en) 2009-03-13 2018-11-20 Nec Corporation Image signature extraction device
JP2011118498A (ja) * 2009-12-01 2011-06-16 Nec Corp 映像識別子抽出装置および方法、映像識別子照合装置および方法、ならびにプログラム
JP2012198832A (ja) * 2011-03-23 2012-10-18 Nec Corp 重複ファイル検出装置
KR20160031003A (ko) * 2013-07-15 2016-03-21 구글 인코포레이티드 미디어 콘텐트 항목들 중에서 파생 정도 및 가능성 결정
KR102310796B1 (ko) * 2013-07-15 2021-10-13 구글 엘엘씨 미디어 콘텐트 항목들 중에서 파생 정도 및 가능성 결정

Similar Documents

Publication Publication Date Title
Xiang et al. A linguistic steganography based on word indexing compression and candidate selection
Monga et al. A clustering based approach to perceptual image hashing
JP2006351001A (ja) コンテンツ特徴量抽出方法及び装置及びコンテンツ同一性判定方法及び装置
He et al. Reversible data hiding in JPEG images based on negative influence models
US8838657B1 (en) Document fingerprints using block encoding of text
US8897566B2 (en) Image identity scale calculation stystem
US9916314B2 (en) File extraction method, computer product, file extracting apparatus, and file extracting system
US8768064B2 (en) Image feature extraction device
CN104661037B (zh) 压缩图像量化表篡改的检测方法和系统
Xie et al. Bag-of-words feature representation for blind image quality assessment with local quantized pattern
JP6070568B2 (ja) 特徴量符号化装置、特徴量符号化方法、及びプログラム
CN110362560A (zh) 一种无业务主键数据在存储数据库时去重的方法
CN116302089B (zh) 基于图片相似度的代码克隆检测方法、系统及存储介质
CN117009968A (zh) 恶意代码的同源分析方法、装置、终端设备及存储介质
Cánovas et al. Practical compression for multi-alignment genomic files
Iida et al. Robust image identification with dc coefficients for double-compressed jpeg images
CN116186708A (zh) 类别识别模型生成方法、装置、计算机设备和存储介质
CN107491423B (zh) 一种基于数值-字符串混合编码的中文文档基因量化与表征方法
CN115268799A (zh) 一种基于云服务的存储方法和装置
CN115019915A (zh) 基于语义识别的流调报告生成方法、装置、设备及介质
CN114611501A (zh) 生僻字检测方法、装置、设备及存储介质
CN114629707A (zh) 一种乱码检测方法、装置及电子设备和存储介质
CN111213146B (zh) 伪数据生成装置、其方法和记录介质
CN110287147B (zh) 一种字符串排序方法及装置
KR20220089211A (ko) 문자 빈도 기반 서열 재정렬을 통한 fastq 데이터 압축 방법 및 장치