JP2010186343A

JP2010186343A - コンテンツ識別方法及び装置

Info

Publication number: JP2010186343A
Application number: JP2009030364A
Authority: JP
Inventors: Haruhisa Kato; 晴久加藤; Akio Yoneyama; 暁夫米山
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2009-02-12
Filing date: 2009-02-12
Publication date: 2010-08-26
Anticipated expiration: 2029-02-12
Also published as: JP5283267B2

Abstract

【課題】任意の未知コンテンツが識別対象（正例）であるか識別対象外(負例)であるかを高精度に判定できるコンテンツ識別方法および装置を提供する。
【解決手段】映像ショットの切り替わりで映像を構造化するショット検出手段１と、前記ショット検出手段によって検出されたショット情報を用いて識別対象となる画像候補を選択する画像選択手段２と、前記画像選択手段で選択された画像候補から特徴量を算出する特徴量算出手段３と、前記特徴量算出手段で算出された特徴量を用いて正例７と負例６に識別する識別手段４とを備える。また、前記特徴量算出部３は、ピラミッド画像生成部、色特徴量算出部、形状特徴量算出部および特徴量判定部から構成することができる。この構成により、例えば、映像コンテンツが青少年に有害な画像であるか否かを、精度良く識別できるようになる。
【選択図】図２

Description

本発明はコンテンツ識別方法及び装置に関し、特に猥褻なコンテンツへのアクセス制限を判断するのに好適なコンテンツ識別方法及び装置に関する。

パソコンや携帯電話の普及に伴い、子どもがネットを利用する機会が増加する一方で、有害な情報にアクセスすることで青少年の健全な育成が阻害されるということが社会的な問題となっており、従来から、この問題に対処する方法が研究、開発されている。

有害なコンテンツへのアクセスを制限（フィルタリング）する方法としては、下記の特許文献１〜５に示されているような、データベースに登録された内容から判断する方法がある。特許文献１，２に記されている方法では人手で判断され、特許文献３〜５に記されている方法では自動的に判断される。

特許文献１には、特定のURLをブラックリストとして人手で格納し、該当するURLの閲覧を制限することが記されている。

特許文献２には、電子メールに記されたURLをレイティング機関に送り、人手で有害なコンテンツかどうかを審査することが記されている。

特許文献３では、受信したコンテンツを、データベースに蓄積された基準画像データ、基準動画データおよび基準音声データと比較して、猥褻なコンテンツを識別する。例えば、基準動画データからは、フレーム毎に、色、形、テクスチャ、位置、線分などの特徴量を抽出し、類似性算出に利用する。

特許文献４では、画像データから肌色領域を検出し、各肌色領域の面積と重心位置を算出する。領域の密集度合いや離散度合いから構成される組み合わせパターンを予めデータベースとして作成しておき、前記算出結果と照合する。

特許文献５では、画像データの肌色割合を検出し、割合が閾値以上の場合は公序良俗に反する可能性があると判断する。

特許文献６では、検索対象コンテンツとそれ以外のコンテンツを教師コンテンツとして、教師コンテンツおよびメタデータに応じた最適な学習モデルを構築する学習処理と、該学習処理で得られた学習モデルを用いて未知のコンテンツを段階的に識別する。
特開２００７−１２８１１９号公報特開２００６−１４６７４３号公報特開２００５−２９３１２３号公報特開２００２−１７５５２７号公報特開２００６−２５４２２２号公報特開２００６−９９５６５号公報

しかしながら、前記した先行技術には、次のような問題がある。

特許文献１に開示された技術では、短期間にデータベースの情報が古くなり、現状を反映しなくなるという問題が発生する恐れがある。また、ネット上の情報は日々更新されるため、データベースの保守管理には膨大な手間と時間がかかるという問題がある。

特許文献２に開示された技術では、有害なコンテンツかどうかがレイティング機関の人手で審査されるため、時間がかかるだけでなく審査する人によって基準が曖昧になるという問題がある。

特許文献３に開示された技術では、特徴量の抽出や選定の具体的な手法が述べられていないだけでなく、比較方法も明記されていない。

特許文献４に開示された技術では、検出対象は３〜５種類の類型に分類できることが前提とされているため、素人が撮影したコンテンツなどの該前提から外れるコンテンツに対しては対応できない。

また、特許文献５に開示された技術では、肌色の割合を判断基準としているため、段ボールのように肌色を含む画像を過剰検出してしまうという問題がある。また、実際の肌領域を検出できたとしても顔写真と猥褻画像とを区別できないという問題がある。

また、特許文献６には、主に静止画像についてのコンテンツ識別装置が説明されているだけである。

さらに、上記の特許文献に記されているいずれの方法も静止画像を対象としているため、動画像に対しては対処できないという問題がある。

本発明の目的は、上記した従来技術の課題を解決し、任意の未知コンテンツが識別対象 (正例)であるか識別対象外(負例)であるかを動画像に対して高精度に判定できるコンテンツ識別方法および装置を提供することにある。

上記の目的を達成するため、本発明は、未知コンテンツが識別対象のコンテンツ(以下、正例コンテンツと記す)であるか識別対象外のコンテンツ(以下、負例コンテンツと記す)であるかを識別するコンテンツ識別装置において、映像ショットの切り替わりで映像を構造化するショット検出手段と、前記ショット検出手段によって検出されたショット情報を用いて識別対象となる画像候補を選択する画像選択手段と、前記画像選択手段で選択された画像候補から特徴量を算出する特徴量算出手段と、前記特徴量算出手段で算出された特徴量を用いて正例と負例に識別する識別手段とを備えた点に第１の特徴がある。

また、本発明は、前記画像選択手段が、フィードバックされた、前記識別手段で識別された結果を利用して選択する画像候補数を決定するようにした点に第２の特徴がある。

また、本発明は、前記画像選択手段が、前記ショット検出手段で抽出されたショット長あるいはショットの時間的位置に応じて、識別対象となる候補画像を前記ショットから選択するか否かを判断するようにした点に第３の特徴がある。

また、本発明は、前記画像選択手段が、画像の符号量あるいは画像の符号化方式に応じて、識別対象となる候補画像を前記ショットから選択するか否かを判断するようにした点に第４の特徴がある。

また、本発明は、前記画像選択手段が、前記ショットから選択する候補画像枚数を、前記ショット検出手段で抽出されたショット長に比例させて選択するようにした点に第５の特徴がある。

また、本発明は、前記画像選択手段が、前記識別手段の判断結果に応じて当該ショットから選択する候補画像枚数を変化させるようにした点に第６の特徴がある。

また、本発明は、前記特徴量算出手段が、予め設定した枚数だけ異なる解像度の画像を生成するピラミッド画像生成手段と、色ヒストグラムを色特徴量として算出する色特徴量算出手段と、エッジとテクスチャのそれぞれのヒストグラムを形状情報として算出する形状特徴量算出手段と、前記色特徴量算出手段および形状特徴量算出手段が算出した特徴量の妥当性を判定する特徴量判定手段とを備えた点に第７の特徴がある。

また、本発明は、前記色特徴量算出手段が、前記形状特徴量算出手段における処理領域を正例に含まれる特定色の近傍および囲まれた領域だけに限定するようにした点に第８の特徴がある。

また、本発明は、前記画像特徴量算出手段が、前記ピラミッド画像生成手段が生成した画像群に対して、各ブロックに複数のエッジ方向算出処理を行い、各ブロック内でエッジ強度が最大となる方向をエッジ方向として算出し、エッジ方向のヒストグラムをエッジ特徴量とするようにした点に第９の特徴がある。

また、本発明は、前記テクスチャ特徴量算出手段が、前記ピラミッド画像生成手段が生成した画像群に対して、各ブロックを平面で近似したときの法線ベクトルの向きを算出し、法線方向のヒストグラムをテクスチャ特徴量とするようにした点に第１０の特徴がある。

また、本発明は、前記特徴量判定手段が、前記特徴量算出手段で算出した色特徴量、エッジ特徴量、およびテクスチャ特徴量の分布をそれぞれに予め設定された閾値と比較して識別に用いる画像か否かを判断するようにした点に第１１の特徴がある。

また、本発明は、前記識別手段が、手動で分類した複数の正例コンテンツと負例コンテンツから抽出した特徴量を使って予め学習した結果と当該コンテンツの特徴量とを比較し、正例または負例と判断する手段を備えた点に第１２の特徴がある。

さらに、本発明は、映像ショットの切り替わりで映像を分割するステップと、前記分割されたショットから識別対象となる画像候補を選択するステップと、前記選択された画像候補から画像の特徴量を算出するステップと、前記算出された特徴量を用いて正例と負例に識別するステップとからなるコンテンツ識別方法を提供する点に第１３の特徴がある。

本発明によれば、映像ショットの切り替わりで映像を構造化するショット検出手段と、前記ショット検出手段によって検出されたショット情報を用いて識別対象となる画像候補を選択する画像選択手段と、前記画像選択手段で選択された画像候補から特徴量を算出する特徴量算出手段と、前記特徴量算出手段で算出された特徴量を用いて正例と負例に識別する識別手段とを備えたコンテンツ識別装置により、映像コンテンツが正例であるか負例であるかを識別するようにしたので、該映像コンテンツを高精度に正例または負例と判断できるようになる。本発明のコンテンツ識別方法によっても、前記と同様に、映像コンテンツを高精度に正例または負例と判断できるようになる。

さらに、映像コンテンツ毎の特性に考慮して、つまり映像コンテンツ毎の特徴量を利用して適応的に識別するため、撮影環境や露光条件の変化に頑健な判断が可能になる。

以下に、本発明を図面を参照して詳細に説明する。図１は、本発明の一実施形態のコンテンツ識別装置の基本構成を示すブロック図である。

図示されているように、本実施形態のコンテンツ識別装置は、ショット検出部１、画像選択部２、特徴量算出部３、識別部４および学習部（辞書）５を備える。以下に、これらの構成要素の構成および作用について具体的に説明する。

（１）ショット検出部１

コンテンツ１０、例えば映像コンテンツは、膨大な画像の集合から構成されるため、すべての画像に対して判断を下すのは処理時間の短縮という観点からは望ましくない。

一般に映像コンテンツは編集によって複数のショットから構成される。それぞれのショットは撮影場所や撮影対象、カメラアングル、画角などが異なるため、各ショットの画像の特徴量も大きく変化している。一方、ショット内は比較的類似した画像が続くため、連続した画像を抽出することは効率的ではない。

よって、ショット検出部１は、後段の画像選択部２での判断材料となるべく、映像コンテンツの区切りとなるショットを検出することで映像を構造化する。例えば、ショット毎の開始時間、終了時間をショット分布情報として、画像選択部２へ送る。ショット検出自体は、特開２００７−１３４９８６号公報などに記されている既存の方法が利用できる。

（２）画像選択部２

画像選択部２は、映像コンテンツの特徴を捉えることができる画像、例えば画質劣化の小さい画像を必要最小限の枚数だけサンプリングして候補画像として、特徴量算出部３へ送る。

画像選択部２では、前述のショット検出部１から入力されたショット分布情報をもとに、ショット長Ｌが予め設定した長さ以上の各ショットから、識別に利用する複数の画像を抽出する。映像コンテンツは情報量を削減するために、符号化されていることが多く、符号化方式によっては一枚一枚の画像に割り当てられる符号量に大きな差がある。相対的に符号量が少ない画像では、符号化に伴う画質劣化が比較的大きいため、画質劣化が識別に悪影響を与えかねない。

そこで、画像選択部２は、識別対象として画質劣化が少ない画像を選択するために、ショット内で符号量が相対的に大きい画像から順に候補画像としての優先順位を付与する。同時に、優先順位の高い方から予め設定した枚数あるいはショット長に比例した枚数を候補画像として選択する。また、最初と最後のショットは映像本編の内容を反映していないことを考慮して、予め候補画像の選択をしないことも可能である。この場合、選択開始時刻と選択終了時刻（ショットの時間的位置）を予め設定しておき、設定時刻内に該当するショットだけから候補画像を選択する。

他の実施形態としては、画像の符号化方式の種類を利用することも考えられる。時間的な冗長性を利用した映像符号化方式が他の画像に依存しない符号化（例えば、イントラ符号化）と、他の画像に依存する符号化（例えば、インター符号化）とを併用している場合、前者に多くの符号量を割り当てることが多いため、符号化方式を確認するだけで高速に候補を選択することもできる。この場合、該符号化方式の画像を符号量の多い順に候補画像としての優先順位を付与する。同時に、優先順位の高い方から予め設定した枚数あるいはショット長に比例した枚数を候補画像として選択する。

さらに他の実施形態としては、例えば図２に示すように、初回に前述した方法で選択した画像の識別した結果（負例６又は正例７）を画像選択部２にフィードバックして利用することも考えられる。ショット内の最初の候補画像が負例（識別対象外）と判断されたショットに対して、同一ショットから多くの次候補画像を選択することでコンテンツ全体の識別結果に対する検出漏れを改善することができる。逆に、ショット内の最初の候補画像が正例（識別対象）と判断されたショットに対して、同一ショットから少ない次候補画像を選択することでコンテンツ全体の識別結果に対する過剰検出を改善することができる。

映像コンテンツのショット分布情報およびサンプリングされた候補画像は特徴量算出部３に送られる。

（３）特徴量算出部３

特徴量算出部３は、図３に示されているように、ピラミッド画像生成部３１、色特徴量算出部３２、形状特徴量算出部３３、および特徴量判定部３４から構成される。また、前記形状特徴量算出部３３は、例えば、エッジ特徴量算出部３３ａとテクスチャ特徴量算出部３３ｂとから形成することができる。

特徴量算出部３は、画像選択部２で抽出された画像から解像度の異なる複数の画像を生成し、それぞれの画像から回転や移動などの幾何変化にロバストな複数の特徴量を抽出し、抽出された特徴量を特徴量判定部３４で判断し、識別に用いる複数の特徴量を識別部４に出力する。

ピラミッド画像生成部３１は、入力された画像を再帰的に解像度変換し、複数の画像を生成する。例えば、入力された画像を縦横それぞれ１／２に縮小し、生成された画像を再び１／２に縮小する。すなわち、１／２、１／４、１／８等に解像度変換された画像群をピラミッド画像とする。ピラミッド画像には２倍に拡大した画像を追加しても良い。生成する枚数は実行環境の処理性能や判断基準に応じて予め設定しておく。ピラミッド画像生成手段３１で生成されたピラミッド画像は、色特徴量算出部３２に送出される。

色特徴量算出部３２としては、前記ピラミッド画像を一定数のブロックに分割し、画像全体及びブロックごとに色情報のヒストグラムを算出する。そして、特定の色情報、例えば肌色の色分布、肌色領域の大きさ等の色情報を特徴量とする。

他の実施形態としては、後述するエッジ検出およびテクスチャ特徴量抽出を、特定の色情報、例えば肌色が支配的な領域だけに適用する、換言すれば正例に含まれる特定色の近傍および囲まれた領域だけに限定することで背景領域の影響を抑制し、判定精度を向上させることも可能である。具体的には、ＲＧＢでＲ（赤色）が最大値を取る画素だけを対象にすることができる。ＨＳＶ色空間を用いる場合は、予め定められた範囲内にＨが収まる画素だけを対象にすることができる。

前記ピラミッド画像生成部３１で生成されたピラミッド画像および色特徴量算出部３２で検出された色特徴量は形状特徴量算出部３３に送られる。形状特徴量算出部３３のエッジ特徴量算出部３３ａは、ピラミッド画像を一定サイズのブロックに分割し、ブロックごとにエッジ領域か非エッジ領域かを判断する。

エッジ領域からはエッジ方向を算出し、各エッジ方向および非エッジ領域の存在確率（例えば、ヒストグラム）をエッジ特徴量として計算する。エッジ検出には一般的に用いられている方向選択型エッジ検出器を用いることができる。

入力画像をＦ、エッジ画像をＧ、積和演算を＊とすると、縦方向のエッジ検出は下記の式（１）で算出できる。Ｈは式（２）で与えられる。

上記と同様に、横方向、斜め方向（右下がり、左下がり）のエッジ検出をすることができる。横方向、右下がりおよび左下がりのエッジ画像Ｇを求める場合のＨは、それぞれ次の式（３）、（４）および（５）を用いることができる。

これらの方向のエッジが求められると、方向毎のエッジ強度の合計を算出し、予め設定した閾値と比較してエッジの有無を判断する。エッジが存在すると判断された場合は、方向毎のエッジ強度の中で最大値を得た方向を該ブロックのエッジ方向とする。そして、該エッジ方向のヒストグラムをエッジ特徴量とする。

テクスチャ特徴量算出部３３ｂでは、ピラミッド画像を一定サイズのブロックに分割し、ブロックごとにテクスチャ形状の種類を判断する。各テクスチャ形状の存在確率（例えば、ヒストグラム）をテクスチャ特徴量として計算する。テクスチャ形状は、ブロックを平面で近似できるかどうか判断し、近似できる場合は該近似平面の法線ベクトルを用いる。近似できない場合は複雑な形状としてカウントする。テクスチャ特徴量算出部３３ｂは、各ブロックを平面で近似したときの前記法線ベクトルの向きを算出し、法線方向のヒストグラムをテクスチャ特徴量とする。なお、人の肌は曲面を有しているため、該法線ベクトが同じ方向を向かないのに対して、段ボールなどの表面は平面であるため、法線ベクトルは同じ方向を向く。このため、人の肌と段ボールなどの紙の表面とは精度良く区別することができる。

特徴量判定部３４は、候補画像から識別に相応しくない画像を排除し、識別に利用する画像のみを選択し識別部４に送る。まず、識別に相応しくない画像として、被写体が正しく写っていない画像を排除する。例えば、パンやチルトなどカメラワークが存在して動きぼけが存在する画像や焦点がずれている画像を排除するため、前述したエッジ特徴量あるいはテクスチャ特徴量が偏った画像を候補から除外する。動きぼけの判断は、エッジ特徴量のヒストグラムの分散が予め設定した範囲内かどうかを利用する。焦点のズレの判断は、エッジ特徴量の非エッジ領域の存在確率あるいはテクスチャ特徴量のヒストグラムの分散が予め設定した範囲内かどうかを利用する。

次に、ホワイトバランスや輝度レベルが崩れている画像を排除するため、前記色特徴量が偏った画像は候補から除外する。ホワイトバランスの偏りの判断は画像内におけるＲＧＢの各最大値の差分がそれぞれ予め設定した範囲内かどうかを利用する。輝度レベルの偏りの判断は色特徴量のヒストグラムの最大値および最小値がそれぞれ予め設定した範囲内かどうかを利用する。

前記動きぼけ、焦点ズレ、ホワイトバランスや輝度レベルが崩れている、あるいは近似平面の法線ベクトルが同じ方向を向いている等のうちの少なくとも一つでも当てはまる場合は識別に相応しくない画像として候補画像から排除する。残った候補画像の中で、画像選択部２で設定された優先順位の高い方から予め設定した枚数あるいはショット長に比例した枚数を識別に用いる画像として、その特徴量を識別部４へ出力する。

（４）学習部（辞書）５

学習部５は、識別対象であることが判明している画像(正例教師コンテンツ)と、非識別対象であることが判明している画像(負例教師コンテンツ)とをそれぞれ複数入力する。例えば、公序良俗に反するコンテンツとして裸画像を対象とする場合は、裸画像が正例教師コンテンツであり、裸以外の画像はすべて負例教師コンテンツである。学習にはＳＶＭ（サポートベクトルマシーン）あるいは判別分析などの識別器を用いることができる。

ＳＶＭを用いる場合は、予め用意しておいた学習用データセットから前記特徴量抽出部３によって抽出された正例の特徴量と負例の特徴量とを分離するマージンを最大化するような平面を構築しておく。ＳＶＭに関しては、例えばV．N．Vapnik，「Statistical Learning Theory」， John Wiley & Sons (1998)などに詳しく説明されているように周知の技術である。

図４はＳＶＭの概念を示す説明図であり、同図に示すように、異なる特徴量をそれぞれ縦軸、横軸に取り、各画像から抽出した特徴量をプロットする。例えば、裸画像の領域の大きさおよび色分布をそれぞれ軸に取ると、裸画像の特徴量は「○」にプロットされ、非裸画像の特徴量は「×」にプロットされる。図４に示すように、ＳＶＭは分離の閾値となる平面を構成する。超平面ｐ１，ｐ２は正例教師コンテンツと負例教師コンテンツの特徴量を分離させたとき、各特徴量の中で最近傍要素との距離（マージン）を最大化するように設定される。識別平面ｐは、本実施形態では辞書を表す。なお、図４は特徴量が２種類であるが、３種類以上の場合は特徴量の数に対応した次元でのプロットとなる。本実施形態の場合、該特徴量として、前記肌領域の大きさおよび色分布以外に、前記エッジ特徴量、テクスチャ形状特徴量、近似平面の法線ベクトルなどを適応的に用いることができる。

さらに、図５の左図のように平面で分離できない場合でも、同図の右図のように写像関数φを用いて、特徴量を特徴量の数より高い次元に写像した上で、分離できる平面を構成する。学習処理は学習モデルとして高次元への写像関数φおよび分離平面を出力する。これらのことは既知であり、本実施形態では、該既知の技術を用いることができる。

（５）識別部４

識別部４には、前記したように、前記特徴量判定部３４で排除されなかった候補画像の中で、画像選択部２で設定された優先順位の高い方から予め設定した枚数あるいはショット長に比例した枚数の画像の特徴量が入力してくる。識別部４は、前記特徴量算出部３によって領域毎に抽出された特徴量を用いて、前記学習部５で作成された学習モデルを元に、未知コンテンツが正例か負例かを識別する。

識別部４に入力された画像のうち、例えば１枚でも正例と識別されれば未知コンテンツが正例であるとしてもよいし、予め定めた割合の枚数の画像が正例と識別されれば未知コンテンツが正例であるとしてもよい。逆に、全部の画像が負例と識別された場合のみ未知コンテンツが負例であるとしてもよいし、予め定めた割合の枚数の画像が負例と識別されれば、未知コンテンツが負例であるとしてもよい。

識別にＳＶＭを用いる場合は、前記画像の特徴量を学習モデルと同じ空間に写像し、前記平面に対してどこに位置するかによって画像が正例か負例かを識別する。すなわち、該画像の特徴量が、正例教師コンテンツの特徴量が多く属する領域にあれば未知コンテンツは正例であると判断し、負例教師コンテンツの特徴量が多く属する領域にあれば未知コンテンツは負例であると判断する。

上記ではコンテンツ識別装置について説明した、コンテンツ識別方法も同様に実施できることは当業者には明らかである。

以上のように、本発明を好ましい実施形態を用いて説明したが、本願発明は前記した実施形態に限定されず、本発明の精神から逸脱しない範囲で、種々の変更が可能である。例えば、前記識別部４にＳＶＭを用いずに、画像の前記各特徴量を予め定めた閾値と比べて、正例か負例かを識別するようにしてもよい。

本発明の一実施形態の概略の構成を示すブロック図である。本発明の他の実施形態の概略の構成を示すブロック図である。図１、図２の特徴量算出部の一具体例を示すブロック図である。正例および負例の特徴量と、該正例および負例を分離する平面を示す図である。高次元への写像と、該写像により生成される分離平面を示す図である。

１・・・ショット検出部、２・・・画像選択部、３・・・特徴量算出部、４・・・識別部、５・・・学習部（辞書）、６・・・負例、７・・・正例、１０・・・映像コンテンツ、３１・・・ピラミッド画像生成部、３２・・・色特徴量算出部、３３・・・形状特徴量算出部、３３ａ・・・エッジ特徴量算出部、３３ｂ・・・テクスチャ特徴量算出部、３４・・・特徴量判定部。

Claims

未知コンテンツが識別対象のコンテンツ(以下、正例コンテンツと記す)であるか識別対象外のコンテンツ(以下、負例コンテンツと記す)であるかを識別するコンテンツ識別装置において、
映像ショットの切り替わりで映像を構造化するショット検出手段と、
前記ショット検出手段によって検出されたショット情報を用いて識別対象となる画像候補を選択する画像選択手段と、
前記画像選択手段で選択された画像候補から特徴量を算出する特徴量算出手段と、
前記特徴量算出手段で算出された特徴量を用いて正例と負例に識別する識別手段とを備えたことを特徴とするコンテンツ識別装置。
前記画像選択手段は、フィードバックされた、前記識別手段で識別された結果を利用して選択する画像候補数を決定することを特徴とする請求項１に記載のコンテンツ識別装置。
前記画像選択手段は、前記ショット検出手段で抽出されたショット長あるいはショットの時間的位置に応じて、識別対象となる候補画像を前記ショットから選択するか否かを判断することを特徴とする請求項１に記載のコンテンツ識別装置。
前記画像選択手段は、画像の符号量あるいは画像の符号化方式に応じて、識別対象となる候補画像を前記ショットから選択するか否かを判断することを特徴とする請求項１に記載のコンテンツ識別装置。
前記画像選択手段は、前記ショットから選択する候補画像枚数を、前記ショット検出手段で抽出されたショット長に比例させて選択することを特徴とする請求項１に記載のコンテンツ識別装置。
前記画像選択手段は、前記識別手段の判断結果に応じて当該ショットから選択する候補画像枚数を変化させることを特徴とする請求項１に記載のコンテンツ識別装置。
前記特徴量算出手段は、
予め設定した枚数だけ異なる解像度の画像を生成するピラミッド画像生成手段と、
色ヒストグラムを色特徴量として算出する色特徴量算出手段と、
エッジとテクスチャのそれぞれのヒストグラムを形状情報として算出する形状特徴量算出手段と、
前記色特徴量算出手段および形状特徴量算出手段が算出した特徴量の妥当性を判定する特徴量判定手段とを備えたことを特徴とする請求項１に記載のコンテンツ識別装置。
前記色特徴量算出手段は、前記形状特徴量算出手段における処理領域を正例に含まれる特定色の近傍および囲まれた領域だけに限定することを特徴とする請求項７に記載のコンテンツ識別装置。
前記画像特徴量算出手段は、前記ピラミッド画像生成手段が生成した画像群に対して、各ブロックに複数のエッジ方向算出処理を行い、各ブロック内でエッジ強度が最大となる方向をエッジ方向として算出し、エッジ方向のヒストグラムをエッジ特徴量とすることを特徴とする請求項７に記載のコンテンツ識別装置。
前記テクスチャ特徴量算出手段は、前記ピラミッド画像生成手段が生成した画像群に対して、各ブロックを平面で近似したときの法線ベクトルの向きを算出し、法線方向のヒストグラムをテクスチャ特徴量とすることを特徴とする請求項７に記載のコンテンツ識別装置。
前記特徴量判定手段は、前記特徴量算出手段で算出した色特徴量、エッジ特徴量、およびテクスチャ特徴量の分布をそれぞれに予め設定された閾値と比較して識別に用いる画像か否かを判断することを特徴とする請求項７に記載のコンテンツ識別装置。
前記識別手段は、手動で分類した複数の正例コンテンツと負例コンテンツから抽出した特徴量を使って予め学習した結果と当該コンテンツの特徴量とを比較し、正例または負例と判断する手段を備えたことを特徴とする請求項1に記載のコンテンツ識別装置。
未知コンテンツが識別対象のコンテンツであるか識別対象外のコンテンツであるかを識別するコンテンツ識別方法において、
映像ショットの切り替わりで映像を分割するステップと、
前記分割されたショットから識別対象となる画像候補を選択するステップと、
前記選択された画像候補から画像の特徴量を算出するステップと、
前記算出された特徴量を用いて正例と負例に識別するステップとからなるコンテンツ識別方法。