JP2009211388A

JP2009211388A - コンテンツ識別装置

Info

Publication number: JP2009211388A
Application number: JP2008053499A
Authority: JP
Inventors: Haruhisa Kato; 晴久加藤; Akio Yoneyama; 暁夫米山
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2008-03-04
Filing date: 2008-03-04
Publication date: 2009-09-17
Anticipated expiration: 2028-03-04
Also published as: JP4999005B2

Abstract

【課題】任意の未知コンテンツが公序良俗に反するものであるか否かを、採光条件等にかかわらず自動的かつ画一的に識別できるコンテンツ識別装置を提供する。
【解決手段】色補正部１１は、未知コンテンツ画像１および教師画像２の色を補正する。教師画像２は、識別対象と同系列の正例教師画像２ａおよび異系列の負例教師画像２ｂとに区別されている。最頻色判別部１１１は、未知コンテンツ画像１および教師画像２の最頻色を判別する。色相変換規則設定部１１２は、未知コンテンツ画像１および教師画像２の各最頻色を、識別対象の最頻色に関する標準的な色相である最頻標準色に変換する規則を設定する。色変換部１１３は、未知コンテンツ画像１および教師画像２の全域を前記変換式で色変換する。
【選択図】図１

Description

本発明は、コンテンツ識別装置に係り、特に、公序良俗に反するコンテンツを高精度に識別できるコンテンツ識別装置に関する。

パソコンや携帯電話の普及に伴い、子どもがネットを利用する機会が増加する一方で、有害な情報にアクセスすることで青少年の健全な育成が阻害されるということが社会的な問題となっている。公序良俗に反するコンテンツをフィルタリングする方法として、データベースに登録されたアドレスへのアクセスを制限する方法がある。

特許文献１、２には、特定のURLをブラックリストとして格納して、そのURLの閲覧を制限する技術が開示されている。

特許文献３には、電子メールに記されたURLをレイティング機関へ送り、その内容を人手で審査する技術が開示されている。

特許文献４には、識別対象のコンテンツを、予めデータベースに蓄積されている基準画像データ、基準動画データおよび基準音声データと比較することで、コンテンツを識別する技術が開示されている。

特許文献５、６には、画像データの肌色割合を検出し、割合が閾値以上のコンテンツは公序良俗に反する可能性があると判断する技術が開示されている。

特許文献７には、多くの画像データ（教師データ）から肌色領域を検出し、各肌色領域の面積や重心位置を算出し、領域の密集度合いや離散度合いから構成される組み合わせパターンを予めデータベースとして作成しておき、識別対象のコンテンツから抽出されたこれらのパターンを比較照合する技術が開示されている。
特開２００７−１２８１１９号公報特開２００４−１４５６９５号公報特開２００６−１４６７４３号公報特開２００５−２９３１２３号公報特開２００４−５４４５２号公報特開２００６−２５４２２２号公報特開２００２−１７５５２７号公報

特許文献１、２に開示された技術では、データベースの情報が古くなり、現状を反映していないという問題が発生する恐れがある。また、ネット上の情報は日々更新されるため、データベースの保守管理には膨大な手間と時間がかかるという問題がある。

特許文献３に開示された技術では、レイティング機関の人手で審査が行われるので時間がかかるのみならず、審査する人によって基準が曖昧になるという問題がある。

特許文献４に開示された技術では、特徴量の抽出や選定の具体的な手法が述べられていないだけでなく、比較方法も明記されていない。

特許文献５、６に開示された技術では、肌色の割合を判断基準としているため、段ボールのように肌色を含む画像を過剰検出してしまうという問題がある。また、実際の肌領域を検出できたとしても顔写真と猥褻画像とを区別できないという問題がある。

特許文献７に開示された技術では、検出対象は３〜５種類の類型に分類できることが前提とされているため、素人が撮影した映像コンテンツのように、前提から外れるコンテンツには対応できない。

さらに、特許文献５、６、７に開示された技術では、採光条件が変わると肌色検出自体が破綻する恐れがあるため、採光条件の変化に対する耐性が低いという問題がある。

本発明の目的は、上記した従来技術の課題を解決し、任意の未知コンテンツが公序良俗に反するものであるか否かを、採光条件等にかかわらず自動的かつ画一的に識別できるコンテンツ識別装置を提供することにある。

上記した目的を達成するために、本発明は、未知コンテンツの画像が識別対象であるか否かを、既知の教師画像から構築された学習モデルに基づいて識別するコンテンツ識別装置において、未知コンテンツ画像および教師画像の色を補正する色補正手段と、前記色補正された各画像から特徴量を抽出する特徴量抽出手段と、教師画像から抽出された特徴量に基づいて学習モデルを構築する学習モデル構築手段と、未知コンテンツ画像から抽出された特徴量を前記学習モデルに適用して未知画像を識別する識別手段とを含み、前記色補正手段が、各画像の最頻色を判別する最頻色判別手段と、各画像の最頻色を所定の標準色に変換する規則を設定する変換規則設定手段と、前記変換規則に基づいて画像の色を変換する色変換手段とを含むことを特徴とする。

上記した特徴を備えたことにより、本発明によれば、例えば識別対象が裸画像であれば、未知コンテンツ画像および教師画像において、撮影条件や採光条件の違いから肌領域の肌色に差が有る場合でも、肌領域は全て標準の肌色に変換されるので、撮影条件や採光条件の違いを無視して両者を自動的かつ画一的に比較できるようになる。

以下、図面を参照して本発明の最良の実施の形態について詳細に説明する。図１は、本発明の一実施形態に係るコンテンツ識別装置の主要部の構成を示した機能ブロック図であり、ここでは、未知コンテンツの画像が識別対象の画像であるか否かが、正例および負例の教師画像から構築された学習モデルに基づいて識別される

色補正部１１は、未知コンテンツ画像１および既知の教師画像２の色を補正する。教師画像２は、識別対象と同系列の正例教師画像２ａおよび異系列の負例教師画像２ｂとに区別されている。したがって、識別したい画像が猥褻な裸画像であれば、裸画像が正例教師画像２ａとなり、裸画像以外が負例教師画像２ｂとなる。同様に、識別したい画像が残虐性を誘発したり自殺を助長するような出血を含む画像であれば、出血画像が正例教師画像２ａとなり、出血画像以外が負例教師画像２ｂとなる。

前記色補正部１１において、最頻色判別部１１１は、未知コンテンツ画像１および教師画像２の最頻色を判別する。したがって、未知コンテンツ画像１および教師画像データ２のいずれにおいても、裸画像であれば皮膚の色（肌色）が最頻色と判別され、出血画像であれば血の色（赤）が最頻色と判別され、それ以外の画像であれば、その色分布に応じて最頻色が判別される。例えば、海の画像であれば青色が最頻色と判別され、森林の画像であれば緑色が最頻色と判別される可能性が高い。

色相変換規則設定部１１２は、未知コンテンツ画像１および教師画像２の各最頻色を、識別対象の最頻色に関する標準的な色相である最頻標準色に変換する規則を設定する。ここで、識別対象として裸画像が設定されている場合、本発明者等の調査によれば、標準となる肌色は色相Hが一定範囲内に収まるため、ここでは、最頻色の色空間がRGBからHSVに変換され、最頻色のH成分が一定範囲の中央値（最頻標準値）となるような規則（変換式）が設定される。同様に、識別対象として出血画像が設定されている場合、本発明者等の調査によれば、標準となる血の色は色相Hが別の一定範囲内に収まるため、最頻色のH成分が当該範囲の中央値となるような規則（変換式）が設定される。

このような変換式としては、最頻色のH成分と最頻標準色のH成分との差をシフト量として求め、このシフト量を画像に加算する式を用いることができる。色変換部１１３は、未知コンテンツ画像１および教師画像２の全域を前記変換式で色変換する。

裸画像では、撮影条件や採光条件によって肌領域が肌色に見えなくなる場合があるが、本実施形態によれば、未知コンテンツ画像１および教師画像２の最頻色が最頻標準色に変換されるので、撮影条件や採光条件にかかわらず、裸画像であれば最頻色の肌領域は全て肌色の標準色に補正される。したがって、後述する特徴量抽出においては、撮影条件や採光条件の違いによる色の違いを無視した特徴量抽出が可能になる。

なお、本実施形態によれば、識別対象が裸画像の場合、未知コンテンツ画像１が海の画像であると、海の青色部分が全て肌色に変換されてしまうことになるが、海の画像領域と肌の画像領域とでは色以外の特徴量（大きさ、形状、重心、位置、任意次数のモーメントなの）が全く異なるため、海の画像が識別対象と誤認されてしまうことはない。

特徴量抽出部１２において、代表色抽出部１２１は、前記色変換された未知コンテンツ画像１および教師画像２から最頻色（最頻標準色）およびその近傍色を代表色として抽出する。近傍色は、最頻色との差が一定以内の色であり、ガウス混合モデル(GMM)やサポートベクターマシン(SVM)など任意の識別器を用いて抽出できる。GMMを用いる場合は、予め手動で識別対象領域と非識別対象領域とに分類しておき、各色の識別対象および非識別対象における存在確率分布を、次式(1)で求められる複数のガウス分布の和で構成する。

ここで、xは色情報を表し、 Nはガウス分布の数を示す。ガウス分布毎に重み係数wiを持ち、μiおよびΣiは、それぞれ平均値と共分散行列を表す。ガウス分布のパラメータはEMアルゴリズムなどの最尤推定法を利用することができる。識別対象領域であって色xが発生する確率をP (x|target)とし、非識別対象領域であって色xが発生する確率をP(x|¬target)とする。閾値TH1が与えられたとき、次式(2)を満たす画素が識別対象領域すなわち近傍色の画素とされる。

エッジ検出部１２２は、前記代表色抽出部１２１で抽出された代表色領域から、識別対象領域に固有の模様とは特性が異なるエッジ領域を検出する。すなわち、識別対象として裸画像を設定する場合は代表色が肌色となるが、肌色の領域が全て皮膚であるとは限らず、木製の家具や床、あるいはダンボールが代表色と誤認される場合がある。一方、肌領域の画像には、他の肌色領域には無い特性として平坦性があり、平坦以外な肌色領域は皮膚である可能性が極めて低い。そこで、本実施形態では平坦な代表色領域のみを抽出すべくエッジ領域が検出される。

このエッジ検出には、CannyやLaplaceなど任意のエッジ検出手法を利用できる。エッジ特徴量の算出にLaplaceを用いる場合は、入力画像に対して２次微分演算を計算する。入力画像の肌領域をF、エッジ画像をG、積和演算を＊とすれば、２次微分演算は次式(3)で算出され、エッジ強調用のラプラシアンフィルタ(Laplacian filter)は次式(4)で与えられる。そして、エッジ画像Gの各画素が閾値TH2と比較され、閾値TH2より小さい場合は非エッジと判断され、閾値TH2以上はエッジと判断される。

領域分割部１２３は、前記エッジ検出の結果に基づいて、前記代表色領域をエッジ領域および非エッジ領域に分割する。特徴量計算部１２４は、非エッジ領域ごとに大きさ、形状、重心、位置、任意次数のモーメントを特徴量として計算する。なお、非エッジ領域の色分布そのものを特徴量として利用しても良い。

学習部１３は、複数の正例教師画像の特徴量および複数の負例教師画像の特徴量を、SVMあるいは判別分析などの識別器に適用して学習モデルを生成し、これを学習モデル記憶部１５に記憶する。SVMを用いる場合は、前記特徴量抽出部１２によって抽出された正例教師画像の特徴量と負例教師画像の特徴量とを分離するマージンを最大化するような平面が構築される。なお、SVMの詳細は、例えばV.N.Vapnik,「Statistical Learning Theory」, John Wiley & Sons (1998)で詳細に論じられている。

図２は、前記SVMの概念を示した説明図であり、初めに、特徴量に関する複数の項目を縦軸および横軸に取り、各教師画像から抽出した特徴量をプロットする。例えば、項目として裸画像の各非エッジ領域の「大きさ」および「色分布」をそれぞれ各軸に取り、正例教師画像（裸画像）の特徴量は「○」にプロットし、負例教師画像（非裸画像）の特徴量は「×」にプロットする。次いで、分離の閾値となる境界平面Pを構成する。この境界平面Pは正例教師画像の特徴量と負例教師画像の特徴量とを分離させたとき、各特徴量の中で最近傍要素間の距離が最大化するように設定される。

なお、図２に示した例では特徴量が２種類であるが、３種類以上の場合は特徴量の数に対応した次元でのプロットとなる。さらに、図３の左側に示したように、正例のプロットと負例のプロットとを平面で分離できない場合でも、同図右側に示したように、写像関数Φを用いて、特徴量を特徴量の数より高い次元に写像した上で、分離できる平面Pを構成する。学習処理は学習モデルとして高次元への写像関数Φおよび分離平面を出力する。

図１へ戻り、識別部１４は、前記特徴量抽出部１２によって未知コンテンツ画像１の非エッジ領域ごとに抽出された特徴量を、前記学習モデル記憶部１５から読み出した学習モデルに適用して、当該未知コンテンツ画像１が正例か負例かを識別する。識別に SVMを用いる場合は、前記特徴量抽出部１２で得られた未知コンテンツ画像１の特徴量が学習モデルと同じ空間に写像され、当該特徴量が平面のどこに位置するかによって正例か負例かが識別される。すなわち、未知コンテンツ画像１の特徴量が、正例教師画像の特徴量が多く属する領域に位置すれば正例と判断され、負例教師画像の特徴量が多く属する領域に位置すれば負例と判断される。

なお、上記した実施形態では、色補正部１１１は各画像の最頻色を識別対象に応じた標準色に変換するものとして説明したが、本発明はこれのみに限定されるものではなく、画像全域を対象とすれば最頻色ではないものの画像中央部に限定すれば最頻色となるような色を標準色に変換するようにしても良い。

あるいは、矩形テンプレートの組み合わせによるHaar特徴量で顔領域を検出し、この顔領域の最頻色を肌色として標準色に変換するようにしても良い。

本発明の一実施形態に係るコンテンツ識別装置の機能ブロック図である。特徴量が２種類の場合のSVMの概念を示した説明図である。２種類の特徴量を関数Φによって高次元へ写像し、平面Pで分離する概念を示した図である。

符号の説明

１…未知コンテンツ画像，２…教師画像，２ａ…正例教師画像，２ｂ…負例教師画像，１１…色補正部，１２…特徴量抽出部，１３…学習部，１４…識別部，１５…学習モデル記憶部

Claims

未知コンテンツの画像が識別対象であるか否かを、教師画像から構築された学習モデルに基づいて識別するコンテンツ識別装置において、
未知コンテンツ画像および教師画像の色を補正する色補正手段と、
前記色補正された各画像から特徴量を抽出する特徴量抽出手段と、
教師画像から抽出された特徴量に基づいて学習モデルを構築する学習モデル構築手段と、
未知コンテンツ画像から抽出された特徴量を前記学習モデルに適用して未知画像を識別する識別手段とを含み、
前記色補正手段が、
各画像の最頻色を判別する最頻色判別手段と、
各画像の最頻色を所定の標準色に変換する規則を設定する変換規則設定手段と、
前記変換規則に基づいて画像の色を変換する色変換手段とを含むことを特徴とするコンテンツ識別装置。
前記教師画像が、識別対象と同系列の正例教師画像および識別対象と異系列の負例教師画像を含み、
前記学習モデル構築手段は、未知コンテンツ画像を正例および負例のいずれかに分類する学習モデルを構築することを特徴とする請求項１に記載のコンテンツ識別装置。
前記特徴量抽出手段は、未知コンテンツ画像および教師画像に関して、前記標準色に変換された最頻色の領域から特徴量を抽出することを特徴とする請求項１または２に記載のコンテンツ識別装置。
前記特徴量抽出手段は、前記標準色に変換された最頻色の領域およびその近傍の領域を代表色領域として抽出する代表色領域抽出手段を含み、
未知コンテンツ画像および教師画像に関して、前記代表色領域から特徴量を抽出することを特徴とする請求項３に記載のコンテンツ識別装置。
前記特徴量抽出手段は、
前記代表色領域からエッジ領域を検出するエッジ検出手段と、
前記代表色領域をエッジ領域および非エッジ領域に分割する領域分割手段と、
前記非エッジ領域ごとに特徴量を計算する特徴量計算手段とを含むことを特徴とする請求項４に記載のコンテンツ識別装置。
前記特徴量計算手段は、前記非エッジ領域ごとに、その色分布、大きさ、形状、重心、位置、および任意次数のモーメントを特徴量として算出することを特徴とする請求項５に記載のコンテンツ識別装置。