JP5462546B2

JP5462546B2 - コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム

Info

Publication number: JP5462546B2
Application number: JP2009183305A
Authority: JP
Inventors: 昭典藤野; 昌明永田; 早苗藤田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-08-06
Filing date: 2009-08-06
Publication date: 2014-04-02
Anticipated expiration: 2029-08-06
Also published as: JP2011039575A

Description

本発明は、掲示板、ソーシャルネットワーキングサービス（ＳＮＳ）、ｂｌｏｇといったインターネット上のコミュニティサイトに投稿されるテキスト情報から成るコンテンツ群や、データベースに含まれる論文、特許等の文書、オンラインニュースデータ、電子メール、Ｗｅｂページ等のテキスト情報から成るコンテンツ群、画像やリンクなどのテキスト以外のコンテンツ群から特定の基準を満たす情報を含むコンテンツを人手で洩れなく検出する際に、コンテンツ群から一部のデータを人手で確認すべきデータとして機械的に抽出することで検出コストを低減させるコンテンツ検出支援装置、方法、プログラムに関する。

大量に蓄積されたコンテンツ群から特定の基準を満たす情報を含むコンテンツを検出する課題では、検出に要する人的コストを削減するために、パターンマッチングにより確認すべきコンテンツの量を削減する方法が一般的によく用いられる。例えば、掲示板、ＳＮＳ、ｂｌｏｇといったインターネット上のコミュニティサイトに投稿されたテキスト文書やＷｅｂページから、犯罪や麻薬といった違法性の高い文書や、卑猥な表現や悪質な勧誘などの有害性の高い文書を検出する課題では、違法・有害文書によく含まれる単語をＮＧワードとして記録したリストを用意し、それらのＮＧワードを含む文書をコンテンツ群から機械的に抽出することで人手で確認すべき文書数を削減する。

従来、ユーザにとって不適切な情報へのアクセスを制限し、適切な情報のみを抽出するネットワーク上の情報フィルタリング装置として、例えば特許文献１に記載のものが提案されている。

尚、本発明で利用する技術は、特許文献２、非特許文献１〜９に開示されている。

特開２００２−１４９９１号公報特開２００６−３３８２６３号公報

Ｒ．Ｃｏｌｌｏｂｅｒｔ，Ｆ．Ｓｉｎｚ，Ｊ．Ｗｅｓｔｏｎ，ａｎｄＬ．Ｂｏｔｔｏｕ． "ＬａｒｇｅｓｃａｌｅｔｒａｎｓｄｕｃｔｉｖｅＳＶＭｓ"．ＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，２００６．Ｖｏｌ．７，ｐｐ．１６８７−１７１２Ｙ．ＧｒａｎｄｖａｌｅｔａｎｄＹ．Ｂｅｎｇｉｏ． "Ｓｅｍｉ−ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇｂｙｅｎｔｒｏｐｙｍｉｎｉｍｉｚａｔｉｏｎ"．ＩｎＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ１７，ＭＩＴＰｒｅｓｓ，Ｃａｍｂｒｉｄｇｅ，ＭＡ，２００５．ｐｐ．５２９−５３６Ｊ．Ｌａｆｆｅｒｔｙ，Ａ．ＭｃＣａｌｌｕｍ，ａｎｄＦ．Ｐｅｒｅｉｒａ．"Ｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄｓ：Ｐｒｏｂａｂｉｌｉｓｔｉｃｍｏｄｅｌｓｆｏｒｓｅｇｍｅｎｔｉｎｇａｎｄｌａｂｅｌｉｎｇｓｅｑｕｅｎｃｅｄａｔａ"．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ（ＩＣＭＬ２００１），ｐｐ．２８２−２８９Ｋ．Ｎｉｇａｍ，Ａ．ＭｃＣａｌｌｕｍ，Ｓ．Ｔｈｒｕｎ，ａｎｄＴ．Ｍｉｔｃｈｅｌｌ．"ＴｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎｆｒｏｍｌａｂｅｌｅｄａｎｄｕｎｌａｂｅｌｅｄｄｏｃｕｍｅｎｔｓｕｓｉｎｇＥＭ"．ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，２０００．Ｖｏｌ．３９，ｐｐ．１０３−１３４Ｊ．ＳｕｚｕｋｉａｎｄＨ．Ｉｓｏｚａｋｉ．"Ｓｅｍｉ−ｓｕｐｅｒｖｉｓｅｄｓｅｑｕｅｎｔｉａｌｌａｂｅｌｉｎｇａｎｄｓｅｇｍｅｎｔａｔｉｏｎｕｓｉｎｇｇｉｇａ−ｗｏｒｄｓｃａｌｅｕｎｌａｂｅｌｅｄｄａｔａ"．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４６ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ（ＡＣＬ−２００８），ｐｐ．６６５−６７３Ｈ．Ｔａｉｒａ，Ｓ．Ｆｕｊｉｔａ，ａｎｄＭ．Ｎａｇａｔａ．"ＡＪａｐａｎｅｓｅｐｒｅｄｉｃａｔｅａｒｇｕｍｅｎｔｓｔｒｕｃｔｕｒｅａｎａｌｙｓｉｓｕｓｉｎｇｄｅｃｉｓｉｏｎｌｉｓｔｓ"．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００８ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（ＥＭＮＬＰ２００８），ｐｐ．５２２−５３１日本語構文解析システムＫＮＰインターネット＜ＵＲＬ：ｈｔｔｐ：／／ｎｌｐ．ｋｕｅｅ．ｋｙｏｔｏ−ｕ．ａｃ．ｊｐ／ｎｌ−ｒｅｓｏｕｒｃｅ／ｋｎｐ．ｈｔｍｌ＞．［平成２１年７月２８日検索］日本語係り受け解析器インターネット＜ＵＲＬ：ｈｔｔｐ：／／ｃｈａｓｅｎ．ｏｒｇ／〜ｔａｋｕ／ｓｏｆｔｗａｒｅ／ｃａｂｏｃｈａ＞．［平成２１年７月２８日検索］オープンソース形態素解析エンジンインターネット＜ＵＲＬ：ｈｔｔｐ：／／ｍｅｃａｂ．ｓｏｕｒｃｅｆｏｒｇｅ．ｎｅｔ／＞．［平成２１年７月２８日検索］

従来のパターンマッチングによる方法では、ＮＧワードのように予め設定したパターンを含むコンテンツを機械的に検出する。この方法では、設定したパターンのみで特定の基準を満たす情報を含むコンテンツか否かを判定できる課題に対して、効果的に基準に該当するコンテンツを検出できる。

しかし、例えば、インターネット上のサイトに投稿された文書群から違法・有害情報を含む文書を検出する課題に対しては、文脈によって単語の意味が異なる語義曖昧性があるため、ＮＧワードリストに記載された単語を含む文書が必ずしも違法・有害情報であるとは限らない。

このため、パターンマッチングによる方法では、無害な文書を大量に誤検出してしまう危険性があり、違法・有害性の高い文書のみを機械的に検出するにはＮＧワードを絞りこむ必要がある。

一方、違法・有害情報の発信者は、摘発を逃れるために、「覚○剤（＝覚醒剤）」のような伏字、「レンコン（＝拳銃）」のような隠語などを日々作成している。このような伏字や隠語などを含む違法・有害文書をパターンマッチングによる方法で検出するには、ＮＧワードリストにこれらの単語を追加する必要がある。

このため、違法・有害情報を含む文書を検出する課題では、ＮＧワードを増やすと語彙曖昧性により無害文書を大量に誤検出してしまい、逆にＮＧワードを減らすと日々作り出されている伏せ字や隠語のすべてに対応できないというジレンマが生じる。

上記の違法・有害文書を検出する課題では、サイトの健全性を保証するために、洩れなく違法・有害文書を検出することが重視される。このため、人手で確認すべき文書を機械的に絞りこむ場合、伏せ字や隠語などを含むように拡張したＮＧワードリストなどを用いて違法・有害情報を含む可能性がある文書をすべて抽出する必要がある。

しかし、この方法では、人手で確認すべきテキスト量が膨大になる。また、ＮＧワードリストに含まれない単語を検索しないため、新しい伏字や隠語に対処できない。これらの問題は、違法・有害文書を検出する課題に限らず、コンテンツの構成要素であるパターンと意味との間に常に一対一の関係が成り立たないメディアで表現されるコンテンツから特定の基準を満たす情報を含むコンテンツを洩れなく検出する課題のすべてに存在する。

本発明は上記課題を解決するものであり、その目的は、人手によって確認すべきデータ量を削減することによって確認に要する人的コストを低減させるとともに、新しい伏せ字や隠語などの新規のパターンを含むコンテンツの検出洩れを抑制することができるコンテンツ検出支援装置、方法、プログラムを提供することにある。

前記した目的を達成するために成された本発明に係わるコンテンツ検出支援装置は、コンテンツが特定の基準を満たす情報を含むかどうかを人手で判断する際に基準に該当する度合が相対的に高いパターン領域をコンテンツ中から機械的に抽出し、検出を行うオペレータにそのパターン領域を提示することによって、オペレータが確認すべきデータ量を削減する。パターン領域の抽出には、過去に人手で基準を満たす情報を含むか否かを判断されたコンテンツ集合の内容をもとに機械的に作成される判定ルールを用いる。この判定ルールを用いて対象のコンテンツ内に含まれる各パターンの基準に該当する度合を推定することで、基準に該当する度合の高いパターンを多く含むパターン領域をコンテンツから機械的に抽出する。

本発明の請求項１に記載のコンテンツ検出支援装置は、テキスト情報を含むコンテンツ群から、予め定めた所定の基準を満たす情報を含むコンテンツ中の部分領域を抽出するコンテンツ検出支援装置であって、前記各コンテンツ中のテキストを所定の単位に分割し、当該分割した箇所であるパターン毎の特徴量を抽出する特徴量抽出手段と、前記予め定めた所定の基準を満たす情報を含むか否かが既知であるコンテンツから、コンテンツに含まれる各パターンが前記予め定めた所定の基準を満たすか否かを判断するための判定ルールを生成する判定ルール生成手段と、前記特徴量抽出手段により抽出された前記パターン毎の特徴量を用いて、該パターン毎に前記判定ルールを適用して、前記各パターンが前記予め定めた所定の基準を満たすか否かを判定するパターン判定手段と、前記コンテンツの中から、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域を抽出するパターン領域抽出手段と、を有し、前記特徴量抽出手段は、判定対象のパターンと、当該パターンの前後数パターンの特徴量を加えて定義した特徴ベクトルを抽出することを特徴としている。

（１）請求項１〜１１に記載の発明によれば、特定の基準を満たす情報を含むコンテンツを人手で洩れなく検出する課題において、人手で確認すべきコンテンツの数をコンテンツ自体の機械的な抽出によって削減するのではなく、各コンテンツに含まれる一部のパターン領域を確認すべきデータとして機械的に抽出することで、本来検出すべきコンテンツを検出対象から除外するリスクなしに人手により確認すべきデータ量を削減させる。

コンテンツの抽出による方法では、検出すべきコンテンツを機械的に誤判定して検出対象から除外することが直接的にコンテンツの検出洩れにつながる。このため、検出洩れを防ぐには、基準を満たす情報を含まないことを明確に判定できるコンテンツ以外をすべて人手で確認する必要がある。一方、本発明で行うパターン領域の抽出では、各コンテンツ内に含まれる複数のパターン領域から、基準を満たす情報を含むことを判断できるパターン領域のうち少なくとも１つを人手で確認すべきパターン領域として抽出すれば基準を満たす情報を含むコンテンツの検出洩れを防げる。コンテンツ内の他のパターン領域を抽出しなくても検出洩れには直接つながらない。このため、本発明には、コンテンツの抽出による方法と比べて、低い検出洩れのリスクで、オペレータが確認すべきデータ量を低減させる効果がある。
（２）また、判定対象のパターン、例えば単語の前後数単語の特徴量も含めた特徴ベクトルを用いて、判定対象の単語が所定の情報を含むか否かを判定する構成により、Ｗｅｂコンテンツ上で日々生み出される新しい語や伏せ字、隠語などにも対応した情報検出が可能となる。
（３）請求項４、５、９、１０に記載の発明によれば、同じコンテンツに複数の検出対象領域（有害情報を含む領域等）がある場合には、その中から１つの領域だけを選択し出力することができるので、人手で確認をするときの情報量を削減し、負担を軽減する効果が高くなる。

本発明の実施形態例のコンテンツ検出支援装置の構成を示す機能ブロック図。

以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。図１は本実施の形態のコンテンツ検出支援装置１の構成を示す機能ブロック図の例である。

図１に示すように、本実施の形態のコンテンツ検出支援装置１は、ある特定の基準を満たす情報を含むか否かを判断すべきコンテンツを入力する際のインターフェースとなる入力部２と、入力されたコンテンツに含まれる各パターンの特徴量を抽出するための特徴量抽出手段としての特徴量抽出部３と、コンテンツに含まれる各パターンが基準に該当するか否かを判定するパターン判定手段としてのパターン判定部４と、基準に該当すると判定されたパターンを含むパターン領域をコンテンツから抽出するパターン領域抽出手段としてのパターン領域抽出部５と、パターン領域の画面表示やオペレータの判断結果を保存する際のインターフェースとなる出力部６とを含んで構成される。

また、コンテンツ検出支援装置１は、検出対象となるコンテンツと同様の形式をもつコンテンツの例を集めて生成された訓練データ集合が記憶されている訓練データＤＢ（データベース）７と、パターン判定部４で各パターンの判定に用いる判定ルールを、訓練データＤＢ７に含まれる訓練データを用いて生成する判定ルール生成手段としての判定ルール生成部８とを含んで構成される。

前記コンテンツ検出装置１の各部の機能は、例えばコンピュータによって達成される。

ここで、パターンとはテキストを分割する単位を指す。つまり、コンテンツが文書などのテキストデータである場合は、文字・記号または単語、熟語、フレーズ等がパターンとなる。また、パターン領域はパターンを複数まとめた領域であり、例えば、文節、文、パラグラフ等がパターン領域となる。以下、コンテンツを文書、パターンを単語、パターン領域をパラグラフとし、文書群から有害情報を含む文書を検出する課題を例に、コンテンツ検出支援装置１の各要素の実現例を述べる。

コンテンツ検出支援装置１は、入力部２で入力された文書に含まれる各単語に対し、特徴量抽出部３で特徴量を抽出する。特徴量抽出部３では、例えば、非特許文献５に記載の固有表現抽出器や品詞解析器で各単語に付与された固有表現タグや品詞情報、係り受け解析器（ＫＮＰ（非特許文献７）、Ｃａｂｏｃｈａ（非特許文献８など）で推定された単語の依存関係、非特許文献６に記載の項構造解析器で推定される構造情報などの既存の言語解析器を用いて各単語の特徴量を抽出する。

また、伏せ字の○やスペース、アスキーアートに用いられる記号などの特殊な文字や絵文字などを含む表現には本来と異なる意味で用いられている場合も多いことから、単語を構成する文字の種類を特徴量として加えても良い。

さらに、文脈に応じた判定を行うために、前後の数単語の特徴量を加えて各単語の特徴ベクトルを定義し、それらの特徴ベクトルを用いて各単語を判定しても良い。例えば、「れんこんを１５万円で売ります。」という文の各単語の特徴量が、
「れんこん」：ａ
「を」：ｂ
「１５万円」：ｃ
「で」：ｄ
「売り」：ｅ
「ます」：ｆ
「。」：ｇ
であるとする。文脈に応じた判定を行うために前後の２単語を考慮に入れて各単語を判定する場合には、各単語の判定に用いる特徴ベクトルを、
「れんこん」：ｘ₁＝（０，０，ａ，ｂ，ｃ）
「を」：ｘ₂＝（０，ａ，ｂ，ｃ，ｄ）
「１５万円」：ｘ₃＝（ａ，ｂ，ｃ，ｄ，ｅ）
「で」：ｘ₄＝（ｂ，ｃ，ｄ，ｅ，ｆ）
「売り」：ｘ₅＝（ｃ，ｄ，ｅ，ｆ，ｇ）
「ます」：ｘ₆＝（ｄ，ｅ，ｆ，ｇ，０）
「。」：ｘ₇＝（ｅ，ｆ，ｇ，０，０）
のように定義する。尚、日本語の文書の場合には、各文書に含まれる単語を解析するのに既存の形態素解析器（ＭｅＣａｂ（非特許文献９等）を用いることができる。

パターン判定部４では、特徴量抽出部３で抽出した単語とその特徴ベクトルを用い、後述の判定ルール生成部８で生成された判定ルールを適用して文書中で出現する各単語が有害情報を表すか否かを判定する。

各単語の判定は、例えば、パターンマッチングによる方法で行えるが、機械学習に基づく方法を用いて行ってもよい。パターンマッチングによる方法では、有害情報を表す可能性がある単語をすべて列挙したリストを用意し、そのリストに含まれているか否かを機械的に確認する。

機械学習による方法では、含まれる単語が有害情報を表すか否かを人手で過去に判断された文書から判定ルールを機械的に学習し、その判定ルールを新規の文書に適用することで文書に含まれる各単語の判定を行える。

文書に含まれる単語列の特徴ベクトル集合をＸ＝｛ｘ₁，…，ｘ_i，…，ｘ_n｝、各単語の判定結果を示すベクトルをｙ＝（ｙ₁，…，ｙ_i，…，ｙ_n），ｙ_i∈｛０，１｝とし、ｙ_i＝１（ｙ_i＝０）がｉ番目の単語が有害情報を表す（表さない）ことを意味するとすると、ｗをパラメータとするスコア関数ｆ（Ｘ，ｙ；ｗ）を用いて判定ルールはａｒｇｍａｘ_yｆ（Ｘ，ｙ；ｗ）で与えられる。パラメータｗの値は、含まれる単語が有害情報を表すか否かを人手で過去に判断された文書を用いて推定する。

判定ルールに用いる関数の型やパラメータ値の推定には、例えば、特許文献２や非特許文献１〜５に記載の方法を応用できる。

パターン領域抽出部５では、パターン判定部４で有害情報を表すと判定された単語を多く含むパラグラフを抽出する。パラグラフの抽出は、例えば，有害情報を表すと判定された単語数のパラグラフ中の単語全体に占める割合を計算し、その割合の高いパラグラフを選択することで行うことができる。

パターン判定部４で機械学習に基づく判定ルールを採用する場合には、判定ルールのスコア関数をもとにパラグラフのスコア値を定義し、そのスコア値が高いパラグラフを選択することでパラグラフの抽出を行っても良い。

パラグラフのスコア値は、パラグラフ中に含まれる単語列の特徴ベクトル集合をＸ´、単語数をｎとするとき、スコア関数ｆ（Ｘ，ｙ；ｗ）を用いて、例えば

出力部６では、パターン領域抽出部５で抽出されたパラグラフを画面に表示してオペレータに提示する。画面への表示方法は、例えば，パラグラフのみを表示しても、文書に含まれる情報をすべて表示した上で抽出されたパラグラフをハイライトすることで提示しても良い。また、出力部６では、オペレータが文書を検出すべきか否かを判断した結果やオペレータが有害情報を表すと判断した単語や文などを必要に応じて適切な箇所（例えば図示省略のメモリ）に保存する。

訓練データＤＢ７には、有害情報を含むか否かを過去に人手で判断された文書が蓄積されており、それらの中で有害文書には有害情報を表すと判断された単語にタグが付与されている。また、出力部６で保存された文書とオペレータの判断結果を逐次訓練データＤＢ７に加えても良い。

判定ルール生成部８では、訓練データＤＢ７に蓄積された文書とタグを訓練データとして、パターン判定部４で単語の判定に用いる判定ルールを機械的に生成する。例えば、パターン判定部４で単語リストを用いて単語を判定する場合では、訓練データ中の有害文書に含まれるタグ付けされた単語をすべて列挙したり、タグ付けされた数が多い単語を抽出することで単語リストを作成できる。

また、機械学習法で得られる判定ルールをパターン判定部４で用いる場合には、例えば、訓練データＤＢ７に含まれるコンテンツの各単語にタグが付与されているか否かの情報を利用して、非特許文献１、２、４に記載のサポートベクトルマシン（ＳＶＭ）やロジスティック回帰モデル、ナイーブベイズモデルなどの分類器のパラメータ値、あるいは非特許文献３に記載の条件付確率場（ＣＲＦ）などの構造データ用ラベル付与器のパラメータ値を見積もることで、各単語が基準に該当するか否かを推定するための判定ルールを生成できる。

あるいは、訓練データ中の有害文書に含まれる単語のうち、タグが付与されている単語を有害情報を表す単語であるとし、タグが付与されていない単語を有害情報を表すか否かが不明な単語とし、無害文書に含まれる単語をすべて有害情報を表さない単語とみなして、特許文献２や非特許文献５に記載の半教師あり学習技術を用いて分類器や構造データ用ラベル付与器のパラメータ値を見積もることで判定ルールを生成しても良い。

さらに、有害情報を含むか否かが不明の文書に含まれる単語と、有害情報を含むか否かが判断された文書に含まれる単語とから半教師あり学習技術を用いて分類器や構造データ用ラベル付与器のパラメータ値を見積もっても良い。この場合、有害情報を含むか否かが不明の文書に含まれるすべての単語を有害情報を表すか否かが不明な単語として扱ってパラメータ値を見積もる。

ここで、例えば、有害情報を１箇所でも含んでいれば、そのコンテンツは有害情報を含むと判断して良いので、同じコンテンツ中の複数箇所を人手で確認する必要はない。

したがって、上記実施形態例のように、パターン領域抽出部５において、有害情報を表すと判定された単語数のパラグラフ中の単語全体に占める割合を計算し、その割合の高いパラグラフを選択することにより、出力部６において人手で確認をするときの情報量が著しく削減され、負担が飛躍的に軽減される。

また上記の実施形態例では、判定対象の単語の前後数単語の特徴量も含めた特徴ベクトルを用いて、判定対象の単語が所定の情報（有害な情報）を含むか否かを判定しているので、Ｗｅｂコンテンツ上で日々生み出される新しい語や伏せ字、隠語等にも対応した情報検出が可能となる。

すなわち、例えば、「れんこんを１５万円で売ります」という文章が含まれていたときに、「れんこん」という単語そのものは有害な意味（拳銃）を表す隠語であることが分からなくても、「１５万円」や「売る」などの「れんこん」の周囲にある情報から「れんこんを１５万円で売ります」という領域を有害な情報を含む可能性の高い領域として検出することができる。

また、本発明のコンテンツ検出支援方法は、例えば前記図１のコンテンツ検出支援装置１の各部が行なう処理を実行するものである。

すなわち、まず、特徴量抽出部３が前記入力部２で入力されたコンテンツ（文書）に含まれる各単語の特徴量を抽出する（特徴量抽出ステップ）。

次に、判定ルール生成部８が、前記訓練データＤＢ７に蓄積された文書とタグを訓練データとして、文書に含まれる各単語（各パターン）が所定の基準を満たすか否か（有害情報を表すか否か）を判断するための判定ルールを生成する（判定ルール生成ステップ）。

尚、前記特徴量抽出ステップと判定ルール生成ステップの実行順序は前記に限るものではない。

次に、パターン判定部４が、特徴量抽出部３で抽出された単語とその特徴ベクトルを用い、判定ルール生成部８で生成された判定ルールを適用して、文書中で出現する各単語が有害情報を表すか否かを判定する（パターン判定ステップ）。

次に、パターン領域抽出部５が、パターン判定部４で有害情報を表すと判定された単語を多く含む部分領域（パラグラフ）を抽出する（パターン領域抽出ステップ）。

また、前記特徴量抽出部３が実行する特徴量抽出ステップでは、判定対象のパターン（単語）と、当該パターンの前後数パターンの特徴量を加えて定義した特徴ベクトルを抽出する。

また、前記判定ルール生成部８が実行する判定ルール生成ステップでは、予め定めた所定の基準を満たす情報（有害情報）を含むことが既知であるコンテンツ内の各パターンについて、前記予め定めた所定の基準を満たす情報であることが既知であるパターンにタグを付与し、当該コンテンツに含まれるパターンのうち前記タグが付与されたパターンを前記所定の基準を満たすパターンとし、当該コンテンツに含まれるパターンのうち前記タグが付与されていないパターンを前記所定の基準を満たすか否かが不明なパターンとし、前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツ内の全てのパターンを前記所定の基準を満たす情報を含まないパターンとし、半教師あり学習により、前記予め定めた所定の基準を満たす情報を含むことが既知であるコンテンツおよび前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツに含まれる前記各パターンが、前記予め定めた所定の基準を満たすパターンである可能性を示すスコア関数のパラメータを学習し、学習されたスコア関数を判定ルールとする。

また、前記パターン領域抽出部５が実行するパターン領域抽出ステップでは、前記コンテンツ内の各部分領域毎に、当該部分領域内の全パターン数に対する、当該部分領域において前記所定の基準を満たすと判定したパターン数の割合を計算し、その割合の最も高い部分領域を、前記パターン判定部４において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域として抽出する。

また、前記パターン領域抽出部５が実行するパターン領域抽出ステップでは、前記コンテンツ内の各パターンに前記スコア関数である判定ルールを適用することによりスコア値を算出し、前記コンテンツ内の各部分領域毎に、当該部分領域内の全パターンのスコア値の総和を算出し、前記スコア値の総和が最も高い部分領域を、前記パターン判定部４において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域として抽出する。

また、本実施形態のコンテンツ検出支援装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態のコンテンツ検出支援方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばＦＤ（Ｆｌｏｐｐｙ（登録商標）Ｄｉｓｋ）や、ＭＯ（Ｍａｇｎｅｔｏ−Ｏｐｔｉｃａｌｄｉｓｋ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、メモリカード、ＣＤ（ＣｏｍｐａｃｔＤｉｓｋ）−ＲＯＭ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＨＤＤ、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。

１…コンテンツ検出支援装置
２…入力部
３…特徴量抽出部
４…パターン判定部
５…パターン領域抽出部
６…出力部
７…訓練データＤＢ
８…判定ルール生成部

Claims

テキスト情報を含むコンテンツ群から、予め定めた所定の基準を満たす情報を含むコンテンツ中の部分領域を抽出するコンテンツ検出支援装置であって、
前記各コンテンツ中のテキストを所定の単位に分割し、当該分割した箇所であるパターン毎の特徴量を抽出する特徴量抽出手段と、
前記予め定めた所定の基準を満たす情報を含むか否かが既知であるコンテンツから、コンテンツに含まれる各パターンが前記予め定めた所定の基準を満たすか否かを判断するための判定ルールを生成する判定ルール生成手段と、
前記特徴量抽出手段により抽出された前記パターン毎の特徴量を用いて、該パターン毎に前記判定ルールを適用して、前記各パターンが前記予め定めた所定の基準を満たすか否かを判定するパターン判定手段と、
前記コンテンツの中から、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域を抽出するパターン領域抽出手段と、を有し、
前記特徴量抽出手段は、判定対象のパターンと、当該パターンの前後数パターンの特徴量を加えて定義した特徴ベクトルを抽出することを特徴とするコンテンツ検出支援装置。
テキスト情報を含むコンテンツ群から、予め定めた所定の基準を満たす情報を含むコンテンツ中の部分領域を抽出するコンテンツ検出支援装置であって、
前記各コンテンツ中のテキストを所定の単位に分割し、当該分割した箇所であるパターン毎の特徴量を抽出する特徴量抽出手段と、
前記予め定めた所定の基準を満たす情報を含むか否かが既知であるコンテンツから、コンテンツに含まれる各パターンが前記予め定めた所定の基準を満たすか否かを判断するための判定ルールを生成する判定ルール生成手段と、
前記特徴量抽出手段により抽出された前記パターン毎の特徴量を用いて、該パターン毎に前記判定ルールを適用して、前記各パターンが前記予め定めた所定の基準を満たすか否かを判定するパターン判定手段と、
前記コンテンツの中から、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域を抽出するパターン領域抽出手段と、を有し、
前記判定ルール生成手段は、
前記予め定めた所定の基準を満たす情報を含むことが既知であるコンテンツ内の各パターンについて、前記予め定めた所定の基準を満たす情報であることが既知であるパターンにタグを付与し、
当該コンテンツに含まれるパターンのうち前記タグが付与されたパターンを前記所定の基準を満たすパターンとし、
当該コンテンツに含まれるパターンのうち前記タグが付与されていないパターンを前記所定の基準を満たすか否かが不明なパターンとし、
前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツ内の全てのパターンを前記所定の基準を満たす情報を含まないパターンとし、
半教師あり学習により、前記予め定めた所定の基準を満たす情報を含むことが既知であるコンテンツおよび前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツに含まれる前記各パターンが、前記予め定めた所定の基準を満たすパターンである可能性を示すスコア関数のパラメータを学習し、学習されたスコア関数を判定ルールとする、
ことを特徴とするコンテンツ検出支援装置。
テキスト情報を含むコンテンツ群から、予め定めた所定の基準を満たす情報を含むコンテンツ中の部分領域を抽出するコンテンツ検出支援装置であって、
前記各コンテンツ中のテキストを所定の単位に分割し、当該分割した箇所であるパターン毎の特徴量を抽出する特徴量抽出手段と、
前記予め定めた所定の基準を満たす情報を含むか否かが既知であるコンテンツから、コンテンツに含まれる各パターンが前記予め定めた所定の基準を満たすか否かを判断するための判定ルールを生成する判定ルール生成手段と、
前記特徴量抽出手段により抽出された前記パターン毎の特徴量を用いて、該パターン毎に前記判定ルールを適用して、前記各パターンが前記予め定めた所定の基準を満たすか否かを判定するパターン判定手段と、
前記コンテンツの中から、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域を抽出するパターン領域抽出手段と、を有し、
前記特徴量抽出手段は、判定対象のパターンと、当該パターンの前後数パターンの特徴量を加えて定義した特徴ベクトルを抽出し、
前記判定ルール生成手段は、
前記予め定めた所定の基準を満たす情報を含むことが既知であるコンテンツ内の各パターンについて、前記予め定めた所定の基準を満たす情報であることが既知であるパターンにタグを付与し、
当該コンテンツに含まれるパターンのうち前記タグが付与されたパターンを前記所定の基準を満たすパターンとし、
当該コンテンツに含まれるパターンのうち前記タグが付与されていないパターンを前記所定の基準を満たすか否かが不明なパターンとし、
前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツ内の全てのパターンを前記所定の基準を満たす情報を含まないパターンとし、
半教師あり学習により、前記予め定めた所定の基準を満たす情報を含むことが既知であるコンテンツおよび前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツに含まれる前記各パターンが、前記予め定めた所定の基準を満たすパターンである可能性を示すスコア関数のパラメータを学習し、学習されたスコア関数を判定ルールとする、
ことを特徴とするコンテンツ検出支援装置。
前記パターン領域抽出手段は、
前記コンテンツ内の各部分領域毎に、当該部分領域内の全パターン数に対する、当該部分領域において前記所定の基準を満たすと判定したパターン数の割合を計算し、その割合の最も高い部分領域を、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域として抽出することを特徴とする請求項１ないし３のいずれか１項に記載のコンテンツ検出支援装置。
前記パターン領域抽出手段は、
前記コンテンツ内の各パターンに前記スコア関数である判定ルールを適用することによりスコア値を算出し、前記コンテンツ内の各部分領域毎に、当該部分領域内の全パターンのスコア値の総和を算出し、前記スコア値の総和が最も高い部分領域を、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域として抽出することを特徴とする請求項２又は３に記載のコンテンツ検出支援装置。
テキスト情報を含むコンテンツ群から、予め定めた所定の基準を満たす情報を含むコンテンツ中の部分領域を抽出するコンテンツ検出支援方法であって、
特徴量抽出手段が、前記各コンテンツ中のテキストを所定の単位に分割し、当該分割した箇所であるパターン毎の特徴量を抽出する特徴量抽出ステップと、
判定ルール生成手段が、前記予め定めた所定の基準を満たす情報を含むか否かが既知であるコンテンツから、コンテンツに含まれる各パターンが前記予め定めた所定の基準を満たすか否かを判断するための判定ルールを生成する判定ルール生成ステップと、
パターン判定手段が、前記特徴量抽出手段により抽出された前記パターン毎の特徴量を用いて、該パターン毎に前記判定ルールを適用して、前記各パターンが前記予め定めた所定の基準を満たすか否かを判定するパターン判定ステップと、
パターン領域抽出手段が、前記コンテンツの中から、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域を抽出するパターン領域抽出ステップと、を有し、
前記特徴量抽出ステップは、判定対象のパターンと、当該パターンの前後数パターンの特徴量を加えて定義した特徴ベクトルを抽出することを特徴とするコンテンツ検出支援方法。
テキスト情報を含むコンテンツ群から、予め定めた所定の基準を満たす情報を含むコンテンツ中の部分領域を抽出するコンテンツ検出支援方法であって、
特徴量抽出手段が、前記各コンテンツ中のテキストを所定の単位に分割し、当該分割した箇所であるパターン毎の特徴量を抽出する特徴量抽出ステップと、
判定ルール生成手段が、前記予め定めた所定の基準を満たす情報を含むか否かが既知であるコンテンツから、コンテンツに含まれる各パターンが前記予め定めた所定の基準を満たすか否かを判断するための判定ルールを生成する判定ルール生成ステップと、
パターン判定手段が、前記特徴量抽出手段により抽出された前記パターン毎の特徴量を用いて、該パターン毎に前記判定ルールを適用して、前記各パターンが前記予め定めた所定の基準を満たすか否かを判定するパターン判定ステップと、
パターン領域抽出手段が、前記コンテンツの中から、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域を抽出するパターン領域抽出ステップと、を有し、
前記判定ルール生成ステップは、
前記予め定めた所定の基準を満たす情報を含むことが既知であるコンテンツ内の各パターンについて、前記予め定めた所定の基準を満たす情報であることが既知であるパターンにタグを付与し、
当該コンテンツに含まれるパターンのうち前記タグが付与されたパターンを前記所定の基準を満たすパターンとし、
当該コンテンツに含まれるパターンのうち前記タグが付与されていないパターンを前記所定の基準を満たすか否かが不明なパターンとし、
前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツ内の全てのパターンを前記所定の基準を満たす情報を含まないパターンとし、
半教師あり学習により、前記予め定めた所定の基準を満たす情報を含むことが既知であるコンテンツおよび前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツに含まれる前記各パターンが、前記予め定めた所定の基準を満たすパターンである可能性を示すスコア関数のパラメータを学習し、学習されたスコア関数を判定ルールとする、
ことを特徴とするコンテンツ検出支援方法。
テキスト情報を含むコンテンツ群から、予め定めた所定の基準を満たす情報を含むコンテンツ中の部分領域を抽出するコンテンツ検出支援方法であって、
特徴量抽出手段が、前記各コンテンツ中のテキストを所定の単位に分割し、当該分割した箇所であるパターン毎の特徴量を抽出する特徴量抽出ステップと、
判定ルール生成手段が、前記予め定めた所定の基準を満たす情報を含むか否かが既知であるコンテンツから、コンテンツに含まれる各パターンが前記予め定めた所定の基準を満たすか否かを判断するための判定ルールを生成する判定ルール生成ステップと、
パターン判定手段が、前記特徴量抽出手段により抽出された前記パターン毎の特徴量を用いて、該パターン毎に前記判定ルールを適用して、前記各パターンが前記予め定めた所定の基準を満たすか否かを判定するパターン判定ステップと、
パターン領域抽出手段が、前記コンテンツの中から、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域を抽出するパターン領域抽出ステップと、を有し、
前記特徴量抽出ステップは、判定対象のパターンと、当該パターンの前後数パターンの特徴量を加えて定義した特徴ベクトルを抽出し、
前記判定ルール生成ステップは、
前記予め定めた所定の基準を満たす情報を含むことが既知であるコンテンツ内の各パターンについて、前記予め定めた所定の基準を満たす情報であることが既知であるパターンにタグを付与し、
当該コンテンツに含まれるパターンのうち前記タグが付与されたパターンを前記所定の基準を満たすパターンとし、
当該コンテンツに含まれるパターンのうち前記タグが付与されていないパターンを前記所定の基準を満たすか否かが不明なパターンとし、
前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツ内の全てのパターンを前記所定の基準を満たす情報を含まないパターンとし、
半教師あり学習により、前記予め定めた所定の基準を満たす情報を含むことが既知であるコンテンツおよび前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツに含まれる前記各パターンが、前記予め定めた所定の基準を満たすパターンである可能性を示すスコア関数のパラメータを学習し、学習されたスコア関数を判定ルールとする、
ことを特徴とするコンテンツ検出支援方法。
前記パターン領域抽出ステップは、
前記コンテンツ内の各部分領域毎に、当該部分領域内の全パターン数に対する、当該部分領域において前記所定の基準を満たすと判定したパターン数の割合を計算し、その割合の最も高い部分領域を、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域として抽出することを特徴とする請求項６ないし８のいずれか１項に記載のコンテンツ検出支援方法。
前記パターン領域抽出ステップは、
前記コンテンツ内の各パターンに前記スコア関数である判定ルールを適用することによりスコア値を算出し、前記コンテンツ内の各部分領域毎に、当該部分領域内の全パターンのスコア値の総和を算出し、前記スコア値の総和が最も高い部分領域を、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域として抽出することを特徴とする請求項７又は８に記載のコンテンツ検出支援方法。
コンピュータを請求項１ないし５のいずれか１項に記載の各手段として機能させるコンテンツ検出支援プログラム。