JP5462546B2 - コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム - Google Patents

コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム Download PDF

Info

Publication number
JP5462546B2
JP5462546B2 JP2009183305A JP2009183305A JP5462546B2 JP 5462546 B2 JP5462546 B2 JP 5462546B2 JP 2009183305 A JP2009183305 A JP 2009183305A JP 2009183305 A JP2009183305 A JP 2009183305A JP 5462546 B2 JP5462546 B2 JP 5462546B2
Authority
JP
Japan
Prior art keywords
pattern
content
predetermined criterion
predetermined
patterns
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009183305A
Other languages
English (en)
Other versions
JP2011039575A (ja
Inventor
昭典 藤野
昌明 永田
早苗 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009183305A priority Critical patent/JP5462546B2/ja
Publication of JP2011039575A publication Critical patent/JP2011039575A/ja
Application granted granted Critical
Publication of JP5462546B2 publication Critical patent/JP5462546B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、掲示板、ソーシャルネットワーキングサービス(SNS)、blogといったインターネット上のコミュニティサイトに投稿されるテキスト情報から成るコンテンツ群や、データベースに含まれる論文、特許等の文書、オンラインニュースデータ、電子メール、Webページ等のテキスト情報から成るコンテンツ群、画像やリンクなどのテキスト以外のコンテンツ群から特定の基準を満たす情報を含むコンテンツを人手で洩れなく検出する際に、コンテンツ群から一部のデータを人手で確認すべきデータとして機械的に抽出することで検出コストを低減させるコンテンツ検出支援装置、方法、プログラムに関する。
大量に蓄積されたコンテンツ群から特定の基準を満たす情報を含むコンテンツを検出する課題では、検出に要する人的コストを削減するために、パターンマッチングにより確認すべきコンテンツの量を削減する方法が一般的によく用いられる。例えば、掲示板、SNS、blogといったインターネット上のコミュニティサイトに投稿されたテキスト文書やWebページから、犯罪や麻薬といった違法性の高い文書や、卑猥な表現や悪質な勧誘などの有害性の高い文書を検出する課題では、違法・有害文書によく含まれる単語をNGワードとして記録したリストを用意し、それらのNGワードを含む文書をコンテンツ群から機械的に抽出することで人手で確認すべき文書数を削減する。
従来、ユーザにとって不適切な情報へのアクセスを制限し、適切な情報のみを抽出するネットワーク上の情報フィルタリング装置として、例えば特許文献1に記載のものが提案されている。
尚、本発明で利用する技術は、特許文献2、非特許文献1〜9に開示されている。
特開2002−14991号公報 特開2006−338263号公報
R.Collobert, F.Sinz, J.Weston, and L.Bottou. "Large scale transductive SVMs". Journal of Machine Learning Research,2006. Vol.7, pp.1687−1712 Y.Grandvalet and Y.Bengio. "Semi−supervised learning by entropy minimization". In Advances in Neural Information Processing Systems 17, MIT Press, Cambridge, MA, 2005.pp.529−536 J.Lafferty, A.McCallum, and F.Pereira."Conditional random fields: Probabilistic models for segmenting and labeling sequence data".In Proceedings of the 18th International Conference on Machine Learning (ICML 2001), pp.282−289 K.Nigam, A.McCallum, S.Thrun, and T.Mitchell."Text classification from labeled and unlabeled documents using EM". Machine Learning, 2000.Vol.39, pp.103−134 J.Suzuki and H.Isozaki."Semi−supervised sequential labeling and segmentation using giga−word scale unlabeled data". In Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics (ACL−2008),pp.665−673 H.Taira, S.Fujita, and M.Nagata."A Japanese predicate argument structure analysis using decision lists".In Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing (EMNLP 2008),pp.522−531 日本語構文解析システムKNP インターネット<URL:http://nlp.kuee.kyoto−u.ac.jp/nl−resource/knp.html>.[平成21年7月28日検索] 日本語係り受け解析器 インターネット<URL:http://chasen.org/〜taku/software/cabocha>.[平成21年7月28日検索] オープンソース形態素解析エンジン インターネット<URL:http://mecab.sourceforge.net/>.[平成21年7月28日検索]
従来のパターンマッチングによる方法では、NGワードのように予め設定したパターンを含むコンテンツを機械的に検出する。この方法では、設定したパターンのみで特定の基準を満たす情報を含むコンテンツか否かを判定できる課題に対して、効果的に基準に該当するコンテンツを検出できる。
しかし、例えば、インターネット上のサイトに投稿された文書群から違法・有害情報を含む文書を検出する課題に対しては、文脈によって単語の意味が異なる語義曖昧性があるため、NGワードリストに記載された単語を含む文書が必ずしも違法・有害情報であるとは限らない。
このため、パターンマッチングによる方法では、無害な文書を大量に誤検出してしまう危険性があり、違法・有害性の高い文書のみを機械的に検出するにはNGワードを絞りこむ必要がある。
一方、違法・有害情報の発信者は、摘発を逃れるために、「覚○剤(=覚醒剤)」のような伏字、「レンコン(=拳銃)」のような隠語などを日々作成している。このような伏字や隠語などを含む違法・有害文書をパターンマッチングによる方法で検出するには、NGワードリストにこれらの単語を追加する必要がある。
このため、違法・有害情報を含む文書を検出する課題では、NGワードを増やすと語彙曖昧性により無害文書を大量に誤検出してしまい、逆にNGワードを減らすと日々作り出されている伏せ字や隠語のすべてに対応できないというジレンマが生じる。
上記の違法・有害文書を検出する課題では、サイトの健全性を保証するために、洩れなく違法・有害文書を検出することが重視される。このため、人手で確認すべき文書を機械的に絞りこむ場合、伏せ字や隠語などを含むように拡張したNGワードリストなどを用いて違法・有害情報を含む可能性がある文書をすべて抽出する必要がある。
しかし、この方法では、人手で確認すべきテキスト量が膨大になる。また、NGワードリストに含まれない単語を検索しないため、新しい伏字や隠語に対処できない。これらの問題は、違法・有害文書を検出する課題に限らず、コンテンツの構成要素であるパターンと意味との間に常に一対一の関係が成り立たないメディアで表現されるコンテンツから特定の基準を満たす情報を含むコンテンツを洩れなく検出する課題のすべてに存在する。
本発明は上記課題を解決するものであり、その目的は、人手によって確認すべきデータ量を削減することによって確認に要する人的コストを低減させるとともに、新しい伏せ字や隠語などの新規のパターンを含むコンテンツの検出洩れを抑制することができるコンテンツ検出支援装置、方法、プログラムを提供することにある。
前記した目的を達成するために成された本発明に係わるコンテンツ検出支援装置は、コンテンツが特定の基準を満たす情報を含むかどうかを人手で判断する際に基準に該当する度合が相対的に高いパターン領域をコンテンツ中から機械的に抽出し、検出を行うオペレータにそのパターン領域を提示することによって、オペレータが確認すべきデータ量を削減する。パターン領域の抽出には、過去に人手で基準を満たす情報を含むか否かを判断されたコンテンツ集合の内容をもとに機械的に作成される判定ルールを用いる。この判定ルールを用いて対象のコンテンツ内に含まれる各パターンの基準に該当する度合を推定することで、基準に該当する度合の高いパターンを多く含むパターン領域をコンテンツから機械的に抽出する。
本発明の請求項1に記載のコンテンツ検出支援装置は、テキスト情報を含むコンテンツ群から、予め定めた所定の基準を満たす情報を含むコンテンツ中の部分領域を抽出するコンテンツ検出支援装置であって、前記各コンテンツ中のテキストを所定の単位に分割し、当該分割した箇所であるパターン毎の特徴量を抽出する特徴量抽出手段と、前記予め定めた所定の基準を満たす情報を含むか否かが既知であるコンテンツから、コンテンツに含まれる各パターンが前記予め定めた所定の基準を満たすか否かを判断するための判定ルールを生成する判定ルール生成手段と、前記特徴量抽出手段により抽出された前記パターン毎の特徴量を用いて、該パターン毎に前記判定ルールを適用して、前記各パターンが前記予め定めた所定の基準を満たすか否かを判定するパターン判定手段と、前記コンテンツの中から、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域を抽出するパターン領域抽出手段と、を有し、前記特徴量抽出手段は、判定対象のパターンと、当該パターンの前後数パターンの特徴量を加えて定義した特徴ベクトルを抽出することを特徴としている。
(1)請求項1〜11に記載の発明によれば、特定の基準を満たす情報を含むコンテンツを人手で洩れなく検出する課題において、人手で確認すべきコンテンツの数をコンテンツ自体の機械的な抽出によって削減するのではなく、各コンテンツに含まれる一部のパターン領域を確認すべきデータとして機械的に抽出することで、本来検出すべきコンテンツを検出対象から除外するリスクなしに人手により確認すべきデータ量を削減させる。
コンテンツの抽出による方法では、検出すべきコンテンツを機械的に誤判定して検出対象から除外することが直接的にコンテンツの検出洩れにつながる。このため、検出洩れを防ぐには、基準を満たす情報を含まないことを明確に判定できるコンテンツ以外をすべて人手で確認する必要がある。一方、本発明で行うパターン領域の抽出では、各コンテンツ内に含まれる複数のパターン領域から、基準を満たす情報を含むことを判断できるパターン領域のうち少なくとも1つを人手で確認すべきパターン領域として抽出すれば基準を満たす情報を含むコンテンツの検出洩れを防げる。コンテンツ内の他のパターン領域を抽出しなくても検出洩れには直接つながらない。このため、本発明には、コンテンツの抽出による方法と比べて、低い検出洩れのリスクで、オペレータが確認すべきデータ量を低減させる効果がある。
(2)また、判定対象のパターン、例えば単語の前後数単語の特徴量も含めた特徴ベクトルを用いて、判定対象の単語が所定の情報を含むか否かを判定する構成により、Webコンテンツ上で日々生み出される新しい語や伏せ字、隠語などにも対応した情報検出が可能となる。
(3)請求項4、5、9、10に記載の発明によれば、同じコンテンツに複数の検出対象領域(有害情報を含む領域等)がある場合には、その中から1つの領域だけを選択し出力することができるので、人手で確認をするときの情報量を削減し、負担を軽減する効果が高くなる。
本発明の実施形態例のコンテンツ検出支援装置の構成を示す機能ブロック図。
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。図1は本実施の形態のコンテンツ検出支援装置1の構成を示す機能ブロック図の例である。
図1に示すように、本実施の形態のコンテンツ検出支援装置1は、ある特定の基準を満たす情報を含むか否かを判断すべきコンテンツを入力する際のインターフェースとなる入力部2と、入力されたコンテンツに含まれる各パターンの特徴量を抽出するための特徴量抽出手段としての特徴量抽出部3と、コンテンツに含まれる各パターンが基準に該当するか否かを判定するパターン判定手段としてのパターン判定部4と、基準に該当すると判定されたパターンを含むパターン領域をコンテンツから抽出するパターン領域抽出手段としてのパターン領域抽出部5と、パターン領域の画面表示やオペレータの判断結果を保存する際のインターフェースとなる出力部6とを含んで構成される。
また、コンテンツ検出支援装置1は、検出対象となるコンテンツと同様の形式をもつコンテンツの例を集めて生成された訓練データ集合が記憶されている訓練データDB(データベース)7と、パターン判定部4で各パターンの判定に用いる判定ルールを、訓練データDB7に含まれる訓練データを用いて生成する判定ルール生成手段としての判定ルール生成部8とを含んで構成される。
前記コンテンツ検出装置1の各部の機能は、例えばコンピュータによって達成される。
ここで、パターンとはテキストを分割する単位を指す。つまり、コンテンツが文書などのテキストデータである場合は、文字・記号または単語、熟語、フレーズ等がパターンとなる。また、パターン領域はパターンを複数まとめた領域であり、例えば、文節、文、パラグラフ等がパターン領域となる。以下、コンテンツを文書、パターンを単語、パターン領域をパラグラフとし、文書群から有害情報を含む文書を検出する課題を例に、コンテンツ検出支援装置1の各要素の実現例を述べる。
コンテンツ検出支援装置1は、入力部2で入力された文書に含まれる各単語に対し、特徴量抽出部3で特徴量を抽出する。特徴量抽出部3では、例えば、非特許文献5に記載の固有表現抽出器や品詞解析器で各単語に付与された固有表現タグや品詞情報、係り受け解析器(KNP(非特許文献7)、Cabocha(非特許文献8など)で推定された単語の依存関係、非特許文献6に記載の項構造解析器で推定される構造情報などの既存の言語解析器を用いて各単語の特徴量を抽出する。
また、伏せ字の○やスペース、アスキーアートに用いられる記号などの特殊な文字や絵文字などを含む表現には本来と異なる意味で用いられている場合も多いことから、単語を構成する文字の種類を特徴量として加えても良い。
さらに、文脈に応じた判定を行うために、前後の数単語の特徴量を加えて各単語の特徴ベクトルを定義し、それらの特徴ベクトルを用いて各単語を判定しても良い。例えば、「れんこんを15万円で売ります。」という文の各単語の特徴量が、
「れんこん」:a
「を」:b
「15万円」:c
「で」:d
「売り」:e
「ます」:f
「。」:g
であるとする。文脈に応じた判定を行うために前後の2単語を考慮に入れて各単語を判定する場合には、各単語の判定に用いる特徴ベクトルを、
「れんこん」:x1=(0,0,a,b,c)
「を」:x2=(0,a,b,c,d)
「15万円」:x3=(a,b,c,d,e)
「で」:x4=(b,c,d,e,f)
「売り」:x5=(c,d,e,f,g)
「ます」:x6=(d,e,f,g,0)
「。」:x7=(e,f,g,0,0)
のように定義する。尚、日本語の文書の場合には、各文書に含まれる単語を解析するのに既存の形態素解析器(MeCab(非特許文献9等)を用いることができる。
パターン判定部4では、特徴量抽出部3で抽出した単語とその特徴ベクトルを用い、後述の判定ルール生成部8で生成された判定ルールを適用して文書中で出現する各単語が有害情報を表すか否かを判定する。
各単語の判定は、例えば、パターンマッチングによる方法で行えるが、機械学習に基づく方法を用いて行ってもよい。パターンマッチングによる方法では、有害情報を表す可能性がある単語をすべて列挙したリストを用意し、そのリストに含まれているか否かを機械的に確認する。
機械学習による方法では、含まれる単語が有害情報を表すか否かを人手で過去に判断された文書から判定ルールを機械的に学習し、その判定ルールを新規の文書に適用することで文書に含まれる各単語の判定を行える。
文書に含まれる単語列の特徴ベクトル集合をX={x1,…,xi,…,xn}、各単語の判定結果を示すベクトルをy=(y1,…,yi,…,yn),yi∈{0,1}とし、yi=1(yi=0)がi番目の単語が有害情報を表す(表さない)ことを意味するとすると、wをパラメータとするスコア関数f(X,y;w)を用いて判定ルールはargmaxyf(X,y;w)で与えられる。パラメータwの値は、含まれる単語が有害情報を表すか否かを人手で過去に判断された文書を用いて推定する。
判定ルールに用いる関数の型やパラメータ値の推定には、例えば、特許文献2や非特許文献1〜5に記載の方法を応用できる。
パターン領域抽出部5では、パターン判定部4で有害情報を表すと判定された単語を多く含むパラグラフを抽出する。パラグラフの抽出は、例えば,有害情報を表すと判定された単語数のパラグラフ中の単語全体に占める割合を計算し、その割合の高いパラグラフを選択することで行うことができる。
パターン判定部4で機械学習に基づく判定ルールを採用する場合には、判定ルールのスコア関数をもとにパラグラフのスコア値を定義し、そのスコア値が高いパラグラフを選択することでパラグラフの抽出を行っても良い。
パラグラフのスコア値は、パラグラフ中に含まれる単語列の特徴ベクトル集合をX´、単語数をnとするとき、スコア関数f(X,y;w)を用いて、例えば
Figure 0005462546
出力部6では、パターン領域抽出部5で抽出されたパラグラフを画面に表示してオペレータに提示する。画面への表示方法は、例えば,パラグラフのみを表示しても、文書に含まれる情報をすべて表示した上で抽出されたパラグラフをハイライトすることで提示しても良い。また、出力部6では、オペレータが文書を検出すべきか否かを判断した結果やオペレータが有害情報を表すと判断した単語や文などを必要に応じて適切な箇所(例えば図示省略のメモリ)に保存する。
訓練データDB7には、有害情報を含むか否かを過去に人手で判断された文書が蓄積されており、それらの中で有害文書には有害情報を表すと判断された単語にタグが付与されている。また、出力部6で保存された文書とオペレータの判断結果を逐次訓練データDB7に加えても良い。
判定ルール生成部8では、訓練データDB7に蓄積された文書とタグを訓練データとして、パターン判定部4で単語の判定に用いる判定ルールを機械的に生成する。例えば、パターン判定部4で単語リストを用いて単語を判定する場合では、訓練データ中の有害文書に含まれるタグ付けされた単語をすべて列挙したり、タグ付けされた数が多い単語を抽出することで単語リストを作成できる。
また、機械学習法で得られる判定ルールをパターン判定部4で用いる場合には、例えば、訓練データDB7に含まれるコンテンツの各単語にタグが付与されているか否かの情報を利用して、非特許文献1、2、4に記載のサポートベクトルマシン(SVM)やロジスティック回帰モデル、ナイーブベイズモデルなどの分類器のパラメータ値、あるいは非特許文献3に記載の条件付確率場(CRF)などの構造データ用ラベル付与器のパラメータ値を見積もることで、各単語が基準に該当するか否かを推定するための判定ルールを生成できる。
あるいは、訓練データ中の有害文書に含まれる単語のうち、タグが付与されている単語を有害情報を表す単語であるとし、タグが付与されていない単語を有害情報を表すか否かが不明な単語とし、無害文書に含まれる単語をすべて有害情報を表さない単語とみなして、特許文献2や非特許文献5に記載の半教師あり学習技術を用いて分類器や構造データ用ラベル付与器のパラメータ値を見積もることで判定ルールを生成しても良い。
さらに、有害情報を含むか否かが不明の文書に含まれる単語と、有害情報を含むか否かが判断された文書に含まれる単語とから半教師あり学習技術を用いて分類器や構造データ用ラベル付与器のパラメータ値を見積もっても良い。この場合、有害情報を含むか否かが不明の文書に含まれるすべての単語を有害情報を表すか否かが不明な単語として扱ってパラメータ値を見積もる。
ここで、例えば、有害情報を1箇所でも含んでいれば、そのコンテンツは有害情報を含むと判断して良いので、同じコンテンツ中の複数箇所を人手で確認する必要はない。
したがって、上記実施形態例のように、パターン領域抽出部5において、有害情報を表すと判定された単語数のパラグラフ中の単語全体に占める割合を計算し、その割合の高いパラグラフを選択することにより、出力部6において人手で確認をするときの情報量が著しく削減され、負担が飛躍的に軽減される。
また上記の実施形態例では、判定対象の単語の前後数単語の特徴量も含めた特徴ベクトルを用いて、判定対象の単語が所定の情報(有害な情報)を含むか否かを判定しているので、Webコンテンツ上で日々生み出される新しい語や伏せ字、隠語等にも対応した情報検出が可能となる。
すなわち、例えば、「れんこんを15万円で売ります」という文章が含まれていたときに、「れんこん」という単語そのものは有害な意味(拳銃)を表す隠語であることが分からなくても、「15万円」や「売る」などの「れんこん」の周囲にある情報から「れんこんを15万円で売ります」という領域を有害な情報を含む可能性の高い領域として検出することができる。
また、本発明のコンテンツ検出支援方法は、例えば前記図1のコンテンツ検出支援装置1の各部が行なう処理を実行するものである。
すなわち、まず、特徴量抽出部3が前記入力部2で入力されたコンテンツ(文書)に含まれる各単語の特徴量を抽出する(特徴量抽出ステップ)。
次に、判定ルール生成部8が、前記訓練データDB7に蓄積された文書とタグを訓練データとして、文書に含まれる各単語(各パターン)が所定の基準を満たすか否か(有害情報を表すか否か)を判断するための判定ルールを生成する(判定ルール生成ステップ)。
尚、前記特徴量抽出ステップと判定ルール生成ステップの実行順序は前記に限るものではない。
次に、パターン判定部4が、特徴量抽出部3で抽出された単語とその特徴ベクトルを用い、判定ルール生成部8で生成された判定ルールを適用して、文書中で出現する各単語が有害情報を表すか否かを判定する(パターン判定ステップ)。
次に、パターン領域抽出部5が、パターン判定部4で有害情報を表すと判定された単語を多く含む部分領域(パラグラフ)を抽出する(パターン領域抽出ステップ)。
また、前記特徴量抽出部3が実行する特徴量抽出ステップでは、判定対象のパターン(単語)と、当該パターンの前後数パターンの特徴量を加えて定義した特徴ベクトルを抽出する。
また、前記判定ルール生成部8が実行する判定ルール生成ステップでは、予め定めた所定の基準を満たす情報(有害情報)を含むことが既知であるコンテンツ内の各パターンについて、前記予め定めた所定の基準を満たす情報であることが既知であるパターンにタグを付与し、当該コンテンツに含まれるパターンのうち前記タグが付与されたパターンを前記所定の基準を満たすパターンとし、当該コンテンツに含まれるパターンのうち前記タグが付与されていないパターンを前記所定の基準を満たすか否かが不明なパターンとし、前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツ内の全てのパターンを前記所定の基準を満たす情報を含まないパターンとし、半教師あり学習により、前記予め定めた所定の基準を満たす情報を含むことが既知であるコンテンツおよび前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツに含まれる前記各パターンが、前記予め定めた所定の基準を満たすパターンである可能性を示すスコア関数のパラメータを学習し、学習されたスコア関数を判定ルールとする。
また、前記パターン領域抽出部5が実行するパターン領域抽出ステップでは、前記コンテンツ内の各部分領域毎に、当該部分領域内の全パターン数に対する、当該部分領域において前記所定の基準を満たすと判定したパターン数の割合を計算し、その割合の最も高い部分領域を、前記パターン判定部4において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域として抽出する。
また、前記パターン領域抽出部5が実行するパターン領域抽出ステップでは、前記コンテンツ内の各パターンに前記スコア関数である判定ルールを適用することによりスコア値を算出し、前記コンテンツ内の各部分領域毎に、当該部分領域内の全パターンのスコア値の総和を算出し、前記スコア値の総和が最も高い部分領域を、前記パターン判定部4において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域として抽出する。
また、本実施形態のコンテンツ検出支援装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態のコンテンツ検出支援方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
1…コンテンツ検出支援装置
2…入力部
3…特徴量抽出部
4…パターン判定部
5…パターン領域抽出部
6…出力部
7…訓練データDB
8…判定ルール生成部

Claims (11)

  1. テキスト情報を含むコンテンツ群から、予め定めた所定の基準を満たす情報を含むコンテンツ中の部分領域を抽出するコンテンツ検出支援装置であって、
    前記各コンテンツ中のテキストを所定の単位に分割し、当該分割した箇所であるパターン毎の特徴量を抽出する特徴量抽出手段と、
    前記予め定めた所定の基準を満たす情報を含むか否かが既知であるコンテンツから、コンテンツに含まれる各パターンが前記予め定めた所定の基準を満たすか否かを判断するための判定ルールを生成する判定ルール生成手段と、
    前記特徴量抽出手段により抽出された前記パターン毎の特徴量を用いて、該パターン毎に前記判定ルールを適用して、前記各パターンが前記予め定めた所定の基準を満たすか否かを判定するパターン判定手段と、
    前記コンテンツの中から、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域を抽出するパターン領域抽出手段と、を有し、
    前記特徴量抽出手段は、判定対象のパターンと、当該パターンの前後数パターンの特徴量を加えて定義した特徴ベクトルを抽出することを特徴とするコンテンツ検出支援装置。
  2. テキスト情報を含むコンテンツ群から、予め定めた所定の基準を満たす情報を含むコンテンツ中の部分領域を抽出するコンテンツ検出支援装置であって、
    前記各コンテンツ中のテキストを所定の単位に分割し、当該分割した箇所であるパターン毎の特徴量を抽出する特徴量抽出手段と、
    前記予め定めた所定の基準を満たす情報を含むか否かが既知であるコンテンツから、コンテンツに含まれる各パターンが前記予め定めた所定の基準を満たすか否かを判断するための判定ルールを生成する判定ルール生成手段と、
    前記特徴量抽出手段により抽出された前記パターン毎の特徴量を用いて、該パターン毎に前記判定ルールを適用して、前記各パターンが前記予め定めた所定の基準を満たすか否かを判定するパターン判定手段と、
    前記コンテンツの中から、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域を抽出するパターン領域抽出手段と、を有し、
    前記判定ルール生成手段は、
    前記予め定めた所定の基準を満たす情報を含むことが既知であるコンテンツ内の各パターンについて、前記予め定めた所定の基準を満たす情報であることが既知であるパターンにタグを付与し、
    当該コンテンツに含まれるパターンのうち前記タグが付与されたパターンを前記所定の基準を満たすパターンとし、
    当該コンテンツに含まれるパターンのうち前記タグが付与されていないパターンを前記所定の基準を満たすか否かが不明なパターンとし、
    前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツ内の全てのパターンを前記所定の基準を満たす情報を含まないパターンとし、
    半教師あり学習により、前記予め定めた所定の基準を満たす情報を含むことが既知であるコンテンツおよび前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツに含まれる前記各パターンが、前記予め定めた所定の基準を満たすパターンである可能性を示すスコア関数のパラメータを学習し、学習されたスコア関数を判定ルールとする、
    ことを特徴とするコンテンツ検出支援装置。
  3. テキスト情報を含むコンテンツ群から、予め定めた所定の基準を満たす情報を含むコンテンツ中の部分領域を抽出するコンテンツ検出支援装置であって、
    前記各コンテンツ中のテキストを所定の単位に分割し、当該分割した箇所であるパターン毎の特徴量を抽出する特徴量抽出手段と、
    前記予め定めた所定の基準を満たす情報を含むか否かが既知であるコンテンツから、コンテンツに含まれる各パターンが前記予め定めた所定の基準を満たすか否かを判断するための判定ルールを生成する判定ルール生成手段と、
    前記特徴量抽出手段により抽出された前記パターン毎の特徴量を用いて、該パターン毎に前記判定ルールを適用して、前記各パターンが前記予め定めた所定の基準を満たすか否かを判定するパターン判定手段と、
    前記コンテンツの中から、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域を抽出するパターン領域抽出手段と、を有し、
    前記特徴量抽出手段は、判定対象のパターンと、当該パターンの前後数パターンの特徴量を加えて定義した特徴ベクトルを抽出し、
    前記判定ルール生成手段は、
    前記予め定めた所定の基準を満たす情報を含むことが既知であるコンテンツ内の各パターンについて、前記予め定めた所定の基準を満たす情報であることが既知であるパターンにタグを付与し、
    当該コンテンツに含まれるパターンのうち前記タグが付与されたパターンを前記所定の基準を満たすパターンとし、
    当該コンテンツに含まれるパターンのうち前記タグが付与されていないパターンを前記所定の基準を満たすか否かが不明なパターンとし、
    前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツ内の全てのパターンを前記所定の基準を満たす情報を含まないパターンとし、
    半教師あり学習により、前記予め定めた所定の基準を満たす情報を含むことが既知であるコンテンツおよび前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツに含まれる前記各パターンが、前記予め定めた所定の基準を満たすパターンである可能性を示すスコア関数のパラメータを学習し、学習されたスコア関数を判定ルールとする、
    ことを特徴とするコンテンツ検出支援装置。
  4. 前記パターン領域抽出手段は、
    前記コンテンツ内の各部分領域毎に、当該部分領域内の全パターン数に対する、当該部分領域において前記所定の基準を満たすと判定したパターン数の割合を計算し、その割合の最も高い部分領域を、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域として抽出することを特徴とする請求項1ないし3のいずれか1項に記載のコンテンツ検出支援装置。
  5. 前記パターン領域抽出手段は、
    前記コンテンツ内の各パターンに前記スコア関数である判定ルールを適用することによりスコア値を算出し、前記コンテンツ内の各部分領域毎に、当該部分領域内の全パターンのスコア値の総和を算出し、前記スコア値の総和が最も高い部分領域を、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域として抽出することを特徴とする請求項2又は3に記載のコンテンツ検出支援装置。
  6. テキスト情報を含むコンテンツ群から、予め定めた所定の基準を満たす情報を含むコンテンツ中の部分領域を抽出するコンテンツ検出支援方法であって、
    特徴量抽出手段が、前記各コンテンツ中のテキストを所定の単位に分割し、当該分割した箇所であるパターン毎の特徴量を抽出する特徴量抽出ステップと、
    判定ルール生成手段が、前記予め定めた所定の基準を満たす情報を含むか否かが既知であるコンテンツから、コンテンツに含まれる各パターンが前記予め定めた所定の基準を満たすか否かを判断するための判定ルールを生成する判定ルール生成ステップと、
    パターン判定手段が、前記特徴量抽出手段により抽出された前記パターン毎の特徴量を用いて、該パターン毎に前記判定ルールを適用して、前記各パターンが前記予め定めた所定の基準を満たすか否かを判定するパターン判定ステップと、
    パターン領域抽出手段が、前記コンテンツの中から、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域を抽出するパターン領域抽出ステップと、を有し、
    前記特徴量抽出ステップは、判定対象のパターンと、当該パターンの前後数パターンの特徴量を加えて定義した特徴ベクトルを抽出することを特徴とするコンテンツ検出支援方法。
  7. テキスト情報を含むコンテンツ群から、予め定めた所定の基準を満たす情報を含むコンテンツ中の部分領域を抽出するコンテンツ検出支援方法であって、
    特徴量抽出手段が、前記各コンテンツ中のテキストを所定の単位に分割し、当該分割した箇所であるパターン毎の特徴量を抽出する特徴量抽出ステップと、
    判定ルール生成手段が、前記予め定めた所定の基準を満たす情報を含むか否かが既知であるコンテンツから、コンテンツに含まれる各パターンが前記予め定めた所定の基準を満たすか否かを判断するための判定ルールを生成する判定ルール生成ステップと、
    パターン判定手段が、前記特徴量抽出手段により抽出された前記パターン毎の特徴量を用いて、該パターン毎に前記判定ルールを適用して、前記各パターンが前記予め定めた所定の基準を満たすか否かを判定するパターン判定ステップと、
    パターン領域抽出手段が、前記コンテンツの中から、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域を抽出するパターン領域抽出ステップと、を有し、
    前記判定ルール生成ステップは、
    前記予め定めた所定の基準を満たす情報を含むことが既知であるコンテンツ内の各パターンについて、前記予め定めた所定の基準を満たす情報であることが既知であるパターンにタグを付与し、
    当該コンテンツに含まれるパターンのうち前記タグが付与されたパターンを前記所定の基準を満たすパターンとし、
    当該コンテンツに含まれるパターンのうち前記タグが付与されていないパターンを前記所定の基準を満たすか否かが不明なパターンとし、
    前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツ内の全てのパターンを前記所定の基準を満たす情報を含まないパターンとし、
    半教師あり学習により、前記予め定めた所定の基準を満たす情報を含むことが既知であるコンテンツおよび前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツに含まれる前記各パターンが、前記予め定めた所定の基準を満たすパターンである可能性を示すスコア関数のパラメータを学習し、学習されたスコア関数を判定ルールとする、
    ことを特徴とするコンテンツ検出支援方法。
  8. テキスト情報を含むコンテンツ群から、予め定めた所定の基準を満たす情報を含むコンテンツ中の部分領域を抽出するコンテンツ検出支援方法であって、
    特徴量抽出手段が、前記各コンテンツ中のテキストを所定の単位に分割し、当該分割した箇所であるパターン毎の特徴量を抽出する特徴量抽出ステップと、
    判定ルール生成手段が、前記予め定めた所定の基準を満たす情報を含むか否かが既知であるコンテンツから、コンテンツに含まれる各パターンが前記予め定めた所定の基準を満たすか否かを判断するための判定ルールを生成する判定ルール生成ステップと、
    パターン判定手段が、前記特徴量抽出手段により抽出された前記パターン毎の特徴量を用いて、該パターン毎に前記判定ルールを適用して、前記各パターンが前記予め定めた所定の基準を満たすか否かを判定するパターン判定ステップと、
    パターン領域抽出手段が、前記コンテンツの中から、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域を抽出するパターン領域抽出ステップと、を有し、
    前記特徴量抽出ステップは、判定対象のパターンと、当該パターンの前後数パターンの特徴量を加えて定義した特徴ベクトルを抽出し、
    前記判定ルール生成ステップは、
    前記予め定めた所定の基準を満たす情報を含むことが既知であるコンテンツ内の各パターンについて、前記予め定めた所定の基準を満たす情報であることが既知であるパターンにタグを付与し、
    当該コンテンツに含まれるパターンのうち前記タグが付与されたパターンを前記所定の基準を満たすパターンとし、
    当該コンテンツに含まれるパターンのうち前記タグが付与されていないパターンを前記所定の基準を満たすか否かが不明なパターンとし、
    前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツ内の全てのパターンを前記所定の基準を満たす情報を含まないパターンとし、
    半教師あり学習により、前記予め定めた所定の基準を満たす情報を含むことが既知であるコンテンツおよび前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツに含まれる前記各パターンが、前記予め定めた所定の基準を満たすパターンである可能性を示すスコア関数のパラメータを学習し、学習されたスコア関数を判定ルールとする、
    ことを特徴とするコンテンツ検出支援方法。
  9. 前記パターン領域抽出ステップは、
    前記コンテンツ内の各部分領域毎に、当該部分領域内の全パターン数に対する、当該部分領域において前記所定の基準を満たすと判定したパターン数の割合を計算し、その割合の最も高い部分領域を、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域として抽出することを特徴とする請求項6ないし8のいずれか1項に記載のコンテンツ検出支援方法。
  10. 前記パターン領域抽出ステップは、
    前記コンテンツ内の各パターンに前記スコア関数である判定ルールを適用することによりスコア値を算出し、前記コンテンツ内の各部分領域毎に、当該部分領域内の全パターンのスコア値の総和を算出し、前記スコア値の総和が最も高い部分領域を、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域として抽出することを特徴とする請求項7又は8に記載のコンテンツ検出支援方法。
  11. コンピュータを請求項1ないし5のいずれか1項に記載の各手段として機能させるコンテンツ検出支援プログラム。
JP2009183305A 2009-08-06 2009-08-06 コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム Expired - Fee Related JP5462546B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009183305A JP5462546B2 (ja) 2009-08-06 2009-08-06 コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009183305A JP5462546B2 (ja) 2009-08-06 2009-08-06 コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム

Publications (2)

Publication Number Publication Date
JP2011039575A JP2011039575A (ja) 2011-02-24
JP5462546B2 true JP5462546B2 (ja) 2014-04-02

Family

ID=43767313

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009183305A Expired - Fee Related JP5462546B2 (ja) 2009-08-06 2009-08-06 コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム

Country Status (1)

Country Link
JP (1) JP5462546B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6301119B2 (ja) * 2013-11-28 2018-03-28 国立大学法人北見工業大学 インターネット上の有害書き込み検出装置及び検出方法
JP6522446B2 (ja) * 2014-12-26 2019-05-29 Kddi株式会社 ラベル付与装置、方法およびプログラム
US11164043B2 (en) 2016-04-28 2021-11-02 Nippon Telegraph And Telephone Corporation Creating device, creating program, and creating method
JP7260439B2 (ja) * 2019-08-19 2023-04-18 ヤフー株式会社 抽出装置、抽出方法及び抽出プログラム
JP7179033B2 (ja) * 2020-02-28 2022-11-28 ヤフー株式会社 コンテンツ選択装置、コンテンツ選択方法、およびプログラム
JP7133674B1 (ja) * 2021-03-18 2022-09-08 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4704413B2 (ja) * 2007-03-05 2011-06-15 ヤフー株式会社 送信内容監視装置
JP2009110485A (ja) * 2007-11-01 2009-05-21 Konica Minolta Medical & Graphic Inc 情報処理システム、及びプログラム

Also Published As

Publication number Publication date
JP2011039575A (ja) 2011-02-24

Similar Documents

Publication Publication Date Title
Barbosa et al. Evaluating hotels rating prediction based on sentiment analysis services
Nair et al. SentiMa-sentiment extraction for Malayalam
JP5462546B2 (ja) コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム
Hamdi et al. Assessing and minimizing the impact of OCR quality on named entity recognition
JPWO2019224891A1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
JP6070501B2 (ja) 情報処理装置及び情報処理プログラム
Suchdev et al. Twitter sentiment analysis using machine learning and knowledge-based approach
Almuqren et al. Framework for sentiment analysis of Arabic text
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
Ara et al. Understanding customer sentiment: Lexical analysis of restaurant reviews
Sattikar et al. Natural language processing for content analysis in social networking
Görgün et al. A novel approach to morphological disambiguation for turkish
CN107545505A (zh) 保险理财产品信息的识别方法及系统
CN113761377B (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
CN110610003A (zh) 用于辅助文本标注的方法和系统
CN117351336A (zh) 图像审核方法和相关设备
CN112183093A (zh) 一种企业舆情分析方法、装置、设备及可读存储介质
JP2011039576A (ja) 特定情報検出装置、特定情報検出方法および特定情報検出プログラム
CN111753540B (zh) 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统
JP6026036B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
Pertsas et al. Ontology-driven information extraction from research publications
Tufchi et al. FakeRealIndian Dataset: A Benchmark Indian Context Dataset
Ouertatani et al. Parsing argued opinion structure in Twitter content
Kumar et al. Enterprise analysis through opinion mining
St Chifu et al. Web harvesting and sentiment analysis of consumer feedback

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130528

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140117

R150 Certificate of patent or registration of utility model

Ref document number: 5462546

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees