JP2011039576A - 特定情報検出装置、特定情報検出方法および特定情報検出プログラム - Google Patents
特定情報検出装置、特定情報検出方法および特定情報検出プログラム Download PDFInfo
- Publication number
- JP2011039576A JP2011039576A JP2009183306A JP2009183306A JP2011039576A JP 2011039576 A JP2011039576 A JP 2011039576A JP 2009183306 A JP2009183306 A JP 2009183306A JP 2009183306 A JP2009183306 A JP 2009183306A JP 2011039576 A JP2011039576 A JP 2011039576A
- Authority
- JP
- Japan
- Prior art keywords
- specific information
- information estimation
- estimation model
- morpheme
- semantic class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】特定情報を精度良く検出することができ、新語や伏せ字、隠語などに対処するための負担を減らすことができる特定情報検出装置を提供する。
【解決手段】テキストに含まれる形態素に予め正解の意味クラスが付与された訓練データ23(タグ付きデータ)とテキストに含まれる形態素に予め正解の意味クラスが付与されていない訓練データ23(タグなしデータ)とから、各形態素に依存しない共通の複数個の意味クラスについて、前記各形態素が前記各意味クラスに分類される確率を示す値を対応付けた特定情報推定モデル22を構築する特定情報推定モデル構築部12と、入力データXから形態素単位での特徴量を抽出し、前記構築された特定情報推定モデル22を参照して、前記ある特定の意味に対応する前記意味クラスに分類される確率の高い形態素を含むコンテンツを検出する特定情報推定部11と、を備える。
【選択図】図1
【解決手段】テキストに含まれる形態素に予め正解の意味クラスが付与された訓練データ23(タグ付きデータ)とテキストに含まれる形態素に予め正解の意味クラスが付与されていない訓練データ23(タグなしデータ)とから、各形態素に依存しない共通の複数個の意味クラスについて、前記各形態素が前記各意味クラスに分類される確率を示す値を対応付けた特定情報推定モデル22を構築する特定情報推定モデル構築部12と、入力データXから形態素単位での特徴量を抽出し、前記構築された特定情報推定モデル22を参照して、前記ある特定の意味に対応する前記意味クラスに分類される確率の高い形態素を含むコンテンツを検出する特定情報推定部11と、を備える。
【選択図】図1
Description
本発明は、Webや電子文書などの自然言語を含むコンテンツから、特定の意味を持つ語を含むコンテンツを検出する技術に関する。
インターネットの普及により、膨大な情報がインターネット上を流通するようになっている。しかし、そうした膨大な情報の中には、犯罪を助長するサイトや自殺を誘引するサイトなど、違法有害情報も含まれており、こうした情報は効率的、かつ、高精度に抽出し、対応することが求められている。
また、膨大な情報の中から、目的に沿った有益な情報のみを抽出するという需要も増大している。これに伴い、ある特定の意味で用いられる語を抽出する、あるいは、語がどういった意味で利用されているかを判別する技術が求められている。
従来は、検出対象語のリスト(例えば、有害なキーワードのリストなど)を予め与え、字面一致で対象語と一致するキーワードを含むWebページを検出し、ブラウザに表示させないようにする技術が知られている(特許文献1)。
また、検出対象語が複数の語義を持つ場合には、文脈によって有害な意味で用いられている場合と、そうでない場合がある。そこで、検索対象の文脈において、その検出対象語がどの意味で用いられているかを特定する語義曖昧性解消技術(WSD)が知られている。
語義曖昧性解消技術では、まずテキストの形態素解析を行い、単語(形態素)単位で語義を推定する。また、推定する語義は、予め辞書に定義された語義の中から選択する手法が一般的であり、語義がタグ付けされた学習用のテキストデータから機械学習の手法を用いて、正解の語義を推定(分類)するためのモデルを構築する(非特許文献1)。
尚、本発明で利用する技術は、特許文献2および非特許文献2〜11に記載されている。
村田 真樹、内山 将夫、内元 清貴、馬 青、井佐原 均、「SENSEVAL2J辞書タスクでのCRLの取り組み− 日本語単語多義性解消における種々の機械学習手法と素性の比較」、自然言語処理学会論文誌、Apr.2003、Vol.10、 No.3、pp.115−134
「ChaSen−形態素解析器」 インターネット<URL:http://chasen−legacy.sourceforge.jp/>.[平成21年7月30日検索]
「日本語形態素解析システム JUMAN」 インターネット<URL:http://nlp.kuee.kyoto−u.ac.jp/nl−resource/juman.html>.[平成21年7月30日検索]
「日本語構文解析システム KNP」 インターネット<URL:http://nlp.kuee.kyoto−u.ac.jp/nl−resource/knp.html>.[平成21年7月30日検索]
「CaboCha/南瓜」 インターネット<URL:http://chasen.org/〜taku/software/cabocha/>.[平成21年7月30日検索]
Hirotoshi Taira, Sanae Fujita, Masaaki Nagata,"A Japanese Predicate Argument Structure Analysis using Decision Lists",in Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing(EMNLP−2008), Honolulu, Hawaii, pp.522−531
「YamCha」 インターネット<URL:http://chasen.org/〜taku/software/yamcha/>.[平成21年7月30日検索]
Chikara Hashimoto, Sadao Kurohashi,"Construction of domain dictionary for fundamental vocabulary",in ACL−2007 Demo and Poster Sessions, pp.137−140
Jun Suzuki,Erik McDamott, Hideki Isozaki,"Training conditional random fields with multivariage evaluation mesures", in Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics,2006,Sydney, Australia,pp.217−224
Robert Malouf,"A Comparison of Algorithms for Maximum Entropy Parameter Estimation", in Proceedings of the 6th Conference on Computational Natural Language Learning: CoNLL−2002, Taipei, Taiwan
Vladimir Naumovich Vapnik,"Statistical Larning Theory (Adaptive and Learning Systems for Signal Processing, Communications, and Control)", John Wiley & Sons(1998).
特許文献1のような字面一致で対象語を含むデータを抽出する方法では、検出対象語が複数の語義(有害な語義と無害な語義)を持つ場合に、有害でない語義で使われているデータも検出してしまう問題がある。そのため、有害情報を精度良く判別するためには、字面一致で検出された全てのデータについて、人手で有害か無害かを確認する必要があるが、この場合確認対象のデータの数が膨大になり、負担が大きい。
また、字面一致で検出するためには、予め検出対象語のリストを用意しておく必要があるが、インターネット上で日々新たに生み出されている新語や伏せ字、隠語などを全て予め準備し、日々更新していくことは困難である。
非特許文献1のような従来の語義曖昧性解消技術を用いた場合は、文脈に応じて抽出対象語の語義を特定することができるので、有害な語義で用いられているデータが誤検出される割合を減らすことができる。しかし、新語や伏せ字、隠語の語義を推定するためには、予め辞書にこれらの語を登録しておく必要があり、新たに出てくる語に対応するための辞書のメンテナンスの負担が大きい。また、語義を正しく推定するためのモデルを構築するためには、各語について訓練データが必要であり、訓練データ構築のための時間とコストがかかる。
本発明は上記課題を解決するものであり、その目的は、特定情報を精度良く検出することができ、新語や伏せ字、隠語などに対処するための負担を減らすことができる特定情報検出装置、方法、プログラムを提供することにある。
上記課題を解決するための本発明の請求項1に記載の特定情報検出装置は、入力データである自然言語を含むコンテンツから、ある特定の意味を含むコンテンツを検出する特定情報検出装置であって、各形態素に依存しない共通の複数個の意味クラスについて、前記各形態素が前記各意味クラスに分類される確率を示す値を対応付けた特定情報推定モデルを構築する特定情報推定モデル構築手段と、前記入力データから形態素単位での特徴量を抽出し、前記構築された特定情報推定モデルを参照して、前記ある特定の意味に対応する前記意味クラスに分類される確率の高い形態素を含むコンテンツを検出する特定情報推定手段と、を有することを特徴としている。
本発明の特定情報推定モデルは、従来の語義曖昧性解消技術で用いるようなある語に対する複数の語義全てを定義するのではなく、特定の語の意味に依存しない高々数個程度のクラス(例えば有害な意味を示すクラスと無害な意味を示すクラス等)へ分類する。従来の手法では、形態素毎に、語義に対応するクラスを設定する必要があるため、新語や伏せ字、隠語が増える毎に、分類先のクラスを追加する必要があるが、本発明の手法によれば、新語や伏せ字、隠語であっても、分類先のクラスを追加する必要がなく、同じ数個のクラスに分類するモデルとして統一的に扱うことができる。つまり、新語や伏せ字、隠語などに対処するための負担を減らすことができる。
また、本発明の特定情報検出装置(方法)によれば、検出対象のテキストの文脈において対象語が特定の意味を持つかを判別し、検出したい意味クラスに属する(例えば有害な意味を示すクラスに属する)と判定されたもののみを抽出することができるので、字面一致の抽出手法よりも高精度で情報を抽出することができる。また、抽出された確認結果を人手で確認する場合も、確認対象のデータ数を字面一致の抽出方法と比較して減らすことができる。
さらに、画像や映像に自然言語による説明文やコメントなどが付加されたコンテンツに対しても、自然言語の情報に対して本発明の手法を適用することにより、そのコンテンツが特定の意味を持つか否かを精度良く判定することができる。
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。以下の説明では、有害情報の検出を行う場合を例として説明を行うが、本発明は有害情報の検出に限定されるものではなく、検出したい意味に応じたクラスを設定することにより、様々な特定の意味をもつ語を含むコンテンツの検出に使用することができる。
<第1の実施形態>
図1は、本実施形態の特定情報検出装置の構成を示すブロック図である。特定情報検出装置10は、サーバーやパーソナルコンピュータなどの情報処理装置からなり、自然言語データを含むコンテンツである入力データXに含まれる各文字や語、記号、それらからなる部分に対し、特定の意味を持つ(例えば有害な意味を持つ)か否かの判定を行い、出力データYとして出力する機能を有している。 なお、入力データは、自然言語を含むものであればなんでも良く、静止画像や動画像に自然言語で書かれた説明文やコメントが付加されたコンテンツなどについても、自然言語で書かれた情報から特定の意味を持つか否かの判定を行い、特定の意味を持つコンテンツを検出することができる。
図1は、本実施形態の特定情報検出装置の構成を示すブロック図である。特定情報検出装置10は、サーバーやパーソナルコンピュータなどの情報処理装置からなり、自然言語データを含むコンテンツである入力データXに含まれる各文字や語、記号、それらからなる部分に対し、特定の意味を持つ(例えば有害な意味を持つ)か否かの判定を行い、出力データYとして出力する機能を有している。 なお、入力データは、自然言語を含むものであればなんでも良く、静止画像や動画像に自然言語で書かれた説明文やコメントが付加されたコンテンツなどについても、自然言語で書かれた情報から特定の意味を持つか否かの判定を行い、特定の意味を持つコンテンツを検出することができる。
特定情報検出装置10には、主な機能部として、処理部1、記憶部2、が設けられている。処理部1は、CPUなどのマイクロプロセッサとその周辺回路からなり、記憶部2に格納されているプログラム21を読み出して実行することにより、上記ハードウェアとプログラム21とを協働させて各種処理部を実現する。処理部1で実現されるものとしては、特定情報推定手段としての特定情報推定部11、特定情報推定モデル構築手段としての特定情報推定モデル構築部12がある。
記憶部2は、ハードディスクやメモリなどの記憶装置からなり、処理部1で実行するプログラム21や特定情報の検出に用いる各種処理情報を記憶する。プログラム21は、例えば、入出力I/F部3を介して記録媒体から読み込まれ(プログラムM)、あるいは、通信I/F部4を介して外部装置(図示せず)から読み込まれてもよい。記憶部2に記憶する主な情報としては、特定情報推定モデル22(特定情報推定モデルデータベース内の特定情報推定モデル)と訓練データ23(訓練データデータベース内の訓練データ)がある。
入出力I/F部3は、専用のデータ入出力回路からなり、CDやDVD、さらには不揮発性メモリカードなどの記録媒体との間で、処理部1からの指示に応じて、入力データX、出力データY、辞書、データベースなどの各種データやプログラムを入出力する機能を有している。
通信I/F部4は、専用のデータ入出力回路からなり、LANなどの通信回線を介して接続されたサーバーなどの外部装置との間で、処理部1からの指示に応じて、入力データX、出力データY、辞書、データベースなどの各種データやプログラムを入出力する機能を有している。
操作入力部5は、キーボードやマウスなどの操作入力装置からなり、オペレーターの操作を検出して処理部1へ出力する機能を有している。
画面表示部6は、LCDやPDPなどの画面表示装置からなり、処理部1からの指示に応じて入力データXや出力データYなどの各種データや操作画面を画面表示する機能を有している。
図2は、本発明の第1の実施形態に係る、特定情報検出装置10の要部のみを示すブロック図であり、図1と同一部分は同一符号をもって示している。
第1の実施形態における特定情報推定モデル22は、形態素毎に、例えば、有害情報を含むコンテンツの検出を行いたい場合には、有害な情報を示すかそれ以外であるかの2つのクラスの重みを格納した(各クラスに分類される確率を示す値を対応付けた)データベースを構築する。
従来の語義曖昧性解消技術における語義推定モデルでは、形態素毎に、その語が有する語義の数だけクラスが存在するようなモデルを構築するが、本発明では、どの形態素についても、共通の2クラスに分類をするのが特徴である。なお、クラスの数は2つに限定する必要はなく、語に依存せず共通して使える意味クラスであれば、その目的に応じて複数種類のクラスを設定することができる。有害情報以外の情報を検出する場合には、検出したい語の意味に応じたクラスを複数種類設定すればよい。
訓練データ23は、特定情報推定モデル構築部12で特定情報推定モデル22を作成するために利用する訓練データであり、少数の予めラベル(その文脈における正しいクラス)が付与されたデータ(すなわち、図示タグ付きデータ)と、インターネットなどから収集したラベルが付与されていない大量の生のデータ(すなわち、図示タグなしデータ)からなる。
特定情報推定モデル構築部12は、訓練データ23を参照して、半教師あり学習などの手法を用いて、特定情報推定モデル22を構築する。半教師あり学習では、特定情報推定モデル22を構築するために必要なタグ付きデータの数が比較的少数で良いため、少ないコストで特定情報推定モデル22を構築することができ、多くの語や分野に比較的容易に対応することができる。具体的な処理としては、特許文献2のような処理を利用することができる。
処理部1の特定情報推定部11は、自然言語を含む入力データXを受け取り、文字や語、記号やそれらの塊などのモデル構築単位に対して特徴量(特徴情報)を抽出し、特定情報推定モデル22を参照して各クラスに分類した場合の評価値を算出し、各クラスに分類する機能を有している。なお、各クラスに分類せず、各クラスに分類される確率の高い順にスコアを付与したり、分類される可能性の高い順に各クラスの順位付けを行う処理としてもよい。
次に、図2と具体例を用いて、本発明の一実施の形態にかかる特定情報検出装置10の動作について具体的に説明する。本説明では対象自然言語を日本語とするが、英語、中国語、スペイン語、ドイツ語、フランス語などの他言語の場合にも適用することができる。
また、本実施形態では、違法・有害情報を検出する場合を例として、特定情報推定モデル22のクラスを有害な情報を表すクラスとそれ以外を表すクラスとしているが、有害・それ以外に限定されるものではなく、特定の意味を持つ情報か否かの検出(判別)に利用することができる。
また、入力データXは自然言語を含む情報であれば、自然言語のみから構成されている必要はなく、例えば、静止画像や動画像に自然言語データが付与されている場合などにも利用できる。
特定情報検出装置10は、自然言語によるデータを含む入力データXを受け取り、特定情報推定部11において、対象文字あるいは形態素と、各対象文字あるいは形態素とその組合わせに関する特徴量(素性)を抽出し、特定情報推定モデル22を参照して対象文字あるいは形態素のクラスを判定する。
ここで、図3は、入力データXのイメージ図である。例えば、図3は掲示板の投稿や段落単位といった塊のテキストデータであり、Cn(n=1,2,3,・・・)は、本実施形態においては形態素解析後の各形態素に対応するものとする。図3では分かりやすいように文毎に改行されているように図示しているが、必ずしも改行は必要ではない。また、文毎の区切りが明確でなくてもよい。
特定情報推定部11では、各Cnに対し、特定情報推定モデル22を参照して各Cnが有害な意味を持つか否かの判定を行う。なお、この判定処理には、特定情報推定モデル22の情報に加えて、入力データXに含まれる文章以外の情報、例えば、投稿先・掲載先がどこであるか、投稿・掲載時刻(例えば0:00−2:00, 早朝, 12:00−13:00, 15時台など)、投稿先のドメイン名や、リンク先の情報(リンク先がないという情報も含む)を利用してもよい。
また、入力データXに含まれる自然言語に対し、公知の形態素解析(茶筌(非特許文献2)、JUMAN(非特許文献3))や、係りうけ解析(KNP(非特許文献4)、Cabocha(非特許文献5))、項構造解析(非特許文献6)、単語を句にまとめる機能を持つ公知のチャンカー(YamCha(非特許文献7))や文章のドメインを判定するドメイン付与ツール(非特許文献8)、固有名詞表現抽出(非特許文献9)などの言語解析を行い、その結果として得られる情報を素性として追加してもよい。
例えば、形態素解析を利用する場合は、各単語の品詞や、前後に出現する単語およびその品詞などの情報を素性として追加することができる。例えば、{一緒に死ぬ人募集します}という例文を形態素解析すると、{一緒[名詞],に[助詞],死ぬ[動詞],人[名詞],募集[名詞],し[動詞/基本形する],ます[助動詞]}となる。同一文内に出現する内容語である{一緒[名詞],死ぬ[動詞],人[名詞],募集[名詞]}が素性に追加できる。また、これらの単語のngramの情報を付加してもよい。
上述のように獲得した素性を用いて、特定情報推定モデル22によって、各対象文字、あるいは、語が分類される確率(スコア)の高い意味クラスを推定し、この意味クラスの情報を付与して出力データYとして出力する。
図4は出力データYのイメージ図である。図4では、特定の情報の部分、例えば有害な情報を表すクラスと判定された部分を枠で囲んで表示している。
また、出力データYをラベルが付与された訓練データとして訓練データ23に追加して、特定情報推定モデル構築部12を実行させることにより、ラベル付きデータの数を増やして再度学習することにより、特定情報推定モデル22の精度を高めることもできる。ラベル付きデータとして追加する際には、人がラベルが正しいかどうかを確認して、正しいものだけを追加するような人手でフィードバックを行う形としても良い。
前記訓練データが十分多く集まった場合には、特定情報推定モデル構築部12において、半教師あり学習の代わりに、Maximum entropy(ME)(非特許文献10),Support Vector Machine(SVM)(非特許文献11)などの機械学習手法を用いることもできる。
また、複数種類の特定情報推定モデル22を構築して記憶部2に格納しておき、各特定情報推定モデルを用いてクラスを推定した結果の中から、より確からしい結果を利用してもよい。
訓練データ23には、分類情報や有害度合いのような情報を同時に付与しておき、検出したい分類や有害度合いに応じて特定情報推定モデル22を構築しても良い。
<第2の実施形態>
第2の実施形態は、特定情報検出装置10の構成は第1の実施形態(図1、図2)と同じであるが、特定情報推定モデル22が形態素単位ではなく文字単位に各クラスの重みを格納したデータベースであり、特定情報推定部11において、入力データXの文字毎にクラスを推定する点が異なる。
第2の実施形態は、特定情報検出装置10の構成は第1の実施形態(図1、図2)と同じであるが、特定情報推定モデル22が形態素単位ではなく文字単位に各クラスの重みを格納したデータベースであり、特定情報推定部11において、入力データXの文字毎にクラスを推定する点が異なる。
形態素単位でモデルを構築するためには、数十万単位の語について、それぞれ訓練データが必要であり、非常に膨大な数の訓練データが必要である。また、形態素解析の誤りの影響を受けて、正しく特定情報を推定できなくなるという問題がある。特に、検索対象がブログやSNS(Social Network Service)などのCGM(Consumer Generated Media)の場合は、新聞のような文語体とは異なり、かなりくだけた口語体の文章が多いため、形態素解析の誤りも多くなってしまうため、特定情報推定の精度が低下するという問題がある。
これに対し、第2の実施形態例では、形態素ではなく文字毎に、例えば、有害な情報であるかそれ以外であるかの2つのクラスの重みを格納したデータベースを構築する。従来の語義曖昧性解消技術における語義推定モデルでは、形態素毎に、その語が有する語義の数だけクラスが存在するようなモデルを構築するが、本実施形態では、文字毎に、かつ、文字に依存することなく共通の2クラスに分類をする点が特徴である。なお、クラスの数は2つに限定する必要はなく、文字に依存せず共通して使える複数種類のクラスを設定しても良い。
この構成により、形態素単位で特定情報推定モデル22を作成する場合と比較して、対象とする語が高々漢字コードの数(約2万7千種類)程度で良いため、モデルの構築に必要な訓練データの数が少なくて済み、モデルの構築も容易に行うことができ、実用性が高いという利点がある。
図1の訓練データ23は、特定情報推定モデル構築部12で特定情報推定モデル22を作成するために利用する訓練データであり、少数の予めラベル(その文脈における正しいクラス)が付与されたデータ(図示タグ付きデータ)と、インターネットなどから収集したラベルが付与されていない大量の生のデータ(図示タグなしデータ)からなる。第1の実施形態では形態素毎に訓練データが必要であるが、第2の実施形態では、文字毎に訓練データを用意する点が異なる。
特定情報推定モデル構築部12の処理は第1の実施形態と同じである。
特定情報検出装置10は、第1の実施形態と同様に、自然言語によるデータを含む入力データXを受け取り、特定情報推定部11において、対象文字あるいは形態素と、各対象文字あるいは形態素とその組合わせに関する特徴量(素性)を抽出し、特定情報推定モデル22を参照して対象文字あるいは形態素のクラスを判定する。
ここで、図3は、入力データXのイメージ図である。例えば、図3は掲示板の投稿や段落単位といった塊のテキストデータであり、Cn(n=1,2,3,・・・)は、本実施形態においては各文字に対応するものとする。図3では分かりやすいように文毎に改行されているように図示しているが、必ずしも改行は必要ではない。また、文毎の区切りが明確でなくてもよい。
例えば、入力データXが{一緒に死ぬ人募集します}という文章である場合、対象語は、文字毎に分割した{一,緒,に,死,ぬ,人,募,集,し,ま,す}となる。
特徴量(素性)としては、該当文字自身、および、前後の文字ngram(unigram,bigram等)や同一文中に含まれる語や同一文字種(文字、数字、漢字、記号、句読点、平仮名、カタカナ、顔文字など)の情報、あるいは連続した同一文字種をひと塊としたものなどが利用できる。
例えば、「死」を対象文字とすると、文字unigramは前後それぞれ{に}{ぬ}であり、文字bigramは{緒に}{ぬ人}である。また、同一文内の漢字を一文字ずつ素性として切り出した場合は、{一,緒,死,人,募,集}であり、連続した漢字をひと塊とすれば{一,緒,死,人,募集}を素性として利用できる。さらに、対象言語に大文字や小文字の区別が存在する場合には、大文字や小文字の区別も素性として利用できる。
また、対象文字Cnとして、同一文字種が連続しているものをひと塊として文字と扱ってもよい。例えば、入力データXが{一緒にタヒぬ人募集します}(タヒ=「死」のネット用語)という文章である場合に、半角カタカナが連続しているものをひと塊で扱うとすれば、{一,緒,に,タヒ,ぬ,人,募,集,し,ま,す}となる。
特定情報推定部11では、各Cnに対し、特定情報推定モデル22を参照して各Cnが有害な意味を持つか否かの判定を行う。なお、この判定処理には、第1の実施形態と同様に特定情報推定モデル22の情報に加えて、入力データXに含まれる文章以外の情報、例えば、投稿先・掲載先がどこであるか、投稿・掲載時刻、投稿先のドメイン名や、リンク先の情報等を利用してもよいし、形態素解析の結果として得られる各単語の品詞や、前後に出現する単語およびその品詞などの情報を素性として追加してもよい。
上述のように獲得した素性を用いて、特定情報推定モデル22によって、各対象文字、あるいは、語が分類される確率(スコア)の高い意味クラスを推定し、この意味クラスの情報を付与して出力データYとして出力する。
また、第1の実施形態と同様に、出力データYをラベルが付与された訓練データとして訓練データ23に追加して、特定情報推定モデル構築部12を実行させることにより、ラベル付きデータの数を増やして再度学習することにより、特定情報推定モデル22の精度を高めることもできる。ラベル付きデータとして追加する際には、人がラベルが正しいかどうかを確認して、正しいものだけを追加するような人手でフィードバックを行う形としても良い。
前記訓練データが十分多く集まった場合には、特定情報推定モデル構築部12において、半教師あり学習の代わりに、Maximum entropy(ME)(非特許文献10),Support Vector Machine(SVM)(非特許文献11)などの機械学習手法を用いることもできる。
また、複数種類の特定情報推定モデル22を構築して記憶部2に格納しておき、各特定情報推定モデルを用いてクラスを推定した結果の中から、より確からしい結果を利用してもよい。
訓練データ23には、分類情報や有害度合いのような情報を同時に付与しておき、検出したい分類や有害度合いに応じて特定情報推定モデル22を構築しても良い。
<第3の実施形態>
第3の実施形態は、第1または第2の実施形態で説明した特定情報検出装置10の特定情報推定部11を用いて有害と検出された新たな語を、図5に示すように対象語リスト24(対象語リストデータベース内の対象語リスト)に追加する構成である。この装置により自動的に獲得した対象語リスト24を字面一致の有害情報検出などに用いることで、有害情報検出の精度を上げることができると共に、新語や伏せ字、隠語などに迅速に対応することができる。
第3の実施形態は、第1または第2の実施形態で説明した特定情報検出装置10の特定情報推定部11を用いて有害と検出された新たな語を、図5に示すように対象語リスト24(対象語リストデータベース内の対象語リスト)に追加する構成である。この装置により自動的に獲得した対象語リスト24を字面一致の有害情報検出などに用いることで、有害情報検出の精度を上げることができると共に、新語や伏せ字、隠語などに迅速に対応することができる。
尚図5は、対象語リスト24と、図1の特定情報検出装置10の要部のみを図示しており、図1と同一部分は同一符号をもって示している。
例えば、第2の実施形態で説明した{一緒にタヒぬ人募集します}を入力データXとした場合、「タヒ」が特定情報推定モデル22に登録されていなかった場合でも、有害情報であることが判定でき、新たに対象語リスト24に登録することができる。
対象語リスト24は、例えば、有害情報として検出したいキーワードのリストである。ここで、図6のように対象語(図6では「NGワード」と記載)の他に、その対象語の有害度合い(図6では「NG度」と記載)や分類(誹謗・中傷など)の情報を付与していてもよい。
尚図5において、特定情報推定部11で有害情報であると検出された語を対象語リスト24に追加する前に、人がその情報が正しいかどうかを確認し、有害であると判断したもののみを追加する形としてもよい。
<その他の変形例>
特定情報推定部11において、各クラスの重み(確率)の差が小さく、検出結果の確信度が低い場合には、図7に示すように、人手で判断させるために該当する入力データXを人手判断部13の表示部(図1の画面表示部6)に表示させてもよい。確信度は、例えば対象語が当該クラスに属すると判定されたときのスコアとし、予め定めた閾値よりもスコアが低い場合に表示部に表示させても良い。
特定情報推定部11において、各クラスの重み(確率)の差が小さく、検出結果の確信度が低い場合には、図7に示すように、人手で判断させるために該当する入力データXを人手判断部13の表示部(図1の画面表示部6)に表示させてもよい。確信度は、例えば対象語が当該クラスに属すると判定されたときのスコアとし、予め定めた閾値よりもスコアが低い場合に表示部に表示させても良い。
尚、人手判断部13は、図1の画面表示部6に表示させた情報が有害であるか無害であるかを人が判断する判断部を指している。また図7は図1の特定情報検出装置10の要部を図示しており、図1と同一部分は同一符号をもって示している。
また、図8に示すように、本発明の特定情報検出装置10により有害情報であると検出された文字あるいは形態素を含むテキストデータを、本当に有害情報を含むか否かを人手で判断するデータとして選択する(フィルタリングする)フィルタリング部14をさらに設け、フィルタリング部14から受信(または表示)されたテキストデータについて、人手判断部13において人手で有害であるか否かの判定を行っても良い。また、この人手で判断した判断結果とテキストデータの組を訓練データ23として、特定情報推定モデル22を再構築してもよい。尚図8は、図1の特定情報検出装置10の要部を図示しており、図1と同一部分は同一符号をもって示している。
また、本発明の特定情報検出方法の実施形態例は、例えば図1、図2、図5、図7、図8で述べた特定情報検出装置10の各部が行なう処理を実行するものである。
すなわち、特定情報推定モデル構築部12が実行する特定情報推定モデル構築ステップは、各形態素又は各文字に依存しない共通の複数個の意味クラスについて、前記各形態素又は各文字が前記各意味クラスに分類される確率を示す値を対応付けた特定情報推定モデル22を構築する。
特定情報推定部11が実行する特定情報推定ステップは、入力データXから形態素単位又は文字単位での特徴量を抽出し、前記構築された特定情報推定モデル22を参照して、前記ある特定の意味に対応する前記意味クラスに分類される確率の高い形態素あるいは文字または文字の塊を含むコンテンツを検出する。
また、前記特定情報推定モデル構築ステップは、図2で述べたように、テキストに含まれる形態素又は文字に予め正解の意味クラスが付与された訓練データ(訓練データ23のタグ付きデータ)とテキストに含まれる形態素又は文字に予め正解の意味クラスが付与されていない訓練データ(訓練データ23のタグなしデータ)とから、前記特定情報推定モデル22を学習する。
また、図5で述べたように、前記特定情報推定ステップで検出された新たな語を、処理部1が対象語リスト24に追加する処理を行う。
また、図7で述べたように、前記特定情報推定部11の検出結果の確信度が低い場合は、処理部1が、人手で判断させるために該当する入力データXを画面表示部6に表示させる処理を行う。
また、図8で述べたように、特定情報推定部11により有害情報であると検出された語を含むテキストデータを、フィルタリング部14がフィルタリングし、人手で判断するデータとして選択する処理を行う。
また、本実施形態の特定情報検出装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の特定情報検出方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
1…処理部
2…記憶部
3…入出力I/F部
4…通信I/F部
5…操作入力部
6…画面表示部
10…特定情報検出装置
11…特定情報推定部
12…特定情報推定モデル構築部
13…人手判断部
14…フィルタリング部
21…プログラム
22…特定情報推定モデル
23…訓練データ
24…対象語リスト
2…記憶部
3…入出力I/F部
4…通信I/F部
5…操作入力部
6…画面表示部
10…特定情報検出装置
11…特定情報推定部
12…特定情報推定モデル構築部
13…人手判断部
14…フィルタリング部
21…プログラム
22…特定情報推定モデル
23…訓練データ
24…対象語リスト
Claims (9)
- 入力データである自然言語を含むコンテンツから、ある特定の意味を含むコンテンツを検出する特定情報検出装置であって、
各形態素に依存しない共通の複数個の意味クラスについて、前記各形態素が前記各意味クラスに分類される確率を示す値を対応付けた特定情報推定モデルを構築する特定情報推定モデル構築手段と、
前記入力データから形態素単位での特徴量を抽出し、前記構築された特定情報推定モデルを参照して、前記ある特定の意味に対応する前記意味クラスに分類される確率の高い形態素を含むコンテンツを検出する特定情報推定手段と、
を有することを特徴とする特定情報検出装置。 - 入力データである自然言語を含むコンテンツから、ある特定の意味を含むコンテンツを検出する特定情報検出装置であって、
各文字に依存しない共通の複数個の意味クラスについて、前記各文字が前記各意味クラスに分類される確率を示す値を対応付けた特定情報推定モデルを構築する特定情報推定モデル構築手段と、
前記入力データから文字単位での特徴量を抽出し、前記構築された特定情報推定モデルを参照して、前記ある特定の意味に対応する前記意味クラスに分類される確率の高い文字または文字の塊を含むコンテンツを検出する特定情報推定手段と、
を有することを特徴とする特定情報検出装置。 - 前記特定情報推定モデル構築手段は、テキストに含まれる形態素に予め正解の意味クラスが付与された訓練データとテキストに含まれる形態素に予め正解の意味クラスが付与されていない訓練データとから、前記特定情報推定モデルを学習することを特徴とする請求項1に記載の特定情報検出装置。
- 前記特定情報推定モデル構築手段は、テキストに含まれる文字に予め正解の意味クラスが付与された訓練データとテキストに含まれる文字に予め正解の意味クラスが付与されていない訓練データとから、前記特定情報推定モデルを学習することを特徴とする請求項2に記載の特定情報検出装置。
- 入力データである自然言語を含むコンテンツから、ある特定の意味を含むコンテンツを検出する特定情報検出方法であって、
特定情報推定モデル構築手段が、各形態素に依存しない共通の複数個の意味クラスについて、前記各形態素が前記各意味クラスに分類される確率を示す値を対応付けた特定情報推定モデルを構築する特定情報推定モデル構築ステップと、
特定情報推定手段が、前記入力データから形態素単位での特徴量を抽出し、前記構築された特定情報推定モデルを参照して、前記ある特定の意味に対応する前記意味クラスに分類される確率の高い形態素を含むコンテンツを検出する特定情報推定ステップと、
を有することを特徴とする特定情報検出方法。 - 入力データである自然言語を含むコンテンツから、ある特定の意味を含むコンテンツを検出する特定情報検出方法であって、
特定情報推定モデル構築手段が、各文字に依存しない共通の複数個の意味クラスについて、前記各文字が前記各意味クラスに分類される確率を示す値を対応付けた特定情報推定モデルを構築する特定情報推定モデル構築ステップと、
特定情報推定手段が、前記入力データから文字単位での特徴量を抽出し、前記構築された特定情報推定モデルを参照して、前記ある特定の意味に対応する前記意味クラスに分類される確率の高い文字または文字の塊を含むコンテンツを検出する特定情報推定ステップと、
を有することを特徴とする特定情報検出方法。 - 前記特定情報推定モデル構築ステップは、テキストに含まれる形態素に予め正解の意味クラスが付与された訓練データとテキストに含まれる形態素に予め正解の意味クラスが付与されていない訓練データとから、前記特定情報推定モデルを学習することを特徴とする請求項5に記載の特定情報検出方法。
- 前記特定情報推定モデル構築ステップは、テキストに含まれる文字に予め正解の意味クラスが付与された訓練データとテキストに含まれる文字に予め正解の意味クラスが付与されていない訓練データとから、前記特定情報推定モデルを学習することを特徴とする請求項6に記載の特定情報検出方法。
- コンピュータを請求項1ないし4のいずれか1項に記載の各手段として機能させる特定情報検出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009183306A JP2011039576A (ja) | 2009-08-06 | 2009-08-06 | 特定情報検出装置、特定情報検出方法および特定情報検出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009183306A JP2011039576A (ja) | 2009-08-06 | 2009-08-06 | 特定情報検出装置、特定情報検出方法および特定情報検出プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011039576A true JP2011039576A (ja) | 2011-02-24 |
Family
ID=43767314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009183306A Pending JP2011039576A (ja) | 2009-08-06 | 2009-08-06 | 特定情報検出装置、特定情報検出方法および特定情報検出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011039576A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015129988A (ja) * | 2014-01-06 | 2015-07-16 | 日本電気株式会社 | データ処理装置 |
CN109255103A (zh) * | 2017-07-13 | 2019-01-22 | 云拓科技有限公司 | 撰写权利要求书的自动装置 |
WO2021250784A1 (ja) * | 2020-06-09 | 2021-12-16 | 日本電気株式会社 | 辞書生成システム、学習データ生成システム、音声認識システム、辞書生成方法およびコンピュータ可読媒体 |
JP2022144281A (ja) * | 2021-03-18 | 2022-10-03 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
JP2023511477A (ja) * | 2019-10-30 | 2023-03-20 | ソク キム,ミン | 有害コンテンツ掲示防止及び遮断装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009015866A (ja) * | 2008-09-22 | 2009-01-22 | Media Magic Co Ltd | 電子掲示板監視システムおよび電子掲示板監視プログラム |
-
2009
- 2009-08-06 JP JP2009183306A patent/JP2011039576A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009015866A (ja) * | 2008-09-22 | 2009-01-22 | Media Magic Co Ltd | 電子掲示板監視システムおよび電子掲示板監視プログラム |
Non-Patent Citations (2)
Title |
---|
CSNG200801098004; 藤田 拓也 他: '言語知識を用いないスパムメールフィルタに関する考察' 情報処理学会研究報告 2008-CSEC-43 コンピュータセキュリティ 第2008巻 第122号, 20081128, pp.25-30, 社団法人情報処理学会 * |
JPN6013025220; 藤田 拓也 他: '言語知識を用いないスパムメールフィルタに関する考察' 情報処理学会研究報告 2008-CSEC-43 コンピュータセキュリティ 第2008巻 第122号, 20081128, pp.25-30, 社団法人情報処理学会 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015129988A (ja) * | 2014-01-06 | 2015-07-16 | 日本電気株式会社 | データ処理装置 |
CN109255103A (zh) * | 2017-07-13 | 2019-01-22 | 云拓科技有限公司 | 撰写权利要求书的自动装置 |
JP2023511477A (ja) * | 2019-10-30 | 2023-03-20 | ソク キム,ミン | 有害コンテンツ掲示防止及び遮断装置 |
WO2021250784A1 (ja) * | 2020-06-09 | 2021-12-16 | 日本電気株式会社 | 辞書生成システム、学習データ生成システム、音声認識システム、辞書生成方法およびコンピュータ可読媒体 |
JP2022144281A (ja) * | 2021-03-18 | 2022-10-03 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8380492B2 (en) | System and method for text cleaning by classifying sentences using numerically represented features | |
US20120290288A1 (en) | Parsing of text using linguistic and non-linguistic list properties | |
Hussain et al. | Using linguistic knowledge to classify non-functional requirements in SRS documents | |
Wang et al. | Sentiment classification of online reviews: using sentence-based language model | |
JP2011118526A (ja) | 単語意味関係抽出装置 | |
Nair et al. | SentiMa-sentiment extraction for Malayalam | |
Albraheem et al. | Exploring the problems of sentiment analysis in informal Arabic | |
JP4911599B2 (ja) | 風評情報抽出装置及び風評情報抽出方法 | |
Jabbar et al. | An improved Urdu stemming algorithm for text mining based on multi-step hybrid approach | |
CN111881398B (zh) | 页面类型确定方法、装置和设备及计算机存储介质 | |
CN103605691A (zh) | 用于处理社交网络中发布内容的装置和方法 | |
Veena et al. | An effective way of word-level language identification for code-mixed facebook comments using word-embedding via character-embedding | |
JP5462546B2 (ja) | コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム | |
CN103605690A (zh) | 一种即时通信中识别广告消息的装置和方法 | |
Haque et al. | Opinion mining from bangla and phonetic bangla reviews using vectorization methods | |
JP5390522B2 (ja) | 表示文書を解析に向けて準備する装置 | |
JP2011039576A (ja) | 特定情報検出装置、特定情報検出方法および特定情報検出プログラム | |
CN107545505A (zh) | 保险理财产品信息的识别方法及系统 | |
Chakrawarti et al. | Machine translation model for effective translation of Hindi poetries into English | |
Mishra et al. | Memotion 3: Dataset on sentiment and emotion analysis of codemixed hindi-english memes | |
Xu et al. | Using SVM to extract acronyms from text | |
JP2006309347A (ja) | 対象文書からキーワードを抽出する方法、システムおよびプログラム | |
US8666987B2 (en) | Apparatus and method for processing documents to extract expressions and descriptions | |
Sweidan et al. | Autoregressive Feature Extraction with Topic Modeling for Aspect-based Sentiment Analysis of Arabic as a Low-resource Language | |
Murauer et al. | DT-grams: Structured dependency grammar stylometry for cross-language authorship attribution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130528 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130726 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140121 |