JP2011039576A

JP2011039576A - 特定情報検出装置、特定情報検出方法および特定情報検出プログラム

Info

Publication number: JP2011039576A
Application number: JP2009183306A
Authority: JP
Inventors: Sanae Fujita; 早苗藤田; Akinori Fujino; 昭典藤野; Masaaki Nagata; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-08-06
Filing date: 2009-08-06
Publication date: 2011-02-24

Abstract

【課題】特定情報を精度良く検出することができ、新語や伏せ字、隠語などに対処するための負担を減らすことができる特定情報検出装置を提供する。
【解決手段】テキストに含まれる形態素に予め正解の意味クラスが付与された訓練データ２３（タグ付きデータ）とテキストに含まれる形態素に予め正解の意味クラスが付与されていない訓練データ２３（タグなしデータ）とから、各形態素に依存しない共通の複数個の意味クラスについて、前記各形態素が前記各意味クラスに分類される確率を示す値を対応付けた特定情報推定モデル２２を構築する特定情報推定モデル構築部１２と、入力データＸから形態素単位での特徴量を抽出し、前記構築された特定情報推定モデル２２を参照して、前記ある特定の意味に対応する前記意味クラスに分類される確率の高い形態素を含むコンテンツを検出する特定情報推定部１１と、を備える。
【選択図】図１

Description

本発明は、Ｗｅｂや電子文書などの自然言語を含むコンテンツから、特定の意味を持つ語を含むコンテンツを検出する技術に関する。

インターネットの普及により、膨大な情報がインターネット上を流通するようになっている。しかし、そうした膨大な情報の中には、犯罪を助長するサイトや自殺を誘引するサイトなど、違法有害情報も含まれており、こうした情報は効率的、かつ、高精度に抽出し、対応することが求められている。

また、膨大な情報の中から、目的に沿った有益な情報のみを抽出するという需要も増大している。これに伴い、ある特定の意味で用いられる語を抽出する、あるいは、語がどういった意味で利用されているかを判別する技術が求められている。

従来は、検出対象語のリスト（例えば、有害なキーワードのリストなど）を予め与え、字面一致で対象語と一致するキーワードを含むＷｅｂページを検出し、ブラウザに表示させないようにする技術が知られている（特許文献１）。

また、検出対象語が複数の語義を持つ場合には、文脈によって有害な意味で用いられている場合と、そうでない場合がある。そこで、検索対象の文脈において、その検出対象語がどの意味で用いられているかを特定する語義曖昧性解消技術（ＷＳＤ）が知られている。

語義曖昧性解消技術では、まずテキストの形態素解析を行い、単語（形態素）単位で語義を推定する。また、推定する語義は、予め辞書に定義された語義の中から選択する手法が一般的であり、語義がタグ付けされた学習用のテキストデータから機械学習の手法を用いて、正解の語義を推定（分類）するためのモデルを構築する（非特許文献１）。

尚、本発明で利用する技術は、特許文献２および非特許文献２〜１１に記載されている。

特開２００２−１４９９１号公報（ネットワーク上の情報フィルタリング装置）特開２００６−３３８２６３号公報（コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類プログラムおよびコンテンツ分類プログラムを記録した記録媒体）

村田真樹、内山将夫、内元清貴、馬青、井佐原均、「ＳＥＮＳＥＶＡＬ２Ｊ辞書タスクでのＣＲＬの取り組み− 日本語単語多義性解消における種々の機械学習手法と素性の比較」、自然言語処理学会論文誌、Ａｐｒ．２００３、Ｖｏｌ．１０、Ｎｏ．３、ｐｐ．１１５−１３４「ＣｈａＳｅｎ−形態素解析器」インターネット＜ＵＲＬ：ｈｔｔｐ：／／ｃｈａｓｅｎ−ｌｅｇａｃｙ．ｓｏｕｒｃｅｆｏｒｇｅ．ｊｐ／＞．[平成２１年７月３０日検索] 「日本語形態素解析システムＪＵＭＡＮ」インターネット＜ＵＲＬ：ｈｔｔｐ：／／ｎｌｐ．ｋｕｅｅ．ｋｙｏｔｏ−ｕ．ａｃ．ｊｐ／ｎｌ−ｒｅｓｏｕｒｃｅ／ｊｕｍａｎ．ｈｔｍｌ＞．[平成２１年７月３０日検索] 「日本語構文解析システムＫＮＰ」インターネット＜ＵＲＬ：ｈｔｔｐ：／／ｎｌｐ．ｋｕｅｅ．ｋｙｏｔｏ−ｕ．ａｃ．ｊｐ／ｎｌ−ｒｅｓｏｕｒｃｅ／ｋｎｐ．ｈｔｍｌ＞．[平成２１年７月３０日検索] 「ＣａｂｏＣｈａ／南瓜」インターネット＜ＵＲＬ：ｈｔｔｐ：／／ｃｈａｓｅｎ．ｏｒｇ／〜ｔａｋｕ／ｓｏｆｔｗａｒｅ／ｃａｂｏｃｈａ／＞．[平成２１年７月３０日検索] ＨｉｒｏｔｏｓｈｉＴａｉｒａ，ＳａｎａｅＦｕｊｉｔａ，ＭａｓａａｋｉＮａｇａｔａ，"ＡＪａｐａｎｅｓｅＰｒｅｄｉｃａｔｅＡｒｇｕｍｅｎｔＳｔｒｕｃｔｕｒｅＡｎａｌｙｓｉｓｕｓｉｎｇＤｅｃｉｓｉｏｎＬｉｓｔｓ"，ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００８ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（ＥＭＮＬＰ−２００８），Ｈｏｎｏｌｕｌｕ，Ｈａｗａｉｉ，ｐｐ．５２２−５３１「ＹａｍＣｈａ」インターネット＜ＵＲＬ：ｈｔｔｐ：／／ｃｈａｓｅｎ．ｏｒｇ／〜ｔａｋｕ／ｓｏｆｔｗａｒｅ／ｙａｍｃｈａ／＞．[平成２１年７月３０日検索] ＣｈｉｋａｒａＨａｓｈｉｍｏｔｏ，ＳａｄａｏＫｕｒｏｈａｓｈｉ，"Ｃｏｎｓｔｒｕｃｔｉｏｎｏｆｄｏｍａｉｎｄｉｃｔｉｏｎａｒｙｆｏｒｆｕｎｄａｍｅｎｔａｌｖｏｃａｂｕｌａｒｙ"，ｉｎＡＣＬ−２００７ＤｅｍｏａｎｄＰｏｓｔｅｒＳｅｓｓｉｏｎｓ，ｐｐ．１３７−１４０ＪｕｎＳｕｚｕｋｉ，ＥｒｉｋＭｃＤａｍｏｔｔ，ＨｉｄｅｋｉＩｓｏｚａｋｉ，"Ｔｒａｉｎｉｎｇｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄｓｗｉｔｈｍｕｌｔｉｖａｒｉａｇｅｅｖａｌｕａｔｉｏｎｍｅｓｕｒｅｓ"，ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２１ｓｔＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓａｎｄ４４ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，２００６，Ｓｙｄｎｅｙ，Ａｕｓｔｒａｌｉａ，ｐｐ．２１７−２２４ＲｏｂｅｒｔＭａｌｏｕｆ，"ＡＣｏｍｐａｒｉｓｏｎｏｆＡｌｇｏｒｉｔｈｍｓｆｏｒＭａｘｉｍｕｍＥｎｔｒｏｐｙＰａｒａｍｅｔｅｒＥｓｔｉｍａｔｉｏｎ"，ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ６ｔｈＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＮａｔｕｒａｌＬａｎｇｕａｇｅＬｅａｒｎｉｎｇ：ＣｏＮＬＬ−２００２，Ｔａｉｐｅｉ，ＴａｉｗａｎＶｌａｄｉｍｉｒＮａｕｍｏｖｉｃｈＶａｐｎｉｋ，"ＳｔａｔｉｓｔｉｃａｌＬａｒｎｉｎｇＴｈｅｏｒｙ（ＡｄａｐｔｉｖｅａｎｄＬｅａｒｎｉｎｇＳｙｓｔｅｍｓｆｏｒＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ，ａｎｄＣｏｎｔｒｏｌ）"，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ（１９９８）．

特許文献１のような字面一致で対象語を含むデータを抽出する方法では、検出対象語が複数の語義（有害な語義と無害な語義）を持つ場合に、有害でない語義で使われているデータも検出してしまう問題がある。そのため、有害情報を精度良く判別するためには、字面一致で検出された全てのデータについて、人手で有害か無害かを確認する必要があるが、この場合確認対象のデータの数が膨大になり、負担が大きい。

また、字面一致で検出するためには、予め検出対象語のリストを用意しておく必要があるが、インターネット上で日々新たに生み出されている新語や伏せ字、隠語などを全て予め準備し、日々更新していくことは困難である。

非特許文献１のような従来の語義曖昧性解消技術を用いた場合は、文脈に応じて抽出対象語の語義を特定することができるので、有害な語義で用いられているデータが誤検出される割合を減らすことができる。しかし、新語や伏せ字、隠語の語義を推定するためには、予め辞書にこれらの語を登録しておく必要があり、新たに出てくる語に対応するための辞書のメンテナンスの負担が大きい。また、語義を正しく推定するためのモデルを構築するためには、各語について訓練データが必要であり、訓練データ構築のための時間とコストがかかる。

本発明は上記課題を解決するものであり、その目的は、特定情報を精度良く検出することができ、新語や伏せ字、隠語などに対処するための負担を減らすことができる特定情報検出装置、方法、プログラムを提供することにある。

上記課題を解決するための本発明の請求項１に記載の特定情報検出装置は、入力データである自然言語を含むコンテンツから、ある特定の意味を含むコンテンツを検出する特定情報検出装置であって、各形態素に依存しない共通の複数個の意味クラスについて、前記各形態素が前記各意味クラスに分類される確率を示す値を対応付けた特定情報推定モデルを構築する特定情報推定モデル構築手段と、前記入力データから形態素単位での特徴量を抽出し、前記構築された特定情報推定モデルを参照して、前記ある特定の意味に対応する前記意味クラスに分類される確率の高い形態素を含むコンテンツを検出する特定情報推定手段と、を有することを特徴としている。

本発明の特定情報推定モデルは、従来の語義曖昧性解消技術で用いるようなある語に対する複数の語義全てを定義するのではなく、特定の語の意味に依存しない高々数個程度のクラス（例えば有害な意味を示すクラスと無害な意味を示すクラス等）へ分類する。従来の手法では、形態素毎に、語義に対応するクラスを設定する必要があるため、新語や伏せ字、隠語が増える毎に、分類先のクラスを追加する必要があるが、本発明の手法によれば、新語や伏せ字、隠語であっても、分類先のクラスを追加する必要がなく、同じ数個のクラスに分類するモデルとして統一的に扱うことができる。つまり、新語や伏せ字、隠語などに対処するための負担を減らすことができる。

また、本発明の特定情報検出装置（方法）によれば、検出対象のテキストの文脈において対象語が特定の意味を持つかを判別し、検出したい意味クラスに属する（例えば有害な意味を示すクラスに属する）と判定されたもののみを抽出することができるので、字面一致の抽出手法よりも高精度で情報を抽出することができる。また、抽出された確認結果を人手で確認する場合も、確認対象のデータ数を字面一致の抽出方法と比較して減らすことができる。

さらに、画像や映像に自然言語による説明文やコメントなどが付加されたコンテンツに対しても、自然言語の情報に対して本発明の手法を適用することにより、そのコンテンツが特定の意味を持つか否かを精度良く判定することができる。

本発明の特定情報検出装置の実施形態例を示す全体構成図。本発明の第１、第２の実施の形態における特定情報検出装置の要部構成図。本発明の実施形態例の特定情報検出装置に入力されるデータの例を示す説明図。本発明の実施形態例の特定情報検出装置から出力されるデータの例を示す説明図。本発明の第３の実施の形態における特定情報検出装置の要部構成図。本発明の第３の実施の形態における対象語リストの例を示す説明図。本発明の変形例における特定情報検出装置の要部構成図。本発明の変形例における特定情報検出装置の要部構成図。

以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。以下の説明では、有害情報の検出を行う場合を例として説明を行うが、本発明は有害情報の検出に限定されるものではなく、検出したい意味に応じたクラスを設定することにより、様々な特定の意味をもつ語を含むコンテンツの検出に使用することができる。

＜第１の実施形態＞
図１は、本実施形態の特定情報検出装置の構成を示すブロック図である。特定情報検出装置１０は、サーバーやパーソナルコンピュータなどの情報処理装置からなり、自然言語データを含むコンテンツである入力データＸに含まれる各文字や語、記号、それらからなる部分に対し、特定の意味を持つ（例えば有害な意味を持つ）か否かの判定を行い、出力データＹとして出力する機能を有している。なお、入力データは、自然言語を含むものであればなんでも良く、静止画像や動画像に自然言語で書かれた説明文やコメントが付加されたコンテンツなどについても、自然言語で書かれた情報から特定の意味を持つか否かの判定を行い、特定の意味を持つコンテンツを検出することができる。

特定情報検出装置１０には、主な機能部として、処理部１、記憶部２、が設けられている。処理部１は、ＣＰＵなどのマイクロプロセッサとその周辺回路からなり、記憶部２に格納されているプログラム２１を読み出して実行することにより、上記ハードウェアとプログラム２１とを協働させて各種処理部を実現する。処理部１で実現されるものとしては、特定情報推定手段としての特定情報推定部１１、特定情報推定モデル構築手段としての特定情報推定モデル構築部１２がある。

記憶部２は、ハードディスクやメモリなどの記憶装置からなり、処理部１で実行するプログラム２１や特定情報の検出に用いる各種処理情報を記憶する。プログラム２１は、例えば、入出力Ｉ／Ｆ部３を介して記録媒体から読み込まれ（プログラムＭ）、あるいは、通信Ｉ／Ｆ部４を介して外部装置（図示せず）から読み込まれてもよい。記憶部２に記憶する主な情報としては、特定情報推定モデル２２（特定情報推定モデルデータベース内の特定情報推定モデル）と訓練データ２３（訓練データデータベース内の訓練データ）がある。

入出力Ｉ／Ｆ部３は、専用のデータ入出力回路からなり、ＣＤやＤＶＤ、さらには不揮発性メモリカードなどの記録媒体との間で、処理部１からの指示に応じて、入力データＸ、出力データＹ、辞書、データベースなどの各種データやプログラムを入出力する機能を有している。

通信Ｉ／Ｆ部４は、専用のデータ入出力回路からなり、ＬＡＮなどの通信回線を介して接続されたサーバーなどの外部装置との間で、処理部１からの指示に応じて、入力データＸ、出力データＹ、辞書、データベースなどの各種データやプログラムを入出力する機能を有している。

操作入力部５は、キーボードやマウスなどの操作入力装置からなり、オペレーターの操作を検出して処理部１へ出力する機能を有している。

画面表示部６は、ＬＣＤやＰＤＰなどの画面表示装置からなり、処理部１からの指示に応じて入力データＸや出力データＹなどの各種データや操作画面を画面表示する機能を有している。

図２は、本発明の第１の実施形態に係る、特定情報検出装置１０の要部のみを示すブロック図であり、図１と同一部分は同一符号をもって示している。

第１の実施形態における特定情報推定モデル２２は、形態素毎に、例えば、有害情報を含むコンテンツの検出を行いたい場合には、有害な情報を示すかそれ以外であるかの２つのクラスの重みを格納した（各クラスに分類される確率を示す値を対応付けた）データベースを構築する。

従来の語義曖昧性解消技術における語義推定モデルでは、形態素毎に、その語が有する語義の数だけクラスが存在するようなモデルを構築するが、本発明では、どの形態素についても、共通の２クラスに分類をするのが特徴である。なお、クラスの数は２つに限定する必要はなく、語に依存せず共通して使える意味クラスであれば、その目的に応じて複数種類のクラスを設定することができる。有害情報以外の情報を検出する場合には、検出したい語の意味に応じたクラスを複数種類設定すればよい。

訓練データ２３は、特定情報推定モデル構築部１２で特定情報推定モデル２２を作成するために利用する訓練データであり、少数の予めラベル（その文脈における正しいクラス）が付与されたデータ（すなわち、図示タグ付きデータ）と、インターネットなどから収集したラベルが付与されていない大量の生のデータ（すなわち、図示タグなしデータ）からなる。

特定情報推定モデル構築部１２は、訓練データ２３を参照して、半教師あり学習などの手法を用いて、特定情報推定モデル２２を構築する。半教師あり学習では、特定情報推定モデル２２を構築するために必要なタグ付きデータの数が比較的少数で良いため、少ないコストで特定情報推定モデル２２を構築することができ、多くの語や分野に比較的容易に対応することができる。具体的な処理としては、特許文献２のような処理を利用することができる。

処理部１の特定情報推定部１１は、自然言語を含む入力データＸを受け取り、文字や語、記号やそれらの塊などのモデル構築単位に対して特徴量（特徴情報）を抽出し、特定情報推定モデル２２を参照して各クラスに分類した場合の評価値を算出し、各クラスに分類する機能を有している。なお、各クラスに分類せず、各クラスに分類される確率の高い順にスコアを付与したり、分類される可能性の高い順に各クラスの順位付けを行う処理としてもよい。

次に、図２と具体例を用いて、本発明の一実施の形態にかかる特定情報検出装置１０の動作について具体的に説明する。本説明では対象自然言語を日本語とするが、英語、中国語、スペイン語、ドイツ語、フランス語などの他言語の場合にも適用することができる。

また、本実施形態では、違法・有害情報を検出する場合を例として、特定情報推定モデル２２のクラスを有害な情報を表すクラスとそれ以外を表すクラスとしているが、有害・それ以外に限定されるものではなく、特定の意味を持つ情報か否かの検出（判別）に利用することができる。

また、入力データＸは自然言語を含む情報であれば、自然言語のみから構成されている必要はなく、例えば、静止画像や動画像に自然言語データが付与されている場合などにも利用できる。

特定情報検出装置１０は、自然言語によるデータを含む入力データＸを受け取り、特定情報推定部１１において、対象文字あるいは形態素と、各対象文字あるいは形態素とその組合わせに関する特徴量（素性）を抽出し、特定情報推定モデル２２を参照して対象文字あるいは形態素のクラスを判定する。

ここで、図３は、入力データＸのイメージ図である。例えば、図３は掲示板の投稿や段落単位といった塊のテキストデータであり、Ｃ_n（ｎ＝１，２，３，・・・）は、本実施形態においては形態素解析後の各形態素に対応するものとする。図３では分かりやすいように文毎に改行されているように図示しているが、必ずしも改行は必要ではない。また、文毎の区切りが明確でなくてもよい。

特定情報推定部１１では、各Ｃ_nに対し、特定情報推定モデル２２を参照して各Ｃ_nが有害な意味を持つか否かの判定を行う。なお、この判定処理には、特定情報推定モデル２２の情報に加えて、入力データＸに含まれる文章以外の情報、例えば、投稿先・掲載先がどこであるか、投稿・掲載時刻（例えば０：００−２：００，早朝，１２：００−１３：００，１５時台など）、投稿先のドメイン名や、リンク先の情報（リンク先がないという情報も含む）を利用してもよい。

また、入力データＸに含まれる自然言語に対し、公知の形態素解析（茶筌（非特許文献２）、ＪＵＭＡＮ（非特許文献３））や、係りうけ解析（ＫＮＰ（非特許文献４）、Ｃａｂｏｃｈａ（非特許文献５））、項構造解析（非特許文献６）、単語を句にまとめる機能を持つ公知のチャンカー（ＹａｍＣｈａ（非特許文献７））や文章のドメインを判定するドメイン付与ツール（非特許文献８）、固有名詞表現抽出（非特許文献９）などの言語解析を行い、その結果として得られる情報を素性として追加してもよい。

例えば、形態素解析を利用する場合は、各単語の品詞や、前後に出現する単語およびその品詞などの情報を素性として追加することができる。例えば、｛一緒に死ぬ人募集します｝という例文を形態素解析すると、｛一緒［名詞］，に［助詞］，死ぬ［動詞］，人［名詞］，募集［名詞］，し［動詞／基本形する］，ます［助動詞］｝となる。同一文内に出現する内容語である｛一緒［名詞］，死ぬ［動詞］，人［名詞］，募集［名詞］｝が素性に追加できる。また、これらの単語のｎｇｒａｍの情報を付加してもよい。

上述のように獲得した素性を用いて、特定情報推定モデル２２によって、各対象文字、あるいは、語が分類される確率（スコア）の高い意味クラスを推定し、この意味クラスの情報を付与して出力データＹとして出力する。

図４は出力データＹのイメージ図である。図４では、特定の情報の部分、例えば有害な情報を表すクラスと判定された部分を枠で囲んで表示している。

また、出力データＹをラベルが付与された訓練データとして訓練データ２３に追加して、特定情報推定モデル構築部１２を実行させることにより、ラベル付きデータの数を増やして再度学習することにより、特定情報推定モデル２２の精度を高めることもできる。ラベル付きデータとして追加する際には、人がラベルが正しいかどうかを確認して、正しいものだけを追加するような人手でフィードバックを行う形としても良い。

前記訓練データが十分多く集まった場合には、特定情報推定モデル構築部１２において、半教師あり学習の代わりに、Ｍａｘｉｍｕｍｅｎｔｒｏｐｙ（ＭＥ）（非特許文献１０），ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ（ＳＶＭ）（非特許文献１１）などの機械学習手法を用いることもできる。

また、複数種類の特定情報推定モデル２２を構築して記憶部２に格納しておき、各特定情報推定モデルを用いてクラスを推定した結果の中から、より確からしい結果を利用してもよい。

訓練データ２３には、分類情報や有害度合いのような情報を同時に付与しておき、検出したい分類や有害度合いに応じて特定情報推定モデル２２を構築しても良い。

＜第２の実施形態＞
第２の実施形態は、特定情報検出装置１０の構成は第１の実施形態（図１、図２）と同じであるが、特定情報推定モデル２２が形態素単位ではなく文字単位に各クラスの重みを格納したデータベースであり、特定情報推定部１１において、入力データＸの文字毎にクラスを推定する点が異なる。

形態素単位でモデルを構築するためには、数十万単位の語について、それぞれ訓練データが必要であり、非常に膨大な数の訓練データが必要である。また、形態素解析の誤りの影響を受けて、正しく特定情報を推定できなくなるという問題がある。特に、検索対象がブログやＳＮＳ（ＳｏｃｉａｌＮｅｔｗｏｒｋＳｅｒｖｉｃｅ）などのＣＧＭ（ＣｏｎｓｕｍｅｒＧｅｎｅｒａｔｅｄＭｅｄｉａ）の場合は、新聞のような文語体とは異なり、かなりくだけた口語体の文章が多いため、形態素解析の誤りも多くなってしまうため、特定情報推定の精度が低下するという問題がある。

これに対し、第２の実施形態例では、形態素ではなく文字毎に、例えば、有害な情報であるかそれ以外であるかの２つのクラスの重みを格納したデータベースを構築する。従来の語義曖昧性解消技術における語義推定モデルでは、形態素毎に、その語が有する語義の数だけクラスが存在するようなモデルを構築するが、本実施形態では、文字毎に、かつ、文字に依存することなく共通の２クラスに分類をする点が特徴である。なお、クラスの数は２つに限定する必要はなく、文字に依存せず共通して使える複数種類のクラスを設定しても良い。

この構成により、形態素単位で特定情報推定モデル２２を作成する場合と比較して、対象とする語が高々漢字コードの数（約２万７千種類）程度で良いため、モデルの構築に必要な訓練データの数が少なくて済み、モデルの構築も容易に行うことができ、実用性が高いという利点がある。

図１の訓練データ２３は、特定情報推定モデル構築部１２で特定情報推定モデル２２を作成するために利用する訓練データであり、少数の予めラベル（その文脈における正しいクラス）が付与されたデータ（図示タグ付きデータ）と、インターネットなどから収集したラベルが付与されていない大量の生のデータ（図示タグなしデータ）からなる。第１の実施形態では形態素毎に訓練データが必要であるが、第２の実施形態では、文字毎に訓練データを用意する点が異なる。

特定情報推定モデル構築部１２の処理は第１の実施形態と同じである。

特定情報検出装置１０は、第１の実施形態と同様に、自然言語によるデータを含む入力データＸを受け取り、特定情報推定部１１において、対象文字あるいは形態素と、各対象文字あるいは形態素とその組合わせに関する特徴量（素性）を抽出し、特定情報推定モデル２２を参照して対象文字あるいは形態素のクラスを判定する。

ここで、図３は、入力データＸのイメージ図である。例えば、図３は掲示板の投稿や段落単位といった塊のテキストデータであり、Ｃ_n（ｎ＝１，２，３，・・・）は、本実施形態においては各文字に対応するものとする。図３では分かりやすいように文毎に改行されているように図示しているが、必ずしも改行は必要ではない。また、文毎の区切りが明確でなくてもよい。

例えば、入力データＸが｛一緒に死ぬ人募集します｝という文章である場合、対象語は、文字毎に分割した｛一，緒，に，死，ぬ，人，募，集，し，ま，す｝となる。

特徴量（素性）としては、該当文字自身、および、前後の文字ｎｇｒａｍ（ｕｎｉｇｒａｍ，ｂｉｇｒａｍ等）や同一文中に含まれる語や同一文字種（文字、数字、漢字、記号、句読点、平仮名、カタカナ、顔文字など）の情報、あるいは連続した同一文字種をひと塊としたものなどが利用できる。

例えば、「死」を対象文字とすると、文字ｕｎｉｇｒａｍは前後それぞれ｛に｝｛ぬ｝であり、文字ｂｉｇｒａｍは｛緒に｝｛ぬ人｝である。また、同一文内の漢字を一文字ずつ素性として切り出した場合は、｛一，緒，死，人，募，集｝であり、連続した漢字をひと塊とすれば｛一，緒，死，人，募集｝を素性として利用できる。さらに、対象言語に大文字や小文字の区別が存在する場合には、大文字や小文字の区別も素性として利用できる。

また、対象文字Ｃ_nとして、同一文字種が連続しているものをひと塊として文字と扱ってもよい。例えば、入力データＸが｛一緒にタヒぬ人募集します｝（タヒ＝「死」のネット用語）という文章である場合に、半角カタカナが連続しているものをひと塊で扱うとすれば、｛一，緒，に，タヒ，ぬ，人，募，集，し，ま，す｝となる。

特定情報推定部１１では、各Ｃ_nに対し、特定情報推定モデル２２を参照して各Ｃ_nが有害な意味を持つか否かの判定を行う。なお、この判定処理には、第１の実施形態と同様に特定情報推定モデル２２の情報に加えて、入力データＸに含まれる文章以外の情報、例えば、投稿先・掲載先がどこであるか、投稿・掲載時刻、投稿先のドメイン名や、リンク先の情報等を利用してもよいし、形態素解析の結果として得られる各単語の品詞や、前後に出現する単語およびその品詞などの情報を素性として追加してもよい。

また、第１の実施形態と同様に、出力データＹをラベルが付与された訓練データとして訓練データ２３に追加して、特定情報推定モデル構築部１２を実行させることにより、ラベル付きデータの数を増やして再度学習することにより、特定情報推定モデル２２の精度を高めることもできる。ラベル付きデータとして追加する際には、人がラベルが正しいかどうかを確認して、正しいものだけを追加するような人手でフィードバックを行う形としても良い。

＜第３の実施形態＞
第３の実施形態は、第１または第２の実施形態で説明した特定情報検出装置１０の特定情報推定部１１を用いて有害と検出された新たな語を、図５に示すように対象語リスト２４（対象語リストデータベース内の対象語リスト）に追加する構成である。この装置により自動的に獲得した対象語リスト２４を字面一致の有害情報検出などに用いることで、有害情報検出の精度を上げることができると共に、新語や伏せ字、隠語などに迅速に対応することができる。

尚図５は、対象語リスト２４と、図１の特定情報検出装置１０の要部のみを図示しており、図１と同一部分は同一符号をもって示している。

例えば、第２の実施形態で説明した｛一緒にタヒぬ人募集します｝を入力データＸとした場合、「タヒ」が特定情報推定モデル２２に登録されていなかった場合でも、有害情報であることが判定でき、新たに対象語リスト２４に登録することができる。

対象語リスト２４は、例えば、有害情報として検出したいキーワードのリストである。ここで、図６のように対象語（図６では「ＮＧワード」と記載）の他に、その対象語の有害度合い（図６では「ＮＧ度」と記載）や分類（誹謗・中傷など）の情報を付与していてもよい。

尚図５において、特定情報推定部１１で有害情報であると検出された語を対象語リスト２４に追加する前に、人がその情報が正しいかどうかを確認し、有害であると判断したもののみを追加する形としてもよい。

＜その他の変形例＞
特定情報推定部１１において、各クラスの重み（確率）の差が小さく、検出結果の確信度が低い場合には、図７に示すように、人手で判断させるために該当する入力データＸを人手判断部１３の表示部（図１の画面表示部６）に表示させてもよい。確信度は、例えば対象語が当該クラスに属すると判定されたときのスコアとし、予め定めた閾値よりもスコアが低い場合に表示部に表示させても良い。

尚、人手判断部１３は、図１の画面表示部６に表示させた情報が有害であるか無害であるかを人が判断する判断部を指している。また図７は図１の特定情報検出装置１０の要部を図示しており、図１と同一部分は同一符号をもって示している。

また、図８に示すように、本発明の特定情報検出装置１０により有害情報であると検出された文字あるいは形態素を含むテキストデータを、本当に有害情報を含むか否かを人手で判断するデータとして選択する（フィルタリングする）フィルタリング部１４をさらに設け、フィルタリング部１４から受信（または表示）されたテキストデータについて、人手判断部１３において人手で有害であるか否かの判定を行っても良い。また、この人手で判断した判断結果とテキストデータの組を訓練データ２３として、特定情報推定モデル２２を再構築してもよい。尚図８は、図１の特定情報検出装置１０の要部を図示しており、図１と同一部分は同一符号をもって示している。

また、本発明の特定情報検出方法の実施形態例は、例えば図１、図２、図５、図７、図８で述べた特定情報検出装置１０の各部が行なう処理を実行するものである。

すなわち、特定情報推定モデル構築部１２が実行する特定情報推定モデル構築ステップは、各形態素又は各文字に依存しない共通の複数個の意味クラスについて、前記各形態素又は各文字が前記各意味クラスに分類される確率を示す値を対応付けた特定情報推定モデル２２を構築する。

特定情報推定部１１が実行する特定情報推定ステップは、入力データＸから形態素単位又は文字単位での特徴量を抽出し、前記構築された特定情報推定モデル２２を参照して、前記ある特定の意味に対応する前記意味クラスに分類される確率の高い形態素あるいは文字または文字の塊を含むコンテンツを検出する。

また、前記特定情報推定モデル構築ステップは、図２で述べたように、テキストに含まれる形態素又は文字に予め正解の意味クラスが付与された訓練データ（訓練データ２３のタグ付きデータ）とテキストに含まれる形態素又は文字に予め正解の意味クラスが付与されていない訓練データ（訓練データ２３のタグなしデータ）とから、前記特定情報推定モデル２２を学習する。

また、図５で述べたように、前記特定情報推定ステップで検出された新たな語を、処理部１が対象語リスト２４に追加する処理を行う。

また、図７で述べたように、前記特定情報推定部１１の検出結果の確信度が低い場合は、処理部１が、人手で判断させるために該当する入力データＸを画面表示部６に表示させる処理を行う。

また、図８で述べたように、特定情報推定部１１により有害情報であると検出された語を含むテキストデータを、フィルタリング部１４がフィルタリングし、人手で判断するデータとして選択する処理を行う。

また、本実施形態の特定情報検出装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の特定情報検出方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばＦＤ（Ｆｌｏｐｐｙ（登録商標）Ｄｉｓｋ）や、ＭＯ（Ｍａｇｎｅｔｏ−Ｏｐｔｉｃａｌｄｉｓｋ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、メモリカード、ＣＤ（ＣｏｍｐａｃｔＤｉｓｋ）−ＲＯＭ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＨＤＤ、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。

１…処理部
２…記憶部
３…入出力Ｉ／Ｆ部
４…通信Ｉ／Ｆ部
５…操作入力部
６…画面表示部
１０…特定情報検出装置
１１…特定情報推定部
１２…特定情報推定モデル構築部
１３…人手判断部
１４…フィルタリング部
２１…プログラム
２２…特定情報推定モデル
２３…訓練データ
２４…対象語リスト

Claims

入力データである自然言語を含むコンテンツから、ある特定の意味を含むコンテンツを検出する特定情報検出装置であって、
各形態素に依存しない共通の複数個の意味クラスについて、前記各形態素が前記各意味クラスに分類される確率を示す値を対応付けた特定情報推定モデルを構築する特定情報推定モデル構築手段と、
前記入力データから形態素単位での特徴量を抽出し、前記構築された特定情報推定モデルを参照して、前記ある特定の意味に対応する前記意味クラスに分類される確率の高い形態素を含むコンテンツを検出する特定情報推定手段と、
を有することを特徴とする特定情報検出装置。
入力データである自然言語を含むコンテンツから、ある特定の意味を含むコンテンツを検出する特定情報検出装置であって、
各文字に依存しない共通の複数個の意味クラスについて、前記各文字が前記各意味クラスに分類される確率を示す値を対応付けた特定情報推定モデルを構築する特定情報推定モデル構築手段と、
前記入力データから文字単位での特徴量を抽出し、前記構築された特定情報推定モデルを参照して、前記ある特定の意味に対応する前記意味クラスに分類される確率の高い文字または文字の塊を含むコンテンツを検出する特定情報推定手段と、
を有することを特徴とする特定情報検出装置。
前記特定情報推定モデル構築手段は、テキストに含まれる形態素に予め正解の意味クラスが付与された訓練データとテキストに含まれる形態素に予め正解の意味クラスが付与されていない訓練データとから、前記特定情報推定モデルを学習することを特徴とする請求項１に記載の特定情報検出装置。
前記特定情報推定モデル構築手段は、テキストに含まれる文字に予め正解の意味クラスが付与された訓練データとテキストに含まれる文字に予め正解の意味クラスが付与されていない訓練データとから、前記特定情報推定モデルを学習することを特徴とする請求項２に記載の特定情報検出装置。
入力データである自然言語を含むコンテンツから、ある特定の意味を含むコンテンツを検出する特定情報検出方法であって、
特定情報推定モデル構築手段が、各形態素に依存しない共通の複数個の意味クラスについて、前記各形態素が前記各意味クラスに分類される確率を示す値を対応付けた特定情報推定モデルを構築する特定情報推定モデル構築ステップと、
特定情報推定手段が、前記入力データから形態素単位での特徴量を抽出し、前記構築された特定情報推定モデルを参照して、前記ある特定の意味に対応する前記意味クラスに分類される確率の高い形態素を含むコンテンツを検出する特定情報推定ステップと、
を有することを特徴とする特定情報検出方法。
入力データである自然言語を含むコンテンツから、ある特定の意味を含むコンテンツを検出する特定情報検出方法であって、
特定情報推定モデル構築手段が、各文字に依存しない共通の複数個の意味クラスについて、前記各文字が前記各意味クラスに分類される確率を示す値を対応付けた特定情報推定モデルを構築する特定情報推定モデル構築ステップと、
特定情報推定手段が、前記入力データから文字単位での特徴量を抽出し、前記構築された特定情報推定モデルを参照して、前記ある特定の意味に対応する前記意味クラスに分類される確率の高い文字または文字の塊を含むコンテンツを検出する特定情報推定ステップと、
を有することを特徴とする特定情報検出方法。
前記特定情報推定モデル構築ステップは、テキストに含まれる形態素に予め正解の意味クラスが付与された訓練データとテキストに含まれる形態素に予め正解の意味クラスが付与されていない訓練データとから、前記特定情報推定モデルを学習することを特徴とする請求項５に記載の特定情報検出方法。
前記特定情報推定モデル構築ステップは、テキストに含まれる文字に予め正解の意味クラスが付与された訓練データとテキストに含まれる文字に予め正解の意味クラスが付与されていない訓練データとから、前記特定情報推定モデルを学習することを特徴とする請求項６に記載の特定情報検出方法。
コンピュータを請求項１ないし４のいずれか１項に記載の各手段として機能させる特定情報検出プログラム。