JP2011170578A

JP2011170578A - 検索キーワード辞書に対する非検索キーワード辞書を用いた文章検索プログラム、サーバ及び方法

Info

Publication number: JP2011170578A
Application number: JP2010033208A
Authority: JP
Inventors: Kazufumi Ikeda; 和史池田; Kazunori Matsumoto; 一則松本; Yasuhiro Takishima; 康弘滝嶋
Original assignee: KDDI R&D Laboratories Inc
Current assignee: KDDI Research Inc
Priority date: 2010-02-18
Filing date: 2010-02-18
Publication date: 2011-09-01
Anticipated expiration: 2030-02-18
Also published as: JP5364010B2

Abstract

【課題】例えば予め登録されたキーワードによって違法・有害なカテゴリに属するか否かを判定する際に、違法・有害でない文章情報が、違法・有害なカテゴリに分類されることをできる限り減らすことができる文章分類プログラム、サーバ及び方法を提供する。
【解決手段】特定カテゴリに属さない複数の正当学習文章情報と、特定カテゴリに属する複数の不当学習文章情報とを蓄積した学習文章蓄積手段を有し、検索キーワードを含む学習文章情報を検索し、その検索キーワードに対する係り受けキーワードを抽出し、係り受けキーワード毎に、全ての学習文章情報の数に対する正当学習文章情報の数の正当割合を算出し、正当割合が所定閾値以上となる係り受けキーワードを非検索キーワードとして登録する非検索キーワード辞書を生成する。これにより、検索キーワードに対する係り受けキーワードとして非検索キーワードが含まれている文章情報は検索されないようにする。
【選択図】図２

Description

本発明は、検索キーワード辞書を用いた文章検索プログラム、サーバ及び方法に関する。

インターネットの普及により、ブログ、掲示板又はクチコミコメントを公開するＷｅｂサイトに、様々なテキストが記述されている。「ブログ」(Weblog)とは、一般的に個人によって運営され、時事ニュースや専門的トピックスに関する自らの意見を表明するために、日記的に更新することができるサイトをいう。また、「掲示板」とは、様々なテーマについて、他人と議論を逐次に交換するためのサイトをいう。更に、「クチコミコメント」とは、人の噂のような、物事の評判などに関するコメントを記述することができるサイトをいう。これらのサイトの普及により、一般のユーザが、インターネットで自由に情報発信できるようになった。

これに伴って、これらＷｅｂサイトに、個人や組織を誹謗及び中傷する文章や、犯罪予告、犯罪助長、又はアダルトサイトのような違法・有害な文章情報が記述されることが社会的な問題となってきた。そのために、表現の自由を配慮しつつ、これら違法・有害な文章を記述した文章や個人を検出する必要がある。

従来、違法・有害な文章を記述したサイトに対して、端末からのアクセスを拒否するフィルタリングの技術がある（例えば特許文献１参照）。この技術によれば、予めキーワードやＵＲＬ(Uniform Resource Locator)を登録しておき、そのキーワードやＵＲＬが含まれているＷｅｂサイトに対する端末からのアクセスが拒否される。しかし、予め登録しておくキーワードやＵＲＬを常に更新する必要があり、時間とコストを要する。

これに対して、キーワードやＵＲＬを自動的に抽出し、フィルタリングする技術がある（例えば特許文献２参照）。この技術によれば、アダルトサイトや犯罪予告サイトなどの違法・有害な文章情報から、キーワードを自動的に抽出することができる。これらキーワードを予め登録しておくことによって、解析対象となる文章情報に、それらキーワードが含まれているか否かによって、違法・有害性を判定する。

特開２００７−１２８１１９号公報特開２００９−３７４２０号公報

長岡技術科学大学、自然言語処理研究室、「ＣａｂｏＣｈａ」、[online]、［平成２１年１２月２８日検索］、インターネット＜URL:http://nlp.nagaokaut.ac.jp/CaboCha＞京都大学大学院情報学研究科知能情報学専攻、黒橋研究室、「日本語構文解析システムＫＮＰ」、[online]、［平成２１年１２月２８日検索］、インターネット＜URL:http://nlp.kuee.kyoto-u.ac.jp/nl-resource/knp.html＞

しかしながら、一般的なキーワードが、違法・有害なカテゴリに属するものとして登録された場合、本来なら違法・有害でない文章も、違法・有害な文章として拾ってしまうという課題がある。例えば、キーワード検索技術を単に用いた場合、「学校を爆破」のような違法・有害なキーワードを検出するために、「爆破」を違法・有害なキーワードとして登録する。この場合、「鉱山を爆破」や「爆破は駄目」といった表現であっても、違法・有害な文章情報として検出してしまう。これによって、違法・有害カテゴリへの分類精度が低下することとなり、結局、目視によって違法・有害性が判断されている。

そこで、本発明は、例えば予め登録されたキーワードによって違法・有害なカテゴリに属するか否かを判定する際に、違法・有害でない文章情報が、違法・有害なカテゴリに分類されることをできる限り減らすと共に、適用可能な文章の範囲をできる限り拡張することができる文章分類プログラム、サーバ及び方法を提供することを目的とする。

本発明によれば、検索キーワードを蓄積した検索キーワード辞書手段を有し、当該検索キーワードを含む文章情報を検索するようにコンピュータを機能させる文章検索プログラムであって、
特定カテゴリに属さない複数の正当学習文章情報と、特定カテゴリに属する複数の不当学習文章情報とを蓄積した学習文章蓄積手段と、
学習文章蓄積手段を用いて、検索キーワードを含む学習文章情報を検索する学習文章キーワード検索手段と、
検索キーワードを含む学習文章情報について、検索キーワードに対する係り受けキーワードを抽出する学習係り受け解析手段と、
単語のノードがツリー状に構成された概念辞書記憶手段と、
概念辞書記憶手段を用いて、係り受けキーワードに対応するノードから見て、下位概念となる複数の係り受け関連キーワードを抽出する係り受け関連キーワード抽出手段と、
係り受けキーワード及び係り受け関連キーワードの全てのキーワード毎に、正当学習文章情報の数と、不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する正当学習文章情報の数の正当割合を算出する正当割合算出手段と、
正当割合が所定閾値以上となる係り受けキーワード及び係り受け関連キーワードを非検索キーワードとして登録する非検索キーワード辞書手段と
してコンピュータを機能させ、検索キーワードに対する係り受けキーワードとして非検索キーワードが含まれている文章情報は検索されないようにコンピュータを機能させることを特徴とする。

本発明の文章検索プログラムにおける他の実施形態によれば、
係り受け関連キーワード抽出手段は、概念辞書記憶手段を用いて、係り受けキーワードに対応するノードよりも少なくとも１階層上の上位概念のノードから見て、下位概念となる複数の係り受け関連キーワードを抽出するようにコンピュータを機能させることも好ましい。

本発明の文章検索プログラムにおける他の実施形態によれば、
係り受け関連キーワード抽出手段は、概念辞書記憶手段を用いて、係り受けキーワードに対応するノードの階層ｎの高さに基づいて、当該階層ｎから何階層上の上位概念のノードから見るかを決定するようにコンピュータを機能させることも好ましい。

本発明の文章検索プログラムにおける他の実施形態によれば、
係り受け関連キーワード抽出手段は、係り受けキーワードの品詞に基づいて、概念辞書記憶手段を用いて、当該階層ｎから何階層上の上位概念のノードから見るかを決定するようにコンピュータを機能させることも好ましい。

本発明の文章検索プログラムにおける他の実施形態によれば、
係り受け関連キーワード抽出手段は、係り受け関連キーワードの品詞に基づいて、係り受け関連キーワードとして抽出するか否かを決定するようにコンピュータを機能させることも好ましい。

本発明の文章検索プログラムにおける他の実施形態によれば、
概念辞書記憶手段を用いて、検索キーワードに対応するノードよりも下位概念となる複数の検索関連キーワードを抽出する検索関連キーワード抽出手段を更に有し、
学習文章キーワード検索手段は、学習文章蓄積手段を用いて、検索関連キーワードを含む学習文章情報を更に検索し、
学習係り受け解析手段は、検索関連キーワードを含む学習文章情報について、検索関連キーワードに対する係り受けキーワードを更に抽出する
ようにコンピュータを機能させることも好ましい。

本発明の文章検索プログラムにおける他の実施形態によれば、
解析対象となる対象文章情報を入力する対象文章入力手段と、
対象文章情報が、検索キーワード辞書手段に蓄積された検索キーワードを含むか否かを判定する対象文章キーワード検索手段と、
検索キーワードを含む対象文章情報について、検索キーワードに対する係り受けキーワードを抽出する対象係り受け解析手段と、
抽出された係り受けキーワードが、非検索キーワード辞書手段に登録された非検索係り受けキーワードと一致するか否かを判定する非検索キーワード判定手段と、
対象文章キーワード検索手段によって偽と判定された対象文章情報と、対象文章キーワード検索手段によって真と判定されると共に非検索キーワード判定手段によって真と判定された対象文章情報とを、特定カテゴリに属さない文章情報として分類する文章情報分類手段と
してコンピュータを機能させることも好ましい。

本発明の文章検索プログラムにおける他の実施形態によれば、
非検索キーワード辞書手段は、登録された係り受けキーワード毎に、正当割合算出手段によって算出された正当割合を対応付けて登録しており、
非検索キーワード判定手段は、抽出された係り受けキーワードが、非検索キーワード辞書手段に登録された係り受けキーワードと一致し、且つ、当該係り受けキーワードにおける正当割合が所定閾値以上である場合に、当該係り受けキーワードに対して真と判定するようにコンピュータを機能させることも好ましい。

本発明の文章検索プログラムにおける他の実施形態によれば、
検索キーワードは、カテゴリ分類を目的として設定されたキーワードであり、
学習文章蓄積手段における特定カテゴリは、カテゴリ分類に基づく文章情報の群であるようにコンピュータを機能させることも好ましい。

本発明の文章検索プログラムにおける他の実施形態によれば、
検索キーワードは、違法・有害なキーワードであり、
学習文章蓄積手段における特定カテゴリは、違法・有害な文章情報の群であるようにコンピュータを機能させることも好ましい。

本発明の文章検索プログラムにおける他の実施形態によれば、
検索キーワードは、ユーザによって指定されたキーワードであり、
学習文章蓄積手段における特定カテゴリは、ユーザによって指定された文章情報の群であるようにコンピュータを機能させることも好ましい。

本発明の文章検索プログラムにおける他の実施形態によれば、
対象文章情報は、ネットワークを介して公開されているブログ(Weblog)、掲示板及び／又はクチコミコメントにおける不特定多数のユーザによって記述された文章情報であることも好ましい。

本発明によれば、検索キーワードを蓄積した検索キーワード辞書手段を有し、他の公開サーバからネットワークを介して取得した文章情報から、当該検索キーワードを含む文章情報を検索する文章解析サーバであって、
特定カテゴリに属さない複数の正当学習文章情報と、特定カテゴリに属する複数の不当学習文章情報とを蓄積した学習文章蓄積手段と、
学習文章蓄積手段を用いて、検索キーワードを含む学習文章情報を検索する学習文章キーワード検索手段と、
検索キーワードを含む学習文章情報について、検索キーワードに対する係り受けキーワードを抽出する学習係り受け解析手段と、
単語のノードがツリー状に構成された概念辞書記憶手段と、
概念辞書記憶手段を用いて、係り受けキーワードに対応するノードから見て、下位概念となる複数の係り受け関連キーワードを抽出する係り受け関連キーワード抽出手段と、
係り受けキーワード及び係り受け関連キーワードの全てのキーワード毎に、正当学習文章情報の数と、不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する正当学習文章情報の数の正当割合を算出する正当割合算出手段と、
正当割合が所定閾値以上となる係り受けキーワード及び係り受け関連キーワードを非検索キーワードとして登録する非検索キーワード辞書手段と
を有し、検索キーワードに対する係り受けキーワードとして非検索キーワードが含まれている文章情報は検索されないようにすることを特徴とする。

本発明によれば、検索キーワードを蓄積した検索キーワード辞書を有し、当該検索キーワードを含む文章情報を、コンピュータを用いて検索する文章検索方法であって、
特定カテゴリに属さない複数の正当学習文章情報と、特定カテゴリに属する複数の不当学習文章情報とを、学習文章蓄積部に蓄積しており、
単語のノードがツリー状に構成された概念辞書を、概念辞書記憶部に記憶しており、
学習文章蓄積手段を用いて、検索キーワードを含む学習文章情報を検索する第１のステップと、
検索キーワードを含む学習文章情報について、検索キーワードに対する係り受けキーワードを抽出する第２のステップと、
概念辞書記憶手段を用いて、係り受けキーワードに対応するノードから見て、下位概念となる複数の係り受け関連キーワードを抽出する第３のステップと、
係り受けキーワード及び係り受け関連キーワードの全てのキーワード毎に、正当学習文章情報の数と、不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する正当学習文章情報の数の正当割合を算出する第４のステップと、
正当割合が所定閾値以上となる係り受けキーワード及び係り受け関連キーワードを非検索キーワードとして登録する第５のステップと
を有し、検索キーワードに対する係り受けキーワードとして非検索キーワードが含まれている文章情報は検索されないようにすることを特徴とする。

本発明の文章分類プログラム、サーバ及び方法によれば、例えば予め登録されたキーワードによって違法・有害なカテゴリに属するか否かを判定する際に、違法・有害でない文章情報が、違法・有害なカテゴリに分類されることをできる限り減らすと共に、適用可能な文章の範囲をできる限り拡張することができる。

本発明における文章分類プログラムの機能構成図である。本発明における非検索キーワードの生成を表す説明図である。本発明における対象文章情報の分類を表す説明図である。本発明における概念辞書を用いた係り受け関連キーワードの抽出を表す第１の説明図である。本発明における概念辞書を用いた係り受け関連キーワードの抽出を表す第２の説明図である。本発明における文章解析サーバのシステム構成図である。本発明におけるシステムのシーケンス図である。再現率(Recall)に対する適合率(Precision)を表すグラフである。辞書のキーワード数に対するＦ値を表すグラフである。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

図１は、本発明における文章分類プログラムの機能構成図である。

図１によれば、文章分類プログラムは、検索キーワード辞書部１０と、非検索辞書生成機能部１１と、対象文章分類機能部１２とに区別される。非検索辞書生成機能部１１は、学習文章蓄積部１１０と、学習文章キーワード検索部１１１と、学習係り受け解析部１１２と、概念辞書記憶部１１３と、係り受け関連キーワード抽出部１１４と、正当割合算出部１１５と、非検索キーワード辞書部１１６とを有する。対象文章分類機能部１２は、対象文章入力部１２０と、対象文章キーワード検索部１２１と、対象係り受け解析部１２２と、非検索キーワード判定部１２３と、文章情報分類部１２４とを有する。これら機能部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、装置における文章分類方法としても理解される。

文章分類プログラムは、対象文章情報を、特定カテゴリに属するか否かによって分類するようにコンピュータを機能させる。具体的には、対象文章情報に、検索キーワード辞書部１０に登録された検索キーワードが含まれているか否かを検索する。例えば違法・有害な文章情報か否かによって分類する場合、検索キーワード辞書部１０に蓄積される検索キーワードは、違法・有害なキーワードである。例えば、犯罪予告の場合、「爆破」のようなキーワードが、検索キーワード辞書部１０に記憶される。勿論、検索キーワード辞書部１０に蓄積される検索キーワードは、ユーザによって指定されたキーワードであってもよい。本発明によれば、検索キーワード辞書部１０に登録された検索キーワードを含む文章情報であっても、目標とする特定カテゴリに属さない文章情報は、検索されないようにすることができる。

［非検索辞書生成機能部］
図２は、本発明における非検索キーワードの生成を表す説明図である。以下では、図１の説明と共に、図２の内容が説明される。

学習文章蓄積部１１０は、特定カテゴリに属さない多数の正当学習文章情報と、特定カテゴリに属する多数の不当学習文章情報とを蓄積する。正当／不当は、その学習文章情報に付加されたフラグによって区別される。
例えば、特定カテゴリが違法・有害な文章情報の群である場合、学習文章蓄積部１１０は、以下のような文章情報の群を混在して蓄積する。
（１）違法・有害カテゴリに属さない文章情報の群
＝各文章情報に「正当」フラグが付加されている
＝正当学習文章情報の群
（２）違法・有害カテゴリに属する文章情報の群
＝各文章情報に「不当」フラグが付加されている
＝不当学習文章情報の群
勿論、特定カテゴリがユーザによって指定された文章情報の群である場合、学習文章蓄積部１１０は、以下のような文章情報の群を混在して蓄積する。
（１）ユーザ指定の特定カテゴリに属さない文章情報の群
＝各文章情報に「正当」フラグが付加されている
＝正当学習文章情報の群
（２）ユーザ指定の特定カテゴリに属する文章情報の群
＝各文章情報に「不当」フラグが付加されている
＝不当学習文章情報の群

学習文章キーワード検索部１１１は、学習文章蓄積部１１０に蓄積された多数の学習文章情報について、検索キーワード辞書部１０に蓄積された検索キーワードを含む学習文章情報を検索する。図２によれば、フラグの「正当」／「不当」に関係無く、検索キーワード「爆破」が含まれる全ての学習文章情報が検索されている。検索された多数の学習文章情報は、学習係り受け解析部１１２へ出力される。ここで、検索キーワード「爆破」を含んでいない学習文章情報は、以後の処理の対象とならない。

学習係り受け解析部１１２は、検索キーワードを含む多数の学習文章情報について、検索キーワードに対する係り受けキーワードを抽出する。学習係り受け解析部１１２は、係り受け解析の前段階として必要な形態素解析も含む。「形態素」とは、文章の構成要素のうち、意味を持つ最小の単位をいう。形態素解析には、「単語」毎に「品詞」「読み」が登録された辞書を有する。本発明によれば、検索キーワードを含む１文のみ（１文よりも短くてもよい）について、形態素に分割し、辞書を用いて「品詞」「読み」の文法規則を形成し、その上で、係り受けを解析する。

係り受け解析器として、例えば従来技術のＣａｂｏＣｈａ（例えば非特許文献１参照）又はＫＮＰ（例えば非特許文献２参照）を用いてもよい。「ＣａｂｏＣｈａ」は、代表的な日本語係り受け解析器であって、サポートベクタマシンに基づいて、バックトラックを実行しない決定的な解析アルゴリズム(Cascaded Chunking Model)を採用した技術である。また、「ＫＮＰ」は、日本語文の日本語文の構文・格解析システムであって、形態素解析システムJUMANの解析結果の形態素列を入力とし、文節及び基本句間の係り受け関係及び格関係を出力する技術である。

図２によれば、検索キーワード「爆破」に対して、以下のような係り受けキーワードが抽出される。
学習文章情報ａ：「不当」フラグが付加（違法・有害カテゴリに属する）
「爆破」<-「学校」
学習文章情報ｂ：「正当」フラグが付加（違法・有害カテゴリに属さない）
「爆破」<-「鉱山」
学習文章情報ｃ：「正当」フラグが付加（違法・有害カテゴリに属さない）
「爆破」<-「駄目」
これによって、以下のようなキーワード組が、係り受け関連キーワード抽出部１１４へ出力される。
「検索キーワード<-係り受けキーワード：正当／不当」
「爆破 <- 学校：不当」
「爆破 <- 鉱山：正当」
「爆破 <- 駄目：正当」

概念辞書記憶部１１３は、概念辞書を記憶する。ここで、概念辞書（シソーラス）とは、単語を意味上の包含関係によって分類した辞書をいう。概念辞書は、これらの関係を単語のノードをツリー状に構成した木構造で表したものである。

係り受け関連キーワード抽出部１１４は、キーワード組を学習係り受け解析部１１２から入力する。係り受け関連キーワード抽出部１１４は、「不当」フラグが付加された係り受けキーワードについて、概念辞書を用いて、下位概念となる複数の係り受け関連キーワードを抽出する。例えば、検索キーワード「爆破」と、係り受けキーワード「学校」とのキーワード組がある場合、係り受けキーワード「学校」に対する係り受け関連キーワードを抽出する。

図２によれば、以下のように、係り受けキーワード「学校」に対する係り受け関連キーワードが、概念辞書から抽出される。
「学校」->「小学校」「専門学校」
係り受け関連キーワード抽出部１１４は、検索キーワード「爆破」に対する係り受けキーワード「学校」及び係り受け関連キーワード「小学校」「専門学校」を、正当割合算出部１１５へ出力する。

尚、係り受け関連キーワード抽出部１１４は、「正当」フラグが付加された係り受けキーワードに対しても、概念辞書を用いて、下位概念となる複数の係り受け関連キーワードを抽出するものであってもよい。この場合、非検索キーワード辞書部１１６には、正当割合の高いキーワードが、多く登録されることとなる。これによって、非検索キーワード辞書部１１６は、非検索キーワードを多く蓄積し、非検索キーワードの判定精度を高めることができる。

正当割合算出部１１５は、係り受けキーワード及び係り受け関連キーワード毎に、正当学習文章情報の数と、不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する正当学習文章情報の数の正当割合を算出する。多数の学習文章情報に基づいて、１つの検索キーワードに対する多数の正当／不当の係り受けキーワードが抽出される。そして、検索キーワードに対する係り受けキーワード及び係り受け関連キーワード毎に、正当割合が算出される。

図２によれば、以下のように、係り受けキーワード及び係り受け関連キーワード毎に正当割合が算出される。
「爆破」<-「学校」：正当学習文章情報の数＝４０個
不当学習文章情報の数＝１９６０個
正当割合＝４０／２０００＝２％
「爆破」<-「小学校」：正当学習文章情報の数＝１０個
不当学習文章情報の数＝９９０個
正当割合＝１０／１０００＝１％
「爆破」<-「専門学校」：正当学習文章情報の数＝５個
不当学習文章情報の数＝９５個
正当割合＝５／１００＝５％
「爆破」<-「炭坑」：正当学習文章情報の数＝９０個
不当学習文章情報の数＝１０個
正当割合＝９０／１００＝９０％
「爆破」<-「鉱山」：正当学習文章情報の数＝９９個
不当学習文章情報の数＝１個
正当割合＝９９／１００＝９９％
そして、正当割合算出部１１５は、係り受けキーワード毎の正当割合を、非検索キーワード辞書部１１６へ出力する。
「爆破」<-「学校」：２％
<-「小学校」：１％
<-「専門学校」：５％
<-「炭坑」：９０％
<-「鉱山」：９９％

非検索キーワード辞書部１１６は、正当割合が所定閾値以上となる係り受けキーワード及び係り受け関連キーワードを登録する。図２によれば、所定閾値７０％以上に設定したとする。この場合、検索キーワード「爆破」に対して、正当割合が７０％以上となる係り受けキーワード「炭坑」と、「炭坑」の下位概念となる「鉱山」とが、検索キーワード「爆破」に対する係り受けとなる非検索キーワードとして非検索キーワード辞書部１１６に登録される。

尚、非検索キーワード辞書部１１６は、正当割合が所定閾値以上となった係り受けキーワードを記憶するだけでなく、全ての係り受けキーワード毎に正当割合を対応付けて登録するものであってもよい。これによって、非検索キーワードとして導出するレベルとしての所定閾値は、ユーザ指定によって可変とすることもできる。
検索キーワード「爆破」<-非検索・係り受けキーワード「学校」：２％
<-非検索・係り受け関連キーワード「小学校」：１％
<-非検索・係り受け関連キーワード「専門学校」：５％
<-非検索・係り受けキーワード「炭坑」：９０％
<-非検索・係り受け関連キーワード「鉱山」：９９％
<-非検索・係り受けキーワード「駄目」：６０％

［対象文章分類機能部］
図３は、本発明における対象文章情報の分類を表す説明図である。以下では、図１の説明と共に、図３の内容が説明される。

対象文章入力部１２０は、解析対象となる対象文章情報を入力する。対象文章情報は、ユーザの操作に応じて入力されるものであってもよいし、ネットワークを介して受信されるものであってもよい。ネットワークを介して受信される対象文章情報としては、例えば、公開されているブログ(Weblog)、掲示板及び／又はクチコミコメントにおける不特定多数のユーザによって記述された文章情報である。

対象文章キーワード検索部１２１は、対象文章情報が、検索キーワード辞書部１０に蓄積された検索キーワードを含むか否かを判定する。図３によれば、対象文章情報内の文章「・・・鉱山を速やかに爆破・・・」に、検索キーワード「爆破」が含まれる。そのために、検索キーワード有りとして、その対象文章情報は、対象係り受け解析部１２２へ出力される。

対象係り受け解析部１２２は、検索キーワードを含む対象文章情報について、検索キーワードに対する係り受けキーワードを抽出する。図３によれば、検索キーワード「爆破」に対して、係り受けキーワード「鉱山」が抽出される。
対象文章情報：「爆破」<-「鉱山」
抽出された係り受けキーワード「鉱山」は、対象文章情報と共に、非検索キーワード判定部１２３へ出力される。

非検索キーワード判定部１２３は、抽出された係り受けキーワードが、非検索キーワード辞書部１１６に登録された非検索係り受けキーワードと一致するか否かを判定する。図３によれば、非検索キーワード辞書部１１６には、「爆破」<-「鉱山」が登録されている。そのために、非検索キーワード判定部１２３は、抽出された係り受けキーワード「鉱山」が、非検索係り受けキーワード「鉱山」と一致すると判定する。この判定結果は、文章情報分類部１２４へ出力される。

尚、非検索キーワード判定部１２３は、抽出された係り受けキーワードが、非検索キーワード辞書部１１６に登録された係り受けキーワードと一致し、且つ、当該係り受けキーワードにおける正当割合が所定閾値以上である場合に、当該係り受けキーワードに対して真と判定するものであってもよい。例えば、一致した係り受けキーワード「鉱山」について、非検索キーワード辞書部１１６に登録された正当割合９９％は、所定閾値７０％以上であるので、非検索キーワードとして採用される。逆に、所定閾値７０％未満の非検索キーワードは採用されない。

文章情報分類部１２４は、対象文章キーワード検索部１２１によって偽と判定された対象文章情報と、対象文章キーワード検索部１２１によって真と判定されると共に非検索キーワード判定部１２３によって真と判定された対象文章情報とを、特定カテゴリに属さない文章情報として分類する。

図４は、本発明における概念辞書を用いた係り受け関連キーワードの抽出を表す第１の説明図である。

検索キーワード「爆破」に対して係り受けキーワード「学校」が抽出された場合を想定する。ここで、「学校，爆破」のキーワード組は、正当割合が低いとする。このとき、「学校」が下位概念「小学校」「専門学校」であったとしても、検索キーワード「爆破」に対しては、その正当割合は「学校」と同程度に低い。

図４によれば、概念辞書は、木構造で表されている。木構造の概念辞書は、キーワードを構成要素としており、これらの各構成要素をノードという。ノードは、階層状に構成されている。階層ｎのｎの値が小さい単語ほど、上位概念となる。例えば、階層３の「学校」は、階層４の「小学校」「専門学校」の上位概念となる。

係り受け関連キーワードは、一方では、係り受けキーワードの下位概念に含まれるキーワードであって、例えば「学校」の下位概念に含まれる「小学校」「○○小学校」である。また、他方では、係り受けキーワードの上位概念に含まれるキーワードであって、例えば、「学校」の上位概念に含まれる「公共施設」である。「公共施設を爆破」であっても、「学校を爆破」と同程度に正当割合が低い。

係り受け関連キーワードとして抽出されるキーワード数として、閾値が予め設定されていてもよい。例えば、最初に下位概念に含まれるキーワードを抽出し、抽出されたキーワード数が閾値以下であれば、上位概念の部分木に含まれるキーワードも抽出の対象としてもよい。例えば、係り受けキーワードが「学校」であるとき、閾値を７と定めた場合、下位概念に含まれる「小学校」「専門学校」「○○小学校」だけでは、キーワード数が閾値以下となる。そこで、上位概念「公共施設」の部分木に含まれる「駅」「病院」も抽出の対象とする。

係り受け関連キーワードの抽出は、係り受けキーワードに対応するノードよりも少なくとも１階層上の上位概念のノードから見て、下位概念となる複数の係り受け関連キーワードを概念辞書を用いて抽出するものであってもよい。例えば、係り受けキーワードが「学校」であるとき、１階層上の「公共施設」のノードから見て、下位概念となる「駅」「地下鉄駅」「私鉄駅」「病院」を抽出する。例えば「駅を爆破」であっても、「学校を爆破」と同程度に正当割合が低い。

また、係り受け関連キーワードの抽出は、係り受けキーワードに対応するノードの階層ｎの高さに基づいて、当該階層ｎから何階層上の上位概念のノードから見るかを決定し、下位概念となる複数の係り受け関連キーワードを、概念辞書を用いて抽出するものであってもよい。例えば、係り受けキーワードが［ノード３］の「学校」であるときは、１階層上の上位概念のノードである［ノード２］の「公共施設」の下位概念となる係り受け関連キーワードを抽出する。これに対し、係り受けキーワードが［ノード４］の「小学校」であるときは２階層上の上位概念のノードである［ノード２］の「公共施設」の下位概念となる係り受け関連キーワードを抽出する。

更に、係り受け関連キーワードの抽出は、係り受けキーワードの品詞に基づいて、当該階層ｎから何階層上の上位概念のノードから見るかを決定し、下位概念となる複数の係り受け関連キーワードを、概念辞書を用いて抽出するものであってもよい。また、係り受けキーワードの品詞に基づいて、係り受け関連キーワードとして抽出するか否かを決定するものであってもよい。

係り受けキーワードの品詞によって、上位概念の部分木に含まれるキーワードを抽出すべきでない場合がある。例えば、名詞の場合は、１階層上の上位概念のノードから見て下位概念となる係り受け関連キーワードは、意味的に類似したものとなりやすい。これに対し、動詞の場合は、同様に抽出すると、係り受け関連キーワードは、意味的にずれが大きくなる傾向がある。以下に、名詞「子供」と、動詞「殺す」の例を示す。
「子供」-> 「娘」「初子」「お祖母さん子」「隠し子」「子弟」「次女」「双子」
「殺す」->「暗殺する」「殺虫」「損なう」「潰す」「間引く」「除ける」

図５は、本発明における概念辞書を用いた係り受け関連キーワードの抽出を表す第２の説明図である。

係り受け関連キーワードの抽出には、スコアｓを用いてもよい。図５によれば、抽出された係り受け関連キーワードのスコアｓ(ｗ')は、以下の式によって算出される。
ｓ(ｗ')＝ｓ(ｗ)×ｆ（ｄ(ｗ')）
ｆ(ｘ)＝ｃ^ｘ
ｓ(ｗ)：係り受けキーワードのスコア
ｄ(ｗ')：係り受けキーワードと係り受け関連キーワードとの重み付け距離
ｃ：定数（例えば０．８）

重み付け距離ｄ(ｗ')について、上位概念になるキーワードに対する距離は、下位概念になるキーワードに対する距離よりも、重み値が大きい。例えば、係り受けキーワードから見た上位概念になるキーワードに対する距離は０．６であるのに対し、下位概念になるキーワードに対する距離は０．２である。

例えば、以下の例について説明する。
ｗ＝「学校」、ｓ(ｗ)＝２
ｗ’＝「小学校」
ｄ(ｗ')：「学校」に対する「小学校」の重み付け距離
このとき、「学校」に対する「小学校」のスコアは、以下のように表される。
ｄ(ｗ')＝０．２＋０．２＝０．４
ｆ(ｄ(ｗ'))＝ｃ^0.4＝０．８^0.4＝０．９２
ｓ(ｗ')＝ｓ(ｗ)×ｆ(ｄ(ｗ'))＝２×０．８^0.4＝１．８３

同様に、「学校」に対する「駅」のスコアは、以下のように表される。
ｄ(ｗ')＝０．６＋０．２＝０．８
ｆ(ｄ(ｗ'))＝ｃ^0.8＝０．８^0.8＝０．８４
ｓ(ｗ')＝ｓ(ｗ)×ｆ(ｄ(ｗ'))＝２×０．８^0.8＝１．６７

このように、スコア２の「学校」から見て、スコア１．８３の「小学校」よりも、スコア１．６７の「駅」の方が、重み付け距離は遠い。この重み付け距離に閾値を設定することよって、係り受けキーワードから拡張すべき重み付け距離の範囲を定めることができる。閾値０．５である場合、例えばスコア２の「学校」から見て、スコア１．８３の「小学校」及びスコア１．６７の「駅」は、重み付け距離の範囲に含まれる。これによって、「学校->爆破」は、「小学校->爆破」「駅->爆破」に拡張される。

図６は、本発明における文章解析サーバのシステム構成図である。

図６によれば、文章解析サーバ１は、前述した検索キーワード辞書部１０、非検索辞書生成機能部１１及び対象文章分類機能部１２と、通信インタフェース部１３とを有する。文章解析サーバ１は、インターネットを介して、Ｗｅｂサーバ２と通信する。また、そのＷｅｂサーバ２は、端末３から送信された対象文章情報としてのＷｅｂ文章情報を蓄積し且つ公開している。文章解析サーバ１の対象文章分類機能部１２は、通信インタフェース部１３を介して、多数のＷｅｂサーバ２から対象文章情報を受信する。対象文章分類機能部１２は、検索キーワード辞書と、非検索辞書生成機能部１１によって生成された非検索キーワード辞書とを用いて、その対象文章情報を特定カテゴリに分類する。Ｗｅｂサーバ２から受信した対象文章情報について、例えば違法・有害な特定カテゴリに分類することができる。

図７は、本発明におけるシステムのシーケンス図である。

（Ｓ７０１）非検索辞書生成機能部１１は、学習文章情報として、特定カテゴリに属さない多数の正当学習文章情報と、特定カテゴリに属する多数の不当学習文章情報とを蓄積している。最初に、多数の学習文章情報の中から、検索キーワード辞書に登録された検索キーワードを含む学習文章情報が検索される。
（Ｓ７０２）検索キーワードを含む学習文章情報について、検索キーワードに対する係り受けキーワードを抽出する。
（Ｓ７０３）単語のノードがツリー状に構成された概念辞書を用いて、係り受けキーワードに対応するノードから見て、下位概念となる複数の係り受け関連キーワードを抽出する。
（Ｓ７０４）係り受けキーワード毎に、正当学習文章情報の数と、不当学習文章情報の数とが計数され、全ての学習文章情報の数に対する正当学習文章情報の数の正当割合が算出される。
（Ｓ７０５）そして、正当割合が所定閾値以上となる係り受けキーワードが、非検索キーワードとして登録される。
（Ｓ７０６）端末３は、利用者の操作に応じて、対象文章情報を、Ｗｅｂサーバ２へ送信する。
（Ｓ７０７）文章解析サーバ１は、Ｗｅｂサーバ２から、解析対象となる対象文章情報を受信する。その対象文章情報は、対象文章分類機能部１２へ出力される。
（Ｓ７０８）対象文章情報が、検索キーワード辞書に蓄積された検索キーワードを含むか否かを判定する。
（Ｓ７０９）検索キーワードを含む対象文章情報について、検索キーワードに対する係り受けキーワードを抽出する。
（Ｓ７１０）抽出された係り受けキーワードが、非検索キーワード辞書に登録された非検索係り受けキーワードと一致するか否かを判定する。
（Ｓ７１１）そして、Ｓ７０８によって偽と判定された対象文章情報と、Ｓ７０８によって真と判定されると共にＳ７１０によって真と判定された対象文章情報とを、特定カテゴリに属さない文章情報として分類する。これによって、検索キーワードに対する係り受けキーワードが、非検索キーワード辞書に登録された非検索キーワードである場合、その文章情報は、特定カテゴリに属さないとして検索されないようになされる。

最後に、本発明と従来技術との性能比較評価結果について説明する。形態素解析器としてＭｅＣａｂを用い、係り受け解析器としてＣａｂｏｃｈａを用い、概念辞書としてＥＤＲ電子化辞書を用いた。人手でラベルを付与した学習用文書４０万記事（違法・有害４万記事、無害３６万記事）と、評価対象文書４０万記事（違法・有害４万記事、無害３６万記事）とからなる、商用のブログ文書８０万記事を利用した。

情報検索システムの検索性能は、適合率(precision)及び再現率(recall)によって評価される。適合率は、検索結果として得られた集合中にどれだけ検索に適合した文書を含んでいるかという正確性の指標である。再現率は、検索対象としている文書の中で検索結果として適合している文書（正解文書）のうちでどれだけの文書を検索できているかという網羅性の指標である。ここで、適合率を上げれば再現率が下がり、再現率を上げれば適合率が下がるというトレードオフの関係にある。そのために、適合率と再現率の調和平均となるＦ値(F-measure)を用いて、検索性能を評価することも好ましい。Ｆ値が高いほど、検索性能が良いことを意味する。

図８は、再現率(Recall)に対する適合率(Precision)を表すグラフである。概念辞書を用いたことにより、従来技術と比較して、再現率は最大４．２％向上し、適合率は最大２．０％向上した。

図９は、辞書のキーワード数に対するＦ値を表すグラフである。概念辞書を用いたことにより、Ｆ値は最大３．９％向上した。これは、学習文書中から得られた少数の係り受け文節組に基づいて、概念辞書を用いて拡張したことによって、新たに多くの表現を正しく判定することが可能になったことによる効果と考えられる。

以上、詳細に説明したように、本発明の文章分類プログラム、サーバ及び方法によれば、例えば予め登録されたキーワードによって違法・有害なカテゴリに属するか否かを判定する際に、違法・有害でない文章情報が、違法・有害なカテゴリに分類されることを、できる限り減らすと共に、適用可能な文章の範囲をできる限り拡張することができる。本発明によれば、検索キーワード辞書に加えて、その検索キーワードと係り受け関係となる非検索キーワードを登録した非検索キーワード辞書を備える。また、非検索キーワード辞書は、概念辞書を用いて、係り受けキーワードだけでなく、その関連キーワードも、非検索キーワードとして登録することができる。これによって、違法・有害な検索キーワードを含む文章情報であっても、その係り受け関係となるキーワードが非検索検索キーワードと一致する場合、違法・有害な文章情報でないと判断される。本発明によれば、検索キーワードの係り受け関係も解析するために、過剰な判定が抑制され、分類精度が向上する。

また、本発明は、違法・有害な文章情報と判定されたものであっても、本来は違法・有害な文章情報ではないと判定されるべきものを取り除く場合、及び、違法・有害な文章情報ではないと判定されたものであっても、本来は違法・有害な文章情報と判定されるべきものを取り除く場合にも利用できる。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１文章解析サーバ
１０検索キーワード辞書部
１１非検索辞書生成機能部
１１０学習文章蓄積部
１１１学習文章キーワード検索部
１１２学習係り受け解析部
１１３概念辞書記憶部
１１４係り受け関連キーワード抽出部
１１５正当割合算出部
１１６非検索キーワード辞書部
１２対象文章分類機能部
１２０対象文章入力部
１２１対象文章キーワード検索部
１２２対象係り受け解析部
１２３非検索キーワード判定部
１２４文章情報分類部
１３通信インタフェース部
２Ｗｅｂサーバ
３端末

Claims

検索キーワードを蓄積した検索キーワード辞書手段を有し、当該検索キーワードを含む文章情報を検索するようにコンピュータを機能させる文章検索プログラムであって、
特定カテゴリに属さない複数の正当学習文章情報と、前記特定カテゴリに属する複数の不当学習文章情報とを蓄積した学習文章蓄積手段と、
前記学習文章蓄積手段を用いて、前記検索キーワードを含む学習文章情報を検索する学習文章キーワード検索手段と、
前記検索キーワードを含む学習文章情報について、前記検索キーワードに対する係り受けキーワードを抽出する学習係り受け解析手段と、
単語のノードがツリー状に構成された概念辞書記憶手段と、
前記概念辞書記憶手段を用いて、前記係り受けキーワードに対応するノードから見て、下位概念となる複数の係り受け関連キーワードを抽出する係り受け関連キーワード抽出手段と、
前記係り受けキーワード及び前記係り受け関連キーワードの全てのキーワード毎に、前記正当学習文章情報の数と、前記不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する前記正当学習文章情報の数の正当割合を算出する正当割合算出手段と、
前記正当割合が所定閾値以上となる前記係り受けキーワード及び前記係り受け関連キーワードを非検索キーワードとして登録する非検索キーワード辞書手段と
してコンピュータを機能させ、前記検索キーワードに対する係り受けキーワードとして非検索キーワードが含まれている文章情報は検索されないようにすることを特徴とする文章検索プログラム。
前記係り受け関連キーワード抽出手段は、前記概念辞書記憶手段を用いて、前記係り受けキーワードに対応するノードよりも少なくとも１階層上の上位概念のノードから見て、下位概念となる複数の係り受け関連キーワードを抽出するようにコンピュータを機能させることを特徴とする請求項１に記載の文章検索プログラム。
前記係り受け関連キーワード抽出手段は、前記概念辞書記憶手段を用いて、前記係り受けキーワードに対応するノードの階層ｎの高さに基づいて、当該階層ｎから何階層上の上位概念のノードから見るかを決定するようにコンピュータを機能させることを特徴とする請求項２に記載の文章検索プログラム。
前記係り受け関連キーワード抽出手段は、前記係り受けキーワードの品詞に基づいて、前記概念辞書記憶手段を用いて、当該階層ｎから何階層上の上位概念のノードから見るかを決定するようにコンピュータを機能させることを特徴とする請求項２に記載の文章検索プログラム。
前記係り受け関連キーワード抽出手段は、前記係り受け関連キーワードの品詞に基づいて、前記係り受け関連キーワードとして抽出するか否かを決定するようにコンピュータを機能させることを特徴とする請求項４に記載の文章検索プログラム。
前記概念辞書記憶手段を用いて、前記検索キーワードに対応するノードよりも下位概念となる複数の検索関連キーワードを抽出する検索関連キーワード抽出手段を更に有し、
前記学習文章キーワード検索手段は、前記学習文章蓄積手段を用いて、前記検索関連キーワードを含む学習文章情報を更に検索し、
前記学習係り受け解析手段は、前記検索関連キーワードを含む学習文章情報について、前記検索関連キーワードに対する係り受けキーワードを更に抽出する
ようにコンピュータを機能させることを特徴とする請求項１から５のいずれか１項に記載の文章検索プログラム。
解析対象となる対象文章情報を入力する対象文章入力手段と、
前記対象文章情報が、前記検索キーワード辞書手段に蓄積された前記検索キーワードを含むか否かを判定する対象文章キーワード検索手段と、
前記検索キーワードを含む対象文章情報について、前記検索キーワードに対する係り受けキーワードを抽出する対象係り受け解析手段と、
抽出された前記係り受けキーワードが、前記非検索キーワード辞書手段に登録された非検索係り受けキーワードと一致するか否かを判定する非検索キーワード判定手段と、
前記対象文章キーワード検索手段によって偽と判定された前記対象文章情報と、前記対象文章キーワード検索手段によって真と判定されると共に前記非検索キーワード判定手段によって真と判定された前記対象文章情報とを、前記特定カテゴリに属さない文章情報として分類する文章情報分類手段と
してコンピュータを機能させることを特徴とする請求項１から６のいずれか１項に記載の文章検索プログラム。
前記非検索キーワード辞書手段は、登録された係り受けキーワード毎に、前記正当割合算出手段によって算出された前記正当割合を対応付けて登録しており、
前記非検索キーワード判定手段は、抽出された前記係り受けキーワードが、前記非検索キーワード辞書手段に登録された係り受けキーワードと一致し、且つ、当該係り受けキーワードにおける前記正当割合が所定閾値以上である場合に、当該係り受けキーワードに対して真と判定する
ようにコンピュータを機能させることを特徴とする請求項７に記載の文章検索プログラム。
前記検索キーワードは、カテゴリ分類を目的として設定されたキーワードであり、
前記学習文章蓄積手段における前記特定カテゴリは、前記カテゴリ分類に基づく文章情報の群であるようにコンピュータを機能させることを特徴とする請求項１から８のいずれか１項に記載の文章検索プログラム。
前記検索キーワードは、違法・有害なキーワードであり、
前記学習文章蓄積手段における前記特定カテゴリは、違法・有害な文章情報の群であるようにコンピュータを機能させることを特徴とする請求項１から８のいずれか１項に記載の文章検索プログラム。
前記検索キーワードは、ユーザによって指定されたキーワードであり、
前記学習文章蓄積手段における前記特定カテゴリは、ユーザによって指定された文章情報の群であるようにコンピュータを機能させることを特徴とする請求項１から８のいずれか１項に記載の文章検索プログラム。
前記対象文章情報は、ネットワークを介して公開されているブログ(Weblog)、掲示板及び／又はクチコミコメントにおける不特定多数のユーザによって記述された文章情報であるようにコンピュータを機能させることを特徴とする請求項１から１１のいずれか１項に記載の文章検索プログラム。
検索キーワードを蓄積した検索キーワード辞書手段を有し、他の公開サーバからネットワークを介して取得した文章情報から、当該検索キーワードを含む文章情報を検索する文章解析サーバであって、
特定カテゴリに属さない複数の正当学習文章情報と、前記特定カテゴリに属する複数の不当学習文章情報とを蓄積した学習文章蓄積手段と、
前記学習文章蓄積手段を用いて、前記検索キーワードを含む学習文章情報を検索する学習文章キーワード検索手段と、
前記検索キーワードを含む学習文章情報について、前記検索キーワードに対する係り受けキーワードを抽出する学習係り受け解析手段と、
単語のノードがツリー状に構成された概念辞書記憶手段と、
前記概念辞書記憶手段を用いて、前記係り受けキーワードに対応するノードから見て、下位概念となる複数の係り受け関連キーワードを抽出する係り受け関連キーワード抽出手段と、
前記係り受けキーワード及び前記係り受け関連キーワードの全てのキーワード毎に、前記正当学習文章情報の数と、前記不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する前記正当学習文章情報の数の正当割合を算出する正当割合算出手段と、
前記正当割合が所定閾値以上となる前記係り受けキーワード及び前記係り受け関連キーワードを非検索キーワードとして登録する非検索キーワード辞書手段と
を有し、前記検索キーワードに対する係り受けキーワードとして非検索キーワードが含まれている文章情報は検索されないようにすることを特徴とする文章解析サーバ。
検索キーワードを蓄積した検索キーワード辞書を有し、当該検索キーワードを含む文章情報を、コンピュータを用いて検索する文章検索方法であって、
特定カテゴリに属さない複数の正当学習文章情報と、前記特定カテゴリに属する複数の不当学習文章情報とを、学習文章蓄積部に蓄積しており、
単語のノードがツリー状に構成された概念辞書を、概念辞書記憶部に記憶しており、
前記学習文章蓄積手段を用いて、前記検索キーワードを含む学習文章情報を検索する第１のステップと、
前記検索キーワードを含む学習文章情報について、前記検索キーワードに対する係り受けキーワードを抽出する第２のステップと、
前記概念辞書記憶手段を用いて、前記係り受けキーワードに対応するノードから見て、下位概念となる複数の係り受け関連キーワードを抽出する第３のステップと、
前記係り受けキーワード及び前記係り受け関連キーワードの全てのキーワード毎に、前記正当学習文章情報の数と、前記不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する前記正当学習文章情報の数の正当割合を算出する第４のステップと、
前記正当割合が所定閾値以上となる前記係り受けキーワード及び前記係り受け関連キーワードを非検索キーワードとして登録する第５のステップと
を有し、前記検索キーワードに対する係り受けキーワードとして非検索キーワードが含まれている文章情報は検索されないようにすることを特徴とする文章検索方法。