JP5364010B2 - Sentence search program, server and method using non-search keyword dictionary for search keyword dictionary - Google Patents

Sentence search program, server and method using non-search keyword dictionary for search keyword dictionary Download PDF

Info

Publication number
JP5364010B2
JP5364010B2 JP2010033208A JP2010033208A JP5364010B2 JP 5364010 B2 JP5364010 B2 JP 5364010B2 JP 2010033208 A JP2010033208 A JP 2010033208A JP 2010033208 A JP2010033208 A JP 2010033208A JP 5364010 B2 JP5364010 B2 JP 5364010B2
Authority
JP
Japan
Prior art keywords
keyword
search
dependency
sentence
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010033208A
Other languages
Japanese (ja)
Other versions
JP2011170578A (en
Inventor
和史 池田
一則 松本
康弘 滝嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI R&D Laboratories Inc
Original Assignee
KDDI R&D Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI R&D Laboratories Inc filed Critical KDDI R&D Laboratories Inc
Priority to JP2010033208A priority Critical patent/JP5364010B2/en
Publication of JP2011170578A publication Critical patent/JP2011170578A/en
Application granted granted Critical
Publication of JP5364010B2 publication Critical patent/JP5364010B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a text classification program, server and method for preventing text information that is not illegal or harmful from being classified into an illegal/harmful category when keywords registered in advance are used for the classification. <P>SOLUTION: Multiple legitimate learned text information which do not belong to a specific category, and multiple illegitimate learned text information which belong to the specific category are stored in a learned text storage means. Learned text information including a search keyword is searched. Modification keywords for the search keyword are extracted. A legitimacy rate of each modification keyword is calculated as the number of pieces of legitimate learned text information to the number of all the pieces of learned text information. The modification keywords whose legitimacy rates are not lower than a predetermined threshold are registered as non-search keywords to generate a non-search keyword dictionary. The text information including the non-search keyword as the modification keyword for the search keyword is prevented from being searched. <P>COPYRIGHT: (C)2011,JPO&amp;INPIT

Description

本発明は、検索キーワード辞書を用いた文章検索プログラム、サーバ及び方法に関する。   The present invention relates to a text search program, server, and method using a search keyword dictionary.

インターネットの普及により、ブログ、掲示板又はクチコミコメントを公開するWebサイトに、様々なテキストが記述されている。「ブログ」(Weblog)とは、一般的に個人によって運営され、時事ニュースや専門的トピックスに関する自らの意見を表明するために、日記的に更新することができるサイトをいう。また、「掲示板」とは、様々なテーマについて、他人と議論を逐次に交換するためのサイトをいう。更に、「クチコミコメント」とは、人の噂のような、物事の評判などに関するコメントを記述することができるサイトをいう。これらのサイトの普及により、一般のユーザが、インターネットで自由に情報発信できるようになった。   With the spread of the Internet, various texts are described on blogs, bulletin boards, or Web sites that publish reviews. A “blog” is a site that is generally run by an individual and can be updated in a diary to express their opinions on current news and specialized topics. A “bulletin board” is a site for sequentially exchanging discussions with other people on various themes. Furthermore, “review comments” refers to a site where comments about things such as people's rumors can be described. With the spread of these sites, general users can freely send information on the Internet.

これに伴って、これらWebサイトに、個人や組織を誹謗及び中傷する文章や、犯罪予告、犯罪助長、又はアダルトサイトのような違法・有害な文章情報が記述されることが社会的な問題となってきた。そのために、表現の自由を配慮しつつ、これら違法・有害な文章を記述した文章や個人を検出する必要がある。   Along with this, it is a social problem that these websites contain text that slanders and slanders individuals and organizations, or illegal and harmful text information such as crime notices, crime assistants, or adult sites. It has become. Therefore, it is necessary to detect sentences and individuals that describe these illegal and harmful sentences while giving consideration to freedom of expression.

従来、違法・有害な文章を記述したサイトに対して、端末からのアクセスを拒否するフィルタリングの技術がある(例えば特許文献1参照)。この技術によれば、予めキーワードやURL(Uniform Resource Locator)を登録しておき、そのキーワードやURLが含まれているWebサイトに対する端末からのアクセスが拒否される。しかし、予め登録しておくキーワードやURLを常に更新する必要があり、時間とコストを要する。   Conventionally, there is a filtering technique for denying access from a terminal to a site describing illegal / harmful text (see, for example, Patent Document 1). According to this technique, a keyword or URL (Uniform Resource Locator) is registered in advance, and access from a terminal to a Web site including the keyword or URL is denied. However, it is necessary to constantly update keywords and URLs registered in advance, which requires time and cost.

これに対して、キーワードやURLを自動的に抽出し、フィルタリングする技術がある(例えば特許文献2参照)。この技術によれば、アダルトサイトや犯罪予告サイトなどの違法・有害な文章情報から、キーワードを自動的に抽出することができる。これらキーワードを予め登録しておくことによって、解析対象となる文章情報に、それらキーワードが含まれているか否かによって、違法・有害性を判定する。   On the other hand, there is a technique for automatically extracting and filtering keywords and URLs (see, for example, Patent Document 2). According to this technology, keywords can be automatically extracted from illegal / harmful text information such as adult sites and crime notice sites. By registering these keywords in advance, illegality / harmfulness is determined depending on whether or not the text information to be analyzed contains those keywords.

特開2007−128119号公報JP 2007-128119 A 特開2009−37420号公報JP 2009-37420 A

長岡技術科学大学、自然言語処理研究室、「CaboCha」、[online]、[平成21年12月28日検索]、インターネット<URL:http://nlp.nagaokaut.ac.jp/CaboCha>Nagaoka University of Technology, Natural Language Processing Laboratory, “CaboCha”, [online], [Search on December 28, 2009], Internet <URL: http://nlp.nagaokaut.ac.jp/CaboCha> 京都大学大学院情報学研究科知能情報学専攻、黒橋研究室、「日本語構文解析システム KNP」、[online]、[平成21年12月28日検索]、インターネット<URL:http://nlp.kuee.kyoto-u.ac.jp/nl-resource/knp.html>Department of Intelligent Informatics, Graduate School of Informatics, Kyoto University, Kurohashi Laboratory, "Japanese Parsing System KNP", [online], [Search on December 28, 2009], Internet <URL: http: // nlp .kuee.kyoto-u.ac.jp / nl-resource / knp.html>

しかしながら、一般的なキーワードが、違法・有害なカテゴリに属するものとして登録された場合、本来なら違法・有害でない文章も、違法・有害な文章として拾ってしまうという課題がある。例えば、キーワード検索技術を単に用いた場合、「学校を爆破」のような違法・有害なキーワードを検出するために、「爆破」を違法・有害なキーワードとして登録する。この場合、「鉱山を爆破」や「爆破は駄目」といった表現であっても、違法・有害な文章情報として検出してしまう。これによって、違法・有害カテゴリへの分類精度が低下することとなり、結局、目視によって違法・有害性が判断されている。   However, when a general keyword is registered as belonging to an illegal / harmful category, there is a problem that a sentence that is not illegal / harmful is picked up as illegal / harmful text. For example, when the keyword search technology is simply used, “blasting” is registered as an illegal / harmful keyword in order to detect illegal / harmful keywords such as “blast the school”. In this case, even expressions such as “blast the mine” and “no blast” are detected as illegal and harmful text information. As a result, the classification accuracy into the illegal / harmful category is lowered, and the illegal / hazardous is determined by visual inspection.

そこで、本発明は、例えば予め登録されたキーワードによって違法・有害なカテゴリに属するか否かを判定する際に、違法・有害でない文章情報が、違法・有害なカテゴリに分類されることをできる限り減らすと共に、適用可能な文章の範囲をできる限り拡張することができる文章分類プログラム、サーバ及び方法を提供することを目的とする。   Therefore, the present invention, for example, when determining whether or not a pre-registered keyword belongs to an illegal / harmful category, as long as it is possible to classify text information that is not illegal / harmful into an illegal / harmful category. An object of the present invention is to provide a sentence classification program, a server, and a method capable of reducing and expanding the range of applicable sentences as much as possible.

本発明によれば、検索キーワードを蓄積した検索キーワード辞書手段を有し、当該検索キーワードを含む文章情報を検索するようにコンピュータを機能させる文章検索プログラムであって、
特定カテゴリに属さない複数の正当学習文章情報と、特定カテゴリに属する複数の不当学習文章情報とを蓄積した学習文章蓄積手段と、
学習文章蓄積手段を用いて、検索キーワードを含む学習文章情報を検索する学習文章キーワード検索手段と、
検索キーワードを含む学習文章情報について、検索キーワードに対する係り受けキーワードを抽出する学習係り受け解析手段と、
単語のノードがツリー状に構成された概念辞書記憶手段と、
概念辞書記憶手段を用いて、係り受けキーワードに対応するノードから見て、下位概念となる複数の係り受け関連キーワードを抽出する係り受け関連キーワード抽出手段と、
係り受けキーワード及び係り受け関連キーワードの全てのキーワード毎に、正当学習文章情報の数と、不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する正当学習文章情報の数の正当割合を算出する正当割合算出手段と、
正当割合が所定閾値以上となる係り受けキーワード及び係り受け関連キーワードを非検索キーワードとして登録する非検索キーワード辞書手段と
してコンピュータを機能させ、検索キーワードに対する係り受けキーワードとして非検索キーワードが含まれている文章情報は検索されないようにコンピュータを機能させることを特徴とする。
According to the present invention, there is provided a text search program having search keyword dictionary means for storing search keywords, and causing a computer to function to search text information including the search keywords,
A learning sentence storage means for storing a plurality of legitimate learning sentence information not belonging to a specific category and a plurality of illegal learning sentence information belonging to a specific category;
Learning sentence keyword search means for searching learning sentence information including a search keyword using learning sentence storage means;
A learning dependency analysis means for extracting dependency keywords for the search keyword for learning sentence information including the search keyword;
Concept dictionary storage means in which word nodes are arranged in a tree shape;
Using a concept dictionary storage means, a dependency-related keyword extracting means for extracting a plurality of dependency-related keywords that are subordinate concepts as viewed from a node corresponding to the dependency keyword;
The number of valid learning text information and the number of illegal learning text information are counted for each of the dependency keywords and the dependency related keywords, and the number of valid learning text information with respect to the number of all learning text information is valid. A legitimate proportion calculating means for calculating the proportion;
Sentences that include a non-search keyword as a dependency keyword for a search keyword by causing the computer to function as a non-search keyword dictionary means for registering dependency keywords and dependency-related keywords with a legitimate ratio equal to or greater than a predetermined threshold as non-search keywords The computer functions so that information is not retrieved.

本発明の文章検索プログラムにおける他の実施形態によれば、
係り受け関連キーワード抽出手段は、概念辞書記憶手段を用いて、係り受けキーワードに対応するノードよりも少なくとも1階層上の上位概念のノードから見て、下位概念となる複数の係り受け関連キーワードを抽出するようにコンピュータを機能させることも好ましい。
According to another embodiment of the text search program of the present invention,
The dependency-related keyword extracting means extracts a plurality of dependency-related keywords that are lower concepts as viewed from a higher concept node at least one level higher than a node corresponding to the dependency keyword, using the concept dictionary storage means. It is also preferable to make the computer function like this.

本発明の文章検索プログラムにおける他の実施形態によれば、
係り受け関連キーワード抽出手段は、概念辞書記憶手段を用いて、係り受けキーワードに対応するノードの階層nの高さに基づいて、当該階層nから何階層上の上位概念のノードから見るかを決定するようにコンピュータを機能させることも好ましい。
According to another embodiment of the text search program of the present invention,
The dependency-related keyword extraction means uses the concept dictionary storage means to determine the number of higher concept nodes to be viewed from the hierarchy n based on the height of the hierarchy n of the node corresponding to the dependency keyword. It is also preferable to make the computer function like this.

本発明の文章検索プログラムにおける他の実施形態によれば、
係り受け関連キーワード抽出手段は、係り受けキーワードの品詞に基づいて、概念辞書記憶手段を用いて、当該階層nから何階層上の上位概念のノードから見るかを決定するようにコンピュータを機能させることも好ましい。
According to another embodiment of the text search program of the present invention,
The dependency-related keyword extracting means causes the computer to function based on the part-of-speech of the dependency keyword so as to determine the number of higher-level concept nodes to be viewed from the hierarchy n using the concept dictionary storage means. Is also preferable.

本発明の文章検索プログラムにおける他の実施形態によれば、
係り受け関連キーワード抽出手段は、係り受け関連キーワードの品詞に基づいて、係り受け関連キーワードとして抽出するか否かを決定するようにコンピュータを機能させることも好ましい。
According to another embodiment of the text search program of the present invention,
The dependency related keyword extracting means preferably causes the computer to function based on the part of speech of the dependency related keyword so as to determine whether or not to extract the dependency related keyword.

本発明の文章検索プログラムにおける他の実施形態によれば、
概念辞書記憶手段を用いて、検索キーワードに対応するノードよりも下位概念となる複数の検索関連キーワードを抽出する検索関連キーワード抽出手段を更に有し、
学習文章キーワード検索手段は、学習文章蓄積手段を用いて、検索関連キーワードを含む学習文章情報を更に検索し、
学習係り受け解析手段は、検索関連キーワードを含む学習文章情報について、検索関連キーワードに対する係り受けキーワードを更に抽出する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the text search program of the present invention,
It further includes search related keyword extraction means for extracting a plurality of search related keywords that are lower concepts than the node corresponding to the search keyword using the concept dictionary storage means,
The learning sentence keyword searching means further searches the learning sentence information including the search related keyword using the learning sentence storing means,
The learning dependency analysis means preferably causes the computer to function so as to further extract the dependency keyword for the search related keyword with respect to the learning sentence information including the search related keyword.

本発明の文章検索プログラムにおける他の実施形態によれば、
解析対象となる対象文章情報を入力する対象文章入力手段と、
対象文章情報が、検索キーワード辞書手段に蓄積された検索キーワードを含むか否かを判定する対象文章キーワード検索手段と、
検索キーワードを含む対象文章情報について、検索キーワードに対する係り受けキーワードを抽出する対象係り受け解析手段と、
抽出された係り受けキーワードが、非検索キーワード辞書手段に登録された非検索係り受けキーワードと一致するか否かを判定する非検索キーワード判定手段と、
対象文章キーワード検索手段によって偽と判定された対象文章情報と、対象文章キーワード検索手段によって真と判定されると共に非検索キーワード判定手段によって真と判定された対象文章情報とを、特定カテゴリに属さない文章情報として分類する文章情報分類手段と
してコンピュータを機能させることも好ましい。
According to another embodiment of the text search program of the present invention,
A target sentence input means for inputting target sentence information to be analyzed;
Target text keyword search means for determining whether the target text information includes a search keyword stored in the search keyword dictionary means;
A target dependency analysis means for extracting a dependency keyword for the search keyword for the target sentence information including the search keyword;
Non-search keyword determining means for determining whether or not the extracted dependency keyword matches the non-search dependency keyword registered in the non-search keyword dictionary means;
The target sentence information determined to be false by the target sentence keyword search means and the target sentence information determined to be true by the target sentence keyword search means and determined to be true by the non-search keyword determination means do not belong to a specific category. It is also preferable to cause the computer to function as text information classification means for classifying text information.

本発明の文章検索プログラムにおける他の実施形態によれば、
非検索キーワード辞書手段は、登録された係り受けキーワード毎に、正当割合算出手段によって算出された正当割合を対応付けて登録しており、
非検索キーワード判定手段は、抽出された係り受けキーワードが、非検索キーワード辞書手段に登録された係り受けキーワードと一致し、且つ、当該係り受けキーワードにおける正当割合が所定閾値以上である場合に、当該係り受けキーワードに対して真と判定するようにコンピュータを機能させることも好ましい。
According to another embodiment of the text search program of the present invention,
The non-search keyword dictionary means registers the dependency ratio calculated by the validity ratio calculation means in association with each registered dependency keyword,
The non-search keyword determining means determines that the extracted dependency keyword matches the dependency keyword registered in the non-search keyword dictionary means, and the valid ratio in the dependency keyword is equal to or greater than a predetermined threshold. It is also preferable to make the computer function so as to determine that the dependency keyword is true.

本発明の文章検索プログラムにおける他の実施形態によれば、
検索キーワードは、カテゴリ分類を目的として設定されたキーワードであり、
学習文章蓄積手段における特定カテゴリは、カテゴリ分類に基づく文章情報の群であるようにコンピュータを機能させることも好ましい。
According to another embodiment of the text search program of the present invention,
Search keywords are keywords set for the purpose of categorization,
It is also preferable to cause the computer to function so that the specific category in the learning sentence storage means is a group of sentence information based on the category classification.

本発明の文章検索プログラムにおける他の実施形態によれば、
検索キーワードは、違法・有害なキーワードであり、
学習文章蓄積手段における特定カテゴリは、違法・有害な文章情報の群であるようにコンピュータを機能させることも好ましい。
According to another embodiment of the text search program of the present invention,
Search keywords are illegal and harmful keywords,
It is also preferable to make the computer function so that the specific category in the learning sentence storage means is a group of illegal and harmful sentence information.

本発明の文章検索プログラムにおける他の実施形態によれば、
検索キーワードは、ユーザによって指定されたキーワードであり、
学習文章蓄積手段における特定カテゴリは、ユーザによって指定された文章情報の群であるようにコンピュータを機能させることも好ましい。
According to another embodiment of the text search program of the present invention,
Search keywords are keywords specified by the user,
It is also preferable to make the computer function so that the specific category in the learning sentence storage means is a group of sentence information designated by the user.

本発明の文章検索プログラムにおける他の実施形態によれば、
対象文章情報は、ネットワークを介して公開されているブログ(Weblog)、掲示板及び/又はクチコミコメントにおける不特定多数のユーザによって記述された文章情報であることも好ましい。
According to another embodiment of the text search program of the present invention,
The target text information is also preferably text information described by an unspecified number of users in a blog (Weblog), bulletin board, and / or word-of-mouth comment published via the network.

本発明によれば、検索キーワードを蓄積した検索キーワード辞書手段を有し、他の公開サーバからネットワークを介して取得した文章情報から、当該検索キーワードを含む文章情報を検索する文章解析サーバであって、
特定カテゴリに属さない複数の正当学習文章情報と、特定カテゴリに属する複数の不当学習文章情報とを蓄積した学習文章蓄積手段と、
学習文章蓄積手段を用いて、検索キーワードを含む学習文章情報を検索する学習文章キーワード検索手段と、
検索キーワードを含む学習文章情報について、検索キーワードに対する係り受けキーワードを抽出する学習係り受け解析手段と、
単語のノードがツリー状に構成された概念辞書記憶手段と、
概念辞書記憶手段を用いて、係り受けキーワードに対応するノードから見て、下位概念となる複数の係り受け関連キーワードを抽出する係り受け関連キーワード抽出手段と、
係り受けキーワード及び係り受け関連キーワードの全てのキーワード毎に、正当学習文章情報の数と、不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する正当学習文章情報の数の正当割合を算出する正当割合算出手段と、
正当割合が所定閾値以上となる係り受けキーワード及び係り受け関連キーワードを非検索キーワードとして登録する非検索キーワード辞書手段と
を有し、検索キーワードに対する係り受けキーワードとして非検索キーワードが含まれている文章情報は検索されないようにすることを特徴とする。
According to the present invention, there is provided a text analysis server having search keyword dictionary means for storing search keywords and searching text information including the search keyword from text information acquired from another public server via a network. ,
A learning sentence storage means for storing a plurality of legitimate learning sentence information not belonging to a specific category and a plurality of illegal learning sentence information belonging to a specific category;
Learning sentence keyword search means for searching learning sentence information including a search keyword using learning sentence storage means;
A learning dependency analysis means for extracting dependency keywords for the search keyword for learning sentence information including the search keyword;
Concept dictionary storage means in which word nodes are arranged in a tree shape;
Using a concept dictionary storage means, a dependency-related keyword extracting means for extracting a plurality of dependency-related keywords that are subordinate concepts as viewed from a node corresponding to the dependency keyword;
The number of valid learning text information and the number of illegal learning text information are counted for each of the dependency keywords and the dependency related keywords, and the number of valid learning text information with respect to the number of all learning text information is valid. A legitimate proportion calculating means for calculating the proportion;
Sentence information having a non-search keyword dictionary means for registering a dependency keyword and a dependency-related keyword as a non-search keyword with a legitimate ratio equal to or greater than a predetermined threshold, and including the non-search keyword as a dependency keyword for the search keyword Is characterized by not being searched.

本発明によれば、検索キーワードを蓄積した検索キーワード辞書を有し、当該検索キーワードを含む文章情報を、コンピュータを用いて検索する文章検索方法であって、
特定カテゴリに属さない複数の正当学習文章情報と、特定カテゴリに属する複数の不当学習文章情報とを、学習文章蓄積部に蓄積しており、
単語のノードがツリー状に構成された概念辞書を、概念辞書記憶部に記憶しており、
学習文章蓄積手段を用いて、検索キーワードを含む学習文章情報を検索する第1のステップと、
検索キーワードを含む学習文章情報について、検索キーワードに対する係り受けキーワードを抽出する第2のステップと、
概念辞書記憶手段を用いて、係り受けキーワードに対応するノードから見て、下位概念となる複数の係り受け関連キーワードを抽出する第3のステップと、
係り受けキーワード及び係り受け関連キーワードの全てのキーワード毎に、正当学習文章情報の数と、不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する正当学習文章情報の数の正当割合を算出する第4のステップと、
正当割合が所定閾値以上となる係り受けキーワード及び係り受け関連キーワードを非検索キーワードとして登録する第5のステップと
を有し、検索キーワードに対する係り受けキーワードとして非検索キーワードが含まれている文章情報は検索されないようにすることを特徴とする。
According to the present invention, there is provided a search keyword dictionary that stores search keywords, and a text search method for searching text information including the search keywords using a computer,
A plurality of legitimate learning sentence information that does not belong to a specific category and a plurality of illegal learning sentence information that belongs to a specific category are accumulated in the learning sentence accumulation unit,
A concept dictionary in which word nodes are arranged in a tree shape is stored in the concept dictionary storage unit,
A first step of searching for learning sentence information including a search keyword using the learning sentence storing means;
A second step of extracting dependency keywords for the search keyword for learning sentence information including the search keyword;
A third step of extracting a plurality of dependency-related keywords that are subordinate concepts when viewed from the node corresponding to the dependency keyword using the concept dictionary storage means;
The number of valid learning text information and the number of illegal learning text information are counted for each of the dependency keywords and the dependency related keywords, and the number of valid learning text information with respect to the number of all learning text information is valid. A fourth step of calculating a ratio;
And a fifth step of registering a dependency keyword whose dependency ratio is equal to or greater than a predetermined threshold and a dependency-related keyword as a non-search keyword, and sentence information including the non-search keyword as a dependency keyword for the search keyword is It is characterized by not being searched.

本発明の文章分類プログラム、サーバ及び方法によれば、例えば予め登録されたキーワードによって違法・有害なカテゴリに属するか否かを判定する際に、違法・有害でない文章情報が、違法・有害なカテゴリに分類されることをできる限り減らすと共に、適用可能な文章の範囲をできる限り拡張することができる。   According to the sentence classification program, server, and method of the present invention, for example, when determining whether or not a sentence that is illegal or harmful belongs to a keyword registered in advance, the sentence information that is not illegal or harmful is classified as illegal or harmful. Can be reduced as much as possible, and the range of applicable sentences can be expanded as much as possible.

本発明における文章分類プログラムの機能構成図である。It is a functional block diagram of the text classification program in this invention. 本発明における非検索キーワードの生成を表す説明図である。It is explanatory drawing showing the production | generation of the non-search keyword in this invention. 本発明における対象文章情報の分類を表す説明図である。It is explanatory drawing showing the classification | category of the object text information in this invention. 本発明における概念辞書を用いた係り受け関連キーワードの抽出を表す第1の説明図である。It is the 1st explanatory view showing extraction of a dependency related keyword using a concept dictionary in the present invention. 本発明における概念辞書を用いた係り受け関連キーワードの抽出を表す第2の説明図である。It is the 2nd explanatory view showing extraction of a dependency related keyword using a concept dictionary in the present invention. 本発明における文章解析サーバのシステム構成図である。It is a system configuration | structure figure of the text analysis server in this invention. 本発明におけるシステムのシーケンス図である。It is a sequence diagram of a system in the present invention. 再現率(Recall)に対する適合率(Precision)を表すグラフである。It is a graph showing the precision (Precision) with respect to recall (Recall). 辞書のキーワード数に対するF値を表すグラフである。It is a graph showing F value with respect to the number of keywords of a dictionary.

以下、本発明の実施の形態について、図面を用いて詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

図1は、本発明における文章分類プログラムの機能構成図である。   FIG. 1 is a functional block diagram of a sentence classification program according to the present invention.

図1によれば、文章分類プログラムは、検索キーワード辞書部10と、非検索辞書生成機能部11と、対象文章分類機能部12とに区別される。非検索辞書生成機能部11は、学習文章蓄積部110と、学習文章キーワード検索部111と、学習係り受け解析部112と、概念辞書記憶部113と、係り受け関連キーワード抽出部114と、正当割合算出部115と、非検索キーワード辞書部116とを有する。対象文章分類機能部12は、対象文章入力部120と、対象文章キーワード検索部121と、対象係り受け解析部122と、非検索キーワード判定部123と、文章情報分類部124とを有する。これら機能部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、装置における文章分類方法としても理解される。   According to FIG. 1, the sentence classification program is divided into a search keyword dictionary unit 10, a non-search dictionary generation function unit 11, and a target sentence classification function unit 12. The non-search dictionary generation function unit 11 includes a learning sentence storage unit 110, a learning sentence keyword search unit 111, a learning dependency analysis unit 112, a concept dictionary storage unit 113, a dependency related keyword extraction unit 114, and a legal ratio. A calculation unit 115 and a non-search keyword dictionary unit 116 are included. The target text classification function unit 12 includes a target text input unit 120, a target text keyword search unit 121, a target dependency analysis unit 122, a non-search keyword determination unit 123, and a text information classification unit 124. These functional units can be realized by executing a program that causes a computer installed in the apparatus to function. The processing flow of these functional components is also understood as a sentence classification method in the apparatus.

文章分類プログラムは、対象文章情報を、特定カテゴリに属するか否かによって分類するようにコンピュータを機能させる。具体的には、対象文章情報に、検索キーワード辞書部10に登録された検索キーワードが含まれているか否かを検索する。例えば違法・有害な文章情報か否かによって分類する場合、検索キーワード辞書部10に蓄積される検索キーワードは、違法・有害なキーワードである。例えば、犯罪予告の場合、「爆破」のようなキーワードが、検索キーワード辞書部10に記憶される。勿論、検索キーワード辞書部10に蓄積される検索キーワードは、ユーザによって指定されたキーワードであってもよい。本発明によれば、検索キーワード辞書部10に登録された検索キーワードを含む文章情報であっても、目標とする特定カテゴリに属さない文章情報は、検索されないようにすることができる。   The sentence classification program causes the computer to function so as to classify the target sentence information according to whether or not it belongs to a specific category. Specifically, it is searched whether or not the search text registered in the search keyword dictionary unit 10 is included in the target sentence information. For example, in the case of classification based on whether or not the text information is illegal / harmful, the search keyword stored in the search keyword dictionary unit 10 is an illegal / harmful keyword. For example, in the case of a crime notice, a keyword such as “explode” is stored in the search keyword dictionary unit 10. Of course, the search keyword stored in the search keyword dictionary unit 10 may be a keyword designated by the user. According to the present invention, even text information including a search keyword registered in the search keyword dictionary unit 10 can prevent text information that does not belong to a target specific category from being searched.

[非検索辞書生成機能部]
図2は、本発明における非検索キーワードの生成を表す説明図である。以下では、図1の説明と共に、図2の内容が説明される。
[Non-search dictionary generation function]
FIG. 2 is an explanatory diagram showing generation of a non-search keyword in the present invention. In the following, the content of FIG. 2 will be described together with the description of FIG.

学習文章蓄積部110は、特定カテゴリに属さない多数の正当学習文章情報と、特定カテゴリに属する多数の不当学習文章情報とを蓄積する。正当/不当は、その学習文章情報に付加されたフラグによって区別される。
例えば、特定カテゴリが違法・有害な文章情報の群である場合、学習文章蓄積部110は、以下のような文章情報の群を混在して蓄積する。
(1)違法・有害カテゴリに属さない文章情報の群
=各文章情報に「正当」フラグが付加されている
=正当学習文章情報の群
(2)違法・有害カテゴリに属する文章情報の群
=各文章情報に「不当」フラグが付加されている
=不当学習文章情報の群
勿論、特定カテゴリがユーザによって指定された文章情報の群である場合、学習文章蓄積部110は、以下のような文章情報の群を混在して蓄積する。
(1)ユーザ指定の特定カテゴリに属さない文章情報の群
=各文章情報に「正当」フラグが付加されている
=正当学習文章情報の群
(2)ユーザ指定の特定カテゴリに属する文章情報の群
=各文章情報に「不当」フラグが付加されている
=不当学習文章情報の群
The learning sentence accumulating unit 110 accumulates a large number of legitimate learning sentence information that does not belong to the specific category and a large number of inappropriate learning sentence information that belongs to the specific category. The validity / injustice is distinguished by a flag added to the learning sentence information.
For example, when the specific category is a group of illegal / harmful text information, the learning text storage unit 110 stores the following text information group in a mixed manner.
(1) Group of text information that does not belong to illegal or harmful categories
= "Valid" flag is added to each text information
= Group of legitimate learning text information (2) Group of text information belonging to illegal / harmful categories
= "Unfair" flag is added to each text information
= Illegal Learning Text Information Group Of course, when the specific category is a text information group designated by the user, the learning text accumulating unit 110 accumulates the following text information groups together.
(1) A group of text information that does not belong to a specific category specified by the user
= "Valid" flag is added to each text information
= Group of legitimate learning sentence information (2) Group of sentence information belonging to a specific category designated by the user
= "Unfair" flag is added to each text information
= Group of inappropriate learning text information

学習文章キーワード検索部111は、学習文章蓄積部110に蓄積された多数の学習文章情報について、検索キーワード辞書部10に蓄積された検索キーワードを含む学習文章情報を検索する。図2によれば、フラグの「正当」/「不当」に関係無く、検索キーワード「爆破」が含まれる全ての学習文章情報が検索されている。検索された多数の学習文章情報は、学習係り受け解析部112へ出力される。ここで、検索キーワード「爆破」を含んでいない学習文章情報は、以後の処理の対象とならない。   The learning text keyword search unit 111 searches the learning text information including the search keyword stored in the search keyword dictionary unit 10 for a large number of learning text information stored in the learning text storage unit 110. According to FIG. 2, all learning text information including the search keyword “blast” is searched regardless of the flag “valid” / “unjust”. A large number of retrieved pieces of learning text information are output to the learning dependency analysis unit 112. Here, the learning sentence information that does not include the search keyword “blast” is not a target of subsequent processing.

学習係り受け解析部112は、検索キーワードを含む多数の学習文章情報について、検索キーワードに対する係り受けキーワードを抽出する。学習係り受け解析部112は、係り受け解析の前段階として必要な形態素解析も含む。「形態素」とは、文章の構成要素のうち、意味を持つ最小の単位をいう。形態素解析には、「単語」毎に「品詞」「読み」が登録された辞書を有する。本発明によれば、検索キーワードを含む1文のみ(1文よりも短くてもよい)について、形態素に分割し、辞書を用いて「品詞」「読み」の文法規則を形成し、その上で、係り受けを解析する。   The learning dependency analysis unit 112 extracts a dependency keyword for the search keyword from a large number of pieces of learning text information including the search keyword. The learning dependency analysis unit 112 also includes morphological analysis necessary as a pre-stage of dependency analysis. A “morpheme” refers to the smallest meaningful unit among the constituent elements of a sentence. The morphological analysis has a dictionary in which “part of speech” and “reading” are registered for each “word”. According to the present invention, only one sentence including a search keyword (which may be shorter than one sentence) is divided into morphemes, and grammatical rules of “part of speech” and “reading” are formed using a dictionary, , Analyze the dependency.

係り受け解析器として、例えば従来技術のCaboCha(例えば非特許文献1参照)又はKNP(例えば非特許文献2参照)を用いてもよい。「CaboCha」は、代表的な日本語係り受け解析器であって、サポートベクタマシンに基づいて、バックトラックを実行しない決定的な解析アルゴリズム(Cascaded Chunking Model)を採用した技術である。また、「KNP」は、日本語文の日本語文の構文・格解析システムであって、形態素解析システムJUMANの解析結果の形態素列を入力とし、文節及び基本句間の係り受け関係及び格関係を出力する技術である。   As the dependency analyzer, for example, a conventional CaboCha (for example, see Non-Patent Document 1) or KNP (for example, see Non-Patent Document 2) may be used. “CaboCha” is a typical Japanese dependency analyzer, which uses a definitive analysis algorithm (Cascaded Chunking Model) that does not perform backtracking based on a support vector machine. “KNP” is a Japanese sentence syntactic / case analysis system for Japanese sentences. The morpheme sequence of the morpheme analysis system JUMAN is input, and the dependency relations and case relations between clauses and basic phrases are output. Technology.

図2によれば、検索キーワード「爆破」に対して、以下のような係り受けキーワードが抽出される。
学習文章情報a:「不当」フラグが付加(違法・有害カテゴリに属する)
「爆破」<-「学校」
学習文章情報b:「正当」フラグが付加(違法・有害カテゴリに属さない)
「爆破」<-「鉱山」
学習文章情報c:「正当」フラグが付加(違法・有害カテゴリに属さない)
「爆破」<-「駄目」
これによって、以下のようなキーワード組が、係り受け関連キーワード抽出部114へ出力される。
「検索キーワード<-係り受けキーワード:正当/不当」
「 爆破 <- 学校 :不当」
「 爆破 <- 鉱山 :正当」
「 爆破 <- 駄目 :正当」
According to FIG. 2, the following dependency keywords are extracted for the search keyword “blast”.
Learning text information a: “Unfair” flag added (belongs to illegal / harmful category)
"Blasting"<-"School"
Learning text information b: "Legacy" flag added (does not belong to illegal or harmful category)
"Blasting"<-"Mine"
Learning text information c: "Legacy" flag added (does not belong to illegal or harmful category)
"Blast"<-"No"
As a result, the following keyword set is output to the dependency related keyword extraction unit 114.
“Search keyword <-Dependency keyword: Valid / Unfair”
"Blasting <-School: Unfair"
"Blasting <-Mine: Justified"
"Blasting <-Useless: Justified"

概念辞書記憶部113は、概念辞書を記憶する。ここで、概念辞書(シソーラス)とは、単語を意味上の包含関係によって分類した辞書をいう。概念辞書は、これらの関係を単語のノードをツリー状に構成した木構造で表したものである。   The concept dictionary storage unit 113 stores a concept dictionary. Here, the concept dictionary (thesaurus) refers to a dictionary in which words are classified according to semantic inclusion relations. The concept dictionary represents these relationships in a tree structure in which word nodes are arranged in a tree shape.

係り受け関連キーワード抽出部114は、キーワード組を学習係り受け解析部112から入力する。係り受け関連キーワード抽出部114は、「不当」フラグが付加された係り受けキーワードについて、概念辞書を用いて、下位概念となる複数の係り受け関連キーワードを抽出する。例えば、検索キーワード「爆破」と、係り受けキーワード「学校」とのキーワード組がある場合、係り受けキーワード「学校」に対する係り受け関連キーワードを抽出する。   The dependency related keyword extraction unit 114 inputs a keyword set from the learning dependency analysis unit 112. The dependency-related keyword extraction unit 114 extracts a plurality of dependency-related keywords that are subordinate concepts using a concept dictionary for the dependency keyword to which the “unfair” flag is added. For example, if there is a keyword set of a search keyword “blast” and a dependency keyword “school”, a dependency-related keyword for the dependency keyword “school” is extracted.

図2によれば、以下のように、係り受けキーワード「学校」に対する係り受け関連キーワードが、概念辞書から抽出される。
「学校」->「小学校」「専門学校」
係り受け関連キーワード抽出部114は、検索キーワード「爆破」に対する係り受けキーワード「学校」及び係り受け関連キーワード「小学校」「専門学校」を、正当割合算出部115へ出力する。
According to FIG. 2, the dependency-related keyword for the dependency keyword “school” is extracted from the concept dictionary as follows.
"School"->"ElementarySchool""TechnicalSchool"
The dependency-related keyword extraction unit 114 outputs the dependency keyword “school” and the dependency-related keywords “elementary school” and “special school” for the search keyword “explode” to the correct ratio calculation unit 115.

尚、係り受け関連キーワード抽出部114は、「正当」フラグが付加された係り受けキーワードに対しても、概念辞書を用いて、下位概念となる複数の係り受け関連キーワードを抽出するものであってもよい。この場合、非検索キーワード辞書部116には、正当割合の高いキーワードが、多く登録されることとなる。これによって、非検索キーワード辞書部116は、非検索キーワードを多く蓄積し、非検索キーワードの判定精度を高めることができる。   Note that the dependency related keyword extraction unit 114 uses a concept dictionary to extract a plurality of dependency related keywords as subordinate concepts, even for dependency keywords to which a “valid” flag is added. Also good. In this case, a large number of keywords with a high legitimate ratio are registered in the non-search keyword dictionary unit 116. As a result, the non-search keyword dictionary unit 116 can accumulate a large number of non-search keywords, and can improve the determination accuracy of the non-search keywords.

正当割合算出部115は、係り受けキーワード及び係り受け関連キーワード毎に、正当学習文章情報の数と、不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する正当学習文章情報の数の正当割合を算出する。多数の学習文章情報に基づいて、1つの検索キーワードに対する多数の正当/不当の係り受けキーワードが抽出される。そして、検索キーワードに対する係り受けキーワード及び係り受け関連キーワード毎に、正当割合が算出される。   The correct ratio calculation unit 115 counts the number of valid learning text information and the number of illegal learning text information for each dependency keyword and dependency-related keyword, and calculates the correct learning text information for all the learning text information. Calculate the correct proportion of numbers. Based on a large amount of learned text information, a large number of valid / invalid dependency keywords for one search keyword are extracted. Then, a legitimate ratio is calculated for each dependency keyword and dependency-related keyword with respect to the search keyword.

図2によれば、以下のように、係り受けキーワード及び係り受け関連キーワード毎に正当割合が算出される。
「爆破」<-「学校」 :正当学習文章情報の数=40個
不当学習文章情報の数=1960個
正当割合=40/2000=2%
「爆破」<-「小学校」 :正当学習文章情報の数=10個
不当学習文章情報の数=990個
正当割合=10/1000=1%
「爆破」<-「専門学校」:正当学習文章情報の数=5個
不当学習文章情報の数=95個
正当割合=5/100=5%
「爆破」<-「炭坑」 :正当学習文章情報の数=90個
不当学習文章情報の数=10個
正当割合=90/100=90%
「爆破」<-「鉱山」 :正当学習文章情報の数=99個
不当学習文章情報の数=1個
正当割合=99/100=99%
そして、正当割合算出部115は、係り受けキーワード毎の正当割合を、非検索キーワード辞書部116へ出力する。
「爆破」<-「学校」 :2%
<-「小学校」 :1%
<-「専門学校」:5%
<-「炭坑」 :90%
<-「鉱山」 :99%
According to FIG. 2, the correct ratio is calculated for each dependency keyword and dependency-related keyword as follows.
"Blasting"<-"School": Number of legitimate learning text information = 40
Number of inappropriate learning text information = 1960
Legitimate ratio = 40/2000 = 2%
"Blasting"<-"Primaryschool": Number of legal learning text information = 10
Number of inappropriate learning text information = 990
Legitimate ratio = 10/1000 = 1%
"Blasting"<-"Vocationalschool": Number of legitimate learning text information = 5
Number of inappropriate learning text information = 95
Legitimate ratio = 5/100 = 5%
"Blasting"<-"Coalmine": Number of legitimate learning text information = 90
Number of illegal learning text information = 10
Legitimate ratio = 90/100 = 90%
"Blast"<-"Mine": Number of legitimate learning text information = 99
Number of illegal learning text information = 1
Legitimate ratio = 99/100 = 99%
Then, the legal ratio calculation unit 115 outputs the legal ratio for each dependency keyword to the non-search keyword dictionary unit 116.
“Blast” <-“School”: 2%
<-"Elementary school": 1%
<-"Vocational school": 5%
<-"Coal mine": 90%
<-"Mine": 99%

非検索キーワード辞書部116は、正当割合が所定閾値以上となる係り受けキーワード及び係り受け関連キーワードを登録する。図2によれば、所定閾値70%以上に設定したとする。この場合、検索キーワード「爆破」に対して、正当割合が70%以上となる係り受けキーワード「炭坑」と、「炭坑」の下位概念となる「鉱山」とが、検索キーワード「爆破」に対する係り受けとなる非検索キーワードとして非検索キーワード辞書部116に登録される。   The non-search keyword dictionary unit 116 registers dependency keywords and dependency-related keywords whose legal ratio is equal to or greater than a predetermined threshold. According to FIG. 2, it is assumed that the predetermined threshold is set to 70% or more. In this case, the dependency keyword “coal mine” whose legitimate ratio is 70% or more with respect to the search keyword “blasting” and the “mine” that is a subordinate concept of “coal mine” are the dependency on the search keyword “blasting”. Is registered in the non-search keyword dictionary unit 116 as a non-search keyword.

尚、非検索キーワード辞書部116は、正当割合が所定閾値以上となった係り受けキーワードを記憶するだけでなく、全ての係り受けキーワード毎に正当割合を対応付けて登録するものであってもよい。これによって、非検索キーワードとして導出するレベルとしての所定閾値は、ユーザ指定によって可変とすることもできる。
検索キーワード「爆破」<-非検索・係り受けキーワード「学校」 :2%
<-非検索・係り受け関連キーワード「小学校」 :1%
<-非検索・係り受け関連キーワード「専門学校」:5%
<-非検索・係り受けキーワード「炭坑」 :90%
<-非検索・係り受け関連キーワード「鉱山」 :99%
<-非検索・係り受けキーワード「駄目」 :60%
The non-search keyword dictionary unit 116 may store not only the dependency keywords whose legal ratio is equal to or greater than a predetermined threshold value, but may also register the legal ratios in association with every dependency keyword. . Accordingly, the predetermined threshold as a level derived as a non-search keyword can be made variable by user designation.
Search keyword “Blast” <-Non-search / Dependency keyword “School”: 2%
<-Non-search and dependency related keyword "elementary school": 1%
<-Non-search / dependency related keyword “vocational school”: 5%
<-Non-search / dependency keyword "coal mine": 90%
<-Non-Search / Dependency Keywords "Mine": 99%
<-Non-Search / Dependency Keyword "Dame": 60%

[対象文章分類機能部]
図3は、本発明における対象文章情報の分類を表す説明図である。以下では、図1の説明と共に、図3の内容が説明される。
[Target sentence classification function section]
FIG. 3 is an explanatory diagram showing classification of target sentence information in the present invention. In the following, the content of FIG. 3 will be described together with the description of FIG.

対象文章入力部120は、解析対象となる対象文章情報を入力する。対象文章情報は、ユーザの操作に応じて入力されるものであってもよいし、ネットワークを介して受信されるものであってもよい。ネットワークを介して受信される対象文章情報としては、例えば、公開されているブログ(Weblog)、掲示板及び/又はクチコミコメントにおける不特定多数のユーザによって記述された文章情報である。   The target sentence input unit 120 inputs target sentence information to be analyzed. The target sentence information may be input in response to a user operation, or may be received via a network. The target text information received via the network is, for example, text information described by an unspecified number of users in a publicly available blog, a bulletin board, and / or a review comment.

対象文章キーワード検索部121は、対象文章情報が、検索キーワード辞書部10に蓄積された検索キーワードを含むか否かを判定する。図3によれば、対象文章情報内の文章「・・・鉱山を速やかに爆破・・・」に、検索キーワード「爆破」が含まれる。そのために、検索キーワード有りとして、その対象文章情報は、対象係り受け解析部122へ出力される。   The target text keyword search unit 121 determines whether the target text information includes the search keyword stored in the search keyword dictionary unit 10. According to FIG. 3, the search keyword “blast” is included in the sentence “.. Therefore, the target sentence information is output to the target dependency analysis unit 122 with the search keyword.

対象係り受け解析部122は、検索キーワードを含む対象文章情報について、検索キーワードに対する係り受けキーワードを抽出する。図3によれば、検索キーワード「爆破」に対して、係り受けキーワード「鉱山」が抽出される。
対象文章情報:「爆破」<-「鉱山」
抽出された係り受けキーワード「鉱山」は、対象文章情報と共に、非検索キーワード判定部123へ出力される。
The target dependency analysis unit 122 extracts a dependency keyword for the search keyword from the target sentence information including the search keyword. According to FIG. 3, the dependency keyword “mine” is extracted for the search keyword “explosion”.
Target text information: “Blast” <-“Mine”
The extracted dependency keyword “mine” is output to the non-search keyword determination unit 123 together with the target sentence information.

非検索キーワード判定部123は、抽出された係り受けキーワードが、非検索キーワード辞書部116に登録された非検索係り受けキーワードと一致するか否かを判定する。図3によれば、非検索キーワード辞書部116には、「爆破」<-「鉱山」が登録されている。そのために、非検索キーワード判定部123は、抽出された係り受けキーワード「鉱山」が、非検索係り受けキーワード「鉱山」と一致すると判定する。この判定結果は、文章情報分類部124へ出力される。   The non-search keyword determination unit 123 determines whether or not the extracted dependency keyword matches the non-search dependency keyword registered in the non-search keyword dictionary unit 116. According to FIG. 3, “Blasting” <-“Mine” is registered in the non-search keyword dictionary unit 116. Therefore, the non-search keyword determination unit 123 determines that the extracted dependency keyword “mine” matches the non-search dependency keyword “mine”. This determination result is output to the text information classification unit 124.

尚、非検索キーワード判定部123は、抽出された係り受けキーワードが、非検索キーワード辞書部116に登録された係り受けキーワードと一致し、且つ、当該係り受けキーワードにおける正当割合が所定閾値以上である場合に、当該係り受けキーワードに対して真と判定するものであってもよい。例えば、一致した係り受けキーワード「鉱山」について、非検索キーワード辞書部116に登録された正当割合99%は、所定閾値70%以上であるので、非検索キーワードとして採用される。逆に、所定閾値70%未満の非検索キーワードは採用されない。   The non-search keyword determination unit 123 matches the extracted dependency keyword with the dependency keyword registered in the non-search keyword dictionary unit 116, and the legitimate ratio in the dependency keyword is equal to or greater than a predetermined threshold. In this case, it may be determined that the dependency keyword is true. For example, for the matching dependency keyword “mine”, the legal percentage 99% registered in the non-search keyword dictionary unit 116 is equal to or greater than the predetermined threshold 70%, and thus is adopted as a non-search keyword. Conversely, non-search keywords with a predetermined threshold value less than 70% are not adopted.

文章情報分類部124は、対象文章キーワード検索部121によって偽と判定された対象文章情報と、対象文章キーワード検索部121によって真と判定されると共に非検索キーワード判定部123によって真と判定された対象文章情報とを、特定カテゴリに属さない文章情報として分類する。   The text information classification unit 124 includes target text information determined to be false by the target text keyword search unit 121, and target determined to be true by the target text keyword search unit 121 and determined to be true by the non-search keyword determination unit 123. Text information is classified as text information that does not belong to a specific category.

図4は、本発明における概念辞書を用いた係り受け関連キーワードの抽出を表す第1の説明図である。   FIG. 4 is a first explanatory diagram showing extraction of dependency-related keywords using the concept dictionary in the present invention.

検索キーワード「爆破」に対して係り受けキーワード「学校」が抽出された場合を想定する。ここで、「学校,爆破」のキーワード組は、正当割合が低いとする。このとき、「学校」が下位概念「小学校」「専門学校」であったとしても、検索キーワード「爆破」に対しては、その正当割合は「学校」と同程度に低い。   Assume that the dependency keyword “school” is extracted for the search keyword “blast”. Here, it is assumed that the keyword set of “school, blast” has a low legitimate ratio. At this time, even if the “school” is a subordinate concept “elementary school” or “technical school”, the legitimate ratio for the search keyword “blasting” is as low as “school”.

図4によれば、概念辞書は、木構造で表されている。木構造の概念辞書は、キーワードを構成要素としており、これらの各構成要素をノードという。ノードは、階層状に構成されている。階層nのnの値が小さい単語ほど、上位概念となる。例えば、階層3の「学校」は、階層4の「小学校」「専門学校」の上位概念となる。   According to FIG. 4, the concept dictionary is represented by a tree structure. The tree-structured concept dictionary uses keywords as components, and each of these components is called a node. The nodes are arranged in a hierarchy. A word having a smaller value of n in the hierarchy n becomes a higher concept. For example, “school” at level 3 is a superordinate concept of “elementary school” and “specialty school” at level 4.

係り受け関連キーワードは、一方では、係り受けキーワードの下位概念に含まれるキーワードであって、例えば「学校」の下位概念に含まれる「小学校」「○○小学校」である。また、他方では、係り受けキーワードの上位概念に含まれるキーワードであって、例えば、「学校」の上位概念に含まれる「公共施設」である。「公共施設を爆破」であっても、「学校を爆破」と同程度に正当割合が低い。   On the other hand, the dependency-related keyword is a keyword included in the subordinate concept of the dependency keyword, for example, “elementary school” and “XX elementary school” included in the subordinate concept of “school”. On the other hand, it is a keyword included in the superordinate concept of the dependency keyword, for example, “public facilities” contained in the superordinate concept of “school”. Even if “Blasting public facilities” is just as low as “Blasting schools”.

係り受け関連キーワードとして抽出されるキーワード数として、閾値が予め設定されていてもよい。例えば、最初に下位概念に含まれるキーワードを抽出し、抽出されたキーワード数が閾値以下であれば、上位概念の部分木に含まれるキーワードも抽出の対象としてもよい。例えば、係り受けキーワードが「学校」であるとき、閾値を7と定めた場合、下位概念に含まれる「小学校」「専門学校」「○○小学校」だけでは、キーワード数が閾値以下となる。そこで、上位概念「公共施設」の部分木に含まれる「駅」「病院」も抽出の対象とする。   A threshold may be set in advance as the number of keywords extracted as dependency-related keywords. For example, keywords included in a lower concept are first extracted, and keywords included in a subtree of a higher concept may be extracted as long as the number of extracted keywords is equal to or less than a threshold value. For example, when the dependency keyword is “school” and the threshold value is set to 7, the number of keywords is less than or equal to the threshold value only for “elementary school”, “technical school”, and “XX elementary school” included in the subordinate concept. Therefore, “station” and “hospital” included in the subtree of the superordinate concept “public facilities” are also extracted.

係り受け関連キーワードの抽出は、係り受けキーワードに対応するノードよりも少なくとも1階層上の上位概念のノードから見て、下位概念となる複数の係り受け関連キーワードを概念辞書を用いて抽出するものであってもよい。例えば、係り受けキーワードが「学校」であるとき、1階層上の「公共施設」のノードから見て、下位概念となる「駅」「地下鉄駅」「私鉄駅」「病院」を抽出する。例えば「駅を爆破」であっても、「学校を爆破」と同程度に正当割合が低い。   The dependency-related keyword is extracted by using a concept dictionary to extract a plurality of dependency-related keywords that are lower-level concepts when viewed from a higher-level concept node at least one level higher than a node corresponding to the dependency keyword. There may be. For example, when the dependency keyword is “school”, “station”, “subway station”, “private railway station”, and “hospital”, which are subordinate concepts, are extracted from the “public facilities” node one level above. For example, even if it is “Blasting a station”, the legitimate ratio is as low as “Blasting a school”.

また、係り受け関連キーワードの抽出は、係り受けキーワードに対応するノードの階層nの高さに基づいて、当該階層nから何階層上の上位概念のノードから見るかを決定し、下位概念となる複数の係り受け関連キーワードを、概念辞書を用いて抽出するものであってもよい。例えば、係り受けキーワードが[ノード3]の「学校」であるときは、1階層上の上位概念のノードである[ノード2]の「公共施設」の下位概念となる係り受け関連キーワードを抽出する。これに対し、係り受けキーワードが[ノード4]の「小学校」であるときは2階層上の上位概念のノードである[ノード2]の「公共施設」の下位概念となる係り受け関連キーワードを抽出する。   In addition, the dependency-related keyword is extracted based on the height of the hierarchy n of the node corresponding to the dependency keyword, and the number of higher-level concepts viewed from the hierarchy n is determined as a lower concept. A plurality of dependency-related keywords may be extracted using a concept dictionary. For example, when the dependency keyword is “school” of [node 3], a dependency-related keyword that is a lower concept of “public facilities” of [node 2], which is a higher concept node on one layer, is extracted. . On the other hand, when the dependency keyword is “elementary school” of [node 4], a dependency related keyword that is a subordinate concept of “public facilities” of [node 2], which is a higher concept node on the second hierarchy, is extracted. To do.

更に、係り受け関連キーワードの抽出は、係り受けキーワードの品詞に基づいて、当該階層nから何階層上の上位概念のノードから見るかを決定し、下位概念となる複数の係り受け関連キーワードを、概念辞書を用いて抽出するものであってもよい。また、係り受けキーワードの品詞に基づいて、係り受け関連キーワードとして抽出するか否かを決定するものであってもよい。   Further, the dependency-related keyword extraction is based on the part-of-speech of the dependency keyword, and determines how many higher-order nodes are viewed from the hierarchy n, and a plurality of dependency-related keywords that are lower concepts are determined. You may extract using a concept dictionary. Moreover, based on the part of speech of a dependency keyword, you may determine whether it extracts as a dependency related keyword.

係り受けキーワードの品詞によって、上位概念の部分木に含まれるキーワードを抽出すべきでない場合がある。例えば、名詞の場合は、1階層上の上位概念のノードから見て下位概念となる係り受け関連キーワードは、意味的に類似したものとなりやすい。これに対し、動詞の場合は、同様に抽出すると、係り受け関連キーワードは、意味的にずれが大きくなる傾向がある。以下に、名詞「子供」と、動詞「殺す」の例を示す。
「子供」-> 「娘」「初子」「お祖母さん子」「隠し子」「子弟」「次女」「双子」
「殺す」->「暗殺する」「殺虫」「損なう」「潰す」「間引く」「除ける」
Depending on the part-of-speech of the dependency keyword, the keyword included in the subtree of the superordinate concept may not be extracted. For example, in the case of a noun, dependency-related keywords that are subordinate concepts when viewed from a superordinate concept node on one layer are likely to be semantically similar. On the other hand, in the case of verbs, if extracted in the same way, the dependency-related keywords tend to become larger in semantic shift. The following are examples of the noun “child” and the verb “kill”.
"Children"->"Daughter""Firstchild""Grandmotherchild""Hiddenchild""Childbrother""Seconddaughter""Twins"
"Kill"->"Assassinate""Insecticide""Damage""Crush""Thinning""Remove"

図5は、本発明における概念辞書を用いた係り受け関連キーワードの抽出を表す第2の説明図である。   FIG. 5 is a second explanatory diagram showing the extraction of dependency-related keywords using the concept dictionary in the present invention.

係り受け関連キーワードの抽出には、スコアsを用いてもよい。図5によれば、抽出された係り受け関連キーワードのスコアs(w')は、以下の式によって算出される。
s(w')=s(w)×f(d(w'))
f(x)=c
s(w):係り受けキーワードのスコア
d(w'):係り受けキーワードと係り受け関連キーワードとの重み付け距離
c:定数(例えば0.8)
The score s may be used for extracting dependency-related keywords. According to FIG. 5, the score s (w ′) of the extracted dependency-related keyword is calculated by the following equation.
s (w ′) = s (w) × f (d (w ′))
f (x) = c x
s (w): dependency keyword score d (w ′): weighted distance between dependency keyword and dependency related keyword c: constant (for example, 0.8)

重み付け距離d(w')について、上位概念になるキーワードに対する距離は、下位概念になるキーワードに対する距離よりも、重み値が大きい。例えば、係り受けキーワードから見た上位概念になるキーワードに対する距離は0.6であるのに対し、下位概念になるキーワードに対する距離は0.2である。   As for the weighted distance d (w ′), the distance to the keyword that is a higher concept has a larger weight value than the distance to the keyword that is a lower concept. For example, the distance to the keyword that is a higher concept viewed from the dependency keyword is 0.6, whereas the distance to the keyword that is a lower concept is 0.2.

例えば、以下の例について説明する。
w=「学校」、s(w)=2
w’=「小学校」
d(w'):「学校」に対する「小学校」の重み付け距離
このとき、「学校」に対する「小学校」のスコアは、以下のように表される。
d(w')=0.2+0.2=0.4
f(d(w'))=c0.4=0.80.4=0.92
s(w')=s(w)×f(d(w'))=2×0.80.4=1.83
For example, the following example will be described.
w = “school”, s (w) = 2
w '= “elementary school”
d (w ′): Weighting distance of “elementary school” with respect to “school” At this time, the score of “elementary school” with respect to “school” is expressed as follows.
d (w ′) = 0.2 + 0.2 = 0.4
f (d (w ′)) = c 0.4 = 0.8 0.4 = 0.92
s (w ′) = s (w) × f (d (w ′)) = 2 × 0.8 0.4 = 1.83

同様に、「学校」に対する「駅」のスコアは、以下のように表される。
d(w')=0.6+0.2=0.8
f(d(w'))=c0.8=0.80.8=0.84
s(w')=s(w)×f(d(w'))=2×0.80.8=1.67
Similarly, the score of “station” for “school” is expressed as follows.
d (w ′) = 0.6 + 0.2 = 0.8
f (d (w ′)) = c 0.8 = 0.8 0.8 = 0.84
s (w ′) = s (w) × f (d (w ′)) = 2 × 0.8 0.8 = 1.67

このように、スコア2の「学校」から見て、スコア1.83の「小学校」よりも、スコア1.67の「駅」の方が、重み付け距離は遠い。この重み付け距離に閾値を設定することよって、係り受けキーワードから拡張すべき重み付け距離の範囲を定めることができる。閾値0.5である場合、例えばスコア2の「学校」から見て、スコア1.83の「小学校」及びスコア1.67の「駅」は、重み付け距離の範囲に含まれる。これによって、「学校->爆破」は、「小学校->爆破」「駅->爆破」に拡張される。   Thus, when viewed from the “school” of the score 2, the “station” of the score 1.67 is farther than the “elementary school” of the score 1.83. By setting a threshold value for this weighted distance, the range of the weighted distance to be expanded from the dependency keyword can be determined. When the threshold is 0.5, for example, when viewed from “school” with a score of 2, “elementary school” with a score of 1.83 and “station” with a score of 1.67 are included in the range of the weighted distance. As a result, “School-> Blast” is expanded to “Elementary school-> Blast” and “Station-> Blast”.

図6は、本発明における文章解析サーバのシステム構成図である。   FIG. 6 is a system configuration diagram of the sentence analysis server according to the present invention.

図6によれば、文章解析サーバ1は、前述した検索キーワード辞書部10、非検索辞書生成機能部11及び対象文章分類機能部12と、通信インタフェース部13とを有する。文章解析サーバ1は、インターネットを介して、Webサーバ2と通信する。また、そのWebサーバ2は、端末3から送信された対象文章情報としてのWeb文章情報を蓄積し且つ公開している。文章解析サーバ1の対象文章分類機能部12は、通信インタフェース部13を介して、多数のWebサーバ2から対象文章情報を受信する。対象文章分類機能部12は、検索キーワード辞書と、非検索辞書生成機能部11によって生成された非検索キーワード辞書とを用いて、その対象文章情報を特定カテゴリに分類する。Webサーバ2から受信した対象文章情報について、例えば違法・有害な特定カテゴリに分類することができる。   According to FIG. 6, the sentence analysis server 1 includes the search keyword dictionary unit 10, the non-search dictionary generation function unit 11, the target sentence classification function unit 12, and the communication interface unit 13 described above. The sentence analysis server 1 communicates with the Web server 2 via the Internet. In addition, the Web server 2 accumulates and discloses Web text information as target text information transmitted from the terminal 3. The target sentence classification function unit 12 of the sentence analysis server 1 receives target sentence information from a number of Web servers 2 via the communication interface unit 13. The target sentence classification function unit 12 classifies the target sentence information into a specific category by using the search keyword dictionary and the non-search keyword dictionary generated by the non-search dictionary generation function unit 11. The target sentence information received from the Web server 2 can be classified into, for example, a specific category that is illegal or harmful.

図7は、本発明におけるシステムのシーケンス図である。   FIG. 7 is a sequence diagram of the system according to the present invention.

(S701)非検索辞書生成機能部11は、学習文章情報として、特定カテゴリに属さない多数の正当学習文章情報と、特定カテゴリに属する多数の不当学習文章情報とを蓄積している。最初に、多数の学習文章情報の中から、検索キーワード辞書に登録された検索キーワードを含む学習文章情報が検索される。
(S702)検索キーワードを含む学習文章情報について、検索キーワードに対する係り受けキーワードを抽出する。
(S703)単語のノードがツリー状に構成された概念辞書を用いて、係り受けキーワードに対応するノードから見て、下位概念となる複数の係り受け関連キーワードを抽出する。
(S704)係り受けキーワード毎に、正当学習文章情報の数と、不当学習文章情報の数とが計数され、全ての学習文章情報の数に対する正当学習文章情報の数の正当割合が算出される。
(S705)そして、正当割合が所定閾値以上となる係り受けキーワードが、非検索キーワードとして登録される。
(S706)端末3は、利用者の操作に応じて、対象文章情報を、Webサーバ2へ送信する。
(S707)文章解析サーバ1は、Webサーバ2から、解析対象となる対象文章情報を受信する。その対象文章情報は、対象文章分類機能部12へ出力される。
(S708)対象文章情報が、検索キーワード辞書に蓄積された検索キーワードを含むか否かを判定する。
(S709)検索キーワードを含む対象文章情報について、検索キーワードに対する係り受けキーワードを抽出する。
(S710)抽出された係り受けキーワードが、非検索キーワード辞書に登録された非検索係り受けキーワードと一致するか否かを判定する。
(S711)そして、S708によって偽と判定された対象文章情報と、S708によって真と判定されると共にS710によって真と判定された対象文章情報とを、特定カテゴリに属さない文章情報として分類する。これによって、検索キーワードに対する係り受けキーワードが、非検索キーワード辞書に登録された非検索キーワードである場合、その文章情報は、特定カテゴリに属さないとして検索されないようになされる。
(S701) The non-search dictionary generation function unit 11 accumulates, as learning text information, a large number of legitimate learning text information that does not belong to a specific category and a large number of inappropriate learning text information that belongs to a specific category. First, learning sentence information including a search keyword registered in a search keyword dictionary is searched from a large number of learning sentence information.
(S702) With respect to the learning sentence information including the search keyword, a dependency keyword for the search keyword is extracted.
(S703) Using a concept dictionary in which word nodes are arranged in a tree shape, a plurality of dependency-related keywords that are subordinate concepts are extracted from the node corresponding to the dependency keyword.
(S704) For each dependency keyword, the number of legitimate learning sentence information and the number of illegal learning sentence information are counted, and the legitimate ratio of the number of legitimate learning sentence information to the number of all learning sentence information is calculated.
(S705) Then, a dependency keyword whose legitimate ratio is equal to or greater than a predetermined threshold is registered as a non-search keyword.
(S706) The terminal 3 transmits the target text information to the Web server 2 in accordance with a user operation.
(S707) The sentence analysis server 1 receives target sentence information to be analyzed from the Web server 2. The target sentence information is output to the target sentence classification function unit 12.
(S708) It is determined whether the target sentence information includes the search keyword stored in the search keyword dictionary.
(S709) For the target sentence information including the search keyword, a dependency keyword for the search keyword is extracted.
(S710) It is determined whether or not the extracted dependency keyword matches the non-search dependency keyword registered in the non-search keyword dictionary.
(S711) Then, the target sentence information determined to be false by S708 and the target sentence information determined to be true by S708 and determined to be true by S710 are classified as sentence information not belonging to a specific category. Thus, when the dependency keyword for the search keyword is a non-search keyword registered in the non-search keyword dictionary, the sentence information is not searched as not belonging to the specific category.

最後に、本発明と従来技術との性能比較評価結果について説明する。形態素解析器としてMeCabを用い、係り受け解析器としてCabochaを用い、概念辞書としてEDR電子化辞書を用いた。人手でラベルを付与した学習用文書40万記事(違法・有害4万記事、無害36万記事)と、評価対象文書40万記事(違法・有害4万記事、無害36万記事)とからなる、商用のブログ文書80万記事を利用した。   Finally, performance comparison evaluation results between the present invention and the prior art will be described. MeCab was used as a morphological analyzer, Cabocha was used as a dependency analyzer, and an EDR electronic dictionary was used as a concept dictionary. It consists of 400,000 learning documents (40,000 illegal and harmful articles, 360,000 harmless articles) that have been manually labeled, and 400,000 articles to be evaluated (40,000 illegal and harmful articles, 360,000 harmless articles). We used 800,000 commercial blog documents.

情報検索システムの検索性能は、適合率(precision)及び再現率(recall)によって評価される。適合率は、検索結果として得られた集合中にどれだけ検索に適合した文書を含んでいるかという正確性の指標である。再現率は、検索対象としている文書の中で検索結果として適合している文書(正解文書)のうちでどれだけの文書を検索できているかという網羅性の指標である。ここで、適合率を上げれば再現率が下がり、再現率を上げれば適合率が下がるというトレードオフの関係にある。そのために、適合率と再現率の調和平均となるF値(F-measure)を用いて、検索性能を評価することも好ましい。F値が高いほど、検索性能が良いことを意味する。   The retrieval performance of an information retrieval system is evaluated by precision and recall. The relevance ratio is an index of accuracy indicating how many documents suitable for retrieval are included in the set obtained as a retrieval result. The recall is an index of completeness indicating how many documents (correct answer documents) that are suitable as search results among the documents to be searched can be searched. Here, there is a trade-off relationship that if the precision is increased, the recall is decreased, and if the precision is increased, the precision is decreased. Therefore, it is also preferable to evaluate the search performance using an F value (F-measure) that is a harmonic average of the precision and the recall. A higher F value means better search performance.

図8は、再現率(Recall)に対する適合率(Precision)を表すグラフである。概念辞書を用いたことにより、従来技術と比較して、再現率は最大4.2%向上し、適合率は最大2.0%向上した。   FIG. 8 is a graph showing the precision (Precision) with respect to the recall (Recall). By using the concept dictionary, the recall rate improved by up to 4.2% and the precision rate improved by up to 2.0% compared to the prior art.

図9は、辞書のキーワード数に対するF値を表すグラフである。概念辞書を用いたことにより、F値は最大3.9%向上した。これは、学習文書中から得られた少数の係り受け文節組に基づいて、概念辞書を用いて拡張したことによって、新たに多くの表現を正しく判定することが可能になったことによる効果と考えられる。   FIG. 9 is a graph showing the F value with respect to the number of keywords in the dictionary. By using the concept dictionary, the F value improved by up to 3.9%. This is thought to be an effect of being able to correctly determine many new expressions by extending the concept dictionary based on a small number of dependency clauses obtained from the learning document. It is done.

以上、詳細に説明したように、本発明の文章分類プログラム、サーバ及び方法によれば、例えば予め登録されたキーワードによって違法・有害なカテゴリに属するか否かを判定する際に、違法・有害でない文章情報が、違法・有害なカテゴリに分類されることを、できる限り減らすと共に、適用可能な文章の範囲をできる限り拡張することができる。本発明によれば、検索キーワード辞書に加えて、その検索キーワードと係り受け関係となる非検索キーワードを登録した非検索キーワード辞書を備える。また、非検索キーワード辞書は、概念辞書を用いて、係り受けキーワードだけでなく、その関連キーワードも、非検索キーワードとして登録することができる。これによって、違法・有害な検索キーワードを含む文章情報であっても、その係り受け関係となるキーワードが非検索検索キーワードと一致する場合、違法・有害な文章情報でないと判断される。本発明によれば、検索キーワードの係り受け関係も解析するために、過剰な判定が抑制され、分類精度が向上する。   As described above in detail, according to the sentence classification program, server, and method of the present invention, it is not illegal / harmful when, for example, it is determined whether or not it belongs to an illegal / harmful category by a keyword registered in advance. The sentence information can be reduced from being classified into illegal and harmful categories as much as possible, and the range of applicable sentences can be expanded as much as possible. According to the present invention, in addition to the search keyword dictionary, a non-search keyword dictionary in which non-search keywords having a dependency relationship with the search keyword are registered. The non-search keyword dictionary can register not only dependency keywords but also related keywords as non-search keywords using a concept dictionary. As a result, even if the text information includes an illegal / harmful search keyword, it is determined that the text is not illegal / harmful text information if the dependency relation keyword matches the non-searched search keyword. According to the present invention, since the dependency relationship of search keywords is also analyzed, excessive determination is suppressed and classification accuracy is improved.

また、本発明は、違法・有害な文章情報と判定されたものであっても、本来は違法・有害な文章情報ではないと判定されるべきものを取り除く場合、及び、違法・有害な文章情報ではないと判定されたものであっても、本来は違法・有害な文章情報と判定されるべきものを取り除く場合にも利用できる。   In addition, even if the present invention is determined to be illegal / harmful text information, the present invention removes what should be determined not to be illegal / harmful text information, and illegal / harmful text information. Even if it is determined that it is not, it can be used to remove what should be determined to be illegal / harmful text information.

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。   Various changes, modifications, and omissions of the above-described various embodiments of the present invention can be easily made by those skilled in the art. The above description is merely an example, and is not intended to be restrictive. The invention is limited only as defined in the following claims and the equivalents thereto.

1 文章解析サーバ
10 検索キーワード辞書部
11 非検索辞書生成機能部
110 学習文章蓄積部
111 学習文章キーワード検索部
112 学習係り受け解析部
113 概念辞書記憶部
114 係り受け関連キーワード抽出部
115 正当割合算出部
116 非検索キーワード辞書部
12 対象文章分類機能部
120 対象文章入力部
121 対象文章キーワード検索部
122 対象係り受け解析部
123 非検索キーワード判定部
124 文章情報分類部
13 通信インタフェース部
2 Webサーバ
3 端末
DESCRIPTION OF SYMBOLS 1 Text analysis server 10 Search keyword dictionary part 11 Non-search dictionary production | generation function part 110 Learning sentence storage part 111 Learning sentence keyword search part 112 Learning dependency analysis part 113 Concept dictionary memory | storage part 114 Dependence related keyword extraction part 115 Validity ratio calculation part 116 Non-search keyword dictionary part 12 Target sentence classification function part 120 Target sentence input part 121 Target sentence keyword search part 122 Target dependency analysis part 123 Non-search keyword judgment part 124 Text information classification part 13 Communication interface part 2 Web server 3 Terminal

Claims (14)

検索キーワードを蓄積した検索キーワード辞書手段を有し、当該検索キーワードを含む文章情報を検索するようにコンピュータを機能させる文章検索プログラムであって、
特定カテゴリに属さない複数の正当学習文章情報と、前記特定カテゴリに属する複数の不当学習文章情報とを蓄積した学習文章蓄積手段と、
前記学習文章蓄積手段を用いて、前記検索キーワードを含む学習文章情報を検索する学習文章キーワード検索手段と、
前記検索キーワードを含む学習文章情報について、前記検索キーワードに対する係り受けキーワードを抽出する学習係り受け解析手段と、
単語のノードがツリー状に構成された概念辞書記憶手段と、
前記概念辞書記憶手段を用いて、前記係り受けキーワードに対応するノードから見て、下位概念となる複数の係り受け関連キーワードを抽出する係り受け関連キーワード抽出手段と、
前記係り受けキーワード及び前記係り受け関連キーワードの全てのキーワード毎に、前記正当学習文章情報の数と、前記不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する前記正当学習文章情報の数の正当割合を算出する正当割合算出手段と、
前記正当割合が所定閾値以上となる前記係り受けキーワード及び前記係り受け関連キーワードを非検索キーワードとして登録する非検索キーワード辞書手段と
してコンピュータを機能させ、前記検索キーワードに対する係り受けキーワードとして非検索キーワードが含まれている文章情報は検索されないようにすることを特徴とする文章検索プログラム。
A text search program having search keyword dictionary means for storing search keywords, and causing a computer to function to search text information including the search keywords,
A learning sentence accumulating means for accumulating a plurality of legitimate learning sentence information not belonging to a specific category and a plurality of illegal learning sentence information belonging to the specific category,
Learning sentence keyword search means for searching learning sentence information including the search keyword using the learning sentence storage means;
A learning dependency analysis unit that extracts a dependency keyword for the search keyword for learning sentence information including the search keyword;
Concept dictionary storage means in which word nodes are arranged in a tree shape;
Using the concept dictionary storage unit, a dependency-related keyword extracting unit that extracts a plurality of dependency-related keywords that are subordinate concepts when viewed from a node corresponding to the dependency keyword;
For each keyword of the dependency keyword and the dependency related keyword, the number of the legitimate learning sentence information and the number of the illegal learning sentence information are counted, and the legitimate learning sentence with respect to the number of all the learning sentence information. A legal proportion calculating means for calculating a legal proportion of the number of information;
The computer functions as a non-search keyword dictionary means for registering the dependency keyword and the dependency-related keyword as a non-search keyword, and the non-search keyword is included as a dependency keyword for the search keyword. A text search program that prevents text information being searched from being searched.
前記係り受け関連キーワード抽出手段は、前記概念辞書記憶手段を用いて、前記係り受けキーワードに対応するノードよりも少なくとも1階層上の上位概念のノードから見て、下位概念となる複数の係り受け関連キーワードを抽出するようにコンピュータを機能させることを特徴とする請求項1に記載の文章検索プログラム。   The dependency-related keyword extracting unit uses the concept dictionary storage unit to view a plurality of dependency-related subordinate concepts as viewed from a higher concept node that is at least one level higher than a node corresponding to the dependency keyword. The text search program according to claim 1, wherein the computer is caused to function so as to extract a keyword. 前記係り受け関連キーワード抽出手段は、前記概念辞書記憶手段を用いて、前記係り受けキーワードに対応するノードの階層nの高さに基づいて、当該階層nから何階層上の上位概念のノードから見るかを決定するようにコンピュータを機能させることを特徴とする請求項2に記載の文章検索プログラム。   The dependency-related keyword extracting means uses the concept dictionary storage means to view from a higher-level concept node above the hierarchy n based on the height of the hierarchy n of the node corresponding to the dependency keyword. The sentence search program according to claim 2, wherein the computer is caused to function to determine whether or not. 前記係り受け関連キーワード抽出手段は、前記係り受けキーワードの品詞に基づいて、前記概念辞書記憶手段を用いて、当該階層nから何階層上の上位概念のノードから見るかを決定するようにコンピュータを機能させることを特徴とする請求項2に記載の文章検索プログラム。   The dependency-related keyword extraction means uses the concept dictionary storage means based on the part-of-speech of the dependency keyword to determine the number of higher-level concept nodes to be viewed from the hierarchy n. The sentence search program according to claim 2, wherein the sentence search program is made to function. 前記係り受け関連キーワード抽出手段は、前記係り受け関連キーワードの品詞に基づいて、前記係り受け関連キーワードとして抽出するか否かを決定するようにコンピュータを機能させることを特徴とする請求項4に記載の文章検索プログラム。   5. The dependency-related keyword extracting unit causes the computer to function as to whether or not to extract the dependency-related keyword based on a part of speech of the dependency-related keyword. Text search program. 前記概念辞書記憶手段を用いて、前記検索キーワードに対応するノードよりも下位概念となる複数の検索関連キーワードを抽出する検索関連キーワード抽出手段を更に有し、
前記学習文章キーワード検索手段は、前記学習文章蓄積手段を用いて、前記検索関連キーワードを含む学習文章情報を更に検索し、
前記学習係り受け解析手段は、前記検索関連キーワードを含む学習文章情報について、前記検索関連キーワードに対する係り受けキーワードを更に抽出する
ようにコンピュータを機能させることを特徴とする請求項1から5のいずれか1項に記載の文章検索プログラム。
Using the concept dictionary storage means, further comprising search related keyword extraction means for extracting a plurality of search related keywords that are lower concepts than the node corresponding to the search keyword;
The learning sentence keyword search means further searches the learning sentence information including the search related keyword using the learning sentence storage means,
6. The learning dependency analysis unit causes the computer to function so as to further extract dependency keywords for the search related keyword for learning sentence information including the search related keyword. The text search program according to item 1.
解析対象となる対象文章情報を入力する対象文章入力手段と、
前記対象文章情報が、前記検索キーワード辞書手段に蓄積された前記検索キーワードを含むか否かを判定する対象文章キーワード検索手段と、
前記検索キーワードを含む対象文章情報について、前記検索キーワードに対する係り受けキーワードを抽出する対象係り受け解析手段と、
抽出された前記係り受けキーワードが、前記非検索キーワード辞書手段に登録された非検索係り受けキーワードと一致するか否かを判定する非検索キーワード判定手段と、
前記対象文章キーワード検索手段によって偽と判定された前記対象文章情報と、前記対象文章キーワード検索手段によって真と判定されると共に前記非検索キーワード判定手段によって真と判定された前記対象文章情報とを、前記特定カテゴリに属さない文章情報として分類する文章情報分類手段と
してコンピュータを機能させることを特徴とする請求項1から6のいずれか1項に記載の文章検索プログラム。
A target sentence input means for inputting target sentence information to be analyzed;
Target text keyword search means for determining whether or not the target text information includes the search keyword stored in the search keyword dictionary means;
For the target sentence information including the search keyword, target dependency analysis means for extracting a dependency keyword for the search keyword;
Non-search keyword determination means for determining whether or not the extracted dependency keyword matches the non-search dependency keyword registered in the non-search keyword dictionary means;
The target sentence information determined to be false by the target sentence keyword search means, and the target sentence information determined to be true by the target sentence keyword search means and determined to be true by the non-search keyword determination means, The sentence search program according to any one of claims 1 to 6, wherein a computer is caused to function as sentence information classification means for classifying the sentence information as not belonging to the specific category.
前記非検索キーワード辞書手段は、登録された係り受けキーワード毎に、前記正当割合算出手段によって算出された前記正当割合を対応付けて登録しており、
前記非検索キーワード判定手段は、抽出された前記係り受けキーワードが、前記非検索キーワード辞書手段に登録された係り受けキーワードと一致し、且つ、当該係り受けキーワードにおける前記正当割合が所定閾値以上である場合に、当該係り受けキーワードに対して真と判定する
ようにコンピュータを機能させることを特徴とする請求項7に記載の文章検索プログラム。
The non-search keyword dictionary means associates and registers the legitimate ratio calculated by the legitimate ratio calculator for each registered dependency keyword,
The non-search keyword determination unit matches the extracted dependency keyword with the dependency keyword registered in the non-search keyword dictionary unit, and the valid ratio of the dependency keyword is equal to or greater than a predetermined threshold. In this case, the sentence search program according to claim 7, wherein the computer is caused to function so as to determine that the dependency keyword is true.
前記検索キーワードは、カテゴリ分類を目的として設定されたキーワードであり、
前記学習文章蓄積手段における前記特定カテゴリは、前記カテゴリ分類に基づく文章情報の群であるようにコンピュータを機能させることを特徴とする請求項1から8のいずれか1項に記載の文章検索プログラム。
The search keyword is a keyword set for the purpose of categorization,
9. The text search program according to claim 1, wherein the computer is caused to function so that the specific category in the learning text storage means is a group of text information based on the category classification.
前記検索キーワードは、違法・有害なキーワードであり、
前記学習文章蓄積手段における前記特定カテゴリは、違法・有害な文章情報の群であるようにコンピュータを機能させることを特徴とする請求項1から8のいずれか1項に記載の文章検索プログラム。
The search keyword is an illegal or harmful keyword,
9. The text search program according to claim 1, wherein the computer is caused to function so that the specific category in the learning text storage means is a group of illegal and harmful text information.
前記検索キーワードは、ユーザによって指定されたキーワードであり、
前記学習文章蓄積手段における前記特定カテゴリは、ユーザによって指定された文章情報の群であるようにコンピュータを機能させることを特徴とする請求項1から8のいずれか1項に記載の文章検索プログラム。
The search keyword is a keyword specified by the user,
The sentence search program according to any one of claims 1 to 8, wherein the computer is caused to function so that the specific category in the learning sentence storage unit is a group of sentence information designated by a user.
前記対象文章情報は、ネットワークを介して公開されているブログ(Weblog)、掲示板及び/又はクチコミコメントにおける不特定多数のユーザによって記述された文章情報であるようにコンピュータを機能させることを特徴とする請求項1から11のいずれか1項に記載の文章検索プログラム。   The target text information causes a computer to function as text information described by an unspecified number of users in a blog (Weblog), bulletin board, and / or word-of-mouth comment published via a network. The text search program according to any one of claims 1 to 11. 検索キーワードを蓄積した検索キーワード辞書手段を有し、他の公開サーバからネットワークを介して取得した文章情報から、当該検索キーワードを含む文章情報を検索する文章解析サーバであって、
特定カテゴリに属さない複数の正当学習文章情報と、前記特定カテゴリに属する複数の不当学習文章情報とを蓄積した学習文章蓄積手段と、
前記学習文章蓄積手段を用いて、前記検索キーワードを含む学習文章情報を検索する学習文章キーワード検索手段と、
前記検索キーワードを含む学習文章情報について、前記検索キーワードに対する係り受けキーワードを抽出する学習係り受け解析手段と、
単語のノードがツリー状に構成された概念辞書記憶手段と、
前記概念辞書記憶手段を用いて、前記係り受けキーワードに対応するノードから見て、下位概念となる複数の係り受け関連キーワードを抽出する係り受け関連キーワード抽出手段と、
前記係り受けキーワード及び前記係り受け関連キーワードの全てのキーワード毎に、前記正当学習文章情報の数と、前記不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する前記正当学習文章情報の数の正当割合を算出する正当割合算出手段と、
前記正当割合が所定閾値以上となる前記係り受けキーワード及び前記係り受け関連キーワードを非検索キーワードとして登録する非検索キーワード辞書手段と
を有し、前記検索キーワードに対する係り受けキーワードとして非検索キーワードが含まれている文章情報は検索されないようにすることを特徴とする文章解析サーバ。
A sentence analysis server that has a search keyword dictionary unit that stores search keywords, and that searches sentence information including the search keyword from sentence information acquired from another public server via a network,
A learning sentence accumulating means for accumulating a plurality of legitimate learning sentence information not belonging to a specific category and a plurality of illegal learning sentence information belonging to the specific category,
Learning sentence keyword search means for searching learning sentence information including the search keyword using the learning sentence storage means;
A learning dependency analysis unit that extracts a dependency keyword for the search keyword for learning sentence information including the search keyword;
Concept dictionary storage means in which word nodes are arranged in a tree shape;
Using the concept dictionary storage unit, a dependency-related keyword extracting unit that extracts a plurality of dependency-related keywords that are subordinate concepts when viewed from a node corresponding to the dependency keyword;
For each keyword of the dependency keyword and the dependency related keyword, the number of the legitimate learning sentence information and the number of the illegal learning sentence information are counted, and the legitimate learning sentence with respect to the number of all the learning sentence information. A legal proportion calculating means for calculating a legal proportion of the number of information;
A non-search keyword dictionary means for registering the dependency keyword having the valid ratio equal to or higher than a predetermined threshold and the dependency-related keyword as a non-search keyword, and a non-search keyword is included as a dependency keyword for the search keyword A sentence analysis server characterized in that the sentence information is not searched.
検索キーワードを蓄積した検索キーワード辞書を有し、当該検索キーワードを含む文章情報を、コンピュータを用いて検索する文章検索方法であって、
特定カテゴリに属さない複数の正当学習文章情報と、前記特定カテゴリに属する複数の不当学習文章情報とを、学習文章蓄積部に蓄積しており、
単語のノードがツリー状に構成された概念辞書を、概念辞書記憶部に記憶しており、
前記学習文章蓄積手段を用いて、前記検索キーワードを含む学習文章情報を検索する第1のステップと、
前記検索キーワードを含む学習文章情報について、前記検索キーワードに対する係り受けキーワードを抽出する第2のステップと、
前記概念辞書記憶手段を用いて、前記係り受けキーワードに対応するノードから見て、下位概念となる複数の係り受け関連キーワードを抽出する第3のステップと、
前記係り受けキーワード及び前記係り受け関連キーワードの全てのキーワード毎に、前記正当学習文章情報の数と、前記不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する前記正当学習文章情報の数の正当割合を算出する第4のステップと、
前記正当割合が所定閾値以上となる前記係り受けキーワード及び前記係り受け関連キーワードを非検索キーワードとして登録する第5のステップと
を有し、前記検索キーワードに対する係り受けキーワードとして非検索キーワードが含まれている文章情報は検索されないようにすることを特徴とする文章検索方法。
A text search method having a search keyword dictionary storing search keywords and searching text information including the search keyword using a computer,
A plurality of legitimate learning sentence information that does not belong to a specific category and a plurality of illegal learning sentence information that belongs to the specific category are accumulated in the learning sentence accumulation unit,
A concept dictionary in which word nodes are arranged in a tree shape is stored in the concept dictionary storage unit,
A first step of searching for learning text information including the search keyword using the learning text storage means;
A second step of extracting a dependency keyword for the search keyword for learning sentence information including the search keyword;
A third step of using the concept dictionary storage means to extract a plurality of dependency-related keywords that are subordinate concepts when viewed from a node corresponding to the dependency keyword;
For each keyword of the dependency keyword and the dependency related keyword, the number of the legitimate learning sentence information and the number of the illegal learning sentence information are counted, and the legitimate learning sentence with respect to the number of all the learning sentence information. A fourth step of calculating a legitimate percentage of the number of information;
A fifth step of registering the dependency keyword with the valid ratio equal to or greater than a predetermined threshold and the dependency related keyword as a non-search keyword, and a non-search keyword is included as a dependency keyword for the search keyword A sentence search method characterized in that the sentence information is not searched.
JP2010033208A 2010-02-18 2010-02-18 Sentence search program, server and method using non-search keyword dictionary for search keyword dictionary Expired - Fee Related JP5364010B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010033208A JP5364010B2 (en) 2010-02-18 2010-02-18 Sentence search program, server and method using non-search keyword dictionary for search keyword dictionary

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010033208A JP5364010B2 (en) 2010-02-18 2010-02-18 Sentence search program, server and method using non-search keyword dictionary for search keyword dictionary

Publications (2)

Publication Number Publication Date
JP2011170578A JP2011170578A (en) 2011-09-01
JP5364010B2 true JP5364010B2 (en) 2013-12-11

Family

ID=44684647

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010033208A Expired - Fee Related JP5364010B2 (en) 2010-02-18 2010-02-18 Sentence search program, server and method using non-search keyword dictionary for search keyword dictionary

Country Status (1)

Country Link
JP (1) JP5364010B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5442799B2 (en) * 2012-04-27 2014-03-12 楽天株式会社 Tag management apparatus, tag management method, tag management program, and computer-readable recording medium storing the program
CN106686447A (en) * 2015-11-06 2017-05-17 广州视源电子科技股份有限公司 Channel screening method and device
JP6373320B2 (en) * 2016-09-08 2018-08-15 ヤフー株式会社 Generating device, generating method, and generating program
CN109800308B (en) * 2019-01-22 2022-04-15 四川长虹电器股份有限公司 Short text classification method based on part-of-speech and fuzzy pattern recognition combination

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3605343B2 (en) * 2000-03-31 2004-12-22 デジタルア−ツ株式会社 Internet browsing control method, medium recording program for implementing the method, and internet browsing control device
JP2002117135A (en) * 2000-08-02 2002-04-19 Masunaga Sogo Keikaku:Kk Web site security system
JP2005004300A (en) * 2003-06-10 2005-01-06 Fujitsu Ltd Information retrieval support apparatus
JP2005275560A (en) * 2004-03-23 2005-10-06 Techno Network Shikoku Co Ltd Adjective keyword extension system, intention understanding retrieval system of retriever from adjective information using same system and intention inference retrieval system of retriever from adjective information
JP2009026083A (en) * 2007-07-19 2009-02-05 Fujifilm Corp Content retrieval device
JP5137567B2 (en) * 2007-12-28 2013-02-06 三菱電機株式会社 Search filtering device and search filtering program

Also Published As

Publication number Publication date
JP2011170578A (en) 2011-09-01

Similar Documents

Publication Publication Date Title
Al-Twairesh et al. AraSenTi: Large-scale Twitter-specific Arabic sentiment lexicons
Annett et al. A comparison of sentiment analysis techniques: Polarizing movie blogs
US8402036B2 (en) Phrase based snippet generation
Poudyal et al. ECHR: Legal corpus for argument mining
Fairbanks et al. Credibility assessment in the news: do we need to read
Brahimi et al. Data and Text Mining Techniques for Classifying Arabic Tweet Polarity.
Banik et al. Evaluation of naïve bayes and support vector machines on bangla textual movie reviews
Dumani et al. A framework for argument retrieval: Ranking argument clusters by frequency and specificity
Alawneh et al. Sentiment analysis-based sexual harassment detection using machine learning techniques
Srinivas et al. A weighted tag similarity measure based on a collaborative weight model
Basha et al. Evaluating the impact of feature selection on overall performance of sentiment analysis
JP2008165599A (en) Rumor information extraction device and rumor information extraction method
JP5364010B2 (en) Sentence search program, server and method using non-search keyword dictionary for search keyword dictionary
KR101543680B1 (en) Entity searching and opinion mining system of hybrid-based using internet and method thereof
Samonte Polarity analysis of editorial articles towards fake news detection
Campbell et al. Content+ context networks for user classification in twitter
JP5477910B2 (en) Text search program, device, server and method using search keyword dictionary and dependency keyword dictionary
AleEbrahim et al. Summarising customer online reviews using a new text mining approach
Bellaachia et al. Learning from twitter hashtags: Leveraging proximate tags to enhance graph-based keyphrase extraction
Jain et al. FLAKE: fuzzy graph centrality-based automatic keyword extraction
Liu et al. An improved topic detection method for chinese microblog based on incremental clustering.
Kalender et al. THINKER-entity linking system for Turkish language
Ishtiaq Sentiment analysis of twitter data using sentiment influencers
Kannan et al. Text document clustering using statistical integrated graph based sentence sensitivity ranking algorithm
Mukherjee et al. An improved information retrieval approach to short text classification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120904

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130809

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130816

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130906

R150 Certificate of patent or registration of utility model

Ref document number: 5364010

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees