JP2011170578A - 検索キーワード辞書に対する非検索キーワード辞書を用いた文章検索プログラム、サーバ及び方法 - Google Patents

検索キーワード辞書に対する非検索キーワード辞書を用いた文章検索プログラム、サーバ及び方法 Download PDF

Info

Publication number
JP2011170578A
JP2011170578A JP2010033208A JP2010033208A JP2011170578A JP 2011170578 A JP2011170578 A JP 2011170578A JP 2010033208 A JP2010033208 A JP 2010033208A JP 2010033208 A JP2010033208 A JP 2010033208A JP 2011170578 A JP2011170578 A JP 2011170578A
Authority
JP
Japan
Prior art keywords
keyword
search
dependency
learning
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010033208A
Other languages
English (en)
Other versions
JP5364010B2 (ja
Inventor
Kazufumi Ikeda
和史 池田
Kazunori Matsumoto
一則 松本
Yasuhiro Takishima
康弘 滝嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Research Inc
Original Assignee
KDDI R&D Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI R&D Laboratories Inc filed Critical KDDI R&D Laboratories Inc
Priority to JP2010033208A priority Critical patent/JP5364010B2/ja
Publication of JP2011170578A publication Critical patent/JP2011170578A/ja
Application granted granted Critical
Publication of JP5364010B2 publication Critical patent/JP5364010B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】例えば予め登録されたキーワードによって違法・有害なカテゴリに属するか否かを判定する際に、違法・有害でない文章情報が、違法・有害なカテゴリに分類されることをできる限り減らすことができる文章分類プログラム、サーバ及び方法を提供する。
【解決手段】特定カテゴリに属さない複数の正当学習文章情報と、特定カテゴリに属する複数の不当学習文章情報とを蓄積した学習文章蓄積手段を有し、検索キーワードを含む学習文章情報を検索し、その検索キーワードに対する係り受けキーワードを抽出し、係り受けキーワード毎に、全ての学習文章情報の数に対する正当学習文章情報の数の正当割合を算出し、正当割合が所定閾値以上となる係り受けキーワードを非検索キーワードとして登録する非検索キーワード辞書を生成する。これにより、検索キーワードに対する係り受けキーワードとして非検索キーワードが含まれている文章情報は検索されないようにする。
【選択図】図2

Description

本発明は、検索キーワード辞書を用いた文章検索プログラム、サーバ及び方法に関する。
インターネットの普及により、ブログ、掲示板又はクチコミコメントを公開するWebサイトに、様々なテキストが記述されている。「ブログ」(Weblog)とは、一般的に個人によって運営され、時事ニュースや専門的トピックスに関する自らの意見を表明するために、日記的に更新することができるサイトをいう。また、「掲示板」とは、様々なテーマについて、他人と議論を逐次に交換するためのサイトをいう。更に、「クチコミコメント」とは、人の噂のような、物事の評判などに関するコメントを記述することができるサイトをいう。これらのサイトの普及により、一般のユーザが、インターネットで自由に情報発信できるようになった。
これに伴って、これらWebサイトに、個人や組織を誹謗及び中傷する文章や、犯罪予告、犯罪助長、又はアダルトサイトのような違法・有害な文章情報が記述されることが社会的な問題となってきた。そのために、表現の自由を配慮しつつ、これら違法・有害な文章を記述した文章や個人を検出する必要がある。
従来、違法・有害な文章を記述したサイトに対して、端末からのアクセスを拒否するフィルタリングの技術がある(例えば特許文献1参照)。この技術によれば、予めキーワードやURL(Uniform Resource Locator)を登録しておき、そのキーワードやURLが含まれているWebサイトに対する端末からのアクセスが拒否される。しかし、予め登録しておくキーワードやURLを常に更新する必要があり、時間とコストを要する。
これに対して、キーワードやURLを自動的に抽出し、フィルタリングする技術がある(例えば特許文献2参照)。この技術によれば、アダルトサイトや犯罪予告サイトなどの違法・有害な文章情報から、キーワードを自動的に抽出することができる。これらキーワードを予め登録しておくことによって、解析対象となる文章情報に、それらキーワードが含まれているか否かによって、違法・有害性を判定する。
特開2007−128119号公報 特開2009−37420号公報
長岡技術科学大学、自然言語処理研究室、「CaboCha」、[online]、[平成21年12月28日検索]、インターネット<URL:http://nlp.nagaokaut.ac.jp/CaboCha> 京都大学大学院情報学研究科知能情報学専攻、黒橋研究室、「日本語構文解析システム KNP」、[online]、[平成21年12月28日検索]、インターネット<URL:http://nlp.kuee.kyoto-u.ac.jp/nl-resource/knp.html>
しかしながら、一般的なキーワードが、違法・有害なカテゴリに属するものとして登録された場合、本来なら違法・有害でない文章も、違法・有害な文章として拾ってしまうという課題がある。例えば、キーワード検索技術を単に用いた場合、「学校を爆破」のような違法・有害なキーワードを検出するために、「爆破」を違法・有害なキーワードとして登録する。この場合、「鉱山を爆破」や「爆破は駄目」といった表現であっても、違法・有害な文章情報として検出してしまう。これによって、違法・有害カテゴリへの分類精度が低下することとなり、結局、目視によって違法・有害性が判断されている。
そこで、本発明は、例えば予め登録されたキーワードによって違法・有害なカテゴリに属するか否かを判定する際に、違法・有害でない文章情報が、違法・有害なカテゴリに分類されることをできる限り減らすと共に、適用可能な文章の範囲をできる限り拡張することができる文章分類プログラム、サーバ及び方法を提供することを目的とする。
本発明によれば、検索キーワードを蓄積した検索キーワード辞書手段を有し、当該検索キーワードを含む文章情報を検索するようにコンピュータを機能させる文章検索プログラムであって、
特定カテゴリに属さない複数の正当学習文章情報と、特定カテゴリに属する複数の不当学習文章情報とを蓄積した学習文章蓄積手段と、
学習文章蓄積手段を用いて、検索キーワードを含む学習文章情報を検索する学習文章キーワード検索手段と、
検索キーワードを含む学習文章情報について、検索キーワードに対する係り受けキーワードを抽出する学習係り受け解析手段と、
単語のノードがツリー状に構成された概念辞書記憶手段と、
概念辞書記憶手段を用いて、係り受けキーワードに対応するノードから見て、下位概念となる複数の係り受け関連キーワードを抽出する係り受け関連キーワード抽出手段と、
係り受けキーワード及び係り受け関連キーワードの全てのキーワード毎に、正当学習文章情報の数と、不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する正当学習文章情報の数の正当割合を算出する正当割合算出手段と、
正当割合が所定閾値以上となる係り受けキーワード及び係り受け関連キーワードを非検索キーワードとして登録する非検索キーワード辞書手段と
してコンピュータを機能させ、検索キーワードに対する係り受けキーワードとして非検索キーワードが含まれている文章情報は検索されないようにコンピュータを機能させることを特徴とする。
本発明の文章検索プログラムにおける他の実施形態によれば、
係り受け関連キーワード抽出手段は、概念辞書記憶手段を用いて、係り受けキーワードに対応するノードよりも少なくとも1階層上の上位概念のノードから見て、下位概念となる複数の係り受け関連キーワードを抽出するようにコンピュータを機能させることも好ましい。
本発明の文章検索プログラムにおける他の実施形態によれば、
係り受け関連キーワード抽出手段は、概念辞書記憶手段を用いて、係り受けキーワードに対応するノードの階層nの高さに基づいて、当該階層nから何階層上の上位概念のノードから見るかを決定するようにコンピュータを機能させることも好ましい。
本発明の文章検索プログラムにおける他の実施形態によれば、
係り受け関連キーワード抽出手段は、係り受けキーワードの品詞に基づいて、概念辞書記憶手段を用いて、当該階層nから何階層上の上位概念のノードから見るかを決定するようにコンピュータを機能させることも好ましい。
本発明の文章検索プログラムにおける他の実施形態によれば、
係り受け関連キーワード抽出手段は、係り受け関連キーワードの品詞に基づいて、係り受け関連キーワードとして抽出するか否かを決定するようにコンピュータを機能させることも好ましい。
本発明の文章検索プログラムにおける他の実施形態によれば、
概念辞書記憶手段を用いて、検索キーワードに対応するノードよりも下位概念となる複数の検索関連キーワードを抽出する検索関連キーワード抽出手段を更に有し、
学習文章キーワード検索手段は、学習文章蓄積手段を用いて、検索関連キーワードを含む学習文章情報を更に検索し、
学習係り受け解析手段は、検索関連キーワードを含む学習文章情報について、検索関連キーワードに対する係り受けキーワードを更に抽出する
ようにコンピュータを機能させることも好ましい。
本発明の文章検索プログラムにおける他の実施形態によれば、
解析対象となる対象文章情報を入力する対象文章入力手段と、
対象文章情報が、検索キーワード辞書手段に蓄積された検索キーワードを含むか否かを判定する対象文章キーワード検索手段と、
検索キーワードを含む対象文章情報について、検索キーワードに対する係り受けキーワードを抽出する対象係り受け解析手段と、
抽出された係り受けキーワードが、非検索キーワード辞書手段に登録された非検索係り受けキーワードと一致するか否かを判定する非検索キーワード判定手段と、
対象文章キーワード検索手段によって偽と判定された対象文章情報と、対象文章キーワード検索手段によって真と判定されると共に非検索キーワード判定手段によって真と判定された対象文章情報とを、特定カテゴリに属さない文章情報として分類する文章情報分類手段と
してコンピュータを機能させることも好ましい。
本発明の文章検索プログラムにおける他の実施形態によれば、
非検索キーワード辞書手段は、登録された係り受けキーワード毎に、正当割合算出手段によって算出された正当割合を対応付けて登録しており、
非検索キーワード判定手段は、抽出された係り受けキーワードが、非検索キーワード辞書手段に登録された係り受けキーワードと一致し、且つ、当該係り受けキーワードにおける正当割合が所定閾値以上である場合に、当該係り受けキーワードに対して真と判定するようにコンピュータを機能させることも好ましい。
本発明の文章検索プログラムにおける他の実施形態によれば、
検索キーワードは、カテゴリ分類を目的として設定されたキーワードであり、
学習文章蓄積手段における特定カテゴリは、カテゴリ分類に基づく文章情報の群であるようにコンピュータを機能させることも好ましい。
本発明の文章検索プログラムにおける他の実施形態によれば、
検索キーワードは、違法・有害なキーワードであり、
学習文章蓄積手段における特定カテゴリは、違法・有害な文章情報の群であるようにコンピュータを機能させることも好ましい。
本発明の文章検索プログラムにおける他の実施形態によれば、
検索キーワードは、ユーザによって指定されたキーワードであり、
学習文章蓄積手段における特定カテゴリは、ユーザによって指定された文章情報の群であるようにコンピュータを機能させることも好ましい。
本発明の文章検索プログラムにおける他の実施形態によれば、
対象文章情報は、ネットワークを介して公開されているブログ(Weblog)、掲示板及び/又はクチコミコメントにおける不特定多数のユーザによって記述された文章情報であることも好ましい。
本発明によれば、検索キーワードを蓄積した検索キーワード辞書手段を有し、他の公開サーバからネットワークを介して取得した文章情報から、当該検索キーワードを含む文章情報を検索する文章解析サーバであって、
特定カテゴリに属さない複数の正当学習文章情報と、特定カテゴリに属する複数の不当学習文章情報とを蓄積した学習文章蓄積手段と、
学習文章蓄積手段を用いて、検索キーワードを含む学習文章情報を検索する学習文章キーワード検索手段と、
検索キーワードを含む学習文章情報について、検索キーワードに対する係り受けキーワードを抽出する学習係り受け解析手段と、
単語のノードがツリー状に構成された概念辞書記憶手段と、
概念辞書記憶手段を用いて、係り受けキーワードに対応するノードから見て、下位概念となる複数の係り受け関連キーワードを抽出する係り受け関連キーワード抽出手段と、
係り受けキーワード及び係り受け関連キーワードの全てのキーワード毎に、正当学習文章情報の数と、不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する正当学習文章情報の数の正当割合を算出する正当割合算出手段と、
正当割合が所定閾値以上となる係り受けキーワード及び係り受け関連キーワードを非検索キーワードとして登録する非検索キーワード辞書手段と
を有し、検索キーワードに対する係り受けキーワードとして非検索キーワードが含まれている文章情報は検索されないようにすることを特徴とする。
本発明によれば、検索キーワードを蓄積した検索キーワード辞書を有し、当該検索キーワードを含む文章情報を、コンピュータを用いて検索する文章検索方法であって、
特定カテゴリに属さない複数の正当学習文章情報と、特定カテゴリに属する複数の不当学習文章情報とを、学習文章蓄積部に蓄積しており、
単語のノードがツリー状に構成された概念辞書を、概念辞書記憶部に記憶しており、
学習文章蓄積手段を用いて、検索キーワードを含む学習文章情報を検索する第1のステップと、
検索キーワードを含む学習文章情報について、検索キーワードに対する係り受けキーワードを抽出する第2のステップと、
概念辞書記憶手段を用いて、係り受けキーワードに対応するノードから見て、下位概念となる複数の係り受け関連キーワードを抽出する第3のステップと、
係り受けキーワード及び係り受け関連キーワードの全てのキーワード毎に、正当学習文章情報の数と、不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する正当学習文章情報の数の正当割合を算出する第4のステップと、
正当割合が所定閾値以上となる係り受けキーワード及び係り受け関連キーワードを非検索キーワードとして登録する第5のステップと
を有し、検索キーワードに対する係り受けキーワードとして非検索キーワードが含まれている文章情報は検索されないようにすることを特徴とする。
本発明の文章分類プログラム、サーバ及び方法によれば、例えば予め登録されたキーワードによって違法・有害なカテゴリに属するか否かを判定する際に、違法・有害でない文章情報が、違法・有害なカテゴリに分類されることをできる限り減らすと共に、適用可能な文章の範囲をできる限り拡張することができる。
本発明における文章分類プログラムの機能構成図である。 本発明における非検索キーワードの生成を表す説明図である。 本発明における対象文章情報の分類を表す説明図である。 本発明における概念辞書を用いた係り受け関連キーワードの抽出を表す第1の説明図である。 本発明における概念辞書を用いた係り受け関連キーワードの抽出を表す第2の説明図である。 本発明における文章解析サーバのシステム構成図である。 本発明におけるシステムのシーケンス図である。 再現率(Recall)に対する適合率(Precision)を表すグラフである。 辞書のキーワード数に対するF値を表すグラフである。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明における文章分類プログラムの機能構成図である。
図1によれば、文章分類プログラムは、検索キーワード辞書部10と、非検索辞書生成機能部11と、対象文章分類機能部12とに区別される。非検索辞書生成機能部11は、学習文章蓄積部110と、学習文章キーワード検索部111と、学習係り受け解析部112と、概念辞書記憶部113と、係り受け関連キーワード抽出部114と、正当割合算出部115と、非検索キーワード辞書部116とを有する。対象文章分類機能部12は、対象文章入力部120と、対象文章キーワード検索部121と、対象係り受け解析部122と、非検索キーワード判定部123と、文章情報分類部124とを有する。これら機能部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、装置における文章分類方法としても理解される。
文章分類プログラムは、対象文章情報を、特定カテゴリに属するか否かによって分類するようにコンピュータを機能させる。具体的には、対象文章情報に、検索キーワード辞書部10に登録された検索キーワードが含まれているか否かを検索する。例えば違法・有害な文章情報か否かによって分類する場合、検索キーワード辞書部10に蓄積される検索キーワードは、違法・有害なキーワードである。例えば、犯罪予告の場合、「爆破」のようなキーワードが、検索キーワード辞書部10に記憶される。勿論、検索キーワード辞書部10に蓄積される検索キーワードは、ユーザによって指定されたキーワードであってもよい。本発明によれば、検索キーワード辞書部10に登録された検索キーワードを含む文章情報であっても、目標とする特定カテゴリに属さない文章情報は、検索されないようにすることができる。
[非検索辞書生成機能部]
図2は、本発明における非検索キーワードの生成を表す説明図である。以下では、図1の説明と共に、図2の内容が説明される。
学習文章蓄積部110は、特定カテゴリに属さない多数の正当学習文章情報と、特定カテゴリに属する多数の不当学習文章情報とを蓄積する。正当/不当は、その学習文章情報に付加されたフラグによって区別される。
例えば、特定カテゴリが違法・有害な文章情報の群である場合、学習文章蓄積部110は、以下のような文章情報の群を混在して蓄積する。
(1)違法・有害カテゴリに属さない文章情報の群
=各文章情報に「正当」フラグが付加されている
=正当学習文章情報の群
(2)違法・有害カテゴリに属する文章情報の群
=各文章情報に「不当」フラグが付加されている
=不当学習文章情報の群
勿論、特定カテゴリがユーザによって指定された文章情報の群である場合、学習文章蓄積部110は、以下のような文章情報の群を混在して蓄積する。
(1)ユーザ指定の特定カテゴリに属さない文章情報の群
=各文章情報に「正当」フラグが付加されている
=正当学習文章情報の群
(2)ユーザ指定の特定カテゴリに属する文章情報の群
=各文章情報に「不当」フラグが付加されている
=不当学習文章情報の群
学習文章キーワード検索部111は、学習文章蓄積部110に蓄積された多数の学習文章情報について、検索キーワード辞書部10に蓄積された検索キーワードを含む学習文章情報を検索する。図2によれば、フラグの「正当」/「不当」に関係無く、検索キーワード「爆破」が含まれる全ての学習文章情報が検索されている。検索された多数の学習文章情報は、学習係り受け解析部112へ出力される。ここで、検索キーワード「爆破」を含んでいない学習文章情報は、以後の処理の対象とならない。
学習係り受け解析部112は、検索キーワードを含む多数の学習文章情報について、検索キーワードに対する係り受けキーワードを抽出する。学習係り受け解析部112は、係り受け解析の前段階として必要な形態素解析も含む。「形態素」とは、文章の構成要素のうち、意味を持つ最小の単位をいう。形態素解析には、「単語」毎に「品詞」「読み」が登録された辞書を有する。本発明によれば、検索キーワードを含む1文のみ(1文よりも短くてもよい)について、形態素に分割し、辞書を用いて「品詞」「読み」の文法規則を形成し、その上で、係り受けを解析する。
係り受け解析器として、例えば従来技術のCaboCha(例えば非特許文献1参照)又はKNP(例えば非特許文献2参照)を用いてもよい。「CaboCha」は、代表的な日本語係り受け解析器であって、サポートベクタマシンに基づいて、バックトラックを実行しない決定的な解析アルゴリズム(Cascaded Chunking Model)を採用した技術である。また、「KNP」は、日本語文の日本語文の構文・格解析システムであって、形態素解析システムJUMANの解析結果の形態素列を入力とし、文節及び基本句間の係り受け関係及び格関係を出力する技術である。
図2によれば、検索キーワード「爆破」に対して、以下のような係り受けキーワードが抽出される。
学習文章情報a:「不当」フラグが付加(違法・有害カテゴリに属する)
「爆破」<-「学校」
学習文章情報b:「正当」フラグが付加(違法・有害カテゴリに属さない)
「爆破」<-「鉱山」
学習文章情報c:「正当」フラグが付加(違法・有害カテゴリに属さない)
「爆破」<-「駄目」
これによって、以下のようなキーワード組が、係り受け関連キーワード抽出部114へ出力される。
「検索キーワード<-係り受けキーワード:正当/不当」
「 爆破 <- 学校 :不当」
「 爆破 <- 鉱山 :正当」
「 爆破 <- 駄目 :正当」
概念辞書記憶部113は、概念辞書を記憶する。ここで、概念辞書(シソーラス)とは、単語を意味上の包含関係によって分類した辞書をいう。概念辞書は、これらの関係を単語のノードをツリー状に構成した木構造で表したものである。
係り受け関連キーワード抽出部114は、キーワード組を学習係り受け解析部112から入力する。係り受け関連キーワード抽出部114は、「不当」フラグが付加された係り受けキーワードについて、概念辞書を用いて、下位概念となる複数の係り受け関連キーワードを抽出する。例えば、検索キーワード「爆破」と、係り受けキーワード「学校」とのキーワード組がある場合、係り受けキーワード「学校」に対する係り受け関連キーワードを抽出する。
図2によれば、以下のように、係り受けキーワード「学校」に対する係り受け関連キーワードが、概念辞書から抽出される。
「学校」->「小学校」「専門学校」
係り受け関連キーワード抽出部114は、検索キーワード「爆破」に対する係り受けキーワード「学校」及び係り受け関連キーワード「小学校」「専門学校」を、正当割合算出部115へ出力する。
尚、係り受け関連キーワード抽出部114は、「正当」フラグが付加された係り受けキーワードに対しても、概念辞書を用いて、下位概念となる複数の係り受け関連キーワードを抽出するものであってもよい。この場合、非検索キーワード辞書部116には、正当割合の高いキーワードが、多く登録されることとなる。これによって、非検索キーワード辞書部116は、非検索キーワードを多く蓄積し、非検索キーワードの判定精度を高めることができる。
正当割合算出部115は、係り受けキーワード及び係り受け関連キーワード毎に、正当学習文章情報の数と、不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する正当学習文章情報の数の正当割合を算出する。多数の学習文章情報に基づいて、1つの検索キーワードに対する多数の正当/不当の係り受けキーワードが抽出される。そして、検索キーワードに対する係り受けキーワード及び係り受け関連キーワード毎に、正当割合が算出される。
図2によれば、以下のように、係り受けキーワード及び係り受け関連キーワード毎に正当割合が算出される。
「爆破」<-「学校」 :正当学習文章情報の数=40個
不当学習文章情報の数=1960個
正当割合=40/2000=2%
「爆破」<-「小学校」 :正当学習文章情報の数=10個
不当学習文章情報の数=990個
正当割合=10/1000=1%
「爆破」<-「専門学校」:正当学習文章情報の数=5個
不当学習文章情報の数=95個
正当割合=5/100=5%
「爆破」<-「炭坑」 :正当学習文章情報の数=90個
不当学習文章情報の数=10個
正当割合=90/100=90%
「爆破」<-「鉱山」 :正当学習文章情報の数=99個
不当学習文章情報の数=1個
正当割合=99/100=99%
そして、正当割合算出部115は、係り受けキーワード毎の正当割合を、非検索キーワード辞書部116へ出力する。
「爆破」<-「学校」 :2%
<-「小学校」 :1%
<-「専門学校」:5%
<-「炭坑」 :90%
<-「鉱山」 :99%
非検索キーワード辞書部116は、正当割合が所定閾値以上となる係り受けキーワード及び係り受け関連キーワードを登録する。図2によれば、所定閾値70%以上に設定したとする。この場合、検索キーワード「爆破」に対して、正当割合が70%以上となる係り受けキーワード「炭坑」と、「炭坑」の下位概念となる「鉱山」とが、検索キーワード「爆破」に対する係り受けとなる非検索キーワードとして非検索キーワード辞書部116に登録される。
尚、非検索キーワード辞書部116は、正当割合が所定閾値以上となった係り受けキーワードを記憶するだけでなく、全ての係り受けキーワード毎に正当割合を対応付けて登録するものであってもよい。これによって、非検索キーワードとして導出するレベルとしての所定閾値は、ユーザ指定によって可変とすることもできる。
検索キーワード「爆破」<-非検索・係り受けキーワード「学校」 :2%
<-非検索・係り受け関連キーワード「小学校」 :1%
<-非検索・係り受け関連キーワード「専門学校」:5%
<-非検索・係り受けキーワード「炭坑」 :90%
<-非検索・係り受け関連キーワード「鉱山」 :99%
<-非検索・係り受けキーワード「駄目」 :60%
[対象文章分類機能部]
図3は、本発明における対象文章情報の分類を表す説明図である。以下では、図1の説明と共に、図3の内容が説明される。
対象文章入力部120は、解析対象となる対象文章情報を入力する。対象文章情報は、ユーザの操作に応じて入力されるものであってもよいし、ネットワークを介して受信されるものであってもよい。ネットワークを介して受信される対象文章情報としては、例えば、公開されているブログ(Weblog)、掲示板及び/又はクチコミコメントにおける不特定多数のユーザによって記述された文章情報である。
対象文章キーワード検索部121は、対象文章情報が、検索キーワード辞書部10に蓄積された検索キーワードを含むか否かを判定する。図3によれば、対象文章情報内の文章「・・・鉱山を速やかに爆破・・・」に、検索キーワード「爆破」が含まれる。そのために、検索キーワード有りとして、その対象文章情報は、対象係り受け解析部122へ出力される。
対象係り受け解析部122は、検索キーワードを含む対象文章情報について、検索キーワードに対する係り受けキーワードを抽出する。図3によれば、検索キーワード「爆破」に対して、係り受けキーワード「鉱山」が抽出される。
対象文章情報:「爆破」<-「鉱山」
抽出された係り受けキーワード「鉱山」は、対象文章情報と共に、非検索キーワード判定部123へ出力される。
非検索キーワード判定部123は、抽出された係り受けキーワードが、非検索キーワード辞書部116に登録された非検索係り受けキーワードと一致するか否かを判定する。図3によれば、非検索キーワード辞書部116には、「爆破」<-「鉱山」が登録されている。そのために、非検索キーワード判定部123は、抽出された係り受けキーワード「鉱山」が、非検索係り受けキーワード「鉱山」と一致すると判定する。この判定結果は、文章情報分類部124へ出力される。
尚、非検索キーワード判定部123は、抽出された係り受けキーワードが、非検索キーワード辞書部116に登録された係り受けキーワードと一致し、且つ、当該係り受けキーワードにおける正当割合が所定閾値以上である場合に、当該係り受けキーワードに対して真と判定するものであってもよい。例えば、一致した係り受けキーワード「鉱山」について、非検索キーワード辞書部116に登録された正当割合99%は、所定閾値70%以上であるので、非検索キーワードとして採用される。逆に、所定閾値70%未満の非検索キーワードは採用されない。
文章情報分類部124は、対象文章キーワード検索部121によって偽と判定された対象文章情報と、対象文章キーワード検索部121によって真と判定されると共に非検索キーワード判定部123によって真と判定された対象文章情報とを、特定カテゴリに属さない文章情報として分類する。
図4は、本発明における概念辞書を用いた係り受け関連キーワードの抽出を表す第1の説明図である。
検索キーワード「爆破」に対して係り受けキーワード「学校」が抽出された場合を想定する。ここで、「学校,爆破」のキーワード組は、正当割合が低いとする。このとき、「学校」が下位概念「小学校」「専門学校」であったとしても、検索キーワード「爆破」に対しては、その正当割合は「学校」と同程度に低い。
図4によれば、概念辞書は、木構造で表されている。木構造の概念辞書は、キーワードを構成要素としており、これらの各構成要素をノードという。ノードは、階層状に構成されている。階層nのnの値が小さい単語ほど、上位概念となる。例えば、階層3の「学校」は、階層4の「小学校」「専門学校」の上位概念となる。
係り受け関連キーワードは、一方では、係り受けキーワードの下位概念に含まれるキーワードであって、例えば「学校」の下位概念に含まれる「小学校」「○○小学校」である。また、他方では、係り受けキーワードの上位概念に含まれるキーワードであって、例えば、「学校」の上位概念に含まれる「公共施設」である。「公共施設を爆破」であっても、「学校を爆破」と同程度に正当割合が低い。
係り受け関連キーワードとして抽出されるキーワード数として、閾値が予め設定されていてもよい。例えば、最初に下位概念に含まれるキーワードを抽出し、抽出されたキーワード数が閾値以下であれば、上位概念の部分木に含まれるキーワードも抽出の対象としてもよい。例えば、係り受けキーワードが「学校」であるとき、閾値を7と定めた場合、下位概念に含まれる「小学校」「専門学校」「○○小学校」だけでは、キーワード数が閾値以下となる。そこで、上位概念「公共施設」の部分木に含まれる「駅」「病院」も抽出の対象とする。
係り受け関連キーワードの抽出は、係り受けキーワードに対応するノードよりも少なくとも1階層上の上位概念のノードから見て、下位概念となる複数の係り受け関連キーワードを概念辞書を用いて抽出するものであってもよい。例えば、係り受けキーワードが「学校」であるとき、1階層上の「公共施設」のノードから見て、下位概念となる「駅」「地下鉄駅」「私鉄駅」「病院」を抽出する。例えば「駅を爆破」であっても、「学校を爆破」と同程度に正当割合が低い。
また、係り受け関連キーワードの抽出は、係り受けキーワードに対応するノードの階層nの高さに基づいて、当該階層nから何階層上の上位概念のノードから見るかを決定し、下位概念となる複数の係り受け関連キーワードを、概念辞書を用いて抽出するものであってもよい。例えば、係り受けキーワードが[ノード3]の「学校」であるときは、1階層上の上位概念のノードである[ノード2]の「公共施設」の下位概念となる係り受け関連キーワードを抽出する。これに対し、係り受けキーワードが[ノード4]の「小学校」であるときは2階層上の上位概念のノードである[ノード2]の「公共施設」の下位概念となる係り受け関連キーワードを抽出する。
更に、係り受け関連キーワードの抽出は、係り受けキーワードの品詞に基づいて、当該階層nから何階層上の上位概念のノードから見るかを決定し、下位概念となる複数の係り受け関連キーワードを、概念辞書を用いて抽出するものであってもよい。また、係り受けキーワードの品詞に基づいて、係り受け関連キーワードとして抽出するか否かを決定するものであってもよい。
係り受けキーワードの品詞によって、上位概念の部分木に含まれるキーワードを抽出すべきでない場合がある。例えば、名詞の場合は、1階層上の上位概念のノードから見て下位概念となる係り受け関連キーワードは、意味的に類似したものとなりやすい。これに対し、動詞の場合は、同様に抽出すると、係り受け関連キーワードは、意味的にずれが大きくなる傾向がある。以下に、名詞「子供」と、動詞「殺す」の例を示す。
「子供」-> 「娘」「初子」「お祖母さん子」「隠し子」「子弟」「次女」「双子」
「殺す」->「暗殺する」「殺虫」「損なう」「潰す」「間引く」「除ける」
図5は、本発明における概念辞書を用いた係り受け関連キーワードの抽出を表す第2の説明図である。
係り受け関連キーワードの抽出には、スコアsを用いてもよい。図5によれば、抽出された係り受け関連キーワードのスコアs(w')は、以下の式によって算出される。
s(w')=s(w)×f(d(w'))
f(x)=c
s(w):係り受けキーワードのスコア
d(w'):係り受けキーワードと係り受け関連キーワードとの重み付け距離
c:定数(例えば0.8)
重み付け距離d(w')について、上位概念になるキーワードに対する距離は、下位概念になるキーワードに対する距離よりも、重み値が大きい。例えば、係り受けキーワードから見た上位概念になるキーワードに対する距離は0.6であるのに対し、下位概念になるキーワードに対する距離は0.2である。
例えば、以下の例について説明する。
w=「学校」、s(w)=2
w’=「小学校」
d(w'):「学校」に対する「小学校」の重み付け距離
このとき、「学校」に対する「小学校」のスコアは、以下のように表される。
d(w')=0.2+0.2=0.4
f(d(w'))=c0.4=0.80.4=0.92
s(w')=s(w)×f(d(w'))=2×0.80.4=1.83
同様に、「学校」に対する「駅」のスコアは、以下のように表される。
d(w')=0.6+0.2=0.8
f(d(w'))=c0.8=0.80.8=0.84
s(w')=s(w)×f(d(w'))=2×0.80.8=1.67
このように、スコア2の「学校」から見て、スコア1.83の「小学校」よりも、スコア1.67の「駅」の方が、重み付け距離は遠い。この重み付け距離に閾値を設定することよって、係り受けキーワードから拡張すべき重み付け距離の範囲を定めることができる。閾値0.5である場合、例えばスコア2の「学校」から見て、スコア1.83の「小学校」及びスコア1.67の「駅」は、重み付け距離の範囲に含まれる。これによって、「学校->爆破」は、「小学校->爆破」「駅->爆破」に拡張される。
図6は、本発明における文章解析サーバのシステム構成図である。
図6によれば、文章解析サーバ1は、前述した検索キーワード辞書部10、非検索辞書生成機能部11及び対象文章分類機能部12と、通信インタフェース部13とを有する。文章解析サーバ1は、インターネットを介して、Webサーバ2と通信する。また、そのWebサーバ2は、端末3から送信された対象文章情報としてのWeb文章情報を蓄積し且つ公開している。文章解析サーバ1の対象文章分類機能部12は、通信インタフェース部13を介して、多数のWebサーバ2から対象文章情報を受信する。対象文章分類機能部12は、検索キーワード辞書と、非検索辞書生成機能部11によって生成された非検索キーワード辞書とを用いて、その対象文章情報を特定カテゴリに分類する。Webサーバ2から受信した対象文章情報について、例えば違法・有害な特定カテゴリに分類することができる。
図7は、本発明におけるシステムのシーケンス図である。
(S701)非検索辞書生成機能部11は、学習文章情報として、特定カテゴリに属さない多数の正当学習文章情報と、特定カテゴリに属する多数の不当学習文章情報とを蓄積している。最初に、多数の学習文章情報の中から、検索キーワード辞書に登録された検索キーワードを含む学習文章情報が検索される。
(S702)検索キーワードを含む学習文章情報について、検索キーワードに対する係り受けキーワードを抽出する。
(S703)単語のノードがツリー状に構成された概念辞書を用いて、係り受けキーワードに対応するノードから見て、下位概念となる複数の係り受け関連キーワードを抽出する。
(S704)係り受けキーワード毎に、正当学習文章情報の数と、不当学習文章情報の数とが計数され、全ての学習文章情報の数に対する正当学習文章情報の数の正当割合が算出される。
(S705)そして、正当割合が所定閾値以上となる係り受けキーワードが、非検索キーワードとして登録される。
(S706)端末3は、利用者の操作に応じて、対象文章情報を、Webサーバ2へ送信する。
(S707)文章解析サーバ1は、Webサーバ2から、解析対象となる対象文章情報を受信する。その対象文章情報は、対象文章分類機能部12へ出力される。
(S708)対象文章情報が、検索キーワード辞書に蓄積された検索キーワードを含むか否かを判定する。
(S709)検索キーワードを含む対象文章情報について、検索キーワードに対する係り受けキーワードを抽出する。
(S710)抽出された係り受けキーワードが、非検索キーワード辞書に登録された非検索係り受けキーワードと一致するか否かを判定する。
(S711)そして、S708によって偽と判定された対象文章情報と、S708によって真と判定されると共にS710によって真と判定された対象文章情報とを、特定カテゴリに属さない文章情報として分類する。これによって、検索キーワードに対する係り受けキーワードが、非検索キーワード辞書に登録された非検索キーワードである場合、その文章情報は、特定カテゴリに属さないとして検索されないようになされる。
最後に、本発明と従来技術との性能比較評価結果について説明する。形態素解析器としてMeCabを用い、係り受け解析器としてCabochaを用い、概念辞書としてEDR電子化辞書を用いた。人手でラベルを付与した学習用文書40万記事(違法・有害4万記事、無害36万記事)と、評価対象文書40万記事(違法・有害4万記事、無害36万記事)とからなる、商用のブログ文書80万記事を利用した。
情報検索システムの検索性能は、適合率(precision)及び再現率(recall)によって評価される。適合率は、検索結果として得られた集合中にどれだけ検索に適合した文書を含んでいるかという正確性の指標である。再現率は、検索対象としている文書の中で検索結果として適合している文書(正解文書)のうちでどれだけの文書を検索できているかという網羅性の指標である。ここで、適合率を上げれば再現率が下がり、再現率を上げれば適合率が下がるというトレードオフの関係にある。そのために、適合率と再現率の調和平均となるF値(F-measure)を用いて、検索性能を評価することも好ましい。F値が高いほど、検索性能が良いことを意味する。
図8は、再現率(Recall)に対する適合率(Precision)を表すグラフである。概念辞書を用いたことにより、従来技術と比較して、再現率は最大4.2%向上し、適合率は最大2.0%向上した。
図9は、辞書のキーワード数に対するF値を表すグラフである。概念辞書を用いたことにより、F値は最大3.9%向上した。これは、学習文書中から得られた少数の係り受け文節組に基づいて、概念辞書を用いて拡張したことによって、新たに多くの表現を正しく判定することが可能になったことによる効果と考えられる。
以上、詳細に説明したように、本発明の文章分類プログラム、サーバ及び方法によれば、例えば予め登録されたキーワードによって違法・有害なカテゴリに属するか否かを判定する際に、違法・有害でない文章情報が、違法・有害なカテゴリに分類されることを、できる限り減らすと共に、適用可能な文章の範囲をできる限り拡張することができる。本発明によれば、検索キーワード辞書に加えて、その検索キーワードと係り受け関係となる非検索キーワードを登録した非検索キーワード辞書を備える。また、非検索キーワード辞書は、概念辞書を用いて、係り受けキーワードだけでなく、その関連キーワードも、非検索キーワードとして登録することができる。これによって、違法・有害な検索キーワードを含む文章情報であっても、その係り受け関係となるキーワードが非検索検索キーワードと一致する場合、違法・有害な文章情報でないと判断される。本発明によれば、検索キーワードの係り受け関係も解析するために、過剰な判定が抑制され、分類精度が向上する。
また、本発明は、違法・有害な文章情報と判定されたものであっても、本来は違法・有害な文章情報ではないと判定されるべきものを取り除く場合、及び、違法・有害な文章情報ではないと判定されたものであっても、本来は違法・有害な文章情報と判定されるべきものを取り除く場合にも利用できる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 文章解析サーバ
10 検索キーワード辞書部
11 非検索辞書生成機能部
110 学習文章蓄積部
111 学習文章キーワード検索部
112 学習係り受け解析部
113 概念辞書記憶部
114 係り受け関連キーワード抽出部
115 正当割合算出部
116 非検索キーワード辞書部
12 対象文章分類機能部
120 対象文章入力部
121 対象文章キーワード検索部
122 対象係り受け解析部
123 非検索キーワード判定部
124 文章情報分類部
13 通信インタフェース部
2 Webサーバ
3 端末

Claims (14)

  1. 検索キーワードを蓄積した検索キーワード辞書手段を有し、当該検索キーワードを含む文章情報を検索するようにコンピュータを機能させる文章検索プログラムであって、
    特定カテゴリに属さない複数の正当学習文章情報と、前記特定カテゴリに属する複数の不当学習文章情報とを蓄積した学習文章蓄積手段と、
    前記学習文章蓄積手段を用いて、前記検索キーワードを含む学習文章情報を検索する学習文章キーワード検索手段と、
    前記検索キーワードを含む学習文章情報について、前記検索キーワードに対する係り受けキーワードを抽出する学習係り受け解析手段と、
    単語のノードがツリー状に構成された概念辞書記憶手段と、
    前記概念辞書記憶手段を用いて、前記係り受けキーワードに対応するノードから見て、下位概念となる複数の係り受け関連キーワードを抽出する係り受け関連キーワード抽出手段と、
    前記係り受けキーワード及び前記係り受け関連キーワードの全てのキーワード毎に、前記正当学習文章情報の数と、前記不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する前記正当学習文章情報の数の正当割合を算出する正当割合算出手段と、
    前記正当割合が所定閾値以上となる前記係り受けキーワード及び前記係り受け関連キーワードを非検索キーワードとして登録する非検索キーワード辞書手段と
    してコンピュータを機能させ、前記検索キーワードに対する係り受けキーワードとして非検索キーワードが含まれている文章情報は検索されないようにすることを特徴とする文章検索プログラム。
  2. 前記係り受け関連キーワード抽出手段は、前記概念辞書記憶手段を用いて、前記係り受けキーワードに対応するノードよりも少なくとも1階層上の上位概念のノードから見て、下位概念となる複数の係り受け関連キーワードを抽出するようにコンピュータを機能させることを特徴とする請求項1に記載の文章検索プログラム。
  3. 前記係り受け関連キーワード抽出手段は、前記概念辞書記憶手段を用いて、前記係り受けキーワードに対応するノードの階層nの高さに基づいて、当該階層nから何階層上の上位概念のノードから見るかを決定するようにコンピュータを機能させることを特徴とする請求項2に記載の文章検索プログラム。
  4. 前記係り受け関連キーワード抽出手段は、前記係り受けキーワードの品詞に基づいて、前記概念辞書記憶手段を用いて、当該階層nから何階層上の上位概念のノードから見るかを決定するようにコンピュータを機能させることを特徴とする請求項2に記載の文章検索プログラム。
  5. 前記係り受け関連キーワード抽出手段は、前記係り受け関連キーワードの品詞に基づいて、前記係り受け関連キーワードとして抽出するか否かを決定するようにコンピュータを機能させることを特徴とする請求項4に記載の文章検索プログラム。
  6. 前記概念辞書記憶手段を用いて、前記検索キーワードに対応するノードよりも下位概念となる複数の検索関連キーワードを抽出する検索関連キーワード抽出手段を更に有し、
    前記学習文章キーワード検索手段は、前記学習文章蓄積手段を用いて、前記検索関連キーワードを含む学習文章情報を更に検索し、
    前記学習係り受け解析手段は、前記検索関連キーワードを含む学習文章情報について、前記検索関連キーワードに対する係り受けキーワードを更に抽出する
    ようにコンピュータを機能させることを特徴とする請求項1から5のいずれか1項に記載の文章検索プログラム。
  7. 解析対象となる対象文章情報を入力する対象文章入力手段と、
    前記対象文章情報が、前記検索キーワード辞書手段に蓄積された前記検索キーワードを含むか否かを判定する対象文章キーワード検索手段と、
    前記検索キーワードを含む対象文章情報について、前記検索キーワードに対する係り受けキーワードを抽出する対象係り受け解析手段と、
    抽出された前記係り受けキーワードが、前記非検索キーワード辞書手段に登録された非検索係り受けキーワードと一致するか否かを判定する非検索キーワード判定手段と、
    前記対象文章キーワード検索手段によって偽と判定された前記対象文章情報と、前記対象文章キーワード検索手段によって真と判定されると共に前記非検索キーワード判定手段によって真と判定された前記対象文章情報とを、前記特定カテゴリに属さない文章情報として分類する文章情報分類手段と
    してコンピュータを機能させることを特徴とする請求項1から6のいずれか1項に記載の文章検索プログラム。
  8. 前記非検索キーワード辞書手段は、登録された係り受けキーワード毎に、前記正当割合算出手段によって算出された前記正当割合を対応付けて登録しており、
    前記非検索キーワード判定手段は、抽出された前記係り受けキーワードが、前記非検索キーワード辞書手段に登録された係り受けキーワードと一致し、且つ、当該係り受けキーワードにおける前記正当割合が所定閾値以上である場合に、当該係り受けキーワードに対して真と判定する
    ようにコンピュータを機能させることを特徴とする請求項7に記載の文章検索プログラム。
  9. 前記検索キーワードは、カテゴリ分類を目的として設定されたキーワードであり、
    前記学習文章蓄積手段における前記特定カテゴリは、前記カテゴリ分類に基づく文章情報の群であるようにコンピュータを機能させることを特徴とする請求項1から8のいずれか1項に記載の文章検索プログラム。
  10. 前記検索キーワードは、違法・有害なキーワードであり、
    前記学習文章蓄積手段における前記特定カテゴリは、違法・有害な文章情報の群であるようにコンピュータを機能させることを特徴とする請求項1から8のいずれか1項に記載の文章検索プログラム。
  11. 前記検索キーワードは、ユーザによって指定されたキーワードであり、
    前記学習文章蓄積手段における前記特定カテゴリは、ユーザによって指定された文章情報の群であるようにコンピュータを機能させることを特徴とする請求項1から8のいずれか1項に記載の文章検索プログラム。
  12. 前記対象文章情報は、ネットワークを介して公開されているブログ(Weblog)、掲示板及び/又はクチコミコメントにおける不特定多数のユーザによって記述された文章情報であるようにコンピュータを機能させることを特徴とする請求項1から11のいずれか1項に記載の文章検索プログラム。
  13. 検索キーワードを蓄積した検索キーワード辞書手段を有し、他の公開サーバからネットワークを介して取得した文章情報から、当該検索キーワードを含む文章情報を検索する文章解析サーバであって、
    特定カテゴリに属さない複数の正当学習文章情報と、前記特定カテゴリに属する複数の不当学習文章情報とを蓄積した学習文章蓄積手段と、
    前記学習文章蓄積手段を用いて、前記検索キーワードを含む学習文章情報を検索する学習文章キーワード検索手段と、
    前記検索キーワードを含む学習文章情報について、前記検索キーワードに対する係り受けキーワードを抽出する学習係り受け解析手段と、
    単語のノードがツリー状に構成された概念辞書記憶手段と、
    前記概念辞書記憶手段を用いて、前記係り受けキーワードに対応するノードから見て、下位概念となる複数の係り受け関連キーワードを抽出する係り受け関連キーワード抽出手段と、
    前記係り受けキーワード及び前記係り受け関連キーワードの全てのキーワード毎に、前記正当学習文章情報の数と、前記不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する前記正当学習文章情報の数の正当割合を算出する正当割合算出手段と、
    前記正当割合が所定閾値以上となる前記係り受けキーワード及び前記係り受け関連キーワードを非検索キーワードとして登録する非検索キーワード辞書手段と
    を有し、前記検索キーワードに対する係り受けキーワードとして非検索キーワードが含まれている文章情報は検索されないようにすることを特徴とする文章解析サーバ。
  14. 検索キーワードを蓄積した検索キーワード辞書を有し、当該検索キーワードを含む文章情報を、コンピュータを用いて検索する文章検索方法であって、
    特定カテゴリに属さない複数の正当学習文章情報と、前記特定カテゴリに属する複数の不当学習文章情報とを、学習文章蓄積部に蓄積しており、
    単語のノードがツリー状に構成された概念辞書を、概念辞書記憶部に記憶しており、
    前記学習文章蓄積手段を用いて、前記検索キーワードを含む学習文章情報を検索する第1のステップと、
    前記検索キーワードを含む学習文章情報について、前記検索キーワードに対する係り受けキーワードを抽出する第2のステップと、
    前記概念辞書記憶手段を用いて、前記係り受けキーワードに対応するノードから見て、下位概念となる複数の係り受け関連キーワードを抽出する第3のステップと、
    前記係り受けキーワード及び前記係り受け関連キーワードの全てのキーワード毎に、前記正当学習文章情報の数と、前記不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する前記正当学習文章情報の数の正当割合を算出する第4のステップと、
    前記正当割合が所定閾値以上となる前記係り受けキーワード及び前記係り受け関連キーワードを非検索キーワードとして登録する第5のステップと
    を有し、前記検索キーワードに対する係り受けキーワードとして非検索キーワードが含まれている文章情報は検索されないようにすることを特徴とする文章検索方法。
JP2010033208A 2010-02-18 2010-02-18 検索キーワード辞書に対する非検索キーワード辞書を用いた文章検索プログラム、サーバ及び方法 Expired - Fee Related JP5364010B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010033208A JP5364010B2 (ja) 2010-02-18 2010-02-18 検索キーワード辞書に対する非検索キーワード辞書を用いた文章検索プログラム、サーバ及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010033208A JP5364010B2 (ja) 2010-02-18 2010-02-18 検索キーワード辞書に対する非検索キーワード辞書を用いた文章検索プログラム、サーバ及び方法

Publications (2)

Publication Number Publication Date
JP2011170578A true JP2011170578A (ja) 2011-09-01
JP5364010B2 JP5364010B2 (ja) 2013-12-11

Family

ID=44684647

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010033208A Expired - Fee Related JP5364010B2 (ja) 2010-02-18 2010-02-18 検索キーワード辞書に対する非検索キーワード辞書を用いた文章検索プログラム、サーバ及び方法

Country Status (1)

Country Link
JP (1) JP5364010B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013161105A1 (ja) * 2012-04-27 2013-10-31 楽天株式会社 タグ管理装置、タグ管理方法、タグ管理プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
CN106686447A (zh) * 2015-11-06 2017-05-17 广州视源电子科技股份有限公司 筛除频道的方法和筛除频道的装置
JP2018041297A (ja) * 2016-09-08 2018-03-15 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
CN109800308A (zh) * 2019-01-22 2019-05-24 四川长虹电器股份有限公司 一种基于词性和模糊模式识别组合的短文本分类方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282797A (ja) * 2000-03-31 2001-10-12 Digital Arts Inc インターネット閲覧制御方法、その方法を実施するプログラムを記録した媒体およびインターネット閲覧制御装置
JP2002117135A (ja) * 2000-08-02 2002-04-19 Masunaga Sogo Keikaku:Kk ウェブサイトセキュリティシステム
JP2005004300A (ja) * 2003-06-10 2005-01-06 Fujitsu Ltd 情報検索支援装置
JP2005275560A (ja) * 2004-03-23 2005-10-06 Techno Network Shikoku Co Ltd 形容詞キーワード拡充システムと、これを用いた形容詞情報から検索者の意図理解検索システムと、形容詞情報から検索者の意図推論検索システム。
JP2009026083A (ja) * 2007-07-19 2009-02-05 Fujifilm Corp コンテンツ検索装置
JP2009163303A (ja) * 2007-12-28 2009-07-23 Mitsubishi Electric Corp 検索フィルタリング装置及び検索フィルタリングプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282797A (ja) * 2000-03-31 2001-10-12 Digital Arts Inc インターネット閲覧制御方法、その方法を実施するプログラムを記録した媒体およびインターネット閲覧制御装置
JP2002117135A (ja) * 2000-08-02 2002-04-19 Masunaga Sogo Keikaku:Kk ウェブサイトセキュリティシステム
JP2005004300A (ja) * 2003-06-10 2005-01-06 Fujitsu Ltd 情報検索支援装置
JP2005275560A (ja) * 2004-03-23 2005-10-06 Techno Network Shikoku Co Ltd 形容詞キーワード拡充システムと、これを用いた形容詞情報から検索者の意図理解検索システムと、形容詞情報から検索者の意図推論検索システム。
JP2009026083A (ja) * 2007-07-19 2009-02-05 Fujifilm Corp コンテンツ検索装置
JP2009163303A (ja) * 2007-12-28 2009-07-23 Mitsubishi Electric Corp 検索フィルタリング装置及び検索フィルタリングプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013161105A1 (ja) * 2012-04-27 2013-10-31 楽天株式会社 タグ管理装置、タグ管理方法、タグ管理プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
JP2013232108A (ja) * 2012-04-27 2013-11-14 Rakuten Inc タグ管理装置、タグ管理方法、タグ管理プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
CN106686447A (zh) * 2015-11-06 2017-05-17 广州视源电子科技股份有限公司 筛除频道的方法和筛除频道的装置
JP2018041297A (ja) * 2016-09-08 2018-03-15 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
CN109800308A (zh) * 2019-01-22 2019-05-24 四川长虹电器股份有限公司 一种基于词性和模糊模式识别组合的短文本分类方法
CN109800308B (zh) * 2019-01-22 2022-04-15 四川长虹电器股份有限公司 一种基于词性和模糊模式识别组合的短文本分类方法

Also Published As

Publication number Publication date
JP5364010B2 (ja) 2013-12-11

Similar Documents

Publication Publication Date Title
Bharti et al. Sarcastic sentiment detection in tweets streamed in real time: a big data approach
Al-Twairesh et al. AraSenTi: Large-scale Twitter-specific Arabic sentiment lexicons
Poudyal et al. ECHR: Legal corpus for argument mining
Annett et al. A comparison of sentiment analysis techniques: Polarizing movie blogs
US8402036B2 (en) Phrase based snippet generation
CN111581355B (zh) 威胁情报的主题检测方法、装置和计算机存储介质
Banik et al. Evaluation of naïve bayes and support vector machines on bangla textual movie reviews
Brahimi et al. Data and Text Mining Techniques for Classifying Arabic Tweet Polarity.
Dumani et al. A framework for argument retrieval: Ranking argument clusters by frequency and specificity
JP4911599B2 (ja) 風評情報抽出装置及び風評情報抽出方法
Alawneh et al. Sentiment analysis-based sexual harassment detection using machine learning techniques
Srinivas et al. A weighted tag similarity measure based on a collaborative weight model
Basha et al. Evaluating the impact of feature selection on overall performance of sentiment analysis
JP5364010B2 (ja) 検索キーワード辞書に対する非検索キーワード辞書を用いた文章検索プログラム、サーバ及び方法
KR101543680B1 (ko) 인터넷을 활용한 개체 검색과 이를 위한 하이브리드 기반의 의견분석 시스템 및 그 방법
Samonte Polarity analysis of editorial articles towards fake news detection
Torshizi et al. Automatic Twitter rumor detection based on LSTM classifier
JP5477910B2 (ja) 検索キーワード辞書及び係り受けキーワード辞書を用いた文章検索プログラム、装置、サーバ及び方法
Campbell et al. Content+ context networks for user classification in twitter
Bellaachia et al. Learning from twitter hashtags: Leveraging proximate tags to enhance graph-based keyphrase extraction
Liu et al. An improved topic detection method for chinese microblog based on incremental clustering.
Kalender et al. THINKER-entity linking system for Turkish language
Kannan et al. Text document clustering using statistical integrated graph based sentence sensitivity ranking algorithm
Ishtiaq Sentiment analysis of twitter data using sentiment influencers
Mukherjee et al. An improved information retrieval approach to short text classification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120904

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130809

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130816

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130906

R150 Certificate of patent or registration of utility model

Ref document number: 5364010

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees