JP5137567B2 - 検索フィルタリング装置及び検索フィルタリングプログラム - Google Patents

検索フィルタリング装置及び検索フィルタリングプログラム Download PDF

Info

Publication number
JP5137567B2
JP5137567B2 JP2007339327A JP2007339327A JP5137567B2 JP 5137567 B2 JP5137567 B2 JP 5137567B2 JP 2007339327 A JP2007339327 A JP 2007339327A JP 2007339327 A JP2007339327 A JP 2007339327A JP 5137567 B2 JP5137567 B2 JP 5137567B2
Authority
JP
Japan
Prior art keywords
document
classification
search
analysis result
negative example
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007339327A
Other languages
English (en)
Other versions
JP2009163303A (ja
Inventor
泰博 高山
誠 今村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2007339327A priority Critical patent/JP5137567B2/ja
Publication of JP2009163303A publication Critical patent/JP2009163303A/ja
Application granted granted Critical
Publication of JP5137567B2 publication Critical patent/JP5137567B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、大量の文書集合に対する検索結果の文書集合から検索目的に合致した文書の集合を精度良く抽出するために、分類器に与える訓練データを反復学習により容易に作成する検索フィルタリング装置及び検索フィルタリングプログラムに関するものである。
近年、日常生活でのコンピュータの普及に伴い、ワールドワイドウェブ中のウェブ文書にブログや掲示板等の形で消費者の意見が大量に記載されるようになってきた。また、企業活動においては、文書管理システムで扱われる文書が膨大に蓄積されるようになってきた。そこで、ウェブ文書をマーケティングや風評監視に活用したり、企業内の文書管理システム中の文書から業務に必要な文書を効率よく探し出したりすることが期待されている。
大量の文書のなかには種々の話題が混在しており、一つの単語が複数の意味を持つ多義語が含まれているため、多義語を検索キーワードとして検索する場合に、通常の全文検索では検索ごみや検索もれが生じてしまう。例えば、電気部品である「抵抗」に関して検索する際に、検索目的を表す語そのものの検索式「抵抗」で検索したのでは、電気部品の抵抗に加えて、「抵抗勢力」、「権力への抵抗」等の社会に対する抵抗に関する文書も検索ごみとして含まれてしまう。一方、「抵抗 AND 電気」のような検索式で全文検索すると検索もれが生じる。そのため、検索結果の文書集合の中から検索目的に合致した文書の集合を精度良くフィルタリングするための技術が重要となる。
なお、本明細書の説明において、語、単語及び用語(単語及び複合語を含む)という言葉は、特に明示しない場合は、区別せず同じ意味として用いるものとする。
従来から、検索フィルタリングに関しては、検索結果を人手で選択してフィードバックを与える技術が用いられており、例えば、特許文献1がある。
この特許文献1は、同文献の段落[0077]に示されているように、ユーザが個別に人手で検索結果中の適合データと非適合データを指定することにより、分類器による学習処理あるいは各文書集合の重心間の差分ベクトルを用いて検索結果を適合文書集合と非適合文書集合に分類するための技術について述べている。同文献の段落[0078]〜[0092]では、適合データと非適合データの相違に基づいてそれぞれの文書集合の重心間の差分ベクトルを求め、この差分ベクトルと各文書の単語ベクトルとの間のスコアをフィードバック値として求め、このフィードバック値を各文書の単語ベクトルの要素値の一つにして単語ベクトルを補正することにより、検索結果を洗練化させる装置が開示されている。
特開2007−18389号公報
しかしながら、特許文献1に示された従来の検索フィルタリング装置では、人手により適合データと非適合データを指定する手段のみしか提供しておらず、分類器に与える充分な訓練データを作成できないため、検索目的に合致した文書の集合を精度良く抽出できないという問題点があった。
この発明は、上述のような課題を解決するためになされたもので、その目的は、検索対象文書の性質に応じて、分類器に与える訓練データの作成を容易にし、検索目的に合致した文書の集合を精度良くフィルタリングして抽出することができる検索フィルタリング装置及び検索フィルタリングプログラムを得るものである。
この発明に係る検索フィルタリング装置は、検索対象の文書の集合から、初期検索式により抽出対象の上限文書集合、確定正例検索式により検索目的に合致する文書の集合である確定正例、及び確定負例検索式により検索目的に合致しない文書の集合である確定負例の検索を行う検索部と、前記検索部により検索された抽出対象の上限文書集合、確定正例、及び確定負例の各文書に対して文の形態素及び構文の解析を行い、抽出対象の上限文書集合の文書解析結果、確定正例の文書解析結果、及び確定負例の文書解析結果を求める文書解析部と、前記文書解析部により解析された、抽出対象の上限文書集合の文書解析結果、確定正例の文書解析結果、及び確定負例の文書解析結果から、分類対象文書、分類用正例、及び分類用負例を選択し、分類対象文書ごとの文書解析結果、分類用正例の文書ごとの文書解析結果、及び分類用負例の文書ごとの文書解析結果を求める訓練用文書・分類対象文書選択部と、前記訓練用文書・分類対象文書選択部により求めた分類対象文書ごとの文書解析結果、分類用正例の文書ごとの文書解析結果、及び分類用負例の文書ごとの文書解析結果から、検索目的を表す語との共起情報を素性ベクトルとして抽出し、前記分類対象文書ごとの文書解析結果から分類対象文書ごとの素性ベクトルを生成し、前記分類用正例の文書ごとの文書解析結果から分類用正例の文書ごとの素性ベクトルを生成し、前記分類用負例の文書ごとの文書解析結果から分類用負例の文書ごとの素性ベクトルを生成する共起素性抽出部と、前記共起素性抽出部により生成された分類用正例の文書ごとの素性ベクトル、及び分類用負例の文書ごとの素性ベクトルから、分類用正例文書の特徴、及び分類用負例文書の特徴を計算する学習部と、前記学習部により計算した分類用正例文書の特徴、及び分類用負例文書の特徴を、前記共起素性抽出部により生成された分類対象文書ごとの素性ベクトルに適用して、分類対象文書ごとの分類スコアを求める自動分類部とを設けたものである。
この発明に係る検索フィルタリング装置は、検索対象文書の性質に応じて、分類器に与える訓練データの作成を容易にし、検索目的に合致した文書の集合を精度良くフィルタリングして抽出することができるという効果を奏する。
実施の形態1.
この発明の実施の形態1に係る検索フィルタリング装置について図1から図8までを参照しながら説明する。
最初に、この発明の実施の形態1を説明するために、予め本明細書で用いる用語について説明する。個々の文書中のテキスト部分を『事例文章データ』と呼ぶ。なお、この明細書中では、誤解が生じない場合には、事例文章データを文書で置き換えて説明することがある。検索目的に合致した事例文書データを『正例』、抽出対象でない事例文章データを『負例』と呼ぶ。検索目的に合致した抽出対象であるという確信度が非常に高い事例文章データの集合を『確定正例』と呼び、『PosD』で表す(添え字iは、後述する反復学習のi回目であることを表す。以下、同様の意味で添え字を用いる)。また、抽出対象でないという確信度が非常に高い事例文章データの集合を『確定負例』と呼び、『NegD』で表す。
確定正例を検索する全文検索の検索式を『pos』、確定負例を検索する全文検索の検索式を『neg』で表す。なお、全文検索については広く公知の技術であるのでここでは説明を省略する。全文検索の際に必要な索引等は、文書を2次記憶装置(後述する)に格納する際に検索部(後述する)において生成されるものとする。
全文検索により事例文章データの集合を検索することを『search(検索式, 検索範囲)』の形式で表す。ここで、検索範囲は、検索式の各キーワードが含まれるウィンドウ幅であり、ウィンドウが文章データ全体である場合を『s』、前後n文内である場合を『s±n』(n≧0,n=0のときは1文内)で表す。
分類器(後述する学習部と自動分類部から構成される)に正例として与えるための事例文章データの集合を『分類用正例』と呼び、『PosC』で表す。また、分類器に負例として与えるための事例文章データの集合を『分類用負例』と呼び、『NegC』で表す。分類用正例と分類用負例を合わせたデータを分類器のための『訓練データ』と呼ぶ。分類器が推定フェーズ(自動分類フェーズとも呼ぶ)で分類するデータの集合を『分類対象データ』と呼び、『CD』で表す。
図1は、この発明の実施の形態1に係る検索フィルタリング装置を実現するためのコンピュータのハードウェア資源の構成を示す図である。なお、以降では、各図中、同一符号は同一又は相当部分を示す。
図1において、この発明の実施の形態1に係る検索フィルタリング装置は、キーボード、マウス等の入力装置1と、通信装置2と、制御装置3と、CD−ROM等の記録媒体6と、記録媒体駆動装置7と、2次記憶装置8と、出力装置9とが設けられている。
また、制御装置3は、少なくともCPU(Central Processing Unit)4と、主記憶装置5から構成される。出力装置9は、ディスプレイ等の表示装置9Aと、プリンタ等の印刷装置9Bを含む。
図2は、この発明の実施の形態1に係る検索フィルタリング装置の構成を示すブロック図である。
図2において、この発明の実施の形態1に係る検索フィルタリング装置は、検索部10と、文書解析部20と、訓練用文書・分類対象文書選択部30と、共起素性抽出部40と、学習部50と、自動分類部60とが設けられている。
検索部10は、検索対象の文書の集合から、初期検索式により抽出対象文書の集合と、検索目的に合致する文書の集合である確定正例と、検索目的に合致しない文書の集合である確定負例の検索を行う。また、文書解析部20は、検索結果の各文書に対して文書の構造及び文の構造の解析を行う。
訓練用文書・分類対象文書選択部30は、分類対象文書、分類用正例及び分類用負例を選択する。また、共起素性抽出部40は、文書の構造及び文の構造を用いて検索目的を表す語との共起情報を素性ベクトルとして抽出する。
学習部50は、分類用正例及び分類用負例からそれぞれの文書の特徴を求める。また、自動分類部60は、学習部50で求めた特徴により検索目的への適合の度合いに応じて分類対象文書を順位付けする。
入力装置1は、「初期検索式」、「確定正例検索式」及び「確定負例検索式」の入力を行う。また、通信装置2は、他の制御装置との通信に用いられる。ここでは、簡単のため、1つの制御で実行されるとして説明しているが、通信装置2によって連携した複数の制御装置及び2次記憶装置に分散される構成としても良い。
制御装置3は、検索部10、文書解析部20、訓練用文書・分類対象文書選択部30、共起素性抽出部40、学習部50及び自動分類部60における処理及び全体の動作に関する制御を行う。
本装置を構成するプログラムやデータが記録媒体6に格納されている際には、記録媒体駆動装置7において読み出され、制御装置3を通じて、2次記憶装置8に格納され、動作に応じて制御装置3に読み出されて実行される。
2次記憶装置8は、検索部10、文書解析部20、訓練用文書・分類対象文書選択部30、共起素性抽出部40、学習部50、及び自動分類部60の動作を実現するためのプログラムを格納する。また、2次記憶装置8は、「検索対象文書の集合」、「抽出対象の上限文書集合」、「確定正例」及び「確定負例」を格納する。
さらに、2次記憶装置8は、「抽出対象の上限文書集合の文書解析結果」、「確定正例の文書解析結果」及び「確定負例の文書解析結果」を格納し、「分類対象文書ごとの文書解析結果」、「分類用正例の文書ごとの文書解析結果」、及び「分類用負例の文書ごとの文書解析結果」を格納し、「分類対象文書ごとの素性ベクトル」、「分類用正例の文書ごとの素性ベクトル」及び「分類用負例の文書ごとの素性ベクトル」を格納し、「分類用正例の特徴」及び「分類用負例文書の特徴」を格納し、「分類対象文書ごとの分類スコア」を格納する。
検索部10において用いる索引等も、この2次記憶装置8に格納される。また、計算の過程で主記憶装置5の補助記憶として使用されることもある。
出力装置9は、「分類対象文書ごとの分類スコア」や、文書等の内容の出力、及び、処理の途中過程の出力に使用される。
図3は、この発明の実施の形態1に係る検索フィルタリング装置の訓練用文書・分類対象文書選択部の詳細構成を示すブロック図である。
図3において、訓練用文書・分類対象文書選択部30は、訓練用文書選択部31と、分類対象文書選択部32から構成される。
訓練用文書選択部31は、「抽出対象の上限文書集合の文書解析結果」、「確定正例の文書解析結果」、「確定負例の文書解析結果」及び反復学習の前回の実行結果である「分類対象文書ごとの分類スコア」から訓練用文書を選択して、「分類用正例の文書ごとの文書解析結果」及び「分類用負例の文書ごとの文書解析結果」を求める。なお、訓練用文書選択部31は、想定負例選択部311を含む。
分類対象文書選択部32は、「抽出対象の上限文書集合の文書解析結果」、「確定正例の文書解析結果」及び「確定負例の文書解析結果」から「分類対象文書ごとの文書解析結果」を求める。
分類対象文書選択部32では、後述する図4のステップ204において、CDi+1としてSup−PosDi+1−NegDi+1を求める処理を行う。なお、図3において、「分類対象文書ごとの分類スコア」を計算する自動分類部60については図を簡潔にするため記載を省略している。
つぎに、この実施の形態1に係る検索フィルタリング装置の動作について図面を参照しながら説明する。
図4は、この発明の実施の形態1に係る検索フィルタリング装置の動作を示すフローチャートである。また、図5は、この発明の実施の形態1に係る検索フィルタリング装置の分類結果の人手分析の動作を示すフローチャートである。さらに、図6は、この発明の実施の形態1に係る検索フィルタリング装置の想定負例抽出の動作を示すフローチャートである。
この図4は、点線で囲んで示しているように、初期化ステップ100と、反復学習ステップ200の2つの部分から構成される。
初期化ステップ100では、まず、ステップ101において、検索部10は、初期検索式を入力することにより、検索対象文書の集合から抽出対象の上限文書集合を検索する。ここで、抽出対象の上限文書集合を記号Supで表し、初期検索式を記号supで表すものとする。例えば、電気部品の抵抗に関する文書を検索したい場合に初期検索式「抵抗」で検索する場合には、初期検索式sup=抵抗、抽出対象の上限文書集合Sup=search(抵抗、s)と表すことができる。このとき、「抵抗」は複数の意味を持つ多義語であるため、抽出対象の上限文書集合Supには、電気部品の抵抗に関する文書以外に、「社会に対する抵抗」等の検索目的からは検索ごみとなる文書が含まれている。
次に、ステップ102において、文書解析部20は、抽出対象の上限文書集合Sup中の各文書を解析し、抽出対象の上限文書集合の文書解析結果を求める。文書解析部20の処理は、文書中からの文の抽出、抽出した各文に対して単語の分かち書きや品詞の特定等を行う形態素解析、及び分かち書きされた単語間の構造を解析する構文解析により行うが、文の抽出、形態素解析、構文解析の方法については、広く公知であるので、ここでは詳細な説明を省略する。
なお、構文解析は、文中で文節が他の文節に係ることを解析する係り受け解析を含むものとする。ここで、文節とは、自立語(名詞、動詞など)と付属語(助詞、助動詞など)から構成されるものである。例えば、名詞+格助詞が動詞に係る、名詞+格助詞の文節が他の名詞の文節と並列関係にある、などが代表的な係り受け解析の結果である。
次に、ステップ103において、検索部10は、初期の確定正例、確定負例を作成する。初期の確定正例は、初期検索式の検索条件を厳しくした確定正例検索式を用いる。例えば、「pos=抵抗 AND 電気」のような検索式を確定正例検索式とする。このとき、検索部10において、確定正例検索式によって抽出対象の上限文書集合の文書解析結果を1文内で検索する場合には、確定正例はPosD=search(pos,s±0)と表すことができる。ここで、初期の確定負例は、空集合とする。初期の確定負例を記号NegD=Φで表すことにする。
このとき、PosDは図2の確定正例の文書解析結果に、NegDは図2の確定負例の文書解析結果にそれぞれ対応する。なお、図2では、確定正例を文書解析部20で解析して確定正例の文書解析結果を求めるように図示しているが、確定正例の文書解析結果は、抽出対象の上限文書集合の文書解析結果の部分集合であるため、検索部10及び文書解析部20は、確定正例の各文書を特定するための情報のみを受け渡す構成としても良い。同様に、確定負例の文書解析結果も、抽出対象の上限文書集合の文書解析結果の部分集合であるため、検索部10及び文書解析部20は、確定負例の各文書を特定するための情報のみを受け渡す構成としても良い。
次に、ステップ104において、訓練用文書・分類対象文書選択部30は、1回目の反復学習の訓練用文書の集合を作成する。1回目の分類用正例は、確定正例をそのまま用いることとし、PosC=PosDで表す。1回目の分類用負例は、抽出対象の上限文書集合から初期の確定正例を除いた残りすべての文書集合とし、NegC=Sup−PosDで表す。また、このとき、初期の分類対象データCD=Sup−PosDとする。分類対象データCDは、図2の分類対象文書ごとの文書解析結果に対応する。分類用正例PosCは図2の分類用正例の文書ごとの文書解析結果に、分類用負例NegCは図2の分類用負例の文書ごとの文書解析結果に対応する。初期の分類対象データCDは、図2の分類対象文書ごとの文書解析結果に対応する。以上で、初期化ステップS3100の動作を完了する。
続いて、図4の反復学習ステップ200の動作について説明する。この反復学習ステップ200では、まず、ステップ201において、自動分類を実行するものとする。ここで、自動分類の処理は、図2における共起素性抽出部40、学習部50、自動分類部60の処理を含むものとする。以下、図2における共起素性抽出部40、学習部50、自動分類部60の処理を含めて自動分類と呼ぶことがある。
共起素性抽出部40は、分類対象文書ごとの文書解析結果、分類用正例の文書ごとの文書解析結果、分類用負例の文書ごとの文書解析結果から、素性と呼ぶ単語を抽出する。
共起素性抽出部40は、文の構造の解析結果から検索目的を表す語(通常は、初期検索式中の語)と文節内で共起する語(以下、「文節内共起語」と呼ぶ)、文の構造の解析結果から検索目的を表す語と係り受け共起する語(以下、「係り受け共起語」と呼ぶ)、文書及び文の構造の解析結果から検索目的を表す語と所定の範囲の文内で共起する語(以下、「文内共起語」と呼ぶ)を素性として抽出する。
図7は、分類用正例の文書の例である。この例では、検索目的を表す単語、すなわち、曖昧性を解消したい多義語「抵抗」と文節内で共起する「電気」、「浮遊」が文節内共起語である。単語「抵抗」含む語「浮遊抵抗」と係り受け関係にある「設計」が係り受け共起語の例である。また、単語「抵抗」と文内で共起する「電源」、「回路」等が文内共起語の例である。
図8は、分類用負例の文書の例である。この例では、検索目的を表す単語「抵抗」と文節内で共起する「勢力」が文節内共起語である。単語「抵抗」含む語「抵抗勢力」と係り受け関係にある「説得」が係り受け共起語の例である。また、単語「抵抗」と文内で共起する「マスメディア」、「改革」等が文内共起語の例である。
これらの、文節内共起語、係り受け共起語、文内共起語を文書ごとにベクトル形式で保持することとし、「素性ベクトル」と呼ぶ。すなわち、分類対象文書ごとの文書解析結果から分類対象文書ごとの素性ベクトルを生成し、分類用正例の文書ごとの文書解析結果から分類用正例の文書ごとの素性ベクトルを生成し、分類用負例の文書ごとの文書解析結果から分類用負例の文書ごとの素性ベクトルを生成する。素性ベクトルは、素性の語と素性の種類をキーとし、共起頻度をその値とするように構成する。もちろん、キーに語の品詞や曖昧性を解消したい多義語との位置関係を追加したり、値として共起頻度以外の統計量を用いたりしても良い。
次に、学習部50は、分類用正例の文書ごとの素性ベクトルと分類用負例の文書ごとの素性ベクトルから、分類用正例文書の特徴、分類用負例文書の特徴を計算する。特徴の計算の方法としては、Naive Bayes法、SVM(Support Vector Machine)法等、従来から知られている分類器を用いることができる。
例えば、Naive Bayes法の場合には、次のようにして計算する。検索目的を表す語(多義語)をwで表す。記号C(w)は、多義語wの総出現頻度を表すものとする。訓練データ中において意味semの文脈での語vの出現頻度をC(v,sem)で表す。ここでは、多義語wが抽出したい意味で用いられる場合をk=pos、多義語wが抽出したい以外の意味で用いられる場合をk=negで表すこととする。
このとき、分類用正例の文書ごとの素性ベクトル中での素性vの出現頻度は、C(v,sempos)、分類用負例の文書ごとの素性ベクトル中での素性vの出現頻度は、C(v,semneg)となる。単語wの全ての意味semに対して(ここではsempos、semnegに対して)、全ての素性vjに対して下記を求める。
P(v|sem)=C(v,sem)/ΣtC(v,sem
また、単語wの全ての意味semに対して(ここではsempos、semnegに対して)下記の事前確率を求めておく。
P(sem)=C(sem)/C(w)
次に、自動分類部60は、学習部50で計算した分類用正例文書の特徴、分類用負例文書の特徴を分類対象文書ごとの素性ベクトルに適用して、分類対象文書ごとの分類スコアを求める。
例えば、Naive Bayes法により、分類スコアを計算する例を次に説明する。多義語wの意味sem(ここではsempos、semneg)に対して、分類対象文書ごとの分類スコアの初期値を設定し、分類対象文書ごとの素性ベクトル中の全ての単語vjに対してスコアを加算する。分類対象文書ごとの分類スコアの初期値は、score(sem)=logP(sem)とする(score(sem)=0としても良い)。次に、分類対象文書ごとの素性ベクトル中の全ての単語vjに対して下記を繰り返す。
score(sem)=score(sem)+log P(sem
ここで、例えば、各文書ごとにscore(sempos)−score(semneg)を分類対象文書ごとの分類スコアとする。以上が、ステップ201における自動分類部60の処理である。
次に、ステップ202において、自動分類ステップ201による分類結果を人手分析する。分類結果の人手分析の流れを図5に示す。この分類結果の人手分析は、(1)精度評価のための分析を行うステップと、(2)訓練データ洗練化のための素性分析を行うステップと、(3)訓練データ洗練化のための追加データを作成するステップの3つの過程からなる。
まず、ステップ301に示した精度評価のための分析では、分類対象データ(分類対象文書ごとの文書解析結果)の集合から、分類対象データの文書数の平方根の数程度の文書の集合を評価データとして無作為抽出し、人により評価して抽出率を推定する。
ここでは、分類スコア0を閾値として評価することにする。無作為抽出した評価データの数をSで表す。評価データ中で人が検索目的に合致したデータであると判定したデータ数を評価データ中の正解数と呼び、Stで表す。評価データ中のスコア0以上のデータ(プログラムが検索目的に合致したデータであると推定したデータ)を検索データ、その個数を検索データ数と呼び、Hで表す。検索データのうち、人が検索目的に合致したデータであると判定したデータ数を、検索データ中の正解数と呼び、Htで表す。このとき、評価データの適合率Pは、(検索データ中の正解数Ht)/(検索データ数H)である。また、評価データの再現率Rは、(検索データ中の正解数Ht)/(評価データ中の正解数St)である。
抽出率は、全体適合率P’、全体再現率R’からなるものとし、適合率P、再現率Rから推定する。無作為抽出した評価データ数をS、評価データの分類スコア0での適合率をP、確定正例の数をTtで表す。分類対象データ中で、プログラムが検索目的に合致したデータであると推定するデータの総数をEsで表すことにすると、Es=Ht×(Ev/S)で求めることができる。このとき、総検索数Hall=Tt+Es、推定正解数EstC=Tt+Es×Pと表すことができる。また、分類スコア0での再現率をRとすると、推定総正解数をEstAllC=Tt+(Es×P/R)として計算することができる。
ここで、全体適合率P’=推定正解数EstC/総検索数Hall=(Tt+Es×P)/(Tt+Es)とする。
また、全体再現率R’=推定正解数EstC/推定総正解数をEstAllC=(Tt+Es×P)/(Tt+(Es×P/R))とする。
次に、ステップ302に示した訓練データ洗練化のための素性分析では、素性の各単語と分類類用正例との距離、分類類用負例との距離等を利用して分類に有効なキーワードを見つけ、確定正例検索式と、確定負例検索式に検索条件を追加する。例えば、図7のような文書の集合から、確定正例検索式に「電源」、「回路」、「高周波」等を加えて、「抵抗 AND (電気 OR 回路 OR 電源 OR 高周波)」とする。また、図8のような文書の集合から、「改革」、「マスメディア」等を見つけて確定負例検索式を「抵抗 AND (改革 OR マスメディア)」等とする。
次に、ステップ303に示した訓練データ洗練化のための追加データ作成では、キーワードにより特徴づけられない抽出したい文書の集合PosH、キーワードにより特徴づけられない抽出したい文書の集合NegHを作成する。以上で、図4のステップ202の処理を終了する。
続いて、図4のステップ203において、前のステップ202で計算した抽出率が所望のものである場合(YES)には、分類処理を終了する。また、抽出率が所望のものでない場合(NO)には、次のステップ204の処理に移る。
次に、ステップ204において、次回の反復学習の訓練用文書の集合を作成する。次回の反復学習の訓練用文書の集合を作成は、次回用の分類用正例の作成と、次回用の分類用負例の作成とからなる。
次回の反復学習用の分類用正例の作成には、まず次回用の確定正例を作成する。次回用の確定正例は、PosDi+1=PosD+search(posi+1,s±n)+PosHで求める。次回用の分類用正例をPosCi+1=PosDi+1とする。
次回の反復学習用の分類用負例の作成には、まず次回用の確定負例を作成する。次回用の確定負例は、NegDi+1=NegD+search(negi+1,s±n)+NegHで求める。次回の反復学習用の分類用負例をNegCi+1=NegDi+1+ChooseNegi+1とする。ここで、ChooseNegi+1は、正例との類似度が小さい文章データの集合であり、「想定負例」と呼ぶ。想定負例の求め方については後述する。
また、このとき、ステップ204では、訓練用文書・分類対象文書選択部30において、次回の反復学習用の分類対象文書の集合CDi+1としてSup−PosDi+1−NegDi+1を求める。以上により、ステップ204において、次回の反復学習の訓練用文書の集合及び分類対象文書を作成することができる。続いて、ステップ201の処理を行い、反復学習ステップ200の処理を繰り返し実行する。
ここで、図4のステップ204の動作において述べた想定負例ChooseNegi+1の求め方について、図3に示す訓練用文書選択部31における想定負例抽出処理を、図6を参照しながら説明する。
想定負例抽出処理では、ステップ201に相当する自動分類処理を実行する。まず、ステップ401において、現時点での確定正例PosD=search(pos,s±n)+PosHを求める。
次に、ステップ402において、想定負例を求めるための自動分類処理用の分類用正例をPosC=PosDとする。
次に、ステップ403において、現時点での確定負例NegD=search(neg,s±n)+NegHを求める。
次に、ステップ404において、分類用負例NegC=Sup−PosD−NegDとする。
次に、ステップ405において、分類用正例PosC、分類用負例NegCに対して、学習部50で分類用正例の特徴及び分類用負例の特徴を学習する。
次に、ステップ406において、分類対象文書の集合CD=Sup−PosD−NegDとする。
次に、ステップ407において、分類対象文書の集合CDを自動分類部60で分類し、分類対象文書ごとの分類スコアを求める。
次に、ステップ408において、分類対象文書の集合CDの分類結果から、正例との類似度が小さい文書を想定負例として抽出する。
このとき、正例との類似度が小さい文書の求め方には、例えば、事前確率による選択の方法と分類スコアによる選択の方法がある。
事前確率による選択の方法では、まず、分類対象文書の集合CD(=Sup−PosD−NegD)の文書の数の平方根の数程度の文書を無作為抽出して人手で分析して、分析した文書のうち抽出したい文書であるものの個数#Posと、抽出したい文書ではないものの個数#Negを求める。このとき、事前確率をprbPre=#Neg/(#Pos+#Neg)として計算する。分類対象文書の集合CDの個数を#CDで表すこととして、事前確率を分類対象文書の個数に掛けた数prbPre×#CD個の文書を分類スコアが小さいものから想定負例ChooseNegi+1として選択する。
また、分類スコアの閾値による選択の方法では、分類スコアの経験値をあらかじめ閾値として設定しておき、分類スコアが閾値未満のときに想定負例ChooseNegi+1として選択する。
通常、検索目的に合致した文書については検索目的が明確であるために確定正例検索式が作成しやすいため確定正例PosDi+1を作成しやすい。一方、抽出したい文書ではないものについては、一般にどのような多義性があるか不明なため、確定負例検索式と人手による確認で作成した確定負例NegDi+1では分類に十分な負例を作成することが困難な場合がある。そのため、上記のようにして求めた想定負例ChooseNegi+1を次回の反復学習用の分類用負例にNegCi+1=NegDi+1+ChooseNegi+1として加えることにより、分類に用いる訓練データを拡充することができる。
なお、確定正例検索式の作成が困難な場合には、想定負例と同様な方法で想定正例を分類用正例に加える構成としても良い。
この発明の実施の形態1は、上記のように構成されているため、分類に用いる訓練データの作成が容易になり、検索目的に合致した文書の集合を精度良く抽出する検索フィルタリング装置を実現することができる。
この発明の実施の形態1に係る検索フィルタリング装置を実現するためのコンピュータのハードウェア資源の構成を示す図である。 この発明の実施の形態1に係る検索フィルタリング装置の構成を示すブロック図である。 この発明の実施の形態1に係る検索フィルタリング装置の訓練用文書・分類対象文書選択部の詳細構成を示すブロック図である。 この発明の実施の形態1に係る検索フィルタリング装置の動作を示すフローチャートである。 この発明の実施の形態1に係る検索フィルタリング装置の分類結果の人手分析の動作を示すフローチャートである。 この発明の実施の形態1に係る検索フィルタリング装置の想定負例抽出の動作を示すフローチャートである。 分類用正例の文書の例を示す図である。 分類用負例の文書の例を示す図である。
符号の説明
1 入力装置、2 通信装置、3 制御装置、5 主記憶装置、6 記録媒体、7 記録媒体駆動装置、8 2次記憶装置、9 出力装置、9A 表示装置、9B 印刷装置、10 検索部、20 文書解析部、30 訓練用文書・分類対象文書選択部、31 訓練用文書選択部、32 分類対象文書選択部、40 共起素性抽出部、50 学習部、60 自動分類部、311 想定負例選択部。

Claims (8)

  1. 検索対象の文書の集合から、初期検索式により抽出対象の上限文書集合、確定正例検索式により検索目的に合致する文書の集合である確定正例、及び確定負例検索式により検索目的に合致しない文書の集合である確定負例の検索を行う検索部と、
    前記検索部により検索された抽出対象の上限文書集合、確定正例、及び確定負例の各文書に対して文の形態素及び構文の解析を行い、抽出対象の上限文書集合の文書解析結果、確定正例の文書解析結果、及び確定負例の文書解析結果を求める文書解析部と、
    前記文書解析部により解析された、抽出対象の上限文書集合の文書解析結果、確定正例の文書解析結果、及び確定負例の文書解析結果から、分類対象文書、分類用正例、及び分類用負例を選択し、分類対象文書ごとの文書解析結果、分類用正例の文書ごとの文書解析結果、及び分類用負例の文書ごとの文書解析結果を求める訓練用文書・分類対象文書選択部と、
    前記訓練用文書・分類対象文書選択部により求めた分類対象文書ごとの文書解析結果、分類用正例の文書ごとの文書解析結果、及び分類用負例の文書ごとの文書解析結果から、検索目的を表す語との共起情報を素性ベクトルとして抽出し、前記分類対象文書ごとの文書解析結果から分類対象文書ごとの素性ベクトルを生成し、前記分類用正例の文書ごとの文書解析結果から分類用正例の文書ごとの素性ベクトルを生成し、前記分類用負例の文書ごとの文書解析結果から分類用負例の文書ごとの素性ベクトルを生成する共起素性抽出部と、
    前記共起素性抽出部により生成された分類用正例の文書ごとの素性ベクトル、及び分類用負例の文書ごとの素性ベクトルから、分類用正例文書の特徴、及び分類用負例文書の特徴を計算する学習部と、
    前記学習部により計算した分類用正例文書の特徴、及び分類用負例文書の特徴を、前記共起素性抽出部により生成された分類対象文書ごとの素性ベクトルに適用して、分類対象文書ごとの分類スコアを求める自動分類部と
    を備えたことを特徴とする検索フィルタリング装置。
  2. 前記訓練用文書・分類対象文書選択部は、
    検索目的に合致することが確定した確定正例を分類用正例とし、前記抽出対象の上限文書集合から前記確定正例と検索目的に合致しないことが確定した確定負例とを除いたものを分類用負例として自動分類を行った結果から想定負例を抽出する想定負例選択部を有する
    ことを特徴とする請求項1記載の検索フィルタリング装置。
  3. 前記想定負例選択部は、抽出したい文書であるものの個数と、抽出したい文書ではないものの個数とから求める事前確率を用いて想定負例を抽出する
    ことを特徴とする請求項2記載の検索フィルタリング装置。
  4. 前記想定負例選択部は、分類スコアを用いて想定負例を抽出する
    ことを特徴とする請求項2記載の検索フィルタリング装置。
  5. 前記共起素性抽出部は、文の構造の解析結果から検索目的を表す語と文節内で共起する語を素性として抽出する
    ことを特徴とする請求項1から請求項4までのいずれかに記載の検索フィルタリング装置。
  6. 前記共起素性抽出部は、文の構造の解析結果から検索目的を表す語と係り受け共起する語を素性として抽出する
    ことを特徴とする請求項1から請求項4までのいずれかに記載の検索フィルタリング装置。
  7. 前記共起素性抽出部は、文書及び文の構造の解析結果から検索目的を表す語と所定の範囲の文内で共起する語を素性として抽出する
    ことを特徴とする請求項1から請求項4までのいずれかに記載の検索フィルタリング装置。
  8. コンピュータに、
    検索対象の文書の集合から、初期検索式により抽出対象の上限文書集合、確定正例検索式により検索目的に合致する文書の集合である確定正例、及び確定負例検索式により検索目的に合致しない文書の集合である確定負例の検索を行う検索手順と、
    前記検索手順により検索された抽出対象の上限文書集合、確定正例、及び確定負例の各文書に対して文の形態素及び構文の解析を行い、抽出対象の上限文書集合の文書解析結果、確定正例の文書解析結果、及び確定負例の文書解析結果を求める文書解析手順と、
    前記文書解析手順により解析された、抽出対象の上限文書集合の文書解析結果、確定正例の文書解析結果、及び確定負例の文書解析結果から、分類対象文書、分類用正例、及び分類用負例を選択し、分類対象文書ごとの文書解析結果、分類用正例の文書ごとの文書解析結果、及び分類用負例の文書ごとの文書解析結果を求める訓練用文書・分類対象文書選択手順と、
    前記訓練用文書・分類対象文書選択手順により求めた分類対象文書ごとの文書解析結果、分類用正例の文書ごとの文書解析結果、及び分類用負例の文書ごとの文書解析結果から、検索目的を表す語との共起情報を素性ベクトルとして抽出し、前記分類対象文書ごとの文書解析結果から分類対象文書ごとの素性ベクトルを生成し、前記分類用正例の文書ごとの文書解析結果から分類用正例の文書ごとの素性ベクトルを生成し、前記分類用負例の文書ごとの文書解析結果から分類用負例の文書ごとの素性ベクトルを生成する共起素性抽出手順と、
    前記共起素性抽出手順により生成された分類用正例の文書ごとの素性ベクトル、及び分類用負例の文書ごとの素性ベクトルから、分類用正例文書の特徴、及び分類用負例文書の特徴を計算する学習手順と、
    前記学習手順により計算した分類用正例文書の特徴、及び分類用負例文書の特徴を、前記共起素性抽出手順により生成された分類対象文書ごとの素性ベクトルに適用して、分類対象文書ごとの分類スコアを求める自動分類手順と
    を実行させるための検索フィルタリングプログラム。
JP2007339327A 2007-12-28 2007-12-28 検索フィルタリング装置及び検索フィルタリングプログラム Active JP5137567B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007339327A JP5137567B2 (ja) 2007-12-28 2007-12-28 検索フィルタリング装置及び検索フィルタリングプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007339327A JP5137567B2 (ja) 2007-12-28 2007-12-28 検索フィルタリング装置及び検索フィルタリングプログラム

Publications (2)

Publication Number Publication Date
JP2009163303A JP2009163303A (ja) 2009-07-23
JP5137567B2 true JP5137567B2 (ja) 2013-02-06

Family

ID=40965891

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007339327A Active JP5137567B2 (ja) 2007-12-28 2007-12-28 検索フィルタリング装置及び検索フィルタリングプログラム

Country Status (1)

Country Link
JP (1) JP5137567B2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5364010B2 (ja) * 2010-02-18 2013-12-11 株式会社Kddi研究所 検索キーワード辞書に対する非検索キーワード辞書を用いた文章検索プログラム、サーバ及び方法
JP5751253B2 (ja) 2010-05-24 2015-07-22 日本電気株式会社 情報抽出システム、方法及びプログラム
JP5460887B2 (ja) 2011-01-13 2014-04-02 三菱電機株式会社 分類ルール生成装置及び分類ルール生成プログラム
JP5640773B2 (ja) * 2011-01-28 2014-12-17 富士通株式会社 情報照合装置、情報照合方法および情報照合プログラム
JP5419906B2 (ja) * 2011-02-17 2014-02-19 日本電信電話株式会社 主題抽出装置、方法、及びプログラム
JP5971794B2 (ja) * 2012-04-20 2016-08-17 有限会社アイ・アール・ディー 特許調査支援装置、特許調査支援方法、およびプログラム
JP5912813B2 (ja) * 2012-04-26 2016-04-27 有限会社アイ・アール・ディー 特許調査結果評価装置、特許調査結果評価方法、およびプログラム
WO2016129124A1 (ja) * 2015-02-13 2016-08-18 株式会社Ubic データ分析システム、データ分析方法、およびデータ分析プログラム
JP2017107391A (ja) * 2015-12-09 2017-06-15 東邦瓦斯株式会社 テキストマイニング方法、及びテキストマイニングプログラム
JP6679448B2 (ja) * 2016-09-14 2020-04-15 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
CN111538806B (zh) * 2019-01-21 2023-04-07 阿里巴巴集团控股有限公司 查询负例的泛化方法及装置
CN112364130B (zh) * 2020-11-10 2024-04-09 深圳前海微众银行股份有限公司 样本采样方法、设备和可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006350749A (ja) * 2005-06-17 2006-12-28 Ricoh Co Ltd 文書フィルタリング装置、文書フィルタリング方法、プログラムおよび記録媒体

Also Published As

Publication number Publication date
JP2009163303A (ja) 2009-07-23

Similar Documents

Publication Publication Date Title
JP5137567B2 (ja) 検索フィルタリング装置及び検索フィルタリングプログラム
Huq et al. Sentiment analysis on Twitter data using KNN and SVM
US9317569B2 (en) Displaying search results with edges/entity relationships in regions/quadrants on a display device
Bollegala et al. Cross-domain sentiment classification using a sentiment sensitive thesaurus
Rintyarna et al. Enhancing the performance of sentiment analysis task on product reviews by handling both local and global context
CA2777520C (en) System and method for phrase identification
Sahu et al. Feature engineering and ensemble-based approach for improving automatic short-answer grading performance
US8150822B2 (en) On-line iterative multistage search engine with text categorization and supervised learning
RU2583716C2 (ru) Метод построения и обнаружения тематической структуры корпуса
US8321418B2 (en) Information processor, method of processing information, and program
JP6335898B2 (ja) 製品認識に基づく情報分類
US20090094178A1 (en) Computer-based method and system for efficient categorizing of digital documents
Zia et al. Comparative study of feature selection approaches for Urdu text categorization
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
Kalaivani et al. Feature reduction based on genetic algorithm and hybrid model for opinion mining
JP2008084064A (ja) テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム
Rozovskaya et al. Correcting grammatical verb errors
Mukund et al. A vector space model for subjectivity classification in Urdu aided by co-training
Gonsior et al. Active Learning for Spreadsheet Cell Classification.
Endalie et al. Designing a hybrid dimension reduction for improving the performance of Amharic news document classification
CN110688559A (zh) 一种检索方法及装置
Singh et al. Computing sentiment polarity of texts at document and aspect levels
Namee et al. Concept-based one-class SVM classifier with supervised term weighting scheme for imbalanced sentiment classification.
Chali et al. Do automatic annotation techniques have any impact on supervised complex question answering?
Panigrahi et al. A review of recent advances in text mining of Indian languages

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121016

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121113

R150 Certificate of patent or registration of utility model

Ref document number: 5137567

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151122

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250