JP5137567B2

JP5137567B2 - 検索フィルタリング装置及び検索フィルタリングプログラム

Info

Publication number: JP5137567B2
Application number: JP2007339327A
Authority: JP
Inventors: 泰博高山; 誠今村
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2007-12-28
Filing date: 2007-12-28
Publication date: 2013-02-06
Anticipated expiration: 2027-12-28
Also published as: JP2009163303A

Description

この発明は、大量の文書集合に対する検索結果の文書集合から検索目的に合致した文書の集合を精度良く抽出するために、分類器に与える訓練データを反復学習により容易に作成する検索フィルタリング装置及び検索フィルタリングプログラムに関するものである。

近年、日常生活でのコンピュータの普及に伴い、ワールドワイドウェブ中のウェブ文書にブログや掲示板等の形で消費者の意見が大量に記載されるようになってきた。また、企業活動においては、文書管理システムで扱われる文書が膨大に蓄積されるようになってきた。そこで、ウェブ文書をマーケティングや風評監視に活用したり、企業内の文書管理システム中の文書から業務に必要な文書を効率よく探し出したりすることが期待されている。

大量の文書のなかには種々の話題が混在しており、一つの単語が複数の意味を持つ多義語が含まれているため、多義語を検索キーワードとして検索する場合に、通常の全文検索では検索ごみや検索もれが生じてしまう。例えば、電気部品である「抵抗」に関して検索する際に、検索目的を表す語そのものの検索式「抵抗」で検索したのでは、電気部品の抵抗に加えて、「抵抗勢力」、「権力への抵抗」等の社会に対する抵抗に関する文書も検索ごみとして含まれてしまう。一方、「抵抗ＡＮＤ電気」のような検索式で全文検索すると検索もれが生じる。そのため、検索結果の文書集合の中から検索目的に合致した文書の集合を精度良くフィルタリングするための技術が重要となる。

なお、本明細書の説明において、語、単語及び用語（単語及び複合語を含む）という言葉は、特に明示しない場合は、区別せず同じ意味として用いるものとする。

従来から、検索フィルタリングに関しては、検索結果を人手で選択してフィードバックを与える技術が用いられており、例えば、特許文献１がある。

この特許文献１は、同文献の段落［００７７］に示されているように、ユーザが個別に人手で検索結果中の適合データと非適合データを指定することにより、分類器による学習処理あるいは各文書集合の重心間の差分ベクトルを用いて検索結果を適合文書集合と非適合文書集合に分類するための技術について述べている。同文献の段落［００７８］〜［００９２］では、適合データと非適合データの相違に基づいてそれぞれの文書集合の重心間の差分ベクトルを求め、この差分ベクトルと各文書の単語ベクトルとの間のスコアをフィードバック値として求め、このフィードバック値を各文書の単語ベクトルの要素値の一つにして単語ベクトルを補正することにより、検索結果を洗練化させる装置が開示されている。

特開２００７−１８３８９号公報

しかしながら、特許文献１に示された従来の検索フィルタリング装置では、人手により適合データと非適合データを指定する手段のみしか提供しておらず、分類器に与える充分な訓練データを作成できないため、検索目的に合致した文書の集合を精度良く抽出できないという問題点があった。

この発明は、上述のような課題を解決するためになされたもので、その目的は、検索対象文書の性質に応じて、分類器に与える訓練データの作成を容易にし、検索目的に合致した文書の集合を精度良くフィルタリングして抽出することができる検索フィルタリング装置及び検索フィルタリングプログラムを得るものである。

この発明に係る検索フィルタリング装置は、検索対象の文書の集合から、初期検索式により抽出対象の上限文書集合、確定正例検索式により検索目的に合致する文書の集合である確定正例、及び確定負例検索式により検索目的に合致しない文書の集合である確定負例の検索を行う検索部と、前記検索部により検索された抽出対象の上限文書集合、確定正例、及び確定負例の各文書に対して文の形態素及び構文の解析を行い、抽出対象の上限文書集合の文書解析結果、確定正例の文書解析結果、及び確定負例の文書解析結果を求める文書解析部と、前記文書解析部により解析された、抽出対象の上限文書集合の文書解析結果、確定正例の文書解析結果、及び確定負例の文書解析結果から、分類対象文書、分類用正例、及び分類用負例を選択し、分類対象文書ごとの文書解析結果、分類用正例の文書ごとの文書解析結果、及び分類用負例の文書ごとの文書解析結果を求める訓練用文書・分類対象文書選択部と、前記訓練用文書・分類対象文書選択部により求めた分類対象文書ごとの文書解析結果、分類用正例の文書ごとの文書解析結果、及び分類用負例の文書ごとの文書解析結果から、検索目的を表す語との共起情報を素性ベクトルとして抽出し、前記分類対象文書ごとの文書解析結果から分類対象文書ごとの素性ベクトルを生成し、前記分類用正例の文書ごとの文書解析結果から分類用正例の文書ごとの素性ベクトルを生成し、前記分類用負例の文書ごとの文書解析結果から分類用負例の文書ごとの素性ベクトルを生成する共起素性抽出部と、前記共起素性抽出部により生成された分類用正例の文書ごとの素性ベクトル、及び分類用負例の文書ごとの素性ベクトルから、分類用正例文書の特徴、及び分類用負例文書の特徴を計算する学習部と、前記学習部により計算した分類用正例文書の特徴、及び分類用負例文書の特徴を、前記共起素性抽出部により生成された分類対象文書ごとの素性ベクトルに適用して、分類対象文書ごとの分類スコアを求める自動分類部とを設けたものである。

この発明に係る検索フィルタリング装置は、検索対象文書の性質に応じて、分類器に与える訓練データの作成を容易にし、検索目的に合致した文書の集合を精度良くフィルタリングして抽出することができるという効果を奏する。

実施の形態１．
この発明の実施の形態１に係る検索フィルタリング装置について図１から図８までを参照しながら説明する。

最初に、この発明の実施の形態１を説明するために、予め本明細書で用いる用語について説明する。個々の文書中のテキスト部分を『事例文章データ』と呼ぶ。なお、この明細書中では、誤解が生じない場合には、事例文章データを文書で置き換えて説明することがある。検索目的に合致した事例文書データを『正例』、抽出対象でない事例文章データを『負例』と呼ぶ。検索目的に合致した抽出対象であるという確信度が非常に高い事例文章データの集合を『確定正例』と呼び、『ＰｏｓＤ_ｉ』で表す（添え字ｉは、後述する反復学習のｉ回目であることを表す。以下、同様の意味で添え字を用いる）。また、抽出対象でないという確信度が非常に高い事例文章データの集合を『確定負例』と呼び、『ＮｅｇＤ_ｉ』で表す。

確定正例を検索する全文検索の検索式を『ｐｏｓ_ｉ』、確定負例を検索する全文検索の検索式を『ｎｅｇ_ｉ』で表す。なお、全文検索については広く公知の技術であるのでここでは説明を省略する。全文検索の際に必要な索引等は、文書を２次記憶装置（後述する）に格納する際に検索部（後述する）において生成されるものとする。

全文検索により事例文章データの集合を検索することを『ｓｅａｒｃｈ（検索式, 検索範囲）』の形式で表す。ここで、検索範囲は、検索式の各キーワードが含まれるウィンドウ幅であり、ウィンドウが文章データ全体である場合を『ｓ_∞』、前後ｎ文内である場合を『ｓ_±n』（ｎ≧０,ｎ＝０のときは１文内）で表す。

分類器（後述する学習部と自動分類部から構成される）に正例として与えるための事例文章データの集合を『分類用正例』と呼び、『ＰｏｓＣ_ｉ』で表す。また、分類器に負例として与えるための事例文章データの集合を『分類用負例』と呼び、『ＮｅｇＣ_ｉ』で表す。分類用正例と分類用負例を合わせたデータを分類器のための『訓練データ』と呼ぶ。分類器が推定フェーズ（自動分類フェーズとも呼ぶ）で分類するデータの集合を『分類対象データ』と呼び、『ＣＤ』で表す。

図１は、この発明の実施の形態１に係る検索フィルタリング装置を実現するためのコンピュータのハードウェア資源の構成を示す図である。なお、以降では、各図中、同一符号は同一又は相当部分を示す。

図１において、この発明の実施の形態１に係る検索フィルタリング装置は、キーボード、マウス等の入力装置１と、通信装置２と、制御装置３と、ＣＤ−ＲＯＭ等の記録媒体６と、記録媒体駆動装置７と、２次記憶装置８と、出力装置９とが設けられている。

また、制御装置３は、少なくともＣＰＵ（Central Processing Unit）４と、主記憶装置５から構成される。出力装置９は、ディスプレイ等の表示装置９Ａと、プリンタ等の印刷装置９Ｂを含む。

図２は、この発明の実施の形態１に係る検索フィルタリング装置の構成を示すブロック図である。

図２において、この発明の実施の形態１に係る検索フィルタリング装置は、検索部１０と、文書解析部２０と、訓練用文書・分類対象文書選択部３０と、共起素性抽出部４０と、学習部５０と、自動分類部６０とが設けられている。

検索部１０は、検索対象の文書の集合から、初期検索式により抽出対象文書の集合と、検索目的に合致する文書の集合である確定正例と、検索目的に合致しない文書の集合である確定負例の検索を行う。また、文書解析部２０は、検索結果の各文書に対して文書の構造及び文の構造の解析を行う。

訓練用文書・分類対象文書選択部３０は、分類対象文書、分類用正例及び分類用負例を選択する。また、共起素性抽出部４０は、文書の構造及び文の構造を用いて検索目的を表す語との共起情報を素性ベクトルとして抽出する。

学習部５０は、分類用正例及び分類用負例からそれぞれの文書の特徴を求める。また、自動分類部６０は、学習部５０で求めた特徴により検索目的への適合の度合いに応じて分類対象文書を順位付けする。

入力装置１は、「初期検索式」、「確定正例検索式」及び「確定負例検索式」の入力を行う。また、通信装置２は、他の制御装置との通信に用いられる。ここでは、簡単のため、１つの制御で実行されるとして説明しているが、通信装置２によって連携した複数の制御装置及び２次記憶装置に分散される構成としても良い。

制御装置３は、検索部１０、文書解析部２０、訓練用文書・分類対象文書選択部３０、共起素性抽出部４０、学習部５０及び自動分類部６０における処理及び全体の動作に関する制御を行う。

本装置を構成するプログラムやデータが記録媒体６に格納されている際には、記録媒体駆動装置７において読み出され、制御装置３を通じて、２次記憶装置８に格納され、動作に応じて制御装置３に読み出されて実行される。

２次記憶装置８は、検索部１０、文書解析部２０、訓練用文書・分類対象文書選択部３０、共起素性抽出部４０、学習部５０、及び自動分類部６０の動作を実現するためのプログラムを格納する。また、２次記憶装置８は、「検索対象文書の集合」、「抽出対象の上限文書集合」、「確定正例」及び「確定負例」を格納する。

さらに、２次記憶装置８は、「抽出対象の上限文書集合の文書解析結果」、「確定正例の文書解析結果」及び「確定負例の文書解析結果」を格納し、「分類対象文書ごとの文書解析結果」、「分類用正例の文書ごとの文書解析結果」、及び「分類用負例の文書ごとの文書解析結果」を格納し、「分類対象文書ごとの素性ベクトル」、「分類用正例の文書ごとの素性ベクトル」及び「分類用負例の文書ごとの素性ベクトル」を格納し、「分類用正例の特徴」及び「分類用負例文書の特徴」を格納し、「分類対象文書ごとの分類スコア」を格納する。

検索部１０において用いる索引等も、この２次記憶装置８に格納される。また、計算の過程で主記憶装置５の補助記憶として使用されることもある。

出力装置９は、「分類対象文書ごとの分類スコア」や、文書等の内容の出力、及び、処理の途中過程の出力に使用される。

図３は、この発明の実施の形態１に係る検索フィルタリング装置の訓練用文書・分類対象文書選択部の詳細構成を示すブロック図である。

図３において、訓練用文書・分類対象文書選択部３０は、訓練用文書選択部３１と、分類対象文書選択部３２から構成される。

訓練用文書選択部３１は、「抽出対象の上限文書集合の文書解析結果」、「確定正例の文書解析結果」、「確定負例の文書解析結果」及び反復学習の前回の実行結果である「分類対象文書ごとの分類スコア」から訓練用文書を選択して、「分類用正例の文書ごとの文書解析結果」及び「分類用負例の文書ごとの文書解析結果」を求める。なお、訓練用文書選択部３１は、想定負例選択部３１１を含む。

分類対象文書選択部３２は、「抽出対象の上限文書集合の文書解析結果」、「確定正例の文書解析結果」及び「確定負例の文書解析結果」から「分類対象文書ごとの文書解析結果」を求める。

分類対象文書選択部３２では、後述する図４のステップ２０４において、ＣＤ_ｉ＋１としてＳｕｐ−ＰｏｓＤ_ｉ＋１−ＮｅｇＤ_ｉ＋１を求める処理を行う。なお、図３において、「分類対象文書ごとの分類スコア」を計算する自動分類部６０については図を簡潔にするため記載を省略している。

つぎに、この実施の形態１に係る検索フィルタリング装置の動作について図面を参照しながら説明する。

図４は、この発明の実施の形態１に係る検索フィルタリング装置の動作を示すフローチャートである。また、図５は、この発明の実施の形態１に係る検索フィルタリング装置の分類結果の人手分析の動作を示すフローチャートである。さらに、図６は、この発明の実施の形態１に係る検索フィルタリング装置の想定負例抽出の動作を示すフローチャートである。

この図４は、点線で囲んで示しているように、初期化ステップ１００と、反復学習ステップ２００の２つの部分から構成される。

初期化ステップ１００では、まず、ステップ１０１において、検索部１０は、初期検索式を入力することにより、検索対象文書の集合から抽出対象の上限文書集合を検索する。ここで、抽出対象の上限文書集合を記号Ｓｕｐで表し、初期検索式を記号ｓｕｐで表すものとする。例えば、電気部品の抵抗に関する文書を検索したい場合に初期検索式「抵抗」で検索する場合には、初期検索式ｓｕｐ＝抵抗、抽出対象の上限文書集合Ｓｕｐ＝ｓｅａｒｃｈ（抵抗、ｓ_∞）と表すことができる。このとき、「抵抗」は複数の意味を持つ多義語であるため、抽出対象の上限文書集合Ｓｕｐには、電気部品の抵抗に関する文書以外に、「社会に対する抵抗」等の検索目的からは検索ごみとなる文書が含まれている。

次に、ステップ１０２において、文書解析部２０は、抽出対象の上限文書集合Ｓｕｐ中の各文書を解析し、抽出対象の上限文書集合の文書解析結果を求める。文書解析部２０の処理は、文書中からの文の抽出、抽出した各文に対して単語の分かち書きや品詞の特定等を行う形態素解析、及び分かち書きされた単語間の構造を解析する構文解析により行うが、文の抽出、形態素解析、構文解析の方法については、広く公知であるので、ここでは詳細な説明を省略する。

なお、構文解析は、文中で文節が他の文節に係ることを解析する係り受け解析を含むものとする。ここで、文節とは、自立語（名詞、動詞など）と付属語（助詞、助動詞など）から構成されるものである。例えば、名詞＋格助詞が動詞に係る、名詞＋格助詞の文節が他の名詞の文節と並列関係にある、などが代表的な係り受け解析の結果である。

次に、ステップ１０３において、検索部１０は、初期の確定正例、確定負例を作成する。初期の確定正例は、初期検索式の検索条件を厳しくした確定正例検索式を用いる。例えば、「ｐｏｓ_０＝抵抗ＡＮＤ電気」のような検索式を確定正例検索式とする。このとき、検索部１０において、確定正例検索式によって抽出対象の上限文書集合の文書解析結果を１文内で検索する場合には、確定正例はＰｏｓＤ_０＝ｓｅａｒｃｈ（ｐｏｓ_０，ｓ_±０）と表すことができる。ここで、初期の確定負例は、空集合とする。初期の確定負例を記号ＮｅｇＤ_０＝Φで表すことにする。

このとき、ＰｏｓＤ_０は図２の確定正例の文書解析結果に、ＮｅｇＤ_０は図２の確定負例の文書解析結果にそれぞれ対応する。なお、図２では、確定正例を文書解析部２０で解析して確定正例の文書解析結果を求めるように図示しているが、確定正例の文書解析結果は、抽出対象の上限文書集合の文書解析結果の部分集合であるため、検索部１０及び文書解析部２０は、確定正例の各文書を特定するための情報のみを受け渡す構成としても良い。同様に、確定負例の文書解析結果も、抽出対象の上限文書集合の文書解析結果の部分集合であるため、検索部１０及び文書解析部２０は、確定負例の各文書を特定するための情報のみを受け渡す構成としても良い。

次に、ステップ１０４において、訓練用文書・分類対象文書選択部３０は、１回目の反復学習の訓練用文書の集合を作成する。１回目の分類用正例は、確定正例をそのまま用いることとし、ＰｏｓＣ_１＝ＰｏｓＤ_０で表す。１回目の分類用負例は、抽出対象の上限文書集合から初期の確定正例を除いた残りすべての文書集合とし、ＮｅｇＣ_１＝Ｓｕｐ−ＰｏｓＤ_０で表す。また、このとき、初期の分類対象データＣＤ＝Ｓｕｐ−ＰｏｓＤ_０とする。分類対象データＣＤは、図２の分類対象文書ごとの文書解析結果に対応する。分類用正例ＰｏｓＣ_１は図２の分類用正例の文書ごとの文書解析結果に、分類用負例ＮｅｇＣ_１は図２の分類用負例の文書ごとの文書解析結果に対応する。初期の分類対象データＣＤは、図２の分類対象文書ごとの文書解析結果に対応する。以上で、初期化ステップＳ３１００の動作を完了する。

続いて、図４の反復学習ステップ２００の動作について説明する。この反復学習ステップ２００では、まず、ステップ２０１において、自動分類を実行するものとする。ここで、自動分類の処理は、図２における共起素性抽出部４０、学習部５０、自動分類部６０の処理を含むものとする。以下、図２における共起素性抽出部４０、学習部５０、自動分類部６０の処理を含めて自動分類と呼ぶことがある。

共起素性抽出部４０は、分類対象文書ごとの文書解析結果、分類用正例の文書ごとの文書解析結果、分類用負例の文書ごとの文書解析結果から、素性と呼ぶ単語を抽出する。

共起素性抽出部４０は、文の構造の解析結果から検索目的を表す語（通常は、初期検索式中の語）と文節内で共起する語（以下、「文節内共起語」と呼ぶ）、文の構造の解析結果から検索目的を表す語と係り受け共起する語（以下、「係り受け共起語」と呼ぶ）、文書及び文の構造の解析結果から検索目的を表す語と所定の範囲の文内で共起する語（以下、「文内共起語」と呼ぶ）を素性として抽出する。

図７は、分類用正例の文書の例である。この例では、検索目的を表す単語、すなわち、曖昧性を解消したい多義語「抵抗」と文節内で共起する「電気」、「浮遊」が文節内共起語である。単語「抵抗」含む語「浮遊抵抗」と係り受け関係にある「設計」が係り受け共起語の例である。また、単語「抵抗」と文内で共起する「電源」、「回路」等が文内共起語の例である。

図８は、分類用負例の文書の例である。この例では、検索目的を表す単語「抵抗」と文節内で共起する「勢力」が文節内共起語である。単語「抵抗」含む語「抵抗勢力」と係り受け関係にある「説得」が係り受け共起語の例である。また、単語「抵抗」と文内で共起する「マスメディア」、「改革」等が文内共起語の例である。

これらの、文節内共起語、係り受け共起語、文内共起語を文書ごとにベクトル形式で保持することとし、「素性ベクトル」と呼ぶ。すなわち、分類対象文書ごとの文書解析結果から分類対象文書ごとの素性ベクトルを生成し、分類用正例の文書ごとの文書解析結果から分類用正例の文書ごとの素性ベクトルを生成し、分類用負例の文書ごとの文書解析結果から分類用負例の文書ごとの素性ベクトルを生成する。素性ベクトルは、素性の語と素性の種類をキーとし、共起頻度をその値とするように構成する。もちろん、キーに語の品詞や曖昧性を解消したい多義語との位置関係を追加したり、値として共起頻度以外の統計量を用いたりしても良い。

次に、学習部５０は、分類用正例の文書ごとの素性ベクトルと分類用負例の文書ごとの素性ベクトルから、分類用正例文書の特徴、分類用負例文書の特徴を計算する。特徴の計算の方法としては、ＮａｉｖｅＢａｙｅｓ法、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ)法等、従来から知られている分類器を用いることができる。

例えば、ＮａｉｖｅＢａｙｅｓ法の場合には、次のようにして計算する。検索目的を表す語（多義語）をｗで表す。記号Ｃ（ｗ）は、多義語ｗの総出現頻度を表すものとする。訓練データ中において意味ｓｅｍ_ｋの文脈での語ｖ_ｊの出現頻度をＣ(ｖ_ｊ，ｓｅｍ_ｋ)で表す。ここでは、多義語ｗが抽出したい意味で用いられる場合をｋ＝ｐｏｓ、多義語ｗが抽出したい以外の意味で用いられる場合をｋ＝ｎｅｇで表すこととする。

このとき、分類用正例の文書ごとの素性ベクトル中での素性ｖ_ｊの出現頻度は、Ｃ(ｖ_ｊ，ｓｅｍ_ｐｏｓ)、分類用負例の文書ごとの素性ベクトル中での素性ｖ_ｊの出現頻度は、Ｃ(ｖ_ｊ，ｓｅｍ_ｎｅｇ)となる。単語ｗの全ての意味ｓｅｍ_ｋに対して（ここではｓｅｍ_ｐｏｓ、ｓｅｍ_ｎｅｇに対して）、全ての素性ｖ_jに対して下記を求める。

Ｐ(ｖ_ｊ|ｓｅｍ_ｋ)＝Ｃ（ｖ_ｊ,ｓｅｍ_ｋ）／Σ_tＣ（ｖ_ｊ,ｓｅｍ_ｋ）

また、単語ｗの全ての意味sｅｍ_ｋに対して（ここではｓｅｍ_ｐｏｓ、ｓｅｍ_ｎｅｇに対して）下記の事前確率を求めておく。

Ｐ(ｓｅｍ_ｋ)＝Ｃ(ｓｅｍ_ｋ)／Ｃ（ｗ）

次に、自動分類部６０は、学習部５０で計算した分類用正例文書の特徴、分類用負例文書の特徴を分類対象文書ごとの素性ベクトルに適用して、分類対象文書ごとの分類スコアを求める。

例えば、ＮａｉｖｅＢａｙｅｓ法により、分類スコアを計算する例を次に説明する。多義語ｗの意味ｓｅｍ_ｋ（ここではｓｅｍ_ｐｏｓ、ｓｅｍ_ｎｅｇ）に対して、分類対象文書ごとの分類スコアの初期値を設定し、分類対象文書ごとの素性ベクトル中の全ての単語ｖ_jに対してスコアを加算する。分類対象文書ごとの分類スコアの初期値は、ｓｃｏｒｅ（ｓｅｍ_ｋ)＝ｌｏｇＰ(ｓｅｍ_ｋ)とする（ｓｃｏｒｅ（ｓｅｍ_ｋ)＝０としても良い）。次に、分類対象文書ごとの素性ベクトル中の全ての単語ｖ_jに対して下記を繰り返す。

ｓｃｏｒｅ（ｓｅｍ_ｋ）＝ｓｃｏｒｅ（ｓｅｍ_ｋ）＋ｌｏｇＰ（ｓｅｍ_ｋ）

ここで、例えば、各文書ごとにｓｃｏｒｅ（ｓｅｍ_ｐｏｓ）−ｓｃｏｒｅ（ｓｅｍ_ｎｅｇ）を分類対象文書ごとの分類スコアとする。以上が、ステップ２０１における自動分類部６０の処理である。

次に、ステップ２０２において、自動分類ステップ２０１による分類結果を人手分析する。分類結果の人手分析の流れを図５に示す。この分類結果の人手分析は、（１）精度評価のための分析を行うステップと、（２）訓練データ洗練化のための素性分析を行うステップと、（３）訓練データ洗練化のための追加データを作成するステップの３つの過程からなる。

まず、ステップ３０１に示した精度評価のための分析では、分類対象データ（分類対象文書ごとの文書解析結果）の集合から、分類対象データの文書数の平方根の数程度の文書の集合を評価データとして無作為抽出し、人により評価して抽出率を推定する。

ここでは、分類スコア０を閾値として評価することにする。無作為抽出した評価データの数をＳで表す。評価データ中で人が検索目的に合致したデータであると判定したデータ数を評価データ中の正解数と呼び、Ｓｔで表す。評価データ中のスコア０以上のデータ（プログラムが検索目的に合致したデータであると推定したデータ）を検索データ、その個数を検索データ数と呼び、Ｈで表す。検索データのうち、人が検索目的に合致したデータであると判定したデータ数を、検索データ中の正解数と呼び、Ｈｔで表す。このとき、評価データの適合率Ｐは、（検索データ中の正解数Ｈｔ）／（検索データ数Ｈ）である。また、評価データの再現率Ｒは、（検索データ中の正解数Ｈｔ）／（評価データ中の正解数Ｓｔ）である。

抽出率は、全体適合率Ｐ’、全体再現率Ｒ’からなるものとし、適合率Ｐ、再現率Ｒから推定する。無作為抽出した評価データ数をＳ、評価データの分類スコア０での適合率をＰ、確定正例の数をＴｔで表す。分類対象データ中で、プログラムが検索目的に合致したデータであると推定するデータの総数をＥｓで表すことにすると、Ｅｓ＝Ｈｔ×（Ｅｖ／Ｓ）で求めることができる。このとき、総検索数Ｈａｌｌ＝Ｔｔ＋Ｅｓ、推定正解数ＥｓｔＣ＝Ｔｔ＋Ｅｓ×Ｐと表すことができる。また、分類スコア０での再現率をＲとすると、推定総正解数をＥｓｔＡｌｌＣ＝Ｔｔ＋（Ｅｓ×Ｐ／Ｒ）として計算することができる。

ここで、全体適合率Ｐ’＝推定正解数ＥｓｔＣ／総検索数Ｈａｌｌ＝（Ｔｔ＋Ｅｓ×Ｐ）／（Ｔｔ＋Ｅｓ）とする。

また、全体再現率Ｒ’＝推定正解数ＥｓｔＣ／推定総正解数をＥｓｔＡｌｌＣ＝（Ｔｔ＋Ｅｓ×Ｐ）／（Ｔｔ＋（Ｅｓ×Ｐ／Ｒ））とする。

次に、ステップ３０２に示した訓練データ洗練化のための素性分析では、素性の各単語と分類類用正例との距離、分類類用負例との距離等を利用して分類に有効なキーワードを見つけ、確定正例検索式と、確定負例検索式に検索条件を追加する。例えば、図７のような文書の集合から、確定正例検索式に「電源」、「回路」、「高周波」等を加えて、「抵抗ＡＮＤ（電気ＯＲ回路ＯＲ電源ＯＲ高周波）」とする。また、図８のような文書の集合から、「改革」、「マスメディア」等を見つけて確定負例検索式を「抵抗ＡＮＤ（改革ＯＲマスメディア）」等とする。

次に、ステップ３０３に示した訓練データ洗練化のための追加データ作成では、キーワードにより特徴づけられない抽出したい文書の集合ＰｏｓＨ_ｉ、キーワードにより特徴づけられない抽出したい文書の集合ＮｅｇＨ_ｉを作成する。以上で、図４のステップ２０２の処理を終了する。

続いて、図４のステップ２０３において、前のステップ２０２で計算した抽出率が所望のものである場合（ＹＥＳ）には、分類処理を終了する。また、抽出率が所望のものでない場合（ＮＯ）には、次のステップ２０４の処理に移る。

次に、ステップ２０４において、次回の反復学習の訓練用文書の集合を作成する。次回の反復学習の訓練用文書の集合を作成は、次回用の分類用正例の作成と、次回用の分類用負例の作成とからなる。

次回の反復学習用の分類用正例の作成には、まず次回用の確定正例を作成する。次回用の確定正例は、ＰｏｓＤ_ｉ＋１＝ＰｏｓＤ_ｉ＋ｓｅａｒｃｈ（ｐｏｓ_ｉ＋１，ｓ_±ｎ）＋ＰｏｓＨ_ｉで求める。次回用の分類用正例をＰｏｓＣ_ｉ＋１＝ＰｏｓＤ_ｉ＋１とする。

次回の反復学習用の分類用負例の作成には、まず次回用の確定負例を作成する。次回用の確定負例は、ＮｅｇＤ_ｉ＋１＝ＮｅｇＤ_ｉ＋ｓｅａｒｃｈ（ｎｅｇ_ｉ＋１，ｓ_±ｎ）＋ＮｅｇＨ_ｉで求める。次回の反復学習用の分類用負例をＮｅｇＣ_ｉ＋１＝ＮｅｇＤ_ｉ＋１＋ＣｈｏｏｓｅＮｅｇ_ｉ＋１とする。ここで、ＣｈｏｏｓｅＮｅｇ_ｉ＋１は、正例との類似度が小さい文章データの集合であり、「想定負例」と呼ぶ。想定負例の求め方については後述する。

また、このとき、ステップ２０４では、訓練用文書・分類対象文書選択部３０において、次回の反復学習用の分類対象文書の集合ＣＤ_ｉ＋１としてＳｕｐ−ＰｏｓＤ_ｉ＋１−ＮｅｇＤ_ｉ＋１を求める。以上により、ステップ２０４において、次回の反復学習の訓練用文書の集合及び分類対象文書を作成することができる。続いて、ステップ２０１の処理を行い、反復学習ステップ２００の処理を繰り返し実行する。

ここで、図４のステップ２０４の動作において述べた想定負例ＣｈｏｏｓｅＮｅｇ_ｉ＋１の求め方について、図３に示す訓練用文書選択部３１における想定負例抽出処理を、図６を参照しながら説明する。

想定負例抽出処理では、ステップ２０１に相当する自動分類処理を実行する。まず、ステップ４０１において、現時点での確定正例ＰｏｓＤ_ｉ＝ｓｅａｒｃｈ（ｐｏｓ_ｉ，ｓ_±ｎ）＋ＰｏｓＨ_ｉを求める。

次に、ステップ４０２において、想定負例を求めるための自動分類処理用の分類用正例をＰｏｓＣ_ｉ＝ＰｏｓＤ_ｉとする。

次に、ステップ４０３において、現時点での確定負例ＮｅｇＤ_ｉ＝ｓｅａｒｃｈ（ｎｅｇ_ｉ，ｓ_±ｎ）＋ＮｅｇＨ_ｉを求める。

次に、ステップ４０４において、分類用負例ＮｅｇＣ_ｉ＝Ｓｕｐ−ＰｏｓＤ_ｉ−ＮｅｇＤ_ｉとする。

次に、ステップ４０５において、分類用正例ＰｏｓＣ_ｉ、分類用負例ＮｅｇＣ_ｉに対して、学習部５０で分類用正例の特徴及び分類用負例の特徴を学習する。

次に、ステップ４０６において、分類対象文書の集合ＣＤ＝Ｓｕｐ−ＰｏｓＤ_ｉ−ＮｅｇＤ_ｉとする。

次に、ステップ４０７において、分類対象文書の集合ＣＤを自動分類部６０で分類し、分類対象文書ごとの分類スコアを求める。

次に、ステップ４０８において、分類対象文書の集合ＣＤの分類結果から、正例との類似度が小さい文書を想定負例として抽出する。

このとき、正例との類似度が小さい文書の求め方には、例えば、事前確率による選択の方法と分類スコアによる選択の方法がある。

事前確率による選択の方法では、まず、分類対象文書の集合ＣＤ（＝Ｓｕｐ−ＰｏｓＤ_ｉ−ＮｅｇＤ_ｉ）の文書の数の平方根の数程度の文書を無作為抽出して人手で分析して、分析した文書のうち抽出したい文書であるものの個数＃Ｐｏｓと、抽出したい文書ではないものの個数＃Ｎｅｇを求める。このとき、事前確率をｐｒｂＰｒｅ_ｉ＝＃Ｎｅｇ／（＃Ｐｏｓ＋＃Ｎｅｇ）として計算する。分類対象文書の集合ＣＤの個数を＃ＣＤで表すこととして、事前確率を分類対象文書の個数に掛けた数ｐｒｂＰｒｅ_ｉ×＃ＣＤ個の文書を分類スコアが小さいものから想定負例ＣｈｏｏｓｅＮｅｇ_ｉ＋１として選択する。

また、分類スコアの閾値による選択の方法では、分類スコアの経験値をあらかじめ閾値として設定しておき、分類スコアが閾値未満のときに想定負例ＣｈｏｏｓｅＮｅｇ_ｉ＋１として選択する。

通常、検索目的に合致した文書については検索目的が明確であるために確定正例検索式が作成しやすいため確定正例ＰｏｓＤ_ｉ＋１を作成しやすい。一方、抽出したい文書ではないものについては、一般にどのような多義性があるか不明なため、確定負例検索式と人手による確認で作成した確定負例ＮｅｇＤ_ｉ＋１では分類に十分な負例を作成することが困難な場合がある。そのため、上記のようにして求めた想定負例ＣｈｏｏｓｅＮｅｇ_ｉ＋１を次回の反復学習用の分類用負例にＮｅｇＣ_ｉ＋１＝ＮｅｇＤ_ｉ＋１＋ＣｈｏｏｓｅＮｅｇ_ｉ＋１として加えることにより、分類に用いる訓練データを拡充することができる。

なお、確定正例検索式の作成が困難な場合には、想定負例と同様な方法で想定正例を分類用正例に加える構成としても良い。

この発明の実施の形態１は、上記のように構成されているため、分類に用いる訓練データの作成が容易になり、検索目的に合致した文書の集合を精度良く抽出する検索フィルタリング装置を実現することができる。

この発明の実施の形態１に係る検索フィルタリング装置を実現するためのコンピュータのハードウェア資源の構成を示す図である。この発明の実施の形態１に係る検索フィルタリング装置の構成を示すブロック図である。この発明の実施の形態１に係る検索フィルタリング装置の訓練用文書・分類対象文書選択部の詳細構成を示すブロック図である。この発明の実施の形態１に係る検索フィルタリング装置の動作を示すフローチャートである。この発明の実施の形態１に係る検索フィルタリング装置の分類結果の人手分析の動作を示すフローチャートである。この発明の実施の形態１に係る検索フィルタリング装置の想定負例抽出の動作を示すフローチャートである。分類用正例の文書の例を示す図である。分類用負例の文書の例を示す図である。

符号の説明

１入力装置、２通信装置、３制御装置、５主記憶装置、６記録媒体、７記録媒体駆動装置、８２次記憶装置、９出力装置、９Ａ表示装置、９Ｂ印刷装置、１０検索部、２０文書解析部、３０訓練用文書・分類対象文書選択部、３１訓練用文書選択部、３２分類対象文書選択部、４０共起素性抽出部、５０学習部、６０自動分類部、３１１想定負例選択部。

Claims

検索対象の文書の集合から、初期検索式により抽出対象の上限文書集合、確定正例検索式により検索目的に合致する文書の集合である確定正例、及び確定負例検索式により検索目的に合致しない文書の集合である確定負例の検索を行う検索部と、
前記検索部により検索された抽出対象の上限文書集合、確定正例、及び確定負例の各文書に対して文の形態素及び構文の解析を行い、抽出対象の上限文書集合の文書解析結果、確定正例の文書解析結果、及び確定負例の文書解析結果を求める文書解析部と、
前記文書解析部により解析された、抽出対象の上限文書集合の文書解析結果、確定正例の文書解析結果、及び確定負例の文書解析結果から、分類対象文書、分類用正例、及び分類用負例を選択し、分類対象文書ごとの文書解析結果、分類用正例の文書ごとの文書解析結果、及び分類用負例の文書ごとの文書解析結果を求める訓練用文書・分類対象文書選択部と、
前記訓練用文書・分類対象文書選択部により求めた分類対象文書ごとの文書解析結果、分類用正例の文書ごとの文書解析結果、及び分類用負例の文書ごとの文書解析結果から、検索目的を表す語との共起情報を素性ベクトルとして抽出し、前記分類対象文書ごとの文書解析結果から分類対象文書ごとの素性ベクトルを生成し、前記分類用正例の文書ごとの文書解析結果から分類用正例の文書ごとの素性ベクトルを生成し、前記分類用負例の文書ごとの文書解析結果から分類用負例の文書ごとの素性ベクトルを生成する共起素性抽出部と、
前記共起素性抽出部により生成された分類用正例の文書ごとの素性ベクトル、及び分類用負例の文書ごとの素性ベクトルから、分類用正例文書の特徴、及び分類用負例文書の特徴を計算する学習部と、
前記学習部により計算した分類用正例文書の特徴、及び分類用負例文書の特徴を、前記共起素性抽出部により生成された分類対象文書ごとの素性ベクトルに適用して、分類対象文書ごとの分類スコアを求める自動分類部と
を備えたことを特徴とする検索フィルタリング装置。
前記訓練用文書・分類対象文書選択部は、
検索目的に合致することが確定した確定正例を分類用正例とし、前記抽出対象の上限文書集合から前記確定正例と検索目的に合致しないことが確定した確定負例とを除いたものを分類用負例として自動分類を行った結果から想定負例を抽出する想定負例選択部を有する
ことを特徴とする請求項１記載の検索フィルタリング装置。
前記想定負例選択部は、抽出したい文書であるものの個数と、抽出したい文書ではないものの個数とから求める事前確率を用いて想定負例を抽出する
ことを特徴とする請求項２記載の検索フィルタリング装置。
前記想定負例選択部は、分類スコアを用いて想定負例を抽出する
ことを特徴とする請求項２記載の検索フィルタリング装置。
前記共起素性抽出部は、文の構造の解析結果から検索目的を表す語と文節内で共起する語を素性として抽出する
ことを特徴とする請求項１から請求項４までのいずれかに記載の検索フィルタリング装置。
前記共起素性抽出部は、文の構造の解析結果から検索目的を表す語と係り受け共起する語を素性として抽出する
ことを特徴とする請求項１から請求項４までのいずれかに記載の検索フィルタリング装置。
前記共起素性抽出部は、文書及び文の構造の解析結果から検索目的を表す語と所定の範囲の文内で共起する語を素性として抽出する
ことを特徴とする請求項１から請求項４までのいずれかに記載の検索フィルタリング装置。
コンピュータに、
検索対象の文書の集合から、初期検索式により抽出対象の上限文書集合、確定正例検索式により検索目的に合致する文書の集合である確定正例、及び確定負例検索式により検索目的に合致しない文書の集合である確定負例の検索を行う検索手順と、
前記検索手順により検索された抽出対象の上限文書集合、確定正例、及び確定負例の各文書に対して文の形態素及び構文の解析を行い、抽出対象の上限文書集合の文書解析結果、確定正例の文書解析結果、及び確定負例の文書解析結果を求める文書解析手順と、
前記文書解析手順により解析された、抽出対象の上限文書集合の文書解析結果、確定正例の文書解析結果、及び確定負例の文書解析結果から、分類対象文書、分類用正例、及び分類用負例を選択し、分類対象文書ごとの文書解析結果、分類用正例の文書ごとの文書解析結果、及び分類用負例の文書ごとの文書解析結果を求める訓練用文書・分類対象文書選択手順と、
前記訓練用文書・分類対象文書選択手順により求めた分類対象文書ごとの文書解析結果、分類用正例の文書ごとの文書解析結果、及び分類用負例の文書ごとの文書解析結果から、検索目的を表す語との共起情報を素性ベクトルとして抽出し、前記分類対象文書ごとの文書解析結果から分類対象文書ごとの素性ベクトルを生成し、前記分類用正例の文書ごとの文書解析結果から分類用正例の文書ごとの素性ベクトルを生成し、前記分類用負例の文書ごとの文書解析結果から分類用負例の文書ごとの素性ベクトルを生成する共起素性抽出手順と、
前記共起素性抽出手順により生成された分類用正例の文書ごとの素性ベクトル、及び分類用負例の文書ごとの素性ベクトルから、分類用正例文書の特徴、及び分類用負例文書の特徴を計算する学習手順と、
前記学習手順により計算した分類用正例文書の特徴、及び分類用負例文書の特徴を、前記共起素性抽出手順により生成された分類対象文書ごとの素性ベクトルに適用して、分類対象文書ごとの分類スコアを求める自動分類手順と
を実行させるための検索フィルタリングプログラム。