JP4426041B2 - カテゴリ因子による情報検索方法 - Google Patents
カテゴリ因子による情報検索方法 Download PDFInfo
- Publication number
- JP4426041B2 JP4426041B2 JP36669299A JP36669299A JP4426041B2 JP 4426041 B2 JP4426041 B2 JP 4426041B2 JP 36669299 A JP36669299 A JP 36669299A JP 36669299 A JP36669299 A JP 36669299A JP 4426041 B2 JP4426041 B2 JP 4426041B2
- Authority
- JP
- Japan
- Prior art keywords
- category
- factor
- document
- search
- category factor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は,電子化文書に関する情報利用技術(検索,分類,特徴語抽出等)に係り,特に検索のもれが少なく,かつ検索結果の高精度な絞り込みを可能としたカテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体に関する。
【0002】
【従来の技術】
インターネットの普及や電子化文書の普及に伴い,情報検索技術や文書の自動分類などの情報利用技術が進展してきている。これに伴い,企業が保有する文書資産,情報資産やインターネット上で公開されている文書資産,情報資産をさらに深いレベルで活用したいという要求が高まっている。このためには,情報検索技術や文書の自動分類等の情報利用技術の一層の進展が望まれる。
【0003】
従来の情報検索では,主に単語または文字列を検索キーとして,それに一致する単語または文字列を含む文書情報を検索するのが一般的であった。この検索において,検索文字列を同義語(または類義語)にまで拡張して検索するものはあったが,単語レベルの検索であることには変わりなく,ジャンル(文書の主題分野)のレベルで,検索対象の効果的な絞り込みを高精度で行うシステムは用いられていない。
【0004】
【発明が解決しようとする課題】
現在の情報検索技術や自動分類技術では適合率や分類精度の低さが問題であり,例えば検索結果をもとに再検索する場合の絞り込みの支援などの必要性が高まってきている。検索結果の絞り込みにあたって,追加のキーワードの侯補を示すことによる検索支援技術が必要である。
【0005】
また,情報利用機能として,情報検索ツールや自動分類ツール,特徴語抽出ツールなど,個別のアプリケーションになっている場合が多く,情報利用の統合的アプローチとして,検索や分類等に共通の統計的特徴量を基盤とするオントロジー的特徴語ベースヘの発展の可能性を探る必要があると考えられる。
【0006】
さらに,情報利用にあたり,文字列レベル/形態素レベルの統計処理にとどまらず,対象領域に関する情報内容のレベルで処理するための要約技術,機械学習,テキストデータマイニングなどの知識獲得関連技術が盛んになり,自然言語処理技術も要求されるようになってきており,知識処理,文脈処理のための文脈同定,対話状況認識のための基礎技術を探ることも重要である。
【0007】
これらの技術の課題は,文字列レベルの情報利用技術と,理想である意味レベルの情報利用技術の間のギャップに関連すると考えられるが,本発明では,その中間レベルとして文書の主題分野としての分類カテゴリやカテゴリ因子のレベルでの情報利用技術に着目している。
【0008】
具体例に従って,従来の文字列・単語レベルの検索技術の問題点を説明すると以下のとおりである。例えば,ユーザが「<数式>に関連する分野の文書」を検索したかったとする。ユーザが意図するこれらの文書には,“数式”の同義語である“式”や“計算式”,あるいは同義語以外の関連語が含まれると想定される。しかし,単語“数式”を含む文書のみを検索結果とする従来の検索システムでは,“計算式”を含む文書は検索されないので,検索もれが生じてしまう。
【0009】
また,従来,検索キーについて同義語展開を行うシステムもあるが,従来の同義語展開を行う検索システムでは,“数式”の同義語である“式”や“計算式”を含むすべての文書を検索結果の候補とする。ところが,単語“式”は多義語であり,“数式”という意味以外に“儀式”という意味も内包しているので,本来の目的以外の文書も検索結果に含んでしまうことになり,いわゆるゴミと呼ばれる検索結果の誤り部分が多くなってしまう。
【0010】
また,例えばユーザが「<日本料理>に関連する分野の文書」の検索を意図した場合,文字列“日本料理”を検索キーとして入力すると,従来の単語レベルの検索では,単語“日本料理”を含む文書,またはそれらの文書と,単語“日本料理”を同義語展開して得られた単語“和食”を含む文書を検索結果とする。したがって,従来の技術では,単語“日本料理”と同義語ではない“寿司”,“天ぷら”というような単語を含む文書は検索されないことになる。しかし,ユーザの検索意図として,“寿司”,“天ぷら”などを含む文書についても検索したい場合があり,このような場合には,検索もれが生じてしまうことになった。
【0011】
本発明は上記問題点の解決を図り,ユーザが意図したジャンル(文書の主題分野)レベルの検索を可能とし,検索もれも検索誤りも少ない検索手段を提供することを目的とする。
【0012】
【課題を解決するための手段】
文書情報の自動分類や検索などの統計的アプローチにおいては,文書内容の対象分野(情報カテゴリ)の語彙の統計的特性を利用している。例えば,検索は語と文書(群)との相関,分類はカテゴリと語の相関,語のクラスタリングは語と語の相関を分析対象とした技術である。本発明では,さらに,カテゴリとカテゴリ因子の相関や,カテゴリ因子と語の相関を分析対象に加えたことが特徴であり,検索要求とカテゴリ因子の相関,文書とカテゴリ因子の相関などを用いることにより,検索要求と文書との相関を求める媒介的な役割をカテゴリ因子に意図している。
【0013】
ここでカテゴリ因子とは,文書の主題分野あるいはその細分類を表す様々な情報カテゴリを識別するための弁別的素性を意図しているが,計算可能な範囲で実現する。
【0014】
本発明では,このジャンルのレベルの検索手段として,関連する発明(特願平ll−49501号「文書処理装置及びそのプログラム記憶媒体」)によるカテゴリ因子分解技術を利用して,文章に含まれるカテゴリ因子を抽出する。また,カテゴリ因子と相関の強い特徴語リストとその相関の強さを用いて,検索要求に対して語を割り当てる。
【0015】
以上の点に鑑み,本発明は,コンピュータが,ユーザの検索要求に合致した文書情報を検索する情報検索方法において,カテゴリ因子分解技術によって,文書ベース中の文書に出現する単語の出現確率分布から出現確率が高い単語を特徴語として抽出し,それらの特徴語を用いた主成分分析により,文書の主題分野または細分類を表す情報カテゴリを識別する弁別的素性であるカテゴリ因子を,各カテゴリ因子を一意に識別する因子IDと各カテゴリ因子に属する特徴語群と個々の特徴語に対する該カテゴリ因子への相関の強さを示す値の組として前記文書ベースから求め,前記文書ベース中の各文書について,文書中に含まれる単語と前記カテゴリ因子に属する特徴語群の特徴語との適合度の大きい1または複数のカテゴリ因子を抽出し,抽出されたカテゴリ因子と前記各文書との対応情報を,前記文書ベースごとにインデックス化したローカルカテゴリ因子インデックスのテーブルを作成し,さらに複数の文書ベースに対して作成された複数の前記ローカルカテゴリ因子インデックスを統合した,前記ローカルカテゴリ因子インデックスにおけるカテゴリ因子と,それらの各カテゴリ因子に属する特徴語群との対応情報を保持する統合カテゴリ因子インデックスのテーブルを作成して,カテゴリ因子インデックス格納部に格納しておき,ユーザが検索要求として入力した文字列から得られる検索文字列をキーとして,前記カテゴリ因子インデックス格納部に格納された前記統合カテゴリ因子インデックスのテーブルを参照し,前記検索文字列を特徴語として有するカテゴリ因子を選択し,そのカテゴリ因子に対応する前記カテゴリ因子インデックス格納部に格納された前記ローカルカテゴリ因子インデックスのテーブルから,該カテゴリ因子に対応付けられた文書を求めて検索結果とすることを特徴とする。
【0016】
前記カテゴリ因子は,入力文書の形態素解析結果に基づいて文書中の各単語の出現確率を求め,該文書に特徴的に出現する単語を特徴語として抽出し,抽出した特徴語に基づいて特徴語相関行列を求め,前記特徴語および前記特徴語相関行列に基づいて主成分分析を行い,主成分の各々に対応する特徴語の群と主成分の各々との相関の強さを用いて,特徴語の群の多い主成分を選択し,それを主成分因子とし,主成分因子との相関が高い特徴語を選択して因子特徴語とし,主成分因子と因子特徴語とからなるものとして抽出することができる。
【0019】
以上の各処理手段をコンピュータによって実現するためのプログラムは,コンピュータが読み取り可能な可搬媒体メモリ,半導体メモリ,ハードディスクなどの適当な記録媒体に格納することができる。
【0020】
【発明の実施の形態】
図1は,本発明の構成例を示すブロック図である。図中,1A,1B,…は,例えばそれぞれ新聞,雑誌,学会論文,…というような同種の文書群からなる文書ベースであり,個々の新聞,記事,論文などの電子化(コード化)された文書11A,11B,…を備える。カテゴリ因子インデクシング部2は,これらの文書ベース1A,1B,…からカテゴリ因子インデックスを作成するものである。文書ベースは,必ずしも複数ある必要はない。
【0021】
文書ベースが複数ある場合,カテゴリ因子インデックスとして,個々の文書ベース11A,11B,…に対応して作成されるローカルカテゴリ因子インデックス31A,31B,…と,これらのローカルなインデックスを統合した統合カテゴリ因子インデックス32とが設けられる。これらは,コンピュータが読み取り可能なカテゴリ因子インデックス格納部3に格納される。文書ベースが一つだけの場合には,そのローカルなカテゴリ因子インデックスだけが使用される。
【0022】
カテゴリ因子検索部4は,カテゴリ因子インデクシング部2によって文書ベース1A,1B,…中に特徴的に出現する主題分野あるいはその細分類として統計的に求められたカテゴリ因子を媒介として文書検索を行うものであり,ユーザからの検索要求を入力し処理する検索要求入力部41,同義語辞書5を用いて検索入力に含まれる語を1つの同義語のエントリに集約する同義語集約処理部42,統合カテゴリ因子インデックスおよびローカルカテゴリ因子インデックスを参照して検索要求に対応するカテゴリ因子を求めるカテゴリ因子インデックス参照部43,求めたカテゴリ因子から関連の強い文書を検索する対応文書検索部44および文書とカテゴリ因子との適合度に応じて検索結果をソートし出力する検索結果出力部45を備える。
【0023】
カテゴリ因子インデクシング部2とカテゴリ因子検索部4とは,コンピュータとそれを動作させるソフトウェア・プログラムとによって実現される。
【0024】
図2は,本発明で用いるカテゴリ因子を説明する図であって,特に文書ベースが新聞であるときのカテゴリ因子の例を示している。図中,(a)はカテゴリ因子を分類する分類名であるカテゴリ名,(b)は各カテゴリ因子に一意に付与される識別子である因子ID,(c)は各カテゴリ因子に対して付与されたカテゴリ因子名称,(d)は各カテゴリ因子に関連の強い特徴語の集合である。
【0025】
ここでいうカテゴリとは,その文書(情報)が属する分類であり,例えば新聞記事というカテゴリ内において,「政治」,「経済」等のカテゴリが存在し,「政治」というカテゴリ内において「選挙」,「外交」等のカテゴリが存在する。すなわち,カテゴリとは分類(分類した結果または分類した結果に則した入れ物)の意味である。カテゴリには階層が存在する。カテゴリ因子とは,カテゴリ内において更に細分類したカテゴリをいい,上位のカテゴリから見た場合における下位のカテゴリを指す。カテゴリ因子による文書の処理は,単語レベルと意味レベルとの中間に位置する処理と言える。
【0026】
カテゴリ因子名称は,必要に応じて,そのカテゴリ因子に属する特徴語の群を参照し人間が付与する。すなわち,カテゴリ因子インデクシング部2は,文書群からカテゴリ因子を抽出すると,それに強く関連する特徴語を表示し,カテゴリ因子名称の入力を促す。ここで入力された名前が,カテゴリ因子名称として登録される。なお,カテゴリ因子名称は,省略することも可能である。
【0027】
以下,図1に示す装置の詳細について説明する。
【0028】
(1)ジャンルのレベルの検索の概要
本発明では,カテゴリ因子をもとにして,同じ主題分野の文書群を規定し,検索に利用する。
【0029】
カテゴリ因子インデクシング部2は,予め,詳しくは後述するカテゴリ因子分解技術により,対象とする文書ベース1A,1B,…からカテゴリ因子を抽出しておく。さらに,個々の文書11A,11B,…から相関の大きいカテゴリ因子を抽出した文書分析表を作成する。次に,文書分析表の逆関係であるカテゴリ因子のインデックステーブルを作成する。文書ベースが複数個ある場合には,各文書ベースを統合したインデックステーブルを作成する。この場合,個々の文書ベース(1A,1B)におけるインデックステーブルをローカルカテゴリ因子インデックス(31A,31B)と呼び,これらを統合したインデックステーブルを統合カテゴリ因子インデックス(32)と呼ぶ。
【0030】
これらをもとにして,カテゴリ因子検索部4は,ユーザの検索入力に対し,同義語集約処理,カテゴリ因子との関連付け,カテゴリ因子インデックスの表引きにより,対応するカテゴリ(カテゴリ因子)の文書を検索する。
【0031】
(2)カテゴリ因子インデクシング部2の処理
図3に,カテゴリ因子インデクシング部2の処理フローを示す。カテゴリ因子インデクシング部2は,カテゴリ因子分解技術により得た各カテゴリ因子の特徴量を用いて,文書ベース中の各文書と関連の強いカテゴリ因子を抽出する(図3のS1,S2)。このカテゴリ因子の抽出では,例えば特願平ll−49501号「文書処理装置及びそのプログラム記憶媒体」に開示されている技術を用いる。以下に,このカテゴリ因子の抽出処理(カテゴリ因子分解処理)について説明する。
【0032】
図4は,カテゴリ因子の抽出処理を示すフローチャートである。まず,検索対象となる文書を入力する(ステップS11)。次に,入力した文書について,単語辞書(図示省略)を用いて形態素解析を行い,この結果に基づいて各単語の出現頻度を求め,それから単語の出現確率を求める(ステップS12)。求めた単語の出現確率に基づいて,当該文書に特徴的に出現する単語を特徴語として抽出する(ステップS13)。
【0033】
次に,抽出した特徴語に基づいてあらかじめ特徴語相関行列を求め,さらに特徴語および特徴語相関行列に基づいて主成分分析を行うことにより,主成分係数を求める(ステップS14)。この主成分分析では,例えば特開平10−111869号公報に開示されている方法を用いることができる。
【0034】
次に,求めた主成分係数と特徴語とを用い,特徴語の出現傾向を表す座標系に基づいて主成分の各々に対応する特徴語の群を求め,当該特徴語の群と主成分の各々との相関の強さを用いて,特徴語の群の多い主成分を選択し,それを主成分因子とし,主成分因子との相関が高い特徴語を選択して因子特徴語とし,主成分因子と因子特徴語とからなるカテゴリ因子を抽出する(ステップS15)。
【0035】
さらに,分解された複数の主成分からなるカテゴリ因子について,当該複数の主成分の各々とこれらに対応する特徴語の群との相関の強さを用いて,当該カテゴリ因子を1または複数の主成分からなるクラスタに分解する(ステップS16)。すなわち,特徴語相関行列から特徴語対の相関の大きい順にグルーピングを行い,クラスタを成長させる。
【0036】
最後に,複数の主成分からなるカテゴリ因子またはクラスタにおける重複する主成分を除去し,冗長部分の簡略化を行う(ステップS17)。
【0037】
以上の処理により求めたカテゴリ因子を用いて,各文書と関連するカテゴリ因子の関係をインデックス化し,検索時にそのインデックスファイルを参照することにより,検索処理を高速化することを可能にする。
【0038】
(3)文書ベース内のカテゴリ因子の対応付け,統合
図3に示すステップS1の詳細について説明する。対象となる文書ベースに対して,前記カテゴリ因子分解技術を適用すると,当該文書ベースに対する代表的なカテゴリ因子が抽出される。
【0039】
次に,文書ベース内の分類カテゴリ間でカテゴリ因子を比較し,類似度の大きい因子同士を1本化する。すなわち,文書ベース内のカテゴリ因子の対応付けを行う。類似度としては,ユークリッド距離,マハラノビスの距離,コサイン距離などを用いればよい。
【0040】
ある文書ベース(Aで表す)において,元のカテゴリ因子#j1 と#j2 とが対応付けられたとき,これらの対応する因子をマージしたカテゴリ因子#mに関して,#mの因子IDと,#mの文書頻度と,#mの特徴語wi の重み付けと,マージ後のカテゴリ因子を定める。
【0041】
#mの因子ID:文書ベースAにおける最大の因子ID+1
#mの文書頻度
【0042】
【数1】
【0043】
#mの特徴語wi の重み付け
【0044】
【数2】
【0045】
(4)文書からのカテゴリ因子の抽出(文書分析表の作成)
次に,図3に示すステップS2の詳細について説明する。図5は,文書分析とカテゴリ因子インデクシングを説明する図である。カテゴリ因子分解や文書ベース内でのカテゴリ因子対応付けのときに得た各種分析パラメータを利用して,個々の文書Dk とカテゴリ因子#jとの相関を計算する。Zj (k) を文書Dk の主成分得点寄与分とすると,Zj (k) は,以下の式で求められる。
【0046】
【数3】
【0047】
ここで,文書Dk に含まれるカテゴリ因子#jの集合J(k)は,適当な閾値λ(≧0)を用いて,
J(k)={#j|zj (k) >λ}
となる。
【0048】
この結果,図5にあるような文書分析表33が得られる。文書分析表33は,各文書を識別する文書IDごとに,その文書に関連の強いカテゴリ因子と,そのカテゴリ因子の文書への適合度の情報を持つ。文書ID=1の文書を例に説明すると,文書分析表33では,文書ID=1の文書は,因子ID=#1〔カテゴリ因子名称=CTBT(核実験全面禁止条約)〕のカテゴリ因子に適合度=0.554の大きさで関連し,因子ID=#3〔カテゴリ因子名称=IAEA(原子力委員会)〕のカテゴリ因子に適合度=0.718の大きさで関連していることが示されている。
【0049】
以上のように,カテゴリ因子分解技術により抽出した各カテゴリ因子の特徴量を用いて,文書ベース中の個々の文書と関連の強いカテゴリ因子が抽出され,図5に示すような文書分析表33が文書ベースごとに作成される。
【0050】
(5)ローカルなカテゴリ因子インデックスのテーブル作成
図3に示すステップS3では,以下に説明する処理を行う。上記文書からのカテゴリ因子の抽出結果をもとにして,各カテゴリ因子に対応する全ての文書のID番号を列挙したインデックスのテーブルを作成する。すなわち,ステップS2で作成した文書分析表33から,図5に示すカテゴリ因子インデックス31を作成する。これを用いて特定のローカルなカテゴリ因子のID番号(因子ID)から,関連の深い文書のID番号(文書ID)を高速に検索することができる。
【0051】
(6)統合カテゴリ因子インデックスのテーブル作成
次に,図3に示すステップS4では,以下のように統合カテゴリ因子インデックス(統合オントロジー)を作成する。
【0052】
複数の文書ベースにおいて,対応するカテゴリ因子を1つのエントリとし,独立なカテゴリ因子はそのまま1つのエントリとしてマージすることにより,統合オントロジーを作成する。統合オントロジーにおける因子ID番号と,各文書ベースの因子IDは互いに参照できるようにそれぞれ参照テーブルを作成しておく。
【0053】
文書ベースA,B,…において,元のカテゴリ因子#jA ,#jB ,…がカテゴリ因子対応付けにより対応付けられたとき,これらの対応する因子をマージした統合カテゴリ因子#nに関して,次のように統合カテゴリ因子を定める(図5)。
【0054】
#nの因子ID:統合因子における最大の因子ID+1
#nの文書頻度
【0055】
【数4】
【0056】
#nの特徴語wi の重み付け
【0057】
【数5】
【0058】
図6に,統合カテゴリ因子インデックスの作成例を示す。図6の例では,原子力白書の文書ベースから作成したローカルカテゴリ因子インデックス31Aと,○○新聞の文書ベースから作成したローカルカテゴリ因子インデックス31Bとから,これらを統合した統合カテゴリ因子インデックス32を作成している。統合カテゴリ因子インデックス32におけるローカル因子IDは,文書ベースの番号と,その文書ベースにおける因子IDの組で表される。例えば,「2#14」は,第2の文書ベースにおける因子IDが#14のカテゴリ因子を表している。この例では,「NPT」のカテゴリ因子は,原子力白書および○○新聞の文書ベースの双方にあり,原子力白書の文書ベースでは因子IDが#2のカテゴリ因子,○○新聞の文書ベースでは因子IDが#36のカテゴリ因子となっていることがわかる。
【0059】
(7)特徴語統合インデックスの作成
図3に示すステップS5では,統合カテゴリ因子と相関の強い特徴語リストを利用して,その逆関係から特徴語インデックスのテーブルである特徴語統合インデックス(図示省略)を作成する。これは,各特徴語を見出しとして,当該特徴語と関連の強いカテゴリ因子のID番号を値とするテーブルである。また,カテゴリ因子と特徴語の相関度もテーブルに格納する。この特徴語統合インデックスは,実質的には統合カテゴリ因子インデックス32と同様な情報を持つものであるため,特徴語による高速な検索を必要としない場合には,作成しなくてもよい。
【0060】
以上がカテゴリ因子インデクシング部2の処理である。
【0061】
(8)検索要求処理
カテゴリ因子検索部4は,カテゴリ因子インデクシング部2によって作成された統合オントロジーに基づいて,ユーザからの検索要求を処理する。オントロジーによる検索要求処理は,大別して,入力処理,同義語集約処理,検索要求−因子対応処理,統合カテゴリ因子処理,ローカルカテゴリ因子処理からなる。
【0062】
検索要求−カテゴリ因子対応としては,
1)特定のカテゴリ因子名称と一致,
2)特定のカテゴリ名と一致 → 子のカテゴリ因子,
3)特徴語が対応するカテゴリ因子,
4)特徴語が対応するカテゴリ因子の兄弟因子,
があり,優先順位は,1)が最も高く,続いて,2),3),4)の順に低くなる。検索では,順位が高い方を優先する。例えば,検索文字列が特定のカテゴリ名と一致した場合,そのカテゴリに属するすべてのカテゴリ因子との対応がとれたものとして扱う。
【0063】
ユーザから検索文字列を受け取ると,検索文字列をキーとして,特徴語統合インデックスを参照し,対応する文書のID番号を得る。
【0064】
図7は,カテゴリ因子検索部4の処理フローチャートである。また,図8は,カテゴリ因子による検索の概要を示す。以下,これらの図に従って,カテゴリ因子検索部4の処理を詳細に説明する。
【0065】
(9)ユーザの検索入力処理(図7のステップS21)
ユーザの入力した文字列を,ユーザインタフェースモジュールから検索要求として受け取り,処理する。入力文字列は,区切り文字(半角および全角の空白文字)によって区切られた検索文字列とする。また,論理式の入力の場合には,論理記号のスコープに注意して処理する。
【0066】
(10)同義語集約処理(図7のステップS22)
同義語を1つのエントリーに集約するため,同義語集約処理を行う。検索入力の中に同義語辞書5に登録された語があれば,それらを同義代表語に置き換えて代表させ,1つのエントリーに集約する(図8参照)。
【0067】
(11)統合カテゴリ因子インデックスの参照(図7のステップS23)
検索文字列をキーとして,統合カテゴリ因子インデックス32または特徴語統合インデックスのテーブルを参照し,統合オントロジーにおける因子ID番号を引く。検索文字列がカテゴリ因子名称またはカテゴリ名と一致するようなカテゴリ因子,あるいは検索文字列を特徴語とするようなカテゴリ因子を見つける。検索文字列Sとカテゴリ因子#jとの関連度r(#j,S)を統合カテゴリ因子インデックス32または特徴語統合インデックスから得る。
【0068】
(12)ローカルカテゴリ因子インデックスの参照(図7のステップS24)さらに,この統合カテゴリ因子の因子ID番号(統合因子ID)をもとにして,各文書ベースにおいて対応するローカルなカテゴリ因子のID番号(ローカル因子ID)を得る。次に,ローカル因子IDをもとに,選択したカテゴリ因子に対応する文書Dk のID番号(文書ID)を,該当するローカルカテゴリ因子インデックスから得る。
【0069】
(13)対応文書の検索(図7のステップS25)
選択したカテゴリ因子に対応する文書Dk のID番号(文書ID)を,該当するローカルカテゴリ因子インデックスから求めたならば,その文書Dk に対する主成分得点寄与分を,Z(Dk ,#j)とする。
【0070】
(14)検索結果ランキングおよび出力(図7のステップS26,S27)
各検索結果の文書に対して,その主成分得点寄与分と,検索文字列Sとカテゴリ因子#jとの関連度との積〔Z(Dk ,#j)×r(#j,S)〕を計算し,この値の大きい順に検索結果の文書をソートし,表示する。
【0071】
図9に,カテゴリ因子による検索の例を示す。検索要求の検索キーとして,例えば「グリーンピース」の検索文字列が入力されたとする。これに対して,図7に示す手順に従って検索処理が実行され,検索結果のランキングが行われると,その結果が,例えば図9に表示画面16として示すように表示される。これをもとに,検索者であるユーザは,ジャンル表示,文書内容表示,ジャンル文脈表示などの指示を行い,必要な情報を容易に入手することができる。
【0072】
次に,従来技術による文字列・単語レベルの検索と,本発明によるジャンルのレベルの検索との違いを,具体的な検索結果を比較することによって説明する。図10〜図25は,文字列・単語レベルの検索とジャンルのレベルの検索の差異を示すため,それぞれの検索結果の文書集合の違い,また,ユーザの検索意図との違いを図示したものである。これらの図では,上記(8)の検索要求処理における「検索要求−カテゴリ因子対応」の内の3つの場合分け[1)特定のカテゴリ因子名称と一致,2)特定のカテゴリ名と一致,3)特徴語が対応するカテゴリ因子]について,図示した。また,4)特徴語が対応するカテゴリ因子の兄弟因子に関しては,3)と同じ考え方でよいので省略した。
【0073】
最初に,図10〜図12に示す例に従って,「検索要求−カテゴリ因子対応」における「1)特定のカテゴリ因子名称と一致」の場合を説明する。図10および図11が単語レベルの検索を表しており,図12が本発明によるジャンルレベルの検索を表している。
【0074】
図10は,単語検索において,入力する検索式として,“数式”という単語が与えられた場合を想定している。単語検索では,入力された単語“数式”を含むようなすべての文書を検索結果として得ることになる。これに相当する文書集合は,図10において市松模様で示す部分であり,検索結果として正解になっている。
【0075】
しかし,右上がり斜線の部分は,意味としては同じく<数式>の分野の文書であるものの,単語“数式”が含まれない文書であり,検索結果から漏れてしまっている。すなわち,この斜線部分は,検索もれの部分である。これらの文書中には,単語“数式”ではなく,“数式”の同義語である“式”や“計算式”,あるいは同義語以外の関連語が含まれると想定される。
【0076】
ユーザの本来の検索意図は,「単語“数式”を含む文書」ではなく,「<数式>に関連する分野の文書」である。すなわち,図中の市松模様の部分と右上がりの斜線部分との和集合である。このことから,図10の単語検索では,検索もれの部分が大きく,問題がある。
【0077】
また,図11は,従来技術による検索であって,検索もれを防ぐ一般的な手段である同義語展開を行った場合を示している。この場合には,単語“数式”の同義語である“式”や“計算式”などを用いて,同義語をorで結んだものを検索式としている。これにより,図11では,同義語の分だけ検索結果の正解部分が広がっている。
【0078】
しかし,単語“式”はいわゆる多義語であり,“数式”という意味以外に“儀式”という意味も内包しているので,本来の目的(ユーザ意図)以外の文書も検索結果に含んでしまう。これが検索結果の誤り部分(いわゆるゴミ)である。
【0079】
また,同義語展開では,当然ながら同義語以外の関連語(関数,同値変形など)を使って記述された文書を検索することはできない。
【0080】
これに対し,図12は,本発明を用いたジャンルのレベルの検索の場合を示している。例えば,対象分野としての<数式>に対してカテゴリ因子の「#数式」がほぼ対応する場合には,文書集合もほぼ等しくなる。この場合には,ユーザ意図の文書集合と,ジャンルレベルの検索結果がほぼ対応する。この図12から,本発明によるジャンルレベルの検索を行えば,図10や図11の場合と比べて,検索もれも,検索誤りも減少させることができることが明らかである。
【0081】
次に,図13〜図16に従って,「検索要求−カテゴリ因子対応」における「2)特定のカテゴリ名と一致」の場合の例を説明する。
【0082】
図13は,従来の単語レベル検索において,検索式S=“日本料理”を与えた場合である。検索結果の正解部分は,単語“日本料理”を含む文書集合(市松模様部分)であり,ユーザ意図は,これに“日本料理”の同義語や関連語を含む文書集合(右上がり斜線部分)を加えたものである。したがって,図10と同様に検索もれは多い。
【0083】
図14は,従来の単語レベル検索において,さらに同義語展開を行って,検索式S=“日本料理”or“和食”とした場合を表している。検索結果の正解部分は,単語“日本料理”あるいは“和食”を含む文書集合(市松模様部分)であり,図13の場合よりは正解部分が増えたものの,ユーザが意図する部分について未だ検索もれが多い。
【0084】
図15は,新たな検索行動をとったものを示しているわけではなく,図14の精密化を行ったものを示している。<日本料理>という分野は広いので,図14の検索結果の細分類を考えることができる。例えば,<日本料理>の分野の中には,寿司,天ぷらなどがあり,これらは“日本料理”の同義語以外の関連語として文書中に含まれる。そこで,“日本料理”の関連語と“日本料理”の細分類の関係を見直すと,右上がり斜線の部分のようになる。なお,点線で囲まれた白地の部分は,当該関連語が対応する細分類には通常含まれないと考えられる部分である。
【0085】
これに対し,図16は,本発明を用いたジャンルのレベルの検索の場合を示している。ここでは,検索入力の「日本料理」に対応する対象分野<日本料理>の下位集合として,4つのカテゴリ因子,#日本料理一般,#寿司,#天ぷら,#その他,が存在するとしている。この場合,この4つのカテゴリ因子に対応する文書集合の集合和が,対象分野<日本料理>の文書集合に相当すると考えられる。図16から明らかなように,ここでは図14において検索されなかったユーザ意図に対応する部分が検索されており,望ましい検索結果が得られることが分かる。
【0086】
次に,図17〜図21に従って,「検索要求−カテゴリ因子対応」における「3)特徴語が対応するカテゴリ因子」の場合の例を説明する。
【0087】
図17は,従来の単語レベル検索において,検索式S=“エンドウ”を与えた場合である。検索結果の正解部分は,単語“エンドウ”を含む文書集合(市松模様部分)であるが,ユ―ザ意図は,これに“エンドウ”の同義語や関連語を含む文書集合(右上がり斜線部分)を加えたものであるから,図10や図13の場合と同様に検索もれは多い。
【0088】
図18は,従来の単語レベル検索において,さらに同義語展開を行って,検索式S=“エンドウ”or“グリーンピース”or“豌豆”…とした場合である。検索結果の正解部分は,単語“エンドウ”あるいは“グリーンピース”等を含む文書集合(市松模様部分)であり,図17の場合よりは正解部分が増えたものの,未だ検索もれが残っている。
【0089】
その上,単語“グリーンピース”には,地球環境を守るための非営利組織という他の意味もあるので,この意味における環境問題の文書は,ユーザ意図とは異なり,検索誤りのデータとなる。このように,同義語展開を行った結果に多義語が含まれていると,それは必ず検索誤り,すなわち,ゴミの情報の増加につながる。
【0090】
図19は,新たな検索行動をとったものを示しているわけではなく,図18の場合において,ユーザ意図の再認識を行ったものを示している。一般に,ユーザが最初に思い付いた語を入力として,検索を行った場合,その検索結果が返ってきた段階で,自分の検索意図以外の文書が含まれているのを見て,最初の検索入力語には自分の思い付いた以外の意味があったことに気付くことは,よくあることである。農業や園芸に携わっている人が“エンドウ”という語を入力するときには,農業の分野における“エンドウ”の話題(“エンドウ”の栽培法や,産業としての収益性など)が念頭にあるであろうし,レストランの調理師や,家庭の主婦にとっては料理の素材としての“エンドウ”が念頭にあり,検索行動を起こす際には他の可能性にまで気が回らない場合も多く想定される。
【0091】
この図19では,農業や園芸の関係者が検索行動を起こした場合のユーザ意図を,市松模様+右上がり斜線の部分で表している。図19から明らかなように,<料理>の分野としての“エンドウ”や,<環境問題>としての“グリーンピース”を含む文書集合は,検索誤り(ゴミ)となる。
【0092】
図20は,本発明を用いたジャンルのレベルの検索の場合を示している。「エンドウ」は,対象分野として選ぶには,概念が細か過ぎるので,通常,これにカテゴリ名やカテゴリ因子名がそのまま一致することはないと考えられる。この場合には,単語“エンドウ”を特徴語とするようなカテゴリ因子に相当する文書集合の範囲の中で考える。
【0093】
単語“エンドウ”を特徴語とするようなカテゴリ因子は,図20のように,#農業,#料理,#環境問題などが考えられるが,例えば,これらの候補を提示してユーザに選択させることが考えられる。この例では,ユーザ意図は<農業>の分野における“エンドウ”であるから,カテゴリ因子としては#農業が選択される。このままでは,図20のように,“エンドウ”に関係ない部分の<農業>分野の文書も検索結果に入るので,次の図21の例のように文字列検索の結果とのANDを取ることにより,ユーザ意図に近付ける。
【0094】
図21は,本発明を用いたジャンルのレベルの検索結果に単語レベルの検索結果との共通部分を取るために,AND処理をしたものを表している。すなわち,図18の正解部分と図20の正解部分の共通集合をとった結果の文書集合(市松模様の部分)を最終的な検索結果としている。
【0095】
これは,検索誤りがなく,検索もれも“エンドウ”の関連語に対応する部分のみとなり,軽減されている。
【0096】
次の図22〜図25も,「検索要求−カテゴリ因子対応」における「3)特徴語が対応するカテゴリ因子」の場合の例を示している。一点を除いて,前述した図17〜図21の例と全く同じである。
【0097】
前述した例では,単語レベルの通常の検索として,検索入力の単語が文書中に存在するか,存在しないかというディスクリート(離散的)な判定基準を用いているが,この例では,リリバンス・フィードバック(あるいは類似検索)などと呼ばれる,単語レベルの検索手法を用いており,指定した文書中の出現単語の共起性や,出現単語の頻度などにより重み付けされているので,図22や図23のように,検索結果の文書集合の境界が直線でなく,曲線になっている。なお,この曲線の形状は,指定した文書の出現単語の傾向に左右される。
【0098】
図24は,図20と同様に本発明を用いたジャンルのレベルの検索の場合を示している。また,図25は,本発明を用いたジャンルのレベルの検索結果に,図22に示す単語レベルの検索結果との共通部分を取るために,AND処理をしたものを表している。
【0099】
リリバンス・フィードバックは,関連語も重み付けの対象になるので,ジャンルレベルの検索と組み合わせれば,図25に示すように,検索結果の正解部分を,前述した図21の例の正解部分よりも広くできる可能性がある。もちろん,これはリリバンス・フィードバックにおいて最初に指定する文書に依存するので,ユーザ意図に近い文書を指定できるか,それとも,あまリユーザ意図に近くない文書を指定してしまうかにより,結果は良くも悪くもなり得る。
【0100】
【発明の効果】
以上により,本発明によれば,文書情報群にそれぞれ共通する情報要素としてのカテゴリ因子を媒介として,検索を行うことが可能となる。これにより,ユーザの検索要求を文字列や単語でなくジャンルのレベルで行うことが可能となり,従来の単語レベル検索よりもユーザの検索意図に近い文書群を得ることができ,情報の知識化に寄与するところが大きい。また,カテゴリ因子を媒介することにより,複数情報源の検索において,情報源ごとの語彙の違いを吸収することができるという効果が期待できる。
【図面の簡単な説明】
【図1】本発明の構成例を示すブロック図である。
【図2】文書ベース(新聞)のカテゴリ因子の例を示す図である。
【図3】カテゴリ因子インデクシング部の処理フローチャートである。
【図4】カテゴリ因子の抽出処理を示すフローチャートである。
【図5】文書分析とカテゴリ因子インデクシングを説明する図である。
【図6】統合カテゴリ因子インデックスの作成例を示す図である。
【図7】カテゴリ因子検索部の処理フローチャートである。
【図8】カテゴリ因子による検索の概要を示す図である。
【図9】カテゴリ因子による検索の例を示す図である。
【図10】従来技術による検索と本発明による検索の差異を説明するための図である。
【図11】従来技術による検索と本発明による検索の差異を説明するための図である。
【図12】従来技術による検索と本発明による検索の差異を説明するための図である。
【図13】従来技術による検索と本発明による検索の差異を説明するための図である。
【図14】従来技術による検索と本発明による検索の差異を説明するための図である。
【図15】従来技術による検索と本発明による検索の差異を説明するための図である。
【図16】従来技術による検索と本発明による検索の差異を説明するための図である。
【図17】従来技術による検索と本発明による検索の差異を説明するための図である。
【図18】従来技術による検索と本発明による検索の差異を説明するための図である。
【図19】従来技術による検索と本発明による検索の差異を説明するための図である。
【図20】従来技術による検索と本発明による検索の差異を説明するための図である。
【図21】従来技術による検索と本発明による検索の差異を説明するための図である。
【図22】従来技術による検索と本発明による検索の差異を説明するための図である。
【図23】従来技術による検索と本発明による検索の差異を説明するための図である。
【図24】従来技術による検索と本発明による検索の差異を説明するための図である。
【図25】従来技術による検索と本発明による検索の差異を説明するための図である。
【符号の説明】
1A,1B,… 文書ベース
11A,11B,… 文書
2 カテゴリ因子インデクシング部
3 カテゴリ因子インデックス格納部
31A,31B,… ローカルカテゴリ因子インデックス
32 統合カテゴリ因子インデックス
4 カテゴリ因子検索部
41 検索要求入力部
42 同義語集約処理部
43 カテゴリ因子インデックス参照部
44 対応文書検索部
45 検索結果出力部
Claims (1)
- コンピュータが,ユーザの検索要求に合致した文書情報を検索する情報検索方法において,
カテゴリ因子分解技術によって,文書ベース中の文書に出現する単語の出現確率分布から出現確率が高い単語を特徴語として抽出し,それらの特徴語を用いた主成分分析により,文書の主題分野または細分類を表す情報カテゴリを識別する弁別的素性であるカテゴリ因子を,各カテゴリ因子を一意に識別する因子IDと各カテゴリ因子に属する特徴語群と個々の特徴語に対する該カテゴリ因子への相関の強さを示す値の組として前記文書ベースから求め,
前記文書ベース中の各文書について,文書中に含まれる単語と前記カテゴリ因子に属する特徴語群の特徴語との適合度の大きい1または複数のカテゴリ因子を抽出し,抽出されたカテゴリ因子と前記各文書との対応情報を,前記文書ベースごとにインデックス化したローカルカテゴリ因子インデックスのテーブルを作成し,さらに複数の文書ベースに対して作成された複数の前記ローカルカテゴリ因子インデックスを統合した,前記ローカルカテゴリ因子インデックスにおけるカテゴリ因子と,それらの各カテゴリ因子に属する特徴語群との対応情報を保持する統合カテゴリ因子インデックスのテーブルを作成して,カテゴリ因子インデックス格納部に格納しておき,
ユーザが検索要求として入力した文字列から得られる検索文字列をキーとして,前記カテゴリ因子インデックス格納部に格納された前記統合カテゴリ因子インデックスのテーブルを参照し,前記検索文字列を特徴語として有するカテゴリ因子を選択し,そのカテゴリ因子に対応する前記カテゴリ因子インデックス格納部に格納された前記ローカルカテゴリ因子インデックスのテーブルから,該カテゴリ因子に対応付けられた文書を求めて検索結果とする
ことを特徴とするカテゴリ因子による情報検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP36669299A JP4426041B2 (ja) | 1999-12-24 | 1999-12-24 | カテゴリ因子による情報検索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP36669299A JP4426041B2 (ja) | 1999-12-24 | 1999-12-24 | カテゴリ因子による情報検索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001184358A JP2001184358A (ja) | 2001-07-06 |
JP4426041B2 true JP4426041B2 (ja) | 2010-03-03 |
Family
ID=18487422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP36669299A Expired - Fee Related JP4426041B2 (ja) | 1999-12-24 | 1999-12-24 | カテゴリ因子による情報検索方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4426041B2 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003076705A (ja) * | 2001-08-30 | 2003-03-14 | Nippon Yunishisu Kk | 情報処理装置およびその方法 |
JP2006065366A (ja) * | 2004-08-24 | 2006-03-09 | Nec Corp | キーワード分類装置およびその方法、端末装置ならびにプログラム |
JP2008529173A (ja) * | 2005-01-31 | 2008-07-31 | テキストディガー,インコーポレイテッド | 電子文書の意味検索および取り込みのための方法およびシステム |
JP2008537225A (ja) | 2005-04-11 | 2008-09-11 | テキストディガー,インコーポレイテッド | クエリについての検索システムおよび方法 |
JP2006318302A (ja) * | 2005-05-13 | 2006-11-24 | Omron Corp | データ作成装置 |
US8694530B2 (en) | 2006-01-03 | 2014-04-08 | Textdigger, Inc. | Search system with query refinement and search method |
WO2007114932A2 (en) | 2006-04-04 | 2007-10-11 | Textdigger, Inc. | Search system and method with text function tagging |
CN101546342B (zh) * | 2009-05-08 | 2012-07-04 | 阿里巴巴集团控股有限公司 | 实现搜索服务的方法与系统 |
JP5581857B2 (ja) * | 2010-07-07 | 2014-09-03 | 日本電気株式会社 | 情報検索装置、情報検索方法および情報検索プログラム |
KR101347123B1 (ko) * | 2012-04-17 | 2014-01-03 | 박석일 | 정보검색장치 및 정보검색방법, 컴퓨터 판독가능 기록매체 |
JP6639743B1 (ja) * | 2018-06-20 | 2020-02-05 | 楽天株式会社 | 検索システム、検索方法、及びプログラム |
JP7017531B2 (ja) * | 2019-02-12 | 2022-02-08 | Kddi株式会社 | リスク判定装置、リスク判定方法及びリスク判定プログラム |
-
1999
- 1999-12-24 JP JP36669299A patent/JP4426041B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001184358A (ja) | 2001-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8046368B2 (en) | Document retrieval system and document retrieval method | |
US8332439B2 (en) | Automatically generating a hierarchy of terms | |
US8108405B2 (en) | Refining a search space in response to user input | |
US7260570B2 (en) | Retrieving matching documents by queries in any national language | |
US8341159B2 (en) | Creating taxonomies and training data for document categorization | |
US8543380B2 (en) | Determining a document specificity | |
US20040049499A1 (en) | Document retrieval system and question answering system | |
Lin et al. | An integrated approach to extracting ontological structures from folksonomies | |
US20050021545A1 (en) | Very-large-scale automatic categorizer for Web content | |
US20080133479A1 (en) | Method and system for information retrieval with clustering | |
EP2715474A1 (en) | Semiotic indexing of digital resources | |
EP1508105A2 (en) | System and method for automatically discovering a hierarchy of concepts from a corpus of documents | |
Noaman et al. | Naive Bayes classifier based Arabic document categorization | |
KR20070089449A (ko) | 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체. | |
EP2045732A2 (en) | Determining the depths of words and documents | |
JP4426041B2 (ja) | カテゴリ因子による情報検索方法 | |
AlMahmoud et al. | A modified bond energy algorithm with fuzzy merging and its application to Arabic text document clustering | |
Wu et al. | Searching online book documents and analyzing book citations | |
CN109213830B (zh) | 专业性技术文档的文档检索系统 | |
Ramani et al. | An Explorative Study on Extractive Text Summarization through k-means, LSA, and TextRank | |
CN112949287B (zh) | 热词挖掘方法、系统、计算机设备和存储介质 | |
JP5679400B2 (ja) | カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
Ramachandran et al. | Document Clustering Using Keyword Extraction | |
KR100952077B1 (ko) | 키워드를 이용한 표제어 선정 장치 및 방법 | |
Sati et al. | Arabic text question answering from an answer retrieval point of view: A survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090529 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090609 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090810 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20090810 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20090810 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090908 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091106 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091208 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091210 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121218 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121218 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131218 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |