JP4426041B2

JP4426041B2 - カテゴリ因子による情報検索方法

Info

Publication number: JP4426041B2
Application number: JP36669299A
Authority: JP
Inventors: 忠星合
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1999-12-24
Filing date: 1999-12-24
Publication date: 2010-03-03
Anticipated expiration: 2019-12-24
Also published as: JP2001184358A

Description

【０００１】
【発明の属する技術分野】
本発明は，電子化文書に関する情報利用技術（検索，分類，特徴語抽出等）に係り，特に検索のもれが少なく，かつ検索結果の高精度な絞り込みを可能としたカテゴリ因子による情報検索装置，情報検索方法およびそのプログラム記録媒体に関する。
【０００２】
【従来の技術】
インターネットの普及や電子化文書の普及に伴い，情報検索技術や文書の自動分類などの情報利用技術が進展してきている。これに伴い，企業が保有する文書資産，情報資産やインターネット上で公開されている文書資産，情報資産をさらに深いレベルで活用したいという要求が高まっている。このためには，情報検索技術や文書の自動分類等の情報利用技術の一層の進展が望まれる。
【０００３】
従来の情報検索では，主に単語または文字列を検索キーとして，それに一致する単語または文字列を含む文書情報を検索するのが一般的であった。この検索において，検索文字列を同義語（または類義語）にまで拡張して検索するものはあったが，単語レベルの検索であることには変わりなく，ジャンル（文書の主題分野）のレベルで，検索対象の効果的な絞り込みを高精度で行うシステムは用いられていない。
【０００４】
【発明が解決しようとする課題】
現在の情報検索技術や自動分類技術では適合率や分類精度の低さが問題であり，例えば検索結果をもとに再検索する場合の絞り込みの支援などの必要性が高まってきている。検索結果の絞り込みにあたって，追加のキーワードの侯補を示すことによる検索支援技術が必要である。
【０００５】
また，情報利用機能として，情報検索ツールや自動分類ツール，特徴語抽出ツールなど，個別のアプリケーションになっている場合が多く，情報利用の統合的アプローチとして，検索や分類等に共通の統計的特徴量を基盤とするオントロジー的特徴語ベースヘの発展の可能性を探る必要があると考えられる。
【０００６】
さらに，情報利用にあたり，文字列レベル／形態素レベルの統計処理にとどまらず，対象領域に関する情報内容のレベルで処理するための要約技術，機械学習，テキストデータマイニングなどの知識獲得関連技術が盛んになり，自然言語処理技術も要求されるようになってきており，知識処理，文脈処理のための文脈同定，対話状況認識のための基礎技術を探ることも重要である。
【０００７】
これらの技術の課題は，文字列レベルの情報利用技術と，理想である意味レベルの情報利用技術の間のギャップに関連すると考えられるが，本発明では，その中間レベルとして文書の主題分野としての分類カテゴリやカテゴリ因子のレベルでの情報利用技術に着目している。
【０００８】
具体例に従って，従来の文字列・単語レベルの検索技術の問題点を説明すると以下のとおりである。例えば，ユーザが「＜数式＞に関連する分野の文書」を検索したかったとする。ユーザが意図するこれらの文書には，“数式”の同義語である“式”や“計算式”，あるいは同義語以外の関連語が含まれると想定される。しかし，単語“数式”を含む文書のみを検索結果とする従来の検索システムでは，“計算式”を含む文書は検索されないので，検索もれが生じてしまう。
【０００９】
また，従来，検索キーについて同義語展開を行うシステムもあるが，従来の同義語展開を行う検索システムでは，“数式”の同義語である“式”や“計算式”を含むすべての文書を検索結果の候補とする。ところが，単語“式”は多義語であり，“数式”という意味以外に“儀式”という意味も内包しているので，本来の目的以外の文書も検索結果に含んでしまうことになり，いわゆるゴミと呼ばれる検索結果の誤り部分が多くなってしまう。
【００１０】
また，例えばユーザが「＜日本料理＞に関連する分野の文書」の検索を意図した場合，文字列“日本料理”を検索キーとして入力すると，従来の単語レベルの検索では，単語“日本料理”を含む文書，またはそれらの文書と，単語“日本料理”を同義語展開して得られた単語“和食”を含む文書を検索結果とする。したがって，従来の技術では，単語“日本料理”と同義語ではない“寿司”，“天ぷら”というような単語を含む文書は検索されないことになる。しかし，ユーザの検索意図として，“寿司”，“天ぷら”などを含む文書についても検索したい場合があり，このような場合には，検索もれが生じてしまうことになった。
【００１１】
本発明は上記問題点の解決を図り，ユーザが意図したジャンル（文書の主題分野）レベルの検索を可能とし，検索もれも検索誤りも少ない検索手段を提供することを目的とする。
【００１２】
【課題を解決するための手段】
文書情報の自動分類や検索などの統計的アプローチにおいては，文書内容の対象分野（情報カテゴリ）の語彙の統計的特性を利用している。例えば，検索は語と文書（群）との相関，分類はカテゴリと語の相関，語のクラスタリングは語と語の相関を分析対象とした技術である。本発明では，さらに，カテゴリとカテゴリ因子の相関や，カテゴリ因子と語の相関を分析対象に加えたことが特徴であり，検索要求とカテゴリ因子の相関，文書とカテゴリ因子の相関などを用いることにより，検索要求と文書との相関を求める媒介的な役割をカテゴリ因子に意図している。
【００１３】
ここでカテゴリ因子とは，文書の主題分野あるいはその細分類を表す様々な情報カテゴリを識別するための弁別的素性を意図しているが，計算可能な範囲で実現する。
【００１４】
本発明では，このジャンルのレベルの検索手段として，関連する発明（特願平ｌｌ−４９５０１号「文書処理装置及びそのプログラム記憶媒体」）によるカテゴリ因子分解技術を利用して，文章に含まれるカテゴリ因子を抽出する。また，カテゴリ因子と相関の強い特徴語リストとその相関の強さを用いて，検索要求に対して語を割り当てる。
【００１５】
以上の点に鑑み，本発明は，コンピュータが，ユーザの検索要求に合致した文書情報を検索する情報検索方法において，カテゴリ因子分解技術によって，文書ベース中の文書に出現する単語の出現確率分布から出現確率が高い単語を特徴語として抽出し，それらの特徴語を用いた主成分分析により，文書の主題分野または細分類を表す情報カテゴリを識別する弁別的素性であるカテゴリ因子を，各カテゴリ因子を一意に識別する因子ＩＤと各カテゴリ因子に属する特徴語群と個々の特徴語に対する該カテゴリ因子への相関の強さを示す値の組として前記文書ベースから求め，前記文書ベース中の各文書について，文書中に含まれる単語と前記カテゴリ因子に属する特徴語群の特徴語との適合度の大きい１または複数のカテゴリ因子を抽出し，抽出されたカテゴリ因子と前記各文書との対応情報を，前記文書ベースごとにインデックス化したローカルカテゴリ因子インデックスのテーブルを作成し，さらに複数の文書ベースに対して作成された複数の前記ローカルカテゴリ因子インデックスを統合した，前記ローカルカテゴリ因子インデックスにおけるカテゴリ因子と，それらの各カテゴリ因子に属する特徴語群との対応情報を保持する統合カテゴリ因子インデックスのテーブルを作成して，カテゴリ因子インデックス格納部に格納しておき，ユーザが検索要求として入力した文字列から得られる検索文字列をキーとして，前記カテゴリ因子インデックス格納部に格納された前記統合カテゴリ因子インデックスのテーブルを参照し，前記検索文字列を特徴語として有するカテゴリ因子を選択し，そのカテゴリ因子に対応する前記カテゴリ因子インデックス格納部に格納された前記ローカルカテゴリ因子インデックスのテーブルから，該カテゴリ因子に対応付けられた文書を求めて検索結果とすることを特徴とする。
【００１６】
前記カテゴリ因子は，入力文書の形態素解析結果に基づいて文書中の各単語の出現確率を求め，該文書に特徴的に出現する単語を特徴語として抽出し，抽出した特徴語に基づいて特徴語相関行列を求め，前記特徴語および前記特徴語相関行列に基づいて主成分分析を行い，主成分の各々に対応する特徴語の群と主成分の各々との相関の強さを用いて，特徴語の群の多い主成分を選択し，それを主成分因子とし，主成分因子との相関が高い特徴語を選択して因子特徴語とし，主成分因子と因子特徴語とからなるものとして抽出することができる。
【００１９】
以上の各処理手段をコンピュータによって実現するためのプログラムは，コンピュータが読み取り可能な可搬媒体メモリ，半導体メモリ，ハードディスクなどの適当な記録媒体に格納することができる。
【００２０】
【発明の実施の形態】
図１は，本発明の構成例を示すブロック図である。図中，１Ａ，１Ｂ，…は，例えばそれぞれ新聞，雑誌，学会論文，…というような同種の文書群からなる文書ベースであり，個々の新聞，記事，論文などの電子化（コード化）された文書１１Ａ，１１Ｂ，…を備える。カテゴリ因子インデクシング部２は，これらの文書ベース１Ａ，１Ｂ，…からカテゴリ因子インデックスを作成するものである。文書ベースは，必ずしも複数ある必要はない。
【００２１】
文書ベースが複数ある場合，カテゴリ因子インデックスとして，個々の文書ベース１１Ａ，１１Ｂ，…に対応して作成されるローカルカテゴリ因子インデックス３１Ａ，３１Ｂ，…と，これらのローカルなインデックスを統合した統合カテゴリ因子インデックス３２とが設けられる。これらは，コンピュータが読み取り可能なカテゴリ因子インデックス格納部３に格納される。文書ベースが一つだけの場合には，そのローカルなカテゴリ因子インデックスだけが使用される。
【００２２】
カテゴリ因子検索部４は，カテゴリ因子インデクシング部２によって文書ベース１Ａ，１Ｂ，…中に特徴的に出現する主題分野あるいはその細分類として統計的に求められたカテゴリ因子を媒介として文書検索を行うものであり，ユーザからの検索要求を入力し処理する検索要求入力部４１，同義語辞書５を用いて検索入力に含まれる語を１つの同義語のエントリに集約する同義語集約処理部４２，統合カテゴリ因子インデックスおよびローカルカテゴリ因子インデックスを参照して検索要求に対応するカテゴリ因子を求めるカテゴリ因子インデックス参照部４３，求めたカテゴリ因子から関連の強い文書を検索する対応文書検索部４４および文書とカテゴリ因子との適合度に応じて検索結果をソートし出力する検索結果出力部４５を備える。
【００２３】
カテゴリ因子インデクシング部２とカテゴリ因子検索部４とは，コンピュータとそれを動作させるソフトウェア・プログラムとによって実現される。
【００２４】
図２は，本発明で用いるカテゴリ因子を説明する図であって，特に文書ベースが新聞であるときのカテゴリ因子の例を示している。図中，（ａ）はカテゴリ因子を分類する分類名であるカテゴリ名，（ｂ）は各カテゴリ因子に一意に付与される識別子である因子ＩＤ，（ｃ）は各カテゴリ因子に対して付与されたカテゴリ因子名称，（ｄ）は各カテゴリ因子に関連の強い特徴語の集合である。
【００２５】
ここでいうカテゴリとは，その文書（情報）が属する分類であり，例えば新聞記事というカテゴリ内において，「政治」，「経済」等のカテゴリが存在し，「政治」というカテゴリ内において「選挙」，「外交」等のカテゴリが存在する。すなわち，カテゴリとは分類（分類した結果または分類した結果に則した入れ物）の意味である。カテゴリには階層が存在する。カテゴリ因子とは，カテゴリ内において更に細分類したカテゴリをいい，上位のカテゴリから見た場合における下位のカテゴリを指す。カテゴリ因子による文書の処理は，単語レベルと意味レベルとの中間に位置する処理と言える。
【００２６】
カテゴリ因子名称は，必要に応じて，そのカテゴリ因子に属する特徴語の群を参照し人間が付与する。すなわち，カテゴリ因子インデクシング部２は，文書群からカテゴリ因子を抽出すると，それに強く関連する特徴語を表示し，カテゴリ因子名称の入力を促す。ここで入力された名前が，カテゴリ因子名称として登録される。なお，カテゴリ因子名称は，省略することも可能である。
【００２７】
以下，図１に示す装置の詳細について説明する。
【００２８】
（１）ジャンルのレベルの検索の概要
本発明では，カテゴリ因子をもとにして，同じ主題分野の文書群を規定し，検索に利用する。
【００２９】
カテゴリ因子インデクシング部２は，予め，詳しくは後述するカテゴリ因子分解技術により，対象とする文書ベース１Ａ，１Ｂ，…からカテゴリ因子を抽出しておく。さらに，個々の文書１１Ａ，１１Ｂ，…から相関の大きいカテゴリ因子を抽出した文書分析表を作成する。次に，文書分析表の逆関係であるカテゴリ因子のインデックステーブルを作成する。文書ベースが複数個ある場合には，各文書ベースを統合したインデックステーブルを作成する。この場合，個々の文書ベース（１Ａ，１Ｂ）におけるインデックステーブルをローカルカテゴリ因子インデックス（３１Ａ，３１Ｂ）と呼び，これらを統合したインデックステーブルを統合カテゴリ因子インデックス（３２）と呼ぶ。
【００３０】
これらをもとにして，カテゴリ因子検索部４は，ユーザの検索入力に対し，同義語集約処理，カテゴリ因子との関連付け，カテゴリ因子インデックスの表引きにより，対応するカテゴリ（カテゴリ因子）の文書を検索する。
【００３１】
（２）カテゴリ因子インデクシング部２の処理
図３に，カテゴリ因子インデクシング部２の処理フローを示す。カテゴリ因子インデクシング部２は，カテゴリ因子分解技術により得た各カテゴリ因子の特徴量を用いて，文書ベース中の各文書と関連の強いカテゴリ因子を抽出する（図３のＳ１，Ｓ２）。このカテゴリ因子の抽出では，例えば特願平ｌｌ−４９５０１号「文書処理装置及びそのプログラム記憶媒体」に開示されている技術を用いる。以下に，このカテゴリ因子の抽出処理（カテゴリ因子分解処理）について説明する。
【００３２】
図４は，カテゴリ因子の抽出処理を示すフローチャートである。まず，検索対象となる文書を入力する（ステップＳ１１）。次に，入力した文書について，単語辞書（図示省略）を用いて形態素解析を行い，この結果に基づいて各単語の出現頻度を求め，それから単語の出現確率を求める（ステップＳ１２）。求めた単語の出現確率に基づいて，当該文書に特徴的に出現する単語を特徴語として抽出する（ステップＳ１３）。
【００３３】
次に，抽出した特徴語に基づいてあらかじめ特徴語相関行列を求め，さらに特徴語および特徴語相関行列に基づいて主成分分析を行うことにより，主成分係数を求める（ステップＳ１４）。この主成分分析では，例えば特開平１０−１１１８６９号公報に開示されている方法を用いることができる。
【００３４】
次に，求めた主成分係数と特徴語とを用い，特徴語の出現傾向を表す座標系に基づいて主成分の各々に対応する特徴語の群を求め，当該特徴語の群と主成分の各々との相関の強さを用いて，特徴語の群の多い主成分を選択し，それを主成分因子とし，主成分因子との相関が高い特徴語を選択して因子特徴語とし，主成分因子と因子特徴語とからなるカテゴリ因子を抽出する（ステップＳ１５）。
【００３５】
さらに，分解された複数の主成分からなるカテゴリ因子について，当該複数の主成分の各々とこれらに対応する特徴語の群との相関の強さを用いて，当該カテゴリ因子を１または複数の主成分からなるクラスタに分解する（ステップＳ１６）。すなわち，特徴語相関行列から特徴語対の相関の大きい順にグルーピングを行い，クラスタを成長させる。
【００３６】
最後に，複数の主成分からなるカテゴリ因子またはクラスタにおける重複する主成分を除去し，冗長部分の簡略化を行う（ステップＳ１７）。
【００３７】
以上の処理により求めたカテゴリ因子を用いて，各文書と関連するカテゴリ因子の関係をインデックス化し，検索時にそのインデックスファイルを参照することにより，検索処理を高速化することを可能にする。
【００３８】
（３）文書ベース内のカテゴリ因子の対応付け，統合
図３に示すステップＳ１の詳細について説明する。対象となる文書ベースに対して，前記カテゴリ因子分解技術を適用すると，当該文書ベースに対する代表的なカテゴリ因子が抽出される。
【００３９】
次に，文書ベース内の分類カテゴリ間でカテゴリ因子を比較し，類似度の大きい因子同士を１本化する。すなわち，文書ベース内のカテゴリ因子の対応付けを行う。類似度としては，ユークリッド距離，マハラノビスの距離，コサイン距離などを用いればよい。
【００４０】
ある文書ベース（Ａで表す）において，元のカテゴリ因子＃ｊ₁と＃ｊ₂とが対応付けられたとき，これらの対応する因子をマージしたカテゴリ因子＃ｍに関して，＃ｍの因子ＩＤと，＃ｍの文書頻度と，＃ｍの特徴語ｗ_iの重み付けと，マージ後のカテゴリ因子を定める。
【００４１】
＃ｍの因子ＩＤ：文書ベースＡにおける最大の因子ＩＤ＋１
＃ｍの文書頻度
【００４２】
【数１】

【００４３】
＃ｍの特徴語ｗ_iの重み付け
【００４４】
【数２】

【００４５】
（４）文書からのカテゴリ因子の抽出（文書分析表の作成）
次に，図３に示すステップＳ２の詳細について説明する。図５は，文書分析とカテゴリ因子インデクシングを説明する図である。カテゴリ因子分解や文書ベース内でのカテゴリ因子対応付けのときに得た各種分析パラメータを利用して，個々の文書Ｄ_kとカテゴリ因子＃ｊとの相関を計算する。Ｚ_j ^(k)を文書Ｄ_kの主成分得点寄与分とすると，Ｚ_j ^(k)は，以下の式で求められる。
【００４６】
【数３】

【００４７】
ここで，文書Ｄ_kに含まれるカテゴリ因子＃ｊの集合Ｊ（ｋ）は，適当な閾値λ（≧０）を用いて，
Ｊ（ｋ）＝｛＃ｊ｜ｚ_j ^(k)＞λ｝
となる。
【００４８】
この結果，図５にあるような文書分析表３３が得られる。文書分析表３３は，各文書を識別する文書ＩＤごとに，その文書に関連の強いカテゴリ因子と，そのカテゴリ因子の文書への適合度の情報を持つ。文書ＩＤ＝１の文書を例に説明すると，文書分析表３３では，文書ＩＤ＝１の文書は，因子ＩＤ＝＃１〔カテゴリ因子名称＝ＣＴＢＴ（核実験全面禁止条約）〕のカテゴリ因子に適合度＝０．５５４の大きさで関連し，因子ＩＤ＝＃３〔カテゴリ因子名称＝ＩＡＥＡ（原子力委員会）〕のカテゴリ因子に適合度＝０．７１８の大きさで関連していることが示されている。
【００４９】
以上のように，カテゴリ因子分解技術により抽出した各カテゴリ因子の特徴量を用いて，文書ベース中の個々の文書と関連の強いカテゴリ因子が抽出され，図５に示すような文書分析表３３が文書ベースごとに作成される。
【００５０】
（５）ローカルなカテゴリ因子インデックスのテーブル作成
図３に示すステップＳ３では，以下に説明する処理を行う。上記文書からのカテゴリ因子の抽出結果をもとにして，各カテゴリ因子に対応する全ての文書のＩＤ番号を列挙したインデックスのテーブルを作成する。すなわち，ステップＳ２で作成した文書分析表３３から，図５に示すカテゴリ因子インデックス３１を作成する。これを用いて特定のローカルなカテゴリ因子のＩＤ番号（因子ＩＤ）から，関連の深い文書のＩＤ番号（文書ＩＤ）を高速に検索することができる。
【００５１】
（６）統合カテゴリ因子インデックスのテーブル作成
次に，図３に示すステップＳ４では，以下のように統合カテゴリ因子インデックス（統合オントロジー）を作成する。
【００５２】
複数の文書ベースにおいて，対応するカテゴリ因子を１つのエントリとし，独立なカテゴリ因子はそのまま１つのエントリとしてマージすることにより，統合オントロジーを作成する。統合オントロジーにおける因子ＩＤ番号と，各文書ベースの因子ＩＤは互いに参照できるようにそれぞれ参照テーブルを作成しておく。
【００５３】
文書ベースＡ，Ｂ，…において，元のカテゴリ因子＃ｊ^A，＃ｊ^B，…がカテゴリ因子対応付けにより対応付けられたとき，これらの対応する因子をマージした統合カテゴリ因子＃ｎに関して，次のように統合カテゴリ因子を定める（図５）。
【００５４】
＃ｎの因子ＩＤ：統合因子における最大の因子ＩＤ＋１
＃ｎの文書頻度
【００５５】
【数４】

【００５６】
＃ｎの特徴語ｗ_iの重み付け
【００５７】
【数５】

【００５８】
図６に，統合カテゴリ因子インデックスの作成例を示す。図６の例では，原子力白書の文書ベースから作成したローカルカテゴリ因子インデックス３１Ａと，○○新聞の文書ベースから作成したローカルカテゴリ因子インデックス３１Ｂとから，これらを統合した統合カテゴリ因子インデックス３２を作成している。統合カテゴリ因子インデックス３２におけるローカル因子ＩＤは，文書ベースの番号と，その文書ベースにおける因子ＩＤの組で表される。例えば，「２＃１４」は，第２の文書ベースにおける因子ＩＤが＃１４のカテゴリ因子を表している。この例では，「ＮＰＴ」のカテゴリ因子は，原子力白書および○○新聞の文書ベースの双方にあり，原子力白書の文書ベースでは因子ＩＤが＃２のカテゴリ因子，○○新聞の文書ベースでは因子ＩＤが＃３６のカテゴリ因子となっていることがわかる。
【００５９】
（７）特徴語統合インデックスの作成
図３に示すステップＳ５では，統合カテゴリ因子と相関の強い特徴語リストを利用して，その逆関係から特徴語インデックスのテーブルである特徴語統合インデックス（図示省略）を作成する。これは，各特徴語を見出しとして，当該特徴語と関連の強いカテゴリ因子のＩＤ番号を値とするテーブルである。また，カテゴリ因子と特徴語の相関度もテーブルに格納する。この特徴語統合インデックスは，実質的には統合カテゴリ因子インデックス３２と同様な情報を持つものであるため，特徴語による高速な検索を必要としない場合には，作成しなくてもよい。
【００６０】
以上がカテゴリ因子インデクシング部２の処理である。
【００６１】
（８）検索要求処理
カテゴリ因子検索部４は，カテゴリ因子インデクシング部２によって作成された統合オントロジーに基づいて，ユーザからの検索要求を処理する。オントロジーによる検索要求処理は，大別して，入力処理，同義語集約処理，検索要求−因子対応処理，統合カテゴリ因子処理，ローカルカテゴリ因子処理からなる。
【００６２】
検索要求−カテゴリ因子対応としては，
１）特定のカテゴリ因子名称と一致，
２）特定のカテゴリ名と一致 → 子のカテゴリ因子，
３）特徴語が対応するカテゴリ因子，
４）特徴語が対応するカテゴリ因子の兄弟因子，
があり，優先順位は，１）が最も高く，続いて，２），３），４）の順に低くなる。検索では，順位が高い方を優先する。例えば，検索文字列が特定のカテゴリ名と一致した場合，そのカテゴリに属するすべてのカテゴリ因子との対応がとれたものとして扱う。
【００６３】
ユーザから検索文字列を受け取ると，検索文字列をキーとして，特徴語統合インデックスを参照し，対応する文書のＩＤ番号を得る。
【００６４】
図７は，カテゴリ因子検索部４の処理フローチャートである。また，図８は，カテゴリ因子による検索の概要を示す。以下，これらの図に従って，カテゴリ因子検索部４の処理を詳細に説明する。
【００６５】
（９）ユーザの検索入力処理（図７のステップＳ２１）
ユーザの入力した文字列を，ユーザインタフェースモジュールから検索要求として受け取り，処理する。入力文字列は，区切り文字（半角および全角の空白文字）によって区切られた検索文字列とする。また，論理式の入力の場合には，論理記号のスコープに注意して処理する。
【００６６】
（１０）同義語集約処理（図７のステップＳ２２）
同義語を１つのエントリーに集約するため，同義語集約処理を行う。検索入力の中に同義語辞書５に登録された語があれば，それらを同義代表語に置き換えて代表させ，１つのエントリーに集約する（図８参照）。
【００６７】
（１１）統合カテゴリ因子インデックスの参照（図７のステップＳ２３）
検索文字列をキーとして，統合カテゴリ因子インデックス３２または特徴語統合インデックスのテーブルを参照し，統合オントロジーにおける因子ＩＤ番号を引く。検索文字列がカテゴリ因子名称またはカテゴリ名と一致するようなカテゴリ因子，あるいは検索文字列を特徴語とするようなカテゴリ因子を見つける。検索文字列Ｓとカテゴリ因子＃ｊとの関連度ｒ（＃ｊ，Ｓ）を統合カテゴリ因子インデックス３２または特徴語統合インデックスから得る。
【００６８】
（１２）ローカルカテゴリ因子インデックスの参照（図７のステップＳ２４）さらに，この統合カテゴリ因子の因子ＩＤ番号（統合因子ＩＤ）をもとにして，各文書ベースにおいて対応するローカルなカテゴリ因子のＩＤ番号（ローカル因子ＩＤ）を得る。次に，ローカル因子ＩＤをもとに，選択したカテゴリ因子に対応する文書Ｄ_kのＩＤ番号（文書ＩＤ）を，該当するローカルカテゴリ因子インデックスから得る。
【００６９】
（１３）対応文書の検索（図７のステップＳ２５）
選択したカテゴリ因子に対応する文書Ｄ_kのＩＤ番号（文書ＩＤ）を，該当するローカルカテゴリ因子インデックスから求めたならば，その文書Ｄ_kに対する主成分得点寄与分を，Ｚ（Ｄ_k，＃ｊ）とする。
【００７０】
（１４）検索結果ランキングおよび出力（図７のステップＳ２６，Ｓ２７）
各検索結果の文書に対して，その主成分得点寄与分と，検索文字列Ｓとカテゴリ因子＃ｊとの関連度との積〔Ｚ（Ｄ_k，＃ｊ）×ｒ（＃ｊ，Ｓ）〕を計算し，この値の大きい順に検索結果の文書をソートし，表示する。
【００７１】
図９に，カテゴリ因子による検索の例を示す。検索要求の検索キーとして，例えば「グリーンピース」の検索文字列が入力されたとする。これに対して，図７に示す手順に従って検索処理が実行され，検索結果のランキングが行われると，その結果が，例えば図９に表示画面１６として示すように表示される。これをもとに，検索者であるユーザは，ジャンル表示，文書内容表示，ジャンル文脈表示などの指示を行い，必要な情報を容易に入手することができる。
【００７２】
次に，従来技術による文字列・単語レベルの検索と，本発明によるジャンルのレベルの検索との違いを，具体的な検索結果を比較することによって説明する。図１０〜図２５は，文字列・単語レベルの検索とジャンルのレベルの検索の差異を示すため，それぞれの検索結果の文書集合の違い，また，ユーザの検索意図との違いを図示したものである。これらの図では，上記（８）の検索要求処理における「検索要求−カテゴリ因子対応」の内の３つの場合分け［１）特定のカテゴリ因子名称と一致，２）特定のカテゴリ名と一致，３）特徴語が対応するカテゴリ因子］について，図示した。また，４）特徴語が対応するカテゴリ因子の兄弟因子に関しては，３）と同じ考え方でよいので省略した。
【００７３】
最初に，図１０〜図１２に示す例に従って，「検索要求−カテゴリ因子対応」における「１）特定のカテゴリ因子名称と一致」の場合を説明する。図１０および図１１が単語レベルの検索を表しており，図１２が本発明によるジャンルレベルの検索を表している。
【００７４】
図１０は，単語検索において，入力する検索式として，“数式”という単語が与えられた場合を想定している。単語検索では，入力された単語“数式”を含むようなすべての文書を検索結果として得ることになる。これに相当する文書集合は，図１０において市松模様で示す部分であり，検索結果として正解になっている。
【００７５】
しかし，右上がり斜線の部分は，意味としては同じく＜数式＞の分野の文書であるものの，単語“数式”が含まれない文書であり，検索結果から漏れてしまっている。すなわち，この斜線部分は，検索もれの部分である。これらの文書中には，単語“数式”ではなく，“数式”の同義語である“式”や“計算式”，あるいは同義語以外の関連語が含まれると想定される。
【００７６】
ユーザの本来の検索意図は，「単語“数式”を含む文書」ではなく，「＜数式＞に関連する分野の文書」である。すなわち，図中の市松模様の部分と右上がりの斜線部分との和集合である。このことから，図１０の単語検索では，検索もれの部分が大きく，問題がある。
【００７７】
また，図１１は，従来技術による検索であって，検索もれを防ぐ一般的な手段である同義語展開を行った場合を示している。この場合には，単語“数式”の同義語である“式”や“計算式”などを用いて，同義語をｏｒで結んだものを検索式としている。これにより，図１１では，同義語の分だけ検索結果の正解部分が広がっている。
【００７８】
しかし，単語“式”はいわゆる多義語であり，“数式”という意味以外に“儀式”という意味も内包しているので，本来の目的（ユーザ意図）以外の文書も検索結果に含んでしまう。これが検索結果の誤り部分（いわゆるゴミ）である。
【００７９】
また，同義語展開では，当然ながら同義語以外の関連語（関数，同値変形など）を使って記述された文書を検索することはできない。
【００８０】
これに対し，図１２は，本発明を用いたジャンルのレベルの検索の場合を示している。例えば，対象分野としての＜数式＞に対してカテゴリ因子の「＃数式」がほぼ対応する場合には，文書集合もほぼ等しくなる。この場合には，ユーザ意図の文書集合と，ジャンルレベルの検索結果がほぼ対応する。この図１２から，本発明によるジャンルレベルの検索を行えば，図１０や図１１の場合と比べて，検索もれも，検索誤りも減少させることができることが明らかである。
【００８１】
次に，図１３〜図１６に従って，「検索要求−カテゴリ因子対応」における「２）特定のカテゴリ名と一致」の場合の例を説明する。
【００８２】
図１３は，従来の単語レベル検索において，検索式Ｓ＝“日本料理”を与えた場合である。検索結果の正解部分は，単語“日本料理”を含む文書集合（市松模様部分）であり，ユーザ意図は，これに“日本料理”の同義語や関連語を含む文書集合（右上がり斜線部分）を加えたものである。したがって，図１０と同様に検索もれは多い。
【００８３】
図１４は，従来の単語レベル検索において，さらに同義語展開を行って，検索式Ｓ＝“日本料理”ｏｒ“和食”とした場合を表している。検索結果の正解部分は，単語“日本料理”あるいは“和食”を含む文書集合（市松模様部分）であり，図１３の場合よりは正解部分が増えたものの，ユーザが意図する部分について未だ検索もれが多い。
【００８４】
図１５は，新たな検索行動をとったものを示しているわけではなく，図１４の精密化を行ったものを示している。＜日本料理＞という分野は広いので，図１４の検索結果の細分類を考えることができる。例えば，＜日本料理＞の分野の中には，寿司，天ぷらなどがあり，これらは“日本料理”の同義語以外の関連語として文書中に含まれる。そこで，“日本料理”の関連語と“日本料理”の細分類の関係を見直すと，右上がり斜線の部分のようになる。なお，点線で囲まれた白地の部分は，当該関連語が対応する細分類には通常含まれないと考えられる部分である。
【００８５】
これに対し，図１６は，本発明を用いたジャンルのレベルの検索の場合を示している。ここでは，検索入力の「日本料理」に対応する対象分野＜日本料理＞の下位集合として，４つのカテゴリ因子，＃日本料理一般，＃寿司，＃天ぷら，＃その他，が存在するとしている。この場合，この４つのカテゴリ因子に対応する文書集合の集合和が，対象分野＜日本料理＞の文書集合に相当すると考えられる。図１６から明らかなように，ここでは図１４において検索されなかったユーザ意図に対応する部分が検索されており，望ましい検索結果が得られることが分かる。
【００８６】
次に，図１７〜図２１に従って，「検索要求−カテゴリ因子対応」における「３）特徴語が対応するカテゴリ因子」の場合の例を説明する。
【００８７】
図１７は，従来の単語レベル検索において，検索式Ｓ＝“エンドウ”を与えた場合である。検索結果の正解部分は，単語“エンドウ”を含む文書集合（市松模様部分）であるが，ユ―ザ意図は，これに“エンドウ”の同義語や関連語を含む文書集合（右上がり斜線部分）を加えたものであるから，図１０や図１３の場合と同様に検索もれは多い。
【００８８】
図１８は，従来の単語レベル検索において，さらに同義語展開を行って，検索式Ｓ＝“エンドウ”ｏｒ“グリーンピース”ｏｒ“豌豆”…とした場合である。検索結果の正解部分は，単語“エンドウ”あるいは“グリーンピース”等を含む文書集合（市松模様部分）であり，図１７の場合よりは正解部分が増えたものの，未だ検索もれが残っている。
【００８９】
その上，単語“グリーンピース”には，地球環境を守るための非営利組織という他の意味もあるので，この意味における環境問題の文書は，ユーザ意図とは異なり，検索誤りのデータとなる。このように，同義語展開を行った結果に多義語が含まれていると，それは必ず検索誤り，すなわち，ゴミの情報の増加につながる。
【００９０】
図１９は，新たな検索行動をとったものを示しているわけではなく，図１８の場合において，ユーザ意図の再認識を行ったものを示している。一般に，ユーザが最初に思い付いた語を入力として，検索を行った場合，その検索結果が返ってきた段階で，自分の検索意図以外の文書が含まれているのを見て，最初の検索入力語には自分の思い付いた以外の意味があったことに気付くことは，よくあることである。農業や園芸に携わっている人が“エンドウ”という語を入力するときには，農業の分野における“エンドウ”の話題（“エンドウ”の栽培法や，産業としての収益性など）が念頭にあるであろうし，レストランの調理師や，家庭の主婦にとっては料理の素材としての“エンドウ”が念頭にあり，検索行動を起こす際には他の可能性にまで気が回らない場合も多く想定される。
【００９１】
この図１９では，農業や園芸の関係者が検索行動を起こした場合のユーザ意図を，市松模様＋右上がり斜線の部分で表している。図１９から明らかなように，＜料理＞の分野としての“エンドウ”や，＜環境問題＞としての“グリーンピース”を含む文書集合は，検索誤り（ゴミ）となる。
【００９２】
図２０は，本発明を用いたジャンルのレベルの検索の場合を示している。「エンドウ」は，対象分野として選ぶには，概念が細か過ぎるので，通常，これにカテゴリ名やカテゴリ因子名がそのまま一致することはないと考えられる。この場合には，単語“エンドウ”を特徴語とするようなカテゴリ因子に相当する文書集合の範囲の中で考える。
【００９３】
単語“エンドウ”を特徴語とするようなカテゴリ因子は，図２０のように，＃農業，＃料理，＃環境問題などが考えられるが，例えば，これらの候補を提示してユーザに選択させることが考えられる。この例では，ユーザ意図は＜農業＞の分野における“エンドウ”であるから，カテゴリ因子としては＃農業が選択される。このままでは，図２０のように，“エンドウ”に関係ない部分の＜農業＞分野の文書も検索結果に入るので，次の図２１の例のように文字列検索の結果とのＡＮＤを取ることにより，ユーザ意図に近付ける。
【００９４】
図２１は，本発明を用いたジャンルのレベルの検索結果に単語レベルの検索結果との共通部分を取るために，ＡＮＤ処理をしたものを表している。すなわち，図１８の正解部分と図２０の正解部分の共通集合をとった結果の文書集合（市松模様の部分）を最終的な検索結果としている。
【００９５】
これは，検索誤りがなく，検索もれも“エンドウ”の関連語に対応する部分のみとなり，軽減されている。
【００９６】
次の図２２〜図２５も，「検索要求−カテゴリ因子対応」における「３）特徴語が対応するカテゴリ因子」の場合の例を示している。一点を除いて，前述した図１７〜図２１の例と全く同じである。
【００９７】
前述した例では，単語レベルの通常の検索として，検索入力の単語が文書中に存在するか，存在しないかというディスクリート（離散的）な判定基準を用いているが，この例では，リリバンス・フィードバック（あるいは類似検索）などと呼ばれる，単語レベルの検索手法を用いており，指定した文書中の出現単語の共起性や，出現単語の頻度などにより重み付けされているので，図２２や図２３のように，検索結果の文書集合の境界が直線でなく，曲線になっている。なお，この曲線の形状は，指定した文書の出現単語の傾向に左右される。
【００９８】
図２４は，図２０と同様に本発明を用いたジャンルのレベルの検索の場合を示している。また，図２５は，本発明を用いたジャンルのレベルの検索結果に，図２２に示す単語レベルの検索結果との共通部分を取るために，ＡＮＤ処理をしたものを表している。
【００９９】
リリバンス・フィードバックは，関連語も重み付けの対象になるので，ジャンルレベルの検索と組み合わせれば，図２５に示すように，検索結果の正解部分を，前述した図２１の例の正解部分よりも広くできる可能性がある。もちろん，これはリリバンス・フィードバックにおいて最初に指定する文書に依存するので，ユーザ意図に近い文書を指定できるか，それとも，あまリユーザ意図に近くない文書を指定してしまうかにより，結果は良くも悪くもなり得る。
【０１００】
【発明の効果】
以上により，本発明によれば，文書情報群にそれぞれ共通する情報要素としてのカテゴリ因子を媒介として，検索を行うことが可能となる。これにより，ユーザの検索要求を文字列や単語でなくジャンルのレベルで行うことが可能となり，従来の単語レベル検索よりもユーザの検索意図に近い文書群を得ることができ，情報の知識化に寄与するところが大きい。また，カテゴリ因子を媒介することにより，複数情報源の検索において，情報源ごとの語彙の違いを吸収することができるという効果が期待できる。
【図面の簡単な説明】
【図１】本発明の構成例を示すブロック図である。
【図２】文書ベース（新聞）のカテゴリ因子の例を示す図である。
【図３】カテゴリ因子インデクシング部の処理フローチャートである。
【図４】カテゴリ因子の抽出処理を示すフローチャートである。
【図５】文書分析とカテゴリ因子インデクシングを説明する図である。
【図６】統合カテゴリ因子インデックスの作成例を示す図である。
【図７】カテゴリ因子検索部の処理フローチャートである。
【図８】カテゴリ因子による検索の概要を示す図である。
【図９】カテゴリ因子による検索の例を示す図である。
【図１０】従来技術による検索と本発明による検索の差異を説明するための図である。
【図１１】従来技術による検索と本発明による検索の差異を説明するための図である。
【図１２】従来技術による検索と本発明による検索の差異を説明するための図である。
【図１３】従来技術による検索と本発明による検索の差異を説明するための図である。
【図１４】従来技術による検索と本発明による検索の差異を説明するための図である。
【図１５】従来技術による検索と本発明による検索の差異を説明するための図である。
【図１６】従来技術による検索と本発明による検索の差異を説明するための図である。
【図１７】従来技術による検索と本発明による検索の差異を説明するための図である。
【図１８】従来技術による検索と本発明による検索の差異を説明するための図である。
【図１９】従来技術による検索と本発明による検索の差異を説明するための図である。
【図２０】従来技術による検索と本発明による検索の差異を説明するための図である。
【図２１】従来技術による検索と本発明による検索の差異を説明するための図である。
【図２２】従来技術による検索と本発明による検索の差異を説明するための図である。
【図２３】従来技術による検索と本発明による検索の差異を説明するための図である。
【図２４】従来技術による検索と本発明による検索の差異を説明するための図である。
【図２５】従来技術による検索と本発明による検索の差異を説明するための図である。
【符号の説明】
１Ａ，１Ｂ，… 文書ベース
１１Ａ，１１Ｂ，… 文書
２カテゴリ因子インデクシング部
３カテゴリ因子インデックス格納部
３１Ａ，３１Ｂ，… ローカルカテゴリ因子インデックス
３２統合カテゴリ因子インデックス
４カテゴリ因子検索部
４１検索要求入力部
４２同義語集約処理部
４３カテゴリ因子インデックス参照部
４４対応文書検索部
４５検索結果出力部

Claims

コンピュータが，ユーザの検索要求に合致した文書情報を検索する情報検索方法において，
カテゴリ因子分解技術によって，文書ベース中の文書に出現する単語の出現確率分布から出現確率が高い単語を特徴語として抽出し，それらの特徴語を用いた主成分分析により，文書の主題分野または細分類を表す情報カテゴリを識別する弁別的素性であるカテゴリ因子を，各カテゴリ因子を一意に識別する因子ＩＤと各カテゴリ因子に属する特徴語群と個々の特徴語に対する該カテゴリ因子への相関の強さを示す値の組として前記文書ベースから求め，
前記文書ベース中の各文書について，文書中に含まれる単語と前記カテゴリ因子に属する特徴語群の特徴語との適合度の大きい１または複数のカテゴリ因子を抽出し，抽出されたカテゴリ因子と前記各文書との対応情報を，前記文書ベースごとにインデックス化したローカルカテゴリ因子インデックスのテーブルを作成し，さらに複数の文書ベースに対して作成された複数の前記ローカルカテゴリ因子インデックスを統合した，前記ローカルカテゴリ因子インデックスにおけるカテゴリ因子と，それらの各カテゴリ因子に属する特徴語群との対応情報を保持する統合カテゴリ因子インデックスのテーブルを作成して，カテゴリ因子インデックス格納部に格納しておき，
ユーザが検索要求として入力した文字列から得られる検索文字列をキーとして，前記カテゴリ因子インデックス格納部に格納された前記統合カテゴリ因子インデックスのテーブルを参照し，前記検索文字列を特徴語として有するカテゴリ因子を選択し，そのカテゴリ因子に対応する前記カテゴリ因子インデックス格納部に格納された前記ローカルカテゴリ因子インデックスのテーブルから，該カテゴリ因子に対応付けられた文書を求めて検索結果とする
ことを特徴とするカテゴリ因子による情報検索方法。