JP2001184358A - カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体 - Google Patents
カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体Info
- Publication number
- JP2001184358A JP2001184358A JP36669299A JP36669299A JP2001184358A JP 2001184358 A JP2001184358 A JP 2001184358A JP 36669299 A JP36669299 A JP 36669299A JP 36669299 A JP36669299 A JP 36669299A JP 2001184358 A JP2001184358 A JP 2001184358A
- Authority
- JP
- Japan
- Prior art keywords
- category
- factor
- document
- search
- category factor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
野)レベルの検索を可能とし,検索もれも検索誤りも少
ない情報検索装置を実現することを目的とする。 【解決手段】 文書ベース1中に特徴的に出現する主題
分野またはその細分類として統計的に求められた各カテ
ゴリ因子と,それに関連する各文書11との関係をイン
デックス化し,カテゴリ因子インデックス格納部3に記
憶しておく。カテゴリ因子検索部4は,ユーザの検索要
求に対して,カテゴリ因子インデックスを参照し,検索
要求に対応するカテゴリ因子を選択し,そのカテゴリ因
子に関連の強い文書を検索結果とする。
Description
る情報利用技術(検索,分類,特徴語抽出等)に係り,
特に検索のもれが少なく,かつ検索結果の高精度な絞り
込みを可能としたカテゴリ因子による情報検索装置,情
報検索方法およびそのプログラム記録媒体に関する。
及に伴い,情報検索技術や文書の自動分類などの情報利
用技術が進展してきている。これに伴い,企業が保有す
る文書資産,情報資産やインターネット上で公開されて
いる文書資産,情報資産をさらに深いレベルで活用した
いという要求が高まっている。このためには,情報検索
技術や文書の自動分類等の情報利用技術の一層の進展が
望まれる。
列を検索キーとして,それに一致する単語または文字列
を含む文書情報を検索するのが一般的であった。この検
索において,検索文字列を同義語(または類義語)にま
で拡張して検索するものはあったが,単語レベルの検索
であることには変わりなく,ジャンル(文書の主題分
野)のレベルで,検索対象の効果的な絞り込みを高精度
で行うシステムは用いられていない。
自動分類技術では適合率や分類精度の低さが問題であ
り,例えば検索結果をもとに再検索する場合の絞り込み
の支援などの必要性が高まってきている。検索結果の絞
り込みにあたって,追加のキーワードの侯補を示すこと
による検索支援技術が必要である。
ルや自動分類ツール,特徴語抽出ツールなど,個別のア
プリケーションになっている場合が多く,情報利用の統
合的アプローチとして,検索や分類等に共通の統計的特
徴量を基盤とするオントロジー的特徴語ベースヘの発展
の可能性を探る必要があると考えられる。
/形態素レベルの統計処理にとどまらず,対象領域に関
する情報内容のレベルで処理するための要約技術,機械
学習,テキストデータマイニングなどの知識獲得関連技
術が盛んになり,自然言語処理技術も要求されるように
なってきており,知識処理,文脈処理のための文脈同
定,対話状況認識のための基礎技術を探ることも重要で
ある。
報利用技術と,理想である意味レベルの情報利用技術の
間のギャップに関連すると考えられるが,本発明では,
その中間レベルとして文書の主題分野としての分類カテ
ゴリやカテゴリ因子のレベルでの情報利用技術に着目し
ている。
ルの検索技術の問題点を説明すると以下のとおりであ
る。例えば,ユーザが「<数式>に関連する分野の文
書」を検索したかったとする。ユーザが意図するこれら
の文書には,“数式”の同義語である“式”や“計算
式”,あるいは同義語以外の関連語が含まれると想定さ
れる。しかし,単語“数式”を含む文書のみを検索結果
とする従来の検索システムでは,“計算式”を含む文書
は検索されないので,検索もれが生じてしまう。
を行うシステムもあるが,従来の同義語展開を行う検索
システムでは,“数式”の同義語である“式”や“計算
式”を含むすべての文書を検索結果の候補とする。とこ
ろが,単語“式”は多義語であり,“数式”という意味
以外に“儀式”という意味も内包しているので,本来の
目的以外の文書も検索結果に含んでしまうことになり,
いわゆるゴミと呼ばれる検索結果の誤り部分が多くなっ
てしまう。
連する分野の文書」の検索を意図した場合,文字列“日
本料理”を検索キーとして入力すると,従来の単語レベ
ルの検索では,単語“日本料理”を含む文書,またはそ
れらの文書と,単語“日本料理”を同義語展開して得ら
れた単語“和食”を含む文書を検索結果とする。したが
って,従来の技術では,単語“日本料理”と同義語では
ない“寿司”,“天ぷら”というような単語を含む文書
は検索されないことになる。しかし,ユーザの検索意図
として,“寿司”,“天ぷら”などを含む文書について
も検索したい場合があり,このような場合には,検索も
れが生じてしまうことになった。
が意図したジャンル(文書の主題分野)レベルの検索を
可能とし,検索もれも検索誤りも少ない検索手段を提供
することを目的とする。
索などの統計的アプローチにおいては,文書内容の対象
分野(情報カテゴリ)の語彙の統計的特性を利用してい
る。例えば,検索は語と文書(群)との相関,分類はカ
テゴリと語の相関,語のクラスタリングは語と語の相関
を分析対象とした技術である。本発明では,さらに,カ
テゴリとカテゴリ因子の相関や,カテゴリ因子と語の相
関を分析対象に加えたことが特徴であり,検索要求とカ
テゴリ因子の相関,文書とカテゴリ因子の相関などを用
いることにより,検索要求と文書との相関を求める媒介
的な役割をカテゴリ因子に意図している。
あるいはその細分類を表す様々な情報カテゴリを識別す
るための弁別的素性を意図しているが,計算可能な範囲
で実現する。
手段として,関連する発明(特願平ll−49501号
「文書処理装置及びそのプログラム記憶媒体」)による
カテゴリ因子分解技術を利用して,文章に含まれるカテ
ゴリ因子を抽出する。また,カテゴリ因子と相関の強い
特徴語リストとその相関の強さを用いて,検索要求に対
して語を割り当てる。
に特徴的に出現する主題分野またはその細分類として統
計的に求められた各カテゴリ因子の特徴量を用いて,文
書ベース中の各文書に関連の強いカテゴリ因子を抽出
し,各文書とそれに関連するカテゴリ因子との関係をイ
ンデックス化したカテゴリ因子インデックスを記憶する
手段と,ユーザの検索要求に対して,カテゴリ因子イン
デックスを参照し,検索要求に対応するカテゴリ因子を
選択し,そのカテゴリ因子に関連の強い文書を検索結果
とするカテゴリ因子による検索手段とを備えることを特
徴とする。
特徴語同士の出現の相関および冗長性除去を行った因子
を用いる。
は,各々の文書ベースについて作成されたローカルなカ
テゴリ因子インデックスと,それらを統合して作成され
た統合カテゴリ因子インデックスとを,カテゴリ因子イ
ンデックスとして利用してもよい。
に対応するカテゴリ因子を選択する際に,例えば検索要
求に含まれる文字列が特定のカテゴリ因子の名称と一致
するかどうか,特定のカテゴリ名と一致するかどうか,
特定のカテゴリ因子に関連の強い特徴語が一致するかど
うか,または特定のカテゴリ因子の兄弟因子に関連の強
い特徴語が一致するかどうかによって,該当するカテゴ
リ因子を選択する。
実現するためのプログラムは,コンピュータが読み取り
可能な可搬媒体メモリ,半導体メモリ,ハードディスク
などの適当な記録媒体に格納することができる。
ロック図である。図中,1A,1B,…は,例えばそれ
ぞれ新聞,雑誌,学会論文,…というような同種の文書
群からなる文書ベースであり,個々の新聞,記事,論文
などの電子化(コード化)された文書11A,11B,
…を備える。カテゴリ因子インデクシング部2は,これ
らの文書ベース1A,1B,…からカテゴリ因子インデ
ックスを作成するものである。文書ベースは,必ずしも
複数ある必要はない。
インデックスとして,個々の文書ベース11A,11
B,…に対応して作成されるローカルカテゴリ因子イン
デックス31A,31B,…と,これらのローカルなイ
ンデックスを統合した統合カテゴリ因子インデックス3
2とが設けられる。これらは,コンピュータが読み取り
可能なカテゴリ因子インデックス格納部3に格納され
る。文書ベースが一つだけの場合には,そのローカルな
カテゴリ因子インデックスだけが使用される。
ンデクシング部2によって文書ベース1A,1B,…中
に特徴的に出現する主題分野あるいはその細分類として
統計的に求められたカテゴリ因子を媒介として文書検索
を行うものであり,ユーザからの検索要求を入力し処理
する検索要求入力部41,同義語辞書5を用いて検索入
力に含まれる語を1つの同義語のエントリに集約する同
義語集約処理部42,統合カテゴリ因子インデックスお
よびローカルカテゴリ因子インデックスを参照して検索
要求に対応するカテゴリ因子を求めるカテゴリ因子イン
デックス参照部43,求めたカテゴリ因子から関連の強
い文書を検索する対応文書検索部44および文書とカテ
ゴリ因子との適合度に応じて検索結果をソートし出力す
る検索結果出力部45を備える。
リ因子検索部4とは,コンピュータとそれを動作させる
ソフトウェア・プログラムとによって実現される。
明する図であって,特に文書ベースが新聞であるときの
カテゴリ因子の例を示している。図中,(a)はカテゴ
リ因子を分類する分類名であるカテゴリ名,(b)は各
カテゴリ因子に一意に付与される識別子である因子I
D,(c)は各カテゴリ因子に対して付与されたカテゴ
リ因子名称,(d)は各カテゴリ因子に関連の強い特徴
語の集合である。
報)が属する分類であり,例えば新聞記事というカテゴ
リ内において,「政治」,「経済」等のカテゴリが存在
し,「政治」というカテゴリ内において「選挙」,「外
交」等のカテゴリが存在する。すなわち,カテゴリとは
分類(分類した結果または分類した結果に則した入れ
物)の意味である。カテゴリには階層が存在する。カテ
ゴリ因子とは,カテゴリ内において更に細分類したカテ
ゴリをいい,上位のカテゴリから見た場合における下位
のカテゴリを指す。カテゴリ因子による文書の処理は,
単語レベルと意味レベルとの中間に位置する処理と言え
る。
カテゴリ因子に属する特徴語の群を参照し人間が付与す
る。すなわち,カテゴリ因子インデクシング部2は,文
書群からカテゴリ因子を抽出すると,それに強く関連す
る特徴語を表示し,カテゴリ因子名称の入力を促す。こ
こで入力された名前が,カテゴリ因子名称として登録さ
れる。なお,カテゴリ因子名称は,省略することも可能
である。
する。
の文書群を規定し,検索に利用する。
め,詳しくは後述するカテゴリ因子分解技術により,対
象とする文書ベース1A,1B,…からカテゴリ因子を
抽出しておく。さらに,個々の文書11A,11B,…
から相関の大きいカテゴリ因子を抽出した文書分析表を
作成する。次に,文書分析表の逆関係であるカテゴリ因
子のインデックステーブルを作成する。文書ベースが複
数個ある場合には,各文書ベースを統合したインデック
ステーブルを作成する。この場合,個々の文書ベース
(1A,1B)におけるインデックステーブルをローカ
ルカテゴリ因子インデックス(31A,31B)と呼
び,これらを統合したインデックステーブルを統合カテ
ゴリ因子インデックス(32)と呼ぶ。
4は,ユーザの検索入力に対し,同義語集約処理,カテ
ゴリ因子との関連付け,カテゴリ因子インデックスの表
引きにより,対応するカテゴリ(カテゴリ因子)の文書
を検索する。
処理 図3に,カテゴリ因子インデクシング部2の処理フロー
を示す。カテゴリ因子インデクシング部2は,カテゴリ
因子分解技術により得た各カテゴリ因子の特徴量を用い
て,文書ベース中の各文書と関連の強いカテゴリ因子を
抽出する(図3のS1,S2)。このカテゴリ因子の抽
出では,例えば特願平ll−49501号「文書処理装
置及びそのプログラム記憶媒体」に開示されている技術
を用いる。以下に,このカテゴリ因子の抽出処理(カテ
ゴリ因子分解処理)について説明する。
ローチャートである。まず,検索対象となる文書を入力
する(ステップS11)。次に,入力した文書につい
て,単語辞書(図示省略)を用いて形態素解析を行い,
この結果に基づいて各単語の出現頻度を求め,それから
単語の出現確率を求める(ステップS12)。求めた単
語の出現確率に基づいて,当該文書に特徴的に出現する
単語を特徴語として抽出する(ステップS13)。
め特徴語相関行列を求め,さらに特徴語および特徴語相
関行列に基づいて主成分分析を行うことにより,主成分
係数を求める(ステップS14)。この主成分分析で
は,例えば特開平10−111869号公報に開示され
ている方法を用いることができる。
い,特徴語の出現傾向を表す座標系に基づいて主成分の
各々に対応する特徴語の群を求め,当該特徴語の群と主
成分の各々との相関の強さを用いて,特徴語の群の多い
主成分を選択し,それを主成分因子とし,主成分因子と
の相関が高い特徴語を選択して因子特徴語とし,主成分
因子と因子特徴語とからなるカテゴリ因子を抽出する
(ステップS15)。
カテゴリ因子について,当該複数の主成分の各々とこれ
らに対応する特徴語の群との相関の強さを用いて,当該
カテゴリ因子を1または複数の主成分からなるクラスタ
に分解する(ステップS16)。すなわち,特徴語相関
行列から特徴語対の相関の大きい順にグルーピングを行
い,クラスタを成長させる。
子またはクラスタにおける重複する主成分を除去し,冗
長部分の簡略化を行う(ステップS17)。
いて,各文書と関連するカテゴリ因子の関係をインデッ
クス化し,検索時にそのインデックスファイルを参照す
ることにより,検索処理を高速化することを可能にす
る。
付け,統合 図3に示すステップS1の詳細について説明する。対象
となる文書ベースに対して,前記カテゴリ因子分解技術
を適用すると,当該文書ベースに対する代表的なカテゴ
リ因子が抽出される。
テゴリ因子を比較し,類似度の大きい因子同士を1本化
する。すなわち,文書ベース内のカテゴリ因子の対応付
けを行う。類似度としては,ユークリッド距離,マハラ
ノビスの距離,コサイン距離などを用いればよい。
のカテゴリ因子#j1 と#j2 とが対応付けられたと
き,これらの対応する因子をマージしたカテゴリ因子#
mに関して,#mの因子IDと,#mの文書頻度と,#
mの特徴語wi の重み付けと,マージ後のカテゴリ因子
を定める。
大の因子ID+1 #mの文書頻度
書分析表の作成) 次に,図3に示すステップS2の詳細について説明す
る。図5は,文書分析とカテゴリ因子インデクシングを
説明する図である。カテゴリ因子分解や文書ベース内で
のカテゴリ因子対応付けのときに得た各種分析パラメー
タを利用して,個々の文書Dk とカテゴリ因子#jとの
相関を計算する。Zj (k) を文書Dk の主成分得点寄与
分とすると,Zj (k) は,以下の式で求められる。
#jの集合J(k)は,適当な閾値λ(≧0)を用い
て, J(k)={#j|zj (k) >λ} となる。
3が得られる。文書分析表33は,各文書を識別する文
書IDごとに,その文書に関連の強いカテゴリ因子と,
そのカテゴリ因子の文書への適合度の情報を持つ。文書
ID=1の文書を例に説明すると,文書分析表33で
は,文書ID=1の文書は,因子ID=#1〔カテゴリ
因子名称=CTBT(核実験全面禁止条約)〕のカテゴ
リ因子に適合度=0.554の大きさで関連し,因子I
D=#3〔カテゴリ因子名称=IAEA(原子力委員
会)〕のカテゴリ因子に適合度=0.718の大きさで
関連していることが示されている。
り抽出した各カテゴリ因子の特徴量を用いて,文書ベー
ス中の個々の文書と関連の強いカテゴリ因子が抽出さ
れ,図5に示すような文書分析表33が文書ベースごと
に作成される。
スのテーブル作成 図3に示すステップS3では,以下に説明する処理を行
う。上記文書からのカテゴリ因子の抽出結果をもとにし
て,各カテゴリ因子に対応する全ての文書のID番号を
列挙したインデックスのテーブルを作成する。すなわ
ち,ステップS2で作成した文書分析表33から,図5
に示すカテゴリ因子インデックス31を作成する。これ
を用いて特定のローカルなカテゴリ因子のID番号(因
子ID)から,関連の深い文書のID番号(文書ID)
を高速に検索することができる。
ーブル作成 次に,図3に示すステップS4では,以下のように統合
カテゴリ因子インデックス(統合オントロジー)を作成
する。
ゴリ因子を1つのエントリとし,独立なカテゴリ因子は
そのまま1つのエントリとしてマージすることにより,
統合オントロジーを作成する。統合オントロジーにおけ
る因子ID番号と,各文書ベースの因子IDは互いに参
照できるようにそれぞれ参照テーブルを作成しておく。
ゴリ因子#jA ,#jB ,…がカテゴリ因子対応付けに
より対応付けられたとき,これらの対応する因子をマー
ジした統合カテゴリ因子#nに関して,次のように統合
カテゴリ因子を定める(図5)。
因子ID+1 #nの文書頻度
作成例を示す。図6の例では,原子力白書の文書ベース
から作成したローカルカテゴリ因子インデックス31A
と,○○新聞の文書ベースから作成したローカルカテゴ
リ因子インデックス31Bとから,これらを統合した統
合カテゴリ因子インデックス32を作成している。統合
カテゴリ因子インデックス32におけるローカル因子I
Dは,文書ベースの番号と,その文書ベースにおける因
子IDの組で表される。例えば,「2#14」は,第2
の文書ベースにおける因子IDが#14のカテゴリ因子
を表している。この例では,「NPT」のカテゴリ因子
は,原子力白書および○○新聞の文書ベースの双方にあ
り,原子力白書の文書ベースでは因子IDが#2のカテ
ゴリ因子,○○新聞の文書ベースでは因子IDが#36
のカテゴリ因子となっていることがわかる。
の強い特徴語リストを利用して,その逆関係から特徴語
インデックスのテーブルである特徴語統合インデックス
(図示省略)を作成する。これは,各特徴語を見出しと
して,当該特徴語と関連の強いカテゴリ因子のID番号
を値とするテーブルである。また,カテゴリ因子と特徴
語の相関度もテーブルに格納する。この特徴語統合イン
デックスは,実質的には統合カテゴリ因子インデックス
32と同様な情報を持つものであるため,特徴語による
高速な検索を必要としない場合には,作成しなくてもよ
い。
処理である。
部2によって作成された統合オントロジーに基づいて,
ユーザからの検索要求を処理する。オントロジーによる
検索要求処理は,大別して,入力処理,同義語集約処
理,検索要求−因子対応処理,統合カテゴリ因子処理,
ローカルカテゴリ因子処理からなる。
3),4)の順に低くなる。検索では,順位が高い方を
優先する。例えば,検索文字列が特定のカテゴリ名と一
致した場合,そのカテゴリに属するすべてのカテゴリ因
子との対応がとれたものとして扱う。
文字列をキーとして,特徴語統合インデックスを参照
し,対応する文書のID番号を得る。
ーチャートである。また,図8は,カテゴリ因子による
検索の概要を示す。以下,これらの図に従って,カテゴ
リ因子検索部4の処理を詳細に説明する。
ップS21) ユーザの入力した文字列を,ユーザインタフェースモジ
ュールから検索要求として受け取り,処理する。入力文
字列は,区切り文字(半角および全角の空白文字)によ
って区切られた検索文字列とする。また,論理式の入力
の場合には,論理記号のスコープに注意して処理する。
S22) 同義語を1つのエントリーに集約するため,同義語集約
処理を行う。検索入力の中に同義語辞書5に登録された
語があれば,それらを同義代表語に置き換えて代表さ
せ,1つのエントリーに集約する(図8参照)。
参照(図7のステップS23) 検索文字列をキーとして,統合カテゴリ因子インデック
ス32または特徴語統合インデックスのテーブルを参照
し,統合オントロジーにおける因子ID番号を引く。検
索文字列がカテゴリ因子名称またはカテゴリ名と一致す
るようなカテゴリ因子,あるいは検索文字列を特徴語と
するようなカテゴリ因子を見つける。検索文字列Sとカ
テゴリ因子#jとの関連度r(#j,S)を統合カテゴ
リ因子インデックス32または特徴語統合インデックス
から得る。
スの参照(図7のステップS24) さらに,この統合カテゴリ因子の因子ID番号(統合因
子ID)をもとにして,各文書ベースにおいて対応する
ローカルなカテゴリ因子のID番号(ローカル因子I
D)を得る。次に,ローカル因子IDをもとに,選択し
たカテゴリ因子に対応する文書Dk のID番号(文書I
D)を,該当するローカルカテゴリ因子インデックスか
ら得る。
S25) 選択したカテゴリ因子に対応する文書Dk のID番号
(文書ID)を,該当するローカルカテゴリ因子インデ
ックスから求めたならば,その文書Dk に対する主成分
得点寄与分を,Z(Dk ,#j)とする。
(図7のステップS26,S27) 各検索結果の文書に対して,その主成分得点寄与分と,
検索文字列Sとカテゴリ因子#jとの関連度との積〔Z
(Dk ,#j)×r(#j,S)〕を計算し,この値の
大きい順に検索結果の文書をソートし,表示する。
す。検索要求の検索キーとして,例えば「グリーンピー
ス」の検索文字列が入力されたとする。これに対して,
図7に示す手順に従って検索処理が実行され,検索結果
のランキングが行われると,その結果が,例えば図9に
表示画面16として示すように表示される。これをもと
に,検索者であるユーザは,ジャンル表示,文書内容表
示,ジャンル文脈表示などの指示を行い,必要な情報を
容易に入手することができる。
の検索と,本発明によるジャンルのレベルの検索との違
いを,具体的な検索結果を比較することによって説明す
る。図10〜図25は,文字列・単語レベルの検索とジ
ャンルのレベルの検索の差異を示すため,それぞれの検
索結果の文書集合の違い,また,ユーザの検索意図との
違いを図示したものである。これらの図では,上記
(8)の検索要求処理における「検索要求−カテゴリ因
子対応」の内の3つの場合分け[1)特定のカテゴリ因
子名称と一致,2)特定のカテゴリ名と一致,3)特徴
語が対応するカテゴリ因子]について,図示した。ま
た,4)特徴語が対応するカテゴリ因子の兄弟因子に関
しては,3)と同じ考え方でよいので省略した。
て,「検索要求−カテゴリ因子対応」における「1)特
定のカテゴリ因子名称と一致」の場合を説明する。図1
0および図11が単語レベルの検索を表しており,図1
2が本発明によるジャンルレベルの検索を表している。
索式として,“数式”という単語が与えられた場合を想
定している。単語検索では,入力された単語“数式”を
含むようなすべての文書を検索結果として得ることにな
る。これに相当する文書集合は,図10において市松模
様で示す部分であり,検索結果として正解になってい
る。
ては同じく<数式>の分野の文書であるものの,単語
“数式”が含まれない文書であり,検索結果から漏れて
しまっている。すなわち,この斜線部分は,検索もれの
部分である。これらの文書中には,単語“数式”ではな
く,“数式”の同義語である“式”や“計算式”,ある
いは同義語以外の関連語が含まれると想定される。
式”を含む文書」ではなく,「<数式>に関連する分野
の文書」である。すなわち,図中の市松模様の部分と右
上がりの斜線部分との和集合である。このことから,図
10の単語検索では,検索もれの部分が大きく,問題が
ある。
って,検索もれを防ぐ一般的な手段である同義語展開を
行った場合を示している。この場合には,単語“数式”
の同義語である“式”や“計算式”などを用いて,同義
語をorで結んだものを検索式としている。これによ
り,図11では,同義語の分だけ検索結果の正解部分が
広がっている。
り,“数式”という意味以外に“儀式”という意味も内
包しているので,本来の目的(ユーザ意図)以外の文書
も検索結果に含んでしまう。これが検索結果の誤り部分
(いわゆるゴミ)である。
以外の関連語(関数,同値変形など)を使って記述され
た文書を検索することはできない。
ャンルのレベルの検索の場合を示している。例えば,対
象分野としての<数式>に対してカテゴリ因子の「#数
式」がほぼ対応する場合には,文書集合もほぼ等しくな
る。この場合には,ユーザ意図の文書集合と,ジャンル
レベルの検索結果がほぼ対応する。この図12から,本
発明によるジャンルレベルの検索を行えば,図10や図
11の場合と比べて,検索もれも,検索誤りも減少させ
ることができることが明らかである。
求−カテゴリ因子対応」における「2)特定のカテゴリ
名と一致」の場合の例を説明する。
て,検索式S=“日本料理”を与えた場合である。検索
結果の正解部分は,単語“日本料理”を含む文書集合
(市松模様部分)であり,ユーザ意図は,これに“日本
料理”の同義語や関連語を含む文書集合(右上がり斜線
部分)を加えたものである。したがって,図10と同様
に検索もれは多い。
て,さらに同義語展開を行って,検索式S=“日本料
理”or“和食”とした場合を表している。検索結果の
正解部分は,単語“日本料理”あるいは“和食”を含む
文書集合(市松模様部分)であり,図13の場合よりは
正解部分が増えたものの,ユーザが意図する部分につい
て未だ検索もれが多い。
示しているわけではなく,図14の精密化を行ったもの
を示している。<日本料理>という分野は広いので,図
14の検索結果の細分類を考えることができる。例え
ば,<日本料理>の分野の中には,寿司,天ぷらなどが
あり,これらは“日本料理”の同義語以外の関連語とし
て文書中に含まれる。そこで,“日本料理”の関連語と
“日本料理”の細分類の関係を見直すと,右上がり斜線
の部分のようになる。なお,点線で囲まれた白地の部分
は,当該関連語が対応する細分類には通常含まれないと
考えられる部分である。
ャンルのレベルの検索の場合を示している。ここでは,
検索入力の「日本料理」に対応する対象分野<日本料理
>の下位集合として,4つのカテゴリ因子,#日本料理
一般,#寿司,#天ぷら,#その他,が存在するとして
いる。この場合,この4つのカテゴリ因子に対応する文
書集合の集合和が,対象分野<日本料理>の文書集合に
相当すると考えられる。図16から明らかなように,こ
こでは図14において検索されなかったユーザ意図に対
応する部分が検索されており,望ましい検索結果が得ら
れることが分かる。
求−カテゴリ因子対応」における「3)特徴語が対応す
るカテゴリ因子」の場合の例を説明する。
て,検索式S=“エンドウ”を与えた場合である。検索
結果の正解部分は,単語“エンドウ”を含む文書集合
(市松模様部分)であるが,ユ―ザ意図は,これに“エ
ンドウ”の同義語や関連語を含む文書集合(右上がり斜
線部分)を加えたものであるから,図10や図13の場
合と同様に検索もれは多い。
て,さらに同義語展開を行って,検索式S=“エンド
ウ”or“グリーンピース”or“豌豆”…とした場合
である。検索結果の正解部分は,単語“エンドウ”ある
いは“グリーンピース”等を含む文書集合(市松模様部
分)であり,図17の場合よりは正解部分が増えたもの
の,未だ検索もれが残っている。
球環境を守るための非営利組織という他の意味もあるの
で,この意味における環境問題の文書は,ユーザ意図と
は異なり,検索誤りのデータとなる。このように,同義
語展開を行った結果に多義語が含まれていると,それは
必ず検索誤り,すなわち,ゴミの情報の増加につなが
る。
示しているわけではなく,図18の場合において,ユー
ザ意図の再認識を行ったものを示している。一般に,ユ
ーザが最初に思い付いた語を入力として,検索を行った
場合,その検索結果が返ってきた段階で,自分の検索意
図以外の文書が含まれているのを見て,最初の検索入力
語には自分の思い付いた以外の意味があったことに気付
くことは,よくあることである。農業や園芸に携わって
いる人が“エンドウ”という語を入力するときには,農
業の分野における“エンドウ”の話題(“エンドウ”の
栽培法や,産業としての収益性など)が念頭にあるであ
ろうし,レストランの調理師や,家庭の主婦にとっては
料理の素材としての“エンドウ”が念頭にあり,検索行
動を起こす際には他の可能性にまで気が回らない場合も
多く想定される。
索行動を起こした場合のユーザ意図を,市松模様+右上
がり斜線の部分で表している。図19から明らかなよう
に,<料理>の分野としての“エンドウ”や,<環境問
題>としての“グリーンピース”を含む文書集合は,検
索誤り(ゴミ)となる。
ルの検索の場合を示している。「エンドウ」は,対象分
野として選ぶには,概念が細か過ぎるので,通常,これ
にカテゴリ名やカテゴリ因子名がそのまま一致すること
はないと考えられる。この場合には,単語“エンドウ”
を特徴語とするようなカテゴリ因子に相当する文書集合
の範囲の中で考える。
テゴリ因子は,図20のように,#農業,#料理,#環
境問題などが考えられるが,例えば,これらの候補を提
示してユーザに選択させることが考えられる。この例で
は,ユーザ意図は<農業>の分野における“エンドウ”
であるから,カテゴリ因子としては#農業が選択され
る。このままでは,図20のように,“エンドウ”に関
係ない部分の<農業>分野の文書も検索結果に入るの
で,次の図21の例のように文字列検索の結果とのAN
Dを取ることにより,ユーザ意図に近付ける。
ルの検索結果に単語レベルの検索結果との共通部分を取
るために,AND処理をしたものを表している。すなわ
ち,図18の正解部分と図20の正解部分の共通集合を
とった結果の文書集合(市松模様の部分)を最終的な検
索結果としている。
ンドウ”の関連語に対応する部分のみとなり,軽減され
ている。
ゴリ因子対応」における「3)特徴語が対応するカテゴ
リ因子」の場合の例を示している。一点を除いて,前述
した図17〜図21の例と全く同じである。
として,検索入力の単語が文書中に存在するか,存在し
ないかというディスクリート(離散的)な判定基準を用
いているが,この例では,リリバンス・フィードバック
(あるいは類似検索)などと呼ばれる,単語レベルの検
索手法を用いており,指定した文書中の出現単語の共起
性や,出現単語の頻度などにより重み付けされているの
で,図22や図23のように,検索結果の文書集合の境
界が直線でなく,曲線になっている。なお,この曲線の
形状は,指定した文書の出現単語の傾向に左右される。
ジャンルのレベルの検索の場合を示している。また,図
25は,本発明を用いたジャンルのレベルの検索結果
に,図22に示す単語レベルの検索結果との共通部分を
取るために,AND処理をしたものを表している。
重み付けの対象になるので,ジャンルレベルの検索と組
み合わせれば,図25に示すように,検索結果の正解部
分を,前述した図21の例の正解部分よりも広くできる
可能性がある。もちろん,これはリリバンス・フィード
バックにおいて最初に指定する文書に依存するので,ユ
ーザ意図に近い文書を指定できるか,それとも,あまリ
ユーザ意図に近くない文書を指定してしまうかにより,
結果は良くも悪くもなり得る。
群にそれぞれ共通する情報要素としてのカテゴリ因子を
媒介として,検索を行うことが可能となる。これによ
り,ユーザの検索要求を文字列や単語でなくジャンルの
レベルで行うことが可能となり,従来の単語レベル検索
よりもユーザの検索意図に近い文書群を得ることがで
き,情報の知識化に寄与するところが大きい。また,カ
テゴリ因子を媒介することにより,複数情報源の検索に
おいて,情報源ごとの語彙の違いを吸収することができ
るという効果が期待できる。
図である。
ャートである。
である。
する図である。
図である。
る。
る。
異を説明するための図である。
異を説明するための図である。
異を説明するための図である。
異を説明するための図である。
異を説明するための図である。
異を説明するための図である。
異を説明するための図である。
異を説明するための図である。
異を説明するための図である。
異を説明するための図である。
異を説明するための図である。
異を説明するための図である。
異を説明するための図である。
異を説明するための図である。
異を説明するための図である。
異を説明するための図である。
ス 32 統合カテゴリ因子インデックス 4 カテゴリ因子検索部 41 検索要求入力部 42 同義語集約処理部 43 カテゴリ因子インデックス参照部 44 対応文書検索部 45 検索結果出力部
Claims (4)
- 【請求項1】 ユーザの検索要求に合致した文書情報を
検索する情報検索装置において,文書ベース中に特徴的
に出現する主題分野またはその細分類として統計的に求
められた各カテゴリ因子の特徴量を用いて,文書ベース
中の各文書に関連の強いカテゴリ因子を抽出し,各文書
とそれに関連するカテゴリ因子との関係をインデックス
化したカテゴリ因子インデックスを記憶する手段と,ユ
ーザの検索要求に対して,前記カテゴリ因子インデック
スを参照し,検索要求に対応するカテゴリ因子を選択
し,そのカテゴリ因子に関連の強い文書を検索結果とす
るカテゴリ因子による検索手段とを備えることを特徴と
するカテゴリ因子による情報検索装置。 - 【請求項2】 前記カテゴリ因子として,主成分の相
関,特徴語同士の出現の相関および冗長性除去を行った
因子が用いられることを特徴とする請求項1記載のカテ
ゴリ因子による情報検索装置。 - 【請求項3】 ユーザの検索要求に合致した文書情報を
検索する情報検索方法において,文書ベース中に特徴的
に出現する主題分野またはその細分類として統計的に求
められた各カテゴリ因子の特徴量を用いて,文書ベース
中の各文書に関連の強いカテゴリ因子を抽出し,各文書
とそれに関連するカテゴリ因子との関係をインデックス
化したカテゴリ因子インデックスを作成しておき,ユー
ザの検索要求に対して,前記カテゴリ因子インデックス
を参照し,検索要求に対応するカテゴリ因子を選択し,
そのカテゴリ因子に関連の強い文書を検索結果とするこ
とを特徴とするカテゴリ因子による情報検索方法。 - 【請求項4】 コンピュータによってユーザの検索要求
に合致した文書情報を検索するためのプログラムを記録
した記録媒体であって,検索要求を入力する処理と,あ
らかじめ文書ベース中に特徴的に出現する主題分野また
はその細分類として統計的に求められた各カテゴリ因子
と,それらの各カテゴリ因子に関連の強い文書との関係
をインデックス化したカテゴリ因子インデックスを参照
し,入力した検索要求に対応するカテゴリ因子を選択す
る処理と,選択したカテゴリ因子に関連の強い文書を検
索結果として出力する処理とをコンピュータに実行させ
るためのプログラムを記録したことを特徴とするカテゴ
リ因子による情報検索プログラム記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP36669299A JP4426041B2 (ja) | 1999-12-24 | 1999-12-24 | カテゴリ因子による情報検索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP36669299A JP4426041B2 (ja) | 1999-12-24 | 1999-12-24 | カテゴリ因子による情報検索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001184358A true JP2001184358A (ja) | 2001-07-06 |
JP4426041B2 JP4426041B2 (ja) | 2010-03-03 |
Family
ID=18487422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP36669299A Expired - Fee Related JP4426041B2 (ja) | 1999-12-24 | 1999-12-24 | カテゴリ因子による情報検索方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4426041B2 (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003076705A (ja) * | 2001-08-30 | 2003-03-14 | Nippon Yunishisu Kk | 情報処理装置およびその方法 |
JP2006065366A (ja) * | 2004-08-24 | 2006-03-09 | Nec Corp | キーワード分類装置およびその方法、端末装置ならびにプログラム |
JP2006318302A (ja) * | 2005-05-13 | 2006-11-24 | Omron Corp | データ作成装置 |
JP2008529173A (ja) * | 2005-01-31 | 2008-07-31 | テキストディガー,インコーポレイテッド | 電子文書の意味検索および取り込みのための方法およびシステム |
JP2012018536A (ja) * | 2010-07-07 | 2012-01-26 | Nec Corp | 情報検索装置、情報検索方法および情報検索プログラム |
CN101546342B (zh) * | 2009-05-08 | 2012-07-04 | 阿里巴巴集团控股有限公司 | 实现搜索服务的方法与系统 |
WO2013157712A1 (ko) * | 2012-04-17 | 2013-10-24 | Park Suk-Il | 정보검색장치 및 정보검색방법, 컴퓨터 판독가능 기록매체 |
US8862573B2 (en) | 2006-04-04 | 2014-10-14 | Textdigger, Inc. | Search system and method with text function tagging |
US9245029B2 (en) | 2006-01-03 | 2016-01-26 | Textdigger, Inc. | Search system with query refinement and search method |
US9400838B2 (en) | 2005-04-11 | 2016-07-26 | Textdigger, Inc. | System and method for searching for a query |
WO2019244276A1 (ja) * | 2018-06-20 | 2019-12-26 | 楽天株式会社 | 検索システム、検索方法、及びプログラム |
JP2020129339A (ja) * | 2019-02-12 | 2020-08-27 | Kddi株式会社 | リスク判定装置、リスク判定方法及びリスク判定プログラム |
-
1999
- 1999-12-24 JP JP36669299A patent/JP4426041B2/ja not_active Expired - Fee Related
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003076705A (ja) * | 2001-08-30 | 2003-03-14 | Nippon Yunishisu Kk | 情報処理装置およびその方法 |
JP2006065366A (ja) * | 2004-08-24 | 2006-03-09 | Nec Corp | キーワード分類装置およびその方法、端末装置ならびにプログラム |
JP2008529173A (ja) * | 2005-01-31 | 2008-07-31 | テキストディガー,インコーポレイテッド | 電子文書の意味検索および取り込みのための方法およびシステム |
US9400838B2 (en) | 2005-04-11 | 2016-07-26 | Textdigger, Inc. | System and method for searching for a query |
JP2006318302A (ja) * | 2005-05-13 | 2006-11-24 | Omron Corp | データ作成装置 |
US9245029B2 (en) | 2006-01-03 | 2016-01-26 | Textdigger, Inc. | Search system with query refinement and search method |
US9928299B2 (en) | 2006-01-03 | 2018-03-27 | Textdigger, Inc. | Search system with query refinement and search method |
US10540406B2 (en) | 2006-04-04 | 2020-01-21 | Exis Inc. | Search system and method with text function tagging |
US8862573B2 (en) | 2006-04-04 | 2014-10-14 | Textdigger, Inc. | Search system and method with text function tagging |
CN101546342B (zh) * | 2009-05-08 | 2012-07-04 | 阿里巴巴集团控股有限公司 | 实现搜索服务的方法与系统 |
JP2012018536A (ja) * | 2010-07-07 | 2012-01-26 | Nec Corp | 情報検索装置、情報検索方法および情報検索プログラム |
WO2013157712A1 (ko) * | 2012-04-17 | 2013-10-24 | Park Suk-Il | 정보검색장치 및 정보검색방법, 컴퓨터 판독가능 기록매체 |
WO2019244276A1 (ja) * | 2018-06-20 | 2019-12-26 | 楽天株式会社 | 検索システム、検索方法、及びプログラム |
JP6639743B1 (ja) * | 2018-06-20 | 2020-02-05 | 楽天株式会社 | 検索システム、検索方法、及びプログラム |
JP2020129339A (ja) * | 2019-02-12 | 2020-08-27 | Kddi株式会社 | リスク判定装置、リスク判定方法及びリスク判定プログラム |
JP7017531B2 (ja) | 2019-02-12 | 2022-02-08 | Kddi株式会社 | リスク判定装置、リスク判定方法及びリスク判定プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4426041B2 (ja) | 2010-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9864808B2 (en) | Knowledge-based entity detection and disambiguation | |
US8108405B2 (en) | Refining a search space in response to user input | |
US8346795B2 (en) | System and method for guiding entity-based searching | |
KR101732342B1 (ko) | 신뢰 질의 시스템 및 방법 | |
US7260570B2 (en) | Retrieving matching documents by queries in any national language | |
KR100756921B1 (ko) | 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체. | |
US8332439B2 (en) | Automatically generating a hierarchy of terms | |
US20040049499A1 (en) | Document retrieval system and question answering system | |
US20080133479A1 (en) | Method and system for information retrieval with clustering | |
US20100077001A1 (en) | Search system and method for serendipitous discoveries with faceted full-text classification | |
WO2007035912A2 (en) | Document processing | |
JP2005526317A (ja) | ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム | |
WO2002048921A1 (en) | Method and apparatus for searching a database and providing relevance feedback | |
Krishnaveni et al. | Automatic text summarization by local scoring and ranking for improving coherence | |
US20120130999A1 (en) | Method and Apparatus for Searching Electronic Documents | |
JP4426041B2 (ja) | カテゴリ因子による情報検索方法 | |
Tkach | Text Mining Technology | |
Wu et al. | Searching online book documents and analyzing book citations | |
Kanavos et al. | Topic categorization of biomedical abstracts | |
WO2009035871A1 (en) | Browsing knowledge on the basis of semantic relations | |
Alanzi et al. | Query-Focused Multi-document Summarization Survey | |
Reddy et al. | Cross lingual information retrieval using search engine and data mining | |
KR20070072929A (ko) | 데이터 처리 시스템 및 방법 | |
Bernardes et al. | Exploring NPL: Generating Automatic Control Keywords | |
US20020138482A1 (en) | Process for nonlinear processing and identification of information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090529 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090609 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090810 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20090810 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20090810 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090908 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091106 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091208 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091210 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121218 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121218 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131218 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |