JP2001184358A - カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体 - Google Patents

カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体

Info

Publication number
JP2001184358A
JP2001184358A JP36669299A JP36669299A JP2001184358A JP 2001184358 A JP2001184358 A JP 2001184358A JP 36669299 A JP36669299 A JP 36669299A JP 36669299 A JP36669299 A JP 36669299A JP 2001184358 A JP2001184358 A JP 2001184358A
Authority
JP
Japan
Prior art keywords
category
factor
document
search
category factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP36669299A
Other languages
English (en)
Other versions
JP4426041B2 (ja
Inventor
Tadashi Hoshiai
忠 星合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP36669299A priority Critical patent/JP4426041B2/ja
Publication of JP2001184358A publication Critical patent/JP2001184358A/ja
Application granted granted Critical
Publication of JP4426041B2 publication Critical patent/JP4426041B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 ユーザが意図したジャンル(文書の主題分
野)レベルの検索を可能とし,検索もれも検索誤りも少
ない情報検索装置を実現することを目的とする。 【解決手段】 文書ベース1中に特徴的に出現する主題
分野またはその細分類として統計的に求められた各カテ
ゴリ因子と,それに関連する各文書11との関係をイン
デックス化し,カテゴリ因子インデックス格納部3に記
憶しておく。カテゴリ因子検索部4は,ユーザの検索要
求に対して,カテゴリ因子インデックスを参照し,検索
要求に対応するカテゴリ因子を選択し,そのカテゴリ因
子に関連の強い文書を検索結果とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は,電子化文書に関す
る情報利用技術(検索,分類,特徴語抽出等)に係り,
特に検索のもれが少なく,かつ検索結果の高精度な絞り
込みを可能としたカテゴリ因子による情報検索装置,情
報検索方法およびそのプログラム記録媒体に関する。
【0002】
【従来の技術】インターネットの普及や電子化文書の普
及に伴い,情報検索技術や文書の自動分類などの情報利
用技術が進展してきている。これに伴い,企業が保有す
る文書資産,情報資産やインターネット上で公開されて
いる文書資産,情報資産をさらに深いレベルで活用した
いという要求が高まっている。このためには,情報検索
技術や文書の自動分類等の情報利用技術の一層の進展が
望まれる。
【0003】従来の情報検索では,主に単語または文字
列を検索キーとして,それに一致する単語または文字列
を含む文書情報を検索するのが一般的であった。この検
索において,検索文字列を同義語(または類義語)にま
で拡張して検索するものはあったが,単語レベルの検索
であることには変わりなく,ジャンル(文書の主題分
野)のレベルで,検索対象の効果的な絞り込みを高精度
で行うシステムは用いられていない。
【0004】
【発明が解決しようとする課題】現在の情報検索技術や
自動分類技術では適合率や分類精度の低さが問題であ
り,例えば検索結果をもとに再検索する場合の絞り込み
の支援などの必要性が高まってきている。検索結果の絞
り込みにあたって,追加のキーワードの侯補を示すこと
による検索支援技術が必要である。
【0005】また,情報利用機能として,情報検索ツー
ルや自動分類ツール,特徴語抽出ツールなど,個別のア
プリケーションになっている場合が多く,情報利用の統
合的アプローチとして,検索や分類等に共通の統計的特
徴量を基盤とするオントロジー的特徴語ベースヘの発展
の可能性を探る必要があると考えられる。
【0006】さらに,情報利用にあたり,文字列レベル
/形態素レベルの統計処理にとどまらず,対象領域に関
する情報内容のレベルで処理するための要約技術,機械
学習,テキストデータマイニングなどの知識獲得関連技
術が盛んになり,自然言語処理技術も要求されるように
なってきており,知識処理,文脈処理のための文脈同
定,対話状況認識のための基礎技術を探ることも重要で
ある。
【0007】これらの技術の課題は,文字列レベルの情
報利用技術と,理想である意味レベルの情報利用技術の
間のギャップに関連すると考えられるが,本発明では,
その中間レベルとして文書の主題分野としての分類カテ
ゴリやカテゴリ因子のレベルでの情報利用技術に着目し
ている。
【0008】具体例に従って,従来の文字列・単語レベ
ルの検索技術の問題点を説明すると以下のとおりであ
る。例えば,ユーザが「<数式>に関連する分野の文
書」を検索したかったとする。ユーザが意図するこれら
の文書には,“数式”の同義語である“式”や“計算
式”,あるいは同義語以外の関連語が含まれると想定さ
れる。しかし,単語“数式”を含む文書のみを検索結果
とする従来の検索システムでは,“計算式”を含む文書
は検索されないので,検索もれが生じてしまう。
【0009】また,従来,検索キーについて同義語展開
を行うシステムもあるが,従来の同義語展開を行う検索
システムでは,“数式”の同義語である“式”や“計算
式”を含むすべての文書を検索結果の候補とする。とこ
ろが,単語“式”は多義語であり,“数式”という意味
以外に“儀式”という意味も内包しているので,本来の
目的以外の文書も検索結果に含んでしまうことになり,
いわゆるゴミと呼ばれる検索結果の誤り部分が多くなっ
てしまう。
【0010】また,例えばユーザが「<日本料理>に関
連する分野の文書」の検索を意図した場合,文字列“日
本料理”を検索キーとして入力すると,従来の単語レベ
ルの検索では,単語“日本料理”を含む文書,またはそ
れらの文書と,単語“日本料理”を同義語展開して得ら
れた単語“和食”を含む文書を検索結果とする。したが
って,従来の技術では,単語“日本料理”と同義語では
ない“寿司”,“天ぷら”というような単語を含む文書
は検索されないことになる。しかし,ユーザの検索意図
として,“寿司”,“天ぷら”などを含む文書について
も検索したい場合があり,このような場合には,検索も
れが生じてしまうことになった。
【0011】本発明は上記問題点の解決を図り,ユーザ
が意図したジャンル(文書の主題分野)レベルの検索を
可能とし,検索もれも検索誤りも少ない検索手段を提供
することを目的とする。
【0012】
【課題を解決するための手段】文書情報の自動分類や検
索などの統計的アプローチにおいては,文書内容の対象
分野(情報カテゴリ)の語彙の統計的特性を利用してい
る。例えば,検索は語と文書(群)との相関,分類はカ
テゴリと語の相関,語のクラスタリングは語と語の相関
を分析対象とした技術である。本発明では,さらに,カ
テゴリとカテゴリ因子の相関や,カテゴリ因子と語の相
関を分析対象に加えたことが特徴であり,検索要求とカ
テゴリ因子の相関,文書とカテゴリ因子の相関などを用
いることにより,検索要求と文書との相関を求める媒介
的な役割をカテゴリ因子に意図している。
【0013】ここでカテゴリ因子とは,文書の主題分野
あるいはその細分類を表す様々な情報カテゴリを識別す
るための弁別的素性を意図しているが,計算可能な範囲
で実現する。
【0014】本発明では,このジャンルのレベルの検索
手段として,関連する発明(特願平ll−49501号
「文書処理装置及びそのプログラム記憶媒体」)による
カテゴリ因子分解技術を利用して,文章に含まれるカテ
ゴリ因子を抽出する。また,カテゴリ因子と相関の強い
特徴語リストとその相関の強さを用いて,検索要求に対
して語を割り当てる。
【0015】以上の点に鑑み,本発明は,文書ベース中
に特徴的に出現する主題分野またはその細分類として統
計的に求められた各カテゴリ因子の特徴量を用いて,文
書ベース中の各文書に関連の強いカテゴリ因子を抽出
し,各文書とそれに関連するカテゴリ因子との関係をイ
ンデックス化したカテゴリ因子インデックスを記憶する
手段と,ユーザの検索要求に対して,カテゴリ因子イン
デックスを参照し,検索要求に対応するカテゴリ因子を
選択し,そのカテゴリ因子に関連の強い文書を検索結果
とするカテゴリ因子による検索手段とを備えることを特
徴とする。
【0016】前記カテゴリ因子として,主成分の相関,
特徴語同士の出現の相関および冗長性除去を行った因子
を用いる。
【0017】検索対象の文書ベースが複数ある場合に
は,各々の文書ベースについて作成されたローカルなカ
テゴリ因子インデックスと,それらを統合して作成され
た統合カテゴリ因子インデックスとを,カテゴリ因子イ
ンデックスとして利用してもよい。
【0018】カテゴリ因子による検索手段は,検索要求
に対応するカテゴリ因子を選択する際に,例えば検索要
求に含まれる文字列が特定のカテゴリ因子の名称と一致
するかどうか,特定のカテゴリ名と一致するかどうか,
特定のカテゴリ因子に関連の強い特徴語が一致するかど
うか,または特定のカテゴリ因子の兄弟因子に関連の強
い特徴語が一致するかどうかによって,該当するカテゴ
リ因子を選択する。
【0019】以上の各処理手段をコンピュータによって
実現するためのプログラムは,コンピュータが読み取り
可能な可搬媒体メモリ,半導体メモリ,ハードディスク
などの適当な記録媒体に格納することができる。
【0020】
【発明の実施の形態】図1は,本発明の構成例を示すブ
ロック図である。図中,1A,1B,…は,例えばそれ
ぞれ新聞,雑誌,学会論文,…というような同種の文書
群からなる文書ベースであり,個々の新聞,記事,論文
などの電子化(コード化)された文書11A,11B,
…を備える。カテゴリ因子インデクシング部2は,これ
らの文書ベース1A,1B,…からカテゴリ因子インデ
ックスを作成するものである。文書ベースは,必ずしも
複数ある必要はない。
【0021】文書ベースが複数ある場合,カテゴリ因子
インデックスとして,個々の文書ベース11A,11
B,…に対応して作成されるローカルカテゴリ因子イン
デックス31A,31B,…と,これらのローカルなイ
ンデックスを統合した統合カテゴリ因子インデックス3
2とが設けられる。これらは,コンピュータが読み取り
可能なカテゴリ因子インデックス格納部3に格納され
る。文書ベースが一つだけの場合には,そのローカルな
カテゴリ因子インデックスだけが使用される。
【0022】カテゴリ因子検索部4は,カテゴリ因子イ
ンデクシング部2によって文書ベース1A,1B,…中
に特徴的に出現する主題分野あるいはその細分類として
統計的に求められたカテゴリ因子を媒介として文書検索
を行うものであり,ユーザからの検索要求を入力し処理
する検索要求入力部41,同義語辞書5を用いて検索入
力に含まれる語を1つの同義語のエントリに集約する同
義語集約処理部42,統合カテゴリ因子インデックスお
よびローカルカテゴリ因子インデックスを参照して検索
要求に対応するカテゴリ因子を求めるカテゴリ因子イン
デックス参照部43,求めたカテゴリ因子から関連の強
い文書を検索する対応文書検索部44および文書とカテ
ゴリ因子との適合度に応じて検索結果をソートし出力す
る検索結果出力部45を備える。
【0023】カテゴリ因子インデクシング部2とカテゴ
リ因子検索部4とは,コンピュータとそれを動作させる
ソフトウェア・プログラムとによって実現される。
【0024】図2は,本発明で用いるカテゴリ因子を説
明する図であって,特に文書ベースが新聞であるときの
カテゴリ因子の例を示している。図中,(a)はカテゴ
リ因子を分類する分類名であるカテゴリ名,(b)は各
カテゴリ因子に一意に付与される識別子である因子I
D,(c)は各カテゴリ因子に対して付与されたカテゴ
リ因子名称,(d)は各カテゴリ因子に関連の強い特徴
語の集合である。
【0025】ここでいうカテゴリとは,その文書(情
報)が属する分類であり,例えば新聞記事というカテゴ
リ内において,「政治」,「経済」等のカテゴリが存在
し,「政治」というカテゴリ内において「選挙」,「外
交」等のカテゴリが存在する。すなわち,カテゴリとは
分類(分類した結果または分類した結果に則した入れ
物)の意味である。カテゴリには階層が存在する。カテ
ゴリ因子とは,カテゴリ内において更に細分類したカテ
ゴリをいい,上位のカテゴリから見た場合における下位
のカテゴリを指す。カテゴリ因子による文書の処理は,
単語レベルと意味レベルとの中間に位置する処理と言え
る。
【0026】カテゴリ因子名称は,必要に応じて,その
カテゴリ因子に属する特徴語の群を参照し人間が付与す
る。すなわち,カテゴリ因子インデクシング部2は,文
書群からカテゴリ因子を抽出すると,それに強く関連す
る特徴語を表示し,カテゴリ因子名称の入力を促す。こ
こで入力された名前が,カテゴリ因子名称として登録さ
れる。なお,カテゴリ因子名称は,省略することも可能
である。
【0027】以下,図1に示す装置の詳細について説明
する。
【0028】(1)ジャンルのレベルの検索の概要 本発明では,カテゴリ因子をもとにして,同じ主題分野
の文書群を規定し,検索に利用する。
【0029】カテゴリ因子インデクシング部2は,予
め,詳しくは後述するカテゴリ因子分解技術により,対
象とする文書ベース1A,1B,…からカテゴリ因子を
抽出しておく。さらに,個々の文書11A,11B,…
から相関の大きいカテゴリ因子を抽出した文書分析表を
作成する。次に,文書分析表の逆関係であるカテゴリ因
子のインデックステーブルを作成する。文書ベースが複
数個ある場合には,各文書ベースを統合したインデック
ステーブルを作成する。この場合,個々の文書ベース
(1A,1B)におけるインデックステーブルをローカ
ルカテゴリ因子インデックス(31A,31B)と呼
び,これらを統合したインデックステーブルを統合カテ
ゴリ因子インデックス(32)と呼ぶ。
【0030】これらをもとにして,カテゴリ因子検索部
4は,ユーザの検索入力に対し,同義語集約処理,カテ
ゴリ因子との関連付け,カテゴリ因子インデックスの表
引きにより,対応するカテゴリ(カテゴリ因子)の文書
を検索する。
【0031】(2)カテゴリ因子インデクシング部2の
処理 図3に,カテゴリ因子インデクシング部2の処理フロー
を示す。カテゴリ因子インデクシング部2は,カテゴリ
因子分解技術により得た各カテゴリ因子の特徴量を用い
て,文書ベース中の各文書と関連の強いカテゴリ因子を
抽出する(図3のS1,S2)。このカテゴリ因子の抽
出では,例えば特願平ll−49501号「文書処理装
置及びそのプログラム記憶媒体」に開示されている技術
を用いる。以下に,このカテゴリ因子の抽出処理(カテ
ゴリ因子分解処理)について説明する。
【0032】図4は,カテゴリ因子の抽出処理を示すフ
ローチャートである。まず,検索対象となる文書を入力
する(ステップS11)。次に,入力した文書につい
て,単語辞書(図示省略)を用いて形態素解析を行い,
この結果に基づいて各単語の出現頻度を求め,それから
単語の出現確率を求める(ステップS12)。求めた単
語の出現確率に基づいて,当該文書に特徴的に出現する
単語を特徴語として抽出する(ステップS13)。
【0033】次に,抽出した特徴語に基づいてあらかじ
め特徴語相関行列を求め,さらに特徴語および特徴語相
関行列に基づいて主成分分析を行うことにより,主成分
係数を求める(ステップS14)。この主成分分析で
は,例えば特開平10−111869号公報に開示され
ている方法を用いることができる。
【0034】次に,求めた主成分係数と特徴語とを用
い,特徴語の出現傾向を表す座標系に基づいて主成分の
各々に対応する特徴語の群を求め,当該特徴語の群と主
成分の各々との相関の強さを用いて,特徴語の群の多い
主成分を選択し,それを主成分因子とし,主成分因子と
の相関が高い特徴語を選択して因子特徴語とし,主成分
因子と因子特徴語とからなるカテゴリ因子を抽出する
(ステップS15)。
【0035】さらに,分解された複数の主成分からなる
カテゴリ因子について,当該複数の主成分の各々とこれ
らに対応する特徴語の群との相関の強さを用いて,当該
カテゴリ因子を1または複数の主成分からなるクラスタ
に分解する(ステップS16)。すなわち,特徴語相関
行列から特徴語対の相関の大きい順にグルーピングを行
い,クラスタを成長させる。
【0036】最後に,複数の主成分からなるカテゴリ因
子またはクラスタにおける重複する主成分を除去し,冗
長部分の簡略化を行う(ステップS17)。
【0037】以上の処理により求めたカテゴリ因子を用
いて,各文書と関連するカテゴリ因子の関係をインデッ
クス化し,検索時にそのインデックスファイルを参照す
ることにより,検索処理を高速化することを可能にす
る。
【0038】(3)文書ベース内のカテゴリ因子の対応
付け,統合 図3に示すステップS1の詳細について説明する。対象
となる文書ベースに対して,前記カテゴリ因子分解技術
を適用すると,当該文書ベースに対する代表的なカテゴ
リ因子が抽出される。
【0039】次に,文書ベース内の分類カテゴリ間でカ
テゴリ因子を比較し,類似度の大きい因子同士を1本化
する。すなわち,文書ベース内のカテゴリ因子の対応付
けを行う。類似度としては,ユークリッド距離,マハラ
ノビスの距離,コサイン距離などを用いればよい。
【0040】ある文書ベース(Aで表す)において,元
のカテゴリ因子#j1 と#j2 とが対応付けられたと
き,これらの対応する因子をマージしたカテゴリ因子#
mに関して,#mの因子IDと,#mの文書頻度と,#
mの特徴語wi の重み付けと,マージ後のカテゴリ因子
を定める。
【0041】#mの因子ID:文書ベースAにおける最
大の因子ID+1 #mの文書頻度
【0042】
【数1】
【0043】#mの特徴語wi の重み付け
【0044】
【数2】
【0045】(4)文書からのカテゴリ因子の抽出(文
書分析表の作成) 次に,図3に示すステップS2の詳細について説明す
る。図5は,文書分析とカテゴリ因子インデクシングを
説明する図である。カテゴリ因子分解や文書ベース内で
のカテゴリ因子対応付けのときに得た各種分析パラメー
タを利用して,個々の文書Dk とカテゴリ因子#jとの
相関を計算する。Zj (k) を文書Dk の主成分得点寄与
分とすると,Zj (k) は,以下の式で求められる。
【0046】
【数3】
【0047】ここで,文書Dk に含まれるカテゴリ因子
#jの集合J(k)は,適当な閾値λ(≧0)を用い
て, J(k)={#j|zj (k) >λ} となる。
【0048】この結果,図5にあるような文書分析表3
3が得られる。文書分析表33は,各文書を識別する文
書IDごとに,その文書に関連の強いカテゴリ因子と,
そのカテゴリ因子の文書への適合度の情報を持つ。文書
ID=1の文書を例に説明すると,文書分析表33で
は,文書ID=1の文書は,因子ID=#1〔カテゴリ
因子名称=CTBT(核実験全面禁止条約)〕のカテゴ
リ因子に適合度=0.554の大きさで関連し,因子I
D=#3〔カテゴリ因子名称=IAEA(原子力委員
会)〕のカテゴリ因子に適合度=0.718の大きさで
関連していることが示されている。
【0049】以上のように,カテゴリ因子分解技術によ
り抽出した各カテゴリ因子の特徴量を用いて,文書ベー
ス中の個々の文書と関連の強いカテゴリ因子が抽出さ
れ,図5に示すような文書分析表33が文書ベースごと
に作成される。
【0050】(5)ローカルなカテゴリ因子インデック
スのテーブル作成 図3に示すステップS3では,以下に説明する処理を行
う。上記文書からのカテゴリ因子の抽出結果をもとにし
て,各カテゴリ因子に対応する全ての文書のID番号を
列挙したインデックスのテーブルを作成する。すなわ
ち,ステップS2で作成した文書分析表33から,図5
に示すカテゴリ因子インデックス31を作成する。これ
を用いて特定のローカルなカテゴリ因子のID番号(因
子ID)から,関連の深い文書のID番号(文書ID)
を高速に検索することができる。
【0051】(6)統合カテゴリ因子インデックスのテ
ーブル作成 次に,図3に示すステップS4では,以下のように統合
カテゴリ因子インデックス(統合オントロジー)を作成
する。
【0052】複数の文書ベースにおいて,対応するカテ
ゴリ因子を1つのエントリとし,独立なカテゴリ因子は
そのまま1つのエントリとしてマージすることにより,
統合オントロジーを作成する。統合オントロジーにおけ
る因子ID番号と,各文書ベースの因子IDは互いに参
照できるようにそれぞれ参照テーブルを作成しておく。
【0053】文書ベースA,B,…において,元のカテ
ゴリ因子#jA ,#jB ,…がカテゴリ因子対応付けに
より対応付けられたとき,これらの対応する因子をマー
ジした統合カテゴリ因子#nに関して,次のように統合
カテゴリ因子を定める(図5)。
【0054】#nの因子ID:統合因子における最大の
因子ID+1 #nの文書頻度
【0055】
【数4】
【0056】#nの特徴語wi の重み付け
【0057】
【数5】
【0058】図6に,統合カテゴリ因子インデックスの
作成例を示す。図6の例では,原子力白書の文書ベース
から作成したローカルカテゴリ因子インデックス31A
と,○○新聞の文書ベースから作成したローカルカテゴ
リ因子インデックス31Bとから,これらを統合した統
合カテゴリ因子インデックス32を作成している。統合
カテゴリ因子インデックス32におけるローカル因子I
Dは,文書ベースの番号と,その文書ベースにおける因
子IDの組で表される。例えば,「2#14」は,第2
の文書ベースにおける因子IDが#14のカテゴリ因子
を表している。この例では,「NPT」のカテゴリ因子
は,原子力白書および○○新聞の文書ベースの双方にあ
り,原子力白書の文書ベースでは因子IDが#2のカテ
ゴリ因子,○○新聞の文書ベースでは因子IDが#36
のカテゴリ因子となっていることがわかる。
【0059】(7)特徴語統合インデックスの作成 図3に示すステップS5では,統合カテゴリ因子と相関
の強い特徴語リストを利用して,その逆関係から特徴語
インデックスのテーブルである特徴語統合インデックス
(図示省略)を作成する。これは,各特徴語を見出しと
して,当該特徴語と関連の強いカテゴリ因子のID番号
を値とするテーブルである。また,カテゴリ因子と特徴
語の相関度もテーブルに格納する。この特徴語統合イン
デックスは,実質的には統合カテゴリ因子インデックス
32と同様な情報を持つものであるため,特徴語による
高速な検索を必要としない場合には,作成しなくてもよ
い。
【0060】以上がカテゴリ因子インデクシング部2の
処理である。
【0061】(8)検索要求処理 カテゴリ因子検索部4は,カテゴリ因子インデクシング
部2によって作成された統合オントロジーに基づいて,
ユーザからの検索要求を処理する。オントロジーによる
検索要求処理は,大別して,入力処理,同義語集約処
理,検索要求−因子対応処理,統合カテゴリ因子処理,
ローカルカテゴリ因子処理からなる。
【0062】検索要求−カテゴリ因子対応としては, 1)特定のカテゴリ因子名称と一致, 2)特定のカテゴリ名と一致 → 子のカテゴリ因子, 3)特徴語が対応するカテゴリ因子, 4)特徴語が対応するカテゴリ因子の兄弟因子, があり,優先順位は,1)が最も高く,続いて,2),
3),4)の順に低くなる。検索では,順位が高い方を
優先する。例えば,検索文字列が特定のカテゴリ名と一
致した場合,そのカテゴリに属するすべてのカテゴリ因
子との対応がとれたものとして扱う。
【0063】ユーザから検索文字列を受け取ると,検索
文字列をキーとして,特徴語統合インデックスを参照
し,対応する文書のID番号を得る。
【0064】図7は,カテゴリ因子検索部4の処理フロ
ーチャートである。また,図8は,カテゴリ因子による
検索の概要を示す。以下,これらの図に従って,カテゴ
リ因子検索部4の処理を詳細に説明する。
【0065】(9)ユーザの検索入力処理(図7のステ
ップS21) ユーザの入力した文字列を,ユーザインタフェースモジ
ュールから検索要求として受け取り,処理する。入力文
字列は,区切り文字(半角および全角の空白文字)によ
って区切られた検索文字列とする。また,論理式の入力
の場合には,論理記号のスコープに注意して処理する。
【0066】(10)同義語集約処理(図7のステップ
S22) 同義語を1つのエントリーに集約するため,同義語集約
処理を行う。検索入力の中に同義語辞書5に登録された
語があれば,それらを同義代表語に置き換えて代表さ
せ,1つのエントリーに集約する(図8参照)。
【0067】(11)統合カテゴリ因子インデックスの
参照(図7のステップS23) 検索文字列をキーとして,統合カテゴリ因子インデック
ス32または特徴語統合インデックスのテーブルを参照
し,統合オントロジーにおける因子ID番号を引く。検
索文字列がカテゴリ因子名称またはカテゴリ名と一致す
るようなカテゴリ因子,あるいは検索文字列を特徴語と
するようなカテゴリ因子を見つける。検索文字列Sとカ
テゴリ因子#jとの関連度r(#j,S)を統合カテゴ
リ因子インデックス32または特徴語統合インデックス
から得る。
【0068】(12)ローカルカテゴリ因子インデック
スの参照(図7のステップS24) さらに,この統合カテゴリ因子の因子ID番号(統合因
子ID)をもとにして,各文書ベースにおいて対応する
ローカルなカテゴリ因子のID番号(ローカル因子I
D)を得る。次に,ローカル因子IDをもとに,選択し
たカテゴリ因子に対応する文書Dk のID番号(文書I
D)を,該当するローカルカテゴリ因子インデックスか
ら得る。
【0069】(13)対応文書の検索(図7のステップ
S25) 選択したカテゴリ因子に対応する文書Dk のID番号
(文書ID)を,該当するローカルカテゴリ因子インデ
ックスから求めたならば,その文書Dk に対する主成分
得点寄与分を,Z(Dk ,#j)とする。
【0070】(14)検索結果ランキングおよび出力
(図7のステップS26,S27) 各検索結果の文書に対して,その主成分得点寄与分と,
検索文字列Sとカテゴリ因子#jとの関連度との積〔Z
(Dk ,#j)×r(#j,S)〕を計算し,この値の
大きい順に検索結果の文書をソートし,表示する。
【0071】図9に,カテゴリ因子による検索の例を示
す。検索要求の検索キーとして,例えば「グリーンピー
ス」の検索文字列が入力されたとする。これに対して,
図7に示す手順に従って検索処理が実行され,検索結果
のランキングが行われると,その結果が,例えば図9に
表示画面16として示すように表示される。これをもと
に,検索者であるユーザは,ジャンル表示,文書内容表
示,ジャンル文脈表示などの指示を行い,必要な情報を
容易に入手することができる。
【0072】次に,従来技術による文字列・単語レベル
の検索と,本発明によるジャンルのレベルの検索との違
いを,具体的な検索結果を比較することによって説明す
る。図10〜図25は,文字列・単語レベルの検索とジ
ャンルのレベルの検索の差異を示すため,それぞれの検
索結果の文書集合の違い,また,ユーザの検索意図との
違いを図示したものである。これらの図では,上記
(8)の検索要求処理における「検索要求−カテゴリ因
子対応」の内の3つの場合分け[1)特定のカテゴリ因
子名称と一致,2)特定のカテゴリ名と一致,3)特徴
語が対応するカテゴリ因子]について,図示した。ま
た,4)特徴語が対応するカテゴリ因子の兄弟因子に関
しては,3)と同じ考え方でよいので省略した。
【0073】最初に,図10〜図12に示す例に従っ
て,「検索要求−カテゴリ因子対応」における「1)特
定のカテゴリ因子名称と一致」の場合を説明する。図1
0および図11が単語レベルの検索を表しており,図1
2が本発明によるジャンルレベルの検索を表している。
【0074】図10は,単語検索において,入力する検
索式として,“数式”という単語が与えられた場合を想
定している。単語検索では,入力された単語“数式”を
含むようなすべての文書を検索結果として得ることにな
る。これに相当する文書集合は,図10において市松模
様で示す部分であり,検索結果として正解になってい
る。
【0075】しかし,右上がり斜線の部分は,意味とし
ては同じく<数式>の分野の文書であるものの,単語
“数式”が含まれない文書であり,検索結果から漏れて
しまっている。すなわち,この斜線部分は,検索もれの
部分である。これらの文書中には,単語“数式”ではな
く,“数式”の同義語である“式”や“計算式”,ある
いは同義語以外の関連語が含まれると想定される。
【0076】ユーザの本来の検索意図は,「単語“数
式”を含む文書」ではなく,「<数式>に関連する分野
の文書」である。すなわち,図中の市松模様の部分と右
上がりの斜線部分との和集合である。このことから,図
10の単語検索では,検索もれの部分が大きく,問題が
ある。
【0077】また,図11は,従来技術による検索であ
って,検索もれを防ぐ一般的な手段である同義語展開を
行った場合を示している。この場合には,単語“数式”
の同義語である“式”や“計算式”などを用いて,同義
語をorで結んだものを検索式としている。これによ
り,図11では,同義語の分だけ検索結果の正解部分が
広がっている。
【0078】しかし,単語“式”はいわゆる多義語であ
り,“数式”という意味以外に“儀式”という意味も内
包しているので,本来の目的(ユーザ意図)以外の文書
も検索結果に含んでしまう。これが検索結果の誤り部分
(いわゆるゴミ)である。
【0079】また,同義語展開では,当然ながら同義語
以外の関連語(関数,同値変形など)を使って記述され
た文書を検索することはできない。
【0080】これに対し,図12は,本発明を用いたジ
ャンルのレベルの検索の場合を示している。例えば,対
象分野としての<数式>に対してカテゴリ因子の「#数
式」がほぼ対応する場合には,文書集合もほぼ等しくな
る。この場合には,ユーザ意図の文書集合と,ジャンル
レベルの検索結果がほぼ対応する。この図12から,本
発明によるジャンルレベルの検索を行えば,図10や図
11の場合と比べて,検索もれも,検索誤りも減少させ
ることができることが明らかである。
【0081】次に,図13〜図16に従って,「検索要
求−カテゴリ因子対応」における「2)特定のカテゴリ
名と一致」の場合の例を説明する。
【0082】図13は,従来の単語レベル検索におい
て,検索式S=“日本料理”を与えた場合である。検索
結果の正解部分は,単語“日本料理”を含む文書集合
(市松模様部分)であり,ユーザ意図は,これに“日本
料理”の同義語や関連語を含む文書集合(右上がり斜線
部分)を加えたものである。したがって,図10と同様
に検索もれは多い。
【0083】図14は,従来の単語レベル検索におい
て,さらに同義語展開を行って,検索式S=“日本料
理”or“和食”とした場合を表している。検索結果の
正解部分は,単語“日本料理”あるいは“和食”を含む
文書集合(市松模様部分)であり,図13の場合よりは
正解部分が増えたものの,ユーザが意図する部分につい
て未だ検索もれが多い。
【0084】図15は,新たな検索行動をとったものを
示しているわけではなく,図14の精密化を行ったもの
を示している。<日本料理>という分野は広いので,図
14の検索結果の細分類を考えることができる。例え
ば,<日本料理>の分野の中には,寿司,天ぷらなどが
あり,これらは“日本料理”の同義語以外の関連語とし
て文書中に含まれる。そこで,“日本料理”の関連語と
“日本料理”の細分類の関係を見直すと,右上がり斜線
の部分のようになる。なお,点線で囲まれた白地の部分
は,当該関連語が対応する細分類には通常含まれないと
考えられる部分である。
【0085】これに対し,図16は,本発明を用いたジ
ャンルのレベルの検索の場合を示している。ここでは,
検索入力の「日本料理」に対応する対象分野<日本料理
>の下位集合として,4つのカテゴリ因子,#日本料理
一般,#寿司,#天ぷら,#その他,が存在するとして
いる。この場合,この4つのカテゴリ因子に対応する文
書集合の集合和が,対象分野<日本料理>の文書集合に
相当すると考えられる。図16から明らかなように,こ
こでは図14において検索されなかったユーザ意図に対
応する部分が検索されており,望ましい検索結果が得ら
れることが分かる。
【0086】次に,図17〜図21に従って,「検索要
求−カテゴリ因子対応」における「3)特徴語が対応す
るカテゴリ因子」の場合の例を説明する。
【0087】図17は,従来の単語レベル検索におい
て,検索式S=“エンドウ”を与えた場合である。検索
結果の正解部分は,単語“エンドウ”を含む文書集合
(市松模様部分)であるが,ユ―ザ意図は,これに“エ
ンドウ”の同義語や関連語を含む文書集合(右上がり斜
線部分)を加えたものであるから,図10や図13の場
合と同様に検索もれは多い。
【0088】図18は,従来の単語レベル検索におい
て,さらに同義語展開を行って,検索式S=“エンド
ウ”or“グリーンピース”or“豌豆”…とした場合
である。検索結果の正解部分は,単語“エンドウ”ある
いは“グリーンピース”等を含む文書集合(市松模様部
分)であり,図17の場合よりは正解部分が増えたもの
の,未だ検索もれが残っている。
【0089】その上,単語“グリーンピース”には,地
球環境を守るための非営利組織という他の意味もあるの
で,この意味における環境問題の文書は,ユーザ意図と
は異なり,検索誤りのデータとなる。このように,同義
語展開を行った結果に多義語が含まれていると,それは
必ず検索誤り,すなわち,ゴミの情報の増加につなが
る。
【0090】図19は,新たな検索行動をとったものを
示しているわけではなく,図18の場合において,ユー
ザ意図の再認識を行ったものを示している。一般に,ユ
ーザが最初に思い付いた語を入力として,検索を行った
場合,その検索結果が返ってきた段階で,自分の検索意
図以外の文書が含まれているのを見て,最初の検索入力
語には自分の思い付いた以外の意味があったことに気付
くことは,よくあることである。農業や園芸に携わって
いる人が“エンドウ”という語を入力するときには,農
業の分野における“エンドウ”の話題(“エンドウ”の
栽培法や,産業としての収益性など)が念頭にあるであ
ろうし,レストランの調理師や,家庭の主婦にとっては
料理の素材としての“エンドウ”が念頭にあり,検索行
動を起こす際には他の可能性にまで気が回らない場合も
多く想定される。
【0091】この図19では,農業や園芸の関係者が検
索行動を起こした場合のユーザ意図を,市松模様+右上
がり斜線の部分で表している。図19から明らかなよう
に,<料理>の分野としての“エンドウ”や,<環境問
題>としての“グリーンピース”を含む文書集合は,検
索誤り(ゴミ)となる。
【0092】図20は,本発明を用いたジャンルのレベ
ルの検索の場合を示している。「エンドウ」は,対象分
野として選ぶには,概念が細か過ぎるので,通常,これ
にカテゴリ名やカテゴリ因子名がそのまま一致すること
はないと考えられる。この場合には,単語“エンドウ”
を特徴語とするようなカテゴリ因子に相当する文書集合
の範囲の中で考える。
【0093】単語“エンドウ”を特徴語とするようなカ
テゴリ因子は,図20のように,#農業,#料理,#環
境問題などが考えられるが,例えば,これらの候補を提
示してユーザに選択させることが考えられる。この例で
は,ユーザ意図は<農業>の分野における“エンドウ”
であるから,カテゴリ因子としては#農業が選択され
る。このままでは,図20のように,“エンドウ”に関
係ない部分の<農業>分野の文書も検索結果に入るの
で,次の図21の例のように文字列検索の結果とのAN
Dを取ることにより,ユーザ意図に近付ける。
【0094】図21は,本発明を用いたジャンルのレベ
ルの検索結果に単語レベルの検索結果との共通部分を取
るために,AND処理をしたものを表している。すなわ
ち,図18の正解部分と図20の正解部分の共通集合を
とった結果の文書集合(市松模様の部分)を最終的な検
索結果としている。
【0095】これは,検索誤りがなく,検索もれも“エ
ンドウ”の関連語に対応する部分のみとなり,軽減され
ている。
【0096】次の図22〜図25も,「検索要求−カテ
ゴリ因子対応」における「3)特徴語が対応するカテゴ
リ因子」の場合の例を示している。一点を除いて,前述
した図17〜図21の例と全く同じである。
【0097】前述した例では,単語レベルの通常の検索
として,検索入力の単語が文書中に存在するか,存在し
ないかというディスクリート(離散的)な判定基準を用
いているが,この例では,リリバンス・フィードバック
(あるいは類似検索)などと呼ばれる,単語レベルの検
索手法を用いており,指定した文書中の出現単語の共起
性や,出現単語の頻度などにより重み付けされているの
で,図22や図23のように,検索結果の文書集合の境
界が直線でなく,曲線になっている。なお,この曲線の
形状は,指定した文書の出現単語の傾向に左右される。
【0098】図24は,図20と同様に本発明を用いた
ジャンルのレベルの検索の場合を示している。また,図
25は,本発明を用いたジャンルのレベルの検索結果
に,図22に示す単語レベルの検索結果との共通部分を
取るために,AND処理をしたものを表している。
【0099】リリバンス・フィードバックは,関連語も
重み付けの対象になるので,ジャンルレベルの検索と組
み合わせれば,図25に示すように,検索結果の正解部
分を,前述した図21の例の正解部分よりも広くできる
可能性がある。もちろん,これはリリバンス・フィード
バックにおいて最初に指定する文書に依存するので,ユ
ーザ意図に近い文書を指定できるか,それとも,あまリ
ユーザ意図に近くない文書を指定してしまうかにより,
結果は良くも悪くもなり得る。
【0100】
【発明の効果】以上により,本発明によれば,文書情報
群にそれぞれ共通する情報要素としてのカテゴリ因子を
媒介として,検索を行うことが可能となる。これによ
り,ユーザの検索要求を文字列や単語でなくジャンルの
レベルで行うことが可能となり,従来の単語レベル検索
よりもユーザの検索意図に近い文書群を得ることがで
き,情報の知識化に寄与するところが大きい。また,カ
テゴリ因子を媒介することにより,複数情報源の検索に
おいて,情報源ごとの語彙の違いを吸収することができ
るという効果が期待できる。
【図面の簡単な説明】
【図1】本発明の構成例を示すブロック図である。
【図2】文書ベース(新聞)のカテゴリ因子の例を示す
図である。
【図3】カテゴリ因子インデクシング部の処理フローチ
ャートである。
【図4】カテゴリ因子の抽出処理を示すフローチャート
である。
【図5】文書分析とカテゴリ因子インデクシングを説明
する図である。
【図6】統合カテゴリ因子インデックスの作成例を示す
図である。
【図7】カテゴリ因子検索部の処理フローチャートであ
る。
【図8】カテゴリ因子による検索の概要を示す図であ
る。
【図9】カテゴリ因子による検索の例を示す図である。
【図10】従来技術による検索と本発明による検索の差
異を説明するための図である。
【図11】従来技術による検索と本発明による検索の差
異を説明するための図である。
【図12】従来技術による検索と本発明による検索の差
異を説明するための図である。
【図13】従来技術による検索と本発明による検索の差
異を説明するための図である。
【図14】従来技術による検索と本発明による検索の差
異を説明するための図である。
【図15】従来技術による検索と本発明による検索の差
異を説明するための図である。
【図16】従来技術による検索と本発明による検索の差
異を説明するための図である。
【図17】従来技術による検索と本発明による検索の差
異を説明するための図である。
【図18】従来技術による検索と本発明による検索の差
異を説明するための図である。
【図19】従来技術による検索と本発明による検索の差
異を説明するための図である。
【図20】従来技術による検索と本発明による検索の差
異を説明するための図である。
【図21】従来技術による検索と本発明による検索の差
異を説明するための図である。
【図22】従来技術による検索と本発明による検索の差
異を説明するための図である。
【図23】従来技術による検索と本発明による検索の差
異を説明するための図である。
【図24】従来技術による検索と本発明による検索の差
異を説明するための図である。
【図25】従来技術による検索と本発明による検索の差
異を説明するための図である。
【符号の説明】
1A,1B,… 文書ベース 11A,11B,… 文書 2 カテゴリ因子インデクシング部 3 カテゴリ因子インデックス格納部 31A,31B,… ローカルカテゴリ因子インデック
ス 32 統合カテゴリ因子インデックス 4 カテゴリ因子検索部 41 検索要求入力部 42 同義語集約処理部 43 カテゴリ因子インデックス参照部 44 対応文書検索部 45 検索結果出力部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 ユーザの検索要求に合致した文書情報を
    検索する情報検索装置において,文書ベース中に特徴的
    に出現する主題分野またはその細分類として統計的に求
    められた各カテゴリ因子の特徴量を用いて,文書ベース
    中の各文書に関連の強いカテゴリ因子を抽出し,各文書
    とそれに関連するカテゴリ因子との関係をインデックス
    化したカテゴリ因子インデックスを記憶する手段と,ユ
    ーザの検索要求に対して,前記カテゴリ因子インデック
    スを参照し,検索要求に対応するカテゴリ因子を選択
    し,そのカテゴリ因子に関連の強い文書を検索結果とす
    るカテゴリ因子による検索手段とを備えることを特徴と
    するカテゴリ因子による情報検索装置。
  2. 【請求項2】 前記カテゴリ因子として,主成分の相
    関,特徴語同士の出現の相関および冗長性除去を行った
    因子が用いられることを特徴とする請求項1記載のカテ
    ゴリ因子による情報検索装置。
  3. 【請求項3】 ユーザの検索要求に合致した文書情報を
    検索する情報検索方法において,文書ベース中に特徴的
    に出現する主題分野またはその細分類として統計的に求
    められた各カテゴリ因子の特徴量を用いて,文書ベース
    中の各文書に関連の強いカテゴリ因子を抽出し,各文書
    とそれに関連するカテゴリ因子との関係をインデックス
    化したカテゴリ因子インデックスを作成しておき,ユー
    ザの検索要求に対して,前記カテゴリ因子インデックス
    を参照し,検索要求に対応するカテゴリ因子を選択し,
    そのカテゴリ因子に関連の強い文書を検索結果とするこ
    とを特徴とするカテゴリ因子による情報検索方法。
  4. 【請求項4】 コンピュータによってユーザの検索要求
    に合致した文書情報を検索するためのプログラムを記録
    した記録媒体であって,検索要求を入力する処理と,あ
    らかじめ文書ベース中に特徴的に出現する主題分野また
    はその細分類として統計的に求められた各カテゴリ因子
    と,それらの各カテゴリ因子に関連の強い文書との関係
    をインデックス化したカテゴリ因子インデックスを参照
    し,入力した検索要求に対応するカテゴリ因子を選択す
    る処理と,選択したカテゴリ因子に関連の強い文書を検
    索結果として出力する処理とをコンピュータに実行させ
    るためのプログラムを記録したことを特徴とするカテゴ
    リ因子による情報検索プログラム記録媒体。
JP36669299A 1999-12-24 1999-12-24 カテゴリ因子による情報検索方法 Expired - Fee Related JP4426041B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP36669299A JP4426041B2 (ja) 1999-12-24 1999-12-24 カテゴリ因子による情報検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP36669299A JP4426041B2 (ja) 1999-12-24 1999-12-24 カテゴリ因子による情報検索方法

Publications (2)

Publication Number Publication Date
JP2001184358A true JP2001184358A (ja) 2001-07-06
JP4426041B2 JP4426041B2 (ja) 2010-03-03

Family

ID=18487422

Family Applications (1)

Application Number Title Priority Date Filing Date
JP36669299A Expired - Fee Related JP4426041B2 (ja) 1999-12-24 1999-12-24 カテゴリ因子による情報検索方法

Country Status (1)

Country Link
JP (1) JP4426041B2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003076705A (ja) * 2001-08-30 2003-03-14 Nippon Yunishisu Kk 情報処理装置およびその方法
JP2006065366A (ja) * 2004-08-24 2006-03-09 Nec Corp キーワード分類装置およびその方法、端末装置ならびにプログラム
JP2006318302A (ja) * 2005-05-13 2006-11-24 Omron Corp データ作成装置
JP2008529173A (ja) * 2005-01-31 2008-07-31 テキストディガー,インコーポレイテッド 電子文書の意味検索および取り込みのための方法およびシステム
JP2012018536A (ja) * 2010-07-07 2012-01-26 Nec Corp 情報検索装置、情報検索方法および情報検索プログラム
CN101546342B (zh) * 2009-05-08 2012-07-04 阿里巴巴集团控股有限公司 实现搜索服务的方法与系统
WO2013157712A1 (ko) * 2012-04-17 2013-10-24 Park Suk-Il 정보검색장치 및 정보검색방법, 컴퓨터 판독가능 기록매체
US8862573B2 (en) 2006-04-04 2014-10-14 Textdigger, Inc. Search system and method with text function tagging
US9245029B2 (en) 2006-01-03 2016-01-26 Textdigger, Inc. Search system with query refinement and search method
US9400838B2 (en) 2005-04-11 2016-07-26 Textdigger, Inc. System and method for searching for a query
WO2019244276A1 (ja) * 2018-06-20 2019-12-26 楽天株式会社 検索システム、検索方法、及びプログラム
JP2020129339A (ja) * 2019-02-12 2020-08-27 Kddi株式会社 リスク判定装置、リスク判定方法及びリスク判定プログラム

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003076705A (ja) * 2001-08-30 2003-03-14 Nippon Yunishisu Kk 情報処理装置およびその方法
JP2006065366A (ja) * 2004-08-24 2006-03-09 Nec Corp キーワード分類装置およびその方法、端末装置ならびにプログラム
JP2008529173A (ja) * 2005-01-31 2008-07-31 テキストディガー,インコーポレイテッド 電子文書の意味検索および取り込みのための方法およびシステム
US9400838B2 (en) 2005-04-11 2016-07-26 Textdigger, Inc. System and method for searching for a query
JP2006318302A (ja) * 2005-05-13 2006-11-24 Omron Corp データ作成装置
US9245029B2 (en) 2006-01-03 2016-01-26 Textdigger, Inc. Search system with query refinement and search method
US9928299B2 (en) 2006-01-03 2018-03-27 Textdigger, Inc. Search system with query refinement and search method
US10540406B2 (en) 2006-04-04 2020-01-21 Exis Inc. Search system and method with text function tagging
US8862573B2 (en) 2006-04-04 2014-10-14 Textdigger, Inc. Search system and method with text function tagging
CN101546342B (zh) * 2009-05-08 2012-07-04 阿里巴巴集团控股有限公司 实现搜索服务的方法与系统
JP2012018536A (ja) * 2010-07-07 2012-01-26 Nec Corp 情報検索装置、情報検索方法および情報検索プログラム
WO2013157712A1 (ko) * 2012-04-17 2013-10-24 Park Suk-Il 정보검색장치 및 정보검색방법, 컴퓨터 판독가능 기록매체
WO2019244276A1 (ja) * 2018-06-20 2019-12-26 楽天株式会社 検索システム、検索方法、及びプログラム
JP6639743B1 (ja) * 2018-06-20 2020-02-05 楽天株式会社 検索システム、検索方法、及びプログラム
JP2020129339A (ja) * 2019-02-12 2020-08-27 Kddi株式会社 リスク判定装置、リスク判定方法及びリスク判定プログラム
JP7017531B2 (ja) 2019-02-12 2022-02-08 Kddi株式会社 リスク判定装置、リスク判定方法及びリスク判定プログラム

Also Published As

Publication number Publication date
JP4426041B2 (ja) 2010-03-03

Similar Documents

Publication Publication Date Title
US9864808B2 (en) Knowledge-based entity detection and disambiguation
US8108405B2 (en) Refining a search space in response to user input
US8346795B2 (en) System and method for guiding entity-based searching
KR101732342B1 (ko) 신뢰 질의 시스템 및 방법
US7260570B2 (en) Retrieving matching documents by queries in any national language
KR100756921B1 (ko) 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
US8332439B2 (en) Automatically generating a hierarchy of terms
US20040049499A1 (en) Document retrieval system and question answering system
US20080133479A1 (en) Method and system for information retrieval with clustering
US20100077001A1 (en) Search system and method for serendipitous discoveries with faceted full-text classification
WO2007035912A2 (en) Document processing
JP2005526317A (ja) ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム
WO2002048921A1 (en) Method and apparatus for searching a database and providing relevance feedback
Krishnaveni et al. Automatic text summarization by local scoring and ranking for improving coherence
US20120130999A1 (en) Method and Apparatus for Searching Electronic Documents
JP4426041B2 (ja) カテゴリ因子による情報検索方法
Tkach Text Mining Technology
Wu et al. Searching online book documents and analyzing book citations
Kanavos et al. Topic categorization of biomedical abstracts
WO2009035871A1 (en) Browsing knowledge on the basis of semantic relations
Alanzi et al. Query-Focused Multi-document Summarization Survey
Reddy et al. Cross lingual information retrieval using search engine and data mining
KR20070072929A (ko) 데이터 처리 시스템 및 방법
Bernardes et al. Exploring NPL: Generating Automatic Control Keywords
US20020138482A1 (en) Process for nonlinear processing and identification of information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090609

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090810

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090810

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090908

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091208

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091210

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121218

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121218

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131218

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees