JP3431836B2 - ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体 - Google Patents

ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体

Info

Publication number
JP3431836B2
JP3431836B2 JP17191598A JP17191598A JP3431836B2 JP 3431836 B2 JP3431836 B2 JP 3431836B2 JP 17191598 A JP17191598 A JP 17191598A JP 17191598 A JP17191598 A JP 17191598A JP 3431836 B2 JP3431836 B2 JP 3431836B2
Authority
JP
Japan
Prior art keywords
occurrence
document
network
word
independent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP17191598A
Other languages
English (en)
Other versions
JP2000010986A (ja
Inventor
秀一 荒井
Original Assignee
株式会社トレンディ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社トレンディ filed Critical 株式会社トレンディ
Priority to JP17191598A priority Critical patent/JP3431836B2/ja
Publication of JP2000010986A publication Critical patent/JP2000010986A/ja
Application granted granted Critical
Publication of JP3431836B2 publication Critical patent/JP3431836B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、新聞記事、技術文
書、文芸著作文書等より特定な単語を抽出し、その単語
同士をネットワーク形式で関係付けることによって行う
ドキュメントデータベースの利用に関し、特に複数の文
書を対象とした検索を行う場合に有効な技術に関する。
【0002】ネットワークやCD−ROM等の電子デー
タ媒体を対象(検索空間)とした検索手法には以下のも
のが知られている。
【0003】第1は、検索空間に対して検索条件として
検索者がキーワードを入力し、そのキーワードに合致し
た文書を検索空間より抽出し、絞り込みを行う方法であ
り、インターネット上でのサーチエンジンもこの種のも
のが多い。
【0004】第2は、検索空間をあらかじめいくつかの
分野に分類しておき、それら分野に属する文書群の特徴
を示す単語をシステム側から提示し、検索者が必要な情
報にしたがって分野を選ぶことにより、絞り込みを行う
手法である。いわゆるディレクトリサービスと呼ばれる
ものがこれに含まれる。
【0005】第3は、前記第1の手法および第2の手法
の組み合わせによる検索手法であり、あらかじめ検索分
野を限定した後にキーワードでの検索を行うようにした
ものであり、検索主題から遊離したノイズを除去するの
に有効である。
【0006】このような従来の検索手法は大半がトップ
ダウン方式による処理、すなわちより抽象的な目標を設
定して広い範囲から徐々に目標を抽象度の低いもの(具
体的なもの)として対象を絞り込んでいく方法だった。
一方、これとは逆に、より抽象度の低いデータの集合か
ら抽象度の高いデータの集合をインデックス的に生成し
ておくことにより検索フィールドの目安をつける手法も
存在するが、このときの抽象度の高いデータ集合の生成
は、専ら人間の経験に基づく操作に依存していた。
【0007】
【発明が解決しようとする課題】しかし、これらの検索
手法ではいずれも十分な検索効率を得ることができなか
った。その原因は以下の通りである。 (1)検索空間の文書数が絞り込めていないときにキー
ワードマッチングで絞り込みを行うと、文書の内容特徴
を示さない単語とキーワードがマッチングを起こし、検
索者の望まない文書が索出されてしまうことになる。
【0008】(2)反対に検索空間の文書数が絞り込め
ているときには、既に同義語による検索洩れが起きてお
り、その検索空間に属する文書の他にも検索者の意図す
る文書が存在するということがある。
【0009】(3)文書には話題が一つしかないという
ことは稀であり、話題が複数存在することが多い。更に
話題の捉え方は人の主観によって様々であり、ディレク
トリサービスのような手法を用いても、一文書に対して
分野を特定することは困難である。
【0010】(4)絞り込みを行うための検索条件とな
る検索キーに、全文、キーワード、表題、分野を用いて
いることが多いが、それらは文書の特徴を明確にしてい
るとは限らない。すなわち、そもそも検索者が予め意図
していなかったような分析結果を多くの文書の集合体か
ら得ようとするときに(発見的探索)、あらかじめ検索
者が適当な検索キーを設定できることはむしろ希であ
る。
【0011】(5)絞り込みを行う過程において、検索
者の知ることのできる情報が、検索空間の文書数のみで
あるといったことが多く、その情報だけでは検索空間が
検索者の意図したものであるかの判断ができない。
【0012】(6)検索条件によって絞り込まれた文書
というのは、最終的に検索者がその全文を読み内容を把
握して、必要な文書かを判断しなければならず、時間と
労力がかかる。
【0013】現在、上記で述べた検索上の問題点を解決
するためにいくつかの手法が提案されている。例えば、
あるサーチエンジンでは、検索空間内の重要語や出現頻
度が高い単語を検索システム側から提示するようになっ
ている。さらに、検索空間をグラフやマップの形式で検
索者に提示し、検索者が得られる情報の増加を図る努力
もされている。
【0014】本発明者も、特開平8−314980号公
報において、与えられた文書から自立語を抽出し、この
自立語に対する共起単語とその共起回数を記録する共起
テーブルを作成し、これらの共起関係の強さを示す共起
確率を計算し、これらの自立語同士を共起確率によって
異なるリンク表示を行わせることによって文書の内容把
握を極めて容易にする共起ネットワーク表示手法を提案
した。
【0015】本発明ではこの手法をさらに発展させて、
大量な複数の文書を対象にした話題という視点から共起
ネットワークを用いた検索技術を提供するものである。
【0016】
【課題を解決するための手段】本発明の第1の手段は、
与えられた第1の複数の文書群から自立語を抽出するス
テップと、文書毎に生成された自立語に対する共起単語
とその共起回数を記録する共起テーブルを作成するステ
ップと、作成された文書毎の共起テーブルより論理和ネ
ットワークを生成する周辺話題生成ステップと、作成さ
れた文書毎の共起テーブルより論理積ネットワークを生
成する中心話題生成ステップと、前記論理積ネットワー
クを含む論理和ネットワークを表示し、絞り込みを行う
単語の入力を促すステップと、入力された単語を含む第
2の文書群に絞り込み、この第2の文書群を前記第1の
文書群として前記共起テーブルの作成と周辺話題生成と
中心話題生成とを繰り返すドキュメントデータベースの
検索支援方法である。
【0017】検索空間となる複数の文書群(第1の文書
群)から各文書の共起ネットワークの論理和をとって周
辺話題を生成するとともに、各文書の共起ネットワーク
の論理積をとって中心話題を生成し、これらを表示する
ことで絞り込み要素を的確に検索者に示すことが可能と
なる。検索者はこれに基づいてさらに絞り込み条件を入
力することにより、検索空間を絞ることができ、ノイズ
の極めて少ないかつ柔軟性に富んだドキュメントデータ
の索出が可能となる。
【0018】第2の手段は、前記第1の手段において、
前記中心話題生成ステップとして、前記複数の文書間の
相互情報量を用いて複数文書間で同時に存在する共起対
の強さを算出するようにした。
【0019】すなわち、複数の文書間で同時に存在する
共起対の共起確率に対して、相互情報量を定義し、この
相互情報量で共起対の結びつきの強さを示すことで複数
の文書群に同時に含まれている共起対がどの程度文書群
の中で中心の話題を表しているかの指標を得ることがで
きる。
【0020】第3の手段は、前記第1の手段をプログラ
ムとして記憶した記憶媒体である。ここで、記憶媒体と
は、磁気的、光学的に記録可能なあらゆる媒体を含み、
その形態もディスク、テープ、メモリカートリッジ等い
かなるものであってもよい。具体的には、光ディスク、
光磁気ディスク、ICカード、磁気テープ等が挙げられ
る。
【0021】
【発明の実施の形態】本発明の理解のために、自立語の
抽出と、共起テーブルの構成ならびに共起ネットワーク
の表示例について簡略化した例で説明する。
【0022】本発明でいう「自立語」とは単独で意味を
なす単語を指し、たとえば「料理の先生になりたい」と
いう文の場合、「料理」、「先生」および「なる」が自
立語である。
【0023】また、「共起」とは同一文中に同時に存在
する二つの自立語間の関係をいう。すなわち同一文中に
同時に複数の自立語が存在する場合にはそれらの自立語
は互いに共起している、または、共起関係にあるとい
う。また、互いに共起関係にある2つの自立語が存在す
る場合に、一方の自立語を他方の自立語に対する共起単
語という。
【0024】次に、共起テーブルの具体例を図1に示
す。同図では、文書1「料理の先生になりたい」、文書
2「料理学校の先生です」という2つの文に基づいて共
起テーブルを作成する例を示している。同図において、
文書1の自立語として「料理」、「先生」および「な
る」が抽出され、文書2の自立語として「料理」、「学
校」および「先生」が抽出される。これらの自立語と共
起関係にある同図右側の共起単語が抽出され共起回数が
算出される。たとえば、「料理」という自立語は文書1
と文書2の双方に存在しており、この「料理」という自
立語に対して「先生」という共起単語は文書1に1回、
文書2に1回出現しており合計2回共起されている。し
たがって自立語「料理」に対する共起単語「先生」の共
起回数は2となる。
【0025】なおこのとき、図1の左縦方向で示したよ
うに、文書1と文書2とを繋げて一文として共起テーブ
ルを作成する方法と、右縦方向で示したように、文書1
と文書2の共起テーブルをそれぞれ作成してこれらのテ
ーブルをマージすることにより複数文書の共起テーブル
とする方法とがあるが、論理和(OR)の場合、どちら
で評価しても差はない。この点については後述する。上
記図1で得られた共起テーブルを共起ネットワークで表
示したものが図2である。ここでは非常に短い文章であ
るために、共起確率の算出は意識していない。
【0026】「共起確率」とは、ある自立語wiが出現
したとき、wiに対する共起単語cjがwiと共起する
確率P(cj/wi)であり、下記の(1)式により算出
可能である。 P(cj/wi)=M(cj/wi)/Nwi ・・・・・ (1) ただし、 wi:自立語(1≦i≦NB、NB:一文書中の総語量
数) cj:自立語wiに対する共起単語(1≦J≦Nb(w
i)、Nb(wi:wiに対する共起単語数) M(c
j/wi):自立語wiとそれに対する共起単語cjと
の共起回数 Nwi:自立語wiの出現数 前記(1)式により算出される共起確率は、自立語wi
の生起という条件つき確率であり、wiからそれに対す
る共起単語cjへの意味的な繋がりを示すから、この情
報を「自立語wi→共起単語cj」のような有向リンク
により表現することができる。
【0027】続いて、本発明は、共起回数の期待値を算
出する共起回数期待値算出ステップを実行する。共起回
数の期待値E(cj/wi)は下記の(2)式により算
出することができる。 E(cj/wi)=Ns・{1−(1−Pcj)m−(1−Pwi)m +(1−Pcj)m・(1−Pwi)m} ・・・・ (2) ただし、 Ns:一文書中の総文数 Ni:総自立語数 m:一文中の平均自立語数 Pcj=Ncj/NI Pcj:共起単語cjの出現
確率 Pwi=Nwi/NI Pwi:自立語wiの出現確
率 m−NI/Ns
【0028】次に、期待値E(cj/wi)と実際の共
起回数M(cj/wi)を比較して、一定の条件を満た
す自立語とそれに対する共起単語との組み合わせを抽出
する主題示唆自立語群選定ステップが実行される。一定
の条件としては、下記の(3)式を例示することができ
る。 M(cj/wi)>E(cj/wi) ・・・・・ (3)
【0029】そして、上記の(3)式を満たせば期待値
E(cj/wi)よりも実際の共起回数M(cj/w
i)が大きいことになり、自立語wiと共起単語cjと
の意味的な繋がりがあるといえる。しかし、文書中の総
自立語数NIに対して語量数NBが極端に少ない場合、
たとえば子供向けの物語などのように少ない語量での繰
り返しが多い場合には、意味的な繋がりが非常に弱くて
も上記の(3)式の条件を満たす自立語と共起単語の組
み合わせが多数出現することになる。
【0030】そこで、一単語の平均出現数を考慮し、こ
こでは次の(4)式を満たす場合のみを共起関係が強い
と判断してもよい。 M(cj/wi)>E(cj/wi)+α・NI/NB ・・・・・(4) 上記(4)式において、αはたとえば実験的に求めるこ
とができる。
【0031】次に、図3を用いて、本実施形態の処理と
ハードウエアとの関係を示す。本実施の形態の処理は大
きく分けて、共起データベース作成処理(100)と、
主題示唆自立語ネットワーク表示処理(200)とから
なる。そして、これらの処理を実現するために、16ビ
ット処理、好ましくは32ビット処理以上のCPU、メ
インメモリ、ハードディスク装置等の大容量外部記憶装
置、及びCRTまたはプリンタ等の外部表示・出力装置
を備えた電子計算機システムを用いる。上記の共起デー
タベース作成処理(100)と主題示唆自立語ネットワ
ーク表示処理(200)とは、大容量外部記憶装置より
実行プログラムがCPUに読み込まれて実行される。ま
た、原文章の入力は予めエディタあるいはワードプロセ
ッサ等のアプリケーションソフトによって入力され、例
えばテキストファイル形式で大容量外部記憶装置に格納
されているものとする。
【0032】上記の共起データベース作成処理(10
0)と主題示唆自立語ネットワーク表示処理(200)
とは、単一の電子計算機で実現されるようにしてもよ
く、あるいは共起データベース作成処理(100)を実
現する共起データベース作成装置と、主題示唆自立語ネ
ットワーク表示処理(200)を実現する主題示唆自立
語ネットワーク表示装置とに分け、これらの装置を通信
回線で接続して、電子化された文書データや共起データ
ベース等を通信によって送受信できるようにした形態と
してもよい。さらに、共起データベース作成装置と主題
示唆自立語ネットワーク表示装置とのデータの受け渡し
は通信に限られるものでないことは当然であり、例えば
FDやCD−ROM等の記録媒体に記録して受け渡しを
行う方法等を例示することができる。
【0033】以下、共起データベース作成処理(10
0)、及び主題示唆自立語ネットワーク表示処理(20
0)について述べる。 〈共起データベース作成処理(100)〉共起データベ
ース作成処理(100)は、電子化された文書データか
ら、共起テーブル(TBLn)と、共起確率テーブル
(TBMn)と、期待値テーブル(TBNn)とから構
成される共起データベース(KDB)を作成し、この共
起データベース(KDB)を大容量外部記憶装置(ある
いはメインメモリ)に記録する処理である。
【0034】本実施例では、文書1の共起テーブル(T
BL1),共起確率テーブル(TBM1),期待値テー
ブル(TBN1)と文書2の共起テーブル(TBL
2),共起確率テーブル(TBM2),期待値テーブル
(TBN2)とがマージされて新たな複合文書(1〜
n:ここではn=2)の共起テーブル(TBL1〜
n),共起確率テーブル(TBM1〜n),期待値テー
ブル(TBN1〜n)が生成されている。
【0035】前記共起データベース作成処理(100)
は、図3に示すように自立語抽出処理(110)、共起
テーブル作成処理(120)、共起確率算出処理(13
0)、及び共起回数期待値算出処理(140)に分ける
ことができる。
【0036】自立語抽出処理は、電子化された文書デー
タから、自立語を抽出し、その文書中の総自立語数と語
量数を算出する。共起テーブル作成処理(120)は、
自立語抽出処理によって抽出された自立語毎に、各自立
語に対する共起単語とその共起回数とを登録する共起テ
ーブル(TBLn)を作成する。
【0037】共起確率算出処理(130)は、共起テー
ブル(TBLn)に記録された全自立語に対し、各自立
語がそれに対する共起単語と共起する共起確率を算出す
る。尚、1つの自立語に対して複数の共起単語が存在す
る場合には、各共起単語毎に共起確率を算出する。さら
に、共起確率算出処理(130)では、各自立語毎に、
それに対する共起単語と、その共起単語と共起する共起
確率とを登録する共起確率テーブル(TBMn)を作成
する。
【0038】共起回数期待値算出処理(140)は、共
起テーブル(TBLn)に記録された全自立語に対し、
各自立語のそれに対する共起単語と共起する共起回数の
期待値を算出する。尚、1つの自立語に対して複数の共
起単語が存在する場合には、各共起単語毎に共起回数の
期待値を算出する。そして、各自立語毎に、それに対す
る共起単語とその共起単語と共起する共起回数の期待値
とを登録する期待値テーブル(TBNn)を作成する。 (主題示唆自立語ネットワーク表示処理(200))主
題示唆自立語ネットワーク表示処理(200)は、共起
データベースに基づいて共起ネットワークを作成し、作
成された共起ネットワークをCRTやプリンタ等の出力
装置に出力するとともに、共起ネットワークの原文章を
検索して出力装置に出力する処理である。本実施の形態
では、出力装置としてCRTを用いる。
【0039】主題示唆自立語ネットワーク表示処理(2
00)は、図7に示すように、主題示唆自立語群選定処
理(210)、共起ネットワーク生成処理(220)、
文書検索処理(230)、及び原文参照処理(240)
に分けることができる。
【0040】主題示唆自立語群選定処理(210)は、
大容量外部記憶装置のなかから、ユーザが指定する文書
データに対応した共起データベース(KDB)、すなわ
ち、共起テーブルと共起確率テーブルと期待値テーブル
とを読み出す。そして、全ての自立語について、自立語
とそれに対する共起単語との関係(すなわち、共起回数
期待値と実際の共起回数との関係)が前述の(4)式を
満たす自立語とそれに対する共起単語との組み合わせを
判別し、これらの組み合わせを登録するテーブルを作成
する。通常、(4)式の定数αには、初期値(1.5)
が設定されている。
【0041】共起ネットワーク生成処理(220)は、
主題示唆自立語群選定処理(210)によって作成され
たテーブルを参照し、各文書に対応する共起ネットワー
クを作成する。作成された共起ネットワークはCRTに
画面表示される。この共起ネットワークは、前述の図6
に示すように、自立語を示す文字列と、共起関係にある
自立語を示す文字列間を結ぶ共起線とから構成されてい
る。共起線は、共起関係の強さによってその線種、色、
濃淡、長さ、あるいは太さが異なっている。リンクの線
種、色、濃淡、長さ、あるいは太さを決定する場合、共
起確率テーブルの共起確率を参照し、共起確率の大きさ
に応じてリンクの線種、色、長さ、あるいは太さを決定
する。尚、共起関係の強さを差別化する方法としては、
共起関係にある2つの自立語とこれらの自立語間を結ぶ
共起線を三次元表現によって表示し、共起確率の大きさ
によって三次元表現の表現形式を変更する方法も例示で
きる。さらに、共起線を、共起関係の強さに応じた濃淡
で表す場合、ユーザの選択によって共起関係がある程度
以上強いものだけが実質的にユーザに可視になるように
することもできるし、共起関係がより弱いものまで実質
的にユーザに可視となるようにすることもできる。
【0042】共起ネットワーク生成処理(220)で
は、ユーザによって複数の文書が指定された場合には、
各文書毎に共起ネットワークを生成する。そして、それ
らの共起ネットワークを画面上に表示する際には、一画
面上に並べて表示する全文書表示と、一画面上に重ねて
表示する1文書ずつ表示とを、ユーザが選択できるよう
になっている。また、(4)式の定数αの値を変更して
主題示唆自立語群を選定し直し、共起ネットワークの表
現レベル(共起レベル)を変更することも可能である。
【0043】文書検索処理(230)は、ユーザが例え
ばキーボード等からキーワードを入力したときに、共起
ネットワーク生成処理(220)で生成された1つある
いは2つ以上の共起ネットワークを検索して、ユーザが
入力したキーワードを含む共起ネットワークを抽出す
る。ここで、キーワードを含む共起ネットワークが複数
存在する場合には、それらの共起ネットワークは、ユー
ザの選択によって全文書表示あるいは1文書ずつ表示さ
れる。
【0044】原文参照処理(240)は、大容量記憶装
置の文書データの中から、ユーザが指定する文書の原文
章を読み出し、画面表示する。原文章を指定する手順と
しては、文書検索処理(230)によって画面表示され
た1つあるいは2つ以上の共起ネットワークのうち、ユ
ーザが希望する文書の共起ネットワークの表示座標を位
置指定手段によって指定すればよい。位置指定手段は、
例えば、マウス等のポインティングデバイスである。
尚、ユーザが、原文章の指定を行う前に、共起ネットワ
ーク上の一又は二以上の任意の自立語の表示位置をポイ
ンティングデバイスによって指定すれば、その自立語が
本発明の第2のキーワードとして認識される。そして、
原文章を表示する際には、原文章の中から、第2のキー
ワードを含む文とその前後の文とがピックアップされて
表示される。このとき、第2のキーワード、あるいは第
2のキーワードを含む文は、網掛け表示や反転表示等の
方法によって強調または区別される。さらに、キーワー
ドを含む文が原文章中に複数存在する場合には、ユーザ
の指定により、キーワードを含む文のうち現在表示され
ている文の前の部分又は文へスクロールまたはジャンプ
したり、次の部分又は文へスクロールまたはジャンプし
たりすることができるようになっている。
【0045】次に、複数文書を対象とした場合に、論理
和(OR)のとりかたによって共起ネットワークがどの
ように変化するかを調べた。 (実験1)毎日新聞1996年7月および8月発行分よ
り「大腸菌O157」に関する18記事を抜粋し、全記
事を一文書に繋げ主題抽出した共起ネットワークと、文
書毎の共起ネットワークを論理和(OR)マージした共
起ネットワークを比較した。 (実験2)実験1の「O157」に関する記事と、毎日
新聞1997年9月および10月より抜粋した「ガルー
ダ・インドネシア航空機墜落事故」に関する記事から、
複数の話題が存在した文書群に存在した場合、文書数の
比率によって共起ネットワークの変化をみた。
【0046】上記各々の結果を図4〜図10に示した。
図4は、実験1の全文書を繋げて共起テーブルを作成
し、それに基づいて共起ネットワーク形式で表示したも
の。図5は、実験1の各文書のそれぞれについて共起テ
ーブルを作成し、これらの共起テーブルをマージした結
果を共起ネットワーク形式で表示したもの、図6はその
語彙数、総自立語数および総文書数を表形式で示したも
のである。
【0047】この結果、実験1については、全文書を繋
げたネットワークと、ORマージしたネットワークで
は、全く同様の共起ネットワークが生成された。同時
に、共起ネットワークのORをとることによって、「O
157」の文書群の特徴を表す「オー」「157」や
「食中毒」「大腸菌」といった単語群が抽出されること
が確認できる。
【0048】図7〜9は、実験2における2つの話題に
分かれる記事群について、その比率を変化させて共起ネ
ットワーク形式で表示したものである。図10はその文
書比率である。
【0049】この実験2では、2つの話題のいずれかに
属する文書の文書数の比率を変化させることにより、ほ
ぼ線形に各々の話題を表す単語群が抽出されていること
が確認できる。このことで、文書群に複数に話題が存在
した場合でも、その中にどの様な話題があるかを共起ネ
ットワークより読み取ることができることが分かる。
【0050】次に、共起ネットワークの論理積(AN
D)をとることで、有益な情報を得ることができないか
を考える。
【0051】共起ネットワークのORをとるときと同様
に、共起テーブルより共起ネットワークのANDをとる
と考えると、単純に全文書に含まれている共起対を得る
ことができる。それらの共起対は、文書群の中心の話題
を担っていると思われる。しかし、ある文書では主題を
表す共起対と、他の文書の主題を表していない共起対が
あり、それら2文書に含まれているからといっても、共
起対が2文書の中心の話題を表せているとは考えられな
い。
【0052】そこで、ANDをとることで得られる共起
対が、文書群の中でどの程度中心の話題を表しているか
の指標を得られないかを考える。
【0053】共起関係にある2自立語間には、その結び
付きの強さとして、前述の(1)式で共起確率を定義で
きる。
【0054】ここで、2つの事象の間の確率から相互情
報量を求めることにより、2事象間の違いを情報量で表
せることに着目する。
【0055】次に、A,Bの2文書間に同時に存在する
共起対の共起確率に対して、図11に示した(5)式の
様に相互情報量を定義できる。なお、PA(ci/w
i)は文書Aにおける自立語wiと共起語cjとの共起
確率、PB(ci/wi)は文書Bにおける自立語wi
と共起語cjとの共起確率、PA B(ci/wi)は文
書Aと文書BとをORマージしたときの自立語wiと共
起語cjとの共起確率である。
【0056】(5)式の相互情報量を用いることで、2
文書間に同時に存在する共起対に対して、2文書間での
共起対の結び付きの強さを示すことができる。
【0057】そこで、多数の文書間に同時に存在する共
起対の結び付きは、存在する文書の総2組み合わせの相
互情報量の平均とみなすことができ、この値は図12に
示した(6)式で得ることができる。
【0058】この相互情報量の平均が小さければ小さい
程、より中心の話題を示している共起対であると言え
る。
【0059】相互情報量を用いることにより、共起ネッ
トワークのANDを構成する共起対、つまり文書群に同
時に含まれている共起対がどの程度文書群の中で中心の
話題を表しているかの指標を得ることができる。
【0060】以上より、複数の共起ネットワークのAN
DとORを求めることができるようになった。ANDと
ORは文書からのボトムアップ処理(より具体的な対象
からより抽象的な対象へと順に組み上げていくような検
索処理)で得られるため、計算機で自動的に算出でき
る。ANDは文書群の中心の話題を表しており、ORは
ANDを内包しているはずであることから、次の様な話
題の定義をする(図13参照)。 「中心話題」複数の共起ネットワークのANDをとるこ
とで得られ、構成する共起対は全ての文書に含まれ、そ
れら共起対を「中心話題」と定義する。共起対の結び付
きの強さを相互情報量の平均で求めることができる。 「周辺話題」複数の共起ネットワークをORすることに
より、文書群にどの様な話題が存在しているかを表すこ
とができ、それらの中にはAND、つまり「中心話題」
が内包されているはずであることから、文書群に「中心
話題」以外にどの様な話題があるかを知ることができ
る、それらの話題を「周辺話題」を定義する。さらに
「周辺話題」を構成する共起対には、文書群にどの程度
含まれているかの文書数を提示できる。
【0061】「中心話題」と「周辺話題」は内包の関係
にあることから、同一の共起ネットワーク内に表示する
ことができる。
【0062】ここで「周辺話題」に着目すると、その構
成する共起対は検索空間に属する文書から抽出されたも
ので、検索空間に存在する全文書数よりも、含まれてい
る文書は少ないことから、「周辺話題」を検索条件とす
ることで、図14に示すようにさらに絞り込みを行うこ
とができる。
【0063】検索者が必要な情報に合わせて「周辺話
題」を選ぶことで、もともとの検索空間の「中心話題」
と、検索者によって選ばれた「周辺話題」とを新たな
「中心話題」とした、新たな検索空間を生成することが
できる。このことは、検索空間を狭めることになり、絞
り込みとなる。このとき、検索者が別の検索条件を選ん
だ場合、別の検索空間に絞り込みをかけることができ
る。
【0064】検索空間の共起ネットワークはボトムアッ
プ処理で得られるので、「周辺話題」を構成する共起対
も必ず検索空間に属する文書に存在している。また、
「周辺話題」の存在する文書数は、検索空間に属する文
書数より確実に小さく、検索空間を確実に狭めることが
できる。
【0065】また検索空間に複数の話題が存在したとし
ても、話題を特定することによって絞り込むのではな
く、絞り込むことによって話題が明確になっていく効果
を得られる。
【0066】「周辺話題」を検索者に選ばせることは、
検索のシステム側から検索空間の重要語を提示すること
になり、同義語による検索洩れを軽減することも可能に
する。
【0067】さらに、絞り込み時には、文者群の特徴を
表している「周辺話題」をキーにマッチングを行うこと
になるので、文書の特徴を示さない単語とのマッチング
を抑制できる。
【0068】「周辺話題」を検索条件にすることで、絞
り込みが行えることを述べたが、さらに、絞り込みする
過程で次の様な情報を付加表示してもよい。 「検索空間に存在する総文書数」従来の検索でも提示さ
れている総文書数であり、検索者があとどの程度絞り込
みを行えばよいかの指標にできる。具体的には共起ネッ
トワーク画面上に数字で直接表示してもよいし、または
画面上にボックスウィンドウを開きここに表示してもよ
い。 「「周辺話題」の文書数」「周辺話題」を構成する共起
対はどの文書に含まれているか、という情報を持ってい
ることから、文書数を提示することができることは前述
した。その「周辺話題」の文書数は、「周辺話題」を選
び絞り込みを行った場合、検索空間がどの程度の大きさ
になるかの指標になり、検索条件としてのリスク(危
険)を知ることが可能となる。これも共起ネットワーク
画面上に数字で直接表示してもよいし、または画面上に
ボックスウィンドウを開きここに表示してもよい。 「「中心話題」の相互情報量の平均」絞り込みする過程
で「中心話題」の相互情報量の平均を見ることで、「中
心話題」がどの様に状態遷移しているかを知ることがで
き、検索者にとってその検索空間が意図したものかを判
断できる。さらに、新たに検索条件として選ばれた「周
辺話題」が「中心話題」になったとき、選んだ検索条件
が検索者にとって有効であったかの判断も下すことがで
きる。
【0069】以上より検索上の問題の一つである「検索
者の知ることができる情報が少ない」という点が解決で
き、検索者が意図した検索空間が得られているかの判断
を下すことができるようになる。これも共起ネットワー
ク画面上に数字で直接表示してもよいし、または画面上
にボックスウィンドウを開きここに表示してもよい。
【0070】次に、図15を用いて本実施形態の検索フ
ローを説明する。
【0071】まず、検索空間全体からの文書の絞り込み
を行う(ステップ1501)。
【0072】次に、これで索出された文書によって新た
に構成される検索空間の共起ネットワークを生成する。
それと同時に「中心話題」、「周辺話題」を算出し、付
加情報としてそれら共起対毎に相互情報量の平均、文書
数を提示する(1502)。
【0073】次に、検索者が必要な情報にしたがって、
「周辺話題」を構成する一共起対を選ぶ。
【0074】ここで、検索空間より選ばれた共起対が存
在する文書に絞り込みを行う(1503)。つまり、処
理2を絞り込まれた文書に対して行う。次に、絞り込ま
れた検索空間に対して、満足がいくかいかないかの判断
を行う(1504)。
【0075】上記ステップ1504において、検索結果
に満足しなかった場合、バックトラックを起こし、絞り
込まれる前の検索空間に戻り、ステップ1502以降の
処理を繰り返す。
【0076】検索者が絞り込みの終了の合図を出すか、
一文書になるまで、ステップ1502〜1504の処理
を繰り返す。絞り込みの終了か、一文書になった時点
で、検索空間に属している文書毎に、共起ネットワーク
を提示する(1505)。
【0077】
【実験例】本発明を具体的に実現するための検索システ
ムの実装を行った。実装にあたって実現させた機能は以
下の通りである。 (1)バック機能とフォワード機能 検索処理を1ステップ前に戻す機能と1ステップ先に進
める機能である。これは具体的には検索のログを一時的
にメモリに蓄積しておくことにより実現できる。
【0078】すなわち、検索者が検索空間に対して満足
しなかった場合バックトラック操作を行うため、前検索
空間に戻るためのバック機能が必要となる。逆にバック
トラックをしたところ検索者がやはり検索条件は正しか
ったと判断する場合があるので、フォワード機能も必要
となる。 (2)共起ネットワークの自立語ノードの再配置機能 可視的な共起ネットワークを画面に表示することにより
検索結果を示しているが、このネットワークが見づらい
ときに自立語ノードを再配置する機能を持たせる必要が
ある。 (3)共起確率の閾値変更機能 共起ネットワークを構成する共起対は強さによって結び
付いているため、閾値を変化させることによって、ネッ
トワーク全体の情報の多さを変更できる。そこで、ネッ
トワークの閾値を変更する機能が必要となる。 (4)その他 現在の検索空間の閾値と、総文書数の提示、「中心話
題」と「周辺話題」を色分けし、各々の共起対の二等分
点に相互情報量の平均、文書数を表す等の機能を用意し
た。
【0079】これらの機能を付け、実装した表示画面の
例を図16に示す。
【0080】なお、これらの実装プログラムは、UNI
Xワークステーション上でC言語によって記述した。
【0081】図21〜図25は共起ネットワークを表示
するための表示画面を示したものである。画面構成は、
共起ネットワークを表示するための窓2112が開かれ
ており、この窓2112の右側に各種のボタンや表示枠
が配置されている。ここで表示された各ボタンはマウス
等の座標指示手段によって操作可能である。
【0082】モード表示部2102は検索モード(Searc
h Mode)と読出モード(Read Mode)を表示する。バックボ
タン2103(Back)は、前検索表示に戻すためのボタン
であり、フォワードボタン1204(Forward)は、バッ
クボタンで戻した表示画面を先に進めて元に戻すための
ボタンである。
【0083】再配置ボタン2105(Replace)は、窓2
112に表示されている共起ネットワークの自立語の位
置を再配置するためのボタンである。変更ボタン210
6(Change)は閾値を変更するためのボタンであり、図1
2の右端に示すように閾値の数値を変更できるように変
化する。
【0084】閾値表示部2107は、現在の閾値を表示
するための小窓であり、同図では閾値として3.5が表
示されている。
【0085】総文書数表示部2108は、検索空間の総
文書数を表示する小窓であり、同図では文書数(ファイ
ル数)として27が表示されている。
【0086】モード切替ボタン2110は、検索モード
と読出モードとの切り替えを行うためのボタンである。
【0087】時節毎の文書群にある特定の話題が存在し
ていることから、テレビ放送のある論説の1995年1
0月〜1997年12月放映分の記録を用意し、検索の
実験を行った。
【0088】まず、キーワードマッチングおよび時系列
の共起ネットワークの2種類の手法で最初の検索空間を
生成し、絞り込みを行った。
【0089】以降、図面上における共起ネットワークの
太い線分は「中心話題」を表しており、共起対の線分上
の数値は相互情報量の平均を、細い線分は「周辺話題」
を表しており、線分上の数値はその「周辺話題」が選ば
れた場合の絞り込まれる文書数を示している。
【0090】前述の論説用ニュース原稿による検索空間
では、「沖縄」「基地」のキーワードで共起対のマッチ
ングをした結果、27文書が索出された。その共起ネッ
トワークを示したものが図17の上図(a)である。
【0091】得られた検索空間に絞り込みの条件として
違うものを選んだ場合の評価として、「沖縄」「問題」
を与えた場合の共起ネットワークが図17(b)であ
る。また、(a)に「日」「米」を与えた場合の共起ネ
ットワークが図17(c)である。
【0092】絞り込み条件の設定・変更インターフェー
スを示したものが図22である。同図では、窓2112
中に絞り込み用小窓2201が表示され、絞り込みのた
めの単語が表示されるようになっている。
【0093】図18および図19は、時系列の共起ネッ
トワークからの検索の実験結果である。図18は、19
96年の論説用ニュース原稿を1月より三ヶ月毎に4つ
の時系列に分類し、その中から4〜6月分の共起ネット
ワークを選び、さらに「民主」「主義」で絞り込みを行
った結果である。図19は、大局的な時系列からの検索
が行えるかの評価として、1996、97年の2年分の
時系列で三ヶ月毎4つに分類し、先と同様に4〜6月分
を選び、「民主」「主義」で絞り込みを行った結果であ
る。
【0094】各実験とも絞り込みを行っているが、絞り
込む前の検索空間の「中心話題」と選んだ「周辺話題」
が、「中心話題」となる検索空間に絞り込みを行えてい
ることがわかる。そのことにより、図17(b)の「問
題」「基地」や「米軍」「基地」のように、新たに共起
対のリンクが張られたり、図17(c)の「安全」「保
障」のように、絞り込む前の検索空間にはなかった「周
辺話題」が現れる等の結果が得られた。このように、共
起ネットワーク表示により、検索空間の状態が可視化さ
れているので、検索者が意図した検索空間であるかの判
断が容易になっている。
【0095】また図17において、選ぶ「周辺話題」に
よって生成される検索空間が違っており、選んだ「周辺
話題」に関連する検索空間に絞り込みが行われているこ
とが窺える。その際に、もともとの「中心話題」である
「沖縄」「基地」の相互情報量の平均は、図20で示す
ように変化しており、検索の方向が間違っていないこと
を示している。また、文書数は「周辺話題」の線分上に
提示している値に実際に絞り込まれるので、検索条件を
選ぶにあたり、そのリスクを知ることができる。
【0096】時系列からの絞り込みを行う手法でも同様
のことが窺える。
【0097】さらに、時系列を持っている文書群からの
検索では、その特徴である時節毎に偏った話題が存在し
ていることを利用することで、検索上の問題点である同
義語による検索洩れを軽減した検索を行うことができ
る。
【0098】以上のことより、本検索手法はある程度検
索空間が狭められた状態からの検索を行うには、効率的
で有効であるといえる。
【0099】図24は、読出モードにおける文書表示例
を示したものである。また図25は読出モードにおい
て、索出された文書毎の共起ネットワークを順次表示す
る状態を示したものである。
【0100】
【発明の効果】本発明によれば、複数文書を対象にした
検索において、OR条件で抽出された周辺話題と、AN
D条件で抽出された中心話題とを表示することにより、
発見的探索、すなわち検索者が予め意図していなかった
ような分析結果の取得も含む柔軟な検索を複数の文書の
集合体を対象に実行することができる。
【図面の簡単な説明】
【図1】 本発明の共起テーブルの統合(マージ)につ
いて説明するための図
【図2】 簡単な共起ネットワークを示す説明図
【図3】 本発明の検索支援システムを構成するブロッ
ク図
【図4】 2文書を結合して共起ネットワークを表示し
た説明図
【図5】 2文書の共起テーブルをマージして共起ネッ
トワークを構成した説明図
【図6】 2文書を繋げて主題抽出した場合とマージし
て主題抽出した場合との比較表
【図7】 ニュース論説記事からの共起ネットワークを
表示した図(i)
【図8】 ニュース論説記事からの共起ネットワークを
表示した図(ii)
【図9】 ニュース論説記事からの共起ネットワークを
表示した図(iii)
【図10】 共起ネットワークのマージ比率を示した比
較表
【図11】 2文書で同時に存在する共起対の共起確率
に対して相互情報量を定義した式(5)
【図12】 共起対の結び付きを示すための存在する文
書の総2組み合わせの相互情報量の平均を示す式(6)
【図13】 共起ネットワークからの中心話題(AN
D)と周辺話題(OR)の抽出概念を示す説明図
【図14】 周辺話題を用いた絞り込みの概念を示す説
明図
【図15】 検索空間から絞り込みを行う過程を示す説
明図
【図16】 共起ネットワークの表示画面例を示す図
【図17】 キーワードマッチングからの共起ネットワ
ーク検索を示す図
【図18】 時系列の共起ネットワークからの検索を示
す図(1)
【図19】 時系列の共起ネットワークからの検索を示
す図(2)
【図20】 実験例における抽出単語の相互情報量の平
均の変化を示す表
【図21】 本実施形態の表示画面を示す図(1)
【図22】 本実施形態の表示画面を示す図(2)
【図23】 本実施形態の表示画面を示す図(3)
【図24】 本実施形態の表示画面を示す図(4)
【図25】 本実施形態の表示画面を示す図(5)
【符号の説明】
2101 窓 2102 モード表示部 2103 バックボタン 2104 フォワードボタン 2105 再配置ボタン 2106 変更ボタン 2107 閾値表示部 2108 総文書数表示部 2110 モード切替ボタン 2111 終了ボタン 2112 ネットワーク表示部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平10−74210(JP,A) 特開 平8−314980(JP,A) 河野 他,単文内自立語共起を用いた 内容把握支援のための文書内容特徴表現 方法,電子情報通信学会論文誌D−I I,日本,社団法人電子情報通信学会, 1996年10月25日,Vol.J79−D−I I,No.10,pp.1741−1745 丹羽,動的な共起解析を用いた対話的 文書検索支援,情報処理学会研究報告, 日本,社団法人情報処理学会,1996年 9月13日,Vol.96,No.88,p. 41−48(96−FI−43−6) 大澤 他,共起グラフを用いたキーワ ード抽出,情報処理学会研究報告,日 本,社団法人情報処理学会,1996年 9 月13日,Vol.96,No.88,p.57 −64(96−FI−43−8) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】与えられた第1の複数の文書群から自立語
    を抽出するステップと、 文書毎に生成された自立語に対する共起単語とその共起
    回数を記録する共起テーブルを作成するステップと、 作成された文書毎の共起テーブルより論理和ネットワー
    クを生成する周辺話題生成ステップと、 作成された文書毎の共起テーブルより論理積ネットワー
    クを生成する中心話題生成ステップと、 前記論理積ネットワークを含む論理和ネットワークを表
    示し、絞り込みを行う単語の入力を促すステップと、 入力された単語を含む第2の文書群に絞り込み、この第
    2の文書群を前記第1の文書群として前記共起テーブル
    の作成と周辺話題生成と中心話題生成とを繰り返すステ
    ップとからなるドキュメントデータベースの検索支援方
    法。
  2. 【請求項2】前記中心話題生成ステップは、 前記複数の文書間の相互情報量を用いて複数文書間で同
    時に存在する共起対の強さを算出するステップであるこ
    とを特徴とする請求項1記載のドキュメントデータベー
    スの検索支援方法。
  3. 【請求項3】与えられた第1の複数の文書群から自立語
    を抽出するステップと、 文書毎に生成された自立語に対する共起単語とその共起
    回数を記録する共起テーブルを作成するステップと、 作成された文書毎の共起テーブルより論理和ネットワー
    クを生成する周辺話題生成ステップと、 作成された文書毎の共起テーブルより論理積ネットワー
    クを生成する中心話題生成ステップと、 前記論理積ネットワークを含む論理和ネットワークを表
    示し、絞り込みを行う単語の入力を促すステップと、 入力された単語を含む第2の文書群に絞り込み、この第
    2の文書群を前記第1の文書群として前記共起テーブル
    の作成と周辺話題生成と中心話題生成とを繰り返すステ
    ップとからなるドキュメントデータベースの検索支援プ
    ログラムを記憶した記憶媒体。
  4. 【請求項4】与えられた第1の複数の文書群から自立語
    を抽出するステップと、 文書毎に生成された自立語に対する共起単語とその共起
    回数を記録する共起テーブルを作成するステップと、 作成された文書毎の共起テーブルより論理和ネットワー
    クを生成する周辺話題生成ステップと、 作成された文書毎の共起テーブルより論理積ネットワー
    クを生成する中心話題生成ステップと、 前記論理積ネットワークを含む論理和ネットワークを前
    記共起テーブルに基づいて、共起関係にある自立語間を
    リンク表示し、絞り込みを行う単語の入力を促すステッ
    プと、 入力された単語を含む第2の文書群に絞り込み、この第
    2の文書群を前記第1の文書群として前記共起テーブル
    の作成と周辺話題生成と中心話題生成とを繰り返すステ
    ップとからなるドキュメントデータベースの検索支援方
    法。
  5. 【請求項5】与えられた第1の複数の文書群から自立語
    を抽出するステップと、 文書毎に生成された自立語に対する共起単語とその共起
    回数を記録する共起テーブルを作成するステップと、 作成された文書毎の共起テーブルより論理和ネットワー
    クを生成する周辺話題生成ステップと、 作成された文書毎の共起テーブルより論理積ネットワー
    クを生成する中心話題生成ステップと、 前記論理積ネットワークを含む論理和ネットワークを前
    記共起テーブルに基づいて、共起関係にある自立語間を
    リンク表示し、絞り込みを行う単語の入力を促すステッ
    プと、 入力された単語を含む第2の文書群に絞り込み、この第
    2の文書群を前記第1の文書群として前記共起テーブル
    の作成と周辺話題生成と中心話題生成とを繰り返すステ
    ップとからなるドキュメントデータベースの検索支援プ
    ログラムを記憶した記憶媒体。
JP17191598A 1998-06-18 1998-06-18 ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体 Expired - Fee Related JP3431836B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17191598A JP3431836B2 (ja) 1998-06-18 1998-06-18 ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17191598A JP3431836B2 (ja) 1998-06-18 1998-06-18 ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体

Publications (2)

Publication Number Publication Date
JP2000010986A JP2000010986A (ja) 2000-01-14
JP3431836B2 true JP3431836B2 (ja) 2003-07-28

Family

ID=15932206

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17191598A Expired - Fee Related JP3431836B2 (ja) 1998-06-18 1998-06-18 ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体

Country Status (1)

Country Link
JP (1) JP3431836B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4617015B2 (ja) * 2001-03-26 2011-01-19 株式会社MetaMoJi 文書表示装置、文書表示方法ならびに、プログラム
JP4888677B2 (ja) * 2001-07-06 2012-02-29 独立行政法人情報通信研究機構 文書検索システム
JP4891740B2 (ja) * 2006-11-22 2012-03-07 株式会社日立製作所 コンテンツ検索装置及びコンテンツ検索方法
EP2115638A1 (en) * 2006-12-29 2009-11-11 Thomson Reuters Global Resources Information-retrieval systems, methods, and software with concept-based searching and ranking
JP5251099B2 (ja) * 2007-12-06 2013-07-31 日本電気株式会社 用語共起度抽出装置、用語共起度抽出方法及び用語共起度抽出プログラム
JP2010113412A (ja) * 2008-11-04 2010-05-20 Omron Corp 文書情報加工方法、文書情報加工装置、文書情報加工プログラムおよび記録媒体
JP5521619B2 (ja) * 2010-02-18 2014-06-18 富士ゼロックス株式会社 グラフ生成装置及びグラフ生成プログラム
JP5743938B2 (ja) * 2012-03-26 2015-07-01 株式会社日立製作所 連想検索システム、連想検索サーバ及びプログラム
US10733221B2 (en) * 2016-03-30 2020-08-04 Microsoft Technology Licensing, Llc Scalable mining of trending insights from text
JP7403216B2 (ja) * 2018-10-24 2023-12-22 Solize株式会社 テキスト表示方法及び、テキスト表示装置
JP7466987B2 (ja) 2019-12-27 2024-04-15 株式会社イトーキ 会議群分析装置、及びプログラム
CN111651578B (zh) * 2020-06-02 2023-10-03 北京百度网讯科技有限公司 人机对话方法、装置及设备
JP6995420B1 (ja) * 2021-07-28 2022-02-14 株式会社ロジック 介護に関する計画書の作成を支援する装置、方法及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2806867B2 (ja) * 1995-03-13 1998-09-30 株式会社トレンディ ドキュメントデータベースの構築方法、表示方法、及び表示装置
JP3614618B2 (ja) * 1996-07-05 2005-01-26 株式会社日立製作所 文献検索支援方法及び装置およびこれを用いた文献検索サービス

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
丹羽,動的な共起解析を用いた対話的文書検索支援,情報処理学会研究報告,日本,社団法人情報処理学会,1996年 9月13日,Vol.96,No.88,p.41−48(96−FI−43−6)
大澤 他,共起グラフを用いたキーワード抽出,情報処理学会研究報告,日本,社団法人情報処理学会,1996年 9月13日,Vol.96,No.88,p.57−64(96−FI−43−8)
河野 他,単文内自立語共起を用いた内容把握支援のための文書内容特徴表現方法,電子情報通信学会論文誌D−II,日本,社団法人電子情報通信学会,1996年10月25日,Vol.J79−D−II,No.10,pp.1741−1745

Also Published As

Publication number Publication date
JP2000010986A (ja) 2000-01-14

Similar Documents

Publication Publication Date Title
US7113954B2 (en) System and method for generating a taxonomy from a plurality of documents
JP3099756B2 (ja) 文書処理装置、単語抽出装置及び単語抽出方法
KR100304335B1 (ko) 키워드 추출 시스템 및 그를 사용한 문서 검색 시스템
US6446065B1 (en) Document retrieval assisting method and system for the same and document retrieval service using the same
EP1679617B1 (en) Method for automatically performing conceptual highlighting in electronic text
US8407232B2 (en) Document search system
US7096218B2 (en) Search refinement graphical user interface
US6772148B2 (en) Classification of information sources using graphic structures
US7831910B2 (en) Computer aided authoring, electronic document browsing, retrieving, and subscribing and publishing
US6128635A (en) Document display system and electronic dictionary
US7861149B2 (en) Key phrase navigation map for document navigation
US20050283453A9 (en) Concept navigation in data storage systems
US20070078889A1 (en) Method and system for automated knowledge extraction and organization
US6112204A (en) Method and apparatus using run length encoding to evaluate a database
US20040098385A1 (en) Method for indentifying term importance to sample text using reference text
JP3431836B2 (ja) ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体
CA2259610A1 (en) Method and apparatus for cataloguing multimedia data
US7693898B2 (en) Information registry
US20040158558A1 (en) Information processor and program for implementing information processor
JP3383049B2 (ja) 文書検索装置
JP2806867B2 (ja) ドキュメントデータベースの構築方法、表示方法、及び表示装置
Ogden et al. Document Thumbnail Visualization for Rapid Relevance Judgments: When do They Pay Off?
US20010051942A1 (en) Information retrieval user interface method
JP3856388B2 (ja) 類義性計算方法、類義性計算プログラム、類義性計算プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000105769A (ja) 文書表示方法

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100523

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110523

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110523

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120523

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130523

Year of fee payment: 10

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees