JP4208402B2 - 文書検索装置、文書検索方法および記録媒体 - Google Patents

文書検索装置、文書検索方法および記録媒体 Download PDF

Info

Publication number
JP4208402B2
JP4208402B2 JP2000333510A JP2000333510A JP4208402B2 JP 4208402 B2 JP4208402 B2 JP 4208402B2 JP 2000333510 A JP2000333510 A JP 2000333510A JP 2000333510 A JP2000333510 A JP 2000333510A JP 4208402 B2 JP4208402 B2 JP 4208402B2
Authority
JP
Japan
Prior art keywords
document
word
keyword
conforming
relevance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000333510A
Other languages
English (en)
Other versions
JP2002140355A (ja
Inventor
博子 真野
泰嗣 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2000333510A priority Critical patent/JP4208402B2/ja
Publication of JP2002140355A publication Critical patent/JP2002140355A/ja
Application granted granted Critical
Publication of JP4208402B2 publication Critical patent/JP4208402B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書検索装置、文書検索方法および記録媒体に関し、より詳細には、与えられたキーワードに対して適合する文書を選択し、この適合文書から抽出したキーワードの関連語を付加したキーワードによって適合する文書を検索しなおす文書検索装置、文書検索方法および記録媒体に関する。
【0002】
【従来の技術】
文書を多数集積している文書データベースからユーザの必要とする文書を探しだすには、ユーザが入力したキーワードを用いて一旦検索した後、そのキーワードに適合した文書中に出現する単語の中から入力したキーワードに関連した単語を選出し、はじめに入力したキーワードに追加し、再度、検索することで、よりユーザの求めるものに近いものを得る方法が知られている。
たとえば、キーワードの関連語を選出する方法として、適合文書中の各単語について、適合文書の中での出現状況などの統計情報を利用して、キーワードとの関連度を算出し、その値の大きい上位何単語かを選出する方法が提案されている(文献1:Robertson, S.E. "On term selection for query expansion" Journal of Documentation 46, Dec 1990,p359-364)。
【0003】
次に、この従来の関連語抽出方法を説明する。
ユーザから入力されたキーワード中の各単語に対して単語の重要度に応じた重みを付与する。この単語の重みの計算式には、たとえば、確率モデルにもとづく Robertson の計算式(式1)が知られている(文献2:Robertson, S.E. and Walker, S. "On relevance weights with little relevance information," SIGIR 97, ACM Press, pp.16-24)。この文献2の技術においては、キーワード中の各単語の重みは、検索対象文書全体の中での各単語の出現状況 Wp、Wq に応じて付与される。
W(重み) = Wp Wq ……… (式1)
ここで Wp = k4 + log(N / (N - n))
Wq = log(n / (N - n))
N: 検索対象総文書数
n: 単語の出現する文書数
k4: 調整パラメータ
次に、キーワード中の各単語の重みをもとに、各文書の文書適合度を計算する。この文書適合度の計算式は、たとえば、文献2の計算式(式2)で求まる。
F(適合度) = Σ(W × tf /(k1 + tf)) ……… (式2)
ここで
W :(式1)で求めた単語の重み
tf: 文書あたりの単語の出現数
k1: 調整パラメータ
各文書の文書適合度を求め、適合度の高い順に各文書を順序づけ、上位何件かを適合文書とみなし、下位何件かを非適合文書とみなす。
適合文書の選出後、適合文書中の不要語(たとえば冠詞の a など)を除いたすべての単語について、適合文書および非適合文書での出現状況、すなわちフィードバック情報を反映させて、それぞれの単語の重みを再計算する。
適合文書選出後の重みは、たとえば、文献2の計算式(式3)を用いて、検索対象文書全体での出現状況 Wp、Wq ((式1)のコメント参照)と適合文書/非適合文書の中での出現状況 WrとWs を比率 CpとCq で足し合わせて付与される。
W'(重み)=(Cp・Wp+(1-Cp)・Wr)-(Cq・Wq+(1-Cq)・Ws) ……(式3)
ここで Wr = log((r + 0.5) / (R - r + 0.5))
Ws = log((s + 0.5) / (S - s + 0.5))
Cp = k5 / (k5 + √R)
Cq = k6 / (k6 + √S)
R: 適合文書数
r: 適合文書集合の中で単語の出現する文書数
S: 非適合文書数
s: 非適合文書集合の中で単語の出現する文書数
k5, k6: 調整パラメータ
【0004】
さらに、この重みとフィードバック情報から適合文書中の不要語を除いた各単語について、キーワードとの関連度を求める。
関連度の算出方法としては、たとえば、Boughanem の計算式(式4)がある(文献3:Walker, S. et al., "Okapi at TREC-6:Automated ad hoc, VLC, routing, filtering and QSDR," The Sixth Test REtrieval Conference (TREC-6), 1996, NIST)。
関連度 = (r / R - α・s / S) × W' ……… (式4)
ここで α: 調整パラメータ
このようにして、適合文書中の各単語について、キーワードとの関連度を求めて、関連度の高いものから順にキーワード関連語として選出し、入力したキーワードに追加して新しいキーワードを作成する。
この新しいキーワードを用いて、再度、適合文書を選出する。このとき、文書適合度の算出には、上記(式3)で求めた重みが使われる。
【0005】
上記の従来の方法では、キーワードに対する関連語として選出されるのは、個々の単語(単単語)である。
しかし、キーワードに関連した言葉として追加すべきものは、単単語とはかぎらない。たとえば、キーワード「Microsoft」に関連する言葉としては、「Windows」の他にも単語二つから成る「Bill Gates」なども有効と考えられる。この場合、「Bill」と「Gates」を単語単位でばらばらにキーワードに追加するより「Bill Gates」とまとめて追加した方が、より大きな効果を期待できる。単語単位であると、たとえば、「Bill」に対して「Bill Clinton」等も一致してしまうからである。
したがって、キーワードの関連語として単単語を選出するだけでは、キーワードを補うのに充分ではなく、より大きな単位で、関連する語句を選出できることが望ましい。
この点に関して、たとえば、特開平11−25108号公報記載の技術では、検索された文書から関連語を選出する際に、特定の品詞に属する単語の組合せである「単語の組」も候補に加えることを提案している。
【0006】
【発明が解決しようとする課題】
しかしながら、上記の従来技術では、以下のような問題がある。
(1)特定の品詞に属する単語の組合せを文書から抽出するには、形態素解析という手間がかかり、かつ、結果の信頼性が高いとは言えない処理を経なければならない。
(2)検索対象文書中の単単語だけでなく「単語の組」についても、文書内での出現状況などの統計情報を予め抽出しておかなければならない。
このため、関連語となりうる「単語の組」を網羅すると、その数は膨大となり、多くの記憶容量が必要になる。
(3)抽出した「単語の組」の候補から検索に有効な関連語を選出するときに、単単語の選出用の関連度算出方法をそのまま適用している。
しかし、単単語と「単語の組」とでは、文書内における出現状況が大きく異なるものであり、これを考慮に入れず、単純に、単単語用の関連度算出方法をそのまま適用するのでは、検索に寄与しない「単語の組」が選ばれる公算が高い。
本発明は、上述の問題を解決するためのものであり、適合文書中から、検索キーワードに関連が高く検索に寄与する単語および単語の組合せを、記憶容量を増やしたり検索速度を著しく低下させることなく選び出す文書検索装置、文書検索方法および記録媒体を提供することを目的とする。
【0007】
【課題を解決するための手段】
上記の問題を解決するために、請求項1記載の発明の文書検索装置は、複数の文書の文書情報と、前記文書中に含まれる各単語の単語統計情報とを保持して構成される文書データベースと、前記文書データベースからキーワードに適合する適合文書および適合しない非適合文書を選出する文書ランキング部と、前記キーワードの関連語を選出する単語ランキング部と、新しいキーワードを生成するキーワード生成部と、を備え、前記文書ランキング部は、前記文書データベースから、装置に入力されたキーワードについて適合文書及び非適合文書を選出し、前記単語ランキング部は、前記適合文書中の単単語について、前記文書ランキング部で選出した適合文書および非適合文書中の出現頻度と、前記文書データベースの検索対象文書中の出現頻度と、をもとに前記キーワードとの関連度を計算し、前記関連度の高い単単語を前記キーワードの関連語として選出し、さらに、前記文書ランキング部で選出した適合文書から連続した2つ以上の単語から構成される単語列を抽出し、前記単単語の関連語の関連度の中で最小のものに基づき前記単語列の関連度の下限値を計算するとともに、前記適合文書と非適合文書中の前記単語列の出現頻度をそれぞれ計算し、該出現頻度から暫定的な関連度を計算し、該暫定的な関連度と前記関連度の下限値とを比較し、前記暫定的な関連度のほうが前記関連度の下限値より小さいときは、前記単語列を関連語候補から外したうえで、単語列を選出して、前記選出された単単語及び前記選出された単語列を前記キーワードの関連語とし、前記キーワード生成部は、前記キーワードの関連語をもとの前記キーワードに追加して新しいキーワードとし、前記文書ランキング部は、前記キーワード生成部で生成された新しいキーワードに適合する文書を検索するようにしたことを特徴とする。
また、請求項2記載の発明の文書検索装置は、請求項1に記載の文書検索装置において、前記単語ランキング部は、予め指定した不要語および記号からのみなる語を含む単語列をキーワードの関連語候補としないようにしたことを特徴とする。
【0008】
また、請求項記載の発明の文書検索装置は、請求項1又は2に記載の文書検索装置において、前記単語ランキング部は、前記関連語候補に残った単語列ついて、前記文書データベース中の文書に出現する単語列の実際の出現頻度を求め、該実際の出現頻度から前記単語列の関連度を計算する際に、単単語にくらべて前記文書ランキング部で選出された適合文書および非適合文書中の出現状況の影響する度合が高くなるように出現状況の比率を設定したことを特徴とする。
また、請求項記載の発明の文書検索装置は、請求項1乃至請求項いずれか一項に記載の文書検索装置において、前記単語ランキング部は、前記文書ランキング部で選出された適合文書から抽出した単語列の関連語候補から前記キーワードの関連語として選出するための関連度の下限を単単語にくらべて高く設定し、単語列が関連語として選ばれる数を抑えるようにしたことを特徴とする。
また、請求項記載の発明の文書検索装置は、請求項1乃至請求項いずれか一項に記載の文書検索装置において、前記文書ランキング部は、前記キーワード生成部で生成された新しいキーワードによって前記文書データベースを検索する際に、このキーワードに含まれる単単語と重複する単語を含む単語列については、その重みを下げて適合度を算出するようにしたことを特徴とする。
【0009】
また、請求項6記載の発明の文書検索方法は、コンピュータにより実行される、前記コンピュータに入力されたキーワードに適合する文書を複数の文書を保持する文書データベースから検索する文書検索方法において、前記文書データベースからキーワードに適合する適合文書および適合しない非適合文書を選出する文書ランキング工程と、前記キーワードの関連語を選出する単語ランキング工程と、新しいキーワードを生成するキーワード生成工程と、を備え、前記文書ランキング工程は、前記文書データベースから、前記コンピュータに入力されたキーワードについて適合文書及び非適合文書を選出し、前記単語ランキング工程は、前記適合文書中の単単語について、前記文書ランキング工程で選出した適合文書および非適合文書中の出現頻度と、前記文書データベースの検索対象文書中の出現頻度と、をもとに前記キーワードとの関連度を計算し、前記関連度の高い単単語を前記キーワードの関連語として選出し、さらに、前記文書ランキング工程で選出した適合文書から連続した2つ以上の単語から構成される単語列を抽出し、前記単単語の関連語の関連度の中で最小のものに基づき前記単語列の関連度の下限値を計算するとともに、前記適合文書と非適合文書中の前記単語列の出現頻度をそれぞれ計算し、該出現頻度から暫定的な関連度を計算し、該暫定的な関連度と前記関連度の下限値とを比較し、前記暫定的な関連度のほうが前記関連度の下限値より小さいときは、前記単語列を関連語候補から外したうえで、単語列を選出して、前記選出された単単語及び前記選出された単語列を前記キーワードの関連語とし、前記キーワード生成工程は、前記キーワードの関連語をもとの前記キーワードに追加して新しいキーワードとし、前記文書ランキング工程は、前記キーワード生成工程で生成された新しいキーワードに適合する文書を検索するようにしたことを特徴とする。
また、請求項7記載の発明は、コンピュータに請求項6に記載の文書検索方法を実現させるプログラムを記録したコンピュータ読み取り可能な記録媒体を特徴とする。
【0010】
【発明の実施の形態】
以下に、図面を用いて本発明の実施の形態の構成および動作を詳細に述べる。
実施の形態の構成
図1は本発明に係る文書検索装置の構成例を示すブロック図である。
この実施の形態の文書検索装置は、キーワード入力部110 、文書ランキング部120、単語ランキング部130 、キーワード生成部140、文書出力部150、文書データベース160 より構成される。
キーワード入力部110は、ユーザがキーボード等により、文書データベース160中にある文書の特徴をあらわすキーワードとなる文字列を入力する。
文書ランキング部120は、キーワード入力部110から渡されたキーワードに対して、文書データベース160を検索し、適合する文書と適合しない文書とを選定する。また、文書ランキング部120は、キーワード生成部140で生成された新しいキーワードに対してもう一度適合する文書を選定する。
この選定された適合文書は、文書出力部150へ渡される。
【0011】
単語ランキング部130は、文書ランキング部120で選定された適合文書の中から取り出された単語と入力されたキーワードとの間で計算される関連度に応じて関連語を選出し、キーワード生成部140へ渡す。
それらを入力したキーワードの関連語としてキーワードに追加し、その新しいキーワードを文書ランキング部120へ渡す。
キーワード生成部140は、単語ランキング部130から渡された関連語をもとのキーワードに追加して新しいキーワードを生成し、文書ランキング部120へ渡される。
文書出力部140は、文書ランキング部120で選出した適合文書をプリンタ、表示装置、記憶装置等へ出力するか、または、ネットワークを介して他のコンピュータ装置へ送信する。
文書データベース160は、検索対象となる文書を保持する文書情報と、その文書中に含まれている各単語の単語統計情報から構成される(図2参照)。
たとえば、文書情報には、各文書に対して次のような情報が保持される。
文書識別子(ID)、文書名、書誌事項(作成者、作成日、発行所等)、文書実体へのポインタ等
また、単語統計情報には、単語ごとに次のような統計情報を保持する。
単語の表記、この単語の文書データベース全体での出現頻度、単語出現情報等ここで単語出現情報としては、単語が出現する文書ごとに次の情報を保持する。
この単語が出現する文書の文書識別子、この文書に出現する単語出現頻度、この文書にこの単語が出現する出現位置の一覧等
【0012】
(2)実施の形態の動作
次に、このように構成された本実施の形態の文書検索装置の動作について、図3のフローチャートに基いて説明する。
まず、キーボード等の入力装置からキーワードの文字列を入力する(ステップS100)。
これにより、キーワード入力部110を構成する。
このキーワードは、たとえば、英語や日本語の単語や単語の組み合わせで構成し、必要に応じて単語の組み合わせは、単単語へ分解する。
この入力されたキーワード中のそれぞれの単語について、文書データベース160の単語統計情報を参照し、たとえば、上記(式1)を用いて単語の重要度に応じた重みを計算する(ステップS110)。
次に、検索対象である文書データベース160中のそれぞれの文書に対して、文書データベース160の単語統計情報とステップS110で計算されたキーワードの単語の重みとを参照し、その文書にキーワード中の単語がどのくらい含まれているかを示す適合度を、たとえば、上記(式2)を用いて計算し、文書一覧表を作成する(ステップS120)。
この文書一覧表を適合度をキーとして、降順に各文書を順序付け、その上位から所定の件数(たとえば、10件程度)の文書を適合文書とみなし、下位から所定の件数(たとえば、500件程度)の文書を非適合文書とみなす(ステップS130)。
あるいは、順序づけられた文書の一覧表(適合度、文書名や書誌事項等の一覧)をユーザに提示し、適合しているかどうか指示させ、適合していると指示された文書を適合文書とし、適合しないと指示された文書を非適合文書とするようにしてもよい。
【0013】
ステップS110からステップS130までにより、文書ランキング部120を構成する。
ステップS130で選出した適合文書がユーザの所望した文書であるかどうかをユーザに指示させる(ステップS140)。
所望した文書でなければ、ステップS150へ進む。所望した文書であれば、ステップS190へ進む。
ステップS130で選出された適合文書を表示装置、プリンタや記憶装置等の出力装置へ、たとえば、ランク順に文書名や書誌事項等を一覧として出力したり、また、ネットワークで接続された他のコンピュータ装置へ送信することによってユーザに提示される(ステップS190)。
これにより、文書出力部150を構成する。
ステップS130で求めた適合文書中の単語を入力キーワードの関連語の候補となる関連語単語表として作成する。これは文書データベース160の単語統計情報に保持された適合文書に含まれる単語を取り出して作成される。このとき、予め用意された不要語表を参照して、これに登録されている単語は関連語単語表へは登録しない。
さらに、この関連語単語表に登録された単語ごとに、適合文書および非適合文書での出現状況を文書データベース160の単語統計情報から取り出し、たとえば、(式3)および(式4)を使って、キーワードとの関連度を計算する。
この関連度の高いものから順に所定の数(たとえば、10単語程度)だけ選択し、これを単単語のキーワード関連語として抽出する(ステップS150)。
また、所定の数の単語を選定したときの最小の関連度を記憶しておき、単語列の関連度の閾値計算に使う。
【0014】
次に、文書ランキング部120で抽出された適合文書中の連続する2語以上からなる単語の組合せ(以下、これを単語列と呼ぶ)を適合文書の中から抽出し、関連語候補とする。これら抽出された関連語候補の単語列中から、予め用意した不要語リストにある不要語を含む単語列や記号のみからなる語を含んでいる単語列を関連語候補から削除する。(ステップS160)。
以下の説明では、単語を2つ組合せたものを例として説明するが、3語以上の任意の数の組合せであっても同様に考えられる。
たとえば、入力されたキーワードが「Microsoft」であって、抽出された適合文書に次の文が含まれているとする。
Microsoft Chairman Bill Gates delivered a keynote address.
この場合、関連語候補として、以下の7つの単語列が抽出できる。
Microsoft Chairman
Chairman Bill
Bill Gates
Gates delivered
delivered a
a keynote
keynote address
ここで、不要語リストの不要語として「a」が登録されていれば、単語列「a keynote」および「delivered a」を削除する。
残った関連語候補の単語列について、入力されたキーワードと関連度の高いものをキーワード関連語として選出する(ステップS170)。
本発明では、単語列の関連度は、単単語の関連度算出に使用した計算式、たとえば、上記の(式3)および(式4)において、単語を単語列と置き換えて計算する。詳細は、後述の(3)にて説明する。
ステップS150からステップS170により、単語ランキング部130を構成する。
単単語の関連語(ステップS150)と単語列の関連語(ステップS160およびS170)をもとのキーワードに追加して新しいキーワードを作成する(ステップS180)。
これによりキーワード生成部140を構成する。
【0015】
この新しいキーワードをステップS110からステップS130(文書ランキング部120)の処理と同様にして、再度、適合文書を選出する。
このとき、単語列の関連語を構成する単単語が、単単語としても関連語に重複して登録されている場合には、この単語列の関連語の(式1)による重み計算は、重みに所定の係数(たとえば、0.4から0.3程度)を乗じて重みを下げるようにして文書適合度(式2)を計算する。これは、単語列を含む文書には、同時に、その単語列を構成している単単語も含んでいるので、この含有関係を考慮にいれた重みとしたいためである。
本実施の形態の文書検索装置をこのような構成にすることによって、次のような効果がある。
・形態素解析のような重い処理に依らない方法で複数の単語の組合せを抽出することができる。
・時間を増やさずに検索のつど統計情報を収集することによって記憶容量を削減することができる。
・2語以上からなる単語の組合せを選出するのに適した関連度の算出方法を提案できた。
以上によって、検索に寄与する単語列をキーワードの関連語として選出することができるので、ユーザの所望する的確な文書を検索することができる。
【0016】
(3)単語列のキーワード関連語の抽出
たとえば、(式3)および(式4)によって単語列のキーワードとの関連度を計算するためには、次の情報が必要となる。
(A)文書データベース160の中の文書にこの単語列が出現する文書数
これにより(式3)のWp、Wq が求められる。
これは、文書データベース160の単語統計情報が単語ごとの出現状況データしか持っていないので、単語ごとの単語統計情報から文書中の単語の位置情報を得た上で、出現状況データを単語列用に統合する必要があり、これを文書データベース160中のすべての文書に対して処理するには、多大な処理時間が必要となる。
(B)適合文書および非適合文書にこの単語列が出現する文書数
これにより(式3)のWr、Ws が求められる。
これは、適合文書および非適合文書中の各文書の内容を走査して単語列が出現しているかどうか調べればよいが、これは図3のステップS150で単単語の出現する文書数を調べるのと同時に、単語統計情報から文書中の単語の位置情報を得て行なえば、処理時間への影響は少ない。
上記(A)の計算時間を短縮するために、まず、単語列をキーワードの関連語として採用するための関連度の下限値(閾値)を決め、適合文書および非適合文書に単語列が出現する文書数を計算し、それぞれ(式4)に当てはめると、重みの下限値が決まってくる。
また、上記で求めた重みの下限値や適合文書および非適合文書に単語列が出現する文書数を(式3)に当てはめると、(式3)は文書データベース160の文書中に単語列が出現する出現頻度(以下、nとする)の単一変数の関数になっているので、これを解けば出現頻度を計算することができる。しかし、これを解かずとも次のように考えれば、その文書に単語列が出現するかどうかを最終的に走査することなく判断することができる。
【0017】
(式3)は、検索対象文書中にこの単語列が出現する出現頻度(n)の単調減少関数であるから、n=1のときが最大値を持つことになるので、各単語列でn=1としたときの関連度(式4で計算される)が先に決めた関連度の下限値(閾値)より小さければ、当然のことに、nを実際に求めた関連度はさらに小さい値となることになる。
したがって、n=1として(式3)、(式4)から計算した単語列の関連度が先に決めた関連度の下限値(閾値)より小さい単語列は、関連語の候補からはずすことができる。これにより、検索対象の文書数より適合文書数や非適合文書数の方が小さいため、これらの適合文書や非適合文書での単語列の出現頻度を計算したとしても、全体の処理時間を大幅に削減することができる。
上記の単語列が関連語として採用される関連度の下限値(閾値)は、先に単単語の関連語を求めて記憶してある最小の関連度に一定の係数(たとえば、5以下程度の値とし、経験的には2.5から5位を採用する)を乗じた値とし、単単語が関連語として選出されるのに比べ、関連度の下限値(閾値)を高めに設定する。このように関連語に選出される単語列の数を減らしておけば、この後に、関連語を追加した新キーワードで再度、適合文書を検索するときに、処理時間が短くてすむ。
以上のことを考慮して、図4に示した手順で関連語候補の単語列からキーワード関連語を選出する。
【0018】
単単語の関連語を選出したときに記憶した単単語の最小関連度に所定の係数を乗じて、単語列の関連度の下限値(閾値)を計算する(ステップS200)。
各単語列に対して、各適合文書中に出現する出現頻度、および、各非適合文書中に出現する出現頻度をそれぞれ計算する(ステップS210)。
各単語列に対して、検索対象文書に出現する出現頻度(n)を1とし、ステップS210で計算した各適合文書中に出現する出現頻度、および、各非適合文書中に出現する出現頻度を用いて、(式3)と(式4)とから暫定的な単語列の関連度を計算し、この暫定的な関連度とステップS20で計算した関連度の下限値(閾値)と比較する。暫定的な関連度の方が閾値より小さいときには、この単語列を関連語候補からはずす(ステップS220)。
残った関連語候補の単語列について、文書データベース160中の文書に出現する単語列の出現頻度を実際に求め、(式3)と(式4)によって単語列の関連度を計算する。
このとき(式3)によって、単単語にくらべて、適合文書の中での出現状況 Wr、Ws が重みに影響する度合が高くなるように、比率 Cp、Cq を予め設定しておき、単語列の重みを計算する。関連語としての単語列は、検索対象文書中に出現する頻度が少ないと考えた方が一般的であるため、検索対象文書集合の中での出現状況 Wp、Wq より、適合文書および非適合文書の中での出現状況 Wr、Ws の方を重みの判断基準としてよりふさわしいと考えられるからである。
この計算した単語列の関連度が、先に決めた関連度の下限値(閾値)より大きい場合、この単語列をキーワード関連語とする(ステップS230)。
【0019】
<コンピュータによる実施例>
さらに、本発明は上記の実施の形態のみに限定されたものではない。たとえば、図1に示した文書検索装置は、図5のようなハードウェア構成を持つコンピュータ装置200によっても実現が可能である。
即ち、コンピュータ装置200は、キーボード、マウス、タッチパネル、スキャナ等により構成され、情報の入力に使用される入力装置1と、種々の出力情報や入力装置1からの入力された情報などを表示出力させる表示装置2と、種々のプログラムを動作させるCPU(Central Processing Unit;中央処理ユニット)3と、プログラム自身を保持し、またそのプログラムがCPU3によって実行されるときに一時的に作成される情報等を保持するメモリ4と、本発明の文書検索装置で扱う文書データベース160およびプログラムやプログラム実行時の一時的な情報等を保持する記憶装置5と、プログラムやデータ等を記憶した記録媒体を装着してそれらを読み込み、メモリ4または記憶装置5へ格納するのに用いられる媒体駆動装置6と、ネットワーク9へ接続するためのインタフェースであるネットワーク接続装置7とから構成され、それらはバス8で接続されている。
また、ネットワーク9は、コンピュータ装置200と他のコンピュータ装置200とを結合するための伝送路であって、一般には、ケーブルで実現され、通信プロトコルにはTCP/IPが使われる。但し、伝送路としてはケーブルだけではなく、それらの間の通信プロトコルが一致するものであれば無線、有線および放送波のいずれでもよく、たとえば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット、アナログ電話網、デジタル電話網(ISDN:Integral Service Digital Network)、PHS(パーソナルハンディシステム)、携帯電話網、衛星通信網などを用いることができる。
このようなコンピュータ装置200の構成において、図1に示した文書検索装置を構成する各機能をそれぞれプログラム化し、予めCD−ROM等の記録媒体に書き込んでおき、このCD−ROMを各サイトのCD−ROMドライブのような媒体駆動装置6を搭載したコンピュータ装置に装着して、これらのプログラムをそれぞれのコンピュータ装置のメモリ4あるいは記憶装置5に格納し、それを実行することによって、上記の実施の形態と同様な機能を実現することができる。
【0020】
なお、記録媒体としては半導体媒体(たとえば、ROM、ICメモリカード等)、光媒体(たとえば、DVD、MO、MD、CD−R等)、磁気媒体(たとえば、磁気テープ、フレキシブルディスク等)のいずれであってもよい。
また、コンピュータ装置200のメモリ4へロードしたプログラムを実行することにより前述した実施の形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、オペレーティングシステム等が実際の処理の一部または全部を行い、その処理によって上述した実施の形態の機能が実現される場合も含まれる。
また、上述した実施の形態を実現するプログラムがROM等のような半導体の記録媒体である場合には、媒体駆動装置6からではなく、直接、メモリ4へロードして実行される。
【0021】
<本発明のネットワーク環境での運用>
図6は、本発明を有線または無線の通信ネットワークに接続して運用する形態の構成を示している。
たとえば、文書検索プログラムを保持するサーバー300と複数のユーザが利用する端末310とをネットワーク9で接続する。
この場合、サーバー300およびユーザの端末310は、図5に示した汎用のコンピュータ装置200で構成される。
ユーザは、端末310からサーバー300に対してログインしたり、文書検索のためのキーワードを入力し、サーバー300の文書検索プログラムへ検索の実行を依頼する。サーバー300の文書検索プログラムは指定されたキーワードに適合した検索結果を要求もとの端末310へ戻す。ユーザの端末310は、この検索結果を出力する。
このようにすることで、常に最新の文書検索プログラムを使えるという利点がある。
また、図6のようにサーバー300と端末310とを有線または無線の通信ネットワークで接続した場合、サーバー300の磁気ディスク等の記憶装置に本発明の機能を実現する文書検索プログラムを格納しておき、端末310に対してダウンロード等の形式で頒布することも可能である。
さらに、本発明の機能を実現する文書検索プログラムを媒体や放送波による配布で提供するようにしてもよい。
【0022】
【発明の効果】
以上説明したように、本発明によれば、2語以上からなる関連語句を効率良く得ることができ、記憶容量を増やしたり検索速度を著しく低下させることなく、検索精度を向上させることができる。
【図面の簡単な説明】
【図1】本発明に係る文書検索装置の構成例を示すブロック図である。
【図2】図1中の文書データベースのデータ構造を説明するための図である。
【図3】図1に示す文書検索装置における処理の流れを説明するためのフローチャートである。
【図4】単語列から関連語候補を削除する処理の流れを説明するためのフローチャートである。
【図5】本発明に係る文書検索装置をコンピュータで実現するときのハードウェアの構成例を示す図である。
【図6】本発明をネットワーク環境で運用する場合を説明するための図である。
【符号の説明】
110 …… キーワード入力部
120 …… 文書ランキング部
130 …… 単語ランキング部
140 …… キーワード生成部
150 …… 文書出力部
160 …… 文書データベース
200 …… コンピュータ装置
300 …… サーバー
310 …… 端末
1 …… 入力装置
2 …… 表示装置
3 …… CPU
4 …… メモリ
5 …… 記憶装置
6 …… 媒体駆動装置
7 …… ネットワーク接続装置
8 …… バス
9 …… ネットワーク

Claims (7)

  1. 複数の文書の文書情報と、前記文書中に含まれる各単語の単語統計情報とを保持して構成される文書データベースと、
    前記文書データベースからキーワードに適合する適合文書および適合しない非適合文書を選出する文書ランキング部と、
    前記キーワードの関連語を選出する単語ランキング部と、
    新しいキーワードを生成するキーワード生成部と、を備え、
    前記文書ランキング部は、前記文書データベースから、装置に入力されたキーワードについて適合文書及び非適合文書を選出し、
    前記単語ランキング部は、前記適合文書中の単単語について、前記文書ランキング部で選出した適合文書および非適合文書中の出現頻度と、前記文書データベースの検索対象文書中の出現頻度と、をもとに前記キーワードとの関連度を計算し、前記関連度の高い単単語を前記キーワードの関連語として選出し、さらに、前記文書ランキング部で選出した適合文書から連続した2つ以上の単語から構成される単語列を抽出し、前記単単語の関連語の関連度の中で最小のものに基づき前記単語列の関連度の下限値を計算するとともに、前記適合文書と非適合文書中の前記単語列の出現頻度をそれぞれ計算し、該出現頻度から暫定的な関連度を計算し、該暫定的な関連度と前記関連度の下限値とを比較し、前記暫定的な関連度のほうが前記関連度の下限値より小さいときは、前記単語列を関連語候補から外したうえで、単語列を選出して、前記選出された単単語及び前記選出された単語列を前記キーワードの関連語とし、
    前記キーワード生成部は、前記キーワードの関連語をもとの前記キーワードに追加して新しいキーワードとし、
    前記文書ランキング部は、前記キーワード生成部で生成された新しいキーワードに適合する文書を検索するようにしたことを特徴とする文書検索装置。
  2. 請求項1に記載の文書検索装置において、
    前記単語ランキング部は、予め指定した不要語および記号からのみなる語を含む単語列をキーワードの関連語候補としないようにしたことを特徴とする文書検索装置。
  3. 請求項1又は2に記載の文書検索装置において、
    前記単語ランキング部は、前記関連語候補に残った単語列ついて、前記文書データベース中の文書に出現する単語列の実際の出現頻度を求め、該実際の出現頻度から前記単語列の関連度を計算する際に、単単語にくらべて前記文書ランキング部で選出された適合文書および非適合文書中の出現状況の影響する度合が高くなるように出現状況の比率を設定したことを特徴とする文書検索装置。
  4. 請求項1乃至のいずれか一項に記載の文書検索装置において、
    前記単語ランキング部は、前記文書ランキング部で選出された適合文書から抽出した単語列の関連語候補から前記キーワードの関連語として選出するための関連度の下限を単単語にくらべて高く設定し、単語列が関連語として選ばれる数を抑えるようにしたことを特徴とする文書検索装置。
  5. 請求項1乃至のいずれか一項に記載の文書検索装置において、
    前記文書ランキング部は、前記キーワード生成部で生成された新しいキーワードによって前記文書データベースを検索する際に、このキーワードに含まれる単単語と重複する単語を含む単語列については、その重みを下げて適合度を算出するようにしたことを特徴とする文書検索装置。
  6. コンピュータによって実行される、前記コンピュータに入力されたキーワードに適合する文書を複数の文書を保持する文書データベースから検索する文書検索方法において、
    前記文書データベースからキーワードに適合する適合文書および適合しない非適合文書を選出する文書ランキング工程と、
    前記キーワードの関連語を選出する単語ランキング工程と、
    新しいキーワードを生成するキーワード生成工程と、を備え、
    前記文書ランキング工程は、前記文書データベースから、前記コンピュータに入力されたキーワードについて適合文書及び非適合文書を選出し、
    前記単語ランキング工程は、前記適合文書中の単単語について、前記文書ランキング工程で選出した適合文書および非適合文書中の出現頻度と、前記文書データベースの検索対象文書中の出現頻度と、をもとに前記キーワードとの関連度を計算し、前記関連度の高い単単語を前記キーワードの関連語として選出し、さらに、前記文書ランキング工程で選出した適合文書から連続した2つ以上の単語から構成される単語列を抽出し、前記単単語の関連語の関連度の中で最小のものに基づき前記単語列の関連度の下限値を計算するとともに、前記適合文書と非適合文書中の前記単語列の出現頻度をそれぞれ計算し、該出現頻度から暫定的な関連度を計算し、該暫定的な関連度と前記関連度の下限値とを比較し、前記暫定的な関連度のほうが前記関連度の下限値より小さいときは、前記単語列を関連語候補から外したうえで、単語列を選出して、前記選出された単単語及び前記選出された単語列を前記キーワードの関連語とし、
    前記キーワード生成工程は、前記キーワードの関連語をもとの前記キーワードに追加して新しいキーワードとし、
    前記文書ランキング工程は、前記キーワード生成工程で生成された新しいキーワードに適合する文書を検索するようにしたことを特徴とする文書検索方法。
  7. コンピュータに請求項6に記載の文書検索方法を実現させるプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
JP2000333510A 2000-10-31 2000-10-31 文書検索装置、文書検索方法および記録媒体 Expired - Fee Related JP4208402B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000333510A JP4208402B2 (ja) 2000-10-31 2000-10-31 文書検索装置、文書検索方法および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000333510A JP4208402B2 (ja) 2000-10-31 2000-10-31 文書検索装置、文書検索方法および記録媒体

Publications (2)

Publication Number Publication Date
JP2002140355A JP2002140355A (ja) 2002-05-17
JP4208402B2 true JP4208402B2 (ja) 2009-01-14

Family

ID=18809584

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000333510A Expired - Fee Related JP4208402B2 (ja) 2000-10-31 2000-10-31 文書検索装置、文書検索方法および記録媒体

Country Status (1)

Country Link
JP (1) JP4208402B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230325396A1 (en) * 2018-05-18 2023-10-12 Robert Christopher Technologies Ltd. Real-time content analysis and ranking

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4084837B2 (ja) * 2005-09-16 2008-04-30 株式会社ジャム 情報検索支援装置、情報検索支援方法、コンピュータプログラム、およびプログラム格納媒体
JP2009217406A (ja) * 2008-03-07 2009-09-24 Nec Corp 文書検索装置及び方法、並びに、プログラム
JP5480058B2 (ja) * 2010-08-03 2014-04-23 ヤフー株式会社 広告マッチング装置、方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230325396A1 (en) * 2018-05-18 2023-10-12 Robert Christopher Technologies Ltd. Real-time content analysis and ranking

Also Published As

Publication number Publication date
JP2002140355A (ja) 2002-05-17

Similar Documents

Publication Publication Date Title
EP1225517A2 (en) System and methods for computer based searching for relevant texts
US20090299978A1 (en) Systems and methods for keyword and dynamic url search engine optimization
JP5066963B2 (ja) データベース構築装置
US20080222138A1 (en) Method and Apparatus for Constructing a Link Structure Between Documents
JP2000010996A (ja) 文書整理装置および方法
JP2001290843A (ja) 文書検索装置及びその方法並びに文書検索プログラム及びそのプログラムを記録した記録媒体
JP2009122807A (ja) 連想検索システム
JP4179858B2 (ja) 文書検索装置、文書検索方法、プログラムおよび記録媒体
JP5915274B2 (ja) 情報検索方法、プログラムおよび情報検索装置
JP4154118B2 (ja) 関連語選出装置、その方法および記録媒体、並びに文書検索装置、その方法および記録媒体
JP4824070B2 (ja) クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム
JP4212347B2 (ja) 文書検索装置、プログラムおよび記録媒体
JP4208402B2 (ja) 文書検索装置、文書検索方法および記録媒体
JP3567861B2 (ja) 情報源所在推定方法及び装置及び情報源所在推定プログラムを格納した記憶媒体
JP2001188802A (ja) 情報検索装置及び情報検索方法
JP2006343925A (ja) 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム
JP4671212B2 (ja) 文書検索装置、文書検索方法、プログラムおよび記録媒体
JP2009080806A (ja) Webページにリンクを挿入する方法
JP5315726B2 (ja) 情報提供方法、情報提供装置、および情報提供プログラム
JP2004054882A (ja) 類義語検索装置、方法、プログラム及び記憶媒体
JPH1145257A (ja) Web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145261A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4773003B2 (ja) 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体
JP3558267B2 (ja) 文書検索装置
JP2002117061A (ja) 情報提供装置および情報提供方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050127

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080108

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080408

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080604

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080805

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080916

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081014

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081021

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111031

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121031

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131031

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees