JP2004192374A - Document search system, program and recording medium - Google Patents
Document search system, program and recording medium Download PDFInfo
- Publication number
- JP2004192374A JP2004192374A JP2002360158A JP2002360158A JP2004192374A JP 2004192374 A JP2004192374 A JP 2004192374A JP 2002360158 A JP2002360158 A JP 2002360158A JP 2002360158 A JP2002360158 A JP 2002360158A JP 2004192374 A JP2004192374 A JP 2004192374A
- Authority
- JP
- Japan
- Prior art keywords
- document
- documents
- keyword
- word
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、文書検索装置、文書検索装置の機能を実行させるためのプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体に関し、より詳細には、与えられたキーワードに対して適合する文書を選択し、この適合文書から抽出したキーワードの関連語を付加したキーワードによって適合する文書を検索しなおすことにより、ユーザの所望する文書が検索できる文書検索装置、文書検索装置の機能を実行させるためのプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
【0002】
【従来の技術】
文書を多数集積している文書データベースからユーザの必要とする文書を探しだすには、ユーザが入力したキーワードを用いて一旦検索した後、そのキーワードに適合した文書中に出現する単語の中から入力したキーワードに関連した単語を選出し、はじめに入力したキーワードに追加し、再度、検索することで、よりユーザの求めるものに近いものを得る方法が知られている。
【0003】
例えば、キーワードの関連語を選出する方法として、適合文書中の各単語について、適合文書の中での出現状況などの統計情報を利用して、キーワードとの関連度を算出し、その値の大きい上位何単語かを選出する方法が提案されている(非特許文献1参照)。
【0004】
次に、この従来の関連語抽出方法について説明する。ユーザから入力されたキーワード中の各単語に対して単語の重要度に応じた重みを付与する。この単語の重みを計算する計算式には、例えば、確率モデルにもとづくRobertsonの計算式(式1)が知られている(非特許文献2参照)。この非特許文献2の技術においては、キーワード中の各単語の重みは、検索対象文書全体の中での各単語の出現状況Wp、Wqに応じて付与される。
【0005】
W(重み)=Wp-Wq ………(式1)
ここで
Wp=k4+log(N/(N-n)),
Wq=log(n/(N-n)),
N:検索対象総文書数,
n:単語の出現する文書数,
k4:調整パラメータ
【0006】
次に、キーワード中の各単語の重みをもとに、各文書の文書適合度を計算する。この文書適合度の計算式は、例えば、次に示すような非特許文献2の計算式(式2)で求める。
【0007】
F(適合度)=Σ(W×tf/(k1+tf)) ………(式2)
ここで
W:(式1)で求めた単語の重み,
tf:文書あたりの単語の出現数,
k1:調整パラメータ
【0008】
各文書の文書適合度を求め、適合度の高い順に各文書を順序づけ、上位何件かを適合文書とみなし、下位何件かを非適合文書とみなす。
適合文書の選出後、適合文書中の不要語(たとえば冠詞のaなど)を除いたすべての単語について、適合文書および非適合文書での出現状況、すなわちフィードバック情報を反映させて、それぞれの単語の重みを再計算する。
【0009】
適合文書選出後の重みは、例えば、非特許文献2の計算式(式3)を用いて、検索対象文書全体での出現状況Wp、Wq(上記(式1)のコメント参照)と適合文書/非適合文書の中での出現状況WrとWsを比率CpとCqで足し合わせて付与される。
【0010】
W'(重み)=(Cp・Wp+(1-Cp)・Wr)-(Cq・Wq+(1-Cq)・Ws)……(式3)
ここで
Wr=log((r+0.5)/(R-r+0.5)),
Ws=log((s+0.5)/(S-s+0.5)),
Cp=k5/(k5+√R),
Cq=k6/(k6+√S),
R:適合文書数,
r:適合文書集合の中で単語の出現する文書数,
S:非適合文書数,
s:非適合文書集合の中で単語の出現する文書数,
k5,k6:調整パラメータ
【0011】
さらに、この重みとフィードバック情報から適合文書中の不要語を除いた各単語について、キーワードとの関連度を求める。関連度の算出方法としては、例えば、Boughanemの計算式(式4)がある(非特許文献3参照)。
【0012】
関連度=(r/R-α・s/S)×W' ………(式4)
ここで α:調整パラメータ
【0013】
このようにして、適合文書中の各単語について、キーワードとの関連度を求めて、関連度の高いものから順にキーワード関連語として選出し、入力したキーワードに追加して新しいキーワードを作成する。
この新しいキーワードを用いて、再度、適合文書を選出する。このとき、文書適合度の算出には、上記(式3)で求めた重みが使われる。
【0014】
一方、特許文献1の技術は、任意の検索語に対して、異なる分類方法で分類した概念の類義語集合と、その上位概念を示す上位語を用意し、ユーザから与えられた検索語を含む類義語集合と上位語とを提示する。
これにより多様な分類方法で分類した概念の検索語を使って、検索することによって効率よく所望の情報を得ることができる。
【0015】
また、特許文献2の技術は、ユーザから与えられた検索キーワード中の主要なキーワードとなる主要キーワードを選択し、主要キーワードとその関連語や連想語によって得た検索結果を複数の分類に分類する。この分類された分類群の内から検索キーワードに対応する分類を決定し、その分類に属する情報に対して、先に与えられた検索キーワードとその関連語および連想語によって絞り込むことによって効率的に検索することができる。
【0016】
【特許文献1】
特開平10−21266号公報
【特許文献2】
特開2001−5830号公報
【非特許文献1】
Robertson,S.E. "On term selection for query expansion,"Journal of Documentation 46,Dec 1990,p359-364
【非特許文献2】
Robertson,S.E. and Walker,S. "On relevance weights withlittle relevance information," SIGIR97,ACM Press,pp.16-24
【非特許文献3】
Walker,S.etal.,"Okapi at TREC-6:Automated adhoc,VLC,routing,filtering and QSDR,"The Sixth Text RetrievalConference(TREC-6),1996,NIST
【0017】
【発明が解決しようとする課題】
しかしながら、上述した従来の技術では、適合文書群全体をひとつの集合とみなし、この集合全体から関連語を求めているため、ひとつの尺度からのみ関連語を選ぶことになり、以下のような問題点があった。
【0018】
(1)適合文書とみなした文書が実際には適合文書でなかった場合に、関連語として適さないものを選出してしまうリスクが高い。
(2)適合文書とみなした文書が実際に適合文書であった場合でも、似た傾向の関連語が多く選ばれる可能性があり、同じテーマを別の観点から論じた文書を得たい等の要求には応えられない。
【0019】
上述の特許文献1および特許文献2の技術は、あらかじめ検索語に対する関連語を定義しておき、ユーザに指定された検索語に関連語を追加して拡張した検索式を作成することができるが、観点を拡張した新たなキーワードを効果的にしかも自動的に得るというものではない。
【0020】
本発明は、上述した実情を考慮してなされたものであり、文書群から多様な観点に基づいた関連語を選出することによって、ユーザの所望している的確な文書を検索することができる文書検索装置、文書検索装置の機能を実行させるためのプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを目的とする。
【0021】
【課題を解決するための手段】
上記の課題を解決するために、本発明の請求項1は、複数の文書を保持する文書データベースと、前記文書データベースから入力されたキーワードに適合する文書および適合しない文書を選出する文書ランキング部と、前記文書ランキング部で選出された適合文書中に出現する単語と前記キーワードとの関連度が高い単語を前記キーワードの関連語として選出する単語ランキング部と、前記単語ランキング部で選出した関連語を前記キーワードに追加するキーワード生成部とを備えて、前記キーワード生成部で生成された新しいキーワードに適合する文書を再度、前記文書ランキング部で検索する文書検索装置において、前記単語ランキング部は、前記文書ランキング部で選出された適合文書群を複数の集合に分割し、それぞれの集合ごとに関連語をもとめてから、それら関連語の和集合をもとのキーワードに追加する関連語とすることを特徴とする文書検索装置。
【0022】
また、本発明の請求項2は、請求項1に記載の文書検索装置において、前記適合文書群の分割は、適合文書に対する特定の項目が共通あるいは近似の値を持つ適合文書に分割することを特徴とする。
【0023】
また、本発明の請求項3は、請求項2に記載の文書検索装置において、前記特定の項目は、前記適合文書の書誌事項であることを特徴とする。
【0024】
また、本発明の請求項4は、請求項2に記載の文書検索装置において、前記文書データベースの文書が特許公報である場合、前記特定の項目は、出願人であることを特徴とする。
また、本発明の請求項5は、請求項2に記載の文書検索装置において、前記文書データベースの文書が特許公報である場合、前記特定の項目は、出願日、公開日、特許登録日等の日付情報であることを特徴とする。
また、本発明の請求項6は、請求項2に記載の文書検索装置において、前記文書データベースの文書が特許公報である場合、前記特定の項目は、国際特許分類、ファセット分類、Fターム等の特許分類であることを特徴とする。
また、本発明の請求項7は、コンピュータに、請求項1乃至6のいずれかに記載の文書検索装置の機能を実行させるためのプログラムである。
また、本発明の請求項8は、請求項7に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
【0025】
したがって、適合文書とみなした文書が、実際には適合文書でなかった場合でも、リスク分散がはかられ、関連語として適さない関連語ばかりを選出する危険性が小さくなる。
また、適合文書とみなした文書群を異なった性質を持つ複数の文書集合に分割し、その文書集合ごとに関連語を選出することで、似た傾向の関連語ばかりが選出されることを防ぐことができる。
これにより、多様な単語をキーワードの関連語として選出できるので、ユーザの所望している的確な文書を検索できる可能性が高くなる。
【0026】
また、特許公報のような文書集合を検索する場合に、出願人、出願日・公開日・登録日等の日付情報あるいは特許分類を同じくする適合文書ごとに求めた関連語の和集合をもって関連語とするので、多様な観点から関連語を選出することができる。
【0027】
【発明の実施の形態】
以下に、図面を参照して本発明に係る文書検索装置の好適な実施形態を説明する。
【0028】
<実施形態1>
図1は、本発明に係る文書検索装置の構成を示すブロック図であり、同図において、文書検索装置は、キーワード入力部110、文書ランキング部120、単語ランキング部130、キーワード生成部140、文書出力部150、文書データベース160より構成される。
【0029】
キーワード入力部110は、ユーザがキーボード等により、文書データベース160中にある文書の特徴をあらわすキーワードを組み合わせた文字列を入力する。
この入力された文字列は、必要に応じて、単語辞書170を用いて形態素解析して単語に分解する。この単語辞書170は、少なくとも各単語の表記、品詞等から構成される。
または、単語辞書170を使わず、この入力された文字列をn−gramに区切って、それを単語としてもよい。
【0030】
文書ランキング部120は、キーワード入力部110から渡されたキーワードに対して、文書データベース160を検索し、適合する文書と適合しない文書とを選定する。この選定された適合文書は、単語ランキング部130へ渡され、関連語の候補となる単語の抽出源となる。
【0031】
文書データベース160は、検索対象となる文書を保持する文書情報と、その文書中に含まれている各単語の単語統計情報から構成される(図2参照)。例えば、文書情報には、各文書に対して次のような情報が保持される。
【0032】
文書識別子(ID)、文書名、書誌事項(作成者、作成日、発行所等)、
文書実体へのポインタ等
【0033】
また、単語統計情報には、単語ごとに次のような統計情報を保持する。
【0034】
単語の表記、この単語の文書データベース全体での出現頻度、
単語出現情報等
【0035】
ここで単語出現情報には、単語が出現する文書ごとに次の情報を保持する。
【0036】
この単語が出現する文書の文書識別子、この文書に出現する単語出現頻度、
この文書にこの単語が出現する出現位置の一覧等
【0037】
単語ランキング部130は、適合文書群全体を複数の適合文書集合に分割し、分割された適合文書集合ごとに関連語候補を抽出し、これらのすべての関連語候補から関連語を選定する。
【0038】
各適合文書の文書識別子から文書データベース160に格納された書誌事項を取り出し、着目した属性(例えば、作成者や作成日等)について、共通の値または近接する値を持つ文書を集めて複数の集合に分けることによって、適合文書を分割する。
このように属性の値を同じくする適合文書の集合を作成することにより、多様な観点からの関連語を選出することができる。
また、文書データベース160が特許公報からなる場合には、「出願人」、「出願日・公開日・登録日等の日付情報」あるいは「国際特許分類・ファセット分類・Fターム等の特許分類」等を属性として、適合文書をさらに適切な観点から分類することができ、より適切な関連語を抽出することが可能となる。
【0039】
次に、分割された適合文書集合ごとに、適合文書の文書識別子から文書データベース160に格納されている文書を取り出し、形態素解析あるいはn−gramによって区切って、単語を抽出し、予め用意された不要語表にこの抽出した単語が登録されていれば削除し、残りの単語を関連語候補とし、入力されたキーワードとこの関連語候補との関連度を、例えば、次の(式5)で算出する。
【0040】
関連度=Σi(rtfi/K+rtfi)/R-β×Σj(stfj/K+stfj)/S ……(式5)
ここで、
R:適合文書数、
S:非適合文書数、
rtfi:適合文書の文書iにおける出現回数、
stfj:非適合文書の文書jにおける出現回数、
Kおよびβ:調整パラメータ。
また、(式5)の右辺第1項は、適合文書の各文書についての和
であり、第2項は、非適合文書の各文書についての和である。
【0041】
次に、分割された適合文書集合ごとに抽出された、関連語候補をすべてひとまとめにした中から、所定の件数(例えば、10個程度)の関連度の高い上位の関連語候補を関連語として選出する。このようにして選定された関連語をキーワード生成部140へ渡す。
キーワード生成部140は、これら関連語をすべて、あるいは、ユーザに提示した関連語から選択されたものを追加して生成した新しいキーワードを文書ランキング部120へ渡す。
文書ランキング部120は、キーワード生成部140で生成された新しいキーワードに対してもう一度適合する文書を選定し、この選定された適合文書を文書出力部150へ渡す。
文書出力部150は、文書ランキング部120で選出した適合文書一覧を表示装置へ表示し、ユーザが所望の文書がないときには、単語ランキング部130を呼び出す。また、所望の文書があった場合には、その文書をプリンタ、表示装置、記憶装置等へ出力するか、または、ネットワークを介して他のコンピュータ装置へ送信する。
【0042】
次に、このように構成された本実施形態の文書検索装置の動作について、図3のフローチャートに基づいて説明する。
まず、キーボード等の入力装置から、例えば、英語や日本語の単語や単語の組み合わせで構成されるキーワードを文字列として入力し、必要に応じて単語辞書170によって形態素解析して、単語に分解する(ステップS100)。
または、単語辞書170を使わず、この入力された文字列をn−gramに区切って、それを単語としてもよい。
これにより、キーワード入力部110を構成する。
【0043】
この入力されたキーワード中のそれぞれの単語について、文書データベース160の単語統計情報を参照し、例えば、上記(式1)を用いて単語の重要度に応じた重みを計算する(ステップS110)。
【0044】
次に、検索対象である文書データベース160中のそれぞれの文書に対して、文書データベース160の単語統計情報とステップS110で計算されたキーワードの単語の重みとを参照し、その文書にキーワード中の単語がどのくらい含まれているかを示す適合度を、例えば、上記(式2)を用いて計算し、文書一覧表を作成する(ステップS120)。
【0045】
適合度をキーとして、この文書一覧表中の各文書を降順に順序付け、その上位から所定の件数(例えば、10件程度)の文書を適合文書とみなし、下位から所定の件数(例えば、500件程度)の文書を非適合文書とみなす(ステップS130)。
あるいは、順序づけられた文書の一覧表(適合度、文書名や書誌事項等の一覧)をユーザに提示し、適合しているかどうか指示させ、適合していると指示された文書を適合文書とし、適合しないと指示された文書を非適合文書とするようにしてもよい。
ステップS110からステップS130までにより、文書ランキング部120を構成する。
【0046】
ステップS130で選出した適合文書一覧にユーザの所望した文書があるかどうかをユーザに指示させる(ステップS140)。
所望した文書がなければ、ステップS150へ進む。所望した文書があれば、ステップS190へ進む。
【0047】
所望の文書内容等を表示装置、プリンタや記憶装置等の出力装置へ、または、ネットワークで接続された他のコンピュータ装置へ送信することによってユーザに提示される(ステップS190)。
【0048】
ステップS130で求めた各適合文書の文書識別子から文書データベース160に格納された書誌事項を取り出し、着目した属性(例えば、作成者や作成日等)について、共通の値または近接する値を持つ文書を集めて複数の集合に分けることによって、適合文書を分割する(ステップS150)。
また、文書データベース160が特許公報からなる場合には、「出願人」、「出願日・公開日・登録日等の日付情報」あるいは「国際特許分類・ファセット分類・Fターム等の特許分類」等を属性とする。
【0049】
次に、分割された適合文書集合ごとに、適合文書の文書識別子から文書データベース160に格納されている文書を取り出し、形態素解析あるいはn−gramによって区切って、単語を抽出し、予め用意された不要語表にこの抽出した単語が登録されていれば削除し、残りの単語を関連語候補とし、入力されたキーワードとこの関連語候補との関連度を、例えば、次の(式5)で算出する(ステップS160)。
【0050】
次に、分割された適合文書集合ごとに抽出された、関連語候補をすべてひとまとめにした中から、所定の件数(例えば、10個程度)の関連度の高い上位の関連語候補を関連語として選出する(ステップS170)。
ステップS150からS170で単語ランキング部130を構成する。
【0051】
ステップS170で抽出された関連語、またはこの関連語の中からユーザに選択された関連語をもとのキーワードに追加して新しいキーワードを作成する(ステップS180)。
これによりキーワード生成部140を構成する。
【0052】
この新しいキーワードをステップS110からステップS130(文書ランキング部120)の処理と同様にして、再度、適合文書を選出する。
【0053】
本実施形態を以上のように構成すると、適合文書群全体から関連語をもとめるのでなく、適合文書群を複数の集合に分割し、それぞれの集合ごとに関連語をもとめてから、それら関連語の和集合をもって関連語とするので、適合文書とみなした文書が、実際には適合文書でなかった場合でも、リスク分散がはかられ、関連語として適さない関連語ばかりを選出する危険性が小さくなる。
また、適合文書とみなした文書群を異なった性質を持つ複数の文書集合に分割し、その文書集合ごとに関連語を選出することで、似た傾向の関連語ばかりが選出されることを防ぐことができる。
これにより、多様な単語をキーワードの関連語として選出できるので、ユーザの所望している的確な文書を検索できる可能性が高くなる。
【0054】
また、特許公報のような文書集合を検索する場合に、出願人、出願日・公開日・登録日等の日付情報あるいは特許分類を同じくする適合文書ごとに求めた関連語の和集合をもって関連語とするので、多様な観点から関連語を選出することができる。
【0055】
<実施形態2>
さらに、本発明は上記の実施の形態のみに限定されたものではない。例えば、図1に示した文書検索装置は、図4のようなハードウェア構成を持つコンピュータ装置200によっても実現が可能である。
即ち、コンピュータ装置200は、キーボード、マウス、タッチパネル、スキャナ等により構成され、情報の入力に使用される入力装置1と、種々の出力情報や入力装置1からの入力された情報などを表示出力させる表示装置2と、種々のプログラムを動作させるCPU(Central Processing Unit;中央処理ユニット)3と、プログラム自身を保持し、またそのプログラムがCPU3によって実行されるときに一時的に作成される情報等を保持するメモリ4と、本発明の文書検索装置で扱う文書データベース160、単語辞書170およびプログラムやプログラム実行時の一時的な情報等を保持する記憶装置5と、プログラムやデータ等を記憶した記録媒体を装着してそれらを読み込み、メモリ4または記憶装置5へ格納するのに用いられる媒体駆動装置6と、ネットワーク9へ接続するためのインタフェースであるネットワーク接続装置7とから構成され、それらはバス8で接続されている。
また、ネットワーク9は、コンピュータ装置200と他のコンピュータ装置200とを結合するための伝送路であって、一般には、ケーブルで実現され、通信プロトコルにはTCP/IPが使われる。但し、伝送路としてはケーブルだけではなく、それらの間の通信プロトコルが一致するものであれば無線、有線のいずれでもよく、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどを用いることができる。
【0056】
このようなコンピュータ装置200の構成において、上述した実施形態の文書検索装置を構成する各機能をそれぞれプログラム化し、予めCD−ROM等の記録媒体に書き込んでおき、コンピュータに搭載したCD−ROMドライブのような媒体駆動装置6にこのCD−ROM等を装着して、これらのプログラムをコンピュータのメモリ4あるいは記憶装置5に格納し、それを実行することによって、本発明の目的が達成されることは言うまでもない。
この場合、記録媒体から読み出されたプログラム自体が上述した実施形態の機能を実現することになり、そのプログラムおよびそのプログラムを記録した記録媒体も本発明を構成することになる。
【0057】
尚、プログラムを格納する記録媒体としては半導体媒体(例えば、ROM、不揮発性メモリ等)、光媒体(例えば、DVD、MO、MD、CD等)、磁気媒体(例えば、磁気テープ、フレキシブルディスク等)等のいずれであってもよい。
【0058】
また、コンピュータ装置200のメモリ4へロードしたプログラムを実行することにより上述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、オペレーティングシステムあるいは他のアプリケーションプログラム等と共同して処理することによって上述した実施形態の機能が実現される場合も含まれる。
【0059】
市場に流通させる場合には、可搬型の記録媒体にプログラムを格納して流通させたり、インターネット等の通信網を介して接続されたサーバコンピュータの記憶装置に格納しておき、通信網を通じて他のコンピュータに転送することもできる。この場合、このサーバコンピュータの記憶装置も本発明の記録媒体に含まれる。なお、コンピュータでは、可搬型の記録媒体上のプログラム、または転送されてくるプログラムを、コンピュータに接続した記憶装置にインストールし、そのインストールされたプログラムを実行することによって上述した実施形態の機能が実現される。
【0060】
<ネットワーク環境での運用>
図5は、本発明を有線または無線の通信ネットワークに接続して運用する形態の構成を示している。
例えば、文書検索プログラムを保持するサーバ300と複数のユーザが利用する端末310とをネットワーク9で接続する。
この場合、サーバ300およびユーザの端末310は、図4に示した汎用のコンピュータ装置200で構成される。
ユーザは、端末310からサーバ300に対してログインし、文書検索のためのキーワードを入力装置を用いて入力し、ネットワーク9を介してサーバ300の文書検索プログラムへ検索の実行を依頼する。
サーバ300の文書検索プログラムは、ネットワーク9を介して、指定されたキーワードに適合した検索結果や途中経過を要求元の端末310へ戻す。ユーザの端末310は、この検索結果や途中経過を出力装置へ出力する。途中経過の出力の時には、その経過如何によっては、サーバ300への指示も行う。
このように文書検索プログラムをサーバ300におくことによって、ユーザは常に最新の文書検索プログラムを使えるという利点がある。
【0061】
【発明の効果】
以上説明したように本発明によれば、適合文書とみなした文書が、実際には適合文書でなかった場合でも、リスク分散がはかられ、関連語として適さない関連語ばかりを選出する危険性が小さくなる。
また、適合文書とみなした文書群を異なった性質を持つ複数の文書集合に分割し、その文書集合ごとに関連語を選出することで、似た傾向の関連語ばかりが選出されることを防ぐことができる。
これにより、多様な単語をキーワードの関連語として選出できるので、ユーザの所望している的確な文書を検索できる可能性が高くなる。
【0062】
また、特許公報のような文書集合を検索する場合に、出願人、出願日・公開日・登録日等の日付情報あるいは特許分類を同じくする適合文書ごとに求めた関連語の和集合をもって関連語とするので、多様な観点から関連語を選出することができる。
【図面の簡単な説明】
【図1】本発明に係る文書検索装置の構成を示すブロック図である。
【図2】文書データベースのデータ構造を説明するための図である。
【図3】本発明に係る文書検索装置の処理の流れを説明するためのフローチャートである。
【図4】本発明に係る文書検索装置をコンピュータで実現するときのハードウェアの構成を示す図である。
【図5】本発明に係る文書検索装置をネットワーク環境で運用する場合を説明するための図である。
【符号の説明】
1…入力装置、2…表示装置、3…CPU、4…メモリ、5…記憶装置、6…媒体駆動装置、7…ネットワーク接続装置、8…バス、9…ネットワーク、110…キーワード入力部、120…文書ランキング部、130…単語ランキング部、140…キーワード生成部、150…文書出力部、160…文書データベース、170…単語辞書、200…コンピュータ装置、300…サーバ、310…端末。[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a document search device, a program for executing a function of the document search device, and a computer-readable recording medium on which the program is recorded. More specifically, the present invention selects a document that matches a given keyword. A document search device capable of retrieving a document desired by the user by re-searching for a document that matches with a keyword to which a keyword extracted from the relevant document is added, and a program for executing the function of the document search device And a computer-readable recording medium recording the program.
[0002]
[Prior art]
To search for a document that the user needs from a document database that contains a large number of documents, search once using the keyword input by the user, and then input from the words that appear in the document that matches the keyword There is known a method of selecting a word related to a given keyword, adding the selected keyword to the first input keyword, and searching again to obtain a keyword closer to the one desired by the user.
[0003]
For example, as a method of selecting a related word of a keyword, for each word in a conforming document, the degree of relevance to the keyword is calculated using statistical information such as the appearance status in the conforming document, and the value of the keyword is large. A method of selecting the top several words has been proposed (see Non-Patent Document 1).
[0004]
Next, this related word extraction method will be described. Each word in the keyword input by the user is weighted according to the importance of the word. As a calculation formula for calculating the weight of the word, for example, Robertson's calculation formula (Formula 1) based on a probability model is known (see Non-Patent Document 2). In the technique of
[0005]
W (weight) = Wp-Wq (Equation 1)
here
Wp = k4 + log (N / (Nn)),
Wq = log (n / (Nn)),
N: Total number of documents to be searched,
n: the number of documents in which the word appears,
k4: Adjustment parameter
[0006]
Next, the document relevance of each document is calculated based on the weight of each word in the keyword. The formula for calculating the document relevance is obtained, for example, by the following formula (Formula 2) in Non-Patent
[0007]
F (fitness) = Σ (W × tf / (k1 + tf)) (Equation 2)
here
W: weight of word obtained by (Equation 1),
tf: number of words per document,
k1: adjustment parameter
[0008]
The document relevance of each document is determined, and the documents are ordered in descending order of relevance, and some of the top documents are regarded as conforming documents, and some of the bottom documents are regarded as non-conforming documents.
After selecting a conforming document, for all words except for unnecessary words (for example, article a) in the conforming document, the appearance status in the conforming document and the non-conforming document, that is, the feedback information is reflected, and each word is reflected. Recalculate the weights.
[0009]
The weight after the selection of the relevant document is determined by, for example, using the calculation formula (Expression 3) in
[0010]
W ′ (weight) = (Cp · Wp + (1-Cp) · Wr) − (Cq · Wq + (1-Cq) · Ws) (Equation 3)
here
Wr = log ((r + 0.5) / (R-r + 0.5)),
Ws = log ((s + 0.5) / (S-s + 0.5)),
Cp = k5 / (k5 + √R),
Cq = k6 / (k6 + √S),
R: Number of conforming documents,
r: the number of documents in which the word appears in the set of conforming documents,
S: Number of non-conforming documents,
s: the number of documents in which the word appears in the non-conforming document set,
k5, k6: Adjustment parameters
[0011]
Further, the degree of relevance to the keyword is determined for each word obtained by removing unnecessary words in the matching document from the weight and the feedback information. As a method of calculating the degree of association, for example, there is a Boughanem equation (Equation 4) (see Non-Patent Document 3).
[0012]
Relevance = (r / R−α · s / S) × W ′ (Equation 4)
Where α: adjustment parameter
[0013]
In this way, for each word in the conforming document, the degree of relevance to the keyword is determined, selected as keyword-related words in descending order of relevance, and added to the input keyword to create a new keyword.
Using this new keyword, a matching document is selected again. At this time, the weight calculated by the above (Equation 3) is used for calculating the document relevance.
[0014]
On the other hand, the technique of Patent Document 1 prepares a set of synonyms of a concept classified by a different classification method and a broader term indicating a broader concept for an arbitrary search term, and generates a synonym including a search term given by a user. Present sets and broader terms.
As a result, desired information can be efficiently obtained by searching using the search words of the concepts classified by various classification methods.
[0015]
Further, the technique of
[0016]
[Patent Document 1]
JP-A-10-21266
[Patent Document 2]
JP 2001-5830 A
[Non-patent document 1]
Robertson, SE "On term selection for query expansion," Journal of Documentation 46, Dec 1990, p359-364
[Non-patent document 2]
Robertson, SE and Walker, S. "On relevance weights with little relevance information," SIGIR97, ACM Press, pp. 16-24
[Non-Patent Document 3]
Walker, S.etal., "Okapi at TREC-6: Automated adhoc, VLC, routing, filtering and QSDR," The Sixth Text RetrievalConference (TREC-6), 1996, NIST
[0017]
[Problems to be solved by the invention]
However, in the above-described conventional technology, the entire set of conforming documents is regarded as one set, and related words are obtained from the entire set. Therefore, related words are selected from only one scale, and the following problem is caused. There was a point.
[0018]
(1) When a document regarded as a conforming document is not actually a conforming document, there is a high risk of selecting an unsuitable related word.
(2) Even if a document regarded as a conforming document is actually a conforming document, there is a possibility that many related words having a similar tendency may be selected, and it is desirable to obtain a document discussing the same theme from a different viewpoint. I can't respond to requests.
[0019]
According to the techniques of Patent Literature 1 and
[0020]
The present invention has been made in consideration of the above-described circumstances, and a document capable of searching for an accurate document desired by a user by selecting related words from various viewpoints from a document group. It is an object of the present invention to provide a search device, a program for executing a function of a document search device, and a computer-readable recording medium storing the program.
[0021]
[Means for Solving the Problems]
In order to solve the above-mentioned problem, a first aspect of the present invention provides a document database that holds a plurality of documents, and a document ranking unit that selects a document that matches a keyword input from the document database and a document that does not match the keyword. A word ranking section that selects a word having a high degree of relevance between the keyword and the word appearing in the matching document selected by the document ranking section as a related word of the keyword; and a related word selected by the word ranking section. A keyword generation unit for adding to the keyword, wherein the document ranking unit searches again for a document that matches the new keyword generated by the keyword generation unit. Divide the conformable documents selected by the ranking section into multiple sets, and for each set From in search of the phrase, document retrieval apparatus which is characterized in that the related words to add the union of them related words to the original keyword.
[0022]
According to a second aspect of the present invention, in the document search device according to the first aspect, the division of the conformable document group is performed such that a specific item for the conformable document is divided into conformable documents having common or approximate values. Features.
[0023]
According to a third aspect of the present invention, in the document search device according to the second aspect, the specific item is a bibliographic item of the relevant document.
[0024]
According to a fourth aspect of the present invention, in the document search device according to the second aspect, when the document in the document database is a patent gazette, the specific item is an applicant.
According to a fifth aspect of the present invention, in the document search device according to the second aspect, when the document in the document database is a patent gazette, the specific item includes an application date, a publication date, a patent registration date, and the like. It is characterized by date information.
According to a sixth aspect of the present invention, in the document search device according to the second aspect, when the document in the document database is a patent gazette, the specific item includes an international patent classification, a facet classification, an F term, and the like. It is a patent classification.
A seventh aspect of the present invention is a program for causing a computer to execute the functions of the document search device according to any one of the first to sixth aspects.
An eighth aspect of the present invention is a computer-readable recording medium on which the program according to the seventh aspect is recorded.
[0025]
Therefore, even if a document regarded as a conforming document is not actually a conforming document, risk is diversified, and the risk of selecting only relevant words that are not suitable as relevant words is reduced.
In addition, by dividing a group of documents regarded as conforming documents into a plurality of document sets with different properties and selecting related words for each document set, it is possible to prevent only related words with similar tendency from being selected. be able to.
As a result, various words can be selected as the related words of the keyword, so that there is a high possibility that an accurate document desired by the user can be searched.
[0026]
When searching a set of documents such as patent gazettes, the related word is obtained by using the date information such as the applicant, filing date, publication date, registration date, or the union of related words found for each conforming document with the same patent classification. Therefore, related words can be selected from various viewpoints.
[0027]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, a preferred embodiment of a document search device according to the present invention will be described with reference to the drawings.
[0028]
<First embodiment>
FIG. 1 is a block diagram showing a configuration of a document search device according to the present invention. In FIG. 1, the document search device includes a
[0029]
The
The input character string is subjected to morphological analysis using the
Alternatively, instead of using the
[0030]
The
[0031]
The
[0032]
Document identifier (ID), document name, bibliographic information (creator, creation date, publishing office, etc.),
Pointer to document entity, etc.
[0033]
The word statistical information holds the following statistical information for each word.
[0034]
Word representation, frequency of occurrence of this word in the entire document database,
Word appearance information, etc.
[0035]
Here, the word appearance information holds the following information for each document in which the word appears.
[0036]
The document identifier of the document in which this word appears, the frequency of word occurrences in this document,
List of locations where this word appears in this document
[0037]
The
[0038]
Bibliographic items stored in the
By creating a set of conforming documents having the same attribute value, related words can be selected from various viewpoints.
When the
[0039]
Next, a document stored in the
[0040]
Relevance = Σ i (rtf i / K + rtf i ) / R-β × Σ j (stf j / K + stf j ) / S …… (Equation 5)
here,
R: Number of conforming documents,
S: Number of non-conforming documents,
rtf i : Number of occurrences of a conforming document in document i;
stf j : Number of occurrences of non-conforming document in document j,
K and β: tuning parameters.
The first term on the right side of (Equation 5) is the sum of
And the second term is the sum of each non-conforming document.
[0041]
Next, from among all the related word candidates extracted for each of the divided matched document sets, a predetermined number of related word candidates having a high degree of relevance (for example, about 10) are set as related words. elect. The related word selected in this way is passed to the
The
The
The
[0042]
Next, the operation of the thus configured document search device of the present embodiment will be described with reference to the flowchart of FIG.
First, a keyword composed of, for example, English or Japanese words or a combination of words is input as a character string from an input device such as a keyboard, and is subjected to morphological analysis by the
Alternatively, instead of using the
Thus, the
[0043]
For each word in the input keyword, the word statistical information of the
[0044]
Next, with respect to each document in the
[0045]
Using the relevance as a key, the documents in the document list are ordered in descending order, a predetermined number of documents (for example, about 10) from the top are regarded as conforming documents, and a predetermined number of documents (for example, 500 Is regarded as a non-conforming document (step S130).
Alternatively, a list of ordered documents (a list of relevance, document names, bibliographic items, etc.) is presented to the user, and the user is instructed whether or not the document is conforming. A document designated as non-conforming may be a non-conforming document.
The
[0046]
The user is instructed whether or not there is a document desired by the user in the compatible document list selected in step S130 (step S140).
If there is no desired document, the process proceeds to step S150. If there is a desired document, the process proceeds to step S190.
[0047]
The desired document content or the like is presented to the user by transmitting it to an output device such as a display device, a printer or a storage device, or to another computer device connected via a network (step S190).
[0048]
The bibliographic items stored in the
When the
[0049]
Next, a document stored in the
[0050]
Next, from among all the related word candidates extracted for each of the divided matched document sets, a predetermined number of related word candidates having a high degree of relevance (for example, about 10) are set as related words. A selection is made (step S170).
The steps S150 to S170 constitute the
[0051]
A new keyword is created by adding the related word extracted in step S170 or the related word selected by the user from the related words to the original keyword (step S180).
This constitutes the
[0052]
The new keyword is selected again in the same manner as in the processing from step S110 to step S130 (document ranking unit 120).
[0053]
When the present embodiment is configured as described above, instead of finding related words from the entire set of conforming documents, the group of conforming documents is divided into a plurality of sets, and related terms are found for each set. Since the union is used as a related word, even if the document regarded as a conforming document is not actually a conforming document, the risk is diversified and the risk of selecting only related words that are not suitable as related words is small. Become.
In addition, by dividing a group of documents regarded as conforming documents into a plurality of document sets with different properties and selecting related words for each document set, it is possible to prevent only related words with similar tendency from being selected. be able to.
As a result, various words can be selected as the related words of the keyword, so that there is a high possibility that an accurate document desired by the user can be searched.
[0054]
When searching a set of documents such as patent gazettes, the related word is obtained by using the date information such as the applicant, filing date, publication date, registration date, or the union of related words found for each conforming document with the same patent classification. Therefore, related words can be selected from various viewpoints.
[0055]
<
Furthermore, the present invention is not limited to only the above embodiment. For example, the document search device shown in FIG. 1 can be realized by a
That is, the
The network 9 is a transmission path for coupling the
[0056]
In such a configuration of the
In this case, the program itself read from the recording medium implements the functions of the above-described embodiment, and the program and the recording medium on which the program is recorded also constitute the present invention.
[0057]
Note that a recording medium for storing the program is a semiconductor medium (for example, ROM, non-volatile memory, etc.), an optical medium (for example, DVD, MO, MD, CD, etc.), a magnetic medium (for example, magnetic tape, flexible disk, etc.). And so on.
[0058]
The functions of the above-described embodiments are realized not only by executing the program loaded into the memory 4 of the
[0059]
When distributing to the market, the program is stored and distributed in a portable recording medium, or stored in a storage device of a server computer connected via a communication network such as the Internet, and another program is stored through the communication network. It can also be transferred to a computer. In this case, the storage device of the server computer is also included in the recording medium of the present invention. In the computer, the functions of the above-described embodiments are realized by installing a program on a portable recording medium or a transferred program in a storage device connected to the computer, and executing the installed program. Is done.
[0060]
<Operation in network environment>
FIG. 5 shows a configuration in which the present invention is connected to a wired or wireless communication network for operation.
For example, the
In this case, the
The user logs in to the
The document search program of the
By placing the document search program in the
[0061]
【The invention's effect】
As described above, according to the present invention, even if a document regarded as a conforming document is not actually a conforming document, the risk is diversified, and there is a risk that only related words that are not suitable as related words are selected. Becomes smaller.
In addition, by dividing a group of documents regarded as conforming documents into a plurality of document sets with different properties and selecting related words for each document set, it is possible to prevent only related words with similar tendency from being selected. be able to.
As a result, various words can be selected as the related words of the keyword, so that there is a high possibility that an accurate document desired by the user can be searched.
[0062]
When searching a set of documents such as patent gazettes, the related word is obtained by using the date information such as the applicant, filing date, publication date, registration date, or the union of related words found for each conforming document with the same patent classification. Therefore, related words can be selected from various viewpoints.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a document search device according to the present invention.
FIG. 2 is a diagram illustrating a data structure of a document database.
FIG. 3 is a flowchart for explaining the flow of processing of the document search device according to the present invention.
FIG. 4 is a diagram illustrating a hardware configuration when the document search device according to the present invention is implemented by a computer.
FIG. 5 is a diagram for explaining a case where the document search device according to the present invention is operated in a network environment.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 ... Input device, 2 ... Display device, 3 ... CPU, 4 ... Memory, 5 ... Storage device, 6 ... Medium drive device, 7 ... Network connection device, 8 ... Bus, 9 ... Network, 110 ... Keyword input part, 120 ... document ranking section, 130 ... word ranking section, 140 ... keyword generation section, 150 ... document output section, 160 ... document database, 170 ... word dictionary, 200 ... computer apparatus, 300 ... server, 310 ... terminal.
Claims (8)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002360158A JP4212347B2 (en) | 2002-12-12 | 2002-12-12 | Document search apparatus, program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002360158A JP4212347B2 (en) | 2002-12-12 | 2002-12-12 | Document search apparatus, program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004192374A true JP2004192374A (en) | 2004-07-08 |
JP4212347B2 JP4212347B2 (en) | 2009-01-21 |
Family
ID=32759306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002360158A Expired - Fee Related JP4212347B2 (en) | 2002-12-12 | 2002-12-12 | Document search apparatus, program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4212347B2 (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007004240A (en) * | 2005-06-21 | 2007-01-11 | Hidetsugu Nanba | Information processor, information processing system and program |
JP2007133769A (en) * | 2005-11-11 | 2007-05-31 | Ricoh Co Ltd | Document retrieval device, document retrieval method, document retrieval program and recording medium |
JP2009110231A (en) * | 2007-10-30 | 2009-05-21 | Nippon Telegr & Teleph Corp <Ntt> | Text search server computer, text search method, text search program, and recording medium with the program recorded thereon |
JP2010108477A (en) * | 2008-09-30 | 2010-05-13 | Yahoo Japan Corp | Retrieval device |
WO2011090036A1 (en) * | 2010-01-19 | 2011-07-28 | 日本電気株式会社 | Trend information retrieval device, trend information retrieval method and recording medium |
JP2012234485A (en) * | 2011-05-09 | 2012-11-29 | Kyushu Univ | Retrieval method, retrieval device and program |
JP2012234486A (en) * | 2011-05-09 | 2012-11-29 | Sachio Hirokawa | Information processing device, information processing method, and program |
JP2019074982A (en) * | 2017-10-18 | 2019-05-16 | 三菱重工業株式会社 | Information search device, search processing method, and program |
-
2002
- 2002-12-12 JP JP2002360158A patent/JP4212347B2/en not_active Expired - Fee Related
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007004240A (en) * | 2005-06-21 | 2007-01-11 | Hidetsugu Nanba | Information processor, information processing system and program |
JP2007133769A (en) * | 2005-11-11 | 2007-05-31 | Ricoh Co Ltd | Document retrieval device, document retrieval method, document retrieval program and recording medium |
JP2009110231A (en) * | 2007-10-30 | 2009-05-21 | Nippon Telegr & Teleph Corp <Ntt> | Text search server computer, text search method, text search program, and recording medium with the program recorded thereon |
JP2010108477A (en) * | 2008-09-30 | 2010-05-13 | Yahoo Japan Corp | Retrieval device |
WO2011090036A1 (en) * | 2010-01-19 | 2011-07-28 | 日本電気株式会社 | Trend information retrieval device, trend information retrieval method and recording medium |
JP5786718B2 (en) * | 2010-01-19 | 2015-09-30 | 日本電気株式会社 | Trend information search device, trend information search method and program |
JP2012234485A (en) * | 2011-05-09 | 2012-11-29 | Kyushu Univ | Retrieval method, retrieval device and program |
JP2012234486A (en) * | 2011-05-09 | 2012-11-29 | Sachio Hirokawa | Information processing device, information processing method, and program |
JP2019074982A (en) * | 2017-10-18 | 2019-05-16 | 三菱重工業株式会社 | Information search device, search processing method, and program |
JP7016237B2 (en) | 2017-10-18 | 2022-02-04 | 三菱重工業株式会社 | Information retrieval device, search processing method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP4212347B2 (en) | 2009-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4644420B2 (en) | Method and machine-readable storage device for retrieving and presenting data over a network | |
JP2009075791A (en) | Device, method, program, and system for machine translation | |
JP4179858B2 (en) | Document search apparatus, document search method, program, and recording medium | |
JPWO2010109594A1 (en) | Document search device, document search system, document search program, and document search method | |
JP4212347B2 (en) | Document search apparatus, program, and recording medium | |
JP2013186766A (en) | Information retrieval method, program and information retrieval device | |
JP7103763B2 (en) | Information processing system and information processing method | |
JP4154118B2 (en) | Related Word Selection Device, Method and Recording Medium, and Document Retrieval Device, Method and Recording Medium | |
JP2004054882A (en) | Synonym retrieval device, method, program and storage medium | |
JP4671212B2 (en) | Document search apparatus, document search method, program, and recording medium | |
JP2004310561A (en) | Information retrieval method, information retrieval system and retrieval server | |
JP4208402B2 (en) | Document search apparatus, document search method, and recording medium | |
JP4378106B2 (en) | Document search apparatus, document search method and program | |
JP4813312B2 (en) | Electronic document search method, electronic document search apparatus and program | |
JP4773003B2 (en) | Document search apparatus, document search method, program, and computer-readable storage medium | |
JP2001101184A (en) | Method and device for generating structurized document and storage medium with structurized document generation program stored therein | |
JP3486406B2 (en) | Patent information search device | |
Maryamah et al. | Hybrid Information Retrieval with Masked and Permuted Language Modeling (MPNet) and BM25L for Indonesian Drug Data Retrieval | |
JP7272540B2 (en) | Information provision system, information provision method, and data structure | |
JP2004133510A (en) | Technical literature retrieval system | |
JP7428035B2 (en) | Data retrieval device, data retrieval method and program | |
JP2006501545A (en) | Method and apparatus for automatically determining salient features for object classification | |
JP2002117043A (en) | Device and method for document retrieval, and recording medium with recorded program for implementing the same method | |
JP4385697B2 (en) | Concept search method and system | |
JP2003216646A (en) | Document retrieval device, method and program, and recording media recording the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050222 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080417 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080520 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080716 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081028 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081028 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111107 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111107 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121107 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131107 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |