JP4212347B2 - 文書検索装置、プログラムおよび記録媒体 - Google Patents

文書検索装置、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP4212347B2
JP4212347B2 JP2002360158A JP2002360158A JP4212347B2 JP 4212347 B2 JP4212347 B2 JP 4212347B2 JP 2002360158 A JP2002360158 A JP 2002360158A JP 2002360158 A JP2002360158 A JP 2002360158A JP 4212347 B2 JP4212347 B2 JP 4212347B2
Authority
JP
Japan
Prior art keywords
document
word
keyword
ranking unit
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002360158A
Other languages
English (en)
Other versions
JP2004192374A (ja
Inventor
博子 真野
泰嗣 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2002360158A priority Critical patent/JP4212347B2/ja
Publication of JP2004192374A publication Critical patent/JP2004192374A/ja
Application granted granted Critical
Publication of JP4212347B2 publication Critical patent/JP4212347B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書検索装置、文書検索装置の機能を実行させるためのプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体に関し、より詳細には、与えられたキーワードに対して適合する文書を選択し、この適合文書から抽出したキーワードの関連語を付加したキーワードによって適合する文書を検索しなおすことにより、ユーザの所望する文書が検索できる文書検索装置、文書検索装置の機能を実行させるためのプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
【0002】
【従来の技術】
文書を多数集積している文書データベースからユーザの必要とする文書を探しだすには、ユーザが入力したキーワードを用いて一旦検索した後、そのキーワードに適合した文書中に出現する単語の中から入力したキーワードに関連した単語を選出し、はじめに入力したキーワードに追加し、再度、検索することで、よりユーザの求めるものに近いものを得る方法が知られている。
【0003】
例えば、キーワードの関連語を選出する方法として、適合文書中の各単語について、適合文書の中での出現状況などの統計情報を利用して、キーワードとの関連度を算出し、その値の大きい上位何単語かを選出する方法が提案されている(非特許文献1参照)。
【0004】
次に、この従来の関連語抽出方法について説明する。ユーザから入力されたキーワード中の各単語に対して単語の重要度に応じた重みを付与する。この単語の重みを計算する計算式には、例えば、確率モデルにもとづくRobertsonの計算式(式1)が知られている(非特許文献2参照)。この非特許文献2の技術においては、キーワード中の各単語の重みは、検索対象文書全体の中での各単語の出現状況Wp、Wqに応じて付与される。
【0005】
W(重み)=Wp-Wq ………(式1)
ここで
Wp=k4+log(N/(N-n)),
Wq=log(n/(N-n)),
N:検索対象総文書数,
n:単語の出現する文書数,
k4:調整パラメータ
【0006】
次に、キーワード中の各単語の重みをもとに、各文書の文書適合度を計算する。この文書適合度の計算式は、例えば、次に示すような非特許文献2の計算式(式2)で求める。
【0007】
F(適合度)=Σ(W×tf/(k1+tf)) ………(式2)
ここで
W:(式1)で求めた単語の重み,
tf:文書あたりの単語の出現数,
k1:調整パラメータ
【0008】
各文書の文書適合度を求め、適合度の高い順に各文書を順序づけ、上位何件かを適合文書とみなし、下位何件かを非適合文書とみなす。
適合文書の選出後、適合文書中の不要語(たとえば冠詞のaなど)を除いたすべての単語について、適合文書および非適合文書での出現状況、すなわちフィードバック情報を反映させて、それぞれの単語の重みを再計算する。
【0009】
適合文書選出後の重みは、例えば、非特許文献2の計算式(式3)を用いて、検索対象文書全体での出現状況Wp、Wq(上記(式1)のコメント参照)と適合文書/非適合文書の中での出現状況WrとWsを比率CpとCqで足し合わせて付与される。
【0010】
W'(重み)=(Cp・Wp+(1-Cp)・Wr)-(Cq・Wq+(1-Cq)・Ws)……(式3)
ここで
Wr=log((r+0.5)/(R-r+0.5)),
Ws=log((s+0.5)/(S-s+0.5)),
Cp=k5/(k5+√R),
Cq=k6/(k6+√S),
R:適合文書数,
r:適合文書集合の中で単語の出現する文書数,
S:非適合文書数,
s:非適合文書集合の中で単語の出現する文書数,
k5,k6:調整パラメータ
【0011】
さらに、この重みとフィードバック情報から適合文書中の不要語を除いた各単語について、キーワードとの関連度を求める。関連度の算出方法としては、例えば、Boughanemの計算式(式4)がある(非特許文献3参照)。
【0012】
関連度=(r/R-α・s/S)×W' ………(式4)
ここで α:調整パラメータ
【0013】
このようにして、適合文書中の各単語について、キーワードとの関連度を求めて、関連度の高いものから順にキーワード関連語として選出し、入力したキーワードに追加して新しいキーワードを作成する。
この新しいキーワードを用いて、再度、適合文書を選出する。このとき、文書適合度の算出には、上記(式3)で求めた重みが使われる。
【0014】
一方、特許文献1の技術は、任意の検索語に対して、異なる分類方法で分類した概念の類義語集合と、その上位概念を示す上位語を用意し、ユーザから与えられた検索語を含む類義語集合と上位語とを提示する。
これにより多様な分類方法で分類した概念の検索語を使って、検索することによって効率よく所望の情報を得ることができる。
【0015】
また、特許文献2の技術は、ユーザから与えられた検索キーワード中の主要なキーワードとなる主要キーワードを選択し、主要キーワードとその関連語や連想語によって得た検索結果を複数の分類に分類する。この分類された分類群の内から検索キーワードに対応する分類を決定し、その分類に属する情報に対して、先に与えられた検索キーワードとその関連語および連想語によって絞り込むことによって効率的に検索することができる。
【0016】
【特許文献1】
特開平10−21266号公報
【特許文献2】
特開2001−5830号公報
【非特許文献1】
Robertson,S.E. "On term selection for query expansion,"
Journal of Documentation 46,Dec 1990,p359-364
【非特許文献2】
Robertson,S.E. and Walker,S. "On relevance weights with
little relevance information," SIGIR97,ACM Press,
pp.16-24
【非特許文献3】
Walker,S.etal.,"Okapi at TREC-6:Automated adhoc,VLC,
routing,filtering and QSDR,"The Sixth Text Retrieval
Conference(TREC-6),1996,NIST
【0017】
【発明が解決しようとする課題】
しかしながら、上述した従来の技術では、適合文書群全体をひとつの集合とみなし、この集合全体から関連語を求めているため、ひとつの尺度からのみ関連語を選ぶことになり、以下のような問題点があった。
【0018】
(1)適合文書とみなした文書が実際には適合文書でなかった場合に、関連語として適さないものを選出してしまうリスクが高い。
(2)適合文書とみなした文書が実際に適合文書であった場合でも、似た傾向の関連語が多く選ばれる可能性があり、同じテーマを別の観点から論じた文書を得たい等の要求には応えられない。
【0019】
上述の特許文献1および特許文献2の技術は、あらかじめ検索語に対する関連語を定義しておき、ユーザに指定された検索語に関連語を追加して拡張した検索式を作成することができるが、観点を拡張した新たなキーワードを効果的にしかも自動的に得るというものではない。
【0020】
本発明は、上述した実情を考慮してなされたものであり、文書群から多様な観点に基づいた関連語を選出することによって、ユーザの所望している的確な文書を検索することができる文書検索装置、文書検索装置の機能を実行させるためのプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを目的とする。
【0021】
【課題を解決するための手段】
上記の課題を解決するために、本発明の請求項1の文書検索装置は、複数の文書を保持する文書データベースと、前記文書データベースから入力されたキーワードに適合する文書および適合しない文書を選出する文書ランキング部と、前記文書ランキング部で選出された適合文書中に出現する単語と前記キーワードとの関連度が高い単語を前記キーワードの関連語として選出する単語ランキング部と、前記単語ランキング部で選出した関連語を前記キーワードに追加するキーワード生成部とを備えて、前記キーワード生成部で生成された新しいキーワードに適合する文書を再度、前記文書ランキング部で検索する文書検索装置において、前記単語ランキング部は、前記文書ランキング部で選出された適合文書群を、前記適合文書の特定の項目が共通あるいは近接の値を持つ複数の集合に分割し、それぞれの集合ごとに求めた関連語候補のうち前記入力キーワードと関連度の高い関連語候補の和集合を関連語として選出することを特徴とする。
【0023】
また、本発明の請求項は、請求項に記載の文書検索装置において、前記特定の項目は、前記適合文書の書誌事項であることを特徴とする。
【0024】
また、本発明の請求項は、請求項に記載の文書検索装置において、前記文書データベースの文書が特許公報である場合、前記特定の項目は、出願人であることを特徴とする。
また、本発明の請求項は、請求項に記載の文書検索装置において、前記文書データベースの文書が特許公報である場合、前記特定の項目は、出願日、公開日、特許登録日等の日付情報であることを特徴とする。
また、本発明の請求項は、請求項に記載の文書検索装置において、前記文書データベースの文書が特許公報である場合、前記特定の項目は、国際特許分類、ファセット分類、Fターム等の特許分類であることを特徴とする。
また、本発明の請求項は、コンピュータ、請求項1乃至のいずれかに記載の文書検索装置の各部として能させるためのプログラムである。
また、本発明の請求項は、請求項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
【0025】
したがって、適合文書とみなした文書が、実際には適合文書でなかった場合でも、リスク分散がはかられ、関連語として適さない関連語ばかりを選出する危険性が小さくなる。
また、適合文書とみなした文書群を異なった性質を持つ複数の文書集合に分割し、その文書集合ごとに関連語を選出することで、似た傾向の関連語ばかりが選出されることを防ぐことができる。
これにより、多様な単語をキーワードの関連語として選出できるので、ユーザの所望している的確な文書を検索できる可能性が高くなる。
【0026】
また、特許公報のような文書集合を検索する場合に、出願人、出願日・公開日・登録日等の日付情報あるいは特許分類を同じくする適合文書ごとに求めた関連語の和集合をもって関連語とするので、多様な観点から関連語を選出することができる。
【0027】
【発明の実施の形態】
以下に、図面を参照して本発明に係る文書検索装置の好適な実施形態を説明する。
【0028】
<実施形態1>
図1は、本発明に係る文書検索装置の構成を示すブロック図であり、同図において、文書検索装置は、キーワード入力部110、文書ランキング部120、単語ランキング部130、キーワード生成部140、文書出力部150、文書データベース160より構成される。
【0029】
キーワード入力部110は、ユーザがキーボード等により、文書データベース160中にある文書の特徴をあらわすキーワードを組み合わせた文字列を入力する。
この入力された文字列は、必要に応じて、単語辞書170を用いて形態素解析して単語に分解する。この単語辞書170は、少なくとも各単語の表記、品詞等から構成される。
または、単語辞書170を使わず、この入力された文字列をn−gramに区切って、それを単語としてもよい。
【0030】
文書ランキング部120は、キーワード入力部110から渡されたキーワードに対して、文書データベース160を検索し、適合する文書と適合しない文書とを選定する。この選定された適合文書は、単語ランキング部130へ渡され、関連語の候補となる単語の抽出源となる。
【0031】
文書データベース160は、検索対象となる文書を保持する文書情報と、その文書中に含まれている各単語の単語統計情報から構成される(図2参照)。例えば、文書情報には、各文書に対して次のような情報が保持される。
【0032】
文書識別子(ID)、文書名、書誌事項(作成者、作成日、発行所等)、
文書実体へのポインタ等
【0033】
また、単語統計情報には、単語ごとに次のような統計情報を保持する。
【0034】
単語の表記、この単語の文書データベース全体での出現頻度、
単語出現情報等
【0035】
ここで単語出現情報には、単語が出現する文書ごとに次の情報を保持する。
【0036】
この単語が出現する文書の文書識別子、この文書に出現する単語出現頻度、この文書にこの単語が出現する出現位置の一覧等
【0037】
単語ランキング部130は、適合文書群全体を複数の適合文書集合に分割し、分割された適合文書集合ごとに関連語候補を抽出し、これらのすべての関連語候補から関連語を選定する。
【0038】
各適合文書の文書識別子から文書データベース160に格納された書誌事項を取り出し、着目した属性(例えば、作成者や作成日等)について、共通の値または近接する値を持つ文書を集めて複数の集合に分けることによって、適合文書を分割する。
このように属性の値を同じくする適合文書の集合を作成することにより、多様な観点からの関連語を選出することができる。
また、文書データベース160が特許公報からなる場合には、「出願人」、「出願日・公開日・登録日等の日付情報」あるいは「国際特許分類・ファセット分類・Fターム等の特許分類」等を属性として、適合文書をさらに適切な観点から分類することができ、より適切な関連語を抽出することが可能となる。
【0039】
次に、分割された適合文書集合ごとに、適合文書の文書識別子から文書データベース160に格納されている文書を取り出し、形態素解析あるいはn−gramによって区切って、単語を抽出し、予め用意された不要語表にこの抽出した単語が登録されていれば削除し、残りの単語を関連語候補とし、入力されたキーワードとこの関連語候補との関連度を、例えば、次の(式5)で算出する。
【0040】
関連度=Σ(rtf/K+rtf)/R-β×Σ(stf/K+stf)/S ……(式5)
ここで、
R:適合文書数、
S:非適合文書数、
rtf:適合文書の文書iにおける出現回数、
stf:非適合文書の文書jにおける出現回数、
Kおよびβ:調整パラメータ。
また、(式5)の右辺第1項は、適合文書の各文書についての和であり、第2項は、非適合文書の各文書についての和である。
【0041】
次に、分割された適合文書集合ごとに抽出された、関連語候補をすべてひとまとめにした中から、所定の件数(例えば、10個程度)の関連度の高い上位の関連語候補を関連語として選出する。このようにして選定された関連語をキーワード生成部140へ渡す。
キーワード生成部140は、これら関連語をすべて、あるいは、ユーザに提示した関連語から選択されたものを追加して生成した新しいキーワードを文書ランキング部120へ渡す。
文書ランキング部120は、キーワード生成部140で生成された新しいキーワードに対してもう一度適合する文書を選定し、この選定された適合文書を文書出力部150へ渡す。
文書出力部150は、文書ランキング部120で選出した適合文書一覧を表示装置へ表示し、ユーザが所望の文書がないときには、単語ランキング部130を呼び出す。また、所望の文書があった場合には、その文書をプリンタ、表示装置、記憶装置等へ出力するか、または、ネットワークを介して他のコンピュータ装置へ送信する。
【0042】
次に、このように構成された本実施形態の文書検索装置の動作について、図3のフローチャートに基づいて説明する。
まず、キーボード等の入力装置から、例えば、英語や日本語の単語や単語の組み合わせで構成されるキーワードを文字列として入力し、必要に応じて単語辞書170によって形態素解析して、単語に分解する(ステップS100)。
または、単語辞書170を使わず、この入力された文字列をn−gramに区切って、それを単語としてもよい。
これにより、キーワード入力部110を構成する。
【0043】
この入力されたキーワード中のそれぞれの単語について、文書データベース160の単語統計情報を参照し、例えば、上記(式1)を用いて単語の重要度に応じた重みを計算する(ステップS110)。
【0044】
次に、検索対象である文書データベース160中のそれぞれの文書に対して、文書データベース160の単語統計情報とステップS110で計算されたキーワードの単語の重みとを参照し、その文書にキーワード中の単語がどのくらい含まれているかを示す適合度を、例えば、上記(式2)を用いて計算し、文書一覧表を作成する(ステップS120)。
【0045】
適合度をキーとして、この文書一覧表中の各文書を降順に順序付け、その上位から所定の件数(例えば、10件程度)の文書を適合文書とみなし、下位から所定の件数(例えば、500件程度)の文書を非適合文書とみなす(ステップS130)。
あるいは、順序づけられた文書の一覧表(適合度、文書名や書誌事項等の一覧)をユーザに提示し、適合しているかどうか指示させ、適合していると指示された文書を適合文書とし、適合しないと指示された文書を非適合文書とするようにしてもよい。
ステップS110からステップS130までにより、文書ランキング部120を構成する。
【0046】
ステップS130で選出した適合文書一覧にユーザの所望した文書があるかどうかをユーザに指示させる(ステップS140)。
所望した文書がなければ、ステップS150へ進む。所望した文書があれば、ステップS190へ進む。
【0047】
所望の文書内容等を表示装置、プリンタや記憶装置等の出力装置へ、または、ネットワークで接続された他のコンピュータ装置へ送信することによってユーザに提示される(ステップS190)。
【0048】
ステップS130で求めた各適合文書の文書識別子から文書データベース160に格納された書誌事項を取り出し、着目した属性(例えば、作成者や作成日等)について、共通の値または近接する値を持つ文書を集めて複数の集合に分けることによって、適合文書を分割する(ステップS150)。
また、文書データベース160が特許公報からなる場合には、「出願人」、「出願日・公開日・登録日等の日付情報」あるいは「国際特許分類・ファセット分類・Fターム等の特許分類」等を属性とする。
【0049】
次に、分割された適合文書集合ごとに、適合文書の文書識別子から文書データベース160に格納されている文書を取り出し、形態素解析あるいはn−gramによって区切って、単語を抽出し、予め用意された不要語表にこの抽出した単語が登録されていれば削除し、残りの単語を関連語候補とし、入力されたキーワードとこの関連語候補との関連度を、例えば、次の(式5)で算出する(ステップS160)。
【0050】
次に、分割された適合文書集合ごとに抽出された、関連語候補をすべてひとまとめにした中から、所定の件数(例えば、10個程度)の関連度の高い上位の関連語候補を関連語として選出する(ステップS170)。
ステップS150からS170で単語ランキング部130を構成する。
【0051】
ステップS170で抽出された関連語、またはこの関連語の中からユーザに選択された関連語をもとのキーワードに追加して新しいキーワードを作成する(ステップS180)。
これによりキーワード生成部140を構成する。
【0052】
この新しいキーワードをステップS110からステップS130(文書ランキング部120)の処理と同様にして、再度、適合文書を選出する。
【0053】
本実施形態を以上のように構成すると、適合文書群全体から関連語をもとめるのでなく、適合文書群を複数の集合に分割し、それぞれの集合ごとに関連語をもとめてから、それら関連語の和集合をもって関連語とするので、適合文書とみなした文書が、実際には適合文書でなかった場合でも、リスク分散がはかられ、関連語として適さない関連語ばかりを選出する危険性が小さくなる。
また、適合文書とみなした文書群を異なった性質を持つ複数の文書集合に分割し、その文書集合ごとに関連語を選出することで、似た傾向の関連語ばかりが選出されることを防ぐことができる。
これにより、多様な単語をキーワードの関連語として選出できるので、ユーザの所望している的確な文書を検索できる可能性が高くなる。
【0054】
また、特許公報のような文書集合を検索する場合に、出願人、出願日・公開日・登録日等の日付情報あるいは特許分類を同じくする適合文書ごとに求めた関連語の和集合をもって関連語とするので、多様な観点から関連語を選出することができる。
【0055】
<実施形態2>
さらに、本発明は上記の実施の形態のみに限定されたものではない。例えば、図1に示した文書検索装置は、図4のようなハードウェア構成を持つコンピュータ装置200によっても実現が可能である。
即ち、コンピュータ装置200は、キーボード、マウス、タッチパネル、スキャナ等により構成され、情報の入力に使用される入力装置1と、種々の出力情報や入力装置1からの入力された情報などを表示出力させる表示装置2と、種々のプログラムを動作させるCPU(Central Processing Unit;中央処理ユニット)3と、プログラム自身を保持し、またそのプログラムがCPU3によって実行されるときに一時的に作成される情報等を保持するメモリ4と、本発明の文書検索装置で扱う文書データベース160、単語辞書170およびプログラムやプログラム実行時の一時的な情報等を保持する記憶装置5と、プログラムやデータ等を記憶した記録媒体を装着してそれらを読み込み、メモリ4または記憶装置5へ格納するのに用いられる媒体駆動装置6と、ネットワーク9へ接続するためのインタフェースであるネットワーク接続装置7とから構成され、それらはバス8で接続されている。
また、ネットワーク9は、コンピュータ装置200と他のコンピュータ装置200とを結合するための伝送路であって、一般には、ケーブルで実現され、通信プロトコルにはTCP/IPが使われる。但し、伝送路としてはケーブルだけではなく、それらの間の通信プロトコルが一致するものであれば無線、有線のいずれでもよく、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどを用いることができる。
【0056】
このようなコンピュータ装置200の構成において、上述した実施形態の文書検索装置を構成する各機能をそれぞれプログラム化し、予めCD−ROM等の記録媒体に書き込んでおき、コンピュータに搭載したCD−ROMドライブのような媒体駆動装置6にこのCD−ROM等を装着して、これらのプログラムをコンピュータのメモリ4あるいは記憶装置5に格納し、それを実行することによって、本発明の目的が達成されることは言うまでもない。
この場合、記録媒体から読み出されたプログラム自体が上述した実施形態の機能を実現することになり、そのプログラムおよびそのプログラムを記録した記録媒体も本発明を構成することになる。
【0057】
尚、プログラムを格納する記録媒体としては半導体媒体(例えば、ROM、不揮発性メモリ等)、光媒体(例えば、DVD、MO、MD、CD等)、磁気媒体(例えば、磁気テープ、フレキシブルディスク等)等のいずれであってもよい。
【0058】
また、コンピュータ装置200のメモリ4へロードしたプログラムを実行することにより上述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、オペレーティングシステムあるいは他のアプリケーションプログラム等と共同して処理することによって上述した実施形態の機能が実現される場合も含まれる。
【0059】
市場に流通させる場合には、可搬型の記録媒体にプログラムを格納して流通させたり、インターネット等の通信網を介して接続されたサーバコンピュータの記憶装置に格納しておき、通信網を通じて他のコンピュータに転送することもできる。この場合、このサーバコンピュータの記憶装置も本発明の記録媒体に含まれる。なお、コンピュータでは、可搬型の記録媒体上のプログラム、または転送されてくるプログラムを、コンピュータに接続した記憶装置にインストールし、そのインストールされたプログラムを実行することによって上述した実施形態の機能が実現される。
【0060】
<ネットワーク環境での運用>
図5は、本発明を有線または無線の通信ネットワークに接続して運用する形態の構成を示している。
例えば、文書検索プログラムを保持するサーバ300と複数のユーザが利用する端末310とをネットワーク9で接続する。
この場合、サーバ300およびユーザの端末310は、図4に示した汎用のコンピュータ装置200で構成される。
ユーザは、端末310からサーバ300に対してログインし、文書検索のためのキーワードを入力装置を用いて入力し、ネットワーク9を介してサーバ300の文書検索プログラムへ検索の実行を依頼する。
サーバ300の文書検索プログラムは、ネットワーク9を介して、指定されたキーワードに適合した検索結果や途中経過を要求元の端末310へ戻す。ユーザの端末310は、この検索結果や途中経過を出力装置へ出力する。途中経過の出力の時には、その経過如何によっては、サーバ300への指示も行う。
このように文書検索プログラムをサーバ300におくことによって、ユーザは常に最新の文書検索プログラムを使えるという利点がある。
【0061】
【発明の効果】
以上説明したように本発明によれば、適合文書とみなした文書が、実際には適合文書でなかった場合でも、リスク分散がはかられ、関連語として適さない関連語ばかりを選出する危険性が小さくなる。
また、適合文書とみなした文書群を異なった性質を持つ複数の文書集合に分割し、その文書集合ごとに関連語を選出することで、似た傾向の関連語ばかりが選出されることを防ぐことができる。
これにより、多様な単語をキーワードの関連語として選出できるので、ユーザの所望している的確な文書を検索できる可能性が高くなる。
【0062】
また、特許公報のような文書集合を検索する場合に、出願人、出願日・公開日・登録日等の日付情報あるいは特許分類を同じくする適合文書ごとに求めた関連語の和集合をもって関連語とするので、多様な観点から関連語を選出することができる。
【図面の簡単な説明】
【図1】 本発明に係る文書検索装置の構成を示すブロック図である。
【図2】 文書データベースのデータ構造を説明するための図である。
【図3】 本発明に係る文書検索装置の処理の流れを説明するためのフローチャートである。
【図4】 本発明に係る文書検索装置をコンピュータで実現するときのハードウェアの構成を示す図である。
【図5】 本発明に係る文書検索装置をネットワーク環境で運用する場合を説明するための図である。
【符号の説明】
1…入力装置、2…表示装置、3…CPU、4…メモリ、5…記憶装置、6…媒体駆動装置、7…ネットワーク接続装置、8…バス、9…ネットワーク、110…キーワード入力部、120…文書ランキング部、130…単語ランキング部、140…キーワード生成部、150…文書出力部、160…文書データベース、170…単語辞書、200…コンピュータ装置、300…サーバ、310…端末。

Claims (7)

  1. 複数の文書を保持する文書データベースと、前記文書データベースから入力されたキーワードに適合する文書および適合しない文書を選出する文書ランキング部と、前記文書ランキング部で選出された適合文書中に出現する単語と前記キーワードとの関連度が高い単語を前記キーワードの関連語として選出する単語ランキング部と、前記単語ランキング部で選出した関連語を前記キーワードに追加するキーワード生成部とを備えて、前記キーワード生成部で生成された新しいキーワードに適合する文書を再度、前記文書ランキング部で検索する文書検索装置において、前記単語ランキング部は、前記文書ランキング部で選出された適合文書群を、前記適合文書の特定の項目が共通あるいは近接の値を持つ複数の集合に分割し、それぞれの集合ごとに求めた関連語候補のうち前記入力キーワードと関連度の高い関連語候補の和集合を関連語として選出することを特徴とする文書検索装置。
  2. 請求項に記載の文書検索装置において、前記特定の項目は、前記適合文書の書誌事項であることを特徴とする文書検索装置。
  3. 請求項に記載の文書検索装置において、前記文書データベースの文書が特許公報である場合、前記特定の項目は、出願人であることを特徴とする文書検索装置。
  4. 請求項に記載の文書検索装置において、前記文書データベースの文書が特許公報である場合、前記特定の項目は、出願日、公開日、登録日等の日付情報であることを特徴とする文書検索装置。
  5. 請求項に記載の文書検索装置において、前記文書データベースの文書が特許公報である場合、前記特定の項目は、国際特許分類、ファセット分類、Fターム等の特許分類であることを特徴とする文書検索装置。
  6. コンピュータ、請求項1乃至6のいずれかに記載の文書検索装置の各部として能させるためのプログラム。
  7. 請求項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2002360158A 2002-12-12 2002-12-12 文書検索装置、プログラムおよび記録媒体 Expired - Fee Related JP4212347B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002360158A JP4212347B2 (ja) 2002-12-12 2002-12-12 文書検索装置、プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002360158A JP4212347B2 (ja) 2002-12-12 2002-12-12 文書検索装置、プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2004192374A JP2004192374A (ja) 2004-07-08
JP4212347B2 true JP4212347B2 (ja) 2009-01-21

Family

ID=32759306

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002360158A Expired - Fee Related JP4212347B2 (ja) 2002-12-12 2002-12-12 文書検索装置、プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP4212347B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4882040B2 (ja) * 2005-06-21 2012-02-22 公立大学法人広島市立大学 情報処理装置、情報処理システム、およびプログラム
JP4980604B2 (ja) * 2005-11-11 2012-07-18 株式会社リコー 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体
JP4724701B2 (ja) * 2007-10-30 2011-07-13 日本電信電話株式会社 文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体
JP5199168B2 (ja) * 2008-09-30 2013-05-15 ヤフー株式会社 検索装置
US20120284305A1 (en) * 2010-01-19 2012-11-08 Nec Corporation Trend information search device, trend information search method and recording medium
JP5713238B2 (ja) * 2011-05-09 2015-05-07 廣川 佐千男 情報処理装置、情報処理方法及びプログラム
JP5751481B2 (ja) * 2011-05-09 2015-07-22 廣川 佐千男 検索方法、検索装置及びプログラム
JP7016237B2 (ja) * 2017-10-18 2022-02-04 三菱重工業株式会社 情報検索装置、検索処理方法、およびプログラム

Also Published As

Publication number Publication date
JP2004192374A (ja) 2004-07-08

Similar Documents

Publication Publication Date Title
JP4644420B2 (ja) ネットワークを介してデータを検索及び提示する方法及びマシン可読記憶装置
JP2000010996A (ja) 文書整理装置および方法
JP4349875B2 (ja) 文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム
JP4179858B2 (ja) 文書検索装置、文書検索方法、プログラムおよび記録媒体
JP4212347B2 (ja) 文書検索装置、プログラムおよび記録媒体
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4736476B2 (ja) 翻訳費用の見積りを行う装置および方法
EP3432161A1 (en) Information processing system and information processing method
JP4154118B2 (ja) 関連語選出装置、その方法および記録媒体、並びに文書検索装置、その方法および記録媒体
JPH1145257A (ja) Web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4671212B2 (ja) 文書検索装置、文書検索方法、プログラムおよび記録媒体
JP4813312B2 (ja) 電子文書検索方法、電子文書検索装置及びプログラム
JP4208402B2 (ja) 文書検索装置、文書検索方法および記録媒体
JP2005010848A (ja) 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体
JP2006529044A (ja) 定義付けシステムおよび方法
JP4773003B2 (ja) 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体
JP2003085181A (ja) 事典システム
JP2007241635A (ja) 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム
JP3486406B2 (ja) 特許情報検索装置
JP2006501545A (ja) オブジェクト分類のための顕著な特徴を自動的に判定する方法および装置
JP4146067B2 (ja) 文書検索システムおよび文書検索方法
JP7272540B2 (ja) 情報提供システム、情報提供方法、及びデータ構造
JPH1145254A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002117043A (ja) 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体
JP2017102976A (ja) 文献解析装置、文献解析方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080520

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080716

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081028

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081028

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111107

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111107

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121107

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131107

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees