JP2002032411A - 関連文書検索方法および装置 - Google Patents

関連文書検索方法および装置

Info

Publication number
JP2002032411A
JP2002032411A JP2000217655A JP2000217655A JP2002032411A JP 2002032411 A JP2002032411 A JP 2002032411A JP 2000217655 A JP2000217655 A JP 2000217655A JP 2000217655 A JP2000217655 A JP 2000217655A JP 2002032411 A JP2002032411 A JP 2002032411A
Authority
JP
Japan
Prior art keywords
search
document
word
documents
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000217655A
Other languages
English (en)
Inventor
Hiroshi Umeki
宏 梅基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2000217655A priority Critical patent/JP2002032411A/ja
Publication of JP2002032411A publication Critical patent/JP2002032411A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 (修正有) 【課題】単語の重要度は高いがユーザの検索意図には合
わない単語が存在する場合であっても、システムの性能
を大きく下げずに、平均的に高い性能を達成する関連文
書検索方法および装置を提供する。 【解決手段】検索条件に基づいて検索対象文書から関連
する文書を検索する関連文書検索方法において、ユーザ
の入力する検索条件から検索単語を抽出し、該抽出した
検索単語の重要度を該検索単語が検索対象文書の全体に
出現している文書頻度からそれぞれ算出するとともに、
該算出した検索単語の重要度および前記検索対象文書の
各文書に含まれる前記検索単語の異なり数に基づいて該
文書の関連度を算出し、該算出した関連度に基づいて前
記検索条件に対応する関連文書を抽出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、文書集合の中か
らユーザの検索意図に関連する文書を検索する関連文書
検索方法および装置に関する。
【0002】
【従来の技術】近年、大量の電子文書に容易にアクセス
することができるようになり、これに伴って、大量の文
書の中から必要な文書を高速かつ効率よく検索する技術
が強く求められている。
【0003】このような技術の1つに、あらかじめ索引
となる単語を文書から取り出してき、検索時には文書そ
のものではなく索引から所望の文書を検索するようする
方法がある。この方法では、検索対象となる文書量が膨
大なため、人手を使わずに機械的に索引となる単語を抽
出することになる。
【0004】しかしながら、機械的に抽出された単語か
ら構築された索引を用いる場合、ユーザの入力するキー
ワードから検索される結果が大量になることがよくあ
り、その中から所望の文書を探すことはユーザにとって
大きな負担になってしまう。
【0005】そこで、検索結果の各文書について重要度
を計算し、重要度の高い順に文書をランキングして出力
すれば、ユーザは出力の上位の文書からみていくこと
で、所望の文書をより早くまたより多く探すことができ
ると期待される。
【0006】文書の重要度は、ベクトル空間モデルとよ
ばれる計算モデルで求められることが多い。ベクトル空
間モデルでは、索引付けの段階で、あらかじめすべての
文書を索引語の重みベクトルに変換する。また、検索質
問も索引語の重みベクトルに変換し、そのベクトルとす
べての文書のベクトルとの類似度を計算し、類似度の高
い順にユーザに文書を提示する。
【0007】索引単語の重要度を計算する方法として、
TF・IDF重み付けとよばれる方法が広く用いられて
いる。TFはTerm Frequencyの略であり、ある文書中に
出現する索引単語の頻度を表す。一方、IDFはInvers
e Document Frequencyの略であり、ある索引単語が全文
書中のどれくらいの文書に出現するかを表す尺度であ
る。
【0008】TF・IDF重み付けは、式1に示すよう
に、ある索引単語の重要度をTFとIDFの値を掛け合
わせて求めている。
【0009】
【式1】
【式2】 ただし、式1におけるw は、文書dにおける単語t
の重要度を、tf(t,d)は、文書dにおける単語t
の出現頻度をそれぞれ表している。また、idf(t,
D)は、N(D)を検索対象Dの文書数、df(t,
D)を検索対象Dにおける単語tの出現文書数として式
2で求められる(「情報検索と言語処理」徳永健伸著
東京大学出版刊 1999年)。
【0010】また、特開平11-25108号公報記載
の「関連キーワード自動抽出装置、文書検索装置及びこ
れらを用いた文書検索システム」においては、単語の重
要度を計算する式として式3、式4を挙げている。これ
らの式は、TF・IDF重み付けの値から、さらに特定
文書集合に多く現れる単語の重要度を高くするようにし
たものである。
【0011】
【式3】
【式4】 ただし式3において、S(W)は単語Wの重要度、Cは
定数、nは特定された文書集合に含まれる文書数、TF
(W)は文書jにおける単語Wが出現する文書数、F
N(W)は特定された文書集合中で単語Wを含む文書数
をそれぞれ表わし、式4において、DF(W)は文書全
体において単語Wが出現する文書数、Nは全文書数をそ
れぞれ表わす。
【0012】その他にも、単語の重要度を計算する式と
して、平方根をTF項に採用する式5も考えられる。
【0013】
【式5】
【0014】さて、検索システムを評価する場合、検索
システムの性能を再現率と精度という指標で評価するこ
とが多い。これらの指標を求めるために、特定の文書集
合に対してあらかじめ正解が分かっている検索質問を用
意しておき、検索システムに検索質問を入力していきそ
の結果から再現率と精度を求めることが行われる。一つ
の検索について一つの再現率と精度のグラフが得られ
る。再現率と精度の関係を一つのスカラ値に変換する方
法として、11点平均精度とよばれる方法が広く使われ
ている。
【0015】11点平均精度は、再現率が(0.0, 0.1,
0.2, ..., 1.0)の11点についての精度を平均する。な
お、再現率が0の点は、適合文書が最初に検索できた時
点での精度を用いて近似する。11点平均精度は再現率
と精度のグラフの大局的な情報も考慮しているといえる
(「情報検索と言語処理」徳永健伸著 東京大学出版刊
1999年)。
【0016】このようにして検索システムを評価する場
合、検索システムの性能は、検索された文書のランキン
グ順に依存することになる。したがって、索引単語重み
付けの方法は、検索システムの性能を決める大きな要因
であることが分かる。
【0017】
【発明が解決しようとする課題】ところが、索引単語の
重要度をテキストにおける統計量から求めると、ある索
引単語の重要度が突出して高いにも関わらず、その単語
を含む文書はユーザの検索意図に合わない場合がある。
上述した従来技術の場合、そのような単語を含むために
ユーザの検索意図に適合しない文書が上位にランキング
されてしまい、結果としてシステムの性能が大きく下が
ってしまうという問題がある。
【0018】そこで、この発明は、単語の重要度は高い
がユーザの検索意図には合わない単語が存在する場合で
あっても、システムの性能を大きく下げずに、平均的に
高い性能を達成する関連文書検索方法および装置を提供
することを目的とする。
【0019】
【課題を解決するための手段】上述した目的を達成する
ため、請求項1の発明は、検索条件に基づいて検索対象
文書から関連する文書を検索する関連文書検索方法にお
いて、ユーザの入力する検索条件から検索単語を抽出
し、該抽出した検索単語の重要度を該検索単語が検索対
象文書の全体に出現している文書頻度からそれぞれ算出
するとともに、該算出した検索単語の重要度および前記
検索対象文書の各文書に含まれる前記検索単語の異なり
数に基づいて該文書の関連度を算出し、該算出した関連
度に基づいて前記検索条件に対応する関連文書を抽出す
ることを特徴とする。
【0020】また、請求項2の発明は、請求項1の発明
において、前記関連度は、前記検索対象文書の各文書中
における前記検索単語の総出現度に基づいて算出される
ことを特徴とする。
【0021】また、請求項3の発明は、請求項1の発明
において、前記関連度は、前記検索単語の言語属性に基
づいて算出されることを特徴とする。
【0022】また、請求項4の発明は、請求項1の発明
において、前記検索単語を複数の文書から抽出し、該抽
出した各検索単語の重要度を該複数の文書全体に出現し
ている各検索単語の文書頻度と前記検索対象文書の全体
に出現している各検索単語の文書頻度とから算出するこ
とを特徴とする。
【0023】また、請求項5の発明は、請求項4の発明
において、前記検索単語を抽出する複数の文書は、該文
書に対応する単語集合を組にして格納されていることを
特徴とする。
【0024】また、請求項6の発明は、検索条件に基づ
いて検索対象文書から関連する文書を検索する関連文書
検索装置において、検索対象文書に含まれている単語と
該単語に対応する文書へのポインタの集合を組にして格
納する単語索引手段と、ユーザの入力する検索条件を受
け取る検索条件入力手段と、前記検索条件入力手段が受
け取った検索条件から検索単語を抽出し、該抽出した検
索単語の重要度を該検索単語が前記検索対象文書の全体
に出現している文書頻度から前記単語索引手段を参照し
て算出する検索単語生成手段と、前記検索単語生成手段
が算出した各検索単語の重要度と前記検索対象文書の各
文書に含まれる前記検索単語の異なり数に基づいて該文
書の関連度を算出する関連文書計算手段とを具備するこ
とを特徴とする。
【0025】また、請求項7の発明は、請求項6の発明
において、前記単語索引手段は、検索対象の文書に含ま
れている単語と該単語に対応する文書へのポインタと各
文書中での出現頻度とを組にして格納し、前記関連文書
計算手段は、前記検索対象文書の各文書中における前記
検索単語の総出現度に基づいて前記関連度を計算するこ
とを特徴とする。
【0026】また、請求項8の発明は、請求項6の発明
において、前記単語索引手段は、検索対象の文書に含ま
れている単語の言語属性をさらに格納し、前記関連文書
計算手段は、前記検索単語の言語属性に基づいて前記関
連度を計算することを特徴とする。
【0027】また、請求項9の発明は、請求項6の発明
において、前記検索条件入力手段は、検索条件として複
数の文書を受け取り、前記検索単語生成手段は、前記検
索条件入力手段が受け取った複数の文書に含まれている
単語を検索単語とし、該複数の文書全体に出現している
検索単語の文書頻度と前記検索対象文書の全体に出現し
ている検索単語の文書頻度とに基づいて該検索単語の重
要度を計算することを特徴とする。
【0028】また、請求項10の発明は、請求項9の発
明において、検索対象の各文書と該文書に対応する単語
集合とを組にして格納する単語集合格納手段をさらに具
備し、前記検索単語生成手段は、前記検索条件入力手段
から入力された文書に対応する単語を前記単語集合格納
手段から取得することを特徴とする。
【0029】
【発明の実施の形態】以下、この発明に係る関連文書検
索方法および装置の一実施の形態について、添付図面を
参照して詳細に説明する。
【0030】図1は、関連文書検索装置の主たる構成を
示すブロック図である。同図に示すように、関連文書検
索装置10は、単語索引部1と検索条件入力部2、検索
単語生成部3、関連文書計算部4を具備して構成され
る。
【0031】単語索引部1は、検索対象文書に含まれる
単語と、その単語に対応する文書ポインタの組を索引と
して格納している。単語検索部1に格納される単語は、
検索対象文書のテキストを形態素解析し、その結果に基
づいて抽出されたものである。
【0032】検索条件入力部2は、ユーザから検索条件
として検索意図を表現した自然文を受け取る。
【0033】検索単語生成部3は、検索条件入力部2が
受け取った文を形態素解析し、その解析結果から検索単
語を抽出する。
【0034】関連文書計算部4は、検索単語生成部3が
生成した検索単語から検索条件に関連する文書を求め、
文書の関連度を計算する。
【0035】次に、関連文書検索装置10の各部の動作
について詳細に説明するが、各部の動作については、複
数の例を挙げて説明する。
【0036】
【実施例1】実施例1においては、単語索引部1は、検
索対象文書のテキストを形態素解析した結果の中から名
詞の単語を抽出しておく。そして、単語と文書ポインタ
をそれぞれ単語トライと文書テーブルの形で、メモリも
しくはファイルに割り付けておく。
【0037】図2は、実施例1における単語索引部1を
模式的に示した図である。各単語は、単語トライ11中
に文字列順に並べられ、文書テーブル12中のポインタ
とリンクしている。文書テーブル12のエントリは、固
定幅(ここでは、4)であり、検索対象文書13へのポ
インタが対応する単語毎に順番に格納されている。ま
た、文書テーブル12中のポインタは、先頭からのオフ
セットアドレス値で表現される。
【0038】したがって、ある単語に対応する文書の数
は、単語トライ11中で次の単語にリンクしたポインタ
と、その単語にリンクしたポインタとの差分をエントリ
幅で割った値に等しくなる。例えば、単語「ABBC」
に対応する文書数は5(=(32−12)/4)である
ことが分かる。
【0039】検索条件入力部2は、ユーザから検索条件
として検索意図を表現した自然文を受け取る。
【0040】検索単語生成部3は、まず、検索条件入力
部2からユーザにより入力された自然文を形態素解析
し、解析の結果から名詞の単語を検索単語として抽出す
る。次に、式6により、抽出した各検索単語の重要度を
検索対象文書全体に出現している文書頻度の逆数として
求める。これは、文書頻度が高い単語は、ありふれた単
語であるために重要度が低いといった理由から求められ
るものである。
【0041】なお、この文書頻度は、単語索引部1から
容易に、かつ高速に求めることができる。
【0042】
【式6】
【0043】関連文書計算部4は、単語の重要度が高い
順に検索単語から対応する文書を検索し、関連文書計算
部4の内部に検索した文書とその関連度を保存してい
く。文書の関連度は、文書に含まれる各検索単語の重要
度の和と、異なり検索単語数との二項線形和(式7)で
ある。
【0044】
【式7】 ただし、式7において、wd は文書dの関連度、t
は文書dに含まれるi番目の検索単語、αとβは定
数、nは異なり検索単語数をそれぞれ表わしている。
【0045】そして、すべての検索単語について対応す
る文書を求めた後に、保存した文書を関連度が高い順に
並びかえ、上位から所定の件数の文書を結果として出力
する。
【0046】
【実施例2】実施例2においては、単語索引部1は、検
索対象文書のテキストを形態素解析した結果の中から名
詞の単語を抽出しておく。そして、単語と文書ポインタ
をそれぞれ単語トライと文書テーブルの形で、メモリも
しくはファイルに割り付けておく。
【0047】図3は、実施例2における単語索引部1を
模式的に示した図である。単語索引部1は、各単語をそ
の出現頻度を併せて1つの文字列として構成し、これを
単語トライ21中に並べている。各単語とその出現頻度
は、特定の区切り文字(図3中では、「¥t」)を挟ん
で1つの文字列として構成されており、単語トライ21
中に文字列順に並べられ、文書テーブル22中のポイン
タとリンクしている。なお、出現頻度は固定長のバイナ
リで表現される。
【0048】文書テーブル22のエントリは固定幅であ
り、文書へのポインタが対応する出現頻度を含む単語ご
とに順番に格納され、文書テーブル22中のポインタ
は、先頭からのオフセットアドレス値で表現される。し
たがって、出現頻度を含むある単語に対応する文書の数
は、単語トライ21中で次の単語にリンクしたポインタ
と、その単語にリンクしたポインタとの差分をエントリ
幅で割った値に等しくなる。
【0049】例えば、図3の場合では、出現頻度3の単
語「ABBC」に対応する文書数は2であり、出現頻度
とは無関係に、単語「ABBC」すべてに対応する文書
数は5であることが分かる。
【0050】検索条件入力部2は、ユーザから検索条件
として検索意図を表現した自然文を受け取る。
【0051】検索単語生成部3は、まず、検索条件入力
部2からユーザにより入力された自然文を形態素解析
し、解析の結果から名詞の単語を検索単語として抽出す
る。
【0052】次に、抽出した各検索単語の重要度を、検
索対象文書全体に出現している文書頻度の逆数として求
める。
【0053】関連文書計算部4は、単語の重要度が高い
順に検索単語から対応する文書を検索し、関連文書計算
部4の内部に検索した文書とその関連度を保存してい
く。文書の関連度は、文書に含まれる各検索単語の重要
度の和と検索単語の総出現数との二項線形和(式8)で
ある。
【0054】
【式8】 ただし、式8において、αとβは、定数をそれぞれ
表わしている。
【0055】そして、すべての検索単語について対応す
る文書を求めた後に、保存した文書を関連度が高い順に
並びかえ、上位から所定の件数の文書を結果として出力
する。
【0056】
【実施例3】実施例3においては、単語索引部1は、検
索対象文書に含まれる単語、その単語の言語属性、その
単語が文書中に出現する頻度、対応する文書ポインタと
を組にして格納している。
【0057】格納される単語は、あらかじめ検索対象文
書のテキストを形態素解析した結果の中から名詞や動
詞、形容詞などの自立語の単語を抽出したものであり、
単語の言語属性として単語の品詞情報も格納されてい
る。
【0058】単語、言語属性、出現頻度は、単語トライ
の形で、文書ポインタは文書テーブルの形で、メモリも
しくはファイルにそれぞれ割り付けられる。
【0059】図4は、実施例3における単語索引部1を
模式的に示した図である。単語索引部1は、単語、言語
属性、出現頻度のそれぞれを特定の区切り文字(図4中
では、「¥t」)を挟むことで1つの文字列として構成
し、これを単語トライ31中に文字列順に並べている。
各文字列は、文書テーブル32中のポインタとリンクし
ている。なお、言語属性と出現頻度とはそれぞれ固定長
のバイナリでコード化して表現される。
【0060】文書テーブル32のエントリは固定幅であ
り、文書へのポインタが対応する言語属性と出現頻度と
を含む単語ごとに順番に格納され、文書テーブル32中
のポインタは、先頭からのオフセットアドレス値で表現
される。したがって、言語属性と出現頻度とを含むある
単語に対応する文書の数は、単語トライ31中で、次の
単語にリンクしたポインタと、その単語にリンクしたポ
インタとの差分をエントリ幅で割った値に等しくなる。
【0061】例えば、図4の場合では、出現頻度3で言
語属性「名詞」の単語「ABBC」に対応する文書数は
2であり、出現頻度とは無関係に、言語属性「名詞」の
単語「ABBC」すべてに対応する文書数は5であるこ
とが分かる。
【0062】検索条件入力部2は、ユーザから検索条件
として検索意図を表現した自然文を受け取る。
【0063】検索単語生成部3は、まず、検索条件入力
部2からユーザにより入力された自然文を形態素解析
し、解析の結果から自立語の単語を検索単語として抽出
する。次に、式9を用いて、抽出した各検索単語の重要
度を検索対象文書全体に出現している文書頻度dfの逆
数と、単語の言語属性に応じた値δとの積として求め
る。
【0064】
【式9】 ただし、δは、単語の言語属性に応じて1以下に設定さ
れる値で、例えば、名詞の場合は1、それ以外の品詞の
場合は1より小さい値を割り当てる。
【0065】関連文書計算部4は、単語の重要度が高い
順に検索単語から対応する文書を検索し、関連文書計算
部4の内部に検索した文書とその関連度を保存してい
く。文書の関連度は、文書に含まれる各検索単語の重要
度の和と検索単語の総出現数との二項線形和である。す
べての検索単語について対応する文書を求めた後に、保
存した文書を関連度が高い順に並びかえ、上位から所定
の件数の文書を結果として出力する。
【0066】
【実施例4】実施例4における単語索引部1は、実施例
3の場合と同様である。
【0067】検索条件入力部2は、ユーザから検索条件
として、検索対象における文書ポインタもしくは文書を
表すテキストの集合を受け取る。
【0068】検索単語生成部3は、まず、ユーザが検索
条件入力部2から入力した各文書のテキストを解析し、
その結果から自立語の単語を検索単語として抽出する。
同時に、入力の文書集合における各検索単語の文書頻度
を保存しておく。
【0069】次に、抽出した各検索単語の重要度を、入
力における文書頻度、検索対象文書全体での文書頻度、
単語の言語属性に応じた値とから求める。具体的には、
式10にしたがって検索単語の重要度を計算する。
【0070】
【式10】 ただし、式10において、df(t,Q)は、検索条件
入力部2からの入力Qにおける単語tの文書頻度を表わ
す。
【0071】関連文書計算部4は、基本的に実施例3の
場合と同じであるが、文書の関連度を計算するときに、
検索単語の総出現数として入力における出現頻度も考慮
に入れている。
【0072】
【実施例5】実施例5においては、関連文書検索装置1
0は、図5に示すように、実施例1乃至4の構成に加え
て、単語集合格納部5を具備している。
【0073】単語索引部1、検索条件入力部2、検索単
語生成部3、関連文書計算部4は、いずれも実施例4の
場合と同様であるが、検索単語生成部3は、単語集合格
納部5を利用することにより、その処理を容易としてい
る。
【0074】単語集合格納部5は、図6に示すように、
検索対象の各文書ごとに、対応する単語、その単語の言
語属性、その単語が文書中に出現する頻度の組の集合を
格納している。格納される単語は、単語索引部1に格納
されている単語と同様に、あらかじめ、文書のテキスト
を形態素解析して抽出した自立語である。
【0075】したがって、検索単語生成部3は、検索条
件入力部2から入力がある毎に形態素解析等を行う必要
が無く、その処理が容易かつ高速となる。
【0076】なお、上述の実施例では、検索条件入力部
2へ入力する自然文としたが、複数の単語を入力して
も、形態素解析を行う必要が無くなるのみで他の処理は
何ら変わらない。したがって、検索条件に単語を直接用
いることも可能である。
【0077】ここで、上述の実施例3と従来技術に関し
て、検索システムの性能を評価した例について説明す
る。
【0078】評価のために用意した検索対象は、技術的
な内容の文書の要約であり、検索質問は、検索意図を表
す1文または2文程度の比較的短い自然文である。
【0079】関連度を計算する際に用いた式は、実施例
3の場合は式8および式9であり(α=10000
0、β=100程度)、従来技術としては式2および
式5の2つである。用いた単語索引はすべてに共通であ
る。
【0080】結果としてすべての検索質問に対する11
点平均精度の平均値は、従来技術の場合はそれぞれ0.
26,0.37であったのに対し、実施例3の場合は
0.43となった。
【0081】
【発明の効果】以上説明したように、この発明によれ
ば、検索条件となる検索単語の重要度の和と異なり検索
単語数との和に基づいて文書の関連度を決定するように
構成したので、より高い検索性能を得ることができる。
【図面の簡単な説明】
【図1】関連文書検索装置の主たる構成を示すブロック
図である。
【図2】実施例1における単語索引部1を模式的に示し
た図である。
【図3】実施例2における単語索引部1を模式的に示し
た図である。
【図4】実施例3における単語索引部1を模式的に示し
た図である。
【図5】関連文書検索装置の別の構成を示すブロック図
である。
【図6】単語集合格納部5を模式的に示した図である。
【符号の説明】
1 単語索引部 2 検索条件入力部 3 検索単語生成部 4 関連文書計算部 5 単語集合格納部 10、10’ 関連文書検索装置 11 単語トライ 12 文書テーブル 13 検索対象文書 21 単語トライ 22 文書テーブル 31 単語トライ 32 文書テーブル

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 検索条件に基づいて検索対象文書から関
    連する文書を検索する関連文書検索方法において、 ユーザの入力する検索条件から検索単語を抽出し、該抽
    出した検索単語の重要度を該検索単語が検索対象文書の
    全体に出現している文書頻度からそれぞれ算出するとと
    もに、該算出した検索単語の重要度および前記検索対象
    文書の各文書に含まれる前記検索単語の異なり数に基づ
    いて該文書の関連度を算出し、該算出した関連度に基づ
    いて前記検索条件に対応する関連文書を抽出することを
    特徴とする関連文書検索方法。
  2. 【請求項2】 前記関連度は、 前記検索対象文書の各文書中における前記検索単語の総
    出現度に基づいて算出されることを特徴とする請求項1
    記載の関連文書検索方法。
  3. 【請求項3】 前記関連度は、 前記検索単語の言語属性に基づいて算出されることを特
    徴とする請求項1記載の関連文書検索方法。
  4. 【請求項4】 前記検索単語を複数の文書から抽出し、
    該抽出した各検索単語の重要度を該複数の文書全体に出
    現している各検索単語の文書頻度と前記検索対象文書の
    全体に出現している各検索単語の文書頻度とから算出す
    ることを特徴とする請求項1記載の関連文書検索方法。
  5. 【請求項5】 前記検索単語を抽出する複数の文書は、 該文書に対応する単語集合を組にして格納されているこ
    とを特徴とする請求項4記載の関連文書検索方法。
  6. 【請求項6】 検索条件に基づいて検索対象文書から関
    連する文書を検索する関連文書検索装置において、 検索対象文書に含まれている単語と該単語に対応する文
    書へのポインタの集合を組にして格納する単語索引手段
    と、 ユーザの入力する検索条件を受け取る検索条件入力手段
    と、 前記検索条件入力手段が受け取った検索条件から検索単
    語を抽出し、該抽出した検索単語の重要度を該検索単語
    が前記検索対象文書の全体に出現している文書頻度から
    前記単語索引手段を参照して算出する検索単語生成手段
    と、 前記検索単語生成手段が算出した各検索単語の重要度と
    前記検索対象文書の各文書に含まれる前記検索単語の異
    なり数に基づいて該文書の関連度を算出する関連文書計
    算手段とを具備することを特徴とする関連文書検索装
    置。
  7. 【請求項7】 前記単語索引手段は、 検索対象の文書に含まれている単語と該単語に対応する
    文書へのポインタと各文書中での出現頻度とを組にして
    格納し、 前記関連文書計算手段は、 前記検索対象文書の各文書中における前記検索単語の総
    出現度に基づいて前記関連度を計算することを特徴とす
    る請求項6記載の関連文書検索装置。
  8. 【請求項8】 前記単語索引手段は、 検索対象の文書に含まれている単語の言語属性をさらに
    格納し、 前記関連文書計算手段は、 前記検索単語の言語属性に基づいて前記関連度を計算す
    ることを特徴とする請求項6記載の関連文書検索装置。
  9. 【請求項9】 前記検索条件入力手段は、 検索条件として複数の文書を受け取り、 前記検索単語生成手段は、 前記検索条件入力手段が受け取った複数の文書に含まれ
    ている単語を検索単語とし、該複数の文書全体に出現し
    ている検索単語の文書頻度と前記検索対象文書の全体に
    出現している検索単語の文書頻度とに基づいて該検索単
    語の重要度を計算することを特徴とする請求項1記載の
    関連文書検索装置。
  10. 【請求項10】 検索対象の各文書と該文書に対応する
    単語集合とを組にして格納する単語集合格納手段をさら
    に具備し、 前記検索単語生成手段は、 前記検索条件入力手段から入力された文書に対応する単
    語を前記単語集合格納手段から取得することを特徴とす
    る請求項9記載の関連文書検索装置。
JP2000217655A 2000-07-18 2000-07-18 関連文書検索方法および装置 Pending JP2002032411A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000217655A JP2002032411A (ja) 2000-07-18 2000-07-18 関連文書検索方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000217655A JP2002032411A (ja) 2000-07-18 2000-07-18 関連文書検索方法および装置

Publications (1)

Publication Number Publication Date
JP2002032411A true JP2002032411A (ja) 2002-01-31

Family

ID=18712730

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000217655A Pending JP2002032411A (ja) 2000-07-18 2000-07-18 関連文書検索方法および装置

Country Status (1)

Country Link
JP (1) JP2002032411A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160033563A (ko) * 2014-09-18 2016-03-28 경북대학교 산학협력단 데이터베이스 구축 방법, 이를 수행하기 위한 기록매체
JP2019125124A (ja) * 2018-01-16 2019-07-25 ヤフー株式会社 抽出装置、抽出方法、及び抽出プログラム
JP2019128796A (ja) * 2018-01-24 2019-08-01 ヤフー株式会社 表示プログラム、表示方法、及び表示装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160033563A (ko) * 2014-09-18 2016-03-28 경북대학교 산학협력단 데이터베이스 구축 방법, 이를 수행하기 위한 기록매체
KR102243286B1 (ko) 2014-09-18 2021-04-22 경북대학교 산학협력단 데이터베이스 구축 방법, 이를 수행하기 위한 기록매체
JP2019125124A (ja) * 2018-01-16 2019-07-25 ヤフー株式会社 抽出装置、抽出方法、及び抽出プログラム
JP2019128796A (ja) * 2018-01-24 2019-08-01 ヤフー株式会社 表示プログラム、表示方法、及び表示装置
JP7041530B2 (ja) 2018-01-24 2022-03-24 ヤフー株式会社 表示プログラム、表示方法、及び表示装置

Similar Documents

Publication Publication Date Title
US6442540B2 (en) Information retrieval apparatus and information retrieval method
US6741959B1 (en) System and method to retrieving information with natural language queries
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
KR100408637B1 (ko) 유사어 추출 및 문서 검색을 위한 방법 및 시스템
US6366908B1 (en) Keyfact-based text retrieval system, keyfact-based text index method, and retrieval method
US20100094835A1 (en) Automatic query concepts identification and drifting for web search
US20050203900A1 (en) Associative retrieval system and associative retrieval method
JPH1125108A (ja) 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム
CN103678576A (zh) 基于动态语义分析的全文检索系统
JPH03172966A (ja) 類似文書検索装置
CN111984851A (zh) 医学资料搜索方法、装置、电子装置及存储介质
US20040111404A1 (en) Method and system for searching text portions based upon occurrence in a specific area
JP2011118689A (ja) 検索方法及びシステム
JP2009193219A (ja) インデックス作成装置、その方法、プログラム及び記録媒体
CN115794995A (zh) 目标答案获取方法及相关装置、电子设备和存储介质
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JPH1049543A (ja) 文書検索装置
WO2011037753A1 (en) Method and apparatus for ordering results of a query
JP2009288870A (ja) 文書重要度算出システム、文書重要度算出方法およびプログラム
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
JP2002032411A (ja) 関連文書検索方法および装置
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
KR20010107113A (ko) 자연어 정보 검색 시스템에서 구문 트리를 이용한 자연어질의의 불린 질의 및 벡터 질의 변환 방법
KR100952077B1 (ko) 키워드를 이용한 표제어 선정 장치 및 방법
KR20200122089A (ko) 지역 색인을 이용한 전자문서 검색 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040622

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070626

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070820

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070925