JP2002189754A - 文書検索装置及び文書検索方法 - Google Patents

文書検索装置及び文書検索方法

Info

Publication number
JP2002189754A
JP2002189754A JP2000388596A JP2000388596A JP2002189754A JP 2002189754 A JP2002189754 A JP 2002189754A JP 2000388596 A JP2000388596 A JP 2000388596A JP 2000388596 A JP2000388596 A JP 2000388596A JP 2002189754 A JP2002189754 A JP 2002189754A
Authority
JP
Japan
Prior art keywords
search
document
word
relevance
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000388596A
Other languages
English (en)
Inventor
Tetsuo Nagatsuka
哲郎 長束
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2000388596A priority Critical patent/JP2002189754A/ja
Publication of JP2002189754A publication Critical patent/JP2002189754A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 類似文書を検索するときに、検索適合文書の
適合度を計算する際に、検索要求文書集合の内容に適合
している文書ほど適合度が高くなるようにする文書検索
装置を提供する。 【解決手段】 検索要求文書集合記憶部内の文書に含ま
れる単語の重要度に基づいて検索語を決定する。前記検
索要求文書集合の文書ごとに単語出現位置情報を算出し
て、先の検索語の位置情報に基づいて検索語間の関連度
をすべての組み合わせについて算出する。また、先の検
索語を用いて検索対象文書集合の検索適合文書を検索
し、適合文書に含まれる単語に対して単語出現位置情報
を算出して、先の検索語の位置情報に基づいて検索語間
の関連度をすべての組み合わせについて算出する。これ
らの前記検索要求文書における検索語関連度と前記検索
適合文書における検索語関連度に基づいて、ユーザーの
所望する文書を検索する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書検索装置およ
び文書検索方法に関し、特に文書検索、情報分類、情報
分析等の情報処理に好適な技術に関する。
【0002】
【従来の技術】近年、ユーザーが指定した文書あるいは
文書集合と内容の類似する文書の検索や、文書クラスタ
リングなどによる自動文書分類結果である文書集合をも
とに、検索技術を用いて文書集合を生成する技術が種々
提案されている。
【0003】これらの提案は、例えば、本出願人が特願
平12―103890号として出願しているように、従
来の文書分類技術を文書群に含まれる話題を抽出する技
術として利用し、その結果を利用して文書部分集合を生
成するための分類基準である文書部分集合定義を生成し
たり、文書部分集合の生成には文書検索技術を応用し、
文書部分集合定義に適合する文書を収集することで文書
部分集合を生成するものであり、これにより、 1) 文書部分集合定義を記憶し、別の文書群に適用す
ることができる、 2) ユーザーは文書部分定義を作成、編集することに
より、その意図を直接的に表現することができる、 3) 情報検索技術を応用することで文書の部分的な話
題の類似性を算出することができ、文書の部分的な話題
の適合による文書部分集合を生成することができる、と
いった従来の問題を解決することができるようになっ
た。
【0004】
【発明が解決しようとする課題】上記の特願平12−1
03890号の技術により文書の分類基準を他の文書群
にも適用でき、ユーザの意図を直接的に表現することが
でき、文書の部分的な話題の適合による文書部分集合を
生成可能となったが、この文書部分集合定義を用いた文
書集合生成では、その結果にノイズ文書が含まれるとい
う文書集合の質に問題がある。
【0005】本発明は、上記問題点を解決するためにな
されたものであって、ユーザーが検索目的に適合した文
書を収集したり、文書分類技術により生成された検索要
求文書集合に含まれる文書の内容に類似する文書を検索
するときに、検索結果である検索適合文書の適合度を計
算する際に、検索要求文書集合の内容に適合している文
書ほど適合度が高くなるようにすることで、検索結果の
質を高める文書検索装置および文書検索方法を提供する
ことを目的とする。
【0006】
【課題を解決するための手段】上記課題を解決するため
に、本発明の請求項1の文書検索装置は、検索要求文書
集合に含まれる文書を指定し、その指定された文書の内
容に類似した文書を検索対象文書集合から検索する文書
検索装置であって、検索対象文書を入力する検索対象文
書入力部と、入力された検索対象文書を集合として記憶
する検索対象文書集合記憶部と、検索要求文書を入力す
る検索要求文書入力部と、入力された検索要求文書を集
合として記憶する検索要求文書集合記憶部と、前記検索
要求文書集合記憶部内の文書に含まれる単語を解析する
検索要求文書単語解析部と、前記検索要求文書単語解析
部で解析された単語の重要度を算出する単語重要度算出
部と、この単語重要度に基づいて検索語を決定する検索
語決定部と、前記検索要求文書集合記憶部内の文書ごと
に単語出現位置情報を算出する検索要求文書単語位置情
報算出部と、前記検索要求文書集合記憶部内の各文書に
ついて検索語の位置情報に基づいて2つの検索語間の関
連度をすべての組み合わせについて算出する検索要求文
書集合検索語関連度算出部と、検索語を用いて前記検索
対象文書集合記憶部内の検索適合文書を検索する検索部
と、この検索適合文書を記憶する検索適合文書集合記憶
部と、前記検索適合文書集合記憶部内の文書に含まれる
単語を解析する検索適合文書単語解析部と、前記検索適
合文書集合記憶部内の文書ごとに単語出現位置情報を算
出する検索適合文書単語位置情報算出部と、前記検索適
合文書集合記憶部の各適合文書について検索語の位置情
報に基づいて2つの検索語間の関連度をすべての組み合
わせについて算出する検索適合文書検索語関連度算出部
と、前記検索要求文書集合検索語関連度と前記検索適合
文書検索語関連度に基づいて前記検索適合文書集合記憶
部内の各検索適合文書の適合度を算出する検索適合文書
適合度算出部と、前記検索適合文書集合記憶部内の文書
情報とこの文書に対応する前記適合度とを表示する検索
適合文書集合表示部とを持つことを特徴とする。
【0007】また、本発明の請求項2の文書検索装置
は、請求項1に記載の文書検索装置において、検索語の
前記単語出現位置情報として単語の出現順位を用い、2
つの検索語の出現順位の差に基づいて検索語間の関連度
を算出することを特徴とする。
【0008】また、本発明の請求項3の文書検索装置
は、請求項1に記載の文書検索装置において、前記検索
要求文書単語解析部と前記検索適合文書単語解析部は、
複合語の抽出を行い、検索語の前記単語出現位置情報に
抽出した複合語情報を用いて、2つの検索語が文書中で
出現する場所で複合語を構成しているかどうかに基づい
て検索語間の関連度を算出することを特徴とする。
【0009】また、本発明の請求項4の文書検索装置
は、請求項1に記載の文書検索装置において、前記検索
要求文書の文書構成要素を抽出する検索要求文書文書構
成要素抽出部と、前記検索適合文書の文書構成要素を抽
出する検索適合文書文書構成要素抽出部とを設け、検索
語の前記単語出現位置情報として文書構成要素情報を用
い、2つの検索語が文書中に出現する場所で同じ文書構
成要素に含まれるかどうか基づいて検索語間の関連度を
算出することを特徴とする。
【0010】また、本発明の請求項5の文書検索装置
は、請求項1に記載の文書検索装置において、前記検索
要求文書および前記検索適合文書の単語と文書構成要素
とを抽出し、検索語の前記単語出現位置情報としてこの
単語の出現順位と文書構成要素情報の両方を用いて、検
索語間の関連度を算出することを特徴とする。
【0011】また、本発明の請求項6の文書検索装置
は、請求項1に記載の文書検索装置において、前記検索
要求文書および前記検索適合文書から複合語並びに文書
構成要素を抽出し、検索語の前記単語出現位置情報とし
てこの複合語情報と文書構成要素情報の両方を用いて、
検索語間の関連度を算出することを特徴とする。
【0012】また、本発明の請求項7の文書検索装置
は、請求項1に記載の文書検索装置において、関連度算
出方法指示部を備え、前記検索要求文書集合検索語関連
度算出部および/または前記検索適合文書検索語関連度
算出部で用いる検索語間の関連度計算方法をユーザーが
選択できるようにことを特徴とした。
【0013】また、本発明の請求項8の文書検索装置
は、請求項1乃至7のいずれか1項に記載の文書検索装
置において、前記検索要求文書集合検索語関連度をユー
ザーに提示し、ユーザーが検索要求文書集合検索語関連
度を修正できるようにしたことを特徴とする。
【0014】また、本発明の請求項9の文書検索方法
は、検索要求文書集合に含まれる文書を指定し、その指
定された文書の内容に類似した文書を検索対象文書集合
から検索する文書検索方法であって、入力された検索対
象文書を集合として検索対象文書集合記憶部へ記憶し、
入力された検索要求文書を集合として検索要求文書集合
記憶部へ記憶し、前記検索要求文書集合記憶部内の文書
に含まれる単語を解析し、この解析された単語の重要度
を算出し、この単語重要度に基づいて検索語を決定し、
この検索語に対して前記検索要求文書集合記憶部内の文
書ごとに算出された検索語出現位置情報に基づいて2つ
の検索語間の関連度をすべての組み合わせについて算出
し、この検索語を用いて検索された前記検索対象文書集
合記憶部内の検索適合文書を検索適合文書集合記憶部へ
記憶し、前記検索適合文書集合記憶部内の文書に含まれ
る単語を解析し、この単語に対して前記検索適合文書集
合記憶部内の文書ごとに単語出現位置情報を算出し、前
記検索適合文書集合記憶部の各適合文書について前記検
索語の位置情報に基づいて2つの検索語間の関連度をす
べての組み合わせについて算出し、前記検索要求文書集
合に対して求めた検索語関連度と前記検索適合文書に対
して求めた検索語関連度に基づいて前記検索適合文書集
合記憶部内の各検索適合文書の適合度を算出して、前記
検索適合文書集合記憶部内の文書情報と共に表示するこ
とを特徴とする。
【0015】
【発明の実施の形態】以下、本発明の一実施例を図面に
もとづいて詳細に説明する。図1は、本発明の一実施例
の文書検索装置の機能構成を示すブロック図である。検
索対象文書入力部101は検索対象文書の入力を行う。
検索対象文書記憶部102は入力された検索対象文書集
合を記憶する。検索対象文書はID番号が付与されて管
理される。検索対象文書入力部101との検索対象文書
記憶部102は、既存の文書データベースを利用するこ
とができる。
【0016】検索要求文書入力部103は、検索要求文
書の入力を行う。検索要求文書としては、利用者が入力
する文章や既存の文書あるいは検索結果や文書分類結果
による文書集合を入力とすることができる。
【0017】検索要求文書集合記憶部104は、入力さ
れた検索要求文書集合を記憶する。検索要求文書は、I
D番号が付与されて管理される。
【0018】検索要求文書単語解析部105は、検索要
求文書から単語を抽出する。単語の抽出には、従来の形
態素解析技術による単語抽出技術を利用することができ
る。
【0019】単語重要度算出部106は、抽出された単
語の重要度を算出する。この重要度の算出には語句の出
現頻度や品詞、格タイプなどを用いて行う手法など、例
えば特開平10―177575号公報に開示されている
ような従来の手法を利用することができる。
【0020】検索語決定部107は、単語重要度算出部
106で算出された重要度にもとづいて検索語を決定す
る。決定の方法は、例えばある決められたしきい値以上
の重要度を持つ語句を検索語とすることにより達成する
ことができる。検索語はID番号が付与されて管理され
る。具体的な検索語例を図3に示す。
【0021】検索要求文書単語位置情報算出部108
は、各検索要求文書内での単語の位置情報を算出する。
この単語出現位置情報は単語の出現順位を用いて計算し
てもよい。この場合文書の単語解析結果にもとづいて、
単語の出現順に順位を割り当て、単語の位置はその順位
とする。図2の文書例における単語の出現順位による位
置情報の算出結果例を図4に示す。
【0022】また、単語の単語出現位置情報として複合
語情報を用いてもよい。この場合、単語解析部で複合語
の抽出も行う。複合語の抽出は連続する名詞句を複合語
にするなどの従来の手法を用いることができる。本実施
例では、連続する2つの名詞を複合語として抽出する。
図2の文書例における複合語による位置情報の算出結果
例を図5に示す。
【0023】また、単語の単語出現位置情報として文書
構成要素情報を用いてもよい。文や段落などの文書構成
要素の抽出には従来の技術を利用することができる。本
実施例では文書構成要素として「文」と「段落」を抽出
する。図2の文書例における文書構成要素による位置情
報の算出結果例を図6に示す。
【0024】検索要求文書集合検索語関連度算出部10
9は、検索要求文書集合に対する検索語関連度を算出す
る。検索語関連度は、2つの検索語間の関連度を検索要
求文書単語位置情報にもとづいて算出し、それをすべて
の検索語の組み合わせについて算出する。検索要求文書
集合に対する検索語関連度は、検索要求文書集合に含ま
れる各文書それぞれについて検索語関連度を算出し、検
索要求文書集合の全文書の平均を取ることで算出するこ
とができる。
【0025】この単語出現位置情報として単語の出現順
位を用いて、関連度を計算してもよい。この場合検索語
関連度は2つの検索語間の距離にもとづいて算出され
る。検索語間の距離は、出現順位の差の絶対値の最小の
値のものを距離とする。検索語aと検索語bの関連度
は、検索語aを基とする検索語aと検索語bの関連度R
(a,b)と検索語bを基とする検索語aと検索語bの
関連度R(b,a)があり、それぞれ値が異なる場合も
ある。検索語aを基とする関連度R(a,b)を算出す
る場合は、文書に含まれるすべての検索語aについてそ
れぞれ最も距離の小さい位置にある検索語bとの距離D
(a,b)を計算し、それにもとづいて文書に含まれる
個々の検索語aに関する関連度r(a,b)を計算す
る。最終的な検索語aを基とする検索語aと検索語bの
関連度R(a,b)は個々の検索語aに関する関連度r
(a,b)の平均値とする。文書に含まれる個々の検索
語aに関する関連度r(a,b)は検索語間の距離に応
じた関数であり、本実施例では以下に示す(式1)を利
用している。
【0026】検索語aと検索語bとの距離をD(a,
b)、文書に含まれる個々の検索語aに関する検索語a
と検索語bとの関連度をr(a,b)、検索語aを基と
する検索語aと検索語bの関連度をR(a,b)、文書
に含まれる検索語aの個数をnとすると、 r(a,b)=15/(D(a,b)1.5+14) ・・・(式1) R(a,b)=Σr(an,b)/n ・・・(式2) となる。ただし検索語a、検索語bのどちらかが文書に
含まれていない場合は関連度R(a,b)=0とする。
これをすべての検索語の組み合わせについて計算する。
図2の文書例に対する検索語関連度算出結果を図7に示
す。
【0027】検索要求文書集合に対する検索語関連度R
S(a,b)は、検索要求文書集合に含まれる各文書そ
れぞれについてすべての組み合わせの検索語関連度R
(a,b)を算出し、検索要求文書集合の全文書の平均
を取ることにより算出する。ただし、RS(a,a)は
検索語aの重要度W(a)とする。検索要求文書集合に
含まれる文書数をmとすると、検索要求文書集合に対す
る検索語関連度RS(a,b)は以下のように算出され
る。検索要求文書集合に対する検索語関連度は図8に示
すような行列の形になる。 RS(a,b)=ΣRm(a,b)/m ・・・(式3) RS(a,a)=W(a) ・・・(式4)
【0028】また、単語の単語出現位置情報として複合
語情報を用いて関連度を計算してもよい。この場合検索
語aを基とする検索語aと検索語bの関連度R(a,
b)は、文書内で検索語aと検索語bが複合語を構成す
る回数C(a,b)を文書内に検索語aが出現する回数
F(a)で割った数(式5)になる。ただし検索語a、
検索語bのどちらかが文書に含まれていない場合は関連
度R(a,b)=0とする。 R(a,b)=C(a,b)/F(a) ・・・(式5)
【0029】検索要求文書集合に対する検索語関連度R
S(a,b)は、検索要求文書集合に含まれる各文書そ
れぞれについてすべての組み合わせの検索語関連度R
(a,b)を算出し、検索要求文書集合の全文書の平均
を取ることで算出する。ただし、RS(a,a)は検索
語aの重要度W(a)とする。検索要求文書集合に含ま
れる文書数をmとすると、検索要求文書集合に対する検
索語関連度RS(a,b)は(式3)および(式4)の
ように算出される。検索要求文書集合に対する検索語関
連度は図8に示すような行列の形になる。
【0030】また、単語の単語出現位置情報として文書
構成要素情報を用いて関連度を計算してもよい。この場
合、検索語aを基とする関連度R(a,b)を算出する
には、まず文書に含まれるすべての検索語aについてそ
れぞれ最も距離の小さい位置にある検索語bが同じ構成
要素に含まれているかを判断し、含まれている構成要素
に応じて文書に含まれる個々の検索語aに関する関連度
r(a,b)を計算する。本実施例では、同じ文に含ま
れていればr(a,b)=1、同じ段落に含まれていれ
ばr(a,b)=0.5、それ以外はr(a,b)=0
としている。最終的な検索語aを基とする検索語aと検
索語bの関連度R(a,b)は、個々の検索語aに関す
る関連度r(a,b)の平均値(式2)とする。
【0031】検索要求文書集合に対する検索語関連度R
S(a,b)は、検索要求文書集合に含まれる各文書そ
れぞれについてすべての組み合わせの検索語関連度R
(a,b)を算出し、検索要求文書集合の全文書の平均
を取ることにより算出する。ただし、RS(a,a)は
検索語aの重要度W(a)とする。検索要求文書集合に
含まれる文書数をmとすると、検索要求文書集合に対す
る検索語関連度RS(a,b)は(式3)および(式
4)のように算出される。検索要求文書集合に対する検
索語関連度は図8に示すような行列の形になる。
【0032】また、単語の単語出現位置情報として単語
の出現順位と文書構成要素情報の両方を用いて、関連度
を計算してもよい。この場合、検索語aを基とする検索
語aと検索語bの関連度は、検索語aと検索語bとの距
離をD(a,b)、文書に含まれる個々の検索語aに関
する検索語aと検索語bとの関連度をr(a,b)、検
索語aを基とする検索語aと検索語bの関連度をR
(a,b)、文書に含まれる検索語aの個数をn、同一
構成要素に含まれる場合の重みをwとすると、以下のよ
うに算出される。
【0033】 r(a,b)=15/(D(a,b)1.5+14)* w ・・・(式6) 検索語a、bが同じ文に含まれる場合 w=1 検索語a、bが同じ段落に含まれる場合 w=0.5 それ以外 w=0 R(a,b)=Σr(an,b)/n ・・・(式7)
【0034】検索要求文書集合に対する検索語関連度R
S(a,b)は、検索要求文書集合に含まれる各文書そ
れぞれについてすべての組み合わせの検索語関連度R
(a,b)を算出し、検索要求文書集合の全文書の平均
を取ることにより算出する。ただし、RS(a,a)は
検索語aの重要度W(a)とする。検索要求文書集合に
含まれる文書数をmとすると、検索要求文書集合に対す
る検索語関連度RS(a,b)は(式3)および(式
4)のように算出される。検索要求文書集合に対する検
索語関連度は図8に示すような行列の形になる。
【0035】また、単語の単語出現位置情報として複合
語情報と文書構成要素情報の両方を用いて、関連度を計
算してもよい。検索語aを基とする関連度R(a,b)
を算出するには、まず文書に含まれるすべての検索語a
についてそれぞれ最も距離の小さい位置にある検索語b
が同じ構成要素に含まれているか、または複合語を構成
するかを判断し、含まれている構成要素に応じて文書に
含まれる個々の検索語aに関する関連度r(a,b)を
計算する。本実施例では、複合語を構成していればr
(a,b)=2、同じ文に含まれていればr(a,b)
=1、同じ段落に含まれていればr(a,b)=0.
5、それ以外はr(a,b)=0としている。最終的な
検索語aを基とする検索語aと検索語bの関連度R
(a,b)は、個々の検索語aに関する関連度r(a,
b)の平均値(式2)とする。
【0036】検索要求文書集合に対する検索語関連度R
S(a,b)は、検索要求文書集合に含まれる各文書そ
れぞれについてすべての組み合わせの検索語関連度R
(a,b)を算出し、検索要求文書集合の全文書の平均
を取ることで算出する。ただし、RS(a,a)は検索
語aの重要度W(a)とする。検索要求文書集合に含ま
れる文書数をmとすると、検索要求文書集合に対する検
索語関連度RS(a,b)は、(式3)および(式4)
のように算出される。検索要求文書集合に対する検索語
関連度は、図8に示すような行列の形になる。
【0037】また、上記した検索要求文書集合検索語関
連度算出部109および検索適合文書検索語関連度算出
部114(後述)における関連度の算出方法をユーザー
が指定できるようにすることによって、ユーザーの目的
に適合した関連度算出方法を選択できるようになる。さ
らに、上記いずれかの方法で算出された検索語関連度を
ユーザーに提示し、それをユーザーが修正して、よりユ
ーザーの目的に応じた関連度を設定することができる。
【0038】検索部110は、検索語を用いて検索対象
文書集合から検索適合文書を検索する。検索には従来の
技術を利用することができる。本実施例では、検索語を
1つでも含む文書は検索適合文書となるように検索を行
なう。
【0039】検索適合文書記憶部111は、検索された
検索適合文書を記憶する。
【0040】検索適合文書単語解析部112は、検索適
合文書集合に含まれるすべての文書に対して単語解析を
行う。
【0041】検索適合文書単語位置情報算出部113
は、各検索適合文書内での単語の位置情報を算出する。
算出方法は、検索要求文書単語位置情報算出部108と
同じである。
【0042】検索適合文書検索語関連度算出部114
は、検索適合文書集合に対する検索語関連度を算出す
る。算出方法は検索要求文書集合検索語関連度算出部1
09とほぼ同じであるが、以下の点が異なる。 1) 検索適合文書検索語関連度算出部114では検索
適合文書集合に対する検索語関連度ではなく、個々の検
索適合文書に対する検索語関連度を算出する。 2) 検索適合文書に対する検索語関連度RM(a,
b)において、RM(a,a)は検索語aが対象検索適
合文書内に出現する頻度F(a)とする。
【0043】検索適合文書適合度算出部115は、検索
要求文書集合検索語関連度と検索適合文書検索語関連度
にもとづいて、検索適合文書集合内の各検索適合文書の
適合度を算出する。検索適合文書dの適合度M(d)、
検索要求文書集合に対する検索語関連度RS(a,
b)、検索適合文書に対する検索語関連度RM(a,
b)とすると以下のように算出すし、これを検索適合文
書集合内のすべての文書について算出する。
【0044】 M(d)= RS(1,1)* RM(1,1)+RS(1,2)* RM(1, 2)+・・・+RS(1,n)* RM(1,n) +RS(2,1)* RM(2,1)+RS(2,2)* RM(2,2)+・ ・・+RS(2,n)* RM(2,n) +・・・ +RS(n,1)* RM(n,1)+RS(n,2)* RM(n,2)+・ ・・+RS(n,n)* RM(n,n)・・・(式8)
【0045】検索適合文書集合表示部116は、検索適
合文書集合の情報をユーザーに提示する。この場合、検
索適合文書を適合度順に並び替えて表示することなどを
行うこともできる。
【0046】
【発明の効果】以上説明したように、本発明によれば、
ユーザーが検索目的に適合した文書を収集したり、文書
分類技術により生成された検索要求文書集合に含まれる
文書の内容に類似する文書を検索するときに、検索結果
である検索適合文書の適合度を計算する際に、検索要求
文書集合の内容に適合している文書ほど適合度が高くな
るようにすることで、検索結果の質を高めることができ
た。
【0047】さらに、以下のような効果も達成できた。 ・単語の位置情報にもとづいた検索語間の関連度を用い
ることにより、検索要求文書集合の内容に適合している
検索適合文書ほど適合度を高くすることができる。 ・検索語間の関連度は単語解析結果の情報からだけで算
出することができ、比較的簡単な方法で関連度を計算す
ることができる。 ・複合語という単語間の意味的に強い結びつきの情報を
利用することができ、より適切な適合度計算を行うこと
ができる。 ・単語が同じ文に含まれるあるいは同じ段落に含まれる
などの文書構造にもとづいた単語間の関連度を利用する
ことができ、より適切な適合度計算を行うことができ
る。 ・文書構造にもとづいた単語間の関連情報と、その文書
構造内における単語間の位置的距離を用いて単語間の関
連度を算出することができ、より適切な適合度計算を行
うことができる。 ・文書構造にもとづいた単語間の関連情報と、複合語情
報にもとづいた単語間の意味的関連情報を用いて単語間
の関連度を算出することができ、より適切な適合度計算
を行うことができる。 ・ユーザーが自分の目的にあった単語の関連度算出方法
を利用することができる。 ・ユーザーが自分の目的に応じて検索要求文書集合検索
語関連度を修正することができる。
【図面の簡単な説明】
【図1】本発明の一実施例の機能構成を示すブロック図
である。
【図2】文書例を示す図である。
【図3】検索語抽出結果例を示す図である。
【図4】単語の出現順位による位置情報の算出結果例を
示す図である。
【図5】複合語による位置情報の算出結果例を示す図で
ある。
【図6】文書構成要素による位置情報の算出結果例を示
す図である。
【図7】単語出現位置情報として単語の出現順位を用い
た場合の検索語関連度算出結果例を示す図である。
【図8】検索要求文書集合に対する検索語関連度を示す
図である。
【符号の説明】
101 検索対象文書入力部 102 検索対象文書集合記憶部 103 検索要求文書入力部 104 検索要求文書集合記憶部 105 検索要求文書単語解析部 106 単語重要度算出部 107 検索語決定部 108 検索要求文書単語位置情報算出部 109 検索要求文書集合検索語関連度算出部 110 検索部 111 検索適合文書記憶部 112 検索適合文書単語解析部 113 検索適合文書単語位置情報算出部 114 検索適合文書検索語関連度算出部 115 検索適合文書適合度算出部 116 検索適合文書集合表示部

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 検索要求文書集合に含まれる文書を指定
    し、その指定された文書の内容に類似した文書を検索対
    象文書集合から検索する文書検索装置であって、検索対
    象文書を入力する検索対象文書入力部と、入力された検
    索対象文書を集合として記憶する検索対象文書集合記憶
    部と、検索要求文書を入力する検索要求文書入力部と、
    入力された検索要求文書を集合として記憶する検索要求
    文書集合記憶部と、前記検索要求文書集合記憶部内の文
    書に含まれる単語を解析する検索要求文書単語解析部
    と、前記検索要求文書単語解析部で解析された単語の重
    要度を算出する単語重要度算出部と、この単語重要度に
    基づいて検索語を決定する検索語決定部と、前記検索要
    求文書集合記憶部内の文書ごとに単語出現位置情報を算
    出する検索要求文書単語位置情報算出部と、前記検索要
    求文書集合記憶部内の各文書について検索語の位置情報
    に基づいて2つの検索語間の関連度をすべての組み合わ
    せについて算出する検索要求文書集合検索語関連度算出
    部と、検索語を用いて前記検索対象文書集合記憶部内の
    検索適合文書を検索する検索部と、この検索適合文書を
    記憶する検索適合文書集合記憶部と、前記検索適合文書
    集合記憶部内の文書に含まれる単語を解析する検索適合
    文書単語解析部と、前記検索適合文書集合記憶部内の文
    書ごとに単語出現位置情報を算出する検索適合文書単語
    位置情報算出部と、前記検索適合文書集合記憶部の各適
    合文書について検索語の位置情報に基づいて2つの検索
    語間の関連度をすべての組み合わせについて算出する検
    索適合文書検索語関連度算出部と、前記検索要求文書集
    合検索語関連度と前記検索適合文書検索語関連度に基づ
    いて前記検索適合文書集合記憶部内の各検索適合文書の
    適合度を算出する検索適合文書適合度算出部と、前記検
    索適合文書集合記憶部内の文書情報とこの文書に対応す
    る前記適合度とを表示する検索適合文書集合表示部とを
    持つことを特徴とする文書検索装置。
  2. 【請求項2】 請求項1に記載の文書検索装置におい
    て、検索語の前記単語出現位置情報として単語の出現順
    位を用い、2つの検索語の出現順位の差に基づいて検索
    語間の関連度を算出することを特徴とする文書検索装
    置。
  3. 【請求項3】 請求項1に記載の文書検索装置におい
    て、前記検索要求文書単語解析部と前記検索適合文書単
    語解析部は、複合語の抽出を行い、検索語の前記単語出
    現位置情報に抽出した複合語情報を用いて、2つの検索
    語が文書中で出現する場所で複合語を構成しているかど
    うかに基づいて検索語間の関連度を算出することを特徴
    とする文書検索装置。
  4. 【請求項4】 請求項1に記載の文書検索装置におい
    て、前記検索要求文書の文書構成要素を抽出する検索要
    求文書文書構成要素抽出部と、前記検索適合文書の文書
    構成要素を抽出する検索適合文書文書構成要素抽出部と
    を設け、検索語の前記単語出現位置情報として文書構成
    要素情報を用い、2つの検索語が文書中に出現する場所
    で同じ文書構成要素に含まれるかどうか基づいて検索語
    間の関連度を算出することを特徴とする文書検索装置。
  5. 【請求項5】 請求項1に記載の文書検索装置におい
    て、前記検索要求文書および前記検索適合文書の単語と
    文書構成要素とを抽出し、検索語の前記単語出現位置情
    報としてこの単語の出現順位と文書構成要素情報の両方
    を用いて、検索語間の関連度を算出することを特徴とす
    る文書検索装置。
  6. 【請求項6】 請求項1に記載の文書検索装置におい
    て、前記検索要求文書および前記検索適合文書から複合
    語並びに文書構成要素を抽出し、検索語の前記単語出現
    位置情報としてこの複合語情報と文書構成要素情報の両
    方を用いて、検索語間の関連度を算出することを特徴と
    する文書検索装置。
  7. 【請求項7】 請求項1に記載の文書検索装置におい
    て、関連度算出方法指示部を備え、前記検索要求文書集
    合検索語関連度算出部および/または前記検索適合文書
    検索語関連度算出部で用いる検索語間の関連度計算方法
    をユーザーが選択できるようにことを特徴とした文書検
    索装置。
  8. 【請求項8】 請求項1乃至7のいずれか1項に記載の
    文書検索装置において、前記検索要求文書集合検索語関
    連度をユーザーに提示し、ユーザーが検索要求文書集合
    検索語関連度を修正できるようにしたことを特徴とする
    文書検索装置。
  9. 【請求項9】 検索要求文書集合に含まれる文書を指定
    し、その指定された文書の内容に類似した文書を検索対
    象文書集合から検索する文書検索方法であって、入力さ
    れた検索対象文書を集合として検索対象文書集合記憶部
    へ記憶し、入力された検索要求文書を集合として検索要
    求文書集合記憶部へ記憶し、前記検索要求文書集合記憶
    部内の文書に含まれる単語を解析し、この解析された単
    語の重要度を算出し、この単語重要度に基づいて検索語
    を決定し、この検索語に対して前記検索要求文書集合記
    憶部内の文書ごとに算出された検索語出現位置情報に基
    づいて2つの検索語間の関連度をすべての組み合わせに
    ついて算出し、この検索語を用いて検索された前記検索
    対象文書集合記憶部内の検索適合文書を検索適合文書集
    合記憶部へ記憶し、前記検索適合文書集合記憶部内の文
    書に含まれる単語を解析し、この単語に対して前記検索
    適合文書集合記憶部内の文書ごとに単語出現位置情報を
    算出し、前記検索適合文書集合記憶部の各適合文書につ
    いて前記検索語の位置情報に基づいて2つの検索語間の
    関連度をすべての組み合わせについて算出し、前記検索
    要求文書集合に対して求めた検索語関連度と前記検索適
    合文書に対して求めた検索語関連度に基づいて前記検索
    適合文書集合記憶部内の各検索適合文書の適合度を算出
    して、前記検索適合文書集合記憶部内の文書情報と共に
    表示することを特徴とする文書検索方法。
JP2000388596A 2000-12-21 2000-12-21 文書検索装置及び文書検索方法 Pending JP2002189754A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000388596A JP2002189754A (ja) 2000-12-21 2000-12-21 文書検索装置及び文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000388596A JP2002189754A (ja) 2000-12-21 2000-12-21 文書検索装置及び文書検索方法

Publications (1)

Publication Number Publication Date
JP2002189754A true JP2002189754A (ja) 2002-07-05

Family

ID=18855302

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000388596A Pending JP2002189754A (ja) 2000-12-21 2000-12-21 文書検索装置及び文書検索方法

Country Status (1)

Country Link
JP (1) JP2002189754A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004034282A1 (ja) * 2002-10-10 2004-04-22 Fujitsu Limited コンテンツ再利用管理装置およびコンテンツ再利用支援装置
JP2007026386A (ja) * 2005-07-21 2007-02-01 Fuji Xerox Co Ltd 画像検索システム及び方法
JP2011008355A (ja) * 2009-06-23 2011-01-13 Omron Corp Fmeaシートの作成支援システムおよび作成支援用のプログラム
US8005300B2 (en) 2005-07-21 2011-08-23 Fuji Xerox Co., Ltd. Image search system, image search method, and storage medium
JP2015022655A (ja) * 2013-07-22 2015-02-02 株式会社東芝 電子機器、方法、およびプログラム
US10866958B2 (en) 2018-03-27 2020-12-15 Hitachi, Ltd. Data management system and related data recommendation method

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09292961A (ja) * 1996-04-24 1997-11-11 Fujitsu Ltd データ表示処理システム
JPH1125108A (ja) * 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム
JPH11250070A (ja) * 1998-03-05 1999-09-17 Toshiba Corp 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体
JPH11259487A (ja) * 1998-03-06 1999-09-24 Toshiba Corp 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体
JP2000123041A (ja) * 1998-10-19 2000-04-28 Nippon Telegr & Teleph Corp <Ntt> 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体
JP2000155758A (ja) * 1998-11-19 2000-06-06 Hitachi Ltd 複数文書データベースを対象とした文書検索方法および文書検索サービス

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09292961A (ja) * 1996-04-24 1997-11-11 Fujitsu Ltd データ表示処理システム
JPH1125108A (ja) * 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム
JPH11250070A (ja) * 1998-03-05 1999-09-17 Toshiba Corp 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体
JPH11259487A (ja) * 1998-03-06 1999-09-24 Toshiba Corp 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体
JP2000123041A (ja) * 1998-10-19 2000-04-28 Nippon Telegr & Teleph Corp <Ntt> 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体
JP2000155758A (ja) * 1998-11-19 2000-06-06 Hitachi Ltd 複数文書データベースを対象とした文書検索方法および文書検索サービス

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
富田準二,外: "主題グラフ及び関連度情報からからの単語重要度付与を用いた情報検索システムの提案", 情報処理学会研究報告, vol. 98, no. 109, JPN6008009048, 30 November 1998 (1998-11-30), JP, pages 17 - 24, ISSN: 0000988719 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004034282A1 (ja) * 2002-10-10 2004-04-22 Fujitsu Limited コンテンツ再利用管理装置およびコンテンツ再利用支援装置
JPWO2004034282A1 (ja) * 2002-10-10 2006-02-09 富士通株式会社 コンテンツ再利用管理装置およびコンテンツ再利用支援装置
JP2007026386A (ja) * 2005-07-21 2007-02-01 Fuji Xerox Co Ltd 画像検索システム及び方法
US8005300B2 (en) 2005-07-21 2011-08-23 Fuji Xerox Co., Ltd. Image search system, image search method, and storage medium
JP2011008355A (ja) * 2009-06-23 2011-01-13 Omron Corp Fmeaシートの作成支援システムおよび作成支援用のプログラム
JP2015022655A (ja) * 2013-07-22 2015-02-02 株式会社東芝 電子機器、方法、およびプログラム
US9607080B2 (en) 2013-07-22 2017-03-28 Kabushiki Kaisha Toshiba Electronic device and method for processing clips of documents
US10866958B2 (en) 2018-03-27 2020-12-15 Hitachi, Ltd. Data management system and related data recommendation method

Similar Documents

Publication Publication Date Title
JP3429184B2 (ja) テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
US5684999A (en) Apparatus and a method for retrieving image objects based on correlation with natural language sentence parameters
US6115683A (en) Automatic essay scoring system using content-based techniques
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
CN112765974B (zh) 一种业务辅助方法、电子设备及可读存储介质
JP3831357B2 (ja) 対訳情報作成装置及び対訳情報検索装置
JP3198932B2 (ja) 文書検索装置
Kessler et al. Extraction of terminology in the field of construction
JP3594701B2 (ja) キーセンテンス抽出装置
JP2004334766A (ja) 単語分類装置、単語分類方法及び単語分類プログラム
JP2003150624A (ja) 情報抽出装置および情報抽出方法
JP2002189754A (ja) 文書検索装置及び文書検索方法
JP2004355550A (ja) 自然文検索装置、その方法及びプログラム
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JPH1145268A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003263441A (ja) キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体
JP2008204133A (ja) 回答検索装置及びコンピュータプログラム
JP2002123544A (ja) 検索前処理装置、文書検索装置、検索前処理方法及び文書検索方法
JP6375367B2 (ja) 反論生成方法,反論生成システム
JP2006119697A (ja) 質問応答システム、質疑応答方法および質疑応答プログラム
JP2002189734A (ja) 検索語抽出装置および検索語抽出方法
Iswarya et al. Speech and text query based Tamil-English Cross Language Information Retrieval system
JPH1185766A (ja) キーワード抽出方法及び装置及びキーワード抽出プログラムを格納した記憶媒体
JP3558854B2 (ja) データ検索装置及びコンピュータ読み取り可能な記録媒体
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050126

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080428

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080701