JP3918374B2 - 文書検索装置および方法 - Google Patents

文書検索装置および方法 Download PDF

Info

Publication number
JP3918374B2
JP3918374B2 JP25766599A JP25766599A JP3918374B2 JP 3918374 B2 JP3918374 B2 JP 3918374B2 JP 25766599 A JP25766599 A JP 25766599A JP 25766599 A JP25766599 A JP 25766599A JP 3918374 B2 JP3918374 B2 JP 3918374B2
Authority
JP
Japan
Prior art keywords
document
search
keyword
documents
search condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP25766599A
Other languages
English (en)
Other versions
JP2001084255A (ja
JP2001084255A5 (ja
Inventor
宏 梅基
昌一 舘野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP25766599A priority Critical patent/JP3918374B2/ja
Priority to US09/645,882 priority patent/US7181688B1/en
Publication of JP2001084255A publication Critical patent/JP2001084255A/ja
Publication of JP2001084255A5 publication Critical patent/JP2001084255A5/ja
Application granted granted Critical
Publication of JP3918374B2 publication Critical patent/JP3918374B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Description

【0001】
【発明の属する技術分野】
本発明は文書検索技術に関し、特に、検索された文書の内容から検索条件に関連している箇所を出力する文書検索技術に関する。
【0002】
【従来の技術】
書誌的事項やキーワードなどを検索条件として文書を検索する従来の検索システムは、検索結果として一般に、検索結果の件数やタイトルリストなどを表示する。検索された結果が検索意図に適合しているかどうかを判定するためには、検索された文書の各々の全文をユーザが参照して判断する必要があった。しかし、文書の全文にユーザの検索意図が必ずしも的確に表現されているとは限らず、また、多数の文書が検索された場合や文書の全文が長い場合は、全文をすべて読むために多大な時間が必要になってしまう。
【0003】
近年、CD−ROMなどの大容量記憶メディアや、LANやインターネットなどのネットワークを通じて、大量の電子化文書が流通するようになり、これに伴い、大量の電子化文書を検索対象とする文書検索システムも一般的になった。しかし、そのような文書検索システムを使うと、大量の文書を検索されてしまうことがよくあるため、検索結果が適合しているかどうかを判定するために、ユーザに過剰な負担がかかってしまう場合が多い。
【0004】
そこで、検索された文書の全文の一部だけを出力することで、そのような適合判定の負荷を軽くする方法が考えられる。
【0005】
これまでに、テキストから自動的に要約を作成する様々な方法が提案されている。そのうちの一つは、テキストに頻出する名詞をキーワードと想定し、テキスト中の出現頻度に基づいて単語に重要度を与え、そのようにして求めた単語の重要度を元に、文に重要度を与え、重要な文を集めて要約とする方法である。また別の方法は、テキストの構造からテキスト中あるいは段落中で重要な箇所の位置をあらかじめ予測して、重要な文を抽出する方法である。
【0006】
これらの方法では、同じテキストから常に同じ要約が作成されることになる。しかし、ユーザにとっては、同じテキストであっても異なる検索を行えば、検索意図が反映されて異なる要約を得られる方が望ましい。
【0007】
一方、検索条件のキーワードを含んでいる検索結果の文書の近傍を抽出して表示する方法がある。この方法はKWIC(Keyword in Context)とよばれ、たとえばウェブの検索エンジンの表示などに広く使われている。しかし、検索条件に含まれるキーワードの数が少ない場合やキーワードの出現箇所が少ない場合、またはキーワードが的確に検索意図を表現していない場合、必ずしもそれらのキーワードの近傍だけにユーザの検索意図が表されているとは限らない。逆に、キーワードが多数の箇所に現れている場合、それらの箇所のどこがより重要かを判定することが難しくなってしまう。
【0008】
特開平10―207891号公報の「文書要約装置およびその方法」では、文書において重要な情報と、利用者が求める情報とを利用する文書要約方法が開示されている。この方法は、ユーザが興味を持った文書や重要と考えるキーワードなどをあらかじめ保存しておき、ユーザの入力した検索条件やあらかじめ保存しておいたユーザの興味に関する情報などから、ユーザの興味を反映した要約を作成することを目的の一つとしている。しかし、この方法では、ユーザごとに興味に関する情報をあらかじめ入力しておき、適切に更新するなどの手間が必要になる。
【0009】
【発明が解決しようとする課題】
以上述べたように、テキストの内容だけから文の重要度を求める従来の自動要約の技術では、ユーザの検索意図は考慮されない。
【0010】
また、KWICでは、必ずしもキーワードの近傍だけにユーザの検索意図が表されているとは限らないことや、逆に、キーワードが多数の箇所に現れている場合、それらの箇所のどこがより重要かを判定することは難しくなってしまう。
【0011】
そして、特開平10―207891号公報の「文書要約装置およびその方法」のように、ユーザの興味に関する情報をあらかじめ入力しておく文書要約方法では、そのことによってユーザの興味は要約に反映される反面、ユーザごとに求める情報をあらかじめ入力しておくなどの手間が必要になってしまう。
【0012】
本発明は、上記従来の事情に鑑みてなされたものであり、ユーザごとに興味のある情報をあらかじめ入力しておくなどの手間をかけずに、検索条件に関連する箇所を抽出して表示することができる文書検索装置を提供することを目的とする。
【0013】
【課題を解決するための手段】
本発明は上述の目的を達成するために特許請求の範囲に記載のとおりの構成を採用している。
【0014】
すなわち、本発明によれば、上述の目的を達成するために、入力された検索条件に適合する文書を検索する文書検索装置に:複数の文書を、各文書から抽出されたキーワードと対応づけて格納する文書情報格納手段と;検索条件を受け取る検索条件取得手段と;前記文書情報格納手段に格納されている文書を対象として、前記検索条件取得手段が受け取った検索条件に適合する適合文書を検索する適合文書検索手段と;前記適合文書検索手段で検索された適合文書に対応して前記文書情報格納手段に格納されているキーワードを関連キーワードとして求め、前記関連キーワードの各々について前記適合文書の中で該関連キーワードを含んでいる文書の数と、前記文書情報格納手段に格納されている文書の中で該関連キーワードを含んでいる文書の数とを変数とする計算式に基づいて、前記検索条件取得手段が受け取った検索条件と該関連キーワードとの間の関連度を算出する関連キーワード計算手段と;前記関連キーワード計算手段から得られる関連キーワードとその関連度に基づいて、前記適合文書の内容から関連箇所を抽出する関連箇所抽出手段と;前記関連箇所抽出手段から得られる関連箇所を出力する関連箇所出力手段とを設けるようにしている。
【0015】
この構成においては、関連キーワード、すなわち、適合文書(検索条件でヒットした文書)のいずれかのキーワードとなっていることばの各々について、適合文書中に出現する割合と全文書中で出現する割合とに基づいて、検索条件との関連度を求め、関連度の高いキーワードを含む文書部分を抽出するようにしているので、検索意図に合致した態様で文書部分を抽出することができる。
【0016】
ここで、文書とは検索単位であり、1つの文章からなることもあるし、複数の文章からなることもある。
【0017】
また、この構成において、文書検索装置に、さらに、前記文書情報格納手段に格納されている文書を対象として、前記関連キーワード計算手段から得られる関連キーワードとその関連度に基づいて、前記検索条件取得手段が受け取った検索条件に関連する関連文書を検索する関連文書検索手段を設け、前記関連箇所抽出手段が、前記関連キーワード計算手段から得られる関連キーワードとその関連度に基づいて、前記関連文書検索手段から得られる関連文書の内容から関連箇所を抽出するようにしてもよい。
【0018】
検索条件に関連し、その検索意図には合致するけれども、キーワードの割り振りに起因して検索条件には適合しない(ヒットしない)文書がある。関連キーワードと関連度とを用いれば、検索意図に合致する文書をより多く抽出できる。
【0019】
また、本発明によれば、上述の目的を達成するために、入力された検索条件に関連する文書を検索する文書検索装置に:複数の文書を、各文書から抽出されたキーワードと対応づけて格納する文書情報格納手段と;検索条件を受け取る検索条件取得手段と;前記文書情報格納手段に格納されているキーワードの中から、関連度を判断する対象とすべき関連キーワードを特定し、前記文書情報格納手段に格納されている文書の中で関連キーワードを含んでいる文書の数を変数とする計算式に基づいて、前記検索条件取得手段が受け取った検索条件と関連キーワードとの間の関連度を算出する関連キーワード計算手段と;前記文書情報格納手段に格納されている文書を対象として、前記関連キーワード計算手段から得られる関連キーワードとその関連度に基づいて、前記検索条件取得手段が受け取った検索条件に関連する関連文書を検索する関連文書検索手段と;前記関連キーワード計算手段から得られる関連キーワードとその関連度に基づいて、前記関連文書検索手段から得られる関連文書の内容から関連箇所を抽出する関連箇所抽出手段と;前記関連箇所抽出手段から得られる関連箇所を出力する関連箇所出力手段とを設けるようにしている。
【0020】
この構成においても、関連キーワードとその関連度に基づいて文書を取り出すことができる。関連度は、少なくとも、全文書の中で関連キーワードが出現する割合に基づく。例えば、その割合が小さい場合には情報量としては多くなるので高い関連度を付与する。もちろん、関連する文書における出現割合を加味して関連度を算出してもよい。
【0021】
関連キーワードの特定は例えばつぎのように行うことができる。すなわち、前記検索条件取得手段が、前記文書情報格納手段に格納されている一つあるいは複数の文書を入力として受け取り、前記関連キーワード計算手段が、前記検索条件取得手段が受け取った文書に含まれることばを関連キーワードとし、前記検索条件取得手段が受け取った検索条件と関連キーワードとの間の関連度を、前記文書の中で該関連キーワードを含む文書の数と、前記文書情報格納手段に格納されている文書の中の該関連キーワードを含む文書の数とを変数とする計算式に基づいて算出するようにしてもよい。
【0022】
また、前記検索条件取得手段が、自然文を入力として受け取り、前記関連キーワード計算手段が、前記文書情報格納手段に格納されているキーワードの中から、前記検索条件取得手段が受け取った自然文に含まれることばを関連キーワードとするようにしてもよい。
その他種々の手法で関連キーワードを特定することができる。シソーラス辞書を用いて入力キーワードに関連することばを関連キーワードとしてもよい。
【0023】
また、前記関連文書検索手段から検索された関連文書を、前記関連箇所出力手段から出力される関連箇所と対応づけて出力する文書出力手段を設けるようにしてもよく、前記関連箇所出力手段および前記文書出力手段が、それらの出力に含まれる、前記関連キーワード計算手段から得られる関連キーワードの出力の形態を、該関連キーワードの関連度に応じて変えるようにしてもよい。
【0024】
また、本発明によれば、文書検索装置に:複数の文書を、各文書から抽出されたキーワードと対応づけて格納する文書情報格納手段と;検索条件を受け取る検索条件取得手段と;前記文書情報格納手段に格納されている文書を対象として、前記検索条件取得手段が受け取った検索条件に適合する適合文書を検索する適合文書検索手段と;前記適合文書検索手段で検索された適合文書に対応して前記文書情報格納手段に格納されているキーワードを関連キーワードとして求め、前記関連キーワードの各々について前記適合文書の中で該キーワードを含んでいる文書の数と、前記文書情報格納手段に格納されている文書の中で該キーワードを含んでいる文書の数とを変数とする計算式に基づいて、前記検索条件取得手段が受け取った検索条件と該キーワードとの間の関連度を算出し、関連キーワードとその関連度を求める関連キーワード計算手段と;前記関連キーワード計算手段から得られる関連キーワードとその関連度に基づいて、前記文書情報格納手段に格納されている文書を対象として、前記検索条件に関連する関連文書を検索する関連文書検索手段とを設けるようにしている。
【0025】
この構成においては、検索条件に適合しなくとも、関連度が高ければ検索することが可能になる。
【0026】
また、本発明によれば、文書処理装置に:複数の文章からなる入力文書の各文章を所定の評価基準によりスコアを割り当てる手段と;上記スコアに基づいて順次に文章を抽出する手段と;抽出した文章の累積量が所定の分量基準を上回ったときに抽出を打ち切る手段と;抽出された文章を出力文書にまとめて出力する手段とを設けるようにしている。
【0027】
この構成においては、所定の分量基準にしたがって所望の文書部分を抽出することができる。
【0028】
この構成において、上記分量基準は入力文書の量の固定割合としてもよい。前記打ち切る手段は、分量基準を上回った時点の文章まで抽出して出力文書に含ませるようにしてもよい。前記出力文書の文章は入力文書における各文章の出現順序で配置されるようにしてもよい。また、前記出力文書の文章は前記評価基準のスコアに基づいて配置されるようにしてもよい。さらに、前記打ち切る手段は、分量基準を上回る直前の文字まで抽出して出力文書に含ませるようにしてもよい。
【0029】
また、本発明は方法の発明として実現することもでき、また少なくともその一部をコンピュータプログラム製品(記録媒体)として実現することもできる。
【0030】
【発明の実施の形態】
以下、本発明の実施例について説明する。以下の実施例は検索対象の文書として、日本語で記述された文書を想定しているが、その他英語や中国語など、形態素解析を施すことが可能な各種言語で記述された文書に適用することができる。
【0031】
[実施例1]
まず、本発明の実施例1について説明する。この実施例1は入力した検索文に合致する文書を検索し、文書の各々の関連箇所を抽出するものである。
【0032】
図1は実施例1の文書検索装置の構成を全体として示しており、この図において、文書検索装置は、文書情報格納手段1、検索条件取得手段2、適合文書検索手段3、関連キーワード計算手段4、関連箇所抽出手段5、関連箇所出力手段6を含んで構成されている。なお、この実施例の文書検索装置は、コンピュータシステム100(破線で示す)上で実行されるソフトウエアとして実現されている。このソフトウェアは、記録媒体101等を用いてコンピュータシステムにインストールできる。
【0033】
文書情報格納手段1は、図5に示すように、単語索引、文書索引等の各テーブル、および文書群を記録するものである。なお、検索対象の文書とは1または複数の文章からなる検索対象単位であり、1つの処理単位と管理されているものである。文章には1つの単語からなるものも含まれる。
【0034】
検索対象の文書には文書IDが与えられており、文書情報格納手段1には、文書IDに対応して文書ファイルが記憶され、さらに、その文書から抽出されたキーワードのリスト(単語索引)と、キーワードに対応してそのキーワードを含む文書の文書IDのリスト(文書索引)とが格納される。キーワードは、検索対象の文書を形態素解析した結果得られた名詞や動詞などの主要な品詞の単語である。
【0035】
検索条件取得手段2は、ユーザから検索条件としてキーワードをAND、OR、NOTの論理演算子で結んだキーワードの論理演算式を受け取るものである。
【0036】
適合文書検索手段3は、検索条件取得手段2から入力された各キーワードに対応する文書IDのリストを文書情報格納手段1の単語索引から求め、指定の論理演算を施し、適合する文書の文書IDを求める。この文書を適合文書と呼ぶことにする。
【0037】
関連キーワード計算手段4は、適合文書検索手段3で検索された適合文書から抽出されたキーワードを関連キーワードとして、各々についてその関連度を計算する。すなわち、関連キーワード計算手段4は、適合文書の各々について、文書情報格納手段1の文書索引を表引きし、それぞれのキーワードを抽出し、これらを関連キーワードとする。そして関連キーワードの関連度は、適合文書の中で、その関連キーワードを少なくとも一つ含む文書の数αと、文書情報格納手段1に格納されているすべての文書の中で、その関連キーワードを少なくとも一つ含む文書の数βとを変数とする計算式Rw(α,β)に基づいて算出される。そしてこの計算式Rw(α,β)は、前者の文書数αの2乗を分子に、後者の文書数βを分母とする分数で表される。すなわち関連キーワードの関連度Rw(α,β)は、次の式で表わされる。
【0038】
【数1】
Rw(α,β)=α2/β
関連箇所抽出手段5は、関連キーワード計算手段4で求まった関連キーワードとその関連度に基づいて、適合文書の各文章について検索条件との間の関連度を計算し、関連度の大きい文章から順に所定の長さ以上になるまで、文書に現れる順番を保ったまま文を抽出していく。文章の関連度は、その文章に含まれている関連キーワードの関連度の合計値である。そして、抽出する文章の最低限の長さは、元の適合文書のテキスト量に対する比率で表わされる固定値である。この値を要約率とよぶことにする。この例では、抽出文の長さの合計が要約率に対応する長さを超えるまで文章を抽出する。もちろん、抽出文の長さの合計が要約率に対応する長さ以内に収まるように文章を抽出するようにしてもよい。この例では要約率を10%とした。
【0039】
関連箇所抽出手段5は図6に示すように例えばスコア算出手段10、ソート手段11、文章抽出手段12、抽出打ち切り手段13、出力順序付け手段14を含んで構成されている。スコア算出手段10は、文章ごとに関連キーワードの関連度を累積してスコアを算出する。ソート手段11は文章をスコア順にソートする。文章抽出手段12はスコアの高い順に文章を抽出する。抽出打ち切り手段13は、閾値を上回るスコアの文章がなくなったら文章抽出を打ち切る。また、抽出した文章の分量が所定量を超えた場合には、その時点の文章を抽出した後それ以降の文章の抽出をやめる。出力順序付け手段14は抽出した文章の原文における並び順(文章のID)に基づいて文章を並べる。この並びで文章が関連箇所出力手段6から出力される。
【0040】
図1において関連箇所出力手段6は、関連箇所抽出手段5から求まる文章を、検索結果としてユーザに対して表示する。
【0041】
具体的な検索例について説明する。ここでは用語集(株式会社自由国民社の現代用語の基礎知識1998年版)の各項目を検索対象として、発電に関する話題を検索する状況を想定する。
【0042】
検索条件として、キーワード「発電」を説明文中に含む項目を検索した。完全一致検索のヒット件数は図7に示すように61件であった。
【0043】
そして、図7に7番目にリストされた、「太陽電池」の項目(文書)の関連箇所(要約)を抽出し、表示することを考える。「太陽電池」についての関連キーワードおよび関連度(スコア)は図8に示すとおりであった。
【0044】
そこで、図9に示す「太陽電池」の項目に含まれる全文章を文章ごとに区切り、それぞれのスコアを図10に示すように計算する。すなわち、文章ごとに、関連キーワードを抽出しその関連度を累積して対象文章のスコアとする。図10の例では、最初の文章のスコアが「689652」であり、以降、「0」、「0」、「569826」、「344826」…となる。
【0045】
つぎに関連度の大きい順に文章を抽出していく。この例では9番目と1番目の文章を抽出した時点の要約率10%を超え、文章の抽出を打ち切る。この後、抽出した文章をその出現順に並べて出力する。出力結果は図11に示すとおりとなる。
【0046】
図11で示す要約において、関連キーワードとしては、「エネルギー」や「エネルギー利用」といったキーワード(説明上図に矢印で示す)が高い関連度をもっていた。
【0047】
検索条件で与えたキーワード「発電」は、図9に示す全文には含まれているが、出力された要約(図11)には含まれていないことが分かる。「太陽電池」の項目を読むと、「発電」ということばは、太陽電池から取り出される電力が交流であると説明している文に使われているが、太陽電池の動作の説明には使われていない。その代わり動作の説明には、「エネルギーの変換」ということばが使われている。検索意図が、厳密に「発電」するものに対してではなく、広く電力を取り出す方法について知りたいという場合、出力された関連箇所はこの検索意図に合致する部分を含んでいる。これは単に検索条件に含まれている単語を含む文を出力した場合には決して得られない効果である。
【0048】
なお、関連度の計算式として、上記の式に限らず、たとえば、
【0049】
【数2】
Rw(α,β)=α/β
Rw(α,β)=α2/log2(β)
など、αとβを引数とする各種の計算式を適用することができる。要するに、関連文書と関連キーワードとの相関を規定する他の式を用いることができる。
【0050】
なお関連度の大きい順に文章を並べて要約としてもよい。
【0051】
[実施例2]
つぎに、本発明の実施例2について説明する。実施例2は、先に説明した実施例1の関連度に基づいて文書を検索し、さらに検索した文書の要約を同様に関連度に基づいて抽出するものである。図2はこの実施例2の構成を全体として示すものであり、この図において図1と対応する箇所には対応する符合を付して詳細な説明を省略する。
【0052】
図2において、文書情報格納手段1、検索条件取得手段2、適合文書検索手段3および関連キーワード計算手段4は、図1の実施例1と同じである。
【0053】
関連文書検索手段7は、関連キーワード計算手段4から求まる関連キーワードとその関連度に基づいて、文書情報格納手段1から関連文書を検索する。関連文書は関連キーワードを少なくとも一つ含む文書である。また、関連文書の関連度として、その文書に含まれる関連キーワードの関連度を合計した値を計算する。そして、関連文書はその関連度にしたがって順位付けされ、関連度上位から所定の文書数以下で、所定の関連度以上の値をもつ関連文書が、関連度の高い順に検索される。
【0054】
関連箇所抽出手段5は、適合文書の代わりに関連文書から文を抽出する他は、実施例1と同じである。関連箇所出力手段6は、実施例1と同じである。
【0055】
この実施例では、単にキーワードを用いて検索するのみでなく、キーワードの関連度も考慮しながら検索を行っているのでより検索の意図に合致した項目を検索することができる。そしてこの項目の全文から検索の意図に合致した要約を抽出することができる。
【0056】
[実施例3]
つぎに、本発明の実施例3について説明する。実施例3は、先に説明した実施例1においてヒットした項目の要約を出力するのみでなく、さらにその全文も表示できるようにしたものである。図3はこの実施例3の構成を全体として示すものであり、この図において図1と対応する箇所には対応する符合を付して詳細な説明を省略する。
【0057】
図3において、文書情報格納手段1、検索条件取得手段2、適合文書検索手段3、関連キーワード計算手段4、関連箇所出力手段5は、実施例1と同じである。
【0058】
文書出力手段8は、関連箇所出力手段5に対応する適合文書の全文を、文書情報格納手段1から求めて表示し、さらに関連箇所に対応する部分を強調表示する。表示の具体例を図12に示す。
【0059】
[実施例4]
つぎに本発明の実施例4について説明する。この実施例は実施例3と同様に要約文と全文とを出力できるようにしたものである。基本的な構成は実施例3と同様であり、その構成についてはとくに図示しない。
【0060】
この実施例においては、関連箇所出力手段6および文書出力手段8が、特定の値以上の関連度をもつ関連キーワードについて、それらの関連キーワードが出力に含まれている場合には下線をつけて強調表示する。表示の具体例を図12および図13に示す。
【0061】
[実施例5]
つぎに本発明の実施例5について説明する。この実施例は、文書情報格納手段1に格納されている1または複数の文書を指定し、この1または複数の文書と関連する文書を検索するものである。図4はこの実施例5の構成を全体として示すものである。なお、図5において図1または図2と対応する箇所には対応する符合を付して詳細な説明を省略する。
【0062】
図5において、ユーザは文書情報格納手段1に格納されている1または複数の文書を指定する。検索条件取得手段2は、指定された1または複数の文書IDを入力として受け取る。文書情報格納手段1および関連箇所出力手段6は、実施例1と同じである。関連キーワード計算手段4は、適合文書の代わりに検索条件取得手段2が受け取った文書を用いる他は実施例1と同じである。関連文書検索手段7および関連箇所抽出手段5は、実施例2と同じである。
【0063】
この実施例においては、検索条件取得手段2で指定された文書IDに基づいて関連キーワード計算手段4が文書IDで指定された文書のいずれかに含まれるキーワードを関連キーワードとし、その関連度を計算する。この場合、先に説明した関連度の式Rw(α,β)について、検索条件取得手段2に入力した文書IDで規定される1または複数の文書の中で、その関連キーワードを少なくとも一つ含む文書の数をαとし、文書情報格納手段1に格納されているすべての文書の中で、その関連キーワードを少なくとも一つ含む文書の数βとを変数とする。
【0064】
関連文書検索手段7は、文書情報格納手段1に格納されている文書の各々について、それに含まれるキーワードの関連度を累積し、それら文書を関連度にしたがって順位付けし、関連度上位から所定の文書数以下で、所定の関連度以上の値をもつ文書を、検索結果とする。
【0065】
この実施例では、文書を指定しその文書と関連する文書を検索することができる。また、この実施例では、実施例1や実施例2で検索したえた文書のうち1つまたは複数のものを指定し関連する文書を検索することができる。もちろんこの実施例の検索で得た関連文書に基づいて検索を行うことができる。このように事前に行った検索結果をもとに繰り返し検索を行える。この際、検索結果から所望のもののみを指定するようにすれば、検索を最適化することができる。
【0066】
[実施例6]
つぎに本発明の実施例6について説明する。この実施例は、実施例5が文書情報格納手段1に格納されている文書を指定して関連ある文書を検索したのに対し、自然文を入力し、この自然文に関連する文書を検索するようにしたものである。
【0067】
基本的な構成は実施例5と同様であり、図示しない。
【0068】
この実施例では、検索条件取得手段2は、検索要求を表現した自然文を受け取る。検索条件取得手段2は自然文について形態素解析をしてキーワードの切り出しを行う。自然文を構成する文章は1つでもよいし、複数でもよい。文章として完結していなくてもよい。この切り出しには通常のパーザーを用いることができる。関連キーワード計算手段4は、切り出したキーワードについて関連度を計算し、これらキーワードの関連度に基づいて文書を選択し関連文書とする。
【0069】
関連文書抽出手段5は、選択した関連文書の各々についてキーワードの関連度に基づいて要約を抽出する。
【0070】
この実施例によれば、自然文を用いた検索を行え、しかも自然文は検索者の検索意図を的確に表していると考えられるから、検索意図に適合した文書を検索することができる。
【0071】
なお、自然文から関連キーワードを生成する代りに、シソーラス辞書を用い入力した言葉から関連キーワードを生成するようにしてもよい。
【0072】
【発明の効果】
以上のように本発明によれば、
(1)検索結果の文書の内容の中から検索条件に関連する箇所が出力される
(2)出力される関連箇所は、検索条件として明示的に指定されたキーワードだけから求めるのではなく、検索条件に関連する関連キーワードから求めるために、指定されたキーワードの近傍以外の箇所であっても検索意図に近い箇所が出力される
(3)出力される関連箇所は、関連度をもつ関連キーワードに基づいて抽出されるため、関連箇所の中から常に所定の量のテキストが出力される
(4)ユーザの興味に関する情報をユーザごとにあらかじめ用意しておく必要はない
という効果を実現することができる。
【図面の簡単な説明】
【図1】 本発明の実施例1の構成を示すブロック図である。
【図2】 本発明の実施例2の構成を示すブロック図である。
【図3】 本発明の実施例1の構成を示すブロック図である。請求項3に基づく本発明の構成を示すブロック図
【図4】 本発明の実施例1の構成を示すブロック図である。請求項6に基づく本発明の構成を示すブロック図
【図5】 本発明の実施例1の文書情報格納手段1を説明する図である。
【図6】 本発明の実施例1の関連箇所抽出手段5の構成例を説明するブロック図である。
【図7】 検索でヒットした文書のリストを示す図である。
【図8】 関連キーワードのスコアを説明する図である。
【図9】 検索でヒットした1文書「太陽電池」の全文を示す図である。
【図10】 検索でヒットした1文書「太陽電池」に確聞のスコアを説明する図である。
【図11】 出力された関連箇所の例を示す図である。
【図12】 関連箇所の表示態様を説明する図である。
【図13】 文書全文の表示態様を説明する図である。
【符号の説明】
1 文書情報格納手段
2 検索条件取得手段
3 適合文書検索手段
4 関連キーワード計算手段
5 関連箇所抽出手段
6 関連箇所出力手段
7 関連文書検索手段
8 文書出力手段
10 スコア算出手段
11 ソート手段
12 文章抽出手段
13 抽出打ち切り手段
14 出力順序付け手段
100 コンピュータシステム
101 記録媒体

Claims (11)

  1. 入力された検索条件に適合する文書を検索する文書検索装置において、
    複数の文書を、各文書から抽出されたキーワードと対応づけて格納する文書情報格納手段と、
    検索条件を受け取る検索条件取得手段と、
    前記文書情報格納手段に格納されている文書を対象として、前記検索条件取得手段が受け取った検索条件に適合する適合文書を検索する適合文書検索手段と、
    前記適合文書検索手段で検索された適合文書に対応して前記文書情報格納手段に格納されているキーワードを関連キーワードとして求め、前記関連キーワードの各々について前記適合文書の中で該関連キーワードを含んでいる文書の数と、前記文書情報格納手段に格納されている文書の中で該関連キーワードを含んでいる文書の数とを変数とする計算式に基づいて、前記検索条件取得手段が受け取った検索条件と該関連キーワードとの間の第1の関連度を算出する関連キーワード計算手段と、
    前記関連キーワード計算手段から得られる関連キーワードとその第1の関連度に基づいて、前記適合文書の各文章について、前記各文章と前記検索条件との間の第2の関連度を算出し、前記第2の関連度が所定の閾値より大きい文章を前記適合文書に現れる順番を保ったまま、前記適合文書から文章を抽出する関連箇所抽出手段と、
    前記関連箇所抽出手段によって抽出された文章を出力する関連箇所出力手段とを有することを特徴とする文書検索装置。
  2. 入力された検索条件に関連する文書を検索する文書検索装置において、
    複数の文書を、各文書から抽出されたキーワードと対応づけて格納する文書情報格納手段と、
    検索条件を受け取る検索条件取得手段と、
    前記文書情報格納手段に格納されている文書を対象として、前記検索条件取得手段が受け取った検索条件に適合する適合文書を検索する適合文書検索手段と、
    前記適合文書検索手段で検索された適合文書に対応して前記文書情報格納手段に格納されているキーワードを関連キーワードとして求め、前記関連キーワードの各々について前記適合文書の中で該キーワードを含んでいる文書の数と、前記文書情報格納手段に格納されている文書の中で該キーワードを含んでいる文書の数とを変数とする計算式に基づいて、前記検索条件取得手段が受け取った検索条件と該キーワードとの間の第1の関連度を算出し、関連キーワードとその第1の関連度を求める関連キーワード計算手段と、
    前記関連キーワード計算手段から得られる関連キーワードとその第1の関連度に基づいて、前記文書情報格納手段に格納されている文書を対象として、前記検索条件に関連する関連文書を検索する関連文書検索手段と、
    前記関連キーワード計算手段から得られる関連キーワードとその第1の関連度に基づいて、前記関連文書検索手段から得られる関連文書の各文章について、前記各文章と前記検索条件との間の第2の関連度を算出し、前記第2の関連度が所定の閾値より大きい文章を前記適合文書に現れる順番を保ったまま、前記関連文書から文章を抽出する関連箇所抽出手段と、
    前記関連箇所抽出手段によって抽出された文章を出力する関連箇所出力手段とを有することを特徴とする文書検索装置。
  3. 入力された検索条件に関連する文書を検索する文書検索装置において、
    複数の文書を、各文書から抽出されたキーワードと対応づけて格納する文書情報格納手段と、
    検索条件を受け取る検索条件取得手段と、
    前記文書情報格納手段に格納されているキーワードの中から、第1の関連度を判断する対象とすべき関連キーワードを特定し、前記文書情報格納手段に格納されている文書の中で関連キーワードを含んでいる文書の数を変数とする計算式に基づいて、前記検索条件取得手段が受け取った検索条件と関連キーワードとの間の第1の関連度を算出する関連キーワード計算手段と、
    前記文書情報格納手段に格納されている文書を対象として、前記関連キーワード計算手段から得られる関連キーワードとその第1の関連度に基づいて、前記検索条件取得手段が受け取った検索条件に関連する関連文書を検索する関連文書検索手段と、
    前記関連キーワード計算手段から得られる関連キーワードとその第1の関連度に基づいて、前記関連文書検索手段から得られる関連文書の各文章について、前記各文章と前記検索条件との間の第2の関連度を算出し、前記第2の関連度が所定の閾値より大きい文章を前記適合文書に現れる順番を保ったまま、前記関連文書から文章を抽出する関連箇所抽出手段と、
    前記関連箇所抽出手段によって抽出された文章を出力する関連箇所出力手段とを有することを特徴とする文書検索装置。
  4. 前記検索条件取得手段は、前記文書情報格納手段に格納されている一つあるいは複数の文書を入力として受け取り、
    前記関連キーワード計算手段は、前記検索条件取得手段が受け取った文書に含まれる言葉を関連キーワードとし、前記検索条件取得手段が受け取った検索条件と関連キーワードとの間の第1の関連度を、前記文書の中で該関連キーワードを含む文書の数と、前記文書情報格納手段に格納されている文書の中の該関連キーワードを含む文書の数とを変数とする計算式に基づいて算出する請求項3記載の文書検索装置。
  5. 前記検索条件取得手段は、自然文を入力として受け取り、
    前記関連キーワード計算手段は、前記文書情報格納手段に格納されているキーワードの中から、前記検索条件取得手段が受け取った自然文に含まれる言葉を関連キーワードとする請求項3記載の文書検索装置。
  6. 前記関連文書検索手段から検索された関連文書を、前記関連箇所出力手段から出力される文章と対応づけて出力する文書出力手段を有する請求項1から5のいずれか一項に記載の文書検索装置。
  7. 前記関連箇所出力手段および前記文書出力手段は、
    それらの出力に含まれる、前記関連キーワード計算手段から得られる関連キーワードの出力の形態を、該関連キーワードの第1の関連度に応じて変える請求項1から6のいずれか一項に記載の文書検索装置。
  8. 前記関連箇所抽出手段は第2の関連度の高い文章から抽出し、抽出した文章の累積量が所定の分量を上回ったときに文章の抽出を打ち切ることを特徴とする請求項1から7のいずれか一項に記載の文書検索装置。
  9. 入力された検索条件に適合する文書を検索する文書検索方法において、
    文書情報格納手段が、複数の文書を、各文書から抽出されたキーワードと対応づけて格納するステップと、
    検索条件取得手段が検索条件を受け取るステップと、
    適合文書検索手段が、前記文書情報格納手段が格納している文書を対象として、前記検索条件取得手段が受け取った検索条件に適合する適合文書を検索するステップと、
    関連キーワード計算手段が、前記適合文書検索手段で検索された適合文書に対応して前記文書情報格納手段が格納しているキーワードを関連キーワードとして求め、前記関連キーワードの各々について前記適合文書の中で該関連キーワードを含んでいる文書の数と、前記文書情報格納手段に格納されている文書の中で該関連キーワードを含んでいる文書の数とを変数とする計算式に基づいて、前記検索条件取得手段が受け取った検索条件と該関連キーワードとの間の第1の関連度を算出するステップと、
    関連箇所抽出手段が、前記関連キーワード計算手段から得られる関連キーワードとその第1の関連度に基づいて前記適合文書の各文章について、前記各文章と前記検索条件との間の第2の関連度を算出し、前記第2の関連度が所定の閾値より大きい文章を前記適合文 書に現れる順番を保ったまま、前記適合文書から文章を抽出するステップと、
    関連箇所出力手段が、前記関連箇所抽出手段によって抽出された文章を出力するステップとを有することを特徴とする文書検索方法。
  10. 入力された検索条件に関連する文書を検索する文書検索方法において、
    文書情報格納手段が、複数の文書を、各文書から抽出されたキーワードと対応づけて格納するステップと、
    検索条件取得手段が、検索条件を受け取るステップと、
    適合文書検索手段が、前記文書情報格納手段が格納している文書を対象として、前記検索条件取得手段が受け取った検索条件に適合する適合文書を検索するステップと、
    関連キーワード計算手段が、前記適合文書検索手段で検索された適合文書に対応して前記文書情報格納手段が格納しているキーワードを関連キーワードとして求め、前記関連キーワードの各々について前記適合文書の中で該キーワードを含んでいる文書の数と、前記文書情報格納手段に格納されている文書の中で該キーワードを含んでいる文書の数とを変数とする計算式に基づいて、前記検索条件取得手段が受け取った検索条件と該キーワードとの間の第1の関連度を算出し、関連キーワードとその第1の関連度を求めるステップと、
    関連文書検索手段が、前記関連キーワード計算手段から得られる関連キーワードとその第1の関連度に基づいて、前記文書情報格納手段に格納されている文書を対象として、前記検索条件に関連する関連文書を検索するステップと、
    関連箇所抽出手段が、前記関連キーワード計算手段から得られる関連キーワードとその第1の関連度に基づいて、前記関連文書検索手段から得られる関連文書の各文章について、前記各文章と前記検索条件との間の第2の関連度を算出し、前記第2の関連度が所定の閾値より大きい文章を前記適合文書に現れる順番を保ったまま、前記関連文書から文章を抽出するステップと、
    関連箇所出力手段が、前記関連箇所抽出手段によって抽出された文章を出力するステップとを有することを特徴とする文書検索方法。
  11. 入力された検索条件に関連する文書を検索する文書検索方法において、
    文書情報格納手段が、複数の文書を、各文書から抽出されたキーワードと対応づけて格納するステップと、
    検索条件取得手段が、検索条件を受け取るステップと、
    関連キーワード計算手段が、前記文書情報格納手段に格納されているキーワードの中から、第1の関連度を判断する対象とすべき関連キーワードを特定し、前記文書情報格納手段に格納されている文書の中で関連キーワードを含んでいる文書の数を変数とする計算式に基づいて、前記検索条件取得手段が受け取った検索条件と関連キーワードとの間の第1の関連度を算出するステップと、
    関連文書検索手段が、前記文書情報格納手段が格納している文書を対象として、前記関連キーワード計算手段から得られる関連キーワードとその第1の関連度に基づいて、前記検索条件取得手段が受け取った検索条件に関連する関連文書を検索するステップと、
    関連箇所抽出手段が、前記関連キーワード計算手段から得られる関連キーワードとその第1の関連度に基づいて、前記関連文書検索手段から得られる関連文書の各文章について、前記各文章と前記検索条件との間の第2の関連度を算出し、前記第2の関連度が所定の閾値より大きい文章を前記適合文書に現れる順番を保ったまま、前記関連文書から文章を抽出するステップと、
    関連箇所出力手段が、前記関連箇所抽出手段によって抽出された文章を出力するステップとを有することを特徴とする文書検索方法。
JP25766599A 1999-09-10 1999-09-10 文書検索装置および方法 Expired - Fee Related JP3918374B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP25766599A JP3918374B2 (ja) 1999-09-10 1999-09-10 文書検索装置および方法
US09/645,882 US7181688B1 (en) 1999-09-10 2000-08-25 Device and method for retrieving documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25766599A JP3918374B2 (ja) 1999-09-10 1999-09-10 文書検索装置および方法

Publications (3)

Publication Number Publication Date
JP2001084255A JP2001084255A (ja) 2001-03-30
JP2001084255A5 JP2001084255A5 (ja) 2004-10-28
JP3918374B2 true JP3918374B2 (ja) 2007-05-23

Family

ID=17309412

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25766599A Expired - Fee Related JP3918374B2 (ja) 1999-09-10 1999-09-10 文書検索装置および方法

Country Status (2)

Country Link
US (1) US7181688B1 (ja)
JP (1) JP3918374B2 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4062908B2 (ja) * 2001-11-21 2008-03-19 株式会社日立製作所 サーバ装置および画像表示装置
US7177817B1 (en) * 2002-12-12 2007-02-13 Tuvox Incorporated Automatic generation of voice content for a voice response system
US7657423B1 (en) * 2003-10-31 2010-02-02 Google Inc. Automatic completion of fragments of text
JP4972271B2 (ja) * 2004-06-04 2012-07-11 株式会社日立製作所 検索結果提示装置
JPWO2005121982A1 (ja) * 2004-06-14 2008-04-10 日本電気株式会社 情報提供システム、方法、プログラム、情報通信端末、および情報表示切り替えプログラム
US7392253B2 (en) * 2005-03-03 2008-06-24 Microsoft Corporation System and method for secure full-text indexing
EP1899937A4 (en) * 2005-07-07 2010-09-15 Sermo Inc METHOD AND DEVICE FOR MANAGING INFORMATION BROKERAGE SERVICE
JP2007072646A (ja) * 2005-09-06 2007-03-22 Internatl Business Mach Corp <Ibm> 検索装置、検索方法およびプログラム
JP2007188225A (ja) * 2006-01-12 2007-07-26 Yafoo Japan Corp 要約文抽出システム
US8332386B2 (en) * 2006-03-29 2012-12-11 Oracle International Corporation Contextual search of a collaborative environment
US10083420B2 (en) 2007-11-21 2018-09-25 Sermo, Inc Community moderated information
KR100931693B1 (ko) 2007-12-11 2009-12-14 주식회사 다음커뮤니케이션 키워드 검색 방법
JP2009217406A (ja) * 2008-03-07 2009-09-24 Nec Corp 文書検索装置及び方法、並びに、プログラム
WO2011071174A1 (ja) * 2009-12-10 2011-06-16 日本電気株式会社 テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラム
JP5884740B2 (ja) * 2011-02-15 2016-03-15 日本電気株式会社 時系列文書要約装置、時系列文書要約方法および時系列文書要約プログラム
JP5954742B2 (ja) * 2013-07-23 2016-07-20 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文書を検索する装置及び方法
JP7226783B2 (ja) * 2019-03-20 2023-02-21 俊幸 常本 情報処理システム、情報処理方法及びプログラム
JP7409102B2 (ja) * 2020-01-16 2024-01-09 京セラドキュメントソリューションズ株式会社 情報処理装置及び画像形成装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5408655A (en) * 1989-02-27 1995-04-18 Apple Computer, Inc. User interface system and method for traversing a database
JP2957875B2 (ja) 1993-03-17 1999-10-06 株式会社東芝 文書情報検索装置及び文書検索結果表示方法
JP3489219B2 (ja) * 1994-09-20 2004-01-19 富士ゼロックス株式会社 文書処理装置および文書処理方法
US5704060A (en) * 1995-05-22 1997-12-30 Del Monte; Michael G. Text storage and retrieval system and method
US5983237A (en) * 1996-03-29 1999-11-09 Virage, Inc. Visual dictionary
JP3099756B2 (ja) 1996-10-31 2000-10-16 富士ゼロックス株式会社 文書処理装置、単語抽出装置及び単語抽出方法
GB2331166B (en) * 1997-11-06 2002-09-11 Ibm Database search engine
JP3579204B2 (ja) 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
JP3385913B2 (ja) 1997-05-27 2003-03-10 富士ゼロックス株式会社 関連語提示装置及び関連語提示用プログラムを記録した媒体
JPH10340271A (ja) 1997-06-09 1998-12-22 Fuji Xerox Co Ltd 文書抄録作成装置及び文書抄録作成プログラムを記録した記憶媒体
US6029167A (en) * 1997-07-25 2000-02-22 Claritech Corporation Method and apparatus for retrieving text using document signatures
JP4021525B2 (ja) 1997-07-28 2007-12-12 株式会社ジャストシステム 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP3652086B2 (ja) 1997-10-22 2005-05-25 株式会社日立製作所 速読支援装置
US6006225A (en) * 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6516312B1 (en) * 2000-04-04 2003-02-04 International Business Machine Corporation System and method for dynamically associating keywords with domain-specific search engine queries

Also Published As

Publication number Publication date
JP2001084255A (ja) 2001-03-30
US7181688B1 (en) 2007-02-20

Similar Documents

Publication Publication Date Title
JP3918374B2 (ja) 文書検索装置および方法
CN103136352B (zh) 基于双层语义分析的全文检索系统
JP4241934B2 (ja) テキスト処理及び検索システム及び方法
US6662152B2 (en) Information retrieval apparatus and information retrieval method
KR101040119B1 (ko) 콘텐츠 검색 장치 및 방법
US7213205B1 (en) Document categorizing method, document categorizing apparatus, and storage medium on which a document categorization program is stored
US20050203900A1 (en) Associative retrieval system and associative retrieval method
US20040098385A1 (en) Method for indentifying term importance to sample text using reference text
Capstick et al. A system for supporting cross-lingual information retrieval
JP3198932B2 (ja) 文書検索装置
JP2003281183A (ja) 文書情報検索装置、文書情報検索方法及び文書情報検索プログラム
Billerbeck et al. Techniques for efficient query expansion
JP2004334766A (ja) 単語分類装置、単語分類方法及び単語分類プログラム
JP2003150624A (ja) 情報抽出装置および情報抽出方法
JP2004192546A (ja) 情報検索方法、装置、プログラム、および記録媒体
KR102428046B1 (ko) 유사 발명 기술 문서를 통합한 가상 복합 기술문서를 이용한 발명 기술 검색 시스템 및 방법
Hu et al. Intelligent information retrieval applying automatic constructed fuzzy ontology
JP2002288189A (ja) 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体
Souza et al. Extraction of keywords from texts: an exploratory study using Noun Phrases
JP3985483B2 (ja) 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体
JP4452527B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
JP2005234772A (ja) 文書管理装置および方法
Yang et al. Personalized multi-document summarization in information retrieval
Reddy et al. Cross lingual information retrieval using search engine and data mining

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061031

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070205

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110223

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120223

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130223

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130223

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140223

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees