JP3173411B2 - 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体 - Google Patents

関連文書検索装置及び関連文書検索プログラムを記録した記録媒体

Info

Publication number
JP3173411B2
JP3173411B2 JP06261097A JP6261097A JP3173411B2 JP 3173411 B2 JP3173411 B2 JP 3173411B2 JP 06261097 A JP06261097 A JP 06261097A JP 6261097 A JP6261097 A JP 6261097A JP 3173411 B2 JP3173411 B2 JP 3173411B2
Authority
JP
Japan
Prior art keywords
search
document
keyword
value
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP06261097A
Other languages
English (en)
Other versions
JPH10260972A (ja
Inventor
博 増市
宏 梅基
昌一 舘野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP06261097A priority Critical patent/JP3173411B2/ja
Priority to US09/041,620 priority patent/US6076086A/en
Publication of JPH10260972A publication Critical patent/JPH10260972A/ja
Application granted granted Critical
Publication of JP3173411B2 publication Critical patent/JP3173411B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は関連文書検索装置及
び関連文書検索プログラムを記録した記録媒体に関し、
特に検索式とキーワードとの間の類似関係を考慮して関
連文書検索を行う関連文書検索装置及びコンピュータを
検索式とキーワードとの間の類似関係を考慮した関連文
書検索装置として機能させるための関連文書検索プログ
ラムを記録した記録媒体に関する。
【0002】
【従来の技術】膨大な量の文書を対象とした検索システ
ムでは、一般にキーワードによる検索方式が用いられて
いる。検索条件として任意のキーワード(検索語)を検
索システムに入力すると、文書内容に検索語を含む全て
の文書が検索結果として得られる。この方式による検索
は、全文検索と呼ばれている。また、各文書に対して検
索用のキーワードを予め付加しておき、入力された検索
語と一致するキーワードが付加された文書を検索結果と
する方式も広く用いられている。
【0003】ところが、上記の検索システムでは、ユー
ザによって入力された検索語と完全に一致する語を含ん
でいる文書か、あるいは、検索語と完全に一致する語が
検索用のキーワードとして付加されている文書しか検索
結果として得ることができない。したがって、これらの
検索システムでは、検索語とキーワード間の完全一致が
要求されるため、ユーザが求める全ての文書を網羅的に
得ることができるものであるとはいえない。そこで、ユ
ーザから入力された検索語に完全一致する検索結果のみ
を出力するのではなく、検索語の要請する検索結果に意
味的に類似する検索結果をも併せて出力する、いわゆる
関連文書検索の技術が提案されている。
【0004】関連文書検索は、単語間に、類似度と呼ば
れる「類似性を何らかの尺度で定量化した値」を設定す
ることによって実現できる。ユーザから検索語が入力さ
れると、検索語との間で類似度の値が高く設定されてい
る語(類似語)を多く含む文書(適合度が高い文書)を
出力することによって関連文書検索が実現できる。関連
文書検索は、完全一致型の検索と比較して、 (1)より漏れの少ない検索が可能となる。 (2)検索結果を適合度順に出力できる。 といった利点がある。
【0005】ところで、一般のキーワード検索システム
では、検索語を”and”、”or”等の論理演算子で
繋げた検索式を用いて検索を行う。したがって、関連文
書検索を検索システムで実際に利用するためには、単一
の検索語ではなく、検索式に対応した類似度計算を行う
必要が生じる。すなわち、「検索式と文書の間の類似
度」の計算を実現する必要がある。以下の説明では、
「検索式と文書の間の類似度」を関連度と呼ぶことにす
る。
【0006】検索式に対応した関連度計算を行うことに
よって関連文書検索を実現する従来技術として、「特開
平2−41564号公報」に記載された発明を挙げるこ
とができる。例えば、「word1」「word2」「word3」
をキーワードであるとし、検索式が「( word1)or
(word2)or(word3)」の場合の、上記発明におけ
る関連文書検索の手順は以下の通りである。
【0007】第1の手順として、あらかじめ全てのキー
ワードの2項間に類似度を設定しておく。ここで、キー
ワード「worda」と「wordb」の間の類似度をS(a,
b)(=S(b,a))と表すものとする。
【0008】第2の手順として、文書Diに含まれるキ
ーワード群{wordi1 ,wordi2 ,・・・,wordim
と「word1」「word2」「word3」の各キーワード間の
類似度Ri1 ,Ri2 ,Ri3 を、次式によって求め
る。
【0009】
【数1】
【0010】第3の手順として、文書Diと検索式
「(word1)or(word2)or(word3)」との関連
度Kiを次式によって求める。
【0011】
【数2】
【0012】第4の手順として、文書Diに対する第2
の手順及び第3の手順の処理を、全ての検索対象文書に
ついて行い、Kiの値の大きいものに対応する文書Di
から順に出力する。
【0013】以上の手順によって、検索式「(word1)
or(word2)or(word3)」に完全一致する文書の
みでなく検索式に類似する文書も含めて、関連度順に検
索結果の出力を行うことが可能となる。
【0014】
【発明が解決しようとする課題】しかし、従来の関連文
書検索技術では、単語の2項関係に予め設定された類似
度に基づいて関連度の計算を行っているため、以下のよ
うな問題点があり、実用的な関連文書検索を行うことが
困難である。
【0015】第1の問題点は、検索式の論理式による結
合関係を反映した検索結果が得られないことである。す
なわち、単語の2項関係に対して定義された類似度に基
づいて関連度(「検索式と文書の間の類似度」)の計算
を行った場合、検索式中の各キーワードの論理演算子に
よる結合関係を関連度に反映させるためには、2単語間
の類似度値に対して代数計算を施すことによって類似度
計算を行うしか方法がない。しかしながら、検索式中の
各キーワードの結合関係一般を、代数計算によって表現
することは困難である。したがって、単語の2項関係に
対する類似度値のみからは、論理演算子によって結合さ
れた検索式に対する適切な関連文書検索結果を得ること
ができない。
【0016】例えば、検索式として「(飛行機)or
(航空機)or(旅客機)or(船)」が与えられた場
合を考える。従来の関連文書検索技術では、「飛行
機」、「航空機」、「旅客機」、「船」の各キーワード
に対応する類似度の値の和を求めることによって、検索
式「(飛行機)or(航空機)or(旅客機)or
(船)」と各文書の間の関連度を決定する。この計算方
法によれば、「飛行機」「航空機」「旅客機」「船」の
それぞれに対応する類似度の値は等しく取り扱われるこ
とになる。すると、「飛行機」「航空機」および「旅客
機」の類似語(類似度の値の高い語)は共通するものが
多いため、関連文書検索の結果は、キーワード「飛行
機」(「航空機」「旅客機」)に関連する文書が多くな
り、「船」と関連する文書は少なくなってしまう。すな
わち、ユーザがたまたま同義語として多くの語を思い浮
かべることができた語ほど、関連度に極端に大きな影響
を与える結果となってしまう。
【0017】また、検索式として「(飛行機)or
(船)」が与えられた場合の例を考える。従来の関連文
書検索技術では、「飛行機」、「船」の各キーワードに
対応する類似度の値の和を求めることによって、検索式
「(飛行機)or(船)」と各文書の間の関連度を決定
する。したがって、関連文書検索の結果は、「飛行機」
あるいは「船」のいずれかに関連する文書よりも、「飛
行機」および「船」の両者に関連する文書が優先され
る。しかしながら、検索式「(飛行機)or(船)」
は、「飛行機」「船」のいずれかが含まれていることの
みを意味するものであって、「飛行機」「船」の両者に
関連性の高い文書を優先して検索結果とすることは適切
であるとはいえない。「飛行機」「船」の両者と関連度
の高い文書を優先的に検索結果とすることは、むしろ検
索式「(飛行機)and(船)」に対応するものと考え
ることができる。
【0018】第2の問題点は、検索式に含まれた書誌的
事項の指定を有効に活用した検索を行う事ができないこ
とである。すなわち、実際の検索システムで使用される
検索式は、キーワードのみではなく、各種書誌的事項の
指定も含むことが多い。従来の関連文書検索技術では、
予め設定された単語の2項関係のみに基づいて関連度を
決定する。したがって、関連度計算の対象と成り得る検
索式は、キーワードのみから構成されるものに限定され
てしまう。
【0019】例えば、検索式「(PD=1995010
1:19951231)and(FK=ゲーム)」によ
る関連文書検索を行った場合を考える。なお、この検索
式は、「1995年中に発行され、かつ、キーワード
「ゲーム」を含む文書集合」を意味するものとする。こ
の場合、関連文書検索の結果として望まれるのは、「1
995年中に発行され、かつ、ゲームについて書かれた
文書」と関連する文書であり、たとえ1994年に発行
された文書であっても検索結果として取得したい。
【0020】しかしながら、従来の関連文書検索技術で
は、このような検索式には対応できない。仮に、キーワ
ード「ゲーム」の関連文書を得た後に「1995年中に
発行された文書」という条件で絞り込んだとしても、
「年度にかかわらずゲームについて書かれた文書」と関
連する文書のうち、「1995年度に発行された文書」
が得られることになり、適切な関連文書検索結果となら
ない。
【0021】本発明はこのような点に鑑みてなされたも
のであり、検索式の論理式による結合関係を反映した関
連文書検索を行うことができる関連文書検索装置を提供
することを目的とする。
【0022】
【0023】
【課題を解決するための手段】本発明では上記課題を解
決するために、入力された検索条件に関連する文書を検
索する関連文書検索装置において、複数の文書を、各文
書から抽出された被抽出キーワードと対応づけて格納す
る文書情報格納手段と、複数の検索キーワードを論理演
算子で結合した検索式を受け取る検索式取得手段と、前
記文書情報格納手段に格納されている被抽出キーワード
の中から、類似度の判断対象とすべき複数の判断対象キ
ーワードを特定し、前記文書情報格納手段に格納されて
いる全ての文書の数である第1の値と、前記文書情報格
納手段に格納されている文書の中で、前記検索式取得手
段が受け取った検索式に適合する文書の数である第2の
値と、前記文書情報格納手段に格納されており、かつ前
記検索式取得手段が受け取った検索式に適合する文書の
中で、個々の判断対象キーワードを含んでいる文書の数
である判断対象キーワードごとの第3の値と、前記文書
情報格納手段に格納されている文書の中で、個々の判断
対象キーワードを含んでいる文書の数である判断対象キ
ーワードごとの第4の値とを計算する文書数計算手段
と、前記文書数計算手段が算出した第1の値、第2の
値、判断対象キーワードごとの第3の値及び判断対象キ
ーワードごとの第4の値を変数とする計算式に基づい
て、前記検索式取得手段が受け取った検索式と各判断対
象キーワードとの間の類似度を算出する類似度計算手段
と、各判断対象キーワードを被抽出キーワードとして有
している文書に関する関連文書情報を前記文書情報格納
手段から取得し、前記類似度計算手段から得られる判断
対象キーワードごとの類似度と前記関連文書情報とに基
づいて、前記検索式取得手段が受け取った検索式と前記
文書情報格納手段に格納されている各文書との間の関連
度を算出する関連度計算手段と、を有することを特徴と
する関連文書検索装置が提供される。
【0024】このような関連文書検索装置によれば、複
数の検索キーワードを論理演算子で結合した検索式をユ
ーザが入力すると、その検索式は検索式取得手段で受け
取られる。すると、文書数計算手段により、第1の値、
第2の値、判断対象キーワードごとの第3の値及び判断
対象キーワードごとの第4の値が算出される。次に、類
似度計算手段により、第1の値、第2の値、判断対象キ
ーワードごとの第3の値及び判断対象キーワードごとの
第4の値を変数とする計算式に基づいて、ユーザが入力
した検索式と各判断対象キーワードとの間の類似度が算
出される。そして、関連度計算手段により、ユーザが入
力した検索式と文書情報格納手段に格納されている各文
書との間の関連度が算出される。これにより、検索式と
各キーワードの間の類似度が直接的に求められ、検索式
の論理式による結合関係を反映した関連度が得られる。
【0025】
【0026】
【0027】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。図1は本発明の原理構成図であ
る。
【0028】文書情報格納手段1は、複数の文書を、各
文書から抽出された被抽出キーワードと対応づけて格納
する。なお、被抽出キーワードの中には、各文書の書誌
的事項を含めることができる。
【0029】検索式取得手段2は、複数の検索キーワー
ドを論理演算子で結合した検索式を受け取る。この検索
式において、書誌的事項の指定を論理演算子で結合して
もよい。
【0030】文書数計算手段3は、文書情報格納手段1
に格納された複数の被抽出キーワードの中から、類似度
の判断対象とすべき複数の判断対象キーワードを特定
し、検索式取得手段2が受け取った検索式に応じた各種
文書数として、以下に示す様な第1の値、第2の値、判
断対象キーワードごとの第3の値、及び判断対象キーワ
ードごとの第4の値を計算する。なお、判断対象キーワ
ードとしては、例えば、検索式に適合する文書から抽出
された被抽出キーワードを用いる。ただし、これに限ら
ず、利用者が任意に入力したキーワードを判断対象キー
ワードとしてもよい。
【0031】第1の値は、文書情報格納手段1に格納さ
れている全ての文書の数である。第2の値は、文書情報
格納手段1に格納されている文書の中で、検索式取得手
段2が受け取った検索式に適合する文書の数である。
【0032】判断対象キーワードごとの第3の値は、文
書情報格納手段1に格納されており、かつ検索式取得手
段2が受け取った検索式に適合する文書の中で、個々の
判断対象キーワードを含んでいる文書の数である。
【0033】判断対象キーワードごとの第4の値は、文
書情報格納手段1に格納されている文書の中で、個々の
判断対象キーワードを含んでいる文書の数である。類似
度計算手段4は、文書数計算手段3が算出した第1の
値、第2の値、判断対象キーワードごとの第3の値及び
判断対象キーワードごとの第4の値を変数とする計算式
に基づいて、検索式取得手段2が受け取った検索式と各
判断対象キーワードとの間の類似度を算出する。
【0034】関連度計算手段5は、各判断対象キーワー
ドを被抽出キーワードとして有している文書に関する関
連文書情報を文書情報格納手段1から取得し、類似度計
算手段4から得られる判断対象キーワードごとの類似度
と関連文書情報とに基づいて、検索式取得手段2が受け
取った検索式と文書情報格納手段1に格納されている各
文書との間の関連度を算出する。
【0035】このような関連文書検索装置によれば、ユ
ーザが複数の検索キーワードを論理演算子で結合した検
索式を入力すると、その検索式が検索式取得手段2で受
け取られる。すると、文書数計算手段3により、第1の
値、第2の値、判断対象キーワードごとの第3の値及び
判断対象キーワードごとの第4の値が計算される。次
に、類似度計算手段4により、検索式取得手段2が受け
取った検索式と各判断対象キーワードとの間の類似度が
算出される。そして、関連度計算手段5により、検索式
取得手段2が受け取った検索式と文書情報格納手段1に
格納されている各文書との間の関連度が算出される。
【0036】このようにして算出された関連度は、従来
の関連文書検索技術における2つの問題点を解決してい
る。それは以下のような理由による。すなわち、上記の
第1の問題点、第2の問題点は、キーワードの2項間の
類似度に基づいて関連度(「検索式と文書間の類似
度」)を計算する点に起因して生じるものである。これ
に対し、本発明では、検索式と各キーワードの間の類似
度を直接求めている。これによって、検索式の作成意図
に一致する文書を関連文書検索の結果として出力するこ
とが可能となる。
【0037】さらに、本発明では、検索式と各キーワー
ドの間の類似度を直接求めるものであるため、検索式に
各種書誌的事項を含んでいても、検索式とキーワード
(書誌的事項も含む)との間の類似度も的確に計算する
ことができる。したがって、書誌的事項を含んだ検索式
による関連文書検索を、的確に行うことができる。
【0038】なお、本発明の類似度計算手段4では、本
来単語間の類似度として用いる統計量である相互情報
量、Dice−coefficentおよびt−sco
reを拡張することによって、検索式と単語の間の類似
度計算を実現する。相互情報量、Dice−coeff
icentおよびt−scoreを単語間の類似度計算
に用いた例として、「春野,山崎:辞書と統計を用いた
対訳アライメント,情報処理学会自然言語処理研究会研
究報告,96−NL−112,pp.23−30(19
96)」、「大森,堤,中西:統計情報を用いた対訳単
語辞書の作成,言語処理学会第2回年次大会発表論文
集,pp.49−52(1996)」等を挙げることが
できる。
【0039】以下に、相互情報量などを本願発明に適用
するための拡張方法について説明する。単語word1
とword2の間の相互情報量(MI)は、
【0040】
【数3】
【0041】と定義される。ただし、全検索対象文書数
をM、word1とword2を共に含む文書数をa、
word1のみを含む文書数をb、word2のみを含
む文書数をcとした場合、
【0042】
【数4】
【0043】
【数5】
【0044】
【数6】
【0045】である。これに対して本発明では、検索式
Sと単語wordの間の相互情報量(MI0 )を、
【0046】
【数7】
【0047】と定義する。ただし、全検索対象文書数を
M、wordを含みかつ検索式Sから得られる文書の数
をa0 、検索式Sから得られる文書のうちwordを含
まない文書の数をb0 、wordを含む文書のうち検索
式Sから得られる文書を除いた文書の数をc0 とした場
合、
【0048】
【数8】
【0049】
【数9】
【0050】
【数10】
【0051】である。ここで、「M」が図1の説明中の
「第1の値」に相当し、「a0 +b0」が「第2の値」
に相当し、「a0 」が「第3の値」に相当し、「a0
0 」が「第4の値」に相当する。したがって、式
(7)は、
【0052】
【数11】
【0053】とすることにより、「第1の値」、「第3
の値」、「第3の値」及び「第4の値」を変数とする計
算式となる。相互情報量と同様に単語間の類似度を求め
る統計量として、Dice−coefficentおよ
びt−scoreを挙げることができる。Dice−c
oefficent(DC)およびt−score(T
S)は、
【0054】
【数12】
【0055】
【数13】
【0056】と定義される。これらについても、相互情
報量と同様に、検索式と単語の間の類似度計算するため
に以下のような拡張を施すことが可能である。
【0057】
【数14】
【0058】
【数15】
【0059】MI0 (S,word),DC0 (S,wor
d),TS0 (S,word)のいずれも、その値が大きい
ほど検索式Sと単語wordの間に高い類似性があるこ
とを意味する。以後、MI0 (S,word)を「拡張相互
情報量」、DC0 (S,word)を「拡張DC」、TS0
(S,word)を「拡張TS」と呼ぶこととする。なお、
相互情報量と同様に、拡張DCと拡張TSとをそれぞ
れ、
【0060】
【数16】
【0061】
【数17】
【0062】と表すことができる。式(16)から分か
るように、拡張DCを求める際には、全検索対象文書数
Mは不要である。ここで、例えば、利用者が日本から海
外へ渡航するための交通手段に関する文書を探している
場合を考える。この場合、利用者は、渡航手段を表すキ
ーワードを検索式として入力する。このとき、利用者が
たまたま飛行機関連のキーワードを多く思い浮かべるこ
とができたとすると、「(飛行機)or(航空機)or
(旅客機)or(船)」のような検索式が与えられるこ
とがある。なお、広範囲の文書の中から関連文書を検索
するには、なるべく多くのキーワードを検索式に含める
ことが望ましいため、船の類義語が思いつかないからと
いって、飛行機の類義語をキーワードから除外すべきで
はない。
【0063】上記の検索式が入力された場合の、本発明
による関連文書検索と従来の技術による関連文書検索と
の関連度計算の差違について、以下に説明する。図2
は、従来の技術と本発明における関連度計算の差異を示
した概念図である。(A)は従来の関連文書検索技術に
よる検索結果を示し、(B)は本発明に係る関連文書検
索技術による検索結果を示している。
【0064】従来の関連文書検索技術では、「飛行機」
「航空機」「旅客機」「船」の各キーワードを含む文書
(あるいは、各キーワードを含む文書から式(3)等に
よって得られる各キーワードの類似語を含む文書)をそ
れぞれ別個に求め、その後、和演算による代数的な関連
度計算を行う。その結果、(A)に示すように、「飛行
機」を含む文書集合11、「航空機」を含む文書集合1
2、「旅客機」を含む文書集合13、及び「船」を含む
文書集合14には、それぞれ重複した部分がある。重複
部分では、各キーワードごとに求められた関連度の総計
が、重複部分に含まれる文書と検索式との関連度とな
る。ところが、「飛行機」、「航空機」及び「旅客機」
の間では重複部分が多いため、「飛行機」に関連する文
書ほど関連度が高いと判断される。したがって、関連度
の値は、検索式の本来の意図とは無関係に、各キーワー
ドに対応する集合の重なりの大きい部分に依存して決定
されてしまう。
【0065】これに対して、本発明の関連文書検索装置
では、検索式の意味する文書集合15から直接類似語を
求めるため、検索式が意図する文書集合に対して適切な
関連文書を得ることができる。すなわち、飛行機関連の
キーワードを多く入力したからといって、飛行機関連の
文書に偏重した検索結果となることはない。
【0066】また、本発明の関連文書検索装置によれ
ば、各種書誌的事項による指定をキーワードと全く同様
に検索式に含めることが可能となる。例えば、日付や著
者等の書誌的事項を含めた検索式が入力された場合で
も、適切な関連文書検索を行うことができる。書誌的事
項としては、文書識別子を直接指定することもできる。
例えば、関連文書検索を行い検索目的に適合していると
判断した文書の文書識別子を書誌的事項として、次回の
関連文書検索における検索式で指定することにより、更
に精度の高い関連文書検索が可能となる。
【0067】次に、本発明の関連文書検索装置の実施の
形態を具体的に説明する。図3は、本発明の実施の形態
の構成を示すブロック図である。なお、以下の各構成要
素の有している機能は、コンピュータが所定のプログラ
ムモジュールを実行することによって実現される機能で
ある。そして、これらを実現するためのコンピュータプ
ログラムは、半導体メモリや磁気記録媒体などの記録媒
体に記録されている。
【0068】文書格納手段21は、電子化された検索対
象文書の内容および各文書に付加された書誌的事項を、
形態素解析手段2によって付加される文書識別子と対に
して格納する記憶装置である。
【0069】形態素解析手段22は、文書格納手段21
に格納されている各文書に文書識別子を付加した上で、
各文書に形態素解析処理を施して自立語(キーワードと
なるべき語)を抽出し、対応する文書識別子と対にして
格納する。さらに、各文書に書誌的事項が付加されてい
る場合は、自立語と同様に文書識別子と対にして格納す
る。
【0070】索引構造生成手段23は、形態素解析手段
22での形態素解析処理結果を基に、索引構造として、
単語−単語識別子リスト24a、単語識別子−文書識別
子リスト24b、文書識別子−単語識別子リスト24c
を作成する。
【0071】索引構造格納手段24は、索引構造生成手
段23によって作成された単語−単語識別子リスト24
a、単語識別子−文書識別子リスト24b、文書識別子
−単語識別子リスト24cを格納する記憶装置である。
【0072】単語−単語識別子リスト24aは、単語文
字列あるいは書誌的事項と、それらを特定するための単
語識別子の対応関係を記述したリストである。単語識別
子−文書識別子リスト24bは、各単語識別子につい
て、その単語識別子で示される単語文字列あるいは書誌
的事項を含む文書の文書識別子の集合を記述したリスト
である。
【0073】文書識別子−単語識別子リスト24bは、
各文書識別子について、その文書識別子で示される文書
に含まれる単語あるいは文書に付加された書誌的事項の
単語識別子の集合を記述したリストである。
【0074】検索式取得手段31は、関連文書を求める
ための条件としてキーワードあるいは書誌的事項の指定
を”and”,”or”あるいは”not”で結合する
ことによって構成される検索式を入力することが可能な
ユーザインタフェースである。
【0075】文書検索手段32は、検索式取得手段31
に入力された検索式、および、キーワードリスト生成手
段34によって作成されたキーワードリスト中の単語識
別子を受け取り、入力された検索式に適合する文書ある
いは受け取った単語識別子に対応する単語を含む文書の
文書識別子を、単語−単語識別子リスト24aおよび単
語識別子−文書識別子リスト24bを参照して取得す
る。キーワード検索手段33は、文書検索手段32によ
って得られた文書識別子集合で示される文書集合の各文
書に含まれる単語の単語識別子集合を、文書識別子−単
語識別子リスト24cを参照して取得し、それらを連接
して1つの単語識別子集合とする。
【0076】キーワードリスト生成手段34は、キーワ
ード検索手段33から得られた単語識別子集合中での各
単語識別子の出現回数を計測し、文書検索手段32によ
って取得された文書識別子の総数とから、単語識別子
と、その単語識別子に対応する単語を含む文書の出現確
率と、検索式取得手段31に入力された検索式に適合し
かつ該単語識別子に対応する単語を含む文書の出現確率
との3組をリストとして作成する。
【0077】類似度計算手段35は、キーワードリスト
生成手段34によって作成されたリストを参照し、各単
語識別子に対応する単語の拡張相互情報量を式(7)に
従って計算する。
【0078】関連度計算手段36は、類似度計算手段3
5から得られる各単語の拡張相互情報量を基に、検索式
取得手段31に入力された検索式と文書格納手段中の文
書との間の関連度を計算する。
【0079】表示手段37は、関連度計算手段36で計
算された各文書の関連度が大きい値のものから順に、対
応する文書情報を出力するユーザインタフェースであ
る。なお、図3の関連文書検索装置の各構成要素は、図
1の構成要素に対して次のような関係にある。
【0080】図3の文書格納手段21および索引構造格
納手段24が図1の文書情報格納手段1に、図3の検索
式取得手段31が図1の検索式取得手段2に、図3の文
書検索手段32、キーワード検索手段33およびキーワ
ードリスト生成手段34が図1の文書数計算手段3に、
図3の類似度計算手段35が図1の類似度計算手段4
に、図3の関連度計算手段36が図1の関連度計算手段
5にそれぞれ対応するものである。
【0081】ここで、本実施の形態では関連文書検索を
行う前に、予め索引構造の生成処理を実行しておく必要
がある。そこで、まず索引構造の生成処理について説明
する。索引構造の生成処理を行うには、その前提とし
て、形態素解析結果リストが生成されていなければなら
ない。
【0082】図4は、形態素解析手段22に格納される
形態素解析結果リスト41の例を示す図である。形態素
解析手段22は、文書格納手段21に格納されている各
検索対象文書に識別子を割り当てた上で、それぞれの文
書に形態素解析処理を施して自立語を抽出し、対応する
文書識別子と対にして格納する。ただし、同一文書中か
ら同一の自立語が複数回抽出された場合は、2回目以降
の抽出結果を無視し、1つの文書識別子に対応する自立
語が重複することはないものとする。また、文書に書誌
的事項が付加されている場合は、書誌的事項の種類を示
すタグと共に、自立語と同様にして対応する文書識別子
と対にした上で格納する。これにより、形態素解析結果
リスト41が生成される。図の例では、”<DATE
>”が文書の作成日時を、”<AUTH>”が著者を表
すタグとなっている。
【0083】この形態素解析結果リスト41を基に、索
引構造生成手段23が各種索引構造を生成する。図5〜
図7に索引構造生成手段23により作成され、索引構造
格納手段24に格納される索引構造の例を示す。なお図
5〜図7中のデータは、図4のデータに基づいて作成さ
れた例となっている。
【0084】図5は、単語−単語識別子リストの例を示
す図である。単語−単語識別子リスト24aには、抽出
された単語若しくは書誌的事項と、その単語若しくはタ
グ付の書誌的事項に割り当てられた識別子とが組となっ
て格納されている。この例では、タグ付の書誌的事項に
割り当てられた識別子も含めて「単語識別子」としてい
る。
【0085】図6は、単語識別子−文書識別子リストの
例を示す図である。単語識別子−文書識別子リスト24
bには、単語識別子と、その単語識別子が割り当てられ
ている単語を含む文書の識別子(文書識別子)が組とな
って格納されている。
【0086】図7は、文書識別子−単語識別子リストの
例を示す図である。文書識別子−単語識別子リスト24
cには、文書識別子と、その文書識別子が割り当てられ
ている文書に含まれる単語の単語識別子とが組となって
格納されている。
【0087】索引構造生成手段23による索引構造の生
成アルゴリズムは以下の通りである。図8は、索引構造
の生成アルゴリズムを示すフローチャートである。 [S1]単語−単語識別子リスト24aの生成処理を行
う。
【0088】具体的には、形態素解析手段22に格納さ
れている形態素解析結果リスト中の全単語およびタグ付
の書誌的事項を、重複なく、かつ、単語文字列の持つ値
の順にソートしたリストを作成する。各単語に対して、
リストの先頭から順に1で始まる自然数を単語識別子と
して割り当てる。 [S2]文書識別子−単語識別子リスト24cの生成処
理を行う。
【0089】具体的には、形態素解析手段22に格納さ
れている形態素解析結果リスト中の各単語およびタグ付
の書誌的事項をステップS1で割り当てた単語識別子で
置き換え、各文書識別子ごとに対応する単語識別子を小
さい値順にソートする。 [S3]単語識別子−文書識別子リスト24bの生成処
理を行う。
【0090】具体的には、単語識別子を1から順に並
べ、各単語識別子に対応する単語が含まれる文書の文書
識別子を、ステップS2で作成した文書識別子−単語識
別子リスト24cを参照して抽出し、単語識別子と対に
して格納する。
【0091】以上のアルゴリズムにより、索引構造が生
成される。索引構造の生成処理が行われた後、検索式取
得手段31は検索式の入力を受け付ける。そして、利用
者がキーボードなどの入力装置を用いて所望の検索式を
入力し、検索開始の指令を行うと、関連文書検索処理が
開始される。
【0092】図9、図10に、検索式取得手段31に入
力された検索式から関連文書を求めるためのアルゴリズ
ムを示す。図9は、本発明の処理手順を示すフローチャ
ートの前半であり、図10は、本発明の処理手順を示す
フローチャートの後半である。以下、図9、図10の各
ステップについて説明する。なお、以下の説明におい
て、単語−単語識別子リスト24aをL1、単語識別子
−文書識別子リスト24bをL2、文書識別子−単語識
別子リスト24cをL3と記述する。 [S11]検索式取得手段31が、キーワードおよび書
誌的事項の指定を論理演算子で結合した検索式を受け取
る。この検索式をSと呼ぶことにする。 [S12]文書検索手段32が、Sに適合する文書の文
書識別子を、L1およびL2を参照して取得する。得ら
れた文書識別子集合をXと呼び、集合Xの要素数をNと
する。 [S13]ステップS12においてN=0であればステ
ップS14へ進み、そうでなければステップS15へ進
む。 [S14]表示手段37が、Sの関連文書がない旨の表
示を行い、終了する。 [S15]キーワード検索手段33が、Xに属する各文
書識別子に対応する単語識別子を、L3を参照して取得
する。取得した単語識別子の集合をYとする。 [S16]キーワードリスト生成手段34が、Yに属す
る単語識別子の重複を取り除き、各単語識別子の重複回
数を記録する。重複の取り除かれた単語識別子集合を新
たにYとし、Yの要素Wn(n=1,2,・・・,P)
の重複回数をR(Wn)とする。ただし、PはYの要素
数とする。 [S17]文書検索手段32が、Yに属する全単語識別
子Wn(n=1,2,・・・,P)に関して、Wnに対
応する文書識別子の総数をL2から取得する。そして、
Yの要素Wnに対応する文書識別子数をF(Wn)とす
る。 [S18]キーワードリスト生成手段34が、Yに属す
る単語識別子Wn(n=1,2,・・・,P)につい
て、全検索対象文書数をMとして、
【0093】
【数18】
【0094】
【数19】 を計算し、これらの値をWnと組にしてリストとする。
また、
【0095】
【数20】 を計算する。 [S19]類似度計算手段35が、Yに属する各単語識
別子Wn(n=1,2,・・・,P)について、式
(7)に従って、拡張相互情報量MI0 (S,Wn)を
計算する。 [S20]関連度計算手段36が、全文書識別子に対応
する関連度の初期値を0とした上で、Yに属する単語識
別子Wn(n=1,2,・・・,P)の全てについて、
ステップS19で計算されたMI0 (S,Wn)の値
を、Wnに対応する各文書識別子に対する関連度に加算
する。得られた、文書識別子Di(i=1,2,・・
・,M)に対応する関連度をKiとする。 [S21]予め設定された閾値Tを越えるKiが存在す
ればステップS22へ進み、そうでなければステップS
23へ進む。 [S22]表示手段37が、閾値Tを越えるKiに対応
する文書の内容あるいはタイトル等の文書情報をKiの
値が大きいものから順にSの関連文書として出力し、終
了する。 [S23]表示手段37が、Sの関連文書がない旨の表
示を行い、終了する。
【0096】以上の各ステップにより、書誌的事項を含
んだ検索式から直接類似語を得ることができ、検索式の
意図に沿った関連文書の検索が可能となる。すなわち、
検索のキーワードとして入力した類義語の数の多少によ
って、偏った検索結果となることはない。
【0097】ところで、文献「清水義夫:記号論理学,
pp.34−36,東京大学出版会(1984)」等に
記述されている通り、任意の検索式(論理式)は、第2
分配律「(Aor(BandC))=((AorB)a
nd(AorC))」を繰り返し適用することによっ
て、連言標準形へ同値変形することが可能である。連言
標準形の検索式とは、キーワードが論理演算子”or”
で結合された検索式(選言節)が、さらに”and”で
結合された形となっている検索式のことをいう。例え
ば、「((飛行機)or(航空機)or(旅客機))a
nd((自動車)or(乗用車))and((船)or
(船舶)or(ボート))」は連言標準形であり、
「(飛行機)or(航空機)or(旅客機)」「(自動
車)or(乗用車)」「(船)or(船舶)or(ボー
ト)」はそれぞれ選言節である。
【0098】そこで、検索式取得手段31において、入
力された検索式を連言標準形へと変換し、連言標準形の
検索式を用いて関連文書検索を行うことも可能である。
以下に、このような連言標準形への変換を行う場合の処
理手順を説明する。
【0099】図11は、入力された検索式を連言標準形
へと変換する場合の検索アルゴリズムを示すフローチャ
ートである。 [S31]検索式取得手段31は、入力された検索式S
を連言標準形へと変換し、得られた連言標準形の検索式
をS0 とする。 [S32]S0 中の各選言節をOj(j=1,2,・・
・,k)とし、OjをステップS11におけるSとみな
して、各Ojに対して図9、図10のステップS11か
らステップS20を適用する。ただし、ステップS20
において、全文書識別子に対応する関連度の初期値を0
とするのは、ステップS20を最初に適用する時のみと
し、2回目から(k回目まで)は前回の処理で得られた
Kiの値を初期値とする。 [S33]図10のステップS21からステップS23
を適用する。
【0100】以上のアルゴリズムにより、入力された検
索式を連言標準形へと変換して、関連文書検索を行うこ
とができる。一般に、”or”のみで接続された検索式
(選言節)からは広範な類似語を得ることが可能であ
る。したがって、この図に示したアルゴリズムによれ
ば、図9、図10の処理によって得られる関連文書検索
結果と比較して、より広範な関連文書を得ることができ
る。
【0101】図11のアルゴリズムは、各選言節につい
ては選言節から直接類似語計算を行い、論理演算子”a
nd”のみを代数和に対応付けて検索式と各文書の間の
関連度を求めるものである。したがって、論理演算子に
よる結合関係一般を代数計算で表現する困難さは生じ
ず、かつ、検索式の記述の一般性を制限するものでもな
い。
【0102】以上のように本発明では、検索式から直接
類似語の計算を行うことによって、従来技術では不可能
であった、論理演算子により結合された検索式に適切に
対応した関連文書を検索することが可能となる。しか
も、検索式にキーワード以外の書誌的事項が含まれてい
る場合においても、関連文書検索を行うことが可能とな
る。これにより、完全一致型の検索システム用に作成し
た検索式をそのまま入力するだけで、完全一致型の検索
によっては決して得られない関連文書を、適切に得るこ
とができる。
【0103】
【実施例】本発明の効果を検証するために、公開特許公
報11万6千件を対象として、本発明の実施の形態の構
成に従って関連文書検索を行った。その結果を以下に示
す。なお、形態素解析手段22の解析対象は、「発明の
名称」及び「抄録(各種書誌的事項及び明細書中の主た
る部分を抜き出したもの)」に含まれる文章である。書
誌的事項には、国際特許分類(IPC)の記号や、出願
人の名称などが含まれる。また、検索結果を比較するた
めに、従来の関連文書検索技術による検索も行った。
【0104】図12は、検索式を「(風呂)or(風呂
釜)or(風呂桶)or(給湯)or(トイレ)」とし
て関連文書検索を行った結果を示す図である。(A)は
本発明による検索結果を示しており、(B)は従来の技
術による検索結果を示している。この図に示されている
のは、入力された検索式の完全一致によって得られる特
許出願を除いた上で、検索式との間で関連度の高いもの
から順に上位20件の特許出願の[発明の名称]を出力
したものである。
【0105】ところで、上記の検索式による検索とは別
に、検索式を「(風呂)or(風呂釜)or(風呂桶)
or(給湯)」とした場合と、検索式を「トイレ」とし
た場合の完全一致検索(全文検索)を行ったところ、検
索結果はそれぞれ148件と132件であった。したが
って、関連文書検索を行った場合でも同程度の数の検索
結果が得られることが望ましいと考えられる。
【0106】そこで、図12の検索結果を見てみると、
本発明の関連文書検索装置で検索を行った場合には、
「風呂」に関連する特許出願と「トイレ」に関連する特
許出願とがバランスよく検出されているのが分かる。一
方、従来の関連文書検索技術での検索結果は、同義語
(類義語)を多く指定した「風呂」に関連する特許出願
が優先された検索結果となっている。
【0107】また、別の実施例として、書誌的事項とし
て国際特許分類(IPC)の記号を指定して関連文書検
索を行った。IPCは特許出願に係る発明の技術分野を
分類するものであるため、IPCを書誌的事項として指
定して検索を行えば、有効な検索結果が期待できる。
【0108】図13は、検索式を「(<ipc>A61
H)and(磁気)」として関連文書検索を行った結果
を示す図である。(A)は本発明による検索結果を示し
ており、(B)は従来の技術による検索結果を示してい
る。この図に示されているのは、入力された検索式の完
全一致によって得られる特許出願を除いた上で、検索式
との間で関連度の高いものから順に上位20件の特許出
願の[発明の名称]を出力したものである。ここで、
「A61H」は「物理的な治療装置」に関するIPCの
サブクラス記号である。つまり、「磁気」を用いた「物
理的な治療装置」に関連する特許出願を検索しているの
である。
【0109】図から分かるように、本発明の関連文書検
索装置を用いれば、「A61H」以外のIPCに属する
特許出願からも、「磁気」を用いた「物理的な治療装
置」に関連する特許出願が適切に検出されている。これ
に対し、従来の技術による関連文書検索ではIPCの情
報は考慮せず、キーワード「磁気」のみから関連文書検
索を行うため、「物理的な治療装置」と全く関連のない
特許出願が上位の検索結果として検出されてしまい、適
切な結果を得ることができない。仮に、従来技術によっ
て得られた結果からIPCが「A61H」である特許出
願のみを抽出したとしても、本発明の関連文書検索装置
を用いたときと同じように、「A61H」以外のIPC
の関連特許出願を得ることはできない。
【0110】次に、本発明の関連文書検索装置により関
連文書検索を行った場合と、他の手法を用いて文書検索
を行った場合との間の、適合率及び再現率の比較結果に
ついて説明する。
【0111】図14は、検索式「(<ipc>G06
F)and((関連語)or(類似語)or(シソーラ
ス)or(統計量))」を用いて検索を行った結果を示
す図である。この図では、以下の3通りの検索方式によ
り検索を行った結果を比較している。 (1) 完全一致検索(全文検索) (2) 本発明の関連文書検索装置による関連文書検索 (3) 従来技術による関連文書検索(書誌的事項を検
索式に含めることができない関連文書検索) なお、本発明による関連文書検索および従来技術による
関連文書検索は、完全一致検索によって検索された特許
出願を除いた上で、上記検索式との間で関連度の高いも
のから順に上位30件を検索結果とした。
【0112】前述の通り、従来の関連文書検索では書誌
的事項の指定を検索式に含めることができない。したが
って、上記検索式から書誌的事項である[IPC]の指
定部分(<ipc>G06F)を除いた検索式「(関連
語)or(類似語)or(シソーラス)or(統計
量)」によって関連文書検索を行うことで、従来技術に
よる関連文書検索を行った。そして、3人の検索者が適
合性の判断を行った。なお、適合性の判断には検索者の
主観が入るため、適合性の判断結果には検索者によって
若干の相違がある。
【0113】図14中の適合率および再現率は検索結果
の質を表す値であり、適合率は検索結果として得られた
文書数(図中の「ヒット数」)に対する検索結果中の適
合文書数(図中の「適合特許数」)の割合、再現率は全
検索対象文書中の適合文書数に対する検索結果中の適合
文書数(図中の「適合特許数」)の割合である。
【0114】平均適合率は、完全一致検索で10.6
%、本発明の関連文書検索で13.3%、従来の関連文
書検索で3.3%である。ここで、完全一致検索の平均
適合率及び平均再現率を「1」して、他の平均適合率
比、及び平均再現率比を求めると、本発明の関連文書検
索では、平均適合率比が1.25、平均再現率比が2.
35である。一方、従来の関連文書検索では、平均適合
率比が0.31、平均再現率比が0.59である。した
がって、本発明の関連文書検索装置による関連文書検索
から得られた検索結果は、完全一致検索および従来技術
による関連文書検索から得られた検索結果と比較して適
合率、再現率ともに大きな値となっており、より適切な
検索結果が得られているといえる。
【0115】なお、検索式と各キーワード間の類似度計
算を予め行っておけば、検索式入力後の類似度計算が不
要となり、高速な関連文書検索が可能となると考えられ
る。しかしながら、後述のように計算量の点で実現が困
難であるため、本発明による関連文書検索装置は、検索
式が入力された後に類似度計算を行う構成とした。
【0116】以下、検索式と各キーワード間の類似度計
算を予め行うための計算量及び計算時間について考察す
る。上記実施例と同様に特許公開公報11万6千件を検
索対象とした場合、形態素解析手段22によって抽出さ
れ、索引構造格納手段24に格納された単語の語数は約
20万語である。したがって、例えば、2つの語を”o
r”で結合して得られる検索式だけを考えた場合でも、
その総数は2000002 ≒200億となる。1つの検索式
に対して各語との類似度計算を行うために要する計算時
間は、ワークステーションレベルで平均10秒程度であ
ったが、これを1秒とした場合でも、200億種の検索
式に対する類似度計算を行えば200億秒≒634年の
計算時間が必要となる。さらに、書誌的事項等を含めた
一般の検索式を考えると、計算時間は膨大なものとな
り、予め計算を行っておくことは困難である。
【0117】
【発明の効果】以上説明したように本発明に係る関連文
書検索装置では、検索式と各キーワードとの間の類似度
を直接求めるようにしたため、検索式の論理式による結
合関係を的確に反映した検索結果を得ることができる。
その結果、ユーザの検索意図に沿った関連文書検索を的
確に行うことができる。
【0118】
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】従来の技術と本発明における関連度計算の差異
を示した概念図である。(A)は従来の関連文書検索技
術による検索結果を示し、(B)は本発明に係る関連文
書検索技術による検索結果を示している。
【図3】本発明の実施の形態の構成を示すブロック図で
ある。
【図4】形態素解析手段に格納される形態素解析結果リ
ストの例を示す図である。
【図5】単語−単語識別子リストの例を示す図である。
【図6】単語識別子−文書識別子リストの例を示す図で
ある。
【図7】文書識別子−単語識別子リストの例を示す図で
ある。
【図8】索引構造の生成アルゴリズムを示すフローチャ
ートである。
【図9】本発明の処理手順を示すフローチャートの前半
であり、
【図10】本発明の処理手順を示すフローチャートの後
半である。
【図11】入力された検索式を連言標準形へと変換する
場合の検索アルゴリズムを示すフローチャートである。
【図12】検索式を「(風呂)or(風呂釜)or(風
呂桶)or(給湯)or(トイレ)」として関連文書検
索を行った結果を示す図である。(A)は本発明による
検索結果を示しており、(B)は従来の技術による検索
結果を示している。
【図13】検索式を「(<ipc>A61H)and
(磁気)」として関連文書検索を行った結果を示す図で
ある。(A)は本発明による検索結果を示しており、
(B)は従来の技術による検索結果を示している。
【図14】検索式「(<ipc>G06F)and
((関連語)or(類似語)or(シソーラス)or
(統計量))」を用いて検索を行った結果を示す図であ
る。
【符号の説明】
1 文書情報格納手段 2 検索式取得手段 3 文書数計算手段 4 類似度計算手段 5 関連度計算手段 21 文書格納手段 22 形態素解析手段 23 索引構造生成手段 24 索引構造格納手段 24a 単語ー単語識別子リスト 24b 単語識別子−文書識別子リスト 24c 文書識別子−単語識別子リスト 31 検索式取得手段 32 文書検索手段 33 キーワード検索手段 34 キーワードリスト生成手段 35 類似度計算手段 36 関連度計算手段 37 表示手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 舘野 昌一 神奈川県足柄上郡中井町境430 グリー ンテクなかい 富士ゼロックス株式会社 内 (56)参考文献 特開 平2−41564(JP,A) 特開 昭63−168721(JP,A) 特開 平7−56948(JP,A) 特開 平7−65013(JP,A) 特開 平9−44523(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (11)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力された検索条件に関連する文書を検
    索する関連文書検索装置において、 複数の文書を、各文書から抽出された被抽出キーワード
    と対応づけて格納する文書情報格納手段と、 複数の検索キーワードを論理演算子で結合した検索式を
    受け取る検索式取得手段と、 前記文書情報格納手段に格納されている被抽出キーワー
    ドの中から、類似度の判断対象とすべき複数の判断対象
    キーワードを特定し、前記文書情報格納手段に格納され
    ている全ての文書の数である第1の値と、前記文書情報
    格納手段に格納されている文書の中で、前記検索式取得
    手段が受け取った検索式に適合する文書の数である第2
    の値と、前記文書情報格納手段に格納されており、かつ
    前記検索式取得手段が受け取った検索式に適合する文書
    の中で、個々の判断対象キーワードを含んでいる文書の
    数である判断対象キーワードごとの第3の値と、前記文
    書情報格納手段に格納されている文書の中で、個々の判
    断対象キーワードを含んでいる文書の数である判断対象
    キーワードごとの第4の値とを計算する文書数計算手段
    と、 前記文書数計算手段が算出した第1の値、第2の値、判
    断対象キーワードごとの第3の値及び判断対象キーワー
    ドごとの第4の値を変数とする計算式に基づいて、前記
    検索式取得手段が受け取った検索式と各判断対象キーワ
    ードとの間の類似度を算出する類似度計算手段と、 各判断対象キーワードを被抽出キーワードとして有して
    いる文書に関する関連文書情報を前記文書情報格納手段
    から取得し、前記類似度計算手段から得られる判断対象
    キーワードごとの類似度と前記関連文書情報とに基づい
    て、前記検索式取得手段が受け取った検索式と前記文書
    情報格納手段に格納されている各文書との間の関連度を
    算出する関連度計算手段と、 を有することを特徴とする関連文書検索装置。
  2. 【請求項2】 前記類似度計算手段は、前記文書数計算
    手段が算出した第1の値をα、第2の値をβ、判断対象
    キーワードごとの第3の値をγ、判断対象キーワードご
    との第4の値をδとした場合に、以下の計算式、 拡張相互情報量=log2 {(αγ)/(βδ)} で求められる拡張相互情報量の値を、前記検索式取得手
    段が受け取った検索式と各判断対象キーワードとの間の
    類似度とすることを特徴とする請求項1記載の関連文書
    検索装置。
  3. 【請求項3】 前記類似度計算手段は、前記文書数計算
    手段が算出した第1の値をα、第2の値をβ、判断対象
    キーワードごとの第3の値をγ、判断対象キーワードご
    との第4の値をδとした場合に、以下の計算式、 拡張TS(t-score) =α{( αγ−βδ)/(βδ)} で求められる拡張TSの値を、前記検索式取得手段が受
    け取った検索式と各判断対象キーワードとの間の類似度
    とすることを特徴とする請求項1記載の関連文書検索装
    置。
  4. 【請求項4】 前記文書情報格納手段は、各文書の各種
    書誌的事項を、各文書の被抽出キーワードの1つとして
    各文書に対応づけて格納しており、 前記検索式取得手段は、検索キーワードと書誌的事項の
    指定とを論理演算子で結合した検索式を受け取る、 ことを特徴とする請求項1記載の関連文書検索装置。
  5. 【請求項5】 前記文書数計算手段は、前記検索式取得
    手段が受け取った検索式に適合する文書から抽出された
    被抽出キーワードを、類似度の判断対象とすべき判断対
    象キーワードとして選択することを特徴とする請求項1
    記載の関連文書検索装置。
  6. 【請求項6】 前記検索式取得手段が受け取った検索式
    を、複数の選言節からなる連言標準形検索式へ変換する
    検索式変換手段をさらに有し、 前記文書数計算手段は、前記検索式変換手段から得られ
    る連言標準形検索式に含まれる各選言節ごとに、第2の
    値、判断対象キーワードごとの第3の値及び判断対象キ
    ーワードごとの第4の値を計算し、 前記類似度計算手段は、前記検索式変換手段から得られ
    る連言標準形検索式中の各選言節と各判断対象キーワー
    ドとの間の類似度を算出し、 前記関連度計算手段は、前記類似度計算手段から得られ
    る各選言節と各判断対象キーワードとの間の類似度と、
    前記関連文書情報とに基づいて、前記検索式取得手段が
    受け取った検索式と前記文書情報格納手段に格納されて
    いる各文書との間の関連度を算出する、 ことを特徴とする請求項1記載の関連文書検索装置。
  7. 【請求項7】 入力された検索条件に関連する文書を検
    索する関連文書検索装置において、 複数の文書を、各文書から抽出された被抽出キーワード
    と対応づけて格納する文書情報格納手段と、 複数の検索キーワードを論理演算子で結合した検索式を
    受け取る検索式取得手段と、 前記文書情報格納手段に格納されている被抽出キーワー
    ドの中から、類似度の判断対象とすべき複数の判断対象
    キーワードを特定し、前記文書情報格納手段に格納され
    ている文書の中で、前記検索式取得手段が受け取った検
    索式に適合する文書の数である第1の値と、前記文書情
    報格納手段に格納されており、かつ前記検索式取得手段
    が受け取った検索式に適合する文書の中で、個々の判断
    対象キーワードを含んでいる文書の数である判断対象キ
    ーワードごとの第2の値と、前記文書情報格納手段に格
    納されている文書の中で、個々の判断対象キーワードを
    含んでいる文書の数である判断対象キーワードごとの第
    3の値とを計算する文書数計算手段と、 前記文書数計算手段が算出した第1の値、判断対象キー
    ワードごとの第2の値及び判断対象キーワードごとの第
    3の値を変数とする計算式に基づいて、前記検索式取得
    手段が受け取った検索式と各判断対象キーワードとの間
    の類似度を算出する類似度計算手段と、 各判断対象キーワードを被抽出キーワードとして有して
    いる文書に関する関連文書情報を前記文書情報格納手段
    から取得し、前記類似度計算手段から得られる判断対象
    キーワードごとの類似度と前記関連文書情報とに基づい
    て、前記検索式取得手段が受け取った検索式と前記文書
    情報格納手段に格納されている各文書との間の関連度を
    算出する関連度計算手段と、 を有することを特徴とする関連文書検索装置。
  8. 【請求項8】 前記類似度計算手段は、前記文書数計算
    手段が算出した第1の値をα、判断対象キーワードごと
    の第2の値をβ、判断対象キーワードごとの第3の値を
    γとした場合に、以下の計算式、 拡張DC(Dice-coefficent) =2β/( α+γ) で求められる拡張DCの値を、前記検索式取得手段が受
    け取った検索式と各判断対象キーワードとの間の類似度
    とすることを特徴とする請求項7記載の関連文書検索装
    置。
  9. 【請求項9】 前記文書情報格納手段は、各文書の各種
    書誌的事項を、各文書の被抽出キーワードの1つとして
    各文書に対応づけて格納しており、 前記検索式取得手段は、検索キーワードと書誌的事項の
    指定とを論理演算子で結合した検索式を受け取る、 ことを特徴とする請求項7記載の関連文書検索装置。
  10. 【請求項10】 前記文書数計算手段は、前記検索式取
    得手段が受け取った検索式に適合する文書から抽出され
    た被抽出キーワードを、類似度の判断対象とすべき判断
    対象キーワードとして選択することを特徴とする請求項
    7記載の関連文書検索想装置。
  11. 【請求項11】 前記検索式取得手段が受け取った検索
    式を、複数の選言節からなる連言標準形検索式へ変換す
    る検索式変換手段をさらに有し、 前記文書数計算手段は、前記検索式変換手段から得られ
    る連言標準形検索式に含まれる各選言節ごとに、第1の
    値、判断対象キーワードごとの第2の値及び判断対象キ
    ーワードごとの第3の値を計算し、 前記類似度計算手段は、前記検索式変換手段から得られ
    る連言標準形検索式中の各選言節と各判断対象キーワー
    ドとの間の類似度を算出し、 前記関連度計算手段は、前記類似度計算手段から得られ
    る各選言節と各判断対象キーワードとの間の類似度と、
    前記関連文書情報とに基づいて、前記検索式取得手段が
    受け取った検索式と前記文書情報格納手段に格納されて
    いる各文書との間の関連度を算出する、 ことを特徴とする請求項7記載の関連文書検索装置。
JP06261097A 1997-03-17 1997-03-17 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体 Expired - Fee Related JP3173411B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP06261097A JP3173411B2 (ja) 1997-03-17 1997-03-17 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体
US09/041,620 US6076086A (en) 1997-03-17 1998-03-13 Associate document retrieving apparatus and storage medium for storing associate document retrieving program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06261097A JP3173411B2 (ja) 1997-03-17 1997-03-17 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JPH10260972A JPH10260972A (ja) 1998-09-29
JP3173411B2 true JP3173411B2 (ja) 2001-06-04

Family

ID=13205266

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06261097A Expired - Fee Related JP3173411B2 (ja) 1997-03-17 1997-03-17 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体

Country Status (2)

Country Link
US (1) US6076086A (ja)
JP (1) JP3173411B2 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5836771A (en) * 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
US6498921B1 (en) * 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
JP3114703B2 (ja) * 1998-07-02 2000-12-04 富士ゼロックス株式会社 対訳文検索装置
JP2000076267A (ja) * 1998-08-31 2000-03-14 Sharp Corp 情報検索方法、情報検索装置、及び情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3022539B1 (ja) * 1999-01-07 2000-03-21 富士ゼロックス株式会社 文書検索装置
JP2002207760A (ja) * 2001-01-10 2002-07-26 Hitachi Ltd 文書検索方法及びその実施装置並びにその処理プログラムを記録した記録媒体
WO2003034283A1 (en) * 2001-10-16 2003-04-24 Kimbrough Steven O Process and system for matching products and markets
US20040054520A1 (en) * 2002-07-05 2004-03-18 Dehlinger Peter J. Text-searching code, system and method
US7814105B2 (en) * 2004-10-27 2010-10-12 Harris Corporation Method for domain identification of documents in a document database
JP2007072646A (ja) * 2005-09-06 2007-03-22 Internatl Business Mach Corp <Ibm> 検索装置、検索方法およびプログラム
US7730060B2 (en) * 2006-06-09 2010-06-01 Microsoft Corporation Efficient evaluation of object finder queries
US7814107B1 (en) * 2007-05-25 2010-10-12 Amazon Technologies, Inc. Generating similarity scores for matching non-identical data strings
US7908279B1 (en) 2007-05-25 2011-03-15 Amazon Technologies, Inc. Filtering invalid tokens from a document using high IDF token filtering
US8046372B1 (en) 2007-05-25 2011-10-25 Amazon Technologies, Inc. Duplicate entry detection system and method
US7895225B1 (en) 2007-12-06 2011-02-22 Amazon Technologies, Inc. Identifying potential duplicates of a document in a document corpus
JP5526396B2 (ja) * 2008-03-11 2014-06-18 クラリオン株式会社 情報検索装置、情報検索システム及び情報検索方法
JP5315836B2 (ja) * 2008-07-30 2013-10-16 株式会社リコー 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
US9684710B2 (en) * 2009-05-28 2017-06-20 Microsoft Technology Licensing, Llc Extending random number summation as an order-preserving encryption scheme
CN104503988B (zh) * 2014-12-03 2018-10-16 百度在线网络技术(北京)有限公司 搜索方法及装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61193266A (ja) * 1985-02-21 1986-08-27 Hitachi Ltd 情報検索システム
US4823306A (en) * 1987-08-14 1989-04-18 International Business Machines Corporation Text search system
JP2516387Y2 (ja) * 1987-08-19 1996-11-06 三洋電機株式会社 情報ファイル装置
JPH0241564A (ja) * 1988-08-01 1990-02-09 Ricoh Co Ltd 文書検索装置
US5220625A (en) * 1989-06-14 1993-06-15 Hitachi, Ltd. Information search terminal and system
JP2816241B2 (ja) * 1990-06-20 1998-10-27 株式会社日立製作所 画像情報検索装置
US5442778A (en) * 1991-11-12 1995-08-15 Xerox Corporation Scatter-gather: a cluster-based method and apparatus for browsing large document collections
US5590317A (en) * 1992-05-27 1996-12-31 Hitachi, Ltd. Document information compression and retrieval system and document information registration and retrieval method
GB9220404D0 (en) * 1992-08-20 1992-11-11 Nat Security Agency Method of identifying,retrieving and sorting documents
US5761496A (en) * 1993-12-14 1998-06-02 Kabushiki Kaisha Toshiba Similar information retrieval system and its method
US5675819A (en) * 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US5515488A (en) * 1994-08-30 1996-05-07 Xerox Corporation Method and apparatus for concurrent graphical visualization of a database search and its search history
JP3669016B2 (ja) * 1994-09-30 2005-07-06 株式会社日立製作所 文書情報分類装置
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US5907836A (en) * 1995-07-31 1999-05-25 Kabushiki Kaisha Toshiba Information filtering apparatus for selecting predetermined article from plural articles to present selected article to user, and method therefore
JP3099756B2 (ja) * 1996-10-31 2000-10-16 富士ゼロックス株式会社 文書処理装置、単語抽出装置及び単語抽出方法

Also Published As

Publication number Publication date
US6076086A (en) 2000-06-13
JPH10260972A (ja) 1998-09-29

Similar Documents

Publication Publication Date Title
JP3173411B2 (ja) 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体
CN106844658B (zh) 一种中文文本知识图谱自动构建方法及系统
Wan et al. Person resolution in person search results: Webhawk
EP1927927A2 (en) Speech recognition training method for audio and video file indexing on a search engine
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
JP2011118689A (ja) 検索方法及びシステム
JP3584848B2 (ja) 文書処理装置、項目検索装置及び項目検索方法
JP3198932B2 (ja) 文書検索装置
JP3594701B2 (ja) キーセンテンス抽出装置
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
Fatima et al. New graph-based text summarization method
CN111191413B (zh) 一种基于图排序模型的事件核心内容自动标记方法、装置及系统
Etaiwi et al. Graph-based Arabic NLP techniques: a survey
JP2000132560A (ja) 中国語テレテキスト処理方法及び装置
Li et al. Complex query recognition based on dynamic learning mechanism
Pai Text summarizer using abstractive and extractive method
Fareed et al. Syntactic open domain Arabic question/answering system for factoid questions
Halabi et al. Graph-based arabic key-phrases extraction
JPS5856071A (ja) 日本語による検索システム
Kermani et al. Extractive persian summarizer for news websites
Jain et al. Graph-based Extractive Approach for English and Hindi Text Summarization
Yunus et al. Analysis of translated query in Quranic Malay and English translation documents with stemmer
Bhaskar et al. Cross lingual query dependent snippet generation
Lodhi et al. Detecting Urdu Text Plagiarism Using Similarity Matching Techniques
JP3161660B2 (ja) キーワード検索方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080330

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090330

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100330

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees