JP2001331527A - 類似文書検索方法 - Google Patents

類似文書検索方法

Info

Publication number
JP2001331527A
JP2001331527A JP2000152482A JP2000152482A JP2001331527A JP 2001331527 A JP2001331527 A JP 2001331527A JP 2000152482 A JP2000152482 A JP 2000152482A JP 2000152482 A JP2000152482 A JP 2000152482A JP 2001331527 A JP2001331527 A JP 2001331527A
Authority
JP
Japan
Prior art keywords
definition
document
calculation method
similarity calculation
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000152482A
Other languages
English (en)
Inventor
Tadataka Matsubayashi
忠孝 松林
Katsumi Tada
勝己 多田
Natsuko Sugaya
菅谷  奈津子
Akihiko Yamaguchi
明彦 山口
Yasuhiko Inaba
靖彦 稲場
Yosuke Gochi
陽介 後地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2000152482A priority Critical patent/JP2001331527A/ja
Publication of JP2001331527A publication Critical patent/JP2001331527A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 書誌情報に対する属性検索や範囲検索等の検
索結果を類似文書検索における類似度算出に組み入れる
ことで、書誌情報を加味した高精度な類似文書検索シス
テムを提供する。 【解決手段】 ユーザから入力された類似度算出定義の
登録処理として、構造間の対応関係定義を登録する構造
間対応関係定義と、書誌情報を用いた構造間の類似度算
出方法定義を登録可能な構造間類似度算出方法定義およ
び文書全体の統合類似度算出方法定義を登録する。類似
文書の検索処理として、ユーザから入力された検索条件
式を解析し、統合類似度算出方法定義および構造間類似
度算出方法定義を読み込み、種文書と検索対象文書の対
応構造毎の類似度を前記構造間類似度算出方法定義に基
づき算出し、この対応構造別類似度算出結果を用いて文
書全体の類似度を前記統合類似度算出方法定義に基づき
算出する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、検索条件として指定さ
れた文書に記述された内容に類似する文書を文書データ
ベース中から検索する類似文書検索方法に関する。
【0002】
【従来の技術】近年、パーソナルコンピュータやインタ
ーネットの普及に伴い、電子化文書が急激に増加してお
り、今後も加速的に増大していくものと予想される。特
にインターネット文書の標準形式としてXML(eXtens
ible Markup Language)が普及しつつあり、今後ますま
す構造化文書の利用が増大していくものと考えられてい
る。このような状況において、所望の情報を含む文書を
高精度かつ効率的に検索したいという要求が一層高まっ
てきている。このような要求に応える技術として、構造
化文書を検索条件として入力し、文書の論理構造の持つ
意味を効果的に利用することで、該文書に記述された内
容に類似する文書を検索する類似文書検索技術(以下、
従来技術1と呼ぶ)が、「特開平7−44567号公
報」に開示されている。従来技術1では、検索条件とし
て入力された文書(以下、種文書と呼ぶ)の論理構造と
検索対象とする文書の論理構造の対応関係を構造間対応
関係定義情報として保持し、種文書側の論理構造に記述
された文章中から抽出された単語(以下、検索タームと
呼ぶ)を検索対象側の対応付けられた論理構造に含む文
書を検索することで、構造化文書を種文書および検索対
象文書とした類似文書を検索する技術である。
【0003】以下、従来技術1の概要を図2を用いて説
明する。まず、従来技術1の処理手順を説明する。従来
技術1では、構造化文書読込みステップ200にて、検
索条件として入力された入力構造化文書210を読み込
む。次に、検索ターム集合生成ステップ201にて、構
造間対応関係定義情報211を読み込み、各論理構造か
ら検索ターム(従来技術1では、“キーワード”と呼ん
でいる)を抽出し、検索対象構造および重みと共に検索
ターム集合212を生成する。そして検索ステップ20
2では、上記ステップ201にて生成された検索ターム
集合212を参照し、文書データベース中の文書に対し
てスコア(従来技術1では、確信度と呼んでいる)を算
出し、検索結果集合213を出力する。以上が、従来技
術1の処理手順である。
【0004】以下、図2に示した従来技術1の各処理ス
テップについて、具体的に説明する。本図に示した例で
は、コンピュータ製品に対するQA(Question and Ans
wer)事例データベースに対し、質問(Q)に基づいた
回答(A)を検索する場合の例である。従来技術1で
は、まずステップ200にて、検索条件として入力され
た入力構造化文書210を読み込む。そしてステップ2
01で、入力構造化文書210内の<製品名>、<表題>お
よび<質問文>の各論理構造から検索タームを抽出し、構
造間対応関係定義情報211に記された重みを検索ター
ムに付与する。すなわち、論理構造<製品名>の記述「AB
C100」からは、検索ターム“ABC100”を抽出し、重み3.
0を付与し、論理構造<表題>の記述「システムが起動で
きない原因」からは、検索ターム“システム”と“起
動”を抽出し、重み4.0を付与する。同様に、論理構造<
質問文>から検索ターム“ABC100”と“電源”を抽出
し、検索対象構造の種類に応じて2.0および1.0の重みを
それぞれ付与する。そして、上記のように抽出された検
索タームと重みを検索対象構造と共に検索ターム集合2
12に格納する。次にステップ202において、上記検
索ターム集合212を参照し、検索ターム、検索対象構
造および重みを取得する。そして全ての検索タームに対
して、各検索タームが文書データベースにおける各文書
の検索対象構造に出現するかを判定し、出現する場合に
は該文書のスコアに重みを加算する。この結果を検索結
果集合213として出力する。以上が従来技術1の各処
理ステップの具体的な説明である。以上説明したように
従来技術1では、構造間対応関係定義情報を保持し、種
文書側構造と検索対象側構造を対応づけた類似度算出を
行い、種文書側および検索対象側の論理構造が持つ意味
を考慮することで、検索ノイズの少ない高精度な類似文
書検索を実現している。
【0005】しかし従来技術1には、次の問題がある。
すなわち、日付や製品バージョンなどの書誌情報が文書
の論理構造に含まれている場合であっても、これらの書
誌情報が類似度の算出に適切に反映されていないという
問題である。図2に示した入力構造化文書210の代わ
りに、<製品バージョン>と<OS種別>の二つの論理構造が
加わった構造化文書301(図3)がコンピュータ製品
に対する質問として入力された場合を考える。この場
合、図2に示した構造間対応関係定義情報211を種文
書側構造と検索対象側構造の対応関係として用いたので
は、追加された論理構造を類似度算出に適切に反映する
ことができない。また、追加された二つの論理構造を検
索条件として付加するために、従来技術1に対して属性
検索を組み合わせて検索する情報検索装置(以下、従来
技術2と呼ぶ)が「特開平11−45249」に開示さ
れている。しかし従来技術2を用いたとしても、属性情
報を表す論理構造である〈製品バージョン〉や〈OS種
別〉に記述された値が検索条件と完全に合致する文章だ
けしか検索結果として取得することができず、同一内容
の質問文書が検索漏れになってしまう場合がある。ま
た、「特開平7−114573」に開示されている画像
検索装置では、登録画像に属性情報として付与されたキ
ーワード群と検索ターム群が一致する割合から類似度を
算出しているが、日付や製品バージョン等の書誌情報が
類似度に反映されていないという従来技術1の問題を解
決するものではない。以上が従来技術1の問題点であ
る。
【0006】
【発明の解決しようとする課題】このような問題に対
し、本発明では以下の課題を解決することを目的とす
る。すなわち、本発明の目的は、書誌情報に対する属性
検索や範囲検索等の検索結果を類似文書検索における類
似度算出に組み入れることで、書誌情報を加味した高精
度な類似文書検索方法を提供するという課題を解決する
ことにある。
【0007】
【課題を解決するための手段】上記目的を達成するた
め、本発明は、指定された文書あるいは文章(以下まと
めて種文書と呼ぶ)に内容が類似する文書を検索する類
似文書検索方法であり、ユーザに指定された、種文書と
文書データベースに登録されている文書(以下、登録文
書と呼ぶ)との類似度の算出方法定義(以下、類似度算
出方法定義と呼ぶ)を登録する類似度算出方法定義登録
ステップと、ユーザに指定された種文書と、前記類似度
算出方法定義に基づき類似文書の検索を行なう類似文書
検索ステップを有するようにしている。また、前記類似
度算出方法定義登録ステップは、種文書側から検索に用
いるテキストを抽出する論理構造(以下、種文書側構造
と呼ぶ)と、登録文書の検索対象とする論理構造(以
下、検索対象構造と呼ぶ)の構造間対応関係定義を登録
するステップと、前記構造間対応関係定義に対して、該
対応構造間の構造間類似度算出方法定義を登録するステ
ップと、前記定義された構造間類似度算出方法を組み合
わせて登録文書全体の類似度(以下、統合類似度と呼
ぶ)を算出するための統合類似度算出方法定義を登録す
るステップを有し、前記類似文書検索ステップは、ユー
ザに指定された検索条件を解析し、検索条件中に記載さ
れた種文書から種文書の論理構造に対応する構造別テキ
ストを抽出するステップと、検索条件として指定された
統合類似度算出方法定義を読み込むステップと、前記読
み込まれた統合類似度算出方法定義を解析し、対応する
構造間対応関係定義を読み込むステップと、前記読み込
まれた統合類似度算出方法定義を解析し、対応する前記
構造間類似度算出方法定義を読み込むステップと、前記
抽出された構造別テキストと、前記読み込まれた構造間
対応関係定義と、前記読み込まれた構造間類似度算出方
法定義を参照し、該構造間類似度算出方法定義に基づ
き、該構造別テキストと検索対象構造の対応構造別類似
度を算出するステップと、前記読み込まれた統合類似度
算出方法定義に基づき、前記算出された対応構造別類似
度を用いて統合類似度を算出するステップを有するよう
にしている。また、前記構造間類似度算出方法定義は、
文書に記述された内容に対して属性を表す情報(以下、
属性情報と呼ぶ)から類似度を算出する属性構造間類似
度算出方法定義を有するようにしている。また、前記構
造間対応関係定義を登録するステップは、構造間対応関
係定義時に、該検索対象構造の登録文書での存在を判定
するステップと、該判定の結果、該登録文書に該検索対
象構造が存在しない場合には、既に登録されている構造
間対応関係定義ファイルの中から関係する対応関係を提
示するステップを有するようにしている。また、前記構
造間対応関係定義を登録するステップは、種文書側構造
と検索対象側構造を表示するステップと、該ステップで
表示された種文書側構造と検索対象側構造の中から、ユ
ーザに選択された構造を、構造間対応関係定義として登
録するステップを有するようにしている。
【0008】
【発明の実施の形態】以下、本発明の第一の実施例につ
いて図1を用いて説明する。本発明を適用した類似文書
検索システムの第一例は、ディスプレイ100、キーボ
ード101、中央演算処理装置(CPU)102、磁気
ディスク装置103、フロッピディスクドライブ(FD
D)104、主メモリ105およびこれらを結ぶバス1
06から構成される。磁気ディスク装置103は二次記
憶装置の一つであり、構造間対応関係定義ファイル18
3、構造間類似度算出方法定義ファイル184および統
合類似度算出方法定義ファイル185が格納される。F
DD104を介してフロッピディスク107に格納され
ている情報が、主メモリ105あるいは磁気ディスク装
置103へ読み込まれる。主メモリ105には、システ
ム制御プログラム110、類似度算出セット作成登録制
御プログラム111、検索制御プログラム112、構造
間対応関係定義登録プログラム120、構造間類似度算
出方法定義登録プログラム121、統合類似度算出方法
定義登録プログラム122、検索条件式解析プログラム
130、統合類似度算出方法定義読込プログラム13
1、対応構造別類似度算出プログラム132、統合類似
度算出プログラム133および共有ライブラリ160が
格納されると共にワークエリア161が確保される。
【0009】検索条件式解析プログラム130は後述す
るように共有ライブラリ160に格納されている構造化
文書解析プログラム170を呼び出す構成をとる。統合
類似度算出方法定義読込プログラム131は統合類似度
算出方法定義解析プログラム140で構成される。対応
構造別類似度算出プログラム132は、構造間対応関係
定義読込プログラム141および構造間類似度算出方法
定義読込プログラム142で構成される。共有ライブラ
リ160は、構造化文書解析プログラム170で構成さ
れる。類似度算出セット作成登録制御プログラム111
および検索制御プログラム112は、ユーザによるキー
ボード101からの指示に応じてシステム制御プログラ
ム110によって起動され、それぞれ構造間対応関係定
義登録プログラム120、構造間類似度算出方法定義登
録プログラム121および統合類似度算出方法定義登録
プログラム122の制御と、検索条件式解析プログラム
130、統合類似度算出方法定義読込プログラム13
1、対応構造別類似度算出プログラム132および統合
類似度算出プログラム133の制御を行なう。
【0010】なお本例では、キーボード101から入力
されたコマンドにより、類似度算出セット作成登録制御
プログラム111や検索制御プログラム112が起動さ
れるものとしたが、他の入力装置を介して入力されたコ
マンドにより起動されるものであってもかまわない。ま
た、これらのプログラムを磁気ディスク装置103、フ
ロッピディスク107、MO、CD−ROM、DVD
(図には示していない)等の記憶媒体に格納し、駆動装
置を介して主メモリ105に読み込み、CPU102に
よって実行することが可能である。
【0011】以下、本実施例における類似文書検索シス
テムの処理手順について説明する。まず、システム制御
プログラム110の処理手順について図4のPAD(Pr
oblem Analysis Diagram)図を用いて説明する。システ
ム制御プログラム110は、まずステップ400で、キ
ーボード101から入力されたコマンドを解析する。そ
してステップ401で、この結果が類似度算出定義登録
実行のコマンドであると解析された場合には、ステップ
402で類似度算出セット作成登録制御プログラム11
1を起動して、類似度算出定義の登録を行なう。またス
テップ401で、検索実行のコマンドであると解析され
た場合には、ステップ403で検索制御プログラム11
2を起動して、類似文書の検索を行なう。 以上が、シ
ステム制御プログラム110の処理手順である。
【0012】次に、図4に示したステップ402でシス
テム制御プログラム110により起動される類似度算出
セット作成登録制御プログラム111の処理手順につい
て、図5のPAD図を用いて説明する。類似度算出セッ
ト作成登録制御プログラム111は、まずステップ50
0で、構造間対応関係定義登録プログラム120を起動
し、キーボード101から入力された、種文書と検索対
象文書の構造の対応関係定義を構造間対応関係定義ファ
イル183へ登録する。次にステップ501で、構造間
類似度算出方法定義登録プログラム121を起動し、キ
ーボード101から入力された、構造間の類似度算出方
法定義を構造間類似度算出方法定義ファイル184へ登
録する。そして、ステップ502で、統合類似度算出方
法定義登録プログラム122を起動し、キーボード10
1から入力された、統合類似度算出方法定義を統合類似
度算出方法定義ファイル185へ登録する。以上が、類
似度算出セット作成登録制御プログラム111の処理手
順である。なお、この例では構造間対応関係定義、対応
構造別の類似度算出方法定義および統合類似度算出方法
定義は、キーボード101から入力されるものとした
が、他の入力装置を介して入力されるものとしてもかま
わない。また本例では、類似度算出セット作成登録プロ
グラム111により構造間対応関係定義登録プログラム
120、構造間類似度算出方法定義登録プログラム12
1および統合類似度算出方法定義登録プログラム122
が全て起動されるものとしたが、キーボード101ある
いは他の入力手段から入力されたコマンドに対応したプ
ログラムがそれぞれ起動されるものとしてもよい。
【0013】次に、図5に示したステップ500で類似
度算出セット作成登録制御プログラム111により起動
される構造間対応関係定義登録プログラム120の処理
手順について、図6を用いて具体的に説明する。構造間
対応関係定義登録プログラム120は、まずステップ6
00で、種文書と検索対象文書の構造間の対応関係定義
610を構造間対応関係定義ファイル183へ登録す
る。次にステップ601で構造間対応関係定義管理ID6
11を出力する。本図に示す種文書と検索対象文書の構
造間の対応関係定義610では、種文書側の論理構造
“質問文”に対して、検索対象文書側の論理構造“回答
文”を対応づけることを示す。次に本対応関係定義61
0は、構造間対応関係定義ファイル183へ追加登録さ
れ、構造間対応関係定義管理ID611として“S06”が
出力される。以上が、構造間対応関係定義登録プログラ
ム120の具体的な処理手順である。本例では、構造間
対応関係定義ファイル183に対し、対応関係定義61
0が追加登録されるものとしたが、対応関係定義の重複
を排除して登録するものとしてもよい。なお本例では、
種文書側の論理構造“質問文”に対して、検索対象文書
側の論理構造“回答文”を対応付ける例を用いて、構造
間対応関係定義登録プログラム120の処理手順を説明
したが、本構造間対応関係定義登録プログラム120は
属性情報を表す構造(以下、属性構造と呼ぶ)を対応づ
けて登録することができる。図6に示した構造間対応関
係定義ファイル183の例では、“製品バージョン”や
“OS種別”等の属性構造間の対応関係が構造間対応関
係定義ID“S01”や“S02”として登録されている。
【0014】次に、図5に示したステップ501で類似
度算出セット作成登録制御プログラム111により起動
される構造間類似度算出方法定義登録プログラム121
の処理手順について、図7を用いて具体的に説明する。
構造間類似度算出方法定義登録プログラム121は、ま
ずステップ700で、構造間類似度算出方法定義710
を構造間類似度算出方法定義ファイル184へ登録す
る。そしてステップ701で構造間類似度算出方法定義
管理ID711を出力する。図7に示した構造間類似度算
出方法710では、対応する属性構造間の“主バージョ
ン”と“副バージョン”を比較し、“主バージョン”お
よび“副バージョン”が一致する場合には類似度1.0を
“主バージョン”は一致するが“副バージョン”が一致
しない場合には類似度0.7を、“主バージョン”が一致
しない場合には類似度0.0を、それぞれ対応構造別類似
度として算出する。本図に示す構造間類似度算出方法7
10では、対応する構造間の主バージョンと副バージョ
ンを比較し、主バージョンおよび副バージョンが一致す
る場合には類似度1.0を、主バージョンは一致するが副
バージョンが一致しない場合には類似度0.7を、主バー
ジョンが一致しない場合には類似度0.0を、それぞれ対
応構造別類似度として算出する。次に、本構造間類似度
算出方法定義710は、構造間類似度算出方法定義ファ
イル184へ追加登録され、構造間類似度算出方法定義
管理ID711として“E03”が出力される。ここで図7
には、構造別類似度算出方法定義として具体的な算出式
が登録されるものとして図示したが、構造間類似度算出
方法定義管理ID“E01”に示したように構造間類似度算
出ライブラリ(図1には示していない)の実体と引数を
登録するものとしてもよい。この場合、後述する対応構
造別類似度算出プログラム132による対応構造別類似
度算出時に、該当する構造間類似度算出ライブラリを用
いて対応構造別類似度を算出する。以上が、構造間類似
度算出方法定義登録プログラム121の具体的な処理手
順である。なお、本例では、構造間類似度算出方法定義
ファイル184に対し、構造間類似度算出方法定義71
0が追加登録されるものとしたが、構造間類似度算出方
法定義の重複を排除して登録するものとしてもよい。
【0015】次に、図5に示したステップ502で類似
度算出セット作成登録制御プログラム111により起動
される統合類似度算出方法定義登録プログラム122の
処理手順について、図8を用いて具体的に説明する。統
合類似度算出方法定義登録プログラム122は、まずス
テップ800で、統合類似度算出方法定義810を統合
類似度算出方法定義ファイル185へ登録する。本図で
は、統合類似度算出方法定義810を“算出方法=E03
(S01)×20 + E03(S02)×10 + E01(S03)×30 + E02(S04)
×20 + E01(S05)×10 + E01(S06)×10”として定義して
いる。ここで統合類似度算出方法定義中の“E03(S01)”
は、構造間の対応関係を指す構造間対応関係定義“S0
1”に対し、構造間類似度算出方法定義“E03”を適用す
ることを表す。また、統合類似度算出方法定義中の“×
20”は、構造間対応関係定義管理IDと構造間類似度算出
方法管理IDの組“E03(S01)”に対して“20”という相対
重みを付与することを表す。すなわち“E03(S01)×20”
は、種文書側と検索対象文書の論理構造“製品バージョ
ン”に対して、構造間類似度算出方法定義710を適用
し、その相対重みとして20を付与することを表してい
る。このように本統合類似度算出方法定義810では、
着目する度合いの高い構造間の対応構造別類似度に対し
て高い重みを付与しており、類似性判断として優先度の
高い対応構造関係を統合類似度に反映することが可能と
なる。本例では、構造間の対応関係“S03”に対して高
い重みを付与することにより、“表題”を優先した類似
文書検索を要求していることになる。次に、ステップ8
01で、統合類似度算出方法定義管理ID811を出力す
る。本図に示した例では、上記統合類似度算出方法定義
810は統合類似度算出方法定義ファイル185へ追加
登録され、統合類似度算出方法定義管理ID811として
“TE02”が出力されている。また、本図には、統合類似
度算出方法定義810として具体的な算出式が登録され
るものとして図示したが、統合類似度算出ライブラリ
(図1には示していない)の実体と引数を登録するもの
としてもよい。この場合、後述する統合類似度算出プロ
グラム133による統合類似度算出時に、該当する統合
類似度算出ライブラリを用いて統合類似度を算出する。
以上が、統合類似度算出方法定義登録プログラム122
の具体的な処理手順である。
【0016】本例では、“製品バージョン”、“OS種
別”、“表題”、“製品名”、“質問文”、“回答文”
を構造間の対応関係定義に用いたが、“質問日時”や
“製品出荷日”(図3には示していない)等の日付情
報、“質問者氏名”や“質問者所属”(図3には示して
いない)等の質問者に関する属性情報等の論理構造を用
いることも可能である。さらに本例では統合類似度算出
方法を、対応構造別類似度算出方法と構造間対応関係の
組に対して任意の重みを付与し、その総和を算出するも
のとして定義したが、この他の演算方法を用いるものと
してもかまわない。例えば、“E03(S01)”の値が0.7以
上の登録文書に対して統合類似度算出方法定義“TE02”
を適用する、というように条件演算を用いるものであっ
てもかまわないし、“E03(S01)”と“E03(S02)”の大き
い方(あるいは、小さい方)の値を参照する等の演算を
用いるものであってもかまわない。
【0017】次に、図4に示したステップ403でシス
テム制御プログラム110により起動される検索制御プ
ログラム112の処理手順について、図9のPAD図を
用いて説明する。検索制御プログラム112は、まずス
テップ900で、検索条件式解析プログラム130を起
動し、キーボード101から入力された検索条件式中に
記述された統合類似度算出方法定義管理IDと種文書を抽
出し、ワークエリア161に格納する。次に統合類似度
算出方法定義読込プログラム131を起動し、ワークエ
リア161に格納された統合類似度算出方法定義管理ID
に対応する統合類似度算出方法定義を統合類似度算出方
法定義ファイル185から読み込み、ワークエリア16
1に格納する。次に統合類似度算出方法定義中に記述さ
れた全ての構造間対応関係定義管理IDと構造間類似度算
出方法定義管理IDの組に対して、ステップ903を繰り
返し実行する(ステップ902)。ステップ903で
は、対応構造別類似度算出プログラム132を起動し、
対応構造別類似度を算出し、ワークエリア161に格納
する。そしてステップ904では、統合類似度算出プロ
グラム133を起動し、ワークエリア161に格納され
た構造別類似度と統合類似度算出方法定義に基づき統合
類似度を算出する。以上が、検索制御プログラム112
の処理手順である。
【0018】次に、図9に示したステップ900で検索
制御プログラム112により起動される検索条件式解析
プログラム130の処理手順について、図10のPAD
図を用いて説明する。検索条件式解析プログラム130
は、まずステップ1000で、キーボード101から入
力された検索条件式を解析し、統合類似度算出方法定義
管理IDと種文書を抽出する。次に、ステップ1001で
共有ライブラリ160から構造化文書解析プログラム1
70を呼び出し、上記ステップ1000で検索条件式か
ら抽出した種文書を解析し、構造別テキストを抽出す
る。そして、ステップ1002で、統合類似度算出方法
定義管理IDと構造別テキスト(具体例として、例えば、
後述する図13における1303〜1309)をワーク
エリア161に格納する。以上が、検索条件式解析プロ
グラム130の処理手順である。なお、前記検索制御プ
ログラム112におけるステップ900および上記検索
条件式解析プログラム130のステップ1000では、
キーボード101から検索条件式が入力されるものとし
たが、他の入力手段を介して入力されるものとしてもよ
い。また、上記検索条件式解析プログラム130により
ステップ1001で共有ライブラリ160から呼び出さ
れる構造化文書解析プログラム170として、SGML
(Standard Generalized Markup Language)やXML等の
解析対象とする構造化文書の種類に応じた解析プログラ
ムを用いることができる。これにより、SGMLやXM
L等の構造化文書だけでなくワードプロセッサ等で作成
した文書も構造化文書として解析することが可能とな
る。
【0019】次に、図9に示したステップ901で検索
制御プログラム112により起動される統合類似度算出
方法定義読込プログラム131の処理手順について、図
11のPAD図を用いて説明する。統合類似度算出方法
定義読込プログラム131は、まずステップ1100
で、ワークエリア161に格納された統合類似度算出方
法定義管理IDに対応する統合類似度算出方法定義を統合
類似度算出方法定義ファイル185から読み込む。次
に、ステップ1101で統合類似度算出方法定義解析プ
ログラム140を起動し、ワークエリア161に格納さ
れた統合類似度算出方法定義を解析し、統合類似度算出
方法定義中に出現する構造間対応関係定義管理IDと構造
間類似度算出方法定義管理IDの組を抽出し、ワークエリ
ア161へ格納する。以上が、統合類似度算出方法定義
読込プログラム131の処理手順である。
【0020】次に、図9に示したステップ903で検索
制御プログラム112により起動される対応構造別類似
度算出プログラム132の処理手順について、図12の
PAD図を用いて説明する。対応構造別類似度算出プロ
グラム132は、まずステップ1200で、構造間対応
関係定義読込プログラム141を起動し、構造間対応関
係定義管理IDに対応する構造間対応関係定義を読み込
み、対応する構造別テキストをワークエリア161から
読み込む。そしてステップ1201で、構造間類似度算
出方法定義読込プログラム142を起動し、構造間類似
度算出方法定義管理IDに対応する対応構造別類似度算出
方法を読み込む。次に、ステップ1202において、上
記ステップ1200で読み込んだ構造別テキスト、構造
間対応関係定義および上記ステップ1201で読み込ん
だ対応構造別類似度算出方法定義に基づき、対応構造別
類似度を算出し、ワークエリア161へ格納する。以上
が、対応構造別類似度算出プログラム132の処理手順
である。
【0021】次に、図9に示したステップ900で検索
制御プログラム112により起動される検索条件式解析
プログラム130の処理手順について、図13を用いて
具体的に説明する。検索条件式解析プログラム130で
は、まずステップ1000でキーボード101から入力
された検索条件式を解析し、統合類似度算出方法定義管
理IDと種文書を抽出する。本図に示した例では、検索条
件式1300を解析し、統合類似度算出方法定義管理ID
1301“TE02”および種文書1302を抽出する。次
にステップ1001で、共有ライブラリ160から構造
化文書解析プログラム170を呼び出し、入力された種
文書を解析し、構造別テキストを抽出する。本図に示し
た例では、種文書1302から構造別テキストとして、
1303<質問者氏名>“山田太郎”、1304<質問日
時>“1993/6/22 12:00”、1305<製品名>“ABC10
0”、1306<製品バージョン>“02-10”、1307<O
S種別>“4.0”、1308<表題>“システムが起動でき
ない原因”および1309<質問文>“パーソナルコンピ
ュータABC100を購入しましたが、電源を投入してもシス
テムが起動しません。原因を教えてください。”を抽出
する。ここで、<質問者氏名>“山田太郎”は、種文書中
の論理構造“質問者氏名”から“山田太郎”という構造
別テキストが抽出されたことを表す。以上が、検索条件
式解析プログラム130の具体的な処理手順である。な
お、本図に示した検索条件式1300では、種文書を直
接記述する形式としたが、ファイル名やURL(uniform r
esource locator)等により外部記憶媒体あるいはネッ
トワーク等を介してアクセス可能な媒体に格納された文
書を参照する形式として入力することも可能である。ま
た、本図に示した構造別テキスト1303〜1309を
それぞれ入力する形式とし、構造化文書解析プログラム
170による解析処理を省略することも可能である。ま
た、本例では、キーボード101から検索条件式130
0が入力されるものとしたが、他の入力手段を介して入
力されるものとしてもよい。また、本例では、統合類似
度算出方法定義管理ID1301が検索条件式毎に入力さ
れるものとしたが、予め統合類似度算出方法定義管理ID
を指定しておき、検索条件式毎の入力を省略することも
可能である。
【0022】次に、図9に示したステップ901で検索
制御プログラム112により起動される統合類似度算出
方法定義読込プログラム131の処理手順について、図
14を用いて具体的に説明する。統合類似度算出方法定
義読込プログラム131では、まずステップ1100
で、ワークエリア161に格納された統合類似度算出方
法定義管理IDに対応する統合類似度算出方法定義を統合
類似度算出方法定義ファイル185から読み込む。本図
に示した例では、ワークエリア161に格納されている
統合類似度算出方法定義管理ID1301“TE02”に対応
する統合類似度算出方法定義1400“ 算出方法= E0
3(S01)×20 + E03(S02)×10 + E01(S03)×30 + E02(S0
4)×20+ E01(S05)×10 + E01(S06)×10”を読み込んで
いる。そして、ステップ1101で統合類似度算出方法
定義解析プログラム140を起動し、ワークエリア16
1に格納された統合類似度算出方法定義を解析し、統合
類似度算出方法定義中に出現する構造間対応関係定義管
理IDと構造間類似度算出方法定義管理IDの組を抽出し、
ワークエリア161へ格納する。本図に示した例では、
上記統合類似度算出方法定義1400から構造間対応関
係定義管理IDと構造間類似度算出方法定義管理IDの組1
401として“E03(S01)”、“E03(S02)”、“E01(S0
3)”、“E02(S04)”、“E01(S05)”、“E01(S06)”を抽
出している。以上が、統合類似度算出方法定義読込プロ
グラム131の具体的な処理手順である。
【0023】次に、図9に示したステップ903で検索
制御プログラム112により起動される対応構造別類似
度算出プログラム132の処理手順について、図15を
用いて具体的に説明する。対応構造別類似度算出プログ
ラム132は、前記統合類似度算出方法定義解析プログ
ラム140により統合類似度算出方法定義1400から
抽出された構造間対応関係定義管理IDと構造間類似度算
出方法定義管理IDの組1401に対して、次のステップ
1200〜1202を繰り返し実行する(ステップ90
2)。本図に示した例では、構造間対応関係定義管理ID
と構造間類似度算出方法定義管理IDの組1401から抽
出された“E03(S01)”に対して以下説明する。まずステ
ップ1200で、構造間対応関係定義読込プログラム1
41を起動し、構造間対応関係定義管理IDに対応する構
造間対応定義を構造間対応関係定義ファイル183から
読み込み、構造間対応定義中の種文書側構造に対応する
構造別テキストをワークエリア161から読み込む。本
図に示した例では、構造間対応関係定義管理ID“S01”
に対応する構造間対応関係として種文書側構造“製品バ
ージョン”および検索対象側構造“製品バージョン”が
抽出される。そして、種文書側構造“製品バージョン”
に対応する構造別テキスト1306<製品バージョン>
“02-10”がワークエリア161から読み込まれる。次
にステップ1201で、構造間類似度算出方法定義読込
プログラム142を起動し、構造間類似度算出方法定義
管理IDに対応する構造間類似度算出方法定義を構造間類
似度算出方法定義ファイル184から読み込む。本図に
示した例では、構造間類似度算出方法定義管理ID“E0
3”に対応する構造間類似度算出方法定義が構造間類似
度算出方法定義ファイル184から読み込まれる。そし
て、ステップ1202で、上記ステップ1200で読み
込まれた構造別テキスト1306、構造間対応関係定義
および上記ステップ1201で読み込まれた構造別類似
度算出方法定義に基づき文書データベース中の文書に対
して対応構造別類似度を算出し、ワークエリア161へ
格納する。本図に示した例では、本算出結果として対応
構造別類似度1500がワークエリア161へ格納され
る。以上が、対応構造別類似度算出プログラム132の
具体的な処理手順である。
【0024】次に、図9に示したステップ904で検索
制御プログラム112により起動される統合類似度算出
プログラム133の処理手順について、図16を用いて
具体的に説明する。統合類似度算出プログラム134
は、対応構造別類似度算出プログラム132により算出
された対応構造別類似度を前記統合類似度算出方法定義
読込プログラム131により読み込まれた統合類似度算
出方法定義に基づき算出する。本図に示した例では、ス
テップ1600において、対応構造別類似度1500〜
1502・・・および統合類似度算出方法定義1400
に基づき統合類似度1610を算出し、ワークエリア1
61へ出力している。以上が、統合類似度算出プログラ
ム133の具体的な処理手順である。以上が、本発明の
第一の実施例である。
【0025】以上説明したように、本発明の第一の実施
例によれば、属性情報についての類似度も統合類似度に
組み込んで算出することができるようになるため、ユー
ザは属性情報を考慮した類似文書を取得できるようにな
り、精度の高い検索結果を取得することができるように
なる。また本発明によれば、検索実行時に任意の統合類
似度算出方法定義を選択することが可能となり、ユーザ
の検索目的に応じて構造間の対応関係定義を用いた類似
文書検索を実現することが可能となる。
【0026】次に、本発明の第二の実施例について図1
8を用いて説明する。本発明を適用した類似文書検索シ
ステムの第二例は、種文書側構造と検索対象側構造の対
応関係定義登録時に、検索対象側構造が既登録文書の論
理構造として存在するか否かを判定し、存在しない場合
には既に登録されている構造間対応関係定義ファイルの
中から関係する対応関係を提示するものである。すなわ
ち、本方法によれば、構造間対応関係定義として不適切
な検索対象側構造が指定された場合には、関係する構造
間対応関係定義を提示することにより、不適切な構造間
対応関係定義の登録を未然に防止できるようになる。本
実施例は、第一の実施例(図1)とほぼ同様の構成を取
るが、構造間対応関係定義登録プログラム120の構成
が異なり、図17に示すように検索対象構造存在判定プ
ログラム1700および構造間対応関係提示プログラム
1701を有する。
【0027】以下、本実施例における処理手順のうち、
第一の実施例とは異なる構造間対応関係定義登録プログ
ラム120aの処理手順について、図18を用いて説明
する。本実施例における構造間対応関係定義登録プログ
ラム120aでは、まずステップ1800で、キーボー
ド101から入力された種文書と検索対象文書の構造間
の対応関係を解析し、種文書側構造および検索対象側構
造を抽出する。次にステップ1801で、検索対象構造
存在判定プログラム1700を起動し、検索対象側構造
の存在を判定する。そして検索対象側構造が存在する場
合にはステップ1802を実行し、種文書側構造と検索
対象側構造の対応関係定義を構造間対応関係定義ファイ
ル183へ登録する。また、検索対象側構造が存在しな
い場合にはステップ1803を実行し、構造間対応関係
提示プログラム1701を起動し、構造間対応関係定義
ファイル183から関係する構造間対応関係定義を選択
し、出力する。以上が、構造間対応関係定義登録プログ
ラム120aの処理手順である。
【0028】次に、本実施例における構造間対応関係定
義登録プログラム120aの処理手順について、図19
を用いて具体的に説明する。構造間対応関係定義登録プ
ログラム120aでは、まずステップ1800で、キー
ボード101から入力された種文書と検索対象文書の構
造間対応関係定義を解析し、種文書側構造および検索対
象側構造を抽出する。本図に示した例では、種文書側構
造と検索対象側構造の構造間対応関係定義1910“種
文書:質問文->検索対象文書:応対文”を解析する。こ
こで、種文書側構造と検索対象側構造の構造間対応関係
定義1910“種文書:質問文->検索対象文書:応対
文”は、種文書側の論理構造“質問文”と検索対象文書
側の論理構造“応対文”を対応させることを表してい
る。本構造間対応関係定義の解析結果として、種文書側
構造1911“質問文”および検索対象側構造1912
“応対文”を出力する。次にステップ1801で、検索
対象構造存在判定プログラム1700を起動し、検索対
象側構造の存在を判定する。この検索対象側構造の存在
の判定に関しては、特開平10−240752等に開示
される方法を用いてもよい。本図に示した例では、検索
対象構造1912“応対文”が存在しないものとして、
以下を説明する。すなわち、検索対象側構造が存在しな
い場合にはステップ1803を実行し、構造間対応関係
提示プログラム1701を起動し、構造間対応関係定義
ファイル183から関係する構造間対応関係定義を選択
し、出力する。本図に示した例では、検索対象側構造1
912“応対文”に対応する論理構造が登録文書中に存
在しないため、ステップ1803で起動される構造間対
応関係提示プログラム1701では、構造間対応関係定
義ファイル183を参照し、種文書側構造1911“質
問文”が一致する構造間対応関係定義1913を出力し
ている。以上が、構造間対応関係定義登録プログラム1
20aの具体的な処理手順である。本例では、種文書側
構造と検索対象側構造の構造間対応関係定義1910が
キーボード101から入力されるものとしたが、他の入
力手段を介して入力されるものとしてもよい。
【0029】また、本例におけるステップ1803で起
動される構造間対応関係提示プログラム1701では、
種文書側構造1911が一致する構造間対応関係定義を
構造間対応関係定義ファイル183から選択し、出力す
るものとしたが、他の基準により選択された構造間対応
関係定義を出力するものとしてもよい。例えば、統合類
似度算出方法定義ファイル185に登録されている統合
類似度算出方法定義に出現する全ての構造間対応関係定
義としてもよいし、該統合類似度算出方法定義中に最も
多く出現する構造間対応関係定義としてもよいし、ある
いは、最後に登録された最新の構造間対応関係定義とし
てもよい。また、本例では検索対象側構造1912に対
応する論理構造が登録文書中に存在しない場合として説
明したが、登録文書から文書を選択し、該文書を種文書
として検索に用いる場合等には、ステップ1801にお
いて検索対象側構造の存在を判定するだけでなく、種文
書側構造の存在を判定してもよい。この場合の処理は、
検索対象側構造を種文書側構造と入れ替えることにより
容易に実現することができる。以上が、本発明の第二の
実施例である。以上説明したように、本発明の第二の実
施例によれば構造間対応関係定義として不適切な検索対
象側構造が指定された場合には、関係する構造間対応関
係定義を提示することにより、不適切な構造間対応関係
定義の登録を未然に防止できるようになる。
【0030】次に、本発明の第三の実施例について図2
0を用いて説明する。本発明を適用した類似文書検索シ
ステムの第三の実施例は、種文書側構造と検索対象側構
造の対応関係定義登録時に、画面上に既登録文書の構造
を表示し、該表示画面上から種文書側構造および検索対
象側構造を選択する構造間対応関係定義登録インタフェ
ースを備えたものである。すなわち、本方法によれば、
登録文書の論理構造を熟知していないユーザであって
も、構造間対応関係定義を登録することが可能となる。
また、登録文書の論理構造を熟知しているユーザであっ
ても、構造間対応関係定義をキーボード101を介して
入力する必要がなくなり、ユーザの負担を軽減すること
が可能となる。本実施例は、第一の実施例(図1)と同
様の構成を取るが、ディスプレイ100上に表示される
画面インタフェース2000を有する。
【0031】以下、本実施例における処理手順のうち、
第一の実施例とは異なる画面インタフェース2000に
ついて、図20を用いて説明する。本実施例におけるデ
ィスプレイ100上に表示される画面インタフェース2
000には、種文書側構造を指定する種文書側構造指定
枠2010、検索対象側構造を指定する検索対象側構造
指定枠2011、構造間対応関係定義の登録実行を指示
する構造間対応関係登録ボタン2012および構造間対
応関係定義登録を中止するキャンセルボタン2013を
有する。本図に示した例では、種文書側構造指定枠20
10で“OS種別”が選択され、同様に検索対象側構造指
定枠2011で“OS種別”が選択され、それぞれチェッ
クマークが付与されていることを示している。本図に示
した状態で、構造間対応関係登録ボタン2012を押す
と、類似度算出セット作成登録制御プログラム111が
起動され、構造間対応関係定義登録プログラム120が
実行される。この結果、種文書側構造“OS種別”と検索
対象側構造“OS種別”の組が構造間対応関係定義ファイ
ル183へ登録される。また、本図に示した状態で、キ
ャンセルボタン2013を押すと、構造間対応関係定義
の登録が中止され、本画面インタフェース2000が終
了する。以上が、画面インタフェース2000の具体的
な説明である。
【0032】なお、本図では、種文書側構造および検索
対象側構造を木構造で示しているが、プルダウンメニュ
ー等により選択するものとしてもよい。また本図では、
複数のDTDで表される論理構造を一つの木構造として表
現したが、複数の木構造として表現してもかまわない。
さらに本図では、種文書側構造と検索対象側構造を同一
DTDで規定される論理構造から選択するものとして示し
たが、異なるDTDで規定される論理構造から選択される
ものとしてもかまわない。これにより、例えば、複数の
DTDで表される文書が登録された文書データベースに対
する検索条件における構造間対応関係を定義することが
可能となる。以上が、本発明の第三の実施例である。以
上説明したように、本発明の第三の実施例によれば、登
録文書の論理構造を熟知していないユーザであっても、
構造間対応関係定義を登録することが可能となる。ま
た、登録文書の論理構造を熟知しているユーザであって
も、構造間対応関係定義をキーボード101を介して入
力する必要がなくなり、ユーザの負担を軽減することが
可能となる。
【0033】
【発明の効果】以上説明したように、本発明によれば、
書誌情報に対する属性検索や範囲検索等の結果を類似文
書検索システムの類似度算出結果と合わせて評価するこ
とができるようになり、書誌情報を加味した高精度な類
似文書検索方法を提供することができる。
【図面の簡単な説明】
【図1】本発明による類似文書検索システムの第一の実
施例の全体構成を示す図である。
【図2】従来技術1を説明するための図である。
【図3】従来技術1の問題点を説明するための例を示す
図である。
【図4】本発明の第一の実施例におけるシステム制御プ
ログラム110の処理手順を示すPAD図である。
【図5】本発明の第一の実施例における類似度算出セッ
ト作成登録制御プログラム111の処理手順を示すPA
D図である。
【図6】本発明の第一の実施例における構造間対応関係
定義登録プログラム120の処理手順を具体的に説明す
るための図である。
【図7】本発明の第一の実施例における構造間類似度算
出方法定義登録プログラム121の処理手順を具体的に
説明するための図である。
【図8】本発明の第一の実施例における統合類似度算出
方法定義登録プログラム122の処理手順を具体的に説
明するための図である。
【図9】本発明の第一の実施例における検索制御プログ
ラム112の処理手順を示すPAD図である。
【図10】本発明の第一の実施例における検索条件式解
析プログラム130の処理手順を示すPAD図である。
【図11】本発明の第一の実施例における統合類似度算
出方法定義読込プログラム131の処理手順を示すPA
D図である。
【図12】本発明の第一の実施例における対応構造別類
似度算出プログラム132の処理手順を示すPAD図で
ある。
【図13】本発明の第一の実施例における検索条件式解
析プログラム130の処理手順を具体的に説明するため
の図である。
【図14】本発明の第一の実施例における統合類似度算
出方法定義読込プログラム131の処理手順を具体的に
説明するための図である。
【図15】本発明の第一の実施例における対応構造別類
似度算出プログラム132の処理手順を具体的に説明す
るための図である。
【図16】本発明の第一の実施例における統合類似度算
出プログラム133の処理手順を具体的に説明するため
の図である。
【図17】本発明の第二の実施例における構造間対応関
係定義登録プログラム120aの構成を示す図である。
【図18】本発明の第二の実施例における構造間対応関
係定義登録プログラム120aの処理手順を示す図であ
る。
【図19】本発明の第二の実施例における構造間対応関
係定義登録プログラム120aの処理手順を具体的に説
明するための図である。
【図20】本発明の第三の実施例における構造間対応関
係定義登録プログラムの画面インタフェースの具体例を
示す図である。
【符号の説明】
100 ディスプレイ 101 キーボード 102 中央演算処理装置(CPU) 103 磁気ディスク装置 104 フロッピディスクドライブ(FDD) 105 主メモリ 106 バス 107 フロッピディスク 110 システム制御プログラム 111 類似度算出セット作成登録制御プログラム 112 検索制御プログラム 120 構造間対応関係定義登録プログラム 121 構造間類似度算出方法定義登録プログラム 122 統合類似度算出方法定義登録プログラム 130 検索条件式解析プログラム 131 統合類似度算出方法定義読込プログラム 132 対応構造別類似度算出プログラム 133 統合類似度算出プログラム 140 統合類似度算出方法定義解析プログラム 141 構造間対応関係定義読込プログラム 142 構造間類似度算出方法読込プログラム 160 共有ライブラリ 161 ワークエリア 170 構造化文書解析プログラム
───────────────────────────────────────────────────── フロントページの続き (72)発明者 菅谷 奈津子 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所ビジネスソリューション開 発本部内 (72)発明者 山口 明彦 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所ビジネスソリューション開 発本部内 (72)発明者 稲場 靖彦 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所ビジネスソリューション開 発本部内 (72)発明者 後地 陽介 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア事業部内 Fターム(参考) 5B075 ND03 PP02 PP12 PP23 PQ02 PR06 QM08

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 指定された文書あるいは文章(以下まと
    めて種文書と呼ぶ)に内容が類似する文書を検索する類
    似文書検索方法であって、 ユーザに指定された、種文書と文書データベースに登録
    されている文書(以下、登録文書と呼ぶ)との類似度の
    算出方法定義(以下、類似度算出方法定義と呼ぶ)を登
    録する類似度算出方法定義登録ステップと、 ユーザに指定された種文書と、前記類似度算出方法定義
    に基づき類似文書の検索を行なう類似文書検索ステップ
    を有することを特徴とする類似文書検索方法。
  2. 【請求項2】 請求項1記載の類似文書検索方法におい
    て、 前記類似度算出方法定義登録ステップは、 種文書側から検索に用いるテキストを抽出する論理構造
    (以下、種文書側構造と呼ぶ)と、登録文書の検索対象
    とする論理構造(以下、検索対象構造と呼ぶ)の構造間
    対応関係定義を登録するステップと、 前記構造間対応関係定義に対して、該対応構造間の構造
    間類似度算出方法定義を登録するステップと、 前記定義された構造間類似度算出方法を組み合わせて登
    録文書全体の類似度(以下、統合類似度と呼ぶ)を算出
    するための統合類似度算出方法定義を登録するステップ
    を有し、 前記類似文書検索ステップは、 ユーザに指定された検索条件を解析し、検索条件中に記
    載された種文書から種文書の論理構造に対応する構造別
    テキストを抽出するステップと、 検索条件として指定された統合類似度算出方法定義を読
    み込むステップと、 前記読み込まれた統合類似度算出方法定義を解析し、対
    応する構造間対応関係定義を読み込むステップと、 前記読み込まれた統合類似度算出方法定義を解析し、対
    応する前記構造間類似度算出方法定義を読み込むステッ
    プと、 前記抽出された構造別テキストと、前記読み込まれた構
    造間対応関係定義と、前記読み込まれた構造間類似度算
    出方法定義を参照し、該構造間類似度算出方法定義に基
    づき、該構造別テキストと検索対象構造の対応構造別類
    似度を算出するステップと、 前記読み込まれた統合類似度算出方法定義に基づき、前
    記算出された対応構造別類似度を用いて統合類似度を算
    出するステップを有することを特徴とする類似文書検索
    方法。
  3. 【請求項3】 請求項2記載の類似文書検索方法におい
    て、 前記構造間類似度算出方法定義は、文書に記述された内
    容に対して属性を表す情報(以下、属性情報と呼ぶ)か
    ら類似度を算出する属性構造間類似度算出方法定義を有
    することを特徴とする類似文書検索方法。
  4. 【請求項4】 請求項2または請求項3記載の類似文書
    検索方法において、 前記構造間対応関係定義を登録するステップは、構造間
    対応関係定義時に、該検索対象構造の登録文書での存在
    を判定するステップと、 該判定の結果、該登録文書に該検索対象構造が存在しな
    い場合には、既に登録されている構造間対応関係定義フ
    ァイルの中から関係する対応関係を提示するステップを
    有することを特徴とする類似文書検索方法。
  5. 【請求項5】 請求項2乃至請求項4のいずれかの請求
    項記載の類似文書検索方法において、 前記構造間対応関係定義を登録するステップは、種文書
    側構造と検索対象側構造を表示するステップと、 該ステップで表示された種文書側構造と検索対象側構造
    の中から、ユーザに選択された構造を、構造間対応関係
    定義として登録するステップを有することを特徴とする
    類似文書検索方法。
  6. 【請求項6】 種文書側から検索に用いるテキストを抽
    出する論理構造(以下、種文書側構造と呼ぶ)と、登録
    文書の検索対象とする論理構造(以下、検索対象構造と
    呼ぶ)の構造間対応関係定義を登録する手順と、 前記構造間対応関係定義に対して、該対応構造間の構造
    間類似度算出方法定義を登録する手順と、 前記定義された構造間類似度算出方法を組み合わせて登
    録文書全体の類似度(以下、統合類似度と呼ぶ)を算出
    するための統合類似度算出方法定義を登録する手順と、 ユーザに指定された検索条件を解析し、検索条件中に記
    載された種文書から種文書の論理構造に対応する構造別
    テキストを抽出する手順と、 検索条件として指定された統合類似度算出方法定義を読
    み込む手順と、 前記読み込まれた統合類似度算出方法定義を解析し、対
    応する構造間対応関係定義を読み込む手順と、 前記読み込まれた統合類似度算出方法定義を解析し、対
    応する前記構造間類似度算出方法定義を読み込む手順
    と、 前記抽出された構造別テキストと、前記読み込まれた構
    造間対応関係定義と、前記読み込まれた構造間類似度算
    出方法定義を参照し、該構造間類似度算出方法定義に基
    づき、該構造別テキストと検索対象構造の対応構造別類
    似度を算出する手順と、 前記読み込まれた統合類似度算出方法定義に基づき、前
    記算出された対応構造別類似度を用いて統合類似度を算
    出する手順を有する類似文書検索プログラムを記録した
    コンピュータ読み取り可能な記録媒体。
  7. 【請求項7】 請求項6記載の類似文書検索プログラム
    を記録したコンピュータ読み取り可能な記録媒体におい
    て、 前記構造間類似度算出方法定義は、文書に記述された内
    容に対して属性を表す情報(以下、属性情報と呼ぶ)か
    ら類似度を算出する属性構造間類似度算出方法定義を有
    することを特徴とする類似文書検索プログラムを記録し
    たコンピュータ読み取り可能な記録媒体。
JP2000152482A 2000-05-24 2000-05-24 類似文書検索方法 Pending JP2001331527A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000152482A JP2001331527A (ja) 2000-05-24 2000-05-24 類似文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000152482A JP2001331527A (ja) 2000-05-24 2000-05-24 類似文書検索方法

Publications (1)

Publication Number Publication Date
JP2001331527A true JP2001331527A (ja) 2001-11-30

Family

ID=18657903

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000152482A Pending JP2001331527A (ja) 2000-05-24 2000-05-24 類似文書検索方法

Country Status (1)

Country Link
JP (1) JP2001331527A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005033972A1 (ja) 2003-09-30 2005-04-14 Intellectual Property Bank Corp. 類似率算出装置並びに類似率算出プログラム
JP2006031209A (ja) * 2004-07-14 2006-02-02 Ricoh Co Ltd 全文検索システム、全文検索方法、プログラムおよび記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005033972A1 (ja) 2003-09-30 2005-04-14 Intellectual Property Bank Corp. 類似率算出装置並びに類似率算出プログラム
JP2006031209A (ja) * 2004-07-14 2006-02-02 Ricoh Co Ltd 全文検索システム、全文検索方法、プログラムおよび記録媒体

Similar Documents

Publication Publication Date Title
US7844598B2 (en) Question answering system, data search method, and computer program
US7873680B2 (en) Hierarchical inherited XML DOM
US7765464B2 (en) Method and system for dynamically assembling presentations of web pages
US7895570B2 (en) Accessible role and state information in HTML documents
US20040243552A1 (en) Method, system, and apparatus for viewing data
US20070192673A1 (en) Annotating an audio file with an audio hyperlink
JP2001075969A (ja) 画像管理検索装置、画像管理検索方法及び記憶媒体
JP2007141090A (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US20090313536A1 (en) Dynamically Providing Relevant Browser Content
JP2007193697A (ja) 情報収集装置,情報収集方法およびプログラム
JP5151412B2 (ja) 表記ゆれ解析装置
JP3767763B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US7519578B2 (en) Ubiquitous search framework
JP2001331527A (ja) 類似文書検索方法
US7865488B2 (en) Method for discovering design documents
JP3851712B2 (ja) 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4074687B2 (ja) 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US7865489B2 (en) System and computer program product for discovering design documents
JP5439028B2 (ja) 情報検索装置、情報検索方法、およびプログラム
JP2002342342A (ja) 文書管理方法及びその実施システム並びにその処理プログラムと記録媒体
JP2001101207A (ja) 文書要約装置
JP7323484B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP4384736B2 (ja) 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3444592B2 (ja) 文書検索装置、クエリ出力装置、文書検索方法、クエリ出力方法、並びに、記録媒体
JP4034503B2 (ja) 文書検索システムおよび文書検索方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040318