JPH0744567A - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JPH0744567A
JPH0744567A JP5188243A JP18824393A JPH0744567A JP H0744567 A JPH0744567 A JP H0744567A JP 5188243 A JP5188243 A JP 5188243A JP 18824393 A JP18824393 A JP 18824393A JP H0744567 A JPH0744567 A JP H0744567A
Authority
JP
Japan
Prior art keywords
document
search
keyword
retrieval
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5188243A
Other languages
English (en)
Other versions
JP3023943B2 (ja
Inventor
Osamu Sato
理 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP5188243A priority Critical patent/JP3023943B2/ja
Publication of JPH0744567A publication Critical patent/JPH0744567A/ja
Application granted granted Critical
Publication of JP3023943B2 publication Critical patent/JP3023943B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 文書データベースから、文書そのものを検索
キーとして類似文書を検索し、一回の検索で必要十分な
検索結果を得る文書検索装置を提供する。 【構成】 入力文書1を解析し、文書構成要素に従った
重み付けをした検索キーワード集合3を生成する検索キ
ーワード集合生成手段2と、前記検索キーワード集合3
に基づき文書データベースを検索して、その結果得られ
た文書ごとに、マッチした各キーワードの重みを計算
し、検索結果文書に対する累計重みを得る文書検索手段
とから文書検索装置を構成する。検索結果には、入力文
書との類似度を表す累計重みが付加されているので、利
用者は、これを参考とすることにより、検索結果の取捨
選択を効率的に行うことができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書を蓄積した文書デ
ータベースから、利用者により入力された文書と類似の
内容を持つ文書を検索するための文書検索装置に関し、
特に、定型的な構造を持つ入力文書と類似の内容を持つ
文書を検索するための文書検索装置に関する。
【0002】
【従来の技術】近年、文書資源のデータベース化の進展
に伴って、蓄積された文書情報を効率的に再利用するた
めの手段が要求されている。例えば、QA(質問応答)
サービス業務においては、過去のQA事例をデータベー
ス化しておき、新たに受けた質問に対して、その質問と
類似の質問を持つQA事例をデータベースの中から簡単
に見つけることができるならば、業務の大幅な効率化が
期待できる。
【0003】通常、QAサービス業務では、顧客からの
質問自体も受付窓口で一定の型式に文書化される。した
がって、このような業務に、文書データベースシステム
を導入した場合、与えられた文書と類似した内容の文書
を探すといった目的で利用されることになるため、文書
そのものを検索キーとして類似文書を探す文書検索装置
が必要である。
【0004】従来の文書検索装置においては、単語単位
の検索キーと各検索キーによる検索結果間の集合演算方
法とを、検索式として与えることにより検索を行ってい
た。例えば、“文書”と“検索”という二つの単語を両
方とも含む文書を検索する場合には、“文書”AND
“検索”というような検索式を、利用者自身が入力しな
ければならない。
【0005】また、一つの検索式に対して複数の検索結
果がある場合、全ての検索結果は同等に出力され、各検
索結果の優劣を判断するための情報は出力されない。
【0006】
【発明が解決しようとする課題】以上説明したような従
来の文書検索装置を、与えられた文書と類似の文書を探
すという目的で利用する場合には、あらかじめ利用者自
身が、その文書を特徴づける単語を検索キーとして用意
する必要がある。しかし、与えられた文書と類似の文書
を漏れなく探すためには、様々な観点からの単語を用意
しなければならず、検索キーの数は非常に多くなるのが
普通である。
【0007】また、類似の文書という曖昧な選択基準を
表現するための検索式は、集合積や集合和などの単純な
集合演算のみで表現しようとする限り、非常に複雑なも
のになる。簡単な例として、A,B,Cの三つの単語を
検索キーとして、この中の二つ以上の単語を含む文書を
探すという条件は、集合積ANDおよび集合和ORのみ
を使うと、次のような検索式になる。
【0008】(A AND B)OR(A AND
C)OR(B AND C) 検索キーとする単語の数が増えると、このような検索式
は組合せ論的に長くなる。したがって、利用者は、あら
かじめ用意した検索キーの中から、検索式として表現可
能な程度の数の検索キーを選択して検索を行い、求める
結果が得られなければ、さらに別の検索キーを選択して
検索を行うという試行錯誤を繰り返すことになり、必要
十分な検索結果を得るのに時間がかかるという問題があ
った。
【0009】さらに、同じ検索キーで複数の文書が見つ
かった場合、その検索キーが文書中のどこに出現するか
によって、類似性を判断する際の重要度が異なる。例え
ば、“文書検索”という単語で検索して、この単語が、
章見出しの部分に含まれている文書と、本文中に含まれ
ている文書とでは、明らかに章見出しに含まれている文
書の方が、利用者にとって有用な情報である可能性が高
い。
【0010】従来の文書検索装置を利用して、上記のよ
うな検索結果の優劣を判断するには、検索対象を章見出
しまたは本文といった特定の文書構成要素に限定して数
回に渡る検索を行うか、あるいは文書全体を対象とした
検索の結果得られた文書に全て目を通す必要がある。し
たがって、検索結果の取捨選択に時間がかかるばかりで
なく、利用者に十分な文書読解力を要求しなければなら
ないという問題があった。
【0011】本発明は、上記問題点に鑑みなされたもの
であり、文書データベースから、文書そのものを検索キ
ーとして類似文書を検索し、一回の検索で必要十分な検
索結果を得る文書検索装置を提供することを目的とす
る。
【0012】
【課題を解決するための手段】図1および図2の両者に
より本発明の原理説明図を示す。図において、1は適当
なマーク付け言語を用いた入力構造化文書であり、利用
者が検索キーとして入力したものである。2は検索キー
ワード集合生成手段であり、入力構造化文書1を解析し
て、類似文書検索を行う上で必要な文書構成要素のみを
抽出した上で、それらの文書構成要素の内容に対して、
必要に応じて自動キーワード抽出や関連語展開などを行
うといった、文書構成要素の種類によって異なる規則を
適用して検索キーワード集合3を生成する。
【0013】3は検索キーワード集合生成手段2によっ
て生成された検索キーワード集合であるが、単なる検索
キーワードの羅列ではなく、後述の文書検索手段5での
類似文書検索が可能となるように構造化されて検索キー
ワードが格納されている。すなわち、入力構造化文書1
にもともと含まれていた単語である主キーワード3a
に、その単語を関連語などに展開して作られた展開キー
ワード3bがリンクされており、主キーワード3a同士
も互いにリンクされている。
【0014】各検索キーワードには、その検索キーワー
ドを生成するもととなった文書構成要素の種類などに応
じて算出された、類似文書検索におけるその検索キーワ
ードの重要性を示す重み3cが付加されている。重み3
cは0から100までの間の数値であるが、一つの主キ
ーワード系列、すなわち主キーワード3aとその展開キ
ーワード3bの重みの中では、主キーワードの重みが最
も高く、全ての主キーワードの重みの合計は100にな
るように調整されている。
【0015】なお、後述のデータベース4が構造化文書
データベースとして構成された場合には、各主キーワー
ド3aには、その主キーワード系列による検索の対象と
すべき、構造化文書データベース4中の文書の文書構成
要素名が、検索対象名3dとして格納されると良い。4
は文書データベースである。なお、この文書データベー
スは、入力構造化文書1に使用したのと同じマーク付け
言語を用いて構造化された文書が格納されるようにして
も良い。
【0016】5は文書検索手段であり、検索キーワード
集合3を用いて文書データベース4を検索し、その結果
得られた検索結果候補6の文書と入力構造化文書1との
類似性を評価するための確信度6aを算出する。すなわ
ち、まず、検索キーワード集合3中の一つの主キーワー
ド系列で検索を行い、その結果得られた文書は、中間検
索結果5aとして一時的に格納される。この際、中間検
索結果5a中の各文書の重み5bには、その文書がヒッ
トした検索キーワードの重み3cを格納するが、一つの
文書が複数の検索キーワードでヒットした場合には、そ
れらの検索キーワードの重みの中で最も大きな値を格納
する。
【0017】一つの主キーワード系列により検索が終了
したら、その主キーワード系列の中間検索結果5aを現
在までの検索結果候補6と比較し、現在までの検索結果
候補6中に存在しない中間検索結果5a中の文書につい
ては、その文書を検索結果候補6に追加し、その文書の
重み5bをそのまま確信度6aとして格納する。中間検
索結果5a中の文書が現在までの検索結果候補6中に既
に存在する場合は、検索結果候補6中のその文書の確信
度6aに現在の検索で得た重み5bを加算する。
【0018】一つの主キーワード系列による中間検索結
果5aを検索結果候補6に追加し終わったら、次の主キ
ーワード系列について同様の検索処理を実行する。全て
の主キーワード系列についての処理が終了した時点で、
文書検索手段5の処理を完了する。8は検索結果選別手
段であり、検索結果候補6の中から、確信度閾値7に設
定された値以上の確信度6aを持つものを選択し、最終
的な検索結果9として確信度9aと共に出力する。
【0019】
【作用】本発明における入力構造化文書1は、ISO8
879で制定されたSGML(Standard Generalized Ma
rkup Language)などのマーク付け言語を利用して構造化
したものである。すなわち、文書の表題、章題、本文と
いった文書構成要素の名前とその範囲が、適当な記号を
用いて文書中にマーク付けされている。このような構造
化の採用により、文書構造を考慮した検索が容易に実現
可能となる。
【0020】検索キーワード集合生成手段2では、入力
構造化文書1の文書構成要素の種類に応じて、その検索
キーワードに重要性に応じた重み3cが付加されるとい
った一連の処理により、類似文書検出のための検索キー
ワード集合3が自動的に生成される。したがって、利用
者は、どのような検索キーワードを用いてどのような手
順で検出すべきかといった問題を意識することなく、文
書そのものを検索キーとして入力するだけで、類似文書
の検索を行うことができる。
【0021】文書検索手段5により出力される検索結果
候補6の確信度6aは、検索キーワード集合3の構造と
文書検索手段5の処理方法によって、0から100まで
の間の数値となり、確信度6aが大きい文書ほど入力構
造化文書1との類似性が高いと判断することができる。
例えば、もし入力構造化文書1から直接抽出された全て
の主キーワード3aがその文書に含まれているなら、全
ての主キーワードの重みの合計は100になるように調
整されているから、その文書の確信度6aは100であ
る。一方、主キーワード3aではなく、展開キーワード
3bでヒットした文書の確信度は、展開キーワード3b
の重みが主キーワード3aの重み以下に設定されている
から、その分だけ確信度6aは小さくなる。
【0022】確信度6aは以上のようにして得られるの
であるから、確信度6aが小さいほど、その文書の内容
は入力構造化文書1の内容と相違していると考えること
ができる。確信度6aの非常に小さい文書は利用者が必
要としない文書である可能性が高い。一般的には、検索
結果候補6の大部分が確信度の小さい文書であるので、
全ての検索結果候補6をそのまま検索結果候補9として
出力することは利用者にとって好ましくない。
【0023】そこで、検索結果選別手段8では、検索結
果6の中から、適当な方法で決められた確信度閾値7に
設定された値以上の確信度6aを持つ文書を選別し、こ
れを最終的な検索結果9として出力する。したがって、
利用者にとって不必要な検索結果が大量に出力されると
いった問題を避けることができ、類似文書検索の結果と
して必要十分な検索結果を出力することができる。
【0024】検索結果9は、確信度9aが付加されて出
力されるので、利用者は確信度9aを参照することによ
り、検索結果の取捨選択を効率的に行うことができる。
また、文書データベース4を構造化文書データベースと
し、入力構造化文書1に使用したのと同じマーク付け言
語を用いて構造化された文書が格納されるようにした場
合には、さらに正確に類似性を判断することができる。
【0025】すなわち、検索キーワードの重み付けを、
入力文書1の文書構成要素と、前記文書データベース4
に格納された文書の文書構成要素である検索対象の両方
に従って行う。さらに、検索キーワード集合3の各主キ
ーワード3aに対してその主キーワード系列による検索
の対象とすべき、構造化文書データベース4中の文書の
文書構成要素名を検索対象名3dとして格納する。
【0026】そして、文書検索手段5は、構造化文書デ
ータベース4を検索する際、各検索キーワードと検索対
象名3dを用いて検索する。これにより、関連する文書
構成要素で検索キーワードが一致した文書に高い確信度
9aが与えられる。
【0027】
【実施例】図3および図4の両者により、本発明を自動
QA装置に適用した例の概略図を示す。図中、前記図1
および図2で示したものと同一のものは同一の符号を付
している。10は検索属性定義情報であり、入力構造化
文書1中の各文書構成要素から検索キーワード集合3を
生成する際に、どのような規則を適用するかなどを文書
構成要素の種類ごとに定義したものであり、外部より変
更可能なものである。
【0028】検索属性定義情報10は、文書構成要素名
10aと適用規則名10bと検索対象名10cと相対重
み10dとから構成される。文書構成要素名10aは、
検索キーワード集合3を生成するもととなる入力構造化
文書1中の文書構成要素名である。適用規則名10b
は、文書構成要素名10aで指定される文書構成要素か
ら検索キーワード集合3を生成する際に適用される規則
名であり、検索キーワード生成規則格納手段11に格納
されている規則の名前に対応し、必要に応じて複数の規
則名を指定することができる。
【0029】検索対象名10cは、文書構成要素10a
で指定される文書構成要素から生成された検索キーワー
ドによる検索の対象とする、構造化文書データベース4
中の文書の文書構成要素名であり、一つの文書構成要素
名10aに対して複数の検索対象名10cを指定するこ
とができる。相対重み10dは、一組の文書構成要素名
10aと検索対象名10cに対して一つ定義されるもの
であり、生成された検索キーワードの重要度を相対的な
数値で指定する。
【0030】11は検索キーワード生成規則格納手段で
あり、適用規則名10bで指定される、自動キーワード
抽出または関連語展開といった検索キーワード生成規則
の実体が、ハードウエア、またはソフトウェアにより部
品化されて格納されている。図5は、本実施例の入力構
造化文書1の一例であり、顧客からの質問をISO88
79の規約に従いSGML文書化したものである。各文
書構成要素は“<>”で囲まれたタグによってマーク付
けされている。
【0031】図6は、本実施例の構造化文書データベー
ス4に蓄積されている文書4nの例であり、過去になさ
れた質問に対して回答を付加したQA事例をSGML文
書化したものである。本実施例は、図5のような型式の
顧客からの質問文書1をそのまま検索キーとして、図4
のような過去のQA事例の文書4nを蓄積したデータベ
ースを検索し、質問に対する回答の参考になるようなQ
A事例を出力するものである。
【0032】以下に、図3および図4に基づき、本実施
例の動作を説明する。まず、検索属性定義情報10の内
容について説明する。検索属性定義情報10では、入力
構造化文書1中の“表題”、“製品名”、“質問文”の
三つの文書構成要素に対する検索属性が定義されてい
る。この三つ以外の文書構成要素、例えば“質問者氏
名”など類似検索を行う上で不要の情報は、検索属性定
義情報10の中に含まない。
【0033】図3の例では、適用規則名10bとして、
“自動キーワード抽出”、“関連語展開”の二種類が指
定されている。“自動キーワード抽出”は、文章中に含
まれる単語を自動的に抽出して主キーワード3aとする
ものであり、“表題”や“質問文”のように、自然文で
記入される文書構成要素に適用される。もし一つの文書
構成要素の内容から複数の単語が抽出された場合には、
その個数分の主キーワード3aが生成される。
【0034】しかし、“製品名”のようにもともと決め
られた単語が記入される文書構成要素に対しては、“自
動キーワード抽出”は適用せず、記入されている内容を
そのまま主キーワード3aとすればよい。“関連語展
開”は、文書構成要素の内容から直接抽出された単語を
主キーワード3aとして、さらにその単語の関連語も展
開キーワード3bとするものであり、類似文書検索をす
る上で必要な検索範囲の拡張を行うことができる。
【0035】“自動キーワード抽出”や“関連語展開”
を行うための手段は、検索キーワード生成規則格納手段
11の部品の一部として格納されているが、これらの手
段の説明は本発明の目的とするところではないので省略
する。検索対象名10cは、本実施例の場合、基本的に
は、文書構成要素名10aと同じである。すなわち、入
力構造化文書1中のある文書構成要素から生成された検
索キーワードは、構造化文書データベース4中の文書の
同じ文書構成要素を検索対象とする。
【0036】しかし、入力構造化文書1中の“質問文”
から生成された検索キーワードは、構造化文書データベ
ース4中のQA事例において、“回答文”の中に含まれ
ていても関連事例である可能性があるので、“質問文”
の検索対象名には、“回答文”も指定しておく。相対重
み10dは、質問を特徴付けるのに最も重要な文書構成
要素である“表題”の相対重みを最も大きくする。“質
問文”の相対重みに関しては、“回答文”を検索対象と
する場合の重みを“質問文”を検索対象とする場合より
も小さく設定しておくことにより、検索対象の違いによ
る検索キーワードの重要性の違いを反映することができ
る。
【0037】検索キーワード集合生成手段2では、以上
説明した検索属性定義情報10を参照して、検索キーワ
ード生成規則格納手段11に格納された規則を適用し、
入力構造化文書1から検索キーワード集合3を生成す
る。次に、図7のフローチャートに基づいて、検索キー
ワード集合生成手段2での動作を説明する。
【0038】まず、ステップS11で検索属性定義情報
10の文書構成要素名10aを一つ読み込みステップS
13へ進むが、ここで読み込むべき文書構成要素名10
aがなくなったら、ステップS12からステップS15
へ進む。ステップS13では、ステップS11で読み込
んだ文書構成要素名10aに対応する文書構成要素の内
容を入力構造化文書1中から抽出する。
【0039】ステップS14では、その文書構成要素の
適用規則名10bに対応する検索キーワード生成規則を
検索キーワード生成規則格納手段11から呼び出し、呼
び出した規則をその文書構成要素の内容に適用して、検
索キーワード集合を構築していく。この際、その文書構
成要素に対して複数の検索対象名10cが指定されてい
る場合には、検索対象名10cのみが異なる同じ内容の
主キーワード系列を、検索対象名10cの個数分だけ生
成する。主キーワード3aの重み3cには、相対重み1
0dを、その文書構成要素から生成された主キーワード
3aの個数で等分した値を格納する。
【0040】展開キーワード3bの重み3cは、その系
列の主キーワード3aの重み3cから算出するが、適用
される検索キーワード生成規則により算出方法が異な
る。例えば、“関連語展開”の場合、主キーワード3a
と展開キーワード3bの意味関係が遠いほど、展開キー
ワードの重み3cを小さくする。ステップS14での処
理が終了したら、ステップS11へ戻る。
【0041】ステップS15では、各検索キーワードに
付加された重み3cの再規格化を行う。すなわち、主キ
ーワード3aに付加された重みの合計が100になるよ
うな一定の定数を、全ての検索キーワードの重み3cに
乗じる。次に、図4に戻ると、文書検索手段5では、上
記手順に従って生成された検索キーワード集合3に基づ
き、構造化文書データベース4を検索する。
【0042】構造化文書データベース4は、インバーテ
ッドファイルなどの手法により、検索対象名と検索キー
ワードから目的の文書を検索することのできる構造とす
る。次に、図8、図9、図10の3図で示すフローチャ
ートに基づいて、文書検索手段5での動作を説明する。
まず、ステップS21では、検索キーワード集合3から
主キーワード系列を一つ取り出し、次いでステップS2
3へ進むが、ここで取り出す主キーワード系列がなくな
ったら、ステップS22のYESから終了へ進み文書検
索手段5での処理を終了する。
【0043】ステップS23では、ステップS21で取
り出した主キーワード系列の主キーワード3aから検索
対象名3dを取り出しておく。ステップS24では、ス
テップS22で取り出した主キーワード系列中の検索キ
ーワード集合をリンクされた順序に従って一つ取り出し
ステップS26へ進むが、ここで取り出す検索キーワー
ドがなくなったら、ステップS25からステップS33
へ進む。
【0044】ステップS26では、ステップS23で取
り出した検索対象名3dと、ステップS24で取り出し
た検索キーワードで、構造化文書データベース4を検索
する。ステップS27では、ステップS26で検索した
結果から、一つの構造化文書を取り出し、ステップS2
9へ進むが、ここで取り出す文書がなくなったら、ステ
ップS28からステップS24へ戻る。
【0045】ステップS29では、ステップS27で取
り出した構造化文書が既に中間検索結果5a中に存在す
る文書かどうかが判定され、存在する文書ならばステッ
プS31へ進み、新規な文書であればステップS30へ
進む。ステップS30では、その構造化文書を中間検索
結果5aに追加すると共に、現在の検索キーワードの重
み3cをその構造化文書の重み5bに格納して、ステッ
プS27へ戻る。
【0046】ステップS31では、中間検索結果5a中
の現在の検索結果と同一の文書の重み5bと、現在の検
索キーワードの重み3cを比較し、現在の検索キーワー
ドの重み3cの方が大きければステップS32へ進み、
そうでなければステップS27へ戻る。ステップS32
では、中間検索結果5a中の現在の検索結果と同一の文
書の重み5bを現在の検索キーワードの重み3cに置き
換えて、ステップS27へ戻る。
【0047】ステップS33では、中間検索結果5a中
の文書を一つ取り出しステップS35へ進むが、ここで
取り出す文書が無くなったら、ステップS34からステ
ップS38へ進む。ステップS35では、ステップS3
3で取り出した構造化文書が既に検索結果候補6中に存
在するかどうかを調べ、新規の文書であればステップS
36へ進み、既に検索結果候補6中に存在する文書なら
ばステップS37へ進む。
【0048】ステップS36では、その構造化文書を検
索結果候補6に追加すると共に、中間検索結果5aでの
重み5bをその構造化文書の確信度6aに格納して、ス
テップS33へ戻る。ステップS37では、中間検索結
果5a中でのその文書の重み5bを、検索結果候補6中
でのその文書の確信度6aに加算し、ステップS33へ
戻る。
【0049】ステップS38では、中間検索結果5aの
内容を消去し、ステップS21へ戻る。再び図4に戻る
と、上記文書検索手段5の処理手順によって、検索結果
候補6が作成されるが、確信度6aの非常に小さい文書
は、入力した質問と無関係の内容である可能性が高いの
で、そのような文書を検索結果選別手段8で削除する。
【0050】すなわち、検索結果選別手段8では、検索
結果6の中から、適当な方法で決められた確信度閾値7
に設定された値以上の確信度6aを持つ文書を選別し、
これを最終的な検索結果9として確信度9aと共に出力
する。このように、本実施例の自動QA装置は、質問文
書をそのまま入力するだけで、その質問に対する回答を
得る上で参考になる必要十分な量のQA事例を検索結果
として得ることができるものである。
【0051】なお、本発明の文書検索装置は、上記実施
例のようなQA事例の検索に対してのみではなく、例え
ば特許文書などの定型的な文書構造を持つ文書の類似検
索全てに対して適用可能である。また、上記実施例で
は、検索キーワードを生成する際の適用規則として、
“自動キーワード抽出”および、“関連語展開”のみを
使用していたが、必要に応じて、半角と全角を全角に統
一するといったキーワード表記の正規化など他の規則を
組み込むことができる。
【0052】さらに、本発明は、検索属性定義情報10
の検索対象名10cおよび検索キーワード集合3の検索
対象名3dを省略することが可能である。以上説明した
ように、定型的な構造を持つ文書を蓄積した文書データ
ベースの類似文書検索において、利用者が検索キーワー
ドや検索手順等を何ら意識しなくても、文書そのものを
検索キーとして入力するだけで、文書構造に応じた検索
キーワード集合が内部的に生成され、一回の検索で必要
十分な検索結果を得ることができる。
【0053】さらに、検索結果には、入力文書と類似性
を示す確信度が付加されているため、検索結果の取捨選
択を効率的に行うことができることから、類似文書検索
装置の機能向上に寄与するところが大きい。
【0054】
【発明の効果】以上説明したように、本発明の方法によ
れば、文書データベースから、文書そのものを検索キー
として類似文書を検索し、一回の検索で必要十分な検索
結果を得ることができる。
【図面の簡単な説明】
【図1】本発明の文書検索装置の原理説明図(その
1)。
【図2】本発明の文書検索装置の原理説明図(その
2)。
【図3】本発明の文書検索装置の実施例を示す概略図
(その1)。
【図4】本発明の文書検索装置の実施例を示す概略図
(その2)。
【図5】図3の入力文書の一例を示す図。
【図6】図4のデータベースに蓄積される文書の一例を
示す図。
【図7】図3の検索キーワード集合生成手段の動作を説
明するフローチャート。
【図8】図4の文書検索手段の動作を説明するフローチ
ャート(その1)。
【図9】図4の文書検索手段の動作を説明するフローチ
ャート(その2)。
【図10】図4の文書検索手段の動作を説明するフロー
チャート(その3)。
【符号の説明】
1…入力構造化文書 2…検索キーワード集合生成手段 3…検索キーワード集合 3a…主キーワード 3b…展開キーワード 3c…重み 3d…検索対象名 4…文書データベース 5…文書検索手段 5a…中間検索結果 5b…重み 6…検索結果候補 6a…確信度 7…確信度閾値 8…検索結果選別手段 9…検索結果 9a…確信度 10…検索属性定義情報 10a…文書構成要素名 10b…適用規則名 10c…検索対象名 10d…相対重み 11…検索キーワード生成規則格納手段

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 文書を格納した文書データベースから、
    利用者により入力された文書と類似の内容を持つ文書を
    検索する文書検索装置において、利用者が入力した定型
    的な構造を持つ入力構造化文書(1)を解析し、文書構
    成要素に従った重み付けをした検索キーワード集合
    (3)を生成する検索キーワード集合生成手段(2)
    と、 前記検索キーワード集合(3)に基づき文書データベー
    ス(4)を検索して、その結果得られた文書ごとに、マ
    ッチした各キーワードの重みから、検索結果文書に対す
    る累計重みを得る文書検索手段(5)とを具備したこと
    を特徴とする文書検索装置。
  2. 【請求項2】 前記文書データベース(4)に格納され
    る文書を定型的な構造を持つ文書とし、前記検索キーワ
    ード集合生成手段(2)は、前記検索キーワードの重み
    付けを、入力構造化文書(1)の文書構成要素と、対応
    する前記文書データベース(4)に格納された文書の文
    書構成要素である検索対象とに従って行い、前記文書検
    索手段(5)は、検索の際、各検索キーワードについて
    文書データベース(4)の文書の該当検索対象のみを検
    索することを特徴とする請求項1記載の文書検索装置。
JP5188243A 1993-07-29 1993-07-29 文書検索装置 Expired - Fee Related JP3023943B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5188243A JP3023943B2 (ja) 1993-07-29 1993-07-29 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5188243A JP3023943B2 (ja) 1993-07-29 1993-07-29 文書検索装置

Publications (2)

Publication Number Publication Date
JPH0744567A true JPH0744567A (ja) 1995-02-14
JP3023943B2 JP3023943B2 (ja) 2000-03-21

Family

ID=16220294

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5188243A Expired - Fee Related JP3023943B2 (ja) 1993-07-29 1993-07-29 文書検索装置

Country Status (1)

Country Link
JP (1) JP3023943B2 (ja)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0973464A (ja) * 1995-09-07 1997-03-18 Fujitsu Ltd 類似事例検索装置
JPH103481A (ja) * 1996-06-18 1998-01-06 Fuji Xerox Co Ltd 文書検索装置
JPH10116290A (ja) * 1996-10-11 1998-05-06 Mitsubishi Electric Corp 文書分類管理方法及び文書検索方法
JPH10232870A (ja) * 1997-02-18 1998-09-02 Toshiba Corp 情報検索システムおよび情報検索方法
JPH10240766A (ja) * 1997-03-03 1998-09-11 Toshiba Corp 情報検索方法および情報検索装置
JP2000242654A (ja) * 1999-02-18 2000-09-08 Just Syst Corp 情報処理装置、情報処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000284679A (ja) * 1999-03-29 2000-10-13 Toshiba Corp 学習システム
JP2002024280A (ja) * 2000-07-04 2002-01-25 Shin Etsu Polymer Co Ltd 文書検索装置及び文書検索方法
JP2003505756A (ja) * 1999-05-28 2003-02-12 インデックス システムズ インコーポレイテッド テレビ番組のデータベースのサーチ用ウェブページ上で選択されたテキストを使用する方法及びシステム
US6631397B1 (en) 1999-04-14 2003-10-07 Canon Kabushiki Kaisha Information registration method, information management method, information registration apparatus, information management apparatus, and storage medium
US6747755B1 (en) 1999-04-14 2004-06-08 Canon Kabushiki Kaisha Code generation method, terminal apparatus, code processing method, issuing apparatus, and code issuing method
WO2004061714A1 (ja) * 2002-12-27 2004-07-22 Intellectual Property Bank Corp. 技術評価装置、技術評価プログラム、技術評価方法
JP2005063468A (ja) * 1996-05-29 2005-03-10 Matsushita Electric Ind Co Ltd 文書検索装置
US6889223B2 (en) 2001-03-30 2005-05-03 Kabushiki Kaisha Toshiba Apparatus, method, and program for retrieving structured documents
JP2007102723A (ja) * 2005-10-07 2007-04-19 Hitachi Ltd 文書検索装置、文書検索方法および文書検索プログラム
US7330816B1 (en) 1999-04-14 2008-02-12 Canon Kabushiki Kaisha Information providing method and information providing system
US7433868B1 (en) 1999-04-14 2008-10-07 Canon Kabushiki Kaisha Information providing method, information providing system, terminal apparatus, and storage medium storing information providing program
JP2017151970A (ja) * 2016-01-29 2017-08-31 ザ・ボーイング・カンパニーThe Boeing Company サービスリクエストを処理するための方法及び装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3444592B2 (ja) * 2000-03-30 2003-09-08 株式会社ジャストシステム 文書検索装置、クエリ出力装置、文書検索方法、クエリ出力方法、並びに、記録媒体

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0973464A (ja) * 1995-09-07 1997-03-18 Fujitsu Ltd 類似事例検索装置
JP2005063468A (ja) * 1996-05-29 2005-03-10 Matsushita Electric Ind Co Ltd 文書検索装置
JPH103481A (ja) * 1996-06-18 1998-01-06 Fuji Xerox Co Ltd 文書検索装置
JPH10116290A (ja) * 1996-10-11 1998-05-06 Mitsubishi Electric Corp 文書分類管理方法及び文書検索方法
JPH10232870A (ja) * 1997-02-18 1998-09-02 Toshiba Corp 情報検索システムおよび情報検索方法
JPH10240766A (ja) * 1997-03-03 1998-09-11 Toshiba Corp 情報検索方法および情報検索装置
JP2000242654A (ja) * 1999-02-18 2000-09-08 Just Syst Corp 情報処理装置、情報処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000284679A (ja) * 1999-03-29 2000-10-13 Toshiba Corp 学習システム
US6747755B1 (en) 1999-04-14 2004-06-08 Canon Kabushiki Kaisha Code generation method, terminal apparatus, code processing method, issuing apparatus, and code issuing method
US6631397B1 (en) 1999-04-14 2003-10-07 Canon Kabushiki Kaisha Information registration method, information management method, information registration apparatus, information management apparatus, and storage medium
US7027178B2 (en) 1999-04-14 2006-04-11 Canon Kabushiki Kaisha Code generation method, terminal apparatus, code processing method, issuing apparatus, and code issuing method
US7330816B1 (en) 1999-04-14 2008-02-12 Canon Kabushiki Kaisha Information providing method and information providing system
US7433868B1 (en) 1999-04-14 2008-10-07 Canon Kabushiki Kaisha Information providing method, information providing system, terminal apparatus, and storage medium storing information providing program
JP2003505756A (ja) * 1999-05-28 2003-02-12 インデックス システムズ インコーポレイテッド テレビ番組のデータベースのサーチ用ウェブページ上で選択されたテキストを使用する方法及びシステム
JP2002024280A (ja) * 2000-07-04 2002-01-25 Shin Etsu Polymer Co Ltd 文書検索装置及び文書検索方法
US6889223B2 (en) 2001-03-30 2005-05-03 Kabushiki Kaisha Toshiba Apparatus, method, and program for retrieving structured documents
US7293018B2 (en) 2001-03-30 2007-11-06 Kabushiki Kaisha Toshiba Apparatus, method, and program for retrieving structured documents
WO2004061714A1 (ja) * 2002-12-27 2004-07-22 Intellectual Property Bank Corp. 技術評価装置、技術評価プログラム、技術評価方法
JP2007102723A (ja) * 2005-10-07 2007-04-19 Hitachi Ltd 文書検索装置、文書検索方法および文書検索プログラム
JP4592556B2 (ja) * 2005-10-07 2010-12-01 株式会社日立製作所 文書検索装置、文書検索方法および文書検索プログラム
JP2017151970A (ja) * 2016-01-29 2017-08-31 ザ・ボーイング・カンパニーThe Boeing Company サービスリクエストを処理するための方法及び装置

Also Published As

Publication number Publication date
JP3023943B2 (ja) 2000-03-21

Similar Documents

Publication Publication Date Title
JP3023943B2 (ja) 文書検索装置
US8086604B2 (en) Universal interface for retrieval of information in a computer system
US8650483B2 (en) Method and apparatus for improving the readability of an automatically machine-generated summary
US6167398A (en) Information retrieval system and method that generates weighted comparison results to analyze the degree of dissimilarity between a reference corpus and a candidate document
US7747617B1 (en) Searching documents using a dimensional database
KR101301380B1 (ko) 네트워크 상에서의 문서의 바이어스된 클릭 거리를사용하는 순위 함수
US8086623B2 (en) Context-sensitive term expansion with multiple levels of expansion
US20030233224A1 (en) Method and system for enhanced data searching
US5893094A (en) Method and apparatus using run length encoding to evaluate a database
US20140229476A1 (en) System for Information Discovery & Organization
US20110029545A1 (en) Syllabic search engines and related methods
US20040015485A1 (en) Method and apparatus for improved internet searching
US20100114560A1 (en) Systems and methods for evaluating a sequence of characters
US20080189262A1 (en) Word pluralization handling in query for web search
JP2001290843A (ja) 文書検索装置及びその方法並びに文書検索プログラム及びそのプログラムを記録した記録媒体
JP4237813B2 (ja) 構造化文書管理システム
JP2006072744A (ja) 文書処理装置、その制御方法、プログラム、及び記憶媒体
WO2024078141A1 (zh) 主题文献检索预测方法
US20090210402A1 (en) System and method for contextual association discovery to conceptualize user query
Grover et al. Tools to address the interdependence between tokenisation and standoff annotation
JP2009104475A (ja) 類似文書検索装置、類似文書検索方法およびプログラム
CN110457435A (zh) 一种专利新颖性分析系统及其分析方法
US7970752B2 (en) Data processing system and method
JP4217410B2 (ja) 情報検索装置及びその制御方法、並びにプログラム
KR100963669B1 (ko) 토픽정보를 이용한 질의어 자동 입력 시스템 및 그 방법과그 방법에 대한 컴퓨터 프로그램을 저장한 기록매체

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19991207

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080121

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090121

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100121

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110121

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110121

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120121

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees