JPH0484271A - 文書内情報検索装置 - Google Patents

文書内情報検索装置

Info

Publication number
JPH0484271A
JPH0484271A JP2198737A JP19873790A JPH0484271A JP H0484271 A JPH0484271 A JP H0484271A JP 2198737 A JP2198737 A JP 2198737A JP 19873790 A JP19873790 A JP 19873790A JP H0484271 A JPH0484271 A JP H0484271A
Authority
JP
Japan
Prior art keywords
sentence
similarity
word
heading
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2198737A
Other languages
English (en)
Other versions
JP2885487B2 (ja
Inventor
Hiroshi Matsuo
比呂志 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2198737A priority Critical patent/JP2885487B2/ja
Publication of JPH0484271A publication Critical patent/JPH0484271A/ja
Application granted granted Critical
Publication of JP2885487B2 publication Critical patent/JP2885487B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野〕 この発明は1文、単語列あるいは単語を入力することに
よって2文書ファイル中の内容を検索するための文書白
情報検索装置に関する。
〔従来の技術〕
従来の文書ファイル中の内容を検索する装置として2文
字列を入力することにより、その文字列を含む部分を検
索する装置が知られている。
〔発明が解決しようとする課題〕
しかしながら、従来の装置では1文字列が完全に一致し
なければ検索できないため9例えば「書式」という文字
列を入力して当該書式と同じ意味をもつ「フォーマット
」を含む部分を検索することができず、また、「ファイ
ルのオープン」と入力して「ファイルをオープンする方
法」を含む部分を検索することができなかった。
この発明の目的は、入力した文字列と一致する文字列で
なくても、意味が同じ単語を含む部分や入力した文と意
味的な類イ以性が高い文を含む部分を簡単にしかも高速
に検索できる機能を有する文書白情報検索装置を提供す
ることにある。
〔課題を解決するための手段] 文書ファイル中の章や見出しや段落の第1の情報を抽出
する文書構造抽出部と 表記や意味カテゴリを抽出する登録文解析部と。
表記や意味カテゴリを基にインデックスチーフルを生成
するインデックステーブル生成部と検索文に含まれる単
語の表記と意味カテゴリとを抽出する検索文解析部と 類似度を算出する類似度算出部と 類似度の高いものを表示する候補表示部とを少なくとも
そなえた構成をそなえている。
〔作 用〕
文書構造抽出部で抽出された文書ファイル中の章や見出
しめ段落の情報と、インデックステーブル生成部で生成
されたインデックステーブルとを参照して、検索文解析
部で抽出された単語の表記や意味カテゴリを基に、類似
度算出部で検索文との類似度を算出して、この類似度を
基に内容を表示すべき候補として見出し文や段落を候補
表示手段で表示し、入力された文字列と一致する文字列
がなくても意味的に類似した部分を含む内容を検索する
〔実施例〕
第1図は本発明の実施例を示すブロック図である。以下
、第1図において9本発明の実施例の動作について説明
する。
第2図は文書ファイルの1例を示す図である。
文書ファイル蓄積部1には、複数の章で構成され。
各章が見出し文と本文とで構成され、各本文が複数の段
落で構成され、各段落が複数の文で構成される第2図の
ような文書ファイルを蓄積しておく。
文書構造抽出部2は2文書ファイル蓄積部1に蓄積され
た文書ファイル21を解析し9章、見出し文5段落を抽
出し5その位置と階層関係とを表す文書構造テーブルを
作成する。様々な方法で章9見出し文1段落を抽出する
ことができるがここでは、その1例について説明する。
まず、[車番]を示す文字列1例えばrl、Jや「1章
」などの文字列を見つける。[車番]は以下のパターン
を満たす文字列を探すことにより抽出できる。
[車番コ=U数字列]+r、J  OR[数字列]+「
章」 (ただし、[数字列]は行の先頭から始まる)次に、[
車番]に続く空白文字を除いた文字列で改行コードまで
を[見出し文]として抽出する。
[段落]は以下の規則により抽出する。
[段落コ=[改行コード]に続く文字列で[改行コード
コまでの文字列 (ただし2 この[改行コード]は行の最後の位置にあ
る改行コードを除く) 各[章]は、[車番]が記述されている行から次の[車
番]が記述されている行の1つ前の行までとする。
以上のような方法により1文書ファイル中から章、見出
し文1段落を抽出し5各々の文書ファイル上の位置を求
めて文書構造テーブルを作成する。
第3図は9文書構造テーブルの1例を示す図である。文
書構造抽出部2で作成された文書構造テーブル22は文
書構造テーブル部3に蓄積される。
第3図においてIDは2章や見出し文2段落を管理する
ための識別子であり2例えば、AIは第1番目の章、A
2は第2番目の章、Blは見出し文で第2図に示す「標
準入出力J、CIは第1番目の章の第1番目の段落で第
2図に示す「一番簡単な・・・方法である。」に対応し
ている。また、このテーブル22により、第1番目の章
の見出し文はBl、その章に含まれる段落にはCI、 
 C2C6が含まれるという情報を容易に取り出すこと
ができる。また、SおよびEは2章、見出し文段落の文
書ファイル上の開始位置と終了位置とを表している。こ
れを参照することにより、各章各見出し文、各段落に対
応する文字列を文書ファイル蓄積部1から読み出すこと
ができる。
登録文解析部6は、各見出し文および各段落を形態素解
析部5へ送る。形態素解析部5では、単語辞書部4を参
照して、解析対象となる文に含まれる各単語の表記およ
び意味カテゴリを抽出する。
第4図は、登録文解析結果の1例を示す図である。第4
図では、見出し文「書式付き出力」を解析した結果の例
を示している。この例では、単語の表記「書式」、[付
き」2 [出力」と、「書式」に対する意味カテゴリ[
FMT] 、r出力」に対する意味カテゴリ[OUT]
が抽出される。
この意味カテゴリ24は、同義語や関連語を結び付ける
ために用いられる情報であり、単語辞書部4で自立語に
対して定義されている。ただし「ある」、「する」のよ
うな単独では具体的な意味を表さない単語には付与しな
い。
登録文解析部6は、このようにして得られた単語表記2
3や意味カテゴリ24を、それが所属する見出し文や段
落のIDとともに、インデックステーブル作成部7へ送
る。
インデックステーブル作成部7では9表記23と意味カ
テゴリ24とを基に1表記23および意味カテゴリ24
をインデックスとして、その表記あるいは意味カテゴリ
を有する単語を含む見出し文および該単語を含む段落を
抽出できるインデックステーブル25を生成する。
第5図は意味カテゴリをインデックスとするインデック
ステーブルの1例を示した図である。このインデックス
テーブル25により、意味カテゴリ[FMT]を有する
単語を含む見出し文B2゜B4および段落C8,C18
を簡単に取り出すことができる。
このようにして作成されたインデックステーブル25は
、インデックステーブル蓄積部日へ蓄積される。
以上のようにして蓄積された文書ファイル21゜文書構
造テーブル22  インデックステーブル25は、以下
で説明する検索処理で使用される。
検索文入力部9では9文、単語列あるいは単語をユーザ
に入力させ、入力された文字列を検索文として検索文解
析部10へ送る。なお、検索文の入力において、すでに
表示されている文の中がらマウス等により指定して入力
するよう検索文入力部9を構成してもよい。
検索文解析部1(lでは、検索文入力部9で得られた検
索文26を形態素解析部5に送って、検索文26に含ま
れる単語の表記23と意味カテゴリ24 とを抽出する
第6図は、検索文としての「フォーマット指定による書
き込み」が入力された場合の検索文解析結果の1例を示
す図である。この例で(よ、単語表記23として「フォ
ーマット」、「指定」「に」、「よる」、「書き込み」
が抽出され、意味カテゴリ24とし7 [FMT] 、
[S ITE1] 、  [OUT]が抽出される。
類似度算出部11では、まず、各見出し文および各段落
の検索文との’SjQ度を算出する9類似度算出の方法
には、様々な方法を用いることができ例えば、特願平1
−111626号で示される方法で実現できる。ここで
は、意味カテゴリ24が何個一致したかに応じて!(9
1度を算出する方法について説明する。例えば、意味カ
テゴリ24がn個一致した場合にはIon点を与えられ
るものとする。検索文から抽出される意味カテゴリをイ
ンテ・ンクスとして インデックステーブル蓄積部8を
参照して見出し文や段落のIDを取り出し、各IDに対
する類似度を算出する。第5図に示されるインテ・ンク
ステーブル25が蓄積されている場合、検索文「フォー
マント指定による書き込み」26から抽出される意味カ
テゴリ[FMT]によって見出し文B2.B4.段落C
B、C18が、  [OU T ]によって見出し文B
2.段落C8が抽出され、第7図に示される如く類似度
が算出される。例えば段落C8は、意味カテゴリ[FM
T]と[0IJT]とによって抽出されるため20点が
与えられる。
次に、これらの類似度を基に各章の類似度を算出する。
各章の類似度の算出方法にも様々な方法が適用できるが
、ここでは以下の算出基準による方法で説明する。
算出基準: 章の類似度=(見出し文の類似度)+(その章に含まれ
る段落の最大の類似度) 文書構造テーブル部3に蓄積された情報を参照すること
により、見出し文B2.段落C8は、第2番目の章A2
に、見出し文B4.段落C18は第4番目の章A4に、
含まれることがわかり、以下のようにA2.A4のU以
度が算出される。
A2の1!僚度=(B2の類似度)+ (CBの類似度
)=20+20=40 A4の類似度=(B4の類似度)+(C18の類似度)
=10+10=20 このように、見出し文と段落の類似度の両方を考慮して
章の類似度を算出することにより、見出し文と段落との
両方に検索文に関連する単語が含まれる章を、一方にし
か含まれない章よりも、高い候補順位で検索できる。
候補表示部12では、各章の類似度の高い順に同−意向
では各段落の類似度が高い順に、その章に属する見出し
文とその段落に属する文を7文書構造テーブル部3を参
照して文書ファイル蓄積部1から読み出して表示する。
第8図は、候補表示の1例を示した図である。
ここの例では章A2が1位1章A4が2位になる。
章A2の中では段落C8が1位になる。ここでは他の段
落については示してないが、他にも抽出された段落があ
る場合には、類似度が高い順に段落を表示する。
文書内容表示部13では、候補表示部12で表示された
見出し文または段落をユーザに指定させ。
ユーザが指定した見出し文が存在する章の内容またはユ
ーザが指定した段落が存在する前後の内容を、文書構造
テーブル部3を参照して文書ファイル蓄積部lから読み
出して表示する。
処理制御部14では、ユーザの指示に応して。
検索文入力部9の起動、候補表示部12の起動。
文書内容表示部13の起動および表示内容のスクロール
を行う。これにより、ユーザは再度候補を表示したり2
表示された内容を見てさらに別の部分を検索するなどの
処理を指示することができる。
〔発明の効果〕
以上説明したように1本発明によれば2文書ファイル中
から見出し文や段落を抽出して、意味属性や表記をイン
デックスとするインデックステーブルを作成しでおき、
このインデックステーブルを用いて、検索文と見出し文
および段落との類似度を高速に算出し、これを基に各章
の類似度を算出して、1!似度順に検索結果を表示する
ため1文書ファイル中の文字列と一致する文字列でなく
ても、入力された検索文と関連する言葉が存在する部分
を高速に検索することができる。このため。
ユーザは知りたい情報を、思いついた言葉で簡単にしか
も高速に見つけることができる。
さらに1本発明によれば9本文を段落単位で検索できる
ように構成しているため5例えば、「配列をこのように
宣言する。そして、以下のように初期化を行う。jの部
分を検索文「配列の初期化」で検索することができる。
このように、2つ以上の文にまたがって検索文が関連す
る場合でも検索が可能である。
【図面の簡単な説明】
第1図は本発明の実施例を示すブロック図、第2図は文
書ファイルの1例を示す図、第3図は文書構造テーブル
の1例を示す図、第4図は登録文解析結果の1例を示す
図、第5図はインデックステーブルの1例を示す図、第
6図は検索文解析結果の1例を示す図1第7図は類似度
計算の1例を示す図、第8図は候補表示の1例を示す図
である。 1・・・文書ファイル蓄積部、2・・・文書構造抽出部
3・・・文書構造テーブル部、4・・・単語辞書部、5
・・・形態素解析部、6・・・登録文解析部、7・・・
インデックステーブル作成部、8・・・インデックステ
ーブル蓄積部、9・・・検索文入力部、10・・・検索
文解析部11・・・類似度算出部、12・・・候補表示
部、  13・・・文書内容表示部、14・・・処理制
御部。 文書ファイルの1例 第2図 本発明の実施例を示すブロック図 第1図 文書構造テーブルの1例 第3図 類 似 度 計 算 の 例 第 図 1位 2位 候 補 表示 の ■ 例 第 図

Claims (1)

  1. 【特許請求の範囲】 文書ファイルを蓄積する文書ファイル蓄積部と、前記文
    書ファイル中の章、見出し文、段落を抽出し、その位置
    と階層関係とを表す文書構造テーブルを作成する文書構
    造抽出部と、 前記文書構造テーブルを蓄積しておく文書構造テーブル
    部と、 単語表記と意味カテゴリとを各単語に対して規定した単
    語辞書部と、 前記単語辞書部を参照して、入力文を構成する単語の表
    記と該単語の意味カテゴリとを抽出する形態素解析部と
    、 前記文書ファイル中の各見出し文および各文を前記形態
    素解析部に送って、各見出し文および各文に含まれる単
    語の表記と意味カテゴリとを抽出する登録文解析部と、 前記登録文解析部で抽出された表記と意味カテゴリとを
    基に、表記および意味カテゴリをインデックスとして、
    該表記あるいは該意味カテゴリを有する単語を含む見出
    し文および該単語を含む段落を抽出できるインデックス
    テーブルを生成するインデックステーブル生成部と、 前記インデックステーブル生成部で生成されたインデッ
    クステーブルを蓄積しておくインデックステーブル蓄積
    部と、 検索文を入力する検索文入力部と、 前記検索文を解析せしめて、検索文に含まれる単語の表
    記と意味カテゴリとを抽出する検索文解析部と、 前記検索文解析部で得られた情報を基に、前記インデッ
    クステーブル蓄積部を参照して、各見出し文および各段
    落と該検索文との類似度を算出し、該類似度を基に類似
    度を算出する類似度算出部と、前記類似度算出部で得ら
    れた類似度の高いものを、前記文書ファイル蓄積部から
    読み出して表示する候補表示部と、 を有することを特徴とする文書内情報検索装置。
JP2198737A 1990-07-26 1990-07-26 文書内情報検索装置 Expired - Fee Related JP2885487B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2198737A JP2885487B2 (ja) 1990-07-26 1990-07-26 文書内情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2198737A JP2885487B2 (ja) 1990-07-26 1990-07-26 文書内情報検索装置

Publications (2)

Publication Number Publication Date
JPH0484271A true JPH0484271A (ja) 1992-03-17
JP2885487B2 JP2885487B2 (ja) 1999-04-26

Family

ID=16396145

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2198737A Expired - Fee Related JP2885487B2 (ja) 1990-07-26 1990-07-26 文書内情報検索装置

Country Status (1)

Country Link
JP (1) JP2885487B2 (ja)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0628403A (ja) * 1992-07-09 1994-02-04 Mitsubishi Electric Corp 文書検索装置
JPH06215035A (ja) * 1993-01-18 1994-08-05 Sanyo Electric Co Ltd テキスト検索装置
JPH06259421A (ja) * 1992-07-03 1994-09-16 Fuji Xerox Co Ltd 文書処理装置
JPH06301725A (ja) * 1993-04-13 1994-10-28 Nippon Steel Corp 階層化文書の文字列検索装置
JPH07146872A (ja) * 1993-11-22 1995-06-06 Nippon Steel Corp 文書検索装置
JPH0816600A (ja) * 1994-06-29 1996-01-19 Hitachi Ltd 構造化文書検索方法
JPH1049543A (ja) * 1996-08-02 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
US5943669A (en) * 1996-11-25 1999-08-24 Fuji Xerox Co., Ltd. Document retrieval device
JP2001195406A (ja) * 2000-01-06 2001-07-19 Media Fusion Co Ltd データベース管理システム
JP2009129280A (ja) * 2007-11-26 2009-06-11 Just Syst Corp 文書検索方法、文書検索装置および文書検索プログラム
JP2009129013A (ja) * 2007-11-20 2009-06-11 Just Syst Corp 文書検索方法、文書検索装置および文書検索プログラム
JP2009523270A (ja) * 2005-12-09 2009-06-18 フラウンホファー‐ゲゼルシャフト・ツア・フェルダルング ・デア・アンゲバンテン・フォルシュング・エー・ファウ. データ列の自動比較に用いられる方法およびその装置
JP2012069071A (ja) * 2010-09-27 2012-04-05 Casio Comput Co Ltd Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム
JP2017117311A (ja) * 2015-12-25 2017-06-29 富士通株式会社 文書検索方法、文書検索プログラムおよび文書検索装置
CN113139048A (zh) * 2021-04-19 2021-07-20 中国人民解放军91054部队 一种检索结果提供方法及系统
CN113360603A (zh) * 2021-06-22 2021-09-07 杭州东方通信软件技术有限公司 一种合同相似性及合规性检测方法及装置

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06259421A (ja) * 1992-07-03 1994-09-16 Fuji Xerox Co Ltd 文書処理装置
JPH0628403A (ja) * 1992-07-09 1994-02-04 Mitsubishi Electric Corp 文書検索装置
JPH06215035A (ja) * 1993-01-18 1994-08-05 Sanyo Electric Co Ltd テキスト検索装置
JPH06301725A (ja) * 1993-04-13 1994-10-28 Nippon Steel Corp 階層化文書の文字列検索装置
JPH07146872A (ja) * 1993-11-22 1995-06-06 Nippon Steel Corp 文書検索装置
JPH0816600A (ja) * 1994-06-29 1996-01-19 Hitachi Ltd 構造化文書検索方法
JPH1049543A (ja) * 1996-08-02 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
US5943669A (en) * 1996-11-25 1999-08-24 Fuji Xerox Co., Ltd. Document retrieval device
JP2001195406A (ja) * 2000-01-06 2001-07-19 Media Fusion Co Ltd データベース管理システム
US6701328B1 (en) 2000-01-06 2004-03-02 Media Fusion Co., Ltd. Database management system
US8271403B2 (en) 2005-12-09 2012-09-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for automatic comparison of data sequences using local and global relationships
JP2009523270A (ja) * 2005-12-09 2009-06-18 フラウンホファー‐ゲゼルシャフト・ツア・フェルダルング ・デア・アンゲバンテン・フォルシュング・エー・ファウ. データ列の自動比較に用いられる方法およびその装置
JP2009129013A (ja) * 2007-11-20 2009-06-11 Just Syst Corp 文書検索方法、文書検索装置および文書検索プログラム
JP2009129280A (ja) * 2007-11-26 2009-06-11 Just Syst Corp 文書検索方法、文書検索装置および文書検索プログラム
JP2012069071A (ja) * 2010-09-27 2012-04-05 Casio Comput Co Ltd Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム
JP2017117311A (ja) * 2015-12-25 2017-06-29 富士通株式会社 文書検索方法、文書検索プログラムおよび文書検索装置
CN113139048A (zh) * 2021-04-19 2021-07-20 中国人民解放军91054部队 一种检索结果提供方法及系统
CN113139048B (zh) * 2021-04-19 2022-11-04 中国人民解放军91054部队 一种检索结果提供方法及系统
CN113360603A (zh) * 2021-06-22 2021-09-07 杭州东方通信软件技术有限公司 一种合同相似性及合规性检测方法及装置
CN113360603B (zh) * 2021-06-22 2023-09-05 杭州东方通信软件技术有限公司 一种合同相似性及合规性检测方法及装置

Also Published As

Publication number Publication date
JP2885487B2 (ja) 1999-04-26

Similar Documents

Publication Publication Date Title
JP2783558B2 (ja) 要約生成方法および要約生成装置
Kowalski et al. Information storage and retrieval systems: theory and implementation
US5893087A (en) Method and apparatus for improved information storage and retrieval system
JP3160201B2 (ja) 情報検索方法、情報検索装置
JPH0424869A (ja) 文書処理システム
JP2005251115A (ja) 連想検索システムおよび連想検索方法
JPH0484271A (ja) 文書内情報検索装置
JPH03172966A (ja) 類似文書検索装置
JP2669601B2 (ja) 情報検索方法及びシステム
JP2007047974A (ja) 情報抽出装置および情報抽出方法
JPH0628403A (ja) 文書検索装置
JP2957875B2 (ja) 文書情報検索装置及び文書検索結果表示方法
JPH09198395A (ja) 文書検索装置
JPH08147311A (ja) 構造化文書検索方法及び装置
JPH0844771A (ja) 情報検索装置
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
JPH0944523A (ja) 関連語提示装置
JP2000250908A (ja) 電子書籍の作成支援装置
JPH08314966A (ja) 文書検索装置のインデックス作成方法及び文書検索装置
JP2007128224A (ja) 文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム
JP2002183175A (ja) テキストマイニング方法
JP2002183195A (ja) 概念検索方式
JPS63175965A (ja) 文書処理装置
JP2019008573A (ja) 類似文書検索装置、類似文書検索方法及びプログラム
JPH07296005A (ja) 日本語テキスト登録・検索装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090212

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090212

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100212

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees