JPH07244673A - 文書索引作成システム - Google Patents

文書索引作成システム

Info

Publication number
JPH07244673A
JPH07244673A JP6034336A JP3433694A JPH07244673A JP H07244673 A JPH07244673 A JP H07244673A JP 6034336 A JP6034336 A JP 6034336A JP 3433694 A JP3433694 A JP 3433694A JP H07244673 A JPH07244673 A JP H07244673A
Authority
JP
Japan
Prior art keywords
index
document
sentence
term
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6034336A
Other languages
English (en)
Other versions
JP3464518B2 (ja
Inventor
Akira Ochitani
亮 落谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP03433694A priority Critical patent/JP3464518B2/ja
Publication of JPH07244673A publication Critical patent/JPH07244673A/ja
Application granted granted Critical
Publication of JP3464518B2 publication Critical patent/JP3464518B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 本発明は、文書索引作成システムに関し、索
引表現テーブルを参照して索引表現および用語関係を生
成し文書中の位置に対応づけて保存およびキーワード索
引を作成しておき、検索時に索引表現、用語関係および
キーワード順に検索して意味的関係や論理的関係の強い
順に該当する文書中の文章を見つけることを目的とす
る。 【構成】 入力された文書中の文について予め作成した
索引表現テーブル4を参照して、該当する係受けパター
ン41に対応する用語関係パターン43をもとに用語関
係45を生成および当該係受けパターン41に対応する
索引表現生成パターン42をもとに索引表現44を生成
する用語関係・索引表現生成部3を備え、この生成され
た索引表現44および用語関係45を索引として文書中
の該当位置に対応づけて保存するように構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書の索引を作成する
文書索引作成システムであって、マニュアルや書籍など
の文書を作成する際に、本文の文章中の用語の意味的関
係や論理的関係を用語の係受パターンにより抽出し、詳
細な情報を持った見出し候補を自動生成し、更に生成さ
れた見出し候補を索引編集者が編集して文書索引を自動
作成する文書作成作成システムに関するものである。
【0002】
【従来の技術】一般に、文書の索引は、基本的な見出し
として主見出しがあり、この主見出しと意味的や論理的
関係を持たせた副見出しに詳細な情報を掲載することに
より、読者にとって検索が容易で的確な索引の付いた文
書を作ることができる。
【0003】従来の索引の作成には、下記のようなもの
があり、単語を主とする主見出しの抽出のみの自動化を
行っていた。 文書作成時に本文の見出しの箇所をマーク付けする
ことにより、索引付けをする。
【0004】 索引語を集めた辞書を作成し、本文と
の照合により、文章中の索引語を選ぶ。 索引語抽出規則により、本文中の索引語を選ぶ。
【0005】
【発明が解決しようとする課題】上述した、、の
ようにして、文書中から索引語を自動抽出して主見出し
として作成していたが、更にこの主見出しに意味的や論
理的関係を持つ副見出しを自動的に抽出できないという
問題があった。このため、マニュアルや技術文書の索引
では、文書中の用語の定義箇所、方法の記載されている
箇所などを、的確に検索できるような索引情報が望まし
く、そのような索引付けを行うには、詳細な索引情報を
本文の文章中から自動的に抽出し、語の組み合わせや簡
単な句表現によって副見出しとして表現する手段が望ま
れていた。
【0006】また、マニュアルや技術文書などの文書デ
ータは、通常電子化されており、清書システムにより印
刷して利用すると同時に、文書データベースとして検索
し利用するのが一般的である。文書データベースの検索
に用いられるキーワードによる検索は、不特定の局面で
の検索を考慮し、関連データを広範囲に検索できるよう
に、文書に含まれるできるだけ多くの用語をキーワード
として持つようにしている。このため、文書との関連度
の高くない見出しが多く含まれており、必要でない結果
も多く得られてしまう問題がある。これに対し、従来か
ら文書に付けられてきた索引は、文書の内容を強く示す
表現や語句に限って付けられ、読者の理解を容易にする
ため、選択や構成が洗練されている。しかし、一般的な
検索に直接に用いると、検索対象が少なく、関連箇所を
広範囲に検索するには不向きという問題もあった。
【0007】以上のことから、従来の文書作成処理を行
うときに下記の問題があった。 (1) 索引の元となる情報を本文から抽出する際に、
本文全体を対象に抽出を行うと、不要な情報や文章の内
容とは関連の少ない情報が数多く抽出されてしまう。
【0008】(2) 詳細な索引を作成する場合、文書
中の用語の定義を記述した箇所や方法の記載されている
箇所など、索引として必要な候補を全て本文から作業者
の手作業で選びだすのは難しい。また、本文の表現は見
出しとして適当な表現に直す必要がある。
【0009】(3) 言語処理により、用語と用語の間
の、意味的関係や論理的関係を抽出できるが、これらの
抽出結果を直接的に選択したり編集したりするのは、通
常の見出し語の選択・編集よりは、索引編集者による理
解が難しく、編集作業が困難である。
【0010】(4) データベース検索用のキーワード
検索と文書に付けた印刷用索引が独立に処理されている
場合、索引作成者により整理された印刷用索引の索引情
報が検索の際に利用できない。
【0011】本発明は、これらの問題を解決するため、
文書データから検索対象外の文書を除き、このうちから
重要な文を自動選択した後、索引表現テーブルを参照し
て索引表現および用語関係を生成し文書中の位置に対応
づけて保存およびキーワード索引を作成しておき、検索
時に索引表現、用語関係およびキーワード順に検索して
意味的関係や論理的関係の強い順に該当する文書中の文
章を見つけることを目的としている。
【0012】
【課題を解決するための手段】図1は、本発明の原理ブ
ロック図を示す。図1において、索引付け部分抽出部1
は、入力された文書から索引作成対象外の文章である、
予め登録された表題、図、表、謝辞、参考文献などを取
り除くものである。
【0013】重要文抽出部2は、作成対象外の文章の取
り除いた後の文書の各文について、重要語辞書21を参
照して重要文を抽出するものである。用語関係・索引表
現生成部3は、入力された文書中の文について索引表現
テーブル4を参照して、該当する係受けパターン41に
対応する用語関係パターン43をもとに用語関係45を
生成および当該係受けパターン41に対応する索引表現
生成パターン42をもとに索引表現44を生成するもの
である。
【0014】索引選択・修正部6は、生成された索引表
現44をソートしてリストを表示し、当該リストから削
除された索引表現44と対応する用語関係45を削除す
るものである。
【0015】検索処理部8は、作成した索引表現44、
用語関係45およびキーワードの順に検索し、該当する
ものが見つかったときにその文書中の文を取り出すもの
である。
【0016】
【作用】本発明は、図1に示すように、用語関係・索引
表現生成部3が入力された文書中の文について予め作成
した索引表現テーブル4を参照して、該当する係受けパ
ターン41に対応する用語関係パターン43をもとに用
語関係45を生成および係受けパターン41に対応する
索引表現生成パターン42をもとに索引表現44を生成
し、この生成した索引表現44および用語関係45を索
引として文書中の該当位置に対応づけて保存するように
している。
【0017】この際に、索引付け部分抽出部1が入力さ
れた文書から索引作成対象外の文章である、予め登録さ
れた表題、図、表、謝辞、参考文献などを取り除いた文
書について、索引の作成対象としている。
【0018】また、重要文抽出部2が作成対象外の文章
の取り除いた後の文書の各文について、予め作成された
重要語辞書21を参照して各単語に重みを付加して文単
位に集計し、集計した重みが所定値以上の文のみを抽出
し、索引の作成対象としている。
【0019】また、索引選択・修正部6が生成された索
引表現44をソートしてリストを表示させ、当該リスト
から削除された索引表現44と対応する用語関係45を
削除するようにしている。
【0020】また、検索処理部8が作成された索引表現
44、用語関係45および文書中から予め抽出したキー
ワード索引72の順に検索し、該当するものが見つかっ
たときにその文書中の文を取り出すようにしている。
【0021】従って、文書データから検索対象外の文書
を除き、このうちから重要な文を自動選択した後、索引
表現44および用語関係45を生成し文書中の位置に対
応づけて保存およびキーワード索引を作成し、検索時に
索引表現44、用語関係45およびキーワード索引72
の順に検索して意味的関係や論理的関係の強い順に該当
する文書中の文章を見つけることが可能となる。
【0022】
【実施例】まず、図1の構成を説明する。図1におい
て、重要語辞書21は、重要語の重みを予め登録したも
のである。例えば後述する図3の[3]に示すように重
要語に対応づけて重みを予め登録したものである。
【0023】用語関係・索引表現生成部3は、文書中の
文の用語関係45および作成表現44を生成するもので
あって、用語間の関係抽出部31および索引表現生成部
32から構成されるものである。
【0024】用語間の関係抽出部31は、文の係受けパ
ターンを索引表現テーブル4から検索して用語関係パタ
ーン43を取り出し、これから用語関係45(語句の間
の意味的関係、例えば定義、方法、原因、目的など)を
生成するものである。
【0025】索引表現生成部32は、文の係受けパター
ン41を作成表現テーブル4から検索して索引表現生成
パターン42をもとに索引表現44を生成するものであ
る。索引表現テーブル4は、係受けパターン41に対応
づけて、索引表現生成パターン42、および用語関係パ
ターン43を予め登録したものである。
【0026】索引選択・修正部6は、生成された索引表
現44をソートしてリストを表示し、索引作成者から削
除された索引表現44と対応する用語関係45を削除し
たり、修正したりするものである。
【0027】辞書順ソート部5は、索引表現44を辞書
順にソートするものである。文書データベース7は、文
書71中の文に対応づけて索引表現44と用語関係45
を登録したり、文書71のキーワード索引72を登録し
たりするものである。ここで、キーワード索引72は、
文書71の全体に対するキーワードの索引である。
【0028】検索処理部8は、文書データベース7中に
登録された文書71、索引表現44、用語関係45、お
よびキーワード検索72をもとに、該当する文を検索し
たりするものである(図8を用いて後述する)。
【0029】ページ決定部9は、文書のマークアップ情
報に従い、文書のページを決定し、文書索引の情報と結
び付けて、主見出し、副見出し、ページ番号からなる索
引項目を作成するものである。
【0030】印刷処理部10は、作成された索引を本文
と合わせて印刷するものである。次に、図2から図8を
用いて図1の構成の動作を順次詳細に説明する。図2
は、本発明の索引付け部分の抽出処理説明図を示す。こ
れは、文書中から索引付け部分の抽出処理を説明したも
のである。ここで、「削除」は削除する文を示し、「索
引付け部分」は索引付けする対象の部分を示す。削除す
る部分は、文書構造を示すマークアップ情報などを用い
て、表題、図、表、謝辞、参考文献などの予め登録した
索引付けの対象外の文を取り除く。ここでは、索引付け
部分と記載した部分のみを索引付けの対象とする。
【0031】図3は、本発明の重要文抽出部の処理説明
図を示す。これは、図2で抽出した索引付け部分につい
て、更に重要文を抽出する処理である。 [1] 文の切り出し(「。」、「?」、「.」で切
る) 例えば文切り出し結果として、図2の索引付け部分の下
段の部分を切り出すと図示の下記のようになる。
【0032】第1文:カテゴリを作成するには、新規に
カテゴリを作成する場合と、過去のカテゴリ例により作
成する場合の2通りある。 第2文:前者は、eコマンド、後者はIコマンドを用い
る。
【0033】第3文:この章では、eコマンドにより新
規にカテゴリを作成する方法を説明する。 第4文:Iコマンドについては、3.5章「過去の例か
らカテゴリを作成する」を参照のこと。
【0034】[2] 形態素解析 形態素解析結果(第1文)カテゴリ 作成 する には 新規 カテ
ゴリ 作成 する場合 過去 カテゴ
により 作成 する 場合 2通り ある
【0035】[3] 重要語辞書により重み付けする 重要語辞書は、図示の下記のように予め登録しておく。 重要語 重み 方法 0 作成 2 更新 2 削除 2 コマンド 2 ・重要語辞書による重み付け結果(第1文) 重要語辞書21を参照して第1文に重み付けすると図示
の下記のようになり、重みの合計は6点となる。
【0036】 カテゴリ 作成 する には 新規 カテゴリ 作成 する 2 2 場合 過去 カテゴリ により 作成 する 場合 通り ある
【0037】[4] 文位置による重みを加え、文の重
要度を決定 例えば[3]と同様にして第1文、第2文、第3文、第
4文ついて、重要語辞書21を参照して各文に重みを付
けてその総和を求め、更に文の位置による位置重要度を
付加して文の重要度を図示の下記のように求める。
【0038】 文 文位置 位置重要度 重要語重みの和 文の重要度 第1文:カテゴリを・・ 1 10 6 16 第2文:前者は、e・・ 2 0 2 2 第3文:この章では・・ 3 0 10 10 第4文:後者のIコ・・ 4 0 4 4 [5] 閾値(文の重要度≧10)以上の文を抽出 ここで、[4]の例では、第1文と第3文を重要文とし
て抽出し、索引付けの対象の文と決定する。
【0039】図4は、本発明のパターン解析と索引表現
の生成処理の流れ図を示す。 [0] 重要文抽出結果 例えば図3で説明した重要文抽出結果が図示の下記であ
ったとする。
【0040】過去 カテゴリ により 作成 する [1] 係受けパターンの照合 例えば[0]の文について、後述する図5の索引表現テ
ーブル4の係受けパターンのうち一致するものがあるか
照合する。ここでは、図5の索引表現テーブル4中の係
受けパターン「AによりBする]が、図示の矢印を用い
て示す下記のように一致する。
【0041】
【0042】[2] 索引表現・用語関係の生成 ここでは、[1]で一致した図5の係受けパターン[A
によりBする]に対応する 索引表現生成パターン:「Aを用いてB] を取り出す。そして、Aに「過去のカテゴリ」、Bに
「作成」を入れ、 生成され索引表現:「過去のカテゴリ例 を用いて
」 を生成する。また、用語の関係として、 用語関係:過去のカテゴリ例<方法>生成 を生成する。
【0043】 [3] 同様に、索引表現・用語関係を生成 索引表現 用語関係 eコマンドを用いて新規にカテゴリを作成 eコマンド<方法>新規にカテゴ リの作成 カテゴリの作成 カテゴリ<対象>作成 新規にカテゴリの作成 新規にカテゴリ<対象>作成 eコマンドにより新規にカテゴリを作成 eコマンド<方法>新規にカテゴ [4] 辞書順にソート 索引表現 用語関係 eコマンドにより新規にカテゴリを作成 eコマンド<方法>新規にカテゴ eコマンドを用いて新規にカテゴリを作成 eコマンド<方法>新規にカテゴ リの作成 カテゴリの作成 カテゴリ<対象>作成 過去のカテゴリ例を用いて生成 過去のカテゴリ例<方法>作成 新規にカテゴリの作成 新規にカテゴリ<対象>作成 [5] 索引作成者が削除するものを選択 これは、[4]のリストを見た索引作成者が索引としな
いものを選択する。ここでは、[4]の第1段目および
第5段目の文を選択して削除し、図示の下記のようにな
る。
【0044】 索引表現 用語関係 eコマンドを用いて新規にカテゴリを作成 eコマンド<方法>新規にカテゴ リの作成 カテゴリの作成 カテゴリ<対象>作成 過去のカテゴリ例を用いて生成 過去のカテゴリ例<方法>作成 [6] 文書データベースに保存 これは、 ・索引表現を入力文の位置に対応づけて保存 ・用語関係の保存 を行う。
【0045】以上によって、図3で抽出した重要文につ
いて、索引表現テーブル4を参照して一致する係受けパ
ターン41を見つけ、この見つけた係受けパターン41
に対応する索引表現生成パターン42を取り出して索引
表現44を生成および用語関係パターン43を取り出し
て用語関係45を生成する。そして、索引表現44を辞
書順にソートし、索引作成者が削除する索引表現44を
選択すると、自動的に不要な索引表現44および用語関
係45を削除する。この削除後の索引表現44および用
語関係45を文書データベース7に保存する。
【0046】図5は、本発明の索引表現テーブル例を示
す。これは、文書中より抽出した重要な索引対象の文に
ついて、一致する係受けパターン41を見つけて対応す
る索引表現生成パターン42および用語関係パターン4
3を取り出し、これら取り出した索引表現生成パターン
42および用語関係パターン43から索引表現44およ
び用語関係45を生成するための予め登録したものであ
る。ここでは、例えば図示の下記のように予め登録す
る。
【0047】 係受けパターン41 索引表現生成パターン42 用語関係パターン43 AをBする AのB A<対象>B AによりBする Aを用いてB A<方法>B これの使用法は、既述したように、図4の[1]の過去 の カテゴリ 例 により 作成 する という文は、係受けパターン41のうちの A により B する と一致するので、これに対応づけて予め登録されている
索引表現生成パターン42として、 Aを用いてB を取り出し、ここで、Aに「過去のカテゴリ例」、Bに
「作成」を入れて索引表現44として、過去のカテゴリ例 を用いて 作成 を生成する。同様に、用語関係パターン43として、 A<方法>B を取り出し、ここで、Aに「過去のカテゴリ例」、Bに
「作成」を入れて索引表現44として、 過去のカテゴリ例<方法>作成 を生成する。
【0048】図6は、本発明の索引見出し編集画面例を
示す。これは、図4の[5]に対応し、図5の索引表現
テーブル4を参照して生成した索引表現44を辞書順に
ソートしてそのリストを表示したものである。ここで、
主見出しは、主となる見出しであって、この例では各索
引表現44に共通の末尾の「作成」である。副見出し
は、主見出しの「作成」に関連する索引表現44であ
る。これら副見出しのうちから、索引作成者が適当でな
いとした索引表現44を画面上からマウスなどを使って
削除を選択する。この削除を選択された索引表現44
(第1番目および第5番目)は、リストから当該索引表
現44を削除すると共に対応する用語関係も合わせて削
除する。
【0049】図7は、本発明の文書データベース例を示
す。これは、図4の[1]から[6]に示すようにし
て、索引表現44を入力文の位置に対応づけて保存、お
よび用語関係45を併せて保存した様子をイメージ的に
示したものである。上段の文書は、索引を付与する対象
の既述した図2の文書であって、このうちから索引付け
対象の部分を抽出し、更にこの部分から重要な文を抽出
し、この文が索引表現44および用語関係45の付与の
対象となる。この索引表現44および用語関係45の付
与の対象となった文について、索引表現テーブル4と照
合した索引表現44および用語関係45を生成し、索引
作成者によって適当とされたものを図示のように登録し
たものである。この登録は、文書中の位置情報L1、L
2によって文書の行単位に対応づけている。これによ
り、索引表現44、用語関係45をキーに文書中の行位
置を容易に検索することが可能となる(図8を用いて後
述する)。
【0050】図8は、本発明の検索処理の流れ図を示
す。これは、図7のように作成した文書データベース7
および更に文書から予めキーワードを抽出したおき、利
用者から検索対象の文字列が入力されたときに、索引表
現44、用語関係45、およびキーワード索引72の順
に検索した該当する文字列が存在する文書中から該当す
る文字列を抽出および該当する文書中の文字列を強調表
示したりするものである。以下説明する。
【0051】図8において、S1は、検索要求の入力を
行う。これは、利用者が文書中から検索しようとする文
字列として右側に記載した文字列1、文字列2、文字列
3のいずれかを入力する。
【0052】S2は、索引表現の検索を行う。これは、
S1で入力された文字列について、図7の文書データベ
ース中の索引表現44中に存在するか否かを検索する。
S3はS2の検索によって一致するものが有りか判別す
る。YESの場合には、一致する索引表現44が見つか
ったので、S4で当該索引表現44に対応づけて登録さ
れている文書中の位置情報を出力し終了する。一方、N
Oの場合には、索引表現44が見つからなかったのでS
5に進む。
【0053】S5は、検索要求の用語関係に置換する。
これは、入力された文字列の索引表現44と一致するも
のが文書データベース7に登録されていなかったので、
図5の索引表現テーブル4を参照して一致する係受けパ
ターン41に対応する用語関係生成パターン43を取り
出し、この用語関係生成パターン43をもとに用語関係
45を生成し、これに置換する。
【0054】S6は、用語関係の検索する。これは、S
5で置換した用語関係45が、図7の文書データベース
7中の用語関係45中に存在するか否かを検索する。S
7はS6の検索によって一致するものが有りか判別す
る。YESの場合には、一致する用語関係45が見つか
ったので、S8で当該用語関係45に対応づけて登録さ
れている文書中の位置情報を出力し終了する。一方、N
Oの場合には、用語関係45が見つからなかったのでS
9に進む。
【0055】S9は、検索要求のキーワード分割する。
これは、検索要求のあった入力文字列を単語に分割して
それぞれをキーワードにする。S10は、キーワード索
引の検索を行う。これは、S9で分割したキーワードに
ついて、予め作成しておいたキーワード索引72を検索
する。
【0056】S11は、S10のキーワード索引を検索
して一致するものが有りか判別する。YESの場合に
は、一致するものがあったので、S12でその文書位置
を出力し、終了する。NOの場合には、索引表現44、
用語関係45およびキーワード索引を検索しても見つか
らなかったので、文書中に該当する文字列が無いとして
終了する。
【0057】次に、具体例について説明する。 (1) 文字列1:「カテゴリの作成」 この場合には、文字列1「カテゴリの作成」について、
図7の索引表現44を検索すると、第3行目に見つかっ
たので、S3のYESとなり、S4で文書中の位置情報
L1を出力する。文字列1の場合には、索引表現44が
見つかったので、文書中の位置情報L1を出力し、該当
する位置を強調表示などする。これにより、利用者は、
文字列1について索引表現44を辿って該当する文書中
の位置を認識できる。
【0058】(2) 文字列2:「過去のカテゴリ例に
より生成」 この場合には、文字列2「過去のカテゴリ例により生
成」が図7の索引表現44を検索しても一致するものが
見つからないので、この文字列2「過去のカテゴリ例
により 生成」をもとに一致する図5の索引表現テーブ
ル4の対応する用語関係パターン43を「A<方法>
B」と見つけ、A=「過去のカテゴリ例」、B=「生
成」を入れて、用語関係45「過去のカテゴリ<方法>
生成」を生成する。この用語関係45「過去のカテゴリ
<方法>生成」を図7の用語関係44のフィールドを検
索すると一致するものが見つかったので、文書中の位置
情報L2を出力し、該当する位置を強調表示などする。
これにより、利用者は、文字列2について用語関係45
を辿って該当する文書中の位置を認識できる。
【0059】(3) 文字列3:「カテゴリ生成」 この場合には、文字列3「カテゴリ生成」が図7の索引
表現44を検索しても一致するものが見つからなく、こ
の文字列2「カテゴリ 生成」をもとに一致する図5の
索引表現テーブル4を探しても見つからないので、当該
文字列2を「カテゴリ」と「生成」の2つのキーワード
とし、予め作成したおいたキーワード索引を検索し、カ
テゴリの存在する図7の文書中の位置L1を出力し、該
当する位置を強調表示などする。これにより、利用者
は、文字列3についてキーワード索引を検索して該当す
る文書中の位置を認識できる。
【0060】
【発明の効果】以上説明したように、本発明によれば、
文書データから検索対象外の文書を除き、このうちから
重要な文を自動選択した後、索引表現テーブル4を参照
して索引表現44および用語関係45を生成し文書中の
位置に対応づけて保存すると共にキーワード索引72も
作成して保存する構成を採用しているため、検索時に索
引表現44、用語関係45およびキーワード索引72の
順に検索して意味的関係や論理的関係の強い順に該当す
る文書中の文章を見つけることができる。この際に (1) 文書中の索引対象外の表題、図、表、謝辞、参
考文献などを取り除いた後の文書から索引を自動作成し
ているため、従来の不要な情報や文書に関連する索引が
抽出されることがなくなった。
【0061】(2) (1)に加えて更に、文書中の各
文のついて重要後辞書21を参照して重み付けして重要
な文書のみを抽出し、索引を作成しているため、従来の
重要でない文に関連する索引が抽出されることがなくな
った。
【0062】(3) (1)、(2)で抽出した重要な
文についてのみ、索引表現テーブル4を参照して索引表
現44および用語関係45を生成して文書中のその文の
位置に対応づけて保存しているため、検索時に索引表現
44、用語関係45、更にキーワード索引72の順に検
索し、検索対象の文字列に関連の強い順に文書中の位置
を表示させることができる。
【図面の簡単な説明】
【図1】本発明の原理ブロック図である。
【図2】本発明の索引付け部分の抽出処理説明図であ
る。
【図3】本発明の重要文抽出部の処理説明図である。
【図4】本発明のパターン解析と索引表現の生成処理の
流れ図である。
【図5】本発明の索引表現テーブル例である。
【図6】本発明の索引見出し編集画面例である。
【図7】本発明の文書データベース例である。
【図8】本発明の検索処理の流れ図である。
【符号の説明】
1:索引付け部分抽出部 2:重要文抽出部 3:用語関係・索引表現生成部 31:用語間の関係抽出部 32:索引表現生成部 4:索引表現テーブル 41:係受けパターン 42:索引表現生成パターン 43:用語関係パターン 44:索引表現 45:用語関係 5:辞書順ソート部 6:索引選択・修正部 7:文書データベース 71:文書 72:キーワード索引 8:検索処理部 9:ページ決定部 10:印刷処理部

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】文書の索引を作成する文書索引作成システ
    ムにおいて、 入力された文書中の文について予め作成した索引表現テ
    ーブル(4)を参照して、該当する係受けパターン(4
    1)に対応する用語関係パターン(43)をもとに用語
    関係(45)を生成および当該係受けパターン(41)
    に対応する索引表現生成パターン(42)をもとに索引
    表現(44)を生成する用語関係・索引表現生成部
    (3)を備え、 この生成された索引表現(44)および用語関係(4
    5)を索引として文書中の該当位置に対応づけて保存す
    ることを特徴とする文書索引作成システム。
  2. 【請求項2】上記入力された文書から索引作成対象外の
    文章である、予め登録された表題、図、表、謝辞、参考
    文献などを取り除く索引付け部分抽出部(1)を備えた
    ことを特徴とする請求項1に記載の文書索引作成システ
    ム。
  3. 【請求項3】上記作成対象外の文章を取り除いた後の文
    書の各文について、予め作成された重要語辞書(21)
    を参照して各単語に重みを付加して文単位に集計し、集
    計した重みが所定値以上の文のみを抽出する重要文抽出
    部(2)を備えたことを特徴とする請求項1および請求
    項2に記載の文書索引作成システム。
  4. 【請求項4】上記生成された索引表現(44)をソート
    してリストを表示し、当該リストから削除された索引表
    現(44)と対応する上記用語関係(45)を削除する
    索引選択・修正部(6)を備えたことを特徴とする請求
    項1から請求項3に記載の文書索引作成システム。
  5. 【請求項5】上記作成した索引表現(44)、用語関係
    (45)および文書中から予め抽出したキーワード索引
    (72)の順に検索し、該当するものが見つかったとき
    にその文書中の文を取り出す検索処理部(8)を備え、
    検索し得るように構成したことを特徴とする請求項1か
    ら請求項4に記載の文書索引作成システム。
JP03433694A 1994-03-04 1994-03-04 文書索引作成システム Expired - Fee Related JP3464518B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03433694A JP3464518B2 (ja) 1994-03-04 1994-03-04 文書索引作成システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03433694A JP3464518B2 (ja) 1994-03-04 1994-03-04 文書索引作成システム

Publications (2)

Publication Number Publication Date
JPH07244673A true JPH07244673A (ja) 1995-09-19
JP3464518B2 JP3464518B2 (ja) 2003-11-10

Family

ID=12411308

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03433694A Expired - Fee Related JP3464518B2 (ja) 1994-03-04 1994-03-04 文書索引作成システム

Country Status (1)

Country Link
JP (1) JP3464518B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012118756A (ja) * 2010-11-30 2012-06-21 Toshiba Corp 電子機器、人物相関図出力方法、人物相関図出力システム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63226765A (ja) * 1987-03-16 1988-09-21 Fuji Xerox Co Ltd 文書処理装置
JPH0244462A (ja) * 1988-08-05 1990-02-14 Nippon Telegr & Teleph Corp <Ntt> 自然言語処理装置
JPH0215904B2 (ja) * 1981-09-29 1990-04-13 Fujitsu Ltd
JPH0520354A (ja) * 1991-07-12 1993-01-29 Nippon Telegr & Teleph Corp <Ntt> 日本語文章解析装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0215904B2 (ja) * 1981-09-29 1990-04-13 Fujitsu Ltd
JPS63226765A (ja) * 1987-03-16 1988-09-21 Fuji Xerox Co Ltd 文書処理装置
JPH0244462A (ja) * 1988-08-05 1990-02-14 Nippon Telegr & Teleph Corp <Ntt> 自然言語処理装置
JPH0520354A (ja) * 1991-07-12 1993-01-29 Nippon Telegr & Teleph Corp <Ntt> 日本語文章解析装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012118756A (ja) * 2010-11-30 2012-06-21 Toshiba Corp 電子機器、人物相関図出力方法、人物相関図出力システム

Also Published As

Publication number Publication date
JP3464518B2 (ja) 2003-11-10

Similar Documents

Publication Publication Date Title
US6173251B1 (en) Keyword extraction apparatus, keyword extraction method, and computer readable recording medium storing keyword extraction program
US6044375A (en) Automatic extraction of metadata using a neural network
JP3691844B2 (ja) 文書処理方法
EP0423683B1 (en) Apparatus for automatically generating index
US6496820B1 (en) Method and search method for structured documents
JP3160201B2 (ja) 情報検索方法、情報検索装置
CN103440232A (zh) 一种科技论文标准化自动检测编辑方法
CN103440233A (zh) 一种科技论文标准化自动检测编辑系统
CN111488466A (zh) 中文带标记错误语料生成方法、计算装置和存储介质
JPH08110908A (ja) 索引作成装置
JP2669601B2 (ja) 情報検索方法及びシステム
JPH07334574A (ja) 法令文書検索改正システム
JP2572314B2 (ja) キーワード抽出装置
JPH0484271A (ja) 文書内情報検索装置
WO2000026839A1 (en) Advanced model for automatic extraction of skill and knowledge information from an electronic document
EP3432161A1 (en) Information processing system and information processing method
JPH06259420A (ja) 文章編集支援装置
JP3464518B2 (ja) 文書索引作成システム
JP3442422B2 (ja) 同義語情報作成装置および方法
JPH0877196A (ja) 文書情報抽出装置
JPH0877179A (ja) 文書索引生成装置
JPS61248160A (ja) 文書情報登録方式
JPH09259132A (ja) 情報登録検索装置及びその方法
JPS6175952A (ja) 文書入力処理方式
Mukhammadsolikh SOFTWARE OF THE NATIONAL CORPUS OF THE UZBEK LANGUAGE

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030805

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080822

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090822

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090822

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100822

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110822

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120822

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees