JPH0251766A - 索引項目自動抽出方式 - Google Patents

索引項目自動抽出方式

Info

Publication number
JPH0251766A
JPH0251766A JP63202931A JP20293188A JPH0251766A JP H0251766 A JPH0251766 A JP H0251766A JP 63202931 A JP63202931 A JP 63202931A JP 20293188 A JP20293188 A JP 20293188A JP H0251766 A JPH0251766 A JP H0251766A
Authority
JP
Japan
Prior art keywords
index
index item
items
item
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63202931A
Other languages
English (en)
Inventor
Yoshifumi Takahashi
高橋 善文
Koichiro Takahashi
浩一郎 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP63202931A priority Critical patent/JPH0251766A/ja
Publication of JPH0251766A publication Critical patent/JPH0251766A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概要〕 文書から索引項目を自動的に抽出する索引項目自動抽出
方式に関し、 文書から取り出した語句について索引抽出ルールを適用
して索引項目候補を抽出し、更に常識セットおよび必要
に応じて既索引項目などを除外して索引項目を自動的に
抽出すると共に既索引項目の十分性を検査することを目
的とし、 文書から単語を取り出す自然語解析部と、この自然語解
析部によって取り出した語句に対して、索引抽出ルール
を適用して索引項目候補を収集する索引項目収集部と、
この索引項目収集部によって収集した索引項目候補から
、常識セットおよび必要に応じて既索引項目などを除外
した索引項目を抽出する索引項目抽出部とを備え、この
索引項目抽出部によって抽出した索引項目を出力するよ
うに構成する。
(産業上の利用分野) 本発明は、文書から索引項目を自動的に抽出する索引項
目自動抽出方式に関するものである。
〔従来の技術と発明が解決しようとする課題〕文書、特
に技術文書の中でも機械やコンピュータなどの取り扱い
説明書は、ページ数が多く、かつ日常生活では使用しな
い技術用語が氾濫している。読者は一刻も早く知りたい
用語、耳慣れない用語の意味や装置の使い方を知りたい
と考えている。こういった場合に、適切な索引項目の果
たす役割は大きい、このとき、■文書作成後に、自動的
に索引項目を抽出して、索引ページの原稿を作成するた
めの技術が要望されている。また、■索引ページが既に
あるなら、その十分性を検査する技術が要望されている
本発明は、文書から取り出した語句について索引抽出ル
ールを適用して索引項目候補を抽出し、更に常識セント
および既索引項目などを除外して索引項目を自動的に抽
出すると共に既索引項目の十分性を検査することを目的
としている。
(課題を解決する手段) 第1図を参照して課題を解決する手段を説明する。
第1図において、文書ライブラリ1は、技術文書などを
格納するライブラリである。
自然語解析部3は、入力された文書(特に技術文書など
)について、日本語基本辞書3−1および日本語解析文
法3−2を参照して、形B素解析、構文解析などして語
句を取り出すものである。
索引項目収集部4は、文書から取り出した語句に対して
、索引抽出ルール4−1を適用して索引項目候補を抽出
するものである。
付合せ処理部6は、索引項目候補からユーザ指定のあっ
た索引項目を除外するものである。
索引項目抽出部8は、索引項目候補から常識用語などを
除外して索引項目を抽出するものである。
〔作用〕
本発明は、第1図に示すように、自然語解析部3が入力
された文書を解析して語句を取り出し、索引項目収集部
4がこの語句に対して索引抽出ルール4−1を適用して
索引項目候補を抽出し、付合せ処理部6が必要に応じて
ユーザ指定のあった索引項目を除外し、索引項目抽出部
8が索引項目候補から常識用語などを除外した索引項目
を抽出するようにしている。
従って、文書から索引項目を自動的に抽出することが可
能となる。また、索引項目が既にあるなら、ユーザがこ
の索引項目を指定することにより、不足分の索引項目が
抽出されるので、既にある索引項目の十分性を検査する
ことが可能となる。
〔実施例) 次に、第1図から第7図を用いて本発明の1実施例の構
成および動作を順次詳細に説明する。
第1図において、文書ライブラリ1は、日本文作成デバ
イスを用いて作成(日本語原稿執筆)などした文書(特
に技術文書など)を保管・管理するものである。
索引項目の検査・抽出ツール2は、以下説明するように
、文書から索引項目を抽出したり、既にある索引項目の
不足分(もれ)の検査を行ったりするツールである。
自然言語解析部3は、日本語基本辞書3−1および日本
語解析文法3−2を参照して文書ライブラリ1から読み
出した文書を形態素解析、構文解析などして語句を取り
出すものである。
索引項目収集部4は、文書から取り出した語句に対して
、索引抽出ルール4−1を適用して索引項目候補を抽出
するものである。この抽出した索引項目候補は、索引候
補ファイル5中の用語“aolなどとして格納する。ま
た、文書名、参照ページなども併せて図示のように格納
する。この索引候補ファイル5に格納した具体的なリス
ト例を第7図に示す(後述する)。
索引抽出ルール4−1は、文書から取り出した語句に適
用して索引項目候補を抽出するルールであって、第4図
(イ)に示すようなルールである。
例えばルールLは、 全ての“目次” を索引項目候補として取り出すルールである。
付合せ処理部6は、索引項目候補から、ユーザ指定の索
引項目を除外するものである。この除外するユーザ指定
の索引項目は、ユーザ指定の索引項目ファイル7に格納
されている。
索引項目抽出部8は、索引項目候補から索引項目候補と
はなり難い日常用語などを除外するものである。
専門用語集9は、特に技術文書における専門用語を集め
たものであって、ある技術に共通する共iJ1専門用語
9−0と、各製品に固有の製品固有用語+119−1.
9−2などから構成され、必要に応じて索引項目候補か
らこれらの専門用語を除外するためのものである。
常識セット10は、索引項目候補から日常的に使う用語
を除外するためのものである(第5図参照)。
索引項目出力部11は、索引項目を索引ファイル14に
出力したり、索引項目の過不足を過不足情報情報リスi
・12として出力したりするものである。
執筆者のチエツク13は、索引項目の過不足情報リスト
12を執筆者が最終的なチエツクを行うことを表してい
る。
索引ファイル14は、本実施例によづて文書から自動的
に抽出した索引項目を格納したり、あるいは不足してい
る索引項目を格納したりするものである。
次に、第2図フローチャートに記述した順序に従い、第
3図から第7図を用いて、第1図構成の動作を詳細に説
明する。
第2図において、先頭の開始は、対象文書を入力する。
これは、第1図文書ライブラリ1から索引項目を抽出す
る対象文書く特に技術文書)を読み込むことを意味して
いる。この際、索引項目の検査を行う場合にはその旨を
指定する。指定がない場合には、索引項目を抽出する処
理が行われる。
図中(alは、文書の自然語解析を行う、これは、第1
図文書ライブラリ1から読み出した文書(特に技術文書
)について順次1文を切り出し、日本語基本葬IF 3
−1 #よび日本語解析文法3−2を参照して形態素解
析(品詞など)、構文解析、意味解析して語句を取り出
すことを意味している。
図中(blは、索引項目を収集する。これは、第1図索
引項目収集部4が図中(alで取り出した語句に対して
、索引抽出ルール4−1を適用し、索引項目候補を抽出
して索引候補ファイル5に格納することを意味している
6例えば第4図(イ)索引抽出ルール1 すべての“目次” を第3図文書に適用して■に示すように“XYの利用方
法“xyコマンド概要1などを抽出することを意味して
いる。同様に第4図(イ)索引項目抽出ルール2 すべての゛見出し” を第3図文書に適用して■に示すように“検索結果の編
集方法”PRIN?コマンド”などを抽出する。
図中fe)は、ユーザ指定ありか否かを判別する。
これは、開始時にユーザ指定の索引項目を除外する指定
がなされていたか否かを判別することを意味している。
YESの場合には、(dlでユーザ指定の索引項目を(
blで収集した索引項目候補中から除外する。NOの場
合には、(e)以降の処理を行う。
図中+diは、付合せ処理を行う、これは、第1回付合
せ処理部6が、(blで収集した索引項目候補から、既
索引項目などを除外することを意味している。この除外
する索引項目には、執筆者が文書の本文中に索引項目と
して下線を引いて指示した索引項目、予めユーザが指定
した索引項目、あるいは旧版の索引項目などがある。こ
れらの索引項目を除外することにより、不足分の索引項
目のみを取り出すことが可能となり、既に作成された索
引項目の十分性の検査を行うことができる。
図中telは、不足した索引項目候補を抽出する。
これは、[blで収集した索引項目候補、あるいは更に
(dlで既索引項目を除外した後の索引項目候補を整理
し、その中から索引項目となり難い日常的な用語などを
除外することを意味している。このため、索引項目候補
から、第5図に示すような常識セラ1−10に該当する
用i!(例えば片仮名群の“データ”、漢字群の“関係
”、英字群の“alphabet”など)などを除外す
る。
図中(flは、索引項目を出力する。これは、telの
処理結果を索引ファイル14に出力すると共に帳票に印
刷などすることを意味している。
以上の処理によって、文書から自動的に索引項目を抽出
することが可能となると共に、索引項目の検査を指定し
たことに対応して既索引項目に不足する索引項目のみを
抽出して十分性の検査を行うことが可能となる。
第3図は索引項目候補の抽出例を示す、ここで、〔目次
〕、〔見出し〕、〔片仮名、英字・特殊記号)、〔漢字
列とカタカナ列の結合〕、〔索引補足語〕からの抽出例
は、第4図(イ)索引抽出ルール1.2.4.5.3を
適用して抽出したものである。この他に、図示してない
が他の索引抽出ルールを適用して同様に索引項目候補を
抽出するようにする。
第4図(イ)は索引抽出ルール、第4図(ロ)はその抽
出例を示す0例えば第4図(イ)索引抽出ルール1、 すべての“目次” を適用して文書から抽出した例を第4図(ロ)第2章1
乙」」ユ の下線部分に示す、以下同様に第4図(イ)索弓抽出ル
ール2ないし5を適用して第4図(ロ)下線に示すよう
に索引項目候補を文書中から抽出する。
第5図は、常識セット例を示す、これは、文書から抽出
した索引項目候補から、日常的な用語を除外するだめの
ものである0片仮名群”5’−9“ファイル”などの日
常的な基本用語、漢字群l園五” ” m1J−’  
題”などの日常的な基本用語、および英字群“alph
abet”  ” da田”などの日常的な基本用語は
、索引項目候補から除外する。
ただし、日常的な用語ではあっても、“索引補足語”の
文脈に表れた場合には除外しない(例えば;集合の回正
)。
第6図は、索引項目抽出説明図を示す、これは、■の執
筆者が指定してきた゛索引項目″の集合、0本ツールで
自動抽出した°索引項目候補”の集合、およびこれらの
と[F]との集合の重なる部分の集合の関係などを表す
ものである。ここで、(])索引項目が既に存在する場
合には、■の集合からQの集合の差である■の斜線を引
いた部分の差集合について求めればよい、これが、不足
している索引項目である。一方、(2)索引項目が存在
しない場合には、■の集合を求めればよい。
第7図は、索引項目候補リスト例を示す、これは、実際
に本実施例に係わるシステムを稼動させて作成したもの
の一部を切り出したものである。
文書名は、特許抄録であって、左側から番号、ページ、
行、テキスト(技術文書に対応)、および索引項目候補
が順次図示のように記載されている。
これらの索引項目候補から重複するものを削除した後、
ユーザ指定がある場合には既索引項目を削除し、更に常
識セットを除外することにより、索引項目あるいは既索
引項目の不足文の索引項目を自動的に抽出することがで
きる。
(発明の効果) 以上説明したように、本発明によれば、文書から取り出
した語句について索引抽出ルールを適用して索引項目候
補を抽出し、必要に応じて既索引項目などを除外し、更
に常識セットなどを除外して索引項目を抽出する構成を
採用しているため、文書から自動的に索引項目を抽出す
ることができると共に、既索引項目の十分性を検査する
ことができる。
【図面の簡単な説明】
第1図は本発明の1実施例構成図、第2図は本発明の動
作説明フローチャート、第3図は索引項目候補の抽出例
、第4図は索引抽出ルール/抽出例、第5図は常識セッ
ト例、第6図は索引項目抽出説明図、第7図は索引項目
候補リスト例を示す。 図中、lは文書ライブラリ、3は自然言語解析部、3−
1は日本語基本辞書、3−2は日本語解析文法、4は索
引項目収集部、4−1は索引抽出ルール、5は索引候補
ファイル、6は付合せ処理部、7はユーザ指定の索引項
目ファイル、8は索引項目抽出部、10は常識セット、
11は索引項目出力部、14は索引ファイルを表す。

Claims (1)

  1. 【特許請求の範囲】 文書から索引項目を自動的に抽出する索引項目自動抽出
    方式において、 文書から単語を取り出す自然語解析部(3)と、この自
    然語解析部(3)によって取り出した語句(1つ以上の
    単語の組み合せ)に対して、索引抽出ルール(4−1)
    を適用して索引項目候補を収集する索引項目収集部(4
    )と、 この索引項目収集部(4)によって収集した索引項目候
    補から、常識セット(10)および必要に応じて既索引
    項目などを除外した索引項目を抽出する索引項目抽出部
    (8)とを備え、 この索引項目抽出部(8)によって抽出した索引項目を
    出力するように構成したことを特徴とする索引項目自動
    抽出方式。
JP63202931A 1988-08-15 1988-08-15 索引項目自動抽出方式 Pending JPH0251766A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63202931A JPH0251766A (ja) 1988-08-15 1988-08-15 索引項目自動抽出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63202931A JPH0251766A (ja) 1988-08-15 1988-08-15 索引項目自動抽出方式

Publications (1)

Publication Number Publication Date
JPH0251766A true JPH0251766A (ja) 1990-02-21

Family

ID=16465533

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63202931A Pending JPH0251766A (ja) 1988-08-15 1988-08-15 索引項目自動抽出方式

Country Status (1)

Country Link
JP (1) JPH0251766A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251072A (ja) * 1993-02-27 1994-09-09 Omron Corp 文書処理装置および方法
JPH0877179A (ja) * 1994-09-02 1996-03-22 Fujitsu Ltd 文書索引生成装置
JPH09190449A (ja) * 1996-01-11 1997-07-22 Hitachi Ltd 索引自動生成方法とその利用方法
JP2008064199A (ja) * 2006-09-07 2008-03-21 Suzuki Motor Corp ドラムブレーキ装置のシール構造

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60100223A (ja) * 1983-11-07 1985-06-04 Hitachi Ltd 索引自動作成機能を有する文書作成・管理装置
JPS61151738A (ja) * 1984-12-26 1986-07-10 Toshiba Corp キ−ワ−ド抽出装置
JPS63192130A (ja) * 1987-02-05 1988-08-09 Nippon Telegr & Teleph Corp <Ntt> キ−ワ−ド自動抽出装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60100223A (ja) * 1983-11-07 1985-06-04 Hitachi Ltd 索引自動作成機能を有する文書作成・管理装置
JPS61151738A (ja) * 1984-12-26 1986-07-10 Toshiba Corp キ−ワ−ド抽出装置
JPS63192130A (ja) * 1987-02-05 1988-08-09 Nippon Telegr & Teleph Corp <Ntt> キ−ワ−ド自動抽出装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251072A (ja) * 1993-02-27 1994-09-09 Omron Corp 文書処理装置および方法
JPH0877179A (ja) * 1994-09-02 1996-03-22 Fujitsu Ltd 文書索引生成装置
JPH09190449A (ja) * 1996-01-11 1997-07-22 Hitachi Ltd 索引自動生成方法とその利用方法
JP2008064199A (ja) * 2006-09-07 2008-03-21 Suzuki Motor Corp ドラムブレーキ装置のシール構造

Similar Documents

Publication Publication Date Title
US5850561A (en) Glossary construction tool
US5983171A (en) Auto-index method for electronic document files and recording medium utilizing a word/phrase analytical program
Travis et al. The SGML implementation guide: a blueprint for SGML migration
US5832476A (en) Document searching method using forward and backward citation tables
CN113254574A (zh) 一种机关公文辅助生成方法、装置以及系统
US20080162115A1 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
Battisti et al. A corpus for automatic readability assessment and text simplification of German
US7853595B2 (en) Method and apparatus for creating a tool for generating an index for a document
Foo Computational terminology: Exploring bilingual and monolingual term extraction
Powley et al. Evidence-Based Information Extraction for High Accuracy Citation and Author Name Identification.
Albeer et al. Automatic summarization of YouTube video transcription text using term frequency-inverse document frequency
Bergamaschi et al. Preserving and conserving culture: first steps towards a knowledge extractor and cataloguer for multilingual and multi-alphabetic heritages
JPH0251766A (ja) 索引項目自動抽出方式
JPH0522940B2 (ja)
L'Homme et al. Definition of an evaluation grid for term-extraction software
Gephart et al. Qualitative Data Analysis: Three Microcomputer-Supported Approaches.
Hollingsworth et al. Retrieving hierarchical text structure from typeset scientific articles–a prerequisite for e-science text mining
Salam et al. Developing the bangladeshi national corpus-a balanced and representative bangla corpus
JPH0251765A (ja) 用語集自動作成方式
Ho-Dac et al. Exploring Wikipedia talk pages for conflict detection
Vázquez-González et al. Creating a corpus of historical documents for emotions identification
Fonseca et al. Representation of structured data of the text genre as a technique for automatic text processing
De Smedt et al. How short is good? An evaluation of automatic summarization
US20230222145A1 (en) Information search system
JP3448922B2 (ja) 電子文書記憶装置