JPH06259423A - 要約自動作成方式 - Google Patents

要約自動作成方式

Info

Publication number
JPH06259423A
JPH06259423A JP5040860A JP4086093A JPH06259423A JP H06259423 A JPH06259423 A JP H06259423A JP 5040860 A JP5040860 A JP 5040860A JP 4086093 A JP4086093 A JP 4086093A JP H06259423 A JPH06259423 A JP H06259423A
Authority
JP
Japan
Prior art keywords
unnecessary
temporary
rule
important paragraph
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5040860A
Other languages
English (en)
Inventor
Masami Hara
正巳 原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP5040860A priority Critical patent/JPH06259423A/ja
Publication of JPH06259423A publication Critical patent/JPH06259423A/ja
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 人手による作業を減少し、高速に高品質の要
約を得ることが可能な要約自動作成方式を提供するこ
と。 【構成】 テキストの内容によってブロック分けして要
約を含む可能性の大きい順に優先付けした見出し語を登
録してある見出し語辞書6と、ブロック分けしたブロッ
クの中から仮要約として抽出すべき範囲を決定するため
に利用する慣用表現を登録してある慣用表現ルール7
と、仮要約の文字数を絞り込み、文の不要箇所を削除す
るために利用する不要語句を登録してある不要箇所削除
ルール9とを備え、見出し語辞書を用いてテキストを分
割、重要パラグラフを決定する処理部2と、重要パラグ
ラフ中から慣用表現を利用することにより仮要約を抽出
する処理部3と、仮要約から不要箇所削除ルールを利用
して要約に必要な部分を抽出する処理部4からなる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、定型のフォーマットを
持つテキストにおいて、テキスト中の見出し語および慣
用表現をもとに計算機上で要約を自動作成する方式に関
する。
【0002】
【従来の技術】従来、要約は人間がテキストを熟読し
て、内容を熟知した上で手作業によって作成していた。
近年になって、計算機により要約を自動的に作成する方
法が検討されてきており、その方法として、自然言語処
理技術、特に、文の意味を計算機上で理解する意味理解
技術や文脈理解技術を利用した要約自動作成の研究が行
われている。
【0003】
【発明が解決しようとする課題】大量のテキストデータ
を扱うようになってきた現在、要約の作成を人手で行う
ことは膨大な時間を要するため不可能である。一方、上
述した自然言語処理技術を駆使して文の意味や文脈をも
とに要約を作成する方式は未だ確立しておらず、それら
の技術を利用した文生成技術も確立していないという問
題があった。さらに、意味や文脈を処理する前段階とし
て、文から単語を切り出す形態素解析や文の構造を得る
構文解析が必要であるが、テキストが長大な場合にはそ
れらの処理だけでも膨大な時間を要するという問題があ
った。本発明は、上記事情に鑑みてなされたものであ
り、その目的とするところは、計算機における意味解析
の困難さを回避し、従来の人手による作成作業を減少
し、高速に高品質の要約を得ることが可能な要約自動作
成方式を提供することにある。
【0004】
【課題を解決するための手段】上記課題を解決するため
に、本発明の要約自動作成方式は、テキストの内容によ
ってブロック分けして要約を含む可能性の大きい順に優
先付けした見出し語を登録してある見出し語辞書と、ブ
ロック分けしたブロックの中から仮要約として抽出すべ
き範囲を決定するために利用する慣用表現を登録してあ
る慣用表現ルールと、仮要約の文字数を絞り込み、文の
不要箇所を削除するために利用する不要語句を登録して
ある不要箇所削除ルールとを備え、上記見出し語辞書を
用いてテキストを分割、重要パラグラフを決定する第1
ステップと、重要パラグラフ中から慣用表現を利用する
ことにより仮要約を抽出する第2ステップと、仮要約か
ら不要語削除ルールを利用して要約に該当する部分を抽
出する第3ステップを有している。
【0005】
【作用】本発明に係わる要約自動作成方式においては、
膨大な数量のテキストに対して、形態素解析、構文解
析、意味解析、文脈解析という自然言語処理の一連の処
理を実施することは困難であることに鑑み、テキストの
見出し語と慣用表現を利用して要約を作成するようにし
たものである。これにより、テキストの意味や文脈を複
雑にかつ長時間にわたり解析することを回避しながら要
約を作成することが可能となる。すなわち、テキストの
フォーマットと慣用表現を利用することにより、従来必
要としていた複雑な解析処理が不要となり、また、予め
重要箇所を絞り込むようにしたため、絞り込み後はテキ
ストの一部を解析するだけでよく、処理速度を向上させ
ることが可能となる。
【0006】
【実施例】本発明の実施例を図1ないし図4を用いて詳
細に説明する。図1は本発明の一実施例に係わる要約自
動作成システムの概要を示す図、図2は重要パラグラフ
特定処理部2の処理フローチャートを示す図、図3は仮
要約箇所抽出処理部3の処理フローチャートを示す図、
図4は不要箇所削除処理部4の処理フローチャートを示
す図である。
【0007】図1に示すように、本発明の一実施例に係
わる要約自動作成システムは、入力装置(図示されてい
ない)に入力する入力処理部1、テキストデータと見出
し語辞書6(重要なパラグラフを抽出するために利用す
る見出し語を登録している)とをパターンマッチングす
ることによって重要パラグラフを特定する重要パラグラ
フ特定処理部2、慣用表現ルール7と慣用表現語辞書8
を用いて重要パラグラフ内から仮要約を特定する仮要約
箇所抽出処理部3、不要語の用法や形式を登録した不要
箇所削除ルール9によって、仮要約から不要箇所を削除
する不要箇所削除処理部4、および図示されていない出
力装置に出力する出力処理部5から構成されている。
【0008】これらの処理部は、いずれもサブルーチン
により実行されるプログラムモジュールであり、矢印の
向きにしたがって入力処理部1、重要パラグラフ特定処
理部2、仮要約箇所抽出処理部3、不要箇所削除処理部
4、出力処理部5の順に起動される。重要パラグラフ特
定処理部2、仮要約箇所抽出処理部3、不要箇所削除処
理部4に関連して双方向矢印で示されているものは当該
処理部において利用される辞書またはルールを示してい
る。
【0009】以下、本発明の動作を定型フォーマットを
もつ文献として特許明細書を例にあげて説明する。先
ず、入力処理部1によって特許明細書が入力装置から入
力されると、次に、重要パラグラフ特定処理部2が起動
される。重要パラグラフ特定処理部2では(図2)、明
細書から一文を読み込み(ステップ10)、見出し語辞
書6(図5参照)に登録されている見出し語が検索でき
たかどうか(存在しているかどうか)のチェックを行う
(ステップ11)。
【0010】見出し語が検索できれば、さらに、ステッ
プ13で見出し語辞書6によって要約作成に不必要な見
出し語のマークが付いていないか否かをチェックする。
ステップ13のチェックの結果、不必要な見出し語のマ
ークが付いていなければ、その見出し語を含む文を重要
パラグラフに組み込む。また、ステップ13のチェック
の結果、不必要な見出し語のマークが付いていれば、ス
テップ15において、その見出し語が含まれている文を
不要文としてスキップし、ステップ10に戻りテキスト
から次の1文を読み込む。また、ステップ11におい
て、見出し語が検索できなければ、ステップ14または
ステップ15のいずれか、前の行で行ったのと同様の処
理(同種類の文と見做す)を行い(ステップ12)、ス
テップ10に戻る。以上の処理をテキストの全文に対し
て実行し、テキストの終了により重要パラグラフ特定処
理部2における処理を終了する。
【0011】図5に示したものは、見出し語辞書6の例
である。見出し語には同時に不要であるかどうかを示す
マーク(1または0)が付与されている。図5の場合、
マークが1であれば不要な見出し語、マークが0であれ
ば不要でない見出し語である。すなわち、この例では、
「発明の詳細な説明」および「課題を解決するための手
段」の見出し語は必要な見出し語、「発明の名称」、
「特許請求の範囲」、「実施例」および「図面の簡単な
説明」の見出し語は不要な見出し語とした場合を示して
いる。
【0012】重要パラグラフ特定処理部2の処理によっ
て重要パラグラフが確定した後、次に、仮要約箇所抽出
処理部3が起動される(図3)。仮要約箇所抽出処理部
3では、重要パラグラフ特定処理部2で特定され確定さ
れた重要パラグラフから慣用表現ルール7のうち優先順
位の高いルール順に該当する慣用表現を慣用表現語辞書
8をもとに総当たりで検索する(ステップ17)。
【0013】図6は慣用表現ルール7の例である。仮要
約は、慣用表現ルール7に含まれる表現にマッチングす
る部分を抽出することによって得られる。図6中のルー
ル1に該当する文としては、「上記の欠点を改善し、」
と「以下、図を用いて説明する。」という慣用表現の間
に含まれる部分が対応し、抽出される。
【0014】図7は慣用表現語辞書8の例である。これ
は、慣用表現ルール7において定義されている「 」内
の語に対して代用可能な語を列挙したものである。例え
ば、「欠点」という語の代用語としては、「問題点」、
「課題」、「欠点」、「問題」などがある。したがっ
て、前述の例「上記の欠点を改善し」は、「上記の課題
を解決し」でもよい。慣用表現ルール7にマッチングす
る表現を発見したら、その文を含むパラグラフを仮要約
とする(ステップ18)。
【0015】また、慣用表現ルール7にマッチする表現
を発見できない場合には、当該慣用表現ルールは適用で
きなかったという判断をして、次に優先順位の高い慣用
表現ルールにより(ステップ19)マッチする表現を検
索する。仮要約箇所抽出処理部3においては、候補が複
数発生する場合も存在するが、その場合も慣用表現ルー
ル毎に優先順位を設定してあるため、候補を1箇所に絞
り込むことが可能である。仮要約箇所抽出処理部3の出
力は、不要箇所削除処理部4に受け渡される。
【0016】不要箇所削除処理部4では、不要箇所削除
ルール9に登録されている語句を検索し(ステップ2
0)、それにしたがって仮要約候補中から要約に不要な
箇所を削除する(ステップ21)。
【0017】図8は不要箇所削除ルール9の例である。
図9は不要箇所削除ルール9を適用した場合の例であ
る。仮要約は図8の不要箇所削除ルール9を適用するこ
とにより、適当な文字数へと絞り込まれる。図9に示し
た例を説明すると、“不要箇所削除処理前”として示し
た文「本発明の目的は、上述した従来の欠点を除去し、
同一入力文字列に対し、種々の異なる態様の信号処理を
繰り返して施し得るようにし、同一文字列を再度入力す
る必要のない高能率の文字処理装置を提供することにあ
る。すなわち、本発明の文字列装置は、入力仮名文字列
に対して・・・」は、図8の不要箇所削除ルールを適用
して、「すなわち」以降の文「すなわち、本発明の文字
列装置は、・・・」を削除するとともに、図8では省略
されている不要箇所削除ルールによって「本発明の目的
は、上述した従来の欠点を除去し、」を削除し、結局、
図9の“不要箇所削除処理後”と示した文「同一入力文
字列に対し、種々の異なる態様の信号処理を繰り返して
施し得るようにし、同一文字列を再度入力する必要のな
い高能率の文字処理装置を提供することにある。」を得
ている。
【0018】全ての不要箇所削除ルール9を適用した後
(ステップ22、23)、残された文章を要約として不
要箇所削除処理を終了する。作成された要約は出力部5
によって出力される。なお、この明細書では、特許明細
書を例にして説明したが、他の定型フォーマットのテキ
ストにも適用できることはあきらかである。
【0019】
【本発明の効果】以上説明したように、本発明によれ
ば、人手による作成労力を削減、および計算機における
解析の困難さを克服して高速に高品質の要約を得ること
が可能となる。
【図面の簡単な説明】
【図1】本発明の一実施例を示す要約自動作成方式の機
能ブロック図である。
【図2】本発明の一実施例における重要パラグラフ特定
処理部の動作フローチャートである。
【図3】本発明の一実施例における仮要約箇所抽出処理
部の動作フローチャートである。
【図4】本発明の一実施例における不要箇所削除処理部
の動作フローチャートである。
【図5】本発明の一実施例における見出し語辞書の一例
を示す図である。
【図6】本発明の一実施例における慣用表現ルールの一
例を示す図である。
【図7】本発明の一実施例における慣用表現語辞書の一
例を示す図である。
【図8】本発明の一実施例における不要箇所削除ルール
の一例を示す図である。
【図9】本発明の一実施例における不要箇所削除ルール
を適用した場合の一例を示す図である。
【符号の説明】
1 入力処理部 2 重要パラグラフ特定処理部 3 仮要約箇所抽出処理部 4 不要箇所削除処理部 5 出力処理部 6 見出し語辞書 7 慣用表現ルール 8 慣用表現語辞書 9 不要箇所削除ルール

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 定型フォーマットを持つテキストの中か
    ら重要パラグラフを特定する重要パラグラフ特定手段
    と、上記重要パラグラフ特定手段によって特定された重
    要パラグラフの中から仮要約箇所を特定する仮要約箇所
    抽出手段と、上記仮要約箇所抽出手段によって特定され
    た仮要約箇所から不要語句を削除する不要箇所削除手段
    と備えたことを特徴とする要約自動作成方式。
  2. 【請求項2】 請求項1記載の要約自動作成方式におい
    て、上記重要パラグラフ特定手段は要約を含む可能性の
    大きい順に優先付けした見出し語を登録してある見出し
    語辞書を参照し、上記仮要約箇所抽出手段は慣用表現を
    登録してある慣用表現ルールおよび慣用表現ルールにお
    いて定義されている語に対して代用可能な語を列挙した
    慣用表現語辞書を参照し、上記不要箇所削除手段は不要
    語句を登録してある不要箇所削除ルールを参照すること
    を特徴とする要約自動作成方式。
JP5040860A 1993-03-02 1993-03-02 要約自動作成方式 Pending JPH06259423A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5040860A JPH06259423A (ja) 1993-03-02 1993-03-02 要約自動作成方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5040860A JPH06259423A (ja) 1993-03-02 1993-03-02 要約自動作成方式

Publications (1)

Publication Number Publication Date
JPH06259423A true JPH06259423A (ja) 1994-09-16

Family

ID=12592301

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5040860A Pending JPH06259423A (ja) 1993-03-02 1993-03-02 要約自動作成方式

Country Status (1)

Country Link
JP (1) JPH06259423A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09212504A (ja) * 1996-02-06 1997-08-15 N T T Data Tsushin Kk 文書校正装置
WO1998047083A1 (en) * 1997-04-16 1998-10-22 British Telecommunications Public Limited Company Data summariser
JPH11272686A (ja) * 1998-03-19 1999-10-08 Nippon Telegr & Teleph Corp <Ntt> 文書重要文抽出方法、文書重要文抽出装置及び文書重要文抽出プログラムを記録した記録媒体
US6338034B2 (en) 1997-04-17 2002-01-08 Nec Corporation Method, apparatus, and computer program product for generating a summary of a document based on common expressions appearing in the document
JP2007336237A (ja) * 2006-06-15 2007-12-27 Chugoku Electric Power Co Inc:The コールセンタの通話記録管理システムおよびその方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01304575A (ja) * 1988-06-01 1989-12-08 Sharp Corp 文書処理装置
JPH02257266A (ja) * 1989-02-06 1990-10-18 Teremateiiku Kokusai Kenkyusho:Kk 抄録文作成装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01304575A (ja) * 1988-06-01 1989-12-08 Sharp Corp 文書処理装置
JPH02257266A (ja) * 1989-02-06 1990-10-18 Teremateiiku Kokusai Kenkyusho:Kk 抄録文作成装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09212504A (ja) * 1996-02-06 1997-08-15 N T T Data Tsushin Kk 文書校正装置
WO1998047083A1 (en) * 1997-04-16 1998-10-22 British Telecommunications Public Limited Company Data summariser
US6334132B1 (en) 1997-04-16 2001-12-25 British Telecommunications Plc Method and apparatus for creating a customized summary of text by selection of sub-sections thereof ranked by comparison to target data items
US6338034B2 (en) 1997-04-17 2002-01-08 Nec Corporation Method, apparatus, and computer program product for generating a summary of a document based on common expressions appearing in the document
JPH11272686A (ja) * 1998-03-19 1999-10-08 Nippon Telegr & Teleph Corp <Ntt> 文書重要文抽出方法、文書重要文抽出装置及び文書重要文抽出プログラムを記録した記録媒体
JP2007336237A (ja) * 2006-06-15 2007-12-27 Chugoku Electric Power Co Inc:The コールセンタの通話記録管理システムおよびその方法

Similar Documents

Publication Publication Date Title
JP3220560B2 (ja) 機械翻訳装置
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US5680628A (en) Method and apparatus for automated search and retrieval process
US6269189B1 (en) Finding selected character strings in text and providing information relating to the selected character strings
JP3027052B2 (ja) 文書検索システム
US5077668A (en) Method and apparatus for producing an abstract of a document
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
Zhang et al. A trainable method for extracting Chinese entity names and their relations
JPH05158401A (ja) 文書速読支援表示方式並びに文書処理装置及び文書検索装置
JP3594701B2 (ja) キーセンテンス抽出装置
JPH06259423A (ja) 要約自動作成方式
Yeshambel et al. Evaluation of corpora, resources and tools for Amharic information retrieval
JPH06231178A (ja) 文書検索装置
Baisa et al. Turkic language support in Sketch Engine
JPH0827803B2 (ja) テキストベース検索方法
JPH0561902A (ja) 機械翻訳システム
KR20010004090A (ko) 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기
JP2737662B2 (ja) 外国語キーワード文献検索処理装置
JPH0320866A (ja) テキストベース検索方式
Lee et al. Automatic acquisition of phrasal knowledge for English-Chinese bilingual information retrieval
JPH05165889A (ja) 文書検索装置
JPH01126767A (ja) 辞書参照装置
JPH05233689A (ja) 文書自動要約方法
JPH09146958A (ja) 語彙対応辞書作成装置および語彙対応辞書作成方法