JPH05233689A - 文書自動要約方法 - Google Patents

文書自動要約方法

Info

Publication number
JPH05233689A
JPH05233689A JP4061052A JP6105292A JPH05233689A JP H05233689 A JPH05233689 A JP H05233689A JP 4061052 A JP4061052 A JP 4061052A JP 6105292 A JP6105292 A JP 6105292A JP H05233689 A JPH05233689 A JP H05233689A
Authority
JP
Japan
Prior art keywords
document
sentence
name
specific
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4061052A
Other languages
English (en)
Inventor
Atsuo Kawai
敦夫 河合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP4061052A priority Critical patent/JPH05233689A/ja
Publication of JPH05233689A publication Critical patent/JPH05233689A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 特定の個人や企業などに対応した文書データ
ベースの自動作成。 【構成】 入力部1より目的とする個人名や企業名など
の特定名を与える。文書検索部3は、文書DB2に蓄え
られている文書の中から、入力部1より与えられる特定
名を含む文書を探し出す。文書解析部4は、解析用辞書
5を参照として、文書検索部3の探し出した文書の解析
を行う。要約部6は、文書解析部4における解析結果を
もとに、上記特定名の観点から重要と判断される要約内
容を抽出する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、データベースに蓄積さ
れている文書の中から特定の個人や企業などについて書
かれた文書を探し出し、目的とする特定の個人や企業な
どに対応した要約内容を自動的に抽出し得る文書自動要
約方法に関するものである。
【0002】
【従来の技術】例えば、新聞記事の中から特定の個人や
企業について書かれた文書を探し出し、その文書の要約
を行う場合、以下に示す2つの段階が必要になる。先
ず、第1段階として、所望の個人や企業について書かれ
た文書を探し出す。次に、第2段階として、第1段階で
得られたそれぞれの文書について、要約を作成する。上
記第1段階については、従来より用いられているキーワ
ード検索や全文検索を採用することにより、自動的に行
うことが可能である。
【0003】
【発明が解決しようとする課題】しかしながら、上記第
2段階については、従来の方法により自動要約を行おう
とすると、目的とする特定の個人や企業についての情報
が抜け落ち、要約としての意味をなさなくなることがあ
る。すなわち、従来の自動要約方法は、特定の個人や企
業向けではなく、不特定多数の相手に向けた要約方法で
あり、文書の要約は文書全体の主題等を判断して行われ
る。このため、従来の要約方法では、目的とする特定の
個人や企業についての記述が文書全体の主題にならない
場合、主題と関係のない情報として要約を作成する際に
捨てられてしまい、目的とする特定の個人や企業に対応
した文書データベースを作成することができない。
【0004】
【課題を解決するための手段】本発明はこのような課題
を解決するためになされたもので、個人名や企業名など
の特定名をあらかじめ定めたうえ、この特定名を含む文
書をデータベースに蓄積されている文書の中から探し出
し、この探し出した文書の解析を解析用辞書を参照とし
て行い、この解析結果をもとにして上記特定名の観点か
ら重要と判断される要約内容を抽出するようにしたもの
である。
【0005】
【作用】したがってこの発明によれば、データベースに
蓄積されている文書の中からあらかじめ定めた特定名を
含む文書が探し出され、この探し出された文書の解析が
解析用辞書を参照として行われ、この解析により短文と
したり文中に含まれる指示詞を明確にしたりするなどし
たうえ、上記特定名の観点から重要と判断される要約内
容が抽出される。
【0006】
【実施例】以下、本発明に係る文書自動要約方法を詳細
に説明する。
【0007】図1はこの文書自動要約方法を適用した新
聞要約装置の一実施例を示す基本ブロック図である。
【0008】同図において、1は入力部であり、この入
力部1より目的とする個人名や企業名などの特定名があ
らかじめ与えられる。2は文書データベース(以下、文
書DBと呼ぶ)であり、新聞に記載された文書が蓄えら
れている。3は文書検索部、4は文書解析部、5は解析
用辞書、6は要約部、7は出力部である。
【0009】この新聞要約装置において、文書検索部3
は、文書DB2に蓄えられている文書の中から、入力部
1より与えられる特定名を含む文書を探し出す。文書解
析部4は、解析用辞書5を参照として、文書検索部3の
探し出した文書の解析を行う。要約部6は、文書解析部
4における解析結果をもとに、上記特定名の観点から重
要と判断される要約内容を抽出する。出力部7は要約部
6の抽出した要約内容を出力する。
【0010】図2は図1に示した新聞要約装置をさらに
具体的に示したブロック図である。本実施例において、
文書解析部4は、形態素解析部4−1,文構造解析部4
−2,照応関係認定部4−3,長文分割部4−4,単語
テーブル4−5,第1の文構造テーブル4−6および第
2の文構造テーブル4−7から構成されている。また解
析用辞書5は、形態素解析辞書5−1,文構造解析規則
辞書5−2,照応関係認定規則辞書5−3および長文分
割規則辞書5−4から構成されている。
【0011】なお、図2において、8は特定名テーブ
ル、9は文書テーブル、10は第3の文構造テーブル、
11は要約文テーブルであり、図1では図示していな
い。
【0012】この新聞要約装置において、入力部1より
目的とする個人名や企業名などの特定名を与えると、こ
の特定名は特定名テーブル8へ書き込まれる。文書検索
部3は、文書DB2に蓄えられている文書の中から、特
定名テーブル8へ書き込まれている特定名をキーとし
て、キーワード検索技術(文書DB2中の文書にキーワ
ードが付与されている場合)や全文検索技術により、文
書中のいずれかに上記特定名についての記述がある文書
を探し出す。この探し出された文書は文書テーブル9へ
書き込まれる。
【0013】次に、形態素解析部4−1は、形態素解析
辞書5−1を参照して、文書テーブル9中の文書に対し
辞書引きを行って、単語単位に分割した単語列を生成す
る。また、形態素解析部4−1は、単語単位への分割と
同時に、自立語と付属語からなる文節単位の境界設定も
行う。これらの結果は単語テーブル4−5に格納され
る。
【0014】次に、文構造解析部4−2は、文構造解析
規則辞書5−2を参照して、単語テーブル4−5に格納
さている各入力文に対応した文構造を作り出す。この文
構造は文構造テーブル4−6に格納される。文構造テー
ブル4−6に格納された文構造は、各単語をノードと
し、各単語間の関係をリンクとするツリー構造を呈して
いる。文構造解析規則の具体的な実現方法としては、C
FG規則を用いる方法(文献言語工学 長尾真著 昭晃
堂 pp.94−146)や係り受け規則を用いる方法
(文献 電子情報通信学会誌 vol.70 No.9
pp.891−896 ”日本語解析の難しさ”)が
ある。
【0015】照応関係認定部4−3は、照応関係認定規
則辞書5−3を参照して、文構造テーブル4−6内の指
示詞(例:これ、前者)や指示詞相当語(例:同社、同
氏)を、それが指している実際の名詞に置き換える。こ
の結果は文構造テーブル4−7へ書き込まれる。照応関
係認定規則の具体的実現方法については、例えば(文献
言語工学 長尾真著 昭晃堂 pp.200−20
2)に記述されている。
【0016】長文分割部4−4は、文構造テーブル4−
7内に含まれている文字数がある長さ以上の文構造に対
して、長文分割規則辞書5−4中の規則の適用を試み、
適用可能な文構造に対しては、長い文構造を複数の短い
文構造へと分割する。この結果は文構造テーブル10へ
書き込まれる。長文分割規則の具体的実現方法について
は、例えば〔文献 人工知能学会全国大会(第4回 1
990年度)論文集 pp.313−316〕に記述さ
れている。
【0017】要約部6は、文構造テーブル10内に含ま
れる文単位の中から、特定名テーブル8に書き込まれて
いる特定名を含む文構造を抽出し、ツリー構造で記述さ
れている文構造を一次元の文字列からなる文へと変換す
る。この結果は抽出した要約内容として要約文テーブル
11へ書き込まれる。
【0018】出力部7は要約文テーブル11に書き込ま
れている要約内容を出力する。
【0019】したがって、この出力部7より出力される
要約内容を文書DB2等に蓄えれば、入力部1より与え
た目的の個人名や企業名などに対応する文書データベー
スが、自動的に作成されるものとなる。
【0020】次に、図3〜図11を参照しながら、文書
の実例を挙げて、図2に示した新聞要約装置での具体的
な要約過程について説明する。
【0021】入力部1より目的とする特定の企業名とし
て「NTT」を与えると、この企業名は特定名として特
定名テーブル8へ書き込まれる(図3参照)。文書検索
部3は、特定名テーブル8へ書き込まれている「NT
T」をキーとして、キーワード検索技術により、文書D
B2に蓄えられている文書の中から「NTT」について
の記述がある文書を探し出す。この探し出された文書は
文書テーブル9へ書き込まれる(図4参照)。
【0022】次に、形態素解析部4−1は、形態素解析
辞書5−1を参照して、文書テーブル9中の文書に対し
辞書引きを行って、単語単位に分割した単語列を生成す
ると同時に、自立語と付属語からなる文節単位の境界設
定も行い、この結果を単語テーブル4−5に格納する
(図5参照)。なお、図5において、//は文節の区切
り、/は単語の区切りである。
【0023】次に、文構造解析部4−2は、文構造解析
規則辞書5−2を参照して、単語テーブル4−5に格納
さている入力文に対応した文構造を作り出し、この文構
造を第1の文構造テーブル4−6に格納する(図6参
照)。
【0024】照応関係認定部4−3は、照応関係認定規
則辞書5−3を参照して(図10参照)、文構造テーブ
ル4−6内の指示詞相当語(同社)を、それが指してい
る実際の名詞に置き換える。ここでは、図10中の規則
1および規則2の両方を満たす名詞として、「ユニオン
クレジット」を認定し、その結果を第2の文構造テーブ
ル4−7に書き込む(図7参照)。
【0025】長文分割部4−4は、長文分割規則辞書5
−4中(図11参照)の長文認定規則を参照することに
より、文構造テーブル4−7内に含まれる文構造の中か
ら分割の対象となる文構造を選択する。図7の文構造テ
ーブル4−7の例は、長文認定規則1および長文認定規
則2を満たしているので、分割の対象となる。次に、分
割点決定規則を適用することにより、実際の分割を行
う。図7の例は用言を2つしか含んでいないので、分割
点決定規則1が適用され、図8に示したような第3の文
構造テーブル10での書き込み結果を得る。
【0026】要約部6は、文構造テーブル10内に含ま
れる文構造の中から、特定名テーブル8に書き込まれて
いる「NTT」を含む文構造を抽出し、ツリー構造で記
述されている文構造を一次元の文字列からなる文書へと
変換し、この結果を抽出した要約内容として要約文テー
ブル11へ書き込む(図9参照)。
【0027】なお、上述した実施例では新聞記事の中か
ら特定の個人や企業について書かれた文書を探し出しそ
の要約を行うものとしたが、週刊誌,雑誌,各種書物等
の記事についても同様にして適用することができ、特定
名を含む各種の文書の自動要約に用いて効果的である。
【0028】
【発明の効果】以上説明したことから明らかなように本
発明によれば、データベースに蓄積されている文書の中
からあらかじめ定めた特定名を含む文書が探し出され、
この探し出された文書の解析が解析用辞書を参照として
行われ、この解析により短文としたり文中に含まれる指
示詞を明確にしたりするなどしたうえ、上記特定名の観
点から重要と判断される要約内容が抽出されるので、目
的とする特定の個人や企業などにカスタマイズした要約
内容を得ることができ、目的とする特定の個人や企業な
どに対応した文書データベースの自動作成が可能とな
る。
【図面の簡単な説明】
【図1】本発明に係る文書自動要約方法の適用された新
聞要約装置の一実施例を示す基本ブロック図。
【図2】この新聞要約装置をさらに具体的に示したブロ
ック図。
【図3】特定名テーブルへの書き込み内容の具体例を示
す図。
【図4】文書テーブルへの書き込み内容の具体例を示す
図。
【図5】単語テーブルへの書き込み内容の具体例を示す
図。
【図6】第1の文構造テーブルへの書き込み内容の具体
例を示す図。
【図7】第2の文構造テーブルへの書き込み内容の具体
例を示す図。
【図8】第3の文構造テーブルへの書き込み内容の具体
例を示す図。
【図9】要約文テーブルへの書き込み内容の具体例を示
す図。
【図10】照応関係認定規則辞書内の照応関係認定規則
を例示する図。
【図11】長文分割規則辞書内の長文分割規則を例示す
る図。
【符号の説明】
1 入力部 2 文書データベース(文書DB) 3 文書検索部 4 文書解析部 5 解析用辞書 6 要約部 7 出力部 8 特定名テーブル

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 個人名や企業名などの特定名をあらかじ
    め定めたうえ、この特定名を含む文書をデータベースに
    蓄積されている文書の中から探し出し、この探し出した
    文書の解析を解析用辞書を参照として行い、この解析結
    果をもとにして前記特定名の観点から重要と判断される
    要約内容を抽出することを特徴とする文書自動要約方
    法。
JP4061052A 1992-02-18 1992-02-18 文書自動要約方法 Pending JPH05233689A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4061052A JPH05233689A (ja) 1992-02-18 1992-02-18 文書自動要約方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4061052A JPH05233689A (ja) 1992-02-18 1992-02-18 文書自動要約方法

Publications (1)

Publication Number Publication Date
JPH05233689A true JPH05233689A (ja) 1993-09-10

Family

ID=13160062

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4061052A Pending JPH05233689A (ja) 1992-02-18 1992-02-18 文書自動要約方法

Country Status (1)

Country Link
JP (1) JPH05233689A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07182373A (ja) * 1993-03-17 1995-07-21 Toshiba Corp 文書情報検索装置及び文書検索結果表示方法
JPH10340271A (ja) * 1997-06-09 1998-12-22 Fuji Xerox Co Ltd 文書抄録作成装置及び文書抄録作成プログラムを記録した記憶媒体
JPH11282881A (ja) * 1998-01-27 1999-10-15 Fuji Xerox Co Ltd 文書要約装置および記録媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07182373A (ja) * 1993-03-17 1995-07-21 Toshiba Corp 文書情報検索装置及び文書検索結果表示方法
JPH10340271A (ja) * 1997-06-09 1998-12-22 Fuji Xerox Co Ltd 文書抄録作成装置及び文書抄録作成プログラムを記録した記憶媒体
JPH11282881A (ja) * 1998-01-27 1999-10-15 Fuji Xerox Co Ltd 文書要約装置および記録媒体

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US5680628A (en) Method and apparatus for automated search and retrieval process
JP2783558B2 (ja) 要約生成方法および要約生成装置
US20010014852A1 (en) Document semantic analysis/selection with knowledge creativity capability
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JP2009503739A (ja) 定義の抽出
JP3594701B2 (ja) キーセンテンス抽出装置
JP3363501B2 (ja) テキスト検索装置
JPS63244259A (ja) キ−ワ−ド抽出装置
JPH05233689A (ja) 文書自動要約方法
JPH0877196A (ja) 文書情報抽出装置
US20040054677A1 (en) Method for processing text in a computer and a computer
KR100452024B1 (ko) 자연어 질의 응답 검색 엔진 및 검색 방법
JPH05224687A (ja) 日本文読み上げ単語変換編集処理方式
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
JPH06259423A (ja) 要約自動作成方式
JP2812511B2 (ja) キーワード抽出装置
JP3161660B2 (ja) キーワード検索方法
JPH0773200A (ja) キーワード抽出方法
JP3358100B2 (ja) 日本語質問メッセージ解析方法及び装置
JPH07152778A (ja) 文書検索装置
JPS63109572A (ja) 派生語処理方式
JPS6389976A (ja) 言語解析装置
JPS6368972A (ja) 未登録語処理方式
JPH05250403A (ja) 日本文単語解析方式