JPH01273164A - 日本語文書要約装置 - Google Patents

日本語文書要約装置

Info

Publication number
JPH01273164A
JPH01273164A JP63102091A JP10209188A JPH01273164A JP H01273164 A JPH01273164 A JP H01273164A JP 63102091 A JP63102091 A JP 63102091A JP 10209188 A JP10209188 A JP 10209188A JP H01273164 A JPH01273164 A JP H01273164A
Authority
JP
Japan
Prior art keywords
data structure
document
keyword
named entity
abstract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63102091A
Other languages
English (en)
Inventor
Yoshihiko Hayashi
良彦 林
Masanobu Higashida
正信 東田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP63102091A priority Critical patent/JPH01273164A/ja
Publication of JPH01273164A publication Critical patent/JPH01273164A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、入力された日本語文書の要約を自動生成する
日本語要約装置に関する。
〔従来の技術〕
従来の文書要約に関する技術は、主に文脈処理研究の一
環として検討されてきた(例えば石崎。
井佐原;文脈と言語理解、電子通信学会言語処理とコミ
ュニケーション研究会、1986)、その代表的なもの
は、例えば事件に対する新聞記事が対象の場合、事件の
持つ因果的関係や時系列的関係(犯人が事件を起こし、
被害が発生し、警察などが捜査を行い、その結果として
犯人が警察によって逮捕される、など)をあらかじめ先
験的知識として用意しておき、それを基に意味処理、文
脈処理を行い要約を行うというものである。
(発明が解決しようとするm1M) 上記従来技術においては、文書の要約を行う場合、先験
的な知識を基に意味処理、文脈処理等を行う必要がある
ため、膨大かつ精密な先験的知識をあらかじめ用意しな
ければならない問題がある。
本発明の目的は、上記のような先験的知識を用いること
なく日本語文書の自動要約を行うことを可能にする日本
語文書要約装置を提供することにある。
【課題を解決するための手段〕
本発明の日本語文書要約装置においては、対象とする日
本語文書の属する分野のキーワードとなる用語を予め登
録してあるキーワード辞書、前記日本語文書の属する分
野の固有な表現を収録する固有表現パターン辞書、前記
日本語文書と前記キーワード辞書とを照合し一致した文
書を出力するキーワード解析部、前記日本語文書と前記
固有表現パターン辞書とを照合し一致した文書を出力す
る固有表現パターン解析部、前記キーワード解析部の出
力結果と前記固有表現パターン解析部の出力結果から該
日本語文書の要約データ構造を生成する要約データ構造
生成部を備えている。
〔作 用〕 入力文書中の各文を形態素解析及び係り受は解析した結
果に対し、まず、該文書の属する分野においてキーワー
ドとなる用語をあらかじめ登録したキーワード辞書との
照合を行い、入力文書からキーワードを含む文を選択す
る。この操作により、次の固有表現パターン辞書の固有
表現パターンにマツチする文が文書に含まれない場合で
も、キーワードとされた語を含む文に含まれる情報を要
約に反映させることができ、要約データ構造の最低限の
品質を保証することができる0次に、該文書の属する分
野において固有な表現を収録した固有表現パターン辞書
との照合を行い、該文書においてキーとなる表現を含む
文を選択する。最後に、上記の2段階の処理によって選
択された文、選択された固有表現に対し、キーワード文
要約データ構造生成規則及び要約データ構造生成規則に
従って入力日本語文書の主要な内容を表現する要約デー
タ構造を生成する。なお、入力文書中のある文が、キー
ワード文であり、かつ、固有表現パターンにもマツチす
る場合は、例えば固有表現パターンを用いて要約データ
構造を生成すればよい。
本発明装置によれば、厖大で精密な先験的知識を必要と
しない、また、必要に応じて、キーワード辞書及び固有
表現パターン辞書を構成することによって、例えば事実
を報道する日本語文書を対象とする限りは、任意の分野
、任意の文書を扱うことができ、この両辞書の構成法に
よって、要約の詳しさを調節することも可能である。
〔実施例〕
以下、本発明の一実施例について図面により説明する。
第1図は本発明の日本文書要約装置の一実施例のブロッ
ク図を示す、該日本語文書要約装置は入力部1、キーワ
ード解析部2、キーワード辞書3、固有表現パターン解
析部4、固有表現パターン辞書5、要約データ構造生成
部6及び出力部7より構成される。キーワード辞書3は
要約対象の日本語文書の属する分野のキーワードとなる
用語をあらかじめ登録してある辞書であり、固有表現パ
ターン辞書は該日本語文書の属する分野の固有な表現を
収録する辞書である。
入力部1からは、要約処理対象の日本語文書を構成する
各日本文に対して形態素解析、係り受は解析の処理済み
の文書が入力されるものとする。
形態素解析は漢字と仮名でべた書きされた日本語文に対
して、単語単位への分割を行う処理であり。
この処理の過程で同時に文節も認定される。係り受は解
析は、形態素解析で得られた単語分割及び文節の情報を
基に、二つの文節間の修飾関係(係り受は関係)を求め
、文全体の構造を解析する処理である0例として、′こ
れからFAXでこの説明書を送ります、′について、単
語分割及び分節認定、文節間の修飾関係、文全体の構造
を示すと第2図(a)、(b)及び(c)のようになる
通常、日本語文書処理システムには、このような形態素
解析や係り受は解析の処理機能が具備されており、その
形態素解析及び係り受は結果が入力部1から入力される
キーワード解析部2は、入力文書を構成する各日本文と
キーワード辞書3との照合を行い、文書中からキーワー
ドを含6文を抽出する。抽出された文をキーワード文と
呼ぶ、固有表現パターン解折部4は、入力文書を構成す
る各日本文に対する係り受は解析結果と固有表現パター
ン辞書5との照合を行い、固有表現パターン中の変数要
素に対象文の該当する部分をバインドする。このパター
ンマツチングの結果生成されるデータ構造を固有表現デ
ータ構造と呼ぶ。
要約データ構造生成部6は、キーワード解析部2の出力
結果であるキーワード文、及び、固有表現パターン解析
部4の出力結果である固有表現データ構造を入力とし、
キーワード文については、キーワード文要約部分データ
構造生成規則を適用し、要約部分データ構造を生成する
。固有表現データ構造については、固有表現パターン辞
書5中の該固有表現パターンについてのレコード中に記
述されている個別の要約部分データ構造生成規則を適用
し、要約部分データ構造を生成する。その後、要約デー
タ構造生成部6は、要約データ構造生成規則を適用する
ことによって、これらの結果を総合し、入力の日本語文
書の集約を表現する要約データ構造を生成する。出力部
7は、この要約データ構造を出力する。これは、特定の
言語で要約文書を出力するための言語生成装置(例えば
、日本語生成装置や英語生成装置I)への入力となる。
以下、具体例について説明する。二へで、処理対象の日
本語文書は以下の如き記事であるとする。
[×××は、新しい言語理論に基づく言語翻訳システム
を開発1国内で販売する。同システムでは。
新しい言語理論であるPPT理論を採用し、高い精度を
実現した0価格は、×××−のDIPSシリージ用が5
00万円、DECのvAXシリーズ用が250万円、×
父費ソフトを販売窓口に指定、年間200本の販売を兇
込んでいる。出荷は、来月25日から、」 入力部1は、この日本語文書について、形態素解析及び
係り受は解析の行われた内容を入力し。
キーワード解析部2と固有表現パターン解析部4に転送
する。第3図(a)及び(b)は、当該入力文書におけ
る最初の1文と最後の1文に対する形態素解析及び係り
受は解析の結果の概要を示したものである。二Nで、助
詞表現部分はカタカナで表示し、「傘」はダミーの用語
を示す、入力部1に入力される文書の各文は、このよう
に各単語と助詞に分解され、その修飾が明示されている
キーワード解析部2は、入力文書中の1文単位に次の処
理を行う、当該文に対する形態素解析結果から、当該文
に含まれる名詞を抽出し、それぞれの名詞がキーワード
辞書3に含まれるかの照合を行う、照合が得られNば、
次にキーワード辞書3中のキーワード条件をチエツクし
、この条件を満たせば、その名詞をキーワードとし、こ
れを含む文をキーワード文とする。第4図にキーワード
辞書3のレコードの概念図を示す、このキーワード解析
部2の処理によって、本対象文書に対しては、次の2文
がキーワード文として抽出される(下線部は、キーワー
ドを示す)。
■ ×××は、新しい言語理論に基づく言語翻訳システ
ムを開発、国内で販売する。
■ ×××ソフトを販売窓口に指定、年間200本の販
売を見込んでいる。
一方、固有表現パターン解析部4は、入力文書中の1文
単位に次の処理を行う、当該文に対する形態素解析結果
から、該文に含まれる名詞、及び。
動詞を抽出し、それらの語が、固有表現パターン辞書5
における固有表現パターンのキー語となっているかどう
かの照合を行う、照合が得られNは、つぎに、その語を
キー語とする固有表現パターンと当該文の係り受は解析
結果との間で構造パターンマツチングを行う、このパタ
ーンマツチングが成功すれば、固有表現パターンにおけ
る変数要素に当該文の対応する部分をバインドする。こ
の結果得られるデータ構造が固有表現データ構造である
第5図に固有表現パターン辞書5のレコードの概念図を
示す、第Fll (a)は[販売するjに対するレコー
ド、第511 (b)は「出荷」に対するレコードの例
を示すものである。第Fll (b)に示すように、本
対象文書の属する分野において。
[出荷は、xx日から、」という述語の省略された表現
が固有な表現であれば、第5図(b)に示したように適
当に固有表現パターン辞書の内容を構成することで、適
切な述語(この例の場合、「始まる」)を補完すること
も可能である。
第6図は固有表現パターン解析部4で得られる固有表現
データ構造の概念図を示したものである。
第6図(a)は第3図(a)に示した本対象文書の最初
の1文に対し、第5図の固有表現パターン辞書による構
造パターンマツチング操作の結果であり、第6図(b)
は同じく第3図(b)の最後の1文に対する構造パター
ンマツチング操作の結果である。なお、助詞「ハ」は、
構造パターンマツチングの過程において助詞「ガ」に変
換されるものとしている。
上記キーワード解析部2で抽出されたキーワード文、及
び、固有表現パターン解析部4で得られた固有表現デー
タ構造は、要約データ構造生成部6に転送される。
要約データ構造生成部6では、まず、キーワード解析部
2によって抽出されたキーワード文に対し、該要約構造
生成部6に内蔵されているキーワード文要約部分データ
構造生成規則を適用し、要約部分データ構造を生成する
。このキーワード文要約部分データ構造生成規則は、キ
ーワード文中のキーワードを含む単文についての係り受
は構造をキーワード文要約部分データ構造とするもので
ある。第7図に先のキーワード文■を例として、この操
作及び要約部分データ構造の概念図を示す。
第7図(a)はキーワード文■に対する係り受は構造、
同図(b)は要約部分データ構造である。
次に、同約データ構造生成部6は、固有表現パターン解
析部4によって生成された各固有表現データ構造に対し
、固有表現パターン辞書5において、該固有表現パター
ンと対をなして記述されている個別の要約部分データ構
造生成規則を適用し、要約部分データ構造を生成する。
第8図及び第9図に、第51!!lに示した固有表現パ
ターン辞書のレコードの概念図、及び、第6図に示した
固有表現データ構造の概念図を例として、該操作及び該
操作によって生成される要約部分データ構造の概念図を
示す、第8図(a)は本対象文書の最初の文の係り受は
解析結果(第3図(a)より)、(−図(b)は要約部
分データ構造生成規則(第Elf(a)より)、同m 
(c)は要約部分データ構造である。同様に、第9図(
a)は最後の文の係り受は解析結果(第3図(b)より
)、同図(b)は要約部分データ構造生成規則(第5図
(b)より)、同図((1)は要約部分データ構造であ
る。
最後に、集約データ構造生成部6は、上記の2つの操作
によって得られた要約部分データ構造を原文書における
文の順番に従って総合することによって、該日本語文書
の主要な内容を表現する要約データ構造を生成する。こ
の操作及び操作の結果生成される要約データ構造の概念
図を第10図に示す、第10図において、■〜■は要約
部分データ構造の順序である。
出力部7は、この要約データ構造を出力する。
これを特定の言語の文生成装置の入力とすることで、特
定の言語で要約文書を出力することができる。以下に先
の本対象文書の例に対して想定される日本語及び英語に
よる要約文書例を示す。
(1)日本語による想定要約文書例 ’−x x i fJ<言語翻訳システムを開発した。
×××は、言語翻訳システムを国内で販売する。
□×××ソフトを販売窓口に指定した。
出荷は、来月25日から始まる。
(2)英語による想定要約文書例 X X X developed tha langu
age translation system。
’X−X ’X will  5all  the  
language  translation  sy
stem  indomestic market。
”X X X Software was 5peci
fied as tha agent。
The shipment will begin o
n 25th next month。
〔発明の効果〕
以上説明しように1本発明によれば、特定の内容を伝達
するために複数の日本文から構成される日本語文書の要
約を、厖大で精密な先験的知識を必要はせず行うことが
できる。しかも、キーワード辞書と固有表現パタ7ン辞
書を構成することによって、任意の分野の任意の文書を
利用者が必要とするだけの詳しさを持って得ることがで
きる。
例えば、先の文書例において、価格に関する情報も要約
として必要であれば、「価格」という請をキーワード辞
書に登録するか、この飴をキーとする固有表現を固有表
現パターン辞書に登録すれば良い、また、本発明装置で
出力される要約データ構造を入力とするような各言語の
文生成システムと組合せることによって、日本語文書要
約作成システムや日本語文書翻訳システムを容易に構成
することができる。
【図面の簡単な説明】
第1図は本発明の日本語文書要約装置の一実施例を示す
ブロック図、第2図は形態素解析及び係り受は解析を説
明する図、第3図は処理対象文書例の形態素解析・係り
受は解析の結果の概要を示す概念図、第4図はキーワー
ド辞書のレコードの概念図、第5図は固有表現パターン
辞書のレコードの概念図、第6図は固有表現データ構造
の概念図、第7図はキーワード文に対する要約部分デー
タ構造の概念図、第8図及び第9図は固有表現データ構
造に対する要約部分データ構造の概念図、第10図は処
理対象文書例に対する要約データ構造の概念図である。 1・・・入力部、  2・・・キーワード解析部、3・
・・キーワード辞書。 4・・・固有表現パターン解析部、 5・・・固有表現パターン辞書、 6・・・要約データ構造生成部、 7・・・出力部。 嗅”)            (b)CC) 送り Jで「 に つ (α) 開拓41  □ 弘たi】 意te、1fN人システム、 ネ近しい −1v寛9オ (す 出確斤         来月  25日第5図(良) 第5図(b) 第6図(0−) 1’A % f 1    =   U反# ’f  
J才?F喜町人シスグム   X2     Y2  
  ω内(b) 出費      来月2513 第9図 (cL) 第10図

Claims (1)

    【特許請求の範囲】
  1. (1)複数の日本文から構成される日本語文書を入力し
    て処理する文書処理システムにおいて、前記日本語文書
    の属する分野のキーワードとなる用語を予め登録してあ
    るキーワード辞書と、前記日本語文書の属する分野の固
    有な表現を収録する固有表現パターン辞書と、前記入力
    日本語文書と前記キーワード辞書とを照合し一致した文
    書を出力するキーワード解析部と、前記日本語文書と前
    記固有表現パターン辞書とを照合し一致した文書を出力
    する固有表現パターン解析部と、前記キーワード解析部
    の出力結果と前記固有表現パターン解析部の出力結果か
    ら前記入力日本語文書の要約データ構造を生成する要約
    データ構造生成部を備えていることを特徴とする日本語
    文書要約装置。
JP63102091A 1988-04-25 1988-04-25 日本語文書要約装置 Pending JPH01273164A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63102091A JPH01273164A (ja) 1988-04-25 1988-04-25 日本語文書要約装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63102091A JPH01273164A (ja) 1988-04-25 1988-04-25 日本語文書要約装置

Publications (1)

Publication Number Publication Date
JPH01273164A true JPH01273164A (ja) 1989-11-01

Family

ID=14318106

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63102091A Pending JPH01273164A (ja) 1988-04-25 1988-04-25 日本語文書要約装置

Country Status (1)

Country Link
JP (1) JPH01273164A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5077668A (en) * 1988-09-30 1991-12-31 Kabushiki Kaisha Toshiba Method and apparatus for producing an abstract of a document

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5077668A (en) * 1988-09-30 1991-12-31 Kabushiki Kaisha Toshiba Method and apparatus for producing an abstract of a document

Similar Documents

Publication Publication Date Title
Vasiliev Natural language processing with Python and spaCy: A practical introduction
US20090070327A1 (en) Method for automatically generating regular expressions for relaxed matching of text patterns
US20220222437A1 (en) Systems and methods for structured phrase embedding and use thereof
Kashmira et al. Generating entity relationship diagram from requirement specification based on nlp
US20220245353A1 (en) System and method for entity labeling in a natural language understanding (nlu) framework
US20200143112A1 (en) Fault-tolerant information extraction
US20220245361A1 (en) System and method for managing and optimizing lookup source templates in a natural language understanding (nlu) framework
Barbieri et al. Towards a natural language conversational interface for process mining
Patil et al. Novel technique for script translation using NLP: performance evaluation
US20220229998A1 (en) Lookup source framework for a natural language understanding (nlu) framework
US20220229990A1 (en) System and method for lookup source segmentation scoring in a natural language understanding (nlu) framework
US20220229986A1 (en) System and method for compiling and using taxonomy lookup sources in a natural language understanding (nlu) framework
Revanth et al. Nl2sql: Natural language to sql query translator
JPH01273164A (ja) 日本語文書要約装置
Borges et al. Query understanding for natural language enterprise search
AP et al. Deep learning based deep level tagger for malayalam
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
Raj et al. Natural Language Processing for Chatbots
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam
JP3416918B2 (ja) キーワード自動抽出方法および装置
Love Benchmarking the performance of Two Automated Term-extraction systems: LOGOS and ATAO
Dalvi et al. NxPlain: Web-based Tool for Discovery of Latent Concepts
US20220229987A1 (en) System and method for repository-aware natural language understanding (nlu) using a lookup source framework
US20220245352A1 (en) Ensemble scoring system for a natural language understanding (nlu) framework
Gonçalves de Pontes et al. PPMark: An Architecture to Generate Privacy Labels Using TF-IDF Techniques and the Rabin Karp Algorithm