JPH01273164A - 日本語文書要約装置 - Google Patents
日本語文書要約装置Info
- Publication number
- JPH01273164A JPH01273164A JP63102091A JP10209188A JPH01273164A JP H01273164 A JPH01273164 A JP H01273164A JP 63102091 A JP63102091 A JP 63102091A JP 10209188 A JP10209188 A JP 10209188A JP H01273164 A JPH01273164 A JP H01273164A
- Authority
- JP
- Japan
- Prior art keywords
- data structure
- document
- keyword
- named entity
- abstract
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002910 structure generation Methods 0.000 claims abstract description 24
- 230000014509 gene expression Effects 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims description 12
- 238000000034 method Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 19
- 230000000877 morphologic effect Effects 0.000 description 12
- 238000012986 modification Methods 0.000 description 9
- 230000004048 modification Effects 0.000 description 9
- 238000013519 translation Methods 0.000 description 7
- 239000002245 particle Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、入力された日本語文書の要約を自動生成する
日本語要約装置に関する。
日本語要約装置に関する。
従来の文書要約に関する技術は、主に文脈処理研究の一
環として検討されてきた(例えば石崎。
環として検討されてきた(例えば石崎。
井佐原;文脈と言語理解、電子通信学会言語処理とコミ
ュニケーション研究会、1986)、その代表的なもの
は、例えば事件に対する新聞記事が対象の場合、事件の
持つ因果的関係や時系列的関係(犯人が事件を起こし、
被害が発生し、警察などが捜査を行い、その結果として
犯人が警察によって逮捕される、など)をあらかじめ先
験的知識として用意しておき、それを基に意味処理、文
脈処理を行い要約を行うというものである。
ュニケーション研究会、1986)、その代表的なもの
は、例えば事件に対する新聞記事が対象の場合、事件の
持つ因果的関係や時系列的関係(犯人が事件を起こし、
被害が発生し、警察などが捜査を行い、その結果として
犯人が警察によって逮捕される、など)をあらかじめ先
験的知識として用意しておき、それを基に意味処理、文
脈処理を行い要約を行うというものである。
(発明が解決しようとするm1M)
上記従来技術においては、文書の要約を行う場合、先験
的な知識を基に意味処理、文脈処理等を行う必要がある
ため、膨大かつ精密な先験的知識をあらかじめ用意しな
ければならない問題がある。
的な知識を基に意味処理、文脈処理等を行う必要がある
ため、膨大かつ精密な先験的知識をあらかじめ用意しな
ければならない問題がある。
本発明の目的は、上記のような先験的知識を用いること
なく日本語文書の自動要約を行うことを可能にする日本
語文書要約装置を提供することにある。
なく日本語文書の自動要約を行うことを可能にする日本
語文書要約装置を提供することにある。
本発明の日本語文書要約装置においては、対象とする日
本語文書の属する分野のキーワードとなる用語を予め登
録してあるキーワード辞書、前記日本語文書の属する分
野の固有な表現を収録する固有表現パターン辞書、前記
日本語文書と前記キーワード辞書とを照合し一致した文
書を出力するキーワード解析部、前記日本語文書と前記
固有表現パターン辞書とを照合し一致した文書を出力す
る固有表現パターン解析部、前記キーワード解析部の出
力結果と前記固有表現パターン解析部の出力結果から該
日本語文書の要約データ構造を生成する要約データ構造
生成部を備えている。
本語文書の属する分野のキーワードとなる用語を予め登
録してあるキーワード辞書、前記日本語文書の属する分
野の固有な表現を収録する固有表現パターン辞書、前記
日本語文書と前記キーワード辞書とを照合し一致した文
書を出力するキーワード解析部、前記日本語文書と前記
固有表現パターン辞書とを照合し一致した文書を出力す
る固有表現パターン解析部、前記キーワード解析部の出
力結果と前記固有表現パターン解析部の出力結果から該
日本語文書の要約データ構造を生成する要約データ構造
生成部を備えている。
〔作 用〕
入力文書中の各文を形態素解析及び係り受は解析した結
果に対し、まず、該文書の属する分野においてキーワー
ドとなる用語をあらかじめ登録したキーワード辞書との
照合を行い、入力文書からキーワードを含む文を選択す
る。この操作により、次の固有表現パターン辞書の固有
表現パターンにマツチする文が文書に含まれない場合で
も、キーワードとされた語を含む文に含まれる情報を要
約に反映させることができ、要約データ構造の最低限の
品質を保証することができる0次に、該文書の属する分
野において固有な表現を収録した固有表現パターン辞書
との照合を行い、該文書においてキーとなる表現を含む
文を選択する。最後に、上記の2段階の処理によって選
択された文、選択された固有表現に対し、キーワード文
要約データ構造生成規則及び要約データ構造生成規則に
従って入力日本語文書の主要な内容を表現する要約デー
タ構造を生成する。なお、入力文書中のある文が、キー
ワード文であり、かつ、固有表現パターンにもマツチす
る場合は、例えば固有表現パターンを用いて要約データ
構造を生成すればよい。
果に対し、まず、該文書の属する分野においてキーワー
ドとなる用語をあらかじめ登録したキーワード辞書との
照合を行い、入力文書からキーワードを含む文を選択す
る。この操作により、次の固有表現パターン辞書の固有
表現パターンにマツチする文が文書に含まれない場合で
も、キーワードとされた語を含む文に含まれる情報を要
約に反映させることができ、要約データ構造の最低限の
品質を保証することができる0次に、該文書の属する分
野において固有な表現を収録した固有表現パターン辞書
との照合を行い、該文書においてキーとなる表現を含む
文を選択する。最後に、上記の2段階の処理によって選
択された文、選択された固有表現に対し、キーワード文
要約データ構造生成規則及び要約データ構造生成規則に
従って入力日本語文書の主要な内容を表現する要約デー
タ構造を生成する。なお、入力文書中のある文が、キー
ワード文であり、かつ、固有表現パターンにもマツチす
る場合は、例えば固有表現パターンを用いて要約データ
構造を生成すればよい。
本発明装置によれば、厖大で精密な先験的知識を必要と
しない、また、必要に応じて、キーワード辞書及び固有
表現パターン辞書を構成することによって、例えば事実
を報道する日本語文書を対象とする限りは、任意の分野
、任意の文書を扱うことができ、この両辞書の構成法に
よって、要約の詳しさを調節することも可能である。
しない、また、必要に応じて、キーワード辞書及び固有
表現パターン辞書を構成することによって、例えば事実
を報道する日本語文書を対象とする限りは、任意の分野
、任意の文書を扱うことができ、この両辞書の構成法に
よって、要約の詳しさを調節することも可能である。
以下、本発明の一実施例について図面により説明する。
第1図は本発明の日本文書要約装置の一実施例のブロッ
ク図を示す、該日本語文書要約装置は入力部1、キーワ
ード解析部2、キーワード辞書3、固有表現パターン解
析部4、固有表現パターン辞書5、要約データ構造生成
部6及び出力部7より構成される。キーワード辞書3は
要約対象の日本語文書の属する分野のキーワードとなる
用語をあらかじめ登録してある辞書であり、固有表現パ
ターン辞書は該日本語文書の属する分野の固有な表現を
収録する辞書である。
ク図を示す、該日本語文書要約装置は入力部1、キーワ
ード解析部2、キーワード辞書3、固有表現パターン解
析部4、固有表現パターン辞書5、要約データ構造生成
部6及び出力部7より構成される。キーワード辞書3は
要約対象の日本語文書の属する分野のキーワードとなる
用語をあらかじめ登録してある辞書であり、固有表現パ
ターン辞書は該日本語文書の属する分野の固有な表現を
収録する辞書である。
入力部1からは、要約処理対象の日本語文書を構成する
各日本文に対して形態素解析、係り受は解析の処理済み
の文書が入力されるものとする。
各日本文に対して形態素解析、係り受は解析の処理済み
の文書が入力されるものとする。
形態素解析は漢字と仮名でべた書きされた日本語文に対
して、単語単位への分割を行う処理であり。
して、単語単位への分割を行う処理であり。
この処理の過程で同時に文節も認定される。係り受は解
析は、形態素解析で得られた単語分割及び文節の情報を
基に、二つの文節間の修飾関係(係り受は関係)を求め
、文全体の構造を解析する処理である0例として、′こ
れからFAXでこの説明書を送ります、′について、単
語分割及び分節認定、文節間の修飾関係、文全体の構造
を示すと第2図(a)、(b)及び(c)のようになる
。
析は、形態素解析で得られた単語分割及び文節の情報を
基に、二つの文節間の修飾関係(係り受は関係)を求め
、文全体の構造を解析する処理である0例として、′こ
れからFAXでこの説明書を送ります、′について、単
語分割及び分節認定、文節間の修飾関係、文全体の構造
を示すと第2図(a)、(b)及び(c)のようになる
。
通常、日本語文書処理システムには、このような形態素
解析や係り受は解析の処理機能が具備されており、その
形態素解析及び係り受は結果が入力部1から入力される
。
解析や係り受は解析の処理機能が具備されており、その
形態素解析及び係り受は結果が入力部1から入力される
。
キーワード解析部2は、入力文書を構成する各日本文と
キーワード辞書3との照合を行い、文書中からキーワー
ドを含6文を抽出する。抽出された文をキーワード文と
呼ぶ、固有表現パターン解折部4は、入力文書を構成す
る各日本文に対する係り受は解析結果と固有表現パター
ン辞書5との照合を行い、固有表現パターン中の変数要
素に対象文の該当する部分をバインドする。このパター
ンマツチングの結果生成されるデータ構造を固有表現デ
ータ構造と呼ぶ。
キーワード辞書3との照合を行い、文書中からキーワー
ドを含6文を抽出する。抽出された文をキーワード文と
呼ぶ、固有表現パターン解折部4は、入力文書を構成す
る各日本文に対する係り受は解析結果と固有表現パター
ン辞書5との照合を行い、固有表現パターン中の変数要
素に対象文の該当する部分をバインドする。このパター
ンマツチングの結果生成されるデータ構造を固有表現デ
ータ構造と呼ぶ。
要約データ構造生成部6は、キーワード解析部2の出力
結果であるキーワード文、及び、固有表現パターン解析
部4の出力結果である固有表現データ構造を入力とし、
キーワード文については、キーワード文要約部分データ
構造生成規則を適用し、要約部分データ構造を生成する
。固有表現データ構造については、固有表現パターン辞
書5中の該固有表現パターンについてのレコード中に記
述されている個別の要約部分データ構造生成規則を適用
し、要約部分データ構造を生成する。その後、要約デー
タ構造生成部6は、要約データ構造生成規則を適用する
ことによって、これらの結果を総合し、入力の日本語文
書の集約を表現する要約データ構造を生成する。出力部
7は、この要約データ構造を出力する。これは、特定の
言語で要約文書を出力するための言語生成装置(例えば
、日本語生成装置や英語生成装置I)への入力となる。
結果であるキーワード文、及び、固有表現パターン解析
部4の出力結果である固有表現データ構造を入力とし、
キーワード文については、キーワード文要約部分データ
構造生成規則を適用し、要約部分データ構造を生成する
。固有表現データ構造については、固有表現パターン辞
書5中の該固有表現パターンについてのレコード中に記
述されている個別の要約部分データ構造生成規則を適用
し、要約部分データ構造を生成する。その後、要約デー
タ構造生成部6は、要約データ構造生成規則を適用する
ことによって、これらの結果を総合し、入力の日本語文
書の集約を表現する要約データ構造を生成する。出力部
7は、この要約データ構造を出力する。これは、特定の
言語で要約文書を出力するための言語生成装置(例えば
、日本語生成装置や英語生成装置I)への入力となる。
以下、具体例について説明する。二へで、処理対象の日
本語文書は以下の如き記事であるとする。
本語文書は以下の如き記事であるとする。
[×××は、新しい言語理論に基づく言語翻訳システム
を開発1国内で販売する。同システムでは。
を開発1国内で販売する。同システムでは。
新しい言語理論であるPPT理論を採用し、高い精度を
実現した0価格は、×××−のDIPSシリージ用が5
00万円、DECのvAXシリーズ用が250万円、×
父費ソフトを販売窓口に指定、年間200本の販売を兇
込んでいる。出荷は、来月25日から、」 入力部1は、この日本語文書について、形態素解析及び
係り受は解析の行われた内容を入力し。
実現した0価格は、×××−のDIPSシリージ用が5
00万円、DECのvAXシリーズ用が250万円、×
父費ソフトを販売窓口に指定、年間200本の販売を兇
込んでいる。出荷は、来月25日から、」 入力部1は、この日本語文書について、形態素解析及び
係り受は解析の行われた内容を入力し。
キーワード解析部2と固有表現パターン解析部4に転送
する。第3図(a)及び(b)は、当該入力文書におけ
る最初の1文と最後の1文に対する形態素解析及び係り
受は解析の結果の概要を示したものである。二Nで、助
詞表現部分はカタカナで表示し、「傘」はダミーの用語
を示す、入力部1に入力される文書の各文は、このよう
に各単語と助詞に分解され、その修飾が明示されている
。
する。第3図(a)及び(b)は、当該入力文書におけ
る最初の1文と最後の1文に対する形態素解析及び係り
受は解析の結果の概要を示したものである。二Nで、助
詞表現部分はカタカナで表示し、「傘」はダミーの用語
を示す、入力部1に入力される文書の各文は、このよう
に各単語と助詞に分解され、その修飾が明示されている
。
キーワード解析部2は、入力文書中の1文単位に次の処
理を行う、当該文に対する形態素解析結果から、当該文
に含まれる名詞を抽出し、それぞれの名詞がキーワード
辞書3に含まれるかの照合を行う、照合が得られNば、
次にキーワード辞書3中のキーワード条件をチエツクし
、この条件を満たせば、その名詞をキーワードとし、こ
れを含む文をキーワード文とする。第4図にキーワード
辞書3のレコードの概念図を示す、このキーワード解析
部2の処理によって、本対象文書に対しては、次の2文
がキーワード文として抽出される(下線部は、キーワー
ドを示す)。
理を行う、当該文に対する形態素解析結果から、当該文
に含まれる名詞を抽出し、それぞれの名詞がキーワード
辞書3に含まれるかの照合を行う、照合が得られNば、
次にキーワード辞書3中のキーワード条件をチエツクし
、この条件を満たせば、その名詞をキーワードとし、こ
れを含む文をキーワード文とする。第4図にキーワード
辞書3のレコードの概念図を示す、このキーワード解析
部2の処理によって、本対象文書に対しては、次の2文
がキーワード文として抽出される(下線部は、キーワー
ドを示す)。
■ ×××は、新しい言語理論に基づく言語翻訳システ
ムを開発、国内で販売する。
ムを開発、国内で販売する。
■ ×××ソフトを販売窓口に指定、年間200本の販
売を見込んでいる。
売を見込んでいる。
一方、固有表現パターン解析部4は、入力文書中の1文
単位に次の処理を行う、当該文に対する形態素解析結果
から、該文に含まれる名詞、及び。
単位に次の処理を行う、当該文に対する形態素解析結果
から、該文に含まれる名詞、及び。
動詞を抽出し、それらの語が、固有表現パターン辞書5
における固有表現パターンのキー語となっているかどう
かの照合を行う、照合が得られNは、つぎに、その語を
キー語とする固有表現パターンと当該文の係り受は解析
結果との間で構造パターンマツチングを行う、このパタ
ーンマツチングが成功すれば、固有表現パターンにおけ
る変数要素に当該文の対応する部分をバインドする。こ
の結果得られるデータ構造が固有表現データ構造である
。
における固有表現パターンのキー語となっているかどう
かの照合を行う、照合が得られNは、つぎに、その語を
キー語とする固有表現パターンと当該文の係り受は解析
結果との間で構造パターンマツチングを行う、このパタ
ーンマツチングが成功すれば、固有表現パターンにおけ
る変数要素に当該文の対応する部分をバインドする。こ
の結果得られるデータ構造が固有表現データ構造である
。
第5図に固有表現パターン辞書5のレコードの概念図を
示す、第Fll (a)は[販売するjに対するレコー
ド、第511 (b)は「出荷」に対するレコードの例
を示すものである。第Fll (b)に示すように、本
対象文書の属する分野において。
示す、第Fll (a)は[販売するjに対するレコー
ド、第511 (b)は「出荷」に対するレコードの例
を示すものである。第Fll (b)に示すように、本
対象文書の属する分野において。
[出荷は、xx日から、」という述語の省略された表現
が固有な表現であれば、第5図(b)に示したように適
当に固有表現パターン辞書の内容を構成することで、適
切な述語(この例の場合、「始まる」)を補完すること
も可能である。
が固有な表現であれば、第5図(b)に示したように適
当に固有表現パターン辞書の内容を構成することで、適
切な述語(この例の場合、「始まる」)を補完すること
も可能である。
第6図は固有表現パターン解析部4で得られる固有表現
データ構造の概念図を示したものである。
データ構造の概念図を示したものである。
第6図(a)は第3図(a)に示した本対象文書の最初
の1文に対し、第5図の固有表現パターン辞書による構
造パターンマツチング操作の結果であり、第6図(b)
は同じく第3図(b)の最後の1文に対する構造パター
ンマツチング操作の結果である。なお、助詞「ハ」は、
構造パターンマツチングの過程において助詞「ガ」に変
換されるものとしている。
の1文に対し、第5図の固有表現パターン辞書による構
造パターンマツチング操作の結果であり、第6図(b)
は同じく第3図(b)の最後の1文に対する構造パター
ンマツチング操作の結果である。なお、助詞「ハ」は、
構造パターンマツチングの過程において助詞「ガ」に変
換されるものとしている。
上記キーワード解析部2で抽出されたキーワード文、及
び、固有表現パターン解析部4で得られた固有表現デー
タ構造は、要約データ構造生成部6に転送される。
び、固有表現パターン解析部4で得られた固有表現デー
タ構造は、要約データ構造生成部6に転送される。
要約データ構造生成部6では、まず、キーワード解析部
2によって抽出されたキーワード文に対し、該要約構造
生成部6に内蔵されているキーワード文要約部分データ
構造生成規則を適用し、要約部分データ構造を生成する
。このキーワード文要約部分データ構造生成規則は、キ
ーワード文中のキーワードを含む単文についての係り受
は構造をキーワード文要約部分データ構造とするもので
ある。第7図に先のキーワード文■を例として、この操
作及び要約部分データ構造の概念図を示す。
2によって抽出されたキーワード文に対し、該要約構造
生成部6に内蔵されているキーワード文要約部分データ
構造生成規則を適用し、要約部分データ構造を生成する
。このキーワード文要約部分データ構造生成規則は、キ
ーワード文中のキーワードを含む単文についての係り受
は構造をキーワード文要約部分データ構造とするもので
ある。第7図に先のキーワード文■を例として、この操
作及び要約部分データ構造の概念図を示す。
第7図(a)はキーワード文■に対する係り受は構造、
同図(b)は要約部分データ構造である。
同図(b)は要約部分データ構造である。
次に、同約データ構造生成部6は、固有表現パターン解
析部4によって生成された各固有表現データ構造に対し
、固有表現パターン辞書5において、該固有表現パター
ンと対をなして記述されている個別の要約部分データ構
造生成規則を適用し、要約部分データ構造を生成する。
析部4によって生成された各固有表現データ構造に対し
、固有表現パターン辞書5において、該固有表現パター
ンと対をなして記述されている個別の要約部分データ構
造生成規則を適用し、要約部分データ構造を生成する。
第8図及び第9図に、第51!!lに示した固有表現パ
ターン辞書のレコードの概念図、及び、第6図に示した
固有表現データ構造の概念図を例として、該操作及び該
操作によって生成される要約部分データ構造の概念図を
示す、第8図(a)は本対象文書の最初の文の係り受は
解析結果(第3図(a)より)、(−図(b)は要約部
分データ構造生成規則(第Elf(a)より)、同m
(c)は要約部分データ構造である。同様に、第9図(
a)は最後の文の係り受は解析結果(第3図(b)より
)、同図(b)は要約部分データ構造生成規則(第5図
(b)より)、同図((1)は要約部分データ構造であ
る。
ターン辞書のレコードの概念図、及び、第6図に示した
固有表現データ構造の概念図を例として、該操作及び該
操作によって生成される要約部分データ構造の概念図を
示す、第8図(a)は本対象文書の最初の文の係り受は
解析結果(第3図(a)より)、(−図(b)は要約部
分データ構造生成規則(第Elf(a)より)、同m
(c)は要約部分データ構造である。同様に、第9図(
a)は最後の文の係り受は解析結果(第3図(b)より
)、同図(b)は要約部分データ構造生成規則(第5図
(b)より)、同図((1)は要約部分データ構造であ
る。
最後に、集約データ構造生成部6は、上記の2つの操作
によって得られた要約部分データ構造を原文書における
文の順番に従って総合することによって、該日本語文書
の主要な内容を表現する要約データ構造を生成する。こ
の操作及び操作の結果生成される要約データ構造の概念
図を第10図に示す、第10図において、■〜■は要約
部分データ構造の順序である。
によって得られた要約部分データ構造を原文書における
文の順番に従って総合することによって、該日本語文書
の主要な内容を表現する要約データ構造を生成する。こ
の操作及び操作の結果生成される要約データ構造の概念
図を第10図に示す、第10図において、■〜■は要約
部分データ構造の順序である。
出力部7は、この要約データ構造を出力する。
これを特定の言語の文生成装置の入力とすることで、特
定の言語で要約文書を出力することができる。以下に先
の本対象文書の例に対して想定される日本語及び英語に
よる要約文書例を示す。
定の言語で要約文書を出力することができる。以下に先
の本対象文書の例に対して想定される日本語及び英語に
よる要約文書例を示す。
(1)日本語による想定要約文書例
’−x x i fJ<言語翻訳システムを開発した。
×××は、言語翻訳システムを国内で販売する。
□×××ソフトを販売窓口に指定した。
出荷は、来月25日から始まる。
(2)英語による想定要約文書例
X X X developed tha langu
age translation system。
age translation system。
’X−X ’X will 5all the
language translation sy
stem indomestic market。
language translation sy
stem indomestic market。
”X X X Software was 5peci
fied as tha agent。
fied as tha agent。
The shipment will begin o
n 25th next month。
n 25th next month。
以上説明しように1本発明によれば、特定の内容を伝達
するために複数の日本文から構成される日本語文書の要
約を、厖大で精密な先験的知識を必要はせず行うことが
できる。しかも、キーワード辞書と固有表現パタ7ン辞
書を構成することによって、任意の分野の任意の文書を
利用者が必要とするだけの詳しさを持って得ることがで
きる。
するために複数の日本文から構成される日本語文書の要
約を、厖大で精密な先験的知識を必要はせず行うことが
できる。しかも、キーワード辞書と固有表現パタ7ン辞
書を構成することによって、任意の分野の任意の文書を
利用者が必要とするだけの詳しさを持って得ることがで
きる。
例えば、先の文書例において、価格に関する情報も要約
として必要であれば、「価格」という請をキーワード辞
書に登録するか、この飴をキーとする固有表現を固有表
現パターン辞書に登録すれば良い、また、本発明装置で
出力される要約データ構造を入力とするような各言語の
文生成システムと組合せることによって、日本語文書要
約作成システムや日本語文書翻訳システムを容易に構成
することができる。
として必要であれば、「価格」という請をキーワード辞
書に登録するか、この飴をキーとする固有表現を固有表
現パターン辞書に登録すれば良い、また、本発明装置で
出力される要約データ構造を入力とするような各言語の
文生成システムと組合せることによって、日本語文書要
約作成システムや日本語文書翻訳システムを容易に構成
することができる。
第1図は本発明の日本語文書要約装置の一実施例を示す
ブロック図、第2図は形態素解析及び係り受は解析を説
明する図、第3図は処理対象文書例の形態素解析・係り
受は解析の結果の概要を示す概念図、第4図はキーワー
ド辞書のレコードの概念図、第5図は固有表現パターン
辞書のレコードの概念図、第6図は固有表現データ構造
の概念図、第7図はキーワード文に対する要約部分デー
タ構造の概念図、第8図及び第9図は固有表現データ構
造に対する要約部分データ構造の概念図、第10図は処
理対象文書例に対する要約データ構造の概念図である。 1・・・入力部、 2・・・キーワード解析部、3・
・・キーワード辞書。 4・・・固有表現パターン解析部、 5・・・固有表現パターン辞書、 6・・・要約データ構造生成部、 7・・・出力部。 嗅”) (b)CC) 送り Jで「 に つ (α) 開拓41 □ 弘たi】 意te、1fN人システム、 ネ近しい −1v寛9オ (す 出確斤 来月 25日第5図(良) 第5図(b) 第6図(0−) 1’A % f 1 = U反# ’f
J才?F喜町人シスグム X2 Y2
ω内(b) 出費 来月2513 第9図 (cL) 第10図
ブロック図、第2図は形態素解析及び係り受は解析を説
明する図、第3図は処理対象文書例の形態素解析・係り
受は解析の結果の概要を示す概念図、第4図はキーワー
ド辞書のレコードの概念図、第5図は固有表現パターン
辞書のレコードの概念図、第6図は固有表現データ構造
の概念図、第7図はキーワード文に対する要約部分デー
タ構造の概念図、第8図及び第9図は固有表現データ構
造に対する要約部分データ構造の概念図、第10図は処
理対象文書例に対する要約データ構造の概念図である。 1・・・入力部、 2・・・キーワード解析部、3・
・・キーワード辞書。 4・・・固有表現パターン解析部、 5・・・固有表現パターン辞書、 6・・・要約データ構造生成部、 7・・・出力部。 嗅”) (b)CC) 送り Jで「 に つ (α) 開拓41 □ 弘たi】 意te、1fN人システム、 ネ近しい −1v寛9オ (す 出確斤 来月 25日第5図(良) 第5図(b) 第6図(0−) 1’A % f 1 = U反# ’f
J才?F喜町人シスグム X2 Y2
ω内(b) 出費 来月2513 第9図 (cL) 第10図
Claims (1)
- (1)複数の日本文から構成される日本語文書を入力し
て処理する文書処理システムにおいて、前記日本語文書
の属する分野のキーワードとなる用語を予め登録してあ
るキーワード辞書と、前記日本語文書の属する分野の固
有な表現を収録する固有表現パターン辞書と、前記入力
日本語文書と前記キーワード辞書とを照合し一致した文
書を出力するキーワード解析部と、前記日本語文書と前
記固有表現パターン辞書とを照合し一致した文書を出力
する固有表現パターン解析部と、前記キーワード解析部
の出力結果と前記固有表現パターン解析部の出力結果か
ら前記入力日本語文書の要約データ構造を生成する要約
データ構造生成部を備えていることを特徴とする日本語
文書要約装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63102091A JPH01273164A (ja) | 1988-04-25 | 1988-04-25 | 日本語文書要約装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63102091A JPH01273164A (ja) | 1988-04-25 | 1988-04-25 | 日本語文書要約装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH01273164A true JPH01273164A (ja) | 1989-11-01 |
Family
ID=14318106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63102091A Pending JPH01273164A (ja) | 1988-04-25 | 1988-04-25 | 日本語文書要約装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH01273164A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5077668A (en) * | 1988-09-30 | 1991-12-31 | Kabushiki Kaisha Toshiba | Method and apparatus for producing an abstract of a document |
-
1988
- 1988-04-25 JP JP63102091A patent/JPH01273164A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5077668A (en) * | 1988-09-30 | 1991-12-31 | Kabushiki Kaisha Toshiba | Method and apparatus for producing an abstract of a document |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vasiliev | Natural language processing with Python and spaCy: A practical introduction | |
US20090070327A1 (en) | Method for automatically generating regular expressions for relaxed matching of text patterns | |
US20220222437A1 (en) | Systems and methods for structured phrase embedding and use thereof | |
Kashmira et al. | Generating entity relationship diagram from requirement specification based on nlp | |
US20220245353A1 (en) | System and method for entity labeling in a natural language understanding (nlu) framework | |
US20200143112A1 (en) | Fault-tolerant information extraction | |
US20220245361A1 (en) | System and method for managing and optimizing lookup source templates in a natural language understanding (nlu) framework | |
Barbieri et al. | Towards a natural language conversational interface for process mining | |
Patil et al. | Novel technique for script translation using NLP: performance evaluation | |
US20220229998A1 (en) | Lookup source framework for a natural language understanding (nlu) framework | |
US20220229990A1 (en) | System and method for lookup source segmentation scoring in a natural language understanding (nlu) framework | |
US20220229986A1 (en) | System and method for compiling and using taxonomy lookup sources in a natural language understanding (nlu) framework | |
Revanth et al. | Nl2sql: Natural language to sql query translator | |
JPH01273164A (ja) | 日本語文書要約装置 | |
Borges et al. | Query understanding for natural language enterprise search | |
AP et al. | Deep learning based deep level tagger for malayalam | |
JP2005025555A (ja) | シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体 | |
Raj et al. | Natural Language Processing for Chatbots | |
Sankaravelayuthan et al. | A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam | |
JP3416918B2 (ja) | キーワード自動抽出方法および装置 | |
Love | Benchmarking the performance of Two Automated Term-extraction systems: LOGOS and ATAO | |
Dalvi et al. | NxPlain: Web-based Tool for Discovery of Latent Concepts | |
US20220229987A1 (en) | System and method for repository-aware natural language understanding (nlu) using a lookup source framework | |
US20220245352A1 (en) | Ensemble scoring system for a natural language understanding (nlu) framework | |
Gonçalves de Pontes et al. | PPMark: An Architecture to Generate Privacy Labels Using TF-IDF Techniques and the Rabin Karp Algorithm |