JPH02289060A - 文書抄録作成装置 - Google Patents
文書抄録作成装置Info
- Publication number
- JPH02289060A JPH02289060A JP1063472A JP6347289A JPH02289060A JP H02289060 A JPH02289060 A JP H02289060A JP 1063472 A JP1063472 A JP 1063472A JP 6347289 A JP6347289 A JP 6347289A JP H02289060 A JPH02289060 A JP H02289060A
- Authority
- JP
- Japan
- Prior art keywords
- document
- rule
- importance
- sentence
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 description 11
- 239000000284 extract Substances 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は、機械で読み取り可能な文書から抄録を自動的
に作成するための文書抄録作成装置に関する。
に作成するための文書抄録作成装置に関する。
(従来の技術)
従来、文書の抄録作成に関する技術としては、キーワー
ドを抽出して検索を容易にする方式のもの、及び文章の
表層的な情報を用いて重要部分を抽出する方式のものが
あった。
ドを抽出して検索を容易にする方式のもの、及び文章の
表層的な情報を用いて重要部分を抽出する方式のものが
あった。
前者のキーワード方式は、文書を単語に分割し、単語の
頻度、出現場所などを記録し、各単語に対して評価関数
を適用して評価@を求め、評価の高い語をその文書のキ
ーワードとするものである。これにより、大量の文書か
ら求める文書の検索を容易にするのを主な目的としでい
る。さらに、このキーワード方式において文の長さとそ
こに含まれているキーワードの数から文の重要度を評価
する方法を提案されでいる(文献:「ザ オートマチ・
ンク クリエーション オブリクレイチャー アブスト
ラクト(The AutomaticCreation
of Literature Abstracts)
、I 8Mジャーナル、1958年4月」)。
頻度、出現場所などを記録し、各単語に対して評価関数
を適用して評価@を求め、評価の高い語をその文書のキ
ーワードとするものである。これにより、大量の文書か
ら求める文書の検索を容易にするのを主な目的としでい
る。さらに、このキーワード方式において文の長さとそ
こに含まれているキーワードの数から文の重要度を評価
する方法を提案されでいる(文献:「ザ オートマチ・
ンク クリエーション オブリクレイチャー アブスト
ラクト(The AutomaticCreation
of Literature Abstracts)
、I 8Mジャーナル、1958年4月」)。
後者の文書の表層的な情報を用いて重要部分を抽出する
方式には、いくつかの方式が提案されているが、文の主
動詞に着目し、それらの関係を解析することによって文
書の構造を決定し、それから主要部分を取り出すもの、
接続の関係に着目するものなどが挙げられる。
方式には、いくつかの方式が提案されているが、文の主
動詞に着目し、それらの関係を解析することによって文
書の構造を決定し、それから主要部分を取り出すもの、
接続の関係に着目するものなどが挙げられる。
(発明が解決しようとする課題)
このような従来の方式では、単語単位または文単位のい
ずれかで重要度の評価を行っていたため、1つの文の中
の重要な部分のみを取り出すことはできない。
ずれかで重要度の評価を行っていたため、1つの文の中
の重要な部分のみを取り出すことはできない。
キーワード方式では、文書の検索には役立つが、内容の
チエツクまでは行っていないので、どの部分が特に重要
であるかはわからず、文書の内容まで見る必要があると
いう問題があった。また、この際に使われる評価方法は
その単位を語にしているため、キーセンテンスがどれで
あるかを決定するには利用できないという問題があった
。
チエツクまでは行っていないので、どの部分が特に重要
であるかはわからず、文書の内容まで見る必要があると
いう問題があった。また、この際に使われる評価方法は
その単位を語にしているため、キーセンテンスがどれで
あるかを決定するには利用できないという問題があった
。
又、表層的な情報を用いて重要部分を抽出する方式では
、キーワード方式での問題はないが、表層的な情報のみ
を用いた場合、あまり重要でない部分が抽出されること
が多いという問題があった6例えば、列挙などが含まれ
る部分などが抽出されてしまう、また、重要度の評価の
方法は固定されているため、異なった観点での評価をす
ることができないという問題もあった。
、キーワード方式での問題はないが、表層的な情報のみ
を用いた場合、あまり重要でない部分が抽出されること
が多いという問題があった6例えば、列挙などが含まれ
る部分などが抽出されてしまう、また、重要度の評価の
方法は固定されているため、異なった観点での評価をす
ることができないという問題もあった。
この発明の目的は、従来の方法よりも精密な評価を行う
こと、及び要求に応じた重要度の評価を行うことを可能
とした文書抄録作成製雪を提供することにある。
こと、及び要求に応じた重要度の評価を行うことを可能
とした文書抄録作成製雪を提供することにある。
(課題を解決するための手段)
この目的の達成を図るため、この発明の文書抄録作成製
画によれば、文と単語の重要度の評価のためのルールの
データベース及び語粟レベル及び文書構造からの評価を
行う評価装Mを具えることを特徴とする。
画によれば、文と単語の重要度の評価のためのルールの
データベース及び語粟レベル及び文書構造からの評価を
行う評価装Mを具えることを特徴とする。
(作用)
上記の第1の問題に対しては、評価の対象を単語のみで
なく、単語及び文章としているため、重要部だけを拾い
出すことができる。また、表層情報のみを用いた方法の
欠点を補うため、文書の構造を解析し、その結果を用い
て重要部分を抽出する。これにより、文書中の著者の伝
えたい部分をより正確に取り出すことができる。第3の
問題に対しては、評価に用いるルールを変更できるので
、ある着目点を特に重視した評価を行うことができる0
例えば、文書の構造を重視した評価や、あるキーワード
を重視した評価を行うことができる。
なく、単語及び文章としているため、重要部だけを拾い
出すことができる。また、表層情報のみを用いた方法の
欠点を補うため、文書の構造を解析し、その結果を用い
て重要部分を抽出する。これにより、文書中の著者の伝
えたい部分をより正確に取り出すことができる。第3の
問題に対しては、評価に用いるルールを変更できるので
、ある着目点を特に重視した評価を行うことができる0
例えば、文書の構造を重視した評価や、あるキーワード
を重視した評価を行うことができる。
(実施例)
以下、図面を参照してこの発明の文書抄録作成製雪の実
施例につき説明する。
施例につき説明する。
第1図は本発明の概要を示す構成図であって、10は入
力文書であり、12は入力文書10の文を読み込むため
の入力装置、14は読み込んだ文書の文脈解析を行う文
脈解析装置、16は読み込んだ文書の文と単語の重要度
を評価する評価装置、18は文書の抄録を生成する生成
製画であり、20は評価装置16において重要度の評価
に使用するルールのデータベースを記録したデータベー
ス装置である。
力文書であり、12は入力文書10の文を読み込むため
の入力装置、14は読み込んだ文書の文脈解析を行う文
脈解析装置、16は読み込んだ文書の文と単語の重要度
を評価する評価装置、18は文書の抄録を生成する生成
製画であり、20は評価装置16において重要度の評価
に使用するルールのデータベースを記録したデータベー
ス装置である。
最初に入力装置t+2により、入力文書10を読み込む
、このとき、辞書を参照すること(こより、形態素解析
が行なわれ、文書は単語に分割され品詞情報等が付は加
えられて記憶装置112aに一旦記憶する0次に入力表
?It12の出力を受けて、文脈解析装M14により、
文書構造の解析を行い、その結果を文脈解析装置14内
に設けた適当な記憶装置14aに格納する。この文書構
造の解析結果には、「文と文の接続関係とその方向」の
情報及び「文書内fこ現われる照応と省略」の情報とが
含まれている。
、このとき、辞書を参照すること(こより、形態素解析
が行なわれ、文書は単語に分割され品詞情報等が付は加
えられて記憶装置112aに一旦記憶する0次に入力表
?It12の出力を受けて、文脈解析装M14により、
文書構造の解析を行い、その結果を文脈解析装置14内
に設けた適当な記憶装置14aに格納する。この文書構
造の解析結果には、「文と文の接続関係とその方向」の
情報及び「文書内fこ現われる照応と省略」の情報とが
含まれている。
次に、評価装M16により、文及び単語の重要度の評価
を行う。
を行う。
本装置では、文及び単語の重要度を評価するため、入力
装置12の出力である形態素解析の結果、記憶装置14
aに一旦格納した構文解析の結果、文脈解析の結果を読
み出して用いる。又、第1図に示すデータベース装M2
0から、評価用のルールのデータベースを読み出してき
て、これにより文または単語に点数を与える規則と、各
規則に対する重みづけを与える。このため、ルールの追
加、重みづけの変更が容易に行える。
装置12の出力である形態素解析の結果、記憶装置14
aに一旦格納した構文解析の結果、文脈解析の結果を読
み出して用いる。又、第1図に示すデータベース装M2
0から、評価用のルールのデータベースを読み出してき
て、これにより文または単語に点数を与える規則と、各
規則に対する重みづけを与える。このため、ルールの追
加、重みづけの変更が容易に行える。
ここで用いるルールのデータベースは2つの部分から成
っている。
っている。
ルールのデータベースの第1の部分は入力表=12の出
力である形態素解析の結果を用い、語業レベルの情報で
重要度の評価を行う、この重要度をはかるための語句の
パターンによる重要性評価ルールを持っており、これを
用いたルールによって、重要度の計算を行う。
力である形態素解析の結果を用い、語業レベルの情報で
重要度の評価を行う、この重要度をはかるための語句の
パターンによる重要性評価ルールを持っており、これを
用いたルールによって、重要度の計算を行う。
Claims (1)
- (1)重要度の評価のためのルールのデータベース及び
、語彙レベル及び文書構造からの評価を行う評価装置を
持つことを特徴とする文書抄録作成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1063472A JPH0776971B2 (ja) | 1989-03-17 | 1989-03-17 | 文書抄録作成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1063472A JPH0776971B2 (ja) | 1989-03-17 | 1989-03-17 | 文書抄録作成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH02289060A true JPH02289060A (ja) | 1990-11-29 |
JPH0776971B2 JPH0776971B2 (ja) | 1995-08-16 |
Family
ID=13230208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1063472A Expired - Lifetime JPH0776971B2 (ja) | 1989-03-17 | 1989-03-17 | 文書抄録作成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0776971B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1040267A (ja) * | 1996-07-26 | 1998-02-13 | Nec Corp | 文書要約ビューア |
JPH11167398A (ja) * | 1997-12-04 | 1999-06-22 | Mitsubishi Electric Corp | 音声合成装置 |
JPH11259521A (ja) * | 1998-03-13 | 1999-09-24 | Fujitsu Ltd | 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体 |
KR100435442B1 (ko) * | 2001-11-13 | 2004-06-10 | 주식회사 포스코 | 문서 요약 방법 및 시스템 |
CN118095251A (zh) * | 2024-04-23 | 2024-05-28 | 北京国际大数据交易有限公司 | 一种文本数据的离线评估方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62249269A (ja) * | 1986-04-23 | 1987-10-30 | Toshiba Corp | 文書処理装置 |
JPS62249270A (ja) * | 1986-04-23 | 1987-10-30 | Toshiba Corp | 文書処理装置 |
JPS63175965A (ja) * | 1987-01-16 | 1988-07-20 | Sharp Corp | 文書処理装置 |
-
1989
- 1989-03-17 JP JP1063472A patent/JPH0776971B2/ja not_active Expired - Lifetime
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62249269A (ja) * | 1986-04-23 | 1987-10-30 | Toshiba Corp | 文書処理装置 |
JPS62249270A (ja) * | 1986-04-23 | 1987-10-30 | Toshiba Corp | 文書処理装置 |
JPS63175965A (ja) * | 1987-01-16 | 1988-07-20 | Sharp Corp | 文書処理装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1040267A (ja) * | 1996-07-26 | 1998-02-13 | Nec Corp | 文書要約ビューア |
JPH11167398A (ja) * | 1997-12-04 | 1999-06-22 | Mitsubishi Electric Corp | 音声合成装置 |
JPH11259521A (ja) * | 1998-03-13 | 1999-09-24 | Fujitsu Ltd | 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体 |
KR100435442B1 (ko) * | 2001-11-13 | 2004-06-10 | 주식회사 포스코 | 문서 요약 방법 및 시스템 |
CN118095251A (zh) * | 2024-04-23 | 2024-05-28 | 北京国际大数据交易有限公司 | 一种文本数据的离线评估方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JPH0776971B2 (ja) | 1995-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9201957B2 (en) | Method to build a document semantic model | |
Kowalski et al. | Information storage and retrieval systems: theory and implementation | |
Moldovan et al. | LASSO: A Tool for Surfing the Answer Net. | |
US7376634B2 (en) | Method and apparatus for implementing Q&A function and computer-aided authoring | |
Lee et al. | Document ranking and the vector-space model | |
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
CN110188168A (zh) | 语义关系识别方法和装置 | |
JPH11110416A (ja) | データベースからドキュメントを検索するための方法および装置 | |
JPH03172966A (ja) | 類似文書検索装置 | |
JP2006073012A (ja) | 予め定められた個数の予め定義された質問に応答することによって情報を管理するシステムおよび方法 | |
Zad et al. | Hell hath no fury? correcting bias in the nrc emotion lexicon | |
JP2006331245A (ja) | 情報検索装置、情報検索方法およびプログラム | |
CN100437561C (zh) | 电子文档的处理方法和装置及其系统 | |
JPH1049543A (ja) | 文書検索装置 | |
JPH02289060A (ja) | 文書抄録作成装置 | |
Iacobelli et al. | Finding new information via robust entity detection | |
L'Homme et al. | Definition of an evaluation grid for term-extraction software | |
JP4361299B2 (ja) | 評価表現抽出装置、プログラム、及び記憶媒体 | |
KR20030006201A (ko) | 홈페이지 자동 검색을 위한 통합형 자연어 질의-응답시스템 | |
Georgantopoulos | MSc in Speech and Language Processing Dissertation: Automatic summarising based on sentence extraction: A statistical approach | |
JP2002278982A (ja) | 情報抽出方法および情報検索方法 | |
KR20050064574A (ko) | 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법 | |
Osman et al. | Opinion search in web logs | |
KR20200122089A (ko) | 지역 색인을 이용한 전자문서 검색 방법 및 장치 | |
Gella et al. | Unimelb_nlp-core: Integrating predictions from multiple domains and feature sets for estimating semantic textual similarity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
EXPY | Cancellation because of completion of term |