JPH03278270A - 抄録文作成装置 - Google Patents
抄録文作成装置Info
- Publication number
- JPH03278270A JPH03278270A JP2080153A JP8015390A JPH03278270A JP H03278270 A JPH03278270 A JP H03278270A JP 2080153 A JP2080153 A JP 2080153A JP 8015390 A JP8015390 A JP 8015390A JP H03278270 A JPH03278270 A JP H03278270A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- document
- abstract
- keyword
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 claims abstract description 63
- 239000000284 extract Substances 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims description 19
- 238000000034 method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013332 literature search Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
産業上の利用分野
本発明は入力した文書から自動的に抄録文を作成する抄
録文作成装置に関するものである。
録文作成装置に関するものである。
従来の技術
近年、文書の内容を短時間に把握するべく、入力した文
書から自動的に抄録文を作成する装置が要望されている
。このような抄録文作成装置としては、入力された文書
をパラグラフに分割し、各パラグラフの一番目の文章を
選出して並べると云うものがある。
書から自動的に抄録文を作成する装置が要望されている
。このような抄録文作成装置としては、入力された文書
をパラグラフに分割し、各パラグラフの一番目の文章を
選出して並べると云うものがある。
発明が解決しようとする課題
上述のような抄録文作成装置では抄録文を自動的に得る
ことができる。だが、例えば、英文は文章構成の慣習か
らパラグラフの第−文が文書の内容を要約したものであ
る場合が多いが、和文はパラグラフの第−交易外にも最
終文が文書の内容を要約したものである場合があるため
、上述のような方式の抄録文作成装置では良好な抄録文
を得ることができない。
ことができる。だが、例えば、英文は文章構成の慣習か
らパラグラフの第−文が文書の内容を要約したものであ
る場合が多いが、和文はパラグラフの第−交易外にも最
終文が文書の内容を要約したものである場合があるため
、上述のような方式の抄録文作成装置では良好な抄録文
を得ることができない。
また、文書の内容を簡易に表現するものとしてはキーワ
ードが存する。このキーワードとは文書内で重要な役割
をはだす用語のことで、これを文書中から自動的に抽出
する装置は文献検索システムなどで実用化されている。
ードが存する。このキーワードとは文書内で重要な役割
をはだす用語のことで、これを文書中から自動的に抽出
する装置は文献検索システムなどで実用化されている。
だが、このような装置を利用して文書から抽出したキー
ワードを並べ− たとしても、その文書の内容を把握することは困難で抄
録文としては不適当である。
ワードを並べ− たとしても、その文書の内容を把握することは困難で抄
録文としては不適当である。
課題を解決するための手段
請求項1記載の発明は、入力された文書中からキーワー
ド候補を抽出すると共にキーワード候補の重要度を予め
設定された所定条件に基づいて算定するキーワード抽出
評価手段を設け、このキーワード抽出評価手段が算定し
たキーワードの重要度と入力された文書とから各文章毎
に文書の内容表現に対する適切さを文章評価値として各
々算出すると共に文章評価値を予め設定された閾値と比
較して所定の文章を選出する文章評価手段を設けた。
ド候補を抽出すると共にキーワード候補の重要度を予め
設定された所定条件に基づいて算定するキーワード抽出
評価手段を設け、このキーワード抽出評価手段が算定し
たキーワードの重要度と入力された文書とから各文章毎
に文書の内容表現に対する適切さを文章評価値として各
々算出すると共に文章評価値を予め設定された閾値と比
較して所定の文章を選出する文章評価手段を設けた。
請求項2記載の発明は、入力された文書中からキーワー
ド候補を抽出すると共にキーワード候補の重要度を予め
設定された所定条件に基づいて算定するキーワード抽出
評価手段を設け、このキーワード抽出評価手段が算定し
たキーワードの重要度と入力された文書とから各文章毎
に文書の内容表現に対する適切さを文章評価値として各
々算出すると共に文章評価値に基づいて予め設定された
数の文章を選出する文章評価手段を設けた。
ド候補を抽出すると共にキーワード候補の重要度を予め
設定された所定条件に基づいて算定するキーワード抽出
評価手段を設け、このキーワード抽出評価手段が算定し
たキーワードの重要度と入力された文書とから各文章毎
に文書の内容表現に対する適切さを文章評価値として各
々算出すると共に文章評価値に基づいて予め設定された
数の文章を選出する文章評価手段を設けた。
作用
請求項1記載の発明は、キーワード抽出評価手段が入力
された文書中からキーワード候補を抽出すると共にキー
ワード候補の重要度を予め設定された所定条件に基づい
て算定し、この算定されたキーワードの重要度と入力さ
れた文書とから文章評価手段が各文章毎に文書の内容表
現に対する適切さを文章評価値として各々算出すると共
に文章評価値を予め設定された閾値と比較して所定の文
章を選出し、この選出された文章を並べて抄録文を作成
するようにしたことにより、抄録文が重要なキーワード
に基づいて形成される。
された文書中からキーワード候補を抽出すると共にキー
ワード候補の重要度を予め設定された所定条件に基づい
て算定し、この算定されたキーワードの重要度と入力さ
れた文書とから文章評価手段が各文章毎に文書の内容表
現に対する適切さを文章評価値として各々算出すると共
に文章評価値を予め設定された閾値と比較して所定の文
章を選出し、この選出された文章を並べて抄録文を作成
するようにしたことにより、抄録文が重要なキーワード
に基づいて形成される。
請求項2記載の発明は、キーワード抽出評価手段が算定
したキーワードの重要度と入力された文書とから文章評
価手段が各文章毎に文書の内容表現に対する適切さを文
章評価値として各々算出すると共に文章評価値に基づい
て予め設定された数の文章を選出し、この選出された文
章を並べて抄録文を作成するようにしたことにより、抄
録文が重要なキーワードに基づいて所定数の文章で表現
される。
したキーワードの重要度と入力された文書とから文章評
価手段が各文章毎に文書の内容表現に対する適切さを文
章評価値として各々算出すると共に文章評価値に基づい
て予め設定された数の文章を選出し、この選出された文
章を並べて抄録文を作成するようにしたことにより、抄
録文が重要なキーワードに基づいて所定数の文章で表現
される。
実施例
本発明の実施例を第1図ないし第3図に基づいて説明す
る。まず、本実施例の抄録文作成装置1は、第1図に例
示するように、文書ファイルの入力部2とキーワード抽
出評価手段であるキーワード抽出評価部3及び文章評価
手段である文章評価部4で形成されており、前記キーワ
ード抽出評価部3は、第2図に例示するように、形態素
解析辞書5を有する形態素解析部6と、不要語辞書7を
有する不要語除去部8と、抽出ルール9が設定された重
要度評価部10とが順次接続された構造となっている。
る。まず、本実施例の抄録文作成装置1は、第1図に例
示するように、文書ファイルの入力部2とキーワード抽
出評価手段であるキーワード抽出評価部3及び文章評価
手段である文章評価部4で形成されており、前記キーワ
ード抽出評価部3は、第2図に例示するように、形態素
解析辞書5を有する形態素解析部6と、不要語辞書7を
有する不要語除去部8と、抽出ルール9が設定された重
要度評価部10とが順次接続された構造となっている。
このような構成において、この抄録文作成装置1では、
まず、抄録文の作成を行なう文書が文書ファイルとして
入力部2からキーワード抽出評価部3と文章評価部4と
に入力される。そこで、キーワード抽出評価部3では、
入力された文書か形態素解析部6で形態素単位に分割さ
れて各々品詞情報と共に不要語除去部8に入力され、不
要語辞書7に基づいて不要語が除去される。なお、この
不要語辞書7に不要語として登録されている語とは、キ
ーワードとなり得ない語(゛′昨年″、゛通常”°、″
その他″のような語)や文書の対象分野には不要な語な
どである。そして、このようにして不要語が除去された
キーワードの候補の単語群は、重要度評価部10で個々
の文書における重要度が予め設定された所定条件に基づ
いて算定される。ここで、このような文書l中のキーワ
ードにの重要度Ri (k)の算定は、以下に例示する
(1)式のように一 文書1中での出現頻度N i (k)をキーワードの延
べ出現頻度で除することなどで実施可能である。
まず、抄録文の作成を行なう文書が文書ファイルとして
入力部2からキーワード抽出評価部3と文章評価部4と
に入力される。そこで、キーワード抽出評価部3では、
入力された文書か形態素解析部6で形態素単位に分割さ
れて各々品詞情報と共に不要語除去部8に入力され、不
要語辞書7に基づいて不要語が除去される。なお、この
不要語辞書7に不要語として登録されている語とは、キ
ーワードとなり得ない語(゛′昨年″、゛通常”°、″
その他″のような語)や文書の対象分野には不要な語な
どである。そして、このようにして不要語が除去された
キーワードの候補の単語群は、重要度評価部10で個々
の文書における重要度が予め設定された所定条件に基づ
いて算定される。ここで、このような文書l中のキーワ
ードにの重要度Ri (k)の算定は、以下に例示する
(1)式のように一 文書1中での出現頻度N i (k)をキーワードの延
べ出現頻度で除することなどで実施可能である。
ΣN1(j)
jEE書1
また、前述のように文書ファイルが入力された文書評価
部4には、キーワード抽出評価部3からキーワードが算
定された重要度と共に入力され、例えば、第3図に例示
するフローチャートのように情報処理が行なわれる。つ
まり、この文章評価部4では、入力された文書ファイル
の各文章に対して文番号が付与され、文書の内容表現に
対する各文章の適切さが各々含まれるキーワードの重要
度から文章評価値として算出され、この文章評価値の降
順に基づいて各文章がソートされる。ここで、このよう
な文章評価値Di(t)の算出は、以下に例示する(2
)式のように文書1の文章り中のキーワードの重要度R
i (k)を総和することなどで実施可能である。
部4には、キーワード抽出評価部3からキーワードが算
定された重要度と共に入力され、例えば、第3図に例示
するフローチャートのように情報処理が行なわれる。つ
まり、この文章評価部4では、入力された文書ファイル
の各文章に対して文番号が付与され、文書の内容表現に
対する各文章の適切さが各々含まれるキーワードの重要
度から文章評価値として算出され、この文章評価値の降
順に基づいて各文章がソートされる。ここで、このよう
な文章評価値Di(t)の算出は、以下に例示する(2
)式のように文書1の文章り中のキーワードの重要度R
i (k)を総和することなどで実施可能である。
D i (t) =ΣRi(k) ・・(2
)kE文文章 子こで、ソートされた文章は、例えば、請求項1記載の
発明のように、各々文章評価値が予め設定された閾値と
比較されて所定の文章が選出されたり、請求項2記載の
発明のように、各々文章評価値に基づいて予め設定され
た数の文章が選出されるなどする。そこで、このように
して選出された文章が付与された文番号に従って並べら
れ、抄録文として出力される。
)kE文文章 子こで、ソートされた文章は、例えば、請求項1記載の
発明のように、各々文章評価値が予め設定された閾値と
比較されて所定の文章が選出されたり、請求項2記載の
発明のように、各々文章評価値に基づいて予め設定され
た数の文章が選出されるなどする。そこで、このように
して選出された文章が付与された文番号に従って並べら
れ、抄録文として出力される。
このようにして得られた抄録文は、重要なキーワードに
基づいて形成されているので、いずれも文書の内容を良
好に表現したものとなり、しかも、所定の文章数で形成
した場合は不要に長いものとなることも防止される。
基づいて形成されているので、いずれも文書の内容を良
好に表現したものとなり、しかも、所定の文章数で形成
した場合は不要に長いものとなることも防止される。
なお、本実施例の抄録文作成装置1では、キーワードの
重要度の算定方法として出現頻度のみをパラメータに利
用したものを(1)式として例示したが、本発明は上記
方式に限定されるものではなく、例えば、この算定にキ
ーワードの品詞情報や構文情報などを利用することも可
能である。例えば、品詞情報を利用する方法では、す変
名詞の語幹より固有名詞や一般名詞の方がキーワードと
してふされしいことなどが自明であるので、(1)式の
出現頻度の項に品詞情報に基づいた重み係数を乗算する
ことなどが実施可能である。また、構文情報を利用する
方法では、主格を表す″は°′、″が″、′も″等の前
の語に対しては大きい重み係数を乗算することなどが実
施可能である。
重要度の算定方法として出現頻度のみをパラメータに利
用したものを(1)式として例示したが、本発明は上記
方式に限定されるものではなく、例えば、この算定にキ
ーワードの品詞情報や構文情報などを利用することも可
能である。例えば、品詞情報を利用する方法では、す変
名詞の語幹より固有名詞や一般名詞の方がキーワードと
してふされしいことなどが自明であるので、(1)式の
出現頻度の項に品詞情報に基づいた重み係数を乗算する
ことなどが実施可能である。また、構文情報を利用する
方法では、主格を表す″は°′、″が″、′も″等の前
の語に対しては大きい重み係数を乗算することなどが実
施可能である。
さらに、本実施例の抄録文作成装置lでは、文章評価値
の算出方法として文章中のキーワードの重要度を総和す
るものを(2)式として例示したが、本発明は上記方式
に限定されるものでもなく、例えば、この和演算として
代数和を利用することも可能である。この場合、(2)
式のΣの和演算を、X■y=x+y−xy として置き換えることになる。
の算出方法として文章中のキーワードの重要度を総和す
るものを(2)式として例示したが、本発明は上記方式
に限定されるものでもなく、例えば、この和演算として
代数和を利用することも可能である。この場合、(2)
式のΣの和演算を、X■y=x+y−xy として置き換えることになる。
発明の効果
請求項1記載の発明は、キーワード抽出評価手段が入力
された文書中からキーワード候補を抽出すると共にキー
ワード候補の重要度を予め設定された所定条件に基づい
て算定し、この算定されたキーワードの重要度と入力さ
れた文書とから文章評価手段が各文章毎に文書の内容表
現に対する適切さを文章評価値として各々算出すると共
に文章評価値を予め設定された閾値と比較して所定の文
章を選出し、この選出された文章を並べて抄録文を作成
するようにしたことにより、重要なキーワードに基づい
て抄録文が形成されるので、文書の内容を良好に表現し
た抄録文を得ることができ、さらに、請求項2記載の発
明は、キーワード抽出評価手段が算定したキーワードの
重要度と入ノJされた文書とから文章評価手段が各文章
毎に文書の内容表現に対する適切さを文章評価値として
各々算出すると共に文章評価値に基づいて予め設定され
た数の文章を選出し、この選出された文章を並べて抄録
文を作成するようにしたことにより、抄録文が重要なキ
ーワードに基づいて所定数の文章で表現されるので、文
書の内容を良好に表現した抄録文を所定長さの文として
得ることができる等の効果を有するものである。
された文書中からキーワード候補を抽出すると共にキー
ワード候補の重要度を予め設定された所定条件に基づい
て算定し、この算定されたキーワードの重要度と入力さ
れた文書とから文章評価手段が各文章毎に文書の内容表
現に対する適切さを文章評価値として各々算出すると共
に文章評価値を予め設定された閾値と比較して所定の文
章を選出し、この選出された文章を並べて抄録文を作成
するようにしたことにより、重要なキーワードに基づい
て抄録文が形成されるので、文書の内容を良好に表現し
た抄録文を得ることができ、さらに、請求項2記載の発
明は、キーワード抽出評価手段が算定したキーワードの
重要度と入ノJされた文書とから文章評価手段が各文章
毎に文書の内容表現に対する適切さを文章評価値として
各々算出すると共に文章評価値に基づいて予め設定され
た数の文章を選出し、この選出された文章を並べて抄録
文を作成するようにしたことにより、抄録文が重要なキ
ーワードに基づいて所定数の文章で表現されるので、文
書の内容を良好に表現した抄録文を所定長さの文として
得ることができる等の効果を有するものである。
第1図は本発明の実施例を示すブロック図、第2図は要
部のブロック図、第3図はフローチャートである。 1・・・抄録文作成装置、3・・・キーワード抽出評価
手段、4・・・文章評価手段 出 願 人 株式会社 リコー
部のブロック図、第3図はフローチャートである。 1・・・抄録文作成装置、3・・・キーワード抽出評価
手段、4・・・文章評価手段 出 願 人 株式会社 リコー
Claims (1)
- 【特許請求の範囲】 1、入力された文書中からキーワード候補を抽出すると
共に前記キーワード候補の重要度を予め設定された所定
条件に基づいて算定するキーワード抽出評価手段と、こ
のキーワード抽出評価手段が算定したキーワードの重要
度と入力された前記文書とから各文章毎に前記文書の内
容表現に対する適切さを文章評価値として各々算出する
と共に前記文章評価値を予め設定された閾値と比較して
所定の文章を選出する文章評価手段とよりなり、この文
章評価手段が選出した文章を並べて抄録文を作成するよ
うにしたことを特徴とする抄録文作成装置。 2、入力された文書中からキーワード候補を抽出すると
共に前記キーワード候補の重要度を予め設定された所定
条件に基づいて算定するキーワード抽出評価手段と、こ
のキーワード抽出評価手段が算定したキーワードの重要
度と入力された前記文書とから各文章毎に前記文書の内
容表現に対する適切さを文章評価値として各々算出する
と共に前記文章評価値に基づいて予め設定された数の文
章を選出する文章評価手段とよりなり、この文章評価手
段が選出した文章を並べて抄録文を作成するようにした
ことを特徴とする抄録文作成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2080153A JPH03278270A (ja) | 1990-03-28 | 1990-03-28 | 抄録文作成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2080153A JPH03278270A (ja) | 1990-03-28 | 1990-03-28 | 抄録文作成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH03278270A true JPH03278270A (ja) | 1991-12-09 |
Family
ID=13710353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2080153A Pending JPH03278270A (ja) | 1990-03-28 | 1990-03-28 | 抄録文作成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH03278270A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07210185A (ja) * | 1993-11-30 | 1995-08-11 | Sony Corp | 朗読情報作成装置および朗読装置 |
EP0741364A1 (en) * | 1995-05-01 | 1996-11-06 | Xerox Corporation | Automatic method of selecting multi-word key phrases from a document |
JPH09319768A (ja) * | 1996-05-29 | 1997-12-12 | Oki Electric Ind Co Ltd | 要点抽出方法 |
WO1998041930A1 (de) * | 1997-03-18 | 1998-09-24 | Siemens Aktiengesellschaft | Verfahren zur automatischen generierung einer zusammenfassung von einem text durch einen rechner |
WO1998047083A1 (en) * | 1997-04-16 | 1998-10-22 | British Telecommunications Public Limited Company | Data summariser |
JPH11272664A (ja) * | 1998-03-19 | 1999-10-08 | Sharp Corp | テキスト構造解析装置および抄録装置、並びにプログラム記録媒体 |
JP2001202389A (ja) * | 2000-12-11 | 2001-07-27 | Toshiba Corp | 文書検索装置及び文書検索方法 |
JP2011138306A (ja) * | 2009-12-28 | 2011-07-14 | National Institute Of Information & Communication Technology | 文書要約装置、文書処理装置、文書要約方法、文書処理方法、及びプログラム |
-
1990
- 1990-03-28 JP JP2080153A patent/JPH03278270A/ja active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07210185A (ja) * | 1993-11-30 | 1995-08-11 | Sony Corp | 朗読情報作成装置および朗読装置 |
EP0741364A1 (en) * | 1995-05-01 | 1996-11-06 | Xerox Corporation | Automatic method of selecting multi-word key phrases from a document |
JPH09319768A (ja) * | 1996-05-29 | 1997-12-12 | Oki Electric Ind Co Ltd | 要点抽出方法 |
WO1998041930A1 (de) * | 1997-03-18 | 1998-09-24 | Siemens Aktiengesellschaft | Verfahren zur automatischen generierung einer zusammenfassung von einem text durch einen rechner |
US6401086B1 (en) | 1997-03-18 | 2002-06-04 | Siemens Aktiengesellschaft | Method for automatically generating a summarized text by a computer |
WO1998047083A1 (en) * | 1997-04-16 | 1998-10-22 | British Telecommunications Public Limited Company | Data summariser |
US6334132B1 (en) | 1997-04-16 | 2001-12-25 | British Telecommunications Plc | Method and apparatus for creating a customized summary of text by selection of sub-sections thereof ranked by comparison to target data items |
JPH11272664A (ja) * | 1998-03-19 | 1999-10-08 | Sharp Corp | テキスト構造解析装置および抄録装置、並びにプログラム記録媒体 |
JP2001202389A (ja) * | 2000-12-11 | 2001-07-27 | Toshiba Corp | 文書検索装置及び文書検索方法 |
JP2011138306A (ja) * | 2009-12-28 | 2011-07-14 | National Institute Of Information & Communication Technology | 文書要約装置、文書処理装置、文書要約方法、文書処理方法、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Abu Nada et al. | Arabic text summarization using arabert model using extractive text summarization approach | |
CN109299480B (zh) | 基于上下文语境的术语翻译方法及装置 | |
CN109960786A (zh) | 基于融合策略的中文词语相似度计算方法 | |
Thorleuchter et al. | Web mining based extraction of problem solution ideas | |
JP5587821B2 (ja) | 文書トピック抽出装置及び方法及びプログラム | |
Gunawan et al. | Multi-document summarization by using textrank and maximal marginal relevance for text in Bahasa Indonesia | |
Badaro et al. | A light lexicon-based mobile application for sentiment mining of arabic tweets | |
CN115238039A (zh) | 文本生成方法、电子设备及计算机可读存储介质 | |
JPH03278270A (ja) | 抄録文作成装置 | |
JPH05120345A (ja) | キーワード抽出装置 | |
Elbarougy et al. | A proposed natural language processing preprocessing procedures for enhancing arabic text summarization | |
CN104216880B (zh) | 基于互联网的术语定义辨析方法 | |
Neelima et al. | Extractive text summarization using deep natural language fuzzy processing | |
Alsaad et al. | Arabic text root extraction via morphological analysis and linguistic constraints | |
Beseiso et al. | A coreference resolution approach using morphological features in arabic | |
Rofiq | Indonesian news extractive text summarization using latent semantic analysis | |
Singh et al. | Optimizing accuracy of sentiment analysis using deep learning based classification technique | |
CN114462378A (zh) | 科技项目查重方法、系统、计算机设备及存储介质 | |
Giarelis et al. | A review of Greek NLP technologies for Chatbot development | |
Sawalha et al. | Linguistically informed and corpus informed morphological analysis of Arabic | |
Ba-Alwi et al. | Arabic text summarization using latent semantic analysis | |
JP2000148770A (ja) | 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体 | |
CN112949287A (zh) | 热词挖掘方法、系统、计算机设备和存储介质 | |
Suzen et al. | LScDC-new large scientific dictionary | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム |