JP3656315B2 - 英文要約装置 - Google Patents

英文要約装置 Download PDF

Info

Publication number
JP3656315B2
JP3656315B2 JP08126796A JP8126796A JP3656315B2 JP 3656315 B2 JP3656315 B2 JP 3656315B2 JP 08126796 A JP08126796 A JP 08126796A JP 8126796 A JP8126796 A JP 8126796A JP 3656315 B2 JP3656315 B2 JP 3656315B2
Authority
JP
Japan
Prior art keywords
word string
word
importance
string
english
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP08126796A
Other languages
English (en)
Other versions
JPH09269951A (ja
Inventor
研治 水谷
充照 片岡
今中  武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP08126796A priority Critical patent/JP3656315B2/ja
Publication of JPH09269951A publication Critical patent/JPH09269951A/ja
Application granted granted Critical
Publication of JP3656315B2 publication Critical patent/JP3656315B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、英語の文章からその内容をよく表現する単語列を抽出する装置に関するものである。
【0002】
【従来の技術】
通信衛星やインターネットなどの通信基盤の発達に伴い、海外の英語のニュースなどの情報源に容易にアクセスできるようになりつつある。しかし、情報源の数とそれらが提供する情報の量は膨大であり、英語が母国語でない利用者にとっては多くの情報を短時間で大まかに把握することが難しい。このような場合、文章がいくつかのキーワードに自動的に要約されれば、利用者の負担は大きく軽減される。
【0003】
このような手法として、英語の文章の中からキーワードを抽出する方法がある(例えば、特開平3−147182号公報)。この方法では、あらかじめ登録されている不要語と区切り記号を用いて文章の中から単語を抽出する。
【0004】
【発明が解決しようとする課題】
前述の方法では、適切な不要語のデータベースを用意しなければ有効なキーワードが抽出されない。特に、入力文章の分野が変わると抽出処理に使用する不要語のデータベースも変える必要がある。したがって、装置の製作者の負担が大きく、また、装置を実現する場合にはある程度の大きさの記憶装置が必要になる。さらに、キーワードの抽出は単語の単位でしかなされないので、利用者が文章全体の内容を把握するにはあまり役に立たないことが多い。
【0005】
本発明は、このような従来の装置の課題を考慮し、不要語のデータベースをあらかじめ用意する必要がなく、かつ単語単位ではなく連続する単語の列を抽出することを目的とする。
【0006】
【課題を解決するための手段】
本発明は、英語の文章を単語列として出力する単語列生成装置と、前記単語列生成装置から出力された単語列の重要度を計算して出力する単語列重要度計算装置と、前記単語列重要度計算装置から出力された他の単語列に含意される単語列を縮退させる単語列縮退装置と、前記単語列縮退装置から出力される前記単語列の中から前記重要度が大きい順に一定の割合だけ前記単語列を選択して出力する単語列選択装置を具備する。
【0007】
本発明の第一実施態様では、英語の文章を入力として単語と区切り記号とに分割する単語分割装置と、前記単語分割装置の出力を入力として単語列を出力する単語列生成装置と、前記単語列生成装置の出力を入力として前記単語列の前記英語の文章における重要度を計算して前記単語列に付加して出力する単語列重要度計算装置と、前記単語列重要度計算装置の出力を入力として他の単語列に含意される単語列を縮退させる単語列縮退装置と、前記単語列縮退装置が出力する前記単語列の中から前記重要度が大きい順に一定の割合だけ前記単語列を選択して出力する単語列選択装置によって構成される英文要約装置である。
また第一実施態様において、単語分割装置が、区切り記号の1つであるピリオドを、に空白をはさまずに隣接する単語があれば、前記単語に接続する英文要約装置である。
【0008】
また第一実施態様において、単語列生成装置が、単語を構成する文字の先頭が大文字かあるいは数字である単語を、区切り記号が空白である限り連続して抽出して単語列を生成する英文要約装置である。
【0009】
また第一実施態様において、単語列重要度計算装置が、英語の文章における単語列の出現頻度を計数し、かつ前記単語列を構成する各単語について重要度を計算して総和を求め、前記単語列の出現頻度と前記総和との積を計算して前記単語列の重要度とする英文要約装置である。
【0010】
また第一実施態様において、単語列重要度計算装置が、単語列を構成する単語の重要度を、前記単語を構成する文字数と、前記単語列における前記単語の出現位置から計算する英文要約装置である。
【0011】
また第一実施態様において、単語列縮退装置が、単語列間の含意関係判定を、単語列Aを構成する単語の順序付き集合が、単語列Bを構成する単語の順序付き集合の部分集合になっていることで、前記単語列Bが前記単語列Aを含意すると判定する英文要約装置である。
【0012】
また第一実施態様において、単語列縮退装置が、単語列間の含意関係の判定を、単語列を構成する単語の数が小さい単語列から順に計算する英文要約装置である。
【0013】
また第一実施態様において、単語列縮退装置が、単語列間の部分集合関係の判定における単語の比較を、大文字か小文字かの区別をせず、かつ文字数が多い方の前記単語の語尾の2文字については一致しない場合は無視する英文要約装置である。
【0014】
また第一実施態様において、単語列縮退装置が、単語列Bが単語列Aを含意すると判定したとき、前記単語列Aが持つ重要度を前記単語列Bがもつ重要度に加算し、前記単語列Aを出力しない英文要約装置である。
【0015】
また第一実施態様において、単語列選択装置が、単語列を重要度が大きい順に並べ、かつ重要度が等しい前記単語列については前記単語列を構成する単語の数が多い順に並べて、上位2割を選択する英文要約装置である。
【0016】
【発明の実施の形態】
本発明の一実施の形態の英文要約装置全体の構成を表すブロック図を図1に示す。英語の文章101は、単語分割装置102に入力されて、単語と区切り記号とに分割される。単語列生成装置103は、単語分割装置102の出力について、空白で連続する、大文字または数字で始まる単語の列を抽出して出力する。単語列重要度計算装置104は、単語列生成装置103の出力について、英語の文章101における単語列の重要度を計算し、単語列に付加して出力する。単語列縮退装置105は、単語列重要度計算装置104の出力について、他の単語列に含意される単語列を縮退させる。単語列選択装置106は、単語列縮退装置105の出力について、単語列の中から重要度が大きい順に一定の割合だけ選択し、要約結果107として出力する。
【0017】
次に本実施の形態の動作を説明する。図2に以下の説明で用いる英語の文章101の例を示す。
【0018】
単語分割装置102は、英語の文章101を以下の14種類の区切り記号、
,;:?!”’`(){}[]
と空白を手がかりにして、単語と区切り記号とに分割する。ピリオドは、それが左に空白をはさまずに連接する単語を持つならば、その単語に含める。図2の英語の文章101を、単語分割装置102が分割した単語と区切り記号の並びを図3に示す。
【0019】
単語列生成装置103は、単語分割装置102が出力する単語と区切り記号の並びの中から、大文字または数字で始まる単語について、空白で連続する列を抽出する。図3の単語と区切り記号の並びから、単語列生成装置103が抽出した単語列の並びを図4に示す。
【0020】
単語列重要度計算装置104は、単語列生成装置103が出力する単語列の重要度を計算する。まず、単語列を構成する各単語の重要度を、図5に示すファジイ推論を用いて計算する。このファジイ推論は、
・短い単語は不要語であることが多く、また、単語列の末尾に現れやすい。
・単語列の中心付近に現れる長い単語は入力文章の内容をよく表現していることが多い。
という観察結果に基づいて構築されている。
【0021】
例えば、長さ4の単語列、
Matsushita Electric Industrial Co.
を構成する個々の単語の重要度は、単語を構成する文字の数を長さL:(短い,中くらい,長い)、先頭の単語の位置を0、末尾の単語の位置を1になるように正規化した相対位置を位置P:(先頭,中心,末尾)として、その帰属度が、
単語 長さL 位置P 長さLの帰属度 位置Pの帰属度
Matsushita 10 0 (0, 0, 1) (1, 0, 0)
Electric 8 1/3 (0, 0.4, 0.6) (1/3, 2/3, 0)
Industrial 10 2/3 (0, 0, 1) (0, 2/3, 1/3)
Co. 3 1 (0.4, 0.6, 0) (0, 0, 1)
となる。ただし、lm=5、ll=10、Pc=0.5とする。したがって、ファジイ推論規則によって、単語、
Matsushita
の重要度I:(重要でない,重要,たいへん重要)は、
Figure 0003656315
より、(0,0,1)となるので、重要度Iのメンバーシップ関数の重心を(0.2,0.5,0.8)と設定すれば、0.8という値を得る。
【0022】
すべての単語について計算すると、
単語 重要度
Matsushita 0.8
Electric 0.64667
Industrial 0.53333
Co. 0.38
という値を得る。
【0023】
単語列の重要度は、個々の単語について求めた単語の重要度の総和を計算した値に、単語列の出現回数をかけて計算する。単語列、
Matsushita Electric Industrial Co.
は、この例では2回出現しているので、重要度は、
2×(0.8+0.64667+0.53333+0.38)=4.72
となる。単語列重要度計算装置104が、図4の単語列の並びに付加した重要度を図6に示す。
【0024】
単語列縮退装置105は、単語列重要度計算装置104が出力する重要度つきの単語列の並びについて、単語列Aを単語列Bが含意するならば、単語列Aの重要度を単語列Bの重要度に加算して単語列Aを除去する。単語列Aを単語列Bが含意するかどうかの判定は、単語列Aを構成する単語の順序付き集合が、単語列Bを構成する単語の順序付き集合の部分集合になっているかどうかで判定する。単語を比較するときは、長い方の単語の末尾2文字を比較の対象から外す。例えば、図6の単語列の一部、
3DO. MEI 1.06
3DO 0.5
MEI 1.5
は、単語列
3DO. MEI
が、単語列
3DO
と、単語列、
MEI
を含意するので、それぞれ除去されて、単語列、
3DO. MEI
の重要度が3.06となる。この縮退の計算は、構成する単語の数が少ない単語列から順に行い、単語列の集合がそれ以上変化しなくなれば停止する。単語列縮退装置105が、図6の単語列の並びを縮退させた結果を図7に示す。
【0025】
単語列選択装置106は、単語列縮退装置105が出力する単語列を重要度の大きい順に並べる。重要度が等しいものについては、単語列を構成する単語の数が多い順に並べる。単語列の中から上位20%を選択し、要約結果107として出力する。単語列選択装置106が、図7の単語列の並びの中から選択した単語列、すなわち要約結果107を図8に示す。24個の単語列の内、20%に相当する5個の単語列が要約内容として利用者に提供される。
【0026】
なお、本発明は英語の文章を表示する装置に応用することができる。特に、表示能力が限定される携帯装置に応用すれば、記憶装置に格納された英語の文章を効率良く閲覧することが可能になる。また、情報源が異なる複数の英語の文章を連結して入力すれば、それらに共通する話題を抽出することも可能である。
【0027】
【発明の効果】
以上述べたところから明らかなように、本発明は、不要語のデータベースをあらかじめ用意する必要がなく、かつ、孤立した単語よりも入力文章の内容を把握しやすい、単語の列が抽出されるという長所を有する。
【図面の簡単な説明】
【図1】本発明の一実施の形態の英文要約装置の全体の構成を表すブロック図
【図2】同実施の形態の動作を説明するための英語の文章101の一例を示す図
【図3】単語分割装置102が図2の英語の文章101を処理した結果を示す図
【図4】単語列生成装置103が図3の単語と区切り記号の並びを処理した結果を示す図
【図5】単語列重要度計算装置104が用いるファジイ推論の一例を示す図
【図6】単語列重要度計算装置104が図4の単語列の並びを処理した結果を示す図
【図7】単語列縮退装置105が図6の単語列の並びを処理した結果を示す図
【図8】単語列選択装置106が図7の単語列の並びを処理して出力した要約結果107を示す図
【符号の説明】
101 英語の入力文章
102 単語分割装置
103 単語列生成装置
104 単語列重要度計算装置
105 単語列縮退装置
106 単語列選択装置
107 要約結果

Claims (11)

  1. 英語の文章を入力として単語と区切り記号とに分割する単語分割装置と、前記単語分割装置の出力を入力として単語列を出力する単語列生成装置と、前記単語列生成装置の出力を入力として前記単語列の前記英語の文章における重要度を計算して前記単語列に付加して出力する単語列重要度計算装置と、前記単語列重要度計算装置の出力を入力として他の単語列に含意される単語列を縮退させる単語列縮退装置と、前記単語列縮退装置が出力する前記単語列の中から前記重要度が大きい順に一定の割合だけ前記単語列を選択して出力する単語列選択装置を具備する英文要約装置。
  2. 単語分割装置は、区切り記号の1つであるピリオドを、左に空白をはさまずに隣接する単語があれば、前記単語に接続することを特徴とする請求項1記載の英文要約装置。
  3. 単語列生成装置は、単語を構成する文字の先頭が大文字かあるいは数字である単語を、区切り記号が空白である限り連続して抽出して単語列を生成することを特徴とする請求項1記載の英文要約装置。
  4. 単語列重要度計算装置は、英語の文章における単語列の出現回数を計数し、かつ前記単語列を構成する各単語について重要度を計算して総和を求め、前記単語列の出現頻度と前記総和との積を計算して前記単語列の重要度とすることを特徴とする請求項1記載の英文要約装置。
  5. 単語列重要度計算装置は、単語列を構成する単語の重要度を、前記単語を構成する文字数と、前記単語列における前記単語の出現位置から計算することを特徴とする請求項1記載の英文要約装置。
  6. 単語列縮退装置は、単語列間の含意関係判定を、単語列Aを構成する単語の順序付き集合が、単語列Bを構成する単語の順序付き集合の部分集合になっていることで、前記単語列Bが前記単語列Aを含意すると判定することを特徴とする請求項1記載の英文要約装置。
  7. 単語列縮退装置は、単語列間の含意関係の判定を、単語列を構成する単語の数が小さい単語列から順に計算することを特徴とする請求項1記載の英文要約装置。
  8. 単語列縮退装置は、単語列間の部分集合関係の判定における単語の比較を、大文字か小文字かの区別をせず、かつ文字数が多い方の前記単語の語尾の2文字については一致しない場合は無視することを特徴とする請求項1記載の英文要約装置。
  9. 単語列縮退装置は、単語列Bが単語列Aを含意すると判定したとき、前記単語列Aが持つ重要度を前記単語列Bがもつ重要度に加算し、前記単語列Aを出力しないことを特徴とする請求項1記載の英文要約装置。
  10. 単語列選択装置は、単語列を重要度が大きい順に並べ、かつ重要度が等しい前記単語列については前記単語列を構成する単語の数が多い順に並べて、上位2割を選択することを特徴とする請求項1記載の英文要約装置。
  11. 英語の文章を単語列として出力する単語列生成装置と、前記単語列生成装置から出力された単語列の重要度を計算して出力する単語列重要度計算装置と、前記単語列重要度計算装置から出力された他の単語列に含意される単語列を縮退させる単語列縮退装置と、前記単語列縮退装置から出力される前記単語列の中から前記重要度が大きい順に一定の割合だけ前記単語列を選択して出力する単語列選択装置を具備する英文要約装置。
JP08126796A 1996-04-03 1996-04-03 英文要約装置 Expired - Lifetime JP3656315B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP08126796A JP3656315B2 (ja) 1996-04-03 1996-04-03 英文要約装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP08126796A JP3656315B2 (ja) 1996-04-03 1996-04-03 英文要約装置

Publications (2)

Publication Number Publication Date
JPH09269951A JPH09269951A (ja) 1997-10-14
JP3656315B2 true JP3656315B2 (ja) 2005-06-08

Family

ID=13741594

Family Applications (1)

Application Number Title Priority Date Filing Date
JP08126796A Expired - Lifetime JP3656315B2 (ja) 1996-04-03 1996-04-03 英文要約装置

Country Status (1)

Country Link
JP (1) JP3656315B2 (ja)

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4358824A (en) * 1979-12-28 1982-11-09 International Business Machines Corporation Office correspondence storage and retrieval system
JPH0740275B2 (ja) * 1987-10-26 1995-05-01 日本電信電話株式会社 キーワード重要度自動評価装置
JPH01217623A (ja) * 1988-02-26 1989-08-31 Nippon Telegr & Teleph Corp <Ntt> キーワード自動生成装置
JPH01251229A (ja) * 1988-03-31 1989-10-06 Toshiba Corp キーワード抽出方式
JPH03294963A (ja) * 1990-04-12 1991-12-26 Ricoh Co Ltd 文書検索装置
JPH0498461A (ja) * 1990-08-10 1992-03-31 Ricoh Co Ltd キーワード抽出装置
JPH04156663A (ja) * 1990-10-20 1992-05-29 Fujitsu Ltd 文章圧縮装置
JP3368301B2 (ja) * 1993-02-27 2003-01-20 オムロン株式会社 文書処理装置および方法
JP2583386B2 (ja) * 1993-03-29 1997-02-19 日本電気株式会社 キーワード自動抽出装置
JP3220885B2 (ja) * 1993-06-18 2001-10-22 株式会社日立製作所 キーワード付与システム
JPH07319882A (ja) * 1994-05-20 1995-12-08 Nec Corp キーワードの判定方法

Also Published As

Publication number Publication date
JPH09269951A (ja) 1997-10-14

Similar Documents

Publication Publication Date Title
CN108287922B (zh) 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法
JP3114703B2 (ja) 対訳文検索装置
JP3653141B2 (ja) 機械読み取り可能形式の文書からプロセッサに対してキーフレーズを選択する自動的方法
Litvak et al. DegExt—A language-independent graph-based keyphrase extractor
JP3067966B2 (ja) 画像部品を検索する装置及びその方法
US6537325B1 (en) Apparatus and method for generating a summarized text from an original text
US20050021545A1 (en) Very-large-scale automatic categorizer for Web content
US7493252B1 (en) Method and system to analyze data
JP2004157981A (ja) 要約表現装置
CN112148886A (zh) 一种内容知识图谱的构建方法及系统
WO2010150910A1 (ja) 情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体
JPH08314966A (ja) 文書検索装置のインデックス作成方法及び文書検索装置
JP3656315B2 (ja) 英文要約装置
JPH09319767A (ja) 類義語辞書登録方法
JP2002183194A (ja) 検索式生成装置およびその方法
JPH09128402A (ja) 文書類似度計算装置および文書分類装置
JPH06168129A (ja) 知識抽出装置
JP3744136B2 (ja) 訳語選択装置と記憶媒体
JP6451414B2 (ja) 情報処理装置、要約文編集方法、及びプログラム
JPH10232871A (ja) 検索装置
JPH0743728B2 (ja) 要約文生成方式
JP3161660B2 (ja) キーワード検索方法
JPH10334115A (ja) 検索式作成装置
JP2001142897A (ja) 文書検索装置、文書検索方法、文書検索システム及び文書検索方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3609252B2 (ja) 文字列自動分類装置およびその方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050105

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050228

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080318

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090318

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100318

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110318

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110318

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120318

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130318

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term