JPH04156663A - 文章圧縮装置 - Google Patents

文章圧縮装置

Info

Publication number
JPH04156663A
JPH04156663A JP2282631A JP28263190A JPH04156663A JP H04156663 A JPH04156663 A JP H04156663A JP 2282631 A JP2282631 A JP 2282631A JP 28263190 A JP28263190 A JP 28263190A JP H04156663 A JPH04156663 A JP H04156663A
Authority
JP
Japan
Prior art keywords
word
importance
information
words
important
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2282631A
Other languages
English (en)
Inventor
Fumito Nishino
文人 西野
Daburu Miraa Aabin
アービン ダブル ミラー
Naoto Nakamura
直人 中村
Jun Ibuki
潤 伊吹
Masatoshi Shiouchi
正利 塩内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2282631A priority Critical patent/JPH04156663A/ja
Publication of JPH04156663A publication Critical patent/JPH04156663A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概  要〕 文章圧縮装置に関し、 手軽に、きめ細かい圧縮文章を提供することを目的とし
、 入力文書を圧縮して圧縮文書として出力する文章圧縮装
置において、 入力文書の文章を単語辞書を検索して複数の単語に分割
する形態素解析手段と、前記形態素解析手段によって分
離した単語について、該単語の構文要素を単語辞書を検
索して抽出し、名詞句あるいは動詞句といった文章の構
造を認定する構造認定手段と、前記形態素解析手段によ
って抽出した品詞情報、前記構造認定手段によって認定
した構文要素、単語辞書に記載されている意味情報の少
なくとも一つの情報を基に、該単語の重要度を判定する
重要性判定手段と、前記重要性判定手段が判定した該単
語の重要度を、前もって定めた重要度のしきい値と比較
し、重要度がしきい値よりも低ければ該単語が重要では
ないと判断し、入力文書の文章から該単語を削除し、重
要度がしきい値よりも高ければ該単語が重要であると判
断して圧縮文書として出力する圧縮手段とを有するよう
に構成する。
〔産業上の利用分野〕
本発明は、文章圧縮装置に関する。
〔従来の技術〕
近来、大量の情報がオンライン文書化されるようになっ
た。このオンライン文書に人間がすべて目を通すことは
非常に時間のかがる作業である。
文章のなかには意味上枝となる重要な部分と、単に核と
なる部分を修飾している重要でない部分がある。そこで
、自動的に文章中の重要でない部分を取り去って、該文
章の要約だけを残し文章量を圧縮すれば、必要な情報を
得るために読む文章量を減らすことが可能になり、効率
的に情報を獲得ることか可能になる。
従来、文章を圧縮する方式には2通りの方法がある。第
1の方法は文書のなかでの位置情報やキーワードを利用
する方法であり、第2の方法は構。
文解析や意味解析を使用する方法である。
第1の方法は、段落の先頭や最後といった文書の位置情
報やキーワードを使用し、文書のなかで重要と考えられ
る単語や単語群を取り出すことによって文書を圧縮する
。すなわち、一般に重要な単語や単語群は文書のなかの
先頭や最後に存在する。そこで、文書の先頭や最後から
単語や単語群を取り出すのである。また、前もって重要
と思われる単語や単語群をキーワードとして決めておき
、そのキーワードを文書から検索して依り出し、それ以
外の単語を削除することによって文書を圧縮する。
第2の方法は、構文解析や意味解析などの深い文章解析
を行なって、文書のなかの重要な部分を取り出す方法で
ある。この方法では、構文情報や意味情報等の大規模な
知識ベースを使用する。
[発明が解決しようとする課題] しかしながら、従来の方式にはどちら)問題がある。
従来方式の第1の方法、すなわち、文書の位置情報やキ
ーワードを使用する方法は、重要な言明を捨ててしまう
ことがあり、また、圧縮済みの文書に重要でない要素を
含むこともあり、きめの細かい圧縮が不可能という問題
がある。また、第2の方法、すなわち、構文解析や意味
解析を行なう方法は、構文情報や意味情報の大規模な知
識ベースが必要であり、また、その解析に膨大な時間が
かかるという問題がある。
以上のように、従来の方式は、きめの1力中圧縮を短時
間に効率よく行なうことが不可能という問題があった。
本発明は、手軽に、きめ細かい圧縮文章を提供すること
を目的とする。
〔課題を解決するための手段〕
第1図は、本発明の機能ブロック図である。本発明は、
入力文書1を入力とし、単語辞書4を使用して圧縮し、
圧縮文書2を出力する文章圧縮装置3を対象とする。
まず、形態素解析手段5を有する。形態素解析手段5は
、入力文書lの文章を単語辞書4を検索することにより
、複数の単語に分離し、各単語についての品詞情報を抽
出する。
次に、構造認定手段6を有する。構造認定手段6は、前
記形態素解析手段5によって分離した各単語について、
単語辞書4を検索し、該単語の構文要素についての情報
を抽出する。構文要素とは、名詞句、動詞句といった構
文情報がある。
さらに、重要性判定手段7がある。重要性判定手段7は
、前記形態素解析手段5や前記構造認定手段6によって
認定した単語の品詞情報や構文情報、あるいは、単語辞
書4を検索することによって得られる該単語の意味情報
を基に、該単語の重要度を判定する。
最後に、圧縮手段8がある。圧縮手段8は、前記重要性
判定手段7によって判定された各単語の重要度をもとに
、重要度が前もって定めたしきい値よりも大きい場合は
該単語が重要であると判断し、一方、重要度がしきい値
よりも小さい場合には該単語が重要でないと判断し、該
単語が重要でないと判定された場合には該単語を文書か
ら削除して、文書を圧縮し、圧縮文書2を出力する。
〔作   用] ユーザは、文章圧縮装置3に圧縮したい文章を入力文書
1として入力する。入力された人力文書1は、まず、形
態素解析手段5に入力される。形態素解析手段5は、入
力文書1の文章を先頭から順に探索し、単語辞書4を検
索して、文章を構成する複数の単語に分離する。単語辞
書4には、少なくとも、単語見出しと品詞情報を格納し
ておく。
単語辞書4を検索し、文の構成単語を分離することによ
って、各構成単語の品詞情報が抽出される。
分離された単語は、構造認定手段6に入力される。ここ
で、単語辞書4には、構文要素を抽出するための構文情
報を格納しておく。構造認定手段6は、入力文書1を構
成する各文について、単語並びの品詞情報から名詞句、
動詞句といった構文要素を抽出し、文の構造を認定する
形態素解析手段5で抽出された各単語と、各単語の品詞
情報と、構造認定手段6によって抽出された構文情報は
、次に、重要性判定手段7に入力される。重要性判定手
段7は、品詞情報あるいは構文情報を使用し、また、そ
れに加えて、単語辞書4を検索して単語の意味的情報を
得、それらから、各単語の重要度を付す。このとき、品
詞情報あるいは構文情報のみを使用して重要度を付けた
り、品詞情報と意味的情報を組み合わせて、あるいは構
文情報と意味的情報を組み合わせて、重要度を付けるこ
とが可能である。
文を構成する各単語について重要性判定手段7によって
重要度が付けられると、単語見出し、および重要度の情
報は圧縮手段8に送られる。圧縮手段8は各単語の重要
度の大きさを判定する。重要度の判定のために、前もっ
て重要度のしきい値を定めておく。そして、重要度がこ
のしきい値よりも大きければ該単語が重要であると判断
し、重要度がしきい値よりも小さければ該単語は重要で
ないと判断する。そして、重要であると判断された単語
は重要単語として出方し、重要でないと判断された単語
は出力しないようにする。これによって、重要単語のみ
が圧縮文書2として出力される。
〔実  施  例〕
以下、第2凹凸第6図を参照しながら実施例を説明する
第2図は、本発明の一実施例のシステム構成図である。
本実施例は、通常の電子計算機システムで実行できる。
電子計算機システムは、汎用コンピュータのような電子
計算機20および、キーボード等の入力装置21、デイ
スプレィやプリンタ等の出力装置22、外部記憶装置2
3で構成される。
電子計算機20は、CPU24を中心とし、主記憶等の
メモリ25、入力装置21や出力装置22、外部記憶装
置23を電子計算機20と接続するためのI10インタ
フェース26で構成され、CPU24およびメモリ25
、I10インタフェース26は相互に接続されている。
メモリ25には、電子計算機20の基本的な制御を実行
するためのプログラムであるシステム・ソフトウェア2
7とともに、本実施例を実行するための文章圧縮ソフト
ウェア28が格納されている。CPU24は、メモリ2
5に格納されている文章圧縮ソフトウェア28やシステ
ム・ソフトウェア27のプログラムに従って処理を実行
する。
文章圧縮ソフトウェア28は4つの部分からなる。すな
わち、入力文書1を文を構成する単語に分離し、品詞を
抽出する形態素解析部29と、文の構文要素を抽出する
構造認定部30、品詞情報や構文要素、単語の意味的情
報を利用して各単語の重要度を判定する重要性判定部3
1、各単語の重要度の大きさを判断して重要な単語だけ
を圧縮文書2として出力する圧縮部32である。
形態素解析部29、構造認定部30、重要性判定部31
は、それぞれ品詞情報、構文要素、意味的情報を抽出す
るために、外部記憶装置23内に格納されている単語辞
書33を参照する。単語辞書33には、単語見出しとと
もに、該単語見出しの品詞情報や意味情報、構文情報が
格納されている。
ユーザは、入力装置21を使用して圧縮したい入力文書
1を電子計算機20に入力する。入力文書lは、I10
インタフェース26を介してメモリ27に蓄えられる。
ユーザが文章圧縮ソフトウェア28を起動すると、まず
、形態素解析部29が実行され、入力文書1が文頭から
処理され、単語辞書33を参照しながら、単語に分離さ
れ、各単語について品詞情報が抽出される。分離された
単語は次に構造認定部30に送られ、単語辞書33を参
照して文の構文情報が抽出される。形態素解析部29お
よび構造認定部30で抽出された品詞情報や構文情報は
重要性判定部31に送られる。
重要性判定部31は、入力された品詞情報あるいは構文
情報、および単語辞書33を参照することによって得ら
れる単語の意味情報を利用して各単語について重要度を
付ける。この重要度は次に圧縮部32に送られる。圧縮
部32は重要度の大きな単語を重要と判断し、重要と判
断した単語のみを圧縮文書2としてI10インタフェー
ス26を介して出力装置22に出力する。
次に、本実施例の動作を第3図の動作フローチャートお
よび処理例に沿って説明する。本実施例は、単語の品詞
情報のみを使用して文書を圧縮する。
同図(a −1)は本実施例のメインプログラムの動作
フローチャート、同図(a−2)はメインプログラムの
プログラム例、同図(a−3)はメインプログラムの処
理例である。
まず、入力文を読み込む(330)。ここでは、入力文
を英文とし、入力例文をLarge companie
s often 1nvest extra mone
y、”とする(同図(a−3)の入力例文)。
次に、この入力文に対して形態素解析処理を施し、入力
文を単語列に分離する(331)。これによって、各単
語と対応する品詞情報が抽出される(同図(a−3)の
形態素解析部の出力)。すなわち、入力文は単語辞書3
3を参照することによって単語列”Large”、“c
ompanies” 、“often”、”1nves
t″、”extra”、”money”、ITIに分離
され、各単語の品詞は、それぞれ、”ADJ (形容詞
)”、“N PL(名詞の複数形)”、“ADV (副
詞)”、“V(動詞)”、“ADJ (形容詞)”、“
N(名詞)”、“PERIOD(終止符)”である。こ
こでは、′、′° も一つの単語とし、品詞をPERI
OD (終止符)′とする。
次に、分離された単語列の単語を一つ一つ読み込んで重
要度を付ける処理を実行する(S32〜535)。まず
、単語があるか否かを判定する(S32)。単語が存在
する場合には(No)、単語を一つ読み込む(S33)
。そして単語の品詞を調べる(S34)。例えば、単語
“Large”ならば品詞は形容詞、単語”coa+p
anies”ならば品詞は名詞の複数形である。次に、
この品詞の種類によって重要度を付ける(S35)。
同図(b)は重要度を付けるためのプログラムget 
1ndexの動作フローチャートとプログラム例である
すなわち、品詞の種類を判定しく338)、例えば、名
詞ならば重要度=1 (S39−1)、形容詞ならば重
要度=O(S39−2)というように重要度を付ける。
重要度の値を前もって品詞ごとに定め、プログラムを作
成しておく。例えば、名詞および動詞、終止符の各品詞
の重要度を“1”とし、前置詞は1その他の品詞は重要
度=0とする。
このプログラム(同図(b))によって各単語について
重要度が付けられる。入力例文の場合、単語列” La
 rge (形容詞) ” 、”companies 
(名詞の複数形)′、”often (副詞)パ、“1
nvest(動詞)′”、”extra (形容詞)”
、”money (名詞)″、“、(終止符)”に対し
て、それぞれ“0°“、“l”、“0”、“I”、”o
”、”I”、“′1”になる。
次に、S35によって付けられた重要度の大きさを判定
する(S36)。すなわち、重要度が1以上か否かを判
定する。重要度が1以上ならば(YES)、該単語が重
要であると判定し、重要単語として出力する(S37)
。すなわち、入力例文の場合、”companies”
 、”1nvest”、”money”、および、″が
出力される。一方、重要度が1未満ならば(No)、該
単語は重要ではないと判定し、次の単語を読む処理(S
32)に戻る。単語が存在しない(S32でYES)な
らば、処理を終了する(END)。
以上の処理によって、品詞情報を基に重要度を判定し、
文書を圧縮できる。
第4図は、第二の実施例の動作フローチャートと処理例
である。本実施例では、構文情報を使用して重要度を判
定し、文書を圧縮する。
同図(a −1)は本実施例の動作フローチャート、同
図(a−2)はプログラム例、同図(a −3)は処理
例である。
まず、入力文を読み込む(S40)。ここでは、入力例
文を”シarge co+mpanies often
 1nvest extra money from 
current profits、”とする。
次に、入力文を形態素解析で単語列に変換する(341
)。これによって、入力例文は“Large”、” c
ompanies”、”often”、”1nvest
”、”extra”、”money”、′frOI11
”、”current”、”Profits”の9単語
に分離される。各単語の品詞は、それぞれ、′″ADJ
″、N PL”、”ADV”、“Vll 、l“ADJ
” 、“°N′、”PRFP(前置詞)”、”DET 
(限定詞)″、N″、“PERIOD”である(同図(
a−3)の形態素解析部の出力)。
分離された単語列は、次に、構造認定部で構文解析処理
を施され、構文情報を付与され、構文木を構成する(S
42)。これによって、入力例文の場合、”Large
”が”companies”を修飾し、この2単語が名
詞句を構成していることが分かる。また、”curre
nt”が“prof i ts”を限定して名詞句を、
それに“from”が付いて前置詞句を、さらに、”e
xtra”が“1oney”を修飾してこの2単語で名
詞句を、extra money”の名詞句と”fro
m current profitS”の前置詞句を合
わせて名詞句が構成されていることが分かる。また、動
詞”1nvest”と“extra anoney f
rova current profits”の名詞句
が接続されて動詞句を構成し、“often”がこの動
詞句を修飾して全体で動詞句を構成していることが分か
る。そして、Large companies”の名詞
句と、”ofte 1nvest extra mon
ey from current profits”の
動詞句、゛、”で文が構成されていることが処理によっ
て判定される(同図(a−3)の構造認定部の出力)。
次に、S42の出力(同図(a−3)の構造認足部の出
力)の一つ一つの単語について重要度を判定する処理を
実行する(843〜546)。
まず、単語が存在するか否かを判定する(S43)。存
在する場合(No)には、単語を一つ読む(S44)。
そして単語の持つ構文構造を342の結果から調べる(
345)。同図(a−2)のプログラム例ではcall
 getsyntax(WORD、 5YNTAX);
であり、getsyntaxのサブルーチンを実行する
ことによって単語WORDが属する構文木のノード情報
が変数5YNTAX中に記述される。例えば、入力例文
の”Large”の場合には5YNTAXの情報は、名
詞句中の形容詞ノードということになる。
次に、この構文情報をもとに重要度を調べる(346)
。同図(a−2)のプログラム例では、call ge
tindex(SYNTAX、INDEX);を実行す
る。
同図(b)はサブルーチンgetindex(SYNT
AX、 INDEX)の動作フローチャートとプログラ
ム例である。
まず、5YNTAXの情報のなかに文末の前置詞句(l
pr)があるか否かを判定する(S46−1)。存在す
る場合(YES)には重要度INDEX=Oとしく54
6−2)、サブルーチン処理を終了する。
文末の前置詞句が存在しない場合(NO)には、次に、
5YNTAX中に名詞Nがあるか否かを判定する(34
6−3)。存在する場合(YES)には、重要度IND
EX=1としく546−4)、処理を終了する。存在し
ない場合(NO)には、次に5YNTAX中に形容詞A
DJがあるか否かを判定する(S46−5)。存在する
場合には、重要度INDEX=0としく546−6)、
サブルーチン処理を終了する。
存在しない場合には、さらに5YNTAX中の構文情報
を調べ、対応する重要度の値を変数INDEXに入れる
。以上のように、考えられる形の構文についての重要度
を与えるプログラムを作成しておく。
getindexのサブルーチンを実行することによっ
て、入力例文に対しては、同図(a−3)の重要度判定
部の出力に示す重要度が与えられる。すなわち、”fr
otx current profits”の各単語は
文末の前置詞句を構成する単語であるため、重要度は0
になる。そして、単語”companies” 、”1
nvest”、”money″”に重要度1が与えられ
る。
次に、この重要度の大きさを判定する(347)。
重要度が1以上であるならば(YES)、その単語を重
要単語として出力する(34B)。一方、重要度が1未
満であるならば(NO)、出力せずに、次の単語の処理
に移る(S43)。すなわち、次の単語があるか否かの
判定処理に戻る。単語が存在しない場合には処理を終了
する(END)。
入力例文の場合、圧縮結果は“companies i
nvestmoney”となる。同一の入力例文を第一
の実施例の手法で処理した場合には、すべての名詞を重
要と見なし、文末の前置詞句“’fromProf i
ts”も重要であるとしてしまい、圧縮結果は”com
panies 1nvest■oney fro■pr
ofits″になるはずである。このため、第二の実施
例のほうがよりきめ細かい圧縮結果を得られることにな
る。
第5図は、第三の実施例の動作フローチャートと処理例
である。本実施例は、品詞情報と単語の意味的情報を利
用して重要度を判定する。
同図(a−1)は本実施例の動作フローチャート、同図
(a−2)はプログラム例、同図(a −3)は処理例
である。
まず、入力文を読み込む(S50)。ここでは、入力例
文を”However、 rival compani
es often 1nvest more mone
y、” とする。
次に、入力文を形態素解析で単語列に変換する(S51
)、これによって、入力例文は’However””、
” 、”rival”、”companies” 、”
often” 、“1nvest”、” m o re
 ”、“money” 、”、”の9単語に分離される
。各単語の品詞は、それぞれ、“ADV” 、”COM
HA (句読点)″、“ADJ”、”N FL”、“’
ADV”、“■”、”ADJ” 、”N” 、“PER
IOD”である(同図(a−3)の形態素解析部の出力
)。
次に、351の出力の一つ一つの単語について重要度を
調べる処理を実行する(352〜556)。
まず、単語が存在するか否かを判定する(S52)。存
在する場合(NO)には、単語を一つ読む(S53)。
そして単語の品詞情報を調べる(354)。同図(a−
2)のプログラム例ではcall gethinsi(
WORD、 HINSI);であり、gethinsi
のサブルーチンを実行することによって単語WORDの
品詞情報が変数旧NSIに記述される。例えば、入力例
文の”lowever”の品詞は旧N5I=ADV 、
 ”rival”の場合は旧N5I=ADJである。
次に、単語の意味情報を調べる(355)。同図(a−
2)のプログラム例ではcall getsemant
ic(WORD、 SEM);であり、getsen+
anticのサブルーチンを実行することによって、単
語WORDの意味情報を単語辞書から検索され、その結
果が変数SEHに記述される。意味情報はすべての単語
について記述されているのではなく、意味的に重要な単
語にのみ付けられている。例えば、”hollleve
r″°には”negation(逆接)″、”riva
l”には”couter−sense(対照)″、”m
ore”には”comparative (比較)”の
意味が付けられている。
S55で単語の意味情報が抽出されたら、次に、品詞情
報と意味情報から重要度を調べる(356)。
同図(a−2)のプログラム例では、call get
index(HINSI、SFA、 INDEX) ;
を実行する。
同図(b)はサブルーチンgetindex(HINS
I、SEM、 INDEX)の動作フローチャートとプ
ログラム例である。
まず、HINSIがADJ (形容詞)か否かを判定す
る(S56−1)。形容詞である場合には(YES)、
その単語が特定の意味、すなわち対照(co’uter
−sense)あるいは比較(comparative
)を示す意味をもつか否かを判定する(S56−2)。
特定の意味がある場合(YES)には重要度INDEX
=1としく356−3)、特定の意味がない場合(No
)には重要度INDEX=Oとしく556−4)、サブ
ルーチンの処理を終了する。
該単語の品詞が形容詞でない場合(S56−1のNo)
には、次に該単語の品詞がN(名詞)か否かを判定する
(S56−5)。そして、品詞と意味情報の種類によっ
て重要度INDEXに値を与える。
getindexのサブルーチンを実行することによっ
て、入力例文に対しては、同図(a−3)の重要度判定
部の出力に示す重要度が与えられる。すなわち、副詞の
なかでも特定の婁味”nega t ion (逆接)
″をもつ単語゛However”の重要度はlとし、特
定の意味を持たない副詞“often″の重要度は0と
する。
次に、356で得られた重要度INDEXの値の大きさ
を判定する(357)。重要度が1以上の場合(YES
)には、その単語が重要であると判断し、重要単語とし
て出力する(S58)、一方、重要度が1未満の場合(
NO)には、その単語は重要でないと判断し、次の単語
の処理に移る(S52)。S52で単語がもう存在しな
いと判定されたとき(YES)には、処理を終了する(
END)。
この処理の結果、入力例文の場合には、“Ho1Ile
ver rival companies 1nves
t more money”の単語が圧縮結果として出
力される。本実施例では、品詞情報のみを使用する第一
の実施例と比較して、重要な意味をもつ単語を形容詞や
副詞の場合でも落とすことなく抽出できるので、きめ細
かい圧縮が可能になる。
第6図は、第四の実施例の動作フローチャートと処理例
である0本実施例では、構文情報と意味情報を使用して
重要度を判定し、文書を圧縮する。
同図(a −1)は本実施例の動作フローチャート、同
図(a−2)はプログラム例、同図(a −3)は処理
例である。
まず、入力文を読み込む(S60)。ここでは、入力例
文を1″)Iowever、 rival compa
nies often 1nvest more +n
oney from current profits
、”とする。
次に、入力文を形態素解析で単語列に変換する(S61
)、これによって、入力例文は’However”、“
+ ” 、”rtval”、” companies”
、”often” 、”1nvest”、”more”
、”money”、frOIIl′1“current
”、“’profits” 、“′、”の12単語に分
離される。各単語の品詞は、それぞれ、ADV”、”C
OMMA″’ 、”ADJ” 、”N FL”、”AD
V”、■”、”ADJ’ 、”N”、”PREP(前置
詞)”、”DET (限定側)”、IIN”、”PER
IOD”である(同図(a−3)の形態素解析部の出力
)。
分離された単語列は、次に、構造認定部で構文解析処理
を施され、構文情報を付与され、構文木を構成する(S
62)。これによって、入力例文の場合、”rival
″が“companies”を修飾し、この2単語が名
詞句を構成していることが分かる。また、“curre
nt”が”profits”を限定して名詞句を、それ
に’from”が付いて前置詞句を、さらに、”mor
e”が°’money”を修飾してこの2単語で名詞句
を、”more money”の名詞句と”from 
current profits”の前置詞句を合わせ
て名詞句が構成されていることが分かる。また、動詞”
1nvest”と“more moneyfrom c
urrent profits”の名詞句が接続されて
動詞句を構成し、“’of ten”がこの動詞句を修
飾して全体で動詞句を構成していることが分かる。そし
て、”However”の副詞句と、”rival c
ompanies”の名詞句、often 1nves
t more money from current
 profits”の動詞句、、nで文が構成されてい
ることが処理によって判定される(同図(a−3)の構
造認定部の出力)。
次に、S62の出力(同図(a−3)の構造認定部の出
力)の一つ一つの単語について重要度を判定する処理を
実行する(863〜567)。
まず、単語が存在するか否かを判定する(S63)。存
在する場合(No)には、単語を一つ読む(S64)。
そして単語の持つ構文構造をS62の結果から調べる(
365)。同図(a−2)のプログラム例ではcall
 getsyntax(WORD、 5YNTAX);
であり、getsyntaxのサブルーチンを実行する
ことによって単語WORDが属する構文木のノード情報
が変数5YNTAX中に記述される。例えば、入力例文
の’rival”の場合には5YNTAXの情報は、名
詞句中の形容詞ノードということになる。
次に、単語の意味情報を調べる(S66)。同図(a−
2)のプログラム例ではcall getsemant
ic(WORD、 SEM);であり、getsema
nticのサブルーチンを実行することによって、単語
WORDの意味情報を単語辞書から検索され、その結果
が変数SEHに記述される。例えば、”however
”には”negati。
n(逆接)″、”rival”には”couter−s
ense (対照)″、”n+ore″には11com
parative (比較)++の意味が付けられてい
る。
S66で単語の意味情報が抽出されたら、S65で抽出
した構文情報と合わせて、重要度を調べる(S67)。
同図(a−2)のプログラム例では、call get
index(SYNTAX、SEM、INDEX);を
実行する。
同図(b)はサブルーチンget 1ndex (SY
NTAX 、 SEM、 INDEX)の動作フローチ
ャートとプログラム例である。
まず、調べる単語の5YNTAXに文末の前置詞(Ip
r)が存在するか否かを判定する(S67−1)。そし
て、存在する場合(YES)には重要度INDEX=0
としく367−2)、サブルーチン処理を終了する(E
ND)。一方、存在しない場合(No)には、次に、5
YNTAX中に名詞(N)が存在するか否かを判定する
(S67−3)。名詞が存在する場合(YES)には、
重要度INDEX=1としく567−4)、処理を終了
する(END)。存在しない場合(NO)には、次に、
5YNTAX中に副詞(ADV)が存在するか否かを判
定する(S67−5)。存在する場合には(YES)、
その副詞に特定の意味があるか、例えば、SEM=逆接
(negation)か否かを判定する。特定の意味が
ある場合(YES)には、INDEX=1としく567
−7)、特定の意味がない場合(No)にはI NDE
X=Oとしく567−8〕、処理を終了する(END)
一方、5YNTAX中に副詞(ADV)が存在しない場
合(S67−5+7)No) には、次に、5YNTA
X中に形容詞(ADJ)が存在するか否がを判定する(
367−9)、存在する場合には、その単語の意味SE
Hに特定の意味があるか否か、例えば、SEM=cou
ter−senseあるいはSEM=comparat
iveが否がを判定する(367−10)。そして、特
定の意味がある場合(YES)にはINDEX=1 ト
L (S 67−11 )、特定の意味がない場合(N
O)にはINDEX=Oとしく367−12)、処理を
終了する(END)。
このように、すべての構文情報について、重要度を与え
るプログラムを実行し、サブルーチン処理を終了する。
getindexのサブルーチンを実行することによっ
て、入力例文に対しては、同図(a−3)の重要度判定
部の出力に示す重要度が与えられる。すなわち、副詞の
なかでも特定の意味、逆接(negati。
n)をもつ単語“However” 、および、対照(
counter−sense )の意味をもつ形容詞”
rival”、名詞“co膳panies”、動詞“1
nvest”、比較(comparative)の意味
をもつ形容詞”more”、名詞”Honey”・ピリ
オドII 、 I+の重要度が1となる。
次に、この重要度の大きさを判定する(368)。
重要度が1以上であるならば(YES)、その単語を重
要単語として出力する(S69)。一方、重要度が1未
満であるならば(No)、出力せずに、次の単語の処理
に移る(S63)。すなわち、次の単語があるか否かの
判定処理に戻る。単語が存在しない場合には処理を終了
する(END)。
入力例文の場合、圧縮結果は’However riv
al companies 1nvest taore
 money、”となる。
〔発明の効果〕
本発明によって、原文の情報を重要な情報だけに圧縮す
ることが可能になる。また、本発明では、単語の品詞情
報や構文情報、簡単な意味情報だけに着目して処理を行
なうので、辞書中に複雑な意味情報を用意する必要がな
く、システム構築もや管理も用意であり、また、処理時
間も短くてすむ。
また、圧縮文章に必要なきめ細かさに応じて、品詞情報
のみ、あるいは構文情報のみ、あるいは意味情報を併用
するといったシステム構築が簡単にできる。
【図面の簡単な説明】
第1図は本発明の機能ブロック図、 第2図は一実施例のシステム構成図、 第3図は一実施例の動作フローチャートと処理例、 第4図は第二の実施例の動作フローチャートと処理例、 第5図は第三の実施例の動作フローチャートと処理例、 第6図は第四の実施例の動作フローチャートと処理例で
ある。 工・・・入力文書、 2・・・出力文書、 3・・・文章圧縮装置、 4・・・単語辞書、 5・・・形態素解析手段、 6・・・構造認定手段、 7・・・重要性判定手段、 8・・・圧縮手段。

Claims (1)

  1. 【特許請求の範囲】 1)入力文書(1)を圧縮して圧縮文書(2)として出
    力する文章圧縮装置(3)において、入力文書(1)の
    文章を単語辞書(4)を検索して複数の単語に分割する
    形態素解析手段(5)と、 前記形態素解析手段(5)によって分離した単語につい
    て、該単語の構文要素を単語辞書(4)を検索して抽出
    し、名詞句あるいは動詞句といった文章の構造を認定す
    る構造認定手段(6)と、前記形態素解析手段(5)に
    よって抽出した品詞情報、前記構造認定手段(6)によ
    って認定した構文要素、単語辞書(4)に記載されてい
    る意味情報の少なくとも一つの情報を基に、該単語の重
    要度を判定する重要性判定手段(7)と、前記重要性判
    定手段(7)が判定した該単語の重要度を、前もって定
    めた重要度のしきい値と比較し、重要度がしきい値より
    も低ければ該単語が重要ではないと判断し、入力文書(
    1)の文章から該単語を削除し、重要度がしきい値より
    も高ければ該単語が重要であると判断して圧縮文書(2
    )として出力する圧縮手段(8)とを有することを特徴
    とする文章圧縮装置。2)前記形態素解析手段(5)は
    、入力文書(1)を構成する単語に分離するとともに、
    分離した各単語の品詞情報を抽出する請求項1記載の文
    章圧縮装置。 3)前記重要性判定手段(7)は、前記形態素解析手段
    (5)によって抽出した品詞情報だけを使用して該単語
    の重要度を判定する請求項1記載の文章圧縮装置。 4)前記重要性判定手段(7)は、前記構造認定手段(
    6)によって抽出した構文要素を使用して該単語の重要
    性を判定する請求項1記載の文章圧縮装置。 5)前記重要性判定手段(7)は、前記形態素解析手段
    (5)によって抽出した品詞情報と、該単語について単
    語辞書(4)に記載されている否定、数量等の意味的情
    報を使用し、該単語の重要性を判定する請求項1記載の
    文章圧縮装置。 6)前記重要性判定手段(7)は、前記構造認定手段(
    6)によって抽出した構文要素と、該単語について単語
    辞書(4)に記載されている否定、数量等の意味的情報
    を使用し、該単語の重要性を判定する請求項1記載の文
    章圧縮装置。
JP2282631A 1990-10-20 1990-10-20 文章圧縮装置 Pending JPH04156663A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2282631A JPH04156663A (ja) 1990-10-20 1990-10-20 文章圧縮装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2282631A JPH04156663A (ja) 1990-10-20 1990-10-20 文章圧縮装置

Publications (1)

Publication Number Publication Date
JPH04156663A true JPH04156663A (ja) 1992-05-29

Family

ID=17655034

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2282631A Pending JPH04156663A (ja) 1990-10-20 1990-10-20 文章圧縮装置

Country Status (1)

Country Link
JP (1) JPH04156663A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212228A (ja) * 1995-02-02 1996-08-20 Sanyo Electric Co Ltd 要約文作成装置および要約音声作成装置
JPH09269951A (ja) * 1996-04-03 1997-10-14 Matsushita Electric Ind Co Ltd 英文要約装置
JPH11282881A (ja) * 1998-01-27 1999-10-15 Fuji Xerox Co Ltd 文書要約装置および記録媒体
JP2000003126A (ja) * 1998-03-23 2000-01-07 Xerox Corp 音声部を使用するテキスト要約方法
JP2001202389A (ja) * 2000-12-11 2001-07-27 Toshiba Corp 文書検索装置及び文書検索方法
JP2003208422A (ja) * 2001-11-08 2003-07-25 Tatsuhiko Miyagawa 文書管理システム及び方法
JP2004259296A (ja) * 2001-11-08 2004-09-16 Tatsuhiko Miyagawa 文書管理システム及び方法
JP2014229273A (ja) * 2013-05-27 2014-12-08 富士通株式会社 速報文面作成方法、プログラム、及び速報メール連携システム
US9871536B1 (en) 2016-07-27 2018-01-16 Fujitsu Limited Encoding apparatus, encoding method and search method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02112068A (ja) * 1988-10-21 1990-04-24 Hitachi Ltd テキスト簡略表示方式

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02112068A (ja) * 1988-10-21 1990-04-24 Hitachi Ltd テキスト簡略表示方式

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212228A (ja) * 1995-02-02 1996-08-20 Sanyo Electric Co Ltd 要約文作成装置および要約音声作成装置
JPH09269951A (ja) * 1996-04-03 1997-10-14 Matsushita Electric Ind Co Ltd 英文要約装置
JPH11282881A (ja) * 1998-01-27 1999-10-15 Fuji Xerox Co Ltd 文書要約装置および記録媒体
JP2000003126A (ja) * 1998-03-23 2000-01-07 Xerox Corp 音声部を使用するテキスト要約方法
JP2001202389A (ja) * 2000-12-11 2001-07-27 Toshiba Corp 文書検索装置及び文書検索方法
JP2003208422A (ja) * 2001-11-08 2003-07-25 Tatsuhiko Miyagawa 文書管理システム及び方法
JP2004259296A (ja) * 2001-11-08 2004-09-16 Tatsuhiko Miyagawa 文書管理システム及び方法
JP2014229273A (ja) * 2013-05-27 2014-12-08 富士通株式会社 速報文面作成方法、プログラム、及び速報メール連携システム
US9871536B1 (en) 2016-07-27 2018-01-16 Fujitsu Limited Encoding apparatus, encoding method and search method

Similar Documents

Publication Publication Date Title
JP2742115B2 (ja) 類似文書検索装置
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
KR20050045822A (ko) 기계번역기법을 이용한 유사문장 식별 시스템
KR101933953B1 (ko) 페이지랭크와 토픽 모델링을 이용한 소프트웨어 도메인 토픽 추출 시스템
JP2011118689A (ja) 検索方法及びシステム
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
EP1503295A1 (en) Text generation method and text generation device
JP2018018174A (ja) 符号化プログラム、符号化装置、符号化方法、及び検索方法
JPH04156663A (ja) 文章圧縮装置
JPH1049543A (ja) 文書検索装置
Kermes et al. YAC-A Recursive Chunker for Unrestricted German Text.
US7440890B2 (en) Systems and methods for normalization of linguisitic structures
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
Daelemans et al. Part-of-speech tagging for Dutch with MBT, a memory-based tagger generator
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JP4074687B2 (ja) 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
Schwarz The TINA Project: text content analysis at the Corporate Research Laboratories at Siemens
JP3419748B2 (ja) 辞書作成装置および方法と辞書作成プログラムを記録した記録媒体
Krenn CDB-A Database of Lexical Collocations.
Shen Research on the Application of Computer Big Data Technology in English Online Translation
JPH0827803B2 (ja) テキストベース検索方法
Yan et al. A novel word-graph-based query rewriting method for question answering
WO2020079749A1 (ja) 事例検索方法