JPH04156663A

JPH04156663A - 文章圧縮装置

Info

Publication number: JPH04156663A
Application number: JP2282631A
Authority: JP
Inventors: Fumito Nishino; 文人西野; Daburu Miraa Aabin; アービン　ダブル　ミラー; Naoto Nakamura; 直人中村; Jun Ibuki; 潤伊吹; Masatoshi Shiouchi; 正利塩内
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1990-10-20
Filing date: 1990-10-20
Publication date: 1992-05-29

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔概　　要〕文章圧縮装置に関し、手軽に、きめ細かい圧縮文章を提供することを目的とし
、入力文書を圧縮して圧縮文書として出力する文章圧縮装
置において、入力文書の文章を単語辞書を検索して複数の単語に分割
する形態素解析手段と、前記形態素解析手段によって分
離した単語について、該単語の構文要素を単語辞書を検
索して抽出し、名詞句あるいは動詞句といった文章の構
造を認定する構造認定手段と、前記形態素解析手段によ
って抽出した品詞情報、前記構造認定手段によって認定
した構文要素、単語辞書に記載されている意味情報の少
なくとも一つの情報を基に、該単語の重要度を判定する
重要性判定手段と、前記重要性判定手段が判定した該単
語の重要度を、前もって定めた重要度のしきい値と比較
し、重要度がしきい値よりも低ければ該単語が重要では
ないと判断し、入力文書の文章から該単語を削除し、重
要度がしきい値よりも高ければ該単語が重要であると判
断して圧縮文書として出力する圧縮手段とを有するよう
に構成する。

〔産業上の利用分野〕

本発明は、文章圧縮装置に関する。

〔従来の技術〕

近来、大量の情報がオンライン文書化されるようになっ
た。このオンライン文書に人間がすべて目を通すことは
非常に時間のかがる作業である。

文章のなかには意味上枝となる重要な部分と、単に核と
なる部分を修飾している重要でない部分がある。そこで
、自動的に文章中の重要でない部分を取り去って、該文
章の要約だけを残し文章量を圧縮すれば、必要な情報を
得るために読む文章量を減らすことが可能になり、効率
的に情報を獲得ることか可能になる。

従来、文章を圧縮する方式には２通りの方法がある。第
１の方法は文書のなかでの位置情報やキーワードを利用
する方法であり、第２の方法は構。

文解析や意味解析を使用する方法である。

第１の方法は、段落の先頭や最後といった文書の位置情
報やキーワードを使用し、文書のなかで重要と考えられ
る単語や単語群を取り出すことによって文書を圧縮する
。すなわち、一般に重要な単語や単語群は文書のなかの
先頭や最後に存在する。そこで、文書の先頭や最後から
単語や単語群を取り出すのである。また、前もって重要
と思われる単語や単語群をキーワードとして決めておき
、そのキーワードを文書から検索して依り出し、それ以
外の単語を削除することによって文書を圧縮する。

第２の方法は、構文解析や意味解析などの深い文章解析
を行なって、文書のなかの重要な部分を取り出す方法で
ある。この方法では、構文情報や意味情報等の大規模な
知識ベースを使用する。

［発明が解決しようとする課題］しかしながら、従来の方式にはどちら）問題がある。

従来方式の第１の方法、すなわち、文書の位置情報やキ
ーワードを使用する方法は、重要な言明を捨ててしまう
ことがあり、また、圧縮済みの文書に重要でない要素を
含むこともあり、きめの細かい圧縮が不可能という問題
がある。また、第２の方法、すなわち、構文解析や意味
解析を行なう方法は、構文情報や意味情報の大規模な知
識ベースが必要であり、また、その解析に膨大な時間が
かかるという問題がある。

以上のように、従来の方式は、きめの１力中圧縮を短時
間に効率よく行なうことが不可能という問題があった。

本発明は、手軽に、きめ細かい圧縮文章を提供すること
を目的とする。

〔課題を解決するための手段〕

第１図は、本発明の機能ブロック図である。本発明は、
入力文書１を入力とし、単語辞書４を使用して圧縮し、
圧縮文書２を出力する文章圧縮装置３を対象とする。

まず、形態素解析手段５を有する。形態素解析手段５は
、入力文書ｌの文章を単語辞書４を検索することにより
、複数の単語に分離し、各単語についての品詞情報を抽
出する。

次に、構造認定手段６を有する。構造認定手段６は、前
記形態素解析手段５によって分離した各単語について、
単語辞書４を検索し、該単語の構文要素についての情報
を抽出する。構文要素とは、名詞句、動詞句といった構
文情報がある。

さらに、重要性判定手段７がある。重要性判定手段７は
、前記形態素解析手段５や前記構造認定手段６によって
認定した単語の品詞情報や構文情報、あるいは、単語辞
書４を検索することによって得られる該単語の意味情報
を基に、該単語の重要度を判定する。

最後に、圧縮手段８がある。圧縮手段８は、前記重要性
判定手段７によって判定された各単語の重要度をもとに
、重要度が前もって定めたしきい値よりも大きい場合は
該単語が重要であると判断し、一方、重要度がしきい値
よりも小さい場合には該単語が重要でないと判断し、該
単語が重要でないと判定された場合には該単語を文書か
ら削除して、文書を圧縮し、圧縮文書２を出力する。

〔作　　　用］ユーザは、文章圧縮装置３に圧縮したい文章を入力文書
１として入力する。入力された人力文書１は、まず、形
態素解析手段５に入力される。形態素解析手段５は、入
力文書１の文章を先頭から順に探索し、単語辞書４を検
索して、文章を構成する複数の単語に分離する。単語辞
書４には、少なくとも、単語見出しと品詞情報を格納し
ておく。

単語辞書４を検索し、文の構成単語を分離することによ
って、各構成単語の品詞情報が抽出される。

分離された単語は、構造認定手段６に入力される。ここ
で、単語辞書４には、構文要素を抽出するための構文情
報を格納しておく。構造認定手段６は、入力文書１を構
成する各文について、単語並びの品詞情報から名詞句、
動詞句といった構文要素を抽出し、文の構造を認定する
。

形態素解析手段５で抽出された各単語と、各単語の品詞
情報と、構造認定手段６によって抽出された構文情報は
、次に、重要性判定手段７に入力される。重要性判定手
段７は、品詞情報あるいは構文情報を使用し、また、そ
れに加えて、単語辞書４を検索して単語の意味的情報を
得、それらから、各単語の重要度を付す。このとき、品
詞情報あるいは構文情報のみを使用して重要度を付けた
り、品詞情報と意味的情報を組み合わせて、あるいは構
文情報と意味的情報を組み合わせて、重要度を付けるこ
とが可能である。

文を構成する各単語について重要性判定手段７によって
重要度が付けられると、単語見出し、および重要度の情
報は圧縮手段８に送られる。圧縮手段８は各単語の重要
度の大きさを判定する。重要度の判定のために、前もっ
て重要度のしきい値を定めておく。そして、重要度がこ
のしきい値よりも大きければ該単語が重要であると判断
し、重要度がしきい値よりも小さければ該単語は重要で
ないと判断する。そして、重要であると判断された単語
は重要単語として出方し、重要でないと判断された単語
は出力しないようにする。これによって、重要単語のみ
が圧縮文書２として出力される。

〔実　　施　　例〕

以下、第２凹凸第６図を参照しながら実施例を説明する
。

第２図は、本発明の一実施例のシステム構成図である。

本実施例は、通常の電子計算機システムで実行できる。

電子計算機システムは、汎用コンピュータのような電子
計算機２０および、キーボード等の入力装置２１、デイ
スプレィやプリンタ等の出力装置２２、外部記憶装置２
３で構成される。

電子計算機２０は、ＣＰＵ２４を中心とし、主記憶等の
メモリ２５、入力装置２１や出力装置２２、外部記憶装
置２３を電子計算機２０と接続するためのＩ１０インタ
フェース２６で構成され、ＣＰＵ２４およびメモリ２５
、Ｉ１０インタフェース２６は相互に接続されている。

メモリ２５には、電子計算機２０の基本的な制御を実行
するためのプログラムであるシステム・ソフトウェア２
７とともに、本実施例を実行するための文章圧縮ソフト
ウェア２８が格納されている。ＣＰＵ２４は、メモリ２
５に格納されている文章圧縮ソフトウェア２８やシステ
ム・ソフトウェア２７のプログラムに従って処理を実行
する。

文章圧縮ソフトウェア２８は４つの部分からなる。すな
わち、入力文書１を文を構成する単語に分離し、品詞を
抽出する形態素解析部２９と、文の構文要素を抽出する
構造認定部３０、品詞情報や構文要素、単語の意味的情
報を利用して各単語の重要度を判定する重要性判定部３
１、各単語の重要度の大きさを判断して重要な単語だけ
を圧縮文書２として出力する圧縮部３２である。

形態素解析部２９、構造認定部３０、重要性判定部３１
は、それぞれ品詞情報、構文要素、意味的情報を抽出す
るために、外部記憶装置２３内に格納されている単語辞
書３３を参照する。単語辞書３３には、単語見出しとと
もに、該単語見出しの品詞情報や意味情報、構文情報が
格納されている。

ユーザは、入力装置２１を使用して圧縮したい入力文書
１を電子計算機２０に入力する。入力文書ｌは、Ｉ１０
インタフェース２６を介してメモリ２７に蓄えられる。

ユーザが文章圧縮ソフトウェア２８を起動すると、まず
、形態素解析部２９が実行され、入力文書１が文頭から
処理され、単語辞書３３を参照しながら、単語に分離さ
れ、各単語について品詞情報が抽出される。分離された
単語は次に構造認定部３０に送られ、単語辞書３３を参
照して文の構文情報が抽出される。形態素解析部２９お
よび構造認定部３０で抽出された品詞情報や構文情報は
重要性判定部３１に送られる。

重要性判定部３１は、入力された品詞情報あるいは構文
情報、および単語辞書３３を参照することによって得ら
れる単語の意味情報を利用して各単語について重要度を
付ける。この重要度は次に圧縮部３２に送られる。圧縮
部３２は重要度の大きな単語を重要と判断し、重要と判
断した単語のみを圧縮文書２としてＩ１０インタフェー
ス２６を介して出力装置２２に出力する。

次に、本実施例の動作を第３図の動作フローチャートお
よび処理例に沿って説明する。本実施例は、単語の品詞
情報のみを使用して文書を圧縮する。

同図（ａ　−１）は本実施例のメインプログラムの動作
フローチャート、同図（ａ−２）はメインプログラムの
プログラム例、同図（ａ−３）はメインプログラムの処
理例である。

まず、入力文を読み込む（３３０）。ここでは、入力文
を英文とし、入力例文をＬａｒｇｅ　ｃｏｍｐａｎｉｅ
ｓ　ｏｆｔｅｎ　１ｎｖｅｓｔ　ｅｘｔｒａ　ｍｏｎｅ
ｙ、”とする（同図（ａ−３）の入力例文）。

次に、この入力文に対して形態素解析処理を施し、入力
文を単語列に分離する（３３１）。これによって、各単
語と対応する品詞情報が抽出される（同図（ａ−３）の
形態素解析部の出力）。すなわち、入力文は単語辞書３
３を参照することによって単語列”Ｌａｒｇｅ”、“ｃ
ｏｍｐａｎｉｅｓ”　、“ｏｆｔｅｎ”、”１ｎｖｅｓ
ｔ″、”ｅｘｔｒａ”、”ｍｏｎｅｙ”、ＩＴＩに分離
され、各単語の品詞は、それぞれ、”ＡＤＪ　（形容詞
）”、“Ｎ　ＰＬ（名詞の複数形）”、“ＡＤＶ　（副
詞）”、“Ｖ（動詞）”、“ＡＤＪ　（形容詞）”、“
Ｎ（名詞）”、“ＰＥＲＩＯＤ（終止符）”である。こ
こでは、′、′°　も一つの単語とし、品詞をＰＥＲＩ
ＯＤ　（終止符）′とする。

次に、分離された単語列の単語を一つ一つ読み込んで重
要度を付ける処理を実行する（Ｓ３２〜５３５）。まず
、単語があるか否かを判定する（Ｓ３２）。単語が存在
する場合には（Ｎｏ）、単語を一つ読み込む（Ｓ３３）
。そして単語の品詞を調べる（Ｓ３４）。例えば、単語
“Ｌａｒｇｅ”ならば品詞は形容詞、単語”ｃｏａ＋ｐ
ａｎｉｅｓ”ならば品詞は名詞の複数形である。次に、
この品詞の種類によって重要度を付ける（Ｓ３５）。

同図（ｂ）は重要度を付けるためのプログラムｇｅｔ　
１ｎｄｅｘの動作フローチャートとプログラム例である
。

すなわち、品詞の種類を判定しく３３８）、例えば、名
詞ならば重要度＝１　（Ｓ３９−１）、形容詞ならば重
要度＝Ｏ（Ｓ３９−２）というように重要度を付ける。

重要度の値を前もって品詞ごとに定め、プログラムを作
成しておく。例えば、名詞および動詞、終止符の各品詞
の重要度を“１”とし、前置詞は１その他の品詞は重要
度＝０とする。

このプログラム（同図（ｂ））によって各単語について
重要度が付けられる。入力例文の場合、単語列”　Ｌａ
　ｒｇｅ　（形容詞）　”　、”ｃｏｍｐａｎｉｅｓ　
（名詞の複数形）′、”ｏｆｔｅｎ　（副詞）パ、“１
ｎｖｅｓｔ（動詞）′”、”ｅｘｔｒａ　（形容詞）”
、”ｍｏｎｅｙ　（名詞）″、“、（終止符）”に対し
て、それぞれ“０°“、“ｌ”、“０”、“Ｉ”、”ｏ
”、”Ｉ”、“′１”になる。

次に、Ｓ３５によって付けられた重要度の大きさを判定
する（Ｓ３６）。すなわち、重要度が１以上か否かを判
定する。重要度が１以上ならば（ＹＥＳ）、該単語が重
要であると判定し、重要単語として出力する（Ｓ３７）
。すなわち、入力例文の場合、”ｃｏｍｐａｎｉｅｓ”
　、”１ｎｖｅｓｔ”、”ｍｏｎｅｙ”、および、″が
出力される。一方、重要度が１未満ならば（Ｎｏ）、該
単語は重要ではないと判定し、次の単語を読む処理（Ｓ
３２）に戻る。単語が存在しない（Ｓ３２でＹＥＳ）な
らば、処理を終了する（ＥＮＤ）。

以上の処理によって、品詞情報を基に重要度を判定し、
文書を圧縮できる。

第４図は、第二の実施例の動作フローチャートと処理例
である。本実施例では、構文情報を使用して重要度を判
定し、文書を圧縮する。

同図（ａ　−１）は本実施例の動作フローチャート、同
図（ａ−２）はプログラム例、同図（ａ　−３）は処理
例である。

まず、入力文を読み込む（Ｓ４０）。ここでは、入力例
文を”シａｒｇｅ　ｃｏ＋ｍｐａｎｉｅｓ　ｏｆｔｅｎ
　１ｎｖｅｓｔ　ｅｘｔｒａ　ｍｏｎｅｙ　ｆｒｏｍ　
ｃｕｒｒｅｎｔ　ｐｒｏｆｉｔｓ、”とする。

次に、入力文を形態素解析で単語列に変換する（３４１
）。これによって、入力例文は“Ｌａｒｇｅ”、”　ｃ
ｏｍｐａｎｉｅｓ”、”ｏｆｔｅｎ”、”１ｎｖｅｓｔ
”、”ｅｘｔｒａ”、”ｍｏｎｅｙ”、′ｆｒＯＩ１１
”、”ｃｕｒｒｅｎｔ”、”Ｐｒｏｆｉｔｓ”の９単語
に分離される。各単語の品詞は、それぞれ、′″ＡＤＪ
″、Ｎ　ＰＬ”、”ＡＤＶ”、“Ｖｌｌ　、ｌ“ＡＤＪ
”　、“°Ｎ′、”ＰＲＦＰ（前置詞）”、”ＤＥＴ　
（限定詞）″、Ｎ″、“ＰＥＲＩＯＤ”である（同図（
ａ−３）の形態素解析部の出力）。

分離された単語列は、次に、構造認定部で構文解析処理
を施され、構文情報を付与され、構文木を構成する（Ｓ
４２）。これによって、入力例文の場合、”Ｌａｒｇｅ
”が”ｃｏｍｐａｎｉｅｓ”を修飾し、この２単語が名
詞句を構成していることが分かる。また、”ｃｕｒｒｅ
ｎｔ”が“ｐｒｏｆ　ｉ　ｔｓ”を限定して名詞句を、
それに“ｆｒｏｍ”が付いて前置詞句を、さらに、”ｅ
ｘｔｒａ”が“１ｏｎｅｙ”を修飾してこの２単語で名
詞句を、ｅｘｔｒａ　ｍｏｎｅｙ”の名詞句と”ｆｒｏ
ｍ　ｃｕｒｒｅｎｔ　ｐｒｏｆｉｔＳ”の前置詞句を合
わせて名詞句が構成されていることが分かる。また、動
詞”１ｎｖｅｓｔ”と“ｅｘｔｒａ　ａｎｏｎｅｙ　ｆ
ｒｏｖａ　ｃｕｒｒｅｎｔ　ｐｒｏｆｉｔｓ”の名詞句
が接続されて動詞句を構成し、“ｏｆｔｅｎ”がこの動
詞句を修飾して全体で動詞句を構成していることが分か
る。そして、Ｌａｒｇｅ　ｃｏｍｐａｎｉｅｓ”の名詞
句と、”ｏｆｔｅ　１ｎｖｅｓｔ　ｅｘｔｒａ　ｍｏｎ
ｅｙ　ｆｒｏｍ　ｃｕｒｒｅｎｔ　ｐｒｏｆｉｔｓ”の
動詞句、゛、”で文が構成されていることが処理によっ
て判定される（同図（ａ−３）の構造認定部の出力）。

次に、Ｓ４２の出力（同図（ａ−３）の構造認足部の出
力）の一つ一つの単語について重要度を判定する処理を
実行する（８４３〜５４６）。

まず、単語が存在するか否かを判定する（Ｓ４３）。存
在する場合（Ｎｏ）には、単語を一つ読む（Ｓ４４）。

そして単語の持つ構文構造を３４２の結果から調べる（
３４５）。同図（ａ−２）のプログラム例ではｃａｌｌ
　ｇｅｔｓｙｎｔａｘ（ＷＯＲＤ、　５ＹＮＴＡＸ）；
であり、ｇｅｔｓｙｎｔａｘのサブルーチンを実行する
ことによって単語ＷＯＲＤが属する構文木のノード情報
が変数５ＹＮＴＡＸ中に記述される。例えば、入力例文
の”Ｌａｒｇｅ”の場合には５ＹＮＴＡＸの情報は、名
詞句中の形容詞ノードということになる。

次に、この構文情報をもとに重要度を調べる（３４６）
。同図（ａ−２）のプログラム例では、ｃａｌｌ　ｇｅ
ｔｉｎｄｅｘ（ＳＹＮＴＡＸ、ＩＮＤＥＸ）；を実行す
る。

同図（ｂ）はサブルーチンｇｅｔｉｎｄｅｘ（ＳＹＮＴ
ＡＸ、　ＩＮＤＥＸ）の動作フローチャートとプログラ
ム例である。

まず、５ＹＮＴＡＸの情報のなかに文末の前置詞句（ｌ
ｐｒ）があるか否かを判定する（Ｓ４６−１）。存在す
る場合（ＹＥＳ）には重要度ＩＮＤＥＸ＝Ｏとしく５４
６−２）、サブルーチン処理を終了する。

文末の前置詞句が存在しない場合（ＮＯ）には、次に、
５ＹＮＴＡＸ中に名詞Ｎがあるか否かを判定する（３４
６−３）。存在する場合（ＹＥＳ）には、重要度ＩＮＤ
ＥＸ＝１としく５４６−４）、処理を終了する。存在し
ない場合（ＮＯ）には、次に５ＹＮＴＡＸ中に形容詞Ａ
ＤＪがあるか否かを判定する（Ｓ４６−５）。存在する
場合には、重要度ＩＮＤＥＸ＝０としく５４６−６）、
サブルーチン処理を終了する。

存在しない場合には、さらに５ＹＮＴＡＸ中の構文情報
を調べ、対応する重要度の値を変数ＩＮＤＥＸに入れる
。以上のように、考えられる形の構文についての重要度
を与えるプログラムを作成しておく。

ｇｅｔｉｎｄｅｘのサブルーチンを実行することによっ
て、入力例文に対しては、同図（ａ−３）の重要度判定
部の出力に示す重要度が与えられる。すなわち、”ｆｒ
ｏｔｘ　ｃｕｒｒｅｎｔ　ｐｒｏｆｉｔｓ”の各単語は
文末の前置詞句を構成する単語であるため、重要度は０
になる。そして、単語”ｃｏｍｐａｎｉｅｓ”　、”１
ｎｖｅｓｔ”、”ｍｏｎｅｙ″”に重要度１が与えられ
る。

次に、この重要度の大きさを判定する（３４７）。

重要度が１以上であるならば（ＹＥＳ）、その単語を重
要単語として出力する（３４Ｂ）。一方、重要度が１未
満であるならば（ＮＯ）、出力せずに、次の単語の処理
に移る（Ｓ４３）。すなわち、次の単語があるか否かの
判定処理に戻る。単語が存在しない場合には処理を終了
する（ＥＮＤ）。

入力例文の場合、圧縮結果は“ｃｏｍｐａｎｉｅｓ　ｉ
ｎｖｅｓｔｍｏｎｅｙ”となる。同一の入力例文を第一
の実施例の手法で処理した場合には、すべての名詞を重
要と見なし、文末の前置詞句“’ｆｒｏｍＰｒｏｆ　ｉ
ｔｓ”も重要であるとしてしまい、圧縮結果は”ｃｏｍ
ｐａｎｉｅｓ　１ｎｖｅｓｔ■ｏｎｅｙ　ｆｒｏ■ｐｒ
ｏｆｉｔｓ″になるはずである。このため、第二の実施
例のほうがよりきめ細かい圧縮結果を得られることにな
る。

第５図は、第三の実施例の動作フローチャートと処理例
である。本実施例は、品詞情報と単語の意味的情報を利
用して重要度を判定する。

同図（ａ−１）は本実施例の動作フローチャート、同図
（ａ−２）はプログラム例、同図（ａ　−３）は処理例
である。

まず、入力文を読み込む（Ｓ５０）。ここでは、入力例
文を”Ｈｏｗｅｖｅｒ、　ｒｉｖａｌ　ｃｏｍｐａｎｉ
ｅｓ　ｏｆｔｅｎ　１ｎｖｅｓｔ　ｍｏｒｅ　ｍｏｎｅ
ｙ、”　とする。

次に、入力文を形態素解析で単語列に変換する（Ｓ５１
）、これによって、入力例文は’Ｈｏｗｅｖｅｒ””、
”　、”ｒｉｖａｌ”、”ｃｏｍｐａｎｉｅｓ”　、”
ｏｆｔｅｎ”　、“１ｎｖｅｓｔ”、”　ｍ　ｏ　ｒｅ
　”、“ｍｏｎｅｙ”　、”、”の９単語に分離される
。各単語の品詞は、それぞれ、“ＡＤＶ”　、”ＣＯＭ
ＨＡ　（句読点）″、“ＡＤＪ”、”Ｎ　ＦＬ”、“’
ＡＤＶ”、“■”、”ＡＤＪ”　、”Ｎ”　、“ＰＥＲ
ＩＯＤ”である（同図（ａ−３）の形態素解析部の出力
）。

次に、３５１の出力の一つ一つの単語について重要度を
調べる処理を実行する（３５２〜５５６）。

まず、単語が存在するか否かを判定する（Ｓ５２）。存
在する場合（ＮＯ）には、単語を一つ読む（Ｓ５３）。

そして単語の品詞情報を調べる（３５４）。同図（ａ−
２）のプログラム例ではｃａｌｌ　ｇｅｔｈｉｎｓｉ（
ＷＯＲＤ、　ＨＩＮＳＩ）；であり、ｇｅｔｈｉｎｓｉ
のサブルーチンを実行することによって単語ＷＯＲＤの
品詞情報が変数旧ＮＳＩに記述される。例えば、入力例
文の”ｌｏｗｅｖｅｒ”の品詞は旧Ｎ５Ｉ＝ＡＤＶ　、
　”ｒｉｖａｌ”の場合は旧Ｎ５Ｉ＝ＡＤＪである。

次に、単語の意味情報を調べる（３５５）。同図（ａ−
２）のプログラム例ではｃａｌｌ　ｇｅｔｓｅｍａｎｔ
ｉｃ（ＷＯＲＤ、　ＳＥＭ）；であり、ｇｅｔｓｅｎ＋
ａｎｔｉｃのサブルーチンを実行することによって、単
語ＷＯＲＤの意味情報を単語辞書から検索され、その結
果が変数ＳＥＨに記述される。意味情報はすべての単語
について記述されているのではなく、意味的に重要な単
語にのみ付けられている。例えば、”ｈｏｌｌｌｅｖｅ
ｒ″°には”ｎｅｇａｔｉｏｎ（逆接）″、”ｒｉｖａ
ｌ”には”ｃｏｕｔｅｒ−ｓｅｎｓｅ（対照）″、”ｍ
ｏｒｅ”には”ｃｏｍｐａｒａｔｉｖｅ　（比較）”の
意味が付けられている。

Ｓ５５で単語の意味情報が抽出されたら、次に、品詞情
報と意味情報から重要度を調べる（３５６）。

同図（ａ−２）のプログラム例では、ｃａｌｌ　ｇｅｔ
ｉｎｄｅｘ（ＨＩＮＳＩ、ＳＦＡ、　ＩＮＤＥＸ）　；
を実行する。

同図（ｂ）はサブルーチンｇｅｔｉｎｄｅｘ（ＨＩＮＳ
Ｉ、ＳＥＭ、　ＩＮＤＥＸ）の動作フローチャートとプ
ログラム例である。

まず、ＨＩＮＳＩがＡＤＪ　（形容詞）か否かを判定す
る（Ｓ５６−１）。形容詞である場合には（ＹＥＳ）、
その単語が特定の意味、すなわち対照（ｃｏ’ｕｔｅｒ
−ｓｅｎｓｅ）あるいは比較（ｃｏｍｐａｒａｔｉｖｅ
）を示す意味をもつか否かを判定する（Ｓ５６−２）。

特定の意味がある場合（ＹＥＳ）には重要度ＩＮＤＥＸ
＝１としく３５６−３）、特定の意味がない場合（Ｎｏ
）には重要度ＩＮＤＥＸ＝Ｏとしく５５６−４）、サブ
ルーチンの処理を終了する。

該単語の品詞が形容詞でない場合（Ｓ５６−１のＮｏ）
には、次に該単語の品詞がＮ（名詞）か否かを判定する
（Ｓ５６−５）。そして、品詞と意味情報の種類によっ
て重要度ＩＮＤＥＸに値を与える。

ｇｅｔｉｎｄｅｘのサブルーチンを実行することによっ
て、入力例文に対しては、同図（ａ−３）の重要度判定
部の出力に示す重要度が与えられる。すなわち、副詞の
なかでも特定の婁味”ｎｅｇａ　ｔ　ｉｏｎ　（逆接）
″をもつ単語゛Ｈｏｗｅｖｅｒ”の重要度はｌとし、特
定の意味を持たない副詞“ｏｆｔｅｎ″の重要度は０と
する。

次に、３５６で得られた重要度ＩＮＤＥＸの値の大きさ
を判定する（３５７）。重要度が１以上の場合（ＹＥＳ
）には、その単語が重要であると判断し、重要単語とし
て出力する（Ｓ５８）、一方、重要度が１未満の場合（
ＮＯ）には、その単語は重要でないと判断し、次の単語
の処理に移る（Ｓ５２）。Ｓ５２で単語がもう存在しな
いと判定されたとき（ＹＥＳ）には、処理を終了する（
ＥＮＤ）。

この処理の結果、入力例文の場合には、“Ｈｏ１Ｉｌｅ
ｖｅｒ　ｒｉｖａｌ　ｃｏｍｐａｎｉｅｓ　１ｎｖｅｓ
ｔ　ｍｏｒｅ　ｍｏｎｅｙ”の単語が圧縮結果として出
力される。本実施例では、品詞情報のみを使用する第一
の実施例と比較して、重要な意味をもつ単語を形容詞や
副詞の場合でも落とすことなく抽出できるので、きめ細
かい圧縮が可能になる。

第６図は、第四の実施例の動作フローチャートと処理例
である０本実施例では、構文情報と意味情報を使用して
重要度を判定し、文書を圧縮する。

まず、入力文を読み込む（Ｓ６０）。ここでは、入力例
文を１″）Ｉｏｗｅｖｅｒ、　ｒｉｖａｌ　ｃｏｍｐａ
ｎｉｅｓ　ｏｆｔｅｎ　１ｎｖｅｓｔ　ｍｏｒｅ　＋ｎ
ｏｎｅｙ　ｆｒｏｍ　ｃｕｒｒｅｎｔ　ｐｒｏｆｉｔｓ
、”とする。

次に、入力文を形態素解析で単語列に変換する（Ｓ６１
）、これによって、入力例文は’Ｈｏｗｅｖｅｒ”、“
＋　”　、”ｒｔｖａｌ”、”　ｃｏｍｐａｎｉｅｓ”
、”ｏｆｔｅｎ”　、”１ｎｖｅｓｔ”、”ｍｏｒｅ”
、”ｍｏｎｅｙ”、ｆｒＯＩＩｌ′１“ｃｕｒｒｅｎｔ
”、“’ｐｒｏｆｉｔｓ”　、“′、”の１２単語に分
離される。各単語の品詞は、それぞれ、ＡＤＶ”、”Ｃ
ＯＭＭＡ″’　、”ＡＤＪ”　、”Ｎ　ＦＬ”、”ＡＤ
Ｖ”、■”、”ＡＤＪ’　、”Ｎ”、”ＰＲＥＰ（前置
詞）”、”ＤＥＴ　（限定側）”、ＩＩＮ”、”ＰＥＲ
ＩＯＤ”である（同図（ａ−３）の形態素解析部の出力
）。

分離された単語列は、次に、構造認定部で構文解析処理
を施され、構文情報を付与され、構文木を構成する（Ｓ
６２）。これによって、入力例文の場合、”ｒｉｖａｌ
″が“ｃｏｍｐａｎｉｅｓ”を修飾し、この２単語が名
詞句を構成していることが分かる。また、“ｃｕｒｒｅ
ｎｔ”が”ｐｒｏｆｉｔｓ”を限定して名詞句を、それ
に’ｆｒｏｍ”が付いて前置詞句を、さらに、”ｍｏｒ
ｅ”が°’ｍｏｎｅｙ”を修飾してこの２単語で名詞句
を、”ｍｏｒｅ　ｍｏｎｅｙ”の名詞句と”ｆｒｏｍ　
ｃｕｒｒｅｎｔ　ｐｒｏｆｉｔｓ”の前置詞句を合わせ
て名詞句が構成されていることが分かる。また、動詞”
１ｎｖｅｓｔ”と“ｍｏｒｅ　ｍｏｎｅｙｆｒｏｍ　ｃ
ｕｒｒｅｎｔ　ｐｒｏｆｉｔｓ”の名詞句が接続されて
動詞句を構成し、“’ｏｆ　ｔｅｎ”がこの動詞句を修
飾して全体で動詞句を構成していることが分かる。そし
て、”Ｈｏｗｅｖｅｒ”の副詞句と、”ｒｉｖａｌ　ｃ
ｏｍｐａｎｉｅｓ”の名詞句、ｏｆｔｅｎ　１ｎｖｅｓ
ｔ　ｍｏｒｅ　ｍｏｎｅｙ　ｆｒｏｍ　ｃｕｒｒｅｎｔ
　ｐｒｏｆｉｔｓ”の動詞句、、ｎで文が構成されてい
ることが処理によって判定される（同図（ａ−３）の構
造認定部の出力）。

次に、Ｓ６２の出力（同図（ａ−３）の構造認定部の出
力）の一つ一つの単語について重要度を判定する処理を
実行する（８６３〜５６７）。

まず、単語が存在するか否かを判定する（Ｓ６３）。存
在する場合（Ｎｏ）には、単語を一つ読む（Ｓ６４）。

そして単語の持つ構文構造をＳ６２の結果から調べる（
３６５）。同図（ａ−２）のプログラム例ではｃａｌｌ
　ｇｅｔｓｙｎｔａｘ（ＷＯＲＤ、　５ＹＮＴＡＸ）；
であり、ｇｅｔｓｙｎｔａｘのサブルーチンを実行する
ことによって単語ＷＯＲＤが属する構文木のノード情報
が変数５ＹＮＴＡＸ中に記述される。例えば、入力例文
の’ｒｉｖａｌ”の場合には５ＹＮＴＡＸの情報は、名
詞句中の形容詞ノードということになる。

次に、単語の意味情報を調べる（Ｓ６６）。同図（ａ−
２）のプログラム例ではｃａｌｌ　ｇｅｔｓｅｍａｎｔ
ｉｃ（ＷＯＲＤ、　ＳＥＭ）；であり、ｇｅｔｓｅｍａ
ｎｔｉｃのサブルーチンを実行することによって、単語
ＷＯＲＤの意味情報を単語辞書から検索され、その結果
が変数ＳＥＨに記述される。例えば、”ｈｏｗｅｖｅｒ
”には”ｎｅｇａｔｉ。

ｎ（逆接）″、”ｒｉｖａｌ”には”ｃｏｕｔｅｒ−ｓ
ｅｎｓｅ　（対照）″、”ｎ＋ｏｒｅ″には１１ｃｏｍ
ｐａｒａｔｉｖｅ　（比較）＋＋の意味が付けられてい
る。

Ｓ６６で単語の意味情報が抽出されたら、Ｓ６５で抽出
した構文情報と合わせて、重要度を調べる（Ｓ６７）。

同図（ａ−２）のプログラム例では、ｃａｌｌ　ｇｅｔ
ｉｎｄｅｘ（ＳＹＮＴＡＸ、ＳＥＭ、ＩＮＤＥＸ）；を
実行する。

同図（ｂ）はサブルーチンｇｅｔ　１ｎｄｅｘ　（ＳＹ
ＮＴＡＸ　、　ＳＥＭ、　ＩＮＤＥＸ）の動作フローチ
ャートとプログラム例である。

まず、調べる単語の５ＹＮＴＡＸに文末の前置詞（Ｉｐ
ｒ）が存在するか否かを判定する（Ｓ６７−１）。そし
て、存在する場合（ＹＥＳ）には重要度ＩＮＤＥＸ＝０
としく３６７−２）、サブルーチン処理を終了する（Ｅ
ＮＤ）。一方、存在しない場合（Ｎｏ）には、次に、５
ＹＮＴＡＸ中に名詞（Ｎ）が存在するか否かを判定する
（Ｓ６７−３）。名詞が存在する場合（ＹＥＳ）には、
重要度ＩＮＤＥＸ＝１としく５６７−４）、処理を終了
する（ＥＮＤ）。存在しない場合（ＮＯ）には、次に、
５ＹＮＴＡＸ中に副詞（ＡＤＶ）が存在するか否かを判
定する（Ｓ６７−５）。存在する場合には（ＹＥＳ）、
その副詞に特定の意味があるか、例えば、ＳＥＭ＝逆接
（ｎｅｇａｔｉｏｎ）か否かを判定する。特定の意味が
ある場合（ＹＥＳ）には、ＩＮＤＥＸ＝１としく５６７
−７）、特定の意味がない場合（Ｎｏ）にはＩ　ＮＤＥ
Ｘ＝Ｏとしく５６７−８〕、処理を終了する（ＥＮＤ）
。

一方、５ＹＮＴＡＸ中に副詞（ＡＤＶ）が存在しない場
合（Ｓ６７−５＋７）Ｎｏ）　には、次に、５ＹＮＴＡ
Ｘ中に形容詞（ＡＤＪ）が存在するか否がを判定する（
３６７−９）、存在する場合には、その単語の意味ＳＥ
Ｈに特定の意味があるか否か、例えば、ＳＥＭ＝ｃｏｕ
ｔｅｒ−ｓｅｎｓｅあるいはＳＥＭ＝ｃｏｍｐａｒａｔ
ｉｖｅが否がを判定する（３６７−１０）。そして、特
定の意味がある場合（ＹＥＳ）にはＩＮＤＥＸ＝１　ト
Ｌ　（Ｓ　６７−１１　）、特定の意味がない場合（Ｎ
Ｏ）にはＩＮＤＥＸ＝Ｏとしく３６７−１２）、処理を
終了する（ＥＮＤ）。

このように、すべての構文情報について、重要度を与え
るプログラムを実行し、サブルーチン処理を終了する。

ｇｅｔｉｎｄｅｘのサブルーチンを実行することによっ
て、入力例文に対しては、同図（ａ−３）の重要度判定
部の出力に示す重要度が与えられる。すなわち、副詞の
なかでも特定の意味、逆接（ｎｅｇａｔｉ。

ｎ）をもつ単語“Ｈｏｗｅｖｅｒ”　、および、対照（
ｃｏｕｎｔｅｒ−ｓｅｎｓｅ　）の意味をもつ形容詞”
ｒｉｖａｌ”、名詞“ｃｏ膳ｐａｎｉｅｓ”、動詞“１
ｎｖｅｓｔ”、比較（ｃｏｍｐａｒａｔｉｖｅ）の意味
をもつ形容詞”ｍｏｒｅ”、名詞”Ｈｏｎｅｙ”・ピリ
オドＩＩ　、　Ｉ＋の重要度が１となる。

次に、この重要度の大きさを判定する（３６８）。

重要度が１以上であるならば（ＹＥＳ）、その単語を重
要単語として出力する（Ｓ６９）。一方、重要度が１未
満であるならば（Ｎｏ）、出力せずに、次の単語の処理
に移る（Ｓ６３）。すなわち、次の単語があるか否かの
判定処理に戻る。単語が存在しない場合には処理を終了
する（ＥＮＤ）。

入力例文の場合、圧縮結果は’Ｈｏｗｅｖｅｒ　ｒｉｖ
ａｌ　ｃｏｍｐａｎｉｅｓ　１ｎｖｅｓｔ　ｔａｏｒｅ
　ｍｏｎｅｙ、”となる。

〔発明の効果〕

本発明によって、原文の情報を重要な情報だけに圧縮す
ることが可能になる。また、本発明では、単語の品詞情
報や構文情報、簡単な意味情報だけに着目して処理を行
なうので、辞書中に複雑な意味情報を用意する必要がな
く、システム構築もや管理も用意であり、また、処理時
間も短くてすむ。

また、圧縮文章に必要なきめ細かさに応じて、品詞情報
のみ、あるいは構文情報のみ、あるいは意味情報を併用
するといったシステム構築が簡単にできる。

【図面の簡単な説明】

第１図は本発明の機能ブロック図、第２図は一実施例のシステム構成図、第３図は一実施例の動作フローチャートと処理例、第４図は第二の実施例の動作フローチャートと処理例、第５図は第三の実施例の動作フローチャートと処理例、第６図は第四の実施例の動作フローチャートと処理例で
ある。工・・・入力文書、２・・・出力文書、３・・・文章圧縮装置、４・・・単語辞書、５・・・形態素解析手段、６・・・構造認定手段、７・・・重要性判定手段、８・・・圧縮手段。

Claims

【特許請求の範囲】１）入力文書（１）を圧縮して圧縮文書（２）として出
力する文章圧縮装置（３）において、入力文書（１）の
文章を単語辞書（４）を検索して複数の単語に分割する
形態素解析手段（５）と、前記形態素解析手段（５）によって分離した単語につい
て、該単語の構文要素を単語辞書（４）を検索して抽出
し、名詞句あるいは動詞句といった文章の構造を認定す
る構造認定手段（６）と、前記形態素解析手段（５）に
よって抽出した品詞情報、前記構造認定手段（６）によ
って認定した構文要素、単語辞書（４）に記載されてい
る意味情報の少なくとも一つの情報を基に、該単語の重
要度を判定する重要性判定手段（７）と、前記重要性判
定手段（７）が判定した該単語の重要度を、前もって定
めた重要度のしきい値と比較し、重要度がしきい値より
も低ければ該単語が重要ではないと判断し、入力文書（
１）の文章から該単語を削除し、重要度がしきい値より
も高ければ該単語が重要であると判断して圧縮文書（２
）として出力する圧縮手段（８）とを有することを特徴
とする文章圧縮装置。２）前記形態素解析手段（５）は
、入力文書（１）を構成する単語に分離するとともに、
分離した各単語の品詞情報を抽出する請求項１記載の文
章圧縮装置。３）前記重要性判定手段（７）は、前記形態素解析手段
（５）によって抽出した品詞情報だけを使用して該単語
の重要度を判定する請求項１記載の文章圧縮装置。４）前記重要性判定手段（７）は、前記構造認定手段（
６）によって抽出した構文要素を使用して該単語の重要
性を判定する請求項１記載の文章圧縮装置。５）前記重要性判定手段（７）は、前記形態素解析手段
（５）によって抽出した品詞情報と、該単語について単
語辞書（４）に記載されている否定、数量等の意味的情
報を使用し、該単語の重要性を判定する請求項１記載の
文章圧縮装置。６）前記重要性判定手段（７）は、前記構造認定手段（
６）によって抽出した構文要素と、該単語について単語
辞書（４）に記載されている否定、数量等の意味的情報
を使用し、該単語の重要性を判定する請求項１記載の文
章圧縮装置。