JPH03252858A

JPH03252858A - 日本語長文検出装置

Info

Publication number: JPH03252858A
Application number: JP2051482A
Authority: JP
Inventors: Eiji Takeishi; 武石　英二; Yoshihiko Hayashi; 良彦林
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1990-03-02
Filing date: 1990-03-02
Publication date: 1991-11-12

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、日本語文書処理装置に係り、特に、入力され
た日本語文書中から自動的に長文を検出する日本語長文
検出装置に関するものである。

〔従来技術〕

従来の日本語長文検出に関する技術は、主に文の可読性
評価の観点から検討されてきた（例えば建石、小野、山
田；日本文の読み易さの評価式。

情報処理学会文書処理とヒユーマンインタフェース研究
会１９８８）、その代表的なものは、文の文字数、文を
構成する文字種（漢字、仮名、カタカナ）の頻度とその
連なりの長さ及び句読点位置等の字面レベルの情報を、
読み易いと読みにくい文章とで統計的に比較することに
よって文の可読性の評価関数を求め、これを基に日本文
の可読性の評価を行うというものである。

〔発明が解決しようとする課題〕

しかしながら、前記従来技術においては、文を評価する
際に、字面レベルの情報のみを用いるため、交円におけ
る修飾構造の複雑さを評価することができないという問
題があった。このために、日本語長文検出装置において
、日本語文書中から自動的に文の構造を主たる原因とす
る長文を検出することができないことが多いという問題
があった。

本発明は、前記問題点を解決するためになされたもので
ある。

本発明の目的は、日本語長文検出装置において、日本語
文書中から簡易に自動的に長文を検出することができる
技術を提供することにある。

本発明の目的は、前記のような字面レベルの情報だけに
よる文評価装置の機能を補うものとして。

入力文を構成する文節を文節タイプに分類し、パラメー
タ値を算出し、パラメータ重みテーブルのデータを参照
して長文を検出することが可能な日本語長文検出装置を
提供することにある。

本発明の前記ならびにその他の目的と新規な特徴は、本
明細書の記述及び添付図面によって明らかになるであろ
う。

〔課題を解決するための手段〕

前記目的を遠戚するために、本発明の日本語長文検出装
置においては、入力文を構成する文節の自立語の品詞、
活用形及び付属語の字面を文節タイプ辞書と照合するこ
とによって、文節を文節タイプに分類し、該入力文の文
節タイプ列からパラメータ値を算出する文節タイプ解析
手段、データ登録モードか検出モードか及び検出モード
の場合の多義数しきい値を登録するモード設定テーブル
、パラメータ重みを更新するためにパラメータ値及び係
り受は解析の多義数を登録するパラメータ値管理テーブ
ル、パラメータ値管理テーブルを用いてパラメータの重
みを更新するパラメータ重み更新手段、前記パラメータ
重み更新手段で更新したパラメータの重みを登録するパ
ラメータ重みテーブル、前記文節タイプ解析部の結果と
前記パラメータ重みテーブルの登録データから多義数の
近似値を算出し、この多義数近似値と前記モード設定テ
ーブルの多義数しきい値から長文を検出する長文検出手
段を備えたことを最も主要な特徴とする。

〔作用〕

前述の手段によれば、多義数しきい値、モード設定情報
及び入力日本文を形態素解析した結果を入力し、まず、
文節タイプ辞書との照合を行い、文節タイプ列を作威し
、パラメータ値を算出する。

前記モード設定情報が登録モードの場合には、形態素解
析した結果を係り受は解析手段において係り受は解析し
、係り受は解析における多義数を取得し、１文ごとのパ
ラメータ値、多義数を登録しタハラメータ値管理テーブ
ルへ前記パラメータ値と多義数を追加登録し、統計処理
計算手段において、更新された前記パラメータ値管理テ
ーブルからパラメータ重みを算出し、パラメータ重みテ
ーブルのデータを更新する。前記モード設定情報が検出
モードの場合には、長文検出手段において前記パラメー
タ値と前記パラメータ重みテーブルのデータから多義数
の近似値を算出し、前記モード設定テーブル中の多義数
しきい値と比較することによって長文を検出する。

〔実施例〕

以下１本発明の一実施例を図面を用いて具体的に説明す
る。

第１図は、本発明の日本語長文検出装置の一実施例の概
略構成を示すブロック図である。

本実施例の日本語長文検出装置は、第１図に示すように
、入力部１、文節タイプ解析部２、長文検出部３、モー
ド設定テーブル４、文節タイプ辞書６、パラメータ重み
更新部６、パラメータ重みテーブル７、パラメータ値管
理テーブル８、係り受は解析部９．統計処理計算部１０
より構成される。

前記文節タイプ辞書５は、文節タイプごとにその文節タ
イプに該当する文節の自立語品詞、自立語活用形、付属
語字面を予め登録した辞書であり、パラメータ値管理テ
ーブル８は、それまでに処理した文の各パラメータ値、
多義数を登録しておくテーブルである。

入力部１からは、該日本語長文検出装置の動作モードを
決定するモード情報及び処理対象の日本語文に対して、
形態素解析の処理済み文が入力されるものとする。モー
ド情報はデータ登録モードか検出モードか及び検出モー
ドの場合の多義数しきい値からなるものとする。

形態素解析は、漢字と仮名でべた書きされた日本語文に
対して、単語単位への分割を行う処理であり、この処理
の過程で同時に文節も認定される。

例として、′これからファクシミリ（ＦＡＸ）でこの説
明書を送ります、′について、単語分割及び文節認定を
示すと、第２Ａ図のようになる。

ここで、第２Ａ図及び第２Ｂ図は、形態素解析及び係り
受は解析を説明するための図であり、第２Ａ図は形態素
解析の一例を示し、第２Ｂ図は係り受は解析の一例を示
す図である。

通常、日本語文書処理システムには、形態素解析の処理
機能が具備されており、その形態素解析結果とモード情
報が入力部１から入力される。入力されたモード情報は
モード設定テーブル４へ登録される。

文節タイプ解析部２では、入力文を構成する各文節と文
節タイプ辞書５との照合を行い、入力文の文節タイプ列
を生成し、次に述べるパラメータ値算出処理を用いてパ
ラメータ値を算出する。

ここで、パラメータ値算出処理について説明する。

文節タイプ辞書５のレコードの概念図を第３図に示し１
文節タイプ列をＳとし、この文節タイプ列Ｓに含まれる
文節タイプの偶数をｍとしたときのパラメータｘ１、ｘ
２．ｘ３の値の算出処理のフローチャートを第４Ａ図、
第４Ｂ図、第４Ｃ図に示す、ここで、第４Ａ図、第４Ｂ
図、第４Ｃ図に示すフローチャートの説明は、各図を見
れば理解できるであろうから省略する。

また、ｘ４の値の算出アルゴリズムは、文節タイプ列Ｓ
の中で４と一致するものの偶数をｘ４とする。

ｘ５については、文節タイプ列Ｓから算出するのではな
く、入力の文節数をｘ５の値とする。

前記パラメータｘ１の値の算出アルゴリズムを具体的に
示すと以下の通りである。

タイプ１またはタイプ１′の文節から始まりタイプ１、
タイプ１′以外の文節が現れるまでの文節タイプ列のこ
とをタイプ１連、タイプ１連に含まれる文節タイプの偶
数をタイプ１連の長さと呼ぶ０例えば、文節タイプ列Ｓ
が、（２，１，１’　　１，２．４）のとき、（１，１’　、１．２）がタイプ１連であり、
その長さは４である。第４Ａ図に示すフローチャートで
算出されるｘｉの値は、タイプ１を少なくとも１つ含む
タイプ１連の長さの和である。

前記第１図に示す長文検出部３では、前記モード設定テ
ーブル４の値が検出モードの際に、前記パラメータ値と
パラメータ重みテーブル７に登録済みのパラメータ重み
の値から多義数の近似値を算出し、モード設定テーブル
４に登録された多義数しきい値を超えた場合に入力文を
長文として検出し処理を終了する。

パラメータ重み更新部６では、前記モード設定テーブル
４の値が登録モードの際に、入力文を係り受は解析部で
係り受は解析し、その多義数と前記パラメータ値をパラ
メータ管理テーブル８に追加登録し、登録更新されたパ
ラメータ値管理テーブル８から統計処理計算部１０でパ
ラメータ重みを算出し、パラメータ重みテーブル７に登
録済みのパラメータ重みを更新し、処理を終了する。

係り受は解析は、形態素解析で得られた単語分割及び文
節の情報を基に、二つの文節間の修飾関係（係り受は関
係）を解析し、文全体の可能な構造を全て求める処理で
ある０例として、′これからＦＡＸでこの説明書を送り
ます、′について、文節間の修飾関係を示すと第２Ｂ図
のようになる。

通常、日本語文書処理システムには、このような係り受
は解析の処理機能が具備されている。

統計処理計算は、パラメータ値を説明変数、多義数を目
的変数として最小二乗法によってパラメータの重みを算
出する処理である１通常、汎用計算機のソフトウェアと
して、このような統計処理ソフトウェアを利用すること
が可能である。

以下、具体例について説明する。ここで、処理対象の日
本語文を次の文とする。

ｒＮＴＴは、パソコン上で文書の誤字や脱字をチエツク
し、その場で修正や訂正候補の選択ができる画期的な文
書推敲支援システムを開発し、社内での試用を検討して
いる。」入力部１では、この対象文について、形態素解析の行わ
れた内容を入力し、文節タイプ解析部２へ転送すると共
に、モード情報を入力し、モード設定テーブル４へ書き
込む、第５Ａ図は、当該入力文に対する形態素解析の結
果の概要を示したものである。

文節タイプ解析部２では、入力文を構成する文節単位に
次の処理を行い１文節タイプ列を生成する０文節の自立
語品詞、自立語活用形、付属語字面をキーとして、文節
タイプ辞書６のいずれの文節タイプとマツチするかをチ
エツクする。マツチする文節タイプが存在すれば、この
文節タイプを文節タイプ列に加える。第５Ｂ図に第５Ａ
図に示した本対象文に対する文節タイプ列を示す０例え
ば“ＮＴＴは”は、自立語が“名詞”付属部最尾単語が
“は”であるので、第３図の文節タイプ辞書中の文節タ
イプ２の自立語条件、付属語最尾単条件とマツチするの
で、タイプ２となる。

この文節列から第４Ａ図、第４Ｂ図、第４Ｃ図に示した
パラメータ値の算出処理のフローチャートに基き、パラ
メータ値を算出する。

第５Ｃ図は、第５Ａ図に示した本対象文に対するパラメ
ータ値の算出結果である０例えば、パラメータｘｌの値
については、第５Ｂ図に示した文節タイプ列中に、（１
，１’　、２）、（１’　、１゜２）、（１，２）の３
つのタイプ１列があり、これらはどれも文節タイプ１を
含んでいるので、これらタイプ１列の長さを合計して、
３＋３＋２＝８がｘｌの値となる。

前記モード設定テーブル４の値が検出モードの場合は、
前記パラメータ値は、長文検出部３へ転送される。処理
モードが検出モードであり、かつ多義数しきい値が５の
場合のモード設定テーブル４の概念図を第６Ａ図に示す
。

長文検出部３では、文節タイプ解析部２で算出されたパ
ラメータ値とパラメータ重みテーブル７に登録済のパラ
メータ重みの積の総和を算出し、モード設定テーブル４
内の多義数しきい値を超えた場合、長文検出メツセージ
を出力し１、処理を終了する。多義数しきい値を超えな
い場合には、そのまま処理を終了する。

第７図にパラメータ重みテーブル７の概念図を示し、第
５Ｄ図に第５Ｃ図の本対象文のパラメータ値と第７図の
パラメータ重みから多義数近似値を算出した例を示す。

前記モード設定テーブル４の値が登録モードの場合は、
入力部１に入力された入力文と前記パラメータ値はパラ
メータ重み更新部６へ転送される。

登録モードの場合のモード設定テーブル４の概念図を第
６Ｂ図に示す。

パラメータ重み更新部６では、入力文を係り受は解析部
９へ転送し、係り受は解析の結果を得て、文節タイプ解
析部で算出したパラメータ値及びこの係り受は解析の結
果の多義数をパラメータ値管理テーブル８へ追加登録を
行う、この登録更新されたパラメータ値管理テーブル８
を統計処理計算部１０へ転送し、パラメータ重みの算出
結果を得て。

パラメータ重みテーブル７の登録内容を書き換え、処理
を終了する。

第８Ａ図、第８Ｂ図、第８Ｃ図に本対象文に対する係り
受は解析の結果の概要を示す。第８Ａ図、第８Ｂ図、第
８Ｃ図において、各枠内が多義の一つ一つを示しており
、本対象文では多義数が１２であることを示している。

また、第９Ａ図にｎ文分のデータを登録後のパラメータ
値管理テーブル８の概念図を示し、第９Ｂ図に第ｎ＋１
文のデータとして本対象文のパラメータ値、多義数登録
後のパラメータ値管理テーブル８の概念図を示す。

以上、本発明を実施例にもとづき具体的に説明したが、
本発明は、前記実施例に限定されるものではなく、その
要旨を逸脱しない範囲において種々変更可能であること
は言うまでもない。

〔発明の効果〕以上、説明したように、本発明によれば、入力文を構成
する文節を文節タイプに分類し、パラメータ値を算出し
、パラメータ重みテーブルのデータを参照して長文を検
出することことにより、日本語文書中の複雑な構造をも
った文を、構文解析レベルの深い解析を行わずに検出す
ることができるので１日本語文書中から簡易に自動的に
長文を検出することができる。

また、パラメータ重み更新部を具備することによって、
日本文の解析系の変更、機能強化に柔軟に対応すること
ができる。

また、従来の日本文評価技術と組み合わせて使用するこ
とによって、より高精度な日本語長文検出装置を実現す
ることができる。

例えば、本発明の日本語長文検出装置の有効性を確認す
るために多義数しきい値を５．パラメータ値管理テーブ
ルの大きさを５６７文分のデータに固定して、長文の検
出精度の測定を行った結果は次の通りであった。

長文（多義数６以上）を正しく判定したもの・・・２６
３／２９６　（文／文）［８８，９％］非長文（多義数
５以下）を正しく判定したもの・・・４４７／６３６　
（文／文）［７５，０％］以上のことからも、本発明の
日本語長文検出装置を利用することにより、設定した多
義数を超える文の検出が有効に行えることが雇解される
であろう。

【図面の簡単な説明】

第１図は、本発明の日本語長文検出装置の一実施例の概
略構成を示すブロック図。第２Ａ図及び第２Ｂ図は、形態素解析、係り受は解析を
説明する図、第３図は、文節タイプ辞書のレコードの概念図。第４Ａ図、第４Ｂ図及び第４Ｃ図は、パラメータ値の算
出処理を説明するためのフローチャート。第５Ａ図、第５Ｂ図、第５Ｃ図及び第５Ｄ図は、処理対
象文例の形態素解析、文節タイプ解析、多義数近似の算
出の結果の概要を示す図、第６Ａ図及び第６Ｂ図は、モ
ード設定テーブルの概念図、第７図は、パラメータ重みテーブルの概念図。第８Ａ図、第８Ｂ図及び第８Ｃ図は、処理対象文例の係
り受は解析の結果の概要を示す図、第９Ａ図及び第９Ｂ
図は、パラメータ値管理テーブルの処理対象文例に対す
る処理前後の概念図である。図中、ｌ・・・入力部、２・・・文節タイプ解析部、３
・・・長文検出部、４・・・モード設定テーブル、５・
・・文節タイプ辞書、６・・・パラメータ重み更新部、
７・・・パラメータ重みテーブル、８・・・パラメータ
値管理テーブル、９・・・係り受は解析部、１０・・・
統計処理計算部、　１１・・・日本語長文検出装置。第２Ａ図

Claims

【特許請求の範囲】

日本文を入力して処理する文書処理システムにおいて、
文節タイプを予め登録してある文節タイプ辞書と、パラ
メータ情報を予め登録してあるパラメータ値管理テーブ
ルと、パラメータ重みを予め登録してあるパラメータ重
みテーブルと、処理モード及び解析の多義数のしきい値
を登録するモード設定テーブルと、前記日本文中の文節
と前記文節タイプ辞書を照合し、文節タイプ列を生成し
、パラメータ値を算出する文節タイプ解析と、前記パラ
メータ値と前記パラメータ重みテーブルから多義数近似
値を算出し、前記多義数のしきい値と比較することによ
って長文検出する長文検出手段と、前記パラメータ値管
理テーブル及び前記パラメータ重みテーブルの登録内容
を追加、更新するパラメータ重み更新手段を備えたこと
を特徴とする日本語長文検出装置。