JPH03252858A - 日本語長文検出装置 - Google Patents

日本語長文検出装置

Info

Publication number
JPH03252858A
JPH03252858A JP2051482A JP5148290A JPH03252858A JP H03252858 A JPH03252858 A JP H03252858A JP 2051482 A JP2051482 A JP 2051482A JP 5148290 A JP5148290 A JP 5148290A JP H03252858 A JPH03252858 A JP H03252858A
Authority
JP
Japan
Prior art keywords
parameter
sentence
registered
long
parameter value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2051482A
Other languages
English (en)
Inventor
Eiji Takeishi
武石 英二
Yoshihiko Hayashi
良彦 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2051482A priority Critical patent/JPH03252858A/ja
Publication of JPH03252858A publication Critical patent/JPH03252858A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、日本語文書処理装置に係り、特に、入力され
た日本語文書中から自動的に長文を検出する日本語長文
検出装置に関するものである。
〔従来技術〕
従来の日本語長文検出に関する技術は、主に文の可読性
評価の観点から検討されてきた(例えば建石、小野、山
田;日本文の読み易さの評価式。
情報処理学会文書処理とヒユーマンインタフェース研究
会1988)、その代表的なものは、文の文字数、文を
構成する文字種(漢字、仮名、カタカナ)の頻度とその
連なりの長さ及び句読点位置等の字面レベルの情報を、
読み易いと読みにくい文章とで統計的に比較することに
よって文の可読性の評価関数を求め、これを基に日本文
の可読性の評価を行うというものである。
〔発明が解決しようとする課題〕
しかしながら、前記従来技術においては、文を評価する
際に、字面レベルの情報のみを用いるため、交円におけ
る修飾構造の複雑さを評価することができないという問
題があった。このために、日本語長文検出装置において
、日本語文書中から自動的に文の構造を主たる原因とす
る長文を検出することができないことが多いという問題
があった。
本発明は、前記問題点を解決するためになされたもので
ある。
本発明の目的は、日本語長文検出装置において、日本語
文書中から簡易に自動的に長文を検出することができる
技術を提供することにある。
本発明の目的は、前記のような字面レベルの情報だけに
よる文評価装置の機能を補うものとして。
入力文を構成する文節を文節タイプに分類し、パラメー
タ値を算出し、パラメータ重みテーブルのデータを参照
して長文を検出することが可能な日本語長文検出装置を
提供することにある。
本発明の前記ならびにその他の目的と新規な特徴は、本
明細書の記述及び添付図面によって明らかになるであろ
う。
〔課題を解決するための手段〕
前記目的を遠戚するために、本発明の日本語長文検出装
置においては、入力文を構成する文節の自立語の品詞、
活用形及び付属語の字面を文節タイプ辞書と照合するこ
とによって、文節を文節タイプに分類し、該入力文の文
節タイプ列からパラメータ値を算出する文節タイプ解析
手段、データ登録モードか検出モードか及び検出モード
の場合の多義数しきい値を登録するモード設定テーブル
、パラメータ重みを更新するためにパラメータ値及び係
り受は解析の多義数を登録するパラメータ値管理テーブ
ル、パラメータ値管理テーブルを用いてパラメータの重
みを更新するパラメータ重み更新手段、前記パラメータ
重み更新手段で更新したパラメータの重みを登録するパ
ラメータ重みテーブル、前記文節タイプ解析部の結果と
前記パラメータ重みテーブルの登録データから多義数の
近似値を算出し、この多義数近似値と前記モード設定テ
ーブルの多義数しきい値から長文を検出する長文検出手
段を備えたことを最も主要な特徴とする。
〔作用〕
前述の手段によれば、多義数しきい値、モード設定情報
及び入力日本文を形態素解析した結果を入力し、まず、
文節タイプ辞書との照合を行い、文節タイプ列を作威し
、パラメータ値を算出する。
前記モード設定情報が登録モードの場合には、形態素解
析した結果を係り受は解析手段において係り受は解析し
、係り受は解析における多義数を取得し、1文ごとのパ
ラメータ値、多義数を登録しタハラメータ値管理テーブ
ルへ前記パラメータ値と多義数を追加登録し、統計処理
計算手段において、更新された前記パラメータ値管理テ
ーブルからパラメータ重みを算出し、パラメータ重みテ
ーブルのデータを更新する。前記モード設定情報が検出
モードの場合には、長文検出手段において前記パラメー
タ値と前記パラメータ重みテーブルのデータから多義数
の近似値を算出し、前記モード設定テーブル中の多義数
しきい値と比較することによって長文を検出する。
〔実施例〕
以下1本発明の一実施例を図面を用いて具体的に説明す
る。
第1図は、本発明の日本語長文検出装置の一実施例の概
略構成を示すブロック図である。
本実施例の日本語長文検出装置は、第1図に示すように
、入力部1、文節タイプ解析部2、長文検出部3、モー
ド設定テーブル4、文節タイプ辞書6、パラメータ重み
更新部6、パラメータ重みテーブル7、パラメータ値管
理テーブル8、係り受は解析部9.統計処理計算部10
より構成される。
前記文節タイプ辞書5は、文節タイプごとにその文節タ
イプに該当する文節の自立語品詞、自立語活用形、付属
語字面を予め登録した辞書であり、パラメータ値管理テ
ーブル8は、それまでに処理した文の各パラメータ値、
多義数を登録しておくテーブルである。
入力部1からは、該日本語長文検出装置の動作モードを
決定するモード情報及び処理対象の日本語文に対して、
形態素解析の処理済み文が入力されるものとする。モー
ド情報はデータ登録モードか検出モードか及び検出モー
ドの場合の多義数しきい値からなるものとする。
形態素解析は、漢字と仮名でべた書きされた日本語文に
対して、単語単位への分割を行う処理であり、この処理
の過程で同時に文節も認定される。
例として、′これからファクシミリ(FAX)でこの説
明書を送ります、′について、単語分割及び文節認定を
示すと、第2A図のようになる。
ここで、第2A図及び第2B図は、形態素解析及び係り
受は解析を説明するための図であり、第2A図は形態素
解析の一例を示し、第2B図は係り受は解析の一例を示
す図である。
通常、日本語文書処理システムには、形態素解析の処理
機能が具備されており、その形態素解析結果とモード情
報が入力部1から入力される。入力されたモード情報は
モード設定テーブル4へ登録される。
文節タイプ解析部2では、入力文を構成する各文節と文
節タイプ辞書5との照合を行い、入力文の文節タイプ列
を生成し、次に述べるパラメータ値算出処理を用いてパ
ラメータ値を算出する。
ここで、パラメータ値算出処理について説明する。
文節タイプ辞書5のレコードの概念図を第3図に示し1
文節タイプ列をSとし、この文節タイプ列Sに含まれる
文節タイプの偶数をmとしたときのパラメータx1、x
2.x3の値の算出処理のフローチャートを第4A図、
第4B図、第4C図に示す、ここで、第4A図、第4B
図、第4C図に示すフローチャートの説明は、各図を見
れば理解できるであろうから省略する。
また、x4の値の算出アルゴリズムは、文節タイプ列S
の中で4と一致するものの偶数をx4とする。
x5については、文節タイプ列Sから算出するのではな
く、入力の文節数をx5の値とする。
前記パラメータx1の値の算出アルゴリズムを具体的に
示すと以下の通りである。
タイプ1またはタイプ1′の文節から始まりタイプ1、
タイプ1′以外の文節が現れるまでの文節タイプ列のこ
とをタイプ1連、タイプ1連に含まれる文節タイプの偶
数をタイプ1連の長さと呼ぶ0例えば、文節タイプ列S
が、 (2,1,1’  1,2.4) のとき、(1,1’ 、1.2)がタイプ1連であり、
その長さは4である。第4A図に示すフローチャートで
算出されるxiの値は、タイプ1を少なくとも1つ含む
タイプ1連の長さの和である。
前記第1図に示す長文検出部3では、前記モード設定テ
ーブル4の値が検出モードの際に、前記パラメータ値と
パラメータ重みテーブル7に登録済みのパラメータ重み
の値から多義数の近似値を算出し、モード設定テーブル
4に登録された多義数しきい値を超えた場合に入力文を
長文として検出し処理を終了する。
パラメータ重み更新部6では、前記モード設定テーブル
4の値が登録モードの際に、入力文を係り受は解析部で
係り受は解析し、その多義数と前記パラメータ値をパラ
メータ管理テーブル8に追加登録し、登録更新されたパ
ラメータ値管理テーブル8から統計処理計算部10でパ
ラメータ重みを算出し、パラメータ重みテーブル7に登
録済みのパラメータ重みを更新し、処理を終了する。
係り受は解析は、形態素解析で得られた単語分割及び文
節の情報を基に、二つの文節間の修飾関係(係り受は関
係)を解析し、文全体の可能な構造を全て求める処理で
ある0例として、′これからFAXでこの説明書を送り
ます、′について、文節間の修飾関係を示すと第2B図
のようになる。
通常、日本語文書処理システムには、このような係り受
は解析の処理機能が具備されている。
統計処理計算は、パラメータ値を説明変数、多義数を目
的変数として最小二乗法によってパラメータの重みを算
出する処理である1通常、汎用計算機のソフトウェアと
して、このような統計処理ソフトウェアを利用すること
が可能である。
以下、具体例について説明する。ここで、処理対象の日
本語文を次の文とする。
rNTTは、パソコン上で文書の誤字や脱字をチエツク
し、その場で修正や訂正候補の選択ができる画期的な文
書推敲支援システムを開発し、社内での試用を検討して
いる。」 入力部1では、この対象文について、形態素解析の行わ
れた内容を入力し、文節タイプ解析部2へ転送すると共
に、モード情報を入力し、モード設定テーブル4へ書き
込む、第5A図は、当該入力文に対する形態素解析の結
果の概要を示したものである。
文節タイプ解析部2では、入力文を構成する文節単位に
次の処理を行い1文節タイプ列を生成する0文節の自立
語品詞、自立語活用形、付属語字面をキーとして、文節
タイプ辞書6のいずれの文節タイプとマツチするかをチ
エツクする。マツチする文節タイプが存在すれば、この
文節タイプを文節タイプ列に加える。第5B図に第5A
図に示した本対象文に対する文節タイプ列を示す0例え
ば“NTTは”は、自立語が“名詞”付属部最尾単語が
“は”であるので、第3図の文節タイプ辞書中の文節タ
イプ2の自立語条件、付属語最尾単条件とマツチするの
で、タイプ2となる。
この文節列から第4A図、第4B図、第4C図に示した
パラメータ値の算出処理のフローチャートに基き、パラ
メータ値を算出する。
第5C図は、第5A図に示した本対象文に対するパラメ
ータ値の算出結果である0例えば、パラメータxlの値
については、第5B図に示した文節タイプ列中に、(1
,1’ 、2)、(1’ 、1゜2)、(1,2)の3
つのタイプ1列があり、これらはどれも文節タイプ1を
含んでいるので、これらタイプ1列の長さを合計して、
3+3+2=8がxlの値となる。
前記モード設定テーブル4の値が検出モードの場合は、
前記パラメータ値は、長文検出部3へ転送される。処理
モードが検出モードであり、かつ多義数しきい値が5の
場合のモード設定テーブル4の概念図を第6A図に示す
長文検出部3では、文節タイプ解析部2で算出されたパ
ラメータ値とパラメータ重みテーブル7に登録済のパラ
メータ重みの積の総和を算出し、モード設定テーブル4
内の多義数しきい値を超えた場合、長文検出メツセージ
を出力し1、処理を終了する。多義数しきい値を超えな
い場合には、そのまま処理を終了する。
第7図にパラメータ重みテーブル7の概念図を示し、第
5D図に第5C図の本対象文のパラメータ値と第7図の
パラメータ重みから多義数近似値を算出した例を示す。
前記モード設定テーブル4の値が登録モードの場合は、
入力部1に入力された入力文と前記パラメータ値はパラ
メータ重み更新部6へ転送される。
登録モードの場合のモード設定テーブル4の概念図を第
6B図に示す。
パラメータ重み更新部6では、入力文を係り受は解析部
9へ転送し、係り受は解析の結果を得て、文節タイプ解
析部で算出したパラメータ値及びこの係り受は解析の結
果の多義数をパラメータ値管理テーブル8へ追加登録を
行う、この登録更新されたパラメータ値管理テーブル8
を統計処理計算部10へ転送し、パラメータ重みの算出
結果を得て。
パラメータ重みテーブル7の登録内容を書き換え、処理
を終了する。
第8A図、第8B図、第8C図に本対象文に対する係り
受は解析の結果の概要を示す。第8A図、第8B図、第
8C図において、各枠内が多義の一つ一つを示しており
、本対象文では多義数が12であることを示している。
また、第9A図にn文分のデータを登録後のパラメータ
値管理テーブル8の概念図を示し、第9B図に第n+1
文のデータとして本対象文のパラメータ値、多義数登録
後のパラメータ値管理テーブル8の概念図を示す。
以上、本発明を実施例にもとづき具体的に説明したが、
本発明は、前記実施例に限定されるものではなく、その
要旨を逸脱しない範囲において種々変更可能であること
は言うまでもない。
〔発明の効果〕 以上、説明したように、本発明によれば、入力文を構成
する文節を文節タイプに分類し、パラメータ値を算出し
、パラメータ重みテーブルのデータを参照して長文を検
出することことにより、日本語文書中の複雑な構造をも
った文を、構文解析レベルの深い解析を行わずに検出す
ることができるので1日本語文書中から簡易に自動的に
長文を検出することができる。
また、パラメータ重み更新部を具備することによって、
日本文の解析系の変更、機能強化に柔軟に対応すること
ができる。
また、従来の日本文評価技術と組み合わせて使用するこ
とによって、より高精度な日本語長文検出装置を実現す
ることができる。
例えば、本発明の日本語長文検出装置の有効性を確認す
るために多義数しきい値を5.パラメータ値管理テーブ
ルの大きさを567文分のデータに固定して、長文の検
出精度の測定を行った結果は次の通りであった。
長文(多義数6以上)を正しく判定したもの・・・26
3/296 (文/文)[88,9%]非長文(多義数
5以下)を正しく判定したもの・・・447/636 
(文/文)[75,0%]以上のことからも、本発明の
日本語長文検出装置を利用することにより、設定した多
義数を超える文の検出が有効に行えることが雇解される
であろう。
【図面の簡単な説明】
第1図は、本発明の日本語長文検出装置の一実施例の概
略構成を示すブロック図。 第2A図及び第2B図は、形態素解析、係り受は解析を
説明する図、 第3図は、文節タイプ辞書のレコードの概念図。 第4A図、第4B図及び第4C図は、パラメータ値の算
出処理を説明するためのフローチャート。 第5A図、第5B図、第5C図及び第5D図は、処理対
象文例の形態素解析、文節タイプ解析、多義数近似の算
出の結果の概要を示す図、第6A図及び第6B図は、モ
ード設定テーブルの概念図、 第7図は、パラメータ重みテーブルの概念図。 第8A図、第8B図及び第8C図は、処理対象文例の係
り受は解析の結果の概要を示す図、第9A図及び第9B
図は、パラメータ値管理テーブルの処理対象文例に対す
る処理前後の概念図である。 図中、l・・・入力部、2・・・文節タイプ解析部、3
・・・長文検出部、4・・・モード設定テーブル、5・
・・文節タイプ辞書、6・・・パラメータ重み更新部、
7・・・パラメータ重みテーブル、8・・・パラメータ
値管理テーブル、9・・・係り受は解析部、10・・・
統計処理計算部、 11・・・日本語長文検出装置。 第2A図

Claims (1)

    【特許請求の範囲】
  1. 日本文を入力して処理する文書処理システムにおいて、
    文節タイプを予め登録してある文節タイプ辞書と、パラ
    メータ情報を予め登録してあるパラメータ値管理テーブ
    ルと、パラメータ重みを予め登録してあるパラメータ重
    みテーブルと、処理モード及び解析の多義数のしきい値
    を登録するモード設定テーブルと、前記日本文中の文節
    と前記文節タイプ辞書を照合し、文節タイプ列を生成し
    、パラメータ値を算出する文節タイプ解析と、前記パラ
    メータ値と前記パラメータ重みテーブルから多義数近似
    値を算出し、前記多義数のしきい値と比較することによ
    って長文検出する長文検出手段と、前記パラメータ値管
    理テーブル及び前記パラメータ重みテーブルの登録内容
    を追加、更新するパラメータ重み更新手段を備えたこと
    を特徴とする日本語長文検出装置。
JP2051482A 1990-03-02 1990-03-02 日本語長文検出装置 Pending JPH03252858A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2051482A JPH03252858A (ja) 1990-03-02 1990-03-02 日本語長文検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2051482A JPH03252858A (ja) 1990-03-02 1990-03-02 日本語長文検出装置

Publications (1)

Publication Number Publication Date
JPH03252858A true JPH03252858A (ja) 1991-11-12

Family

ID=12888178

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2051482A Pending JPH03252858A (ja) 1990-03-02 1990-03-02 日本語長文検出装置

Country Status (1)

Country Link
JP (1) JPH03252858A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1136918A1 (en) * 1998-08-11 2001-09-26 Shinji Furusho Method and apparatus for retrieving, accumulating, and sorting table-formatted data

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1136918A1 (en) * 1998-08-11 2001-09-26 Shinji Furusho Method and apparatus for retrieving, accumulating, and sorting table-formatted data
EP1136918A4 (en) * 1998-08-11 2006-03-29 Shinji Furusho METHOD AND DEVICE FOR REBATING, SUMMARIZING AND SORTING TABLE-FORMATED DATA

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US7110939B2 (en) Process of automatically generating translation-example dictionary, program product, computer-readable recording medium and apparatus for performing thereof
EP0651340A2 (en) Language translation apparatus and method using context-based translation models
EP1627325B1 (en) Automatic segmentation of texts comprising chunks without separators
JPH03252858A (ja) 日本語長文検出装置
JP3437782B2 (ja) 機械翻訳方法及びその装置並びに機械翻訳プログラムを記憶した媒体
JPH05298349A (ja) 共起関係知識学習方法、そのシステム、並びに共起関係辞書およびその利用方法
JP3783053B2 (ja) 負の例予測処理方法、処理プログラムおよび処理装置、負の例予測処理を用いた日本語表記誤り検出処理プログラムおよび処理装置、ならびに負の例予測処理を用いた外の関係検出処理プログラムおよび処理装置
JP3856515B2 (ja) 文書校正装置
JPS6151265A (ja) 日本語ワ−ドプロセツサ
JP2693489B2 (ja) 日本語文誤り検出方法
JP3244286B2 (ja) 翻訳処理装置
JP2818185B2 (ja) 文書作成支援装置
JPH07200592A (ja) 文章処理装置
JP3216725B2 (ja) 文章構造解析装置
JPH0528142A (ja) 文章検査装置
JPH0546612A (ja) 文章誤り検出装置
JPH0468466A (ja) かな漢字変換装置
JPH01134563A (ja) かな漢字変換装置
JPH0594471A (ja) 共起辞書作成装置
JPH05342258A (ja) 自然語処理システム
JPH096788A (ja) 言語解析方法及びその装置
JPS62236070A (ja) 英単語のつづりチエツク方式
JPS63145578A (ja) 文字認識後処理方式
JPH01169568A (ja) 文書作成装置