JP3007397B2 - 言語処理装置 - Google Patents

言語処理装置

Info

Publication number
JP3007397B2
JP3007397B2 JP2249578A JP24957890A JP3007397B2 JP 3007397 B2 JP3007397 B2 JP 3007397B2 JP 2249578 A JP2249578 A JP 2249578A JP 24957890 A JP24957890 A JP 24957890A JP 3007397 B2 JP3007397 B2 JP 3007397B2
Authority
JP
Japan
Prior art keywords
case
word
verb
analysis unit
modification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2249578A
Other languages
English (en)
Other versions
JPH04127368A (ja
Inventor
雅子 望主
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2249578A priority Critical patent/JP3007397B2/ja
Publication of JPH04127368A publication Critical patent/JPH04127368A/ja
Application granted granted Critical
Publication of JP3007397B2 publication Critical patent/JP3007397B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 技術分野 本発明は、言語処理装置に関し、例えば、構文解析技
術及びこの構文解析技術を応用した機械翻訳システムや
校正支援システムに適用されるものである。
従来技術 文を解析し、その修飾関係を得る方式として語をいく
つかの種類に分類し、例えば ひとつの語の修飾先は一つである、 語の修飾先はその語より後ろに位置する、 語と語の修飾関係は非交差になる、 などのルールにより関係を生成していく。
実際、語の分類とルールではかなりのパターンの修飾
関係を生成することになり、ノイズを含むことになる。
これらの中から意味的な制限も加えて、修飾関係を絞り
込む方法として、例えば用言とこの用言の要求する格を
記憶した辞書などを用いて修飾関係を絞り込む方法があ
り、この用言と要求する格のことを格パターンと称して
いる。
格パターンについては、 動詞と表層格、深層格と共起する名詞の意味コードを
設定する(例えば、文献としては、電子技術総合研究所
坂本義行[格構造を中心とした用言と付属語辞書」自
然言語処理1983.7がある)、 動詞と表層の格助詞、共起する名詞の意味制約を設定
する(例えば、文献としては、NTT林義彦「結合価構造
に基づく日本文解析」自然言語処理1987.7がある)、 動詞と助詞と名詞、名詞句間の関係による述語素を用
いた格形式を設定する(例えば、文献としては、IPA
「計算機用日本語基本動詞IPAL(Basic Verbs)」1987
がある。)、 などがある。動詞とその動詞の要求する格について記述
するもので、すべての動詞について同じように要求する
格を記述していくものである。しかし、実際の表現にお
いてはその動詞と動詞の要求する格という情報だけでは
誤った修飾関係を導くことが多い。例えば、 例;米国債と異なる課税が利回りに影響を及ぼすことが
ある。
の文に対し、「米国債と」の修飾先として「と」格とし
て「異なる」と、並列の「と」で「課税」と並列句を構
成するなどといった候補が考えられる。しかし、動詞
「異なる」の性質をみた場合、比較対象を表す「と」は
動詞の近くに位置することがほとんどである。この場
合、動詞とその格だけでなく、格の位置する動詞からの
距離を用いることで候補を絞り込める。並列句を構成す
るとする解釈はルールでは得点が少ないことが多いが、
「米国債」と「税」という似たカテゴリのものが来てい
る場合は、並列句と解釈される恐れもある。
例;日本はアメリカに先立って出発した。
また、他にも動詞の中には一つの格を動詞の近くにと
り、慣用句にも似た働きをするものもある。これらも従
来は他の動詞と同様に記述されていたため、このような
性質があっても遠くに係る場合も候補にしており、ノイ
ズとなっていた。また辞書に格助詞と動詞を組み合わせ
た形で慣用句のように扱う方法もあるが、動詞の活用の
扱いが面倒であることと、格助詞に相当する表現を増や
すことになり煩雑になっていた。
また、修飾関係を決定するための得点づけをルールテ
ーブルにより行うものとして、例えば特開昭63−219069
号公報がある。この公報に記載されているものは、係り
受けパターンを作り、その環境をみている。しかし、こ
の場合、距離というものは規定しておらず、また、前述
のような語特有の距離を扱うことができない。
目的 本発明は、上述のごとき実情に鑑みてなされたもの
で、修飾関係を決定する際に距離を用いることで、より
高精度に文を解析する言語処理装置を提供することを目
的としてなされたものである。
構成 本発明は、上記目的を達成するために、語の単位と品
詞とを同定する形態素解析部と、語の修飾関係を解析す
る構文解析部とを用いて文を解析する言語処理装置にお
いて、用言とこの用言の要求する格の間に存在する語
数、品詞に対して評価値を該用言と該用言の要求する格
ごとに設定したルールを備え、前記構文解析部が、前記
形態素解析で認定した語のうち、用言とその用言の要求
する格について前記ルールを適用して評価値を算出し、
最も高得点の修飾関係候補を正解と決定する修飾関係解
析部を有することを特徴としたものである。以下、本発
明の実施例に基づいて説明する。
第1図は、本発明による言語処理装置の一実施例を説
明するための構成図で、図中、1は形態素解析部、2は
単語辞書、3は格パターン辞書、4は構文解析部、5は
修飾関係解析部である。
本発明の言語処理装置は、入力文に対して、語の単位
と品詞を認定する形態素解析部1と、構文解析部4と、
それぞれの処理に必要な単語、品詞、構文情報を格納し
た単語辞書2とからなる。構文解析部4は形態素解析で
認定した語に基づき、語の間の修飾関係をルールに基づ
き生成し、得点を付与し、修飾関係候補に対して得点に
基づき評価値を算出し、最も高得点のものを正解と決定
する修飾関係解析部5を有する。また、単語辞書2には
格パターン辞書3が格納されている。
第2図は、格パターン辞書を示す図である。動詞の表
記と、動詞の要求する格、共起する名詞(格要素)、動
詞と格の距離の条件とその得点とからなる。ここでいう
距離は、例えば動詞と要求する格(名詞句)の間に存在
する他の語の数と品詞によって認定されるものである。
例では、間に他の用言や名詞句が介した場合は得点が−
5となり格が動詞を修飾するとする解釈を優先しないよ
うに制定してある。また、何も介在しない場合にはその
格が動詞を修飾するとする解釈を優先するように得点を
+10と高くして設定している。この得点が、格が用言を
修飾しているかどうかの評価値となっている。
第3図は、修飾関係解析部の動作を説明するためのフ
ローチャートである。形態素解析結果に基づき、各単語
の修飾先を決定し、一単語について以下の処理を行う。
step1;当該単語の修飾しうる修飾先の候補を抽出する。
step2;修飾先かどうか判断する。複数でない場合は後述
するstpe5へ行く。
step3;前記step2において、修飾先が複数であれば、当
該単語が格要素であるかどうかを判断する。格要素でな
ければ後述するstep5へ行く。
step4;前記step3において、格要素であれば、格要素と
用言の間の単語数、品詞を調べ、格パターン辞書の該当
する用言、格とその間に位置する品詞と語数を距離とみ
なし、対応する得点を評価値として設定する。
step5;その評価値が修飾先候補の中で最大のものを解と
して決定する。
次に具体的な例に基づいて説明する。
例;米国債と異なる課税が利回りに影響を及ぼすことが
ある。
の文に対し、形態素解析処理ののち以下のようになる。
米国債と|異なる|課税が|利回りに|影響を|及ぼす
|ことが|ある|。
「米国債と」の修飾先としてと動詞「異なる」と名詞
「課税」と並列表現をなす二つが抽出される(前記step
1)。修飾先の候補が二つあり(前記step2)、「米国債
と」は格になりうるので(前記step3)、「異なる」と
「米国債と」の距離を調べる(前記step4)。間に位置
する語がないので格パターン辞書により得点は10点とな
る。並列表現については特に指定がないので得点を与え
ない。
米国債と 異なる [格関係] 10 米国債と (異なる課税)が [並列関係] 0 得点の高いものを正解とするので、「米国債」の修飾先
は「異なる」となる。
他の例について説明する。
例;日本はアメリカにかなり先立って出発した。
の文に対し、形態素解析処理ののち以下のようになる。
日本は|アメリカに|かなり|先立って|出発した|。
「アメリカに」の修飾先としてと動詞「先立つ」と動
詞「出発する」の二つが抽出される(前記step1)。修
飾先の候補が二つあり(前記step2)、「アメリカに」
は格になるうるので(前記step3)、動詞との距離を調
べる(前記step4)。まず「先立つ」は間に副詞が一語
位置するので得点は3点となる。「出発する」は間に副
詞と用言が位置している。ゆえに得点は0−2で、−2
となる。
アメリカに 先立つ [格関係] 3 アメリカに 出発した [格関係] −2 得点の高いものを正解とする。両方格関係を満している
が、修飾先は「先立つ」となる。
効果 以上の説明から明らかなように、本発明によると、修
飾関係を有する可能性のある語間の距離を用いること
で、より高精度の解析が可能となり、特に用言とその要
求する格についての距離を評価値の算出に用いること
で、用言の近くに位置する性質を有する格や慣用句に似
た語を正しく解析することができる。
【図面の簡単な説明】
第1図は、本発明による言語処理装置の一実施例を説明
するための構成図、第2図は、格パターン辞書の例を示
す図、第3図は、修飾関係解析部の動作を説明するため
のフローチャートである。 1……形態素解析部、2……単語辞書、3……格パター
ン辞書、4……構文解析部、5……修飾関係解析部。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06F 17/27 - 17/28 JICSTファイル(JOIS)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】、語の単位と品詞とを同定する形態素解析
    部と、語の修飾関係を解析する構文解析部とを用いて文
    を解析する言語処理装置において、用言とこの用言の要
    求する格の間に存在する語数、品詞に対して評価値を該
    用言と該用言の要求する格ごとに設定したルールを備
    え、前記構文解析部が、前記形態素解析で認定した語の
    うち、用言とその用言の要求する格について前記ルール
    を適用して評価値を算出し、最も高得点の修飾関係候補
    を正解と決定する修飾関係解析部を有することを特徴と
    する言語処理装置。
JP2249578A 1990-09-19 1990-09-19 言語処理装置 Expired - Fee Related JP3007397B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2249578A JP3007397B2 (ja) 1990-09-19 1990-09-19 言語処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2249578A JP3007397B2 (ja) 1990-09-19 1990-09-19 言語処理装置

Publications (2)

Publication Number Publication Date
JPH04127368A JPH04127368A (ja) 1992-04-28
JP3007397B2 true JP3007397B2 (ja) 2000-02-07

Family

ID=17195093

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2249578A Expired - Fee Related JP3007397B2 (ja) 1990-09-19 1990-09-19 言語処理装置

Country Status (1)

Country Link
JP (1) JP3007397B2 (ja)

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石川,藤田,野口,「係り受け決定関数を用いた日本語解析」、情報処理学会第34回(昭和62年前期)全国大会講演論文集(▲II▼),p.1187−p.1188(1987)

Also Published As

Publication number Publication date
JPH04127368A (ja) 1992-04-28

Similar Documents

Publication Publication Date Title
JP4024861B2 (ja) 辞書に基づく品詞確率による自然言語パーザ
US20050171757A1 (en) Machine translation
US20070233460A1 (en) Computer-Implemented Method for Use in a Translation System
Xu et al. Sentence segmentation using IBM word alignment model 1
Štajner et al. Improving machine translation of English relative clauses with automatic text simplification
JP3007397B2 (ja) 言語処理装置
JP3081232B2 (ja) 言語処理装置
JP2757731B2 (ja) 文書解析装置
Jun Paraphrasing Chinese Idioms: Paraphrase Acquisition, Rewording and Scoring
JP3236027B2 (ja) 機械翻訳装置
JP2504449B2 (ja) 日本語文節間係り受け解析装置
JPH0769914B2 (ja) 日本語文節間係り受け解析装置
JP3339006B2 (ja) 機械翻訳装置における並列名詞句処理装置
JP2954592B2 (ja) 言語解析装置
Mohaghegh et al. A three-layer architecture for automatic post editing system using rule-based paradigm
Evang Cross-lingual CCG Induction
de Almeida Suffix Identification in Portuguese using Transducers
JPS6344276A (ja) 生成文法自動生成装置
JP3253311B2 (ja) 言語処理装置および言語処理方法
Schwartz et al. The University of Illinois submission to the WMT 2015 Shared Translation Task
JPH04372060A (ja) 日本語解析装置
JPH04112364A (ja) 辞書引き方式
JPH02226364A (ja) 構文解析装置
Hadouche et al. Automatic annotation of actants in specialized corpora
JPS63216175A (ja) 自然言語処理装置と自然言語質問応答装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees