JPH03296860A - 自然言語文解析装置 - Google Patents

自然言語文解析装置

Info

Publication number
JPH03296860A
JPH03296860A JP2099939A JP9993990A JPH03296860A JP H03296860 A JPH03296860 A JP H03296860A JP 2099939 A JP2099939 A JP 2099939A JP 9993990 A JP9993990 A JP 9993990A JP H03296860 A JPH03296860 A JP H03296860A
Authority
JP
Japan
Prior art keywords
grammatical
dictionary
restriction
section
constraints
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2099939A
Other languages
English (en)
Inventor
Makoto Ishii
信 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2099939A priority Critical patent/JPH03296860A/ja
Publication of JPH03296860A publication Critical patent/JPH03296860A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 致先九夏 本発明は、自然言語文解析装置に関し、より詳細には1
機械翻訳装置など自然言語文を入力とするシステムの自
然言語文の構文解析装置に関する。
良米技権 自然言語文を構文解析する際には、構文解析木のような
構造的データ構造を構成するだけでは精密な解析は困難
である。そこで構造的データ構造に加えて、意味的デー
タ構造を構成し、これら二つのデータ構造により相補的
に文法を記述する枠組みを提供する文法理論に語紮機能
文法がある。
これに関しては、rThe Mental Repre
sentationof Grammatical R
e1ations、J (Bresnan、J、 MI
TPress、 1982 )がある。
この語當機能文法では後者の意味的データ構造を機能構
造と呼び、機能構造を最終出力とする。
機能構造は「意味的」といっても表層格フレームのよう
な構造であり、自然言語文の意味構造として適当な構造
とはいえない。そこで解析系を利用するアプリケーショ
ン、例えば機械翻訳は、機能構造の情報をもとに辞書な
どの外部情報源から必要な意味的情報を得なければなら
ない。
外部情報源から抽出する情報は、諸費の持つ意味的な情
報であり、この意味的情報も語當機能文法の枠組みの中
で扱おうとし、さらにこの意味的情報を解析のあいまい
さ解消に用いようとする従来技術には、例えば、rLF
Gと意味解析の融合に向けて」 (新田義人情報処理学
会自然言語処理研究会論文集、68−2.1988 )
がある。ここで「あいまいさ」とは解析結果が複数解出
力されることである。しかしながら、この従来技術には
以下のような問題点がある。
(1)文法的性質において構文的な強さによるレベル化
ができない。
(A)単文中には主語は二つ以上あることはない。
(B)「飲む」の主語は動物である。
上記の二つの文法現象は、(A)は非常に強い文法的性
質の例として、(B)はより弱い文法的性質の例として
挙げた。これら二つの文法的性質はその「強さ」言い替
えれば例外の少なさについて大きく差がある。したがフ
て構文解析は(A)の性質については常に成り立ってい
なければならないが、(B)については成り立っていな
い場合もあるとして処理すべきである。つまり(B)の
ような性質が成り立っていない解析結果を失敗として扱
う構文解析では、「自動車はガソリンを飲む。」のよう
な例外的で比喰的な文は解析できない。だからといって
(B)のような性質を用いない構文解析は解析のあいま
いさを除去できない。
また、機能構造の構成時に全ての文法的性質のチエツク
が行なわれるため文法的性質を「用いる」か「用いない
」かの選択は、[あいまいさを除去することJと「例外
に強いこと」とのトレードオフになってしまう。すなわ
ちよりあいまいさを除去するようにすれば例外的表現を
解析できないし、例外的表現でも解析できるようにすれ
ばあいまいさは除去できないという問題点がある。これ
は文法的性質において構文的な強さによるレベル化がで
きないためである。
また、構文解析の後フェーズとして意味解析を行ない、
それによって解析のあいまいさを解消しようとする従来
技術には、例えば「意味解析における言語知識の体系的
活用」 (池田裕治外2名情報処理学会第39回全国大
会資料、5F−8,1989)がある。この技術は言語
知識をプロダクションルールとして記述し、各プロダク
ションルールにおいては、付随する条件について解の適
合度合いに応じてスコア付けを行ない、全てのルールの
チエツクが終了した時点で解の候補のうちでもっともス
コアの良いものを選択することによって解析のあいまい
さを解消するものである。しかしながら、以下のような
問題点がある。
(2)文法の記述性、可読性に乏しい。
上記従来技術は処理を意味解F?νこ絞っているが、そ
れでも精密な文法記述を行なおうとすれば数百から数千
のプロダクションルールの記述が必要である。また文法
現象をいくつかに分類しているが、その場合違う文法現
象に属するプロダクションルールどうしの依存関係によ
り、一つのプロダクションルールに変更を加えた場合、
他のプロダクションルールにも変更を加える必要が生じ
てくる。
すなわちプロダクションルール間の副作用が問題となっ
てくる。またルール間の副作用を考慮しながら数千もの
ルールの記述あるいはルールの管理を行なうのは非常に
煩雑であり、ミスも多くなる危険性がある。また−次元
的なプロダクションルールの記述は、どういう文法的法
則に関するルールかわかりづらいため、ルールを読む者
あるいはルールを修正する者にとって非常に負担となる
一つの文法的法則に関する規則や類似する文法用法で用
いられる規則はまとめて記述し、かつ規則どうしの依存
関係がはっきりしている方が記述性、可読性に優れてい
る。
本発明による自然言語文解析装置では1文法的性質を制
約として表現し、一方で語當機能文法における機能構造
に相当する構造を共通データ構造として、非常に強い文
法的制約や非常に弱い文法的制約、あるいはその中間の
文法的制約を共通データ構造へ適用するデータフロー型
の解析方式を基本とする。さらに各制約は機能名別にま
とめられて参照できるようにする。ここで機能名とは諸
費機能文法での用法と同様に機能構造のエントリ名を意
味する。上記問題点(1)については、各々の制約には
制約の持つ文法的強さに関する情報を付加し、この情報
を用いながら解析のあいまいさを除去することによって
解決する。この文法的強さに関する情報は例えば数値で
表現し、その値の大小がレベル化の基準となる。
一方、機能構造におけるエントリ名である機能名(例え
ば主語、連体修飾節など)は、自然言語における文法的
法則の分類の単位として適当である。このことは文法の
教科書においてこうした機能名別に文法が分類、記述さ
れていることが多いことからも分かる。言い替えれば文
法的法則は、諸費の性質に基づく分類によるよりは語索
の使われ方に基づく分類による方が記述の際にも読む際
にも有利である。ここでr語索の使われ方」こそが機能
であると考えられる。本発明では、各制約を機能名ごと
に記述、分類することにより上記問題点(2)を解決す
るものである。
さらに本発明では機能名どうしに関係を定める手段を用
意することにより、各機能名が管理する制約どうしの依
存関係を暗黙に定義する。このことにより上記問題点(
2)をより一層解決するものである。
1−−二蝮 本発明は、上述のごとき実情に鑑みてなされたもので、
文法的制約には制約の持つ文法的強さに関する情報を付
加し、この情報を用いながら解析のあいまいさを十分に
除去でき、一方で例外的な比喰表現についても解析を可
能にし、また、各制約を機能名ごとに記述、分類するこ
とにより、文法の記述性、可読性に優れた、したがって
アプリケーションに幅の広い自然言語文解析装置を提供
することを目的としてなされたものである。
豊−一處 本発明は、上記目的を達成するために、(1)自然言語
文を入力する入力部と、該入力部からの入力文を辞書部
の形態素分割用辞書を用いて形態素分割し、該形態素分
割されたものに対して、構文規則部の内容を用いて複数
の構成素構造を作成し、該構成素構造の各々から機能構
造を作成し、該機能構造を作成するに際しては、制約部
からの制約と前記辞書部の制約適用用辞書を用いて制約
の適用を行う処理部と、該処理部による解析結果を出力
する出力部とから成り、構文解析木から構成された構造
を解析データ構造として用い、文法的制約を該解析デー
タ構造に適用してあいまいさを除去するようにし、文法
的性質が文法的用法に関する名称ごとにまとめられて参
照を可能とするようにしたこと、更には、(2)前記文
法的性質どうしのあいだに関係を持たせることを特徴と
したものである。
本発明による自然言語文解析装置では、文法的性質を制
約として表現し、一方で諸費機能文法における機能構造
に相当する構造を共通データ構造として、非常に強い文
法的制約や非常に弱い文法的制約、あるいはその中間の
文法的制約を共通データ構造へ適用するデータフロー型
の解析を行なう。各制約は機能ごとに分類されていて、
かつ制約の持つ文法的強さに関する情報を持っている。
公知の語索機能文法と類似する構成素構造を構成し、構
成素構造から機能構造を構成する。さらに機能構造が実
現するためのいくつかの制約を機能名を参照しながら抽
出し、チエツクを行なう。
各々の制約は制約の持つ文法的強さに関する情報を持っ
ているので、満たされなかった制約について上記文法的
強さに関する情報を総合評価して、機能構造の不適合性
とみなして、その不適合性をもとに解析のあいまいさを
除去する。以下、本発明の実施例に基づいて説明する。
第1図は、本発明による自然言語文解析装置の一実施例
を説明するための構成図で、図中、1は処理部、2は入
力部、3は出力部、4は辞書部、5は構文規則部、6は
制約部、7は機能関係部である。
入力部2はキーボードなどの入力装置あるいは記憶装置
からの入力を含む。また入力部2は対話による多義の解
消処理時に操作者からの情報を入力する手段でもある。
出力部3は解析結果あるいは質問内容を操作者に伝える
ためのデイスプレィなどで視認する場合あるいは機械翻
訳などの場合のように構文解析装置を用いたアプリケー
ションである場合も含む。
第2図(a)〜(C)は、各々辞書D、構文規則R1制
約Cを示すものである。
第2図(a)に示す辞書りの各要素は見出し語、諸費範
躊(品詞)、素性リストで表現される。素性リストは素
性のリストで、各素性は(素性名、素性値)の形のペア
である。ここで素性とは諸費の持つ性質を抽出したもの
である。
第2図(b)に示す構文規則Rは公知の句構造文法の表
記法を拡張したラベル付きの句構造文法で記述されてい
る。右辺の各要素はラベル付きの非終端記号か、ラベル
なしの非終端記号である。
R1中の(N P ; case)の場合、NPは非終
端記号でラベルcaseが付加されている。また右辺の
非終端記号で小文字の英字は前終端記号(諸費範II)
、大文字の英字は前終端記号以外の非終端記号である。
また構文規則中のラベルは機能名を表す。ここで機能名
とは公知の諸費機能文法での用法と同様である。すなわ
ちR1の記述は諸費機能文法における以下のRIOと同
じである。
RIOVP−>   NP   VP ↓=↑case  ↓=↑ 第2図(0)に示す制約Cの各要素は機能名とペナルテ
ィ付きのプロダクションルールである。
表記法は、 (機能名:ペナルティ)制約規則 の形式である。ここでペナルティは各制約の持つ文法的
な強さを表す数値であり、その値が大きいほどその制約
が文法的に強い、すなわち、例外が少ないことを意味す
る。各々の制約規則は機能構造中の情報、特に辞書から
の素性を参照している。
ここで機能構造とは公知の諸費機能文法での用法と同様
であり、機能名を属性名、機能構造を属性値とする再帰
的なマトリクスである。第6図に機能構造の例を示す。
第3図は、本発明による自然言語文解析装置の処理部の
フローチャートである。
杜吐ヨ;入力部より「べた書き」の日本語文が入力され
た処理部は、該入力文を形態素のリストに分割する。例
えば、 (aO)彼が公園で遊ぶ が入力文であるとすると、形態素分割の結果は、 (al)(彼:n)(が:P)(公園:n)(で:p)
(遊ぶ:v) となる。ここで各形態は(見出し語二諸費範鴫)の形式
で表現されている。形態素分割においては辞書部から形
態素分割用辞書を抽出して用いる。
7i次に、形態素解析後の形態素の列に対して構文規則
部の内容を用いて構成素構造を作成する。ここで構成素
構造とは公知の諸費機能文法での用法と同様であり、第
5図に示すようなラベル付きの木構造である。本構造に
付いているラベルは機能名を表し、構文規則中に記述さ
れているラベルを構文規則の適用時に参照することによ
り得ることができる。
形態素の列から構成素構造を作成する処理については、
多くの手法が提案されていて公知であるが、ここではボ
トムアップにCKY法により構成する。形態素列から構
成素構造を作成する際に、処理すべき形態素がなくなっ
た時点で、最終状態に達した構成素構造は全て5tep
 2の出力であり、一般に複数解がある。
ここで最終状態に達したかどうかは文全体に対して作ら
れた構成素構造のルートノードが非終端記号Sであるか
どうかで判断される。
(al)の形態素列から作成された構成素構造の一つ(
a2)を第5図に示す。
杜吐主;前記5tep 2で得られた複数個の構成素構
造の各々から機能構造を作成する。この処理は公知の諸
費機能文法における構成素構造から機能構造を作成する
処理にしたがっても良いし、構成素構造でラベルのない
子ノードについては主要語としてエントリ部にブツシュ
し、ラベル付きの子ノードについてはそのラベルを属性
名とし子ノードについての機能構造を属性値とするよう
に再帰的に機能構造を作成しても良い。第5図に示す構
成素構造(C2)から作成された機能構造(C3)を第
6図に示す。この5tep 3では辞書部から機能構造
作用辞書を抽出して用いる。この辞書の内容は辞書りに
おける素性リストの部分である。構成素構造と機能構造
は一対一で対応するので、5tep 3の出力における
機能構造は複数解がある。
鮭肛土;前記機能構造について制約部からの制約と辞書
部からの制約適用用辞書を用いて制約の適用を行なう。
制約適用の手順は以下の通りである。
■機能構造中の全機能について、各機能でインデクスさ
れる制約を全て適用し、満たされなかった制約について
はその制約の持つペナルティを加算する。またこの時、
ペナルティが十分に大きい機能構造については解析失敗
として以後の解析を行なわない。
■制約適用の終了した機能については、機能関係部を参
照して、その機能の子の機能に変更する。このときの子
の機能が複数個ある場合は機能構造を複数個にコピーす
る。
■変更された機能名について上記■、■をさらに行なう
。この■、■、■を機能名の変更ができなくなるまで続
ける。
上記の■〜■を機能構造の再帰的構造について再帰的に
行なう。ここで各制約には制約Cに示すように機能名、
ペナルティが付いているので参照は容易である。また機
能関係部では機能名を第4図に示すように木構造で管理
されているので、各機能を子の機能に変更するのは容易
である。
前記5tep 4における処理の例を第6図に六す機能
構造(C3)について実行する。文節「公園で」に相当
する機能名は、最初は構文規則R1によって与えられた
caseである。このcase機能について、前記■に
したがって制約coが適用されるが、親の機能構造にお
ける主要語は「遊ぶ」という用言であるので満たされて
いる。次に前記■にしたがってcase機能がその子の
機能である5ubj、obj、 obj2、oblに変
更される。この場合、子の機能は複数個あるのでその各
々に対応するように機能構造はコピーされる。例として
5ubj機能に変更された場合は、次に5ubj機能に
ついて、前記■にしたがって制約01〜C4が適用され
る。この中でC3については5ubj格中の格マーカー
素性の値は「で」であるので満たされていない。したが
ってこの機能構造はペナルティ200を加算されるが、
このペナルティは十分に大きいので「公園で」が5ub
j格となるこの機能構造は解析失敗となり、以後の解析
は行なわない。一方、case機能がob1機能に変更
された機能構造については制約C5、C6が適用される
がいずれも満たされているためペナルティは0で、前記
■でさらに機能名の変更を受ける。以上の処理を文節「
彼が」についても行い、最終的に得られた機能構造の一
例を第7図に示す。この機能構造のペナルティはOであ
る。前記5tep 4での処理は一つの機能構造につい
て複数個の機能構造を作成する。前記5tep 4への
入力は複数個の機能構造であるので5tep 4の出力
は第7図に示すような機能構造が複数個となり、各々の
機能構造はペナルティが計算されている。
扛吐旦;前記ペナルティをもとに機能構造の選択を行な
う。具体的にはペナルティの低い機能構造から一つある
いは複数個選択する。
% ;最後に前記5tep 5で選択された機能構造を
解析結果として出力部に出力する。(al)の例文につ
いては第7図に示す機能構造がペナルティ最小(ペナル
ティ値O)として選択され出力される。
夏−一玉 以上の説明から明らかなように、本発明によると、自然
言語文解析装置に規則として取り込む文法的性質におい
て、構文的な強さによるレベル化が可能となる。このこ
とにより従来技術で問題になっていた「あいまいとを除
去することノと「例外に強いこと」とのトレードオフを
解決し、あいまいさを十分に除去でき、一方で例外的比
喰的表現についても解析を可能にすることができる。
また解析装置の用いる文法的性質を諸費の用法について
分類することにより、実施例のように処誠の実現上の効
率も得ることができるし、文法の記述性、可読性におい
ても有利である。また諸費の用法どうしの間に関係を定
義することにより、各用法が管理する文法的性質どうし
の間の依存関係を暗黙に定義することができる。これに
より各文法的性質どうしの依存関係について配慮するこ
となく文法記述、管理が可能となり、文法の拡張や修正
が茶飯事である自然言語文解析装置が実現できる。
【図面の簡単な説明】
第1図は、本発明による自然言語文解析装置の一実施例
を説明するための構成図、第2図は、辞書、構文規則、
制約を示す図、第3図は、本発明による自然言語文解析
装置の処理部のフローチャート、第4図は、機能関係部
の内容を示す図、第5図は、構成素構造を示す図、第6
図、第7図は、機能構造を示す図である。 1・・・処理部、2・・・入力部、3・・・出力部、4
・・・辞書部、5・・・構文規則部、6・・・制約部、
7・・・機能関係部・

Claims (1)

  1. 【特許請求の範囲】 1、自然言語文を入力する入力部と、該入力部からの入
    力文を辞書部の形態素分割用辞書を用いて形態素分割し
    、該形態素分割されたものに対して、構文規則部の内容
    を用いて複数の構成素構造を作成し、該構成素構造の各
    々から機能構造を作成し、該機能構造を作成するに際し
    ては、制約部からの制約と前記辞書部の制約適用用辞書
    を用いて制約の適用を行う処理部と、該処理部による解
    析結果を出力する出力部とから成り、構文解析木から構
    成された構造を解析データ構造として用い、文法的制約
    を該解析データ構造に適用してあいまいさを除去するよ
    うにし、文法的性質が文法的用法に関する名称ごとにま
    とめられて参照を可能とするようにしたことを特徴とす
    る自然言語文解析装置。 2、前記文法的性質どうしのあいだに関係を持たせるこ
    とを特徴とする請求項1記載の自然言語文解析装置。
JP2099939A 1990-04-16 1990-04-16 自然言語文解析装置 Pending JPH03296860A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2099939A JPH03296860A (ja) 1990-04-16 1990-04-16 自然言語文解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2099939A JPH03296860A (ja) 1990-04-16 1990-04-16 自然言語文解析装置

Publications (1)

Publication Number Publication Date
JPH03296860A true JPH03296860A (ja) 1991-12-27

Family

ID=14260689

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2099939A Pending JPH03296860A (ja) 1990-04-16 1990-04-16 自然言語文解析装置

Country Status (1)

Country Link
JP (1) JPH03296860A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06314294A (ja) * 1993-04-28 1994-11-08 Ibm Japan Ltd 機械翻訳方法及び機械翻訳装置
JP2018124922A (ja) * 2017-02-03 2018-08-09 株式会社デンソーアイティーラボラトリ 情報処理装置、情報処理方法、およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06314294A (ja) * 1993-04-28 1994-11-08 Ibm Japan Ltd 機械翻訳方法及び機械翻訳装置
JP2018124922A (ja) * 2017-02-03 2018-08-09 株式会社デンソーアイティーラボラトリ 情報処理装置、情報処理方法、およびプログラム

Similar Documents

Publication Publication Date Title
Silberztein Formalizing natural languages: The NooJ approach
US6778949B2 (en) Method and system to analyze, transfer and generate language expressions using compiled instructions to manipulate linguistic structures
US20170315984A1 (en) Systems and methods for text analytics processor
GB2295470A (en) Machine translation system
Thomas Natural language processing with spark NLP: learning to understand text at scale
JP5231698B2 (ja) 日本語の表意文字の読み方を予測する方法
Wintner Morphological processing of semitic languages
Srihari et al. Incorporating syntactic constraints in recognizing handwritten sentences
JP2004303240A (ja) 単語解析のためのシステムおよび方法
Amri et al. Amazigh POS tagging using TreeTagger: a language independant model
Korobkin et al. Technical function discovery in patent databases for generating innovative solutions
JPH03296860A (ja) 自然言語文解析装置
Doumi et al. A semi-automatic and low cost approach to build scalable lemma-based lexical resources for Arabic verbs
JPS61278970A (ja) 自然言語処理装置における構文解析結果の表示及び校正のための制御方法
Souter et al. Using Parsed Corpora: A review of current practice
Ditters Issues in Arabic computational linguistics
Kempen et al. Author environments: Fifth generation text processors
JP2632806B2 (ja) 言語解析装置
JP6298785B2 (ja) 自然言語解析装置、方法、及びプログラム
JP3035261B2 (ja) 日本語構文解析装置
Curteanu et al. A Procedural DTD Project for Dictionary Entry Parsing Described with Parameterized Grammars
Tnaji et al. A light Arabic POS Tagger using a hybrid approach
Rolf et al. Machine translation and the SYGMART system
JP4033089B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Abdelkader HMM Based Part of Speech Tagging for Hadith Isnad