JP3214589B2 - 自然言語処理装置 - Google Patents

自然言語処理装置

Info

Publication number
JP3214589B2
JP3214589B2 JP07171594A JP7171594A JP3214589B2 JP 3214589 B2 JP3214589 B2 JP 3214589B2 JP 07171594 A JP07171594 A JP 07171594A JP 7171594 A JP7171594 A JP 7171594A JP 3214589 B2 JP3214589 B2 JP 3214589B2
Authority
JP
Japan
Prior art keywords
interpretation
natural language
probability
sentence
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP07171594A
Other languages
English (en)
Other versions
JPH07282056A (ja
Inventor
航 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP07171594A priority Critical patent/JP3214589B2/ja
Publication of JPH07282056A publication Critical patent/JPH07282056A/ja
Application granted granted Critical
Publication of JP3214589B2 publication Critical patent/JP3214589B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、機械翻訳システム、自
然言語インタフェースシステム等の自然言語処理システ
ムにおける自然言語解析に関するものである。
【0002】
【従来の技術】自然言語の文を解析することは自然言語
の文の解釈を一意的に特定することである。従来の多く
の技術では、自然言語の文を構文、意味解析した結果、
複数の解釈が得られ、いわゆる曖昧性の問題が生じてい
た。曖昧性解消が自然言語解析における大きな課題とな
っている。例えば、 I saw a girl with a teles
cope. を構文意味解析した結果、「私は望遠鏡で女の子を見
た」と「私は望遠鏡を持っている女の子を見た」という
二通りの解釈が得られる。図2にその二つの解釈の構文
木を示す。このような構文木を句構造ともいう。
【0003】従来は、確率文法に基づいて、生成確率を
算出し、生成確率により優先順位を付け、曖昧性解消を
試みるものが主流であった。例えば、藤崎は、文脈自由
文法規則の確率を定義し、ある解釈を得るために解析で
適用した規則の確率の積をその解釈の生成確率とし、各
解釈の生成確率を計算し、確率の値の順に解釈を出力す
る方法を提案した(確率的言語処理へのアプローチ、情
報処理学会自然言語研究会41−6,1984)。具体
的には、文脈自由文法規則が A→B1,B2,・・・,Bk である時、その確率がP(B1,B2,・・・,Bn|
A)であるとする。さらに、図2の二つの解釈の生成確
率が以下であるとする。
【0004】P(解釈1)=P(NP,VP|S)×P
(N|NP)×P(i|N)×P(V,NP|VP)×
P(saw|V)×P(NP,PP|NP)×P(DE
T,N|NP)×P(a|DET)×P(girl|
N)×P(P,NP|PP)×P(with|P)×P
(DET,N|NP)×P(a|DET)×P(tel
escope|N) P(解釈2)=P(NP,VP|S)×P(N|NP)
×P(i|N)×P(V,NP|VP)×P(saw|
V)×P(VP,PP|VP)×P(DET,N|N
P)×P(a|DET)×P(girl|N)×P
(P,NP|PP)×P(with|P)×P(DE
T,N|NP)×P(a|DET)×P(telesc
ope|N) また、SuとChang(K.Su,J.Chang,
Semantic and Syntactic As
pects of Score Function,P
roceedings of the 12th In
ternational Conference on
Computational Linguistic
s,1988)、あるいはMagermanとMarc
us(D.Magerman,M.Marcus,Pe
arl:A Probabilistic Chart
Parser,International Wor
kshop on Parsing Technolo
gy,1991)は、藤崎と異なる確率による曖昧性解
消法を提案した。
【0005】しかし、これらの方法では、係り受けの距
離を表現することができず、以下に示すように、人間が
実際行う自然言語解釈との間に大きな差異が存在してい
た。
【0006】それでは、人間がどのように曖昧性解消を
行っているかについて、認知言語学の分野で知られてい
る知見について述べる。例えば、上記の例文の場合、実
験によって、後者の解釈をとる人が多いことが分ってい
る。認知言語学では、以下のようにこの現象を説明す
る。人間は複数の原理の総合作用で曖昧性を解消してい
る。それらの原理の中に以下のようなものがある。
【0007】「言語表現が近くにある他の言語表現を修
飾しやすい。逆に遠いところにある他の言語表現を修飾
しにくい。」具体的には、英語に関しては、Right
Association Principle(以下
ではRAPと略す。J.Kimball,Seven
Principles of Surface Str
ucture Parsing in Natural
Language,Cognition,2,15−
47,1973)、およびAttach Low an
d ParallelPrinciple(以下ではA
LPPと略す。J.R.Hobbs,J.Bear,T
wo Principles of Parse Pr
eference,Proceedings of t
he 13th International Con
ference on Computational
Linguistics,1990)が提案されてい
る。RAPによれば、英語では、右の構造が近くにある
左の構造に係りやすい。一方、ALPPによれば、構造
が低いところ、あるいは他の構造と並列構造になるとこ
ろに係りやすい。ALPPはRAPを拡張したものであ
る。
【0008】RAPに従えば、 I saw a girl with a teles
cope. における「私は望遠鏡を持っている女の子を見た」とい
う解釈が優位である。というのは、「with a t
elescope」が近くにあるgirlに係りやすい
からである。
【0009】ALPPに従えば、 A growing number of compa
nies selland buy by compu
ter. における、「ますます多くの会社が計算機で売買するよ
うになった」という解釈が「ますます多くの会社が売
り、計算機で買うようになった」という解釈より優位で
ある。というのは、sell and buyが一つの
並列構造になりやすいからである。
【0010】以上の原理は人間の自然言語解釈における
普遍的な法則である。自然言語解析における曖昧性を解
消するためには、以上の原理を実現しなければならな
い。この原理は、ある種の傾向を表現しているもので、
決定的なものではない。従って、確率でこの原理を表現
したほうがよい。
【0011】
【発明が解決しようとする課題】認知言語学上の曖昧性
解消のための原理であるRAPとALPPを確率的なア
プローチで実現するためには、係り受けの距離の概念を
導入しなければならない。距離の概念の導入された確率
的な文法を用いて、RAPとALPPを実現し、自然言
語解析における曖昧性を解消することが本発明の課題で
ある。
【0012】
【課題を解決するための手段】本発明では、以下の手段
で以上の課題を解決する。
【0013】第1の発明は、自然言語の文を構文解析す
る自然言語処理装置において、自然言語の文中のn個の
単語を支配するカテゴリAが、文脈自由系文法の規則A
→B1,B2,...,Bkの適用によりカテゴリB
1,B2,...,Bkに分かれ、かつB1,B
2,...,Bkがそれぞれn1,n2,...,nk
個の単語を支配するという事象の分岐確率P(B1/n
1 B2/n2 ...Bk/nk | A/n)を記
憶する確率記憶手段と、自然言語の文を入力とし、その
文を構文解析し、木構造によって表現される複数の解釈
を得て、得られた各解釈に対して、その解釈の木構造の
各ノードにおけるカテゴリがどのようなカテゴリに分か
れ、かつそれぞれのカテゴリがどれだけの数の単語を支
配しているかを調べ、前記確率記憶手段を参照し、それ
ぞれのノードにおける分岐確率を呼出し、各解釈に対し
て、その解釈のすべてのノードにおける前記分岐確率の
積をその解釈の生成確率とし、当該解釈の生成確率を優
先度とし、各解釈を優先度順に出力する自然言語解析手
段と、を備えることを特徴とする自然言語処理装置であ
る。
【0014】第2の発明は、自然言語の文を構文解析す
る自然言語処理装置において、自然言語の文中のn個の
単語を支配するカテゴリAが、文脈自由系文法の規則A
→B1,B2,...,Bkの適用によりカテゴリB
1,B2,...,Bkに分かれ、かつB1,B
2,...,Bkが支配する単語の語数の比率がr1,
r2,..,rkであるという事象の分岐確率P(B1
B2 ... Bk,r1/r2/.../rk |
A)を記憶する確率記憶手段と、自然言語の文を入力
とし、その文を構文解析し、木構造によって表現される
複数の解釈を得て、得られた各解釈に対して、その解釈
の木構造の各ノードにおけるカテゴリがどのようなカテ
ゴリに分かれ、かつそれぞれのカテゴリがどれだけの数
の単語を支配しているかを調べ、それらの数の比率を計
算し、前記確率記憶手段を参照し、それぞれのノードに
おける分岐確率を呼出し、各解釈に対して、その解釈の
すべてのノードにおける前記分岐確率の積をその解釈の
生成確率とし、当該解釈の生成確率を優先度とし、各解
釈を優先度順に出力する自然言語解析手段と、を備える
ことを特徴とする自然言語処理装置である。
【0015】
【実施例】第1の発明の自然言語処理装置の第1の実施
例について述べる。図1がその実施例の構成図である。
【0016】まず、カテゴリAが文脈自由系文法の規則 A→B1,B2,・・・,Bk の適用によりカテゴリB1,B2,・・・,Bkに分か
れ、しかも、B1,B2,・・・,Bkがそれぞれn
1,n2,・・・,nk個の単語を支配する確率P(B
1/n1 B2/n2・・・Bn/nk|A/n)を定
義する。この確率を分岐確率と呼ぶ。例えば、図2の二
つの解釈のVP/6の下での分岐確率は以下である。但
し、VP/6は、カテゴリVPとその支配する単語列の
語数の組のことである。
【0017】P(解釈1における一つの分岐)=P(V
/1 NP/5|VP/6) P(解釈2における一つの分岐)=P(VP/3 PP
/3|VP/6) P(V/1 NP/5|VP/6)は、6個の単語を支
配するカテゴリVPが文脈自由文法系の規則 VP→V NP の適用によってカテゴリVとNPに分かれ、しかも、V
とNPがそれぞれ1と5の単語を支配する確率である。
【0018】P(VP/3 PP/3|VP/6)は、
6個の単語を支配するカテゴリVPが文脈自由文法系の
規則 VP→VP PP の適用によってカテゴリVPとPPに分かれ、VPとP
Pがそれぞれ3と3の単語を支配する確率である。分岐
確率における語数が係り受けの距離を表現している。
【0019】第1の発明の第1の実施例は、分岐確率を
記憶する確率記憶手段4と、自然言語の文1を入力と
し、その文を構文解析し、構文解析の際、確率記憶手段
4を参照し、各解釈にそれぞれの分岐確率を付与し、最
終的に、各解釈に付与されたすべての分岐確率の積をそ
れぞれの解釈の生成確率とし、各解釈の生成確率を算出
し、解釈の生成確率を優先度とし、解釈3を優先度順に
出力する自然言語解析手段2とを備えている。
【0020】例えば、図2の文の二つの解釈の生成確率
を以下のように算出する。
【0021】P(解釈1)=P(NP/1 VP/6|
S/7)×P(N/1|NP/1)×P(V/1 NP
/5|VP/6)×P(NP/2 PP/3|NP/
5)×P(P/1 NP/2|PP/3)×P(DET
/1 N/1|NP/2)×P(DET/1 N/1|
NP/2) P(解釈2)=P(NP/1 VP/6|S/7)×P
(N/1|NP/1)×P(VP/3 PP/3|VP
/6)×P(V/1 NP/2|VP/3)×P(P/
1 NP/2|PP/3)×P(DET/1 N/1|
NP/2)×P(DET/1 N/1|NP/2) P(V/1 NP/5|VP/6)がP(VP/3 P
P/3|VP/6)より大きいので、解釈1は解釈2よ
り優位である。
【0022】例えば、図3の文の二つの解釈の生成確率
は以下のように算出する。
【0023】P(解釈1)=・・・×P(VP/3 P
P/2|VP/5)×P(VP/1CONJ/1 VP
/1|VP/3) P(解釈2)=・・・×P(VP/1 CONJ/1
VP/3|VP/5)×P(VP/1 PP/2|VP
/3) P(VP/3 PP/2|VP/5)がP(VP/1
CONJ/1 VP/3|VP/5)より大きいので、
解釈1は解釈2より優位である。
【0024】例えば、図4の文の五つの解釈の生成確率
を以下のように算出する。
【0025】P(解釈1)=・・・×P(VP/6 P
P/3|VP/9)×P(V/1NP/5|VP/6)
×P(NP/2 PP/3|NP/5) P(解釈2)=・・・×P(VP/6 PP/3|VP
/9)×P(VP/3PP/3|VP/6)×P(V/
1 NP/2|P/3) P(解釈3)=・・・×P(V/1 NP/8|VP/
9)×P(NP/2PP/6|NP/8)×P(P/1
NP/5|PP/6)×P(NP/2 PP/3|N
P/5) P(解釈4)=・・・×P(V/1 NP/8|VP/
9)×P(NP/5PP/3|NP/8)×P(NP/
2 PP/3|NP/5) P(解釈5)=・・・×P(VP/3 PP/6|VP
/9)×P(V/1NP/2|VP/3)×P(P/1
NP/5|PP/6)×P(NP/2 PP/3|N
P/5) 分岐確率の値を以下の二種類の方法で決めることができ
る。まず、人間が各分岐確率の値を与えることができ
る。また、構文解析の事例から、分岐確率を推定するこ
ともできる。
【0026】分岐確率の推定を以下のように行う。人間
が意味知識で曖昧性を解消できない例文を集める。自然
言語解析手段2がそれらの自然言語の文を構文解析す
る。人間が曖昧な解釈から正しい解釈を選ぶ。人間ある
いは機械が正しい解釈をもとに分岐確率を推定し、確率
記憶手段4に蓄える。
【0027】なお、確率値の推定ではLaplace推
定量を用いる。Laplace推定量とは、標本がN
で、この内xであるものの数がNxである時、xの発生
する確率を数1とするものである。但し、sは確率変数
のレンジの大きさであるとする。Laplace推定量
を用いれば、0確率がなくなる。
【0028】
【数1】
【0029】
【0030】
【0031】
【0032】次に、第2の発明の自然言語処理装置の実
施例について述べる。図1がその構成図である。
【0033】まず、カテゴリAが文脈自由文法系の規則 A→B1,B2,・・・,Bk の適用によってカテゴリB1,B2,・・・,Bkに分
かれ、しかも、B1,B2,・・・,Bkが支配する単
語の語数の比率がおよそr1,r2,・・・,rkであ
る確率P(B1B2・・・Bn,r1/r2/・・・/
rk|A)を定義する。この確率を分岐確率と呼ぶこと
にする。
【0034】第2の発明の実施例は、分岐確率を記憶す
る確率記憶手段4と、自然言語の文1を入力とし、その
文を構文解析し、構文解析の際、確率記憶手段4を参照
し、各解釈にそれぞれの分岐確率を付与し、最終的に、
各解釈に付与されたすべての分岐確率の積をそれぞれの
解釈の生成確率とし、各解釈の生成確率を算出し、解釈
の生成確率を優先度とし、解釈3を優先度順に出力する
自然言語解析手段2とを備えている。
【0035】例えば、図2の文の二つの解釈の生成確率
を以下のように算出する。
【0036】P(解釈1)=P(NP,VP,1/6|
S)×P(N,1|NP)×P(VNP,1/5|V
P)×P(NP PP,2/3|NP)×P(P N
P,1/2|PP)×P(DET N,1/1|NP)
×P(DET N,1/1|NP) P(解釈2)=P(NP VP,1/6|S)×P
(N,1|NP)×P(VP NP,1/1|VP)×
P(V NP,1/2|NP)×P(V NP,1/2
|PP)×P(DET N,1/1|NP)×P(DE
T N,1/1|NP) P(V NP,1/5|VP)は、P(VP NP,1
/1|VP)より大きいので、解釈1は解釈2より優位
である。
【0037】分岐確率の値を以下の二種類の方法で決め
ることができる。まず、人間が各分岐確率の値を与える
ことができる。また、構文解析の事例から、分岐確率を
推定することもできる。
【0038】分岐確率の推定を以下のように行う。人間
が意味知識で曖昧性を解消できない例文を集める。自然
言語解析手段2がそれらの自然言語の文を構文解析す
る。人間が曖昧な解釈から正しい解釈を選ぶ。人間ある
いは機械が正しい解釈をもとに分岐確率を推定し、確率
記憶手段4に蓄える。
【0039】なお、確率値の推定ではLaplace推
定量を用いる。
【0040】
【発明の効果】本発明により、自然言語解析における曖
昧性を解消することができる。具体的には、言語学で言
われる曖昧性解消の原理(RAP,ALPP)を確率の
アプローチで実現することができる。
【図面の簡単な説明】
【図1】第1および第2の発明の自然言語処理装置の実
施例を示す構成図である。
【図2】解析の例を示す図である。
【図3】解析の例を示す図である。
【図4】解析の例を示す図である。
【図5】自然言語解析装置の実施例を示す構成図であ
る。
【符号の説明】
1 自然言語の文 2 自然言語解析手段 3 解釈 4 確率記憶手段 5 構文意味解析手段 6 意味確信度記憶手段 7 意味確率記憶手段 8 構文確率記憶手段
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特公 平4−44304(JP,B2) 情報処理学会研究報告 Vol.93 No.101(1993)「一般化された実例 と確率を用いた曖昧性解消」p.49〜 p.56

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】自然言語の文を構文解析する自然言語処理
    装置において、 自然言語の文中のn個の単語を支配するカテゴリAが、
    文脈自由系文法の規則A→B1,B2,...,Bkの
    適用によりカテゴリB1,B2,...,Bkに分か
    れ、かつB1,B2,...,Bkがそれぞれn1,n
    2,...,nk個の単語を支配するという事象の分岐
    確率P(B1/n1 B2/n2 ...Bk/nk
    | A/n)を記憶する確率記憶手段と、 自然言語の文を入力とし、その文を構文解析し、木構造
    によって表現される複数の解釈を得て、得られた各解釈
    に対して、その解釈の木構造の各ノードにおけるカテゴ
    リがどのようなカテゴリに分かれ、かつそれぞれのカテ
    ゴリがどれだけの数の単語を支配しているかを調べ、前
    記確率記憶手段を参照し、それぞれのノードにおける分
    岐確率を呼出し、各解釈に対して、その解釈のすべての
    ノードにおける前記分岐確率の積をその解釈の生成確率
    とし、当該解釈の生成確率を優先度とし、各解釈を優先
    度順に出力する自然言語解析手段と、 を備えることを特徴とする自然言語処理装置。
  2. 【請求項2】自然言語の文を構文解析する自然言語処理
    装置において、 自然言語の文中のn個の単語を支配するカテゴリAが、
    文脈自由系文法の規則A→B1,B2,...,Bkの
    適用によりカテゴリB1,B2,...,Bkに分か
    れ、かつB1,B2,...,Bkが支配する単語の語
    数の比率がr1,r2,..,rkであるという事象の
    分岐確率P(B1 B2 ... Bk,r1/r2
    /.../rk | A)を記憶する確率記憶手段と、 自然言語の文を入力とし、その文を構文解析し、木構造
    によって表現される複数の解釈を得て、得られた各解釈
    に対して、その解釈の木構造の各ノードにおけるカテゴ
    リがどのようなカテゴリに分かれ、かつそれぞれのカテ
    ゴリがどれだけの数の単語を支配しているかを調べ、そ
    れらの数の比率を計算し、前記確率記憶手段を参照し、
    それぞれのノードにおける分岐確率を呼出し、各解釈に
    対して、その解釈のすべてのノードにおける前記分岐確
    率の積をその解釈の生成確率とし 、当該解釈の生成確率
    を優先度とし、各解釈を優先度順に出力する自然言語解
    析手段と、 を備えることを特徴とする自然言語処理装置。
JP07171594A 1994-04-11 1994-04-11 自然言語処理装置 Expired - Fee Related JP3214589B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP07171594A JP3214589B2 (ja) 1994-04-11 1994-04-11 自然言語処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP07171594A JP3214589B2 (ja) 1994-04-11 1994-04-11 自然言語処理装置

Publications (2)

Publication Number Publication Date
JPH07282056A JPH07282056A (ja) 1995-10-27
JP3214589B2 true JP3214589B2 (ja) 2001-10-02

Family

ID=13468510

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07171594A Expired - Fee Related JP3214589B2 (ja) 1994-04-11 1994-04-11 自然言語処理装置

Country Status (1)

Country Link
JP (1) JP3214589B2 (ja)

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
情報処理学会研究報告 Vol.93 No.101(1993)「一般化された実例と確率を用いた曖昧性解消」p.49〜p.56

Also Published As

Publication number Publication date
JPH07282056A (ja) 1995-10-27

Similar Documents

Publication Publication Date Title
JP4319860B2 (ja) 転移ベースの機械翻訳システムで使用される転移辞書を開発するための方法および装置
WO2001029699A9 (en) Method and system to analyze, transfer and generate language expressions using compiled instructions to manipulate linguistic structures
US20050234717A1 (en) Method and apparatus for providing improved HMM POS tagger for multi-word entries and factoids
JPH0689302A (ja) 辞書メモリ
Ahmadi et al. Towards finite-state morphology of Kurdish
JP3214589B2 (ja) 自然言語処理装置
Papageorgiou et al. Multi-level XML-based Corpus Annotation.
Hettige et al. A parser for sinhala language-first step towards english to sinhala machine translation
Zoltowski PARSEC: A Constraint-based Framework for Spoken Language Understanding.
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JP3050743B2 (ja) 言語データベースの形態素列変換装置
JP3113257B2 (ja) 機械翻訳装置
JPS63136260A (ja) 機械翻訳システムにおける文生成処理方式
Güngör et al. Representation of Turkish morphology in ATN
JP2007102530A (ja) 特定言語の文法を生成する装置
Murzin et al. Development and Analysis of Technologies of Searching Information Relevant to the Search Query Using Linguistic Support
JP2765618B2 (ja) 言語解析装置
Patil et al. Implementation of Sandhi Viccheda for Sanskrit Words/Sentences/Paragraphs
JP3055690B2 (ja) 日本語同格名詞句翻訳方式
JP2006164170A (ja) 情報処理装置、同義語データベース生成方法、同義語データベース生成プログラム
Nirenburg et al. HUHU: the hebrew university hebrew understander
Ying et al. A hybrid approach to Chinese-English machine translation
JPH09212507A (ja) 文字処理装置と文字列の解析方法
Piitulainen Locally tree-shaped sentence automata and resolution of ambiguity
JPH1166069A (ja) 機械翻訳装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees