JPH09128394A - 自然言語処理システム - Google Patents

自然言語処理システム

Info

Publication number
JPH09128394A
JPH09128394A JP7309905A JP30990595A JPH09128394A JP H09128394 A JPH09128394 A JP H09128394A JP 7309905 A JP7309905 A JP 7309905A JP 30990595 A JP30990595 A JP 30990595A JP H09128394 A JPH09128394 A JP H09128394A
Authority
JP
Japan
Prior art keywords
case frame
case
natural language
language processing
frame pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7309905A
Other languages
English (en)
Other versions
JP3353578B2 (ja
Inventor
Ko Ri
航 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GIJUTSU KENKYU KUMIAI SHINJOHO
GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO
NEC Corp
Original Assignee
GIJUTSU KENKYU KUMIAI SHINJOHO
GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GIJUTSU KENKYU KUMIAI SHINJOHO, GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO, NEC Corp filed Critical GIJUTSU KENKYU KUMIAI SHINJOHO
Priority to JP30990595A priority Critical patent/JP3353578B2/ja
Publication of JPH09128394A publication Critical patent/JPH09128394A/ja
Application granted granted Critical
Publication of JP3353578B2 publication Critical patent/JP3353578B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 自然言語処理システムにおいて、意味知識
(格フレームパターン)を自動的に獲得することを可能
とする。 【解決手段】 辞書部3は、単語と当該単語の属するク
ラスを表す属性との対応情報を記憶する。格フレームパ
ターン学習部4は、格フレーム記憶部1から格フレーム
を入力し、辞書部3を参照して当該格フレームにおける
単語を属性に置き換えて属性格フレームを生成し、当該
属性格フレームに基づく学習により確率付き依存グラフ
を生成し、当該確率付き依存グラフを格フレームパター
ンとして格フレームパターン記憶部2に格納する。自然
言語処理部5は、格フレームパターン記憶部2に格納さ
れた格フレームパターンを参照しながら、自然言語処理
を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、機械翻訳システ
ム,自然言語インタフェースシステム,および情報検索
システム等の自然言語処理システムに関し、特に自然言
語処理システムにおける知識獲得および知識利用に関す
る。
【0002】
【従来の技術】自然言語処理システムとは、人間の知的
活動のうちで言語理解の能力等、特に自然言語に関する
能力の一部を実現する計算機システムのことをいう。例
えば、異なる自然言語間の文章を翻訳する機械翻訳シス
テムは、自然言語処理システムの代表的なものである。
さまざまな能力や用途を有する自然言語処理システムを
実現することができれば、人間は強力な知的活動の道具
を得ることになる。
【0003】高性能な自然言語処理システムを実現する
ためには、一般に、多くの意味知識が必要であると考え
られている。例えば、機械翻訳システムにおいて、「T
ime flies like an arrow.」
という英文を、意味知識を利用せずに文法的な知識だけ
から機械翻訳すると、「光陰は矢の如し」という正しい
解釈に加え、「時間蝿は矢を好む」という誤った解釈が
されてしまう可能性がある。
【0004】このような「曖昧性」(複数の解釈がなさ
れ得るといった曖昧性)を解消するためには、意味知識
が不可欠なのである。上述の例でいうと、現実世界で
は、「fruit fly」(ショウジョウバエ)は存
在するが、「time fly」(時間蝿)は存在しな
い。このような意味知識(「time fly」が存在
しないという知識)を機械翻訳システムに与えることが
できれば、上述の2つの解釈のうちで、前者の正しい解
釈だけがなされるようになる。
【0005】また、機械翻訳システムにおいて、同様に
構文的な知識のみから「I sawa girl wi
th a scarf.」という文を機械翻訳すると、
「私はスカーフを身につけている女の子を見た」という
解釈と「私はスカーフで女の子を見た」という解釈との
2つの解釈が出力されてしまう。現実世界では、「se
e with a telescope」(望遠鏡で見
ること)はあり得るが、「see with a sc
arf」(スカーフで見ること)はあり得ない。機械翻
訳システムがこのような意味知識(「see with
a scarf」がありえないという知識)を持って
いれば、前者の正しい解釈だけが出力できるはずであ
る。
【0006】自然言語処理の分野では、解析できた解釈
は普通「格フレーム」と呼ばれるもので表現される
(「岩波情報処理科学辞典,長尾等編集,岩波書店,1
990年発行」の第109頁参照(なお、第106頁の
「格構造」も参照のこと))。「格フレーム」はいくつ
かの「格スロット」を持ち、「格スロット」は行為者格
(主語),対象格(目的語),および場所格等の内容を
表す。また、解釈(格フレーム)のもっともらしさを判
断するための意味知識は、「格フレームパターン」と呼
ばれる。
【0007】従来の多くの自然言語処理システムにおい
ては、人間が直接、格フレームパターンをその自然言語
処理システムに与えなければならなかった。しかし、格
フレームパターンの量は膨大であるので、人間が全部の
知識を与えるためには、大変な労力が必要であった。
【0008】このため、電子化されたテキストの中から
格フレームを自動的に抽出し、抽出できた格フレームか
ら格フレームパターンを学習する発明が期待されていた
(以下、このような発明を「期待発明」と呼ぶ)。な
お、ここでいう「学習」とは、入力された格フレームの
例から格フレームパターンを獲得し、入力の例にない格
フレームのもっともらしさもその格フレームパターンの
知識で判断できるようにすることを意味する。
【0009】従来技術として、電子化されたテキストか
ら格フレームを自動的に抽出する方式がいくつか知られ
ている。例えば、最も実現しやすい方式の1つにパター
ンマッチングという方式がある(「Smadja,
F.,Retrievign Collocation
s from Text: Xtract,Compu
tational Linguistics,Vol.
19,No.1,1993」pp.143−177参
照)。
【0010】この方式は、電子化されたテキストを走査
し、抽出条件を満足する一定の大きさの「窓」に現れる
単語を抽出し、その単語を格フレームの格スロットの内
容とする。例えば、単語flyの主語を抽出する時に、
テキスト中のflyの前に5単語の「窓」をあけ、その
「窓」に現れる名詞をflyの主語になり得るものとし
て抽出する(ただし、この方式では間違った抽出が行わ
れることがある)。
【0011】この方式を利用して上述の期待発明を実現
するためには、格フレームの事例を抽出した後に、それ
らの事例から如何に格フレームパターンの学習を行うか
が次の課題になる。
【0012】本願の出願人(発明者も本願と同一)によ
る特願平6−115220号(自然言語処理装置)の明
細書では、概念の階層とMDL(Minimum De
scription Length)基準(記述長最小
基準)とを用いて格フレームの格スロットの知識を学習
する装置(自然言語処理装置)が提案されている。ここ
で、概念の階層とは、例えば、「animal」が「d
og」の上位概念であるといった、概念間の上位下位関
係を表す木構造のことをいう。また、MDL基準とは、
確率モデルを推定するための基準をいう。この自然言語
処理装置では、格スロットの学習は一次元の確率モデル
の学習として捉えられている。例えば、単語flyの主
語となる単語をデータとして用いて概念の階層とMDL
基準とに基づきflyの主語の学習が行われ、それとは
独立に、flyの目的語、flyの後の前置詞句等の学
習も行われる。つまり、この自然言語処理装置を使え
ば、格フレームにおける各格スロットの知識を学習する
ことができる。
【0013】しかし、格フレームパターンを獲得するた
めには、さらに各格スロットの間の関係も学習しなけれ
ばならない。なぜなら、格フレームのもっともらしさを
判断するときに、各格スロットの知識を利用するだけで
なく、その間の関係の知識をも利用する必要があるから
である。例えば、flyを有する以下のような表現
(文)について、このことを考えてみる。
【0014】○ This airline comp
any flies many jets.(この航空
会社はたくさんのジェット機を飛ばす。)
【0015】○ The girl will fly
JAL.(その少女は日本航空社の飛行機に乗る。)
【0016】○ The girl will fly
a jet.(その少女はジェット機を操縦する。)
【0017】× This airline comp
any will fly JAL.(非文)
【0018】これらの文における各解釈(格フレーム)
のもっともらしさ(各文の前の○または×がもっともら
しさの有無(○が有)を示している)を判断するときに
は、各格スロット(主語および目的語等)が意味的に正
しいかどうかだけではなく、どの格スロットとどの格ス
ロットとが組み合わされているかもチェックしなければ
ならない。したがって、格フレームパターンを学習する
ときに、さらに格フレームにおける格スロットの間の依
存関係を学習する必要がある。
【0019】従来の自然言語処理システムでは、上述の
特願平6−115220号に係る自然言語処理装置を含
めて、格フレームの格スロットの間の依存関係を自動的
に学習する技術は存在しなかった。したがって、従来に
おいては、格フレームパターンを自動的に獲得できる自
然言語処理システム(すなわち、上述の期待発明)は実
現されていなかった。
【0020】ところで、機械学習の分野では、確率付き
依存グラフの自動学習の研究が行われている(例えば、
「C.K.Chow,C.N.Liu,Approxi
mating Discrete Probabili
ty Distributions with Dep
endence Trees,IEEE Transa
ctions on Information The
ory,Vol.IT−14,No.3,May 19
68」および「鈴木譲,大嶽康隆,平沢茂一,記述長最
小基準と状態分割の立場からみた確率モデルの選択方法
について,情報処理学会論文誌,Vol.33,No.
11,1992」参照)。上述の研究の中で、鈴木らは
確率付き依存グラフの学習アルゴリズムを開発した。し
かし、鈴木らは、確率付き依存グラフの学習アルゴリズ
ムをアンケート調査の学習にしか適用しなかった(した
がって、当然に、自然言語処理システムへの適用は考慮
されていなかった)。
【0021】
【発明が解決しようとする課題】上述したように、従来
の自然言語処理システムには、格フレームの格スロット
の間の依存関係を自動的に学習する技術は存在しなかっ
た。したがって、電子化されたテキストの中から格フレ
ームを自動的に抽出し、抽出できた格フレームから格フ
レームパターンを学習することができないという問題点
があった。
【0022】本発明は、上述の点に鑑み、格フレームパ
ターンの学習問題を確率付き依存グラフの学習問題とし
て定式化し、確率付き依存グラフの学習アルゴリズムを
使って格フレームパターンの学習を実現することによ
り、上述の問題点を解決することができる自然言語処理
システムを提供することにある。
【0023】
【課題を解決するための手段】本発明の自然言語処理シ
ステムは、格フレームを記憶する格フレーム記憶部と、
格フレームパターンを記憶する格フレームパターン記憶
部と、単語と当該単語の属するクラスを表す属性との対
応情報を記憶する辞書部と、前記格フレーム記憶部から
格フレームを入力し、前記辞書部を参照して当該格フレ
ームにおける単語を属性に置き換えて属性格フレームを
生成し、当該属性格フレームに基づく学習により確率付
き依存グラフを生成し、当該確率付き依存グラフを格フ
レームパターンとして前記格フレームパターン記憶部に
格納する格フレームパターン学習部と、前記格フレーム
パターン記憶部に格納された格フレームパターンを参照
しながら自然言語処理を行う自然言語処理部とを有す
る。
【0024】また、本発明の自然言語処理システムは、
格フレームを記憶する格フレーム記憶部と、格フレーム
パターンを記憶する格フレームパターン記憶部と、前記
格フレーム記憶部から格フレームを入力し、当該格フレ
ームに基づく学習により確率付き依存グラフを生成し、
当該確率付き依存グラフを格フレームパターンとして前
記格フレームパターン記憶部に格納する格フレームパタ
ーン学習部と、前記格フレームパターン記憶部に格納さ
れた格フレームパターンを参照しながら自然言語処理を
行う自然言語処理部とを有するように構成することもで
きる。
【0025】
【発明の実施の形態】次に、本発明について図面を参照
して詳細に説明する。
【0026】初めに、本発明の第1の実施例の自然言語
処理システムについて説明する。
【0027】図1は、本発明の第1の実施例の自然言語
処理システムの構成を示すブロック図である。
【0028】本実施例の自然言語処理システムは、格フ
レーム記憶部1と、格フレームパターン記憶部2と、辞
書部3と、格フレームパターン学習部4と、自然言語処
理部5とを含んで構成されている。
【0029】図2は、本実施例の自然言語処理システム
に入力された格フレーム(格フレーム記憶部1に格納さ
れている格フレーム)の例を示す図である。
【0030】図3は、辞書部3内の辞書の例を示す図で
ある。
【0031】図4は、格フレームパターン学習部4によ
り単語が属性に置き換えられた格フレームの例を示す図
である。
【0032】図5,図6,および図7は、図2に示す格
フレームおよび図3に示す辞書に基づく本実施例の自然
言語処理システムの具体的な動作を説明するための図で
ある。
【0033】図8は、格フレームパターン学習部4の処
理(学習アルゴリズムを実現する処理)を示す流れ図で
ある。この処理は、T初期化ステップ801と、格スロ
ットペアQ格納ステップ802と、VS設定ステップ8
03と、Q空判定ステップ804と、先頭格スロットペ
ア取出しステップ805と、相互情報量・辺結合閾値大
小判定ステップ806と、格スロットペア取除きステッ
プ807と、両格スロット異集合所属判定ステップ80
8と、VS中集合置換えステップ809と、T中辺追加
ステップ810とからなる。
【0034】次に、このように構成された本実施例の自
然言語処理システムの動作について説明する。
【0035】格フレーム記憶部1は、電子化されたテキ
ストから抽出された格フレーム(図2参照)を記憶す
る。格フレームは、いくつかの格スロットを有している
(図2においては、arg1が行為者格を示す格スロッ
トであり、arg2が対象格を示す格スロットであり、
atが場所格を示す格スロットである)。
【0036】辞書部3は、単語(例えば、john,a
pple,home,mary,bread,およびr
ice等の単語)と、当該単語の属するクラスを表す属
性(例えば、johnやmaryに対するperson
や、appleやbreadに対するfood等)との
対応情報(図3参照)を記憶する。
【0037】格フレームパターン学習部4は、上述のよ
うな格フレーム記憶部1および辞書部3の存在を前提と
して、以下に示すような処理を行う。
【0038】第1に、格フレーム記憶部1から図2に示
すような格フレームを入力する。
【0039】第2に、図3に示すような辞書(単語と属
性との対応情報)を有する辞書部3を参照し、格フレー
ム記憶部1から入力した格フレームにおける単語をその
属するクラスを表す属性に置き換える。図4に示すの
は、単語が属性によって置き換えられた格フレームの例
である。以下、このような「単語が属性によって置き換
えられた格フレーム」を「属性格フレーム」と呼ぶ。
【0040】第3に、属性格フレームに基づく学習によ
り、確率付き依存グラフを生成する。
【0041】上述の学習では、まず、属性格フレームを
学習の基礎となるデータとし、2つの格スロット(格ス
ロットペア)の間の相互情報量を、全ての格スロットペ
アについて計算する。図4の例の場合には、格スロット
がarg1,arg2,およびatの3つとなっている
ので、(arg1,arg2)の相互情報量(arg1
の格スロットとarg2の格スロットとの間の相互情報
量),(arg1,at)の相互情報量,および(ar
g2,at)の相互情報量を計算する。なお、相互情報
量の値が大きいほど両方の格スロットの関係が密である
ことを示している。
【0042】ここで、格スロットxと格スロットyとの
間の相互情報量MI(x,y)は、以下のようにして計
算される(格スロットxがとり得る値(本実施例では属
性)をiとし、格スロットyがとり得る値をjとす
る)。
【0043】 MI(x,y)=Σi,j {p(x=i,y=j)・logPP} PP=p(x=i,y=j)/{p(x=i)・p(y=j)}
【0044】ここで、p(x=i,y=j)は、以下の
ようにして計算される。
【0045】p(x=i,y=j)={f(x=i,y
=j)+0.5}/(f+0.5×kx ×ky
【0046】kx およびky は、xおよびyがとり得る
値の数である。f(x=i,y=j)は、格スロットx
がiであり格スロットyがjである格フレームの頻度
(データ数)である(例えば、図4において、f(ar
g1=person,arg2=food)は4とな
る)。fは全頻度(解析対象の格フレーム(ここでは、
属性格フレーム)の全データ数)である(例えば、図4
においては、fは10となる)。f(x,y)を統計す
るときに、格スロットxおよびyの片方しか格フレーム
に現れないことがある。その際には、現れない格スロッ
トについて、x=botまたはy=botとする。「b
ot」は「現れないこと」を表す特殊記号である。bo
tもxやyのとり得る値の1つである。
【0047】また、p(x=i)とp(y=j)とは、
以下のようにして計算される。
【0048】 p(x=i)={f(x=i)+0.5}/(f+0.5×kx ) p(y=j)={f(y=j)+0.5}/(f+0.5×ky
【0049】図4に示す属性格フレームの具体例におけ
る格スロットに対しては、図5に示すような「相互情報
量の計算結果」が得られる。
【0050】さて、上述の学習では、以上のようにして
相互情報量が計算された後に、以下の〜に示すよう
な処理が継続して行われる。
【0051】 複数(図2や図4の例では3つ)の格
スロットに関する格スロットペアを相互情報量について
降順にソートする。
【0052】 各格スロットをグラフ(確率付き依存
グラフ)の各節点と対応させる。
【0053】 格スロットペアの相互情報量の大きい
順に、その格スロットペアに対応する2つの節点を結ぶ
辺の生成を試みる。その際に、相互情報量がある値(辺
結合閾値と呼ぶ)以上でないと辺を結ばない。また、ル
ープを形成させる辺を結ぶことはない。
【0054】 最終的に完成したグラフの辺にその両
節点の間の条件付き確率を付ける(節点の確率も必要な
ものについては付ける)。
【0055】なお、詳しい学習アルゴリズムは、図8に
示す通りである。以下に図8に示す学習アルゴリズムに
ついて、説明を加える。
【0056】この学習アルゴリズムを実現する処理は、
以下の〜に示すようにして行われる(格フレームパ
ターン学習部4が以下の〜に示す一連の処理を行
う)。なお、以下の説明においては、解析対象の属性格
フレームに含まれる格スロットがs1 ,s2 ,…,sk
であり、当該各格スロットのとり得る値の数がk1 ,k
2 ,…,kk であるものとする。
【0057】 集合Tを空集合として初期化する(ス
テップ801)。なお、集合Tは、生成しようとしてい
る確率付き依存グラフにおける辺の集合である。
【0058】 格スロットs1 ,s2 ,…,sk に関
する全ての格スロットぺアに対してその相互情報量を検
索し、当該相互情報量の値について格スロットペアを降
順でソートし、ソート結果(相互情報量について降順で
整序された格スロットペア群)をキューQに格納する
(ステップ802)。
【0059】 格スロットの集合{x1 },
{x2 },…,{xk }の集合をVSとおく(ステップ
803)。集合VSの初期状態は、{x1 }がs1 だけ
から構成されており、{x2 }がs2 だけから構成され
ており、…、{xk }がsk だけから構成されている。
【0060】 キューQが空であるか否かを判定し
(ステップ804)、空である場合には処理を終了す
る。
【0061】 ステップ804で「キューQが空でな
い」と判定した場合には、キューQの中の先頭の格スロ
ットペア((sm ,sn )とする。sm およびsn はs
1 ,s2 ,…,sk の中のいずれか)を取り出し(ステ
ップ805)、その相互情報量(MImax )が辺結合閾
値(TH)より大きいか否かを判定する(ステップ80
6)。
【0062】ここで、辺結合閾値THは、以下のように
して計算される。 TH=(km −1)・(kn −1)・logf/2f ただし、先にも述べたように、fは属性格フレームにお
ける全データ数であり、km およびkn は格スロットs
m およびsn のとり得る値の数である。
【0063】 ステップ806で「MImax >THで
ある」と判定した場合には、キューQからその格スロッ
トペア(sm ,sn )を取り除き(ステップ807)、
格スロットsm と格スロットsn とが集合VS中の異な
る集合に属するか否かを判定する(ステップ808)。
【0064】 ステップ808で「格スロットsm
格スロットsn とが集合VS中の異なる集合に属する」
と判定した場合には(異なる2つの集合を集合V1と集
合V2とする)、集合VSにおいて集合V1 および集合
V2 を両者の和集合で置き換え(ステップ809)、格
スロットsm に対応する頂点と格スロットsn に対応す
る頂点とを結ぶ辺(sm ,sn )を集合Tに加える(ス
テップ810)。
【0065】 ステップ806で「MImax >THで
はない」と判定した場合には、処理を終了する。
【0066】 ステップ808で「格スロットsm
格スロットsn とが集合VS中の異なる集合に属さない
(同じ集合に属する)」と判定した場合またはステップ
810の処理が終了した場合には、ステップ804の判
定に戻る。
【0067】図6に、図4の属性格フレームのデータに
基づいて確率付き依存グラフが生成される際の学習の過
程を示す。図6に示すように、各格スロットに対応する
頂点の間の相互依存量が辺結合閾値(この例において
は、0.1661)と比較されて辺を結合するか否かが
決定される。なお、辺の矢印は格スロットの内容(どの
ような格を示すかということ等)に基づいて付されるも
のである。
【0068】また、図7に、図6に示すような学習の過
程を経て生成された確率付き依存グラフ、すなわち格フ
レームパターンを示す。この格フレームパターンは、図
6に示す過程を経て図8に示す学習アルゴリズムに基づ
いて生成されたグラフの辺および頂点に条件付き確率お
よび確率が付されたものである。なお、arg1からa
rg2への辺の存在によって頂点arg2の確率は必須
のものではなくなるので、冗長性を除去するために頂点
arg2には確率が付されていない(ただし、付けても
かまわない)。
【0069】最後に(第4に)、格フレームパターン学
習部4は、以上のようにして生成された確率付き依存グ
ラフを格フレームパターンとして、格フレームパターン
記憶部2に出力して格納する。
【0070】自然言語処理部5は、格フレームパターン
記憶部2内の格フレームパターンを参照し、処理対象の
テキスト中の格フレームのもっともらしさを認識しつ
つ、所定の自然言語処理(機械翻訳処理および情報検索
処理等)を行う。例えば、図7に示す確率付き依存グラ
フを参照し、格フレーム(eat(arg1 joh
n)(arg2 orange)(at home))
の確率(もっともらしさの確率)を以下のように計算す
る。
【0071】 P(arg1=john,arg2=orange,at=home) =P(arg1=person,arg2=food,at=home) =P(arg1=person)×P(arg2=food|arg1=pe rson)×P(at=home) =0.5×0.75×0.5 =0.1875
【0072】自然言語処理部5は、このような確率を用
いて当該格フレームのもっともらしさの程度を知得し、
曖昧性の解消等を実現した上で所定の自然言語処理を行
うことができる。
【0073】例えば、本実施例の自然言語処理システム
が機械翻訳システムである場合には、自然言語処理部5
は、格フレームパターン記憶部2に格納された格フレー
ムパターンを参照して、翻訳文における単語間の結び付
きのもっともらしさを判断する(このような処理内容
は、後述する第2の実施例においても同様である)。
【0074】続いて、本発明の第2の実施例の自然言語
処理システムについて説明する。
【0075】図9は、本発明の第2の実施例の自然言語
処理システムの構成を示すブロック図である。
【0076】本実施例の自然言語処理システムは、格フ
レーム記憶部91と、格フレームパターン記憶部92
と、格フレームパターン学習部94と、自然言語処理部
95とを含んで構成されている。
【0077】本実施例(第2の実施例)の自然言語処理
システムは、以下の〜の点で第1の実施例の自然言
語処理システムと異なっている。
【0078】 辞書部(第1の実施例における辞書部
3(図1参照))を必要としない。
【0079】 格フレームパターン学習部94は、格
フレーム記憶部91(格フレーム記憶部1と同一の記憶
部)内の格フレームにおける単語を属性に置き換えない
で、格フレームから直接に(属性格フレームを使わず
に)、格フレームパターン(確率付き依存グラフ)を生
成し、当該格フレームパターンを格フレームパターン記
憶部92に出力する。
【0080】 自然言語処理部95は、属性ではなく
単語を単位として格フレームパターン(で生成された
格フレームパターン記憶部92内の格フレームパター
ン)を参照し、所定の自然言語処理を行う。
【0081】第1の実施例と第2の実施例とを比較する
と、それぞれ、他方に対して次のような長所がある。
【0082】第1の実施例の自然言語処理システムで
は、属性の考え方が導入されているので、格フレームパ
ターンの生成における学習効率が向上する。
【0083】第2の実施例の自然言語処理システムで
は、単語単位で格フレームのもっともらしさが判断され
ることになるので、その判断の精度がよくなる。
【0084】
【発明の効果】従来の自然言語処理システムは、格フレ
ームパターン、特に、格フレームにおける格スロットの
間の依存関係を学習することができなかった。すなわ
ち、従来の自然言語処理システムに対しては、格フレー
ムパターンの知識を人間が定義して与えなければならな
かった。また、従来より、確率付き依存グラフの学習に
関する技術は開発されていたが、その技術が自然言語処
理システムにおける格フレームパターンの学習に適用さ
れることはなかった。
【0085】本発明の自然言語処理システムは、確率付
き依存グラフの学習に関する技術を利用して、意味知識
(格フレームパターン)を自動的に獲得することを可能
とした。これにより、自然言語処理システムの構築のた
めのコストを大幅に削減することができ、当該構築のた
めの人間の負荷を軽減することができるという効果が生
じる。
【図面の簡単な説明】
【図1】本発明の自然言語処理システムの第1の実施例
の構成を示すブロック図である。
【図2】図1中の格フレーム記憶部内の格フレームの例
を示す図である。
【図3】図1中の辞書部内の辞書(単語と属性との対応
情報)の例を示す図である。
【図4】図2に示す格フレームに対応する属性格フレー
ムを示す図である。
【図5】図4に示す属性格フレームに関する相互情報量
を示す図である。
【図6】図1中の格フレームパターン学習部による学習
の過程の例を示す図である。
【図7】図1中の格フレームパターン学習部によって生
成された確率付き依存グラフ(格フレームパターン)の
例を示す図である。
【図8】図1中の格フレームパターン学習部により実行
される学習アルゴリズムを実現する処理を示す流れ図で
ある。
【図9】本発明の自然言語処理システムの第2の実施例
の構成を示すブロック図である。
【符号の説明】
1,91 格フレーム記憶部 2,92 格フレームパターン記憶部 3 辞書部 4,94 格フレームパターン学習部 5,95 自然言語処理部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 格フレームを記憶する格フレーム記憶部
    と、 格フレームパターンを記憶する格フレームパターン記憶
    部と、 単語と当該単語の属するクラスを表す属性との対応情報
    を記憶する辞書部と、 前記格フレーム記憶部から格フレームを入力し、前記辞
    書部を参照して当該格フレームにおける単語を属性に置
    き換えて属性格フレームを生成し、当該属性格フレーム
    に基づく学習により確率付き依存グラフを生成し、当該
    確率付き依存グラフを格フレームパターンとして前記格
    フレームパターン記憶部に格納する格フレームパターン
    学習部と、 前記格フレームパターン記憶部に格納された格フレーム
    パターンを参照しながら自然言語処理を行う自然言語処
    理部とを有することを特徴とする自然言語処理システ
    ム。
  2. 【請求項2】 格フレームを記憶する格フレーム記憶部
    と、 格フレームパターンを記憶する格フレームパターン記憶
    部と、 前記格フレーム記憶部から格フレームを入力し、当該格
    フレームに基づく学習により確率付き依存グラフを生成
    し、当該確率付き依存グラフを格フレームパターンとし
    て前記格フレームパターン記憶部に格納する格フレーム
    パターン学習部と、 前記格フレームパターン記憶部に格納された格フレーム
    パターンを参照しながら自然言語処理を行う自然言語処
    理部とを有することを特徴とする自然言語処理システ
    ム。
  3. 【請求項3】 機械翻訳処理を行い、格フレームパター
    ン記憶部に格納された格フレームパターンを参照して翻
    訳文における単語間の結び付きのもっともらしさを判断
    する自然言語処理部を有することを特徴とする請求項1
    または請求項2記載の自然言語処理システム。
JP30990595A 1995-11-02 1995-11-02 自然言語処理システム Expired - Lifetime JP3353578B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP30990595A JP3353578B2 (ja) 1995-11-02 1995-11-02 自然言語処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30990595A JP3353578B2 (ja) 1995-11-02 1995-11-02 自然言語処理システム

Publications (2)

Publication Number Publication Date
JPH09128394A true JPH09128394A (ja) 1997-05-16
JP3353578B2 JP3353578B2 (ja) 2002-12-03

Family

ID=17998752

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30990595A Expired - Lifetime JP3353578B2 (ja) 1995-11-02 1995-11-02 自然言語処理システム

Country Status (1)

Country Link
JP (1) JP3353578B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100740978B1 (ko) * 2004-12-08 2007-07-19 한국전자통신연구원 자연어 문장 처리 시스템 및 자연어 문장 처리 방법
JP2010122982A (ja) * 2008-11-20 2010-06-03 Nec Corp 言語解析システム、言語解析方法、プログラム及び機械翻訳システム、言語解析方法、プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100740978B1 (ko) * 2004-12-08 2007-07-19 한국전자통신연구원 자연어 문장 처리 시스템 및 자연어 문장 처리 방법
JP2010122982A (ja) * 2008-11-20 2010-06-03 Nec Corp 言語解析システム、言語解析方法、プログラム及び機械翻訳システム、言語解析方法、プログラム

Also Published As

Publication number Publication date
JP3353578B2 (ja) 2002-12-03

Similar Documents

Publication Publication Date Title
Li et al. Leveraging linguistic structures for named entity recognition with bidirectional recursive neural networks
CN106844346B (zh) 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统
McDonald Discriminative sentence compression with soft syntactic evidence
Escudero et al. Naive Bayes and exemplar-based approaches to word sense disambiguation revisited
Furlan et al. Semantic similarity of short texts in languages with a deficient natural language processing support
CN111353306B (zh) 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
Mills et al. Graph-based methods for natural language processing and understanding—A survey and analysis
Stewart et al. Seq2kg: an end-to-end neural model for domain agnostic knowledge graph (not text graph) construction from text
CN110889292B (zh) 一种基于句义结构模型的文本数据生成观点摘要的方法及系统
Ide et al. Very large neural networks for word sense disambiguation.
US11687725B2 (en) Computer-implemented method and device for processing data
Menai Word sense disambiguation using an evolutionary approach
Mukta et al. A phrase-based machine translation from English to Bangla using rule-based approach
JPH09128394A (ja) 自然言語処理システム
Li et al. Learning dependencies between case frame slots
Nambiar et al. Abstractive summarization of Malayalam document using sequence to sequence model
Sunitha et al. Automatic summarization of Malayalam documents using clause identification method
Ingole et al. Text summarization using expectation maximization clustering algorithm
Basirat et al. Greedy universal dependency parsing with right singular word vectors
Alsharman et al. High-Performance Computing of Building The Dependency Trees and Calculating Tree Edit Distances For Text Similarity.
Lyon et al. Reducing the Complexity of Parsing by a Method of Decomposition.
Magerman et al. Parsing the voyager domain using pearl
Yu et al. Automatic event extraction method for analyzing text narrative structure
CN116644764A (zh) 机器翻译方法和装置、电子设备及存储介质
JPH08147306A (ja) 自然言語処理システム

Legal Events

Date Code Title Description
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070927

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080927

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080927

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090927

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090927

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100927

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100927

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110927

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110927

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120927

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120927

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130927

Year of fee payment: 11

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term