JPH04141771A - 階層化された単語カテゴリの推移確率を利用した品詞/単語推定装置 - Google Patents
階層化された単語カテゴリの推移確率を利用した品詞/単語推定装置Info
- Publication number
- JPH04141771A JPH04141771A JP2263748A JP26374890A JPH04141771A JP H04141771 A JPH04141771 A JP H04141771A JP 2263748 A JP2263748 A JP 2263748A JP 26374890 A JP26374890 A JP 26374890A JP H04141771 A JPH04141771 A JP H04141771A
- Authority
- JP
- Japan
- Prior art keywords
- word
- category
- transition probability
- speech
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007704 transition Effects 0.000 title claims abstract description 301
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000004364 calculation method Methods 0.000 claims description 63
- 238000000034 method Methods 0.000 claims description 38
- 238000000605 extraction Methods 0.000 claims description 16
- 241000590419 Polygonia interrogationis Species 0.000 claims 1
- 238000003860 storage Methods 0.000 abstract description 15
- 238000012545 processing Methods 0.000 description 20
- 238000012360 testing method Methods 0.000 description 14
- 238000007476 Maximum Likelihood Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 8
- 238000009826 distribution Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000528 statistical test Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012353 t test Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 239000003643 water by type Substances 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔概 要〕
単語あるいは品詞を単語カテゴリの推移確率を使用して
推定する品詞/単語推定装置に係り、更に詳しくは、階
層化した単語カテゴリを使用し、品詞推定あるいは単語
推定の精度を向上し、必要な記憶領域を削減する階層化
された単語カテゴリの推移確率を利用した品詞/単語推
定装置に関し、複数の文からなる訓練サンプルを元に各
単語の見出しと単語カテゴリ、出現頻度からなる単語辞
書、および、各単語カテゴリの推移確率を表にした単語
カテゴリ推移確率テーブルを作成する推移確率生成部と
、該単語辞書および該単語カテゴリ推移確率テーブルを
元に任意の入力文字列の品詞を推定し、品詞/単語推定
結果を出力する品詞/単語推定部からなる品詞/単語推
定装置において、訓練サンプルに含まれる各単語につい
て単語カテゴリと出現頻度を求め単語辞書を作成すると
ともに、訓練サンプル中の単語列に対応した単語カテゴ
リ列を元にした各単語カテゴリ列の出現頻度と、該単語
カテゴリの上位カテゴリを用いた上位カテゴリ列の出現
頻度を算出する出現頻度算出手段と、前記出現頻度算出
手段によって求めた単語カテゴリの出現頻度および上位
カテゴリの出現頻度を元に、単語カテゴリの推移確率を
求め、単語カテゴリ推移確率テーブルを作成する推移確
率算出手段と、入力文字列に対して、単語辞書を使用し
て該入力文字列を構成する単語を抽出し、単語カテゴリ
列の候補を抽出する単語列抽出手段と、前記単語列抽出
手段が抽出した各単語カテゴリ列候補について、前記推
移確率算出手段が作成した単語カテゴリ推移確率テーブ
ルを元に推移確率を決定する推移確率決定手段と、前記
推移確率決定手段が決定した、各単語カテゴリ列候補に
ついての推移確率データを元に、該入力文字列を構成す
る単語、あるいは単語の品詞を推定し、品詞/単語推定
結果を出力する品詞/単語決定手段とを有するように構
成する。
推定する品詞/単語推定装置に係り、更に詳しくは、階
層化した単語カテゴリを使用し、品詞推定あるいは単語
推定の精度を向上し、必要な記憶領域を削減する階層化
された単語カテゴリの推移確率を利用した品詞/単語推
定装置に関し、複数の文からなる訓練サンプルを元に各
単語の見出しと単語カテゴリ、出現頻度からなる単語辞
書、および、各単語カテゴリの推移確率を表にした単語
カテゴリ推移確率テーブルを作成する推移確率生成部と
、該単語辞書および該単語カテゴリ推移確率テーブルを
元に任意の入力文字列の品詞を推定し、品詞/単語推定
結果を出力する品詞/単語推定部からなる品詞/単語推
定装置において、訓練サンプルに含まれる各単語につい
て単語カテゴリと出現頻度を求め単語辞書を作成すると
ともに、訓練サンプル中の単語列に対応した単語カテゴ
リ列を元にした各単語カテゴリ列の出現頻度と、該単語
カテゴリの上位カテゴリを用いた上位カテゴリ列の出現
頻度を算出する出現頻度算出手段と、前記出現頻度算出
手段によって求めた単語カテゴリの出現頻度および上位
カテゴリの出現頻度を元に、単語カテゴリの推移確率を
求め、単語カテゴリ推移確率テーブルを作成する推移確
率算出手段と、入力文字列に対して、単語辞書を使用し
て該入力文字列を構成する単語を抽出し、単語カテゴリ
列の候補を抽出する単語列抽出手段と、前記単語列抽出
手段が抽出した各単語カテゴリ列候補について、前記推
移確率算出手段が作成した単語カテゴリ推移確率テーブ
ルを元に推移確率を決定する推移確率決定手段と、前記
推移確率決定手段が決定した、各単語カテゴリ列候補に
ついての推移確率データを元に、該入力文字列を構成す
る単語、あるいは単語の品詞を推定し、品詞/単語推定
結果を出力する品詞/単語決定手段とを有するように構
成する。
(産業上の利用分野〕
本発明は、単語あるいは品詞を単語カテゴリの推移確率
を使用して推定する品詞/単語推定装置に係り、更に詳
しくは、階層化した単語カテゴリを使用し、品詞推定あ
るいは単語推定の精度を向上し、必要な記憶領域を削減
する階層化された単語カテゴリの推移確率を利用した品
詞/単語推定装置に関する。
を使用して推定する品詞/単語推定装置に係り、更に詳
しくは、階層化した単語カテゴリを使用し、品詞推定あ
るいは単語推定の精度を向上し、必要な記憶領域を削減
する階層化された単語カテゴリの推移確率を利用した品
詞/単語推定装置に関する。
[従来の技術]
自然言語の文を機械翻訳したり、要約を自動作成する場
合、各単語の品詞を推定する処理が必要である。例えば
、英語部5till waters run de
ep、において、St i l lは副詞、形容詞、名
詞、動詞になり得るし、waterは名詞、動詞、ru
nは名詞、動詞、deepは形容詞、副詞になり得る。
合、各単語の品詞を推定する処理が必要である。例えば
、英語部5till waters run de
ep、において、St i l lは副詞、形容詞、名
詞、動詞になり得るし、waterは名詞、動詞、ru
nは名詞、動詞、deepは形容詞、副詞になり得る。
そこで、この文を機械翻訳する場合等には、各単語がこ
の文においてどういう品詞として使用されているかを推
定する必要がある。
の文においてどういう品詞として使用されているかを推
定する必要がある。
また、音声認識や文字認識の場合、認識結果は単語候補
列として出力される場合が多い。例えば、音声認識では
、認識結果として、(By、 I)(an、am)
(looking)(f our。
列として出力される場合が多い。例えば、音声認識では
、認識結果として、(By、 I)(an、am)
(looking)(f our。
for、foward)(to、two)(seein
g、see、city)(you、in)というような
単語候補列が出力される。そのため、これらの単語候補
列から正しい単語列を推定することが必要である。
g、see、city)(you、in)というような
単語候補列が出力される。そのため、これらの単語候補
列から正しい単語列を推定することが必要である。
このような場合、起こり得る品詞を推定することによっ
て、単語候補を絞ることが可能である。
て、単語候補を絞ることが可能である。
以上のことから、品詞や単語を推定する装置が必要にな
った。
った。
従来、品詞あるいは単語の推定を行なう方法としては、
構文的規則を用いて推定する方法と、統計的な情報を利
用して推定する方法がある。
構文的規則を用いて推定する方法と、統計的な情報を利
用して推定する方法がある。
次に、統計的な情報を利用した品詞あるいは単語推定の
従来方法を説明する。
従来方法を説明する。
第4図は、従来方法の説明図である。
全体の流れとしては、入力文字列41の品詞あるいは単
語を推定するのに先立って、まず、多くの訓練サンプル
42を元にある単語列が生起する確率からなる生起確率
テーブル46を作成しておく、そして、入力文字列41
に対して、この生起確率テーブル46の生起確率を用い
て品詞あるいは単語の推定候補43を出力する。
語を推定するのに先立って、まず、多くの訓練サンプル
42を元にある単語列が生起する確率からなる生起確率
テーブル46を作成しておく、そして、入力文字列41
に対して、この生起確率テーブル46の生起確率を用い
て品詞あるいは単語の推定候補43を出力する。
訓練サンプル42は多数の文からなり、一つの文は単語
列W (W=wl 、W2 、 ・・・、wn)で表
される。そして、その単語列の統計的情報としては、そ
の単語列Wが出現する確率、すなわち生起確率P (W
)を使用すればよいことが知られている。しかし、あら
ゆる単語列の生起確率を保存しておくことは、データの
収集の大変さからも、記憶容量の増大という点からも現
実的ではない。
列W (W=wl 、W2 、 ・・・、wn)で表
される。そして、その単語列の統計的情報としては、そ
の単語列Wが出現する確率、すなわち生起確率P (W
)を使用すればよいことが知られている。しかし、あら
ゆる単語列の生起確率を保存しておくことは、データの
収集の大変さからも、記憶容量の増大という点からも現
実的ではない。
そこで、一般に、これをm重マルコフ過程で近似するこ
とが試みられている(Wの生起確率算出44)。すなわ
ち、単語列Wの生起確率P (W)を同図中の(1)式
で表すものである。
とが試みられている(Wの生起確率算出44)。すなわ
ち、単語列Wの生起確率P (W)を同図中の(1)式
で表すものである。
そして、mの値としては、精度および必要なデータ量の
バランスから、m=2を使用するのが一般的である。以
下、m=2として説明する。m≠2の場合も技術として
は以下の説明と同様である。
バランスから、m=2を使用するのが一般的である。以
下、m=2として説明する。m≠2の場合も技術として
は以下の説明と同様である。
(1)式の右辺の確率は、m=2とすると、(2)式の
ように、連続した二つの単語の組、すなわち二つ組(b
igram)の出現頻度C(WiWl−1)と、連続し
た三つの単語の組、すなわち三つ組(trigram)
の出現頻度C(Wl−2。
ように、連続した二つの単語の組、すなわち二つ組(b
igram)の出現頻度C(WiWl−1)と、連続し
た三つの単語の組、すなわち三つ組(trigram)
の出現頻度C(Wl−2。
Wi、1 、 Wl )の比によって推定できる。出現
頻度C(Wt−z 、 w、−、)は、単語w1−.の
前に単語W i −2がくる頻度であり、また、出現頻
度C(Wi−2、wi−、、Wi )は、単語Wiの前
の単語がW i −1で、しかも、その前の単語がWl
−2になる頻度である。そして、(2)式によって、連
続した単語wi−2、wl−、の後に単語W、がくる生
起確率PいVi l Wi−z 、 Wt−+ )が
求められる。
頻度C(Wt−z 、 w、−、)は、単語w1−.の
前に単語W i −2がくる頻度であり、また、出現頻
度C(Wi−2、wi−、、Wi )は、単語Wiの前
の単語がW i −1で、しかも、その前の単語がWl
−2になる頻度である。そして、(2)式によって、連
続した単語wi−2、wl−、の後に単語W、がくる生
起確率PいVi l Wi−z 、 Wt−+ )が
求められる。
ところが、m=2とした場合でも、語霊数が多いときに
は、大量の訓練サンプル42を用いても、三つ組のほと
んどについて統計量を求めるのに足る出現頻度が得られ
ない。このため、(2)弐を用いて精度よく生起確率を
推定することは難しい。
は、大量の訓練サンプル42を用いても、三つ組のほと
んどについて統計量を求めるのに足る出現頻度が得られ
ない。このため、(2)弐を用いて精度よく生起確率を
推定することは難しい。
そこで、普通、単語W、の代わりに、単語Wiの文法上
のクラス、通常は品詞を該単語Wiの単語カテゴリgい
1)として使用し、単語の生起確率を近似する。すなわ
ち、P (g (w+ ) Ig(Wl−2) 、
g (Wl−1) )で近似する。この場合、文法上の
クラスg (Wl )としては、三つ組の記憶容量やデ
ータの量から、50〜300程度に決定する場合が多い
。
のクラス、通常は品詞を該単語Wiの単語カテゴリgい
1)として使用し、単語の生起確率を近似する。すなわ
ち、P (g (w+ ) Ig(Wl−2) 、
g (Wl−1) )で近似する。この場合、文法上の
クラスg (Wl )としては、三つ組の記憶容量やデ
ータの量から、50〜300程度に決定する場合が多い
。
Wの生起確率算出44で単語Wの品詞g (W)を使っ
た生起確率P (g (WL ) l g (Wt−
z )。
た生起確率P (g (WL ) l g (Wt−
z )。
g (Wt−+ ) )が求まると、生起確率の登録4
5が、この生起確率を生起確率テーブル46に登録する
。以上の処理によって、訓練サンプル42による単語の
統計的な生起確率情報が得られる。
5が、この生起確率を生起確率テーブル46に登録する
。以上の処理によって、訓練サンプル42による単語の
統計的な生起確率情報が得られる。
実際に、入力文字列41に対して、品詞あるいは単語の
推定を実行する場合には、まず、入力文字列41を単語
検索部47に入力する。そして、単語検索部47は、単
語辞書48を用いて入力文字列41から単語を切り出す
。単語辞書48には、各単語の見出し、および、該単語
の品詞、出現頻度が格納されている。
推定を実行する場合には、まず、入力文字列41を単語
検索部47に入力する。そして、単語検索部47は、単
語辞書48を用いて入力文字列41から単語を切り出す
。単語辞書48には、各単語の見出し、および、該単語
の品詞、出現頻度が格納されている。
次に、単語検索部47が抽出した単語列は、最尤候補探
索部49に入力される。最尤候補探索部49は、入力さ
れる単語列についての品詞の候補列に関して、生起確率
テーブル46から生起確率を求める。そして、最も生起
確率の高い品詞列を最尤の品詞推定候補あるいは単語推
定候補43として出力する。
索部49に入力される。最尤候補探索部49は、入力さ
れる単語列についての品詞の候補列に関して、生起確率
テーブル46から生起確率を求める。そして、最も生起
確率の高い品詞列を最尤の品詞推定候補あるいは単語推
定候補43として出力する。
[発明が解決しようとする課題〕
しかしながら、従来の方式では、最尤候補の推定精度お
よび処理に必要な記憶容量の点で問題がある。
よび処理に必要な記憶容量の点で問題がある。
すなわち、単語W1の代わりに単語wiの品詞g (W
t )を単語カテゴリとして使用する場合、理想的には
、単語カテゴリをできるだけ細かく分けて、単語の分類
を細かくできることが望ましい。
t )を単語カテゴリとして使用する場合、理想的には
、単語カテゴリをできるだけ細かく分けて、単語の分類
を細かくできることが望ましい。
しかし、単語カテゴリの数を大きくすると、大量の訓練
サンプルを使用しても、品詞列の三つ組の出現頻度が統
計量を求めるのに足る回数にならない場合が出てくる。
サンプルを使用しても、品詞列の三つ組の出現頻度が統
計量を求めるのに足る回数にならない場合が出てくる。
出現頻度が少ない場合には、求めた推移確率の信軽性が
低くなり、品詞や単語の推定精度が低下するという問題
が生じる。また、すべての三つ組が統計量を求めるに足
る出現頻度になるようにするためには訓練サンプルの量
が膨大になり、事実上無理である。
低くなり、品詞や単語の推定精度が低下するという問題
が生じる。また、すべての三つ組が統計量を求めるに足
る出現頻度になるようにするためには訓練サンプルの量
が膨大になり、事実上無理である。
一方、単語カテゴリ数を多くとると、三つ組の出現頻度
を保持しておくための記憶容量も増大する。例えば、単
語カテゴリ数を2倍にすると、三つ組の出現頻度を記憶
しておくだめの記憶容量は2X2X2=8倍になるので
ある。
を保持しておくための記憶容量も増大する。例えば、単
語カテゴリ数を2倍にすると、三つ組の出現頻度を記憶
しておくだめの記憶容量は2X2X2=8倍になるので
ある。
本発明は、単語カテゴリ数をある程度大きくとった場合
でも、三つ組の出現頻度不足による推定精度の低下を抑
えることを可能とし、また、記憶容量の削減を可能とす
ることを目的とする。
でも、三つ組の出現頻度不足による推定精度の低下を抑
えることを可能とし、また、記憶容量の削減を可能とす
ることを目的とする。
〔課題を解決するための手段]
第1図は、本発明の機能ブロック図である。本発明は、
入力文字列7の品詞や単語を推定する品詞/単語推定部
3と、該品詞/単語推定部3で使用する単語辞書5や単
語カテゴリ推移確率テーブル6を訓練サンプル4をもと
に作成する推移確率生成部2とからなる品詞/単語推定
装置1を前提とする。
入力文字列7の品詞や単語を推定する品詞/単語推定部
3と、該品詞/単語推定部3で使用する単語辞書5や単
語カテゴリ推移確率テーブル6を訓練サンプル4をもと
に作成する推移確率生成部2とからなる品詞/単語推定
装置1を前提とする。
まず、推移確率生成部2は、出現頻度算出手段9を有す
る。出現頻度算出手段9は、訓練サンプル4の単語列を
元に、単語辞書5を作成するとともに、単語列に対応し
た品詞等の単語カテゴリ列の三つ組の出現頻度を計数す
る。単語辞書5には、単語の見出しと品詞、出現頻度を
一組として登録する。単語カテゴリの三つ組の出現頻度
とは、例えば、名詞−助動詞−動詞といった単語カテゴ
リ列の出現頻度である。
る。出現頻度算出手段9は、訓練サンプル4の単語列を
元に、単語辞書5を作成するとともに、単語列に対応し
た品詞等の単語カテゴリ列の三つ組の出現頻度を計数す
る。単語辞書5には、単語の見出しと品詞、出現頻度を
一組として登録する。単語カテゴリの三つ組の出現頻度
とは、例えば、名詞−助動詞−動詞といった単語カテゴ
リ列の出現頻度である。
さらに、出現頻度算出手段9は、単語カテゴリに上位の
カテゴリがある場合には、上位カテゴリの三つ組の出現
頻度を計数する。例えば、cannotやwon’
tの単語カテゴリを否定の助動詞、canやwillの
単語カテゴリを肯定の助動詞とした場合、これらの上位
カテゴリとして、全助動詞のカテゴリを考えることがで
きる。出現頻度算出手段9は、否定の助動詞の単語カテ
ゴリを含む三つ組の出現頻度を計数するとともに、その
上位カテゴリ、すなわち全助動詞の単語カテゴリを含む
三つ組の出現頻度を別に計数しておく。
カテゴリがある場合には、上位カテゴリの三つ組の出現
頻度を計数する。例えば、cannotやwon’
tの単語カテゴリを否定の助動詞、canやwillの
単語カテゴリを肯定の助動詞とした場合、これらの上位
カテゴリとして、全助動詞のカテゴリを考えることがで
きる。出現頻度算出手段9は、否定の助動詞の単語カテ
ゴリを含む三つ組の出現頻度を計数するとともに、その
上位カテゴリ、すなわち全助動詞の単語カテゴリを含む
三つ組の出現頻度を別に計数しておく。
このほか、出現頻度算出手段9は、タイトルと本文、疑
問符の有無等を区別して出現頻度を算出するとともに、
特定の単語カテゴリ列を一つのまとまった単語カテゴリ
として出現頻度を算出したり、複数の単語からなる単語
列を熟語として使用するか否かを区別して単語の出現頻
度、単語カテゴリ列の出現頻度を算出する。
問符の有無等を区別して出現頻度を算出するとともに、
特定の単語カテゴリ列を一つのまとまった単語カテゴリ
として出現頻度を算出したり、複数の単語からなる単語
列を熟語として使用するか否かを区別して単語の出現頻
度、単語カテゴリ列の出現頻度を算出する。
次に、推移確率生成部2は、推移確率算出手段10を有
する。推移確率算出手段10は、前記出現頻度算出手段
9で求めた単語カテゴリ列の出現頻度を元に推移確率を
算出する。推移確率は、単語カテゴリの三つ組の出現頻
度、および、三つ組のなかの後の二つの単語カテゴリ列
からなる二つ組の出現頻度から求めることができる。ま
た、二つ組の出現頻度は三つ組の出現頻度から求めるこ
とができる。
する。推移確率算出手段10は、前記出現頻度算出手段
9で求めた単語カテゴリ列の出現頻度を元に推移確率を
算出する。推移確率は、単語カテゴリの三つ組の出現頻
度、および、三つ組のなかの後の二つの単語カテゴリ列
からなる二つ組の出現頻度から求めることができる。ま
た、二つ組の出現頻度は三つ組の出現頻度から求めるこ
とができる。
ここで推移確率算出手段10は、三つ組の単語カテゴリ
列の推移確率を求めるとともに、該単語カテゴリ列の上
位カテゴリについての推移確率も前記出現確率算出手段
9で求めた上位カテゴリ列の出現頻度を用いて同様に求
める。そして、下位の単語カテゴリの推移確率と、上位
の単語カテゴリの推移確率に有意の差があるか否かを、
統計的な検定方法によって判定する。有意の差がない場
合には、上位カテゴリの推移確率を単語カテゴリ推移確
率テーブル6に格納する。一方、有意の差がある場合に
は、下位カテゴリの推移確率を単語カテゴリ推移確率テ
ーブル6に格納する。
列の推移確率を求めるとともに、該単語カテゴリ列の上
位カテゴリについての推移確率も前記出現確率算出手段
9で求めた上位カテゴリ列の出現頻度を用いて同様に求
める。そして、下位の単語カテゴリの推移確率と、上位
の単語カテゴリの推移確率に有意の差があるか否かを、
統計的な検定方法によって判定する。有意の差がない場
合には、上位カテゴリの推移確率を単語カテゴリ推移確
率テーブル6に格納する。一方、有意の差がある場合に
は、下位カテゴリの推移確率を単語カテゴリ推移確率テ
ーブル6に格納する。
推移確率の有意の差の有無は、下位カテゴリの推移確率
と上位カテゴリの推移確率が等しいという帰無仮説をた
て、これを統計的な検定式で検定することにより行なう
。
と上位カテゴリの推移確率が等しいという帰無仮説をた
て、これを統計的な検定式で検定することにより行なう
。
上位カテゴリの推移確率を格納する方が、細分化された
下位のカテゴリの推移確率を格納するより記憶容量が少
なくてすむ。また、上位カテゴリの方が出現頻度数が多
くなるので、統計的な精度は向上する。
下位のカテゴリの推移確率を格納するより記憶容量が少
なくてすむ。また、上位カテゴリの方が出現頻度数が多
くなるので、統計的な精度は向上する。
また、推移確率算出手段10は、上位カテゴリの推移確
率を算出する際に、その下位カテゴリのなかで帰無仮説
が棄却されたカテゴリによる出現頻度を差し引いたうえ
で、上位カテゴリの推移確率を算出することができ、さ
らに、上位カテゴリの推移確率の代わりに、類似カテゴ
リの推移確率、あるいは複数の単語カテゴリの推移確率
の関数として得られる推移確率を、単語カテゴリ推移確
率として利用することもできる。また、出現頻度Oの単
語カテゴリ列と、構文上出現し得ないことが明らかな単
語カテゴリ列は、区別して推移確率を計算する。熟語に
なり得る単語列に対しては、熟語になり得る確率を利用
し、熟語の場合と熟語でない場合のそれぞれについて推
移確率を算出する。
率を算出する際に、その下位カテゴリのなかで帰無仮説
が棄却されたカテゴリによる出現頻度を差し引いたうえ
で、上位カテゴリの推移確率を算出することができ、さ
らに、上位カテゴリの推移確率の代わりに、類似カテゴ
リの推移確率、あるいは複数の単語カテゴリの推移確率
の関数として得られる推移確率を、単語カテゴリ推移確
率として利用することもできる。また、出現頻度Oの単
語カテゴリ列と、構文上出現し得ないことが明らかな単
語カテゴリ列は、区別して推移確率を計算する。熟語に
なり得る単語列に対しては、熟語になり得る確率を利用
し、熟語の場合と熟語でない場合のそれぞれについて推
移確率を算出する。
以上の処理で、単語辞書5および単語カテゴリ推移確率
テーブル6が生成される。
テーブル6が生成される。
入力文字列7の品詞や単語を推定する品詞/単語推定部
3は、まず、単語列抽出手段11を有する。単語列抽出
手段11は、入力文字列7の文字列に対応する単語を単
語辞書5を使用して抽出する。単語辞書5には、単語の
見出しとともに品詞等の単語カテゴリと頻度が格納され
ているので、抽出した各単語についていくつかの単語カ
テゴリが対応する。すなわち、単語列抽出手段11は、
入力文字列7を単語カテゴリ候補列に変換する。
3は、まず、単語列抽出手段11を有する。単語列抽出
手段11は、入力文字列7の文字列に対応する単語を単
語辞書5を使用して抽出する。単語辞書5には、単語の
見出しとともに品詞等の単語カテゴリと頻度が格納され
ているので、抽出した各単語についていくつかの単語カ
テゴリが対応する。すなわち、単語列抽出手段11は、
入力文字列7を単語カテゴリ候補列に変換する。
また、単語列抽出手段11は単語辞書5に登録されてい
ない未登録語については、該単語が大文字で始まるか否
か、および、語尾の情報をもとに、単語カテゴリ候補を
推定するとともに、該単語カテゴリになり得る確率を求
める。
ない未登録語については、該単語が大文字で始まるか否
か、および、語尾の情報をもとに、単語カテゴリ候補を
推定するとともに、該単語カテゴリになり得る確率を求
める。
次に、品詞/単語推定部3は、推移確率決定手段12を
有する。推移確率決定手段12は、前記単語列抽出手段
11が求めた単語カテゴリ候補列を入力とし、各単語カ
テゴリ候補列についての推移確率を単語カテゴリ推移確
率テーブル6を参照して求める。
有する。推移確率決定手段12は、前記単語列抽出手段
11が求めた単語カテゴリ候補列を入力とし、各単語カ
テゴリ候補列についての推移確率を単語カテゴリ推移確
率テーブル6を参照して求める。
単語カテゴリ推移確率テーブル6から、単語カテゴリ候
補列の推移確率を参照する場合、該単語カテゴリ候補列
の推移確率ではなく、上位の単語カテゴリの推移確率が
格納されている場合がある。
補列の推移確率を参照する場合、該単語カテゴリ候補列
の推移確率ではなく、上位の単語カテゴリの推移確率が
格納されている場合がある。
この場合は、上位の単語カテゴリ列の推移確率を採用す
る。また、推移確率決定手段12は、特定の単語カテゴ
リ列については一つの単語カテゴリとみなして推移確率
を決定する。
る。また、推移確率決定手段12は、特定の単語カテゴ
リ列については一つの単語カテゴリとみなして推移確率
を決定する。
また、未登録語を含む単語列については、前記単語列抽
出手段11で求めた未登録語の単語カテゴリによって単
語カテゴリ推移確率テーブル6を参照して推移確率を得
、未登録語が該単語カテゴリになる確率を含めて、該単
語カテゴリ候補列の推移確率とする。
出手段11で求めた未登録語の単語カテゴリによって単
語カテゴリ推移確率テーブル6を参照して推移確率を得
、未登録語が該単語カテゴリになる確率を含めて、該単
語カテゴリ候補列の推移確率とする。
最後に、品詞/単語推定部3は、品詞/単語決定手段1
3を有する。品詞/単語推定手段13は、前記推移確率
決定手段12で求めた各単語カテゴリ列の推移確率を元
に、最適な品詞あるいは単語、あるいは最適な品詞ある
いは単語の候補を求め、品詞/単語推定結果8として出
力する。
3を有する。品詞/単語推定手段13は、前記推移確率
決定手段12で求めた各単語カテゴリ列の推移確率を元
に、最適な品詞あるいは単語、あるいは最適な品詞ある
いは単語の候補を求め、品詞/単語推定結果8として出
力する。
多くの場合、単語の一つの三つ組について、複数の単語
カテゴリ列の三つ組が存在し、前記推移確率決定手段1
2では、それぞれの単語カテゴリの三つ組について推移
確率を求めて、品詞/単語決定手段13に入力される。
カテゴリ列の三つ組が存在し、前記推移確率決定手段1
2では、それぞれの単語カテゴリの三つ組について推移
確率を求めて、品詞/単語決定手段13に入力される。
品詞/単語決定手段13は、これらの単語カテゴリの三
つ組の推移確率を比較し、最尤の単語カテゴリの三つ組
を決定する。最尤の単語カテゴリが決まれば、各単語の
品詞が決定される。また、品詞が決まることによって複
数の単語候補のなかから単語を推定することもできる。
つ組の推移確率を比較し、最尤の単語カテゴリの三つ組
を決定する。最尤の単語カテゴリが決まれば、各単語の
品詞が決定される。また、品詞が決まることによって複
数の単語候補のなかから単語を推定することもできる。
統計的な情報による品詞/単語推定装置1を構築する場
合、まず、多くの文からなる訓練サンプル4を使って、
入力文字列7の品詞あるいは単語を推定するときに使用
する統計情報を作成する。
合、まず、多くの文からなる訓練サンプル4を使って、
入力文字列7の品詞あるいは単語を推定するときに使用
する統計情報を作成する。
まず、訓練サンプル4は推移確率生成部2のなかの出現
頻度算出手段9に入力される。訓練サンプル4の各文は
複数の単語からなるが、単語の他に品詞等の単語カテゴ
リ情報を付しである。出現頻度算出手段9は、まず、訓
練サンプル4の各文を構成する単語をもとに単語辞書5
を作成する。
頻度算出手段9に入力される。訓練サンプル4の各文は
複数の単語からなるが、単語の他に品詞等の単語カテゴ
リ情報を付しである。出現頻度算出手段9は、まず、訓
練サンプル4の各文を構成する単語をもとに単語辞書5
を作成する。
単語辞書5は、単語の見出し、品詞等の単語カテゴリ、
出現頻度を情報の組とするので、訓練サンプル4の文の
なかに単語辞書5にない単語が出現した場合には、その
単語見出しと品詞、および、出現頻度=1を単語辞書5
に格納する。また、単語辞書にすでにある単語が訓練サ
ンプル4中に出現した場合には、該当する単語見出しの
、該当する単語カテゴリについての出現頻度を1増やす
。
出現頻度を情報の組とするので、訓練サンプル4の文の
なかに単語辞書5にない単語が出現した場合には、その
単語見出しと品詞、および、出現頻度=1を単語辞書5
に格納する。また、単語辞書にすでにある単語が訓練サ
ンプル4中に出現した場合には、該当する単語見出しの
、該当する単語カテゴリについての出現頻度を1増やす
。
次に、出現頻度算出手段9は、訓練サンプル4の文を構
成する単語について、文の先頭から順に三つ組を作る。
成する単語について、文の先頭から順に三つ組を作る。
すると、それらの単語の単語カテゴリについても三つ組
ができる。例えば、単語の三つ組がI cannot
5w1mならば、単語カテゴリの三つ組は名詞−否
定の助動詞−動詞となる。出現頻度算出手段9は、訓練
サンプル4の全文について、この単語カテゴリの三つ組
の出現頻度を計数する。また、出現頻度算出手段9は、
単語カテゴリの二つ組、例えば、I cann。
ができる。例えば、単語の三つ組がI cannot
5w1mならば、単語カテゴリの三つ組は名詞−否
定の助動詞−動詞となる。出現頻度算出手段9は、訓練
サンプル4の全文について、この単語カテゴリの三つ組
の出現頻度を計数する。また、出現頻度算出手段9は、
単語カテゴリの二つ組、例えば、I cann。
tの名詞−否定の助動詞、あるいは、cann。
t 5w1mの否定の助動詞−動詞についても出現頻
度を計数する。
度を計数する。
次に、出現頻度算出手段9は単語カテゴリを階層化した
形でもち、上位のカテゴリが存在する場合には、下位カ
テゴリを統合した上位カテゴリの列について、出現頻度
を求める。例えば、cannotは否定の助動詞、ca
nは肯定の助動詞で下位の単語カテゴリであるが、これ
らの下位のカテゴリをまとめた全助動詞としての上位カ
テゴリが存在する。上位カテゴリ列の出現頻度は、既に
求めた単語カテゴリ列の出現頻度のなかで同し上位カテ
ゴリをもつ出現頻度を加算することにより求まる。すな
わち、例えば、名詞−否定の助動詞動詞の出現頻度と、
名詞−肯定の助動詞−動詞の出現頻度が求まっていれば
、上位カテゴリである全助動詞を含む上位カテゴリ列、
名詞−全助動詞−動詞の出現頻度は、名詞−否定の助動
詞−動詞の出現頻度と名詞−肯定の助動詞−動詞の出現
頻度を加算した値になる。
形でもち、上位のカテゴリが存在する場合には、下位カ
テゴリを統合した上位カテゴリの列について、出現頻度
を求める。例えば、cannotは否定の助動詞、ca
nは肯定の助動詞で下位の単語カテゴリであるが、これ
らの下位のカテゴリをまとめた全助動詞としての上位カ
テゴリが存在する。上位カテゴリ列の出現頻度は、既に
求めた単語カテゴリ列の出現頻度のなかで同し上位カテ
ゴリをもつ出現頻度を加算することにより求まる。すな
わち、例えば、名詞−否定の助動詞動詞の出現頻度と、
名詞−肯定の助動詞−動詞の出現頻度が求まっていれば
、上位カテゴリである全助動詞を含む上位カテゴリ列、
名詞−全助動詞−動詞の出現頻度は、名詞−否定の助動
詞−動詞の出現頻度と名詞−肯定の助動詞−動詞の出現
頻度を加算した値になる。
出現頻度算出手段9は、上位カテゴリを含む単語カテゴ
リ列の三つ組および二つ組の出現頻度を、それぞれ、既
に求めた三つ組および二つ組の単語カテゴリ列の出現頻
度データから算出する。
リ列の三つ組および二つ組の出現頻度を、それぞれ、既
に求めた三つ組および二つ組の単語カテゴリ列の出現頻
度データから算出する。
以上の処理により、出現頻度算出手段9は、下位カテゴ
リ列の三つ組および二つ組の出現頻度と、上位カテゴリ
を含む三つ組および二つ組の単語カテゴリ列の出現頻度
の計算を完了し、これらの出現頻度データを、推移確率
生成部2のなかの推移確率算出手段10に送る。
リ列の三つ組および二つ組の出現頻度と、上位カテゴリ
を含む三つ組および二つ組の単語カテゴリ列の出現頻度
の計算を完了し、これらの出現頻度データを、推移確率
生成部2のなかの推移確率算出手段10に送る。
推移確率算出手段10は、まず、下位カテゴリ列の三つ
組および二つ組の出現頻度データから、該三つ組の単語
カテゴリ列の推移確率を求める。
組および二つ組の出現頻度データから、該三つ組の単語
カテゴリ列の推移確率を求める。
この推移確率は、三つ組の出現頻度データを二つ組の出
現データで割った値である。次に、該三つ組のなかに上
位カテゴリをもつ単語がある場合には、上位カテゴリを
含む三つ組および二つ組の出現頻度データから、上位カ
テゴリを含む該三つ組の推移確率を求める。この推移確
率も、同様に、上位カテゴリの単語を含む三つ組の出現
頻度データを二つ組の出現データで割った値である。
現データで割った値である。次に、該三つ組のなかに上
位カテゴリをもつ単語がある場合には、上位カテゴリを
含む三つ組および二つ組の出現頻度データから、上位カ
テゴリを含む該三つ組の推移確率を求める。この推移確
率も、同様に、上位カテゴリの単語を含む三つ組の出現
頻度データを二つ組の出現データで割った値である。
三つ組単語の単語カテゴリに上位カテゴリが存在しない
場合には、推移確率算出手段10は、前に求めた三つ組
の推移確率を単語カテゴリ推移確率テーブル6に格納す
る。一方、上位カテゴリが存在する単語を含む場合には
、推移確率算出手段10は、下位カテゴリの三つ組の推
移確率と、上位カテゴリの三つ組の推移確率に有意の差
があるか否かを統計的な検定方法により判定する。
場合には、推移確率算出手段10は、前に求めた三つ組
の推移確率を単語カテゴリ推移確率テーブル6に格納す
る。一方、上位カテゴリが存在する単語を含む場合には
、推移確率算出手段10は、下位カテゴリの三つ組の推
移確率と、上位カテゴリの三つ組の推移確率に有意の差
があるか否かを統計的な検定方法により判定する。
すなわち、例えば、名詞−肯定の助動詞−動詞という三
つ組の推移確率と、名詞−全助動詞−動詞という上位カ
テゴリの三つ組の推移確率に有意の差があるか否か、ま
た、名詞−否定の助動詞動詞の推移確率と、名詞−全助
動詞−動詞の推移確率に有意の差があるか否かを判定す
る。
つ組の推移確率と、名詞−全助動詞−動詞という上位カ
テゴリの三つ組の推移確率に有意の差があるか否か、ま
た、名詞−否定の助動詞動詞の推移確率と、名詞−全助
動詞−動詞の推移確率に有意の差があるか否かを判定す
る。
そして、二つの推移確率に有意な差がないと判定された
場合には、上位カテゴリの三つ組の推移確率を下位カテ
ゴリの三つ組の推移確率の代わりに単語カテゴリ推移確
率テーブル6に格納する。
場合には、上位カテゴリの三つ組の推移確率を下位カテ
ゴリの三つ組の推移確率の代わりに単語カテゴリ推移確
率テーブル6に格納する。
一方、有意な差がある場合には、下位カテゴリの三つ組
の推移確率を単語カテゴリ推移確率テーブル6に格納す
る。
の推移確率を単語カテゴリ推移確率テーブル6に格納す
る。
例えば、名詞−肯定の助動詞−動詞の推移確率と名詞−
全助動詞−動詞の推移確率に有意な差がない場合には、
名詞−全助動詞−動詞の推移確率を単語カテゴリ推移確
率テーブル6に格納し、有意な差がある場合には、名詞
−肯定の助動詞−動詞という下位カテゴリの推移確率を
格納する。
全助動詞−動詞の推移確率に有意な差がない場合には、
名詞−全助動詞−動詞の推移確率を単語カテゴリ推移確
率テーブル6に格納し、有意な差がある場合には、名詞
−肯定の助動詞−動詞という下位カテゴリの推移確率を
格納する。
以上の処理により、単語カテゴリの推移確率の情報が単
語カテゴリ推移確率テーブル6に蓄積され、実際の品詞
/単語推定処理の準備が完了する。
語カテゴリ推移確率テーブル6に蓄積され、実際の品詞
/単語推定処理の準備が完了する。
ユーザは、準備の完了した品詞/単語推定装置1に対し
て品詞あるいは単語を推定したい文の入力文字列7を入
力する。この入力文字列7は、品詞単語推定部3の単語
列抽出手段11に入力される。
て品詞あるいは単語を推定したい文の入力文字列7を入
力する。この入力文字列7は、品詞単語推定部3の単語
列抽出手段11に入力される。
単語列抽出手段11は、入力される入力文字列7を先頭
から探索し、単語辞書5を参照しながら、単語を決定す
る。機械翻訳のような場合には、入力文字列7の単語列
はこの探索によって決定できる。一方、音声認識の認識
結果が入力文字列7になるような場合には、入力文字列
7にあいまいさが残っているため、この探索によって単
語の候補列が求まることになる。
から探索し、単語辞書5を参照しながら、単語を決定す
る。機械翻訳のような場合には、入力文字列7の単語列
はこの探索によって決定できる。一方、音声認識の認識
結果が入力文字列7になるような場合には、入力文字列
7にあいまいさが残っているため、この探索によって単
語の候補列が求まることになる。
単語列抽出手段11は、単語辞書5を参照して単語ある
いは単語候補を求めるとともに、各単語あるいは各単語
候補の単語カテゴリおよび頻度を単語辞書5から読み出
す。単語カテゴリとしては例えば品詞がある。そして、
単語カテゴリは、一つの単語あるいは単語候補に対して
複数個求まる可能性がある。例えば、単語report
については、名詞および動詞の単語カテゴリが求まるは
ずである。
いは単語候補を求めるとともに、各単語あるいは各単語
候補の単語カテゴリおよび頻度を単語辞書5から読み出
す。単語カテゴリとしては例えば品詞がある。そして、
単語カテゴリは、一つの単語あるいは単語候補に対して
複数個求まる可能性がある。例えば、単語report
については、名詞および動詞の単語カテゴリが求まるは
ずである。
単語列抽出手段11は、入力文字列7について求まった
単語列あるいは単語候補列と、頻度、単語カテゴリ列を
出力し、推移確率決定手段12に送る。
単語列あるいは単語候補列と、頻度、単語カテゴリ列を
出力し、推移確率決定手段12に送る。
推移確率決定手段12は、単語列抽出手段11から送ら
れた単語列あるいは単語候補列と、その頻度、単語カテ
ゴリ列を元に、単語カテゴリ列の三つ組についての推移
確率を決定する処理を実行する。推移確率は、前もって
準備されている単語カテゴリ推移確率テーブル6を参照
して求める。
れた単語列あるいは単語候補列と、その頻度、単語カテ
ゴリ列を元に、単語カテゴリ列の三つ組についての推移
確率を決定する処理を実行する。推移確率は、前もって
準備されている単語カテゴリ推移確率テーブル6を参照
して求める。
まず、受は取った単語カテゴリ列の先頭から順に三つ組
を作成し、各三つ組の単語カテゴリ列を単語カテゴリ推
移確率テーブル6の三つ組見出しから見つけ、そこに格
納されている推移確率を読み出す。単語カテゴリ推移確
率テーブル6には、下位カテゴリ列の推移確率の代わり
に上位カテゴリ列の推移確率が登録されている場合があ
るので、入力文字列7の単語カテゴリ列の三つ組が単語
カテゴリ推移確率テーブル6の見出しから見つからない
場合には、上位の単語カテゴリを含む三つ組に関して単
語カテゴリ推移確率テーブル6を参照する。
を作成し、各三つ組の単語カテゴリ列を単語カテゴリ推
移確率テーブル6の三つ組見出しから見つけ、そこに格
納されている推移確率を読み出す。単語カテゴリ推移確
率テーブル6には、下位カテゴリ列の推移確率の代わり
に上位カテゴリ列の推移確率が登録されている場合があ
るので、入力文字列7の単語カテゴリ列の三つ組が単語
カテゴリ推移確率テーブル6の見出しから見つからない
場合には、上位の単語カテゴリを含む三つ組に関して単
語カテゴリ推移確率テーブル6を参照する。
以上の処理によって、入力文字列7を構成する単語カテ
ゴリ列あるいは単語候補の単語カテゴリ列のすべての三
つ組について推移確率が求まる。
ゴリ列あるいは単語候補の単語カテゴリ列のすべての三
つ組について推移確率が求まる。
推移確率決定手段12は、入力文字列7の単語列あるい
は単語候補列と、その単語の出現頻度、および求まった
すべての三つ組の推移確率データを出力し、品詞/単語
推定部3の品詞/単語決定手段13に送る。
は単語候補列と、その単語の出現頻度、および求まった
すべての三つ組の推移確率データを出力し、品詞/単語
推定部3の品詞/単語決定手段13に送る。
品詞/単語決定手段13は、まず、送られたすべての三
つ組の推移確率データを元に、単語列あるいは単語候補
列の各単語の品詞を推定する。単語列の三つ組に対して
、複数の単語カテゴリの三つ組が存在する場合、基本的
には、推移確率の大きい方の三つ組を選択する。この処
理を入力文字列7の全単語列あるいは単語候補列に対し
て実行することにより、各単語の品詞あるいは少数の品
詞候補が推定される。
つ組の推移確率データを元に、単語列あるいは単語候補
列の各単語の品詞を推定する。単語列の三つ組に対して
、複数の単語カテゴリの三つ組が存在する場合、基本的
には、推移確率の大きい方の三つ組を選択する。この処
理を入力文字列7の全単語列あるいは単語候補列に対し
て実行することにより、各単語の品詞あるいは少数の品
詞候補が推定される。
推定した品詞に複数の可能性がある場合には、該単語の
頻度情報等を用いて、さらに候補を絞り、品詞を推定す
る。また、音声認識のように、複数の単語候補が入力文
字列7として存在する場合には、推定した品詞から単語
を推定することが可能である。
頻度情報等を用いて、さらに候補を絞り、品詞を推定す
る。また、音声認識のように、複数の単語候補が入力文
字列7として存在する場合には、推定した品詞から単語
を推定することが可能である。
品詞/単語決定手段13は、以上のように推定した品詞
あるいは単語を品詞/単語推定結果8としてユーザに対
して出力する。
あるいは単語を品詞/単語推定結果8としてユーザに対
して出力する。
以下、第2図乃第3図を参照しながら実施例を説明する
。
。
第2図は、本発明の一実施例のシステム構成図である。
本実施例のシステムは、例えば、汎用のコンピュータ・
システム上で構築することができる。
システム上で構築することができる。
システムは、二つに大きく分けて考えることができる。
すなわち、前処理部20と品詞/単語推定部21である
。品詞/単語推定部21は、入力文字列22を入力とし
、その文字列を構成する単語列や単語列の品詞を推定し
、品詞推定候補あるいは単語推定候補23を出力する処
理を実行する。
。品詞/単語推定部21は、入力文字列22を入力とし
、その文字列を構成する単語列や単語列の品詞を推定し
、品詞推定候補あるいは単語推定候補23を出力する処
理を実行する。
一方、前処理部20は、品詞/単語推定部21が品詞や
単語を推定する際に使用する単語の辞書や推移確率を標
本サンプル24から前もって作成し、単語辞書25およ
び単語カテゴリ推移確率テーブル26に蓄積しておく。
単語を推定する際に使用する単語の辞書や推移確率を標
本サンプル24から前もって作成し、単語辞書25およ
び単語カテゴリ推移確率テーブル26に蓄積しておく。
前処理部20は、単語頻度計算・登録部27、三つ組出
現頻度計算部28、上位カテゴリ出現頻度計算部29、
推移確率生成部30といくつかのファイルからなる。フ
ァイルには、前述の訓練サンプル・ファイル24、単語
辞書25、単語カテゴリ推移確率テーブル26のほかに
、三つ組出現頻度ファイル31、上位カテゴリ三つ組出
現頻度ファイル32、単語カテゴリ階層辞書33がある
。
現頻度計算部28、上位カテゴリ出現頻度計算部29、
推移確率生成部30といくつかのファイルからなる。フ
ァイルには、前述の訓練サンプル・ファイル24、単語
辞書25、単語カテゴリ推移確率テーブル26のほかに
、三つ組出現頻度ファイル31、上位カテゴリ三つ組出
現頻度ファイル32、単語カテゴリ階層辞書33がある
。
訓練サンプル24は、多くの文からなる。各文は複数の
単語からなるが、各単語には、該文中での使用方法であ
る単語カテゴリが記述されている。
単語からなるが、各単語には、該文中での使用方法であ
る単語カテゴリが記述されている。
例えば、名詞や動詞等の品詞情報を単語カテゴリとして
使用する。
使用する。
訓練サンプル24の文は、単語頻度計算・登録部27お
よび三つ組出現頻度計算部28に入力される。単語頻度
計算・登録部27は、訓練サンプル24の文を構成する
単語の出現頻度を計数し、単語辞書25に、単語の見出
し、単語カテゴリ、出現頻度を組として登録する。一方
、三つ組出現頻度計算部28は、訓練サンプル24の各
文について、文頭から順に3個の単語を三つ組として取
り出し、それぞれの単語の単語カテゴリで構成される単
語カテゴリの三つ組について出現頻度を計数する。また
、2個の連続する単語列を二つ組とし、単語カテゴリの
二つ組の出現頻度も計数する。
よび三つ組出現頻度計算部28に入力される。単語頻度
計算・登録部27は、訓練サンプル24の文を構成する
単語の出現頻度を計数し、単語辞書25に、単語の見出
し、単語カテゴリ、出現頻度を組として登録する。一方
、三つ組出現頻度計算部28は、訓練サンプル24の各
文について、文頭から順に3個の単語を三つ組として取
り出し、それぞれの単語の単語カテゴリで構成される単
語カテゴリの三つ組について出現頻度を計数する。また
、2個の連続する単語列を二つ組とし、単語カテゴリの
二つ組の出現頻度も計数する。
そして、求めた三つ組および二つ組の出現頻度を三つ組
出現頻度ファイル31に格納する。
出現頻度ファイル31に格納する。
三つ組出現頻度計算部28の処理が終了したら、次に上
位カテゴリ出現頻度計算部29を稼働する。
位カテゴリ出現頻度計算部29を稼働する。
単語カテゴリは、前述したように、品詞等の単語の使い
方の分類である。本発明では、単語カテゴリを階層化す
ることが特徴である。例えば、名詞という単語カテゴリ
の下位カテゴリとして普通名詞と固有名詞を置き、また
、普通名詞の単語カテゴリの下位に単数名詞と複数名詞
のカテゴリを置いて、単語カテゴリを階層化する。また
、例えば、助動詞という単語カテゴリの下位に否定の助
動詞と、肯定の助動詞の下位カテゴリを置く。このよう
な単語カテゴリの階層構造は、単語カテゴリ階層辞書3
3に前もって記述しておく。また、訓練サンプル24の
文中の各単語には、下位の最も細分化された単語カテゴ
リを記述しておく。
方の分類である。本発明では、単語カテゴリを階層化す
ることが特徴である。例えば、名詞という単語カテゴリ
の下位カテゴリとして普通名詞と固有名詞を置き、また
、普通名詞の単語カテゴリの下位に単数名詞と複数名詞
のカテゴリを置いて、単語カテゴリを階層化する。また
、例えば、助動詞という単語カテゴリの下位に否定の助
動詞と、肯定の助動詞の下位カテゴリを置く。このよう
な単語カテゴリの階層構造は、単語カテゴリ階層辞書3
3に前もって記述しておく。また、訓練サンプル24の
文中の各単語には、下位の最も細分化された単語カテゴ
リを記述しておく。
ここで、上位カテゴリ出現頻度計算部29は、三つ組出
現頻度ファイル31に格納された単語カテゴリの三つ組
を一つ一つ取り出し、各三つ組の単語カテゴリに上位カ
テゴリが存在するか否かを単語カテゴリ階層辞書33を
参照して判断する。
現頻度ファイル31に格納された単語カテゴリの三つ組
を一つ一つ取り出し、各三つ組の単語カテゴリに上位カ
テゴリが存在するか否かを単語カテゴリ階層辞書33を
参照して判断する。
上位カテゴリが存在する場合には、下位カテゴリの三つ
組の出現頻度を合計した値を上位カテゴリの三つ組の出
現頻度として上位カテゴリ三つ組出現頻度ファイル32
に格納する。
組の出現頻度を合計した値を上位カテゴリの三つ組の出
現頻度として上位カテゴリ三つ組出現頻度ファイル32
に格納する。
すなわち、例えば、固有名詞−助動詞−動詞という三つ
組については、固有名詞と普通名詞の上位に名詞という
上位カテゴリが存在するので、固有名詞−助動詞−動詞
の出現頻度と普通名詞−助動詞−動詞の出現頻度を合計
して、名詞−助動詞−動詞の出現頻度とし、上位カテゴ
リ三つ組出現頻度ファイル32に格納する。
組については、固有名詞と普通名詞の上位に名詞という
上位カテゴリが存在するので、固有名詞−助動詞−動詞
の出現頻度と普通名詞−助動詞−動詞の出現頻度を合計
して、名詞−助動詞−動詞の出現頻度とし、上位カテゴ
リ三つ組出現頻度ファイル32に格納する。
上位カテゴリ出現頻度計算部29は、以上の処理を三つ
組出現頻度ファイル31に格納されているすべての三つ
組および二つ組に対して実行する。
組出現頻度ファイル31に格納されているすべての三つ
組および二つ組に対して実行する。
これによって、上位カテゴリ三つ組出現頻度ファイル3
2には、上位カテゴリの三つ組および二つ組の出現頻度
が格納される。
2には、上位カテゴリの三つ組および二つ組の出現頻度
が格納される。
上位カテゴリの出現頻度の計算が完了した後、推移確率
生成部30を稼働する。推移確率生成部30は、推移確
率同一性検定部34および推移確率計算部35、推移確
率登録部36からなる。
生成部30を稼働する。推移確率生成部30は、推移確
率同一性検定部34および推移確率計算部35、推移確
率登録部36からなる。
推移確率生成部30が稼働されると、まず、推移確率同
一性検定部34が三つ組出現頻度ファイル31から対応
する三つ組と二つ組の出現頻度を取り出し、推移確率計
算部35を起動して該三つ組の推移確率を算出する。単
語カテゴリWlの三つ組をWl −Wl −Wl とす
ると、それに対応する二つ組はw2−Wlである。単語
カテゴリの三つ組W、−W2−W3の推移確率は、三つ
組W。
一性検定部34が三つ組出現頻度ファイル31から対応
する三つ組と二つ組の出現頻度を取り出し、推移確率計
算部35を起動して該三つ組の推移確率を算出する。単
語カテゴリWlの三つ組をWl −Wl −Wl とす
ると、それに対応する二つ組はw2−Wlである。単語
カテゴリの三つ組W、−W2−W3の推移確率は、三つ
組W。
Wl−Wlの出現頻度と、二つ組W2−w3の出現頻度
から求めることができる。
から求めることができる。
次に、推移確率同一性検定部34は、上位カテゴリ三つ
組出現頻度ファイル32がら該三つ組w1−w2−W3
の上位カテゴリの三つ組の出現頻度と二つ組の出現頻度
を取り込む。すなわち、単語カテゴリWiの上位カテゴ
リをU、とすると、上位カテゴリの三つ組Wl−u2−
u3の出現頻度と二つ組u2−u3の出現頻度を取り込
む。そして推移確率計算部35を起動して、上位カテゴ
リの三つ組wl −u2−u3の推移確率を算出する。
組出現頻度ファイル32がら該三つ組w1−w2−W3
の上位カテゴリの三つ組の出現頻度と二つ組の出現頻度
を取り込む。すなわち、単語カテゴリWiの上位カテゴ
リをU、とすると、上位カテゴリの三つ組Wl−u2−
u3の出現頻度と二つ組u2−u3の出現頻度を取り込
む。そして推移確率計算部35を起動して、上位カテゴ
リの三つ組wl −u2−u3の推移確率を算出する。
以上の処理によって、三つiWl−Wl−w3の推移確
率P1.Iと上位カテゴリの三つ組Wl −u2−u3
の推移確率P5が求まる。
率P1.Iと上位カテゴリの三つ組Wl −u2−u3
の推移確率P5が求まる。
次に、推移確率同一性検定部34は、推移確率p−とp
、に有意の差があるか否がを統計的に判定する。そして
、有意の差がない場合には、上位カテゴリを用いた推移
確率の推定値↑5を三つ組wl −w2−Wlより求め
た推移確率の推定41 p wに代わる推移確率と見な
し、推移確率登録部36に送る。推移確率登録部36は
、単語カテゴリ推移確率テーブル26に、上位カテゴリ
の三つ組w1u2−u3から求めた推移確率の推定値P
uを格納する。一方、推移確率P−とPuに有意の差が
ある場合には、推移確率p8登録部36を起動し、下位
カテゴリから求めた推移確率の推定値P1を単語カテゴ
リ推移確率テーブル26に格納する。
、に有意の差があるか否がを統計的に判定する。そして
、有意の差がない場合には、上位カテゴリを用いた推移
確率の推定値↑5を三つ組wl −w2−Wlより求め
た推移確率の推定41 p wに代わる推移確率と見な
し、推移確率登録部36に送る。推移確率登録部36は
、単語カテゴリ推移確率テーブル26に、上位カテゴリ
の三つ組w1u2−u3から求めた推移確率の推定値P
uを格納する。一方、推移確率P−とPuに有意の差が
ある場合には、推移確率p8登録部36を起動し、下位
カテゴリから求めた推移確率の推定値P1を単語カテゴ
リ推移確率テーブル26に格納する。
単語カテゴリ推移確率テーブル26には、下位カテゴリ
の推移確率と上位カテゴリの推移確率に有意な差がない
場合には上位カテゴリの推移確率を登録し、有意な差が
ある場合には下位カテゴリの推移確率を登録することに
なる。
の推移確率と上位カテゴリの推移確率に有意な差がない
場合には上位カテゴリの推移確率を登録し、有意な差が
ある場合には下位カテゴリの推移確率を登録することに
なる。
これによって、下位カテゴリを増やし、すなわち、単語
カテゴリを細かく分けたとしても、統計的に下位カテゴ
リの推移確率と上位カテゴリの推移確率に有意な差がな
ければ、上位カテゴリの推移確率で代替でき、上位カテ
ゴリの推移確率と、有意の差がある下位カテゴリの推移
確率を単語カテゴリ推移確率テーブル26に格納すれば
よいことになる。これによって単語カテゴリを多くとっ
ても、単語カテゴリ推移確率テーブル26の記憶容量は
小さく抑えられる。また、上位カテゴリの出現頻度は下
位カテゴリの出現頻度よりも多いので、推移確率の統計
的な精度も向上することになる。
カテゴリを細かく分けたとしても、統計的に下位カテゴ
リの推移確率と上位カテゴリの推移確率に有意な差がな
ければ、上位カテゴリの推移確率で代替でき、上位カテ
ゴリの推移確率と、有意の差がある下位カテゴリの推移
確率を単語カテゴリ推移確率テーブル26に格納すれば
よいことになる。これによって単語カテゴリを多くとっ
ても、単語カテゴリ推移確率テーブル26の記憶容量は
小さく抑えられる。また、上位カテゴリの出現頻度は下
位カテゴリの出現頻度よりも多いので、推移確率の統計
的な精度も向上することになる。
前処理部20の各部が処理を実行することによって単語
カテゴリ推移確率テーブル26への推移確率の蓄積処理
が完了すると、前処理部20の処理は終了し、品詞/単
語推定部21の処理を実行することが可能になる。
カテゴリ推移確率テーブル26への推移確率の蓄積処理
が完了すると、前処理部20の処理は終了し、品詞/単
語推定部21の処理を実行することが可能になる。
品詞/単語推定部21は、単語検索部37および最尤候
補探索部38、推移確率検定部39からなる。単語検索
部37は、入力文字列22を受は取り、前処理部20で
作成した単語辞書25を参照することにより、入力文字
列22を単語に分割する。分割された各単語には、単語
辞書25を参照することによって、いくつかの単語カテ
ゴリ候補と各単語カテゴリ候補についての出現頻度が付
加されている。単語検索部37は、求めた単語カテゴリ
候補列を最尤候補探索部38に送る。
補探索部38、推移確率検定部39からなる。単語検索
部37は、入力文字列22を受は取り、前処理部20で
作成した単語辞書25を参照することにより、入力文字
列22を単語に分割する。分割された各単語には、単語
辞書25を参照することによって、いくつかの単語カテ
ゴリ候補と各単語カテゴリ候補についての出現頻度が付
加されている。単語検索部37は、求めた単語カテゴリ
候補列を最尤候補探索部38に送る。
最尤候補探索部38は、単語検索部37が検索した各単
語について、最も最適な品詞を見つけだす処理を行なう
。すなわち、単語カテゴリ候補列の三つ組を作り、各部
つ組について推移確率を求め、推移確率の大きい三つ組
を最尤の品詞とするのである。最尤候補探索部38は、
推移確率検定部39を起動し、その結果得られた推移確
率から最尤の品詞を推定する。
語について、最も最適な品詞を見つけだす処理を行なう
。すなわち、単語カテゴリ候補列の三つ組を作り、各部
つ組について推移確率を求め、推移確率の大きい三つ組
を最尤の品詞とするのである。最尤候補探索部38は、
推移確率検定部39を起動し、その結果得られた推移確
率から最尤の品詞を推定する。
このとき推移確率検定部39は、三つ組の推移確率を前
処理部20で作成した単語カテゴリ推移確率テーブル2
6を参照して求める。推移確率を求めたい三つ組の単語
カテゴリに上位カテゴリが存在する場合には、単語カテ
ゴリ推移確率テーブル26に上位カテゴリの推移確率が
登録されている場合もある。求めたい三つ組の推移確率
が単語カテゴリ推移確率テーブル26中にない場合には
上位カテゴリの三つ組の推移確率を参照する。
処理部20で作成した単語カテゴリ推移確率テーブル2
6を参照して求める。推移確率を求めたい三つ組の単語
カテゴリに上位カテゴリが存在する場合には、単語カテ
ゴリ推移確率テーブル26に上位カテゴリの推移確率が
登録されている場合もある。求めたい三つ組の推移確率
が単語カテゴリ推移確率テーブル26中にない場合には
上位カテゴリの三つ組の推移確率を参照する。
以上の処理によって、最尤の品詞推定候補あるいは単語
推定候補23が品詞/単語推定部21から出力されるこ
とになる。
推定候補23が品詞/単語推定部21から出力されるこ
とになる。
第3図は、一実施例の動作フローチャートおよび説明図
である。第2図のシステム構成の各部の動作を第3図に
沿って説明する。
である。第2図のシステム構成の各部の動作を第3図に
沿って説明する。
第3図(a)は、訓練サンプル24の例文である。”A
recent report 1ssued by
the ComputerSience and Te
chnology Board su+u+ariz
es the prtorities in 5oft
&LIare research、 ”という例文の各
単語に、該文中でのその単語の使用法である単語カテゴ
リが付記されている。すなわち、′A″に付加されてい
る(ART)は冠詞、’recent”の(ADJ)は
形容詞、report”の(N)は名詞、”1ssue
d”の(V、EN)は動詞の過去分詞、“by”の(P
REP)は前置詞、”and″の(CJ 、 Co)は
等位接続詞、summa r 1zes”の(V、ES
)は動詞の三人称現在形、“priorities”の
(N、PL)は名詞の複数形、“、”の(Z、5CL)
は句読点である。
recent report 1ssued by
the ComputerSience and Te
chnology Board su+u+ariz
es the prtorities in 5oft
&LIare research、 ”という例文の各
単語に、該文中でのその単語の使用法である単語カテゴ
リが付記されている。すなわち、′A″に付加されてい
る(ART)は冠詞、’recent”の(ADJ)は
形容詞、report”の(N)は名詞、”1ssue
d”の(V、EN)は動詞の過去分詞、“by”の(P
REP)は前置詞、”and″の(CJ 、 Co)は
等位接続詞、summa r 1zes”の(V、ES
)は動詞の三人称現在形、“priorities”の
(N、PL)は名詞の複数形、“、”の(Z、5CL)
は句読点である。
このような訓練サンプルの文が、まず、単語頻度計算・
登録部27に入力される。同図(b)は、単語頻度計算
・登録部27の動作フローチャートである。
登録部27に入力される。同図(b)は、単語頻度計算
・登録部27の動作フローチャートである。
まず、訓練サンプル24のファイルをオーブンする(S
l)。そして、次に、該ファイルに例文があるか否かを
判定する(S2)。例文がある場合(no)には、ファ
イルから文を一つ読み込む(S3)。そして、例文を構
成している各単語の頻度データを1増やす(S4)。す
なわち、同図(a)の例文ならば、単語見出し″A I
+のなかで単語カテゴリが冠詞(ART)の場合の出現
頻度データを1増やし、次に、単語カテゴリが形容詞(
ADJ)のrecent”の出現頻度を1増やす。この
処理を1文の全単語について実行する。
l)。そして、次に、該ファイルに例文があるか否かを
判定する(S2)。例文がある場合(no)には、ファ
イルから文を一つ読み込む(S3)。そして、例文を構
成している各単語の頻度データを1増やす(S4)。す
なわち、同図(a)の例文ならば、単語見出し″A I
+のなかで単語カテゴリが冠詞(ART)の場合の出現
頻度データを1増やし、次に、単語カテゴリが形容詞(
ADJ)のrecent”の出現頻度を1増やす。この
処理を1文の全単語について実行する。
1文の全単語について頻度のインクリメント処理が終了
したら、S2に戻り、ファイル中にまだ例文があるか否
かを判定し、ある場合には、S3、S4の処理を繰り返
す。32〜S4の処理で、訓練サンプル24のファイル
の全文について、出現する単語の頻度が計数される。
したら、S2に戻り、ファイル中にまだ例文があるか否
かを判定し、ある場合には、S3、S4の処理を繰り返
す。32〜S4の処理で、訓練サンプル24のファイル
の全文について、出現する単語の頻度が計数される。
S2でファイル中の例文がなくなったと判断した場合(
yes)には、すべての出現単語について、単語カテゴ
リ、頻度、単語見出しを組にした単語辞書25に登録し
くS5)、処理を終了する(END)。以上の処理で、
単語辞書25が作成される。
yes)には、すべての出現単語について、単語カテゴ
リ、頻度、単語見出しを組にした単語辞書25に登録し
くS5)、処理を終了する(END)。以上の処理で、
単語辞書25が作成される。
同図(C)は単語辞書25の内容の例である。
rADJ 28 back Jは、”back”と
いう単語を形容詞(ADJ)として使用した頻度が28
回であることを意味する。この例から分かるように、一
つの単語には複数の単語カテゴリがあり、それぞれの単
語カテゴリについての頻度を辞書に格納しである。
いう単語を形容詞(ADJ)として使用した頻度が28
回であることを意味する。この例から分かるように、一
つの単語には複数の単語カテゴリがあり、それぞれの単
語カテゴリについての頻度を辞書に格納しである。
例えば、単語“back”には、形容詞(ADJ) 、
副詞(ADV) 、名詞(N)、動詞(V)の単語カテ
ゴリが存在し、訓練サンプル24の全文において出現し
た頻度は、それぞれ、28回、733回、179回、2
6回である。
副詞(ADV) 、名詞(N)、動詞(V)の単語カテ
ゴリが存在し、訓練サンプル24の全文において出現し
た頻度は、それぞれ、28回、733回、179回、2
6回である。
訓練サンプル24の各文は三つ組出現頻度計算部28に
も入力される。同図(d)は、三つ組出現頻度計算部2
8の動作フローチャートである。
も入力される。同図(d)は、三つ組出現頻度計算部2
8の動作フローチャートである。
まず、訓練サンプル24のファイルをオープンする(S
6)。そして、次に、該ファイルに例文があるか否かを
判定する(S7)。例文がある場合(no)には、ファ
イルから文を一つ読み込む(S8)。例えば、同図(a
)の例文を読み込んだとする0次に、読み込んだ文の文
頭に二つの文頭記号と、文末に二つの文末記号を加える
(S9)ここでは、文頭記号と文末記号を“#”とする
。
6)。そして、次に、該ファイルに例文があるか否かを
判定する(S7)。例文がある場合(no)には、ファ
イルから文を一つ読み込む(S8)。例えば、同図(a
)の例文を読み込んだとする0次に、読み込んだ文の文
頭に二つの文頭記号と、文末に二つの文末記号を加える
(S9)ここでは、文頭記号と文末記号を“#”とする
。
すると、同図(a)の例文は、文頭と文末にそれぞれ“
# #”が付加されたかたちになる。
# #”が付加されたかたちになる。
次に、該文の単語数を数え、Lとする(310)文頭記
号“#”、文末記号“#”、句読点も1単語と数えて計
数する。同図(a)の例文の場合、L=20である。
号“#”、文末記号“#”、句読点も1単語と数えて計
数する。同図(a)の例文の場合、L=20である。
この後、該文に現れる単語の三つ組、二つ組について、
出現頻度を計数する処理を実行する。
出現頻度を計数する処理を実行する。
まず、何番目の単語かを表す変数をiとし、i=0に設
定する(Sll)(先頭の単語を0番目の単語とする)
。そして、(1番目の単語、i十1番目の単語、i+2
番目の単語)の組を三つ組とし、三つ組単語の単語カテ
ゴリ列の出現頻度に1を加える(S12)。同図(a)
の例文の場合、i=0のときに得られる三つ組単語は(
#、 #。
定する(Sll)(先頭の単語を0番目の単語とする)
。そして、(1番目の単語、i十1番目の単語、i+2
番目の単語)の組を三つ組とし、三つ組単語の単語カテ
ゴリ列の出現頻度に1を加える(S12)。同図(a)
の例文の場合、i=0のときに得られる三つ組単語は(
#、 #。
A)であり、単語カテゴリの三つ組は(#、 #。
ART)である。そしてS12は(#、 ;#、 AR
T)の出現頻度を1増やす。
T)の出現頻度を1増やす。
次に、i>L−4を判定する(S13)。これは読み込
んだ文中に二つ組がまだ存在するか否かを判定する判定
式であり、i≦L−4ならば(no)まだ二つ組が存在
し、i>L−4ならば(yes)二つ組は存在しないこ
とを意味する。二つ組が存在する場合には(n o )
、二つ組(i+1番目の単語、i+2番目の単語)の
単語カテゴリ列の出現頻度に1を加える(S14)。同
図(a)の例文の場合、i−0のとき得られる二つ組の
単語は(#、 A >であり、単語カテゴリの二つ組は
(#、 ART)である。そして、S14は(#、 A
RT)の出現頻度を1増やす。
んだ文中に二つ組がまだ存在するか否かを判定する判定
式であり、i≦L−4ならば(no)まだ二つ組が存在
し、i>L−4ならば(yes)二つ組は存在しないこ
とを意味する。二つ組が存在する場合には(n o )
、二つ組(i+1番目の単語、i+2番目の単語)の
単語カテゴリ列の出現頻度に1を加える(S14)。同
図(a)の例文の場合、i−0のとき得られる二つ組の
単語は(#、 A >であり、単語カテゴリの二つ組は
(#、 ART)である。そして、S14は(#、 A
RT)の出現頻度を1増やす。
二つ組の出現頻度を増やした後、i=i+lにする(3
15)。313で二つ組が存在しない(yes)の場合
にもS15を実行する。そして、次に、i>L−3を判
定する(S16)。これは、読み込んだ文中に三つ組が
まだ存在するか否かを判定する判定式であり、i≦L−
3ならば(no)まだ三つ組が存在し、i>L−3なら
ば(yes)三つ組は存在しないことを意味する。
15)。313で二つ組が存在しない(yes)の場合
にもS15を実行する。そして、次に、i>L−3を判
定する(S16)。これは、読み込んだ文中に三つ組が
まだ存在するか否かを判定する判定式であり、i≦L−
3ならば(no)まだ三つ組が存在し、i>L−3なら
ば(yes)三つ組は存在しないことを意味する。
三つ組が存在する場合には(no)、312〜S14の
処理を実行し、三つ組、二つ組の出現確率をインクリメ
ントする。すなわち、i=1の場合の三つ組単語は(#
、 A 、 recent) 、その単語カテゴリ列は
(#、 ART、 ADJ)であり、312で(#、
ART、 ADJ)の出現頻度を1増やす。二つ組単語
は(A 、 recent) 、その単語カテゴリ列は
(ART、 ADJ)であり、S13で(ART、 A
DJ)の出現頻度を1増す。
処理を実行し、三つ組、二つ組の出現確率をインクリメ
ントする。すなわち、i=1の場合の三つ組単語は(#
、 A 、 recent) 、その単語カテゴリ列は
(#、 ART、 ADJ)であり、312で(#、
ART、 ADJ)の出現頻度を1増やす。二つ組単語
は(A 、 recent) 、その単語カテゴリ列は
(ART、 ADJ)であり、S13で(ART、 A
DJ)の出現頻度を1増す。
読み込んだ三つ組がもう存在しない(316のyes)
場合には、S7に戻り、ファイル中にまだ文が残ってい
る場合には(S7のno)・、38〜316の処理によ
って三つ組、二つ組の単語カテゴリの出現頻度を計数す
る。
場合には、S7に戻り、ファイル中にまだ文が残ってい
る場合には(S7のno)・、38〜316の処理によ
って三つ組、二つ組の単語カテゴリの出現頻度を計数す
る。
以上の処理によって、訓練サンプル24の全文について
、そのなかに出現する単語カテゴリの三つ組、二つ組の
全出現頻度が求まる。S7で文がファイル中になくなっ
たと判断した場合には(yes)、三つ組出現頻度計算
部の処理を終了する(END)。
、そのなかに出現する単語カテゴリの三つ組、二つ組の
全出現頻度が求まる。S7で文がファイル中になくなっ
たと判断した場合には(yes)、三つ組出現頻度計算
部の処理を終了する(END)。
同図(e)は、三つ組出現頻度ファイル31の内容例で
ある。該ファイル31中には二つ組頻度ファイルと三つ
組頻度ファイルがある。例えば、二つ組頻度ファイルの
場合、rcJ、cOAUX 290 Jといった内容
が格納されている。これは、単語カテゴリの二つ組、等
位接続詞(CJ、C0)−肯定の助動詞(AUX)の出
現頻度が290回であることを表す。
ある。該ファイル31中には二つ組頻度ファイルと三つ
組頻度ファイルがある。例えば、二つ組頻度ファイルの
場合、rcJ、cOAUX 290 Jといった内容
が格納されている。これは、単語カテゴリの二つ組、等
位接続詞(CJ、C0)−肯定の助動詞(AUX)の出
現頻度が290回であることを表す。
rcJ、cOAUX:NOT 26Jは、等位接続詞
(CJ、C0)−否定の助動詞(AUX:N0T)の出
現頻度が26回であることを表す。また、三つ組の頻度
ファイルにも同様のデータが格納される。r# CJ
、COAUX16」は、文頭記号−等位接続詞(CJ、
C0)−肯定の助動詞(AUX)の出現頻度が16回で
あることを、r# CJ、COAUX:NOT I
Jは、文頭記号−等位接続詞(CJ、C0)−否定の
助動詞(ALIX:N0T)の出現頻度が1回であるこ
とを表す。
(CJ、C0)−否定の助動詞(AUX:N0T)の出
現頻度が26回であることを表す。また、三つ組の頻度
ファイルにも同様のデータが格納される。r# CJ
、COAUX16」は、文頭記号−等位接続詞(CJ、
C0)−肯定の助動詞(AUX)の出現頻度が16回で
あることを、r# CJ、COAUX:NOT I
Jは、文頭記号−等位接続詞(CJ、C0)−否定の
助動詞(ALIX:N0T)の出現頻度が1回であるこ
とを表す。
三つ組および二つ組の出現頻度がすべて三つ組出現頻度
ファイル31に格納されると、次に上位カテゴリ出現頻
度計算部29が起動される。同図(f)は、上位カテゴ
リ出現頻度計算部29の動作フローチャートである。
ファイル31に格納されると、次に上位カテゴリ出現頻
度計算部29が起動される。同図(f)は、上位カテゴ
リ出現頻度計算部29の動作フローチャートである。
まず、三つ組出現頻度ファイル31をオーブンする(S
20)。そして、次に、該ファイルに出現頻度のデータ
があるか否かを判定する(321)データがある場合(
no)には、ファイルからデータを一つ読み込む(S2
2)。さらに、そのデータが三つ組のデータか、二つ組
のデータかを判断する(S23)。
20)。そして、次に、該ファイルに出現頻度のデータ
があるか否かを判定する(321)データがある場合(
no)には、ファイルからデータを一つ読み込む(S2
2)。さらに、そのデータが三つ組のデータか、二つ組
のデータかを判断する(S23)。
三つ組データの場合には、まず、核部つ組データの出現
頻度をfとする(324)。このとき、三つ組の単語カ
テゴリ列を(w、、w2 、w3 )とする。そして、
単語カテゴリ階層辞書33を参照して、w2.w3の上
位カテゴリを求め、それぞれ、uz、uzとする(32
5)、そして、上位カテゴリ三つ組出現頻度ファイル3
2から(W+uz、uz)の出現頻度を読み出し、その
値にfを加算した値に出現頻度データを更新する(32
6)。ここで、上位カテゴリ三つ組出現頻度ファイル3
2に(W+ 、uz、uz )のデータがない場合には
、上位カテゴリ三つ組出現頻度ファイル32に新たに(
W+ 、uz、uz )の出現頻度fを格納する。
頻度をfとする(324)。このとき、三つ組の単語カ
テゴリ列を(w、、w2 、w3 )とする。そして、
単語カテゴリ階層辞書33を参照して、w2.w3の上
位カテゴリを求め、それぞれ、uz、uzとする(32
5)、そして、上位カテゴリ三つ組出現頻度ファイル3
2から(W+uz、uz)の出現頻度を読み出し、その
値にfを加算した値に出現頻度データを更新する(32
6)。ここで、上位カテゴリ三つ組出現頻度ファイル3
2に(W+ 、uz、uz )のデータがない場合には
、上位カテゴリ三つ組出現頻度ファイル32に新たに(
W+ 、uz、uz )の出現頻度fを格納する。
このとき、325の処理で、W2.W3のどちらにも上
位カテゴリが存在しない場合には、S26の処理を実行
せずに321に戻る。
位カテゴリが存在しない場合には、S26の処理を実行
せずに321に戻る。
324〜S26の処理によって一つの三つ組の上位カテ
ゴリの出現頻度データが更新されたら、また、三つ組出
現頻度ファイル31から次のデータを読み込む。このと
き、データがもうない場合には(S21のyes)、す
べての三つ組、二つ組データについて上位カテゴリの出
現頻度を計算したとして処理を終了する(END)。
ゴリの出現頻度データが更新されたら、また、三つ組出
現頻度ファイル31から次のデータを読み込む。このと
き、データがもうない場合には(S21のyes)、す
べての三つ組、二つ組データについて上位カテゴリの出
現頻度を計算したとして処理を終了する(END)。
読み込んだデータが二つ組データであった場合は(S2
3の二つ組データ)、二つ組の上位カテゴリについて出
現頻度を求める。すなわち、まず、該三つ組データの単
語カテゴリ列を(W2 r W3 )とし、出現頻度を
gとする(S27)。そして、単語カテゴリ階層辞書3
3を参照して、w2.w3の上位カテゴリを求め、それ
ぞれ、uz、uzとする(32B)。そして、上位カテ
ゴリ三つ組出現頻度ファイル32から(uz、uz)の
出現頻度を読み出し、その値にgを加算した値に出現頻
度データを更新する(S29)。ここで、上位カテゴリ
三つ組出現頻度ファイル32に(uz、uzのデータが
ない場合には、上位カテゴリ三つ組出現頻度ファイル3
2に新たに(uz 、 uz )の出現頻度gを格納
する。
3の二つ組データ)、二つ組の上位カテゴリについて出
現頻度を求める。すなわち、まず、該三つ組データの単
語カテゴリ列を(W2 r W3 )とし、出現頻度を
gとする(S27)。そして、単語カテゴリ階層辞書3
3を参照して、w2.w3の上位カテゴリを求め、それ
ぞれ、uz、uzとする(32B)。そして、上位カテ
ゴリ三つ組出現頻度ファイル32から(uz、uz)の
出現頻度を読み出し、その値にgを加算した値に出現頻
度データを更新する(S29)。ここで、上位カテゴリ
三つ組出現頻度ファイル32に(uz、uzのデータが
ない場合には、上位カテゴリ三つ組出現頻度ファイル3
2に新たに(uz 、 uz )の出現頻度gを格納
する。
このとき、328の処理で、W2.W3のどちらにも上
位カテゴリが存在しない場合には、S29の処理を実行
せずに321に戻る。
位カテゴリが存在しない場合には、S29の処理を実行
せずに321に戻る。
327〜S29の処理によって一つの二つ組の上位カテ
ゴリの出現頻度データが更新されたら、S21に戻る。
ゴリの出現頻度データが更新されたら、S21に戻る。
以上の処理で、上位カテゴリの出現頻度がすべて算出さ
れる。
れる。
同図(g)はS25およびS28で使用する単語カテゴ
リ階層辞書33の内容例である。「■@: V、ES
V、ED V、EN V、ING V、INF
Jは、上位カテゴリの動詞(■@)の下位に三人称現在
の動詞(V、ES )と、過去の動詞(V、ED) 、
過去分詞の動詞(V、EN) 、現在進行形の動詞(V
、ING)、不定詞の動詞(V、INF)のカテゴリが
あることを示す。
リ階層辞書33の内容例である。「■@: V、ES
V、ED V、EN V、ING V、INF
Jは、上位カテゴリの動詞(■@)の下位に三人称現在
の動詞(V、ES )と、過去の動詞(V、ED) 、
過去分詞の動詞(V、EN) 、現在進行形の動詞(V
、ING)、不定詞の動詞(V、INF)のカテゴリが
あることを示す。
また、r AUX@: AUX AUX:N0TJ
ハ、上位カテゴリの助動詞(AUX@)の下に、肯定の
助動詞(AUX)と否定の助動詞(AUX:N0T)の
カテゴリがあることを示す。
ハ、上位カテゴリの助動詞(AUX@)の下に、肯定の
助動詞(AUX)と否定の助動詞(AUX:N0T)の
カテゴリがあることを示す。
S22で、同図(e)の三つ組頻度ファイル31の例r
# CJ、COAUX 16Jを読み込んだ場
合、まず、S24で頻度f=16とされる。そして、S
25で単語カテゴリ階層辞書33を参照し、AUXに上
位カテゴリAUX@があることが分かる。
# CJ、COAUX 16Jを読み込んだ場
合、まず、S24で頻度f=16とされる。そして、S
25で単語カテゴリ階層辞書33を参照し、AUXに上
位カテゴリAUX@があることが分かる。
S26では、三ツ組(# CJ、COAUX@) ノ
出現頻度としてf=16を上位カテゴリ三つ組出現頻度
ファイル32に格納する。また、この後、三つ組頻度フ
ァイル31からr# CJ、COAUX:NOT I
Jを読み込んだとする。すると、S24で頻度f=1と
され、325でAUX : NOTに上位カテゴリAU
X@があることが分かる。そして、S26では、三つ!
(# CJ、COAUX@)の出現頻度を上位カテ
ゴリ三つ組出現頻度ファイル32から読み出し、その値
16にf=1を加え、出現頻度17を上位カテゴリ三つ
組出現頻度ファイル32に格納する。
出現頻度としてf=16を上位カテゴリ三つ組出現頻度
ファイル32に格納する。また、この後、三つ組頻度フ
ァイル31からr# CJ、COAUX:NOT I
Jを読み込んだとする。すると、S24で頻度f=1と
され、325でAUX : NOTに上位カテゴリAU
X@があることが分かる。そして、S26では、三つ!
(# CJ、COAUX@)の出現頻度を上位カテ
ゴリ三つ組出現頻度ファイル32から読み出し、その値
16にf=1を加え、出現頻度17を上位カテゴリ三つ
組出現頻度ファイル32に格納する。
同図(h)は、以上のようにして求めた上位カテゴリ三
つ組出現頻度ファイル32の内容例である。上位カテゴ
リの三つ組(# CJ、COAUX@)の出現頻度は
前述の通り17、そして上位カテゴリの二つ組(CJ、
COAUX@)の出現頻度は、(CJ。
つ組出現頻度ファイル32の内容例である。上位カテゴ
リの三つ組(# CJ、COAUX@)の出現頻度は
前述の通り17、そして上位カテゴリの二つ組(CJ、
COAUX@)の出現頻度は、(CJ。
COAUX )、0:)出現頻度290と(CJ、CO
A[JX:N0T)の出現頻度26を加算した316に
なっている。
A[JX:N0T)の出現頻度26を加算した316に
なっている。
上位カテゴリの出現頻度が求まると、次に、推移確率を
算出する処理に移る。同図(i)は、推移確率同一性検
定部34の動作フローチャートである。
算出する処理に移る。同図(i)は、推移確率同一性検
定部34の動作フローチャートである。
まず、作成済みの三つ組出現頻度ファイル31をオーブ
ンする(330)。そして、8亥ファイル31に未処理
のデータが存在するか否かを判定する(S31)。未処
理のデータが存在する場合(no)には、三つ組の出現
頻度データを一つ読み込む(332)。そして、読み込
んだ三つ組の各単語カテゴリをWl 、W2 、Wlと
し、その出現頻度をfとする(S33)。次に、この三
つ組に含まれる二つ組W2 、Wlの出現頻度を三つ組
出現頻度ファイル31から読み出し、該出現頻度をgと
する(S34)。そして、三つ組(Wl、w2 、Wl
)の推移確率P (w+ IW2、w3 )を計算
するために、推移確率計算部35を起動し、その計算結
果を推移確率6u =P (w+ l W2、w3)
とする(S35)。
ンする(330)。そして、8亥ファイル31に未処理
のデータが存在するか否かを判定する(S31)。未処
理のデータが存在する場合(no)には、三つ組の出現
頻度データを一つ読み込む(332)。そして、読み込
んだ三つ組の各単語カテゴリをWl 、W2 、Wlと
し、その出現頻度をfとする(S33)。次に、この三
つ組に含まれる二つ組W2 、Wlの出現頻度を三つ組
出現頻度ファイル31から読み出し、該出現頻度をgと
する(S34)。そして、三つ組(Wl、w2 、Wl
)の推移確率P (w+ IW2、w3 )を計算
するために、推移確率計算部35を起動し、その計算結
果を推移確率6u =P (w+ l W2、w3)
とする(S35)。
ここで、同図(j)は、推移確率計算部35が実行する
計算式である。推移確率P(w+ I W2、W2)
は(3)式で求めることができる。すなわち、三つ組の
出現頻度fを二つ組の出現頻度gで割ればよい。
計算式である。推移確率P(w+ I W2、W2)
は(3)式で求めることができる。すなわち、三つ組の
出現頻度fを二つ組の出現頻度gで割ればよい。
次に、上位カテゴリの三つ組の推移確率を求める。すな
わち、単語カテゴリW2、w3の上位カテゴリを、単語
カテゴリ階層辞書33を参照して求め、それぞれu2、
u3 とする(S36)、そして、上位カテゴリの三つ
組(Wl 、u2 、u3 )の推移確率p (w、l
u2、u3 )を求めるために推移確率計算部35を起
動し、その計算結果を推移確率pu =p (w+
l u2 、uz )とする(S37)。このとき、推
移確率計算部35は上位カテゴリ三つ組出現頻度32か
ら三つ組(Wl、u2 、u:l )の出現頻度fと二
つ組の(u2、u2の出現頻度gを読み出し、fをgで
除算した解を推移確率Pu =P (Wl l u2
、u3 )とする。
わち、単語カテゴリW2、w3の上位カテゴリを、単語
カテゴリ階層辞書33を参照して求め、それぞれu2、
u3 とする(S36)、そして、上位カテゴリの三つ
組(Wl 、u2 、u3 )の推移確率p (w、l
u2、u3 )を求めるために推移確率計算部35を起
動し、その計算結果を推移確率pu =p (w+
l u2 、uz )とする(S37)。このとき、推
移確率計算部35は上位カテゴリ三つ組出現頻度32か
ら三つ組(Wl、u2 、u:l )の出現頻度fと二
つ組の(u2、u2の出現頻度gを読み出し、fをgで
除算した解を推移確率Pu =P (Wl l u2
、u3 )とする。
332〜337の処理によって、ある三つ組の推移確率
P。と、その三つ組の上位カテゴリについての推移確率
?。が求まる。例えば、上位カテゴリの三つ組(#、
CJ、CO,AUX@) ノ推移確率?。
P。と、その三つ組の上位カテゴリについての推移確率
?。が求まる。例えば、上位カテゴリの三つ組(#、
CJ、CO,AUX@) ノ推移確率?。
=P (# I CJ、CO,AUX@) =Po ハ
0.053 B、下位カテゴリの三つ組(#、CJ、C
O,ALIX)の推移確率↑。= P (;# l C
J、CO,AUX) = p rはo、 。
0.053 B、下位カテゴリの三つ組(#、CJ、C
O,ALIX)の推移確率↑。= P (;# l C
J、CO,AUX) = p rはo、 。
551になる(同図(j)の例)。また、下位カテゴリ
ノ三ツ、II (#、 CJ、CO,AUX:N0T)
I)推移確率P w”” P (# l CJ、CO
,AUX:N0T) = P zは0゜0385になる
。
ノ三ツ、II (#、 CJ、CO,AUX:N0T)
I)推移確率P w”” P (# l CJ、CO
,AUX:N0T) = P zは0゜0385になる
。
次に、統計の検定式を使用して、上位カテゴリの推移確
率p1と下位カテゴリの推移確率p。の間に有意な差が
あるか否かを検定する(338.539)。同図(k)
は、検定式の一例である。
率p1と下位カテゴリの推移確率p。の間に有意な差が
あるか否かを検定する(338.539)。同図(k)
は、検定式の一例である。
まず、838で(4)式の値1ulを求め、S39でt
utO値を検定する。
utO値を検定する。
すなわち、pw =p、という帰無仮説を立て、これが
棄却されるか否かを(4)式によって求まるJulの値
によって判定する。ここで、(4)式のn u (!:
n wはそれぞれ上位カテゴリの三つ組の出現頻度と
、下位カテゴリの三つ組の出現頻度である。1ulO値
を統計的に定まった値εと比較し、1u1〈さならば帰
無仮説は棄却できず、u1≧さならば帰無仮説を棄却で
きると判定する。このεという値は、ある事象が近似的
に正規分布にしたがっていると考えられる場合に、正規
分布のX%の範囲に含まれるか否かを判断するための値
であり、 u ((100−x)/200)の関数として表せる。
棄却されるか否かを(4)式によって求まるJulの値
によって判定する。ここで、(4)式のn u (!:
n wはそれぞれ上位カテゴリの三つ組の出現頻度と
、下位カテゴリの三つ組の出現頻度である。1ulO値
を統計的に定まった値εと比較し、1u1〈さならば帰
無仮説は棄却できず、u1≧さならば帰無仮説を棄却で
きると判定する。このεという値は、ある事象が近似的
に正規分布にしたがっていると考えられる場合に、正規
分布のX%の範囲に含まれるか否かを判断するための値
であり、 u ((100−x)/200)の関数として表せる。
例えば、正規分布の90%の範囲(有意水準10%)を
示すUの値はu ((100−90)/ 200 )
= u (0、1/ 2 ) = 1 、 64、有意
水準5%(正規分布の95%の範囲)の場合U(0,0
5/2)=1.96、有意水準1%(正規分布の99%
の範囲)の場合u (0,01/2)=2.58である
。本実施例では、Pwとpuの揺らぎを考慮し、例えば
、有意水準を10%とする。
示すUの値はu ((100−90)/ 200 )
= u (0、1/ 2 ) = 1 、 64、有意
水準5%(正規分布の95%の範囲)の場合U(0,0
5/2)=1.96、有意水準1%(正規分布の99%
の範囲)の場合u (0,01/2)=2.58である
。本実施例では、Pwとpuの揺らぎを考慮し、例えば
、有意水準を10%とする。
先に求めた上位カテゴリの推移確率Po=Pu=P (
#lCJ、CO,AUX@) =0. 0538と、下
位カテゴリの推移確率p+ =Pw=P (# lCJ
、CO,AUX) =0. 0551に関して、帰無仮
説HW:Pu=Pw としてlulを求めると、Iu=
0.074となり、l u l <u (0,1/2)
=1.64で帰無仮説Hwは棄却できない。すなわち、
上位カテゴリの推移確率p、 =P (# l CJ。
#lCJ、CO,AUX@) =0. 0538と、下
位カテゴリの推移確率p+ =Pw=P (# lCJ
、CO,AUX) =0. 0551に関して、帰無仮
説HW:Pu=Pw としてlulを求めると、Iu=
0.074となり、l u l <u (0,1/2)
=1.64で帰無仮説Hwは棄却できない。すなわち、
上位カテゴリの推移確率p、 =P (# l CJ。
Co、 AUX@) =0. 0538と下位カテゴリ
の推移確率↑。=P (# l CJ、CO,ALIX
) −0,0551の間に有意な差がないと判断される
。
の推移確率↑。=P (# l CJ、CO,ALIX
) −0,0551の間に有意な差がないと判断される
。
また、上位カテゴリの推移確率Po=Pu=P(# l
CJ、CO,AUX@) = 0 、 0538と、
下位カテゴリの推移確率t2=♀、 = P (# 1
.cJ、cO,ALIX:N0T) = 0. 038
5の間で帰無仮説Hw : pu=p、、を検定すると
、1ul=o、077<u(0,1/2)=1.64で
帰無仮説Hwは棄却できない。すなわち、上位カテゴリ
の推移確率pu=P (# l CJ、CO,AUX@
) =0. 0538と下位カテゴリの推移確$6.
= P (# l CJ、CD、 AUXINOT)=
0.0385の間には有意な差がないと判断される。
CJ、CO,AUX@) = 0 、 0538と、
下位カテゴリの推移確率t2=♀、 = P (# 1
.cJ、cO,ALIX:N0T) = 0. 038
5の間で帰無仮説Hw : pu=p、、を検定すると
、1ul=o、077<u(0,1/2)=1.64で
帰無仮説Hwは棄却できない。すなわち、上位カテゴリ
の推移確率pu=P (# l CJ、CO,AUX@
) =0. 0538と下位カテゴリの推移確$6.
= P (# l CJ、CD、 AUXINOT)=
0.0385の間には有意な差がないと判断される。
S39で、有意な差がないと判断した場合には(yes
)、推移確率登録部36を呼び出し、上位カテゴリの推
移確率?8を単語カテゴリ推移確率テーブル26に登録
する(S40)。一方、有意な差があると判断した場合
には(no)、同様に推移確率登録部36を呼び出し、
下位カテゴリの推移確率r8を単語カテゴリ推移確率テ
ーブル26に登録する(341)。
)、推移確率登録部36を呼び出し、上位カテゴリの推
移確率?8を単語カテゴリ推移確率テーブル26に登録
する(S40)。一方、有意な差があると判断した場合
には(no)、同様に推移確率登録部36を呼び出し、
下位カテゴリの推移確率r8を単語カテゴリ推移確率テ
ーブル26に登録する(341)。
例えば、前述の例では上位カテゴリの推移確率po
=pu=P (# l CJ、CO,AUX@)
=0. 0538と下位カテゴリの推移確率6+ −’
i;、 =P(# lcJ、cO,AUX) =0.
0551の間、および上位カテゴリの推移確率4oと下
位カテゴリの推移確率Pz =p−=P (# l C
J、CO,AUX:N0T) =0.0385の間に有
意な差がないと判断されたので、下位カテゴリの推移確
率p1とp2の代わりに上位カテゴリの推移確率r0を
登録する。
=pu=P (# l CJ、CO,AUX@)
=0. 0538と下位カテゴリの推移確率6+ −’
i;、 =P(# lcJ、cO,AUX) =0.
0551の間、および上位カテゴリの推移確率4oと下
位カテゴリの推移確率Pz =p−=P (# l C
J、CO,AUX:N0T) =0.0385の間に有
意な差がないと判断されたので、下位カテゴリの推移確
率p1とp2の代わりに上位カテゴリの推移確率r0を
登録する。
340あるいはS41で上位カテゴリあるいは下位カテ
ゴリの推移確率を単語カテゴリ推移確率テーブル26に
登録したら、S31に戻り、次の三つ組データの読み込
み、推移確率の計算と登録の処理を実行する(332〜
541)。このとき、三つ組出現頻度ファイル31にも
・うデータが存在しない場合には(S31のyes)、
処理を終了する(END)。
ゴリの推移確率を単語カテゴリ推移確率テーブル26に
登録したら、S31に戻り、次の三つ組データの読み込
み、推移確率の計算と登録の処理を実行する(332〜
541)。このとき、三つ組出現頻度ファイル31にも
・うデータが存在しない場合には(S31のyes)、
処理を終了する(END)。
以上の処理によって、単語カテゴリのすべでの三つ組デ
ータについて、推移確率が単語カテゴリ推移確率テーブ
ル26に蓄積され、前処理部20の処理が完了する。
ータについて、推移確率が単語カテゴリ推移確率テーブ
ル26に蓄積され、前処理部20の処理が完了する。
次に、品詞あるいは単語の推定部21の動作を説明する
。同図(m)は、品詞あるいは単語推定部21の処理の
動作フローチャートである。
。同図(m)は、品詞あるいは単語推定部21の処理の
動作フローチャートである。
まず、単語検索部37は入力文字列22を読み込む(S
50)、例えば、”I may notbe a
ble to come back。
50)、例えば、”I may notbe a
ble to come back。
という文が入力されるものとする。次に、単語検索部3
7は単語辞書25(同図(C))を検索し、入力文字列
22を単語に分割したうえ、各単語の品詞候補と出現頻
度を読み出す。例えば、上記の例文のなかのback″
には、形容詞と副詞、名詞、動詞という4つの品詞候補
が読み出される(同図(C))。そして、各単語の見出
し、品詞候補、各品詞候補の出現頻度の情報を最尤候補
探索部38に送る。
7は単語辞書25(同図(C))を検索し、入力文字列
22を単語に分割したうえ、各単語の品詞候補と出現頻
度を読み出す。例えば、上記の例文のなかのback″
には、形容詞と副詞、名詞、動詞という4つの品詞候補
が読み出される(同図(C))。そして、各単語の見出
し、品詞候補、各品詞候補の出現頻度の情報を最尤候補
探索部38に送る。
最尤候補探索部38は、受は取った各単語の見出し、品
詞候補、各品詞候補の出現頻度の情報から品詞候補の三
つ組を順次作成する。例えば、”to come
back”の二つ組ならば、前置詞−動詞の現在形−形
容詞、あるいは前置詞−動詞の不定詞−形容詞、前置詞
−動詞の不定詞−副詞、・・・といった各単語の品詞候
補の全組み合わせの三つ組が出来上がる。そして、各品
詞候補の三つ組について、推定確率検定部39を呼び出
し、推移確率を求める。
詞候補、各品詞候補の出現頻度の情報から品詞候補の三
つ組を順次作成する。例えば、”to come
back”の二つ組ならば、前置詞−動詞の現在形−形
容詞、あるいは前置詞−動詞の不定詞−形容詞、前置詞
−動詞の不定詞−副詞、・・・といった各単語の品詞候
補の全組み合わせの三つ組が出来上がる。そして、各品
詞候補の三つ組について、推定確率検定部39を呼び出
し、推移確率を求める。
同図(n)は、推移確率検定部39の動作フローチャー
トである。
トである。
まず、352で求めた品詞候補の三つ組(W+、Wz
、w3 )について単語カテゴリ推移確率テーブル26
を検索する(S54)。三つ組(W+、Wz、W3 )
がテーブル26から見つかった場合(S55のno)に
は、対応する推移確率を読み出し、最尤候補探索部38
にその値を返す。
、w3 )について単語カテゴリ推移確率テーブル26
を検索する(S54)。三つ組(W+、Wz、W3 )
がテーブル26から見つかった場合(S55のno)に
は、対応する推移確率を読み出し、最尤候補探索部38
にその値を返す。
一方、三つ組(W+ 、Wz 、W3 )が見つからな
い場合には、上位カテゴリの推移確率が代わりに格納さ
れていると考えられる(S55のyes)この場合、単
語カテゴリ階層辞書33を検索し、w2およびw3の上
位カテゴリを求め、それぞれu 2 、u zとする(
356)。そして、上位カテゴリの三つ組(wI 、u
2 、[3)について単語カテゴリ推移確率テーブル2
6を検索し、対応する推移確率を最尤候補探索部38に
返す(S57)そして、最後に、最尤候補探索部3日は
、推移確率検定部39から返された各品詞候補の三つ組
の推移確率や、各単語の品詞候補の出現頻度の値を元に
、品詞あるいは単語として最ももっともらしい候補を選
択する(353)。
い場合には、上位カテゴリの推移確率が代わりに格納さ
れていると考えられる(S55のyes)この場合、単
語カテゴリ階層辞書33を検索し、w2およびw3の上
位カテゴリを求め、それぞれu 2 、u zとする(
356)。そして、上位カテゴリの三つ組(wI 、u
2 、[3)について単語カテゴリ推移確率テーブル2
6を検索し、対応する推移確率を最尤候補探索部38に
返す(S57)そして、最後に、最尤候補探索部3日は
、推移確率検定部39から返された各品詞候補の三つ組
の推移確率や、各単語の品詞候補の出現頻度の値を元に
、品詞あるいは単語として最ももっともらしい候補を選
択する(353)。
以上の処理で、最尤の品詞あるいは単語候補23が得ら
れる。
れる。
本発明によれば、単語カテゴリを細分化しても、有効な
推移確率を求めることができ、精度を落とすことなく品
詞あるいは単語の推定を行なうことが可能になる。また
、単語カテゴリを細分化しても、階層化しであるので、
推移確率を格納しておくファイルの記憶容量が急激に増
大することがない。これによって、全体として、精度が
高い品詞推定を、コンパクトな記憶容量のなかで実現す
ることが可能になる。
推移確率を求めることができ、精度を落とすことなく品
詞あるいは単語の推定を行なうことが可能になる。また
、単語カテゴリを細分化しても、階層化しであるので、
推移確率を格納しておくファイルの記憶容量が急激に増
大することがない。これによって、全体として、精度が
高い品詞推定を、コンパクトな記憶容量のなかで実現す
ることが可能になる。
第1図は本発明の機能ブロック図、
第2図は一実施例のシステム構成図、
第3図は動作フローチャートおよび説明図、第4図は従
来方式の説明図。 ■・・・品詞/単語推定装置、 2・・・推移確率性成部、 3・・・品詞/単語推定部、 4・・・訓練サンプル、 5・・・単語辞書、 6・・・単語カテゴリ推移確率テーブル7・・・入力文
字列、 8・・・品詞/単語推定結果、 9・・・出現深度算出手段、 10・・推移確率算出手段、 11・・単語列抽出手段、 12・・推移確率決定手段、 13・・品詞/単語決定手段。
来方式の説明図。 ■・・・品詞/単語推定装置、 2・・・推移確率性成部、 3・・・品詞/単語推定部、 4・・・訓練サンプル、 5・・・単語辞書、 6・・・単語カテゴリ推移確率テーブル7・・・入力文
字列、 8・・・品詞/単語推定結果、 9・・・出現深度算出手段、 10・・推移確率算出手段、 11・・単語列抽出手段、 12・・推移確率決定手段、 13・・品詞/単語決定手段。
Claims (1)
- 【特許請求の範囲】 1)複数の文からなる訓練サンプル(4)を元に各単語
の見出しと単語カテゴリ、出現頻度からなる単語辞書(
5)、および、各単語カテゴリの推移確率を表にした単
語カテゴリ推移確率テーブル(6)を作成する推移確率
生成部(2)と、該単語辞書(5)および該単語カテゴ
リ推移確率テーブル(6)を元に任意の入力文字列(7
)の品詞を推定し、品詞/単語推定結果(8)を出力す
る品詞/単語推定部(3)からなる品詞/単語推定装置
(1)において、 訓練サンプル(4)に含まれる各単語について単語カテ
ゴリと出現頻度を求め単語辞書(5)を作成するととも
に、訓練サンプル中の単語列に対応した単語カテゴリ列
を元にした各単語カテゴリ列の出現頻度と、該単語カテ
ゴリの上位カテゴリを用いた上位カテゴリ列の出現頻度
を算出する出現頻度算出手段(9)と、 前記出現頻度算出手段(9)によって求めた単語カテゴ
リの出現頻度および上位カテゴリの出現頻度を元に、単
語カテゴリの推移確率を求め、単語カテゴリ推移確率テ
ーブル(6)を作成する推移確率算出手段(10)と、 入力文字列(7)に対して、単語辞書(5)を使用して
該入力文字列(7)を構成する単語を抽出し、単語カテ
ゴリ列の候補を抽出する単語列抽出手段(11)と、 前記単語列抽出手段(11)が抽出した各単語カテゴリ
列候補について、前記推移確率算出手段(10)が作成
した単語カテゴリ推移確率テーブル(6)を元に推移確
率を決定する推移確率決定手段(12)と、 前記推移確率決定手段(12)が決定した、各単語カテ
ゴリ列候補についての推移確率データを元に、該入力文
字列(7)を構成する単語、あるいは単語の品詞を推定
し、品詞/単語推定結果(8)を出力する品詞/単語決
定手段(13)とを有することを特徴とする階層化され
た単語カテゴリの推移確率を利用した品詞/単語推定装
置。 2)前記出現頻度算出手段(9)は、単語カテゴリの情
報を階層化された形式でもち、下位の単語カテゴリを元
にした単語カテゴリ列の出現頻度と、上位の単語カテゴ
リを元にした単語カテゴリ列の出現頻度をそれぞれ求め
る請求項1記載の階層化された単語カテゴリの推移確率
を利用した品詞/単語推定装置。 3)前記推移確率算出手段(10)は、前記出現頻度算
出手段(9)が求めた下位の単語カテゴリ列の出現頻度
および上位の単語カテゴリ列の出現頻度を元に、それぞ
れ下位の単語カテゴリ列の推移確率p_1と、上位の単
語カテゴリ列の推移確率p_2を算出し、帰無仮説H_
0p_1=p_2が棄却されない場合には上位カテゴリ
推移確率p_2を当該推移確率とし、また、帰無仮説H
_0p_1=p_2が棄却される場合には下位カテゴリ
推移確率p_1を当該推移確率とする請求項1記載の階
層化された単語カテゴリの推移確率を利用した品詞/単
語推定装置。 4)前記推移確率算出手段(10)は、上位カテゴリの
推移確率を算出する際に、その下位カテゴリのなかで帰
無仮説が棄却されたカテゴリによる出現頻度を差し引い
たうえで、上位カテゴリの推移確率を算出する請求項1
記載の階層化された単語カテゴリの推移確率を利用した
品詞/単語推定装置。 5)前記推移確率算出手段(10)は、上位カテゴリの
推移確率の代わりに、類似カテゴリの推移確率、あるい
は複数の単語カテゴリの推移確率の関数として得られる
推移確率を、単語カテゴリ推移確率として利用し、単語
カテゴリ推移確率テーブル(6)を作成することができ
る請求項1記載の階層化された単語カテゴリの推移確率
を利用した品詞/単語推定装置。 6)前記推移確率算出手段(10)は、出現頻度0の単
語カテゴリ列と、構文上出現し得ないことが明らかな単
語カテゴリ列とを区別して計算する請求項1記載の階層
化された単語カテゴリの推移確率を利用した品詞/単語
推定装置。 7)前記出現頻度算出手段(9)は、タイトルと本文の
区別、疑問符の有無等の全体的な特徴によって、出現頻
度を分けて算出する請求項1記載の階層化された単語カ
テゴリの推移確率を利用した品詞/単語推定装置。 8)前記出現頻度算出手段(9)は、特定の単語カテゴ
リ列についてはまとまった一つの単語カテゴリとみなし
て出現頻度を算出する請求項1記載の階層化された単語
カテゴリの推移確率を利用した品詞/単語推定装置。 9)前記推移確率決定手段(12)は、前記単語列抽出
手段(11)が抽出した単語カテゴリ列について、特定
の単語カテゴリ列を一つの単語カテゴリとみなして推移
確率を決定する請求項1記載の階層化された単語カテゴ
リの推移確率を利用した品詞/単語推定装置。 10)前記出現頻度算出手段(9)は、複数の単語から
なる熟語や慣用表現について、該単語列が熟語として使
用される確率である熟語確率を単語辞書(5)中に格納
する請求項1記載の階層化された単語カテゴリの推移確
率を利用した品詞/単語推定装置。 11)前記推移確率算出手段(10)は、熟語になり得
る単語列に対して、熟語確率を利用し、熟語の場合と熟
語でない場合のそれぞれについて推移確率を算出する請
求項1記載の階層化された単語カテゴリの推移確率を利
用した品詞/単語推定装置。 12)前記単語列抽出手段(11)は、単語辞書(5)
に登録されていない未登録語について、該単語が大文字
で始まるか否か、および、該単語の語尾の情報をもとに
、単語カテゴリおよび該単語カテゴリになり得る確率を
求める請求項1記載の階層化された単語カテゴリの推移
確率を利用した品詞/単語推定装置。 13)前記推移確率決定手段(12)は、未登録語につ
いて、前記単語列抽出手段(11)が求めた未登録語の
単語カテゴリ情報を使用して、単語カテゴリ推移確率テ
ーブル(6)を検索し、推移確率を求める請求項1記載
の階層化された単語カテゴリの推移確率を利用した品詞
/単語推定装置。 14)前記品詞/単語決定手段(13)は、未登録語に
ついて、前記単語列抽出手段(11)で求めた未登録語
がある単語カテゴリになり得る確率のデータ、および、
前記推移確率決定手段(12)で求めた単語カテゴリ推
移確率を元に、該未登録語の品詞を推定する請求項1記
載の階層化された単語カテゴリの推移確率を利用した品
詞/単語推定装置。 15)前記品詞/単語決定手段(13)は、ある単語列
が辞書に存在する場合でも、大文字で始まる等の手掛か
りおよび単語カテゴリ推移確率をもとに、未登録語であ
る可能性を判定する請求項1記載の階層化された単語カ
テゴリの推移確率を利用した品詞/単語推定装置。 16)前記品詞/単語決定手段(13)は、音声認識の
単語訂正、文字認識の単語訂正およびスペル訂正を実行
する請求項1記載の階層化された単語カテゴリの推移確
率を利用した品詞/単語推定装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2263748A JPH04141771A (ja) | 1990-10-03 | 1990-10-03 | 階層化された単語カテゴリの推移確率を利用した品詞/単語推定装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2263748A JPH04141771A (ja) | 1990-10-03 | 1990-10-03 | 階層化された単語カテゴリの推移確率を利用した品詞/単語推定装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH04141771A true JPH04141771A (ja) | 1992-05-15 |
Family
ID=17393743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2263748A Pending JPH04141771A (ja) | 1990-10-03 | 1990-10-03 | 階層化された単語カテゴリの推移確率を利用した品詞/単語推定装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH04141771A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001255889A (ja) * | 2000-03-14 | 2001-09-21 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
-
1990
- 1990-10-03 JP JP2263748A patent/JPH04141771A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001255889A (ja) * | 2000-03-14 | 2001-09-21 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
JP4543294B2 (ja) * | 2000-03-14 | 2010-09-15 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに記録媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3973549B2 (ja) | 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体 | |
US5907821A (en) | Method of computer-based automatic extraction of translation pairs of words from a bilingual text | |
Brown et al. | Analysis, statistical transfer, and synthesis in machine translation | |
EP1691299A2 (en) | Efficient language identification | |
Sedláček et al. | A new Czech morphological analyser ajka | |
US5285386A (en) | Machine translation apparatus having means for translating polysemous words using dominated codes | |
JPH10232866A (ja) | データ処理方法及び装置 | |
JPH0351020B2 (ja) | ||
CN103688254B (zh) | 用于自动评估写作的基于示例的错误检测系统、方法及错误检测设备 | |
Eskander et al. | Creating resources for Dialectal Arabic from a single annotation: A case study on Egyptian and Levantine | |
CN100361124C (zh) | 用于词分析的系统和方法 | |
CN112183117A (zh) | 一种翻译评价的方法、装置、存储介质及电子设备 | |
US20220284188A1 (en) | Machine based expansion of contractions in text in digital media | |
Smadja et al. | Translating collocations for use in bilingual lexicons | |
Elbarougy et al. | A proposed natural language processing preprocessing procedures for enhancing arabic text summarization | |
KR100559472B1 (ko) | 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법 | |
Kharazmi et al. | Text coherence new method using word2vec sentence vectors and most likely n-grams | |
Brants | Tagging and parsing with cascaded Markov models: automation of corpus annotation | |
JP4005477B2 (ja) | 固有表現抽出装置及び方法並びに固有表現抽出プログラム | |
CN115994544A (zh) | 平行语料筛选方法、平行语料筛选设备和可读存储介质 | |
JPH04141771A (ja) | 階層化された単語カテゴリの推移確率を利用した品詞/単語推定装置 | |
JP2009157888A (ja) | 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム | |
JP2003196636A (ja) | 教師あり機械学習法を用いた表記誤り検出処理方法、その処理装置、およびその処理プログラム | |
Wen | Text mining using HMM and PMM | |
Bharati et al. | Unsupervised Improvement of Morphological Analyzer for Inflectionally Rich Languages. |