JP3174526B2 - 形態素解析装置 - Google Patents

形態素解析装置

Info

Publication number
JP3174526B2
JP3174526B2 JP05611597A JP5611597A JP3174526B2 JP 3174526 B2 JP3174526 B2 JP 3174526B2 JP 05611597 A JP05611597 A JP 05611597A JP 5611597 A JP5611597 A JP 5611597A JP 3174526 B2 JP3174526 B2 JP 3174526B2
Authority
JP
Japan
Prior art keywords
word
speech
decision tree
attribute
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP05611597A
Other languages
English (en)
Other versions
JPH10254874A (ja
Inventor
秀紀 柏岡
エズラ・ダブリュー・ブラック
ステファン・ジー・ユーバンク
Original Assignee
株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール音声翻訳通信研究所 filed Critical 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority to JP05611597A priority Critical patent/JP3174526B2/ja
Publication of JPH10254874A publication Critical patent/JPH10254874A/ja
Application granted granted Critical
Publication of JP3174526B2 publication Critical patent/JP3174526B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字列を含む文章
のテキストデータに対して単語毎に分割しかつ品詞を自
動的に付与する形態素解析装置に関する。
【0002】
【従来の技術】従来、比較的精度のよい品詞付与システ
ム(以下、第1の従来例という。)が、従来技術文献1
「E.Brill et al.,“Some Advances in Transformation
--Based Part of Speech Tagging",Proceedings of the
Twelfth National Conferenceon Artificial Intellig
ence,pp.722-727,AAAI,1994年」及び従来技術文献2
「B.Merialdo et al.,“Tagging English Text with a
Probabilistic Model",Computational Linguistics,20-
2,pp.155-171,1994年」において報告されている。この
従来例の品詞付与システムにおいては、単語表記とその
表記のとる品詞ラベルの組を記述した、品詞付与のため
の辞書を参照することによりテキストデータに対して品
詞を付与している。
【0003】この第1の従来例の品詞付与システムにお
いては、辞書を用いて品詞を付与しているために、辞書
項目に記載されていない未知語に対する品詞付与は難し
く、また、単語と品詞ラベルとの未知の組合せに対する
処理は難しいという問題点があった。さらに、使われる
品詞体系の変更により辞書のメンテナンスを行う必要が
あるという問題点があった。また、辞書を使用しない
で、ヒューリスティックスにより(発見的に又は経験的
に)単語に対する品詞ラベルを割り当てている品詞付与
装置もあるが、品詞付与の正解率は比較的低いという問
題点があった。
【0004】以上の問題点を解決するために、本特許出
願人は、特願平8−232993号の特許出願におい
て、品詞付与のための辞書を用いることなく、第1の従
来例に比較して正確に自動的に付与することができる品
詞付与装置(以下、第2の従来例という。)を開示して
いる。この第2の従来例の品詞付与装置は、(a)単語
列からなる品詞付与済みテキストデータに基づいて、各
単語の綴りの特徴と、文章内の使われ方による特徴と、
単語の相互情報量を用いた階層的な分類とを含む複数の
属性を用いて、上記各属性の属性値に依存して分割され
るような二分木形式の木構造を有し品詞付与のための決
定木を生成し、上記生成された決定木の分割されないノ
ードであるリーフノードに対して複数の品詞に対する頻
度確率を計算して付与することにより、頻度確率付き決
定木を生成する決定木学習手段と、(b)上記決定木学
習手段によって生成された頻度確率付き決定木を用い
て、入力される単語列からなるテキストデータに基づい
て、上記リーフノードに付与された頻度確率の中で上位
複数n個の頻度確率を選択して上記テキストデータの各
単語に対して付与し、上記テキストデータの単語列にお
いて最大の結合確率を有する品詞列を正解品詞列として
決定して出力する品詞付与手段とを備えたことを特徴と
している。
【0005】
【発明が解決しようとする課題】この第2の従来例にお
いては、入力された文が単語に分割された一文であり、
日本語のように分かち書きされていない文に対して当該
品詞付与装置を適用することができないという問題点が
あった。
【0006】本発明の目的は以上の問題点を解決し、分
かち書きされていない入力文に対して単語又は非単語の
判断を行って単語毎に分割し、自動的に品詞を付与する
ことができる形態素解析装置を提供することにある。
【0007】
【課題を解決するための手段】本発明に係る請求項1記
載の形態素解析装置は、単語列からなる品詞付与済みテ
キストデータに基づいて、各単語の綴りの特徴と、文章
内の使われ方による特徴と、単語の相互情報量を用いた
階層的な分類とを含む複数の属性を用いて、上記各属性
の属性値に依存して分割されるような二分木形式の木構
造を有し品詞付与のための第1の決定木を生成し、上記
生成された第1の決定木の分割されないノードであるリ
ーフノードに対して複数の品詞に対する頻度確率を計算
して付与することにより、品詞カテゴリーの頻度確率付
き第1の決定木を生成する第1の決定木学習手段と、上
記テキストデータに基づいて、各単語の綴りの特徴と、
後続する文字の特徴と、前につながる品詞の特徴と、単
語の相互情報量を用いた階層的な分類とを含む複数の属
性を用いて、上記各属性の属性値に依存して分割される
ような二分木形式の木構造を有し単語分割のための第2
の決定木を生成し、上記生成された第2の決定木の分割
されないノードであるリーフノードに対して単語及び非
単語に対する頻度確率を計算して付与することにより、
単語カテゴリーの頻度確率付き第2の決定木を生成する
第2の決定木学習手段と、分かち書きされていない単語
列からなり、入力されるテキストデータに基づいて、上
記第2の決定木学習手段によって生成された単語カテゴ
リーの頻度確率付き第2の決定木を用いて、上記第2の
決定木のリーフノードに付与された単語カテゴリーの頻
度確率の中で上位複数n個の頻度確率を選択して上記テ
キストデータの各単語候補に対して付与するとともに、
上記入力される単語列からなるテキストデータに基づい
て、上記第1の決定木学習手段によって生成された品詞
カテゴリーの頻度確率付き第1の決定木を用いて、上記
第1の決定木のリーフノードに付与された品詞カテゴリ
ーの頻度確率の中で上位複数n個の頻度確率を選択して
上記テキストデータの各単語候補に対して付与し、上記
テキストデータの単語列において最大の結合確率を有す
る単語分割された単語と品詞の組み合わせの列を、正解
の単語分割された単語と品詞の組み合わせの列として決
定して出力する単語分割及び品詞付与手段とを備えたこ
とを特徴とする。
【0008】また、請求項2記載の形態素解析装置は、
請求項1記載の形態素解析装置において、上記第1と第
2の決定木学習手段はそれぞれ、上記二分木の形式で分
割するときに、上記各属性による分割前の属性の有効性
の優先順位を表わすエントロピーH0と分割後のエント
ロピーHとの差(H0−H)が最大の属性を分割候補の
属性として選択し、所定の分割続行基準を満足するとき
に、二分木の形式で分割して決定木を更新することを特
徴とする。
【0009】さらに、請求項3記載の形態素解析装置
は、請求項2記載の形態素解析装置において、上記分割
続行基準は、(I)選択された属性に基づいて分割した
ときのエントロピーの差(H0−H)が所定のエントロ
ピーしきい値Hth以上であり、かつ(II)選択された
属性に基づく分割後の属性とその属性値及び品詞の組の
イベント数が所定のイベント数しきい値Dth以上であ
ることを特徴とする。
【0010】またさらに、請求項4記載の形態素解析装
置は、請求項1、2又は3記載の形態素解析装置におい
て、上記単語分割及び品詞付与手段は、上記第2の決定
木のリーフノードに付与された単語カテゴリーの頻度確
率の中で上位複数n個の頻度確率を選択して上記テキス
トデータの各単語候補に対して付与し、かつ上記第1の
決定木のリーフノードに付与された品詞カテゴリーの頻
度確率の中で上位複数n個の頻度確率を選択して上記テ
キストデータの各単語候補に対して付与した後、所定の
スタック・デコーダ・アルゴリズムに用いて、処理途中
のテキストデータの単語列に対する結合確率が所定の結
合確率以上である単語と品詞の組み合わせの列の候補の
みを残して当該組み合わせの候補を限定し、処理終了時
の上記テキストデータの単語列において最大の結合確率
を有する単語分割された単語と品詞の組み合わせの列
を、正解の単語分割された単語と品詞の組み合わせの列
として決定することを特徴とする。
【0011】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。図1は、本発明に係る一
実施形態である決定木学習装置並びに単語分割及び品詞
付与装置を備えた形態素解析装置のブロック図である。
この形態素解析装置は、日本語のテキストデータに対し
て、単語分割のための辞書及び品詞付与のための辞書を
参照しないで、単語分割して品詞を付与する形態素解析
装置であって、(a)品詞付与済みテキストメモリ21
に格納された品詞付与済みテキストデータに基づいて、
属性リストメモリ22に格納された属性リストと、品詞
リストメモリ23bに格納された品詞リストとを参照し
て、詳細後述する決定木学習処理を実行して学習するこ
とにより、頻度確率付き品詞決定木を生成して確率付き
品詞決定木ファイルメモリ24bに格納するとともに、
品詞付与済みテキストメモリ21に格納された品詞付与
済みテキストデータに基づいて、属性リストメモリ22
に格納された属性リストと、単語リストメモリ23aに
格納された単語リストとを参照して、詳細後述する決定
木学習処理を実行して学習することにより、頻度確率付
き単語決定木を生成して確率付き単語決定木ファイルメ
モリ24aに格納する決定木学習装置10と、(b)確
率付き単語決定木ファイルメモリ24aに格納された頻
度確率付き単語決定木と、確率付き品詞決定木ファイル
メモリ24bに格納された頻度確率付き品詞決定木とを
用いて、属性リストメモリ22に格納された属性リスト
と、単語リストメモリ23aに格納された単語リスト
と、品詞メモリ23bに格納された品詞リストとを参照
して、テキストデータメモリ25に格納され入力される
テキストデータに対して、詳細後述する単語分割及び品
詞付与処理を実行することにより、単語分割して品詞を
付与することにより、単語分割及び品詞付与済みテキス
トデータを生成して単語分割及び品詞付与済みテキスト
データメモリ26に格納する単語分割及び品詞付与装置
11とを備える。本実施形態においては、テキストデー
タとは、日本語の単語列からなる日本語文である。
【0012】ここで、決定木学習装置10は、単語列か
らなる品詞付与済みテキストデータに基づいて、各単語
の綴りの特徴と、文章内の使われ方による特徴と、単語
の相互情報量を用いた階層的な分類とを含む複数の属性
を用いて、上記各属性の属性値に依存して分割されるよ
うな二分木形式の木構造を有し品詞付与のための品詞決
定木を生成し、上記生成された品詞決定木の分割されな
いノードであるリーフノードに対して複数の品詞に対す
る頻度確率を計算して付与することにより、品詞カテゴ
リーの頻度確率付き品詞決定木を生成する。また、決定
木学習装置10は、上記テキストデータに基づいて、各
単語の綴りの特徴と、後続する文字の特徴と、前につな
がる品詞の特徴と、単語の相互情報量を用いた階層的な
分類とを含む複数の属性を用いて、上記各属性の属性値
に依存して分割されるような二分木形式の木構造を有し
単語分割のための単語決定木を生成し、上記生成された
単語決定木の分割されないノードであるリーフノードに
対して単語及び非単語に対する頻度確率を計算して付与
することにより、単語カテゴリーの頻度確率付き単語決
定木を生成する。
【0013】次いで、単語分割及び品詞付与装置11
は、入力される単語列からなるテキストデータに基づい
て、決定木学習装置10によって生成された単語カテゴ
リーの頻度確率付き単語決定木を用いて、上記単語決定
木のリーフノードに付与された単語カテゴリーの頻度確
率の中で上位複数n個の頻度確率を選択して上記テキス
トデータの各単語候補に対して付与するとともに、上記
入力される単語列からなるテキストデータに基づいて、
決定木学習装置10によって生成された品詞カテゴリー
の頻度確率付き品詞決定木を用いて、品詞決定木のリー
フノードに付与された品詞カテゴリーの頻度確率の中で
上位複数n個の頻度確率を選択して上記テキストデータ
の各単語候補に対して付与し、上記テキストデータの単
語列において最大の結合確率を有する単語分割された単
語と品詞の組み合わせの列を、正解の単語分割された単
語と品詞の組み合わせの列として決定して出力する。
【0014】ここで、決定木学習装置10は、上記二分
木の形式で分割するときに、上記各属性による分割前の
属性の有効性の優先順位を表わすエントロピーH0と分
割後のエントロピーHとの差(H0−H)が最大の属性
を分割候補の属性として選択し、所定の分割続行基準を
満足するときに、二分木の形式で分割して決定木を更新
する。また、単語分割及び品詞付与装置11は、単語決
定木のリーフノードに付与された単語カテゴリーの頻度
確率の中で上位複数n個の頻度確率を選択して上記テキ
ストデータの各単語候補に対して付与し、かつ品詞決定
木のリーフノードに付与された品詞カテゴリーの頻度確
率の中で上位複数n個の頻度確率を選択して上記テキス
トデータの各単語候補に対して付与した後、所定のスタ
ック・デコーダ・アルゴリズムに用いて、処理途中のテ
キストデータの単語列に対する結合確率が所定の結合確
率以上である単語と品詞の組み合わせの列の候補のみを
残して当該組み合わせの候補を限定し、処理終了時の上
記テキストデータの単語列において最大の結合確率を有
する単語分割された単語と品詞の組み合わせの列を、正
解の単語分割された単語と品詞の組み合わせの列として
決定する。
【0015】本実施形態においては、決定木学習処理に
より、品詞付与済みテキストデータから得られる知識を
用いて、二分木形式の木構造を有し品詞付与のための頻
度確率付き品詞決定木及び単語決定木を生成し、単語分
割及び品詞付与を行なう。頻度確率付き品詞決定木及び
単語決定木で用いられる属性は、言語学的な特徴やコー
パスから得られる統計的な特徴を用いる。従来の品詞付
与では、辞書を引くことで品詞候補を制限し、その中か
ら、前後に現れる語との関係などを考慮して、もっとも
適切な品詞を選択するという方法が一般的である。しか
しながら、辞書の作成や保守にかかるコストの問題とな
る。また、辞書項目に無い語(未知語)や辞書の品詞候
補にない品詞として使われた語に対しては、特別な処理
が必要とされる。本実施形態に係る頻度確率付き品詞決
定木を用いた方法では、単語の品詞を決定するために、
辞書を用いないため、辞書の作成や保守にかかるコスト
は問題にならない。頻度確率付き品詞決定木を、品詞付
与済みテキストを用いた学習により構築する。そのため
に、品詞付与済みテキストデータがあれば、品詞体系に
柔軟に対応できる。また、上記頻度確率を用いて、品詞
列の優先順位を自動的に決定することができる。品詞決
定木は、対象を複数の属性とその属性値から、適切なク
ラスに分類する木構造のモデルである。品詞付与におい
ては、対象が各単語に、クラスが品詞に相当する。属性
としては、各単語の綴の特徴や文内の使われ方による特
徴や単語の相互情報量を用いた階層的分類などを用い
る。また、本実施形態においては、当該品詞付与の手法
を単語分割の手法に適用することを特徴としている。以
下、本実施形態の形態素解析装置について詳述する。
【0016】図1において、決定木学習装置10は、品
詞付与済みテキストメモリ21に格納された品詞付与済
みテキストデータに基づいて、属性リストメモリ22に
格納された属性リストと、品詞リストメモリ23bに格
納された品詞リストとを参照して、詳細後述する決定木
学習処理を実行して学習することにより、頻度確率付き
品詞決定木を生成して確率付き品詞決定木ファイルメモ
リ24bに格納する。また、決定木学習装置10は、品
詞付与済みテキストメモリ21に格納された品詞付与済
みテキストデータに基づいて、属性リストメモリ22に
格納された属性リストと、単語リストメモリ23aに格
納された単語リストとを参照して、詳細後述する決定木
学習処理を実行して学習することにより、頻度確率付き
単語決定木を生成して確率付き単語決定木ファイルメモ
リ24aに格納する。
【0017】次いで、単語分割及び品詞付与装置11
は、確率付き単語決定木ファイルメモリ24aに格納さ
れた頻度確率付き単語決定木と、確率付き品詞決定木フ
ァイルメモリ24bに格納された頻度確率付き品詞決定
木とを用いて、属性リストメモリ22に格納された属性
リストと、単語リストメモリ23aに格納された単語リ
ストと、品詞メモリ23bに格納された品詞リストとを
参照して、テキストデータメモリ25に格納され入力さ
れるテキストデータに対して、詳細後述する単語分割及
び品詞付与処理を実行することにより、単語分割して品
詞を付与することにより、単語分割及び品詞付与済みテ
キストデータを生成して単語分割及び品詞付与済みテキ
ストデータメモリ26に格納する。ここで、生成された
単語分割及び品詞付与済みテキストデータは、例えばC
RTディスプレイやプリンタなどの出力機器に出力して
もよい。
【0018】ここで、決定木学習装置10と単語分割及
び品詞付与装置11はそれぞれ、例えば、各処理を実行
するCPUと、各処理のプログラム及びそれを実行する
ために必要なデータを格納するROM(読出専用メモ
リ)と、CPUのワーキングメモリとして用いられるR
AM(ランダムアクセスメモリ)とを備えたデジタル計
算機で構成される。また、メモリ21,22,23a,
23b,24a,24b,25,26は、例えばハード
ディスクメモリで構成される。
【0019】品詞リストメモリ23bに格納される品詞
リストの一例を表1に示す。また、属性リストメモリ2
2に格納される属性リストの一例を表2に示す。
【0020】
【表1】品詞リスト ─────── 品詞 ─────── 名詞 動詞 形容詞 助詞 … … ───────
【0021】
【表2】 ─────────────────────────────────── 属性 属性値 ─────────────────────────────────── 単語の相互情報量を用いた 分類コード 階層的分類コード 対象単語が“〜い”を含む単語 Yes,No 対象単語がすべてカタカナの単語 Yes,No 対象単語の長さ 単語長さの数値 (例えば、“カード”なら3) 直前の単語の品詞属性の値 品詞属性の値 現在の単語の品詞属性の値 品詞属性の値 後続する単語の品詞属性の値 品詞属性の値 文末が“?” Yes,No ………………………… ………………………… ───────────────────────────────────
【0022】ここで、単語の相互情報量を用いた階層的
分類コードとは、例えば、特願平8−027809号の
特許出願や従来技術文献3「Akira Ushioda,“Hierarch
icalClustering of Words",Proceedings of COLING'96,
The 16th International Conference on Computational
Linguistics,Vol.2,pp.1159-1162,1996年8月」におい
て開示された単語分類方法を用いて分類された階層的分
類コードである。この単語分類方法では、テキストデー
タ内の単語について出現頻度の比較的低い単語を、同一
の単語に隣接する割合の多い単語を同一のクラスに割り
当てるという基準で分類した後、単語分類結果を中間
層、上側層、及び下側層の3つの階層に分類し、テキス
トデータ内のすべての単語を対象とするグローバルな
(全体的な)コスト関数である所定の平均相互情報量を
用いて、中間層、上側層、及び下側層の順序で階層別に
単語の分類を実行することを特徴としている。相互情報
量を用いたクラスタリングの方法においては、単語数T
のテキスト、語数Vの語彙、それに語彙の分割関数πと
が存在すると仮定し、ここで、語彙の分割関数πは語彙
Vから語彙の中の単語クラスセットCへの分割写像(マ
ッピング)を表わす写像関数である。複数の単語からな
るテキストデータを生成するバイグラムのクラスモデル
の尤度L(π)は次式によって得られる。
【0023】
【数1】L(π)=−Hm+I
【0024】ここで、Hmはモノグラムの単語分布のエ
ントロピーであり、Iはテキストデータ内の隣接する2
つのクラスC1,C2に関する平均的な相互情報量(Aver
ageMutual Information;以下、平均相互情報量とし、
AMIと表記する。)であり、次式で計算することがで
きる。
【0025】
【数2】
【0026】ここで、Pr(C1)は第1のクラスC1
単語の出現確率であり、Pr(C2)は第2のクラスC2
の単語の出現確率であり、Pr(C1|C2)は、第2の
クラスC2の単語は出現した後に、第1のクラスC1の単
語が出現する条件付き確率であり、Pr(C1,C2)は
第1のクラスC1の単語と第2のクラスC2の単語が隣接
して出現する確率である。従って、上記数2で表される
AMIは、互いに異なる第1のクラスC1の単語と第2
のクラスC2の単語とが隣接して出現する確率を、上記
第1のクラスC1の単語の出現確率と第2のクラスC2
単語の出現確率との積で割った相対的な頻度の割合を表
わす。エントロピーHは写像関数πに依存しない値であ
ることから、AMIを最大にする写像関数は同時にテキ
ストの尤度L(π)も最大にする。従って、AMIを単
語のクラス構成における目的関数として使用することが
できる。
【0027】上記単語分類方法は、意味又は統語的特徴
が似通った単語が近接した位置に配置された点で、バラ
ンスが取れた二分木の形式を有するツリー構造を生成す
ることができる。処理の最後に、根のノード(ルートノ
ード(root node))から葉のノード(リーフ
ノード(leaf node)に至るパスの追跡し、左
側方向の分岐又は右側方向の分岐をそれぞれ表わす0又
は1の1ビットを各分岐に割り当てることによって、語
彙の中の各単語に対して、ビットストリング(単語ビッ
ト)を割り当てることができる。
【0028】次いで、単語分割のための決定木及び品詞
付与のための決定木を構築する決定木学習処理のアルゴ
リズム、及び単語分割及び品詞付与処理のアルゴリズム
について述べる。
【0029】決定木学習処理では、各属性の有効性を他
の属性と独立に計算し、クラスの決定のための効率的な
属性による分類順序を、二分木の形式で分割された構造
を有する木構造として構築する。属性の有効性は、その
属性による分割分類後のエントロピーHにより評価す
る。ここでのエントロピーは、属性の有効性の優先順位
を表わす。すなわち、ある属性BでノードN1とノード
2とに分割するときに、分割前のエントロピーH0と、
分割後のエントロピーHと、ノードN1に対するエント
ロピーH1と、ノードN2に対するエントロピーH2とは
次式で表される。
【0030】
【数3】
【数4】H=p11+(1−p1)H2 ここで、
【数5】
【数6】
【0031】ここで、p(tagall)は分割前のす
べての品詞又は単語/非単語の別についてのイベントの
数の頻度確率又は出現確率であり、tagallについ
てのΣは、分割前のすべての品詞又は単語/非単語の別
についての和を示す。また、p1は、ノードN1に分割し
たときに含まれる品詞タグのイベントの数の頻度確率の
総和である。さらに、p(tagN1)はノードN1のす
べての品詞タグについてのイベントの数の頻度確率であ
り、tagN1についてのΣは、ノードN1のすべての品
詞タグについての和を示す。p(tagN2)はノード
2のすべての品詞タグについてのイベントの数の頻度
確率であり、tagN2についてのΣは、ノードN2のす
べての品詞についての和を示す。
【0032】有効性の計算のために、学習用のテキスト
データから各語について「属性とその属性値、品詞」の
組からなるイベント情報(event:以下、イベント
という。)を予めとりだしておく。具体的には、全ての
イベントの集合に対して、分類後のエントロピーHが最
小となる属性を求め、最初のノードに割り当てる。この
属性の属性値により、イベントの集合を分割し、対応す
る子ノードを作る。各々の子ノードにおいて、同様の処
理を繰り返し行なうことにより、木構造を構築する。分
割の停止条件は、各ノードに含まれるイベント数が一定
数以下、あるいは分割による有効性が一定基準以下(こ
こで、分割後のエントロピーHと分割前のエントロピー
0との差がある所定量を越えない場合。)とする。こ
こで、分割されないノードをリーフと呼ぶ。学習された
決定木のリーフでは、与えられたイベントの集合から各
品詞又は単語/非単語の別の頻度確率を計算する。
【0033】ここで、本実施形態の形態素解析装置で
は、従来技術文献4「L.E.Baum,“Aninequality and as
sociated maximization technique in statistical est
imation for probabilistic functions of a Markov pr
ocess",Inequalities,Vol.3,pp.1-8,1972年」に開示さ
れたForward−Backwardアルゴリズムを
用いて、スムージング用の学習データに基づいて、スム
ージング用の学習データから得られる確率と決定木から
得られる確率との差が最小となるようにスムージングを
行ない、品詞又は単語/非単語の別を付与すべき最後の
頻度確率分布を補正する。また、本実施形態のシステム
では、上記決定木学習処理のアルゴリズムに従って、2
段階の決定木を作成している。1段目は、粗く分類した
品詞(以下、GPOS(Global Part Of
Speech)という。)(ここで、実際の品詞の属
性の1つに対応しており、例えば、動詞、名詞、冠詞な
どに分類される。)のための決定木であり、2段目とし
て、GPOSの品詞毎に実際の品詞(表1に示した品詞
タグレベル)を決定するための決定木を作成する。すな
わち、2段階に分割して決定木を生成することにより、
1回の処理で必要な記憶装置の記憶容量を大幅に減少さ
せている。
【0034】単語分割及び品詞付与処理においては、入
力文のテキストデータを左から右に処理し、結合確率を
最大にする単語及び品詞の組み合わせの列(以下、説明
の簡単化のために品詞列のみに限定して説明する。)を
出力する。入力文が、w1,w2,…,wNのような複数
N個の単語からなり、品詞列{t1,t2,…,tN
(ここで、tiはi番目の単語の品詞である。)が得ら
れたとすると、結合確率Pは次式で表される。なお、本
実施形態では、品詞の出現をマルコフ情報源として取り
扱っておらず、それまでに出現した単語や品詞に依存し
た情報源として取り扱っている。従って、十分に長い文
において、文の最初の語とその品詞に依存して最後の単
語の品詞を導くことが、原理的には可能である。
【0035】
【数7】 P≡p(t1,t2,…,tN│w1,w2,…,wN
【数8】
【0036】上記数7の右辺は、入力文w1,w2,…,
Nが入力されたときに、品詞列t1,t2,…,tNが与
えられる結合確率を意味し、上記数8の右辺は、入力文
1,w2,w3,…,wn、および、i−1番目の単語ま
での品詞列t1,t2,…,ti-1が与えられたときのi
番目の品詞の確率をiが1からnまで積算することによ
り得られる確率を意味する。ここで、Πの記号はiを2
からNまで変化したときの積和を意味する。そして、文
脈に依存する属性をもちいて、決定木のリーフleaf
(L)を導き、Lに関連した頻度確率分布を、pLによ
り表現し、決定木の条件付き分布を用いて以下のように
近似する。
【0037】
【数9】Li≡文脈w1,w2,…,wN,t1,t2,…,
i-1において導かれたリーフ
【数10】p(ti│w1,w2,…,wN,t1,t2
…,ti-1)≒pLi(ti
【0038】上記数9における文脈w1,w2,…,
N,t1,t2,…,ti-1は、i番目の単語wiのもつ
文脈を意味する。また、数10の左辺は、文脈w1
2,…,wN,t1,t2,…,ti-1の次に単語tiが来
る頻度確率又は出現確率を表し、それが、数10の右辺
である、文脈Liのもとで品詞tiをとる確率に近似でき
ることを意味する。従って、最大化すべき結合確率Pは
以下のようになる。
【0039】
【数11】
【0040】上記数11から明らかなように、結合確率
Pは、入力文の各単語での文脈に依存して得られる品詞
iの確率の積で表される。さらに、入力文の各単語に
対する品詞付与処理においては、次の2段階の処理を行
なっている。 (a)GPOSの各品詞の頻度確率を計算する。 (b)GPOSの各品詞に対応する決定木を用いて、品
詞の頻度確率を計算する。
【0041】各語の頻度確率の計算では、それまでに得
られている可能性のある品詞列を全て考慮する必要があ
る。細かな品詞体系を扱う場合、探索範囲が膨大になる
ため、本システムでは、従来技術文献5「F.Jelinek,
“A fast sequential decodingalgorithm using a stac
k",IBM Journal of Research and Development,No.13,p
p.675-685,1969年」及び従来技術文献6「D.Paul,“Alg
orithms for an optimal a* search and linearizing t
he search in the stack decoder",Proceedingsof the
June 1990 DARPA Speech and Natural Language Work s
hop,1990年」において開示されたスタック・デコーダ・
アルゴリズムを用いて、頻度確率又は出現確率が最大と
なる品詞列を探索している。このアルゴリズムは、一種
のグラフサーチアルゴリズムであり、しきい値により一
時的に探索範囲を限定し、評価値の最も良いものを探す
ことができる。すなわち、各語に付与される可能性のあ
る複数の品詞から、最も頻度確率の高い品詞列を選択す
ることは、各品詞をノードとし隣接する単語に付与され
ているノードを連結したグラフの複数の経路から最適な
経路を探索することであり、スタック・デコーダ・アル
ゴリズムは、二分木形式で分割された木構造の経路にお
いて、複数のノードをスタック構造としてまとめて取り
扱い、スタック構造内で、探索範囲を変更することによ
り、最適な経路を、効率的に見い出すことができる。
【0042】さらに、本実施形態においては、品詞付与
システムを拡張し、入力として、わかち書きされていな
い1文を、単語を含む形態素に分割しながら、各単語に
品詞を付与している。単語分割の分かち書きされていな
い1文に対しては、複数の分割の仕方が考えられる。例
えば、「わかりました」に対しては、32通りの分割の
仕方がある。例えば、 (a)「わかりました」 (b)「わ/かりました」 (c)「わか/りました」 …… (d)「わ/か/り/ま/し/た」) そこで、入力された文を、1文字ずつ走査し、可能な単
語列を構成し、単語としての確率を計算する。入力文が
“C1C2C3…Cn”とすると、文字C1を読み込ん
だ時点で、1文字の単語としての確率を計算する。次
に、文字C2を読み込んだ時点で、文字C2を1文字の
単語として、2単語からなる状態と、C1C2の2文字
で1単語の状態の確率を計算する。次の文字C3を読み
込んだ時点は、文字C2までの2つの状態に対して、文
字C3が1文字の単語となる状態と、文字C3が文字C
2につながり、単語となる状態の確率を計算する。以
下、同様に複数の状態での確率を計算していくが、全て
の状態を計算していると、計算量が膨大になり、計算で
きなくなるので、スタックデコーダアルゴリズムを用い
て計算している。
【0043】単語の確率を求めるための単語決定木の単
語の確率は、以下の特徴を用いた決定木により計算す
る。 (a)綴の特徴(具体例としては、「カタカナのみで構
成されている。」、「“〜しい”という単語である。」
など。)、(b)後続する文字の特徴(具体例として
は、「後続文字が漢字である。」、「後続文字が“は”
である。」など。)、(c)前につながる品詞の特徴
(特に、直前の品詞とは、限定しない。)(具体例とし
ては、「直前の品詞が名詞である。」、「直前の品詞が
句読点である。」、「二つ前の品詞が助詞である。」な
ど。)、並びに、(d)単語の相互情報量を用いた階層
的な分類。これらの特徴を用いて、学習データから、あ
る文字列が単語である確率を学習する。単語の確率を得
るために、例えば、「支払い/は/どのように」では、
次のように、文字列と単語/非単語の組合わせを考え、
決定木を構築する。
【0044】
【表3】 ────────────────────────── 支 非単語 支払 非単語 支払い 単語 は 単語 支払いは 非単語 はどの 非単語 支払いはど 非単語 はどの 非単語 支払いはどの 非単語 ──────────────────────────
【0045】図2は、図1の決定木学習装置によって実
行される決定木学習処理を示すフローチャートである。
図2において、まず、ステップS1で品詞付与済みテキ
ストデータメモリ21に格納された品詞付与済みテキス
トデータを読み出して、決定木学習装置10内のRAM
に書き込む。次いで、ステップS2で、各属性と品詞タ
グとの組み合わせの頻度確率(上記p(tagal
l),p(tagN1),p(tagN2)に対応す
る。)を計算して決定木学習装置10内のRAMに書き
込む。さらに、ステップS3で決定木作成処理を実行す
ることにより頻度確率付き決定木を生成し、ステップS
4で作成された確率付き決定木をメモリ24に出力して
格納する。
【0046】図3は、図2のサブルーチンである決定木
作成処理(ステップS3)を示すフローチャートであ
る。まず、ステップS11ですべての各属性による分割
後のエントロピーHと、分割前のエントロピーH0とを
それぞれ数4と数3を用いて計算する。次いで、ステッ
プS12でエントロピーの差(H0−H)が最大の属性
を分割候補の属性として選択し、ステップS13で選択
された属性について分割続行判定基準を満足するか否か
が判断される。ここで、分割続行判定基準とは、(I)
選択された属性に基づいて分割したときのエントロピー
の差(H0−H)が所定のエントロピーしきい値Hth
以上であり、かつ(II)選択された属性に基づく分割後
のイベント数が所定のイベント数しきい値Dth以上で
あること。ステップS13で分割続行判定基準を満足す
るときは、ステップS14で、選択された属性の属性値
により分割した2つのノードを作成して、すなわち二分
木の形式で分割して、決定木を更新する。そして、ステ
ップS15では、上記作成した各ノードを処理対象とし
て、ステップS11に戻り、ステップS11からの処理
を繰り返す。一方、ステップS13で分割続行判定基準
を満足しないときは、元のメインルーチンに戻る。
【0047】ここで、作成された頻度確率付き単語決定
木の一例を図7に示す。図7に示すように、当該頻度確
率付き単語決定木は、各属性101乃至105で二分木
の形式で分割された木構造を有し、最後のリーフにおい
て単語カテゴリー、すなわち単語/非単語の別に対する
頻度確率が付与されている。この例では、入力文が「支
払い/を/カード/で」であるときに、201に示すよ
うに、単語“支払い”に対して単語カテゴリーの「単
語」が付与される一方、203に示すように、単語“カ
ード”に対して単語カテゴリーの「単語」が付与されて
いる。
【0048】また、作成された頻度確率付き品詞決定木
の一例を図8に示す。図8に示すように、当該頻度確率
付き品詞決定木は、各属性301乃至305で二分木の
形式で分割された木構造を有し、最後のリーフにおいて
単語カテゴリー、すなわち単語/非単語の別に対する頻
度確率が付与されている。この例では、入力文が「支払
い/を/カード/で」であるときに、401に示すよう
に、単語“支払い”に対して品詞カテゴリーの「名詞」
が付与される一方、403に示すように、単語“カー
ド”に対して品詞カテゴリーの「名詞」が付与されてい
る。
【0049】図4は、図1の単語分割及び品詞付与装置
11によって実行される単語分割及び品詞付与処理を示
すフローチャートである。図4において、まず、ステッ
プS21で、確率付き単語決定木ファイルメモリ24a
に格納された頻度確率付き単語決定木ファイルを読み出
して、品詞付与装置11内のRAMに書き込むととも
に、確率付き品詞決定木ファイルメモリ24bに格納さ
れた頻度確率付き品詞決定木ファイルを読み出して、品
詞付与装置11内のRAMに書き込む。次いで、ステッ
プS22でテキストデータメモリ25に格納された解析
対象のテキストデータを読み出して単語分割及び品詞付
与装置11内のRAMに書き込む。さらに、ステップS
23で単語分割及び品詞付与解析処理を実行して、単語
分割及び品詞付与済みテキストデータを生成し、ステッ
プS24で単語分割及び品詞付与済みテキストデータメ
モリ26に出力して書き込む。
【0050】図5及び図6は、図4のサブルーチンであ
る単語及び品詞付与解析処理(ステップS23)を示す
フローチャートである。まず、ステップS31で文頭の
文字を対象文字とする。次いで、ステップS32で対象
文字から単語候補を設定し、ステップS33で単語決定
木のルートノードを処理対象のカレントノードとする。
そして、ステップS34でカレントノードがリーフノー
ドであるか否かが判断される。ステップS34でNOで
あるときは、ステップS35でカレントノードの属性値
に基づいて子ノードをカレントノードとして、ステップ
S34に戻る。ステップS34においてYESであると
きは、ステップS36でリーフノードに割り当てられた
頻度確率リストの中で単語カテゴリーの頻度確率を選択
して単語候補に与える。
【0051】次いで、ステップS37で品詞決定木のル
ートノードを処理対象のカレントノードとする。そし
て、ステップS38でカレントノードがリーフノードで
あるか否かが判断される。ステップS38でNOである
ときは、ステップS39でカレントノードの属性値に基
づいて対応する子ノードをカレントノードとしてステッ
プS38に戻る。ステップS38でYESであるとき
は、ステップS40でリーフノードに割り当てられた頻
度確率リストの中で品詞カテゴリーの頻度確率を選択し
て単語候補に与える。そして、ステップS41で他の単
語候補があるか否かが判断される。ステップS41で他
の単語候補があるときはステップS32に戻り、上記の
処理を繰り返す。ステップS41でNOであるときは、
ステップS42で、スタック・デコーダ・アルゴリズム
に従って所定の結合確率以上の結合確率を有する単語分
割された品詞候補を限定する。そして、ステップS43
で次の文字があるか否かが判断される。ステップS43
で次の文字があるときは、ステップS44で次の文字を
対象文字として、ステップS32に戻り、上記の処理を
繰り返す。一方、ステップS43で次の文字が無いとき
はステップS45で最大の結合確率Pを有する単語分割
された品詞列を、正解の単語分割された品詞列とする。
ここで、正解の単語分割された品詞列の具体例として
は、「支払い(名詞)を(格助詞)カード(名詞)で
(格助詞)」の通りである。以上で当該単語及び品詞付
与解析処理を終了する。
【0052】以上の実施形態においては、日本語の形態
素解析装置について述べているが、本発明はこれに限ら
ず、英語の形態素解析装置に適用することができる。
【0053】
【実施例】本発明者は、以上のように構成された品詞付
与システムを用いて以下の実験を行った。本実施形態に
示したように、日本語の形態素解析は、入力文を単語に
分割し、各単語に品詞を付与することで、実現できる。
日本語の形態素解析においても、これまでに述べた辞書
の問題、品詞体系の修正による問題が同じようにあり、
本発明の手法が有効と考えられる。そこで、予備実験と
して、単語が正しく分割されている日本語の入力に対し
て、英語の品詞付与と同様の実験を行なった。以下に、
予備実験の結果を示す。予備実験対象としたテキスト
は、本特許出願人が所有する旅行会話に関する対話デー
タの一部を用いた。本実験における学習データ、評価デ
ータの語数、文数を表4に示す。
【0054】
【表4】
【0055】品詞体系は、33品詞のものと、その体系
をもとに、活用に関する情報などを付加した209品詞
の体系を用いた。その結果、33品詞の体系では、9
1.0%の正答率が得られ、209品詞の体系では、9
1.6%の正答率が得られた。本実験の結果と、辞書
(学習データに含まれる見出し語と与えられた品詞との
組合せ)を利用して、各単語のもっとも高頻度の品詞を
付与するという手法での正答率に、ほとんど差がなかっ
た。本実験では、選択項目に基本的な特徴のみを用いて
おり、特徴を増やすことにより、より精度を高めること
ができると考えている。また、日本語の場合、1つの単
語の持つ品詞は、ほぼ1つ(本実験で用いた学習データ
では、1単語、平均1.01の異なる品詞を持つ。)で
あるため、辞書として、品詞を持つことは非常に有効な
手段となる。以上のことから、辞書を利用せずに、辞書
から得られる情報を利用した場合とほぼ同等の結果を得
ることができていることから、本手法は有効であると考
えられる。
【0056】以上説明したように、本実施形態によれ
ば、品詞の接続関係、単語と品詞の関係、さらに離れた
単語との依存関係を統計的に処理するため、自動的に一
意に高精度で形態素解析できる。また、辞書を用いてい
ないため、未知の形態素に対しても柔軟に処理できる。
コーパスであるテキストデータから統計的特徴を学習す
るため、辞書の整備やパラメータ調整にかかるメンテナ
ンスのコストを削減できる。
【0057】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の形態素解析装置においては、単語列からなる品
詞付与済みテキストデータに基づいて、各単語の綴りの
特徴と、文章内の使われ方による特徴と、単語の相互情
報量を用いた階層的な分類とを含む複数の属性を用い
て、上記各属性の属性値に依存して分割されるような二
分木形式の木構造を有し品詞付与のための第1の決定木
を生成し、上記生成された第1の決定木の分割されない
ノードであるリーフノードに対して複数の品詞に対する
頻度確率を計算して付与することにより、品詞カテゴリ
ーの頻度確率付き第1の決定木を生成する第1の決定木
学習手段と、上記テキストデータに基づいて、各単語の
綴りの特徴と、後続する文字の特徴と、前につながる品
詞の特徴と、単語の相互情報量を用いた階層的な分類と
を含む複数の属性を用いて、上記各属性の属性値に依存
して分割されるような二分木形式の木構造を有し単語分
割のための第2の決定木を生成し、上記生成された第2
の決定木の分割されないノードであるリーフノードに対
して単語及び非単語に対する頻度確率を計算して付与す
ることにより、単語カテゴリーの頻度確率付き第2の決
定木を生成する第2の決定木学習手段と、分かち書きさ
れていない単語列からなり、入力されるテキストデータ
に基づいて、上記第2の決定木学習手段によって生成さ
れた単語カテゴリーの頻度確率付き第2の決定木を用い
て、上記第2の決定木のリーフノードに付与された単語
カテゴリーの頻度確率の中で上位複数n個の頻度確率を
選択して上記テキストデータの各単語候補に対して付与
するとともに、上記入力される単語列からなるテキスト
データに基づいて、上記第1の決定木学習手段によって
生成された品詞カテゴリーの頻度確率付き第1の決定木
を用いて、上記第1の決定木のリーフノードに付与され
た品詞カテゴリーの頻度確率の中で上位複数n個の頻度
確率を選択して上記テキストデータの各単語候補に対し
て付与し、上記テキストデータの単語列において最大の
結合確率を有する単語分割された単語と品詞の組み合わ
せの列を、正解の単語分割された単語と品詞の組み合わ
せの列として決定して出力する単語分割及び品詞付与手
段とを備える。従って、分かち書きされていない入力文
に対して単語又は非単語の判断を行って単語毎に分割
し、自動的に品詞を付与して形態素解析することができ
る。ここで、品詞の接続関係、単語と品詞の関係、さら
に離れた単語との依存関係を統計的に処理するため、自
動的に一意に高精度で形態素解析できる。また、辞書を
用いていないため、未知の形態素に対しても柔軟に処理
できる。コーパスであるテキストデータから統計的特徴
を学習するため、辞書の整備やパラメータ調整にかかる
メンテナンスのコストを削減できる。
【0058】また、請求項2記載の形態素解析装置にお
いては、請求項1記載の形態素解析装置において、上記
第1と第2の決定木学習手段はそれぞれ、上記二分木の
形式で分割するときに、上記各属性による分割前の属性
の有効性の優先順位を表わすエントロピーH0と分割後
のエントロピーHとの差(H0−H)が最大の属性を分
割候補の属性として選択し、所定の分割続行基準を満足
するときに、二分木の形式で分割して決定木を更新す
る。従って、品詞の接続関係、単語と品詞の関係、さら
に離れた単語との依存関係を統計的に処理するため、自
動的に一意に高精度で形態素解析できる。また、辞書を
用いていないため、未知の形態素に対しても柔軟に処理
できる。コーパスであるテキストデータから統計的特徴
を学習するため、辞書の整備やパラメータ調整にかかる
メンテナンスのコストを削減できる。
【0059】さらに、請求項3記載の形態素解析装置に
おいては、請求項2記載の形態素解析装置において、上
記分割続行基準は、(I)選択された属性に基づいて分
割したときのエントロピーの差(H0−H)が所定のエ
ントロピーしきい値Hth以上であり、かつ(II)選択
された属性に基づく分割後の属性とその属性値及び品詞
の組のイベント数が所定のイベント数しきい値Dth以
上であることである。従って、品詞の接続関係、単語と
品詞の関係、さらに離れた単語との依存関係を統計的に
処理するため、自動的に一意に高精度で形態素解析でき
る。また、辞書を用いていないため、未知の形態素に対
しても柔軟に処理できる。コーパスであるテキストデー
タから統計的特徴を学習するため、辞書の整備やパラメ
ータ調整にかかるメンテナンスのコストを削減できる。
【0060】またさらに、請求項4記載の形態素解析装
置においては、請求項1、2又は3記載の形態素解析装
置において、上記単語分割及び品詞付与手段は、上記第
2の決定木のリーフノードに付与された単語カテゴリー
の頻度確率の中で上位複数n個の頻度確率を選択して上
記テキストデータの各単語候補に対して付与し、かつ上
記第1の決定木のリーフノードに付与された品詞カテゴ
リーの頻度確率の中で上位複数n個の頻度確率を選択し
て上記テキストデータの各単語候補に対して付与した
後、所定のスタック・デコーダ・アルゴリズムに用い
て、処理途中のテキストデータの単語列に対する結合確
率が所定の結合確率以上である単語と品詞の組み合わせ
の列の候補のみを残して当該組み合わせの候補を限定
し、処理終了時の上記テキストデータの単語列において
最大の結合確率を有する単語分割された単語と品詞の組
み合わせの列を、正解の単語分割された単語と品詞の組
み合わせの列として決定する。従って、本実施形態によ
れば、品詞の接続関係、単語と品詞の関係、さらに離れ
た単語との依存関係を統計的に処理するため、自動的に
一意に高精度で形態素解析できる。また、辞書を用いて
いないため、未知の形態素に対しても柔軟に処理でき
る。コーパスであるテキストデータから統計的特徴を学
習するため、辞書の整備やパラメータ調整にかかるメン
テナンスのコストを削減できる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である、決定木学習
装置並びに単語分割及び品詞付与装置を備えた品詞付与
システムのブロック図である。
【図2】 図1の決定木学習装置によって実行される決
定木学習処理を示すフローチャートである。
【図3】 図2のサブルーチンである決定木作成処理
(ステップS3)を示すフローチャートである。
【図4】 図1の単語分割及び品詞付与装置によって実
行される単語及び品詞付与処理を示すフローチャートで
ある。
【図5】 図4のサブルーチンである単語及び品詞付与
解析処理(ステップS23)の第1の部分を示すフロー
チャートである。
【図6】 図4のサブルーチンである単語及び品詞付与
解析処理(ステップS23)の第2の部分を示すフロー
チャートである。
【図7】 図1の決定木学習装置によって作成された頻
度確率付き単語決定木ファイル内の単語決定木の一例を
示す図である。
【図8】 図1の決定木学習装置によって作成された頻
度確率付き品詞決定木ファイル内の品詞決定木の一例を
示す図である。
【符号の説明】
10…決定木学習装置、 11…単語分割及び品詞付与装置、 21…品詞付与済みテキストデータメモリ、 22…属性リストメモリ、 23a…単語リストメモリ、 23b…品詞リストメモリ、 24a…確率付き品詞決定木ファイルメモリ、 24b…確率付き単語決定木ファイルメモリ、 25…テキストデータメモリ、 26…単語分割及び品詞付与済みテキストデータメモ
リ。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ステファン・ジー・ユーバンク 京都府相楽郡精華町大字乾谷小字三平谷 5番地 株式会社エイ・ティ・アール音 声翻訳通信研究所内 (56)参考文献 柏岡秀紀、Ezra W.Blac k、Stephen G.Euban k、「決定木学習による形態素解析」、 人工知能学会研究会資料、SIG−SL UD−9603−4、p.19−p.24 (1997.1) David M.Magerma n,”Learning Gramma tical Structure Us ing Statistical De cision−Trees”,Lect ure Notes in Artif icial Intelligence 1147,p.1−p.21(1996) 鈴木惠美子、「統計調査に基づく文字 列パターンを用いた日本語文自動分 割」、電子情報通信学会論文誌 D−▲ II▼、Vol.J79−D−▲II▼、 No.7、p.1236−p.1243(1996) (58)調査した分野(Int.Cl.7,DB名) G06F 17/20 - 17/28 JICSTファイル(JOIS)

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 単語列からなる品詞付与済みテキストデ
    ータに基づいて、各単語の綴りの特徴と、文章内の使わ
    れ方による特徴と、単語の相互情報量を用いた階層的な
    分類とを含む複数の属性を用いて、上記各属性の属性値
    に依存して分割されるような二分木形式の木構造を有し
    品詞付与のための第1の決定木を生成し、上記生成され
    た第1の決定木の分割されないノードであるリーフノー
    ドに対して複数の品詞に対する頻度確率を計算して付与
    することにより、品詞カテゴリーの頻度確率付き第1の
    決定木を生成する第1の決定木学習手段と、 上記テキストデータに基づいて、各単語の綴りの特徴
    と、後続する文字の特徴と、前につながる品詞の特徴
    と、単語の相互情報量を用いた階層的な分類とを含む複
    数の属性を用いて、上記各属性の属性値に依存して分割
    されるような二分木形式の木構造を有し単語分割のため
    の第2の決定木を生成し、上記生成された第2の決定木
    の分割されないノードであるリーフノードに対して単語
    及び非単語に対する頻度確率を計算して付与することに
    より、単語カテゴリーの頻度確率付き第2の決定木を生
    成する第2の決定木学習手段と、 分かち書きされていない単語列からなり、入力されるテ
    キストデータに基づいて、上記第2の決定木学習手段に
    よって生成された単語カテゴリーの頻度確率付き第2の
    決定木を用いて、上記第2の決定木のリーフノードに付
    与された単語カテゴリーの頻度確率の中で上位複数n個
    の頻度確率を選択して上記テキストデータの各単語候補
    に対して付与するとともに、上記入力される単語列から
    なるテキストデータに基づいて、上記第1の決定木学習
    手段によって生成された品詞カテゴリーの頻度確率付き
    第1の決定木を用いて、上記第1の決定木のリーフノー
    ドに付与された品詞カテゴリーの頻度確率の中で上位複
    数n個の頻度確率を選択して上記テキストデータの各単
    語候補に対して付与し、上記テキストデータの単語列に
    おいて最大の結合確率を有する単語分割された単語と品
    詞の組み合わせの列を、正解の単語分割された単語と品
    詞の組み合わせの列として決定して出力する単語分割及
    び品詞付与手段とを備えたことを特徴とする形態素解析
    装置。
  2. 【請求項2】 上記第1と第2の決定木学習手段はそれ
    ぞれ、上記二分木の形式で分割するときに、上記各属性
    による分割前の属性の有効性の優先順位を表わすエント
    ロピーH0と分割後のエントロピーHとの差(H0−H)
    が最大の属性を分割候補の属性として選択し、所定の分
    割続行基準を満足するときに、二分木の形式で分割して
    決定木を更新することを特徴とする請求項1記載の形態
    素解析装置。
  3. 【請求項3】 上記分割続行基準は、 (I)選択された属性に基づいて分割したときのエント
    ロピーの差(H0−H)が所定のエントロピーしきい値
    Hth以上であり、かつ (II)選択された属性に基づく分割後の属性とその属性
    値及び品詞の組のイベント数が所定のイベント数しきい
    値Dth以上であることを特徴とする請求項2記載の形
    態素解析装置。
  4. 【請求項4】 上記単語分割及び品詞付与手段は、上記
    第2の決定木のリーフノードに付与された単語カテゴリ
    ーの頻度確率の中で上位複数n個の頻度確率を選択して
    上記テキストデータの各単語候補に対して付与し、かつ
    上記第1の決定木のリーフノードに付与された品詞カテ
    ゴリーの頻度確率の中で上位複数n個の頻度確率を選択
    して上記テキストデータの各単語候補に対して付与した
    後、所定のスタック・デコーダ・アルゴリズムに用い
    て、処理途中のテキストデータの単語列に対する結合確
    率が所定の結合確率以上である単語と品詞の組み合わせ
    の列の候補のみを残して当該組み合わせの候補を限定
    し、処理終了時の上記テキストデータの単語列において
    最大の結合確率を有する単語分割された単語と品詞の組
    み合わせの列を、正解の単語分割された単語と品詞の組
    み合わせの列として決定することを特徴とする請求項
    1、2又は3記載の形態素解析装置。
JP05611597A 1997-03-11 1997-03-11 形態素解析装置 Expired - Fee Related JP3174526B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05611597A JP3174526B2 (ja) 1997-03-11 1997-03-11 形態素解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05611597A JP3174526B2 (ja) 1997-03-11 1997-03-11 形態素解析装置

Publications (2)

Publication Number Publication Date
JPH10254874A JPH10254874A (ja) 1998-09-25
JP3174526B2 true JP3174526B2 (ja) 2001-06-11

Family

ID=13018085

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05611597A Expired - Fee Related JP3174526B2 (ja) 1997-03-11 1997-03-11 形態素解析装置

Country Status (1)

Country Link
JP (1) JP3174526B2 (ja)

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
David M.Magerman,"Learning Grammatical Structure Using Statistical Decision−Trees",Lecture Notes in Artificial Intelligence 1147,p.1−p.21(1996)
柏岡秀紀、Ezra W.Black、Stephen G.Eubank、「決定木学習による形態素解析」、人工知能学会研究会資料、SIG−SLUD−9603−4、p.19−p.24(1997.1)
鈴木惠美子、「統計調査に基づく文字列パターンを用いた日本語文自動分割」、電子情報通信学会論文誌 D−▲II▼、Vol.J79−D−▲II▼、No.7、p.1236−p.1243(1996)

Also Published As

Publication number Publication date
JPH10254874A (ja) 1998-09-25

Similar Documents

Publication Publication Date Title
US9672205B2 (en) Methods and systems related to information extraction
Finkel et al. Efficient, feature-based, conditional random field parsing
Viola et al. Learning to extract information from semi-structured text using a discriminative context free grammar
JP4568774B2 (ja) 手書き文字認識で使用されるテンプレートを生成する方法
Park et al. Hybrid text mining for finding abbreviations and their definitions
US6990439B2 (en) Method and apparatus for performing machine translation using a unified language model and translation model
US5285386A (en) Machine translation apparatus having means for translating polysemous words using dominated codes
Xin et al. Learning better internal structure of words for sequence labeling
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
Ren et al. Detecting the scope of negation and speculation in biomedical texts by using recursive neural network
Botha et al. Adaptor Grammars for Learning Non− Concatenative Morphology
Araujo How evolutionary algorithms are applied to statistical natural language processing
Anandika et al. Review on usage of Hidden Markov Model in natural language processing
JP3174526B2 (ja) 形態素解析装置
JP3309174B2 (ja) 文字認識方法及び装置
JP3027553B2 (ja) 構文解析装置
JP3100556B2 (ja) 品詞付与装置
JP3035261B2 (ja) 日本語構文解析装置
Weigel et al. Lexical postprocessing by heuristic search and automatic determination of the edit costs
Daelemans Abstraction considered harmful: Lazy learning of language processing
JP2003331214A (ja) 文字認識誤り訂正方法、装置及びプログラム
JP3043625B2 (ja) 単語分類処理方法、単語分類処理装置及び音声認識装置
Kashioka et al. Use of mutual information based character clusters in dictionary-less morphological analysis of Japanese
Daelemans Toward an exemplar-based computational model for cognitive grammar
Misra et al. Nested Noun Phrase Identification Using BERT

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees