JP3174526B2

JP3174526B2 - 形態素解析装置

Info

Publication number: JP3174526B2
Application number: JP05611597A
Authority: JP
Inventors: 秀紀柏岡; エズラ・ダブリュー・ブラック; ステファン・ジー・ユーバンク
Original assignee: 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date: 1997-03-11
Filing date: 1997-03-11
Publication date: 2001-06-11
Anticipated expiration: 2017-03-11
Also published as: JPH10254874A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文字列を含む文章
のテキストデータに対して単語毎に分割しかつ品詞を自
動的に付与する形態素解析装置に関する。

【０００２】

【従来の技術】従来、比較的精度のよい品詞付与システ
ム（以下、第１の従来例という。）が、従来技術文献１
「E.Brill et al.,“Some Advances in Transformation
--Based Part of Speech Tagging",Proceedings of the
Twelfth National Conferenceon Artificial Intellig
ence,pp.722-727,AAAI,1994年」及び従来技術文献２
「B.Merialdo et al.,“Tagging English Text with a
Probabilistic Model",Computational Linguistics,20-
2,pp.155-171,1994年」において報告されている。この
従来例の品詞付与システムにおいては、単語表記とその
表記のとる品詞ラベルの組を記述した、品詞付与のため
の辞書を参照することによりテキストデータに対して品
詞を付与している。

【０００３】この第１の従来例の品詞付与システムにお
いては、辞書を用いて品詞を付与しているために、辞書
項目に記載されていない未知語に対する品詞付与は難し
く、また、単語と品詞ラベルとの未知の組合せに対する
処理は難しいという問題点があった。さらに、使われる
品詞体系の変更により辞書のメンテナンスを行う必要が
あるという問題点があった。また、辞書を使用しない
で、ヒューリスティックスにより（発見的に又は経験的
に）単語に対する品詞ラベルを割り当てている品詞付与
装置もあるが、品詞付与の正解率は比較的低いという問
題点があった。

【０００４】以上の問題点を解決するために、本特許出
願人は、特願平８−２３２９９３号の特許出願におい
て、品詞付与のための辞書を用いることなく、第１の従
来例に比較して正確に自動的に付与することができる品
詞付与装置（以下、第２の従来例という。）を開示して
いる。この第２の従来例の品詞付与装置は、（ａ）単語
列からなる品詞付与済みテキストデータに基づいて、各
単語の綴りの特徴と、文章内の使われ方による特徴と、
単語の相互情報量を用いた階層的な分類とを含む複数の
属性を用いて、上記各属性の属性値に依存して分割され
るような二分木形式の木構造を有し品詞付与のための決
定木を生成し、上記生成された決定木の分割されないノ
ードであるリーフノードに対して複数の品詞に対する頻
度確率を計算して付与することにより、頻度確率付き決
定木を生成する決定木学習手段と、（ｂ）上記決定木学
習手段によって生成された頻度確率付き決定木を用い
て、入力される単語列からなるテキストデータに基づい
て、上記リーフノードに付与された頻度確率の中で上位
複数ｎ個の頻度確率を選択して上記テキストデータの各
単語に対して付与し、上記テキストデータの単語列にお
いて最大の結合確率を有する品詞列を正解品詞列として
決定して出力する品詞付与手段とを備えたことを特徴と
している。

【０００５】

【発明が解決しようとする課題】この第２の従来例にお
いては、入力された文が単語に分割された一文であり、
日本語のように分かち書きされていない文に対して当該
品詞付与装置を適用することができないという問題点が
あった。

【０００６】本発明の目的は以上の問題点を解決し、分
かち書きされていない入力文に対して単語又は非単語の
判断を行って単語毎に分割し、自動的に品詞を付与する
ことができる形態素解析装置を提供することにある。

【０００７】

【課題を解決するための手段】本発明に係る請求項１記
載の形態素解析装置は、単語列からなる品詞付与済みテ
キストデータに基づいて、各単語の綴りの特徴と、文章
内の使われ方による特徴と、単語の相互情報量を用いた
階層的な分類とを含む複数の属性を用いて、上記各属性
の属性値に依存して分割されるような二分木形式の木構
造を有し品詞付与のための第１の決定木を生成し、上記
生成された第１の決定木の分割されないノードであるリ
ーフノードに対して複数の品詞に対する頻度確率を計算
して付与することにより、品詞カテゴリーの頻度確率付
き第１の決定木を生成する第１の決定木学習手段と、上
記テキストデータに基づいて、各単語の綴りの特徴と、
後続する文字の特徴と、前につながる品詞の特徴と、単
語の相互情報量を用いた階層的な分類とを含む複数の属
性を用いて、上記各属性の属性値に依存して分割される
ような二分木形式の木構造を有し単語分割のための第２
の決定木を生成し、上記生成された第２の決定木の分割
されないノードであるリーフノードに対して単語及び非
単語に対する頻度確率を計算して付与することにより、
単語カテゴリーの頻度確率付き第２の決定木を生成する
第２の決定木学習手段と、分かち書きされていない単語
列からなり、入力されるテキストデータに基づいて、上
記第２の決定木学習手段によって生成された単語カテゴ
リーの頻度確率付き第２の決定木を用いて、上記第２の
決定木のリーフノードに付与された単語カテゴリーの頻
度確率の中で上位複数ｎ個の頻度確率を選択して上記テ
キストデータの各単語候補に対して付与するとともに、
上記入力される単語列からなるテキストデータに基づい
て、上記第１の決定木学習手段によって生成された品詞
カテゴリーの頻度確率付き第１の決定木を用いて、上記
第１の決定木のリーフノードに付与された品詞カテゴリ
ーの頻度確率の中で上位複数ｎ個の頻度確率を選択して
上記テキストデータの各単語候補に対して付与し、上記
テキストデータの単語列において最大の結合確率を有す
る単語分割された単語と品詞の組み合わせの列を、正解
の単語分割された単語と品詞の組み合わせの列として決
定して出力する単語分割及び品詞付与手段とを備えたこ
とを特徴とする。

【０００８】また、請求項２記載の形態素解析装置は、
請求項１記載の形態素解析装置において、上記第１と第
２の決定木学習手段はそれぞれ、上記二分木の形式で分
割するときに、上記各属性による分割前の属性の有効性
の優先順位を表わすエントロピーＨ₀と分割後のエント
ロピーＨとの差（Ｈ₀−Ｈ）が最大の属性を分割候補の
属性として選択し、所定の分割続行基準を満足するとき
に、二分木の形式で分割して決定木を更新することを特
徴とする。

【０００９】さらに、請求項３記載の形態素解析装置
は、請求項２記載の形態素解析装置において、上記分割
続行基準は、（Ｉ）選択された属性に基づいて分割した
ときのエントロピーの差（Ｈ₀−Ｈ）が所定のエントロ
ピーしきい値Ｈｔｈ以上であり、かつ（II）選択された
属性に基づく分割後の属性とその属性値及び品詞の組の
イベント数が所定のイベント数しきい値Ｄｔｈ以上であ
ることを特徴とする。

【００１０】またさらに、請求項４記載の形態素解析装
置は、請求項１、２又は３記載の形態素解析装置におい
て、上記単語分割及び品詞付与手段は、上記第２の決定
木のリーフノードに付与された単語カテゴリーの頻度確
率の中で上位複数ｎ個の頻度確率を選択して上記テキス
トデータの各単語候補に対して付与し、かつ上記第１の
決定木のリーフノードに付与された品詞カテゴリーの頻
度確率の中で上位複数ｎ個の頻度確率を選択して上記テ
キストデータの各単語候補に対して付与した後、所定の
スタック・デコーダ・アルゴリズムに用いて、処理途中
のテキストデータの単語列に対する結合確率が所定の結
合確率以上である単語と品詞の組み合わせの列の候補の
みを残して当該組み合わせの候補を限定し、処理終了時
の上記テキストデータの単語列において最大の結合確率
を有する単語分割された単語と品詞の組み合わせの列
を、正解の単語分割された単語と品詞の組み合わせの列
として決定することを特徴とする。

【００１１】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。図１は、本発明に係る一
実施形態である決定木学習装置並びに単語分割及び品詞
付与装置を備えた形態素解析装置のブロック図である。
この形態素解析装置は、日本語のテキストデータに対し
て、単語分割のための辞書及び品詞付与のための辞書を
参照しないで、単語分割して品詞を付与する形態素解析
装置であって、（ａ）品詞付与済みテキストメモリ２１
に格納された品詞付与済みテキストデータに基づいて、
属性リストメモリ２２に格納された属性リストと、品詞
リストメモリ２３ｂに格納された品詞リストとを参照し
て、詳細後述する決定木学習処理を実行して学習するこ
とにより、頻度確率付き品詞決定木を生成して確率付き
品詞決定木ファイルメモリ２４ｂに格納するとともに、
品詞付与済みテキストメモリ２１に格納された品詞付与
済みテキストデータに基づいて、属性リストメモリ２２
に格納された属性リストと、単語リストメモリ２３ａに
格納された単語リストとを参照して、詳細後述する決定
木学習処理を実行して学習することにより、頻度確率付
き単語決定木を生成して確率付き単語決定木ファイルメ
モリ２４ａに格納する決定木学習装置１０と、（ｂ）確
率付き単語決定木ファイルメモリ２４ａに格納された頻
度確率付き単語決定木と、確率付き品詞決定木ファイル
メモリ２４ｂに格納された頻度確率付き品詞決定木とを
用いて、属性リストメモリ２２に格納された属性リスト
と、単語リストメモリ２３ａに格納された単語リスト
と、品詞メモリ２３ｂに格納された品詞リストとを参照
して、テキストデータメモリ２５に格納され入力される
テキストデータに対して、詳細後述する単語分割及び品
詞付与処理を実行することにより、単語分割して品詞を
付与することにより、単語分割及び品詞付与済みテキス
トデータを生成して単語分割及び品詞付与済みテキスト
データメモリ２６に格納する単語分割及び品詞付与装置
１１とを備える。本実施形態においては、テキストデー
タとは、日本語の単語列からなる日本語文である。

【００１２】ここで、決定木学習装置１０は、単語列か
らなる品詞付与済みテキストデータに基づいて、各単語
の綴りの特徴と、文章内の使われ方による特徴と、単語
の相互情報量を用いた階層的な分類とを含む複数の属性
を用いて、上記各属性の属性値に依存して分割されるよ
うな二分木形式の木構造を有し品詞付与のための品詞決
定木を生成し、上記生成された品詞決定木の分割されな
いノードであるリーフノードに対して複数の品詞に対す
る頻度確率を計算して付与することにより、品詞カテゴ
リーの頻度確率付き品詞決定木を生成する。また、決定
木学習装置１０は、上記テキストデータに基づいて、各
単語の綴りの特徴と、後続する文字の特徴と、前につな
がる品詞の特徴と、単語の相互情報量を用いた階層的な
分類とを含む複数の属性を用いて、上記各属性の属性値
に依存して分割されるような二分木形式の木構造を有し
単語分割のための単語決定木を生成し、上記生成された
単語決定木の分割されないノードであるリーフノードに
対して単語及び非単語に対する頻度確率を計算して付与
することにより、単語カテゴリーの頻度確率付き単語決
定木を生成する。

【００１３】次いで、単語分割及び品詞付与装置１１
は、入力される単語列からなるテキストデータに基づい
て、決定木学習装置１０によって生成された単語カテゴ
リーの頻度確率付き単語決定木を用いて、上記単語決定
木のリーフノードに付与された単語カテゴリーの頻度確
率の中で上位複数ｎ個の頻度確率を選択して上記テキス
トデータの各単語候補に対して付与するとともに、上記
入力される単語列からなるテキストデータに基づいて、
決定木学習装置１０によって生成された品詞カテゴリー
の頻度確率付き品詞決定木を用いて、品詞決定木のリー
フノードに付与された品詞カテゴリーの頻度確率の中で
上位複数ｎ個の頻度確率を選択して上記テキストデータ
の各単語候補に対して付与し、上記テキストデータの単
語列において最大の結合確率を有する単語分割された単
語と品詞の組み合わせの列を、正解の単語分割された単
語と品詞の組み合わせの列として決定して出力する。

【００１４】ここで、決定木学習装置１０は、上記二分
木の形式で分割するときに、上記各属性による分割前の
属性の有効性の優先順位を表わすエントロピーＨ₀と分
割後のエントロピーＨとの差（Ｈ₀−Ｈ）が最大の属性
を分割候補の属性として選択し、所定の分割続行基準を
満足するときに、二分木の形式で分割して決定木を更新
する。また、単語分割及び品詞付与装置１１は、単語決
定木のリーフノードに付与された単語カテゴリーの頻度
確率の中で上位複数ｎ個の頻度確率を選択して上記テキ
ストデータの各単語候補に対して付与し、かつ品詞決定
木のリーフノードに付与された品詞カテゴリーの頻度確
率の中で上位複数ｎ個の頻度確率を選択して上記テキス
トデータの各単語候補に対して付与した後、所定のスタ
ック・デコーダ・アルゴリズムに用いて、処理途中のテ
キストデータの単語列に対する結合確率が所定の結合確
率以上である単語と品詞の組み合わせの列の候補のみを
残して当該組み合わせの候補を限定し、処理終了時の上
記テキストデータの単語列において最大の結合確率を有
する単語分割された単語と品詞の組み合わせの列を、正
解の単語分割された単語と品詞の組み合わせの列として
決定する。

【００１５】本実施形態においては、決定木学習処理に
より、品詞付与済みテキストデータから得られる知識を
用いて、二分木形式の木構造を有し品詞付与のための頻
度確率付き品詞決定木及び単語決定木を生成し、単語分
割及び品詞付与を行なう。頻度確率付き品詞決定木及び
単語決定木で用いられる属性は、言語学的な特徴やコー
パスから得られる統計的な特徴を用いる。従来の品詞付
与では、辞書を引くことで品詞候補を制限し、その中か
ら、前後に現れる語との関係などを考慮して、もっとも
適切な品詞を選択するという方法が一般的である。しか
しながら、辞書の作成や保守にかかるコストの問題とな
る。また、辞書項目に無い語（未知語）や辞書の品詞候
補にない品詞として使われた語に対しては、特別な処理
が必要とされる。本実施形態に係る頻度確率付き品詞決
定木を用いた方法では、単語の品詞を決定するために、
辞書を用いないため、辞書の作成や保守にかかるコスト
は問題にならない。頻度確率付き品詞決定木を、品詞付
与済みテキストを用いた学習により構築する。そのため
に、品詞付与済みテキストデータがあれば、品詞体系に
柔軟に対応できる。また、上記頻度確率を用いて、品詞
列の優先順位を自動的に決定することができる。品詞決
定木は、対象を複数の属性とその属性値から、適切なク
ラスに分類する木構造のモデルである。品詞付与におい
ては、対象が各単語に、クラスが品詞に相当する。属性
としては、各単語の綴の特徴や文内の使われ方による特
徴や単語の相互情報量を用いた階層的分類などを用い
る。また、本実施形態においては、当該品詞付与の手法
を単語分割の手法に適用することを特徴としている。以
下、本実施形態の形態素解析装置について詳述する。

【００１６】図１において、決定木学習装置１０は、品
詞付与済みテキストメモリ２１に格納された品詞付与済
みテキストデータに基づいて、属性リストメモリ２２に
格納された属性リストと、品詞リストメモリ２３ｂに格
納された品詞リストとを参照して、詳細後述する決定木
学習処理を実行して学習することにより、頻度確率付き
品詞決定木を生成して確率付き品詞決定木ファイルメモ
リ２４ｂに格納する。また、決定木学習装置１０は、品
詞付与済みテキストメモリ２１に格納された品詞付与済
みテキストデータに基づいて、属性リストメモリ２２に
格納された属性リストと、単語リストメモリ２３ａに格
納された単語リストとを参照して、詳細後述する決定木
学習処理を実行して学習することにより、頻度確率付き
単語決定木を生成して確率付き単語決定木ファイルメモ
リ２４ａに格納する。

【００１７】次いで、単語分割及び品詞付与装置１１
は、確率付き単語決定木ファイルメモリ２４ａに格納さ
れた頻度確率付き単語決定木と、確率付き品詞決定木フ
ァイルメモリ２４ｂに格納された頻度確率付き品詞決定
木とを用いて、属性リストメモリ２２に格納された属性
リストと、単語リストメモリ２３ａに格納された単語リ
ストと、品詞メモリ２３ｂに格納された品詞リストとを
参照して、テキストデータメモリ２５に格納され入力さ
れるテキストデータに対して、詳細後述する単語分割及
び品詞付与処理を実行することにより、単語分割して品
詞を付与することにより、単語分割及び品詞付与済みテ
キストデータを生成して単語分割及び品詞付与済みテキ
ストデータメモリ２６に格納する。ここで、生成された
単語分割及び品詞付与済みテキストデータは、例えばＣ
ＲＴディスプレイやプリンタなどの出力機器に出力して
もよい。

【００１８】ここで、決定木学習装置１０と単語分割及
び品詞付与装置１１はそれぞれ、例えば、各処理を実行
するＣＰＵと、各処理のプログラム及びそれを実行する
ために必要なデータを格納するＲＯＭ（読出専用メモ
リ）と、ＣＰＵのワーキングメモリとして用いられるＲ
ＡＭ（ランダムアクセスメモリ）とを備えたデジタル計
算機で構成される。また、メモリ２１，２２，２３ａ，
２３ｂ，２４ａ，２４ｂ，２５，２６は、例えばハード
ディスクメモリで構成される。

【００１９】品詞リストメモリ２３ｂに格納される品詞
リストの一例を表１に示す。また、属性リストメモリ２
２に格納される属性リストの一例を表２に示す。

【００２０】

【表１】品詞リスト ─────── 品詞 ─────── 名詞動詞形容詞助詞 … … ───────

【００２１】

【表２】 ─────────────────────────────────── 属性属性値 ─────────────────────────────────── 単語の相互情報量を用いた分類コード階層的分類コード対象単語が“〜い”を含む単語Ｙｅｓ，Ｎｏ対象単語がすべてカタカナの単語Ｙｅｓ，Ｎｏ対象単語の長さ単語長さの数値（例えば、“カード”なら３）直前の単語の品詞属性の値品詞属性の値現在の単語の品詞属性の値品詞属性の値後続する単語の品詞属性の値品詞属性の値文末が“？” Ｙｅｓ，Ｎｏ ………………………… ………………………… ───────────────────────────────────

【００２２】ここで、単語の相互情報量を用いた階層的
分類コードとは、例えば、特願平８−０２７８０９号の
特許出願や従来技術文献３「Akira Ushioda,“Hierarch
icalClustering of Words",Proceedings of COLING'96,
The 16th International Conference on Computational
Linguistics,Vol.2,pp.1159-1162,1996年8月」におい
て開示された単語分類方法を用いて分類された階層的分
類コードである。この単語分類方法では、テキストデー
タ内の単語について出現頻度の比較的低い単語を、同一
の単語に隣接する割合の多い単語を同一のクラスに割り
当てるという基準で分類した後、単語分類結果を中間
層、上側層、及び下側層の３つの階層に分類し、テキス
トデータ内のすべての単語を対象とするグローバルな
（全体的な）コスト関数である所定の平均相互情報量を
用いて、中間層、上側層、及び下側層の順序で階層別に
単語の分類を実行することを特徴としている。相互情報
量を用いたクラスタリングの方法においては、単語数Ｔ
のテキスト、語数Ｖの語彙、それに語彙の分割関数πと
が存在すると仮定し、ここで、語彙の分割関数πは語彙
Ｖから語彙の中の単語クラスセットＣへの分割写像（マ
ッピング）を表わす写像関数である。複数の単語からな
るテキストデータを生成するバイグラムのクラスモデル
の尤度Ｌ（π）は次式によって得られる。

【００２３】

【数１】Ｌ(π)＝−Ｈｍ＋Ｉ

【００２４】ここで、Ｈｍはモノグラムの単語分布のエ
ントロピーであり、Ｉはテキストデータ内の隣接する２
つのクラスＣ₁，Ｃ₂に関する平均的な相互情報量（Aver
ageMutual Information；以下、平均相互情報量とし、
ＡＭＩと表記する。）であり、次式で計算することがで
きる。

【００２５】

【数２】

【００２６】ここで、Ｐｒ（Ｃ₁）は第１のクラスＣ₁の
単語の出現確率であり、Ｐｒ（Ｃ₂）は第２のクラスＣ₂
の単語の出現確率であり、Ｐｒ（Ｃ₁｜Ｃ₂）は、第２の
クラスＣ₂の単語は出現した後に、第１のクラスＣ₁の単
語が出現する条件付き確率であり、Ｐｒ（Ｃ₁，Ｃ₂）は
第１のクラスＣ₁の単語と第２のクラスＣ₂の単語が隣接
して出現する確率である。従って、上記数２で表される
ＡＭＩは、互いに異なる第１のクラスＣ₁の単語と第２
のクラスＣ₂の単語とが隣接して出現する確率を、上記
第１のクラスＣ₁の単語の出現確率と第２のクラスＣ₂の
単語の出現確率との積で割った相対的な頻度の割合を表
わす。エントロピーＨは写像関数πに依存しない値であ
ることから、ＡＭＩを最大にする写像関数は同時にテキ
ストの尤度Ｌ（π）も最大にする。従って、ＡＭＩを単
語のクラス構成における目的関数として使用することが
できる。

【００２７】上記単語分類方法は、意味又は統語的特徴
が似通った単語が近接した位置に配置された点で、バラ
ンスが取れた二分木の形式を有するツリー構造を生成す
ることができる。処理の最後に、根のノード（ルートノ
ード（ｒｏｏｔｎｏｄｅ））から葉のノード（リーフ
ノード（ｌｅａｆｎｏｄｅ）に至るパスの追跡し、左
側方向の分岐又は右側方向の分岐をそれぞれ表わす０又
は１の１ビットを各分岐に割り当てることによって、語
彙の中の各単語に対して、ビットストリング（単語ビッ
ト）を割り当てることができる。

【００２８】次いで、単語分割のための決定木及び品詞
付与のための決定木を構築する決定木学習処理のアルゴ
リズム、及び単語分割及び品詞付与処理のアルゴリズム
について述べる。

【００２９】決定木学習処理では、各属性の有効性を他
の属性と独立に計算し、クラスの決定のための効率的な
属性による分類順序を、二分木の形式で分割された構造
を有する木構造として構築する。属性の有効性は、その
属性による分割分類後のエントロピーＨにより評価す
る。ここでのエントロピーは、属性の有効性の優先順位
を表わす。すなわち、ある属性ＢでノードＮ₁とノード
Ｎ₂とに分割するときに、分割前のエントロピーＨ₀と、
分割後のエントロピーＨと、ノードＮ₁に対するエント
ロピーＨ₁と、ノードＮ₂に対するエントロピーＨ₂とは
次式で表される。

【００３０】

【数３】

【数４】Ｈ＝ｐ₁Ｈ₁＋（１−ｐ₁）Ｈ₂ ここで、

【数５】

【数６】

【００３１】ここで、ｐ（ｔａｇａｌｌ）は分割前のす
べての品詞又は単語／非単語の別についてのイベントの
数の頻度確率又は出現確率であり、ｔａｇａｌｌについ
てのΣは、分割前のすべての品詞又は単語／非単語の別
についての和を示す。また、ｐ₁は、ノードＮ₁に分割し
たときに含まれる品詞タグのイベントの数の頻度確率の
総和である。さらに、ｐ（ｔａｇＮ₁）はノードＮ₁のす
べての品詞タグについてのイベントの数の頻度確率であ
り、ｔａｇＮ₁についてのΣは、ノードＮ₁のすべての品
詞タグについての和を示す。ｐ（ｔａｇＮ₂）はノード
Ｎ₂のすべての品詞タグについてのイベントの数の頻度
確率であり、ｔａｇＮ₂についてのΣは、ノードＮ₂のす
べての品詞についての和を示す。

【００３２】有効性の計算のために、学習用のテキスト
データから各語について「属性とその属性値、品詞」の
組からなるイベント情報（ｅｖｅｎｔ：以下、イベント
という。）を予めとりだしておく。具体的には、全ての
イベントの集合に対して、分類後のエントロピーＨが最
小となる属性を求め、最初のノードに割り当てる。この
属性の属性値により、イベントの集合を分割し、対応す
る子ノードを作る。各々の子ノードにおいて、同様の処
理を繰り返し行なうことにより、木構造を構築する。分
割の停止条件は、各ノードに含まれるイベント数が一定
数以下、あるいは分割による有効性が一定基準以下（こ
こで、分割後のエントロピーＨと分割前のエントロピー
Ｈ₀との差がある所定量を越えない場合。）とする。こ
こで、分割されないノードをリーフと呼ぶ。学習された
決定木のリーフでは、与えられたイベントの集合から各
品詞又は単語／非単語の別の頻度確率を計算する。

【００３３】ここで、本実施形態の形態素解析装置で
は、従来技術文献４「L.E.Baum,“Aninequality and as
sociated maximization technique in statistical est
imation for probabilistic functions of a Markov pr
ocess",Inequalities,Vol.3,pp.1-8,1972年」に開示さ
れたＦｏｒｗａｒｄ−Ｂａｃｋｗａｒｄアルゴリズムを
用いて、スムージング用の学習データに基づいて、スム
ージング用の学習データから得られる確率と決定木から
得られる確率との差が最小となるようにスムージングを
行ない、品詞又は単語／非単語の別を付与すべき最後の
頻度確率分布を補正する。また、本実施形態のシステム
では、上記決定木学習処理のアルゴリズムに従って、２
段階の決定木を作成している。１段目は、粗く分類した
品詞（以下、ＧＰＯＳ（ＧｌｏｂａｌＰａｒｔＯｆ
Ｓｐｅｅｃｈ）という。）（ここで、実際の品詞の属
性の１つに対応しており、例えば、動詞、名詞、冠詞な
どに分類される。）のための決定木であり、２段目とし
て、ＧＰＯＳの品詞毎に実際の品詞（表１に示した品詞
タグレベル）を決定するための決定木を作成する。すな
わち、２段階に分割して決定木を生成することにより、
１回の処理で必要な記憶装置の記憶容量を大幅に減少さ
せている。

【００３４】単語分割及び品詞付与処理においては、入
力文のテキストデータを左から右に処理し、結合確率を
最大にする単語及び品詞の組み合わせの列（以下、説明
の簡単化のために品詞列のみに限定して説明する。）を
出力する。入力文が、ｗ₁，ｗ₂，…，ｗ_Nのような複数
Ｎ個の単語からなり、品詞列｛ｔ₁，ｔ₂，…，ｔ_N｝
（ここで、ｔ_iはｉ番目の単語の品詞である。）が得ら
れたとすると、結合確率Ｐは次式で表される。なお、本
実施形態では、品詞の出現をマルコフ情報源として取り
扱っておらず、それまでに出現した単語や品詞に依存し
た情報源として取り扱っている。従って、十分に長い文
において、文の最初の語とその品詞に依存して最後の単
語の品詞を導くことが、原理的には可能である。

【００３５】

【数７】Ｐ≡ｐ（ｔ₁，ｔ₂，…，ｔ_N│ｗ₁，ｗ₂，…，ｗ_N）

【数８】

【００３６】上記数７の右辺は、入力文ｗ₁，ｗ₂，…，
ｗ_Nが入力されたときに、品詞列ｔ₁，ｔ₂，…，ｔ_Nが与
えられる結合確率を意味し、上記数８の右辺は、入力文
ｗ₁，ｗ₂，ｗ₃，…，ｗ_n、および、ｉ−１番目の単語ま
での品詞列ｔ₁，ｔ₂，…，ｔ_i-1が与えられたときのｉ
番目の品詞の確率をｉが１からｎまで積算することによ
り得られる確率を意味する。ここで、Πの記号はｉを２
からＮまで変化したときの積和を意味する。そして、文
脈に依存する属性をもちいて、決定木のリーフｌｅａｆ
（Ｌ）を導き、Ｌに関連した頻度確率分布を、ｐ_Lによ
り表現し、決定木の条件付き分布を用いて以下のように
近似する。

【００３７】

【数９】Ｌ_i≡文脈ｗ₁，ｗ₂，…，ｗ_N，ｔ₁，ｔ₂，…，
ｔ_i-1において導かれたリーフ

【数１０】ｐ（ｔ_i│ｗ₁，ｗ₂，…，ｗ_N，ｔ₁，ｔ₂，
…，ｔ_i-1）≒ｐ_Li（ｔ_i）

【００３８】上記数９における文脈ｗ₁，ｗ₂，…，
ｗ_N，ｔ₁，ｔ₂，…，ｔ_i-1は、ｉ番目の単語ｗ_iのもつ
文脈を意味する。また、数１０の左辺は、文脈ｗ₁，
ｗ₂，…，ｗ_N，ｔ₁，ｔ₂，…，ｔ_i-1の次に単語ｔ_iが来
る頻度確率又は出現確率を表し、それが、数１０の右辺
である、文脈Ｌ_iのもとで品詞ｔ_iをとる確率に近似でき
ることを意味する。従って、最大化すべき結合確率Ｐは
以下のようになる。

【００３９】

【数１１】

【００４０】上記数１１から明らかなように、結合確率
Ｐは、入力文の各単語での文脈に依存して得られる品詞
ｔ_iの確率の積で表される。さらに、入力文の各単語に
対する品詞付与処理においては、次の２段階の処理を行
なっている。（ａ）ＧＰＯＳの各品詞の頻度確率を計算する。（ｂ）ＧＰＯＳの各品詞に対応する決定木を用いて、品
詞の頻度確率を計算する。

【００４１】各語の頻度確率の計算では、それまでに得
られている可能性のある品詞列を全て考慮する必要があ
る。細かな品詞体系を扱う場合、探索範囲が膨大になる
ため、本システムでは、従来技術文献５「F.Jelinek,
“A fast sequential decodingalgorithm using a stac
k",IBM Journal of Research and Development,No.13,p
p.675-685,1969年」及び従来技術文献６「D.Paul,“Alg
orithms for an optimal a* search and linearizing t
he search in the stack decoder",Proceedingsof the
June 1990 DARPA Speech and Natural Language Work s
hop,1990年」において開示されたスタック・デコーダ・
アルゴリズムを用いて、頻度確率又は出現確率が最大と
なる品詞列を探索している。このアルゴリズムは、一種
のグラフサーチアルゴリズムであり、しきい値により一
時的に探索範囲を限定し、評価値の最も良いものを探す
ことができる。すなわち、各語に付与される可能性のあ
る複数の品詞から、最も頻度確率の高い品詞列を選択す
ることは、各品詞をノードとし隣接する単語に付与され
ているノードを連結したグラフの複数の経路から最適な
経路を探索することであり、スタック・デコーダ・アル
ゴリズムは、二分木形式で分割された木構造の経路にお
いて、複数のノードをスタック構造としてまとめて取り
扱い、スタック構造内で、探索範囲を変更することによ
り、最適な経路を、効率的に見い出すことができる。

【００４２】さらに、本実施形態においては、品詞付与
システムを拡張し、入力として、わかち書きされていな
い１文を、単語を含む形態素に分割しながら、各単語に
品詞を付与している。単語分割の分かち書きされていな
い１文に対しては、複数の分割の仕方が考えられる。例
えば、「わかりました」に対しては、３２通りの分割の
仕方がある。例えば、（ａ）「わかりました」（ｂ）「わ／かりました」（ｃ）「わか／りました」 …… （ｄ）「わ／か／り／ま／し／た」）そこで、入力された文を、１文字ずつ走査し、可能な単
語列を構成し、単語としての確率を計算する。入力文が
“Ｃ１Ｃ２Ｃ３…Ｃｎ”とすると、文字Ｃ１を読み込ん
だ時点で、１文字の単語としての確率を計算する。次
に、文字Ｃ２を読み込んだ時点で、文字Ｃ２を１文字の
単語として、２単語からなる状態と、Ｃ１Ｃ２の２文字
で１単語の状態の確率を計算する。次の文字Ｃ３を読み
込んだ時点は、文字Ｃ２までの２つの状態に対して、文
字Ｃ３が１文字の単語となる状態と、文字Ｃ３が文字Ｃ
２につながり、単語となる状態の確率を計算する。以
下、同様に複数の状態での確率を計算していくが、全て
の状態を計算していると、計算量が膨大になり、計算で
きなくなるので、スタックデコーダアルゴリズムを用い
て計算している。

【００４３】単語の確率を求めるための単語決定木の単
語の確率は、以下の特徴を用いた決定木により計算す
る。（ａ）綴の特徴（具体例としては、「カタカナのみで構
成されている。」、「“〜しい”という単語である。」
など。）、（ｂ）後続する文字の特徴（具体例として
は、「後続文字が漢字である。」、「後続文字が“は”
である。」など。）、（ｃ）前につながる品詞の特徴
（特に、直前の品詞とは、限定しない。）（具体例とし
ては、「直前の品詞が名詞である。」、「直前の品詞が
句読点である。」、「二つ前の品詞が助詞である。」な
ど。）、並びに、（ｄ）単語の相互情報量を用いた階層
的な分類。これらの特徴を用いて、学習データから、あ
る文字列が単語である確率を学習する。単語の確率を得
るために、例えば、「支払い／は／どのように」では、
次のように、文字列と単語／非単語の組合わせを考え、
決定木を構築する。

【００４４】

【表３】 ────────────────────────── 支非単語支払非単語支払い単語は単語支払いは非単語はどの非単語支払いはど非単語はどの非単語支払いはどの非単語 ──────────────────────────

【００４５】図２は、図１の決定木学習装置によって実
行される決定木学習処理を示すフローチャートである。
図２において、まず、ステップＳ１で品詞付与済みテキ
ストデータメモリ２１に格納された品詞付与済みテキス
トデータを読み出して、決定木学習装置１０内のＲＡＭ
に書き込む。次いで、ステップＳ２で、各属性と品詞タ
グとの組み合わせの頻度確率（上記ｐ（ｔａｇａｌ
ｌ），ｐ（ｔａｇＮ₁），ｐ（ｔａｇＮ₂）に対応す
る。）を計算して決定木学習装置１０内のＲＡＭに書き
込む。さらに、ステップＳ３で決定木作成処理を実行す
ることにより頻度確率付き決定木を生成し、ステップＳ
４で作成された確率付き決定木をメモリ２４に出力して
格納する。

【００４６】図３は、図２のサブルーチンである決定木
作成処理（ステップＳ３）を示すフローチャートであ
る。まず、ステップＳ１１ですべての各属性による分割
後のエントロピーＨと、分割前のエントロピーＨ₀とを
それぞれ数４と数３を用いて計算する。次いで、ステッ
プＳ１２でエントロピーの差（Ｈ₀−Ｈ）が最大の属性
を分割候補の属性として選択し、ステップＳ１３で選択
された属性について分割続行判定基準を満足するか否か
が判断される。ここで、分割続行判定基準とは、（Ｉ）
選択された属性に基づいて分割したときのエントロピー
の差（Ｈ₀−Ｈ）が所定のエントロピーしきい値Ｈｔｈ
以上であり、かつ（II）選択された属性に基づく分割後
のイベント数が所定のイベント数しきい値Ｄｔｈ以上で
あること。ステップＳ１３で分割続行判定基準を満足す
るときは、ステップＳ１４で、選択された属性の属性値
により分割した２つのノードを作成して、すなわち二分
木の形式で分割して、決定木を更新する。そして、ステ
ップＳ１５では、上記作成した各ノードを処理対象とし
て、ステップＳ１１に戻り、ステップＳ１１からの処理
を繰り返す。一方、ステップＳ１３で分割続行判定基準
を満足しないときは、元のメインルーチンに戻る。

【００４７】ここで、作成された頻度確率付き単語決定
木の一例を図７に示す。図７に示すように、当該頻度確
率付き単語決定木は、各属性１０１乃至１０５で二分木
の形式で分割された木構造を有し、最後のリーフにおい
て単語カテゴリー、すなわち単語／非単語の別に対する
頻度確率が付与されている。この例では、入力文が「支
払い／を／カード／で」であるときに、２０１に示すよ
うに、単語“支払い”に対して単語カテゴリーの「単
語」が付与される一方、２０３に示すように、単語“カ
ード”に対して単語カテゴリーの「単語」が付与されて
いる。

【００４８】また、作成された頻度確率付き品詞決定木
の一例を図８に示す。図８に示すように、当該頻度確率
付き品詞決定木は、各属性３０１乃至３０５で二分木の
形式で分割された木構造を有し、最後のリーフにおいて
単語カテゴリー、すなわち単語／非単語の別に対する頻
度確率が付与されている。この例では、入力文が「支払
い／を／カード／で」であるときに、４０１に示すよう
に、単語“支払い”に対して品詞カテゴリーの「名詞」
が付与される一方、４０３に示すように、単語“カー
ド”に対して品詞カテゴリーの「名詞」が付与されてい
る。

【００４９】図４は、図１の単語分割及び品詞付与装置
１１によって実行される単語分割及び品詞付与処理を示
すフローチャートである。図４において、まず、ステッ
プＳ２１で、確率付き単語決定木ファイルメモリ２４ａ
に格納された頻度確率付き単語決定木ファイルを読み出
して、品詞付与装置１１内のＲＡＭに書き込むととも
に、確率付き品詞決定木ファイルメモリ２４ｂに格納さ
れた頻度確率付き品詞決定木ファイルを読み出して、品
詞付与装置１１内のＲＡＭに書き込む。次いで、ステッ
プＳ２２でテキストデータメモリ２５に格納された解析
対象のテキストデータを読み出して単語分割及び品詞付
与装置１１内のＲＡＭに書き込む。さらに、ステップＳ
２３で単語分割及び品詞付与解析処理を実行して、単語
分割及び品詞付与済みテキストデータを生成し、ステッ
プＳ２４で単語分割及び品詞付与済みテキストデータメ
モリ２６に出力して書き込む。

【００５０】図５及び図６は、図４のサブルーチンであ
る単語及び品詞付与解析処理（ステップＳ２３）を示す
フローチャートである。まず、ステップＳ３１で文頭の
文字を対象文字とする。次いで、ステップＳ３２で対象
文字から単語候補を設定し、ステップＳ３３で単語決定
木のルートノードを処理対象のカレントノードとする。
そして、ステップＳ３４でカレントノードがリーフノー
ドであるか否かが判断される。ステップＳ３４でＮＯで
あるときは、ステップＳ３５でカレントノードの属性値
に基づいて子ノードをカレントノードとして、ステップ
Ｓ３４に戻る。ステップＳ３４においてＹＥＳであると
きは、ステップＳ３６でリーフノードに割り当てられた
頻度確率リストの中で単語カテゴリーの頻度確率を選択
して単語候補に与える。

【００５１】次いで、ステップＳ３７で品詞決定木のル
ートノードを処理対象のカレントノードとする。そし
て、ステップＳ３８でカレントノードがリーフノードで
あるか否かが判断される。ステップＳ３８でＮＯである
ときは、ステップＳ３９でカレントノードの属性値に基
づいて対応する子ノードをカレントノードとしてステッ
プＳ３８に戻る。ステップＳ３８でＹＥＳであるとき
は、ステップＳ４０でリーフノードに割り当てられた頻
度確率リストの中で品詞カテゴリーの頻度確率を選択し
て単語候補に与える。そして、ステップＳ４１で他の単
語候補があるか否かが判断される。ステップＳ４１で他
の単語候補があるときはステップＳ３２に戻り、上記の
処理を繰り返す。ステップＳ４１でＮＯであるときは、
ステップＳ４２で、スタック・デコーダ・アルゴリズム
に従って所定の結合確率以上の結合確率を有する単語分
割された品詞候補を限定する。そして、ステップＳ４３
で次の文字があるか否かが判断される。ステップＳ４３
で次の文字があるときは、ステップＳ４４で次の文字を
対象文字として、ステップＳ３２に戻り、上記の処理を
繰り返す。一方、ステップＳ４３で次の文字が無いとき
はステップＳ４５で最大の結合確率Ｐを有する単語分割
された品詞列を、正解の単語分割された品詞列とする。
ここで、正解の単語分割された品詞列の具体例として
は、「支払い（名詞）を（格助詞）カード（名詞）で
（格助詞）」の通りである。以上で当該単語及び品詞付
与解析処理を終了する。

【００５２】以上の実施形態においては、日本語の形態
素解析装置について述べているが、本発明はこれに限ら
ず、英語の形態素解析装置に適用することができる。

【００５３】

【実施例】本発明者は、以上のように構成された品詞付
与システムを用いて以下の実験を行った。本実施形態に
示したように、日本語の形態素解析は、入力文を単語に
分割し、各単語に品詞を付与することで、実現できる。
日本語の形態素解析においても、これまでに述べた辞書
の問題、品詞体系の修正による問題が同じようにあり、
本発明の手法が有効と考えられる。そこで、予備実験と
して、単語が正しく分割されている日本語の入力に対し
て、英語の品詞付与と同様の実験を行なった。以下に、
予備実験の結果を示す。予備実験対象としたテキスト
は、本特許出願人が所有する旅行会話に関する対話デー
タの一部を用いた。本実験における学習データ、評価デ
ータの語数、文数を表４に示す。

【００５４】

【表４】

【００５５】品詞体系は、３３品詞のものと、その体系
をもとに、活用に関する情報などを付加した２０９品詞
の体系を用いた。その結果、３３品詞の体系では、９
１．０％の正答率が得られ、２０９品詞の体系では、９
１．６％の正答率が得られた。本実験の結果と、辞書
（学習データに含まれる見出し語と与えられた品詞との
組合せ）を利用して、各単語のもっとも高頻度の品詞を
付与するという手法での正答率に、ほとんど差がなかっ
た。本実験では、選択項目に基本的な特徴のみを用いて
おり、特徴を増やすことにより、より精度を高めること
ができると考えている。また、日本語の場合、１つの単
語の持つ品詞は、ほぼ１つ（本実験で用いた学習データ
では、１単語、平均１．０１の異なる品詞を持つ。）で
あるため、辞書として、品詞を持つことは非常に有効な
手段となる。以上のことから、辞書を利用せずに、辞書
から得られる情報を利用した場合とほぼ同等の結果を得
ることができていることから、本手法は有効であると考
えられる。

【００５６】以上説明したように、本実施形態によれ
ば、品詞の接続関係、単語と品詞の関係、さらに離れた
単語との依存関係を統計的に処理するため、自動的に一
意に高精度で形態素解析できる。また、辞書を用いてい
ないため、未知の形態素に対しても柔軟に処理できる。
コーパスであるテキストデータから統計的特徴を学習す
るため、辞書の整備やパラメータ調整にかかるメンテナ
ンスのコストを削減できる。

【００５７】

【発明の効果】以上詳述したように本発明に係る請求項
１記載の形態素解析装置においては、単語列からなる品
詞付与済みテキストデータに基づいて、各単語の綴りの
特徴と、文章内の使われ方による特徴と、単語の相互情
報量を用いた階層的な分類とを含む複数の属性を用い
て、上記各属性の属性値に依存して分割されるような二
分木形式の木構造を有し品詞付与のための第１の決定木
を生成し、上記生成された第１の決定木の分割されない
ノードであるリーフノードに対して複数の品詞に対する
頻度確率を計算して付与することにより、品詞カテゴリ
ーの頻度確率付き第１の決定木を生成する第１の決定木
学習手段と、上記テキストデータに基づいて、各単語の
綴りの特徴と、後続する文字の特徴と、前につながる品
詞の特徴と、単語の相互情報量を用いた階層的な分類と
を含む複数の属性を用いて、上記各属性の属性値に依存
して分割されるような二分木形式の木構造を有し単語分
割のための第２の決定木を生成し、上記生成された第２
の決定木の分割されないノードであるリーフノードに対
して単語及び非単語に対する頻度確率を計算して付与す
ることにより、単語カテゴリーの頻度確率付き第２の決
定木を生成する第２の決定木学習手段と、分かち書きさ
れていない単語列からなり、入力されるテキストデータ
に基づいて、上記第２の決定木学習手段によって生成さ
れた単語カテゴリーの頻度確率付き第２の決定木を用い
て、上記第２の決定木のリーフノードに付与された単語
カテゴリーの頻度確率の中で上位複数ｎ個の頻度確率を
選択して上記テキストデータの各単語候補に対して付与
するとともに、上記入力される単語列からなるテキスト
データに基づいて、上記第１の決定木学習手段によって
生成された品詞カテゴリーの頻度確率付き第１の決定木
を用いて、上記第１の決定木のリーフノードに付与され
た品詞カテゴリーの頻度確率の中で上位複数ｎ個の頻度
確率を選択して上記テキストデータの各単語候補に対し
て付与し、上記テキストデータの単語列において最大の
結合確率を有する単語分割された単語と品詞の組み合わ
せの列を、正解の単語分割された単語と品詞の組み合わ
せの列として決定して出力する単語分割及び品詞付与手
段とを備える。従って、分かち書きされていない入力文
に対して単語又は非単語の判断を行って単語毎に分割
し、自動的に品詞を付与して形態素解析することができ
る。ここで、品詞の接続関係、単語と品詞の関係、さら
に離れた単語との依存関係を統計的に処理するため、自
動的に一意に高精度で形態素解析できる。また、辞書を
用いていないため、未知の形態素に対しても柔軟に処理
できる。コーパスであるテキストデータから統計的特徴
を学習するため、辞書の整備やパラメータ調整にかかる
メンテナンスのコストを削減できる。

【００５８】また、請求項２記載の形態素解析装置にお
いては、請求項１記載の形態素解析装置において、上記
第１と第２の決定木学習手段はそれぞれ、上記二分木の
形式で分割するときに、上記各属性による分割前の属性
の有効性の優先順位を表わすエントロピーＨ₀と分割後
のエントロピーＨとの差（Ｈ₀−Ｈ）が最大の属性を分
割候補の属性として選択し、所定の分割続行基準を満足
するときに、二分木の形式で分割して決定木を更新す
る。従って、品詞の接続関係、単語と品詞の関係、さら
に離れた単語との依存関係を統計的に処理するため、自
動的に一意に高精度で形態素解析できる。また、辞書を
用いていないため、未知の形態素に対しても柔軟に処理
できる。コーパスであるテキストデータから統計的特徴
を学習するため、辞書の整備やパラメータ調整にかかる
メンテナンスのコストを削減できる。

【００５９】さらに、請求項３記載の形態素解析装置に
おいては、請求項２記載の形態素解析装置において、上
記分割続行基準は、（Ｉ）選択された属性に基づいて分
割したときのエントロピーの差（Ｈ₀−Ｈ）が所定のエ
ントロピーしきい値Ｈｔｈ以上であり、かつ（II）選択
された属性に基づく分割後の属性とその属性値及び品詞
の組のイベント数が所定のイベント数しきい値Ｄｔｈ以
上であることである。従って、品詞の接続関係、単語と
品詞の関係、さらに離れた単語との依存関係を統計的に
処理するため、自動的に一意に高精度で形態素解析でき
る。また、辞書を用いていないため、未知の形態素に対
しても柔軟に処理できる。コーパスであるテキストデー
タから統計的特徴を学習するため、辞書の整備やパラメ
ータ調整にかかるメンテナンスのコストを削減できる。

【００６０】またさらに、請求項４記載の形態素解析装
置においては、請求項１、２又は３記載の形態素解析装
置において、上記単語分割及び品詞付与手段は、上記第
２の決定木のリーフノードに付与された単語カテゴリー
の頻度確率の中で上位複数ｎ個の頻度確率を選択して上
記テキストデータの各単語候補に対して付与し、かつ上
記第１の決定木のリーフノードに付与された品詞カテゴ
リーの頻度確率の中で上位複数ｎ個の頻度確率を選択し
て上記テキストデータの各単語候補に対して付与した
後、所定のスタック・デコーダ・アルゴリズムに用い
て、処理途中のテキストデータの単語列に対する結合確
率が所定の結合確率以上である単語と品詞の組み合わせ
の列の候補のみを残して当該組み合わせの候補を限定
し、処理終了時の上記テキストデータの単語列において
最大の結合確率を有する単語分割された単語と品詞の組
み合わせの列を、正解の単語分割された単語と品詞の組
み合わせの列として決定する。従って、本実施形態によ
れば、品詞の接続関係、単語と品詞の関係、さらに離れ
た単語との依存関係を統計的に処理するため、自動的に
一意に高精度で形態素解析できる。また、辞書を用いて
いないため、未知の形態素に対しても柔軟に処理でき
る。コーパスであるテキストデータから統計的特徴を学
習するため、辞書の整備やパラメータ調整にかかるメン
テナンスのコストを削減できる。

【図面の簡単な説明】

【図１】本発明に係る一実施形態である、決定木学習
装置並びに単語分割及び品詞付与装置を備えた品詞付与
システムのブロック図である。

【図２】図１の決定木学習装置によって実行される決
定木学習処理を示すフローチャートである。

【図３】図２のサブルーチンである決定木作成処理
（ステップＳ３）を示すフローチャートである。

【図４】図１の単語分割及び品詞付与装置によって実
行される単語及び品詞付与処理を示すフローチャートで
ある。

【図５】図４のサブルーチンである単語及び品詞付与
解析処理（ステップＳ２３）の第１の部分を示すフロー
チャートである。

【図６】図４のサブルーチンである単語及び品詞付与
解析処理（ステップＳ２３）の第２の部分を示すフロー
チャートである。

【図７】図１の決定木学習装置によって作成された頻
度確率付き単語決定木ファイル内の単語決定木の一例を
示す図である。

【図８】図１の決定木学習装置によって作成された頻
度確率付き品詞決定木ファイル内の品詞決定木の一例を
示す図である。

【符号の説明】

１０…決定木学習装置、１１…単語分割及び品詞付与装置、２１…品詞付与済みテキストデータメモリ、２２…属性リストメモリ、２３ａ…単語リストメモリ、２３ｂ…品詞リストメモリ、２４ａ…確率付き品詞決定木ファイルメモリ、２４ｂ…確率付き単語決定木ファイルメモリ、２５…テキストデータメモリ、２６…単語分割及び品詞付与済みテキストデータメモ
リ。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ステファン・ジー・ユーバンク京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内 (56)参考文献柏岡秀紀、ＥｚｒａＷ．Ｂｌａｃｋ、ＳｔｅｐｈｅｎＧ．Ｅｕｂａｎｋ、「決定木学習による形態素解析」、人工知能学会研究会資料、ＳＩＧ−ＳＬＵＤ−9603−４、ｐ．19−ｐ．24 （1997．１) ＤａｖｉｄＭ．Ｍａｇｅｒｍａｎ，”ＬｅａｒｎｉｎｇＧｒａｍｍａｔｉｃａｌＳｔｒｕｃｔｕｒｅＵｓｉｎｇＳｔａｔｉｓｔｉｃａｌＤｅｃｉｓｉｏｎ−Ｔｒｅｅｓ”，ＬｅｃｔｕｒｅＮｏｔｅｓｉｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ 1147，ｐ．１−ｐ．21（1996) 鈴木惠美子、「統計調査に基づく文字列パターンを用いた日本語文自動分割」、電子情報通信学会論文誌Ｄ−▲ ＩＩ▼、Ｖｏｌ．Ｊ79−Ｄ−▲ＩＩ▼、Ｎｏ．７、ｐ．1236−ｐ．1243（1996) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/20 - 17/28 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】単語列からなる品詞付与済みテキストデ
ータに基づいて、各単語の綴りの特徴と、文章内の使わ
れ方による特徴と、単語の相互情報量を用いた階層的な
分類とを含む複数の属性を用いて、上記各属性の属性値
に依存して分割されるような二分木形式の木構造を有し
品詞付与のための第１の決定木を生成し、上記生成され
た第１の決定木の分割されないノードであるリーフノー
ドに対して複数の品詞に対する頻度確率を計算して付与
することにより、品詞カテゴリーの頻度確率付き第１の
決定木を生成する第１の決定木学習手段と、上記テキストデータに基づいて、各単語の綴りの特徴
と、後続する文字の特徴と、前につながる品詞の特徴
と、単語の相互情報量を用いた階層的な分類とを含む複
数の属性を用いて、上記各属性の属性値に依存して分割
されるような二分木形式の木構造を有し単語分割のため
の第２の決定木を生成し、上記生成された第２の決定木
の分割されないノードであるリーフノードに対して単語
及び非単語に対する頻度確率を計算して付与することに
より、単語カテゴリーの頻度確率付き第２の決定木を生
成する第２の決定木学習手段と、分かち書きされていない単語列からなり、入力されるテ
キストデータに基づいて、上記第２の決定木学習手段に
よって生成された単語カテゴリーの頻度確率付き第２の
決定木を用いて、上記第２の決定木のリーフノードに付
与された単語カテゴリーの頻度確率の中で上位複数ｎ個
の頻度確率を選択して上記テキストデータの各単語候補
に対して付与するとともに、上記入力される単語列から
なるテキストデータに基づいて、上記第１の決定木学習
手段によって生成された品詞カテゴリーの頻度確率付き
第１の決定木を用いて、上記第１の決定木のリーフノー
ドに付与された品詞カテゴリーの頻度確率の中で上位複
数ｎ個の頻度確率を選択して上記テキストデータの各単
語候補に対して付与し、上記テキストデータの単語列に
おいて最大の結合確率を有する単語分割された単語と品
詞の組み合わせの列を、正解の単語分割された単語と品
詞の組み合わせの列として決定して出力する単語分割及
び品詞付与手段とを備えたことを特徴とする形態素解析
装置。
【請求項２】上記第１と第２の決定木学習手段はそれ
ぞれ、上記二分木の形式で分割するときに、上記各属性
による分割前の属性の有効性の優先順位を表わすエント
ロピーＨ₀と分割後のエントロピーＨとの差（Ｈ₀−Ｈ）
が最大の属性を分割候補の属性として選択し、所定の分
割続行基準を満足するときに、二分木の形式で分割して
決定木を更新することを特徴とする請求項１記載の形態
素解析装置。
【請求項３】上記分割続行基準は、（Ｉ）選択された属性に基づいて分割したときのエント
ロピーの差（Ｈ₀−Ｈ）が所定のエントロピーしきい値
Ｈｔｈ以上であり、かつ（II）選択された属性に基づく分割後の属性とその属性
値及び品詞の組のイベント数が所定のイベント数しきい
値Ｄｔｈ以上であることを特徴とする請求項２記載の形
態素解析装置。
【請求項４】上記単語分割及び品詞付与手段は、上記
第２の決定木のリーフノードに付与された単語カテゴリ
ーの頻度確率の中で上位複数ｎ個の頻度確率を選択して
上記テキストデータの各単語候補に対して付与し、かつ
上記第１の決定木のリーフノードに付与された品詞カテ
ゴリーの頻度確率の中で上位複数ｎ個の頻度確率を選択
して上記テキストデータの各単語候補に対して付与した
後、所定のスタック・デコーダ・アルゴリズムに用い
て、処理途中のテキストデータの単語列に対する結合確
率が所定の結合確率以上である単語と品詞の組み合わせ
の列の候補のみを残して当該組み合わせの候補を限定
し、処理終了時の上記テキストデータの単語列において
最大の結合確率を有する単語分割された単語と品詞の組
み合わせの列を、正解の単語分割された単語と品詞の組
み合わせの列として決定することを特徴とする請求項
１、２又は３記載の形態素解析装置。