JPH11272665A

JPH11272665A - 日本語構文解析装置

Info

Publication number: JPH11272665A
Application number: JP10072037A
Authority: JP
Inventors: Hidenori Kashioka; 秀紀柏岡; W Black Ezura; エズラ・ダブリュー・ブラック
Original assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Current assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Priority date: 1998-03-20
Filing date: 1998-03-20
Publication date: 1999-10-08
Anticipated expiration: 2018-03-20
Also published as: JP3035261B2

Abstract

(57)【要約】【課題】品詞付与のための辞書を用いることなく、従
来例に比較して正確に自動的に品詞を付与することがで
き、しかも素性構造付き文脈自由文法などの日本語の詳
細な構文構造の情報を付与する。【解決手段】決定木学習装置１０は、構文解析済みテ
キストデータに基づいて、所定の複数の属性を用いて、
各属性の属性値に依存して分割されるような二分木形式
の木構造をそれぞれ有する、品詞付与のための品詞決定
木、文法規則付与のための文法規則決定木、処理方向決
定木、単語分割のための単語分割決定木を生成し、非分
割ノードのリーフノードに対して各複数のカテゴリーに
対する頻度確率を計算して付与し頻度確率付き各決定木
を生成する。構文情報付与装置１１は、各決定木を用い
て、入力される日本語のテキストデータに対して最大の
結合確率を有する品詞列を得るように品詞を付与しかつ
構文情報を付与する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文字列を含む日本
語の文章のテキストデータに対して、構文構造決定用の
確率付き決定木を用いて、構文構造を自動的に付与する
日本語構文解析装置に関する。

【０００２】

【従来の技術】従来、比較的精度のよい品詞付与システ
ム（以下、第１の従来例という。）が、従来技術文献１
「E.Brill et al.,“Some Advances in Transformation
--Based Part of Speech Tagging",Proceedings of the
Twelfth National Conferenceon Artificial Intellig
ence,pp.722-727,AAAI,1994年」及び従来技術文献２
「B.Merialdo et al.,“Tagging English Text with a
Probabilistic Model",Computational Linguistics,20-
2,pp.155-171,1994年」において報告されている。この
従来例の品詞付与システムにおいては、単語表記とその
表記のとる品詞ラベルの組を記述した、品詞付与のため
の辞書を参照することによりテキストデータに対して品
詞を付与している。

【０００３】この第１の従来例の品詞付与システムにお
いては、辞書を用いて品詞を付与しているために、辞書
項目に記載されていない未知語に対する品詞付与は難し
く、また、単語と品詞ラベルとの未知の組合せに対する
処理は難しいという問題点があった。さらに、使われる
品詞体系の変更により辞書のメンテナンスを行う必要が
あるという問題点があった。また、辞書を使用しない
で、ヒューリスティックスにより（発見的に又は経験的
に）単語に対する品詞ラベルを割り当てている品詞付与
装置もあるが、品詞付与の正解率は比較的低いという問
題点があった。

【０００４】以上の問題点を解決するために、本特許出
願人は、特願平８−２３２９９３号の特許出願におい
て、品詞付与のための辞書を用いることなく、第１の従
来例に比較して正確に自動的に付与することができる品
詞付与装置（以下、第２の従来例という。）を開示して
いる。この第２の従来例の品詞付与装置は、（ａ）単語
列からなる品詞付与済みテキストデータに基づいて、各
単語の綴りの特徴と、文章内の使われ方による特徴と、
単語の相互情報量を用いた階層的な分類とを含む複数の
属性を用いて、上記各属性の属性値に依存して分割され
るような二分木形式の木構造を有し品詞付与のための決
定木を生成し、上記生成された決定木の分割されないノ
ードであるリーフノードに対して複数の品詞に対する頻
度確率を計算して付与することにより、頻度確率付き決
定木を生成する決定木学習手段と、（ｂ）上記決定木学
習手段によって生成された頻度確率付き決定木を用い
て、入力される単語列からなるテキストデータに基づい
て、上記リーフノードに付与された頻度確率の中で上位
複数ｎ個の頻度確率を選択して上記テキストデータの各
単語に対して付与し、上記テキストデータの単語列にお
いて最大の結合確率を有する品詞列を正解品詞列として
決定して出力する品詞付与手段とを備えたことを特徴と
している。

【０００５】さらに、英語構文解析装置として、従来技
術文献３「M.J.Collins,“A new statistical parser b
ased on bigram lexical dependencies",the 34th Annu
al Meeting of ACL Proceedings,1996年」において、構
文構造が付与されたテキストデータから主要語のバイグ
ラムの統計情報を学習し、構文解析を行うこと（以下、
第３の従来例という。）が開示されている。しかしなが
ら、第３の従来例では、素性構造付き文脈自由文法など
の詳細な構文構造の情報を付与することはできないとい
う問題点があった。

【０００６】以上の問題点を解決するために、本特許出
願人は、特願平９−２１８５２２号の特許出願におい
て、品詞付与のための辞書を用いることなく、第３の従
来例に比較して正確に自動的に品詞を付与することがで
き、しかも素性構造付き文脈自由文法などの詳細な構文
構造の情報を付与することができる構文解析装置（以
下、第４の従来例という。）を提案している。この第３
の従来例の構文解析装置は、（ａ）単語列からなる構文
解析済みテキストデータに基づいて、各単語の綴りの特
徴と、文章内の使われ方による特徴と、単語の相互情報
量を用いた階層的な分類とを含む複数の属性を用いて、
上記各属性の属性値に依存して分割されるような二分木
形式の木構造を有し品詞付与のための品詞決定木を生成
し、上記生成された品詞決定木の分割されないノードで
あるリーフノードに対して複数の品詞に対する頻度確率
を計算して付与することにより、頻度確率付き品詞決定
木を生成する品詞決定木学習手段と、（ｂ）単語列から
なる構文解析済みテキストデータに基づいて、処理対象
の単語の語数と、処理対象の主辞単語の品詞、処理対象
の直前の単語の品詞、単語の相互情報量を用いた階層的
な分類とを含む複数の属性を用いて、上記各属性の属性
値に依存して分割されるような二分木形式の木構造を有
し文法規則付与のための文法規則決定木を生成し、上記
生成された文法規則決定木の分割されないノードである
リーフノードに対して複数の文法規則に対する頻度確率
を計算して付与することにより、頻度確率付き文法規則
決定木を生成する文法規則決定木学習手段と、（ｃ）単
語列からなる構文解析済みテキストデータに基づいて、
処理対象の単語の語数と、処理対象の主辞単語の品詞、
処理対象の直前の単語の品詞、単語の相互情報量を用い
た階層的な分類とを含む複数の属性を用いて、上記各属
性の属性値に依存して分割されるような二分木形式の木
構造を有し文法規則付与処理における各パージング状態
で処理方向を決定するための処理方向決定木を生成し、
上記生成された処理方向決定木の分割されないノードで
あるリーフノードに対して複数の処理方向に対する頻度
確率を計算して付与することにより、頻度確率付き処理
方向決定木を生成する処理方向決定木学習手段と、
（ｄ）上記品詞決定木学習手段によって生成された頻度
確率付き品詞決定木を用いて、入力される処理対象の単
語列からなるテキストデータに基づいて、上記リーフノ
ードに付与された頻度確率の中で上位複数ｎ個の頻度確
率を選択して上記テキストデータの各単語に対して付与
し、上記テキストデータの単語列において最大の結合確
率を有する品詞列を正解品詞列として決定し、次いで、
所定のスタック・デコーダ・アルゴリズムを用いて、文
法規則付与処理における各パージング状態での単語列に
対する結合確率が最大の結合確率を有するパージング状
態を選択した後、上記処理方向決定木学習手段によって
生成された頻度確率付き処理方向決定木を用いて上記処
理対象の単語列における処理方向を決定し、決定された
処理方向におけるパージング状態において、上記文法規
則決定木学習手段によって生成された頻度確率付き文法
規則決定木に従って文法規則を上記処理対象の単語列に
加えることにより構文解析情報を付与して構文解析済み
テキストデータを出力する構文情報付与手段とを備えた
ことを特徴としている。

【０００７】

【発明が解決しようとする課題】しかしながら、上記第
４の従来例の英語の構文解析装置においては、英語の構
文解析であるので、単語の区切りが空白文字を手がかり
として、比較的簡単な規則により判断できる。しかしな
がら、日本語では、単語の区切りを見いだすことが困難
である。そのため、単語区切りの情報が付与されている
状態から解析を行っている英語構文解析を日本語の構文
解析に用いるには、単語の区切りを判断する機構が必要
であり、従来の英語構文解析機構では処理できない。

【０００８】本発明の目的は、日本語の品詞付与のため
の辞書を用いることなく、第４の従来例に比較して正確
に自動的に品詞を付与することができ、しかも素性構造
付き文脈自由文法などの詳細な構文構造の情報を付与す
ることができる日本語構文解析装置を提供することにあ
る。

【０００９】

【課題を解決するための手段】本発明に係る請求項１記
載の日本語構文解析装置は、日本語の文字列からなる構
文解析済みテキストデータに基づいて、各単語の綴りの
特徴と、文章内の使われ方による特徴と、単語の相互情
報量を用いた階層的な分類とを含む複数の属性を用い
て、上記各属性の属性値に依存して分割されるような二
分木形式の木構造を有し品詞付与のための品詞決定木を
生成し、上記生成された品詞決定木の分割されないノー
ドであるリーフノードに対して複数の品詞に対する頻度
確率を計算して付与することにより、品詞カテゴリーの
頻度確率付き品詞決定木を生成する第１の学習手段と、
上記テキストデータに基づいて、各単語の綴りの特徴
と、後続する文字の特徴と、前につながる品詞の特徴
と、単語の相互情報量を用いた階層的な分類とを含む複
数の属性を用いて、上記各属性の属性値に依存して分割
されるような二分木形式の木構造を有し単語分割のため
の単語分割決定木を生成し、上記生成された単語分割決
定木の分割されないノードであるリーフノードに対して
単語及び非単語に対する頻度確率を計算して付与するこ
とにより、単語カテゴリーの頻度確率付き単語分割決定
木を生成する第２の学習手段と、上記テキストデータに
基づいて、処理対象の単語の語数と、処理対象の主辞単
語の品詞、処理対象の直前の単語の品詞、単語の相互情
報量を用いた階層的な分類とを含む複数の属性を用い
て、上記各属性の属性値に依存して分割されるような二
分木形式の木構造を有し文法規則付与のための文法規則
決定木を生成し、上記生成された文法規則決定木の分割
されないノードであるリーフノードに対して複数の文法
規則に対する頻度確率を計算して付与することにより、
頻度確率付き文法規則決定木を生成する第３の学習手段
と、上記テキストデータに基づいて、処理対象の単語の
語数と、処理対象の主辞単語の品詞、処理対象の直前の
単語の品詞、単語の相互情報量を用いた階層的な分類と
を含む複数の属性を用いて、上記各属性の属性値に依存
して分割されるような二分木形式の木構造を有し文法規
則付与処理における各パージング状態で処理方向を決定
するための処理方向決定木を生成し、上記生成された処
理方向決定木の分割されないノードであるリーフノード
に対して複数の処理方向に対する頻度確率を計算して付
与することにより、頻度確率付き処理方向決定木を生成
する第４の学習手段と、入力される日本語の文字列から
なるテキストデータに基づいて、上記第２の学習手段に
よって生成された単語カテゴリーの頻度確率付き単語分
割決定木を用いて、上記単語分割決定木のリーフノード
に付与された単語カテゴリーの頻度確率の中で上位複数
ｎ個の頻度確率を選択して上記テキストデータの各単語
候補に対して付与するとともに、上記入力される文字列
からなるテキストデータに基づいて、上記第１の学習手
段によって生成された品詞カテゴリーの頻度確率付き品
詞決定木を用いて、上記品詞決定木のリーフノードに付
与された品詞カテゴリーの頻度確率の中で上位複数ｎ個
の頻度確率を選択して上記テキストデータの各単語候補
に対して付与し、上記テキストデータの単語候補列にお
いて上位複数ｎ個の結合確率を有する単語分割された単
語と品詞の組み合わせの列を、複数ｎ個の処理候補とし
て出力する第１の処理手段と、上記第１の処理手段から
出力される複数ｎ個の処理候補のうち、より上位の処理
候補から順次１つずつの処理候補に対して１つの文とし
て成立するまで、所定のスタック・デコーダ・アルゴリ
ズムを用いて、文法規則付与処理における各パージング
状態での単語列に対する結合確率が最大の結合確率を有
するパージング状態を選択した後、上記第４の学習手段
によって生成された頻度確率付き処理方向決定木を用い
て上記処理対象の単語列における処理方向を決定し、決
定された処理方向におけるパージング状態において、上
記第３の学習手段によって生成された頻度確率付き文法
規則決定木に従って文法規則を上記処理対象の単語列に
加えることにより構文解析情報を付与して構文解析済み
テキストデータを出力する第２の処理手段とを備えたこ
とを特徴とする。

【００１０】また、請求項２記載の日本語構文解析装置
は、請求項１記載の日本語構文解析装置において、上記
各決定木学習手段は、上記二分木の形式で分割するとき
に、上記各属性による分割前の属性の有効性の優先順位
を表わすエントロピーＨ₀と分割後のエントロピーＨと
の差（Ｈ₀−Ｈ）が最大の属性を分割候補の属性として
選択し、所定の分割続行基準を満足するときに、二分木
の形式で分割して決定木を更新することを特徴とする。

【００１１】さらに、請求項３記載の日本語構文解析装
置は、請求項２記載の日本語構文解析装置において、上
記分割続行基準は、（Ｉ）選択された属性に基づいて分
割したときのエントロピーの差（Ｈ₀−Ｈ）が所定のエ
ントロピーしきい値Ｈｔｈ以上であり、かつ（II）選択
された属性に基づく分割後の属性とその属性値及び品詞
の組のイベント数が所定のイベント数しきい値Ｄｔｈ以
上であることを特徴とする。

【００１２】またさらに、請求項４記載の日本語構文解
析装置は、請求項１乃至３のうちの１つに記載の日本語
構文解析装置において、上記第１の処理手段は、上記単
語分割決定木のリーフノードに付与された単語カテゴリ
ーの頻度確率の中で上位複数ｎ個の頻度確率を選択して
上記テキストデータの各単語候補に対して付与し、かつ
上記品詞付与決定木のリーフノードに付与された品詞カ
テゴリーの頻度確率の中で上位複数ｎ個の頻度確率を選
択して上記テキストデータの各単語候補に対して付与し
た後、所定のスタック・デコーダ・アルゴリズムに用い
て、処理途中のテキストデータの単語候補列に対する結
合確率が所定の結合確率以上である単語と品詞の組み合
わせの列の処理候補のみを残して当該組み合わせの候補
を限定し、当該処理終了時の上記テキストデータの文字
列において上位複数ｎ個の結合確率を有する単語分割さ
れた単語と品詞の組み合わせの列を、複数ｎ個の処理候
補として出力することを特徴とする。

【００１３】本発明に係る請求項５記載の日本語構文解
析装置は、日本語の文字列からなる構文解析済みテキス
トデータに基づいて、各単語の綴りの特徴と、文章内の
使われ方による特徴と、単語の相互情報量を用いた階層
的な分類とを含む複数の属性を用いて、上記各属性の属
性値に依存して分割されるような二分木形式の木構造を
有し品詞付与のための品詞決定木を生成し、上記生成さ
れた品詞決定木の分割されないノードであるリーフノー
ドに対して複数の品詞に対する頻度確率を計算して付与
することにより、品詞カテゴリーの頻度確率付き品詞決
定木を生成する第１の学習手段と、上記テキストデータ
に基づいて、各単語の綴りの特徴と、後続する文字の特
徴と、前につながる品詞の特徴と、単語の相互情報量を
用いた階層的な分類とを含む複数の属性を用いて、上記
各属性の属性値に依存して分割されるような二分木形式
の木構造を有し単語分割のための単語分割決定木を生成
し、上記生成された単語分割決定木の分割されないノー
ドであるリーフノードに対して単語及び非単語に対する
頻度確率を計算して付与することにより、単語カテゴリ
ーの頻度確率付き単語分割決定木を生成する第２の学習
手段と、上記テキストデータに基づいて、処理対象の単
語の語数と、処理対象の主辞単語の品詞、処理対象の直
前の単語の品詞、単語の相互情報量を用いた階層的な分
類とを含む複数の属性を用いて、上記各属性の属性値に
依存して分割されるような二分木形式の木構造を有し文
法規則付与のための文法規則決定木を生成し、上記生成
された文法規則決定木の分割されないノードであるリー
フノードに対して複数の文法規則に対する頻度確率を計
算して付与することにより、頻度確率付き文法規則決定
木を生成する第３の学習手段と、上記テキストデータに
基づいて、処理対象の単語の語数と、処理対象の主辞単
語の品詞、処理対象の直前の単語の品詞、単語の相互情
報量を用いた階層的な分類とを含む複数の属性を用い
て、上記各属性の属性値に依存して分割されるような二
分木形式の木構造を有し文法規則付与処理における各パ
ージング状態で処理方向を決定するための処理方向決定
木を生成し、上記生成された処理方向決定木の分割され
ないノードであるリーフノードに対して複数の処理方向
に対する頻度確率を計算して付与することにより、頻度
確率付き処理方向決定木を生成する第４の学習手段と、
入力される日本語の文字列からなるテキストデータに基
づいて、上記第２の学習手段によって生成された単語カ
テゴリーの頻度確率付き単語分割決定木を用いて、上記
単語分割決定木のリーフノードに付与された単語カテゴ
リーの頻度確率の中で上位複数ｎ個の頻度確率を選択し
て上記テキストデータの各単語候補に対して付与すると
ともに、上記入力される文字列からなるテキストデータ
に基づいて、上記第１の学習手段によって生成された品
詞カテゴリーの頻度確率付き品詞決定木を用いて、上記
品詞決定木のリーフノードに付与された品詞カテゴリー
の頻度確率の中で上位複数ｎ個の頻度確率を選択して上
記テキストデータの先頭単語候補から１つずつの単語候
補に対して付与し、上記テキストデータの単語候補列に
おいて最上位の結合確率を有する単語分割された単語と
品詞の組み合わせの列を、処理候補として出力する第１
の処理手段と、上記第１の処理手段から出力される処理
候補に対して、所定のスタック・デコーダ・アルゴリズ
ムを用いて、文法規則付与処理における各パージング状
態での単語列に対する結合確率が最大の結合確率を有す
るパージング状態を選択した後、上記第４の学習手段に
よって生成された頻度確率付き処理方向決定木を用いて
上記処理対象の単語列における処理方向を決定し、決定
された処理方向におけるパージング状態において、上記
第３の学習手段によって生成された頻度確率付き文法規
則決定木に従って文法規則を上記処理対象の単語列に加
えることにより構文解析情報を付与して構文解析済み単
語を出力する第２の処理手段と、上記第１と第２の処理
手段の処理を、上記入力される文字列からなるテキスト
データの先頭から１つの単語候補ずつ、上記テキストデ
ータの１文に対する構文解析済みテキストデータが得ら
れるまで繰り返すように制御する第３の処理手段とを備
えたことを特徴とする。

【００１４】また、請求項６記載の日本語構文解析装置
は、請求項５記載の日本語構文解析装置において、上記
各決定木学習手段は、上記二分木の形式で分割するとき
に、上記各属性による分割前の属性の有効性の優先順位
を表わすエントロピーＨ₀と分割後のエントロピーＨと
の差（Ｈ₀−Ｈ）が最大の属性を分割候補の属性として
選択し、所定の分割続行基準を満足するときに、二分木
の形式で分割して決定木を更新することを特徴とする。

【００１５】さらに、請求項７記載の日本語構文解析装
置は、請求項６記載の日本語構文解析装置において、上
記分割続行基準は、（Ｉ）選択された属性に基づいて分
割したときのエントロピーの差（Ｈ₀−Ｈ）が所定のエ
ントロピーしきい値Ｈｔｈ以上であり、かつ（II）選択
された属性に基づく分割後の属性とその属性値及び品詞
の組のイベント数が所定のイベント数しきい値Ｄｔｈ以
上であることを特徴とする。

【００１６】またさらに、請求項８記載の日本語構文解
析装置は、請求項５乃至７のうちの１つに記載の日本語
構文解析装置において、上記第１の処理手段は、上記単
語分割決定木のリーフノードに付与された単語カテゴリ
ーの頻度確率の中で上位複数ｎ個の頻度確率を選択して
上記テキストデータの単語候補に対して付与し、かつ上
記品詞付与決定木のリーフノードに付与された品詞カテ
ゴリーの頻度確率の中で上位複数ｎ個の頻度確率を選択
して上記テキストデータの各単語候補に対して付与した
後、所定のスタック・デコーダ・アルゴリズムに用い
て、処理途中のテキストデータの単語候補列に対する結
合確率が所定の結合確率以上である単語と品詞の組み合
わせの列の処理候補のみを残して当該組み合わせの候補
を限定し、当該処理終了時の上記テキストデータの文字
列において最上位の結合確率を有する単語分割された単
語と品詞の組み合わせの列を、処理候補として出力する
ことを特徴とする。

【００１７】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。

【００１８】図１は、本発明に係る一実施形態である、
決定木学習装置１０及び構文情報付与装置１１を備えた
日本語構文解析システムのブロック図である。この日本
語構文解析システムは、日本語のテキストデータに対し
て、品詞付与のための辞書を参照しないで、品詞を付与
した後、素性構造付き文脈自由文法などの詳細な構文構
造の情報を付与することはできる構文解析システムであ
って、（ａ）構文解析付与済みテキストメモリ２１に格
納された構文情報付与済みテキストデータに基づいて、
属性リストメモリ２２に格納された属性リストと、品詞
リストメモリ２３に格納された品詞リストとを参照し
て、詳細後述する品詞決定木学習処理を実行して学習す
ることにより、頻度確率付き品詞決定木を生成して品詞
決定木ファイルメモリ２５に格納し、次いで、構文解析
付与済みテキストメモリ２１に格納された構文情報付与
済みテキストデータに基づいて、属性リストメモリ２２
に格納された属性リストと、文法規則リストメモリ２４
に格納された文法規則リストとを参照して、詳細後述す
る文法規則決定木学習処理を実行して学習することによ
り、頻度確率付き文法規則決定木を生成して文法規則決
定木ファイルメモリ２６に格納し、さらに、構文解析付
与済みテキストメモリ２１に格納された構文情報付与済
みテキストデータに基づいて、属性リストメモリ２２に
格納された属性リストと、文法規則リストメモリ２４に
格納された文法規則リストとを参照して、詳細後述する
処理方向決定木学習処理を実行して学習することによ
り、頻度確率付き処理方向決定木を生成して処理方向決
定木ファイルメモリ２７に格納し、さらには、構文解析
付与済みテキストメモリ２１に格納された構文情報付与
済みテキストデータに基づいて、属性リストメモリ２２
に格納された属性リストと、単語リストメモリ２９に格
納された単語リストとを参照して、詳細後述する単語分
割決定木学習処理を実行して学習することにより、頻度
確率付き単語分割決定木を生成して単語分割決定木ファ
イルメモリ２８に格納するする決定木学習装置１０と、
（ｂ）スタックメモリ１２が構文情報付与装置１１に接
続され、品詞決定木ファイルメモリ２５に格納された頻
度確率付き品詞決定木と、文法規則決定木ファイルメモ
リ２６に格納された頻度確率付き文法規則決定木と、処
理方向決定木ファイルメモリ２７に格納された頻度確率
付き処理方向決定木と、単語分割決定木ファイルメモリ
２８に格納された頻度確率付き単語分割決定木とを用い
て、属性リストメモリ２２に格納された属性リストと、
品詞リストメモリ２３に格納された品詞リストと、文法
規則リストメモリ２４に格納された文法規則リストと、
単語リストメモリ２９に格納された単語リストとを参照
して、テキストデータメモリ３０に格納され入力される
テキストデータに対して、詳細後述する単語分割及び品
詞付与処理（図８及び図９）及び文法規則付与処理（図
１０及び図１１）を含む構文情報付与処理を実行するこ
とにより、品詞を付与しかつ文法規則を付与して、構文
解析済みテキストデータを生成して構文解析済みテキス
トデータ３１に格納する構文情報付与装置１１とを備え
たことを特徴とする。本実施形態においては、テキスト
データとは、日本語の文字列又は単語列からなる日本語
文である。

【００１９】まず、本実施形態で利用する知識について
説明する。一般に日本語の構文解析装置では、係り受け
関係を捉えることが多く、本実施形態では、素性構造付
文脈自由文法で記述している。また、決定木で利用され
る特徴として、語を構成している部分的な文字列の特徴
や語あるいは品詞等の接続情報などを利用している。

【００２０】次いで、本実施形態で利用する文法につい
て説明する。本実施形態では、１６種類の素性を用いた
素性構造付文脈自由文法を利用している。素性として
は、カテゴリ（ｃａｔ）、名詞の型（ｎ＿ｔｙｐｅ）、
動詞の型（ｖ＿ｔｙｐｅ）などがあり、品詞タグは、基
本的なカテゴリ、名詞や動詞の型、活用の種類や活用形
の組み合わせにより表現され（表１参照。）、約２００
種類におよぶ。文法は、この品詞タグをベースに、約１
００種類の統語規則から構成される（表２参照。））。

【００２１】

【表１】品詞タグの一例 ─────────────────────────────────── 規則格動詞 ─────────────────────────────────── 例に、を、が、で、と、から、まで、へ、について、の、によって、って、より、として、にて ─────────────────────────────────── 親ｃａｔｐｂａｒ０ｐｏｓ助詞ｐ＿ｔｙｐｅ格 ───────────────────────────────────

【００２２】

【表２】文法規則の一例 ─────────────────────────────────── 規則ＶＰ＿ｎｐ＋ａｐ ─────────────────────────────────── 記述ＶＰ＿ｎｐ＋ａｐ→ＮＰＡＰ ─────────────────────────────────── 例［ｖｐ［ｎｐあなたさえ］［ａｐよければ］ ─────────────────────────────────── 親ｃａｔｖｂａｒ２ｐｏｓｖｐ＿ｎｐ＋ａｐｎ＿ｔｙｐｅＶ＊ ─────────────────────────────────── 子１ｃａｔＣＡＴｂａｒ２ｐｏｓＶ＊ｎ＿ｔｙｐｅＶ＊ｖ＿ｔｙｐｅＶ＊ａ＿ｔｙｐｅＡｋａｔｕｙｏｕＶ＊ｋａｔｕｙｏｕｋｅｉＶ＊ ─────────────────────────────────── 条件ｎｏｔ（（Ａ＝ｕｎｓｐｅｃ）｜（ＣＡＴ＝ｓ）） ───────────────────────────────────

【００２３】また、この文法は、対話データでの表現を
捉えられるように、考慮されており、いわゆる通常の文
法という意味では、非文扱いされるものに対しても、処
理できるように考慮されている。

【００２４】次いで、語法の性質（特徴）について説明
する。上述した文法の制約のみでは、形態素解析済の入
力に対する構文構造だけでも、多くの解析候補がある。
さらに、形態素解析の候補を考慮すると、膨大な量の候
補が存在することになる。このような候補から正しい構
造を選択するには、処理の過程で適切な選択をしていく
必要があり、その選択を行うために、様々な特徴を利用
する。利用している特徴には、（１）語（あるいは句、
節）に関する特徴、と（２）（文内の）文脈に関する特
徴があり、形態素、構文のレベルで統計的な尤度にした
がって有効に活用される。

【００２５】次いで、語に関する特徴について説明す
る。単語自身の持つ特徴であり、その部分的な綴り、文
字数、構成文字種等に関する特徴や、品詞タグが付与さ
れた後には、品詞タグの持つ各素性の値が特徴として利
用される。なお、語ではなく句や節として文法規則でま
とめられている場合には、その規則の親ノードの持つ素
性の値が特徴として利用される。また、どのようなノー
ドから構成されているか、句や節を構成している単語数
なども特徴として利用される。単語自身が持つ語彙の特
徴は、単語に対するタグを決めるのに非常に有効な情報
であるとともに、構文構造のある範囲での主辞となる語
の情報としても利用される。本実施形態で扱う語彙の情
報は、見出し語として辞書より得られる情報を利用する
こともできるが、基本的には、先に述べたような語を構
成している部分的な文字列や文字数等により特徴づけら
れているためにいわゆる「未知語」という概念がない。
強いて、本実施形態で「未知語」を考える場合には、特
徴を抽出した学習データに現れない語と捉えることがで
きる。

【００２６】次いで、文内文脈に関する特徴について説
明する。現在の処理対象に関する特徴だけでなく、その
直前の語の特徴や、接続する文字の特徴、あるいは、処
理対象の２つ前の語や品詞についての特徴、文頭や、文
末に関する特徴、処理対象の前で一番近くにある助詞の
情報、そこまでの単語数などが特徴として利用される。
このように、ある一定の定められた語の情報だけでな
く、柔軟に距離が変化する特徴も利用することができ
る。また、今処理している文字列が、同一文内に現れて
いるかどうか等も、特徴として利用で用できる。これら
の特長を、「語法の特徴」と呼び、記述するための枠組
みを本実施形態で用いた。

【００２７】さらに、確率付決定木による解析について
説明する。すべての「語法の特徴」が、形態素、および
構文解析で利用されるわけではない。「語法の特徴」
は、学習用コーパスに現れる統計的な優位性を基準に、
解析知識として効率的に利用するために決定木の枠組み
の中で利用される。ここで、枝刈りに、最小コストコン
プレキシティ（minimal cost-complexity）アルゴリズ
ムを用い、スムージングには、フォワード・バックワー
ド（Forward-Backward）アルゴリズムを用いた。利用す
る決定木は、２分木のものであり、各分岐点での判断に
「語法の特徴」を利用する。だたし、２分木であるた
め、３個以上の値を持つ特徴を直接利用することができ
ない。そこで、３個以上の値を持つ語法の特徴を決定木
の分岐点の情報として利用するために、特徴の各値に
“０”，“１”からなる固有のビット列を与え、そのビ
ット列内の特定のビットを１つの分岐点の情報として利
用する。また、その特徴が有効な特徴であるかどうかの
分岐も行っている。特徴が有効かどうかは、その特徴を
判断することができるかいなかによる。例えば、文頭の
単語を処理する場合に、直前の単語に関する特徴は利用
できないため、有効な特徴ではない。

【００２８】次いで、解析処理の流れについて説明す
る。形態素解析、構文解析を統合する処理機構を実現す
るために、以下のような二つの統合の方法を用いる。（ａ）［処理Ａ］文末まで一旦、形態素解析を行い、各
候補に対して順次構文解析を行う。当該処理Ａを、後述
する実施形態の説明において、実施形態として説明す
る。（ｂ）［処理Ｂ］左から右に文字単位で処理しながら形
態素解析、構文解析を行う。当該処理Ｂを、変形例とし
て説明する。

【００２９】処理Ａでは、形態素解析時に構文情報を有
効に利用できるという統合での利点がなく、処理Ｂでの
統合が望まれる。比較のために、実験では、二つの処理
手法を切り替えて利用できるようにした。本実施形態で
は、その統計的言語モデルとして決定木モデルを採用
し、解析処理のために、以下の４種類の決定木を、学習
データを用いて構築する。（ａ）［単語認識の決定木］単語としての妥当性を判断
するための決定木（以下、単語分割決定木という。）。（ｂ）［品詞付与の決定木］品詞タグの候補を選択する
ための決定木（以下、品詞決定木という。）。（ｃ）［文法規則適用の決定木］適用する構文規則を選
択するための決定木（以下、文法規則決定木とい
う。）。（ｄ）［処理方向の決定木］文法規則適用時の単語に対
する処理方向を選択するための決定木（以下、処理方向
決定木という。）。

【００３０】解析処理では、これら４つの決定木をそれ
ぞれ以下の４つの状態で利用し、各状態で処理が行われ
る。（ａ）単語認識の状態：現在の処理対象となっている文
字列が単語として妥当かを判断する。妥当な場合、単語
ノードとした状態を品詞付与の状態とするとともに、次
の文字を取り込んだ文字列を処理対象とする単語認識の
状態をつくり、各状態の処理を行う。妥当でないと判断
された場合、次の文字を取り込んだ文字列を処理対象と
する単語認識の状態をつくり、各状態の処理を行う。（ｂ）品詞付与の状態：現在の処理対象となる単語ノー
ドに適切な品詞タグを（複数の品詞候補がある場合は、
その候補分の状態をつくり、処理を行う。）、タグノー
ドとする構文規則適用の状態とするとともに、次の一文
字を処理対象とした単語認識の状態を作り、各々の状態
について処理を行う。（ｃ）構文規則適用の状態：現在の処理対象となるノー
ドから前のノードを参照し、適用できる構文規則に対し
て、ルートノードを設定し、構文規則適用の状態とする
とともに、次の一文字を処理対象とした単語認識の状態
を作り、各々の状態について処理を行う。（ｄ）処理方向選択の状態：現在の処理対象となるノー
ドから前のノードを参照し、適用できる処理方向に対し
て、ルートノードを設定し、処理方向の適用の状態とす
るとともに、次の一文字を処理対象とした単語認識の状
態を作り、各々の状態について処理を行う。

【００３１】単語認識の状態では、単語ノードの作成に
対して、処理文字列が単語として妥当かどうかを判断す
る決定木が利用される。ここで利用される決定木は「単
語分割決定木」であり、単語として現れる確率値が計算
され、その値により、妥当か否かの判断がなされる。品
詞タグを付与する場合には、「品詞決定木」が利用さ
れ、確率付で一定以上の値を持つ品詞タグ候補が与えら
れる。構文規則適用についても、文法的に適用できる規
則に対して、「文法規則決定木」により適用できる規則
の内、一定以上の値を持つ規則に対して、ルートノード
が設定される。さらに、処理方向の選択についても、文
法的に適用できる規則に対して、「処理方向決定木」に
より適用できる処理方向の内、一定以上の値を持つ処理
方向に対して、ルートノードが設定される。また、複数
の状態の処理については、公知のスタックデコーダアル
ゴリズムを利用することで、処理の効率化をはかってい
る。

【００３２】次いで、本実施形態の構文解析システムに
おいて用いる文法規則と知識について詳述する。この中
で、まず、本実施形態で用いる詳細な文法規則について
述べる。学習用テキストデータベースであるコーパスに
現れる言語現象の中には、ある単位としてまとまること
により、言語的な特徴を持つ場合が少なくない。また、
この特徴が構文解析に非常に有効な情報となる場合も多
い。文法としては、素性構造つき文脈自由文法を用い
る。これは、文法規則の子供のノードには現れない特徴
を親ノードに付与することで、より詳細な情報を付与で
き、各素性の特徴を利用しやすいと考えたためである。

【００３３】上述の文法規則に従う構造から、正しい構
造を得るために、様々な特徴を利用する。まず、文法に
与えられている各素性の持つ値の特徴を利用する。この
特徴に加えて、単語自身が持つ語彙の特徴、文の持つ特
徴を利用する。様々な文脈において、文法規則の素性が
取る値の統計的な性質を調べることで、どの文法規則が
確らしいかの指標を与えることができる。単語自身が持
つ語彙の特徴は、単語に対するタグを決めるのに非常に
有効な情報であるとともに、構文構造のある範囲での第
１の主辞となる語の情報としても利用される。本実施形
態において取り扱う語彙の情報は、辞書より得られる情
報ではなく、語を構成しているサフィックスやプレフィ
ックス、単語の文字数等により特徴づけられている。ま
た、文の持つ特徴は、１文に含まれる単語数や句読法、
あるいは、同じ単語が複数回現れているか等により特徴
づけられる。さらに、文脈的な情報を利用できるよう
に、直前の単語や文末、文頭、処理対象の文法規則のカ
バーする範囲の先頭の単語、末尾の単語等に関する特徴
も利用できるようにしている。文法家（文法規則を生成
する専門家をいう。）が様々な特徴を記述するために、
語法の特徴を記述するための枠組みを用いる。

【００３４】次いで、本実施形態で用いる統計的構文解
析法について述べる。本実施形態では、上述した特徴を
効率的に利用するために、統計的な性質を学習用コーパ
スを用いて計算し、確率付決定木として学習している。
本手法で用いる決定木では、枝刈りに、最小コスト−コ
ンプレキシティアルゴリズムを用い、スムージングに
は、フォワード−バックワードアルゴリズムを用いた。
この決定木は、２分木となっている。そのため、上述し
た特徴を決定木の分岐点の情報としては、直接利用でき
ない。そこで、各特徴の値に“０”，“１”の固有のビ
ット列を与え、特定のビットを利用する。また、その特
徴が有効な特徴であるかどうかの分岐も行っている。こ
こで、例えば、文頭の単語を処理する場合に、直前の単
語に関する特徴は利用できない。

【００３５】本手法の構文解析は、部分的な解析木を表
現する状態を、連続的に構築する処理として捉えられ
る。ある状態から次の状態に移るために、以下の処理の
いずれかが行われている。この各処理に対して上述した
決定木が構成されている。（ａ）単語にタグを付与し、統語的な素性を決めた後、
意味的な素性を決める。（ｂ）現在の処理対象が構成要
素の終りかどうかを判断する。（ｃ）現在の処理対象の構成要素に文法規則を付与す
る。これらの処理の順序関係には、何通りかの可能性がある
が、本実施形態では、まず、全ての単語に品詞のタグ付
を行い、左から右に、ボトム・アップで解析を進めてい
る。文法から生成される候補は、非常に膨大であり、最
適な候補を見いだすことが困難に思われるが、本手法で
は、決定木で文脈に依存した確率の推定を行っており、
詳細後述するスタック・デコーダ・アルゴリズムを利用
することで、処理の効率化をはかっている。

【００３６】次いで、図１の構文解析システムの構成及
び動作について説明する。決定木学習装置１０は、メモ
リ２１から読み出された文字列又は単語列からなる構文
解析済みテキストデータに基づいて、各単語の綴りの特
徴と、文章内の使われ方による特徴と、単語の相互情報
量を用いた階層的な分類とを含み属性リストメモリ２２
に格納された複数の属性を用いて、上記各属性の属性値
に依存して分割されるような二分木形式の木構造を有し
品詞付与のための品詞決定木を生成し、上記生成された
品詞決定木の分割されないノードであるリーフノードに
対して複数の品詞に対する頻度確率を計算して付与する
ことにより、頻度確率付き品詞決定木を生成して品詞決
定木ファイルメモリ２５に格納する。次いで、決定木学
習装置１０は、メモリ２１から読み出された文字列又は
単語列からなる構文解析済みテキストデータに基づい
て、処理対象の単語の語数と、処理対象の主辞単語の品
詞、処理対象の直前の単語の品詞、単語の相互情報量を
用いた階層的な分類とを含み属性リストメモリ２２に格
納された複数の属性を用いて、上記各属性の属性値に依
存して分割されるような二分木形式の木構造を有し文法
規則付与のための文法規則決定木を生成し、上記生成さ
れた文法規則決定木の分割されないノードであるリーフ
ノードに対して複数の文法規則に対する頻度確率を計算
して付与することにより、頻度確率付き文法規則決定木
を生成して文法規則決定木ファイルメモリ２６に格納す
る。

【００３７】さらに、決定木学習装置１０は、メモリ２
１から読み出された文字列又は単語列からなる構文解析
済みテキストデータに基づいて、処理対象の単語の語数
と、処理対象の主辞単語の品詞、処理対象の直前の単語
の品詞、単語の相互情報量を用いた階層的な分類とを含
み属性リストメモリ２２に格納された複数の属性を用い
て、上記各属性の属性値に依存して分割されるような二
分木形式の木構造を有し文法規則付与処理における各パ
ージング状態で処理方向を決定するための処理方向決定
木を生成し、上記生成された処理方向決定木の分割され
ないノードであるリーフノードに対して複数の処理方向
に対する頻度確率を計算して付与することにより、頻度
確率付き処理方向決定木を生成して処理方向決定木ファ
イルメモリ２７に格納する。またさらに、メモリ２１か
ら読み出された文字列又は単語列からなる構文解析済み
テキストデータに基づいて、各単語の綴りの特徴と、文
章内の使われ方による特徴と、単語の相互情報量を用い
た階層的な分類とを含み属性リストメモリ２２に格納さ
れた複数の属性を用いて、上記各属性の属性値に依存し
て分割されるような二分木形式の木構造を有し単語間の
単語分割のための単語分割決定木を生成し、上記生成さ
れた単語分割決定木の分割されないノードであるリーフ
ノードに対して複数の単語に対する頻度確率を計算して
付与することにより、頻度確率付き単語分割決定木を生
成して単語分割決定木ファイルメモリ２８に格納する。

【００３８】ここで、決定木学習装置１０は、上記二分
木の形式で分割するときに、上記各属性による分割前の
属性の有効性の優先順位を表わすエントロピーＨ₀と分
割後のエントロピーＨとの差（Ｈ₀−Ｈ）が最大の属性
を分割候補の属性として選択し、所定の分割続行基準を
満足するときに、二分木の形式で分割して決定木を更新
する。

【００３９】次いで、構文情報付与装置１１は、メモリ
３０から入力される日本語の文字列又は単語列からなる
テキストデータに基づいて、決定木学習装置１０によっ
て生成された単語カテゴリーの頻度確率付き単語分割決
定木を用いて、上記単語分割決定木のリーフノードに付
与された単語カテゴリーの頻度確率の中で上位複数ｎ個
の頻度確率を選択して上記テキストデータの各単語候補
に対して付与するとともに、上記入力される文字列から
なるテキストデータに基づいて、決定木学習装置１０に
よって生成された品詞カテゴリーの頻度確率付き品詞決
定木を用いて、上記品詞決定木のリーフノードに付与さ
れた品詞カテゴリーの頻度確率の中で上位複数ｎ個の頻
度確率を選択して上記テキストデータの各単語候補に対
して付与し、上記テキストデータの単語候補列において
上位複数ｎ個の結合確率を有する単語分割された単語と
品詞の組み合わせの列を、複数ｎ個の処理候補とする。
次いで、構文情報付与装置１１は、上記複数ｎ個の処理
候補のうち、より上位の処理候補から順次１つずつの処
理候補に対して１つの文として成立するまで、所定のス
タック・デコーダ・アルゴリズムを用いて、文法規則付
与処理における各パージング状態での単語列に対する結
合確率が最大の結合確率を有するパージング状態を選択
した後、決定木学習装置１０によって生成された頻度確
率付き処理方向決定木を用いて上記処理対象の単語列に
おける処理方向を決定し、決定された処理方向における
パージング状態において、決定木学習装置１０によって
生成された頻度確率付き文法規則決定木に従って文法規
則を上記処理対象の単語列に加えることにより構文解析
情報を付与して構文解析済みテキストデータを出力す
る。

【００４０】ここで、構文情報付与装置１１は、単語分
割決定木のリーフノードに付与された単語カテゴリーの
頻度確率の中で上位複数ｎ個の頻度確率を選択して上記
テキストデータの各単語候補に対して付与し、かつ品詞
付与決定木のリーフノードに付与された品詞カテゴリー
の頻度確率の中で上位複数ｎ個の頻度確率を選択して上
記テキストデータの各単語候補に対して付与した後、所
定のスタック・デコーダ・アルゴリズムに用いて、処理
途中のテキストデータの単語候補列に対する結合確率が
所定の結合確率以上である単語と品詞の組み合わせの列
の処理候補のみを残して当該組み合わせの候補を限定
し、当該処理終了時の上記テキストデータの文字列又は
単語列において上位複数ｎ個の結合確率を有する単語分
割された単語と品詞の組み合わせの列を、複数ｎ個の処
理候補として出力する。

【００４１】本実施形態においては、品詞決定木学習処
理により、構文解析済みテキストデータから得られる知
識を用いて、二分木形式の木構造を有し品詞付与のため
の頻度確率付き品詞決定木を生成し、品詞付与を行な
う。頻度確率付き品詞決定木で用いられる属性は、言語
学的な特徴やコーパスから得られる統計的な特徴を用い
る。従来の品詞付与では、辞書を引くことで品詞候補を
制限し、その中から、前後に現れる語との関係などを考
慮して、もっとも適切な品詞を選択するという方法が一
般的である。しかしながら、辞書の作成や保守にかかる
コストの問題となる。また、辞書項目に無い語（未知
語）や辞書の品詞候補にない品詞として使われた語に対
しては、特別な処理が必要とされる。本実施形態に係る
頻度確率付き品詞決定木を用いた方法では、単語の品詞
を決定するために、辞書を用いないため、辞書の作成や
保守にかかるコストは問題にならない。頻度確率付き品
詞決定木を、構文解析済みテキストを用いた学習により
構築する。そのために、構文解析済みテキストデータが
あれば、品詞体系に柔軟に対応できる。また、上記頻度
確率を用いて、品詞列の優先順位を自動的に決定するこ
とができる。品詞決定木は、対象を複数の属性とその属
性値から、適切なクラスに分類する木構造のモデルであ
る。品詞付与においては、対象が各単語に、クラスが品
詞に相当する。属性としては、各単語の綴の特徴や文内
の使われ方による特徴や単語の相互情報量を用いた階層
的分類などを用いる。

【００４２】また、構文情報付与装置１１における文法
付与処理においては、文法規則決定木と処理方向決定木
を用いて、処理対象の単語候補列に対して、文法規則を
付与してゆく。ここで、文法規則決定木と処理方向決定
木の属性としては、処理対象の単語の語数と、処理対象
の主辞単語の品詞、処理対象の直前の単語の品詞、単語
の相互情報量を用いた階層的な分類を用いる。文法規則
決定木と処理方向決定木を用いた方法では、文法規則の
付加を決定するために、辞書を用いないため、辞書の作
成や保守にかかるコストは問題にならない。頻度確率付
き文法規則決定木及び処理方向決定木を、構文解析済み
テキストを用いた学習により構築する。そのために、構
文解析済みテキストデータがあれば、文規則の体系に柔
軟に対応できる。以下、本実施形態の構文解析システム
について詳述する。

【００４３】図１において、決定木学習装置１０は、構
文解析済みテキストメモリ２１に格納された構文情報付
きテキストデータに基づいて、属性リストメモリ２２に
格納された属性リストと、品詞リストメモリ２３に格納
された品詞リストとを参照して、詳細後述する品詞決定
木学習処理を実行して学習することにより、頻度確率付
き品詞決定木を生成して品詞決定木ファイルメモリ２５
に格納し、次いで、構文解析済みテキストメモリ２１に
格納された構文情報付きテキストデータに基づいて、属
性リストメモリ２２に格納された属性リストと、文法規
則リストメモリ２４に格納された文法規則リストとを参
照して、詳細後述する文法規則決定木学習処理を実行し
て学習することにより、頻度確率付き文法規則決定木を
生成して文法規則決定木ファイルメモリ２６に格納し、
さらに、構文解析済みテキストメモリ２１に格納された
構文情報付きテキストデータに基づいて、属性リストメ
モリ２２に格納された属性リストと、文法規則リストメ
モリ２４に格納された文法規則リストとを参照して、詳
細後述する処理方向決定木学習処理を実行して学習する
ことにより、頻度確率付き処理方向決定木を生成して処
理方向決定木ファイルメモリ２７に格納し、さらには、
構文解析済みテキストメモリ２１に格納された構文情報
付きテキストデータに基づいて、属性リストメモリ２２
に格納された属性リストと、単語リストメモリ２９に格
納された単語リストとを参照して、詳細後述する単語分
割決定木学習処理を実行して学習することにより、頻度
確率付き単語分割決定木を生成して単語分割決定木ファ
イルメモリ２８に格納する。

【００４４】次いで、構文情報付与装置１１には、スタ
ックメモリ１２が接続され、構文情報付与装置１１は、
品詞決定木ファイルメモリ２５に格納された頻度確率付
き品詞決定木と、文法規則決定木ファイルメモリ２６に
格納された頻度確率付き文法規則決定木と、処理方向決
定木ファイルメモリ２７に格納された頻度確率付き処理
方向決定木と、単語分割決定木ファイルメモリ２８に格
納された頻度確率付き単語分割決定木とを用いて、属性
リストメモリ２２に格納された属性リストと、品詞リス
トメモリ２３に格納された品詞リストと、文法規則リス
トメモリ２４に格納された文法規則リストと、単語リス
トメモリ２９に格納された単語リストとを参照して、テ
キストデータメモリ３０に格納され入力されるテキスト
データに対して、詳細後述する単語分割及び品詞付与処
理（図８及び図９）及び文法規則付与処理（図１０及び
図１１）を含む構文情報付与処理を実行することによ
り、品詞を付与しかつ文法規則を付与して、構文解析済
みテキストデータを生成して構文解析済みテキストデー
タ３１に格納する。ここで、生成された構文解析済みテ
キストデータは、例えばＣＲＴディスプレイやプリンタ
などの出力機器に出力してもよい。

【００４５】ここで、決定木学習装置１０と構文情報付
与装置１１はそれぞれ、例えば、各処理を実行するＣＰ
Ｕと、各処理のプログラム及びそれを実行するために必
要なデータを格納するＲＯＭ（読出専用メモリ）と、Ｃ
ＰＵのワーキングメモリとして用いられるＲＡＭ（ラン
ダムアクセスメモリ）とを備えたデジタル計算機で構成
される。また、メモリ１２，２１乃至２９，３０，３１
は、例えばハードディスクメモリで構成される。さら
に、構文情報付与装置１１には、スタック・デコーダ・
アルゴリズムを用いて品詞付与処理及び文法規則付与処
理を実行するためのスタック用スタックメモリ１２が接
続される。

【００４６】単語リストメモリ２９には、日本語の複数
の単語が格納される。品詞リストメモリ２３に格納され
る品詞リストの一例を表３に示す。また、属性リストメ
モリ２２に格納される属性リストの一例を表４に示す。
さらに、文法規則リストメモリ２４に格納される文法規
則の一例を表５に示す。

【００４７】

【表３】品詞リスト ───────── 品詞 ───────── 普通名詞サ変名詞形容名詞数詞形式名詞ローマ字本動詞補助動詞形容詞格助詞 …… ─────────

【００４８】

【表４】単語分割及び品詞付与のための属性リスト ─────────────────────────────────── 属性属性値 ─────────────────────────────────── 単語の相互情報量を用いた階層的分類コード分類コード対象単語が”〜い”を含む単語Ｙｅｓ、Ｎｏ対象単語が全てカタカナの単語Ｙｅｓ、Ｎｏ対象単語の長さ単語長さの数値（例えば、“カード”なら３）直前の単語の品詞属性の値品詞属性の値後続する文字がカタカナか？Ｙｅｓ、Ｎｏ対象単語の最初の文字が漢字か？Ｙｅｓ、Ｎｏ …… …… ───────────────────────────────────

【００４９】

【表５】文法規則付与用属性リスト ─────────────────────────────────── 属性属性値 ─────────────────────────────────── 処理対象の主辞単語の相互情報量分類コードに基づく階層的単語分類コード（所定ビット）処理対象が一語のみＹｅｓ，Ｎｏ処理対象の主辞単語の品詞が名詞Ｙｅｓ，Ｎｏ処理対象の直前の単語の品詞が名詞Ｙｅｓ，Ｎｏ ………………………… ……………………… ───────────────────────────────────

【００５０】

【表６】文法規則リスト ─────────────────────────────────── 名詞句１：名詞句→名詞，格助詞名詞句２：名詞句→名詞，接続助詞動詞句１：動詞句→本動詞，補助動詞，終助詞 …… …………… ───────────────────────────────────

【００５１】表４の文法規則リストにおいて、例えば、
第１行目は、名詞句が名詞と格助詞から構成されること
を意味し、第３行目は、動詞句が本動詞と補助動詞、終
助詞から構成されることを意味する。なお、処理方向
は、リストとして表示していないが、本実施形態におい
て、「右」、「左」、「上」のいずれかである。

【００５２】ここで、品詞属性とは、品詞を粗く１０種
類に分類した属性であり、品詞属性の値とは、例えば、
名詞、動詞、助詞である。また、単語の相互情報量を用
いた階層的分類コードとは、例えば、特願平８−０２７
８０９号の特許出願や従来技術文献４「Akira Ushioda,
“Hierarchical Clustering of Words",Proceedingsof
COLING'96,The 16th International Conference on Com
putational Linguistics,Vol.2,pp.1159-1162,1996年8
月」において開示された単語分類方法を用いて分類され
た階層的分類コードである。この単語分類方法では、テ
キストデータ内の単語について出現頻度の比較的低い単
語を、同一の単語に隣接する割合の多い単語を同一のク
ラスに割り当てるという基準で分類した後、単語分類結
果を中間層、上側層、及び下側層の３つの階層に分類
し、テキストデータ内のすべての単語を対象とするグロ
ーバルな（全体的な）コスト関数である所定の平均相互
情報量を用いて、中間層、上側層、及び下側層の順序で
階層別に単語の分類を実行することを特徴としている。
相互情報量を用いたクラスタリングの方法においては、
単語数Ｔのテキスト、語数Ｖの語彙、それに語彙の分割
関数πとが存在すると仮定し、ここで、語彙の分割関数
πは語彙Ｖから語彙の中の単語クラスセットＣへの分割
写像（マッピング）を表わす写像関数である。複数の単
語からなるテキストデータを生成するバイグラムのクラ
スモデルの尤度Ｌ（π）は次式によって得られる。

【００５３】

【数１】Ｌ(π)＝−Ｈｍ＋Ｉ

【００５４】ここで、Ｈｍはモノグラムの単語分布のエ
ントロピーであり、Ｉはテキストデータ内の隣接する２
つのクラスＣ₁，Ｃ₂に関する平均的な相互情報量（Aver
ageMutual Information；以下、平均相互情報量とし、
ＡＭＩと表記する。）であり、次式で計算することがで
きる。

【００５５】

【数２】

【００５６】ここで、Ｐｒ（Ｃ_１）は第１のクラスＣ₁
の単語の出現確率であり、Ｐｒ（Ｃ₂）は第２のクラス
Ｃ₂の単語の出現確率であり、Ｐｒ（Ｃ₁｜Ｃ₂）は、第
２のクラスＣ₂の単語は出現した後に、第１のクラスＣ₁
の単語が出現する条件付き確率であり、Ｐｒ（Ｃ₁，
Ｃ₂）は第１のクラスＣ₁の単語と第２のクラスＣ₂の単
語が隣接して出現する確率である。従って、上記数２で
表されるＡＭＩは、互いに異なる第１のクラスＣ₁の単
語と第２のクラスＣ₂の単語とが隣接して出現する確率
を、上記第１のクラスＣ₁の単語の出現確率と第２のク
ラスＣ₂の単語の出現確率との積で割った相対的な頻度
の割合を表わす。エントロピーＨは写像関数πに依存し
ない値であることから、ＡＭＩを最大にする写像関数は
同時にテキストの尤度Ｌ（π）も最大にする。従って、
ＡＭＩを単語のクラス構成における目的関数として使用
することができる。

【００５７】上記単語分類方法は、意味又は統語的特徴
が似通った単語が近接した位置に配置された点で、バラ
ンスが取れた二分木の形式を有するツリー構造を生成す
ることができる。処理の最後に、根のノード（ルートノ
ード（ｒｏｏｔｎｏｄｅ））から葉のノード（リーフ
ノード（ｌｅａｆｎｏｄｅ）に至るパスの追跡し、左
側方向の分岐又は右側方向の分岐をそれぞれ表わす０又
は１の１ビットを各分岐に割り当てることによって、語
彙の中の各単語に対して、ビットストリング（単語ビッ
ト）を割り当てることができる。

【００５８】次いで、品詞決定木、文法規則決定木、処
理方向決定木及び単語分割決定木を構築する決定木学習
処理のアルゴリズム、及び構文情報付与処理のアルゴリ
ズムについて述べる。

【００５９】各決定木学習処理では、各属性の有効性を
他の属性と独立に計算し、クラスの決定のための効率的
な属性による分類順序を、二分木の形式で分割された構
造を有する木構造として構築する。属性の有効性は、そ
の属性による分割分類後のエントロピーＨにより評価す
る。ここでのエントロピーは、属性の有効性の優先順位
を表わす。すなわち、ある属性ＢでノードＮ₁とノード
Ｎ₂とに分割するときに、分割前のエントロピーＨ₀と、
分割後のエントロピーＨと、ノードＮ₁に対するエント
ロピーＨ₁と、ノードＮ₂に対するエントロピーＨ₂とは
次式で表される。

【００６０】

【数３】

【数４】Ｈ＝ｐ₁Ｈ₁＋（１−ｐ₁）Ｈ₂ ここで、

【数５】

【数６】

【００６１】ここで、ｐ（ｔａｇａｌｌ）は分割前のす
べての品詞タグ（品詞決定木の場合；文法規則決定木の
ときは文法規則タグであり、処理方向決定木のときは処
理方向タグ、すなわち、「上」、「左」及び「右」であ
る。）についてのイベントの数の頻度確率又は出現確率
であり、ｔａｇａｌｌについてのΣは、分割前のすべて
の品詞タグについての和を示す。また、ｐ₁は、ノード
Ｎ₁に分割したときに含まれる品詞タグのイベントの数
の頻度確率の総和である。さらに、ｐ（ｔａｇＮ₁）は
ノードＮ₁のすべての品詞タグについてのイベントの数
の頻度確率であり、ｔａｇＮ₁についてのΣは、ノード
Ｎ₁のすべての品詞タグについての和を示す。ｐ（ｔａ
ｇＮ₂）はノードＮ₂のすべての品詞タグについてのイベ
ントの数の頻度確率であり、ｔａｇＮ₂についてのΣ
は、ノードＮ₂のすべての品詞タグについての和を示
す。

【００６２】有効性の計算のために、学習用のテキスト
データから各語について「属性とその属性値、品詞」の
組からなるイベント情報（ｅｖｅｎｔ：以下、イベント
という。）を予めとりだしておく。具体的には、全ての
イベントの集合に対して、分類後のエントロピーＨが最
小となる属性を求め、最初のノードに割り当てる。この
属性の属性値により、イベントの集合を分割し、対応す
る子ノードを作る。各々の子ノードにおいて、同様の処
理を繰り返し行なうことにより、木構造を構築する。分
割の停止条件は、各ノードに含まれるイベント数が一定
数以下、あるいは分割による有効性が一定基準以下（こ
こで、分割後のエントロピーＨと分割前のエントロピー
Ｈ₀との差がある所定量を越えない場合。）とする。こ
こで、分割されないノードをリーフと呼ぶ。学習された
決定木のリーフでは、与えられたイベントの集合から各
品詞の頻度確率を計算する。

【００６３】ここで、本実施形態の構文情報付与システ
ムでは、従来技術文献５「L.E.Baum,“An inequality a
nd associated maximization technique in statistica
l estimation for probabilistic functions of a Mark
ov process",Inequalities,Vol.3,pp.1-8,1972年」に開
示されたフォワード−バックワード（Ｆｏｒｗａｒｄ−
Ｂａｃｋｗａｒｄ）アルゴリズムを用いて、スムージン
グ用の学習データに基づいて、スムージング用の学習デ
ータから得られる確率と決定木から得られる確率との差
が最小となるようにスムージングを行ない、品詞及び構
文情報を付与すべき最後の頻度確率分布を補正する。ま
た、本実施形態のシステムでは、上記決定木学習処理の
アルゴリズムに従って、２段階の決定木を作成してい
る。１段目は、粗く分類した品詞（以下、ＧＰＯＳ（Ｇ
ｌｏｂａｌＰａｒｔＯｆＳｐｅｅｃｈ）とい
う。）（ここで、実際の品詞の属性の１つに対応してお
り、例えば、動詞、名詞、冠詞などに分類される。）の
ための決定木であり、２段目として、ＧＰＯＳの品詞毎
に実際の品詞（表３に示した品詞タグレベル）を決定す
るための決定木を作成する。本実施形態では、より詳細
な品詞レベルの名称を品詞タグと呼んでいる。すなわ
ち、２段階に分割して決定木を生成することにより、１
回の処理で必要な記憶装置の記憶容量を大幅に減少させ
ている。

【００６４】品詞付与処理においては、入力文のテキス
トデータを左から右に処理し、結合確率を最大にする品
詞列を出力する。入力文が、ｗ₁，ｗ₂，…，ｗ_Nのよう
な複数Ｎ個の単語からなり、品詞列｛ｔ₁，ｔ₂，…，ｔ
_N｝（ここで、ｔ_iはｉ番目の単語の品詞である。）が得
られたとすると、結合確率Ｐは次式で表される。なお、
本実施形態では、品詞の出現をマルコフ情報源として取
り扱っておらず、それまでに出現した単語や品詞に依存
した情報源として取り扱っている。従って、十分に長い
文において、文の最初の語とその品詞に依存して最後の
単語の品詞を導くことが、原理的には可能である。

【００６５】

【数７】Ｐ≡ｐ（ｔ₁，ｔ₂，…，ｔ_N│ｗ₁，ｗ₂，…，ｗ_N）

【数８】

【００６６】上記数７の右辺は、入力文ｗ₁，ｗ₂，…，
ｗ_Nが入力されたときに、品詞列ｔ₁，ｔ₂，…，ｔ_Nが与
えられる結合確率を意味し、上記数８の右辺は、入力文
ｗ₁，ｗ₂，ｗ₃，…，ｗ_n、および、ｉ−１番目の単語ま
での品詞列ｔ₁，ｔ₂，…，ｔ_i-1が与えられたときのｉ
番目の品詞の確率をｉが１からｎまで積算することによ
り得られる確率を意味する。ここで、Πの記号はｉを２
からＮまで変化したときの積和を意味する。そして、文
脈に依存する属性をもちいて、決定木のリーフｌｅａｆ
（Ｌ）を導き、Ｌに関連した頻度確率分布を、ｐ_Lによ
り表現し、決定木の条件付き分布を用いて以下のように
近似する。

【００６７】

【数９】Ｌ_i≡文脈ｗ₁，ｗ₂，…，ｗ_N，ｔ₁，ｔ₂，…，
ｔ_i-1において導かれたリーフ

【数１０】ｐ（ｔ_i│ｗ₁，ｗ₂，…，ｗ_N，ｔ₁，ｔ₂，
…，ｔ_i-1）≒ｐ_Li（ｔ_i）

【００６８】上記数９における文脈ｗ₁，ｗ₂，…，
ｗ_N，ｔ₁，ｔ₂，…，ｔ_i-1は、ｉ番目の単語ｗ_iのもつ
文脈を意味する。また、数１０の左辺は、文脈ｗ₁，
ｗ₂，…，ｗ_N，ｔ₁，ｔ₂，…，ｔ_i-1の次に単語ｔ_iが来
る頻度確率又は出現確率を表し、それが、数１０の右辺
である、文脈Ｌ_iのもとで品詞ｔ_iをとる確率に近似でき
ることを意味する。従って、最大化すべき結合確率Ｐは
以下のようになる。

【００６９】

【数１１】

【００７０】上記数１１から明らかなように、結合確率
Ｐは、入力文の各単語での文脈に依存して得られる品詞
ｔ_iの確率の積で表される。さらに、入力文の各単語に
対する品詞付与処理においては、次の２段階の処理を行
なっている。（ａ）ＧＰＯＳの各品詞の頻度確率を計算する。（ｂ）ＧＰＯＳの各品詞に対応する決定木を用いて、品
詞の頻度確率を計算する。

【００７１】各語の頻度確率の計算では、それまでに得
られている可能性のある品詞列を全て考慮する必要があ
る。細かな品詞体系を扱う場合、探索範囲が膨大になる
ため、本システムでは、従来技術文献６「F.Jelinek,
“A fast sequential decodingalgorithm using a stac
k",IBM Journal of Research and Development,No.13,p
p.675-685,1969年」及び従来技術文献７「D.Paul,“Alg
orithms for an optimal a* search and linearizing t
he search in the stack decoder",Proceedingsof the
June 1990 DARPA Speech and Natural Language Work s
hop,1990年」において開示されたスタック・デコーダ・
アルゴリズムを用いて、頻度確率又は出現確率が最大と
なる品詞列を探索している。このアルゴリズムは、一種
のグラフサーチアルゴリズムであり、しきい値により一
時的に探索範囲を限定し、評価値の最も良いものを探す
ことができる。すなわち、各語に付与される可能性のあ
る複数の品詞から、最も頻度確率の高い品詞列を選択す
ることは、各品詞をノードとし隣接する単語に付与され
ているノードを連結したグラフの複数の経路から最適な
経路を探索することであり、スタック・デコーダ・アル
ゴリズムは、二分木形式で分割された木構造の経路にお
いて、複数のノードをスタック構造としてまとめて取り
扱い、スタック構造内で、探索範囲を変更することによ
り、最適な経路を、効率的に見い出すことができる。

【００７２】さらに、本実施形態においては、品詞付与
システムを拡張し、入力として、わかち書きされていな
い１文を、単語を含む形態素に分割しながら、各単語に
品詞を付与している。単語分割の分かち書きされていな
い１文に対しては、複数の分割の仕方が考えられる。例
えば、「わかりました」に対しては、３２通りの分割の
仕方がある。例えば、（ａ）「わかりました」（ｂ）「わ／かりました」（ｃ）「わか／りました」 …… （ｄ）「わ／か／り／ま／し／た」）そこで、入力された文を、１文字ずつ走査し、可能な単
語列を構成し、単語としての確率を計算する。入力文が
“Ｃ１Ｃ２Ｃ３…Ｃｎ”とすると、文字Ｃ１を読み込ん
だ時点で、１文字の単語としての確率を計算する。次
に、文字Ｃ２を読み込んだ時点で、文字Ｃ２を１文字の
単語として、２単語からなる状態と、Ｃ１Ｃ２の２文字
で１単語の状態の確率を計算する。次の文字Ｃ３を読み
込んだ時点は、文字Ｃ２までの２つの状態に対して、文
字Ｃ３が１文字の単語となる状態と、文字Ｃ３が文字Ｃ
２につながり、単語となる状態の確率を計算する。以
下、同様に複数の状態での確率を計算していくが、全て
の状態を計算していると、計算量が膨大になり、計算で
きなくなるので、スタックデコーダアルゴリズムを用い
て計算している。

【００７３】単語の確率を求めるための単語決定木の単
語の確率は、以下の特徴を用いた決定木により計算す
る。（ａ）綴の特徴（具体例としては、「カタカナのみで構
成されている。」、「“〜しい”という単語である。」
など。）、（ｂ）後続する文字の特徴（具体例としては、「後続文
字が漢字である。」、「後続文字が“は”である。」な
ど。）、（ｃ）前につながる品詞の特徴（特に、直前の品詞と
は、限定しない。）（具体例としては、「直前の品詞が
名詞である。」、「直前の品詞が句読点である。」、
「二つ前の品詞が助詞である。」など。）、並びに、（ｄ）単語の相互情報量を用いた階層的な分類。これらの特徴を用いて、学習データから、ある文字列が
単語である確率を学習する。単語の確率を得るために、
例えば、「支払い／は／どのように」では、次のよう
に、文字列と単語／非単語の組合わせを考え、単語分割
決定木を構築する。

【００７４】

【表７】 ────────────────────────── 支非単語支払非単語支払い単語は単語支払いは非単語はどの非単語支払いはど非単語はどの非単語支払いはどの非単語 ──────────────────────────

【００７５】図２は、図１の決定木学習装置１０によっ
て実行される品詞決定木学習処理を示すフローチャート
である。図２において、まず、ステップＳ１で構文解析
済みテキストデータメモリ２１に格納された構文解析済
み（品詞付与済み）の構文情報付き文からなるテキスト
データを読み出して、決定木学習装置１０内のＲＡＭに
書き込む。次いで、ステップＳ２で、各属性と品詞タグ
との組み合わせの頻度確率（上記ｐ（ｔａｇａｌｌ），
ｐ（ｔａｇＮ₁），ｐ（ｔａｇＮ₂）に対応する。）を計
算して決定木学習装置１０内のＲＡＭに書き込む。さら
に、ステップＳ３で決定木作成処理を実行することによ
り頻度確率付き品詞決定木を生成し、ステップＳ４で作
成された確率付き品詞決定木をメモリ２４に出力して格
納する。

【００７６】図３は、図１の決定木学習装置１０によっ
て実行される文法規則決定木学習処理（ステップＳ１１
−Ｓ１４）を示すフローチャートであり、図２の品詞決
定木学習処理と同様に実行される。図４は、図１の決定
木学習装置１０によって実行される処理方向決定木学習
処理（ステップＳ２１−Ｓ２４）を示すフローチャート
であり、図２の品詞決定木学習処理と同様に実行され
る。また、図５は、図１の決定木学習装置１０によって
実行される単語分割決定木学習処理（ステップＳ２６−
Ｓ２９）を示すフローチャートであり、図２の品詞決定
木学習処理と同様に実行される。ここで、処理方向と
は、文法規則付与処理における各パージング状態で処理
すべき方向であり、文法規則を付与する範囲となる処理
対象をどのように変更するかを限定するものである。こ
こで、パージング状態とは、図１６に示すように、構文
情報付与装置１１において部分的に解析された状態のこ
とをいい、現在の処理対象となるノード又は単語の情報
（具体的には、単語とその品詞情報、処理対象はどれ
か）を有する。また、ゴール状態は、最終的な構文解析
結果を入力する状態であり、一文を文としてまとめる文
法規則によりひとまとまりになったパージング状態であ
る。

【００７７】図６は、図２乃至図５のサブルーチンであ
る決定木作成処理（ステップＳ３，Ｓ１３，Ｓ２３，Ｓ
２８）を示すフローチャートである。まず、ステップＳ
３１ですべての各属性による分割後のエントロピーＨ
と、分割前のエントロピーＨ₀とをそれぞれ数４と数３
を用いて計算する。次いで、ステップＳ３２でエントロ
ピーの差（Ｈ₀−Ｈ）が最大の属性を分割候補の属性と
して選択し、ステップＳ３３で選択された属性について
分割続行判定基準を満足するか否かが判断される。ここ
で、分割続行判定基準とは、（Ｉ）選択された属性に基
づいて分割したときのエントロピーの差（Ｈ₀−Ｈ）が
所定のエントロピーしきい値Ｈｔｈ以上であり、かつ
（II）選択された属性に基づく分割後のイベント数が所
定のイベント数しきい値Ｄｔｈ以上であること。ステッ
プＳ３３で分割続行判定基準を満足するときは、ステッ
プＳ３４で、選択された属性の属性値により分割した２
つのノードを作成して、すなわち二分木の形式で分割し
て、決定木を更新する。そして、ステップＳ３５では、
上記作成した各ノードを処理対象として、ステップＳ３
１に戻り、ステップＳ３１からの処理を繰り返す。一
方、ステップＳ３３で分割続行判定基準を満足しないと
きは、元のメインルーチンに戻る。

【００７８】これらの決定木学習処理において作成され
た品詞決定木、文法規則決定木及び処理方向決定木の一
例を示す。ここで、入力されるテキストデータとして
は、「支払いをカードで」を用いると、構文情報付与装
置１１から出力される構文解析済みテキストデータとし
て、「［名詞句１支払い＿普通名詞を＿格助詞］
［名詞句１カード＿普通名詞で＿格助詞］」が出力
される。

【００７９】ここで、作成された頻度確率付き単語分割
決定木の一例を図１２に示す。図１２に示すように、当
該頻度確率付き単語決定木は、各属性１０１乃至１０５
で二分木の形式で分割された木構造を有し、最後のリー
フにおいて単語カテゴリー、すなわち単語／非単語の別
に対する頻度確率が付与されている。この例では、入力
文が「支払い／を／カード／で」であるときに、２０１
に示すように、単語“支払い”に対して単語カテゴリー
の「単語」が付与される一方、２０３に示すように、単
語“カード”に対して単語カテゴリーの「単語」が付与
されている。

【００８０】また、作成された頻度確率付き品詞決定木
の一例を図１３に示す。図１３に示すように、当該頻度
確率付き品詞決定木は、各属性３０１乃至３０５で二分
木の形式で分割された木構造を有し、最後のリーフにお
いて単語カテゴリー、すなわち単語／非単語の別に対す
る頻度確率が付与されている。この例では、入力文が
「支払い／を／カード／で」であるときに、４０１に示
すように、単語“支払い”に対して品詞カテゴリーの
「名詞」が付与される一方、４０３に示すように、単語
“カード”に対して品詞カテゴリーの「名詞」が付与さ
れている。

【００８１】上記例において作成された頻度確率付き文
法規則決定木の一例を図１４に示す。図１４に示すよう
に、当該頻度確率付き文法規則決定木は、各属性３０１
乃至３０５で二分木の形式で分割された木構造を有し、
最後のリーフにおいて各文法規則タグに対する頻度確率
が付与されている。この例では、入力文が“支払い／
を”のときに、リーフノードにおいて、文法タグ名詞句
（名詞と格助詞から構成される名詞句を意味する。）が
付与されている。

【００８２】上記例において作成された頻度確率付き処
理方向決定木の一例を図１５に示す。図１５に示すよう
に、当該頻度確率付き処理方向決定木は、各属性５０１
乃至５０５で二分木の形式で分割された木構造を有し、
最後のリーフにおいて各処理方向タグに対する頻度確率
が付与されている。この例では、入力文が“支払い／を
／カード／で”であるときに、リーフノードにおいて、
処理方向タグ「右」が付与されて、処理対象“支払い”
にその右にある“を”を加え、新たな処理対象“支払い
／を”とする処理が、また、処理対象“カード”にその
右にある“で”を加え、新たな処理対象“カード／で”
とする処理が行われ、文法付与決定木の処理が続けられ
る。

【００８３】図７は、図１の構文情報付与装置１１によ
って実行される構文情報付与処理を示すフローチャート
である。図７において、まず、ステップＳ４１で、確率
付き品詞決定木ファイルメモリ２５に格納された頻度確
率付き品詞決定木ファイルを読み出して、構文情報付与
装置１１内のＲＡＭに書き込み、確率付き文法規則決定
木ファイルメモリ２６に格納された頻度確率付き文法規
則決定木ファイルを読み出して、構文情報付与装置１１
内のＲＡＭに書き込み、確率付き処理方向決定木ファイ
ルメモリ２７に格納された頻度確率付き処理方向決定木
ファイルを読み出して、構文情報付与装置１１内のＲＡ
Ｍに書き込み、確率付き単語分割決定木ファイルメモリ
２８に格納された頻度確率付き単語分割決定木ファイル
を読み出して、構文情報付与装置１１内のＲＡＭに書き
込む。次いで、ステップＳ４２でテキストデータメモリ
３０に格納された解析対象のテキストデータを読み出し
て構文情報付与装置１１内のＲＡＭに書き込む。さら
に、ステップＳ４３で詳細後述する単語分割及び品詞付
与処理を実行して、単語分割された品詞付与済みテキス
トデータを生成し、次いで、ステップＳ４４で、ステッ
プＳ４３で生成された品詞付与済みテキストデータに対
して文法規則タグを付与するための文法規則付与処理を
実行することにより、構文解析済みテキストデータを生
成する。そして、ステップＳ４５で生成された構文解析
済みテキストデータを、構文解析済みテキストデータメ
モリ３１に出力して書き込む。

【００８４】図８及び図９は、図７のサブルーチンであ
る単語分割及び品詞付与処理（ステップＳ４３）を示す
フローチャートである。図８において、まず、ステップ
Ｓ５１で文頭の文字を対象文字とする。次いで、ステッ
プＳ５２で対象文字から単語候補を設定し、ステップＳ
５３で単語決定木のルートノードを処理対象のカレント
ノードとする。そして、ステップＳ５４でカレントノー
ドがリーフノードであるか否かが判断される。ステップ
Ｓ５４でＮＯであるときは、ステップＳ５５でカレント
ノードの属性値に基づいて子ノードをカレントノードと
して、ステップＳ５４に戻る。ステップＳ５４において
ＹＥＳであるときは、ステップＳ５６でリーフノードに
割り当てられた頻度確率リストの中で単語カテゴリーの
頻度確率を選択して単語候補に与える。

【００８５】次いで、ステップＳ５７で品詞決定木のル
ートノードを処理対象のカレントノードとする。そし
て、ステップＳ５８でカレントノードがリーフノードで
あるか否かが判断される。ステップＳ５８でＮＯである
ときは、ステップＳ５９でカレントノードの属性値に基
づいて対応する子ノードをカレントノードとしてステッ
プＳ５８に戻る。ステップＳ５８でＹＥＳであるとき
は、ステップＳ６０でリーフノードに割り当てられた頻
度確率リストの中で品詞カテゴリーの頻度確率を選択し
て単語候補に与える。そして、図９のステップＳ６１で
他の単語候補があるか否かが判断される。ステップＳ６
１で他の単語候補があるときはステップＳ５２に戻り、
上記の処理を繰り返す。ステップＳ６１でＮＯであると
きは、ステップＳ６２で、スタック・デコーダ・アルゴ
リズムに従って所定の結合確率以上の結合確率を有する
単語分割された品詞候補を限定する。そして、ステップ
Ｓ６３で次の文字があるか否かが判断される。ステップ
Ｓ６３で次の文字があるときは、ステップＳ６４で次の
文字を対象文字として、ステップＳ５２に戻り、上記の
処理を繰り返す。一方、ステップＳ６３で次の文字が無
いときはステップＳ６５で単語分割された単語と品詞の
組み合わせ列のうち結合確率の上位複数ｎ個を処理候補
として出力する。ここで、単語と品詞の組み合わせ列の
具体例としては、「支払い（名詞）を（格助詞）カード
（名詞）で（格助詞）」の通りである。以上で当該単語
及び品詞付与解析処理を終了する。

【００８６】図１０及び図１１は、図７のサブルーチン
である文法規則付与処理（ステップＳ４４）を示すフロ
ーチャートである。まず、図１０のステップＳ７０で単
語分割及び品詞付与処理後の上位ｎ個の処理候補のうち
最上位を処理対象とする。次いで、ステップＳ７１で、
文頭の単語を対象としたパージング状態を生成する。次
いで、ステップＳ７２で、処理方向決定の回数と、文法
規則決定の回数とによって決定されるスタックメモリ１
２内のスタックに直前に生成したパージング状態を追加
する。上記決定されるスタックとは、各パージング状態
を、記録しておくデータ構造を意味する。そして、ステ
ップＳ７３で、上述のスタック・デコーダ・アルゴリズ
ムに従って最大の結合確率を有するパージング状態を選
択し、ステップＳ６４で処理方向決定木を用いて処理方
向を決定する。ここで、処理方向が「右」であるとき
は、ステップＳ７５のＹＥＳを介してステップＳ７７で
次の単語を処理対象にしたパージング状態を生成した
後、ステップＳ７２に戻る。また、ステップＳ７４で処
理方向が「上」であるときは、ステップＳ７５及びＳ７
６を介して、ステップＳ７８で処理対象のノードに文法
規則決定木に従って文法規則タグを加えたパージング状
態を生成した後、図１１のステップＳ８１に進む。ここ
で、処理方向が「上」とは、現在の処理対象に対してス
テップＳ７８で、文法規則決定木に従った処理を行うこ
とを意味する。さらに、ステップＳ７４で処理方向が
「左」であるときは、ステップＳ７５及びＳ７６を介し
て、ステップＳ７９で処理対象のノードの範囲を左にの
ばして文法規則決定木に従って文法規則タグを加えたパ
ージング状態を生成した後、図１１のステップＳ８１に
進む。

【００８７】図１１のステップＳ８１において、処理し
ていない単語があるか否かが判断され、ＹＥＳのときは
図１０のステップＳ７２に戻る一方、ＮＯのときは、ス
テップＳ８２で文法規則が１つの文として成立している
か否かが判断され、ＮＯのときステップＳ８５で次の上
位の処理候補を処理対象として図１０のステップＳ７１
に戻る一方、ＹＥＳのときステップＳ８３に進む。ステ
ップＳ８３では、ゴール状態に現在のパージング状態を
追加し、ステップＳ８４で予め決められた一定数（例え
ば、上位Ｎ個の結果を得たい場合は、Ｎである。）のパ
ージング状態がゴール状態となったか否かが判断され、
ＮＯのとき図１０のステップＳ７２に戻る一方、ＹＥＳ
のとき当該文法規則付与処理を終了して元のメインルー
チンに戻る。

【００８８】以上の実施形態においては、予め決められ
た１つの文法規則体系で構文解析済みの学習用テキスト
データを用いているが、本発明はこれに限らず、他の文
法規則体系Ｇ１で解析された一定量のテキストデータが
ある場合、他の文法規則体系Ｇ１の情報を利用するよう
に構成してもよく、このとき、構文解析の精度を向上で
きる。ここで、利用する文法規則体系をＧ０とする。文
法規則体系Ｇ１の情報を利用するために、文法規則体系
Ｇ１で解析済テキストの一部を、文法規則体系Ｇ０で解
析したテキストを作成する。文法規則体系Ｇ０及びＧ１
双方で解析済の同じテキストデータを用いて、利用する
属性に、文法規則体系Ｇ１の文法の特徴を反映させた決
定木を学習する。文法規則体系Ｇ１の文法の特徴が反映
された決定木を用いて、文法規則体系Ｇ１で解析された
テキストを入力することにより、入力の豊富な情報を利
用した解析が可能となり、構文解析の精度を向上するこ
とができる。

【００８９】さらに、実施形態の変形例について説明す
る。図１７は、変形例の構文情報付与装置１１によって
実行される構文情報付与処理（実施形態の図７に対応す
る。）を示すフローチャートであり、図１８は、変形例
の構文情報付与装置１１における処理途中のパージング
状態及び処理方向の一例（実施形態の図１６に対応す
る。）を示すフロー図である。これまでに説明してきた
実施形態の処理では、１文に対して、単語分割、品詞付
与を１通り行い、その結果に対して、文法情報を付与す
る処理を行う手順を示している。上述のように、単語分
割、品詞付与、文法規則付与の順序関係は、何通りかの
可能性がある。当該変形例は、単語分割において１つ単
語と認識されると、品詞付与、文法規則付与を行い、処
理を進める。

【００９０】すなわち、変形例では、図１７に示すよう
に、ステップＳ４３とＳ４４で、単語分割で１つの単語
が認識されたときに、その単語に対して品詞付与と文法
規則付与を行い、ステップＳ４６からステップＳ４３及
びＳ４４までのループ処理により１つの単語毎に文末ま
で処理することを特徴としている。すなわち、変形例の
ステップＳ４３で単語分割及び品詞処理では、単語分割
及び品詞付与処理後の最上位の単語と品詞の組み合わせ
列（１組）を出力し、これに基づいてステップＳ４４で
は文法規則付与処理が実行されて、構文解析情報（文法
規則）を付与し、そして、それに続く単語について、ス
テップＳ４３とＳ４４の処理を、文末まで実行する。こ
れにより、入力される日本語の文全体について処理する
ことになる。

【００９１】具体的には、ステップＳ４３では、入力さ
れる日本語の単語列からなるテキストデータに基づい
て、上記生成された単語カテゴリーの頻度確率付き単語
分割決定木を用いて、上記単語分割決定木のリーフノー
ドに付与された単語カテゴリーの頻度確率の中で上位複
数ｎ個の頻度確率を選択して上記テキストデータの各単
語候補に対して付与するとともに、上記入力される単語
列からなるテキストデータに基づいて、上記生成された
品詞カテゴリーの頻度確率付き品詞決定木を用いて、上
記品詞決定木のリーフノードに付与された品詞カテゴリ
ーの頻度確率の中で上位複数ｎ個の頻度確率を選択して
上記テキストデータの先頭単語候補から１つずつの単語
候補に対して付与し、上記テキストデータの単語列にお
いて最上位の結合確率を有する単語分割された単語と品
詞の組み合わせの列を、処理候補として出力する。次い
で、ステップＳ４４では、出力される処理候補に対し
て、所定のスタック・デコーダ・アルゴリズムを用い
て、文法規則付与処理における各パージング状態での単
語列に対する結合確率が最大の結合確率を有するパージ
ング状態を選択した後、上記生成された頻度確率付き処
理方向決定木を用いて上記処理対象の単語列における処
理方向を決定し、決定された処理方向におけるパージン
グ状態において、上記生成された頻度確率付き文法規則
決定木に従って文法規則を上記処理対象の単語列に加え
ることにより構文解析情報を付与して構文解析済み単語
を出力する。そして、図１７に示すように、ステップＳ
４３とＳ４４の処理を、上記入力される単語列からなる
テキストデータの先頭から１つの単語候補ずつ、上記テ
キストデータの１文に対する構文解析済みテキストデー
タが得られるまで繰り返すようにステップＳ４６の処理
により制御する。

【００９２】なお、ステップＳ４３の処理では、好まし
くは、上記単語分割決定木のリーフノードに付与された
単語カテゴリーの頻度確率の中で上位複数ｎ個の頻度確
率を選択して上記テキストデータの単語候補に対して付
与し、かつ上記品詞付与決定木のリーフノードに付与さ
れた品詞カテゴリーの頻度確率の中で上位複数ｎ個の頻
度確率を選択して上記テキストデータの各単語候補に対
して付与した後、所定のスタック・デコーダ・アルゴリ
ズムに用いて、処理途中のテキストデータの単語列に対
する結合確率が所定の結合確率以上である単語と品詞の
組み合わせの列の処理候補のみを残して当該組み合わせ
の候補を限定し、当該処理終了時の上記テキストデータ
の単語列において最上位の結合確率を有する単語分割さ
れた単語と品詞の組み合わせの列を、処理候補として出
力する。

【００９３】当該変形例において、図１８では、実施形
態の図１６に比較して、ＰＳ７とＰＳ２７にみられるよ
うに、解析途中で適用できる文法規則を適宜付与するこ
とで、効率的に解析候補を絞り込むことができることを
特徴としている。

【００９４】上述のように、単語分割、品詞付与、文法
規則付与を実行する順序関係は、何通りかの可能性があ
り、一文に対して、単語分割、品詞付与を行ったのちに
文法規則を付与する場合、単語としては成立するが、文
としては成立しない単語あるいは品詞の並びが解析候補
として現れることがある。このような候補は、文法規則
の情報により絞り込まれ、最終的な解析候補になり得な
い。この候補は、文として成立しない単語あるいは品詞
の並びが解析候補として現れたときに文法規則の付与を
行うことで、解析候補から除外することができ、より可
能性のある単語、品詞を候補として残すことができる。
従って、当該変形例のごとく、単語分割において一つ単
語が認識されると、品詞付与、文法規則付与を行い、処
理を進めることにより、単語分割の情報だけでは絞り込
めない解析候補を、品詞の接続や文法規則の情報によ
り、各処理の途中段階で絞り込むことができるようにな
り効率的でかつ精度を向上させることができる。

【００９５】以上説明したように、本実施形態及び変形
例によれば、品詞の接続関係、語と品詞の関係、さら
に、離れた語あるいは品詞との依存関係を統計的に処理
するため、自動的に一意に高精度で品詞を付与でき、し
かも高精度で文法規則を付与することができ、高精度の
日本語構文解析システムを提供することができる。ま
た、辞書を用いずに、単語に品詞ラベルを割り当てるた
め、従来技術の問題となる未知語に対する特別な処理が
不必要である。さらに、構文解析済みテキストデータを
用いて学習を行なうため、多くの文法体系に対して柔軟
な対応ができる。さらには、自動的に詳細な構文情報を
付与することができるため、付与された構文情報を翻訳
システム、音声認識システム、又は情報検索システムに
利用することができる。また、詳細な情報を含む構文構
造付きデータを自動的に生成することができるため、構
文情報を付与したデータを大量に蓄えることができる。

【００９６】

【発明の効果】以上詳述したように本発明に係る請求項
１記載の日本語構文解析装置によれば、日本語の文字列
からなる構文解析済みテキストデータに基づいて、各単
語の綴りの特徴と、文章内の使われ方による特徴と、単
語の相互情報量を用いた階層的な分類とを含む複数の属
性を用いて、上記各属性の属性値に依存して分割される
ような二分木形式の木構造を有し品詞付与のための品詞
決定木を生成し、上記生成された品詞決定木の分割され
ないノードであるリーフノードに対して複数の品詞に対
する頻度確率を計算して付与することにより、品詞カテ
ゴリーの頻度確率付き品詞決定木を生成する第１の学習
手段と、上記テキストデータに基づいて、各単語の綴り
の特徴と、後続する文字の特徴と、前につながる品詞の
特徴と、単語の相互情報量を用いた階層的な分類とを含
む複数の属性を用いて、上記各属性の属性値に依存して
分割されるような二分木形式の木構造を有し単語分割の
ための単語分割決定木を生成し、上記生成された単語分
割決定木の分割されないノードであるリーフノードに対
して単語及び非単語に対する頻度確率を計算して付与す
ることにより、単語カテゴリーの頻度確率付き単語分割
決定木を生成する第２の学習手段と、上記テキストデー
タに基づいて、処理対象の単語の語数と、処理対象の主
辞単語の品詞、処理対象の直前の単語の品詞、単語の相
互情報量を用いた階層的な分類とを含む複数の属性を用
いて、上記各属性の属性値に依存して分割されるような
二分木形式の木構造を有し文法規則付与のための文法規
則決定木を生成し、上記生成された文法規則決定木の分
割されないノードであるリーフノードに対して複数の文
法規則に対する頻度確率を計算して付与することによ
り、頻度確率付き文法規則決定木を生成する第３の学習
手段と、上記テキストデータに基づいて、処理対象の単
語の語数と、処理対象の主辞単語の品詞、処理対象の直
前の単語の品詞、単語の相互情報量を用いた階層的な分
類とを含む複数の属性を用いて、上記各属性の属性値に
依存して分割されるような二分木形式の木構造を有し文
法規則付与処理における各パージング状態で処理方向を
決定するための処理方向決定木を生成し、上記生成され
た処理方向決定木の分割されないノードであるリーフノ
ードに対して複数の処理方向に対する頻度確率を計算し
て付与することにより、頻度確率付き処理方向決定木を
生成する第４の学習手段と、入力される日本語の文字列
からなるテキストデータに基づいて、上記第２の学習手
段によって生成された単語カテゴリーの頻度確率付き単
語分割決定木を用いて、上記単語分割決定木のリーフノ
ードに付与された単語カテゴリーの頻度確率の中で上位
複数ｎ個の頻度確率を選択して上記テキストデータの各
単語候補に対して付与するとともに、上記入力される文
字列からなるテキストデータに基づいて、上記第１の学
習手段によって生成された品詞カテゴリーの頻度確率付
き品詞決定木を用いて、上記品詞決定木のリーフノード
に付与された品詞カテゴリーの頻度確率の中で上位複数
ｎ個の頻度確率を選択して上記テキストデータの各単語
候補に対して付与し、上記テキストデータの単語候補列
において上位複数ｎ個の結合確率を有する単語分割され
た単語と品詞の組み合わせの列を、複数ｎ個の処理候補
として出力する第１の処理手段と、上記第１の処理手段
から出力される複数ｎ個の処理候補のうち、より上位の
処理候補から順次１つずつの処理候補に対して１つの文
として成立するまで、所定のスタック・デコーダ・アル
ゴリズムを用いて、文法規則付与処理における各パージ
ング状態での単語列に対する結合確率が最大の結合確率
を有するパージング状態を選択した後、上記第４の学習
手段によって生成された頻度確率付き処理方向決定木を
用いて上記処理対象の単語列における処理方向を決定
し、決定された処理方向におけるパージング状態におい
て、上記第３の学習手段によって生成された頻度確率付
き文法規則決定木に従って文法規則を上記処理対象の単
語列に加えることにより構文解析情報を付与して構文解
析済みテキストデータを出力する第２の処理手段とを備
える。従って、品詞の接続関係、語と品詞の関係、さら
に、離れた語あるいは品詞との依存関係を統計的に処理
するため、自動的に一意に高精度で品詞を付与でき、し
かも高精度で文法規則を付与することができ、高精度の
日本語構文解析装置を提供することができる。また、辞
書を用いずに、単語に品詞ラベルを割り当てるため、従
来技術の問題となる未知語に対する特別な処理が不必要
である。さらに、構文解析済みテキストデータを用いて
学習を行なうため、多くの文法体系に対して柔軟な対応
ができる。さらには、自動的に詳細な構文情報を付与す
ることができるため、付与された構文情報を翻訳システ
ム、音声認識システム、又は情報検索システムに利用す
ることができる。また、詳細な情報を含む構文構造付き
データを自動的に生成することができるため、構文情報
を付与したデータを大量に蓄えることができる。

【００９７】また、請求項２記載の日本語構文解析装置
によれば、請求項１記載の日本語構文解析装置におい
て、上記各決定木学習手段は、上記二分木の形式で分割
するときに、上記各属性による分割前の属性の有効性の
優先順位を表わすエントロピーＨ₀と分割後のエントロ
ピーＨとの差（Ｈ₀−Ｈ）が最大の属性を分割候補の属
性として選択し、所定の分割続行基準を満足するとき
に、二分木の形式で分割して決定木を更新することを特
徴とする。従って、上記各決定木の学習処理を従来例に
比較して効率的に実行することができる。

【００９８】さらに、請求項３記載の日本語構文解析装
置によれば、請求項２記載の日本語構文解析装置におい
て、上記分割続行基準は、（Ｉ）選択された属性に基づ
いて分割したときのエントロピーの差（Ｈ₀−Ｈ）が所
定のエントロピーしきい値Ｈｔｈ以上であり、かつ（I
I）選択された属性に基づく分割後の属性とその属性値
及び品詞の組のイベント数が所定のイベント数しきい値
Ｄｔｈ以上であることを特徴とする。従って、上記各決
定木の学習処理を従来例に比較して効率的に実行するこ
とができ、処理コストを低減できる。

【００９９】またさらに、請求項４記載の日本語構文解
析装置によれば、請求項１乃至３のうちの１つに記載の
日本語構文解析装置において、上記第１の処理手段は、
上記単語分割決定木のリーフノードに付与された単語カ
テゴリーの頻度確率の中で上位複数ｎ個の頻度確率を選
択して上記テキストデータの各単語候補に対して付与
し、かつ上記品詞付与決定木のリーフノードに付与され
た品詞カテゴリーの頻度確率の中で上位複数ｎ個の頻度
確率を選択して上記テキストデータの各単語候補に対し
て付与した後、所定のスタック・デコーダ・アルゴリズ
ムに用いて、処理途中のテキストデータの単語候補列に
対する結合確率が所定の結合確率以上である単語と品詞
の組み合わせの列の処理候補のみを残して当該組み合わ
せの候補を限定し、当該処理終了時の上記テキストデー
タの文字列において上位複数ｎ個の結合確率を有する単
語分割された単語と品詞の組み合わせの列を、複数ｎ個
の処理候補として出力する。従って、上記第１の処理手
段の処理を従来例に比較して効率的に実行することがで
き、処理コスト低減できる。

【０１００】本発明に係る請求項５記載の日本語構文解
析装置によれば、日本語の文字列からなる構文解析済み
テキストデータに基づいて、各単語の綴りの特徴と、文
章内の使われ方による特徴と、単語の相互情報量を用い
た階層的な分類とを含む複数の属性を用いて、上記各属
性の属性値に依存して分割されるような二分木形式の木
構造を有し品詞付与のための品詞決定木を生成し、上記
生成された品詞決定木の分割されないノードであるリー
フノードに対して複数の品詞に対する頻度確率を計算し
て付与することにより、品詞カテゴリーの頻度確率付き
品詞決定木を生成する第１の学習手段と、上記テキスト
データに基づいて、各単語の綴りの特徴と、後続する文
字の特徴と、前につながる品詞の特徴と、単語の相互情
報量を用いた階層的な分類とを含む複数の属性を用い
て、上記各属性の属性値に依存して分割されるような二
分木形式の木構造を有し単語分割のための単語分割決定
木を生成し、上記生成された単語分割決定木の分割され
ないノードであるリーフノードに対して単語及び非単語
に対する頻度確率を計算して付与することにより、単語
カテゴリーの頻度確率付き単語分割決定木を生成する第
２の学習手段と、上記テキストデータに基づいて、処理
対象の単語の語数と、処理対象の主辞単語の品詞、処理
対象の直前の単語の品詞、単語の相互情報量を用いた階
層的な分類とを含む複数の属性を用いて、上記各属性の
属性値に依存して分割されるような二分木形式の木構造
を有し文法規則付与のための文法規則決定木を生成し、
上記生成された文法規則決定木の分割されないノードで
あるリーフノードに対して複数の文法規則に対する頻度
確率を計算して付与することにより、頻度確率付き文法
規則決定木を生成する第３の学習手段と、上記テキスト
データに基づいて、処理対象の単語の語数と、処理対象
の主辞単語の品詞、処理対象の直前の単語の品詞、単語
の相互情報量を用いた階層的な分類とを含む複数の属性
を用いて、上記各属性の属性値に依存して分割されるよ
うな二分木形式の木構造を有し文法規則付与処理におけ
る各パージング状態で処理方向を決定するための処理方
向決定木を生成し、上記生成された処理方向決定木の分
割されないノードであるリーフノードに対して複数の処
理方向に対する頻度確率を計算して付与することによ
り、頻度確率付き処理方向決定木を生成する第４の学習
手段と、入力される日本語の文字列からなるテキストデ
ータに基づいて、上記第２の学習手段によって生成され
た単語カテゴリーの頻度確率付き単語分割決定木を用い
て、上記単語分割決定木のリーフノードに付与された単
語カテゴリーの頻度確率の中で上位複数ｎ個の頻度確率
を選択して上記テキストデータの各単語候補に対して付
与するとともに、上記入力される文字列からなるテキス
トデータに基づいて、上記第１の学習手段によって生成
された品詞カテゴリーの頻度確率付き品詞決定木を用い
て、上記品詞決定木のリーフノードに付与された品詞カ
テゴリーの頻度確率の中で上位複数ｎ個の頻度確率を選
択して上記テキストデータの先頭単語候補から１つずつ
の単語候補に対して付与し、上記テキストデータの単語
候補列において最上位の結合確率を有する単語分割され
た単語と品詞の組み合わせの列を、処理候補として出力
する第１の処理手段と、上記第１の処理手段から出力さ
れる処理候補に対して、所定のスタック・デコーダ・ア
ルゴリズムを用いて、文法規則付与処理における各パー
ジング状態での単語列に対する結合確率が最大の結合確
率を有するパージング状態を選択した後、上記第４の学
習手段によって生成された頻度確率付き処理方向決定木
を用いて上記処理対象の単語列における処理方向を決定
し、決定された処理方向におけるパージング状態におい
て、上記第３の学習手段によって生成された頻度確率付
き文法規則決定木に従って文法規則を上記処理対象の単
語列に加えることにより構文解析情報を付与して構文解
析済み単語を出力する第２の処理手段と、上記第１と第
２の処理手段の処理を、上記入力される文字列からなる
テキストデータの先頭から１つの単語候補ずつ、上記テ
キストデータの１文に対する構文解析済みテキストデー
タが得られるまで繰り返すように制御する第３の処理手
段とを備える。従って、品詞の接続関係、語と品詞の関
係、さらに、離れた語あるいは品詞との依存関係を統計
的に処理するため、自動的に一意に高精度で品詞を付与
でき、しかも高精度で文法規則を付与することができ、
高精度の日本語構文解析装置を提供することができる。
また、辞書を用いずに、単語に品詞ラベルを割り当てる
ため、従来技術の問題となる未知語に対する特別な処理
が不必要である。さらに、品詞を付与した構文解析済み
テキストデータを用いて学習を行なうため、多くの品詞
体系に対して柔軟な対応ができる。さらには、自動的に
詳細な構文情報を付与することができるため、付与され
た構文情報を翻訳システム、音声認識システム、又は情
報検索システムに利用することができる。また、詳細な
情報を含む構文構造付きデータを自動的に生成すること
ができるため、構文情報を付与したデータを大量に蓄え
ることができる。さらに、請求項１記載の日本語構文解
析装置に比較して、上記各処理を従来例に比較して効率
的に実行することができ、処理コスト低減でき、しかも
高精度で構文解析することができる。

【０１０１】また、請求項６記載の日本語構文解析装置
によれば、請求項５記載の日本語構文解析装置におい
て、上記各決定木学習手段は、上記二分木の形式で分割
するときに、上記各属性による分割前の属性の有効性の
優先順位を表わすエントロピーＨ₀と分割後のエントロ
ピーＨとの差（Ｈ₀−Ｈ）が最大の属性を分割候補の属
性として選択し、所定の分割続行基準を満足するとき
に、二分木の形式で分割して決定木を更新する。従っ
て、上記各決定木の学習処理を従来例に比較して効率的
に実行することができ、処理コスト低減できる。

【０１０２】さらに、請求項７記載の日本語構文解析装
置によれば、請求項６記載の日本語構文解析装置におい
て、上記分割続行基準は、（Ｉ）選択された属性に基づ
いて分割したときのエントロピーの差（Ｈ₀−Ｈ）が所
定のエントロピーしきい値Ｈｔｈ以上であり、かつ（I
I）選択された属性に基づく分割後の属性とその属性値
及び品詞の組のイベント数が所定のイベント数しきい値
Ｄｔｈ以上であることを特徴とする。従って、上記各決
定木の学習処理を従来例に比較して効率的に実行するこ
とができ、処理コスト低減できる。

【０１０３】またさらに、請求項８記載の日本語構文解
析装置によれば、請求項５乃至７のうちの１つに記載の
日本語構文解析装置において、上記第１の処理手段は、
上記単語分割決定木のリーフノードに付与された単語カ
テゴリーの頻度確率の中で上位複数ｎ個の頻度確率を選
択して上記テキストデータの単語候補に対して付与し、
かつ上記品詞付与決定木のリーフノードに付与された品
詞カテゴリーの頻度確率の中で上位複数ｎ個の頻度確率
を選択して上記テキストデータの各単語候補に対して付
与した後、所定のスタック・デコーダ・アルゴリズムに
用いて、処理途中のテキストデータの単語候補列に対す
る結合確率が所定の結合確率以上である単語と品詞の組
み合わせの列の処理候補のみを残して当該組み合わせの
候補を限定し、当該処理終了時の上記テキストデータの
文字列において最上位の結合確率を有する単語分割され
た単語と品詞の組み合わせの列を、処理候補として出力
する。従って、上記第１の処理手段の処理を従来例に比
較して効率的に実行することができ、処理コスト低減で
きる。

【図面の簡単な説明】

【図１】本発明に係る一実施形態である、決定木学習
装置１０及び構文情報付与装置１１を備えた日本語構文
解析システムのブロック図である。

【図２】図１の決定木学習装置１０によって実行され
る品詞決定木学習処理を示すフローチャートである。

【図３】図１の決定木学習装置１０によって実行され
る文法規則決定木学習処理を示すフローチャートであ
る。

【図４】図１の決定木学習装置１０によって実行され
る処理方向決定木学習処理を示すフローチャートであ
る。

【図５】図１の決定木学習装置１０によって実行され
る単語分割決定木学習処理を示すフローチャートであ
る。

【図６】図２乃至図５のサブルーチンである決定木作
成処理（ステップＳ３，Ｓ１３，Ｓ２３，Ｓ２８）を示
すフローチャートである。

【図７】図１の構文情報付与装置１１によって実行さ
れる構文情報付与処理を示すフローチャートである。

【図８】図７のサブルーチンである単語分割及び品詞
付与処理（ステップＳ４３）の第１の部分を示すフロー
チャートである。

【図９】図７のサブルーチンである単語分割及び品詞
付与処理（ステップＳ４３）の第２の部分を示すフロー
チャートである。

【図１０】図７のサブルーチンである文法規則付与処
理（ステップＳ４４）の第１の部分を示すフローチャー
トである。

【図１１】図７のサブルーチンである文法規則付与処
理（ステップＳ４４）の第２の部分を示すフローチャー
トである。

【図１２】図１の決定木学習装置１０によって作成さ
れた単語分割決定木ファイルメモリ２８内の単語分割決
定木の一例を示す図である。

【図１３】図１の決定木学習装置１０によって作成さ
れた品詞決定木ファイルメモリ２５内の品詞決定木の一
例を示す図である。

【図１４】図１の決定木学習装置１０によって作成さ
れた文法規則決定木ファイルメモリ２６内の文法規則決
定木の一例を示す図である。

【図１５】図１の決定木学習装置１０によって作成さ
れた処理方法決定木ファイルメモリ２７内の処理方向決
定木の一例を示す図である。

【図１６】図１の構文情報付与装置１１における処理
途中のパージング状態及び処理方向の一例を示すフロー
図である。

【図１７】変形例の構文情報付与装置１１によって実
行される構文情報付与処理を示すフローチャートであ
る。

【図１８】変形例の構文情報付与装置１１における処
理途中のパージング状態及び処理方向の一例を示すフロ
ー図である。

【符号の説明】

１０…決定木学習装置、１１…構文情報付与装置、２１…構文解析済みテキストデータメモリ、２２…属性リストメモリ、２３…品詞リストメモリ、２４…文法規則リストメモリ、２５…品詞決定木ファイルメモリ、２６…文法規則決定木ファイルメモリ、２７…処理方向決定木ファイルメモリ、２８…単語分割決定木ファイルメモリ、２９…単語リストメモリ、３０…テキストデータメモリ、３１…構文解析済みテキストデータメモリ。

Claims

【特許請求の範囲】

【請求項１】日本語の文字列からなる構文解析済みテ
キストデータに基づいて、各単語の綴りの特徴と、文章
内の使われ方による特徴と、単語の相互情報量を用いた
階層的な分類とを含む複数の属性を用いて、上記各属性
の属性値に依存して分割されるような二分木形式の木構
造を有し品詞付与のための品詞決定木を生成し、上記生
成された品詞決定木の分割されないノードであるリーフ
ノードに対して複数の品詞に対する頻度確率を計算して
付与することにより、品詞カテゴリーの頻度確率付き品
詞決定木を生成する第１の学習手段と、上記テキストデータに基づいて、各単語の綴りの特徴
と、後続する文字の特徴と、前につながる品詞の特徴
と、単語の相互情報量を用いた階層的な分類とを含む複
数の属性を用いて、上記各属性の属性値に依存して分割
されるような二分木形式の木構造を有し単語分割のため
の単語分割決定木を生成し、上記生成された単語分割決
定木の分割されないノードであるリーフノードに対して
単語及び非単語に対する頻度確率を計算して付与するこ
とにより、単語カテゴリーの頻度確率付き単語分割決定
木を生成する第２の学習手段と、上記テキストデータに基づいて、処理対象の単語の語数
と、処理対象の主辞単語の品詞、処理対象の直前の単語
の品詞、単語の相互情報量を用いた階層的な分類とを含
む複数の属性を用いて、上記各属性の属性値に依存して
分割されるような二分木形式の木構造を有し文法規則付
与のための文法規則決定木を生成し、上記生成された文
法規則決定木の分割されないノードであるリーフノード
に対して複数の文法規則に対する頻度確率を計算して付
与することにより、頻度確率付き文法規則決定木を生成
する第３の学習手段と、上記テキストデータに基づいて、処理対象の単語の語数
と、処理対象の主辞単語の品詞、処理対象の直前の単語
の品詞、単語の相互情報量を用いた階層的な分類とを含
む複数の属性を用いて、上記各属性の属性値に依存して
分割されるような二分木形式の木構造を有し文法規則付
与処理における各パージング状態で処理方向を決定する
ための処理方向決定木を生成し、上記生成された処理方
向決定木の分割されないノードであるリーフノードに対
して複数の処理方向に対する頻度確率を計算して付与す
ることにより、頻度確率付き処理方向決定木を生成する
第４の学習手段と、入力される日本語の文字列からなるテキストデータに基
づいて、上記第２の学習手段によって生成された単語カ
テゴリーの頻度確率付き単語分割決定木を用いて、上記
単語分割決定木のリーフノードに付与された単語カテゴ
リーの頻度確率の中で上位複数ｎ個の頻度確率を選択し
て上記テキストデータの各単語候補に対して付与すると
ともに、上記入力される文字列からなるテキストデータ
に基づいて、上記第１の学習手段によって生成された品
詞カテゴリーの頻度確率付き品詞決定木を用いて、上記
品詞決定木のリーフノードに付与された品詞カテゴリー
の頻度確率の中で上位複数ｎ個の頻度確率を選択して上
記テキストデータの各単語候補に対して付与し、上記テ
キストデータの単語候補列において上位複数ｎ個の結合
確率を有する単語分割された単語と品詞の組み合わせの
列を、複数ｎ個の処理候補として出力する第１の処理手
段と、上記第１の処理手段から出力される複数ｎ個の処理候補
のうち、より上位の処理候補から順次１つずつの処理候
補に対して１つの文として成立するまで、所定のスタッ
ク・デコーダ・アルゴリズムを用いて、文法規則付与処
理における各パージング状態での単語列に対する結合確
率が最大の結合確率を有するパージング状態を選択した
後、上記第４の学習手段によって生成された頻度確率付
き処理方向決定木を用いて上記処理対象の単語列におけ
る処理方向を決定し、決定された処理方向におけるパー
ジング状態において、上記第３の学習手段によって生成
された頻度確率付き文法規則決定木に従って文法規則を
上記処理対象の単語列に加えることにより構文解析情報
を付与して構文解析済みテキストデータを出力する第２
の処理手段とを備えたことを特徴とする日本語構文解析
装置。
【請求項２】上記各決定木学習手段は、上記二分木の
形式で分割するときに、上記各属性による分割前の属性
の有効性の優先順位を表わすエントロピーＨ₀と分割後
のエントロピーＨとの差（Ｈ₀−Ｈ）が最大の属性を分
割候補の属性として選択し、所定の分割続行基準を満足
するときに、二分木の形式で分割して決定木を更新する
ことを特徴とする請求項１記載の日本語構文解析装置。
【請求項３】上記分割続行基準は、（Ｉ）選択された
属性に基づいて分割したときのエントロピーの差（Ｈ₀
−Ｈ）が所定のエントロピーしきい値Ｈｔｈ以上であ
り、かつ（II）選択された属性に基づく分割後の属性と
その属性値及び品詞の組のイベント数が所定のイベント
数しきい値Ｄｔｈ以上であることを特徴とする請求項２
記載の日本語構文解析装置。
【請求項４】上記第１の処理手段は、上記単語分割決
定木のリーフノードに付与された単語カテゴリーの頻度
確率の中で上位複数ｎ個の頻度確率を選択して上記テキ
ストデータの各単語候補に対して付与し、かつ上記品詞
付与決定木のリーフノードに付与された品詞カテゴリー
の頻度確率の中で上位複数ｎ個の頻度確率を選択して上
記テキストデータの各単語候補に対して付与した後、所
定のスタック・デコーダ・アルゴリズムに用いて、処理
途中のテキストデータの単語候補列に対する結合確率が
所定の結合確率以上である単語と品詞の組み合わせの列
の処理候補のみを残して当該組み合わせの候補を限定
し、当該処理終了時の上記テキストデータの文字列にお
いて上位複数ｎ個の結合確率を有する単語分割された単
語と品詞の組み合わせの列を、複数ｎ個の処理候補とし
て出力することを特徴とする請求項１乃至３のうちの１
つに記載の日本語構文解析装置。
【請求項５】日本語の文字列からなる構文解析済みテ
キストデータに基づいて、各単語の綴りの特徴と、文章
内の使われ方による特徴と、単語の相互情報量を用いた
階層的な分類とを含む複数の属性を用いて、上記各属性
の属性値に依存して分割されるような二分木形式の木構
造を有し品詞付与のための品詞決定木を生成し、上記生
成された品詞決定木の分割されないノードであるリーフ
ノードに対して複数の品詞に対する頻度確率を計算して
付与することにより、品詞カテゴリーの頻度確率付き品
詞決定木を生成する第１の学習手段と、上記テキストデータに基づいて、各単語の綴りの特徴
と、後続する文字の特徴と、前につながる品詞の特徴
と、単語の相互情報量を用いた階層的な分類とを含む複
数の属性を用いて、上記各属性の属性値に依存して分割
されるような二分木形式の木構造を有し単語分割のため
の単語分割決定木を生成し、上記生成された単語分割決
定木の分割されないノードであるリーフノードに対して
単語及び非単語に対する頻度確率を計算して付与するこ
とにより、単語カテゴリーの頻度確率付き単語分割決定
木を生成する第２の学習手段と、上記テキストデータに基づいて、処理対象の単語の語数
と、処理対象の主辞単語の品詞、処理対象の直前の単語
の品詞、単語の相互情報量を用いた階層的な分類とを含
む複数の属性を用いて、上記各属性の属性値に依存して
分割されるような二分木形式の木構造を有し文法規則付
与のための文法規則決定木を生成し、上記生成された文
法規則決定木の分割されないノードであるリーフノード
に対して複数の文法規則に対する頻度確率を計算して付
与することにより、頻度確率付き文法規則決定木を生成
する第３の学習手段と、上記テキストデータに基づいて、処理対象の単語の語数
と、処理対象の主辞単語の品詞、処理対象の直前の単語
の品詞、単語の相互情報量を用いた階層的な分類とを含
む複数の属性を用いて、上記各属性の属性値に依存して
分割されるような二分木形式の木構造を有し文法規則付
与処理における各パージング状態で処理方向を決定する
ための処理方向決定木を生成し、上記生成された処理方
向決定木の分割されないノードであるリーフノードに対
して複数の処理方向に対する頻度確率を計算して付与す
ることにより、頻度確率付き処理方向決定木を生成する
第４の学習手段と、入力される日本語の文字列からなるテキストデータに基
づいて、上記第２の学習手段によって生成された単語カ
テゴリーの頻度確率付き単語分割決定木を用いて、上記
単語分割決定木のリーフノードに付与された単語カテゴ
リーの頻度確率の中で上位複数ｎ個の頻度確率を選択し
て上記テキストデータの各単語候補に対して付与すると
ともに、上記入力される文字列からなるテキストデータ
に基づいて、上記第１の学習手段によって生成された品
詞カテゴリーの頻度確率付き品詞決定木を用いて、上記
品詞決定木のリーフノードに付与された品詞カテゴリー
の頻度確率の中で上位複数ｎ個の頻度確率を選択して上
記テキストデータの先頭単語候補から１つずつの単語候
補に対して付与し、上記テキストデータの単語候補列に
おいて最上位の結合確率を有する単語分割された単語と
品詞の組み合わせの列を、処理候補として出力する第１
の処理手段と、上記第１の処理手段から出力される処理候補に対して、
所定のスタック・デコーダ・アルゴリズムを用いて、文
法規則付与処理における各パージング状態での単語列に
対する結合確率が最大の結合確率を有するパージング状
態を選択した後、上記第４の学習手段によって生成され
た頻度確率付き処理方向決定木を用いて上記処理対象の
単語列における処理方向を決定し、決定された処理方向
におけるパージング状態において、上記第３の学習手段
によって生成された頻度確率付き文法規則決定木に従っ
て文法規則を上記処理対象の単語列に加えることにより
構文解析情報を付与して構文解析済み単語を出力する第
２の処理手段と、上記第１と第２の処理手段の処理を、上記入力される文
字列からなるテキストデータの先頭から１つの単語候補
ずつ、上記テキストデータの１文に対する構文解析済み
テキストデータが得られるまで繰り返すように制御する
第３の処理手段とを備えたことを特徴とする日本語構文
解析装置。
【請求項６】上記各決定木学習手段は、上記二分木の
形式で分割するときに、上記各属性による分割前の属性
の有効性の優先順位を表わすエントロピーＨ₀と分割後
のエントロピーＨとの差（Ｈ₀−Ｈ）が最大の属性を分
割候補の属性として選択し、所定の分割続行基準を満足
するときに、二分木の形式で分割して決定木を更新する
ことを特徴とする請求項５記載の日本語構文解析装置。
【請求項７】上記分割続行基準は、（Ｉ）選択された
属性に基づいて分割したときのエントロピーの差（Ｈ₀
−Ｈ）が所定のエントロピーしきい値Ｈｔｈ以上であ
り、かつ（II）選択された属性に基づく分割後の属性と
その属性値及び品詞の組のイベント数が所定のイベント
数しきい値Ｄｔｈ以上であることを特徴とする請求項６
記載の日本語構文解析装置。
【請求項８】上記第１の処理手段は、上記単語分割決
定木のリーフノードに付与された単語カテゴリーの頻度
確率の中で上位複数ｎ個の頻度確率を選択して上記テキ
ストデータの単語候補に対して付与し、かつ上記品詞付
与決定木のリーフノードに付与された品詞カテゴリーの
頻度確率の中で上位複数ｎ個の頻度確率を選択して上記
テキストデータの各単語候補に対して付与した後、所定
のスタック・デコーダ・アルゴリズムに用いて、処理途
中のテキストデータの単語候補列に対する結合確率が所
定の結合確率以上である単語と品詞の組み合わせの列の
処理候補のみを残して当該組み合わせの候補を限定し、
当該処理終了時の上記テキストデータの文字列において
最上位の結合確率を有する単語分割された単語と品詞の
組み合わせの列を、処理候補として出力することを特徴
とする請求項５乃至７のうちの１つに記載の日本語構文
解析装置。