JPH11272665A - 日本語構文解析装置 - Google Patents

日本語構文解析装置

Info

Publication number
JPH11272665A
JPH11272665A JP10072037A JP7203798A JPH11272665A JP H11272665 A JPH11272665 A JP H11272665A JP 10072037 A JP10072037 A JP 10072037A JP 7203798 A JP7203798 A JP 7203798A JP H11272665 A JPH11272665 A JP H11272665A
Authority
JP
Japan
Prior art keywords
word
speech
decision tree
processing
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10072037A
Other languages
English (en)
Other versions
JP3035261B2 (ja
Inventor
Hidenori Kashioka
秀紀 柏岡
W Black Ezura
エズラ・ダブリュー・ブラック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK, ATR Interpreting Telecommunications Research Laboratories filed Critical ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
Priority to JP10072037A priority Critical patent/JP3035261B2/ja
Publication of JPH11272665A publication Critical patent/JPH11272665A/ja
Application granted granted Critical
Publication of JP3035261B2 publication Critical patent/JP3035261B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 品詞付与のための辞書を用いることなく、従
来例に比較して正確に自動的に品詞を付与することがで
き、しかも素性構造付き文脈自由文法などの日本語の詳
細な構文構造の情報を付与する。 【解決手段】 決定木学習装置10は、構文解析済みテ
キストデータに基づいて、所定の複数の属性を用いて、
各属性の属性値に依存して分割されるような二分木形式
の木構造をそれぞれ有する、品詞付与のための品詞決定
木、文法規則付与のための文法規則決定木、処理方向決
定木、単語分割のための単語分割決定木を生成し、非分
割ノードのリーフノードに対して各複数のカテゴリーに
対する頻度確率を計算して付与し頻度確率付き各決定木
を生成する。構文情報付与装置11は、各決定木を用い
て、入力される日本語のテキストデータに対して最大の
結合確率を有する品詞列を得るように品詞を付与しかつ
構文情報を付与する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字列を含む日本
語の文章のテキストデータに対して、構文構造決定用の
確率付き決定木を用いて、構文構造を自動的に付与する
日本語構文解析装置に関する。
【0002】
【従来の技術】従来、比較的精度のよい品詞付与システ
ム(以下、第1の従来例という。)が、従来技術文献1
「E.Brill et al.,“Some Advances in Transformation
--Based Part of Speech Tagging",Proceedings of the
Twelfth National Conferenceon Artificial Intellig
ence,pp.722-727,AAAI,1994年」及び従来技術文献2
「B.Merialdo et al.,“Tagging English Text with a
Probabilistic Model",Computational Linguistics,20-
2,pp.155-171,1994年」において報告されている。この
従来例の品詞付与システムにおいては、単語表記とその
表記のとる品詞ラベルの組を記述した、品詞付与のため
の辞書を参照することによりテキストデータに対して品
詞を付与している。
【0003】この第1の従来例の品詞付与システムにお
いては、辞書を用いて品詞を付与しているために、辞書
項目に記載されていない未知語に対する品詞付与は難し
く、また、単語と品詞ラベルとの未知の組合せに対する
処理は難しいという問題点があった。さらに、使われる
品詞体系の変更により辞書のメンテナンスを行う必要が
あるという問題点があった。また、辞書を使用しない
で、ヒューリスティックスにより(発見的に又は経験的
に)単語に対する品詞ラベルを割り当てている品詞付与
装置もあるが、品詞付与の正解率は比較的低いという問
題点があった。
【0004】以上の問題点を解決するために、本特許出
願人は、特願平8−232993号の特許出願におい
て、品詞付与のための辞書を用いることなく、第1の従
来例に比較して正確に自動的に付与することができる品
詞付与装置(以下、第2の従来例という。)を開示して
いる。この第2の従来例の品詞付与装置は、(a)単語
列からなる品詞付与済みテキストデータに基づいて、各
単語の綴りの特徴と、文章内の使われ方による特徴と、
単語の相互情報量を用いた階層的な分類とを含む複数の
属性を用いて、上記各属性の属性値に依存して分割され
るような二分木形式の木構造を有し品詞付与のための決
定木を生成し、上記生成された決定木の分割されないノ
ードであるリーフノードに対して複数の品詞に対する頻
度確率を計算して付与することにより、頻度確率付き決
定木を生成する決定木学習手段と、(b)上記決定木学
習手段によって生成された頻度確率付き決定木を用い
て、入力される単語列からなるテキストデータに基づい
て、上記リーフノードに付与された頻度確率の中で上位
複数n個の頻度確率を選択して上記テキストデータの各
単語に対して付与し、上記テキストデータの単語列にお
いて最大の結合確率を有する品詞列を正解品詞列として
決定して出力する品詞付与手段とを備えたことを特徴と
している。
【0005】さらに、英語構文解析装置として、従来技
術文献3「M.J.Collins,“A new statistical parser b
ased on bigram lexical dependencies",the 34th Annu
al Meeting of ACL Proceedings,1996年」において、構
文構造が付与されたテキストデータから主要語のバイグ
ラムの統計情報を学習し、構文解析を行うこと(以下、
第3の従来例という。)が開示されている。しかしなが
ら、第3の従来例では、素性構造付き文脈自由文法など
の詳細な構文構造の情報を付与することはできないとい
う問題点があった。
【0006】以上の問題点を解決するために、本特許出
願人は、特願平9−218522号の特許出願におい
て、品詞付与のための辞書を用いることなく、第3の従
来例に比較して正確に自動的に品詞を付与することがで
き、しかも素性構造付き文脈自由文法などの詳細な構文
構造の情報を付与することができる構文解析装置(以
下、第4の従来例という。)を提案している。この第3
の従来例の構文解析装置は、(a)単語列からなる構文
解析済みテキストデータに基づいて、各単語の綴りの特
徴と、文章内の使われ方による特徴と、単語の相互情報
量を用いた階層的な分類とを含む複数の属性を用いて、
上記各属性の属性値に依存して分割されるような二分木
形式の木構造を有し品詞付与のための品詞決定木を生成
し、上記生成された品詞決定木の分割されないノードで
あるリーフノードに対して複数の品詞に対する頻度確率
を計算して付与することにより、頻度確率付き品詞決定
木を生成する品詞決定木学習手段と、(b)単語列から
なる構文解析済みテキストデータに基づいて、処理対象
の単語の語数と、処理対象の主辞単語の品詞、処理対象
の直前の単語の品詞、単語の相互情報量を用いた階層的
な分類とを含む複数の属性を用いて、上記各属性の属性
値に依存して分割されるような二分木形式の木構造を有
し文法規則付与のための文法規則決定木を生成し、上記
生成された文法規則決定木の分割されないノードである
リーフノードに対して複数の文法規則に対する頻度確率
を計算して付与することにより、頻度確率付き文法規則
決定木を生成する文法規則決定木学習手段と、(c)単
語列からなる構文解析済みテキストデータに基づいて、
処理対象の単語の語数と、処理対象の主辞単語の品詞、
処理対象の直前の単語の品詞、単語の相互情報量を用い
た階層的な分類とを含む複数の属性を用いて、上記各属
性の属性値に依存して分割されるような二分木形式の木
構造を有し文法規則付与処理における各パージング状態
で処理方向を決定するための処理方向決定木を生成し、
上記生成された処理方向決定木の分割されないノードで
あるリーフノードに対して複数の処理方向に対する頻度
確率を計算して付与することにより、頻度確率付き処理
方向決定木を生成する処理方向決定木学習手段と、
(d)上記品詞決定木学習手段によって生成された頻度
確率付き品詞決定木を用いて、入力される処理対象の単
語列からなるテキストデータに基づいて、上記リーフノ
ードに付与された頻度確率の中で上位複数n個の頻度確
率を選択して上記テキストデータの各単語に対して付与
し、上記テキストデータの単語列において最大の結合確
率を有する品詞列を正解品詞列として決定し、次いで、
所定のスタック・デコーダ・アルゴリズムを用いて、文
法規則付与処理における各パージング状態での単語列に
対する結合確率が最大の結合確率を有するパージング状
態を選択した後、上記処理方向決定木学習手段によって
生成された頻度確率付き処理方向決定木を用いて上記処
理対象の単語列における処理方向を決定し、決定された
処理方向におけるパージング状態において、上記文法規
則決定木学習手段によって生成された頻度確率付き文法
規則決定木に従って文法規則を上記処理対象の単語列に
加えることにより構文解析情報を付与して構文解析済み
テキストデータを出力する構文情報付与手段とを備えた
ことを特徴としている。
【0007】
【発明が解決しようとする課題】しかしながら、上記第
4の従来例の英語の構文解析装置においては、英語の構
文解析であるので、単語の区切りが空白文字を手がかり
として、比較的簡単な規則により判断できる。しかしな
がら、日本語では、単語の区切りを見いだすことが困難
である。そのため、単語区切りの情報が付与されている
状態から解析を行っている英語構文解析を日本語の構文
解析に用いるには、単語の区切りを判断する機構が必要
であり、従来の英語構文解析機構では処理できない。
【0008】本発明の目的は、日本語の品詞付与のため
の辞書を用いることなく、第4の従来例に比較して正確
に自動的に品詞を付与することができ、しかも素性構造
付き文脈自由文法などの詳細な構文構造の情報を付与す
ることができる日本語構文解析装置を提供することにあ
る。
【0009】
【課題を解決するための手段】本発明に係る請求項1記
載の日本語構文解析装置は、日本語の文字列からなる構
文解析済みテキストデータに基づいて、各単語の綴りの
特徴と、文章内の使われ方による特徴と、単語の相互情
報量を用いた階層的な分類とを含む複数の属性を用い
て、上記各属性の属性値に依存して分割されるような二
分木形式の木構造を有し品詞付与のための品詞決定木を
生成し、上記生成された品詞決定木の分割されないノー
ドであるリーフノードに対して複数の品詞に対する頻度
確率を計算して付与することにより、品詞カテゴリーの
頻度確率付き品詞決定木を生成する第1の学習手段と、
上記テキストデータに基づいて、各単語の綴りの特徴
と、後続する文字の特徴と、前につながる品詞の特徴
と、単語の相互情報量を用いた階層的な分類とを含む複
数の属性を用いて、上記各属性の属性値に依存して分割
されるような二分木形式の木構造を有し単語分割のため
の単語分割決定木を生成し、上記生成された単語分割決
定木の分割されないノードであるリーフノードに対して
単語及び非単語に対する頻度確率を計算して付与するこ
とにより、単語カテゴリーの頻度確率付き単語分割決定
木を生成する第2の学習手段と、上記テキストデータに
基づいて、処理対象の単語の語数と、処理対象の主辞単
語の品詞、処理対象の直前の単語の品詞、単語の相互情
報量を用いた階層的な分類とを含む複数の属性を用い
て、上記各属性の属性値に依存して分割されるような二
分木形式の木構造を有し文法規則付与のための文法規則
決定木を生成し、上記生成された文法規則決定木の分割
されないノードであるリーフノードに対して複数の文法
規則に対する頻度確率を計算して付与することにより、
頻度確率付き文法規則決定木を生成する第3の学習手段
と、上記テキストデータに基づいて、処理対象の単語の
語数と、処理対象の主辞単語の品詞、処理対象の直前の
単語の品詞、単語の相互情報量を用いた階層的な分類と
を含む複数の属性を用いて、上記各属性の属性値に依存
して分割されるような二分木形式の木構造を有し文法規
則付与処理における各パージング状態で処理方向を決定
するための処理方向決定木を生成し、上記生成された処
理方向決定木の分割されないノードであるリーフノード
に対して複数の処理方向に対する頻度確率を計算して付
与することにより、頻度確率付き処理方向決定木を生成
する第4の学習手段と、入力される日本語の文字列から
なるテキストデータに基づいて、上記第2の学習手段に
よって生成された単語カテゴリーの頻度確率付き単語分
割決定木を用いて、上記単語分割決定木のリーフノード
に付与された単語カテゴリーの頻度確率の中で上位複数
n個の頻度確率を選択して上記テキストデータの各単語
候補に対して付与するとともに、上記入力される文字列
からなるテキストデータに基づいて、上記第1の学習手
段によって生成された品詞カテゴリーの頻度確率付き品
詞決定木を用いて、上記品詞決定木のリーフノードに付
与された品詞カテゴリーの頻度確率の中で上位複数n個
の頻度確率を選択して上記テキストデータの各単語候補
に対して付与し、上記テキストデータの単語候補列にお
いて上位複数n個の結合確率を有する単語分割された単
語と品詞の組み合わせの列を、複数n個の処理候補とし
て出力する第1の処理手段と、上記第1の処理手段から
出力される複数n個の処理候補のうち、より上位の処理
候補から順次1つずつの処理候補に対して1つの文とし
て成立するまで、所定のスタック・デコーダ・アルゴリ
ズムを用いて、文法規則付与処理における各パージング
状態での単語列に対する結合確率が最大の結合確率を有
するパージング状態を選択した後、上記第4の学習手段
によって生成された頻度確率付き処理方向決定木を用い
て上記処理対象の単語列における処理方向を決定し、決
定された処理方向におけるパージング状態において、上
記第3の学習手段によって生成された頻度確率付き文法
規則決定木に従って文法規則を上記処理対象の単語列に
加えることにより構文解析情報を付与して構文解析済み
テキストデータを出力する第2の処理手段とを備えたこ
とを特徴とする。
【0010】また、請求項2記載の日本語構文解析装置
は、請求項1記載の日本語構文解析装置において、上記
各決定木学習手段は、上記二分木の形式で分割するとき
に、上記各属性による分割前の属性の有効性の優先順位
を表わすエントロピーH0と分割後のエントロピーHと
の差(H0−H)が最大の属性を分割候補の属性として
選択し、所定の分割続行基準を満足するときに、二分木
の形式で分割して決定木を更新することを特徴とする。
【0011】さらに、請求項3記載の日本語構文解析装
置は、請求項2記載の日本語構文解析装置において、上
記分割続行基準は、(I)選択された属性に基づいて分
割したときのエントロピーの差(H0−H)が所定のエ
ントロピーしきい値Hth以上であり、かつ(II)選択
された属性に基づく分割後の属性とその属性値及び品詞
の組のイベント数が所定のイベント数しきい値Dth以
上であることを特徴とする。
【0012】またさらに、請求項4記載の日本語構文解
析装置は、請求項1乃至3のうちの1つに記載の日本語
構文解析装置において、上記第1の処理手段は、上記単
語分割決定木のリーフノードに付与された単語カテゴリ
ーの頻度確率の中で上位複数n個の頻度確率を選択して
上記テキストデータの各単語候補に対して付与し、かつ
上記品詞付与決定木のリーフノードに付与された品詞カ
テゴリーの頻度確率の中で上位複数n個の頻度確率を選
択して上記テキストデータの各単語候補に対して付与し
た後、所定のスタック・デコーダ・アルゴリズムに用い
て、処理途中のテキストデータの単語候補列に対する結
合確率が所定の結合確率以上である単語と品詞の組み合
わせの列の処理候補のみを残して当該組み合わせの候補
を限定し、当該処理終了時の上記テキストデータの文字
列において上位複数n個の結合確率を有する単語分割さ
れた単語と品詞の組み合わせの列を、複数n個の処理候
補として出力することを特徴とする。
【0013】本発明に係る請求項5記載の日本語構文解
析装置は、日本語の文字列からなる構文解析済みテキス
トデータに基づいて、各単語の綴りの特徴と、文章内の
使われ方による特徴と、単語の相互情報量を用いた階層
的な分類とを含む複数の属性を用いて、上記各属性の属
性値に依存して分割されるような二分木形式の木構造を
有し品詞付与のための品詞決定木を生成し、上記生成さ
れた品詞決定木の分割されないノードであるリーフノー
ドに対して複数の品詞に対する頻度確率を計算して付与
することにより、品詞カテゴリーの頻度確率付き品詞決
定木を生成する第1の学習手段と、上記テキストデータ
に基づいて、各単語の綴りの特徴と、後続する文字の特
徴と、前につながる品詞の特徴と、単語の相互情報量を
用いた階層的な分類とを含む複数の属性を用いて、上記
各属性の属性値に依存して分割されるような二分木形式
の木構造を有し単語分割のための単語分割決定木を生成
し、上記生成された単語分割決定木の分割されないノー
ドであるリーフノードに対して単語及び非単語に対する
頻度確率を計算して付与することにより、単語カテゴリ
ーの頻度確率付き単語分割決定木を生成する第2の学習
手段と、上記テキストデータに基づいて、処理対象の単
語の語数と、処理対象の主辞単語の品詞、処理対象の直
前の単語の品詞、単語の相互情報量を用いた階層的な分
類とを含む複数の属性を用いて、上記各属性の属性値に
依存して分割されるような二分木形式の木構造を有し文
法規則付与のための文法規則決定木を生成し、上記生成
された文法規則決定木の分割されないノードであるリー
フノードに対して複数の文法規則に対する頻度確率を計
算して付与することにより、頻度確率付き文法規則決定
木を生成する第3の学習手段と、上記テキストデータに
基づいて、処理対象の単語の語数と、処理対象の主辞単
語の品詞、処理対象の直前の単語の品詞、単語の相互情
報量を用いた階層的な分類とを含む複数の属性を用い
て、上記各属性の属性値に依存して分割されるような二
分木形式の木構造を有し文法規則付与処理における各パ
ージング状態で処理方向を決定するための処理方向決定
木を生成し、上記生成された処理方向決定木の分割され
ないノードであるリーフノードに対して複数の処理方向
に対する頻度確率を計算して付与することにより、頻度
確率付き処理方向決定木を生成する第4の学習手段と、
入力される日本語の文字列からなるテキストデータに基
づいて、上記第2の学習手段によって生成された単語カ
テゴリーの頻度確率付き単語分割決定木を用いて、上記
単語分割決定木のリーフノードに付与された単語カテゴ
リーの頻度確率の中で上位複数n個の頻度確率を選択し
て上記テキストデータの各単語候補に対して付与すると
ともに、上記入力される文字列からなるテキストデータ
に基づいて、上記第1の学習手段によって生成された品
詞カテゴリーの頻度確率付き品詞決定木を用いて、上記
品詞決定木のリーフノードに付与された品詞カテゴリー
の頻度確率の中で上位複数n個の頻度確率を選択して上
記テキストデータの先頭単語候補から1つずつの単語候
補に対して付与し、上記テキストデータの単語候補列に
おいて最上位の結合確率を有する単語分割された単語と
品詞の組み合わせの列を、処理候補として出力する第1
の処理手段と、上記第1の処理手段から出力される処理
候補に対して、所定のスタック・デコーダ・アルゴリズ
ムを用いて、文法規則付与処理における各パージング状
態での単語列に対する結合確率が最大の結合確率を有す
るパージング状態を選択した後、上記第4の学習手段に
よって生成された頻度確率付き処理方向決定木を用いて
上記処理対象の単語列における処理方向を決定し、決定
された処理方向におけるパージング状態において、上記
第3の学習手段によって生成された頻度確率付き文法規
則決定木に従って文法規則を上記処理対象の単語列に加
えることにより構文解析情報を付与して構文解析済み単
語を出力する第2の処理手段と、上記第1と第2の処理
手段の処理を、上記入力される文字列からなるテキスト
データの先頭から1つの単語候補ずつ、上記テキストデ
ータの1文に対する構文解析済みテキストデータが得ら
れるまで繰り返すように制御する第3の処理手段とを備
えたことを特徴とする。
【0014】また、請求項6記載の日本語構文解析装置
は、請求項5記載の日本語構文解析装置において、上記
各決定木学習手段は、上記二分木の形式で分割するとき
に、上記各属性による分割前の属性の有効性の優先順位
を表わすエントロピーH0と分割後のエントロピーHと
の差(H0−H)が最大の属性を分割候補の属性として
選択し、所定の分割続行基準を満足するときに、二分木
の形式で分割して決定木を更新することを特徴とする。
【0015】さらに、請求項7記載の日本語構文解析装
置は、請求項6記載の日本語構文解析装置において、上
記分割続行基準は、(I)選択された属性に基づいて分
割したときのエントロピーの差(H0−H)が所定のエ
ントロピーしきい値Hth以上であり、かつ(II)選択
された属性に基づく分割後の属性とその属性値及び品詞
の組のイベント数が所定のイベント数しきい値Dth以
上であることを特徴とする。
【0016】またさらに、請求項8記載の日本語構文解
析装置は、請求項5乃至7のうちの1つに記載の日本語
構文解析装置において、上記第1の処理手段は、上記単
語分割決定木のリーフノードに付与された単語カテゴリ
ーの頻度確率の中で上位複数n個の頻度確率を選択して
上記テキストデータの単語候補に対して付与し、かつ上
記品詞付与決定木のリーフノードに付与された品詞カテ
ゴリーの頻度確率の中で上位複数n個の頻度確率を選択
して上記テキストデータの各単語候補に対して付与した
後、所定のスタック・デコーダ・アルゴリズムに用い
て、処理途中のテキストデータの単語候補列に対する結
合確率が所定の結合確率以上である単語と品詞の組み合
わせの列の処理候補のみを残して当該組み合わせの候補
を限定し、当該処理終了時の上記テキストデータの文字
列において最上位の結合確率を有する単語分割された単
語と品詞の組み合わせの列を、処理候補として出力する
ことを特徴とする。
【0017】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
【0018】図1は、本発明に係る一実施形態である、
決定木学習装置10及び構文情報付与装置11を備えた
日本語構文解析システムのブロック図である。この日本
語構文解析システムは、日本語のテキストデータに対し
て、品詞付与のための辞書を参照しないで、品詞を付与
した後、素性構造付き文脈自由文法などの詳細な構文構
造の情報を付与することはできる構文解析システムであ
って、(a)構文解析付与済みテキストメモリ21に格
納された構文情報付与済みテキストデータに基づいて、
属性リストメモリ22に格納された属性リストと、品詞
リストメモリ23に格納された品詞リストとを参照し
て、詳細後述する品詞決定木学習処理を実行して学習す
ることにより、頻度確率付き品詞決定木を生成して品詞
決定木ファイルメモリ25に格納し、次いで、構文解析
付与済みテキストメモリ21に格納された構文情報付与
済みテキストデータに基づいて、属性リストメモリ22
に格納された属性リストと、文法規則リストメモリ24
に格納された文法規則リストとを参照して、詳細後述す
る文法規則決定木学習処理を実行して学習することによ
り、頻度確率付き文法規則決定木を生成して文法規則決
定木ファイルメモリ26に格納し、さらに、構文解析付
与済みテキストメモリ21に格納された構文情報付与済
みテキストデータに基づいて、属性リストメモリ22に
格納された属性リストと、文法規則リストメモリ24に
格納された文法規則リストとを参照して、詳細後述する
処理方向決定木学習処理を実行して学習することによ
り、頻度確率付き処理方向決定木を生成して処理方向決
定木ファイルメモリ27に格納し、さらには、構文解析
付与済みテキストメモリ21に格納された構文情報付与
済みテキストデータに基づいて、属性リストメモリ22
に格納された属性リストと、単語リストメモリ29に格
納された単語リストとを参照して、詳細後述する単語分
割決定木学習処理を実行して学習することにより、頻度
確率付き単語分割決定木を生成して単語分割決定木ファ
イルメモリ28に格納するする決定木学習装置10と、
(b)スタックメモリ12が構文情報付与装置11に接
続され、品詞決定木ファイルメモリ25に格納された頻
度確率付き品詞決定木と、文法規則決定木ファイルメモ
リ26に格納された頻度確率付き文法規則決定木と、処
理方向決定木ファイルメモリ27に格納された頻度確率
付き処理方向決定木と、単語分割決定木ファイルメモリ
28に格納された頻度確率付き単語分割決定木とを用い
て、属性リストメモリ22に格納された属性リストと、
品詞リストメモリ23に格納された品詞リストと、文法
規則リストメモリ24に格納された文法規則リストと、
単語リストメモリ29に格納された単語リストとを参照
して、テキストデータメモリ30に格納され入力される
テキストデータに対して、詳細後述する単語分割及び品
詞付与処理(図8及び図9)及び文法規則付与処理(図
10及び図11)を含む構文情報付与処理を実行するこ
とにより、品詞を付与しかつ文法規則を付与して、構文
解析済みテキストデータを生成して構文解析済みテキス
トデータ31に格納する構文情報付与装置11とを備え
たことを特徴とする。本実施形態においては、テキスト
データとは、日本語の文字列又は単語列からなる日本語
文である。
【0019】まず、本実施形態で利用する知識について
説明する。一般に日本語の構文解析装置では、係り受け
関係を捉えることが多く、本実施形態では、素性構造付
文脈自由文法で記述している。また、決定木で利用され
る特徴として、語を構成している部分的な文字列の特徴
や語あるいは品詞等の接続情報などを利用している。
【0020】次いで、本実施形態で利用する文法につい
て説明する。本実施形態では、16種類の素性を用いた
素性構造付文脈自由文法を利用している。素性として
は、カテゴリ(cat)、名詞の型(n_type)、
動詞の型(v_type)などがあり、品詞タグは、基
本的なカテゴリ、名詞や動詞の型、活用の種類や活用形
の組み合わせにより表現され(表1参照。)、約200
種類におよぶ。文法は、この品詞タグをベースに、約1
00種類の統語規則から構成される(表2参照。))。
【0021】
【表1】 品詞タグの一例 ─────────────────────────────────── 規則 格動詞 ─────────────────────────────────── 例 に、を、が、で、と、から、まで、へ、について、の、 によって、って、より、として、にて ─────────────────────────────────── 親 cat p bar 0 pos 助詞 p_type 格 ───────────────────────────────────
【0022】
【表2】 文法規則の一例 ─────────────────────────────────── 規則 VP_np+ap ─────────────────────────────────── 記述 VP_np+ap→NP AP ─────────────────────────────────── 例 [vp[npあなたさえ] [apよければ] ─────────────────────────────────── 親 cat v bar 2 pos vp_np+ap n_type V* ─────────────────────────────────── 子1 cat CAT bar 2 pos V* n_type V* v_type V* a_type A katuyou V* katuyoukei V* ─────────────────────────────────── 条件 not((A=unspec)|(CAT=s)) ───────────────────────────────────
【0023】また、この文法は、対話データでの表現を
捉えられるように、考慮されており、いわゆる通常の文
法という意味では、非文扱いされるものに対しても、処
理できるように考慮されている。
【0024】次いで、語法の性質(特徴)について説明
する。上述した文法の制約のみでは、形態素解析済の入
力に対する構文構造だけでも、多くの解析候補がある。
さらに、形態素解析の候補を考慮すると、膨大な量の候
補が存在することになる。このような候補から正しい構
造を選択するには、処理の過程で適切な選択をしていく
必要があり、その選択を行うために、様々な特徴を利用
する。利用している特徴には、(1)語(あるいは句、
節)に関する特徴、と(2)(文内の)文脈に関する特
徴があり、形態素、構文のレベルで統計的な尤度にした
がって有効に活用される。
【0025】次いで、語に関する特徴について説明す
る。単語自身の持つ特徴であり、その部分的な綴り、文
字数、構成文字種等に関する特徴や、品詞タグが付与さ
れた後には、品詞タグの持つ各素性の値が特徴として利
用される。なお、語ではなく句や節として文法規則でま
とめられている場合には、その規則の親ノードの持つ素
性の値が特徴として利用される。また、どのようなノー
ドから構成されているか、句や節を構成している単語数
なども特徴として利用される。単語自身が持つ語彙の特
徴は、単語に対するタグを決めるのに非常に有効な情報
であるとともに、構文構造のある範囲での主辞となる語
の情報としても利用される。本実施形態で扱う語彙の情
報は、見出し語として辞書より得られる情報を利用する
こともできるが、基本的には、先に述べたような語を構
成している部分的な文字列や文字数等により特徴づけら
れているためにいわゆる「未知語」という概念がない。
強いて、本実施形態で「未知語」を考える場合には、特
徴を抽出した学習データに現れない語と捉えることがで
きる。
【0026】次いで、文内文脈に関する特徴について説
明する。現在の処理対象に関する特徴だけでなく、その
直前の語の特徴や、接続する文字の特徴、あるいは、処
理対象の2つ前の語や品詞についての特徴、文頭や、文
末に関する特徴、処理対象の前で一番近くにある助詞の
情報、そこまでの単語数などが特徴として利用される。
このように、ある一定の定められた語の情報だけでな
く、柔軟に距離が変化する特徴も利用することができ
る。また、今処理している文字列が、同一文内に現れて
いるかどうか等も、特徴として利用で用できる。これら
の特長を、「語法の特徴」と呼び、記述するための枠組
みを本実施形態で用いた。
【0027】さらに、確率付決定木による解析について
説明する。すべての「語法の特徴」が、形態素、および
構文解析で利用されるわけではない。「語法の特徴」
は、学習用コーパスに現れる統計的な優位性を基準に、
解析知識として効率的に利用するために決定木の枠組み
の中で利用される。ここで、枝刈りに、最小コストコン
プレキシティ(minimal cost-complexity)アルゴリズ
ムを用い、スムージングには、フォワード・バックワー
ド(Forward-Backward)アルゴリズムを用いた。利用す
る決定木は、2分木のものであり、各分岐点での判断に
「語法の特徴」を利用する。だたし、2分木であるた
め、3個以上の値を持つ特徴を直接利用することができ
ない。そこで、3個以上の値を持つ語法の特徴を決定木
の分岐点の情報として利用するために、特徴の各値に
“0”,“1”からなる固有のビット列を与え、そのビ
ット列内の特定のビットを1つの分岐点の情報として利
用する。また、その特徴が有効な特徴であるかどうかの
分岐も行っている。特徴が有効かどうかは、その特徴を
判断することができるかいなかによる。例えば、文頭の
単語を処理する場合に、直前の単語に関する特徴は利用
できないため、有効な特徴ではない。
【0028】次いで、解析処理の流れについて説明す
る。形態素解析、構文解析を統合する処理機構を実現す
るために、以下のような二つの統合の方法を用いる。 (a)[処理A]文末まで一旦、形態素解析を行い、各
候補に対して順次構文解析を行う。当該処理Aを、後述
する実施形態の説明において、実施形態として説明す
る。 (b)[処理B]左から右に文字単位で処理しながら形
態素解析、構文解析を行う。当該処理Bを、変形例とし
て説明する。
【0029】処理Aでは、形態素解析時に構文情報を有
効に利用できるという統合での利点がなく、処理Bでの
統合が望まれる。比較のために、実験では、二つの処理
手法を切り替えて利用できるようにした。本実施形態で
は、その統計的言語モデルとして決定木モデルを採用
し、解析処理のために、以下の4種類の決定木を、学習
データを用いて構築する。 (a)[単語認識の決定木]単語としての妥当性を判断
するための決定木(以下、単語分割決定木という。)。 (b)[品詞付与の決定木]品詞タグの候補を選択する
ための決定木(以下、品詞決定木という。)。 (c)[文法規則適用の決定木]適用する構文規則を選
択するための決定木(以下、文法規則決定木とい
う。)。 (d)[処理方向の決定木]文法規則適用時の単語に対
する処理方向を選択するための決定木(以下、処理方向
決定木という。)。
【0030】解析処理では、これら4つの決定木をそれ
ぞれ以下の4つの状態で利用し、各状態で処理が行われ
る。 (a)単語認識の状態:現在の処理対象となっている文
字列が単語として妥当かを判断する。妥当な場合、単語
ノードとした状態を品詞付与の状態とするとともに、次
の文字を取り込んだ文字列を処理対象とする単語認識の
状態をつくり、各状態の処理を行う。妥当でないと判断
された場合、次の文字を取り込んだ文字列を処理対象と
する単語認識の状態をつくり、各状態の処理を行う。 (b)品詞付与の状態:現在の処理対象となる単語ノー
ドに適切な品詞タグを(複数の品詞候補がある場合は、
その候補分の状態をつくり、処理を行う。)、タグノー
ドとする構文規則適用の状態とするとともに、次の一文
字を処理対象とした単語認識の状態を作り、各々の状態
について処理を行う。 (c)構文規則適用の状態:現在の処理対象となるノー
ドから前のノードを参照し、適用できる構文規則に対し
て、ルートノードを設定し、構文規則適用の状態とする
とともに、次の一文字を処理対象とした単語認識の状態
を作り、各々の状態について処理を行う。 (d)処理方向選択の状態:現在の処理対象となるノー
ドから前のノードを参照し、適用できる処理方向に対し
て、ルートノードを設定し、処理方向の適用の状態とす
るとともに、次の一文字を処理対象とした単語認識の状
態を作り、各々の状態について処理を行う。
【0031】単語認識の状態では、単語ノードの作成に
対して、処理文字列が単語として妥当かどうかを判断す
る決定木が利用される。ここで利用される決定木は「単
語分割決定木」であり、単語として現れる確率値が計算
され、その値により、妥当か否かの判断がなされる。品
詞タグを付与する場合には、「品詞決定木」が利用さ
れ、確率付で一定以上の値を持つ品詞タグ候補が与えら
れる。構文規則適用についても、文法的に適用できる規
則に対して、「文法規則決定木」により適用できる規則
の内、一定以上の値を持つ規則に対して、ルートノード
が設定される。さらに、処理方向の選択についても、文
法的に適用できる規則に対して、「処理方向決定木」に
より適用できる処理方向の内、一定以上の値を持つ処理
方向に対して、ルートノードが設定される。また、複数
の状態の処理については、公知のスタックデコーダアル
ゴリズムを利用することで、処理の効率化をはかってい
る。
【0032】次いで、本実施形態の構文解析システムに
おいて用いる文法規則と知識について詳述する。この中
で、まず、本実施形態で用いる詳細な文法規則について
述べる。学習用テキストデータベースであるコーパスに
現れる言語現象の中には、ある単位としてまとまること
により、言語的な特徴を持つ場合が少なくない。また、
この特徴が構文解析に非常に有効な情報となる場合も多
い。文法としては、素性構造つき文脈自由文法を用い
る。これは、文法規則の子供のノードには現れない特徴
を親ノードに付与することで、より詳細な情報を付与で
き、各素性の特徴を利用しやすいと考えたためである。
【0033】上述の文法規則に従う構造から、正しい構
造を得るために、様々な特徴を利用する。まず、文法に
与えられている各素性の持つ値の特徴を利用する。この
特徴に加えて、単語自身が持つ語彙の特徴、文の持つ特
徴を利用する。様々な文脈において、文法規則の素性が
取る値の統計的な性質を調べることで、どの文法規則が
確らしいかの指標を与えることができる。単語自身が持
つ語彙の特徴は、単語に対するタグを決めるのに非常に
有効な情報であるとともに、構文構造のある範囲での第
1の主辞となる語の情報としても利用される。本実施形
態において取り扱う語彙の情報は、辞書より得られる情
報ではなく、語を構成しているサフィックスやプレフィ
ックス、単語の文字数等により特徴づけられている。ま
た、文の持つ特徴は、1文に含まれる単語数や句読法、
あるいは、同じ単語が複数回現れているか等により特徴
づけられる。さらに、文脈的な情報を利用できるよう
に、直前の単語や文末、文頭、処理対象の文法規則のカ
バーする範囲の先頭の単語、末尾の単語等に関する特徴
も利用できるようにしている。文法家(文法規則を生成
する専門家をいう。)が様々な特徴を記述するために、
語法の特徴を記述するための枠組みを用いる。
【0034】次いで、本実施形態で用いる統計的構文解
析法について述べる。本実施形態では、上述した特徴を
効率的に利用するために、統計的な性質を学習用コーパ
スを用いて計算し、確率付決定木として学習している。
本手法で用いる決定木では、枝刈りに、最小コスト−コ
ンプレキシティアルゴリズムを用い、スムージングに
は、フォワード−バックワードアルゴリズムを用いた。
この決定木は、2分木となっている。そのため、上述し
た特徴を決定木の分岐点の情報としては、直接利用でき
ない。そこで、各特徴の値に“0”,“1”の固有のビ
ット列を与え、特定のビットを利用する。また、その特
徴が有効な特徴であるかどうかの分岐も行っている。こ
こで、例えば、文頭の単語を処理する場合に、直前の単
語に関する特徴は利用できない。
【0035】本手法の構文解析は、部分的な解析木を表
現する状態を、連続的に構築する処理として捉えられ
る。ある状態から次の状態に移るために、以下の処理の
いずれかが行われている。この各処理に対して上述した
決定木が構成されている。 (a)単語にタグを付与し、統語的な素性を決めた後、
意味的な素性を決める。(b)現在の処理対象が構成要
素の終りかどうかを判断する。 (c)現在の処理対象の構成要素に文法規則を付与す
る。 これらの処理の順序関係には、何通りかの可能性がある
が、本実施形態では、まず、全ての単語に品詞のタグ付
を行い、左から右に、ボトム・アップで解析を進めてい
る。文法から生成される候補は、非常に膨大であり、最
適な候補を見いだすことが困難に思われるが、本手法で
は、決定木で文脈に依存した確率の推定を行っており、
詳細後述するスタック・デコーダ・アルゴリズムを利用
することで、処理の効率化をはかっている。
【0036】次いで、図1の構文解析システムの構成及
び動作について説明する。決定木学習装置10は、メモ
リ21から読み出された文字列又は単語列からなる構文
解析済みテキストデータに基づいて、各単語の綴りの特
徴と、文章内の使われ方による特徴と、単語の相互情報
量を用いた階層的な分類とを含み属性リストメモリ22
に格納された複数の属性を用いて、上記各属性の属性値
に依存して分割されるような二分木形式の木構造を有し
品詞付与のための品詞決定木を生成し、上記生成された
品詞決定木の分割されないノードであるリーフノードに
対して複数の品詞に対する頻度確率を計算して付与する
ことにより、頻度確率付き品詞決定木を生成して品詞決
定木ファイルメモリ25に格納する。次いで、決定木学
習装置10は、メモリ21から読み出された文字列又は
単語列からなる構文解析済みテキストデータに基づい
て、処理対象の単語の語数と、処理対象の主辞単語の品
詞、処理対象の直前の単語の品詞、単語の相互情報量を
用いた階層的な分類とを含み属性リストメモリ22に格
納された複数の属性を用いて、上記各属性の属性値に依
存して分割されるような二分木形式の木構造を有し文法
規則付与のための文法規則決定木を生成し、上記生成さ
れた文法規則決定木の分割されないノードであるリーフ
ノードに対して複数の文法規則に対する頻度確率を計算
して付与することにより、頻度確率付き文法規則決定木
を生成して文法規則決定木ファイルメモリ26に格納す
る。
【0037】さらに、決定木学習装置10は、メモリ2
1から読み出された文字列又は単語列からなる構文解析
済みテキストデータに基づいて、処理対象の単語の語数
と、処理対象の主辞単語の品詞、処理対象の直前の単語
の品詞、単語の相互情報量を用いた階層的な分類とを含
み属性リストメモリ22に格納された複数の属性を用い
て、上記各属性の属性値に依存して分割されるような二
分木形式の木構造を有し文法規則付与処理における各パ
ージング状態で処理方向を決定するための処理方向決定
木を生成し、上記生成された処理方向決定木の分割され
ないノードであるリーフノードに対して複数の処理方向
に対する頻度確率を計算して付与することにより、頻度
確率付き処理方向決定木を生成して処理方向決定木ファ
イルメモリ27に格納する。またさらに、メモリ21か
ら読み出された文字列又は単語列からなる構文解析済み
テキストデータに基づいて、各単語の綴りの特徴と、文
章内の使われ方による特徴と、単語の相互情報量を用い
た階層的な分類とを含み属性リストメモリ22に格納さ
れた複数の属性を用いて、上記各属性の属性値に依存し
て分割されるような二分木形式の木構造を有し単語間の
単語分割のための単語分割決定木を生成し、上記生成さ
れた単語分割決定木の分割されないノードであるリーフ
ノードに対して複数の単語に対する頻度確率を計算して
付与することにより、頻度確率付き単語分割決定木を生
成して単語分割決定木ファイルメモリ28に格納する。
【0038】ここで、決定木学習装置10は、上記二分
木の形式で分割するときに、上記各属性による分割前の
属性の有効性の優先順位を表わすエントロピーH0と分
割後のエントロピーHとの差(H0−H)が最大の属性
を分割候補の属性として選択し、所定の分割続行基準を
満足するときに、二分木の形式で分割して決定木を更新
する。
【0039】次いで、構文情報付与装置11は、メモリ
30から入力される日本語の文字列又は単語列からなる
テキストデータに基づいて、決定木学習装置10によっ
て生成された単語カテゴリーの頻度確率付き単語分割決
定木を用いて、上記単語分割決定木のリーフノードに付
与された単語カテゴリーの頻度確率の中で上位複数n個
の頻度確率を選択して上記テキストデータの各単語候補
に対して付与するとともに、上記入力される文字列から
なるテキストデータに基づいて、決定木学習装置10に
よって生成された品詞カテゴリーの頻度確率付き品詞決
定木を用いて、上記品詞決定木のリーフノードに付与さ
れた品詞カテゴリーの頻度確率の中で上位複数n個の頻
度確率を選択して上記テキストデータの各単語候補に対
して付与し、上記テキストデータの単語候補列において
上位複数n個の結合確率を有する単語分割された単語と
品詞の組み合わせの列を、複数n個の処理候補とする。
次いで、構文情報付与装置11は、上記複数n個の処理
候補のうち、より上位の処理候補から順次1つずつの処
理候補に対して1つの文として成立するまで、所定のス
タック・デコーダ・アルゴリズムを用いて、文法規則付
与処理における各パージング状態での単語列に対する結
合確率が最大の結合確率を有するパージング状態を選択
した後、決定木学習装置10によって生成された頻度確
率付き処理方向決定木を用いて上記処理対象の単語列に
おける処理方向を決定し、決定された処理方向における
パージング状態において、決定木学習装置10によって
生成された頻度確率付き文法規則決定木に従って文法規
則を上記処理対象の単語列に加えることにより構文解析
情報を付与して構文解析済みテキストデータを出力す
る。
【0040】ここで、構文情報付与装置11は、単語分
割決定木のリーフノードに付与された単語カテゴリーの
頻度確率の中で上位複数n個の頻度確率を選択して上記
テキストデータの各単語候補に対して付与し、かつ品詞
付与決定木のリーフノードに付与された品詞カテゴリー
の頻度確率の中で上位複数n個の頻度確率を選択して上
記テキストデータの各単語候補に対して付与した後、所
定のスタック・デコーダ・アルゴリズムに用いて、処理
途中のテキストデータの単語候補列に対する結合確率が
所定の結合確率以上である単語と品詞の組み合わせの列
の処理候補のみを残して当該組み合わせの候補を限定
し、当該処理終了時の上記テキストデータの文字列又は
単語列において上位複数n個の結合確率を有する単語分
割された単語と品詞の組み合わせの列を、複数n個の処
理候補として出力する。
【0041】本実施形態においては、品詞決定木学習処
理により、構文解析済みテキストデータから得られる知
識を用いて、二分木形式の木構造を有し品詞付与のため
の頻度確率付き品詞決定木を生成し、品詞付与を行な
う。頻度確率付き品詞決定木で用いられる属性は、言語
学的な特徴やコーパスから得られる統計的な特徴を用い
る。従来の品詞付与では、辞書を引くことで品詞候補を
制限し、その中から、前後に現れる語との関係などを考
慮して、もっとも適切な品詞を選択するという方法が一
般的である。しかしながら、辞書の作成や保守にかかる
コストの問題となる。また、辞書項目に無い語(未知
語)や辞書の品詞候補にない品詞として使われた語に対
しては、特別な処理が必要とされる。本実施形態に係る
頻度確率付き品詞決定木を用いた方法では、単語の品詞
を決定するために、辞書を用いないため、辞書の作成や
保守にかかるコストは問題にならない。頻度確率付き品
詞決定木を、構文解析済みテキストを用いた学習により
構築する。そのために、構文解析済みテキストデータが
あれば、品詞体系に柔軟に対応できる。また、上記頻度
確率を用いて、品詞列の優先順位を自動的に決定するこ
とができる。品詞決定木は、対象を複数の属性とその属
性値から、適切なクラスに分類する木構造のモデルであ
る。品詞付与においては、対象が各単語に、クラスが品
詞に相当する。属性としては、各単語の綴の特徴や文内
の使われ方による特徴や単語の相互情報量を用いた階層
的分類などを用いる。
【0042】また、構文情報付与装置11における文法
付与処理においては、文法規則決定木と処理方向決定木
を用いて、処理対象の単語候補列に対して、文法規則を
付与してゆく。ここで、文法規則決定木と処理方向決定
木の属性としては、処理対象の単語の語数と、処理対象
の主辞単語の品詞、処理対象の直前の単語の品詞、単語
の相互情報量を用いた階層的な分類を用いる。文法規則
決定木と処理方向決定木を用いた方法では、文法規則の
付加を決定するために、辞書を用いないため、辞書の作
成や保守にかかるコストは問題にならない。頻度確率付
き文法規則決定木及び処理方向決定木を、構文解析済み
テキストを用いた学習により構築する。そのために、構
文解析済みテキストデータがあれば、文規則の体系に柔
軟に対応できる。以下、本実施形態の構文解析システム
について詳述する。
【0043】図1において、決定木学習装置10は、構
文解析済みテキストメモリ21に格納された構文情報付
きテキストデータに基づいて、属性リストメモリ22に
格納された属性リストと、品詞リストメモリ23に格納
された品詞リストとを参照して、詳細後述する品詞決定
木学習処理を実行して学習することにより、頻度確率付
き品詞決定木を生成して品詞決定木ファイルメモリ25
に格納し、次いで、構文解析済みテキストメモリ21に
格納された構文情報付きテキストデータに基づいて、属
性リストメモリ22に格納された属性リストと、文法規
則リストメモリ24に格納された文法規則リストとを参
照して、詳細後述する文法規則決定木学習処理を実行し
て学習することにより、頻度確率付き文法規則決定木を
生成して文法規則決定木ファイルメモリ26に格納し、
さらに、構文解析済みテキストメモリ21に格納された
構文情報付きテキストデータに基づいて、属性リストメ
モリ22に格納された属性リストと、文法規則リストメ
モリ24に格納された文法規則リストとを参照して、詳
細後述する処理方向決定木学習処理を実行して学習する
ことにより、頻度確率付き処理方向決定木を生成して処
理方向決定木ファイルメモリ27に格納し、さらには、
構文解析済みテキストメモリ21に格納された構文情報
付きテキストデータに基づいて、属性リストメモリ22
に格納された属性リストと、単語リストメモリ29に格
納された単語リストとを参照して、詳細後述する単語分
割決定木学習処理を実行して学習することにより、頻度
確率付き単語分割決定木を生成して単語分割決定木ファ
イルメモリ28に格納する。
【0044】次いで、構文情報付与装置11には、スタ
ックメモリ12が接続され、構文情報付与装置11は、
品詞決定木ファイルメモリ25に格納された頻度確率付
き品詞決定木と、文法規則決定木ファイルメモリ26に
格納された頻度確率付き文法規則決定木と、処理方向決
定木ファイルメモリ27に格納された頻度確率付き処理
方向決定木と、単語分割決定木ファイルメモリ28に格
納された頻度確率付き単語分割決定木とを用いて、属性
リストメモリ22に格納された属性リストと、品詞リス
トメモリ23に格納された品詞リストと、文法規則リス
トメモリ24に格納された文法規則リストと、単語リス
トメモリ29に格納された単語リストとを参照して、テ
キストデータメモリ30に格納され入力されるテキスト
データに対して、詳細後述する単語分割及び品詞付与処
理(図8及び図9)及び文法規則付与処理(図10及び
図11)を含む構文情報付与処理を実行することによ
り、品詞を付与しかつ文法規則を付与して、構文解析済
みテキストデータを生成して構文解析済みテキストデー
タ31に格納する。ここで、生成された構文解析済みテ
キストデータは、例えばCRTディスプレイやプリンタ
などの出力機器に出力してもよい。
【0045】ここで、決定木学習装置10と構文情報付
与装置11はそれぞれ、例えば、各処理を実行するCP
Uと、各処理のプログラム及びそれを実行するために必
要なデータを格納するROM(読出専用メモリ)と、C
PUのワーキングメモリとして用いられるRAM(ラン
ダムアクセスメモリ)とを備えたデジタル計算機で構成
される。また、メモリ12,21乃至29,30,31
は、例えばハードディスクメモリで構成される。さら
に、構文情報付与装置11には、スタック・デコーダ・
アルゴリズムを用いて品詞付与処理及び文法規則付与処
理を実行するためのスタック用スタックメモリ12が接
続される。
【0046】単語リストメモリ29には、日本語の複数
の単語が格納される。品詞リストメモリ23に格納され
る品詞リストの一例を表3に示す。また、属性リストメ
モリ22に格納される属性リストの一例を表4に示す。
さらに、文法規則リストメモリ24に格納される文法規
則の一例を表5に示す。
【0047】
【表3】 品詞リスト ───────── 品詞 ───────── 普通名詞 サ変名詞 形容名詞 数詞 形式名詞 ローマ字 本動詞 補助動詞 形容詞 格助詞 …… ─────────
【0048】
【表4】 単語分割及び品詞付与のための属性リスト ─────────────────────────────────── 属性 属性値 ─────────────────────────────────── 単語の相互情報量を用いた階層的分類コード 分類コード 対象単語が”〜い”を含む単語 Yes、No 対象単語が全てカタカナの単語 Yes、No 対象単語の長さ 単語長さの数値 (例えば、“カード”なら3) 直前の単語の品詞属性の値 品詞属性の値 後続する文字がカタカナか? Yes、No 対象単語の最初の文字が漢字か? Yes、No …… …… ───────────────────────────────────
【0049】
【表5】 文法規則付与用属性リスト ─────────────────────────────────── 属性 属性値 ─────────────────────────────────── 処理対象の主辞単語の相互情報量 分類コード に基づく階層的単語分類コード (所定ビット) 処理対象が一語のみ Yes,No 処理対象の主辞単語の品詞が名詞 Yes,No 処理対象の直前の単語の品詞が名詞 Yes,No ………………………… ……………………… ───────────────────────────────────
【0050】
【表6】 文法規則リスト ─────────────────────────────────── 名詞句1:名詞句→名詞,格助詞 名詞句2:名詞句→名詞,接続助詞 動詞句1:動詞句→本動詞,補助動詞,終助詞 …… …………… ───────────────────────────────────
【0051】表4の文法規則リストにおいて、例えば、
第1行目は、名詞句が名詞と格助詞から構成されること
を意味し、第3行目は、動詞句が本動詞と補助動詞、終
助詞から構成されることを意味する。なお、処理方向
は、リストとして表示していないが、本実施形態におい
て、「右」、「左」、「上」のいずれかである。
【0052】ここで、品詞属性とは、品詞を粗く10種
類に分類した属性であり、品詞属性の値とは、例えば、
名詞、動詞、助詞である。また、単語の相互情報量を用
いた階層的分類コードとは、例えば、特願平8−027
809号の特許出願や従来技術文献4「Akira Ushioda,
“Hierarchical Clustering of Words",Proceedingsof
COLING'96,The 16th International Conference on Com
putational Linguistics,Vol.2,pp.1159-1162,1996年8
月」において開示された単語分類方法を用いて分類され
た階層的分類コードである。この単語分類方法では、テ
キストデータ内の単語について出現頻度の比較的低い単
語を、同一の単語に隣接する割合の多い単語を同一のク
ラスに割り当てるという基準で分類した後、単語分類結
果を中間層、上側層、及び下側層の3つの階層に分類
し、テキストデータ内のすべての単語を対象とするグロ
ーバルな(全体的な)コスト関数である所定の平均相互
情報量を用いて、中間層、上側層、及び下側層の順序で
階層別に単語の分類を実行することを特徴としている。
相互情報量を用いたクラスタリングの方法においては、
単語数Tのテキスト、語数Vの語彙、それに語彙の分割
関数πとが存在すると仮定し、ここで、語彙の分割関数
πは語彙Vから語彙の中の単語クラスセットCへの分割
写像(マッピング)を表わす写像関数である。複数の単
語からなるテキストデータを生成するバイグラムのクラ
スモデルの尤度L(π)は次式によって得られる。
【0053】
【数1】L(π)=−Hm+I
【0054】ここで、Hmはモノグラムの単語分布のエ
ントロピーであり、Iはテキストデータ内の隣接する2
つのクラスC1,C2に関する平均的な相互情報量(Aver
ageMutual Information;以下、平均相互情報量とし、
AMIと表記する。)であり、次式で計算することがで
きる。
【0055】
【数2】
【0056】ここで、Pr(C)は第1のクラスC1
の単語の出現確率であり、Pr(C2)は第2のクラス
2の単語の出現確率であり、Pr(C1|C2)は、第
2のクラスC2の単語は出現した後に、第1のクラスC1
の単語が出現する条件付き確率であり、Pr(C1
2)は第1のクラスC1の単語と第2のクラスC2の単
語が隣接して出現する確率である。従って、上記数2で
表されるAMIは、互いに異なる第1のクラスC1の単
語と第2のクラスC2の単語とが隣接して出現する確率
を、上記第1のクラスC1の単語の出現確率と第2のク
ラスC2の単語の出現確率との積で割った相対的な頻度
の割合を表わす。エントロピーHは写像関数πに依存し
ない値であることから、AMIを最大にする写像関数は
同時にテキストの尤度L(π)も最大にする。従って、
AMIを単語のクラス構成における目的関数として使用
することができる。
【0057】上記単語分類方法は、意味又は統語的特徴
が似通った単語が近接した位置に配置された点で、バラ
ンスが取れた二分木の形式を有するツリー構造を生成す
ることができる。処理の最後に、根のノード(ルートノ
ード(root node))から葉のノード(リーフ
ノード(leaf node)に至るパスの追跡し、左
側方向の分岐又は右側方向の分岐をそれぞれ表わす0又
は1の1ビットを各分岐に割り当てることによって、語
彙の中の各単語に対して、ビットストリング(単語ビッ
ト)を割り当てることができる。
【0058】次いで、品詞決定木、文法規則決定木、処
理方向決定木及び単語分割決定木を構築する決定木学習
処理のアルゴリズム、及び構文情報付与処理のアルゴリ
ズムについて述べる。
【0059】各決定木学習処理では、各属性の有効性を
他の属性と独立に計算し、クラスの決定のための効率的
な属性による分類順序を、二分木の形式で分割された構
造を有する木構造として構築する。属性の有効性は、そ
の属性による分割分類後のエントロピーHにより評価す
る。ここでのエントロピーは、属性の有効性の優先順位
を表わす。すなわち、ある属性BでノードN1とノード
2とに分割するときに、分割前のエントロピーH0と、
分割後のエントロピーHと、ノードN1に対するエント
ロピーH1と、ノードN2に対するエントロピーH2とは
次式で表される。
【0060】
【数3】
【数4】H=p11+(1−p1)H2 ここで、
【数5】
【数6】
【0061】ここで、p(tagall)は分割前のす
べての品詞タグ(品詞決定木の場合;文法規則決定木の
ときは文法規則タグであり、処理方向決定木のときは処
理方向タグ、すなわち、「上」、「左」及び「右」であ
る。)についてのイベントの数の頻度確率又は出現確率
であり、tagallについてのΣは、分割前のすべて
の品詞タグについての和を示す。また、p1は、ノード
1に分割したときに含まれる品詞タグのイベントの数
の頻度確率の総和である。さらに、p(tagN1)は
ノードN1のすべての品詞タグについてのイベントの数
の頻度確率であり、tagN1についてのΣは、ノード
1のすべての品詞タグについての和を示す。p(ta
gN2)はノードN2のすべての品詞タグについてのイベ
ントの数の頻度確率であり、tagN2についてのΣ
は、ノードN2のすべての品詞タグについての和を示
す。
【0062】有効性の計算のために、学習用のテキスト
データから各語について「属性とその属性値、品詞」の
組からなるイベント情報(event:以下、イベント
という。)を予めとりだしておく。具体的には、全ての
イベントの集合に対して、分類後のエントロピーHが最
小となる属性を求め、最初のノードに割り当てる。この
属性の属性値により、イベントの集合を分割し、対応す
る子ノードを作る。各々の子ノードにおいて、同様の処
理を繰り返し行なうことにより、木構造を構築する。分
割の停止条件は、各ノードに含まれるイベント数が一定
数以下、あるいは分割による有効性が一定基準以下(こ
こで、分割後のエントロピーHと分割前のエントロピー
0との差がある所定量を越えない場合。)とする。こ
こで、分割されないノードをリーフと呼ぶ。学習された
決定木のリーフでは、与えられたイベントの集合から各
品詞の頻度確率を計算する。
【0063】ここで、本実施形態の構文情報付与システ
ムでは、従来技術文献5「L.E.Baum,“An inequality a
nd associated maximization technique in statistica
l estimation for probabilistic functions of a Mark
ov process",Inequalities,Vol.3,pp.1-8,1972年」に開
示されたフォワード−バックワード(Forward−
Backward)アルゴリズムを用いて、スムージン
グ用の学習データに基づいて、スムージング用の学習デ
ータから得られる確率と決定木から得られる確率との差
が最小となるようにスムージングを行ない、品詞及び構
文情報を付与すべき最後の頻度確率分布を補正する。ま
た、本実施形態のシステムでは、上記決定木学習処理の
アルゴリズムに従って、2段階の決定木を作成してい
る。1段目は、粗く分類した品詞(以下、GPOS(G
lobal Part Of Speech)とい
う。)(ここで、実際の品詞の属性の1つに対応してお
り、例えば、動詞、名詞、冠詞などに分類される。)の
ための決定木であり、2段目として、GPOSの品詞毎
に実際の品詞(表3に示した品詞タグレベル)を決定す
るための決定木を作成する。本実施形態では、より詳細
な品詞レベルの名称を品詞タグと呼んでいる。すなわ
ち、2段階に分割して決定木を生成することにより、1
回の処理で必要な記憶装置の記憶容量を大幅に減少させ
ている。
【0064】品詞付与処理においては、入力文のテキス
トデータを左から右に処理し、結合確率を最大にする品
詞列を出力する。入力文が、w1,w2,…,wNのよう
な複数N個の単語からなり、品詞列{t1,t2,…,t
N}(ここで、tiはi番目の単語の品詞である。)が得
られたとすると、結合確率Pは次式で表される。なお、
本実施形態では、品詞の出現をマルコフ情報源として取
り扱っておらず、それまでに出現した単語や品詞に依存
した情報源として取り扱っている。従って、十分に長い
文において、文の最初の語とその品詞に依存して最後の
単語の品詞を導くことが、原理的には可能である。
【0065】
【数7】 P≡p(t1,t2,…,tN│w1,w2,…,wN
【数8】
【0066】上記数7の右辺は、入力文w1,w2,…,
Nが入力されたときに、品詞列t1,t2,…,tNが与
えられる結合確率を意味し、上記数8の右辺は、入力文
1,w2,w3,…,wn、および、i−1番目の単語ま
での品詞列t1,t2,…,ti-1が与えられたときのi
番目の品詞の確率をiが1からnまで積算することによ
り得られる確率を意味する。ここで、Πの記号はiを2
からNまで変化したときの積和を意味する。そして、文
脈に依存する属性をもちいて、決定木のリーフleaf
(L)を導き、Lに関連した頻度確率分布を、pLによ
り表現し、決定木の条件付き分布を用いて以下のように
近似する。
【0067】
【数9】Li≡文脈w1,w2,…,wN,t1,t2,…,
i-1において導かれたリーフ
【数10】p(ti│w1,w2,…,wN,t1,t2
…,ti-1)≒pLi(ti
【0068】上記数9における文脈w1,w2,…,
N,t1,t2,…,ti-1は、i番目の単語wiのもつ
文脈を意味する。また、数10の左辺は、文脈w1
2,…,wN,t1,t2,…,ti-1の次に単語tiが来
る頻度確率又は出現確率を表し、それが、数10の右辺
である、文脈Liのもとで品詞tiをとる確率に近似でき
ることを意味する。従って、最大化すべき結合確率Pは
以下のようになる。
【0069】
【数11】
【0070】上記数11から明らかなように、結合確率
Pは、入力文の各単語での文脈に依存して得られる品詞
iの確率の積で表される。さらに、入力文の各単語に
対する品詞付与処理においては、次の2段階の処理を行
なっている。 (a)GPOSの各品詞の頻度確率を計算する。 (b)GPOSの各品詞に対応する決定木を用いて、品
詞の頻度確率を計算する。
【0071】各語の頻度確率の計算では、それまでに得
られている可能性のある品詞列を全て考慮する必要があ
る。細かな品詞体系を扱う場合、探索範囲が膨大になる
ため、本システムでは、従来技術文献6「F.Jelinek,
“A fast sequential decodingalgorithm using a stac
k",IBM Journal of Research and Development,No.13,p
p.675-685,1969年」及び従来技術文献7「D.Paul,“Alg
orithms for an optimal a* search and linearizing t
he search in the stack decoder",Proceedingsof the
June 1990 DARPA Speech and Natural Language Work s
hop,1990年」において開示されたスタック・デコーダ・
アルゴリズムを用いて、頻度確率又は出現確率が最大と
なる品詞列を探索している。このアルゴリズムは、一種
のグラフサーチアルゴリズムであり、しきい値により一
時的に探索範囲を限定し、評価値の最も良いものを探す
ことができる。すなわち、各語に付与される可能性のあ
る複数の品詞から、最も頻度確率の高い品詞列を選択す
ることは、各品詞をノードとし隣接する単語に付与され
ているノードを連結したグラフの複数の経路から最適な
経路を探索することであり、スタック・デコーダ・アル
ゴリズムは、二分木形式で分割された木構造の経路にお
いて、複数のノードをスタック構造としてまとめて取り
扱い、スタック構造内で、探索範囲を変更することによ
り、最適な経路を、効率的に見い出すことができる。
【0072】さらに、本実施形態においては、品詞付与
システムを拡張し、入力として、わかち書きされていな
い1文を、単語を含む形態素に分割しながら、各単語に
品詞を付与している。単語分割の分かち書きされていな
い1文に対しては、複数の分割の仕方が考えられる。例
えば、「わかりました」に対しては、32通りの分割の
仕方がある。例えば、 (a)「わかりました」 (b)「わ/かりました」 (c)「わか/りました」 …… (d)「わ/か/り/ま/し/た」) そこで、入力された文を、1文字ずつ走査し、可能な単
語列を構成し、単語としての確率を計算する。入力文が
“C1C2C3…Cn”とすると、文字C1を読み込ん
だ時点で、1文字の単語としての確率を計算する。次
に、文字C2を読み込んだ時点で、文字C2を1文字の
単語として、2単語からなる状態と、C1C2の2文字
で1単語の状態の確率を計算する。次の文字C3を読み
込んだ時点は、文字C2までの2つの状態に対して、文
字C3が1文字の単語となる状態と、文字C3が文字C
2につながり、単語となる状態の確率を計算する。以
下、同様に複数の状態での確率を計算していくが、全て
の状態を計算していると、計算量が膨大になり、計算で
きなくなるので、スタックデコーダアルゴリズムを用い
て計算している。
【0073】単語の確率を求めるための単語決定木の単
語の確率は、以下の特徴を用いた決定木により計算す
る。 (a)綴の特徴(具体例としては、「カタカナのみで構
成されている。」、「“〜しい”という単語である。」
など。)、 (b)後続する文字の特徴(具体例としては、「後続文
字が漢字である。」、「後続文字が“は”である。」な
ど。)、 (c)前につながる品詞の特徴(特に、直前の品詞と
は、限定しない。)(具体例としては、「直前の品詞が
名詞である。」、「直前の品詞が句読点である。」、
「二つ前の品詞が助詞である。」など。)、並びに、 (d)単語の相互情報量を用いた階層的な分類。 これらの特徴を用いて、学習データから、ある文字列が
単語である確率を学習する。単語の確率を得るために、
例えば、「支払い/は/どのように」では、次のよう
に、文字列と単語/非単語の組合わせを考え、単語分割
決定木を構築する。
【0074】
【表7】 ────────────────────────── 支 非単語 支払 非単語 支払い 単語 は 単語 支払いは 非単語 はどの 非単語 支払いはど 非単語 はどの 非単語 支払いはどの 非単語 ──────────────────────────
【0075】図2は、図1の決定木学習装置10によっ
て実行される品詞決定木学習処理を示すフローチャート
である。図2において、まず、ステップS1で構文解析
済みテキストデータメモリ21に格納された構文解析済
み(品詞付与済み)の構文情報付き文からなるテキスト
データを読み出して、決定木学習装置10内のRAMに
書き込む。次いで、ステップS2で、各属性と品詞タグ
との組み合わせの頻度確率(上記p(tagall),
p(tagN1),p(tagN2)に対応する。)を計
算して決定木学習装置10内のRAMに書き込む。さら
に、ステップS3で決定木作成処理を実行することによ
り頻度確率付き品詞決定木を生成し、ステップS4で作
成された確率付き品詞決定木をメモリ24に出力して格
納する。
【0076】図3は、図1の決定木学習装置10によっ
て実行される文法規則決定木学習処理(ステップS11
−S14)を示すフローチャートであり、図2の品詞決
定木学習処理と同様に実行される。図4は、図1の決定
木学習装置10によって実行される処理方向決定木学習
処理(ステップS21−S24)を示すフローチャート
であり、図2の品詞決定木学習処理と同様に実行され
る。また、図5は、図1の決定木学習装置10によって
実行される単語分割決定木学習処理(ステップS26−
S29)を示すフローチャートであり、図2の品詞決定
木学習処理と同様に実行される。ここで、処理方向と
は、文法規則付与処理における各パージング状態で処理
すべき方向であり、文法規則を付与する範囲となる処理
対象をどのように変更するかを限定するものである。こ
こで、パージング状態とは、図16に示すように、構文
情報付与装置11において部分的に解析された状態のこ
とをいい、現在の処理対象となるノード又は単語の情報
(具体的には、単語とその品詞情報、処理対象はどれ
か)を有する。また、ゴール状態は、最終的な構文解析
結果を入力する状態であり、一文を文としてまとめる文
法規則によりひとまとまりになったパージング状態であ
る。
【0077】図6は、図2乃至図5のサブルーチンであ
る決定木作成処理(ステップS3,S13,S23,S
28)を示すフローチャートである。まず、ステップS
31ですべての各属性による分割後のエントロピーH
と、分割前のエントロピーH0とをそれぞれ数4と数3
を用いて計算する。次いで、ステップS32でエントロ
ピーの差(H0−H)が最大の属性を分割候補の属性と
して選択し、ステップS33で選択された属性について
分割続行判定基準を満足するか否かが判断される。ここ
で、分割続行判定基準とは、(I)選択された属性に基
づいて分割したときのエントロピーの差(H0−H)が
所定のエントロピーしきい値Hth以上であり、かつ
(II)選択された属性に基づく分割後のイベント数が所
定のイベント数しきい値Dth以上であること。ステッ
プS33で分割続行判定基準を満足するときは、ステッ
プS34で、選択された属性の属性値により分割した2
つのノードを作成して、すなわち二分木の形式で分割し
て、決定木を更新する。そして、ステップS35では、
上記作成した各ノードを処理対象として、ステップS3
1に戻り、ステップS31からの処理を繰り返す。一
方、ステップS33で分割続行判定基準を満足しないと
きは、元のメインルーチンに戻る。
【0078】これらの決定木学習処理において作成され
た品詞決定木、文法規則決定木及び処理方向決定木の一
例を示す。ここで、入力されるテキストデータとして
は、「支払いをカードで」を用いると、構文情報付与装
置11から出力される構文解析済みテキストデータとし
て、「[名詞句1 支払い_普通名詞 を_格助詞]
[名詞句1 カード_普通名詞 で_格助詞]」が出力
される。
【0079】ここで、作成された頻度確率付き単語分割
決定木の一例を図12に示す。図12に示すように、当
該頻度確率付き単語決定木は、各属性101乃至105
で二分木の形式で分割された木構造を有し、最後のリー
フにおいて単語カテゴリー、すなわち単語/非単語の別
に対する頻度確率が付与されている。この例では、入力
文が「支払い/を/カード/で」であるときに、201
に示すように、単語“支払い”に対して単語カテゴリー
の「単語」が付与される一方、203に示すように、単
語“カード”に対して単語カテゴリーの「単語」が付与
されている。
【0080】また、作成された頻度確率付き品詞決定木
の一例を図13に示す。図13に示すように、当該頻度
確率付き品詞決定木は、各属性301乃至305で二分
木の形式で分割された木構造を有し、最後のリーフにお
いて単語カテゴリー、すなわち単語/非単語の別に対す
る頻度確率が付与されている。この例では、入力文が
「支払い/を/カード/で」であるときに、401に示
すように、単語“支払い”に対して品詞カテゴリーの
「名詞」が付与される一方、403に示すように、単語
“カード”に対して品詞カテゴリーの「名詞」が付与さ
れている。
【0081】上記例において作成された頻度確率付き文
法規則決定木の一例を図14に示す。図14に示すよう
に、当該頻度確率付き文法規則決定木は、各属性301
乃至305で二分木の形式で分割された木構造を有し、
最後のリーフにおいて各文法規則タグに対する頻度確率
が付与されている。この例では、入力文が“支払い/
を”のときに、リーフノードにおいて、文法タグ名詞句
(名詞と格助詞から構成される名詞句を意味する。)が
付与されている。
【0082】上記例において作成された頻度確率付き処
理方向決定木の一例を図15に示す。図15に示すよう
に、当該頻度確率付き処理方向決定木は、各属性501
乃至505で二分木の形式で分割された木構造を有し、
最後のリーフにおいて各処理方向タグに対する頻度確率
が付与されている。この例では、入力文が“支払い/を
/カード/で”であるときに、リーフノードにおいて、
処理方向タグ「右」が付与されて、処理対象“支払い”
にその右にある“を”を加え、新たな処理対象“支払い
/を”とする処理が、また、処理対象“カード”にその
右にある“で”を加え、新たな処理対象“カード/で”
とする処理が行われ、文法付与決定木の処理が続けられ
る。
【0083】図7は、図1の構文情報付与装置11によ
って実行される構文情報付与処理を示すフローチャート
である。図7において、まず、ステップS41で、確率
付き品詞決定木ファイルメモリ25に格納された頻度確
率付き品詞決定木ファイルを読み出して、構文情報付与
装置11内のRAMに書き込み、確率付き文法規則決定
木ファイルメモリ26に格納された頻度確率付き文法規
則決定木ファイルを読み出して、構文情報付与装置11
内のRAMに書き込み、確率付き処理方向決定木ファイ
ルメモリ27に格納された頻度確率付き処理方向決定木
ファイルを読み出して、構文情報付与装置11内のRA
Mに書き込み、確率付き単語分割決定木ファイルメモリ
28に格納された頻度確率付き単語分割決定木ファイル
を読み出して、構文情報付与装置11内のRAMに書き
込む。次いで、ステップS42でテキストデータメモリ
30に格納された解析対象のテキストデータを読み出し
て構文情報付与装置11内のRAMに書き込む。さら
に、ステップS43で詳細後述する単語分割及び品詞付
与処理を実行して、単語分割された品詞付与済みテキス
トデータを生成し、次いで、ステップS44で、ステッ
プS43で生成された品詞付与済みテキストデータに対
して文法規則タグを付与するための文法規則付与処理を
実行することにより、構文解析済みテキストデータを生
成する。そして、ステップS45で生成された構文解析
済みテキストデータを、構文解析済みテキストデータメ
モリ31に出力して書き込む。
【0084】図8及び図9は、図7のサブルーチンであ
る単語分割及び品詞付与処理(ステップS43)を示す
フローチャートである。図8において、まず、ステップ
S51で文頭の文字を対象文字とする。次いで、ステッ
プS52で対象文字から単語候補を設定し、ステップS
53で単語決定木のルートノードを処理対象のカレント
ノードとする。そして、ステップS54でカレントノー
ドがリーフノードであるか否かが判断される。ステップ
S54でNOであるときは、ステップS55でカレント
ノードの属性値に基づいて子ノードをカレントノードと
して、ステップS54に戻る。ステップS54において
YESであるときは、ステップS56でリーフノードに
割り当てられた頻度確率リストの中で単語カテゴリーの
頻度確率を選択して単語候補に与える。
【0085】次いで、ステップS57で品詞決定木のル
ートノードを処理対象のカレントノードとする。そし
て、ステップS58でカレントノードがリーフノードで
あるか否かが判断される。ステップS58でNOである
ときは、ステップS59でカレントノードの属性値に基
づいて対応する子ノードをカレントノードとしてステッ
プS58に戻る。ステップS58でYESであるとき
は、ステップS60でリーフノードに割り当てられた頻
度確率リストの中で品詞カテゴリーの頻度確率を選択し
て単語候補に与える。そして、図9のステップS61で
他の単語候補があるか否かが判断される。ステップS6
1で他の単語候補があるときはステップS52に戻り、
上記の処理を繰り返す。ステップS61でNOであると
きは、ステップS62で、スタック・デコーダ・アルゴ
リズムに従って所定の結合確率以上の結合確率を有する
単語分割された品詞候補を限定する。そして、ステップ
S63で次の文字があるか否かが判断される。ステップ
S63で次の文字があるときは、ステップS64で次の
文字を対象文字として、ステップS52に戻り、上記の
処理を繰り返す。一方、ステップS63で次の文字が無
いときはステップS65で単語分割された単語と品詞の
組み合わせ列のうち結合確率の上位複数n個を処理候補
として出力する。ここで、単語と品詞の組み合わせ列の
具体例としては、「支払い(名詞)を(格助詞)カード
(名詞)で(格助詞)」の通りである。以上で当該単語
及び品詞付与解析処理を終了する。
【0086】図10及び図11は、図7のサブルーチン
である文法規則付与処理(ステップS44)を示すフロ
ーチャートである。まず、図10のステップS70で単
語分割及び品詞付与処理後の上位n個の処理候補のうち
最上位を処理対象とする。次いで、ステップS71で、
文頭の単語を対象としたパージング状態を生成する。次
いで、ステップS72で、処理方向決定の回数と、文法
規則決定の回数とによって決定されるスタックメモリ1
2内のスタックに直前に生成したパージング状態を追加
する。上記決定されるスタックとは、各パージング状態
を、記録しておくデータ構造を意味する。そして、ステ
ップS73で、上述のスタック・デコーダ・アルゴリズ
ムに従って最大の結合確率を有するパージング状態を選
択し、ステップS64で処理方向決定木を用いて処理方
向を決定する。ここで、処理方向が「右」であるとき
は、ステップS75のYESを介してステップS77で
次の単語を処理対象にしたパージング状態を生成した
後、ステップS72に戻る。また、ステップS74で処
理方向が「上」であるときは、ステップS75及びS7
6を介して、ステップS78で処理対象のノードに文法
規則決定木に従って文法規則タグを加えたパージング状
態を生成した後、図11のステップS81に進む。ここ
で、処理方向が「上」とは、現在の処理対象に対してス
テップS78で、文法規則決定木に従った処理を行うこ
とを意味する。さらに、ステップS74で処理方向が
「左」であるときは、ステップS75及びS76を介し
て、ステップS79で処理対象のノードの範囲を左にの
ばして文法規則決定木に従って文法規則タグを加えたパ
ージング状態を生成した後、図11のステップS81に
進む。
【0087】図11のステップS81において、処理し
ていない単語があるか否かが判断され、YESのときは
図10のステップS72に戻る一方、NOのときは、ス
テップS82で文法規則が1つの文として成立している
か否かが判断され、NOのときステップS85で次の上
位の処理候補を処理対象として図10のステップS71
に戻る一方、YESのときステップS83に進む。ステ
ップS83では、ゴール状態に現在のパージング状態を
追加し、ステップS84で予め決められた一定数(例え
ば、上位N個の結果を得たい場合は、Nである。)のパ
ージング状態がゴール状態となったか否かが判断され、
NOのとき図10のステップS72に戻る一方、YES
のとき当該文法規則付与処理を終了して元のメインルー
チンに戻る。
【0088】以上の実施形態においては、予め決められ
た1つの文法規則体系で構文解析済みの学習用テキスト
データを用いているが、本発明はこれに限らず、他の文
法規則体系G1で解析された一定量のテキストデータが
ある場合、他の文法規則体系G1の情報を利用するよう
に構成してもよく、このとき、構文解析の精度を向上で
きる。ここで、利用する文法規則体系をG0とする。文
法規則体系G1の情報を利用するために、文法規則体系
G1で解析済テキストの一部を、文法規則体系G0で解
析したテキストを作成する。文法規則体系G0及びG1
双方で解析済の同じテキストデータを用いて、利用する
属性に、文法規則体系G1の文法の特徴を反映させた決
定木を学習する。文法規則体系G1の文法の特徴が反映
された決定木を用いて、文法規則体系G1で解析された
テキストを入力することにより、入力の豊富な情報を利
用した解析が可能となり、構文解析の精度を向上するこ
とができる。
【0089】さらに、実施形態の変形例について説明す
る。図17は、変形例の構文情報付与装置11によって
実行される構文情報付与処理(実施形態の図7に対応す
る。)を示すフローチャートであり、図18は、変形例
の構文情報付与装置11における処理途中のパージング
状態及び処理方向の一例(実施形態の図16に対応す
る。)を示すフロー図である。これまでに説明してきた
実施形態の処理では、1文に対して、単語分割、品詞付
与を1通り行い、その結果に対して、文法情報を付与す
る処理を行う手順を示している。上述のように、単語分
割、品詞付与、文法規則付与の順序関係は、何通りかの
可能性がある。当該変形例は、単語分割において1つ単
語と認識されると、品詞付与、文法規則付与を行い、処
理を進める。
【0090】すなわち、変形例では、図17に示すよう
に、ステップS43とS44で、単語分割で1つの単語
が認識されたときに、その単語に対して品詞付与と文法
規則付与を行い、ステップS46からステップS43及
びS44までのループ処理により1つの単語毎に文末ま
で処理することを特徴としている。すなわち、変形例の
ステップS43で単語分割及び品詞処理では、単語分割
及び品詞付与処理後の最上位の単語と品詞の組み合わせ
列(1組)を出力し、これに基づいてステップS44で
は文法規則付与処理が実行されて、構文解析情報(文法
規則)を付与し、そして、それに続く単語について、ス
テップS43とS44の処理を、文末まで実行する。こ
れにより、入力される日本語の文全体について処理する
ことになる。
【0091】具体的には、ステップS43では、入力さ
れる日本語の単語列からなるテキストデータに基づい
て、上記生成された単語カテゴリーの頻度確率付き単語
分割決定木を用いて、上記単語分割決定木のリーフノー
ドに付与された単語カテゴリーの頻度確率の中で上位複
数n個の頻度確率を選択して上記テキストデータの各単
語候補に対して付与するとともに、上記入力される単語
列からなるテキストデータに基づいて、上記生成された
品詞カテゴリーの頻度確率付き品詞決定木を用いて、上
記品詞決定木のリーフノードに付与された品詞カテゴリ
ーの頻度確率の中で上位複数n個の頻度確率を選択して
上記テキストデータの先頭単語候補から1つずつの単語
候補に対して付与し、上記テキストデータの単語列にお
いて最上位の結合確率を有する単語分割された単語と品
詞の組み合わせの列を、処理候補として出力する。次い
で、ステップS44では、出力される処理候補に対し
て、所定のスタック・デコーダ・アルゴリズムを用い
て、文法規則付与処理における各パージング状態での単
語列に対する結合確率が最大の結合確率を有するパージ
ング状態を選択した後、上記生成された頻度確率付き処
理方向決定木を用いて上記処理対象の単語列における処
理方向を決定し、決定された処理方向におけるパージン
グ状態において、上記生成された頻度確率付き文法規則
決定木に従って文法規則を上記処理対象の単語列に加え
ることにより構文解析情報を付与して構文解析済み単語
を出力する。そして、図17に示すように、ステップS
43とS44の処理を、上記入力される単語列からなる
テキストデータの先頭から1つの単語候補ずつ、上記テ
キストデータの1文に対する構文解析済みテキストデー
タが得られるまで繰り返すようにステップS46の処理
により制御する。
【0092】なお、ステップS43の処理では、好まし
くは、上記単語分割決定木のリーフノードに付与された
単語カテゴリーの頻度確率の中で上位複数n個の頻度確
率を選択して上記テキストデータの単語候補に対して付
与し、かつ上記品詞付与決定木のリーフノードに付与さ
れた品詞カテゴリーの頻度確率の中で上位複数n個の頻
度確率を選択して上記テキストデータの各単語候補に対
して付与した後、所定のスタック・デコーダ・アルゴリ
ズムに用いて、処理途中のテキストデータの単語列に対
する結合確率が所定の結合確率以上である単語と品詞の
組み合わせの列の処理候補のみを残して当該組み合わせ
の候補を限定し、当該処理終了時の上記テキストデータ
の単語列において最上位の結合確率を有する単語分割さ
れた単語と品詞の組み合わせの列を、処理候補として出
力する。
【0093】当該変形例において、図18では、実施形
態の図16に比較して、PS7とPS27にみられるよ
うに、解析途中で適用できる文法規則を適宜付与するこ
とで、効率的に解析候補を絞り込むことができることを
特徴としている。
【0094】上述のように、単語分割、品詞付与、文法
規則付与を実行する順序関係は、何通りかの可能性があ
り、一文に対して、単語分割、品詞付与を行ったのちに
文法規則を付与する場合、単語としては成立するが、文
としては成立しない単語あるいは品詞の並びが解析候補
として現れることがある。このような候補は、文法規則
の情報により絞り込まれ、最終的な解析候補になり得な
い。この候補は、文として成立しない単語あるいは品詞
の並びが解析候補として現れたときに文法規則の付与を
行うことで、解析候補から除外することができ、より可
能性のある単語、品詞を候補として残すことができる。
従って、当該変形例のごとく、単語分割において一つ単
語が認識されると、品詞付与、文法規則付与を行い、処
理を進めることにより、単語分割の情報だけでは絞り込
めない解析候補を、品詞の接続や文法規則の情報によ
り、各処理の途中段階で絞り込むことができるようにな
り効率的でかつ精度を向上させることができる。
【0095】以上説明したように、本実施形態及び変形
例によれば、品詞の接続関係、語と品詞の関係、さら
に、離れた語あるいは品詞との依存関係を統計的に処理
するため、自動的に一意に高精度で品詞を付与でき、し
かも高精度で文法規則を付与することができ、高精度の
日本語構文解析システムを提供することができる。ま
た、辞書を用いずに、単語に品詞ラベルを割り当てるた
め、従来技術の問題となる未知語に対する特別な処理が
不必要である。さらに、構文解析済みテキストデータを
用いて学習を行なうため、多くの文法体系に対して柔軟
な対応ができる。さらには、自動的に詳細な構文情報を
付与することができるため、付与された構文情報を翻訳
システム、音声認識システム、又は情報検索システムに
利用することができる。また、詳細な情報を含む構文構
造付きデータを自動的に生成することができるため、構
文情報を付与したデータを大量に蓄えることができる。
【0096】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の日本語構文解析装置によれば、日本語の文字列
からなる構文解析済みテキストデータに基づいて、各単
語の綴りの特徴と、文章内の使われ方による特徴と、単
語の相互情報量を用いた階層的な分類とを含む複数の属
性を用いて、上記各属性の属性値に依存して分割される
ような二分木形式の木構造を有し品詞付与のための品詞
決定木を生成し、上記生成された品詞決定木の分割され
ないノードであるリーフノードに対して複数の品詞に対
する頻度確率を計算して付与することにより、品詞カテ
ゴリーの頻度確率付き品詞決定木を生成する第1の学習
手段と、上記テキストデータに基づいて、各単語の綴り
の特徴と、後続する文字の特徴と、前につながる品詞の
特徴と、単語の相互情報量を用いた階層的な分類とを含
む複数の属性を用いて、上記各属性の属性値に依存して
分割されるような二分木形式の木構造を有し単語分割の
ための単語分割決定木を生成し、上記生成された単語分
割決定木の分割されないノードであるリーフノードに対
して単語及び非単語に対する頻度確率を計算して付与す
ることにより、単語カテゴリーの頻度確率付き単語分割
決定木を生成する第2の学習手段と、上記テキストデー
タに基づいて、処理対象の単語の語数と、処理対象の主
辞単語の品詞、処理対象の直前の単語の品詞、単語の相
互情報量を用いた階層的な分類とを含む複数の属性を用
いて、上記各属性の属性値に依存して分割されるような
二分木形式の木構造を有し文法規則付与のための文法規
則決定木を生成し、上記生成された文法規則決定木の分
割されないノードであるリーフノードに対して複数の文
法規則に対する頻度確率を計算して付与することによ
り、頻度確率付き文法規則決定木を生成する第3の学習
手段と、上記テキストデータに基づいて、処理対象の単
語の語数と、処理対象の主辞単語の品詞、処理対象の直
前の単語の品詞、単語の相互情報量を用いた階層的な分
類とを含む複数の属性を用いて、上記各属性の属性値に
依存して分割されるような二分木形式の木構造を有し文
法規則付与処理における各パージング状態で処理方向を
決定するための処理方向決定木を生成し、上記生成され
た処理方向決定木の分割されないノードであるリーフノ
ードに対して複数の処理方向に対する頻度確率を計算し
て付与することにより、頻度確率付き処理方向決定木を
生成する第4の学習手段と、入力される日本語の文字列
からなるテキストデータに基づいて、上記第2の学習手
段によって生成された単語カテゴリーの頻度確率付き単
語分割決定木を用いて、上記単語分割決定木のリーフノ
ードに付与された単語カテゴリーの頻度確率の中で上位
複数n個の頻度確率を選択して上記テキストデータの各
単語候補に対して付与するとともに、上記入力される文
字列からなるテキストデータに基づいて、上記第1の学
習手段によって生成された品詞カテゴリーの頻度確率付
き品詞決定木を用いて、上記品詞決定木のリーフノード
に付与された品詞カテゴリーの頻度確率の中で上位複数
n個の頻度確率を選択して上記テキストデータの各単語
候補に対して付与し、上記テキストデータの単語候補列
において上位複数n個の結合確率を有する単語分割され
た単語と品詞の組み合わせの列を、複数n個の処理候補
として出力する第1の処理手段と、上記第1の処理手段
から出力される複数n個の処理候補のうち、より上位の
処理候補から順次1つずつの処理候補に対して1つの文
として成立するまで、所定のスタック・デコーダ・アル
ゴリズムを用いて、文法規則付与処理における各パージ
ング状態での単語列に対する結合確率が最大の結合確率
を有するパージング状態を選択した後、上記第4の学習
手段によって生成された頻度確率付き処理方向決定木を
用いて上記処理対象の単語列における処理方向を決定
し、決定された処理方向におけるパージング状態におい
て、上記第3の学習手段によって生成された頻度確率付
き文法規則決定木に従って文法規則を上記処理対象の単
語列に加えることにより構文解析情報を付与して構文解
析済みテキストデータを出力する第2の処理手段とを備
える。従って、品詞の接続関係、語と品詞の関係、さら
に、離れた語あるいは品詞との依存関係を統計的に処理
するため、自動的に一意に高精度で品詞を付与でき、し
かも高精度で文法規則を付与することができ、高精度の
日本語構文解析装置を提供することができる。また、辞
書を用いずに、単語に品詞ラベルを割り当てるため、従
来技術の問題となる未知語に対する特別な処理が不必要
である。さらに、構文解析済みテキストデータを用いて
学習を行なうため、多くの文法体系に対して柔軟な対応
ができる。さらには、自動的に詳細な構文情報を付与す
ることができるため、付与された構文情報を翻訳システ
ム、音声認識システム、又は情報検索システムに利用す
ることができる。また、詳細な情報を含む構文構造付き
データを自動的に生成することができるため、構文情報
を付与したデータを大量に蓄えることができる。
【0097】また、請求項2記載の日本語構文解析装置
によれば、請求項1記載の日本語構文解析装置におい
て、上記各決定木学習手段は、上記二分木の形式で分割
するときに、上記各属性による分割前の属性の有効性の
優先順位を表わすエントロピーH0と分割後のエントロ
ピーHとの差(H0−H)が最大の属性を分割候補の属
性として選択し、所定の分割続行基準を満足するとき
に、二分木の形式で分割して決定木を更新することを特
徴とする。従って、上記各決定木の学習処理を従来例に
比較して効率的に実行することができる。
【0098】さらに、請求項3記載の日本語構文解析装
置によれば、請求項2記載の日本語構文解析装置におい
て、上記分割続行基準は、(I)選択された属性に基づ
いて分割したときのエントロピーの差(H0−H)が所
定のエントロピーしきい値Hth以上であり、かつ(I
I)選択された属性に基づく分割後の属性とその属性値
及び品詞の組のイベント数が所定のイベント数しきい値
Dth以上であることを特徴とする。従って、上記各決
定木の学習処理を従来例に比較して効率的に実行するこ
とができ、処理コストを低減できる。
【0099】またさらに、請求項4記載の日本語構文解
析装置によれば、請求項1乃至3のうちの1つに記載の
日本語構文解析装置において、上記第1の処理手段は、
上記単語分割決定木のリーフノードに付与された単語カ
テゴリーの頻度確率の中で上位複数n個の頻度確率を選
択して上記テキストデータの各単語候補に対して付与
し、かつ上記品詞付与決定木のリーフノードに付与され
た品詞カテゴリーの頻度確率の中で上位複数n個の頻度
確率を選択して上記テキストデータの各単語候補に対し
て付与した後、所定のスタック・デコーダ・アルゴリズ
ムに用いて、処理途中のテキストデータの単語候補列に
対する結合確率が所定の結合確率以上である単語と品詞
の組み合わせの列の処理候補のみを残して当該組み合わ
せの候補を限定し、当該処理終了時の上記テキストデー
タの文字列において上位複数n個の結合確率を有する単
語分割された単語と品詞の組み合わせの列を、複数n個
の処理候補として出力する。従って、上記第1の処理手
段の処理を従来例に比較して効率的に実行することがで
き、処理コスト低減できる。
【0100】本発明に係る請求項5記載の日本語構文解
析装置によれば、日本語の文字列からなる構文解析済み
テキストデータに基づいて、各単語の綴りの特徴と、文
章内の使われ方による特徴と、単語の相互情報量を用い
た階層的な分類とを含む複数の属性を用いて、上記各属
性の属性値に依存して分割されるような二分木形式の木
構造を有し品詞付与のための品詞決定木を生成し、上記
生成された品詞決定木の分割されないノードであるリー
フノードに対して複数の品詞に対する頻度確率を計算し
て付与することにより、品詞カテゴリーの頻度確率付き
品詞決定木を生成する第1の学習手段と、上記テキスト
データに基づいて、各単語の綴りの特徴と、後続する文
字の特徴と、前につながる品詞の特徴と、単語の相互情
報量を用いた階層的な分類とを含む複数の属性を用い
て、上記各属性の属性値に依存して分割されるような二
分木形式の木構造を有し単語分割のための単語分割決定
木を生成し、上記生成された単語分割決定木の分割され
ないノードであるリーフノードに対して単語及び非単語
に対する頻度確率を計算して付与することにより、単語
カテゴリーの頻度確率付き単語分割決定木を生成する第
2の学習手段と、上記テキストデータに基づいて、処理
対象の単語の語数と、処理対象の主辞単語の品詞、処理
対象の直前の単語の品詞、単語の相互情報量を用いた階
層的な分類とを含む複数の属性を用いて、上記各属性の
属性値に依存して分割されるような二分木形式の木構造
を有し文法規則付与のための文法規則決定木を生成し、
上記生成された文法規則決定木の分割されないノードで
あるリーフノードに対して複数の文法規則に対する頻度
確率を計算して付与することにより、頻度確率付き文法
規則決定木を生成する第3の学習手段と、上記テキスト
データに基づいて、処理対象の単語の語数と、処理対象
の主辞単語の品詞、処理対象の直前の単語の品詞、単語
の相互情報量を用いた階層的な分類とを含む複数の属性
を用いて、上記各属性の属性値に依存して分割されるよ
うな二分木形式の木構造を有し文法規則付与処理におけ
る各パージング状態で処理方向を決定するための処理方
向決定木を生成し、上記生成された処理方向決定木の分
割されないノードであるリーフノードに対して複数の処
理方向に対する頻度確率を計算して付与することによ
り、頻度確率付き処理方向決定木を生成する第4の学習
手段と、入力される日本語の文字列からなるテキストデ
ータに基づいて、上記第2の学習手段によって生成され
た単語カテゴリーの頻度確率付き単語分割決定木を用い
て、上記単語分割決定木のリーフノードに付与された単
語カテゴリーの頻度確率の中で上位複数n個の頻度確率
を選択して上記テキストデータの各単語候補に対して付
与するとともに、上記入力される文字列からなるテキス
トデータに基づいて、上記第1の学習手段によって生成
された品詞カテゴリーの頻度確率付き品詞決定木を用い
て、上記品詞決定木のリーフノードに付与された品詞カ
テゴリーの頻度確率の中で上位複数n個の頻度確率を選
択して上記テキストデータの先頭単語候補から1つずつ
の単語候補に対して付与し、上記テキストデータの単語
候補列において最上位の結合確率を有する単語分割され
た単語と品詞の組み合わせの列を、処理候補として出力
する第1の処理手段と、上記第1の処理手段から出力さ
れる処理候補に対して、所定のスタック・デコーダ・ア
ルゴリズムを用いて、文法規則付与処理における各パー
ジング状態での単語列に対する結合確率が最大の結合確
率を有するパージング状態を選択した後、上記第4の学
習手段によって生成された頻度確率付き処理方向決定木
を用いて上記処理対象の単語列における処理方向を決定
し、決定された処理方向におけるパージング状態におい
て、上記第3の学習手段によって生成された頻度確率付
き文法規則決定木に従って文法規則を上記処理対象の単
語列に加えることにより構文解析情報を付与して構文解
析済み単語を出力する第2の処理手段と、上記第1と第
2の処理手段の処理を、上記入力される文字列からなる
テキストデータの先頭から1つの単語候補ずつ、上記テ
キストデータの1文に対する構文解析済みテキストデー
タが得られるまで繰り返すように制御する第3の処理手
段とを備える。従って、品詞の接続関係、語と品詞の関
係、さらに、離れた語あるいは品詞との依存関係を統計
的に処理するため、自動的に一意に高精度で品詞を付与
でき、しかも高精度で文法規則を付与することができ、
高精度の日本語構文解析装置を提供することができる。
また、辞書を用いずに、単語に品詞ラベルを割り当てる
ため、従来技術の問題となる未知語に対する特別な処理
が不必要である。さらに、品詞を付与した構文解析済み
テキストデータを用いて学習を行なうため、多くの品詞
体系に対して柔軟な対応ができる。さらには、自動的に
詳細な構文情報を付与することができるため、付与され
た構文情報を翻訳システム、音声認識システム、又は情
報検索システムに利用することができる。また、詳細な
情報を含む構文構造付きデータを自動的に生成すること
ができるため、構文情報を付与したデータを大量に蓄え
ることができる。さらに、請求項1記載の日本語構文解
析装置に比較して、上記各処理を従来例に比較して効率
的に実行することができ、処理コスト低減でき、しかも
高精度で構文解析することができる。
【0101】また、請求項6記載の日本語構文解析装置
によれば、請求項5記載の日本語構文解析装置におい
て、上記各決定木学習手段は、上記二分木の形式で分割
するときに、上記各属性による分割前の属性の有効性の
優先順位を表わすエントロピーH0と分割後のエントロ
ピーHとの差(H0−H)が最大の属性を分割候補の属
性として選択し、所定の分割続行基準を満足するとき
に、二分木の形式で分割して決定木を更新する。従っ
て、上記各決定木の学習処理を従来例に比較して効率的
に実行することができ、処理コスト低減できる。
【0102】さらに、請求項7記載の日本語構文解析装
置によれば、請求項6記載の日本語構文解析装置におい
て、上記分割続行基準は、(I)選択された属性に基づ
いて分割したときのエントロピーの差(H0−H)が所
定のエントロピーしきい値Hth以上であり、かつ(I
I)選択された属性に基づく分割後の属性とその属性値
及び品詞の組のイベント数が所定のイベント数しきい値
Dth以上であることを特徴とする。従って、上記各決
定木の学習処理を従来例に比較して効率的に実行するこ
とができ、処理コスト低減できる。
【0103】またさらに、請求項8記載の日本語構文解
析装置によれば、請求項5乃至7のうちの1つに記載の
日本語構文解析装置において、上記第1の処理手段は、
上記単語分割決定木のリーフノードに付与された単語カ
テゴリーの頻度確率の中で上位複数n個の頻度確率を選
択して上記テキストデータの単語候補に対して付与し、
かつ上記品詞付与決定木のリーフノードに付与された品
詞カテゴリーの頻度確率の中で上位複数n個の頻度確率
を選択して上記テキストデータの各単語候補に対して付
与した後、所定のスタック・デコーダ・アルゴリズムに
用いて、処理途中のテキストデータの単語候補列に対す
る結合確率が所定の結合確率以上である単語と品詞の組
み合わせの列の処理候補のみを残して当該組み合わせの
候補を限定し、当該処理終了時の上記テキストデータの
文字列において最上位の結合確率を有する単語分割され
た単語と品詞の組み合わせの列を、処理候補として出力
する。従って、上記第1の処理手段の処理を従来例に比
較して効率的に実行することができ、処理コスト低減で
きる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である、決定木学習
装置10及び構文情報付与装置11を備えた日本語構文
解析システムのブロック図である。
【図2】 図1の決定木学習装置10によって実行され
る品詞決定木学習処理を示すフローチャートである。
【図3】 図1の決定木学習装置10によって実行され
る文法規則決定木学習処理を示すフローチャートであ
る。
【図4】 図1の決定木学習装置10によって実行され
る処理方向決定木学習処理を示すフローチャートであ
る。
【図5】 図1の決定木学習装置10によって実行され
る単語分割決定木学習処理を示すフローチャートであ
る。
【図6】 図2乃至図5のサブルーチンである決定木作
成処理(ステップS3,S13,S23,S28)を示
すフローチャートである。
【図7】 図1の構文情報付与装置11によって実行さ
れる構文情報付与処理を示すフローチャートである。
【図8】 図7のサブルーチンである単語分割及び品詞
付与処理(ステップS43)の第1の部分を示すフロー
チャートである。
【図9】 図7のサブルーチンである単語分割及び品詞
付与処理(ステップS43)の第2の部分を示すフロー
チャートである。
【図10】 図7のサブルーチンである文法規則付与処
理(ステップS44)の第1の部分を示すフローチャー
トである。
【図11】 図7のサブルーチンである文法規則付与処
理(ステップS44)の第2の部分を示すフローチャー
トである。
【図12】 図1の決定木学習装置10によって作成さ
れた単語分割決定木ファイルメモリ28内の単語分割決
定木の一例を示す図である。
【図13】 図1の決定木学習装置10によって作成さ
れた品詞決定木ファイルメモリ25内の品詞決定木の一
例を示す図である。
【図14】 図1の決定木学習装置10によって作成さ
れた文法規則決定木ファイルメモリ26内の文法規則決
定木の一例を示す図である。
【図15】 図1の決定木学習装置10によって作成さ
れた処理方法決定木ファイルメモリ27内の処理方向決
定木の一例を示す図である。
【図16】 図1の構文情報付与装置11における処理
途中のパージング状態及び処理方向の一例を示すフロー
図である。
【図17】 変形例の構文情報付与装置11によって実
行される構文情報付与処理を示すフローチャートであ
る。
【図18】 変形例の構文情報付与装置11における処
理途中のパージング状態及び処理方向の一例を示すフロ
ー図である。
【符号の説明】
10…決定木学習装置、 11…構文情報付与装置、 21…構文解析済みテキストデータメモリ、 22…属性リストメモリ、 23…品詞リストメモリ、 24…文法規則リストメモリ、 25…品詞決定木ファイルメモリ、 26…文法規則決定木ファイルメモリ、 27…処理方向決定木ファイルメモリ、 28…単語分割決定木ファイルメモリ、 29…単語リストメモリ、 30…テキストデータメモリ、 31…構文解析済みテキストデータメモリ。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 日本語の文字列からなる構文解析済みテ
    キストデータに基づいて、各単語の綴りの特徴と、文章
    内の使われ方による特徴と、単語の相互情報量を用いた
    階層的な分類とを含む複数の属性を用いて、上記各属性
    の属性値に依存して分割されるような二分木形式の木構
    造を有し品詞付与のための品詞決定木を生成し、上記生
    成された品詞決定木の分割されないノードであるリーフ
    ノードに対して複数の品詞に対する頻度確率を計算して
    付与することにより、品詞カテゴリーの頻度確率付き品
    詞決定木を生成する第1の学習手段と、 上記テキストデータに基づいて、各単語の綴りの特徴
    と、後続する文字の特徴と、前につながる品詞の特徴
    と、単語の相互情報量を用いた階層的な分類とを含む複
    数の属性を用いて、上記各属性の属性値に依存して分割
    されるような二分木形式の木構造を有し単語分割のため
    の単語分割決定木を生成し、上記生成された単語分割決
    定木の分割されないノードであるリーフノードに対して
    単語及び非単語に対する頻度確率を計算して付与するこ
    とにより、単語カテゴリーの頻度確率付き単語分割決定
    木を生成する第2の学習手段と、 上記テキストデータに基づいて、処理対象の単語の語数
    と、処理対象の主辞単語の品詞、処理対象の直前の単語
    の品詞、単語の相互情報量を用いた階層的な分類とを含
    む複数の属性を用いて、上記各属性の属性値に依存して
    分割されるような二分木形式の木構造を有し文法規則付
    与のための文法規則決定木を生成し、上記生成された文
    法規則決定木の分割されないノードであるリーフノード
    に対して複数の文法規則に対する頻度確率を計算して付
    与することにより、頻度確率付き文法規則決定木を生成
    する第3の学習手段と、 上記テキストデータに基づいて、処理対象の単語の語数
    と、処理対象の主辞単語の品詞、処理対象の直前の単語
    の品詞、単語の相互情報量を用いた階層的な分類とを含
    む複数の属性を用いて、上記各属性の属性値に依存して
    分割されるような二分木形式の木構造を有し文法規則付
    与処理における各パージング状態で処理方向を決定する
    ための処理方向決定木を生成し、上記生成された処理方
    向決定木の分割されないノードであるリーフノードに対
    して複数の処理方向に対する頻度確率を計算して付与す
    ることにより、頻度確率付き処理方向決定木を生成する
    第4の学習手段と、 入力される日本語の文字列からなるテキストデータに基
    づいて、上記第2の学習手段によって生成された単語カ
    テゴリーの頻度確率付き単語分割決定木を用いて、上記
    単語分割決定木のリーフノードに付与された単語カテゴ
    リーの頻度確率の中で上位複数n個の頻度確率を選択し
    て上記テキストデータの各単語候補に対して付与すると
    ともに、上記入力される文字列からなるテキストデータ
    に基づいて、上記第1の学習手段によって生成された品
    詞カテゴリーの頻度確率付き品詞決定木を用いて、上記
    品詞決定木のリーフノードに付与された品詞カテゴリー
    の頻度確率の中で上位複数n個の頻度確率を選択して上
    記テキストデータの各単語候補に対して付与し、上記テ
    キストデータの単語候補列において上位複数n個の結合
    確率を有する単語分割された単語と品詞の組み合わせの
    列を、複数n個の処理候補として出力する第1の処理手
    段と、 上記第1の処理手段から出力される複数n個の処理候補
    のうち、より上位の処理候補から順次1つずつの処理候
    補に対して1つの文として成立するまで、所定のスタッ
    ク・デコーダ・アルゴリズムを用いて、文法規則付与処
    理における各パージング状態での単語列に対する結合確
    率が最大の結合確率を有するパージング状態を選択した
    後、上記第4の学習手段によって生成された頻度確率付
    き処理方向決定木を用いて上記処理対象の単語列におけ
    る処理方向を決定し、決定された処理方向におけるパー
    ジング状態において、上記第3の学習手段によって生成
    された頻度確率付き文法規則決定木に従って文法規則を
    上記処理対象の単語列に加えることにより構文解析情報
    を付与して構文解析済みテキストデータを出力する第2
    の処理手段とを備えたことを特徴とする日本語構文解析
    装置。
  2. 【請求項2】 上記各決定木学習手段は、上記二分木の
    形式で分割するときに、上記各属性による分割前の属性
    の有効性の優先順位を表わすエントロピーH0と分割後
    のエントロピーHとの差(H0−H)が最大の属性を分
    割候補の属性として選択し、所定の分割続行基準を満足
    するときに、二分木の形式で分割して決定木を更新する
    ことを特徴とする請求項1記載の日本語構文解析装置。
  3. 【請求項3】 上記分割続行基準は、(I)選択された
    属性に基づいて分割したときのエントロピーの差(H0
    −H)が所定のエントロピーしきい値Hth以上であ
    り、かつ(II)選択された属性に基づく分割後の属性と
    その属性値及び品詞の組のイベント数が所定のイベント
    数しきい値Dth以上であることを特徴とする請求項2
    記載の日本語構文解析装置。
  4. 【請求項4】 上記第1の処理手段は、上記単語分割決
    定木のリーフノードに付与された単語カテゴリーの頻度
    確率の中で上位複数n個の頻度確率を選択して上記テキ
    ストデータの各単語候補に対して付与し、かつ上記品詞
    付与決定木のリーフノードに付与された品詞カテゴリー
    の頻度確率の中で上位複数n個の頻度確率を選択して上
    記テキストデータの各単語候補に対して付与した後、所
    定のスタック・デコーダ・アルゴリズムに用いて、処理
    途中のテキストデータの単語候補列に対する結合確率が
    所定の結合確率以上である単語と品詞の組み合わせの列
    の処理候補のみを残して当該組み合わせの候補を限定
    し、当該処理終了時の上記テキストデータの文字列にお
    いて上位複数n個の結合確率を有する単語分割された単
    語と品詞の組み合わせの列を、複数n個の処理候補とし
    て出力することを特徴とする請求項1乃至3のうちの1
    つに記載の日本語構文解析装置。
  5. 【請求項5】 日本語の文字列からなる構文解析済みテ
    キストデータに基づいて、各単語の綴りの特徴と、文章
    内の使われ方による特徴と、単語の相互情報量を用いた
    階層的な分類とを含む複数の属性を用いて、上記各属性
    の属性値に依存して分割されるような二分木形式の木構
    造を有し品詞付与のための品詞決定木を生成し、上記生
    成された品詞決定木の分割されないノードであるリーフ
    ノードに対して複数の品詞に対する頻度確率を計算して
    付与することにより、品詞カテゴリーの頻度確率付き品
    詞決定木を生成する第1の学習手段と、 上記テキストデータに基づいて、各単語の綴りの特徴
    と、後続する文字の特徴と、前につながる品詞の特徴
    と、単語の相互情報量を用いた階層的な分類とを含む複
    数の属性を用いて、上記各属性の属性値に依存して分割
    されるような二分木形式の木構造を有し単語分割のため
    の単語分割決定木を生成し、上記生成された単語分割決
    定木の分割されないノードであるリーフノードに対して
    単語及び非単語に対する頻度確率を計算して付与するこ
    とにより、単語カテゴリーの頻度確率付き単語分割決定
    木を生成する第2の学習手段と、 上記テキストデータに基づいて、処理対象の単語の語数
    と、処理対象の主辞単語の品詞、処理対象の直前の単語
    の品詞、単語の相互情報量を用いた階層的な分類とを含
    む複数の属性を用いて、上記各属性の属性値に依存して
    分割されるような二分木形式の木構造を有し文法規則付
    与のための文法規則決定木を生成し、上記生成された文
    法規則決定木の分割されないノードであるリーフノード
    に対して複数の文法規則に対する頻度確率を計算して付
    与することにより、頻度確率付き文法規則決定木を生成
    する第3の学習手段と、 上記テキストデータに基づいて、処理対象の単語の語数
    と、処理対象の主辞単語の品詞、処理対象の直前の単語
    の品詞、単語の相互情報量を用いた階層的な分類とを含
    む複数の属性を用いて、上記各属性の属性値に依存して
    分割されるような二分木形式の木構造を有し文法規則付
    与処理における各パージング状態で処理方向を決定する
    ための処理方向決定木を生成し、上記生成された処理方
    向決定木の分割されないノードであるリーフノードに対
    して複数の処理方向に対する頻度確率を計算して付与す
    ることにより、頻度確率付き処理方向決定木を生成する
    第4の学習手段と、 入力される日本語の文字列からなるテキストデータに基
    づいて、上記第2の学習手段によって生成された単語カ
    テゴリーの頻度確率付き単語分割決定木を用いて、上記
    単語分割決定木のリーフノードに付与された単語カテゴ
    リーの頻度確率の中で上位複数n個の頻度確率を選択し
    て上記テキストデータの各単語候補に対して付与すると
    ともに、上記入力される文字列からなるテキストデータ
    に基づいて、上記第1の学習手段によって生成された品
    詞カテゴリーの頻度確率付き品詞決定木を用いて、上記
    品詞決定木のリーフノードに付与された品詞カテゴリー
    の頻度確率の中で上位複数n個の頻度確率を選択して上
    記テキストデータの先頭単語候補から1つずつの単語候
    補に対して付与し、上記テキストデータの単語候補列に
    おいて最上位の結合確率を有する単語分割された単語と
    品詞の組み合わせの列を、処理候補として出力する第1
    の処理手段と、 上記第1の処理手段から出力される処理候補に対して、
    所定のスタック・デコーダ・アルゴリズムを用いて、文
    法規則付与処理における各パージング状態での単語列に
    対する結合確率が最大の結合確率を有するパージング状
    態を選択した後、上記第4の学習手段によって生成され
    た頻度確率付き処理方向決定木を用いて上記処理対象の
    単語列における処理方向を決定し、決定された処理方向
    におけるパージング状態において、上記第3の学習手段
    によって生成された頻度確率付き文法規則決定木に従っ
    て文法規則を上記処理対象の単語列に加えることにより
    構文解析情報を付与して構文解析済み単語を出力する第
    2の処理手段と、 上記第1と第2の処理手段の処理を、上記入力される文
    字列からなるテキストデータの先頭から1つの単語候補
    ずつ、上記テキストデータの1文に対する構文解析済み
    テキストデータが得られるまで繰り返すように制御する
    第3の処理手段とを備えたことを特徴とする日本語構文
    解析装置。
  6. 【請求項6】 上記各決定木学習手段は、上記二分木の
    形式で分割するときに、上記各属性による分割前の属性
    の有効性の優先順位を表わすエントロピーH0と分割後
    のエントロピーHとの差(H0−H)が最大の属性を分
    割候補の属性として選択し、所定の分割続行基準を満足
    するときに、二分木の形式で分割して決定木を更新する
    ことを特徴とする請求項5記載の日本語構文解析装置。
  7. 【請求項7】 上記分割続行基準は、(I)選択された
    属性に基づいて分割したときのエントロピーの差(H0
    −H)が所定のエントロピーしきい値Hth以上であ
    り、かつ(II)選択された属性に基づく分割後の属性と
    その属性値及び品詞の組のイベント数が所定のイベント
    数しきい値Dth以上であることを特徴とする請求項6
    記載の日本語構文解析装置。
  8. 【請求項8】 上記第1の処理手段は、上記単語分割決
    定木のリーフノードに付与された単語カテゴリーの頻度
    確率の中で上位複数n個の頻度確率を選択して上記テキ
    ストデータの単語候補に対して付与し、かつ上記品詞付
    与決定木のリーフノードに付与された品詞カテゴリーの
    頻度確率の中で上位複数n個の頻度確率を選択して上記
    テキストデータの各単語候補に対して付与した後、所定
    のスタック・デコーダ・アルゴリズムに用いて、処理途
    中のテキストデータの単語候補列に対する結合確率が所
    定の結合確率以上である単語と品詞の組み合わせの列の
    処理候補のみを残して当該組み合わせの候補を限定し、
    当該処理終了時の上記テキストデータの文字列において
    最上位の結合確率を有する単語分割された単語と品詞の
    組み合わせの列を、処理候補として出力することを特徴
    とする請求項5乃至7のうちの1つに記載の日本語構文
    解析装置。
JP10072037A 1998-03-20 1998-03-20 日本語構文解析装置 Expired - Fee Related JP3035261B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10072037A JP3035261B2 (ja) 1998-03-20 1998-03-20 日本語構文解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10072037A JP3035261B2 (ja) 1998-03-20 1998-03-20 日本語構文解析装置

Publications (2)

Publication Number Publication Date
JPH11272665A true JPH11272665A (ja) 1999-10-08
JP3035261B2 JP3035261B2 (ja) 2000-04-24

Family

ID=13477813

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10072037A Expired - Fee Related JP3035261B2 (ja) 1998-03-20 1998-03-20 日本語構文解析装置

Country Status (1)

Country Link
JP (1) JP3035261B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006503328A (ja) * 2002-10-16 2006-01-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ディレクトリアシスタント方法及び装置
CN108197295A (zh) * 2018-01-22 2018-06-22 重庆邮电大学 基于多粒度属性树的属性约简在文本分类中的应用方法
CN110427461A (zh) * 2019-08-06 2019-11-08 腾讯科技(深圳)有限公司 智能问答信息处理方法、电子设备及计算机可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006503328A (ja) * 2002-10-16 2006-01-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ディレクトリアシスタント方法及び装置
CN108197295A (zh) * 2018-01-22 2018-06-22 重庆邮电大学 基于多粒度属性树的属性约简在文本分类中的应用方法
CN110427461A (zh) * 2019-08-06 2019-11-08 腾讯科技(深圳)有限公司 智能问答信息处理方法、电子设备及计算机可读存储介质
CN110427461B (zh) * 2019-08-06 2023-04-07 腾讯科技(深圳)有限公司 智能问答信息处理方法、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
JP3035261B2 (ja) 2000-04-24

Similar Documents

Publication Publication Date Title
Brill Transformation-based error-driven learning and natural language processing: A case study in part-of-speech tagging
Magerman Natural language parsing as statistical pattern recognition
EP0830668B1 (en) Systems and methods for word recognition
Derouault et al. Natural language modeling for phoneme-to-text transcription
US6721697B1 (en) Method and system for reducing lexical ambiguity
US7035789B2 (en) Supervised automatic text generation based on word classes for language modeling
US6760695B1 (en) Automated natural language processing
US7379870B1 (en) Contextual filtering
Chelba Exploiting syntactic structure for natural language modeling
US7752033B2 (en) Text generation method and text generation device
Araujo Part-of-speech tagging with evolutionary algorithms
CN109815497B (zh) 基于句法依存的人物属性抽取方法
Srihari et al. Incorporating syntactic constraints in recognizing handwritten sentences
Araujo How evolutionary algorithms are applied to statistical natural language processing
Kim et al. Learning-based intrasentence segmentation for efficient translation of long sentences
JP3035261B2 (ja) 日本語構文解析装置
JP3309174B2 (ja) 文字認識方法及び装置
Magerman Parsing as statistical pattern recognition
Zaenen et al. Language analysis and understanding
JP3027553B2 (ja) 構文解析装置
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JP3100556B2 (ja) 品詞付与装置
JP3174526B2 (ja) 形態素解析装置
Humphreys et al. Reusing a statistical language model for generation
Janicki Statistical and Computational Models for Whole Word Morphology

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090218

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100218

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110218

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120218

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130218

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140218

Year of fee payment: 14

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees