JP4976789B2

JP4976789B2 - トークン列中の境界検出方法、装置、プログラム、記録媒体

Info

Publication number: JP4976789B2
Application number: JP2006240050A
Authority: JP
Inventors: 隆伸大庭; 貴明堀; 篤中村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-09-05
Filing date: 2006-09-05
Publication date: 2012-07-18
Anticipated expiration: 2026-09-05
Also published as: JP2008065435A

Description

本発明は、トークン（単語などの配列の要素）の並びからなるトークン列（文章など）において、クラスタ（文節などのまとまりをもつ単位）の境界を検出するトークン列中の境界検出方法、装置、プログラム、このプログラムを記録した記録媒体に関する。

単語列やＤＮＡの塩基配列等は、無秩序に並んでいるわけではなく、何らかのまとまりや、ルール、構造を持って並んでいる。例えば、日本語の単語列は、幾つかの単語が文節や句、文といった意味のまとまりを構成し、それらが連続的に並ぶ。また、単語、文節、句等は、修飾関係のような依存構造を持ち、文を構成している。
ここでは、単語のような配列の要素をトークン、文節のようなまとまりをクラスタ（もしくはチャンク）と呼ぶことにする。
トークン列に内在するクラスタや依存構造を見付ける技術は、トークン列が所有する情報を抽出する上で極めて重要である。

文節のような比較的少数のトークンからなるクラスタの検出においては、ＨＭＭ（隠れマルコフモデル）、ＳＶＭ（サポートベクターマシン）、ＣＲＦ（条件付き確率場）といったクラス識別に基づく従来技術が有効である。しかし、これらの技術はその局所依存性のため、文といった長いトークン列から構成される単位の検出には不向きである。文境界の検出は、文節といったより小さなクラスタ（サブクラスタ）間の依存構造まで考慮した上で行われる方が妥当である。
（チャンキング手法）
チャンキングによる文境界検出方法としてラベリングに基づくチャンキング手法が存在する。

チャンキングは任意のトークンをある視点からまとめあげ、まとめあげた固まり（チャンク、ここではクラスタに相当）をそれが果たす役割ごとに分類する一連の手続きである。
チャンキングの際、トークン列に対し各チャンクの状態をいかに表現するかが課題となる。これは一般に各トークンにラベルを付与することで実現する。各トークンに、そのトークンがチャンクの先頭、終了である、といったラベルを付与する。このラベルの与え方について（非特許文献１）が幾つかのモデルを提案、比較している。ここでは、そのラベルモデルのひとつであるＩＯＢ２を説明する。ＩＯＢ２のＩ、Ｏ、Ｂはトークンに付与するラベル値である。ＩＯＢ２はオリジナルのＩＯＢの拡張版であり、ＩＯＢと区別するためにＩＯＢ２と名付けられた経緯がある。ＩＯＢ２における各ラベル値の意味は下記の通りである。

Ｉ：該当トークンがチャンクの一部
Ｏ：該当トークンがチャンクの外
Ｂ：該当トークンがチャンクの先頭
各チャンクを、それが果たす役割ごとに分類した場合は異なるラベルを用いる。次は、音声認識装置の出力である無音記号＜pause＞つき単語列を文節で区切った場合の列である。無音記号は、音声中一定時間以上の無音区間が観測された箇所に挿入されている。

Ｂの代わりに、文の先頭を示すＢｓ、その他の文節の先頭を表すＢｂを用いて、文頭の文節とその他の文節とを区別している。
以下、トークン列にラベル列を与える（ラベリング）技術についての学習と解析のステップをそれぞれ説明する。
図１には、学習のステップのフローが示されている。学習データは、上記のトークン列とそれに対応するラベル列のペアである。ステップＵ２で、この学習データから、各位置におけるトークン、およびその周辺のトークン列・ラベル列の特徴を抽出する。一般的にこの特徴を素性と呼ぶ。まず、単語列のラベリングを例に、素性について説明する。

ｗｏｒｄｓ彼が来たそうです
ｐｏｓｉｔｉｏｎｉ−２ｉ−１ｉｉ＋１ｉ＋２
今、上のような単語列が与えられたもとで、位置ｉにおける素性を抽出した場合、次のような素性が抽出される。
（位置−１の表層）が
（位置０の表層）来た
（位置＋１の表層）そう
（位置−１の品詞）助詞
（位置０の品詞）動詞
（位置＋１の品詞）助動詞
（位置−１，０の表層列）が＿来た
（位置０，＋１の表列層）来た＿そう
（位置−１，０，＋１の表層列）が＿来た＿そう
この例では、素性抽出の範囲を前後１単位の範囲に限定し、単語の持つ情報として表層と品詞に限定しているが、任意の範囲、情報を素性に導入することができる。また、前後位置（位置０以外）でのラベル値も素性としてもよい。

この素性抽出を基本的には全位置（または極めて多くの位置）に対して行うため、素性の種類の総数は極めて多くなる。今、ある位置で抽出された素性に対してのみ１を持ち、それ以外の全素性を０とするベクトルを考えれば、殆どが０でごく一部だけが１を持つようなベクトルになる。このような抽出された素性に対応する要素だけが１を持つようなベクトルを素性ベクトルと呼ぶ。図１、ステップＵ２での作業は、実質、この素性ベクトルの抽出に相当し、各位置における素性ベクトルとラベル値のペアをステップＵ３に引き渡す。

ステップＵ３では、素性ベクトルから各ラベル値への写像を求める。写像を求めることにより、ある素性ベクトルが与えられた場合に、どのラベルを持つか推定可能となる。
写像の推定方法としては様々な手法が提案されているが、ここでは、近年注目を集めている非特許文献２及び非特許文献３に記載されているＣＲＦ（条件付き確率場）及びＳＶＭ（サポートベクターマシン）について簡単に説明する。
ＣＲＦは入力トークン系列ｘ_＊に対するラベル系列ｙ_＊の条件付き確率Ｐ（ｙ_＊｜ｘ_＊）を次式のように指数分布モデルで表現し、素性ベクトルとラベル間の写像を系列全体を考慮した上で推定することができる。以下文中＊をサフィックスに付した文字及び数式中肉太文字はそれぞれベクトルを指す。

f_i(y_＊,x_＊)は位置ｉでの素性ベクトルである。λ_＊は各素性ベクトルの重みであり、学習により得られるパラメータである。

ＣＲＦでは、位置ｉでラベルｙが得られる確率も算出可能であり、

により与えられる。ただし、α_i(x_＊)_＊、β_i(x_＊)_＊はそれぞれα_0＊＝１、β_｜x_＊｜＊＝１と初期化された場合に、
α_i(x_＊)_＊＝α_i-1(x_＊)_＊M_i(x_＊)_＊ where 0＜i≦｜x_＊｜
β_i(x_＊)^Ｔ _＊＝M_i+1(x_＊)_＊β_i+1(x_＊)_＊ where 1≦i＜｜x_＊｜
により再帰的に与えられる。Ｍ_i(x_＊)_＊＝[M_i(y,y'｜x_＊)]_＊は、位置ｉでのラベルｙからｙ’への遷移行列であり、[M_i(y,y'｜x_＊)]_＊＝[expλ_＊・f_i(y,y',x_＊)]_＊により算出される。詳細は割愛するが、学習により重みベクトルλ_＊を推定する際に遷移行列を導入することで、ＣＲＦは系列全体を考慮したラベル推定を可能にし、かつ学習を効率的に行うことが可能である。

一方、ＣＲＦが系列を考慮するのに対し、ＳＶＭを用いた場合は直接的に位置ｉで得らられた素性ベクトルf_i＊からその位置におけるラベル値を推定する。
今、２種のラベルを識別することを考える。素性ベクトル空間上でその２種のラベルが完全に分離可能であるとすると図２のように示される。同図において、識別境界が実線で示されるとき、それを最も近傍に位置する両ラベルに対するサンプルまで平行移動したものが破線で示されている。この両破線間の距離はマージンと呼び、破線と交わるサンプルをsupport vectorと呼ぶ。マージンが大きいほど汎化能力が向上するのでＳＶＭではマージン最大化するように識別境界を決定する。識別境界からサンプルまでの距離ｄが大きいほど該当ラベルに属す妥当性が高いということができるため、この距離ｄをラベルのスコアと見なす場合も多い。一般には線形分離困難であるため、ＳＶＭでは高次元空間上に写像し線形分離を容易にさせる枠組みを有しており、これにより高精度な識別が可能である。３種異常のラベル識別に対しては、複数のＳＶＭモデルを用いることにより、多数決や、距離ｄに基づき最尤ラベルを決定すればよい。

次に、一般的なチャンキング解析のステップを図３に沿って説明する。
入力トークン列に対し位置ｉ＝０からラベル推定を開始する。ステップＵ２で素性ベクトルを抽出する。これをもとにステップＵ３で位置ｉにおけるラベルを推定する。これを入力トークン長だけ繰り返す。この際、ステップＵ３での推定は、必ずしも決定とはならない。系列を考慮するモデルでは、全位置におけるラベル推定後、最尤レベル系列を決定する。これがステップＵ４に相当する。具体的には、ＣＲＦでは、式（１）を最大化するラベル列ｙ_＊を選択する。一方、ＳＶＭのようなモデルでは、ステップＵ３でのラベル推定はそのまま位置ｉにおけるレベルの決定となる。

これら従来型のラベリング技術では、各位置から抽出される局所的素性がその位置におけるラベル決定に強く影響する。ＣＲＦのように系列を考慮可能なモデルであったとしても、局所的素性があたえる影響が極めて大きく、長距離の制約を与えているとはいい難い。このため、文節のような近傍数単語のみで区別可能なクラスタの抽出に適しているものの、文といった広く全体を見渡した上で決定すべきクラスタの抽出では、十分な精度を得ることはできない。

（逐次的係り受け解析）
次に逐次的係り受け解析（非特許文献４）を簡単に説明する。
逐次的係り受け解析は、文境界を探索しながら係り受け構造（依存関係、装飾関係）を解析するために提案された。
係り受け構造Ｄとは、ユニット列（単語列、もしくは文節列）Ｕ＝u₁,u₂,…u_nの各ユニット間の依存関係を表現したものである。ユニットuが別なユニットvに従属しているとき、uを係り元、vを係り先と呼び、u→vと記す。全ユニットはただひとつ係り先を持つものとし、u₁,u₂,…u_nに対応するv₁,v₂,…v_nのというペア列が係り受け構造Ｄとなる。
一般的な係り受け解析は文単位で解析される。つまり、文境界が既知であるという条件下で解析が行われる。ここではこれを通常の係り受け解析と称することにする。

それに対し、逐次的係り受け解析はメタシンボルを導入することでユニット列の間に存在する文境界を検出する。今図４において、ユニットu₄とユニットu₅の間が文境界であるか検証する場合、そこにメタシンボルを存在させた場合の係り受け構造と、存在させない場合の係り受け構造のどちらがより妥当な構造であるかを評価する。もし、メタシンボルを存在させた場合の係り受け構造の方が妥当性の高い構造であると評価された場合、ユニットu₄とユニットu₅の間が文境界であると判断する。メタシンボルの存在を仮定する位置は、全ユニットの間でもよいし、あるルールを用いて決めてもよい。
各構造の妥当性の評価は、係り受け解析手法に依存する。最も一般的な手法のひとつは確率的に行うもので、確率値の大小で構造の妥当性を評価する。この方法では、係り受け解析は次式を満たすＤ^＊を求めることに相当する。

P(D｜U)が構造の妥当性に相当する。Ｃ_i＊は、係り先候補となるユニットの集合である。Φ_＊は係り受け解析用の素性ベクトル、ｗ_＊は各要素の重みであり、学習データを用いて推定するパラメータである。素性ベクトルはチャンキングと同様で、ユニットの情報を表した０，１のベクトルである。係り受け解析では、ユニットu_iから遠距離にあるユニットcも考慮されるため、チャンキングより広範囲に渡る情報を考慮できる。
係り受け解析の目的は、可能な全構造の中から尤もらしい係り受け構造を見つけることにあり、それは通常の係り受け解析であるか逐次係り受け解析であるかを問わず、また解析手法にもよらない。逐次的係り受け解析では、文末シンボルが加えられた分だけ可能な構造数が増加している。

さて、さらに逐次的係り受け解析は別なメタシンボル<c>を導入することにより、連続的なユニットの入力に対し逐次的に処理することが可能である。図５では、長さ５のユニット列の係り受け構造解析後、その結果を利用して、もう２ユニット追加されたユニット列の解析を実施している。メタシンボル<c>をユニット列の最後に追加することで、未入力のユニットとの間の係り受け構造を解析し、新たなユニットの入力時それを更新することで逐次処理を可能にしている。

逐次的係り受け解析の一連の流れを図示すると図６のようになる。ユニット列入力（ステップＵ１）に対し、メタシンボル<c>を追加し（ステップＵ２）、メタシンボルの挿入箇所を決定（ステップＵ３）。メタシンボルを含めたユニット列の中から最適な構造を見付け（ステップＵ４）、入力の終了まで繰り返し（ステップＵ５）、係り受け構造を更新していく。
Erik F. Tjong Kim Sang, Jorn Veenstra. "Representing Text Chun-ks," Proceedings of The European Chapter of the ACL (EACL), pp. 173-179. 1999. John Lafferty, Andrew McCallum, Fernando Pereira. "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data," P-roceedings of International Conference on Machine Learning, pp. 282-289. 2001. 工藤拓、松本祐治，"Support Vector Machine を用いたChunk 同定，"情報処理学会自然言語処理研修会 SIGNAL-140, pp. 9-16. 2000. Takanobu Oda, Takaaki Hori, Atsushi Nakamura. "Sequential Dependency Analysis for Spontaneous Speech Understanding," Automatic Speech Recogn-ition and Understanding Workshop, pp. 284-289. 2005.

従来のトークン列中の境界検出方法としては上述したラベリングに基づくチャンキングを用いる方法があった。これは学習用トークン列中の各トークンにラベルを割当て、トークン列からラベル列への局所的な写像関係を学習し、学習効果を用いて任意トークン列のクラスタ境界を推定している。写像の学習方法としては、条件付き確率場（ＣＲＦ）やサポートベクターマシン（ＳＶＭ）等を用いている。
この従来技術では文全体のような大局的情報をクラスタ境界の検出に反映させることが困難であるため、推定精度が低い不都合がある。
本発明の目的はトークン列中に存在する境界（文境界）を精度よく検出することができるトークン中の境界検出方法及び装置を提供しようとするものである。

本発明によるトークン列中の境界検出方法はチャンキング処理と、逐次的係り受け解析処理とを併用し、これらの解析結果から新たな素性を加えて再度チャンキングによる境界判定処理を実行することを特徴とする。
本発明によるトークン列中の境界検出方法は更に、チャンキング処理によりサブクラスタの境界を評価し、チャンキング処理のスコアを含む結果を逐次的係り受け解析に直接適用し、逐次的係り受け解析により境界判定処理を実行することを特徴とする。
本発明によるトークン列中の境界検出方法は更に、前記記載のトークン列中の境界検出方法において、逐次的係り受け解析の枠組みの中でチャンキング処理の結果の中のサブクラスタ情報のみを利用して境界判定処理を実行することを特徴とする。

本発明によるトークン列中の境界検出装置はチャンキング処理部と、逐次係り受け解析処理部と、これらの各処理部の処理結果から新たな素性を加えて再度チャンキングによる境界判定処理を実行する境界判定処理部とを備えることを特徴とする。
本発明によるトークン列中の境界検出装置は更に、トークン列中のサブクラスタ境界を評価するチャンキング処理部と、チャンキング処理部のスコアを含む結果を直接適用し境界判定処理を実行する逐次係り受け解析部とを備えることを特徴とする。
本発明によるトークン列中の境界検出装置は更に、前記トークン列中の境界検出装置において、逐次的係り受け解析処理部はチャンキング処理部の処理結果の中のサブクラスタ情報のみを利用して境界判定処理を実行することを特徴とする。

本発明によるトークン列中の境界検出プログラムはコンピュータが解読可能なプログラム言語によって記述され、コンピュータに前記記載の境界検出方法を実行させることを特徴とする。
本発明による記録媒体はコンピュータが読み取り可能な記録媒体によって構成され、この記録媒体に前記記載のトークン列中の境界検出プログラムを記録したことを特徴とする。

従来は、トークン列の局所的な性質だけでは説明のつかないクラスタ境界を精度良く検出することが困難であった。一方、本発明では長いトークン列に内在するサブクラスタ間の依存構造を考慮することが可能であり、その結果、トークン列の局地的な性質だけでは説明のつかないクラスタ境界も精度良く検出することが可能である。また、トークン列の入力に沿って逐次的に処理を行うことも可能である。更に、サブクラスタ間の依存構造解析としても高い精度を提供する。

本発明によるトークン列中の境界検出方法及び装置はハードウェアによってトークン列中の境界検出装置を構成し、その装置によってトークン列中の境界検出方法を実行させることも可能であるが、それより簡素に実現するには、コンピュータに本発明によるトークン列中の境界検出プログラムをインストールし、コンピュータに本発明によるトークン列中の境界検出装置として機能させ、本発明によるトークン列中の境界検出方法を実行させる形態が最良の実施形態である。
コンピュータに本発明によるトークン列中の境界検出方法を実行させるには、コンピュータに本発明によるトークン列中の境界検出プログラムをインストールし、このプログラムによりコンピュータにチャンキング処理部と、逐次係り受け解析処理部と、これらの各処理部の処理結果から新たな素性を加えて再度チャンキングによる境界判定処理を実行する境界判定処理部とを構成することによりトークン列中の境界検出装置として機能させればよい。

図７に本発明のトークン列中の境界検出装置の第１の実施例を示す。図７に示す１０は本発明によるトークン列中の境界検出装置を示す。この実施例ではコンピュータによってトークン列中の境界検出装置を構成した場合を示す。コンピュータは一般に良く知られているように、中央演算処理装置（ＣＰＵ）１１と、読み出し専用メモリＲＯＭ１２と、書き換え可能なメモリ（ＲＡＭ）１３と、入力ポート１４、出力ポート１５とによって構成される。

起動中はＲＡＭ１３にプログラムが読み込まれ、プログラムによってチャンキング処理部１３Ａ、逐次係り受け解析処理部１３Ｂ、境界判定部１３Ｃ、データ記憶部１３Ｄ等が構築される。つまり、ＲＡＭ１３に読み込まれたプログラムがＣＰＵ１１によって解読され、チャンキング処理と、逐次係り受け解析処理と、境界判定処理とが実行される。
入力ポート１４には入力手段２０が接続される。この入力手段２０からトークン列及びクラスタ境界データ等が入力される。出力ポート１５には例えば表示器とプリンタのような出力端末３０が接続され、境界判定結果を表示する。

本実施例のトークン列中の境界検出方法及び装置では境界判定処理部１３Ｃが境界判定処理を実行する場合に用いるチャンキングモデルを予め学習により用意する必要がある。図８にその学習の手順を示す。ステップＵ２で実行するチャンキング処理と、ステップＵ３で実行する逐次的係り受け解析処理では予めチャンキング用モデル（モデルＡ）と逐次的係り受け解析用モデル（モデルＢ）が学習により用意される。前者の学習方法は図１を用いて既に説明済みである。後者の学習方法は係り受け構造を持った学習データに対しメタシンボル<c>、を加えたデータから周知の係り受け解析の学習手順で実現できる。

図８に示す入力手段２０に用意するトークン列／クラスタ境界データは、トークン列とラベル列の対応付けデータであるが、ステップＵ２とＵ３で用いるモデルＡ及びモデルＢの学習に用いたデータとは異なる文章が記されているデータであることが望ましい。
図８で実行される学習では入力はトークン列である。先ずこのトークン列をステップＵ２でモデルＡでチャンキング処理を適応し保存しておく。次に得られたユニット列に対しステップＵ３でモデルＢで逐次的係り受け解析を適応し保存する。
ステップＵ４で素性ラベルのペアを抽出する。ラベルは入力手段２０から「トークン列／クラスタ境界データ」より与えられる。素性は、「チャンキング結果」「係り受け解析結果」から抽出する。素性としてはチャンキングスコア＋結果、トークン列の情報、係り受け構造から得られる情報スコア等とすることができる。これらの素性、ラベルペアを用いてＣＲＦやＳＶＭ等のチャンキング学習（ステップＵ５）を行い、新たなチャンキングモデル（モデルＣ）を生成し、保存する。

図９に生成されたモデルＣを用いて境界判定処理を行う本発明のトークン列中の境界判定方法の手順を示す。本発明では大きなクラスタの境界がサブクラスタの境界の何れかに一致していることを前提とする。ステップＵ１では入力されたトークン列をチャンキング処理部１３ＡがモデルＡでチャンキング処理する。続いてステップＵ２でトークン列をユニット列に変換し、ユニット列を逐次的係り受け解析処理部１３Ｂに受け渡す。逐次的係り受け解析処理部１３Ｂは入力されたユニット列をモデルＢで逐次的係り受け解析処理（ステップＵ３）する。

境界判定処理部１３Ｄはこれらのチャンキング処理結果と逐次係り受け解析処理結果を利用してモデルＣで境界判定処理を実行する。境界判定処理としてはＣＲＦやＳＶＭを適用することができる。つまり、本発明の特徴とする点は境界判定処理部１３Ｃが実行する境界判定処理において、ステップＵ２で実行したチャンキング処理と、ステップＵ３で実行した逐次的係り受け解析処理の結果から、各トークンの新たな素性を抽出し、この新たな素性を加えて再度チャンキングをし直す点にある。これにより使用可能な素性の種類が多くなり、使用可能な素性の種類が多い分だけ高精度な境界検出が可能となる。ここで使用可能な素性としては単語情報の他にスコア、チャンキングのシンボル、係り受けの構造等を用いることができる。

図１０にトークン列中の境界検出装置の第２の実施例を示す。この実施例では図７に示した実施例から境界判定処理部１３Ｃを除去した構成とした点を特徴とするものである。つまり、この実施例２ではチャンキング処理部１３Ａの処理結果を逐次係り受け解析処理部１３Ｂで直接利用して逐次係り受け解析により境界判定を実行する。
以下では単語列をトークン列とし、クラスタとして文節および文を抽出する場合を例にとり説明する。ここでは説明を簡素化するために以下の状況を説明する。
・チャンキングでのラベリング方法としてＩＯＢ２を用いる。文の先頭にはＢｓ、その他の文節の先頭にはＢｂのラベルを用いる。
・係り受け構造を求める方法として式（３）から（５）を用いる。
以下、図１１に示す手順に沿って説明する。
ステップＵ１：トークン列（単語列＋無音記号等）Ｗをチャンキング処理部１３ＡがモデルＡで各トークンにラベルを付与、その際、各位置での各ラベルの出現可能性を示すスコアを保持しておく。小さなクラスタ（文節）の境界についてはこの段階で確定する。
ステップＵ２：逐次的受け係り受け解析処理部１３Ｂに引き渡すユニット列の生成。１文節１ユニットにする等、Ｏラベルが付与されたトークンについては、除去してもよいし、単体で１ユニットとしてもよい。
ステップＵ３：逐次的係り受け解析処理部１３Ｂはユニット列を逐次的係り受け解析し、大きなクラスタ（文）の境界を検出する。その際、式（４）のP(u_i→v_i｜Φ_＊(u_i,v,U))
を修正し、ステップＵ１で保持していたチャンクのスコアを重みとして反映させる。例えば、ステップＵ１でＣＲＦチャンキングを適用した場合、式（４）のP(u_i→v_i｜Φ_＊(u_i,v,U))を

に置換する。ここで、P(Y_()=y｜W_＊)は、逐次的係り受け解析がメタシンボルを挿
入した位置（図１２参照）のクラスタ境界を与える単語ラベルがyである確率である。α
は、スコアを調整するスケーリングパラメータで任意の値に設定しておく。

チャンキングのスコアの利用の仕方は任意とし、ＳＶＭチャンキングを適用した場合、そのスコアd(Y_()=y｜W_＊)を

などとすることも可能である。
これにより、係り受け構造をチャンキング結果を考慮しながら行うことができ、チャンキングと逐次的係り受け解析の両観点から大きなクラスタの境界を検出できる。
以下では、文境界検出の実験を通し本発明の有効性を示す。
実験には、日本語話し言葉コーパス（ＣＳＪ）［参考文献１］を使用する。ＣＳＪには６０４時間の講演データの音声データ、書き起し文、文節境界、文境界、係り受け構造、無音区間の時刻とその長さの情報等が収められている。

講演１８９データを学習データ、開発用データ、テキストデータに分割し、書き起しに対して文節抽出、文境界検出、係り受け解析を行った。分割されたデータの内訳は以下の通りである。

実施例２の有効性を示すための比較対象として、チャンキングにより文節、文境界を検出後、検出された文単位で係り受け解析を行う。つまり通常の係り受け解析を行う。
チャンキング手法としてＣＲＦとＳＮＭ双方を用いた、入力単語列には無音記号<pause>を混入させ、一般の単語と同等に扱った。素性には、位置ｉ−３からｉ＋３に渡る単語の表記、品詞、品詞細分類、活用、活用形、およびそれら組合せを用いた。加えてＣＲＦではラベルのbi-gram（位置ｉ−１のラベル値）を、ＳＶＭではｉ−３からｉ−１のラベル値を素性に加えた。

まず、ＣＲＦ及びＳＶＭ両手法による文境界検出、文節抽出の精度を記す。これらの値はＦ−値であり、適合率と再現率の調和平均である。適合率＝（正解と解析結果が一致した数）／（解析により抽出された数）、再現率＝（正解と解析結果が一致した数）／（正解数）である。

文境界検出精度ではＣＲＦがＳＶＭを上回ったが、文節抽出精度では逆の結果となった。しかしながら、ほぼ同等の精度であり、文境界検出精度は凡そ８５％となった。
次に、この文節列に対し通常の係り受け解析を適用した。このとき、無音記号は取り除かれた。ＣＲＦ、ＳＶＭともに無音記号のレベル正解精度は１００％であり、誤って無音記号が文節の構成要素になる事例は皆無であったことに注意されたい。

あわせて本発明の適用結果も示す。本発明（図１１の場合）におけるステップＵ１のチャンキングも、ＣＲＦとＳＶＭ双方の場合を検証し、ステップＵ３ではそれぞれ式（６）、（７）に従い文境界を検出しながらの係り受け解析を行った。スケーリングパラメータαは、開発用データで文境界検出精度が最大になるように調整された。
係り受け解析の素性Φ_＊には、文節内単語の表記、品詞、品詞細分類、活用、活用形、および、文の先頭フラグ、２文節の距離とそれらの組合せが用いられた。ただし逐次的係り受け解析におけるメタシンボルは単語の表記と同等に扱われている。

結果を以下に示す。係り受けの正解は係り先と元のペアが正しく検出され、かつその両方の文節が正しく抽出された場合として、精度をＦ−１値で算出している。

通常の係り受け解析での文境界検出精度はチャンキング単位でのそれである。また、通常の係り受け解析において、ＳＶＭチャンキングを適用した場合の方がＣＲＦ適用時より係り受け精度が高いのは、チャンキングの文節抽出精度が高いことに起因する。

この実施例３で提案する装置の構成は図１０に示した実施例２の装置の構成と同等である。実施例２との違いは図１１に示したステップＵ３で実行する逐次的係り受け解析処理に使用する素性をチャンキング処理で得られたサブクラスタのみを利用する点である。図１３に実施例３の処理手順を示す。ステップＵ１とＵ２は図１１に示した実施例２の処理手順と同じであるが、実施例３ではステップＵ３で実行する逐次係り受け解析処理においてチャンキングのサブクラスタのみを考慮した逐次的係り受け解析を実行する点を特徴とするものである。

チャンキングのサブクラスタのみを考慮した逐次的係り受け解析処理とは式（６）ではα＝０とした処理であり、式（７）では指数部分が常に１である処理に相当する。
実施例３を適用した場合の文境界検出精度は、文節列を与えられた元での逐次的係り受け解析単体の検出精度であるが、ＳＶＭチャンキング単体で境界を求めた場合と同等の精度が得られた。αを開発用データに対して文境界検出精度が最大になるように設定した場合、ＣＲＦチャンキング使用時でもほぼ３％改善し、ほぼ同等のエラー改善率となっている。

さらに、本発明では係り受け精度に関しても、通常の係り受け解析適用時を上回っている。これは、文境界検出の精度による効果であると考えられる。
以上説明したように、トークン列に内在するクラスタ間の依存構造に着目し、従来のトークン列の局所的性質のみに基づくクラスタ検出の問題点を解決し、従来法で検出が難しい長距離に渡る制約を考慮すべきクラスタの境界の検出を可能にした。本発明の利点は、そのようなクラスタ境界を精度良く検出することのみに留まらず、小さなクラスタ間の依存構造の解析精度の向上にも貢献するものとなっている。また、トークンの連続入力に対して逐次的に処理を進めることも可能である。

［参考文献１］Kikuo Maekawa, Hanae Koiso, Sadaoki Furui , Hitoshi Isahara. "Spontaneous Speech Corpus of Japanese," Proceedings of The Second International Conference on Language Resources and Evolution, pp. 942-952. 2000.

本発明による利用分野としては音声認識分野、音声文字変換分野などに活用される。

一般的なチャンキング学習手順を説明するためのフローチャート。周知の素性ベクトル空間上でのクラスタ境界検出方法を説明するための図。周知のチャンキング解析処理手順を説明するためのフローチャート。周知の逐次的係り受け解析における文境界検出方法を説明するための図。周知の係り受け解析の逐次的処理方法を説明するための図。周知の逐次的係り受け解析の解析手順を説明するためのフローチャート。本発明の実施例１を説明するためのブロック図。本発明の実施例１で用いるモデルＣを学習する方法を説明するためのフローチャート。本発明の実施例１の動作手順を説明するためのフローチャート。本発明の実施例２を説明するためのブロック図。本発明の実施例２の動作を説明するためのフローチャート。本発明で用いる文節境界のスコアを考慮した逐次的係り受け解析に基づく文境界検出方法を説明するための図。本発明の実施例３の動作手順を説明するためのフローチャート。

符号の説明

１０トークン列中の境界検出装置１４入力ポート
１１ＣＰＵ１５出力ポート
１２ＲＯＭ２０入力手段
１３ＲＡＭ３０出力手段
１３Ａチャンキング処理部
１３Ｂ逐次的係り受け解析処理部
１３Ｃ境界判定処理部

Claims

チャンキング処理部が、トークン列中の各トークンに、当該トークンとサブクラスタとの関係を示すラベルと当該ラベルの出現可能性を示すスコアを付与し、当該ラベルを用いてサブクラスタの境界を検出し、
逐次的係り受け処理部が、前記サブクラスタ間の係り受け構造の評価値を、前記サブクラスタの境界を与えるトークンに付与された前記スコアで重み付けして、当該重み付けした評価値を用いてクラスタの境界を検出する
ことを特徴とするトークン列中の境界検出方法。
請求項１記載の境界検出方法であって、
Ｗは前記トークン列を表し、ｙは任意のラベルを表し、Ｂｓはクラスタの先頭を表す前記ラベルを表し、Ｂｂはサブクラスタの先頭を表す前記ラベルを表し、Φは係り受け解析用の素性ベクトルを表し、αは前記スコアを調整するスケーリングパラメータを表し、ｕ→νは係り元ｕと係り先νの依存関係を表し、＜ｂ＞はクラスタの境界を表すメタシンボルを表し、Ｙ _{（＜ｂ＞）} は前記＜ｂ＞を挿入する位置のサブクラスタの境界を与える前記ラベルを表し、Ｐは条件付き確率を表すとして、
前記スコアは、

であり、
前記評価値を、

のように重み付けする
ことを特徴とするトークン列中の境界検出方法。
請求項１記載の境界検出方法であって、
Ｗは前記トークン列を表し、ｙは任意のラベルを表し、Ｂｓはクラスタの先頭を表す前記ラベルを表し、Ｂｂはサブクラスタの先頭を表す前記ラベルを表し、Φは係り受け解析用の素性ベクトルを表し、αは前記スコアを調整するスケーリングパラメータを表し、ｕ→νは係り元ｕと係り先νの依存関係を表し、＜ｂ＞はクラスタの境界を表すメタシンボルを表し、Ｙ _{（＜ｂ＞）} は前記＜ｂ＞を挿入する位置のサブクラスタの境界を与える前記ラベルを表し、Ｐは条件付き確率を表し、ｄは距離を表すとして、
前記スコアは、

であり、
前記評価値を、

のように重み付けする
ことを特徴とするトークン列中の境界検出方法。
トークン列中の各トークンに、当該トークンとサブクラスタとの関係を示すラベルと当該ラベルの出現可能性を示すスコアを付与し、当該ラベルを用いてサブクラスタの境界を検出するチャンキング処理部と、
前記サブクラスタ間の係り受け構造の評価値を、前記サブクラスタの境界を与えるトークンに付与された前記スコアで重み付けして、当該重み付けした評価値を用いてクラスタの境界を検出する逐次的係り受け処理部と、
を備えることを特徴とするトークン列中の境界検出装置。
請求項４記載の境界検出装置であって、
Ｗは前記トークン列を表し、ｙは任意のラベルを表し、Ｂｓはクラスタの先頭を表す前記ラベルを表し、Ｂｂはサブクラスタの先頭を表す前記ラベルを表し、Φは係り受け解析用の素性ベクトルを表し、αは前記スコアを調整するスケーリングパラメータを表し、ｕ→νは係り元ｕと係り先νの依存関係を表し、＜ｂ＞はクラスタの境界を表すメタシンボルを表し、Ｙ _{（＜ｂ＞）} は前記＜ｂ＞を挿入する位置のサブクラスタの境界を与える前記ラベルを表し、Ｐは条件付き確率を表すとして、
前記スコアは、

であり、
前記評価値を、

のように重み付けする
ことを特徴とするトークン列中の境界検出装置。
請求項４記載の境界検出装置であって、
Ｗは前記トークン列を表し、ｙは任意のラベルを表し、Ｂｓはクラスタの先頭を表す前記ラベルを表し、Ｂｂはサブクラスタの先頭を表す前記ラベルを表し、Φは係り受け解析用の素性ベクトルを表し、αは前記スコアを調整するスケーリングパラメータを表し、ｕ→νは係り元ｕと係り先νの依存関係を表し、＜ｂ＞はクラスタの境界を表すメタシンボルを表し、Ｙ _{（＜ｂ＞）} は前記＜ｂ＞を挿入する位置のサブクラスタの境界を与える前記ラベルを表し、Ｐは条件付き確率を表し、ｄは距離を表すとして、
前記スコアは、

であり、
前記評価値を、

のように重み付けする
ことを特徴とするトークン列中の境界検出装置。
コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項１乃至３記載の境界検出方法を実行させることを特徴とするトークン列中の境界検出プログラム。
コンピュータが読み取り可能な記録媒体によって構成され、この記録媒体に請求項７記載のトークン列中の境界検出プログラムを記録したことを特徴とする記録媒体。