JP4976789B2 - トークン列中の境界検出方法、装置、プログラム、記録媒体 - Google Patents

トークン列中の境界検出方法、装置、プログラム、記録媒体 Download PDF

Info

Publication number
JP4976789B2
JP4976789B2 JP2006240050A JP2006240050A JP4976789B2 JP 4976789 B2 JP4976789 B2 JP 4976789B2 JP 2006240050 A JP2006240050 A JP 2006240050A JP 2006240050 A JP2006240050 A JP 2006240050A JP 4976789 B2 JP4976789 B2 JP 4976789B2
Authority
JP
Japan
Prior art keywords
boundary
cluster
label
token
dependency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006240050A
Other languages
English (en)
Other versions
JP2008065435A (ja
Inventor
隆伸 大庭
貴明 堀
篤 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006240050A priority Critical patent/JP4976789B2/ja
Publication of JP2008065435A publication Critical patent/JP2008065435A/ja
Application granted granted Critical
Publication of JP4976789B2 publication Critical patent/JP4976789B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、トークン(単語などの配列の要素)の並びからなるトークン列(文章など)において、クラスタ(文節などのまとまりをもつ単位)の境界を検出するトークン列中の境界検出方法、装置、プログラム、このプログラムを記録した記録媒体に関する。
単語列やDNAの塩基配列等は、無秩序に並んでいるわけではなく、何らかのまとまりや、ルール、構造を持って並んでいる。例えば、日本語の単語列は、幾つかの単語が文節や句、文といった意味のまとまりを構成し、それらが連続的に並ぶ。また、単語、文節、句等は、修飾関係のような依存構造を持ち、文を構成している。
ここでは、単語のような配列の要素をトークン、文節のようなまとまりをクラスタ(もしくはチャンク)と呼ぶことにする。
トークン列に内在するクラスタや依存構造を見付ける技術は、トークン列が所有する情報を抽出する上で極めて重要である。
文節のような比較的少数のトークンからなるクラスタの検出においては、HMM(隠れマルコフモデル)、SVM(サポートベクターマシン)、CRF(条件付き確率場)といったクラス識別に基づく従来技術が有効である。しかし、これらの技術はその局所依存性のため、文といった長いトークン列から構成される単位の検出には不向きである。文境界の検出は、文節といったより小さなクラスタ(サブクラスタ)間の依存構造まで考慮した上で行われる方が妥当である。
(チャンキング手法)
チャンキングによる文境界検出方法としてラベリングに基づくチャンキング手法が存在する。
チャンキングは任意のトークンをある視点からまとめあげ、まとめあげた固まり(チャンク、ここではクラスタに相当)をそれが果たす役割ごとに分類する一連の手続きである。
チャンキングの際、トークン列に対し各チャンクの状態をいかに表現するかが課題となる。これは一般に各トークンにラベルを付与することで実現する。各トークンに、そのトークンがチャンクの先頭、終了である、といったラベルを付与する。このラベルの与え方について(非特許文献1)が幾つかのモデルを提案、比較している。ここでは、そのラベルモデルのひとつであるIOB2を説明する。IOB2のI、O、Bはトークンに付与するラベル値である。IOB2はオリジナルのIOBの拡張版であり、IOBと区別するためにIOB2と名付けられた経緯がある。IOB2における各ラベル値の意味は下記の通りである。
I:該当トークンがチャンクの一部
O:該当トークンがチャンクの外
B:該当トークンがチャンクの先頭
各チャンクを、それが果たす役割ごとに分類した場合は異なるラベルを用いる。次は、音声認識装置の出力である無音記号<pause>つき単語列を文節で区切った場合の列である。無音記号は、音声中一定時間以上の無音区間が観測された箇所に挿入されている。
Figure 0004976789
Bの代わりに、文の先頭を示すBs、その他の文節の先頭を表すBbを用いて、文頭の文節とその他の文節とを区別している。
以下、トークン列にラベル列を与える(ラベリング)技術についての学習と解析のステップをそれぞれ説明する。
図1には、学習のステップのフローが示されている。学習データは、上記のトークン列とそれに対応するラベル列のペアである。ステップU2で、この学習データから、各位置におけるトークン、およびその周辺のトークン列・ラベル列の特徴を抽出する。一般的にこの特徴を素性と呼ぶ。まず、単語列のラベリングを例に、素性について説明する。
words 彼 が 来た そう です
position i−2 i−1 i i+1 i+2
今、上のような単語列が与えられたもとで、位置iにおける素性を抽出した場合、次のような素性が抽出される。
(位置−1の表層)が
(位置0の表層)来た
(位置+1の表層)そう
(位置−1の品詞)助詞
(位置0の品詞)動詞
(位置+1の品詞)助動詞
(位置−1,0の表層列)が_来た
(位置0,+1の表列層)来た_そう
(位置−1,0,+1の表層列)が_来た_そう
この例では、素性抽出の範囲を前後1単位の範囲に限定し、単語の持つ情報として表層と品詞に限定しているが、任意の範囲、情報を素性に導入することができる。また、前後位置(位置0以外)でのラベル値も素性としてもよい。
この素性抽出を基本的には全位置(または極めて多くの位置)に対して行うため、素性の種類の総数は極めて多くなる。今、ある位置で抽出された素性に対してのみ1を持ち、それ以外の全素性を0とするベクトルを考えれば、殆どが0でごく一部だけが1を持つようなベクトルになる。このような抽出された素性に対応する要素だけが1を持つようなベクトルを素性ベクトルと呼ぶ。図1、ステップU2での作業は、実質、この素性ベクトルの抽出に相当し、各位置における素性ベクトルとラベル値のペアをステップU3に引き渡す。
ステップU3では、素性ベクトルから各ラベル値への写像を求める。写像を求めることにより、ある素性ベクトルが与えられた場合に、どのラベルを持つか推定可能となる。
写像の推定方法としては様々な手法が提案されているが、ここでは、近年注目を集めている非特許文献2及び非特許文献3に記載されているCRF(条件付き確率場)及びSVM(サポートベクターマシン)について簡単に説明する。
CRFは入力トークン系列xに対するラベル系列yの条件付き確率P(y|x)を次式のように指数分布モデルで表現し、素性ベクトルとラベル間の写像を系列全体を考慮した上で推定することができる。以下文中*をサフィックスに付した文字及び数式中肉太文字はそれぞれベクトルを指す。
Figure 0004976789
fi(y,x)は位置iでの素性ベクトルである。λは各素性ベクトルの重みであり、学習により得られるパラメータである。
CRFでは、位置iでラベルyが得られる確率も算出可能であり、
Figure 0004976789
により与えられる。ただし、αi(x)、βi(x)はそれぞれα0*=1、βx*|*=1と初期化された場合に、
αi(x)=αi-1(x)Mi(x) where 0<i≦|x
βi(x) =Mi+1(x)βi+1(x) where 1≦i<|x
により再帰的に与えられる。Mi(x)=[Mi(y,y'|x)]は、位置iでのラベルyからy’への遷移行列であり、[Mi(y,y'|x)]=[expλ・fi(y,y',x)]により算出される。詳細は割愛するが、学習により重みベクトルλを推定する際に遷移行列を導入することで、CRFは系列全体を考慮したラベル推定を可能にし、かつ学習を効率的に行うことが可能である。
一方、CRFが系列を考慮するのに対し、SVMを用いた場合は直接的に位置iで得らられた素性ベクトルfi*からその位置におけるラベル値を推定する。
今、2種のラベルを識別することを考える。素性ベクトル空間上でその2種のラベルが完全に分離可能であるとすると図2のように示される。同図において、識別境界が実線で示されるとき、それを最も近傍に位置する両ラベルに対するサンプルまで平行移動したものが破線で示されている。この両破線間の距離はマージンと呼び、破線と交わるサンプルをsupport vectorと呼ぶ。マージンが大きいほど汎化能力が向上するのでSVMではマージン最大化するように識別境界を決定する。識別境界からサンプルまでの距離dが大きいほど該当ラベルに属す妥当性が高いということができるため、この距離dをラベルのスコアと見なす場合も多い。一般には線形分離困難であるため、SVMでは高次元空間上に写像し線形分離を容易にさせる枠組みを有しており、これにより高精度な識別が可能である。3種異常のラベル識別に対しては、複数のSVMモデルを用いることにより、多数決や、距離dに基づき最尤ラベルを決定すればよい。
次に、一般的なチャンキング解析のステップを図3に沿って説明する。
入力トークン列に対し位置i=0からラベル推定を開始する。ステップU2で素性ベクトルを抽出する。これをもとにステップU3で位置iにおけるラベルを推定する。これを入力トークン長だけ繰り返す。この際、ステップU3での推定は、必ずしも決定とはならない。系列を考慮するモデルでは、全位置におけるラベル推定後、最尤レベル系列を決定する。これがステップU4に相当する。具体的には、CRFでは、式(1)を最大化するラベル列yを選択する。一方、SVMのようなモデルでは、ステップU3でのラベル推定はそのまま位置iにおけるレベルの決定となる。
これら従来型のラベリング技術では、各位置から抽出される局所的素性がその位置におけるラベル決定に強く影響する。CRFのように系列を考慮可能なモデルであったとしても、局所的素性があたえる影響が極めて大きく、長距離の制約を与えているとはいい難い。このため、文節のような近傍数単語のみで区別可能なクラスタの抽出に適しているものの、文といった広く全体を見渡した上で決定すべきクラスタの抽出では、十分な精度を得ることはできない。
(逐次的係り受け解析)
次に逐次的係り受け解析(非特許文献4)を簡単に説明する。
逐次的係り受け解析は、文境界を探索しながら係り受け構造(依存関係、装飾関係)を解析するために提案された。
係り受け構造Dとは、ユニット列(単語列、もしくは文節列)U=u1,u2,…unの各ユニット間の依存関係を表現したものである。ユニットuが別なユニットvに従属しているとき、uを係り元、vを係り先と呼び、u→vと記す。全ユニットはただひとつ係り先を持つものとし、u1,u2,…unに対応するv1,v2,…vnのというペア列が係り受け構造Dとなる。
一般的な係り受け解析は文単位で解析される。つまり、文境界が既知であるという条件下で解析が行われる。ここではこれを通常の係り受け解析と称することにする。
それに対し、逐次的係り受け解析はメタシンボル<b>を導入することでユニット列の間に存在する文境界を検出する。今図4において、ユニットu4とユニットu5の間が文境界であるか検証する場合、そこにメタシンボル<b>を存在させた場合の係り受け構造と、存在させない場合の係り受け構造のどちらがより妥当な構造であるかを評価する。もし、メタシンボル<b>を存在させた場合の係り受け構造の方が妥当性の高い構造であると評価された場合、ユニットu4とユニットu5の間が文境界であると判断する。メタシンボル<b>の存在を仮定する位置は、全ユニットの間でもよいし、あるルールを用いて決めてもよい。
各構造の妥当性の評価は、係り受け解析手法に依存する。最も一般的な手法のひとつは確率的に行うもので、確率値の大小で構造の妥当性を評価する。この方法では、係り受け解析は次式を満たすDを求めることに相当する。
Figure 0004976789
P(D|U)が構造の妥当性に相当する。Ci*は、係り先候補となるユニットの集合である。Φは係り受け解析用の素性ベクトル、wは各要素の重みであり、学習データを用いて推定するパラメータである。素性ベクトルはチャンキングと同様で、ユニットの情報を表した0,1のベクトルである。係り受け解析では、ユニットuiから遠距離にあるユニットcも考慮されるため、チャンキングより広範囲に渡る情報を考慮できる。
係り受け解析の目的は、可能な全構造の中から尤もらしい係り受け構造を見つけることにあり、それは通常の係り受け解析であるか逐次係り受け解析であるかを問わず、また解析手法にもよらない。逐次的係り受け解析では、文末シンボルが加えられた分だけ可能な構造数が増加している。
さて、さらに逐次的係り受け解析は別なメタシンボル<c>を導入することにより、連続的なユニットの入力に対し逐次的に処理することが可能である。図5では、長さ5のユニット列の係り受け構造解析後、その結果を利用して、もう2ユニット追加されたユニット列の解析を実施している。メタシンボル<c>をユニット列の最後に追加することで、未入力のユニットとの間の係り受け構造を解析し、新たなユニットの入力時それを更新することで逐次処理を可能にしている。
逐次的係り受け解析の一連の流れを図示すると図6のようになる。ユニット列入力(ステップU1)に対し、メタシンボル<c>を追加し(ステップU2)、メタシンボル<b>の挿入箇所を決定(ステップU3)。メタシンボル<b>を含めたユニット列の中から最適な構造を見付け(ステップU4)、入力の終了まで繰り返し(ステップU5)、係り受け構造を更新していく。
Erik F. Tjong Kim Sang, Jorn Veenstra. "Representing Text Chun-ks," Proceedings of The European Chapter of the ACL (EACL), pp. 173-179. 1999. John Lafferty, Andrew McCallum, Fernando Pereira. "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data," P-roceedings of International Conference on Machine Learning, pp. 282-289. 2001. 工藤拓、松本祐治,"Support Vector Machine を用いたChunk 同定,"情報処理学会自然言語処理研修会 SIGNAL-140, pp. 9-16. 2000. Takanobu Oda, Takaaki Hori, Atsushi Nakamura. "Sequential Dependency Analysis for Spontaneous Speech Understanding," Automatic Speech Recogn-ition and Understanding Workshop, pp. 284-289. 2005.
従来のトークン列中の境界検出方法としては上述したラベリングに基づくチャンキングを用いる方法があった。これは学習用トークン列中の各トークンにラベルを割当て、トークン列からラベル列への局所的な写像関係を学習し、学習効果を用いて任意トークン列のクラスタ境界を推定している。写像の学習方法としては、条件付き確率場(CRF)やサポートベクターマシン(SVM)等を用いている。
この従来技術では文全体のような大局的情報をクラスタ境界の検出に反映させることが困難であるため、推定精度が低い不都合がある。
本発明の目的はトークン列中に存在する境界(文境界)を精度よく検出することができるトークン中の境界検出方法及び装置を提供しようとするものである。
本発明によるトークン列中の境界検出方法はチャンキング処理と、逐次的係り受け解析処理とを併用し、これらの解析結果から新たな素性を加えて再度チャンキングによる境界判定処理を実行することを特徴とする。
本発明によるトークン列中の境界検出方法は更に、チャンキング処理によりサブクラスタの境界を評価し、チャンキング処理のスコアを含む結果を逐次的係り受け解析に直接適用し、逐次的係り受け解析により境界判定処理を実行することを特徴とする。
本発明によるトークン列中の境界検出方法は更に、前記記載のトークン列中の境界検出方法において、逐次的係り受け解析の枠組みの中でチャンキング処理の結果の中のサブクラスタ情報のみを利用して境界判定処理を実行することを特徴とする。
本発明によるトークン列中の境界検出装置はチャンキング処理部と、逐次係り受け解析処理部と、これらの各処理部の処理結果から新たな素性を加えて再度チャンキングによる境界判定処理を実行する境界判定処理部とを備えることを特徴とする。
本発明によるトークン列中の境界検出装置は更に、トークン列中のサブクラスタ境界を評価するチャンキング処理部と、チャンキング処理部のスコアを含む結果を直接適用し境界判定処理を実行する逐次係り受け解析部とを備えることを特徴とする。
本発明によるトークン列中の境界検出装置は更に、前記トークン列中の境界検出装置において、逐次的係り受け解析処理部はチャンキング処理部の処理結果の中のサブクラスタ情報のみを利用して境界判定処理を実行することを特徴とする。
本発明によるトークン列中の境界検出プログラムはコンピュータが解読可能なプログラム言語によって記述され、コンピュータに前記記載の境界検出方法を実行させることを特徴とする。
本発明による記録媒体はコンピュータが読み取り可能な記録媒体によって構成され、この記録媒体に前記記載のトークン列中の境界検出プログラムを記録したことを特徴とする。
従来は、トークン列の局所的な性質だけでは説明のつかないクラスタ境界を精度良く検出することが困難であった。一方、本発明では長いトークン列に内在するサブクラスタ間の依存構造を考慮することが可能であり、その結果、トークン列の局地的な性質だけでは説明のつかないクラスタ境界も精度良く検出することが可能である。また、トークン列の入力に沿って逐次的に処理を行うことも可能である。更に、サブクラスタ間の依存構造解析としても高い精度を提供する。
本発明によるトークン列中の境界検出方法及び装置はハードウェアによってトークン列中の境界検出装置を構成し、その装置によってトークン列中の境界検出方法を実行させることも可能であるが、それより簡素に実現するには、コンピュータに本発明によるトークン列中の境界検出プログラムをインストールし、コンピュータに本発明によるトークン列中の境界検出装置として機能させ、本発明によるトークン列中の境界検出方法を実行させる形態が最良の実施形態である。
コンピュータに本発明によるトークン列中の境界検出方法を実行させるには、コンピュータに本発明によるトークン列中の境界検出プログラムをインストールし、このプログラムによりコンピュータにチャンキング処理部と、逐次係り受け解析処理部と、これらの各処理部の処理結果から新たな素性を加えて再度チャンキングによる境界判定処理を実行する境界判定処理部とを構成することによりトークン列中の境界検出装置として機能させればよい。
図7に本発明のトークン列中の境界検出装置の第1の実施例を示す。図7に示す10は本発明によるトークン列中の境界検出装置を示す。この実施例ではコンピュータによってトークン列中の境界検出装置を構成した場合を示す。コンピュータは一般に良く知られているように、中央演算処理装置(CPU)11と、読み出し専用メモリROM12と、書き換え可能なメモリ(RAM)13と、入力ポート14、出力ポート15とによって構成される。
起動中はRAM13にプログラムが読み込まれ、プログラムによってチャンキング処理部13A、逐次係り受け解析処理部13B、境界判定部13C、データ記憶部13D等が構築される。つまり、RAM13に読み込まれたプログラムがCPU11によって解読され、チャンキング処理と、逐次係り受け解析処理と、境界判定処理とが実行される。
入力ポート14には入力手段20が接続される。この入力手段20からトークン列及びクラスタ境界データ等が入力される。出力ポート15には例えば表示器とプリンタのような出力端末30が接続され、境界判定結果を表示する。
本実施例のトークン列中の境界検出方法及び装置では境界判定処理部13Cが境界判定処理を実行する場合に用いるチャンキングモデルを予め学習により用意する必要がある。図8にその学習の手順を示す。ステップU2で実行するチャンキング処理と、ステップU3で実行する逐次的係り受け解析処理では予めチャンキング用モデル(モデルA)と逐次的係り受け解析用モデル(モデルB)が学習により用意される。前者の学習方法は図1を用いて既に説明済みである。後者の学習方法は係り受け構造を持った学習データに対しメタシンボル<c>、<b>を加えたデータから周知の係り受け解析の学習手順で実現できる。
図8に示す入力手段20に用意するトークン列/クラスタ境界データは、トークン列とラベル列の対応付けデータであるが、ステップU2とU3で用いるモデルA及びモデルBの学習に用いたデータとは異なる文章が記されているデータであることが望ましい。
図8で実行される学習では入力はトークン列である。先ずこのトークン列をステップU2でモデルAでチャンキング処理を適応し保存しておく。次に得られたユニット列に対しステップU3でモデルBで逐次的係り受け解析を適応し保存する。
ステップU4で素性ラベルのペアを抽出する。ラベルは入力手段20から「トークン列/クラスタ境界データ」より与えられる。素性は、「チャンキング結果」「係り受け解析結果」から抽出する。素性としてはチャンキングスコア+結果、トークン列の情報、係り受け構造から得られる情報スコア等とすることができる。これらの素性、ラベルペアを用いてCRFやSVM等のチャンキング学習(ステップU5)を行い、新たなチャンキングモデル(モデルC)を生成し、保存する。
図9に生成されたモデルCを用いて境界判定処理を行う本発明のトークン列中の境界判定方法の手順を示す。本発明では大きなクラスタの境界がサブクラスタの境界の何れかに一致していることを前提とする。ステップU1では入力されたトークン列をチャンキング処理部13AがモデルAでチャンキング処理する。続いてステップU2でトークン列をユニット列に変換し、ユニット列を逐次的係り受け解析処理部13Bに受け渡す。逐次的係り受け解析処理部13Bは入力されたユニット列をモデルBで逐次的係り受け解析処理(ステップU3)する。
境界判定処理部13Dはこれらのチャンキング処理結果と逐次係り受け解析処理結果を利用してモデルCで境界判定処理を実行する。境界判定処理としてはCRFやSVMを適用することができる。つまり、本発明の特徴とする点は境界判定処理部13Cが実行する境界判定処理において、ステップU2で実行したチャンキング処理と、ステップU3で実行した逐次的係り受け解析処理の結果から、各トークンの新たな素性を抽出し、この新たな素性を加えて再度チャンキングをし直す点にある。これにより使用可能な素性の種類が多くなり、使用可能な素性の種類が多い分だけ高精度な境界検出が可能となる。ここで使用可能な素性としては単語情報の他にスコア、チャンキングのシンボル、係り受けの構造等を用いることができる。
図10にトークン列中の境界検出装置の第2の実施例を示す。この実施例では図7に示した実施例から境界判定処理部13Cを除去した構成とした点を特徴とするものである。つまり、この実施例2ではチャンキング処理部13Aの処理結果を逐次係り受け解析処理部13Bで直接利用して逐次係り受け解析により境界判定を実行する。
以下では単語列をトークン列とし、クラスタとして文節および文を抽出する場合を例にとり説明する。ここでは説明を簡素化するために以下の状況を説明する。
・チャンキングでのラベリング方法としてIOB2を用いる。文の先頭にはBs、その他の文節の先頭にはBbのラベルを用いる。
・係り受け構造を求める方法として式(3)から(5)を用いる。
以下、図11に示す手順に沿って説明する。
ステップU1:トークン列(単語列+無音記号等)Wをチャンキング処理部13AがモデルAで各トークンにラベルを付与、その際、各位置での各ラベルの出現可能性を示すスコアを保持しておく。小さなクラスタ(文節)の境界についてはこの段階で確定する。
ステップU2:逐次的受け係り受け解析処理部13Bに引き渡すユニット列の生成。1文節1ユニットにする等、Oラベルが付与されたトークンについては、除去してもよいし、単体で1ユニットとしてもよい。
ステップU3:逐次的係り受け解析処理部13Bはユニット列を逐次的係り受け解析し、大きなクラスタ(文)の境界を検出する。その際、式(4)のP(ui→vi|Φ(ui,v,U))
を修正し、ステップU1で保持していたチャンクのスコアを重みとして反映させる。例えば、ステップU1でCRFチャンキングを適用した場合、式(4)のP(ui→vi|Φ(ui,v,U))を
Figure 0004976789
に置換する。ここで、P(Y(<b>)=y|W)は、逐次的係り受け解析がメタシンボル<b>を挿
入した位置(図12参照)のクラスタ境界を与える単語ラベルがyである確率である。α
は、スコアを調整するスケーリングパラメータで任意の値に設定しておく。
チャンキングのスコアの利用の仕方は任意とし、SVMチャンキングを適用した場合、そのスコアd(Y(<b>)=y|W)を
Figure 0004976789
などとすることも可能である。
これにより、係り受け構造をチャンキング結果を考慮しながら行うことができ、チャンキングと逐次的係り受け解析の両観点から大きなクラスタの境界を検出できる。
以下では、文境界検出の実験を通し本発明の有効性を示す。
実験には、日本語話し言葉コーパス(CSJ)[参考文献1]を使用する。CSJには604時間の講演データの音声データ、書き起し文、文節境界、文境界、係り受け構造、無音区間の時刻とその長さの情報等が収められている。
講演189データを学習データ、開発用データ、テキストデータに分割し、書き起しに対して文節抽出、文境界検出、係り受け解析を行った。分割されたデータの内訳は以下の通りである。
Figure 0004976789
実施例2の有効性を示すための比較対象として、チャンキングにより文節、文境界を検出後、検出された文単位で係り受け解析を行う。つまり通常の係り受け解析を行う。
チャンキング手法としてCRFとSNM双方を用いた、入力単語列には無音記号<pause>を混入させ、一般の単語と同等に扱った。素性には、位置i−3からi+3に渡る単語の表記、品詞、品詞細分類、活用、活用形、およびそれら組合せを用いた。加えてCRFではラベルのbi-gram(位置i−1のラベル値)を、SVMではi−3からi−1のラベル値を素性に加えた。
まず、CRF及びSVM両手法による文境界検出、文節抽出の精度を記す。これらの値はF−値であり、適合率と再現率の調和平均である。適合率=(正解と解析結果が一致した数)/(解析により抽出された数)、再現率=(正解と解析結果が一致した数)/(正解数)である。
Figure 0004976789
文境界検出精度ではCRFがSVMを上回ったが、文節抽出精度では逆の結果となった。しかしながら、ほぼ同等の精度であり、文境界検出精度は凡そ85%となった。
次に、この文節列に対し通常の係り受け解析を適用した。このとき、無音記号は取り除かれた。CRF、SVMともに無音記号のレベル正解精度は100%であり、誤って無音記号が文節の構成要素になる事例は皆無であったことに注意されたい。
あわせて本発明の適用結果も示す。本発明(図11の場合)におけるステップU1のチャンキングも、CRFとSVM双方の場合を検証し、ステップU3ではそれぞれ式(6)、(7)に従い文境界を検出しながらの係り受け解析を行った。スケーリングパラメータαは、開発用データで文境界検出精度が最大になるように調整された。
係り受け解析の素性Φには、文節内単語の表記、品詞、品詞細分類、活用、活用形、および、文の先頭フラグ、2文節の距離とそれらの組合せが用いられた。ただし逐次的係り受け解析におけるメタシンボルは単語の表記と同等に扱われている。
結果を以下に示す。係り受けの正解は係り先と元のペアが正しく検出され、かつその両方の文節が正しく抽出された場合として、精度をF−1値で算出している。
Figure 0004976789
通常の係り受け解析での文境界検出精度はチャンキング単位でのそれである。また、通常の係り受け解析において、SVMチャンキングを適用した場合の方がCRF適用時より係り受け精度が高いのは、チャンキングの文節抽出精度が高いことに起因する。
この実施例3で提案する装置の構成は図10に示した実施例2の装置の構成と同等である。実施例2との違いは図11に示したステップU3で実行する逐次的係り受け解析処理に使用する素性をチャンキング処理で得られたサブクラスタのみを利用する点である。図13に実施例3の処理手順を示す。ステップU1とU2は図11に示した実施例2の処理手順と同じであるが、実施例3ではステップU3で実行する逐次係り受け解析処理においてチャンキングのサブクラスタのみを考慮した逐次的係り受け解析を実行する点を特徴とするものである。
チャンキングのサブクラスタのみを考慮した逐次的係り受け解析処理とは式(6)ではα=0とした処理であり、式(7)では指数部分が常に1である処理に相当する。
実施例3を適用した場合の文境界検出精度は、文節列を与えられた元での逐次的係り受け解析単体の検出精度であるが、SVMチャンキング単体で境界を求めた場合と同等の精度が得られた。αを開発用データに対して文境界検出精度が最大になるように設定した場合、CRFチャンキング使用時でもほぼ3%改善し、ほぼ同等のエラー改善率となっている。
さらに、本発明では係り受け精度に関しても、通常の係り受け解析適用時を上回っている。これは、文境界検出の精度による効果であると考えられる。
以上説明したように、トークン列に内在するクラスタ間の依存構造に着目し、従来のトークン列の局所的性質のみに基づくクラスタ検出の問題点を解決し、従来法で検出が難しい長距離に渡る制約を考慮すべきクラスタの境界の検出を可能にした。本発明の利点は、そのようなクラスタ境界を精度良く検出することのみに留まらず、小さなクラスタ間の依存構造の解析精度の向上にも貢献するものとなっている。また、トークンの連続入力に対して逐次的に処理を進めることも可能である。
[参考文献1]Kikuo Maekawa, Hanae Koiso, Sadaoki Furui , Hitoshi Isahara. "Spontaneous Speech Corpus of Japanese," Proceedings of The Second International Conference on Language Resources and Evolution, pp. 942-952. 2000.
本発明による利用分野としては音声認識分野、音声文字変換分野などに活用される。
一般的なチャンキング学習手順を説明するためのフローチャート。 周知の素性ベクトル空間上でのクラスタ境界検出方法を説明するための図。 周知のチャンキング解析処理手順を説明するためのフローチャート。 周知の逐次的係り受け解析における文境界検出方法を説明するための図。 周知の係り受け解析の逐次的処理方法を説明するための図。 周知の逐次的係り受け解析の解析手順を説明するためのフローチャート。 本発明の実施例1を説明するためのブロック図。 本発明の実施例1で用いるモデルCを学習する方法を説明するためのフローチャート。 本発明の実施例1の動作手順を説明するためのフローチャート。 本発明の実施例2を説明するためのブロック図。 本発明の実施例2の動作を説明するためのフローチャート。 本発明で用いる文節境界のスコアを考慮した逐次的係り受け解析に基づく文境界検出方法を説明するための図。 本発明の実施例3の動作手順を説明するためのフローチャート。
符号の説明
10 トークン列中の境界検出装置 14 入力ポート
11 CPU 15 出力ポート
12 ROM 20 入力手段
13 RAM 30 出力手段
13A チャンキング処理部
13B 逐次的係り受け解析処理部
13C 境界判定処理部

Claims (8)

  1. チャンキング処理部が、トークン列中の各トークンに、当該トークンとサブクラスタとの関係を示すラベルと当該ラベルの出現可能性を示すスコアを付与し、当該ラベルを用いてサブクラスタの境界を検出し、
    逐次的係り受け処理部が、前記サブクラスタ間の係り受け構造の評価値を、前記サブクラスタの境界を与えるトークンに付与された前記スコアで重み付けして、当該重み付けした評価値を用いてクラスタの境界を検出する
    ことを特徴とするトークン列中の境界検出方法。
  2. 請求項1記載の境界検出方法であって、
    Wは前記トークン列を表し、yは任意のラベルを表し、Bsはクラスタの先頭を表す前記ラベルを表し、Bbはサブクラスタの先頭を表す前記ラベルを表し、Φは係り受け解析用の素性ベクトルを表し、αは前記スコアを調整するスケーリングパラメータを表し、u→νは係り元uと係り先νの依存関係を表し、<b>はクラスタの境界を表すメタシンボルを表し、Y (<b>) は前記<b>を挿入する位置のサブクラスタの境界を与える前記ラベルを表し、Pは条件付き確率を表すとして、
    前記スコアは、
    Figure 0004976789
    であり、
    前記評価値を、
    Figure 0004976789
    のように重み付けする
    ことを特徴とするトークン列中の境界検出方法。
  3. 請求項1記載の境界検出方法であって、
    Wは前記トークン列を表し、yは任意のラベルを表し、Bsはクラスタの先頭を表す前記ラベルを表し、Bbはサブクラスタの先頭を表す前記ラベルを表し、Φは係り受け解析用の素性ベクトルを表し、αは前記スコアを調整するスケーリングパラメータを表し、u→νは係り元uと係り先νの依存関係を表し、<b>はクラスタの境界を表すメタシンボルを表し、Y (<b>) は前記<b>を挿入する位置のサブクラスタの境界を与える前記ラベルを表し、Pは条件付き確率を表し、dは距離を表すとして、
    前記スコアは、
    Figure 0004976789
    であり、
    前記評価値を、
    Figure 0004976789
    のように重み付けする
    ことを特徴とするトークン列中の境界検出方法。
  4. トークン列中の各トークンに、当該トークンとサブクラスタとの関係を示すラベルと当該ラベルの出現可能性を示すスコアを付与し、当該ラベルを用いてサブクラスタの境界を検出するチャンキング処理部と、
    前記サブクラスタ間の係り受け構造の評価値を、前記サブクラスタの境界を与えるトークンに付与された前記スコアで重み付けして、当該重み付けした評価値を用いてクラスタの境界を検出する逐次的係り受け処理部と、
    を備えることを特徴とするトークン列中の境界検出装置。
  5. 請求項4記載の境界検出装置であって、
    Wは前記トークン列を表し、yは任意のラベルを表し、Bsはクラスタの先頭を表す前記ラベルを表し、Bbはサブクラスタの先頭を表す前記ラベルを表し、Φは係り受け解析用の素性ベクトルを表し、αは前記スコアを調整するスケーリングパラメータを表し、u→νは係り元uと係り先νの依存関係を表し、<b>はクラスタの境界を表すメタシンボルを表し、Y (<b>) は前記<b>を挿入する位置のサブクラスタの境界を与える前記ラベルを表し、Pは条件付き確率を表すとして、
    前記スコアは、
    Figure 0004976789
    であり、
    前記評価値を、
    Figure 0004976789
    のように重み付けする
    ことを特徴とするトークン列中の境界検出装置。
  6. 請求項4記載の境界検出装置であって、
    Wは前記トークン列を表し、yは任意のラベルを表し、Bsはクラスタの先頭を表す前記ラベルを表し、Bbはサブクラスタの先頭を表す前記ラベルを表し、Φは係り受け解析用の素性ベクトルを表し、αは前記スコアを調整するスケーリングパラメータを表し、u→νは係り元uと係り先νの依存関係を表し、<b>はクラスタの境界を表すメタシンボルを表し、Y (<b>) は前記<b>を挿入する位置のサブクラスタの境界を与える前記ラベルを表し、Pは条件付き確率を表し、dは距離を表すとして、
    前記スコアは、
    Figure 0004976789
    であり、
    前記評価値を、
    Figure 0004976789
    のように重み付けする
    ことを特徴とするトークン列中の境界検出装置。
  7. コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項1乃至3記載の境界検出方法を実行させることを特徴とするトークン列中の境界検出プログラム。
  8. コンピュータが読み取り可能な記録媒体によって構成され、この記録媒体に請求項7記載のトークン列中の境界検出プログラムを記録したことを特徴とする記録媒体。
JP2006240050A 2006-09-05 2006-09-05 トークン列中の境界検出方法、装置、プログラム、記録媒体 Active JP4976789B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006240050A JP4976789B2 (ja) 2006-09-05 2006-09-05 トークン列中の境界検出方法、装置、プログラム、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006240050A JP4976789B2 (ja) 2006-09-05 2006-09-05 トークン列中の境界検出方法、装置、プログラム、記録媒体

Publications (2)

Publication Number Publication Date
JP2008065435A JP2008065435A (ja) 2008-03-21
JP4976789B2 true JP4976789B2 (ja) 2012-07-18

Family

ID=39288124

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006240050A Active JP4976789B2 (ja) 2006-09-05 2006-09-05 トークン列中の境界検出方法、装置、プログラム、記録媒体

Country Status (1)

Country Link
JP (1) JP4976789B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5265445B2 (ja) * 2009-04-28 2013-08-14 日本放送協会 話題境界検出装置及びコンピュータプログラム
JP6558852B2 (ja) * 2015-11-06 2019-08-14 日本電信電話株式会社 節同定装置、方法、及びプログラム
US20230141191A1 (en) * 2020-04-02 2023-05-11 Ntt Docomo, Inc. Dividing device

Also Published As

Publication number Publication date
JP2008065435A (ja) 2008-03-21

Similar Documents

Publication Publication Date Title
US10372821B2 (en) Identification of reading order text segments with a probabilistic language model
Lin et al. A maximum entropy approach to biomedical named entity recognition
Belinkov et al. Arabic diacritization with recurrent neural networks
JP4571822B2 (ja) テキストおよび音声の分類のための言語モデルの判別トレーニング
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
O’Keefe et al. A sequence labelling approach to quote attribution
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
Ringger et al. Active learning for part-of-speech tagging: Accelerating corpus annotation
US20180260735A1 (en) Training a hidden markov model
EP2385471A1 (en) Measuring document similarity
Toselli et al. Two methods to improve confidence scores for lexicon-free word spotting in handwritten text
CN114896971B (zh) 一种特定前后缀否定词识别方法、装置及存储介质
CN112183102A (zh) 基于注意力机制与图注意力网络的命名实体识别方法
JP4976789B2 (ja) トークン列中の境界検出方法、装置、プログラム、記録媒体
Fernandez et al. Discriminative training and unsupervised adaptation for labeling prosodic events with limited training data.
JP4738753B2 (ja) 文法オーサリングにおけるセグメント化あいまい性(segmentationambiguity)の自動的な解決
JP4878220B2 (ja) モデル学習方法、情報抽出方法、モデル学習装置、情報抽出装置、モデル学習プログラム、情報抽出プログラム、およびそれらプログラムを記録した記録媒体
US20230075290A1 (en) Method for linking a cve with at least one synthetic cpe
Lucassen Discovering phonemic base forms automatically: an information theoretic approach
CN114036956A (zh) 一种旅游知识语义分析方法及装置
Boldsen et al. Identifying temporal trends based on perplexity and clustering: Are we looking at language change?
Fasoi et al. Computational authorship analysis of Homeric language
US20210034706A1 (en) Machine learning based quantification of performance impact of data veracity
Withanage et al. A stochastic part of speech tagger for the sinhala language based on social media data mining
KR100887726B1 (ko) 자동 띄어쓰기 방법 및 그 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080804

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110816

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110818

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120403

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120413

R150 Certificate of patent or registration of utility model

Ref document number: 4976789

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150420

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350