JP4976789B2 - トークン列中の境界検出方法、装置、プログラム、記録媒体 - Google Patents
トークン列中の境界検出方法、装置、プログラム、記録媒体 Download PDFInfo
- Publication number
- JP4976789B2 JP4976789B2 JP2006240050A JP2006240050A JP4976789B2 JP 4976789 B2 JP4976789 B2 JP 4976789B2 JP 2006240050 A JP2006240050 A JP 2006240050A JP 2006240050 A JP2006240050 A JP 2006240050A JP 4976789 B2 JP4976789 B2 JP 4976789B2
- Authority
- JP
- Japan
- Prior art keywords
- boundary
- cluster
- label
- token
- dependency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
ここでは、単語のような配列の要素をトークン、文節のようなまとまりをクラスタ(もしくはチャンク)と呼ぶことにする。
トークン列に内在するクラスタや依存構造を見付ける技術は、トークン列が所有する情報を抽出する上で極めて重要である。
(チャンキング手法)
チャンキングによる文境界検出方法としてラベリングに基づくチャンキング手法が存在する。
チャンキングの際、トークン列に対し各チャンクの状態をいかに表現するかが課題となる。これは一般に各トークンにラベルを付与することで実現する。各トークンに、そのトークンがチャンクの先頭、終了である、といったラベルを付与する。このラベルの与え方について(非特許文献1)が幾つかのモデルを提案、比較している。ここでは、そのラベルモデルのひとつであるIOB2を説明する。IOB2のI、O、Bはトークンに付与するラベル値である。IOB2はオリジナルのIOBの拡張版であり、IOBと区別するためにIOB2と名付けられた経緯がある。IOB2における各ラベル値の意味は下記の通りである。
O:該当トークンがチャンクの外
B:該当トークンがチャンクの先頭
各チャンクを、それが果たす役割ごとに分類した場合は異なるラベルを用いる。次は、音声認識装置の出力である無音記号<pause>つき単語列を文節で区切った場合の列である。無音記号は、音声中一定時間以上の無音区間が観測された箇所に挿入されている。
以下、トークン列にラベル列を与える(ラベリング)技術についての学習と解析のステップをそれぞれ説明する。
図1には、学習のステップのフローが示されている。学習データは、上記のトークン列とそれに対応するラベル列のペアである。ステップU2で、この学習データから、各位置におけるトークン、およびその周辺のトークン列・ラベル列の特徴を抽出する。一般的にこの特徴を素性と呼ぶ。まず、単語列のラベリングを例に、素性について説明する。
position i−2 i−1 i i+1 i+2
今、上のような単語列が与えられたもとで、位置iにおける素性を抽出した場合、次のような素性が抽出される。
(位置−1の表層)が
(位置0の表層)来た
(位置+1の表層)そう
(位置−1の品詞)助詞
(位置0の品詞)動詞
(位置+1の品詞)助動詞
(位置−1,0の表層列)が_来た
(位置0,+1の表列層)来た_そう
(位置−1,0,+1の表層列)が_来た_そう
この例では、素性抽出の範囲を前後1単位の範囲に限定し、単語の持つ情報として表層と品詞に限定しているが、任意の範囲、情報を素性に導入することができる。また、前後位置(位置0以外)でのラベル値も素性としてもよい。
写像の推定方法としては様々な手法が提案されているが、ここでは、近年注目を集めている非特許文献2及び非特許文献3に記載されているCRF(条件付き確率場)及びSVM(サポートベクターマシン)について簡単に説明する。
CRFは入力トークン系列x*に対するラベル系列y*の条件付き確率P(y*|x*)を次式のように指数分布モデルで表現し、素性ベクトルとラベル間の写像を系列全体を考慮した上で推定することができる。以下文中*をサフィックスに付した文字及び数式中肉太文字はそれぞれベクトルを指す。
αi(x*)*=αi-1(x*)*Mi(x*)* where 0<i≦|x*|
βi(x*)T *=Mi+1(x*)*βi+1(x*)* where 1≦i<|x*|
により再帰的に与えられる。Mi(x*)*=[Mi(y,y'|x*)]*は、位置iでのラベルyからy’への遷移行列であり、[Mi(y,y'|x*)]*=[expλ*・fi(y,y',x*)]*により算出される。詳細は割愛するが、学習により重みベクトルλ*を推定する際に遷移行列を導入することで、CRFは系列全体を考慮したラベル推定を可能にし、かつ学習を効率的に行うことが可能である。
今、2種のラベルを識別することを考える。素性ベクトル空間上でその2種のラベルが完全に分離可能であるとすると図2のように示される。同図において、識別境界が実線で示されるとき、それを最も近傍に位置する両ラベルに対するサンプルまで平行移動したものが破線で示されている。この両破線間の距離はマージンと呼び、破線と交わるサンプルをsupport vectorと呼ぶ。マージンが大きいほど汎化能力が向上するのでSVMではマージン最大化するように識別境界を決定する。識別境界からサンプルまでの距離dが大きいほど該当ラベルに属す妥当性が高いということができるため、この距離dをラベルのスコアと見なす場合も多い。一般には線形分離困難であるため、SVMでは高次元空間上に写像し線形分離を容易にさせる枠組みを有しており、これにより高精度な識別が可能である。3種異常のラベル識別に対しては、複数のSVMモデルを用いることにより、多数決や、距離dに基づき最尤ラベルを決定すればよい。
入力トークン列に対し位置i=0からラベル推定を開始する。ステップU2で素性ベクトルを抽出する。これをもとにステップU3で位置iにおけるラベルを推定する。これを入力トークン長だけ繰り返す。この際、ステップU3での推定は、必ずしも決定とはならない。系列を考慮するモデルでは、全位置におけるラベル推定後、最尤レベル系列を決定する。これがステップU4に相当する。具体的には、CRFでは、式(1)を最大化するラベル列y*を選択する。一方、SVMのようなモデルでは、ステップU3でのラベル推定はそのまま位置iにおけるレベルの決定となる。
次に逐次的係り受け解析(非特許文献4)を簡単に説明する。
逐次的係り受け解析は、文境界を探索しながら係り受け構造(依存関係、装飾関係)を解析するために提案された。
係り受け構造Dとは、ユニット列(単語列、もしくは文節列)U=u1,u2,…unの各ユニット間の依存関係を表現したものである。ユニットuが別なユニットvに従属しているとき、uを係り元、vを係り先と呼び、u→vと記す。全ユニットはただひとつ係り先を持つものとし、u1,u2,…unに対応するv1,v2,…vnのというペア列が係り受け構造Dとなる。
一般的な係り受け解析は文単位で解析される。つまり、文境界が既知であるという条件下で解析が行われる。ここではこれを通常の係り受け解析と称することにする。
各構造の妥当性の評価は、係り受け解析手法に依存する。最も一般的な手法のひとつは確率的に行うもので、確率値の大小で構造の妥当性を評価する。この方法では、係り受け解析は次式を満たすD*を求めることに相当する。
係り受け解析の目的は、可能な全構造の中から尤もらしい係り受け構造を見つけることにあり、それは通常の係り受け解析であるか逐次係り受け解析であるかを問わず、また解析手法にもよらない。逐次的係り受け解析では、文末シンボルが加えられた分だけ可能な構造数が増加している。
Erik F. Tjong Kim Sang, Jorn Veenstra. "Representing Text Chun-ks," Proceedings of The European Chapter of the ACL (EACL), pp. 173-179. 1999. John Lafferty, Andrew McCallum, Fernando Pereira. "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data," P-roceedings of International Conference on Machine Learning, pp. 282-289. 2001. 工藤拓、松本祐治,"Support Vector Machine を用いたChunk 同定,"情報処理学会自然言語処理研修会 SIGNAL-140, pp. 9-16. 2000. Takanobu Oda, Takaaki Hori, Atsushi Nakamura. "Sequential Dependency Analysis for Spontaneous Speech Understanding," Automatic Speech Recogn-ition and Understanding Workshop, pp. 284-289. 2005.
この従来技術では文全体のような大局的情報をクラスタ境界の検出に反映させることが困難であるため、推定精度が低い不都合がある。
本発明の目的はトークン列中に存在する境界(文境界)を精度よく検出することができるトークン中の境界検出方法及び装置を提供しようとするものである。
本発明によるトークン列中の境界検出方法は更に、チャンキング処理によりサブクラスタの境界を評価し、チャンキング処理のスコアを含む結果を逐次的係り受け解析に直接適用し、逐次的係り受け解析により境界判定処理を実行することを特徴とする。
本発明によるトークン列中の境界検出方法は更に、前記記載のトークン列中の境界検出方法において、逐次的係り受け解析の枠組みの中でチャンキング処理の結果の中のサブクラスタ情報のみを利用して境界判定処理を実行することを特徴とする。
本発明によるトークン列中の境界検出装置は更に、トークン列中のサブクラスタ境界を評価するチャンキング処理部と、チャンキング処理部のスコアを含む結果を直接適用し境界判定処理を実行する逐次係り受け解析部とを備えることを特徴とする。
本発明によるトークン列中の境界検出装置は更に、前記トークン列中の境界検出装置において、逐次的係り受け解析処理部はチャンキング処理部の処理結果の中のサブクラスタ情報のみを利用して境界判定処理を実行することを特徴とする。
本発明による記録媒体はコンピュータが読み取り可能な記録媒体によって構成され、この記録媒体に前記記載のトークン列中の境界検出プログラムを記録したことを特徴とする。
コンピュータに本発明によるトークン列中の境界検出方法を実行させるには、コンピュータに本発明によるトークン列中の境界検出プログラムをインストールし、このプログラムによりコンピュータにチャンキング処理部と、逐次係り受け解析処理部と、これらの各処理部の処理結果から新たな素性を加えて再度チャンキングによる境界判定処理を実行する境界判定処理部とを構成することによりトークン列中の境界検出装置として機能させればよい。
入力ポート14には入力手段20が接続される。この入力手段20からトークン列及びクラスタ境界データ等が入力される。出力ポート15には例えば表示器とプリンタのような出力端末30が接続され、境界判定結果を表示する。
図8で実行される学習では入力はトークン列である。先ずこのトークン列をステップU2でモデルAでチャンキング処理を適応し保存しておく。次に得られたユニット列に対しステップU3でモデルBで逐次的係り受け解析を適応し保存する。
ステップU4で素性ラベルのペアを抽出する。ラベルは入力手段20から「トークン列/クラスタ境界データ」より与えられる。素性は、「チャンキング結果」「係り受け解析結果」から抽出する。素性としてはチャンキングスコア+結果、トークン列の情報、係り受け構造から得られる情報スコア等とすることができる。これらの素性、ラベルペアを用いてCRFやSVM等のチャンキング学習(ステップU5)を行い、新たなチャンキングモデル(モデルC)を生成し、保存する。
以下では単語列をトークン列とし、クラスタとして文節および文を抽出する場合を例にとり説明する。ここでは説明を簡素化するために以下の状況を説明する。
・チャンキングでのラベリング方法としてIOB2を用いる。文の先頭にはBs、その他の文節の先頭にはBbのラベルを用いる。
・係り受け構造を求める方法として式(3)から(5)を用いる。
以下、図11に示す手順に沿って説明する。
ステップU1:トークン列(単語列+無音記号等)Wをチャンキング処理部13AがモデルAで各トークンにラベルを付与、その際、各位置での各ラベルの出現可能性を示すスコアを保持しておく。小さなクラスタ(文節)の境界についてはこの段階で確定する。
ステップU2:逐次的受け係り受け解析処理部13Bに引き渡すユニット列の生成。1文節1ユニットにする等、Oラベルが付与されたトークンについては、除去してもよいし、単体で1ユニットとしてもよい。
ステップU3:逐次的係り受け解析処理部13Bはユニット列を逐次的係り受け解析し、大きなクラスタ(文)の境界を検出する。その際、式(4)のP(ui→vi|Φ*(ui,v,U))
を修正し、ステップU1で保持していたチャンクのスコアを重みとして反映させる。例えば、ステップU1でCRFチャンキングを適用した場合、式(4)のP(ui→vi|Φ*(ui,v,U))を
入した位置(図12参照)のクラスタ境界を与える単語ラベルがyである確率である。α
は、スコアを調整するスケーリングパラメータで任意の値に設定しておく。
これにより、係り受け構造をチャンキング結果を考慮しながら行うことができ、チャンキングと逐次的係り受け解析の両観点から大きなクラスタの境界を検出できる。
以下では、文境界検出の実験を通し本発明の有効性を示す。
実験には、日本語話し言葉コーパス(CSJ)[参考文献1]を使用する。CSJには604時間の講演データの音声データ、書き起し文、文節境界、文境界、係り受け構造、無音区間の時刻とその長さの情報等が収められている。
チャンキング手法としてCRFとSNM双方を用いた、入力単語列には無音記号<pause>を混入させ、一般の単語と同等に扱った。素性には、位置i−3からi+3に渡る単語の表記、品詞、品詞細分類、活用、活用形、およびそれら組合せを用いた。加えてCRFではラベルのbi-gram(位置i−1のラベル値)を、SVMではi−3からi−1のラベル値を素性に加えた。
次に、この文節列に対し通常の係り受け解析を適用した。このとき、無音記号は取り除かれた。CRF、SVMともに無音記号のレベル正解精度は100%であり、誤って無音記号が文節の構成要素になる事例は皆無であったことに注意されたい。
係り受け解析の素性Φ*には、文節内単語の表記、品詞、品詞細分類、活用、活用形、および、文の先頭フラグ、2文節の距離とそれらの組合せが用いられた。ただし逐次的係り受け解析におけるメタシンボルは単語の表記と同等に扱われている。
実施例3を適用した場合の文境界検出精度は、文節列を与えられた元での逐次的係り受け解析単体の検出精度であるが、SVMチャンキング単体で境界を求めた場合と同等の精度が得られた。αを開発用データに対して文境界検出精度が最大になるように設定した場合、CRFチャンキング使用時でもほぼ3%改善し、ほぼ同等のエラー改善率となっている。
以上説明したように、トークン列に内在するクラスタ間の依存構造に着目し、従来のトークン列の局所的性質のみに基づくクラスタ検出の問題点を解決し、従来法で検出が難しい長距離に渡る制約を考慮すべきクラスタの境界の検出を可能にした。本発明の利点は、そのようなクラスタ境界を精度良く検出することのみに留まらず、小さなクラスタ間の依存構造の解析精度の向上にも貢献するものとなっている。また、トークンの連続入力に対して逐次的に処理を進めることも可能である。
11 CPU 15 出力ポート
12 ROM 20 入力手段
13 RAM 30 出力手段
13A チャンキング処理部
13B 逐次的係り受け解析処理部
13C 境界判定処理部
Claims (8)
- チャンキング処理部が、トークン列中の各トークンに、当該トークンとサブクラスタとの関係を示すラベルと当該ラベルの出現可能性を示すスコアを付与し、当該ラベルを用いてサブクラスタの境界を検出し、
逐次的係り受け処理部が、前記サブクラスタ間の係り受け構造の評価値を、前記サブクラスタの境界を与えるトークンに付与された前記スコアで重み付けして、当該重み付けした評価値を用いてクラスタの境界を検出する
ことを特徴とするトークン列中の境界検出方法。 - 請求項1記載の境界検出方法であって、
Wは前記トークン列を表し、yは任意のラベルを表し、Bsはクラスタの先頭を表す前記ラベルを表し、Bbはサブクラスタの先頭を表す前記ラベルを表し、Φは係り受け解析用の素性ベクトルを表し、αは前記スコアを調整するスケーリングパラメータを表し、u→νは係り元uと係り先νの依存関係を表し、<b>はクラスタの境界を表すメタシンボルを表し、Y (<b>) は前記<b>を挿入する位置のサブクラスタの境界を与える前記ラベルを表し、Pは条件付き確率を表し、dは距離を表すとして、
前記スコアは、
前記評価値を、
ことを特徴とするトークン列中の境界検出方法。 - トークン列中の各トークンに、当該トークンとサブクラスタとの関係を示すラベルと当該ラベルの出現可能性を示すスコアを付与し、当該ラベルを用いてサブクラスタの境界を検出するチャンキング処理部と、
前記サブクラスタ間の係り受け構造の評価値を、前記サブクラスタの境界を与えるトークンに付与された前記スコアで重み付けして、当該重み付けした評価値を用いてクラスタの境界を検出する逐次的係り受け処理部と、
を備えることを特徴とするトークン列中の境界検出装置。 - 請求項4記載の境界検出装置であって、
Wは前記トークン列を表し、yは任意のラベルを表し、Bsはクラスタの先頭を表す前記ラベルを表し、Bbはサブクラスタの先頭を表す前記ラベルを表し、Φは係り受け解析用の素性ベクトルを表し、αは前記スコアを調整するスケーリングパラメータを表し、u→νは係り元uと係り先νの依存関係を表し、<b>はクラスタの境界を表すメタシンボルを表し、Y (<b>) は前記<b>を挿入する位置のサブクラスタの境界を与える前記ラベルを表し、Pは条件付き確率を表し、dは距離を表すとして、
前記スコアは、
前記評価値を、
ことを特徴とするトークン列中の境界検出装置。 - コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項1乃至3記載の境界検出方法を実行させることを特徴とするトークン列中の境界検出プログラム。
- コンピュータが読み取り可能な記録媒体によって構成され、この記録媒体に請求項7記載のトークン列中の境界検出プログラムを記録したことを特徴とする記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006240050A JP4976789B2 (ja) | 2006-09-05 | 2006-09-05 | トークン列中の境界検出方法、装置、プログラム、記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006240050A JP4976789B2 (ja) | 2006-09-05 | 2006-09-05 | トークン列中の境界検出方法、装置、プログラム、記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008065435A JP2008065435A (ja) | 2008-03-21 |
JP4976789B2 true JP4976789B2 (ja) | 2012-07-18 |
Family
ID=39288124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006240050A Active JP4976789B2 (ja) | 2006-09-05 | 2006-09-05 | トークン列中の境界検出方法、装置、プログラム、記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4976789B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5265445B2 (ja) * | 2009-04-28 | 2013-08-14 | 日本放送協会 | 話題境界検出装置及びコンピュータプログラム |
JP6558852B2 (ja) * | 2015-11-06 | 2019-08-14 | 日本電信電話株式会社 | 節同定装置、方法、及びプログラム |
US20230141191A1 (en) * | 2020-04-02 | 2023-05-11 | Ntt Docomo, Inc. | Dividing device |
-
2006
- 2006-09-05 JP JP2006240050A patent/JP4976789B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2008065435A (ja) | 2008-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10372821B2 (en) | Identification of reading order text segments with a probabilistic language model | |
Lin et al. | A maximum entropy approach to biomedical named entity recognition | |
Belinkov et al. | Arabic diacritization with recurrent neural networks | |
JP4571822B2 (ja) | テキストおよび音声の分類のための言語モデルの判別トレーニング | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
O’Keefe et al. | A sequence labelling approach to quote attribution | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
Ringger et al. | Active learning for part-of-speech tagging: Accelerating corpus annotation | |
US20180260735A1 (en) | Training a hidden markov model | |
EP2385471A1 (en) | Measuring document similarity | |
Toselli et al. | Two methods to improve confidence scores for lexicon-free word spotting in handwritten text | |
CN114896971B (zh) | 一种特定前后缀否定词识别方法、装置及存储介质 | |
CN112183102A (zh) | 基于注意力机制与图注意力网络的命名实体识别方法 | |
JP4976789B2 (ja) | トークン列中の境界検出方法、装置、プログラム、記録媒体 | |
Fernandez et al. | Discriminative training and unsupervised adaptation for labeling prosodic events with limited training data. | |
JP4738753B2 (ja) | 文法オーサリングにおけるセグメント化あいまい性(segmentationambiguity)の自動的な解決 | |
JP4878220B2 (ja) | モデル学習方法、情報抽出方法、モデル学習装置、情報抽出装置、モデル学習プログラム、情報抽出プログラム、およびそれらプログラムを記録した記録媒体 | |
US20230075290A1 (en) | Method for linking a cve with at least one synthetic cpe | |
Lucassen | Discovering phonemic base forms automatically: an information theoretic approach | |
CN114036956A (zh) | 一种旅游知识语义分析方法及装置 | |
Boldsen et al. | Identifying temporal trends based on perplexity and clustering: Are we looking at language change? | |
Fasoi et al. | Computational authorship analysis of Homeric language | |
US20210034706A1 (en) | Machine learning based quantification of performance impact of data veracity | |
Withanage et al. | A stochastic part of speech tagger for the sinhala language based on social media data mining | |
KR100887726B1 (ko) | 자동 띄어쓰기 방법 및 그 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080804 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110804 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110816 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110818 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111017 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120403 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120413 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4976789 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150420 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |