JP5128629B2 - 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 - Google Patents

品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 Download PDF

Info

Publication number
JP5128629B2
JP5128629B2 JP2010077274A JP2010077274A JP5128629B2 JP 5128629 B2 JP5128629 B2 JP 5128629B2 JP 2010077274 A JP2010077274 A JP 2010077274A JP 2010077274 A JP2010077274 A JP 2010077274A JP 5128629 B2 JP5128629 B2 JP 5128629B2
Authority
JP
Japan
Prior art keywords
speech
tagging
model
speech tagging
crf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010077274A
Other languages
English (en)
Other versions
JP2010250814A (ja
Inventor
チェンジエン フー
カイ ザオ
リクン チュ
ゴゥヨン セン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC China Co Ltd
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Publication of JP2010250814A publication Critical patent/JP2010250814A/ja
Application granted granted Critical
Publication of JP5128629B2 publication Critical patent/JP5128629B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は自然言語処理分野に関し、特に、品詞タグ付けシステムと品詞タグ付けモデルのトレーニング装置およびその方法に関する。
コンピュータ処理が可能な自然言語テキストの数は、インターネットの普及と情報化社会の進展に伴い大幅に増加している。そして、それに呼応するように、テキスト抽出、情報抽出、言語間情報処理、マンマシン対話といった大量情報を扱うアプリケーションに対する需要も急速に高まってきている。自然言語処理技術は、上記の需要に取り組む主要技術の1つである。「品詞タグ付け」とは、テキスト内の各語の正しい品詞をタグ付けすることであり、自然言語処理の基盤となるものである。品詞タグ付けの結果は通常、自然言語処理のうち、より高いレベルの処理(語の頻度の統計分析、構文、チャンク、意味解析等)に直接影響する。そのため、高効率かつ高精度な品詞タグ付け方法およびシステムを実現することがきわめて重要である。
自然言語処理においては、品詞タグ付けはシーケンスタグ付け問題の1つである。これまで、自然言語処理におけるシーケンスタグ付け問題に対処する方法として、条件付きランダム場(CRF)が広く使用されてきた。CRFは、本質的には、条件可能性を計算するためのインディレクティブグラフモデルの一種である。条件可能性は、入力ノードの値が与えられたときに、出力ノードの値を指定するために使用される。CRFは、長距離依存性や重複等の要素の特徴を表現することができ、強いグローバル関連性を有する情報抽出において使用することが可能である。CRFを使うことで、最大エントロピー(ME)や隠れマルコフモデル(HMM)等のディレクショナルグラフモデルにおいて強い相関の仮定を効果的に回避できるため、ディレクショナルグラフモデル内に発生するオフセットへのタグ付け問題を解決することができる。このことから、CRFはシーケンスタグ付け問題のための最良の統計学習モデルの1つとされる。効果的な品詞タグ付けモデルを得るためには、多数の特徴を導入し、大きなタグ集合を使ってトレーニングすることが必要となる。しかし、CRFのトレーニング処理には膨大な時間と計算資源が必要であり、トレーニングに必要な時間と計算資源は、タグ数の増加に伴って幾何学級数的に増大する。そのため、大きなタグ集合を扱う大規模システムアプリケーション(例えば、品詞タグ付けシステム)にCRFモデルが適用されることは希である。CRFモデルは、主に、少数の特徴と小さなトレーニングコーパスを使用する用途に適用される。品詞タグ付けには比較的高い精度が要求されることを考慮すると、大きなタグ集合と特徴コーパスを使用する品詞タグ付け用途にCRFモデルを適用するための方法を見つけることは緊急の課題である。
上記の問題に対処するため、すでにいくつかの解決法が提案されている。例えば、非特許文献1(Cohn T, Smith A,Osborne M.Scaling conditional random fields using error−correcting codes(誤り訂正コードを使用した条件ランダム場のスケーリング).In Proc.the 43rd Annual Meeting of the Association for Computational Linguistics(ACL’05),Ann Arbor,Michigan:Association for Computational Linguistics,June 2005,pp.10−17.)では、CRFを大きなタグ集合に適用する方法が提案されている。この非特許文献1では、大きなタグ集合でのCRFトレーニングの問題に対処するためのECOC(誤り訂正出力符号。これは、冗長性決定関数を定義する符号化処理と、その決定関数に基づいて最終分類関数を構築する復号化処理とで構成されるアンサンブル方法である)が紹介されている。以下に、この方法の詳細を示す。
モデルトレーニングフェーズ(符号化フェーズ)
1)タグ集合にm個のラベル(例えば、名詞をNN、動詞をVB、形容詞をJJ、副詞をRBとするラベル)があり、長さnのECOCが手動で選択されたとする。ここで、訂正符号は、以下の例に示すように、各ラベルをnビットのベクトルにマッピングするために使用される。

Figure 0005128629
そして、上記の符号化を使用して、元のタグ付け問題(「多重分類問題」とも呼ばれる)をn個の独立した二値分類問題に変換する。この場合、1つの列符号化は1つの二値分類器に対応する。ブラックボックスによって選択された第3の分類器を例にとると、この分類器は、「NN」「JJ」としてタグ付けされた語を、「VB」「RB」としてタグ付けされた語から区別するために使用される。
2)これらの二値分類器のためのトレーニングコーパスを構築する(このコーパスは、元のコーパスを修正することで構築できる。これは、単に、トレーニングコーパス内のタグ付けラベルを対応する符号化の値に置換するだけでよい。例えば、第3分類器用のコーパスを構築するのであれば、必要なのは、元のコーパス内にあるすべての「NN」と「JJ」を「1」に置換し、すべての「VB」と「RB」を「0」に置換することだけである)。修正済みコーパスが得られたら、従来のCRFトレーニング方法を使って二値分類器のトレーニングを行う。
モデル利用フェーズ(復号化フェーズ)
1)1つの文(例:「NEC develops world−leading technology to prevent IP phone spam(NECは世界をリードするIPフォンスパム防止技術を開発する)」)を与える。
2)上記でトレーニングされた各二値分類器を使用して上記の文にタグ付けし、その結果を記録する。この結果は以下のようになるはずである。

Figure 0005128629

上記の表に示されるように、1つの語に対応して1つのnビットベクトルがある。一部の従来方式では、各ベクトルを表3内の符号化ベクトルと1つずつ比較し、一致するラベルを検出してタグ付けに使用することが可能である。例えば、「develops(開発する)」という語の場合、それに対応するnビットベクトルは「VB」の符号化に最も近いので、「VB−verb」としてタグ付けする。
現在のところ、既知の技術では大きなタグ集合を持つ品詞タグ付けにCRFを適用する問題に効率的に対処できないため、上記の方法は未だ以下の点で真の適用からはほど遠いのが現状である。
1) 非特許文献1の方法の性能はECOC符号化の選択に大きく依存しているが、理想的なECOCを選択することは困難である。
2) この方法は、本質的には、トレーニングに時間がかかり過ぎ、高価な計算資源に大きく依存するという問題を解決していない。トレーニングフェーズでは、n個の二値分類器のトレーニングが必要であるが、nの値はECOCの選択に左右される。品詞タグ付けでは、nの値はかなり大きいのが一般的なので、やはり長いトレーニング時間を要し、高価な計算資源に依存することとなる。さらに、復号化フェーズでは、すべての二値分類器を1つずつ使用する必要があり、符号化マッチング処理はきわめて煩雑である。そのため、トレーニング済みのモデルの利用には長い時間がかかり、高価な計算資源が不可欠となる。
Cohn T, Smith A,Osborne M.Scaling conditional random fields using error−correcting codes(誤り訂正コードを使用した条件ランダム場のスケーリング).In Proc.the 43rd Annual Meeting of the Association for Computational Linguistics(ACL’05),Ann Arbor,Michigan:Association for Computational Linguistics,June 2005,pp.10−17.
本発明は、品詞階層とカスケード化されたCRFの分類・結合の技術を導入することにより、大きなタグ集合を伴う品詞タグ付けに従来型CRFを適用するという問題を解決する。本発明は、トレーニング集合から異なる品詞間の内的関係を自動的に解析し、その内的関係に基づいて品詞階層ツリーを構築して、全品詞を編成する。本発明は、この品詞階層ツリーに基づいて、各階層のタグ数を減少させるためのカスケード化CRFモデルを導入し、個々のモデル間の導入関係を指定する。本発明は最後に、大きなタグ集合の場合でも、カスケード化CRF品詞タグ付けモデルを自動的にトレーニングし、取得することができる。トレーニング集合が潜在的に乏しいという問題を考慮して、本発明は上記に加えて、未知語を対象とした語構築ルールに基づく品詞推測モデルをトレーニングし、品詞タグ付けの精度をさらに向上させる。
本発明の第1の品詞タグ付けシステムは多数のタグ付きテキストを含む品詞タグトレーニング集合内のタグ付きテキストの品詞間の関連性を分析し、当該関連性に基づいて前記品詞をツリー構造として階層上に編成した品詞階層ツリーを生成する品詞階層ツリー構築手段を備える品詞階層ツリー構築装置と、前記品詞階層ツリーのノード毎に、前記品詞階層ツリーに基づいて前記タグ付きテキストに含まれる品詞タグ付けラベルを再タグ付けし、再タグ付けした前記タグ付きテキストを用いてCRFモデルをトレーニングして、品詞タグ付けモデルを生成する品詞タグ付けモデルトレーニング手段を備える品詞タグ付けモデルトレーニング装置と、前記品詞タグ付けモデルに基づいて、トレーニング済みの前記CRFモデルを使用してタグ付け対象のテキストの品詞にタグ付けする品詞タグ付け手段を備える品詞タグ付け装置とを備え、前記品詞タグ付けモデルは、トレーニング済みの各CRFモデルを前記品詞階層ツリーの各ノードに対応させて階層化した構造のデータである
本発明の第品詞タグ付け方法は品詞階層ツリー構築装置と、品詞タグ付けモデルトレーニング装置と、品詞タグ付け装置とを備える品詞タグ付けシステムによる品詞タグ付け方法であって、前記品詞階層ツリー構築装置が備える品詞階層ツリー構築手段が、多数のタグ付きテキストを含む品詞タグトレーニング集合内のタグ付きテキストの品詞間の関連性を分析し、当該関連性に基づいて前記品詞をツリー構造として階層上に編成した品詞階層ツリーを生成する品詞階層ツリー構築ステップと、前記品詞タグ付けモデルトレーニング装置が備える品詞タグ付けモデルトレーニング手段が、前記品詞階層ツリーのノード毎に、前記品詞階層ツリーに基づいて前記タグ付きテキストに含まれる品詞タグ付けラベルを再タグ付けし、再タグ付けした前記タグ付きテキストを用いてCRFモデルをトレーニングして、品詞タグ付けモデルを生成する品詞タグ付けモデルトレーニングステップと、前記品詞タグ付け装置が備える品詞タグ付け手段が、前記品詞タグ付けモデルに基づいて、トレーニング済みの前記CRFモデルを使用してタグ付け対象のテキストの品詞にタグ付けする品詞タグ付けステップとを有し、前記品詞タグ付けモデルは、トレーニング済みの各CRFモデルを前記品詞階層ツリーの各ノードに対応させて階層化した構造のデータである
本発明は、以下のように、CRFを大きなタグ集合を伴う品詞タグ付けに適用する問題を本質的に解決する。
1) 本発明は、CRFモデルを大きなタグ集合を伴う品詞タグ付けに適用することを可能にすると共に、トレーニングに長い時間を要し、高価な計算資源に大きく依存するという問題を解決する。本発明の方法およびシステムによれば、機種を問わず通常の任意のPCコンピュータ上で品詞タグ付けモデルをトレーニングすることが可能になる。
2) 以下の理由により、品詞タグ付け精度が向上する。すなわち、(i)品詞の順次タグ付けはグローバル関連性の高いタスクだが、CRFモデルの導入によりグローバル最適化を効率的に実行できるため、品詞タグ付け精度が向上する。また、(ii)語構築ルールに基づく未知語のための品詞推測機構を導入することにより、トレーニング集合が乏しいという問題に対処することができ、品詞タグ付け全体の精度も向上する。
3) 本発明の方法は完全に自動化されているので、品詞タグ付けモデルのトレーニングと最適化のための人件費を大幅に削減することができる。
本発明の第1の実施例による品詞タグ付けシステムの概略図である。 本発明の第1の実施例による品詞タグ付け方法のフローチャートである。 本発明による品詞階層ツリー構築装置の概略図である。 本発明による品詞階層ツリー構築方法のフロー・チャートである。 品詞階層ツリーの構成例である。 品詞階層ツリーのデータ構造例である。 品詞階層ツリーのデータ構造例である。 本発明による品詞タグ付けモデルトレーニング装置の概略ブロック図である。 本発明による品詞タグ付けモデルトレーニング方法のフロー・チャートである。 本発明による品詞タグ付け装置の概略図である。 本発明による品詞タグ付け方法のフロー・チャートである。 本発明の第2の実施例による品詞タグ付けシステムの概略図である。 本発明の第2の実施例による品詞タグ付け方法のフローチャートである。 本発明の第3の実施例による品詞タグ付けシステムの概略図である。 本発明の第3の実施例による品詞タグ付け方法のフローチャートである。
次に、図を参照して、本発明の好適な実施例について説明する。なお、同じ参照記号または番号が異なる図で使用されている場合は、同一もしくは類似の構成要素であることを示す。以下では、本発明の主題が曖昧となるのを避けるため、既知の機能および構成の詳細な説明は省略している。
図1は、本発明の第1の実施例による品詞タグ付けシステムの概略図である。品詞タグ付けシステム1において、品詞タグトレーニング集合10は、多数のタグ付きテキスト(すなわち、タグ付きテキスト集合)から成る。品詞階層ツリー構築装置14は、品詞タグトレーニング集合10内のタグ付きテキストに基づいて、異なる品詞間の関連性を分析し、分析された関連性に基づいて品詞階層ツリー15を構築して、品詞タグトレーニング集合10内に存在するタグ付き品詞を階層状に編成する。ここで、関連性は例えば品詞間の類似性としてもよい。品詞タグ付けモデルトレーニング装置12は、トレーニングを行って品詞タグ付けモデル13を生成する。品詞タグ付けモデルトレーニング装置12は品詞タグトレーニング集合10からタグ付きテキストを読み取り、品詞階層ツリー15内の品詞階層に関する情報に基づいて、品詞タグ付け用CRF品詞タグ付けモデル13をトレーニングするためのモデルトレーニング処理を構築する。生成された品詞タグ付けモデルは、カスケード化された品詞タグ付けモデルである。品詞タグ付け装置22は、生成された品詞タグ付けモデルに基づいて、任意の非タグ付きテキスト内の語に対して品詞タグ付けを実行する。
図1には品詞階層ツリー構築装置14を備える品詞タグ付けシステムが示されているが、品詞階層ツリー構築装置を含まない品詞タグ付けシステムも可能である。この場合は、予め構築された品詞階層ツリーを使用して、非タグ付きテキストに品詞をタグ付けする。品詞階層ツリーは、例えば、手動で構築された階層ツリーであってもよい。さらに、品詞タグ付けシステムは、品詞タグ付け用の品詞タグ付けモデル13を生成する、品詞タグ付けモデルトレーニング装置12のみを備えることもできる。
品詞階層ツリー15は、品詞をツリー構造として階層状に編成する。図4aは、品詞階層ツリーの一例である。この品詞階層ツリーは、階層0、1、2、3の計4階層を有し、階層2と階層3は各々6ノードずつ有する。品詞階層ツリーの葉ノードは真の品詞に対応し、その他のノードは無作為に定義されたダミーのクラス名である。図4bおよび図4cは、図4aに示す品詞階層ツリーのデータ構造の例である。
図1bは、品詞タグ付け方法のフローチャートである。S101において、品詞階層ツリー構築装置14は品詞階層ツリー15を構築して、品詞タグトレーニング集合内に存在するタグ付き品詞を階層状に編成する。S102において、品詞タグ付けモデルトレーニング装置12は品詞タグトレーニング集合10からタグ付きテキストを読み取り、品詞階層ツリー15内の品詞階層に関する情報に基づいて、品詞タグ付け用の品詞タグ付けモデル13を生成する。この品詞タグ付けモデルは、カスケード化された品詞タグ付けモデルである。S103において、品詞タグ付け装置22は、生成された品詞タグ付けモデル13を使用して、入力されたテキストに対し品詞タグ付けを実行する。
次に、図2と図3を参照して、品詞階層ツリー15の構築について説明する。
図2は、本発明の品詞階層ツリー構築装置14の概略図である。この図においては、品詞特徴テンプレート選択ユニット140が、品詞の文法的挙動を表現する品詞特徴テンプレートを選択する。品詞の文法的挙動は様々な方法で表現することができる。品詞特徴テンプレートとして選択できる特徴の一例としては、タグ付きテキスト内における現在の語の直前の語と、当該直前の語の品詞と、現在の語の直後の語と、当該直後の語の品詞とを含むものが挙げられる。特徴ベクトル構築ユニット141は、選択された品詞特徴テンプレートに基づいて、品詞タグトレーニング集合10内に存在する各品詞の特徴ベクトルを構築する。類似度計算ユニット142は、構築された特徴ベクトルを使用して、品詞タグトレーニング集合10に含まれる任意の2つの品詞間の類似度を計算する。クラスタ化ユニット143は、計算された類似度に基づき、従来の階層クラスタ化アルゴリズムを使用して、品詞タグトレーニング集合10内のすべての品詞をクラスタ化し、予め設定されたルールに従って品詞階層ツリー15を生成する。
図3は、品詞階層ツリー構築装置が品詞階層ツリーを生成する処理のフローチャートである。S301において、品詞特徴テンプレート選択ユニット140は品詞特徴群を品詞特徴テンプレートとして選択する。このとき、例えば、タグ付きテキスト内における現在の語の直前の語と、当該直前の語の品詞と、現在の語の次の語と、当該次の語の品詞、というように選択する。例えば、「香港/ns 評出/v 十/m 大/a 傑出/a 青年/n」というタグ付きテキストにおいて、語「評出」を現在の語として選択したとすると、現在の語の品詞は「v」である。この場合の品詞特徴群は、以下のように表現される。
Figure 0005128629
S302において、特徴ベクトル構築ユニット141は、品詞特徴テンプレートに基づいて、品詞タグトレーニング集合10内の各品詞の特徴ベクトルを構築する。例えば、品詞タグトレーニング集合内には合計dz個の語とlz個の品詞がある。ユニット141は、上記で選択された品詞特徴群を与えられると、任意の品詞xについて以下のベクトルを構築することができる。
1) x<previous word> 直前の語ベクトル−このベクトルはdzの寸法を有し、当該ベクトルに対応する要素は、指定された語が品詞xの語の直前に出現する頻度を表す。
2) x<previous word’s POS> 直前の語の品詞ベクトル−このベクトルはlzの寸法を有し、当該ベクトルに対応する要素は、指定された品詞が品詞xの語の直前に出現する頻度を表す。
3) x<next word> 次の語ベクトル−このベクトルはdzの寸法を有し、当該ベクトルに対応する要素は、指定された語が品詞xの語の直後に出現する頻度を表す。
4) x<next word’s POS> 次の語の品詞ベクトル−このベクトルはlzの寸法を有し、当該ベクトルに対応する要素は、指定された品詞が品詞xの語の直後に出現する頻度を表す。
S303において、類似度計算ユニット142は、例えばx1およびx2について以下のステップを実行して、品詞タグトレーニング集合10に含まれる任意の2つの品詞間の類似度を計算する。
1)最初に、2つの品詞(x1,x2)の特徴ベクトルについて、各対間における以下の類似度を計算する。
Simc(x1<previous word>,x2<previous word>)
Simc(x1<previous word’s POS>,x2<previous word’s POS>)
Simc(x1<next word>,x2<next word>)
Simc(x1<next word’s POS>,x2<next word’s POS>)
2)以下の式を使用して、全体的な類似度を計算する。
Sim(x1,x2)= w1* Simc(x1<previous word>,x2<previous word>)+
w2* Simc(x1<previous word’s POS>,x2<previous word’s POS>)+
w3* Simc(x1<next word>,x2<next word>)+
w4* Simc(x1<next word’s POS>,x2<next word’s POS>),
ここで、w1+w2+w3+w4=1である。
S304において、クラスタ化ユニット143は、計算された類似度に基づき、階層クラスタ化アルゴリズム(例えば、K平均法アルゴリズム)を使用して、すべての品詞をクラスタ化し、事前に設定されたルールに基づいて階層ツリーを生成する。本発明においては、事前に設定されたルールには、「各階層のノード数はn未満であること(nは正の整数)」のような定義を含めてもよい。この場合、例えばnを8とすることができる。
以下では、図5aと図5bを参照して、品詞タグ付けモデルの生成について説明する。図5aは、本発明による品詞タグ付けモデルトレーニング装置12のブロック図である。品詞タグ付けモデルトレーニング装置12は、CRFモデルトレーニングコーパス構築ユニット121と、CRFモデルトレーニングユニット122と、論理回路120とを備える。CRFモデルトレーニングコーパス構築ユニット121は、品詞階層ツリー15に基づいて、品詞タグトレーニング集合10から階層毎およびノード毎に読み取られたトレーニングテキストに対して品詞タグ付けを実行する。CRFモデルトレーニングユニット122は、CRFモデルトレーニングコーパス構築ユニット121によってタグ付けされたトレーニングテキストに基づいて、対応する階層毎およびノード毎にCRFモデルをトレーニングする。論理回路120は、品詞タグ付けモデルのトレーニング処理において、CRFモデルトレーニングコーパス構築ユニット121とCRFモデルトレーニングユニットとを制御する。論理回路120は、品詞階層ツリーの階層数を保持しており、CRFモデルトレーニングコーパス構築ユニット121とCRFモデルトレーニングユニットが1つの階層を処理する毎に階層数を増分し、品詞階層ツリーの最後の階層のすべてのノードが処理されるまでこれを継続する。
図5bは、品詞タグ付けモデルトレーニング装置が品詞タグ付けモデルを生成する処理のフローチャートである。これは2層ループを含む入れ子式のトレーニング方法であり、上から下に向かうトレーニングモードが採用されている。そのため、1つの階層のトレーニング結果は次の階層に影響を及ぼし、同じ階層のトレーニングは独立して実行することができる。品詞階層ツリーはn階層で構成され、階層iにはm個のノードがあり、現在のノードを「j」と呼ぶこととする。最初に、論理回路120が、S601において階層iに「0」の値を割り当て、S602においてノードjに「1」の値を割り当てる。続いて、S603において、CRFモデルトレーニングコーパス構築ユニット121が<i,j>CRFモデル用のトレーニングコーパスを構築し、原形の品詞タグトレーニング集合10内のタグ付きテキストに含まれる品詞タグ付けラベルを、品詞階層ツリー内においてそのラベルに対応する、現在のノードの各サブノード名に置換する。S604において、CRFモデルトレーニングユニット122が、<i,j>CRFモデルトレーニングコーパスと選択された特徴テンプレートとを用いて、<i,j>CRFモデルをトレーニングする。ここで、i=0の場合は、CRFモデルトレーニングユニット122によって選択された特徴テンプレートは、前後2つの語と、現在の語の前後の文字と、前後2語間の共起頻度とを含む。そして、i>0においては、階層0で使用された特徴テンプレートに加えて、直前の階層のタグ付け結果に示される前後2つの語の品詞と、品詞間の共起と、語および品詞間の共起とを含む特徴テンプレートも同時に使用される。S605においてjの値が増分され、S606において、jがmより大きいかどうかが判定される。jがmより小さい場合には、処理はS603に進む。jがmより大きい場合には、iの値がS607において増分され、処理はS602に進み、品詞階層ツリーのすべての階層のノードがS603とS604を終了するまで処理が継続される。このようにして、大規模なタグ集合においても、カスケード化品詞タグ付けモデルをトレーニングすることができる。
ここで、十分なタグ付けがなされた以下の文を一例として取り上げる。
香港/ns 評出/v 十/m 大/a 傑出/a 青年/n
階層0において、<0,1>CRFモデルトレーニングコーパスが構築される。最初に、この文の再タグ付けが行われる。図4aに示す品詞階層ツリーを参照すると、階層0におけるノード1のサブノードは「label1」、「label2」、「label3」、「label4」である。図4aの真の品詞「v」は、品詞階層ツリーの第1階層におけるサブノードの「label1」に対応する。したがって、原形のトレーニング集合内の「v」でタグ付けされたすべての語は、「label1」として再タグ付けされる。
階層0において再タグ付けされた文は、以下のようになる。
香港/label3 評出/label1 十/label2 大/label1 傑出/label1 青年/label3
階層0において、CRFモデルがトレーニングされる。選択された特徴テンプレートは、「香港」と「評出」のような前後2つの語と、現在の語の前後の文字と、前後2語間の共起とを含む(ここで、「共起」とは、ある文脈において2語が同時に出現する状況を意味する)。
その後、上記の文が階層1において再度、再タグ付けされる。階層1の1番目のノード<1,1>に関して、<1,1>CRFモデルトレーニングコーパスが構築される。図4aの品詞階層ツリーを参照すると、ノード<1,1>は「label11」「label12」というサブノードを有している。したがって、階層0で「label1」でタグ付けされた語はさらに「label11、label12」(すなわち、現在のノードのサブノード名の集合)でタグ付けされる。
階層0のタグ付け結果であった「香港/label3 評出/label1 十/label2 大/label1 傑出/label1 青年/label3」は、ノード<1,1>の再タグ付け後には、「香港/label3 評出/label12 十/label2 大/label11 傑出/label11 青年/label3」となる。
その後、ノード<1,1>についてCRFモデルトレーニングが実行される。選択された特徴テンプレートは、上記の階層0の特徴テンプレートに加えて、直前の階層のタグ付け結果に含まれる前後2語の品詞と、品詞間の共起と、語と品詞間の共起とを含む。例えば、「評出」という語の場合、特徴テンプレートは、前後の2語「香港」および「十」の品詞である「lable3」および「label2」と、これらの品詞間の共起と、語と品詞間の共起とを含む。
同様に、ノード<1,2>、ノード<1,3>、ノード<1,4>の各々に対して上記のCRFモデルトレーニングコーパス構築処理とCRFモデルトレーニング処理が実行され、すべての階層のノードがCRFモデルトレーニングコーパス構築処理とCRFモデルトレーニング処理を終了するまでこれが継続される。
図6aは、品詞タグ付け装置のブロック図である。品詞タグ付け装置22は、論理回路222と、CRFモデル特徴構築ユニット220と、CRF品詞タグ付けユニット221とを備える。論理回路222は、品詞タグ付け処理の実行中に、カスケード化された品詞タグ付けモデルに従ってCRFモデル特徴構築ユニット220とCRF品詞タグ付けユニット221とを制御する。CRFモデル特徴構築ユニット220は、論理回路222の制御のもとで、タグ付け対象のテキスト用として、<i,j>CRFモデルを利用するための特徴群を階層毎およびノード毎に構築する。CRF品詞タグ付けユニット221は、論理回路222の制御のもとで、特徴構築ユニット220によって構築された特徴データに基づいて、対応する階層毎およびノード毎に品詞タグ付けを実行する。
図6bは、品詞タグ付け装置が実行するカスケード化CRF品詞タグ付け方法のフローチャートである。品詞タグ付けモデルに計n階層があり、階層iにはm個のノードがあり、現在のノードを「j」と呼ぶこととする。最初にS901において、論理回路222が階層iに「0」の値を割り当て、S902においてノードjに「1」の値を割り当てる。次にS903において、CRFモデル特徴構築ユニット220が<i,j>CRFモデルを利用するための特徴データを構築する。CRFモデル特徴構築ユニット220は、品詞モデルのトレーニング処理において、特徴テンプレート集合に基づき、CRFモデル用の入力特徴データを構築する。異なる階層iに対して、以下の2つの方法を利用することができる。
1) iが「0」の場合に、CRFモデル用の特徴テンプレートに情報を取り込む処理を実行する。すなわち、タグ付け対象として入力されたテキストから直接、関連の特徴情報を抽出し、テンプレートにその情報を取り込むことにより、CRFモデルの入力特徴データを生成する。
2) iが「0」以外の場合には、階層0で特徴情報を抽出することに加えて、階層i−1のCRFモデルを利用して、タグ付け対象のテキストのタグ付け結果から特徴情報を抽出することにより、CRFモデルの入力特徴データを生成する。
S904において、生成された特徴データに基づき、品詞タグモデル10の<i,j>CRFモデルを利用してテキストにタグ付けする。
S905においてjの値が増分され、S906において、jがmより大きいかどうかが判定される。jがmより小さい場合には、処理はS903に進む。jがmより大きい場合には、iの値がS907において増分され、処理はS908およびS902に進み、品詞階層ツリーのすべての階層のノードがS903とS904を終了するまで処理が継続される。このように、階層毎にテキストに品詞タグ付けを行うことにより、大規模なタグ集合での品詞タグ付けが実現される。
以下では、タグ付け処理全体に対する理解を深めるため、単純な例を取り上げて説明する。
タグ付け対象のテキストとして、「北京 入囲 十 大 宜居 城市」が与えられたとする。
階層0(<0,1>CRFモデルを利用)
タグ付け結果は、「北京/label3 入囲/label1 十/label2 大/label1 宜居/label1 城市/label3」となる。
階層1(この階層用のすべてのCRFモデルを利用)
1.<1,1>CRFモデルを利用して、「北京/label3 入囲/label12 十/label2 大/label11 宜居/label11 城市/label3」の結果が得られる。
2.<1,2>CRFモデルを利用して、以下同様である。
……
階層1に対する処理後のタグ付け結果は、「北京/label32 入囲/label12 十/label21 大/label11 宜居/ label11 城市/label31」である。
階層2
1.<2、1>CRFモデルを利用して、「北京/label32 入囲/label12 十/label21 大/a 宜居/a 城市/label31」の結果が得られる。
2.<2、2>CRFモデルを利用して、以下同様である。
最終的に得られる完全なタグ付け結果は、「北京/ns 入囲/v 十/m 大/a 宜居/a 城市/n」である。
図7aは、本発明の第2の実施例による品詞タグ付けシステムの概略ブロック図である。この品詞タグ付けシステムは、図1aの品詞タグ付けシステムの構成要素に加えて、評価装置16と、調整装置17と、テスト集合構築装置18とをさらに備える。テスト集合構築装置18は、タグ付け対象のテキスト集合用のテスト集合として、品詞タグトレーニング集合10から無作為に品詞タグ付け用テキスト集合を選択する。評価装置16は、テスト集合が品詞タグ付けモデルを使用した品詞タグ付け処理に付された後のタグ付け結果を評価する。この場合、評価装置16は、トライアルの結果に基づいてタグ付け精度を評価する。調整装置17は、より高性能な品詞階層ツリーを構築するために、評価装置の評価結果に基づいて品詞階層ツリー構築装置14を調整する。
図7bは、品詞タグ付けシステムによって実行される品詞タグ付け処理のフローチャートである。図7bに示すように、S701において、テスト集合構築装置18がテスト集合として品詞タグトレーニング集合10の副集合を無作為に抽出する。S702において、品詞タグ付けシステムがトレーニング済み品詞タグ付けモデル13を利用してテスト集合に品詞タグ付け処理を実行する。S703において、評価装置16が品詞タグ付けされたテスト集合の精度を評価し、その評価結果を調整装置17に渡す。その後、S704において、調整装置17が評価結果に基づいて品詞タグ付けモデルの性能を判定し、品詞タグ付けモデルの性能が事前に決定された条件を満たさない場合には、S705において、クラスタ化結果を変更するために、品詞階層ツリー構築装置14によって使用されたw1、w2、w3、およびw4のしきい値を調整する。S706において、調整装置はヒューリスティックルール(発見的規則)を用いてクラスタ化結果を調整する。この際には、例えば「nとnsは異なるクラスタに分類する」と規定するルールが使用される。
図8aは、本発明の第3の実施例による品詞タグ付けシステムのブロック図である。未知語の場合は、通常トレーニングコーパス内にその語のトレーニングデータがないので比較的タグ付け精度が低くなり、その影響で全体的なタグ付け精度が低下する。本発明の品詞タグ付けシステムは、未知語の品詞を訂正できるため、システムの全体的な品詞タグ付け精度が向上する。この品詞タグ付けシステムは、図1aの品詞タグ付けシステムの構成要素に加えて、未知語品詞推測モデル構築装置19と、未知語の品詞訂正装置21とをさらに備える。未知語品詞推測モデル構築装置19は、既存の品詞タグトレーニング集合10から語構築ルールを学習し、学習した語構築ルールに従って未知語品詞推測モデル20を構築する。未知語の品詞訂正装置21は、未知語品詞推測モデル20を使用して、品詞タグ付けモデル13でタグ付けされたテキスト内の未知語の品詞を訂正する。
図8bは、本発明の第3の実施例による品詞タグ付け方法を示す。図8bに示すように、S801において、未知語品詞推測モデル構築装置19がまず品詞タグトレーニング集合内の語に対して直接構成素分割処理を実行し、分割後の直接構成素の属性を分析する(すなわち、品詞タグトレーニング集合内の各語の直接構成素を特定し、その直接構成素の属性にタグ付けする)ことにより、語の構成要素のシーケンスを取得する。
ここで、直接構成素の定義について簡単に説明する。大きな単位を構成する小さな単位は、大きな単位の構成要素と呼ばれる。そのため、大きな単位を直接構成する小さな単位は「直接構成素」と呼ばれる。品詞タグトレーニング集合内の各語は、語よりも小さい構成要素ではなく、語そのものである。したがって、ここでいう「直接構成素」と直接構成素属性の分析は、一般的な語分割や品詞タグ付けとは異なるものである。ここでいう「直接構成素」と直接構成素属性の分析とは、品詞タグ付けトレーニング集合内の2つ以上の文字から成る語を直下の単位に分割することを意味する。例えば、2つの文字から成る1つの語の場合であれば、直下の単位とは、その語を構成する個々の文字(形態素)を意味する。3つ以上の文字から成る語の場合、その語は、辞書内に存在する1つの語(最大一致)と1つの形態素とに分割される。「科学技術部」という語の場合、「科学」、「技術」の2語が辞書内に存在し、「科学技術」や「技術部」は存在しないと仮定すると、この語は「科学/技術/部」に分割される。「科学」、「技術部」、「技術」が辞書内に存在するとすれば、分割結果は「科学/技術部」になる。そのため、直接構成素は語のことも形態素のこともありうる。直接構成素の属性とは、主に、品詞タグの形式で表現される構文属性を意味する。直接構成素の属性は、可能なすべての品詞タグを含むことができる。
表3は、「冷暴力、掃射」という2つの語に関する直接構成素分割と属性分析の結果を示したものである。
Figure 0005128629
上記から取得できるシーケンスは、以下のようなものである。
冷暴力 → 冷 2 a N_B 暴力 4 n N_E
掃射 → 掃 2 v V_B 射 2 v V_E.
「冷射」が未知語の場合は、取得される語構成要素のシーケンスは「冷 2 a 射 2 v」となる。
S802において、未知語品詞推測モデル構築装置19が品詞特徴テンプレートを選択する。
S803において、未知語品詞推測モデル構築装置19は、選択された品詞特徴テンプレートを使用して取得された語構成要素のシーケンスを変換し、任意の既知の機械学習アルゴリズムを用いて未知語推測モデル20を生成する。例えば、未知語推測モデル20を使用すると、「冷射」の品詞として以下を取得することが可能になる。
POS(冷 2 a V_B,射 2 v V_E)= V.
S804において、品詞タグ付けシステムが、生成された未知語推測モデル20を使用して、品詞タグ付けモデル13でタグ付けされたテキスト内の未知語を再タグ付けする。
語構成要素のシーケンスが「掃 2 v V_B 射 2 v V_E」であり、以下の特徴テンプレートが選択されたとする。
//構成語の品詞
U01:%x[−1,2] // 前の1つの構成素の第2の特徴(/)(「/」はヌルの特徴を表す)
U02:%x[0,2] //現在の構成素の第2の特徴(a)
//構成語の長さ
U03:%x[1,1] //次の1つの構成素の第1の特徴(2,2)
//構成語
U04:%x[0,0] //現在の1つの構成素のゼロ特徴,
語構成要素のシーケンスは、CRF等の任意の機械学習法のために、以下のような入力データに変換される。
if(T(−1,2)=‘/’)tag = ‘V_B’
if(T(0,2)=‘v’)tag = ‘V_B’
if(T(1,1)=’2’)tag = ‘V_B’
if(T(0,0)=‘掃’)tag = ‘V_B’

if(T(−1,2)=‘v’)tag = ‘V_E’
if(T(0,2)=‘v’)tag = ‘V_E’
if(T(1,1)=‘2’)tag = ‘V_E’
if(T(0,0)=‘射’)tag = ‘V_E’
品詞タグ付けモデル13でタグ付けされた最終テキスト内の未知語は、生成された未知語推測モデル20を使用して再タグ付けされるが、生成された未知語推測モデル20を使用して、現在の階層において品詞タグ付けモデル13でタグ付けされたテキスト内の未知語を再タグ付けすることも可能である。換言すれば、現在の階層の品詞タグ付け結果を訂正し、その上で次の階層用の特徴データとして使用することができる。
上記では、本発明の実施例を説明するために中国語のテキストを例として使用したが、本発明は英語や日本語等の任意の言語における品詞タグ付けに適用できることは明らかである。
上記の説明は本発明の好適な実施例のみを示したに過ぎず、本発明を限定することを意図するものではない。当該技術に精通する当業者には、付記する請求項により定義される本発明の範囲と精神を逸脱しない限り、これらの実施例に任意の修正・置換をなすことができることは理解されるであろう。
さらに、上記実施形態の一部又は全部は、以下の付記のようにも記載されうるが、これに限定されない。
(付記1)
品詞タグ付けシステムであって、
品詞階層ツリーに基づいて、品詞タグトレーニング集合内の第1のタグ付きテキストを使用して、階層的およびノード的に品詞タグ付けモデルをトレーニングする品詞タグ付けモデルトレーニング装置と、
トレーニング済みの品詞タグ付けモデルを使用して、タグ付け対象のテキストの品詞にタグ付けする品詞タグ付け装置と
を備えることを特徴とする品詞タグ付けシステム。
(付記2)
前記品詞タグ付けモデルトレーニング装置が、
品詞階層ツリーに基づいて、階層的およびノード的に第2のタグ付きテキストに対して、品詞タグトレーニング集合内の第1のタグ付きテキストをタグ付けすることにより、CRFモデルトレーニングコーパスを構築するCRFモデルトレーニングコーパス構築ユニットと、
前記CRFモデルトレーニングコーパス構築ユニットによってタグ付けされた第2のタグ付きテキストを使用することにより、対応する階層的およびノード的にCRFモデルをトレーニングし、品詞タグ付けモデルを取得するCRFモデルトレーニングユニットとを備えることを特徴とする付記1に記載の品詞タグ付けシステム。
(付記3)
前記CRFモデルトレーニングコーパス構築ユニットは、品詞階層ツリー内のタグ付き品詞の位置に対応する当該ノードのサブノードの名で、前記第1のタグ付きテキストのタグ付き品詞を置換することにより、階層的およびノード的にタグ付けを実行することを特徴とする付記2に記載の品詞タグ付けシステム。
(付記4)
前記CRFモデルトレーニングユニットは、
(a)現在のレベルが「0」であり、特徴テンプレートが、第2のテキスト内の前後2つの語と、現在の語の前後の文字と、前後2語間の共起頻度とを含む場合
(b)現在のレベルは「0」でなく、特徴テンプレートが、レベル0で選択された特徴テンプレートと、直前の階層での第2のテキスト内の前後2つの語と、品詞間の共起頻度と語と品詞間の共起頻度を含む場合
に応じて特徴テンプレートを選択することにより、階層的およびノード的にCRFモデルをトレーニングすることを特徴とする付記3に記載の品詞タグ付けシステム。
(付記5)
前記品詞タグ付け装置が、
タグ付け対象のテキストに対してCRFモデルを適用するために、階層的およびノード的に特徴データを構築するCRFモデル特徴構築ユニットと、
前記CRFモデル特徴構築ユニットによって構築される特徴データに従って、階層的およびノード的にタグ付け対象のテキストの品詞のタグ付けを行うCRF品詞タグ付けユニットとを備えることを特徴とする付記2に記載の品詞タグ付けシステム。
(付記6)
前記CRFモデル特徴構築ユニットは、
(a)現在のレベルは0であり、特徴データが、CRFモデルのトレーニング中にレベル0で選択された特徴テンプレートに入力するために使用され、タグ付け対象のテキストから抽出される場合
(b)現在のレベルが0でなく、レベル0で抽出された特徴データが使用され、また直前のレベルのCRFモデルによってタグ付けされた第2のテキストから特徴データが抽出される場合
に応じてCRFモデルについて特徴データを構築することを特徴とする付記5に記載の品詞タグ付けシステム。
(付記7)
前記品詞タグトレーニング集合内のタグ付きテキストの品詞間の関連性を分析する品詞階層ツリー構築装置をさらに備えることを特徴とする付記1に記載の品詞タグ付けシステム。
(付記8)
前記品詞階層ツリー構築装置が、
品詞の特徴を表わす特徴テンプレートを選択する品詞特徴テンプレート選択ユニットと、
選択した特徴テンプレートに従って品詞タグトレーニング集合内の品詞について特徴ベクトルを構築する特徴ベクトル構築ユニットと、
前記特徴ベクトルを使用して品詞間の類似度を計算する類似度計算ユニットと、
類似度に基づいて品詞をクラスタ化し、品詞階層ツリーを生成するクラスタ化ユニットとを備えることを特徴とする付記7に記載の品詞タグ付けシステム。
(付記9)
前記品詞タグトレーニング集合からテスト集合としてランダムにテキスト集合を選択するテスト集合構築装置と、
前記品詞タグ付けモデルを使用して、テスト集合からタグ付けされたテキストの品詞タグ付けの結果を評価する評価装置と、
評価結果に従って品詞階層ツリーを調整する調整装置とをさらに備えることを特徴とする付記8に記載の品詞タグ付けシステム。
(付記10)
前記調整装置は、前記品詞階層ツリー構築装置によって品詞間の類似度を計算するのに使用するしきい値を調整することを特徴とする付記9に記載の品詞タグ付けシステム。
(付記11)
品詞タグトレーニング集合から語構築ルールを学習し、未知語の品詞推測モデルを構築する未知語品詞推測モデル構築装置と、
未知語の品詞推測モデルを使用して未知語の品詞をタグ付けし、品詞タグ付けモデルを使用してタグ付けされた未知語の品詞を訂正する未知語品詞訂正装置とを備えることを特徴とする付記1又は付記2に記載の品詞タグ付けシステム。
(付記12)
品詞タグ付け方法であって、
品詞階層ツリーに基づき、品詞タグトレーニング集合内の第1のタグ付きテキストを使用して、階層毎およびノード毎に品詞タグ付けモデルをトレーニングする品詞タグ付けモデルトレーニングステップと、
トレーニング済み品詞タグ付けモデルを使用して、タグ付け対象のテキストの品詞にタグ付けする品詞タグ付けステップと
を有することを特徴とする品詞タグ付け方法。
(付記13)
前記品詞タグ付けモデルトレーニングステップが、
品詞階層ツリーに基づいて、階層的およびノード的に第2のタグ付きテキストに対して、品詞タグトレーニング集合内の第1のタグ付きテキストをタグ付けすることにより、CRFモデルトレーニングコーパスを構築するCRFモデルトレーニングコーパス構築ステップと、
前記CRFモデルトレーニングコーパス構築ステップによってタグ付けされた第2のタグ付きテキストを使用することにより、対応する階層的およびノード的にCRFモデルをトレーニングし、品詞タグ付けモデルを取得するCRFモデルトレーニングステップを含むことを特徴とする付記12に記載の品詞タグ付け方法。
(付記14)
前記CRFモデルトレーニングコーパス構築ステップが、品詞階層ツリー内のタグ付き品詞の位置に対応する当該ノードのサブノードの名で、前記第1のタグ付きテキストのタグ付き品詞を置換することにより、階層的およびノード的にタグ付けを実行するステップを含むことを特徴とする付記13に記載の品詞タグ付け方法。
(付記15)
前記CRFモデルトレーニングステップが、
(a)現在のレベルが「0」であり、特徴テンプレートが、第2のテキスト内の前後2つの語と、現在の語の前後の文字と、前後2語間の共起頻度とを含む場合
(b)現在のレベルは「0」でなく、特徴テンプレートが、レベル0で選択された特徴テンプレートと、直前の階層での第2のテキスト内の前後2つの語と、品詞間の共起頻度と語と品詞間の共起頻度を含む場合
に応じて特徴テンプレートを選択することにより、階層的およびノード的にCRFモデルをトレーニングするステップを含むことを特徴とする付記14に記載の品詞タグ付け方法。
(付記16)
前記品詞タグ付けステップが、
タグ付け対象のテキストに対してCRFモデルを適用するために、階層的およびノード的に特徴データを構築するCRFモデル特徴構築ステップと、
前記CRFモデル特徴構築ステップによって構築される特徴データに従って、階層的およびノード的にタグ付け対象のテキストの品詞のタグ付けを行うCRF品詞タグ付けステップとを含むことを特徴とする付記13に記載の品詞タグ付け方法。
(付記17)
前記CRFモデル特徴構築ステップが、
(a)現在のレベルは0であり、特徴データが、CRFモデルのトレーニング中にレベル0で選択された特徴テンプレートに入力するために使用され、タグ付け対象のテキストから抽出される場合
(b)現在のレベルが0でなく、レベル0で抽出された特徴データが使用され、また直前のレベルのCRFモデルによってタグ付けされた第2のテキストから特徴データが抽出される場合
に応じてCRFモデルについて特徴データを構築するステップを含むことを特徴とする付記16に記載の品詞タグ付け方法。
(付記18)
前記品詞タグトレーニング集合内のタグ付きテキストの品詞間の関連性を分析する品詞階層ツリー構築ステップをさらに有することを特徴とする付記12に記載の品詞タグ付け方法。
(付記19)
前記品詞階層ツリー構築ステップが、
品詞の特徴を表わす特徴テンプレートを選択する品詞特徴テンプレート選択ステップと、
選択した特徴テンプレートに従って品詞タグトレーニング集合内の品詞について特徴ベクトルを構築する特徴ベクトル構築ステップと、
前記特徴ベクトルを使用して品詞間の類似度を計算する類似度計算ステップと、
類似度に基づいて品詞をクラスタ化し、品詞階層ツリーを生成するクラスタ化ステップとを含むことを特徴とする付記18に記載の品詞タグ付け方法。
(付記20)
前記品詞タグトレーニング集合からテスト集合としてランダムにテキスト集合を選択するテスト集合構築ステップと、
前記品詞タグ付けモデルを使用して、テスト集合からタグ付けされたテキストの品詞タグ付けの結果を評価する評価ステップと、
評価結果に従って品詞階層ツリーを調整する調整ステップとをさらに有することを特徴とする付記19に記載の品詞タグ付け方法。
(付記21)
前記調整ステップが、前記品詞階層ツリー構築ステップによって品詞間の類似度を計算するのに使用するしきい値を調整するステップを含むことを特徴とする付記20に記載の品詞タグ付け方法。
(付記22)
品詞タグトレーニング集合から語構築ルールを学習し、未知語の品詞推測モデルを構築する未知語品詞推測モデル構築ステップと、
未知語の品詞推測モデルを使用して未知語の品詞をタグ付けし、品詞タグ付けモデルを使用してタグ付けされた未知語の品詞を訂正する未知語品詞訂正ステップとを有することを特徴とする付記12又は付記13に記載の品詞タグ付け方法。
(付記23)
品詞タグ付けモデルのトレーニング装置であって、
品詞階層ツリーに基づいて、品詞タグトレーニング集合内の第1のタグ付きテキストを第2のテキストに階層毎およびノード毎にタグ付けすることにより、CRFモデルトレーニングコーパスを構築する、CRFモデルトレーニングコーパス構築ユニットと、
品詞タグ付けモデルを取得するために、CRFモデルトレーニングコーパス構築ユニットによってタグ付けされた第2のテキストを使用して、個々のCRFモデルを階層毎およびノード毎にトレーニングするCRFモデルトレーニングユニットと
を備えることを特徴とする品詞タグ付けモデルのトレーニング装置。
(付記24)
品詞タグ付けモデルのトレーニング方法であって、
品詞階層ツリーに基づいて、品詞タグトレーニング集合内の第1のタグ付きテキストを第2のテキストに階層毎およびノード毎にタグ付けすることにより、CRFモデルトレーニングコーパスを構築するCRFモデルトレーニングコーパス構築ステップと、
品詞タグ付けモデルを取得するために、CRFモデルトレーニングコーパス構築ユニットによってタグ付けされた第2のテキストを使用して、個々のCRFモデルを階層毎およびノード毎にトレーニングするCRFモデルトレーニングステップとを有することを特徴とする品詞タグ付けモデルのトレーニング方法。
10:品詞タグトレーニング集合
12:品詞タグ付けモデルトレーニング装置
13:品詞タグ付けモデル
14:品詞階層ツリー構築装置
15:品詞階層ツリー
22:品詞タグ付け装置
140:品詞特徴テンプレート選択ユニット
141:特徴ベクトル構築ユニット
142:類似度計算ユニット
143:クラスタ化ユニット
120:論理回路
121:CRFモデルトレーニングコーパス構築ユニット
122:CRFモデルトレーニングユニット
220:CRFモデル特徴構築ユニット
221:CRF品詞タグ付けユニット
222:論理回路
16:評価装置
17:調整装置
18:テスト集合構築装置
19:未知語品詞推測モデル構築装置
20:未知語品詞推測モデル
21:未知語品詞訂正装置

Claims (10)

  1. 品詞タグ付けシステムであって、
    多数のタグ付きテキストを含む品詞タグトレーニング集合内のタグ付きテキストの品詞間の関連性を分析し、当該関連性に基づいて前記品詞をツリー構造として階層上に編成した品詞階層ツリーを生成する品詞階層ツリー構築手段を備える品詞階層ツリー構築装置と、
    前記品詞階層ツリーのノード毎に、前記品詞階層ツリーに基づいて前記タグ付きテキストに含まれる品詞タグ付けラベルを再タグ付けし、再タグ付けした前記タグ付きテキストを用いてCRFモデルをトレーニングして、品詞タグ付けモデルを生成する品詞タグ付けモデルトレーニング手段を備える品詞タグ付けモデルトレーニング装置と、
    前記品詞タグ付けモデルに基づいて、トレーニング済みの前記CRFモデルを使用してタグ付け対象のテキストの品詞にタグ付けする品詞タグ付け手段を備える品詞タグ付け装置とを備え
    前記品詞タグ付けモデルは、トレーニング済みの各CRFモデルを前記品詞階層ツリーの各ノードに対応させて階層化した構造のデータである
    ことを特徴とする品詞タグ付けシステム。
  2. 前記品詞タグ付けモデルトレーニング手段が、
    前記品詞階層ツリーのノードに対し、前記タグ付きテキストに含まれる品詞タグ付けラベルを、当該品詞タグ付けラベルに対応する現在のノードの各サブノード名に再タグ付けすることにより、CRFモデルトレーニングコーパスを構築するCRFモデルトレーニングコーパス構築手段と、
    前記CRFモデルトレーニングコーパス構築手段によってタグ付けされたタグ付きテキストを用いてCRFモデルをトレーニングするCRFモデルトレーニング手段
    前記CRFモデルトレーニングコーパス構築手段及びCRFモデルトレーニング手段の処理を、前記品質階層ツリーの上位階層から順に全ての階層の全てのノードについて繰り返し、前記品詞タグ付けモデルを生成する制御手段と
    含むことを特徴とする請求項1に記載の品詞タグ付けシステム。
  3. 前記品詞タグ付け手段が、
    前記タグ付け対象のテキストに基づいて、CRFモデル用の特徴データを構築するCRFモデル特徴構築手段と、
    前記特徴データに基づき、前記トレーニング済みのCRFモデルを利用して前記タグ付け対象のテキストの品詞タグ付けを行うCRF品詞タグ付け手段
    前記CRFモデル特徴構築手段及びCRF品詞タグ付け手段の処理を、前記品詞タグ付けモデルの上位階層の前記トレーニング済みのCRFモデルから順に、すべての階層の全ての前記トレーニング済みのCRFモデルについて繰り返す制御手段と
    含むことを特徴とする請求項2に記載の品詞タグ付けシステム。
  4. 前記品詞タグトレーニング集合から語構築ルールを学習し、未知語の品詞推測モデルを構築する未知語品詞推測モデル構築手段を備える未知語品詞推測モデル構築装置と、
    未知語の品詞推測モデルを使用して未知語の品詞をタグ付けし、前記品詞タグ付けモデルを使用してタグ付けされた未知語の品詞を訂正する未知語品詞訂正手段を備える未知語品詞訂正装置と
    を備えることを特徴とする請求項1又は請求項2に記載の品詞タグ付けシステム。
  5. 前記品詞階層ツリー構築手段が、
    品詞の特徴を表わす特徴テンプレートを選択する品詞特徴テンプレート選択手段と、
    選択した特徴テンプレートに基づいて前記品詞タグトレーニング集合内の品詞について特徴ベクトルを構築する特徴ベクトル構築手段と、
    前記特徴ベクトルを使用して品詞間の類似度を計算する類似度計算手段と、
    前記類似度に基づいて品詞をクラスタ化し、前記品詞階層ツリーを生成するクラスタ化手段と
    を含むことを特徴とする請求項1に記載の品詞タグ付けシステム
  6. 品詞階層ツリー構築装置と、品詞タグ付けモデルトレーニング装置と、品詞タグ付け装置とを備える品詞タグ付けシステムによる品詞タグ付け方法であって、
    前記品詞階層ツリー構築装置が備える品詞階層ツリー構築手段が、多数のタグ付きテキストを含む品詞タグトレーニング集合内のタグ付きテキストの品詞間の関連性を分析し、当該関連性に基づいて前記品詞をツリー構造として階層上に編成した品詞階層ツリーを生成する品詞階層ツリー構築ステップと、
    前記品詞タグ付けモデルトレーニング装置が備える品詞タグ付けモデルトレーニング手段が、前記品詞階層ツリーのノード毎に、前記品詞階層ツリーに基づいて前記タグ付きテキストに含まれる品詞タグ付けラベルを再タグ付けし、再タグ付けした前記タグ付きテキストを用いてCRFモデルをトレーニングして、品詞タグ付けモデルを生成する品詞タグ付けモデルトレーニングステップと
    前記品詞タグ付け装置が備える品詞タグ付け手段が、前記品詞タグ付けモデルに基づいて、トレーニング済みの前記CRFモデルを使用してタグ付け対象のテキストの品詞にタグ付けする品詞タグ付けステップとを有し、
    前記品詞タグ付けモデルは、トレーニング済みの各CRFモデルを前記品詞階層ツリーの各ノードに対応させて階層化した構造のデータである
    ことを特徴とする品詞タグ付け方法
  7. 前記品詞タグ付けモデルトレーニングステップが、
    前記品詞階層ツリーのノードに対し、前記タグ付きテキストに含まれる品詞タグ付けラベルを、当該品詞タグ付けラベルに対応する現在のノードの各サブノード名に再タグ付けすることにより、CRFモデルトレーニングコーパスを構築するCRFモデルトレーニングコーパス構築ステップと、
    前記CRFモデルトレーニングコーパス構築ステップによって再タグ付けされたタグ付きテキストを用いてCRFモデルをトレーニングするCRFモデルトレーニングステップと、
    前記CRFモデルトレーニングコーパス構築ステップ及びCRFモデルトレーニングステップの処理を、前記品質階層ツリーの上位階層から順に全ての階層の全てのノードについて繰り返し、前記品詞タグ付けモデルを生成する制御ステップと
    を含むことを特徴とする請求項6に記載の品詞タグ付け方法
  8. 前記品詞タグ付けステップが、
    前記タグ付け対象のテキストに基づいて、CRFモデル用の特徴データを構築するCRFモデル特徴構築ステップと、
    前記特徴データに基づき、前記トレーニング済みのCRFモデルを利用して前記タグ付け対象のテキストの品詞にタグ付けを行うCRF品詞タグ付けステップと、
    前記CRFモデル特徴構築ステップ及びCRF品詞タグ付けステップの処理を、前記品詞タグ付けモデルの上位階層の前記トレーニング済みのCRFモデルから順に、すべての階層の全ての前記トレーニング済みのCRFモデルについて繰り返す制御ステップと
    を含むことを特徴とする請求項7に記載の品詞タグ付け方法
  9. 品詞階層ツリー構築装置と、品詞タグ付けモデルトレーニング装置と、品詞タグ付け装置と、未知語品詞推測モデル構築装置と、未知語品詞訂正装置とを備える品詞タグ付けシステムによる品詞タグ付け方法であって、
    未知語品詞推測モデル構築装置が備える未知語品詞推測モデル構築手段が、前記品詞タグトレーニング集合から語構築ルールを学習し、未知語の品詞推測モデルを構築する未知語品詞推測モデル構築ステップと、
    前記未知語品詞訂正装置が備える未知語品詞訂正手段が、未知語の品詞推測モデルを使用して未知語の品詞をタグ付けし、前記品詞タグ付けモデルを使用してタグ付けされた未知語の品詞を訂正する未知語品詞訂正ステップと
    を有することを特徴とする請求項6又は請求項7に記載の品詞タグ付け方法
  10. 前記品詞階層ツリー構築ステップが、
    品詞の特徴を表わす特徴テンプレートを選択する品詞特徴テンプレート選択ステップと、
    選択した特徴テンプレートに基づいて前記品詞タグトレーニング集合内の品詞について特徴ベクトルを構築する特徴ベクトル構築ステップと、
    前記特徴ベクトルを使用して品詞間の類似度を計算する類似度計算ステップと、
    前記類似度に基づいて品詞をクラスタ化し、前記品詞階層ツリーを生成するクラスタ化ステップと
    を含むことを特徴とする請求項6に記載の品詞タグ付け方法
JP2010077274A 2009-04-14 2010-03-30 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 Expired - Fee Related JP5128629B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200910132711.3 2009-04-14
CN200910132711.3A CN101866337B (zh) 2009-04-14 2009-04-14 词性标注系统、用于训练词性标注模型的装置及其方法

Publications (2)

Publication Number Publication Date
JP2010250814A JP2010250814A (ja) 2010-11-04
JP5128629B2 true JP5128629B2 (ja) 2013-01-23

Family

ID=42958068

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010077274A Expired - Fee Related JP5128629B2 (ja) 2009-04-14 2010-03-30 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法

Country Status (2)

Country Link
JP (1) JP5128629B2 (ja)
CN (1) CN101866337B (ja)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164426B (zh) * 2011-12-13 2015-10-28 北大方正集团有限公司 一种命名实体识别的方法及装置
CN103902525B (zh) * 2012-12-28 2016-09-21 国网新疆电力公司信息通信公司 维吾尔语词性标注方法
CN103150381B (zh) * 2013-03-14 2016-03-02 北京理工大学 一种高精度汉语谓词识别方法
CN103530282B (zh) * 2013-10-23 2016-07-13 北京紫冬锐意语音科技有限公司 语料标注方法及设备
CN103631961B (zh) * 2013-12-17 2017-01-18 苏州大学张家港工业技术研究院 一种情感词与评价对象的关系识别方法
CN104391836B (zh) * 2014-11-07 2017-07-21 百度在线网络技术(北京)有限公司 处理用于句法分析的特征模板的方法及装置
CN105930415A (zh) * 2016-04-19 2016-09-07 昆明理工大学 一种基于支持向量机的越南语词性标注方法
CN105955955B (zh) * 2016-05-05 2018-08-28 东南大学 一种基于纠错输出编码的无需消歧的无监督词性标注方法
CN108241662B (zh) * 2016-12-23 2021-12-28 北京国双科技有限公司 数据标注的优化方法及装置
CN106778887B (zh) * 2016-12-27 2020-05-19 瑞安市辉煌网络科技有限公司 基于条件随机场确定句子标记序列的终端及方法
CN106844346B (zh) * 2017-02-09 2020-08-25 北京红马传媒文化发展有限公司 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统
CN107239444B (zh) * 2017-05-26 2019-10-08 华中科技大学 一种融合词性与位置信息的词向量训练方法及系统
CN107526724A (zh) * 2017-08-22 2017-12-29 北京百度网讯科技有限公司 用于标注语料的方法及装置
CN109726386B (zh) * 2017-10-30 2023-05-09 中国移动通信有限公司研究院 一种词向量模型生成方法、装置和计算机可读存储介质
CN109766523A (zh) * 2017-11-09 2019-05-17 普天信息技术有限公司 词性标注方法和标注系统
CN107832425B (zh) * 2017-11-13 2020-03-06 中科鼎富(北京)科技发展有限公司 一种多轮迭代的语料标注方法、装置及系统
CN108182448B (zh) * 2017-12-22 2020-08-21 北京中关村科金技术有限公司 一种标注策略的选择方法及相关装置
CN109992763A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 语言标注处理方法、系统、电子设备及计算机可读介质
CN110348465B (zh) * 2018-04-03 2022-10-18 富士通株式会社 用于标注样本的方法
CN109033084B (zh) * 2018-07-26 2022-10-28 国信优易数据股份有限公司 一种语义层次树构建方法以及装置
CN109344406B (zh) * 2018-09-30 2023-06-20 创新先进技术有限公司 词性标注方法、装置和电子设备
CN109657230B (zh) * 2018-11-06 2023-07-28 众安信息技术服务有限公司 融合词向量和词性向量的命名实体识别方法及装置
CN110175236B (zh) * 2019-04-24 2023-07-21 平安科技(深圳)有限公司 用于文本分类的训练样本生成方法、装置和计算机设备
CN110377899A (zh) * 2019-05-30 2019-10-25 北京达佳互联信息技术有限公司 一种确定词语词性的方法、装置及电子设备
CN110321433B (zh) * 2019-06-26 2023-04-07 创新先进技术有限公司 确定文本类别的方法及装置
US11205052B2 (en) 2019-07-02 2021-12-21 Servicenow, Inc. Deriving multiple meaning representations for an utterance in a natural language understanding (NLU) framework
CN110457683B (zh) * 2019-07-15 2023-04-07 北京百度网讯科技有限公司 模型优化方法、装置、计算机设备及存储介质
CN110427487B (zh) * 2019-07-30 2022-05-17 中国工商银行股份有限公司 一种数据标注方法、装置及存储介质
CN110532391B (zh) * 2019-08-30 2022-07-05 网宿科技股份有限公司 一种文本词性标注的方法及装置
CN110781667B (zh) * 2019-10-25 2021-10-08 北京中献电子技术开发有限公司 面向神经网络机器翻译的日语动词识别、词性标注方法
CN111160034B (zh) * 2019-12-31 2024-02-27 东软集团股份有限公司 一种实体词的标注方法、装置、存储介质及设备
CN111401067B (zh) * 2020-03-18 2023-07-14 上海观安信息技术股份有限公司 一种蜜罐仿真数据的生成方法及装置
JP2021162917A (ja) * 2020-03-30 2021-10-11 ソニーグループ株式会社 情報処理装置及び情報処理方法
CN113495884A (zh) * 2020-04-08 2021-10-12 阿里巴巴集团控股有限公司 样本标注的一致性处理方法、装置及电子设备
CN112017786A (zh) * 2020-07-02 2020-12-01 厦门市妇幼保健院(厦门市计划生育服务中心) 基于es的自定义分词器
CN111859862B (zh) * 2020-07-22 2024-03-22 海尔优家智能科技(北京)有限公司 文本的数据标注方法和装置、存储介质及电子装置
CN111950274A (zh) * 2020-07-31 2020-11-17 中国工商银行股份有限公司 一种专业领域语料的中文分词方法及装置
CN112016325A (zh) * 2020-09-04 2020-12-01 北京声智科技有限公司 语音合成方法及电子设备
CN112163424B (zh) * 2020-09-17 2024-07-19 中国建设银行股份有限公司 数据的标注方法、装置、设备和介质
CN112148877B (zh) * 2020-09-23 2023-07-04 网易(杭州)网络有限公司 语料文本的处理方法、装置及电子设备
CN113158659B (zh) * 2021-02-08 2024-03-08 银江技术股份有限公司 一种基于司法文本的涉案财物计算方法
CN114676775A (zh) * 2022-03-24 2022-06-28 腾讯科技(深圳)有限公司 样本信息标注方法、装置、设备、程序以及存储介质
CN115146642B (zh) * 2022-07-21 2023-08-29 北京市科学技术研究院 一种面向命名实体识别的训练集自动标注方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4328362B2 (ja) * 2007-03-06 2009-09-09 日本電信電話株式会社 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラム及びその記録媒体
CN101075251A (zh) * 2007-06-18 2007-11-21 中国电子科技集团公司第五十四研究所 一种基于数据挖掘的文本搜索方法

Also Published As

Publication number Publication date
CN101866337B (zh) 2014-07-02
CN101866337A (zh) 2010-10-20
JP2010250814A (ja) 2010-11-04

Similar Documents

Publication Publication Date Title
JP5128629B2 (ja) 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法
CN112084337B (zh) 文本分类模型的训练方法、文本分类方法及设备
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN111967242A (zh) 一种文本信息的抽取方法、装置及设备
CN111666758A (zh) 中文分词方法、训练设备以及计算机可读存储介质
US20220300708A1 (en) Method and device for presenting prompt information and storage medium
CN111814477B (zh) 一种基于争议焦点实体的争议焦点发现方法、装置及终端
JPWO2007097208A1 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
CN112329482A (zh) 机器翻译方法、装置、电子设备和可读存储介质
CN114817465A (zh) 一种用于多语言语义理解的实体纠错方法及智能设备
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和系统
CN115658898A (zh) 一种中英文本实体关系抽取方法、系统及设备
Wang et al. Data augmentation for internet of things dialog system
Yousif et al. Exploring deep learning approaches for video captioning: A comprehensive review
CN117708644A (zh) 司法裁判文书摘要生成方法及系统
CN116611428A (zh) 基于编辑对齐算法的非自回归解码越南语文本正则化方法
Yasin et al. Transformer-Based Neural Machine Translation for Post-OCR Error Correction in Cursive Text
CN116414988A (zh) 基于依赖关系增强的图卷积方面级情感分类方法及系统
CN116860959A (zh) 结合局部主题和层次结构信息的抽取式摘要方法及系统
CN116384403A (zh) 一种基于场景图的多模态社交媒体命名实体识别方法
CN114757181B (zh) 基于先验知识端到端的事件抽取模型的训练、事件抽取方法及装置
CN115906854A (zh) 一种基于多级对抗的跨语言命名实体识别模型训练方法
Qi et al. Video captioning via a symmetric bidirectional decoder
Das et al. Language identification of Bengali-English code-mixed data using character & phonetic based LSTM models

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120628

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121025

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121031

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151109

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees