JP5128629B2 - 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 - Google Patents
品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 Download PDFInfo
- Publication number
- JP5128629B2 JP5128629B2 JP2010077274A JP2010077274A JP5128629B2 JP 5128629 B2 JP5128629 B2 JP 5128629B2 JP 2010077274 A JP2010077274 A JP 2010077274A JP 2010077274 A JP2010077274 A JP 2010077274A JP 5128629 B2 JP5128629 B2 JP 5128629B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- tagging
- model
- speech tagging
- crf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
1)タグ集合にm個のラベル(例えば、名詞をNN、動詞をVB、形容詞をJJ、副詞をRBとするラベル)があり、長さnのECOCが手動で選択されたとする。ここで、訂正符号は、以下の例に示すように、各ラベルをnビットのベクトルにマッピングするために使用される。
1)1つの文(例:「NEC develops world−leading technology to prevent IP phone spam(NECは世界をリードするIPフォンスパム防止技術を開発する)」)を与える。
2)上記でトレーニングされた各二値分類器を使用して上記の文にタグ付けし、その結果を記録する。この結果は以下のようになるはずである。
上記の表に示されるように、1つの語に対応して1つのnビットベクトルがある。一部の従来方式では、各ベクトルを表3内の符号化ベクトルと1つずつ比較し、一致するラベルを検出してタグ付けに使用することが可能である。例えば、「develops(開発する)」という語の場合、それに対応するnビットベクトルは「VB」の符号化に最も近いので、「VB−verb」としてタグ付けする。
1) 非特許文献1の方法の性能はECOC符号化の選択に大きく依存しているが、理想的なECOCを選択することは困難である。
2) この方法は、本質的には、トレーニングに時間がかかり過ぎ、高価な計算資源に大きく依存するという問題を解決していない。トレーニングフェーズでは、n個の二値分類器のトレーニングが必要であるが、nの値はECOCの選択に左右される。品詞タグ付けでは、nの値はかなり大きいのが一般的なので、やはり長いトレーニング時間を要し、高価な計算資源に依存することとなる。さらに、復号化フェーズでは、すべての二値分類器を1つずつ使用する必要があり、符号化マッチング処理はきわめて煩雑である。そのため、トレーニング済みのモデルの利用には長い時間がかかり、高価な計算資源が不可欠となる。
1) 本発明は、CRFモデルを大きなタグ集合を伴う品詞タグ付けに適用することを可能にすると共に、トレーニングに長い時間を要し、高価な計算資源に大きく依存するという問題を解決する。本発明の方法およびシステムによれば、機種を問わず通常の任意のPCコンピュータ上で品詞タグ付けモデルをトレーニングすることが可能になる。
2) 以下の理由により、品詞タグ付け精度が向上する。すなわち、(i)品詞の順次タグ付けはグローバル関連性の高いタスクだが、CRFモデルの導入によりグローバル最適化を効率的に実行できるため、品詞タグ付け精度が向上する。また、(ii)語構築ルールに基づく未知語のための品詞推測機構を導入することにより、トレーニング集合が乏しいという問題に対処することができ、品詞タグ付け全体の精度も向上する。
3) 本発明の方法は完全に自動化されているので、品詞タグ付けモデルのトレーニングと最適化のための人件費を大幅に削減することができる。
1) x<previous word> 直前の語ベクトル−このベクトルはdzの寸法を有し、当該ベクトルに対応する要素は、指定された語が品詞xの語の直前に出現する頻度を表す。
2) x<previous word’s POS> 直前の語の品詞ベクトル−このベクトルはlzの寸法を有し、当該ベクトルに対応する要素は、指定された品詞が品詞xの語の直前に出現する頻度を表す。
3) x<next word> 次の語ベクトル−このベクトルはdzの寸法を有し、当該ベクトルに対応する要素は、指定された語が品詞xの語の直後に出現する頻度を表す。
4) x<next word’s POS> 次の語の品詞ベクトル−このベクトルはlzの寸法を有し、当該ベクトルに対応する要素は、指定された品詞が品詞xの語の直後に出現する頻度を表す。
1)最初に、2つの品詞(x1,x2)の特徴ベクトルについて、各対間における以下の類似度を計算する。
Simc(x1<previous word>,x2<previous word>)
Simc(x1<previous word’s POS>,x2<previous word’s POS>)
Simc(x1<next word>,x2<next word>)
Simc(x1<next word’s POS>,x2<next word’s POS>)
2)以下の式を使用して、全体的な類似度を計算する。
Sim(x1,x2)= w1* Simc(x1<previous word>,x2<previous word>)+
w2* Simc(x1<previous word’s POS>,x2<previous word’s POS>)+
w3* Simc(x1<next word>,x2<next word>)+
w4* Simc(x1<next word’s POS>,x2<next word’s POS>),
ここで、w1+w2+w3+w4=1である。
香港/ns 評出/v 十/m 大/a 傑出/a 青年/n
階層0において、<0,1>CRFモデルトレーニングコーパスが構築される。最初に、この文の再タグ付けが行われる。図4aに示す品詞階層ツリーを参照すると、階層0におけるノード1のサブノードは「label1」、「label2」、「label3」、「label4」である。図4aの真の品詞「v」は、品詞階層ツリーの第1階層におけるサブノードの「label1」に対応する。したがって、原形のトレーニング集合内の「v」でタグ付けされたすべての語は、「label1」として再タグ付けされる。
香港/label3 評出/label1 十/label2 大/label1 傑出/label1 青年/label3
階層0において、CRFモデルがトレーニングされる。選択された特徴テンプレートは、「香港」と「評出」のような前後2つの語と、現在の語の前後の文字と、前後2語間の共起とを含む(ここで、「共起」とは、ある文脈において2語が同時に出現する状況を意味する)。
1) iが「0」の場合に、CRFモデル用の特徴テンプレートに情報を取り込む処理を実行する。すなわち、タグ付け対象として入力されたテキストから直接、関連の特徴情報を抽出し、テンプレートにその情報を取り込むことにより、CRFモデルの入力特徴データを生成する。
2) iが「0」以外の場合には、階層0で特徴情報を抽出することに加えて、階層i−1のCRFモデルを利用して、タグ付け対象のテキストのタグ付け結果から特徴情報を抽出することにより、CRFモデルの入力特徴データを生成する。
階層0(<0,1>CRFモデルを利用)
タグ付け結果は、「北京/label3 入囲/label1 十/label2 大/label1 宜居/label1 城市/label3」となる。
階層1(この階層用のすべてのCRFモデルを利用)
1.<1,1>CRFモデルを利用して、「北京/label3 入囲/label12 十/label2 大/label11 宜居/label11 城市/label3」の結果が得られる。
2.<1,2>CRFモデルを利用して、以下同様である。
……
階層1に対する処理後のタグ付け結果は、「北京/label32 入囲/label12 十/label21 大/label11 宜居/ label11 城市/label31」である。
階層2
1.<2、1>CRFモデルを利用して、「北京/label32 入囲/label12 十/label21 大/a 宜居/a 城市/label31」の結果が得られる。
2.<2、2>CRFモデルを利用して、以下同様である。
最終的に得られる完全なタグ付け結果は、「北京/ns 入囲/v 十/m 大/a 宜居/a 城市/n」である。
冷暴力 → 冷 2 a N_B 暴力 4 n N_E
掃射 → 掃 2 v V_B 射 2 v V_E.
「冷射」が未知語の場合は、取得される語構成要素のシーケンスは「冷 2 a 射 2 v」となる。
POS(冷 2 a V_B,射 2 v V_E)= V.
//構成語の品詞
U01:%x[−1,2] // 前の1つの構成素の第2の特徴(/)(「/」はヌルの特徴を表す)
U02:%x[0,2] //現在の構成素の第2の特徴(a)
//構成語の長さ
U03:%x[1,1] //次の1つの構成素の第1の特徴(2,2)
//構成語
U04:%x[0,0] //現在の1つの構成素のゼロ特徴,
語構成要素のシーケンスは、CRF等の任意の機械学習法のために、以下のような入力データに変換される。
if(T(−1,2)=‘/’)tag = ‘V_B’
if(T(0,2)=‘v’)tag = ‘V_B’
if(T(1,1)=’2’)tag = ‘V_B’
if(T(0,0)=‘掃’)tag = ‘V_B’
if(T(−1,2)=‘v’)tag = ‘V_E’
if(T(0,2)=‘v’)tag = ‘V_E’
if(T(1,1)=‘2’)tag = ‘V_E’
if(T(0,0)=‘射’)tag = ‘V_E’
品詞タグ付けシステムであって、
品詞階層ツリーに基づいて、品詞タグトレーニング集合内の第1のタグ付きテキストを使用して、階層的およびノード的に品詞タグ付けモデルをトレーニングする品詞タグ付けモデルトレーニング装置と、
トレーニング済みの品詞タグ付けモデルを使用して、タグ付け対象のテキストの品詞にタグ付けする品詞タグ付け装置と
を備えることを特徴とする品詞タグ付けシステム。
前記品詞タグ付けモデルトレーニング装置が、
品詞階層ツリーに基づいて、階層的およびノード的に第2のタグ付きテキストに対して、品詞タグトレーニング集合内の第1のタグ付きテキストをタグ付けすることにより、CRFモデルトレーニングコーパスを構築するCRFモデルトレーニングコーパス構築ユニットと、
前記CRFモデルトレーニングコーパス構築ユニットによってタグ付けされた第2のタグ付きテキストを使用することにより、対応する階層的およびノード的にCRFモデルをトレーニングし、品詞タグ付けモデルを取得するCRFモデルトレーニングユニットとを備えることを特徴とする付記1に記載の品詞タグ付けシステム。
前記CRFモデルトレーニングコーパス構築ユニットは、品詞階層ツリー内のタグ付き品詞の位置に対応する当該ノードのサブノードの名で、前記第1のタグ付きテキストのタグ付き品詞を置換することにより、階層的およびノード的にタグ付けを実行することを特徴とする付記2に記載の品詞タグ付けシステム。
前記CRFモデルトレーニングユニットは、
(a)現在のレベルが「0」であり、特徴テンプレートが、第2のテキスト内の前後2つの語と、現在の語の前後の文字と、前後2語間の共起頻度とを含む場合
(b)現在のレベルは「0」でなく、特徴テンプレートが、レベル0で選択された特徴テンプレートと、直前の階層での第2のテキスト内の前後2つの語と、品詞間の共起頻度と語と品詞間の共起頻度を含む場合
に応じて特徴テンプレートを選択することにより、階層的およびノード的にCRFモデルをトレーニングすることを特徴とする付記3に記載の品詞タグ付けシステム。
前記品詞タグ付け装置が、
タグ付け対象のテキストに対してCRFモデルを適用するために、階層的およびノード的に特徴データを構築するCRFモデル特徴構築ユニットと、
前記CRFモデル特徴構築ユニットによって構築される特徴データに従って、階層的およびノード的にタグ付け対象のテキストの品詞のタグ付けを行うCRF品詞タグ付けユニットとを備えることを特徴とする付記2に記載の品詞タグ付けシステム。
前記CRFモデル特徴構築ユニットは、
(a)現在のレベルは0であり、特徴データが、CRFモデルのトレーニング中にレベル0で選択された特徴テンプレートに入力するために使用され、タグ付け対象のテキストから抽出される場合
(b)現在のレベルが0でなく、レベル0で抽出された特徴データが使用され、また直前のレベルのCRFモデルによってタグ付けされた第2のテキストから特徴データが抽出される場合
に応じてCRFモデルについて特徴データを構築することを特徴とする付記5に記載の品詞タグ付けシステム。
前記品詞タグトレーニング集合内のタグ付きテキストの品詞間の関連性を分析する品詞階層ツリー構築装置をさらに備えることを特徴とする付記1に記載の品詞タグ付けシステム。
前記品詞階層ツリー構築装置が、
品詞の特徴を表わす特徴テンプレートを選択する品詞特徴テンプレート選択ユニットと、
選択した特徴テンプレートに従って品詞タグトレーニング集合内の品詞について特徴ベクトルを構築する特徴ベクトル構築ユニットと、
前記特徴ベクトルを使用して品詞間の類似度を計算する類似度計算ユニットと、
類似度に基づいて品詞をクラスタ化し、品詞階層ツリーを生成するクラスタ化ユニットとを備えることを特徴とする付記7に記載の品詞タグ付けシステム。
前記品詞タグトレーニング集合からテスト集合としてランダムにテキスト集合を選択するテスト集合構築装置と、
前記品詞タグ付けモデルを使用して、テスト集合からタグ付けされたテキストの品詞タグ付けの結果を評価する評価装置と、
評価結果に従って品詞階層ツリーを調整する調整装置とをさらに備えることを特徴とする付記8に記載の品詞タグ付けシステム。
前記調整装置は、前記品詞階層ツリー構築装置によって品詞間の類似度を計算するのに使用するしきい値を調整することを特徴とする付記9に記載の品詞タグ付けシステム。
品詞タグトレーニング集合から語構築ルールを学習し、未知語の品詞推測モデルを構築する未知語品詞推測モデル構築装置と、
未知語の品詞推測モデルを使用して未知語の品詞をタグ付けし、品詞タグ付けモデルを使用してタグ付けされた未知語の品詞を訂正する未知語品詞訂正装置とを備えることを特徴とする付記1又は付記2に記載の品詞タグ付けシステム。
品詞タグ付け方法であって、
品詞階層ツリーに基づき、品詞タグトレーニング集合内の第1のタグ付きテキストを使用して、階層毎およびノード毎に品詞タグ付けモデルをトレーニングする品詞タグ付けモデルトレーニングステップと、
トレーニング済み品詞タグ付けモデルを使用して、タグ付け対象のテキストの品詞にタグ付けする品詞タグ付けステップと
を有することを特徴とする品詞タグ付け方法。
前記品詞タグ付けモデルトレーニングステップが、
品詞階層ツリーに基づいて、階層的およびノード的に第2のタグ付きテキストに対して、品詞タグトレーニング集合内の第1のタグ付きテキストをタグ付けすることにより、CRFモデルトレーニングコーパスを構築するCRFモデルトレーニングコーパス構築ステップと、
前記CRFモデルトレーニングコーパス構築ステップによってタグ付けされた第2のタグ付きテキストを使用することにより、対応する階層的およびノード的にCRFモデルをトレーニングし、品詞タグ付けモデルを取得するCRFモデルトレーニングステップを含むことを特徴とする付記12に記載の品詞タグ付け方法。
前記CRFモデルトレーニングコーパス構築ステップが、品詞階層ツリー内のタグ付き品詞の位置に対応する当該ノードのサブノードの名で、前記第1のタグ付きテキストのタグ付き品詞を置換することにより、階層的およびノード的にタグ付けを実行するステップを含むことを特徴とする付記13に記載の品詞タグ付け方法。
前記CRFモデルトレーニングステップが、
(a)現在のレベルが「0」であり、特徴テンプレートが、第2のテキスト内の前後2つの語と、現在の語の前後の文字と、前後2語間の共起頻度とを含む場合
(b)現在のレベルは「0」でなく、特徴テンプレートが、レベル0で選択された特徴テンプレートと、直前の階層での第2のテキスト内の前後2つの語と、品詞間の共起頻度と語と品詞間の共起頻度を含む場合
に応じて特徴テンプレートを選択することにより、階層的およびノード的にCRFモデルをトレーニングするステップを含むことを特徴とする付記14に記載の品詞タグ付け方法。
前記品詞タグ付けステップが、
タグ付け対象のテキストに対してCRFモデルを適用するために、階層的およびノード的に特徴データを構築するCRFモデル特徴構築ステップと、
前記CRFモデル特徴構築ステップによって構築される特徴データに従って、階層的およびノード的にタグ付け対象のテキストの品詞のタグ付けを行うCRF品詞タグ付けステップとを含むことを特徴とする付記13に記載の品詞タグ付け方法。
前記CRFモデル特徴構築ステップが、
(a)現在のレベルは0であり、特徴データが、CRFモデルのトレーニング中にレベル0で選択された特徴テンプレートに入力するために使用され、タグ付け対象のテキストから抽出される場合
(b)現在のレベルが0でなく、レベル0で抽出された特徴データが使用され、また直前のレベルのCRFモデルによってタグ付けされた第2のテキストから特徴データが抽出される場合
に応じてCRFモデルについて特徴データを構築するステップを含むことを特徴とする付記16に記載の品詞タグ付け方法。
前記品詞タグトレーニング集合内のタグ付きテキストの品詞間の関連性を分析する品詞階層ツリー構築ステップをさらに有することを特徴とする付記12に記載の品詞タグ付け方法。
前記品詞階層ツリー構築ステップが、
品詞の特徴を表わす特徴テンプレートを選択する品詞特徴テンプレート選択ステップと、
選択した特徴テンプレートに従って品詞タグトレーニング集合内の品詞について特徴ベクトルを構築する特徴ベクトル構築ステップと、
前記特徴ベクトルを使用して品詞間の類似度を計算する類似度計算ステップと、
類似度に基づいて品詞をクラスタ化し、品詞階層ツリーを生成するクラスタ化ステップとを含むことを特徴とする付記18に記載の品詞タグ付け方法。
前記品詞タグトレーニング集合からテスト集合としてランダムにテキスト集合を選択するテスト集合構築ステップと、
前記品詞タグ付けモデルを使用して、テスト集合からタグ付けされたテキストの品詞タグ付けの結果を評価する評価ステップと、
評価結果に従って品詞階層ツリーを調整する調整ステップとをさらに有することを特徴とする付記19に記載の品詞タグ付け方法。
前記調整ステップが、前記品詞階層ツリー構築ステップによって品詞間の類似度を計算するのに使用するしきい値を調整するステップを含むことを特徴とする付記20に記載の品詞タグ付け方法。
品詞タグトレーニング集合から語構築ルールを学習し、未知語の品詞推測モデルを構築する未知語品詞推測モデル構築ステップと、
未知語の品詞推測モデルを使用して未知語の品詞をタグ付けし、品詞タグ付けモデルを使用してタグ付けされた未知語の品詞を訂正する未知語品詞訂正ステップとを有することを特徴とする付記12又は付記13に記載の品詞タグ付け方法。
品詞タグ付けモデルのトレーニング装置であって、
品詞階層ツリーに基づいて、品詞タグトレーニング集合内の第1のタグ付きテキストを第2のテキストに階層毎およびノード毎にタグ付けすることにより、CRFモデルトレーニングコーパスを構築する、CRFモデルトレーニングコーパス構築ユニットと、
品詞タグ付けモデルを取得するために、CRFモデルトレーニングコーパス構築ユニットによってタグ付けされた第2のテキストを使用して、個々のCRFモデルを階層毎およびノード毎にトレーニングするCRFモデルトレーニングユニットと
を備えることを特徴とする品詞タグ付けモデルのトレーニング装置。
品詞タグ付けモデルのトレーニング方法であって、
品詞階層ツリーに基づいて、品詞タグトレーニング集合内の第1のタグ付きテキストを第2のテキストに階層毎およびノード毎にタグ付けすることにより、CRFモデルトレーニングコーパスを構築するCRFモデルトレーニングコーパス構築ステップと、
品詞タグ付けモデルを取得するために、CRFモデルトレーニングコーパス構築ユニットによってタグ付けされた第2のテキストを使用して、個々のCRFモデルを階層毎およびノード毎にトレーニングするCRFモデルトレーニングステップとを有することを特徴とする品詞タグ付けモデルのトレーニング方法。
12:品詞タグ付けモデルトレーニング装置
13:品詞タグ付けモデル
14:品詞階層ツリー構築装置
15:品詞階層ツリー
22:品詞タグ付け装置
140:品詞特徴テンプレート選択ユニット
141:特徴ベクトル構築ユニット
142:類似度計算ユニット
143:クラスタ化ユニット
120:論理回路
121:CRFモデルトレーニングコーパス構築ユニット
122:CRFモデルトレーニングユニット
220:CRFモデル特徴構築ユニット
221:CRF品詞タグ付けユニット
222:論理回路
16:評価装置
17:調整装置
18:テスト集合構築装置
19:未知語品詞推測モデル構築装置
20:未知語品詞推測モデル
21:未知語品詞訂正装置
Claims (10)
- 品詞タグ付けシステムであって、
多数のタグ付きテキストを含む品詞タグトレーニング集合内のタグ付きテキストの品詞間の関連性を分析し、当該関連性に基づいて前記品詞をツリー構造として階層上に編成した品詞階層ツリーを生成する品詞階層ツリー構築手段を備える品詞階層ツリー構築装置と、
前記品詞階層ツリーのノード毎に、前記品詞階層ツリーに基づいて前記タグ付きテキストに含まれる品詞タグ付けラベルを再タグ付けし、再タグ付けした前記タグ付きテキストを用いてCRFモデルをトレーニングして、品詞タグ付けモデルを生成する品詞タグ付けモデルトレーニング手段を備える品詞タグ付けモデルトレーニング装置と、
前記品詞タグ付けモデルに基づいて、トレーニング済みの前記CRFモデルを使用してタグ付け対象のテキストの品詞にタグ付けする品詞タグ付け手段を備える品詞タグ付け装置とを備え、
前記品詞タグ付けモデルは、トレーニング済みの各CRFモデルを前記品詞階層ツリーの各ノードに対応させて階層化した構造のデータである
ことを特徴とする品詞タグ付けシステム。 - 前記品詞タグ付けモデルトレーニング手段が、
前記品詞階層ツリーのノードに対し、前記タグ付きテキストに含まれる品詞タグ付けラベルを、当該品詞タグ付けラベルに対応する現在のノードの各サブノード名に再タグ付けすることにより、CRFモデルトレーニングコーパスを構築するCRFモデルトレーニングコーパス構築手段と、
前記CRFモデルトレーニングコーパス構築手段によって再タグ付けされたタグ付きテキストを用いてCRFモデルをトレーニングするCRFモデルトレーニング手段と、
前記CRFモデルトレーニングコーパス構築手段及びCRFモデルトレーニング手段の処理を、前記品質階層ツリーの上位階層から順に全ての階層の全てのノードについて繰り返し、前記品詞タグ付けモデルを生成する制御手段と
を含むことを特徴とする請求項1に記載の品詞タグ付けシステム。 - 前記品詞タグ付け手段が、
前記タグ付け対象のテキストに基づいて、CRFモデル用の特徴データを構築するCRFモデル特徴構築手段と、
前記特徴データに基づき、前記トレーニング済みのCRFモデルを利用して前記タグ付け対象のテキストの品詞にタグ付けを行うCRF品詞タグ付け手段と、
前記CRFモデル特徴構築手段及びCRF品詞タグ付け手段の処理を、前記品詞タグ付けモデルの上位階層の前記トレーニング済みのCRFモデルから順に、すべての階層の全ての前記トレーニング済みのCRFモデルについて繰り返す制御手段と
を含むことを特徴とする請求項2に記載の品詞タグ付けシステム。 - 前記品詞タグトレーニング集合から語構築ルールを学習し、未知語の品詞推測モデルを構築する未知語品詞推測モデル構築手段を備える未知語品詞推測モデル構築装置と、
未知語の品詞推測モデルを使用して未知語の品詞をタグ付けし、前記品詞タグ付けモデルを使用してタグ付けされた未知語の品詞を訂正する未知語品詞訂正手段を備える未知語品詞訂正装置と
を備えることを特徴とする請求項1又は請求項2に記載の品詞タグ付けシステム。 - 前記品詞階層ツリー構築手段が、
品詞の特徴を表わす特徴テンプレートを選択する品詞特徴テンプレート選択手段と、
選択した特徴テンプレートに基づいて前記品詞タグトレーニング集合内の品詞について特徴ベクトルを構築する特徴ベクトル構築手段と、
前記特徴ベクトルを使用して品詞間の類似度を計算する類似度計算手段と、
前記類似度に基づいて品詞をクラスタ化し、前記品詞階層ツリーを生成するクラスタ化手段と
を含むことを特徴とする請求項1に記載の品詞タグ付けシステム。 - 品詞階層ツリー構築装置と、品詞タグ付けモデルトレーニング装置と、品詞タグ付け装置とを備える品詞タグ付けシステムによる品詞タグ付け方法であって、
前記品詞階層ツリー構築装置が備える品詞階層ツリー構築手段が、多数のタグ付きテキストを含む品詞タグトレーニング集合内のタグ付きテキストの品詞間の関連性を分析し、当該関連性に基づいて前記品詞をツリー構造として階層上に編成した品詞階層ツリーを生成する品詞階層ツリー構築ステップと、
前記品詞タグ付けモデルトレーニング装置が備える品詞タグ付けモデルトレーニング手段が、前記品詞階層ツリーのノード毎に、前記品詞階層ツリーに基づいて前記タグ付きテキストに含まれる品詞タグ付けラベルを再タグ付けし、再タグ付けした前記タグ付きテキストを用いてCRFモデルをトレーニングして、品詞タグ付けモデルを生成する品詞タグ付けモデルトレーニングステップと、
前記品詞タグ付け装置が備える品詞タグ付け手段が、前記品詞タグ付けモデルに基づいて、トレーニング済みの前記CRFモデルを使用してタグ付け対象のテキストの品詞にタグ付けする品詞タグ付けステップとを有し、
前記品詞タグ付けモデルは、トレーニング済みの各CRFモデルを前記品詞階層ツリーの各ノードに対応させて階層化した構造のデータである
ことを特徴とする品詞タグ付け方法。 - 前記品詞タグ付けモデルトレーニングステップが、
前記品詞階層ツリーのノードに対し、前記タグ付きテキストに含まれる品詞タグ付けラベルを、当該品詞タグ付けラベルに対応する現在のノードの各サブノード名に再タグ付けすることにより、CRFモデルトレーニングコーパスを構築するCRFモデルトレーニングコーパス構築ステップと、
前記CRFモデルトレーニングコーパス構築ステップによって再タグ付けされたタグ付きテキストを用いてCRFモデルをトレーニングするCRFモデルトレーニングステップと、
前記CRFモデルトレーニングコーパス構築ステップ及びCRFモデルトレーニングステップの処理を、前記品質階層ツリーの上位階層から順に全ての階層の全てのノードについて繰り返し、前記品詞タグ付けモデルを生成する制御ステップと
を含むことを特徴とする請求項6に記載の品詞タグ付け方法。 - 前記品詞タグ付けステップが、
前記タグ付け対象のテキストに基づいて、CRFモデル用の特徴データを構築するCRFモデル特徴構築ステップと、
前記特徴データに基づき、前記トレーニング済みのCRFモデルを利用して前記タグ付け対象のテキストの品詞にタグ付けを行うCRF品詞タグ付けステップと、
前記CRFモデル特徴構築ステップ及びCRF品詞タグ付けステップの処理を、前記品詞タグ付けモデルの上位階層の前記トレーニング済みのCRFモデルから順に、すべての階層の全ての前記トレーニング済みのCRFモデルについて繰り返す制御ステップと
を含むことを特徴とする請求項7に記載の品詞タグ付け方法。 - 品詞階層ツリー構築装置と、品詞タグ付けモデルトレーニング装置と、品詞タグ付け装置と、未知語品詞推測モデル構築装置と、未知語品詞訂正装置とを備える品詞タグ付けシステムによる品詞タグ付け方法であって、
未知語品詞推測モデル構築装置が備える未知語品詞推測モデル構築手段が、前記品詞タグトレーニング集合から語構築ルールを学習し、未知語の品詞推測モデルを構築する未知語品詞推測モデル構築ステップと、
前記未知語品詞訂正装置が備える未知語品詞訂正手段が、未知語の品詞推測モデルを使用して未知語の品詞をタグ付けし、前記品詞タグ付けモデルを使用してタグ付けされた未知語の品詞を訂正する未知語品詞訂正ステップと
を有することを特徴とする請求項6又は請求項7に記載の品詞タグ付け方法。 - 前記品詞階層ツリー構築ステップが、
品詞の特徴を表わす特徴テンプレートを選択する品詞特徴テンプレート選択ステップと、
選択した特徴テンプレートに基づいて前記品詞タグトレーニング集合内の品詞について特徴ベクトルを構築する特徴ベクトル構築ステップと、
前記特徴ベクトルを使用して品詞間の類似度を計算する類似度計算ステップと、
前記類似度に基づいて品詞をクラスタ化し、前記品詞階層ツリーを生成するクラスタ化ステップと
を含むことを特徴とする請求項6に記載の品詞タグ付け方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910132711.3 | 2009-04-14 | ||
CN200910132711.3A CN101866337B (zh) | 2009-04-14 | 2009-04-14 | 词性标注系统、用于训练词性标注模型的装置及其方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010250814A JP2010250814A (ja) | 2010-11-04 |
JP5128629B2 true JP5128629B2 (ja) | 2013-01-23 |
Family
ID=42958068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010077274A Expired - Fee Related JP5128629B2 (ja) | 2009-04-14 | 2010-03-30 | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5128629B2 (ja) |
CN (1) | CN101866337B (ja) |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103164426B (zh) * | 2011-12-13 | 2015-10-28 | 北大方正集团有限公司 | 一种命名实体识别的方法及装置 |
CN103902525B (zh) * | 2012-12-28 | 2016-09-21 | 国网新疆电力公司信息通信公司 | 维吾尔语词性标注方法 |
CN103150381B (zh) * | 2013-03-14 | 2016-03-02 | 北京理工大学 | 一种高精度汉语谓词识别方法 |
CN103530282B (zh) * | 2013-10-23 | 2016-07-13 | 北京紫冬锐意语音科技有限公司 | 语料标注方法及设备 |
CN103631961B (zh) * | 2013-12-17 | 2017-01-18 | 苏州大学张家港工业技术研究院 | 一种情感词与评价对象的关系识别方法 |
CN104391836B (zh) * | 2014-11-07 | 2017-07-21 | 百度在线网络技术(北京)有限公司 | 处理用于句法分析的特征模板的方法及装置 |
CN105930415A (zh) * | 2016-04-19 | 2016-09-07 | 昆明理工大学 | 一种基于支持向量机的越南语词性标注方法 |
CN105955955B (zh) * | 2016-05-05 | 2018-08-28 | 东南大学 | 一种基于纠错输出编码的无需消歧的无监督词性标注方法 |
CN108241662B (zh) * | 2016-12-23 | 2021-12-28 | 北京国双科技有限公司 | 数据标注的优化方法及装置 |
CN106778887B (zh) * | 2016-12-27 | 2020-05-19 | 瑞安市辉煌网络科技有限公司 | 基于条件随机场确定句子标记序列的终端及方法 |
CN106844346B (zh) * | 2017-02-09 | 2020-08-25 | 北京红马传媒文化发展有限公司 | 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统 |
CN107239444B (zh) * | 2017-05-26 | 2019-10-08 | 华中科技大学 | 一种融合词性与位置信息的词向量训练方法及系统 |
CN107526724A (zh) * | 2017-08-22 | 2017-12-29 | 北京百度网讯科技有限公司 | 用于标注语料的方法及装置 |
CN109726386B (zh) * | 2017-10-30 | 2023-05-09 | 中国移动通信有限公司研究院 | 一种词向量模型生成方法、装置和计算机可读存储介质 |
CN109766523A (zh) * | 2017-11-09 | 2019-05-17 | 普天信息技术有限公司 | 词性标注方法和标注系统 |
CN107832425B (zh) * | 2017-11-13 | 2020-03-06 | 中科鼎富(北京)科技发展有限公司 | 一种多轮迭代的语料标注方法、装置及系统 |
CN108182448B (zh) * | 2017-12-22 | 2020-08-21 | 北京中关村科金技术有限公司 | 一种标注策略的选择方法及相关装置 |
CN109992763A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 语言标注处理方法、系统、电子设备及计算机可读介质 |
CN110348465B (zh) * | 2018-04-03 | 2022-10-18 | 富士通株式会社 | 用于标注样本的方法 |
CN109033084B (zh) * | 2018-07-26 | 2022-10-28 | 国信优易数据股份有限公司 | 一种语义层次树构建方法以及装置 |
CN109344406B (zh) * | 2018-09-30 | 2023-06-20 | 创新先进技术有限公司 | 词性标注方法、装置和电子设备 |
CN109657230B (zh) * | 2018-11-06 | 2023-07-28 | 众安信息技术服务有限公司 | 融合词向量和词性向量的命名实体识别方法及装置 |
CN110175236B (zh) * | 2019-04-24 | 2023-07-21 | 平安科技(深圳)有限公司 | 用于文本分类的训练样本生成方法、装置和计算机设备 |
CN110377899A (zh) * | 2019-05-30 | 2019-10-25 | 北京达佳互联信息技术有限公司 | 一种确定词语词性的方法、装置及电子设备 |
CN110321433B (zh) * | 2019-06-26 | 2023-04-07 | 创新先进技术有限公司 | 确定文本类别的方法及装置 |
US11205052B2 (en) | 2019-07-02 | 2021-12-21 | Servicenow, Inc. | Deriving multiple meaning representations for an utterance in a natural language understanding (NLU) framework |
CN110457683B (zh) * | 2019-07-15 | 2023-04-07 | 北京百度网讯科技有限公司 | 模型优化方法、装置、计算机设备及存储介质 |
CN110427487B (zh) * | 2019-07-30 | 2022-05-17 | 中国工商银行股份有限公司 | 一种数据标注方法、装置及存储介质 |
CN110532391B (zh) * | 2019-08-30 | 2022-07-05 | 网宿科技股份有限公司 | 一种文本词性标注的方法及装置 |
CN110781667B (zh) * | 2019-10-25 | 2021-10-08 | 北京中献电子技术开发有限公司 | 面向神经网络机器翻译的日语动词识别、词性标注方法 |
CN111160034B (zh) * | 2019-12-31 | 2024-02-27 | 东软集团股份有限公司 | 一种实体词的标注方法、装置、存储介质及设备 |
CN111401067B (zh) * | 2020-03-18 | 2023-07-14 | 上海观安信息技术股份有限公司 | 一种蜜罐仿真数据的生成方法及装置 |
JP2021162917A (ja) * | 2020-03-30 | 2021-10-11 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法 |
CN113495884A (zh) * | 2020-04-08 | 2021-10-12 | 阿里巴巴集团控股有限公司 | 样本标注的一致性处理方法、装置及电子设备 |
CN112017786A (zh) * | 2020-07-02 | 2020-12-01 | 厦门市妇幼保健院(厦门市计划生育服务中心) | 基于es的自定义分词器 |
CN111859862B (zh) * | 2020-07-22 | 2024-03-22 | 海尔优家智能科技(北京)有限公司 | 文本的数据标注方法和装置、存储介质及电子装置 |
CN111950274A (zh) * | 2020-07-31 | 2020-11-17 | 中国工商银行股份有限公司 | 一种专业领域语料的中文分词方法及装置 |
CN112016325A (zh) * | 2020-09-04 | 2020-12-01 | 北京声智科技有限公司 | 语音合成方法及电子设备 |
CN112163424B (zh) * | 2020-09-17 | 2024-07-19 | 中国建设银行股份有限公司 | 数据的标注方法、装置、设备和介质 |
CN112148877B (zh) * | 2020-09-23 | 2023-07-04 | 网易(杭州)网络有限公司 | 语料文本的处理方法、装置及电子设备 |
CN113158659B (zh) * | 2021-02-08 | 2024-03-08 | 银江技术股份有限公司 | 一种基于司法文本的涉案财物计算方法 |
CN114676775A (zh) * | 2022-03-24 | 2022-06-28 | 腾讯科技(深圳)有限公司 | 样本信息标注方法、装置、设备、程序以及存储介质 |
CN115146642B (zh) * | 2022-07-21 | 2023-08-29 | 北京市科学技术研究院 | 一种面向命名实体识别的训练集自动标注方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4328362B2 (ja) * | 2007-03-06 | 2009-09-09 | 日本電信電話株式会社 | 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラム及びその記録媒体 |
CN101075251A (zh) * | 2007-06-18 | 2007-11-21 | 中国电子科技集团公司第五十四研究所 | 一种基于数据挖掘的文本搜索方法 |
-
2009
- 2009-04-14 CN CN200910132711.3A patent/CN101866337B/zh not_active Expired - Fee Related
-
2010
- 2010-03-30 JP JP2010077274A patent/JP5128629B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN101866337B (zh) | 2014-07-02 |
CN101866337A (zh) | 2010-10-20 |
JP2010250814A (ja) | 2010-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5128629B2 (ja) | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 | |
CN112084337B (zh) | 文本分类模型的训练方法、文本分类方法及设备 | |
CN117076653B (zh) | 基于思维链及可视化提升上下文学习知识库问答方法 | |
CN111967242A (zh) | 一种文本信息的抽取方法、装置及设备 | |
CN111666758A (zh) | 中文分词方法、训练设备以及计算机可读存储介质 | |
US20220300708A1 (en) | Method and device for presenting prompt information and storage medium | |
CN111814477B (zh) | 一种基于争议焦点实体的争议焦点发现方法、装置及终端 | |
JPWO2007097208A1 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
CN112329482A (zh) | 机器翻译方法、装置、电子设备和可读存储介质 | |
CN114817465A (zh) | 一种用于多语言语义理解的实体纠错方法及智能设备 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和系统 | |
CN114281982B (zh) | 一种多模态融合技术的图书宣传摘要生成方法和系统 | |
CN115658898A (zh) | 一种中英文本实体关系抽取方法、系统及设备 | |
Wang et al. | Data augmentation for internet of things dialog system | |
Yousif et al. | Exploring deep learning approaches for video captioning: A comprehensive review | |
CN117708644A (zh) | 司法裁判文书摘要生成方法及系统 | |
CN116611428A (zh) | 基于编辑对齐算法的非自回归解码越南语文本正则化方法 | |
Yasin et al. | Transformer-Based Neural Machine Translation for Post-OCR Error Correction in Cursive Text | |
CN116414988A (zh) | 基于依赖关系增强的图卷积方面级情感分类方法及系统 | |
CN116860959A (zh) | 结合局部主题和层次结构信息的抽取式摘要方法及系统 | |
CN116384403A (zh) | 一种基于场景图的多模态社交媒体命名实体识别方法 | |
CN114757181B (zh) | 基于先验知识端到端的事件抽取模型的训练、事件抽取方法及装置 | |
CN115906854A (zh) | 一种基于多级对抗的跨语言命名实体识别模型训练方法 | |
Qi et al. | Video captioning via a symmetric bidirectional decoder | |
Das et al. | Language identification of Bengali-English code-mixed data using character & phonetic based LSTM models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100908 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120628 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120926 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121025 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121031 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151109 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |