JP5128629B2

JP5128629B2 - 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法

Info

Publication number: JP5128629B2
Application number: JP2010077274A
Authority: JP
Inventors: チェンジエンフー; カイザオ; リクンチュ; ゴゥヨンセン
Original assignee: NEC China Co Ltd
Current assignee: NEC China Co Ltd
Priority date: 2009-04-14
Filing date: 2010-03-30
Publication date: 2013-01-23
Anticipated expiration: 2030-03-30
Also published as: CN101866337B; CN101866337A; JP2010250814A

Description

本発明は自然言語処理分野に関し、特に、品詞タグ付けシステムと品詞タグ付けモデルのトレーニング装置およびその方法に関する。

コンピュータ処理が可能な自然言語テキストの数は、インターネットの普及と情報化社会の進展に伴い大幅に増加している。そして、それに呼応するように、テキスト抽出、情報抽出、言語間情報処理、マンマシン対話といった大量情報を扱うアプリケーションに対する需要も急速に高まってきている。自然言語処理技術は、上記の需要に取り組む主要技術の１つである。「品詞タグ付け」とは、テキスト内の各語の正しい品詞をタグ付けすることであり、自然言語処理の基盤となるものである。品詞タグ付けの結果は通常、自然言語処理のうち、より高いレベルの処理（語の頻度の統計分析、構文、チャンク、意味解析等）に直接影響する。そのため、高効率かつ高精度な品詞タグ付け方法およびシステムを実現することがきわめて重要である。

自然言語処理においては、品詞タグ付けはシーケンスタグ付け問題の１つである。これまで、自然言語処理におけるシーケンスタグ付け問題に対処する方法として、条件付きランダム場（ＣＲＦ）が広く使用されてきた。ＣＲＦは、本質的には、条件可能性を計算するためのインディレクティブグラフモデルの一種である。条件可能性は、入力ノードの値が与えられたときに、出力ノードの値を指定するために使用される。ＣＲＦは、長距離依存性や重複等の要素の特徴を表現することができ、強いグローバル関連性を有する情報抽出において使用することが可能である。ＣＲＦを使うことで、最大エントロピー（ＭＥ）や隠れマルコフモデル（ＨＭＭ）等のディレクショナルグラフモデルにおいて強い相関の仮定を効果的に回避できるため、ディレクショナルグラフモデル内に発生するオフセットへのタグ付け問題を解決することができる。このことから、ＣＲＦはシーケンスタグ付け問題のための最良の統計学習モデルの１つとされる。効果的な品詞タグ付けモデルを得るためには、多数の特徴を導入し、大きなタグ集合を使ってトレーニングすることが必要となる。しかし、ＣＲＦのトレーニング処理には膨大な時間と計算資源が必要であり、トレーニングに必要な時間と計算資源は、タグ数の増加に伴って幾何学級数的に増大する。そのため、大きなタグ集合を扱う大規模システムアプリケーション（例えば、品詞タグ付けシステム）にＣＲＦモデルが適用されることは希である。ＣＲＦモデルは、主に、少数の特徴と小さなトレーニングコーパスを使用する用途に適用される。品詞タグ付けには比較的高い精度が要求されることを考慮すると、大きなタグ集合と特徴コーパスを使用する品詞タグ付け用途にＣＲＦモデルを適用するための方法を見つけることは緊急の課題である。

上記の問題に対処するため、すでにいくつかの解決法が提案されている。例えば、非特許文献１（ＣｏｈｎＴ，ＳｍｉｔｈＡ，ＯｓｂｏｒｎｅＭ．Ｓｃａｌｉｎｇｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄｓｕｓｉｎｇｅｒｒｏｒ−ｃｏｒｒｅｃｔｉｎｇｃｏｄｅｓ（誤り訂正コードを使用した条件ランダム場のスケーリング）．ＩｎＰｒｏｃ．ｔｈｅ４３ｒｄＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ（ＡＣＬ’０５），ＡｎｎＡｒｂｏｒ，Ｍｉｃｈｉｇａｎ：ＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，Ｊｕｎｅ２００５，ｐｐ．１０−１７．）では、ＣＲＦを大きなタグ集合に適用する方法が提案されている。この非特許文献１では、大きなタグ集合でのＣＲＦトレーニングの問題に対処するためのＥＣＯＣ（誤り訂正出力符号。これは、冗長性決定関数を定義する符号化処理と、その決定関数に基づいて最終分類関数を構築する復号化処理とで構成されるアンサンブル方法である）が紹介されている。以下に、この方法の詳細を示す。

モデルトレーニングフェーズ（符号化フェーズ）
１）タグ集合にｍ個のラベル（例えば、名詞をＮＮ、動詞をＶＢ、形容詞をＪＪ、副詞をＲＢとするラベル）があり、長さｎのＥＣＯＣが手動で選択されたとする。ここで、訂正符号は、以下の例に示すように、各ラベルをｎビットのベクトルにマッピングするために使用される。

そして、上記の符号化を使用して、元のタグ付け問題（「多重分類問題」とも呼ばれる）をｎ個の独立した二値分類問題に変換する。この場合、１つの列符号化は１つの二値分類器に対応する。ブラックボックスによって選択された第３の分類器を例にとると、この分類器は、「ＮＮ」「ＪＪ」としてタグ付けされた語を、「ＶＢ」「ＲＢ」としてタグ付けされた語から区別するために使用される。

２）これらの二値分類器のためのトレーニングコーパスを構築する（このコーパスは、元のコーパスを修正することで構築できる。これは、単に、トレーニングコーパス内のタグ付けラベルを対応する符号化の値に置換するだけでよい。例えば、第３分類器用のコーパスを構築するのであれば、必要なのは、元のコーパス内にあるすべての「ＮＮ」と「ＪＪ」を「１」に置換し、すべての「ＶＢ」と「ＲＢ」を「０」に置換することだけである）。修正済みコーパスが得られたら、従来のＣＲＦトレーニング方法を使って二値分類器のトレーニングを行う。

モデル利用フェーズ（復号化フェーズ）
１）１つの文（例：「ＮＥＣｄｅｖｅｌｏｐｓｗｏｒｌｄ−ｌｅａｄｉｎｇｔｅｃｈｎｏｌｏｇｙｔｏｐｒｅｖｅｎｔＩＰｐｈｏｎｅｓｐａｍ（ＮＥＣは世界をリードするＩＰフォンスパム防止技術を開発する）」）を与える。
２）上記でトレーニングされた各二値分類器を使用して上記の文にタグ付けし、その結果を記録する。この結果は以下のようになるはずである。

上記の表に示されるように、１つの語に対応して１つのｎビットベクトルがある。一部の従来方式では、各ベクトルを表３内の符号化ベクトルと１つずつ比較し、一致するラベルを検出してタグ付けに使用することが可能である。例えば、「ｄｅｖｅｌｏｐｓ（開発する）」という語の場合、それに対応するｎビットベクトルは「ＶＢ」の符号化に最も近いので、「ＶＢ−ｖｅｒｂ」としてタグ付けする。

現在のところ、既知の技術では大きなタグ集合を持つ品詞タグ付けにＣＲＦを適用する問題に効率的に対処できないため、上記の方法は未だ以下の点で真の適用からはほど遠いのが現状である。
１）非特許文献１の方法の性能はＥＣＯＣ符号化の選択に大きく依存しているが、理想的なＥＣＯＣを選択することは困難である。
２）この方法は、本質的には、トレーニングに時間がかかり過ぎ、高価な計算資源に大きく依存するという問題を解決していない。トレーニングフェーズでは、ｎ個の二値分類器のトレーニングが必要であるが、ｎの値はＥＣＯＣの選択に左右される。品詞タグ付けでは、ｎの値はかなり大きいのが一般的なので、やはり長いトレーニング時間を要し、高価な計算資源に依存することとなる。さらに、復号化フェーズでは、すべての二値分類器を１つずつ使用する必要があり、符号化マッチング処理はきわめて煩雑である。そのため、トレーニング済みのモデルの利用には長い時間がかかり、高価な計算資源が不可欠となる。

ＣｏｈｎＴ，ＳｍｉｔｈＡ，ＯｓｂｏｒｎｅＭ．Ｓｃａｌｉｎｇｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄｓｕｓｉｎｇｅｒｒｏｒ−ｃｏｒｒｅｃｔｉｎｇｃｏｄｅｓ（誤り訂正コードを使用した条件ランダム場のスケーリング）．ＩｎＰｒｏｃ．ｔｈｅ４３ｒｄＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ（ＡＣＬ’０５），ＡｎｎＡｒｂｏｒ，Ｍｉｃｈｉｇａｎ：ＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，Ｊｕｎｅ２００５，ｐｐ．１０−１７．

本発明は、品詞階層とカスケード化されたＣＲＦの分類・結合の技術を導入することにより、大きなタグ集合を伴う品詞タグ付けに従来型ＣＲＦを適用するという問題を解決する。本発明は、トレーニング集合から異なる品詞間の内的関係を自動的に解析し、その内的関係に基づいて品詞階層ツリーを構築して、全品詞を編成する。本発明は、この品詞階層ツリーに基づいて、各階層のタグ数を減少させるためのカスケード化ＣＲＦモデルを導入し、個々のモデル間の導入関係を指定する。本発明は最後に、大きなタグ集合の場合でも、カスケード化ＣＲＦ品詞タグ付けモデルを自動的にトレーニングし、取得することができる。トレーニング集合が潜在的に乏しいという問題を考慮して、本発明は上記に加えて、未知語を対象とした語構築ルールに基づく品詞推測モデルをトレーニングし、品詞タグ付けの精度をさらに向上させる。

本発明の第１の品詞タグ付けシステムは、多数のタグ付きテキストを含む品詞タグトレーニング集合内のタグ付きテキストの品詞間の関連性を分析し、当該関連性に基づいて前記品詞をツリー構造として階層上に編成した品詞階層ツリーを生成する品詞階層ツリー構築手段を備える品詞階層ツリー構築装置と、前記品詞階層ツリーのノード毎に、前記品詞階層ツリーに基づいて前記タグ付きテキストに含まれる品詞タグ付けラベルを再タグ付けし、再タグ付けした前記タグ付きテキストを用いてＣＲＦモデルをトレーニングして、品詞タグ付けモデルを生成する品詞タグ付けモデルトレーニング手段を備える品詞タグ付けモデルトレーニング装置と、前記品詞タグ付けモデルに基づいて、トレーニング済みの前記ＣＲＦモデルを使用してタグ付け対象のテキストの品詞にタグ付けする品詞タグ付け手段を備える品詞タグ付け装置とを備え、前記品詞タグ付けモデルは、トレーニング済みの各ＣＲＦモデルを前記品詞階層ツリーの各ノードに対応させて階層化した構造のデータである。

本発明の第１の品詞タグ付け方法は、品詞階層ツリー構築装置と、品詞タグ付けモデルトレーニング装置と、品詞タグ付け装置とを備える品詞タグ付けシステムによる品詞タグ付け方法であって、前記品詞階層ツリー構築装置が備える品詞階層ツリー構築手段が、多数のタグ付きテキストを含む品詞タグトレーニング集合内のタグ付きテキストの品詞間の関連性を分析し、当該関連性に基づいて前記品詞をツリー構造として階層上に編成した品詞階層ツリーを生成する品詞階層ツリー構築ステップと、前記品詞タグ付けモデルトレーニング装置が備える品詞タグ付けモデルトレーニング手段が、前記品詞階層ツリーのノード毎に、前記品詞階層ツリーに基づいて前記タグ付きテキストに含まれる品詞タグ付けラベルを再タグ付けし、再タグ付けした前記タグ付きテキストを用いてＣＲＦモデルをトレーニングして、品詞タグ付けモデルを生成する品詞タグ付けモデルトレーニングステップと、前記品詞タグ付け装置が備える品詞タグ付け手段が、前記品詞タグ付けモデルに基づいて、トレーニング済みの前記ＣＲＦモデルを使用してタグ付け対象のテキストの品詞にタグ付けする品詞タグ付けステップとを有し、前記品詞タグ付けモデルは、トレーニング済みの各ＣＲＦモデルを前記品詞階層ツリーの各ノードに対応させて階層化した構造のデータである。

本発明は、以下のように、ＣＲＦを大きなタグ集合を伴う品詞タグ付けに適用する問題を本質的に解決する。
１）本発明は、ＣＲＦモデルを大きなタグ集合を伴う品詞タグ付けに適用することを可能にすると共に、トレーニングに長い時間を要し、高価な計算資源に大きく依存するという問題を解決する。本発明の方法およびシステムによれば、機種を問わず通常の任意のＰＣコンピュータ上で品詞タグ付けモデルをトレーニングすることが可能になる。
２）以下の理由により、品詞タグ付け精度が向上する。すなわち、（ｉ）品詞の順次タグ付けはグローバル関連性の高いタスクだが、ＣＲＦモデルの導入によりグローバル最適化を効率的に実行できるため、品詞タグ付け精度が向上する。また、（ｉｉ）語構築ルールに基づく未知語のための品詞推測機構を導入することにより、トレーニング集合が乏しいという問題に対処することができ、品詞タグ付け全体の精度も向上する。
３）本発明の方法は完全に自動化されているので、品詞タグ付けモデルのトレーニングと最適化のための人件費を大幅に削減することができる。

本発明の第１の実施例による品詞タグ付けシステムの概略図である。本発明の第１の実施例による品詞タグ付け方法のフローチャートである。本発明による品詞階層ツリー構築装置の概略図である。本発明による品詞階層ツリー構築方法のフロー・チャートである。品詞階層ツリーの構成例である。品詞階層ツリーのデータ構造例である。品詞階層ツリーのデータ構造例である。本発明による品詞タグ付けモデルトレーニング装置の概略ブロック図である。本発明による品詞タグ付けモデルトレーニング方法のフロー・チャートである。本発明による品詞タグ付け装置の概略図である。本発明による品詞タグ付け方法のフロー・チャートである。本発明の第２の実施例による品詞タグ付けシステムの概略図である。本発明の第２の実施例による品詞タグ付け方法のフローチャートである。本発明の第３の実施例による品詞タグ付けシステムの概略図である。本発明の第３の実施例による品詞タグ付け方法のフローチャートである。

次に、図を参照して、本発明の好適な実施例について説明する。なお、同じ参照記号または番号が異なる図で使用されている場合は、同一もしくは類似の構成要素であることを示す。以下では、本発明の主題が曖昧となるのを避けるため、既知の機能および構成の詳細な説明は省略している。

図１は、本発明の第１の実施例による品詞タグ付けシステムの概略図である。品詞タグ付けシステム１において、品詞タグトレーニング集合１０は、多数のタグ付きテキスト（すなわち、タグ付きテキスト集合）から成る。品詞階層ツリー構築装置１４は、品詞タグトレーニング集合１０内のタグ付きテキストに基づいて、異なる品詞間の関連性を分析し、分析された関連性に基づいて品詞階層ツリー１５を構築して、品詞タグトレーニング集合１０内に存在するタグ付き品詞を階層状に編成する。ここで、関連性は例えば品詞間の類似性としてもよい。品詞タグ付けモデルトレーニング装置１２は、トレーニングを行って品詞タグ付けモデル１３を生成する。品詞タグ付けモデルトレーニング装置１２は品詞タグトレーニング集合１０からタグ付きテキストを読み取り、品詞階層ツリー１５内の品詞階層に関する情報に基づいて、品詞タグ付け用ＣＲＦ品詞タグ付けモデル１３をトレーニングするためのモデルトレーニング処理を構築する。生成された品詞タグ付けモデルは、カスケード化された品詞タグ付けモデルである。品詞タグ付け装置２２は、生成された品詞タグ付けモデルに基づいて、任意の非タグ付きテキスト内の語に対して品詞タグ付けを実行する。

図１には品詞階層ツリー構築装置１４を備える品詞タグ付けシステムが示されているが、品詞階層ツリー構築装置を含まない品詞タグ付けシステムも可能である。この場合は、予め構築された品詞階層ツリーを使用して、非タグ付きテキストに品詞をタグ付けする。品詞階層ツリーは、例えば、手動で構築された階層ツリーであってもよい。さらに、品詞タグ付けシステムは、品詞タグ付け用の品詞タグ付けモデル１３を生成する、品詞タグ付けモデルトレーニング装置１２のみを備えることもできる。

品詞階層ツリー１５は、品詞をツリー構造として階層状に編成する。図４ａは、品詞階層ツリーの一例である。この品詞階層ツリーは、階層０、１、２、３の計４階層を有し、階層２と階層３は各々６ノードずつ有する。品詞階層ツリーの葉ノードは真の品詞に対応し、その他のノードは無作為に定義されたダミーのクラス名である。図４ｂおよび図４ｃは、図４ａに示す品詞階層ツリーのデータ構造の例である。

図１ｂは、品詞タグ付け方法のフローチャートである。Ｓ１０１において、品詞階層ツリー構築装置１４は品詞階層ツリー１５を構築して、品詞タグトレーニング集合内に存在するタグ付き品詞を階層状に編成する。Ｓ１０２において、品詞タグ付けモデルトレーニング装置１２は品詞タグトレーニング集合１０からタグ付きテキストを読み取り、品詞階層ツリー１５内の品詞階層に関する情報に基づいて、品詞タグ付け用の品詞タグ付けモデル１３を生成する。この品詞タグ付けモデルは、カスケード化された品詞タグ付けモデルである。Ｓ１０３において、品詞タグ付け装置２２は、生成された品詞タグ付けモデル１３を使用して、入力されたテキストに対し品詞タグ付けを実行する。

次に、図２と図３を参照して、品詞階層ツリー１５の構築について説明する。

図２は、本発明の品詞階層ツリー構築装置１４の概略図である。この図においては、品詞特徴テンプレート選択ユニット１４０が、品詞の文法的挙動を表現する品詞特徴テンプレートを選択する。品詞の文法的挙動は様々な方法で表現することができる。品詞特徴テンプレートとして選択できる特徴の一例としては、タグ付きテキスト内における現在の語の直前の語と、当該直前の語の品詞と、現在の語の直後の語と、当該直後の語の品詞とを含むものが挙げられる。特徴ベクトル構築ユニット１４１は、選択された品詞特徴テンプレートに基づいて、品詞タグトレーニング集合１０内に存在する各品詞の特徴ベクトルを構築する。類似度計算ユニット１４２は、構築された特徴ベクトルを使用して、品詞タグトレーニング集合１０に含まれる任意の２つの品詞間の類似度を計算する。クラスタ化ユニット１４３は、計算された類似度に基づき、従来の階層クラスタ化アルゴリズムを使用して、品詞タグトレーニング集合１０内のすべての品詞をクラスタ化し、予め設定されたルールに従って品詞階層ツリー１５を生成する。

図３は、品詞階層ツリー構築装置が品詞階層ツリーを生成する処理のフローチャートである。Ｓ３０１において、品詞特徴テンプレート選択ユニット１４０は品詞特徴群を品詞特徴テンプレートとして選択する。このとき、例えば、タグ付きテキスト内における現在の語の直前の語と、当該直前の語の品詞と、現在の語の次の語と、当該次の語の品詞、というように選択する。例えば、「香港／ｎｓ評出／ｖ十／ｍ大／ａ傑出／ａ青年／ｎ」というタグ付きテキストにおいて、語「評出」を現在の語として選択したとすると、現在の語の品詞は「ｖ」である。この場合の品詞特徴群は、以下のように表現される。

Ｓ３０２において、特徴ベクトル構築ユニット１４１は、品詞特徴テンプレートに基づいて、品詞タグトレーニング集合１０内の各品詞の特徴ベクトルを構築する。例えば、品詞タグトレーニング集合内には合計ｄｚ個の語とｌｚ個の品詞がある。ユニット１４１は、上記で選択された品詞特徴群を与えられると、任意の品詞ｘについて以下のベクトルを構築することができる。
１）ｘ＜ｐｒｅｖｉｏｕｓｗｏｒｄ＞直前の語ベクトル−このベクトルはｄｚの寸法を有し、当該ベクトルに対応する要素は、指定された語が品詞ｘの語の直前に出現する頻度を表す。
２）ｘ＜ｐｒｅｖｉｏｕｓｗｏｒｄ’ｓＰＯＳ＞直前の語の品詞ベクトル−このベクトルはｌｚの寸法を有し、当該ベクトルに対応する要素は、指定された品詞が品詞ｘの語の直前に出現する頻度を表す。
３）ｘ＜ｎｅｘｔｗｏｒｄ＞次の語ベクトル−このベクトルはｄｚの寸法を有し、当該ベクトルに対応する要素は、指定された語が品詞ｘの語の直後に出現する頻度を表す。
４）ｘ＜ｎｅｘｔｗｏｒｄ’ｓＰＯＳ＞次の語の品詞ベクトル−このベクトルはｌｚの寸法を有し、当該ベクトルに対応する要素は、指定された品詞が品詞ｘの語の直後に出現する頻度を表す。

Ｓ３０３において、類似度計算ユニット１４２は、例えばｘ１およびｘ２について以下のステップを実行して、品詞タグトレーニング集合１０に含まれる任意の２つの品詞間の類似度を計算する。
１）最初に、２つの品詞（ｘ１，ｘ２）の特徴ベクトルについて、各対間における以下の類似度を計算する。
Ｓｉｍｃ（ｘ１＜ｐｒｅｖｉｏｕｓｗｏｒｄ＞，ｘ２＜ｐｒｅｖｉｏｕｓｗｏｒｄ＞）
Ｓｉｍｃ（ｘ１＜ｐｒｅｖｉｏｕｓｗｏｒｄ’ｓＰＯＳ＞，ｘ２＜ｐｒｅｖｉｏｕｓｗｏｒｄ’ｓＰＯＳ＞）
Ｓｉｍｃ（ｘ１＜ｎｅｘｔｗｏｒｄ＞，ｘ２＜ｎｅｘｔｗｏｒｄ＞）
Ｓｉｍｃ（ｘ１＜ｎｅｘｔｗｏｒｄ’ｓＰＯＳ＞，ｘ２＜ｎｅｘｔｗｏｒｄ’ｓＰＯＳ＞）
２）以下の式を使用して、全体的な類似度を計算する。
Ｓｉｍ（ｘ１，ｘ２）＝ｗ１＊Ｓｉｍｃ（ｘ１＜ｐｒｅｖｉｏｕｓｗｏｒｄ＞，ｘ２＜ｐｒｅｖｉｏｕｓｗｏｒｄ＞）＋
ｗ２＊Ｓｉｍｃ（ｘ１＜ｐｒｅｖｉｏｕｓｗｏｒｄ’ｓＰＯＳ＞，ｘ２＜ｐｒｅｖｉｏｕｓｗｏｒｄ’ｓＰＯＳ＞）＋
ｗ３＊Ｓｉｍｃ（ｘ１＜ｎｅｘｔｗｏｒｄ＞，ｘ２＜ｎｅｘｔｗｏｒｄ＞）＋
ｗ４＊Ｓｉｍｃ（ｘ１＜ｎｅｘｔｗｏｒｄ’ｓＰＯＳ＞，ｘ２＜ｎｅｘｔｗｏｒｄ’ｓＰＯＳ＞），
ここで、ｗ１＋ｗ２＋ｗ３＋ｗ４＝１である。

Ｓ３０４において、クラスタ化ユニット１４３は、計算された類似度に基づき、階層クラスタ化アルゴリズム（例えば、Ｋ平均法アルゴリズム）を使用して、すべての品詞をクラスタ化し、事前に設定されたルールに基づいて階層ツリーを生成する。本発明においては、事前に設定されたルールには、「各階層のノード数はｎ未満であること（ｎは正の整数）」のような定義を含めてもよい。この場合、例えばｎを８とすることができる。

以下では、図５ａと図５ｂを参照して、品詞タグ付けモデルの生成について説明する。図５ａは、本発明による品詞タグ付けモデルトレーニング装置１２のブロック図である。品詞タグ付けモデルトレーニング装置１２は、ＣＲＦモデルトレーニングコーパス構築ユニット１２１と、ＣＲＦモデルトレーニングユニット１２２と、論理回路１２０とを備える。ＣＲＦモデルトレーニングコーパス構築ユニット１２１は、品詞階層ツリー１５に基づいて、品詞タグトレーニング集合１０から階層毎およびノード毎に読み取られたトレーニングテキストに対して品詞タグ付けを実行する。ＣＲＦモデルトレーニングユニット１２２は、ＣＲＦモデルトレーニングコーパス構築ユニット１２１によってタグ付けされたトレーニングテキストに基づいて、対応する階層毎およびノード毎にＣＲＦモデルをトレーニングする。論理回路１２０は、品詞タグ付けモデルのトレーニング処理において、ＣＲＦモデルトレーニングコーパス構築ユニット１２１とＣＲＦモデルトレーニングユニットとを制御する。論理回路１２０は、品詞階層ツリーの階層数を保持しており、ＣＲＦモデルトレーニングコーパス構築ユニット１２１とＣＲＦモデルトレーニングユニットが１つの階層を処理する毎に階層数を増分し、品詞階層ツリーの最後の階層のすべてのノードが処理されるまでこれを継続する。

図５ｂは、品詞タグ付けモデルトレーニング装置が品詞タグ付けモデルを生成する処理のフローチャートである。これは２層ループを含む入れ子式のトレーニング方法であり、上から下に向かうトレーニングモードが採用されている。そのため、１つの階層のトレーニング結果は次の階層に影響を及ぼし、同じ階層のトレーニングは独立して実行することができる。品詞階層ツリーはｎ階層で構成され、階層ｉにはｍ_ｉ個のノードがあり、現在のノードを「ｊ」と呼ぶこととする。最初に、論理回路１２０が、Ｓ６０１において階層ｉに「０」の値を割り当て、Ｓ６０２においてノードｊに「１」の値を割り当てる。続いて、Ｓ６０３において、ＣＲＦモデルトレーニングコーパス構築ユニット１２１が＜ｉ，ｊ＞ＣＲＦモデル用のトレーニングコーパスを構築し、原形の品詞タグトレーニング集合１０内のタグ付きテキストに含まれる品詞タグ付けラベルを、品詞階層ツリー内においてそのラベルに対応する、現在のノードの各サブノード名に置換する。Ｓ６０４において、ＣＲＦモデルトレーニングユニット１２２が、＜ｉ，ｊ＞ＣＲＦモデルトレーニングコーパスと選択された特徴テンプレートとを用いて、＜ｉ，ｊ＞ＣＲＦモデルをトレーニングする。ここで、ｉ＝０の場合は、ＣＲＦモデルトレーニングユニット１２２によって選択された特徴テンプレートは、前後２つの語と、現在の語の前後の文字と、前後２語間の共起頻度とを含む。そして、ｉ＞０においては、階層０で使用された特徴テンプレートに加えて、直前の階層のタグ付け結果に示される前後２つの語の品詞と、品詞間の共起と、語および品詞間の共起とを含む特徴テンプレートも同時に使用される。Ｓ６０５においてｊの値が増分され、Ｓ６０６において、ｊがｍ_ｉより大きいかどうかが判定される。ｊがｍ_ｉより小さい場合には、処理はＳ６０３に進む。ｊがｍ_ｉより大きい場合には、ｉの値がＳ６０７において増分され、処理はＳ６０２に進み、品詞階層ツリーのすべての階層のノードがＳ６０３とＳ６０４を終了するまで処理が継続される。このようにして、大規模なタグ集合においても、カスケード化品詞タグ付けモデルをトレーニングすることができる。

ここで、十分なタグ付けがなされた以下の文を一例として取り上げる。
香港／ｎｓ評出／ｖ十／ｍ大／ａ傑出／ａ青年／ｎ
階層０において、＜０，１＞ＣＲＦモデルトレーニングコーパスが構築される。最初に、この文の再タグ付けが行われる。図４ａに示す品詞階層ツリーを参照すると、階層０におけるノード１のサブノードは「ｌａｂｅｌ１」、「ｌａｂｅｌ２」、「ｌａｂｅｌ３」、「ｌａｂｅｌ４」である。図４ａの真の品詞「ｖ」は、品詞階層ツリーの第１階層におけるサブノードの「ｌａｂｅｌ１」に対応する。したがって、原形のトレーニング集合内の「ｖ」でタグ付けされたすべての語は、「ｌａｂｅｌ１」として再タグ付けされる。

階層０において再タグ付けされた文は、以下のようになる。
香港／ｌａｂｅｌ３評出／ｌａｂｅｌ１十／ｌａｂｅｌ２大／ｌａｂｅｌ１傑出／ｌａｂｅｌ１青年／ｌａｂｅｌ３
階層０において、ＣＲＦモデルがトレーニングされる。選択された特徴テンプレートは、「香港」と「評出」のような前後２つの語と、現在の語の前後の文字と、前後２語間の共起とを含む（ここで、「共起」とは、ある文脈において２語が同時に出現する状況を意味する）。

その後、上記の文が階層１において再度、再タグ付けされる。階層１の１番目のノード＜１，１＞に関して、＜１，１＞ＣＲＦモデルトレーニングコーパスが構築される。図４ａの品詞階層ツリーを参照すると、ノード＜１，１＞は「ｌａｂｅｌ１１」「ｌａｂｅｌ１２」というサブノードを有している。したがって、階層０で「ｌａｂｅｌ１」でタグ付けされた語はさらに「ｌａｂｅｌ１１、ｌａｂｅｌ１２」（すなわち、現在のノードのサブノード名の集合）でタグ付けされる。

階層０のタグ付け結果であった「香港／ｌａｂｅｌ３評出／ｌａｂｅｌ１十／ｌａｂｅｌ２大／ｌａｂｅｌ１傑出／ｌａｂｅｌ１青年／ｌａｂｅｌ３」は、ノード＜１，１＞の再タグ付け後には、「香港／ｌａｂｅｌ３評出／ｌａｂｅｌ１２十／ｌａｂｅｌ２大／ｌａｂｅｌ１１傑出／ｌａｂｅｌ１１青年／ｌａｂｅｌ３」となる。

その後、ノード＜１，１＞についてＣＲＦモデルトレーニングが実行される。選択された特徴テンプレートは、上記の階層０の特徴テンプレートに加えて、直前の階層のタグ付け結果に含まれる前後２語の品詞と、品詞間の共起と、語と品詞間の共起とを含む。例えば、「評出」という語の場合、特徴テンプレートは、前後の２語「香港」および「十」の品詞である「ｌａｂｌｅ３」および「ｌａｂｅｌ２」と、これらの品詞間の共起と、語と品詞間の共起とを含む。

同様に、ノード＜１，２＞、ノード＜１，３＞、ノード＜１，４＞の各々に対して上記のＣＲＦモデルトレーニングコーパス構築処理とＣＲＦモデルトレーニング処理が実行され、すべての階層のノードがＣＲＦモデルトレーニングコーパス構築処理とＣＲＦモデルトレーニング処理を終了するまでこれが継続される。

図６ａは、品詞タグ付け装置のブロック図である。品詞タグ付け装置２２は、論理回路２２２と、ＣＲＦモデル特徴構築ユニット２２０と、ＣＲＦ品詞タグ付けユニット２２１とを備える。論理回路２２２は、品詞タグ付け処理の実行中に、カスケード化された品詞タグ付けモデルに従ってＣＲＦモデル特徴構築ユニット２２０とＣＲＦ品詞タグ付けユニット２２１とを制御する。ＣＲＦモデル特徴構築ユニット２２０は、論理回路２２２の制御のもとで、タグ付け対象のテキスト用として、＜ｉ，ｊ＞ＣＲＦモデルを利用するための特徴群を階層毎およびノード毎に構築する。ＣＲＦ品詞タグ付けユニット２２１は、論理回路２２２の制御のもとで、特徴構築ユニット２２０によって構築された特徴データに基づいて、対応する階層毎およびノード毎に品詞タグ付けを実行する。

図６ｂは、品詞タグ付け装置が実行するカスケード化ＣＲＦ品詞タグ付け方法のフローチャートである。品詞タグ付けモデルに計ｎ階層があり、階層ｉにはｍ_ｉ個のノードがあり、現在のノードを「ｊ」と呼ぶこととする。最初にＳ９０１において、論理回路２２２が階層ｉに「０」の値を割り当て、Ｓ９０２においてノードｊに「１」の値を割り当てる。次にＳ９０３において、ＣＲＦモデル特徴構築ユニット２２０が＜ｉ，ｊ＞ＣＲＦモデルを利用するための特徴データを構築する。ＣＲＦモデル特徴構築ユニット２２０は、品詞モデルのトレーニング処理において、特徴テンプレート集合に基づき、ＣＲＦモデル用の入力特徴データを構築する。異なる階層ｉに対して、以下の２つの方法を利用することができる。
１）ｉが「０」の場合に、ＣＲＦモデル用の特徴テンプレートに情報を取り込む処理を実行する。すなわち、タグ付け対象として入力されたテキストから直接、関連の特徴情報を抽出し、テンプレートにその情報を取り込むことにより、ＣＲＦモデルの入力特徴データを生成する。
２）ｉが「０」以外の場合には、階層０で特徴情報を抽出することに加えて、階層ｉ−１のＣＲＦモデルを利用して、タグ付け対象のテキストのタグ付け結果から特徴情報を抽出することにより、ＣＲＦモデルの入力特徴データを生成する。

Ｓ９０４において、生成された特徴データに基づき、品詞タグモデル１０の＜ｉ，ｊ＞ＣＲＦモデルを利用してテキストにタグ付けする。

Ｓ９０５においてｊの値が増分され、Ｓ９０６において、ｊがｍ_ｉより大きいかどうかが判定される。ｊがｍ_ｉより小さい場合には、処理はＳ９０３に進む。ｊがｍ_ｉより大きい場合には、ｉの値がＳ９０７において増分され、処理はＳ９０８およびＳ９０２に進み、品詞階層ツリーのすべての階層のノードがＳ９０３とＳ９０４を終了するまで処理が継続される。このように、階層毎にテキストに品詞タグ付けを行うことにより、大規模なタグ集合での品詞タグ付けが実現される。

以下では、タグ付け処理全体に対する理解を深めるため、単純な例を取り上げて説明する。

タグ付け対象のテキストとして、「北京入囲十大宜居城市」が与えられたとする。
階層０（＜０，１＞ＣＲＦモデルを利用）
タグ付け結果は、「北京／ｌａｂｅｌ３入囲／ｌａｂｅｌ１十／ｌａｂｅｌ２大／ｌａｂｅｌ１宜居／ｌａｂｅｌ１城市／ｌａｂｅｌ３」となる。
階層１（この階層用のすべてのＣＲＦモデルを利用）
１．＜１，１＞ＣＲＦモデルを利用して、「北京／ｌａｂｅｌ３入囲／ｌａｂｅｌ１２十／ｌａｂｅｌ２大／ｌａｂｅｌ１１宜居／ｌａｂｅｌ１１城市／ｌａｂｅｌ３」の結果が得られる。
２．＜１，２＞ＣＲＦモデルを利用して、以下同様である。
……
階層１に対する処理後のタグ付け結果は、「北京／ｌａｂｅｌ３２入囲／ｌａｂｅｌ１２十／ｌａｂｅｌ２１大／ｌａｂｅｌ１１宜居／ｌａｂｅｌ１１城市／ｌａｂｅｌ３１」である。
階層２
１．＜２、１＞ＣＲＦモデルを利用して、「北京／ｌａｂｅｌ３２入囲／ｌａｂｅｌ１２十／ｌａｂｅｌ２１大／ａ宜居／ａ城市／ｌａｂｅｌ３１」の結果が得られる。
２．＜２、２＞ＣＲＦモデルを利用して、以下同様である。
最終的に得られる完全なタグ付け結果は、「北京／ｎｓ入囲／ｖ十／ｍ大／ａ宜居／ａ城市／ｎ」である。

図７ａは、本発明の第２の実施例による品詞タグ付けシステムの概略ブロック図である。この品詞タグ付けシステムは、図１ａの品詞タグ付けシステムの構成要素に加えて、評価装置１６と、調整装置１７と、テスト集合構築装置１８とをさらに備える。テスト集合構築装置１８は、タグ付け対象のテキスト集合用のテスト集合として、品詞タグトレーニング集合１０から無作為に品詞タグ付け用テキスト集合を選択する。評価装置１６は、テスト集合が品詞タグ付けモデルを使用した品詞タグ付け処理に付された後のタグ付け結果を評価する。この場合、評価装置１６は、トライアルの結果に基づいてタグ付け精度を評価する。調整装置１７は、より高性能な品詞階層ツリーを構築するために、評価装置の評価結果に基づいて品詞階層ツリー構築装置１４を調整する。

図７ｂは、品詞タグ付けシステムによって実行される品詞タグ付け処理のフローチャートである。図７ｂに示すように、Ｓ７０１において、テスト集合構築装置１８がテスト集合として品詞タグトレーニング集合１０の副集合を無作為に抽出する。Ｓ７０２において、品詞タグ付けシステムがトレーニング済み品詞タグ付けモデル１３を利用してテスト集合に品詞タグ付け処理を実行する。Ｓ７０３において、評価装置１６が品詞タグ付けされたテスト集合の精度を評価し、その評価結果を調整装置１７に渡す。その後、Ｓ７０４において、調整装置１７が評価結果に基づいて品詞タグ付けモデルの性能を判定し、品詞タグ付けモデルの性能が事前に決定された条件を満たさない場合には、Ｓ７０５において、クラスタ化結果を変更するために、品詞階層ツリー構築装置１４によって使用されたｗ１、ｗ２、ｗ３、およびｗ４のしきい値を調整する。Ｓ７０６において、調整装置はヒューリスティックルール（発見的規則）を用いてクラスタ化結果を調整する。この際には、例えば「ｎとｎｓは異なるクラスタに分類する」と規定するルールが使用される。

図８ａは、本発明の第３の実施例による品詞タグ付けシステムのブロック図である。未知語の場合は、通常トレーニングコーパス内にその語のトレーニングデータがないので比較的タグ付け精度が低くなり、その影響で全体的なタグ付け精度が低下する。本発明の品詞タグ付けシステムは、未知語の品詞を訂正できるため、システムの全体的な品詞タグ付け精度が向上する。この品詞タグ付けシステムは、図１ａの品詞タグ付けシステムの構成要素に加えて、未知語品詞推測モデル構築装置１９と、未知語の品詞訂正装置２１とをさらに備える。未知語品詞推測モデル構築装置１９は、既存の品詞タグトレーニング集合１０から語構築ルールを学習し、学習した語構築ルールに従って未知語品詞推測モデル２０を構築する。未知語の品詞訂正装置２１は、未知語品詞推測モデル２０を使用して、品詞タグ付けモデル１３でタグ付けされたテキスト内の未知語の品詞を訂正する。

図８ｂは、本発明の第３の実施例による品詞タグ付け方法を示す。図８ｂに示すように、Ｓ８０１において、未知語品詞推測モデル構築装置１９がまず品詞タグトレーニング集合内の語に対して直接構成素分割処理を実行し、分割後の直接構成素の属性を分析する（すなわち、品詞タグトレーニング集合内の各語の直接構成素を特定し、その直接構成素の属性にタグ付けする）ことにより、語の構成要素のシーケンスを取得する。

ここで、直接構成素の定義について簡単に説明する。大きな単位を構成する小さな単位は、大きな単位の構成要素と呼ばれる。そのため、大きな単位を直接構成する小さな単位は「直接構成素」と呼ばれる。品詞タグトレーニング集合内の各語は、語よりも小さい構成要素ではなく、語そのものである。したがって、ここでいう「直接構成素」と直接構成素属性の分析は、一般的な語分割や品詞タグ付けとは異なるものである。ここでいう「直接構成素」と直接構成素属性の分析とは、品詞タグ付けトレーニング集合内の２つ以上の文字から成る語を直下の単位に分割することを意味する。例えば、２つの文字から成る１つの語の場合であれば、直下の単位とは、その語を構成する個々の文字（形態素）を意味する。３つ以上の文字から成る語の場合、その語は、辞書内に存在する１つの語（最大一致）と１つの形態素とに分割される。「科学技術部」という語の場合、「科学」、「技術」の２語が辞書内に存在し、「科学技術」や「技術部」は存在しないと仮定すると、この語は「科学／技術／部」に分割される。「科学」、「技術部」、「技術」が辞書内に存在するとすれば、分割結果は「科学／技術部」になる。そのため、直接構成素は語のことも形態素のこともありうる。直接構成素の属性とは、主に、品詞タグの形式で表現される構文属性を意味する。直接構成素の属性は、可能なすべての品詞タグを含むことができる。

表３は、「冷暴力、掃射」という２つの語に関する直接構成素分割と属性分析の結果を示したものである。

上記から取得できるシーケンスは、以下のようなものである。
冷暴力 → 冷２ａＮ＿Ｂ暴力４ｎＮ＿Ｅ
掃射 → 掃２ｖＶ＿Ｂ射２ｖＶ＿Ｅ．
「冷射」が未知語の場合は、取得される語構成要素のシーケンスは「冷２ａ射２ｖ」となる。

Ｓ８０２において、未知語品詞推測モデル構築装置１９が品詞特徴テンプレートを選択する。

Ｓ８０３において、未知語品詞推測モデル構築装置１９は、選択された品詞特徴テンプレートを使用して取得された語構成要素のシーケンスを変換し、任意の既知の機械学習アルゴリズムを用いて未知語推測モデル２０を生成する。例えば、未知語推測モデル２０を使用すると、「冷射」の品詞として以下を取得することが可能になる。
ＰＯＳ（冷２ａＶ＿Ｂ，射２ｖＶ＿Ｅ）＝Ｖ．

Ｓ８０４において、品詞タグ付けシステムが、生成された未知語推測モデル２０を使用して、品詞タグ付けモデル１３でタグ付けされたテキスト内の未知語を再タグ付けする。

語構成要素のシーケンスが「掃２ｖＶ＿Ｂ射２ｖＶ＿Ｅ」であり、以下の特徴テンプレートが選択されたとする。
／／構成語の品詞
Ｕ０１：％ｘ［−１，２］／／前の１つの構成素の第２の特徴（／）（「／」はヌルの特徴を表す）
Ｕ０２：％ｘ［０，２］／／現在の構成素の第２の特徴（ａ）
／／構成語の長さ
Ｕ０３：％ｘ［１，１］／／次の１つの構成素の第１の特徴（２，２）
／／構成語
Ｕ０４：％ｘ［０，０］／／現在の１つの構成素のゼロ特徴，
語構成要素のシーケンスは、ＣＲＦ等の任意の機械学習法のために、以下のような入力データに変換される。
ｉｆ（Ｔ（−１，２）＝‘／’）ｔａｇ＝ ‘Ｖ＿Ｂ’
ｉｆ（Ｔ（０，２）＝‘ｖ’）ｔａｇ＝ ‘Ｖ＿Ｂ’
ｉｆ（Ｔ（１，１）＝’２’）ｔａｇ＝ ‘Ｖ＿Ｂ’
ｉｆ（Ｔ（０，０）＝‘掃’）ｔａｇ＝ ‘Ｖ＿Ｂ’

ｉｆ（Ｔ（−１，２）＝‘ｖ’）ｔａｇ＝ ‘Ｖ＿Ｅ’
ｉｆ（Ｔ（０，２）＝‘ｖ’）ｔａｇ＝ ‘Ｖ＿Ｅ’
ｉｆ（Ｔ（１，１）＝‘２’）ｔａｇ＝ ‘Ｖ＿Ｅ’
ｉｆ（Ｔ（０，０）＝‘射’）ｔａｇ＝ ‘Ｖ＿Ｅ’

品詞タグ付けモデル１３でタグ付けされた最終テキスト内の未知語は、生成された未知語推測モデル２０を使用して再タグ付けされるが、生成された未知語推測モデル２０を使用して、現在の階層において品詞タグ付けモデル１３でタグ付けされたテキスト内の未知語を再タグ付けすることも可能である。換言すれば、現在の階層の品詞タグ付け結果を訂正し、その上で次の階層用の特徴データとして使用することができる。

上記では、本発明の実施例を説明するために中国語のテキストを例として使用したが、本発明は英語や日本語等の任意の言語における品詞タグ付けに適用できることは明らかである。

上記の説明は本発明の好適な実施例のみを示したに過ぎず、本発明を限定することを意図するものではない。当該技術に精通する当業者には、付記する請求項により定義される本発明の範囲と精神を逸脱しない限り、これらの実施例に任意の修正・置換をなすことができることは理解されるであろう。

さらに、上記実施形態の一部又は全部は、以下の付記のようにも記載されうるが、これに限定されない。

（付記１）
品詞タグ付けシステムであって、
品詞階層ツリーに基づいて、品詞タグトレーニング集合内の第１のタグ付きテキストを使用して、階層的およびノード的に品詞タグ付けモデルをトレーニングする品詞タグ付けモデルトレーニング装置と、
トレーニング済みの品詞タグ付けモデルを使用して、タグ付け対象のテキストの品詞にタグ付けする品詞タグ付け装置と
を備えることを特徴とする品詞タグ付けシステム。

（付記２）
前記品詞タグ付けモデルトレーニング装置が、
品詞階層ツリーに基づいて、階層的およびノード的に第２のタグ付きテキストに対して、品詞タグトレーニング集合内の第１のタグ付きテキストをタグ付けすることにより、ＣＲＦモデルトレーニングコーパスを構築するＣＲＦモデルトレーニングコーパス構築ユニットと、
前記ＣＲＦモデルトレーニングコーパス構築ユニットによってタグ付けされた第２のタグ付きテキストを使用することにより、対応する階層的およびノード的にＣＲＦモデルをトレーニングし、品詞タグ付けモデルを取得するＣＲＦモデルトレーニングユニットとを備えることを特徴とする付記１に記載の品詞タグ付けシステム。

（付記３）
前記ＣＲＦモデルトレーニングコーパス構築ユニットは、品詞階層ツリー内のタグ付き品詞の位置に対応する当該ノードのサブノードの名で、前記第１のタグ付きテキストのタグ付き品詞を置換することにより、階層的およびノード的にタグ付けを実行することを特徴とする付記２に記載の品詞タグ付けシステム。

（付記４）
前記ＣＲＦモデルトレーニングユニットは、
（ａ）現在のレベルが「０」であり、特徴テンプレートが、第２のテキスト内の前後２つの語と、現在の語の前後の文字と、前後２語間の共起頻度とを含む場合
（ｂ）現在のレベルは「０」でなく、特徴テンプレートが、レベル０で選択された特徴テンプレートと、直前の階層での第２のテキスト内の前後２つの語と、品詞間の共起頻度と語と品詞間の共起頻度を含む場合
に応じて特徴テンプレートを選択することにより、階層的およびノード的にＣＲＦモデルをトレーニングすることを特徴とする付記３に記載の品詞タグ付けシステム。

（付記５）
前記品詞タグ付け装置が、
タグ付け対象のテキストに対してＣＲＦモデルを適用するために、階層的およびノード的に特徴データを構築するＣＲＦモデル特徴構築ユニットと、
前記ＣＲＦモデル特徴構築ユニットによって構築される特徴データに従って、階層的およびノード的にタグ付け対象のテキストの品詞のタグ付けを行うＣＲＦ品詞タグ付けユニットとを備えることを特徴とする付記２に記載の品詞タグ付けシステム。

（付記６）
前記ＣＲＦモデル特徴構築ユニットは、
（ａ）現在のレベルは０であり、特徴データが、ＣＲＦモデルのトレーニング中にレベル０で選択された特徴テンプレートに入力するために使用され、タグ付け対象のテキストから抽出される場合
（ｂ）現在のレベルが０でなく、レベル０で抽出された特徴データが使用され、また直前のレベルのＣＲＦモデルによってタグ付けされた第２のテキストから特徴データが抽出される場合
に応じてＣＲＦモデルについて特徴データを構築することを特徴とする付記５に記載の品詞タグ付けシステム。

（付記７）
前記品詞タグトレーニング集合内のタグ付きテキストの品詞間の関連性を分析する品詞階層ツリー構築装置をさらに備えることを特徴とする付記１に記載の品詞タグ付けシステム。

（付記８）
前記品詞階層ツリー構築装置が、
品詞の特徴を表わす特徴テンプレートを選択する品詞特徴テンプレート選択ユニットと、
選択した特徴テンプレートに従って品詞タグトレーニング集合内の品詞について特徴ベクトルを構築する特徴ベクトル構築ユニットと、
前記特徴ベクトルを使用して品詞間の類似度を計算する類似度計算ユニットと、
類似度に基づいて品詞をクラスタ化し、品詞階層ツリーを生成するクラスタ化ユニットとを備えることを特徴とする付記７に記載の品詞タグ付けシステム。

（付記９）
前記品詞タグトレーニング集合からテスト集合としてランダムにテキスト集合を選択するテスト集合構築装置と、
前記品詞タグ付けモデルを使用して、テスト集合からタグ付けされたテキストの品詞タグ付けの結果を評価する評価装置と、
評価結果に従って品詞階層ツリーを調整する調整装置とをさらに備えることを特徴とする付記８に記載の品詞タグ付けシステム。

（付記１０）
前記調整装置は、前記品詞階層ツリー構築装置によって品詞間の類似度を計算するのに使用するしきい値を調整することを特徴とする付記９に記載の品詞タグ付けシステム。

（付記１１）
品詞タグトレーニング集合から語構築ルールを学習し、未知語の品詞推測モデルを構築する未知語品詞推測モデル構築装置と、
未知語の品詞推測モデルを使用して未知語の品詞をタグ付けし、品詞タグ付けモデルを使用してタグ付けされた未知語の品詞を訂正する未知語品詞訂正装置とを備えることを特徴とする付記１又は付記２に記載の品詞タグ付けシステム。

（付記１２）
品詞タグ付け方法であって、
品詞階層ツリーに基づき、品詞タグトレーニング集合内の第１のタグ付きテキストを使用して、階層毎およびノード毎に品詞タグ付けモデルをトレーニングする品詞タグ付けモデルトレーニングステップと、
トレーニング済み品詞タグ付けモデルを使用して、タグ付け対象のテキストの品詞にタグ付けする品詞タグ付けステップと
を有することを特徴とする品詞タグ付け方法。

（付記１３）
前記品詞タグ付けモデルトレーニングステップが、
品詞階層ツリーに基づいて、階層的およびノード的に第２のタグ付きテキストに対して、品詞タグトレーニング集合内の第１のタグ付きテキストをタグ付けすることにより、ＣＲＦモデルトレーニングコーパスを構築するＣＲＦモデルトレーニングコーパス構築ステップと、
前記ＣＲＦモデルトレーニングコーパス構築ステップによってタグ付けされた第２のタグ付きテキストを使用することにより、対応する階層的およびノード的にＣＲＦモデルをトレーニングし、品詞タグ付けモデルを取得するＣＲＦモデルトレーニングステップを含むことを特徴とする付記１２に記載の品詞タグ付け方法。

（付記１４）
前記ＣＲＦモデルトレーニングコーパス構築ステップが、品詞階層ツリー内のタグ付き品詞の位置に対応する当該ノードのサブノードの名で、前記第１のタグ付きテキストのタグ付き品詞を置換することにより、階層的およびノード的にタグ付けを実行するステップを含むことを特徴とする付記１３に記載の品詞タグ付け方法。

（付記１５）
前記ＣＲＦモデルトレーニングステップが、
（ａ）現在のレベルが「０」であり、特徴テンプレートが、第２のテキスト内の前後２つの語と、現在の語の前後の文字と、前後２語間の共起頻度とを含む場合
（ｂ）現在のレベルは「０」でなく、特徴テンプレートが、レベル０で選択された特徴テンプレートと、直前の階層での第２のテキスト内の前後２つの語と、品詞間の共起頻度と語と品詞間の共起頻度を含む場合
に応じて特徴テンプレートを選択することにより、階層的およびノード的にＣＲＦモデルをトレーニングするステップを含むことを特徴とする付記１４に記載の品詞タグ付け方法。

（付記１６）
前記品詞タグ付けステップが、
タグ付け対象のテキストに対してＣＲＦモデルを適用するために、階層的およびノード的に特徴データを構築するＣＲＦモデル特徴構築ステップと、
前記ＣＲＦモデル特徴構築ステップによって構築される特徴データに従って、階層的およびノード的にタグ付け対象のテキストの品詞のタグ付けを行うＣＲＦ品詞タグ付けステップとを含むことを特徴とする付記１３に記載の品詞タグ付け方法。

（付記１７）
前記ＣＲＦモデル特徴構築ステップが、
（ａ）現在のレベルは０であり、特徴データが、ＣＲＦモデルのトレーニング中にレベル０で選択された特徴テンプレートに入力するために使用され、タグ付け対象のテキストから抽出される場合
（ｂ）現在のレベルが０でなく、レベル０で抽出された特徴データが使用され、また直前のレベルのＣＲＦモデルによってタグ付けされた第２のテキストから特徴データが抽出される場合
に応じてＣＲＦモデルについて特徴データを構築するステップを含むことを特徴とする付記１６に記載の品詞タグ付け方法。

（付記１８）
前記品詞タグトレーニング集合内のタグ付きテキストの品詞間の関連性を分析する品詞階層ツリー構築ステップをさらに有することを特徴とする付記１２に記載の品詞タグ付け方法。

（付記１９）
前記品詞階層ツリー構築ステップが、
品詞の特徴を表わす特徴テンプレートを選択する品詞特徴テンプレート選択ステップと、
選択した特徴テンプレートに従って品詞タグトレーニング集合内の品詞について特徴ベクトルを構築する特徴ベクトル構築ステップと、
前記特徴ベクトルを使用して品詞間の類似度を計算する類似度計算ステップと、
類似度に基づいて品詞をクラスタ化し、品詞階層ツリーを生成するクラスタ化ステップとを含むことを特徴とする付記１８に記載の品詞タグ付け方法。

（付記２０）
前記品詞タグトレーニング集合からテスト集合としてランダムにテキスト集合を選択するテスト集合構築ステップと、
前記品詞タグ付けモデルを使用して、テスト集合からタグ付けされたテキストの品詞タグ付けの結果を評価する評価ステップと、
評価結果に従って品詞階層ツリーを調整する調整ステップとをさらに有することを特徴とする付記１９に記載の品詞タグ付け方法。

（付記２１）
前記調整ステップが、前記品詞階層ツリー構築ステップによって品詞間の類似度を計算するのに使用するしきい値を調整するステップを含むことを特徴とする付記２０に記載の品詞タグ付け方法。

（付記２２）
品詞タグトレーニング集合から語構築ルールを学習し、未知語の品詞推測モデルを構築する未知語品詞推測モデル構築ステップと、
未知語の品詞推測モデルを使用して未知語の品詞をタグ付けし、品詞タグ付けモデルを使用してタグ付けされた未知語の品詞を訂正する未知語品詞訂正ステップとを有することを特徴とする付記１２又は付記１３に記載の品詞タグ付け方法。

（付記２３）
品詞タグ付けモデルのトレーニング装置であって、
品詞階層ツリーに基づいて、品詞タグトレーニング集合内の第１のタグ付きテキストを第２のテキストに階層毎およびノード毎にタグ付けすることにより、ＣＲＦモデルトレーニングコーパスを構築する、ＣＲＦモデルトレーニングコーパス構築ユニットと、
品詞タグ付けモデルを取得するために、ＣＲＦモデルトレーニングコーパス構築ユニットによってタグ付けされた第２のテキストを使用して、個々のＣＲＦモデルを階層毎およびノード毎にトレーニングするＣＲＦモデルトレーニングユニットと
を備えることを特徴とする品詞タグ付けモデルのトレーニング装置。

（付記２４）
品詞タグ付けモデルのトレーニング方法であって、
品詞階層ツリーに基づいて、品詞タグトレーニング集合内の第１のタグ付きテキストを第２のテキストに階層毎およびノード毎にタグ付けすることにより、ＣＲＦモデルトレーニングコーパスを構築するＣＲＦモデルトレーニングコーパス構築ステップと、
品詞タグ付けモデルを取得するために、ＣＲＦモデルトレーニングコーパス構築ユニットによってタグ付けされた第２のテキストを使用して、個々のＣＲＦモデルを階層毎およびノード毎にトレーニングするＣＲＦモデルトレーニングステップとを有することを特徴とする品詞タグ付けモデルのトレーニング方法。

１０：品詞タグトレーニング集合
１２：品詞タグ付けモデルトレーニング装置
１３：品詞タグ付けモデル
１４：品詞階層ツリー構築装置
１５：品詞階層ツリー
２２：品詞タグ付け装置
１４０：品詞特徴テンプレート選択ユニット
１４１：特徴ベクトル構築ユニット
１４２：類似度計算ユニット
１４３：クラスタ化ユニット
１２０：論理回路
１２１：ＣＲＦモデルトレーニングコーパス構築ユニット
１２２：ＣＲＦモデルトレーニングユニット
２２０：ＣＲＦモデル特徴構築ユニット
２２１：ＣＲＦ品詞タグ付けユニット
２２２：論理回路
１６：評価装置
１７：調整装置
１８：テスト集合構築装置
１９：未知語品詞推測モデル構築装置
２０：未知語品詞推測モデル
２１：未知語品詞訂正装置

Claims

品詞タグ付けシステムであって、
多数のタグ付きテキストを含む品詞タグトレーニング集合内のタグ付きテキストの品詞間の関連性を分析し、当該関連性に基づいて前記品詞をツリー構造として階層上に編成した品詞階層ツリーを生成する品詞階層ツリー構築手段を備える品詞階層ツリー構築装置と、
前記品詞階層ツリーのノード毎に、前記品詞階層ツリーに基づいて前記タグ付きテキストに含まれる品詞タグ付けラベルを再タグ付けし、再タグ付けした前記タグ付きテキストを用いてＣＲＦモデルをトレーニングして、品詞タグ付けモデルを生成する品詞タグ付けモデルトレーニング手段を備える品詞タグ付けモデルトレーニング装置と、
前記品詞タグ付けモデルに基づいて、トレーニング済みの前記ＣＲＦモデルを使用してタグ付け対象のテキストの品詞にタグ付けする品詞タグ付け手段を備える品詞タグ付け装置とを備え、
前記品詞タグ付けモデルは、トレーニング済みの各ＣＲＦモデルを前記品詞階層ツリーの各ノードに対応させて階層化した構造のデータである
ことを特徴とする品詞タグ付けシステム。
前記品詞タグ付けモデルトレーニング手段が、
前記品詞階層ツリーのノードに対し、前記タグ付きテキストに含まれる品詞タグ付けラベルを、当該品詞タグ付けラベルに対応する現在のノードの各サブノード名に再タグ付けすることにより、ＣＲＦモデルトレーニングコーパスを構築するＣＲＦモデルトレーニングコーパス構築手段と、
前記ＣＲＦモデルトレーニングコーパス構築手段によって再タグ付けされたタグ付きテキストを用いてＣＲＦモデルをトレーニングするＣＲＦモデルトレーニング手段と、
前記ＣＲＦモデルトレーニングコーパス構築手段及びＣＲＦモデルトレーニング手段の処理を、前記品質階層ツリーの上位階層から順に全ての階層の全てのノードについて繰り返し、前記品詞タグ付けモデルを生成する制御手段と
を含むことを特徴とする請求項１に記載の品詞タグ付けシステム。
前記品詞タグ付け手段が、
前記タグ付け対象のテキストに基づいて、ＣＲＦモデル用の特徴データを構築するＣＲＦモデル特徴構築手段と、
前記特徴データに基づき、前記トレーニング済みのＣＲＦモデルを利用して前記タグ付け対象のテキストの品詞にタグ付けを行うＣＲＦ品詞タグ付け手段と、
前記ＣＲＦモデル特徴構築手段及びＣＲＦ品詞タグ付け手段の処理を、前記品詞タグ付けモデルの上位階層の前記トレーニング済みのＣＲＦモデルから順に、すべての階層の全ての前記トレーニング済みのＣＲＦモデルについて繰り返す制御手段と
を含むことを特徴とする請求項２に記載の品詞タグ付けシステム。
前記品詞タグトレーニング集合から語構築ルールを学習し、未知語の品詞推測モデルを構築する未知語品詞推測モデル構築手段を備える未知語品詞推測モデル構築装置と、
未知語の品詞推測モデルを使用して未知語の品詞をタグ付けし、前記品詞タグ付けモデルを使用してタグ付けされた未知語の品詞を訂正する未知語品詞訂正手段を備える未知語品詞訂正装置と
を備えることを特徴とする請求項１又は請求項２に記載の品詞タグ付けシステム。
前記品詞階層ツリー構築手段が、
品詞の特徴を表わす特徴テンプレートを選択する品詞特徴テンプレート選択手段と、
選択した特徴テンプレートに基づいて前記品詞タグトレーニング集合内の品詞について特徴ベクトルを構築する特徴ベクトル構築手段と、
前記特徴ベクトルを使用して品詞間の類似度を計算する類似度計算手段と、
前記類似度に基づいて品詞をクラスタ化し、前記品詞階層ツリーを生成するクラスタ化手段と
を含むことを特徴とする請求項１に記載の品詞タグ付けシステム。
品詞階層ツリー構築装置と、品詞タグ付けモデルトレーニング装置と、品詞タグ付け装置とを備える品詞タグ付けシステムによる品詞タグ付け方法であって、
前記品詞階層ツリー構築装置が備える品詞階層ツリー構築手段が、多数のタグ付きテキストを含む品詞タグトレーニング集合内のタグ付きテキストの品詞間の関連性を分析し、当該関連性に基づいて前記品詞をツリー構造として階層上に編成した品詞階層ツリーを生成する品詞階層ツリー構築ステップと、
前記品詞タグ付けモデルトレーニング装置が備える品詞タグ付けモデルトレーニング手段が、前記品詞階層ツリーのノード毎に、前記品詞階層ツリーに基づいて前記タグ付きテキストに含まれる品詞タグ付けラベルを再タグ付けし、再タグ付けした前記タグ付きテキストを用いてＣＲＦモデルをトレーニングして、品詞タグ付けモデルを生成する品詞タグ付けモデルトレーニングステップと、
前記品詞タグ付け装置が備える品詞タグ付け手段が、前記品詞タグ付けモデルに基づいて、トレーニング済みの前記ＣＲＦモデルを使用してタグ付け対象のテキストの品詞にタグ付けする品詞タグ付けステップとを有し、
前記品詞タグ付けモデルは、トレーニング済みの各ＣＲＦモデルを前記品詞階層ツリーの各ノードに対応させて階層化した構造のデータである
ことを特徴とする品詞タグ付け方法。
前記品詞タグ付けモデルトレーニングステップが、
前記品詞階層ツリーのノードに対し、前記タグ付きテキストに含まれる品詞タグ付けラベルを、当該品詞タグ付けラベルに対応する現在のノードの各サブノード名に再タグ付けすることにより、ＣＲＦモデルトレーニングコーパスを構築するＣＲＦモデルトレーニングコーパス構築ステップと、
前記ＣＲＦモデルトレーニングコーパス構築ステップによって再タグ付けされたタグ付きテキストを用いてＣＲＦモデルをトレーニングするＣＲＦモデルトレーニングステップと、
前記ＣＲＦモデルトレーニングコーパス構築ステップ及びＣＲＦモデルトレーニングステップの処理を、前記品質階層ツリーの上位階層から順に全ての階層の全てのノードについて繰り返し、前記品詞タグ付けモデルを生成する制御ステップと
を含むことを特徴とする請求項６に記載の品詞タグ付け方法。
前記品詞タグ付けステップが、
前記タグ付け対象のテキストに基づいて、ＣＲＦモデル用の特徴データを構築するＣＲＦモデル特徴構築ステップと、
前記特徴データに基づき、前記トレーニング済みのＣＲＦモデルを利用して前記タグ付け対象のテキストの品詞にタグ付けを行うＣＲＦ品詞タグ付けステップと、
前記ＣＲＦモデル特徴構築ステップ及びＣＲＦ品詞タグ付けステップの処理を、前記品詞タグ付けモデルの上位階層の前記トレーニング済みのＣＲＦモデルから順に、すべての階層の全ての前記トレーニング済みのＣＲＦモデルについて繰り返す制御ステップと
を含むことを特徴とする請求項７に記載の品詞タグ付け方法。
品詞階層ツリー構築装置と、品詞タグ付けモデルトレーニング装置と、品詞タグ付け装置と、未知語品詞推測モデル構築装置と、未知語品詞訂正装置とを備える品詞タグ付けシステムによる品詞タグ付け方法であって、
未知語品詞推測モデル構築装置が備える未知語品詞推測モデル構築手段が、前記品詞タグトレーニング集合から語構築ルールを学習し、未知語の品詞推測モデルを構築する未知語品詞推測モデル構築ステップと、
前記未知語品詞訂正装置が備える未知語品詞訂正手段が、未知語の品詞推測モデルを使用して未知語の品詞をタグ付けし、前記品詞タグ付けモデルを使用してタグ付けされた未知語の品詞を訂正する未知語品詞訂正ステップと
を有することを特徴とする請求項６又は請求項７に記載の品詞タグ付け方法。
前記品詞階層ツリー構築ステップが、
品詞の特徴を表わす特徴テンプレートを選択する品詞特徴テンプレート選択ステップと、
選択した特徴テンプレートに基づいて前記品詞タグトレーニング集合内の品詞について特徴ベクトルを構築する特徴ベクトル構築ステップと、
前記特徴ベクトルを使用して品詞間の類似度を計算する類似度計算ステップと、
前記類似度に基づいて品詞をクラスタ化し、前記品詞階層ツリーを生成するクラスタ化ステップと
を含むことを特徴とする請求項６に記載の品詞タグ付け方法。