JP2007157058A

JP2007157058A - 分類モデル学習装置、分類モデル学習方法、及び分類モデルを学習するためのプログラム

Info

Publication number: JP2007157058A
Application number: JP2005354939A
Authority: JP
Inventors: Shigeaki Sakurai; 茂明櫻井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-12-08
Filing date: 2005-12-08
Publication date: 2007-06-21
Also published as: US20070136220A1

Abstract

【課題】生成した学習事例の中から適切な学習事例を選別し、イベントを含んでいるかどうかを精度よく識別するための分類モデルを学習する技術を提供すること。
【解決手段】テキストと特定のイベントの有無情報とをそれぞれ有する複数の学習テキストに基づいて、前記特定のイベントの有無を判定したいテキストから前記特定のイベントを抽出するための分類モデルを学習する分類モデル学習装置において、前記特定のイベントの有無を判定するためのイベント関連表現を前記複数の学習テキストのそれぞれの学習テキストに適用して、前記学習テキストにおける特定のイベントの有無を判定するイベント関連表現判定部（３０）と、前記イベント関連表現判定部によって判定された前記特定のイベントの有無に従って学習テキストを抽出する学習テキスト抽出部（４０）と、前記学習テキスト抽出部によって抽出された学習テキストに基づいて分類モデルを学習する分類モデル学習部（５０）と、を備えた。
【選択図】図１

Description

本発明は、コンピュータ上に蓄積されるテキストデータに特定の内容を示すイベントが記述されているかどうかを判定する分類モデルを学習する技術に関する。更に、本発明は、学習した分類モデルを使用して、新たなテキストに当該イベントが記載されているかどうかを自動的に判断するテキスト分析を簡便に行う技術に関する。ここで、テキストデータとは、例えば、Ｗｅｂの掲示板サイトに記載される書き込み、小売り分野における業務報告を記載した日報、企業のカスタマーセンターに送られてくる電子メール等をいう。

学習事例を収集し、選別する技術として、非特許文献１に記載されている技術が知られている。本技術では、イベントを含んでいる学習事例をそのまま利用する一方、イベントを含んでいない多数の学習事例から類似した学習事例を取り除くことによって、学習事例の選別を行っている。本技術では、イベントを含んでいない学習事例の中からランダムに最初の一個の学習事例を選んで、学習事例として残すかどうかの判定を行っている。このため、最初に選択した学習事例に依存して最終的に取り除かれる学習事例に違いが生じることになるので、必ずしも適切なイベントを含まない学習事例を残すことはできない。加えて、学習事例間の類似性を判定するのに、各学習事例間の距離を測る必要があるため、学習事例を構成する属性の数が多かったり、学習事例の数が多かったりする場合には、イベントを含んでいない学習事例を残すかどうかを判定するのに多くの時間が必要になる。

また、特許文献１は、学習事例の集合の中から推論規則を生成して、評価事例に対応する分類クラスを推論する技術を開示している。このとき、評価事例の推論結果が正しいかどうかを利用者に問い合わせることにより学習事例を収集している。本技術では、学習事例を生成する基になる評価事例を推論規則に与えることにより、各分類クラスに対してバランスの良い学習事例を収集できる可能性がある。しかしながら、評価事例の選択方法に関しては特に指定されておらず、必ずしも適切な学習事例を生成することはできない。加えて、利用者とのインタラクションを通して学習事例を生成しなければならないため、利用者の負荷は非常に高い。
特開２００２−２２２０８３号公報 "Addressing the Curse of Imbalanced Training Sets: One-Sided Selection", Proc. of 14th International Conference on Machine Learning, 179-186, 1997, Miroslav Kubat and Stan Matwin

テキストを評価して特定のイベントの記載の有無を推論する問題において、収集したテキストとそのテキストに対して与えられているイベントの記載の有無を示す分類クラスからなる学習テキストの中からイベントの識別にとって重要な学習テキストの選別を行う。この選別された学習テキストを利用することにより、稀にしか発生しないイベントであっても、精度よく識別する分類モデルを学習する。この学習した分類モデルを利用することにより、新たなテキストが与えられた場合に、そのテキストに対応する分類クラスを推論する。

テキストに特定のイベントが含まれているかどうかを判定する分類モデルを機械学習する場合、イベントが含まれているテキストとイベントが含まれていないテキストとをバランスよく収集して学習事例を構成する必要がある。しかしながら、単にテキストを収集した場合には、イベントを含んでいるテキストの数に比べて、イベントを含んでいないテキストの数の方が圧倒的に多くなる傾向にあるため、イベントを含んでいないテキストに偏ったバランスの悪い学習事例が生成される。このようなバランスの悪い学習事例からは、過度にイベントを含んでいないと識別する傾向にある偏った分類モデルを学習する危険性が高くなる。このため、生成した学習事例の中から適切な学習事例を選別し、イベントを含んでいるかどうかを精度よく識別する分類モデルを学習することが必要とされていた。

本発明では、生成した学習事例の中から適切な学習事例を選別し、イベントを含んでいるかどうかを精度よく識別するための分類モデルを学習する技術を提供することを目的とする。

本発明の局面に係る発明は、テキストと特定のイベントの有無情報とをそれぞれ有する複数の学習テキストに基づいて、前記特定のイベントの有無を判定したいテキストから前記特定のイベントを抽出するための分類モデルを学習する分類モデル学習装置において、前記特定のイベントの有無を判定するためのイベント関連表現を前記複数の学習テキストのそれぞれの学習テキストに適用して、前記学習テキストにおける特定のイベントの有無を判定するイベント関連表現判定部と、前記イベント関連表現判定部によって判定された前記特定のイベントの有無に従って学習テキストを抽出する学習テキスト抽出部と、前記学習テキスト抽出部によって抽出された学習テキストに基づいて分類モデルを学習する分類モデル学習部と、を具備することを特徴とする。なお、本発明は、装置に限らず、装置によって実現される方法やプログラムの発明としても成立する。

本発明によれば、生成した学習事例の中から適切な学習事例を選別し、イベントを含んでいるかどうかを精度よく識別するための分類モデルを学習することができる。

図面を参照して本発明の実施の形態を説明する。
図１は、本発明の一実施形態に係る分類モデル学習装置の構成例を示す図である。
本発明の一実施形態に係る分類モデル学習装置は、テキストと特定のイベントの有無情報とをそれぞれ有する複数の学習テキストを含み前記特定のイベントを抽出するための分類モデルの学習用に供される学習テキストの集合を用いてこの分類モデルを学習し、新たなテキストに対して学習済みの分類モデルを使用してイベントの有無を判定するものであって、学習テキスト格納部１０と、イベント関連表現格納部２０と、イベント関連表現判定部３０と、学習テキスト抽出部４０と、分類モデル学習部５０と、分類モデル格納部６０と、評価テキスト格納部７０と、モデルイベント判定部８０とを備えている。

学習テキスト格納部１０は、テキストと特定のイベントの有無を組にした学習テキストの集合を格納する。イベント関連表現格納部２０は、イベントに関連した表現の集合を格納する。イベント関連表現判定部３０は、イベント表現格納部２０に格納されている表現の集合を学習テキストの集合に含まれる各テキストに適用して各テキストにおける特定のイベントの有無を判定する。学習テキスト抽出部４０は、イベント関連表現判定部３０によるテキストの判定結果と組になっている特定のイベントの有無に基づいて学習テキストの集合の中から一部の学習テキストの集合を抽出する。分類モデル学習部５０は、学習テキスト抽出部によって抽出された学習テキスト部分集合に基づいて分類モデルを学習する。分類モデル格納部６０は、分類モデル学習部５０によって学習された分類モデルを格納する。評価テキスト格納部７０は、イベントの有無を判定したいテキストを格納する。モデルイベント判定部８０は、評価テキスト格納部７０に格納されているテキストを分類モデル格納部６０に格納されている分類モデルに適用してイベントの有無を判定する。

なお、上記の構成において、本発明に係る分類モデル学習装置は、汎用コンピュータ（例えば、パーソナルコンピュータ）などで実現可能であって、イベント関連表現判定部３０と、学習テキスト抽出部４０と、分類モデル学習部５０と、モデルイベント判定部８０は、それぞれ上記の機能を実現するためのプログラム（プログラムモジュールでも良い）で構成可能である。また、上記の機能を実現するためのハードウェア（例えば、チップ）で構成しても良いし、各部がネットワークで接続されることによって実現されても良い。更に、学習テキスト格納部１０と、イベント関連表現格納部２０と、分類モデル格納部６０と、評価テキスト格納部７０は、汎用コンピュータであれば、例えば、磁気記憶装置や光記憶装置などの外部記憶装置であっても良いし、通信回線を介して接続されたサーバであっても良い。

上記のように構成された分類モデル学習装置の動作を、図２を参照して説明する。図２は、本実施形態に係る分類モデル学習装置の処理の流れを示すフローチャートである。本発明の一実施形態に係る分類モデル学習装置は、図２のフローチャートに記載の処理に従うことにより、イベントの記載の有無が付与された学習テキストの集合からテキストが特定のイベントを含んでいるかどうかを判定する分類モデルを学習する。更に、本発明の一実施形態に係る分類モデル学習装置によれば、学習した分類モデルに従って、新たなテキストが与えられた場合に、イベントの記載の有無を推論することができる。

まず、イベント関連表現判定部３０が、イベント関連表現格納部２０からイベント関連表現（単語）の読み込みを行う(ステップＳ１)。ここで、「イベント関連表現」とは、テキストに特定のイベントが存在するかどうかを判定する際に利用されるキーワードやキーフレーズを意味する。例えば、テキストが「不満」といったイベントを含むかどうかを判定する場合には、図３に示すようなキーワードがイベント関連表現としてイベント関連表現格納部２０に格納されている。図３は、イベント関連表現格納部２０に格納されているイベント関連表現の例であって、イベント関連表現ＩＤとイベント関連表現とが対で登録されている。例えば、イベント関連表現ＩＤ「ＥＶ１」とイベント関連表現「不満」、イベント関連表現ＩＤ「ＥＶ２」とイベント関連表現「問題」などが対で登録されている。

次に、イベント関連表現判定部３０は、学習テキスト格納部１０からイベントの記載の有無が付与された学習テキストを読み込む(ステップＳ２)。学習テキストへのイベントの記載の有無は、通常、利用者が学習テキストを読み、イベントを付与するかどうかによって判定されて、イベントの記載の有無が付与された学習テキストが生成される。このとき、イベントを含んでいる学習テキストの数は、イベントを含んでいない学習テキストの数に比べて少なくなるため、学習テキストの大部分はイベントを含んでいない学習テキストになる。ここで、イベント「不満」を含んでいる学習テキストの例を図４に示し、イベント「不満」を含んでいない学習テキストの例を図５に示す。

そして、イベント関連表現判定部３０は、読み込んだ学習テキストからイベントを含んでいない学習テキストをひとつ取り出し（ステップＳ３）、取り出す学習テキストが存在する場合には、イベント関連表現判定部３０が、読み込んだイベント関連表現を参照することにより、取り出した学習テキストにイベント関連表現が含まれているかどうかを判定する（ステップＳ４）。この場合において、例えば、図５に示す例では、全て不満なしの内容が学習テキストとして提示されているが、これらの学習テキストを図３に示すイベント関連表現に適用した場合には、例えば、Ｎ１には、「文句」というキーワードが含まれているので、イベント関連表現が含まれていると判定される。一方、学習テキストＮ２には、イベント関連表現が含まれていないと判定される。ステップＳ４において、イベント関連表現判定部３０により学習テキストにイベント関連表現が含まれると判定された場合には、学習テキスト抽出部４０がイベントを含んでいると判定された学習テキストの抽出を行う（ステップＳ５）。ここでは、例えば、図５の「不満」イベントを含んでいない学習テキストの集合からは、図６に示す学習テキストの集合が抽出される。

ステップＳ４において、イベント関連表現判定部３０により学習テキストにイベント関連表現が含まれていないと判定された場合には、ステップＳ３にもどる。そして、ステップＳ３において、取り出す学習テキストが存在しない場合には、分類モデル学習部５０が学習テキスト抽出部４０から抽出されたイベントを含まない学習テキストとイベントを含んでいる学習テキストから、テキストマイニング法を利用することにより木構造の形式の分類モデルを学習する（ステップＳ６）。なお、テキストマイニング法は、例えば、参考文献"Acquisition of a Knowledge Dictionary from Training Examples including Multiple Values", Proc. of 13th International Symposium, ISMIS 2002, 103-113, 2002, Shigeaki Sakurai, Yumi Ichimura, and Akihiro Suyamaに記載されている。

ここで、分類モデル学習部５０は、次のように学習を行う。学習テキストのテキスト部分を形態素解析することにより単語の集合に分解する。そして、すべての学習テキストから収集されたキーワード及びキーフレーズに対して、その頻度に基づいて評価値を計算する。この評価値が指定したしきい値以上となるキーワード及びキーフレーズの集合を学習テキストの集合を特徴付ける属性ベクトルとする。各学習テキストに対して、属性ベクトルの各属性に対応するキーワード及びキーフレーズが出現するかどうかの判定を行うことにより、学習テキストに対応する属性ベクトルの値を決定する。この属性ベクトルとイベントの記載の有無を示す分類クラスを組にして学習事例を生成する。この学習事例の集合から木構造の分類モデルを学習する。

例えば、図４と図６の学習テキストから分類モデルを学習することを考えた場合、形態素解析を実施してその評価値を計算することにより、図７の一行目に示すキーワードの列「文句」、「問題」、・・・、「良い」が属性ベクトルを構成する属性として選択される。各学習テキストは各キーワードの有無を判定することにより、その属性ベクトルの値を決定する。これにより、図７に示す学習事例が生成される。なお、図７の学習事例においては、キーワードがテキストに存在する場合を「○」、存在しない場合を「×」として表現している。この学習事例を入力とすることにより、木構造の分類モデルを学習する。

このようにイベントを含まない学習テキストの中からイベント関連表現を含まない学習テキストを除去することにより、すべての学習テキストを利用した場合には、ノイズとみなされがちな学習事例を反映した分類モデルを学習することができる。
分類モデルの学習例を図８及び図９に示す。図８及び図９の分類モデルにおいて、白抜きのノード（分岐ノード）には属性、網掛けのノード（末端ノード）には分類クラスが割当てられている。また、分岐ノードから下位に伸びる各枝には、当該分岐ノードの属性に対応するキーワード及びキーフレーズの有無を示す属性の値が割当てられているものとする。

図８（ａ）に示す分類モデルの部分を考えた場合、「文句」という表現がある場合に、分類クラス「不満なし」が割り当てられた学習事例となっている。この場合において、この「不満無し」に対応する学習事例には、少数の「不満有り」をラベル付けされた学習事例が存在するが、すべての学習テキストを対象とした場合には、「不満有り」とラベル付けされた学習事例がノイズとみなされる場合がある。しかし、イベント関連表現を含む学習テキストのみを抽出して分類モデルを学習して、冗長な「不満無し」に対応する学習事例を取り除くことにより、「不満有り」に対応する学習事例の割合が高まるため、ノイズとみなされなくなる。従って、図８（ｂ）に示す分類モデルの部分のように、新たな属性「ない」を用いてより詳細に分解された分類モデルが生成される。また、すべての学習事例を分類モデルの学習に利用した場合に比べて、本実施形態によれば、イベント関連表現に関連するキーワードの割合が相対的に高くなるので、イベント関連表現に関連するキーワードが分類モデルを構成する属性として選択されやすくなる。すなわち、図９（ａ）に示す分類モデルに代わって、図９（ｂ）に示す分類モデルが生成されるようになる。

分類モデル学習部５０は、上記のようにして学習された分類モデルを分類モデル格納部６０に格納する（ステップＳ７）。
以上のステップにより、分類モデルの学習が終了する。次に、学習後の分類モデルを使用して、ステップＳ８からステップＳ１０でテキストの評価を行う。

モデルイベント判定部８０が評価テキスト格納部７０に格納されている評価テキストの読み込みを行う（ステップＳ８）。例えば、評価テキストとして、図１０に示すテキストが与えられているものとする。図１０に示すように、評価テキストにはイベントの記載の有無を示す分類クラスは与えられていない。

モデルイベント判定部８０が読み込んだ評価テキストの中から評価テキストをひとつ取り出す（ステップＳ９）。このとき、取り出す評価テキストが無ければ処理を終了し、取り出す評価テキストがある場合には、モデルイベント判定部８０は、評価テキストに対してモデルイベントを判定する（ステップＳ１０）。
具体的には、モデルイベント判定部８０は、まず、取り出された評価テキストに対して形態素解析を実施し、分類モデル学習部５０によって決定された属性ベクトルの各属性に対応するキーワードを含むかどうかを判定する。この判定結果に基づいて、モデルイベント判定部８０は、図１０に示すような評価テキストに対して例えば図１１に示すような評価事例を生成する。この評価事例を学習済みの分類モデルに適用することにより、評価テキストに対してイベントの付与を行うかどうかの判定を行い、図１２に示すような分類クラスを評価テキストの分類クラスとして出力する。このように図１１に示すような評価事例を分類モデルに適用することにより、図１２に示す分類クラスが各評価テキストに対して推論される。
このようにして、本実施形態によれば、選別された学習テキストから分類モデルを学習して、評価テキストに対応する分類クラスを精度よく推論することができる。

本実施形態に係る分類モデル学習装置は、上記の実施形態に限定するものではない。例えば、イベント関連表現格納部２０に格納されるキーワードあるいはキーフレーズは、その品詞情報を付与して与えることもできる。このとき、テキストに対して実施される形態素解析においても、品詞情報を付与した単語の分解が行われる。
また、分類モデル学習部５０で選択される属性ベクトルを構成するキーワード及びキーフレーズとして、頻度に基づいて計算される評価値に加えて、特定の品詞の並びを持つキーワード及びキーフレーズだけを選択するようにしてもよい。
また、分類モデル学習部５０における分類モデルとして、木構造の分類モデルを学習するテキストマイニング法を利用したが、例えば、ＳＶＭ（「複数意見を含むテキストデータからの重要語の抽出」，第２３回ファジィワークショップ論文集，４９−５２，２００４，櫻井茂明，ＣｈｏｎｇＧｏｈ，折原良平参照）に基づいたテキストマイニング法を利用することにより、超平面で記述された分類モデルを学習することもできる。

上記のように、本発明の一実施形態によれば、イベントの存在に関連する表現の集合を指定して、関連する表現に類似する学習テキストを集めることにより、学習テキストの偏りを補正することができる。また、その表現と類似し、イベントを含んでいない学習テキストと、その表現と類似し、稀なイベントを含んでいる学習テキストを判定する分類モデルを獲得することができる。これにより、稀なイベントを含んでいるテキストを精度良く抽出することができる。また、このようなイベントの存在に関連する表現の含意に基づいた判定は、各テキストに対して一度実施されるだけであり、学習テキストの選別を高速に行うことができる。加えて、学習テキストの数そのものも削減されるため、高速に分類モデルを学習することができる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の一実施形態に係る分類モデル学習装置の構成例を示す図である。本実施形態に係る分類モデル学習装置の処理の流れを示すフローチャートである。イベント関連表現格納部２０に格納されているイベント関連表現の一例を示す図である。学習テキスト格納部１０に格納されている不満を含んでいる学習テキストの一例を示す図である。学習テキスト格納部１０に格納されている不満を含んでいない学習テキストの一例を示す図である。学習テキスト抽出部４０によって抽出された不満を含んでいない学習テキストの一例を示す図である。分類モデル学習部５０が分類モデルを学習するのに利用する学習事例の一例を示す図である。本発明の一実施形態に係る分類モデル学習装置によって従来の分類モデルに代わって学習される、属性「文句」に関連した分類モデルの一例を示す図である。本発明の一実施形態に係る分類モデル学習装置によって従来の分類モデルに代わって学習される、属性「問題」に関連した分類モデルの一例を示す図である。評価テキスト格納部７０に格納されている評価テキストの一例を示す図である。評価テキストから生成される評価事例の一例を示す図である。評価テキストに対して推論された分類クラスの一例を示す図である。

符号の説明

１０…学習テキスト格納部
２０…イベント関連表現格納部
３０…イベント関連表現判定部
４０…学習テキスト抽出部
５０…分類モデル学習部
６０…分類モデル格納部
７０…評価テキスト格納部
８０…モデルイベント判定部

Claims

テキストと特定のイベントの有無情報とをそれぞれ有する複数の学習テキストに基づいて、前記特定のイベントの有無を判定したいテキストから前記特定のイベントを抽出するための分類モデルを学習する分類モデル学習装置において、
前記特定のイベントの有無を判定するためのイベント関連表現を前記複数の学習テキストのそれぞれの学習テキストに適用して、前記学習テキストにおける特定のイベントの有無を判定するイベント関連表現判定部と、
前記イベント関連表現判定部によって判定された前記特定のイベントの有無に従って学習テキストを抽出する学習テキスト抽出部と、
前記学習テキスト抽出部によって抽出された学習テキストに基づいて分類モデルを学習する分類モデル学習部と、を具備することを特徴とする分類モデル学習装置。
請求項１に記載の分類モデル学習装置において、前記分類モデル学習部によって学習された分類モデルを格納する分類モデル格納部を更に具備することを特徴とする分類モデル学習装置。
請求項１または請求項２に記載の分類モデル学習装置において、
前記テキストと前記特定のイベントの有無情報とそれぞれ有する複数の学習テキストを格納する学習テキスト格納部と、
前記学習テキストから特定のイベントを抽出するためのイベント関連表現を格納するイベント関連表現格納部と、を更に具備し、
前記イベント関連表現判定部は、前記学習テキスト格納部に格納された学習テキストの集合に含まれる複数の学習テキストのそれぞれに、前記イベント関連表現格納部に格納されたイベント関連表現を適用して、前記学習テキストにおける特定のイベントの有無を判定することを特徴とする分類モデル学習装置。
請求項１から請求項３のいずれか１項に記載の分類モデル学習装置において、イベントの有無を判定したいテキストを前記分類モデル学習部によって学習された分類モデルに適用して前記テキストにおけるイベントの有無を判定するモデルイベント判定部を更に具備することを特徴とする分類モデル学習装置。
請求項４に記載の分類モデル学習装置において、前記モデルイベント判定部によってイベントの有無を判定したい前記テキストを格納する評価テキスト格納部を更に具備することを特徴とする分類モデル学習装置。
請求項１から請求項５のいずれか１項に記載の分類モデル学習装置において、前記分類モデル学習部は、イベントを含まない学習テキストとイベントを含んでいる学習テキストから、テキストマイニング法を利用することにより木構造の形式の分類モデルを学習することを特徴とする分類モデル学習装置。
テキストと特定のイベントの有無情報とをそれぞれ有する複数の学習テキストに基づいて、前記特定のイベントの有無を判定したいテキストから前記特定のイベントを抽出するための分類モデルを学習する分類モデル学習方法において、
前記特定のイベントの有無を判定するためのイベント関連表現を前記複数の学習テキストのそれぞれの学習テキストに適用して、前記学習テキストにおける特定のイベントの有無を判定し、
前記イベント関連表現判定部によって判定された前記特定のイベントの有無に従って学習テキストを抽出し、
前記抽出された学習テキストに基づいて分類モデルを学習することを具備することを特徴とする分類モデル学習方法。
テキストと特定のイベントの有無情報とをそれぞれ有する複数の学習テキストに基づいて、前記特定のイベントの有無を判定したいテキストから前記特定のイベントを抽出するための分類モデルを学習するためのプログラムにおいて、
前記特定のイベントの有無を判定するためのイベント関連表現を前記複数の学習テキストのそれぞれの学習テキストに適用して、前記学習テキストにおける特定のイベントの有無を判定する手段と、
前記イベント関連表現判定部によって判定された前記特定のイベントの有無に従って学習テキストを抽出する手段と、
前記抽出された学習テキストに基づいて分類モデルを学習する手段と、を具備することを特徴とするプログラム。