JP2007157058A - 分類モデル学習装置、分類モデル学習方法、及び分類モデルを学習するためのプログラム - Google Patents
分類モデル学習装置、分類モデル学習方法、及び分類モデルを学習するためのプログラム Download PDFInfo
- Publication number
- JP2007157058A JP2007157058A JP2005354939A JP2005354939A JP2007157058A JP 2007157058 A JP2007157058 A JP 2007157058A JP 2005354939 A JP2005354939 A JP 2005354939A JP 2005354939 A JP2005354939 A JP 2005354939A JP 2007157058 A JP2007157058 A JP 2007157058A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- text
- event
- classification model
- absence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 115
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000014509 gene expression Effects 0.000 claims abstract description 68
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 238000011156 evaluation Methods 0.000 claims description 37
- 238000005065 mining Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 230000000877 morphologic effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】生成した学習事例の中から適切な学習事例を選別し、イベントを含んでいるかどうかを精度よく識別するための分類モデルを学習する技術を提供すること。
【解決手段】テキストと特定のイベントの有無情報とをそれぞれ有する複数の学習テキストに基づいて、前記特定のイベントの有無を判定したいテキストから前記特定のイベントを抽出するための分類モデルを学習する分類モデル学習装置において、前記特定のイベントの有無を判定するためのイベント関連表現を前記複数の学習テキストのそれぞれの学習テキストに適用して、前記学習テキストにおける特定のイベントの有無を判定するイベント関連表現判定部(30)と、前記イベント関連表現判定部によって判定された前記特定のイベントの有無に従って学習テキストを抽出する学習テキスト抽出部(40)と、前記学習テキスト抽出部によって抽出された学習テキストに基づいて分類モデルを学習する分類モデル学習部(50)と、を備えた。
【選択図】図1
【解決手段】テキストと特定のイベントの有無情報とをそれぞれ有する複数の学習テキストに基づいて、前記特定のイベントの有無を判定したいテキストから前記特定のイベントを抽出するための分類モデルを学習する分類モデル学習装置において、前記特定のイベントの有無を判定するためのイベント関連表現を前記複数の学習テキストのそれぞれの学習テキストに適用して、前記学習テキストにおける特定のイベントの有無を判定するイベント関連表現判定部(30)と、前記イベント関連表現判定部によって判定された前記特定のイベントの有無に従って学習テキストを抽出する学習テキスト抽出部(40)と、前記学習テキスト抽出部によって抽出された学習テキストに基づいて分類モデルを学習する分類モデル学習部(50)と、を備えた。
【選択図】図1
Description
本発明は、コンピュータ上に蓄積されるテキストデータに特定の内容を示すイベントが記述されているかどうかを判定する分類モデルを学習する技術に関する。更に、本発明は、学習した分類モデルを使用して、新たなテキストに当該イベントが記載されているかどうかを自動的に判断するテキスト分析を簡便に行う技術に関する。ここで、テキストデータとは、例えば、Webの掲示板サイトに記載される書き込み、小売り分野における業務報告を記載した日報、企業のカスタマーセンターに送られてくる電子メール等をいう。
学習事例を収集し、選別する技術として、非特許文献1に記載されている技術が知られている。本技術では、イベントを含んでいる学習事例をそのまま利用する一方、イベントを含んでいない多数の学習事例から類似した学習事例を取り除くことによって、学習事例の選別を行っている。本技術では、イベントを含んでいない学習事例の中からランダムに最初の一個の学習事例を選んで、学習事例として残すかどうかの判定を行っている。このため、最初に選択した学習事例に依存して最終的に取り除かれる学習事例に違いが生じることになるので、必ずしも適切なイベントを含まない学習事例を残すことはできない。加えて、学習事例間の類似性を判定するのに、各学習事例間の距離を測る必要があるため、学習事例を構成する属性の数が多かったり、学習事例の数が多かったりする場合には、イベントを含んでいない学習事例を残すかどうかを判定するのに多くの時間が必要になる。
また、特許文献1は、学習事例の集合の中から推論規則を生成して、評価事例に対応する分類クラスを推論する技術を開示している。このとき、評価事例の推論結果が正しいかどうかを利用者に問い合わせることにより学習事例を収集している。本技術では、学習事例を生成する基になる評価事例を推論規則に与えることにより、各分類クラスに対してバランスの良い学習事例を収集できる可能性がある。しかしながら、評価事例の選択方法に関しては特に指定されておらず、必ずしも適切な学習事例を生成することはできない。加えて、利用者とのインタラクションを通して学習事例を生成しなければならないため、利用者の負荷は非常に高い。
特開2002−222083号公報
"Addressing the Curse of Imbalanced Training Sets: One-Sided Selection", Proc. of 14th International Conference on Machine Learning, 179-186, 1997, Miroslav Kubat and Stan Matwin
テキストを評価して特定のイベントの記載の有無を推論する問題において、収集したテキストとそのテキストに対して与えられているイベントの記載の有無を示す分類クラスからなる学習テキストの中からイベントの識別にとって重要な学習テキストの選別を行う。この選別された学習テキストを利用することにより、稀にしか発生しないイベントであっても、精度よく識別する分類モデルを学習する。この学習した分類モデルを利用することにより、新たなテキストが与えられた場合に、そのテキストに対応する分類クラスを推論する。
テキストに特定のイベントが含まれているかどうかを判定する分類モデルを機械学習する場合、イベントが含まれているテキストとイベントが含まれていないテキストとをバランスよく収集して学習事例を構成する必要がある。しかしながら、単にテキストを収集した場合には、イベントを含んでいるテキストの数に比べて、イベントを含んでいないテキストの数の方が圧倒的に多くなる傾向にあるため、イベントを含んでいないテキストに偏ったバランスの悪い学習事例が生成される。このようなバランスの悪い学習事例からは、過度にイベントを含んでいないと識別する傾向にある偏った分類モデルを学習する危険性が高くなる。このため、生成した学習事例の中から適切な学習事例を選別し、イベントを含んでいるかどうかを精度よく識別する分類モデルを学習することが必要とされていた。
本発明では、生成した学習事例の中から適切な学習事例を選別し、イベントを含んでいるかどうかを精度よく識別するための分類モデルを学習する技術を提供することを目的とする。
本発明の局面に係る発明は、テキストと特定のイベントの有無情報とをそれぞれ有する複数の学習テキストに基づいて、前記特定のイベントの有無を判定したいテキストから前記特定のイベントを抽出するための分類モデルを学習する分類モデル学習装置において、前記特定のイベントの有無を判定するためのイベント関連表現を前記複数の学習テキストのそれぞれの学習テキストに適用して、前記学習テキストにおける特定のイベントの有無を判定するイベント関連表現判定部と、前記イベント関連表現判定部によって判定された前記特定のイベントの有無に従って学習テキストを抽出する学習テキスト抽出部と、前記学習テキスト抽出部によって抽出された学習テキストに基づいて分類モデルを学習する分類モデル学習部と、を具備することを特徴とする。なお、本発明は、装置に限らず、装置によって実現される方法やプログラムの発明としても成立する。
本発明によれば、生成した学習事例の中から適切な学習事例を選別し、イベントを含んでいるかどうかを精度よく識別するための分類モデルを学習することができる。
図面を参照して本発明の実施の形態を説明する。
図1は、本発明の一実施形態に係る分類モデル学習装置の構成例を示す図である。
本発明の一実施形態に係る分類モデル学習装置は、テキストと特定のイベントの有無情報とをそれぞれ有する複数の学習テキストを含み前記特定のイベントを抽出するための分類モデルの学習用に供される学習テキストの集合を用いてこの分類モデルを学習し、新たなテキストに対して学習済みの分類モデルを使用してイベントの有無を判定するものであって、学習テキスト格納部10と、イベント関連表現格納部20と、イベント関連表現判定部30と、学習テキスト抽出部40と、分類モデル学習部50と、分類モデル格納部60と、評価テキスト格納部70と、モデルイベント判定部80とを備えている。
図1は、本発明の一実施形態に係る分類モデル学習装置の構成例を示す図である。
本発明の一実施形態に係る分類モデル学習装置は、テキストと特定のイベントの有無情報とをそれぞれ有する複数の学習テキストを含み前記特定のイベントを抽出するための分類モデルの学習用に供される学習テキストの集合を用いてこの分類モデルを学習し、新たなテキストに対して学習済みの分類モデルを使用してイベントの有無を判定するものであって、学習テキスト格納部10と、イベント関連表現格納部20と、イベント関連表現判定部30と、学習テキスト抽出部40と、分類モデル学習部50と、分類モデル格納部60と、評価テキスト格納部70と、モデルイベント判定部80とを備えている。
学習テキスト格納部10は、テキストと特定のイベントの有無を組にした学習テキストの集合を格納する。イベント関連表現格納部20は、イベントに関連した表現の集合を格納する。イベント関連表現判定部30は、イベント表現格納部20に格納されている表現の集合を学習テキストの集合に含まれる各テキストに適用して各テキストにおける特定のイベントの有無を判定する。学習テキスト抽出部40は、イベント関連表現判定部30によるテキストの判定結果と組になっている特定のイベントの有無に基づいて学習テキストの集合の中から一部の学習テキストの集合を抽出する。分類モデル学習部50は、学習テキスト抽出部によって抽出された学習テキスト部分集合に基づいて分類モデルを学習する。分類モデル格納部60は、分類モデル学習部50によって学習された分類モデルを格納する。評価テキスト格納部70は、イベントの有無を判定したいテキストを格納する。モデルイベント判定部80は、評価テキスト格納部70に格納されているテキストを分類モデル格納部60に格納されている分類モデルに適用してイベントの有無を判定する。
なお、上記の構成において、本発明に係る分類モデル学習装置は、汎用コンピュータ(例えば、パーソナルコンピュータ)などで実現可能であって、イベント関連表現判定部30と、学習テキスト抽出部40と、分類モデル学習部50と、モデルイベント判定部80は、それぞれ上記の機能を実現するためのプログラム(プログラムモジュールでも良い)で構成可能である。また、上記の機能を実現するためのハードウェア(例えば、チップ)で構成しても良いし、各部がネットワークで接続されることによって実現されても良い。更に、学習テキスト格納部10と、イベント関連表現格納部20と、分類モデル格納部60と、評価テキスト格納部70は、汎用コンピュータであれば、例えば、磁気記憶装置や光記憶装置などの外部記憶装置であっても良いし、通信回線を介して接続されたサーバであっても良い。
上記のように構成された分類モデル学習装置の動作を、図2を参照して説明する。図2は、本実施形態に係る分類モデル学習装置の処理の流れを示すフローチャートである。本発明の一実施形態に係る分類モデル学習装置は、図2のフローチャートに記載の処理に従うことにより、イベントの記載の有無が付与された学習テキストの集合からテキストが特定のイベントを含んでいるかどうかを判定する分類モデルを学習する。更に、本発明の一実施形態に係る分類モデル学習装置によれば、学習した分類モデルに従って、新たなテキストが与えられた場合に、イベントの記載の有無を推論することができる。
まず、イベント関連表現判定部30が、イベント関連表現格納部20からイベント関連表現(単語)の読み込みを行う(ステップS1)。ここで、「イベント関連表現」とは、テキストに特定のイベントが存在するかどうかを判定する際に利用されるキーワードやキーフレーズを意味する。例えば、テキストが「不満」といったイベントを含むかどうかを判定する場合には、図3に示すようなキーワードがイベント関連表現としてイベント関連表現格納部20に格納されている。図3は、イベント関連表現格納部20に格納されているイベント関連表現の例であって、イベント関連表現IDとイベント関連表現とが対で登録されている。例えば、イベント関連表現ID「EV1」とイベント関連表現「不満」、イベント関連表現ID「EV2」とイベント関連表現「問題」などが対で登録されている。
次に、イベント関連表現判定部30は、学習テキスト格納部10からイベントの記載の有無が付与された学習テキストを読み込む(ステップS2)。学習テキストへのイベントの記載の有無は、通常、利用者が学習テキストを読み、イベントを付与するかどうかによって判定されて、イベントの記載の有無が付与された学習テキストが生成される。このとき、イベントを含んでいる学習テキストの数は、イベントを含んでいない学習テキストの数に比べて少なくなるため、学習テキストの大部分はイベントを含んでいない学習テキストになる。ここで、イベント「不満」を含んでいる学習テキストの例を図4に示し、イベント「不満」を含んでいない学習テキストの例を図5に示す。
そして、イベント関連表現判定部30は、読み込んだ学習テキストからイベントを含んでいない学習テキストをひとつ取り出し(ステップS3)、取り出す学習テキストが存在する場合には、イベント関連表現判定部30が、読み込んだイベント関連表現を参照することにより、取り出した学習テキストにイベント関連表現が含まれているかどうかを判定する(ステップS4)。この場合において、例えば、図5に示す例では、全て不満なしの内容が学習テキストとして提示されているが、これらの学習テキストを図3に示すイベント関連表現に適用した場合には、例えば、N1には、「文句」というキーワードが含まれているので、イベント関連表現が含まれていると判定される。一方、学習テキストN2には、イベント関連表現が含まれていないと判定される。ステップS4において、イベント関連表現判定部30により学習テキストにイベント関連表現が含まれると判定された場合には、学習テキスト抽出部40がイベントを含んでいると判定された学習テキストの抽出を行う(ステップS5)。ここでは、例えば、図5の「不満」イベントを含んでいない学習テキストの集合からは、図6に示す学習テキストの集合が抽出される。
ステップS4において、イベント関連表現判定部30により学習テキストにイベント関連表現が含まれていないと判定された場合には、ステップS3にもどる。そして、ステップS3において、取り出す学習テキストが存在しない場合には、分類モデル学習部50が学習テキスト抽出部40から抽出されたイベントを含まない学習テキストとイベントを含んでいる学習テキストから、テキストマイニング法を利用することにより木構造の形式の分類モデルを学習する(ステップS6)。なお、テキストマイニング法は、例えば、参考文献"Acquisition of a Knowledge Dictionary from Training Examples including Multiple Values", Proc. of 13th International Symposium, ISMIS 2002, 103-113, 2002, Shigeaki Sakurai, Yumi Ichimura, and Akihiro Suyamaに記載されている。
ここで、分類モデル学習部50は、次のように学習を行う。学習テキストのテキスト部分を形態素解析することにより単語の集合に分解する。そして、すべての学習テキストから収集されたキーワード及びキーフレーズに対して、その頻度に基づいて評価値を計算する。この評価値が指定したしきい値以上となるキーワード及びキーフレーズの集合を学習テキストの集合を特徴付ける属性ベクトルとする。各学習テキストに対して、属性ベクトルの各属性に対応するキーワード及びキーフレーズが出現するかどうかの判定を行うことにより、学習テキストに対応する属性ベクトルの値を決定する。この属性ベクトルとイベントの記載の有無を示す分類クラスを組にして学習事例を生成する。この学習事例の集合から木構造の分類モデルを学習する。
例えば、図4と図6の学習テキストから分類モデルを学習することを考えた場合、形態素解析を実施してその評価値を計算することにより、図7の一行目に示すキーワードの列「文句」、「問題」、・・・、「良い」が属性ベクトルを構成する属性として選択される。各学習テキストは各キーワードの有無を判定することにより、その属性ベクトルの値を決定する。これにより、図7に示す学習事例が生成される。なお、図7の学習事例においては、キーワードがテキストに存在する場合を「○」、存在しない場合を「×」として表現している。この学習事例を入力とすることにより、木構造の分類モデルを学習する。
このようにイベントを含まない学習テキストの中からイベント関連表現を含まない学習テキストを除去することにより、すべての学習テキストを利用した場合には、ノイズとみなされがちな学習事例を反映した分類モデルを学習することができる。
分類モデルの学習例を図8及び図9に示す。図8及び図9の分類モデルにおいて、白抜きのノード(分岐ノード)には属性、網掛けのノード(末端ノード)には分類クラスが割当てられている。また、分岐ノードから下位に伸びる各枝には、当該分岐ノードの属性に対応するキーワード及びキーフレーズの有無を示す属性の値が割当てられているものとする。
分類モデルの学習例を図8及び図9に示す。図8及び図9の分類モデルにおいて、白抜きのノード(分岐ノード)には属性、網掛けのノード(末端ノード)には分類クラスが割当てられている。また、分岐ノードから下位に伸びる各枝には、当該分岐ノードの属性に対応するキーワード及びキーフレーズの有無を示す属性の値が割当てられているものとする。
図8(a)に示す分類モデルの部分を考えた場合、「文句」という表現がある場合に、分類クラス「不満なし」が割り当てられた学習事例となっている。この場合において、この「不満無し」に対応する学習事例には、少数の「不満有り」をラベル付けされた学習事例が存在するが、すべての学習テキストを対象とした場合には、「不満有り」とラベル付けされた学習事例がノイズとみなされる場合がある。しかし、イベント関連表現を含む学習テキストのみを抽出して分類モデルを学習して、冗長な「不満無し」に対応する学習事例を取り除くことにより、「不満有り」に対応する学習事例の割合が高まるため、ノイズとみなされなくなる。従って、図8(b)に示す分類モデルの部分のように、新たな属性「ない」を用いてより詳細に分解された分類モデルが生成される。また、すべての学習事例を分類モデルの学習に利用した場合に比べて、本実施形態によれば、イベント関連表現に関連するキーワードの割合が相対的に高くなるので、イベント関連表現に関連するキーワードが分類モデルを構成する属性として選択されやすくなる。すなわち、図9(a)に示す分類モデルに代わって、図9(b)に示す分類モデルが生成されるようになる。
分類モデル学習部50は、上記のようにして学習された分類モデルを分類モデル格納部60に格納する(ステップS7)。
以上のステップにより、分類モデルの学習が終了する。次に、学習後の分類モデルを使用して、ステップS8からステップS10でテキストの評価を行う。
以上のステップにより、分類モデルの学習が終了する。次に、学習後の分類モデルを使用して、ステップS8からステップS10でテキストの評価を行う。
モデルイベント判定部80が評価テキスト格納部70に格納されている評価テキストの読み込みを行う(ステップS8)。例えば、評価テキストとして、図10に示すテキストが与えられているものとする。図10に示すように、評価テキストにはイベントの記載の有無を示す分類クラスは与えられていない。
モデルイベント判定部80が読み込んだ評価テキストの中から評価テキストをひとつ取り出す(ステップS9)。このとき、取り出す評価テキストが無ければ処理を終了し、取り出す評価テキストがある場合には、モデルイベント判定部80は、評価テキストに対してモデルイベントを判定する(ステップS10)。
具体的には、モデルイベント判定部80は、まず、取り出された評価テキストに対して形態素解析を実施し、分類モデル学習部50によって決定された属性ベクトルの各属性に対応するキーワードを含むかどうかを判定する。この判定結果に基づいて、モデルイベント判定部80は、図10に示すような評価テキストに対して例えば図11に示すような評価事例を生成する。この評価事例を学習済みの分類モデルに適用することにより、評価テキストに対してイベントの付与を行うかどうかの判定を行い、図12に示すような分類クラスを評価テキストの分類クラスとして出力する。このように図11に示すような評価事例を分類モデルに適用することにより、図12に示す分類クラスが各評価テキストに対して推論される。
このようにして、本実施形態によれば、選別された学習テキストから分類モデルを学習して、評価テキストに対応する分類クラスを精度よく推論することができる。
具体的には、モデルイベント判定部80は、まず、取り出された評価テキストに対して形態素解析を実施し、分類モデル学習部50によって決定された属性ベクトルの各属性に対応するキーワードを含むかどうかを判定する。この判定結果に基づいて、モデルイベント判定部80は、図10に示すような評価テキストに対して例えば図11に示すような評価事例を生成する。この評価事例を学習済みの分類モデルに適用することにより、評価テキストに対してイベントの付与を行うかどうかの判定を行い、図12に示すような分類クラスを評価テキストの分類クラスとして出力する。このように図11に示すような評価事例を分類モデルに適用することにより、図12に示す分類クラスが各評価テキストに対して推論される。
このようにして、本実施形態によれば、選別された学習テキストから分類モデルを学習して、評価テキストに対応する分類クラスを精度よく推論することができる。
本実施形態に係る分類モデル学習装置は、上記の実施形態に限定するものではない。例えば、イベント関連表現格納部20に格納されるキーワードあるいはキーフレーズは、その品詞情報を付与して与えることもできる。このとき、テキストに対して実施される形態素解析においても、品詞情報を付与した単語の分解が行われる。
また、分類モデル学習部50で選択される属性ベクトルを構成するキーワード及びキーフレーズとして、頻度に基づいて計算される評価値に加えて、特定の品詞の並びを持つキーワード及びキーフレーズだけを選択するようにしてもよい。
また、分類モデル学習部50における分類モデルとして、木構造の分類モデルを学習するテキストマイニング法を利用したが、例えば、SVM(「複数意見を含むテキストデータからの重要語の抽出」,第23回ファジィワークショップ論文集,49−52,2004,櫻井茂明,Chong Goh,折原良平参照)に基づいたテキストマイニング法を利用することにより、超平面で記述された分類モデルを学習することもできる。
また、分類モデル学習部50で選択される属性ベクトルを構成するキーワード及びキーフレーズとして、頻度に基づいて計算される評価値に加えて、特定の品詞の並びを持つキーワード及びキーフレーズだけを選択するようにしてもよい。
また、分類モデル学習部50における分類モデルとして、木構造の分類モデルを学習するテキストマイニング法を利用したが、例えば、SVM(「複数意見を含むテキストデータからの重要語の抽出」,第23回ファジィワークショップ論文集,49−52,2004,櫻井茂明,Chong Goh,折原良平参照)に基づいたテキストマイニング法を利用することにより、超平面で記述された分類モデルを学習することもできる。
上記のように、本発明の一実施形態によれば、イベントの存在に関連する表現の集合を指定して、関連する表現に類似する学習テキストを集めることにより、学習テキストの偏りを補正することができる。また、その表現と類似し、イベントを含んでいない学習テキストと、その表現と類似し、稀なイベントを含んでいる学習テキストを判定する分類モデルを獲得することができる。これにより、稀なイベントを含んでいるテキストを精度良く抽出することができる。また、このようなイベントの存在に関連する表現の含意に基づいた判定は、各テキストに対して一度実施されるだけであり、学習テキストの選別を高速に行うことができる。加えて、学習テキストの数そのものも削減されるため、高速に分類モデルを学習することができる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
10…学習テキスト格納部
20…イベント関連表現格納部
30…イベント関連表現判定部
40…学習テキスト抽出部
50…分類モデル学習部
60…分類モデル格納部
70…評価テキスト格納部
80…モデルイベント判定部
20…イベント関連表現格納部
30…イベント関連表現判定部
40…学習テキスト抽出部
50…分類モデル学習部
60…分類モデル格納部
70…評価テキスト格納部
80…モデルイベント判定部
Claims (8)
- テキストと特定のイベントの有無情報とをそれぞれ有する複数の学習テキストに基づいて、前記特定のイベントの有無を判定したいテキストから前記特定のイベントを抽出するための分類モデルを学習する分類モデル学習装置において、
前記特定のイベントの有無を判定するためのイベント関連表現を前記複数の学習テキストのそれぞれの学習テキストに適用して、前記学習テキストにおける特定のイベントの有無を判定するイベント関連表現判定部と、
前記イベント関連表現判定部によって判定された前記特定のイベントの有無に従って学習テキストを抽出する学習テキスト抽出部と、
前記学習テキスト抽出部によって抽出された学習テキストに基づいて分類モデルを学習する分類モデル学習部と、を具備することを特徴とする分類モデル学習装置。 - 請求項1に記載の分類モデル学習装置において、前記分類モデル学習部によって学習された分類モデルを格納する分類モデル格納部を更に具備することを特徴とする分類モデル学習装置。
- 請求項1または請求項2に記載の分類モデル学習装置において、
前記テキストと前記特定のイベントの有無情報とそれぞれ有する複数の学習テキストを格納する学習テキスト格納部と、
前記学習テキストから特定のイベントを抽出するためのイベント関連表現を格納するイベント関連表現格納部と、を更に具備し、
前記イベント関連表現判定部は、前記学習テキスト格納部に格納された学習テキストの集合に含まれる複数の学習テキストのそれぞれに、前記イベント関連表現格納部に格納されたイベント関連表現を適用して、前記学習テキストにおける特定のイベントの有無を判定することを特徴とする分類モデル学習装置。 - 請求項1から請求項3のいずれか1項に記載の分類モデル学習装置において、イベントの有無を判定したいテキストを前記分類モデル学習部によって学習された分類モデルに適用して前記テキストにおけるイベントの有無を判定するモデルイベント判定部を更に具備することを特徴とする分類モデル学習装置。
- 請求項4に記載の分類モデル学習装置において、前記モデルイベント判定部によってイベントの有無を判定したい前記テキストを格納する評価テキスト格納部を更に具備することを特徴とする分類モデル学習装置。
- 請求項1から請求項5のいずれか1項に記載の分類モデル学習装置において、前記分類モデル学習部は、イベントを含まない学習テキストとイベントを含んでいる学習テキストから、テキストマイニング法を利用することにより木構造の形式の分類モデルを学習することを特徴とする分類モデル学習装置。
- テキストと特定のイベントの有無情報とをそれぞれ有する複数の学習テキストに基づいて、前記特定のイベントの有無を判定したいテキストから前記特定のイベントを抽出するための分類モデルを学習する分類モデル学習方法において、
前記特定のイベントの有無を判定するためのイベント関連表現を前記複数の学習テキストのそれぞれの学習テキストに適用して、前記学習テキストにおける特定のイベントの有無を判定し、
前記イベント関連表現判定部によって判定された前記特定のイベントの有無に従って学習テキストを抽出し、
前記抽出された学習テキストに基づいて分類モデルを学習することを具備することを特徴とする分類モデル学習方法。 - テキストと特定のイベントの有無情報とをそれぞれ有する複数の学習テキストに基づいて、前記特定のイベントの有無を判定したいテキストから前記特定のイベントを抽出するための分類モデルを学習するためのプログラムにおいて、
前記特定のイベントの有無を判定するためのイベント関連表現を前記複数の学習テキストのそれぞれの学習テキストに適用して、前記学習テキストにおける特定のイベントの有無を判定する手段と、
前記イベント関連表現判定部によって判定された前記特定のイベントの有無に従って学習テキストを抽出する手段と、
前記抽出された学習テキストに基づいて分類モデルを学習する手段と、を具備することを特徴とするプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005354939A JP2007157058A (ja) | 2005-12-08 | 2005-12-08 | 分類モデル学習装置、分類モデル学習方法、及び分類モデルを学習するためのプログラム |
US11/525,168 US20070136220A1 (en) | 2005-12-08 | 2006-09-22 | Apparatus for learning classification model and method and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005354939A JP2007157058A (ja) | 2005-12-08 | 2005-12-08 | 分類モデル学習装置、分類モデル学習方法、及び分類モデルを学習するためのプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007157058A true JP2007157058A (ja) | 2007-06-21 |
Family
ID=38140637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005354939A Pending JP2007157058A (ja) | 2005-12-08 | 2005-12-08 | 分類モデル学習装置、分類モデル学習方法、及び分類モデルを学習するためのプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20070136220A1 (ja) |
JP (1) | JP2007157058A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018514840A (ja) * | 2015-03-02 | 2018-06-07 | ブルヴェクター, インコーポレーテッドBluvector, Inc. | 機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システム |
JP2019046386A (ja) * | 2017-09-06 | 2019-03-22 | 日本電信電話株式会社 | 故障検知モデル構築装置、故障検知モデル構築方法及びプログラム |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009026120A (ja) * | 2007-07-20 | 2009-02-05 | Toshiba Corp | 情報処理装置、方法及びプログラム |
EP2019361A1 (en) * | 2007-07-26 | 2009-01-28 | Siemens Aktiengesellschaft | A method and apparatus for extraction of textual content from hypertext web documents |
US8341149B2 (en) * | 2008-12-19 | 2012-12-25 | The Mitre Corporation | Ranking with learned rules |
CN101873701B (zh) * | 2010-06-22 | 2013-01-02 | 北京邮电大学 | 一种ofdm中继网络干扰抑制方法 |
JP5963328B2 (ja) * | 2014-10-30 | 2016-08-03 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 生成装置、生成方法、およびプログラム |
US11249710B2 (en) * | 2016-03-31 | 2022-02-15 | Splunk Inc. | Technology add-on control console |
CN106205244A (zh) * | 2016-07-04 | 2016-12-07 | 杭州医学院 | 基于信息融合与机器学习的智能计算机辅助教学系统 |
JP6930179B2 (ja) * | 2017-03-30 | 2021-09-01 | 富士通株式会社 | 学習装置、学習方法及び学習プログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040019601A1 (en) * | 2002-07-25 | 2004-01-29 | International Business Machines Corporation | Creating taxonomies and training data for document categorization |
WO2004084096A1 (ja) * | 2003-03-19 | 2004-09-30 | Fujitsu Limited | 事例分類装置および方法 |
JP2004348393A (ja) * | 2003-05-21 | 2004-12-09 | Japan Science & Technology Agency | テキストデータベースコンテンツの差分情報検出方法 |
JP2005316692A (ja) * | 2004-04-28 | 2005-11-10 | Toshiba Corp | 時系列データ分析装置および方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3761238B2 (ja) * | 1996-01-25 | 2006-03-29 | 株式会社東芝 | 判断規則修正装置と判断規則修正方法 |
JP3813837B2 (ja) * | 2001-05-25 | 2006-08-23 | 株式会社東芝 | データ分析装置及びデータ分析方法並びにプログラム |
US7953219B2 (en) * | 2001-07-19 | 2011-05-31 | Nice Systems, Ltd. | Method apparatus and system for capturing and analyzing interaction based content |
-
2005
- 2005-12-08 JP JP2005354939A patent/JP2007157058A/ja active Pending
-
2006
- 2006-09-22 US US11/525,168 patent/US20070136220A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040019601A1 (en) * | 2002-07-25 | 2004-01-29 | International Business Machines Corporation | Creating taxonomies and training data for document categorization |
WO2004084096A1 (ja) * | 2003-03-19 | 2004-09-30 | Fujitsu Limited | 事例分類装置および方法 |
JP2004348393A (ja) * | 2003-05-21 | 2004-12-09 | Japan Science & Technology Agency | テキストデータベースコンテンツの差分情報検出方法 |
JP2005316692A (ja) * | 2004-04-28 | 2005-11-10 | Toshiba Corp | 時系列データ分析装置および方法 |
Non-Patent Citations (2)
Title |
---|
SHIGEAKI SAKURAI ET AL.: "Acquisition of a Knowledge Dictionary from Training Examples Including Multiple Values", PROCEEDINGS OF THE 13TH INTERNATIONAL SYMPOSIUM ON FOUNDATIONS OF INTELLIGENT SYSTEMS (ISMIS 2002), JPN6010029589, 2002, pages 103 - 113, ISSN: 0001630363 * |
小山聡、吉住貴幸: "Webからの検索知識発見を利用した専門検索エンジンの構築", 人工知能学会研究会資料 SIG-FAI/KBS-J, JPN6010029586, 12 November 2001 (2001-11-12), JP, pages 115 - 120, ISSN: 0001630362 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018514840A (ja) * | 2015-03-02 | 2018-06-07 | ブルヴェクター, インコーポレーテッドBluvector, Inc. | 機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システム |
US10977571B2 (en) | 2015-03-02 | 2021-04-13 | Bluvector, Inc. | System and method for training machine learning applications |
JP2019046386A (ja) * | 2017-09-06 | 2019-03-22 | 日本電信電話株式会社 | 故障検知モデル構築装置、故障検知モデル構築方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20070136220A1 (en) | 2007-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007157058A (ja) | 分類モデル学習装置、分類モデル学習方法、及び分類モデルを学習するためのプログラム | |
CN109657054B (zh) | 摘要生成方法、装置、服务器及存储介质 | |
US8370278B2 (en) | Ontological categorization of question concepts from document summaries | |
US9053180B2 (en) | Identifying common data objects representing solutions to a problem in different disciplines | |
US8868609B2 (en) | Tagging method and apparatus based on structured data set | |
US7444325B2 (en) | Method and system for information extraction | |
Smets et al. | Automatic vandalism detection in Wikipedia: Towards a machine learning approach | |
US8635197B2 (en) | Systems and methods for efficient development of a rule-based system using crowd-sourcing | |
US9104709B2 (en) | Cleansing a database system to improve data quality | |
US10713429B2 (en) | Joining web data with spreadsheet data using examples | |
JP6663826B2 (ja) | 計算機及び応答の生成方法 | |
CN107844533A (zh) | 一种智能问答系统及分析方法 | |
JP2021101361A (ja) | イベントトピックの生成方法、装置、機器及び記憶媒体 | |
US20100162097A1 (en) | Robust wrappers for web extraction | |
US11354345B2 (en) | Clustering topics for data visualization | |
CN110245349B (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
CN110750297B (zh) | 一种基于程序分析和文本分析的Python代码参考信息生成方法 | |
CN111400584A (zh) | 联想词的推荐方法、装置、计算机设备和存储介质 | |
CN108153728B (zh) | 一种关键词确定方法及装置 | |
CN115099239A (zh) | 一种资源识别方法、装置、设备以及存储介质 | |
Sravanthi et al. | A dialogue system for telugu, a resource-poor language | |
JP2006004098A (ja) | 評価情報生成装置、評価情報生成方法、及びプログラム | |
JP5224532B2 (ja) | 評判情報分類装置及びプログラム | |
JP2007241881A (ja) | 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
CN114461749B (zh) | 对话内容的数据处理方法、装置、电子设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100601 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101012 |