JP4346531B2 - テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム - Google Patents

テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム Download PDF

Info

Publication number
JP4346531B2
JP4346531B2 JP2004272377A JP2004272377A JP4346531B2 JP 4346531 B2 JP4346531 B2 JP 4346531B2 JP 2004272377 A JP2004272377 A JP 2004272377A JP 2004272377 A JP2004272377 A JP 2004272377A JP 4346531 B2 JP4346531 B2 JP 4346531B2
Authority
JP
Japan
Prior art keywords
data
text data
class
learning
attribute vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004272377A
Other languages
English (en)
Other versions
JP2006085634A (ja
Inventor
茂明 櫻井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2004272377A priority Critical patent/JP4346531B2/ja
Publication of JP2006085634A publication Critical patent/JP2006085634A/ja
Application granted granted Critical
Publication of JP4346531B2 publication Critical patent/JP4346531B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、コンピュータ上に蓄積されている電子化されたテキストを特徴付ける概念を抽出することにより、ユーザの意思決定を支援するテキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラムに関するものである。
検索語に応じて動的に変化する単語間の意味関係を扱ってデータマイニングを実現する手法がある(例えば、特許文献1参照)。本手法をテキストデータの分析に利用する場合には、テキストデータを構成する単語によってテキストデータを特徴付けることにより、テキストデータを分析することができる。
一方、テキストデータから情動性を表す表現を自動的に抽出し、抽出した表現が評価対象のどのような側面を評価しているかを特定する手法もある(例えば、特許文献2参照)。
特開2001−142900公報 特開2003−248681公報
しかしながら、特許文献1に開示されている手法の場合、特徴付けられたデータを空間に配置するには、空間を構成するメタデータを予め指定しなければならない。このメタデータは対象とするテキストに依存したものになるため、対象とするテキストごとにメタデータを指定しなければならない。このため、簡便に多くの種類のテキストデータを分析することは困難である。また、検索語によって写像された空間においてクラスタリングを実施して各クラスターから知識を発見しているものの、クラスターそのものの意味は機械的には与えられないため、ユーザがクラスターの意味を考える必要がある。
また、特許文献2に開示されている手法の場合、情動性を表す単語やそれを強調したり否定したりする単語を予め辞書として登録しなければならないばかりか、対象とするテキストデータに依存した辞書を生成しなければならない。また、このような辞書の生成は、一般のユーザにとっては困難であり、特定の専門家が試行錯誤を通して生成しなければならないため、簡便に多くの種類のテキストデータを分析することは困難である。
このように、大量のテキストデータが簡便に収集できるようになったものの、それらのテキストデータを分析するには、対象とするテキストデータにしたがって生成される辞書が必要である。これらの辞書は試行錯誤を通して専門家により生成されるため、その生成には多大なる時間が必要である。また、テキストデータには必ずしも1つの内容に関する記述がなされているとは限らないため、内容ごとにテキストが分割されていない場合、辞書を利用したとしても適切な分析を行うことは難しい。このため、テキストデータを収集したとしても、テキストデータを簡便に分析することができず、ユーザが簡便にテキストデータを分析する装置が求められている。
本発明は、上述した従来の問題点に鑑み、対象とするテキストに依存した辞書の利用やテキストの内容ごとの分割を行うことなしにテキストデータを簡便に分析するためのテキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラムを提供することを目的とする。
本発明のテキストデータ学習装置によれば、テキストデータと該テキストデータの内容に該当するクラスとからなるデータを複数個、学習データとして格納する学習データ格納手段と、前記学習データを特徴付ける複数の特徴を前記学習データから抽出する抽出手段と、各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成する生成手段と、前記学習データに含まれるクラスごとに、或るクラスに属する第1属性ベクトルと属さない第2属性ベクトルに分割する分割手段と、前記第1属性ベクトルと前記第2属性ベクトルに基づいて、前記クラスごとに任意の属性ベクトルが第1属性ベクトルであるか否かを判定するためのモデルを算出する算出手段を具備することを特徴とする。
本発明のテキストデータ分析装置によれば、テキストデータを複数個、評価データとして格納する評価データ格納手段と、前記評価データを特徴付ける複数の特徴を前記評価データから抽出する特徴抽出手段と、前記評価データに含まれる各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成する生成手段と、前記テキストデータの内容に該当するクラスごとに任意の属性ベクトルが或るクラスに属する属性ベクトルであるか否かを判定するためのモデルを格納しているモデル格納手段と、前記属性ベクトルごとに、複数の前記モデルの中から1つのモデルを選択して、該選択されたモデルに対応するテキストデータの内容に該当するクラスを推定するとともに、該選択することと該推定することをすべての前記モデルに対して繰り返すことにより、すべての前記モデルに対して、前記属性ベクトルに該当するクラスを、前記属性ベクトルごとに推定する推定手段と、前記評価データに含まれる複数の概念候補を前記評価データから抽出する概念候補抽出手段と、前記複数の概念候補に対して、概念候補の出現頻度を前記クラスごとに計算する計算手段と、あるクラスの第1概念候補の第1出現頻度から他のクラスの該第1概念候補の第2出現頻度を引いた値を計算し、第1出現頻度が第1閾値以上であり、かつ該値が第2閾値以上である場合に、該第1概念候補を該あるクラスに関連する概念として選択する選択手段を具備することを特徴とする。
本発明のテキストデータ学習分析システムによれば、テキストデータと該テキストデータの内容に該当するクラスとからなるデータを複数個、学習データとして格納する学習データ格納手段と、前記学習データを特徴付ける複数の特徴を前記学習データから抽出する抽出手段と、各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成する生成手段と、前記学習データに含まれるクラスごとに、或るクラスに属する第1属性ベクトルと属さない第2属性ベクトルに分割する分割手段と、前記第1属性ベクトルと前記第2属性ベクトルに基づいて、前記クラスごとに任意の属性ベクトルが第1属性ベクトルであるか否かを判定するためのモデルを算出する算出手段を具備するテキストデータ学習装置と、テキストデータを複数個、評価データとして格納する評価データ格納手段と、前記評価データを特徴付ける複数の特徴を前記評価データから抽出する特徴抽出手段と、前記評価データに含まれる各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成する生成手段と、前記属性ベクトルごとに、複数の前記モデルの中から1つのモデルを選択して、該選択されたモデルに対応するテキストデータの内容に該当するクラスを推定するとともに、該選択することと該推定することをすべての前記モデルに対して繰り返すことにより、すべての前記モデルに対して、前記属性ベクトルに該当するクラスを、前記属性ベクトルごとに推定する推定手段と、前記評価データに含まれる複数の概念候補を前記評価データから抽出する概念候補抽出手段と、前記複数の概念候補に対して、概念候補の出現頻度を前記クラスごとに計算する計算手段と、あるクラスの第1概念候補の第1出現頻度から他のクラスの該第1概念候補の第2出現頻度を引いた値を計算し、第1出現頻度が第1閾値以上であり、かつ該値が第2閾値以上である場合に、該第1概念候補を該あるクラスに関連する概念として選択する選択手段を具備するテキストデータ分析装置を具備することを特徴とする。
また、本発明のテキストデータ学習分析システムによれば、テキストデータと該テキストデータの内容に該当するクラスとからなるデータを複数個、学習データとして格納する学習データ格納手段と、前記学習データを特徴付ける複数の特徴を前記学習データから抽出する特徴抽出手段と、各前記テキストデータに各前記特徴が含まれているかを示す指標を生成する生成手段と、前記学習データに含まれるクラスごとに、或るクラスに属する第1属性指標と属さない第2属性指標に分割する分割手段と、前記第1属性指標と前記第2属性指標に基づいて、前記クラスごとに任意の指標が第1属性指標であるか否かを判定するためのモデルを算出する算出手段を具備するテキストデータ学習装置と、テキストデータを複数個、評価データとして格納する評価データ格納手段と、前記評価データを特徴付ける複数の特徴を前記評価データから抽出する特徴抽出手段と、前記評価データに含まれる各前記テキストデータに各前記特徴が含まれているかを示す指標を生成する生成手段と、前記指標ごとに、複数の前記モデルの中から1つのモデルを選択して、該選択されたモデルに対応するテキストデータの内容に該当するクラスを推定するとともに、該選択することと該推定することをすべての前記モデルに対して繰り返すことにより、すべての前記モデルに対して、前記指標に該当するクラスを、前記指標ごとに推定する推定手段と、前記評価データに含まれる複数の概念候補を前記評価データから抽出する概念候補抽出手段と、前記複数の概念候補に対して、概念候補の出現頻度を前記クラスごとに計算する計算手段と、あるクラスの第1概念候補の第1出現頻度から他のクラスの該第1概念候補の第2出現頻度を引いた値を計算し、第1出現頻度が第1閾値以上であり、かつ該値が第2閾値以上である場合に、該第1概念候補を該あるクラスに関連する概念として選択する選択手段を具備するテキストデータ分析装置を具備することを特徴とする。
本発明のテキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラムによれば、対象とするテキストに依存した辞書の利用やテキストの内容ごとの分割を行うことなしにテキストデータを簡便に分析することができる。
以下、図面を参照しながら本発明の実施形態にかかるテキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置及び方法について詳細に説明する。
本実施形態のテキストデータ学習分析システム100は、コンピュータ上に蓄積されている電子化されたテキスト、例えば、小売業務における販売員の営業活動及び商品の売上げ動向を記載した業務報告書、ヘルプデスク業務における顧客からの様々な問い合わせや問い合わせに対する回答内容を記載した顧客の声、サービスや製品に対して顧客の意見を収集するために実施するアンケートの自由記述等から、このテキストを特徴付ける概念を抽出することにより、ユーザの意思決定を支援するためのシステムである。
本実施形態のテキストデータ学習分析システム100は、図1に示すように、テキストデータ格納部101、特徴量抽出部102、クラス入力部103、問題分割部104、事例生成部105、問題別モデル学習部106、モデル格納部107、問題別推定部108、問題別分析部109、分析結果格納部110を備えている。
本実施形態のテキストデータ学習分析システム100は、テキストとそのテキストが属する可能性のある複数のクラスを組みにした訓練事例を入力とする。このとき、テキストを構成する単語やフレーズでテキストを特徴付ける一方、特定のクラスと特定のクラス以外とに訓練事例を分割し、単語やフレーズと特定のクラスとの間の関係を学習する。このような学習を特定のクラスごとに実施し、特定のクラスごとにモデルを生成する。また、特定のクラスごとに生成されたモデルに基づいて、新たなテキストデータに対応するクラスを分析し、クラスに関連した単語やフレーズを抽出する。クラスごとに抽出された単語やフレーズを、他のクラスに抽出されている単語やフレーズと比較することにより、特定のクラスと関連性の高い概念を抽出する。
テキストデータ学習装置は、テキストデータ学習分析システム100に含まれている、テキストデータ格納部101、特徴量抽出部102、クラス入力部103、問題分割部104、事例生成部105、問題別モデル学習部106、モデル格納部107からなる。
テキストデータ分析装置は、テキストデータ学習分析システム100に含まれている、テキストデータ格納部101、特徴量抽出部102、事例生成部105、モデル格納部107、問題別推定部108、問題別分析部109、分析結果格納部110からなる。
テキストデータ格納部101は、テキストデータ学習装置の装置部分として、学習するための材料となるテキストデータである学習データを格納している。学習データは、テキストとテキストデータに付与された複数のクラスの組から構成されており、例えば、ユーザが記述した自由記述、この自由記述ごとに付与されるID、この記述に関するユーザの意見であるクラスを含む。各クラスは、テキストデータをユーザが読み、テキストデータに記述されている内容を判断することにより与えられる。各クラスは、この記述に関し、例えば、ユーザがよい(good)と思ったか悪い(bad)と思ったかが記載される。しかし、クラスはこのように2通りの場合に限定されるわけではなく、3通り以上に分類されてもよい。ただし、1つのテキストデータに複数の内容が記載されている場合には、1つのテキストデータに対して複数のクラスが付与され、1つの内容しか記載されていない場合には、1つのテキストデータに対して1つのクラスだけが付与される。学習データの具体的な一例は、後に図3を参照して説明する。
また、テキストデータ格納部101は、テキストデータ分析装置の装置部分として、分析して評価されるためのテキストデータである評価データを格納している。評価データは学習データとは異なり、各データに対応するクラスがユーザによって付与されていない。このため、分析対象となっているテキストデータをそのまま利用することができる。評価データの具体的な一例は、後に図10を参照して説明する。
特徴量抽出部102は、テキストデータ格納部101に格納されている学習データ又は評価データのテキストデータからテキストデータを特徴付ける特徴の候補を抽出する。特徴量抽出部102は、例えば、テキストデータに形態素解析を行い、このテキストデータから単語、フレーズ等の特徴量を抽出する。与えられた学習データのテキストデータからテキストデータを特徴付ける特徴の候補を抽出する。本実施形態においては、テキストデータをテキストデータに含まれる特定の品詞を持つ単語で特徴付ける場合について説明する。本特徴候補の抽出では、テキストデータに対して形態素解析を実施し、テキストデータを単語単位に分割する。また、単語に対応する品詞を特定する。特徴量抽出部102が形態素解析を行った場合の例は、後に図4、図11を参照して説明する。
また、特徴量抽出部102は、抽出された特徴の候補の絞込みを実施する。特徴量抽出部102の特徴候補の絞り込みは、後に図5、図6、図12を参照して説明する。
クラス入力部103は、テキストデータ格納部101に格納されている学習データに含まれるクラスを入力するためのものである。クラス入力部103は、例えば、各IDのテキストデータごとにユーザがよいか悪いかを判断して入力する際に使用される。クラス入力部103を利用してユーザがクラスを入力することで、学習データが得られる。
問題分割部104は、テキストデータ学習装置の装置部分としてのみ機能し、特定のクラスに含まれる事例と特定のクラスに含まれない事例に分割する2分類問題を特定のクラスごとに生成する。問題分割部104は、例えば、各学習データに対して「good」、「bad」の2種類のクラスが割り当てられている場合、「good」のものとそうでないものを表す「not good」に分類する問題と、「bad」のものとそうでないものを表す「not bad」のものに分類する問題との、2つの問題に問題を分割する。この問題の分類は、後に図8、図9を参照して説明する。
事例生成部105は、問題分割部104によって分割された問題のうちの1つの問題を選択し、選択された問題にしたがって、属性ベクトルと選択された問題のクラスを組にして事例を生成する。属性ベクトルとは、事例生成部105が特徴量抽出部102によって決定された単語がテキストデータに含まれているか否かを判定し、含まれている場合には1、含まれていない場合には0の値を与えることにより生成される、各テキストデータに対応する0又は1を含む数字の列からなるベクトルのことである。事例生成部105は、テキストデータごとに属性ベクトルを生成する。属性ベクトルの具体例は、後に図7、図13を参照して説明する。事例生成部105が生成した事例の例は、後に図8、図9を参照して説明する。
問題別モデル学習部106は、テキストデータ学習装置の装置部分としてのみ機能し、問題分割部104で与えられた各2分類問題において、事例生成部105で得られた属性ベクトルと特定のクラスとの間の関係を示すモデルを特定のクラスごとに学習する。より詳しくは、問題別モデル学習部106は、例えば、属性ベクトルの次元に対応する多次元空間で、各IDのテキストデータに対応する属性ベクトルが位置する点を定め、この点の位置とこの点の属性ベクトルが属するクラスに基づいて、このクラスの特徴Aを示す領域と特徴Aでないことを示す領域を区別する超平面を求める。具体的には、問題別モデル学習部106は、例えば、「good」を示す属性ベクトルが位置する点の分布と「not good」を示す属性ベクトルが位置する点の分布により、「good」と「not good」とを分割する超平面を求める。この超平面が定まれば、ある属性ベクトルが与えられた場合に、この属性ベクトルに対応するテキストデータが「good」であるか「not good」であるかを判定することができる。
このような形式の事例からモデルを学習する方式は、帰納学習法として知られており多数の方式が提案されている。本実施例においては、この帰納学習法の1つとして、参考文献“A Practical Guide to Support Vector Classification ”, C. -W. Hsu, C. -C. Chang, and C. -J. Lin. , http://www.csie.ntu.edu.tw/ ~cjlin/libSVM/(2004年6月29日検索)に記載されているSVMを利用してモデルを学習する。帰納学習法としては、本実施形態ではSVMを利用するが、決定木、ベイジアンネットワーク、ニューラルネットワークといった他の帰納学習法を利用することもできる。
モデル格納部107は、テキストデータ学習装置の装置部分としてのみ機能し、学習したモデルを格納する。上に示した例では、モデル格納部107は、各問題(例えば、「good」のものとそうでないものを表す「not good」に分類する問題)ごとに得られた超平面を示す数値を格納する。属性ベクトルを写像した空間の次元が3次元の場合には、対応する超平面は3次元平面ax+by+cz=dと表現される。ここで、x、y、zは変数であり、a、b、c、dは3次元平面を定める定数である。属性ベクトルを写像した空間の次元が3次元の場合には、モデル格納部107は、各問題にa、b、c、dの具体的な値を格納している。
問題別推定部108は、テキストデータ分析装置の装置部分としてのみ機能し、問題ごとに、クラスの与えられていないテキストデータ(すなわち、評価データ)に基づいて事例生成部105で生成された属性ベクトルを基にして、モデル格納部107に格納されているモデルを利用して、属性ベクトルに対応するテキストデータが属するクラスを推定する。問題別推定部108の具体的な結果の一例は、後に図14、図15を参照して説明する。
問題別分析部109は、テキストデータ分析装置の装置部分としてのみ機能し、推定されたクラスごとにまとめられたテキストから代表的な概念候補を抽出する。問題別分析部109は、抽出された問題別の代表的な概念候補を他の問題の代表的な概念候補と比較することにより代表的な概念候補の中からクラスに関連した特徴量を抽出する。テキストデータからクラスごとに対応した概念を抽出する。
分析結果格納部110は、テキストデータ分析装置の装置部分としてのみ機能し、問題別分析部109で得られた結果を格納する。
次に、図1のテキストデータ学習分析システム100の動作を図2を参照して説明する。
図2のステップS201からステップS209までテキストデータ学習装置の動作を示し、図2のステップS209からステップS215は、テキストデータ分析装置の動作を示す。
まず、特徴量抽出部102が、テキストデータ格納部101から、モデルを学習するために利用する学習データを読み込む(ステップS201)。例えば、特徴量抽出部102は、図3に示すデータを学習データとして読み込む。図3に示した学習データは、自由記述の部分がテキストデータに相当し、意見の部分がクラスに相当する。図3の例では、「good」、「bad」といった2種類のクラスが存在している。また、顧客IDはテキストデータを記載した顧客に対応した番号であり、個別の学習データを区別するために記載されている。
次に、特徴量抽出部102は、与えられた学習データのテキストデータからテキストデータを特徴付ける特徴の候補を抽出する(ステップS202)。ここでは、一例として、テキストデータをテキストデータに含まれる特定の品詞を持つ単語で特徴付ける場合について説明する。特徴量抽出部102は、テキストデータに対して形態素解析を実施し、テキストデータを単語単位に分割する。また、特徴量抽出部102は単語に対応する品詞を特定する。例えば、図3に示した学習データの自由記述部分に対して形態素解析が実施された場合には、特徴量抽出部102は、図4に示すような形態素解析結果を得ることができる。図4では、分割された単語の品詞が< >の形式で記述されている。さらに、特徴量抽出部102は、この形態素解析結果から、指定した品詞を持つ単語を抽出する。例えば、特徴付けに利用する品詞を名詞と形容詞とした場合には、特徴量抽出部102は、図4に示した形態素解析結果から、図5に示すように単語を特徴の候補として抽出する。
その後、特徴量抽出部102は、ステップS202で抽出された特徴の候補の絞込みを行い、最終的に特徴を決定する(ステップS203)。この特徴の決定には、或る基準を設けこの基準よりも特徴的な候補を最終的な特徴として決定する。本実施形態では、特徴の候補として与えられる単語に対して次式で定義されるtf-idf値を計算し、tf-idf値が指定したしきい値(Th1)以上となる単語を特徴として採用する方法を説明する。iで指定される単語のtf-idf値は、
Figure 0004346531
で与えられる。ここで、Dはテキストデータの総数、言い換えると、顧客IDの数である。例えば、顧客IDがID1からID100まであり、図3のようにそれぞれのIDにテキストデータが対応付けられている場合は、D=100である。また、dはi番目の単語を含むテキストデータの数である。顧客IDの数が小さい順からステップS202で抽出された特徴候補に番号を付与する。例えば、図5に示したID1の「広い」は1番目の単語であり、ID2の「忘れ物」は4番目の単語、ID2の「ところ」は5番目の単語である。また、wはj番目のテキストデータに含まれる単語の数である。j番目とは顧客IDがIDjであることであり、例えば、図5に示した例では、w=3、w=5、w=3である。また、tijはj番目のテキストデータに含まれる、最初のテキストデータの最初の単語から数えてi番目の単語の数とする。tijはj番目のテキストデータ中に、最初のテキストデータの最初の単語から数えてi番目の単語が何個含まれているかを示す。例えば、図3及び図5の例では、各テキストデータに同じ単語を含むものはないので、tij=1(1≦j≦7)。
ステップS203では、まず、ステップS202で抽出された各単語に対するtf-idf値を計算する。次に、各単語ごとに計算したtf-idf値に基づいて、単語の並べ替えを行って、しきい値以上の単語を最終的な特徴とする。例えば、図6に示したように、tf-idf値の順に、ステップS202で抽出された単語を並べて、tf-idf値のしきい値を0.1にしたとすれば、「朝食<名>」から「豊富<名>」までの単語がテキストデータの最終的な特徴となり、「連絡<名>」以下の単語が特徴として選択されないことになる。また、このしきい値は、テキストデータの数に比例して設定することが好ましい。すなわち、テキストデータの数が多ければあるしきい値を超える特徴候補数も多くなるので、テキストデータの数が多ければ設定するしきい値も大きくする。
次に、事例生成部105がステップS203で決定された特徴にしたがって、学習データに含まれる各テキストデータに対応する属性ベクトルを生成する(ステップS204)。本実施形態においては、指定した品詞を持つとともに、指定したしきい値以上のtf-idf値を持つ単語がテキストデータの特徴となるので、事例生成部105は、ステップS203で決定された単語が各テキストデータに含まれているか否かを判定し、含まれている場合には1、含まれていない場合には0といった値を与えることにより、各テキストデータに対応して属性ベクトルを決定する。例えば、図3の各テキストデータの場合、ステップS203で「豊富<名>」以上の単語を特徴とすることが決定されているので、事例生成部105は図7に示すように各顧客IDに属性ベクトルを生成する。
次に、問題分割部104が、クラスとして与えられているクラスごとに問題の分割を行う(ステップS205)。図3に示した例の場合には、各学習データに対して「good」、「bad」の2種類のクラスが割り当てられているので、問題分割部104は「good」のものとそうでないものを表す「not good」に分類する問題と、「bad」のものとそうでないものを表す「not bad」のものに分類する問題との、2つの問題に問題を分割する。
次に、問題分割部104が、ステップS205で分割された問題のうちの1つの問題を選択する。このとき、選択する問題がなければステップS209へと進み、選択する問題がある場合にはステップS207へと進む。本実施形態の場合には、問題分割部104は、まず「good」のものとそうでないものを表す「not good」に分類する問題と、「bad」のものとそうでないものを表す「not bad」のものに分類する問題のいずれかの問題を先に選択し、その後、もう1つの問題を選択しステップS207に進む。また、本実施形態の場合で、「good」に関する問題と「bad」に関する2つの問題を処理した後で、本ステップに到達した場合には、選択する問題がなくなっているので、ステップS209へと進むことになる。
次に、事例生成部105が、ステップS206で選択された問題にしたがって、属性ベクトルと選択された問題のクラスを組にして事例を生成する(ステップS207)。例えば、問題として「good」が選択されたとすると、事例生成部105は、「good」のクラスを持つ学習データを「good」と見なすとともに、「good」のクラスを持たない学習データを「not good」と見なす。図3の学習データの場合には、事例生成部105は、顧客IDがID1、ID2、ID4、ID5、ID6に対応する学習データは「good」が図3に示される意見の中に含まれているため、「good」と見なす。一方、事例生成部105は、顧客IDがID3、ID7に対応する学習データは「good」が図3に示される意見の中に含まれていないため、「not good」と見なす。したがって、図3の学習データに対しては、事例生成部105は図8に示す事例を生成する。同様に、「bad」が問題として設定されている場合には、事例生成部105は図9に示す事例を生成する。
次に、問題別モデル学習部106が、与えられた事例を入力として属性ベクトルとクラスとの間の関係を示すモデルを学習する(ステップS208)。問題別モデル学習部106は、例えば、属性ベクトルの次元に対応する多次元空間で、「good」と「not good」とを分割するモデルを求める。このような形式の事例からモデルを学習する方式の一例であるSVMは、各事例を高次元空間に写像することにより、高次元空間において事例を分割する超平面を逐次的に改良しながら、クラスの分類精度の高い超平面を発見する手法である。SVMにおいては、カーネル関数を利用することにより、各事例の高次元空間における座標を計算することなしに超平面の良し悪しを評価することができるため、高速に分類精度の高い超平面を発見することができる。また、近年、SVMはテキスト分類問題において、高い分類性能を示すことが報告されている。
そして、モデル格納部107がステップS208で学習したモデルを格納する。上に示した例では、モデル格納部107は、各問題(例えば、「good」のものとそうでないものを表す「not good」に分類する問題)ごとに得られた超平面を示す数値を格納する。
次に、テキストデータ分析装置の動作を図2を参照して説明する。
特徴量抽出部102が、テキストデータ格納部101から、評価データを読み込む(ステップS209)。例えば、特徴量抽出部102は、図10に示されるデータを評価データとして読み込む。評価データは、各テキストデータに対応するクラスがユーザによって付与されていない点のみが学習データと異なる。このため、テキストデータ分析装置は、分析対象となっているテキストデータをそのまま利用することができる。
次に、特徴量抽出部102が、ステップS202での特徴候補の抽出と同様な処理を行うことにより、各評価データに対応する特徴候補の抽出を行う(ステップS210)。本実施形態の場合、指定した品詞を持つとともに、指定したしきい値以上のtf-idf値を持つ単語によってテキストデータを特徴付ける方法を採用している。このため、形態素解析、指定品詞を持った単語の抽出といった処理を順次実施する。例えば、特徴量抽出部102は、図10の評価データから、図11に示す形態素解析結果を得て、名詞、形容詞を抽出することにより、図12に示す単語が特徴の候補として抽出する。
次に、事例生成部105が、ステップS204での属性ベクトルの生成と同様な処理を行うことにより、評価データの各テキストデータに対応する属性ベクトルの生成を行う(ステップS211)。このとき、属性ベクトルを構成する特徴としては、ステップS203で決定された特徴が利用される。例えば、図10の評価データに対しては、事例生成部105は図13に示す属性ベクトルを生成する。
次に、問題別推定部108が、ステップS211で得られた属性ベクトルに基づいて、モデル格納部107に格納されているモデルの選択を行う(ステップS212)。選択するモデルが存在しない場合には、ステップS214へ処理を進め、選択するモデルが存在する場合にはステップS213へと処理を進める。本実施形態の場合、モデル格納部107には学習されて「good」、「bad」といった2つのモデルが格納されており、ステップS212で各モデルが順に選択される。したがって、2つのモデルを選択した後で、ステップS212を実行した場合には、ステップS214へと処理を進めることになる。
次に、問題別推定部108が、選択されたモデルに各評価データの属性ベクトルを適用することにより、属性ベクトルに対応するテキストデータが属するクラスを判定する(ステップS213)。例えば、図13の各属性ベクトルを「good」のモデルを用いて評価した場合には、問題別推定部108は、図14に示すクラスを得る。同様に、図13の各属性を「bad」のモデルを用いて評価した場合には、問題別推定部108は、図15に示すクラスを得る。
次に、問題別分析部109が、特徴量抽出部102が行った形態素解析結果に基づいて、評価データの各テキストデータの中から特徴的な単語やフレーズを概念候補として抽出する(ステップS214)。本実施形態においては、指定した品詞を持つ単語と指定した品詞の並びを持つフレーズを概念候補として取り出す。したがって、問題別分析部109は、ステップS10で特徴量抽出部102により生成された形態素解析結果を利用して概念候補を抽出する。例えば、問題別分析部109は、名詞、名詞と形容詞が連続するフレーズ、形容詞と名詞が連続するフレーズを概念候補として抽出する場合は、図11に示した形態素解析結果から、図16に示す単語やフレーズを概念候補として抽出する。
また、問題別分析部109は、抽出した概念候補の評価値をクラスごとに計算する。本実施形態の場合、評価値としては、概念候補の出現頻度を採用する。また、「good」、「bad」の2つのクラスが存在している。問題別分析部109は、「good」と判定されたテキストデータだけを取り出し、取り出されたテキストデータに基づいて概念候補の頻度を計算する。同様に、問題別分析部109は、「bad」と判定されたテキストデータだけを取り出して、取り出されたテキストデータに基づいて概念候補の頻度を計算する。以上により、問題別分析部109は、各概念候補に対して図17に示すようなクラスごとの頻度を得ることができる。なお、図17は、図10に示した評価データから算出したものではなく、図10の評価データよりも大きなデータ量の評価データから算出したものである。
次に、問題別分析部109が、概念候補に対応する各クラスの評価値を基準として、クラスに対応する概念の決定を行う(ステップS215)。本実施形態では、評価値として出現頻度を採用する。また、問題別分析部109は、対象とするクラスの概念候補において、例えば、指定したしきい値(Th2)以上の頻度を持ち、他のクラスにおける頻度よりも、しきい値(Th3)以上の大きな頻度を持つ概念候補を、対象クラスにおける概念とする。
ここで、具体例として、しきい値(Th2)を5、しきい値(Th3)を3とし、ステップS214で図17に示す概念候補に対するクラスごとに頻度が与えられている場合でのステップS215を示す。問題別分析部109は、「good」に対して、しきい値(Th2)である5以上の大きな頻度を有する概念候補、
/部屋<名>+は<付>/広<形>+く<活尾>+て<付>、
/従業<名>/員<尾>+の<付>/丁寧<形>+な<付>、
/丁寧<形>+な<付>/応対<名>、
/部屋<名>、
/朝食<名>、
/バイキング<名>
といった6個の概念候補を抽出する。このうち、/部屋<名>は、「good」の頻度から「bad」の頻度を引いた値が−1となり、しきい値(Th3)に関する条件が成立しない。このため、問題別分析部109は、「good」に対応する概念として、図18に示す概念を決定する。同様に、問題別分析部109は、「bad」に対応する概念としては、図19に示す概念を決定する。その後、問題別分析部109は、これら決定された概念を分析結果格納部110に格納する。
以上に示した実施形態によれば、学習に多数のテキストデータを利用することにより、特定のクラスに対応するテキストデータに異なるクラスの内容が記載されていたとしても、そのような異なるクラスの内容に関する記載は相対的に少ないと期待することができるので、特定のクラスを分析する場合に含まれる、異なるクラスの内容の影響を除去することができる。このため、ユーザは複数の内容が書かれたテキストを前もって内容ごとに分割することなしに、テキストデータを分析することができる。また、与えられたテキストが属する可能性のあるクラスを判定する問題は、タスクに応じた辞書を作成するよりもはるかに容易であり、特定の専門家でなくても判定することができる。一方、ユーザは特定のクラスに関連する単語やフレーズを見ることにより、特定のクラスに含まれているテキストの内容の大まかな傾向を把握することができる。このため、本テキストデータ分析装置を利用することにより、広範な分野のテキストデータを簡便に分析することができる。
以上に説明したテキストデータ分析装置は上述した実施形態に限定するものではない。例えば、テキストデータを特徴付ける特徴として単語を利用したが、単語間の係り受け構造、付属語表現を含めたフレーズ、単語の共起関係、テキストデータに含まれる文字の長さといった特徴を利用することもできる。
また、構文解析結果によって得られる係り受け構造を利用することにより、単純な単語や連続する単語を概念として抽出する代わりに、より複雑な構造を持ったフレーズを抽出することもできる。この他、種々変形してテキストデータ分析装置を構成することができる。
また、上述の実施形態の中で示した処理手順に示された指示、及び流れ図の各ステップに示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態のテキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RWなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態のテキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の実施形態にかかるテキストデータ学習分析システムのブロック図。 図1のテキストデータ学習分析システムの動作を示すフローチャート。 図1のテキストデータ格納部101に格納される学習データを示す図。 図1の特徴量抽出部102が図3の学習データから得た形態素解析結果を示す図。 図1の特徴量抽出部102が図4の形態素解析結果から得た特徴候補を示す図。 図1の特徴量抽出部102が図4の特徴候補から特徴を決定するためのtf-idf値を示す図。 図1の事例生成部105が決定された特徴にしたがって生成した属性ベクトルを示す図。 「good」が問題として設定されている場合に図1の事例生成部105が図3に基づいて生成した事例を示す図。 「bad」が問題として設定されている場合に図1の事例生成部105が図3に基づいて生成した事例を示す図。 図1のテキストデータ格納部101に格納される評価データを示す図。 図1の特徴量抽出部102が図10の学習データから得た形態素解析結果を示す図。 図1の特徴量抽出部102が図11の形態素解析結果から得た特徴候補を示す図。 図1の事例生成部105が生成した属性ベクトルを示す図。 「good」のモデルを用いて評価した場合に図1の問題別推定部108が判定したクラスを示す図。 「bad」のモデルを用いて評価した場合に図1の問題別推定部108が判定したクラスを示す図。 図11の形態素解析結果に基づいて図1の問題別分析部109が抽出した概念候補を示す図。 図1の問題別分析部109がクラスごとに計算した図16の概念候補の出現頻度を示す図。 図1の問題別分析部109が図17に示したクラス「good」に基づいて決定した概念と出現頻度を示す図。 図1の問題別分析部109が図17に示したクラス「bad」に基づいて決定した概念と出現頻度を示す図。
符号の説明
100・・・テキストデータ学習分析システム、101・・・テキストデータ格納部、102・・・特徴量抽出部、103・・・クラス入力部、104・・・問題分割部、105・・・事例生成部、106・・・問題別モデル学習部、107・・・モデル格納部、108・・・問題別推定部、109・・・問題別分析部、110・・・分析結果格納部。

Claims (12)

  1. テキストデータと該テキストデータの内容に該当するクラスとからなるデータを複数個、学習データとして格納する学習データ格納手段と、
    前記学習データを特徴付ける複数の特徴を前記学習データから抽出する抽出手段と、
    各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成する生成手段と、
    前記学習データに含まれるクラスごとに、或るクラスに属する第1属性ベクトルと属さない第2属性ベクトルに分割する分割手段と、
    前記第1属性ベクトルと前記第2属性ベクトルに基づいて、前記クラスごとに任意の属性ベクトルが第1属性ベクトルであるか否かを判定するためのモデルを算出する算出手段を具備することを特徴とするテキストデータ学習装置。
  2. 前記抽出手段は、前記学習データに含まれる各テキストデータに形態素解析を行い、分割された単語から抽出された特定の品詞あるいは品詞の並びについて絞り込みを行い、複数の特徴として単語あるいはフレーズを抽出することを特徴とする請求項1に記載のテキストデータ学習装置。
  3. 前記テキストデータの内容に該当するクラスを入力するようにユーザに促すクラス入力手段をさらに具備することを特徴とする請求項1又は請求項2に記載のテキストデータ学習装置。
  4. 前記算出手段によって算出されたモデルを格納するモデル格納手段をさらに具備することを特徴とする請求項1から請求項3のいずれか1つに記載のテキストデータ学習装置。
  5. テキストデータを複数個、評価データとして格納する評価データ格納手段と、
    前記評価データを特徴付ける複数の特徴を前記評価データから抽出する特徴抽出手段と、
    前記評価データに含まれる各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成する生成手段と、
    前記テキストデータの内容に該当するクラスごとに任意の属性ベクトルが或るクラスに属する属性ベクトルであるか否かを判定するためのモデルを格納しているモデル格納手段と、
    前記属性ベクトルごとに、複数の前記モデルの中から1つのモデルを選択して、該選択されたモデルに対応するテキストデータの内容に該当するクラスを推定するとともに、該選択することと該推定することをすべての前記モデルに対して繰り返すことにより、すべての前記モデルに対して、前記属性ベクトルに該当するクラスを、前記属性ベクトルごとに推定する推定手段と、
    前記評価データに含まれる複数の概念候補を前記評価データから抽出する概念候補抽出手段と、
    前記複数の概念候補に対して、概念候補の出現頻度を前記クラスごとに計算する計算手段と、
    あるクラスの第1概念候補の第1出現頻度から他のクラスの該第1概念候補の第2出現頻度を引いた値を計算し、第1出現頻度が第1閾値以上であり、かつ該値が第2閾値以上である場合に、該第1概念候補を該あるクラスに関連する概念として選択する選択手段を具備することを特徴とするテキストデータ分析装置。
  6. テキストデータと該テキストデータの内容に該当するクラスとからなるデータを複数個、学習データとして格納する学習データ格納手段と、
    前記学習データを特徴付ける複数の特徴を前記学習データから抽出する抽出手段と、
    各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成する生成手段と、
    前記学習データに含まれるクラスごとに、或るクラスに属する第1属性ベクトルと属さない第2属性ベクトルに分割する分割手段と、
    前記第1属性ベクトルと前記第2属性ベクトルに基づいて、前記クラスごとに任意の属性ベクトルが第1属性ベクトルであるか否かを判定するためのモデルを算出する算出手段を具備するテキストデータ学習装置と、
    テキストデータを複数個、評価データとして格納する評価データ格納手段と、
    前記評価データを特徴付ける複数の特徴を前記評価データから抽出する特徴抽出手段と、
    前記評価データに含まれる各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成する生成手段と、
    前記属性ベクトルごとに、複数の前記モデルの中から1つのモデルを選択して、該選択されたモデルに対応するテキストデータの内容に該当するクラスを推定するとともに、該選択することと該推定することをすべての前記モデルに対して繰り返すことにより、すべての前記モデルに対して、前記属性ベクトルに該当するクラスを、前記属性ベクトルごとに推定する推定手段と、
    前記評価データに含まれる複数の概念候補を前記評価データから抽出する概念候補抽出手段と、
    前記複数の概念候補に対して、概念候補の出現頻度を前記クラスごとに計算する計算手段と、
    あるクラスの第1概念候補の第1出現頻度から他のクラスの該第1概念候補の第2出現頻度を引いた値を計算し、第1出現頻度が第1閾値以上であり、かつ該値が第2閾値以上である場合に、該第1概念候補を該あるクラスに関連する概念として選択する選択手段を具備するテキストデータ分析装置を具備することを特徴とするテキストデータ学習分析システム。
  7. 前記特徴抽出手段は、前記学習データ及び評価データに含まれる各テキストデータに形態素解析を行い、分割された単語から抽出された特定の品詞あるいは品詞の並びについて絞り込みを行い、複数の特徴として単語あるいはフレーズを抽出することを特徴とする請求項6に記載のテキストデータ学習分析システム。
  8. 前記テキストデータの内容に該当するクラスを入力するようにユーザに促すクラス入力手段をさらに具備することを特徴とする請求項6又は請求項7に記載のテキストデータ学習分析システム。
  9. 前記算出手段によって算出されたモデルを格納するモデル格納手段をさらに具備することを特徴とする請求項6から請求項8のいずれか1つに記載のテキストデータ学習分析システム。
  10. コンピュータを利用して行うテキストデータ学習分析方法であって、
    学習データ格納手段が、テキストデータと該テキストデータの内容に該当するクラスとからなるデータを複数個、学習データとして格納し、
    抽出手段が、前記学習データを特徴付ける複数の特徴を前記学習データから抽出し、
    生成手段が、各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成し、
    分割手段が、前記学習データに含まれるクラスごとに、或るクラスに属する第1属性ベクトルと属さない第2属性ベクトルに分割し、
    算出手段が、前記第1属性ベクトルと前記第2属性ベクトルに基づいて、前記クラスごとに任意の属性ベクトルが第1属性ベクトルであるか否かを判定するためのモデルを算出し、
    評価データ格納手段が、テキストデータを複数個、評価データとして格納し、
    特徴抽出手段が、前記評価データを特徴付ける複数の特徴を前記評価データから抽出し、
    生成手段が、前記評価データに含まれる各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成し、
    推定手段が、前記属性ベクトルごとに、複数の前記モデルの中から1つのモデルを選択して、該選択されたモデルに対応するテキストデータの内容に該当するクラスを推定するとともに、該選択することと該推定することをすべての前記モデルに対して繰り返すことにより、すべての前記モデルに対して、前記属性ベクトルに該当するクラスを、前記属性ベクトルごとに推定し、
    概念候補抽出手段が、前記評価データに含まれる複数の概念候補を前記評価データから抽出し、
    計算手段が、前記複数の概念候補に対して、概念候補の出現頻度を前記クラスごとに計算し、
    選択手段が、あるクラスの第1概念候補の第1出現頻度から他のクラスの該第1概念候補の第2出現頻度を引いた値を計算し、第1出現頻度が第1閾値以上であり、かつ該値が第2閾値以上である場合に、該第1概念候補を該あるクラスに関連する概念として選択することを特徴とするテキストデータ学習分析方法。
  11. コンピュータを、
    テキストデータと該テキストデータの内容に該当するクラスとからなるデータを複数個、学習データとして格納する学習データ格納手段と、
    前記学習データを特徴付ける複数の特徴を前記学習データから抽出する特徴抽出手段と、
    各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成する生成手段と、
    前記学習データに含まれるクラスごとに、或るクラスに属する第1属性ベクトルと属さない第2属性ベクトルに分割する分割手段と、
    前記第1属性ベクトルと前記第2属性ベクトルに基づいて、前記クラスごとに任意の属性ベクトルが第1属性ベクトルであるか否かを判定するためのモデルを算出する算出手段と、
    テキストデータを複数個、評価データとして格納する評価データ格納手段と、
    前記評価データを特徴付ける複数の特徴を前記評価データから抽出する特徴抽出手段と、
    前記評価データに含まれる各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成する生成手段と、
    前記属性ベクトルごとに、複数の前記モデルの中から1つのモデルを選択して、該選択されたモデルに対応するテキストデータの内容に該当するクラスを推定するとともに、該選択することと該推定することをすべての前記モデルに対して繰り返すことにより、すべての前記モデルに対して、前記属性ベクトルに該当するクラスを、前記属性ベクトルごとに推定する推定手段と、
    前記評価データに含まれる複数の概念候補を前記評価データから抽出する概念候補抽出手段と、
    前記複数の特徴に対して、概念候補の出現頻度を前記クラスごとに計算する計算手段と、
    あるクラスの第1概念候補の第1出現頻度から他のクラスの該第1概念候補の第2出現頻度を引いた値を計算し、第1出現頻度が第1閾値以上であり、かつ該値が第2閾値以上である場合に、該第1概念候補を該あるクラスに関連する概念として選択する選択手段として機能させるためのテキストデータ学習分析プログラム。
  12. テキストデータと該テキストデータの内容に該当するクラスとからなるデータを複数個、学習データとして格納する学習データ格納手段と、
    前記学習データを特徴付ける複数の特徴を前記学習データから抽出する特徴抽出手段と、
    各前記テキストデータに各前記特徴が含まれているかを示す指標を生成する生成手段と、
    前記学習データに含まれるクラスごとに、或るクラスに属する第1属性指標と属さない第2属性指標に分割する分割手段と、
    前記第1属性指標と前記第2属性指標に基づいて、前記クラスごとに任意の指標が第1属性指標であるか否かを判定するためのモデルを算出する算出手段を具備するテキストデータ学習装置と、
    テキストデータを複数個、評価データとして格納する評価データ格納手段と、
    前記評価データを特徴付ける複数の特徴を前記評価データから抽出する特徴抽出手段と、
    前記評価データに含まれる各前記テキストデータに各前記特徴が含まれているかを示す指標を生成する生成手段と、
    前記指標ごとに、複数の前記モデルの中から1つのモデルを選択して、該選択されたモデルに対応するテキストデータの内容に該当するクラスを推定するとともに、該選択することと該推定することをすべての前記モデルに対して繰り返すことにより、すべての前記モデルに対して、前記指標に該当するクラスを、前記指標ごとに推定する推定手段と、
    前記評価データに含まれる複数の概念候補を前記評価データから抽出する概念候補抽出手段と、
    前記複数の概念候補に対して、概念候補の出現頻度を前記クラスごとに計算する計算手段と、
    あるクラスの第1概念候補の第1出現頻度から他のクラスの該第1概念候補の第2出現頻度を引いた値を計算し、第1出現頻度が第1閾値以上であり、かつ該値が第2閾値以上である場合に、該第1概念候補を該あるクラスに関連する概念として選択する選択手段を具備するテキストデータ分析装置を具備することを特徴とするテキストデータ学習分析システム。
JP2004272377A 2004-09-17 2004-09-17 テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム Expired - Fee Related JP4346531B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004272377A JP4346531B2 (ja) 2004-09-17 2004-09-17 テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004272377A JP4346531B2 (ja) 2004-09-17 2004-09-17 テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2006085634A JP2006085634A (ja) 2006-03-30
JP4346531B2 true JP4346531B2 (ja) 2009-10-21

Family

ID=36164063

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004272377A Expired - Fee Related JP4346531B2 (ja) 2004-09-17 2004-09-17 テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4346531B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7849090B2 (en) * 2005-03-30 2010-12-07 Primal Fusion Inc. System, method and computer program for faceted classification synthesis
JP5075566B2 (ja) * 2007-10-15 2012-11-21 株式会社東芝 文書分類装置およびプログラム
JP6316844B2 (ja) * 2012-12-22 2018-04-25 エムモーダル アイピー エルエルシー 予測モデル生成のためのユーザーインタフェース
JP6026036B1 (ja) * 2016-04-08 2016-11-16 株式会社Ubic データ分析システム、その制御方法、プログラム、及び、記録媒体
CN111611409B (zh) * 2020-06-17 2023-06-02 中国人民解放军国防科技大学 一种融入场景知识的事例分析方法及相关设备

Also Published As

Publication number Publication date
JP2006085634A (ja) 2006-03-30

Similar Documents

Publication Publication Date Title
CA2423033C (en) A document categorisation system
RU2628431C1 (ru) Подбор параметров текстового классификатора на основе семантических признаков
KR102310487B1 (ko) 속성 단위 리뷰 분석 장치 및 방법
JP6509718B2 (ja) 文書分類装置、文書分類方法、及び文書分類プログラム
CN112395506A (zh) 一种资讯推荐方法、装置、电子设备和存储介质
Vijayaragavan et al. An optimal support vector machine based classification model for sentimental analysis of online product reviews
CN108763496B (zh) 一种基于网格和密度的动静态数据融合客户分类方法
US8812503B2 (en) Information processing device, method and program
JP4904496B2 (ja) 文書類似性導出装置及びそれを用いた回答支援システム
CN112395487B (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
Milea et al. Prediction of the msci euro index based on fuzzy grammar fragments extracted from european central bank statements
JP2009294939A (ja) 文書分類装置
CN111538846A (zh) 基于混合协同过滤的第三方库推荐方法
CN115713072A (zh) 一种基于提示学习和上下文感知的关系类别推断系统及方法
CN113326432A (zh) 一种基于决策树与推荐方法的模型优选方法
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
CN116932730B (zh) 基于多叉树和大规模语言模型的文档问答方法及相关设备
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
JP4346531B2 (ja) テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム
CN111125329B (zh) 一种文本信息筛选方法、装置及设备
JP2011003156A (ja) データ分類装置、データ分類方法及びデータ分類プログラム
JP2001312501A (ja) 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体
JP7427510B2 (ja) 情報処理装置、情報処理方法およびプログラム
BURLĂCIOIU et al. TEXT MINING IN BUSINESS. A STUDY OF ROMANIAN CLIENT’S PERCEPTION WITH RESPECT TO USING TELECOMMUNICATION AND ENERGY APPS.
CN113420127A (zh) 威胁情报处理方法、装置、计算设备及存储介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081202

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090331

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090623

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090714

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120724

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130724

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees