JP4346531B2 - テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム - Google Patents
テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム Download PDFInfo
- Publication number
- JP4346531B2 JP4346531B2 JP2004272377A JP2004272377A JP4346531B2 JP 4346531 B2 JP4346531 B2 JP 4346531B2 JP 2004272377 A JP2004272377 A JP 2004272377A JP 2004272377 A JP2004272377 A JP 2004272377A JP 4346531 B2 JP4346531 B2 JP 4346531B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- text data
- class
- learning
- attribute vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本実施形態のテキストデータ学習分析システム100は、コンピュータ上に蓄積されている電子化されたテキスト、例えば、小売業務における販売員の営業活動及び商品の売上げ動向を記載した業務報告書、ヘルプデスク業務における顧客からの様々な問い合わせや問い合わせに対する回答内容を記載した顧客の声、サービスや製品に対して顧客の意見を収集するために実施するアンケートの自由記述等から、このテキストを特徴付ける概念を抽出することにより、ユーザの意思決定を支援するためのシステムである。
本実施形態のテキストデータ学習分析システム100は、テキストとそのテキストが属する可能性のある複数のクラスを組みにした訓練事例を入力とする。このとき、テキストを構成する単語やフレーズでテキストを特徴付ける一方、特定のクラスと特定のクラス以外とに訓練事例を分割し、単語やフレーズと特定のクラスとの間の関係を学習する。このような学習を特定のクラスごとに実施し、特定のクラスごとにモデルを生成する。また、特定のクラスごとに生成されたモデルに基づいて、新たなテキストデータに対応するクラスを分析し、クラスに関連した単語やフレーズを抽出する。クラスごとに抽出された単語やフレーズを、他のクラスに抽出されている単語やフレーズと比較することにより、特定のクラスと関連性の高い概念を抽出する。
テキストデータ分析装置は、テキストデータ学習分析システム100に含まれている、テキストデータ格納部101、特徴量抽出部102、事例生成部105、モデル格納部107、問題別推定部108、問題別分析部109、分析結果格納部110からなる。
また、特徴量抽出部102は、抽出された特徴の候補の絞込みを実施する。特徴量抽出部102の特徴候補の絞り込みは、後に図5、図6、図12を参照して説明する。
このような形式の事例からモデルを学習する方式は、帰納学習法として知られており多数の方式が提案されている。本実施例においては、この帰納学習法の1つとして、参考文献“A Practical Guide to Support Vector Classification ”, C. -W. Hsu, C. -C. Chang, and C. -J. Lin. , http://www.csie.ntu.edu.tw/ ~cjlin/libSVM/(2004年6月29日検索)に記載されているSVMを利用してモデルを学習する。帰納学習法としては、本実施形態ではSVMを利用するが、決定木、ベイジアンネットワーク、ニューラルネットワークといった他の帰納学習法を利用することもできる。
図2のステップS201からステップS209までテキストデータ学習装置の動作を示し、図2のステップS209からステップS215は、テキストデータ分析装置の動作を示す。
そして、モデル格納部107がステップS208で学習したモデルを格納する。上に示した例では、モデル格納部107は、各問題(例えば、「good」のものとそうでないものを表す「not good」に分類する問題)ごとに得られた超平面を示す数値を格納する。
特徴量抽出部102が、テキストデータ格納部101から、評価データを読み込む(ステップS209)。例えば、特徴量抽出部102は、図10に示されるデータを評価データとして読み込む。評価データは、各テキストデータに対応するクラスがユーザによって付与されていない点のみが学習データと異なる。このため、テキストデータ分析装置は、分析対象となっているテキストデータをそのまま利用することができる。
また、問題別分析部109は、抽出した概念候補の評価値をクラスごとに計算する。本実施形態の場合、評価値としては、概念候補の出現頻度を採用する。また、「good」、「bad」の2つのクラスが存在している。問題別分析部109は、「good」と判定されたテキストデータだけを取り出し、取り出されたテキストデータに基づいて概念候補の頻度を計算する。同様に、問題別分析部109は、「bad」と判定されたテキストデータだけを取り出して、取り出されたテキストデータに基づいて概念候補の頻度を計算する。以上により、問題別分析部109は、各概念候補に対して図17に示すようなクラスごとの頻度を得ることができる。なお、図17は、図10に示した評価データから算出したものではなく、図10の評価データよりも大きなデータ量の評価データから算出したものである。
/部屋<名>+は<付>/広<形>+く<活尾>+て<付>、
/従業<名>/員<尾>+の<付>/丁寧<形>+な<付>、
/丁寧<形>+な<付>/応対<名>、
/部屋<名>、
/朝食<名>、
/バイキング<名>
といった6個の概念候補を抽出する。このうち、/部屋<名>は、「good」の頻度から「bad」の頻度を引いた値が−1となり、しきい値(Th3)に関する条件が成立しない。このため、問題別分析部109は、「good」に対応する概念として、図18に示す概念を決定する。同様に、問題別分析部109は、「bad」に対応する概念としては、図19に示す概念を決定する。その後、問題別分析部109は、これら決定された概念を分析結果格納部110に格納する。
また、構文解析結果によって得られる係り受け構造を利用することにより、単純な単語や連続する単語を概念として抽出する代わりに、より複雑な構造を持ったフレーズを抽出することもできる。この他、種々変形してテキストデータ分析装置を構成することができる。
Claims (12)
- テキストデータと該テキストデータの内容に該当するクラスとからなるデータを複数個、学習データとして格納する学習データ格納手段と、
前記学習データを特徴付ける複数の特徴を前記学習データから抽出する抽出手段と、
各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成する生成手段と、
前記学習データに含まれるクラスごとに、或るクラスに属する第1属性ベクトルと属さない第2属性ベクトルに分割する分割手段と、
前記第1属性ベクトルと前記第2属性ベクトルに基づいて、前記クラスごとに任意の属性ベクトルが第1属性ベクトルであるか否かを判定するためのモデルを算出する算出手段を具備することを特徴とするテキストデータ学習装置。 - 前記抽出手段は、前記学習データに含まれる各テキストデータに形態素解析を行い、分割された単語から抽出された特定の品詞あるいは品詞の並びについて絞り込みを行い、複数の特徴として単語あるいはフレーズを抽出することを特徴とする請求項1に記載のテキストデータ学習装置。
- 前記テキストデータの内容に該当するクラスを入力するようにユーザに促すクラス入力手段をさらに具備することを特徴とする請求項1又は請求項2に記載のテキストデータ学習装置。
- 前記算出手段によって算出されたモデルを格納するモデル格納手段をさらに具備することを特徴とする請求項1から請求項3のいずれか1つに記載のテキストデータ学習装置。
- テキストデータを複数個、評価データとして格納する評価データ格納手段と、
前記評価データを特徴付ける複数の特徴を前記評価データから抽出する特徴抽出手段と、
前記評価データに含まれる各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成する生成手段と、
前記テキストデータの内容に該当するクラスごとに任意の属性ベクトルが或るクラスに属する属性ベクトルであるか否かを判定するためのモデルを格納しているモデル格納手段と、
前記属性ベクトルごとに、複数の前記モデルの中から1つのモデルを選択して、該選択されたモデルに対応するテキストデータの内容に該当するクラスを推定するとともに、該選択することと該推定することをすべての前記モデルに対して繰り返すことにより、すべての前記モデルに対して、前記属性ベクトルに該当するクラスを、前記属性ベクトルごとに推定する推定手段と、
前記評価データに含まれる複数の概念候補を前記評価データから抽出する概念候補抽出手段と、
前記複数の概念候補に対して、概念候補の出現頻度を前記クラスごとに計算する計算手段と、
あるクラスの第1概念候補の第1出現頻度から他のクラスの該第1概念候補の第2出現頻度を引いた値を計算し、第1出現頻度が第1閾値以上であり、かつ該値が第2閾値以上である場合に、該第1概念候補を該あるクラスに関連する概念として選択する選択手段を具備することを特徴とするテキストデータ分析装置。 - テキストデータと該テキストデータの内容に該当するクラスとからなるデータを複数個、学習データとして格納する学習データ格納手段と、
前記学習データを特徴付ける複数の特徴を前記学習データから抽出する抽出手段と、
各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成する生成手段と、
前記学習データに含まれるクラスごとに、或るクラスに属する第1属性ベクトルと属さない第2属性ベクトルに分割する分割手段と、
前記第1属性ベクトルと前記第2属性ベクトルに基づいて、前記クラスごとに任意の属性ベクトルが第1属性ベクトルであるか否かを判定するためのモデルを算出する算出手段を具備するテキストデータ学習装置と、
テキストデータを複数個、評価データとして格納する評価データ格納手段と、
前記評価データを特徴付ける複数の特徴を前記評価データから抽出する特徴抽出手段と、
前記評価データに含まれる各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成する生成手段と、
前記属性ベクトルごとに、複数の前記モデルの中から1つのモデルを選択して、該選択されたモデルに対応するテキストデータの内容に該当するクラスを推定するとともに、該選択することと該推定することをすべての前記モデルに対して繰り返すことにより、すべての前記モデルに対して、前記属性ベクトルに該当するクラスを、前記属性ベクトルごとに推定する推定手段と、
前記評価データに含まれる複数の概念候補を前記評価データから抽出する概念候補抽出手段と、
前記複数の概念候補に対して、概念候補の出現頻度を前記クラスごとに計算する計算手段と、
あるクラスの第1概念候補の第1出現頻度から他のクラスの該第1概念候補の第2出現頻度を引いた値を計算し、第1出現頻度が第1閾値以上であり、かつ該値が第2閾値以上である場合に、該第1概念候補を該あるクラスに関連する概念として選択する選択手段を具備するテキストデータ分析装置を具備することを特徴とするテキストデータ学習分析システム。 - 前記特徴抽出手段は、前記学習データ及び評価データに含まれる各テキストデータに形態素解析を行い、分割された単語から抽出された特定の品詞あるいは品詞の並びについて絞り込みを行い、複数の特徴として単語あるいはフレーズを抽出することを特徴とする請求項6に記載のテキストデータ学習分析システム。
- 前記テキストデータの内容に該当するクラスを入力するようにユーザに促すクラス入力手段をさらに具備することを特徴とする請求項6又は請求項7に記載のテキストデータ学習分析システム。
- 前記算出手段によって算出されたモデルを格納するモデル格納手段をさらに具備することを特徴とする請求項6から請求項8のいずれか1つに記載のテキストデータ学習分析システム。
- コンピュータを利用して行うテキストデータ学習分析方法であって、
学習データ格納手段が、テキストデータと該テキストデータの内容に該当するクラスとからなるデータを複数個、学習データとして格納し、
抽出手段が、前記学習データを特徴付ける複数の特徴を前記学習データから抽出し、
生成手段が、各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成し、
分割手段が、前記学習データに含まれるクラスごとに、或るクラスに属する第1属性ベクトルと属さない第2属性ベクトルに分割し、
算出手段が、前記第1属性ベクトルと前記第2属性ベクトルに基づいて、前記クラスごとに任意の属性ベクトルが第1属性ベクトルであるか否かを判定するためのモデルを算出し、
評価データ格納手段が、テキストデータを複数個、評価データとして格納し、
特徴抽出手段が、前記評価データを特徴付ける複数の特徴を前記評価データから抽出し、
生成手段が、前記評価データに含まれる各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成し、
推定手段が、前記属性ベクトルごとに、複数の前記モデルの中から1つのモデルを選択して、該選択されたモデルに対応するテキストデータの内容に該当するクラスを推定するとともに、該選択することと該推定することをすべての前記モデルに対して繰り返すことにより、すべての前記モデルに対して、前記属性ベクトルに該当するクラスを、前記属性ベクトルごとに推定し、
概念候補抽出手段が、前記評価データに含まれる複数の概念候補を前記評価データから抽出し、
計算手段が、前記複数の概念候補に対して、概念候補の出現頻度を前記クラスごとに計算し、
選択手段が、あるクラスの第1概念候補の第1出現頻度から他のクラスの該第1概念候補の第2出現頻度を引いた値を計算し、第1出現頻度が第1閾値以上であり、かつ該値が第2閾値以上である場合に、該第1概念候補を該あるクラスに関連する概念として選択することを特徴とするテキストデータ学習分析方法。 - コンピュータを、
テキストデータと該テキストデータの内容に該当するクラスとからなるデータを複数個、学習データとして格納する学習データ格納手段と、
前記学習データを特徴付ける複数の特徴を前記学習データから抽出する特徴抽出手段と、
各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成する生成手段と、
前記学習データに含まれるクラスごとに、或るクラスに属する第1属性ベクトルと属さない第2属性ベクトルに分割する分割手段と、
前記第1属性ベクトルと前記第2属性ベクトルに基づいて、前記クラスごとに任意の属性ベクトルが第1属性ベクトルであるか否かを判定するためのモデルを算出する算出手段と、
テキストデータを複数個、評価データとして格納する評価データ格納手段と、
前記評価データを特徴付ける複数の特徴を前記評価データから抽出する特徴抽出手段と、
前記評価データに含まれる各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成する生成手段と、
前記属性ベクトルごとに、複数の前記モデルの中から1つのモデルを選択して、該選択されたモデルに対応するテキストデータの内容に該当するクラスを推定するとともに、該選択することと該推定することをすべての前記モデルに対して繰り返すことにより、すべての前記モデルに対して、前記属性ベクトルに該当するクラスを、前記属性ベクトルごとに推定する推定手段と、
前記評価データに含まれる複数の概念候補を前記評価データから抽出する概念候補抽出手段と、
前記複数の特徴に対して、概念候補の出現頻度を前記クラスごとに計算する計算手段と、
あるクラスの第1概念候補の第1出現頻度から他のクラスの該第1概念候補の第2出現頻度を引いた値を計算し、第1出現頻度が第1閾値以上であり、かつ該値が第2閾値以上である場合に、該第1概念候補を該あるクラスに関連する概念として選択する選択手段として機能させるためのテキストデータ学習分析プログラム。 - テキストデータと該テキストデータの内容に該当するクラスとからなるデータを複数個、学習データとして格納する学習データ格納手段と、
前記学習データを特徴付ける複数の特徴を前記学習データから抽出する特徴抽出手段と、
各前記テキストデータに各前記特徴が含まれているかを示す指標を生成する生成手段と、
前記学習データに含まれるクラスごとに、或るクラスに属する第1属性指標と属さない第2属性指標に分割する分割手段と、
前記第1属性指標と前記第2属性指標に基づいて、前記クラスごとに任意の指標が第1属性指標であるか否かを判定するためのモデルを算出する算出手段を具備するテキストデータ学習装置と、
テキストデータを複数個、評価データとして格納する評価データ格納手段と、
前記評価データを特徴付ける複数の特徴を前記評価データから抽出する特徴抽出手段と、
前記評価データに含まれる各前記テキストデータに各前記特徴が含まれているかを示す指標を生成する生成手段と、
前記指標ごとに、複数の前記モデルの中から1つのモデルを選択して、該選択されたモデルに対応するテキストデータの内容に該当するクラスを推定するとともに、該選択することと該推定することをすべての前記モデルに対して繰り返すことにより、すべての前記モデルに対して、前記指標に該当するクラスを、前記指標ごとに推定する推定手段と、
前記評価データに含まれる複数の概念候補を前記評価データから抽出する概念候補抽出手段と、
前記複数の概念候補に対して、概念候補の出現頻度を前記クラスごとに計算する計算手段と、
あるクラスの第1概念候補の第1出現頻度から他のクラスの該第1概念候補の第2出現頻度を引いた値を計算し、第1出現頻度が第1閾値以上であり、かつ該値が第2閾値以上である場合に、該第1概念候補を該あるクラスに関連する概念として選択する選択手段を具備するテキストデータ分析装置を具備することを特徴とするテキストデータ学習分析システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004272377A JP4346531B2 (ja) | 2004-09-17 | 2004-09-17 | テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004272377A JP4346531B2 (ja) | 2004-09-17 | 2004-09-17 | テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006085634A JP2006085634A (ja) | 2006-03-30 |
JP4346531B2 true JP4346531B2 (ja) | 2009-10-21 |
Family
ID=36164063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004272377A Expired - Fee Related JP4346531B2 (ja) | 2004-09-17 | 2004-09-17 | テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4346531B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7849090B2 (en) * | 2005-03-30 | 2010-12-07 | Primal Fusion Inc. | System, method and computer program for faceted classification synthesis |
JP5075566B2 (ja) * | 2007-10-15 | 2012-11-21 | 株式会社東芝 | 文書分類装置およびプログラム |
JP6316844B2 (ja) * | 2012-12-22 | 2018-04-25 | エムモーダル アイピー エルエルシー | 予測モデル生成のためのユーザーインタフェース |
JP6026036B1 (ja) * | 2016-04-08 | 2016-11-16 | 株式会社Ubic | データ分析システム、その制御方法、プログラム、及び、記録媒体 |
CN111611409B (zh) * | 2020-06-17 | 2023-06-02 | 中国人民解放军国防科技大学 | 一种融入场景知识的事例分析方法及相关设备 |
-
2004
- 2004-09-17 JP JP2004272377A patent/JP4346531B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006085634A (ja) | 2006-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2423033C (en) | A document categorisation system | |
RU2628431C1 (ru) | Подбор параметров текстового классификатора на основе семантических признаков | |
KR102310487B1 (ko) | 속성 단위 리뷰 분석 장치 및 방법 | |
JP6509718B2 (ja) | 文書分類装置、文書分類方法、及び文書分類プログラム | |
CN112395506A (zh) | 一种资讯推荐方法、装置、电子设备和存储介质 | |
Vijayaragavan et al. | An optimal support vector machine based classification model for sentimental analysis of online product reviews | |
CN108763496B (zh) | 一种基于网格和密度的动静态数据融合客户分类方法 | |
US8812503B2 (en) | Information processing device, method and program | |
JP4904496B2 (ja) | 文書類似性導出装置及びそれを用いた回答支援システム | |
CN112395487B (zh) | 信息推荐方法、装置、计算机可读存储介质及电子设备 | |
Milea et al. | Prediction of the msci euro index based on fuzzy grammar fragments extracted from european central bank statements | |
JP2009294939A (ja) | 文書分類装置 | |
CN111538846A (zh) | 基于混合协同过滤的第三方库推荐方法 | |
CN115713072A (zh) | 一种基于提示学习和上下文感知的关系类别推断系统及方法 | |
CN113326432A (zh) | 一种基于决策树与推荐方法的模型优选方法 | |
CN116882414B (zh) | 基于大规模语言模型的评语自动生成方法及相关装置 | |
CN116932730B (zh) | 基于多叉树和大规模语言模型的文档问答方法及相关设备 | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
JP4346531B2 (ja) | テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム | |
CN111125329B (zh) | 一种文本信息筛选方法、装置及设备 | |
JP2011003156A (ja) | データ分類装置、データ分類方法及びデータ分類プログラム | |
JP2001312501A (ja) | 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP7427510B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
BURLĂCIOIU et al. | TEXT MINING IN BUSINESS. A STUDY OF ROMANIAN CLIENT’S PERCEPTION WITH RESPECT TO USING TELECOMMUNICATION AND ENERGY APPS. | |
CN113420127A (zh) | 威胁情报处理方法、装置、计算设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081202 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090331 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090421 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090623 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090714 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120724 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130724 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |