JP2010061176A - Text mining device, text mining method, and text mining program - Google Patents
Text mining device, text mining method, and text mining program Download PDFInfo
- Publication number
- JP2010061176A JP2010061176A JP2006315862A JP2006315862A JP2010061176A JP 2010061176 A JP2010061176 A JP 2010061176A JP 2006315862 A JP2006315862 A JP 2006315862A JP 2006315862 A JP2006315862 A JP 2006315862A JP 2010061176 A JP2010061176 A JP 2010061176A
- Authority
- JP
- Japan
- Prior art keywords
- text
- type
- feature
- positive example
- attribute value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、テキストの特徴として単語を抽出するテキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラムに関し、特に、マイニング結果として得られた単語から、その単語を含むテキストに特徴的な属性を抽出することができるテキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラムに関する。 The present invention relates to a text mining device, a text mining method, and a text mining program for extracting a word as a text feature, and in particular, from a word obtained as a mining result, a characteristic attribute of the text including the word is extracted. The present invention relates to a text mining device, a text mining method, and a text mining program.
テキストマイニングとは、いくつかの属性に関して属性値を付与されたテキストの集合に対して、利用者が特定の属性値を持つテキストを正例として指定したときに、正例のテキストに偏って出現する特徴を抽出し、出力する処理である。 Text mining appears when a user designates text with a specific attribute value as a positive example for a set of texts that have been given attribute values for several attributes. This is a process for extracting and outputting features to be output.
例えば、製品に関する問い合わせを受け付けるコンタクトセンターにおける応対記録の場合、通常、受け付けた問い合わせ内容を記述したテキスト以外に、受け付けた問い合わせがどのような種類のものであったのかを表す「質問」「要望」「修理依頼」等の問い合わせ種別、問い合わせの対象であった機種の名称、問い合わせを受け付けた日、問い合わせに応対した担当者の氏名等をセットで記録しておくことが多い。テキストマイニングでは、このようなテキストを、「問い合わせ種別」属性、「機種名」属性、「受付日」属性、「担当者」属性の属性値が付与されたテキストと見なし、例えば、「問い合わせ種別」属性値として「修理依頼」を持つテキストを正例として、正例のテキストに偏って出現する特徴を抽出することができる。 For example, in the case of a response record at a contact center that accepts inquiries about products, in addition to text that describes the contents of accepted inquiries, “questions” and “requests” that indicate what kind of inquiries were received The type of inquiry such as “repair request”, the name of the model that was the subject of the inquiry, the date of receipt of the inquiry, and the name of the person in charge who responded to the inquiry are often recorded as a set. In text mining, such text is regarded as text with attribute values of “inquiry type” attribute, “model name” attribute, “acceptance date” attribute, and “person in charge” attribute. For example, “inquiry type” Using a text having “repair request” as an attribute value as a positive example, it is possible to extract features that appear biased in the text of the positive example.
従来のテキストマイニング装置は、各テキストから単語を抽出し、正例として指定される特定の属性値を持つテキストと関連性が高い単語もしくは単語の組み合わせを、その正例の特徴として抽出するように構成される。 A conventional text mining device extracts words from each text, and extracts words or combinations of words that are highly related to text having specific attribute values specified as positive examples as features of the positive examples. Composed.
この種のテキストマイニング装置の一例が、特許文献1に記載されている。この特許文献1に記載されたテキストマイニング装置は、マイニング対象のテキスト中に出現する特徴的な語句を抽出する特徴語抽出処理部と、分析の対象とする分類軸(属性に相当)を設定する分析軸設定処理部と、分類軸の各カテゴリ(属性値に相当)と関連する度合いが高い語句を抽出する関連語句取得処理部とを有し、分析の対象として利用者が設定した分類軸の各カテゴリに特徴的な語句を抽出する。
An example of this type of text mining device is described in
また、この種のテキストマイニング方法の別の一例が、非特許文献1に記載されている。この非特許文献1に記載されたテキストマイニング方法は、正例のテキスト(目的群)と、負例のテキスト(対象群)とが与えられたとき、正例のテキストでの出現頻度が高く、負例のテキストでの出現頻度ができるだけ低いテキスト中のパターン、すなわち、その出現頻度によって正例と負例とを分離するのに有効なパターンを発見し、そのパターンを正例の特徴として抽出するものである。
Another example of this type of text mining method is described in
一方、テキスト以外のデータ集合から、何らかのパターンやルールを学習する技術はデータマイニングと呼ばれ、データマイニングを行うさまざまな手法が広く知られている。 On the other hand, a technique for learning a certain pattern or rule from a data set other than text is called data mining, and various methods for performing data mining are widely known.
データマイニングを行う手法の一例として、分岐征服のアルゴリズムおよびカバーリングのアルゴリズムが、非特許文献2に記載されている。この手法は、予め正例と負例に分けられた属性付きのデータ集合がある場合に、正例を弁別する決定木を求める手法である。 As an example of a method for performing data mining, a branch conquest algorithm and a covering algorithm are described in Non-Patent Document 2. This method is a method for obtaining a decision tree for discriminating positive examples when there is a data set with attributes that are divided into positive examples and negative examples in advance.
また、データマイニングを行う別の手法の一例が、非特許文献3に記載されている。この手法は、アイテムの組み合わせであるトランザクションの集合が与えられたときに、アイテムの集合間の相関ルールを求めるための手法である。 An example of another method for performing data mining is described in Non-Patent Document 3. This method is a method for obtaining a correlation rule between a set of items when a set of transactions that is a combination of items is given.
テキストマイニングによって、利用者が正例として指定するテキストに顕著に見られる特徴があれば、それを抽出することができる。このため、何らかの特徴が抽出された場合、利用者は、正例として指定したテキストには共通の特徴があることを知ることができる。しかしながら、抽出された特徴は、正例として指定されたテキスト全般に一様に出現しているとは限らない。また、正例として指定されたテキストだけに出現しているとも限らない。 By text mining, if there is a feature that is noticeable in the text specified by the user as a positive example, it can be extracted. For this reason, when some feature is extracted, the user can know that the text specified as the positive example has a common feature. However, the extracted features do not always appear uniformly throughout the text designated as a positive example. Moreover, it does not necessarily appear only in the text designated as a positive example.
例えば、製品に関する問い合わせを受け付けるコンタクトセンターにおける応対記録に対して、受付年月が「2005年10月」で、問い合わせ種別が「修理依頼」のテキストを正例としてテキストマイニングを行い、正例の特徴として単語「ハードディスク」が抽出されたとする。これは、受付年月が「2006年10月」で、問い合わせ種別が「修理依頼」のテキストにおいては、その他のテキストと比べ、単語「ハードディスク」が偏って出現していることを意味している。利用者は、この結果から、2005年10月の修理依頼は、他と比べて「ハードディスク」に関するものが多かったことを知ることができる。 For example, in response to a response record at a contact center that accepts inquiries about products, text mining is performed using the text with the date of acceptance “October 2005” and the type of inquiry “repair request” as a positive example. And the word “hard disk” is extracted. This means that the word “hard disk” appears in a biased manner in the text with the reception date “October 2006” and the inquiry type “repair request” compared to other texts. . From this result, the user can know that the repair requests in October 2005 were more related to “hard disks” than others.
このとき、実際には、単語「ハードディスク」が、受付年月が「2005年10月」で、問い合わせ種別が「修理依頼」であるテキストのうち、機種名が「PC−100」であるテキストに特に偏って出現している可能性がある。また、単語「ハードディスク」が、受付日が「2005年11月」で、問い合わせ種別が「修理依頼」であるテキストにも他と比べて多く出現している可能性もある。しかしながら、利用者は、従来それを知ることができなかった。 In this case, the word “hard disk” is actually a text with the model name “PC-100” among the texts with the reception date “October 2005” and the inquiry type “repair request”. There is a possibility that it appears in particular. In addition, the word “hard disk” may appear more frequently in the text with the reception date “November 2005” and the inquiry type “repair request” than others. However, the user has not been able to know it conventionally.
以上のように、上述した従来のテキストマイニング装置の問題点は、テキストから特徴が抽出されたときに、その特徴がどの範囲のテキストに出現しているのかを利用者に提示できないことにある。すなわち、従来のテキストマイニング装置では、利用者により選択された特徴(テキストの)に基づく利用者が陽に指定しない新たなテキスト分類に有効な属性値(または、属性値の組み合わせ)を知ることができない。その理由は、上述した従来のテキストマイニング装置では、抽出された特徴が出現するテキストが、その特徴が出現するということ以外に、どのような共通する特徴を持つのかという情報を利用者に提示しないためである。 As described above, the problem with the above-described conventional text mining apparatus is that when a feature is extracted from the text, the range of the text in which the feature appears cannot be presented to the user. That is, in the conventional text mining device, the attribute value (or combination of attribute values) effective for a new text classification not explicitly specified by the user based on the feature (text) selected by the user is known. Can not. The reason is that the above-described conventional text mining device does not present to the user information on what common features the text in which the extracted features appear has in addition to the appearance of the features. Because.
本発明の目的は、上述した問題点を解決するテキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラムを提供することにある。 An object of the present invention is to provide a text mining apparatus, a text mining method, and a text mining program that solve the above-described problems.
本発明の第1のテキストマイニング装置は、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件に基づいてテキストマイニングを行い、第1種の正例と第1種の負例とを分類するのに有効な部分を特徴として抽出し、特徴の中から着目すべき特徴を前記利用者に選択させ、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別し、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成するデータ処理装置を有する。 The first text mining device of the present invention performs text mining based on an attribute value condition which is a condition of the first type positive example and the first type negative example specified by the user, and performs the first type positive example. A portion effective for classifying an example and a first type negative example is extracted as a feature, and a feature to be noticed is selected from the features, and the user selects the first type positive example, and the first type The text corresponding to the negative example is classified into the second type of positive text in which the selected feature appears and the second type of negative text in which the selected feature does not appear. It has a data processing device that generates an attribute value condition that is a new feature effective for classifying positive examples and second type negative examples.
本発明の第2のテキストマイニング装置は、複数のテキスト、および、前記テキストごとの属性値を格納する記憶装置と、前記記憶装置から前記テキスト、および、前記テキストごとの属性値を読み出し、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件を、前記テキスト、および、前記テキストごとの属性値に適用しテキストマイニングを行い、第1種の正例と第1種の負例とを分類するのに有効な部分を特徴として抽出し、前記記憶装置にマイニング結果として格納し、特徴の中から着目すべき特徴を前記利用者に選択させ、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別し、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成し出力装置に出力するデータ処理装置とを有する。 A second text mining device according to the present invention stores a plurality of texts and an attribute value for each text, reads the text and attribute values for each text from the storage device, and a user Text mining is performed by applying the attribute value condition, which is the condition of the first type positive example and the first type negative example, to the text and the attribute value for each text. A portion effective for classifying an example and a negative example of the first type is extracted as a feature, stored as a mining result in the storage device, and a feature to be noticed is selected from the features, and the user selects The text corresponding to one type of positive example and one type of negative example is the text of the second type of positive example in which the selected feature appears and the type of negative example in which the selected feature does not appear. Sort into text, It has two positive cases and the data processing device for outputting the generated output device a valid new features become attribute value condition to classify the second type of negative examples.
本発明の第3のテキストマイニング装置は、前記第1、または、第2のテキストマイニング装置であって、第1種の正例と第1種の負例とを分類するのに有効な部分が、事前に設定された第1の基準に基づく「第1種の正例のテキストでの出現頻度が高く、第1種の負例のテキストでの出現頻度が低い語句」である。 The third text mining device of the present invention is the first or second text mining device, and has an effective part for classifying the first type positive example and the first type negative example. “A phrase having a high appearance frequency in the text of the first type positive example and a low appearance frequency in the text of the first type negative example” based on the first criterion set in advance.
本発明の第4のテキストマイニング装置は、前記第1、第2、または、第3のテキストマイニング装置であって、第2種の正例と、第2種の負例とを分類するのに有効な新たな特徴となる属性値条件が、事前に設定された第2の基準に基づく「第2種の正例に対する属性値として出現頻度が高く、第2種の負例に対する属性値として出現頻度が低い属性値」の組み合わせである。 A fourth text mining device of the present invention is the first, second, or third text mining device for classifying a second type positive example and a second type negative example. An attribute value condition that becomes a valid new feature is based on a second criterion set in advance, “appears frequently as an attribute value for the second type positive example, and appears as an attribute value for the second type negative example. This is a combination of “attribute values with low frequency”.
本発明の第5のテキストマイニング装置は、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件を入力し、第1種の正例の条件である属性値条件に基づいてテキストマイニングを行い、第1種の正例を分類するのに有効な部分を特徴として抽出し、特徴の中から着目すべき特徴を前記利用者に選択させ、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別し、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成するデータ処理装置を有する。 The fifth text mining device of the present invention inputs an attribute value condition that is a condition of the first type positive example and the first type negative example designated by the user, and the condition of the first type positive example Text mining is performed based on a certain attribute value condition, a portion effective for classifying the first type of positive example is extracted as a feature, the feature to be noted is selected from the features, and the user selects the first feature. The text corresponding to the positive example of the species and the negative example of the first type is classified into the text of the second type of positive example in which the selected feature appears and the text of the second type of negative example in which the selected feature does not appear. And a data processing device for generating an attribute value condition that is a new feature effective for classifying the second type positive example and the second type negative example.
本発明の第6のテキストマイニング装置は、利用者により指定された第1種の正例の条件である属性値条件に基づいてテキストマイニングを行い、属性値条件に適合するテキストを第1種の正例とし、残りのテキストを第1種の負例として分類するのに有効な部分を特徴として抽出し、特徴の中から着目すべき特徴を前記利用者に選択させ、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別し、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成するデータ処理装置を有する。 The sixth text mining apparatus of the present invention performs text mining based on an attribute value condition which is a first type of positive condition specified by the user, and converts the text matching the attribute value condition to the first type. As a positive example, a portion that is effective for classifying the remaining text as a first type negative example is extracted as a feature, the feature to be noticed is selected from the features, and the user selects the first type positive example. And the text corresponding to the first type negative example is classified into the second type positive example text in which the selected feature appears and the second type negative example text in which the selected feature does not appear. And a data processing device for generating an attribute value condition which is a new feature effective for classifying the second type positive example and the second type negative example.
本発明の第7のテキストマイニング装置は、格納されている全テキスト中で頻出する要素を特徴として抽出し、特徴の中から着目すべき特徴を前記利用者に選択させ、選択された特徴が出現する正例のテキストと選択された特徴が出現しない負例のテキストとに分別し、正例と負例とを分類するのに有効な新たな特徴となる属性値条件を生成するデータ処理装置を有する。 The seventh text mining device of the present invention extracts elements that appear frequently in all stored text as features, causes the user to select features to be noted from the features, and the selected features appear A data processing device that generates an attribute value condition that is a new feature effective for classifying positive examples and negative examples by separating them into positive example texts and negative example texts in which the selected feature does not appear Have.
本発明の第1のテキストマイニング方法は、テキストマイニング装置が、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件に基づいてテキストマイニングを行い第1種の正例と第1種の負例とを分類するのに有効な部分を特徴として抽出する手順と、抽出した特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別する手順と、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順と、を含む。 In the first text mining method of the present invention, the text mining device performs text mining based on an attribute value condition which is a condition of the first type positive example and the first type negative example designated by the user. A procedure for extracting, as a feature, a portion effective for classifying one positive example and a first negative example, a procedure for causing the user to select a feature to be noted from the extracted features, The text corresponding to one type of positive example and one type of negative example is the text of the second type of positive example in which the selected feature appears and the type of negative example in which the selected feature does not appear. And a procedure for generating an attribute value condition that is a new feature effective for classifying the second type positive example and the second type negative example.
本発明の第2のテキストマイニング方法は、複数のテキスト、および、前記テキストごとの属性値を格納する記憶装置と、データ処理装置とを備えるテキストマイニング装置におけるテキストマイニング方法であって、前記データ処理装置が、前記記憶装置から前記テキスト、および、前記テキストごとの属性値を読み出す手順と、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件を、前記テキスト、および、前記テキストごとの属性値に適用しテキストマイニングを行い、第1種の正例と第1種の負例とを分類するのに有効な部分を特徴として抽出し、前記記憶装置にマイニング結果として格納する手順と、抽出した特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別し、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成し出力装置に出力する手順とを含む。 A second text mining method of the present invention is a text mining method in a text mining device comprising a plurality of texts, a storage device storing attribute values for each text, and a data processing device, wherein the data processing The apparatus reads out the text and the attribute value for each text from the storage device, and the attribute value condition which is the condition of the first type positive example and the first type negative example specified by the user. , Applying text mining to the text and the attribute value for each text, extracting as a feature a portion effective for classifying the first type positive example and the first type negative example, and storing the memory A procedure for storing the result as a mining result in the apparatus; a procedure for causing the user to select a feature to be noted from the extracted features; a first type positive example; Are classified into a second type of positive example text in which the selected feature appears and a second type of negative example text in which the selected feature does not appear. And a procedure for generating an attribute value condition as a new feature effective for classifying the example and the second type negative example and outputting the attribute value condition to the output device.
本発明の第3のテキストマイニング方法は、前記第1、または、第2のテキストマイニング方法であって、第1種の正例と第1種の負例とを分類するのに有効な部分が、事前に設定された第1の基準に基づく「第1種の正例のテキストでの出現頻度が高く、第1種の負例のテキストでの出現頻度が低い語句」である。 A third text mining method of the present invention is the first or second text mining method, wherein a portion effective for classifying a first type positive example and a first type negative example is provided. “A phrase having a high appearance frequency in the text of the first type positive example and a low appearance frequency in the text of the first type negative example” based on the first criterion set in advance.
本発明の第4のテキストマイニング方法は、前記第1、第2、または、第3のテキストマイニング方法であって、第2種の正例と、第2種の負例とを分類するのに有効な新たな特徴となる属性値条件が、事前に設定された第2の基準に基づく「第2種の正例に対する属性値として出現頻度が高く、第2種の負例に対する属性値として出現頻度が低い属性値」の組み合わせである。 A fourth text mining method of the present invention is the first, second, or third text mining method for classifying a second type positive example and a second type negative example. An attribute value condition that becomes a valid new feature is based on a second criterion set in advance, “appears frequently as an attribute value for the second type positive example, and appears as an attribute value for the second type negative example. This is a combination of “attribute values with low frequency”.
本発明の第5のテキストマイニング方法は、テキストマイニング装置が、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件を入力する手順と、第1種の正例の条件である属性値条件に基づいてテキストマイニングを行い、第1種の正例を分類するのに有効な部分を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別する手順と、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順と、を含む。 According to a fifth text mining method of the present invention, the text mining device inputs an attribute value condition that is a condition of the first type positive example and the first type negative example designated by the user, Text mining based on the attribute value condition, which is a condition of the positive example of the seed, and a procedure for extracting a portion effective for classifying the positive example of the first kind as a feature, and a feature to be noticed from the feature The procedure selected by the user, the first type positive example, and the text corresponding to the first type negative example are selected as the second type positive example text in which the selected feature appears and the selected feature. To generate the attribute value condition which is a new feature effective for classifying the second type negative example and the second type negative example into the second type negative example text that does not appear Procedures.
本発明の第6のテキストマイニング方法は、テキストマイニング装置が、利用者により指定された第1種の正例の条件である属性値条件に基づいてテキストマイニングを行い、属性値条件に適合するテキストを第1種の正例とし、残りのテキストを第1種の負例として分類するのに有効な部分を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別する手順と、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とを含む。 According to a sixth text mining method of the present invention, a text mining device performs text mining based on an attribute value condition which is a first type of positive condition designated by a user, and text conforming to the attribute value condition. Is a positive example of the first type, and a procedure for extracting as a feature a portion effective for classifying the remaining text as a negative example of the first type, and causing the user to select a feature to be noted from among the features The procedure, the first type positive example, and the text corresponding to the first type negative example, the second type positive example text in which the selected feature appears and the second type in which the selected feature does not appear And a procedure for generating an attribute value condition as a new feature effective for classifying the second type positive example and the second type negative example.
本発明の第7のテキストマイニング方法は、テキストマイニング装置が、格納されている全テキスト中で頻出する要素を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、選択された特徴が出現する正例のテキストと選択された特徴が出現しない負例のテキストとに分別し、正例と負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とを含む。 According to a seventh text mining method of the present invention, the text mining device causes the user to select a feature to be noticed from among a procedure in which elements frequently appearing in all stored texts are extracted as features. Separating the procedure into positive example text in which the selected feature appears and negative example text in which the selected feature does not appear, and an attribute that becomes a new feature effective for classifying the positive example and the negative example Generating a value condition.
本発明の第1のテキストマイニングプログラムは、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件に基づいてテキストマイニングを行い第1種の正例と第1種の負例とを分類するのに有効な部分を特徴として抽出する手順と、抽出した特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別する手順と、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とをテキストマイニング装置に実行させる。 The first text mining program of the present invention performs text mining based on an attribute value condition which is a condition of the first type positive example and the first type negative example specified by the user, and the first type positive example. And a procedure for extracting a portion effective for classifying the first type negative example as a feature, a procedure for causing the user to select a feature to be noted from the extracted features, and a first type positive example , And the text corresponding to the first type negative example is classified into the second type positive example text in which the selected feature appears and the second type negative example text in which the selected feature does not appear. The text mining apparatus is caused to execute a procedure and a procedure for generating an attribute value condition that is a new feature effective for classifying the second type positive example and the second type negative example.
本発明の第2のテキストマイニングプログラムは、複数のテキスト、および、前記テキストごとの属性値を格納する記憶装置と、データ処理装置とを備えるテキストマイニング装置におけるテキストマイニングプログラムであって、前記記憶装置から前記テキスト、および、前記テキストごとの属性値を読み出す手順と、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件を、前記テキスト、および、前記テキストごとの属性値に適用しテキストマイニングを行い、第1種の正例と第1種の負例とを分類するのに有効な部分を特徴として抽出し、前記記憶装置にマイニング結果として格納する手順と、抽出した特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別し、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成し出力装置に出力する手順とを前記データ処理装置に実行させる。 A second text mining program of the present invention is a text mining program in a text mining device comprising a plurality of texts, a storage device storing attribute values for each text, and a data processing device, wherein the storage device A procedure for reading the text and the attribute value for each text, and an attribute value condition which is a condition of the first type positive example and the first type negative example designated by the user, the text, and Text mining is applied to the attribute value for each text, and a portion effective for classifying the first type positive example and the first type negative example is extracted as a feature and stored as a mining result in the storage device A procedure for selecting the feature to be noticed from the extracted features, a first type positive example, and a first type negative example The corresponding text is classified into a second type of positive example text in which the selected feature appears and a second type of negative example text in which the selected feature does not appear. The data processing apparatus is caused to execute a procedure for generating an attribute value condition as a new feature effective for classifying the negative example of the seed and outputting the attribute value condition to the output apparatus.
本発明の第3のテキストマイニングプログラムは、前記第1、または、第2のテキストマイニングプログラムであって、第1種の正例と第1種の負例とを分類するのに有効な部分が、事前に設定された第1の基準に基づく「第1種の正例のテキストでの出現頻度が高く、第1種の負例のテキストでの出現頻度が低い語句」である。 The third text mining program of the present invention is the first or second text mining program, wherein the effective part for classifying the first type positive examples and the first type negative examples is provided. “A phrase having a high appearance frequency in the text of the first type positive example and a low appearance frequency in the text of the first type negative example” based on the first criterion set in advance.
本発明の第4のテキストマイニングプログラムは、前記第1、第2、または、第3のテキストマイニングプログラムであって、第2種の正例と、第2種の負例とを分類するのに有効な新たな特徴となる属性値条件が、事前に設定された第2の基準に基づく「第2種の正例に対する属性値として出現頻度が高く、第2種の負例に対する属性値として出現頻度が低い属性値」の組み合わせである。 A fourth text mining program according to the present invention is the first, second, or third text mining program for classifying the second type positive example and the second type negative example. An attribute value condition that becomes a valid new feature is based on a second criterion set in advance, “appears frequently as an attribute value for the second type positive example, and appears as an attribute value for the second type negative example. This is a combination of “attribute values with low frequency”.
本発明の第5のテキストマイニングプログラムは、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件を入力する手順と、第1種の正例の条件である属性値条件に基づいてテキストマイニングを行い、第1種の正例を分類するのに有効な部分を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別する手順と、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とをテキストマイニング装置に実行させる。 The fifth text mining program of the present invention includes a procedure for inputting an attribute value condition which is a condition of a first type positive example and a first type negative example designated by the user, and a first type positive example. Text mining based on the attribute value condition that is a condition, a procedure for extracting a portion effective for classifying the first type of positive example as a feature, and selecting a feature to be noticed from the features to the user A second type of positive example in which the selected feature appears and a second feature in which the selected feature does not appear, and the procedure corresponding to the first type positive example and the text corresponding to the first type negative example Text mining includes a procedure for separating text into negative example text and a procedure for generating an attribute value condition that is a new feature effective for classifying the second type positive example and the second type negative example. Let the device run.
本発明の第6のテキストマイニングプログラムは、利用者により指定された第1種の正例の条件である属性値条件に基づいてテキストマイニングを行い、属性値条件に適合するテキストを第1種の正例とし、残りのテキストを第1種の負例として分類するのに有効な部分を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別する手順と、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とをテキストマイニング装置に実行させる。 The sixth text mining program of the present invention performs text mining on the basis of an attribute value condition which is a first type of positive condition specified by the user, and converts the text matching the attribute value condition to the first type. A procedure for extracting, as a feature, a portion effective for classifying the remaining text as a first type negative example, a procedure for causing the user to select a feature to be noted from the features, The text corresponding to the positive example of the species and the negative example of the first type is classified into the text of the second type of positive example in which the selected feature appears and the text of the second type of negative example in which the selected feature does not appear. And a procedure for generating an attribute value condition, which is a new feature effective for classifying the second type positive example and the second type negative example, is executed by the text mining apparatus.
本発明の第7のテキストマイニングプログラムは、格納されている全テキスト中で頻出する要素を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、選択された特徴が出現する正例のテキストと選択された特徴が出現しない負例のテキストとに分別し、正例と負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とをテキストマイニング装置に実行させる。 The seventh text mining program of the present invention includes a procedure for extracting, as a feature, an element that frequently appears in all stored text, a procedure for causing the user to select a feature to be noted from the features, The attribute value condition that becomes a new feature effective for classifying the positive example and the negative example is generated by separating the positive example text in which the feature appears and the negative example text in which the selected feature does not appear. The procedure is executed by a text mining device.
本発明の第8のテキストマイニング装置は、属性付きのテキストの集合から特徴を抽出して出力するテキストマイニング装置であって、前記特徴の中から着目すべき特徴を入力する分析対象特徴指定手段と、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを抽出する正例負例テキスト抽出手段と、該正例テキストと該負例テキストとを分類するのに有効な属性的な特徴を抽出する属性特徴抽出手段とを有する。 An eighth text mining device of the present invention is a text mining device that extracts and outputs features from a set of texts with attributes, and includes analysis target feature designating means for inputting features to be noted from the features. A positive example negative example text extracting means for extracting a positive example text and a negative example text from the text depending on whether or not the inputted feature appears in the text, and the positive example text and the negative example text, Attribute feature extraction means for extracting attribute features effective for classification.
本発明の第9のテキストマイニング装置は、テキストの集合を保持するテキスト記憶手段と、前記テキストに対する属性値を保持する属性記憶手段と、テキストマイニングの条件を入力する条件指定手段と、前記条件に従ってテキストの特徴を抽出するテキストマイニング手段と、前記特徴の中から着目すべき特徴を入力する分析対象特徴指定手段と、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを抽出する正例負例テキスト抽出手段と、該正例テキストと該負例テキストとを分類するのに有効な属性的な特徴を抽出する属性特徴抽出手段と、を有する。 According to a ninth text mining device of the present invention, a text storage means for holding a set of text, an attribute storage means for holding an attribute value for the text, a condition designating means for inputting a text mining condition, and according to the condition Text mining means for extracting text features, analysis target feature designating means for inputting features to be noticed from among the features, and whether or not the inputted features appear in the text, positive examples from the text Positive example negative example text extracting means for extracting text and negative example text, and attribute feature extracting means for extracting attribute features effective for classifying the positive example text and the negative example text .
本発明の第8のテキストマイニング方法は、コンピュータが属性付きのテキストの集合から特徴を抽出して出力するテキストマイニング方法であって、前記特徴の中から着目すべき特徴を前記コンピュータが入力するステップと、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを前記コンピュータが抽出するステップと、該正例テキストと該負例テキストとを分類するのに有効な属性的な特徴を前記コンピュータが抽出するステップとを含む。 An eighth text mining method of the present invention is a text mining method in which a computer extracts and outputs features from a set of texts with attributes, and the computer inputs features to be noted from the features. The computer extracts positive text and negative text from the text according to whether the input feature appears in the text, and classifies the positive text and the negative text The computer extracting attribute features that are useful for the computer.
本発明の第9のテキストマイニング方法は、コンピュータにテキストの集合と、前記テキストに対する属性値とを記憶させ、前記コンピュータに、テキストマイニングの条件を入力するステップと、前記条件に従ってテキストの特徴を抽出するステップと、前記特徴の中から着目すべき特徴を入力するステップと、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを抽出するステップと、該正例テキストと該負例テキストとを分類するのに有効な属性的な特徴を抽出するステップとを含む。 According to a ninth text mining method of the present invention, a computer stores a set of texts and attribute values for the text, the text mining conditions are input to the computer, and text features are extracted according to the conditions. A step of inputting a feature to be noticed from among the features, and a step of extracting positive example text and negative example text from the text depending on whether or not the inputted feature appears in the text; And extracting an attribute characteristic effective for classifying the positive example text and the negative example text.
本発明の第8のテキストマイニングプログラムは、属性付きのテキストの集合から特徴を抽出して出力する処理をコンピュータに実行させるテキストマイニングプログラムであって、前記特徴の中から着目すべき特徴を入力する分析対象特徴指定処理と、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを抽出する正例負例テキスト抽出処理と、該正例テキストと該負例テキストとを分類するのに有効な属性的な特徴抽出する属性特徴抽出処理とを前記コンピュータに実行させる。 An eighth text mining program of the present invention is a text mining program for causing a computer to execute processing for extracting and outputting features from a set of texts with attributes, and inputting features to be noted from the features. Analysis target feature designation processing, positive example negative example text extraction processing for extracting positive example text and negative example text from the text, depending on whether the input feature appears in the text, the positive example text, The computer is caused to execute attribute feature extraction processing for extracting attribute features effective for classifying the negative example text.
本発明の第9のテキストマイニングプログラムは、記憶装置にテキストの集合と前記テキストに対する属性値とを記憶させる処理と、テキストマイニングの条件を入力する条件指定処理と、前記条件に従ってテキストの特徴を抽出するテキストマイニング処理と、前記特徴の中から着目すべき特徴を入力する分析対象特徴指定処理と、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを抽出する正例負例テキスト抽出処理と、該正例テキストと該負例テキストと分類するのに有効な属性的な特徴抽出する属性特徴抽出処理と、をコンピュータに実行させる。 According to a ninth text mining program of the present invention, a process for storing a set of texts and an attribute value for the text in a storage device, a condition designating process for inputting text mining conditions, and extracting text features according to the conditions Depending on whether the input feature appears in the text, the positive text and the negative text from the text And a positive example negative example text extraction process, and an attribute feature extraction process that extracts an attribute characteristic effective for classifying the positive example text and the negative example text.
本発明の効果は、利用者にとって利用者により選択された特徴(テキストの)に基づく利用者が陽に指定しない新たなテキスト分類に有効な属性値(または、属性値の組み合わせ)を知ることができることである。 The effect of the present invention is that the user knows attribute values (or combinations of attribute values) effective for a new text classification that is not explicitly specified by the user based on the feature (text) selected by the user. It can be done.
その理由は、利用者により指定されたテキストの属性値に基づくテキストマイニングによって抽出されたテキストの特徴のうち、利用者が選択したものが出現するテキストを正例、出現しないテキストを負例としてデータマイニングを行い、正例と負例とを分類するのに有効な属性値または属性値の組み合わせを抽出して出力するからである。 The reason for this is that, among text features extracted by text mining based on text attribute values specified by the user, the text that the user selected appears as a positive example, and the text that does not appear as a negative example This is because mining is performed and attribute values or combinations of attribute values effective for classifying positive examples and negative examples are extracted and output.
まず、本発明の概要について説明する。本発明のテキストマイニング装置は、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件に基づいてテキストマイニングを行い、第1種の正例と第1種の負例とを分類するのに有効な部分を特徴として抽出し、特徴の中から着目すべき特徴を利用者に選択させる。 First, an outline of the present invention will be described. The text mining device of the present invention performs text mining based on an attribute value condition which is a condition of the first type positive example and the first type negative example specified by the user, and the first type positive example and the first type positive example. A portion effective for classifying one kind of negative example is extracted as a feature, and a feature to be noted is selected from the features.
次に、テキストマイニング装置は、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別し、第2種の正例と、第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する。 Next, the text mining device determines that the text corresponding to the first type positive example and the first type negative example are the text of the second type positive example in which the selected feature appears and the selected feature is selected. The attribute value condition which becomes a new feature effective for classifying the second type positive example and the second type negative example is generated by classifying the text into the second type negative example text that does not appear.
ここで、「正例と負例とを分類するのに有効な部分」とは、たとえば、「正例のテキストでの出現頻度が高く、負例のテキストでの出現頻度が低い語句」である。すなわち、「正例のテキストには出現し、負例のテキストには、出現しない語句」に限定されるものではない。また、たとえば、出現頻度が高い、出現頻度が低いは、事前に設定されたそれぞれの「閾値」等との比較により決定することが可能である。また、たとえば、正例のテキストに出現する頻度と、負例のテキストに出現する頻度との比から決定することも可能である。このように、出現頻度の高低は、ある事前に設定された基準に基づいて決定されればよい。また、分類は、出現頻度以外の種々の尺度に基づくことが可能である。以降、「分類」を以上のような意味で使用する。 Here, the “effective portion for classifying positive examples and negative examples” is, for example, “a phrase having a high appearance frequency in the positive example text and a low appearance frequency in the negative example text”. . That is, the phrase is not limited to “a phrase that appears in positive text and does not appear in negative text”. Further, for example, whether the appearance frequency is high or the appearance frequency is low can be determined by comparison with respective “threshold values” set in advance. Further, for example, it is possible to determine from the ratio of the frequency of appearing in the positive example text to the frequency of appearing in the negative example text. As described above, the appearance frequency may be determined based on a predetermined criterion. The classification can be based on various scales other than the appearance frequency. Hereinafter, “classification” is used in the above meaning.
次に、本発明の第1の実施の形態について図面を参照して詳細に説明する。図1は、本発明の第1の実施の形態の構成を示すブロック図である。図1を参照すると、本発明の第1実施の形態のテキストマイニング装置は、キーボード、マウス等の入力装置10と、情報を記憶するハードディスク等の記憶装置21と、プログラム制御により動作するデータ処理装置31と、ディスプレイ装置等の出力装置40とから構成される。
Next, a first embodiment of the present invention will be described in detail with reference to the drawings. FIG. 1 is a block diagram showing the configuration of the first exemplary embodiment of the present invention. Referring to FIG. 1, a text mining device according to a first embodiment of the present invention includes an
記憶装置21は、属性記憶部201と、テキスト記憶部202と、マイニング結果保持部203とを含む。属性記憶部201は、テキスト記憶部202に記憶される各テキストに対応付けて、そのテキストに付与された属性値の情報を記憶する。テキスト記憶部202は、テキストマイニングの対象となるテキストを記憶する。
The
図2にテキスト記憶部202の一例を、図3に属性記憶部201の一例を示す。この例では、各テキストに一意のテキスト番号を付与してテキスト記憶部202に格納し、属性記憶部201では、各テキスト番号に対して「問い合わせ種別」「機種名」「受付年月」「担当者」の4種類の属性の属性値を格納している。
FIG. 2 shows an example of the
なお、属性記憶部201とテキスト記憶部202とは、完全に分離する必要はなく、テキストとそのテキストに対する属性とを同時に記憶するように構成してもよい。マイニング結果保持部203は、テキスト記憶部202に記憶されているテキストに対して、テキストマイニングを行った結果得られる特徴を記憶する。
Note that the
データ処理装置31は、属性値条件指定手段301と、テキストマイニング手段302と、分析対象特徴指定手段303と、正例負例テキスト抽出手段304と、属性特徴抽出手段305とを含む。属性値条件指定手段301は、利用者が指定する正例(上述の第1種の)の属性値条件と負例(上述の第1種の)の属性値条件とを、入力装置10を通して読み取る。
The
テキストマイニング手段302は、テキスト記憶部202に記憶されているテキストに対して、属性値条件指定手段301が読み取った正例の属性値条件に適合するものを正例のテキスト、負例の属性値条件に適合するものを負例のテキストとしてテキストマイニングを適用する。これにより、テキストマイニング手段302は、正例のテキストの特徴として、正例を負例と分類するのに有効な特徴を抽出し、出力装置40を通して利用者に出力する。また、抽出された特徴をマイニング結果保持部203に格納する。
The text mining means 302 converts the text stored in the
テキストマイニングでは、一般に、単語、複数の単語からなる集合、フレーズ、文等、テキストの一部を構成する要素を特徴として抽出する。すなわち、テキストマイニングでは、これらの要素のうち、たとえば、負例のテキストにはあまり出現せず、正例のテキストに偏って出現するものを、正例のテキストの特徴として抽出する。このテキストマイニングには、非特許文献1記載の技術が部分的に適用可能である。
In text mining, in general, elements constituting a part of text such as a word, a set of a plurality of words, a phrase, a sentence, and the like are extracted as features. That is, in the text mining, for example, those elements that do not appear so much in the negative example text and appear biased in the positive example text are extracted as features of the positive example text. The technology described in
なお、テキストの構造を解析し、テキストをその解析結果の構造化データに変換した後に、構造化データの部分構造を特徴として抽出するテキストマイニング手法がある。これは、例えば、単語間の係り受け関係を事前に解析しておき、係り受けの関係にある2つの単語を特徴として抽出する手法や、依存構造解析によりテキストを依存構造木に変換し、その部分木を特徴として抽出する方法等である。このような手法を用いる場合は、テキストから得られた構造化データにある部分構造が包含されている場合に、該テキストに該部分構造が出現すると見なす。 There is a text mining technique in which the structure of text is analyzed, the text is converted into structured data as a result of the analysis, and then the partial structure of the structured data is extracted as a feature. This is because, for example, the dependency relationship between words is analyzed in advance, and two words in the dependency relationship are extracted as features, or the text is converted into a dependency structure tree by dependency structure analysis. For example, a method of extracting a subtree as a feature. When such a method is used, when a partial structure is included in structured data obtained from text, it is considered that the partial structure appears in the text.
テキストマイニング手段302は、テキストマイニングによって得られた特徴を出力装置40を通して利用者に出力するとともに、マイニング結果保持部203に格納する。なお、出力装置40を通して利用者に出力する情報は、抽出された特徴以外に、その特徴が出現するテキストが何件あるか、その特徴がどの程度正例のテキストに偏って出現しているか等の付加的な情報を含んでいてもよい。
The text mining means 302 outputs the characteristics obtained by text mining to the user through the
分析対象特徴指定手段303は、テキストマイニング手段302によって出力された特徴のうち、着目すべき特徴を利用者に指定させ、その指定内容を入力装置10を通して読み取る。
The analysis target
正例負例テキスト抽出手段304は、テキスト記憶部202に記憶されているテキストのうち、テキストマイニング手段302の処理の対象となったテキスト、すなわち、属性値条件指定手段301が読み取った正例または負例の属性値条件のいずれかに適合するテキストの各々について、分析対象特徴指定手段303が読み取った特徴が出現するかどうかを判別し、その特徴が出現するテキストを正例(上述の第2種の)、その特徴が出現しないテキストを負例(上述の第2種の)として抽出する。
The positive example negative example
なお、正例負例テキスト抽出手段304による正例と負例の判別を高速化するために、テキストマイニング手段302が、各特徴がどのテキストに出現するかを示すインデックスを作成して記録しておき、正例負例テキスト抽出手段304が、そのインデックスを参照して正例と負例との判別を行うようにしてもよい。
In order to speed up the discrimination between the positive example and the negative example by the positive example / negative example
分析対象特徴指定手段303が、利用者に特徴を指定させる際、特徴を1つだけ指定させるようにしてもよいし、複数指定させるようにしてもよい。分析対象特徴指定手段303が利用者に複数の特徴を指定させる場合には、正例負例テキスト抽出手段304は、そのいずれかの特徴が出現するテキストを正例としてもよいし、そのすべての特徴が出現するテキストを正例とするようにしてもよい。
When the analysis target
また、正例負例テキスト抽出手段304が正例と負例とを判別する際、分析対象特徴指定手段303が読み取った特徴がある閾値以上の回数出現するテキストのみを正例として判別するようにしてもよい。
In addition, when the positive example negative example
属性特徴抽出手段305は、正例負例テキスト抽出手段304によって抽出された正例および負例のテキストを対象として、データマイニングを適用し、正例のテキストと負例のテキストとを分類するのに有効な特徴的な属性値または属性値の組み合わせを抽出して、出力装置40を通して利用者に出力する。
The attribute
本発明の第1の実施の形態において、属性特徴抽出手段305が適用するデータマイニング手法は、特定の方法に限定されない。
In the first embodiment of the present invention, the data mining technique applied by the attribute
例えば、正例のテキストに特徴的な属性値または属性値の組み合わせを抽出するためのデータマイニング手法として、決定木分析の手法を用いることができる。すなわち、正例のテキストと負例のテキストを分類するための属性値の組み合わせを分岐条件とする決定木を求め、決定木において正例にいたるパスをたどるときの属性値の組み合わせを正例のテキストに特有の属性値の組み合わせとして抽出することが可能である。なお、決定木は、例えば、非特許文献2に記載される手法を用いて求めることができる。 For example, a decision tree analysis technique can be used as a data mining technique for extracting attribute values or combinations of attribute values that are characteristic of positive text. That is, a decision tree having a branch condition that is a combination of attribute values for classifying positive example text and negative example text is obtained, and the combination of attribute values when following the path leading to the positive example in the decision tree is obtained. It can be extracted as a combination of text-specific attribute values. In addition, a decision tree can be calculated | required using the method described in the nonpatent literature 2, for example.
また、同様に、正例のテキストに特徴的な属性値または属性値の組み合わせを抽出するためのデータマイニング手法として、例えば、相関分析の手法を用いることもできる。すなわち、正例のテキストの集合をTp、属性値の組み合わせによる条件Vを持つテキストの集合をT(V)、テキスト集合Xに属するテキストの数をN(X)と表すとき、確信度C(V)=N(Tp∩T(V))/N(T(V))が予め定める閾値Cthより高く、かつ、支持度S(V)=N(Tp∩T(V))が予め定める閾値Sthより高い場合に、Vで表される属性値の組み合わせを正例のテキストに特有の属性値の組み合わせとして抽出する。これは、最小支持度と最小確信度を満たす相関ルールを抽出することに相当するため、例えば、非特許文献3に記載される手法により実現することが可能である。 Similarly, as a data mining technique for extracting attribute values or combinations of attribute values that are characteristic of positive text, for example, a correlation analysis technique can be used. That is, when the set of positive texts is expressed as Tp, the set of texts having the condition V based on the combination of attribute values is expressed as T (V), and the number of texts belonging to the text set X is expressed as N (X), the confidence C ( V) = N (Tp∩T (V)) / N (T (V)) is higher than a predetermined threshold Cth, and the support degree S (V) = N (Tp∩T (V)) is a predetermined threshold. When it is higher than Sth, the combination of attribute values represented by V is extracted as a combination of attribute values specific to the text of the positive example. Since this corresponds to extracting an association rule that satisfies the minimum support level and the minimum certainty level, it can be realized by, for example, the method described in Non-Patent Document 3.
このほか、正例のテキストに特徴的な属性値または属性値の組み合わせを抽出することができる手法であれば、任意のデータマイニング手法を用いることができる。 In addition, any data mining technique can be used as long as it is a technique that can extract attribute values or combinations of attribute values that are characteristic of positive text.
次に、図1および図4を参照して本発明の実施の第1の形態の動作について詳細に説明する。図4は、本発明の実施の第1の形態の動作を示すフローチャートである。 Next, the operation of the first embodiment of the present invention will be described in detail with reference to FIG. 1 and FIG. FIG. 4 is a flowchart showing the operation of the first exemplary embodiment of the present invention.
まず、属性値条件指定手段301が、利用者が正例および負例の条件として指定する属性値条件を、入力装置10を介して読み取る(図4ステップA1)。
First, the attribute value
次に、テキストマイニング手段302が、テキスト記憶部202に記憶されているテキストに対して、属性値条件指定手段301が読み取った正例の属性値条件に適合するものを正例のテキスト、正例の属性値条件に適合するものを負例のテキストとしてテキストマイニングを行い、正例のテキストと負例のテキストとを分類するのに有効な特徴を抽出する(ステップA2)。
Next, the
テキストマイニング手段302は、抽出された特徴をマイニング結果保持部203に格納し、抽出された特徴をマイニング結果保持部203から読み出して出力装置40を通して利用者に出力する(ステップA3)。次に、分析対象特徴指定手段303が、入力装置10を介して利用者による特徴の選択を読み取る(ステップA4)。
The text mining means 302 stores the extracted features in the mining
正例負例テキスト抽出手段304は、テキスト記憶部202に記憶されているテキストを1つずつ読み出し(ステップA5)、そのテキストが、属性値条件指定手段301が読み取った正例または負例の属性値条件のいずれかに適合するかどうかを判定する(ステップA6)。適合する場合には(ステップA6/Yes)、正例負例テキスト抽出手段304は、そのテキストにステップA4で利用者により選択された特徴が出現するかどうかを判定する(ステップA7)。読み出したテキストに特徴が出現する場合には(ステップA7/Yes)、正例負例テキスト抽出手段304は、そのテキストを正例とし(ステップA8)、特徴が出現しない場合には(ステップA7/No)、そのテキストを負例とする(ステップA9)。正例負例テキスト抽出手段304は、すべてのテキストを処理し終えるまで、ステップA5−A9の処理をくり返す(ステップA10)。
The positive example negative example
次に、属性特徴抽出手段305が、データマイニングにより、ステップA5−A10の処理によって抽出された正例のテキストと負例のテキストとを分類するのに有効な属性値または属性値の組み合わせを抽出する(ステップA11)。次に、属性特徴抽出手段305は、抽出結果(属性値または属性値の組み合わせ)を出力装置40を介して利用者に出力する(ステップA12)。
Next, the attribute
なお、本発明の第1の実施の形態では、属性値条件指定手段301が、利用者が指定する正例の属性値条件と負例の属性値条件とを読み取り、テキストマイニング手段302が、正例の属性値条件に適合するテキストを正例、負例の属性値条件に適合するテキストを負例としてテキストマイニングを行う。これとは異なり、属性値条件指定手段301が利用者から正例の属性値条件のみを受け取り、テキストマイニング手段302が、正例の属性値条件にあてはまらないテキストすべてを負例のテキストとして扱う構成も可能である。この場合、正例負例テキスト抽出手段304は、テキスト記憶部202に記憶されている全テキストを対象に正例のテキストと負例のテキストを抽出する。
In the first embodiment of the present invention, the attribute value
また、属性値条件指定手段301を設けず、テキストマイニング手段302が、テキスト記憶部202に記憶されている全テキスト中で頻出する要素(単語、複数の単語からなる集合、フレーズ、文等)を抽出する構成が可能である。この場合も、正例負例テキスト抽出手段304は、テキスト記憶部202に記憶されている全テキストを対象に正例のテキストと負例のテキストを抽出する。
In addition, the attribute mining
次に、本発明の第1の実施の形態の効果について説明する。 Next, effects of the first exemplary embodiment of the present invention will be described.
本発明の第1の実施の形態では、正例(第1種)、負例(第1種)の条件であるテキストの属性値に基づくテキストマイニングによって抽出されたテキストの特徴のうち、利用者が選択したものが出現するテキストを正例(第2種の)、出現しないテキストを負例(第2種の)としてデータマイニングを行い、正例(第2種の)と負例(第2種の)とを分類するのに有効な属性値または属性値の組み合わせを抽出して出力する。 In the first embodiment of the present invention, among the features of the text extracted by text mining based on the text attribute values that are the conditions of the positive example (first type) and the negative example (first type), the user Data mining is performed with the text in which the selection of appears appears as a positive example (second type) and the text that does not appear as a negative example (second type), and a positive example (second type) and a negative example (second type) Attribute values or combinations of attribute values that are effective for classifying and outputting.
すなわち、本発明の第1の実施の形態では、利用者により選択された特徴(テキストの)が出現するテキスト(必ずしも、選択されたすべての特徴が出現するテキストに限定されない)に特有の属性的な特徴を利用者に提示する。 In other words, in the first embodiment of the present invention, the attribute specific to the text in which the feature (text) selected by the user appears (not necessarily limited to the text in which all the selected features appear). Unique features to the user.
したがって、利用者は、本発明の第1の実施の形態により、利用者により選択された特徴(テキストの)に基づく利用者が陽に指定しない新たなテキスト分類(第2種の正例、第2種の負例の分類)に有効な属性値(または、属性値の組み合わせ)を知ることができる。 Therefore, according to the first embodiment of the present invention, the user can create a new text classification (second type positive example, second type) that is not explicitly specified by the user based on the feature (text) selected by the user. It is possible to know attribute values (or combinations of attribute values) effective for two types of negative examples).
次に、本発明の第2の実施の形態について詳細に説明する。図1における本発明の第2の実施の形態の構成は、本発明の第1の実施の形態の構成と同じである。本発明の第2の実施の形態は、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件のうち、第1種の正例の条件である属性値条件に基づいてテキストマイニングを行い、第1種の正例をテキスト全体から分類するのに有効な部分を特徴として抽出し、特徴の中から着目すべき特徴を利用者に選択させる。 Next, a second embodiment of the present invention will be described in detail. The configuration of the second embodiment of the present invention in FIG. 1 is the same as the configuration of the first embodiment of the present invention. The second embodiment of the present invention is a condition of the first type positive example among the attribute value conditions that are conditions of the first type positive example and the first type negative example designated by the user. Text mining is performed based on the attribute value condition, a portion effective for classifying the first type positive example from the entire text is extracted as a feature, and a feature to be noticed is selected from the features.
次に、テキストマイニング装置は、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別し、第2種の正例と、第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する。 Next, the text mining device determines that the text corresponding to the first type positive example and the first type negative example are the text of the second type positive example in which the selected feature appears and the selected feature is selected. The attribute value condition which becomes a new feature effective for classifying the second type positive example and the second type negative example is generated by classifying the text into the second type negative example text that does not appear.
本発明の第2の実施の形態は、テキストマイニング手段302が、第1種の正例にだけ基づくマイニングを行えばよいので、本発明の第1の実施の形態に比べて構成が簡単になるという効果を持つ。 The second embodiment of the present invention has a simpler configuration than the first embodiment of the present invention because the text mining means 302 only needs to perform mining based on the first positive example. Has the effect.
次に、本発明の第3の実施の形態について図面を参照して詳細に説明する。図5は、本発明の第3の実施の形態の構成を示すブロック図である。図5を参照すると、本発明の第3の実施の形態は、入力装置10、記憶装置22、データ処理装置32(たとえば、コンピュータ)、出力装置40、および、テキストマイニングプログラム50とを備える。
Next, a third embodiment of the present invention will be described in detail with reference to the drawings. FIG. 5 is a block diagram showing the configuration of the third exemplary embodiment of the present invention. Referring to FIG. 5, the third embodiment of the present invention includes an
テキストマイニングプログラム50は、本発明の第1、第2の実施の形態の属性値条件指定手段301、テキストマイニング手段302、分析対象特徴指定手段303、正例負例テキスト抽出手段304、および、属性特徴抽出手段305の機能を実現する。テキストマイニングプログラム50は、記憶装置22、あるいは、図示しない他の記憶手段に格納される。
The
テキストマイニングプログラム50は、記憶データ処理装置32に読み込まれ、実行され、データ処理装置32の動作を制御する。データ処理装置32は、テキストマイニングプログラム50の制御により第1、第2の実施の形態におけるデータ処理装置31の処理と同一の処理を実行する。
The
このように、本発明の第3の実施の形態は、ハードウェアとソフトウェアとの協働により、図4の処理を実行するので、実現が容易であるという効果を持つ。 As described above, the third embodiment of the present invention has an effect that it is easy to implement because the processing of FIG. 4 is executed by cooperation of hardware and software.
次に、本発明の第1の実施の形態の実施例について図面を参照して詳細に説明する。ここでは、製品に関する問い合わせを受け付けるコンタクトセンターにおける応対記録のうち、修理依頼についての問い合わせを対象として、2005年10月の問い合わせの特徴を抽出する場合を例に、本発明の実施例の動作を説明する。 Next, examples of the first embodiment of the present invention will be described in detail with reference to the drawings. Here, the operation of the embodiment of the present invention will be described by taking as an example the case where the characteristics of the inquiry in October 2005 are extracted for the inquiry about the repair request from the response records in the contact center that accepts the inquiry about the product. To do.
属性記憶部201には、図3に示すように、各テキストに対して「問い合わせ種別」「機種名」「受付年月」「担当者」の4種類の属性の属性値が格納されている。テキスト記憶部202には、図2に示すように、テキストマイニングの対象となるテキスト(応対記録の内容)が予め記憶されている。
As shown in FIG. 3, the
このとき、まず、属性値条件指定手段301が、利用者による、テキストマイニングの正例および負例の属性値条件の指定を、入力装置10を通して読み取る。
At this time, first, the attribute value
利用者は、ここで、正例(第1種)の属性値条件として『(「問い合わせ種別」=「修理依頼」)AND(「受付年月」=「2005年10月」)』、負例(第1種)の属性値条件として『(「問い合わせ種別」=「修理依頼」)AND(「受付年月」≠「2005年10月」)』という条件を指定する。 Here, the user sets “(inquiry type” = “repair request”) AND (“reception date” = “October 2005”) ”as a positive example (first type) attribute value condition, and a negative example The condition of “(“ inquiry type ”=“ repair request ”) AND (“ reception date ”≠“ October 2005 ”)” is designated as the (first type) attribute value condition.
次に、テキストマイニング手段302が、テキスト記憶部202に記憶されているテキストのうち、「問い合わせ種別が修理依頼」で、なおかつ、「受付年月が2005年10月」のものを正例とし、「問い合わせ種別が修理依頼」で、なおかつ、「受付年月が2005年10月でない」ものを負例としてテキストマイニングを実行し、正例のテキストと負例のテキストとを分類するのに有効な特徴を抽出する。
Next, the text mining means 302 uses the text stored in the
図2のテキスト記憶部202に記録されているT1−T7のテキストでは、T1、T5、および、T7が正例(第1種)、T6が負例(第1種)となる。T2−T4のテキストは、正例の属性値条件にも負例の属性値条件にもあてはまらないため、テキストマイニングには用いられない。テキストマイニング手段302は、抽出した特徴を、出力装置40を介して利用者に出力するとともに、マイニング結果保持部203に格納する。
In the text of T1-T7 recorded in the
図6は、テキストマイニングの結果の一例を示す説明図である。ここでは、テキストマイニング手段302が、テキスト中に出現する単語を特徴として抽出するものとし、図6に示すような特徴をマイニング結果保持部203に格納する。次に、分析対象特徴指定手段303が、利用者に着目する特徴を選択させ、その選択内容を入力装置10を介して読み取る。
FIG. 6 is an explanatory diagram illustrating an example of the result of text mining. Here, the text mining means 302 extracts words appearing in the text as features, and stores the features as shown in FIG. 6 in the mining
分析対象特徴指定手段303は、例えば、テキストマイニング手段302によって出力される特徴のそれぞれに対して、その特徴を選択するかどうかを入力できるようにし、利用者に特徴を選択させることができる。
For example, the analysis target
図7は、出力装置40に表示される内容の一例を示す説明図である。図7を参照すると、分析対象特徴指定手段303が、テキストマイニング手段302によって抽出された特徴のそれぞれに対して、利用者がその特徴を選択したことを示すためのチェックボックスを表示し、利用者がチェックボックスにチェックをつけた特徴を読み取る。図7では、利用者により、単語「ハードディスク」と単語「HDD」が選択されている。
FIG. 7 is an explanatory diagram illustrating an example of contents displayed on the
正例負例テキスト抽出手段304は、テキスト記憶部202に記憶されているテキストのうち、属性値条件指定手段301が読み取った正例(第1種の)または負例(第1種の)の属性値条件のいずれかに適合するテキストの各々について、利用者が指定した特徴が出現するかどうかを判別し、特徴が出現する場合には正例(第2種の)として、特徴が出現しない場合には負例(第2種の)として抽出する。
The positive example negative example
ここでは、利用者が指定した特徴のいずれかが出現する場合に、そのテキストを正例として抽出するものとする。 Here, when any of the features specified by the user appears, the text is extracted as a positive example.
図2によると、T1のテキストは、属性値条件指定手段301が読み取った正例(第1種の)の属性値条件に適合し、なおかつ、単語「ハードディスク」を含むため、正例(第2種の)として抽出される。一方、T2−T4のテキストは、正例(第1種の)の属性値条件にも負例(第2種の)の属性値条件にもあてはまらないため、正例(第2種の)としても負例(第2種の)としても抽出されない。
According to FIG. 2, since the text of T1 matches the attribute value condition of the positive example (first type) read by the attribute value
T5のテキストは、属性値条件指定手段301が読み取った正例(第1種の)の属性値条件に適合するが、単語「ハードディスク」も単語「HDD」も含まないため、負例(第2種の)として抽出される。
The text of T5 conforms to the attribute value condition of the positive example (first type) read by the attribute value
T6のテキストは、属性値条件指定手段301が読み取った負例(第1種の)の属性値条件に適合し、なおかつ、単語「HDD」を含むため、正例(第2種の)として抽出される。T7のテキストは、属性値条件指定手段301が読み取った正例(第1種の)の属性値条件に適合し、なおかつ、単語「HDD」を含むため、正例(第2種の)として抽出される。他のテキストについても、同様に処理が行われる。
The text of T6 is extracted as a positive example (second type) because it matches the negative example (first type) attribute value condition read by the attribute value
次に、属性特徴抽出手段305が、正例負例テキスト抽出手段304によって抽出された正例(第2種の)、および、負例(第2種の)のテキストに対して、データマイニングを適用し、正例(第2種の)のテキストと負例(第2種の)のテキストとを分類するのに有効な属性値または属性値の組み合わせを抽出し、抽出結果を出力装置40を介して利用者に出力する。
Next, the attribute
本実施例では、データマイニングにより、属性値の組み合わせを分岐条件とする、正例(第2種の)のテキストと負例(第2種の)のテキストとを分類する決定木を求め、決定木において正例(第2種の)にいたるパスに対応する属性値の組み合わせを、正例(第2種の)のテキストに特徴的に見られる属性値の組み合わせとして抽出する。図8は、決定木の一例を示す説明図である。 In the present embodiment, a decision tree that classifies positive example (second type) text and negative example (second type) text using a combination of attribute values as a branching condition is obtained and determined by data mining. A combination of attribute values corresponding to the path leading to the positive example (second type) in the tree is extracted as a combination of attribute values that are characteristic of the text of the positive example (second type). FIG. 8 is an explanatory diagram illustrating an example of a decision tree.
データマイニングにより、図8のような決定木が得られたとすると、正例(第2種の)のテキストに特徴的に見られる属性値の組み合わせとして、『(「受付年月」=「2005年10月」OR「2005年11月」)AND(「機種名」=「PC−100」)』が得られる。 Assuming that a decision tree as shown in FIG. 8 is obtained by data mining, a combination of attribute values that are characteristically seen in the text of the positive example (second type) is “(“ reception date ”=“ 2005 ”. “October” OR “November 2005”) AND (“model name” = “PC-100”) ”is obtained.
図9は、この場合の属性特徴抽出手段305の出力例を示す説明図である。図9を参照すると、出力された属性値の組み合わせは、『(「受付年月」=「2005年10月」OR「2005年11月」)AND(「機種名」=「PC−100」)』である。
FIG. 9 is an explanatory diagram showing an output example of the attribute
図10は、本実施例の論理を示す説明図である。図10を参照すると、本実施例において、利用者は、問い合わせ種別が修理依頼のテキストのうち、受付年月が2005年10月のものを正例(第1種の)とし(図10(a)のR11)、2005年10月以外のものを負例(第1種の)とし(図10(a)のR10)、テキストマイニングを行い、2005年10月の修理依頼の特徴として「ハードディスク」、「OS」、「HDD」、「エラー」等の単語を得る。 FIG. 10 is an explanatory diagram showing the logic of this embodiment. Referring to FIG. 10, in this embodiment, the user sets, as a positive example (first type), a text whose inquiry type is a repair request text with a reception date of October 2005 (FIG. 10 (a)). ) R11), and non-October 2005 as a negative example (first type) (R10 in FIG. 10 (a)), text mining, and "Hard disk" as a feature of the October 2005 repair request , “OS”, “HDD”, “error”, etc.
次に、これらの特徴のうち、利用者に選択された「ハードディスク」と「HDD」とに着目してデータマイニングを行い、テキストマイニングの対象とした、問い合わせ種別が修理依頼のテキストのうち、「ハードディスク」または「HDD」が出現する正例(第2種の)テキスト(図10(b)のR21)の属性的な特徴として『(「受付年月」=「2005年10月」OR「2005年11月」)AND(「機種名」=「PC−100」)』という属性値の組み合わせを得る。 Next, among these characteristics, data mining is performed by focusing on the “hard disk” and “HDD” selected by the user. As an attribute characteristic of a positive example (second type) text (R21 in FIG. 10B) in which “hard disk” or “HDD” appears, “(“ reception date ”=“ October 2005 ”OR“ 2005 ” “November, year”) AND (“model name” = “PC-100”) ”combination of attribute values is obtained.
これにより、最初に正例として利用者が指定した条件は、問い合わせ種別が修理依頼で、なおかつ、受付年月が2005年10月であるという条件であったが、利用者は、「ハードディスク」または「HDD」という単語が2005年10月だけでなく2005年11月の修理依頼のテキストを合わせても特徴的に出現しており、修理依頼のテキストの中でも、特にPC−100という機種に顕著に出現していることを知ることができる。 As a result, the condition initially specified by the user as a positive example was that the inquiry type is a repair request and the reception date is October 2005. The word “HDD” appears not only in October 2005 but also in the text of the repair request in November 2005, and is particularly prominent in the repair request text, especially in the PC-100 model. You can know that it has appeared.
本発明によれば、コールセンタで録音した問い合わせのデータや報告書等の紙の文書データから不具合情報や問題点等の有効な知識を抽出するマイニングシステムや、マイニングシステムを実現するためのプログラムといった用途に適用できる。また、問い合わせの内容をテキストとして蓄積しておき、その中から頻出する問い合わせを抽出してQ&A集を構築するシステム等の用途にも適用可能である。 According to the present invention, a mining system for extracting effective knowledge such as defect information and problems from inquiry data recorded at a call center and paper document data such as a report, and a program such as a program for realizing the mining system Applicable to. Further, the present invention is applicable to a system or the like that accumulates the contents of inquiries as text and extracts frequently inquiries from the contents to construct a Q & A collection.
10 入力装置
40 出力装置
50 テキストマイニングプログラム
21 記憶装置
22 記憶装置
31 データ処理装置
32 データ処理装置
201 属性記憶部
202 テキスト記憶部
203 マイニング結果保持部
301 属性値条件指定手段
302 テキストマイニング手段
303 分析対象特徴指定手段
304 正例負例テキスト抽出手段
305 属性特徴抽出手段
DESCRIPTION OF
Claims (27)
前記データ処理装置が、前記記憶装置から前記テキスト、および、前記テキストごとの属性値を読み出す手順と、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件を、前記テキスト、および、前記テキストごとの属性値に適用しテキストマイニングを行い、第1種の正例と第1種の負例とを分類するのに有効な部分を特徴として抽出し、前記記憶装置にマイニング結果として格納する手順と、抽出した特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別し、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成し出力装置に出力する手順とを含むことを特徴とするテキストマイニング方法。 A text mining method in a text mining device comprising a plurality of texts, a storage device for storing attribute values for each text, and a data processing device,
The data processing device is a procedure for reading the text and the attribute value for each text from the storage device, and attributes that are conditions of the first type positive example and the first type negative example specified by the user Text mining is performed by applying the value condition to the text and the attribute value for each text, and a portion effective for classifying the first type positive example and the first type negative example is extracted as a feature. Corresponds to the procedure for storing the result as the mining result in the storage device, the procedure for allowing the user to select the feature to be noticed from the extracted features, the first type positive example, and the first type negative example The second type positive example text in which the selected feature appears and the second type negative example text in which the selected feature does not appear are classified into the second type positive example and the second type text. New features useful for classifying negative cases Text mining method which comprises the steps of outputting the generated output device attribute value condition that.
前記記憶装置から前記テキスト、および、前記テキストごとの属性値を読み出す手順と、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件を、前記テキスト、および、前記テキストごとの属性値に適用しテキストマイニングを行い、第1種の正例と第1種の負例とを分類するのに有効な部分を特徴として抽出し、前記記憶装置にマイニング結果として格納する手順と、抽出した特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別し、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成し出力装置に出力する手順とを前記データ処理装置に実行させることを特徴とするテキストマイニングプログラム。 A text mining program in a text mining device comprising a plurality of texts, a storage device for storing attribute values for each text, and a data processing device,
A procedure for reading the text and the attribute value for each text from the storage device, and an attribute value condition which is a condition of the first type positive example and the first type negative example designated by the user, And applying the text mining to the attribute value for each text, extracting a feature effective for classifying the first type positive example and the first type negative example as a feature, and mining it in the storage device The procedure to store as a result, the procedure for causing the user to select a feature to be noted from the extracted features, and the text corresponding to the first type positive example and the first type negative example are selected. The second type positive example text in which the feature appears and the second type negative example text in which the selected feature does not appear are classified into the second type positive example and the second type negative example Generates an attribute value condition that is a new feature that is useful for Text mining program characterized by executing the steps of outputting to the output device to the data processing device.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006315862A JP2010061176A (en) | 2006-11-22 | 2006-11-22 | Text mining device, text mining method, and text mining program |
PCT/JP2007/072527 WO2008062822A1 (en) | 2006-11-22 | 2007-11-21 | Text mining device, text mining method and text mining program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006315862A JP2010061176A (en) | 2006-11-22 | 2006-11-22 | Text mining device, text mining method, and text mining program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010061176A true JP2010061176A (en) | 2010-03-18 |
Family
ID=39429751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006315862A Withdrawn JP2010061176A (en) | 2006-11-22 | 2006-11-22 | Text mining device, text mining method, and text mining program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2010061176A (en) |
WO (1) | WO2008062822A1 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014118980A1 (en) | 2013-02-01 | 2014-08-07 | 富士通株式会社 | Information conversion method, information conversion device, and information conversion program |
JPWO2014034557A1 (en) * | 2012-08-31 | 2016-08-08 | 日本電気株式会社 | Text mining device, text mining method and program |
US9792561B2 (en) | 2013-02-01 | 2017-10-17 | Fujitsu Limited | Learning method, information conversion device, and recording medium |
US10635991B2 (en) | 2013-02-01 | 2020-04-28 | Fujitsu Limited | Learning method, information processing device, and recording medium |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5288959B2 (en) * | 2008-09-17 | 2013-09-11 | 三菱電機株式会社 | Data classification apparatus and computer program |
WO2011078194A1 (en) * | 2009-12-25 | 2011-06-30 | 日本電気株式会社 | Text mining system, text mining method, and recording medium |
CN109284383A (en) * | 2018-10-09 | 2019-01-29 | 北京来也网络科技有限公司 | Text handling method and device |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003141134A (en) * | 2001-11-07 | 2003-05-16 | Hitachi Ltd | Text mining processing method and device for implementing the same |
JP2006031198A (en) * | 2004-07-14 | 2006-02-02 | Nec Corp | Text mining device, and text mining method and program used therefor |
JP4595590B2 (en) * | 2005-03-04 | 2010-12-08 | 三菱電機株式会社 | Text mining method and text mining apparatus |
-
2006
- 2006-11-22 JP JP2006315862A patent/JP2010061176A/en not_active Withdrawn
-
2007
- 2007-11-21 WO PCT/JP2007/072527 patent/WO2008062822A1/en active Application Filing
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2014034557A1 (en) * | 2012-08-31 | 2016-08-08 | 日本電気株式会社 | Text mining device, text mining method and program |
US10140361B2 (en) | 2012-08-31 | 2018-11-27 | Nec Corporation | Text mining device, text mining method, and computer-readable recording medium |
WO2014118980A1 (en) | 2013-02-01 | 2014-08-07 | 富士通株式会社 | Information conversion method, information conversion device, and information conversion program |
US9704100B2 (en) | 2013-02-01 | 2017-07-11 | Fujitsu Limited | Authentication method, authentication device, and recording medium |
US9792561B2 (en) | 2013-02-01 | 2017-10-17 | Fujitsu Limited | Learning method, information conversion device, and recording medium |
US10635991B2 (en) | 2013-02-01 | 2020-04-28 | Fujitsu Limited | Learning method, information processing device, and recording medium |
Also Published As
Publication number | Publication date |
---|---|
WO2008062822A1 (en) | 2008-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9542477B2 (en) | Method of automated discovery of topics relatedness | |
JP5464412B2 (en) | Information processing apparatus, information processing method, and program | |
US8412650B2 (en) | Device and method and program of text analysis based on change points of time-series signals | |
AU2013365452B2 (en) | Document classification device and program | |
JP6505421B2 (en) | Information extraction support device, method and program | |
JP7139728B2 (en) | Classification method, device and program | |
JP2010061176A (en) | Text mining device, text mining method, and text mining program | |
JP5224532B2 (en) | Reputation information classification device and program | |
JP2006323517A (en) | Text classification device and program | |
JP5117744B2 (en) | Word meaning tag assigning device and method, program, and recording medium | |
JP2016110256A (en) | Information processing device and information processing program | |
JP5447368B2 (en) | NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM | |
CN108733733B (en) | Biomedical text classification method, system and storage medium based on machine learning | |
JP7427510B2 (en) | Information processing device, information processing method and program | |
WO2023022775A1 (en) | System and method for use of text analytics to transform, analyze, and visualize data | |
KR20220041336A (en) | Graph generation system of recommending significant keywords and extracting core documents and method thereof | |
KR20220041337A (en) | Graph generation system of updating a search word from thesaurus and extracting core documents and method thereof | |
JP4813312B2 (en) | Electronic document search method, electronic document search apparatus and program | |
US20180011919A1 (en) | Systems and method for clustering electronic documents | |
JP7135730B2 (en) | Summary generation method and summary generation program | |
JP4985096B2 (en) | Document analysis system, document analysis method, and computer program | |
JP2008282328A (en) | Text sorting device, text sorting method, text sort program, and recording medium with its program recorded thereon | |
JP2004326600A (en) | Clustering device of structured document | |
CN117648635B (en) | Sensitive information classification and classification method and system and electronic equipment | |
WO2021065058A1 (en) | Conceptual structure extraction device, storage medium, and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20100406 |