JP4346531B2

JP4346531B2 - テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム

Info

Publication number: JP4346531B2
Application number: JP2004272377A
Authority: JP
Inventors: 茂明櫻井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2004-09-17
Filing date: 2004-09-17
Publication date: 2009-10-21
Anticipated expiration: 2024-09-17
Also published as: JP2006085634A

Description

本発明は、コンピュータ上に蓄積されている電子化されたテキストを特徴付ける概念を抽出することにより、ユーザの意思決定を支援するテキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラムに関するものである。

検索語に応じて動的に変化する単語間の意味関係を扱ってデータマイニングを実現する手法がある（例えば、特許文献１参照）。本手法をテキストデータの分析に利用する場合には、テキストデータを構成する単語によってテキストデータを特徴付けることにより、テキストデータを分析することができる。

一方、テキストデータから情動性を表す表現を自動的に抽出し、抽出した表現が評価対象のどのような側面を評価しているかを特定する手法もある（例えば、特許文献２参照）。
特開２００１−１４２９００公報特開２００３−２４８６８１公報

しかしながら、特許文献１に開示されている手法の場合、特徴付けられたデータを空間に配置するには、空間を構成するメタデータを予め指定しなければならない。このメタデータは対象とするテキストに依存したものになるため、対象とするテキストごとにメタデータを指定しなければならない。このため、簡便に多くの種類のテキストデータを分析することは困難である。また、検索語によって写像された空間においてクラスタリングを実施して各クラスターから知識を発見しているものの、クラスターそのものの意味は機械的には与えられないため、ユーザがクラスターの意味を考える必要がある。

また、特許文献２に開示されている手法の場合、情動性を表す単語やそれを強調したり否定したりする単語を予め辞書として登録しなければならないばかりか、対象とするテキストデータに依存した辞書を生成しなければならない。また、このような辞書の生成は、一般のユーザにとっては困難であり、特定の専門家が試行錯誤を通して生成しなければならないため、簡便に多くの種類のテキストデータを分析することは困難である。

このように、大量のテキストデータが簡便に収集できるようになったものの、それらのテキストデータを分析するには、対象とするテキストデータにしたがって生成される辞書が必要である。これらの辞書は試行錯誤を通して専門家により生成されるため、その生成には多大なる時間が必要である。また、テキストデータには必ずしも１つの内容に関する記述がなされているとは限らないため、内容ごとにテキストが分割されていない場合、辞書を利用したとしても適切な分析を行うことは難しい。このため、テキストデータを収集したとしても、テキストデータを簡便に分析することができず、ユーザが簡便にテキストデータを分析する装置が求められている。

本発明は、上述した従来の問題点に鑑み、対象とするテキストに依存した辞書の利用やテキストの内容ごとの分割を行うことなしにテキストデータを簡便に分析するためのテキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラムを提供することを目的とする。

本発明のテキストデータ学習装置によれば、テキストデータと該テキストデータの内容に該当するクラスとからなるデータを複数個、学習データとして格納する学習データ格納手段と、前記学習データを特徴付ける複数の特徴を前記学習データから抽出する抽出手段と、各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成する生成手段と、前記学習データに含まれるクラスごとに、或るクラスに属する第１属性ベクトルと属さない第２属性ベクトルに分割する分割手段と、前記第１属性ベクトルと前記第２属性ベクトルに基づいて、前記クラスごとに任意の属性ベクトルが第１属性ベクトルであるか否かを判定するためのモデルを算出する算出手段を具備することを特徴とする。

本発明のテキストデータ分析装置によれば、テキストデータを複数個、評価データとして格納する評価データ格納手段と、前記評価データを特徴付ける複数の特徴を前記評価データから抽出する特徴抽出手段と、前記評価データに含まれる各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成する生成手段と、前記テキストデータの内容に該当するクラスごとに任意の属性ベクトルが或るクラスに属する属性ベクトルであるか否かを判定するためのモデルを格納しているモデル格納手段と、前記属性ベクトルごとに、複数の前記モデルの中から１つのモデルを選択して、該選択されたモデルに対応するテキストデータの内容に該当するクラスを推定するとともに、該選択することと該推定することをすべての前記モデルに対して繰り返すことにより、すべての前記モデルに対して、前記属性ベクトルに該当するクラスを、前記属性ベクトルごとに推定する推定手段と、前記評価データに含まれる複数の概念候補を前記評価データから抽出する概念候補抽出手段と、前記複数の概念候補に対して、概念候補の出現頻度を前記クラスごとに計算する計算手段と、あるクラスの第１概念候補の第１出現頻度から他のクラスの該第１概念候補の第２出現頻度を引いた値を計算し、第１出現頻度が第１閾値以上であり、かつ該値が第２閾値以上である場合に、該第１概念候補を該あるクラスに関連する概念として選択する選択手段を具備することを特徴とする。

本発明のテキストデータ学習分析システムによれば、テキストデータと該テキストデータの内容に該当するクラスとからなるデータを複数個、学習データとして格納する学習データ格納手段と、前記学習データを特徴付ける複数の特徴を前記学習データから抽出する抽出手段と、各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成する生成手段と、前記学習データに含まれるクラスごとに、或るクラスに属する第１属性ベクトルと属さない第２属性ベクトルに分割する分割手段と、前記第１属性ベクトルと前記第２属性ベクトルに基づいて、前記クラスごとに任意の属性ベクトルが第１属性ベクトルであるか否かを判定するためのモデルを算出する算出手段を具備するテキストデータ学習装置と、テキストデータを複数個、評価データとして格納する評価データ格納手段と、前記評価データを特徴付ける複数の特徴を前記評価データから抽出する特徴抽出手段と、前記評価データに含まれる各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成する生成手段と、前記属性ベクトルごとに、複数の前記モデルの中から１つのモデルを選択して、該選択されたモデルに対応するテキストデータの内容に該当するクラスを推定するとともに、該選択することと該推定することをすべての前記モデルに対して繰り返すことにより、すべての前記モデルに対して、前記属性ベクトルに該当するクラスを、前記属性ベクトルごとに推定する推定手段と、前記評価データに含まれる複数の概念候補を前記評価データから抽出する概念候補抽出手段と、前記複数の概念候補に対して、概念候補の出現頻度を前記クラスごとに計算する計算手段と、あるクラスの第１概念候補の第１出現頻度から他のクラスの該第１概念候補の第２出現頻度を引いた値を計算し、第１出現頻度が第１閾値以上であり、かつ該値が第２閾値以上である場合に、該第１概念候補を該あるクラスに関連する概念として選択する選択手段を具備するテキストデータ分析装置を具備することを特徴とする。

また、本発明のテキストデータ学習分析システムによれば、テキストデータと該テキストデータの内容に該当するクラスとからなるデータを複数個、学習データとして格納する学習データ格納手段と、前記学習データを特徴付ける複数の特徴を前記学習データから抽出する特徴抽出手段と、各前記テキストデータに各前記特徴が含まれているかを示す指標を生成する生成手段と、前記学習データに含まれるクラスごとに、或るクラスに属する第１属性指標と属さない第２属性指標に分割する分割手段と、前記第１属性指標と前記第２属性指標に基づいて、前記クラスごとに任意の指標が第１属性指標であるか否かを判定するためのモデルを算出する算出手段を具備するテキストデータ学習装置と、テキストデータを複数個、評価データとして格納する評価データ格納手段と、前記評価データを特徴付ける複数の特徴を前記評価データから抽出する特徴抽出手段と、前記評価データに含まれる各前記テキストデータに各前記特徴が含まれているかを示す指標を生成する生成手段と、前記指標ごとに、複数の前記モデルの中から１つのモデルを選択して、該選択されたモデルに対応するテキストデータの内容に該当するクラスを推定するとともに、該選択することと該推定することをすべての前記モデルに対して繰り返すことにより、すべての前記モデルに対して、前記指標に該当するクラスを、前記指標ごとに推定する推定手段と、前記評価データに含まれる複数の概念候補を前記評価データから抽出する概念候補抽出手段と、前記複数の概念候補に対して、概念候補の出現頻度を前記クラスごとに計算する計算手段と、あるクラスの第１概念候補の第１出現頻度から他のクラスの該第１概念候補の第２出現頻度を引いた値を計算し、第１出現頻度が第１閾値以上であり、かつ該値が第２閾値以上である場合に、該第１概念候補を該あるクラスに関連する概念として選択する選択手段を具備するテキストデータ分析装置を具備することを特徴とする。

本発明のテキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラムによれば、対象とするテキストに依存した辞書の利用やテキストの内容ごとの分割を行うことなしにテキストデータを簡便に分析することができる。

以下、図面を参照しながら本発明の実施形態にかかるテキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置及び方法について詳細に説明する。
本実施形態のテキストデータ学習分析システム１００は、コンピュータ上に蓄積されている電子化されたテキスト、例えば、小売業務における販売員の営業活動及び商品の売上げ動向を記載した業務報告書、ヘルプデスク業務における顧客からの様々な問い合わせや問い合わせに対する回答内容を記載した顧客の声、サービスや製品に対して顧客の意見を収集するために実施するアンケートの自由記述等から、このテキストを特徴付ける概念を抽出することにより、ユーザの意思決定を支援するためのシステムである。

本実施形態のテキストデータ学習分析システム１００は、図１に示すように、テキストデータ格納部１０１、特徴量抽出部１０２、クラス入力部１０３、問題分割部１０４、事例生成部１０５、問題別モデル学習部１０６、モデル格納部１０７、問題別推定部１０８、問題別分析部１０９、分析結果格納部１１０を備えている。
本実施形態のテキストデータ学習分析システム１００は、テキストとそのテキストが属する可能性のある複数のクラスを組みにした訓練事例を入力とする。このとき、テキストを構成する単語やフレーズでテキストを特徴付ける一方、特定のクラスと特定のクラス以外とに訓練事例を分割し、単語やフレーズと特定のクラスとの間の関係を学習する。このような学習を特定のクラスごとに実施し、特定のクラスごとにモデルを生成する。また、特定のクラスごとに生成されたモデルに基づいて、新たなテキストデータに対応するクラスを分析し、クラスに関連した単語やフレーズを抽出する。クラスごとに抽出された単語やフレーズを、他のクラスに抽出されている単語やフレーズと比較することにより、特定のクラスと関連性の高い概念を抽出する。

テキストデータ学習装置は、テキストデータ学習分析システム１００に含まれている、テキストデータ格納部１０１、特徴量抽出部１０２、クラス入力部１０３、問題分割部１０４、事例生成部１０５、問題別モデル学習部１０６、モデル格納部１０７からなる。
テキストデータ分析装置は、テキストデータ学習分析システム１００に含まれている、テキストデータ格納部１０１、特徴量抽出部１０２、事例生成部１０５、モデル格納部１０７、問題別推定部１０８、問題別分析部１０９、分析結果格納部１１０からなる。

テキストデータ格納部１０１は、テキストデータ学習装置の装置部分として、学習するための材料となるテキストデータである学習データを格納している。学習データは、テキストとテキストデータに付与された複数のクラスの組から構成されており、例えば、ユーザが記述した自由記述、この自由記述ごとに付与されるＩＤ、この記述に関するユーザの意見であるクラスを含む。各クラスは、テキストデータをユーザが読み、テキストデータに記述されている内容を判断することにより与えられる。各クラスは、この記述に関し、例えば、ユーザがよい（good）と思ったか悪い（bad）と思ったかが記載される。しかし、クラスはこのように２通りの場合に限定されるわけではなく、３通り以上に分類されてもよい。ただし、１つのテキストデータに複数の内容が記載されている場合には、１つのテキストデータに対して複数のクラスが付与され、１つの内容しか記載されていない場合には、１つのテキストデータに対して１つのクラスだけが付与される。学習データの具体的な一例は、後に図３を参照して説明する。

また、テキストデータ格納部１０１は、テキストデータ分析装置の装置部分として、分析して評価されるためのテキストデータである評価データを格納している。評価データは学習データとは異なり、各データに対応するクラスがユーザによって付与されていない。このため、分析対象となっているテキストデータをそのまま利用することができる。評価データの具体的な一例は、後に図１０を参照して説明する。

特徴量抽出部１０２は、テキストデータ格納部１０１に格納されている学習データ又は評価データのテキストデータからテキストデータを特徴付ける特徴の候補を抽出する。特徴量抽出部１０２は、例えば、テキストデータに形態素解析を行い、このテキストデータから単語、フレーズ等の特徴量を抽出する。与えられた学習データのテキストデータからテキストデータを特徴付ける特徴の候補を抽出する。本実施形態においては、テキストデータをテキストデータに含まれる特定の品詞を持つ単語で特徴付ける場合について説明する。本特徴候補の抽出では、テキストデータに対して形態素解析を実施し、テキストデータを単語単位に分割する。また、単語に対応する品詞を特定する。特徴量抽出部１０２が形態素解析を行った場合の例は、後に図４、図１１を参照して説明する。
また、特徴量抽出部１０２は、抽出された特徴の候補の絞込みを実施する。特徴量抽出部１０２の特徴候補の絞り込みは、後に図５、図６、図１２を参照して説明する。

クラス入力部１０３は、テキストデータ格納部１０１に格納されている学習データに含まれるクラスを入力するためのものである。クラス入力部１０３は、例えば、各ＩＤのテキストデータごとにユーザがよいか悪いかを判断して入力する際に使用される。クラス入力部１０３を利用してユーザがクラスを入力することで、学習データが得られる。

問題分割部１０４は、テキストデータ学習装置の装置部分としてのみ機能し、特定のクラスに含まれる事例と特定のクラスに含まれない事例に分割する２分類問題を特定のクラスごとに生成する。問題分割部１０４は、例えば、各学習データに対して「good」、「bad」の２種類のクラスが割り当てられている場合、「good」のものとそうでないものを表す「not good」に分類する問題と、「bad」のものとそうでないものを表す「not bad」のものに分類する問題との、２つの問題に問題を分割する。この問題の分類は、後に図８、図９を参照して説明する。

事例生成部１０５は、問題分割部１０４によって分割された問題のうちの１つの問題を選択し、選択された問題にしたがって、属性ベクトルと選択された問題のクラスを組にして事例を生成する。属性ベクトルとは、事例生成部１０５が特徴量抽出部１０２によって決定された単語がテキストデータに含まれているか否かを判定し、含まれている場合には１、含まれていない場合には０の値を与えることにより生成される、各テキストデータに対応する０又は１を含む数字の列からなるベクトルのことである。事例生成部１０５は、テキストデータごとに属性ベクトルを生成する。属性ベクトルの具体例は、後に図７、図１３を参照して説明する。事例生成部１０５が生成した事例の例は、後に図８、図９を参照して説明する。

問題別モデル学習部１０６は、テキストデータ学習装置の装置部分としてのみ機能し、問題分割部１０４で与えられた各２分類問題において、事例生成部１０５で得られた属性ベクトルと特定のクラスとの間の関係を示すモデルを特定のクラスごとに学習する。より詳しくは、問題別モデル学習部１０６は、例えば、属性ベクトルの次元に対応する多次元空間で、各ＩＤのテキストデータに対応する属性ベクトルが位置する点を定め、この点の位置とこの点の属性ベクトルが属するクラスに基づいて、このクラスの特徴Ａを示す領域と特徴Ａでないことを示す領域を区別する超平面を求める。具体的には、問題別モデル学習部１０６は、例えば、「good」を示す属性ベクトルが位置する点の分布と「not good」を示す属性ベクトルが位置する点の分布により、「good」と「not good」とを分割する超平面を求める。この超平面が定まれば、ある属性ベクトルが与えられた場合に、この属性ベクトルに対応するテキストデータが「good」であるか「not good」であるかを判定することができる。
このような形式の事例からモデルを学習する方式は、帰納学習法として知られており多数の方式が提案されている。本実施例においては、この帰納学習法の１つとして、参考文献“A Practical Guide to Support Vector Classification ”, C. -W. Hsu, C. -C. Chang, and C. -J. Lin. , http://www.csie.ntu.edu.tw/ ~cjlin/libＳＶＭ/（２００４年６月２９日検索）に記載されているＳＶＭを利用してモデルを学習する。帰納学習法としては、本実施形態ではＳＶＭを利用するが、決定木、ベイジアンネットワーク、ニューラルネットワークといった他の帰納学習法を利用することもできる。

モデル格納部１０７は、テキストデータ学習装置の装置部分としてのみ機能し、学習したモデルを格納する。上に示した例では、モデル格納部１０７は、各問題（例えば、「good」のものとそうでないものを表す「not good」に分類する問題）ごとに得られた超平面を示す数値を格納する。属性ベクトルを写像した空間の次元が３次元の場合には、対応する超平面は３次元平面ａｘ＋ｂｙ＋ｃｚ＝ｄと表現される。ここで、ｘ、ｙ、ｚは変数であり、ａ、ｂ、ｃ、ｄは３次元平面を定める定数である。属性ベクトルを写像した空間の次元が３次元の場合には、モデル格納部１０７は、各問題にａ、ｂ、ｃ、ｄの具体的な値を格納している。

問題別推定部１０８は、テキストデータ分析装置の装置部分としてのみ機能し、問題ごとに、クラスの与えられていないテキストデータ（すなわち、評価データ）に基づいて事例生成部１０５で生成された属性ベクトルを基にして、モデル格納部１０７に格納されているモデルを利用して、属性ベクトルに対応するテキストデータが属するクラスを推定する。問題別推定部１０８の具体的な結果の一例は、後に図１４、図１５を参照して説明する。

問題別分析部１０９は、テキストデータ分析装置の装置部分としてのみ機能し、推定されたクラスごとにまとめられたテキストから代表的な概念候補を抽出する。問題別分析部１０９は、抽出された問題別の代表的な概念候補を他の問題の代表的な概念候補と比較することにより代表的な概念候補の中からクラスに関連した特徴量を抽出する。テキストデータからクラスごとに対応した概念を抽出する。

分析結果格納部１１０は、テキストデータ分析装置の装置部分としてのみ機能し、問題別分析部１０９で得られた結果を格納する。

次に、図１のテキストデータ学習分析システム１００の動作を図２を参照して説明する。
図２のステップＳ２０１からステップＳ２０９までテキストデータ学習装置の動作を示し、図２のステップＳ２０９からステップＳ２１５は、テキストデータ分析装置の動作を示す。

まず、特徴量抽出部１０２が、テキストデータ格納部１０１から、モデルを学習するために利用する学習データを読み込む（ステップＳ２０１）。例えば、特徴量抽出部１０２は、図３に示すデータを学習データとして読み込む。図３に示した学習データは、自由記述の部分がテキストデータに相当し、意見の部分がクラスに相当する。図３の例では、「good」、「bad」といった２種類のクラスが存在している。また、顧客ＩＤはテキストデータを記載した顧客に対応した番号であり、個別の学習データを区別するために記載されている。

次に、特徴量抽出部１０２は、与えられた学習データのテキストデータからテキストデータを特徴付ける特徴の候補を抽出する（ステップＳ２０２）。ここでは、一例として、テキストデータをテキストデータに含まれる特定の品詞を持つ単語で特徴付ける場合について説明する。特徴量抽出部１０２は、テキストデータに対して形態素解析を実施し、テキストデータを単語単位に分割する。また、特徴量抽出部１０２は単語に対応する品詞を特定する。例えば、図３に示した学習データの自由記述部分に対して形態素解析が実施された場合には、特徴量抽出部１０２は、図４に示すような形態素解析結果を得ることができる。図４では、分割された単語の品詞が< >の形式で記述されている。さらに、特徴量抽出部１０２は、この形態素解析結果から、指定した品詞を持つ単語を抽出する。例えば、特徴付けに利用する品詞を名詞と形容詞とした場合には、特徴量抽出部１０２は、図４に示した形態素解析結果から、図５に示すように単語を特徴の候補として抽出する。

その後、特徴量抽出部１０２は、ステップＳ２０２で抽出された特徴の候補の絞込みを行い、最終的に特徴を決定する（ステップＳ２０３）。この特徴の決定には、或る基準を設けこの基準よりも特徴的な候補を最終的な特徴として決定する。本実施形態では、特徴の候補として与えられる単語に対して次式で定義されるtf-idf値を計算し、tf-idf値が指定したしきい値（Ｔｈ１）以上となる単語を特徴として採用する方法を説明する。ｉで指定される単語のtf-idf値は、

で与えられる。ここで、Ｄはテキストデータの総数、言い換えると、顧客ＩＤの数である。例えば、顧客ＩＤがＩＤ１からＩＤ１００まであり、図３のようにそれぞれのＩＤにテキストデータが対応付けられている場合は、Ｄ＝１００である。また、ｄ_ｉはｉ番目の単語を含むテキストデータの数である。顧客ＩＤの数が小さい順からステップＳ２０２で抽出された特徴候補に番号を付与する。例えば、図５に示したＩＤ１の「広い」は１番目の単語であり、ＩＤ２の「忘れ物」は４番目の単語、ＩＤ２の「ところ」は５番目の単語である。また、ｗ_ｊはｊ番目のテキストデータに含まれる単語の数である。ｊ番目とは顧客ＩＤがＩＤｊであることであり、例えば、図５に示した例では、ｗ_１＝３、ｗ_２＝５、ｗ_３＝３である。また、ｔ_ｉｊはｊ番目のテキストデータに含まれる、最初のテキストデータの最初の単語から数えてｉ番目の単語の数とする。ｔ_ｉｊはｊ番目のテキストデータ中に、最初のテキストデータの最初の単語から数えてｉ番目の単語が何個含まれているかを示す。例えば、図３及び図５の例では、各テキストデータに同じ単語を含むものはないので、ｔ_ｉｊ＝１（１≦ｊ≦７）。

ステップＳ２０３では、まず、ステップＳ２０２で抽出された各単語に対するtf-idf値を計算する。次に、各単語ごとに計算したtf-idf値に基づいて、単語の並べ替えを行って、しきい値以上の単語を最終的な特徴とする。例えば、図６に示したように、tf-idf値の順に、ステップＳ２０２で抽出された単語を並べて、tf-idf値のしきい値を０．１にしたとすれば、「朝食<名>」から「豊富<名>」までの単語がテキストデータの最終的な特徴となり、「連絡<名>」以下の単語が特徴として選択されないことになる。また、このしきい値は、テキストデータの数に比例して設定することが好ましい。すなわち、テキストデータの数が多ければあるしきい値を超える特徴候補数も多くなるので、テキストデータの数が多ければ設定するしきい値も大きくする。

次に、事例生成部１０５がステップＳ２０３で決定された特徴にしたがって、学習データに含まれる各テキストデータに対応する属性ベクトルを生成する（ステップＳ２０４）。本実施形態においては、指定した品詞を持つとともに、指定したしきい値以上のtf-idf値を持つ単語がテキストデータの特徴となるので、事例生成部１０５は、ステップＳ２０３で決定された単語が各テキストデータに含まれているか否かを判定し、含まれている場合には１、含まれていない場合には０といった値を与えることにより、各テキストデータに対応して属性ベクトルを決定する。例えば、図３の各テキストデータの場合、ステップＳ２０３で「豊富＜名＞」以上の単語を特徴とすることが決定されているので、事例生成部１０５は図７に示すように各顧客ＩＤに属性ベクトルを生成する。

次に、問題分割部１０４が、クラスとして与えられているクラスごとに問題の分割を行う（ステップＳ２０５）。図３に示した例の場合には、各学習データに対して「good」、「bad」の２種類のクラスが割り当てられているので、問題分割部１０４は「good」のものとそうでないものを表す「not good」に分類する問題と、「bad」のものとそうでないものを表す「not bad」のものに分類する問題との、２つの問題に問題を分割する。

次に、問題分割部１０４が、ステップＳ２０５で分割された問題のうちの１つの問題を選択する。このとき、選択する問題がなければステップＳ２０９へと進み、選択する問題がある場合にはステップＳ２０７へと進む。本実施形態の場合には、問題分割部１０４は、まず「good」のものとそうでないものを表す「not good」に分類する問題と、「bad」のものとそうでないものを表す「not bad」のものに分類する問題のいずれかの問題を先に選択し、その後、もう１つの問題を選択しステップＳ２０７に進む。また、本実施形態の場合で、「good」に関する問題と「bad」に関する２つの問題を処理した後で、本ステップに到達した場合には、選択する問題がなくなっているので、ステップＳ２０９へと進むことになる。

次に、事例生成部１０５が、ステップＳ２０６で選択された問題にしたがって、属性ベクトルと選択された問題のクラスを組にして事例を生成する（ステップＳ２０７）。例えば、問題として「good」が選択されたとすると、事例生成部１０５は、「good」のクラスを持つ学習データを「good」と見なすとともに、「good」のクラスを持たない学習データを「not good」と見なす。図３の学習データの場合には、事例生成部１０５は、顧客ＩＤがＩＤ１、ＩＤ２、ＩＤ４、ＩＤ５、ＩＤ６に対応する学習データは「good」が図３に示される意見の中に含まれているため、「good」と見なす。一方、事例生成部１０５は、顧客ＩＤがＩＤ３、ＩＤ７に対応する学習データは「good」が図３に示される意見の中に含まれていないため、「not good」と見なす。したがって、図３の学習データに対しては、事例生成部１０５は図８に示す事例を生成する。同様に、「bad」が問題として設定されている場合には、事例生成部１０５は図９に示す事例を生成する。

次に、問題別モデル学習部１０６が、与えられた事例を入力として属性ベクトルとクラスとの間の関係を示すモデルを学習する（ステップＳ２０８）。問題別モデル学習部１０６は、例えば、属性ベクトルの次元に対応する多次元空間で、「good」と「not good」とを分割するモデルを求める。このような形式の事例からモデルを学習する方式の一例であるＳＶＭは、各事例を高次元空間に写像することにより、高次元空間において事例を分割する超平面を逐次的に改良しながら、クラスの分類精度の高い超平面を発見する手法である。ＳＶＭにおいては、カーネル関数を利用することにより、各事例の高次元空間における座標を計算することなしに超平面の良し悪しを評価することができるため、高速に分類精度の高い超平面を発見することができる。また、近年、ＳＶＭはテキスト分類問題において、高い分類性能を示すことが報告されている。
そして、モデル格納部１０７がステップＳ２０８で学習したモデルを格納する。上に示した例では、モデル格納部１０７は、各問題（例えば、「good」のものとそうでないものを表す「not good」に分類する問題）ごとに得られた超平面を示す数値を格納する。

次に、テキストデータ分析装置の動作を図２を参照して説明する。
特徴量抽出部１０２が、テキストデータ格納部１０１から、評価データを読み込む（ステップＳ２０９）。例えば、特徴量抽出部１０２は、図１０に示されるデータを評価データとして読み込む。評価データは、各テキストデータに対応するクラスがユーザによって付与されていない点のみが学習データと異なる。このため、テキストデータ分析装置は、分析対象となっているテキストデータをそのまま利用することができる。

次に、特徴量抽出部１０２が、ステップＳ２０２での特徴候補の抽出と同様な処理を行うことにより、各評価データに対応する特徴候補の抽出を行う（ステップＳ２１０）。本実施形態の場合、指定した品詞を持つとともに、指定したしきい値以上のtf-idf値を持つ単語によってテキストデータを特徴付ける方法を採用している。このため、形態素解析、指定品詞を持った単語の抽出といった処理を順次実施する。例えば、特徴量抽出部１０２は、図１０の評価データから、図１１に示す形態素解析結果を得て、名詞、形容詞を抽出することにより、図１２に示す単語が特徴の候補として抽出する。

次に、事例生成部１０５が、ステップＳ２０４での属性ベクトルの生成と同様な処理を行うことにより、評価データの各テキストデータに対応する属性ベクトルの生成を行う（ステップＳ２１１）。このとき、属性ベクトルを構成する特徴としては、ステップＳ２０３で決定された特徴が利用される。例えば、図１０の評価データに対しては、事例生成部１０５は図１３に示す属性ベクトルを生成する。

次に、問題別推定部１０８が、ステップＳ２１１で得られた属性ベクトルに基づいて、モデル格納部１０７に格納されているモデルの選択を行う（ステップＳ２１２）。選択するモデルが存在しない場合には、ステップＳ２１４へ処理を進め、選択するモデルが存在する場合にはステップＳ２１３へと処理を進める。本実施形態の場合、モデル格納部１０７には学習されて「good」、「bad」といった２つのモデルが格納されており、ステップＳ２１２で各モデルが順に選択される。したがって、２つのモデルを選択した後で、ステップＳ２１２を実行した場合には、ステップＳ２１４へと処理を進めることになる。

次に、問題別推定部１０８が、選択されたモデルに各評価データの属性ベクトルを適用することにより、属性ベクトルに対応するテキストデータが属するクラスを判定する（ステップＳ２１３）。例えば、図１３の各属性ベクトルを「good」のモデルを用いて評価した場合には、問題別推定部１０８は、図１４に示すクラスを得る。同様に、図１３の各属性を「bad」のモデルを用いて評価した場合には、問題別推定部１０８は、図１５に示すクラスを得る。

次に、問題別分析部１０９が、特徴量抽出部１０２が行った形態素解析結果に基づいて、評価データの各テキストデータの中から特徴的な単語やフレーズを概念候補として抽出する（ステップＳ２１４）。本実施形態においては、指定した品詞を持つ単語と指定した品詞の並びを持つフレーズを概念候補として取り出す。したがって、問題別分析部１０９は、ステップＳ１０で特徴量抽出部１０２により生成された形態素解析結果を利用して概念候補を抽出する。例えば、問題別分析部１０９は、名詞、名詞と形容詞が連続するフレーズ、形容詞と名詞が連続するフレーズを概念候補として抽出する場合は、図１１に示した形態素解析結果から、図１６に示す単語やフレーズを概念候補として抽出する。
また、問題別分析部１０９は、抽出した概念候補の評価値をクラスごとに計算する。本実施形態の場合、評価値としては、概念候補の出現頻度を採用する。また、「good」、「bad」の２つのクラスが存在している。問題別分析部１０９は、「good」と判定されたテキストデータだけを取り出し、取り出されたテキストデータに基づいて概念候補の頻度を計算する。同様に、問題別分析部１０９は、「bad」と判定されたテキストデータだけを取り出して、取り出されたテキストデータに基づいて概念候補の頻度を計算する。以上により、問題別分析部１０９は、各概念候補に対して図１７に示すようなクラスごとの頻度を得ることができる。なお、図１７は、図１０に示した評価データから算出したものではなく、図１０の評価データよりも大きなデータ量の評価データから算出したものである。

次に、問題別分析部１０９が、概念候補に対応する各クラスの評価値を基準として、クラスに対応する概念の決定を行う（ステップＳ２１５）。本実施形態では、評価値として出現頻度を採用する。また、問題別分析部１０９は、対象とするクラスの概念候補において、例えば、指定したしきい値（Ｔｈ２）以上の頻度を持ち、他のクラスにおける頻度よりも、しきい値（Ｔｈ３）以上の大きな頻度を持つ概念候補を、対象クラスにおける概念とする。

ここで、具体例として、しきい値（Ｔｈ２）を５、しきい値（Ｔｈ３）を３とし、ステップＳ２１４で図１７に示す概念候補に対するクラスごとに頻度が与えられている場合でのステップＳ２１５を示す。問題別分析部１０９は、「good」に対して、しきい値（Ｔｈ２）である５以上の大きな頻度を有する概念候補、
/部屋<名>+は<付>/広<形>+く<活尾>+て<付>、
/従業<名>/員<尾>+の<付>/丁寧<形>+な<付>、
/丁寧<形>+な<付>/応対<名>、
/部屋<名>、
/朝食<名>、
/バイキング<名>
といった６個の概念候補を抽出する。このうち、/部屋<名>は、「good」の頻度から「bad」の頻度を引いた値が−１となり、しきい値（Ｔｈ３）に関する条件が成立しない。このため、問題別分析部１０９は、「good」に対応する概念として、図１８に示す概念を決定する。同様に、問題別分析部１０９は、「bad」に対応する概念としては、図１９に示す概念を決定する。その後、問題別分析部１０９は、これら決定された概念を分析結果格納部１１０に格納する。

以上に示した実施形態によれば、学習に多数のテキストデータを利用することにより、特定のクラスに対応するテキストデータに異なるクラスの内容が記載されていたとしても、そのような異なるクラスの内容に関する記載は相対的に少ないと期待することができるので、特定のクラスを分析する場合に含まれる、異なるクラスの内容の影響を除去することができる。このため、ユーザは複数の内容が書かれたテキストを前もって内容ごとに分割することなしに、テキストデータを分析することができる。また、与えられたテキストが属する可能性のあるクラスを判定する問題は、タスクに応じた辞書を作成するよりもはるかに容易であり、特定の専門家でなくても判定することができる。一方、ユーザは特定のクラスに関連する単語やフレーズを見ることにより、特定のクラスに含まれているテキストの内容の大まかな傾向を把握することができる。このため、本テキストデータ分析装置を利用することにより、広範な分野のテキストデータを簡便に分析することができる。

以上に説明したテキストデータ分析装置は上述した実施形態に限定するものではない。例えば、テキストデータを特徴付ける特徴として単語を利用したが、単語間の係り受け構造、付属語表現を含めたフレーズ、単語の共起関係、テキストデータに含まれる文字の長さといった特徴を利用することもできる。
また、構文解析結果によって得られる係り受け構造を利用することにより、単純な単語や連続する単語を概念として抽出する代わりに、より複雑な構造を持ったフレーズを抽出することもできる。この他、種々変形してテキストデータ分析装置を構成することができる。

また、上述の実施形態の中で示した処理手順に示された指示、及び流れ図の各ステップに示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態のテキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態のテキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の実施形態にかかるテキストデータ学習分析システムのブロック図。図１のテキストデータ学習分析システムの動作を示すフローチャート。図１のテキストデータ格納部１０１に格納される学習データを示す図。図１の特徴量抽出部１０２が図３の学習データから得た形態素解析結果を示す図。図１の特徴量抽出部１０２が図４の形態素解析結果から得た特徴候補を示す図。図１の特徴量抽出部１０２が図４の特徴候補から特徴を決定するためのtf-idf値を示す図。図１の事例生成部１０５が決定された特徴にしたがって生成した属性ベクトルを示す図。「good」が問題として設定されている場合に図１の事例生成部１０５が図３に基づいて生成した事例を示す図。「bad」が問題として設定されている場合に図１の事例生成部１０５が図３に基づいて生成した事例を示す図。図１のテキストデータ格納部１０１に格納される評価データを示す図。図１の特徴量抽出部１０２が図１０の学習データから得た形態素解析結果を示す図。図１の特徴量抽出部１０２が図１１の形態素解析結果から得た特徴候補を示す図。図１の事例生成部１０５が生成した属性ベクトルを示す図。「good」のモデルを用いて評価した場合に図１の問題別推定部１０８が判定したクラスを示す図。「bad」のモデルを用いて評価した場合に図１の問題別推定部１０８が判定したクラスを示す図。図１１の形態素解析結果に基づいて図１の問題別分析部１０９が抽出した概念候補を示す図。図１の問題別分析部１０９がクラスごとに計算した図１６の概念候補の出現頻度を示す図。図１の問題別分析部１０９が図１７に示したクラス「good」に基づいて決定した概念と出現頻度を示す図。図１の問題別分析部１０９が図１７に示したクラス「bad」に基づいて決定した概念と出現頻度を示す図。

符号の説明

１００・・・テキストデータ学習分析システム、１０１・・・テキストデータ格納部、１０２・・・特徴量抽出部、１０３・・・クラス入力部、１０４・・・問題分割部、１０５・・・事例生成部、１０６・・・問題別モデル学習部、１０７・・・モデル格納部、１０８・・・問題別推定部、１０９・・・問題別分析部、１１０・・・分析結果格納部。

Claims

テキストデータと該テキストデータの内容に該当するクラスとからなるデータを複数個、学習データとして格納する学習データ格納手段と、
前記学習データを特徴付ける複数の特徴を前記学習データから抽出する抽出手段と、
各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成する生成手段と、
前記学習データに含まれるクラスごとに、或るクラスに属する第１属性ベクトルと属さない第２属性ベクトルに分割する分割手段と、
前記第１属性ベクトルと前記第２属性ベクトルに基づいて、前記クラスごとに任意の属性ベクトルが第１属性ベクトルであるか否かを判定するためのモデルを算出する算出手段を具備することを特徴とするテキストデータ学習装置。
前記抽出手段は、前記学習データに含まれる各テキストデータに形態素解析を行い、分割された単語から抽出された特定の品詞あるいは品詞の並びについて絞り込みを行い、複数の特徴として単語あるいはフレーズを抽出することを特徴とする請求項１に記載のテキストデータ学習装置。
前記テキストデータの内容に該当するクラスを入力するようにユーザに促すクラス入力手段をさらに具備することを特徴とする請求項１又は請求項２に記載のテキストデータ学習装置。
前記算出手段によって算出されたモデルを格納するモデル格納手段をさらに具備することを特徴とする請求項１から請求項３のいずれか１つに記載のテキストデータ学習装置。
テキストデータを複数個、評価データとして格納する評価データ格納手段と、
前記評価データを特徴付ける複数の特徴を前記評価データから抽出する特徴抽出手段と、
前記評価データに含まれる各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成する生成手段と、
前記テキストデータの内容に該当するクラスごとに任意の属性ベクトルが或るクラスに属する属性ベクトルであるか否かを判定するためのモデルを格納しているモデル格納手段と、
前記属性ベクトルごとに、複数の前記モデルの中から１つのモデルを選択して、該選択されたモデルに対応するテキストデータの内容に該当するクラスを推定するとともに、該選択することと該推定することをすべての前記モデルに対して繰り返すことにより、すべての前記モデルに対して、前記属性ベクトルに該当するクラスを、前記属性ベクトルごとに推定する推定手段と、
前記評価データに含まれる複数の概念候補を前記評価データから抽出する概念候補抽出手段と、
前記複数の概念候補に対して、概念候補の出現頻度を前記クラスごとに計算する計算手段と、
あるクラスの第１概念候補の第１出現頻度から他のクラスの該第１概念候補の第２出現頻度を引いた値を計算し、第１出現頻度が第１閾値以上であり、かつ該値が第２閾値以上である場合に、該第１概念候補を該あるクラスに関連する概念として選択する選択手段を具備することを特徴とするテキストデータ分析装置。
テキストデータと該テキストデータの内容に該当するクラスとからなるデータを複数個、学習データとして格納する学習データ格納手段と、
前記学習データを特徴付ける複数の特徴を前記学習データから抽出する抽出手段と、
各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成する生成手段と、
前記学習データに含まれるクラスごとに、或るクラスに属する第１属性ベクトルと属さない第２属性ベクトルに分割する分割手段と、
前記第１属性ベクトルと前記第２属性ベクトルに基づいて、前記クラスごとに任意の属性ベクトルが第１属性ベクトルであるか否かを判定するためのモデルを算出する算出手段を具備するテキストデータ学習装置と、
テキストデータを複数個、評価データとして格納する評価データ格納手段と、
前記評価データを特徴付ける複数の特徴を前記評価データから抽出する特徴抽出手段と、
前記評価データに含まれる各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成する生成手段と、
前記属性ベクトルごとに、複数の前記モデルの中から１つのモデルを選択して、該選択されたモデルに対応するテキストデータの内容に該当するクラスを推定するとともに、該選択することと該推定することをすべての前記モデルに対して繰り返すことにより、すべての前記モデルに対して、前記属性ベクトルに該当するクラスを、前記属性ベクトルごとに推定する推定手段と、
前記評価データに含まれる複数の概念候補を前記評価データから抽出する概念候補抽出手段と、
前記複数の概念候補に対して、概念候補の出現頻度を前記クラスごとに計算する計算手段と、
あるクラスの第１概念候補の第１出現頻度から他のクラスの該第１概念候補の第２出現頻度を引いた値を計算し、第１出現頻度が第１閾値以上であり、かつ該値が第２閾値以上である場合に、該第１概念候補を該あるクラスに関連する概念として選択する選択手段を具備するテキストデータ分析装置を具備することを特徴とするテキストデータ学習分析システム。
前記特徴抽出手段は、前記学習データ及び評価データに含まれる各テキストデータに形態素解析を行い、分割された単語から抽出された特定の品詞あるいは品詞の並びについて絞り込みを行い、複数の特徴として単語あるいはフレーズを抽出することを特徴とする請求項６に記載のテキストデータ学習分析システム。
前記テキストデータの内容に該当するクラスを入力するようにユーザに促すクラス入力手段をさらに具備することを特徴とする請求項６又は請求項７に記載のテキストデータ学習分析システム。
前記算出手段によって算出されたモデルを格納するモデル格納手段をさらに具備することを特徴とする請求項６から請求項８のいずれか１つに記載のテキストデータ学習分析システム。
コンピュータを利用して行うテキストデータ学習分析方法であって、
学習データ格納手段が、テキストデータと該テキストデータの内容に該当するクラスとからなるデータを複数個、学習データとして格納し、
抽出手段が、前記学習データを特徴付ける複数の特徴を前記学習データから抽出し、
生成手段が、各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成し、
分割手段が、前記学習データに含まれるクラスごとに、或るクラスに属する第１属性ベクトルと属さない第２属性ベクトルに分割し、
算出手段が、前記第１属性ベクトルと前記第２属性ベクトルに基づいて、前記クラスごとに任意の属性ベクトルが第１属性ベクトルであるか否かを判定するためのモデルを算出し、
評価データ格納手段が、テキストデータを複数個、評価データとして格納し、
特徴抽出手段が、前記評価データを特徴付ける複数の特徴を前記評価データから抽出し、
生成手段が、前記評価データに含まれる各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成し、
推定手段が、前記属性ベクトルごとに、複数の前記モデルの中から１つのモデルを選択して、該選択されたモデルに対応するテキストデータの内容に該当するクラスを推定するとともに、該選択することと該推定することをすべての前記モデルに対して繰り返すことにより、すべての前記モデルに対して、前記属性ベクトルに該当するクラスを、前記属性ベクトルごとに推定し、
概念候補抽出手段が、前記評価データに含まれる複数の概念候補を前記評価データから抽出し、
計算手段が、前記複数の概念候補に対して、概念候補の出現頻度を前記クラスごとに計算し、
選択手段が、あるクラスの第１概念候補の第１出現頻度から他のクラスの該第１概念候補の第２出現頻度を引いた値を計算し、第１出現頻度が第１閾値以上であり、かつ該値が第２閾値以上である場合に、該第１概念候補を該あるクラスに関連する概念として選択することを特徴とするテキストデータ学習分析方法。
コンピュータを、
テキストデータと該テキストデータの内容に該当するクラスとからなるデータを複数個、学習データとして格納する学習データ格納手段と、
前記学習データを特徴付ける複数の特徴を前記学習データから抽出する特徴抽出手段と、
各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成する生成手段と、
前記学習データに含まれるクラスごとに、或るクラスに属する第１属性ベクトルと属さない第２属性ベクトルに分割する分割手段と、
前記第１属性ベクトルと前記第２属性ベクトルに基づいて、前記クラスごとに任意の属性ベクトルが第１属性ベクトルであるか否かを判定するためのモデルを算出する算出手段と、
テキストデータを複数個、評価データとして格納する評価データ格納手段と、
前記評価データを特徴付ける複数の特徴を前記評価データから抽出する特徴抽出手段と、
前記評価データに含まれる各前記テキストデータに各前記特徴が含まれているかを示す属性ベクトルを生成する生成手段と、
前記属性ベクトルごとに、複数の前記モデルの中から１つのモデルを選択して、該選択されたモデルに対応するテキストデータの内容に該当するクラスを推定するとともに、該選択することと該推定することをすべての前記モデルに対して繰り返すことにより、すべての前記モデルに対して、前記属性ベクトルに該当するクラスを、前記属性ベクトルごとに推定する推定手段と、
前記評価データに含まれる複数の概念候補を前記評価データから抽出する概念候補抽出手段と、
前記複数の特徴に対して、概念候補の出現頻度を前記クラスごとに計算する計算手段と、
あるクラスの第１概念候補の第１出現頻度から他のクラスの該第１概念候補の第２出現頻度を引いた値を計算し、第１出現頻度が第１閾値以上であり、かつ該値が第２閾値以上である場合に、該第１概念候補を該あるクラスに関連する概念として選択する選択手段として機能させるためのテキストデータ学習分析プログラム。
テキストデータと該テキストデータの内容に該当するクラスとからなるデータを複数個、学習データとして格納する学習データ格納手段と、
前記学習データを特徴付ける複数の特徴を前記学習データから抽出する特徴抽出手段と、
各前記テキストデータに各前記特徴が含まれているかを示す指標を生成する生成手段と、
前記学習データに含まれるクラスごとに、或るクラスに属する第１属性指標と属さない第２属性指標に分割する分割手段と、
前記第１属性指標と前記第２属性指標に基づいて、前記クラスごとに任意の指標が第１属性指標であるか否かを判定するためのモデルを算出する算出手段を具備するテキストデータ学習装置と、
テキストデータを複数個、評価データとして格納する評価データ格納手段と、
前記評価データを特徴付ける複数の特徴を前記評価データから抽出する特徴抽出手段と、
前記評価データに含まれる各前記テキストデータに各前記特徴が含まれているかを示す指標を生成する生成手段と、
前記指標ごとに、複数の前記モデルの中から１つのモデルを選択して、該選択されたモデルに対応するテキストデータの内容に該当するクラスを推定するとともに、該選択することと該推定することをすべての前記モデルに対して繰り返すことにより、すべての前記モデルに対して、前記指標に該当するクラスを、前記指標ごとに推定する推定手段と、
前記評価データに含まれる複数の概念候補を前記評価データから抽出する概念候補抽出手段と、
前記複数の概念候補に対して、概念候補の出現頻度を前記クラスごとに計算する計算手段と、
あるクラスの第１概念候補の第１出現頻度から他のクラスの該第１概念候補の第２出現頻度を引いた値を計算し、第１出現頻度が第１閾値以上であり、かつ該値が第２閾値以上である場合に、該第１概念候補を該あるクラスに関連する概念として選択する選択手段を具備するテキストデータ分析装置を具備することを特徴とするテキストデータ学習分析システム。