JP2004318408A

JP2004318408A - テキスト主旨分析装置およびテキスト主旨分析プログラム

Info

Publication number: JP2004318408A
Application number: JP2003110452A
Authority: JP
Inventors: Satoshi Haseyama; 聡長谷山
Original assignee: Tokyo Electric Power Co Inc
Current assignee: Tokyo Electric Power Company Holdings Inc
Priority date: 2003-04-15
Filing date: 2003-04-15
Publication date: 2004-11-11

Abstract

【課題】個々のテキストが意味する具体的な内容を同じ傾向別に分類して把握することができるテキスト主旨分析装置を得る。
【解決手段】ＣＰＵ１２は、単語抽出結果ファイル１１２およびＫ平均法分析条件ファイル１１４を参照して、Ｋ平均法によるクラスタリングにより、分析対象となるテキストの意味する内容が同じ傾向であることを示す単位であるクラスタごとに分析対象となるテキストを分類するとともに、同じ分類のクラスタに属するテキストの中に占める単語の意味の重要度をあらわす重心値を上記クラスタごとに算出して、上記単語および上記重心値を上記クラスタごとにディスプレイ４０へ出力する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
この発明は、テキスト主旨分析装置およびテキスト主旨分析プログラムに係り、特に、客先からの要望等が記載されたテキストの意味する内容を分析するテキスト主旨分析装置およびテキスト主旨分析プログラムに関するものである。
【０００２】
【従来の技術】
近年、テキストを分類する手法が活用されている。この手法では、一般に、予め分類したいクラスタ（例えば、政治等のカテゴリー）を定義しておき、未分類のテキストを上記クラスタごとに分類する。具体的には、対象となるテキストに存在する単語（名詞）の出現回数をカウントし、そのカウント数に応じて上記単語の重み付けを行う。この重み付けとは、テキスト全体の内容において、単語自体が意味する重要度を決定することである。この重要度は、特徴ベクトルといった特徴量に応じて決定される。そして、決定された特徴量をテキスト全体で比較することにより、個々のテキストを上記クラスタごとに分類する。このような手法を活用した従来の装置は、政治やスポーツといったクラスの分類を予め体系化しておき、未分類の文書を取得すると、その特徴量を決定することにより、文書が属するクラスを分類する（例えば、特許文献１参照）。
【０００３】
【特許文献１】
特開平１１−１３４３６４号公報（第１頁、１図）
【０００４】
【発明が解決しようとする課題】
しかしながら、従来の装置では、予め体系化されたクラスに複数の文書を分類するものの、それらの文書に記載された個々の内容の特徴を分析しなかったので、個々の文書が意味する具体的な内容を同一傾向別に分類することができないという不都合があった。具体例で説明する。例えば、「Ａ党を支持する」、「Ｂ税の導入に反対だ」等のテキストがあった場合、「Ａ党」や「Ｂ税」といった特徴量により、これらのテキストをすべて「政治」というクラスに分類することができても、使用者は、「政治」に分類された個々のテキストが意味する具体的な内容を把握できなかった。
【０００５】
ここで仮に、個々のテキストが意味する具体的な内容を把握するために、「政治」に属するクラスを細分類することを考える。そのための特徴量として、例えば「支持しない」といった特徴量を設けたとする。しかし、この場合、次の２点の問題があり、適切に細分類することができない。第１の問題は、「支持しない」を含むテキストの中には、互いに異なる意味をもつケースがある点である。例えば、「Ａ党を支持しない」、「Ｂ税を支持しない」といったテキストが存在する場合、両者が意味する内容は、互いに異なる。しかしながら、特徴量が「支持しない」であるので、両者が、同じクラスに属する結果となる。第２の問題は、テキストが意味する同義の内容には、ある程度の幅がある点である。例えば、「Ｂ税は反対だ」と「Ｂ税を支持しない」は、その意味合いが近いので、両者はほぼ同義である。しかしながら、このような場合も上記特徴量の設定により、両者が、異なるクラスに属する結果となる。したがって、例えば「政治」に属するクラスを細分類しようとしても、特徴量の設定が困難で、個々のテキストが意味する内容を直接的につかむことができないという結果となる。
【０００６】
この発明は、上述のような課題を解決するためになされたもので、その目的は、個々のテキストが意味する具体的な内容を同じ傾向別に分類して把握することができるテキスト主旨分析装置およびテキスト主旨分析プログラムを得るものである。
【０００７】
【課題を解決するための手段】
この発明に係るテキスト主旨分析装置においては、分析対象となるテキストの中から抽出された単語を格納する単語抽出結果ファイルと、上記テキストについてＫ平均法によるクラスタリングをおこなうためのＫ平均法分析条件を格納するＫ平均法分析条件ファイルとを設ける。そして、中央演算処理装置は、単語抽出結果ファイルおよびＫ平均法分析条件ファイルを参照して、Ｋ平均法によるクラスタリングにより、分析対象であるテキストの意味する内容が同じ傾向であることを示す単位であるクラスタごとに分析対象であるテキストを分類するとともに、同じ分類のクラスタに属するテキストの中に占める単語の意味の重要度をあらわす重心値をクラスタごとに算出して、単語および重心値をクラスタごとに外部装置へ出力するものである。
【０００８】
【発明の実施の形態】
実施の形態１．
この発明の実施の形態１に係るテキスト主旨分析装置について図面を参照しながら説明する。図１は、この発明の実施の形態１に係るテキスト主旨分析装置の構成を示す図である。なお、各図中、同一符号は同一または相当部分を示す。
【０００９】
図１において、テキスト主旨分析装置１０は、記憶装置１１およびＣＰＵ（中央演算処理装置）１２を備え、マウス２０、キーボード３０およびディスプレイ４０と接続されている。テキスト主旨分析装置１０は、例えばパソコンである。記憶装置１１は、テキスト主旨分析プログラムやデータを格納するためのものであり、例えば、ＨＤＤやＲＯＭ、ＲＡＭが該当する。
【００１０】
記憶装置１１は、単語抽出条件ファイル１１１、単語抽出結果ファイル１１２、抽出単語用変換表ファイル１１３、Ｋ平均法分析条件ファイル１１４、分析結果ファイル１１５、および重心値別出力条件ファイル１１６を有する。
【００１１】
単語抽出条件ファイル１１１は、単語抽出条件を格納する。この単語抽出条件は、分析対象となるテキストに含まれる形態素を解析して、その形態素からなる単語を頻出度合いに応じて抽出するための条件である。
【００１２】
ここでいうテキストとは、文の総称であり、ファイル形式の種類を問わない。テキストは、例えば、コールセンターに寄せられたお客さまの声や、アンケートデータ等の短文を記載したものである。また、形態素とは、これ以上細かくすると意味がなくなってしまう最小の文字列をいう。具体的には、連体詞、名詞、格助詞、助動詞などの品詞が該当する。
【００１３】
単語とは、ここではそれ自体で意味をもつものを指し、助詞等の品詞が一部除かれる場合がある。例えば、分析対象のテキストが、「本日は晴天で」や「電力は」の場合、「晴天」や「電力」のみが上記単語に該当する。また、「頻出度合いに応じて抽出する」とあるのは、テキストに記載された回数に応じて抽出するという意味であり、この抽出方法により、その回数の多い順に単語を抽出することが可能である。具体的には、テキストに記載の単語の記載回数が上位５０位の単語を抽出するケースの場合、上位５０位の単語が抽出される。なお、上述した抽出技術は公知である。
【００１４】
単語抽出結果ファイル１１２は、分析対象となるテキストに含まれる単語をテキストごとに格納する。
【００１５】
抽出単語用変換表ファイル１１３は、単語の存在の有無をテキストごとにあらわした変換表を格納する。
【００１６】
Ｋ平均法分析条件ファイル１１４は、Ｋ平均法分析条件を格納する。このＫ平均法分析条件は、テキストについてＫ平均法によるクラスタリングをおこなうための条件である。このＫ平均法分析条件には、Ｋ平均法によるクラスタリングをおこなうためのクラスタリング手順や、クラスタ数の初期値、クラスタ数の最大値（上限値）、クラスタ数の最小値（下限値）、重心値の許容値が含まれている。クラスタとは、テキストの意味する内容が同じ傾向であることを示す単位である。また、重心値とは、同じクラスタに属するテキストの中に占める単語の意味の重要度をあらわすものであり、例えば、０から１までの値で指標される。この重心値が大きいほど、その重心値にかかる単語のもつ意味が大きい。重心値の許容値は、許容範囲（例えば、０．８〜１．０）、特定の値（例えば、１．０）など、自在な設定が可能である。
【００１７】
クラスタリング手順について概説する。このクラスタリング手順は、次の（１）から（５）までの手順である。（１）クラスタ数として自然数Ｋを選択する。（２）自然数Ｔ個のデータから適当にＫ個とり、それらをクラスタＣ_１からＣ_Ｋの中心Ｗ_１からＷ_Ｋとする。（３）Ｔ個のデータの各Ｘ（ｔ）について、ユークリッド距離の絶対値｛Ｘ（ｔ）−Ｗ_ｊ｝を最小にする中心Ｗ_ｊ（ｊは自然数）を求め、Ｘ（ｔ）をクラスタＣ_ｊに属するものとする。（４）各クラスタＣ_ｊに属するサンプルの平均値を求め、それをＷ’_ｊとする。（５）全てのｊについてＷ’_ｊ＝Ｗ_ｊならば終了し、そうでなければＷ_ｊ：＝Ｗ’_ｊとして、上記（３）の処理に戻る。
【００１８】
分析結果ファイル１１５は、分析対象のテキストをＫ平均法によるクラスタリングにより分析した結果を格納する。
【００１９】
重心値別出力条件ファイル１１６は、出力条件を上記重心値に対応付けて格納する。この出力条件は、単語の大きさ（例えば、１０ポイントなど）、単語の濃淡、単語の色（例えば、赤など）に関する条件である。
【００２０】
ＣＰＵ１２は、テキスト主旨分析装置１０の全体的な動作を制御するためのものである。
【００２１】
つぎに、この実施の形態１に係るテキスト主旨分析装置１０の動作について図面を参照しながら説明する。
【００２２】
図２は、この発明の実施の形態１に係るテキスト主旨分析装置の動作を示すフローチャートである。図３は、この発明の実施の形態１に係るテキスト主旨分析装置が作成した抽出単語用変換表の一例を示す図である。また、図４は、クラスタ数Ｋが５の場合の分析結果であるグラフ表示例である。図５は、クラスタ数Ｋが３の場合の分析結果であるグラフ表示例である。図６は、分析結果の各種表示例である。なお、テキスト主旨分析装置１０は、テキスト主旨分析プログラムに従って動作する。
【００２３】
図２に示すステップ１０１において、ＣＰＵ１２は、単語抽出条件ファイル１１１に格納された単語抽出条件に基づいて、分析対象となるテキストに含まれる形態素を解析する。この分析対象となるテキストは、例えば、アンケートの調査結果である次の１０ケースである。「Ａ党は支持する」、「Ａ党を非常に支持する」、「消費税の導入は反対である」、「消費税は反対だ」、「消費税は反対です」、「Ａ党を支持してます」、「消費税はよくない」、「Ａ党を支持しない」、「Ａ党支持だ」、および「国会はいつから始まりますか」（以下、ケース１、２、３、４、５、６、７、８、９および１０という。）の１０ケースである。
【００２４】
次に、ステップ１０２において、ＣＰＵ１２により、上記単語抽出条件に基づいて、形態素からなる単語を頻出度合いに応じて抽出して単語抽出結果ファイル１１２に格納する。
【００２５】
次に、ステップ１０３において、ＣＰＵ１２により、単語抽出結果ファイル１１２に格納された単語の存在の有無を分析対象となるテキストごとにあらわした変換表を生成して抽出単語用変換表ファイル１１３に格納する。具体的には、ＣＰＵ１２は、該当する単語が存在する場合には「１」をプロットし、それが存在しない場合には「０」をプロットする。この変換表を図３に示す。図３では、「Ａ党」、「消費税」、「国会」、「支持する」等の単語の存在の有無をケースごとにあらわしている。これによると、Ｋ平均法によるクラスタリングによる分析が行い易くなる。
【００２６】
次に、ステップ１０４において、使用者が、マウス２０やキーボード３０を操作して、クラスタ数Ｋの初期値（例えば、Ｋ＝５）を指定すると、ＣＰＵ１２は、上記初期値を入力する。なお、この初期値は、予め設定しておいてもよい。
【００２７】
次に、ステップ１０５において、使用者が、マウス２０やキーボード３０を操作して、重心値の許容値（例えば、０．９以上）を指定すると、ＣＰＵ１２は、上記重心値を入力する。なお、この許容値は、予め設定しておいてもよい。
【００２８】
次に、ステップ１０６において、ＣＰＵ１２により、単語抽出結果ファイル１１２およびＫ平均法分析条件ファイル１１４を参照して、Ｋ平均法によるクラスタリングにより、分析対象となるテキストをクラスタごとに分類するとともに、同じ分類のクラスタに属するテキストの中に占める単語の意味の重要度をあらわす重心値をクラスタごとに算出する。具体的には、ＣＰＵ１２は、指定された初期値分のクラスタごとに分析対象となるテキストを分類して重心値を算出する。なお、上記許容値が複数存在する場合（例えば、２番目の単語は重心値を０．７以上で、３番目の単語は０．５以上にする場合）、ＣＰＵ１２は、許容値として存在する値すべてに適合する重心値を算出する。これにより、個々のテキストの具体的な内容を詳細に分析することができる。
【００２９】
次に、ステップ１０７において、ＣＰＵ１２により、算出後の重心値が指定された許容値に適合するかどうかを判断する。
【００３０】
そして、算出後の重心値が指定された許容値に適合すると判断された場合、ステップ１０８において、ＣＰＵ１２は、テキストの単語および上記重心値をクラスタごとにディスプレイ（外部装置）４０へ表示する。この表示例を図４に示す。図４では、クラスタ数Ｋが５の場合の分析結果がグラフ表示されている。縦軸には重心値が、横軸には単語（変数）が、クラスタｄ５１、ｄ５２、ｄ５３、ｄ５４、ｄ５５ごとにそれぞれ表示されている。これにより、使用者は、個々のテキストの具体的な内容の傾向を客観的に把握することができる。例えば、上記１０ケース中、４ケースが同じクラスタに、３ケースが同じクラスタに属することが把握できる。なお、上記Ｋ平均法によるクラスタリングによる分析結果は、ＣＰＵ１２により、分析結果ファイル１１５に格納される。
【００３１】
その後、ステップ１０９において、使用者が、例えば、マウス２０やキーボード３０を操作してクラスタ数を変えた場合（例えば、クラスタ数Ｋを５から３に変更した場合）、ＣＰＵ１２は、クラスタ数が変更されたことを検出する。
【００３２】
次に、ステップ１１０において、ＣＰＵ１２により、Ｋ平均法分析条件ファイル１１４および分析結果ファイル１１５を参照して、Ｋ平均法によるクラスタリングにより、指定されたクラスタ数に基づいて、分析対象となるテキストを再分析し、ステップ１０８において、ＣＰＵ１２は、再分析した結果をディスプレイ４０へ表示する。この表示例を図５に示す。図５では、クラスタ数Ｋが３の場合の分析結果がグラフ表示されている。縦軸には重心値が、横軸には単語が、クラスタｄ３１、ｄ３２、ｄ３３ごとにそれぞれ表示されている。これにより、使用者は、あらゆる面から、個々のテキストの具体的な内容を把握することができる。
【００３３】
一方、ステップ１０７において、算出後の重心値が指定された許容値に適合しないと判断された場合は、次のステップで、ＣＰＵ１２は、算出後の重心値が許容値に適合するように、分析対象のテキストをクラスタごとに再分類して再分類後のクラスタごとに重心値を再算出する。これにより、分析対象となるテキストを上記許容値に適合するまで自動でクラスタ分類することができる。
【００３４】
具体的には、ステップ１１１において、ＣＰＵ１２は、クラスタ数の初期値（例えば、５）に所定の値（例えば、１）を加算する。
次に、ステップ１１２において、ＣＰＵ１２は、加算後のクラスタ数が上限値（例えば、９９）に達しないかどうかを判断する。
そして、上記上限値に達していないと判断された場合、ステップ１０６において、ＣＰＵ１２は、加算後のクラスタ数に基づいて、対象となるテキストを、Ｋ平均法によるクラスタリングによりクラスタごとに再分類して重心値を再算出する。その後、上記ステップ１０７において、ＣＰＵ１２により、算出後の重心値が指定された許容値に適合しないと判断された場合は、ＣＰＵ１２は、上記ステップ１１１、１１２、１０６の処理を繰り返す。
【００３５】
このようにして、ＣＰＵ１２は、再分類後のクラスタ数が、Ｋ平均法分析条件に含まれる上限値に達するかどうかを判断し、再分類後のクラスタ数が上限値に達しない場合に限り、再分類するごとに、分類したクラスタ数を加算して再分類して重心値を再算出する。これにより、分析対象のテキストの具体的な内容の傾向を上限値以内のクラスタ数に分類することができる。なお、Ｋ平均法分析条件に下限値を含む場合、ＣＰＵ１２は、再分類後のクラスタ数が下限値に達しない場合に限り、再分類するごとに、分類したクラスタ数を減算して再分類して重心値を再算出してもよい。
【００３６】
以上説明したように、テキスト主旨分析装置１は、Ｋ平均法によるクラスタリングにより、分析対象であるテキストをクラスタごとに分類するとともに、同分類のクラスタごとに重心値を算出して、単語および重心値をクラスタごとにディスプレイ４０へ出力するので、個々のテキストが意味する具体的な内容を同じ傾向別に分類して把握することができる。
【００３７】
また、ＣＰＵ１２により、分析対象となるテキストに含まれる形態素を解析し、形態素からなる単語を頻出度合いに応じて抽出して単語抽出結果ファイル１１２に格納するので、分析対象となるテキストに含まれる単語の抽出からＫ平均法によるクラスタリングによる分析までの一連の処理を自動で行うことができる。
【００３８】
なお、この実施の形態１において、ＣＰＵ１２は、テキストの単語および上記重心値をクラスタごとにディスプレイ４０へグラフ表示する場合で説明したが、これに限られない。例えば、ＣＰＵ１２は、重心値別出力条件ファイル１１６を参照して、算出後の重心値に対応する単語の大きさ又は濃淡のいずれかに関する出力条件を用いて上記重心値にかかる単語を上記クラスタごとに出力してもよい。この出力例を図６に示す。図６（Ａ）は、上述したグラフ表示例である。図６（Ｂ）は、単語（文字）の大きさを重心値に応じてそれぞれ可変した場合の表示例である。図６（Ｃ）は、単語（フォント）の濃淡を重心値に応じてそれぞれ可変した場合の表示例である。図６（Ｂ）では、各単語の重心値に応じて、例えば、検針票５０１、未着５０２、支払５０３の文字の大きさが、それぞれ大、小、中の順に表示されている。図６（Ｃ）では、各単語の重心値に応じて、例えば、検針票６０１の文字の濃度が最も濃く、未着６０２および希望６０５の文字の濃度が、最も淡く表示されている。これにより、個々のテキストの意味する具体的な内容を視覚的に容易に把握することができる。
【００３９】
また、実施の形態１において、ＣＰＵ１２が、変更後のクラスタ数に基づいて、分析対象となるテキストを再分析してその結果をディスプレイ４０へ表示する場合で説明したが、例えば、分類された複数のクラスタのうち、特定のクラスタに基づいて、特定のクラスタに属するテキストを再分析してその結果をディスプレイ４０へ表示してもよい。具体的には、ＣＰＵ１２は、Ｋ平均法によるクラスタリングにより、特定のクラスタに属するテキストをさらに細分類して重心値を再算出する。これによると、個々のテキストの内容の傾向をさらに細分化することができる。
【００４０】
【発明の効果】
この発明は以上説明したように、テキスト主旨分析装置は、Ｋ平均法によるクラスタリングにより、分析対象であるテキストをクラスタごとに分類するとともに、同じ分類のクラスタごとに重心値を算出して、単語および重心値をクラスタごとに外部装置へ出力するので、個々のテキストが意味する具体的な内容を同じ傾向別に分類して把握することができる。
【図面の簡単な説明】
【図１】この発明の実施の形態１に係るテキスト主旨分析装置の構成を示す図である。
【図２】この発明の実施の形態１に係るテキスト主旨分析装置の動作を示すフローチャートである。
【図３】この発明の実施の形態１に係るテキスト主旨分析装置が作成した抽出単語用変換表の一例を示す図である。
【図４】クラスタ数Ｋが５の場合の分析結果であるグラフ表示例である。
【図５】クラスタ数Ｋが３の場合の分析結果であるグラフ表示例である。
【図６】分析結果の各種表示例である。
【符号の説明】
１０テキスト主旨分析装置、１１記憶装置、１２ＣＰＵ（中央演算処理装置）、１１１単語抽出条件ファイル、１１２単語抽出結果ファイル、１１３抽出単語用変換表ファイル、１１４Ｋ平均法分析条件ファイル、１１５分析結果ファイル、１１６重心値別出力条件ファイル。

Claims

分析対象となるテキストに含まれる単語をテキストごとに格納する単語抽出結果ファイルと、
前記テキストについてＫ平均法によるクラスタリングをおこなうためのＫ平均法分析条件を格納するＫ平均法分析条件ファイルと、
前記単語抽出結果ファイルおよび前記Ｋ平均法分析条件ファイルを参照して、Ｋ平均法によるクラスタリングにより、前記分析対象となるテキストの意味する内容が同じ傾向であることを示す単位であるクラスタごとに前記分析対象となるテキストを分類するとともに、同じ分類のクラスタに属するテキストの中に占める単語の意味の重要度をあらわす重心値を前記クラスタごとに算出して、前記単語および前記重心値を前記クラスタごとに外部装置へ出力する中央演算処理装置と
を備えたことを特徴とするテキスト主旨分析装置。
前記Ｋ平均法分析条件に、前記重心値の許容値を含む場合、
前記中央演算処理装置は、前記許容値に適合する重心値を前記クラスタごとに算出する
ことを特徴とする請求項１記載のテキスト主旨分析装置。
前記Ｋ平均法分析条件に、クラスタ数の初期値、および前記重心値の許容値を含む場合、
前記中央演算処理装置は、前記分析対象となるテキストを前記初期値分のクラスタごとに分類して前記重心値を算出し、算出後の重心値が前記許容値に適合するかどうかを判断し、算出後の重心値が前記許容値に適合しないと判断した場合は、算出後の重心値が前記許容値に適合するように、前記分析対象となるテキストをクラスタごとに再分類して再分類後のクラスタごとに前記重心値を再算出する
ことを特徴とする請求項１記載のテキスト主旨分析装置。
前記Ｋ平均法分析条件に、前記クラスタ数の上限値又は下限値をさらに含む場合、前記中央演算処理装置は、再分類後のクラスタ数が前記上限値又は下限値に達しないかどうかを判断し、再分類後のクラスタ数が前記上限値又は下限値に達しない場合に限り、再分類するごとに、前記分類したクラスタ数を加算し又は減算して再分類して重心値を再算出する
ことを特徴とする請求項３記載のテキスト主旨分析装置。
前記許容値が複数存在する場合、前記中央演算処理装置は、前記許容値として存在する値すべてに適合する重心値を算出する
ことを特徴とする請求項２又は３記載のテキスト主旨分析装置。
前記中央演算処理装置は、前記Ｋ平均法によるクラスタリングをおこなう際、前記単語抽出結果ファイルに格納された単語の存在の有無を前記分析対象となるテキストごとにあらわした変換表を生成し、前記変換表に基づいてＫ平均法によるクラスタリングをおこなう
ことを特徴とする請求項１記載のテキスト主旨分析装置。
前記単語の大きさ又は濃淡のいずれかに関する出力条件を前記重心値に対応付けて格納する重心値別出力条件ファイルをさらに備え、
前記中央演算処理装置は、前記単語および前記重心値を外部装置へ出力する際、前記重心値別出力条件ファイルを参照して、算出後の重心値に対応する単語の大きさ又は濃淡のいずれかに関する出力条件を用いて前記重心値にかかる単語を前記クラスタごとに出力する
ことを特徴とする請求項１記載のテキスト主旨分析装置。
分析対象となるテキストに含まれる形態素を解析して、前記形態素からなる単語を頻出度合いに応じて抽出するための単語抽出条件を格納する単語抽出条件ファイルをさらに備え、
前記中央演算処理装置は、前記単語抽出条件に基づいて、分析対象となるテキストに含まれる形態素を解析し、前記形態素からなる単語を頻出度合いに応じて抽出して前記単語抽出結果ファイルに格納する
ことを特徴とする請求項１から７までのいずれかに記載のテキスト主旨分析装置。
前記中央演算処理装置に、
分析対象となるテキストに含まれる単語をテキストごとに格納する単語抽出結果ファイル、および前記テキストについてＫ平均法によるクラスタリングをおこなうためのＫ平均法分析条件を格納するＫ平均法分析条件ファイルを参照する手順と、
Ｋ平均法によるクラスタリングにより、前記テキストの意味する内容が同じ傾向であることを示す単位であるクラスタごとに前記分析対象となるテキストを分類するとともに、同じ分類のクラスタに属するテキストの中に占める単語の意味の重要度をあらわす重心値を前記クラスタごとに算出する手順と、
前記単語および前記重心値を前記クラスタごとに外部装置へ出力する手順と
を実行させるためのテキスト主旨分析プログラム。
前記Ｋ平均法分析条件に、前記重心値の許容値を含む場合、前記中央演算処理装置に、前記許容値に適合する重心値を前記クラスタごとに算出する手順を実行させる
ための請求項９記載のテキスト主旨分析プログラム。
前記Ｋ平均法分析条件に、クラスタ数の初期値、および前記重心値の許容値を含む場合、
前記中央演算処理装置に、前記分析対象となるテキストを前記初期値分のクラスタごとに分類して前記重心値を算出する手順と、
算出後の重心値が前記許容値に適合するかどうかを判断する手順と、
算出後の重心値が前記許容値に適合しないと判断した場合は、算出後の重心値が前記許容値に適合するように、前記分析対象となるテキストをクラスタごとに再分類して再分類後のクラスタごとに前記重心値を再算出する手順と
を実行させるための請求項９記載のテキスト主旨分析プログラム。
前記Ｋ平均法分析条件に、前記クラスタ数の上限値又は下限値をさらに含む場合、
前記中央演算処理装置に、再分類後のクラスタ数が前記上限値又は下限値に達しないかどうかを判断する手順と、
再分類後のクラスタ数が前記上限値又は下限値に達しない場合に限り、再分類するごとに、前記分類したクラスタ数を加算し又は減算して再分類して重心値を再算出する手順と
を実行させるための請求項１１記載のテキスト主旨分析プログラム。
前記許容値が複数存在する場合、前記中央演算処理装置に、前記許容値として存在する値すべてに適合する重心値を算出する手順を実行させる
ための請求項１０又は１１記載のテキスト主旨分析プログラム。
前記中央演算処理装置に、前記単語抽出結果ファイルに格納された単語の存在の有無を前記分析対象となるテキストごとにあらわした変換表を生成する手順と、
前記変換表に基づいてＫ平均法によるクラスタリングをおこなう手順と
を実行させるための請求項９記載のテキスト主旨分析プログラム。
前記中央演算処理装置に、前記単語の大きさ又は濃淡のいずれかに関する出力条件を前記重心値に対応付けて格納する重心値別出力条件ファイルを参照する手順と、
算出後の重心値に対応する単語の大きさ又は濃淡のいずれかに関する出力条件を用いて前記重心値にかかる単語を前記クラスタごとに出力する手順と
を実行させるための請求項９記載のテキスト主旨分析プログラム。
前記中央演算処理装置に、分析対象となるテキストに含まれる形態素を解析して、前記形態素からなる単語を頻出度合いに応じて抽出するための単語抽出条件を格納する単語抽出条件ファイルに基づいて、分析対象となるテキストに含まれる形態素を解析する手順と、
前記形態素からなる単語を頻出度合いに応じて抽出して前記単語抽出結果ファイルに格納する手順と
を実行させるための請求項９から１５までのいずれかに記載のテキスト主旨分析プログラム。