JP2004318408A - テキスト主旨分析装置およびテキスト主旨分析プログラム - Google Patents

テキスト主旨分析装置およびテキスト主旨分析プログラム Download PDF

Info

Publication number
JP2004318408A
JP2004318408A JP2003110452A JP2003110452A JP2004318408A JP 2004318408 A JP2004318408 A JP 2004318408A JP 2003110452 A JP2003110452 A JP 2003110452A JP 2003110452 A JP2003110452 A JP 2003110452A JP 2004318408 A JP2004318408 A JP 2004318408A
Authority
JP
Japan
Prior art keywords
value
text
word
clusters
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003110452A
Other languages
English (en)
Inventor
Satoshi Haseyama
聡 長谷山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tokyo Electric Power Company Holdings Inc
Original Assignee
Tokyo Electric Power Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Electric Power Co Inc filed Critical Tokyo Electric Power Co Inc
Priority to JP2003110452A priority Critical patent/JP2004318408A/ja
Publication of JP2004318408A publication Critical patent/JP2004318408A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】個々のテキストが意味する具体的な内容を同じ傾向別に分類して把握することができるテキスト主旨分析装置を得る。
【解決手段】CPU12は、単語抽出結果ファイル112およびK平均法分析条件ファイル114を参照して、K平均法によるクラスタリングにより、分析対象となるテキストの意味する内容が同じ傾向であることを示す単位であるクラスタごとに分析対象となるテキストを分類するとともに、同じ分類のクラスタに属するテキストの中に占める単語の意味の重要度をあらわす重心値を上記クラスタごとに算出して、上記単語および上記重心値を上記クラスタごとにディスプレイ40へ出力する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
この発明は、テキスト主旨分析装置およびテキスト主旨分析プログラムに係り、特に、客先からの要望等が記載されたテキストの意味する内容を分析するテキスト主旨分析装置およびテキスト主旨分析プログラムに関するものである。
【0002】
【従来の技術】
近年、テキストを分類する手法が活用されている。この手法では、一般に、予め分類したいクラスタ(例えば、政治等のカテゴリー)を定義しておき、未分類のテキストを上記クラスタごとに分類する。具体的には、対象となるテキストに存在する単語(名詞)の出現回数をカウントし、そのカウント数に応じて上記単語の重み付けを行う。この重み付けとは、テキスト全体の内容において、単語自体が意味する重要度を決定することである。この重要度は、特徴ベクトルといった特徴量に応じて決定される。そして、決定された特徴量をテキスト全体で比較することにより、個々のテキストを上記クラスタごとに分類する。このような手法を活用した従来の装置は、政治やスポーツといったクラスの分類を予め体系化しておき、未分類の文書を取得すると、その特徴量を決定することにより、文書が属するクラスを分類する(例えば、特許文献1参照)。
【0003】
【特許文献1】
特開平11−134364号公報(第1頁、1図)
【0004】
【発明が解決しようとする課題】
しかしながら、従来の装置では、予め体系化されたクラスに複数の文書を分類するものの、それらの文書に記載された個々の内容の特徴を分析しなかったので、個々の文書が意味する具体的な内容を同一傾向別に分類することができないという不都合があった。具体例で説明する。例えば、「A党を支持する」、「B税の導入に反対だ」等のテキストがあった場合、「A党」や「B税」といった特徴量により、これらのテキストをすべて「政治」というクラスに分類することができても、使用者は、「政治」に分類された個々のテキストが意味する具体的な内容を把握できなかった。
【0005】
ここで仮に、個々のテキストが意味する具体的な内容を把握するために、「政治」に属するクラスを細分類することを考える。そのための特徴量として、例えば「支持しない」といった特徴量を設けたとする。しかし、この場合、次の2点の問題があり、適切に細分類することができない。第1の問題は、「支持しない」を含むテキストの中には、互いに異なる意味をもつケースがある点である。例えば、「A党を支持しない」、「B税を支持しない」といったテキストが存在する場合、両者が意味する内容は、互いに異なる。しかしながら、特徴量が「支持しない」であるので、両者が、同じクラスに属する結果となる。第2の問題は、テキストが意味する同義の内容には、ある程度の幅がある点である。例えば、「B税は反対だ」と「B税を支持しない」は、その意味合いが近いので、両者はほぼ同義である。しかしながら、このような場合も上記特徴量の設定により、両者が、異なるクラスに属する結果となる。したがって、例えば「政治」に属するクラスを細分類しようとしても、特徴量の設定が困難で、個々のテキストが意味する内容を直接的につかむことができないという結果となる。
【0006】
この発明は、上述のような課題を解決するためになされたもので、その目的は、個々のテキストが意味する具体的な内容を同じ傾向別に分類して把握することができるテキスト主旨分析装置およびテキスト主旨分析プログラムを得るものである。
【0007】
【課題を解決するための手段】
この発明に係るテキスト主旨分析装置においては、分析対象となるテキストの中から抽出された単語を格納する単語抽出結果ファイルと、上記テキストについてK平均法によるクラスタリングをおこなうためのK平均法分析条件を格納するK平均法分析条件ファイルとを設ける。そして、中央演算処理装置は、単語抽出結果ファイルおよびK平均法分析条件ファイルを参照して、K平均法によるクラスタリングにより、分析対象であるテキストの意味する内容が同じ傾向であることを示す単位であるクラスタごとに分析対象であるテキストを分類するとともに、同じ分類のクラスタに属するテキストの中に占める単語の意味の重要度をあらわす重心値をクラスタごとに算出して、単語および重心値をクラスタごとに外部装置へ出力するものである。
【0008】
【発明の実施の形態】
実施の形態1.
この発明の実施の形態1に係るテキスト主旨分析装置について図面を参照しながら説明する。図1は、この発明の実施の形態1に係るテキスト主旨分析装置の構成を示す図である。なお、各図中、同一符号は同一または相当部分を示す。
【0009】
図1において、テキスト主旨分析装置10は、記憶装置11およびCPU(中央演算処理装置)12を備え、マウス20、キーボード30およびディスプレイ40と接続されている。テキスト主旨分析装置10は、例えばパソコンである。記憶装置11は、テキスト主旨分析プログラムやデータを格納するためのものであり、例えば、HDDやROM、RAMが該当する。
【0010】
記憶装置11は、単語抽出条件ファイル111、単語抽出結果ファイル112、抽出単語用変換表ファイル113、K平均法分析条件ファイル114、分析結果ファイル115、および重心値別出力条件ファイル116を有する。
【0011】
単語抽出条件ファイル111は、単語抽出条件を格納する。この単語抽出条件は、分析対象となるテキストに含まれる形態素を解析して、その形態素からなる単語を頻出度合いに応じて抽出するための条件である。
【0012】
ここでいうテキストとは、文の総称であり、ファイル形式の種類を問わない。テキストは、例えば、コールセンターに寄せられたお客さまの声や、アンケートデータ等の短文を記載したものである。また、形態素とは、これ以上細かくすると意味がなくなってしまう最小の文字列をいう。具体的には、連体詞、名詞、格助詞、助動詞などの品詞が該当する。
【0013】
単語とは、ここではそれ自体で意味をもつものを指し、助詞等の品詞が一部除かれる場合がある。例えば、分析対象のテキストが、「本日は晴天で」や「電力は」の場合、「晴天」や「電力」のみが上記単語に該当する。また、「頻出度合いに応じて抽出する」とあるのは、テキストに記載された回数に応じて抽出するという意味であり、この抽出方法により、その回数の多い順に単語を抽出することが可能である。具体的には、テキストに記載の単語の記載回数が上位50位の単語を抽出するケースの場合、上位50位の単語が抽出される。なお、上述した抽出技術は公知である。
【0014】
単語抽出結果ファイル112は、分析対象となるテキストに含まれる単語をテキストごとに格納する。
【0015】
抽出単語用変換表ファイル113は、単語の存在の有無をテキストごとにあらわした変換表を格納する。
【0016】
K平均法分析条件ファイル114は、K平均法分析条件を格納する。このK平均法分析条件は、テキストについてK平均法によるクラスタリングをおこなうための条件である。このK平均法分析条件には、K平均法によるクラスタリングをおこなうためのクラスタリング手順や、クラスタ数の初期値、クラスタ数の最大値(上限値)、クラスタ数の最小値(下限値)、重心値の許容値が含まれている。クラスタとは、テキストの意味する内容が同じ傾向であることを示す単位である。また、重心値とは、同じクラスタに属するテキストの中に占める単語の意味の重要度をあらわすものであり、例えば、0から1までの値で指標される。この重心値が大きいほど、その重心値にかかる単語のもつ意味が大きい。重心値の許容値は、許容範囲(例えば、0.8〜1.0)、特定の値(例えば、1.0)など、自在な設定が可能である。
【0017】
クラスタリング手順について概説する。このクラスタリング手順は、次の(1)から(5)までの手順である。(1)クラスタ数として自然数Kを選択する。(2)自然数T個のデータから適当にK個とり、それらをクラスタCからCの中心WからWとする。(3)T個のデータの各X(t)について、ユークリッド距離の絶対値{X(t)−W}を最小にする中心W(jは自然数)を求め、X(t)をクラスタCに属するものとする。(4)各クラスタCに属するサンプルの平均値を求め、それをW’とする。(5)全てのjについてW’=Wならば終了し、そうでなければW:=W’として、上記(3)の処理に戻る。
【0018】
分析結果ファイル115は、分析対象のテキストをK平均法によるクラスタリングにより分析した結果を格納する。
【0019】
重心値別出力条件ファイル116は、出力条件を上記重心値に対応付けて格納する。この出力条件は、単語の大きさ(例えば、10ポイントなど)、単語の濃淡、単語の色(例えば、赤など)に関する条件である。
【0020】
CPU12は、テキスト主旨分析装置10の全体的な動作を制御するためのものである。
【0021】
つぎに、この実施の形態1に係るテキスト主旨分析装置10の動作について図面を参照しながら説明する。
【0022】
図2は、この発明の実施の形態1に係るテキスト主旨分析装置の動作を示すフローチャートである。図3は、この発明の実施の形態1に係るテキスト主旨分析装置が作成した抽出単語用変換表の一例を示す図である。また、図4は、クラスタ数Kが5の場合の分析結果であるグラフ表示例である。図5は、クラスタ数Kが3の場合の分析結果であるグラフ表示例である。図6は、分析結果の各種表示例である。なお、テキスト主旨分析装置10は、テキスト主旨分析プログラムに従って動作する。
【0023】
図2に示すステップ101において、CPU12は、単語抽出条件ファイル111に格納された単語抽出条件に基づいて、分析対象となるテキストに含まれる形態素を解析する。この分析対象となるテキストは、例えば、アンケートの調査結果である次の10ケースである。「A党は支持する」、「A党を非常に支持する」、「消費税の導入は反対である」、「消費税は反対だ」、「消費税は反対です」、「A党を支持してます」、「消費税はよくない」、「A党を支持しない」、「A党支持だ」、および「国会はいつから始まりますか」(以下、ケース1、2、3、4、5、6、7、8、9および10という。)の10ケースである。
【0024】
次に、ステップ102において、CPU12により、上記単語抽出条件に基づいて、形態素からなる単語を頻出度合いに応じて抽出して単語抽出結果ファイル112に格納する。
【0025】
次に、ステップ103において、CPU12により、単語抽出結果ファイル112に格納された単語の存在の有無を分析対象となるテキストごとにあらわした変換表を生成して抽出単語用変換表ファイル113に格納する。具体的には、CPU12は、該当する単語が存在する場合には「1」をプロットし、それが存在しない場合には「0」をプロットする。この変換表を図3に示す。図3では、「A党」、「消費税」、「国会」、「支持する」等の単語の存在の有無をケースごとにあらわしている。これによると、K平均法によるクラスタリングによる分析が行い易くなる。
【0026】
次に、ステップ104において、使用者が、マウス20やキーボード30を操作して、クラスタ数Kの初期値(例えば、K=5)を指定すると、CPU12は、上記初期値を入力する。なお、この初期値は、予め設定しておいてもよい。
【0027】
次に、ステップ105において、使用者が、マウス20やキーボード30を操作して、重心値の許容値(例えば、0.9以上)を指定すると、CPU12は、上記重心値を入力する。なお、この許容値は、予め設定しておいてもよい。
【0028】
次に、ステップ106において、CPU12により、単語抽出結果ファイル112およびK平均法分析条件ファイル114を参照して、K平均法によるクラスタリングにより、分析対象となるテキストをクラスタごとに分類するとともに、同じ分類のクラスタに属するテキストの中に占める単語の意味の重要度をあらわす重心値をクラスタごとに算出する。具体的には、CPU12は、指定された初期値分のクラスタごとに分析対象となるテキストを分類して重心値を算出する。なお、上記許容値が複数存在する場合(例えば、2番目の単語は重心値を0.7以上で、3番目の単語は0.5以上にする場合)、CPU12は、許容値として存在する値すべてに適合する重心値を算出する。これにより、個々のテキストの具体的な内容を詳細に分析することができる。
【0029】
次に、ステップ107において、CPU12により、算出後の重心値が指定された許容値に適合するかどうかを判断する。
【0030】
そして、算出後の重心値が指定された許容値に適合すると判断された場合、ステップ108において、CPU12は、テキストの単語および上記重心値をクラスタごとにディスプレイ(外部装置)40へ表示する。この表示例を図4に示す。図4では、クラスタ数Kが5の場合の分析結果がグラフ表示されている。縦軸には重心値が、横軸には単語(変数)が、クラスタd51、d52、d53、d54、d55ごとにそれぞれ表示されている。これにより、使用者は、個々のテキストの具体的な内容の傾向を客観的に把握することができる。例えば、上記10ケース中、4ケースが同じクラスタに、3ケースが同じクラスタに属することが把握できる。なお、上記K平均法によるクラスタリングによる分析結果は、CPU12により、分析結果ファイル115に格納される。
【0031】
その後、ステップ109において、使用者が、例えば、マウス20やキーボード30を操作してクラスタ数を変えた場合(例えば、クラスタ数Kを5から3に変更した場合)、CPU12は、クラスタ数が変更されたことを検出する。
【0032】
次に、ステップ110において、CPU12により、K平均法分析条件ファイル114および分析結果ファイル115を参照して、K平均法によるクラスタリングにより、指定されたクラスタ数に基づいて、分析対象となるテキストを再分析し、ステップ108において、CPU12は、再分析した結果をディスプレイ40へ表示する。この表示例を図5に示す。図5では、クラスタ数Kが3の場合の分析結果がグラフ表示されている。縦軸には重心値が、横軸には単語が、クラスタd31、d32、d33ごとにそれぞれ表示されている。これにより、使用者は、あらゆる面から、個々のテキストの具体的な内容を把握することができる。
【0033】
一方、ステップ107において、算出後の重心値が指定された許容値に適合しないと判断された場合は、次のステップで、CPU12は、算出後の重心値が許容値に適合するように、分析対象のテキストをクラスタごとに再分類して再分類後のクラスタごとに重心値を再算出する。これにより、分析対象となるテキストを上記許容値に適合するまで自動でクラスタ分類することができる。
【0034】
具体的には、ステップ111において、CPU12は、クラスタ数の初期値(例えば、5)に所定の値(例えば、1)を加算する。
次に、ステップ112において、CPU12は、加算後のクラスタ数が上限値(例えば、99)に達しないかどうかを判断する。
そして、上記上限値に達していないと判断された場合、ステップ106において、CPU12は、加算後のクラスタ数に基づいて、対象となるテキストを、K平均法によるクラスタリングによりクラスタごとに再分類して重心値を再算出する。その後、上記ステップ107において、CPU12により、算出後の重心値が指定された許容値に適合しないと判断された場合は、CPU12は、上記ステップ111、112、106の処理を繰り返す。
【0035】
このようにして、CPU12は、再分類後のクラスタ数が、K平均法分析条件に含まれる上限値に達するかどうかを判断し、再分類後のクラスタ数が上限値に達しない場合に限り、再分類するごとに、分類したクラスタ数を加算して再分類して重心値を再算出する。これにより、分析対象のテキストの具体的な内容の傾向を上限値以内のクラスタ数に分類することができる。なお、K平均法分析条件に下限値を含む場合、CPU12は、再分類後のクラスタ数が下限値に達しない場合に限り、再分類するごとに、分類したクラスタ数を減算して再分類して重心値を再算出してもよい。
【0036】
以上説明したように、テキスト主旨分析装置1は、K平均法によるクラスタリングにより、分析対象であるテキストをクラスタごとに分類するとともに、同分類のクラスタごとに重心値を算出して、単語および重心値をクラスタごとにディスプレイ40へ出力するので、個々のテキストが意味する具体的な内容を同じ傾向別に分類して把握することができる。
【0037】
また、CPU12により、分析対象となるテキストに含まれる形態素を解析し、形態素からなる単語を頻出度合いに応じて抽出して単語抽出結果ファイル112に格納するので、分析対象となるテキストに含まれる単語の抽出からK平均法によるクラスタリングによる分析までの一連の処理を自動で行うことができる。
【0038】
なお、この実施の形態1において、CPU12は、テキストの単語および上記重心値をクラスタごとにディスプレイ40へグラフ表示する場合で説明したが、これに限られない。例えば、CPU12は、重心値別出力条件ファイル116を参照して、算出後の重心値に対応する単語の大きさ又は濃淡のいずれかに関する出力条件を用いて上記重心値にかかる単語を上記クラスタごとに出力してもよい。この出力例を図6に示す。図6(A)は、上述したグラフ表示例である。図6(B)は、単語(文字)の大きさを重心値に応じてそれぞれ可変した場合の表示例である。図6(C)は、単語(フォント)の濃淡を重心値に応じてそれぞれ可変した場合の表示例である。図6(B)では、各単語の重心値に応じて、例えば、検針票501、未着502、支払503の文字の大きさが、それぞれ大、小、中の順に表示されている。図6(C)では、各単語の重心値に応じて、例えば、検針票601の文字の濃度が最も濃く、未着602および希望605の文字の濃度が、最も淡く表示されている。これにより、個々のテキストの意味する具体的な内容を視覚的に容易に把握することができる。
【0039】
また、実施の形態1において、CPU12が、変更後のクラスタ数に基づいて、分析対象となるテキストを再分析してその結果をディスプレイ40へ表示する場合で説明したが、例えば、分類された複数のクラスタのうち、特定のクラスタに基づいて、特定のクラスタに属するテキストを再分析してその結果をディスプレイ40へ表示してもよい。具体的には、CPU12は、K平均法によるクラスタリングにより、特定のクラスタに属するテキストをさらに細分類して重心値を再算出する。これによると、個々のテキストの内容の傾向をさらに細分化することができる。
【0040】
【発明の効果】
この発明は以上説明したように、テキスト主旨分析装置は、K平均法によるクラスタリングにより、分析対象であるテキストをクラスタごとに分類するとともに、同じ分類のクラスタごとに重心値を算出して、単語および重心値をクラスタごとに外部装置へ出力するので、個々のテキストが意味する具体的な内容を同じ傾向別に分類して把握することができる。
【図面の簡単な説明】
【図1】この発明の実施の形態1に係るテキスト主旨分析装置の構成を示す図である。
【図2】この発明の実施の形態1に係るテキスト主旨分析装置の動作を示すフローチャートである。
【図3】この発明の実施の形態1に係るテキスト主旨分析装置が作成した抽出単語用変換表の一例を示す図である。
【図4】クラスタ数Kが5の場合の分析結果であるグラフ表示例である。
【図5】クラスタ数Kが3の場合の分析結果であるグラフ表示例である。
【図6】分析結果の各種表示例である。
【符号の説明】
10 テキスト主旨分析装置、11 記憶装置、12 CPU(中央演算処理装置)、111 単語抽出条件ファイル、112 単語抽出結果ファイル、113 抽出単語用変換表ファイル、114 K平均法分析条件ファイル、115 分析結果ファイル、116 重心値別出力条件ファイル。

Claims (16)

  1. 分析対象となるテキストに含まれる単語をテキストごとに格納する単語抽出結果ファイルと、
    前記テキストについてK平均法によるクラスタリングをおこなうためのK平均法分析条件を格納するK平均法分析条件ファイルと、
    前記単語抽出結果ファイルおよび前記K平均法分析条件ファイルを参照して、K平均法によるクラスタリングにより、前記分析対象となるテキストの意味する内容が同じ傾向であることを示す単位であるクラスタごとに前記分析対象となるテキストを分類するとともに、同じ分類のクラスタに属するテキストの中に占める単語の意味の重要度をあらわす重心値を前記クラスタごとに算出して、前記単語および前記重心値を前記クラスタごとに外部装置へ出力する中央演算処理装置と
    を備えたことを特徴とするテキスト主旨分析装置。
  2. 前記K平均法分析条件に、前記重心値の許容値を含む場合、
    前記中央演算処理装置は、前記許容値に適合する重心値を前記クラスタごとに算出する
    ことを特徴とする請求項1記載のテキスト主旨分析装置。
  3. 前記K平均法分析条件に、クラスタ数の初期値、および前記重心値の許容値を含む場合、
    前記中央演算処理装置は、前記分析対象となるテキストを前記初期値分のクラスタごとに分類して前記重心値を算出し、算出後の重心値が前記許容値に適合するかどうかを判断し、算出後の重心値が前記許容値に適合しないと判断した場合は、算出後の重心値が前記許容値に適合するように、前記分析対象となるテキストをクラスタごとに再分類して再分類後のクラスタごとに前記重心値を再算出する
    ことを特徴とする請求項1記載のテキスト主旨分析装置。
  4. 前記K平均法分析条件に、前記クラスタ数の上限値又は下限値をさらに含む場合、前記中央演算処理装置は、再分類後のクラスタ数が前記上限値又は下限値に達しないかどうかを判断し、再分類後のクラスタ数が前記上限値又は下限値に達しない場合に限り、再分類するごとに、前記分類したクラスタ数を加算し又は減算して再分類して重心値を再算出する
    ことを特徴とする請求項3記載のテキスト主旨分析装置。
  5. 前記許容値が複数存在する場合、前記中央演算処理装置は、前記許容値として存在する値すべてに適合する重心値を算出する
    ことを特徴とする請求項2又は3記載のテキスト主旨分析装置。
  6. 前記中央演算処理装置は、前記K平均法によるクラスタリングをおこなう際、前記単語抽出結果ファイルに格納された単語の存在の有無を前記分析対象となるテキストごとにあらわした変換表を生成し、前記変換表に基づいてK平均法によるクラスタリングをおこなう
    ことを特徴とする請求項1記載のテキスト主旨分析装置。
  7. 前記単語の大きさ又は濃淡のいずれかに関する出力条件を前記重心値に対応付けて格納する重心値別出力条件ファイルをさらに備え、
    前記中央演算処理装置は、前記単語および前記重心値を外部装置へ出力する際、前記重心値別出力条件ファイルを参照して、算出後の重心値に対応する単語の大きさ又は濃淡のいずれかに関する出力条件を用いて前記重心値にかかる単語を前記クラスタごとに出力する
    ことを特徴とする請求項1記載のテキスト主旨分析装置。
  8. 分析対象となるテキストに含まれる形態素を解析して、前記形態素からなる単語を頻出度合いに応じて抽出するための単語抽出条件を格納する単語抽出条件ファイルをさらに備え、
    前記中央演算処理装置は、前記単語抽出条件に基づいて、分析対象となるテキストに含まれる形態素を解析し、前記形態素からなる単語を頻出度合いに応じて抽出して前記単語抽出結果ファイルに格納する
    ことを特徴とする請求項1から7までのいずれかに記載のテキスト主旨分析装置。
  9. 前記中央演算処理装置に、
    分析対象となるテキストに含まれる単語をテキストごとに格納する単語抽出結果ファイル、および前記テキストについてK平均法によるクラスタリングをおこなうためのK平均法分析条件を格納するK平均法分析条件ファイルを参照する手順と、
    K平均法によるクラスタリングにより、前記テキストの意味する内容が同じ傾向であることを示す単位であるクラスタごとに前記分析対象となるテキストを分類するとともに、同じ分類のクラスタに属するテキストの中に占める単語の意味の重要度をあらわす重心値を前記クラスタごとに算出する手順と、
    前記単語および前記重心値を前記クラスタごとに外部装置へ出力する手順と
    を実行させるためのテキスト主旨分析プログラム。
  10. 前記K平均法分析条件に、前記重心値の許容値を含む場合、前記中央演算処理装置に、前記許容値に適合する重心値を前記クラスタごとに算出する手順を実行させる
    ための請求項9記載のテキスト主旨分析プログラム。
  11. 前記K平均法分析条件に、クラスタ数の初期値、および前記重心値の許容値を含む場合、
    前記中央演算処理装置に、前記分析対象となるテキストを前記初期値分のクラスタごとに分類して前記重心値を算出する手順と、
    算出後の重心値が前記許容値に適合するかどうかを判断する手順と、
    算出後の重心値が前記許容値に適合しないと判断した場合は、算出後の重心値が前記許容値に適合するように、前記分析対象となるテキストをクラスタごとに再分類して再分類後のクラスタごとに前記重心値を再算出する手順と
    を実行させるための請求項9記載のテキスト主旨分析プログラム。
  12. 前記K平均法分析条件に、前記クラスタ数の上限値又は下限値をさらに含む場合、
    前記中央演算処理装置に、再分類後のクラスタ数が前記上限値又は下限値に達しないかどうかを判断する手順と、
    再分類後のクラスタ数が前記上限値又は下限値に達しない場合に限り、再分類するごとに、前記分類したクラスタ数を加算し又は減算して再分類して重心値を再算出する手順と
    を実行させるための請求項11記載のテキスト主旨分析プログラム。
  13. 前記許容値が複数存在する場合、前記中央演算処理装置に、前記許容値として存在する値すべてに適合する重心値を算出する手順を実行させる
    ための請求項10又は11記載のテキスト主旨分析プログラム。
  14. 前記中央演算処理装置に、前記単語抽出結果ファイルに格納された単語の存在の有無を前記分析対象となるテキストごとにあらわした変換表を生成する手順と、
    前記変換表に基づいてK平均法によるクラスタリングをおこなう手順と
    を実行させるための請求項9記載のテキスト主旨分析プログラム。
  15. 前記中央演算処理装置に、前記単語の大きさ又は濃淡のいずれかに関する出力条件を前記重心値に対応付けて格納する重心値別出力条件ファイルを参照する手順と、
    算出後の重心値に対応する単語の大きさ又は濃淡のいずれかに関する出力条件を用いて前記重心値にかかる単語を前記クラスタごとに出力する手順と
    を実行させるための請求項9記載のテキスト主旨分析プログラム。
  16. 前記中央演算処理装置に、分析対象となるテキストに含まれる形態素を解析して、前記形態素からなる単語を頻出度合いに応じて抽出するための単語抽出条件を格納する単語抽出条件ファイルに基づいて、分析対象となるテキストに含まれる形態素を解析する手順と、
    前記形態素からなる単語を頻出度合いに応じて抽出して前記単語抽出結果ファイルに格納する手順と
    を実行させるための請求項9から15までのいずれかに記載のテキスト主旨分析プログラム。
JP2003110452A 2003-04-15 2003-04-15 テキスト主旨分析装置およびテキスト主旨分析プログラム Pending JP2004318408A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003110452A JP2004318408A (ja) 2003-04-15 2003-04-15 テキスト主旨分析装置およびテキスト主旨分析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003110452A JP2004318408A (ja) 2003-04-15 2003-04-15 テキスト主旨分析装置およびテキスト主旨分析プログラム

Publications (1)

Publication Number Publication Date
JP2004318408A true JP2004318408A (ja) 2004-11-11

Family

ID=33471308

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003110452A Pending JP2004318408A (ja) 2003-04-15 2003-04-15 テキスト主旨分析装置およびテキスト主旨分析プログラム

Country Status (1)

Country Link
JP (1) JP2004318408A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008299616A (ja) * 2007-05-31 2008-12-11 Kyushu Univ 文書分類装置、文書分類方法、プログラム及び記録媒体
CN108197163A (zh) * 2017-12-14 2018-06-22 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1153398A (ja) * 1997-07-29 1999-02-26 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP2000194721A (ja) * 1998-12-24 2000-07-14 Ricoh Co Ltd 文書群分類装置および文書群分類方法
JP2000305948A (ja) * 1999-04-26 2000-11-02 Ricoh Co Ltd 文書群分類装置および文書群分類方法
JP2000305950A (ja) * 1999-04-26 2000-11-02 Ricoh Co Ltd 文書分類装置および文書分類方法
JP2000331018A (ja) * 1999-05-20 2000-11-30 Matsushita Electric Ind Co Ltd 電子情報受信装置および電子情報処理方法
JP2001052013A (ja) * 1999-08-06 2001-02-23 Ricoh Co Ltd 文書処理装置、文書処理方法および文書処理プログラムを記録した媒体
JP2002183171A (ja) * 2000-12-12 2002-06-28 Matsushita Electric Ind Co Ltd 文書データ・クラスタリングシステム
JP2002230012A (ja) * 2000-12-01 2002-08-16 Sumitomo Electric Ind Ltd ドキュメントクラスタリング装置
JP2003076705A (ja) * 2001-08-30 2003-03-14 Nippon Yunishisu Kk 情報処理装置およびその方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1153398A (ja) * 1997-07-29 1999-02-26 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP2000194721A (ja) * 1998-12-24 2000-07-14 Ricoh Co Ltd 文書群分類装置および文書群分類方法
JP2000305948A (ja) * 1999-04-26 2000-11-02 Ricoh Co Ltd 文書群分類装置および文書群分類方法
JP2000305950A (ja) * 1999-04-26 2000-11-02 Ricoh Co Ltd 文書分類装置および文書分類方法
JP2000331018A (ja) * 1999-05-20 2000-11-30 Matsushita Electric Ind Co Ltd 電子情報受信装置および電子情報処理方法
JP2001052013A (ja) * 1999-08-06 2001-02-23 Ricoh Co Ltd 文書処理装置、文書処理方法および文書処理プログラムを記録した媒体
JP2002230012A (ja) * 2000-12-01 2002-08-16 Sumitomo Electric Ind Ltd ドキュメントクラスタリング装置
JP2002183171A (ja) * 2000-12-12 2002-06-28 Matsushita Electric Ind Co Ltd 文書データ・クラスタリングシステム
JP2003076705A (ja) * 2001-08-30 2003-03-14 Nippon Yunishisu Kk 情報処理装置およびその方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008299616A (ja) * 2007-05-31 2008-12-11 Kyushu Univ 文書分類装置、文書分類方法、プログラム及び記録媒体
CN108197163A (zh) * 2017-12-14 2018-06-22 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法
CN108197163B (zh) * 2017-12-14 2021-08-10 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法

Similar Documents

Publication Publication Date Title
CN111373392B (zh) 文献分类装置
CN106407406B (zh) 一种文本处理方法和系统
WO2020073664A1 (zh) 指代消解方法、电子装置及计算机可读存储介质
CN107122382B (zh) 一种基于说明书的专利分类方法
US10353925B2 (en) Document classification device, document classification method, and computer readable medium
US8504356B2 (en) Word classification system, method, and program
WO2022121163A1 (zh) 用户行为倾向识别方法、装置、设备及存储介质
JPH07114572A (ja) 文書分類装置
JP3781005B2 (ja) 文書抽出装置及び文書抽出プログラム並びに文書抽出方法
JP4997892B2 (ja) 検索システム、検索方法及び検索プログラム
JP2008084064A (ja) テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム
CN105488098B (zh) 一种基于领域差异性的新词提取方法
CN108460010A (zh) 一种基于情感分析的综合评分模型实现方法
CN107220293B (zh) 基于情绪的文本分类方法
CN111144106A (zh) 一种不平衡数据集下的两阶段文本特征选择方法
WO2019242443A1 (zh) 一种基于字符串的恶意软件识别方法、系统及相关装置
KR20200053334A (ko) 융합 연구 촉진을 위한 연구원 맵 구축 방법 및 시스템
Wołkowicz et al. Evaluation of n-gram-based classification approaches on classical music corpora
JP2011003156A (ja) データ分類装置、データ分類方法及びデータ分類プログラム
CN112380342A (zh) 一种电力文档主题提取方法及设备
JP2004318408A (ja) テキスト主旨分析装置およびテキスト主旨分析プログラム
JP2007079730A (ja) 単語類似判断装置、方法及びプログラム
JP5657338B2 (ja) 入力情報分析装置
US20220301330A1 (en) Information extraction system and non-transitory computer readable recording medium storing information extraction program
CN103870459B (zh) 有意义串的识别方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090331

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090811