JP2003099446A - 文書分類装置及びその方法とそれを記録した記録媒体 - Google Patents

文書分類装置及びその方法とそれを記録した記録媒体

Info

Publication number
JP2003099446A
JP2003099446A JP2001290021A JP2001290021A JP2003099446A JP 2003099446 A JP2003099446 A JP 2003099446A JP 2001290021 A JP2001290021 A JP 2001290021A JP 2001290021 A JP2001290021 A JP 2001290021A JP 2003099446 A JP2003099446 A JP 2003099446A
Authority
JP
Japan
Prior art keywords
document
group
text
field
uniqueness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001290021A
Other languages
English (en)
Inventor
Atsuo Shimada
敦夫 嶋田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001290021A priority Critical patent/JP2003099446A/ja
Publication of JP2003099446A publication Critical patent/JP2003099446A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 属性情報を用いて文書集合を部分集合に分割
し、部分集合に特徴的なグループを出力して文書分類す
る、文書分類装置及びその方法を提供する。 【解決手段】 テキストフィールドと属性情報フィール
ドの集合を格納する文書レコード保持部と、ここに保持
された文書レコード集合を複数の部分集合に分割する文
書レコード集合分割部と、ここが分割に使用したフィー
ルドの認識番号及び分割のために予め定めた分割条件情
報を保持するテキストグループ保持部と、該テキストグ
ループ保持部により指定された前記テキストフィールド
のテキストに基づき、分割された部分集合毎に、文書グ
ループを生成するテキストグループ生成部と、前記テキ
ストグループ保持部を参照して前記テキストグループ生
成部により生成されたグループが、分割された部分集合
に固有か否かを示す指標を算出するグループ固有度算出
部と、該グループ固有度算出部で算出された固有度に基
づき、各文書グループを分割された部分集合の識別情報
とともに出力する文書グループ出力部により構成され
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書分類装置及び
その方法に関し、さらに詳しくは、文書の内容に基づき
文書を分類する技術を、文書データ集合の分析に利用す
るテキストマイニング技術に関するものである。
【0002】
【従来の技術】近年、インターネットおよびパーソナル
コンピュータ(PC)の発展に伴い、電子化された文書
データが容易に大量に入手・蓄積される状況になってき
た。こうして入手される膨大なテキストで記述されたデ
ータを、分析して企業の意思決定に利用しようとする動
きがある。例えば、企業が顧客相談窓口などから集めら
れるテキストデータ(文書データ)に対して、顧客から
の問い合わせの内容をテキストで記録し、それらの内容
に基づいて、どの製品に対する問い合わせか、どういう
不具合に対する問い合わせかなどで分類したり、それら
の顧客のセグメントによるばらつきを見たりあるいは集
計したりして、CS(Customer Satisfaction)のため
の情報収集や、既存製品の改良点の把握、新規製品の企
画ポイントを探る資料としている。また、同様の例とし
て、インターネットチャネルを介して実施されるアンケ
ートで収集される自由記述回答データから、同様に市場
の動向を把握し、新規商品や新規サービスのヒントを得
ようとすることにも利用されている。こうしたテキスト
データは、テキストで記述される部分と、従来の統計手
法により解析が容易な記号やコード、数値などで記述さ
れる部分とから構成されている。前記の顧客相談窓口の
データでは、具体的な顧客の声の記録と、企業の担当者
の回答の記録とがテキスト記述データであり、機種コー
ドや問い合わせの受け付け日時、問い合わせ相手の属性
などが、数値・記号データとなる。また、アンケートデ
ータでは、自由記述を求められた設問がテキストデータ
であり、従来のように記号や数値で回答を求められた設
問が数値・記号データである。どちらも、1件の問い合
わせ記録や1件のアンケート回答を1文書データとす
る。
【0003】このようなテキストを含むデータの分析支
援技術として、例えば、特開平11−15835号公報
では、各テキストデータを、単語を特徴とする文書ベク
トルと見なし、ベクトル間の類似度(距離)を測度とし
て、クラスタリング手法を用いてこれらの文書ベクトル
の群分けをし、文書の自動分類を行うものがある。つま
り、テキスト部分を自動分類するということは、各デー
タのテキスト部分に自動的に分類識別記号を付与するこ
とと等価と見なすことができるため、この分類識別記号
と他の数値・記号データとの相関や集計値などを算出す
れば、機種毎の問い合わせ内容の違いや、年齢・性別別
の自由記述内容の種類との関連を分析することができ
る。また、特開平11−175530号公報では、各テ
キストデータの作成日時の部分を分類する時間分類部
と、テキスト部分を分類する話題分類部とを用意し、対
象テキストデータを時間×話題(時間毎の話題の遷移)
として表示する方法が提案されている。
【0004】
【発明が解決しようとする課題】特開平11−1583
5号公報は、テキスト部分との関連性を想定する数値・
記号データ部分が固定(例えば作成日時)であり、予め
決まっている属性間の関連性しか分析できない。また、
特開平11−175530号公報は、テキストデータを
話題に基づき分類する際の対象データ範囲が全分析対象
データであるため、特にテキストデータに対する話題分
類をクラスタリングに基づき行う場合、分析対象データ
全体の傾向を反映してしまい、ある条件のデータ範囲の
中でのみ出現するようなローカルな話題、マイナーな話
題を抽出することが困難である。本発明は、かかる課題
に鑑み、属性情報を用いて文書集合を部分集合に分割
し、部分集合に特徴的なグループを出力して文書分類す
る、文書分類装置及びその方法を提供することを目的と
する。
【0005】
【課題を解決するための手段】本発明はかかる課題を解
決するために、請求項1の発明は、複数の文書データか
ら成るテキストフィールドと、複数の数値及び記号デー
タから成る属性情報フィールドと、を有する複数の文書
レコードを分類処理する文書分類装置において、前記テ
キストフィールドと属性情報フィールドの集合を格納す
る文書レコード保持部と、前記属性情報フィールドを用
いて、前記文書レコード保持部に保持された文書レコー
ド集合を複数の部分集合に分割する文書レコード集合分
割部と、該文書レコード集合分割部が分割に使用したフ
ィールドの認識番号及び分割のために予め定めた分割条
件情報を保持するテキストグループ保持部と、該テキス
トグループ保持部により指定された前記テキストフィー
ルドのテキストに基づき、分割された部分集合毎に、文
書グループを生成するテキストグループ生成部と、前記
テキストグループ保持部を参照して前記テキストグルー
プ生成部により生成されたグループが、分割された部分
集合に固有か否かを示す指標を算出するグループ固有度
算出部と、該グループ固有度算出部で算出された固有度
に基づき、各文書グループを分割された部分集合の識別
情報とともに出力する文書グループ出力部と、を備えた
ことを特徴とする。文書レコード保持部は、ネットワー
クやファイルIOなどと接続されており、外部から分析
対象文書レコード集合を入力・保持することができる。
文書レコード集合分割部は、上記のうち数値データない
し、記号データを利用して文書レコード保持部に保持さ
れる文書レコード集合を分割する。そして、文書レコー
ド集合分割部は、分割に使用したフィールドのIDおよ
び分割条件情報(分割条件式など)をテキストグループ
保持部に出力するとともに、分割した部分集合を1つず
つテキストグループ生成部に出力する。そして、グルー
プ固有度算出部は、テキストグループ保持部を参照し
て、生成された各グループの固有度をフィールド毎に求
める。ここで、グループ固有度とは、生成されたグルー
プが分割された部分集合に固有かどうかを示す指標のこ
とである。文書グループ出力部は、テキストグループ保
持部を参照して、固有度やフィールドIDをキーとし
て、グループを分割条件とともに表示・ファイル出力す
る。かかる発明によれば、クラスタリング対象のデータ
範囲が、分割条件で絞られているので、全体のデータを
対象としていたときには出現しない、その分割条件によ
り設定されるデータ範囲の中でローカルな話題やマイナ
ーな話題を出力することができる。また、グループを出
力時に、固有度とともに分割条件も同時に出力できるの
で、高い固有度のテキストグループがどのような数値・
記号型フィールドの値の条件で出現するかを、ユーザー
がすべての組み合わせを見ることなく発見できる。
【0006】また、請求項2の発明は、前記グループ固
有度算出部は、少なくとも、該グループ固有度算出部の
部分集合から得られた各文書グループと、該文書グルー
プに所属するレコードを除く他のレコード集合とを比較
することで、グループ固有度を算出することも本発明の
有効な手段である。かかる技術手段によれば、グループ
固有度算出部は、少なくとも、該グループ固有度算出部
の部分集合から得られた各文書グループと、該文書グル
ープに所属するレコードを除く他のレコード集合とを比
較するので、固有度の計算が、生成した全グループ間の
組み合わせで比較する必要がなく計算できるので、計算
コストが小さい。また、請求項3の発明は、前記グルー
プ固有度算出部は、少なくとも、該グループ固有度算出
部のフィールドから生成した全文書グループ間の類似度
を求めることで、グループ固有度を算出することも本発
明の有効な手段である。かかる技術手段によれば、グル
ープ固有度算出部は、少なくとも、該グループ固有度算
出部のフィールドから生成した全文書グループ間の類似
度を求めることで、グループ固有度を算出するので、各
グループに固有度が与えら、固有度の高いマイナー話題
のグループだけでなく、固有度の低い共通話題のグルー
プも出力することができる。また、請求項4の発明は、
前記グループ固有度算出部が、少なくとも、該グループ
固有度算出部の部分集合から得られた各文書グループと
全体の文書集合とを比較することで、グループ固有度を
算出することも本発明の有効な手段である。かかる技術
手段によれば、固有度の計算が、生成した全グループ間
の組み合わせで比較する必要がなく計算できるので、計
算コストを小さくすることができる。
【0007】また、請求項5の発明は、前記文書レコー
ド集合分割部が、任意の分割フィールド及び分割条件情
報を受け付けることも本発明の有効な手段である。かか
る技術手段によれば、ユーザーの関心により指定された
分割条件のみを適用するので、文書グループ生成および
固有度計算の数が抑えられる。また、請求項6の発明
は、 複数の文書データから成るテキストフィールド
と、複数の数値及び記号データから成る属性情報フィー
ルドと、を有する複数の文書レコードを分類処理する文
書分類方法において、前記テキストフィールドと属性情
報フィールドの集合を格納し、前記属性情報フィールド
を用いて、前記格納された文書レコード集合を複数の部
分集合に分割し、該分割に使用したフィールドの認識番
号及び分割のために予め定めた分割条件情報を保持し、
該保持された前記テキストフィールドのテキストに基づ
き、分割された部分集合毎に、文書グループを生成し、
生成されたグループが、分割された部分集合に固有か否
かを示す指標を算出し、該算出された固有度に基づき、
各文書グループを分割された部分集合の識別情報ととも
に出力することを特徴とする。かかる発明によれば、請
求項1と同様の作用効果を奏する。また、請求項7の発
明は、前記部分集合から得られた各文書グループと、該
文書グループに所属するレコードを除く他のレコード集
合とを比較することで、グループ固有度を算出すること
も本発明の有効な手段である。かかる技術手段によれ
ば、請求項2と同様の作用効果を奏する。また、請求項
8の発明は、前記フィールドから生成した全文書グルー
プ間の類似度を求めることで、グループ固有度を算出す
ることも本発明の有効な手段である。かかる技術手段に
よれば、請求項3と同様の作用効果を奏する。
【0008】また、請求項9の発明は、前記部分集合か
ら得られた各文書グループと全体の文書集合とを比較す
ることで、グループ固有度を算出することも本発明の有
効な手段である。かかる技術手段によれば、請求項4と
同様の作用効果を奏する。また、請求項10の発明は、
前記格納された文書レコード集合を複数の部分集合に分
割する手順が、任意の分割フィールド及び分割条件情報
を受け付けることも本発明の有効な手段である。かかる
技術手段によれば、請求項5と同様の作用効果を奏す
る。また、請求項11の発明は、複数の文書データから
成るテキストフィールドと、複数の数値及び記号データ
から成る属性情報フィールドと、を有する複数の文書レ
コードを分類処理する文書分類方法において、前記テキ
ストフィールドと属性情報フィールドの集合を格納し、
前記属性情報フィールドを用いて、前記格納された文書
レコード集合を複数の部分集合に分割し、該分割に使用
したフィールドの認識番号及び分割のために予め定めた
分割条件情報を保持し、該保持された前記テキストフィ
ールドのテキストに基づき、分割された部分集合毎に、
文書グループを生成し、生成されたグループが、分割さ
れた部分集合に固有か否かを示す指標を算出し、該算出
された固有度に基づき、各文書グループを分割された部
分集合の識別情報とともに出力することをコンピュータ
に実行させるプログラムとして記録したことも本発明の
有効な手段である。かかる技術手段によれば、請求項1
と同様の作用効果を奏する。
【0009】
【発明の実施の形態】以下、本発明を図に示した実施形
態を用いて詳細に説明する。但し、この実施形態に記載
される構成要素、種類、組み合わせ、形状、その相対配
置などは特定的な記載がない限り、この発明の範囲をそ
れのみに限定する主旨ではなく単なる説明例に過ぎな
い。図1は、本発明の実施形態の文書分類装置の全体構
成を示すブロック図である。この構成は、スキャナ、キ
ーボード当から構成される入力装置1と、データを一時
的に記憶するRAM(Random Access Memory)等からな
る記憶装置2と、文書分類装置100の制御用プログラ
ムを格納するHDD(Hard Disc Drive)やROM(Rea
d Only Memory)等から成る記憶装置3と、表示部やプ
リンタ等からなる出力装置5と、FDD(Floppy Disk
Drive)、CD−ROM、MO(Magneto-Optics)等か
らなる記録媒体6と、記憶装置3からのプログラムを実
行するCPUにより構成されるデータ処理装置4で構成
されている。図2は、本発明の実施形態の文書分類装置
の構成図である。図1と併せて参照しながらこの構成と
機能について説明する。文書レコード保持部10は、図
1の記憶装置2に相当し、入力装置1からテキストデー
タと数値・記号データを含むデータを格納する手段であ
る。そして、文書レコード保持部10は、図示しないネ
ットワークやファイルI/Oなどと接続されており、外
部から図3のような分析対象文書レコード集合(後述す
る)を入力・保持することができる。本実施形態では、
文書レコード保持部10にデータが格納される際、各フ
ィールド毎がテキストデータか数値データか、記号デー
タかを識別するために格納されているデータの形式が指
定されている。このデータタイプの指定は、自動で行っ
ても、ユーザーによる指示により行われても良い。ユー
ザーにより指示が行われる場合は、文書レコード保持部
10には、図4のようにフィールド毎にどのようなデー
タタイプが指定されたかを格納することが必要になる。
【0010】図3は、本発明の分析対象データ例の一部
を表す図である。このデータでは、Q2およびQ4にテ
キストデータが記述されており、Q1、Q3−1、Q3
−2、Q3−3、Q5、AGE、DATEに数値・記号
データが記述されている。また、1レコード毎が1つの
回答であり、全体としてはこのようなレコードが多数あ
るアンケートデータとする。なお、Noは説明のために
付与したレコードのID番号である。例えば、図3のQ
1は記号データであるから、フィールドの値として
「1」を持つレコードの集合と、「2」を持つレコード
の集合と、「3」を持つレコードの集合とに分割され
る。「1」を持つ部分集合はレコードIDが[2、7、
10、14・・・]であり、「2」を持つ部分集合は
「1、4、6、8、9、13、15・・・」であり、
「3」を持つ部分集合は「3、5、11、12、・・
・」である。このように記号データの場合は、出現する
記号によりレコード集合を分割することができるが、記
号の種類が多数になる場合は、1つの部分集合のレコー
ド数が極端に少なくなることになる。そのため、あらか
じめ定めた一定の分割数(例えば30)、あるいは、あ
らかじめ定めた式(例えばレコード総数÷期待度数)に
より算出される数以上の記号の種類を持つフィールド
は、自動分割しないようにすることもできる。図4は、
図3のフィールドID番号とデータタイプの関係を表す
図である。つまり、フィールドID「1」は数値型を表
し、フィールドID「2」は記号型を表し、フィールド
ID「3」はテキスト型を表し、フィールドID「4」
はユーザ未指定を表し、任意にユーザが決めることがで
きる。
【0011】次に、文書レコード集合分割部11は、前
記のうち数値データおよび記号データを利用して、文書
レコード保持部10に保持される文書レコード集合を分
割する手段である。この分割は自動と手動があり、ま
ず、分割が自動で行われ、記号データの場合について説
明する。文書レコード集合分割部11は、記号データが
格納されるフィールドに着目して、そのフィールドに出
現する記号をキーとして、記号の種類の数に分割する。
そして、分割に使用したフィールドのID(Q1)およ
び分割条件情報(分割条件式など)をテキストグループ
保持部13に出力するとともに、分割した部分集合を1
つずつテキストグループ生成部12に出力する。例え
ば、図3のQ1は記号データであるから、前記の通り、
フィールドの値として「1」を持つレコードの集合と、
「2」を持つレコードの集合と、「3」を持つレコード
の集合とに分割される。このように記号データの場合
は、出現する記号によりレコード集合を分割することが
できるが、記号の種類が多数になる場合は、1つの部分
集合のレコード数が極端に少なくなる。そのため、あら
かじめ定めた一定の分割数(例えば30)、あるいは予
め定めた式(例えばレコード総数÷期待度数)により算
出される数以上の記号の種類を持つフィールドは自動分
割しないようにすることもできる。このように、文書レ
コード集合分割部により生成される部分集合毎に、逐
次、部分集合に所属するレコードのIDのリストが、テ
キストグループ生成部12に出力され、同時に、フィー
ルドID(この場合Q1)および分割条件(例えばQ1
=1)がテキストグループ保持部13に出力される。次
に、フィールドに割り当てられたデータタイプの識別子
が数値の場合、文書レコード集合分割部11は、例え
ば、最大値と最小値を求め、それを予め定めた分割数、
あるいは式から得られる分割数で除算することで級区間
を決定して、文書レコード集合を分割する。記号データ
と同様に文書レコード集合分割部11は、分割に使用し
たフィールドIDおよび分割条件をテキストグループ保
持部13に出力するとともに、分割した結果である部分
集合に所属するレコードのIDを逐次、テキストグルー
プ生成部12に出力する。
【0012】次に分割が手動で行われる場合について説
明する。手動での指定には、1)分割に利用するフィー
ルドの指定、2)分割条件の指定の2つのレベルがあ
る。まず、手動フィールド指定の場合、本発明では、分
析対象データの任意のフィールドに対するフィールドI
DおよびデータタイプのIDを文書レコード集合分割部
11が受け付けるようになっている。文書レコード集合
分割部11は、与えられたデータタイプのIDにより、
前記のように自動的に分割条件を生成し、文書レコード
集合の分割を実行する。分割条件を指定する場合は、ユ
ーザーにより入力された分割条件式とフィールドIDを
文書レコード集合分割部11が受け取り、このフィール
ドの値に対して、分割条件式を適用しながら、文書レコ
ード集合の分割を実行する。そして、分割処理を行った
後、文書レコード集合分割部11は、フィールドID、
分割条件をテキストグループ保持部13に、また、分割
結果である部分集合のレコードIDのリストをテキスト
グループ生成部12にそれぞれ出力する。
【0013】テキストグループ生成部12では、受け取
った部分集合に対して、分類対象のテキストフィールド
のデータに基づき自動分類を実行する。本発明の実施形
態の自動分類の処理は、以下のステップから実行され
る。 <第1の実施形態> 1)文書レコード集合の指定されたテキストフィールド
に対して、テキストフィールド言語解析部16は、形態
素解析を施して各フィールド値から語句(トークン)を
抽出し、結果を言語解析結果保持部17へ出力する。 2)言語解析結果保持部17は、受け取ったトークンか
ら、レコード・トークン行列を生成する。行列の各要素
には当該のフィールドのレコード中トークンの出現数が
記録される。 3)2)で生成されたレコード・トークン行列から、文
書レコード集合分割部11から受け取ったレコードのI
Dに基づき、部分集合に対するレコード・トークン行列
を生成する。 4)3)のレコード・トークン行列に対して、k-means
等のクラスタリング手法を適用して複数のレコード集合
を得る。 5)得られたレコードIDの集合を、レコード集合(グ
ループ)IDとともにテキストグループ保持部13に出
力する 6)さらに、3)で受けとった部分集合を生成したフィ
ールドIDおよび分割条件と共に、5)から受け取った
グループIDと、そのメンバーであるレコードIDの集
合をテキストグループ保持部13に保持する。 7)以上のステップを、文書レコード集合分割部11が
生成した部分集合の数だけ繰り返す。
【0014】また、別の実施形態としては以下の方法も
考えられる。 <第2の実施形態> 1)文書レコード集合の指定されたテキストフィールド
に対して、テキストフィールド言語解析部16は、形態
素解析を施して、各フィールド値から語句(トークン)
を抽出し、結果を言語解析結果保持部17へ出力する。 2)言語解析結果保持部17は、受け取ったトークンか
ら、レコード・トークン行列を生成する。行列の各要素
には当該のフィールドのレコード中トークンの出現数が
記録される。 3)2)で生成されたレコード・トークン行列から、文
書レコード集合分割部11から受け取ったレコードのI
Dに基づき、部分集合に対するレコード・トークン行列
を生成する。 4)3)のレコード・トークン行列に対して、k-means
等のクラスタリング手法を適用し、複数のレコード集合
を得る。 5)4)で得られた各レコード集合毎に、その重心ベク
トル(各レコードの合成ベクトル)を求める。 6)2)のレコード・トークン行列から生成されるトー
クン空間内で、5)で求めた重心ベクトルと全レコード
との余弦などによって与えられる類似度を計算し、予め
定めた閾値までの類似度を持つレコードをメンバーとす
るグループを求める。 7)得られたレコードIDの集合を、レコード集合(グ
ループ)IDとともにテキストグループ保持部13に出
力する。 8)3)で受けとった部分集合を生成したフィールドI
Dおよび分割条件とともに、7)で受け取ったグループ
IDとそのメンバーであるレコードIDの集合をテキス
トグループ保持部13に保持させる。 9)以上のステップを、文書レコード集合分割部11が
生成した部分集合の数だけ繰り返す。
【0015】また、グループ固有度算出部14は、テキ
ストグループ保持部13を参照して生成された各グルー
プの固有度をフィールド毎に求める。ここで、グループ
固有度とは、生成されたグループが分割された部分集合
に固有かどうかを示す指標のことである。以下、グルー
プ生成に前記第1及び第2の実施形態を用いた場合のグ
ループ固有度の算出方法について説明する。まず、グル
ープ生成に前記第2実施形態を用いた場合のグループ固
有度の算出方法について説明する。前記第2実施形態で
は、部分集合から生成された各グループのメンバーは、
必ずしも前記部分集合のメンバーとは限らない。したが
ってグループの固有性は、ある部分集合から生成された
グループのメンバーが、主としてその部分集合のメンバ
ーであれば、分割して生成された部分集合に固有のグル
ープであると言える。この考え方に基づき、本発明で
は、以下の式で与えられる固有度指標を用いている。 Z=A/B・・・・(1) A=PS−P B=SquareRoot[1/N・P・(1−P)] 但しP<PSの場合、それ以外は0を与える。但し、P
は、文書レコード集合全体におけるグループSのメンバ
ー比率、PSは、対象の部分集合内のグループSのメン
バー比率とする。式(1)は、以下の式(2)で置き換
えても同様の結果を得ることができる。 χ=A/B・・・・(2) A=N・[F1・(N2―F2)―(N1−F1)・F
2] B=(F1+F2)・[N−(F1+F2)]・N1・
N2 但し、F1/N1>(F2/N2)の場合、それ以外は
0を与える。図5は、この結果を表にまとめた図であ
る。前記の(1)、(2)式によって与えられるZやχ
は、値が大きいほど検査するグループSがその部分集
合に固有であることを表す。これにより、グループ固有
度算出部14は、前記Zやχを値を算出した後、算出
値とグループのIDを保持する。
【0016】次に、グループ生成に前記第1実施形態を
用いた場合のグループ固有度の算出方法について説明す
る。前記第1実施形態では、同一フィールドを参照して
生成されたグループについて、以下のステップで与えら
れる固有度指標の値とグループのIDを保持する。 1)以下の処理はフィールド毎に行う 2)各グループ毎に、当該の部分集合内でそのグループ
に固有な単語群を求める。単語の固有性はtf*idf等の公
知の指標を用い、その値がある閾値以上のものを固有単
語とすればよい。 3)同一フィールドの値を参照して生成されたグループ
を、2)で求めたすべての単語群が作る空間内にベクト
ル表現をする。 4)3)の空間内でのグループベクトル間の余弦や距離
を用いて、グループ間の類似度行列を求める。 5)各グループ毎に、当該グループの類似度と他のグル
ープの類似度との差の平方和を求めて、生成した全グル
ープ数で除すことで、当該グループの固有度を求める。 6)各グループの固有度をテキストグループ保持部13
のグループIDに対応付けて保持する。 また、上記の2)、3)、4)のステップは、以下のス
テップで置き換えても良い。 1)各グループ毎に、グループの全レコード集合内での
代表ベクトルを求める。 2)代表ベクトル間の距離などをグループ間の類似性の
指標とし、グループ間の類似度行列を求める 以上の手続により、テキストグループ保持部13には、
図6のように各グループの固有度が、グループ毎に記録
されることになる。最後に文書グループ出力部15は、
テキストグループ保持部13を参照して、固有度やフィ
ールドIDをキーとして、グループを分割条件とともに
図1の出力装置5に表示・ファイル出力する。なお、出
力の際に、予め定めた一定の固有度(例えば0.7)以
上のグループのみを出力することもできる。
【0017】
【発明の効果】以上記載のごとく本発明によれば、請求
項1、6、11は、クラスタリング対象のデータ範囲
が、分割条件で絞られているので、全体のデータを対象
としていたときには出現しない、その分割条件により設
定されるデータ範囲の中でローカルな話題やマイナーな
話題を出力することができる。また、グループを出力時
に、固有度とともに分割条件も同時に出力できるので、
高い固有度のテキストグループがどのような数値・記号
型フィールドの値の条件で出現するかを、ユーザーがす
べての組み合わせを見ることなく発見できる。請求項
2、7は、グループ固有度算出部は、少なくとも、該グ
ループ固有度算出部の部分集合から得られた各文書グル
ープと、該文書グループに所属するレコードを除く他の
レコード集合とを比較するので、固有度の計算が、生成
した全グループ間の組み合わせで比較する必要がなく計
算できるので、計算コストが小さい。請求項3、8は、
グループ固有度算出部は、少なくとも、該グループ固有
度算出部のフィールドから生成した全文書グループ間の
類似度を求めることで、グループ固有度を算出するの
で、各グループに固有度が与えら、固有度の高いマイナ
ー話題のグループだけでなく、固有度の低い共通話題の
グループも出力することができる。請求項4、9は、固
有度の計算が、生成した全グループ間の組み合わせで比
較する必要がなく計算できるので、計算コストを小さく
することができる。請求項5、10は、ユーザーの関心
により指定された分割条件のみを適用するので、文書グ
ループ生成および固有度計算の数が抑えられる。
【図面の簡単な説明】
【図1】本発明の実施形態の文書分類装置の全体構成を
示すブロック図である。
【図2】本発明の実施形態の文書分類装置の構成図であ
る。
【図3】本発明の分析対象データ例の図である。
【図4】本発明のフィールドIDとデータタイプの対応
を表す図である。
【図5】本発明のグループ固有度の算出方法の結果をま
とめた図である。
【図6】本発明の各グループの固有度が、グループ毎に
記録された図である。
【符号の説明】
10 文書レコード保持部、11 文書レコード集合分
割部、12 テキストグループ生成部、13 テキスト
グループ保持部、14 グループ固有度算出部、15
文書グループ出力部、16 テキストフィールド言語解
析部、17 言語解析保持部

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 複数の文書データから成るテキストフィ
    ールドと、複数の数値及び記号データから成る属性情報
    フィールドと、を有する複数の文書レコードを分類処理
    する文書分類装置において、 前記テキストフィールドと属性情報フィールドの集合を
    格納する文書レコード保持部と、 前記属性情報フィールドを用いて、前記文書レコード保
    持部に保持された文書レコード集合を複数の部分集合に
    分割する文書レコード集合分割部と、 該文書レコード集合分割部が分割に使用したフィールド
    の認識番号及び分割のために予め定めた分割条件情報を
    保持するテキストグループ保持部と、 該テキストグループ保持部により指定された前記テキス
    トフィールドのテキストに基づき、分割された部分集合
    毎に、文書グループを生成するテキストグループ生成部
    と、 前記テキストグループ保持部を参照して前記テキストグ
    ループ生成部により生成されたグループが、分割された
    部分集合に固有か否かを示す指標を算出するグループ固
    有度算出部と、 該グループ固有度算出部で算出された固有度に基づき、
    各文書グループを分割された部分集合の識別情報ととも
    に出力する文書グループ出力部と、 を備えたことを特徴とする文書分類装置。
  2. 【請求項2】 前記グループ固有度算出部は、少なくと
    も、該グループ固有度算出部の部分集合から得られた各
    文書グループと、該文書グループに所属するレコードを
    除く他のレコード集合とを比較することで、グループ固
    有度を算出することを特徴とする請求項1記載の文書分
    類装置。
  3. 【請求項3】 前記グループ固有度算出部は、少なくと
    も、該グループ固有度算出部のフィールドから生成した
    全文書グループ間の類似度を求めることで、グループ固
    有度を算出することを特徴する請求項1記載の文書分類
    装置。
  4. 【請求項4】 前記グループ固有度算出部が、少なくと
    も、該グループ固有度算出部の部分集合から得られた各
    文書グループと全体の文書集合とを比較することで、グ
    ループ固有度を算出することを特徴とする請求項1記載
    の文書分類装置。
  5. 【請求項5】 前記文書レコード集合分割部が、任意の
    分割フィールド及び分割条件情報を受け付けることを特
    徴とする請求項1〜4記載の文書分類装置。
  6. 【請求項6】 複数の文書データから成るテキストフィ
    ールドと、複数の数値及び記号データから成る属性情報
    フィールドと、を有する複数の文書レコードを分類処理
    する文書分類方法において、 前記テキストフィールドと属性情報フィールドの集合を
    格納し、 前記属性情報フィールドを用いて、前記格納された文書
    レコード集合を複数の部分集合に分割し、 該分割に使用したフィールドの認識番号及び分割のため
    に予め定めた分割条件情報を保持し、 該保持された前記テキストフィールドのテキストに基づ
    き、分割された部分集合毎に、文書グループを生成し、 生成されたグループが、分割された部分集合に固有か否
    かを示す指標を算出し、 該算出された固有度に基づき、各文書グループを分割さ
    れた部分集合の識別情報とともに出力することを特徴と
    する文書分類方法。
  7. 【請求項7】 前記部分集合から得られた各文書グルー
    プと、該文書グループに所属するレコードを除く他のレ
    コード集合とを比較することで、グループ固有度を算出
    することを特徴とする請求項6記載の文書分類方法。
  8. 【請求項8】 前記フィールドから生成した全文書グル
    ープ間の類似度を求めることで、グループ固有度を算出
    することを特徴する請求項6記載の文書分類方法。
  9. 【請求項9】 前記部分集合から得られた各文書グルー
    プと全体の文書集合とを比較することで、グループ固有
    度を算出することを特徴とする請求項6記載の文書分類
    方法。
  10. 【請求項10】 前記格納された文書レコード集合を複
    数の部分集合に分割する手順が、任意の分割フィールド
    及び分割条件情報を受け付けることを特徴とする請求項
    6〜9記載の文書分類方法。
  11. 【請求項11】 複数の文書データから成るテキストフ
    ィールドと、複数の数値及び記号データから成る属性情
    報フィールドと、を有する複数の文書レコードを分類処
    理する文書分類方法において、 前記テキストフィールドと属性情報フィールドの集合を
    格納し、 前記属性情報フィールドを用いて、前記格納された文書
    レコード集合を複数の部分集合に分割し、 該分割に使用したフィールドの認識番号及び分割のため
    に予め定めた分割条件情報を保持し、 該保持された前記テキストフィールドのテキストに基づ
    き、分割された部分集合毎に、文書グループを生成し、 生成されたグループが、分割された部分集合に固有か否
    かを示す指標を算出し、 該算出された固有度に基づき、各文書グループを分割さ
    れた部分集合の識別情報とともに出力することをコンピ
    ュータに実行させるプログラムとして記録したコンピュ
    ータ読み取り可能な記録媒体。
JP2001290021A 2001-09-21 2001-09-21 文書分類装置及びその方法とそれを記録した記録媒体 Pending JP2003099446A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001290021A JP2003099446A (ja) 2001-09-21 2001-09-21 文書分類装置及びその方法とそれを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001290021A JP2003099446A (ja) 2001-09-21 2001-09-21 文書分類装置及びその方法とそれを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2003099446A true JP2003099446A (ja) 2003-04-04

Family

ID=19112421

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001290021A Pending JP2003099446A (ja) 2001-09-21 2001-09-21 文書分類装置及びその方法とそれを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2003099446A (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115835A (ja) * 1997-06-20 1999-01-22 Fuji Xerox Co Ltd 分類情報提示装置及び分類情報提示プログラムを記録した媒体
JPH11296539A (ja) * 1998-04-13 1999-10-29 Omron Corp データ処理装置
JP2000285140A (ja) * 1998-12-24 2000-10-13 Ricoh Co Ltd 文書処理装置、文書分類装置、文書処理方法、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115835A (ja) * 1997-06-20 1999-01-22 Fuji Xerox Co Ltd 分類情報提示装置及び分類情報提示プログラムを記録した媒体
JPH11296539A (ja) * 1998-04-13 1999-10-29 Omron Corp データ処理装置
JP2000285140A (ja) * 1998-12-24 2000-10-13 Ricoh Co Ltd 文書処理装置、文書分類装置、文書処理方法、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Similar Documents

Publication Publication Date Title
US7788086B2 (en) Method and apparatus for processing sentiment-bearing text
US8380727B2 (en) Information processing device and method, program, and recording medium
US20060200342A1 (en) System for processing sentiment-bearing text
JP4622589B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
Liu et al. A method for the detection of fake reviews based on temporal features of reviews and comments
US6778941B1 (en) Message and user attributes in a message filtering method and system
Hao et al. Visual exploration of frequent patterns in multivariate time series
JP2007058863A (ja) テキスト類別システム
Baber et al. Three decades of consumer ethnocentrism research: A bibliometric analysis
US20120239657A1 (en) Category classification processing device and method
US20170124459A1 (en) Method and system for generating predictive models for scoring and prioritizing leads
US20180247240A1 (en) Judgment support system and judgment support method
JP2011198111A (ja) 特徴語抽出装置及びプログラム
CN115168567B (zh) 一种基于知识图谱的对象推荐方法
US11403654B2 (en) Identifying competitors of companies
JP5772599B2 (ja) テキストマイニングシステム、テキストマイニング方法および記録媒体
Bernard et al. Discovering customer journeys from evidence: a genetic approach inspired by process mining
Bernard et al. Contextual and behavioral customer journey discovery using a genetic approach
WO2008062822A1 (fr) Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte
US20020160349A1 (en) Training-curriculum creating system, server, method and computer program for creating a training curriculum
JP2004280180A (ja) 広告用キーワード抽出システム、広告文配信システム、広告用キーワード抽出プログラム及び広告文配信プログラム
KR20150102820A (ko) 자기 소개서 가이드 시스템 및 방법
JP2001216311A (ja) イベント分析装置、及びイベント分析プログラムが格納されたプログラム装置
Harding BI crucial to making the right decision: business intelligence is all about collecting useful information from multiple sources and then presenting it in an easy to understand format.(Special Report: Business Intelligence)
Özyirmidokuz et al. Analyzing customer complaints: a web text mining application

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070323

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070403

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091020

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091211

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100309