JP4348145B2 - 文章分類プログラム、文章分類方法および文章分類装置 - Google Patents

文章分類プログラム、文章分類方法および文章分類装置 Download PDF

Info

Publication number
JP4348145B2
JP4348145B2 JP2003302715A JP2003302715A JP4348145B2 JP 4348145 B2 JP4348145 B2 JP 4348145B2 JP 2003302715 A JP2003302715 A JP 2003302715A JP 2003302715 A JP2003302715 A JP 2003302715A JP 4348145 B2 JP4348145 B2 JP 4348145B2
Authority
JP
Japan
Prior art keywords
data
sentence
morphemes
sentence data
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003302715A
Other languages
English (en)
Other versions
JP2005071229A (ja
Inventor
俊彦 伏見
嘉弘 山崎
主税 斎藤
雄一 蔦谷
浩文 内田
康一 都築
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2003302715A priority Critical patent/JP4348145B2/ja
Publication of JP2005071229A publication Critical patent/JP2005071229A/ja
Application granted granted Critical
Publication of JP4348145B2 publication Critical patent/JP4348145B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文章を自動的に分類する文章分類プログラム、文章分類方法および文章分類装置に関する。特に、コールセンターやメールセンター等、企業や自治体に集まる電子化された顧客や住民の声や営業マンが作成する営業報告書等の文章情報を、高精度で自動的に分類することが可能な文章分類プログラム、文章分類方法および文章分類装置に関する。
我々の周りには多種多様な情報が蓄積されているが、その情報の8割以上が文章情報であると言われている。このような文章情報から所定の目的とする情報を引き出すためには、これらの文章情報をいくつかのカテゴリーごとに分類することが必要であるが、基本的には人間がこれらの文章情報を読むことによって分類しているのが現状である。
例えば、ユーザーの要望、意見、疑問、苦情等を電話、FAX、電子メール等で受け付けるコールセンターやメールセンターにおいては、受け付けた要望等である文章情報を、オペレーターや担当者等の人間が所定の基準に基づいて分類している。
また、営業マンが作成した営業報告書を分類する場合、目的に応じて所定の形式で記述しておけば、その分類は比較的容易である。しかし、このような制限を設けると、設定された形式では記述することが困難な情報は捨象されてしまうことになる。そもそも、営業活動における危機警告情報やノウハウ情報などをうまく捉える項目を予め用意することは困難である。そのため、営業報告書は文章情報を中心に作成されることになり、分類する際も大変な労力と時間をかけてその内容を読み取り分類している。
また、上述のようなユーザーの要望等の文章情報にしても営業報告書にしても、文章内に登場するキーワードまたは、複数のキーワードの組み合わせによって機械的に分類する手法もある。
また、複数の文書データを格納する文書データベースと、各々の文書データに対し特徴ベクトルを生成する手段と、特徴ベクトル間の類似度を計算して各文書データを分類する手段と、文書データの分類結果を出力する手段とを備える情報検索装置であって、ベクトルを生成する手段が、各文書データを各々解析してキーワード及びキーワード間の関係を抽出し、これら両方の出現頻度に基づいて特徴ベクトルを生成する情報検索装置がある。、この情報検索装置は、文書データの分類において、各文書データのキーワードだけでなく、キーワード間の関係をも反映した類似度計算が可能となり、分類あるいは検索の精度を向上することができる(例えば、特許文献1参照。)。
また、対象となる分類カテゴリがある程度限定されたアンケートのような文書集合に対して、分類時に着目する点を規定する分類ルールを予め与えておき、さらに、分類カテゴリ毎に設定された分類基準文となる文書をサンプルデータとして与えた時に自動的にクラスタリングする事で、大量の学習用文書を必要とした自動分類を、少ないサンプルデータで自動分類することができる文書自動分類システムも存在する(例えば、特許文献2参照。)。
特開2001−312501号公報 特開2002−245067号公報
しかしながら、上述の従来技術には以下のような問題点があった。
人間による文章情報の分類では、個人差によりあるいは同一人物であったとしてもその時々により、分類する際の判断が大きく左右され、同一文章情報であっても異なるカテゴリーに分類されてしまったり、誤ったカテゴリーに分類されてしまったりする等、分類結果の正確性が悪いという問題点があった。
また、人間による文章分類には時間がかかるため、コストパフォーマンスが悪いという問題点があった。
また、キーワードを用いた機械分類では、例えば、ユーザーの意見が「強いクレーム」であるのか「弱い要望」であるのかといった、文章作成者の微妙なニュアンスを取り入れることができず、分類結果の制度が悪いという問題点があった。
本発明は、上述のような問題点に鑑みてなされたもので、コールセンターやメールセンター等、企業や自治体に集まる電子化された顧客や住民の声や営業マンが作成する営業報告書等の文章情報を、高精度で自動的に分類することが可能な文章分類プログラム、文章分類方法および文章分類装置を提供することを目的とする。
本発明は、上記課題を解決するため、下記のような構成を採用した。
既に分類されているデータ(正解セット)に基づいて、入力されたデータ(分類すべきデータ)を分類するという考え方、これらのデータを文章(テキストデータ)と非文章データ(狭義のデータ)とに分け、それぞれをマイニング(テキストマイニングとデータマイニング)により類似性を判断する基準値を算出し、その基準値に基づいて分類するという考え方を取り入れた。
すなわち、本発明の一態様によれば、本発明の文章分類プログラムは、文章を分類する文章分類装置において実行される文章分類プログラムであって、予め分類された基準文章データを形態素解析して形態素に分割する手順と、上記分割された上記基準文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する手順と、上記基準文章データにおける、上記抽出された形態素の組を構成する形態素間の距離を算出する手順と、上記基準文章データについて算出した距離に基づいて、上記基準文章データの基準値を算出する手順と、入力された文章データを形態素解析して形態素に分割する手順と、上記分割された上記文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する手順と、上記文章データにおける、上記抽出された形態素の組を構成する形態素間の距離を算出する手順と、上記算出された基準値と上記文章データについて算出された距離とに基づいて、上記基準文章データと上記文章データとの類似度を算出する手順と、上記算出された基準文章データと文章データとの類似度に基づいて、上記入力された文章データを分類する手順とを実現させる。
また、本発明の文章分類プログラムは、上記文章データにおける、上記抽出された形態素の組の個数を算出する手順を実現し、上記基準文章データと文章データとの類似度を算出する手順は、上記算出された基準値と上記文章データについて算出された距離及び個数とに基づいて、上記入力された文章データと上記文章データとの類似度を算出することが望ましい。
また、本発明の文章分類プログラムは、上記予め分類された基準文章データを作成した基準文章作成者に関する基準文章作成者情報と、上記入力された文章データを作成した文章作成者に関する文章作成者情報との類似度を算出する手順を実現し、上記分類する手順は、上記算出された基準文章データと文章データとの類似度と、上記算出された基準文章作成者情報と文章作成者情報との類似度とに基づいて、上記入力された文章データを分類することが望ましい。
また、本発明の一態様によれば、本発明の文章分類方法は、文章を分類する文章分類装置において実行される文章分類方法であって、予め分類された基準文章データを形態素解析して形態素に分割し、上記分割された上記基準文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出し、上記基準文章データにおける、上記抽出された形態素の組を構成する形態素間の距離を算出しと、上記基準文章データについて算出した距離に基づいて、上記基準文章データの基準値を算出し、入力された文章データを形態素解析して形態素に分割し、上記分割された上記文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出し、上記文章データにおける、上記抽出された形態素の組を構成する形態素間の距離を算出し、上記算出された基準値と上記文章データについて算出された距離とに基づいて、上記基準文章データと上記文章データとの類似度を算出し、上記算出された基準文章データと文章データとの類似度に基づいて、上記入力された文章データを分類することを特徴とする。
また、本発明の一態様によれば、本発明の文章分類装置は、文章を分類する文章分類装置において、予め分類された基準文章データを形態素解析して形態素に分割する第1の形態素解析手段と、上記1の形態素解析手段により分割された上記基準文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する第1の係り受け解析手段と、上記基準文章データにおける、上記第1の係り受け解析手段より抽出された形態素の組を構成する形態素間の距離を算出すると、上記基準文章データについて上記第1の距離算出手段により算出した距離に基づいて、上記基準文章データの基準値を算出する基準値算出手段と、入力された文章データを形態素解析して形態素に分割する第2の形態素解析手段と、上記第2の形態素解析手段により分割された上記文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する第2の係り受け解析手段と、上記文章データにおける、上記第2の係り受け解析手段により抽出された形態素の組を構成する形態素間の距離を算出する第2の距離算出手段と、上記基準値算出手段により算出された基準値と上記文章データについて上記第2の距離算出手段により算出された距離とに基づいて、上記基準文章データと上記文章データとの類似度を算出する類似度算出手段と、上記類似度算出手段により算出された基準文章データと文章データとの類似度に基づいて、上記入力された文章データを分類する文章分類手段と、を備えることを特徴とする。
本発明によれば、コールセンターやメールセンター等、企業や自治体に集まる電子化された顧客や住民の声や営業マンが作成する営業報告書等の文章情報を、高精度で自動的に分類することが可能となる。
本発明は、上述したようにテキストマイニングとデータマイニングとを利用している。
テキストマイニングを行うためには、文章データを形態素解析し、その形態素の係り受け解析をする必要がある。
例えば、「パソコンの電源を入れたけど動かない。」という文章を形態素解析して係り受け解析すると、「パソコン−動く」という結果が出力される。つまり、「主語−述語」等の関係が解析可能となり、「XXXが○○○だ」という判定が可能となる。
ここで、その文章における「主語−述語」間の距離からデータの類似性を判断する。例えば、顧客からのクレームの文章は、文章自体が短く、「主語-述語」間の距離が短くなる。
また、本発明においては、データマイニングのクラシフィケーションの手法であるMBR(Memory Based Reasoning)により数値データとの組み合わせを利用して、分類の精度を向上させている。MBRとは、未知のデータに最も類似するk個のデータを正解セットから探索し、探索したk個の重み付き多数決で入力データの分類を判定する。これにより、顧客プロフィール等の数値データから、クレーマーになりやすい人という視点から類似性を判断することができる。例えば、XX代の男性で、職業がXXXのユーザーからのクレームが多いというような判断がなされる。
以下、本発明の実施の形態を、図1乃至図25を参照しながら詳細に説明する。
図1は、本発明の概要を説明するための図である。
本発明は、テキストマイニング1とデータマイニング2の2つの技術を利用して実現している。また、本発明は、前処理(事例データの解析)3、入力データの解析4、結果マージ5の3段階の処理により実現されている。
ここで、顧客から寄せられた文章が商品に対するクレーム(苦情)であるのか要望程度であるのかを分類する例を用いて説明する。
まず、前処理3では、テキストマイニング1において、結果が判明している(クレームであるのか要望であるのかが判明している)正解セット6の文章データ7を解析し、基準値計算エンジン8がクレームとして分類された文章データの「主語」と「述語」の距離を計算する。ここで距離として、主語と述語の間に出現する形態素の数を用いる。
そして、「距離が10以上の文章データは要望であり」、「距離が10未満の文章データはクレームである」ことから、距離「10」が基準値9とされる。
一方、データマイニング2においても、正解セット6の数値データ10から、マート生成11によりMBR用事例データのマート12(必要とされるデータを機能やアプリケーションなど特定の分野ごとにサブセット化したもの)を生成する。
次に、入力データの解析4では、テキストマイニング1において、基準値9と入力された文章データである入力データ13とに基づいて、判定エンジン14が類似度15を算出する。すなわち、入力データ13を形態素解析、係り受け解析した後、係り受けの組とされた形態素の距離を計算し、基準値9に基づいて、類似度15を有するのか否かが求められ、入力データ13がクレームであるのか単なる要望であるのかを判断する。
具体的には、「パソコンの電源を入れたけど動かない。」という文章は、形態素解析により「パソコン/の/電源/を/入れる/た/けど/動く/ない/。」の各形態素に分けられ、係り受け解析により「パソコン」−「動く」という「主語」−「述語」の組が抽出される。この組の距離は、「6」が算出される。
そして、上述の基準値「10」と比較され、この例文はクレームであると判断される。
また、「パソコンをセットアップしてケーブルも全て確認したが電源を入れても動かない。」という文章は、形態素解析により「パソコン/を/セットアップ/して/ケーブル/も/全て/確認/した/が/電源/を/入れる/ても/動く/ない/。」の各形態に分けられ、係り受け解析により「パソコン」−「動く」という「主語」−「述語」の組が抽出される。この組の距離は、「13」が算出される。
同様に、上述の基準値「10」と比較され、この例文は要望であると判断される。
一方、データマイニング2においては、マート12と入力データ13とに基づいて、MBR16による予測により、類似度17を算出する。
最後に、テキストマイニング1の結果とデータマイニング2の結果をマージ18することにより最終結果19を出力する。テキストマイニング1とデータマイニング2の結果を同等に扱う場合には、これら2つの結果を加算して2で割ることにより平均値として結果を得ることが可能であるが、重み付けをして結果を算出することも可能である。
図2は、テキストマイニング処理の流れを示すフローチャートである。
上述したように、テキストマイニングは、既に分類されている事例データの解析処理と、未分類の新しいデータである入力データの解析の2段階に分けられる。
まず、ステップS21において、事例データを形態素解析して形態素に分割し、ステップS22において、形態素に分割された各形態素の係り受けを解析する。
そして、ステップS23において、重要な係り受け関係にある形態素間の距離を求める。ここで、重要な係り受け関係とは、主語−述語等の関係をいう。
最後に、ステップS24において、その距離に基づいて基準値を求めデータベース化する。基準値の求め方は、例えば次式で求める。
d=(x1+x2+x3+・・・+xn)/n
=Σ(x)/n
d:係り受けの距離
x:係り受け間に出現した形態素数
n:同一の係り受け組に出現回数
次に、ステップS25において、入力データを形態素解析して形態素に分割し、ステップS26において、形態素に分割された各形態素の係り受けを解析する。
そして、ステップS27において、係り受け関係にある形態素間の距離を求め、ステップS28において、その距離と基準値とに基づいて、入力データと事例データとの類似度を求め、その結果を出力する。
類似度とは、例えば以下のようにして求める。
(1)事例データのリストから入力データの係り受け関係と同じ係り受けを有する事例データを検索する。
(2)入力データの係り受けの組の距離と各事例データ距離とを比べ、基準値に基づいて入力データを分類する。例えば、基準値として距離が10以下が顧客からのクレームであり、距離が11以上は顧客からのクレームではないとされている場合に、入力データの距離が5であれば、その入力データは顧客からのクレームであるという結果が出る。
図3は、結果マージ処理の概要を示す図である。
上述したように、本発明の文章分類は、テキストマイニングとデータマイニングの結果をマージすることにより実現されるが、より分類の精度を上げるためには、これら2つの結果を単にマージするのではなく、重み付けをして最終結果を算出することが望ましい。
例えば、次式のように重み付けを行う。
v=t*x+m*y
t:テキストマイニングの結果
m:データマイニングの結果
x:テキストマイニングの重み
y:データマイニングの重み
なお、最終結果の出力は、ソートして出力することが望ましい。
次に、図4乃至図22を用いて、具体例を示しながら、本発明かかる文章分類処理を説明する。
図4は、入力データの例を示す図である。
例えば、1レコード目は、伏見俊彦という二十歳の学生から、FMV−100という製品に関して、「PCのケーブルの接続を確認し電源を入れたが動きません。」という内容のメッセージを受けたことが記録されている。
図5は、事例データ作成制御部の処理を説明するための図である。
事例データ作成制御部が備える事例データ作成部は、図4に示したような事例データを処理し、事例データベースに格納する。
図6は、事例データ作成部が実行する処理の流れを示すフローチャートである。
まず、ステップS61において、説明変数の選定を行い、ステップS62において、交差検定用のデータを作成し、ステップS63において、MBRを利用した交差検定の実行を行う。
そして、ステップS64において、ステップS62で作成された事例データのうち、任意の数を検証データとして設定し、ステップS65において、MBRを利用して妥当性の検討を行う。
次に、ステップS66において、妥当性が認められるか否かを判断し、妥当性が認められると判断した場合(YES)は、ステップS67において、検証したデータを事例データとして登録する。一方、妥当性が認められないと判断した場合(ステップS66:NO)は、ステップS61に戻る。
図7は、データ解析制御部の処理を説明するための図である。
データ解析制御部が備えるデータ解析部がデータを解析し、データ登録部がその解析した結果を図8に示すようなランキング用文章データベースに格納する。
図8は、ランキング用文章データベースの構造例を示す図である。
ランキング用文章データベースは、ID、順位、距離データ、平均距離得点、MBR確信度、プロフィール得点、繰り返し数、繰り返し得点、係り受け組の各項目により構成されている。ここで、平均距離得点とは、距離データを100から0に正規化した得点のことであり、プロフィール得点とは、MBRによるMBR確信度を0から100に正規化した得点であり、繰り返し得点とは、繰り返す数を0から100に正規化した得点のことである。
図9は、入力データの分析結果(データ解析制御後)を示す図である。
図4に示した入力データをデータ解析制御すると、例えば1レコード目の「PCのPCのケーブルの接続を確認し電源を入れたが動きません。」という内容のメッセージから、「PC」−「動かない」、「ケーブル」−「接続」、「ケーブル」−「確認」、「接続」−「確認」、「電源」−「入れる」という5組の係り受けの組が出力される。
図10は、データ計算制御部の処理を説明するための図である。
データ計算制御部が備える距離計算部が、図11に示すような係り受け対象テーブルに格納された係り受けの組の距離を計算し、繰り返し数カウント部が、その組の数をカウントし、プロフィールMBR分析部が、そのデータ計算の元となった入力データの作成者(発言者)のプロフィールをBMRにより分析し、ランキング文章データベースに格納する。
図11は、係り受け対象テーブルのデータ構造例を示す図である。
「主語」−「述語」の係り受けの組が格納されている。
図12は、距離計算部が実行する処理の流れを示すフローチャートである。
まず、ステップS121において、係り受け対象テーブルの読み込みを行い、ステップS122において、入力データの読み込みを行う。
そして、ステップS123において、ステップS122で読み込んだ入力データがステップS122で読み込んだ係り受け対象テーブルに存在するか否かを判断する。
ステップS123で存在すると判断された場合(ステップS123:YES)は、ステップS124において、係り受けの距離計算を実行し、ステップS125において、距離データを設定する。一方、ステップS123で存在すると判断されなかった場合(ステップS123:NO)は、ステップS122に戻る。
図13は、くり返し数カウント部が実行する処理の流れを示すフローチャートである。
まず、ステップS131において、係り受けの組のデータを読み込む。
そして、ステップS132において、繰り返し使われている係り受けの組を見つけ、ステップS133において、その数(繰り返し数)をカウントし、ステップS134において、くり返し数を文章データに設定する。このステップS132からステップS134の処理は、係り受けの組の種類だけ繰り返される。
図14は、プロフィールMBR分析部が実行する処理の流れを示すフローチャートである。
まず、ステップS141において、データを読み込み、ステップS142において、MBRにより類似予測処理を実行する。
そして、ステップS143において、MBR確信度にMBRの確信度データを設定する。
図15は、入力データの分析結果(データ計算制御後)を示す図である。
例えば、図4の3レコード目に示したデータを例にとると、「最初からPCは動かないし、OSを再起動してもPCは動かない。何度やってもPCは動かない。」という内容のメッセージから、「PC」−「動かない」の組が3度繰り返され、その距離の平均は1であることが出力されている。また、「MBR確信度」は、0.8が出力されている。
図16は、データ正規化/ランキング計算制御部の処理を説明するための図である。
データ正規化/ランキング計算制御部が備える距離得点計算部が、距離データを正規化して平均距離得点に設定し、プロフィール得点計算部が、MBR確信度データを正規化してプロフィール得点に設定し、繰り返し数得点計算部が、繰り返し数データを正規化して繰り返し得点に設定する。
図17は、距離得点計算部が実行する処理の流れを示すフローチャートである。
まず、ステップS171において、距離データを読み込み、ステップS172において、距離データを100から0に正規化する。
そして、ステップS173において、正規化したデータを平均距離得点に設定する。
図18は、プロフィール得点計算部が実行する処理の流れを示すフローチャートである。
まず、ステップS181において、MBR確信度データを読み込み、ステップS182において、MBR確信度を0から100に正規化する。
そして、ステップS183において、正規化したデータをプロフィール得点に設定する。
図19は、繰り返し数得点計算部が実行する処理の流れを示すフローチャートである。
まず、ステップS191において、繰り返し数データを読み込み、ステップS192において、繰り返し数データを0から100に正規化する。
そして、ステップS193において、正規化したデータを繰り返し得点に設定する。
図20は、入力データの分析結果(データ正規化/ランキング計算制御後)を示す図である。
例えば、図4の2レコード目に示したデータを例にとると、平均距離得点に61が、MBR確信度得点に33が、繰り返し得点に50が設定されている。
図21は、表出力部が実行する処理の流れを示すフローチャートである。
まず、ステップS211において、文章テーブルの各確信度得点(平均距離得点、MBR確信度得点、繰り返し得点)を合計して「統合得点」にデータを設定し、ステップS212において、「総合得点」をキーにして降順に文章データをソートする。
そして、ステップS213において、表示のために必要な編集加工処理を実行して出力する。
図22は、表出力部が実行する出力例である。
総合得点300となった、伏見俊彦という二十歳の学生からFMV−100という製品に関して「PCのケーブルの接続を確認し電源を入れたが動きません。」という内容のメッセージが1番目に出力されている。
最後に、上述してきた文章部類処理を実行する文章分類装置について説明する。
図23は、本発明にかかる文章分類装置の機能ブロック図である。
図23において、文章分類装置100は、形態素解析部111と、係り受け解析部112と、距離算出部113と、基準値算出部114と、文章データベース115と、テキスト類似度算出部116と、文章分類部117と、データ類似度算出部118と、個数算出部119とを備える。ユーザは、WWWブラウザ200を介して文章分類装置100に文章データ等のデータを入力し、文章分類装置100が分類した結果等の出力を得る。
形態素解析部111は、予め分類され文章データベース115に格納された基準文章データを形態素解析して形態素に分割し、または、入力された文章データを形態素解析して形態素に分割する。
係り受け解析部112は、形態素解析部111により分割された上記基準文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出し、または、分割された上記文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する。
距離算出部113は、係り受け解析部112により抽出された形態素の組を構成する形態素間の、基準文章データにおける距離を算出し、または、上記文章データにおける、上記抽出された形態素の組を構成する形態素間の距離を算出する。
基準値算出部114は、距離算出部113により算出した上記基準文章データについての距離に基づいて、上記基準文章データの基準値を算出し、文章データベース115に格納する。
テキスト類似度算出部116は、基準値算出部114により算出され文章データベースに格納された基準値と、距離算出部113により算出された上記文章データについての距離とに基づいて、上記基準文章データと上記文章データとの類似度を算出する。
そして、文章分類部117は、テキスト類似度算出部116により算出された基準文章データと文章データとの類似度に基づいて、上記入力された文章データを分類する。
また、個数算出部119は、文章データにおける、上記抽出された形態素の組の個数を算出する。個数算出部119が個数を算出した場合、上記基準値算出部114は、上記算出された基準値と上記文章データについて算出された距離及び個数とに基づいて、上記入力された文章データと上記文章データとの類似度を算出する。
データ類似度算出部118は、予め分類され文章データベース115に格納された、基準文章データを作成した基準文章作成者に関する基準文章作成者情報と、上記入力された文章データを作成した文章作成者に関する文章作成者情報との類似度を算出する。データ類似度算出部118が類似度を算出した場合、文章分類部117は、上記算出された基準文章データと文章データとの類似度と、上記算出された基準文章作成者情報と文章作成者情報との類似度とに基づいて、上記入力された文章データを分類する。
さらに、個数算出部119は、基準文章データにおける、上記抽出された形態素の組の個数を算出する。個数算出部119が個数を算出した場合、基準値算出部114は、上記基準文章データについて算出した距離及び個数に基づいて、上記基準文章データの基準値を算出する。
上述のように、本発明の実施の形態を、図面を参照しながら説明してきたが、本発明が適用される文章分類装置は、その機能が実行されるのであれば、上述の実施の形態に限定されることなく、単体の装置であっても、複数の装置からなるシステムあるいは統合装置であっても、LAN、WAN等のネットワークを介して処理が行なわれるシステムであってもよいことは言うまでもない。
また、図24に示しように、バス2408に接続されたCPU2401、ROMやRAMのメモリ2402、入力装置2403、出力装置2404、外部記録装置2405、媒体駆動装置2406、可搬記録媒体2409、ネットワーク接続装置2407で構成されるシステムでも実現できる。すなわち、前述してきた実施の形態のシステムを実現するソフトェアのプログラムコードを記録したROMやRAMのメモリ2402、外部記録装置24205、可搬記録媒体2409を、文章分類装置に供給し、その文章分類装置のコンピュータがプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。
この場合、可搬記録媒体2409等から読み出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記録した可搬記録媒体2409等は本発明を構成することになる。
プログラムコードを供給するための可搬記録媒体2409としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD−ROM、DVD−RAM、磁気テープ、不揮発性のメモリーカード、ROMカード、電子メールやパソコン通信等のネットワーク接続装置2407(言い換えれば、通信回線)を介して記録した種々の記録媒体などを用いることができる。
また、図25に示すように、情報処理装置2501がメモリ上に読み出したプログラムコードを実行することによって、前述した実施の形態の機能が実現される他、そのプログラムコードの指示に基づき、情報処理装置2501上で稼動しているOSなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施の形態の機能が実現される。
さらに、可搬型記録媒体から読み出されたプログラム(データ)2503やプログラム(データ)提供者2502から提供されたプログラム(データ)2504が、情報処理装置2501に挿入された機能拡張ボードや情報処理装置2501に接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施の形態の機能が実現され得る。
すなわち、本発明は、以上に述べた実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で種々の構成または形状を取ることができる。
ここで、上述した実施の形態の特徴を列挙すると、以下の通りである。
(付記1) 文章を分類する文章分類装置において実行される文章分類プログラムであって、
予め分類された基準文章データを形態素解析して形態素に分割する手順と、
上記分割された上記基準文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する手順と、
上記基準文章データにおける、上記抽出された形態素の組を構成する形態素間の距離を算出する手順と、
上記基準文章データについて算出した距離に基づいて、上記基準文章データの基準値を算出する手順と、
入力された文章データを形態素解析して形態素に分割する手順と、
上記分割された上記文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する手順と、
上記文章データにおける、上記抽出された形態素の組を構成する形態素間の距離を算出する手順と、
上記算出された基準値と上記文章データについて算出された距離とに基づいて、上記基準文章データと上記文章データとの類似度を算出する手順と、
上記算出された基準文章データと文章データとの類似度に基づいて、上記入力された文章データを分類する手順とを実現させるための文章分類プログラム。
(付記2) 上記文章データにおける、上記抽出された形態素の組の個数を算出する手順を実現し、
上記基準文章データと文章データとの類似度を算出する手順は、上記算出された基準値と上記文章データについて算出された距離及び個数とに基づいて、上記入力された文章データと上記文章データとの類似度を算出することを特徴とする付記1に記載の文章分類プログラム。
(付記3) 上記予め分類された基準文章データを作成した基準文章作成者に関する基準文章作成者情報と、上記入力された文章データを作成した文章作成者に関する文章作成者情報との類似度を算出する手順を実現し、
上記分類する手順は、上記算出された基準文章データと文章データとの類似度と、上記算出された基準文章作成者情報と文章作成者情報との類似度とに基づいて、上記入力された文章データを分類することを特徴とする付記1または2に記載の文章分類プログラム。
(付記4) 上記基準文章データにおける、上記抽出された形態素の組の個数を算出する手順を実現し、
上記基準値を算出する手順は、上記基準文章データについて算出した距離及び個数に基づいて、上記基準文章データの基準値を算出することを特徴とする付記1乃至3の何れか1項に記載の文章分類プログラム。
(付記5) 文章を分類する文章分類装置において実行される文章分類方法であって、
予め分類された基準文章データを形態素解析して形態素に分割し、
上記分割された上記基準文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出し、
上記基準文章データにおける、上記抽出された形態素の組を構成する形態素間の距離を算出しと、
上記基準文章データについて算出した距離に基づいて、上記基準文章データの基準値を算出し、
入力された文章データを形態素解析して形態素に分割し、
上記分割された上記文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出し、
上記文章データにおける、上記抽出された形態素の組を構成する形態素間の距離を算出し、
上記算出された基準値と上記文章データについて算出された距離とに基づいて、上記基準文章データと上記文章データとの類似度を算出し、
上記算出された基準文章データと文章データとの類似度に基づいて、上記入力された文章データを分類することを特徴とする文章分類方法。
(付記6) 文章を分類する文章分類装置において、
予め分類された基準文章データを形態素解析して形態素に分割する第1の形態素解析手段と、
上記1の形態素解析手段により分割された上記基準文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する第1の係り受け解析手段と、
上記基準文章データにおける、上記第1の係り受け解析手段より抽出された形態素の組を構成する形態素間の距離を算出すると、
上記基準文章データについて上記第1の距離算出手段により算出した距離に基づいて、上記基準文章データの基準値を算出する基準値算出手段と、
入力された文章データを形態素解析して形態素に分割する第2の形態素解析手段と、
上記第2の形態素解析手段により分割された上記文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する第2の係り受け解析手段と、
上記文章データにおける、上記第2の係り受け解析手段により抽出された形態素の組を構成する形態素間の距離を算出する第2の距離算出手段と、
上記基準値算出手段により算出された基準値と上記文章データについて上記第2の距離算出手段により算出された距離とに基づいて、上記基準文章データと上記文章データとの類似度を算出する類似度算出手段と、
上記類似度算出手段により算出された基準文章データと文章データとの類似度に基づいて、上記入力された文章データを分類する文章分類手段と、
を備えることを特徴とする文章分類装置。
本発明の概要を説明するための図である。 テキストマイニング処理の流れを示すフローチャートである。 結果マージ処理の概要を示す図である。 入力データの例を示す図である。 事例データ作成制御部の処理を説明するための図である。 事例データ作成部が実行する処理の流れを示すフローチャートである。 データ解析制御部の処理を説明するための図である。 ランキング用文章データベースの構造例を示す図である。 入力データの分析結果(データ解析制御後)を示す図である。 データ計算制御部の処理を説明するための図である。 係り受け対象テーブルのデータ構造例を示す図である。 距離計算部が実行する処理の流れを示すフローチャートである。 くり返し数カウント部が実行する処理の流れを示すフローチャートである。 プロフィールMBR分析部が実行する処理の流れを示すフローチャートである。 入力データの分析結果(データ計算制御後)を示す図である。 データ正規化/ランキング計算制御部の処理を説明するための図である。 距離得点計算部が実行する処理の流れを示すフローチャートである。 プロフィール得点計算部が実行する処理の流れを示すフローチャートである。 繰り返し数得点計算部が実行する処理の流れを示すフローチャートである。 入力データの分析結果(データ正規化/ランキング計算制御後)を示す図である。 表出力部が実行する処理の流れを示すフローチャートである。 表出力部が実行する出力例である。 本発明にかかる文章分類装置の機能ブロック図である。 本発明を実現するシステムのハードウェア構成図である。 ソフトウェアのローディングを説明するための図である。
符号の説明
1 前処理(事例データの解析)
2 入力データの解析
3 結果マージ
4 テキストマイニング
5 データマイニング
6 正解セット
7 文章データ
8 基準値計算エンジン
9 基準値
10 数値データ
11 マート生成
12 マート
13 入力データ
14 判定エンジン
15 類似度
16 MBR
17 類似度
18 マージ
19 結果
100 文章分類装置
111 形態素解析部
112 係り受け解析部
113 距離算出部
114 基準値算出部
115 文章データベース
116 テキスト類似度算出部
117 文章分類部
118 データ類似度算出部
119 個数算出部
200 WWWブラウザ
2401 CPU
2402 メモリ
2403 入力装置
2404 出力装置
2405 外部記録装置
2406 媒体駆動装置
2407 ネットワーク接続装置
2408 バス
2409 可搬記録媒体
2501 情報処理装置
2502 情報提供者
2503、2504 プログラム(データ)

Claims (5)

  1. 予め分類された複数の文章それぞれに関するデータである基準文章データをそれぞれ形態素解析して形態素に分割する手順と、
    分割されたそれぞれの前記基準文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する手順と、
    それぞれの前記基準文章データにおける、前記抽出された形態素の組を構成する形態素間の距離を算出する手順と、
    それぞれの前記基準文章データについて算出して得られ複数の前記距離の算術平均を、前記基準文章データの基準値として算出する手順と、
    入力された文章データを形態素解析して形態素に分割する手順と、
    前記分割された前記文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する手順と、
    前記文章データにおける、前記抽出された形態素の組を構成する形態素間の距離を算出する手順と、
    前記算出された基準値と前記文章データについて算出された距離との間の大小関係に基づいて、前記基準文章データと前記文章データとの類似度を算出する手順と、
    前記算出された基準文章データと文章データとの類似度に基づいて、前記入力された文章データを分類する手順とをコンピュータに実行させるための文章分類プログラム。
  2. 前記文章データにおける、前記抽出された形態素の組の繰り返し数を算出する手順をさらに備え
    前記基準文章データと文章データとの類似度を算出する手順は、前記算出された基準値と前記文章データについて算出された距離及び繰り返し数とに基づいて、前記入力された文章データと前記基準文章データとの類似度を算出することを特徴とする請求項1に記載の文章分類プログラム。
  3. 前記予め分類された基準文章データを作成した基準文章作成者に関する基準文章作成者情報と、前記入力された文章データを作成した文章作成者に関する文章作成者情報との類似度を算出する手順をさらに備え
    前記分類する手順は、前記算出された基準文章データと文章データとの類似度と、前記算出された基準文章作成者情報と文章作成者情報との類似度とに基づいて、前記入力された文章データを分類することを特徴とする請求項1または2に記載の文章分類プログラム。
  4. 文章を分類する文章分類装置において実行される文章分類方法であって、
    予め分類された複数の文章それぞれに関するデータである基準文章データをそれぞれ形態素解析して形態素に分割し、
    分割されたそれぞれの前記基準文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出し、
    それぞれの前記基準文章データにおける、前記抽出された形態素の組を構成する形態素間の距離を算出
    それぞれの前記基準文章データについて算出して得られ複数の前記距離の算術平均を、前記基準文章データの基準値として算出し、
    入力された文章データを形態素解析して形態素に分割し、
    前記分割された前記文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出し、
    前記文章データにおける、前記抽出された形態素の組を構成する形態素間の距離を算出し、
    前記算出された基準値と前記文章データについて算出された距離との間の大小関係に基づいて、前記基準文章データと前記文章データとの類似度を算出し、
    前記算出された基準文章データと文章データとの類似度に基づいて、前記入力された文章データを分類することを特徴とする文章分類方法。
  5. 文章を分類する文章分類装置において、
    予め分類された複数の文章それぞれに関するデータである基準文章データをそれぞれ形態素解析して形態素に分割する第1の形態素解析手段と、
    前記1の形態素解析手段により分割されたそれぞれの前記基準文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する第1の係り受け解析手段と、
    それぞれの前記基準文章データにおける、前記第1の係り受け解析手段より抽出された形態素の組を構成する形態素間の距離を算出する第1の距離算出手段と、
    それぞれの前記基準文章データについて前記第1の距離算出手段により算出して得られ複数の前記距離の算術平均を、前記基準文章データの基準値として算出する基準値算出手段と、
    入力された文章データを形態素解析して形態素に分割する第2の形態素解析手段と、
    前記第2の形態素解析手段により分割された前記文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する第2の係り受け解析手段と、
    前記文章データにおける、前記第2の係り受け解析手段により抽出された形態素の組を構成する形態素間の距離を算出する第2の距離算出手段と、
    前記基準値算出手段により算出された前記基準値と前記文章データについて前記第2の距離算出手段により算出された前記距離との間の大小関係に基づいて、前記基準文章データと前記文章データとの類似度を算出する類似度算出手段と、
    前記類似度算出手段により算出された基準文章データと文章データとの類似度に基づいて、前記入力された文章データを分類する文章分類手段と、
    を備えることを特徴とする文章分類装置。
JP2003302715A 2003-08-27 2003-08-27 文章分類プログラム、文章分類方法および文章分類装置 Expired - Fee Related JP4348145B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003302715A JP4348145B2 (ja) 2003-08-27 2003-08-27 文章分類プログラム、文章分類方法および文章分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003302715A JP4348145B2 (ja) 2003-08-27 2003-08-27 文章分類プログラム、文章分類方法および文章分類装置

Publications (2)

Publication Number Publication Date
JP2005071229A JP2005071229A (ja) 2005-03-17
JP4348145B2 true JP4348145B2 (ja) 2009-10-21

Family

ID=34406923

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003302715A Expired - Fee Related JP4348145B2 (ja) 2003-08-27 2003-08-27 文章分類プログラム、文章分類方法および文章分類装置

Country Status (1)

Country Link
JP (1) JP4348145B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5162151B2 (ja) * 2007-03-29 2013-03-13 株式会社中電シーティーアイ 入力情報分析装置
JP6206840B2 (ja) * 2013-06-19 2017-10-04 国立研究開発法人情報通信研究機構 テキストマッチング装置、テキスト分類装置及びそれらのためのコンピュータプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3577972B2 (ja) * 1998-10-19 2004-10-20 日本電信電話株式会社 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体
JP2001312501A (ja) * 2000-04-28 2001-11-09 Mitsubishi Electric Corp 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002245067A (ja) * 2001-02-14 2002-08-30 Mitsubishi Electric Corp 情報検索装置

Also Published As

Publication number Publication date
JP2005071229A (ja) 2005-03-17

Similar Documents

Publication Publication Date Title
CN112184525B (zh) 通过自然语义分析实现智能匹配推荐的系统及方法
US8108204B2 (en) Text categorization using external knowledge
KR102310487B1 (ko) 속성 단위 리뷰 분석 장치 및 방법
KR20160026892A (ko) 논팩토이드형 질의 응답 시스템 및 방법
JP4904496B2 (ja) 文書類似性導出装置及びそれを用いた回答支援システム
CN113254643B (zh) 文本分类方法、装置、电子设备和
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
Verma et al. A novel approach for text summarization using optimal combination of sentence scoring methods
CN112000802A (zh) 基于相似度集成的软件缺陷定位方法
CN113434418A (zh) 知识驱动的软件缺陷检测与分析方法及系统
CN115759071A (zh) 基于大数据的政务敏感信息识别系统和方法
Gräßler et al. Efficient extraction of technical requirements applying data augmentation
Li et al. automatically detecting peer-to-peer lending intermediary risk—Top management team profile textual features perspective
EP4258107A1 (en) Method and system for automated discovery of artificial intelligence and machine learning assets in an enterprise
Velmurugan et al. Mining implicit and explicit rules for customer data using natural language processing and apriori algorithm
JP4348145B2 (ja) 文章分類プログラム、文章分類方法および文章分類装置
JP2005092443A (ja) クラスター分析装置およびクラスター分析方法
Qian et al. Satiindicator: Leveraging user reviews to evaluate user satisfaction of sourceforge projects
CN114117047A (zh) 一种基于c4.5算法对非法语音进行分类的方法及系统
JP2001325104A (ja) 言語事例推論方法、言語事例推論装置及び言語事例推論プログラムが記録された記録媒体
KR20220041336A (ko) 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법
JP2002215642A (ja) フィードバック型インターネット検索方法及びその方法を実施するためのシステムとプログラム記録媒体
Van den Bosch Instance-family abstraction in memory-based language learning
Romero-Córdoba et al. A comparative study of soft computing software for enhancing the capabilities of business document management systems
JP3910823B2 (ja) アンケート分析装置、アンケート分析方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060316

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090331

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090601

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090714

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090717

R150 Certificate of patent or registration of utility model

Ref document number: 4348145

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120724

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120724

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130724

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees