JP4348145B2

JP4348145B2 - 文章分類プログラム、文章分類方法および文章分類装置

Info

Publication number: JP4348145B2
Application number: JP2003302715A
Authority: JP
Inventors: 俊彦伏見; 嘉弘山崎; 主税斎藤; 雄一蔦谷; 浩文内田; 康一都築
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2003-08-27
Filing date: 2003-08-27
Publication date: 2009-10-21
Anticipated expiration: 2023-08-27
Also published as: JP2005071229A

Description

本発明は、文章を自動的に分類する文章分類プログラム、文章分類方法および文章分類装置に関する。特に、コールセンターやメールセンター等、企業や自治体に集まる電子化された顧客や住民の声や営業マンが作成する営業報告書等の文章情報を、高精度で自動的に分類することが可能な文章分類プログラム、文章分類方法および文章分類装置に関する。

我々の周りには多種多様な情報が蓄積されているが、その情報の８割以上が文章情報であると言われている。このような文章情報から所定の目的とする情報を引き出すためには、これらの文章情報をいくつかのカテゴリーごとに分類することが必要であるが、基本的には人間がこれらの文章情報を読むことによって分類しているのが現状である。

例えば、ユーザーの要望、意見、疑問、苦情等を電話、ＦＡＸ、電子メール等で受け付けるコールセンターやメールセンターにおいては、受け付けた要望等である文章情報を、オペレーターや担当者等の人間が所定の基準に基づいて分類している。

また、営業マンが作成した営業報告書を分類する場合、目的に応じて所定の形式で記述しておけば、その分類は比較的容易である。しかし、このような制限を設けると、設定された形式では記述することが困難な情報は捨象されてしまうことになる。そもそも、営業活動における危機警告情報やノウハウ情報などをうまく捉える項目を予め用意することは困難である。そのため、営業報告書は文章情報を中心に作成されることになり、分類する際も大変な労力と時間をかけてその内容を読み取り分類している。

また、上述のようなユーザーの要望等の文章情報にしても営業報告書にしても、文章内に登場するキーワードまたは、複数のキーワードの組み合わせによって機械的に分類する手法もある。

また、複数の文書データを格納する文書データベースと、各々の文書データに対し特徴ベクトルを生成する手段と、特徴ベクトル間の類似度を計算して各文書データを分類する手段と、文書データの分類結果を出力する手段とを備える情報検索装置であって、ベクトルを生成する手段が、各文書データを各々解析してキーワード及びキーワード間の関係を抽出し、これら両方の出現頻度に基づいて特徴ベクトルを生成する情報検索装置がある。、この情報検索装置は、文書データの分類において、各文書データのキーワードだけでなく、キーワード間の関係をも反映した類似度計算が可能となり、分類あるいは検索の精度を向上することができる（例えば、特許文献１参照。）。

また、対象となる分類カテゴリがある程度限定されたアンケートのような文書集合に対して、分類時に着目する点を規定する分類ルールを予め与えておき、さらに、分類カテゴリ毎に設定された分類基準文となる文書をサンプルデータとして与えた時に自動的にクラスタリングする事で、大量の学習用文書を必要とした自動分類を、少ないサンプルデータで自動分類することができる文書自動分類システムも存在する（例えば、特許文献２参照。）。

特開２００１−３１２５０１号公報特開２００２−２４５０６７号公報

しかしながら、上述の従来技術には以下のような問題点があった。

人間による文章情報の分類では、個人差によりあるいは同一人物であったとしてもその時々により、分類する際の判断が大きく左右され、同一文章情報であっても異なるカテゴリーに分類されてしまったり、誤ったカテゴリーに分類されてしまったりする等、分類結果の正確性が悪いという問題点があった。

また、人間による文章分類には時間がかかるため、コストパフォーマンスが悪いという問題点があった。

また、キーワードを用いた機械分類では、例えば、ユーザーの意見が「強いクレーム」であるのか「弱い要望」であるのかといった、文章作成者の微妙なニュアンスを取り入れることができず、分類結果の制度が悪いという問題点があった。

本発明は、上述のような問題点に鑑みてなされたもので、コールセンターやメールセンター等、企業や自治体に集まる電子化された顧客や住民の声や営業マンが作成する営業報告書等の文章情報を、高精度で自動的に分類することが可能な文章分類プログラム、文章分類方法および文章分類装置を提供することを目的とする。

本発明は、上記課題を解決するため、下記のような構成を採用した。

既に分類されているデータ（正解セット）に基づいて、入力されたデータ（分類すべきデータ）を分類するという考え方、これらのデータを文章（テキストデータ）と非文章データ（狭義のデータ）とに分け、それぞれをマイニング（テキストマイニングとデータマイニング）により類似性を判断する基準値を算出し、その基準値に基づいて分類するという考え方を取り入れた。

すなわち、本発明の一態様によれば、本発明の文章分類プログラムは、文章を分類する文章分類装置において実行される文章分類プログラムであって、予め分類された基準文章データを形態素解析して形態素に分割する手順と、上記分割された上記基準文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する手順と、上記基準文章データにおける、上記抽出された形態素の組を構成する形態素間の距離を算出する手順と、上記基準文章データについて算出した距離に基づいて、上記基準文章データの基準値を算出する手順と、入力された文章データを形態素解析して形態素に分割する手順と、上記分割された上記文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する手順と、上記文章データにおける、上記抽出された形態素の組を構成する形態素間の距離を算出する手順と、上記算出された基準値と上記文章データについて算出された距離とに基づいて、上記基準文章データと上記文章データとの類似度を算出する手順と、上記算出された基準文章データと文章データとの類似度に基づいて、上記入力された文章データを分類する手順とを実現させる。

また、本発明の文章分類プログラムは、上記文章データにおける、上記抽出された形態素の組の個数を算出する手順を実現し、上記基準文章データと文章データとの類似度を算出する手順は、上記算出された基準値と上記文章データについて算出された距離及び個数とに基づいて、上記入力された文章データと上記文章データとの類似度を算出することが望ましい。

また、本発明の文章分類プログラムは、上記予め分類された基準文章データを作成した基準文章作成者に関する基準文章作成者情報と、上記入力された文章データを作成した文章作成者に関する文章作成者情報との類似度を算出する手順を実現し、上記分類する手順は、上記算出された基準文章データと文章データとの類似度と、上記算出された基準文章作成者情報と文章作成者情報との類似度とに基づいて、上記入力された文章データを分類することが望ましい。

また、本発明の一態様によれば、本発明の文章分類方法は、文章を分類する文章分類装置において実行される文章分類方法であって、予め分類された基準文章データを形態素解析して形態素に分割し、上記分割された上記基準文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出し、上記基準文章データにおける、上記抽出された形態素の組を構成する形態素間の距離を算出しと、上記基準文章データについて算出した距離に基づいて、上記基準文章データの基準値を算出し、入力された文章データを形態素解析して形態素に分割し、上記分割された上記文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出し、上記文章データにおける、上記抽出された形態素の組を構成する形態素間の距離を算出し、上記算出された基準値と上記文章データについて算出された距離とに基づいて、上記基準文章データと上記文章データとの類似度を算出し、上記算出された基準文章データと文章データとの類似度に基づいて、上記入力された文章データを分類することを特徴とする。

また、本発明の一態様によれば、本発明の文章分類装置は、文章を分類する文章分類装置において、予め分類された基準文章データを形態素解析して形態素に分割する第１の形態素解析手段と、上記１の形態素解析手段により分割された上記基準文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する第１の係り受け解析手段と、上記基準文章データにおける、上記第１の係り受け解析手段より抽出された形態素の組を構成する形態素間の距離を算出すると、上記基準文章データについて上記第１の距離算出手段により算出した距離に基づいて、上記基準文章データの基準値を算出する基準値算出手段と、入力された文章データを形態素解析して形態素に分割する第２の形態素解析手段と、上記第２の形態素解析手段により分割された上記文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する第２の係り受け解析手段と、上記文章データにおける、上記第２の係り受け解析手段により抽出された形態素の組を構成する形態素間の距離を算出する第２の距離算出手段と、上記基準値算出手段により算出された基準値と上記文章データについて上記第２の距離算出手段により算出された距離とに基づいて、上記基準文章データと上記文章データとの類似度を算出する類似度算出手段と、上記類似度算出手段により算出された基準文章データと文章データとの類似度に基づいて、上記入力された文章データを分類する文章分類手段と、を備えることを特徴とする。

本発明によれば、コールセンターやメールセンター等、企業や自治体に集まる電子化された顧客や住民の声や営業マンが作成する営業報告書等の文章情報を、高精度で自動的に分類することが可能となる。

本発明は、上述したようにテキストマイニングとデータマイニングとを利用している。

テキストマイニングを行うためには、文章データを形態素解析し、その形態素の係り受け解析をする必要がある。

例えば、「パソコンの電源を入れたけど動かない。」という文章を形態素解析して係り受け解析すると、「パソコン−動く」という結果が出力される。つまり、「主語−述語」等の関係が解析可能となり、「ＸＸＸが○○○だ」という判定が可能となる。

ここで、その文章における「主語−述語」間の距離からデータの類似性を判断する。例えば、顧客からのクレームの文章は、文章自体が短く、「主語-述語」間の距離が短くなる。

また、本発明においては、データマイニングのクラシフィケーションの手法であるＭＢＲ（ＭｅｍｏｒｙＢａｓｅｄＲｅａｓｏｎｉｎｇ）により数値データとの組み合わせを利用して、分類の精度を向上させている。ＭＢＲとは、未知のデータに最も類似するｋ個のデータを正解セットから探索し、探索したｋ個の重み付き多数決で入力データの分類を判定する。これにより、顧客プロフィール等の数値データから、クレーマーになりやすい人という視点から類似性を判断することができる。例えば、ＸＸ代の男性で、職業がＸＸＸのユーザーからのクレームが多いというような判断がなされる。

以下、本発明の実施の形態を、図１乃至図２５を参照しながら詳細に説明する。

図１は、本発明の概要を説明するための図である。

本発明は、テキストマイニング１とデータマイニング２の２つの技術を利用して実現している。また、本発明は、前処理（事例データの解析）３、入力データの解析４、結果マージ５の３段階の処理により実現されている。

ここで、顧客から寄せられた文章が商品に対するクレーム（苦情）であるのか要望程度であるのかを分類する例を用いて説明する。

まず、前処理３では、テキストマイニング１において、結果が判明している（クレームであるのか要望であるのかが判明している）正解セット６の文章データ７を解析し、基準値計算エンジン８がクレームとして分類された文章データの「主語」と「述語」の距離を計算する。ここで距離として、主語と述語の間に出現する形態素の数を用いる。

そして、「距離が１０以上の文章データは要望であり」、「距離が１０未満の文章データはクレームである」ことから、距離「１０」が基準値９とされる。

一方、データマイニング２においても、正解セット６の数値データ１０から、マート生成１１によりＭＢＲ用事例データのマート１２（必要とされるデータを機能やアプリケーションなど特定の分野ごとにサブセット化したもの）を生成する。

次に、入力データの解析４では、テキストマイニング１において、基準値９と入力された文章データである入力データ１３とに基づいて、判定エンジン１４が類似度１５を算出する。すなわち、入力データ１３を形態素解析、係り受け解析した後、係り受けの組とされた形態素の距離を計算し、基準値９に基づいて、類似度１５を有するのか否かが求められ、入力データ１３がクレームであるのか単なる要望であるのかを判断する。

具体的には、「パソコンの電源を入れたけど動かない。」という文章は、形態素解析により「パソコン／の／電源／を／入れる／た／けど／動く／ない／。」の各形態素に分けられ、係り受け解析により「パソコン」−「動く」という「主語」−「述語」の組が抽出される。この組の距離は、「６」が算出される。

そして、上述の基準値「１０」と比較され、この例文はクレームであると判断される。

また、「パソコンをセットアップしてケーブルも全て確認したが電源を入れても動かない。」という文章は、形態素解析により「パソコン／を／セットアップ／して／ケーブル／も／全て／確認／した／が／電源／を／入れる／ても／動く／ない／。」の各形態に分けられ、係り受け解析により「パソコン」−「動く」という「主語」−「述語」の組が抽出される。この組の距離は、「１３」が算出される。

同様に、上述の基準値「１０」と比較され、この例文は要望であると判断される。

一方、データマイニング２においては、マート１２と入力データ１３とに基づいて、ＭＢＲ１６による予測により、類似度１７を算出する。

最後に、テキストマイニング１の結果とデータマイニング２の結果をマージ１８することにより最終結果１９を出力する。テキストマイニング１とデータマイニング２の結果を同等に扱う場合には、これら２つの結果を加算して２で割ることにより平均値として結果を得ることが可能であるが、重み付けをして結果を算出することも可能である。

図２は、テキストマイニング処理の流れを示すフローチャートである。

上述したように、テキストマイニングは、既に分類されている事例データの解析処理と、未分類の新しいデータである入力データの解析の２段階に分けられる。

まず、ステップＳ２１において、事例データを形態素解析して形態素に分割し、ステップＳ２２において、形態素に分割された各形態素の係り受けを解析する。

そして、ステップＳ２３において、重要な係り受け関係にある形態素間の距離を求める。ここで、重要な係り受け関係とは、主語−述語等の関係をいう。

最後に、ステップＳ２４において、その距離に基づいて基準値を求めデータベース化する。基準値の求め方は、例えば次式で求める。
ｄ＝（ｘ１＋ｘ２＋ｘ３＋・・・＋ｘｎ）／ｎ
＝Σ（ｘ）／ｎ
ｄ：係り受けの距離
ｘ：係り受け間に出現した形態素数
ｎ：同一の係り受け組に出現回数
次に、ステップＳ２５において、入力データを形態素解析して形態素に分割し、ステップＳ２６において、形態素に分割された各形態素の係り受けを解析する。

そして、ステップＳ２７において、係り受け関係にある形態素間の距離を求め、ステップＳ２８において、その距離と基準値とに基づいて、入力データと事例データとの類似度を求め、その結果を出力する。

類似度とは、例えば以下のようにして求める。
（１）事例データのリストから入力データの係り受け関係と同じ係り受けを有する事例データを検索する。
（２）入力データの係り受けの組の距離と各事例データ距離とを比べ、基準値に基づいて入力データを分類する。例えば、基準値として距離が１０以下が顧客からのクレームであり、距離が１１以上は顧客からのクレームではないとされている場合に、入力データの距離が５であれば、その入力データは顧客からのクレームであるという結果が出る。

図３は、結果マージ処理の概要を示す図である。

上述したように、本発明の文章分類は、テキストマイニングとデータマイニングの結果をマージすることにより実現されるが、より分類の精度を上げるためには、これら２つの結果を単にマージするのではなく、重み付けをして最終結果を算出することが望ましい。

例えば、次式のように重み付けを行う。
ｖ＝ｔ＊ｘ＋ｍ＊ｙ
ｔ：テキストマイニングの結果
ｍ：データマイニングの結果
ｘ：テキストマイニングの重み
ｙ：データマイニングの重み
なお、最終結果の出力は、ソートして出力することが望ましい。

次に、図４乃至図２２を用いて、具体例を示しながら、本発明かかる文章分類処理を説明する。

図４は、入力データの例を示す図である。

例えば、１レコード目は、伏見俊彦という二十歳の学生から、ＦＭＶ−１００という製品に関して、「ＰＣのケーブルの接続を確認し電源を入れたが動きません。」という内容のメッセージを受けたことが記録されている。

図５は、事例データ作成制御部の処理を説明するための図である。

事例データ作成制御部が備える事例データ作成部は、図４に示したような事例データを処理し、事例データベースに格納する。

図６は、事例データ作成部が実行する処理の流れを示すフローチャートである。

まず、ステップＳ６１において、説明変数の選定を行い、ステップＳ６２において、交差検定用のデータを作成し、ステップＳ６３において、ＭＢＲを利用した交差検定の実行を行う。

そして、ステップＳ６４において、ステップＳ６２で作成された事例データのうち、任意の数を検証データとして設定し、ステップＳ６５において、ＭＢＲを利用して妥当性の検討を行う。

次に、ステップＳ６６において、妥当性が認められるか否かを判断し、妥当性が認められると判断した場合（ＹＥＳ）は、ステップＳ６７において、検証したデータを事例データとして登録する。一方、妥当性が認められないと判断した場合（ステップＳ６６：ＮＯ）は、ステップＳ６１に戻る。

図７は、データ解析制御部の処理を説明するための図である。

データ解析制御部が備えるデータ解析部がデータを解析し、データ登録部がその解析した結果を図８に示すようなランキング用文章データベースに格納する。

図８は、ランキング用文章データベースの構造例を示す図である。

ランキング用文章データベースは、ＩＤ、順位、距離データ、平均距離得点、ＭＢＲ確信度、プロフィール得点、繰り返し数、繰り返し得点、係り受け組の各項目により構成されている。ここで、平均距離得点とは、距離データを１００から０に正規化した得点のことであり、プロフィール得点とは、ＭＢＲによるＭＢＲ確信度を０から１００に正規化した得点であり、繰り返し得点とは、繰り返す数を０から１００に正規化した得点のことである。

図９は、入力データの分析結果（データ解析制御後）を示す図である。

図４に示した入力データをデータ解析制御すると、例えば１レコード目の「ＰＣのＰＣのケーブルの接続を確認し電源を入れたが動きません。」という内容のメッセージから、「ＰＣ」−「動かない」、「ケーブル」−「接続」、「ケーブル」−「確認」、「接続」−「確認」、「電源」−「入れる」という５組の係り受けの組が出力される。

図１０は、データ計算制御部の処理を説明するための図である。

データ計算制御部が備える距離計算部が、図１１に示すような係り受け対象テーブルに格納された係り受けの組の距離を計算し、繰り返し数カウント部が、その組の数をカウントし、プロフィールＭＢＲ分析部が、そのデータ計算の元となった入力データの作成者（発言者）のプロフィールをＢＭＲにより分析し、ランキング文章データベースに格納する。

図１１は、係り受け対象テーブルのデータ構造例を示す図である。

「主語」−「述語」の係り受けの組が格納されている。

図１２は、距離計算部が実行する処理の流れを示すフローチャートである。

まず、ステップＳ１２１において、係り受け対象テーブルの読み込みを行い、ステップＳ１２２において、入力データの読み込みを行う。

そして、ステップＳ１２３において、ステップＳ１２２で読み込んだ入力データがステップＳ１２２で読み込んだ係り受け対象テーブルに存在するか否かを判断する。

ステップＳ１２３で存在すると判断された場合（ステップＳ１２３：ＹＥＳ）は、ステップＳ１２４において、係り受けの距離計算を実行し、ステップＳ１２５において、距離データを設定する。一方、ステップＳ１２３で存在すると判断されなかった場合（ステップＳ１２３：ＮＯ）は、ステップＳ１２２に戻る。

図１３は、くり返し数カウント部が実行する処理の流れを示すフローチャートである。

まず、ステップＳ１３１において、係り受けの組のデータを読み込む。

そして、ステップＳ１３２において、繰り返し使われている係り受けの組を見つけ、ステップＳ１３３において、その数（繰り返し数）をカウントし、ステップＳ１３４において、くり返し数を文章データに設定する。このステップＳ１３２からステップＳ１３４の処理は、係り受けの組の種類だけ繰り返される。

図１４は、プロフィールＭＢＲ分析部が実行する処理の流れを示すフローチャートである。

まず、ステップＳ１４１において、データを読み込み、ステップＳ１４２において、ＭＢＲにより類似予測処理を実行する。

そして、ステップＳ１４３において、ＭＢＲ確信度にＭＢＲの確信度データを設定する。

図１５は、入力データの分析結果（データ計算制御後）を示す図である。

例えば、図４の３レコード目に示したデータを例にとると、「最初からＰＣは動かないし、ＯＳを再起動してもＰＣは動かない。何度やってもＰＣは動かない。」という内容のメッセージから、「ＰＣ」−「動かない」の組が３度繰り返され、その距離の平均は１であることが出力されている。また、「ＭＢＲ確信度」は、０．８が出力されている。

図１６は、データ正規化／ランキング計算制御部の処理を説明するための図である。

データ正規化／ランキング計算制御部が備える距離得点計算部が、距離データを正規化して平均距離得点に設定し、プロフィール得点計算部が、ＭＢＲ確信度データを正規化してプロフィール得点に設定し、繰り返し数得点計算部が、繰り返し数データを正規化して繰り返し得点に設定する。

図１７は、距離得点計算部が実行する処理の流れを示すフローチャートである。

まず、ステップＳ１７１において、距離データを読み込み、ステップＳ１７２において、距離データを１００から０に正規化する。

そして、ステップＳ１７３において、正規化したデータを平均距離得点に設定する。

図１８は、プロフィール得点計算部が実行する処理の流れを示すフローチャートである。

まず、ステップＳ１８１において、ＭＢＲ確信度データを読み込み、ステップＳ１８２において、ＭＢＲ確信度を０から１００に正規化する。

そして、ステップＳ１８３において、正規化したデータをプロフィール得点に設定する。

図１９は、繰り返し数得点計算部が実行する処理の流れを示すフローチャートである。

まず、ステップＳ１９１において、繰り返し数データを読み込み、ステップＳ１９２において、繰り返し数データを０から１００に正規化する。

そして、ステップＳ１９３において、正規化したデータを繰り返し得点に設定する。

図２０は、入力データの分析結果（データ正規化／ランキング計算制御後）を示す図である。

例えば、図４の２レコード目に示したデータを例にとると、平均距離得点に６１が、ＭＢＲ確信度得点に３３が、繰り返し得点に５０が設定されている。

図２１は、表出力部が実行する処理の流れを示すフローチャートである。

まず、ステップＳ２１１において、文章テーブルの各確信度得点（平均距離得点、ＭＢＲ確信度得点、繰り返し得点）を合計して「統合得点」にデータを設定し、ステップＳ２１２において、「総合得点」をキーにして降順に文章データをソートする。

そして、ステップＳ２１３において、表示のために必要な編集加工処理を実行して出力する。

図２２は、表出力部が実行する出力例である。

総合得点３００となった、伏見俊彦という二十歳の学生からＦＭＶ−１００という製品に関して「ＰＣのケーブルの接続を確認し電源を入れたが動きません。」という内容のメッセージが１番目に出力されている。

最後に、上述してきた文章部類処理を実行する文章分類装置について説明する。

図２３は、本発明にかかる文章分類装置の機能ブロック図である。

図２３において、文章分類装置１００は、形態素解析部１１１と、係り受け解析部１１２と、距離算出部１１３と、基準値算出部１１４と、文章データベース１１５と、テキスト類似度算出部１１６と、文章分類部１１７と、データ類似度算出部１１８と、個数算出部１１９とを備える。ユーザは、ＷＷＷブラウザ２００を介して文章分類装置１００に文章データ等のデータを入力し、文章分類装置１００が分類した結果等の出力を得る。

形態素解析部１１１は、予め分類され文章データベース１１５に格納された基準文章データを形態素解析して形態素に分割し、または、入力された文章データを形態素解析して形態素に分割する。

係り受け解析部１１２は、形態素解析部１１１により分割された上記基準文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出し、または、分割された上記文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する。

距離算出部１１３は、係り受け解析部１１２により抽出された形態素の組を構成する形態素間の、基準文章データにおける距離を算出し、または、上記文章データにおける、上記抽出された形態素の組を構成する形態素間の距離を算出する。

基準値算出部１１４は、距離算出部１１３により算出した上記基準文章データについての距離に基づいて、上記基準文章データの基準値を算出し、文章データベース１１５に格納する。

テキスト類似度算出部１１６は、基準値算出部１１４により算出され文章データベースに格納された基準値と、距離算出部１１３により算出された上記文章データについての距離とに基づいて、上記基準文章データと上記文章データとの類似度を算出する。

そして、文章分類部１１７は、テキスト類似度算出部１１６により算出された基準文章データと文章データとの類似度に基づいて、上記入力された文章データを分類する。

また、個数算出部１１９は、文章データにおける、上記抽出された形態素の組の個数を算出する。個数算出部１１９が個数を算出した場合、上記基準値算出部１１４は、上記算出された基準値と上記文章データについて算出された距離及び個数とに基づいて、上記入力された文章データと上記文章データとの類似度を算出する。

データ類似度算出部１１８は、予め分類され文章データベース１１５に格納された、基準文章データを作成した基準文章作成者に関する基準文章作成者情報と、上記入力された文章データを作成した文章作成者に関する文章作成者情報との類似度を算出する。データ類似度算出部１１８が類似度を算出した場合、文章分類部１１７は、上記算出された基準文章データと文章データとの類似度と、上記算出された基準文章作成者情報と文章作成者情報との類似度とに基づいて、上記入力された文章データを分類する。

さらに、個数算出部１１９は、基準文章データにおける、上記抽出された形態素の組の個数を算出する。個数算出部１１９が個数を算出した場合、基準値算出部１１４は、上記基準文章データについて算出した距離及び個数に基づいて、上記基準文章データの基準値を算出する。

上述のように、本発明の実施の形態を、図面を参照しながら説明してきたが、本発明が適用される文章分類装置は、その機能が実行されるのであれば、上述の実施の形態に限定されることなく、単体の装置であっても、複数の装置からなるシステムあるいは統合装置であっても、ＬＡＮ、ＷＡＮ等のネットワークを介して処理が行なわれるシステムであってもよいことは言うまでもない。

また、図２４に示しように、バス２４０８に接続されたＣＰＵ２４０１、ＲＯＭやＲＡＭのメモリ２４０２、入力装置２４０３、出力装置２４０４、外部記録装置２４０５、媒体駆動装置２４０６、可搬記録媒体２４０９、ネットワーク接続装置２４０７で構成されるシステムでも実現できる。すなわち、前述してきた実施の形態のシステムを実現するソフトェアのプログラムコードを記録したＲＯＭやＲＡＭのメモリ２４０２、外部記録装置２４２０５、可搬記録媒体２４０９を、文章分類装置に供給し、その文章分類装置のコンピュータがプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。

この場合、可搬記録媒体２４０９等から読み出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記録した可搬記録媒体２４０９等は本発明を構成することになる。

プログラムコードを供給するための可搬記録媒体２４０９としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、磁気テープ、不揮発性のメモリーカード、ＲＯＭカード、電子メールやパソコン通信等のネットワーク接続装置２４０７（言い換えれば、通信回線）を介して記録した種々の記録媒体などを用いることができる。

また、図２５に示すように、情報処理装置２５０１がメモリ上に読み出したプログラムコードを実行することによって、前述した実施の形態の機能が実現される他、そのプログラムコードの指示に基づき、情報処理装置２５０１上で稼動しているＯＳなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施の形態の機能が実現される。

さらに、可搬型記録媒体から読み出されたプログラム（データ）２５０３やプログラム（データ）提供者２５０２から提供されたプログラム（データ）２５０４が、情報処理装置２５０１に挿入された機能拡張ボードや情報処理装置２５０１に接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施の形態の機能が実現され得る。

すなわち、本発明は、以上に述べた実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で種々の構成または形状を取ることができる。

ここで、上述した実施の形態の特徴を列挙すると、以下の通りである。

（付記１）文章を分類する文章分類装置において実行される文章分類プログラムであって、
予め分類された基準文章データを形態素解析して形態素に分割する手順と、
上記分割された上記基準文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する手順と、
上記基準文章データにおける、上記抽出された形態素の組を構成する形態素間の距離を算出する手順と、
上記基準文章データについて算出した距離に基づいて、上記基準文章データの基準値を算出する手順と、
入力された文章データを形態素解析して形態素に分割する手順と、
上記分割された上記文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する手順と、
上記文章データにおける、上記抽出された形態素の組を構成する形態素間の距離を算出する手順と、
上記算出された基準値と上記文章データについて算出された距離とに基づいて、上記基準文章データと上記文章データとの類似度を算出する手順と、
上記算出された基準文章データと文章データとの類似度に基づいて、上記入力された文章データを分類する手順とを実現させるための文章分類プログラム。

（付記２）上記文章データにおける、上記抽出された形態素の組の個数を算出する手順を実現し、
上記基準文章データと文章データとの類似度を算出する手順は、上記算出された基準値と上記文章データについて算出された距離及び個数とに基づいて、上記入力された文章データと上記文章データとの類似度を算出することを特徴とする付記１に記載の文章分類プログラム。

（付記３）上記予め分類された基準文章データを作成した基準文章作成者に関する基準文章作成者情報と、上記入力された文章データを作成した文章作成者に関する文章作成者情報との類似度を算出する手順を実現し、
上記分類する手順は、上記算出された基準文章データと文章データとの類似度と、上記算出された基準文章作成者情報と文章作成者情報との類似度とに基づいて、上記入力された文章データを分類することを特徴とする付記１または２に記載の文章分類プログラム。

（付記４）上記基準文章データにおける、上記抽出された形態素の組の個数を算出する手順を実現し、
上記基準値を算出する手順は、上記基準文章データについて算出した距離及び個数に基づいて、上記基準文章データの基準値を算出することを特徴とする付記１乃至３の何れか１項に記載の文章分類プログラム。

（付記５）文章を分類する文章分類装置において実行される文章分類方法であって、
予め分類された基準文章データを形態素解析して形態素に分割し、
上記分割された上記基準文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出し、
上記基準文章データにおける、上記抽出された形態素の組を構成する形態素間の距離を算出しと、
上記基準文章データについて算出した距離に基づいて、上記基準文章データの基準値を算出し、
入力された文章データを形態素解析して形態素に分割し、
上記分割された上記文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出し、
上記文章データにおける、上記抽出された形態素の組を構成する形態素間の距離を算出し、
上記算出された基準値と上記文章データについて算出された距離とに基づいて、上記基準文章データと上記文章データとの類似度を算出し、
上記算出された基準文章データと文章データとの類似度に基づいて、上記入力された文章データを分類することを特徴とする文章分類方法。

（付記６）文章を分類する文章分類装置において、
予め分類された基準文章データを形態素解析して形態素に分割する第１の形態素解析手段と、
上記１の形態素解析手段により分割された上記基準文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する第１の係り受け解析手段と、
上記基準文章データにおける、上記第１の係り受け解析手段より抽出された形態素の組を構成する形態素間の距離を算出すると、
上記基準文章データについて上記第１の距離算出手段により算出した距離に基づいて、上記基準文章データの基準値を算出する基準値算出手段と、
入力された文章データを形態素解析して形態素に分割する第２の形態素解析手段と、
上記第２の形態素解析手段により分割された上記文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する第２の係り受け解析手段と、
上記文章データにおける、上記第２の係り受け解析手段により抽出された形態素の組を構成する形態素間の距離を算出する第２の距離算出手段と、
上記基準値算出手段により算出された基準値と上記文章データについて上記第２の距離算出手段により算出された距離とに基づいて、上記基準文章データと上記文章データとの類似度を算出する類似度算出手段と、
上記類似度算出手段により算出された基準文章データと文章データとの類似度に基づいて、上記入力された文章データを分類する文章分類手段と、
を備えることを特徴とする文章分類装置。

本発明の概要を説明するための図である。テキストマイニング処理の流れを示すフローチャートである。結果マージ処理の概要を示す図である。入力データの例を示す図である。事例データ作成制御部の処理を説明するための図である。事例データ作成部が実行する処理の流れを示すフローチャートである。データ解析制御部の処理を説明するための図である。ランキング用文章データベースの構造例を示す図である。入力データの分析結果（データ解析制御後）を示す図である。データ計算制御部の処理を説明するための図である。係り受け対象テーブルのデータ構造例を示す図である。距離計算部が実行する処理の流れを示すフローチャートである。くり返し数カウント部が実行する処理の流れを示すフローチャートである。プロフィールＭＢＲ分析部が実行する処理の流れを示すフローチャートである。入力データの分析結果（データ計算制御後）を示す図である。データ正規化／ランキング計算制御部の処理を説明するための図である。距離得点計算部が実行する処理の流れを示すフローチャートである。プロフィール得点計算部が実行する処理の流れを示すフローチャートである。繰り返し数得点計算部が実行する処理の流れを示すフローチャートである。入力データの分析結果（データ正規化／ランキング計算制御後）を示す図である。表出力部が実行する処理の流れを示すフローチャートである。表出力部が実行する出力例である。本発明にかかる文章分類装置の機能ブロック図である。本発明を実現するシステムのハードウェア構成図である。ソフトウェアのローディングを説明するための図である。

符号の説明

１前処理（事例データの解析）
２入力データの解析
３結果マージ
４テキストマイニング
５データマイニング
６正解セット
７文章データ
８基準値計算エンジン
９基準値
１０数値データ
１１マート生成
１２マート
１３入力データ
１４判定エンジン
１５類似度
１６ＭＢＲ
１７類似度
１８マージ
１９結果
１００文章分類装置
１１１形態素解析部
１１２係り受け解析部
１１３距離算出部
１１４基準値算出部
１１５文章データベース
１１６テキスト類似度算出部
１１７文章分類部
１１８データ類似度算出部
１１９個数算出部
２００ＷＷＷブラウザ
２４０１ＣＰＵ
２４０２メモリ
２４０３入力装置
２４０４出力装置
２４０５外部記録装置
２４０６媒体駆動装置
２４０７ネットワーク接続装置
２４０８バス
２４０９可搬記録媒体
２５０１情報処理装置
２５０２情報提供者
２５０３、２５０４プログラム（データ）

Claims

予め分類された複数の文章それぞれに関するデータである基準文章データをそれぞれ形態素解析して形態素に分割する手順と、
分割されたそれぞれの前記基準文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する手順と、
それぞれの前記基準文章データにおける、前記抽出された形態素の組を構成する形態素間の距離を算出する手順と、
それぞれの前記基準文章データについて算出して得られた複数の前記距離の算術平均を、前記基準文章データの基準値として算出する手順と、
入力された文章データを形態素解析して形態素に分割する手順と、
前記分割された前記文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する手順と、
前記文章データにおける、前記抽出された形態素の組を構成する形態素間の距離を算出する手順と、
前記算出された基準値と前記文章データについて算出された距離との間の大小関係に基づいて、前記基準文章データと前記文章データとの類似度を算出する手順と、
前記算出された基準文章データと文章データとの類似度に基づいて、前記入力された文章データを分類する手順とをコンピュータに実行させるための文章分類プログラム。
前記文章データにおける、前記抽出された形態素の組の繰り返し数を算出する手順をさらに備え、
前記基準文章データと文章データとの類似度を算出する手順は、前記算出された基準値と前記文章データについて算出された距離及び繰り返し数とに基づいて、前記入力された文章データと前記基準文章データとの類似度を算出することを特徴とする請求項１に記載の文章分類プログラム。
前記予め分類された基準文章データを作成した基準文章作成者に関する基準文章作成者情報と、前記入力された文章データを作成した文章作成者に関する文章作成者情報との類似度を算出する手順をさらに備え、
前記分類する手順は、前記算出された基準文章データと文章データとの類似度と、前記算出された基準文章作成者情報と文章作成者情報との類似度とに基づいて、前記入力された文章データを分類することを特徴とする請求項１または２に記載の文章分類プログラム。
文章を分類する文章分類装置において実行される文章分類方法であって、
予め分類された複数の文章それぞれに関するデータである基準文章データをそれぞれ形態素解析して形態素に分割し、
分割されたそれぞれの前記基準文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出し、
それぞれの前記基準文章データにおける、前記抽出された形態素の組を構成する形態素間の距離を算出し、
それぞれの前記基準文章データについて算出して得られた複数の前記距離の算術平均を、前記基準文章データの基準値として算出し、
入力された文章データを形態素解析して形態素に分割し、
前記分割された前記文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出し、
前記文章データにおける、前記抽出された形態素の組を構成する形態素間の距離を算出し、
前記算出された基準値と前記文章データについて算出された距離との間の大小関係に基づいて、前記基準文章データと前記文章データとの類似度を算出し、
前記算出された基準文章データと文章データとの類似度に基づいて、前記入力された文章データを分類することを特徴とする文章分類方法。
文章を分類する文章分類装置において、
予め分類された複数の文章それぞれに関するデータである基準文章データをそれぞれ形態素解析して形態素に分割する第１の形態素解析手段と、
前記第１の形態素解析手段により分割されたそれぞれの前記基準文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する第１の係り受け解析手段と、
それぞれの前記基準文章データにおける、前記第１の係り受け解析手段により抽出された形態素の組を構成する形態素間の距離を算出する第１の距離算出手段と、
それぞれの前記基準文章データについて前記第１の距離算出手段により算出して得られた複数の前記距離の算術平均を、前記基準文章データの基準値として算出する基準値算出手段と、
入力された文章データを形態素解析して形態素に分割する第２の形態素解析手段と、
前記第２の形態素解析手段により分割された前記文章データについての形態素の係り受け関係を解析し、所定の係り受け関係を有する形態素の組を抽出する第２の係り受け解析手段と、
前記文章データにおける、前記第２の係り受け解析手段により抽出された形態素の組を構成する形態素間の距離を算出する第２の距離算出手段と、
前記基準値算出手段により算出された前記基準値と前記文章データについて前記第２の距離算出手段により算出された前記距離との間の大小関係に基づいて、前記基準文章データと前記文章データとの類似度を算出する類似度算出手段と、
前記類似度算出手段により算出された基準文章データと文章データとの類似度に基づいて、前記入力された文章データを分類する文章分類手段と、
を備えることを特徴とする文章分類装置。