JP2003076705A - 情報処理装置およびその方法 - Google Patents

情報処理装置およびその方法

Info

Publication number
JP2003076705A
JP2003076705A JP2001261991A JP2001261991A JP2003076705A JP 2003076705 A JP2003076705 A JP 2003076705A JP 2001261991 A JP2001261991 A JP 2001261991A JP 2001261991 A JP2001261991 A JP 2001261991A JP 2003076705 A JP2003076705 A JP 2003076705A
Authority
JP
Japan
Prior art keywords
classification
document
word
documents
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001261991A
Other languages
English (en)
Inventor
Yoshio Matsuda
芳雄 松田
Hideo Hayashida
英雄 林田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Biprogy Inc
Original Assignee
Nihon Unisys Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nihon Unisys Ltd filed Critical Nihon Unisys Ltd
Priority to JP2001261991A priority Critical patent/JP2003076705A/ja
Publication of JP2003076705A publication Critical patent/JP2003076705A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書をその内容により分類する場合、ある程
度の分類精度を得るために、人の判断による試行錯誤を
繰り返す場合がある。具体的には、数量化III類の軸の
数や分類の数の決定などに、専門知識を有する経験者の
介入を必要とし、分類処理は自動ではない。 【解決手段】 所定数の文書から利用単語8aを抽出し(S
10-S40)、抽出された利用単語8aから分類ルール8bおよ
び8cを生成して(S50-S80)、利用単語8aおよび分類ルー
ル8bおよび8cをメモリに格納する。そして、メモリに格
納した利用単語8aおよび分類ルール8bおよび8cを使用し
て、同類の文書を分類する(S110-S150)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は情報処理装置および
その方法に関し、例えば、文書をその内容により分類す
る情報処理に関する。
【0002】
【従来の技術】インターネットやコールセンタなどの新
しいビジネス形態の普及にともない、顧客の問い合わ
せ、要望および苦情などが、紙ではなく、ディジタル化
された文書として電子的に蓄積されることが多い。そし
て、各企業は、蓄積文書に記録された顧客の声を、商品
企画やマーケティングへ反映させようとする。その際、
化粧品会社を例とすれば、「髪」に関する文書か、化粧
品の「使用法」に関する文書か、化粧品の「品質」に関
する文書かなど、文書の内容により蓄積文書を分類すれ
ば、顧客の声の分析が容易になる。
【0003】電子的に蓄積された文書を、予め決められ
たルールで分類することができるが、ルールに依存する
固定化した分類しかできない欠点がある。また、予め決
められたルールによらず、各文書に現れる単語を調べ、
単語と単語との共起関係を数値化して文書の類似度を計
算することで、文書を客観的に自動分類する方法も開発
されている。
【0004】
【発明が解決しようとする課題】文書には複数の異なる
内容が記述されているものある。例えば、コールセンタ
への問い合わせには、複数の商品を対象にするものがあ
る。このような問い合わせに対する文書をそのまま分類
しようとすると、本来関連の薄い単語同士が一つの文書
に出現し、それらが関連性をもつように取り扱われる。
そのため、本来関連が薄い文書同士が関連があるように
取り扱われ、その結果、少数の文書を含む多数のグルー
プと、大量の文書を含む極少数のグループとに分類され
る。従って、分類を行っても、文書を有効に活用するた
めの、ビジネスに役立つレベルの有益なグループが抽出
されないという事態になる。なお、このような状況を分
類精度が低いと表現する。
【0005】また、ある程度の分類精度を得るために、
人の判断による試行錯誤を繰り返す場合がある。具体的
には、数量化III類の軸の数や分類の数の決定などに、
専門知識を有する経験者の介入を必要とする。さらに、
傾向が同じデータが随時追加される場合も、分類作業に
人手を介する必要がある。言い換えれば、分類処理は自
動ではない。
【0006】さらに、分類すべき文書が溜まってから一
括して分類する方法は、その処理時間が長くなり、専門
知識を持つ経験者を長時間拘束しなければならないし、
タイムリな分類を行えないなどの問題がある。
【0007】本発明は、上述の問題を個々に、または、
まとめて解決するためのものであり、文書分類処理の自
動化を目的とする。
【0008】また、文書分類処理の効率化を他の目的と
する。
【0009】さらに、文書分類処理の分類精度を向上す
ることを他の目的とする。
【0010】
【課題を解決するための手段】本発明は、前記の目的を
達成する一手段として、以下の構成を備える。
【0011】本発明にかかる情報処理方法は、文書をそ
の内容により分類する情報処理方法であって、所定数の
文書から利用単語を抽出し、抽出された利用単語から分
類ルールを生成して、前記利用単語および前記分類ルー
ルをメモリに格納し、前記メモリに格納した利用単語お
よび分類ルールを使用して、前記所定数の文書と同類の
文書を分類することを特徴とする。
【0012】好ましくは、さらに、複数の異なる内容に
ついて記述された文書は、前記利用単語の抽出前に、意
味のある複数の文に分解することを特徴とする。
【0013】本発明にかかる情報処理装置は、文書をそ
の内容により分類する情報処理装置であって、所定数の
文書から利用単語を抽出する抽出手段と、抽出された利
用単語から分類ルールを生成する生成手段と、前記利用
単語および前記分類ルールが格納されるメモリと、前記
メモリに格納された利用単語および分類ルールを使用し
て、前記所定数の文書と同類の文書を分類する分類手段
とを有することを特徴とする。
【0014】
【発明の実施の形態】以下、本発明にかかる一実施形態
の文書分類処理を図面を参照して詳細に説明する。
【0015】[構成]図1は実施形態の文書分類処理を
実行するシステム構成例を示すブロック図である。な
お、実施形態は、クライアントサーバ構成に限らず、ス
タンドアローンのコンピュータでも実現可能である。
【0016】図1において、文書分類処理の利用者は、
クライアント1や2のモニタに表示された画面を介して、
文書分類装置4を構成する文書分類サーバ5にアクセスす
る。クライアント1や2と文書分類サーバ5とはインター
ネットやLANなどのネットワーク3を介して接続されてい
る。
【0017】インターネットなどを利用して収集される
大量の文書データ6は、文書分類サーバ5に接続されたハ
ードディスクなどの外部記憶装置に保存されている。利
用者は、文字列変換ルール、文書分解ルールおよび形態
素解析辞書などを予め準備して、文書分類サーバ5に接
続されたハードディスクなどの外部記憶装置に保存して
おく。
【0018】[文書分類処理]図2は実施形態の文書分
類処理の一例を示すフローチャートで、文書分類サーバ
5によって実行される処理を示す。
【0019】文書分類サーバ5は、第一回目の文書分類
にあたって、未分類の文書データ6の一部(例えば五割
程度)をルール作成用の文書データ6aとして分離し、分
類ルール作成処理に使用する。文書データ6の残りに
は、その後、分類実施処理が施される。
【0020】分類ルール作成処理は、計算量が多く、ま
た人手を介したり、試行錯誤による繰り返しが必要にな
ることもあり、一般に処理に時間を要する。他方、分類
実施処理は、人手を介さなく、計算量が少ないため、処
理は短時間(通常、分類ルール作成処理に比べて1/10以
下)になる。
【0021】従って、まず分類ルール作成処理を行い、
利用単語および分類ルール8を作成して、文書分類サー
バ5に接続されたハードディスクなどの外部記憶装置に
保存しておけば、その後、同じような内容の別の文書デ
ータを分類する必要が生じた場合に、分類実施処理を自
動実行する、言い換えれば、人手や試行錯誤による繰り
返しを不要にする、あるいは、人手や試行錯誤による繰
り返しを最小限にすることができる。
【0022】勿論、分野が異なる文書データ6を分類す
る場合や、時間の経過や状況の変化があり文書データ6
の傾向に変化が現れている(と予測される)場合など
は、分類ルール作成処理から実施すればよい。
【0023】[分類ルール作成処理] ●データクリーニング(S10) 文字データは、同じものを様々な表現、略語、字種で表
現する。例えばパーソナルコンピュータを「パソコン」
や「PC」など略語で表記したり、「Personal Compute
r」や「PERSONAL COMPUTER」などの英語表記も可能であ
る。文字データから有効なグループを作成する分類処理
を行うには、これらの表現・表記を統一する必要があ
る。
【0024】表現・表記の違いに対応するために、デー
タを入力するオペレータが予め決められたルールに従
い、表現・表記を統一した文字データを生成する方法も
ある。しかし、インターネットや電子メールの普及によ
り、顧客から直接文字データが届くようになると、オペ
レータによる表現・表記の統一は効率の観点から実行が
難しい。
【0025】そこで、本実施形態においては、オペレー
タに代って、文書分類サーバ5が表現・表記の統一を行
う。そのためのルールが、利用者が予め作成する文字列
置換ルール7aである。
【0026】図3は文字列変換ルール7aの一例を示す図
で、次の順に変換することを指示している。(1)英字の
小文字を大文字にする、(2)英字の半角文字を全角文字
にする、(3)カナ文字の半角文字を全角文字にする、(4)
「変換前の文字列」に該当する文字列を「変換後の文字
列」に置き換える。なお、四番目の「文字列置換」にあ
たっては、文字列変換ルールの指定順にも意味があり、
先に指定されたものから順に置き換える。
【0027】文書分類サーバ5は、分類対象の文書デー
タを読み込み、文字列変換ルール7aに従い、文字の置き
換え、および、文字列の置き換えを順次行う(S10)。
【0028】図4は分類対象の文書データ(オリジナル
文書)およびデータクリーニングを施した文書(データ
クリーニング結果)を示す図である。
【0029】●文書分解(S20) 文書中には、一つの文章構成が複数の意味を含むものが
ある。例えば、一つの文章でXという内容とYという内容
を同時に言及するような場合である。この場合、XとYは
本来は関連が薄いが、後述する数量化III類で単語マッ
プ、サンプルマップの作成(S60)を行うとXとYが関連を
もち、本来、XやYの内容で現れるべき個々の特徴が現れ
なくなる。
【0030】このため、文書分類サーバ5は「。」や箇
条書きなど、意味を区切る文字や文字列(以下「デリミ
タ」と呼ぶ)の出現を抽出し、抽出したデリミタに基づ
き、それぞれが異なる文字データになるように、文章を
さらに細かい文字データの単位である「文」に分解す
る。そのためのルールが、利用者が予め作成する文書分
解ルール7bである。
【0031】図5は文書分解ルール7bの一例を示す図で
ある。なお、「デリミタ」の欄に複数の文字や文字列を指
定する場合、それらを空白で区切る。また、「前後」の欄
は、デリミタが現れた場合に、文書をデリミタの前で分
割するか、後ろで分割するかを指定する。デリミタは自
由に設定できるので「ところで」や「また」のような大
きな意味でのデリミタを記述することも可能である。同
時に、丸数字などを使用した箇条書部分を分解すること
も可能である。
【0032】図6は、図4に示すデータクリーニング結果
の文書データを分解した例を示す図である。なお、IDは
分解前の文書データの識別番号であり、SIDは分解され
た文書データを同一ID内で区別するための副識別番号で
ある
【0033】●形態素解析(S30) 文字コードの集まりである文書データのままでは分類処
理を実行することはできない。そこで、文書分類サーバ
5は、文字コードの集まりである文書データを単語に分
解する。単語への分解は、例えば、松本裕治他「岩波講
座 言語の科学3単語と辞書」(岩波書店、1997年12月、
2.2形態素解析アルゴリズム)に示されているような、
形態素解析の接続コスト最小法による。
【0034】利用者は、単語の情報として各単語につい
て品詞および活用形、接続コストの情報、並びに、日本
語の文法に則り出現し得る品詞の並び方のルールを、予
め形態素辞書7cとして準備する。
【0035】文書分類サーバ5は、文書データに形態素
辞書7cに適合する品詞の単語があるか否かを調べ、その
中で最も有効(接続コストの和が最小)と判定される単
語の並びに分解する。形態素解析の結果を次の処理へ引
き渡す際、利用者の指定により、文書分類に有用な品詞
だけに絞り込んで引き渡すこともできる。例えば、図6
に示す文書分解結果に対して形態素解析を行い、名詞、
動詞および形容詞だけに絞り込むと図7に示す形態素の
解析結果のようになる。
【0036】●利用単語の選択(S40) 文書分類サーバ5によって抽出される単語には、本来、
その文書データの分類には明らかに関係のないものもあ
る。そこで、ステップS40で、分類に使用する単語を利
用者が選択できるようにする。これにより、利用者が分
類との関係性が低いと判断する単語を削除することで、
後の分析の精度を向上させたり、ある視点で文書データ
を分類したい場合に関連する単語のみを指定することで
特定の単語間の関連を分析することが可能になる。
【0037】文字コードを単語の並びで表現すると、そ
れぞれの文書データにどのような単語が何回出現するか
という出現頻度情報を得ることができる。また、文書を
分類する場合に重要となる単語は、文書全体に満遍なく
出現するような出現頻度の高い単語ではなく、ある程度
の数の、繰り返し出現する単語である。そこで、単語ご
との出現頻度や出現文書数などの情報とともに、文書を
分類をする上でどの単語が重要かを示す重要度という指
標を採用する。
【0038】文書分類サーバ5は、図7に示す形態素の解
析結果に現れる単語について、出現頻度、出現文書数お
よび重要度を計算する。出現頻度は、全文書中でその単
語が出現した回数である。出現文書数は、その単語が出
現した文書の数である。各単語の重要度は次式によって
計算する。 重要度 = 出現頻度×log(全文書数/出現文書数) …
(1)
【0039】文書分類サーバ5は、利用者が単語を選択
する際の助けとなるように、出現頻度順、出現文書数順
または重要度順に並べた単語を、図8に示すように、ク
ライアント1や2の画面に表示する。利用者は出現頻度、
出現文書数および重要度を参照して、分類する際に必要
と思われる単語を選択する(図8の右側は選択された単
語例を示す)。文書分類サーバ5は選択指定された単語
を、利用単語8aとしてハードディスクなどの外部記憶装
置に保存する。
【0040】●文書数値化(S50) 文書分類サーバ5は、外部記憶装置に保存された利用単
語8aの情報を読み込み、文書ごとに利用単語8aの出現回
数をカウントして文書を数値化する。図9は文書数値化
結果の一例を示す図で、縦方向に文書の識別番号IDおよ
び副識別番号SIDに対応して、各利用単語が各文書に出
現する回数を示している。
【0041】●数量化III類によるマッピング(S60) 文書分類サーバ5は、ステップS50で得られる利用単語8a
ごとの出現頻度情報に基づき、多変量解析手法の一つで
ある数量化III類を用いて、単語情報と文書データとを
空間上に配置する。なお、単語を空間上に配置したもの
を単語マップ、デリミタに基づき分解された文書データ
を空間上に配置したものをサンプルマップと呼ぶ。単語
マップおよびサンプルマップの作成には、例えば、管民
郎「多変量解析の実践(下)」(現代数学社、1993年12
月、pp.150-156)に紹介されている方法などを利用す
る。
【0042】図10は文書分類サーバ5が作成する単語マ
ップの数値情報例を示す図である。文書分類サーバ5
は、単語マップの数値情報を、分類ルール8bとしてハー
ドディスクなどの外部記憶装置に保存する。図11は単語
マップのグラフ表示例を示す図である。
【0043】図12はサンプルマップの数値情報例を示す
図、図13はサンプルマップのグラフ表示の例を示す図で
ある。なお、単語マップとサンプルマップの座標空間は
同一であるから、単語マップとサンプルマップとを重ね
てグラフ表示することもできる。
【0044】数量化III類の性質により、単語マップで
は、同時に出現する確率が高い単語同士は空間上で近傍
に配置され、同時に出現する確率が低い単語同士は空間
上で離間されて配置される。同様に、サンプルマップで
も、出現する単語の傾向が似た文書同士は空間上で近傍
に配置され、出現する単語の傾向が似ていない文書同士
は空間上で離間されて配置される。こうすることで、単
純に単語の出現情報をマッピングした空間のままでは等
価に評価される単語についても、文書全体の中で特徴的
な単語と特徴的でない単語とに区分でき、文書データの
分類にあたって、より意味のあるグループを生成するこ
とができる。
【0045】なお、利用者は、文書分類サーバ5が計算
した単語マップおよびサンプルマップの数値情報(図10
および図12)を参照し、軸ごとの単語の配置を観て、他
の単語とかけ離れて単独に配置されているような単語の
有無を判定し(S70)、そのような単語があればステップS
40に戻り、利用単語の選択をやり直す。あるいは、文書
分類サーバ5によってクライアント1や2の画面に表示さ
れた単語マップおよびサンプルマップのグラフ(図11お
よび図12)を参照し、そのパターンから、利用者の経験
により、ステップS40に戻り利用単語の選択をやり直す
か否かを判断していもよい。
【0046】●クラスタ分析(S80) 文書分類サーバ5は、文書データを空間上に配置したサ
ンプルマップに基づき、多変量解析手法の一つであるk-
means法によるクラスタ分析を行い、文字データをグル
ープ化する。クラスタ分析については、例えば、西田英
郎監訳「クラスター分析とその応用」(株式会社内田老
鶴圃、1995年12月、7章 非階層的クラスター分析法)に
紹介されている。
【0047】サンプルマップのすべての軸についてk-me
ans法によるクラスタ分析を行うと、すべての軸同士の
組み合わせ分の計算を必要とし、計算に長時間を要す
る。例えば、軸数がmであれば(m×(m-1))/2組の計算と
なり、m=10の場合は45組の計算を必要とする。
【0048】そこで、利用者は、文書分類のための意味
ある計算に限定して無駄な計算を避けるため、数量化II
I類の軸数と、作成する分類の数とを指定する。例え
ば、m=2とすれば一組の計算で済む。このため、利用者
は、クラスタ分析に使用する軸の数を数量化III類で出
力されるすべての軸の数とせずに、各軸の情報量を表す
固有値や、各軸のサンプルのばらつきなどを観ながら、
試行錯誤を繰り返して軸数mを決定する。このため、文
書データを分類するたびにK-means法によるクラスタ分
析を行えば、非常に手間がかかる処理になる。そこで、
本実施形態では、これを改善するために、後述するよう
に、二回目以降の分類実施処理においてはk-means法に
よるクラスタ分析を行わずに分類結果を生成する。
【0049】さて、ステップS80における軸数mの指定に
あたって、例えば、サンプルマップの数値情報の固有値
がある値、例えば0.25以上である軸の数を指定する。文
書分類サーバ5は、固有値の大きい順に計算すべき軸を
選定して計算を行う。
【0050】図14は、文書分類サーバ5がk-means法によ
るクラスタ分析により、図12に示す軸1および軸2により
分析した結果を示す図である。なお、図14に示す「分類
1」「分類2」および「分類3」のような分類を総称して
「クラスタ」と呼ぶ。
【0051】続いて、文書分類サーバ5は、クラスタに
属する全サンプルの重心、つまりクラスタの重心を計算
する。表1はクラスタの重心の計算結果例を示す。計算
結果は分類ルール8cとしてハードディスクなどの外部記
憶装置に保存される。
【0052】
【表1】 文書分類サーバ5は、分類実施処理において外部記憶装
置に保存された利用単語8a、分類ルール8b(単語マップ
の数値情報)および分類ルール8c(クラスタの重心)を
利用して、この後、同じような内容の文書情報があれ
ば、いつでも自動的に文書分類処理を行うことが可能と
なる。例えば、毎日収集される異なる文書データに対し
て、毎日、自動的に文書分類処理を行うことができる。
【0053】[分類実施処理]文書分類サーバ5は、分
類実施処理において、データクリーニング(S110)、文書
の分解(S120)、形態素の解析(S130)および文書の数値化
(S140)を実行するが、これらの処理は、分類ルール作成
処理におけるデータクリーニング(S10)、文書の分解(S2
0)、形態素の解析(S30)および文書の数値化(S50)と同様
の処理である。
【0054】図15は、図4とは異なる文書データに対し
て分類実施処理を施した例を示す図、図16は文書数値化
結果例を示す図である。
【0055】●分類の作成(S150) 文書分類サーバ5は、分類ルール8b(単語マップの数値
情報)および分類ルール8c(クラスタの重心)を外部記
憶装置から読み込み、図17に示す手順で分類処理を行
う。
【0056】まず、図16に示す文書数値化結果から一つ
の文書(例えばID=11、SID=1、文書Xと呼ぶ)のデータ
を取り出し(S201)、文書Xに出現する単語を調べ、分類
ルール8b(図10)に含まれる単語と一致するものがあれ
ば(S202)、その単語と、その出現回数を記録し(S203)、
一致するものがなければステップ201へ戻る。
【0057】分類ルール8bは単語マップそのものである
から、出現した単語の単語マップ上での位置と出現回数
に基づき、出現単語の単語マップ上の重心Yを計算する
(S204)。
【0058】単語マップおよびサンプルマップの座標空
間は同一であるから、計算された重心Yの位置を、サン
プルマップ上の文書Xの位置Zにする(S205)。
【0059】次に、分類ルール8c(表1)のクラスタの
重心位置と位置Zとの距離を計算し(S206)、距離が最短
のクラスタを文書Xの分類結果9として、ハードディスク
などの外部記憶装置に保存する(S207)。
【0060】そして、ステップS208の判定により、すべ
ての文書データについてステップS201からステップS207
の処理を繰り返す。
【0061】図18は文書分類サーバ5がステップS140で
得られる文書の数値化結果に対して分類を作成した結果
を示す図である。
【0062】このように文書分類サーバ5は、分類ルー
ル8bおよび8cを利用することで、人手を介することなく
自動的に分類実施処理を行うことができる上、数量化II
I類による単語マップやサンプルマップ作成(ステップS
60の処理)に要する時間、および、K-means法でクラス
タ分析(ステップS80の処理)に要する時間を割愛でき
るため、短時間に分類結果を得ることができる。
【0063】このように、分類実施処理においては、分
類ルール作成処理における利用単語の選択(ステップS4
0の処理)や単語マップおよびサンプルマップの生成
(ステップS60の処理)のような専門知識を有する経験
者の介入を必要とせず、自動的に処理を実行できる。さ
らに、処理時間を要する単語マップやサンプルマップの
生成(ステップS60の処理)およびクラスタ分析(ステ
ップS80の処理)を行わなくて済むので、短時間に処理
可能である。
【0064】図19は五千件の文書データに対する、分類
ルール作成処理および分類実施処理の処理時間の比較一
例を示す図である。
【0065】図19に示す分類ルール作成処理の処理時間
には、利用単語の選択、単語マップおよびサンプルマッ
プの参照による処理の妥当性判断や試行錯誤、クラスタ
分析のための軸数および分類数決定など、人手を介する
処理時間を含まない。それら人手を介する処理時間も考
慮すれば、分類実施処理は分類ルール作成処理の1/20程
度の時間で処理可能である。
【0066】このように、文書分類サーバ5は、一回目
の処理、つまり分類ルール作成処理において、利用単語
8a、分類ルール8b(単語マップの数値情報)および分類
ルール8b(クラスタの重心)を外部記憶装置に保存する
ことで。分類実施処理の効率化、時間短縮を図る。も
し、このような分類ルール作成処理を行わなければ、イ
ンターネットを利用してアンケートを収集する際など、
毎日同じような内容の文書データが集まってくる場合
に、経験者による処理を介在させた処理(つまり分類ル
ール作成処理)を繰り返し行うことになる。
【0067】そして、本実施形態によれば、文書データ
の傾向が変わらない間は、二回目以降の文書分類処理は
人手を介さずに自動的に行うことができ、二回目以降に
大量の文書データ(例えば五千件から十万件程度)につ
いても短時間に文書分類処理を行うことができる上、分
類精度も向上させて、有効なクループを生成できる。
【0068】
【発明の効果】以上説明したように、本発明によれば、
文書分類処理を自動化することができる。
【0069】また、文書分類処理を効率化することがで
きる。
【0070】さらに、文書分類処理の分類精度を向上す
ることができる。
【図面の簡単な説明】
【図1】文書分類処理を実行するシステム構成例を示す
ブロック図、
【図2】文書分類処理の一例を示すフローチャート、
【図3】文字列変換ルールの一例を示す図、
【図4】分類対象の文書データおよびデータクリーニン
グを施した文書を示す図、
【図5】文書分解ルールの一例を示す図、
【図6】図4に示すデータクリーニング結果の文書デー
タを分解した例を示す図、
【図7】形態素の解析結果の一例を示す図、
【図8】利用単語の選択を説明する図、
【図9】文書数値化結果の一例を示す図、
【図10】単語マップの数値情報例を示す図、
【図11】単語マップのグラフ表示例を示す図、
【図12】サンプルマップの数値情報例を示す図、
【図13】サンプルマップのグラフ表示の例を示す図、
【図14】クラスタ分析の結果例を示す図、
【図15】図4とは異なる文書データに対して分類実施
処理を施した例を示す図、
【図16】文書数値化結果例を示す図、
【図17】分類処理の手順例を示すフローチャート、
【図18】文書の数値化結果に対して分類を作成した結
果を示す図、
【図19】分類ルール作成処理および分類実施処理の処
理時間の比較一例を示す図である。

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 文書をその内容により分類する情報処理
    方法であって、 所定数の文書から利用単語を抽出し、抽出された利用単
    語から分類ルールを生成して、前記利用単語および前記
    分類ルールをメモリに格納し、 前記メモリに格納した利用単語および分類ルールを使用
    して、前記所定数の文書と同類の文書を分類することを
    特徴とする情報処理方法。
  2. 【請求項2】 さらに、複数の異なる内容について記述
    された文書は、前記利用単語の抽出前に、意味のある複
    数の文に分解することを特徴とする請求項1に記載され
    た情報処理方法。
  3. 【請求項3】 前記利用単語の抽出は、文書をデータク
    リーニングし、複数の異なる内容について記述された文
    書を意味のある複数の文に分解し、形態素を解析して、
    前記形態素の解析結果から前記利用単語を抽出すること
    を特徴とする請求項1に記載された情報処理方法。
  4. 【請求項4】 前記分類ルールの作成は、前記利用単語
    に基づき文書を数値化し、数値化III類により単語およ
    び文書をマッピングし、クラスタ分析することで、単語
    マップおよび分類の重心を得ることを特徴とする請求項
    1から請求項3の何れかに記載された情報処理方法。
  5. 【請求項5】 情報処理装置を制御して、請求項1から
    請求項4の何れかに記載された情報処理を実行すること
    を特徴とするプログラム。
  6. 【請求項6】 請求項5に記載されたプログラムが記録
    されたことを特徴とする記録媒体。
  7. 【請求項7】 文書をその内容により分類する情報処理
    装置であって、 所定数の文書から利用単語を抽出する抽出手段と、 抽出された利用単語から分類ルールを生成する生成手段
    と、 前記利用単語および前記分類ルールが格納されるメモリ
    と、 前記メモリに格納された利用単語および分類ルールを使
    用して、前記所定数の文書と同類の文書を分類する分類
    手段とを有することを特徴とする情報処理装置。
JP2001261991A 2001-08-30 2001-08-30 情報処理装置およびその方法 Pending JP2003076705A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001261991A JP2003076705A (ja) 2001-08-30 2001-08-30 情報処理装置およびその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001261991A JP2003076705A (ja) 2001-08-30 2001-08-30 情報処理装置およびその方法

Publications (1)

Publication Number Publication Date
JP2003076705A true JP2003076705A (ja) 2003-03-14

Family

ID=19088952

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001261991A Pending JP2003076705A (ja) 2001-08-30 2001-08-30 情報処理装置およびその方法

Country Status (1)

Country Link
JP (1) JP2003076705A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003248687A (ja) * 2002-02-22 2003-09-05 Nippon Yunishisu Kk 情報処理装置およびその方法
JP2004318408A (ja) * 2003-04-15 2004-11-11 Tokyo Electric Power Co Inc:The テキスト主旨分析装置およびテキスト主旨分析プログラム
JP2009288999A (ja) * 2008-05-29 2009-12-10 Fujitsu Ltd まとめ上げ作業支援処理方法、装置及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010996A (ja) * 1998-06-24 2000-01-14 Fujitsu Ltd 文書整理装置および方法
JP2000250919A (ja) * 1999-02-26 2000-09-14 Fujitsu Ltd 文書処理装置及びそのプログラム記憶媒体
JP2001101194A (ja) * 1999-09-27 2001-04-13 Mitsubishi Electric Corp テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラムが記録された記録媒体
JP2001134575A (ja) * 1999-10-29 2001-05-18 Internatl Business Mach Corp <Ibm> 頻出パターン検出方法およびシステム
JP2001184351A (ja) * 1999-12-27 2001-07-06 Toshiba Corp 文書情報抽出装置および文書分類装置
JP2001184358A (ja) * 1999-12-24 2001-07-06 Fujitsu Ltd カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010996A (ja) * 1998-06-24 2000-01-14 Fujitsu Ltd 文書整理装置および方法
JP2000250919A (ja) * 1999-02-26 2000-09-14 Fujitsu Ltd 文書処理装置及びそのプログラム記憶媒体
JP2001101194A (ja) * 1999-09-27 2001-04-13 Mitsubishi Electric Corp テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラムが記録された記録媒体
JP2001134575A (ja) * 1999-10-29 2001-05-18 Internatl Business Mach Corp <Ibm> 頻出パターン検出方法およびシステム
JP2001184358A (ja) * 1999-12-24 2001-07-06 Fujitsu Ltd カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
JP2001184351A (ja) * 1999-12-27 2001-07-06 Toshiba Corp 文書情報抽出装置および文書分類装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003248687A (ja) * 2002-02-22 2003-09-05 Nippon Yunishisu Kk 情報処理装置およびその方法
JP2004318408A (ja) * 2003-04-15 2004-11-11 Tokyo Electric Power Co Inc:The テキスト主旨分析装置およびテキスト主旨分析プログラム
JP2009288999A (ja) * 2008-05-29 2009-12-10 Fujitsu Ltd まとめ上げ作業支援処理方法、装置及びプログラム

Similar Documents

Publication Publication Date Title
KR101658794B1 (ko) 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램
CN111831802B (zh) 一种基于lda主题模型的城市领域知识检测系统及方法
US20060179051A1 (en) Methods and apparatus for steering the analyses of collections of documents
CN106383836B (zh) 将可操作属性归于描述个人身份的数据
JP4997892B2 (ja) 検索システム、検索方法及び検索プログラム
Jerzak et al. An improved method of automated nonparametric content analysis for social science
KR20160106527A (ko) 웹 질의에서의 온라인 핸드라이팅 인식을 위한 시스템 및 방법
CN110334343B (zh) 一种合同中个人隐私信息抽取的方法和系统
JP2002245061A (ja) キーワード抽出
CN104933096B (zh) 数据库的异常键识别方法、装置与数据系统
JP6025487B2 (ja) フォレンジック分析システムおよびフォレンジック分析方法並びにフォレンジック分析プログラム
CN114222000A (zh) 信息推送方法、装置、计算机设备和存储介质
CN117520800A (zh) 一种营养学文献模型训练方法、系统、电子设备及介质
CN111104422B (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
JP2001101227A (ja) 文書分類装置および文書分類方法
JP2003076705A (ja) 情報処理装置およびその方法
JP2003141132A (ja) 情報処理装置およびその方法
CN115563985A (zh) 语句分析方法、装置、设备、存储介质及程序产品
JP3677006B2 (ja) 情報処理装置およびその方法
CN112148749B (zh) 一种数据分析方法,计算设备及存储介质
JP3641363B2 (ja) テキスト情報分析装置及び記録媒体
CN112989020B (zh) 信息处理方法、装置和计算机可读存储介质
JP2000148770A (ja) 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP2009271772A (ja) テキストマイニング方法、テキストマイニング装置、及びテキストマイニングプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110415

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110815