JP2003141132A - 情報処理装置およびその方法 - Google Patents

情報処理装置およびその方法

Info

Publication number
JP2003141132A
JP2003141132A JP2001333138A JP2001333138A JP2003141132A JP 2003141132 A JP2003141132 A JP 2003141132A JP 2001333138 A JP2001333138 A JP 2001333138A JP 2001333138 A JP2001333138 A JP 2001333138A JP 2003141132 A JP2003141132 A JP 2003141132A
Authority
JP
Japan
Prior art keywords
document
word
documents
analysis
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001333138A
Other languages
English (en)
Inventor
Yoshio Matsuda
芳雄 松田
Hideo Hayashida
英雄 林田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nihon Unisys Ltd
Original Assignee
Nihon Unisys Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nihon Unisys Ltd filed Critical Nihon Unisys Ltd
Priority to JP2001333138A priority Critical patent/JP2003141132A/ja
Publication of JP2003141132A publication Critical patent/JP2003141132A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書をその内容により分析する際に文書マイ
ニングが利用されるが、文書マイニングの結果の分析や
把握には手間がかかる。 【解決手段】 所定数の文書から登録単語8aを選定し(S
1-S5)、選定された登録単語8aから分類ルール8bおよび8
cを生成して(S6-S9)、登録単語8aおよび分類ルール8bお
よび8cをメモリに格納する。そして、メモリに格納した
登録単語8aおよび分類ルール8bおよび8cを使用して、同
類の文書を分析する(S10-S12)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は情報処理装置および
その方法に関し、例えば、文書をその内容により分類す
る情報処理に関する。
【0002】
【従来の技術】インターネットやコールセンタなどの新
しいビジネス形態の普及にともない、顧客の問い合わ
せ、要望、苦情などが紙に記録された文書ではなく、デ
ィジタル化された文書として蓄積される傾向がある。
【0003】顧客の声を商品の企画やマーケティングへ
反映するために、顧客から寄せられた質問、要望、意見
などを分析する必要がある。そのためには、ディジタル
化された文書を対象に、分類や判別などの文書マイニン
グを行い、その結果に基づき、属性値ごとの件数を一覧
表示して、質問、要望、意見などの傾向を把握すること
になる。
【0004】なお、文書マイニング(またはtext minin
g)とは、文書データを様々な観点から分析し、役に立
つ知識、情報を取り出す(掘り出す)技術である。文書
マイニングでは、形式化されていない文書(テキスト)
という生のデータから知識、情報を見付け出して、膨大
な文書の中に記述されている内容の傾向や相関関係など
を分析することで、既存の知識ではない、営業戦略の立
案などに有用な知識・情報を得ることを目的する。
【0005】
【発明が解決しようとする課題】上記の傾向を分析する
ために、エンドユーザーが直接データベースを検索・集
計して問題点や解決策を発見する分析型アプリケーショ
ンであるOLAP(On-Line Analytical Processing)やデー
タマイニングなどの技術を利用して、コード化された文
書から有用な情報を抽出することが可能である。しか
し、抽出される文字データは、所詮文字コードの集まり
でしかなく、そこから意味のある情報を抽出するには、
人手により、その内容を理解し、その内容に合わせて予
め用意されたコード(以下「属性値」と呼ぶ)を付与す
ることで、抽出された文字データの内容をコンピュータ
上で利用できるようにする。
【0006】具体的には、質問、要望、意見などの文書
(データ)を対象に分類や判別などの文書マイニングを
行い、その結果に基づいて属性値を付与し、図1に示す
ような、属性値ごとの件数を示すテーブルを作成して、
文書の傾向を把握する。
【0007】さらに、文書のある特徴的な部分を分析し
たい場合は、再び、別の観点から文書マイニングを行っ
たり、特徴的な部分のオリジナルの文書を一件ずつ見直
す必要がある。
【0008】このように、文書マイニングの結果の分析
や把握には手間がかかり、少量のデータであれば、上記
の処理を人手で行うことも可能だが、インターネットを
利用して取得されるような大量のデータを処理する場合
は、人手による作業はコストおよび時間的に困難であ
る。
【0009】本発明は、上述の問題を個々にまたはまと
めて解決するためのもので、文書マイニングの結果を効
率的、効果的に利用できるようにすることを目的とす
る。
【0010】
【課題を解決するための手段】本発明は、前記の目的を
達成する一手段として、以下の構成を備える。
【0011】本発明にかかる情報処理方法は、文書をそ
の内容により分析するための情報処理方法であって、所
定数の文書から利用単語を抽出し、抽出された利用単語
から前記分析に応じた単語を選定して、前記選定単語を
メモリに格納し、前記選定単語に基づき分類ルールを設
定して、前記分類ルールをメモリに格納し、前記メモリ
に格納した選定単語および分類ルールを使用して、前記
所定数の文書と同類の文書を分類し、前記分類結果に基
づき、前記文書の内容を表す分析情報を生成することを
特徴とする。
【0012】また、文書をその内容により分析するため
の情報処理方法であって、所定数の文書から利用単語を
抽出し、抽出された利用単語から前記分析に応じた単語
を選定して、前記選定単語をメモリに格納し、回帰分析
の手法により、判別関数を作成して、前記判別関数をメ
モリに格納し、前記メモリに格納した判別関数を使用し
て、前記所定数の文書と同類の文書を判別し、前記判別
結果に基づき、前記文書の内容を表す分析情報を生成す
ることを特徴とする。
【0013】本発明にかかる情報処理装置は、文書をそ
の内容により分析するための情報処理装置であって、所
定数の文書から利用単語を抽出し、抽出された利用単語
から前記分析に応じた単語を選定して、前記選定単語を
メモリに格納する抽出手段と、前記選定単語に基づき分
類ルールを設定し、前記分類ルールをメモリに格納する
設定手段と、前記メモリに格納された選定単語および分
類ルールを使用して、前記所定数の文書と同類の文書を
分類する分類手段と、前記分類結果に基づき、前記文書
の内容を表す分析情報を生成する生成手段とを有するこ
とを特徴とする。
【0014】また、文書をその内容により分析する情報
処理装置であって、所定数の文書から利用単語を抽出
し、抽出された利用単語から前記分析に応じた単語を選
定して、前記選定単語をメモリに格納する抽出手段と、
回帰分析の手法により、判別関数を作成して、前記判別
関数をメモリに格納する作成手段と、前記メモリに格納
した判別関数を使用して、前記所定数の文書と同類の文
書を判別する判別手段と、前記判別結果に基づき、前記
文書の内容を表す分析情報を生成する生成手段とを有す
ることを特徴とする。
【0015】好ましくは、さらに、前記分析情報を前記
選定単語でフィルタ処理することを特徴とする。
【0016】
【発明の実施の形態】以下、本発明にかかる一実施形態
の文書処理を図面を参照して詳細に説明する。
【0017】[構成]図2は実施形態の文書処理を実行
するシステム構成例を示すブロック図である。なお、実
施形態は、クライアントサーバ構成に限らず、スタンド
アローンのコンピュータでも実現可能である。
【0018】図2において、文書処理の利用者は、クラ
イアント1や2のモニタに表示された画面を介して、文書
処理装置4を構成する文書マイニングサーバ5にアクセス
する。クライアント1や2と文書マイニングサーバ5とは
インターネットやLANなどのネットワーク3を介して接続
されている。
【0019】インターネットなどを利用して収集される
大量の文書データ6は、文書マイニングサーバ5に接続さ
れたハードディスクなどの外部記憶装置に保存されてい
る。利用者は、文字列変換ルール、文書分解ルールおよ
び形態素解析辞書などを予め準備して、文書マイニング
サーバ5に接続されたハードディスクなどの外部記憶装
置に保存しておく。
【0020】[文書マイニング処理]図3は実施形態の
文書マイニング処理の一例を示すフローチャートで、文
書マイニングサーバ5によって実行される処理を示す。
【0021】なお、以下に示す文書マイニングは「分類
ルールの作成」「文書の分類」および「文書の判別」の
各処理に大別される。分類ルールの作成は、計算量が多
く、また人手を介したり、試行錯誤による繰り返しが必
要になることもあり、一般に処理に時間を要する。他
方、文書の分類および文書の判別は、人手を介さず、計
算量が少ないため、処理は短時間になる。
【0022】従って、まず分類ルールの作成を行い、登
録単語8aおよび分類ルール8bを作成して、文書マイニン
グサーバ5に接続されたハードディスクなどの外部記憶
装置に保存しておけば、その後、同じような内容の別の
文書データを分類する必要が生じた場合に、文書マイニ
ング処理を自動実行する、言い換えれば、人手や試行錯
誤による繰り返しを不要にする、あるいは、人手や試行
錯誤による繰り返しを最小限にすることができる。
【0023】勿論、分野が異なる文書データ6を処理す
る場合や、時間の経過や状況の変化があり文書データ6
の傾向に変化が現れている(と予測される)場合など
は、分類ルールの作成から実施すればよい。
【0024】●登録単語作成文書の分離(S1) 文書マイニングサーバ5は、登録単語8aの作成にあたっ
て、文書データ6の一部(例えば五割程度)を登録単語
作成文書6aとして分離する(S1)。
【0025】●データクリーニング(S2) 文字データは、同じものを様々な表現、略語、字種で表
現する。例えばパーソナルコンピュータを「パソコン」
や「PC」など略語で表記したり、「Personal Compute
r」や「PERSONAL COMPUTER」などの英語表記も可能であ
る。文字データから有効なグループを作成する分類処理
を行うには、これらの表現・表記を統一する必要があ
る。
【0026】表現・表記の違いに対応するために、デー
タを入力するオペレータが予め決められたルールに従
い、表現・表記を統一した文字データを生成する方法も
ある。しかし、インターネットや電子メールの普及によ
り、顧客から直接文字データが届くようになると、オペ
レータによる表現・表記の統一は効率の観点から実行が
難しい。
【0027】そこで、本実施形態においては、オペレー
タに代って、文書マイニングサーバ5が表現・表記の統
一を行う。そのためのルールが、利用者が予め作成する
文字列変換ルール7aである。
【0028】図4は文字列変換ルール7aの一例を示す図
で、次の順に変換することを指示している。(1)英字の
小文字を大文字にする、(2)英字の半角文字を全角文字
にする、(3)カナ文字の半角文字を全角文字にする、(4)
「変換前の文字列」に該当する文字列を「変換後の文字
列」に置き換える。なお、四番目の「文字列置換」にあ
たっては、文字列変換ルールの指定順にも意味があり、
先に指定されたものから順に置き換える。
【0029】文書マイニングサーバ5は、分類対象の文
書データを読み込み、文字列変換ルール7aに従い、文字
の置き換え、および、文字列の置き換えを順次行う(S
2)。
【0030】図5は処理対象の文書データ(オリジナル
文書)およびデータクリーニングを施した文書(データ
クリーニング結果)を示す図である。
【0031】●文書分解(S3) 文書中には、一つの文章構成が複数の意味を含むものが
ある。例えば、一つの文章でXという内容とYという内容
を同時に言及するような場合である。この場合、XとYは
本来は関連が薄いが、後述する数量化理論III類で単語
マップ、サンプルマップの作成(S7)を行うとXとYが関連
をもち、本来、XやYの内容で現れるべき個々の特徴が現
れなくなる。
【0032】このため、文書マイニングサーバ5
は「。」や箇条書きなど、意味を区切る文字や文字列
(以下「デリミタ」と呼ぶ)の出現を抽出し、抽出した
デリミタに基づき、それぞれが異なる文字データになる
ように、文章をさらに細かい文字データの単位である
「文」に分解する(S3)。そのためのルールが、利用者が
予め作成する文書分解ルール7bである。
【0033】図6は文書分解ルール7bの一例を示す図で
ある。なお、「デリミタ」の欄に複数の文字や文字列を指
定する場合、それらを空白で区切る。また、「前後」の欄
は、デリミタが現れた場合に、文書をデリミタの前で分
割するか、後ろで分割するかを指定する。デリミタは自
由に設定できるので「ところで」や「また」のような大
きな意味でのデリミタを記述することも可能である。同
時に、丸数字などを使用した箇条書部分を分解すること
も可能である。
【0034】図7は、図5に示すデータクリーニング結果
の文書データを分解した例を示す図である。なお、IDは
分解前の文書データの識別番号であり、SIDは分解され
た文書データを同一ID内で区別するための副識別番号で
ある
【0035】●形態素解析(S4) 文字コードの集まりである文書データのままでは分類処
理を実行することはできない。そこで、文書マイニング
サーバ5は、文字コードの集まりである文書データを単
語に分解する(S4)。単語への分解は、例えば、松本裕治
他「岩波講座言語の科学3 単語と辞書」(岩波書店、19
97年12月、2.2形態素解析アルゴリズム)に示されてい
るような、形態素解析の接続コスト最小法による。
【0036】利用者は、単語の情報として各単語につい
て品詞および活用形、接続コストの情報、並びに、日本
語の文法に則り出現し得る品詞の並び方のルールを、予
め形態素辞書7cとして準備する。
【0037】文書マイニングサーバ5は、文書データに
形態素辞書7cに適合する品詞の単語があるか否かを調
べ、その中で最も有効(接続コストの和が最小)と判定
される単語の並びに分解する。形態素解析の結果を次の
処理へ引き渡す際、利用者の指定により、文書マイニン
グに有用な品詞だけに絞り込んで引き渡すこともでき
る。例えば、図7に示す文書分解結果に対して形態素解
析を行い、名詞、動詞および形容詞だけに絞り込むと図
8に示す形態素の解析結果のようになる。
【0038】●利用単語の選択(S5) 文書マイニングサーバ5によって抽出される単語には、
本来、その文書データの分析には明らかに関係のないも
のもある。そこで、ステップS5で、分析に使用する単語
を利用者が選択できるようにする。これにより、利用者
が分析との関係性が低いと判断する単語を削除すること
で、後の分析の精度を向上させたり、ある視点で文書デ
ータを分類したい場合に関連する単語のみを指定するこ
とで特定の単語間の関連を分析することが可能になる。
【0039】文字コードを単語の並びで表現すると、そ
れぞれの文書データにどのような単語が何回出現するか
という出現頻度情報を得ることができる。また、文書を
分析する場合に重要となる単語は、文書全体に満遍なく
出現するような出現頻度の高い単語ではなく、ある程度
の数の、繰り返し出現する単語である。そこで、単語ご
との出現頻度や出現文書数などの情報とともに、文書を
分類をする上でどの単語が重要かを示す重要度という指
標を採用する。
【0040】文書マイニングサーバ5は、形態素の解析
結果に現れる単語について、出現頻度、出現文書数およ
び重要度を計算する。出現頻度は、全文書中でその単語
が出現した回数である。出現文書数は、その単語が出現
した文書の数である。各単語の重要度は次式によって計
算する。 重要度 = 出現頻度×log(全文書数/出現文書数) …(1)
【0041】文書マイニングサーバ5は、利用者が単語
を選択する際の助けとなるように、出現頻度順、出現文
書数順または重要度順に並べた単語を、図9に示すよう
に、クライアント1や2の画面に表示する。利用者は出現
頻度、出現文書数および重要度を参照して、分類する際
に必要と思われる単語を選択する(図9の右側は選択さ
れた単語例を示す)。文書マイニングサーバ5は選定さ
れた単語を、登録単語8aとしてハードディスクなどの外
部記憶装置に保存する。
【0042】●文書数値化(S6) 文書マイニングサーバ5は、外部記憶装置に保存された
登録単語8aの情報を読み込み、文書ごとに登録単語8aの
出現回数をカウントして文書を数値化する。図10は文書
数値化結果の一例を示す図で、縦方向に文書の識別番号
IDおよび副識別番号SIDに対応して、各利用単語が各文
書に出現する回数を示している。
【0043】●数量化理論III類によるマッピング(S7) 文書マイニングサーバ5は、ステップS6で得られる登録
単語8aごとの出現頻度情報に基づき、多変量解析手法の
一つである数量化理論III類を用いて、単語情報と文書
データとを空間上に配置する。なお、単語を空間上に配
置したものを単語マップ、デリミタに基づき分解された
文書データを空間上に配置したものをサンプルマップと
呼ぶ。単語マップおよびサンプルマップの作成には、例
えば、管民郎「多変量解析の実践(下)」(現代数学
社、1993年12月、pp.150-156)に紹介されている方法な
どを利用する。
【0044】図11は文書マイニングサーバ5が作成する
単語マップの数値情報例を示す図である。文書マイニン
グサーバ5は、単語マップの数値情報を、分類ルール8b
としてハードディスクなどの外部記憶装置に保存する。
図12は単語マップのグラフ表示例を示す図である。
【0045】図13はサンプルマップの数値情報例を示す
図、図14はサンプルマップのグラフ表示の例を示す図で
ある。なお、単語マップとサンプルマップの座標空間は
同一であるから、単語マップとサンプルマップとを重ね
てグラフ表示することもできる。
【0046】数量化理論III類の性質により、単語マッ
プでは、同時に出現する確率が高い単語同士は空間上で
近傍に配置され、同時に出現する確率が低い単語同士は
空間上で離間されて配置される。同様に、サンプルマッ
プでも、出現する単語の傾向が似た文書同士は空間上で
近傍に配置され、出現する単語の傾向が似ていない文書
同士は空間上で離間されて配置される。こうすること
で、単純に単語の出現情報をマッピングした空間のまま
では等価に評価される単語についても、文書全体の中で
特徴的な単語と特徴的でない単語とに区分でき、文書デ
ータの分類にあたって、より意味のあるグループを生成
することができる。
【0047】なお、利用者は、文書マイニングサーバ5
が計算した単語マップおよびサンプルマップの数値情報
(図11および図13)を参照し、軸ごとの単語の配置を観
て、他の単語とかけ離れて単独に配置されているような
単語の有無を判定し(S8)、そのような単語があればステ
ップS5に戻り、登録単語8aの選択をやり直す。あるい
は、文書マイニングサーバ5によってクライアント1や2
の画面に表示された単語マップおよびサンプルマップの
グラフ(図12および図14)を参照し、そのパターンか
ら、利用者の経験により、ステップS5に戻り登録単語8a
の選択をやり直すか否かを判断していもよい。
【0048】●クラスタ分析(S9) 文書マイニングサーバ5は、文書データを空間上に配置
したサンプルマップに基づき、多変量解析手法の一つで
あるk-means法によるクラスタ分析を行い、文書データ
をグループ化する。クラスタ分析については、例えば、
西田英郎監訳「クラスター分析とその応用」(株式会社
内田老鶴圃、1995年12月、7章 非階層的クラスター分析
法)に紹介されている。
【0049】サンプルマップのすべての軸についてk-me
ans法によるクラスタ分析を行うと、すべての軸同士の
組み合わせ分の計算を必要とし、計算に長時間を要す
る。例えば、軸数がmであれば(m×(m-1))/2組の計算と
なり、m=10の場合は45組の計算を必要とする。
【0050】そこで、利用者は、文書分類のための意味
ある計算に限定して無駄な計算を避けるため、数量化理
論III類の軸数と、作成する分類の数とを指定する。例
えば、m=2とすれば一組の計算で済む。このため、利用
者は、クラスタ分析に使用する軸の数を数量化理論III
類で出力されるすべての軸の数とせずに、各軸の情報量
を表す固有値や、各軸のサンプルのばらつきなどを観な
がら、試行錯誤を繰り返して軸数mを決定する。
【0051】さて、ステップS9における軸数mの指定に
あたって、例えば、サンプルマップの数値情報の固有値
がある値、例えば0.25以上である軸の数を指定する。文
書マイニングサーバ5は、固有値の大きい順に計算すべ
き軸を選定して計算を行う。
【0052】図15は、文書マイニングサーバ5がk-means
法によるクラスタ分析により、図13に示す軸1および軸2
により分析した結果を示す図である。なお、図15に示す
「分類1」「分類2」および「分類3」のような分類を総
称して「クラスタ」と呼ぶ。
【0053】続いて、文書マイニングサーバ5は、クラ
スタに属する全サンプルの重心、つまりクラスタの重心
を計算する。表1はクラスタの重心の計算結果例を示
す。計算結果は分類ルール8cとしてハードディスクなど
の外部記憶装置に保存される。
【0054】
【表1】 文書マイニングサーバ5は、外部記憶装置に保存された
登録単語8a、分類ルール8b(単語マップの数値情報)お
よび分類ルール8c(クラスタの重心)を利用して、この
後、同じような内容の文書情報があれば、いつでも自動
的に文書分類処理を行うことが可能になる。例えば、毎
日収集される異なる文書データ6に対して、毎日、自動
的に文書分類処理を行うことができる。
【0055】●文書の分類(S11) 文書マイニングサーバ5は、文書データ6に対してデータ
クリーニング、文書の分解、形態素の解析および文書の
数値化を実行する(S10)。これらの処理は、分類ルール
の作成におけるデータクリーニング(S2)、文書の分解(S
3)、形態素の解析(S4)および文書の数値化(S6)と同様の
処理である。
【0056】図16は、図5とは異なる文書データに対し
て文書分類を施した例を示す図、図17は文書数値化結果
例を示す図である。
【0057】続いて、文書マイニングサーバ5は、分類
ルール8b(単語マップの数値情報)および分類ルール8c
(クラスタの重心)を外部記憶装置から読み込み、図18
に示す手順で文書を分類する(S11)。
【0058】まず、図17に示す文書数値化結果から一つ
の文書(例えばID=11、SID=1、文書Xと呼ぶ)のデータ
を取り出し(S201)、文書Xに出現する単語を調べ、分類
ルール8b(図11)に含まれる単語と一致するものがあれ
ば(S202)、その単語と、その出現回数を記録し(S203)、
一致するものがなければステップ201へ戻る。
【0059】分類ルール8bは単語マップそのものである
から、出現した単語の単語マップ上での位置と出現回数
に基づき、出現単語の単語マップ上の重心Yを計算する
(S204)。
【0060】単語マップおよびサンプルマップの座標空
間は同一であるから、計算された重心Yの位置を、サン
プルマップ上の文書Xの位置Zにする(S205)。
【0061】次に、分類ルール8c(表1)のクラスタの
重心位置と位置Zとの距離を計算し(S206)、距離が最短
のクラスタを文書Xの分類結果9aとして、ハードディス
クなどの外部記憶装置に保存する(S207)。
【0062】そして、ステップS208の判定により、すべ
ての文書データについてステップS201からステップS207
の処理を繰り返す。
【0063】図19は文書マイニングサーバ5が文書の数
値化結果に対して分類を作成した結果を示す図である。
【0064】このように文書マイニングサーバ5は、分
類ルール8bおよび8cを利用することで、人手を介するこ
となく自動的に文書を分類する。なお、分類ルール8bお
よび8cを利用することで、数量化理論III類による単語
マップやサンプルマップ作成(ステップS7の処理)に要
する時間、および、K-means法でクラスタ分析(ステッ
プS9の処理)に要する時間を割愛できるため、短時間に
分類結果9aを得ることができる。
【0065】●文書判別(S12) 文書マイニングサーバ5は、予め決められた、例えば
「要望」「質問」「苦情」「感想」のどのカテゴリに、
分類結果9aの文書が属するかを判別する。このために、
回帰分析の手法により四つの判別関数を作成する。すな
わち、「要望」か否か、「質問」か否か、「苦情」か否
か、および、「感想」か否かをそれぞれ判別する関数で
ある。これら四つの関数により、判別確率P要望
P質問、P苦情およびP感想が計算され、これら確率の大
きさにより、文書がどのカテゴリに属するかを判別し、
その結果を分析結果9bとして、ハードディスクなどの外
部記憶装置に保存する(S12)。
【0066】[処理結果の表示]文書マイニングサーバ
5は、クライアント1などの画面に文書マイニングの結果
を表示する際に、図20に示すように、属性値および判別
結果のカテゴリごとに登録単語を含む文書の件数を一覧
表示する。文書に使用されている単語そのものが表示さ
れ、単語の意味から文書の特徴を把握することができ、
再度別の観点から文書マイニングを行う必要はない。な
お、図20に示す件数部分がクリックされると、文書マイ
ニングサーバ5は、該当するオリジナルの文書をクライ
アント1などの表示する。利用者は意味ある単語を含む
オリジナルの文書データだけを見直せばよく、効率的に
文書マイニング結果を利用できる。
【0067】図21は、顧客から寄せられた意見につい
て、文書マイニングサーバ5が文書判別した結果を集計
表示した様子を示す図である。
【0068】図21の属性値欄に示される商品シリーズご
とに、カテゴリ(要望、質問、感想およびクレーム)を
判別した結果に基づき、文書に現れる単語のうち名詞、
動詞および形容詞が、その出現頻度順に並べて表示され
る。なお、単語の後ろの括弧内は出現頻度を表す。例え
ば、属性値「透明シリーズ」の「要望」欄は、単語「透
明シリーズ」の出現頻度18が最大であることを示してい
る。
【0069】文書マイニングサーバ5は、クライアント1
などから指示を受けると、図21に示す集計表示を登録単
語でフィルタ処理した結果を表示することができる。
【0070】図22は、図21と同一の判別結果を登録単語
に絞り込んで表示した様子を示す図である。図22に示す
集計表示は、図21に示す集計表示に比べて、より意味あ
る単語が並び、あまり意味がないと考えられる単語、例
えば「する」「ある」「ない」などが消えている。
【0071】分析担当者は、例えば図22に示す表示を参
照して、属性値「透明シリーズ」のカテゴリ「要望」に
注目し、例えば単語「ニキビ」をクリックすると、文書
マイニングサーバ5は単語「ニキビ」を含むオリジナル
の文書(つまり顧客の要望や意見を含む)そのものを図
23に示すように表示する。従って、分析担当者は、意味
ある単語(登録単語)を含む文書だけを観ることが可能
になり、文書マイニングの結果を効率的、効果的に利用
することができる。
【0072】このように、本実施形態によれば、文書の
分析内容に応じた単語を選定して登録単語する。そし
て、属性値および判別結果のカテゴリごとに文書マイニ
ングの結果を表示するだけでなく、登録単語およびその
単語を含む文書の件数を一覧表示する。つまり、文書マ
イニング対象の文書に使用された単語そのものを表示す
るため、単語の意味から文章の特徴を容易に把握するこ
とができ、試行錯誤を繰り返して、別の観点から行う文
書マイニングを不要にすることができる。また、意味あ
る単語(登録単語)を含むオリジナルの文書だけを観る
ことができ、効率的、効果的に文書マイニングの結果を
利用することができる。
【0073】
【発明の効果】以上説明したように、本発明によれば、
文書マイニングの結果を効率的、効果的に利用すること
ができる。
【図面の簡単な説明】
【図1】文書マイニングの結果を示す図、
【図2】文書処理を実行するシステム構成例を示すブロ
ック図、
【図3】文書処理の一例を示すフローチャート、
【図4】文字列変換ルールの一例を示す図、
【図5】処理対象の文書データおよびデータクリーニン
グを施した文書を示す図、
【図6】文書分解ルールの一例を示す図、
【図7】図5に示すデータクリーニング結果の文書デー
タを分解した例を示す図、
【図8】形態素の解析結果の一例を示す図、
【図9】登録単語の選定を説明する図、
【図10】文書数値化結果の一例を示す図、
【図11】単語マップの数値情報例を示す図、
【図12】単語マップのグラフ表示例を示す図、
【図13】サンプルマップの数値情報例を示す図、
【図14】サンプルマップのグラフ表示の例を示す図、
【図15】クラスタ分析の結果例を示す図、
【図16】図5とは異なる文書データに対して分類実施
処理を施した例を示す図、
【図17】文書数値化結果例を示す図、
【図18】分類処理の手順例を示すフローチャート、
【図19】文書の数値化結果に対して分類を作成した結
果を示す図、
【図20】文書マイニングサーバの文書判別結果の表示
例を示す図、
【図21】文書マイニングサーバの文書判別結果の表示
例を示す図、
【図22】文書マイニングサーバの文書判別結果の表示
例を示す図、
【図23】オリジナルの文書の表示例を示す図である。

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 文書をその内容により分析するための情
    報処理方法であって、 所定数の文書から利用単語を抽出し、抽出された利用単
    語から前記分析に応じた単語を選定して、前記選定単語
    をメモリに格納し、 前記選定単語に基づき分類ルールを設定して、前記分類
    ルールをメモリに格納し、 前記メモリに格納した選定単語および分類ルールを使用
    して、前記所定数の文書と同類の文書を分類し、 前記分類結果に基づき、前記文書の内容を表す分析情報
    を生成することを特徴とする情報処理方法。
  2. 【請求項2】 文書をその内容により分析するための情
    報処理方法であって、 所定数の文書から利用単語を抽出し、抽出された利用単
    語から前記分析に応じた単語を選定して、前記選定単語
    をメモリに格納し、 回帰分析の手法により、判別関数を作成して、前記判別
    関数をメモリに格納し、 前記メモリに格納した判別関数を使用して、前記所定数
    の文書と同類の文書を判別し、 前記判別結果に基づき、前記文書の内容を表す分析情報
    を生成することを特徴とする情報処理方法。
  3. 【請求項3】 さらに、複数の異なる内容について記述
    された文書は、前記利用単語の抽出前に、意味のある複
    数の文に分解することを特徴とする請求項1または請求
    項2に記載された情報処理方法。
  4. 【請求項4】 前記利用単語の抽出は、文書をデータク
    リーニングし、複数の異なる内容について記述された文
    書を意味のある複数の文に分解し、形態素を解析して、
    前記形態素の解析結果から前記利用単語を抽出すること
    を特徴とする請求項1または請求項2に記載された情報処
    理方法。
  5. 【請求項5】 前記分類ルールの作成は、前記利用単語
    に基づき文書を数値化し、数量化理論III類により単語
    および文書をマッピングし、クラスタ分析することで、
    単語マップおよび分類の重心を得ることを特徴とする請
    求項1から請求項4の何れかに記載された情報処理方法。
  6. 【請求項6】 さらに、前記分析情報を前記選定単語で
    フィルタ処理することを特徴とする請求項1から請求項5
    の何れかに記載された情報処理方法。
  7. 【請求項7】 情報処理装置を制御して、請求項1から
    請求項6の何れかに記載された情報処理を実行すること
    を特徴とするプログラム。
  8. 【請求項8】 請求項7に記載されたプログラムが記録
    されたことを特徴とする記録媒体。
  9. 【請求項9】 文書をその内容により分類する情報処理
    装置であって、 所定数の文書から利用単語を抽出し、抽出された利用単
    語から前記分析に応じた単語を選定して、前記選定単語
    をメモリに格納する抽出手段と、 前記選定単語に基づき分類ルールを設定し、前記分類ル
    ールをメモリに格納する設定手段と、 前記メモリに格納された選定単語および分類ルールを使
    用して、前記所定数の文書と同類の文書を分類する分類
    手段と、 前記分類結果に基づき、前記文書の内容を表す分析情報
    を生成する生成手段とを有することを特徴とする情報処
    理装置。
  10. 【請求項10】 文書をその内容により分析する情報処
    理装置であって、 所定数の文書から利用単語を抽出し、抽出された利用単
    語から前記分析に応じた単語を選定して、前記選定単語
    をメモリに格納する抽出手段と、 回帰分析の手法により、判別関数を作成して、前記判別
    関数をメモリに格納する作成手段と、 前記メモリに格納した判別関数を使用して、前記所定数
    の文書と同類の文書を判別する判別手段と、 前記判別結果に基づき、前記文書の内容を表す分析情報
    を生成する生成手段とを有することを特徴とする情報処
    理装置。
  11. 【請求項11】 さらに、前記分析情報を前記選定単語
    でフィルタ処理する処理手段を有することを特徴とする
    請求項9または請求項10に記載された情報処理装置。
JP2001333138A 2001-10-30 2001-10-30 情報処理装置およびその方法 Pending JP2003141132A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001333138A JP2003141132A (ja) 2001-10-30 2001-10-30 情報処理装置およびその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001333138A JP2003141132A (ja) 2001-10-30 2001-10-30 情報処理装置およびその方法

Publications (1)

Publication Number Publication Date
JP2003141132A true JP2003141132A (ja) 2003-05-16

Family

ID=19148455

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001333138A Pending JP2003141132A (ja) 2001-10-30 2001-10-30 情報処理装置およびその方法

Country Status (1)

Country Link
JP (1) JP2003141132A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003248687A (ja) * 2002-02-22 2003-09-05 Nippon Yunishisu Kk 情報処理装置およびその方法
JP2008243126A (ja) * 2007-03-29 2008-10-09 Chuden Cti Co Ltd 入力情報分析装置
WO2016013209A1 (ja) * 2014-07-23 2016-01-28 日本電気株式会社 文集合抽出システム、方法およびプログラム
JP2020013535A (ja) * 2018-07-06 2020-01-23 株式会社日立システムズ 情報処理装置、検査評価システムおよび検査評価方法
JP2022121747A (ja) * 2018-03-01 2022-08-19 株式会社日立システムズ データ変換装置およびデータ変換方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08329106A (ja) * 1995-05-31 1996-12-13 Mitsubishi Electric Corp 辞書生成方法、単語集合構造化方法、文書集合構造化方法およびそれらの方法を用いた発想支援システム
JP2001117930A (ja) * 1999-10-15 2001-04-27 Ricoh Co Ltd 文書分類装置、文書分類方法および記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08329106A (ja) * 1995-05-31 1996-12-13 Mitsubishi Electric Corp 辞書生成方法、単語集合構造化方法、文書集合構造化方法およびそれらの方法を用いた発想支援システム
JP2001117930A (ja) * 1999-10-15 2001-04-27 Ricoh Co Ltd 文書分類装置、文書分類方法および記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
有田英一、外4名: "自己組織型情報ベースの要素技術", 三菱電機技報, vol. 第68巻,第8号, CSNH199900149008, 25 August 1994 (1994-08-25), pages 44 - 48, ISSN: 0000716037 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003248687A (ja) * 2002-02-22 2003-09-05 Nippon Yunishisu Kk 情報処理装置およびその方法
JP2008243126A (ja) * 2007-03-29 2008-10-09 Chuden Cti Co Ltd 入力情報分析装置
WO2016013209A1 (ja) * 2014-07-23 2016-01-28 日本電気株式会社 文集合抽出システム、方法およびプログラム
JPWO2016013209A1 (ja) * 2014-07-23 2017-04-27 日本電気株式会社 文集合抽出システム、方法およびプログラム
JP2022121747A (ja) * 2018-03-01 2022-08-19 株式会社日立システムズ データ変換装置およびデータ変換方法
JP7346671B2 (ja) 2018-03-01 2023-09-19 株式会社日立システムズ データ変換装置およびデータ変換方法
JP2020013535A (ja) * 2018-07-06 2020-01-23 株式会社日立システムズ 情報処理装置、検査評価システムおよび検査評価方法
JP7229761B2 (ja) 2018-07-06 2023-02-28 株式会社日立システムズ 情報処理装置、検査評価システムおよび検査評価方法
JP7493638B2 (ja) 2018-07-06 2024-05-31 株式会社日立システムズ 情報処理装置、検査評価システムおよび検査評価方法

Similar Documents

Publication Publication Date Title
CN106383836B (zh) 将可操作属性归于描述个人身份的数据
US20060179051A1 (en) Methods and apparatus for steering the analyses of collections of documents
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
JP4997892B2 (ja) 検索システム、検索方法及び検索プログラム
US20180330231A1 (en) Entity model establishment
JP2002245061A (ja) キーワード抽出
US20150286706A1 (en) Forensic system, forensic method, and forensic program
WO2014057965A1 (ja) フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
KR101753768B1 (ko) 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템
Wahyudi et al. Topic modeling of online media news titles during covid-19 emergency response in Indonesia using the latent dirichlet allocation (LDA) algorithm
JP3583631B2 (ja) 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
US10824606B1 (en) Standardizing values of a dataset
JP2003141132A (ja) 情報処理装置およびその方法
JP3677006B2 (ja) 情報処理装置およびその方法
CN114780755A (zh) 一种基于知识图谱的播放数据定位方法、装置及电子设备
JP7427510B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2019061522A (ja) 文書推薦システム、文書推薦方法および文書推薦プログラム
JP2000148770A (ja) 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体
JP4877930B2 (ja) 文書処理装置及び文書処理方法
KR20230025102A (ko) 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 방법 및 장치
JP3641363B2 (ja) テキスト情報分析装置及び記録媒体
JP2003076705A (ja) 情報処理装置およびその方法
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP2003108583A (ja) 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体
Chaabene et al. Semantic annotation for the “on demand graphical representation” of variable data in Web documents

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050801

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060220