JP2006244298A - テキストマイング方法及びテキストマイニング装置 - Google Patents

テキストマイング方法及びテキストマイニング装置 Download PDF

Info

Publication number
JP2006244298A
JP2006244298A JP2005061292A JP2005061292A JP2006244298A JP 2006244298 A JP2006244298 A JP 2006244298A JP 2005061292 A JP2005061292 A JP 2005061292A JP 2005061292 A JP2005061292 A JP 2005061292A JP 2006244298 A JP2006244298 A JP 2006244298A
Authority
JP
Japan
Prior art keywords
word
frequency
attribute value
attribute
appearance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005061292A
Other languages
English (en)
Other versions
JP4595590B2 (ja
Inventor
Takeyuki Aikawa
勇之 相川
Makoto Imamura
誠 今村
Yasuhiro Takayama
泰博 高山
Akito Nagai
明人 永井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2005061292A priority Critical patent/JP4595590B2/ja
Publication of JP2006244298A publication Critical patent/JP2006244298A/ja
Application granted granted Critical
Publication of JP4595590B2 publication Critical patent/JP4595590B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】 データの電子化が進み、設計仕様書や故障調査報告書などの品質管理業務などで必要とされる電子化された文書(以下、テキスト)の蓄積が進んでいる。この大量に蓄積されたテキストから、有用な情報を抽出し、業務改善のために活用するテキストマイニングの重要性が増している。
【解決手段】 本発明によれば、分析対象テキストから抽出した単語又は属性値を2以上に分類して一覧表示し、利用者によりこの2以上の関係を提供し、利用者から単語または属性値を指定されると、指定された単語または属性値に連動して、絞込みをして一覧表示するものである。即ち、一覧表示と絞込み指定とが連動しているため、一覧表示を概観しながらその関係を維持した更なる絞込みが容易にでき、更にその絞り込んだ結果を一覧表示することがでる。この結果、データ分析が容易になる。
【選択図】 図1

Description

この発明は、製品企画や品質管理などの業務で必要とされる重要な情報を、蓄積された大量のテキストから抽出して、業務改善のために活用することを可能とするテキストマイニング方法に関するものである。
データの電子化が進み、設計仕様書や故障調査報告書などの品質管理業務などで必要とされる電子化された文書(以下、テキスト)の蓄積が進んでいる。この大量に蓄積されたテキストから、有用な情報を抽出し、業務改善のために活用するテキストマイニングの重要性が増している。
このようなテキストマイニングのうち、「関連度ランキングウィンドウ」が「特許文献1 特開2004-021445 テキストデータ分析システム」で公開されている。この「関連度ランキングウィンドウ」とは、テキスト中の出現頻度順に単語をソートした単語ランキングから、利用者がランキングされた単語から1つの単語を選択してダブルクリックすると、この選択された単語に関連する単語をリスト表示するものである。ここでの「関連」とは、選択された単語と一緒に使用されることが多い単語のことである。なお、「関連度ランキングウィンドウ」には、関連単語の他、その関連度及びその関連単語を含む実際のテキストの件数が表示される。
特開2004-021445 テキストデータ分析システム http://www.nri.co.jp/news/2002/021219.html
しかし、従来技術では、「特開2004-021445 図5」に見られるように、リスト表示される単語は、単に選択された単語と一緒に使用される単語であり、選択された単語と表示された単語との関係はあいまいである。この結果、利用者はこの「関連度ランキングウィンドウ」によるリストの表示だけでは必要な情報を的確に抽出し難い。
上記の課題を解決するために、本願発明は、利用者により予め指定されたカテゴリに基づいて第1のメモリから指定されたカテゴリに属する単語、単語の出現頻度及び単語の出現位置406からなる単語情報を抽出する第1の単語頻度算出手段と、第2のメモリから各レコードID及び各レコードIDに対応し利用者により予め指定された属性に属する属性値からなる属性情報を抽出し、指定された属性毎に各属性値の出現頻度を算出する第1の属性値頻度算出手段と、第1の単語頻度算出手段により得たカテゴリ毎の単語及び単語毎の出現頻度と、第1の属性値頻度算出手段により得た属性毎の属性値及び属性値毎の出現頻度と、を一覧表示する第1の一覧表示手段と、利用者に対して一覧表示された単語の選択を促し、利用者に単語を選択させる選択指示手段と、選択された単語の出現位置406から得られる文番号と選択された単語が属するカテゴリ以外の各カテゴリに属する各単語の出現位置406から得られる文番号とから、各カテゴリに属する各単語が選択された単語と同一文に出現する頻度を算出する第2の単語頻度算出手段と、選択された単語の出現位置406から得られるレコードIDと各属性値のレコードIDとから、各属性における各属性値が選択された単語と同一レコードに出現する頻度を算出する第2の属性値頻度算出手段と、第2の単語頻度算出手段により得たカテゴリ毎の単語及びこの単語別の出現頻度と、第2の属性値頻度算出手段により得た属性値及びこの属性値別の出現頻度と、を一覧表示する第2の一覧表示手段と、を備えたものである。
本願発明は、利用者により予め指定されたカテゴリに基づいて第1のメモリから指定されたカテゴリに属する単語、単語の出現頻度及び単語の出現位置406からなる単語情報を抽出する第1の単語頻度算出手段と、第2のメモリから各レコードID及び各レコードIDに対応し利用者により予め指定された属性に属する属性値からなる属性情報を抽出し、指定された属性毎に各属性値の出現頻度を算出する第1の属性値頻度算出手段と、第1の単語頻度算出手段により得たカテゴリ毎の単語及び単語毎の出現頻度と、第1の属性値頻度算出手段により得た属性毎の属性値及び属性値毎の出現頻度と、を一覧表示する第1の一覧表示手段と、利用者に対して一覧表示された単語の選択を促し、利用者に単語を選択させる選択指示手段と、選択された単語の出現位置406から得られる文番号と選択された単語が属するカテゴリ以外の各カテゴリに属する各単語の出現位置406から得られる文番号とから、各カテゴリに属する各単語が選択された単語と同一文に出現する頻度を算出する第2の単語頻度算出手段と、選択された単語の出現位置406から得られるレコードIDと各属性値のレコードIDとから、各属性における各属性値が選択された単語と同一レコードに出現する頻度を算出する第2の属性値頻度算出手段と、第2の単語頻度算出手段により得たカテゴリ毎の単語及びこの単語別の出現頻度と、第2の属性値頻度算出手段により得た属性値及びこの属性値別の出現頻度と、を一覧表示する第2の一覧表示手段と、を備えているので、利用者(図示せず)は、選択した単語と予め指定したカテゴリの単語又は属性の属性値との関係を概観することができる。そしてその関係を概観しながら関係が維持された更なる絞込みが容易にでき、絞り込んだ結果を一覧表示することができる。これにより利用者は必要としている情報を的確に抽出することができる。
実施の形態1.
図1は、本実施の形態におけるテキストマイニング装置及びその周辺の構成図である。
分析対象テキスト100は、テキストマイ二ングの分析対象となるテキストである。テキストとして、例えば、図2に示すCSV(Comma Separated Value)形式のファイルを使用したコールセンターの問合せ対応ログがある。図2において、201は、各レコードに一意に付与されるレコードIDである。ここでレコードとはCSV形式で登録する場合には登録データ中の各行に相当する。202は属性情報であり、後述する登録手段101により属性データベース103に格納される。203は1つ又は複数の文からなるテキスト情報であり、登録手段101により単語に分割され、各単語は、後述するカテゴリ辞書114を参照してカテゴリ情報とともに単語DB102に格納される。
カテゴリ辞書114は、図3に示すように、予め各単語とこの単語が属するカテゴリとを対応付けている辞書である。例えば、単語「出力端子」は、カテゴリ「部品」に対応付けられる。
登録手段101は各レコードを解析し、テキスト情報203から、単語に関する情報(以下、単語情報)を後述する単語DB102に格納する。また、属性に関する情報(以下、属性情報)を後述する属性データベース103に格納する。
単語DB102は、図4に示すように、分析対象テキスト100から抽出した単語403、各単語403を識別するために単語に対応した単語ID402、単語が出現するレコード数を示す出現頻度405、テキスト情報203内で単語が出現する位置を示す出現位置406及びカテゴリ情報408を項目としてもつ。なお、出現位置406については後述する。
属性データベース103は、図5に示すように、分析対象テキスト100から抽出した属性を項目としてもつ。コールセンターの問合せ対応ログを分析対象テキスト100とした場合には、属性は「機種」、「故障種別」、「故障発生日」、「発売日」等が該当する。なお、各レコードID201と各属性とに対応する内容を属性値501とする。
単語情報抽出手段104は、単語DBから単語情報を全て抽出し、第1のメモリ106に格納する。また、属性情報抽出手段105は、属性DBから属性情報を全て抽出し第2のメモリ107に格納する。
第1の単語頻度算出手段108は、第1のメモリ106に記憶された単語情報から、予め利用者が指定したカテゴリ(例えば、「部品」、「現象」及び「対応」)に属する各単語の出現頻度をカテゴリ毎に算出する。第1の属性値頻度算出手段109は、第2のメモリ107に記憶された属性情報から、予め利用者が指定した属性(例えば、「機種」)に属する各属性値の出現頻度を算出する。なお、利用者は、予めカテゴリ及び属性についてあわせて2以上を指定する必要がある。
第1の一覧表示手段110は、図6に示すように、第1の単語頻度算出手段108が出力した各カテゴリ、この各カテゴリにおける単語及びこの単語の出現頻度、第1の属性値頻度算出手段109が出力した各属性、この各属性における属性値及びこの属性値の出現頻度を1つのウィンドウで一覧表示する。
選択指示手段111は、第1の一覧表示手段110を概観した利用者(図示せず)が興味を示す単語又は属性値を選択するように促す。これにより、図7に示すように、例えば、利用者はマウス(図示せず)で、カテゴリ「部品」の単語「入力端子」を選択する。
第2の単語頻度算出手段112は、選択指示手段111により(i)単語が選択された場合には、テキスト情報203にある文のうち選択された単語が存在する文(図2参照)にある他の単語の出現頻度を算出し、(ii)属性値が選択された場合には、選択された属性値が存在するレコード(図2参照)にある単語の出現頻度を算出する。
第1の属性値頻度算出手段113は、選択指示手段111により(i)単語が選択された場合には、その単語が存在するレコード(図2参照)にある属性値の出現頻度を算出し、(ii)属性値が選択された場合には、選択された属性値が存在するレコード(図2参照)にある他の属性値の出現頻度を算出する。
第2の一覧表示手段110は、図8が示すように、第2の単語頻度算出手段112が出力した各カテゴリ、この各カテゴリに属する単語及びその単語の出現頻度、第2の属性値頻度算出手段113が出力した各属性、この各属性における属性値及びその属性値の出現頻度を1つのウィンドウで一覧表示する。
図8は、分析処理の概要を示す処理フローである。以下、他の図を適宜参照しながらテキストマイニング装置の動作について説明する。なお、本実施の形態では、このテキストマイニング装置を利用してパソコン周辺機器に関する故障調査報告書からクレーム分析をする場合について説明する。
S1において、登録手段101は分析対象テキスト100を読み込み、各レコードのテキスト情報、例えば「問合わせ内容」を解析し、「問合わせ内容」に記載された文を単語に分割する。この単語をカテゴリ辞書114(図3参照)を参考に単語毎にカテゴリを決定し単語DB102に格納する(図4参照)。また、各レコードの属性を属性データベース103に格納する(図5参照)。
図4を用いて単語データベース(以下、単語DB)102に格納する単語情報の例を示す。単語ID402は、単語ごとに一意に付与される番号である。例えば、単語ID「1」には単語「○○装置」が割り振られる。単語403は分析対象データから抽出された単語である。出現頻度405は各単語が出現する回数(単語の出現頻度)である。「○○装置」の場合には、123回出現していることを示す。出現位置406は各単語の出現する位置を表示する。ここではR及びRに続く数値をレコードIDとし、R、Rに続く数値及びその後ろに続く番号を文番号とする。例えば単語「○○装置」の「R1_1」と「R5_2」は、レコード1の1文目、レコード5の2文目の単語として表現する。
図5に属性データベース103に格納する属性情報の例を示す。レコードID201はレコードごとに一意に付与される番号である。属性項目500は、各レコードに関する属性の項目である。例えば「機種」「故障種別」「故障発生日」「販売日」などがある。属性値501は、各属性の値を表示する。
S2において、単語情報抽出手段104により、単語DB102に格納されている単語情報を第1のメモリに格納する。また、属性情報抽出手段105により、属性DB103に格納されている属性情報を第2のメモリに格納する。
S3において、第1のメモリ106から利用者により予め指定されたカテゴリ毎に単語、この単語の出現頻度及びこの単語の出現位置を抽出する。本実施の形態では、利用者は予めカテゴリを「部品」「現象」「対応」と指定しているとする。利用者がカテゴリ「部品」と指定しているので、カテゴリ「部品」で「出力端子」が205回、「入力端子」が80回、「スイッチ」が75回出現していると算出する。この作業がカテゴリ「現象」「対応」でも同様に行われる。
S4において、第2のメモリ107から、レコードID201、利用者により予め指定された属性、この指定された属性毎の属性値及びその属性値の出現頻度を算出する。本実施の形態では、利用者は予め属性「機種」を指定しているとする。利用者が属性「機種」と指定しているので「DVD−RW」が183個のレコードで、「DVD−ROM」が93個のレコードで、「DVD−RAM」が65個のレコードで出現していると算出する。
S5において、第1の一覧表示手段110により初期画面生成処理を行う。初期画面生成処理は、第1の単語頻度算出手段108により算出されたデータ(カテゴリ毎の単語及びこの単語毎の出現頻度)及び第1の属性値頻度算出手段109により算出されたデータ(属性毎の属性値及びこの属性値毎の出現頻度)に基づいて、このデータを一覧表示する。図6に初期画面の表示例を示す。絞込みボタン502は、絞込み処理の実行を指示する絞込み実行ボタンである。503、504、及び505はカテゴリ別に算出された単語の出現頻度を表示するカテゴリ別単語頻度表示欄であり、506は、属性別に算出された属性の出現頻度を表示する属性別属性値表示手段である。上記一覧表示をみて、利用者(図示せず)は、一覧表示から単語を選択する。本実施の形態においては、503にカテゴリ「部品」に属する単語及びその出現頻度、504にカテゴリ「現象」に属する単語及びその出現頻度、505にカテゴリ「対応」に属する単語及びその出現頻度が表示される。506には属性「機種」に属する属性値及びその出現頻度が表示される。なお、S5の段階では、「機種」、「部品」、「現象」及び「対応」間において出現頻度に相関はない。
S6において、利用者が選択指示手段103により単語又は属性値を選択することにより絞込み条件を設定する。図7では初期画面の図6に対して絞込みの指定をした例を示す。本実施の形態では、カテゴリ「部品」の単語「入力端子」を絞込み条件とする。
S7において、第2の単語頻度算出手段112により、上記S6において選択された単語が出現する文の文番号を出現位置406から抽出する。さらに、この文番号をもつ単語を第1のメモリ106から抽出し、カテゴリ毎に単語別の出現頻度を計算する。具体的には、出現位置406から、単語「入力端子」の文番号(R15_1、R18_2)を取得する。この文番号をもつ別の単語、例えばカテゴリ「現象」では、単語「接続不良」(R18_2をもつ)、カテゴリ「対応」では、単語「交換」(R15_1をもつ)を抽出してその出現頻度を計算する。
S8において、上記S6において選択された単語の出現位置406をもとに、第2の属性値頻度算出手段113により、選択された単語がテキスト情報203に出現するレコードのレコードIDを抽出する。さらに、このレコードIDに対応し、属性が「機種」である属性値を第2のメモリから抽出し、その属性値の出現頻度を計算する。具体的には、出現位置406から、「入力端子」の出現位置406を取得し、レコードID(この場合、R15、R18)を取得する。そのレコードIDに対応して属性が「機種」である属性値を第2のメモリ107から取得して、その出現頻度を計算する。
S9において、第2の一覧表示手段114により、上記S7において算出されたデータ、及び上記S8において算出されたデータを1つのウィンドウで一覧表示する。絞込み実行結果の一例として、図7の絞込み条件を指定した場合の絞込み結果を に示す。
この一覧表示の例から、「入力端子」に関しては、カテゴリ「現象」として「接触不良」が大部分であり、カテゴリ「対応」として「交換」が大部分であることがわかる。また、「入力端子」に関する属性「機種」として「DVD-ROM」に多いことがわかる。
更に、利用者(図示せず)が、絞込みが足りないと感じた場合には、S6に戻り、例えば、カテゴリ「現象」のうち、単語「接触不良」を更に選択する。これにより例えば「入力端子に接触不良」がある場合のカテゴリ「対応」における単語及び属性「機種」における属性値の出現頻度がわかる。以下、カテゴリ「現象」の単語「接触不良」を更に選択した場合について説明する。
S6−2において、利用者が選択指示手段103により単語又は属性値を更に選択して絞込み条件を設定する。図10が示すように、本実施の形態では、すでに選択してあるカテゴリ「部品」の単語「入力端子」に加えて、カテゴリ「現象」の単語「接触不良」を絞り込み条件とする。
S7−2において、この指定された絞込み条件に合致するデータを、第1のメモリから抽出する。単語「入力端子」及び単語「接触不良」の出現位置406をもとにその文番号の積集合を計算する。この積集合から、「入力端子」及び「接触不良」に共通する文番号をもつ単語の単語情報を第1のメモリから抽出する。例えば、「入力端子」の文番号(R15_1、R18_2)及び「接触不良」の文番号(R14_1、R18_2)に共通する文番号(R18_2)をもつ別の単語、たとえば「交換」(R18_2をもつ)を抽出し、その単語の出現頻度を計算する。
S8−2において、この指定された絞込み条件に合致するデータを、第2のメモリから抽出する。「入力端子」及び「接触不良」のレコードIDの積集合を計算する。この積集合から、「入力端子」及び「接触不良」に共通するレコードIDをもつ属性値で属性「機種」に属する属性値の出現頻度を第2のメモリから抽出する。例えば、「入力端子」のレコードID(R15、R18)及び「接触不良」のレコードID(R14、R18)に共通するレコードID(R18)をもち、かつ属性「機種」の属性値、たとえば「DVD-RAM」(R18をもつ)を抽出し、その属性値の出現頻度を計算する。
S9−2において、第2の一覧表示手段114により、上記S7-2において計算したカテゴリ別の各単語の出現頻度、及び上記S8-2において計算した属性値の出現頻度を1つのウィンドウで一覧表示する。図11では、図10で絞込み条件として指定した単語「入力端子」及び単語「接触不良」が出現する同一の文の単語の出現頻度を予め指定したカテゴリ別に表示する。また単語「入力端子」及び単語「接触不良」が出現する同一のレコードの属性値の出現頻度を予め指定した属性別に表示する。この一覧表示から単語「入力端子」と単語「接触不良」とに関しては、カテゴリ「対応」の表示により単語「対処方法説明」が大部分であることがわかる。また、単語「入力端子」の単語「接触不良」に関するクレームは機種「DVD-RW」に多いこともわかる。更に、利用者が絞込みが足りないと感じた場合にはS6に戻る。以下説明を省略する。
以上に説明したように、本発明によれば、分析対象テキストから抽出した単語又は属性値を2以上に分類して一覧表示をすることができ、利用者はこの2以上の関係を概観することができる。また、一覧表示と絞込み指定とが連動しているため、一覧表示を概観しながらその関係を維持した更なる絞込みが容易にでき、更にその絞り込んだ結果を一覧表示することがでる。この結果、データ分析が容易になる。
なお、本実施の形態では、例えば、故障管理システムの故障対応記録などRDB(relational database)に蓄えられた情報を上記CSV形式に相当する内部データ形式に変換して分析対象テキストとしてもよい。
また、図4に示した単語DBはあくまでも一例であり、分析目的に応じて必要な項目を適宜設定することができる。
また、図5に示した属性データベースはあくまでも一例であり、分析目的に応じて必要な項目を適宜設定することができる。
また、図6に示した一覧表示はあくまでも一例であり、カテゴリ別単語頻度表示欄が3種類に限られず、2でも4種類以上のカテゴリ別一覧表示を行う場合もある。また、属性値一覧についても2種類以上の一覧表示を行う場合もある。また図12に示すように、各カテゴリ及び属性を選択メニュー121により選択表示するよう構成すれば、多数のカテゴリ又は属性から自由に選択して表示することができ、より柔軟な分析作業が可能となる。
また、図7では各カテゴリから一つの単語を選択して絞込み条件とする例を示したが、図12のカテゴリ「部品」で示すように同じカテゴリで複数の単語を選択できるように構成してもよい。
また、図13に示すように、複数カテゴリ間の検索条件をAND検索、OR検索するという指定をできる。さらに、図13に示すように、各カテゴリ内で複数の単語を指定した場合に、これらの単語に対する検索条件をAND検索、OR検索できる。このように、細かな検索条件の指定を可能とすることにより複雑な検索条件を指定できより詳細な分析作業を行うことができる。
実施の形態2.
実施の形態1では、分析対象テキストから抽出した単語及び属性値を2以上に分類して一覧表示するものであるが、本実施の形態は、テキストから抽出した複合語をグループ化して一覧表示するものである。
図14は、本実施の形態におけるテキストマイニング装置及びその周辺の構成図である。図15は本実施の形態における分析処理の処理フローである。
図14に示す複合語グループ化手段200は、単語が複合語からなる場合に、複合語の構成要素に基づいてグループ化する。複合語一覧表示手段201は、複合語グループ化手段200によりグループ化された内容を一覧表示する。
以下、本実施の形態におけるテキストマイニング装置の動作について図15を用いて説明する。なお実施の形態1と共通する部分については説明を省略する。
S3、S7において、複合語グループ化手段200により、第1の単語頻度算出手段108、第2の単語頻度算出手段112の結果から、単語が複合語であるデータに関しその複合語の構成要素となる単語を基準にグループ化する。
具体的には、図16に示すように、「出力端子」、「デジタルオーディオ出力端子」、「AV出力端子」など、末端部分を共通(この場合は「端子」)とする複合語群をグループ化する。また、「出力端子不良」、「AV出力端子接触不良」など、機器を表す用語(この場合は「出力端子」、「AV出力端子」)と現象を表す用語(この場合は「不良」、「接触不良」)が組み合わされた複合語については、機器を表す部分の末端を考慮してグループ化する。グループ化では、共通の末端文字列を親見出として、グループ化前の各語を子見出とする。なお、親見出の出現頻度は子見出の出現頻度の合計値とする。
S5、S9において、複合語一覧表示手段201によりグループ化された複合語の出現頻度を一覧表示する。一覧表示の例を図17に示す。子見出有無表示欄507は、グループ化の結果、親見出か否かを示す。この欄が"+"であれば子見出があり、"="であれば子見出がない。子見出表示切替ボタン502は、図17の「出力端子」を選択し、このボタンを押下すると図18に示したように「出力端子」の子見出が表示される。なお、子見出であることを示すため、"−"を使用する。逆に、図18の状態で「出力端子」を選択して子見出表示切替ボタン502を押すと図17の表示に切替わる。さらに、親見出を選択して絞込み指示ボタンを押した場合には、子見出がすべて選択された状態で絞込みを実行するのと同様の処理を行う。
このように複合語をグループ化して親見出で一覧表示して絞込み指示を可能とし、多数の類似単語をすべて選択することなく絞込み指示ができる。このことにより分析作業を効率的に進めることができる。
実施の形態3
実施の形態1では、分析対象テキストから抽出した単語又は属性値を2以上に分類して一覧表示をするが、本実施の形態では、一覧表示手段により属性値の比率を表示する。
図19は、本実施の形態におけるテキストマイニング装置及びその周辺の構成図である。図20は本実施の形態における分析処理の処理フローである。
図19に示すように、属性値比率計算手段300は、S7において抽出された属性値の出現頻度をもとに属性値の比率を計算する。属性値の比率は、全データにおける該当属性値件数を分母とし、S6において指定された絞込み条件に合致する属性値件数を分子とする。属性値比率一覧表示301は、属性値比率計算手段300により計算されたカテゴリ別の属性値の出現頻度比率を一覧表示する。
以下、本実施の形態におけるテキストマイニング装置の動作について図20を用いて説明する。なお実施の形態1、2と共通する部分については説明を省略する。
S7において、実施の形態1と同様にして利用者の絞込み条件指定に応じたカテゴリ別の単語頻度算出を行う。つぎに、属性値比率計算手段300により、全データにおける該当属性値の件数を分母とし、指定された絞込み条件に合致する属性値の件数を分子として計算する。
S9において、属性値比率計算手段300において計算された属性値の比率情報を属性値比率一覧表示手段301により一覧表示する。属性値比率一覧表示の例を図21に示す。
実施の形態1における図9では、"DVD-RW"と"DVD-RAM"とがそれぞれ15件及び12件で大差ないように表示される。一方、図21では、比率で"DVD-RAM"の値が大きいことがわかる。このように比率表示することにより、絶対的な件数が少なくとも該当属性値内の比率が大きい場合の傾向をとらえることができ、分析作業を効果的に進めることができる。なお、図21では比率表示のみを行う例を示したが、頻度と比率とを同時に表示できる。また、頻度と比率を切替て表示でき、本発明の効果をより顕著にすることができる。
実施の形態4.
実施の形態1では、分析対象テキストから抽出した単語又は属性値を2以上に分類して一覧表示するものであるが、本実施の形態は、選択した単語及び属性値の出現頻度をグラフ表示することで可視化する。
図22は、本実施の形態におけるテキストマイニング装置及びその周辺の構成図である。
図22にある可視化手段400は、第1の単語頻度算出手段108、第1の属性値頻度算出手段109により算出されたデータをグラフ等により可視化処理する。
以下、本実施の形態におけるテキストマイニング装置の動作について図23を用いて説明する。なお実施の形態1、2及び3と共通する部分については説明を省略する。
S9では、例えば、利用者に可視化ボタン(図示せず)が押下させて可視化処理を行う。本実施の形態においては、カテゴリ「部品」から「出力端子」、「入力端子」及び「スイッチ」を選択し、属性「機種」から属性値として「DVD-RW」「DVD-ROM」及び「DVD-RAM」を選択し、可視化ボタン(図示せず)を押下する。可視化は、図24に示すように属性値別に各単語を含むクレーム件数をグラフ表示する場合がある。このようにグラフ表示することにより、属性「機種」ごとのクレーム傾向をより明確に把握することができる。
以上説明したように、選択した単語と属性値との関係を簡単にグラフ表示することで可視化でき、部品ごとのクレーム傾向をより明確に把握することができる。
なお、上記では、単一のカテゴリから複数の単語を選択した例を示したが、これ以外にも、複数のカテゴリからそれぞれ複数の単語を選択し、その組合せにより描画する図25のような構成をとってもよいし、複数の属性を選択して、属性間の相関を把握できるよう構成してもよい。
実施の形態1におけるテキストマイニング装置及びその周辺の構成図 分析対象テキストの概念図 カテゴリ辞書の概念図 単語DBの概念図 属性データベースの概念図 第1の一覧表示手段の概念図 単語「入力端子」を選択した場合の第1の一覧表示手段の概念図 実施の形態1におけるテキストマイニング装置の処理フロー 単語「入力端子」を選択した場合の第2の一覧表示手段の概念図 単語「入力端子」及び単語「接触不良」を選択した場合の一覧表示手段の概念図 単語「入力端子」及び単語「接触不良」で絞り込んだ場合の一覧表示手段の概念図 単語「入力端子」及び単語「スイッチ」を選択した場合の一覧表示手段の概念図 単語間、カテゴリ・属性間でAND・ORが選択できる一覧表示手段の概念図 実施の形態2におけるテキストマイニング装置及びその周辺の構成図 実施の形態2におけるテキストマイニング装置の処理フロー 複合化グループ手段の概念図 複合語一覧表示手段を利用した場合の一覧表示手段の概念図 複合語一覧表示手段を利用した場合の一覧表示手段の概念図 実施の形態3におけるテキストマイニング装置及びその周辺の構成図 実施の形態3におけるテキストマイニング装置の処理フロー 属性比率計算手段を利用した場合の一覧表示の概念図 実施の形態4におけるテキストマイニング装置及びその周辺の構成図 実施の形態4におけるテキストマイニング装置の処理フロー 可視化手段による表示の概念図 可視化手段による表示の概念図
符号の説明
100 分析対象テキスト
101 登録手段
102 単語DB
103 属性データベース
104 単語情報抽出手段
105 属性情報抽出手段
106 第1のメモリ
107 第2のメモリ
108 第1の単語頻度算出手段
109 第1の属性値度算出手段
110 一覧表示手段
111 選択指示手段
112 第2の単語頻度算出手段
113 第2の属性値頻度算出手段
114 カテゴリ辞書
200 複合語グループ化手段
201 複合語一覧表示手段
300 属性値比率計算手段
301 属性値比率一覧表示手段
400 可視化手段

Claims (7)

  1. 利用者により予め指定されたカテゴリに基づいて第1のメモリからこの指定されたカテゴリに属する単語、この単語の出現頻度及びこの単語の出現位置からなる単語情報を抽出する第1の単語頻度算出ステップと、
    第2のメモリから各レコードID及びこの各レコードIDに対応し利用者により予め指定された属性に属する属性値からなる属性情報を抽出し、この指定された属性毎に各属性値の出現頻度を算出する第1の属性値頻度算出ステップと、
    上記第1の単語頻度算出ステップにより得たカテゴリ毎の単語及びこの単語毎の出現頻度と、上記第1の属性値頻度算出ステップにより得た属性毎の属性値及びこの属性値毎の出現頻度と、を一覧表示する第1の一覧表示ステップと、
    利用者に対してこの一覧表示された単語の選択を促し、利用者に単語を選択させる選択指示ステップと、
    この選択された単語の出現位置から得られる文番号と選択された単語以外の各単語の出現位置から得られる文番号とから、この各カテゴリに属する各単語が上記選択された単語と同一文に出現する頻度を算出する第2の単語頻度算出ステップと、
    この選択された単語の出現位置から得られるレコードIDと各属性値のレコードIDとから、各属性における各属性値が上記選択された単語と同一レコードに出現する頻度を算出する第2の属性値頻度算出ステップと、
    上記第2の単語頻度算出ステップにより得たカテゴリ毎の単語及びこの単語別の出現頻度と、上記第2の属性値頻度算出ステップにより得た上記属性値及びこの属性値別の出現頻度と、を一覧表示する第2の一覧表示ステップと、
    を備えたテキストマイニング方法。
  2. 利用者により予め指定されたカテゴリに基づいて第1のメモリからこの指定されたカテゴリに属する単語、この単語の出現頻度及びこの単語の出現位置からなる単語情報を抽出する第1の単語頻度算出ステップと、
    第2のメモリから各レコードID及びこの各レコードIDに対応し利用者により予め指定された属性に属する属性値からなる属性情報を抽出し、この指定された属性毎に属性値の出現頻度を算出する第1の属性値頻度算出ステップと、
    上記第1の単語頻度算出ステップにより得たカテゴリ毎の単語及びこの単語毎の出現頻度と、上記第1の属性値頻度算出ステップにより得た属性毎の属性値及びこの属性値毎の出現頻度と、を一覧表示する第1の一覧表示ステップと、
    利用者に対してこの一覧表示された属性値の選択を促し、利用者に属性値を選択させる選択指示ステップと、
    この選択された属性値のレコードIDと各カテゴリにおける各単語の出現位置から得られるレコードIDとに基づいて、各カテゴリにおける各単語が上記選択された属性値と同一のレコードに出現する頻度を算出する第2の単語頻度算出ステップと、
    上記選択された属性値のレコードIDと同一のレコードIDに対応し、かつ上記選択された属性値が属する属性以外の属性における各属性値の出現する頻度を算出する第2の属性値頻度算出ステップと、
    上記第2の単語頻度算出ステップにより得たカテゴリ別の単語及びこの単語別出現頻度と、上記第2の属性値頻度算出ステップにより得た上記属性値及びこの属性値頻度と、を一覧表示する第2の一覧表示ステップと、
    を備えたテキストマイニング方法。
  3. 第2の属性値頻度算出ステップは、
    属性値毎に、予め指定された属性に属する属性値の出現頻度を分母とし、選択指示ステップにより利用者に選択された単語と同一のレコードに出現する属性値の出現頻度を分子として属性値の比率を算出する
    ことを特徴とする請求項1又は2に記載のテキストマイニング方法。
  4. 第1の単語頻度算出ステップは、
    予め指定されたカテゴリに属する単語が複合語である場合には、この複合語の構成要素に基づいてグループ化し、
    第1の一覧表示ステップは、
    グループ化された内容を一覧表示する
    ことを特徴とする請求項1乃至3に記載のテキストマイニング方法。
  5. 第1の一覧表示ステップは、
    第1の単語頻度算出ステップで出力されるカテゴリ毎の単語の出現頻度と、第1の属性値頻度算出ステップで出力される属性毎の属性値の出現頻度と、をグラフ表示する
    ことを特徴とする請求項1乃至4に記載のテキストマイニング方法。
  6. 利用者により予め指定されたカテゴリに基づいて第1のメモリからこの指定されたカテゴリに属する単語、この単語の出現頻度及びこの単語の出現位置からなる単語情報を抽出する第1の単語頻度算出手段と、
    第2のメモリから各レコードID及びこの各レコードIDに対応し利用者により予め指定された属性に属する属性値からなる属性情報を抽出し、この指定された属性毎に各属性値の出現頻度を算出する第1の属性値頻度算出手段と、
    上記第1の単語頻度算出手段により得たカテゴリ毎の単語及びこの単語毎の出現頻度と、上記第1の属性値頻度算出手段により得た属性毎の属性値及びこの属性値毎の出現頻度と、を一覧表示する第1の一覧表示手段と、
    利用者に対してこの一覧表示された単語の選択を促し、利用者に単語を選択させる選択指示手段と、
    この選択された単語の出現位置から得られる文番号と選択された単語以外の各単語の出現位置から得られる文番号とから、この各カテゴリに属する各単語が上記選択された単語と同一文に出現する頻度を算出する第2の単語頻度算出手段と、
    この選択された単語の出現位置から得られるレコードIDと各属性値のレコードIDとから、各属性における各属性値が上記選択された単語と同一レコードに出現する頻度を算出する第2の属性値頻度算出手段と、
    上記第2の単語頻度算出手段により得たカテゴリ毎の単語及びこの単語別の出現頻度と、上記第2の属性値頻度算出手段により得た上記属性値及びこの属性値別の出現頻度と、を一覧表示する第2の一覧表示手段と、
    を備えたテキストマイニング装置。
  7. 利用者により予め指定されたカテゴリに基づいて第1のメモリからこの指定されたカテゴリに属する単語、この単語の出現頻度及びこの単語の出現位置からなる単語情報を抽出する第1の単語頻度算出手段と、
    第2のメモリから各レコードID及びこの各レコードIDに対応し利用者により予め指定された属性に属する属性値からなる属性情報を抽出し、この指定された属性毎に属性値の出現頻度を算出する第1の属性値頻度算出手段と、
    上記第1の単語頻度算出手段により得たカテゴリ毎の単語及びこの単語毎の出現頻度と、上記第1の属性値頻度算出手段により得た属性毎の属性値及びこの属性値毎の出現頻度と、を一覧表示する第1の一覧表示手段と、
    利用者に対してこの一覧表示された属性値の選択を促し、利用者に属性値を選択させる選択指示手段と、
    この選択された属性値のレコードIDと各カテゴリにおける各単語の出現位置から得られるレコードIDとに基づいて、各カテゴリにおける各単語が上記選択された属性値と同一のレコードに出現する頻度を算出する第2の単語頻度算出手段と、
    上記選択された属性値のレコードIDと同一のレコードIDに対応し、かつ上記選択された属性値が属する属性以外の属性における各属性値の出現する頻度を算出する第2の属性値頻度算出手段と、
    上記第2の単語頻度算出手段により得たカテゴリ別の単語及びこの単語別出現頻度と、上記第2の属性値頻度算出手段により得た上記属性値及びこの属性値頻度と、を一覧表示する第2の一覧表示手段と、
    を備えたテキストマイニング装置。
JP2005061292A 2005-03-04 2005-03-04 テキストマイング方法及びテキストマイニング装置 Expired - Fee Related JP4595590B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005061292A JP4595590B2 (ja) 2005-03-04 2005-03-04 テキストマイング方法及びテキストマイニング装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005061292A JP4595590B2 (ja) 2005-03-04 2005-03-04 テキストマイング方法及びテキストマイニング装置

Publications (2)

Publication Number Publication Date
JP2006244298A true JP2006244298A (ja) 2006-09-14
JP4595590B2 JP4595590B2 (ja) 2010-12-08

Family

ID=37050638

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005061292A Expired - Fee Related JP4595590B2 (ja) 2005-03-04 2005-03-04 テキストマイング方法及びテキストマイニング装置

Country Status (1)

Country Link
JP (1) JP4595590B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008062822A1 (fr) * 2006-11-22 2008-05-29 Nec Corporation Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte
JP2009069874A (ja) * 2007-09-10 2009-04-02 Sharp Corp コンテンツ検索装置、コンテンツ検索方法、プログラム、および記録媒体
US10289674B2 (en) 2014-10-30 2019-05-14 International Business Machines Corporation Generation apparatus, generation method, and program
JP2019185491A (ja) * 2018-04-12 2019-10-24 富士通株式会社 特定プログラム、生成プログラム、特定方法、生成方法および情報処理装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001052013A (ja) * 1999-08-06 2001-02-23 Ricoh Co Ltd 文書処理装置、文書処理方法および文書処理プログラムを記録した媒体
JP2002041547A (ja) * 2000-07-27 2002-02-08 Ricoh Co Ltd 情報分析支援装置、システム、方法及び情報分析支援を実行するための記録媒体
JP2004246491A (ja) * 2003-02-12 2004-09-02 Mitsubishi Electric Corp テキストマイニング装置及びテキストマイニングプログラム
JP2004334761A (ja) * 2003-05-12 2004-11-25 Mitsubishi Electric Corp 自由意見分析システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001052013A (ja) * 1999-08-06 2001-02-23 Ricoh Co Ltd 文書処理装置、文書処理方法および文書処理プログラムを記録した媒体
JP2002041547A (ja) * 2000-07-27 2002-02-08 Ricoh Co Ltd 情報分析支援装置、システム、方法及び情報分析支援を実行するための記録媒体
JP2004246491A (ja) * 2003-02-12 2004-09-02 Mitsubishi Electric Corp テキストマイニング装置及びテキストマイニングプログラム
JP2004334761A (ja) * 2003-05-12 2004-11-25 Mitsubishi Electric Corp 自由意見分析システム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008062822A1 (fr) * 2006-11-22 2008-05-29 Nec Corporation Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte
JP2009069874A (ja) * 2007-09-10 2009-04-02 Sharp Corp コンテンツ検索装置、コンテンツ検索方法、プログラム、および記録媒体
US10289674B2 (en) 2014-10-30 2019-05-14 International Business Machines Corporation Generation apparatus, generation method, and program
US10296579B2 (en) 2014-10-30 2019-05-21 International Business Machines Corporation Generation apparatus, generation method, and program
JP2019185491A (ja) * 2018-04-12 2019-10-24 富士通株式会社 特定プログラム、生成プログラム、特定方法、生成方法および情報処理装置
JP2022095952A (ja) * 2018-04-12 2022-06-28 富士通株式会社 生成プログラム、生成方法および情報処理装置
JP7135399B2 (ja) 2018-04-12 2022-09-13 富士通株式会社 特定プログラム、特定方法および情報処理装置
JP7351372B2 (ja) 2018-04-12 2023-09-27 富士通株式会社 生成プログラム、生成方法および情報処理装置

Also Published As

Publication number Publication date
JP4595590B2 (ja) 2010-12-08

Similar Documents

Publication Publication Date Title
US6915308B1 (en) Method and apparatus for information mining and filtering
US8578328B2 (en) Method for presenting candidate for link target to component in web application, as well as computer program and computer system for the same
US9881064B2 (en) Systems and methods for using graphical representations to manage query results
US10120654B2 (en) Domain specific language design
US9092411B2 (en) Understanding data in data sets
US11550853B2 (en) Using natural language expressions to define data visualization calculations that span across multiple rows of data from a database
JP4595590B2 (ja) テキストマイング方法及びテキストマイニング装置
JP2007304796A (ja) データベース解析システム及びデータベース解析方法及びプログラム
JP2004021445A (ja) テキストデータ分析システム、テキストデータ分析方法およびコンピュータプログラム
Castellani Ribeiro et al. An urban data profiler
US20090228794A1 (en) Business specification comprehension assistance system and method
JP5096850B2 (ja) 検索結果表示方法、検索結果表示プログラムおよび検索結果表示装置
JP2013182289A (ja) 回路設計支援装置、回路設計支援方法、及び回路設計支援用プログラム
JP2005165754A (ja) テキストマイニング分析装置、テキストマイニング分析方法、及びテキストマイニング分析プログラム
JP2006023968A (ja) 固有表現抽出方法および装置並びにそれらに用いるプログラム
KR20190043965A (ko) 검색 필드 설정을 위한 시각적 ui 제공 시스템 및 방법과 이를 저장한 기록매체
JP2006018596A (ja) データ階層表示装置およびデータ階層表示プログラム
KR100718745B1 (ko) 텍스트 마이닝을 이용한 특허 검색 시스템 및 그 방법
JP2020057272A (ja) ワークショップ支援システム及びワークショップ支援方法
JP2019053763A (ja) テキスト可視化システム、テキスト可視化方法、及び、プログラム
EP4361840A1 (en) Process mining repository for analyzing process data
US20220156253A1 (en) Compact display of matching results
JP5083627B2 (ja) 少数意見抽出装置
JP2007072961A (ja) データベース検索方法、プログラム及び装置
US11281676B2 (en) Time-based display of search results

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100804

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100824

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100906

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131001

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees