JP2006171931A - テキストマイニング装置およびテキストマイニングプログラム - Google Patents

テキストマイニング装置およびテキストマイニングプログラム Download PDF

Info

Publication number
JP2006171931A
JP2006171931A JP2004360803A JP2004360803A JP2006171931A JP 2006171931 A JP2006171931 A JP 2006171931A JP 2004360803 A JP2004360803 A JP 2004360803A JP 2004360803 A JP2004360803 A JP 2004360803A JP 2006171931 A JP2006171931 A JP 2006171931A
Authority
JP
Japan
Prior art keywords
word
attribute
feature
analysis
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004360803A
Other languages
English (en)
Inventor
Takeyuki Aikawa
勇之 相川
Akito Nagai
明人 永井
Yasuhiro Takayama
泰博 高山
Makoto Imamura
誠 今村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2004360803A priority Critical patent/JP2006171931A/ja
Publication of JP2006171931A publication Critical patent/JP2006171931A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】従来は、ユーザが分析精度を考慮した分析軸を指定しなくては適切な分析結果が得られず、操作が煩わしい。また、抽出される特徴語は月毎などの各属性値に対応付けられているため、属性値間の全体傾向を考慮した特徴語が抽出できない。
【解決手段】登録手段で、分析対象文書から各テキストの単語、及び各テキストの属性値を抽出して単語データベースと属性データベースに登録し、分析軸候補抽出手段で、分析のための分析軸候補となる単語を上記単語データベースと属性データベースから属性別に抽出し、分析軸候補抽出手段により抽出された単語の各属性値毎の出現頻度を集計手段で集計し、集計した出現頻度を視認し易いように表示するとともに、必要に応じて上記分析軸候補抽出手段により抽出された単語の出現傾向のうち特徴的な部分の表示態様を他の単語の表示態様と変えて表示する傾向表示手段とを備える。
【選択図】図1

Description

本発明は、製品企画や品質管理などの業務で必要とされる重要な情報を蓄積された大量のテキストから抽出して、業務改善のために活用することを可能とするテキストマイニング技術に関するものである。
文書の電子化が進み、短時間で必要な情報を取得するための検索装置の重要性が増している。このような検索装置のうち、入力文書とは異なる表現であっても類似する内容をもつ文書を検索可能なテキストマイニング装置として、文献1(特開2003-141134号公報 テキストマイニング処理方法およびその実施装置)がある。上記の文献1により開示されたテキストマイニング方式について図30により説明する。
101は登録手段であり、分析対象文書110に含まれるテキストを解析し、単語に分割し、その統計情報を単語データベース111に格納する。また、各分析対象文書110に関連づけられた属性(故障データ分析の場合は機種名、故障種別、故障発生日など)を属性データベース112に格納する。102は入力手段であり、ユーザが分析対象とする軸(属性名)を指定する。2703は特徴語抽出手段であり、上記単語データベース中の統計情報を用いて、上記入力手段102で指定した分析軸において特徴的な語をキーワードとして抽出する。104は集計手段であり、上記抽出されたキーワードと属性データベース112中の属性値との関係を集計する。2705はキーワード表示手段であり、集計情報に基づいて各属性値毎に特徴的なキーワードを表示する。このようなテキストマイニング装置により、例えば、新聞記事などを対象として、食中毒に関する話題が経時的にどのように推移しているかなどの分析支援が可能である(文献1)。
特開2003-141134号公報
しかし、文献1で開示された技術には、ユーザが何らかの分析軸を指定したうえで分析粒度を考慮した指定をしなくては適切な分析結果が得られないため、操作が煩わしいという課題がある。また、抽出される特徴語は月毎などの各属性値に対応付けられているため、属性値間の全体傾向を考慮した特徴語が抽出できないという課題がある。
本発明は上記課題を鑑みてなされたものであり、属性別特徴語抽出手段で特徴語を自動抽出して集計することにより、自動的に傾向分析を行いユーザの手間を軽減する。
また、数値属性別特徴語抽出手段で特徴語を自動抽出して集計することにより、故障発生の傾向分析など件数の増減に着目した分析を容易にする。
さらに、特徴語抽出時に計算する特徴度に応じて表示の態様を変えることにより、注目すべき単語や属性値の認識を容易にして分析作業を円滑に進めることができる。
本発明に係るテキストマイニング装置は、
分析対象文書から、各テキストの単語、及び各テキストの属性値を抽出して単語データベースと属性データベースに登録する登録手段と、
対象文書を分析するための分析軸候補となる単語を上記単語データベースと属性データベースから属性別に抽出する分析軸候補抽出手段と、
分析軸候補抽出手段により抽出された単語の各属性値毎の出現頻度を集計する集計手段と、
上記集計した出現頻度を視認し易いように表示するとともに、必要に応じて上記分析軸候補抽出手段により抽出された単語の出現傾向のうち特徴的な部分の表示態様を他の単語の表示態様と変えて表示する傾向表示手段とを備える。
また、本発明に係るテキストマイニングプログラムは、
分析対象文書から、各テキストの単語、及び各テキストの属性値を抽出して単語データベースと属性データベースに登録する登録手順と、
対象文書を分析するための分析軸候補となる単語を上記単語データベースと属性データベースから属性別に抽出する分析軸候補抽出手順と、
分析軸候補抽出手段により抽出された単語の各属性値毎の出現頻度を集計する集計手順と、
上記集計した出現頻度を視認し易いように表示するとともに、必要に応じて上記分析軸候補抽出手順により抽出された単語の出現傾向のうち特徴的な部分の表示態様を他の単語の表示態様と変えて表示する傾向表示手順とをコンピュータに実行させる。
本発明によれば、属性や単語の指定をせずとも、分析軸候補抽出手段が「出現回数が多い重要な単語」および「ある属性において平均からはずれた出現傾向を示す重要な単語」を自動的に抽出するので、ユーザは分析の際にいちいち単語および属性値を指定する必要がなく、簡単に分析結果を得ることができる、という効果が得られる。
また本発明によれば、傾向表示手段は分析対象文書中に多数出現する等平均からはずれた出現傾向を示す重要な単語を、他の単語の表示態様と変えて表示するので、重要な単語を一目で判別でき、分析作業が容易になるという利点がある。
実施の形態1.
図1に本発明の実施の形態1における構成図を示す。図において、101は登録手段であり、分析対象文書110に含まれるテキストを解析し、その統計情報を単語データベース111に格納する。また、各文書に関連づけられた属性(故障データ分析の場合は機種名、故障種別、故障発生日など)を属性データベース112に格納する。102は入力手段であり、ユーザが分析開始指示および分析結果態様の切り替え指示を入力する。103は分析軸候補抽出手段であり、上記単語データベース111および属性データベース112から得られる統計情報を用いて、属性別に特徴的な語であるキーワードを分析軸候補として抽出する。104は集計手段であり、上記分析軸候補抽出手段103で抽出されたキーワードと属性データベース112中の属性値との関係を集計する。105は傾向表示手段であり、集計手段104での集計情報に基づいて属性毎のキーワードの出現傾向を表示する。
図2は、分析処理の概要を示す処理フローである。以下、図1から図18までを適宜参照しつつ分析処理の概要について説明する。本実施の形態では機器の故障データを分析する場合を例として説明する。まずステップS201において、登録手段101により分析対象文書110を読み込み、含まれるテキストを解析して単語に分割し、その統計情報を単語データベース111に格納する。また、各文書110に関連づけられた属性(故障データ分析の場合は機種名、故障種別、故障発生日など)を属性データベース112に格納する。分析対象文書110の入力形式として、たとえばCSV(Comma Separated Value)形式のファイルを使用する。また、故障データ管理システムなどに含まれるRDB(Relational Data Base)に蓄えられた情報をそのまま入力してもよい。
図3に単語データベース111に格納する単語情報の例を示す。図3に示した単語データベースは、たとえば自由記述欄301に記述する「現象」、「原因」、「処置」などの分析対象項目毎に生成する。ここでは分析対象文書110中の自由記述欄のひとつである「現象」を例として説明する。301は自由記述欄名である。302は単語毎に一意に付与される単語ID(Identification)である。303は単語の見出しである。304は単語の品詞である。305は各単語が出現するレコードの数(単語の出現頻度)である。306は各単語の出現するレコード内の位置である。ここではRに続く数値をレコード番号とし、その後ろに続く番号をレコード内での単語番号とした場合を示している。307は係り受け情報である。ここでは係り側の単語を+に続く出現位置で示し、受け側の単語を-に続く出現位置で示すこととする。なお、図3に示した単語データベースはあくまでも一例であり、分析目的に応じて必要な項目を適宜設定するものとする。
図4に属性データベース112に格納する属性情報の例を示す。401は文書毎に一意に付与されるレコード番号である。402は属性欄の項目名である。ここでは、「機種名」「故障種別」「故障発生日」「納品日」「大分類」などの属性項目が各分析対象データに含まれているものとする。403は属性値である。これらは機器の使用期間や、故障発生時期などの時系列に関する分析を行う際に使用する。なお、図4に示した属性データベース112に格納される属性情報はあくまでも一例であり、分析目的に応じて必要な項目を適宜設定するものとする。
つぎに図2のステップS202において、分析軸候補抽出手段103により。単語データベース111および属性データベース112から得られる統計情報を用いて、属性別に特徴的な語をキーワードとし対象文書を分析するための分析軸候補として抽出する。図5は分析軸抽出手段103の詳細構成図である。また、図6は分析軸候補抽出ステップS202の詳細フロー図である。以下図5から図10を適宜参照しつつ、分析軸候補抽出ステップS202の詳細について説明する。
図5において、501は属性欄を“a”、自由記述欄を“t”としたとき、属性欄“a”および自由記述欄“t”毎に属性値単語共起表M(a,t)を生成する単語属性値共起頻度集計手段、502は属性値単語共起頻度表M(a,t)をもとに各単語の特徴度を計算する属性別単語特徴度計算手段、503は特徴度を用いて特徴語を抽出し、見出し情報または品詞情報を用いて整列する特徴語整列手段である。
図6のステップS601では、図5の単語属性値共起頻度集計手段501が、単語データベース111および属性データベース112を参照して、属性別に特徴的な語をキーワードとし対象文書を分析するための分析軸候補として抽出して、属性欄 “a”および自由記述欄 “t”毎に属性値単語共起表M(a,t)を生成する。図7に属性値単語共起表の例を示す。701は属性欄aの項目名、702は自由記述欄tの項目名であり、この属性値単語共起表M(a,t)が対象とする項目名の組合せを示している。図7には「機種名」欄と「現象」欄との組合せを例として示しているが、他の抽出単語についても、分析対象とする属性欄および自由記述欄の組合せそれぞれについて、図7の例と同様の属性単語共起表を生成する。
図7の302は、図3に示したものと同様で単語kwiに対して一意に付与される単語IDである。自由記述欄702に各単語kwiが出現し、かつ、属性欄701の各属性値703をもつレコードの件数mijを集計し、属性値単語共起表M(a,t)のi行目j列目の要素に単語属性共起件数705として記録する。
続けて図6のステップS602では、図5の属性別単語特徴度計算手段502が、属性値単語共起頻度表M(a,t)をもとに各単語の特徴度を計算する。特徴度は、図8に示す単語頻度ベクトル801および属性値頻度ベクトル802を基に式(A)により計算する。
単語kwiの属性aにおける特徴度E(a, kwi)
= 頻度重みWf(kwi) × 相違重みWd(a,kwi) ・・・・ 式(A)
ただし、下記の定義とする。
頻度重みWf(kwi) = 単語kwiが出現するレコード数 / 総レコード件数
相違重みWd(a,kwi) = log( ||Fw(a,kwi)|| ||Fa(a)|| /
Fw(a,kwi)・Fa(a) )
単語kwiの属性aにおける頻度ベクトル Fw(a,kwi): M(a,t)のi行目のベク
トル(図8の801)
属性aの属性値頻度ベクトルFa(a): M(a,t)の各列の値を合計した値をj番目の
要素とする頻度ベクトル(図8の802)
図9に式(A)により計算した各単語の特徴度計算結果の例を示す。属性名901および自由記述欄名902はこの特徴度の計算対象とする属性欄および自由記述欄の項目名である。後述する傾向表示ステップで多様な表示を可能とするため、特徴度903だけではなく、頻度重みWf(kwi) 904および相違重みWd(a,kwi) 905もあわせて保持するものとする。頻度重みWf(kwi) 904は、数多く使用される単語ほど重要であることを示す尺度であり、相違重みWd(a,kwi) 905は、属性aにおいて平均から外れた傾向を示す単語が重要であることを示す尺度である。
続けて、図6のステップS603では、図5の特徴語整列手段503が、ステップS602で計算した特徴度(図9の903)を用いて特徴語を抽出し、見出し情報303または品詞情報304を用いて整列する。まず、特徴度903の値が所定以上もしくは指定の数だけ特徴度903の値が上位の単語を図9の特徴度計算結果から抽出する。つぎに、抽出した各単語の見出し情報の終端要素である「装置」「ユニット」などの末端の語が同一である語がまとまるように整列する。例えば各単語の文字列を「装置○○」、「装置△△」のようにソートし易いように反転させてソートし、元に戻して文字コード順に整列すると図10の1001のような整列結果となる。
このように整列すると、ある属性に対して特徴をもつ単語群を、それぞれ同じレベルの機器群に分類できる。したがって、各語群毎に後述する傾向表示手段106で各単語の出現傾向を表示することにより、比較する意味のない「○○装置」と「☆☆ユニット」など異なる階層の対象が同一のグラフ内に現れないので、効率よく分析作業を進めることができる。
また、図10の1002に示すように、品詞順に整列することにより、「現象」や「処置」に関わる用語をまとめて分析できるようになり、効率的に分析作業を進めることができる。
上記で説明したように、属性や単語の指定をせずとも、「出現回数が多い重要な単語」および「ある属性において平均からはずれた出現傾向を示す重要な単語」を自動的に抽出するので、ユーザは分析の際にいちいち単語および属性値を指定する必要がなく、簡単に分析結果を得ることができる。
以上で図2の分析軸候補抽出ステップS202の説明を終わり、続けて傾向表示ステップS203について説明する。
図11は傾向表示手段105の詳細構成を示すテキストマイニング装置の構成図である。また、図12は傾向表示ステップS203の詳細フロー図である。
図11において、1101は頻出単語の強調表示を行なう頻出単語強調表示手段、1102は傾向相違単語の強調表示を行なう傾向相違単語強調表示手段、1103は傾向相違点の強調表示を行なう傾向相違点強調表示手段である。
以下図11から図18を適宜参照しつつ、傾向表示ステップS203の詳細について説明する。
まず図12の通常傾向表示ステップS1201では、分析軸候補抽出手段103において抽出された属性毎の特徴語リストについて、集計手段104により単語データベース111および属性データベース112を参照して属性値別の件数を取得し、傾向表示手段105が折れ線グラフ等で視覚的に表示する。図13に通常傾向表示の出力例を示す。傾向表示は、属性と自由記述欄の組み合わせによる複数の結果が自動生成される。
つぎに表示切替指示判定ステップS1202において、傾向表示手段105が入力手段102から入力された表示切替指示を検出する。指示が検出されなければ図13のグラフをそのまま表示して傾向表示ステップを終了する。指示が検出された場合は、指示の内容に応じてステップS1203からステップS1205までのいずれかのステップに進む。
図14に、表示切替指示を行なうための入力画面例を示す。まず強調表示選択ボタン1401において、頻出単語強調表示が選択されている場合について説明する。入力手段102で頻出単語強調表示が指定されている場合は図12のステップS1203に進み、図11の頻出単語強調表示手段1101により頻出単語の強調表示を行なう。頻出単語強調表示手段1101では入力手段102から図14の表示語数指定スライドバー1402の値を取得し、指定された値以上の頻度重みをもつ単語を強調表示する。
強調表示した結果の例を図15に示す。ここでは「☆☆ユニット」が強調表示された例を示している。強調表示される単語のグラフを太線とし、他単語のグラフを点線とすることにより強調表示する。このように表示することにより、分析対象文書中に多数出現する重要な単語を一目で判別できるので、分析作業が容易になる。
つぎに、図14の強調表示選択ボタン1401において、傾向相違単語強調表示が選択されている場合について説明する。入力手段102で傾向相違単語強調表示が指定されている場合は図12のステップS1204に進み、図11の傾向相違単語強調表示手段1102により傾向相違単語の強調表示を行なう。傾向相違単語強調表示手段1102では入力手段102から図14の表示語数指定スライドバー1402の値を取得し、指定された値以上の相違重みをもつ単語を強調表示する。
強調表示した結果の例を図16に示す。ここでは「##ユニット」が強調表示された例を示している。図15と同様に、強調表示される単語のグラフを太線とし、他単語のグラフを点線とすることにより強調表示する。このように表示することにより、分析対象属性において、平均からはずれた傾向を示す重要な単語を一目で判別できるので、分析作業が容易になる。
つぎに、図14の強調表示選択ボタン1401において、傾向相違点強調表示が選択されている場合について説明する。入力手段102で傾向相違点強調表示が指定されている場合は図12のステップS1205に進み、図11の傾向相違点強調表示手段1103により傾向相違点の強調表示を行なう。傾向相違点強調表示手段1103では入力手段102から図14の表示語数指定スライドバー1402の値を取得し、指定された値以上のノード相違重みをもつノードを強調表示する。
ノード相違重みの計算には、図8における属性値頻度ベクトル802および単語頻度ベクトル801を用いる。グラフの各ノードN(kwi, aj)は、図8における単語ベクトルVの各要素V(kwi,j)に対応する。ノードN(kwi, aj)の相違点重みWn(kwi, aj)は、たとえば式(B)により計算する。
グラフノードN(kwi, aj)に対する相違重みWn(kwi, aj)
= fw(kwi, j) / fa(j) ・・・ 式(B)
ただし、下記の定義とする。
fw(kwi, j):単語kwiの属性aにおける頻度ベクトル Fw(a,kwi)のj番目の
要素である頻度
fa(j):属性aの属性値頻度ベクトルFa(a)のj番目の要素である頻度
強調表示した結果の例を図17に示す。ここでは「☆☆ユニット」に対する「A−02」のノード、および、「§§ユニット」に対する「B−01」のノードが強調表示された例を示している。強調表示されるノードを大きく表示し、ノードのまわりを円形で囲って表示することにより強調する。このように表示することにより、分析対象属性において、平均からはずれた傾向を示す重要な単語および属性値を一目で判別できるので、分析作業が容易になる。
上記の式(B)では、平均的な傾向よりも多く出現する単語に対してノードを強調表示するための定義を示したが、fa(j)の全体(Σfa(j))に対する比率と、fw(kwi, j)の単語kwiが出現するレコード数に対する比率との差分により、平均より多いノードだけではなく平均より少ないノードを強調表示するようにしてもよい。
また、上記の説明中では、強調表示の一例として、「強調すべき部分を太線にする」、「強調しない部分を点線にする」、「強調すべきグラフノードを大きく表示する」、「強調すべきグラフノードを丸線で囲って表示する」などを示したが、これ以外にも「強調すべき部分だけ赤などの目立つ色に変えて表示する」、「強調すべき部分を点滅表示させる」、「凡例の単語を太字で表示する」、「凡例の単語の色を変えて表示する」などの方法をとってもよい。
また、上記の説明中では、傾向をグラフ表示したうえで強調表示する例を示したが、図18のようにクロス表表示形式でも同様の強調表示が可能である。図18は、「§§ユニット」に対する「A−02」の件数を、太字および下線を用いて強調表示した例(1801および1802)を示している。
以上、説明したように、本実施の形態によれば、属性や単語の指定をせずとも、「出現回数が多い重要な単語」および「ある属性において平均からはずれた出現傾向を示す重要な単語」を自動的に抽出するので、ユーザは分析の際にいちいち単語および属性値を指定する必要がなく、簡単に分析結果を得ることができる、という効果が得られる。
また本実施の形態によれば、分析対象文書中に多数出現する重要な単語を一目で判別できるので、分析作業が容易になるという利点がある。
さらに、分析対象属性において、平均からはずれた傾向を示す重要な単語を一目で判別できるので、分析作業が容易になる。
さらに、分析対象属性において、平均からはずれた傾向を示す重要な単語および属性値を一目で判別できるので、分析作業が容易になる。
実施の形態2.
以上の実施の形態1では、属性や単語の指定をせずとも、簡単に分析結果を得ることができるようにしたものであるが、次に、属性値が連続性をもつ「使用期間」のような場合に、隣接する属性値の出現傾向まで考慮して、分析軸候補となる特徴語を抽出する実施形態を示す。
図19は、このような場合の、分析軸抽出手段103の詳細構成図で、実施の形態1における図5の属性別単語特徴度計算手段502に替えて、連続値を属性値とする属性acに対する特徴度を計算する連続属性単語特徴度計算手段1901が備えられている。
その他は図5の構成と同様であり、同一の番号で示し説明を省略する。
分析処理の概要処理フローは図2に示す実施の形態1と同様であり、本実施の形態では説明を省略する。
図20は分析軸候補抽出ステップS202の詳細フロー図である。実施の形態1と同一のステップについては、図6と同一の番号で示している。
まず図20のステップS601では、実施の形態1と同様にして単語属性値共起頻度集計手段501が、単語データベース111および属性データベース112を参照して、属性欄aおよび自由記述欄t毎に属性値単語共起表M(a,t)を生成する。
つぎにステップS602において、図19の連続属性単語特徴度計算手段1901により、「使用期間」のような連続値を属性値とする属性acに対する特徴度を計算する。特徴度は、図8に示す単語頻度ベクトル801および属性値頻度ベクトル802をもとに式(C)により計算する。
Figure 2006171931
上記の式(C)の定義によれば、fwが急増するような単語kwiに対する特徴度が大きくなる。
なお、上記の式(C)では一例として、「急増」を検出するための特徴度の定義を示したが、「急減」や「変化の激しさ」を特徴として捕らえるための別の定義式を使用してもよい。
つぎにステップS603において、実施の形態1と同様に特徴語整列手段503が、ステップS2001で計算した特徴度を用いて特徴語を抽出し、見出し情報303または品詞情報304を用いて整列する。さらに、図2のステップS203では、傾向表示手段105により単語の出現傾向を表示する。
以上説明したように、「使用期間」などの連続する数値を属性値としてもつ属性に対して、隣接する属性値に比べて出現件数が急増する単語を特徴語として抽出するので、「使用年数」と「機器名」との相関を分析する場合など、故障件数の急増部分を重点的に分析することができるので分析作業を効率よく進めることができる。
実施の形態3.
上記の実施の形態1および実施の形態2は、属性や単語の指定をせずとも、簡単に分析結果を得ることができるようにしたものであるが、次に、別途手作業で定義したカテゴリ情報や、文脈情報を用いて特徴語を整列することにより分析を容易にする実施の形態を示す。
図21は、このような場合の、分析軸抽出手段103の詳細構成図で、実施の形態1における図5の特徴語整列手段503に替えて、カテゴリ別特徴語整列手段2101とカテゴリ定義データベース2102が備えられている。その他は図5の構成と同様であり、同一の番号で示し説明を省く。
分析処理の概要処理フローは図2に示す実施の形態1と同様であり、本実施の形態では説明を省略する。
図22は分析軸抽出ステップS202の詳細フロー図である。実施の形態1と同一のステップについては、図6と同一の番号で示している。
まず図22のステップS601では、実施の形態1と同様にして単語属性値共起頻度集計手段501が、単語データベース111および属性データベース112を参照して、属性欄aおよび自由記述欄t毎に属性値単語共起表M(a,t)を生成する。つぎにステップS602において、実施の形態1と同様にして属性別単語特徴度計算手段502が、図7に示した属性値単語共起頻度表M(a,t)をもとに各単語の特徴度を計算する。
つぎに、図22のステップS2201において、カテゴリ別特徴語整列手段2101がカテゴリ定義データベース2102を参照して、特徴語をカテゴリ別に分類して整列する。図23にカテゴリ定義データベース2102に格納するデータ例を示す。この例では、各種の故障データ中に頻出する用語を「現象」「状態」「処置」に分類して表示するためのカテゴリ定義を示している。カテゴリ定義はすべて人手により作成してもよいし、属性毎に抽出した特徴語から適宜選択して作成してもよい。
図24にカテゴリ定義を用いて整列した特徴語の例を示す。このようにカテゴリ別に整列分類した特徴語に対する分析結果を表示することにより、分析目的に応じて必要なカテゴリに対する分析結果のみ参照することができるので、分析作業を効率よく進めることができる。
実施の形態4.
上記の実施の形態1、実施の形態2、および実施の形態3は、属性や単語の指定をせずとも、簡単に分析結果を得ることができるようにしたものであるが、次に、属性毎の特徴語抽出において「その他」などの不要な属性値を指定または自動検出することにより、分析により適した特徴語を抽出できる実施の形態を示す。
図25は、このような場合の分析軸抽出手段103の詳細構成図である。図において、2501は属性値単語共起表M(a,t)から不要な属性値を検出する不要属性値検出手段、2502は入力手段102から不要な属性値の指定を受け付ける不要属性値指定手段、2503は不要属性値に関する情報を、属性値単語共起表M(a,t)から除去する不要属性値除去手段であり、図5と同様の構成は同一の番号で示し説明を省略する。
分析処理の概要処理フローは図2に示す実施の形態1と同様であり、本実施の形態では説明を省略する。
また、図26は分析軸抽出手段103の分析軸候補抽出ステップS202の詳細フロー図であり、実施の形態1と同一のステップについては、図6と同一の番号で示している。
まず図26のステップS601では、実施の形態1と同様にして単語属性値共起頻度集計手段501が、単語データベース111および属性データベース112を参照して、属性欄aおよび自由記述欄t毎に属性値単語共起表M(a,t)を生成する。
つぎに、図26のステップS2601において、不要属性値検出手段2501が属性値単語共起表M(a,t)から不要な属性値を検出する。不要な属性値の検出は、M(a,t)の列に対して分散を計算し、所定の分散値以下となった属性値、すなわち、単語毎の特徴をあまり示さない属性値については各種の傾向を判定するうえで重要ではないと判断し、不要と判定する。
つぎに、図26のステップS2602において、不要属性値指定手段2502が入力手段102からユーザが入力した不要な属性値の指定を受け付ける。不要な属性値は手作業ですべて定義してもよいし、ステップS2601において抽出した属性値をユーザに提示して確認を求めるようにしてもよい。
つぎに、図26のステップS2603において、不要属性値除去手段2503が上記で得られた不要属性値に関する情報を、属性値単語共起表M(a,t)から除去する。不要な属性値を除去することにより、属性別単語特徴度計算手段502が属性別単語特徴度を計算する際にノイズとなりえる属性値を無視して計算できるので、分析により適した特徴語を抽出することができる。
つぎに、図26のステップS602において、実施の形態1と同様にして属性別単語特徴度計算手段502が、上記ステップS2603で不要属性値を除去した属性値単語共起表M(a,t)’をもとに各単語の特徴度を計算する。さらに、ステップS603において、実施の形態1と同様に特徴語整列手段503が、ステップS2001で計算した特徴度を用いて特徴語を抽出し、見出し情報303または品詞情報304を用いて整列する。さらに、図2のステップS203では、傾向表示手段105により単語の出現傾向を表示する。
以上、説明したように、不要属性値を検出・指定したうえで不要属性値を除去した属性値単語共起表をもとに特徴語を抽出するので、分析により適した特徴語を抽出することができる。
実施の形態5.
上記の実施の形態1、実施の形態2、実施の形態3、および実施の形態4は、属性や単語の指定をせずとも、簡単に分析結果を得ることができるようにしたものであるが、次に、多数の特徴語が抽出された場合に興味深い特徴語を簡単に指定して傾向表示できる実施の形態を示す。
図27は、このような場合の傾向表示手段105の詳細構成を示す実施の形態5の構成図である。図において、2701は特徴度の値および頻度に基づいて複数の特徴語を概観表示する特徴語概観表示手段、2702は入力手段102からの選択指示を受け付けて傾向表示すべき特徴語を選択する表示対象特徴語選択手段であり、図11と同様の構成は同一の番号で示し説明を省略する。
分析処理の概要処理フローは図2に示す実施の形態1と同様であり、本実施の形態では説明を省略する。
また、図28は傾向表示手段105の傾向表示ステップS203の詳細フロー図であり、実施の形態1と同一のステップについては、図12と同一の番号で示している。
まず図28のステップS2801では、特徴語概観表示手段2701が特徴度の値および頻度に基づいて複数の特徴語を属性ごとに概観表示する。具体的には各特徴語の頻度をx軸方向の座標とし、属性別単語特徴度計算手段502により計算された特徴度の値をy軸方向の座標として2次元上に配置して表示する。表示例を図29に示す。図29に示した例では、右上のプルダウンメニューにより対象属性を選択できる。多数の特徴語が抽出される場合、このような属性ごとの概観表示で視覚的に示すことにより、分析作業者が興味のある特徴語を容易に選択することが可能となる。
つぎに、図28のステップS2802において、表示対象特徴語選択手段2702が入力手段102からの選択指示を受け付けて、傾向表示すべき特徴語を選択する。選択指示については、図29に例として示した画面上で、マウスクリック等により行うものとする。
つぎに、図28のステップS1201において、実施の形態1と同様にして、上記ステップS2802において選択された属性および特徴語について、集計手段104により単語データベース111および属性データベース112を参照して属性値別の件数を取得し、傾向表示手段105が折れ線グラフ等で視覚的に表示する。
つぎに、図28のステップS1202において、実施の形態1と同様にして、傾向表示手段105が入力手段102から入力された表示切替指示を検出する。指示が検出されなければグラフをそのまま表示して傾向表示ステップを終了する。指示が検出された場合は、指示の内容に応じてステップS1203からステップS1205までのいずれかのステップに進み強調表示を行う。
以上、説明したように、多数の特徴語が抽出された場合には、概観表示によりこれらの特徴語が視覚的に示されるので、興味深い特徴語の選択が容易となり分析作業を効率化することができる。
分析軸候補抽出手段により、「出現回数が多い重要な単語」および「ある属性において平均からはずれた出現傾向を示す重要な単語」を自動的に抽出するので、ユーザは分析の際にいちいち単語および属性値を指定する必要がなく、簡単に分析結果を得ることができ文書知識サーバ(故障データのテキストマイニング)や施設情報管理システムなどに適用可能である。
本発明の実施の形態1を示す構成図である。 分析処理の概要を示す処理フロー図である。 単語データベースに格納される単語情報例の説明図である。 属性データベースに格納される属性情報例の説明図である。 分析軸抽出手段の詳細構成図である。 分析軸候補抽出ステップの詳細処理フロー図である。 属性値単語共起表の例を示す図である。 単語頻度ベクトルおよび属性値頻度ベクトルの説明図である。 各単語の特徴度計算結果の例を示す図である。 特徴語整列手段による整列結果の説明図である。 傾向表示手段の詳細構成を示すテキストマイニング装置の構成図である。 傾向表示ステップの詳細処理フロー図である。 通常傾向表示の出力例を示す図である。 表示切替指示を行なうための入力画面例を示す図である。 頻出単語強調表示結果の例を示す図である。 傾向相違単語強調表示結果の例を示す図である。 傾向相違点強調表示結果の例を示す図である。 クロス表表示形式での強調表示例を示す図である。 実施の形態2における分析軸抽出手段の詳細構成図である。 実施の形態2における分析軸抽出ステップの詳細処理フロー図である。 実施の形態3における分析軸抽出手段の詳細構成図である。 実施の形態3における分析軸抽出ステップの詳細処理フロー図である。 カテゴリ定義データベースに格納されるデータ例を示す図である。 カテゴリ定義を用いて整列した特徴語の例を示す図である。 実施の形態4における分析軸抽出手段の詳細構成図である。 実施の形態4における分析軸抽出ステップの詳細処理フロー図である。 本発明の実施の形態5を示す構成図である。 実施の形態5における傾向表示ステップ5の詳細フロー図である。 実施の形態5における概観表示例を示す図である。 従来のテキストマイニング装置の構成図である。
符号の説明
101:登録手段、110:分析対象文書、111:単語データベース、112:属性データベース、102:入力手段、103:分析軸候補抽出手段、104:集計手段、105:傾向表示手段、501:単語属性値共起頻度集計手段、502:属性別単語特徴度計算手段、503:特徴語整列手段、1101:頻出単語強調表示手段、1102:傾向相違単語強調表示手段、1103:傾向相違点強調表示手段、1401:強調表示選択ボタン、1402:表示語数指定スライドバー、1901:連続属性単語特徴度計算手段、2101:カテゴリ別特徴語整列手段、2102:カテゴリ定義データベース、2501:不要属性値検出手段、2502:不要属性値指定手段、2503:不要属性値除去手段、2701:特徴語概観表示手段、2702:表示対象特徴語選択手段。

Claims (8)

  1. 分析対象文書から、各テキストの単語及び各テキストの属性値を抽出して単語データベースと属性データベースに登録する登録手段と、
    分析対象文書を分析するための分析軸候補となる単語を上記単語データベースと属性データベースから属性別に抽出する分析軸候補抽出手段と、
    分析軸候補抽出手段により抽出された単語の属性値毎の出現頻度を集計する集計手段と、
    上記集計した出現頻度を視認し易いように表示するとともに、必要に応じて上記分析軸候補抽出手段により抽出された単語の出現傾向のうち特徴的な部分の表示態様を他の単語の表示態様と変えて表示する傾向表示手段とを備えるテキストマイニング装置。
  2. 上記分析軸候補抽出手段が、
    上記単語データベースおよび属性データベースを参照して属性値単語共起表を作成する属性値単語共起頻度集計手段と、
    属性値単語共起表を基に属性別に各単語の特徴度を計算する属性別単語特徴度計算手段と、
    算出された特徴度を基に属性毎に特徴的な単語を抽出して整列する特徴語整列手段とを備えることを特徴とする請求項1記載のテキストマイニング装置
  3. 上記分析軸候補抽出手段の属性別単語特徴度計算手段が、
    連続属性に対して隣接する属性値との関係を考慮して各単語の特徴度を計算する連続属性単語特徴度計算手段であることを特徴とする請求項2記載のテキストマイニング装置。
  4. 上記分析軸候補抽出手段が、
    単語のカテゴリを定義するカテゴリ定義データベースを備え、
    上記特徴語整列手段は、属性毎に特徴的な単語を抽出し、上記カテゴリデータベースで定義されたカテゴリによって整列するカテゴリ別特徴語整列手段で構成されることを特徴とする請求項2または請求項3に記載のテキストマイニング装置。
  5. 上記分析軸候補抽出手段が、
    上記属性値単語共起頻度集計手段で作成された属性値単語共起表の値にもとづいて不要な属性値を検出する不要属性値検出手段と、
    検出された不要な属性値を参照し、不要属性値を指定する不要属性値指定手段と、
    指定された不要属性値に関わる情報を上記属性値単語共起表から除去する不要属性値除去手段とを更に備えることを特徴とする請求項2ないしは請求項4の何れかに記載のテキストマイニング装置。
  6. 上記傾向表示手段が、
    上記属性別単語特徴度計算手段により計算された特徴度の値に基づいて頻出単語の強調表示をする頻出単語強調表示手段と、
    同じく上記属性別単語特徴度計算手段により計算された特徴度の値に基づいて傾向相違単語の強調表示をする傾向相違単語強調表示手段と、
    また、同じく上記属性別単語特徴度計算手段により計算された特徴度の値に基づいて傾向相違点の強調表示をする傾向相違点強調表示手段とを備えることを特徴とする請求項2ないしは請求項5の何れかに記載のテキストマイニング装置。
  7. 上記傾向表示手段が、
    上記属性別単語特徴度計算手段により計算された特徴度の値および頻度に基づいて複数の特徴語を概観表示する特徴語概観表示手段と、
    上記特徴語概観表示手段により表示された特徴語のうち分析対象とすべき単語を複数選択して傾向表示させるための傾向表示対象特徴語選択手段とを備えることを特徴とする請求項2ないしは請求項5の何れかに記載のテキストマイニング装置。
  8. 分析対象文書から、各テキストの単語、及び各テキストの属性値を抽出して単語データベースと属性データベースに登録する登録手順と、
    対象文書を分析するための分析軸候補となる単語を上記単語データベースと属性データベースから属性別に抽出する分析軸候補抽出手順と、
    分析軸候補抽出手段により抽出された単語の各属性値毎の出現頻度を集計する集計手順と、
    上記集計した出現頻度を視認し易いように表示するとともに、必要に応じて上記分析軸候補抽出手順により抽出された単語の出現傾向のうち特徴的な部分の表示態様を他の単語の表示態様と変えて表示する傾向表示手順とをコンピュータに実行させるテキストマイニングプログラム。
JP2004360803A 2004-12-14 2004-12-14 テキストマイニング装置およびテキストマイニングプログラム Pending JP2006171931A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004360803A JP2006171931A (ja) 2004-12-14 2004-12-14 テキストマイニング装置およびテキストマイニングプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004360803A JP2006171931A (ja) 2004-12-14 2004-12-14 テキストマイニング装置およびテキストマイニングプログラム

Publications (1)

Publication Number Publication Date
JP2006171931A true JP2006171931A (ja) 2006-06-29

Family

ID=36672643

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004360803A Pending JP2006171931A (ja) 2004-12-14 2004-12-14 テキストマイニング装置およびテキストマイニングプログラム

Country Status (1)

Country Link
JP (1) JP2006171931A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010013472A1 (ja) * 2008-07-30 2010-02-04 日本電気株式会社 データ分類システム、データ分類方法、及びデータ分類プログラム
JP2010205077A (ja) * 2009-03-04 2010-09-16 Mitsubishi Electric Corp データ統合装置及びデータ統合プログラム及び記録媒体
JP2012103841A (ja) * 2010-11-09 2012-05-31 Hitachi Systems Ltd データ分析の分析軸推薦方法、システム、及びプログラム
JP2012238153A (ja) * 2011-05-11 2012-12-06 Hitachi Systems Ltd データ整形システム、方法、及びプログラム
US9361367B2 (en) 2008-07-30 2016-06-07 Nec Corporation Data classifier system, data classifier method and data classifier program
JP2020516985A (ja) * 2017-03-30 2020-06-11 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 自然言語ダイアログを用いる対話型テキスト・マイニング方法、装置、プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099516A (ja) * 1998-09-25 2000-04-07 Fuji Xerox Co Ltd 情報管理装置、共同作業支援システム、情報管理方法及び情報管理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004021445A (ja) * 2002-06-14 2004-01-22 Nri & Ncc Co Ltd テキストデータ分析システム、テキストデータ分析方法およびコンピュータプログラム
JP2004021763A (ja) * 2002-06-19 2004-01-22 Hitachi Ltd テキストマイニングプログラム、方法、及び装置
JP2004246491A (ja) * 2003-02-12 2004-09-02 Mitsubishi Electric Corp テキストマイニング装置及びテキストマイニングプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099516A (ja) * 1998-09-25 2000-04-07 Fuji Xerox Co Ltd 情報管理装置、共同作業支援システム、情報管理方法及び情報管理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004021445A (ja) * 2002-06-14 2004-01-22 Nri & Ncc Co Ltd テキストデータ分析システム、テキストデータ分析方法およびコンピュータプログラム
JP2004021763A (ja) * 2002-06-19 2004-01-22 Hitachi Ltd テキストマイニングプログラム、方法、及び装置
JP2004246491A (ja) * 2003-02-12 2004-09-02 Mitsubishi Electric Corp テキストマイニング装置及びテキストマイニングプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
相川 勇之 他: "概念抽出型テキストマイニングによるアンケート分析手法の提案", 情報処理学会研究報告, vol. 第2003巻第37号, JPN6010014424, 28 March 2003 (2003-03-28), JP, pages 1 - 6, ISSN: 0001569125 *
高山 泰博 他: "eCRM向け概念抽出型テキストマイニング", 電子情報通信学会技術研究報告, vol. 第102巻第690号, JPN6010014421, 28 February 2003 (2003-02-28), JP, pages 19 - 23, ISSN: 0001569126 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010013472A1 (ja) * 2008-07-30 2010-02-04 日本電気株式会社 データ分類システム、データ分類方法、及びデータ分類プログラム
JP5500070B2 (ja) * 2008-07-30 2014-05-21 日本電気株式会社 データ分類システム、データ分類方法、及びデータ分類プログラム
US9361367B2 (en) 2008-07-30 2016-06-07 Nec Corporation Data classifier system, data classifier method and data classifier program
JP2010205077A (ja) * 2009-03-04 2010-09-16 Mitsubishi Electric Corp データ統合装置及びデータ統合プログラム及び記録媒体
JP2012103841A (ja) * 2010-11-09 2012-05-31 Hitachi Systems Ltd データ分析の分析軸推薦方法、システム、及びプログラム
JP2012238153A (ja) * 2011-05-11 2012-12-06 Hitachi Systems Ltd データ整形システム、方法、及びプログラム
JP2020516985A (ja) * 2017-03-30 2020-06-11 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 自然言語ダイアログを用いる対話型テキスト・マイニング方法、装置、プログラム
JP7038136B2 (ja) 2017-03-30 2022-03-17 インターナショナル・ビジネス・マシーンズ・コーポレーション 自然言語ダイアログを用いる対話型テキスト・マイニング方法、装置、プログラム

Similar Documents

Publication Publication Date Title
US8739032B2 (en) Method and system for document presentation and analysis
JP4583003B2 (ja) 検索処理方法及びプログラム
CN109359188B (zh) 一种组件编排方法和系统
JP2006331089A (ja) Webページから時系列データを生成する方法及び装置
JP2000067065A (ja) 文書画像識別方法および記録媒体
US20090012830A1 (en) Apparatus, method, and program for extracting work item
JP7132046B2 (ja) 検索装置、検索方法及びプログラム
KR20070009338A (ko) 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치
JP2007041721A (ja) 情報分類方法およびプログラム、装置および記録媒体
KR102020117B1 (ko) 검색 필드 설정을 위한 시각적 ui 제공 시스템 및 방법과 이를 저장한 기록매체
US20140025678A1 (en) User-friendly display of data
KR102281266B1 (ko) 영상 내 자막 키워드 추출 및 순위 산정 시스템 및 방법
JP2006171931A (ja) テキストマイニング装置およびテキストマイニングプログラム
US11645312B2 (en) Attribute extraction apparatus and attribute extraction method
JP2014102625A (ja) 情報検索システム、プログラム、および方法
JP5117589B2 (ja) 文書分析装置およびプログラム
Ishikawa et al. T-scroll: Visualizing trends in a time-series of documents for interactive user exploration
JP2007279978A (ja) 文書検索装置及び文書検索方法
US9785404B2 (en) Method and system for analyzing data in artifacts and creating a modifiable data network
JP4640861B2 (ja) 検索処理方法及びプログラム
JP2004206391A (ja) 文書情報分析装置
JPH0934957A (ja) ユーザ振る舞いの解析方法及び装置
JP5297351B2 (ja) 情報検索システムにおける文書分類装置
CN112818984A (zh) 标题生成方法、装置、电子设备和存储介质
KR100852174B1 (ko) 계층적 분류에 의한 정보 표시 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100323

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100720