JP2006171931A

JP2006171931A - テキストマイニング装置およびテキストマイニングプログラム

Info

Publication number: JP2006171931A
Application number: JP2004360803A
Authority: JP
Inventors: Takeyuki Aikawa; 勇之相川; Akito Nagai; 明人永井; Yasuhiro Takayama; 泰博高山; Makoto Imamura; 誠今村
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2004-12-14
Filing date: 2004-12-14
Publication date: 2006-06-29

Abstract

【課題】従来は、ユーザが分析精度を考慮した分析軸を指定しなくては適切な分析結果が得られず、操作が煩わしい。また、抽出される特徴語は月毎などの各属性値に対応付けられているため、属性値間の全体傾向を考慮した特徴語が抽出できない。
【解決手段】登録手段で、分析対象文書から各テキストの単語、及び各テキストの属性値を抽出して単語データベースと属性データベースに登録し、分析軸候補抽出手段で、分析のための分析軸候補となる単語を上記単語データベースと属性データベースから属性別に抽出し、分析軸候補抽出手段により抽出された単語の各属性値毎の出現頻度を集計手段で集計し、集計した出現頻度を視認し易いように表示するとともに、必要に応じて上記分析軸候補抽出手段により抽出された単語の出現傾向のうち特徴的な部分の表示態様を他の単語の表示態様と変えて表示する傾向表示手段とを備える。
【選択図】図１

Description

本発明は、製品企画や品質管理などの業務で必要とされる重要な情報を蓄積された大量のテキストから抽出して、業務改善のために活用することを可能とするテキストマイニング技術に関するものである。

文書の電子化が進み、短時間で必要な情報を取得するための検索装置の重要性が増している。このような検索装置のうち、入力文書とは異なる表現であっても類似する内容をもつ文書を検索可能なテキストマイニング装置として、文献１（特開2003-141134号公報テキストマイニング処理方法およびその実施装置）がある。上記の文献１により開示されたテキストマイニング方式について図３０により説明する。

101は登録手段であり、分析対象文書110に含まれるテキストを解析し、単語に分割し、その統計情報を単語データベース111に格納する。また、各分析対象文書110に関連づけられた属性（故障データ分析の場合は機種名、故障種別、故障発生日など）を属性データベース112に格納する。102は入力手段であり、ユーザが分析対象とする軸（属性名）を指定する。2703は特徴語抽出手段であり、上記単語データベース中の統計情報を用いて、上記入力手段102で指定した分析軸において特徴的な語をキーワードとして抽出する。104は集計手段であり、上記抽出されたキーワードと属性データベース112中の属性値との関係を集計する。2705はキーワード表示手段であり、集計情報に基づいて各属性値毎に特徴的なキーワードを表示する。このようなテキストマイニング装置により、例えば、新聞記事などを対象として、食中毒に関する話題が経時的にどのように推移しているかなどの分析支援が可能である（文献１）。

特開2003-141134号公報

しかし、文献１で開示された技術には、ユーザが何らかの分析軸を指定したうえで分析粒度を考慮した指定をしなくては適切な分析結果が得られないため、操作が煩わしいという課題がある。また、抽出される特徴語は月毎などの各属性値に対応付けられているため、属性値間の全体傾向を考慮した特徴語が抽出できないという課題がある。

本発明は上記課題を鑑みてなされたものであり、属性別特徴語抽出手段で特徴語を自動抽出して集計することにより、自動的に傾向分析を行いユーザの手間を軽減する。

また、数値属性別特徴語抽出手段で特徴語を自動抽出して集計することにより、故障発生の傾向分析など件数の増減に着目した分析を容易にする。

さらに、特徴語抽出時に計算する特徴度に応じて表示の態様を変えることにより、注目すべき単語や属性値の認識を容易にして分析作業を円滑に進めることができる。

本発明に係るテキストマイニング装置は、
分析対象文書から、各テキストの単語、及び各テキストの属性値を抽出して単語データベースと属性データベースに登録する登録手段と、
対象文書を分析するための分析軸候補となる単語を上記単語データベースと属性データベースから属性別に抽出する分析軸候補抽出手段と、
分析軸候補抽出手段により抽出された単語の各属性値毎の出現頻度を集計する集計手段と、
上記集計した出現頻度を視認し易いように表示するとともに、必要に応じて上記分析軸候補抽出手段により抽出された単語の出現傾向のうち特徴的な部分の表示態様を他の単語の表示態様と変えて表示する傾向表示手段とを備える。

また、本発明に係るテキストマイニングプログラムは、
分析対象文書から、各テキストの単語、及び各テキストの属性値を抽出して単語データベースと属性データベースに登録する登録手順と、
対象文書を分析するための分析軸候補となる単語を上記単語データベースと属性データベースから属性別に抽出する分析軸候補抽出手順と、
分析軸候補抽出手段により抽出された単語の各属性値毎の出現頻度を集計する集計手順と、
上記集計した出現頻度を視認し易いように表示するとともに、必要に応じて上記分析軸候補抽出手順により抽出された単語の出現傾向のうち特徴的な部分の表示態様を他の単語の表示態様と変えて表示する傾向表示手順とをコンピュータに実行させる。

本発明によれば、属性や単語の指定をせずとも、分析軸候補抽出手段が「出現回数が多い重要な単語」および「ある属性において平均からはずれた出現傾向を示す重要な単語」を自動的に抽出するので、ユーザは分析の際にいちいち単語および属性値を指定する必要がなく、簡単に分析結果を得ることができる、という効果が得られる。

また本発明によれば、傾向表示手段は分析対象文書中に多数出現する等平均からはずれた出現傾向を示す重要な単語を、他の単語の表示態様と変えて表示するので、重要な単語を一目で判別でき、分析作業が容易になるという利点がある。

実施の形態１．
図１に本発明の実施の形態１における構成図を示す。図において、101は登録手段であり、分析対象文書110に含まれるテキストを解析し、その統計情報を単語データベース111に格納する。また、各文書に関連づけられた属性（故障データ分析の場合は機種名、故障種別、故障発生日など）を属性データベース112に格納する。102は入力手段であり、ユーザが分析開始指示および分析結果態様の切り替え指示を入力する。103は分析軸候補抽出手段であり、上記単語データベース111および属性データベース112から得られる統計情報を用いて、属性別に特徴的な語であるキーワードを分析軸候補として抽出する。104は集計手段であり、上記分析軸候補抽出手段103で抽出されたキーワードと属性データベース112中の属性値との関係を集計する。105は傾向表示手段であり、集計手段104での集計情報に基づいて属性毎のキーワードの出現傾向を表示する。

図２は、分析処理の概要を示す処理フローである。以下、図１から図１８までを適宜参照しつつ分析処理の概要について説明する。本実施の形態では機器の故障データを分析する場合を例として説明する。まずステップS201において、登録手段101により分析対象文書110を読み込み、含まれるテキストを解析して単語に分割し、その統計情報を単語データベース111に格納する。また、各文書110に関連づけられた属性（故障データ分析の場合は機種名、故障種別、故障発生日など）を属性データベース112に格納する。分析対象文書110の入力形式として、たとえばCSV(Comma Separated Value)形式のファイルを使用する。また、故障データ管理システムなどに含まれるRDB（Relational Data Base）に蓄えられた情報をそのまま入力してもよい。

図３に単語データベース111に格納する単語情報の例を示す。図３に示した単語データベースは、たとえば自由記述欄301に記述する「現象」、「原因」、「処置」などの分析対象項目毎に生成する。ここでは分析対象文書110中の自由記述欄のひとつである「現象」を例として説明する。301は自由記述欄名である。302は単語毎に一意に付与される単語ID（Identification）である。303は単語の見出しである。304は単語の品詞である。305は各単語が出現するレコードの数(単語の出現頻度)である。306は各単語の出現するレコード内の位置である。ここではRに続く数値をレコード番号とし、その後ろに続く番号をレコード内での単語番号とした場合を示している。307は係り受け情報である。ここでは係り側の単語を+に続く出現位置で示し、受け側の単語を-に続く出現位置で示すこととする。なお、図３に示した単語データベースはあくまでも一例であり、分析目的に応じて必要な項目を適宜設定するものとする。

図４に属性データベース112に格納する属性情報の例を示す。401は文書毎に一意に付与されるレコード番号である。402は属性欄の項目名である。ここでは、「機種名」「故障種別」「故障発生日」「納品日」「大分類」などの属性項目が各分析対象データに含まれているものとする。403は属性値である。これらは機器の使用期間や、故障発生時期などの時系列に関する分析を行う際に使用する。なお、図４に示した属性データベース112に格納される属性情報はあくまでも一例であり、分析目的に応じて必要な項目を適宜設定するものとする。

つぎに図２のステップS202において、分析軸候補抽出手段103により。単語データベース111および属性データベース112から得られる統計情報を用いて、属性別に特徴的な語をキーワードとし対象文書を分析するための分析軸候補として抽出する。図５は分析軸抽出手段103の詳細構成図である。また、図６は分析軸候補抽出ステップS202の詳細フロー図である。以下図５から図１０を適宜参照しつつ、分析軸候補抽出ステップS202の詳細について説明する。

図５において、501は属性欄を“a”、自由記述欄を“t”としたとき、属性欄“a”および自由記述欄“t”毎に属性値単語共起表Ｍ(a,t)を生成する単語属性値共起頻度集計手段、502は属性値単語共起頻度表Ｍ(a,t)をもとに各単語の特徴度を計算する属性別単語特徴度計算手段、503は特徴度を用いて特徴語を抽出し、見出し情報または品詞情報を用いて整列する特徴語整列手段である。

図６のステップS601では、図５の単語属性値共起頻度集計手段501が、単語データベース111および属性データベース112を参照して、属性別に特徴的な語をキーワードとし対象文書を分析するための分析軸候補として抽出して、属性欄 “a”および自由記述欄 “t”毎に属性値単語共起表Ｍ(a,t)を生成する。図７に属性値単語共起表の例を示す。701は属性欄aの項目名、702は自由記述欄tの項目名であり、この属性値単語共起表Ｍ(a,t)が対象とする項目名の組合せを示している。図７には「機種名」欄と「現象」欄との組合せを例として示しているが、他の抽出単語についても、分析対象とする属性欄および自由記述欄の組合せそれぞれについて、図７の例と同様の属性単語共起表を生成する。

図７の302は、図３に示したものと同様で単語ｋｗ_iに対して一意に付与される単語IDである。自由記述欄702に各単語ｋｗ_iが出現し、かつ、属性欄701の各属性値703をもつレコードの件数ｍ_ijを集計し、属性値単語共起表Ｍ(a,t)のi行目j列目の要素に単語属性共起件数705として記録する。

続けて図６のステップS602では、図５の属性別単語特徴度計算手段502が、属性値単語共起頻度表Ｍ(a,t)をもとに各単語の特徴度を計算する。特徴度は、図８に示す単語頻度ベクトル801および属性値頻度ベクトル802を基に式（Ａ）により計算する。

単語ｋｗ_iの属性aにおける特徴度Ｅ(a, ｋｗ_i)
＝頻度重みＷf(ｋｗ_i) × 相違重みＷd(a,ｋｗ_i) ・・・・式（Ａ）
ただし、下記の定義とする。
頻度重みＷf(ｋｗ_i) ＝単語ｋｗ_iが出現するレコード数／総レコード件数
相違重みＷd(a,ｋｗ_i) ＝ log（ ||Ｆw(a,ｋｗ_i)|| ||Ｆa(a)|| ／
Ｆw(a,ｋｗ_i)・Ｆa(a) ）
単語ｋｗ_iの属性aにおける頻度ベクトルＦw(a,ｋｗ_i)：Ｍ(a,t)のi行目のベク
トル（図８の801）
属性aの属性値頻度ベクトルＦa(a)：Ｍ(a,t)の各列の値を合計した値をj番目の
要素とする頻度ベクトル（図８の802）

図９に式（Ａ）により計算した各単語の特徴度計算結果の例を示す。属性名901および自由記述欄名902はこの特徴度の計算対象とする属性欄および自由記述欄の項目名である。後述する傾向表示ステップで多様な表示を可能とするため、特徴度903だけではなく、頻度重みＷf(ｋｗ_i) 904および相違重みＷd(a,ｋｗ_i) 905もあわせて保持するものとする。頻度重みＷf(ｋｗ_i) 904は、数多く使用される単語ほど重要であることを示す尺度であり、相違重みＷd(a,ｋｗ_i) 905は、属性aにおいて平均から外れた傾向を示す単語が重要であることを示す尺度である。

続けて、図６のステップS603では、図５の特徴語整列手段503が、ステップS602で計算した特徴度（図９の903）を用いて特徴語を抽出し、見出し情報303または品詞情報304を用いて整列する。まず、特徴度903の値が所定以上もしくは指定の数だけ特徴度903の値が上位の単語を図９の特徴度計算結果から抽出する。つぎに、抽出した各単語の見出し情報の終端要素である「装置」「ユニット」などの末端の語が同一である語がまとまるように整列する。例えば各単語の文字列を「装置○○」、「装置△△」のようにソートし易いように反転させてソートし、元に戻して文字コード順に整列すると図１０の1001のような整列結果となる。

このように整列すると、ある属性に対して特徴をもつ単語群を、それぞれ同じレベルの機器群に分類できる。したがって、各語群毎に後述する傾向表示手段106で各単語の出現傾向を表示することにより、比較する意味のない「○○装置」と「☆☆ユニット」など異なる階層の対象が同一のグラフ内に現れないので、効率よく分析作業を進めることができる。
また、図１０の1002に示すように、品詞順に整列することにより、「現象」や「処置」に関わる用語をまとめて分析できるようになり、効率的に分析作業を進めることができる。

上記で説明したように、属性や単語の指定をせずとも、「出現回数が多い重要な単語」および「ある属性において平均からはずれた出現傾向を示す重要な単語」を自動的に抽出するので、ユーザは分析の際にいちいち単語および属性値を指定する必要がなく、簡単に分析結果を得ることができる。
以上で図２の分析軸候補抽出ステップS202の説明を終わり、続けて傾向表示ステップS203について説明する。

図１１は傾向表示手段105の詳細構成を示すテキストマイニング装置の構成図である。また、図１２は傾向表示ステップS203の詳細フロー図である。
図１１において、1101は頻出単語の強調表示を行なう頻出単語強調表示手段、1102は傾向相違単語の強調表示を行なう傾向相違単語強調表示手段、1103は傾向相違点の強調表示を行なう傾向相違点強調表示手段である。

以下図１１から図１８を適宜参照しつつ、傾向表示ステップS203の詳細について説明する。
まず図１２の通常傾向表示ステップS1201では、分析軸候補抽出手段103において抽出された属性毎の特徴語リストについて、集計手段104により単語データベース111および属性データベース112を参照して属性値別の件数を取得し、傾向表示手段105が折れ線グラフ等で視覚的に表示する。図１３に通常傾向表示の出力例を示す。傾向表示は、属性と自由記述欄の組み合わせによる複数の結果が自動生成される。

つぎに表示切替指示判定ステップS1202において、傾向表示手段105が入力手段102から入力された表示切替指示を検出する。指示が検出されなければ図１３のグラフをそのまま表示して傾向表示ステップを終了する。指示が検出された場合は、指示の内容に応じてステップS1203からステップS1205までのいずれかのステップに進む。

図１４に、表示切替指示を行なうための入力画面例を示す。まず強調表示選択ボタン1401において、頻出単語強調表示が選択されている場合について説明する。入力手段102で頻出単語強調表示が指定されている場合は図１２のステップS1203に進み、図１１の頻出単語強調表示手段1101により頻出単語の強調表示を行なう。頻出単語強調表示手段1101では入力手段102から図１４の表示語数指定スライドバー1402の値を取得し、指定された値以上の頻度重みをもつ単語を強調表示する。

強調表示した結果の例を図１５に示す。ここでは「☆☆ユニット」が強調表示された例を示している。強調表示される単語のグラフを太線とし、他単語のグラフを点線とすることにより強調表示する。このように表示することにより、分析対象文書中に多数出現する重要な単語を一目で判別できるので、分析作業が容易になる。

つぎに、図１４の強調表示選択ボタン1401において、傾向相違単語強調表示が選択されている場合について説明する。入力手段102で傾向相違単語強調表示が指定されている場合は図１２のステップS1204に進み、図１１の傾向相違単語強調表示手段1102により傾向相違単語の強調表示を行なう。傾向相違単語強調表示手段1102では入力手段102から図１４の表示語数指定スライドバー1402の値を取得し、指定された値以上の相違重みをもつ単語を強調表示する。

強調表示した結果の例を図１６に示す。ここでは「＃＃ユニット」が強調表示された例を示している。図１５と同様に、強調表示される単語のグラフを太線とし、他単語のグラフを点線とすることにより強調表示する。このように表示することにより、分析対象属性において、平均からはずれた傾向を示す重要な単語を一目で判別できるので、分析作業が容易になる。

つぎに、図１４の強調表示選択ボタン1401において、傾向相違点強調表示が選択されている場合について説明する。入力手段102で傾向相違点強調表示が指定されている場合は図１２のステップS1205に進み、図１１の傾向相違点強調表示手段1103により傾向相違点の強調表示を行なう。傾向相違点強調表示手段1103では入力手段102から図１４の表示語数指定スライドバー1402の値を取得し、指定された値以上のノード相違重みをもつノードを強調表示する。

ノード相違重みの計算には、図８における属性値頻度ベクトル802および単語頻度ベクトル801を用いる。グラフの各ノードＮ(ｋｗ_i, ａ_j)は、図８における単語ベクトルVの各要素V(ｋｗ_i,j)に対応する。ノードＮ（ｋｗ_i, ａ_j)の相違点重みＷn（ｋｗ_i, ａ_j)は、たとえば式（Ｂ）により計算する。

グラフノードＮ(ｋｗ_i, ａ_j)に対する相違重みＷn(ｋｗ_i, ａ_j)
＝ｆw(ｋｗ_i, j) ／ fa(j) ・・・式（Ｂ）
ただし、下記の定義とする。
ｆw(ｋｗ_i, j)：単語ｋｗ_iの属性aにおける頻度ベクトルＦw(a,ｋｗ_i)のj番目の
要素である頻度
fa(j)：属性aの属性値頻度ベクトルＦa(a)のj番目の要素である頻度

強調表示した結果の例を図１７に示す。ここでは「☆☆ユニット」に対する「Ａ−０２」のノード、および、「§§ユニット」に対する「Ｂ−０１」のノードが強調表示された例を示している。強調表示されるノードを大きく表示し、ノードのまわりを円形で囲って表示することにより強調する。このように表示することにより、分析対象属性において、平均からはずれた傾向を示す重要な単語および属性値を一目で判別できるので、分析作業が容易になる。

上記の式（Ｂ）では、平均的な傾向よりも多く出現する単語に対してノードを強調表示するための定義を示したが、ｆa(j)の全体（Σfa(j)）に対する比率と、ｆw(ｋｗ_i, j)の単語ｋｗ_iが出現するレコード数に対する比率との差分により、平均より多いノードだけではなく平均より少ないノードを強調表示するようにしてもよい。

また、上記の説明中では、強調表示の一例として、「強調すべき部分を太線にする」、「強調しない部分を点線にする」、「強調すべきグラフノードを大きく表示する」、「強調すべきグラフノードを丸線で囲って表示する」などを示したが、これ以外にも「強調すべき部分だけ赤などの目立つ色に変えて表示する」、「強調すべき部分を点滅表示させる」、「凡例の単語を太字で表示する」、「凡例の単語の色を変えて表示する」などの方法をとってもよい。

また、上記の説明中では、傾向をグラフ表示したうえで強調表示する例を示したが、図１８のようにクロス表表示形式でも同様の強調表示が可能である。図１８は、「§§ユニット」に対する「Ａ−０２」の件数を、太字および下線を用いて強調表示した例(1801および1802)を示している。

以上、説明したように、本実施の形態によれば、属性や単語の指定をせずとも、「出現回数が多い重要な単語」および「ある属性において平均からはずれた出現傾向を示す重要な単語」を自動的に抽出するので、ユーザは分析の際にいちいち単語および属性値を指定する必要がなく、簡単に分析結果を得ることができる、という効果が得られる。

また本実施の形態によれば、分析対象文書中に多数出現する重要な単語を一目で判別できるので、分析作業が容易になるという利点がある。

さらに、分析対象属性において、平均からはずれた傾向を示す重要な単語を一目で判別できるので、分析作業が容易になる。

さらに、分析対象属性において、平均からはずれた傾向を示す重要な単語および属性値を一目で判別できるので、分析作業が容易になる。

実施の形態２．
以上の実施の形態１では、属性や単語の指定をせずとも、簡単に分析結果を得ることができるようにしたものであるが、次に、属性値が連続性をもつ「使用期間」のような場合に、隣接する属性値の出現傾向まで考慮して、分析軸候補となる特徴語を抽出する実施形態を示す。
図１９は、このような場合の、分析軸抽出手段103の詳細構成図で、実施の形態１における図５の属性別単語特徴度計算手段502に替えて、連続値を属性値とする属性ａ_cに対する特徴度を計算する連続属性単語特徴度計算手段1901が備えられている。
その他は図５の構成と同様であり、同一の番号で示し説明を省略する。
分析処理の概要処理フローは図２に示す実施の形態１と同様であり、本実施の形態では説明を省略する。
図２０は分析軸候補抽出ステップS202の詳細フロー図である。実施の形態１と同一のステップについては、図６と同一の番号で示している。

まず図２０のステップS601では、実施の形態１と同様にして単語属性値共起頻度集計手段501が、単語データベース111および属性データベース112を参照して、属性欄aおよび自由記述欄t毎に属性値単語共起表Ｍ(a,t)を生成する。

つぎにステップS602において、図１９の連続属性単語特徴度計算手段1901により、「使用期間」のような連続値を属性値とする属性ａ_cに対する特徴度を計算する。特徴度は、図８に示す単語頻度ベクトル801および属性値頻度ベクトル802をもとに式（Ｃ）により計算する。

上記の式（Ｃ）の定義によれば、ｆwが急増するような単語ｋｗ_iに対する特徴度が大きくなる。
なお、上記の式（Ｃ）では一例として、「急増」を検出するための特徴度の定義を示したが、「急減」や「変化の激しさ」を特徴として捕らえるための別の定義式を使用してもよい。

つぎにステップS603において、実施の形態１と同様に特徴語整列手段503が、ステップS2001で計算した特徴度を用いて特徴語を抽出し、見出し情報303または品詞情報304を用いて整列する。さらに、図２のステップS203では、傾向表示手段105により単語の出現傾向を表示する。

以上説明したように、「使用期間」などの連続する数値を属性値としてもつ属性に対して、隣接する属性値に比べて出現件数が急増する単語を特徴語として抽出するので、「使用年数」と「機器名」との相関を分析する場合など、故障件数の急増部分を重点的に分析することができるので分析作業を効率よく進めることができる。

実施の形態３．
上記の実施の形態１および実施の形態２は、属性や単語の指定をせずとも、簡単に分析結果を得ることができるようにしたものであるが、次に、別途手作業で定義したカテゴリ情報や、文脈情報を用いて特徴語を整列することにより分析を容易にする実施の形態を示す。
図２１は、このような場合の、分析軸抽出手段103の詳細構成図で、実施の形態１における図５の特徴語整列手段503に替えて、カテゴリ別特徴語整列手段2101とカテゴリ定義データベース2102が備えられている。その他は図５の構成と同様であり、同一の番号で示し説明を省く。
分析処理の概要処理フローは図２に示す実施の形態１と同様であり、本実施の形態では説明を省略する。
図２２は分析軸抽出ステップS202の詳細フロー図である。実施の形態１と同一のステップについては、図６と同一の番号で示している。

まず図２２のステップS601では、実施の形態１と同様にして単語属性値共起頻度集計手段501が、単語データベース111および属性データベース112を参照して、属性欄aおよび自由記述欄t毎に属性値単語共起表Ｍ(a,t)を生成する。つぎにステップS602において、実施の形態１と同様にして属性別単語特徴度計算手段502が、図７に示した属性値単語共起頻度表Ｍ(a,t)をもとに各単語の特徴度を計算する。

つぎに、図２２のステップS2201において、カテゴリ別特徴語整列手段2101がカテゴリ定義データベース2102を参照して、特徴語をカテゴリ別に分類して整列する。図２３にカテゴリ定義データベース2102に格納するデータ例を示す。この例では、各種の故障データ中に頻出する用語を「現象」「状態」「処置」に分類して表示するためのカテゴリ定義を示している。カテゴリ定義はすべて人手により作成してもよいし、属性毎に抽出した特徴語から適宜選択して作成してもよい。

図２４にカテゴリ定義を用いて整列した特徴語の例を示す。このようにカテゴリ別に整列分類した特徴語に対する分析結果を表示することにより、分析目的に応じて必要なカテゴリに対する分析結果のみ参照することができるので、分析作業を効率よく進めることができる。

実施の形態４．
上記の実施の形態１、実施の形態２、および実施の形態３は、属性や単語の指定をせずとも、簡単に分析結果を得ることができるようにしたものであるが、次に、属性毎の特徴語抽出において「その他」などの不要な属性値を指定または自動検出することにより、分析により適した特徴語を抽出できる実施の形態を示す。

図２５は、このような場合の分析軸抽出手段103の詳細構成図である。図において、2501は属性値単語共起表Ｍ(a,t)から不要な属性値を検出する不要属性値検出手段、2502は入力手段102から不要な属性値の指定を受け付ける不要属性値指定手段、2503は不要属性値に関する情報を、属性値単語共起表Ｍ(a,t)から除去する不要属性値除去手段であり、図５と同様の構成は同一の番号で示し説明を省略する。
分析処理の概要処理フローは図２に示す実施の形態１と同様であり、本実施の形態では説明を省略する。
また、図２６は分析軸抽出手段103の分析軸候補抽出ステップS202の詳細フロー図であり、実施の形態１と同一のステップについては、図６と同一の番号で示している。

まず図２６のステップS601では、実施の形態１と同様にして単語属性値共起頻度集計手段501が、単語データベース111および属性データベース112を参照して、属性欄aおよび自由記述欄t毎に属性値単語共起表Ｍ(a,t)を生成する。

つぎに、図２６のステップS2601において、不要属性値検出手段2501が属性値単語共起表Ｍ(a,t)から不要な属性値を検出する。不要な属性値の検出は、Ｍ(a,t)の列に対して分散を計算し、所定の分散値以下となった属性値、すなわち、単語毎の特徴をあまり示さない属性値については各種の傾向を判定するうえで重要ではないと判断し、不要と判定する。

つぎに、図２６のステップS2602において、不要属性値指定手段2502が入力手段102からユーザが入力した不要な属性値の指定を受け付ける。不要な属性値は手作業ですべて定義してもよいし、ステップS2601において抽出した属性値をユーザに提示して確認を求めるようにしてもよい。

つぎに、図２６のステップS2603において、不要属性値除去手段2503が上記で得られた不要属性値に関する情報を、属性値単語共起表Ｍ(a,t)から除去する。不要な属性値を除去することにより、属性別単語特徴度計算手段502が属性別単語特徴度を計算する際にノイズとなりえる属性値を無視して計算できるので、分析により適した特徴語を抽出することができる。

つぎに、図２６のステップS602において、実施の形態１と同様にして属性別単語特徴度計算手段502が、上記ステップS2603で不要属性値を除去した属性値単語共起表Ｍ(a,t)’をもとに各単語の特徴度を計算する。さらに、ステップS603において、実施の形態１と同様に特徴語整列手段503が、ステップS2001で計算した特徴度を用いて特徴語を抽出し、見出し情報303または品詞情報304を用いて整列する。さらに、図２のステップS203では、傾向表示手段105により単語の出現傾向を表示する。

以上、説明したように、不要属性値を検出・指定したうえで不要属性値を除去した属性値単語共起表をもとに特徴語を抽出するので、分析により適した特徴語を抽出することができる。

実施の形態５．
上記の実施の形態１、実施の形態２、実施の形態３、および実施の形態４は、属性や単語の指定をせずとも、簡単に分析結果を得ることができるようにしたものであるが、次に、多数の特徴語が抽出された場合に興味深い特徴語を簡単に指定して傾向表示できる実施の形態を示す。

図２７は、このような場合の傾向表示手段105の詳細構成を示す実施の形態５の構成図である。図において、2701は特徴度の値および頻度に基づいて複数の特徴語を概観表示する特徴語概観表示手段、2702は入力手段102からの選択指示を受け付けて傾向表示すべき特徴語を選択する表示対象特徴語選択手段であり、図１１と同様の構成は同一の番号で示し説明を省略する。
分析処理の概要処理フローは図２に示す実施の形態１と同様であり、本実施の形態では説明を省略する。
また、図２８は傾向表示手段105の傾向表示ステップS203の詳細フロー図であり、実施の形態１と同一のステップについては、図１２と同一の番号で示している。

まず図２８のステップS2801では、特徴語概観表示手段2701が特徴度の値および頻度に基づいて複数の特徴語を属性ごとに概観表示する。具体的には各特徴語の頻度をx軸方向の座標とし、属性別単語特徴度計算手段502により計算された特徴度の値をy軸方向の座標として２次元上に配置して表示する。表示例を図２９に示す。図２９に示した例では、右上のプルダウンメニューにより対象属性を選択できる。多数の特徴語が抽出される場合、このような属性ごとの概観表示で視覚的に示すことにより、分析作業者が興味のある特徴語を容易に選択することが可能となる。

つぎに、図２８のステップS2802において、表示対象特徴語選択手段2702が入力手段102からの選択指示を受け付けて、傾向表示すべき特徴語を選択する。選択指示については、図２９に例として示した画面上で、マウスクリック等により行うものとする。

つぎに、図２８のステップS1201において、実施の形態１と同様にして、上記ステップS2802において選択された属性および特徴語について、集計手段104により単語データベース111および属性データベース112を参照して属性値別の件数を取得し、傾向表示手段105が折れ線グラフ等で視覚的に表示する。

つぎに、図２８のステップS1202において、実施の形態１と同様にして、傾向表示手段105が入力手段102から入力された表示切替指示を検出する。指示が検出されなければグラフをそのまま表示して傾向表示ステップを終了する。指示が検出された場合は、指示の内容に応じてステップS1203からステップS1205までのいずれかのステップに進み強調表示を行う。

以上、説明したように、多数の特徴語が抽出された場合には、概観表示によりこれらの特徴語が視覚的に示されるので、興味深い特徴語の選択が容易となり分析作業を効率化することができる。

分析軸候補抽出手段により、「出現回数が多い重要な単語」および「ある属性において平均からはずれた出現傾向を示す重要な単語」を自動的に抽出するので、ユーザは分析の際にいちいち単語および属性値を指定する必要がなく、簡単に分析結果を得ることができ文書知識サーバ（故障データのテキストマイニング）や施設情報管理システムなどに適用可能である。

本発明の実施の形態１を示す構成図である。分析処理の概要を示す処理フロー図である。単語データベースに格納される単語情報例の説明図である。属性データベースに格納される属性情報例の説明図である。分析軸抽出手段の詳細構成図である。分析軸候補抽出ステップの詳細処理フロー図である。属性値単語共起表の例を示す図である。単語頻度ベクトルおよび属性値頻度ベクトルの説明図である。各単語の特徴度計算結果の例を示す図である。特徴語整列手段による整列結果の説明図である。傾向表示手段の詳細構成を示すテキストマイニング装置の構成図である。傾向表示ステップの詳細処理フロー図である。通常傾向表示の出力例を示す図である。表示切替指示を行なうための入力画面例を示す図である。頻出単語強調表示結果の例を示す図である。傾向相違単語強調表示結果の例を示す図である。傾向相違点強調表示結果の例を示す図である。クロス表表示形式での強調表示例を示す図である。実施の形態２における分析軸抽出手段の詳細構成図である。実施の形態２における分析軸抽出ステップの詳細処理フロー図である。実施の形態３における分析軸抽出手段の詳細構成図である。実施の形態３における分析軸抽出ステップの詳細処理フロー図である。カテゴリ定義データベースに格納されるデータ例を示す図である。カテゴリ定義を用いて整列した特徴語の例を示す図である。実施の形態４における分析軸抽出手段の詳細構成図である。実施の形態４における分析軸抽出ステップの詳細処理フロー図である。本発明の実施の形態５を示す構成図である。実施の形態５における傾向表示ステップ５の詳細フロー図である。実施の形態５における概観表示例を示す図である。従来のテキストマイニング装置の構成図である。

符号の説明

101：登録手段、110：分析対象文書、111：単語データベース、112：属性データベース、102：入力手段、103：分析軸候補抽出手段、104：集計手段、105：傾向表示手段、501：単語属性値共起頻度集計手段、502：属性別単語特徴度計算手段、503：特徴語整列手段、1101：頻出単語強調表示手段、1102：傾向相違単語強調表示手段、1103：傾向相違点強調表示手段、1401：強調表示選択ボタン、1402：表示語数指定スライドバー、1901：連続属性単語特徴度計算手段、2101：カテゴリ別特徴語整列手段、2102：カテゴリ定義データベース、2501：不要属性値検出手段、2502：不要属性値指定手段、2503：不要属性値除去手段、2701：特徴語概観表示手段、2702：表示対象特徴語選択手段。

Claims

分析対象文書から、各テキストの単語及び各テキストの属性値を抽出して単語データベースと属性データベースに登録する登録手段と、
分析対象文書を分析するための分析軸候補となる単語を上記単語データベースと属性データベースから属性別に抽出する分析軸候補抽出手段と、
分析軸候補抽出手段により抽出された単語の属性値毎の出現頻度を集計する集計手段と、
上記集計した出現頻度を視認し易いように表示するとともに、必要に応じて上記分析軸候補抽出手段により抽出された単語の出現傾向のうち特徴的な部分の表示態様を他の単語の表示態様と変えて表示する傾向表示手段とを備えるテキストマイニング装置。
上記分析軸候補抽出手段が、
上記単語データベースおよび属性データベースを参照して属性値単語共起表を作成する属性値単語共起頻度集計手段と、
属性値単語共起表を基に属性別に各単語の特徴度を計算する属性別単語特徴度計算手段と、
算出された特徴度を基に属性毎に特徴的な単語を抽出して整列する特徴語整列手段とを備えることを特徴とする請求項１記載のテキストマイニング装置
上記分析軸候補抽出手段の属性別単語特徴度計算手段が、
連続属性に対して隣接する属性値との関係を考慮して各単語の特徴度を計算する連続属性単語特徴度計算手段であることを特徴とする請求項２記載のテキストマイニング装置。
上記分析軸候補抽出手段が、
単語のカテゴリを定義するカテゴリ定義データベースを備え、
上記特徴語整列手段は、属性毎に特徴的な単語を抽出し、上記カテゴリデータベースで定義されたカテゴリによって整列するカテゴリ別特徴語整列手段で構成されることを特徴とする請求項２または請求項３に記載のテキストマイニング装置。
上記分析軸候補抽出手段が、
上記属性値単語共起頻度集計手段で作成された属性値単語共起表の値にもとづいて不要な属性値を検出する不要属性値検出手段と、
検出された不要な属性値を参照し、不要属性値を指定する不要属性値指定手段と、
指定された不要属性値に関わる情報を上記属性値単語共起表から除去する不要属性値除去手段とを更に備えることを特徴とする請求項２ないしは請求項４の何れかに記載のテキストマイニング装置。
上記傾向表示手段が、
上記属性別単語特徴度計算手段により計算された特徴度の値に基づいて頻出単語の強調表示をする頻出単語強調表示手段と、
同じく上記属性別単語特徴度計算手段により計算された特徴度の値に基づいて傾向相違単語の強調表示をする傾向相違単語強調表示手段と、
また、同じく上記属性別単語特徴度計算手段により計算された特徴度の値に基づいて傾向相違点の強調表示をする傾向相違点強調表示手段とを備えることを特徴とする請求項２ないしは請求項５の何れかに記載のテキストマイニング装置。
上記傾向表示手段が、
上記属性別単語特徴度計算手段により計算された特徴度の値および頻度に基づいて複数の特徴語を概観表示する特徴語概観表示手段と、
上記特徴語概観表示手段により表示された特徴語のうち分析対象とすべき単語を複数選択して傾向表示させるための傾向表示対象特徴語選択手段とを備えることを特徴とする請求項２ないしは請求項５の何れかに記載のテキストマイニング装置。
分析対象文書から、各テキストの単語、及び各テキストの属性値を抽出して単語データベースと属性データベースに登録する登録手順と、
対象文書を分析するための分析軸候補となる単語を上記単語データベースと属性データベースから属性別に抽出する分析軸候補抽出手順と、
分析軸候補抽出手段により抽出された単語の各属性値毎の出現頻度を集計する集計手順と、
上記集計した出現頻度を視認し易いように表示するとともに、必要に応じて上記分析軸候補抽出手順により抽出された単語の出現傾向のうち特徴的な部分の表示態様を他の単語の表示態様と変えて表示する傾向表示手順とをコンピュータに実行させるテキストマイニングプログラム。