JP2006146802A

JP2006146802A - テキストマイニング装置およびテキストマイニング方法

Info

Publication number: JP2006146802A
Application number: JP2004339262A
Authority: JP
Inventors: Akito Nagai; 明人永井; Takeyuki Aikawa; 勇之相川; Yasuhiro Takayama; 泰博高山; Makoto Imamura; 誠今村
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2004-11-24
Filing date: 2004-11-24
Publication date: 2006-06-08

Abstract

【課題】従来のテキスト分析は、異表記の同一部品が別単語にカウントされないよう人手で構築した同義語辞書や類義語辞書を使用し、開発コストが大きい。一方、単語の出現傾向から関連性を獲得し、人手による類義語辞書なしで異表現文書が検索可能な技術は精度が低く、詳細分析業務には向かない。
【解決手段】登録部で分析対象文書の統計情報と属性情報を別々のデータベースに格納し、分析基準の属性を入力部で指定し、指定属性対応キーワードを特徴語抽出部で統計情報から抽出し、キーワードと属性を関連付けて集計部で集計する。一方、抽出キーワードの関連語を関連語抽出部で統計情報から抽出し、関連語頻度加算部で関連語と属性を関連付けて集計して上記集計結果と加算し、関連語合算頻度傾向表示部で表示する。また、上記関連語と異なる傾向を示す他の関連語を関連語傾向相違検出部で検出し、関連語展開傾向表示部で、上述の関連語とは別の態様で表示する。
【選択図】図１

Description

この発明は、製品企画や品質管理などの業務で必要とされる情報を蓄積された大量のテキストから抽出して、業務遂行のために活用できるよう加工するテキストマイニング技術に関するものである。

文書の電子化が進み、大量に存在する文書から短時間で必要な情報を取得するための検索装置の重要性が増している。このような検索装置のうち、入力文書とは異なる表現であっても類似する内容をもつ文書を検索可能なテキストマイニング装置として、文献１（特開２００３−１４１１３４号公報「テキストマイニング処理方法およびその実施装置」）で開示されている従来技術がある。上記の文献１により開示されたテキストマイニング方式について図１６により説明する。

図１６において、１０１は登録部であり、分析対象文書１１０に含まれるテキストを解析し、単語に分割し、その統計情報を単語データベース１１１に格納する。また、各文書に関連づけられた属性（故障データ分析の場合は機種名、故障種別、故障発生日など）を属性データベース１１２に格納する。１０２は入力部であり、ユーザが分析対象とする軸（分析軸）を属性名で指定する。１０３は特徴語抽出部であり、上記単語データベース１１１中の統計情報を用いて、上記入力部１０２で指定した分析軸において特徴的な語をキーワードとして抽出する。このとき特徴語抽出部１０３は人手により作成された類義語辞書１３２を参照して、異表記の類義語も抽出する。１０５は集計部であり、上記抽出されたキーワードと属性データベース１１２中の属性値との関係を集計する。１３１は傾向表示部であり、上記集計部１０５からの集計情報に基づいて属性ごとのキーワードの出現傾向を表示する。
このようなテキストマイニング装置により、たとえば、新聞記事などを対象として、食中毒に関する話題が経時的にどのように推移しているかなどの分析支援が可能である（文献１）。

一方、単語の出現傾向をもとに言葉の関連性を自動的に獲得して、表現の異なる文書を検索可能とする技術が文献２（特開２００２−１５００１号公報）をはじめとして多数開示されている。これらの技術を用いることにより、人手で類義語辞書を作成しなくても表現の異なる文書を検索することが可能である。

特開２００３−１４１１３４号公報特開２００２−１５００１号公報

しかし、文献１で開示された従来の技術では、例えば部品名の「○○ホルダ」が、異なる表記の「○○フォルダ」として記載された場合、同一部品であるにもかかわらず、別単語としてカウントされてしまい、正確な分析ができないのを防ぐため、上記の例のような多様な表現がなされるテキストを分析するには、同義語辞書や類義語辞書を人手で構築しており、開発コストが大きいという課題がある。

また、文献２で開示された技術によれば、言葉の関連性を自動学習できるが、人手で作成する同義語辞書や類義語辞書と比較すると精度が低いため、文書の曖昧検索というタスクでは有効であっても、故障データ分析のような詳細分析業務でそのまま利用するには精度が低いという課題がある。

たとえば、曖昧検索の場合では、文書に含まれる単語全体の出現傾向により文書の類似度を算出するため、自動学習された単語レベルの精度が低くても、文書レベルの検索精度には大きな影響を及ぼさない。しかし、故障データ分析の場合では、部品名の「○○ホルダ」のような単語自体が分析対象となるため、「○○ホルダ」の関連語の学習精度が低ければ、関連語として採用するか否かの判断が困難になり、分析者の業務に直接支障をきたすことになる。

この発明は上記課題を鑑みてなされたものであり、特徴語から関連語に自動展開してクロス集計することにより、手作業による同義語辞書作成なしで「○○ホルダ」と「○○フォルダ」のような表記ゆれを吸収し、同一部品とみなしてキーワードの傾向分析を可能とする。
さらに、属性値との共起出現傾向が著しく異なる関連語を検出し、他の関連語とは異なる態様（色を変える、など）で視覚化して表示することにより、自動展開された関連語の採用可否の判定を容易にする。

この発明に係わるテキストマイニング装置は、
単語の統計情報を格納する単語データベースと、
単語の属性情報を格納する属性データベースと、
分析対象文書中のテキストを解析して得られる統計情報を上記単語データベースに格納するとともに分析対象文書に付与された属性情報を上記属性データベースに格納する登録部と、
分析対象文書の分析軸となる属性を指定する入力部と、
指定された属性に対応して特徴的な傾向を示す語であるキーワードを上記単語データベースの統計情報から抽出する特徴語抽出部と、
上記キーワードと属性データベース中の属性とを関連付けて集計する集計部と、
抽出された各キーワードに関連する語を上記単語データベースの統計情報から自動的に抽出する関連語抽出部と、
上記抽出された関連語と属性データベース中の属性とを関連付けて集計し、上記集計部の集計結果と加算する関連語頻度加算部と、
上記関連語の集計結果に基づき、関連語の中で他の関連語とは異なる傾向を示す関連語を検出する関連語傾向相違検出部と、
上記関連語頻度加算部で加算した集計結果を表示する関連語合算頻度傾向表示部と、
上記各関連語の集計結果に基づき傾向を表示する際に上記関連語傾向相違検出部により検出された他の関連語を異なる態様で表示する関連語展開傾向表示部とを有する。

この発明によれば、関連語抽出部において特徴語から関連語に自動展開して集計することにより、手作業による同義語辞書作成なしで「○○ホルダ」と「○○フォルダ」のような表記ゆれを吸収し、同一部品とみなしてキーワードの傾向分析を可能とするという効果が得られる。
またさらに、関連語傾向相違検出部により、属性値との共起出現傾向が著しく異なる関連語を検出し、関連語展開傾向表示部において他の関連語とは異なる態様（色を変える、など）で視覚化して表示することで、自動展開された関連語の採用可否の判定を容易にすることができるという効果が得られる。

実施の形態１．
図１にこの発明の実施の形態１における構成図を示す。本実施の形態のテキストマイニング装置では、登録部１０１と、入力部１０２と、特徴語抽出部１０３と、関連語抽出部１０４と、集計部１０５と、関連語頻度加算部１０６と、関連語傾向相違検出部１０７と、関連語合算頻度傾向表示部１０８と、関連語展開傾向表示部１０９とを有し、さらに、単語データベース１１１と、属性データベース１１２とを有している。

登録部１０１は、分析対象文書１１０中のテキストを解析して得られる統計情報を単語データベース１１１に格納するとともに分析対象文書１１０に付与された属性情報を属性データベース１１２に格納する。入力部１０２は、分析対象文書１１０を分析するための分析軸となる属性を分析者が指定する。特徴語抽出部１０３は、入力部１０２により指定された属性に対応して特徴的な傾向を示す語であるキーワードを単語データベース１１１に格納された統計情報より抽出する。関連語抽出部１０４は、特徴語抽出部１０３で抽出された各キーワードに関連する語を自動的に単語データベース１１１に格納された統計情報より抽出する。集計部１０５は、キーワードと属性データベース１１２中の属性とを関連付けて集計する。

関連語頻度加算部１０６は、抽出された関連語と属性データベース１１２中の属性とを関連付けて集計し、集計部１０５の集計結果と加算する。関連語傾向相違検出部１０７は、関連語の集計結果に基づき関連語とは異なる傾向を示す他の語を検出する。関連語合算頻度傾向表示部１０８は、関連語頻度加算部１０６で加算した集計結果を表示する。関連語展開傾向表示部１０９は、各関連語の集計結果に基づき傾向を表示する際に、関連語傾向相違検出部１０７により検出された他の関連語を関連語抽出部１０４で抽出された関連語とは異なる態様で表示する。単語データベース１１１は、単語の統計情報を格納する。属性データベース１１２は、分析対象文書に付与された属性情報を格納する。

図２は、分析処理の概要を示す処理フローである。以下、図１から図７までを適宜参照しつつ分析処理の概要について説明する。

まずステップＳ２０１において、登録部１０１により分析対象文書１１０を読み込み、単語の統計情報を単語データベース１１１に格納するとともに、文書の属性情報を属性データベース１１２に格納する。単語の統計情報は、登録する分析対象文書１１０中に含まれるテキストを解析して得られるものであり、例えば、テキストの解析部として形態素解析を利用してテキストを単語に分割し、以下の３種類を単語の統計情報として算出する。
（１）単語の出現頻度（ｔｆ：ｔｅｒｍｆｒｅｑｕｅｎｃｙ）：テキスト中に出現する単語の頻度を、各単語ごとに集計した値である。この値が大きいほど、文書集合の中で頻出する単語であることを意味する。
（２）単語の出現文書数（ｄｆ：ｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）：ある単語が出現する文書の数を、各単語ごとに集計した値である。ｄｆの値が大きいと、当該単語が文書集合の広い範囲で共通して出現することを意味し、逆にｄｆの値が小さいと、文書集合の狭い範囲で特徴的に偏って出現することを意味する。ｄｆの逆数であるｉｄｆ（ｉｎｖｅｒｔｅｄｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）は、文書集合の中で、単語がどれだけ特徴的に偏って出現するかの指標として用いられる。
（３）単語の共起頻度：２つの単語が、着目するテキスト領域内で共に出現する頻度を、単語の要素を行と列に持つ行列の形式（単語共起頻度行列）で集計した値である。着目するテキスト領域としては例えば、文書内、ページ内、段落内、文内などの領域であり、さらに、一定個数の文字や単語数内も用いることができる。

登録部１０１は、以上の３種類の単語統計情報を、図３に示すような形式で単語データベース１１１へ格納する。図中、（Ａ）は単語出現頻度（ｔｆ）、及び単語出現文書数（ｄｆ）を格納する形式であり、形態素解析の結果得られる単語見出しと品詞の情報に対応付けられる。（Ｂ）は、単語共起頻度行列を格納する形式であり、単語同士が共起する頻度を行列の形式で保持する。これらの単語統計情報は、後述の文書の属性情報に対応して格納され、属性情報が指定された場合に、該当する単語統計情報が参照できるようにしておく。

また、文書の属性情報は、各文書に付与された属性名と属性値の対の集合である。例えば、故障データ分析の場合では、故障報告書内に記載されている「機種名」、「故障部位」、「故障種別」、「故障発生日」などの属性名に対応して、それぞれ「Ａ−０１」、「○○ホルダ」、「破損」、「２００３年３月２日」などの属性値が付与されている。登録部１０１は、これらの属性情報を、図４に示すような形式で属性データベース１１２へ格納する。

次にステップＳ２０２において、入力部１０２により、分析軸となる属性情報（属性名、属性値）を分析者が指定する。属性情報の指定方法は、例えば、属性データベース１１２に格納してある属性名の一覧をメニュー形式で表示し、分析者が属性名と属性値の範囲を選択するか、キーボード入力することで指定するようにできる。指定する属性名は複数の指定を可能とし、属性情報リストとして特徴語抽出部１０３へ出力する。

ステップＳ２０３においては、特徴語抽出部１０３により、単語データベース１１１に格納された単語の統計情報を参照して、属性名リストで指定された属性名に対応して特徴的な傾向を示す語であるキーワードを抽出する。例えば、単語の出現頻度（ｔｆ）の順に上位からＮ個（Ｎは整数）を選択してキーワードとする。さらに、単語の特徴的な出現傾向を示す指標であるｉｄｆを、ｔｆに乗じた値（ｔｆ・ｉｄｆ）を単語ごとに算定し、ｔｆ・ｉｄｆの値の順に上位からＮ個（Ｎは整数）を選択してキーワードとしても良い。抽出されたキーワードはキーワードリストとして関連語抽出部１０４へ出力される。

ステップＳ２０４では、関連語抽出部１０４により、単語データベース１１１に格納された単語の統計情報を参照して、特徴語抽出部１０３により抽出されたキーワードリストの各キーワードに対する関連語を抽出する。
関連語の抽出処理の一実施例としては、まず、関連語抽出部１０４は、単語の統計情報として単語データベース１１１に格納された単語共起頻度行列を参照し、各行の単語に対する共起単語の頻度から、単語共起頻度ベクトルを作成する。例えば、単語が「○○ホルダ」の場合、図３の（Ｂ）では、単語共起頻度行列の１行目に対応する頻度集合｛１２、４、４６、９、・・・｝より、ベクトルの長さが１になるように正規化された単語共起頻度ベクトルＶ１＝｛０．１０、０．０３、０．３１、０．０５、・・・｝を作成する。このようにして、単語共起頻度行列の全ての行について単語共起頻度ベクトルＶ１〜ＶN（Nは、単語総数）を作成する。

次に、キーワードに対応する単語共起頻度ベクトルＶKと、単語共起頻度行列の全ての行に対する単語共起頻度ベクトルＶ１〜ＶNとの類似度を計算する。類似度は、例えば、単語共起頻度ベクトル同士の内積値により定義する。あるいは、単語共起頻度行列に対して特異値分解のような次元圧縮処理を施した行列を用いても良い。類似度計算の結果、類似度が所定の閾値以上であるか、類似度の高い順に上位所定個数内に存在する共起単語を、キーワードに対する関連語として出力する。

また、関連語の抽出処理の別の実施例としては、単語見出しの文字列としての類似性を定義する文字列類似度を用いても良い。例えば、２つの単語Ｗ1（文字数ｍ）と、Ｗ2（文字数ｎ）が与えられた場合、両者に共通する最長部分文字列の長さをＬとして、単語Ｗ1とＷ2との文字列類似度Ｓｉｍを以下のように定義する。
Ｓｉｍ＝（Ｌ／ｍ＋Ｌ／ｎ）／２
上記の実施例によれば、表記の異なる「○○ホルダ」と「○○フォルダ」との類似性を算定できるようになるため、キーワードと表記が異なる単語を関連語として求めることができる。

次に、ステップＳ２０５において、集計部１０５は、特徴語抽出部１０３により抽出されたキーワードと属性データベース１１２中の属性とを関連付けて集計する。例えば、入力部１０２により分析軸となる属性として「使用期間」が指定された場合、属性データベース１１２中で属性「使用期間」の属性値を参照し、属性値の分布する値の範囲に「１年間」「２年間」などのような属性値区分を設けて、各属性値区分ごとに、該当する文書ＩＤ中に存在するキーワードの出現頻度を集計し、クロス集計の形式で集計結果を出力する。

また、ステップＳ２０６においては、関連語頻度加算部１０６により、関連語抽出部１０４で抽出された関連語と属性データベース１１２中の属性とを関連付けて、上記キーワードの集計と同様に、各属性値区分ごとに、該当する文書ＩＤ中に存在する関連語の出現頻度を集計し、上記キーワードの集計結果と加算する。

上記のようにして得られたキーワードと関連語の集計結果は、例えば、図５に示すようなクロス集計の形式となり、各キーワード、及び関連語に対して、属性「使用期間」の各属性値区分「１年間」「２年間」などに分けられて集計される。

次に、ステップＳ２０７において、関連語傾向相違検出部１０７は、関連語の集計結果に基づき、関連語の中で出現頻度が最大を示すなど他の関連語とは異なる傾向を示す関連語を検出する。例えば、属性「使用期間」の各属性値区分において、出現頻度が最大値を示す属性値区分において上記関連語と異なる他の関連語を検出する。あるいは、上記の出現頻度の最大値に代えて、出現頻度の時系列変化量の最大値を用いても良い。

上記のステップＳ２０６により得られた集計結果に対して、ステップＳ２０８において、関連語合算頻度傾向表示部１０８により、関連語頻度加算部１０６で加算した集計結果を表示する。図６、及び図７に集計結果の表示の例を示す。図６は、関連語の出現件数の折れ線グラフ表示の例であり、「☆☆ユニット」「○○ホルダ」などの部品別に、使用期間ごとの出現傾向の推移を折れ線グラフで表示する。このとき、「○○ホルダ」の関連語（「○○フォルダ」「□□ホルダ」など）も含めて、各部品の使用期間ごとの故障件数を集計してグラフ化する。さらに、グラフをクリックすると、該当部品の関連語一覧が図５のようなクロス集計の形式で表示され、各関連語ごとの故障件数の詳細が表示される。

また、図７は、関連語の出現件数の棒グラフ表示の例であり、「☆☆ユニット」「○○ホルダ」などの部品別の件数を積み上げた棒グラフで表示する。このように表示することで、全体の故障件数の推移とともに、各部品の故障件数が全体に占める割合も分かりやすく表示できるようになる。
なお、上記のグラフ表示では、横軸の属性を例えば「機種名」のような他の属性に変更して表示可能であるため、様々な観点からの分析ができるようになる。

さらに、ステップＳ２０９において、関連語展開傾向表示部１０９により、関連語傾向相違検出部１０７で検出された他の関連語とは異なる関連語を、他の関連語とは異なる態様で表示する。例えば、関連語を表示する文字の色、大きさ、文字種類（フォント）などを変えて視覚化して表示する。

以上、説明したように、本実施の形態によれば、関連語抽出部において特徴語から関連語に自動展開してクロス集計することにより、手作業による同義語辞書作成なしで「○○ホルダ」と「○○フォルダ」のような表記ゆれを吸収し、同一部品とみなしてキーワードの傾向分析を可能とするという効果が得られる。

さらに本実施の形態によれば、関連語傾向相違検出部により、属性値との共起出現傾向が著しく異なる関連語を検出し、関連語展開傾向表示部において他の関連語とは異なる態様（色を変える、など）で視覚化して表示することで、自動展開された関連語の採用可否の判定を容易にすることができるという効果が得られる。

実施の形態２．
次に、この発明を利用したテキストマイニング装置に関して別の実施の形態について説明する。図８は本実施の形態２における構成図を示す。本構成は、実施の形態１の構成に加え、目的語抽出部１１３を設けたものであり、他の構成については実施の形態１と同様であり説明を省略する。

図９は、本実施の形態２における分析処理の概要を示す処理フローである。以下、図８、及び図９を適宜参照しながら処理の流れを説明する。

まず、図９のステップS９０１において、実施の形態１と同様の処理を実行し、集計部１０５は集計結果を得る。この集計結果は目的語抽出部１１３に保存されると共に、そのまま関連語合算頻度傾向表示部１０８と関連語展開傾向表示部１０９により表示される。

次に、ステップS９０２において、分析者は表示された集計結果から分析で着目する単語を目的語として入力部１０２において指定する。例えば、集計結果から「○○リーダ」に着目して分析する場合、目的語として「○○リーダ」を入力部１０２により入力する。

ステップS９０３では、目的語抽出部１１３により、上記集計部１０５の集計結果から、目的語を含むキーワード及び関連語を抽出して目的語として分類する。例えば、目的語「○○リーダ」に対して、「□□リーダ」、「△△装置用○○リーダ」、「○○リーダユニット」「○○リーダ内ＬＥＤ」などのように、部分的に完全一致するキーワード及び関連語を抽出するとともに、抽出された目的語の関連語であることを示す分類として、例えば、＜目的語＞というタグを抽出結果に付与して出力する。

ステップS９０４では、関連語合算頻度傾向表示部１０８において、目的語抽出部１１３により抽出された目的語を、付与された分類に従って表示し直す。例えば、図５において、抽出された目的語を上位に分類して表示する。

さらに、ステップS９０３の目的語抽出部１１３において、キーワード及び関連語内で構成される部分語の修飾関係に従って抽出と分類を行なうことにより、より詳細な分類が可能となる。例えば、「△△装置用○○リーダ」、「○○リーダ内ＬＥＤ」のように、「〜用〜」、「〜内〜」、「〜部〜」という修飾関係を規定する語に従って、部分語「△△装置」には＜目的語：修飾＞、部分語「○○リーダ」には＜目的語：被修飾＞という分類を付与することで、修飾、被修飾別に分類して集計結果を表示できるようになる。このようにすることで、目的語「△△装置用○○リーダ」の場合には、目的語全体として表現する部品は、被修飾部分である「○○リーダ」であり、他の「○○リーダ」や「××装置用○○リーダ」という同一部品を表す目的語も含めて分析することができる。また、キーワード及び関連語の追加、削除が容易になるという利点がある。

本実施の形態によれば、目的語抽出部により抽出された目的語を、付与された分類に従って上位に分類して表示することで、分析の目的とする関連語を容易に把握できるようになるという効果がある。

さらに、目的語抽出部において、キーワード及び関連語内で構成される部分語の修飾関係に従って抽出と分類を行なうようにしたことで、分析の目的とする関連語を詳細に分析できるという効果がある。

実施の形態３．
次に、この発明を利用したテキストマイニング装置に関してさらに別の実施の形態について説明する。図１０に本実施の形態における構成図を示す。本構成では、実施の形態１の構成に加え、特徴語分類部１１４を設けたものである。他の構成については実施の形態１と同様なので説明を省略する。また、図１１に、本実施の形態において分類知識を用いる構成図を示す。本構成では、図１０の構成に加え、分類知識部１１５を設けたものである。

図１２は、本実施の形態３における分析処理の概要を示す処理フローである。以下、図１０から図１２までを適宜参照しながら処理の流れを説明する。

まず、図１２のステップS１２０１において、実施の形態１と同様の処理を実行し、特徴語抽出部１０３により抽出されたキーワードリストの各キーワードに対する関連語を抽出し、キーワード、及び関連語を出力する。

次に、ステップS１２０２において、特徴語抽出部１０３で抽出されたキーワード、及び関連語抽出部１０４で抽出された関連語を、図１０における特徴語分類部１１４により分類する方法を選択する。キーワード及び関連語を分類する方法としては、一般に、（１）人手で分類項目（カテゴリ）を定義せず、自動的に類似の単語をまとめる方法、（２）予め人手で定義した分類項目に、単語を分類する方法、の２種類に分けられる。本実施の形態における特徴語分類部１１４は、上記の（１）及び（２）の両者の方法を含むものである。

ステップS１２０３においては、（１）の代表的な方法として単語クラスタリングを行う。例えば、キーワード及び関連語が出現した箇所の周辺に存在するテキスト情報を抽出し、抽出したテキスト情報内の単語出現頻度を算定して、各キーワード及び関連語に対する周辺単語出現頻度ベクトルを作成する。この周辺単語出現頻度ベクトル同士の距離値としてベクトルの内積値を計算し、距離値の近いキーワード及び関連語を順次まとめ上げていくと、自動的に類似の単語のまとまり（クラスタ）が生成される。これより、ステップS１２０５において、集計部１０５は、クラスタごとにキーワード及び関連語を集計し、関連語合算頻度傾向表示部１０８において、クラスタに分類して表示するようにする。

一方、ステップS１２０４においては、（２）の代表的な方法として、予め人手で定義した分類項目に単語を分類する。この場合の分類の方法としては、Ａ．単語の統計的情報を利用して分類、Ｂ．人手で作成した分類知識に従って分類、の２通りがある。Ａ．では、例えば、分類項目に含まれる代表的な単語の出現頻度ベクトルを分類項目ベクトルとして作成しておき、前述のキーワード及び関連語の周辺単語出現頻度ベクトルとのベクトル距離値が最も近い分類項目へ分類する。また、Ｂ．では、キーワード及び関連語と、分類項目との関係を定義する分類規則を作成して分類に使用する。この場合の構成図を図１１に示す。特徴語分類部１１４は、分類知識部１１５に分類項目と分類規則が格納された分類知識を参照して、キーワード及び関連語を分類する。これより、ステップS１２０５において、集計部１０５で、分類項目ごとにキーワード及び関連語を集計して、関連語合算頻度傾向表示部１０８において、分類項目に分類して表示するようにする。

分類知識としては、まず、分類項目に対応させて特定の言語パタンを定義する方法がある。例えば、製品名、機種名、型番などは、「（英数字）＋型」、「（英数字）＋形」、「（数字２桁）＋（英字６文字）」といったように、表現する文字列に規則性を有する場合があるため、図１３に示すような、照合する言語パタンとして定義しておく。特徴語分類部１１４は、キーワード及び関連語の文字列中に、上記の言語パタンが含まれていれば、言語パタンに対応する分類項目を付与する。さらに、照合で合致した言語パタンに隣接する（英数字）の文字列を抽出して、より詳細な分類に利用することもできる。このようにして得た分類項目と抽出文字列を用い、集計部１０５で、分類項目ごとにキーワード及び関連語を集計して、関連語合算頻度傾向表示部１０８において、分類項目、さらには抽出文字列に分類して表示するようにする。

次に、分類知識として、人手で定義したシソーラスを用いることもできる。シソーラスは、単語と分類項目との対応、及び分類項目間の関係（上位概念、下位概念、同位概念）を定義する。単語と分類項目との対応により、キーワード及び関連語の分類項目が決定し、さらに、分類項目間の関係により、分類されたキーワード及び関連語同士の関係も決定できるようになる。
さらに、分類知識として、製品体系や部品表といった既存の分類体系を利用して、キーワード及び関連語を分類するようにもできる。

本実施の形態によれば、キーワード、及び関連語を分類する特徴語分類部を設け、関連語合算頻度傾向表示部においてキーワード及び関連語を分類に従って表示するようにしたことで、集計部の集計結果表示の内容把握が容易になるという効果がある。

さらに、キーワード及び関連語の分類を表すカテゴリと、キーワード及び関連語とカテゴリとの関係を定義する分類規則とを分類知識として格納する分類知識部を備え、特徴語分類部は分類知識部に格納された分類知識に従ってキーワード及び関連語をカテゴリに分類するようにしたことで、人手による分類知識が利用可能になり、より正確な分析が行なえるという効果がある。

実施の形態４．
次に、この発明を利用したテキストマイニング装置に関してさらにまた別の実施の形態について説明する。図１４に実施の形態４における構成図を示す。本構成では、図１０に示す構成に加え、編集部１１６を設けたものである。他の構成については図１０に示す構成と同様なので説明を省略する。

図１５は、本実施の形態４における分析処理の概要を示す処理フローである。以下、図１４、及び図１５を適宜参照しながら処理の流れを説明する。

まず、図１５のステップS１５０１において、実施の形態３と同様の処理を実行し、集計部１０５は集計結果を得る。この集計結果は、そのまま関連語合算頻度傾向表示部１０８と関連語展開傾向表示部１０９により表示される。

次に、ステップS１５０２において、図１４の編集部１１６は、集計部１０５から出力された集計（分析）結果に対して、関連語合算頻度傾向表示部１０８で表示対象となるキーワード及び関連語の追加、削除の指定を行なう。

ステップS１５０３においては、関連語合算頻度傾向表示部１０８は、指定されたキーワード及び関連語について、表示対象への追加、削除処理を実行する。この処理を実行する際は、特徴語分類部１１４の分類項目を利用して、指定されたキーワード及び関連語の分類項目が同一である他のキーワード及び関連語を一括して追加、削除処理を行なうようにする。これにより、分析作業の効率化を図ることができる。

本実施の形態によれば、集計（分析）結果に対してキーワード及び関連語の追加、削除の指定を行なう編集部を備え、関連語合算頻度傾向表示部において、指定されたキーワード及び関連語の分類が同一である他のキーワード及び関連語を一括して追加、削除するようにしたことで、分析作業の効率化を図ることができるという効果がある。

関連語抽出部において特徴語から関連語に自動展開して集計することにより、手作業による同義語辞書作成なしで「○○ホルダ」と「○○フォルダ」のような表記ゆれを吸収し、同一部品とみなしてキーワードの傾向分析を可能とし、文書知識サーバ（故障データのテキストマイニング）や施設情報管理システムなどに適用可能である。

この発明の実施の形態１における構成図である。実施の形態１における分析処理の概要を示す処理フロー図である。単語統計情報が単語データベースに格納される形式の説明図であり、（Ａ）は単語出現頻度、及び単語出現文書数を格納する形式、（Ｂ）は、単語共起頻度行列を格納する形式である。属性情報が属性データベースへ格納される形式の説明図である。キーワードと関連語の集計結果の説明図である。関連語集計結果の関連語出現件数を折れ線グラフで表示した説明図である。関連語集計結果の関連語出現件数を棒グラフで表示した説明図である。実施の形態２における構成図である。実施の形態２における分析処理の概要を示す処理フロー図である。実施の形態３における構成図である。実施の形態３において分類知識を用いる構成図である。実施の形態３における分析処理の概要を示す処理フロー図である。実施の形態３における分類知識例の説明図である。実施の形態４における構成図である。実施の形態４における分析処理の概要を示す処理フロー図である。従来技術における構成図である。

符号の説明

１０１：登録部、１０２：入力部、１０３：特徴語抽出部、１０４：関連語抽出部、１０５：集計部、１０６：関連語頻度加算部、１０７：関連語傾向相違検出部、１０８：関連語合算頻度傾向表示部、１０９：関連語展開傾向表示部、１１０：分析対象文書、１１１：単語データベース、１１２：属性データベース、１１３：目的語抽出部、１１４：特徴語分類部、１１５：分類知識部、１１６：編集部。

Claims

単語の統計情報を格納する単語データベースと、
文書の属性情報を格納する属性データベースと、
分析対象文書中のテキストを解析して得られる統計情報を上記単語データベースに格納するとともに分析対象文書に付与された属性情報を上記属性データベースに格納する登録部と、
分析対象文書の分析軸となる属性を指定する入力部と、
指定された属性に対応して特徴的な傾向を示す語であるキーワードを上記単語データベースの統計情報から抽出する特徴語抽出部と、
上記キーワードと属性データベース中の属性とを関連付けて集計する集計部と、
抽出された各キーワードに関連する語を上記単語データベースの統計情報から自動的に抽出する関連語抽出部と、
上記抽出された関連語と属性データベース中の属性とを関連付けて集計し、上記集計部の集計結果と加算する関連語頻度加算部と、
上記関連語の集計結果に基づき、関連語の中で他の関連語とは異なる傾向を示す関連語を検出する関連語傾向相違検出部と、
上記関連語頻度加算部で加算した集計結果を表示する関連語合算頻度傾向表示部と、
上記各関連語の集計結果に基づき傾向を表示する際に上記関連語傾向相違検出部により検出された他の関連語を異なる態様で表示する関連語展開傾向表示部と、
を有することを特徴とするテキストマイニング装置。
分析者により入力部で指定された、分析において着目する単語である目的語を含むキーワードとその関連語を上記集計部の集計結果から抽出して分類する目的語抽出部を備え、
上記関連語合算頻度傾向表示部は抽出された目的語を分類に従って表示する構成にされたことを特徴とする請求項１記載のテキストマイニング装置。
上記目的語抽出部は、キーワードまたは関連語内で構成される部分語の修飾関係に従って抽出と分類を行なう構成にされたことを特徴とする請求項２記載のテキストマイニング装置。
上記特徴語抽出部で抽出されたキーワードと、関連語抽出部で抽出された関連語を分類する特徴語分類部を備え、上記関連語合算頻度傾向表示部はキーワードと関連語を特徴語分類部の分類に従って表示する構成にされたことを特徴とする請求項１ないし請求項３の何れかに記載のテキストマイニング装置。
キーワードと関連語の分類を表すカテゴリと、キーワードと関連語とカテゴリとの関係を定義する分類規則とを分類知識として格納する分類知識記憶部を備え、上記特徴語分類部は分類知識に従ってキーワードと関連語をカテゴリに分類する構成にされたことを特徴とする請求項４記載のテキストマイニング装置。
集計部の集計結果に対してキーワードまたは関連語の追加または削除の指定を行なう編集部を備え、上記関連語合算頻度傾向表示部は、編集部で指定されたキーワードまたは関連語の分類が同一である他のキーワードまたは関連語を追加または削除する構成にされたことを特徴とする請求項４または請求項５記載のテキストマイニング装置。
分析対象文書中のテキストを解析して得られる統計情報を単語データベースに格納するとともに分析対象文書に付与された属性情報を属性データベースに格納する登録ステップと、
分析対象文書の分析軸となる属性を指定する分析軸入力ステップと、
指定された属性に対応して特徴的な傾向を示す語であるキーワードを上記単語データベースの統計情報から抽出する特徴語抽出ステップと、
上記キーワードと属性データベース中の属性とを関連付けて集計する集計ステップと、
抽出された各キーワードに関連する語を上記単語データベースの統計情報から抽出する関連語抽出ステップと、
上記抽出された関連語と属性データベース中の属性とを関連付けて集計し、上記集計ステップの集計結果と加算する関連語頻度加算ステップと、
上記関連語の集計結果に基づき、関連語の中で他の関連語とは異なる傾向を示す関連語を検出する関連語傾向相違検出ステップと、
上記関連語頻度加算ステップで加算した集計結果を表示する関連語合算頻度傾向表示ステップと、
上記関連語傾向相違検出ステップにより検出された他の関連語を上記関連語とは異なる態様で表示する関連語展開傾向表示ステップと、
を有することを特徴とするテキストマイニング方法。