JP2006146802A - テキストマイニング装置およびテキストマイニング方法 - Google Patents
テキストマイニング装置およびテキストマイニング方法 Download PDFInfo
- Publication number
- JP2006146802A JP2006146802A JP2004339262A JP2004339262A JP2006146802A JP 2006146802 A JP2006146802 A JP 2006146802A JP 2004339262 A JP2004339262 A JP 2004339262A JP 2004339262 A JP2004339262 A JP 2004339262A JP 2006146802 A JP2006146802 A JP 2006146802A
- Authority
- JP
- Japan
- Prior art keywords
- word
- unit
- attribute
- words
- tendency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 24
- 238000005065 mining Methods 0.000 title claims description 20
- 238000004458 analytical method Methods 0.000 claims abstract description 55
- 238000000605 extraction Methods 0.000 claims abstract description 48
- 238000001514 detection method Methods 0.000 claims abstract description 14
- 239000000284 extract Substances 0.000 claims description 12
- 230000002776 aggregation Effects 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 7
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000011161 development Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 16
- 239000013598 vector Substances 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 238000007405 data analysis Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 206010016952 Food poisoning Diseases 0.000 description 1
- 208000019331 Foodborne disease Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】従来のテキスト分析は、異表記の同一部品が別単語にカウントされないよう人手で構築した同義語辞書や類義語辞書を使用し、開発コストが大きい。一方、単語の出現傾向から関連性を獲得し、人手による類義語辞書なしで異表現文書が検索可能な技術は精度が低く、詳細分析業務には向かない。
【解決手段】登録部で分析対象文書の統計情報と属性情報を別々のデータベースに格納し、分析基準の属性を入力部で指定し、指定属性対応キーワードを特徴語抽出部で統計情報から抽出し、キーワードと属性を関連付けて集計部で集計する。一方、抽出キーワードの関連語を関連語抽出部で統計情報から抽出し、関連語頻度加算部で関連語と属性を関連付けて集計して上記集計結果と加算し、関連語合算頻度傾向表示部で表示する。また、上記関連語と異なる傾向を示す他の関連語を関連語傾向相違検出部で検出し、関連語展開傾向表示部で、上述の関連語とは別の態様で表示する。
【選択図】図1
【解決手段】登録部で分析対象文書の統計情報と属性情報を別々のデータベースに格納し、分析基準の属性を入力部で指定し、指定属性対応キーワードを特徴語抽出部で統計情報から抽出し、キーワードと属性を関連付けて集計部で集計する。一方、抽出キーワードの関連語を関連語抽出部で統計情報から抽出し、関連語頻度加算部で関連語と属性を関連付けて集計して上記集計結果と加算し、関連語合算頻度傾向表示部で表示する。また、上記関連語と異なる傾向を示す他の関連語を関連語傾向相違検出部で検出し、関連語展開傾向表示部で、上述の関連語とは別の態様で表示する。
【選択図】図1
Description
この発明は、製品企画や品質管理などの業務で必要とされる情報を蓄積された大量のテキストから抽出して、業務遂行のために活用できるよう加工するテキストマイニング技術に関するものである。
文書の電子化が進み、大量に存在する文書から短時間で必要な情報を取得するための検索装置の重要性が増している。このような検索装置のうち、入力文書とは異なる表現であっても類似する内容をもつ文書を検索可能なテキストマイニング装置として、文献1(特開2003−141134号公報「テキストマイニング処理方法およびその実施装置」)で開示されている従来技術がある。上記の文献1により開示されたテキストマイニング方式について図16により説明する。
図16において、101は登録部であり、分析対象文書110に含まれるテキストを解析し、単語に分割し、その統計情報を単語データベース111に格納する。また、各文書に関連づけられた属性(故障データ分析の場合は機種名、故障種別、故障発生日など)を属性データベース112に格納する。102は入力部であり、ユーザが分析対象とする軸(分析軸)を属性名で指定する。103は特徴語抽出部であり、上記単語データベース111中の統計情報を用いて、上記入力部102で指定した分析軸において特徴的な語をキーワードとして抽出する。このとき特徴語抽出部103は人手により作成された類義語辞書132を参照して、異表記の類義語も抽出する。105は集計部であり、上記抽出されたキーワードと属性データベース112中の属性値との関係を集計する。131は傾向表示部であり、上記集計部105からの集計情報に基づいて属性ごとのキーワードの出現傾向を表示する。
このようなテキストマイニング装置により、たとえば、新聞記事などを対象として、食中毒に関する話題が経時的にどのように推移しているかなどの分析支援が可能である(文献1)。
このようなテキストマイニング装置により、たとえば、新聞記事などを対象として、食中毒に関する話題が経時的にどのように推移しているかなどの分析支援が可能である(文献1)。
一方、単語の出現傾向をもとに言葉の関連性を自動的に獲得して、表現の異なる文書を検索可能とする技術が文献2(特開2002−15001号公報)をはじめとして多数開示されている。これらの技術を用いることにより、人手で類義語辞書を作成しなくても表現の異なる文書を検索することが可能である。
しかし、文献1で開示された従来の技術では、例えば部品名の「○○ホルダ」が、異なる表記の「○○フォルダ」として記載された場合、同一部品であるにもかかわらず、別単語としてカウントされてしまい、正確な分析ができないのを防ぐため、上記の例のような多様な表現がなされるテキストを分析するには、同義語辞書や類義語辞書を人手で構築しており、開発コストが大きいという課題がある。
また、文献2で開示された技術によれば、言葉の関連性を自動学習できるが、人手で作成する同義語辞書や類義語辞書と比較すると精度が低いため、文書の曖昧検索というタスクでは有効であっても、故障データ分析のような詳細分析業務でそのまま利用するには精度が低いという課題がある。
たとえば、曖昧検索の場合では、文書に含まれる単語全体の出現傾向により文書の類似度を算出するため、自動学習された単語レベルの精度が低くても、文書レベルの検索精度には大きな影響を及ぼさない。しかし、故障データ分析の場合では、部品名の「○○ホルダ」のような単語自体が分析対象となるため、「○○ホルダ」の関連語の学習精度が低ければ、関連語として採用するか否かの判断が困難になり、分析者の業務に直接支障をきたすことになる。
この発明は上記課題を鑑みてなされたものであり、特徴語から関連語に自動展開してクロス集計することにより、手作業による同義語辞書作成なしで「○○ホルダ」と「○○フォルダ」のような表記ゆれを吸収し、同一部品とみなしてキーワードの傾向分析を可能とする。
さらに、属性値との共起出現傾向が著しく異なる関連語を検出し、他の関連語とは異なる態様(色を変える、など)で視覚化して表示することにより、自動展開された関連語の採用可否の判定を容易にする。
さらに、属性値との共起出現傾向が著しく異なる関連語を検出し、他の関連語とは異なる態様(色を変える、など)で視覚化して表示することにより、自動展開された関連語の採用可否の判定を容易にする。
この発明に係わるテキストマイニング装置は、
単語の統計情報を格納する単語データベースと、
単語の属性情報を格納する属性データベースと、
分析対象文書中のテキストを解析して得られる統計情報を上記単語データベースに格納するとともに分析対象文書に付与された属性情報を上記属性データベースに格納する登録部と、
分析対象文書の分析軸となる属性を指定する入力部と、
指定された属性に対応して特徴的な傾向を示す語であるキーワードを上記単語データベースの統計情報から抽出する特徴語抽出部と、
上記キーワードと属性データベース中の属性とを関連付けて集計する集計部と、
抽出された各キーワードに関連する語を上記単語データベースの統計情報から自動的に抽出する関連語抽出部と、
上記抽出された関連語と属性データベース中の属性とを関連付けて集計し、上記集計部の集計結果と加算する関連語頻度加算部と、
上記関連語の集計結果に基づき、関連語の中で他の関連語とは異なる傾向を示す関連語を検出する関連語傾向相違検出部と、
上記関連語頻度加算部で加算した集計結果を表示する関連語合算頻度傾向表示部と、
上記各関連語の集計結果に基づき傾向を表示する際に上記関連語傾向相違検出部により検出された他の関連語を異なる態様で表示する関連語展開傾向表示部とを有する。
単語の統計情報を格納する単語データベースと、
単語の属性情報を格納する属性データベースと、
分析対象文書中のテキストを解析して得られる統計情報を上記単語データベースに格納するとともに分析対象文書に付与された属性情報を上記属性データベースに格納する登録部と、
分析対象文書の分析軸となる属性を指定する入力部と、
指定された属性に対応して特徴的な傾向を示す語であるキーワードを上記単語データベースの統計情報から抽出する特徴語抽出部と、
上記キーワードと属性データベース中の属性とを関連付けて集計する集計部と、
抽出された各キーワードに関連する語を上記単語データベースの統計情報から自動的に抽出する関連語抽出部と、
上記抽出された関連語と属性データベース中の属性とを関連付けて集計し、上記集計部の集計結果と加算する関連語頻度加算部と、
上記関連語の集計結果に基づき、関連語の中で他の関連語とは異なる傾向を示す関連語を検出する関連語傾向相違検出部と、
上記関連語頻度加算部で加算した集計結果を表示する関連語合算頻度傾向表示部と、
上記各関連語の集計結果に基づき傾向を表示する際に上記関連語傾向相違検出部により検出された他の関連語を異なる態様で表示する関連語展開傾向表示部とを有する。
この発明によれば、関連語抽出部において特徴語から関連語に自動展開して集計することにより、手作業による同義語辞書作成なしで「○○ホルダ」と「○○フォルダ」のような表記ゆれを吸収し、同一部品とみなしてキーワードの傾向分析を可能とするという効果が得られる。
またさらに、関連語傾向相違検出部により、属性値との共起出現傾向が著しく異なる関連語を検出し、関連語展開傾向表示部において他の関連語とは異なる態様(色を変える、など)で視覚化して表示することで、自動展開された関連語の採用可否の判定を容易にすることができるという効果が得られる。
またさらに、関連語傾向相違検出部により、属性値との共起出現傾向が著しく異なる関連語を検出し、関連語展開傾向表示部において他の関連語とは異なる態様(色を変える、など)で視覚化して表示することで、自動展開された関連語の採用可否の判定を容易にすることができるという効果が得られる。
実施の形態1.
図1にこの発明の実施の形態1における構成図を示す。本実施の形態のテキストマイニング装置では、登録部101と、入力部102と、特徴語抽出部103と、関連語抽出部104と、集計部105と、関連語頻度加算部106と、関連語傾向相違検出部107と、関連語合算頻度傾向表示部108と、関連語展開傾向表示部109とを有し、さらに、単語データベース111と、属性データベース112とを有している。
図1にこの発明の実施の形態1における構成図を示す。本実施の形態のテキストマイニング装置では、登録部101と、入力部102と、特徴語抽出部103と、関連語抽出部104と、集計部105と、関連語頻度加算部106と、関連語傾向相違検出部107と、関連語合算頻度傾向表示部108と、関連語展開傾向表示部109とを有し、さらに、単語データベース111と、属性データベース112とを有している。
登録部101は、分析対象文書110中のテキストを解析して得られる統計情報を単語データベース111に格納するとともに分析対象文書110に付与された属性情報を属性データベース112に格納する。入力部102は、分析対象文書110を分析するための分析軸となる属性を分析者が指定する。特徴語抽出部103は、入力部102により指定された属性に対応して特徴的な傾向を示す語であるキーワードを単語データベース111に格納された統計情報より抽出する。関連語抽出部104は、特徴語抽出部103で抽出された各キーワードに関連する語を自動的に単語データベース111に格納された統計情報より抽出する。集計部105は、キーワードと属性データベース112中の属性とを関連付けて集計する。
関連語頻度加算部106は、抽出された関連語と属性データベース112中の属性とを関連付けて集計し、集計部105の集計結果と加算する。関連語傾向相違検出部107は、関連語の集計結果に基づき関連語とは異なる傾向を示す他の語を検出する。関連語合算頻度傾向表示部108は、関連語頻度加算部106で加算した集計結果を表示する。関連語展開傾向表示部109は、各関連語の集計結果に基づき傾向を表示する際に、関連語傾向相違検出部107により検出された他の関連語を関連語抽出部104で抽出された関連語とは異なる態様で表示する。単語データベース111は、単語の統計情報を格納する。属性データベース112は、分析対象文書に付与された属性情報を格納する。
図2は、分析処理の概要を示す処理フローである。以下、図1から図7までを適宜参照しつつ分析処理の概要について説明する。
まずステップS201において、登録部101により分析対象文書110を読み込み、単語の統計情報を単語データベース111に格納するとともに、文書の属性情報を属性データベース112に格納する。単語の統計情報は、登録する分析対象文書110中に含まれるテキストを解析して得られるものであり、例えば、テキストの解析部として形態素解析を利用してテキストを単語に分割し、以下の3種類を単語の統計情報として算出する。
(1)単語の出現頻度(tf:term frequency):テキスト中に出現する単語の頻度を、各単語ごとに集計した値である。この値が大きいほど、文書集合の中で頻出する単語であることを意味する。
(2)単語の出現文書数(df:document frequency):ある単語が出現する文書の数を、各単語ごとに集計した値である。dfの値が大きいと、当該単語が文書集合の広い範囲で共通して出現することを意味し、逆にdfの値が小さいと、文書集合の狭い範囲で特徴的に偏って出現することを意味する。dfの逆数であるidf(inverted document frequency)は、文書集合の中で、単語がどれだけ特徴的に偏って出現するかの指標として用いられる。
(3)単語の共起頻度:2つの単語が、着目するテキスト領域内で共に出現する頻度を、単語の要素を行と列に持つ行列の形式(単語共起頻度行列)で集計した値である。着目するテキスト領域としては例えば、文書内、ページ内、段落内、文内などの領域であり、さらに、一定個数の文字や単語数内も用いることができる。
(1)単語の出現頻度(tf:term frequency):テキスト中に出現する単語の頻度を、各単語ごとに集計した値である。この値が大きいほど、文書集合の中で頻出する単語であることを意味する。
(2)単語の出現文書数(df:document frequency):ある単語が出現する文書の数を、各単語ごとに集計した値である。dfの値が大きいと、当該単語が文書集合の広い範囲で共通して出現することを意味し、逆にdfの値が小さいと、文書集合の狭い範囲で特徴的に偏って出現することを意味する。dfの逆数であるidf(inverted document frequency)は、文書集合の中で、単語がどれだけ特徴的に偏って出現するかの指標として用いられる。
(3)単語の共起頻度:2つの単語が、着目するテキスト領域内で共に出現する頻度を、単語の要素を行と列に持つ行列の形式(単語共起頻度行列)で集計した値である。着目するテキスト領域としては例えば、文書内、ページ内、段落内、文内などの領域であり、さらに、一定個数の文字や単語数内も用いることができる。
登録部101は、以上の3種類の単語統計情報を、図3に示すような形式で単語データベース111へ格納する。図中、(A)は単語出現頻度(tf)、及び単語出現文書数(df)を格納する形式であり、形態素解析の結果得られる単語見出しと品詞の情報に対応付けられる。(B)は、単語共起頻度行列を格納する形式であり、単語同士が共起する頻度を行列の形式で保持する。これらの単語統計情報は、後述の文書の属性情報に対応して格納され、属性情報が指定された場合に、該当する単語統計情報が参照できるようにしておく。
また、文書の属性情報は、各文書に付与された属性名と属性値の対の集合である。例えば、故障データ分析の場合では、故障報告書内に記載されている「機種名」、「故障部位」、「故障種別」、「故障発生日」などの属性名に対応して、それぞれ「A−01」、「○○ホルダ」、「破損」、「2003年3月2日」などの属性値が付与されている。登録部101は、これらの属性情報を、図4に示すような形式で属性データベース112へ格納する。
次にステップS202において、入力部102により、分析軸となる属性情報(属性名、属性値)を分析者が指定する。属性情報の指定方法は、例えば、属性データベース112に格納してある属性名の一覧をメニュー形式で表示し、分析者が属性名と属性値の範囲を選択するか、キーボード入力することで指定するようにできる。指定する属性名は複数の指定を可能とし、属性情報リストとして特徴語抽出部103へ出力する。
ステップS203においては、特徴語抽出部103により、単語データベース111に格納された単語の統計情報を参照して、属性名リストで指定された属性名に対応して特徴的な傾向を示す語であるキーワードを抽出する。例えば、単語の出現頻度(tf)の順に上位からN個(Nは整数)を選択してキーワードとする。さらに、単語の特徴的な出現傾向を示す指標であるidfを、tfに乗じた値(tf・idf)を単語ごとに算定し、tf・idfの値の順に上位からN個(Nは整数)を選択してキーワードとしても良い。抽出されたキーワードはキーワードリストとして関連語抽出部104へ出力される。
ステップS204では、関連語抽出部104により、単語データベース111に格納された単語の統計情報を参照して、特徴語抽出部103により抽出されたキーワードリストの各キーワードに対する関連語を抽出する。
関連語の抽出処理の一実施例としては、まず、関連語抽出部104は、単語の統計情報として単語データベース111に格納された単語共起頻度行列を参照し、各行の単語に対する共起単語の頻度から、単語共起頻度ベクトルを作成する。例えば、単語が「○○ホルダ」の場合、図3の(B)では、単語共起頻度行列の1行目に対応する頻度集合{12、4、46、9、・・・}より、ベクトルの長さが1になるように正規化された単語共起頻度ベクトル V1={0.10、0.03、0.31、0.05、・・・}を作成する。このようにして、単語共起頻度行列の全ての行について単語共起頻度ベクトル V1〜VN(Nは、単語総数)を作成する。
関連語の抽出処理の一実施例としては、まず、関連語抽出部104は、単語の統計情報として単語データベース111に格納された単語共起頻度行列を参照し、各行の単語に対する共起単語の頻度から、単語共起頻度ベクトルを作成する。例えば、単語が「○○ホルダ」の場合、図3の(B)では、単語共起頻度行列の1行目に対応する頻度集合{12、4、46、9、・・・}より、ベクトルの長さが1になるように正規化された単語共起頻度ベクトル V1={0.10、0.03、0.31、0.05、・・・}を作成する。このようにして、単語共起頻度行列の全ての行について単語共起頻度ベクトル V1〜VN(Nは、単語総数)を作成する。
次に、キーワードに対応する単語共起頻度ベクトルVKと、単語共起頻度行列の全ての行に対する単語共起頻度ベクトル V1〜VNとの類似度を計算する。類似度は、例えば、単語共起頻度ベクトル同士の内積値により定義する。あるいは、単語共起頻度行列に対して特異値分解のような次元圧縮処理を施した行列を用いても良い。類似度計算の結果、類似度が所定の閾値以上であるか、類似度の高い順に上位所定個数内に存在する共起単語を、キーワードに対する関連語として出力する。
また、関連語の抽出処理の別の実施例としては、単語見出しの文字列としての類似性を定義する文字列類似度を用いても良い。例えば、2つの単語W1(文字数m)と、W2(文字数n)が与えられた場合、両者に共通する最長部分文字列の長さをLとして、単語W1とW2との文字列類似度Simを以下のように定義する。
Sim=(L/m+L/n)/2
上記の実施例によれば、表記の異なる「○○ホルダ」と「○○フォルダ」との類似性を算定できるようになるため、キーワードと表記が異なる単語を関連語として求めることができる。
Sim=(L/m+L/n)/2
上記の実施例によれば、表記の異なる「○○ホルダ」と「○○フォルダ」との類似性を算定できるようになるため、キーワードと表記が異なる単語を関連語として求めることができる。
次に、ステップS205において、集計部105は、特徴語抽出部103により抽出されたキーワードと属性データベース112中の属性とを関連付けて集計する。例えば、入力部102により分析軸となる属性として「使用期間」が指定された場合、属性データベース112中で属性「使用期間」の属性値を参照し、属性値の分布する値の範囲に「1年間」「2年間」などのような属性値区分を設けて、各属性値区分ごとに、該当する文書ID中に存在するキーワードの出現頻度を集計し、クロス集計の形式で集計結果を出力する。
また、ステップS206においては、関連語頻度加算部106により、関連語抽出部104で抽出された関連語と属性データベース112中の属性とを関連付けて、上記キーワードの集計と同様に、各属性値区分ごとに、該当する文書ID中に存在する関連語の出現頻度を集計し、上記キーワードの集計結果と加算する。
上記のようにして得られたキーワードと関連語の集計結果は、例えば、図5に示すようなクロス集計の形式となり、各キーワード、及び関連語に対して、属性「使用期間」の各属性値区分「1年間」「2年間」などに分けられて集計される。
次に、ステップS207において、関連語傾向相違検出部107は、関連語の集計結果に基づき、関連語の中で出現頻度が最大を示すなど他の関連語とは異なる傾向を示す関連語を検出する。例えば、属性「使用期間」の各属性値区分において、出現頻度が最大値を示す属性値区分において上記関連語と異なる他の関連語を検出する。あるいは、上記の出現頻度の最大値に代えて、出現頻度の時系列変化量の最大値を用いても良い。
上記のステップS206により得られた集計結果に対して、ステップS208において、関連語合算頻度傾向表示部108により、関連語頻度加算部106で加算した集計結果を表示する。図6、及び図7に集計結果の表示の例を示す。図6は、関連語の出現件数の折れ線グラフ表示の例であり、「☆☆ユニット」「○○ホルダ」などの部品別に、使用期間ごとの出現傾向の推移を折れ線グラフで表示する。このとき、「○○ホルダ」の関連語(「○○フォルダ」「□□ホルダ」など)も含めて、各部品の使用期間ごとの故障件数を集計してグラフ化する。さらに、グラフをクリックすると、該当部品の関連語一覧が図5のようなクロス集計の形式で表示され、各関連語ごとの故障件数の詳細が表示される。
また、図7は、関連語の出現件数の棒グラフ表示の例であり、「☆☆ユニット」「○○ホルダ」などの部品別の件数を積み上げた棒グラフで表示する。このように表示することで、全体の故障件数の推移とともに、各部品の故障件数が全体に占める割合も分かりやすく表示できるようになる。
なお、上記のグラフ表示では、横軸の属性を例えば「機種名」のような他の属性に変更して表示可能であるため、様々な観点からの分析ができるようになる。
なお、上記のグラフ表示では、横軸の属性を例えば「機種名」のような他の属性に変更して表示可能であるため、様々な観点からの分析ができるようになる。
さらに、ステップS209において、関連語展開傾向表示部109により、関連語傾向相違検出部107で検出された他の関連語とは異なる関連語を、他の関連語とは異なる態様で表示する。例えば、関連語を表示する文字の色、大きさ、文字種類(フォント)などを変えて視覚化して表示する。
以上、説明したように、本実施の形態によれば、関連語抽出部において特徴語から関連語に自動展開してクロス集計することにより、手作業による同義語辞書作成なしで「○○ホルダ」と「○○フォルダ」のような表記ゆれを吸収し、同一部品とみなしてキーワードの傾向分析を可能とするという効果が得られる。
さらに本実施の形態によれば、関連語傾向相違検出部により、属性値との共起出現傾向が著しく異なる関連語を検出し、関連語展開傾向表示部において他の関連語とは異なる態様(色を変える、など)で視覚化して表示することで、自動展開された関連語の採用可否の判定を容易にすることができるという効果が得られる。
実施の形態2.
次に、この発明を利用したテキストマイニング装置に関して別の実施の形態について説明する。図8は本実施の形態2における構成図を示す。本構成は、実施の形態1の構成に加え、目的語抽出部113を設けたものであり、他の構成については実施の形態1と同様であり説明を省略する。
次に、この発明を利用したテキストマイニング装置に関して別の実施の形態について説明する。図8は本実施の形態2における構成図を示す。本構成は、実施の形態1の構成に加え、目的語抽出部113を設けたものであり、他の構成については実施の形態1と同様であり説明を省略する。
図9は、本実施の形態2における分析処理の概要を示す処理フローである。以下、図8、及び図9を適宜参照しながら処理の流れを説明する。
まず、図9のステップS901において、実施の形態1と同様の処理を実行し、集計部105は集計結果を得る。この集計結果は目的語抽出部113に保存されると共に、そのまま関連語合算頻度傾向表示部108と関連語展開傾向表示部109により表示される。
次に、ステップS902において、分析者は表示された集計結果から分析で着目する単語を目的語として入力部102において指定する。例えば、集計結果から「○○リーダ」に着目して分析する場合、目的語として「○○リーダ」を入力部102により入力する。
ステップS903では、目的語抽出部113により、上記集計部105の集計結果から、目的語を含むキーワード及び関連語を抽出して目的語として分類する。例えば、目的語「○○リーダ」に対して、「□□リーダ」、「△△装置用○○リーダ」、「○○リーダユニット」「○○リーダ内LED」などのように、部分的に完全一致するキーワード及び関連語を抽出するとともに、抽出された目的語の関連語であることを示す分類として、例えば、<目的語>というタグを抽出結果に付与して出力する。
ステップS904では、関連語合算頻度傾向表示部108において、目的語抽出部113により抽出された目的語を、付与された分類に従って表示し直す。例えば、図5において、抽出された目的語を上位に分類して表示する。
さらに、ステップS903の目的語抽出部113において、キーワード及び関連語内で構成される部分語の修飾関係に従って抽出と分類を行なうことにより、より詳細な分類が可能となる。例えば、「△△装置用○○リーダ」、「○○リーダ内LED」のように、「〜用〜」、「〜内〜」、「〜部〜」という修飾関係を規定する語に従って、部分語「△△装置」には<目的語:修飾>、部分語「○○リーダ」には<目的語:被修飾>という分類を付与することで、修飾、被修飾別に分類して集計結果を表示できるようになる。このようにすることで、目的語「△△装置用○○リーダ」の場合には、目的語全体として表現する部品は、被修飾部分である「○○リーダ」であり、他の「○○リーダ」や「××装置用○○リーダ」という同一部品を表す目的語も含めて分析することができる。また、キーワード及び関連語の追加、削除が容易になるという利点がある。
本実施の形態によれば、目的語抽出部により抽出された目的語を、付与された分類に従って上位に分類して表示することで、分析の目的とする関連語を容易に把握できるようになるという効果がある。
さらに、目的語抽出部において、キーワード及び関連語内で構成される部分語の修飾関係に従って抽出と分類を行なうようにしたことで、分析の目的とする関連語を詳細に分析できるという効果がある。
実施の形態3.
次に、この発明を利用したテキストマイニング装置に関してさらに別の実施の形態について説明する。図10に本実施の形態における構成図を示す。本構成では、実施の形態1の構成に加え、特徴語分類部114を設けたものである。他の構成については実施の形態1と同様なので説明を省略する。また、図11に、本実施の形態において分類知識を用いる構成図を示す。本構成では、図10の構成に加え、分類知識部115を設けたものである。
次に、この発明を利用したテキストマイニング装置に関してさらに別の実施の形態について説明する。図10に本実施の形態における構成図を示す。本構成では、実施の形態1の構成に加え、特徴語分類部114を設けたものである。他の構成については実施の形態1と同様なので説明を省略する。また、図11に、本実施の形態において分類知識を用いる構成図を示す。本構成では、図10の構成に加え、分類知識部115を設けたものである。
図12は、本実施の形態3における分析処理の概要を示す処理フローである。以下、図10から図12までを適宜参照しながら処理の流れを説明する。
まず、図12のステップS1201において、実施の形態1と同様の処理を実行し、特徴語抽出部103により抽出されたキーワードリストの各キーワードに対する関連語を抽出し、キーワード、及び関連語を出力する。
次に、ステップS1202において、特徴語抽出部103で抽出されたキーワード、及び関連語抽出部104で抽出された関連語を、図10における特徴語分類部114により分類する方法を選択する。キーワード及び関連語を分類する方法としては、一般に、(1)人手で分類項目(カテゴリ)を定義せず、自動的に類似の単語をまとめる方法、(2)予め人手で定義した分類項目に、単語を分類する方法、の2種類に分けられる。本実施の形態における特徴語分類部114は、上記の(1)及び(2)の両者の方法を含むものである。
ステップS1203においては、(1)の代表的な方法として単語クラスタリングを行う。例えば、キーワード及び関連語が出現した箇所の周辺に存在するテキスト情報を抽出し、抽出したテキスト情報内の単語出現頻度を算定して、各キーワード及び関連語に対する周辺単語出現頻度ベクトルを作成する。この周辺単語出現頻度ベクトル同士の距離値としてベクトルの内積値を計算し、距離値の近いキーワード及び関連語を順次まとめ上げていくと、自動的に類似の単語のまとまり(クラスタ)が生成される。これより、ステップS1205において、集計部105は、クラスタごとにキーワード及び関連語を集計し、関連語合算頻度傾向表示部108において、クラスタに分類して表示するようにする。
一方、ステップS1204においては、(2)の代表的な方法として、予め人手で定義した分類項目に単語を分類する。この場合の分類の方法としては、A.単語の統計的情報を利用して分類、B.人手で作成した分類知識に従って分類、の2通りがある。A.では、例えば、分類項目に含まれる代表的な単語の出現頻度ベクトルを分類項目ベクトルとして作成しておき、前述のキーワード及び関連語の周辺単語出現頻度ベクトルとのベクトル距離値が最も近い分類項目へ分類する。また、B.では、キーワード及び関連語と、分類項目との関係を定義する分類規則を作成して分類に使用する。この場合の構成図を図11に示す。特徴語分類部114は、分類知識部115に分類項目と分類規則が格納された分類知識を参照して、キーワード及び関連語を分類する。これより、ステップS1205において、集計部105で、分類項目ごとにキーワード及び関連語を集計して、関連語合算頻度傾向表示部108において、分類項目に分類して表示するようにする。
分類知識としては、まず、分類項目に対応させて特定の言語パタンを定義する方法がある。例えば、製品名、機種名、型番などは、「(英数字)+型」、「(英数字)+形」、「(数字2桁)+(英字6文字)」といったように、表現する文字列に規則性を有する場合があるため、図13に示すような、照合する言語パタンとして定義しておく。特徴語分類部114は、キーワード及び関連語の文字列中に、上記の言語パタンが含まれていれば、言語パタンに対応する分類項目を付与する。さらに、照合で合致した言語パタンに隣接する(英数字)の文字列を抽出して、より詳細な分類に利用することもできる。このようにして得た分類項目と抽出文字列を用い、集計部105で、分類項目ごとにキーワード及び関連語を集計して、関連語合算頻度傾向表示部108において、分類項目、さらには抽出文字列に分類して表示するようにする。
次に、分類知識として、人手で定義したシソーラスを用いることもできる。シソーラスは、単語と分類項目との対応、及び分類項目間の関係(上位概念、下位概念、同位概念)を定義する。単語と分類項目との対応により、キーワード及び関連語の分類項目が決定し、さらに、分類項目間の関係により、分類されたキーワード及び関連語同士の関係も決定できるようになる。
さらに、分類知識として、製品体系や部品表といった既存の分類体系を利用して、キーワード及び関連語を分類するようにもできる。
さらに、分類知識として、製品体系や部品表といった既存の分類体系を利用して、キーワード及び関連語を分類するようにもできる。
本実施の形態によれば、キーワード、及び関連語を分類する特徴語分類部を設け、関連語合算頻度傾向表示部においてキーワード及び関連語を分類に従って表示するようにしたことで、集計部の集計結果表示の内容把握が容易になるという効果がある。
さらに、キーワード及び関連語の分類を表すカテゴリと、キーワード及び関連語とカテゴリとの関係を定義する分類規則とを分類知識として格納する分類知識部を備え、特徴語分類部は分類知識部に格納された分類知識に従ってキーワード及び関連語をカテゴリに分類するようにしたことで、人手による分類知識が利用可能になり、より正確な分析が行なえるという効果がある。
実施の形態4.
次に、この発明を利用したテキストマイニング装置に関してさらにまた別の実施の形態について説明する。図14に実施の形態4における構成図を示す。本構成では、図10に示す構成に加え、編集部116を設けたものである。他の構成については図10に示す構成と同様なので説明を省略する。
次に、この発明を利用したテキストマイニング装置に関してさらにまた別の実施の形態について説明する。図14に実施の形態4における構成図を示す。本構成では、図10に示す構成に加え、編集部116を設けたものである。他の構成については図10に示す構成と同様なので説明を省略する。
図15は、本実施の形態4における分析処理の概要を示す処理フローである。以下、図14、及び図15を適宜参照しながら処理の流れを説明する。
まず、図15のステップS1501において、実施の形態3と同様の処理を実行し、集計部105は集計結果を得る。この集計結果は、そのまま関連語合算頻度傾向表示部108と関連語展開傾向表示部109により表示される。
次に、ステップS1502において、図14の編集部116は、集計部105から出力された集計(分析)結果に対して、関連語合算頻度傾向表示部108で表示対象となるキーワード及び関連語の追加、削除の指定を行なう。
ステップS1503においては、関連語合算頻度傾向表示部108は、指定されたキーワード及び関連語について、表示対象への追加、削除処理を実行する。この処理を実行する際は、特徴語分類部114の分類項目を利用して、指定されたキーワード及び関連語の分類項目が同一である他のキーワード及び関連語を一括して追加、削除処理を行なうようにする。これにより、分析作業の効率化を図ることができる。
本実施の形態によれば、集計(分析)結果に対してキーワード及び関連語の追加、削除の指定を行なう編集部を備え、関連語合算頻度傾向表示部において、指定されたキーワード及び関連語の分類が同一である他のキーワード及び関連語を一括して追加、削除するようにしたことで、分析作業の効率化を図ることができるという効果がある。
関連語抽出部において特徴語から関連語に自動展開して集計することにより、手作業による同義語辞書作成なしで「○○ホルダ」と「○○フォルダ」のような表記ゆれを吸収し、同一部品とみなしてキーワードの傾向分析を可能とし、文書知識サーバ(故障データのテキストマイニング)や施設情報管理システムなどに適用可能である。
101:登録部、102:入力部、103:特徴語抽出部、104:関連語抽出部、105:集計部、106:関連語頻度加算部、107:関連語傾向相違検出部、108:関連語合算頻度傾向表示部、109:関連語展開傾向表示部、110:分析対象文書、111:単語データベース、112:属性データベース、113:目的語抽出部、114:特徴語分類部、115:分類知識部、116:編集部。
Claims (7)
- 単語の統計情報を格納する単語データベースと、
文書の属性情報を格納する属性データベースと、
分析対象文書中のテキストを解析して得られる統計情報を上記単語データベースに格納するとともに分析対象文書に付与された属性情報を上記属性データベースに格納する登録部と、
分析対象文書の分析軸となる属性を指定する入力部と、
指定された属性に対応して特徴的な傾向を示す語であるキーワードを上記単語データベースの統計情報から抽出する特徴語抽出部と、
上記キーワードと属性データベース中の属性とを関連付けて集計する集計部と、
抽出された各キーワードに関連する語を上記単語データベースの統計情報から自動的に抽出する関連語抽出部と、
上記抽出された関連語と属性データベース中の属性とを関連付けて集計し、上記集計部の集計結果と加算する関連語頻度加算部と、
上記関連語の集計結果に基づき、関連語の中で他の関連語とは異なる傾向を示す関連語を検出する関連語傾向相違検出部と、
上記関連語頻度加算部で加算した集計結果を表示する関連語合算頻度傾向表示部と、
上記各関連語の集計結果に基づき傾向を表示する際に上記関連語傾向相違検出部により検出された他の関連語を異なる態様で表示する関連語展開傾向表示部と、
を有することを特徴とするテキストマイニング装置。 - 分析者により入力部で指定された、分析において着目する単語である目的語を含むキーワードとその関連語を上記集計部の集計結果から抽出して分類する目的語抽出部を備え、
上記関連語合算頻度傾向表示部は抽出された目的語を分類に従って表示する構成にされたことを特徴とする請求項1記載のテキストマイニング装置。 - 上記目的語抽出部は、キーワードまたは関連語内で構成される部分語の修飾関係に従って抽出と分類を行なう構成にされたことを特徴とする請求項2記載のテキストマイニング装置。
- 上記特徴語抽出部で抽出されたキーワードと、関連語抽出部で抽出された関連語を分類する特徴語分類部を備え、上記関連語合算頻度傾向表示部はキーワードと関連語を特徴語分類部の分類に従って表示する構成にされたことを特徴とする請求項1ないし請求項3の何れかに記載のテキストマイニング装置。
- キーワードと関連語の分類を表すカテゴリと、キーワードと関連語とカテゴリとの関係を定義する分類規則とを分類知識として格納する分類知識記憶部を備え、上記特徴語分類部は分類知識に従ってキーワードと関連語をカテゴリに分類する構成にされたことを特徴とする請求項4記載のテキストマイニング装置。
- 集計部の集計結果に対してキーワードまたは関連語の追加または削除の指定を行なう編集部を備え、上記関連語合算頻度傾向表示部は、編集部で指定されたキーワードまたは関連語の分類が同一である他のキーワードまたは関連語を追加または削除する構成にされたことを特徴とする請求項4または請求項5記載のテキストマイニング装置。
- 分析対象文書中のテキストを解析して得られる統計情報を単語データベースに格納するとともに分析対象文書に付与された属性情報を属性データベースに格納する登録ステップと、
分析対象文書の分析軸となる属性を指定する分析軸入力ステップと、
指定された属性に対応して特徴的な傾向を示す語であるキーワードを上記単語データベースの統計情報から抽出する特徴語抽出ステップと、
上記キーワードと属性データベース中の属性とを関連付けて集計する集計ステップと、
抽出された各キーワードに関連する語を上記単語データベースの統計情報から抽出する関連語抽出ステップと、
上記抽出された関連語と属性データベース中の属性とを関連付けて集計し、上記集計ステップの集計結果と加算する関連語頻度加算ステップと、
上記関連語の集計結果に基づき、関連語の中で他の関連語とは異なる傾向を示す関連語を検出する関連語傾向相違検出ステップと、
上記関連語頻度加算ステップで加算した集計結果を表示する関連語合算頻度傾向表示ステップと、
上記関連語傾向相違検出ステップにより検出された他の関連語を上記関連語とは異なる態様で表示する関連語展開傾向表示ステップと、
を有することを特徴とするテキストマイニング方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004339262A JP2006146802A (ja) | 2004-11-24 | 2004-11-24 | テキストマイニング装置およびテキストマイニング方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004339262A JP2006146802A (ja) | 2004-11-24 | 2004-11-24 | テキストマイニング装置およびテキストマイニング方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006146802A true JP2006146802A (ja) | 2006-06-08 |
Family
ID=36626382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004339262A Pending JP2006146802A (ja) | 2004-11-24 | 2004-11-24 | テキストマイニング装置およびテキストマイニング方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006146802A (ja) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008152487A (ja) * | 2006-12-15 | 2008-07-03 | Chugoku Electric Power Co Inc:The | 情報検索システム、情報検索方法および情報検索プログラム |
JP2009086772A (ja) * | 2007-09-27 | 2009-04-23 | Nomura Research Institute Ltd | 検索サービス装置 |
JP2009122807A (ja) * | 2007-11-13 | 2009-06-04 | Nomura Securities Co Ltd | 連想検索システム |
JP2009211124A (ja) * | 2008-02-29 | 2009-09-17 | Oki Electric Ind Co Ltd | ワード提示システム、方法及びプログラム、並びに情報検索システム |
JP2010055155A (ja) * | 2008-08-26 | 2010-03-11 | Nec Biglobe Ltd | サーバ装置、情報処理方法およびプログラム |
JP2010055159A (ja) * | 2008-08-26 | 2010-03-11 | Nec Biglobe Ltd | 情報検索装置、情報検索方法、およびプログラム |
WO2011090036A1 (ja) * | 2010-01-19 | 2011-07-28 | 日本電気株式会社 | 動向情報検索装置、動向情報検索方法および記録媒体 |
JP2012212329A (ja) * | 2011-03-31 | 2012-11-01 | Tottori Univ | テキストデータの冗長性を解析する情報解析装置 |
JP2015088067A (ja) * | 2013-10-31 | 2015-05-07 | Kddi株式会社 | マイニング分析装置、方法及びプログラム |
JP2015125584A (ja) * | 2013-12-26 | 2015-07-06 | Kddi株式会社 | マイニング分析装置、方法及びプログラム |
JP2015170177A (ja) * | 2014-03-07 | 2015-09-28 | クラリオン株式会社 | 関連データ生成装置、関連データ生成方法およびプログラム |
KR101804868B1 (ko) * | 2017-05-08 | 2017-12-06 | (주)사람인에이치알 | 구인자의 채용공고에 대한 제목 자동 생성 시스템 및 그 방법 |
JP2017538198A (ja) * | 2014-11-20 | 2017-12-21 | オラクル・インターナショナル・コーポレイション | 文脈検索文字列同義語の自動生成 |
JP2019139625A (ja) * | 2018-02-14 | 2019-08-22 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
-
2004
- 2004-11-24 JP JP2004339262A patent/JP2006146802A/ja active Pending
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008152487A (ja) * | 2006-12-15 | 2008-07-03 | Chugoku Electric Power Co Inc:The | 情報検索システム、情報検索方法および情報検索プログラム |
JP2009086772A (ja) * | 2007-09-27 | 2009-04-23 | Nomura Research Institute Ltd | 検索サービス装置 |
JP2009122807A (ja) * | 2007-11-13 | 2009-06-04 | Nomura Securities Co Ltd | 連想検索システム |
JP2009211124A (ja) * | 2008-02-29 | 2009-09-17 | Oki Electric Ind Co Ltd | ワード提示システム、方法及びプログラム、並びに情報検索システム |
US8838616B2 (en) | 2008-08-26 | 2014-09-16 | Nec Biglobe, Ltd. | Server device for creating list of general words to be excluded from search result |
JP2010055155A (ja) * | 2008-08-26 | 2010-03-11 | Nec Biglobe Ltd | サーバ装置、情報処理方法およびプログラム |
JP2010055159A (ja) * | 2008-08-26 | 2010-03-11 | Nec Biglobe Ltd | 情報検索装置、情報検索方法、およびプログラム |
JP4587236B2 (ja) * | 2008-08-26 | 2010-11-24 | Necビッグローブ株式会社 | 情報検索装置、情報検索方法、およびプログラム |
JP4640554B2 (ja) * | 2008-08-26 | 2011-03-02 | Necビッグローブ株式会社 | サーバ装置、情報処理方法およびプログラム |
WO2011090036A1 (ja) * | 2010-01-19 | 2011-07-28 | 日本電気株式会社 | 動向情報検索装置、動向情報検索方法および記録媒体 |
JP2012212329A (ja) * | 2011-03-31 | 2012-11-01 | Tottori Univ | テキストデータの冗長性を解析する情報解析装置 |
JP2015088067A (ja) * | 2013-10-31 | 2015-05-07 | Kddi株式会社 | マイニング分析装置、方法及びプログラム |
JP2015125584A (ja) * | 2013-12-26 | 2015-07-06 | Kddi株式会社 | マイニング分析装置、方法及びプログラム |
JP2015170177A (ja) * | 2014-03-07 | 2015-09-28 | クラリオン株式会社 | 関連データ生成装置、関連データ生成方法およびプログラム |
JP2017538198A (ja) * | 2014-11-20 | 2017-12-21 | オラクル・インターナショナル・コーポレイション | 文脈検索文字列同義語の自動生成 |
KR101804868B1 (ko) * | 2017-05-08 | 2017-12-06 | (주)사람인에이치알 | 구인자의 채용공고에 대한 제목 자동 생성 시스템 및 그 방법 |
JP2019139625A (ja) * | 2018-02-14 | 2019-08-22 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP7098949B2 (ja) | 2018-02-14 | 2022-07-12 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及び情報処理プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Günther et al. | Word counts and topic models: Automated text analysis methods for digital journalism research | |
Chuang et al. | Termite: Visualization techniques for assessing textual topic models | |
CN111309925B (zh) | 一种军事装备的知识图谱构建方法 | |
US20060179051A1 (en) | Methods and apparatus for steering the analyses of collections of documents | |
EP1391834A2 (en) | Document retrieval system and question answering system | |
CN112632228A (zh) | 一种基于文本挖掘的辅助评标方法及系统 | |
WO2001093102A1 (en) | Method and apparatus for making predictions about entities represented in documents | |
US20150199567A1 (en) | Document classification assisting apparatus, method and program | |
Trappey et al. | An R&D knowledge management method for patent document summarization | |
CN111506727B (zh) | 文本内容类别获取方法、装置、计算机设备和存储介质 | |
JP2006146802A (ja) | テキストマイニング装置およびテキストマイニング方法 | |
JP6623754B2 (ja) | 表形式データ処理プログラム、方法及び装置 | |
JPWO2012108006A1 (ja) | 検索プログラム、検索装置、および検索方法 | |
CN109902173B (zh) | 一种中文文本分类方法 | |
US11361565B2 (en) | Natural language processing (NLP) pipeline for automated attribute extraction | |
Bartík | Text-based web page classification with use of visual information | |
Mohemad et al. | Automatic document structure analysis of structured PDF files | |
Nanba et al. | Automatic extraction of citation information in Japanese patent applications | |
JP2014102625A (ja) | 情報検索システム、プログラム、および方法 | |
KR20110002262A (ko) | 시맨틱 데이터 추출 시스템 및 이를 이용한 검색 엔진 | |
BAZRFKAN et al. | Using machine learning methods to summarize persian texts | |
Li et al. | Table classification using both structure and content information: A case study of financial documents | |
Setiawan et al. | Implementation of Decision Tree C4. 5 for Big Five Personality Predictions with TF-RF and TF-CHI2 on Social Media Twitter | |
Xie | Sentiment Analysis using machine learning algorithms: online women clothing reviews | |
Kimura et al. | Creating personal histories from the Web using namesake disambiguation and event extraction |