JP2007293685A - Device, program, and method for mining text - Google Patents
Device, program, and method for mining text Download PDFInfo
- Publication number
- JP2007293685A JP2007293685A JP2006122164A JP2006122164A JP2007293685A JP 2007293685 A JP2007293685 A JP 2007293685A JP 2006122164 A JP2006122164 A JP 2006122164A JP 2006122164 A JP2006122164 A JP 2006122164A JP 2007293685 A JP2007293685 A JP 2007293685A
- Authority
- JP
- Japan
- Prior art keywords
- words
- display
- dependency
- dependency relationship
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、大量のテキストデータに含まれる言語情報を分析して、単語や係り受け関係の関連性を抽出し、これらの関連性のテキストマイニング結果を視覚化して表示する技術に関する。 The present invention relates to a technique for analyzing linguistic information contained in a large amount of text data, extracting relationships between words and dependency relationships, and visualizing and displaying the results of text mining of these relationships.
インターネットの普及に伴い、製品に関する企業の宣伝や消費者の意見がWebページとして公開されているのに加え、大量の顧客の声が電子メールやWebにより文書データとして発信されるようになった。また、企業内では文書の電子化が進み、設計仕様書や故障調査報告書などの品質管理業務などで必要とされる文書の蓄積が進んでいる。これらの大量に蓄積された文書のテキストから、有用な情報を抽出し、業務改善のために活用するためのテキストマイニング装置の重要性が増している。 With the spread of the Internet, corporate advertisements and consumer opinions regarding products have been released as Web pages, and a large amount of customer feedback has been sent as document data by e-mail and Web. In addition, the digitization of documents is progressing in the enterprise, and the accumulation of documents required for quality control work such as design specifications and failure investigation reports is progressing. The importance of text mining devices for extracting useful information from these large amounts of stored text and utilizing it for business improvement is increasing.
このようなテキストマイニング装置のうち、従来から、テキストの属性データや全文検索等の条件によりユーザがグループを定義し、そのうちのあるグループを指定すると、該当グループ中のテキストから単語または係り受け情報を抽出し、これらの出現頻度や統計的な指標による重みに基づいて単語または係り受け情報をランク付けしたリストを表示することにより、テキスト中の情報を概観する手段を備える装置がある。 Among such text mining devices, conventionally, when a user defines a group according to conditions such as text attribute data and full-text search, and designates a certain group, a word or dependency information is extracted from the text in the group. There is an apparatus provided with means for overviewing information in a text by extracting and displaying a list in which words or dependency information are ranked based on their appearance frequency and weight based on a statistical index.
例えば、以下に示す特許文献1では、属性データ、テキストの全文検索等の条件により、ユーザが定義したあるグループを指定すると、該当グループ中のテキストから抽出した単語または係り受け情報を出現頻度やIDF(Inverted Document Frequency)重みに基づいて、単語または係り受け情報をランク付けしたリストを表示する技術が開示されている。また、これらの統計情報をもとに、コレスポンデンス分析や主成分分析などの一般的に広く用いられている統計的な分析手法を用いて、単語や係り受け情報を二次元マップ上に配置して可視化する技術が開示されている。
For example, in
また、単語間の関係をマップ上に配置して表示する方法として、特許文献2のような情報マップ作成技術が開示されている。この特許文献2では、単語間の関連性をネットワーク形式で表示し、アークに対する間引きを行なう技術が開示されている。
Further, as a method for arranging and displaying the relationship between words on a map, an information map creation technique as disclosed in
上記の特許文献1および特許文献2に開示された従来技術では、2つの単語間の関係に着目した2語係り受け関係の二次元マッピングであったため、ユーザの分析の範囲は2語までの関係に限定されていた。このため、より広範囲の分析の観点を持って3単語以上の関係に着目した係り受け関係に対して、自由で対話的な概観をすることができないという課題があった。
In the prior art disclosed in
また、従来技術では、テキストを解析して抽出した係り受け関係は、数多く表示された場合、そのテキストの内容の把握が容易でなく、さらに、分析で着目すべき単語が、他の重要でない単語群の中に埋もれてしまって見つけ出すのが困難になるという課題があった。 Also, in the prior art, when many dependency relationships extracted by analyzing texts are displayed, it is not easy to grasp the contents of the texts, and the words to be focused on in the analysis are other insignificant words. There was a problem that it was difficult to find it because it was buried in the group.
また、従来技術では、3単語以上の関係に着目した係り受け関係をネットワーク表示する場合、ネットワークを構成するリンクに対する重要性を考慮せずに表示すると、単一のネットワーク構造のみしか得られないため、概略表示から詳細表示までを自由に変更して、分析の粒度を変えて容易に閲覧することができないという課題があった。 In addition, in the prior art, when displaying a dependency relationship focusing on a relationship of three words or more, if only a single network structure is obtained if it is displayed without considering the importance of the links constituting the network. However, there is a problem that it is not possible to easily browse from a summary display to a detailed display by changing the granularity of analysis.
また、従来技術では、分析で着目したい3単語以上の係り受け関係が、他の不要なリンクの中に埋もれてしまい、着目すべきノードおよびリンクに絞って閲覧することが困難であるという課題があった。 In addition, in the related art, the dependency relationship of three or more words to be noticed in the analysis is buried in other unnecessary links, and it is difficult to browse only the nodes and links to be noticed. there were.
また、従来技術では、低頻度語あるいは非重要語が混在した係り受けネットワーク構造である場合、重要語を中心とした係り受け関係を分析することが困難であるという課題があった。 Further, in the related art, in the case of a dependency network structure in which low-frequency words or non-important words are mixed, there is a problem that it is difficult to analyze the dependency relationship centered on important words.
また、従来技術では、類似する単語が個別にネットワーク構造のノードとなった場合、類似する単語であるにもかかわらず別のノードとしてリンクが張られるために、リンク数が増加して錯綜し、内容の把握が困難であるという課題があった。 Also, in the prior art, when similar words individually become nodes of the network structure, links are created as different nodes even though they are similar words, so the number of links increases and is complicated, There was a problem that it was difficult to grasp the contents.
また、従来技術では、2つの単語間の係り受け関係の表示内容においては、高い頻度の係り受け関係のさらに周辺にある詳細な内容を把握することが困難であるという課題があった。 In addition, in the related art, there is a problem in that it is difficult to grasp the detailed contents in the vicinity of a high-frequency dependency relationship in the display content of the dependency relationship between two words.
また、従来技術では、2つの単語間の係り受け関係の表示内容においては、3語以上の係り受け関係を表示できないため、3語以上のひとまとまりの係り受け関係の内容の把握ができないという課題があった。 Further, in the related art, in the display contents of the dependency relationship between two words, since the dependency relationship of three words or more cannot be displayed, the content of the dependency relationship of a group of three words or more cannot be grasped. was there.
また、従来技術では、ユーザが任意の組の係り受け群を複合概念として指定できないため、複合概念として任意に指定した係り受け関係の組から、複合概念間の新規な関係を抽出して、分析対象に潜在する重要な関係情報を分析することができないという課題があった。 In addition, in the prior art, since a user cannot specify any group of dependency groups as a composite concept, a new relationship between composite concepts is extracted from the set of dependency relationships arbitrarily specified as a composite concept and analyzed. There was a problem that important relationship information latent in the subject could not be analyzed.
また、従来技術では、係り受け関係を構成する単語をグループに分類する場合、分類の基準として、分析対象の分野に依存した知識源を利用しないため、分析対象の分野に依存した係り受け関係の把握ができず、分析対象の業務に有用な分析が困難であるという課題があった。 In addition, in the prior art, when the words constituting the dependency relationship are classified into groups, a knowledge source that depends on the field to be analyzed is not used as a classification criterion. There was a problem that it was difficult to grasp and it was difficult to perform analysis useful for the work to be analyzed.
また、従来技術では、表示されたカテゴリ間の各単語の係り受け関係を参照して、各単語が属するカテゴリを対話的に自由に編集、修正することができないため、対象データから抽出した係り受け関係の内容の把握が容易でないという課題があった。 Also, in the prior art, it is impossible to interactively freely edit and modify the category to which each word belongs by referring to the dependency relationship of each word between displayed categories. There was a problem that it was not easy to grasp the contents of the relationship.
本発明は、上記のような課題を解決するためになされたもので、係り受け関係構造構成手段を備えることにより、分析対象テキストから抽出した単語間の係り受け関係を複数のカテゴリに分類したネットワーク表示を可能とし、表示したネットワークに対して、カテゴリ、ノード、及びアークに関する表示情報を自由に調節可能としたことで、2語以上にわたる広範囲な係り受け関係の全体概観から、詳細な絞り込み表示までの自由で対話的な分析を可能にすることを目的とする。 The present invention has been made in order to solve the above-described problems, and includes a dependency relationship structure forming unit, whereby a dependency relationship between words extracted from an analysis target text is classified into a plurality of categories. From the overall overview of a wide range of dependency relationships spanning more than two words, to detailed refinement display, by enabling display and freely adjusting display information on categories, nodes, and arcs for the displayed network The purpose is to enable free and interactive analysis.
このような問題を解決するため、本発明に係るテキストマイニング装置、テキストマイニングプログラム、及びテキストマイニング方法は、分析対象データを解析して、前記分析対象データのテキストから抽出した単語情報と前記分析対象データの属性値とを登録する登録手段と、抽出した前記単語情報を解析して2語以上の単語間の係り受け関係を抽出する係り受け抽出手段と、前記単語間の係り受け関係の頻度を集計する係り受け頻度集計手段と、前記属性値の頻度を集計する属性値頻度集計手段と、前記登録手段によって抽出され、前記属性値頻度集計手段によって属性値の頻度を集計された前記単語情報を、予め定義したカテゴリごとに集計するカテゴリ別単語集計手段と、前記単語間の係り受け関係を構成する単語を前記カテゴリ別に分類し、分類された前記カテゴリに含まれる単語間の係り受け関係ネットワーク構造を構成する係り受け関係構造構成手段と、前記単語間の係り受け関係ネットワーク構造を表示する表示手段と、表示条件の設定の入力を受け付ける入力手段と、表示された前記単語間の係り受け関係ネットワーク構造に対し、前記表示条件の設定を指示する表示対象データ操作手段とを備えることとしたものである。 In order to solve such a problem, the text mining device, the text mining program, and the text mining method according to the present invention analyze the analysis target data, extract the word information extracted from the text of the analysis target data, and the analysis target A registration means for registering attribute values of data; a dependency extraction means for analyzing the extracted word information to extract a dependency relationship between two or more words; and a frequency of the dependency relationship between the words. Dependency frequency counting means for counting, attribute value frequency counting means for counting the frequency of the attribute value, and the word information extracted by the registration means and tabulated for the attribute value frequency by the attribute value frequency counting means Category-by-category word counting means for counting for each predefined category, and the words constituting the dependency relationship between the words as the category And a dependency relationship structure configuring unit that configures a dependency relationship network structure between words included in the classified category, a display unit that displays the dependency relationship network structure between the words, and a display condition Input means for receiving setting input and display target data operating means for instructing setting of the display condition for the displayed dependency relation network structure between words.
本発明によれば、係り受け関係構造構成手段を備えることにより、分析対象テキストから抽出した単語間の係り受け関係を3種類以上のカテゴリに分類したネットワーク表示を可能とし、表示したネットワークに対して、カテゴリ、ノード、及びアークに関する表示情報を自由に調節可能としたことで、3語以上にわたる広範囲な係り受け関係の全体概観から、詳細な絞り込み表示までの自由で対話的な分析ができるようになる。 According to the present invention, it is possible to display a network in which the dependency relationships between words extracted from the text to be analyzed are classified into three or more categories by providing the dependency relationship structure constituting unit. The display information on categories, nodes, and arcs can be freely adjusted so that free interactive analysis can be performed from a broad overview of dependency relationships over three words to detailed refined display. Become.
実施の形態1.
図1は、この発明の実施の形態1を示す構成図である。101は登録部であり、分析対象データを解析して、分析対象データのテキストから抽出した単語情報と分析対象データの属性値を、それぞれ後述の単語データベース113、および、属性データベース112に登録する。なお、以下、データベースをDBと記載する。102は係り受け抽出部であり、抽出した単語情報を解析して2語以上の単語間の係り受け関係を抽出する。103は入力部であり、ユーザからの入力を受け付ける。104は表示対象データ操作部であり、表示された単語間の係り受け関係ネットワーク構造に関するデータの設定の変更を指示する。105は制御部であり、分析対象データの登録から表示にいたるまでの一連の処理の流れを制御する。106は係り受け頻度集計部であり、係り受け抽出部102によって抽出された単語間の係り受け関係の頻度を集計する。107は属性値頻度集計部であり、分析対象データ中の属性値の頻度を集計する。108はカテゴリ別単語集計部であり、登録部101によって抽出された単語を予め定義したカテゴリごとに集計する。109は係り受け関係構造構成部であり、分析対象テキストから抽出した単語間の係り受け関係を分類する。110は表示部であり、係り受け関係構造構成部109によって構成された単語間の係り受け関係ネットワーク構造を表示する。111は分析対象とする文書データである。112は属性DBであり、文書データから抽出した属性に関する情報を格納する。113は単語DBであり、文書データから抽出した単語に関する情報を格納する。114は係り受けDBであり、文書データから抽出した係り受け関係に関する情報を格納する。115は意味カテゴリ辞書であり、意味カテゴリとその意味カテゴリに属する単語を格納する。116は表示部からの出力情報であり、係り受け関係構造を視覚的に表示したものである。
1 is a block
以下、本発明の実施の形態1における基本処理の概要について、図1から図4までを適宜参照しつつ説明する。基本処理の詳細は、図2に示した本発明の実施の形態1における基本処理のフローチャートを参照しながら説明する。
Hereinafter, an outline of basic processing in
まず、図2のステップS201において、登録部101は、分析対象の文書データ111を読み込み、文書データ111中に出現する単語、および書誌情報などの属性の情報を抽出する。抽出した単語に関する情報は、単語DB113に格納し、また、抽出した属性の情報は、属性DB112に格納する。図3に、本発明における単語DB113の例を示す。図3では、文書データ111中に出現する単語を抽出した後に、単語ID、見出し、品詞、活用形などの単語情報が単語DB113に格納されている一例を示している。格納する単語は、例えば形態素解析により解析した結果から、抽出対象とする品詞として名詞、形容詞、形容動詞などを選択する。また、図4は、本発明における属性DB112の例を示したものである。図4では、文書の属性として、文書ID、受付日、種別、対象部門などが格納されている一例を示している。この属性については、分析対象の文書データ111に対して、どのような観点で分析するかによって、種々の属性の種類が設計されて、各文書データに属性の値が付与される。
First, in step S201 of FIG. 2, the
次に、ステップS202において、登録部101は、係り受け抽出部102を呼び出し、分析対象の文書データ中に出現する単語間の係り受け関係を抽出して、係り受けDB114に格納する。図5に、本発明における係り受け関係の例を示す。図では、文例「A店だけど、不親切な態度が頭にくる。」(文ID=1)に対して、形態素解析により抽出した単語「A店/不親切/態度/頭にくる」を得て、2語の係り受け関係となる「不親切 → 態度」および「態度 → 頭にくる」を抽出した一例を示している。この場合、文ID=1の文に対して、上記の2語の係り受け関係を組み合わせて、3語の係り受け関係「不親切 → 態度 → 頭にくる」も同時に抽出可能である。このようにして得た係り受け関係を、例えば、図6の本発明における係り受けDBの例のように、係り受けIDとともに、係り元単語、係り先単語、文IDなどを格納しておく。
Next, in step S202, the
次に、ステップS203において、制御部105は、属性DB112に格納されている属性情報を受け取り、属性値頻度集計部106に送って、属性値頻度集計部106では、個々の属性に対する属性値の頻度を集計する。
Next, in step S203, the control unit 105 receives the attribute information stored in the
次に、ステップS204において、制御部105は、単語DB112に格納されている単語情報を受け取り、カテゴリ別単語頻度集計部108に送る。カテゴリ別単語頻度集計手段は、単語DB112から受け取った単語である単語情報、および単語分類と意味カテゴリとの対応関係を格納している意味カテゴリ辞書115を参照して、意味カテゴリごとに単語の頻度を集計する。
Next, in step S <b> 204, the control unit 105 receives word information stored in the
次に、ステップS205において、制御部105は、係り受けDB114に格納されている係り受け情報を受け取り、係り受け頻度集計部107において、係り受け関係ごとの頻度を集計する。
Next, in step S205, the control unit 105 receives the dependency information stored in the
次に、ステップS206において、係り受け関係構造構成の処理を行なう。係り受け関係構造構成の処理は係り受け関係構造構成部109で実行される。以下、係り受け関係構造構成部109の動作については、図7の詳細な流れ図を参照して説明する。係り受け関係構造構成手段109は、まず、ステップS701で、係り受け頻度集計部107から、係り受け対と係り受け対ごとの頻度を取得する。
Next, in step S206, a dependency relationship structure configuration process is performed. The dependency relationship structure configuration processing is executed by the dependency relationship
次に、ステップS702で、カテゴリ別単語頻度集計部108から、単語のカテゴリ分類と各カテゴリに属する単語の頻度を取得する。
Next, in step S <b> 702, the category classification of words and the frequency of words belonging to each category are acquired from the category-specific word
次に、ステップS703で、ステップS701およびステップS701で取得した情報から、カテゴリ対ごとに、係り元の各カテゴリに属する単語と、係り先の各カテゴリに属する単語との間のリンク情報を生成する。このとき、係り受け頻度が大きいリンクに対して、リンクに付随する値として大きな値を設定するものとする。 Next, in step S703, link information between the words belonging to each category of the relation source and the words belonging to each category of the relation destination is generated for each category pair from the information acquired in steps S701 and S701. . At this time, a large value is set as a value associated with the link for a link with a large dependency frequency.
次に、ステップS704では、カテゴリ別にネットワーク状に係り受け関係を配置して表示するために、カテゴリごとに表示する位置を決定して表示情報を生成する。例えば、カテゴリとして、一般的な品詞、および主語−目的語のような格関係を用いる場合には、「動詞」を中心に配置し、その左側に「動詞」と格関係にある「主語である名詞」および「目的語である名詞」を配置し、さらにその左側に名詞に係る「形容詞」を配置する。また、「動詞」右側に動詞を修飾する「副詞」を配置する。このとき、配置に関する情報は、設定ファイルを用いてユーザが「形容詞」、「名詞」、「動詞」、「副詞」の順に左から並べるように指定しても良い。また、係り先となる単語の頻度の合計が大きい順にカテゴリを左から右に配置する、という方式でも良い。以上が、係り受け関係構造構成部109の動作の説明である。
Next, in step S704, in order to arrange and display the dependency relationship in a network form for each category, a display position is determined for each category and display information is generated. For example, when using a category part such as a general part of speech and subject-object as a category, the “verb” is placed at the center, and the “subject” is a subject with a “verb” on the left side. “Noun” and “noun as object” are arranged, and “adjective” relating to the noun is arranged on the left side. Also, an “adverb” that modifies the verb is placed on the right side of the “verb”. At this time, the information regarding the arrangement may be specified by using a setting file so that the user arranges “adjective”, “noun”, “verb”, and “adverb” in order from the left. Alternatively, a method may be used in which categories are arranged from left to right in descending order of the sum of the frequencies of words to be related. The above is the description of the operation of the dependency relationship
次に、ステップS207において、表示部110では、係り受け関係構造構成部109で生成された情報を元に、図8に例示するように係り受け関係構造の視覚化表示を行なう。例えば、図8の801「形容詞」、802「名詞:主語」、803「名詞:目的語」、804「動詞」、805「副詞」は、カテゴリを表す。また、図8の806、807、808、809、810は、それぞれ801〜805に対応するカテゴリに属する単語の一覧を示している。このとき、リンク情報811は、「形容詞」カテゴリを持つ単語「わかりにくい」と、「名詞:主語」カテゴリを持つ「表示」とが直接の係り受け関係にあり、係り受け頻度が大きいことから、図7のステップ703で取得したリンクに対して与えられた値が大きいため、太字で表示されている。
Next, in step S207, the
以上述べたように、本発明によれば、図8の表示例のように、分析対象テキストから抽出した単語間の係り受け関係をカテゴリの観点から概観することができ、かつ、個別の単語間の係り受け関係も容易に把握できるようになる。 As described above, according to the present invention, as shown in the display example of FIG. 8, the dependency relationship between words extracted from the text to be analyzed can be overviewed from the viewpoint of a category, and between individual words. It becomes possible to easily grasp the dependency relationship.
また、図8に示した各単語にはカテゴリ別単語頻度集計手部108で集計された頻度が付随しているので、表示対象データ操作部104で、図8の806〜810に例示したカテゴリ内の各表示単語に対して、頻度順に上から下へ表示するように指定したり、表示する単語数の設定を頻度上位の指定件数のみとしたりするような指定ができるようになる。また、図8には明示していないが、単語とともに各単語の頻度を表示することもできる。
In addition, since each word shown in FIG. 8 is accompanied by the frequency counted by the category-specific word
また、表示対象データ操作部104で、係り受け頻度によって、表示するリンクを頻度がある閾値以上のものだけに絞って表示することもできる。この閾値の設定を変更することで、概略表示から詳細表示までスムーズに閲覧できるようにすることが可能となる。
In addition, the display target
また、表示対象データ操作部104で、指定したノード(図8のカテゴリ名801とカテゴリに属する単語群806の対)に対して、指定したノード中のカテゴリに属する単語に関する係り受け関係によって、指定ノードの係り先あるいは係り元を表示/非表示の指定をすることが可能となる。
Further, in the display target
また、表示対象データ操作部104において、ノードとして作業ボックスを表示画面に新たに挿入して表示可能とする。このとき、頻度が閾値以下の低頻度語を非重要語として表示画面内の作業ボックスへ自動的に移動したり、指定した非重要語を表示画面内の作業ボックスへ移動したりすることにより、重要語を中心とした係り受けネットワーク構造に再構築することが可能となる。ここで、非重要語は、カイ2乗値やtf*idf値のような一般的に良く用いられる統計的な指標により自動的に求める方式としても良い。
In the display target
また、係り受け関係構造構成部109において、類似度を定義して、類似する単語を一つの概念としてグループ化するようにできる。この場合の類似度としては、(1)共通部分文字列の一致の割合や編集距離(文字の挿入や削除、置換によって、一つの文字列を別の文字列に変形するのに必要な手順の最小回数)による文字面の類似度、(2)人手で定義した同義語辞書や類義語辞書を用いた類似度、(3)分析対象データ中の単語出現頻度のベクトル距離による類似度、などを用いることができる。このような類似度を利用してまとめられたグループは、類似する単語の集合により構成されるようになるため、表示手段110で表示するノードの表示単位として、ここで構成したグループを用いることにより、類似した内容を一箇所にまとめて表示することが可能になる。
In addition, the dependency relationship
このように、本発明によるテキストマイニング装置では、係り受け関係構造構成部109および表示対象データ操作部104を備えることにより、従来技術である2語の関係に着目した係り受け情報の二次元マッピング方法では困難だった、3種類以上のカテゴリに単語間の係り受け関係を分類したネットワークを表示できるようになり、広範囲に概観することが可能となる。
As described above, the text mining device according to the present invention includes the dependency relationship
また、表示対象データ操作部104において、カテゴリ内の表示単語群に対して表示単語数、および順序等を指定可能にしたことにより、カテゴリごとに各カテゴリを構成する単語集合の内容の把握が容易になり、分析で着目すべき単語を見つけ出し易くなる。
In addition, the display target
また、表示対象データ操作部104において、3単語以上の関係に着目した係り受け関係の単位で、係り受けの頻度等に基づく関連性の強さに対して閾値を設定することにより、表示するリンク数を制御することで、関連性の高い重要なリンクに絞った概略表示から、表示するリンク数を増やして網羅的に関連性を表示する詳細表示までを、分析の粒度を変えて容易に閲覧できるようになる。
In the display target
また、表示対象データ操作部104において、指定したノードに対して、係り受けおよび係り元のリンクに関する表示/非表示、または並べ替えの指定を可能にしたことにより、着目すべきノードおよびリンクに絞って閲覧できるようになるという利点がある。
In addition, the display target
また、表示対象データ操作部104において、低頻度語あるいは非重要語をフィルタすることにより、重要語を中心とした係り受けネットワーク構造に再構築することが可能となる。
Further, by filtering the infrequent words or non-important words in the display target
また、係り受け関係構造構成部109において、類似する単語を一つの概念としてグループ化することにより、類似した内容を一箇所にまとめて表示して、内容の把握を容易にすることが可能となる。
In addition, by grouping similar words as one concept in the dependency relationship
以上述べたように、本発明によれば、カテゴリとそのカテゴリに属する単語の係り受け関係をネットワークで表示し、表示されたネットワークに対して、カテゴリ、ノード、及びリンクに関する表示情報を自由に調節可能としたことで、係り受け関係の全体概観から詳細な絞り込み表示までの対話的な分析が可能となる。 As described above, according to the present invention, a dependency relationship between a category and words belonging to the category is displayed on the network, and display information on the category, node, and link can be freely adjusted for the displayed network. By making it possible, it becomes possible to perform interactive analysis from the overall overview of the dependency relationship to the detailed refinement display.
実施の形態2.
以上の実施の形態1では、カテゴリとそのカテゴリに属する単語の係り受け関係をネットワークで表示し、表示されたネットワークの表示情報を自由に調節可能としたものであるが、次に、中核的な係り受け関係と周辺的な係り受け関係を抽出する実施の形態2を示す。
In the first embodiment described above, the dependency relationship between a category and words belonging to the category is displayed on the network, and the display information of the displayed network can be freely adjusted.
図9は、この発明の実施の形態2を示す構成図である。本構成では、実施の形態1の構成に加えて、係り受け関係構造構成部109に、係り受け頻度が閾値以上の係り受け関係を抽出する中核的係り受け関係抽出部901と、中核的係り受け関係抽出部901で抽出された中核となる係り受け関係を構成する各単語と閾値以上の頻度がある係り受け関係を抽出する周辺係り受け関係抽出部902とを備える。その他の構成については実施の形態1と同様なので説明を省略する。
FIG. 9 is a block
中核的係り受け関係抽出部901では、実施の形態1で説明した係り受け関係ネットワークにおいて、単独の単語の入りリンク数(係り先となる数)が閾値以上、かつ、該当する単語の直接の係り受け関係にある係り受け対頻度が他の閾値以上の係り受け関係を抽出する。
In the core dependency
次に、周辺係り受け関係抽出部902において、中核的係り受け関係を構成する各単語との係り受け関係が所定の閾値以上の係り受け関係を抽出する。表示部110では、中核的係り受け関係抽出部901および周辺係り受け関係抽出部902で抽出された係り受け関係に絞って、実施の形態1と同様な係り受け関係ネットワークを表示する。
Next, the peripheral dependency relationship extraction unit 902 extracts a dependency relationship whose dependency relationship with each word constituting the core dependency relationship is a predetermined threshold or more. The
図10は、実施の形態2における係り受け関係ネットワークの表示の例である。図2では、「態度(に)−頭にくる」、「店員(の)−態度」、「不親切(な)−態度」等の高頻度な係り受け関係に埋没していた「守衛(の)−態度(が)−悪い」、「紛らわしい―態度(が)―頭にくる」のような周辺の係り受け関係が抽出可能になる。 FIG. 10 is an example of a display of the dependency relationship network in the second embodiment. In FIG. 2, the “guardian” (of the “guard” (of “the attitude (ni)-come to the head”, “the clerk (no) —attitude”, “unkind (na) —attitude)) ) -Attitude (ga) -bad "," confusing-attitude (ga) -coming to the head "surrounding dependency relationships can be extracted.
また、図11は、実施の形態2における係り受け関係構造構成部109で用いる索引の例である。図11において、1101は、各単語に一意に与えられる単語ID、1102は単語が出現するレコード(分析対象から抽出した登録単位)IDのリスト、1103は、レコードから抽出した文に付与された文IDのリスト、1104はレコードから抽出した係り受けIDのリストである。このとき、レコードID、文ID、係り受けIDは階層関係にあるものとする。すなわち、図11の係り受けIDで、A−B−Cと表記したものにおいて、AはレコードID、BはレコードAの文ID、CはレコードA中の文Bにおける係り受けIDであるとする。
FIG. 11 is an example of an index used in the dependency relationship
一般に、3語間の係り受け関係を索引に保持しようとすると膨大なデータ量となる。係り受け関係の索引を図11のように構成することによって、係り受け関係構造構成部109において、2語の係り受け関係を抽出し、さらに共通の文IDを持つ係り受け関係のみを選択することによって、擬似的な3語係り受け関係のみを抽出することができる。これにより、強い結びつきを持つ擬似的な3語係り受け関係にあるリンクのみを選択して、表示部110に表示させることができる。このとき、「不親切な態度が頭にくる」の3語間の係り受け関係(「不親切−態度−頭にくる」がすべて直接の係り受け関係)にある場合以外に「不親切な表示があると、態度よりも頭にくる」のような場合も含めてしまうが、中核的な係り受け関係を把握するための視覚化においては、大局的な概観という目的に関して問題とはならない。
In general, if an attempt is made to maintain a dependency relationship between three words in an index, a huge amount of data is required. By configuring the dependency relationship index as shown in FIG. 11, the dependency
また、表示対象データ操作部104において、ユーザが任意の組の係り受け群を複合概念として指定できるようにする。次に、指定された複合概念に属する単語と係り受け関係にある他の複合概念を図11に示した索引を検索して表示する。例えば、「悪い−気分−待つ」を複合概念として指定した場合、「悪い−気分−ミスする」や「打ち間違い−レジ−待つ」という他の複合概念を検索して表示する。これにより、複合概念間の関係を抽出して表示することができ、分析対象に潜在する重要な関係情報を分析できるようになる。
In addition, the display target
従来技術では、係り受け関係の表示内容において高い頻度の係り受け関係の周辺にある詳細な内容を把握することが困難だったのに対し、本発明では、係り受け関係構造構成部109を前記のように構成することにより、分析対象テキストから抽出した単語間の係り受け関係を3種類以上のカテゴリに分類してネットワーク表示を可能とするのに加えて、3語以上の関係について容易に把握でき、かつ、高い頻度の係り受け関係の周辺にある詳細な係り受け関係の内容を分析することが可能となる。
In the prior art, it is difficult to grasp the detailed contents around the high-frequency dependency relationship in the display content of the dependency relationship, whereas in the present invention, the dependency relationship
また、本発明では、係り受け関係構造構成部109を前記のように構成することにより、分析対象テキストから抽出した単語間の係り受け関係を3語以上の係り受け関係に絞って表示することができるので、ひとまとまりの係り受け関係の表示により、内容の把握を容易にすることが可能となる。
Further, in the present invention, by configuring the dependency relationship
また、本発明では、表示対象データ操作部104を前記のように構成することにより、複合概念として任意に指定した係り受け関係の組から、複合概念間の新規な関係を抽出して、分析対象に潜在する重要な関係情報を分析することが可能となる。
Further, in the present invention, by configuring the display target
実施の形態3.
以上の実施の形態2では、索引の構造を利用して、単語間の係り受け関係を3種類以上のカテゴリに分類してネットワーク表示を行なうことを可能とし、かつ、高い頻度の係り受け関係の周辺にある詳細な係り受け関係の内容の把握を容易にするようにした構成であるが、次に、実施の形態1と同様な構成で、意味カテゴリ辞書115に、分析対象とする分野に依存した意味カテゴリを格納し、分野依存の係り受け関係の内容把握と分析を容易にするようにした実施の形態3を示す。
In the second embodiment described above, it is possible to classify the dependency relationships between words into three or more categories and perform network display using the index structure, and to display a high-frequency dependency relationship. The configuration is such that it is easy to grasp the contents of detailed dependency relationships in the vicinity. Next, the semantic category dictionary 115 depends on the field to be analyzed with the same configuration as in the first embodiment.
実施の形態1のカテゴリ別単語頻度集計部108では、意味カテゴリ辞書115に記載された意味カテゴリとして、「形容詞」、「名詞:主語」、「名詞:目的語」、「動詞」のように、一般的な言語解析における品詞に基づいて集計を行なう例を示した。実施の形態3では、分野に依存した意味カテゴリと単語との対応情報を意味カテゴリ辞書115に格納しておくものとする。これにより、表示部110において、分野依存の意味カテゴリ別に、係り受けネットワーク構造を表示することが可能となる。
In the category-specific word
発明の実施の形態3を示す構成図は、実施の形態1で用いた図1と同じものとする。図12は、この発明の実施の形態3における係り受け関係ネットワーク表示の例である。この例では、ある機械製品の故障報告書の分析を目的として、意味カテゴリ辞書115に、対象としている機械製品の「機器名」と、機器名に関する「機器属性」と、機器に生じる故障の「現象」と、現象が起こった「条件」と、故障に対して取った「処置」とが意味カテゴリとして格納されているものとする。 The configuration diagram showing the third embodiment of the invention is the same as FIG. 1 used in the first embodiment. FIG. 12 is an example of the dependency relationship network display according to the third embodiment of the present invention. In this example, for the purpose of analyzing a failure report of a certain machine product, the “category name” of the target machine product, the “device attribute” related to the device name, and “ It is assumed that “phenomenon”, “condition” in which the phenomenon occurred, and “action” taken for the failure are stored as semantic categories.
また、意味カテゴリ「機器名」1202を持つ単語として、「Zユニット」、「主制御装置」などがあり、意味カテゴリ「機器属性」1201を持つ単語として、「A群」、「1次側」などが意味カテゴリとして格納されているものとする。同様に、意味カテゴリ「現象」1203を持つ単語として、「スリップ」、「表示」などが格納されており、意味カテゴリ「処置」1204を持つ単語として、「点検」、「交換」などが格納されており、意味カテゴリ「条件」1205を持つ単語として、「雨天時」、「走行中」などが格納されているものとする。 The words having the semantic category “device name” 1202 include “Z unit” and “main control device”, and the words having the semantic category “device attribute” 1201 include “group A” and “primary side”. Are stored as semantic categories. Similarly, “slip”, “display”, and the like are stored as words having the semantic category “phenomenon” 1203, and “inspection”, “exchange”, etc. are stored as words having the semantic category “action” 1204. It is assumed that “rainy weather”, “running”, and the like are stored as words having the semantic category “condition” 1205.
意味カテゴリ辞書115に前記のような単語が格納されていることにより、表示部110では、図12に示すように、分野に依存した「機器名」、「現象」等の意味カテゴリごとに係り受け関係ネットワークの表示が可能となる。
Since the words as described above are stored in the semantic category dictionary 115, the
なお、本実施の形態3では、カテゴリ別単語頻度集計部108において、意味カテゴリ辞書115に格納したカテゴリに基づいて単語頻度を集計し、表示部110において、意味カテゴリ辞書115に格納したカテゴリごとに係り受け関係ネットワークを表示する例を示したが、属性DB112に格納された属性別に集計を行い、表示手段110では属性別に係り受けネットワーク構造を表示する形態としても良い。
In the third embodiment, the word frequency totaling unit by
表示手段110において意味カテゴリ別に、係り受けネットワーク構造を表示することにより、分析対象の分野に依存した係り受け関係の把握が可能となり、文書データ中に記述された内容の分析を容易にすることができるようになる。 By displaying the dependency network structure for each semantic category in the display means 110, the dependency relationship depending on the field to be analyzed can be grasped, and the analysis of the contents described in the document data can be facilitated. become able to.
また、表示対象データ操作部104において、表示手段110に表示されたカテゴリ間の各単語の係り受け関係を参照して各単語が属するカテゴリを対話的に編集可能となり、意味カテゴリの名称を分析対象データに応じて変更した表示が可能になり、対象データから抽出した係り受け関係の内容の把握が容易になる。
In addition, the display object
101 登録部、102 係り受け抽出部、103 入力部、104 表示対象データ操作部、105 制御部、106 属性値頻度集計部、107 係り受け頻度集計部、108 カテゴリ別単語頻度集計部、109 係り受け関係構造構成部、110 表示部、111 分析対象、112 属性DB、113 単語DB、114 係り受けDB、115 意味カテゴリ辞書、116 係り受け関係構造の視覚化表示、801 カテゴリ「形容詞」、802 カテゴリ「名詞:主語」、803 カテゴリ「名詞:目的語」、804 カテゴリ「動詞」、805 カテゴリ「副詞」、806〜810 カテゴリに属する単語の一覧、811 リンク情報、901 周辺係り受け関係抽出部、902 中核的係り受け関係抽出部、1101 各単語に一意に与えられる単語ID、1102 単語が出現するレコード(分析対象から抽出した登録単位)IDのリスト、1103 レコードから抽出した文に付与された文IDのリスト、1104 レコードから抽出した係り受けIDのリスト、1201 意味カテゴリ「機器属性」、1202 意味カテゴリ「機器名」、1203 意味カテゴリ「現象」、1204 意味カテゴリ「処置」、1205 意味カテゴリ「条件」。
DESCRIPTION OF
Claims (14)
抽出した前記単語情報を解析して2語以上の単語間の係り受け関係を抽出する係り受け抽出手段と、
前記単語間の係り受け関係の頻度を集計する係り受け頻度集計手段と、
前記属性値の頻度を集計する属性値頻度集計手段と、
前記登録手段によって抽出され、前記属性値頻度集計手段によって属性値の頻度を集計された前記単語情報を、予め定義したカテゴリごとに集計するカテゴリ別単語集計手段と、
前記単語間の係り受け関係を構成する単語を前記カテゴリ別に分類し、分類された前記カテゴリに含まれる単語間の係り受け関係ネットワーク構造を構成する係り受け関係構造構成手段と、
前記単語間の係り受け関係ネットワーク構造を表示する表示手段と、
を備えたことを特徴とするテキストマイニング装置。 Registering means for analyzing the analysis target data and registering the word information extracted from the text of the analysis target data and the attribute value of the analysis target data;
A dependency extraction means for analyzing the extracted word information and extracting a dependency relationship between two or more words;
Dependency frequency totaling means for totalizing the frequency of dependency relationships between the words;
Attribute value frequency counting means for counting the frequency of the attribute value;
Category-based word totalizing means for totaling the word information extracted by the registration means and totalized for the attribute value frequency by the attribute value frequency totaling means for each predefined category;
Classifying the words constituting the dependency relationship between the words by category, and configuring the dependency relationship structure configuring means for configuring the dependency relationship network structure between the words included in the classified category;
Display means for displaying the dependency relationship network structure between the words;
A text mining device comprising:
抽出した前記単語情報を解析して2語以上の単語間の係り受け関係を抽出する係り受け抽出ステップと、
前記単語間の係り受け関係の頻度を集計して、前記属性値の頻度を集計し、
前記登録ステップによって抽出され、前記属性値の頻度を集計された前記単語情報を、予め定義したカテゴリごとに集計するカテゴリ別単語集計ステップと、
前記単語間の係り受け関係を構成する単語を前記カテゴリ別に分類し、分類された前記カテゴリに含まれる単語間の係り受け関係ネットワーク構造を構成する係り受け関係構造構成ステップと、
前記単語間の係り受け関係ネットワーク構造を表示する表示ステップと、
表示条件の設定の入力を受け付ける入力ステップと、
表示された前記単語間の係り受け関係ネットワーク構造に対し、前記表示条件の設定を指示する表示対象データ操作ステップにより設定された前記表示条件に従って、前記単語間の係り受け関係ネットワーク構造を表示する前記表示ステップ、
として機能させるためのテキストマイニングプログラム。 A registration step of registering word information extracted from the text of the analysis target data and attribute values of the analysis target data by analyzing the analysis target data;
A dependency extraction step of analyzing the extracted word information and extracting a dependency relationship between two or more words;
Aggregating the frequency of the dependency relationship between the words, summing up the frequency of the attribute value,
A word summarizing step by category for summarizing the word information extracted by the registration step and summed up the frequency of the attribute value for each predefined category;
Classifying the words constituting the dependency relationship between the words by category, and configuring a dependency relationship network structure between the words included in the classified category;
A display step for displaying a dependency relationship network structure between the words;
An input step for receiving display condition setting input;
The dependency relationship network structure between the words is displayed according to the display condition set by the display target data operation step for instructing setting of the display condition for the displayed dependency relationship network structure between the words. Display step,
Text mining program to function as.
抽出した前記単語情報を解析して2語以上の単語間の係り受け関係を抽出し、
前記単語間の係り受け関係の頻度、および、前記属性値の頻度を集計し、
前記登録によって抽出され、属性値の頻度を集計された前記単語情報を、予め定義したカテゴリごとに集計した後に、
前記単語間の係り受け関係を構成する単語を前記カテゴリ別に分類し、分類された前記カテゴリに含まれる単語間の係り受け関係ネットワーク構造を構成し、
前記単語間の係り受け関係ネットワーク構造を表示して、
表示条件の設定の入力を受け付けて、
表示された前記単語間の係り受け関係ネットワーク構造に対し、前記表示条件の設定を指示して、前記表示条件に従って前記単語間の係り受け関係ネットワーク構造を表示する
ことを特徴とするテキストマイニング方法。 Analyzing the analysis target data, registering the word information extracted from the text of the analysis target data and the attribute value of the analysis target data,
Analyzing the extracted word information to extract a dependency relationship between two or more words,
Aggregate the frequency of dependency relationships between the words and the frequency of the attribute values;
After the word information extracted by the registration and the frequency of attribute values is totalized for each predefined category,
Classifying the words constituting the dependency relationship between the words by the category, configuring a dependency relationship network structure between the words included in the classified category,
Display the dependency relationship network structure between the words,
Accept input of display condition setting,
A text mining method comprising instructing setting of the display condition to the displayed dependency relation network structure between words and displaying the dependency relation network structure between words according to the display condition.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006122164A JP4876692B2 (en) | 2006-04-26 | 2006-04-26 | Text mining device, text mining program, and text mining method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006122164A JP4876692B2 (en) | 2006-04-26 | 2006-04-26 | Text mining device, text mining program, and text mining method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007293685A true JP2007293685A (en) | 2007-11-08 |
JP4876692B2 JP4876692B2 (en) | 2012-02-15 |
Family
ID=38764252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006122164A Expired - Fee Related JP4876692B2 (en) | 2006-04-26 | 2006-04-26 | Text mining device, text mining program, and text mining method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4876692B2 (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8676738B2 (en) | 2008-09-03 | 2014-03-18 | Nec Corporation | Relationship detector, relationship detection method, and recording medium |
WO2016182393A1 (en) * | 2015-05-13 | 2016-11-17 | 삼성전자 주식회사 | Method and device for analyzing user's emotion |
JP2017162190A (en) * | 2016-03-09 | 2017-09-14 | 富士通株式会社 | Similar document search program, similar document search device, and similar document search method |
US10409848B2 (en) | 2012-04-26 | 2019-09-10 | Nec Corporation | Text mining system, text mining method, and program |
US11615126B2 (en) | 2019-09-06 | 2023-03-28 | Kabushiki Kaisha Toshiba | Analyzing apparatus, analyzing method, and computer program product |
JP7549977B2 (en) | 2020-06-12 | 2024-09-12 | 株式会社日立社会情報サービス | Text mining device and text mining method |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09218878A (en) * | 1996-02-14 | 1997-08-19 | Fuji Xerox Co Ltd | Information presenting device |
JP2001075966A (en) * | 1999-07-07 | 2001-03-23 | Internatl Business Mach Corp <Ibm> | Data analysis system |
JP2003157255A (en) * | 2001-11-20 | 2003-05-30 | Just Syst Corp | Device, method and program for processing information |
JP2004021445A (en) * | 2002-06-14 | 2004-01-22 | Nri & Ncc Co Ltd | Text data analysis system, text data analysis method and computer program |
-
2006
- 2006-04-26 JP JP2006122164A patent/JP4876692B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09218878A (en) * | 1996-02-14 | 1997-08-19 | Fuji Xerox Co Ltd | Information presenting device |
JP2001075966A (en) * | 1999-07-07 | 2001-03-23 | Internatl Business Mach Corp <Ibm> | Data analysis system |
JP2003157255A (en) * | 2001-11-20 | 2003-05-30 | Just Syst Corp | Device, method and program for processing information |
JP2004021445A (en) * | 2002-06-14 | 2004-01-22 | Nri & Ncc Co Ltd | Text data analysis system, text data analysis method and computer program |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8676738B2 (en) | 2008-09-03 | 2014-03-18 | Nec Corporation | Relationship detector, relationship detection method, and recording medium |
US10409848B2 (en) | 2012-04-26 | 2019-09-10 | Nec Corporation | Text mining system, text mining method, and program |
WO2016182393A1 (en) * | 2015-05-13 | 2016-11-17 | 삼성전자 주식회사 | Method and device for analyzing user's emotion |
JP2017162190A (en) * | 2016-03-09 | 2017-09-14 | 富士通株式会社 | Similar document search program, similar document search device, and similar document search method |
US11615126B2 (en) | 2019-09-06 | 2023-03-28 | Kabushiki Kaisha Toshiba | Analyzing apparatus, analyzing method, and computer program product |
JP7549977B2 (en) | 2020-06-12 | 2024-09-12 | 株式会社日立社会情報サービス | Text mining device and text mining method |
Also Published As
Publication number | Publication date |
---|---|
JP4876692B2 (en) | 2012-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5879260B2 (en) | Method and apparatus for analyzing content of microblog message | |
KR100565871B1 (en) | Data set evaluation method, data set evaluation method, query execution plan configuration method, execution plan, data set evaluation system, data set evaluation system and query execution plan configuration system | |
US6915308B1 (en) | Method and apparatus for information mining and filtering | |
US8010539B2 (en) | Phrase based snippet generation | |
US8082248B2 (en) | Method and system for document classification based on document structure and written style | |
US20120221553A1 (en) | Methods for electronic document searching and graphically representing electronic document searches | |
Scharl et al. | Analyzing the public discourse on works of fiction–Detection and visualization of emotion in online coverage about HBO’s Game of Thrones | |
Naidu et al. | Text summarization with automatic keyword extraction in telugu e-newspapers | |
US20180268053A1 (en) | Electronic document generation using data from disparate sources | |
JP4876692B2 (en) | Text mining device, text mining program, and text mining method | |
JPH0991314A (en) | Information search device | |
Duan et al. | VISA: a visual sentiment analysis system | |
Riehmann et al. | WORDGRAPH: Keyword-in-context visualization for NETSPEAK's wildcard search | |
JP4967133B2 (en) | Information acquisition apparatus, program and method thereof | |
Maciołek et al. | Cluo: Web-scale text mining system for open source intelligence purposes | |
Kisilevich et al. | “Beautiful picture of an ugly place”. Exploring photo collections using opinion and sentiment analysis of user comments | |
JP2004021445A (en) | Text data analysis system, text data analysis method and computer program | |
JP4931114B2 (en) | Data display device, data display method, and data display program | |
Khemani et al. | A review on reddit news headlines with nltk tool | |
Castellanos et al. | Intention insider: discovering people's intentions in the social channel | |
Afolabi et al. | Semantic text mining using domain ontology | |
JP5242722B2 (en) | Representative sentence extraction device and program | |
Behrisch et al. | The News Auditor: Visual Exploration of Clusters of Stories. | |
US20150254306A1 (en) | System and method for augmenting search results | |
JP7227705B2 (en) | Natural language processing device, search device, natural language processing method, search method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111101 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111114 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141209 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |