JP2007293685A - Device, program, and method for mining text - Google Patents

Device, program, and method for mining text Download PDF

Info

Publication number
JP2007293685A
JP2007293685A JP2006122164A JP2006122164A JP2007293685A JP 2007293685 A JP2007293685 A JP 2007293685A JP 2006122164 A JP2006122164 A JP 2006122164A JP 2006122164 A JP2006122164 A JP 2006122164A JP 2007293685 A JP2007293685 A JP 2007293685A
Authority
JP
Japan
Prior art keywords
words
display
dependency
dependency relationship
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006122164A
Other languages
Japanese (ja)
Other versions
JP4876692B2 (en
Inventor
Yasuhiro Takayama
泰博 高山
Takeyuki Aikawa
勇之 相川
Makoto Imamura
誠 今村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2006122164A priority Critical patent/JP4876692B2/en
Publication of JP2007293685A publication Critical patent/JP2007293685A/en
Application granted granted Critical
Publication of JP4876692B2 publication Critical patent/JP4876692B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To solve such a problem that a modification relation, which focuses on the relation of not less than three words from the aspect of wider-range of analysis, is not freely and interactively reviewed since the range of analysis by a user is restricted up to the relation of two words since conventional technique is for two dimensional mapping of a two-word modification relation focusing on the relation of the two words. <P>SOLUTION: A text mining device includes: a modification relation extracting means for extracting the modification relation of the not less than two words; a modification relation structure constituting means for classifying the words constituting the inter-word modification relation by category and constituting a modification relation network structure among the words included in the classified category; a display means for displaying the inter-word modification relation network structure; an input means for receiving the input of setting of a display condition; and a display object data operating means for indicating the setting of the display condition with respect to the displayed inter-word modification relation network structure. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、大量のテキストデータに含まれる言語情報を分析して、単語や係り受け関係の関連性を抽出し、これらの関連性のテキストマイニング結果を視覚化して表示する技術に関する。   The present invention relates to a technique for analyzing linguistic information contained in a large amount of text data, extracting relationships between words and dependency relationships, and visualizing and displaying the results of text mining of these relationships.

インターネットの普及に伴い、製品に関する企業の宣伝や消費者の意見がWebページとして公開されているのに加え、大量の顧客の声が電子メールやWebにより文書データとして発信されるようになった。また、企業内では文書の電子化が進み、設計仕様書や故障調査報告書などの品質管理業務などで必要とされる文書の蓄積が進んでいる。これらの大量に蓄積された文書のテキストから、有用な情報を抽出し、業務改善のために活用するためのテキストマイニング装置の重要性が増している。   With the spread of the Internet, corporate advertisements and consumer opinions regarding products have been released as Web pages, and a large amount of customer feedback has been sent as document data by e-mail and Web. In addition, the digitization of documents is progressing in the enterprise, and the accumulation of documents required for quality control work such as design specifications and failure investigation reports is progressing. The importance of text mining devices for extracting useful information from these large amounts of stored text and utilizing it for business improvement is increasing.

このようなテキストマイニング装置のうち、従来から、テキストの属性データや全文検索等の条件によりユーザがグループを定義し、そのうちのあるグループを指定すると、該当グループ中のテキストから単語または係り受け情報を抽出し、これらの出現頻度や統計的な指標による重みに基づいて単語または係り受け情報をランク付けしたリストを表示することにより、テキスト中の情報を概観する手段を備える装置がある。 Among such text mining devices, conventionally, when a user defines a group according to conditions such as text attribute data and full-text search, and designates a certain group, a word or dependency information is extracted from the text in the group. There is an apparatus provided with means for overviewing information in a text by extracting and displaying a list in which words or dependency information are ranked based on their appearance frequency and weight based on a statistical index.

例えば、以下に示す特許文献1では、属性データ、テキストの全文検索等の条件により、ユーザが定義したあるグループを指定すると、該当グループ中のテキストから抽出した単語または係り受け情報を出現頻度やIDF(Inverted Document Frequency)重みに基づいて、単語または係り受け情報をランク付けしたリストを表示する技術が開示されている。また、これらの統計情報をもとに、コレスポンデンス分析や主成分分析などの一般的に広く用いられている統計的な分析手法を用いて、単語や係り受け情報を二次元マップ上に配置して可視化する技術が開示されている。 For example, in Patent Document 1 shown below, when a certain group defined by the user is specified according to conditions such as attribute data and full text search of text, the word or dependency information extracted from the text in the corresponding group is displayed as an appearance frequency or IDF. (Inverted Document Frequency) A technique for displaying a list in which words or dependency information are ranked based on weights is disclosed. In addition, based on these statistical information, words and dependency information are arranged on a two-dimensional map using commonly used statistical analysis techniques such as correspondence analysis and principal component analysis. A technique for visualization is disclosed.

また、単語間の関係をマップ上に配置して表示する方法として、特許文献2のような情報マップ作成技術が開示されている。この特許文献2では、単語間の関連性をネットワーク形式で表示し、アークに対する間引きを行なう技術が開示されている。 Further, as a method for arranging and displaying the relationship between words on a map, an information map creation technique as disclosed in Patent Document 2 is disclosed. In this patent document 2, a technique for displaying relations between words in a network format and thinning out arcs is disclosed.

特開2004−021445号公報(第15頁 第1図)Japanese Patent Laid-Open No. 2004-021445 (page 15, FIG. 1) 特開2004−21913号公報(第17頁 第1図〜第2図、第18頁 第5図)JP 2004-21913 A (page 17, FIG. 1 to FIG. 2, page 18, FIG. 5)

上記の特許文献1および特許文献2に開示された従来技術では、2つの単語間の関係に着目した2語係り受け関係の二次元マッピングであったため、ユーザの分析の範囲は2語までの関係に限定されていた。このため、より広範囲の分析の観点を持って3単語以上の関係に着目した係り受け関係に対して、自由で対話的な概観をすることができないという課題があった。   In the prior art disclosed in Patent Document 1 and Patent Document 2 described above, since the two-dimensional dependency relationship is a two-word dependency relationship focusing on the relationship between two words, the range of analysis of the user is a relationship up to two words. It was limited to. For this reason, there has been a problem that it is impossible to give a free and interactive overview to the dependency relationship that focuses on a relationship of three words or more from a wider viewpoint of analysis.

また、従来技術では、テキストを解析して抽出した係り受け関係は、数多く表示された場合、そのテキストの内容の把握が容易でなく、さらに、分析で着目すべき単語が、他の重要でない単語群の中に埋もれてしまって見つけ出すのが困難になるという課題があった。   Also, in the prior art, when many dependency relationships extracted by analyzing texts are displayed, it is not easy to grasp the contents of the texts, and the words to be focused on in the analysis are other insignificant words. There was a problem that it was difficult to find it because it was buried in the group.

また、従来技術では、3単語以上の関係に着目した係り受け関係をネットワーク表示する場合、ネットワークを構成するリンクに対する重要性を考慮せずに表示すると、単一のネットワーク構造のみしか得られないため、概略表示から詳細表示までを自由に変更して、分析の粒度を変えて容易に閲覧することができないという課題があった。   In addition, in the prior art, when displaying a dependency relationship focusing on a relationship of three words or more, if only a single network structure is obtained if it is displayed without considering the importance of the links constituting the network. However, there is a problem that it is not possible to easily browse from a summary display to a detailed display by changing the granularity of analysis.

また、従来技術では、分析で着目したい3単語以上の係り受け関係が、他の不要なリンクの中に埋もれてしまい、着目すべきノードおよびリンクに絞って閲覧することが困難であるという課題があった。   In addition, in the related art, the dependency relationship of three or more words to be noticed in the analysis is buried in other unnecessary links, and it is difficult to browse only the nodes and links to be noticed. there were.

また、従来技術では、低頻度語あるいは非重要語が混在した係り受けネットワーク構造である場合、重要語を中心とした係り受け関係を分析することが困難であるという課題があった。   Further, in the related art, in the case of a dependency network structure in which low-frequency words or non-important words are mixed, there is a problem that it is difficult to analyze the dependency relationship centered on important words.

また、従来技術では、類似する単語が個別にネットワーク構造のノードとなった場合、類似する単語であるにもかかわらず別のノードとしてリンクが張られるために、リンク数が増加して錯綜し、内容の把握が困難であるという課題があった。   Also, in the prior art, when similar words individually become nodes of the network structure, links are created as different nodes even though they are similar words, so the number of links increases and is complicated, There was a problem that it was difficult to grasp the contents.

また、従来技術では、2つの単語間の係り受け関係の表示内容においては、高い頻度の係り受け関係のさらに周辺にある詳細な内容を把握することが困難であるという課題があった。   In addition, in the related art, there is a problem in that it is difficult to grasp the detailed contents in the vicinity of a high-frequency dependency relationship in the display content of the dependency relationship between two words.

また、従来技術では、2つの単語間の係り受け関係の表示内容においては、3語以上の係り受け関係を表示できないため、3語以上のひとまとまりの係り受け関係の内容の把握ができないという課題があった。   Further, in the related art, in the display contents of the dependency relationship between two words, since the dependency relationship of three words or more cannot be displayed, the content of the dependency relationship of a group of three words or more cannot be grasped. was there.

また、従来技術では、ユーザが任意の組の係り受け群を複合概念として指定できないため、複合概念として任意に指定した係り受け関係の組から、複合概念間の新規な関係を抽出して、分析対象に潜在する重要な関係情報を分析することができないという課題があった。   In addition, in the prior art, since a user cannot specify any group of dependency groups as a composite concept, a new relationship between composite concepts is extracted from the set of dependency relationships arbitrarily specified as a composite concept and analyzed. There was a problem that important relationship information latent in the subject could not be analyzed.

また、従来技術では、係り受け関係を構成する単語をグループに分類する場合、分類の基準として、分析対象の分野に依存した知識源を利用しないため、分析対象の分野に依存した係り受け関係の把握ができず、分析対象の業務に有用な分析が困難であるという課題があった。   In addition, in the prior art, when the words constituting the dependency relationship are classified into groups, a knowledge source that depends on the field to be analyzed is not used as a classification criterion. There was a problem that it was difficult to grasp and it was difficult to perform analysis useful for the work to be analyzed.

また、従来技術では、表示されたカテゴリ間の各単語の係り受け関係を参照して、各単語が属するカテゴリを対話的に自由に編集、修正することができないため、対象データから抽出した係り受け関係の内容の把握が容易でないという課題があった。   Also, in the prior art, it is impossible to interactively freely edit and modify the category to which each word belongs by referring to the dependency relationship of each word between displayed categories. There was a problem that it was not easy to grasp the contents of the relationship.

本発明は、上記のような課題を解決するためになされたもので、係り受け関係構造構成手段を備えることにより、分析対象テキストから抽出した単語間の係り受け関係を複数のカテゴリに分類したネットワーク表示を可能とし、表示したネットワークに対して、カテゴリ、ノード、及びアークに関する表示情報を自由に調節可能としたことで、2語以上にわたる広範囲な係り受け関係の全体概観から、詳細な絞り込み表示までの自由で対話的な分析を可能にすることを目的とする。   The present invention has been made in order to solve the above-described problems, and includes a dependency relationship structure forming unit, whereby a dependency relationship between words extracted from an analysis target text is classified into a plurality of categories. From the overall overview of a wide range of dependency relationships spanning more than two words, to detailed refinement display, by enabling display and freely adjusting display information on categories, nodes, and arcs for the displayed network The purpose is to enable free and interactive analysis.

このような問題を解決するため、本発明に係るテキストマイニング装置、テキストマイニングプログラム、及びテキストマイニング方法は、分析対象データを解析して、前記分析対象データのテキストから抽出した単語情報と前記分析対象データの属性値とを登録する登録手段と、抽出した前記単語情報を解析して2語以上の単語間の係り受け関係を抽出する係り受け抽出手段と、前記単語間の係り受け関係の頻度を集計する係り受け頻度集計手段と、前記属性値の頻度を集計する属性値頻度集計手段と、前記登録手段によって抽出され、前記属性値頻度集計手段によって属性値の頻度を集計された前記単語情報を、予め定義したカテゴリごとに集計するカテゴリ別単語集計手段と、前記単語間の係り受け関係を構成する単語を前記カテゴリ別に分類し、分類された前記カテゴリに含まれる単語間の係り受け関係ネットワーク構造を構成する係り受け関係構造構成手段と、前記単語間の係り受け関係ネットワーク構造を表示する表示手段と、表示条件の設定の入力を受け付ける入力手段と、表示された前記単語間の係り受け関係ネットワーク構造に対し、前記表示条件の設定を指示する表示対象データ操作手段とを備えることとしたものである。 In order to solve such a problem, the text mining device, the text mining program, and the text mining method according to the present invention analyze the analysis target data, extract the word information extracted from the text of the analysis target data, and the analysis target A registration means for registering attribute values of data; a dependency extraction means for analyzing the extracted word information to extract a dependency relationship between two or more words; and a frequency of the dependency relationship between the words. Dependency frequency counting means for counting, attribute value frequency counting means for counting the frequency of the attribute value, and the word information extracted by the registration means and tabulated for the attribute value frequency by the attribute value frequency counting means Category-by-category word counting means for counting for each predefined category, and the words constituting the dependency relationship between the words as the category And a dependency relationship structure configuring unit that configures a dependency relationship network structure between words included in the classified category, a display unit that displays the dependency relationship network structure between the words, and a display condition Input means for receiving setting input and display target data operating means for instructing setting of the display condition for the displayed dependency relation network structure between words.

本発明によれば、係り受け関係構造構成手段を備えることにより、分析対象テキストから抽出した単語間の係り受け関係を3種類以上のカテゴリに分類したネットワーク表示を可能とし、表示したネットワークに対して、カテゴリ、ノード、及びアークに関する表示情報を自由に調節可能としたことで、3語以上にわたる広範囲な係り受け関係の全体概観から、詳細な絞り込み表示までの自由で対話的な分析ができるようになる。 According to the present invention, it is possible to display a network in which the dependency relationships between words extracted from the text to be analyzed are classified into three or more categories by providing the dependency relationship structure constituting unit. The display information on categories, nodes, and arcs can be freely adjusted so that free interactive analysis can be performed from a broad overview of dependency relationships over three words to detailed refined display. Become.

実施の形態1.
図1は、この発明の実施の形態1を示す構成図である。101は登録部であり、分析対象データを解析して、分析対象データのテキストから抽出した単語情報と分析対象データの属性値を、それぞれ後述の単語データベース113、および、属性データベース112に登録する。なお、以下、データベースをDBと記載する。102は係り受け抽出部であり、抽出した単語情報を解析して2語以上の単語間の係り受け関係を抽出する。103は入力部であり、ユーザからの入力を受け付ける。104は表示対象データ操作部であり、表示された単語間の係り受け関係ネットワーク構造に関するデータの設定の変更を指示する。105は制御部であり、分析対象データの登録から表示にいたるまでの一連の処理の流れを制御する。106は係り受け頻度集計部であり、係り受け抽出部102によって抽出された単語間の係り受け関係の頻度を集計する。107は属性値頻度集計部であり、分析対象データ中の属性値の頻度を集計する。108はカテゴリ別単語集計部であり、登録部101によって抽出された単語を予め定義したカテゴリごとに集計する。109は係り受け関係構造構成部であり、分析対象テキストから抽出した単語間の係り受け関係を分類する。110は表示部であり、係り受け関係構造構成部109によって構成された単語間の係り受け関係ネットワーク構造を表示する。111は分析対象とする文書データである。112は属性DBであり、文書データから抽出した属性に関する情報を格納する。113は単語DBであり、文書データから抽出した単語に関する情報を格納する。114は係り受けDBであり、文書データから抽出した係り受け関係に関する情報を格納する。115は意味カテゴリ辞書であり、意味カテゴリとその意味カテゴリに属する単語を格納する。116は表示部からの出力情報であり、係り受け関係構造を視覚的に表示したものである。
Embodiment 1 FIG.
1 is a block diagram showing Embodiment 1 of the present invention. A registration unit 101 analyzes the analysis target data and registers word information extracted from the text of the analysis target data and the attribute value of the analysis target data in a word database 113 and an attribute database 112, which will be described later. Hereinafter, the database is referred to as DB. A dependency extraction unit 102 analyzes the extracted word information and extracts a dependency relationship between two or more words. Reference numeral 103 denotes an input unit that accepts input from the user. Reference numeral 104 denotes a display target data operation unit, which instructs to change data settings related to the dependency relationship network structure between displayed words. A control unit 105 controls a flow of a series of processes from registration of analysis target data to display. 106 is a dependency frequency totaling unit, which totals the frequency of dependency relationships between words extracted by the dependency extraction unit 102. Reference numeral 107 denotes an attribute value frequency totaling unit that counts the frequency of attribute values in the analysis target data. Reference numeral 108 denotes a category-specific word totaling unit that totalizes the words extracted by the registration unit 101 for each predefined category. Reference numeral 109 denotes a dependency relationship structure forming unit that classifies dependency relationships between words extracted from the text to be analyzed. Reference numeral 110 denotes a display unit that displays a dependency relationship network structure between words configured by the dependency relationship structure configuration unit 109. Reference numeral 111 denotes document data to be analyzed. An attribute DB 112 stores information related to attributes extracted from document data. Reference numeral 113 denotes a word DB, which stores information about words extracted from document data. Reference numeral 114 denotes a dependency DB, which stores information related to dependency relationships extracted from document data. A semantic category dictionary 115 stores semantic categories and words belonging to the semantic categories. Reference numeral 116 denotes output information from the display unit, which visually displays the dependency relationship structure.

以下、本発明の実施の形態1における基本処理の概要について、図1から図4までを適宜参照しつつ説明する。基本処理の詳細は、図2に示した本発明の実施の形態1における基本処理のフローチャートを参照しながら説明する。   Hereinafter, an outline of basic processing in Embodiment 1 of the present invention will be described with reference to FIGS. 1 to 4 as appropriate. Details of the basic processing will be described with reference to the flowchart of the basic processing in the first embodiment of the present invention shown in FIG.

まず、図2のステップS201において、登録部101は、分析対象の文書データ111を読み込み、文書データ111中に出現する単語、および書誌情報などの属性の情報を抽出する。抽出した単語に関する情報は、単語DB113に格納し、また、抽出した属性の情報は、属性DB112に格納する。図3に、本発明における単語DB113の例を示す。図3では、文書データ111中に出現する単語を抽出した後に、単語ID、見出し、品詞、活用形などの単語情報が単語DB113に格納されている一例を示している。格納する単語は、例えば形態素解析により解析した結果から、抽出対象とする品詞として名詞、形容詞、形容動詞などを選択する。また、図4は、本発明における属性DB112の例を示したものである。図4では、文書の属性として、文書ID、受付日、種別、対象部門などが格納されている一例を示している。この属性については、分析対象の文書データ111に対して、どのような観点で分析するかによって、種々の属性の種類が設計されて、各文書データに属性の値が付与される。 First, in step S201 of FIG. 2, the registration unit 101 reads the document data 111 to be analyzed, and extracts words appearing in the document data 111 and attribute information such as bibliographic information. Information about the extracted word is stored in the word DB 113, and information on the extracted attribute is stored in the attribute DB 112. FIG. 3 shows an example of the word DB 113 in the present invention. FIG. 3 shows an example in which word information such as a word ID, a headline, a part of speech, and a utilization form is stored in the word DB 113 after a word appearing in the document data 111 is extracted. As words to be stored, nouns, adjectives, adjective verbs and the like are selected as parts of speech to be extracted from, for example, a result of analysis by morphological analysis. FIG. 4 shows an example of the attribute DB 112 in the present invention. FIG. 4 shows an example in which document ID, reception date, type, target department, and the like are stored as document attributes. With respect to this attribute, various attribute types are designed and attribute values are given to each document data depending on the viewpoint of analysis of the document data 111 to be analyzed.

次に、ステップS202において、登録部101は、係り受け抽出部102を呼び出し、分析対象の文書データ中に出現する単語間の係り受け関係を抽出して、係り受けDB114に格納する。図5に、本発明における係り受け関係の例を示す。図では、文例「A店だけど、不親切な態度が頭にくる。」(文ID=1)に対して、形態素解析により抽出した単語「A店/不親切/態度/頭にくる」を得て、2語の係り受け関係となる「不親切 → 態度」および「態度 → 頭にくる」を抽出した一例を示している。この場合、文ID=1の文に対して、上記の2語の係り受け関係を組み合わせて、3語の係り受け関係「不親切 → 態度 → 頭にくる」も同時に抽出可能である。このようにして得た係り受け関係を、例えば、図6の本発明における係り受けDBの例のように、係り受けIDとともに、係り元単語、係り先単語、文IDなどを格納しておく。   Next, in step S202, the registration unit 101 calls the dependency extraction unit 102, extracts a dependency relationship between words appearing in the document data to be analyzed, and stores the relationship in the dependency DB 114. FIG. 5 shows an example of the dependency relationship in the present invention. In the figure, the word “A store / unkindness / attitude / heading” extracted by morphological analysis is obtained for the sentence example “A store, but unfriendly attitude comes to mind” (sentence ID = 1). It shows an example of extracting “unkind → attitude” and “attitude → head” which are two word dependency relationships. In this case, for the sentence with sentence ID = 1, the above-described dependency relationship of two words can be combined to simultaneously extract the dependency relationship of three words “unfriendly → attitude → head”. The dependency relationship obtained in this way is stored with a dependency source word, a dependency destination word, a sentence ID, etc. together with the dependency ID, as in the example of the dependency DB in the present invention of FIG.

次に、ステップS203において、制御部105は、属性DB112に格納されている属性情報を受け取り、属性値頻度集計部106に送って、属性値頻度集計部106では、個々の属性に対する属性値の頻度を集計する。   Next, in step S203, the control unit 105 receives the attribute information stored in the attribute DB 112 and sends the attribute information to the attribute value frequency totaling unit 106. The attribute value frequency totaling unit 106 determines the frequency of the attribute value for each attribute. Are counted.

次に、ステップS204において、制御部105は、単語DB112に格納されている単語情報を受け取り、カテゴリ別単語頻度集計部108に送る。カテゴリ別単語頻度集計手段は、単語DB112から受け取った単語である単語情報、および単語分類と意味カテゴリとの対応関係を格納している意味カテゴリ辞書115を参照して、意味カテゴリごとに単語の頻度を集計する。   Next, in step S <b> 204, the control unit 105 receives word information stored in the word DB 112 and sends it to the category-specific word frequency totaling unit 108. The category-specific word frequency totaling unit refers to the word information received from the word DB 112 and the semantic category dictionary 115 storing the correspondence between the word classification and the semantic category, and the word frequency for each semantic category. Are counted.

次に、ステップS205において、制御部105は、係り受けDB114に格納されている係り受け情報を受け取り、係り受け頻度集計部107において、係り受け関係ごとの頻度を集計する。   Next, in step S205, the control unit 105 receives the dependency information stored in the dependency DB 114, and the dependency frequency totaling unit 107 totals the frequency for each dependency relationship.

次に、ステップS206において、係り受け関係構造構成の処理を行なう。係り受け関係構造構成の処理は係り受け関係構造構成部109で実行される。以下、係り受け関係構造構成部109の動作については、図7の詳細な流れ図を参照して説明する。係り受け関係構造構成手段109は、まず、ステップS701で、係り受け頻度集計部107から、係り受け対と係り受け対ごとの頻度を取得する。   Next, in step S206, a dependency relationship structure configuration process is performed. The dependency relationship structure configuration processing is executed by the dependency relationship structure configuration unit 109. Hereinafter, the operation of the dependency relationship structure constituent unit 109 will be described with reference to the detailed flowchart of FIG. First, in step S701, the dependency relationship structure configuring unit 109 acquires a dependency pair and a frequency for each dependency pair from the dependency frequency totaling unit 107.

次に、ステップS702で、カテゴリ別単語頻度集計部108から、単語のカテゴリ分類と各カテゴリに属する単語の頻度を取得する。   Next, in step S <b> 702, the category classification of words and the frequency of words belonging to each category are acquired from the category-specific word frequency totaling unit 108.

次に、ステップS703で、ステップS701およびステップS701で取得した情報から、カテゴリ対ごとに、係り元の各カテゴリに属する単語と、係り先の各カテゴリに属する単語との間のリンク情報を生成する。このとき、係り受け頻度が大きいリンクに対して、リンクに付随する値として大きな値を設定するものとする。   Next, in step S703, link information between the words belonging to each category of the relation source and the words belonging to each category of the relation destination is generated for each category pair from the information acquired in steps S701 and S701. . At this time, a large value is set as a value associated with the link for a link with a large dependency frequency.

次に、ステップS704では、カテゴリ別にネットワーク状に係り受け関係を配置して表示するために、カテゴリごとに表示する位置を決定して表示情報を生成する。例えば、カテゴリとして、一般的な品詞、および主語−目的語のような格関係を用いる場合には、「動詞」を中心に配置し、その左側に「動詞」と格関係にある「主語である名詞」および「目的語である名詞」を配置し、さらにその左側に名詞に係る「形容詞」を配置する。また、「動詞」右側に動詞を修飾する「副詞」を配置する。このとき、配置に関する情報は、設定ファイルを用いてユーザが「形容詞」、「名詞」、「動詞」、「副詞」の順に左から並べるように指定しても良い。また、係り先となる単語の頻度の合計が大きい順にカテゴリを左から右に配置する、という方式でも良い。以上が、係り受け関係構造構成部109の動作の説明である。   Next, in step S704, in order to arrange and display the dependency relationship in a network form for each category, a display position is determined for each category and display information is generated. For example, when using a category part such as a general part of speech and subject-object as a category, the “verb” is placed at the center, and the “subject” is a subject with a “verb” on the left side. “Noun” and “noun as object” are arranged, and “adjective” relating to the noun is arranged on the left side. Also, an “adverb” that modifies the verb is placed on the right side of the “verb”. At this time, the information regarding the arrangement may be specified by using a setting file so that the user arranges “adjective”, “noun”, “verb”, and “adverb” in order from the left. Alternatively, a method may be used in which categories are arranged from left to right in descending order of the sum of the frequencies of words to be related. The above is the description of the operation of the dependency relationship structure configuration unit 109.

次に、ステップS207において、表示部110では、係り受け関係構造構成部109で生成された情報を元に、図8に例示するように係り受け関係構造の視覚化表示を行なう。例えば、図8の801「形容詞」、802「名詞:主語」、803「名詞:目的語」、804「動詞」、805「副詞」は、カテゴリを表す。また、図8の806、807、808、809、810は、それぞれ801〜805に対応するカテゴリに属する単語の一覧を示している。このとき、リンク情報811は、「形容詞」カテゴリを持つ単語「わかりにくい」と、「名詞:主語」カテゴリを持つ「表示」とが直接の係り受け関係にあり、係り受け頻度が大きいことから、図7のステップ703で取得したリンクに対して与えられた値が大きいため、太字で表示されている。   Next, in step S207, the display unit 110 performs a visual display of the dependency relationship structure as illustrated in FIG. 8 based on the information generated by the dependency relationship structure configuration unit 109. For example, 801 “adjective”, 802 “noun: subject”, 803 “noun: object”, 804 “verb”, and 805 “adverb” in FIG. 8 represent categories. Further, reference numerals 806, 807, 808, 809, and 810 in FIG. 8 indicate lists of words belonging to categories corresponding to 801 to 805, respectively. At this time, the link information 811 has a direct dependency relationship between the word “difficult” having the “adjective” category and “display” having the “noun: subject” category, and the dependency frequency is high. Since the value given to the link acquired in step 703 in FIG. 7 is large, it is displayed in bold.

以上述べたように、本発明によれば、図8の表示例のように、分析対象テキストから抽出した単語間の係り受け関係をカテゴリの観点から概観することができ、かつ、個別の単語間の係り受け関係も容易に把握できるようになる。   As described above, according to the present invention, as shown in the display example of FIG. 8, the dependency relationship between words extracted from the text to be analyzed can be overviewed from the viewpoint of a category, and between individual words. It becomes possible to easily grasp the dependency relationship.

また、図8に示した各単語にはカテゴリ別単語頻度集計手部108で集計された頻度が付随しているので、表示対象データ操作部104で、図8の806〜810に例示したカテゴリ内の各表示単語に対して、頻度順に上から下へ表示するように指定したり、表示する単語数の設定を頻度上位の指定件数のみとしたりするような指定ができるようになる。また、図8には明示していないが、単語とともに各単語の頻度を表示することもできる。 In addition, since each word shown in FIG. 8 is accompanied by the frequency counted by the category-specific word frequency totaling unit 108, the display target data operation unit 104 uses the categories 806 to 810 illustrated in FIG. For each of the display words, it is possible to specify to display from top to bottom in order of frequency, or to set the number of words to be displayed to only the specified number of high-frequency items. Although not explicitly shown in FIG. 8, the frequency of each word can be displayed together with the word.

また、表示対象データ操作部104で、係り受け頻度によって、表示するリンクを頻度がある閾値以上のものだけに絞って表示することもできる。この閾値の設定を変更することで、概略表示から詳細表示までスムーズに閲覧できるようにすることが可能となる。 In addition, the display target data operation unit 104 can display only the links to be displayed with a frequency equal to or higher than a certain threshold according to the dependency frequency. By changing the setting of the threshold value, it is possible to smoothly browse from the outline display to the detail display.

また、表示対象データ操作部104で、指定したノード(図8のカテゴリ名801とカテゴリに属する単語群806の対)に対して、指定したノード中のカテゴリに属する単語に関する係り受け関係によって、指定ノードの係り先あるいは係り元を表示/非表示の指定をすることが可能となる。 Further, in the display target data operation unit 104, the specified node (a pair of the category name 801 and the word group 806 belonging to the category in FIG. 8) is specified by the dependency relation regarding the word belonging to the category in the specified node. It is possible to specify whether to display or hide the node destination or source.

また、表示対象データ操作部104において、ノードとして作業ボックスを表示画面に新たに挿入して表示可能とする。このとき、頻度が閾値以下の低頻度語を非重要語として表示画面内の作業ボックスへ自動的に移動したり、指定した非重要語を表示画面内の作業ボックスへ移動したりすることにより、重要語を中心とした係り受けネットワーク構造に再構築することが可能となる。ここで、非重要語は、カイ2乗値やtf*idf値のような一般的に良く用いられる統計的な指標により自動的に求める方式としても良い。   In the display target data operation unit 104, a work box is newly inserted as a node on the display screen and can be displayed. At this time, by automatically moving a low frequency word whose frequency is equal to or less than a threshold value as a non-important word to a work box in the display screen or by moving a designated non-important word to a work box in the display screen, It becomes possible to reconstruct the dependency network structure centered on important words. Here, a non-important word may be automatically obtained by a statistical index that is generally used, such as a chi-square value or tf * idf value.

また、係り受け関係構造構成部109において、類似度を定義して、類似する単語を一つの概念としてグループ化するようにできる。この場合の類似度としては、(1)共通部分文字列の一致の割合や編集距離(文字の挿入や削除、置換によって、一つの文字列を別の文字列に変形するのに必要な手順の最小回数)による文字面の類似度、(2)人手で定義した同義語辞書や類義語辞書を用いた類似度、(3)分析対象データ中の単語出現頻度のベクトル距離による類似度、などを用いることができる。このような類似度を利用してまとめられたグループは、類似する単語の集合により構成されるようになるため、表示手段110で表示するノードの表示単位として、ここで構成したグループを用いることにより、類似した内容を一箇所にまとめて表示することが可能になる。   In addition, the dependency relationship structure configuration unit 109 can define a similarity and group similar words as one concept. The similarity in this case is as follows: (1) Matching ratio of common partial character strings and editing distance (procedures necessary for transforming one character string into another character string by inserting, deleting, or replacing characters) (2) Similarity using a manually defined synonym dictionary or synonym dictionary, (3) Similarity based on vector distance of word appearance frequency in analysis target data, etc. be able to. A group grouped using such a similarity degree is composed of a set of similar words. Therefore, by using the group configured here as a display unit of a node displayed on the display unit 110, , Similar contents can be displayed together in one place.

このように、本発明によるテキストマイニング装置では、係り受け関係構造構成部109および表示対象データ操作部104を備えることにより、従来技術である2語の関係に着目した係り受け情報の二次元マッピング方法では困難だった、3種類以上のカテゴリに単語間の係り受け関係を分類したネットワークを表示できるようになり、広範囲に概観することが可能となる。   As described above, the text mining device according to the present invention includes the dependency relationship structure configuration unit 109 and the display target data operation unit 104, and is a conventional two-dimensional mapping method of dependency information focusing on the relationship between two words. This makes it possible to display a network in which dependency relationships between words are classified into three or more categories, which is difficult to do, and allows a broad overview.

また、表示対象データ操作部104において、カテゴリ内の表示単語群に対して表示単語数、および順序等を指定可能にしたことにより、カテゴリごとに各カテゴリを構成する単語集合の内容の把握が容易になり、分析で着目すべき単語を見つけ出し易くなる。   In addition, the display target data operation unit 104 can specify the number of display words, the order, and the like for the display word group in the category, so that the contents of the word set constituting each category can be easily grasped for each category. This makes it easier to find words that should be noted in the analysis.

また、表示対象データ操作部104において、3単語以上の関係に着目した係り受け関係の単位で、係り受けの頻度等に基づく関連性の強さに対して閾値を設定することにより、表示するリンク数を制御することで、関連性の高い重要なリンクに絞った概略表示から、表示するリンク数を増やして網羅的に関連性を表示する詳細表示までを、分析の粒度を変えて容易に閲覧できるようになる。   In the display target data operation unit 104, a link to be displayed by setting a threshold for the strength of relevance based on the dependency frequency or the like in a dependency relationship unit focusing on a relationship of three words or more. By controlling the number, it is easy to view from a summary display focused on highly relevant and important links to a detailed display that increases the number of links to be displayed and displays the relationship comprehensively, changing the granularity of the analysis. become able to.

また、表示対象データ操作部104において、指定したノードに対して、係り受けおよび係り元のリンクに関する表示/非表示、または並べ替えの指定を可能にしたことにより、着目すべきノードおよびリンクに絞って閲覧できるようになるという利点がある。   In addition, the display target data operation unit 104 can specify display / non-display or rearrangement of the dependency and the relation source link for the specified node, thereby narrowing down to the nodes and links to be noted. There is an advantage that it can be viewed.

また、表示対象データ操作部104において、低頻度語あるいは非重要語をフィルタすることにより、重要語を中心とした係り受けネットワーク構造に再構築することが可能となる。   Further, by filtering the infrequent words or non-important words in the display target data operation unit 104, it is possible to reconstruct the dependency network structure centered on the important words.

また、係り受け関係構造構成部109において、類似する単語を一つの概念としてグループ化することにより、類似した内容を一箇所にまとめて表示して、内容の把握を容易にすることが可能となる。   In addition, by grouping similar words as one concept in the dependency relationship structure configuration unit 109, it is possible to display similar contents together in one place and to easily understand the contents. .

以上述べたように、本発明によれば、カテゴリとそのカテゴリに属する単語の係り受け関係をネットワークで表示し、表示されたネットワークに対して、カテゴリ、ノード、及びリンクに関する表示情報を自由に調節可能としたことで、係り受け関係の全体概観から詳細な絞り込み表示までの対話的な分析が可能となる。   As described above, according to the present invention, a dependency relationship between a category and words belonging to the category is displayed on the network, and display information on the category, node, and link can be freely adjusted for the displayed network. By making it possible, it becomes possible to perform interactive analysis from the overall overview of the dependency relationship to the detailed refinement display.

実施の形態2.
以上の実施の形態1では、カテゴリとそのカテゴリに属する単語の係り受け関係をネットワークで表示し、表示されたネットワークの表示情報を自由に調節可能としたものであるが、次に、中核的な係り受け関係と周辺的な係り受け関係を抽出する実施の形態2を示す。
Embodiment 2. FIG.
In the first embodiment described above, the dependency relationship between a category and words belonging to the category is displayed on the network, and the display information of the displayed network can be freely adjusted. Embodiment 2 in which a dependency relationship and a peripheral dependency relationship are extracted will be described.

図9は、この発明の実施の形態2を示す構成図である。本構成では、実施の形態1の構成に加えて、係り受け関係構造構成部109に、係り受け頻度が閾値以上の係り受け関係を抽出する中核的係り受け関係抽出部901と、中核的係り受け関係抽出部901で抽出された中核となる係り受け関係を構成する各単語と閾値以上の頻度がある係り受け関係を抽出する周辺係り受け関係抽出部902とを備える。その他の構成については実施の形態1と同様なので説明を省略する。   FIG. 9 is a block diagram showing Embodiment 2 of the present invention. In this configuration, in addition to the configuration of the first embodiment, the dependency relationship structure configuration unit 109 includes a core dependency relationship extraction unit 901 that extracts a dependency relationship whose dependency frequency is equal to or higher than a threshold, and a core dependency relationship. Each word constituting the core dependency relationship extracted by the relationship extraction unit 901 and a peripheral dependency relationship extraction unit 902 that extracts a dependency relationship having a frequency equal to or higher than a threshold value. Since other configurations are the same as those of the first embodiment, description thereof is omitted.

中核的係り受け関係抽出部901では、実施の形態1で説明した係り受け関係ネットワークにおいて、単独の単語の入りリンク数(係り先となる数)が閾値以上、かつ、該当する単語の直接の係り受け関係にある係り受け対頻度が他の閾値以上の係り受け関係を抽出する。 In the core dependency relationship extraction unit 901, in the dependency relationship network described in the first embodiment, the number of incoming links (number of dependency destinations) of a single word is equal to or greater than a threshold value, and the direct relationship of the corresponding word. A dependency relationship in which the dependency pair frequency in the reception relationship is greater than or equal to another threshold is extracted.

次に、周辺係り受け関係抽出部902において、中核的係り受け関係を構成する各単語との係り受け関係が所定の閾値以上の係り受け関係を抽出する。表示部110では、中核的係り受け関係抽出部901および周辺係り受け関係抽出部902で抽出された係り受け関係に絞って、実施の形態1と同様な係り受け関係ネットワークを表示する。 Next, the peripheral dependency relationship extraction unit 902 extracts a dependency relationship whose dependency relationship with each word constituting the core dependency relationship is a predetermined threshold or more. The display unit 110 displays the same dependency relationship network as in the first embodiment, focusing on the dependency relationship extracted by the core dependency relationship extraction unit 901 and the peripheral dependency relationship extraction unit 902.

図10は、実施の形態2における係り受け関係ネットワークの表示の例である。図2では、「態度(に)−頭にくる」、「店員(の)−態度」、「不親切(な)−態度」等の高頻度な係り受け関係に埋没していた「守衛(の)−態度(が)−悪い」、「紛らわしい―態度(が)―頭にくる」のような周辺の係り受け関係が抽出可能になる。 FIG. 10 is an example of a display of the dependency relationship network in the second embodiment. In FIG. 2, the “guardian” (of the “guard” (of “the attitude (ni)-come to the head”, “the clerk (no) —attitude”, “unkind (na) —attitude)) ) -Attitude (ga) -bad "," confusing-attitude (ga) -coming to the head "surrounding dependency relationships can be extracted.

また、図11は、実施の形態2における係り受け関係構造構成部109で用いる索引の例である。図11において、1101は、各単語に一意に与えられる単語ID、1102は単語が出現するレコード(分析対象から抽出した登録単位)IDのリスト、1103は、レコードから抽出した文に付与された文IDのリスト、1104はレコードから抽出した係り受けIDのリストである。このとき、レコードID、文ID、係り受けIDは階層関係にあるものとする。すなわち、図11の係り受けIDで、A−B−Cと表記したものにおいて、AはレコードID、BはレコードAの文ID、CはレコードA中の文Bにおける係り受けIDであるとする。 FIG. 11 is an example of an index used in the dependency relationship structure configuration unit 109 according to the second embodiment. In FIG. 11, 1101 is a word ID uniquely given to each word, 1102 is a list of record IDs (registration units extracted from the analysis target) ID, and 1103 is a sentence given to a sentence extracted from the record An ID list 1104 is a list of dependency IDs extracted from the record. At this time, it is assumed that the record ID, sentence ID, and dependency ID are in a hierarchical relationship. That is, in the dependency ID shown in FIG. 11 and expressed as ABC, A is a record ID, B is a sentence ID of record A, and C is a dependency ID of sentence B in record A. .

一般に、3語間の係り受け関係を索引に保持しようとすると膨大なデータ量となる。係り受け関係の索引を図11のように構成することによって、係り受け関係構造構成部109において、2語の係り受け関係を抽出し、さらに共通の文IDを持つ係り受け関係のみを選択することによって、擬似的な3語係り受け関係のみを抽出することができる。これにより、強い結びつきを持つ擬似的な3語係り受け関係にあるリンクのみを選択して、表示部110に表示させることができる。このとき、「不親切な態度が頭にくる」の3語間の係り受け関係(「不親切−態度−頭にくる」がすべて直接の係り受け関係)にある場合以外に「不親切な表示があると、態度よりも頭にくる」のような場合も含めてしまうが、中核的な係り受け関係を把握するための視覚化においては、大局的な概観という目的に関して問題とはならない。 In general, if an attempt is made to maintain a dependency relationship between three words in an index, a huge amount of data is required. By configuring the dependency relationship index as shown in FIG. 11, the dependency relationship structure unit 109 extracts a dependency relationship of two words and selects only dependency relationships having a common sentence ID. Thus, only the pseudo three-word dependency relationship can be extracted. As a result, only the links having a pseudo three-word dependency relationship with strong connections can be selected and displayed on the display unit 110. At this time, “Unfriendly display” except when there is a dependency relationship between three words “Unfriendly attitude comes to mind” (“Unfriendly-Attitude-Head” is all a direct dependency relationship) If there is, there will be cases such as “I come to the head rather than the attitude”, but in the visualization for grasping the core dependency relationship, there is no problem regarding the purpose of the general overview.

また、表示対象データ操作部104において、ユーザが任意の組の係り受け群を複合概念として指定できるようにする。次に、指定された複合概念に属する単語と係り受け関係にある他の複合概念を図11に示した索引を検索して表示する。例えば、「悪い−気分−待つ」を複合概念として指定した場合、「悪い−気分−ミスする」や「打ち間違い−レジ−待つ」という他の複合概念を検索して表示する。これにより、複合概念間の関係を抽出して表示することができ、分析対象に潜在する重要な関係情報を分析できるようになる。   In addition, the display target data operation unit 104 allows the user to designate an arbitrary set of dependency groups as a composite concept. Next, another compound concept having a dependency relationship with a word belonging to the specified compound concept is retrieved and displayed in the index shown in FIG. For example, when “bad-mood-wait” is designated as a composite concept, other composite concepts such as “bad-mood-miss” and “wrong-registry-wait” are retrieved and displayed. As a result, it is possible to extract and display the relationship between complex concepts, and to analyze important relationship information that is latent in the analysis target.

従来技術では、係り受け関係の表示内容において高い頻度の係り受け関係の周辺にある詳細な内容を把握することが困難だったのに対し、本発明では、係り受け関係構造構成部109を前記のように構成することにより、分析対象テキストから抽出した単語間の係り受け関係を3種類以上のカテゴリに分類してネットワーク表示を可能とするのに加えて、3語以上の関係について容易に把握でき、かつ、高い頻度の係り受け関係の周辺にある詳細な係り受け関係の内容を分析することが可能となる。   In the prior art, it is difficult to grasp the detailed contents around the high-frequency dependency relationship in the display content of the dependency relationship, whereas in the present invention, the dependency relationship structure configuration unit 109 is described above. With this configuration, the dependency relationships between words extracted from the text to be analyzed can be classified into three or more categories and displayed on the network, and in addition, the relationship between three or more words can be easily grasped. In addition, it is possible to analyze the details of the dependency relationships around the high-frequency dependency relationships.

また、本発明では、係り受け関係構造構成部109を前記のように構成することにより、分析対象テキストから抽出した単語間の係り受け関係を3語以上の係り受け関係に絞って表示することができるので、ひとまとまりの係り受け関係の表示により、内容の把握を容易にすることが可能となる。   Further, in the present invention, by configuring the dependency relationship structure configuration unit 109 as described above, it is possible to display the dependency relationship between words extracted from the analysis target text by focusing on the dependency relationship of three or more words. Therefore, it is possible to easily grasp the contents by displaying a group of dependency relationships.

また、本発明では、表示対象データ操作部104を前記のように構成することにより、複合概念として任意に指定した係り受け関係の組から、複合概念間の新規な関係を抽出して、分析対象に潜在する重要な関係情報を分析することが可能となる。   Further, in the present invention, by configuring the display target data operation unit 104 as described above, a new relationship between composite concepts is extracted from a set of dependency relationships arbitrarily designated as a composite concept, and the analysis target It is possible to analyze important relationship information latent in

実施の形態3.
以上の実施の形態2では、索引の構造を利用して、単語間の係り受け関係を3種類以上のカテゴリに分類してネットワーク表示を行なうことを可能とし、かつ、高い頻度の係り受け関係の周辺にある詳細な係り受け関係の内容の把握を容易にするようにした構成であるが、次に、実施の形態1と同様な構成で、意味カテゴリ辞書115に、分析対象とする分野に依存した意味カテゴリを格納し、分野依存の係り受け関係の内容把握と分析を容易にするようにした実施の形態3を示す。
Embodiment 3 FIG.
In the second embodiment described above, it is possible to classify the dependency relationships between words into three or more categories and perform network display using the index structure, and to display a high-frequency dependency relationship. The configuration is such that it is easy to grasp the contents of detailed dependency relationships in the vicinity. Next, the semantic category dictionary 115 depends on the field to be analyzed with the same configuration as in the first embodiment. Embodiment 3 will be described in which the semantic categories stored are stored to facilitate the understanding and analysis of the contents of the field-dependent dependency relationship.

実施の形態1のカテゴリ別単語頻度集計部108では、意味カテゴリ辞書115に記載された意味カテゴリとして、「形容詞」、「名詞:主語」、「名詞:目的語」、「動詞」のように、一般的な言語解析における品詞に基づいて集計を行なう例を示した。実施の形態3では、分野に依存した意味カテゴリと単語との対応情報を意味カテゴリ辞書115に格納しておくものとする。これにより、表示部110において、分野依存の意味カテゴリ別に、係り受けネットワーク構造を表示することが可能となる。   In the category-specific word frequency totaling unit 108 according to the first embodiment, the semantic categories described in the semantic category dictionary 115 are “adjective”, “noun: subject”, “noun: object”, “verb”, and the like. An example of tabulation based on parts of speech in general language analysis was shown. In the third embodiment, correspondence information between semantic categories and words depending on the field is stored in the semantic category dictionary 115. Accordingly, the dependency network structure can be displayed on the display unit 110 for each field-dependent semantic category.

発明の実施の形態3を示す構成図は、実施の形態1で用いた図1と同じものとする。図12は、この発明の実施の形態3における係り受け関係ネットワーク表示の例である。この例では、ある機械製品の故障報告書の分析を目的として、意味カテゴリ辞書115に、対象としている機械製品の「機器名」と、機器名に関する「機器属性」と、機器に生じる故障の「現象」と、現象が起こった「条件」と、故障に対して取った「処置」とが意味カテゴリとして格納されているものとする。   The configuration diagram showing the third embodiment of the invention is the same as FIG. 1 used in the first embodiment. FIG. 12 is an example of the dependency relationship network display according to the third embodiment of the present invention. In this example, for the purpose of analyzing a failure report of a certain machine product, the “category name” of the target machine product, the “device attribute” related to the device name, and “ It is assumed that “phenomenon”, “condition” in which the phenomenon occurred, and “action” taken for the failure are stored as semantic categories.

また、意味カテゴリ「機器名」1202を持つ単語として、「Zユニット」、「主制御装置」などがあり、意味カテゴリ「機器属性」1201を持つ単語として、「A群」、「1次側」などが意味カテゴリとして格納されているものとする。同様に、意味カテゴリ「現象」1203を持つ単語として、「スリップ」、「表示」などが格納されており、意味カテゴリ「処置」1204を持つ単語として、「点検」、「交換」などが格納されており、意味カテゴリ「条件」1205を持つ単語として、「雨天時」、「走行中」などが格納されているものとする。   The words having the semantic category “device name” 1202 include “Z unit” and “main control device”, and the words having the semantic category “device attribute” 1201 include “group A” and “primary side”. Are stored as semantic categories. Similarly, “slip”, “display”, and the like are stored as words having the semantic category “phenomenon” 1203, and “inspection”, “exchange”, etc. are stored as words having the semantic category “action” 1204. It is assumed that “rainy weather”, “running”, and the like are stored as words having the semantic category “condition” 1205.

意味カテゴリ辞書115に前記のような単語が格納されていることにより、表示部110では、図12に示すように、分野に依存した「機器名」、「現象」等の意味カテゴリごとに係り受け関係ネットワークの表示が可能となる。   Since the words as described above are stored in the semantic category dictionary 115, the display unit 110 depends on the semantic categories such as “device name” and “phenomenon” depending on the field as shown in FIG. The related network can be displayed.

なお、本実施の形態3では、カテゴリ別単語頻度集計部108において、意味カテゴリ辞書115に格納したカテゴリに基づいて単語頻度を集計し、表示部110において、意味カテゴリ辞書115に格納したカテゴリごとに係り受け関係ネットワークを表示する例を示したが、属性DB112に格納された属性別に集計を行い、表示手段110では属性別に係り受けネットワーク構造を表示する形態としても良い。   In the third embodiment, the word frequency totaling unit by category 108 totals the word frequencies based on the categories stored in the semantic category dictionary 115, and the display unit 110 stores the categories for each category stored in the semantic category dictionary 115. Although an example in which the dependency relationship network is displayed has been shown, it may be configured such that aggregation is performed for each attribute stored in the attribute DB 112 and the dependency network structure is displayed for each attribute in the display unit 110.

表示手段110において意味カテゴリ別に、係り受けネットワーク構造を表示することにより、分析対象の分野に依存した係り受け関係の把握が可能となり、文書データ中に記述された内容の分析を容易にすることができるようになる。   By displaying the dependency network structure for each semantic category in the display means 110, the dependency relationship depending on the field to be analyzed can be grasped, and the analysis of the contents described in the document data can be facilitated. become able to.

また、表示対象データ操作部104において、表示手段110に表示されたカテゴリ間の各単語の係り受け関係を参照して各単語が属するカテゴリを対話的に編集可能となり、意味カテゴリの名称を分析対象データに応じて変更した表示が可能になり、対象データから抽出した係り受け関係の内容の把握が容易になる。   In addition, the display object data operation unit 104 can interactively edit the category to which each word belongs by referring to the dependency relationship between the words displayed on the display unit 110, and the name of the semantic category can be analyzed. The display can be changed according to the data, and the contents of the dependency relationship extracted from the target data can be easily understood.

本発明の実施の形態1における基本構成図である。It is a basic composition figure in Embodiment 1 of the present invention. 本発明の実施の形態1における基本処理のフローチャートである。It is a flowchart of the basic process in Embodiment 1 of this invention. 本発明の実施の形態1における単語DBの例の図である。It is a figure of the example of word DB in Embodiment 1 of this invention. 本発明の実施の形態1における属性DBの例の図である。It is a figure of the example of attribute DB in Embodiment 1 of this invention. 本発明の実施の形態1における係り受け関係の例の図である。It is a figure of the example of the dependency relation in Embodiment 1 of this invention. 本発明の実施の形態1における係り受けDBの例の図である。It is a figure of the example of dependency DB in Embodiment 1 of this invention. 本発明の実施の形態1における係り受け関係構造構成処理のフローチャートである。It is a flowchart of the dependency relationship structure configuration processing in the first embodiment of the present invention. 本発明の実施の形態1における係り受け関係ネットワーク表示の例の図である。It is a figure of the example of the dependency relation network display in Embodiment 1 of this invention. 本発明の実施の形態2における構成図である。It is a block diagram in Embodiment 2 of this invention. 本発明の実施の形態2における係り受け関係ネットワーク表示の例の図である。It is a figure of the example of the dependency relation network display in Embodiment 2 of this invention. 本発明の実施の形態2における係り受け関係構造構成部の索引の例の図である。It is a figure of the example of the index of the dependency relation structure structure part in Embodiment 2 of this invention. 本発明の実施の形態3における係り受け関係ネットワーク表示の例の図である。It is a figure of the example of the dependency relation network display in Embodiment 3 of this invention.

符号の説明Explanation of symbols

101 登録部、102 係り受け抽出部、103 入力部、104 表示対象データ操作部、105 制御部、106 属性値頻度集計部、107 係り受け頻度集計部、108 カテゴリ別単語頻度集計部、109 係り受け関係構造構成部、110 表示部、111 分析対象、112 属性DB、113 単語DB、114 係り受けDB、115 意味カテゴリ辞書、116 係り受け関係構造の視覚化表示、801 カテゴリ「形容詞」、802 カテゴリ「名詞:主語」、803 カテゴリ「名詞:目的語」、804 カテゴリ「動詞」、805 カテゴリ「副詞」、806〜810 カテゴリに属する単語の一覧、811 リンク情報、901 周辺係り受け関係抽出部、902 中核的係り受け関係抽出部、1101 各単語に一意に与えられる単語ID、1102 単語が出現するレコード(分析対象から抽出した登録単位)IDのリスト、1103 レコードから抽出した文に付与された文IDのリスト、1104 レコードから抽出した係り受けIDのリスト、1201 意味カテゴリ「機器属性」、1202 意味カテゴリ「機器名」、1203 意味カテゴリ「現象」、1204 意味カテゴリ「処置」、1205 意味カテゴリ「条件」。 DESCRIPTION OF SYMBOLS 101 Registration part, 102 Dependency extraction part, 103 Input part, 104 Display object data operation part, 105 Control part, 106 Attribute value frequency totaling part, 107 Dependency frequency totaling part, 108 Word frequency totaling part according to category, 109 Dependency Relationship structure component, 110 display, 111 analysis object, 112 attribute DB, 113 word DB, 114 dependency DB, 115 semantic category dictionary, 116 visualization display of dependency relationship structure, 801 category “adjective”, 802 category “ Noun: Subject, 803 Category “Noun: Object”, 804 Category “Verb”, 805 Category “Adverb”, 806-810 List of words belonging to category, 811 Link information, 901 Peripheral dependency relationship extraction unit, 902 Core Target dependency relationship extraction unit, 1101 given to each word uniquely List of word IDs, 1102 IDs of records in which words appear (registration units extracted from the analysis target) IDs, lists of sentence IDs assigned to sentences extracted from 1103 records, lists of dependency IDs extracted from 1104 records, 1201 Semantic category “device attribute”, 1202 semantic category “device name”, 1203 semantic category “phenomenon”, 1204 semantic category “action”, 1205 semantic category “condition”.

Claims (14)

分析対象データを解析して、前記分析対象データのテキストから抽出した単語情報と前記分析対象データの属性値とを登録する登録手段と、
抽出した前記単語情報を解析して2語以上の単語間の係り受け関係を抽出する係り受け抽出手段と、
前記単語間の係り受け関係の頻度を集計する係り受け頻度集計手段と、
前記属性値の頻度を集計する属性値頻度集計手段と、
前記登録手段によって抽出され、前記属性値頻度集計手段によって属性値の頻度を集計された前記単語情報を、予め定義したカテゴリごとに集計するカテゴリ別単語集計手段と、
前記単語間の係り受け関係を構成する単語を前記カテゴリ別に分類し、分類された前記カテゴリに含まれる単語間の係り受け関係ネットワーク構造を構成する係り受け関係構造構成手段と、
前記単語間の係り受け関係ネットワーク構造を表示する表示手段と、
を備えたことを特徴とするテキストマイニング装置。
Registering means for analyzing the analysis target data and registering the word information extracted from the text of the analysis target data and the attribute value of the analysis target data;
A dependency extraction means for analyzing the extracted word information and extracting a dependency relationship between two or more words;
Dependency frequency totaling means for totalizing the frequency of dependency relationships between the words;
Attribute value frequency counting means for counting the frequency of the attribute value;
Category-based word totalizing means for totaling the word information extracted by the registration means and totalized for the attribute value frequency by the attribute value frequency totaling means for each predefined category;
Classifying the words constituting the dependency relationship between the words by category, and configuring the dependency relationship structure configuring means for configuring the dependency relationship network structure between the words included in the classified category;
Display means for displaying the dependency relationship network structure between the words;
A text mining device comprising:
表示条件の設定の入力を受け付ける入力手段と、表示された前記単語間の係り受け関係ネットワーク構造に対し、前記表示条件の設定を指示する表示対象データ操作手段とを備え、設定された前記表示条件に従って前記表示手段により前記単語間の係り受け関係ネットワーク構造を表示することを特徴とする請求項1に記載のテキストマイニング装置。 The display condition set includes: input means for receiving an input of setting of display conditions; and display target data operating means for instructing setting of the display conditions for the displayed dependency relation network structure between the words. The text mining device according to claim 1, wherein the display unit displays a dependency relationship network structure between the words. 前記表示対象データ操作手段により、前記カテゴリ内の表示単語群に対して、表示単語数および表示順序を指定することを特徴とする請求項2に記載のテキストマイニング装置。   The text mining device according to claim 2, wherein the display target data operation means designates the number of display words and the display order for the display word group in the category. 前記表示対象データ操作手段により、前記係り受け関係の頻度、または概念的な類似性に基づく関連性の強さの閾値設定により、表示するリンクを限定することで、前記単語間の係り受け関係ネットワーク構造の概略表示から詳細表示まで表示することを特徴とする請求項2に記載のテキストマイニング装置。 The dependency relationship network between the words is limited by limiting the links to be displayed by setting the threshold of the relationship strength based on the frequency of the dependency relationship or the conceptual similarity by the display object data operating means. 3. The text mining apparatus according to claim 2, wherein the text mining apparatus displays from a schematic display to a detailed display of the structure. 前記表示対象データ操作手段により、前記カテゴリ内の単語をノードとし、指定したノードに対して、係り受けおよび係り元のリンクに関する表示、非表示または並べ替えを指定することを特徴とする請求項2に記載のテキストマイニング装置。   3. The display target data operation means designates a word in the category as a node, and designates display, non-display, or rearrangement regarding a dependency and a link of a dependency source for the specified node. The text mining device described in 1. 前記表示対象データ操作手段により、前記単語間の係り受け関係ネットワーク構造から非重要語や低頻度語を表示画面内の作業ボックスへ移動し、重要語を中心とした単語間の係り受けネットワーク構造に再構築することを特徴とする請求項2に記載のテキストマイニング装置。   By the display object data operating means, non-important words and low-frequency words are moved from the dependency relationship network structure between the words to a work box in the display screen, and the dependency network structure between words centered on the important words is obtained. The text mining device according to claim 2, wherein the text mining device is reconstructed. 前記係り受け関係構造構成手段により、前記ノードに対して、類似する単語を一つの概念としてグループ化することを特徴とする請求項1乃至6のいずれかに記載のテキストマイニング装置。   7. The text mining device according to claim 1, wherein the dependency relationship structure constituting unit groups similar words as one concept for the node. 前記係り受け関係構造構成手段により、一定数以上の頻度がある係り受け関係を抽出する中核的係り受け関係抽出手段と、前記中核的係り受け関係抽出手段で抽出された係り受け関係を構成する各単語と一定数以上の頻度がある係り受け関係を抽出する周辺係り受け関係抽出手段とを備えたことを特徴とする請求項1乃至7のいずれかに記載のテキストマイニング装置。   A core dependency relationship extracting unit that extracts a dependency relationship having a frequency of a predetermined number or more by the dependency relationship structure forming unit, and each of the dependency relationships extracted by the core dependency relationship extracting unit. The text mining device according to claim 1, further comprising a peripheral dependency relationship extracting unit that extracts a dependency relationship having a frequency more than a certain number of words. 前記周辺係り受け関係抽出手段により、3つの単語間の係り受け関係である3語係り受け関係にあるリンクのみを抽出することを特徴とする請求項8に記載のテキストマイニング装置。   9. The text mining device according to claim 8, wherein the peripheral dependency relationship extracting unit extracts only links having a three-word dependency relationship that is a dependency relationship between three words. 前記表示対象データ操作手段により、任意の組の係り受け群を複合概念として指定して、指定された前記複合概念と共起する他の複合概念を検索し、複合概念間の新規な共起関係を抽出して、前記分析対象データに潜在する重要な前記共起関係を表示することを特徴とする請求項2乃至9のいずれかに記載のテキストマイニング装置。   By designating an arbitrary set of dependency groups as a composite concept by the display target data operation means, search for another composite concept co-occurring with the specified composite concept, and a new co-occurrence relationship between the composite concepts The text mining apparatus according to claim 2, wherein the important co-occurrence relation latent in the analysis target data is displayed. 前記カテゴリ別単語頻度集計手段において、意味カテゴリ辞書に記載された意味カテゴリ別に集計を行ない、前記表示手段では前記意味カテゴリ別に、前記カテゴリ間の各単語の係り受けネットワーク構造を表示することを特徴とする請求項1乃至10のいずれかに記載のテキストマイニング装置。 In the category-specific word frequency counting means, counting is performed for each semantic category described in a semantic category dictionary, and the display means displays a dependency network structure of each word between the categories for each semantic category. The text mining device according to claim 1. 前記表示手段に表示された前記カテゴリ間の各単語の係り受けネットワーク構造を参照して、前記表示対象データ操作手段により、各単語が属する前記カテゴリを対話的に編集できることを特徴とする請求項2乃至11のいずれかに記載のテキストマイニング装置。   3. The category to which each word belongs can be interactively edited by the display target data operating means with reference to a dependency network structure of each word between the categories displayed on the display means. The text mining device according to any one of 11 to 11. コンピュータを、分析対象データを解析して、前記分析対象データのテキストから抽出した単語情報と前記分析対象データの属性値とを登録する登録ステップと、
抽出した前記単語情報を解析して2語以上の単語間の係り受け関係を抽出する係り受け抽出ステップと、
前記単語間の係り受け関係の頻度を集計して、前記属性値の頻度を集計し、
前記登録ステップによって抽出され、前記属性値の頻度を集計された前記単語情報を、予め定義したカテゴリごとに集計するカテゴリ別単語集計ステップと、
前記単語間の係り受け関係を構成する単語を前記カテゴリ別に分類し、分類された前記カテゴリに含まれる単語間の係り受け関係ネットワーク構造を構成する係り受け関係構造構成ステップと、
前記単語間の係り受け関係ネットワーク構造を表示する表示ステップと、
表示条件の設定の入力を受け付ける入力ステップと、
表示された前記単語間の係り受け関係ネットワーク構造に対し、前記表示条件の設定を指示する表示対象データ操作ステップにより設定された前記表示条件に従って、前記単語間の係り受け関係ネットワーク構造を表示する前記表示ステップ、
として機能させるためのテキストマイニングプログラム。
A registration step of registering word information extracted from the text of the analysis target data and attribute values of the analysis target data by analyzing the analysis target data;
A dependency extraction step of analyzing the extracted word information and extracting a dependency relationship between two or more words;
Aggregating the frequency of the dependency relationship between the words, summing up the frequency of the attribute value,
A word summarizing step by category for summarizing the word information extracted by the registration step and summed up the frequency of the attribute value for each predefined category;
Classifying the words constituting the dependency relationship between the words by category, and configuring a dependency relationship network structure between the words included in the classified category;
A display step for displaying a dependency relationship network structure between the words;
An input step for receiving display condition setting input;
The dependency relationship network structure between the words is displayed according to the display condition set by the display target data operation step for instructing setting of the display condition for the displayed dependency relationship network structure between the words. Display step,
Text mining program to function as.
分析対象データを解析して、前記分析対象データのテキストから抽出した単語情報と前記分析対象データの属性値とを登録し、
抽出した前記単語情報を解析して2語以上の単語間の係り受け関係を抽出し、
前記単語間の係り受け関係の頻度、および、前記属性値の頻度を集計し、
前記登録によって抽出され、属性値の頻度を集計された前記単語情報を、予め定義したカテゴリごとに集計した後に、
前記単語間の係り受け関係を構成する単語を前記カテゴリ別に分類し、分類された前記カテゴリに含まれる単語間の係り受け関係ネットワーク構造を構成し、
前記単語間の係り受け関係ネットワーク構造を表示して、
表示条件の設定の入力を受け付けて、
表示された前記単語間の係り受け関係ネットワーク構造に対し、前記表示条件の設定を指示して、前記表示条件に従って前記単語間の係り受け関係ネットワーク構造を表示する
ことを特徴とするテキストマイニング方法。
Analyzing the analysis target data, registering the word information extracted from the text of the analysis target data and the attribute value of the analysis target data,
Analyzing the extracted word information to extract a dependency relationship between two or more words,
Aggregate the frequency of dependency relationships between the words and the frequency of the attribute values;
After the word information extracted by the registration and the frequency of attribute values is totalized for each predefined category,
Classifying the words constituting the dependency relationship between the words by the category, configuring a dependency relationship network structure between the words included in the classified category,
Display the dependency relationship network structure between the words,
Accept input of display condition setting,
A text mining method comprising instructing setting of the display condition to the displayed dependency relation network structure between words and displaying the dependency relation network structure between words according to the display condition.
JP2006122164A 2006-04-26 2006-04-26 Text mining device, text mining program, and text mining method Expired - Fee Related JP4876692B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006122164A JP4876692B2 (en) 2006-04-26 2006-04-26 Text mining device, text mining program, and text mining method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006122164A JP4876692B2 (en) 2006-04-26 2006-04-26 Text mining device, text mining program, and text mining method

Publications (2)

Publication Number Publication Date
JP2007293685A true JP2007293685A (en) 2007-11-08
JP4876692B2 JP4876692B2 (en) 2012-02-15

Family

ID=38764252

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006122164A Expired - Fee Related JP4876692B2 (en) 2006-04-26 2006-04-26 Text mining device, text mining program, and text mining method

Country Status (1)

Country Link
JP (1) JP4876692B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8676738B2 (en) 2008-09-03 2014-03-18 Nec Corporation Relationship detector, relationship detection method, and recording medium
WO2016182393A1 (en) * 2015-05-13 2016-11-17 삼성전자 주식회사 Method and device for analyzing user's emotion
JP2017162190A (en) * 2016-03-09 2017-09-14 富士通株式会社 Similar document search program, similar document search device, and similar document search method
US10409848B2 (en) 2012-04-26 2019-09-10 Nec Corporation Text mining system, text mining method, and program
US11615126B2 (en) 2019-09-06 2023-03-28 Kabushiki Kaisha Toshiba Analyzing apparatus, analyzing method, and computer program product
JP7549977B2 (en) 2020-06-12 2024-09-12 株式会社日立社会情報サービス Text mining device and text mining method

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09218878A (en) * 1996-02-14 1997-08-19 Fuji Xerox Co Ltd Information presenting device
JP2001075966A (en) * 1999-07-07 2001-03-23 Internatl Business Mach Corp <Ibm> Data analysis system
JP2003157255A (en) * 2001-11-20 2003-05-30 Just Syst Corp Device, method and program for processing information
JP2004021445A (en) * 2002-06-14 2004-01-22 Nri & Ncc Co Ltd Text data analysis system, text data analysis method and computer program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09218878A (en) * 1996-02-14 1997-08-19 Fuji Xerox Co Ltd Information presenting device
JP2001075966A (en) * 1999-07-07 2001-03-23 Internatl Business Mach Corp <Ibm> Data analysis system
JP2003157255A (en) * 2001-11-20 2003-05-30 Just Syst Corp Device, method and program for processing information
JP2004021445A (en) * 2002-06-14 2004-01-22 Nri & Ncc Co Ltd Text data analysis system, text data analysis method and computer program

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8676738B2 (en) 2008-09-03 2014-03-18 Nec Corporation Relationship detector, relationship detection method, and recording medium
US10409848B2 (en) 2012-04-26 2019-09-10 Nec Corporation Text mining system, text mining method, and program
WO2016182393A1 (en) * 2015-05-13 2016-11-17 삼성전자 주식회사 Method and device for analyzing user's emotion
JP2017162190A (en) * 2016-03-09 2017-09-14 富士通株式会社 Similar document search program, similar document search device, and similar document search method
US11615126B2 (en) 2019-09-06 2023-03-28 Kabushiki Kaisha Toshiba Analyzing apparatus, analyzing method, and computer program product
JP7549977B2 (en) 2020-06-12 2024-09-12 株式会社日立社会情報サービス Text mining device and text mining method

Also Published As

Publication number Publication date
JP4876692B2 (en) 2012-02-15

Similar Documents

Publication Publication Date Title
JP5879260B2 (en) Method and apparatus for analyzing content of microblog message
KR100565871B1 (en) Data set evaluation method, data set evaluation method, query execution plan configuration method, execution plan, data set evaluation system, data set evaluation system and query execution plan configuration system
US6915308B1 (en) Method and apparatus for information mining and filtering
US8010539B2 (en) Phrase based snippet generation
US8082248B2 (en) Method and system for document classification based on document structure and written style
US20120221553A1 (en) Methods for electronic document searching and graphically representing electronic document searches
Scharl et al. Analyzing the public discourse on works of fiction–Detection and visualization of emotion in online coverage about HBO’s Game of Thrones
Naidu et al. Text summarization with automatic keyword extraction in telugu e-newspapers
US20180268053A1 (en) Electronic document generation using data from disparate sources
JP4876692B2 (en) Text mining device, text mining program, and text mining method
JPH0991314A (en) Information search device
Duan et al. VISA: a visual sentiment analysis system
Riehmann et al. WORDGRAPH: Keyword-in-context visualization for NETSPEAK's wildcard search
JP4967133B2 (en) Information acquisition apparatus, program and method thereof
Maciołek et al. Cluo: Web-scale text mining system for open source intelligence purposes
Kisilevich et al. “Beautiful picture of an ugly place”. Exploring photo collections using opinion and sentiment analysis of user comments
JP2004021445A (en) Text data analysis system, text data analysis method and computer program
JP4931114B2 (en) Data display device, data display method, and data display program
Khemani et al. A review on reddit news headlines with nltk tool
Castellanos et al. Intention insider: discovering people's intentions in the social channel
Afolabi et al. Semantic text mining using domain ontology
JP5242722B2 (en) Representative sentence extraction device and program
Behrisch et al. The News Auditor: Visual Exploration of Clusters of Stories.
US20150254306A1 (en) System and method for augmenting search results
JP7227705B2 (en) Natural language processing device, search device, natural language processing method, search method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111101

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111114

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees