JP2007102642A - Information analysis system, information analysis method and information analysis program - Google Patents
Information analysis system, information analysis method and information analysis program Download PDFInfo
- Publication number
- JP2007102642A JP2007102642A JP2005294108A JP2005294108A JP2007102642A JP 2007102642 A JP2007102642 A JP 2007102642A JP 2005294108 A JP2005294108 A JP 2005294108A JP 2005294108 A JP2005294108 A JP 2005294108A JP 2007102642 A JP2007102642 A JP 2007102642A
- Authority
- JP
- Japan
- Prior art keywords
- item
- item set
- correlation rule
- word
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、情報分析システム、情報分析方法及び情報分析プログラムに関し、例えば、大量のデータの中から有用な情報を発見し、表示する情報分析システムに適用し得る。 The present invention relates to an information analysis system, an information analysis method, and an information analysis program. For example, the present invention can be applied to an information analysis system that finds and displays useful information from a large amount of data.
大量のデータに埋もれた有用な情報を見つけるデータマイニングの手法として、例えばアソシエーション分析が知られている。アソシエーション分析とは、アソシエーションルールと呼ばれる事象間のつながりに関する規則を知識として発見するものである。 As a data mining technique for finding useful information buried in a large amount of data, for example, association analysis is known. Association analysis is to discover rules related to the connection between events called association rules as knowledge.
非特許文献1に開示されているAprioriアルゴリズムは、アソシエーション分析の効率的な処理方法の1つであり、最小支持度以上の多頻度の集合を抽出する方法が提案されている。
The Priori algorithm disclosed in
アソシエーション分析では、分析対象のオブジェクト(以下、アイテムと呼ぶ)を何にするかは、目的に応じて規定することになる。例えば、POSデータの分析ならば、顧客が購入した商品を1つのアイテムにするだろう。 In association analysis, what an object (hereinafter referred to as an item) to be analyzed is specified according to the purpose. For example, in the case of POS data analysis, a product purchased by a customer may be an item.
従って、アソシエーション分析は、自然文を対象としたテキストマイニングにも応用可能であり、テキストマイニングの場合には、アイテムを次のいずれかに設定することが考えられる。 Therefore, the association analysis can also be applied to text mining for natural sentences, and in the case of text mining, it is conceivable to set the item to one of the following.
(場合1)単語
(場合2)単語間の係り受け関係
例えば、データが「母が、テレビで宣伝している特定口座を申し込んだが、開設されていない。」であるとする。
(Case 1) Word (Case 2) Dependency Relationship Between Words For example, assume that the data is “Mother applied for a specific account advertised on TV but has not been opened”.
この場合に、場合1では、次のように、[母、テレビ、宣伝する(いる)、特定口座、申し込む(だ)、開設する(ない)]となる。
In this case, in
一方、場合2では、図2に示す係り受け関係が存在するので、次のように、[母−申し込む(だ)、テレビ−宣伝する(いる)、宣伝する(いる)−特定口座、特定口座−申し込む(だ)]となる。
On the other hand, in
ここで、各アイテムは、「係り元単語−係り先単語」という記法であり、括弧内は、動詞が否定や継続などの意味(以下、意図情報と呼ぶ)で使われていることを示す。 Here, each item has a notation of “relationship source word—relationship destination word”, and the parentheses indicate that the verb is used in a meaning such as negation or continuation (hereinafter referred to as intention information).
非特許文献2には、場合2の係り受け関係を用いて重要情報を発見する方法が開示されており、その記載の中で、これらのアイテムを組み合わせてアイテム集合を作成し、支持度や確信度などを計算し、一定の支持度、確信度以上のアソシエーションルールを出力する技術が開示されている。
Non-Patent
ところで、データ中に出現する各単語をアイテムにした場合(場合1)については、各アイテムが単語であるため、係り受け関係の場合(場合2)に比べて、得られたアソシエーションルールの意味が取りづらい。一方、係り受け関係の場合には、個々のアイテムは「何がどうした」という形式であり、意味がとりやすい。 By the way, when each word appearing in the data is an item (case 1), since each item is a word, the meaning of the obtained association rule is more significant than in the case of dependency relationship (case 2). Difficult to take. On the other hand, in the case of a dependency relationship, each item is in the form of “what is wrong” and is easy to take a meaning.
また、場合1では、係り受け関係を考慮していないため、{特定口座、申し込む(だ)}など、単純に単語を組み合わせることで、主格や目的語の省略などを意識しないで、アイテム集合を作成することができる。一方、場合2では、係り受け関係を用いるため、テキストデータ特有の主語や目的語の省略には対応できない。
Also, in
例えば、図2に示す係り受け関係では、「開設されていない」は、「(特定口座が)開設されていない」という意味であり、ガ格が省略されている。そのため、場合2では、「特定口座」と「開設する(ない)」の間に係り受け関係が存在していないので、「開設する(ない)」を含む係り受け関係は作成されていない。
For example, in the dependency relationship shown in FIG. 2, “not established” means “(a specific account) is not established”, and the case is omitted. Therefore, in
そこで、係り受け関係と単語をアイテムとしてアソシエーションルール(相関規則)を作成、出力するものであり、アソシエーションルールの作成及び又は出力を効率的に、重複しないように整理良くすることができる情報分析システム、情報分析方法及び情報分析プログラムを提供する。 Therefore, an information analysis system that creates and outputs association rules (correlation rules) using dependency relationships and words as items, and can efficiently create and / or output association rules so that they do not overlap. An information analysis method and an information analysis program are provided.
かかる課題を解決するため、第1の本発明の情報分析システムは、入力した複数のテキスト情報のそれぞれの構成要素に基づいて相関規則を作成し、有用な相関規則を出力する情報分析システムにおいて、(1)各テキスト情報に対して形態素解析を行う形態素解析手段と、(2)各テキスト情報に対して構文解析を行う構文解析手段と、(3)各テキスト情報の形態素解析結果及び又は構文解析結果を、相関規則の分析対象であるアイテムとして作成するアイテム作成手段と、(4)アイテム作成手段により作成された1又は複数のアイテムを用いて1又は複数のアイテム集合を作成するアイテム集合作成手段と、(5)アイテム集合作成手段により作成された各アイテム集合を照らし合わせて、意味的に包含関係のあるアイテムを要素として有するアイテム集合を削除するアイテム集合削除手段と、(6)各アイテム集合について共起出現頻度を計算するアイテム集合計算手段と、(7)アイテム集合計算手段により計算された各アイテム集合の共起出現頻度に基づいて1又は複数の相関規則を作成する相関規則作成手段と、(8)相関規則作成手段により作成された各相関規則を表示する表示手段とを備えることを特徴とする。 In order to solve such a problem, an information analysis system according to a first aspect of the present invention is an information analysis system that creates a correlation rule based on each component of a plurality of input text information and outputs a useful correlation rule. (1) morphological analysis means for performing morphological analysis on each text information, (2) syntax analysis means for performing syntax analysis on each text information, and (3) morphological analysis results and / or syntax analysis of each text information. Item creation means for creating a result as an item to be analyzed by the correlation rule, and (4) Item set creation means for creating one or a plurality of item sets using one or a plurality of items created by the item creation means (5) By comparing each item set created by the item set creation means, an item having a semantic inclusion relation is defined as an element. An item set deleting means for deleting the item set, (6) an item set calculating means for calculating the co-occurrence frequency for each item set, and (7) co-occurrence of each item set calculated by the item set calculating means. A correlation rule creating unit that creates one or a plurality of correlation rules based on the appearance frequency, and (8) a display unit that displays each correlation rule created by the correlation rule creating unit.
第2の本発明の情報分析方法は、入力した複数のテキスト情報のそれぞれの構成要素に基づいて相関規則を作成し、有用な相関規則を出力する情報分析方法において、(1)形態素解析手段が、各テキスト情報に対して形態素解析を行う形態素解析工程と、(2)構文解析手段が、各テキスト情報に対して構文解析を行う構文解析工程と、(3)アイテム作成手段が、各テキスト情報の形態素解析結果及び又は構文解析結果を、相関規則の分析対象であるアイテムとして作成するアイテム作成工程と、(4)アイテム集合作成手段が、アイテム作成手段により作成された1又は複数のアイテムを用いて1又は複数のアイテム集合を作成するアイテム集合作成工程と、(5)アイテム集合削除手段が、アイテム集合作成手段により作成された各アイテム集合を照らし合わせて、意味的に包含関係のあるアイテムを要素として有するアイテム集合を削除するアイテム集合削除工程と、(6)アイテム集合計算手段が、各アイテム集合について共起出現頻度を計算するアイテム集合計算工程と、(7)相関規則作成手段が、アイテム集合計算手段により計算された各アイテム集合の共起出現頻度に基づいて1又は複数の相関規則を作成する相関規則作成工程と、(8)表示手段が、相関規則作成手段により作成された各相関規則を表示する表示工程とを備えることを特徴とする。 An information analysis method according to a second aspect of the present invention is an information analysis method in which a correlation rule is created based on each component of a plurality of input text information and a useful correlation rule is output. A morpheme analysis step for performing morphological analysis on each text information, (2) a syntax analysis step for parsing each text information by a syntax analysis unit, and (3) an item creation unit for each text information An item creation step of creating the morpheme analysis result and / or the syntax analysis result as an item to be analyzed by the correlation rule, and (4) the item set creation means uses one or more items created by the item creation means An item set creation step for creating one or a plurality of item sets, and (5) an item set deletion means each created by the item set creation means An item set deletion step of checking an item set and deleting an item set having items having semantically inclusive relations as elements, and (6) item set calculation means calculates the co-occurrence appearance frequency for each item set An item set calculation step; and (7) a correlation rule creation step in which the correlation rule creation unit creates one or a plurality of correlation rules based on the co-occurrence appearance frequency of each item set calculated by the item set calculation unit; 8) The display means includes a display step of displaying each correlation rule created by the correlation rule creation means.
第3の本発明の情報分析プログラムは、入力した複数のテキスト情報のそれぞれの構成要素に基づいて相関規則を作成し、有用な相関規則を出力する情報分析プログラムにおいて、コンピュータに、(1)各テキスト情報に対して形態素解析を行う形態素解析手段、(2)各テキスト情報に対して構文解析を行う構文解析手段、(3)各テキスト情報の形態素解析結果及び又は構文解析結果を、相関規則の分析対象であるアイテムとして作成するアイテム作成手段、(4)アイテム作成手段により作成された1又は複数のアイテムを用いて1又は複数のアイテム集合を作成するアイテム集合作成手段、(5)アイテム集合作成手段により作成された各アイテム集合を照らし合わせて、意味的に包含関係のあるアイテムを要素として有するアイテム集合を削除するアイテム集合削除手段、(6)各アイテム集合について共起出現頻度を計算するアイテム集合計算手段、(7)アイテム集合計算手段により計算された各アイテム集合の共起出現頻度に基づいて1又は複数の相関規則を作成する相関規則作成手段、(8)相関規則作成手段により作成された各相関規則を表示する表示手段として機能させることを特徴とする。 An information analysis program according to a third aspect of the present invention is an information analysis program for creating a correlation rule based on each component of a plurality of input text information and outputting a useful correlation rule. Morphological analysis means for performing morphological analysis on text information, (2) Syntax analysis means for performing syntax analysis on each text information, (3) Morphological analysis results and / or syntax analysis results of each text information, Item creation means for creating items to be analyzed, (4) Item set creation means for creating one or more item sets using one or more items created by the item creation means, (5) Item set creation An item that has items that are semantically inclusive as elements by comparing each item set created by the means An item set deleting means for deleting the item set, (6) an item set calculating means for calculating the co-occurrence appearance frequency for each item set, and (7) a co-occurrence appearance frequency of each item set calculated by the item set calculating means. And (8) function as display means for displaying each correlation rule created by the correlation rule creation means.
本発明によれば、係り受け関係と単語をアイテムとしてアソシエーションルール(相関規則)を作成、出力するものであり、アソシエーションルールの作成及び又は出力を効率的に、重複しないように整理良くすることができる。 According to the present invention, an association rule (correlation rule) is created and output using a dependency relationship and a word as an item, and the creation and / or output of the association rule can be efficiently organized so as not to overlap. it can.
(A)第1の実施形態
以下、本発明の情報分析システム、情報分析方法及び情報分析プログラムの第1の実施形態を図面を参照しながら詳細に説明する。
(A) First Embodiment Hereinafter, a first embodiment of an information analysis system, an information analysis method, and an information analysis program of the present invention will be described in detail with reference to the drawings.
本実施形態では、自然文であるテキスト文を対象として、複数のアイテムを生成し、これらアイテムを集合させたアソシエーションルールを作成する場合を説明する。 In the present embodiment, a case will be described in which a plurality of items are generated for a text sentence that is a natural sentence, and an association rule in which these items are aggregated is created.
また、本実施形態は、係り受け関係をアイテムとする手法(上述の従来技術の場合2の手法)を拡張して、テキストデータ特有の主語や目的語の省略にも対応できるようにする。
In addition, the present embodiment extends the technique using the dependency relationship as an item (the
その拡張方法は、アイテムとして、係り受け関係だけでなく、一般名詞や動詞、形容詞などの単語もアイテムとする。それによって、上述の従来技術の場合1と異なり、係り受け関係を考慮すると同時に、テキストデータ特有の主語や目的語の省略にも対応する。
In the extension method, not only dependency relationships but also words such as general nouns, verbs, and adjectives are used as items. Thereby, unlike the case of the above-described
係り受け関係と単語をアイテムにすることで、アソシエーションルール間で意味的に重複する関係が生じるが、その際には、より制約が強いアソシエーションルールを残すようにする。 By using dependency relationships and words as items, there is a semantically overlapping relationship between association rules, but in that case, association rules that are more restrictive are left.
(A−1)第1の実施形態の構成
図1は、第1の実施形態のデータ分析装置7Aの内部構成を示すブロック図である。
(A-1) Configuration of the First Embodiment FIG. 1 is a block diagram showing the internal configuration of the
図1において、本実施形態のデータ分析装置7Aは、入力部1、形態素解析部2、構文解析部3、アイテム生成部4、アソシエーションルール抽出部5、表示部6を有して構成される。
In FIG. 1, the
さらに、アソシエーションルール抽出部5は、制御部500、候補アイテム集合生成部501、候補アイテム集合削除部502、候補アイテム集合計算部503、ルール作成部504、アイテム集合一時記憶部505を有する。
Further, the association
入力部1は、アソシエーション分析の対象となるデータを取り込むものであり、取り込んだデータを形態素解析部2に与えるものである。また、入力部1は、アソシエーションルールを計算する「最小支持度」、「最小確信度」、「作成するアイテム集合の最大サイズ」を取り込み、その「最小支持度」、「最小確信度」、「作成するアイテム集合の最大サイズ」をアソシエーション抽出部5に与えるものである。
The
形態素解析部2は、入力部1が取り込んだ各データを受け取り、その各データに対して、所定の形態素辞書や所定の規則などを用いて、形態素解析を行うものであり、形態素解析結果を構文解析部3に与えるものである。
The
構文解析部3は、形態素解析部2により解析された形態素解析結果を受け取り、その形態素解析結果に基づいて構文解析を行い、係り受け関係を抽出するものである。
The
アイテム生成部4は、形態素解析部2による形態素解析結果や、構文解析部3による構文解析結果を利用して、単語や係り受け関係からなる複数のアイテムを作成するものである。また、アイテム生成部4は、作成したアイテムをアソシエーションルール抽出部5に与えるものである。
The
アソシエーションルール抽出部5は、アイテム生成部4により作成されたアイテムを受け取り、それらアイテムの中から後述する方法により必要なアイテム集合を抽出し、アソシエーションルールを作成するものである。また、アソシエーションルール抽出部5は、作成したアソシエーションルールを表示部6に与えるものである。
The association
表示部6は、アソシエーションルール抽出部5により作成されたアソシエーションルールを受け取ると、受け取ったアソシエーションルールに対して所定の出力処理を施して、出力するものである。
When the
次に、アソシエーションルール抽出部5の内部機能について図1を参照して説明する。
Next, the internal function of the association
制御部500は、アソシエーションンルール抽出部5の機能を制御するものである。
The
候補アイテム集合生成部501は、様々なサイズのアイテム集合を作成するものである。
The candidate item
候補アイテム集合削除部502は、単語間の意味的な関係から、支持度を計算する必要のないアイテム集合を見つけて削除するものである。
The candidate item set
候補アイテム集合計算部503は、各アイテム集合の支持度を計算するものである。
The candidate item
ルール作成部504は、アソシエーションルールを生成し、一定の確信度以上のアソシエーションルールを導出する。
The
アイテム集合一時記憶部505は、候補アイテム集合計算部503により計算された各アイテム集合の支持度を格納するものである。
The item set
(A−2)第1の実施形態の動作
次に、本実施形態のデータ分析装置7の動作について図面を参照しながら詳説する。
(A-2) Operation of First Embodiment Next, the operation of the
図3は、第1の実施形態の動作を示すフローチャートであり、このフローチャートに沿って動作を説明する。 FIG. 3 is a flowchart showing the operation of the first embodiment, and the operation will be described along this flowchart.
入力部1は、データの入力を受け付け、入力されたデータを取り込むと、取り込んだデータを形態素解析部2に与える。また、入力部1は、「最小支持度」、「最小確信度」、「作成するアイテム集合の最大サイズ」の入力を受け付けており、これら「最小支持度」、「最小確信度」、「作成するアイテム集合の最大サイズ」を取り込むと、アソシエーションルール抽出部5に与える(ステップ100)。
When the
例えば、以下では、図4に示すデータを入力データとした場合を例として述べる。なお、図4における「データID」は各データを識別するための識別子である。 For example, a case where the data shown in FIG. 4 is input data will be described below as an example. Note that “data ID” in FIG. 4 is an identifier for identifying each data.
また、例えば、「最小支持度」=2(つまり、2以上の文書で出現したアイテムを採用。)、「最小確信度」=0.6、「作成するアイテム集合の最大サイズ」=3とする。最小支持度は、全文書に占める出現割合としてもよいが、ここでは説明の都合上出現数にしている。 Also, for example, “minimum support” = 2 (that is, items appearing in two or more documents are adopted), “minimum certainty” = 0.6, and “maximum size of item set to be created” = 3. . The minimum support level may be the appearance ratio of all documents, but here it is the number of appearances for convenience of explanation.
入力部1に入力された各データが形態素解析部2に与えられると、形態素解析部2は、受け取った各データについて、形態素解析を実施する(ステップ110)。なお、形態素解析部2による形態素解析処理は、従来の一般的な形態素解析技術を用いることができ、ここでの詳細な説明は省略する。
When each data input to the
ここで、図5は、図4に示す「データ1」についての形態素解析処理の結果を示す。図5において、「データID」は入力データのデータIDであり、「単語ID」は入力データにおける形態素(単語)を識別するための識別情報であり、「単語」は解析された形態素(単語)を示し、「形態素の種類」は単語の品詞を示す。
Here, FIG. 5 shows the result of the morphological analysis process for “
形態素解析部2により各データについて形態素解析が行われると、構文解析部3は、各データの形態素解析結果に基づいて構文解析を実施する(ステップ120)。なお、構文解析部3による構文解析処理は、従来の一般的な構文解析技術を用いることができ、ここでの詳細な説明は省略する。
When morpheme analysis is performed on each data by the
ここで、図6は、図4に示す「データ1〜データ3」についての構文解析処理の結果を示す。図6において、「番号」は各データにおける係り受け関係を識別するための識別情報である。
Here, FIG. 6 shows the result of the parsing process for “
アイテム生成部4は、構文解析部3による構文解析結果に基づいて、1個1個の係り受け関係を1個のアイテム(これを「係り受けアイテム」と呼ぶ)として、各データ毎に作成する(ステップ130)。図7は、図4の「データ1〜データ3」についての係り受けアイテムの作成結果を示す。
The
このとき、アイテム生成部4は、助詞情報を削除し、「係り元単語+(−)+係り先単語」という表記法で作成する。また、係り元単語が動詞、係り先単語が名詞で、助詞情報がNULLの関係の場合、アイテム生成部4は、係り先単語と係り元単語を入れ替える形式で係り受けアイテムを作成する。
At this time, the
例えば、図6の「データ2の番号3」が示すように、「宣伝する(いる)+NULL+特定口座」の場合、アイテム生成部4は、「特定口座−宣伝する(いる)」という形式のアイテムを作成する(図7参照)。
For example, as indicated by “
また、アイテム生成部4は、形態素解析部2による形態素解析結果に基づいて、名詞、動詞、形容詞、形容動詞をアイテム(これを「単語アイテム」と呼ぶ)として、各データ毎に作成する(ステップ140)。図8は、図4の「データ1〜データ3」についての単語アイテムの作成結果を示す。但し、アイテム生成部4は、「こと」、「もの」等の名詞はアイテムとしない。
Further, the
また、構文解析結果において、係り元単語と係り先単語がともに名詞で、助詞情報がNULLである単語は複合名詞である場合、アイテム生成部4は、係り元単語だけでは、そのデータの意味を正しく表さないことがあるので、係り元単語を登録しない。
In the parsing result, when both the source word and the destination word are nouns and the word whose particle information is NULL is a compound noun, the
例えば、図4の「データ1」において、単語「総合口座」は「総合」と「口座」とからなる複合名詞であるため、アイテム生成部4は、係り元単語である「総合」は登録しない。なお、係り先単語である「口座」は単語アイテムとして登録される。
For example, in “
アイテム生成部4により各データの係り受けアイテム及び単語アイテムが作成されると、アソシエーション抽出部5は、作成された係り受けアイテム及び単語アイテムに基づいてアイテム集合を抽出し、アソシエーションルールを作成する(ステップ150)。
When the dependency item and the word item of each data are created by the
図9は、ステップ150におけるアソシエーションルール抽出部5の詳細な処理を示すフローチャートである。
FIG. 9 is a flowchart showing detailed processing of the association
アイテム生成部4により作成された各データの係り受けアイテム及び単語アイテムを受け取ると、候補アイテム集合生成部501は、アイテム生成部4から受け取ったすべてのアイテムを大きさ1のアイテム集合として、アイテム集合一時記憶部505に登録する(ステップ1000)。
When receiving the dependency item and the word item of each data created by the
ここで、アイテム集合の大きさとは、アイテム集合を構成するアイテム(係り受けアイテム、単語アイテムのどちらも含む)の数であり、例えば、大きさ1のアイテム集合とは1個のアイテムから構成される集合体をいい、大きさn(nは正の整数)のアイテム集合とはn個のアイテムから構成される集合体をいう。
Here, the size of the item set is the number of items (including both dependency items and word items) constituting the item set. For example, the
そして、候補アイテム集合計算部503は、アイテム集合一時記憶部505に登録されている大きさ1のアイテム集合について、大きさ1のアイテム集合の出現数を計算する(ステップ1010)。
Then, the candidate item set
図10は、大きさ1のアイテム集合の出現数を示す。図10では、各アイテム集合についての出現数と、各アイテム集合が出現するデータID(文書ID)とを対応付けて示す。
FIG. 10 shows the number of appearances of a
候補アイテム集合計算部503により各アイテム集合の出現数が計算されると、候補アイテム集合削除部502は、アイテム集合の出現数が、入力部1から受け取った「最小支持度」未満である場合には、そのアイテム集合をアイテム集合一時記憶部505から削除する(ステップ1020)。
When the number of occurrences of each item set is calculated by the candidate item set
なお、候補アイテム集合削除部502によりすべてのアイテム集合が「最小支持度」未満でありすべて削除された場合(ステップ1030)、条件を満たすアソシエーションルールが存在しないため、処理を終了する。 If all item sets are less than the “minimum support level” and all items are deleted by the candidate item set deletion unit 502 (step 1030), the process ends because there is no association rule that satisfies the condition.
一方、条件を満たすアソシエーションルールが存在する場合、ステップ1040に進み、制御部500は、大きさnのアイテム集合を処理対象とするため、アイテム集合の大きさを示すカウンタnを2にセットする(ステップ1040)。
On the other hand, if there is an association rule that satisfies the condition, the process proceeds to step 1040, and the
制御部500によりカウンタnが2にセットされると、候補アイテム集合性西部501は、アイテム集合一時記憶部505に登録されているアイテム集合に基づいて、大きさn(ここでは大きさ2)のアイテム集合を生成する(ステップ1050)。ここで、アイテム集合の生成には、例えば、非特許文献1に開示されるAprioriアルゴリズムを利用してもよい。
When the counter n is set to 2 by the
大きさ2のアイテム集合が生成されると、候補アイテム集合削除部502は、大きさ2の各アイテム集合について、例えば次のような部分集合を含むアイテム集合を削除する(ステップ1060)。
When a
例えば、{W、*−W}や{W、W−*}のように、アイテム集合を構成する一方のアイテムが他方のアイテムの全部又は一部を含んでいるようなアイテム集合を削除する。但し、Wは単語、*は任意の単語である。「−」は係り受け関係を表す。 For example, an item set such that one item constituting the item set includes all or part of the other item is deleted, such as {W, * -W} or {W, W- *}. However, W is a word and * is an arbitrary word. “−” Represents a dependency relationship.
例えば、図10の8行目及び9行目のアイテム「特定口座−申し込む(だ)」と「申し込む(だ)」とを組み合わせた大きさ2のアイテム集合{特定口座−申し込む(だ)、申し込む(だ)}を考える。この場合、各アイテムに「申し込む(だ)」の部分が重複しているので、候補アイテム集合削除部502は、このアイテム集合{特定口座−申し込む(だ)、申し込む(だ)}を削除する。また、図10の8行目及び15行目の「特定口座−申し込む(だ)」と「特定口座」を組み合わせたアイテム集合{特定口座−申し込む(だ)、特定口座}についても同様に削除する。
For example, an item set of
候補アイテム集合削除部502により部分集合を含むアイテム集合が削除されると、候補アイテム集合計算部503は、大きさ2の各アイテム集合の支持度(出現数)を計算し、その各アイテム集合の支持度が「最小支持度」未満である場合は、そのアイテム集合をアイテム集合一時記憶部505から削除する(ステップ1070)。図11は、大きさ2のアイテム集合を示し、出現数が「最小支持度」未満である斜線部分のアイテム集合を削除する。
When the item set including the subset is deleted by the candidate item set
そして、制御部500は、カウンタnが入力部1から入力された「作成するアイテム集合の最大サイズ」と等しい場合、又は、すべてのアイテム集合で、「最小支持度」未満だった場合には、ステップ1100に進む。
Then, when the counter n is equal to the “maximum size of the item set to be created” input from the
一方、それ以外の場合には、ステップ1090に進み、制御部500は、カウンタnに1を加算し、ステップ1050に戻って繰り返し処理が行われる。
On the other hand, in other cases, the process proceeds to step 1090, where the
ステップ1100では、ルール作成部504が、アイテム集合一時記憶部505を参照して、入力部1に入力された「最小確信度」以上のアソシエーションルールを抽出する。
In step 1100, the
そのため、まず、ルール作成部504は、アイテム集合一時記憶部505に格納されたアイテム集合を1個選択し、選択したアイテム集合を、任意の2個の集合(条件部と結論部になるアイテム集合)に分割する(ステップ1110)。分割された集合をそれぞれ、S、1−Sとして示す。
Therefore, first, the
例えば、大きさ3のアイテム集合{特定口座、申し込む(だ)、開設する(ない)}は、(1){特定口座、申し込む(だ)}、{開設する(ない)}、(2){特定口座、開設する(ない)}、{申し込む(だ)}、(3){申し込む(だ)、開設する(ない)}、{特定口座}の3通りに分割できる。 For example, an item set of size 3 {specific account, apply (da), open (not)} is (1) {specific account, apply (da)}, {open (not)}, (2) { Specific account, open (not)}, {apply (da)}, (3) {apply (da), open (no)}, {specific account}.
ルール作成部504は、分割された組み合わせのうち1個の集合を取り出し、その取り出した集合について、アソシエーションルールの候補s⇒1−sと1−s⇒sに対する確信度(それぞれ、1の支持度/sの支持度、1の支持度/1−sの支持度)を求める(ステップ1130)。この確信度の求め方は、従来のアソシエーションルールの導出方法と同じであるので詳細な説明は省略する。
The
求めた確信度が入力部1で入力された「最小確信度」未満である場合、ルール作成部504は、その集合をアソシエーションルールとして採用せず、ステップ1120に戻る。
If the calculated certainty factor is less than the “minimum certainty factor” input by the
なお、ステップ1130及び1140の処理は、分割して求めたすべての組み合わせの集合について行われ、またステップ110に戻り、アイテム集合一時記憶部505に格納されているすべてのアイテム集合について実施される。
Note that the processing in
例えば、図12は、図11に示す大きさ2のアイテム集合からできるアソシエーションルールを示す。但し、確信度が0.6未満のものを省略している。
For example, FIG. 12 shows an association rule made from the item set of
また例えば、図13は、大きさ3のアイテム集合を示し、図14は、大きさ3のアイテム集合からできるアソシエーションルールを示す。
Also, for example, FIG. 13 shows a
ステップ1150では、作成したアソシエーションルールの条件部や結論部の制約が少ないルールを削除し、処理を終了する。
In
この削除対象は、次の2つの条件を同時に満たすアソシエーションルールである。 This deletion target is an association rule that simultaneously satisfies the following two conditions.
2つのアソシエーションルールRi:Pi⇒Ci(確信度Cofii),Rj:Pj⇒Cj(確信度Confij)において、
条件1.確信度が同一値 Confii=Confii
条件2.(i)から(vi)のいずれかの場合である。
In the two association rules Ri: Pi⇒Ci (confidence level Cofii), Rj: Pj⇒Cj (confidence level Confij),
(i) Ci=CjかつPiが{Comij},Pjが{Comij,pj1,pj2、…、pjn}である場合に、Riを削除する。(但し、Comijは、PiとPjに共通するアイテムとする。)すなわち、2つのアソシエーションルールの違いが、一方のアソシエーションルールの条件部の増加のみの場合。 (I) If Ci = Cj and Pi is {Comij} and Pj is {Comij, pj1, pj2,..., Pjn}, Ri is deleted. (However, Comij is an item common to Pi and Pj.) That is, the difference between two association rules is only an increase in the condition part of one association rule.
例えば、
Ri:{特定口座−対応}⇒申し込む 確信度:0.75
Rj:{特定口座−対応、悪い}⇒申し込む 確信度:0.75
の場合には、Riを削除する。
For example,
Ri: {specific account-correspondence} ⇒ application certainty: 0.75
Rj: {specific account-corresponding, bad} ⇒ sign up Certainty: 0.75
In the case of Ri, Ri is deleted.
(ii) Pi=PjかつCiが{Comij},Cjが{Comij,cj1,cj2,…、cjn}である場合に、Riを削除する。(但し、Comijは、CiとCjに共通するアイテムとする。)すなわち、2つのアソシエーションルールの違いが、一方のアソシエーションルールの結論部の増加のみの場合。 (Ii) Ri is deleted when Pi = Pj and Ci is {Comij} and Cj is {Comij, cj1, cj2,..., Cjn}. (However, Comij is an item common to Ci and Cj.) That is, the difference between two association rules is only an increase in the conclusion part of one association rule.
例えば、
(R2−1){開設する(ない)}⇒{申し込む(だ)}確信度:1.00
(R3−2){開設する(ない)}⇒{特定口座、申し込む(だ)}確信度:1.00の場合には、(R2−1)を削除する。
For example,
(R2-1) {Open (not)} ⇒ {Apply (da)} Certainty: 1.00
(R3-2) {Open (not)} ⇒ {Specific account, apply (da)} Certainty factor: If 1.00, delete (R2-1).
(iii) Ci=CjかつPiが{Comij,Pi1,Pi2},Pjが{Comij,Pj1,…,Pjn}である場合で、
pi1=単語Aかつpi2=単語B、pj1=単語A−単語Bである場合に、Riを削除する。(但し、Comijは、PiとPjに共通するアイテムとする。)すなわち、2つのアソシエーションルールの違いとして、条件部のアイテムが、係り受け関係か単語の共起関係かによる場合。
(Iii) When Ci = Cj and Pi is {Comij, Pi1, Pi2} and Pj is {Comij, Pj1,..., Pjn},
If pi1 = word A and pi2 = word B and pj1 = word A-word B, Ri is deleted. (However, Comij is an item common to Pi and Pj.) That is, as a difference between the two association rules, the item in the condition part depends on a dependency relationship or a word co-occurrence relationship.
例えば、
(R2−6):{特定口座−申し込む(だ)}⇒{開設する(ない)}確信度:0.67
(R3−1):{特定口座、申し込む(だ)}⇒{開設する(ない)}確信度:0.67ならば、(R3−1)を削除する。
For example,
(R2-6): {specific account-apply (da)} ⇒ {open (no)} certainty: 0.67
(R3-1): {specific account, apply (da)} ⇒ {open (not)} certainty factor: 0.67, delete (R3-1).
(iv) Pi=PjかつCiが{Comij,ci1,ci2}、Cjが{Comij,cj1,…,cjn}である場合で、
ci1=単語Aかつci2=単語B、cj1=単語A−単語Bである場合に、Riを削除する。(但し、Comijは、CiとCjに共通するアイテムとする。)すなわち、2つのアソシエーションルールの違いとして、結論部のアイテムが、係り受け関係か単語の共起関係かによる場合。
(Iv) When Pi = Pj and Ci is {Comij, ci1, ci2} and Cj is {Comij, cj1,..., Cjn}
If ci1 = word A and ci2 = word B, cj1 = word A-word B, Ri is deleted. (However, Comij is an item common to Ci and Cj.) That is, as a difference between the two association rules, the item in the conclusion part depends on a dependency relationship or a word co-occurrence relationship.
例えば、
(R2−5){開設する(ない)}⇒{特定口座−申し込む(だ)}確信度:1.00
(R3−2){開設する(ない)}⇒{特定口座、申し込む(だ)}確信度:1.00ならば、(R3−2)を削除する。
For example,
(R2-5) {open (not)} ⇒ {specific account-apply (da)} certainty: 1.00
(R3-2) {Open (not)} ⇒ {Specific account, apply (da)} Certainty factor: If 1.00, delete (R3-2).
(v) Ci:CjかつPiが{Comij,pi1},Pjが{Comij、pj1、..pjn}である場合に、
pi1=単語A,かつ(pj1=単語A−単語B又は、pj1=単語B−単語A)である場合に、Riを削除する。(但し、Comijは、PiとPjに共通するアイテムとする。)
すなわち、2つのアソシエーションルールの違いとして、アソシエーションルールの条件部のアイテムが、単語アイテムか、それとも、その単語を含む係り受けアイテムかによる場合。
(V) Ci: Cj and Pi is {Comij, pi1}, Pj is {Comij, pj1,. . pjn},
If pi1 = word A and (pj1 = word A-word B or pj1 = word B-word A), Ri is deleted. (However, Comij is an item common to Pi and Pj.)
That is, the difference between the two association rules is whether the item in the condition part of the association rule is a word item or a dependency item including the word.
例えば、
(R2−14){悪い}⇒{申し込む(だ)}確信度:0.67
(R2−16){対応−悪い}⇒{申し込む(だ)}確信度:0.67
ならば、(R2−14)を削除する。同様に、(R2−12)も削除する。
For example,
(R2-14) {Bad} ⇒ {Apply (da)} Confidence: 0.67
(R2-16) {Correspondence-Bad} ⇒ {Apply (da)} Confidence: 0.67
Then, (R2-14) is deleted. Similarly, (R2-12) is also deleted.
(vi) Pi=PjかつCiが{Comij,ci1},Cjが{comij,cj1,…,cjn}である場合に、
ci1=単語A,かつ(cj1=単語A−単語B又は、cj1=単語B−単語A)である場合に、Riを削除する。(但し、Comijは、CiとCjに共通するアイテムとする。)
すなわち、2つのアソシエーションルールの違いとして、アソシエーションルールの結論部のアイテムが、単語アイテムか、それとも、その単語を含む係り受けアイテムかによる場合。
(Vi) When Pi = Pj and Ci is {Comij, ci1} and Cj is {comij, cj1,..., Cjn},
If ci1 = word A and (cj1 = word A-word B or cj1 = word B-word A), Ri is deleted. (However, Comij is an item common to Ci and Cj.)
That is, as a difference between the two association rules, whether the item of the conclusion part of the association rule is a word item or a dependency item including the word.
例えば、
(R2−4){開設する(ない)}⇒{特定口座}確信度:1.00
(R2−5){開設する(ない)〕⇒{特定口座−申し込む(だ)}確信度:1.00ならば、(R2−4)を削除する。
For example,
(R2-4) {open (not)} ⇒ {specific account} certainty: 1.00
(R2-5) {Open (not)] ⇒ {Specific account-Apply (da)} Confidence: If 1.00, delete (R2-4).
以上のように、アソシエーションルールが抽出されると、図3のステップ160に進み、表示部6が、ステップ1150で削除されなかったアソシエーションルールを表示する。結果として、図15に示すように、取り消し線が引かれていない次のアソシエーションルールが出力される。
As described above, when the association rule is extracted, the process proceeds to step 160 in FIG. 3 and the
(A−3)第1の実施形態の効果
第1の実施形態によれば、係り受け関係のみをアイテムとした場合と違い、単語を考慮することで、テキストデータ特有の主語や目的語の省略の対応した、アソシエーションルールを抽出することができる。
(A-3) Effects of the First Embodiment According to the first embodiment, unlike the case where only the dependency relationship is used as an item, by omitting the subject or object specific to the text data by considering the word. The corresponding association rule can be extracted.
例えば、係り受け関係だけをアイテムとした場合には、データID2の「開設する(ない)」は、主語が省略されているため、係り受け関係は設定されていないが、本手法では、単語と係り受け関係を共にアイテムとしているため、{特定口座−申し込む(だ)}⇒{開設する(ない)}といったアソシエーションルールも抽出できる。
For example, in the case where only the dependency relationship is an item, the subject of “open (not)” of the
(B)第2の実施形態
次に、本発明の情報分析システム、情報分析方法及び情報分析プログラムの第2の実施形態を図面を参照して説明する。
(B) Second Embodiment Next, a second embodiment of the information analysis system, information analysis method, and information analysis program of the present invention will be described with reference to the drawings.
第2の実施形態では、アソシエーションルールを出力する方法を説明する。 In the second embodiment, a method for outputting an association rule will be described.
(B−1)第2の実施形態の構成
図16は、第2の実施形態のデータ分析装置7Bの内部構成例を示すブロック図である。
(B-1) Configuration of Second Embodiment FIG. 16 is a block diagram showing an example of the internal configuration of a
図16に示す構成が、第1の実施形態と異なる点は、表示部6の機能構成であり、以下では、この表示部6の機能構成について詳細に説明し、第1の実施形態で説明した構成の詳細な説明は省略する。
The configuration shown in FIG. 16 is different from the first embodiment in the functional configuration of the
図17は、表示部6が表示するアソシエーションルールの表示イメージを示す図であり、図17に示すように、各節点がそれぞれ1個のアイテムに対応し、節点間の枝がアソシエーションルールの条件部と結論部との関係を示す。なお、図17では無向グラフで表示されており、どちらが条件部で、どちらが結論部であるかは示されていないが、それが明確になるように有向グラフにしてもよい。
FIG. 17 is a diagram showing a display image of the association rule displayed by the
例えば、図17の「対応−悪い」と「特定口座」の間の枝は、アソシエーションルール「{対応−悪い}⇒{特定口座}」又は「{特定口座}⇒{対応−悪い}」のいずれかが存在することを示している。 For example, the branch between “correspondence-bad” and “specific account” in FIG. 17 is either association rule “{corresponding-bad} → {specific account}” or “{specific account} → {corresponding-bad}”. Indicates that exists.
図16に示すように、表示部6は、グラフ要素操作部601、グラフ表示部602、グラフ節点一時記憶部603、グラフ枝一時記憶部604とを有する。
As illustrated in FIG. 16, the
グラフ要素操作部601は、図17に示すグラフ表示でアソシエーションルールを表示するために必要な操作を取り入れ、実行するものである。
The graph
ここで、グラフ要素操作部601により実行される操作は、次の(操作1)〜(操作4)に示すようなものがあり、グラフ要素操作部601は、枝を削除したり、節点間に新しい枝を追加したり、上位概念を表す節点を新たに追加するものである。
Here, the operations executed by the graph
(操作1)概念的に類似した節点を近くに表示することで、利用者に対する発想支援を行う。例えば、係り受けアイテム{対応−悪い}と、単語アイテム「対応」、「悪い」が近くに表示されるようにする。 (Operation 1) Conceptually similar nodes are displayed nearby to support idea generation for the user. For example, the dependency item {correspondence-bad} and the word items “correspondence” and “bad” are displayed in the vicinity.
(操作2)グラフ表示する場合には、アイテム間に関係が存在するかどうかが重要であって、信頼度の違いはあまり重要ではない。 (Operation 2) When displaying a graph, it is important whether there is a relationship between items, and the difference in reliability is not so important.
従って、
(R2−1l){対応}⇒{申し込む(だ)}確信度:0.75
(R2−16){対応−悪い}⇒申し込む(だ)}確信度:0.67
のように、2つのアソシエーションルールの違いとして、アソシエーションルールの条件部のアイテムが、単語アイテムか、それとも、その単語を含む係り受けアイテムかによる場合には、単語アイテムの方のアソシエーションルールを表示しない。この例では、(R2−1l)は表示しない。
Therefore,
(R2-1l) {Correspondence} ⇒ {Apply (da)} Certainty: 0.75
(R2-16) {Correspondence-Bad} ⇒Apply (da)} Confidence: 0.67
If the item in the condition part of the association rule is a word item or a dependency item including the word, the association rule for the word item is not displayed as the difference between the two association rules. . In this example, (R2-1l) is not displayed.
さらに、2つのアソシエーションルールの違いとして、アソシエーションルールの結論部のアイテムが、単語アイテムか、それとも、その単語を含む係り受けアイテムかによる場合も同様とする。 Further, the same applies to the case where the item in the conclusion part of the association rule is a word item or a dependency item including the word as a difference between the two association rules.
(操作3)「対応−悪い」という係り受けアイテムを表示する際には、アソシエーションルール「{対応〕⇒{悪い}」「{悪い}⇒{対応}」を表示しない。 (Operation 3) When displaying the dependency item “response-bad”, the association rules “{response] → {bad}” “{bad} → {response}” are not displayed.
(操作4)「可能」「否定」などの意図情報だけが異なる動詞や形容詞、形容動詞についても、近くに表示されるようにする。例えば、図13におけるアイテム「事故−遭う」「遭う(た)」「事故−遭う(た)」である。 (Operation 4) Verbs, adjectives and adjective verbs that differ only in intention information such as “possible” and “denial” are also displayed nearby. For example, the items “accident-encounter”, “encounter (ta)”, and “accident-encounter (ta)” in FIG.
(操作1)や(操作4)で、アイテムを近くに表示する方法として、これらの操作で関連づけられるアイテム間に枝を追加したり、上位概念を表す節点を新たに追加したり、それらの間に枝を設定する。 In (Operation 1) and (Operation 4), as a method of displaying items close to each other, a branch is added between items related by these operations, a node representing a superordinate concept is newly added, Set a branch to.
グラフ表示部602は、グラフ要素操作部601の結果に従ってグラフを作成するものである。
The
(B−2)第2の実施形態の動作
次に、第2の実施形態の動作について図面を参照して説明する。
(B-2) Operation of Second Embodiment Next, the operation of the second embodiment will be described with reference to the drawings.
図18及び図19は、第2の実施形態の表示部6による表示処理を示すフローチャートである。なお、以下において、表示部6が出力するアソシエーションルールは、図15に示す大きさ1のアイテム集合で構成されるアソシエーションルールとする。
18 and 19 are flowcharts showing display processing by the
アソシエーションルール抽出部5によりアソシエーションルールが表示部6に与えられると、表示部6のグラフ要素操作部601は、アソシエーションルールの条件部と結論部との各アイテムをグラフの節点とし、各アイテムをグラフ節点一時記憶部603に格納する(ステップ2000)。
When an association rule is given to the
図20は、グラフ節点一時記憶部603に格納される格納例を示す。図20に示すように、グラフ節点一時記憶部603は、「節点」、「出現数」、「該当文書ID」の各項目から構成される。
FIG. 20 shows an example of storage stored in the graph node
「節点」項目は、アソシエーションルールの条件部と結論部に現れるすべてのアイテムを格納する。「出現数」項目と「該当文書ID」項目とは、図10の大きさ1のアイテム集合一時記憶部505から取得して格納する。
The “node” item stores all items appearing in the condition part and the conclusion part of the association rule. The “appearance number” item and the “corresponding document ID” item are acquired from the item set
さらに、グラフ要素操作部601は、条件部と結論部との関係を、グラフの節点をつなぐ枝とし、グラフ枝一時記憶部604に格納する(ステップ2000)。
Further, the graph
図21は、グラフ枝一時記憶部604に格納される格納例を示す。図20に示すように、グラフ枝一時記憶部604は、「節点1」、「節点2」、「種類」、「出現数」、「該当文書1D」の各項目から構成される。
FIG. 21 shows an example of storage stored in the graph branch
「節点1」、「節点2」項目は、枝の2つの節点を表す。「種類」項目は、枝の種類を表し、枝がアソシエーションルールから作られたのか、それとも、(操作1)や(操作4)から作られたのか、の情報を格納する。「出現数」項目と「該当文書ID」項目は、図11の大きさ2のアイテム集合一時記憶部505から取得して格納する。
The “
グラフ要素操作部601は、グラフ節点一時記憶部603に格納されている節点を取り出し、その取り出した節点が、係り受けアイテムであるか又は単語アイテムであるかを判別する(ステップ2020)。
The graph
そして、選択した節点が、係り受けアイテムである場合ステップ2030に進み、単語アイテムである場合ステップ2070に進む。 If the selected node is a dependency item, the process proceeds to step 2030. If the selected node is a word item, the process proceeds to step 2070.
選択した節点が係り受けアイテムである場合、グラフ要素操作部601は、当該節点の係り元単語や係り先単語が、グラフ節点一時記憶部603に単語アイテムとして存在するか否かを判断し、グラフ節点一時記憶部603に存在するとき、その係り受けアイテムと、係り元単語又は係り先単語とを節点とする2つの節点の間に枝を設定する(ステップ2030)。
When the selected node is a dependency item, the graph
図22は、ステップ2030の処理によって更新されたグラフ枝一時記憶部604の格納内容を示す。ここで、追加する枝は、「節点1」が「単語アイテム」、「節点2」が「係り受けアイテム」とし、「枝種類」項目の値を「係り受け」にする。「出現数」項目と「該当文書ID」項目は、図10の大きさ1のアイテム集合一時記憶部505を参照し、単語アイテムの値を格納する。
FIG. 22 shows the stored contents of the graph branch
例えば、図22における係り受けアイテム{対応−悪い}を例に挙げると、グラフ要素操作部601は、この係り元単語{対応}及び係り先単語{悪い}がグラフ節点一時記憶部603に存在することを確認すると、係り元単語{対応}を「節点1」に格納し、係り受けアイテム{対応−悪い}を「節点2」に格納し、「枝種類」に「係り受け」を格納する。また、「出現数」及び「該当文書ID」にはアイテム集合一時記憶部505の格納項目を格納する。
For example, taking the dependency item {correspondence-bad} in FIG. 22 as an example, the graph
また、グラフ節点一時記憶部603に単語アイテムとして存在し、枝を設定することができたら、ステップ2050に進み、グラフ節点一時記憶部603に単語アイテムとして存在していなかったら、ステップ2040に進む。
If it exists as a word item in the graph node
ステップ2040では、当該節点の係り元単語や係り先単語が、グラフ節点一時記憶部603の別の係り受けアイテムの係り元単語又は係り先単語に一致していたら、一致した単語を、節点として追加し、2つの節点の間に枝を設定する。
In step 2040, if the source word or destination word of the relevant node matches the source word or destination word of another dependency item in the graph node
例えば、{対応−悪い}と{対応−遅い}がグラフ節点一時記憶部603に存在していたら、新たに単語アイテム「対応」を、グラフ節点一時記憶部603に追加し、「対応」と「対応−悪い」の間、「対応」と「対応−遅い」の間に枝を設定する。
For example, if {correspondence-bad} and {correspondence-slow} exist in the graph node
ステップ2050では、(操作4)を実施する。すなわち、当該節点の係り元単語や係り先単語が、動詞、形容詞又は形容動詞であり、「可能」「否定」などの意図情報を含むなら、意図情報を含まない単語アイテムをグラフ節点一時記憶部603に登録し、その単語アイテムとの間に枝を設定する。但し、単語アイテムがグラフ節点一時記憶部603に既に登録されているなら、枝だけをグラフ枝一時記憶部に格納する。その後、ステップ2010に戻り、処理を繰り返す。
In Step 2050, (Operation 4) is performed. That is, if the source word or destination word of the node is a verb, an adjective or an adjective verb and includes intention information such as “possible” and “denial”, the word item not including the intention information is stored in the graph node temporary storage unit. Register to 603 and set a branch between the word item. However, if the word item is already registered in the graph node
図23は、ステップ2050の処理によって更新されたグラフ節点一時記憶部603の格納内容例を示す。
FIG. 23 shows an example of the stored contents of the graph node
ここで、追加される節点の例は、図20の1行目の係り受けアイテム「特定口座−申し込む(だ)」の係り先単語「申し込む(だ)」から意図情報の除いた単語「申し込む」である。「出現数」項目と「該当文書ID」項目は、図20の「特定口座−申し込む(だ)」の「出現数」項目と「該当文書ID」項目をそのまま設定する。但し、意図情報の除いた単語「申し込む」が既に登録されている場合には、出現数項目と該当文書ID項目については、既に登録されている値に付け加える。 Here, an example of the added node is the word “apply” obtained by removing the intention information from the dependency word “apply (da)” of the dependency item “specific account—apply (da)” in the first line of FIG. 20. It is. In the “appearance number” item and “corresponding document ID” item, the “appearance number” item and “corresponding document ID” item of “specific account-apply (da)” in FIG. 20 are set as they are. However, when the word “apply” excluding the intention information is already registered, the appearance number item and the corresponding document ID item are added to the already registered values.
図22に、ステップ2050の処理によって更新されたグラフ枝一時記憶部604の格納内容例を示す。
FIG. 22 shows an example of the contents stored in the graph branch
ここで、追加される枝の例は、「節点1」が意図情報を含まないアイテム、「節点2」が当該節点とし、「枝種類」項目の値を「動詞」にする。「出現数」項目と「該当文書ID」項目は、当該節点の出現数項目と該当文書IDをそのまま設定する。
Here, in the example of the added branch, “
ステップ2060では、(操作4)を実施する。当該節点が、動詞、形容詞又は形容動詞であり、「可能」「否定」などの意図情報を含むなら、意図情報を含まない単語アイテムをグラフ節点一時記憶部に登録し、その単語アイテムとの間に枝を設定する。但し、単語アイテムがグラフ節点一時記憶部に既に登録されているなら、枝だけをグラフ枝一時記憶部に格納する。ステップ2010に戻る。 In Step 2060, (Operation 4) is performed. If the node is a verb, an adjective or an adjective verb and includes intention information such as “possible” or “denial”, a word item not including the intention information is registered in the graph node temporary storage unit, and Set a branch to. However, if the word item is already registered in the graph node temporary storage unit, only the branch is stored in the graph branch temporary storage unit. Return to step 2010.
図24に、ステップ2060の処理によって更新されたグラフ節点一時記憶部603の格納内容例を示す。
FIG. 24 shows an example of the contents stored in the graph node
ここで、追加される節点例は、図20の2、3行目の単語アイテム「申し込む(だ)」「開設する(ない)」から意図情報の除いた単語「申し込む」「開設する」である。単語「開設する」の「出現数」項目と「該当文書ID」項目は、図20の「開設する(ない)」の出現数項目と該当文書ID項目をそのまま設定する。単語「申し込む」は既に登録されているので、「出現数」項目と「該当文書ID」項目に関しては、既に登録されている値に付け加える。 Here, the added node examples are the words “Apply” and “Open” obtained by removing the intention information from the word items “Apply (da)” and “Open (not)” in the second and third lines of FIG. . In the “appearance number” item and the “corresponding document ID” item of the word “open”, the appearance number item and the corresponding document ID item of “open (none)” in FIG. 20 are set as they are. Since the word “apply” is already registered, the “appearance number” item and the “corresponding document ID” item are added to the already registered values.
グラフ要素操作部601は、グラフ枝一時記憶部604の各要素について、次のステップ2080以降の処理を実施し、グラフ枝一時記憶部604のすべての要素で処理が終了したら、ステップ2120に進む(ステップ2070)。
The graph
グラフ要素操作部601がグラフ枝一時記憶部604から処理対象の枝を選択すると、その選択した枝の「種類」項目が「ルール」である場合、ステップ2090に進み、それ以外である場合、ステップ2070に戻り処理を繰り返す(ステップ2080)。
When the graph
選択した枝の「種類」項目が「ルール」である場合、グラフ要素操作部601は、その処理対象の枝に設定される「節点1」と「節点」とが共に単語アイテムならばステップ2100に進み、それ以外ならばステップ2110に戻り処理を繰り返す(ステップ2090)。
When the “type” item of the selected branch is “rule”, the graph
処理対象の枝の「節点1」及び「節点2」が共に単語アイテムである場合、グラフ要素操作部601は、(操作3)を実施する。すなわち、グラフ要素操作部601は、係り受け関係「選択した枝の節点1−選択した枝の節点2」、又は「選択した枝の節点2−選択した枝の節点1」が、他の枝の節点に存在するならば、処理対象の枝を削除する(ステップ1100)。
When both “
例えば、図22に、ステップ2100の処理によって更新されたグラフ枝一時記憶部604の格納内容例を示す。図22において、1行目と4行目が削除されている。1行目は、「節点1」と「節点2」がともに単語アイテムであり、7行目の「節点1」に係り受け関係「対応−悪い」が存在するため、削除されている。4行目も同様に、2行目の「節点2」に係り受け関係「特定口座−申し込む(だ)」が存在するため、削除されている。
For example, FIG. 22 shows an example of the contents stored in the graph branch
処理対象の枝の「節点1」及び「節点2」が共に単語アイテムでない場合、グラフ要素操作部601は、(操作2)を実施する。すなわち、グラフ要素操作部601は、処理対象の枝と比較して、「節点1」又は「節点2」のアイテムが、単語アイテムか、それとも、その単語を含む係り受けアイテムかによる違いのみである枝がある場合に、単語アイテムの方の節点を削除する。その後、ステップ2070に戻り、処理を繰り返す。
When “
例えば、図22に、ステップ2110の処理によって更新されたグラフ枝一時記憶部604の格納内容例を示す。図22において、3行目と6行目が削除されている。3行目と5行目とでは、3行目の節点1「特定口座」と6行目の節点1「特定口座−申し込む(だ)」が異なるだけで、節点2は共に「対応」で共通である。従って、節点1が単語アイテムである3行目が削除される。
For example, FIG. 22 shows an example of the contents stored in the graph branch
5行目と8行目とでは、5行目の節点1「対応」と8行目の節点1「対応−悪い」が異なるだけで、節点2は共に「申し込む(だ)」で共通である。従って、節点1が単語アイテムである5行目が削除される。
In the 5th and 8th lines, the
また、グラフ要素操作部601によりすべての枝について処理が行われると、グラフ表示部602は、グラフ節点一時記憶部603とグラフ枝一時記憶部604に基づいて、グラフ形式で表示する(ステップ2120)。
When the graph
なお、グラフ表示部602によるグラフ形式の表示方法は、例えば、非特許文献3等に記載されている方式を利用することができる。
For example, a method described in
結果として、図25に示すようなグラフ表現を出力する。なお図25において、図の実線の枝は、アソシエーションルールによる関係を、破線は、それ以外の関係を表す。図17に比べて、アソシエーションルールを表す枝が削減され、単語アイテムと、当該単語アイテムを含む係り受けブイテムとの位置が近くなっている。 As a result, a graph representation as shown in FIG. 25 is output. In FIG. 25, the solid line branch in the figure represents the relationship according to the association rule, and the broken line represents the other relationship. Compared to FIG. 17, branches representing association rules are reduced, and the positions of the word item and the dependency item including the word item are closer.
(B−3)第2の実施形態の効果
第2の実施形態によれば、アソシエーションルールをグラフ形式で表示する際に、意味的に類似した節点を近くに表示することで、ユーザは、より重要なルールを見つけやすくなる。
(B-3) Effect of Second Embodiment According to the second embodiment, when displaying association rules in a graph format, by displaying nodes that are semantically similar to each other nearby, the user can Helps you find important rules.
また、2つのアソシエーションルールの違いが少なく、より限定したアソシエーションルールのみを表示することで、ユーザは、他の重要なアソシエーションルールを見落とすことを防ぐことができる。 In addition, the difference between the two association rules is small, and by displaying only the more limited association rules, the user can prevent overlooking other important association rules.
(C)第3の実施形態
次に、本発明の情報分析システム、情報分析方法及び情報分析プログラムの第3の実施形態を図面を参照して説明する。
(C) Third Embodiment Next, a third embodiment of the information analysis system, the information analysis method, and the information analysis program of the present invention will be described with reference to the drawings.
単語のみから構成されるアイテム集合は、係り受けアイテムより支持度や確信度が高くなるため、単語アイテムのみから構成されるアソシエーションルールが多数生成されてしまう。そのようなルールが多く出力されると、利用者が、重要なルールを見落としてしまう可能性が高まる。そこで、第3の実施形態では、単語アイテムのみから構成されたアソシエーションルールが多数出力されないように、アソシエーションルールを制限する。 Since an item set composed only of words has higher support and certainty than dependency items, a large number of association rules composed only of word items are generated. If many such rules are output, the user is more likely to miss important rules. Therefore, in the third embodiment, association rules are limited so that a large number of association rules composed only of word items are not output.
具体的には、例えば、{母−申し込む(だ)}⇒{特定口座−申し込む(だ)}のように、係り受けアイテムを含むアソシエーションルールでは、低い割合の支持度や確信度でも表示し、{母}⇒{宣伝する}のように、単語アイテムのみで構成されるアソシエーションルールは、より高い支持度や確信度で表示する。 Specifically, for example, in association rules that include dependency items, such as {mother-apply (da)} ⇒ {specific account-apply (da)}, a low percentage of support and confidence are displayed. An association rule composed only of word items, such as {mother} ⇒ {advertise}, is displayed with a higher degree of support and certainty.
そこで、第3の実施形態では、係り受けアイテムと単語アイテムで異なる支持度や確信度を設定できるようにする。これによって、単語アイテムのみから構成されたアソシエーションルールがたくさん表示されることを防ぐことができる。 Therefore, in the third embodiment, different support levels and certainty levels can be set for the dependency item and the word item. As a result, it is possible to prevent a large number of association rules composed only of word items from being displayed.
(C−1)第3の実施形態の構成及び動作
第3の実施形態の構成は、図1に示す第1の実施形態の構成に対応するので、以下では図1を用いて第3の実施形態を説明する。
(C-1) Configuration and Operation of Third Embodiment Since the configuration of the third embodiment corresponds to the configuration of the first embodiment shown in FIG. 1, the third embodiment will be described below using FIG. A form is demonstrated.
第3の実施形態が第1の実施形態と異なる点は、第1の実施形態では、入力部1が「最小支持度」、「最小確信度」を取り込んでいたが、第3の実施形態では、「単語アイテムのみの最小支持度」、「それ以外の場合の最小支持度」、「単語アイテムのみの最小確信度」、「それ以外の場合の最小確信度」を取り込む点である。
The third embodiment is different from the first embodiment in that, in the first embodiment, the
また、第3の実施形態の候補アイテム集合計算部503が、「単語アイテムのみの最小支持度」、「それ以外の場合の最小支持度」に基づいて、処理を継続するアイテム集合を選別する点である。
In addition, the candidate item set
さらに、第3の実施形態のルール作成部504が、「単語アイテムのみの最小確信度」、「それ以外の場合の最小確信度」に基づいて、得られたアソシエーションルールを選別する点である。
Furthermore, the
また、図3において、第3の実施形態が第1の実施形態と異なるのは、ステップ100とステップ150であるので、以下では、これらに対応する第3の実施形態の特徴的な処理をステップ300及び350として入れ替えて説明する。
Also, in FIG. 3, the third embodiment differs from the first embodiment in
まず、入力部1は、図3の第1の実施形態と同様に、データの入力を行う。このとき、入力部1は、「単語アイテムのみの最小支持度」、「それ以外の場合の最小支持度」、「単語アイテムのみの最小確信度」、「それ以外の場合の最小確信度」、「作成するアイテム集合の最大サイズ」を取り込み、アソシエーションルール抽出部5に与える(ステップ300)。
First, the
例えば、「単語アイテムのみの最小支持度」=2、「それ以外の場合の最小支持度」=2、「単語アイテムのみの最小確信度」=0.8、「それ以外の場合の最小確信度」=0.6、「作成するアイテム集合の最大の大きさ」=3とする。 For example, “minimum support for word items only” = 2, “minimum support for other cases” = 2, “minimum confidence only for word items” = 0.8, “minimum confidence in other cases” ] = 0.6, “maximum size of item set to be created” = 3.
また、ステップ350において、アソシエーションルール抽出部5は、図26に示すアソシエーションルールの作成処理を行う。
In step 350, the association
ここで、図26は、第3の実施形態のアソシエーションルール抽出部5における処理を示し、図3の処理と対応する処理については同一する符号を付して示す。
Here, FIG. 26 shows processing in the association
まず、候補アイテム集合生成部501による大きさ1のアイテム集合の生成及び候補アイテム集合計算部503による大きさ1のアイテム集合の出現数の計算は第1の実施形態の処理と同様である。
First, generation of an item set of
候補アイテム集合削除部502は、各アイテム集合のうち単語アイテムについて、入力部1に入力された「単語アイテムのみの最小支持度」と比較し、各単語アイテムの出現数が「単語アイテムのみの最小支持度」未満である場合、その単語アイテムをアイテム集合一時記憶部505から削除する(ステップ3020)。
The candidate item set
また、候補アイテム集合削除部502は、各アイテム集合のうち係り受けアイテムについては、入力された「それ以外の場合の最小支持度」と比較し、各係り受けアイテムの出現数が「それ以外の場合の最小支持度」未満である場合、その係り受けアイテムをアイテム集合一時記憶部505から削除する(ステップ3020)。
Further, the candidate item set
その後、制御部500がカウンタnを2にセットし、候補アイテム集合生成部501が大きさ2のアイテム集合を作成し、第1の実施形態と同様にして、候補アイテム集合削除部502が部分集合を含むアイテム集合を削除する(ステップ1030〜1060)。
After that, the
そして、候補アイテム集合計算部503は、大きさ2の各アイテム集合についての支持度を計算し、大きさ2のアイテム集合のうち、構成要素がすべて単語アイテムのものについては、その支持度と「単語アイテムのみの最小支持度」とを比較し、「単語アイテムのみの最小支持度」未満のアイテム集合をアイテム集合一時記憶部505から削除する(ステップ3070)。
Then, the candidate item set
また、候補アイテム集合計算部503は、大きさ2のアイテム集合のうち、少なくとも1つ以上の係り受けアイテムを構成要素として有するものについては、その支持度と「それ以外の場合の最小支持度」とを比較し、「それ以外の場合の最小支持度」未満のアイテム集合をアイテム集合一時記憶部505から削除する(ステップ3070)。
In addition, the candidate item set
そして、制御部500は、カウンタnが、入力部1から入力された「作成するアイテム集合の最大サイズ」と等しい場合、又は、すべてのアイテム集合で、最小支持度未満だった場合には、ステップ1100に進み、それ以外の場合には、ステップ1090に進み、カウンタnに1を加算し、ステップ1050に戻って処理を繰り返す(ステップ3080)。
When the counter n is equal to the “maximum size of the item set to be created” input from the
そして、第1の実施形態と同様に、アイテム集合一時記憶部505に格納されるすべてのアイテム集合について条件部と結論部とに分割されると、各アイテム集合の条件部と結論部のすべての組み合わせについての確信度を計算する(ステップ1100〜1130)。
As in the first embodiment, when all the item sets stored in the item set
そして、各アイテム集合の条件部と結論部がすべて単語アイテムである場合、その組み合わせの確信度と「単語アイテムのみの最小確信度」とを比較し、その確信度が「単語アイテムのみの最小確信度」未満であるとき、その組み合わせを削除する(ステップ3140)。すなわち、アソシエーションルールとして採用しない。 Then, when the condition part and the conclusion part of each item set are all word items, the certainty of the combination is compared with the “minimum certainty only for word items” and the certainty is “minimum certainty only for word items”. If it is less than “degree”, the combination is deleted (step 3140). That is, it is not adopted as an association rule.
また、各アイテム集合の条件部と結論部のいずれかに少なくとも係り受けアイテムを有する場合、その組み合わせの確信度と「それ以外の最小確信度」とを比較し、その確信度が「それ以外の最小確信度」未満であるとき、その組み合わせを削除する(ステップ3140)。 In addition, when there is at least a dependency item in either the condition part or the conclusion part of each item set, the reliability of the combination is compared with the "other minimum confidence" and the confidence is If it is less than “minimum certainty”, the combination is deleted (step 3140).
その後、ステップ1120又はステップ1100に戻り、すべてのアイテム集合のすべての組み合わせについて終了すると、アソシエーションルールの重複するものが選別され、処理が終了する(ステップ3150)。 Thereafter, the process returns to Step 1120 or Step 1100, and when all combinations of all item sets are completed, duplicated association rules are selected and the process ends (Step 3150).
ここで、図27は、大きさ2のアイテム集合からできるアソシエーションルールを示す。図27において、取り消し線が、第1の実施形態に比べて削除されたルールである。「単語アイテムのみの最小確信度」を高く設定(0.8に設定)したために、単語アイテムから構成されるアソシエーションルールが削除されている。
Here, FIG. 27 shows an association rule made from a
(C−2)第3の実施形態効果
以上のように、第3の実施形態によれば、第1の実施形態と同様の効果を得ることができる。
(C-2) Effects of Third Embodiment As described above, according to the third embodiment, the same effects as those of the first embodiment can be obtained.
また、第3の実施形態によれば、係り受けアイテムと単語アイテムで、異なる支持度、確信度を設定できるようにすることで、支持度が高く、たくさん出現しがちな単語アイテムのみから構成されるアソシエーションルールの出力を抑制することができる。これによって、他の重要なアソシエーションルールを見落とすことを防ぐことができる。 In addition, according to the third embodiment, the support item and the word item can be set to have different support and certainty, so that the support item is high and the word item is likely to appear a lot. Output of association rules can be suppressed. This can prevent overlooking other important association rules.
(D)第4の実施形態
次に、本発明の情報分析システム、情報分析方法及び情報分析プログラムの第4の実施形態を図面を参照して説明する。
(D) Fourth Embodiment Next, a fourth embodiment of the information analysis system, information analysis method, and information analysis program of the present invention will be described with reference to the drawings.
第1の実施形態では、係り受けアイテムだけでなく、単語アイテムも設定したことによって、あまり意味のないアイテム集合が生成されることがある。 In the first embodiment, not only dependency items but also word items are set, so that an item set that is not very meaningful may be generated.
例えば、単語アイテム「母」と「宣伝する(いる)」を組み合わせたアイテム集合{母、宣伝する(いる)}というアイテム集合である。 For example, the item set {mother, advertise (is)} is an item set that combines the word items “mother” and “advertise (is)”.
一方、単語アイテム「悪い」と「申し込む(だ)」を組み合わせたアイテム集合{悪い、申し込む(だ)}では、「申し込んだ際に、何か悪いことがあったのではないか」という推測が働き、必ずしも誤ったアイテム集合とはいえない。 On the other hand, in the item set {bad, apply (da)} that combines the word items "bad" and "apply (da)", the guess is that something bad happened when you applied Working, not necessarily the wrong item set.
そこで、第4の実施形態では、一方が名詞で、他方が用言(動詞、形容詞や形容動詞)である単語アイテムを組み合わせたことによって生ずる意味の誤ったアイテム集合が、なるべく生成されないようにする。 Therefore, in the fourth embodiment, an item set having an erroneous meaning caused by combining word items in which one is a noun and the other is a predicate (verb, adjective or adjective verb) is prevented from being generated as much as possible. .
そのために、一方が名詞で、他方が用言の単語のみから構成されるアイテム集合を作成する場合には、その単語間に少なくとも1つの係り受け関係が存在していることを前提条件にする。例えば、単語アイテム「母」と「宣伝する(いる)」を組み合わせたアイテム集合{母、宣伝する(いる)}を作成する場合には、元の入力データに、「母−宣伝する(いる)」という係り受け関係が存在している場合に限ることにする。 For this reason, when creating an item set in which one is a noun and the other is only a word of predicate, it is assumed that at least one dependency relationship exists between the words. For example, to create an item set {mother, advertise (is)} that combines the word items “mother” and “advertise (is)”, the original input data contains “mother-advertise (is)”. Only when there is a dependency relationship.
(D−1)第4の実施形態の構成及び動作
第4の実施形態の構成は、図1に示す第1の実施形態の構成に対応する。また、第4の実施形態が第1の実施形態と異なる点は、アソシエーションルール抽出部5によるアソシエーションルールの抽出処理である。
(D-1) Configuration and Operation of Fourth Embodiment The configuration of the fourth embodiment corresponds to the configuration of the first embodiment shown in FIG. Further, the fourth embodiment differs from the first embodiment in the association rule extraction processing by the association
そこで、以下では、第4の実施形態のアソシエーションルール抽出部5のアソシエーションルール抽出処理について図28のフローチャートを参照して説明する。
Therefore, in the following, association rule extraction processing of the association
図28において、第4の実施形態は、第1の実施形態のステップ1060の処理の前に、以下に示すステップ4055を実施する点であり、それ以外の他の処理は第1の実施形態と同様である。 In FIG. 28, the fourth embodiment is that step 4055 shown below is performed before the process of step 1060 of the first embodiment, and other processes are the same as those of the first embodiment. It is the same.
ステップ4055では、候補アイテム集合削除部502が、大きさ2のアイテム集合を作成中の場合にのみ、次のチェックを行う。
In step 4055, the candidate item set
大きさ2の各アイテム集合{A、B}について、当該アイテム集合の要素A、Bが単語であり、A又はBのいずれかが名詞であり、他方が用言である場合に、図6に示すような構文解析部3による係り受け関係を参照し、係り受け関係として、「A−B」又は「B−A」という関係を満たさなければ、候補アイテム集合削除部502は、アイテム集合{A、B}を削除する。
For each item set {A, B} of
例えば、仮に「最小支持度」が1であった場合、図10のデータから、大きさ2のアイテム集合を作成する際に、アイテム集合{母、宣伝する(いる)}は、大きさ2のアイテム集合一時記憶部505から削除される。これは、図6に、「母−宣伝する」又は「宣伝する−母」という係り受け関係が存在しないからである。
For example, if the “minimum support” is 1, when creating an item set of
但し、このチェックでは、用言の意図情報は問わない。例えば、「母−宣伝する(ない)」「母−宣伝する(た)」が存在していれば、条件を満たすものとする。 However, in this check, the intention information of the predicate is not asked. For example, if “mother-advertise (not)” and “mother-advertise (ta)” exist, the condition is satisfied.
一方、アイテム集合{特定口座、開設する(ない)}は、大きさ2のアイテム集合一時記憶部505から削除されない。これは、図6の8行目に「特定口座−開設する(ない)」という係り受け関係が存在するからである。
On the other hand, the item set {specific account, opened (none)} is not deleted from the
(D−2)第4の実施形態の効果
以上のように、第4の実施形態によれば、第1の実施形態と同等の効果を得ることができる。
(D-2) Effect of Fourth Embodiment As described above, according to the fourth embodiment, the same effect as that of the first embodiment can be obtained.
また、第4の実施形態によれば、係り受け関係を参照することで、一方が名詞で、他方が用言(動詞、形容詞や形容動詞)である単語アイテムを組み合わせたことによって、意味の誤ったアイテム集合ができるだけ生成されないようにできる。 In addition, according to the fourth embodiment, by referring to the dependency relationship, a combination of word items in which one is a noun and the other is a predicate (a verb, an adjective or an adjective verb) is used. It is possible to prevent the generated item set from being generated as much as possible.
(E)他の実施形態
(1)第1の実施形態では、図7、図8で動詞や形容詞などの用言に、否定や継続をあらわす意図情報を設定しているが、設定しなくてもよい。
(E) Other Embodiments (1) In the first embodiment, intention information indicating denial or continuation is set in the predicates such as verbs and adjectives in FIG. 7 and FIG. Also good.
(2)第1の実施形態のアイテムを作る際に、概念階層を利用してもよい。例えば、「口座」と「特定口座」の間に上位・下位概念関係がある場合に、図8のデータID3に、次のアイテムに加えてもいい。
(2) The concept hierarchy may be used when creating the item of the first embodiment. For example, when there is an upper / lower conceptual relationship between the “account” and the “specific account”, the
「口座−申し込む(だ)」、「口座−開設する(ない)」、「口座」
(3)第1の実施形態では、最小支持度や最小確信度を入力しているが、システムで固定値にしてもよい。また、最小支持度や最小確信度だけでなく、リスト値などを入力できるようにしてもよい。又は、最大支持度や最大確信度を入力できるようにして、出力するアソシエーションルールの上限を規定してもよい。
"Account-Apply (da)", "Account-Open (not)", "Account"
(3) In the first embodiment, the minimum support level and the minimum confidence level are input, but may be fixed values by the system. In addition to the minimum support level and the minimum certainty level, a list value or the like may be input. Alternatively, the upper limit of the association rule to be output may be defined by allowing the maximum support level and the maximum certainty level to be input.
(4)第1の実施形態のステップ140で登録する単語アイテムは、係り受けアイテムの係り元単語にも係り先単語にも出現しない単語に限ってもいい。また、動詞や形容詞のみ、や、名詞のみに制限してもよい。 (4) The word items registered in step 140 of the first embodiment may be limited to words that do not appear in the dependency source word or the dependency destination word of the dependency item. Moreover, you may restrict | limit only to a verb, an adjective, or only a noun.
(5)第1の実施形態の図7、図8で、各データのアイテムを作成する際には、データの属性データを加えてもいい。例えば、コールセンターから得られた入力データであれば、コールした顧客の年齢や性別情報をアイテムにしてもよい。 (5) In creating the items of each data in FIGS. 7 and 8 of the first embodiment, attribute data of the data may be added. For example, as long as input data obtained from a call center, the customer's age and gender information may be used as an item.
(6)第2の実施形態では、枝は無向グラフにしているが、条件部から結論部への有向グラフにしてもよい。 (6) Although the branch is an undirected graph in the second embodiment, it may be a directed graph from the condition part to the conclusion part.
(7)第2の実施形態で、グラフ要素操作部601で追加したグラフ枝一時記憶部のデータのうち、種類項目が「ルール」以外の枝は、節点間の引力として計算するだけで、表示しなくても良い。
(7) In the second embodiment, among the data in the graph branch temporary storage unit added by the graph
(8)第2の実施形態で、グラフ要素操作部601で新たな枝を追加する際に、概念階層を利用してもよい。例えば、「口座」と「特定口座」の間に上位・下位概念関係がある場合に、図22に、
節点1項目:「口座」
節点2項目:「特定口座」
種類:「概念」
出現数:単語アイテム「口座」とその下位概念の単語アイテムの出現数
該当文書ID:単語アイテム「口座」とその下位概念の単語アイテムの出現する文書
というデータを追加してもよい。
(8) In the second embodiment, a concept hierarchy may be used when a new branch is added by the graph
Type: "Concept"
Number of occurrences: Number of occurrences of the word item “account” and its subordinate concept word items Applicable document ID: Data of a document in which the word item “account” and its subordinate concept word items appear may be added.
(9)最小支持度を計算する際には、同一データ中の出現回数を利用した重み付きの支持度などを利用してもよい。 (9) When calculating the minimum support level, a weighted support level using the number of appearances in the same data may be used.
(10)上述した第1〜第4の実施形態では、本発明に係るシステムが、同一の装置により実現されるものとして説明したが、それぞれ接続可能な複数の別々の装置により分散処理で実現できるものとしても良い。 (10) In the first to fourth embodiments described above, the system according to the present invention has been described as being realized by the same device, but can be realized by distributed processing by a plurality of separate devices that can be connected to each other. It is good as a thing.
(11)上述した第1〜第4の実施形態で説明したシステムは、例えばパーソナルコンピュータやワークステーションなどの情報処理装置により実現される機能であるが、その実体は情報処理装置が実行可能な処理プログラムである。また、第1〜第4の実施形態で説明したシステムの処理プログラムは、例えば、コンピュータに読み取り可能な記憶媒体に格納されたり、ハードディスクに格納されたり、又はネットワークを通じて伝送されうるものであったりする。 (11) The system described in the first to fourth embodiments described above is a function realized by an information processing apparatus such as a personal computer or a workstation, but its substance is a process that can be executed by the information processing apparatus. It is a program. The processing program of the system described in the first to fourth embodiments may be stored in a computer-readable storage medium, stored in a hard disk, or transmitted through a network, for example. .
(12)本発明に係るシステムの構成要素の配置や処理フローの順序は、上述した第1〜第4の実施形態で説明したものに限定されない。 (12) The arrangement of components of the system according to the present invention and the order of processing flows are not limited to those described in the first to fourth embodiments.
1…入力部、2…形態素解析部、3…構文解析部、4…アイテム生成部、5…アソシエーションルール抽出部、500…制御部、501…候補アイテム集合生成部、502…候補アイテム集合削除部、503…候補アイテム集合計算部、504…ルール作成部、505…アイテム集合一時記憶部、6…表示部、601…グラフ要素操作部、602…グラフ表示部、603…グラフ節点一時記憶部、604…グラフ枝一時記憶部、7A及び7B…データ分析装置。
DESCRIPTION OF
Claims (9)
上記各テキスト情報に対して形態素解析を行う形態素解析手段と、
上記各テキスト情報に対して構文解析を行う構文解析手段と、
上記各テキスト情報の形態素解析結果及び又は構文解析結果を、上記相関規則の分析対象であるアイテムとして作成するアイテム作成手段と、
上記アイテム作成手段により作成された1又は複数の上記アイテムを用いて1又は複数のアイテム集合を作成するアイテム集合作成手段と、
上記アイテム集合作成手段により作成された上記各アイテム集合を照らし合わせて、意味的に包含関係のあるアイテムを要素として有する上記アイテム集合を削除するアイテム集合削除手段と、
上記各アイテム集合について共起出現頻度を計算するアイテム集合計算手段と、
上記アイテム集合計算手段により計算された上記各アイテム集合の共起出現頻度に基づいて1又は複数の上記相関規則を作成する相関規則作成手段と、
上記相関規則作成手段により作成された上記各相関規則を表示する表示手段と
を備えることを特徴とする情報分析システム。 In an information analysis system that creates a correlation rule based on each component of a plurality of input text information and outputs a useful correlation rule,
Morphological analysis means for performing morphological analysis on each text information,
A syntax analysis means for performing syntax analysis on each of the above text information;
Item creation means for creating a morphological analysis result and / or a syntax analysis result of each text information as an item to be analyzed by the correlation rule;
Item set creation means for creating one or more item sets using the one or more items created by the item creation means;
Item set deletion means for checking the item sets created by the item set creation means and deleting the item set having items having semantically inclusive relations as elements,
Item set calculation means for calculating the co-occurrence appearance frequency for each item set,
Correlation rule creating means for creating one or more correlation rules based on the co-occurrence frequency of each item set calculated by the item set calculating means;
An information analysis system comprising: display means for displaying each correlation rule created by the correlation rule creation means.
形態素解析手段が、上記各テキスト情報に対して形態素解析を行う形態素解析工程と、
構文解析手段が、上記各テキスト情報に対して構文解析を行う構文解析工程と、
アイテム作成手段が、上記各テキスト情報の形態素解析結果及び又は構文解析結果を、上記相関規則の分析対象であるアイテムとして作成するアイテム作成工程と、
アイテム集合作成手段が、上記アイテム作成手段により作成された1又は複数の上記アイテムを用いて1又は複数のアイテム集合を作成するアイテム集合作成工程と、
アイテム集合削除手段が、上記アイテム集合作成手段により作成された上記各アイテム集合を照らし合わせて、意味的に包含関係のあるアイテムを要素として有する上記アイテム集合を削除するアイテム集合削除工程と、
アイテム集合計算手段が、上記各アイテム集合について共起出現頻度を計算するアイテム集合計算工程と、
相関規則作成手段が、上記アイテム集合計算手段により計算された上記各アイテム集合の共起出現頻度に基づいて1又は複数の上記相関規則を作成する相関規則作成工程と、
表示手段が、上記相関規則作成手段により作成された上記各相関規則を表示する表示工程と
を備えることを特徴とする情報分析方法。 In an information analysis method for creating a correlation rule based on each component of a plurality of input text information and outputting a useful correlation rule,
A morpheme analysis step in which the morpheme analysis means performs morpheme analysis on each text information;
A parsing step in which the parsing means performs parsing on each of the text information;
An item creating step for creating a morphological analysis result and / or a syntax analysis result of each text information as an item to be analyzed by the correlation rule;
An item set creation step in which the item set creation means creates one or more item sets using the one or more items created by the item creation means;
An item set deletion step in which an item set deletion unit deletes the item set having an item having a semantically inclusive relationship as an element by comparing each item set created by the item set creation unit,
Item set calculation means, the item set calculation step for calculating the co-occurrence appearance frequency for each item set,
A correlation rule creating step for creating one or more correlation rules based on the co-occurrence appearance frequency of each item set calculated by the item set calculating unit;
A display means comprising: a display step of displaying each correlation rule created by the correlation rule creating means.
コンピュータに、
上記各テキスト情報に対して形態素解析を行う形態素解析手段、
上記各テキスト情報に対して構文解析を行う構文解析手段、
上記各テキスト情報の形態素解析結果及び又は構文解析結果を、上記相関規則の分析対象であるアイテムとして作成するアイテム作成手段、
上記アイテム作成手段により作成された1又は複数の上記アイテムを用いて1又は複数のアイテム集合を作成するアイテム集合作成手段、
上記アイテム集合作成手段により作成された上記各アイテム集合を照らし合わせて、意味的に包含関係のあるアイテムを要素として有する上記アイテム集合を削除するアイテム集合削除手段、
上記各アイテム集合について共起出現頻度を計算するアイテム集合計算手段、
上記アイテム集合計算手段により計算された上記各アイテム集合の共起出現頻度に基づいて1又は複数の上記相関規則を作成する相関規則作成手段、
上記相関規則作成手段により作成された上記各相関規則を表示する表示手段
として機能させることを特徴とする情報分析プログラム。
In an information analysis program that creates a correlation rule based on each component of a plurality of input text information and outputs a useful correlation rule,
On the computer,
Morphological analysis means for performing morphological analysis on each text information,
Syntax analysis means for performing syntax analysis on each of the above text information;
Item creation means for creating a morphological analysis result and / or a syntax analysis result of each text information as an item to be analyzed by the correlation rule,
Item set creation means for creating one or more item sets using the one or more items created by the item creation means,
Item set deletion means for deleting each item set created by the item set creation means and deleting the item set having an item having a semantically inclusive relationship as an element,
Item set calculation means for calculating the co-occurrence appearance frequency for each item set,
Correlation rule creating means for creating one or a plurality of correlation rules based on the co-occurrence appearance frequency of each item set calculated by the item set calculating means;
An information analysis program that functions as display means for displaying each of the correlation rules created by the correlation rule creation means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005294108A JP2007102642A (en) | 2005-10-06 | 2005-10-06 | Information analysis system, information analysis method and information analysis program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005294108A JP2007102642A (en) | 2005-10-06 | 2005-10-06 | Information analysis system, information analysis method and information analysis program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007102642A true JP2007102642A (en) | 2007-04-19 |
Family
ID=38029503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005294108A Abandoned JP2007102642A (en) | 2005-10-06 | 2005-10-06 | Information analysis system, information analysis method and information analysis program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007102642A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10289674B2 (en) | 2014-10-30 | 2019-05-14 | International Business Machines Corporation | Generation apparatus, generation method, and program |
-
2005
- 2005-10-06 JP JP2005294108A patent/JP2007102642A/en not_active Abandoned
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10289674B2 (en) | 2014-10-30 | 2019-05-14 | International Business Machines Corporation | Generation apparatus, generation method, and program |
US10296579B2 (en) | 2014-10-30 | 2019-05-21 | International Business Machines Corporation | Generation apparatus, generation method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9953022B2 (en) | Natural language metric condition alerts | |
US8805861B2 (en) | Methods and systems to train models to extract and integrate information from data sources | |
US20160358274A1 (en) | Patent Claims Analysis System and Method | |
US20190179958A1 (en) | Split mapping for dynamic rendering and maintaining consistency of data processed by applications | |
JPH11110413A (en) | Method and device for generating data base retrieved result | |
US20190391976A1 (en) | Research and development auxiliary system using patent database and method thereof | |
JP2015528604A (en) | Feature-based candidate selection | |
US10656814B2 (en) | Managing electronic documents | |
US20150121200A1 (en) | Text processing apparatus, text processing method, and computer program product | |
JP2011198111A (en) | Feature word extraction device and program | |
JPH1153387A (en) | Method and system for correlating document | |
Staar et al. | Corpus processing service: a knowledge graph platform to perform deep data exploration on corpora | |
JP2012064129A (en) | Gui integration method of multiple applications | |
US20150331886A1 (en) | Determining images of article for extraction | |
Yang et al. | A Unit of Information‐Based Content Adaptation Method for Improving Web Content Accessibility in the Mobile Internet | |
JP3925003B2 (en) | Document processing apparatus and document processing method | |
CN111008285A (en) | Author disambiguation method based on thesis key attribute network | |
JP2007102642A (en) | Information analysis system, information analysis method and information analysis program | |
JP2007293685A (en) | Device, program, and method for mining text | |
Wang et al. | A Generative Answer Aggregation Model for Sentence-Level Crowdsourcing Tasks | |
JP2009134378A (en) | Document group presentation device and document group presentation program | |
JPH1115830A (en) | Sentence abbreviation device and medium recording sentence abbreviation program | |
JP4328623B2 (en) | Distributed semantic description of audiovisual content | |
JP4525224B2 (en) | Document management program, document management method, and document management apparatus | |
JP5446577B2 (en) | Document analysis program and document analysis system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071025 |
|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20090626 |