JP5325131B2 - Pattern extraction apparatus, pattern extraction method, and program - Google Patents
Pattern extraction apparatus, pattern extraction method, and program Download PDFInfo
- Publication number
- JP5325131B2 JP5325131B2 JP2010014603A JP2010014603A JP5325131B2 JP 5325131 B2 JP5325131 B2 JP 5325131B2 JP 2010014603 A JP2010014603 A JP 2010014603A JP 2010014603 A JP2010014603 A JP 2010014603A JP 5325131 B2 JP5325131 B2 JP 5325131B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- text
- index
- total number
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、記号系列からなるデータの自動分類処理に寄与する系列のパターンを抽出するための技術に関する。 The present invention relates to a technique for extracting a pattern of a sequence that contributes to automatic classification processing of data consisting of symbol sequences.
記号系列からなるデータ(例えば、文字記号によって記述された文書データや、遺伝子記号によって記述された遺伝子配列など)群を自動分類する技術が存在する。例えば、スパムメールとその他の電子メールが混在する電子メール群を、スパムメールの集合とその他電子メールの集合とに分類する技術などである。このような技術では、或る特徴を持つ系列(記号系列)のパターンに基づいて、データの自動分類処理が行われる。例えば、所定の集合(例えば、スパムメールの集合)に属するデータが含む頻度が高い系列のパターンが用意され、分類対象のデータが当該系列のパターンを含むか否かに応じ、当該分類対象のデータが自動分類される。よって、このような自動分類技術では、その前提として、自動分類処理に寄与する系列のパターン(例えば、スパムメールの集合に属するデータが含む頻度が高い系列のパターン)を生成する必要がある。 There is a technique for automatically classifying a group of data consisting of symbol series (for example, document data described by character symbols, gene sequences described by gene symbols, etc.). For example, there is a technique for classifying an email group in which spam emails and other emails are mixed into a set of spam emails and a set of other emails. In such a technique, automatic data classification processing is performed based on a pattern of a certain characteristic (symbol series). For example, a series pattern having a high frequency included in data belonging to a predetermined set (for example, a set of spam mails) is prepared, and the classification target data is determined depending on whether or not the classification target data includes the pattern of the series. Are automatically classified. Therefore, in such an automatic classification technique, it is necessary to generate a sequence pattern that contributes to the automatic classification process (for example, a sequence pattern that is frequently included in data belonging to a set of spam mails) as a prerequisite.
一方、記号系列からなるデータ群から頻度の高い系列のパターンを自動抽出する技術が存在する(例えば、非特許文献1参照)。 On the other hand, there is a technique for automatically extracting a pattern having a high frequency from a data group consisting of symbol series (see, for example, Non-Patent Document 1).
図1は、記号系列からなるデータ群から頻度の高い系列のパターンを自動抽出する従来技術を説明するための図である。 FIG. 1 is a diagram for explaining a conventional technique for automatically extracting a pattern having a high frequency from a data group consisting of symbol sequences.
以下では、1個以上の記号からなる要素(最小単位)をアイテムと呼び、1個以上のアイテムからなる系列をテキストと呼び、テキストが含む1個以上のアイテムからなる系列をパターンと呼び、テキストの集合をデータベースと呼ぶ。なお、記号の例は、文字、数字、マークなどであり、アイテムの例は、文字、数字、マーク、単語、単語列、塩基、塩基対などである。図1の例では、例えば、「a」〜「d」がアイテムであり、「a b c c」などの系列が1つのテキストであり、テキストが含む「a」「a b」「a c」などの系列がパターンである。また、図1の例では、5つのテキストからなるデータベースを扱う。 In the following, an element (minimum unit) consisting of one or more symbols is called an item, a series consisting of one or more items is called a text, a series consisting of one or more items included in the text is called a pattern, and text This set is called a database. Examples of symbols are letters, numbers, marks, etc., and examples of items are letters, numbers, marks, words, word strings, bases, base pairs, and the like. In the example of FIG. 1, for example, “a” to “d” are items, a series such as “abcc” is one text, and a series such as “a”, “ab”, and “ac” included in the text is a pattern. It is. In the example of FIG. 1, a database consisting of five texts is handled.
ここで、データベース中から、出現頻度がζ=2よりも大きいパターンを抽出することを考える。なお、1つのテキスト中に同じパターンが複数回出現したとしても、そのテキストに対するそのパターンのカウント回数は1回とする。 Here, consider extracting a pattern having an appearance frequency larger than ζ = 2 from the database. Note that even if the same pattern appears multiple times in one text, the number of times the pattern is counted for that text is one.
まず、与えられたデータベース(「入力データベース(IDB)」と呼ぶ)に対し、アイテム(長さ1のパターン)の出現頻度が算出される。図1の例の場合、アイテム「a」「b」「c」「d」の出現頻度は、それぞれ5, 4, 4, 2となる。すなわち、入力データベースにおいて、出現頻度がζ=2より大きいアイテムは「a」「b」「c」の3つである。これらの3つのアイテム「a」「b」「c」は出力リスト(OUT)の要素として記憶に格納され(OUT={a, b, c})、その後、それぞれのパターン「a」「b」「c」から始まるパターンの出現頻度が算出される。「d」から始まるパターンの出現頻度がζ=2よりも大きくなることはないので、「d」から始まるパターンは以降の処理対象とされない。なお、この例では、プロジェクションによって生成されたデータベースを用い、入力データベースにおける、パターン「a」「b」「c」から始まるパターンの出現頻度が算出される。プロジェクションとは、データベース中の各エントリ(初期はテキスト)に対し、それぞれの先頭から或るアイテム(「着目アイテム」と呼ぶ)が最初に見つかった位置までを削除し、残りの系列をデータベースのエントリとして新たなデータベースを作成することを示す。なお、プロジェクションにおいて、着目アイテムを含まないエントリはデータベースから除外される。ここで説明するアイテムの出現頻度を算出する処理では、出現頻度がζ=2より大きいアイテム「a」「b」「c」が、それぞれ着目アイテムとされる。
First, the appearance frequency of an item (
まず、入力データベースに対し、「a」を着目アイテムとしてプロジェクション(prj(a))を行うと、「b c c」、「c」、「c」、「b d」というエントリのデータベース(DB(a))が作成される。次にこのデータベース(DB(a))に対し、アイテム(長さ1のパターン)の出現頻度を求める。ここで、頻度がζ=2より大きいアイテムがあれば、そのアイテムの前にこれまでのプロジェクションの着目アイテムを付加した系列であるパターンが出力リスト(OUT)の要素として記憶に格納される。図1のプロジェクション(prj(a))の例の場合、出現頻度がζ=2より大きいアイテムは「b」「c」の2つである。よって、各アイテム「b」「c」の前に、それぞれ、これまでのプロジェクションの着目アイテム「a」を付加した系列であるパターン「a b」「a c」が出力リスト(OUT)の要素として記憶に格納される(OUT={a, b, c, a b, a c})。さらに、データベース(DB(a))に対し、再度、プロジェクションが実行される。図1の例では、データベース(DB(a))に対し、頻度がζ=2より大きいアイテム「b」を着目アイテムとしたプロジェクション(prj(b))が行われ、データベース(DB(a b))が生成される。データベース(DB(a b))には、頻度がζ=2より大きいアイテムが存在しないため、出力リスト(OUT)に新たな要素が加えられない。次に、データベース(DB(a))に戻り、頻度がζ=2より大きいアイテム「c」を着目アイテムとしたプロジェクション(prj(c))が行われ、データベース(DB(a c))が生成される。データベース(DB(a c))には、頻度がζ=2より大きいアイテムが存在しないため、出力リスト(OUT)に新たな要素が加えられない。次に、入力データベース(IDB)に戻り、「b」を着目アイテムとしたプロジェクション(prj(b))が行われ、データベース(DB(b))が生成され、「b a」「b c」が出力リスト(OUT)の要素として記憶に格納される(OUT={a, b, c, a b, a c, b a, b c})。その後、同様な基準に従い、深さ優先順で、データベース(DB(b))に対するアイテム「a」「c」を着目アイテムとしたプロジェクション、入力データベース(IDB)に対するアイテム「c」を着目アイテムとしたプロジェクションが実行され、処理が終了する。このようにプロジェクションを再帰的に行うことにより、出現頻度が或る値ζより大きいパターンを効率的に求めることができる。図1の例では、出現頻度がζ=2よりも大きいパターンとして「a, b, c, a b, a c, b a, b c」が得られる。
First, when projection (prj (a)) is performed on the input database with “a” as the item of interest, a database (DB (a)) with entries “bcc”, “c”, “c”, “bd” Is created. Next, the appearance frequency of the item (
しかし、非特許文献1にあるような従来技術では、データベースから出現頻度の高いパターンを自動抽出することはできても、自動分類処理に寄与するパターンを自動生成することはできない。例えば、データベースに属する各テキストにテキストが属する集合を表すデータであるラベル(例えば、スパムメールであるか否かを表すラベルなど)が付与されていたとしても、非特許文献1にあるような従来技術では、ラベルを考慮したパターン抽出を行うことはできない。
However, in the conventional technique as described in Non-Patent
また、ラベルが対応付けられた(ラベルが付与された)テキストをラベルが示す集合ごとに分類し(例えば、スパムメールであるか否かに分類し)、分類された集合ごとに非特許文献1にあるような従来技術を適用すれば、集合ごとに別個に、出現頻度が高いパターンを抽出することができる。このようにして抽出されるパターンは、自動分類処理に寄与するパターンである。しかしながら、通常、テキストにラベルを対応付ける処理は人手によって行われ、そのコストは高い。よって、ラベルが対応付けられたテキストを大量に用意することは難しい。さらに、少量のテキストからパターン抽出が行われた場合には抽出されるパターンの数が非常に少なくなり、抽出されたパターンを用いた自動分類処理の性能が低下してしまう。
Further, the text associated with the label (labeled) is classified for each set indicated by the label (for example, classified as spam mail), and Non-Patent
本発明はこのような点に鑑みてなされたものであり、ラベルが付与されたテキストの数が少量であったとしても、自動分類処理に寄与するパターンを必要な数だけ自動生成することが可能な技術を提供することを目的とする。 The present invention has been made in view of these points, and even if the number of texts with labels is small, it is possible to automatically generate a necessary number of patterns contributing to automatic classification processing. Aims to provide a new technology.
本発明では、1個以上の記号からなる要素をアイテムとし、1個以上のアイテムからなる系列をテキストとし、テキストが含む1個以上のアイテムからなる系列をパターンとし、テキストが属する集合を表すデータであるラベルに対応付けられたテキストをラベルありテキストとし、ラベルに対応付けられていないテキストをラベルなしテキストとし、ラベルありテキストが訓練データとして用いられて生成された統計モデルであって、なおかつ、適用された任意のテキストが所定の集合に属する確率を表す確率データを出力するように構成されたものを分類モデルとする。分類モデルは、ラベルなしテキストに適用され、当該ラベルなしテキストが所定の集合に属する確率を表す確率データが生成される。そして、少なくとも、生成された確率データから定まる値を用い、任意のパターンである第1パターンと、当該第1パターンを含むテキストを当該テキストが属する集合に分類した際の分類結果と、の関連性の高さを表す指標が生成される。 In the present invention, an element including one or more symbols, an item including one or more items as text, a sequence including one or more items included in the text as a pattern, and data representing a set to which the text belongs Is a statistical model generated by using text associated with a label as text with label, text not associated with label as unlabeled text, and using text with label as training data, and A classification model is configured to output probability data representing the probability that an applied arbitrary text belongs to a predetermined set. The classification model is applied to unlabeled text, and probability data representing the probability that the unlabeled text belongs to a predetermined set is generated. Then, at least using a value determined from the generated probability data, the relationship between the first pattern which is an arbitrary pattern and the classification result when the text including the first pattern is classified into the set to which the text belongs. An index representing the height of is generated.
本発明で生成される指標を用いることで、テキストの自動分類処理に寄与する度合いの高いパターンを自動生成できる。また、当該指標はラベルなしテキストに分類モデルを適用した結果を用いて生成できる。よって、本発明では、ラベルが付与されたテキストの数が少量であったとしても、自動分類処理に寄与するパターンを必要な数だけ自動生成することができる。 By using the index generated in the present invention, it is possible to automatically generate a pattern having a high degree of contribution to the automatic text classification process. The index can be generated using the result of applying the classification model to unlabeled text. Therefore, in the present invention, even if the number of texts with labels is small, a necessary number of patterns contributing to the automatic classification process can be automatically generated.
以下、図面を参照して本発明の実施形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
<機能構成>
図2は、実施形態のパターン抽出装置1の機能構成を説明するためのブロック図である。
<Functional configuration>
FIG. 2 is a block diagram for explaining a functional configuration of the
図2に例示するように、本形態のパターン抽出装置1は、訓練部11と、分類部12と、データベース合成部13と、抽出部14と、制御部15と、記憶部16a〜16eとを有する。抽出部14は、指標生成部14aと、限界値生成部14bと、探索部14cとを有する。なお、本形態のパターン抽出装置1は、例えば、CPU(central processing unit)、RAM(random-access memory)、ROM(read-only memory)などを有する公知のコンピュータ又は専用コンピュータに、所定のプログラムが読込まれて構成される特別な装置である。すなわち、訓練部11、分類部12、データベース合成部13、抽出部14及び制御部15は、例えば、所定のプログラムを実行するCPUである。また、記憶部16a〜16eは、例えば、ハードディスク装置などの補助記憶装置、RAM、レジスタ、若しくは、キャッシュメモリ、又は、これらの少なくとも一部が結合された記憶領域である。また、訓練部11、分類部12、データベース合成部13、抽出部14及び制御部15の少なくとも一部の機能が集積回路によって構成されてもよいし、記憶部16a〜16eの少なくとも一部の記憶領域が集積回路内に存在してもよい。なお、パターン抽出装置1は、制御部15の制御のもと、各処理を実行する。また、以下では一部で説明を省略するが、各演算において生成されたデータは各記憶部に格納され、必要に応じてそこから読み出されて各演算に用いられる。
As illustrated in FIG. 2, the
<処理>
図3、4は、パターン抽出装置1の処理を説明するための図である。以下、これらの図を用いてパターン抽出装置1の処理を説明する。
<Processing>
3 and 4 are diagrams for explaining the processing of the
[事前処理]
事前処理として、ラベルありテキストを含むラベルありデータとラベルなしテキストを含むラベルなしデータとが、それぞれ、1個以上、記憶部16a(図2)に格納される。ラベルありテキスト及びラベルなしテキストの例は、文字記号によって記述された文書データや、遺伝子記号によって記述された遺伝子配列や、プログラムコードによって記述されたプログラム列などである。また、ラベルありテキストは、事前に人間によって、それぞれのテキストが属する集合を表すデータであるラベルが対応付けられたテキストである。なお、集合の数は2以上であればいくつでもよいが、以下では2個の集合が設定され、一方の集合を「P+(正例:+)」とし、他方の集合を「P-(負例:-)」とする。図4の例では、識別子(ID)とテキスト(ラベルありテキスト)とラベルの内容(P+,P-)(ラベルが集合P+を表すなら(P+,P-)=(1,0)、ラベルが集合P-を表すなら(P+,P-)=(0,1))との組が、ラベルありデータとされる。また、識別子(ID)とテキスト(ラベルなしテキスト)とラベルの内容(P+,P-)が不明であることを示す情報((P+,P-)=(unk,unk))との組が、ラベルなしデータとされる。
[Pre-processing]
As pre-processing, one or more pieces of labeled data including labeled text and unlabeled data including unlabeled text are stored in the
また、予め定められた減衰パラメータλと、出力リストの要素の上限値を表すパラメータKとが、記憶部16eに格納される。なお、減衰パラメータλは、例えば、0≦λ≦1の範囲、好ましくは、0<λ<1の範囲から事前に選択された値である。また、パラメータKは、例えば、事前に選択された正整数である。 A predetermined attenuation parameter λ and a parameter K representing the upper limit value of the elements of the output list are stored in the storage unit 16e. The attenuation parameter λ is, for example, a value selected in advance from a range of 0 ≦ λ ≦ 1, preferably from a range of 0 <λ <1. The parameter K is, for example, a positive integer selected in advance.
[パターン抽出処理]
まず、訓練部11が、記憶部16aから、ラベルありデータが含むラベルありテキストを抽出し、当該ラベルありテキストを訓練データとして用い、適用された任意のテキストが所定の集合(クラス)に属する確率を表す確率データを出力するように構成された統計モデルである分類モデルを生成する。生成された分類モデルは記憶部16bに格納される(ステップS11)。なお、分類モデルは、適用された任意のテキストが所定の集合に属する確率を表す確率データを出力するように構成されたものであればどのようなものでもよい。例えば、ナイーブ・ベイズ法や最大エントロピー法などの周知の統計方法におけるモデルを分類モデルとすればよい。以下に、ナイーブ・ベイズ法を用いる場合の分類モデルを例示する。
[Pattern extraction processing]
First, the
[ステップS11の具体例(ナイーブ・ベイズ法の例)]
ナイーブ・ベイズ法では、テキストxが所定の集合(クラス)cに属する確率Pr(c|x)が以下の式で定義される。
[Specific Example of Step S11 (Example of Naive Bayes Method)]
In the Naive Bayes method, the probability Pr (c | x) that the text x belongs to a predetermined set (class) c is defined by the following equation.
この例では、以下の10個のラベルありテキストを訓練データとして用い、適用された任意のテキストxが集合P+に属する確率を表す確率データを出力するように構成された分類モデルを生成する。 In this example, the following 10 labeled texts are used as training data, and a classification model configured to output probability data representing the probability that an applied arbitrary text x belongs to the set P + is generated.
Pr(P+)=7/10 …(4)
Pr(P-)=3/10 …(5)
また、各単語wi=a〜iについてのPr(wi|P+)は以下のようになる。
Pr (P + ) = 7/10… (4)
Pr (P -) = 3/ 10 ... (5)
Also, Pr (w i | P + ) for each word w i = a to i is as follows.
次に、分類部12に、上述のラベルなしテキストと分類モデルとが入力される。分類部12は、分類モデルをラベルなしテキストに適用し、当該ラベルなしテキストが所定の集合に属する確率を表す確率データを生成する(ステップS12)。この処理の具体的な方法は分類モデルに応じて異なる。例えば、前述したナイーブ・ベイズ法おける分類モデルが用いられる場合には、以下のような確率データが生成される。
Next, the above-described unlabeled text and classification model are input to the
[ステップS12の具体例(ナイーブ・ベイズ法の例)]
前述したナイーブ・ベイズ法おける分類モデルが用いられる場合、式(1)に従って、入力されたラベルなしテキストxが所定の集合cに属する確率Pr(c|x)が算出される。例えば、式(1)から定まるPr(P+|x)と式(4)〜(23)とからなる分類モデルに、ラベルなしテキストx=a a c c d d fが適用される場合、当該ラベルなしテキストx=a a c c d d fが、ラベルP+で表される所定の集合に属する確率Pr(P+|x)は、
[Specific Example of Step S12 (Example of Naive Bayes Method)]
When the above-described classification model in the Naive Bayes method is used, the probability Pr (c | x) that the input unlabeled text x belongs to the predetermined set c is calculated according to the equation (1). For example, when unlabeled text x = aaccddf is applied to a classification model consisting of Pr (P + | x) determined from formula (1) and formulas (4) to (23), the unlabeled text x = aaccddf Is the probability Pr (P + | x) belonging to the given set represented by the label P +
以上のように生成された確率Pr(P+|x)は、対応するラベルなしテキストに対応付けられ、確率データ付きデータとして記憶部16cに格納される。例えば、図4の例では、識別子(ID)とテキスト(ラベルなしテキスト)と確率Pr(P+|x)と確率Pr(P-|x)=1-Pr(P+|x)とが互いに対応付けられた確率データ付きデータが、記憶部16cに格納される。
The probability Pr (P + | x) generated as described above is associated with the corresponding unlabeled text and stored in the
次に、データベース合成部13(図2)に、記憶部16aに格納されたラベルありデータと、記憶部16cに格納された確率データ付きデータと、記憶部16eに格納された減衰パラメータλとが入力される。データベース合成部13は、ラベルありデータと確率データ付きデータとを合成したデータベースを生成する(ステップS13)。この際、確率データ付きデータの含む確率Pr(P+|x),Pr(P-|x)が分類モデルを用いて自動的に生成されたものであることを考慮し、確率データ付きデータが含む確率Pr(P+|x),Pr(P-|x)に減衰パラメータλが乗じられる。図4の例では、減衰パラメータλ=0.5とし、データベースが生成されている。生成されたデータベースは記憶部16dに格納される。
Next, the database synthesizing unit 13 (FIG. 2) includes the labeled data stored in the
次に、抽出部14が、記憶部16dに格納されたデータベースと、記憶部16eに格納されたパラメータK及び減衰パラメータλとを入力とし、テキストのラベル分類に寄与する度合い(テキストの自動分類処理に寄与する度合い)の高い、K個のパターンを抽出し、それらを要素とする出力リストを出力する(ステップS14)。以下に、ステップS14の処理の詳細を説明する。
Next, the
[指標]
従来の手法では、パターンの出現頻度に基づき、或るデータベースに含まれるパターンを抽出するか否か、及び、プロジェクションを行って新たなデータベースを生成して再帰的な処理を行うか否かが、決定されていた。これに対し、本形態では、パターンの出現頻度ではなく、パターンがラベル分類に寄与する度合い(すなわち、パターンと、当該パターンを含むテキストを当該テキストが属する集合に分類した際の分類結果と、の関連性の高さ)を表す指標に基づき、或るデータベースに含まれるパターンを抽出するか否か、及び、プロジェクションを行って新たなデータベースを生成して再帰的な処理を行うか否かが決定される。
[index]
In the conventional method, based on the appearance frequency of the pattern, whether to extract a pattern included in a certain database, and whether to perform a recursive process by generating a new database by performing projection, It was decided. On the other hand, in the present embodiment, not the appearance frequency of the pattern but the degree that the pattern contributes to the label classification (that is, the pattern and the classification result when the text including the pattern is classified into the set to which the text belongs). Decide whether to extract a pattern contained in a certain database based on an index indicating the level of relevance) and whether to perform a recursive process by generating a new database by performing projection Is done.
この指標は、抽出部14の指標生成部14aが、少なくとも、分類部12で生成された確率データから定まる値を用いて生成する。以下に、指標生成部14aが生成する指標の一例を示す。
This index is generated by the
この例では、以下のような分割表を考える。 In this example, consider the following contingency table.
Nはデータベースが含むラベルありテキストの総数|DL|から定まる値と、データベースが含むラベルなしテキストの総数|DU|から定まる値との和である。この例では、以下のように、データベースが含むラベルありテキストの総数|DL|と、データベースが含むラベルなしテキストの総数DUから定まる値と減衰パラメータλとの積との和をNとする。 N is the sum of a value determined from the total number of labeled texts included in the database | D L | and a value determined from the total number of unlabeled texts included in the database | D U |. In this example, N is the sum of the total number of labeled texts included in the database | D L | and the product of the value determined from the total number of unlabeled texts D U included in the database and the attenuation parameter λ, as follows: .
N=|DL|+λ・|DU| …(25)
Mは、データベースが含むラベルありテキストのうち所定の集合に属することを表すラベルに対応付けられたものの総数から定まる値と、分類部12で生成されたラベルありテキストが集合P+に属する確率を表す確率データから定まる値の総数との和である。この例では、以下のように、データベースが含むラベルありテキストのうち所定の集合P+に属することを表すラベルに対応付けられたものの総数と、ラベルありテキストが集合P+に属する確率と減衰パラメータλとの積の総数との和をMとする。
N = | D L | + λ ・ | D U |… (25)
M is a value determined from the total number of the texts with labels included in the database that are associated with the labels indicating that they belong to a predetermined set, and the probability that the text with labels generated by the
y(α)は、データベースが含むラベルありテキストであって所定の集合に属することを表すラベルに対応付けられたラベルありテキストのうちパターンαを含むものの総数から定まる値と、パターンαを含むラベルなしテキストが所定の集合に属する確率を表す確率データから定まる値の総数との和を表す。この例では、以下のように、データベースが含むラベルありテキストであって集合P+に属することを表すラベルに対応付けられたラベルありテキストのうちパターンαを含むものの総数と、パターンαを含むラベルなしテキストが集合P+に属する確率と減衰パラメータλとの積の総数との和をy(α)とする。 y (α) is a value including the pattern α and a value determined from the total number of the texts with labels that are included in the database and that are associated with the labels indicating that they belong to a predetermined set and that include the pattern α. None represents the sum of the total number of values determined from the probability data representing the probability that the text belongs to a predetermined set. In this example, as shown below, the total number of labeled texts included in the database and including the pattern α among the labeled texts associated with the labels indicating that they belong to the set P + , and the labels including the pattern α Let y (α) be the sum of the probability that none text belongs to the set P + and the total number of products of the attenuation parameters λ.
x(α)は、パターンαを含むラベルありテキストの総数から定まる値と、パターンαを含むラベルなしテキストの総数から定まる値との和を表す。この例では、以下のように、パターンαを含むラベルありテキストの総数と、パターンαを含むラベルなしテキストの総数と減衰パラメータλとの積との和をx(α)とする。 x (α) represents the sum of a value determined from the total number of labeled texts including the pattern α and a value determined from the total number of unlabeled texts including the pattern α. In this example, x (α) is the sum of the total number of labeled texts including the pattern α and the product of the total number of unlabeled texts including the pattern α and the attenuation parameter λ as follows.
抽出部14は、上記の指標に基づき、ラベル分類に寄与する度合いの高い順に選択したK個のパターンを、出力リストLの要素として出力する。本形態の例では、各パターンに対して上記の指標を順次生成していき、K個以上のパターンにそれぞれ対応する指標が生成された場合に、ラベル分類に寄与する度合いが高い順に数えてK番目の指標を閾値τKとする。そして、その後生成される各指標が当該閾値τKに基づく出力条件を満たすか否かに応じ、その指標に対応するパターンを出力リストLの要素とするか否か、及び、プロジェクションを行って新たなデータベースを生成して再帰的な処理を行うか否かが決定される。例えば、式(29)の指標Χ2(α)を用いる場合には、K個以上のパターンにそれぞれ対応する指標が生成された場合に、それらのうちでK番目に大きい指標を閾値τKとする。そして、その後生成される各指標が閾値τKを超えるという出力条件を満たすか否かに応じ、その指標に対応するパターンを出力リストLの要素とするか否か、及び、プロジェクションを行って新たなデータベースを生成して再帰的な処理を行うか否かが決定される。
The
[指標の限界値]
ただし、或るパターンαに対応する指標が出力条件を満たさない場合であっても、当該パターンαに1個以上のアイテムが付加された新たなパターンに対応する指標が出力条件を満たす場合がある。すなわち、指標が出力条件を満たさない場合であっても、プロジェクションを行って新たなデータベースを生成して再帰的な処理を行った場合、出力条件を満たすパターンが検出される場合がある。
[Indicator limits]
However, even if an index corresponding to a certain pattern α does not satisfy the output condition, an index corresponding to a new pattern in which one or more items are added to the pattern α may satisfy the output condition. . That is, even if the index does not satisfy the output condition, a pattern that satisfies the output condition may be detected when a new database is generated by performing projection and recursive processing is performed.
そのため、本形態では、抽出部14の限界値生成部14bが、或るパターンαに1個以上のアイテムが付加された任意の系列である任意パターンと、当該任意パターンを含む任意のテキストを当該テキストが属する集合に分類した際の分類結果と、の関連性の高さを表す指標の限界値を生成する。当該限界値は、パターンαに1個以上のアイテムが付加された任意パターンに対応する指標の最良値(最もラベル分類に寄与する度合いが高い値)を表すものである。例えば、式(29)の指標Χ2(α)が用いられる場合には、パターンαに対して以下の限界値Χ2 max(α)が生成される。なお、Χ2(α, y=x)はy=xである場合のΧ2(α)を表し、Χ2(α,y=0)はy=0である場合のΧ2(α)を表し、max(ν, μ)は、ν≧μの場合にνとなり、ν<μの場合にμとなる関数を表す。
Therefore, in this embodiment, the limit
Χ2 max(α)=max(Χ2(α, y=x), Χ2(α,y=0)) …(30)
そして、限界値が所定の探索条件を満たすか否かに応じて、プロジェクションを行って新たなデータベースを生成して再帰的な処理を行うか否かが決定される。
Χ 2 max (α) = max (Χ 2 (α, y = x), Χ 2 (α, y = 0))… (30)
Then, depending on whether or not the limit value satisfies a predetermined search condition, it is determined whether to perform projection to generate a new database and perform recursive processing.
[探索処理]
抽出部14の探索部14cは、判定対象のパターンに対して生成された上記の指標と限界値とを用い、判定対象のパターンを出力リストの要素とするか否か、及び、プロジェクションを行って新たなデータベースを生成して再帰的な処理を行うか否かを決定する。
[Search process]
The search unit 14c of the
(I)すなわち、第1パターンαに対して生成された指標が所定の第1出力条件(例えば、Χ2(α)>τK)を満たす場合、探索部14cが、第1パターンαを出力リストの要素として出力するとともに、指標生成部14aが、当該第1パターンαに1個以上のアイテムが付加された系列である第2パターンと、当該第2パターンを含む第2テキストを当該第2テキストが属する集合に分類した際の分類結果と、の関連性の高さを表す第2指標を生成する。そして、その後の再帰的な処理により、当該第2指標が所定の第2出力条件を満たしたのであれば、当該第2パターンが出力リストの要素として出力される。
(I) That is, when the index generated for the first pattern α satisfies a predetermined first output condition (for example, Χ 2 (α)> τ K ), the search unit 14c outputs the first pattern α. While outputting as an element of the list, the
(II)また、限界値生成部14bが、第1パターンαに対応する指標が第1出力条件を満たさないが限界値が所定の探索条件を満たすときには(例えば、Χ2(α)≦τKかつΧ2 max(α)>τK)、探索部14cが、当該第1パターンαを出力リストの要素として出力することなく、指標生成部14aが、当該第1パターンαに1個以上のアイテムが付加された系列である第3パターンと、当該第3パターンを含む第3テキストを当該第3テキストが属する集合に分類した際の分類結果と、の関連性の高さを表す第3指標を生成する。そして、その後の再帰的な処理により、当該第3指標が所定の第3出力条件を満たしたのであれば、当該第3パターンが出力リストの要素として出力される。
(II) Further, when the limit
(III)また、第1パターンαに対応する指標が第1出力条件を満たさず、限界値も所定の探索条件を満たさないときには(例えば、Χ2(α)≦τKかつΧ2 max(α)≦τK)、当該第1パターンαが出力リストの要素とされず、かつ、上記の第3指標も生成されない。 (III) When the index corresponding to the first pattern α does not satisfy the first output condition and the limit value does not satisfy the predetermined search condition (for example, Χ 2 (α) ≦ τ K and Χ 2 max (α ) ≦ τ K ), the first pattern α is not an element of the output list, and the third index is not generated.
これらの抽出部14の処理を、式(29)の指標Χ2(α)と式(30)の限界値Χ2 max(α)とを用いる場合に限定して言い換えると以下のようになる。
In other words, the processing of the
(I)Χ2(α)>τKなら、パターンαを出力リストの要素として出力するとともに、プロジェクションを行って、パターンαに1個以上のアイテムが付加された系列を新たなパターンαとし、再帰的な処理を行う。 If (I) Χ 2 (α)> τ K , the pattern α is output as an element of the output list, and projection is performed, and a sequence in which one or more items are added to the pattern α is set as a new pattern α. Perform recursive processing.
(II)Χ2(α)≦τKかつΧ2 max(α)>τKなら、パターンαを出力リストの要素とすることなくプロジェクションを行って、パターンαに1個以上のアイテムが付加された系列を新たなパターンαとし、再帰的な処理を行う。 (II) If Χ 2 (α) ≤ τ K and Χ 2 max (α)> τ K , projection is performed without using pattern α as an element of the output list, and one or more items are added to pattern α. The sequence is set as a new pattern α, and recursive processing is performed.
(III)Χ2(α)≦τKかつΧ2 max(α)≦τKなら、パターンαを出力リストの要素とせず、プロジェクションも行わず、パターンαに1個以上のアイテムが付加された系列に対する処理を行わない。 (III) If Χ 2 (α) ≦ τ K and Χ 2 max (α) ≦ τ K , pattern α is not an element of the output list, projection is not performed, and one or more items are added to pattern α Does not process the series.
[ステップS14の処理の具体例]
図5から図7は、ステップS14の処理の具体例を説明するためのフローチャートである。図8は、ステップS14の処理の具体例を説明するための擬似コードである。以下、これらの図を用いて、ステップS14の処理の具体例を説明する。
[Specific Example of Processing in Step S14]
5 to 7 are flowcharts for explaining a specific example of the process of step S14. FIG. 8 is a pseudo code for explaining a specific example of the processing in step S14. Hereinafter, a specific example of the process of step S14 will be described with reference to these drawings.
まず、抽出部14の探索部14cが、パターンαを空に設定し(α=[ ])、Rを記憶部16dに格納されたデータベースとし、閾値τK=nan(未定であることを表す値)とする(ステップS1401)。これらの値は記憶部16eに格納される。
First, the search unit 14c of the
次に、探索部14cが、Rが空集合(R={ })であるか否かを判定する(ステップS1402)。ここで、R={ }であれば処理が終了する。一方、R={ }でなければ、探索部14cが、RRを空集合(RR←{ })に設定し(ステップS1403)、αが空であるか(α=[ ])否かを判定する(ステップS1404)。 Next, the search unit 14c determines whether R is an empty set (R = {}) (step S1402). Here, if R = {}, the process ends. On the other hand, if R = {} is not set, the search unit 14c sets RR to an empty set (RR ← {}) (step S1403), and determines whether α is empty (α = []). (Step S1404).
ここでαが空であると判定された場合、探索部14cは、RRをRに設定し(RR←R)(ステップS1405)、Rが含むアイテムの集合をβ(β←itemset(R))として設定し(ステップS1406)、後述のステップS1415の処理が実行される。 If it is determined that α is empty, the search unit 14c sets RR to R (RR ← R) (step S1405), and sets a set of items included in R to β (β ← itemset (R)). (Step S1406), and the process of step S1415 described later is executed.
一方、αが空でないと判定された場合、Rが含むアイテムからなる系列のエントリtrans(trans∈R)を選択する(ステップS1408)。なお、プロジェクションが1度も実行されておらず、Rが記憶部16dに格納されたデータベースである場合、記憶部16dに格納されたデータベースが含むテキストがエントリtransに相当する。また、過去にプロジェクションが実行されている場合、テキストからそれまでのプロジェクションによって削除されたアイテムを除いた残りの系列がエントリtransに相当する。次に、探索部14cは、選択したエントリtransに対し、その先頭からアイテムαが最初に見つかった位置までを削除し、残りの系列をsubseqとして設定する処理(subseq ← postseq(last(α), trans))を実行する(ステップS1409)。次に、探索部14cは、subseqが空でないか(subseq≠[ ])否かを判定する(ステップS1410)。ここで、subseqが空でないならば、探索部14cは、RRにsubseqをエントリとして追加したものを新たなRR(RR←append(RR, subseq))として設定し(ステップS1411)、ステップS1412の処理を実行する。一方、subseqが空であるならば、探索部14cは、ステップS1411の処理を実行することなく、ステップS1412の処理を実行する。ステップS1412の処理では、探索部14cが、すべてのエントリtrans∈Rについて処理が終了したか否かを判定する(ステップS1412)。ここで、すべてのエントリtrans∈Rについて処理が終了していないと判定されたのであれば、処理がステップS1408に戻される。一方、すべてのエントリtrans∈Rについて処理が終了したと判定されたのであれば、探索部14cは、RRが含むアイテムの集合をβ(β←itemset(RR))として設定し(ステップS1413)、ステップS1415の処理が実行される。なお、ステップS1408からS1413までの処理がプロジェクションに相当する。
On the other hand, if it is determined that α is not empty, a sequence entry trans (transεR) including items included in R is selected (step S1408). When the projection has never been executed and R is a database stored in the
ステップS1415の処理では、探索部14cがβに属するアイテム(item∈β)を選択する(ステップS1415)。次に、探索部14cが、αの最後にステップS1415で選択されたアイテムitemを付加した系列を新たなパターンα(α←append(α,[item]))として生成する(ステップS1416)。次に、探索部14cが出力リストLに属するパターンの要素数|L|が、記憶部16eに格納されたパラメータK未満であるか(|L|<K)否かを判定する(ステップS1417)。ここで、|L|<Kであると判定された場合、指標生成部14aが、パターンαに対する指標Χ2(α)を式(29)にしたがって生成し、探索部14cが、パターンαと指標Χ2(α)との組[α, Χ2(α)]を出力リストLの要素として加え、出力リストLを更新する。更新された出力リストL(L←append(L, [α, Χ2(α)]))は記憶部16eに格納される(ステップS1418)。次に、探索部14cが、出力リストLに属するパターンの要素数|L|が、記憶部16eに格納されたパラメータKと同値であるか(|L|=K)否かを判定する(ステップS1419)。|L|=Kでないと判定された場合、後述するステップS1422の処理が実行される。一方、|L|=Kであると判定された場合、探索部14cが、出力リストLの要素[α, Χ2(α)]を指標Χ2(α)が大きい順に並び替えたものを新たな出力リストL(L=sort(L))とし、記憶部16eに格納する(ステップS1420)。次に、探索部14cが、出力リストLのK番目の要素の指標(最も小さな値の指標)を閾値τK(τK=Χ2(L[K]))とし、閾値τKを更新して記憶部16eに格納し(ステップS1421)、次のステップS1422の処理が実行される。
In the process of step S1415, the search unit 14c selects an item (itemεβ) belonging to β (step S1415). Next, the search unit 14c generates a sequence in which the item item selected in step S1415 is added to the end of α as a new pattern α (α ← append (α, [item])) (step S1416). Next, the search unit 14c determines whether the number of elements | L | of the patterns belonging to the output list L is less than the parameter K stored in the storage unit 16e (| L | <K) (step S1417). . If it is determined that | L | <K, the
ステップS1422の処理では、抽出部14が、現在の(α,RR, K)に対し、ステップS1402からS1431までの処理(call WTPS(α,RR, K))を再帰的に実行する(ステップS1422)。その後、後述するステップS1431の処理が実行される。
In the process of step S1422, the
一方、ステップS1418で、|L|<Kでないと判定された場合、指標生成部14aが、パターンαに対する指標Χ2(α)を式(29)にしたがって生成して記憶部16eに格納し、探索部14cが、記憶部16eに格納された閾値τKを用い、Χ2(α)>τKを満たすか否かを判定する(ステップS1423)。なお、閾値が未定である場合(τK=nan)には、Χ2(α)>τKを満たさないものとする。ここで、Χ2(α)>τKを満たすと判定された場合には、探索部14cが、記憶部16eに格納された出力リストLの最後の要素(最も指標Χ2(α)の値が小さな要素)を削除し、残りの要素からなる新たな出力リストL(L=lastdel(L))を生成し、記憶部16eに格納する(ステップS1424)。次に、探索部14cが、パターンαと指標Χ2(α)との組[α, Χ2(α)]を出力リストLの要素として加え、出力リストLを更新する。更新された出力リストL(L←append(L, [α, Χ2(α)]))を記憶部16eに格納される(ステップS1425)。次に、探索部14cが、この出力リストLの要素[α, Χ2(α)]を指標Χ2(α)が大きい順に並び替えたものを新たな出力リストL(L=sort(L))とし、記憶部16eに格納する(ステップS1426)。次に、探索部14cが、出力リストLのK番目の要素の指標(最も小さな値の指標)を閾値τK(τK=Χ2(L[K]))とし、閾値τKを更新して記憶部16eに格納する(ステップS1427)。次に、抽出部14が、現在の(α,RR, K)に対し、ステップS1402からS1431までの処理(call WTPS(α,RR, K))を再帰的に実行する(ステップS1428)。その後、後述するステップS1431の処理が実行される。
On the other hand, if it is determined in step S1418 that | L | <K is not satisfied, the
一方、ステップS1423の判定で、Χ2(α)>τKを満たさないと判定された場合には、限界値生成部14bが、パターンαに対する限界値Χ2 max(α)を式(30)に従って生成して記憶部16eに格納し、探索部14cが、記憶部16eに格納された閾値τKを用い、Χ2 max(α)>τKを満たすか否かを判定する(ステップS1429)。ここで、Χ2 max(α)>τKを満たすと判定された場合、抽出部14が、現在の(α,RR, K)に対してステップS1402からS1431までの処理(call WTPS(α,RR, K))を再帰的に実行する(ステップS1430)。その後、以下のステップS1431の処理が実行される。一方、Χ2 max(α)>τKを満たさないと判定された場合、ステップS1430の処理が実行されることなく、ステップS1431の処理が実行される。
On the other hand, if it is determined in step S1423 that Χ 2 (α)> τ K is not satisfied, the limit
ステップS1431の処理では、探索部14cが、すべてのアイテムitem∈βについて処理が終了したか否かを判定する(ステップS1431)。ここで、すべてのアイテムitem∈βについて処理が終了していれば、ステップS14の処理が終了となる。一方、すべてのアイテムitem∈βについて処理が終了していなければ、処理がステップS1415に戻される。 In the process of step S1431, the search unit 14c determines whether the process has been completed for all items itemεβ (step S1431). Here, if the processing is completed for all items itemεβ, the processing in step S14 is completed. On the other hand, if the process has not been completed for all items itemεβ, the process returns to step S1415.
[ステップS14の実施例]
図9から図11は、ステップS14の実施例を説明するための図である。以下に、これらの図を用いながら、ステップS14の実施例を説明する。なお、この実施例では、記憶部16dに格納される初期のデータベースとして図3のデータベース(減衰パラメータλ=0.5が乗じられたもの)を用いる。また、K=4, λ=0.5とする。また、M=1.8, N=3.5であり、これらは初期のデータベースにおける定数である。また、図10及び図11に示す木構造の各ノードのアイテムa,b,c,dの右上添字は、その木のルートのアイテムからノードのアイテムまでの系列からなるパターンαの指標Χ2(α)であり、右下添字はそのパターンαの限界値Χ2 max(α)を表す。また、図10及び図11に示すxは、パターンαの最後にβの要素であるアイテムitemを付加した系列を新たなパターンα(α←append(α,[item]))とし、当該新たなパターンαについて、式(28)にしたがって生成されたx(α)を表す。また、図10及び図11に示すyは、パターンαの最後にβの要素であるアイテムitemを付加した系列を新たなパターンα(α←append(α,[item]))とし、当該新たなパターンαについて、式(27)にしたがって生成されたy(α)を表す。
[Example of Step S14]
9 to 11 are diagrams for explaining the embodiment of step S14. Hereinafter, an example of step S14 will be described with reference to these drawings. In this embodiment, the database shown in FIG. 3 (multiplied by the attenuation parameter λ = 0.5) is used as the initial database stored in the
1. まず、α=[ ], RR←R, β={a,b,c,d}とされる(ステップS1401〜S1406/図10(A))。 1. First, α = [], RR ← R, β = {a, b, c, d} are set (steps S1401 to S1406 / FIG. 10A).
2. 次に、α=aとされる(ステップS1415,S1416)。|L|<K(k=4)であるから、aと指標Χ2(a)=0との組[a, 0]が出力リストLの要素に追加される(ステップS1417,S1418/図9(A))。なお、この時点では閾値τK=nanである。さらに、プロジェクションが行われ(ステップS1422)、その再帰的処理(call WTPS(α,RR, K)/ステップS1402〜S1431)の中でβ={b,c,d}とされる(図10(B))。 2. Next, α = a is set (steps S1415 and S1416). Since | L | <K (k = 4), a pair [a, 0] of a and index Χ 2 (a) = 0 is added to the elements of the output list L (steps S1417, S1418 / FIG. 9). (A)). At this time, the threshold τ K = nan. Further, projection is performed (step S1422), and β = {b, c, d} is set in the recursive processing (call WTPS (α, RR, K) / steps S1402 to S1431) (FIG. 10 ( B)).
3. 2の再帰的処理の中で、α=a bとされる(ステップS1415,S1416/図10(B))。|L|<K(k=4)であるから、a bと指標Χ2(a b)=0.5との組[a b, 0.5]が出力リストLの要素に追加される(ステップS1417,S1418/図9(B))。なお、この時点では閾値τK=nanである。さらに、プロジェクションが行われ(ステップS1422)、その再帰的処理の中でβ={c,d}とされる(図10(B))。 In the recursive processing of 3.2, α = ab is set (steps S1415 and S1416 / FIG. 10B). Since | L | <K (k = 4), a set [ab, 0.5] of ab and index Χ 2 (ab) = 0.5 is added to the elements of the output list L (steps S1417, S1418 / FIG. 9). (B)). At this time, the threshold τ K = nan. Further, projection is performed (step S1422), and β = {c, d} is set in the recursive process (FIG. 10B).
4. 3の再帰的処理の中で、β={c, d}のうちcがitemとして選択され、α=a b cとされる(ステップS1415,S1416/図10(B))。|L|<K(k=4)であるから、a b cと指標Χ2(a b c)=1.3との組[a b c, 1.3]が出力リストLの要素に追加される(ステップS1417,S1418/図9(C))。なお、この時点では閾値τK=nanである。さらに、プロジェクションが行われ(ステップS1422)、その再帰的処理の中でβ={c}とされる(図10(B))。 In the recursive process of 4.3, c of β = {c, d} is selected as item, and α = abc is set (steps S1415, S1416 / FIG. 10B). Since | L | <K (k = 4), a pair [abc, 1.3] of abc and index Χ 2 (abc) = 1.3 is added to the elements of the output list L (steps S1417, S1418 / FIG. 9). (C)). At this time, the threshold τ K = nan. Further, projection is performed (step S1422), and β = {c} is set in the recursive processing (FIG. 10B).
5. 4の再帰的処理の中で、α=a b c cとされる(ステップS1415,S1416/図10(B))。|L|<K(k=4)であるから、a b c cと指標Χ2(a b c c)=1.3との組[a b c c, 1.3]が出力リストLの要素に追加される(ステップS1417,S1418)。 5. In the recursive processing of 4, α = abcc is set (steps S1415, S1416 / FIG. 10B). Since | L | <K (k = 4), a pair [abcc, 1.3] of abcc and the index Χ 2 (abcc) = 1.3 is added to the elements of the output list L (steps S1417 and S1418).
6. 4の再帰的処理の中で、|L|=K(k=4)となったため、出力リストLの要素を指標Χ2(α)に基づいて並び替え、閾値τK=0が得られる(ステップS1419〜S1421/図9(D))。 6. Since | L | = K (k = 4) in the recursive processing of 4, the elements of the output list L are rearranged based on the index Χ 2 (α), and the threshold τ K = 0 is obtained. (Steps S1419 to S1421 / FIG. 9D).
7. これ以上のプロジェクションが不可能なので(4の再帰的処理のステップS1431でyesとなるので)4の再帰的処理が終了し、3の再帰的処理に戻る。ここでは、α=a b, β={c, d}であるが、β={c, d}のうちcについては処理済みである。 7. Since no more projections are possible (yes in step S1431 of 4 recursive processing), 4 recursive processing ends, and 3 recursive processing returns. Here, α = a b, β = {c, d}, but c of β = {c, d} has been processed.
8. 3の再帰的処理の中で、β={c, d}のうちdがitemとして選択され、α=a b dとされる(ステップ1415,S1416/図10(B))。|L|<K(k=4)でなく(ステップS1417)、α=a b dに対する指標Χ2(a b d)=0.2が閾値τK=0を超えるため(ステップS1423)、出力リストLから[a, 0]が削除され、a b dと指標Χ2(a b d)=0.2との組[a b d, 0.2]が出力リストLの要素に追加され、出力リストLの要素が並び替えられて、閾値がτK=0.2に更新される(ステップS1424〜S1427/図9(E))。
In the recursive process of 8.3, d is selected as item out of β = {c, d}, and α = abd is set (
9. これ以上のプロジェクションが不可能なので(3の再帰的処理のステップS1431でyesとなるので)、3の再帰的処理が終了し、2の再帰的処理に戻る。ここでは、α=a, β={b, c, d}であるが、β={b, c, d}のうちbについては処理済みである(図10(B))。 9. Since no more projection is possible (yes in step S1431 of the 3 recursive process), the 3 recursive process ends and the process returns to the 2 recursive process. Here, α = a, β = {b, c, d}, but b of β = {b, c, d} has been processed (FIG. 10B).
10. 2の再帰的処理の中で、β={b, c, d}のうちcがitemとして選択され、α=a cとされる(ステップ1415,S1416/図10(B))。|L|<K(k=4)でなく(ステップS1417)、α=a cに対する指標Χ2(a c)=2.1が閾値τK=0.2を超えるため(ステップS1423)、出力リストLから[a b d, 0.2]が削除され、a cと指標Χ2(a c)=2.1との組[a c, 2.1]が出力リストLの要素に追加され、出力リストLの要素が並び替えられて、閾値がτK=0.5に更新される(ステップS1424〜S1427/図9(F))。さらに、プロジェクションが行われ(ステップS1428)、その再帰的処理の中でβ={c}とされる(図10(B))。
In the recursive processing of 10.2, c is selected as item out of β = {b, c, d}, and α = ac is set (
11. 10の再帰的処理の中で、β={c}のうちcがitemとして選択され、α=a c cとされる(ステップ1415,S1416/図10(B))。|L|<K(k=4)でなく(ステップS1417)、α=a c cに対する指標Χ2(a c c)=1.3が閾値τK=0.5を超えるため(ステップS1423)、出力リストLから[a b, 0.5]が削除され、a c cと指標Χ2(a c c)=1.3との組[a c, 2.1]が出力リストLの要素に追加され、出力リストLの要素が並び替えられて、閾値がτK=1.3に更新される(ステップS1424〜S1427/図9(G))。
11. In 10 recursive processes, c of β = {c} is selected as item, and α = acc is set (
12. これ以上のプロジェクションが不可能なので(10の再帰的処理のステップS1431でyesとなるので)、10の再帰的処理が終了し、2の再帰的処理に戻る。ここでは、α=a, β={b, c, d}であるが、β={b, c, d}のうちb, cについては処理済みである(図10(B))。 12. Since no more projection is possible (yes in step S1431 of the 10 recursive process), the 10 recursive process ends and the process returns to the 2 recursive process. Here, α = a, β = {b, c, d}, but b and c of β = {b, c, d} have been processed (FIG. 10B).
13. 2の再帰的処理の中で、β={b, c, d}のうちdがitemとして選択され、α=a dとされる(ステップ1415,S1416/図10(B))。|L|<K(k=4)でなく(ステップS1417)、α=a dに対する指標Χ2(a d)=0.2も限界値Χ2 max(a d)=0.5も閾値τK=1.3を越えず(ステップS1423,S1429)、β={b, c, d}のすべての要素が処理済であるため(ステップS1431)、2の再帰的処理が終了し、最初のループ処理に戻る。最初のループ処理では、α=[ ], β={a,b,c,d}であるが、β={a,b,c,d}のうちaについては処理済みである。
In the recursive processing of 13.2, d is selected as item out of β = {b, c, d}, and α = ad is set (
14. 最初のループ処理の中で、β={a,b,c,d}のうちbがitemとして選択され、α=bとされる(ステップ1415,S1416/図10(C))。|L|<K(k=4)でなく(ステップS1417)、α=bに対する指標Χ2(b)=0は閾値τK=1.3を越えないが(ステップS1423)、限界値Χ2 max(b)=2.7が閾値τK=1.3を超えるため(ステップS1429)、プロジェクションが行われ(ステップS1430)、その再帰的処理の中でβ={a,c,d}とされる(図10(C))。
14. In the first loop processing, b is selected as item among β = {a, b, c, d}, and α = b is set (
15. 14の再帰的処理の中で、β={a,c,d}のうちaがitemとして選択され、α=b aとされる(ステップ1415,S1416/図10(C))。|L|<K(k=4)でなく(ステップS1417)、α=b a対する指標Χ2(b a)=0.5は閾値τK=1.3を越えないが(ステップS1423)、限界値Χ2 max(b a)=1.6が閾値τK=1.3を超えるため(ステップS1429)、プロジェクションが行われ(ステップS1430)、その再帰的処理の中でβ={c}とされる(図10(C))。
15. Among 14 recursive processes, a is selected as item out of β = {a, c, d}, and α = ba is set (
16. 15の再帰的処理の中で、β={c}のうちcがitemとして選択され、α=b a cとされる(ステップ1415,S1416/図10(C))。|L|<K(k=4)でなく(ステップS1417)、α=b a cに対する指標Χ2(b a c)=0.3も限界値Χ2 max(b a c)=0.5も閾値τK=1.3を越えず(ステップS1423,S1429)、β={c}のすべての要素が処理済であるため(ステップS1431)、15の再帰的処理が終了し、14の再帰的処理に戻る。14の再帰的処理ではβ={a,c,d}であるが、β={a,c,d}のうちaについては処理済みである。
16. In 15 recursive processing, c is selected as item from β = {c}, and α = bac is set (
17. 14の再帰的処理の中で、β={a,c,d}のうちcがitemとして選択され、α=b cとされる(ステップ1415,S1416/図10(C))。|L|<K(k=4)でなく(ステップS1417)、α=b c対する指標Χ2(b c)=0.2は閾値τK=1.3を越えないが(ステップS1423)、限界値Χ2 max(b c)=2.3が閾値τK=1.3を超えるため(ステップS1429)、プロジェクションが行われ(ステップS1430)、その再帰的処理の中でβ={a,c}とされる(図10(C))。
17. Among 14 recursive processes, c is selected as item among β = {a, c, d}, and α = bc is set (
18. 17の再帰的処理の中で、β={a,c}のうちaがitemとして選択され、α=b c aとされる(ステップ1415,S1416/図10(C))。|L|<K(k=4)でなく(ステップS1417)、α=b c aに対する指標Χ2(b c a)=1.5が閾値τK=1.3を超えるため(ステップS1423)、出力リストLから[a c c, 1.3]が削除され、b c aと指標Χ2(b c a)=1.5との組[b c a, 1.5]が出力リストLの要素に追加され、出力リストLの要素が並び替えられて、閾値がτK=1.3とされる(ステップS1424〜S1427/図9(H))。
18. In 17 recursive processing, a of β = {a, c} is selected as item, and α = bca is set (
19. これ以上のプロジェクションが不可能なので、17の再帰的処理の中で、β={a,c}のうちcがitemとして選択され、α=b c cとされる(ステップ1415,S1416/図10(C))。|L|<K(k=4)でなく(ステップS1417)、α=b c cに対する指標Χ2(b c c)=1.3が閾値τK=1.3も限界値Χ2 max(b c c)=1.3も閾値τK=1.3を超えず(ステップS1423,S1429)、ステップS1431の判定でyesとされるため、17の再帰的処理が終了し、14の再帰的処理に戻る。14の再帰的処理ではβ={a,c,d}であるが、β={a,c,d}のうちa,cについては処理済みである。
19. Since no more projections are possible, in 17 recursive processes, c of β = {a, c} is selected as item and α = bcc is set (
20. 14の再帰的処理の中で、β={a,c,d}のうちdがitemとして選択され、α=b dとされる(ステップ1415,S1416/図10(C))。|L|<K(k=4)でなく(ステップS1417)、α=b d対する指標Χ2(b d)=0.2も限界値Χ2 max(b d)=0.5も閾値τK=1.3を超えず、(ステップS1423,S1429)、ステップS1431の判定でyesとされるため、14の再帰的処理が終了し、最初のループ処理に戻る。最初のループ処理では、β={a,b,c,d}であるが、β={a,b,c,d}のうちa,bについては処理済みである。
20. In 14 recursive processes, d is selected as item out of β = {a, c, d}, and α = bd is set (
21. 最初のループ処理の中で、β={a,b,c,d}のうちcがitemとして選択され、α=cとされる(ステップ1415,S1416/図11(A))。|L|<K(k=4)でなく(ステップS1417)、α=cに対する指標Χ2(c)=0.2は閾値τK=1.3を越えないが(ステップS1423)、限界値Χ2 max(b)=3.1が閾値τK=1.3を超えるため(ステップS1429)、プロジェクションが行われ(ステップS1430)、その再帰的処理の中でβ={a,c}とされる(図11(A))。
21. In the first loop process, c is selected as item among β = {a, b, c, d}, and α = c is set (
22. 21の再帰的処理の中で、β={a,c}のうちaがitemとして選択され、α=c aとされる(ステップ1415,S1416/図11(A))。|L|<K(k=4)でなく(ステップS1417)、α=c aに対する指標Χ2(c a)=1.5が閾値τK=1.3を超えるため(ステップS1423)、出力リストLから[a b c c, 1.3]が削除され、c aと指標Χ2(c a)=1.5との組[c a, 1.5]が出力リストLの要素に追加され、出力リストLの要素が並び替えられて、閾値がτK=1.3とされる(ステップS1424〜S1427/図9(I))。
22. In 21 recursive processing, a of β = {a, c} is selected as item, and α = ca is set (
23. これ以上のプロジェクションが不可能なので、21の再帰的処理の中で、β={a,c}のうちcがitemとして選択され、α=c cとされる(ステップ1415,S1416/図11(A))。|L|<K(k=4)でなく(ステップS1417)、α=c cに対する指標Χ2(c c)=1.3が閾値τK=1.3も限界値Χ2 max(c c)=1.3も閾値τK=1.3を超えず(ステップS1423,S1429)、ステップS1431の判定でyesとされるため、21の再帰的処理が終了し、最初のループ処理に戻る。最初のループ処理では、β={a,b,c,d}であるが、β={a,b,c,d}のうちa,b,cについては処理済みである。
23. Since no more projections are possible, c is selected as item among β = {a, c} in 21 recursive processes, and α = cc is set (
24. 最初のループ処理の中で、β={a,b,c,d}のうちdがitemとして選択され、α=dとされる(ステップ1415,S1416/図11(B))。|L|<K(k=4)でなく(ステップS1417)、α=dに対する指標Χ2(d)=2.1は閾値τK=1.3を越えるため(ステップS1423)、出力リストLから[a b c, 1.3]が削除され、dと指標Χ2(d)=2.1との組[d, 2.1]が出力リストLの要素に追加され、出力リストLの要素が並び替えられて、閾値がτK=1.5とされる(ステップS1424〜S1427/図9(J))。さらに、プロジェクションが行われ(ステップS1428)、その再帰的処理の中でβ={a,b,c,d}とされる(図11(B))。
24. In the first loop processing, d is selected as item out of β = {a, b, c, d}, and α = d is set (
25. 24の再帰的処理の中で、β={a,b,c,d}のうちaがitemとして選択され、α=d aとされる(ステップ1415,S1416/図11(B))。|L|<K(k=4)でなく(ステップS1417)、α=d aに対する指標Χ2(d a)=2.1が閾値τK=1.5を超えるため(ステップS1423)、出力リストLから[c a, 1.5]が削除され、d aと指標Χ2(d a)=2.1との組[d a, 2.1]が出力リストLの要素に追加され、出力リストLの要素が並び替えられて、閾値がτK=1.5とされる(ステップS1424〜S1427/図9(K))。さらに、プロジェクションが行われ(ステップS1428)、その再帰的処理の中でβ={b,d}とされる(図11(B))。
25. In the recursive process of 24, a is selected as item out of β = {a, b, c, d}, and α = da is set (
26. 25の再帰的処理の中で、β={b,d}のうちbがitemとして選択され、α=d a bとされる(ステップ1415,S1416/図11(B))。|L|<K(k=4)でなく(ステップS1417)、α=d a bに対する指標Χ2(d a b)=0.2も限界値Χ2 max(d a b)=0.5も閾値τK=1.5を越えない(ステップS1423,S1429)。
26. In the recursive processing of 25, b is selected as item out of β = {b, d}, and α = dab is set (
27. 次に、25の再帰的処理の中で、β={b,d}のうちdがitemとして選択され、α=d a dとされる(ステップ1415,S1416/図11(B))。|L|<K(k=4)でなく(ステップS1417)、α=d a dに対する指標Χ2(d a d)=0.2も限界値Χ2 max(d a d)=0.5も閾値τK=1.5を越えず(ステップS1423,S1429)、β={b,d}のすべての要素が処理済であるため(ステップS1431)、25の再帰的処理が終了し、24の再帰的処理に戻る。24の再帰的処理では、β={a,b,c,d}であるが、β={a,b,c,d}のうちaについては処理済みである。
27. Next, in 25 recursive processes, d is selected as item out of β = {b, d}, and α = dad is set (
28. 24の再帰的処理の中で、β={a,b,c,d}のうちbがitemとして選択され、α=d bとされる(ステップ1415,S1416/図11(B))。|L|<K(k=4)でなく(ステップS1417)、α=d bに対する指標Χ2(d b)=2.1が閾値τK=1.5を超えるため(ステップS1423)、出力リストLから[b c a, 1.5]が削除され、d bと指標Χ2(d b)=2.1との組[d b, 2.1]が出力リストLの要素に追加され、出力リストLの要素が並び替えられて、閾値がτK=2.1とされる(ステップS1424〜S1427/図9(L))。さらに、プロジェクションが行われ(ステップS1428)、その再帰的処理の中でβ={a,c,d}とされる(図11(B))。
28. In the recursive processing of 24, b is selected as item among β = {a, b, c, d}, and α = db is set (
29. 28の再帰的処理の中で、β={a,c,d}のうちaがitemとして選択され、α=d b aとされる(ステップ1415,S1416/図11(B))。|L|<K(k=4)でなく(ステップS1417)、α=d b aに対する指標Χ2(d b a)=1.5も限界値Χ2 max(d b a)=1.5も閾値τK=2.1を越えない(ステップS1423,S1429)。
29. In the recursive processing of 28, a is selected as item among β = {a, c, d}, and α = dba is set (
30. 28の再帰的処理の中で、β={a,c,d}のうちcがitemとして選択され、α=d b cとされる(ステップ1415,S1416/図11(B))。|L|<K(k=4)でなく(ステップS1417)、α=d b cに対する指標Χ2(d b c)=1.5も限界値Χ2 max(d b a)=1.5も閾値τK=2.1を越えない(ステップS1423,S1429)。
30. In the recursive processing of 28, c is selected as item among β = {a, c, d}, and α = dbc is set (
31. 28の再帰的処理の中で、β={a,c,d}のうちdがitemとして選択され、α=d b dとされる(ステップ1415,S1416/図11(B))。|L|<K(k=4)でなく(ステップS1417)、α=d b dに対する指標Χ2(d b d)=0.5も限界値Χ2 max(d b d)=0.2も閾値τK=2.1を越えない(ステップS1423,S1429)。28の再帰的処理のステップS1431の判定でyesとされるため、28の再帰的処理が終了し、24の再帰的処理に戻る。24の再帰的処理では、β={a,b,c,d}であるが、β={a,b,c,d}のうちa,bについては処理済みである。
31. In the recursive processing of 28, d is selected as item out of β = {a, c, d}, and α = dbd is set (
32. 24の再帰的処理の中で、β={a,b,c,d}のうちcがitemとして選択され、α=d cとされる(ステップ1415,S1416/図11(B))。|L|<K(k=4)でなく(ステップS1417)、α=d cに対する指標Χ2(d c)=1.5も限界値Χ2 max(d c)=1.5も閾値τK=2.1を越えない(ステップS1423,S1429)。
32. In the recursive processing of 24, c is selected as item out of β = {a, b, c, d}, and α = dc is set (
33. 24の再帰的処理の中で、β={a,b,c,d}のうちdがitemとして選択され、α=d dとされる(ステップ1415,S1416/図11(B))。|L|<K(k=4)でなく(ステップS1417)、α=d dに対する指標Χ2(d d)=0.2も限界値Χ2 max(d d)=0.5も閾値τK=2.1を越えない(ステップS1423,S1429)。24の再帰的処理のステップS1431の判定でyesとされるため24の再帰的処理が終了し、最初のループ処理に戻る。
33. In the recursive process of 24, d is selected as item out of β = {a, b, c, d}, and α = dd is set (
34. 最初のループ処理のステップS1431の判定でyesとされるためステップS14の処理が終了し、記憶部16eに格納された出力リストLが出力される。 34. Since the determination in step S1431 of the first loop processing is yes, the processing in step S14 ends, and the output list L stored in the storage unit 16e is output.
〔変形例など〕
なお、本発明は上述の実施の形態に限定されるものではない。例えば、上記の実施形態では、ステップS13でラベルありデータと確率データ付きデータとを合成したデータベースを生成する際、確率データ付きデータが含む確率Pr(P+|x),Pr(P-|x)に減衰パラメータλが乗じられた。しかし、減衰パラメータλが乗じられない構成であってもよい。また逆に、ラベルありデータのラベル値(1 or 2)に)に増幅パラメータρ(ρ≧1、好ましくはρ>1)が乗じられてもよい。また、減衰パラメータλと増幅パラメータρの両方が乗じられてもよい。
[Modifications, etc.]
The present invention is not limited to the embodiment described above. For example, in the above embodiment, when generating a database that combines the labeled data and the data with probability data in step S13, the probabilities Pr (P + | x) and Pr (P − | x) included in the data with probability data are generated. ) Is multiplied by the attenuation parameter λ. However, a configuration in which the attenuation parameter λ is not multiplied may be used. Conversely, the label value (1 or 2) of the labeled data may be multiplied by an amplification parameter ρ (ρ ≧ 1, preferably ρ> 1). Further, both the attenuation parameter λ and the amplification parameter ρ may be multiplied.
また、式(25)-(28)の代わりに以下の式(31)-(34)が用いられてもよい。 Further, the following formulas (31) to (34) may be used instead of the formulas (25) to (28).
N=ρ・|DL|+|DU| …(31) N = ρ ・ | D L | + | D U |… (31)
N=ρ・|DL|+λ・|DU| …(35) N = ρ ・ | D L | + λ ・ | D U |… (35)
また、上述の実施形態では、Χ2(α)そのものを指標として用いた。しかし、その他のΧ2(α)の広義単調関数値(単調非減少関数値)に相当する値を指標としてもよい。なお、Χ2(α)の広義単調関数値に相当する値は、Χ2(α)そのものをも含む概念である。例えば、Χ2(α)の広義単調増加関数値に相当する値を指標とするのであれば、指標の値が大きいパターンαほどラベル分類に寄与する度合いが大きいといえる。また、例えば、Χ2(α)の広義単調減少関数値に相当する値を指標とするのであれば、指標の値が小さいパターンαほどラベル分類に寄与する度合いが大きいといえる。その他、パターンαと、パターンαを含むテキストを当該テキストが属する集合に分類した際の分類結果との関連性の高さを表す凸関数値を指標としてもよい。 In the above-described embodiment, Χ 2 (α) itself is used as an index. However, other values corresponding to the broad monotonic function value (monotonic non-decreasing function value) of Χ 2 (α) may be used as an index. The value corresponding to the weakly monotonically function value of chi 2 (alpha) is a concept including a chi 2 (alpha) itself. For example, if the value corresponding to the broad monotone increasing function value of Χ 2 (α) is used as an index, it can be said that the pattern α having a larger index value contributes more to the label classification. Further, for example, if a value corresponding to a broad-sense monotone decreasing function value of Χ 2 (α) is used as an index, it can be said that a pattern α having a smaller index value has a higher degree of contribution to label classification. In addition, a convex function value indicating the degree of relevance between the pattern α and the classification result when the text including the pattern α is classified into a set to which the text belongs may be used as an index.
同様に、上述の実施形態では、Χ2 max(α)そのものを指標として用いた。しかし、その他のΧ2 max(α)の広義単調関数値に相当する値を指標としてもよい。なお、Χ2 max(α)の広義単調関数値に相当する値は、Χ2 max(α)そのものをも含む概念である。 Similarly, in the above-described embodiment, Χ 2 max (α) itself is used as an index. However, other values corresponding to broad monotone function values of Χ 2 max (α) may be used as an index. The value corresponding to the weakly monotonically function value of Χ 2 max (α) is a concept including a Χ 2 max (α) itself.
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。 In addition, the various processes described above are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary. Needless to say, other modifications are possible without departing from the spirit of the present invention.
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。 Further, when the above-described configuration is realized by a computer, processing contents of functions that each device should have are described by a program. The processing functions are realized on the computer by executing the program on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
1 パターン抽出装置
11 訓練部
12 分類部
13 データベース合成部
14 抽出部
15 制御部
16a〜16e 記憶部
DESCRIPTION OF
Claims (10)
前記ラベルありテキストが訓練データとして用いられて生成された統計モデルであって、なおかつ、適用された任意のテキストが所定の集合に属する確率を表す確率データを出力するように構成された分類モデルを、前記ラベルなしテキストに適用し、当該ラベルなしテキストが前記所定の集合に属する確率を表す確率データを生成する分類部と、
前記分類部で生成された前記確率データから定まる値を用い、任意の前記パターンである第1パターンと、当該第1パターンを含むテキストを当該テキストが属する集合に分類した際の分類結果と、の関連性の高さを表す指標を生成する抽出部と、
を有するパターン抽出装置。 Data that represents a set to which a text belongs, with an element consisting of one or more symbols as an item, a series of one or more items as text, a series of one or more items included in the text as a pattern, A storage unit that stores the unlabeled text when the text associated with a certain label is labeled text and the text that is not associated with the label is unlabeled text;
A statistical model generated by using the labeled text as training data, and a classification model configured to output probability data representing a probability that an applied arbitrary text belongs to a predetermined set. Applying to the unlabeled text and generating probability data representing the probability that the unlabeled text belongs to the predetermined set;
Using a value determined from the probability data generated by the classification unit, a first pattern that is an arbitrary pattern, and a classification result when the text including the first pattern is classified into a set to which the text belongs. An extractor for generating an index representing the degree of relevance;
A pattern extraction apparatus having:
前記抽出部は、
前記指標が所定の第1出力条件を満たすときに、前記第1パターンを出力リストの要素として出力するとともに、当該第1パターンに1個以上のアイテムが付加された系列である第2パターンと、当該第2パターンを含む第2テキストを当該第2テキストが属する集合に分類した際の分類結果と、の関連性の高さを表す第2指標を生成し、当該第2指標が所定の第2出力条件を満たすときに、当該第2パターンを出力リストの要素として出力するように構成される、
ことを特徴とするパターン抽出装置。 The pattern extraction device according to claim 1,
The extraction unit includes:
When the index satisfies a predetermined first output condition, the first pattern is output as an element of an output list, and a second pattern is a series in which one or more items are added to the first pattern; A second index indicating the level of relevance between the second text including the second pattern and the classification result when the second text is classified into the set to which the second text belongs is generated, and the second index is a predetermined second When the output condition is satisfied, the second pattern is configured to be output as an element of the output list.
A pattern extraction apparatus characterized by that.
前記抽出部は、
前記第1パターンに1個以上のアイテムが付加された任意の系列である任意パターンと、当該任意パターンを含む任意のテキストを当該テキストが属する集合に分類した際の分類結果と、の関連性の高さを表す指標の限界値を生成し、前記指標が前記第1出力条件を満たさないが前記限界値が所定の探索条件を満たすときに、当該第1パターンを出力リストの要素として出力することなく、当該第1パターンに1個以上のアイテムが付加された系列である第3パターンと、当該第3パターンを含む第3テキストを当該第3テキストが属する集合に分類した際の分類結果と、の関連性の高さを表す第3指標を生成し、当該第3指標が所定の第3出力条件を満たすときに、当該第3パターンを出力リストの要素として出力するように構成される、
ことを特徴とするパターン抽出装置。 The pattern extraction device according to claim 2,
The extraction unit includes:
The relationship between an arbitrary pattern that is an arbitrary sequence in which one or more items are added to the first pattern, and a classification result when the arbitrary text including the arbitrary pattern is classified into a set to which the text belongs. Generating a limit value of an index representing height, and outputting the first pattern as an element of an output list when the index does not satisfy the first output condition but the limit value satisfies a predetermined search condition A third pattern that is a series in which one or more items are added to the first pattern, and a classification result when the third text including the third pattern is classified into a set to which the third text belongs, Generating a third index representing the degree of relevance of the third pattern, and outputting the third pattern as an element of the output list when the third index satisfies a predetermined third output condition;
A pattern extraction apparatus characterized by that.
前記確率データから定まる値は、当該確率データと所定の減衰パラメータとの積である、
ことを特徴とするパターン抽出装置。 The pattern extraction device according to any one of claims 1 to 3,
The value determined from the probability data is a product of the probability data and a predetermined attenuation parameter.
A pattern extraction apparatus characterized by that.
前記指標は、
|DL|個(|DL|≧0)の前記ラベルありテキストと、前記確率データがそれぞれ生成された|DU|個(|DU|>0)の前記ラベルなしテキストと、を含むデータベースに対して生成され、
前記第1パターンをαとし、
前記データベースが含む前記ラベルありテキストの総数|DL|から定まる値と、前記データベースが含む前記ラベルなしテキストの総数|DU|から定まる値と、の和をNとし、
前記データベースが含むラベルありテキストのうち前記所定の集合に属することを表すラベルに対応付けられたものの総数から定まる値と、前記分類部で生成された前記確率データから定まる値の総数と、の和をMとし、
前記データベースが含むラベルありテキストであって前記所定の集合に属することを表すラベルに対応付けられたラベルありテキストのうち前記第1パターンαを含むものの総数から定まる値と、前記第1パターンαを含むラベルなしテキストが前記所定の集合に属する確率を表す確率データから定まる値の総数と、の和をy(α)とし、
前記第1パターンαを含むラベルありテキストの総数から定まる値と、前記第1パターンαを含むラベルなしテキストの総数から定まる値と、の和をx(α)とした場合における、
ことを特徴とするパターン抽出装置。 The pattern extraction device according to any one of claims 1 to 4,
The indicator is
| D L | (| D L | ≧ 0) of the labeled text and | D U | (| D U |> 0) of the unlabeled text from which the probability data is generated, respectively. Generated against the database,
The first pattern is α,
The sum of the value determined from the total number of labeled texts included in the database | D L | and the value determined from the total number of unlabeled texts included in the database | D U | is N,
Sum of a value determined from the total number of texts with labels included in the database and associated with a label indicating that the text belongs to the predetermined set, and a total number of values determined from the probability data generated by the classification unit Is M,
A value determined from the total number of texts with labels that are included in the database and that include the first pattern α among the texts with labels that are associated with labels that belong to the predetermined set, and the first pattern α. Y (α) is the sum of the total number of values determined from the probability data representing the probability that the unlabeled text to be included belongs to the predetermined set,
When the sum of the value determined from the total number of labeled texts including the first pattern α and the value determined from the total number of unlabeled texts including the first pattern α is x (α),
A pattern extraction apparatus characterized by that.
前記抽出部は、さらに、
y=xである場合の前記Χ2(α)をΧ2(α, y=x)とし、y=0である場合の前記Χ2(α)をΧ2(α,y=0)とし、ν≧μの場合のmax(ν, μ)をνとし、ν<μの場合のmax(ν, μ)をμとした場合における、
Χ2 max(α)=max(Χ2(α, y=x), Χ2(α,y=0))
の広義単調関数値に相当する指標の限界値を生成する、
ことを特徴とするパターン抽出装置。 The pattern extraction device according to claim 5,
The extraction unit further includes:
Χ 2 (α) when y = x is Χ 2 (α, y = x), and Χ 2 (α) when y = 0 is Χ 2 (α, y = 0), max (ν, μ) when ν ≧ μ is ν, and max (ν, μ) when ν <μ is μ,
Χ 2 max (α) = max (Χ 2 (α, y = x), Χ 2 (α, y = 0))
Generates the limit value of the index corresponding to the broad monotonic function value of
A pattern extraction apparatus characterized by that.
前記データベースが含む前記ラベルなしテキストの総数|DU|から定まる値が、当該ラベルなしテキストの総数|DU|と所定の減衰パラメータとの積であり、前記確率データから定まる値が、当該確率データが表す確率と前記減衰パラメータとの積であり、前記第1パターンαを含むラベルなしテキストの総数から定まる値が、当該第1パターンαを含むラベルなしテキストの総数と前記減衰パラメータとの積である、
及び/又は、
前記データベースが含む前記ラベルありテキストの総数|DL|から定まる値が、当該総数|DL|と所定の増幅パラメータとの積であり、前記データベースが含むラベルありテキストのうち前記所定の集合に属することを表すラベルに対応付けられたものの総数から定まる値が、当該ラベルありテキストのうち前記所定の集合に属することを表すラベルに対応付けられたものの総数と前記増幅パラメータとの積であり、前記データベースが含むラベルありテキストであって前記所定の集合に属することを表すラベルに対応付けられたラベルありテキストのうち前記第1パターンαを含むものの総数から定まる値が、当該ラベルありテキストであって前記所定の集合に属することを表すラベルに対応付けられたラベルありテキストのうち前記第1パターンαを含むものの総数と前記増幅パラメータとの積であり、前記第1パターンαを含むラベルありテキストの総数から定まる値が、当該第1パターンαを含むラベルありテキストの総数と前記増幅パラメータとの積である、
ことを特徴とするパターン抽出装置。 The pattern extraction device according to any one of claims 5 to 6,
The value determined from the total number of unlabeled texts | D U | included in the database is a product of the total number of unlabeled texts | D U | and a predetermined attenuation parameter, and the value determined from the probability data is the probability A product of the probability represented by the data and the attenuation parameter, and a value determined from the total number of unlabeled text including the first pattern α is the product of the total number of unlabeled text including the first pattern α and the attenuation parameter. Is,
And / or
The label has the total number of text wherein the database comprises | D L | determined by the value, the total number | D L | is the product of the predetermined amplification parameters, the predetermined set of labels have text wherein the database comprises A value determined from the total number of items associated with the label indicating belonging is a product of the total number of items associated with the label indicating belonging to the predetermined set of the labeled text and the amplification parameter, A value determined from the total number of texts with labels that are included in the database and that include the first pattern α among the texts with labels that are associated with labels that belong to the predetermined set is the text with labels. The first pattern of the labeled text associated with the label indicating belonging to the predetermined set. The value determined from the total number of labeled texts including the first pattern α is the product of the total number including the first pattern α and the amplification parameter. Is the product of
A pattern extraction apparatus characterized by that.
前記抽出部は、対応する前記指標の大きさの大きい順に選択された所定個以下のパターンを、出力リストの要素として出力するように構成される、
ことを特徴とするパターン抽出装置。 The pattern extraction device according to any one of claims 1 to 7,
The extraction unit is configured to output a predetermined number or less of patterns selected in descending order of the size of the corresponding index as an element of an output list.
A pattern extraction apparatus characterized by that.
抽出部が、前記分類部で生成された前記確率データから定まる値を用い、任意のパターンである第1パターンと、当該第1パターンを含むテキストを当該テキストが属する集合に分類した際の分類結果と、の関連性の高さを表す指標を生成するステップと、
を有するパターン抽出方法。 A set in which the classification unit has an element including one or more symbols as an item, a series of one or more items as text, a series of one or more items included in the text as a pattern, and the text belongs to When the text associated with the label that is data representing the text is a text with a label and the text not associated with the label is a text without a label, the text with the label is used as training data and generated A classification model configured to output probability data representing a probability that an applied arbitrary text belongs to a predetermined set, to the unlabeled text stored in the storage unit. Applied to generate probability data representing the probability that the unlabeled text belongs to the predetermined set. The method comprising the steps of,
Classification result when the extraction unit classifies the first pattern which is an arbitrary pattern and the text including the first pattern into a set to which the text belongs, using a value determined from the probability data generated by the classification unit Generating an index indicating the degree of relevance of
A pattern extraction method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010014603A JP5325131B2 (en) | 2010-01-26 | 2010-01-26 | Pattern extraction apparatus, pattern extraction method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010014603A JP5325131B2 (en) | 2010-01-26 | 2010-01-26 | Pattern extraction apparatus, pattern extraction method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011154469A JP2011154469A (en) | 2011-08-11 |
JP5325131B2 true JP5325131B2 (en) | 2013-10-23 |
Family
ID=44540396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010014603A Expired - Fee Related JP5325131B2 (en) | 2010-01-26 | 2010-01-26 | Pattern extraction apparatus, pattern extraction method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5325131B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5398811B2 (en) * | 2011-11-21 | 2014-01-29 | 日本電信電話株式会社 | Document classification apparatus, method, and program |
JP6098413B2 (en) * | 2013-07-23 | 2017-03-22 | 富士通株式会社 | Classification pattern creation method, classification pattern creation device, and classification pattern creation program |
WO2017138549A1 (en) * | 2016-02-12 | 2017-08-17 | 日本電気株式会社 | Information processing device, information processing method, and recording medium |
WO2020240820A1 (en) * | 2019-05-31 | 2020-12-03 | 株式会社Pfu | File management device, file management method, and program |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6665669B2 (en) * | 2000-01-03 | 2003-12-16 | Db Miner Technology Inc. | Methods and system for mining frequent patterns |
US6990485B2 (en) * | 2002-08-02 | 2006-01-24 | Hewlett-Packard Development Company, L.P. | System and method for inducing a top-down hierarchical categorizer |
JP3853305B2 (en) * | 2003-05-30 | 2006-12-06 | 株式会社ジャストシステム | Extraction apparatus, extraction method, and program |
JP2005141428A (en) * | 2003-11-05 | 2005-06-02 | Nippon Telegr & Teleph Corp <Ntt> | Word string extracting method and device, and recording medium with word string extracting program recorded |
JP4490876B2 (en) * | 2005-06-01 | 2010-06-30 | 日本電信電話株式会社 | Content classification method, content classification device, content classification program, and recording medium on which content classification program is recorded |
-
2010
- 2010-01-26 JP JP2010014603A patent/JP5325131B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011154469A (en) | 2011-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8171029B2 (en) | Automatic generation of ontologies using word affinities | |
CN110019794B (en) | Text resource classification method and device, storage medium and electronic device | |
US8458154B2 (en) | Methods and apparatus to classify text communications | |
CN106371624B (en) | It is a kind of for provide input candidate item method, apparatus and input equipment | |
WO2011070980A1 (en) | Dictionary creation device | |
Jatana et al. | Bayesian spam classification: Time efficient radix encoded fragmented database approach | |
JP5325131B2 (en) | Pattern extraction apparatus, pattern extraction method, and program | |
CN109993216B (en) | Text classification method and device based on K nearest neighbor KNN | |
WO2016095645A1 (en) | Stroke input method, device and system | |
JP2013134752A (en) | Topic model learning method, apparatus, and program | |
CN111737464A (en) | Text classification method and device and electronic equipment | |
CN107357895A (en) | A kind of processing method of the text representation based on bag of words | |
US20120016821A1 (en) | Information processing device, information processing method, and program | |
US10474700B2 (en) | Robust stream filtering based on reference document | |
JP2019185478A (en) | Classification program, classification method, and information processing device | |
JP2006323575A (en) | Document retrieval system, document retrieval method, document retrieval program and recording medium | |
JP5761029B2 (en) | Dictionary creation device, word collection method, and program | |
US20200320170A1 (en) | Identifying section headings in a document | |
JP2004341948A (en) | Concept extraction system, concept extraction method, program therefor, and storing medium thereof | |
JP7044162B2 (en) | Classification rule generator, classification rule generation method and classification rule generator | |
CN109299260B (en) | Data classification method, device and computer readable storage medium | |
JP5824429B2 (en) | Spam account score calculation apparatus, spam account score calculation method, and program | |
JP2021092925A (en) | Data generating device and data generating method | |
CN117273259B (en) | Online course learning path recommendation method and device | |
JP2012022443A (en) | Apparatus, method and program for searching document |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110624 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120307 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130621 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130709 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130719 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5325131 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130826 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |