JP5139701B2 - Language analysis model learning apparatus, language analysis model learning method, language analysis model learning program, and recording medium thereof - Google Patents
Language analysis model learning apparatus, language analysis model learning method, language analysis model learning program, and recording medium thereof Download PDFInfo
- Publication number
- JP5139701B2 JP5139701B2 JP2007063941A JP2007063941A JP5139701B2 JP 5139701 B2 JP5139701 B2 JP 5139701B2 JP 2007063941 A JP2007063941 A JP 2007063941A JP 2007063941 A JP2007063941 A JP 2007063941A JP 5139701 B2 JP5139701 B2 JP 5139701B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- vector set
- parameter
- parameter vector
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、言語解析モデル学習技術に係り、特に、文字列または記号列に付与すべきラベルを推定するために使用される言語解析モデルを学習する言語解析モデル学習技術に関する。 The present invention relates to a language analysis model learning technique, and more particularly to a language analysis model learning technique for learning a language analysis model used for estimating a label to be assigned to a character string or a symbol string.
従来、例えば、テキスト、DNA塩基配列、web空間等に関する文字列または記号列といった系列構造を有した入力(入力系列)に対して、分類用のタグとしてラベル(ラベル系列、または出力系列ともいう)を付与する問題が知られている。このような問題のことを、以下、系列構造予測問題と呼び、入力系列xに対して出力系列yを付与する装置(またはプログラム)のことを系列構造予測器と呼ぶ。入力系列xおよび出力系列yの具体例を図18に示す。 Conventionally, for example, a label (also referred to as a label series or an output series) is used as a classification tag for an input (input series) having a series structure such as a character string or a symbol string related to text, DNA base sequence, web space, etc. The problem of granting is known. Such a problem is hereinafter referred to as a sequence structure prediction problem, and an apparatus (or program) that assigns an output sequence y to an input sequence x is referred to as a sequence structure predictor. Specific examples of the input series x and the output series y are shown in FIG.
図18(a)は、系列構造予測問題のうちテキストを形態素に区切る問題に関するものであり、テキストに対して言語的な特徴を示すラベルを付与する例を示している。入力系列xは、「不動産 情報 登記 評価 システム が 13 日 に 発足 した 。」のように、12個の形態素に区切られている。ここで、形態素とは、これ以上に細かくすると意味がなくなってしまう最小の文字列をいう。ラベル「B」は、文字列上の形態素の開始位置を示し、ラベル「I」は、ラベル「B」で開始した形態素の範囲内に含まれる位置を示している。 FIG. 18A relates to a problem of dividing a text into morphemes among sequence structure prediction problems, and shows an example in which a label indicating a linguistic feature is given to the text. The input series x is divided into 12 morphemes as “Real estate information registration evaluation system was established on the 13th”. Here, the morpheme is the smallest character string that is meaningless if it is made finer than this. The label “B” indicates the start position of the morpheme on the character string, and the label “I” indicates the position included in the range of the morpheme that starts with the label “B”.
図18(b)は、系列構造予測問題のうちテキストから固有表現を抽出する問題に関するものであり、固有名詞に対して固有名詞の種類を示すラベルを付与する例を示している。入力系列xは、「田中 一郎 は 陸上 連盟 の 会長 です」のように、8個の形態素に区切られている。このうち、「田中」、「一郎」、「陸上」、「連盟」の4つの形態素は、固有表現を示すので、ラベル「B−人名」、「I−人名」、「B−組織名」、「I−組織名」がそれぞれ付与されている。また、ラベル「O」は、固有表現以外の形態素を示している。なお、「田中一郎」、「陸上連盟」の2つの固有名詞も固有表現を示すので、ラベル「人名」、「組織名」がそれぞれ付与されている。 FIG. 18B relates to a problem of extracting a proper expression from text in a sequence structure prediction problem, and shows an example in which a label indicating the type of proper noun is given to a proper noun. The input sequence x is divided into 8 morphemes, such as “Ichiro Tanaka is the president of the Land Federation”. Of these, the four morphemes “Tanaka”, “Ichiro”, “Land”, and “Alliance” indicate specific expressions, so the labels “B-person name”, “I-person name”, “B-organization name”, “I-Organization name” is assigned. The label “O” indicates a morpheme other than the unique expression. Note that the two proper nouns “Ichiro Tanaka” and “National Land Federation” also show proper expressions, and thus the labels “person name” and “organization name” are assigned respectively.
図18(c)は、系列構造予測問題のうちDNA塩基配列から遺伝子領域を推定する問題に関するものであり、4種類の文字列(T,C,A,G)を用いた3個の塩基の順列(コドン)に対してアミノ酸を示すラベルを付与する例を示している。ここでは、コドン「ATG」に対して、たんぱく質への翻訳開始を示す開始コドンおよびメチオニンを示すラベル「M」が付与されている。また、コドン「TGA」に対して、たんぱく質への翻訳終了を示す終始コドンおよびヒスチジンを示すラベル「H」が付与されている。また、コドン「ATG」とコドン「TGA」とに挟まれた各コドンには、対応するラベル「R」、「D」、「W」、「Q」が付与されている。また、コドン「ATG」より前(左側)の文字と、コドン「TGA」より後(右側)の文字とには、対応するアミノ酸ではないことを示すために、ラベル「O」が付与されている。 FIG. 18 (c) relates to a problem of estimating a gene region from a DNA base sequence in a series structure prediction problem. Three bases using four types of character strings (T, C, A, G) are shown. The example which provides the label which shows an amino acid with respect to a permutation (codon) is shown. Here, the codon “ATG” is given a start codon indicating the start of translation into protein and a label “M” indicating methionine. In addition, a codon “TGA” is provided with a termination codon indicating completion of translation into protein and a label “H” indicating histidine. Corresponding labels “R”, “D”, “W”, and “Q” are given to the codons sandwiched between the codon “ATG” and the codon “TGA”. Further, a label “O” is given to the character before (left side) the codon “ATG” and the character after (right side) the codon “TGA” to indicate that it is not a corresponding amino acid. .
従来の言語解析モデル学習装置は、対象とする系列構造予測問題に関して入力系列に正解ラベル系列が付与された正解データを用いて事前に統計学的な学習(以下、教師あり学習という)を行っている。ここで、正解データとは、学習の前に入力系列と出力系列との組が分かっているデータである。そして、教師あり学習で得られたパラメタを用いて、入力系列とラベル系列との対応関係を示す言語解析モデルが作成される。そして、系列構造予測器は、作成された言語解析モデルを利用することで、入力系列に対してラベルを実際に付与することが可能となる。 A conventional language analysis model learning device performs statistical learning (hereinafter referred to as supervised learning) in advance using correct data in which a correct label sequence is assigned to an input sequence for a target sequence structure prediction problem. Yes. Here, the correct answer data is data in which a set of an input sequence and an output sequence is known before learning. Then, a language analysis model indicating the correspondence between the input series and the label series is created using the parameters obtained by supervised learning. The sequence structure predictor can actually assign a label to the input sequence by using the created language analysis model.
教師あり学習の具体的な方法として、従来は、局所的な最適解を組み合わせる方法が用いられていた。近年では、条件付き確率場に代表される大域的最適化に基づく方法が用いられるようになってきており、性能が向上している(例えば、非特許文献1参照)。 As a specific method of supervised learning, conventionally, a method of combining local optimum solutions has been used. In recent years, a method based on global optimization typified by a conditional random field has come to be used, and performance has been improved (for example, see Non-Patent Document 1).
この条件付き確率場を用いる方法は、例えば、言語情報処理単位かつ意味のまとまりである「チャンク」毎に解析しながら読むチャンキング(Chunking)や、固有表現抽出といった自然言語解析タスクにおいて、現在最もよい性能を示す方法の一つとして広く利用されるようになっている。条件付き確率場の方法は、条件付き確率p(y|x)をモデル化する方法に分類される方法である。このように条件付き確率p(y|x)をモデル化して系列構造を予測する手法を、以下では、識別アプローチという。
系列予測問題に関わらず、一般に、性能のよい予測を行うためには、教師あり学習時に扱う特徴空間を十分に覆うデータ量が必要であると認識されている。しかし、正解データは、人手により作成する必要があるため、作成コストが高いという問題がある。
一方、系列予測問題に関する学習で扱うラベル系列(出力系列)yの個々のインスタンスyi(i=1,2,…)間には相互依存性があるため、系列予測問題に関する学習で扱う特徴空間は非常に大きなものになってしまう。そして、予測性能を高めるためには、膨大な正解データが必要となる。しかも、系列予測問題には、ラベル系列の相互依存性という特徴があるため、正解データを作成するためには、対象とするタスクに関するさらに高い専門的な能力とコストとが要求される。
Regardless of the sequence prediction problem, it is generally recognized that in order to perform prediction with good performance, a data amount that sufficiently covers the feature space handled during supervised learning is required. However, since correct data needs to be created manually, there is a problem that the creation cost is high.
On the other hand, since each instance y i (i = 1, 2,...) Of the label sequence (output sequence) y handled in the learning related to the sequence prediction problem is interdependent, the feature space handled in the learning related to the sequence prediction problem. Will be very big. And in order to improve prediction performance, a huge amount of correct answer data is required. Moreover, since the sequence prediction problem is characterized by the interdependence of label sequences, in order to create correct data, higher specialized ability and cost are required for the target task.
一方、従来の言語解析モデル学習装置は、人手により作成された限られた量の正解データしか利用していないため、正解データ以外の未知データに対する性能はよくない。特に、同じタスクで別ドメインのデータの系列構造を予測する場合には、その別ドメイン特有の特徴が学習できていないため、予測性能が大幅に劣化する場合がある。具体的な例を挙げると、自然言語処理の固有表現抽出タスクでは、一般的に新聞記事の正解データをモデル学習に利用する。この新聞記事の正解データを用いて学習した結果得られた言語解析モデルを用いて系列構造予測器がwebデータの固有表現抽出を行なった場合に、webデータに対する固有表現抽出性能は、新聞記事に対する固有表現抽出性能に比べて大幅に低くなる。これは、webデータが学習データの新聞記事と異なる別ドメインであるからである。 On the other hand, since the conventional language analysis model learning apparatus uses only a limited amount of correct answer data created manually, the performance of unknown data other than correct answer data is not good. In particular, when the sequence structure of data in another domain is predicted using the same task, the prediction performance may be significantly deteriorated because features unique to that domain cannot be learned. As a specific example, in the natural language processing specific expression extraction task, correct data of newspaper articles is generally used for model learning. When the sequence structure predictor extracts the web data by using the language analysis model obtained as a result of learning using the correct data of the newspaper article, the proper expression extraction performance for the web data is as follows. It is significantly lower than the proper expression extraction performance. This is because the web data is in a different domain from the newspaper article of the learning data.
また、正解データは、人手により作成されるので、限られた量しか存在しない。例えば、固有表現抽出タスクをあるドメインで適用しようとする場合に、webデータを含む多くのドメインでは、その適用したいドメインでの正解データが存在しない。そのため、性能のよい系列構造予測器の作成が困難である場合がほとんどである。 In addition, since the correct answer data is created manually, there is only a limited amount. For example, when applying a specific expression extraction task in a certain domain, in many domains including web data, there is no correct data in the domain to be applied. Therefore, in most cases, it is difficult to create a high-performance sequence structure predictor.
一方、適用したいドメインのラベルなしデータの獲得は比較的簡単である場合が多い。ここで、ラベルなしデータとは、正解ラベルが付与されていないデータ、つまり、加工されていないデータを意味する。以下では、このラベルなしデータと対照的に正解ラベルを有している正解データのことを、ラベルありデータということにする。 On the other hand, acquisition of unlabeled data of a domain to be applied is often relatively easy. Here, unlabeled data means data to which no correct answer label is assigned, that is, data that has not been processed. Hereinafter, correct data having a correct label in contrast to the unlabeled data is referred to as labeled data.
ラベルなしデータには、正解ラベル(正解出力系列)の情報が付与されていないので、ラベルなしデータをどのようにすれば学習に用いることができるかは知られていない。試みに、条件付き確率場の方法に代表される識別アプローチにおいてラベルなしデータを学習に用いるために、古典的な条件付き確率によるモデル(識別モデル)を設計してみると、条件式からラベルなしデータの項が消去されてしまう。つまり、識別アプローチは、教師あり学習の設定ではよい性能を示すが、ラベルなしデータを取り込むことは難しいアプローチであると言える。 Since unlabeled data is not given information on correct labels (correct output series), it is not known how unlabeled data can be used for learning. In an attempt to design a model (classification model) with classical conditional probability to use unlabeled data for learning in the identification approach represented by the conditional random field method, there is no label from the conditional expression. Data terms are deleted. In other words, the identification approach shows good performance in the supervised learning setting, but it can be said that it is a difficult approach to capture unlabeled data.
また、例えば、同時確率p(x,y)によるモデル(生成モデル)を設計する方法である生成アプローチにおいて、ラベルなしデータを学習に用いる場合には、EM(Expectation Maximization)アルゴリズムを用いることで、正解ラベル系列(出力系列)の情報を欠損情報としてラベルなしデータを自然かつ簡単に取り込む枠組が存在する。ただし、この生成アプローチでは、条件付き確率場といった教師あり学習の設定での識別アプローチに比べて予測性能が遠く及ばない場合がほとんどである。 Further, for example, in a generation approach that is a method for designing a model (generation model) based on the joint probability p (x, y), when using unlabeled data for learning, an EM (Expectation Maximization) algorithm is used. There is a framework in which unlabeled data is taken in naturally and easily by using information on the correct label series (output series) as missing information. However, in this generation approach, in most cases, the prediction performance does not reach far compared with an identification approach in a supervised learning setting such as a conditional random field.
そこで、本発明では、前記した問題を解決し、低コストで言語解析モデルの予測性能を向上させるためにラベルありデータとラベルなしデータとを入力として系列構造予測器の学習を行うことのできる言語解析モデル学習技術を提供することを目的とする。 Therefore, in the present invention, in order to solve the above-described problem and improve the prediction performance of the language analysis model at a low cost, a language that can learn a sequence structure predictor using labeled data and unlabeled data as input. The purpose is to provide analytical model learning technology.
前記課題を解決するために、請求項1に記載の言語解析モデル学習装置は、文字列または記号列にラベルが付与されたデータを示すラベルありデータと、文字列または記号列を示すラベルなしデータとを入力データとして、識別モデルと生成モデルとに基づいて、文字列または記号列に付与すべきラベルを推定するために使用される言語解析モデルを学習する言語解析モデル学習装置であって、前記識別モデルが、入力される文字列または記号列を条件に予め定められたラベル候補が出現する確率を示す条件付き確率を用いて前記付与すべきラベルを推定するモデルであり、前記生成モデルが、入力される文字列または記号列と前記予め定められたラベル候補とが同時に生成される確率を示す同時確率を用いて前記付与すべきラベルを推定するモデルであり、前記入力されたラベルなしデータを利用して、予め学習された識別モデル用パラメタベクトル集合と、予め定められたモデル統合用パラメタ集合とを用いて、第1目的関数を最大化する生成モデル用パラメタベクトル集合を決定する生成モデル学習手段と、前記入力されたラベルありデータを利用して、前記予め学習された識別モデル用パラメタベクトル集合と、前記生成モデル学習手段で決定された生成モデル用パラメタベクトル集合とを用いて、第2目的関数を最大化する前記モデル統合用パラメタ集合を決定するモデル統合学習手段と、を備え、前記生成モデル学習手段で前記生成モデル用パラメタベクトル集合を決定する処理と、前記モデル統合学習手段で前記モデル統合用パラメタ集合を決定する処理とを交互に実行し、前記生成モデル学習手段及び前記モデル統合学習手段が交互に決定した前記生成モデル用パラメタベクトル集合と前記モデル統合用パラメタ集合とのいずれか一方が所定の収束条件を満たすか否かを判別し、前記収束条件を満たすと判定したときに、その時点の前記生成モデル用パラメタベクトル集合と前記モデル統合用パラメタ集合とを出力する収束判定手段とを備え、前記第1目的関数は、前記識別モデル用パラメタベクトル集合と、前記生成モデル用パラメタベクトル集合と、前記モデル統合用パラメタ集合とを用いて、ラベルなしデータが与えられた時のすべての出力に対する識別関数の出力値の合計を算出する関数であり、前記第2目的関数は、前記識別モデル用パラメタベクトル集合と、前記生成モデル用パラメタベクトル集合と、前記モデル統合用パラメタ集合とを用いて、ラベルありデータを正しく識別できる度合いを算出する関数であることを特徴とする。
In order to solve the above-mentioned problem, the language analysis model learning device according to
また、請求項6に記載の言語解析モデル学習方法は、文字列または記号列にラベルが付与されたデータを示すラベルありデータと、文字列または記号列を示すラベルなしデータとを入力データとして、識別モデルと生成モデルとに基づいて、文字列または記号列に付与すべきラベルを推定するために使用される言語解析モデルを学習する言語解析モデル学習装置の言語解析モデル学習方法であって、前記識別モデルが、入力される文字列または記号列を条件に予め定められたラベル候補が出現する確率を示す条件付き確率を用いて前記付与すべきラベルを推定するモデルであり、前記生成モデルが、入力される文字列または記号列と前記予め定められたラベル候補とが同時に生成される確率を示す同時確率を用いて前記付与すべきラベルを推定するモデルであり、生成モデル学習手段によって、前記入力されたラベルなしデータを利用して、予め学習された識別モデル用パラメタベクトル集合と、予め定められたモデル統合用パラメタ集合とを用いて、第1目的関数を最大化する生成モデル用パラメタベクトル集合を決定するステップと、モデル統合学習手段によって、前記入力されたラベルありデータを利用して、前記予め学習された識別モデル用パラメタベクトル集合と、前記生成モデル学習手段で決定された生成モデル用パラメタベクトル集合とを用いて、第2目的関数を最大化する前記モデル統合用パラメタ集合を決定するステップと、を交互に実行し、収束判定手段によって、前記生成モデル学習手段及び前記モデル統合学習手段が交互に決定した前記生成モデル用パラメタベクトル集合と前記モデル統合用パラメタ集合とのいずれか一方が所定の収束条件を満たすか否かを判別し、前記収束条件を満たすと判定したときに、その時点の前記生成モデル用パラメタベクトル集合と前記モデル統合用パラメタ集合とを出力するステップとを含み、前記第1目的関数は、前記識別モデル用パラメタベクトル集合と、前記生成モデル用パラメタベクトル集合と、前記モデル統合用パラメタ集合とを用いて、ラベルなしデータが与えられた時のすべての出力に対する識別関数の出力値の合計を算出する関数であり、前記第2目的関数は、前記識別モデル用パラメタベクトル集合と、前記生成モデル用パラメタベクトル集合と、前記モデル統合用パラメタ集合とを用いて、ラベルありデータを正しく識別できる度合いを算出する関数であることを特徴とする。 The language analysis model learning method according to claim 6 uses, as input data, labeled data indicating data in which a character string or a symbol string is labeled, and unlabeled data indicating a character string or a symbol string, A language analysis model learning method of a language analysis model learning device for learning a language analysis model used for estimating a label to be assigned to a character string or a symbol string based on an identification model and a generation model, The identification model is a model that estimates the label to be assigned using a conditional probability indicating a probability that a predetermined label candidate appears on the condition of an input character string or symbol string, and the generation model includes: The label to be added is estimated using a joint probability indicating a probability that an input character string or symbol string and the predetermined label candidate are generated simultaneously. A model, by generating the model learning unit, using the unlabeled data the input, using pre and parameter vector set for learning identification model, and the model integration parameter set predetermined first determining a generate models for parameter vector set you maximize 1 objective function, the model integrated learning means, there labels that are the input using the data, and the parameter vector set in advance for learning identification model , using said generated model parameter vector set for learning generated model determined by means executes determining a pre SL model integration parameter set that maximize the second objective function, the alternately convergence determination by means para for the generative model learning means and said generating models model integrated learning means has determined alternately One of said model integration parameter set and data vector set is determined whether or not a predetermined convergence condition is satisfied, when it is determined that the convergence condition is satisfied, and the parameter vector set for generating models that point look including the step of outputting said model integration parameter set, wherein the first objective function using a parameter vector set for the identification model, and parameter vector set for the generation model, and the model integration parameter set And calculating the sum of the output values of the discriminant function for all outputs when unlabeled data is given, wherein the second objective function includes the discriminant model parameter vector set and the generated model parameter Using the vector set and the parameter set for model integration, calculate the degree to which labeled data can be correctly identified It is a function to perform.
請求項1に記載の言語解析モデル学習装置または請求項6に記載の言語解析モデル学習方法によれば、言語解析モデル学習装置は、ラベルなしデータを利用して生成モデル用パラメタベクトル集合を決定することで、生成アプローチによりラベルなしデータを取り込む。そして、言語解析モデル学習装置は、決定された生成モデル用パラメタベクトル集合とラベルありデータとを利用してモデル統合用パラメタ集合を決定することで、生成アプローチにより取り込んだラベルなしデータを識別アプローチにより学習することができる。そして、言語解析モデル学習装置は、生成モデル用パラメタベクトル集合とモデル統合用パラメタ集合との一方が収束するまで交互に決定することで最適な生成モデル用パラメタベクトル集合およびモデル統合用パラメタ集合とを出力する。したがって、これら出力される生成モデル用パラメタベクトル集合およびモデル統合用パラメタ集合と、学習済みの識別モデル用パラメタベクトル集合とから構成される言語解析モデルは低コストで高い予測性能を実現することが可能である。
According to the language analysis model learning device according to
また、請求項2に記載の言語解析モデル学習装置は、請求項1に記載の言語解析モデル学習装置において、前記生成モデル学習手段が、前記第1目的関数として後記する式(14)に示す目的関数G(Θ|Γ)を計算する目的関数計算手段と、後記する式(14)で示される目的関数G(Θ|Γ)を、固定したΛとΓの下で最大化するパラメタベクトル集合Θを求める処理を行う補助関数計算手段と、前記収束判定手段で前記収束条件を満たさないと判定された場合に、前記求められた生成モデル用パラメタベクトル集合Θを更新するパラメタ更新手段と、を備え、前記モデル統合学習手段が、前記第2目的関数として後記する式(16)に示す目的関数LFurther, the language analysis model learning device according to claim 2 is the language analysis model learning device according to
また、請求項7に記載の言語解析モデル学習方法は、請求項6に記載の言語解析モデル学習方法において、前記生成モデル用パラメタベクトル集合を決定するステップが、前記第1目的関数として後記する式(14)に示す目的関数G(Θ|Γ)を計算するステップと、予め定められた補助関数を計算することで、後記する式(14)で示される目的関数G(Θ|Γ)を、固定したΛとΓの下で最大化するパラメタベクトル集合Θを求める処理を行うステップと、前記収束判定手段で前記収束条件を満たさないと判定された場合に、前記求められた生成モデル用パラメタベクトル集合Θを更新するステップと、を有し、前記モデル統合用パラメタ集合を決定するステップが、前記第2目的関数として後記する式(16)に示す目的関数LFurther, the language analysis model learning method according to claim 7 is the language analysis model learning method according to claim 6, wherein the step of determining the generation model parameter vector set is an expression described later as the first objective function. By calculating the objective function G (Θ | Γ) shown in (14) and calculating a predetermined auxiliary function, the objective function G (Θ | Γ) shown in the following formula (14) is obtained. A step of obtaining a parameter vector set Θ that is maximized under fixed Λ and Γ, and when the convergence determination means determines that the convergence condition is not satisfied, the generated generation model parameter vector Updating the set Θ, and the step of determining the model integration parameter set is an objective function L shown in the following equation (16) as the second objective function:
SS-HybSS-Hyb
(Γ|Θ)を、固定したΛとΘの下で計算するステップと、後記する式(16)に示す目的関数LA step of calculating (Γ | Θ) under fixed Λ and Θ, and an objective function L shown in the following equation (16)
SS-HybSS-Hyb
(Γ|Θ)を識別モデル用のモデル統合パラメタγ(Γ | Θ) is the model integration parameter γ for the discrimination model
ii
で偏微分する計算を行うステップと、後記する式(16)に示す目的関数LAnd a step of performing partial differentiation with the objective function L shown in the following equation (16)
SS-HybSS-Hyb
(Γ|Θ)を生成モデル用のモデル統合パラメタγModel integration parameter γ for generating model (Γ | Θ)
jj
で偏微分する計算を行うステップと、前記収束判定手段で前記収束条件を満たさないと判定された場合に、前記求められたモデル統合用パラメタ集合Γを更新するステップと、を有することを特徴とする。And a step of performing partial differentiation in step (a) and updating the obtained model integration parameter set Γ when the convergence determination means determines that the convergence condition is not satisfied. To do.
また、請求項3に記載の言語解析モデル学習装置は、請求項2に記載の言語解析モデル学習装置において、前記第1目的関数を最大化させるための補助関数および前記第2目的関数が、前記ラベルありデータを利用して前記識別モデル用パラメタベクトル集合から推定された入力系列と出力系列との同時確率と、当該識別モデル用パラメタベクトル集合に対して予め求められた前記モデル統合用パラメタ集合とに基づいて算出される確率値を、積算対象とする前記識別モデル用パラメタベクトル集合に亘って積算した結果を示す識別モデル統合用確率値と、前記ラベルなしデータを利用して前記生成モデル用パラメタベクトル集合から推定された入力系列と出力系列との同時確率と、当該生成モデル用パラメタベクトル集合に対して予め求められた前記モデル統合用パラメタ集合とに基づいて算出される確率値を、積算対象とする前記生成モデル用パラメタベクトル集合に亘って積算した結果を示す生成モデル統合用確率値と、の積を、前記入力される文字列または記号列に対して付与すべきラベルの事後確率を示すパラメタ集合として含み、前記補助関数計算手段は、前記補助関数として後記する式(15)に示すQ関数を用いて、このQ関数が最大になるパラメタベクトル集合Θ′を、現在のパラメタベクトル集合Θより求め、Θ′がΘに対して増大しなくなるまでΘをΘ′で置き換えながら繰り返しQ関数を求めることで、前記目的関数G(Θ|Γ)を最大化するパラメタベクトル集合Θを求めることを特徴とする。
また、請求項8に記載の言語解析モデル学習方法は、請求項7に記載の言語解析モデル学習方法において、前記第1目的関数を最大化させるための補助関数および前記第2目的関数が、前記ラベルありデータを利用して前記識別モデル用パラメタベクトル集合から推定された入力系列と出力系列との同時確率と、当該識別モデル用パラメタベクトル集合に対して予め求められた前記モデル統合用パラメタ集合とに基づいて算出される確率値を、積算対象とする前記識別モデル用パラメタベクトル集合に亘って積算した結果を示す識別モデル統合用確率値と、前記ラベルなしデータを利用して前記生成モデル用パラメタベクトル集合から推定された入力系列と出力系列との同時確率と、当該生成モデル用パラメタベクトル集合に対して予め求められた前記モデル統合用パラメタ集合とに基づいて算出される確率値を、積算対象とする前記生成モデル用パラメタベクトル集合に亘って積算した結果を示す生成モデル統合用確率値と、の積を、前記入力される文字列または記号列に対して付与すべきラベルの事後確率を示すパラメタ集合として含み、前記パラメタベクトル集合Θを求める処理を行うステップは、前記補助関数として後記する式(15)に示すQ関数を用いて、このQ関数が最大になるパラメタベクトル集合Θ′を、現在のパラメタベクトル集合Θより求め、Θ′がΘに対して増大しなくなるまでΘをΘ′で置き換えながら繰り返しQ関数を求めることで、前記目的関数G(Θ|Γ)を最大化するパラメタベクトル集合Θを求めることを特徴とする。
The language analysis model learning device according to claim 3 is the language analysis model learning device according to claim 2, wherein the auxiliary function for maximizing the first objective function and the second objective function are A joint probability of an input sequence and an output sequence estimated from the identification model parameter vector set using labeled data, and the model integration parameter set determined in advance for the identification model parameter vector set; The probability value calculated based on the identification model parameter vector set to be integrated over the identification model integration probability value indicating the result of integration, and the generation model parameter using the unlabeled data Calculated in advance for the joint probability of the input sequence and output sequence estimated from the vector set and the parameter vector set for the generation model. A probability value calculated based on the generated model integration parameter set, and a product model integration probability value indicating a result obtained by integrating the probability values calculated over the generation model parameter vector set to be integrated, The auxiliary function calculation means includes a Q function shown in the following formula (15) as the auxiliary function, which is included as a parameter set indicating the posterior probability of the label to be given to the input character string or symbol string. The parameter vector set Θ ′ that maximizes the Q function is obtained from the current parameter vector set Θ ′, and the Q function is repeatedly obtained by replacing Θ with Θ ′ until Θ ′ does not increase with respect to Θ. A parameter vector set Θ that maximizes the objective function G (Θ | Γ) is obtained.
The language analysis model learning method according to claim 8 is the language analysis model learning method according to claim 7 , wherein the auxiliary function for maximizing the first objective function and the second objective function are A joint probability of an input sequence and an output sequence estimated from the identification model parameter vector set using labeled data, and the model integration parameter set determined in advance for the identification model parameter vector set; The probability value calculated based on the identification model parameter vector set to be integrated over the identification model integration probability value indicating the result of integration, and the generation model parameter using the unlabeled data Calculated in advance for the joint probability of the input sequence and output sequence estimated from the vector set and the parameter vector set for the generation model. A probability value calculated based on the generated model integration parameter set, and a product model integration probability value indicating a result obtained by integrating the probability values calculated over the generation model parameter vector set to be integrated, It viewed including as a parameter set indicating a posteriori probability of the label to be assigned to a character string or symbol string is the input, the step of performing a process of obtaining the parameter vector set Θ will be described later as the auxiliary function (15) The parameter vector set Θ ′ that maximizes the Q function is obtained from the current parameter vector set Θ, and is repeated while replacing Θ with Θ ′ until Θ ′ does not increase with respect to Θ. By obtaining a Q function, a parameter vector set Θ that maximizes the objective function G (Θ | Γ) is obtained .
請求項3に記載の言語解析モデル学習装置または請求項8に記載の言語解析モデル学習方法によれば、言語解析モデル学習装置は、第1目的関数を最大化させるための補助関数および第2目的関数が、入力系列に対して付与すべきラベルの事後確率として、ラベルありデータを利用した識別モデル統合用確率値と、ラベルなしデータを利用した生成モデル統合用確率値との積を含むので、第1目的関数および第2目的関数をそれぞれ最大化することで決定される生成モデル用パラメタベクトル集合およびモデル統合用パラメタ集合とが、ラベルなしデータとラベルありデータとを学習した結果を反映することとなる。ここで、ラベルなしデータを第1目的関数を最大化させるための補助関数に利用するのであって、ラベルなしデータを第1目的関数に直接用いることはしない。つまり、ラベルなしデータを生成アプローチで取り込みつつ、識別アプローチの予測性能の良さを兼ね備えることが可能となる。ここで、識別モデル用パラメタベクトルから推定された同時確率は、例えば、条件付き確率場(CRF:Conditional Random Fields)により構成される。また、生成モデル用パラメタベクトルから推定された同時確率は、例えば、隠れマルコフモデル(HMM:Hidden Markov Model)により構成される。 According to the language analysis model learning process according to the language analysis model learning apparatus or claim 8 as claimed in claim 3, the language analysis model learning device, the auxiliary function to maximize the first objective function and the second object Since the function includes the product of the identification model integration probability value using the labeled data and the generation model integration probability value using the unlabeled data as the posterior probability of the label to be given to the input series, The generation model parameter vector set and model integration parameter set determined by maximizing the first objective function and the second objective function respectively reflect the result of learning unlabeled data and labeled data. It becomes. Here, the unlabeled data is used as an auxiliary function for maximizing the first objective function, and the unlabeled data is not directly used as the first objective function. That is, it is possible to combine the good prediction performance of the identification approach while capturing unlabeled data by the generation approach. Here, the joint probability estimated from the identification model parameter vector is configured by, for example, a conditional random field (CRF). Moreover, the joint probability estimated from the parameter vector for generation | occurrence | production models is comprised by the hidden Markov model (HMM: Hidden Markov Model), for example.
また、請求項4に記載の言語解析モデル学習装置は、請求項3に記載の言語解析モデル学習装置において、前記出力される生成モデル用パラメタベクトル集合および前記モデル統合用パラメタ集合と、前記予め学習された識別モデル用パラメタベクトル集合とを、前記事後確率を示すパラメタ集合に統合するパラメタ統合手段をさらに備えることを特徴とする。 The language analysis model learning device according to claim 4 is the language analysis model learning device according to claim 3 , wherein the output generation model parameter vector set and the model integration parameter set to be output are learned in advance. The method further comprises parameter integration means for integrating the identified identification model parameter vector set into the parameter set indicating the posterior probability.
また、請求項9に記載の言語解析モデル学習方法は、請求項8に記載の言語解析モデル学習方法において、パラメタ統合手段によって、前記出力される生成モデル用パラメタベクトル集合および前記モデル統合用パラメタ集合と、前記予め学習された識別モデル用パラメタベクトル集合とを、前記事後確率を示すパラメタ集合に統合するステップを有することを特徴とする。
The language analysis model learning method according to
請求項4に記載の言語解析モデル学習装置または請求項9に記載の言語解析モデル学習方法によれば、言語解析モデル学習装置は、入力される文字列または記号列に対して付与すべきラベルの事後確率として、生成モデル用パラメタベクトル集合、モデル統合用パラメタ集合、および識別モデル用パラメタベクトル集合を単一のパラメタベクトル(パラメタ集合)に統合する。したがって、この統合されたパラメタベクトルは、言語解析モデルとして利用し易くなる。
According to the language analysis model learning device according to claim 4 or the language analysis model learning method according to
また、請求項5に記載の言語解析モデル学習装置は、請求項1ないし請求項4のいずれか一項に記載の言語解析モデル学習装置において、前記識別モデルを用いて前記入力されたラベルありデータを学習することで前記識別モデル用パラメタベクトル集合を作成する識別モデル学習手段をさらに備えることを特徴とする。
Moreover, the language analysis model learning device according to claim 5 is the language analysis model learning device according to any one of
また、請求項10に記載の言語解析モデル学習方法は、請求項6ないし請求項9のいずれか一項に記載の言語解析モデル学習方法において、識別モデル学習手段によって、前記識別モデルを用いて前記入力されたラベルありデータを学習することで前記識別モデル用パラメタベクトル集合を作成するステップを有することを特徴とする。 Also, the language analysis model learning method according to claim 10, at the language analysis model learning process according to any one of claims 6 to 9, by the identification model learning unit, using the identification model And learning the input labeled data to create the identification model parameter vector set.
請求項5に記載の言語解析モデル学習装置または請求項10に記載の言語解析モデル学習方法によれば、言語解析モデル学習装置は、ラベルありデータを学習することで識別モデル用パラメタベクトル集合を作成する。したがって、識別モデル用パラメタベクトル集合を作成するための構成と、モデル統合用パラメタ集合を作成するための構成とを共用することが可能となる。 According to the language analysis model learning device according to claim 5 or the language analysis model learning method according to claim 10 , the language analysis model learning device creates a parameter vector set for the identification model by learning the labeled data. To do. Therefore, it is possible to share the configuration for creating the identification model parameter vector set and the configuration for creating the model integration parameter set.
また、請求項11に記載の言語解析モデル学習プログラムは、請求項6ないし請求項10のいずれか一項に記載の言語解析モデル学習方法をコンピュータに実行させるためのプログラムである。このように構成されることにより、このプログラムをインストールされたコンピュータは、このプログラムに基づいた各機能を実現することができる。 Also, language analysis model learning program according to claim 11 is a program for executing the language analysis model learning process according to a computer in any one of claims 6 to 10. By being configured in this way, a computer in which this program is installed can realize each function based on this program.
また、請求項12に記載のコンピュータ読み取り可能な記録媒体は、請求項11に記載の言語解析モデル学習プログラムが記録されたことを特徴とする。このように構成されることにより、この記録媒体を装着されたコンピュータは、この記録媒体に記録されたプログラムに基づいた各機能を実現することができる。 A computer-readable recording medium according to a twelfth aspect is characterized in that the language analysis model learning program according to the eleventh aspect is recorded. By being configured in this way, a computer equipped with this recording medium can realize each function based on a program recorded on this recording medium.
本発明によれば、ラベルありデータとラベルなしデータとを入力として系列構造予測器の学習を行うことができる。その結果、低コストで言語解析モデルの予測性能を向上させることが可能となる。 According to the present invention, it is possible to learn a sequence structure predictor using labeled data and unlabeled data as inputs. As a result, the prediction performance of the language analysis model can be improved at low cost.
以下、図面を参照して本発明の言語解析モデル学習装置および言語解析モデル学習方法を実施するための最良の形態(以下「実施形態」という)について詳細に説明する。本実施形態では、入力をテキスト、出力を固有表現のラベル列として固有表現抽出の問題で言語解析モデル学習装置を説明する。 Hereinafter, the best mode (hereinafter referred to as “embodiment”) for carrying out the language analysis model learning device and language analysis model learning method of the present invention will be described in detail with reference to the drawings. In the present embodiment, the language analysis model learning apparatus will be described with respect to the problem of specific expression extraction using text as input and label string as output.
[言語解析モデル作成装置の構成]
図1は、本発明の実施形態に係る言語解析モデル作成装置の概要を模式的に示す構成図である。言語解析モデル作成装置1は、図1に示すように、言語解析モデル学習装置2と、パラメタ統合装置3とを備えている。学習フェーズにおいて、言語解析モデル学習装置2は、ラベルありデータDlと、ラベルなしデータDuと、学習支援情報記憶手段4に格納された情報とを用いて、処理結果をパラメタ集合記憶手段5に出力する。
[Configuration of language analysis model creation device]
FIG. 1 is a configuration diagram schematically showing an outline of a language analysis model creation device according to an embodiment of the present invention. As shown in FIG. 1, the language analysis
ラベルありデータDlは、文字列または記号列にラベルが付与されたデータを示す。ここでは、式(1)に示すように、ラベルありサンプルSl=(xn,yn)のN個の集合のことを、ラベルありデータDlと呼ぶ。また、ラベルなしデータDuは、文字列または記号列を示す。ここでは、式(2)に示すように、ラベルなしサンプルSu=(xm)のM個の集合のことを、ラベルなしデータDuと呼ぶ。 Of labeled data D l shows data label is applied to the string or symbol string. Here, as shown in Expression (1), the N sets of labeled samples S 1 = (x n , y n ) are referred to as labeled data D 1 . The unlabeled data Du represents a character string or a symbol string. Here, as shown in Expression (2), the M sets of unlabeled samples S u = (x m ) are referred to as unlabeled data D u .
学習支援情報記憶手段4は、学習支援情報として、後記する識別モデル用特徴抽出テンプレートと、生成モデル用特徴抽出テンプレートと、出力ラベル候補とを記憶するものである。 The learning support information storage unit 4 stores, as learning support information, an identification model feature extraction template, a generated model feature extraction template, and an output label candidate, which will be described later.
また、言語解析モデル学習装置2は、処理結果として、式(3)で示す識別モデル用パラメタベクトル集合Λと、式(4)で示す生成モデル用パラメタベクトル集合Θと、式(5)で示すモデル統合用パラメタ集合Γとをパラメタ集合記憶手段5に格納する。ここで、λiは識別モデル用パラメタベクトル、θjは生成モデル用パラメタベクトル、γi,γjはモデル統合用パラメタである。また、識別モデルは、入力される文字列または記号列を条件に予め定められたラベル候補が出現する確率を示す条件付き確率を用いて付与すべきラベルを推定するモデルである。また、生成モデルは、入力される文字列または記号列と予め定められたラベル候補とが同時に生成される確率を示す同時確率を用いて付与すべきラベルを推定するモデルである。 Further, the language analysis model learning device 2 shows, as processing results, an identification model parameter vector set Λ shown by Expression (3), a generated model parameter vector set Θ shown by Expression (4), and Expression (5). The model integration parameter set Γ is stored in the parameter set storage means 5. Here, λ i is an identification model parameter vector, θ j is a generation model parameter vector, and γ i and γ j are model integration parameters. The identification model is a model for estimating a label to be given using a conditional probability indicating a probability that a predetermined label candidate appears on the condition of an input character string or symbol string. The generation model is a model for estimating a label to be assigned using a joint probability indicating a probability that an input character string or symbol string and a predetermined label candidate are generated at the same time.
パラメタ統合装置(パラメタ統合手段)3は、言語解析モデル学習装置2から出力される生成モデル用パラメタベクトル集合Θ、モデル統合用パラメタ集合Γ、および識別モデル用パラメタベクトル集合Λとを、単一のパラメタ集合に統合するものである。式(6)に示すRは、入力される文字列または記号列に対して付与すべきラベルの事後確率を示すものである。Rは、pi Dをγiで累乗して算出される確率値をiに亘って積算した結果を示す識別モデル統合用確率値と、pj Gをγjで累乗して算出される確率値をjに亘って積算した結果を示す生成モデル統合用確率値との積の形になっている。パラメタ統合装置3は、統合されたパラメタ集合を言語解析モデル記憶手段6に格納する。 The parameter integration device (parameter integration means) 3 uses a generated model parameter vector set Θ, a model integration parameter set Γ, and an identification model parameter vector set Λ outputted from the language analysis model learning device 2 as a single unit. It is integrated into the parameter set. R shown in Equation (6) indicates the posterior probability of the label to be assigned to the input character string or symbol string. R is a probability value for integrating an identification model indicating the result of accumulating probability values calculated by powering p i D by γ i over i, and a probability calculated by raising p j G to a power of γ j It is in the form of a product with the generation model integration probability value indicating the result of integrating the values over j. The parameter integration device 3 stores the integrated parameter set in the language analysis model storage unit 6.
評価フェーズにおいて、系列構造予測装置7は、入力データであるラベルなしサンプルSuに対して、言語解析モデル記憶手段6に格納されている言語解析モデル(パラメタ統合装置3によって統合されたパラメタ集合)を用いて、付与すべきラベルを推定し、入力データに対応したラベルありサンプルSlを出力するものである。 In the evaluation phase, the sequence structure prediction apparatus 7, to the unlabeled sample S u is the input data, language analysis model stored in the language analysis model storage unit 6 (parameter set integrated by the parameter integrating unit 3) Is used to estimate the label to be given and output a labeled sample S 1 corresponding to the input data.
[言語解析モデル学習装置の構成]
図2は、図1に示した言語解析モデル学習装置の構成を模式的に示す機能ブロック図である。言語解析モデル学習装置2は、例えば、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、ROM(Read Only Memory)と、HDD(Hard Disk Drive)と、入出力インタフェース等から構成され、図2に示すように、識別モデル学習手段10と、系列構造予測器学習手段20とを備えている。
[Configuration of language analysis model learning device]
FIG. 2 is a functional block diagram schematically showing the configuration of the language analysis model learning device shown in FIG. The language analysis model learning device 2 includes, for example, a CPU (Central Processing Unit), a RAM (Random Access Memory), a ROM (Read Only Memory), an HDD (Hard Disk Drive), an input / output interface, and the like. As shown in FIG. 2, an identification model learning unit 10 and a sequence structure
<入力データ例>
図3は、図2に示した言語解析モデル学習装置に入力する情報の例を示す図であって、(a)はラベルありデータ、(b)は出力ラベル候補集合をそれぞれ示している。図3(a)に示す例は、図18(b)に示したものと同様である。ただし、形態素区切りは事前に施されているものとする。
<Example of input data>
FIG. 3 is a diagram illustrating an example of information input to the language analysis model learning apparatus illustrated in FIG. 2, where (a) illustrates data with labels and (b) illustrates an output label candidate set. The example shown in FIG. 3A is the same as that shown in FIG. However, the morpheme separation is assumed to be performed in advance.
図3(b)に示す出力ラベル候補集合は、固有表現抽出に対応したものであり、予め定められた5つの出力ラベル候補を要素としている。各要素は、図18(b)に示したものと同様である。この出力ラベル候補集合は、対象とする問題によって自動的に決定され、学習支援情報記憶手段4の出力ラベル候補記憶手段43から言語解析モデル学習装置2が取得するものである。 The output label candidate set shown in FIG. 3B corresponds to the specific expression extraction, and includes five predetermined output label candidates as elements. Each element is the same as that shown in FIG. This output label candidate set is automatically determined according to the target problem, and is acquired by the language analysis model learning device 2 from the output label candidate storage means 43 of the learning support information storage means 4.
<識別モデル学習手段>
識別モデル学習手段10は、識別モデルを用いて、入力されたラベルありデータDlを学習することで識別モデル用パラメタベクトル集合Λを作成するものであり、出力候補グラフ生成手段11と、特徴抽出手段12と、パラメタ学習手段13とを備えている。このうち、出力候補グラフ生成手段11と、特徴抽出手段12とは、学習のための前処理を行うためのものである。また、識別モデル学習手段10は、式(7)に示すラベルありデータDl′を用いる。
<Identification model learning means>
The discrimination model learning means 10 creates the discrimination model parameter vector set Λ by learning the input labeled data D l using the discrimination model. The discrimination model learning means 10 and the
≪出力候補グラフ生成手段≫
出力候補グラフ生成手段11は、入力されたラベルありデータDl′から出力候補グラフを生成するものである。出力候補グラフは、図4に示すように、可能性のあるすべての出力系列候補をパスで接続したラティス形式で表現したものである。図4は、図2に示した言語解析モデル学習装置で生成される出力候補グラフの一例を模式的に示す図である。ここで、<BOS>は、入力系列xの始まりを表す固定の特別なラベルであり、<EOS>は、入力系列xの終わりを表す固定の特別なラベルである。ラティスは、入力されたラベルありデータDl′(入力系列x)に対する出力系列yが、個々のインスタンスyi(i=1,…,5)をノード、各インスタンス間の依存関係をリンクで示したものである。出力候補グラフ中の<BOS>から<EOS>間の1つのパスは1つの出力に対応し、出力候補グラフは、とり得るすべての出力の候補を包含したグラフになっている。例えば、ノード401は、ラベルありデータDl′の4番目の単語「陸上」に対してラベル「B−組織名」を付与した出力のインスタンスを示す。同様に、ノード402は、ラベルありデータDl′の6番目の単語「の」に対してラベル「O」を付与した出力のインスタンスを示す。
<< Output candidate graph generation means >>
The output candidate graph generation means 11 generates an output candidate graph from the input labeled data D l ′ . As shown in FIG. 4, the output candidate graph is a lattice format in which all possible output series candidates are connected by a path. FIG. 4 is a diagram schematically illustrating an example of an output candidate graph generated by the language analysis model learning device illustrated in FIG. Here, <BOS> is a fixed special label indicating the beginning of the input sequence x, and <EOS> is a fixed special label indicating the end of the input sequence x. The lattice indicates that the output series y for the input labeled data D l ′ (input series x) is an individual instance y i (i = 1,..., 5) as a node, and a dependency relationship between each instance is indicated by a link. It is a thing. One path between <BOS> and <EOS> in the output candidate graph corresponds to one output, and the output candidate graph is a graph including all possible output candidates. For example, the
≪特徴抽出手段≫
特徴抽出手段12は、出力候補グラフから、推定する位置のラベルと、識別モデル用特徴抽出テンプレートに記述された入力系列中のインスタンスとの組み合わせにより、特徴を抽出するものである。識別モデル用特徴抽出テンプレートの具体例を図5に示す。図5は、識別モデル用特徴抽出テンプレートの例を示す図である。識別モデル用特徴抽出テンプレート500は、出力系列のi番目として「y4」のラベルを推定するテンプレートである。この識別モデル用特徴抽出テンプレート500は、推定する位置のラベルの前後2つずつまでに対応する入力単語を特徴として抽出するものである。したがって、特徴抽出手段12は、識別モデル用特徴抽出テンプレート500を用いた場合に、図5に示す「y4」の位置のラベルを推定するときに、図6(a)に符号601〜605で示す特徴を抽出する。具体的には、図5に示す出力系列のi番目として「y4」の位置のラベルを「B−組織名」と推定する場合には、図6(b)に符号611〜615で示す特徴を抽出する。同様に、図5に示す出力系列のi番目として「y4」の位置のラベルを「B−人名」と推定する場合には、図6(c)に符号621〜625で示す特徴を抽出する。
≪Feature extraction means≫
The feature extraction means 12 extracts features from the output candidate graph by combining the position label to be estimated and the instances in the input series described in the feature extraction template for identification model. A specific example of the feature extraction template for the identification model is shown in FIG. FIG. 5 is a diagram illustrating an example of an identification model feature extraction template. The identification model
また、特徴抽出手段12は、出力候補グラフと識別モデル用特徴抽出テンプレートを用いて、出力候補グラフの各ノード(またはリンク)に特徴ベクトルを付与し、特徴ベクトル付き出力候補グラフを生成する。出力候補グラフと特徴ベクトルとの関係を図7に示す。図7は、図4に丸で示したノードに対して、図5に示した識別モデル用特徴抽出テンプレートを用いて作成された特徴ベクトルの説明図である。図7(a)は、図4に示したノード401に付与される特徴を示す。特徴抽出手段12は、これらの特徴には値「1」を紐付け、また、ノード401に付与されない別の特徴には値「0」を紐付けることで、「1」と「0」とを要素に持つ特徴ベクトルを形成する。特徴抽出手段12は、前後2単語のいずれかと、対象とするノードが属する出力ラベルとの組合せで特徴を生成するため、入力系列の単語の同じ位置で出力ラベルの違うノードの特徴ベクトルは、それぞれ互いに直交するので、それらの内積をとると「0」となる。図7(b)は、図4に示したノード402に付与される特徴を示す。これも同様なので説明を省略する。
In addition, the
≪パラメタ学習手段≫
パラメタ学習手段13は、特徴ベクトル付き出力候補グラフと、初期化されたパラメタベクトル(すべての要素が0のベクトル)を用いて識別アプローチの教師あり学習を行うものである。ここでは、パラメタ学習手段13は、条件付き確率場に基づいて識別モデル用パラメタベクトル集合Λの学習を行うために、図2に示すように、目的関数計算手段131と、目的関数勾配計算手段132と、収束判定手段133と、パラメタ更新手段134とを備えている。なお、条件付き確率場については、例えば、「F. Sha and F. Pereira, Shallow Parsing with Conditio1al Random Fields, In Proc. of HLT/NAACL-2003. pages 213-220, 2003」に詳述されているので説明を省略する。
≪Parameter learning means≫
The parameter learning means 13 performs supervised learning of an identification approach using an output candidate graph with feature vectors and an initialized parameter vector (a vector in which all elements are 0). Here, the
目的関数計算手段131は、識別モデル用パラメタベクトルλが入力された目的関数を計算するものである。ここでは、前提として、入力系列x(ラベルありデータ)が与えられた際の系列中の位置sから得られる局所的な特徴ベクトルfsを式(8)で定義する。
The objective
また、条件付き確率場は、各クリーク(clique)上のポテンシャル関数の積と全体の比率とを用いて条件付き確率p(y|x)を定義する。つまり、条件付き確率場による入力系列xに対する出力系列yの条件付き確率p(y|x)は、式(9)で定義される。また、式(9)中のZ(x)は、式(10)に示すように、すべての出力yに対する正規化項にあたる。 The conditional random field defines the conditional probability p (y | x) using the product of the potential function on each clique and the overall ratio. That is, the conditional probability p (y | x) of the output sequence y with respect to the input sequence x by the conditional random field is defined by Expression (9). Further, Z (x) in equation (9) corresponds to a normalization term for all outputs y as shown in equation (10).
目的関数計算手段131は、与えられたラベルありデータDl′を利用して、パラメタベクトルλの(対数)事後確率最大化を行うものである。つまり、目的関数計算手段131は、logp(λ|Dl′)の最大化を行う。具体的には、目的関数計算手段131は、式(11)で示される目的関数LCRF(λ)を計算する。ただし、p(λ)はλの事前確率分布を表す。式(11)に示した目的関数を最適化するには、L−BFGSといった勾配に基づく数値最適化法を適用することができる。なお、L−BFGSについては、「D. C. Liu and J. Nocedal, On the Limited Memory BFGS Method for Large Scale Optimization Math. Programming,Ser.B, 45(3):503-528,1989」に記載されているので、説明を省略する。
The objective
目的関数勾配計算手段132は、式(11)に示した目的関数の勾配を計算するものである。式(11)に示した目的関数の勾配∇LCRF(λ)は、式(12)で示される。 The objective function gradient calculation means 132 is for calculating the gradient of the objective function shown in the equation (11). The gradient ∇L CRF (λ) of the objective function shown in Expression (11) is expressed by Expression (12).
ここで、Eは添字の期待値を示す。また、右辺第1項は、特徴ベクトルの経験的期待値なので、ラベルありデータから正解系列に表れる特徴を数え上げることで容易に計算できる。また、その値はラベルありデータにのみ依存する値なので、学習前に一度計算すればよい。また、式(12)の右辺第2項は、すべての出力系列に対する各特徴ベクトルが出現する期待値となっている。よって、すべての可能な出力系列について個別に計算する必要がある。しかも、構造予測問題においては、一般に、すべての可能な出力の総数が非常に膨大な数となるため、すべての可能な出力を個々に計算することは計算量の観点から非常に困難である。しかしながら、系列構造予測問題に関しては、forward-backwardアルゴリズムを用いて効率的に期待値が計算できることが知られているため、現実的な時間で処理を実行することが可能となっている(非特許文献1参照)。 Here, E indicates the expected value of the subscript. Also, the first term on the right side is an empirical expected value of the feature vector, so it can be easily calculated by counting the features appearing in the correct answer sequence from the labeled data. Further, since the value depends only on the labeled data, it may be calculated once before learning. The second term on the right side of equation (12) is an expected value at which each feature vector for all output sequences appears. Thus, all possible output sequences need to be calculated individually. Moreover, in the structure prediction problem, the total number of all possible outputs is generally very large, and it is very difficult to calculate all possible outputs individually from the viewpoint of computational complexity. However, regarding the sequence structure prediction problem, it is known that the expected value can be calculated efficiently using the forward-backward algorithm, so that it is possible to execute the process in a realistic time (non-patent) Reference 1).
収束判定手段133は、各特徴の経験的期待値とすべての出力に対する各特徴の期待値との差が収束したか否かを判別するものである。具体的には、収束判定手段133は、式(12)で示される目的関数の勾配∇LCRF(λ)の値が収束したか否かを判別する。また、収束判定手段133は、目的関数の勾配∇LCRF(λ)の値が収束したと判定した場合には、その時点の識別モデル用パラメタベクトルλを識別モデル用パラメタベクトル集合記憶手段51に出力する。出力される識別モデル用パラメタベクトル(列ベクトル)の一例を図8に示す。パラメタ更新手段134は、目的関数の勾配∇LCRF(λ)の値が収束していない場合に、識別モデル用パラメタベクトルλを更新するものである。
The
本実施形態では、識別モデル学習手段10は、同一のラベルありデータから複数の識別モデルを学習することが可能である。例えば、識別モデル用特徴抽出テンプレートを変更することによって、複数の異なった識別モデルを作成することができる。なお、識別モデルの数に関しては、特に限定されるものではなく、設計者が、タスクなどに応じて、例えば、1〜数千まで自由に決定することができる。本実施形態では、識別モデル学習手段10により作成された異なる(I個の)識別モデル用パラメタベクトルλiをすべて合わせて前記した式(3)で表す。 In the present embodiment, the identification model learning means 10 can learn a plurality of identification models from the same labeled data. For example, a plurality of different identification models can be created by changing the identification model feature extraction template. Note that the number of identification models is not particularly limited, and the designer can freely determine, for example, 1 to several thousand according to the task or the like. In the present embodiment, all the different (I) identification model parameter vectors λ i created by the identification model learning means 10 are represented by the above-described equation (3).
<系列構造予測器学習手段>
系列構造予測器学習手段20は、識別モデル用パラメタベクトル集合記憶手段51に記憶された識別モデル用パラメタベクトル集合Λを入力として、交互に処理を実行する生成モデル学習手段21およびモデル統合学習手段22と、この交互処理を所定の終了条件に達するまで行わせる収束判定手段23とを備えている。
<Sequence structure predictor learning means>
The sequence structure
生成モデル学習手段21は、入力されたラベルなしデータDuを利用して、予め学習された識別モデル用パラメタベクトル集合Λと、予め定められたモデル統合用パラメタ集合Γとを学習することで第1目的関数を最大化するような生成モデル用パラメタベクトル集合Θを決定するものである。 The generation model learning means 21 uses the input unlabeled data Du to learn the identification model parameter vector set Λ previously learned and the predetermined model integration parameter set Γ. A generation model parameter vector set Θ that maximizes one objective function is determined.
モデル統合学習手段22は、入力されたラベルありデータDlを利用して、識別モデル用パラメタベクトル集合Λと、生成モデル用パラメタベクトル集合Θとを学習することで第2目的関数を最大化するようなモデル統合用パラメタ集合Γを決定するものである。 The model integrated learning means 22 maximizes the second objective function by learning the identification model parameter vector set Λ and the generated model parameter vector set Θ using the input labeled data D l. Such a model integration parameter set Γ is determined.
収束判定手段23は、生成モデル学習手段21およびモデル統合学習手段22に対して、生成モデル用パラメタベクトル集合Θとモデル統合用パラメタ集合Γとを交互に決定させて、いずれか一方が所定の収束条件を満たすときに、その時点の生成モデル用パラメタベクトル集合Θとモデル統合用パラメタ集合Γとを出力するものである。
The
<学習支援情報記憶手段>
学習支援情報記憶手段4は、識別モデル用特徴抽出テンプレート記憶手段41と、生成モデル用特徴抽出テンプレート記憶手段42と、出力ラベル候補記憶手段43とを備えている。識別モデル用特徴抽出テンプレート記憶手段41は、識別モデル用特徴抽出テンプレートを記憶するものである。生成モデル用特徴抽出テンプレート記憶手段42は、生成モデル用特徴抽出テンプレートを記憶するものである。出力ラベル候補記憶手段43は、出力ラベル候補を記憶するものである。なお、各記憶手段41,42,43は、例えば、一般的なハードディスクやメモリから構成される。
<Learning support information storage means>
The learning support information storage unit 4 includes an identification model feature extraction
<パラメタ集合記憶手段>
パラメタ集合記憶手段5は、識別モデル用パラメタベクトル集合記憶手段51と、生成モデル用パラメタベクトル集合記憶手段52と、モデル統合用パラメタ集合記憶手段53とを備えている。識別モデル用パラメタベクトル集合記憶手段51は、識別モデル用パラメタベクトル集合Λを記憶するものである。生成モデル用パラメタベクトル集合記憶手段52は、生成モデル用パラメタベクトル集合Θを記憶するものである。モデル統合用パラメタ集合記憶手段53は、モデル統合用パラメタ集合Γを記憶するものである。なお、各記憶手段51,52,53は、例えば、一般的なハードディスクやメモリから構成される。
<Parameter set storage means>
The parameter set storage unit 5 includes an identification model parameter vector set
[系列構造予測器学習手段の構成]
図9は、図2に示した系列構造予測器学習手段の構成を模式的に示す機能ブロック図である。
≪生成モデル学習手段≫
生成モデル学習手段21は、出力候補グラフ生成手段211と、特徴抽出手段212と、目的関数計算手段213と、補助関数計算手段214と、パラメタ更新手段215とを備えている。このうち、出力候補グラフ生成手段211と、特徴抽出手段212とは、学習のための前処理を行うためのものである。また、生成モデル学習手段21は、前記した式(2)に示すラベルなしデータDuを用いる。
[Configuration of Sequence Structure Predictor Learning Means]
FIG. 9 is a functional block diagram schematically showing the configuration of the sequence structure predictor learning unit shown in FIG.
≪Generation model learning means≫
The generation
出力候補グラフ生成手段211は、図2に示した識別モデル学習手段10の出力候補グラフ生成手段11と同様なので説明を省略する。
特徴抽出手段212は、出力候補グラフから、推定する位置のラベルと、生成モデル用特徴抽出テンプレートに記述された入力系列中のインスタンスとの組み合わせにより、特徴を抽出する。生成モデル用特徴抽出テンプレートの具体例を図10に示す。図10は、生成モデル用特徴抽出テンプレートの例を示す図である。生成モデル用特徴抽出テンプレートの基本的なフォーマットは、識別モデル用特徴抽出テンプレートと同様であり、特徴の抽出方法も同様である。唯一の違いは、生成モデル用特徴抽出テンプレートは、隠れマルコフモデルの制約として抽出される素性が互いに独立であるという条件を満たす必要がある。よって、この独立の条件を満たしている場合には、識別モデル用特徴抽出テンプレートと同じテンプレートを利用してもよい。また、全く違ったテンプレートにしてもよく、対象とするタスクや事前知識により自由に設計することができる。
The output candidate graph generation unit 211 is the same as the output candidate graph generation unit 11 of the identification model learning unit 10 shown in FIG.
The feature extraction unit 212 extracts a feature from the output candidate graph by combining the estimated position label and the instance in the input series described in the generated model feature extraction template. A specific example of the generated model feature extraction template is shown in FIG. FIG. 10 is a diagram illustrating an example of a generated model feature extraction template. The basic format of the generation model feature extraction template is the same as that of the identification model feature extraction template, and the feature extraction method is also the same. The only difference is that the feature extraction template for the generated model needs to satisfy the condition that the features extracted as constraints of the hidden Markov model are independent from each other. Therefore, when this independent condition is satisfied, the same template as the identification model feature extraction template may be used. Moreover, it may be a completely different template, and can be designed freely according to the target task and prior knowledge.
図10に例示した生成モデル用特徴抽出テンプレート1000は、推定する位置のラベルとその前のラベルに対応する入力単語を特徴として抽出するものである。したがって、特徴抽出手段212は、生成モデル用特徴抽出テンプレート1000を用いた場合に、図10に示す「y4」の位置のラベルを推定するときに、図11(a)に示す特徴を抽出する。具体的には、図10に示す出力系列のi番目として「y4」の位置のラベルを「B−組織名」と推定する場合には、図11(b)に示す特徴を抽出する。同様に、図10に示す出力系列のi番目として「y4」の位置のラベルを「B−人名」と推定する場合には、図11(c)に示す特徴を抽出する。また、特徴抽出手段212は、出力候補グラフと生成モデル用特徴抽出テンプレートを用いて、出力候補グラフの各ノードおよびリンクにシンボル生成確率および遷移確率を付与し、確率付き出力候補グラフを出力する。
The generation model
目的関数計算手段213は、確率付き出力候補グラフと、生成モデル用パラメタベクトル集合Θ(t)とが入力された目的関数(第1目的関数)Gを計算するものである。目的関数Gの前提として、前記した式(6)のR(y|x;Λ,Θ,Γ)に基づき、入力系列xを与えた際の出力系列yの識別関数(discriminant function)g(y|x;Λ,Θ,Γ)を考える。前記した式(6)右辺の分母は正規化項なのでyの決定には寄与しないため、識別関数g(y|x;Λ,Θ,Γ)は、式(6)右辺の分子のみを用いて以下のように定義できる。 The objective function calculation means 213 calculates an objective function (first objective function) G to which the output candidate graph with probability and the generation model parameter vector set Θ (t) are input. As a premise of the objective function G, based on R (y | x; Λ, Θ, Γ) of Equation (6) described above, a discriminant function g (y Consider | x; Λ, Θ, Γ). Since the denominator on the right side of the equation ( 6 ) is a normalized term, it does not contribute to the determination of y. Therefore, the discriminant function g (y | x; Λ, Θ, Γ) uses only the numerator on the right side of the equation ( 6 ). It can be defined as follows:
すべての出力yに対する識別関数gの出力値の合計を、式(14)に示す目的関数G(Θ|Γ)で定義する。ここで、p(Θ)は、生成モデル用パラメタベクトル集合Θに対する事前確率分布を表している。したがって、目的関数計算手段213は、式(14)に示す目的関数G(Θ|Γ)を計算する。 The sum of the output values of the discrimination function g for all outputs y is defined by an objective function G (Θ | Γ) shown in Expression (14). Here, p (Θ) represents a prior probability distribution for the generation model parameter vector set Θ. Therefore, the objective function calculation means 213 calculates an objective function G (Θ | Γ) shown in Expression (14).
補助関数計算手段214は、式(14)で示される目的関数G(Θ|Γ)を最大化するパラメタベクトル集合Θを求める処理を行う。つまり、Γが既知のとき、G(Θ|Γ)を初期値近傍で最大化するΘを、EMアルゴリズムのような反復計算によって推定することができる。具体的には、補助関数計算手段214は、式(15)に示すQ関数(補助関数)が最大になるパラメタベクトル集合Θ′を、現在のパラメタベクトル集合Θより求め、Θ′がΘに対して増大しなくなるまでΘをΘ′で置き換えながら繰り返しQ関数を求める。
The auxiliary
式(15)に示すQ関数(Q(Θ′,Θ;Γ))の形は、隠れマルコフモデルと同じ形であるため、隠れマルコフモデルで用いられるBaum-Welchアルゴリズムを用いて効率的にパラメタ更新することができる。ただし、隠れマルコフモデルでは、条件付き確率p(y|x;θ)を用いて周辺確率を計算するが、本実施形態では、式(6)で示すR(y|x;Λ,Θ,Γ)を用いて周辺確率を計算する点が異なる。
パラメタ更新手段215は、収束判定手段23によって、収束していないと判定された場合に、生成モデル用パラメタベクトル集合Θ(t)を更新するものである。
Since the form of the Q function (Q (Θ ′, Θ; Γ)) shown in Equation (15) is the same as the hidden Markov model, the parameters can be efficiently obtained using the Baum-Welch algorithm used in the hidden Markov model. Can be updated. However, in the hidden Markov model, the peripheral probability is calculated using the conditional probability p (y | x; θ), but in this embodiment, R (y | x; Λ, Θ, Γ shown in Expression (6). ) Is used to calculate the marginal probability.
The
この生成モデル学習手段21において、ラベルなしデータDuを用いて式(14)で示される目的関数G(Θ|Γ)を最大化させることは、あらゆる未知入力系列xに対して、出力系列y間の識別関数gが大きい値を与えることを意味し、それは、識別の信頼性を高くすることに貢献する。なぜならば、仮に、識別関数gがすべての出力系列yに対して非常に小さい値を与えるような状況を想定してみると、すべての出力系列y間での識別関数gの値の差が非常に小さくなってほぼ同じ値となることと等価であるために、識別の信頼性は低いと考えることができるからである。また、系列構造予測器学習手段20は、ラベルなしデータDuを識別関数gのすべての出力に対する総和を最大化(増加)させるためにのみに利用するのであって、ラベルなしデータDuを最終的な系列構造予測器の最適化には直接用いることはしない。これは、ラベルなしデータDuは正解出力が不明であるため、出力系列yに対する識別器の最適化には貢献できないためである。
In this product
≪モデル統合学習手段≫
モデル統合学習手段22は、任意の生成モデル用パラメタベクトル集合Θに対して、モデル統合用パラメタ集合Γに対する事後確率最大化(MAP:Maximum A Posteriori)によるパラメタ推定(MAP推定)を行うものであり、目的関数(第2目的関数)を最大化するようなモデル統合用パラメタ集合Γを推定する。このモデル統合学習手段22は、出力候補グラフ生成手段221と、特徴抽出手段222と、目的関数計算手段223と、識別モデル用偏微分計算手段224と、生成モデル用偏微分計算手段225と、パラメタ更新手段226とを備えている。このうち、出力候補グラフ生成手段221と、特徴抽出手段222とは、図2に示した識別モデル学習手段10の出力候補グラフ生成手段11と、特徴抽出手段12と同様なので説明を省略する。また、モデル統合学習手段22は、前記した式(1)に示すラベルありデータDlを用いる。
≪Model integrated learning means≫
The model integrated learning means 22 performs parameter estimation (MAP estimation) by posterior probability maximization (MAP: Maximum A Posteriori) for the model integration parameter set Γ for an arbitrary generated model parameter vector set Θ. Then, a parameter set Γ for model integration that maximizes the objective function (second objective function) is estimated. The model integrated learning
目的関数計算手段223は、モデル統合用パラメタ集合Γ(t)が入力された目的関数(第2目的関数)LSS-Hybを計算するものである。目的関数LSS-Hyb(Γ|Θ)は、式(16)で定義される。ただし、p(Γ)をΓの事前確率分布とする。 The objective function calculation means 223 calculates an objective function (second objective function) L SS-Hyb to which the model integration parameter set Γ (t) is input. The objective function L SS-Hyb (Γ | Θ) is defined by Expression (16). However, p (Γ) is a prior probability distribution of Γ.
任意の固定されたΘ上で、目的関数LSS-Hyb(Γ|Θ)はパラメタ集合Γに対して凸関数となるので、この最適化は大域的最適解が保証される。よって、目的関数LSS-Hyb(Γ|Θ)の勾配を計算すれば、L−BFGSといった勾配を用いる最適化アルゴリズムを適用して容易に解を得ることができる。 Since the objective function L SS-Hyb (Γ | Θ) is a convex function with respect to the parameter set Γ on any fixed Θ, this optimization guarantees a global optimal solution. Therefore, if the gradient of the objective function L SS-Hyb (Γ | Θ) is calculated, a solution can be easily obtained by applying an optimization algorithm using a gradient such as L-BFGS.
識別モデル用偏微分計算手段224は、式(16)に示す目的関数LSS-Hyb(Γ|Θ)を識別モデル(本実施形態ではCRF)用のモデル統合パラメタγiで偏微分する計算を行うものである。具体的には、識別モデル用偏微分計算手段224は、式(17)の右辺を計算する。式(17)の右辺第1項と第2項とは最適化処理中には定数となるため、事前に一度計算しておけばよい。式(17)の右辺第3項の計算については、説明の都合上、後記する。
The partial differential calculation means 224 for the identification model performs a calculation for partial differentiation of the objective function L SS-Hyb (Γ | Θ) shown in Expression (16) by the model integration parameter γ i for the identification model (CRF in this embodiment). Is what you do. Specifically, the partial differential calculation means for
生成モデル用偏微分計算手段225は、式(16)に示す目的関数LSS-Hyb(Γ|Θ)を生成モデル用のモデル統合パラメタγjで偏微分する計算を行うものである。具体的には、生成モデル用偏微分計算手段225は、式(18)の右辺を計算する。 The partial differential calculation means for generation model 225 performs a calculation for partial differentiation of the objective function L SS-Hyb (Γ | Θ) shown in Expression (16) with the model integration parameter γ j for the generation model. Specifically, the generation model partial differential calculation means 225 calculates the right side of the equation (18).
式(18)の右辺第1項は最適化処理中には定数となるため、事前に一度計算しておけばよい。次に、式(18)の右辺第2項の計算について、前記した式(17)の右辺第3項の計算と合わせて説明する。ここで、前記した式(6)右辺の分母をNR(x)で表すとすると、前記した式(6)は式(19)のように書き表すことができる。 Since the first term on the right side of Equation (18) becomes a constant during the optimization process, it may be calculated once in advance. Next, the calculation of the second term on the right side of Equation (18) will be described together with the calculation of the third term on the right side of Equation (17). Here, if the denominator on the right side of Equation (6) is expressed by N R (x), Equation (6) can be expressed as Equation (19).
この式(19)によれば、各位置sのコストは、識別モデルと生成モデルの各位置sに対応する値の総乗で求められ、式(19)に示す条件付き確率R(y|x;Λ,Θ,Γ)は、そのコストのすべての位置での総乗と全体の比率で表される。式(17)の右辺第3項と式(18)の右辺第2項は、各モデルの出力値に対する期待値であるため式(19)から、forward-backwardアルゴリズムを用いて効率的に計算できる。つまり、Γの推定は、従来、条件付き確率場で用いられていたものと全く同じforward-backwardアルゴリズムを用いて効率的に導出できる。
パラメタ更新手段226は、収束判定手段23によって、収束していないと判定された場合に、モデル統合用パラメタ集合Γ(t)を更新するものである。
According to this equation (19), the cost of each position s is obtained by the sum of the values corresponding to each position s of the identification model and the generation model, and the conditional probability R (y | x shown in equation (19) ; Λ, Θ, Γ) is expressed as the sum of the cost at all positions and the overall ratio. Since the third term on the right side of Equation (17) and the second term on the right side of Equation (18) are expected values for the output values of each model, they can be efficiently calculated from Equation (19) using the forward-backward algorithm. . In other words, the estimation of Γ can be efficiently derived using the same forward-backward algorithm as conventionally used in the conditional random field.
The parameter updating unit 226 updates the model integration parameter set Γ (t) when the
本実施形態では、収束判定手段23の判別する収束条件として、式(20)で示すΔが所定値以下になったときに収束したものと判定する。これは、モデル統合用パラメタ集合Γが、固定の生成モデル用パラメタベクトル集合Θに対して大域的最適解を持つためである。なお、式(20)に示すΔの代わりに、例えば、|Θ(t)−Θ(t-1)|、|Γ(t)−Γ(t-1)|等を用いるようにしても構わない。 In the present embodiment, the convergence condition determined by the convergence determination means 23 is determined to have converged when Δ shown in Expression (20) becomes a predetermined value or less. This is because the model integration parameter set Γ has a global optimal solution for the fixed generation model parameter vector set Θ. For example, | Θ (t) −Θ (t−1) |, | Γ (t) −Γ (t−1) |, etc. may be used instead of Δ shown in Expression (20). Absent.
以上の構成によって、収束判定手段23は、収束したと判定した場合には、その時点の生成モデル用パラメタベクトル集合Θを生成モデル用パラメタベクトル集合記憶手段52に出力すると共に、その時点のモデル統合用パラメタ集合Γをモデル統合用パラメタ集合記憶手段53に出力する。出力される生成モデル用パラメタベクトル(列ベクトル)の一例を図12に示す。また、出力されるモデル統合用パラメタ集合の一例を列ベクトル形式で図13に示す。
With the above configuration, when the
なお、生成モデル学習手段21と、モデル統合学習手段22とは、CPUが記憶手段のHDD等に格納された所定のプログラムをRAMに展開して実行することによりその機能が実現されるものである。 The generation model learning means 21 and the model integrated learning means 22 are realized by the CPU developing and executing a predetermined program stored in the HDD or the like of the storage means on the RAM. .
[言語解析モデル作成装置の動作]
図1に示した言語解析モデル作成装置の動作について主に言語解析モデル学習装置2の動作を中心に図14を参照(適宜図1および図2参照)して説明する。図14は、図1に示した言語解析モデル作成装置の動作を示すフローチャートである。言語解析モデル作成装置1の言語解析モデル学習装置2は、ラベルありデータDl、ラベルなしデータDu、および、学習支援情報を入力する(ステップS1)。学習支援情報としては、対象とする問題により自動的に決定される「出力ラベル候補集合」、対象とする問題により人手にて決定される「識別モデル用特徴抽出テンプレートおよび生成モデル用特徴抽出テンプレート」を入力する。
[Operation of language analysis model creation device]
The operation of the language analysis model creation apparatus shown in FIG. 1 will be described with reference to FIG. 14 (refer to FIGS. 1 and 2 as appropriate), mainly focusing on the operation of the language analysis model learning apparatus 2. FIG. 14 is a flowchart showing the operation of the language analysis model creation device shown in FIG. The language analysis model learning device 2 of the language analysis
そして、言語解析モデル学習装置2は、識別モデル学習手段10によって、ラベルありデータDl′、出力ラベル候補集合、および、識別モデル用特徴抽出テンプレートを用いて、教師あり学習処理(条件付き確率場)を実行し(ステップS2)、教師あり学習処理の結果得られた識別モデル用パラメタベクトル集合Λを識別モデル用パラメタベクトル集合記憶手段51に出力する(ステップS3)。そして、言語解析モデル学習装置2は、系列構造予測器学習手段20によって、識別モデル用パラメタベクトル集合記憶手段51から識別モデル用パラメタベクトル集合Λを取得して入力し(ステップS4)、生成モデル用パラメタベクトル集合Θおよびモデル統合用パラメタ集合Γをt=0で初期化する(ステップS5)。
Then, the language analysis model learning device 2 uses the identification model learning means 10 to perform supervised learning processing (conditional random field using the labeled data D l ′ , the output label candidate set, and the identification model feature extraction template. ) (Step S2), and outputs the identification model parameter vector set Λ obtained as a result of the supervised learning process to the identification model parameter vector set storage means 51 (step S3). Then, the language analysis model learning device 2 acquires and inputs the identification model parameter vector set Λ from the identification model parameter vector set
次に、言語解析モデル学習装置2は、系列構造予測器学習手段20の生成モデル学習手段21によって、ラベルなしデータDu、出力ラベル候補集合、および、生成モデル用特徴抽出テンプレートを用いて、生成モデル用パラメタベクトル集合推定処理を実行する(ステップS6)。この処理は、詳細は後記するが、固定したΛとΓの下でΘを推定するものである。そして、言語解析モデル学習装置2は、系列構造予測器学習手段20のモデル統合学習手段22によって、ラベルありデータDL、出力ラベル候補集合を用いて、モデル統合用パラメタ集合推定処理を実行する(ステップS7)。この処理は、詳細は後記するが、固定したΛとΘの下でΓを推定するものである。
Next, the language analysis model learning device 2 uses the generation
そして、言語解析モデル学習装置2は、収束判定手段23によって、モデル統合用パラメタ集合Γが収束したか否かを判別する(ステップS8)。収束していない場合(ステップS8:No)、言語解析モデル学習装置2は、系列構造予測器学習手段20によって、現在のtの値に「1」を加え(ステップS9)、ステップS6に戻る。一方、収束した場合(ステップS8:Yes)、言語解析モデル学習装置2は、系列構造予測器学習手段20によって、現時点の生成モデル用パラメタベクトル集合Θおよびモデル統合用パラメタ集合Γを出力する(ステップS10)。そして、言語解析モデル作成装置1のパラメタ統合装置3は、言語解析モデル学習装置2から出力される生成モデル用パラメタベクトル集合Θ、モデル統合用パラメタ集合Γ、および識別モデル用パラメタベクトル集合Λを、単一のパラメタ集合に統合する(ステップS11)。
Then, the language analysis model learning device 2 determines whether or not the model integration parameter set Γ has converged by the convergence determination unit 23 (step S8). If not converged (step S8: No), the language analysis model learning device 2 adds “1” to the current value of t by the sequence structure predictor learning unit 20 (step S9), and returns to step S6. On the other hand, when it converges (step S8: Yes), the language analysis model learning device 2 outputs the current generation model parameter vector set Θ and the model integration parameter set Γ by the sequence structure predictor learning unit 20 (step S8). S10). Then, the parameter integration device 3 of the language analysis
<教師あり学習処理>
図15は、図14に示した教師あり学習処理を示すフローチャートである。言語解析モデル学習装置2の識別モデル学習手段10は、出力候補グラフ生成手段11によって、入力されたラベルありデータDl′から出力候補グラフを生成する(ステップS21)。そして、識別モデル学習手段10は、特徴抽出手段12によって、出力候補グラフから、推定する位置のラベルと識別モデル用特徴抽出テンプレートに記述された入力系列中のインスタンスとの組み合わせにより特徴を抽出する(ステップS22)。そして、識別モデル学習手段10は、識別モデル用パラメタベクトルλの初期値をパラメタ学習手段13に入力する(ステップS23)。次に、識別モデル学習手段10のパラメタ学習手段13は、目的関数計算手段131によって、前記した式(11)で示される目的関数LCRF(λ)を計算する(ステップS24)。そして、パラメタ学習手段13は、目的関数勾配計算手段132によって、目的関数の勾配∇LCRF(λ)を前記した式(12)に基づいて計算し(ステップS25)、収束判定手段133によって、目的関数の勾配∇LCRF(λ)の値が収束したか否かを判別する(ステップS26)。収束した場合(ステップS26:Yes)、識別モデル学習手段10は、その時点の識別モデル用パラメタベクトルλを識別モデル用パラメタベクトル集合記憶手段51に出力する(ステップS27)。一方、収束していない場合(ステップS26:No)、パラメタ学習手段13は、パラメタ更新手段134によって、パラメタベクトルλを更新する(ステップS28)。
<Supervised learning process>
FIG. 15 is a flowchart showing the supervised learning process shown in FIG. The identification model learning means 10 of the language analysis model learning device 2 generates an output candidate graph from the input labeled data D1 ′ by the output candidate graph generation means 11 (step S21). Then, the identification model learning unit 10 extracts a feature from the output candidate graph by the combination of the label of the position to be estimated and the instance in the input sequence described in the feature extraction template for the identification model by the feature extraction unit 12 ( Step S22). Then, the discrimination model learning means 10 inputs the initial value of the discrimination model parameter vector λ to the parameter learning means 13 (step S23). Next, the parameter learning means 13 of the discrimination model learning means 10 calculates the objective function L CRF (λ) represented by the above-described equation (11) by the objective function calculation means 131 (step S24). Then, the parameter learning means 13 calculates the objective function gradient ∇L CRF (λ) based on the above equation (12) by the objective function gradient calculating means 132 (step S25), and the
<生成モデル用パラメタベクトル集合推定処理>
図16は、図14に示した生成モデル用パラメタベクトル集合推定処理を示すフローチャートである。言語解析モデル学習装置2の生成モデル学習手段21は、出力候補グラフ生成手段211によって、入力されたラベルなしデータDuから出力候補グラフを生成する(ステップS41)。そして、生成モデル学習手段21は、特徴抽出手段212によって、出力候補グラフから、推定する位置のラベルと生成モデル用特徴抽出テンプレートに記述された入力系列中のインスタンスとの組み合わせにより特徴を抽出する(ステップS42)。そして、生成モデル学習手段21は、生成モデル用パラメタベクトル集合Θ(t)を目的関数計算手段213に入力する(ステップS43)。次に、生成モデル学習手段21は、目的関数計算手段213によって、前記した式(14)に示す目的関数G(Θ|Γ)を計算し(ステップS44)、補助関数計算手段214によって、式(15)に示すQ関数(Q(Θ′,Θ;Γ))を計算する(ステップS45)。そして、生成モデル学習手段21は、処理の結果として生成モデル用パラメタベクトル集合Θ(t+1)を収束判定手段23に出力する(ステップS46)。
<Generation model parameter vector set estimation processing>
FIG. 16 is a flowchart showing the generation model parameter vector set estimation processing shown in FIG. Generating
<モデル統合用パラメタ集合推定処理>
図17は、図14に示したモデル統合用パラメタ集合推定処理を示すフローチャートである。言語解析モデル学習装置2のモデル統合学習手段22は、出力候補グラフ生成手段221によって、入力されたラベルありデータDlから出力候補グラフを生成する(ステップS61)。そして、モデル統合学習手段22は、特徴抽出手段222によって、出力候補グラフから、推定する位置のラベルと識別モデル用特徴抽出テンプレートに記述された入力系列中のインスタンスとの組み合わせにより特徴を抽出する(ステップS62)。そして、モデル統合学習手段22は、モデル統合用パラメタ集合Γ(t)を目的関数計算手段223に入力する(ステップS63)。次に、モデル統合学習手段22は、目的関数計算手段223によって、前記した式(16)に示す目的関数LSS-Hyb(Γ|Θ)を計算し(ステップS64)、識別モデル用偏微分計算手段224によって、前記した式(17)に基づいて、識別モデルのパラメタγiによる偏微分を計算し(ステップS65)、生成モデル用偏微分計算手段225によって、前記した式(18)に基づいて、生成モデルのパラメタγjによる偏微分を計算する(ステップS66)。そして、モデル統合学習手段22は、処理の結果としてモデル統合用パラメタ集合Γ(t+1)を収束判定手段23に出力する(ステップS67)。
<Model set parameter set estimation process>
FIG. 17 is a flowchart showing the model integration parameter set estimation processing shown in FIG. Model integrated
なお、言語解析モデル学習装置2は、一般的なコンピュータに、前記した各ステップを実行させる言語解析モデル学習プログラムを実行することで実現することもできる。このプログラムは、通信回線を介して配布することも可能であるし、CD−ROM等の記録媒体に書き込んで配布することも可能である。 The language analysis model learning device 2 can also be realized by executing a language analysis model learning program that causes a general computer to execute each step described above. This program can be distributed via a communication line, or can be written on a recording medium such as a CD-ROM for distribution.
本実施形態の言語解析モデル学習装置2によれば、ラベルなしデータDuを利用して生成モデル用パラメタベクトル集合Θを決定し、決定された生成モデル用パラメタベクトル集合ΘとラベルありデータDlとを利用してモデル統合用パラメタ集合Γを決定することで、生成アプローチにより取り込んだラベルなしデータDuを識別アプローチにより学習することができる。そのため、獲得が比較的簡単なラベルなしデータDuを利用して構造予測器の学習を行うことが可能となる。その結果、ラベルありデータDlの量が同じであれば、従来の条件付き確率場の学習方法よりも性能がよい構造予測器の学習を行うことが可能となる。また、あるドメインのラベルありデータDlが存在しない場合に、同タスク別ドメインのラベルありデータDlを用いて学習した構造予測器と、対象ドメインのラベルなしデータDuとを用いて学習を行うことが可能となる。つまり、従来、ラベルありデータDlが存在しない場合には予測が困難であったドメインに対して、ラベルなしデータDuを獲得するコストのみで、高性能の構造予測器を作成することが可能となる。 According to the language analysis model learning device 2 of the present embodiment, to determine the parameter vector set Θ for generating model utilizing unlabeled data D u, with parameter vector set Θ and the label determined generated model data D l preparative by determining the model integration parameter set Γ using the unlabeled data D u captured by generation approach may be learned by the identification approach. Therefore, it is possible to learn the structure predictor using the unlabeled data Du that is relatively easy to acquire. As a result, if the amount of the labeled data D l is the same, it is possible to learn a structure predictor with better performance than the conventional conditional random field learning method. Furthermore, when the label has the data D l of a domain does not exist, the structure predictor learned using a label with data D l of the task-specific domain, a learning by using the unlabeled data D u target domain Can be done. That is, conventionally, the domain prediction is difficult when the label has the data D l is not present, only the cost of acquiring the unlabeled data D u, can create a high-performance structural predictor It becomes.
以上、本発明の実施形態について説明したが、本発明はこれに限定されるものではなく、その趣旨を変えない範囲で実施することができる。例えば、本実施形態では、識別モデル学習手段10で利用するラベルありデータと、モデル統合学習手段22で利用するラベルありデータとを別のものとして説明したが、これに限定されるものではなく、同一であっても構わない。ただし、それぞれの処理部で異なるラベルありデータを用いた方が、適合性の高い言語解析モデルが構築できることが多いことが実験的に分かっているので、識別モデル学習手段10とモデル統合学習手段22とでそれぞれ利用するラベルありデータは異なる方が好ましい。
As mentioned above, although embodiment of this invention was described, this invention is not limited to this, It can implement in the range which does not change the meaning. For example, in the present embodiment, the labeled data used by the identification model learning unit 10 and the labeled data used by the model integrated
また、本実施形態では、識別モデル用特徴抽出テンプレートおよび生成モデル用特徴抽出テンプレートが、対象とする問題により人手にて決定されるものとして説明したが、複数の問題に対応できるように予め作成された複数のテンプレートを用意しておき、対象とする問題を入力することで自動的にテンプレートを選択するように構成してもよい。
また、本実施形態では、言語解析モデル学習装置2は、識別モデル学習手段10を備えるベストモードの構成で説明したが、予め学習された識別モデル用パラメタベクトル集合Λを利用できるように構成していれば、識別モデル学習手段10を備えていなくてもよい。
また、本実施形態では、パラメタ統合装置3は、言語解析モデル学習装置2とは別に設けるものとして説明したが、言語解析モデル学習装置2に含めて構成するようにしてもよい。
In the present embodiment, the feature extraction template for the identification model and the feature extraction template for the generation model have been described as being manually determined depending on the target problem. However, the feature extraction template for the generation model is created in advance so as to deal with a plurality of problems. A plurality of templates may be prepared, and a template may be automatically selected by inputting a target problem.
In the present embodiment, the language analysis model learning device 2 has been described as having the best mode configuration including the identification model learning means 10, but is configured so that a previously learned identification model parameter vector set Λ can be used. If so, the identification model learning means 10 may not be provided.
In the present embodiment, the parameter integration device 3 has been described as being provided separately from the language analysis model learning device 2, but may be configured to be included in the language analysis model learning device 2.
1 言語解析モデル作成装置
2 言語解析モデル学習装置
10 識別モデル学習手段
11 出力候補グラフ生成手段
12 特徴抽出手段
13 パラメタ学習手段
131 目的関数計算手段
132 目的関数勾配計算手段
133 収束判定手段
134 パラメタ更新手段
20 系列構造予測器学習手段
21 生成モデル学習手段
211 出力候補グラフ生成手段
212 特徴抽出手段
213 目的関数計算手段
214 補助関数計算手段
215 パラメタ更新手段
22 モデル統合学習手段
221 出力候補グラフ生成手段
222 特徴抽出手段
223 目的関数計算手段
224 識別モデル用偏微分計算手段
225 生成モデル用偏微分計算手段
226 パラメタ更新手段
23 収束判定手段
3 パラメタ統合装置(パラメタ統合手段)
4 学習支援情報記憶手段
41 識別モデル用特徴抽出テンプレート記憶手段
42 生成モデル用特徴抽出テンプレート記憶手段
43 出力ラベル候補記憶手段
5 パラメタ集合記憶手段
51 識別モデル用パラメタベクトル集合記憶手段
52 生成モデル用パラメタベクトル集合記憶手段
53 モデル統合用パラメタ集合記憶手段
6 言語解析モデル記憶手段
7 系列構造予測装置
DESCRIPTION OF
4 learning support information storage means 41 identification model feature extraction template storage means 42 generation model feature extraction template storage means 43 output label candidate storage means 5 parameter set storage means 51 identification model parameter vector set storage means 52 generation model parameter vector Set storage means 53 Parameter set storage means for model integration 6 Language analysis model storage means 7 Sequence structure prediction device
Claims (12)
前記識別モデルは、入力される文字列または記号列を条件に予め定められたラベル候補が出現する確率を示す条件付き確率を用いて前記付与すべきラベルを推定するモデルであり、
前記生成モデルは、入力される文字列または記号列と前記予め定められたラベル候補とが同時に生成される確率を示す同時確率を用いて前記付与すべきラベルを推定するモデルであり、
前記入力されたラベルなしデータを利用して、予め学習された識別モデル用パラメタベクトル集合と、予め定められたモデル統合用パラメタ集合とを用いて、第1目的関数を最大化する生成モデル用パラメタベクトル集合を決定する生成モデル学習手段と、
前記入力されたラベルありデータを利用して、前記予め学習された識別モデル用パラメタベクトル集合と、前記生成モデル学習手段で決定された生成モデル用パラメタベクトル集合とを用いて、第2目的関数を最大化する前記モデル統合用パラメタ集合を決定するモデル統合学習手段と、を備え、
前記生成モデル学習手段で前記生成モデル用パラメタベクトル集合を決定する処理と、前記モデル統合学習手段で前記モデル統合用パラメタ集合を決定する処理とを交互に実行し、
前記生成モデル学習手段及び前記モデル統合学習手段が交互に決定した前記生成モデル用パラメタベクトル集合と前記モデル統合用パラメタ集合とのいずれか一方が所定の収束条件を満たすか否かを判別し、前記収束条件を満たすと判定したときに、その時点の前記生成モデル用パラメタベクトル集合と前記モデル統合用パラメタ集合とを出力する収束判定手段とを備え、
前記第1目的関数は、前記識別モデル用パラメタベクトル集合と、前記生成モデル用パラメタベクトル集合と、前記モデル統合用パラメタ集合とを用いて、ラベルなしデータが与えられた時のすべての出力に対する識別関数の出力値の合計を算出する関数であり、
前記第2目的関数は、前記識別モデル用パラメタベクトル集合と、前記生成モデル用パラメタベクトル集合と、前記モデル統合用パラメタ集合とを用いて、ラベルありデータを正しく識別できる度合いを算出する関数である、
ことを特徴とする言語解析モデル学習装置。 Based on the identification model and the generation model, the character string or symbol string based on the identification model and the generation model with the labeled data indicating the data with the label attached to the character string or symbol string and the unlabeled data indicating the character string or symbol string as input data A language analysis model learning device for learning a language analysis model used for estimating a label to be assigned to
The identification model is a model for estimating the label to be given using a conditional probability indicating a probability that a label candidate predetermined in the condition of an input character string or symbol string appears,
The generation model is a model for estimating the label to be assigned using a joint probability indicating a probability that an input character string or symbol string and the predetermined label candidate are generated simultaneously;
Using the unlabeled data the input, advance and parameter vector set for learning identification model, using the model integration parameter set predetermined for Generating Models that maximize the first objective function A generation model learning means for determining a parameter vector set;
Using the input labeled data , the second objective function is obtained using the previously learned identification model parameter vector set and the generated model parameter vector set determined by the generated model learning means. and a model integrated learning means for determining a pre-SL model integration parameter set you maximized,
Alternately executing the process of determining the generated model parameter vector set by the generated model learning means and the process of determining the model integration parameter set by the model integrated learning means,
One of said generated model learning means and the model integration learning means the model integration parameter set and the parameter vector set for the product model determined alternately, it is determined whether or not a predetermined convergence condition is satisfied, the Convergence determining means for outputting the generated model parameter vector set and the model integration parameter set at that time when it is determined that the convergence condition is satisfied ,
The first objective function uses the identification model parameter vector set, the generated model parameter vector set, and the model integration parameter set to identify all outputs when unlabeled data is given. A function that calculates the sum of output values of a function
The second objective function is a function that calculates a degree to which labeled data can be correctly identified using the identification model parameter vector set, the generated model parameter vector set, and the model integration parameter set. ,
A language analysis model learning device characterized by that.
前記第1目的関数として下記の式(14)に示す目的関数G(Θ|Γ)を計算する目的関数計算手段と、Objective function calculating means for calculating an objective function G (Θ | Γ) shown in the following equation (14) as the first objective function;
下記の式(14)で示される目的関数G(Θ|Γ)を、固定したΛとΓの下で最大化するパラメタベクトル集合Θを求める処理を行う補助関数計算手段と、Auxiliary function calculation means for performing processing for obtaining a parameter vector set Θ that maximizes an objective function G (Θ | Γ) represented by the following equation (14) under fixed Λ and Γ;
前記収束判定手段で前記収束条件を満たさないと判定された場合に、前記求められた生成モデル用パラメタベクトル集合Θを更新するパラメタ更新手段と、を備え、A parameter updating unit that updates the obtained generation model parameter vector set Θ when the convergence determining unit determines that the convergence condition is not satisfied, and
前記モデル統合学習手段は、The model integrated learning means includes:
前記第2目的関数として下記の式(16)に示す目的関数LThe objective function L shown in the following equation (16) as the second objective function SS-HybSS-Hyb (Γ|Θ)を、固定したΛとΘの下で計算する目的関数計算手段と、An objective function calculating means for calculating (Γ | Θ) under fixed Λ and Θ,
下記の式(16)に示す目的関数LThe objective function L shown in the following equation (16) SS-HybSS-Hyb (Γ|Θ)を識別モデル用のモデル統合パラメタγ(Γ | Θ) is the model integration parameter γ for the discrimination model ii で偏微分する計算を行う識別モデル用偏微分計算手段と、Partial differentiation calculation means for identification model for performing partial differentiation at
下記の式(16)に示す目的関数LThe objective function L shown in the following equation (16) SS-HybSS-Hyb (Γ|Θ)を生成モデル用のモデル統合パラメタγModel integration parameter γ for generating model (Γ | Θ) jj で偏微分する計算を行う生成モデル用偏微分計算手段と、A partial differential calculation means for a generation model that performs a partial differential calculation at
前記収束判定手段で前記収束条件を満たさないと判定された場合に、前記求められたモデル統合用パラメタ集合Γを更新するパラメタ更新手段と、を備えるParameter updating means for updating the obtained model integration parameter set Γ when the convergence determining means determines that the convergence condition is not satisfied.
ことを特徴とする請求項1に記載の言語解析モデル学習装置。The language analysis model learning device according to claim 1.
ラベルありデータは、ラベルありサンプル=(xLabeled data is labeled sample = (x nn ,y, Y nn )のN個の集合を示し、) N sets of
ラベルなしデータは、ラベルなしサンプル=(xUnlabeled data is unlabeled sample = (x mm )のM個の集合を示し、) Shows M sets,
Λは、下記の式(3)で示す識別モデル用パラメタベクトル集合を示し、Λ represents an identification model parameter vector set represented by the following equation (3):
Θは、下記の式(4)で示す生成モデル用パラメタベクトル集合を示し、Θ represents a generation model parameter vector set represented by the following equation (4):
Γは、下記の式(5)で示すモデル統合用パラメタ集合を示し、Γ represents a parameter set for model integration represented by the following formula (5),
pp ii DD は、識別モデルから推定される同時確率を示し、Indicates the joint probability estimated from the discrimination model,
pp jj GG は、生成モデルから推定される同時確率を示し、Indicates the joint probability estimated from the generated model,
p(Θ)は、Θに対する事前確率分布を示し、p (Θ) represents the prior probability distribution for Θ,
p(Γ)は、Γに対する事前確率分布を示す。p (Γ) represents a prior probability distribution for Γ.
前記ラベルありデータを利用して前記識別モデル用パラメタベクトル集合から推定された入力系列と出力系列との同時確率と、当該識別モデル用パラメタベクトル集合に対して予め求められた前記モデル統合用パラメタ集合とに基づいて算出される確率値を、積算対象とする前記識別モデル用パラメタベクトル集合に亘って積算した結果を示す識別モデル統合用確率値と、
前記ラベルなしデータを利用して前記生成モデル用パラメタベクトル集合から推定された入力系列と出力系列との同時確率と、当該生成モデル用パラメタベクトル集合に対して予め求められた前記モデル統合用パラメタ集合とに基づいて算出される確率値を、積算対象とする前記生成モデル用パラメタベクトル集合に亘って積算した結果を示す生成モデル統合用確率値と、の積を、
前記入力される文字列または記号列に対して付与すべきラベルの事後確率を示すパラメタ集合として含み、
前記補助関数計算手段は、
前記補助関数として下記の式(15)に示すQ関数を用いて、このQ関数が最大になるパラメタベクトル集合Θ′を、現在のパラメタベクトル集合Θより求め、Θ′がΘに対して増大しなくなるまでΘをΘ′で置き換えながら繰り返しQ関数を求めることで、前記目的関数G(Θ|Γ)を最大化するパラメタベクトル集合Θを求める
ことを特徴とする請求項2に記載の言語解析モデル学習装置。
The joint probability of the input sequence and the output sequence estimated from the identification model parameter vector set using the labeled data, and the model integration parameter set obtained in advance for the identification model parameter vector set The probability value calculated based on the identification model integration probability value indicating the result of integrating over the identification model parameter vector set to be integrated, and
The joint probability of the input sequence and the output sequence estimated from the generation model parameter vector set using the unlabeled data, and the model integration parameter set obtained in advance for the generation model parameter vector set The product of the probability value calculated based on the generation model integration probability value indicating the result of integrating the probability value calculated over the generation model parameter vector set to be integrated,
I viewed including as a parameter set indicating a posteriori probability of the label to be assigned to a character string or symbol string is the input,
The auxiliary function calculating means includes:
Using the Q function shown in the following equation (15) as the auxiliary function, a parameter vector set Θ ′ that maximizes the Q function is obtained from the current parameter vector set Θ, and Θ ′ increases with respect to Θ. by obtaining the repetition Q function while replacing the theta until no in theta ', the objective function G | claim 2, characterized in <br/> obtaining parameters vector set theta to maximize (theta gamma) Language analysis model learning device.
前記識別モデルは、入力される文字列または記号列を条件に予め定められたラベル候補が出現する確率を示す条件付き確率を用いて前記付与すべきラベルを推定するモデルであり、
前記生成モデルは、入力される文字列または記号列と前記予め定められたラベル候補とが同時に生成される確率を示す同時確率を用いて前記付与すべきラベルを推定するモデルであり、
生成モデル学習手段によって、前記入力されたラベルなしデータを利用して、予め学習された識別モデル用パラメタベクトル集合と、予め定められたモデル統合用パラメタ集合とを用いて、第1目的関数を最大化する生成モデル用パラメタベクトル集合を決定するステップと、
モデル統合学習手段によって、前記入力されたラベルありデータを利用して、前記予め学習された識別モデル用パラメタベクトル集合と、前記生成モデル学習手段で決定された生成モデル用パラメタベクトル集合とを用いて、第2目的関数を最大化する前記モデル統合用パラメタ集合を決定するステップと、
を交互に実行し、
収束判定手段によって、前記生成モデル学習手段及び前記モデル統合学習手段が交互に決定した前記生成モデル用パラメタベクトル集合と前記モデル統合用パラメタ集合とのいずれか一方が所定の収束条件を満たすか否かを判別し、前記収束条件を満たすと判定したときに、その時点の前記生成モデル用パラメタベクトル集合と前記モデル統合用パラメタ集合とを出力するステップとを含み、
前記第1目的関数は、前記識別モデル用パラメタベクトル集合と、前記生成モデル用パラメタベクトル集合と、前記モデル統合用パラメタ集合とを用いて、ラベルなしデータが与えられた時のすべての出力に対する識別関数の出力値の合計を算出する関数であり、
前記第2目的関数は、前記識別モデル用パラメタベクトル集合と、前記生成モデル用パラメタベクトル集合と、前記モデル統合用パラメタ集合とを用いて、ラベルありデータを正しく識別できる度合いを算出する関数である、
ことを特徴とする言語解析モデル学習方法。 Based on the identification model and the generation model, the character string or symbol string based on the identification model and the generation model with the labeled data indicating the data with the label attached to the character string or symbol string and the unlabeled data indicating the character string or symbol string A language analysis model learning method of a language analysis model learning device for learning a language analysis model used for estimating a label to be given to
The identification model is a model for estimating the label to be given using a conditional probability indicating a probability that a label candidate predetermined in the condition of an input character string or symbol string appears,
The generation model is a model for estimating the label to be assigned using a joint probability indicating a probability that an input character string or symbol string and the predetermined label candidate are generated simultaneously;
Maximum by generation model learning unit, using the unlabeled data the input, and parameter vector set for pre-learning identification model, using the model integration parameter set predetermined first objective function determining a parameter vector set for generate models that turn into,
The model integrated learning unit, using a located labels that are the input data, the use and parameter vector set in advance for learning identification model, and a parameter vector set for generating model determined by the generation model learning means and determining the pre-SL model integration parameter set that maximize the second objective function,
Alternately
The convergence judging means, one of said model integration parameter set and the generated model parameter vector set for learning means and said generating models model integrated learning means has determined alternately whether a predetermined convergence condition is satisfied It determines the when it is determined that the convergence condition is satisfied, saw including a step of outputting said model integration parameter set and the parameter vector set for generating models that point,
The first objective function uses the identification model parameter vector set, the generated model parameter vector set, and the model integration parameter set to identify all outputs when unlabeled data is given. A function that calculates the sum of output values of a function
The second objective function is a function that calculates a degree to which labeled data can be correctly identified using the identification model parameter vector set, the generated model parameter vector set, and the model integration parameter set. ,
A language analysis model learning method characterized by this.
前記第1目的関数として下記の式(14)に示す目的関数G(Θ|Γ)を計算するステップと、Calculating an objective function G (Θ | Γ) shown in the following equation (14) as the first objective function;
予め定められた補助関数を計算することで、下記の式(14)で示される目的関数G(Θ|Γ)を、固定したΛとΓの下で最大化するパラメタベクトル集合Θを求める処理を行うステップと、By calculating a predetermined auxiliary function, a process for obtaining a parameter vector set Θ that maximizes the objective function G (Θ | Γ) expressed by the following equation (14) under fixed Λ and Γ Steps to perform,
前記収束判定手段で前記収束条件を満たさないと判定された場合に、前記求められた生成モデル用パラメタベクトル集合Θを更新するステップと、を有し、Updating the obtained generation model parameter vector set Θ when the convergence determining means determines that the convergence condition is not satisfied, and
前記モデル統合用パラメタ集合を決定するステップは、The step of determining the parameter set for model integration includes:
前記第2目的関数として下記の式(16)に示す目的関数LThe objective function L shown in the following equation (16) as the second objective function SS-HybSS-Hyb (Γ|Θ)を、固定したΛとΘの下で計算するステップと、Calculating (Γ | Θ) under fixed Λ and Θ;
下記の式(16)に示す目的関数LThe objective function L shown in the following equation (16) SS-HybSS-Hyb (Γ|Θ)を識別モデル用のモデル統合パラメタγ(Γ | Θ) is the model integration parameter γ for the discrimination model ii で偏微分する計算を行うステップと、Performing a partial differentiation with
下記の式(16)に示す目的関数LThe objective function L shown in the following equation (16) SS-HybSS-Hyb (Γ|Θ)を生成モデル用のモデル統合パラメタγModel integration parameter γ for generating model (Γ | Θ) jj で偏微分する計算を行うステップと、Performing a partial differentiation with
前記収束判定手段で前記収束条件を満たさないと判定された場合に、前記求められたモデル統合用パラメタ集合Γを更新するステップと、を有するUpdating the obtained model integration parameter set Γ when it is determined by the convergence determination means that the convergence condition is not satisfied.
ことを特徴とする請求項6に記載の言語解析モデル学習方法。The language analysis model learning method according to claim 6.
ラベルありデータは、ラベルありサンプル=(xLabeled data is labeled sample = (x nn ,y, Y nn )のN個の集合を示し、) N sets of
ラベルなしデータは、ラベルなしサンプル=(xUnlabeled data is unlabeled sample = (x mm )のM個の集合を示し、) Shows M sets,
Λは、下記の式(3)で示す識別モデル用パラメタベクトル集合を示し、Λ represents an identification model parameter vector set represented by the following equation (3):
Θは、下記の式(4)で示す生成モデル用パラメタベクトル集合を示し、Θ represents a generation model parameter vector set represented by the following equation (4):
Γは、下記の式(5)で示すモデル統合用パラメタ集合を示し、Γ represents a parameter set for model integration represented by the following formula (5),
pp ii DD は、識別モデルから推定される同時確率を示し、Indicates the joint probability estimated from the discrimination model,
pp jj GG は、生成モデルから推定される同時確率を示し、Indicates the joint probability estimated from the generated model,
p(Θ)は、Θに対する事前確率分布を示し、p (Θ) represents the prior probability distribution for Θ,
p(Γ)は、Γに対する事前確率分布を示す。p (Γ) represents a prior probability distribution for Γ.
前記ラベルありデータを利用して前記識別モデル用パラメタベクトル集合から推定された入力系列と出力系列との同時確率と、当該識別モデル用パラメタベクトル集合に対して予め求められた前記モデル統合用パラメタ集合とに基づいて算出される確率値を、積算対象とする前記識別モデル用パラメタベクトル集合に亘って積算した結果を示す識別モデル統合用確率値と、
前記ラベルなしデータを利用して前記生成モデル用パラメタベクトル集合から推定された入力系列と出力系列との同時確率と、当該生成モデル用パラメタベクトル集合に対して予め求められた前記モデル統合用パラメタ集合とに基づいて算出される確率値を、積算対象とする前記生成モデル用パラメタベクトル集合に亘って積算した結果を示す生成モデル統合用確率値と、の積を、
前記入力される文字列または記号列に対して付与すべきラベルの事後確率を示すパラメタ集合として含み、
前記パラメタベクトル集合Θを求める処理を行うステップは、
前記補助関数として下記の式(15)に示すQ関数を用いて、このQ関数が最大になるパラメタベクトル集合Θ′を、現在のパラメタベクトル集合Θより求め、Θ′がΘに対して増大しなくなるまでΘをΘ′で置き換えながら繰り返しQ関数を求めることで、前記目的関数G(Θ|Γ)を最大化するパラメタベクトル集合Θを求める
ことを特徴とする請求項7に記載の言語解析モデル学習方法。
The joint probability of the input sequence and the output sequence estimated from the identification model parameter vector set using the labeled data, and the model integration parameter set obtained in advance for the identification model parameter vector set The probability value calculated based on the identification model integration probability value indicating the result of integrating over the identification model parameter vector set to be integrated, and
The joint probability of the input sequence and the output sequence estimated from the generation model parameter vector set using the unlabeled data, and the model integration parameter set obtained in advance for the generation model parameter vector set The product of the probability value calculated based on the generation model integration probability value indicating the result of integrating the probability value calculated over the generation model parameter vector set to be integrated,
I viewed including as a parameter set indicating a posteriori probability of the label to be assigned to a character string or symbol string is the input,
The step of obtaining the parameter vector set Θ is:
Using the Q function shown in the following equation (15) as the auxiliary function, a parameter vector set Θ ′ that maximizes the Q function is obtained from the current parameter vector set Θ, and Θ ′ increases with respect to Θ. by obtaining the repetition Q function while replacing the theta until no in theta ', the objective function G | claim 7, wherein <br/> obtaining parameters vector set theta to maximize (theta gamma) Language analysis model learning method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007063941A JP5139701B2 (en) | 2007-03-13 | 2007-03-13 | Language analysis model learning apparatus, language analysis model learning method, language analysis model learning program, and recording medium thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007063941A JP5139701B2 (en) | 2007-03-13 | 2007-03-13 | Language analysis model learning apparatus, language analysis model learning method, language analysis model learning program, and recording medium thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008225907A JP2008225907A (en) | 2008-09-25 |
JP5139701B2 true JP5139701B2 (en) | 2013-02-06 |
Family
ID=39844447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007063941A Expired - Fee Related JP5139701B2 (en) | 2007-03-13 | 2007-03-13 | Language analysis model learning apparatus, language analysis model learning method, language analysis model learning program, and recording medium thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5139701B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7365471B2 (en) | 2016-10-27 | 2023-10-19 | トータルエナジーズ マーケティング サービシーズ | Use of biodegradable hydrocarbon fluids in electric vehicles |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5387274B2 (en) * | 2009-09-18 | 2014-01-15 | 日本電気株式会社 | Standard pattern learning device, labeling reference calculation device, standard pattern learning method and program |
US8566260B2 (en) * | 2010-09-30 | 2013-10-22 | Nippon Telegraph And Telephone Corporation | Structured prediction model learning apparatus, method, program, and recording medium |
JP6062879B2 (en) * | 2014-03-14 | 2017-01-18 | 日本電信電話株式会社 | Model learning apparatus, method and program |
JP6228151B2 (en) * | 2015-03-18 | 2017-11-08 | ヤフー株式会社 | Learning device, learning method, and learning program |
JP6558852B2 (en) * | 2015-11-06 | 2019-08-14 | 日本電信電話株式会社 | Clause identification apparatus, method, and program |
JP6500044B2 (en) * | 2017-01-16 | 2019-04-10 | ヤフー株式会社 | Generating device, generating method, and generating program |
CN110085215B (en) * | 2018-01-23 | 2021-06-08 | 中国科学院声学研究所 | Language model data enhancement method based on generation countermeasure network |
KR102230559B1 (en) * | 2019-04-25 | 2021-03-22 | 에스케이텔레콤 주식회사 | Method and Apparatus for Creating Labeling Model with Data Programming |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005032107A (en) * | 2003-07-09 | 2005-02-03 | Sharp Corp | Av system |
JP3899414B2 (en) * | 2004-03-31 | 2007-03-28 | 独立行政法人情報通信研究機構 | Teacher data creation device and program, and language analysis processing device and program |
-
2007
- 2007-03-13 JP JP2007063941A patent/JP5139701B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7365471B2 (en) | 2016-10-27 | 2023-10-19 | トータルエナジーズ マーケティング サービシーズ | Use of biodegradable hydrocarbon fluids in electric vehicles |
Also Published As
Publication number | Publication date |
---|---|
JP2008225907A (en) | 2008-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5139701B2 (en) | Language analysis model learning apparatus, language analysis model learning method, language analysis model learning program, and recording medium thereof | |
EP3821434B1 (en) | Machine learning for determining protein structures | |
Malach et al. | Decoupling" when to update" from" how to update" | |
US11062179B2 (en) | Method and device for generative adversarial network training | |
US11170257B2 (en) | Image captioning with weakly-supervised attention penalty | |
JP5250076B2 (en) | Structure prediction model learning apparatus, method, program, and recording medium | |
US20220327816A1 (en) | System for training machine learning model which recognizes characters of text images | |
US20080177531A1 (en) | Language processing apparatus, language processing method, and computer program | |
CN111581466A (en) | Multi-label learning method for characteristic information with noise | |
JP5311899B2 (en) | Pattern detector learning apparatus, learning method, and program | |
US11557323B1 (en) | Apparatuses and methods for selectively inserting text into a video resume | |
JP4348202B2 (en) | Face image recognition apparatus and face image recognition program | |
Ihou et al. | Stochastic topic models for large scale and nonstationary data | |
WO2017188048A1 (en) | Preparation apparatus, preparation program, and preparation method | |
CN111259176B (en) | Cross-modal Hash retrieval method based on matrix decomposition and integrated with supervision information | |
WO2016181474A1 (en) | Pattern recognition device, pattern recognition method and program | |
Heid et al. | Reliable part-of-speech tagging of historical corpora through set-valued prediction | |
He et al. | Graph-based posterior regularization for semi-supervised structured prediction | |
JP4883719B2 (en) | Similar image retrieval method and apparatus | |
JP4328362B2 (en) | Language analysis model learning apparatus, language analysis model learning method, language analysis model learning program, and recording medium thereof | |
Yue et al. | Vambc: A variational approach for mobility behavior clustering | |
Mondal et al. | Flexible sequence matching technique: Application to word spotting in degraded documents | |
CN113221549A (en) | Word type labeling method and device and storage medium | |
JP4995027B2 (en) | Data conversion method and apparatus, pattern identification method and apparatus, and program | |
JP6511942B2 (en) | INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING PROGRAM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081224 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110810 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120425 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121113 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121116 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5139701 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151122 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |