JP6313062B2 - Pattern recognition device, pattern recognition method and program - Google Patents
Pattern recognition device, pattern recognition method and program Download PDFInfo
- Publication number
- JP6313062B2 JP6313062B2 JP2014027691A JP2014027691A JP6313062B2 JP 6313062 B2 JP6313062 B2 JP 6313062B2 JP 2014027691 A JP2014027691 A JP 2014027691A JP 2014027691 A JP2014027691 A JP 2014027691A JP 6313062 B2 JP6313062 B2 JP 6313062B2
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- recognition
- subspace
- pattern recognition
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
本発明の実施形態は、パターン認識装置、パターン認識方法およびプログラムに関する。 Embodiments described herein relate generally to a pattern recognition apparatus, a pattern recognition method, and a program.
パターン認識の分野では、音声信号や文字列画像などのように認識単位の区切りが明らかでない入力信号に対して認識を行う方法として、隠れマルコフモデル(HMM:Hidden Markov Model)や条件付き確率場とその派生形が多く用いられている。この方法は、認識対象の区切り判定と認識を同時に行うことができる一方、内部の状態モデルと特徴ベクトルの照合に多くの計算時間を要するという欠点がある。このため、認識単位の区切りが明らかでない入力信号に対し、短時間で高精度な認識を行うことができる新たな技術の提供が望まれている。 In the field of pattern recognition, hidden Markov models (HMMs) and conditional random fields are used as methods for recognizing input signals whose recognition unit boundaries are not clear, such as speech signals and character string images. Many of its derivatives are used. This method has the disadvantage that it can simultaneously perform the determination and recognition of the separation of the recognition target, but requires a lot of calculation time to collate the internal state model with the feature vector. For this reason, it is desired to provide a new technique capable of performing highly accurate recognition in a short time with respect to an input signal whose recognition unit break is not clear.
本発明が解決しようとする課題は、認識単位の区切りが明らかでない入力信号に対し、短時間で高精度な認識を行うことができるパターン認識装置、パターン認識方法およびプログラムを提供することである。 The problem to be solved by the present invention is to provide a pattern recognition apparatus, a pattern recognition method, and a program that can perform high-accuracy recognition in a short time for an input signal whose recognition unit separation is not clear.
実施形態のパターン認識装置は、入力された信号を特徴ベクトルに変換し、該特徴ベクトルを認識辞書と照合することにより、入力された信号のパターン認識を行う。前記認識辞書は、前記特徴ベクトルの空間の部分空間である辞書部分空間を表現する辞書部分空間基底ベクトルと、前記特徴ベクトルと前記辞書部分空間から計算される類似度を尤度に変換するための複数の確率化パラメータと、を有する。パターン認識装置は、認識部を備える。認識部は、前記特徴ベクトルと前記辞書部分空間基底ベクトルの内積の値の二次多項式により前記類似度を計算し、該類似度と前記確率化パラメータの線形和の指数関数により前記尤度を計算する。前記認識辞書は、前記複数の確率化パラメータ間の拘束条件を利用した期待値最大化法により学習される。 The pattern recognition apparatus according to the embodiment performs pattern recognition of an input signal by converting the input signal into a feature vector and comparing the feature vector with a recognition dictionary. The recognition dictionary is a dictionary subspace base vector representing a dictionary subspace which is a subspace of the feature vector space, and a similarity calculated from the feature vector and the dictionary subspace is converted into likelihood. A plurality of stochastic parameters. The pattern recognition apparatus includes a recognition unit. The recognizing unit calculates the similarity by a quadratic polynomial of the inner product value of the feature vector and the dictionary subspace basis vector, and calculates the likelihood by an exponential function of a linear sum of the similarity and the probability parameter. To do. The recognition dictionary is learned by an expected value maximization method using a constraint condition between the plurality of probabilistic parameters.
以下、実施形態のパターン認識装置、パターン認識方法およびプログラムを、図面を参照しながら説明する。 Hereinafter, a pattern recognition apparatus, a pattern recognition method, and a program according to embodiments will be described with reference to the drawings.
まず、本実施形態の基本概念について説明する。本実施形態では、認識単位の区切りが明らかでない入力信号に対し、短時間で高精度な認識を行えるようにするために、認識対象の区切り判定と認識を同時に行う従来の方法において多くの計算時間を要していた内部の状態モデルと特徴ベクトルの照合の演算を、部分空間法やその派生形による類似度の演算で置き換えることを考える。部分空間法やその派生形は、単一の特徴ベクトルに対する認識に用いられる方法として知られており(下記の参考文献1を参照)、処理時間に比して高い認識精度を得られる利点がある。
<参考文献1>E.オヤ、「パターン認識と部分空間法」(小川英光、佐藤誠訳)、産業図書、1986年
First, the basic concept of this embodiment will be described. In the present embodiment, in order to enable recognition with high accuracy in a short time for an input signal whose recognition unit break is not clear, a large amount of calculation time is required in the conventional method for simultaneously performing recognition determination and recognition of a recognition target. Consider the replacement of the internal state model and feature vector matching operations that were required by the subspace method and its similarity calculation. The subspace method and its derivatives are known as methods used for recognition of a single feature vector (see Reference 1 below), and have an advantage that high recognition accuracy can be obtained compared to processing time. .
<Reference Document 1> E. Oya, "Pattern Recognition and Subspace Method" (Hidemitsu Ogawa, Makoto Sato), Sangyo Tosho, 1986
部分空間法やその派生形による類似度の演算は、認識対象の区切り判定と認識を同時に行う従来の方法における状態モデルと特徴ベクトルの照合の演算と同一の目的であり、実際、前者は後者を近似したものとみなすことができる(下記の参考文献2を参照)。
<参考文献2>黒沢由明、“球面ガウス分布から導出される部分空間法”信学論(D-2)、J81-D2(6)、pp.1205-1212、1998
Similarity calculation by the subspace method or its derivative form has the same purpose as the state model and feature vector matching operation in the conventional method that simultaneously performs recognition and delimitation of recognition targets. It can be regarded as an approximation (see Reference 2 below).
<Reference 2> Yoshiaki Kurosawa, “Subspace Method Derived from Spherical Gaussian Distribution” Theory of Science (D-2), J81-D2 (6), pp.1205-1212, 1998
そこで、前者における類似度を後者において用いる尤度などの確率尺度に変換する確率化パラメータを導入し、特徴ベクトルxの尤度L(x)を下記式(1)のように計算するモデルを考える。
ここで、図1を参照しながら、隠れマルコフモデル(HMM)の状態モデルを、確率的部分空間モデルに置き換える例を説明する。HMMは、図1(a)に模式的に示すように、複数の状態により構成される。HMMの入力は、特徴ベクトルの系列である。各状態は、単独の特徴ベクトルの統計モデルであり、通常は、図1(b)に模式的に示すような混合ガウス分布モデル(GMM:Gaussian Mixture Model)が用いられる(非特許文献1を参照)。HMMの学習時には、状態および状態間のパラメータがそれぞれ独立に学習される。 Here, an example of replacing the hidden Markov model (HMM) state model with a probabilistic subspace model will be described with reference to FIG. The HMM is constituted by a plurality of states as schematically shown in FIG. The input of the HMM is a series of feature vectors. Each state is a statistical model of a single feature vector, and usually a mixed Gaussian distribution model (GMM: Gaussian Mixture Model) as schematically shown in FIG. 1B is used (see Non-Patent Document 1). ). When learning the HMM, the states and the parameters between the states are learned independently.
HMMの状態モデルとして用いられるGMMは、単独の特徴ベクトルのモデルとしては、認識精度の割に計算量が多い。そこで、HMMの状態モデルを、通常用いられるGMMから、図1(c)に模式的に示すような確率的部分空間モデルに置き換える。確率的部分空間モデルは、特徴ベクトルの次元数よりも小さい次元数の部分空間で演算を行うため、GMMに比べて計算量が少ない。したがって、図1(d)に示すように、HMMの状態モデルをGMMから確率的部分空間モデルに置き換えて特徴ベクトルの照合演算を行うことにより、短時間で高精度な認識を行うことが可能になる。 A GMM used as an HMM state model has a large amount of calculation for recognition accuracy as a single feature vector model. Therefore, the state model of the HMM is replaced with a probabilistic subspace model as schematically shown in FIG. Since the probabilistic subspace model performs an operation in a subspace having a smaller number of dimensions than the dimension number of the feature vector, the amount of calculation is smaller than that of the GMM. Therefore, as shown in FIG. 1D, the HMM state model is replaced with the probabilistic subspace model from the GMM, and the feature vector matching operation is performed, thereby enabling high-precision recognition in a short time. Become.
このとき、認識においては、HMMの尤度を計算するViterbiアルゴリズムは各状態モデルにおける尤度計算の方法に依存しないので(非特許文献1を参照)、HMMの状態モデルを確率的部分空間モデルに置き換えても、Viterbiアルゴリズムをそのまま用いることができる。 At this time, in the recognition, the Viterbi algorithm for calculating the likelihood of the HMM does not depend on the likelihood calculation method in each state model (see Non-Patent Document 1), so the HMM state model is changed to a probabilistic subspace model. Even if it is replaced, the Viterbi algorithm can be used as it is.
一方、確率的部分空間モデルの学習時には、これをHMMの学習に用いるBaum−Welchアルゴリズム(非特許文献1を参照)と同様に、期待値最大化法(EM法)により行うこととすると、各状態への負担率(非特許文献1を参照)は状態モデルの形によらないので、Baum−Welchアルゴリズムと同様に計算できる。 On the other hand, at the time of learning a probabilistic subspace model, if this is performed by the expected value maximization method (EM method) as in the Baum-Welch algorithm (see Non-Patent Document 1) used for HMM learning, Since the burden ratio to the state (see Non-Patent Document 1) does not depend on the form of the state model, it can be calculated in the same manner as the Baum-Welch algorithm.
そこで、学習データx1,・・・,xNを用いて、確率的部分空間モデルのパラメータである確率化パラメータq,wおよび辞書部分空間基底ベクトルu1,・・・,ukを更新することを考える。このときx1,・・・,xnの負担率をγ1,・・・,γnとすると、全学習データの対数尤度は学習データの独立性を仮定して、下記式(4)のように表すことができる。
ところが、確率化パラメータq,wについては問題が生じる。後述の式(6)の形から明らかなように、データ尤度Lはq,wについて単調であり、データ尤度Lを確率化パラメータq,wについて最大化することは不可能である。実際、wを小さく、またqを大きくとれば、Lを任意に大きくすることができてしまい、これは認識モデルとしては不適切である。 However, there is a problem with the stochastic parameters q and w. As will be apparent from the form of Equation (6) described later, the data likelihood L is monotonous with respect to q and w, and it is impossible to maximize the data likelihood L with respect to the probability parameters q and w. In fact, if w is made small and q is made large, L can be arbitrarily increased, which is inappropriate as a recognition model.
そこで、本実施形態では、確率化パラメータq,wの間に適当な拘束条件f(q,w)=0を導入することにより、確率的部分空間モデルを適切に学習させることを可能にする。これにより、HMMの状態モデルなどを確率的部分空間モデルに置き換えた新規な方法により、認識単位の区切りが明らかでない入力信号に対して短時間で高精度な認識を行うことができるパターン認識装置を実現可能とする。 Therefore, in this embodiment, it is possible to appropriately learn the probabilistic subspace model by introducing an appropriate constraint condition f (q, w) = 0 between the probabilistic parameters q and w. As a result, a pattern recognition apparatus capable of performing high-accuracy recognition in a short time for an input signal whose recognition unit break is not obvious by a novel method in which an HMM state model or the like is replaced with a probabilistic subspace model. Make it feasible.
図2は、本実施形態のパターン認識装置の機能的な構成を示すブロック図である。図1に示すように、本実施形態のパターン認識装置は、信号入力部1、特徴抽出部2、認識部3、および辞書更新部4を備える。
FIG. 2 is a block diagram showing a functional configuration of the pattern recognition apparatus of the present embodiment. As shown in FIG. 1, the pattern recognition apparatus of this embodiment includes a signal input unit 1, a feature extraction unit 2, a
信号入力部1は、認識対象となる信号の入力を受け付ける。認識対象となる信号は、例えば、画像として表される文字や文字列、その他の画像、波形として表される音声信号や各種のセンサ信号などであり、これらのディジタル情報、または必要に応じて二値化などの前処理を施したディジタル情報が、信号入力部1に入力される。 The signal input unit 1 receives an input of a signal to be recognized. Signals to be recognized are, for example, characters and character strings represented as images, other images, audio signals represented as waveforms, various sensor signals, and the like. These digital information, or two as necessary. Digital information subjected to preprocessing such as valuation is input to the signal input unit 1.
特徴抽出部2は、信号入力部1に入力された信号を、一定の次元数の特徴ベクトルの集合に変換する。具体的には、特徴抽出部2は、まず信号入力部1に入力された信号に窓をかけて窓の範囲の部分信号を抽出する。次に、特徴抽出部2は、抽出した信号部分のそれぞれに対して、長さや量子化レベルを正規化するなどの前処理を施す。そして、特徴抽出部2は、その前処理後の値や、前処理後の信号にさらにガウシアンフィルタなどのフィルタ処理やフーリエ変換などの変換処理を施した後の値を成分とする特徴ベクトルを出力し、信号入力部1に入力された信号に対応する特徴ベクトルの集合を生成する。具体例としては、下記の参考文献3に記載の技術を用いることができる。
<参考文献3>J.A.Rodriguez and F.Perronin、“Local Gradient Histogram Features for Word Spotting in Unconstrained Handwritten Documents”、Proc.ICFHR2008、2008
The feature extraction unit 2 converts the signal input to the signal input unit 1 into a set of feature vectors having a certain number of dimensions. Specifically, the feature extraction unit 2 first extracts a partial signal in the window range by applying a window to the signal input to the signal input unit 1. Next, the feature extraction unit 2 performs preprocessing such as normalizing the length and quantization level for each of the extracted signal portions. Then, the feature extraction unit 2 outputs a feature vector whose component is a value after the pre-processing, or a value after further performing a filtering process such as a Gaussian filter or a transformation process such as a Fourier transform on the pre-processed signal. Then, a set of feature vectors corresponding to the signal input to the signal input unit 1 is generated. As a specific example, the technique described in
<
認識部3は、認識辞書10を用いて、特徴抽出部2により生成された特徴ベクトルの集合を評価し、信号入力部1に入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力する。
The
認識辞書10は、本実施形態のパターン認識装置が信号の分類先として扱うそれぞれのクラスに対応するモデルを含むデータベースであり、本実施形態のパターン認識装置の内部または外部に保持される。認識辞書10が保持する各クラスのモデルは、HMMのように複数の状態により構成され、それぞれの状態が上述した確率的部分空間モデルである。つまり、認識辞書10は、クラスごとのモデルの各状態に対応する辞書部分空間基底ベクトルu1,・・・,ukと、確率化パラメータq,wとを保持している。辞書部分空間基底ベクトルu1,・・・,ukは、特徴ベクトルの次元数よりも少ない次元の辞書部分空間を表現するパラメータであり、確率化パラメータq,wは、特徴ベクトルと辞書部分空間から計算される類似度を尤度に変換するためのパラメータである。
The
認識部3は、認識辞書10に含まれるモデルを組み合わせて、特徴抽出部2により生成された特徴ベクトルの集合との最適な対応を探索し、モデルのラベル集合を出力する。このとき、認識部3は、認識辞書10に含まれる各モデルの各状態において、特徴ベクトルの集合のうちの1つまたは複数の特徴ベクトルに対し、特徴ベクトルと辞書部分空間基底ベクトルu1,・・・,ukの内積の値の二次多項式により類似度を計算し、その類似度と確率化パラメータq,wの線形和の指数関数により尤度を計算する。そして、全体としてのデータ尤度Lが最大となるモデルの組み合わせを選び、そのラベル集合を出力する。
The
データ尤度Lは、特徴ベクトルの集合の要素x1,・・・,xTがそれぞれ辞書部分空間U1,・・・,Utを持つモデルM1,・・・,MTに対応するとき、下記式(6)として得られる。
<参考文献4>北研二、「確率的言語モデル」(言語と計算5)、東京大学出版会、1999年
Data likelihood L, the element x 1 of the set of feature vectors, ..., x T dictionary subspace U 1, respectively, ..., model M 1 with U t, ..., corresponding to the M T Is obtained as the following formula (6).
<
辞書更新部4は、認識部3による処理が終了した後、入力信号から生成された特徴ベクトルの集合を用いて認識辞書10を更新する。この際、辞書更新部4は、確率化パラメータq,w間の拘束条件f(q,w)=0を利用した期待値最大化法により、認識辞書10の学習を行う。以下、認識辞書10を更新する方法の具体例を説明する。
The
ある状態モデルに入力された特徴ベクトルをx1,・・・,xNとし、その負担率がγ1,・・・,γNと書けるとき、まず、下記式(7)を計算し、Kの上位k個の固有値に対応する固有ベクトルをu1,・・・,ukとして、その状態モデルにおける辞書部分空間基底ベクトルを更新する。
そして、確率化パラメータq,w間の拘束条件f(q,w)=0に対し、下記式(8)に示す方程式の解をqとし、さらにその解をf(q,w)=0に代入して得られる解をwとする。
確率化パラメータq,w間の拘束条件としては、例えば、下記式(10)で表される状態モデルの実効次元を一定に保つとの条件、すなわち、下記式(11)で示される条件が挙げられる。
このとき、上記式(8)は下記式(12)、すなわちE/2w=μとなるから、これを解いてw=E/2μが得られる。
辞書更新部4は、認識部3での認識に用いた各状態モデルそれぞれについて、以上のような辞書部分空間基底ベクトルu1,・・・,ukの更新と、確率化パラメータq,wの更新を行う。これにより、認識を行うたびに認識辞書10が自動学習されて、認識精度が向上する。
The
次に、本実施形態のパターン認識装置による処理の概要について、図3に沿って説明する。図3は、本実施形態のパターン認識装置による処理手順の一例を示すフローチャートである。 Next, an outline of processing by the pattern recognition apparatus of the present embodiment will be described with reference to FIG. FIG. 3 is a flowchart illustrating an example of a processing procedure performed by the pattern recognition apparatus according to the present embodiment.
まず、信号入力部1が、認識対象となる信号の入力を受け付ける(ステップS101)。信号入力部1に入力された信号は、特徴抽出部2に渡される。 First, the signal input unit 1 receives an input of a signal to be recognized (step S101). The signal input to the signal input unit 1 is passed to the feature extraction unit 2.
次に、特徴抽出部2が、ステップS101で入力された信号を信号入力部1から受け取り、上述した方法によって、この信号から特徴ベクトルの集合を生成する(ステップS102)。特徴抽出部2により生成された特徴ベクトルの集合は、認識部3に渡される。
Next, the feature extraction unit 2 receives the signal input in step S101 from the signal input unit 1, and generates a set of feature vectors from this signal by the method described above (step S102). A set of feature vectors generated by the feature extraction unit 2 is passed to the
次に、認識部3が、ステップS102で生成された特徴ベクトルの集合を特徴抽出部2から受け取り、認識辞書10を用いて特徴ベクトルの集合を評価して、ステップS101で入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力する(ステップS103)。このとき、認識部3は、認識辞書10に含まれる各モデルの各状態において、上述した特徴ベクトルの類似度の計算および尤度の計算を行って、全体としてのデータ尤度Lが最大となるモデルの組み合わせを選び、そのラベル集合を出力する。この認識処理の後、認識部3に入力された特徴ベクトルの集合と認識部3が出力したラベル集合が、辞書更新部4に渡される。
Next, the
次に、辞書更新部4が、認識部3に入力された特徴ベクトルの集合と認識部3が出力したラベル集合を受け取り、認識部3での認識に用いた各状態モデルそれぞれについて、上述した方法により、辞書部分空間基底ベクトルおよび確率化パラメータの更新を行う(ステップS104)。この際、特に確率化パラメータの更新には、上述した確率化パラメータ間の拘束条件を利用する。
Next, the
以上、具体的な例を挙げながら説明したように、本実施形態のパターン認識装置では、クラスごとのモデルの状態モデルとして、上述した確率的部分空間モデルを用いる。認識辞書10は、各状態モデルのそれぞれに対応する辞書部分空間基底ベクトルと、確率化パラメータとを保持している。そして、認識部3は、入力信号から生成された特徴ベクトルの集合に対し、それぞれの特徴ベクトルと辞書部分空間基底ベクトルの内積の値の二次多項式により類似度を計算し、得られた類似度と確率化パラメータの線形和の指数関数により尤度を計算して、全体としてのデータ尤度が最大となるモデルの組み合わせを選び、そのラベル集合を認識結果として出力する。また、認識部3による処理が終了すると、辞書更新部4が、入力信号から生成された特徴ベクトルの集合を用いて認識辞書10を更新する。この際、辞書更新部4は、確率化パラメータ間の拘束条件を利用した期待値最大化法により、認識辞書10の学習を行う。したがって、本実施形態のパターン認識装置によれば、認識単位の区切りが明らかでない入力信号に対して短時間で高精度な認識を行うことができる。
As described above, as described with specific examples, the pattern recognition apparatus according to the present embodiment uses the above-described stochastic subspace model as a state model of a model for each class. The
なお、以上の説明では、確率化パラメータ間の拘束条件として、状態モデルの実効次元を一定に保つとの条件を用いたが、利用可能な拘束条件はこれに限らない。例えば、モデルの各状態において下記式(14)を一定に保つとの条件、すなわち、下記式(15)で示される条件を用いてもよい。
このとき、上記式(8)は下記式(16)となるから、これを上記式(14)に代入して、下記式(17)が得られる。これらの値で、確率化パラメータq,wを更新すればよい。
また、以上の説明では、HMMの状態モデルを式(1)で表される確率的部分空間モデルに置き換える例を想定したが、これに限らない。認識対象の区切り判定と認識を同時に行う他の方法において、尤度の計算に時間がかかるモデルを確率的部分空間モデルに置き換えるようにしてもよい。さらに、式(1)で表される確率的部分空間モデルに代えて、同様の機能を有するモデル、つまり部分空間法により類似度を計算し、類似度から尤度を計算する他のモデルを用いるようにしてもよい。 In the above description, an example in which the state model of the HMM is replaced with the probabilistic subspace model represented by Expression (1) is assumed, but the present invention is not limited to this. In another method of performing recognition determination and recognition at the same time, a model that takes time to calculate likelihood may be replaced with a probabilistic subspace model. Further, instead of the probabilistic subspace model represented by the equation (1), a model having the same function, that is, another model for calculating the similarity by the subspace method and calculating the likelihood from the similarity is used. You may do it.
また、以上の説明では、辞書更新部4をパターン認識装置の内部に備えた例を想定したが、辞書更新部4は、パターン認識装置の外部に設けてもよい。この場合、パターン認識装置の外部に設けられた辞書更新部4は、例えば、パターン認識装置と通信しながら上述した認識辞書10の更新の処理を行う。
In the above description, an example in which the
本実施形態のパターン認識装置は、例えば図4に示すように、CPU(Central Processing Unit)101などのプロセッサ、ROM(Read Only Memory)102やRAM(Random Access Memory)103などの記憶装置、HDD(Hard Disk Drive)104などの補助記憶装置、ネットワークに接続して通信を行う通信I/F105、各部を接続するバス106などを備えた、通常のコンピュータを利用したハードウェア構成を採用することができる。この場合、上述した各機能的な構成要素は、コンピュータ上で所定のパターン認識プログラムを実行することによって実現することができる。
As shown in FIG. 4, for example, the pattern recognition apparatus of this embodiment includes a processor such as a CPU (Central Processing Unit) 101, a storage device such as a ROM (Read Only Memory) 102 and a RAM (Random Access Memory) 103, an HDD ( (Hard Disk Drive) 104 or the like, a communication I / F 105 that communicates by connecting to a network, a
このパターン認識プログラムは、インストール可能な形式または実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。 This pattern recognition program is a file in an installable or executable format and is a CD-ROM (Compact Disk Read Only Memory), flexible disk (FD), CD-R (Compact Disk Recordable), DVD (Digital Versatile Disc). The program is recorded on a computer-readable recording medium such as a computer program product.
また、このパターン認識プログラムを、インターネットなどのネットワークに接続された他のコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、このパターン認識プログラムをインターネットなどのネットワーク経由で提供または配布するように構成してもよい。 Further, the pattern recognition program may be provided by being stored on another computer connected to a network such as the Internet and downloaded via the network. The pattern recognition program may be provided or distributed via a network such as the Internet.
また、このパターン認識プログラムを、ROM102等に予め組み込んで提供するように構成してもよい。
Further, the pattern recognition program may be provided by being incorporated in advance in the
このパターン認識プログラムは、本実施形態のパターン認識装置の各処理部(信号入力部1、特徴抽出部2、認識部3、および辞書更新部4)を含むモジュール構成となっており、実際のハードウェアとしては、例えば、CPU101(プロセッサ)が上記記録媒体からプログラムを読み出して実行することにより、上述した各処理部がRAM103(主記憶)上にロードされ、上述した各処理部がRAM103(主記憶)上に生成されるようになっている。なお、本実施形態のパターン認識装置は、上述した各処理部の一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などの専用のハードウェアを用いて実現することも可能である。
This pattern recognition program has a module configuration including each processing unit (the signal input unit 1, the feature extraction unit 2, the
以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。 As mentioned above, although embodiment of this invention was described, embodiment described here is shown as an example and is not intending limiting the range of invention. The novel embodiments described herein can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the spirit of the invention. The embodiments and modifications described herein are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof.
1 信号入力部
2 特徴抽出部
3 認識部
4 辞書更新部
10 認識辞書
u1,・・・,uk 辞書部分空間基底ベクトル
q,w 確率化パラメータ
1 the signal input unit 2
Claims (6)
前記認識辞書は、前記特徴ベクトルの空間の部分空間である辞書部分空間を表現する辞書部分空間基底ベクトルと、前記特徴ベクトルと前記辞書部分空間から計算される類似度を尤度に変換するための複数の確率化パラメータと、を有し、
前記特徴ベクトルと前記辞書部分空間基底ベクトルの内積の値の二次多項式により前記類似度を計算し、該類似度と前記確率化パラメータの線形和の指数関数により前記尤度を計算する認識部を備え、
前記認識辞書は、前記複数の確率化パラメータ間の拘束条件を利用した期待値最大化法により学習されることを特徴とするパターン認識装置。 A pattern recognition device that performs pattern recognition of an input signal by converting the input signal into a feature vector and collating the feature vector with a recognition dictionary,
The recognition dictionary is a dictionary subspace base vector representing a dictionary subspace which is a subspace of the feature vector space, and a similarity calculated from the feature vector and the dictionary subspace is converted into likelihood. A plurality of stochastic parameters,
A recognizing unit that calculates the similarity by a quadratic polynomial of the inner product value of the feature vector and the dictionary subspace basis vector, and calculates the likelihood by an exponential function of a linear sum of the similarity and the probability parameter Prepared,
The pattern recognition apparatus, wherein the recognition dictionary is learned by an expected value maximization method using a constraint condition between the plurality of probability parameters.
前記認識部は、前記モデルの各状態において、前記特徴ベクトルのうちの1つまたは複数に対し、前記類似度の計算および前記尤度の計算を行うことを特徴とする請求項1または2に記載のパターン認識装置。 The recognition dictionary has a model composed of a plurality of states for each class, the dictionary subspace basis vector corresponding to each of the states of the model, and the probability parameter,
The said recognition part performs the calculation of the said similarity degree, and the calculation of the said likelihood with respect to one or more of the said feature vectors in each state of the said model, The Claim 1 or 2 characterized by the above-mentioned. Pattern recognition device.
前記認識辞書は、前記特徴ベクトルの空間の部分空間である辞書部分空間を表現する辞書部分空間基底ベクトルと、前記特徴ベクトルと前記辞書部分空間から計算される類似度を尤度に変換するための複数の確率化パラメータと、を有し、
前記パターン認識装置が、前記特徴ベクトルと前記辞書部分空間基底ベクトルの内積の値の二次多項式により前記類似度を計算するステップと、
前記パターン認識装置が、前記類似度と前記確率化パラメータの線形和の指数関数により前記尤度を計算するステップと、を含み、
前記認識辞書は、前記複数の確率化パラメータ間の拘束条件を利用した期待値最大化法により学習されることを特徴とするパターン認識方法。 A pattern recognition method executed in a pattern recognition apparatus that performs pattern recognition of an input signal by converting an input signal into a feature vector and collating the feature vector with a recognition dictionary,
The recognition dictionary is a dictionary subspace base vector representing a dictionary subspace which is a subspace of the feature vector space, and a similarity calculated from the feature vector and the dictionary subspace is converted into likelihood. A plurality of stochastic parameters,
The pattern recognition device calculates the similarity by a second order polynomial of the inner product value of the feature vector and the dictionary subspace basis vector;
The pattern recognition device calculating the likelihood by an exponential function of a linear sum of the similarity and the probability parameter; and
The pattern recognition method, wherein the recognition dictionary is learned by an expected value maximization method using a constraint condition between the plurality of probability parameters.
前記認識辞書は、前記特徴ベクトルの空間の部分空間である辞書部分空間を表現する辞書部分空間基底ベクトルと、前記特徴ベクトルと前記辞書部分空間から計算される類似度を尤度に変換するための複数の確率化パラメータと、を有し、
前記コンピュータに、
前記特徴ベクトルと前記辞書部分空間基底ベクトルの内積の値の二次多項式により前記類似度を計算する機能と、
前記類似度と前記確率化パラメータの線形和の指数関数により前記尤度を計算する機能とを実現させ、
前記認識辞書は、前記複数の確率化パラメータ間の拘束条件を利用した期待値最大化法により学習されることを特徴とするプログラム。 A program for causing a computer to function as a pattern recognition device that performs pattern recognition of an input signal by converting the input signal into a feature vector and collating the feature vector with a recognition dictionary,
The recognition dictionary is a dictionary subspace base vector representing a dictionary subspace which is a subspace of the feature vector space, and a similarity calculated from the feature vector and the dictionary subspace is converted into likelihood. A plurality of stochastic parameters,
In the computer,
A function of calculating the degree of similarity by a quadratic polynomial of the inner product value of the feature vector and the dictionary subspace basis vector;
A function for calculating the likelihood by an exponential function of a linear sum of the similarity and the probability parameter;
The recognition dictionary is learned by an expected value maximization method using a constraint condition between the plurality of stochastic parameters.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014027691A JP6313062B2 (en) | 2014-02-17 | 2014-02-17 | Pattern recognition device, pattern recognition method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014027691A JP6313062B2 (en) | 2014-02-17 | 2014-02-17 | Pattern recognition device, pattern recognition method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015153241A JP2015153241A (en) | 2015-08-24 |
JP6313062B2 true JP6313062B2 (en) | 2018-04-18 |
Family
ID=53895389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014027691A Active JP6313062B2 (en) | 2014-02-17 | 2014-02-17 | Pattern recognition device, pattern recognition method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6313062B2 (en) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3135594B2 (en) * | 1991-02-13 | 2001-02-19 | 株式会社東芝 | Pattern recognition device and pattern recognition method |
JP2007233873A (en) * | 2006-03-02 | 2007-09-13 | Toshiba Corp | Pattern recognition device and method therefor |
-
2014
- 2014-02-17 JP JP2014027691A patent/JP6313062B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015153241A (en) | 2015-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209823B (en) | Multi-label text classification method and system | |
JP5423670B2 (en) | Acoustic model learning device and speech recognition device | |
JP2010176672A (en) | Model based comparison index for vector series, and word spotting using the same | |
US8369611B2 (en) | Compact handwriting recognition | |
US10366312B2 (en) | Pattern recognition device, pattern recognition method, and computer program product | |
JP7268198B2 (en) | Image analysis device, image analysis method, and program | |
JP5139701B2 (en) | Language analysis model learning apparatus, language analysis model learning method, language analysis model learning program, and recording medium thereof | |
US10373028B2 (en) | Pattern recognition device, pattern recognition method, and computer program product | |
Li et al. | Speaker verification using simplified and supervised i-vector modeling | |
Nazir et al. | A computer-aided speech analytics approach for pronunciation feedback using deep feature clustering | |
JP2014174693A (en) | Pattern identification device, pattern recognition method, program, learning device and learning method | |
JP6577900B2 (en) | Phoneme error acquisition device, phoneme error acquisition method, and program | |
Kumar et al. | A Bayesian approach to script independent multilingual keyword spotting | |
JP7031686B2 (en) | Image recognition systems, methods and programs, as well as parameter learning systems, methods and programs | |
Kumar et al. | Bayesian background models for keyword spotting in handwritten documents | |
JP6313062B2 (en) | Pattern recognition device, pattern recognition method and program | |
JP5980142B2 (en) | Learning data selection device, discriminative speech recognition accuracy estimation device, learning data selection method, discriminative speech recognition accuracy estimation method, program | |
ES2536560T3 (en) | Method to discover and recognize patterns | |
JP7475192B2 (en) | Classifier training device and classifier training method | |
Kumar et al. | Bayesian active learning for keyword spotting in handwritten documents | |
CN110532384B (en) | Multi-task dictionary list classification method, system, device and storage medium | |
JP6235368B2 (en) | Pattern recognition device, pattern recognition method and program | |
Martins et al. | Information theoretical kernels for generative embeddings based on hidden markov models | |
Kumar et al. | Segmentation-free keyword spotting framework using dynamic background model | |
Doetsch et al. | Optimization of hidden markov models and neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20151102 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160923 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170712 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170822 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170919 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180322 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6313062 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |