JP2011022621A - Pattern matching device and method - Google Patents

Pattern matching device and method Download PDF

Info

Publication number
JP2011022621A
JP2011022621A JP2010248442A JP2010248442A JP2011022621A JP 2011022621 A JP2011022621 A JP 2011022621A JP 2010248442 A JP2010248442 A JP 2010248442A JP 2010248442 A JP2010248442 A JP 2010248442A JP 2011022621 A JP2011022621 A JP 2011022621A
Authority
JP
Japan
Prior art keywords
pattern
compression
standard pattern
compressed
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010248442A
Other languages
Japanese (ja)
Other versions
JP5188563B2 (en
Inventor
Tomonari Kakino
友成 柿野
Jian Luan
ルアン・ジアン
Jie Hao
ハオ・ジエ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba TEC Corp
Original Assignee
Toshiba Corp
Toshiba TEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba TEC Corp filed Critical Toshiba Corp
Publication of JP2011022621A publication Critical patent/JP2011022621A/en
Application granted granted Critical
Publication of JP5188563B2 publication Critical patent/JP5188563B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To reduce a matching error occurrence rate, even when a standard pattern is compressed. <P>SOLUTION: A pattern matching device 10 compresses the standard pattern by unifying elements similar to an adjoining feature element, into one feature element, in a pattern compression section 12, for each feature element of B1, B2 and B3 for composing the standard pattern. In a compression information creating section 13, a sequence of a compression ratio for each feature element of a compressed compression standard pattern, is created as compression information. The compressed compression standard pattern is stored in a storing section 14, by relating it to the compression information created for the compression standard pattern. A distance between the restored compressed standard pattern and an input pattern is calculated by a recurrence formula of dynamic programming, which has the compression information created for the compression standard pattern, as a variable. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、音声,文字,図形等の入力パターンが、予め想定されている標準パターンのうちのいずれであるかを判定するパターン認識分野で利用されるパターンマッチング装置及び方法に関する。   The present invention relates to a pattern matching apparatus and method used in the pattern recognition field for determining which input pattern of speech, characters, graphics, etc. is one of standard patterns assumed in advance.

従来のパターン認識分野では、パターンマッチング方式として動的計画法(Dynamic programming : DP)が広く活用されている(例えば、特許文献1参照)。   In the conventional pattern recognition field, dynamic programming (DP) is widely used as a pattern matching method (see, for example, Patent Document 1).

音声のパターン認識分野を例に、動的計画法の原理について説明する。
音声パターンAは、次の(1)式のように表現される。

Figure 2011022621
The principle of dynamic programming will be described using the speech pattern recognition field as an example.
The voice pattern A is expressed as the following equation (1).
Figure 2011022621

(1)式において、i{i=1,2,…,I}は時間を示し、aは音声パターンAの時間iにおける特徴要素を意味している。 In the formula (1), i {i = 1, 2,..., I} indicates time, and a indicates a feature element of the voice pattern A at time i.

そこで、各種の単語毎に、音声パターンAと同様の、特徴要素の時系列で表現される標準パターンBを用意しておく。この標準パターンBは、次の(2)式のように表現される。

Figure 2011022621
Therefore, a standard pattern B expressed in a time series of feature elements similar to the voice pattern A is prepared for each of various words. This standard pattern B is expressed as the following equation (2).
Figure 2011022621

(2)式において、j{j=1,2,…,J}は時間を示し、bは音声パターンBの時間jにおける特徴要素を意味している。 In equation (2), j {j = 1, 2,..., J} indicates time, and b indicates a feature element at time j of the voice pattern B.

パターンマッチング装置では、入力された音声パターンAを、各種単語の標準パターンBとそれぞれ比較してパターン間の距離を求める。そして、最小距離の標準パターンを認識結果として出力する。   In the pattern matching apparatus, the input speech pattern A is compared with the standard pattern B of various words, and the distance between the patterns is obtained. Then, the standard pattern with the minimum distance is output as a recognition result.

実際の音声パターンでは、発話速度の変動に起因して時間軸歪が生じる。動的計画法は、この時間軸歪を整合する手法として極めて有効である。   In an actual voice pattern, time axis distortion occurs due to fluctuations in the speech rate. Dynamic programming is extremely effective as a technique for matching this time-axis distortion.

動的計画法では、次の(3)式に示された漸化式を繰返し演算する。

Figure 2011022621
In dynamic programming, the recurrence formula shown in the following formula (3) is repeatedly calculated.
Figure 2011022621

(3)式において、d(i,j)は、音声パターンAの特徴要素aと標準パターンBの特徴要素bとの要素間距離である。g(i,j)は、音声パターンAと標準パターンBとの要素間累積距離である。 In the equation (3), d (i, j) is an inter-element distance between the feature element a i of the voice pattern A and the feature element b j of the standard pattern B. g (i, j) is an inter-element cumulative distance between the voice pattern A and the standard pattern B.

パターンマッチング装置では、上記漸化式(3)を繰り返し計算する。そして、図9に示すように、A,B平面でaとbとを最適に対応付ける経路(DP−pass)を求める。 The pattern matching apparatus repeatedly calculates the recurrence formula (3). Then, as shown in FIG. 9, a path (DP-pass) that optimally associates a i and b j in the A and B planes is obtained.

上記漸化式(3)の最上段の式は、図10に示すA,B平面上の任意の点(i,j)に対し、下方に隣接する点(i,j−1)との関係を規定している。同漸化式(3)の中段の式は、点(i,j)に対し、左斜め下に隣接する点(i−1,j−1)との関係を規定している。同漸化式(3)の最下段の式は、点(i,j)に対し、左側に隣接する点(i−1,j)との関係を規定している。   The uppermost expression of the recurrence formula (3) is the relationship between an arbitrary point (i, j) on the A and B planes shown in FIG. Is stipulated. The middle formula of the recurrence formula (3) defines the relationship between the point (i, j) and the point (i-1, j-1) adjacent to the lower left side. The lowermost expression of the recurrence expression (3) defines the relationship between the point (i, j) and the point (i-1, j) adjacent to the left side.

なお、この漸化式(3)から最上段の式を省略することで傾斜制限を加える場合もある。この場合は、任意の点(i,j)に対して図11に示すような関係が規定される。傾斜制限は極端な伸縮を制限するために設けられる。   In some cases, the tilt restriction may be added by omitting the uppermost expression from the recurrence formula (3). In this case, a relationship as shown in FIG. 11 is defined for an arbitrary point (i, j). The tilt limit is provided to limit extreme expansion and contraction.

ところで一般に、パターンマッチングに必要な標準パターンは多数用意される。このため、標準パターンを圧縮することによって、標準パターンを記憶する領域の効率化を図ることが考えられている。標準パターンを圧縮する方法としては、次の方法がある。すなわち、標準パターンを構成する各特徴要素について、それぞれ隣接する特徴要素との差をとる。そして、その差があらかじめ設定された閾値より小さい場合は、隣接した特長要素が近似していると判定する。近似しているものがあった場合には、それらを1つの特徴要素に統合する。かくして、標準パターンが圧縮される。   In general, a large number of standard patterns necessary for pattern matching are prepared. For this reason, it is considered to improve the efficiency of the area for storing the standard pattern by compressing the standard pattern. There are the following methods for compressing the standard pattern. That is, for each feature element constituting the standard pattern, a difference from an adjacent feature element is taken. If the difference is smaller than a preset threshold value, it is determined that adjacent feature elements are approximate. If there is an approximation, they are integrated into one feature element. Thus, the standard pattern is compressed.

特開昭50-96104号公報JP 50-96104 A

しかしながら、上述した方法で標準パターンを圧縮した場合、パターン認識に有益な時間情報が消失してしまう。すなわち、隣接する特徴要素が1つに統合されるので、各要素がそれぞれ有していた時間情報の一部が消失する。標準パターンから時間情報の一部が失われると、一般に、マッチングエラー(matching error)が発生し易くなる。特に、ノイズ(noise)の混入により部分的に近似した特徴パターンが数多く認識された場合や、傾斜制限が設けられた場合には、マッチングエラーが顕著に見られる。   However, when the standard pattern is compressed by the method described above, time information useful for pattern recognition is lost. That is, since adjacent feature elements are integrated into one, a part of the time information that each element has disappears. If part of the time information is lost from the standard pattern, a matching error generally tends to occur. In particular, when many feature patterns that are partially approximated due to noise are recognized or when tilt restriction is provided, a matching error is noticeable.

本発明は、このような事情に基づいてなされたもので、その目的とするところは、標準パターンを圧縮した場合でもマッチングエラーの発生率を低減することができるパターンマッチング装置及びその方法を提供しようとするものである。   The present invention has been made based on such circumstances, and an object of the present invention is to provide a pattern matching apparatus and method that can reduce the occurrence rate of matching errors even when a standard pattern is compressed. It is what.

本発明のパターンマッチング装置は、標準パターンを構成する各特徴要素について、隣接する特徴要素と近似しているものを1つの特徴要素に統合することによって標準パターンを圧縮する。また、圧縮された圧縮標準パターンの特徴要素毎の圧縮比の系列を圧縮情報として生成する。そして、圧縮された圧縮標準パターンを、当該圧縮標準パターンに対して生成された圧縮情報と関連付けて記憶する。そして、記憶された圧縮標準パターンと入力パターンとのパターン間距離を、当該圧縮標準パターンに対して生成された圧縮情報を変数として持つ動的計画法の漸化式によって算出する。   The pattern matching apparatus of the present invention compresses a standard pattern by integrating, for each feature element constituting the standard pattern, one that approximates an adjacent feature element into one feature element. In addition, a series of compression ratios for each feature element of the compressed compression standard pattern is generated as compression information. Then, the compressed standard pattern is stored in association with the compression information generated for the compressed standard pattern. Then, the inter-pattern distance between the stored compressed standard pattern and the input pattern is calculated by a recursive formula of dynamic programming having as a variable the compression information generated for the compressed standard pattern.

かかる手段を講じた本発明によれば、標準パターンを圧縮した場合でもマッチングエラーの発生率を低減することができるパターンマッチング装置及びその方法を提供できる。   According to the present invention in which such measures are taken, it is possible to provide a pattern matching apparatus and method that can reduce the occurrence rate of matching errors even when a standard pattern is compressed.

本発明の実施の形態であるパターンマッチング装置の構成を示すブロック図。The block diagram which shows the structure of the pattern matching apparatus which is embodiment of this invention. 同パターンマッチング装置で行われる標準パターン圧縮処理を説明するための図。The figure for demonstrating the standard pattern compression process performed with the pattern matching apparatus. 同パターンマッチング装置の記憶部に記憶されるデータ構造を示す模式図。The schematic diagram which shows the data structure memorize | stored in the memory | storage part of the pattern matching apparatus. 第1の実施の形態におけるパターンマッチング処理部の要部構成を示すブロック図。The block diagram which shows the principal part structure of the pattern matching process part in 1st Embodiment. 第2の実施の形態におけるパターンマッチング処理部の要部構成を示すブロック図。The block diagram which shows the principal part structure of the pattern matching process part in 2nd Embodiment. 第2の実施の形態のパターンマッチング処理部で計算される第1の漸化式を説明するための図。The figure for demonstrating the 1st recurrence formula calculated in the pattern matching process part of 2nd Embodiment. 第2の実施の形態のパターンマッチング処理部で計算される第2の漸化式を説明するための図。The figure for demonstrating the 2nd recurrence formula calculated in the pattern matching process part of 2nd Embodiment. 第2の実施の形態のパターンマッチング処理部で計算される第3の漸化式を説明するための図。The figure for demonstrating the 3rd recurrence formula calculated in the pattern matching process part of 2nd Embodiment. 従来の動的計画法を説明するための図。The figure for demonstrating the conventional dynamic programming. 従来の動的計画法で計算される漸化式を説明するための図。The figure for demonstrating the recurrence formula calculated by the conventional dynamic programming. 従来の動的計画法で計算される漸化式の他の例を説明するための図。The figure for demonstrating the other example of the recurrence formula calculated by the conventional dynamic programming.

以下、本発明を音声のパターン認識分野に適用した実施の形態について、図面を用いて説明する。はじめに、第1の実施の形態について、図1〜図4を用いて説明する。   Embodiments in which the present invention is applied to the field of speech pattern recognition will be described below with reference to the drawings. First, a first embodiment will be described with reference to FIGS.

図1は本実施の形態に係るパターンマッチング装置10の要部構成を示すブロック図である。パターンマッチング装置10は、音声分析部11,パターン圧縮部12、圧縮情報生成部13、記憶部14及びパターンマッチング処理部15を備えている。   FIG. 1 is a block diagram showing a main configuration of a pattern matching apparatus 10 according to the present embodiment. The pattern matching device 10 includes a voice analysis unit 11, a pattern compression unit 12, a compression information generation unit 13, a storage unit 14, and a pattern matching processing unit 15.

音声分析部11には、音声信号Mが入力される。音声信号Mは、マイクロフォンを通して入力された音声から変換された電気信号である。音声分析部11は、入力された音声信号Mを分析する。そして、入力音声の特徴要素aを時系列で抽出して、前記(1)式で示される音声パターンAを生成する。音声パターンAは、パターンマッチング処理部15に出力される。   A voice signal M is input to the voice analysis unit 11. The sound signal M is an electric signal converted from sound input through a microphone. The voice analysis unit 11 analyzes the input voice signal M. Then, the feature element a of the input voice is extracted in time series to generate the voice pattern A represented by the above equation (1). The voice pattern A is output to the pattern matching processing unit 15.

パターン圧縮部12には、複数の標準パターンB1,B2,B3,…が入力される。各標準パターンB1,B2,B3,…は、各種の単語毎に予め用意されたものである。これらの標準パターンB1,B2,B3,…は圧縮されていない。パターン圧縮部12は、入力された各標準パターンB1,B2,B3,…をそれぞれ時間方向に圧縮する。   The pattern compression unit 12 receives a plurality of standard patterns B1, B2, B3,. Each standard pattern B1, B2, B3,... Is prepared in advance for each type of word. These standard patterns B1, B2, B3,... Are not compressed. The pattern compression unit 12 compresses each input standard pattern B1, B2, B3,.

その圧縮方法について、図2を用いて説明する。同図において、b,b,b,…,bは任意の標準パターンBxの各特長要素を示している。標準パターンBxは、各特長要素b,b,b,…,bがその順番に時系列に並べられたものである。 The compression method will be described with reference to FIG. In the figure, b 1 , b 2 , b 3 ,..., B 9 indicate characteristic elements of an arbitrary standard pattern Bx. In the standard pattern Bx, the feature elements b 1 , b 2 , b 3 ,..., B 9 are arranged in time series in that order.

パターン圧縮部12では、標準パターンBxを構成する各特長要素b,b,b,…,bについて、それぞれ隣接した特徴要素との距離を求める。そして、距離が予め設定された閾値以下であった場合に、これら隣接した複数の特徴要素を一つの平均特徴要素b′(k=1,2,3,…)に置き換える。この処理により、局所的に複数の特徴要素が平均特徴要素に圧縮される。標準パターンBxの全体にこの処理を施すことにより、圧縮標準パターンB′xが生成される。 The pattern compressing unit 12 obtains distances between adjacent feature elements for the feature elements b 1 , b 2 , b 3 ,..., B 9 constituting the standard pattern Bx. When the distance is equal to or less than a preset threshold value, the plurality of adjacent feature elements are replaced with one average feature element b ′ k (k = 1, 2, 3,...). By this processing, a plurality of feature elements are locally compressed into average feature elements. By applying this process to the entire standard pattern Bx, a compressed standard pattern B′x is generated.

図2の例の場合、隣接する特徴要素bとbとの距離が閾値以下であり、これら特徴要素b,bが平均特徴要素b′{b′=(b+b)/2}に置き換えられている。また、隣接する特徴要素b,b及びbの距離が閾値以下であり、これらの特徴要素b,b及びbが平均特徴要素b′{b′=(b+b+b)/3}に置き換えられている。また、隣接する特徴要素bとbとの距離が閾値以下であり、これら特徴要素b,bが平均特徴要素b′{b′=(b+b)/2}に置き換えられている。かくして、標準パターンBx(=b,b,b,…,b)が圧縮標準パターンB′x(=b′,b′,b′,b′,b′)に圧縮される。 In the case of the example in FIG. 2, the distance between adjacent feature elements b 2 and b 3 is equal to or less than a threshold value, and these feature elements b 2 and b 3 are average feature elements b ′ 2 {b ′ 2 = (b 2 + b 3 ) / 2}. Further, the distance between adjacent feature elements b 4 , b 5 and b 6 is less than or equal to the threshold value, and these feature elements b 4 , b 5 and b 6 are average feature elements b ′ 3 {b ′ 3 = (b 4 + b 5 + b 6 ) / 3}. Further, the distance between the adjacent feature elements b 7 and b 8 is equal to or smaller than the threshold value, and these feature elements b 7 and b 8 become the average feature element b ′ 4 {b ′ 4 = (b 7 + b 8 ) / 2}. Has been replaced. Thus, the standard pattern Bx (= b 1 , b 2 , b 3 ,..., B 9 ) is the compressed standard pattern B′x (= b ′ 1 , b ′ 2 , b ′ 3 , b ′ 4 , b ′ 5 ). Is compressed.

圧縮情報生成部13は、前記パターン圧縮部12により圧縮された圧縮標準パターンB′xの特徴要素b′,b′,b′,b′,b′毎の圧縮比n1,n2,n3,n4.n5の系列を圧縮情報Nxとして生成する。本実施の形態では、図2に示すように、圧縮標準パターンB′xの各特徴要素b′,b′,b′,b′,b′が、それぞれ元の標準パターンBxの何個分の特徴要素を代表しているのかを示す値を圧縮比n,n,n,n.nと定義している。 The compression information generation unit 13 includes a compression ratio n1, for each of the characteristic elements b ′ 1 , b ′ 2 , b ′ 3 , b ′ 4 , b ′ 5 of the compression standard pattern B′x compressed by the pattern compression unit 12. n2, n3, n4. An n5 series is generated as compressed information Nx. In the present embodiment, as shown in FIG. 2, each of the characteristic elements b ′ 1 , b ′ 2 , b ′ 3 , b ′ 4 , b ′ 5 of the compressed standard pattern B′x is converted into the original standard pattern Bx. Of the number of feature elements representing the compression ratios n 1 , n 2 , n 3 , n 4 . n 5 to be defined.

すなわち、圧縮標準パターンB′xの特徴要素b′は、標準パターンBxの特徴要素bだけを代表しているので、圧縮比n1は“1”である。同様に、特徴要素b′は、特徴要素bとbとを代表しているので、圧縮比n2は“2”である。特徴要素b′は、特徴要素bとbとbとを代表しているので、圧縮比n3は“3”である。特徴要素b′は、特徴要素bとbとを代表しているので、圧縮比n4は“2”である。特徴要素b′は、特徴要素bだけを代表しているので、圧縮比n5は“1”である。 That is, since the feature element b ′ 1 of the compressed standard pattern B′x represents only the feature element b 1 of the standard pattern Bx, the compression ratio n1 is “1”. Similarly, since the characteristic element b ′ 2 represents the characteristic elements b 2 and b 3 , the compression ratio n2 is “2”. Since the characteristic element b ′ 3 represents the characteristic elements b 4 , b 5, and b 6 , the compression ratio n 3 is “3”. Since the characteristic element b ′ 4 represents the characteristic elements b 7 and b 8 , the compression ratio n4 is “2”. Since the characteristic element b ′ 5 represents only the characteristic element b 9 , the compression ratio n5 is “1”.

かくして、圧縮標準パターンB′xに対する圧縮情報はNxは、“1,2,3,1,2”となる。   Thus, the compression information for the compression standard pattern B′x is Nx “1, 2, 3, 1, 2”.

記憶部14は、図3に示すように、パターン圧縮部12で圧縮された圧縮標準パターンB′xを、当該圧縮標準パターンに対して圧縮情報生成部13で生成された圧縮情報Nxと関連付けて記憶する。   As shown in FIG. 3, the storage unit 14 associates the compression standard pattern B′x compressed by the pattern compression unit 12 with the compression information Nx generated by the compression information generation unit 13 for the compression standard pattern. Remember.

パターンマッチング処理部15は、図4に示すように、復元部21と、平滑化処理部22と、距離計算部23とを備えている。   As shown in FIG. 4, the pattern matching processing unit 15 includes a restoration unit 21, a smoothing processing unit 22, and a distance calculation unit 23.

復元部21は、記憶部14に記憶されている圧縮標準パターンB′xを、当該圧縮標準パターンB′xと関連付けて記憶されている圧縮情報Nxに基づき伸長して、標準パターンBx1に復元する。例えば図2の例の場合、圧縮標準パターンB′x(b′,b′,b′,b′,b′)に関連する圧縮情報Nx(n,n,n,n.n)は、“1,2,3,1,2”である。 Restoration unit 21 restores the compressed standard pattern B'x stored in the storage unit 14, and extends on the basis of the compression information Nx stored in association with the compression standard pattern B'x, the reference pattern B x1 To do. For example, in the case of the example of FIG. 2, the compression information Nx (n 1 , n 2 , n 3 ) related to the compression standard pattern B′x (b ′ 1 , b ′ 2 , b ′ 3 , b ′ 4 , b ′ 5 ). , N 4 .n 5 ) is “1, 2, 3, 1, 2”.

したがって、特徴要素b′は、そのままとなる。特徴要素b′は、隣接する2つの特徴要素b′,b′となる。特徴要素b′は、隣接する3つの特徴要素b′,b′,b′となる。特徴要素b′は、隣接する2つの特徴要素b′,b′となる。特徴要素b′は、そのままとなる。かくして、圧縮標準パターンB′xは、標準パターンBx1(b′,b′,b′,b′,b′,b′,b′,b′,b′)に復元される。 Therefore, the characteristic element b ′ 1 remains as it is. The feature element b ′ 2 becomes two adjacent feature elements b ′ 2 and b ′ 2 . The feature element b ′ 3 becomes three adjacent feature elements b ′ 3 , b ′ 3 , and b ′ 3 . The feature element b ′ 4 becomes two adjacent feature elements b ′ 4 and b ′ 4 . The characteristic element b ′ 5 remains as it is. Thus, the compressed standard pattern B′x is the standard pattern B x1 (b ′ 1 , b ′ 2 , b ′ 2 , b ′ 3 , b ′ 3 , b ′ 3 , b ′ 4 , b ′ 4 , b ′ 5 ) Is restored.

平滑化処理部22は、復元部21で復元された標準パターンBx1に対して低域通過フィルタによる平滑化処理を行う。復元された標準パターンBx1には、圧縮によるノイズが発生している。平滑化処理を施すことによって、この種のノイズを除去できる。 The smoothing processing unit 22 performs a smoothing process using a low-pass filter on the standard pattern B x1 restored by the restoration unit 21. In the restored standard pattern B x1 , noise due to compression is generated. This kind of noise can be removed by performing the smoothing process.

距離計算部23は、音声分析部11を介して入力された音声パターンAと、平滑化処理部22にて平滑化処理された標準パターンBx1とのパターン間距離Gxを、周知の動的計画法により算出する。例えば、前記(3)式に示された漸化式の繰返し演算によってパターン間距離Gxを算出する。 The distance calculation unit 23 calculates the inter-pattern distance Gx between the speech pattern A input via the speech analysis unit 11 and the standard pattern B x1 smoothed by the smoothing processing unit 22, using a well-known dynamic plan Calculated by the method. For example, the inter-pattern distance Gx is calculated by repetitive calculation of the recurrence formula shown in the formula (3).

パターンマッチング処理部15では、全ての圧縮標準パターンB′xについて、前記復元部21、平滑化処理部22及び距離計算部23での処理を繰返し実行する。そして、算出されたパターン間距離Gxが最小となる標準パターンBxを求めて、音声パターンAの認識結果Gとして出力する。 The pattern matching processing unit 15 repeatedly executes the processing in the restoration unit 21, the smoothing processing unit 22, and the distance calculation unit 23 for all the compressed standard patterns B′x. Then, the standard pattern Bx 1 that minimizes the calculated inter-pattern distance Gx is obtained and output as the recognition result G of the voice pattern A.

このように、本実施の形態のパターンマッチング装置10においては、標準パターンBxを圧縮して圧縮標準パターンB′xを生成する際に、その圧縮標準パターンB′xの特徴要素毎の圧縮比の系列を圧縮情報Nxとして生成している。そして、圧縮標準パターンB′xを、当該圧縮標準パターンB′xに対して生成された圧縮情報Nxと関連付けて記憶部14で記憶している。   As described above, in the pattern matching apparatus 10 of the present embodiment, when the standard pattern Bx is compressed to generate the compressed standard pattern B′x, the compression ratio for each feature element of the compressed standard pattern B′x is changed. A series is generated as compressed information Nx. The compression standard pattern B′x is stored in the storage unit 14 in association with the compression information Nx generated for the compression standard pattern B′x.

音声信号Mが入力されると、音声分析部11により入力音声の特徴要素aが時系列で抽出されて、音声パターンAが生成される。音声パターンAは、パターンマッチング処理部15に出力される。パターンマッチング処理部15では、記憶部14に記憶された全ての圧縮標準パターンB′xに対して、以下のパターンマッチング処理が実行される。   When the voice signal M is input, the voice analysis unit 11 extracts the feature element a of the input voice in time series, and the voice pattern A is generated. The voice pattern A is output to the pattern matching processing unit 15. The pattern matching processing unit 15 performs the following pattern matching processing on all the compressed standard patterns B′x stored in the storage unit 14.

先ず、記憶部14から任意の圧縮標準パターンB′xと、それに関連する圧縮情報Nxとが読み出される。そして、圧縮標準パターンB′xが圧縮情報Nxに基づき伸長されて、標準パターンBx1に復元される。次に、復元された標準パターンBx1に対して平滑化処理が行われる。しかる後、入力された音声パターンAと平滑化処理が施された標準パターンBx1とのパターン間距離Gxが動的計画法により算出される。 First, an arbitrary compressed standard pattern B′x and related compression information Nx are read from the storage unit 14. Then, the compressed standard pattern B′x is expanded based on the compression information Nx, and restored to the standard pattern B x1 . Next, a smoothing process is performed on the restored standard pattern B x1 . Thereafter, the inter-pattern distance Gx between the input speech pattern A and the smoothed standard pattern B x1 is calculated by dynamic programming.

こうして、パターンマッチング処理部15では、圧縮標準パターンB′x毎に、音声パターンAとのパターン間距離Gxが算出される。そして、パターン間距離Gxが最小となる標準パターンBxが音声パターンAの認識結果Gとして出力される。 Thus, the pattern matching processing unit 15 calculates the inter-pattern distance Gx with the sound pattern A for each compressed standard pattern B′x. Then, the standard pattern Bx 1 that minimizes the inter-pattern distance Gx is output as the recognition result G of the voice pattern A.

このように、圧縮された標準パターンB′xをそのまま音声パターンAとのパターン間距離の演算に用いるのではなく、圧縮情報Nxで標準パターンBx1に復元してから用いている。したがって、標準パターンBxの圧縮により失われた時間情報が加味されるので、マッチングエラーの発生率が低減される。 Thus, the compressed standard pattern B′x is not used as it is for the calculation of the inter-pattern distance with the speech pattern A, but is used after being restored to the standard pattern B x1 with the compression information Nx. Therefore, since the time information lost due to the compression of the standard pattern Bx is taken into account, the occurrence rate of matching errors is reduced.

次に、第2の実施の形態について説明する。第2の実施の形態は、パターンマッチング処理部15のみが第1の実施の形態と異なる。第2の実施の形態におけるパターンマッチング処理部15の要部構成を図5のブロック図で示す。   Next, a second embodiment will be described. The second embodiment is different from the first embodiment only in the pattern matching processing unit 15. The principal part structure of the pattern matching process part 15 in 2nd Embodiment is shown with the block diagram of FIG.

パターンマッチング処理部15は、漸化式設定部31と距離計算部32とを備えている。距離計算部32は、音声パターンAと圧縮標準パターンB′xとのパターン間距離Gxを、漸化式設定部31に設定された漸化式の繰返し演算によって算出する。この際、圧縮標準パターンB′xと関連付けられて記憶されている圧縮情報Nxを用いて漸化式の計算を行う。   The pattern matching processing unit 15 includes a recurrence formula setting unit 31 and a distance calculation unit 32. The distance calculation unit 32 calculates the inter-pattern distance Gx between the voice pattern A and the compressed standard pattern B′x by repetitive calculation of the recurrence formula set in the recurrence formula setting unit 31. At this time, the recurrence formula is calculated using the compression information Nx stored in association with the compression standard pattern B′x.

漸化式設定部31には、次の(4)式に示された漸化式が設定されている。

Figure 2011022621
The recurrence formula shown in the following formula (4) is set in the recurrence formula setting unit 31.
Figure 2011022621

(4)式において、d(i,j)は、音声パターンAの特徴要素aと圧縮標準パターンB′xの特徴要素b′との要素間距離である。g(i,j)は、音声パターンAと圧縮標準パターンB′xとの要素間累積距離である。nj−1は圧縮情報Nxの要素(圧縮比)である。 In the equation (4), d (i, j) is an inter-element distance between the feature element a i of the voice pattern A and the feature element b ′ j of the compressed standard pattern B′x. g (i, j) is an inter-element cumulative distance between the voice pattern A and the compressed standard pattern B′x. n j−1 is an element (compression ratio) of the compression information Nx.

上記漸化式(4)の最上段の式は、図6に示すA,B平面上の任意の点(i,j)に対し、左側に隣接する点(i−1,j)との関係を規定している。   The uppermost expression of the recurrence formula (4) is the relationship between an arbitrary point (i, j) on the A and B planes shown in FIG. Is stipulated.

同漸化式(4)の最下段の式は、圧縮情報要素nj−1が“1”の場合である。この場合は、点(i,j)に対し、左斜め下に隣接する点(i−1,j−1)との関係を規定している。 The lowest equation of the recurrence equation (4) is when the compression information element n j−1 is “1”. In this case, the relationship between the point (i, j-1) and the point (i-1, j-1) adjacent to the lower left is defined.

同漸化式(4)の中段の式は、圧縮情報要素nj−1が“1”より大きい場合である。この場合は、点(i,j)に対し、左斜め下に隣接する点(i−1,j−1)から、さらに特徴要素b′j−1に対応する圧縮情報要素nj−1に従い制限経路長が伸長された点(i−nj−1,j−1)との関係を規定している。 The middle formula of the recurrence formula (4) is when the compressed information element n j−1 is larger than “1”. In this case, with respect to the point (i, j), the point (i−1, j−1) adjacent to the lower left diagonally further follows the compression information element n j−1 corresponding to the feature element b ′ j−1. It defines the relationship with the point (in j-1 , j-1) where the restricted path length is extended.

このような漸化式(4)の演算を繰返し行うことによって、圧縮標準パターンB′xの特徴要素b′j−1は、入力パターンAのnj−1個の要素aとの対応が課せられる。したがって、標準パターンBxの圧縮により失われた時間情報が加味されるので、マッチングエラーの発生率が低減される。 By repeatedly performing the calculation of the recurrence formula (4), the feature element b ′ j−1 of the compressed standard pattern B′x can correspond to the n j−1 elements a i of the input pattern A. Imposed. Therefore, since the time information lost due to the compression of the standard pattern Bx is taken into account, the occurrence rate of matching errors is reduced.

同様な効果が得られる漸化式は、上記(4)式に限定されるものではない。例えば、図7に示すように、制限経路長の伸長を、特徴要素b′に対して行う下記(5)式の漸化式を漸化式設定部31に設定してもよい。

Figure 2011022621
The recurrence formula that provides the same effect is not limited to the above formula (4). For example, as shown in FIG. 7, the recurrence formula of the following formula (5) for extending the restricted path length with respect to the feature element b ′ j may be set in the recurrence formula setting unit 31.
Figure 2011022621

あるいは、図8に示すように、制限経路長の伸長を、特徴要素b′とb′j−1との両方に対して行う下記(6)式の漸化式を漸化式設定部31に設定してもよい。

Figure 2011022621
Alternatively, as shown in FIG. 8, the recurrence formula of the following formula (6) for extending the restricted path length for both the feature elements b ′ j and b ′ j−1 is the recurrence formula setting unit 31. May be set.
Figure 2011022621

なお、前記各実施の形態では、標準パターンBxを圧縮する際に、近似した複数の特徴要素の平均をとるようにしたが、近似した特徴要素の1つを代表として選択するようにしてもよい。また、コードブックによるクラスタリング手法を用いることも可能である。   In each of the above embodiments, when compressing the standard pattern Bx, an average of a plurality of approximate feature elements is taken. However, one of the approximate feature elements may be selected as a representative. . It is also possible to use a codebook clustering technique.

また、前記実施の形態では、圧縮情報nXの要素(圧縮比)nをそのまま用いているが、所定の倍率、例えば0.8倍の値を用いてパターン間距離を計算するようにしてもよい。 In the above embodiment, the element (compression ratio) n j of the compression information nX is used as it is, but the inter-pattern distance may be calculated using a predetermined magnification, for example, a value of 0.8. Good.

また、前記実施の形態では、音声のパターン認識分野に適用した場合を示したが、本発明は、文字,図形等のパターン認識分野にも同様に適用できるものである。この他、本発明の要旨を逸脱しない範囲で種々変形実施可能であるのは勿論である。   In the above-described embodiment, the case where the present invention is applied to the voice pattern recognition field has been described. However, the present invention can be similarly applied to the pattern recognition field such as characters and figures. Of course, various modifications can be made without departing from the scope of the present invention.

10…パターンマッチング装置、11…音声分析部、12…パターン圧縮部、13…圧縮情報生成部、14…記憶部、15…パターンマッチング処理部。   DESCRIPTION OF SYMBOLS 10 ... Pattern matching apparatus, 11 ... Speech analysis part, 12 ... Pattern compression part, 13 ... Compression information generation part, 14 ... Memory | storage part, 15 ... Pattern matching process part

Claims (5)

それぞれ特徴要素の時系列で示される標準パターンと入力パターンとのパターン間距離を求め、そのパターン間距離を認識結果として出力するパターンマッチング装置において、
前記標準パターンを構成する各特徴要素について、隣接する特徴要素と近似しているものを1つの特徴要素に統合することによって前記標準パターンを圧縮するパターン圧縮手段と、
前記パターン圧縮手段により圧縮された圧縮標準パターンの特徴要素毎の圧縮比の系列を圧縮情報として生成する圧縮情報生成手段と、
前記パターン圧縮手段により圧縮された前記圧縮標準パターンを、当該圧縮標準パターンに対して前記圧縮情報生成手段により生成された前記圧縮情報と関連付けて記憶する記憶手段と、
前記記憶手段により記憶された前記圧縮標準パターンと前記入力パターンとのパターン間距離を、当該圧縮標準パターンに対して前記圧縮情報生成手段により生成された前記圧縮情報を変数として持つ動的計画法の漸化式によって算出する距離演算手段と、
を具備したことを特徴とするパターンマッチング装置。
In the pattern matching device that calculates the inter-pattern distance between the standard pattern and the input pattern indicated by the time series of each feature element, and outputs the inter-pattern distance as a recognition result,
Pattern compressing means for compressing the standard pattern by integrating, for each feature element constituting the standard pattern, one that approximates an adjacent feature element into one feature element;
Compression information generating means for generating, as compressed information, a series of compression ratios for each feature element of the compressed standard pattern compressed by the pattern compressing means;
Storage means for storing the compression standard pattern compressed by the pattern compression means in association with the compression information generated by the compression information generation means for the compression standard pattern;
The distance between patterns of the compression standard pattern stored by the storage unit and the input pattern is a dynamic programming method having as a variable the compression information generated by the compression information generation unit for the compression standard pattern. A distance calculating means for calculating by a recurrence formula;
A pattern matching apparatus comprising:
前記距離演算手段において用いられる漸化式は、
前記入力パターンの特徴要素aと前記圧縮標準パターンの特徴要素bとの要素間距離をd(i,j)とし、前記入力パターンと前記圧縮標準パターンとの要素間累積距離をg(i,j)とし、前記圧縮比nの系列である圧縮情報をnとすると、
Figure 2011022621
で表されることを特徴とする請求項1記載のパターンマッチング装置。
The recurrence formula used in the distance calculation means is
The inter-element distance between the feature element a i of the input pattern and the feature element b j of the compressed standard pattern is d (i, j), and the cumulative inter-element distance between the input pattern and the compressed standard pattern is g (i , J), and compression information that is a sequence of the compression ratio n is n j ,
Figure 2011022621
The pattern matching apparatus according to claim 1, wherein
前記距離演算手段において用いられる漸化式は、
前記入力パターンの特徴要素aと前記圧縮標準パターンの特徴要素bとの要素間距離をd(i,j)とし、前記入力パターンと前記圧縮標準パターンとの要素間累積距離をg(i,j)とし、前記圧縮比nの系列である圧縮情報をnとすると、
Figure 2011022621
で表されることを特徴とする請求項1記載のパターンマッチング装置。
The recurrence formula used in the distance calculation means is
The inter-element distance between the feature element a i of the input pattern and the feature element b j of the compressed standard pattern is d (i, j), and the cumulative inter-element distance between the input pattern and the compressed standard pattern is g (i , J), and compression information that is a sequence of the compression ratio n is n j ,
Figure 2011022621
The pattern matching apparatus according to claim 1, wherein
前記距離演算手段において用いられる漸化式は、
前記入力パターンの特徴要素aと前記圧縮標準パターンの特徴要素bとの要素間距離をd(i,j)とし、前記入力パターンと前記圧縮標準パターンとの要素間累積距離をg(i,j)とし、前記圧縮比nの系列である圧縮情報をnとすると、
Figure 2011022621
で表されることを特徴とする請求項1記載のパターンマッチング装置。
The recurrence formula used in the distance calculation means is
The inter-element distance between the feature element a i of the input pattern and the feature element b j of the compressed standard pattern is d (i, j), and the cumulative inter-element distance between the input pattern and the compressed standard pattern is g (i , J), and compression information that is a sequence of the compression ratio n is n j ,
Figure 2011022621
The pattern matching apparatus according to claim 1, wherein
それぞれ特徴要素の時系列で示される標準パターンと入力パターンとのパターン間距離を求め、そのパターン間距離を認識結果として出力するパターンマッチング装置におけるパターンマッチング方法であって、
前記標準パターンを構成する各特徴要素について、隣接する特徴要素と近似しているものを1つの特徴要素に統合することによって前記標準パターンを圧縮する圧縮工程と、
前記パターン圧縮手段により圧縮された圧縮標準パターンの特徴要素毎の圧縮比の系列を圧縮情報として生成する生成工程と、
前記圧縮工程で圧縮された前記圧縮標準パターンと前記入力パターンとのパターン間距離を、当該圧縮標準パターンに対して前記生成工程により生成された前記圧縮情報を変数として持つ動的計画法の漸化式によって算出する演算工程と、
を含むことを特徴とするパターンマッチング方法。
A pattern matching method in a pattern matching device that calculates a distance between patterns of a standard pattern and an input pattern that are each shown in time series of feature elements, and outputs the distance between the patterns as a recognition result,
For each feature element constituting the standard pattern, a compression step of compressing the standard pattern by integrating one feature element that approximates an adjacent feature element;
A generation step of generating, as compression information, a series of compression ratios for each feature element of the compression standard pattern compressed by the pattern compression unit;
Recursion of dynamic programming having as a variable the inter-pattern distance between the compressed standard pattern compressed in the compression step and the input pattern, with the compression information generated by the generation step for the compressed standard pattern as a variable A calculation step calculated by an equation;
A pattern matching method comprising:
JP2010248442A 2006-10-20 2010-11-05 Pattern matching apparatus and method Expired - Fee Related JP5188563B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CNB2006101356589A CN100552664C (en) 2006-10-20 2006-10-20 mode matching device and method
CN200610135658.9 2006-10-20

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2007071480A Division JP2008102482A (en) 2006-10-20 2007-03-19 Pattern matching device and method

Publications (2)

Publication Number Publication Date
JP2011022621A true JP2011022621A (en) 2011-02-03
JP5188563B2 JP5188563B2 (en) 2013-04-24

Family

ID=39334378

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2007071480A Abandoned JP2008102482A (en) 2006-10-20 2007-03-19 Pattern matching device and method
JP2010248442A Expired - Fee Related JP5188563B2 (en) 2006-10-20 2010-11-05 Pattern matching apparatus and method

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2007071480A Abandoned JP2008102482A (en) 2006-10-20 2007-03-19 Pattern matching device and method

Country Status (2)

Country Link
JP (2) JP2008102482A (en)
CN (1) CN100552664C (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6473807B2 (en) 2014-10-03 2019-02-20 インターデイジタル パテント ホールディングス インコーポレイテッド Method for limited direct discovery
KR102240455B1 (en) 2019-06-11 2021-04-14 네이버 주식회사 Electronic apparatus for dinamic note matching and operating method of the same
CN110880315A (en) * 2019-10-17 2020-03-13 深圳市声希科技有限公司 Personalized voice and video generation system based on phoneme posterior probability

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5614381A (en) * 1979-07-13 1981-02-12 Nec Corp Pattern recognizing system
JPS59195699A (en) * 1983-04-21 1984-11-06 三菱電機株式会社 Word voice recognition equipment
JPS60146300A (en) * 1984-01-10 1985-08-01 株式会社リコー Pattern generation system
JPS60158498A (en) * 1984-01-27 1985-08-19 株式会社リコー Pattern collation system
JPS60201398A (en) * 1984-03-26 1985-10-11 日本電信電話株式会社 Continuous word recognition
JPS6170595A (en) * 1984-09-14 1986-04-11 株式会社リコー Voice recognition system
JPS61129700A (en) * 1984-11-29 1986-06-17 株式会社リコー Dictionary preparation for voice recognition equipment
JPH0635494A (en) * 1992-07-16 1994-02-10 Nec Corp Speech recognizing device
JPH09244686A (en) * 1996-02-09 1997-09-19 Canon Inc Method and device for information processing

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1159704C (en) * 1994-06-13 2004-07-28 松下电器产业株式会社 Signal analyzer
US7437398B2 (en) * 2004-07-30 2008-10-14 Intel Corporation Pattern matching architecture

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5614381A (en) * 1979-07-13 1981-02-12 Nec Corp Pattern recognizing system
JPS59195699A (en) * 1983-04-21 1984-11-06 三菱電機株式会社 Word voice recognition equipment
JPS60146300A (en) * 1984-01-10 1985-08-01 株式会社リコー Pattern generation system
JPS60158498A (en) * 1984-01-27 1985-08-19 株式会社リコー Pattern collation system
JPS60201398A (en) * 1984-03-26 1985-10-11 日本電信電話株式会社 Continuous word recognition
JPS6170595A (en) * 1984-09-14 1986-04-11 株式会社リコー Voice recognition system
JPS61129700A (en) * 1984-11-29 1986-06-17 株式会社リコー Dictionary preparation for voice recognition equipment
JPH0635494A (en) * 1992-07-16 1994-02-10 Nec Corp Speech recognizing device
JPH09244686A (en) * 1996-02-09 1997-09-19 Canon Inc Method and device for information processing

Also Published As

Publication number Publication date
CN101165679A (en) 2008-04-23
CN100552664C (en) 2009-10-21
JP2008102482A (en) 2008-05-01
JP5188563B2 (en) 2013-04-24

Similar Documents

Publication Publication Date Title
TWI682325B (en) Recognition system and recognition method
JP2007279349A (en) Feature amount compensation apparatus, method, and program
CN101432799B (en) Soft alignment in gaussian mixture model based transformation
CN110335608B (en) Voiceprint verification method, voiceprint verification device, voiceprint verification equipment and storage medium
JP5188563B2 (en) Pattern matching apparatus and method
JP6453681B2 (en) Arithmetic apparatus, arithmetic method and program
CN105719640A (en) SOUND SYNTHESIS DEVICE and SOUND SYNTHESIS METHOD
Liu et al. Detecting adversarial audio via activation quantization error
JPWO2008126254A1 (en) Speaker recognition device, acoustic model update method, and acoustic model update processing program
JP6193726B2 (en) WFST creation device for speech recognition, speech recognition device, method and program thereof, and recording medium
JP2019197149A (en) Pitch emphasis device, method thereof, and program
CN115101088A (en) Audio signal recovery method, apparatus, electronic device, and medium
KR102363636B1 (en) Method and apparatus for voice recognition using statistical uncertainty modeling
CN115798453A (en) Voice reconstruction method and device, computer equipment and storage medium
JP5862667B2 (en) Waveform processing apparatus, waveform processing method, and waveform processing program
JPWO2009151002A1 (en) Pattern identification method, apparatus and program
JP2005265895A (en) Piece connecting type voice synthesizer and its method
JP5701348B2 (en) Speech recognition apparatus, speech recognition method, and program
JP4741208B2 (en) Speech text data selection program for speech synthesis and text data selection device for speech synthesis
JPWO2017037830A1 (en) Speech recognition apparatus and speech recognition processing method
JP2985441B2 (en) Automatic transcription analyzer
JP6731609B2 (en) Data processing device, data processing system, data processing method, and data processing program
JP4809821B2 (en) Distribution-sharing acoustic model creation method, apparatus, and program thereof
JP2010055012A (en) Chord estimation device, chord estimation method, and program
JP4107192B2 (en) Voice signal extraction method and voice recognition apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101105

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20110107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110111

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120221

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121001

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20121010

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130122

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160201

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees