JPH03111900A - Voice recognition system - Google Patents

Voice recognition system

Info

Publication number
JPH03111900A
JPH03111900A JP1251170A JP25117089A JPH03111900A JP H03111900 A JPH03111900 A JP H03111900A JP 1251170 A JP1251170 A JP 1251170A JP 25117089 A JP25117089 A JP 25117089A JP H03111900 A JPH03111900 A JP H03111900A
Authority
JP
Japan
Prior art keywords
pattern
recognition
similarity
vector
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1251170A
Other languages
Japanese (ja)
Other versions
JP2613108B2 (en
Inventor
Ryuichi Oka
隆一 岡
Hiroshi Matsumura
松村 博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Sanyo Electric Co Ltd
Original Assignee
Agency of Industrial Science and Technology
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agency of Industrial Science and Technology, Sanyo Electric Co Ltd filed Critical Agency of Industrial Science and Technology
Priority to JP1251170A priority Critical patent/JP2613108B2/en
Publication of JPH03111900A publication Critical patent/JPH03111900A/en
Application granted granted Critical
Publication of JP2613108B2 publication Critical patent/JP2613108B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

PURPOSE:To enable high word recognition and to perform more difficult single sound recognition at a high recognition rate by extracting features of a feature pattern and a standard pattern while separating them by directions and performing similarity calculation in units in a time-base direction. CONSTITUTION:A voice is inputted to an analysis part 2 through a voice input part 1 to find a time space pattern, which is sectioned by a word section segmentation part 3 into words in recognition units and supplied to a feature extraction part 4. The output of the segmentation part 3 is inputted to a normalization part 41 to normalize the time base linearly. The normalized time space pattern is supplied to a spectrum field extraction part 42 to extracts a spectrum field. A pattern generation part 43 generates two-dimensional patterns by directions from the spectrum field pattern and a gradation processing part 5 performs time space gradation processing to improve the voice recognition rate. Features extracted as to various words are stored as standard pattern in a storage part 6. A calculation part 7 calculate the similarity to the standard pattern in the feature pattern storage part 6 from the processing part 5 and outputs the most similar pattern as a recognition result.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は音声認識方式に関し、更に詳述すればベクトル
場のパターンを利用して得た標準パターンと、同じく認
識対象音声に対応する特徴パターンとの類似度の計算に
係るものである。
[Detailed Description of the Invention] [Industrial Application Field] The present invention relates to a speech recognition method, and more specifically, a standard pattern obtained using a vector field pattern and a characteristic pattern corresponding to speech to be recognized. This is related to calculating the degree of similarity with.

〔従来技術〕[Prior art]

音声認識は、一般に、認識させるべき単語から特徴を抽
出して得た音声の標準パターンを単語夫々に用意してお
き、認識対象として入力された音声から同様にして抽出
した特徴パターンと複数の標準パターンとを整合し、最
も類偵性が高い標準パターンを求め、この標準パターン
に係る単語が入力されたものと判定する方式をとってい
る。そして、従来は上記特徴パターンとして、音声信号
を分析して得られる、時間軸を横軸、空間軸を縦軸とす
るスカラー場の時空間パターンそのものを用いていた。
Generally, in speech recognition, a standard pattern of speech obtained by extracting features from the word to be recognized is prepared for each word, and feature patterns extracted in the same way from the speech input as recognition target and multiple standards are prepared for each word. A method is adopted in which a standard pattern with the highest similarity is found by matching the patterns, and it is determined that a word related to this standard pattern has been input. Conventionally, the spatio-temporal pattern itself of a scalar field with the horizontal axis as the time axis and the vertical axis as the spatial axis, which is obtained by analyzing the audio signal, has been used as the feature pattern.

このようなスカラー場の時空間パターンとしては、周波
数を空間軸とするスペクトルが代表的なものであり、こ
の他、ケフレンシーを空間軸とするケプストラム、PA
RCOR係数、LSP 係数、声道断面積関数等種々の
時空間パターンが用いられていた。
A typical spatio-temporal pattern of such a scalar field is a spectrum with frequency as its spatial axis, as well as a cepstrum with quefrency as its spatial axis, and a PA pattern with quefrency as its spatial axis.
Various spatiotemporal patterns such as RCOR coefficient, LSP coefficient, and vocal tract cross-sectional area function were used.

また、音声認識の分野において解決すべき課題の1つと
して多数話者又は不特定話者への対応があり、これには
1つの単語に多数の標準パターンを用意することで認識
率の向上を図っていた。更に、話者が同一であっても発
音速度が異なることがあり、このような場合にも対応で
きるように時間軸変動を吸収し得るDPマツチング法が
開発されていた。
In addition, one of the issues to be solved in the field of speech recognition is dealing with multiple speakers or unspecified speakers, and improving the recognition rate by preparing a large number of standard patterns for one word. I was planning. Furthermore, even if speakers are the same, their pronunciation speeds may differ, and a DP matching method that can absorb time axis fluctuations has been developed to cope with such cases.

スカラー場での時空間パターンそのものを用いる従来の
方式では、大語粟又は不特定話者を対象とした場合、必
ずしも十分な認識率が得られておらず、たとえ、上述の
如く1つの単語に多数の標準パターンを用意したり、あ
るいは叶マツチング法を用いても、これらは本格的な解
決にはならなかった。
Conventional methods that use the spatio-temporal pattern itself in a scalar field do not necessarily achieve a sufficient recognition rate when targeting a large number of speakers or unspecified speakers. Even if we prepared a large number of standard patterns or used the leaf matching method, these problems could not be fully resolved.

従って、大語霊又は不特定話者を対象とした音声認識シ
ステムの実用化が停滞しているのである。
Therefore, the practical application of speech recognition systems for large speech speakers or unspecified speakers has stalled.

そこで、本発明者の1人は、特開昭60−59394号
公報において、時間−周波数の時空間パターンであるス
カラー場のスペクトルを空間微分してスペクトルベクト
ル場パターンを得、このパターンを音声の特徴として用
いる手法を提案した。そしてそれを更に一歩進め音節認
識、単語認識に適し、また高い認識率が得られるような
音声の特徴抽出方式、音声認識方式を、本発明者等は特
願昭62−248915号、特願昭62−136377
号によって提案した。
Therefore, one of the inventors of the present invention obtained a spectral vector field pattern by spatially differentiating the spectrum of a scalar field, which is a time-frequency spatiotemporal pattern, in Japanese Patent Application Laid-Open No. 60-59394. We proposed a method to use it as a feature. Taking this a step further, the present inventors have developed a speech feature extraction method and speech recognition method that is suitable for syllable recognition and word recognition and that can obtain a high recognition rate. 62-136377
proposed by No.

この音声認識方式の基本適な特徴は、音声信号から時間
軸及び空間軸で規定されるスカラー場の時空間パターン
を得、該時空間パターンを空間機。
The basic characteristics of this speech recognition method are to obtain a spatio-temporal pattern of a scalar field defined by a time axis and a spatial axis from an audio signal, and to convert the spatio-temporal pattern into a spatial machine.

分することにより空間の各格子点で大きさと方向をもつ
ベクトル場パターンに変換し、該ベクトル場パターンの
ベクトルについて、その方向パラメータをN個(N:整
数)に量子化し、この量子化値を同じくするベクトル毎
に各々分離して、そのベクトル、の大きさを各格子点の
値としたN個の方向別2次元パターンを作成し、該方向
別2次元パターンによって予め作成しておいた標準パタ
ーンと、認識対象として入力された音声信号によって得
た前記方向別2次元パターンである特徴パターンとの類
似度を計算して入力音声を識別する点にある。
By dividing, each grid point in the space is converted into a vector field pattern having a magnitude and direction, and for the vector of the vector field pattern, its direction parameter is quantized into N pieces (N: an integer), and this quantized value is Separate the same vectors and create N two-dimensional patterns for each direction with the size of each vector as the value of each grid point, and create a standard created in advance using the two-dimensional patterns for each direction. The point is that the input speech is identified by calculating the degree of similarity between the pattern and the feature pattern, which is the direction-specific two-dimensional pattern obtained from the speech signal input as a recognition target.

〔発明が解決しようとする課題〕[Problem to be solved by the invention]

上述の音声認識方式は高い単語認識率を得ることができ
るが、より困難な単音節認識を高認識率で行わせること
が課題となっていた。
Although the above-mentioned speech recognition method can obtain a high word recognition rate, the challenge has been to perform the more difficult monosyllable recognition at a high recognition rate.

本発明は斯かる課題を達成することを目的としてなされ
たものである。
The present invention has been made with the aim of achieving the above object.

〔課題を解決するための手段〕[Means to solve the problem]

本発明に係る音声認識方式は、音声信号から時間軸及び
空間軸で規定されるスカラー場の時空間パターンを得、
該時空間パターンを空間微分することにより空間の各格
子点で大きさと方向をもっベクトル場パターンに変換し
、該ベクトル場パターンのベクトルについて、その方向
パラメータをN個(N:整数)に量子化し、この量子化
値を同じくするベクトル毎に各々分離して、そのベクト
ルの大きさを各格子点の値としたN個の方向別2次元パ
ターンを作成し、該方向別2次元パターンによって予め
作成しておいた標準パターンと、認識対象として入力さ
れた音声信号によって得た前記方向別2次元パターンで
ある特徴パターンとの類似度を計算して入力音声を識別
する音声認識方式において、標準パターン及び特徴パタ
ーン夫々の前記方向ごとに類似度の計算を行うことを特
徴とする。
The speech recognition method according to the present invention obtains a spatiotemporal pattern of a scalar field defined by a temporal axis and a spatial axis from an audio signal,
By spatially differentiating the spatio-temporal pattern, it is converted into a vector field pattern with magnitude and direction at each grid point in the space, and the direction parameters of the vectors of the vector field pattern are quantized into N pieces (N: an integer). , separate this quantized value into vectors with the same value, create N two-dimensional patterns for each direction with the size of the vector as the value of each grid point, and create in advance using the two-dimensional patterns for each direction. In a speech recognition method that identifies an input speech by calculating the similarity between a standard pattern that has been set and a feature pattern that is a two-dimensional pattern according to direction obtained from a speech signal input as a recognition target, standard patterns and The method is characterized in that the degree of similarity is calculated for each of the directions of each feature pattern.

また、この方向ごとの計算を方向別2次元パターンの時
間軸方向の単位ごとに行うことを特徴とする。
Further, the present invention is characterized in that this calculation for each direction is performed for each unit in the time axis direction of the two-dimensional pattern for each direction.

〔作用〕[Effect]

特徴抽出は方向別に分離して行われている。従って方向
別のスペクトルベクトル場ではスペクトルの同様の変化
が抽出されていることになる。従って方向別に類似度計
算を行うと、標準パターンと特徴パターンの類似度をよ
り正確に求めることができる。更に時間軸方向の単位ご
とに類似度計算を行うと、特徴抽出の際の処理に際して
行われる正規化のくずれの影響が少なくなり、これによ
り正確な類似度が求められる。
Feature extraction is performed separately for each direction. Therefore, similar changes in the spectrum are extracted in the spectral vector field for each direction. Therefore, if the similarity is calculated for each direction, the similarity between the standard pattern and the characteristic pattern can be determined more accurately. Furthermore, when the similarity is calculated for each unit in the time axis direction, the influence of normalization distortion performed during feature extraction processing is reduced, and thereby accurate similarity can be obtained.

〔実施例〕〔Example〕

以下本発明をその実施例を示す図面に基づいて詳述する
DESCRIPTION OF THE PREFERRED EMBODIMENTS The present invention will be described in detail below based on drawings showing embodiments thereof.

第1図は本発明方式を実施するための装置の構成を示す
ブロック図である。この実施例では分析部で音声信号を
スペクトル分析してスカラー場の時空間パターンとして
、周波数軸を空間軸とするスペクトルを用いている。
FIG. 1 is a block diagram showing the configuration of an apparatus for implementing the method of the present invention. In this embodiment, the analysis section spectrally analyzes the audio signal and uses a spectrum with the frequency axis as the spatial axis as the spatiotemporal pattern of the scalar field.

標準パターン作成のための音声の入力又は認識対象の音
声の入力はマイクロホン等の音声検出器及びA/D &
換器からなる音声入力部1によって行われ、これによっ
て得られた音声信号は通過周波数帯域を夫々に異にする
複数チャネル(例えば10〜30)のバンドパスフィル
タを並列的に接続してなる分析部2に入力される。分析
部では、分析の結果、時空間パターンが得られ、このパ
ターンが単語区間切出部3によって認識単位の単語ごと
に区分されて特徴抽出部4へ与えられる。単語区間切出
部3としては従来から知られているものを用いればよい
Input of voice for standard pattern creation or recognition target voice is performed using a voice detector such as a microphone and A/D&
The audio signal obtained by this is analyzed using a plurality of bandpass filters (for example, 10 to 30) connected in parallel, each having a different pass frequency band. The data is input to section 2. The analysis section obtains a spatio-temporal pattern as a result of the analysis, and this pattern is segmented by the word section cut-out section 3 into each recognition unit word and provided to the feature extraction section 4 . As the word section cutting section 3, a conventionally known one may be used.

なお周波数帯域ごとに音声信号を分割する分析部として
、以後の説明においては、上記した如くバンドパスフィ
ルタ群を用いることとするが、高速フーリエ変換器を用
いてもよい。
In the following description, a group of bandpass filters will be used as described above as an analysis unit that divides the audio signal into frequency bands, but a fast Fourier transformer may also be used.

特徴抽出部4への入カバターンは横軸を時間軸、縦軸を
周波数とする時空間パターンであり、単語区間切出部3
によって切出された第2図に示す時空間パターンをr 
(t、x)  (但しtはサンプリングの時刻を示す番
号、Xはバンドパスフィルタのチャネル番号又は周波数
帯域を特定する番号。
The input pattern to the feature extraction unit 4 is a spatiotemporal pattern with the horizontal axis as the time axis and the vertical axis as the frequency.
The spatiotemporal pattern shown in Figure 2 extracted by
(t, x) (where t is a number indicating the sampling time, and X is a number specifying the channel number or frequency band of the bandpass filter.

1≦t≦T、1≦X≦L)と表す。1≦t≦T, 1≦X≦L).

単語区間切出部3出力は特徴抽出部4の正規化部41へ
入力され、正規化部41は時間軸の線形正規化をする。
The output of the word section extraction section 3 is input to the normalization section 41 of the feature extraction section 4, and the normalization section 41 linearly normalizes the time axis.

これは単語の長短1人力音声の長短等をある程度吸収す
るためであり、時間軸をTフレームからMフレーム(例
えば16〜32フレ一ム程度)にする。具体的にはM≦
Tの場合は、正規化した時空間パターンF(t、x)は
下記(1)弐で求められる。
This is to absorb to some extent the length and shortness of the words and the length of the human voice, and the time axis is changed from T frames to M frames (for example, about 16 to 32 frames). Specifically, M≦
In the case of T, the normalized spatio-temporal pattern F(t, x) is obtained by (1) 2 below.

但し1≦L≦M そして、M>Tである場合は F (t、x) = f l、x)   ”(2)但し
j = (T/M)  ・t としてt=1〜Mまで計算すればよい。
However, 1≦L≦M And if M>T, then F (t, x) = f l, Bye.

第3図はこのようにして正規化した時空間パターンF(
t、x)を示す。
Figure 3 shows the spatiotemporal pattern F (
t, x).

なお上記実施例は線形正規化の場合であるが、非線形正
規化を行う場合は例えばf (t、x)のスペクトルベ
クトル場を次に説明するのと同様の方法で求め、このベ
クトル場密度を一定とするヘクトル場密度イコライゼイ
ション等を用いればよい。
Note that the above example is a case of linear normalization, but when performing nonlinear normalization, for example, the spectral vector field of f (t, x) is obtained in the same manner as described below, and this vector field density is It is sufficient to use hector field density equalization, etc., which is made constant.

正規化した時空間パターンはスペクトル場抽出部42に
おいて下記のようにしてスペクトルベクトル場の抽出が
行われる。このスペクトルベクトル場は第1表に示す如
き正規化された時空間パターンの各格子点(t、x)の
8近傍の値を用いて算出される。
A spectral vector field is extracted from the normalized spatio-temporal pattern in the spectral field extraction section 42 as described below. This spectral vector field is calculated using eight neighboring values of each grid point (t, x) of the normalized spatio-temporal pattern as shown in Table 1.

第  1  表 X = F (t+1.x+1)  +2F(t+1.
x)  + F (t+1.x−1)−F (t−1,
x+1) −2P(t−1,x)  −F (t−1,
x−1)Y = F (t−1,x+1)  +2F(
t、x+1)  + F (t+1.x+1)F(t−
1,x−1) −2P(t、x−1)  −F(t+1
.x−1)r =J X2+Y”    −(5)・・
・(3) ・・・(4) θ=  jan−’         ・・・(6)と
して3 (r、  θ)で示されるのがスペクトルベク
トル場パターンである。
Table 1 X = F (t+1.x+1) +2F(t+1.
x) + F (t+1.x-1)-F (t-1,
x+1) -2P(t-1, x) -F (t-1,
x-1) Y = F (t-1, x+1) +2F(
t, x+1) + F (t+1.x+1)F(t-
1, x-1) -2P(t, x-1) -F(t+1
.. x-1) r = J X2+Y" - (5)...
・(3) ...(4) θ=jan-' ...(6) As 3 (r, θ) is the spectral vector field pattern.

(3)〜(6)式について少し説明を加えるとXは対象
データの時間軸方向の増分を周波数軸方向に重み付けを
して求めた値であり、時間軸方向の微分値、つまり時間
軸方向の変化指標と言うことができる。
To explain a little about equations (3) to (6), X is a value obtained by weighting the increment in the time axis direction of the target data in the frequency axis direction, and is the differential value in the time axis direction, that is, in the time axis direction. It can be said to be a change indicator.

Yは同様に周波数軸方向の微分値、つまり周波数軸方向
の変化指標と言うことができる。
Similarly, Y can be said to be a differential value in the frequency axis direction, that is, a change index in the frequency axis direction.

これらの2つの指標を直交座標とするベクトル場におい
て、rはベクトルの大きさ、θはベクトルの方向を表す
In a vector field in which these two indices are orthogonal coordinates, r represents the magnitude of the vector, and θ represents the direction of the vector.

次にこのスペクトルベクトル場パターンS(r。This spectral vector field pattern S(r.

θ)から方向別2次元パターン作成部43において方向
別2次元パターンが作成される。即ち、先ず、ベクトル
場パターンの全ての格子点のベクトルについて、その方
向パラメータθをN値に量子化する。第4図はN=8の
場合の量子化例を説明するための図であり、第2表のよ
うにθとNは対応する。
θ), a direction-based two-dimensional pattern creation unit 43 creates a direction-based two-dimensional pattern. That is, first, the direction parameter θ of the vectors of all the lattice points of the vector field pattern is quantized to N values. FIG. 4 is a diagram for explaining an example of quantization when N=8, and as shown in Table 2, θ and N correspond.

(以 下 余 白) 第 表 次に全ての格子点のベクトルがら、方向の量子化値であ
るN値を同じくするベクトルを、N値毎に分離して各々
取り出し、そのベクトルの大きさを各格子点の値とした
N個の方向別2次元パター7 H(1+L θ)を作成
する。第5図がこの方向別2次元パターンの模式図であ
って、Nの値が該当する位置にのみrが存在し、他の位
置は0となっている。(3)、 (4)式から理解され
るようにX、 Yの算出には8近傍が必要であるので、
算出されるS(r、  θ)は第3図におけるt=1.
t=Mの列、及びx=1.x=Lの行については算出さ
れない。
(Margin below) Table Next, from among the vectors of all the grid points, vectors with the same N value, which is the direction quantization value, are separated and taken out for each N value, and the magnitude of each vector is calculated. N direction-specific two-dimensional patterns 7 H (1+L θ) are created using the values of the grid points. FIG. 5 is a schematic diagram of this directional two-dimensional pattern, in which r exists only at positions corresponding to the value of N, and is 0 at other positions. As understood from equations (3) and (4), 8 neighbors are required to calculate X and Y, so
The calculated S(r, θ) is t=1.
t=M columns, and x=1. It is not calculated for the row where x=L.

従ってこの方向別2次元パターンH(t、x、θ)では
時間軸方向はM−2列、周波数軸方向はL−2行となる
Therefore, in this directional two-dimensional pattern H (t, x, θ), there are M-2 columns in the time axis direction and L-2 rows in the frequency axis direction.

なお、Nの値は8に限るものではない。Note that the value of N is not limited to 8.

さて以上のように作成した方向別2次元パターンH(t
、χ、θ)に対してボカシ処理部5にてボカシ処理を行
う。ボカシ処理は、処理対象のパターンを、その位置に
応じて重みづけした9近傍のマスクパターンを乗するこ
とにより行われボカシ処理後の方向別2次元パターンを H(t、x、  θ)とすると ・・・(7) として表すことができる。
Now, the two-dimensional pattern H(t
, χ, θ) is subjected to blurring processing by the blurring processing unit 5. Blur processing is performed by multiplying the pattern to be processed by 9 neighboring mask patterns weighted according to its position. If the two-dimensional pattern by direction after blurring processing is H (t, x, θ), ...(7) It can be expressed as.

ここにおいてωj(J・θ〜8)はボカシ処理のマスク
パターンであり、例えば下記(8) (9)の如き値を
有し、中心のω。が処理対象データの位置に、またω1
〜ω6が8近傍位置のデータに対応する。
Here, ωj (J·θ~8) is a mask pattern for blurring processing, and has, for example, the following values (8) and (9), and ω at the center. is at the position of the data to be processed, and ω1
~ω6 corresponds to data at eight neighboring positions.

時間 時間 また (α。time time Also (α.

β、 ) j・θ〜8 は第3表のとおり である。β, ) j・θ〜8 is as shown in Table 3. It is.

(以 下 余 白) 第 3 表 この(αj、βJ)は、ω。を対応させる対象データの
位置、鮪〜ω8を、対応させる8近傍のデータの位置を
各特定するものである。
(Margins below) Table 3 This (αj, βJ) is ω. The position of the target data to which tuna~ω8 is made to correspond, and the position of 8 neighboring data to which tuna to ω8 are made to correspond are specified.

(8)、 (9)式の意味する処は時間軸方向のボヵシ
処理を周波数軸方向のボヵシ処理に比して積極的に行う
にある。
Equations (8) and (9) mean that the blurring process in the time axis direction is performed more aggressively than the blurring process in the frequency axis direction.

そして男性又は女性の一方の性のみの音声の特徴抽出を
行うのに用いる場合には(8)式のように周波数軸方向
のボカシ処理は行わず、男性5女性の両方の性の音声の
特徴抽出を行う場合は(9)式のように周波数軸方向の
ボカシ処理も少し行う。
When used to extract the features of voices of only one gender (male or female), blurring processing in the frequency axis direction is not performed as in equation (8), and the characteristics of voices of both genders (male and female) are not performed. When performing extraction, some blurring processing in the frequency axis direction is also performed as shown in equation (9).

ポカシ処理をすることで抽出した特徴はその抽出に用い
た音声固有の特徴の変動が小さくなったものとなる。つ
まり、話者が異なることや、発生速度の異なりによって
生ずる特徴の時空間的変動の安定化が図れるのである。
The features extracted by performing the pokashi processing are those in which the fluctuations of the characteristics unique to the voice used for extraction are reduced. In other words, it is possible to stabilize spatiotemporal variations in features caused by different speakers or different rates of occurrence.

従ってこれを標準パターンとし、或いは未認識パターン
とする場合には音声認識率の向上が図れるのである。
Therefore, if this is used as a standard pattern or an unrecognized pattern, the speech recognition rate can be improved.

然るところ時間軸方向のボカシ処理を積極的に行うのは
時間軸は発声速度に係り、発声時及び発声者によって大
きく変動するからであり、この変動の悪影響を排除する
ためである。
However, the reason why blurring processing in the time axis direction is actively performed is because the time axis is related to the speaking speed, which varies greatly depending on the time of speech and the speaker, and the purpose is to eliminate the negative effects of this variation.

また両方の性の音声の場合は男性と女性とで周波数分布
が異なり、これによる変動の悪影響を周波数軸も同時に
ボカシ処理することによって排除するためである。
Furthermore, in the case of voices of both genders, the frequency distribution differs between men and women, and the adverse effects of this variation are eliminated by blurring the frequency axis at the same time.

なおボカシ処理は(7)式に従い複数回反復するのがよ
いが、一方の性のみの場合は(8)式に示されるように
時間軸のみのボカシ効果をもつボカシ処理を4〜7回程
度、両方の性の場合は(9)弐に示されるように時間軸
へのボカシの重みの174〜1/8程度の空間軸の重み
を同時にもつ時空間のボカシ処理を、それぞれ、4回程
度繰り返し行うことが適当である。
Note that it is best to repeat the blurring process multiple times according to equation (7), but in the case of only one sex, repeat the blurring process with a blurring effect only on the time axis about 4 to 7 times as shown in equation (8). , in the case of both genders, as shown in (9) 2, the spatiotemporal blurring process is performed about 4 times each, with the weight of the spatial axis being about 174 to 1/8 of the weight of blurring to the time axis. It is appropriate to repeat the process.

このようにして予め各種単語について抽出した特徴は標
準パターンとしてこれを特定するデータと共に標準パタ
ーン格納部6へ格納される。そして認識の際には認識対
象として入力された音声について得られたボカシ処理部
5出力の特徴パターンと、標準パターン格納部6内の標
準パターンの夫々とにつき計算部7において類似度の計
算を行い、最も類僚する標準パターンを特定するデータ
を認識結果として出力する。
The features extracted in advance for various words in this manner are stored as standard patterns in the standard pattern storage section 6 together with data specifying them. Then, during recognition, the calculation unit 7 calculates the degree of similarity between the characteristic pattern output from the blurring processing unit 5 obtained for the voice input as the recognition target and the standard pattern in the standard pattern storage unit 6. , data identifying the most similar standard pattern is output as a recognition result.

而して本発明の第1の方式は次に述べる類似度計算に特
徴を有している。これを要約すると、まず第5図に示す
如きNのパターンの夫々について、特徴パターンと標準
パターンとの類似度計算を行う。この計算には市街地距
離Dc、ユークリッド距離り0.相関係数Cが類似度判
定の指標として用いられる。限定するものではないが相
関係数Cによる場合は最も高い認識率が得られる。更に
本発明の第2の方式ではNの方向ごとに、更に時間軸の
単位、っまり1フレームごとに同様の計算を行う。
The first method of the present invention is characterized by the following similarity calculation. To summarize, first, for each of the N patterns shown in FIG. 5, the degree of similarity between the characteristic pattern and the standard pattern is calculated. This calculation includes the city distance Dc and the Euclidean distance 0. The correlation coefficient C is used as an index for determining the degree of similarity. Although not limited to this, when using the correlation coefficient C, the highest recognition rate can be obtained. Furthermore, in the second method of the present invention, similar calculations are performed for each N direction and also for each time axis unit, that is, for each frame.

次にDC,D、、Cについて説明する。Next, DC, D, and C will be explained.

市街地路!IDcは比較するパターン同士の同位置の差
の絶対値の総和であり、計算が簡単であるという利点を
有している。
City streets! IDc is the sum of absolute values of differences at the same position between patterns to be compared, and has the advantage of being easy to calculate.

ユークリッド距離り、は比較するパターン同士の数学的
に正確な距離を指す。
Euclidean distance refers to the mathematically exact distance between the patterns being compared.

相関係数Cは比較するパターンのR4Q度を表す指標で
ある。
The correlation coefficient C is an index representing the R4Q degree of the patterns to be compared.

標準パターンをZ!  (un  X* θ)、認識対
象音声の特徴パターンを1 (t、X、θ)とすると本
発明の第1方式に係るN方向ごとの計算では以下のよう
に表される。
Z the standard pattern! (un X* θ), and the feature pattern of the speech to be recognized is 1 (t,

D、=Σ4Σ (1(t、X、  θ)−Z!  (t
、X。
D,=Σ4Σ(1(t,X,θ)−Z!(t
,X.

@    LIK θ))2 また第2方式に係るフレームごとの計算は以下のように
表せる。
@LIK θ))2 Further, the calculation for each frame according to the second method can be expressed as follows.

但し、T′はフレーム総数(−M−2)更にT’ xX
xN次元ベクトルとしての計算を行う(以下第1比較方
式という)場合は以下のように表せる。(但しXはXの
総数(−L−2))この場合は市街地距離も計算でき、 D=−、E、jノ(t、 X、θ)−Z+(L、χ・θ
)また、T′個のフレームごとに計算する(以下第2比
較方式という)場合は以下のように表せる。
However, T' is the total number of frames (-M-2) and T' xX
When calculation is performed as an xN-dimensional vector (hereinafter referred to as the first comparison method), it can be expressed as follows. (However, X is the total number of X (-L-2)) In this case, the city distance can also be calculated as
) Furthermore, when calculation is performed for each T' number of frames (hereinafter referred to as the second comparison method), it can be expressed as follows.

次にこれら4つの方式の優劣を比較するために行った実
験について説明する。実験は離散発生された日本語の単
音節101種類について行われた。
Next, an experiment conducted to compare the advantages and disadvantages of these four methods will be explained. The experiment was conducted on 101 discretely generated Japanese monosyllables.

発声は成人男性によって行われたものであり、平。The vocalizations were made by an adult male and were normal.

均発声長は440m5ecである。The average vocal length is 440 m5ec.

音声入力部1におけるA/D変換は12bitの精度、
またサンプリング周波数12.5kHzで行った。
A/D conversion in the audio input section 1 has an accuracy of 12 bits,
Further, the sampling frequency was 12.5 kHz.

分析部2におけるフィルタは20チヤンネルのバンドパ
スフィルタによる。またフレーム間隔ハ5.12n+s
ecである。これらの仕様により正規化して得た2次元
音声パターンは 32 (=T’ ) xlB (=X) x8 (=N
)である。
The filter in the analysis section 2 is a 20-channel bandpass filter. Also, the frame interval is 5.12n+s
It is ec. The two-dimensional speech pattern obtained by normalizing according to these specifications is 32 (=T') xlB (=X) x8 (=N
).

実験1 10人のデータで標準パターンを1個作り、同
じ10人が発声した音声の認識を行わせるクローズ(c
lose)話者実験実験n  29人分のデータで標準
パターンを1個作り、これとは別の1人が発声した音 声の認識を行わせるオープン(open)話者実験 実験■ 1人が発声した10回分のデータで標準パター
ンを1個つくり、同じ10回分のデータを認識する特定
話者のクローズ データの実験(但し話者2名分) 実験IVI人が発声した9回分のデ、−夕で標準パター
ン、を1個作り、別の1人が発声した音声の認識を行う
特定話者2名の オーブンデータの実験 これらの実験■〜■について前述の類似度計算の結果を
第4表に示す。
Experiment 1 One standard pattern was created using data from 10 people, and the speech uttered by the same 10 people was recognized.
lose) Speaker experiment n An open speaker experiment in which one standard pattern is created using data from 29 people, and the voice uttered by another person is recognized ■ uttered by one person A standard pattern is created using data from 10 times, and the data from the same 10 times is recognized.Experiment using closed data of a specific speaker (however, for 2 speakers) Table 4 shows the results of the above-mentioned similarity calculations for these experiments. .

(以 下 余 白) 第 麦 以上の実験結果によれば同計算式による市街地距離Dc
を除き、実験1〜Nのいずれにおいても本発明の第1.
第2方式が第1.第2比較方式より高い認識率を得てお
り、また、実験■の相関係数Cを除き第2方式か第1方
式より高い認識率を得ている。
(Left below) According to the experimental results of Mugi and above, the urban area distance Dc using the same calculation formula
In all of Experiments 1 to N, except for 1. of the present invention.
The second method is the first. A higher recognition rate was obtained than the second comparative method, and a higher recognition rate was obtained than either the second method or the first method except for the correlation coefficient C in experiment (2).

更に本発明の第1.第2方式においては、ユークリッド
距離り、よりも相関係数Cの方が認識率が高い。
Furthermore, the first aspect of the present invention. In the second method, the correlation coefficient C has a higher recognition rate than the Euclidean distance.

本発明方式の基礎となる特願昭62−248915号。Japanese Patent Application No. 62-248915, which is the basis of the method of the present invention.

同62−136377号の音声認識方式は第1.第2比
較方式の結果に示すように単音節においても高い認識率
を得させるものであるが、本発明の第1.第2方式によ
れば、−層高い認識率が実現できるものである。
The voice recognition method of No. 62-136377 is No. 1. As shown in the results of the second comparison method, a high recognition rate can be obtained even for monosyllables, but the first comparison method of the present invention achieves a high recognition rate even for monosyllables. According to the second method, it is possible to achieve a -higher recognition rate.

本発明の如く方向ごとに類僚度計算を行うことで、高い
認識率が得られるのは前述したようにスペクトルベクト
ル場が方向別のものとなっているためであると考えられ
る。また更にフレームごとに計算を行うと高い認識率が
得られるのは前述のボカシ処理の影響を回避できるから
と考えられる。
The reason why a high recognition rate can be obtained by performing the associativity calculation for each direction as in the present invention is considered to be because the spectral vector field is direction-specific as described above. Furthermore, the reason why a high recognition rate is obtained when calculation is performed for each frame is considered to be because the influence of the blurring process described above can be avoided.

即ち、フレーム毎の処理による方がボカシ処理に伴う正
規化のくずれによる影響が少ないと考えられる。
In other words, it is considered that frame-by-frame processing is less affected by denormalization caused by blurring processing.

さらに相関係数Cにより高い認識率が得られるのは単音
節認識特存の効果であると考えられる。
Furthermore, the fact that a high recognition rate can be obtained using the correlation coefficient C is considered to be an effect unique to monosyllable recognition.

即ち、一般にスペクトルで音声認識を行う場合には、ス
ペクトルパターンを求める段階で音の大きさの正規化を
フレームごとに行っている。これによって直流分が除去
される。前述の実験では以下のような計算でこれを行っ
ている。
That is, when speech recognition is generally performed using spectra, the loudness of the sound is normalized for each frame at the stage of obtaining a spectral pattern. This removes the DC component. In the above experiment, this was done using the following calculations.

フレームごとに 1ogA、  +logA2  +=   +logA
、)  /20=八八(但し^1〜A、。は20チヤネ
ルのフィルタ夫々の原出力) として、 B+=IogA+   AAB2=IogA
2    AA Bzo=10gAzo−八A を1つのフレームの20のチャネルのフィルタの各出力
としている。即ち、第2図のスペクトルの時空間パター
ンf (t、x)はBt−Bzoがtフレーム分集まっ
たものである。
1logA per frame, +logA2 += +logA
, ) /20=88 (however, ^1~A, . is the original output of each of the 20 channel filters), B+=IogA+ AAB2=IogA
2AABzo=10gAzo-8A are the outputs of the filters of 20 channels in one frame. That is, the spatiotemporal pattern f (t, x) of the spectrum in FIG. 2 is a collection of t frames of Bt-Bzo.

この処理を行えば、スペクトルを用いて音声認識する場
合はDC,D、、Cのいずれを用いてもほぼ同様の結果
となる。ところが、方向別に分離して、更にはボカシ処
理を行うので、前記正規化でフレームごとに正規化され
ている状態がくずれてしまう。この傾向は、単語認識よ
りも単音節認識のときに顕著である。
If this process is performed, substantially the same result will be obtained regardless of whether DC, D, or C is used for speech recognition using a spectrum. However, since the images are separated by direction and further subjected to blurring processing, the state in which each frame is normalized during the normalization is lost. This tendency is more pronounced in monosyllable recognition than in word recognition.

即ち、単語認識では母音部(安定状態)が長い(多い)
ため、ボカシ処理の影響が出にくいが、単音節では、前
に位置する子音部即ち、ベクトル場が変化する部分が、
単語よりも時間的に多いためと考えられる。そこで、類
似性を計算する相関係数が単音節認識でよい結果が得ら
れるのである。
In other words, in word recognition, the vowel part (stable state) is long (many).
Therefore, the effect of blurring processing is less likely to appear, but in a single syllable, the preceding consonant part, that is, the part where the vector field changes,
This is thought to be because there are more words than words in terms of time. Therefore, good results can be obtained when the correlation coefficient used to calculate similarity is monosyllable recognition.

〔発明の効果〕〔Effect of the invention〕

以上の如く本発明方式による場合は極めて認識が困難な
単音節認識、しかも成人男性の発声による場合も極めて
高い認識等が得られることとなる。
As described above, when using the method of the present invention, it is possible to achieve monosyllable recognition, which is extremely difficult to recognize, and even when the voice is uttered by an adult male, extremely high recognition can be achieved.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明方式を実施するための装置の構成を示す
ブロック図、第2図は時空間パターンの模式図、第3図
は正規化された時空間パターンを示す模式図、第4図は
ベクトル方向量子化の説明図、第5図は方向別2次元パ
ターンの模式図である。 4・・・特徴抽出部 5・・・ボカシ処理部 6・・・
標準パターン格納部 7・・・計算部 41・・・正規
化部42・・・スペクトルベクトル場抽出部 43・・
・方向別2次元パターン作成部 特 許 出願人 工業技術院長 杉浦  賢 外1名復
代理人並びに代理人 弁理士  河 野 登 夫1 第 図 第 図 第 図 −2 第 図
Fig. 1 is a block diagram showing the configuration of a device for implementing the method of the present invention, Fig. 2 is a schematic diagram of a spatio-temporal pattern, Fig. 3 is a schematic diagram showing a normalized spatio-temporal pattern, and Fig. 4 is an explanatory diagram of vector direction quantization, and FIG. 5 is a schematic diagram of a two-dimensional pattern according to direction. 4... Feature extraction section 5... Blur processing section 6...
Standard pattern storage unit 7...Calculation unit 41...Normalization unit 42...Spectrum vector field extraction unit 43...
・Directional two-dimensional pattern creation unit patent Applicant: Director of the Agency of Industrial Science and Technology Satoshi Sugiura and one other agent and agent: Patent attorney Noboru Kono 1 Fig. Fig. Fig. 2 Fig.

Claims (1)

【特許請求の範囲】 1、音声信号から時間軸及び空間軸で規定されるスカラ
ー場の時空間パターンを得、該時空間パターンを空間微
分することにより空間の各格子点で大きさと方向をもつ
ベクトル場パターンに変換し、該ベクトル場パターンの
ベクトルについて、その方向パラメータをN値(N:整
数)に量子化し、この量子化値を同じくするベクトル毎
に各々分離して、そのベクトルの大きさを各格子点の値
としたN個の方向別2次元パターンを作成し、該方向別
2次元パターンによって予め作成しておいた標準パター
ンと、認識対象として入力された音声信号によって得た
前記方向別2次元パターンである特徴パターンとの類似
度を計算して入力音声を識別する音声認識方式において
、標準パターン及び特徴パターン夫々の前記方向ごとに
類似度の計算を行うことを特徴とする音声認識方式。 2、前記方向ごとの類似度計算を前記方向別2次元パタ
ーンの時間軸方向の単位ごとに行うことを特徴とする請
求項1記載の音声認識方式。
[Claims] 1. Obtain a spatio-temporal pattern of a scalar field defined by the temporal and spatial axes from an audio signal, and spatially differentiate the spatio-temporal pattern to have a magnitude and direction at each grid point in space. Convert it to a vector field pattern, quantize the direction parameter of the vector of the vector field pattern into N values (N: integer), separate this quantized value for each vector with the same value, and calculate the size of the vector. N direction-specific two-dimensional patterns are created with the value of each grid point as the value of each grid point, and a standard pattern created in advance using the direction-specific two-dimensional pattern and the direction obtained from the audio signal input as a recognition target are created. In a speech recognition method that identifies input speech by calculating the similarity with a feature pattern that is another two-dimensional pattern, the speech recognition is characterized in that the similarity is calculated for each of the directions of the standard pattern and the feature pattern. method. 2. The speech recognition method according to claim 1, wherein the similarity calculation for each direction is performed for each unit in the time axis direction of the two-dimensional pattern for each direction.
JP1251170A 1989-09-27 1989-09-27 Voice recognition method Expired - Lifetime JP2613108B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1251170A JP2613108B2 (en) 1989-09-27 1989-09-27 Voice recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1251170A JP2613108B2 (en) 1989-09-27 1989-09-27 Voice recognition method

Publications (2)

Publication Number Publication Date
JPH03111900A true JPH03111900A (en) 1991-05-13
JP2613108B2 JP2613108B2 (en) 1997-05-21

Family

ID=17218721

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1251170A Expired - Lifetime JP2613108B2 (en) 1989-09-27 1989-09-27 Voice recognition method

Country Status (1)

Country Link
JP (1) JP2613108B2 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01158496A (en) * 1987-09-30 1989-06-21 Agency Of Ind Science & Technol System for extracting characteristic of voice

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01158496A (en) * 1987-09-30 1989-06-21 Agency Of Ind Science & Technol System for extracting characteristic of voice

Also Published As

Publication number Publication date
JP2613108B2 (en) 1997-05-21

Similar Documents

Publication Publication Date Title
CN109767756B (en) Sound characteristic extraction algorithm based on dynamic segmentation inverse discrete cosine transform cepstrum coefficient
US9704505B2 (en) Audio signal processing apparatus and method
US20110246205A1 (en) Method for detecting audio signal transient and time-scale modification based on same
Khan et al. Speaker separation using visually-derived binary masks
EP0292929B1 (en) Method of feature extraction and recognition of voice and recognition apparatus
Singh et al. Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition
Wolf et al. Audio source separation with time-frequency velocities
JPH03111900A (en) Voice recognition system
CN111210835B (en) Multichannel voice noise reduction method based on auditory model and information source direction
Zheng et al. Improving the spectra recovering of bone-conducted speech via structural similarity loss function
US7454337B1 (en) Method of modeling single data class from multi-class data
JPH01158496A (en) System for extracting characteristic of voice
CN112562726B (en) Voice and music separation method based on MFCC similarity matrix
Li et al. Unsupervised singing voice separation using gammatone auditory filterbank and constraint robust principal component analysis
GB2216320A (en) Selective addition of noise to templates employed in automatic speech recognition systems
Wu et al. Wavelet Speech Enhancement Based on Robust Principal Component Analysis.
CN109903777B (en) Abnormal speaker and normal speaker distinguishing method based on vowel spectrum spatial attenuation rate
Biswas et al. Audio visual isolated Hindi digits recognition using HMM
CN115171716B (en) Continuous voice separation method and system based on spatial feature clustering and electronic equipment
Chandrasekaram New Feature Vector based on GFCC for Language Recognition
Diener et al. Codebook clustering for unit selection based EMG-To-speech conversion
Sarma et al. Speaker change detection using excitation source and vocal tract system information
Mishra et al. HINDI SPEECH AUDIO VISUAL FEATURE RECOGNITION
JPH0330159B2 (en)
Kühne et al. Smooth soft mel-spectrographic masks based on blind sparse source separation.

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080227

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090227

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100227

Year of fee payment: 13

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100227

Year of fee payment: 13