JPH01996A - Speech recognition method using vector quantization - Google Patents

Speech recognition method using vector quantization

Info

Publication number
JPH01996A
JPH01996A JP62-156959A JP15695987A JPH01996A JP H01996 A JPH01996 A JP H01996A JP 15695987 A JP15695987 A JP 15695987A JP H01996 A JPH01996 A JP H01996A
Authority
JP
Japan
Prior art keywords
vector quantization
codebook
recognition
speech recognition
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP62-156959A
Other languages
Japanese (ja)
Other versions
JPS64996A (en
JPH067344B2 (en
Inventor
哲 中村
清宏 鹿野
Original Assignee
株式会社 エイ・ティ・ア−ル自動翻訳電話研究所
Filing date
Publication date
Application filed by 株式会社 エイ・ティ・ア−ル自動翻訳電話研究所 filed Critical 株式会社 エイ・ティ・ア−ル自動翻訳電話研究所
Priority to JP62156959A priority Critical patent/JPH067344B2/en
Priority claimed from JP62156959A external-priority patent/JPH067344B2/en
Publication of JPH01996A publication Critical patent/JPH01996A/en
Publication of JPS64996A publication Critical patent/JPS64996A/en
Publication of JPH067344B2 publication Critical patent/JPH067344B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 [産業上の利用分野層] この発明はベクトル量子化を用いた音声認識方式に関し
、特に、ベクトル量子化を用いたテンプレートマツチン
グによる音声認識方式に関する。
DETAILED DESCRIPTION OF THE INVENTION [Industrial Application Layer] The present invention relates to a speech recognition method using vector quantization, and particularly to a speech recognition method using template matching using vector quantization.

[従来の技術および発明が解決しようとする問題点] 自動翻訳電話では、入力として音声が用いられるが、入
力された音声を認識する必要がある。音声認識として、
従来よりベクトル量子化を用いる手法が考えられている
。従来のベクトル量子化を用いた音声認識では、計算量
およびメモリの増加を抑えて認識性能を向上させるべく
、ベクトル量子化に用いるスペクトル歪み尺度の改良が
行なわれ、種々の特徴の組合わせの複合スペクトル歪み
尺度が提案されている。この方法では、スペクトル歪み
尺度に多種の特徴間を混在させ、それらの・間の依存関
係を拘束条件として用い、より認識性能の良い空間へ特
徴を写像するところに意味があった。しかし、この方法
では、次に述べるような大な2つの問題点があった。
[Prior Art and Problems to be Solved by the Invention] Automatic translation telephones use speech as input, but it is necessary to recognize the input speech. As voice recognition,
Conventionally, methods using vector quantization have been considered. In conventional speech recognition using vector quantization, the spectral distortion measure used in vector quantization has been improved in order to improve recognition performance by suppressing the increase in computational complexity and memory. A spectral distortion measure has been proposed. The significance of this method is to mix various types of features in the spectral distortion scale, use the dependencies between them as constraints, and map the features to a space with better recognition performance. However, this method has two major problems as described below.

■ 各特徴間間の依存関係がベクトル量子化のコードブ
ック内で統計的に妥当性を持つためには、非常に多くの
ラーニングサンプルとこのための膨大な計算時間が必要
である。
■ In order for the dependencies between each feature to have statistical validity within the vector quantization codebook, a large number of learning samples and an enormous amount of calculation time are required.

■ コードブックサイズで見た場合、各特徴に必要なコ
ードブックサイズは特徴間の依存関係を拘束条件にする
ことで減少する。しかし、それでも全体のコードブック
サイズは各特徴に必要なコードブックサイズの積になっ
て、非常に大きくなってしまい、膨大なメモリが必要で
あった。
■ In terms of codebook size, the codebook size required for each feature can be reduced by using the dependencies between features as a constraint. However, the overall codebook size is still the product of the codebook sizes required for each feature, resulting in a very large size and requiring a huge amount of memory.

それゆえに、この発明の主たる目的は、ベクトル量子化
として各特徴ごとに別々にコードブ・ンクを生成し、別
々のベクトル量子化を行なう七ノ(レートベクトル量子
化を用いることにより、従来の問題点を解消し得るベク
トル量子化を用いた音声認識方式を提供することである
Therefore, the main purpose of the present invention is to solve the conventional problems by using rate vector quantization, which generates a codebook separately for each feature as vector quantization, and performs separate vector quantization. An object of the present invention is to provide a speech recognition method using vector quantization that can solve the problem.

[問題点を解決するための手段] この発明は、入力音声をベクトル量子化し、ベクトル量
子化によるコード列として格納されている標準パターン
と照合することにより認識を行なう音声認識方式であっ
て、入力音声の特徴の種類に応じて複数のコードブック
を有し、各コードブックについてベクトル量子化を行な
い、求められた複数のコード列を用いて認識を行なうよ
うに構成したものである。
[Means for Solving the Problems] The present invention is a speech recognition method that performs recognition by vector quantizing input speech and comparing it with a standard pattern stored as a code string resulting from vector quantization. It has a plurality of codebooks depending on the type of voice feature, performs vector quantization on each codebook, and performs recognition using the plurality of code strings obtained.

[作用] この発明に係るベクトル量子化を用いた音声認識方式で
は、入力音声の特徴の種類に応じたコードブックについ
てベクトル量子化を行なうことにより、コードブックサ
イズは各特徴に必要なコードブックサイズの和となり、
全体のコードブックサイズを軽減できる。
[Operation] In the speech recognition method using vector quantization according to the present invention, by performing vector quantization on a codebook according to the type of feature of input speech, the codebook size can be changed to the codebook size required for each feature. becomes the sum of
The overall codebook size can be reduced.

[発明の実施例] 次に、図面を参照して、この発明の実施例についてより
具体的に説明する。
[Embodiments of the Invention] Next, embodiments of the invention will be described in more detail with reference to the drawings.

第1図はこの発明の音声認識装置の概略ブロック図であ
る。
FIG. 1 is a schematic block diagram of a speech recognition device according to the present invention.

第1図において、音声認識装置はアンプ1とローパスフ
ィルタ2とA/D変換器3と処理装置4とから構成され
る。アンプ1は入力された音声信号を増幅するものであ
り、ローパスフィルタ2は増幅された音声信号から折返
し雑音を除去するものである。A/D変換器3は音声信
号を12kH2のサンプリング信号により、16ビツト
のディジタル信号に変換するものである。処理装置4は
コンピュータ5と磁気ディスク6と端末類7とプリンタ
8とを含む。コンピュータ5はA/D変換器3から入力
された音声のディジタル信号に基づいて音声認識を行な
うものである。
In FIG. 1, the speech recognition device is composed of an amplifier 1, a low-pass filter 2, an A/D converter 3, and a processing device 4. The amplifier 1 is for amplifying an input audio signal, and the low-pass filter 2 is for removing aliasing noise from the amplified audio signal. The A/D converter 3 converts the audio signal into a 16-bit digital signal using a 12kHz sampling signal. The processing device 4 includes a computer 5, a magnetic disk 6, a terminal 7, and a printer 8. The computer 5 performs voice recognition based on the voice digital signal input from the A/D converter 3.

第2図はこの発明の一実施例の音声信号の入力から認識
結果を出力するまでの全体の流れを示すフロー図であり
、第3図はセパレートベクトル量子化の動作を説明する
ためのフロー図であり、第4図はマツチング動作を説明
するためのフロー図である。
FIG. 2 is a flow diagram showing the overall flow from inputting an audio signal to outputting a recognition result in an embodiment of the present invention, and FIG. 3 is a flow diagram illustrating the operation of separate vector quantization. FIG. 4 is a flowchart for explaining the matching operation.

次に、第1図ないし第4図を参照して、この発明の一実
施例の動作について説明する。入力された音声信号はア
ンプ1で増幅され、ローパスフィルタ2によって折返し
雑音が除去された後、第2図に示すステップ(図示では
SPと略称する)SPlにおいて、A/D変換器3が入
力された音声信号を16ビツトのディジタル信号に変換
する。
Next, the operation of one embodiment of the present invention will be described with reference to FIGS. 1 to 4. The input audio signal is amplified by the amplifier 1, and after aliasing noise is removed by the low-pass filter 2, the input audio signal is input to the A/D converter 3 in step SPl shown in FIG. 2 (abbreviated as SP in the figure). Converts the audio signal into a 16-bit digital signal.

処理装置4のコンピュータ5はステップSP2において
、ディジタル信号に変換された音声の特徴抽出を行なう
。この特徴抽出では、たとえば線形予測分析(LPG分
析)などの手法を用いて行なわれる。
In step SP2, the computer 5 of the processing device 4 extracts features of the audio converted into a digital signal. This feature extraction is performed using a technique such as linear predictive analysis (LPG analysis).

ステップSP3において、抽出された音声の特徴がセパ
レートコードブックを参照して、七ノくレートベクトル
量子化される。セパレートコードブックはステップSP
4において、特定話者認識の場合は個人用として、不特
定話者の場合は全話者共通のコードブックとして予め準
備されている。
In step SP3, the extracted speech features are rate vector quantized by seven times with reference to the separate codebook. Separate code book is step SP
4, a codebook is prepared in advance for personal use in the case of specific speaker recognition, and as a common codebook for all speakers in the case of non-specific speaker recognition.

セパレートベクトル量子化により生成された特徴ごとの
コード列はステップSP5において、既にステップSP
6でコード列として磁気ディスク6に格納されている標
準パターンと照合され、DOuble  5plit法
によるマツチングが行なわれ、そのマツチング距離がス
テップSP7における結果判定部7に送られる。なお、
ステ・ツブSP6における標準パターンは、不特定話者
認識の場合は予め使用者が認識単語を発声することによ
り作成し、不特定話者認識の場合は、多数の話者が発声
した音声データベースを分析して、代表/くターンをマ
ルチテンプレートとして作成され、磁気ディスク6に格
納されている。ステップSP7における結果判定部では
、認識候補に対して、結果が適切かどうかの判断を行な
い、認識結果を出力する。
The code string for each feature generated by separate vector quantization has already been processed in step SP5.
At step SP6, the code string is compared with a standard pattern stored on the magnetic disk 6 as a code string, and matching is performed using the Double 5plit method, and the matching distance is sent to the result determining section 7 at step SP7. In addition,
In the case of speaker-independent recognition, the standard pattern in Ste-Tsub SP6 is created by the user uttering the recognized word in advance, and in the case of speaker-independent recognition, it is created by using a database of voices uttered by many speakers. After analysis, a representative pattern is created as a multi-template and stored on the magnetic disk 6. The result determination unit in step SP7 determines whether or not the result is appropriate for the recognition candidate, and outputs the recognition result.

次に、第3図を参照して、前述の第2図に示した特徴抽
出およびセパレートベクトル量子化の動作についてより
詳細に説明する。特徴抽出では、ステップ5P11にお
いて、16ビツトのディジタル信号に変換された音声信
号に対して、14次の自己相関分析によるLPG分析を
行ない、人力音声の特徴であるパワーと自己相関係数、
LPCケプストラム係数を抽出する。ステップ5P12
において、パワーのコードブック生成であるか否かを判
別し、パワーのコードブック生成であれば、ステップ5
P13において、入力音声のパワーをスカラー量子化す
る。スカラー量子化では、不拘−m子化の手法を用い、
パワーコードを生成し、ステップ5P14において、生
成したパワーコードブックを磁気ディスク6に格納する
Next, with reference to FIG. 3, the operations of feature extraction and separate vector quantization shown in FIG. 2 will be described in more detail. In feature extraction, in step 5P11, the audio signal converted to a 16-bit digital signal is subjected to LPG analysis using 14th order autocorrelation analysis, and the power and autocorrelation coefficient, which are the characteristics of human speech, are extracted.
Extract LPC cepstral coefficients. Step 5P12
In step 5, it is determined whether the power codebook generation is to be performed, and if it is the power codebook generation, step 5 is performed.
In P13, the power of the input voice is scalar quantized. In scalar quantization, we use the method of unconstrained m-concentration,
A power code is generated, and the generated power code book is stored on the magnetic disk 6 in step 5P14.

パワーコードブックの生成でないとき、すなわち、量子
化時には、ステップ5P14におけるパワーコードブッ
クを用いて、5P15において量子化を行ない、パワー
に関するコード列を出力する。
When a power codebook is not being generated, that is, during quantization, the power codebook in step 5P14 is used, quantization is performed in 5P15, and a code string related to power is output.

一方、ステップ5P16において、LPG相関係数およ
びLPCケプストラム係数のコードブック生成であるこ
とが判別されると、ステップ5P17において、LBG
アルゴリズムにより、WLR尺度に基づいてコードブッ
クが生成され、ステップ5P18において生成されたコ
ードブックが磁気ディスク6に格納される。ここで、L
BGアルゴリズムについては、Linde、Buzo。
On the other hand, if it is determined in step 5P16 that the codebook is to be generated for LPG correlation coefficients and LPC cepstrum coefficients, in step 5P17, LBG
The algorithm generates a codebook based on the WLR measure, and the generated codebook is stored on the magnetic disk 6 in step 5P18. Here, L
For the BG algorithm, Linde, Buzo.

Gray:”An  algorithm  forV
ector  Quantization  Desi
gn”  IEEE  C0M−28(1980−01
)に記載されている。また、WLR尺度は、音声の特徴
を強調する尺度であり、単語音声の認識において高い性
能を示すものであり、村山、鹿野による“ピークに重み
をおいたLPGスペクトルマツチング尺度“電子通信学
会論文(A)J64−A5 (1981−05)に記載
されている。
Gray:”An algorithm forV
ector Quantization Desi
gn” IEEE C0M-28 (1980-01
)It is described in. In addition, the WLR scale is a scale that emphasizes the characteristics of speech, and shows high performance in word speech recognition. (A) J64-A5 (1981-05).

なお、LPC相関係数およびLPCケプストラム係数の
コードブック生成でないとき、すなわち、量子化時には
入力音声の自己相関係数とLPCケプストラム係数に対
し、ステップ5P18におけるスペクトルコードブック
を用いて、ステップ5P19においてベクトル量子化を
行ない、スペクトル情報に関するコード列を出力する。
Note that when the codebook of LPC correlation coefficients and LPC cepstrum coefficients is not generated, that is, when quantizing, the spectral codebook in step 5P18 is used for the autocorrelation coefficients and LPC cepstrum coefficients of the input speech, and the vector is Performs quantization and outputs a code string related to spectral information.

ここで、コードブック生成、量子化に用いたスペクトル
歪み尺度は次のものである。
Here, the spectral distortion measure used for codebook generation and quantization is as follows.

d    −P/P’ + P’ /P−2・・・(1
)ower d    −Σ (C(n)−C’ (n)) (R(
n)−R’ (n))spectrum ・・・(2) d    :パワー項の歪み尺度 ower d    ニスベクトル歪み尺度 spectrum R(n)    :コードブックのn次の自己相関係数
R’(n):人力のn次の自己相関係数C(n)   
 :コードブックのn次のLPCケプストラム係数 C’(n):入力のn次の LPCケプストラム係数 前述したように、標準パターン作成時には、このコード
列を標準パターンとして格納し、認識時には標準パター
ンのコード列とのマツチングを行なう。
d −P/P' + P' /P-2...(1
)ower d -Σ (C(n)-C' (n)) (R(
n)-R' (n))spectrum...(2) d: Distortion measure of power term over d Varnish vector distortion measure spectrum R(n): n-th autocorrelation coefficient R'(n) of codebook :Nth order autocorrelation coefficient C(n) of human power
: n-th LPC cepstrum coefficient of codebook C'(n) : n-th LPC cepstrum coefficient of input As mentioned above, when creating a standard pattern, this code string is stored as a standard pattern, and during recognition, the code of the standard pattern is Performs matching with columns.

次に、第4図を参照して、マツチング方法について説明
する。セパレートベクトル量子化により、パワーとスペ
クトルとを別々にベクトル量子化して生成されたコード
列と、コード列として格納されている標準パターンとに
基づいて、ステップ5P21において、Double 
 5plit法によるマツチングが行なわれる。ステッ
プ5P22における標準パターンには、セパレートベク
トル量子化によりコード化されたパワーおよびスペクト
ルの標準パターンが格納されている。そして、ステップ
5P21におけるマツチングにおいては、コード間の距
離はステ、ツブ5P23において予め距離マトリクスを
作成しておき、この表びきを行なうことで行なわれる。
Next, the matching method will be explained with reference to FIG. In step 5P21, Double
Matching is performed using the 5-plit method. The standard pattern in step 5P22 stores a standard pattern of power and spectrum coded by separate vector quantization. Then, in the matching in step 5P21, the distance between the codes is determined by creating a distance matrix in advance in step 5P23, and performing this table search.

このようにして、順番に標準パターンとマツチングして
求めた入力音声と標準パターンとの距離がステップ5P
24において出力される。
In this way, the distance between the input voice and the standard pattern obtained by sequentially matching with the standard pattern is determined in step 5P.
It is output at 24.

ここで、上述のマツチング方法について説明すする。従
来のマツチングでは、入力の標準パターンの1つの特徴
列あるいはコード列であったが、セパレートベクトル量
子化では、一般に複数のコード列により構成される。こ
の実施例では、パワーコード列とスペクトルコード列の
2系列のマツチング手法を用いている。パワーとスペク
トルの両方の情報を考えた場合の距離尺度として、PW
LR尺度がある。これは次の第(3)式で示されるもの
である。
Here, the above-mentioned matching method will be explained. In conventional matching, one feature string or code string of the input standard pattern is used, but in separate vector quantization, it is generally composed of a plurality of code strings. This embodiment uses a two-series matching method: a power code string and a spectral code string. As a distance measure considering both power and spectral information, PW
There is an LR scale. This is expressed by the following equation (3).

dPWLI?−Σ(C(n)−C’ (n))(R(n
)−R’ (n))+ a・(P/P’ + P’ /
P−2)      −(3)a讃0,01 従来のDouble  5plit法によるコード列の
マツチングでは、前述のようにすべての空間がベクトル
量子化され、有限個の点で代表されていることを利用し
て、予めすべての代表点間の距離を求めて距離マトリク
スに格納しておく。したがって、 d、wLR(t、j) −Dt(A(t)、B(j))
DL(A(1)、B(j)) 一Σ(CK (n)−CL(n))(RK(n)−RL
(n))+ a−(PK/PL+ PL/PK−2)A
 (j)は、入力音声のiフレーム目のコード番号 B (j)は、標準ハターンのjフレーム目のコード番
号 DL (K、L)は、コードに、L間の距離を距離マト
リクスから表びきで求めたもの に、  Lは、A (j) 、  B (j)のコード
番号しかし、セパレートベクトル量子化では、2つの系
列を有するので次のような距離を求める。
dPWLI? −Σ(C(n)−C′(n))(R(n
)-R' (n)) + a・(P/P' + P'/
P-2) -(3)asan0,01 In matching code strings using the conventional Double 5plit method, as mentioned above, all spaces are vector quantized and represented by a finite number of points. Then, the distances between all representative points are determined in advance and stored in a distance matrix. Therefore, d,wLR(t,j) −Dt(A(t),B(j))
DL (A (1), B (j)) one Σ (CK (n) - CL (n)) (RK (n) - RL
(n))+ a-(PK/PL+ PL/PK-2)A
(j) is the code number B of the i-th frame of the input audio. (j) is the code number DL of the j-th frame of the standard pattern. where L is the code number of A (j) and B (j).However, in separate vector quantization, there are two sequences, so the following distance is found.

d[p][νLR](1,j) −DL    (A    (1)、B    (ms
peat  5pect    5pect” ” D
Lpower (Apower (1)”power 
(j))ここで、 DL     (A    (1)、 B    (j
))Sp(let   5pcct    5pect
−Σ(CK (n)−CL (n))(Rx (n)−
RL(n戸DL     (A     (1)、B 
    (j))power     power  
     power−P  /P  + P L、 
/P 、 −2に’    L’ に、Lは、A    (1)、B    (j)のコー
ド5pect      5pcct 番号 K /、ビは、A   (1)、B   (j)のpo
wer         powerコード番号 である。これは、PWLR尺度の第1項と第2項とを別
にコード化して距離を計算し、和を求めたものである。
d[p][νLR] (1, j) −DL (A (1), B (ms
peat 5pect 5pect""D
Lpower (Apower (1)”power
(j)) Here, DL (A (1), B (j
)) Sp(let 5pcct 5pect
−Σ(CK (n)−CL (n))(Rx (n)−
RL (n DL (A (1), B
(j)) power power
power-P/P+PL,
/P, -2 to 'L', L is the code of A (1), B (j) 5pect 5pcct number K /, Bi is the po of A (1), B (j)
is the power code number. This is obtained by separately encoding the first term and the second term of the PWLR scale, calculating the distance, and finding the sum.

この局部距離の尺度を用いてDP(dynamic  
programming:動的計画法)マツチングによ
り距離を求める。これによって、非常に高性能なベクト
ル量子化を用いた音声認識を実現することができる。
Using this local distance measure, DP (dynamic
Distance is determined by matching (dynamic programming). This makes it possible to realize speech recognition using vector quantization with very high performance.

[発明の効果] 以上のように、この発明によれば、入力音声の特徴の種
類に応じて複数のコードブックを有し、各コードブック
についてベクトル量子化を行ない、求められた複数のコ
ード列を用いて認識を行なうようにしたので、各特徴の
依存項を無視でき、ラーニングサンプルも少なくてすみ
、計算量を減少できる。ただし、セパレートすることに
より、別のベクトル量子化系を構成するので、この分だ
け計算量が多少増加するが、ラーニングサンプルが少な
いので、十分計算量を減少できる。また、コードブック
サイズはセバートベクトル量子化では、各特徴に必要な
コードブックサイズの和になるので、全体のコードブッ
クサイズを激減することができる。
[Effects of the Invention] As described above, according to the present invention, a plurality of codebooks are provided according to the types of characteristics of input speech, vector quantization is performed for each codebook, and a plurality of obtained code strings are Since recognition is performed using , the dependence term of each feature can be ignored, the number of learning samples can be reduced, and the amount of calculation can be reduced. However, by separating, a separate vector quantization system is constructed, which slightly increases the amount of calculation, but since the number of learning samples is small, the amount of calculation can be sufficiently reduced. Furthermore, in Severt vector quantization, the codebook size is the sum of the codebook sizes required for each feature, so the overall codebook size can be drastically reduced.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図はこの発明の音声認識装置の概略ブロック図であ
る。第2図はDouble  5plit法による音声
認識の全体の流れを示すフロー図である。第3図はセパ
レートベクトル量子化の動作を説明するためのフロー図
である。第4図はマツチング動作を説明するためのフロ
ー図である。 図において、1はアンプ、2はローパスフィルタ、3は
A/D変換機、4は処理装置、5はコンピュータ、6は
磁気ディスク、7は端末類、8はプリンタを示す。 −JI Im*°**−−−−−*+−−hm*−−“
°°°°°°°゛°゛°°°°゛°°°゛°°°二第2
図 農歴堕 第3図 入力 音声 第4図 スペクトル   パワー コード列    コードT/l+ 認識結果 手続補正内 昭和62年8月13日
FIG. 1 is a schematic block diagram of a speech recognition device according to the present invention. FIG. 2 is a flowchart showing the overall flow of speech recognition using the Double 5plit method. FIG. 3 is a flow diagram for explaining the operation of separate vector quantization. FIG. 4 is a flow diagram for explaining the matching operation. In the figure, 1 is an amplifier, 2 is a low-pass filter, 3 is an A/D converter, 4 is a processing device, 5 is a computer, 6 is a magnetic disk, 7 is a terminal, and 8 is a printer. -JI Im*°**−−−−−*+−−hm*−−“
°°°°°°°゛°゛°°°°゛°°°゛°°°Second
Figure 3 Input voice Figure 4 Spectrum Power code string Code T/l+ Recognition result procedure correction August 13, 1986

Claims (1)

【特許請求の範囲】 入力音声をベクトル量子化し、ベクトル量子化による符
号列として格納されている標準パターンと照合すること
により認識を行なう音声認識方式において、 前記入力音声の特徴の種類に応じて、複数のコードブッ
クを有し、各コードブックについてベクトル量子化を行
ない、求められた複数の符号列を用いて認識を行なうよ
うにしたことを特徴とする、ベクトル量子化を用いた音
声認識方式。
[Claims] In a speech recognition method that performs recognition by vector quantizing input speech and comparing it with a standard pattern stored as a vector quantized code string, depending on the type of characteristics of the input speech, A speech recognition method using vector quantization, characterized in that it has a plurality of codebooks, performs vector quantization on each codebook, and performs recognition using a plurality of obtained code strings.
JP62156959A 1987-06-24 1987-06-24 Speech recognition method using vector quantization Expired - Fee Related JPH067344B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62156959A JPH067344B2 (en) 1987-06-24 1987-06-24 Speech recognition method using vector quantization

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62156959A JPH067344B2 (en) 1987-06-24 1987-06-24 Speech recognition method using vector quantization

Publications (3)

Publication Number Publication Date
JPH01996A true JPH01996A (en) 1989-01-05
JPS64996A JPS64996A (en) 1989-01-05
JPH067344B2 JPH067344B2 (en) 1994-01-26

Family

ID=15639057

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62156959A Expired - Fee Related JPH067344B2 (en) 1987-06-24 1987-06-24 Speech recognition method using vector quantization

Country Status (1)

Country Link
JP (1) JPH067344B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9443167B2 (en) 2013-08-02 2016-09-13 Emotient, Inc. Filter and shutter based on image emotion content

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01239600A (en) * 1988-03-22 1989-09-25 Nippon Telegr & Teleph Corp <Ntt> Segment encoding method
JP4925569B2 (en) * 2004-07-08 2012-04-25 ローム株式会社 Organic electroluminescent device
KR100784957B1 (en) * 2006-04-24 2007-12-11 주식회사 케이티앤지 Testing method and device for specific gravity of green ginseng
KR100805889B1 (en) * 2006-06-14 2008-02-25 배재대학교 산학협력단 Propagation Method for inducing early fruition of Chloranthus glaber
KR100788789B1 (en) * 2006-08-29 2007-12-27 고려대학교 산학협력단 Bio-marker proteins for diagnosing exposure to formaldehyde
KR100799334B1 (en) * 2006-10-18 2008-01-30 한국철도기술연구원 Crack detection apparatus in press fit railway axle
KR100849954B1 (en) * 2006-12-29 2008-08-01 인제대학교 산학협력단 Primer set for detecting overexpression of katp channel and kit and identification method comprising said primer set
KR100846836B1 (en) * 2007-01-15 2008-07-17 한스바이오메드 주식회사 Composition for promoting bone regeneration and restoration
KR100852496B1 (en) * 2007-01-24 2008-08-18 한양대학교 산학협력단 Method of preparation for titania photo-catalyst by oxygen plasma and rapid thermal annealing
KR100840487B1 (en) * 2007-02-08 2008-06-20 주식회사 동원에프앤비 Method of processing medical herbs by extra-high pressure treatment in low temperature
KR100858605B1 (en) * 2007-03-09 2008-09-17 김평원 System of calibration based by fuzz
KR100833470B1 (en) * 2007-05-02 2008-06-02 연세대학교 산학협력단 Nbbtf3 gene involved in development of chloroplast and mitochondria in plants
CN104849496B (en) * 2015-04-27 2018-04-24 哈尔滨工业大学深圳研究生院 A kind of high-impact acceleration detection method and sensor based on principle of corona discharge

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57177198A (en) * 1981-04-24 1982-10-30 Fujitsu Ltd Recognizing treating device for sound
JPS5999500A (en) * 1982-11-29 1984-06-08 日本電信電話株式会社 Voice recognition method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9443167B2 (en) 2013-08-02 2016-09-13 Emotient, Inc. Filter and shutter based on image emotion content

Similar Documents

Publication Publication Date Title
JPH01997A (en) Speech recognition method using vector quantization
CN111415667A (en) Stream-type end-to-end speech recognition model training and decoding method
JPH05188994A (en) Noise suppression device
JPH01996A (en) Speech recognition method using vector quantization
JPH067345B2 (en) Speech recognition method using vector quantization
US6253173B1 (en) Split-vector quantization for speech signal involving out-of-sequence regrouping of sub-vectors
EP4266306A1 (en) A speech processing system and a method of processing a speech signal
JPH01998A (en) How to normalize spectrograms
JPH067344B2 (en) Speech recognition method using vector quantization
JP2709386B2 (en) Spectrogram normalization method
JP6189818B2 (en) Acoustic feature amount conversion device, acoustic model adaptation device, acoustic feature amount conversion method, acoustic model adaptation method, and program
CN113611281A (en) Voice synthesis method and device, electronic equipment and storage medium
JP2003036097A (en) Device and method for detecting and retrieving information
Ghanty et al. On recognition of spoken Bengali numerals
CN116092475B (en) Stuttering voice editing method and system based on context-aware diffusion model
Syfullah et al. Efficient vector code-book generation using K-means and Linde-Buzo-Gray (LBG) algorithm for Bengali voice recognition
Davidson et al. Multiple-stage vector excitation coding of speech waveforms
JP2709926B2 (en) Voice conversion method
JPH10254473A (en) Method and device for voice conversion
Li Speech recognition of mandarin monosyllables
JPS5999500A (en) Voice recognition method
Bedyakin et al. Language ID Prediction from Speech Using Self-Attentive Pooling and 1D-Convolutions
Oo et al. Normal and whispered speech recognition systems for Myanmar digits
JPH07248791A (en) Method and device for identifying speaker
JP2880508B2 (en) Speech rule synthesizer