JPS6328320B2 - - Google Patents

Info

Publication number
JPS6328320B2
JPS6328320B2 JP55023795A JP2379580A JPS6328320B2 JP S6328320 B2 JPS6328320 B2 JP S6328320B2 JP 55023795 A JP55023795 A JP 55023795A JP 2379580 A JP2379580 A JP 2379580A JP S6328320 B2 JPS6328320 B2 JP S6328320B2
Authority
JP
Japan
Prior art keywords
input
detecting
audio
peak
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP55023795A
Other languages
Japanese (ja)
Other versions
JPS56119198A (en
Inventor
Masaru Nishimura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP2379580A priority Critical patent/JPS56119198A/en
Publication of JPS56119198A publication Critical patent/JPS56119198A/en
Publication of JPS6328320B2 publication Critical patent/JPS6328320B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】[Detailed description of the invention]

本発明はパターンマツチング法に基づく単語音
声認識装置に関し、音声信号の新規な整合方式を
提供するものである。パターンマツチングの原理
による単語音声認識システムは、通常第1図に示
すが如く、音声入力部1、特徴抽出部2、認識処
理部3、登録パターンメモリ4、並びに入力パタ
ーンメモリ5を主要な構成要素とし、登録モード
と認識モードの2つの動作モードを有する。登録
モードは、認識すべき単語音声をあらかじめ登録
するものであつて、マイクロフオンを含む音声入
力部1の出力である登録音声信号から特徴抽出部
2により抽出された音声の特徴が時系列パターン
として登録パターンメモリ(又は標準パターンメ
モリとも言う)4にフアイルされるものである。
また認識モードでは、入力音声信号から同様に抽
出された音声の特徴パターンが入力パターンメモ
リ5に記憶された後、この入力パターンと登録パ
ターンメモリ4に記憶されている登録パターンと
の類似度が認識処理部3で計算され、その結果と
して得られる類似度の最大の登録パターンが入力
音声と一致するものとして固定されこれに相応し
て適当に出力がなされる。このような機能を有す
る第1図の認識処理部3と登録パターンメモリ
4、入力パターンメモリ5の構成は、中央演算処
理装置(CPU)を中心とするコンピユータシス
テムにより具体化される。音声波形の中から、音
声の音韻的特徴を抽出する方法としては、周波数
スペクトル、相関関数、ゼロ交差数、αパラメー
タなどの物理量が用いられている事は周知の通り
である。このうち、音声の周波数スペクトルを多
数のバンドパスフイルタを用いて抽出する方式
は、比較的簡単な構成で高い認識率が得られるの
で多用されつつある。第2図は周波数スペクトル
をフイルタにより分析する方式の音声認識装置の
具体例である。音声入力部1は、マイクロフオン
11マイクアンプ12及び入力音声信号のレベル
を入力音声の強弱にかかわらず略一定に保つ
AGC回路13から成る。この入力部1の出力に
接続する。M個の帯域通過フイルタ(以下BPF
と略記)21−1,21−2,…21−M及び該
各BPFに縦続し各出力エンベロープを検出する
低域通過フイルタ(以下LPFと略記)22−1,
22−2,…22−Mは特徴抽出部2を構成して
おり、音声帯域信号を周波数分析するものであ
る。音声入力部1を経た音声信号の各フイルタ成
分は適当な時間周期(多くの場合10〜20msec)
で順次マルチプレクサ23によりサンプリングさ
れる。即ちLPF22−1,22−2,…22−
Mの出力端い並列的に得られる音声のスペクトル
信号は直列信号列となり、引き続いて順次アナロ
グデジタル変換器24(以下A−D変換器と略
記)によつてデジタルコードに変換され、CPU
31に制御されるI/Oポート32を経てバツフ
アメモリ33に一旦取り込まれる。このデータ量
は、例えばフイルタの個数Mを8、音声の最大入
力時間を1.6秒、サンプリング周期を10msec、A
−D変換器24のビツト数を8としたとき最大取
り込みデータ量は 1.6/0.01×8×8=10240bits =1.28KB(B:byte) である。 さて、音声信号は同一話者の同一言語音声であ
つても発声の都度その時間軸、信号振巾とも変動
するのが普通であり、それぞれについてなんらか
の正規化が必要である。振巾の正規化の為に
AGC回路13がしばしば用いられる事はさきに
述べた通りであるが時間軸については単語音声の
始端から終端までの時間を等分割する第3図の如
き方法が一般的である。音声信号の始終端につい
ては音声検出回路25が入力信号のレベル、周波
数分布、零交差数などのデータをもとにこれを検
出する。第3図に於て入力音声信号の始端のサン
プリングポイント番号を1、終端をlとしたと
き、l/N(Nは整数)に最も近い整数を求め
(これをnとする)、入力サンプリングデータのう
ち始端を含めn個おきにN個のデータを取り出し
て並べなおす(第3図b)ことにより時間軸の正
規化が可能となる。ここで例えばN=32とする
と、この場合 N×8×8=2048bits=256B のデータが登録モードに於ては登録パターンメモ
リ40に、認識モードに於ては入力パターンメモ
リ50にそれぞれ記憶される。これらメモリは通
常RAMであり、登録パターンメモリ40の番地
(アドレス)はCPUのプログラムを記憶する
ROM34及び入力制御部35によつて指定され
る。登録パターンの数は、音声認識システムの仕
様即ち登録話者の数と各登録可能な語数により決
められる。認識モードに於ける認識処理は、同様
にバツフアメモリ33に入力したデータから得ら
れたNサンプル点のデータを記憶する入力パター
ンメモリ50の内容と、登録パターンの内容とを
パターンマツチングすることにより行なわれる。
入力パターンと登録パターンの距離計算方式には
各種の方式が提案されているが、ここでは説明の
便宜上最も単純な方式であるチエビシエフ距離に
より説明する。ある単語音声の登録パターンの8
個のフイルタの時系列[fij(R)](i:フイルタ番
号1〜8、j:サンプルポイント1〜N)と入力
音声パターンの同じくフイルタ時条列〔fij〕の
チエビシエフ距離Dは次式で定義される。 D=Nj=1 8i=1 |fij−fij(R)| ……(1) 即ちこれは入力パターンfijと登録パターンfij(R)
の各対応するデータの差の絶対値の総和であり、
各登録パターンについて得られたチエビシエフ距
離の中で最小値が得られる登録パターンと、入力
パターンは一致するものと見なされる。これらの
計算結果の一時記憶の為のメモリ領域を説明の便
宜上特に認識処理用メモリ36として図示した。 以上説明したパターンマツチングの原理にもと
づく音声認識システムの従来例では入力パターン
と登録パターンの各対応する時間点での距離の差
の総和により類似度を計算するものであり、回路
構成が簡単であるという特徴を有するものの、計
算上の誤差は多く、必ずしも十分な認識性能を得
ることが出来るとは言い難い面があつた。 本発明はかかる認識処理に加え、波形の形状を
ピーク位置及びピーク数として把握し、これを類
似度計算時補助的なデータとして参考することに
より更に精度の高い認識処理を行なうものであ
る。 第4図は本発明装置の構成を示すブロツク図で
あり、第2図に示した従来装置と相違するところ
は、入力部1とマルチプレクサ23との間に適当
な遮断周波数を持ち、信号の包絡線(エンベロー
プ)を検出するLPF26に依るバイパス路を設
けた点、並びにA−D変換器24とI/Oポート
32との間に音声の極大値を検出するピーク検出
回路27を配挿した点にある。尚、この第4図の
構成物は第2図のものと殆どが同一であるので、
これ等の点に就いての詳細な説明は省略する。こ
のピーク検出回路27は入力音声信号波形のピー
クを検出し、その検出信号をI/Oポート32を
介してCPU31に伝えるものであり、CPU31
はこれより各ピーク位置のサンプリングポイント
番号を、各フイルタ出力列と共にバツフアレジス
タ33に格納する。従つて本発明実施例の場合該
バツフアレジスタの記憶容量は、さきに計算され
た第2図の従来装置の場合(1.28KB)に比較し
適当量増やされる。バツフアレジスタ33に対す
る全サンプリングデータの記憶と、ピーク位置
(サンプリングポイント番号)の記憶が完了する
と、CPU31は時間軸を正規化する為、全サン
プリングデータの中から、音声信号の終始端をN
等分するN個のデータを抽出すると同時に、同様
に各ピーク位置のサンプリングポイント番号を終
端のサンプリングポイント番号により除して得ら
れる正規化されたピーク位置、及びその個数を前
記N個のデータと共に前記入力パターンメモリ5
0或いは登録パターンメモリ40の当該部位に各
収納される。 入力音声信号のピーク位置を検出する回路27
の具体例を第5図に示した。LPF26により検
出された信号包絡線データは、マルチプレクサ2
3、A−D変換器24を経てデジタルコードとし
てラツチ回路61に入力し保持される。図の場合
A−D変換器24の出力は8ビツトパラレルであ
り、ラツチ回路61は前記マルチプレクサ23が
LPF26の出力をサンプリングするタイミング
パルスの適当分周と同期してA−D変換器24の
出力をラツチし、続いて適当な時間差をもつてそ
の保持内容を縦続する同一記憶容量のラツチ62
に転送する。通常アナログマルチプレクサは、ク
ロツクパルスに応動し、複数の入力端子のひとつ
を選定指定するために該クロツクパルスと同時に
与えられる2進コードに従つて順次入力をその出
力端子にスイツチする形式をとるものが多い。本
発明に於てもこの形式のものを採用し、CPU3
1からI/Oポート32を介して与えられる。ア
ナログマルチプレクサ23のサンプリングクロツ
クパルス63(これはA−D変換器24のコンバ
ートコマンドパルスと同じ)と、同じくCPU3
1からI/Oポート32を介して与えられるアナ
ログマルチプレクサ23の入力指定コード64の
うちLPF26の指定コードを検出する一致回路
65との論理和ゲート66出力をK分周(Kは1
以上の適当な整数で一定)する分周回路67の出
力に応じ、前記第一のラツチ61はその時A−D
変換器24の出力に与えられる、LPF26の出
力のデジタルコード変換を記憶保持する。更に該
K分周回路の出力を適当時間(TD)遅延する回
路68の後述する論理和(AND)ゲート69出
力に応じて第二のラツチ62は、第一のラツチ6
1の保持内容を同様に記憶保持する。ここで、前
記クロツクパルスの周期を(TC)、サンプリング
が等時間間隔で行なわれる場合、帯域分割フイル
タの個数を(M+1個)とするとサンプリング周
期(TS)は、(M+1)TC従つて前記K分周回路
67出力周期は、KTS=K(M+1)TC、である
ので当然遅延回路68の遅延時間(TD)は、O
<TD<K(M+1)TC、である。サンプリング周
期(TS)は前述の如く具体的には10〜20msecの
時間が選ばれる。尚、波形の振巾エンベロープを
検出する検出回路26は帯域分割フイルタ21−
1,21−2,…,21−M及びそれぞれに縦続
するLPF22−1,22−2,…,22−Mの
比較的低周波域のものでこれを代用する事が出
来、この場合省略されて前記説明での(M+1)
はMとなる。 さてこの様な構成によれば、第一のラツチ61
がJ番目(JはKの倍数)のサンプリングポイン
トのデータをラツチした時、第二のラツチ62は
(J−K)番目のサンプリングデータを保持して
いることになる。該ラツチ62の8ビツトデータ
は補数回路70を経て2の補数表現に変換された
後、その上位Lビツト(Lは整数で1≦L≦8)
と第一のラツチ61の同じく上位Lビツトとの加
算が加算回路71により計算される。補数回路7
0及び加算回路71は、即ち第一のラツチ61と
第二のラツチ62の記憶内容の上位Lビツトにつ
いての差をとるものであり、その結果の正負が加
算回路71の最上位桁(MSB)72に示される。
このMSB72が0の時、減算の結果は正又は0
で、サンプル値列は増加しつつあるか又は変化が
無い事を示し、MSB72が1の時、減算の結果
は負でサンプル値列は減少していることがわか
る。MSB72の内容は前記第二のラツチ62の
ラツチ信号73と同期して1ビツトメモリ74に
転送記憶され、これとMSB72との排他的論理
和(EXCLUSIVE OR)がNORゲート75によ
り演算される。この構成により、第一、第二のラ
ツチ回路61,62に順次入力するサンプリング
データの差分に変化が生じた時、前記ゲート75
は論理「1」を出力し、この時前記加算回路71
のMSB72が論理「1」であればサンプリング
データ列の差の変化は正から負、即ち極大点があ
つた事になり、これらの論理和をとる出力AND
ゲート76の出力によりこれを知ることが出来
る。また加算回路71の出力が0(ゼロ)であれ
ば、一致回路である論理和ゲート77がこれを検
知して、インバータ78、ANDゲート69を介
して、ラツチ62及び74に対するラツチパルス
回路73の出力を遮断し、それぞれに対するデー
タの転送を停止する。これにより波形の一時的平
担部を極値と誤判断する事をさけ得る。 尚、この第5図に於ける各箇所の信号波形図を
第6図に示す。この第6図に於て、Aはサンプリ
ングクロツクパルス63、Bは論理和ゲート66
出力、Cは分周回路67出力、Dは補数回路70
並びに加算回路71に依る減算タイミング、Eは
遅延回路68の遅延出力、Fは出力ANDゲート
76からの出力、を夫々示している。 上記の構成に於て、K分周回路67によりサン
プリングをK個おきに行なう事及びサンプリング
データの差分計算に於て下位(8−L)ビツトを
省略することは、いずれも波形の微小なピークの
検出をさけ、これを無視する為であり、遮断周波
数を50〜100Hzに選ぶことによつて得られるLPF
26の効果とあわせて波形の概略形状を把握する
のに効果的である。又、上記の波形のピーク位置
検出回路は特にこのような構成のみならず、例え
ば適当にプログラムされたCPUシステムによつ
ても実現できる事は論を待たない。 さてこのように検出された波形のピーク位置及
びその個数は、音声のデータとして入力パターン
メモリ50或いは登録パターンメモリ40に記憶
されるが、認識処理計算である類似度判定に於て
これらデータを使用する方法を次に述べる。 そのひとつは、まず従来同様サンプリングデー
タによりまず距離計算を行ない、その結果として
得られる類似度の高い登録パターンの中からその
順にいくつかを選びその中でピーク数の同数であ
るパターンを選び、これで特定できない時、各対
応するピーク間隔の差の絶対値の和により判定す
る方法である。 又、逆にピーク数及びピーク間隔の比較により
あらかじめ登録パターンをある程度限定し、これ
らについて従来同様距離計算による類似度判定を
行なう方法もある。これらの方法の得失は一概に
決められないが実験結果では前者の方式Aが後者
(方式B)にくらべ下表のように高い認識率の向
上結果が得られている。しかしながら全計算時間
は後者が短かく従つてこれら方式の選択はシステ
ム設計上の総合的な判断にゆだねられる。尚、こ
の表に於ける実験方法は、 (1) 成人男子5名、試行回数各単語音声につき各
4回、 (2) 登録語数32語 (3) A、B、両方式につき同一音声をテープレコ
ーダに依り入力。
The present invention relates to a word speech recognition device based on a pattern matching method, and provides a new matching method for speech signals. A word speech recognition system based on the principle of pattern matching usually includes a speech input section 1, a feature extraction section 2, a recognition processing section 3, a registered pattern memory 4, and an input pattern memory 5 as shown in FIG. It has two operating modes: registration mode and recognition mode. In the registration mode, the word sounds to be recognized are registered in advance, and the features of the sound extracted by the feature extraction unit 2 from the registered sound signal which is the output of the sound input unit 1 including the microphone are extracted as a time series pattern. This pattern is stored in a registered pattern memory (or also referred to as a standard pattern memory) 4.
In the recognition mode, after a voice feature pattern similarly extracted from the input voice signal is stored in the input pattern memory 5, the degree of similarity between this input pattern and the registered pattern stored in the registered pattern memory 4 is recognized. The registered pattern with the maximum degree of similarity calculated by the processing unit 3 is fixed as the one that matches the input voice, and is outputted accordingly. The configuration of the recognition processing section 3, registered pattern memory 4, and input pattern memory 5 shown in FIG. 1 having such functions is realized by a computer system centered on a central processing unit (CPU). It is well known that physical quantities such as a frequency spectrum, a correlation function, the number of zero crossings, and an α parameter are used as a method for extracting the phonological features of speech from a speech waveform. Among these, the method of extracting the frequency spectrum of the voice using a large number of bandpass filters is becoming more and more widely used because it has a relatively simple configuration and can obtain a high recognition rate. FIG. 2 shows a specific example of a speech recognition device that analyzes the frequency spectrum using a filter. The audio input section 1 maintains the microphone 11, microphone amplifier 12, and the level of the input audio signal substantially constant regardless of the strength of the input audio.
It consists of AGC circuit 13. Connect to the output of this input section 1. M bandpass filters (hereinafter referred to as BPF)
) 21-1, 21-2, ... 21-M, and a low-pass filter (hereinafter abbreviated as LPF) 22-1, which is connected in series with each BPF and detects each output envelope.
22-2, . . . 22-M constitute a feature extraction unit 2, which performs frequency analysis on the voice band signal. Each filter component of the audio signal that has passed through the audio input section 1 has an appropriate time period (10 to 20 msec in most cases)
are sequentially sampled by the multiplexer 23. That is, LPF22-1, 22-2,...22-
The audio spectrum signal obtained in parallel at the output end of M becomes a serial signal train, which is sequentially converted into a digital code by an analog-to-digital converter 24 (hereinafter abbreviated as A-D converter), and then sent to the CPU.
The data is once taken into the buffer memory 33 via the I/O port 32 controlled by the I/O port 31 . This amount of data is, for example, if the number of filters M is 8, the maximum audio input time is 1.6 seconds, the sampling period is 10 msec, and A
When the number of bits of the -D converter 24 is 8, the maximum amount of data to be taken in is 1.6/0.01×8×8=10240 bits=1.28 KB (B: byte). Now, even if the audio signal is from the same speaker in the same language, it is normal for the time axis and signal amplitude to fluctuate each time it is uttered, and some kind of normalization is required for each. For normalization of amplitude
As mentioned above, the AGC circuit 13 is often used, but regarding the time axis, a method as shown in FIG. 3 is generally used in which the time from the start to the end of a word is divided equally. The audio detection circuit 25 detects the beginning and end of the audio signal based on data such as the level, frequency distribution, and number of zero crossings of the input signal. In Figure 3, when the sampling point number at the beginning of the input audio signal is 1 and the sampling point number at the end is l, find the integer closest to l/N (N is an integer) (this is set as n), and then calculate the input sampling point number. The time axis can be normalized by extracting N pieces of data every n pieces including the start end and rearranging them (FIG. 3b). For example, if N=32, in this case N×8×8=2048bits=256B data is stored in the registered pattern memory 40 in the registration mode and in the input pattern memory 50 in the recognition mode. . These memories are usually RAM, and the address of the registered pattern memory 40 stores the CPU program.
It is specified by the ROM 34 and the input control section 35. The number of registered patterns is determined by the specifications of the speech recognition system, that is, the number of registered speakers and the number of words that can be registered. Recognition processing in the recognition mode is similarly performed by pattern matching the contents of the input pattern memory 50, which stores the data of N sample points obtained from the data input to the buffer memory 33, and the contents of the registered pattern. It will be done.
Although various methods have been proposed for calculating the distance between the input pattern and the registered pattern, here, for convenience of explanation, the simplest method, the Thiebishev distance, will be explained. 8 registration patterns for certain word sounds
The Thievishev distance D between the time series [fij (R) ] of the filters [fij (R)] (i: filter numbers 1 to 8, j: sample points 1 to N) and the same filter time series [fij] of the input audio pattern is given by the following formula. defined. D= Nj=1 8i=1 |fij−fij (R) | ...(1) That is, this is the input pattern fij and the registered pattern fij (R)
is the sum of the absolute values of the differences between each corresponding data,
The input pattern is considered to match the registered pattern for which the minimum value is obtained among the Tievisiev distances obtained for each registered pattern. For convenience of explanation, a memory area for temporarily storing these calculation results is shown as a recognition processing memory 36. In the conventional speech recognition system based on the principle of pattern matching explained above, the degree of similarity is calculated by the sum of the distance differences between the input pattern and the registered pattern at each corresponding time point, and the circuit configuration is simple. However, there are many calculation errors, and it is difficult to say that sufficient recognition performance can be obtained. In addition to such recognition processing, the present invention performs recognition processing with even higher accuracy by grasping the shape of the waveform as the peak position and number of peaks, and referring to this as auxiliary data when calculating the degree of similarity. FIG. 4 is a block diagram showing the configuration of the device of the present invention, which differs from the conventional device shown in FIG. 2 in that it has an appropriate cutoff frequency between the input section 1 and the multiplexer 23, A bypass path based on the LPF 26 that detects the line (envelope) is provided, and a peak detection circuit 27 that detects the maximum value of the audio is inserted between the A-D converter 24 and the I/O port 32. It is in. Note that most of the components in Figure 4 are the same as those in Figure 2, so
A detailed explanation of these points will be omitted. This peak detection circuit 27 detects the peak of the input audio signal waveform and transmits the detection signal to the CPU 31 via the I/O port 32.
From now on, the sampling point number of each peak position is stored in the buffer register 33 along with each filter output string. Therefore, in the embodiment of the present invention, the storage capacity of the buffer register is increased by an appropriate amount compared to the previously calculated case of the conventional device shown in FIG. 2 (1.28 KB). When all sampling data and peak positions (sampling point numbers) have been stored in the buffer register 33, the CPU 31 selects the starting and ending points of the audio signal from among all the sampling data to normalize the time axis.
At the same time as extracting N pieces of data to be divided equally, the normalized peak position obtained by dividing the sampling point number of each peak position by the terminal sampling point number and its number together with the N pieces of data. The input pattern memory 5
0 or each stored in the corresponding part of the registered pattern memory 40. Circuit 27 for detecting the peak position of the input audio signal
A specific example is shown in FIG. The signal envelope data detected by LPF26 is sent to multiplexer 2.
3. It is input as a digital code to the latch circuit 61 via the A-D converter 24 and is held there. In the case shown in the figure, the output of the A-D converter 24 is 8-bit parallel, and the latch circuit 61 is connected to the multiplexer 23.
The output of the A-D converter 24 is latched in synchronization with an appropriate frequency division of the timing pulse that samples the output of the LPF 26, and then the latch 62 with the same storage capacity cascades the held contents with an appropriate time difference.
Transfer to. Typically, analog multiplexers respond to clock pulses and sequentially switch inputs to their output terminals in accordance with a binary code applied at the same time as the clock pulse to select and designate one of a plurality of input terminals. The present invention also adopts this format, and the CPU 3
1 through I/O port 32. The sampling clock pulse 63 of the analog multiplexer 23 (which is the same as the convert command pulse of the A-D converter 24) and the CPU 3
1 to the input designation code 64 of the analog multiplexer 23 given through the I/O port 32, the output of the OR gate 66 is divided by K (K is 1
According to the output of the frequency divider circuit 67, which is constant at an appropriate integer above, the first latch 61 is then set to A-D.
The digital code conversion of the output of the LPF 26 applied to the output of the converter 24 is stored and held. Furthermore, in response to the output of a logical sum (AND) gate 69, which will be described later, of a circuit 68 that delays the output of the K frequency divider circuit by an appropriate time (T D ), the second latch 62 delays the output of the first latch 6.
The contents held in 1 are stored and held in the same manner. Here, if the period of the clock pulse is (T C ) and sampling is performed at equal time intervals, and the number of band division filters is (M+1), the sampling period (T S ) is (M+1) T C . Since the output cycle of the K frequency divider circuit 67 is KT S =K(M+1)T C , the delay time (T D ) of the delay circuit 68 is naturally O
<T D <K(M+1)T C . As mentioned above, the sampling period ( TS ) is specifically selected to be 10 to 20 msec. Note that the detection circuit 26 for detecting the amplitude envelope of the waveform is a band division filter 21-
1, 21-2,..., 21-M and the LPFs 22-1, 22-2,..., 22-M cascaded to each other in a relatively low frequency range can be substituted, and in this case, they are omitted. (M+1) in the above explanation
becomes M. Now, according to this configuration, the first latch 61
latches the data at the Jth sampling point (J is a multiple of K), the second latch 62 holds the (J-K)th sampling data. The 8-bit data of the latch 62 is converted into two's complement representation through the complement circuit 70, and then its upper L bits (L is an integer, 1≦L≦8)
An addition circuit 71 calculates the addition of the L bits and the upper L bits of the first latch 61. Complement circuit 7
In other words, the adder circuit 71 calculates the difference between the upper L bits of the stored contents of the first latch 61 and the second latch 62, and the positive or negative of the result is the most significant digit (MSB) of the adder circuit 71. 72.
When this MSB72 is 0, the result of subtraction is positive or 0.
It can be seen that the sample value sequence is increasing or there is no change, and when the MSB 72 is 1, the result of subtraction is negative, indicating that the sample value sequence is decreasing. The contents of MSB 72 are transferred and stored in 1-bit memory 74 in synchronization with latch signal 73 of second latch 62, and an exclusive OR between this and MSB 72 is calculated by NOR gate 75. With this configuration, when a change occurs in the difference between the sampling data sequentially input to the first and second latch circuits 61 and 62, the gate 75
outputs logic "1", and at this time the adder circuit 71
If the MSB72 of is logic "1", the change in the difference in the sampling data string is from positive to negative, that is, there is a maximum point, and the output AND which is the logical sum of these
This can be known from the output of gate 76. Further, if the output of the adder circuit 71 is 0 (zero), the OR gate 77 which is a coincidence circuit detects this and outputs the output of the latch pulse circuit 73 to the latches 62 and 74 via the inverter 78 and the AND gate 69. and stop data transfer to each. This makes it possible to avoid misjudging a temporary flat part of the waveform as an extreme value. Incidentally, a signal waveform diagram at each location in FIG. 5 is shown in FIG. 6. In this FIG. 6, A is the sampling clock pulse 63, and B is the OR gate 66.
Output, C is the frequency divider circuit 67 output, D is the complement circuit 70
In addition, E indicates the subtraction timing by the adder circuit 71, E indicates the delayed output of the delay circuit 68, and F indicates the output from the output AND gate 76, respectively. In the above configuration, performing sampling every K by the K frequency divider circuit 67 and omitting the lower (8-L) bits in the difference calculation of the sampling data both reduce the small peaks of the waveform. This is to avoid detection of this and ignore it, and the LPF obtained by selecting the cutoff frequency between 50 and 100Hz.
In combination with the effect of No. 26, this is effective for grasping the approximate shape of the waveform. It goes without saying that the waveform peak position detection circuit described above can be realized not only by such a configuration, but also by, for example, an appropriately programmed CPU system. Now, the peak position of the waveform detected in this way and its number are stored as audio data in the input pattern memory 50 or the registered pattern memory 40, but these data are used in the similarity judgment which is the recognition process calculation. The following describes how to do this. One method is to first perform distance calculations using sampling data as in the past, select some of the registered patterns with high similarity in order, and select patterns with the same number of peaks among them. When it is not possible to specify the peak interval, this method uses the sum of the absolute values of the differences between the corresponding peak intervals. Alternatively, there is a method in which registered patterns are limited to a certain extent in advance by comparing the number of peaks and peak intervals, and similarity is determined by distance calculation as in the conventional method. Although the merits and demerits of these methods cannot be definitively determined, experimental results show that the former method A has a higher recognition rate than the latter method B, as shown in the table below. However, the total calculation time is shorter in the latter case, so the selection of these methods is left to comprehensive judgment in system design. In addition, the experimental method in this table is as follows: (1) 5 adult males, number of trials 4 times for each word sound, (2) Number of registered words: 32 words, (3) Same sound tape for both methods A and B. Input depending on the recorder.

【表】 以上に説明したように本発明は音声波形のピー
ク位置及びその個数を検知し、サンプリングデー
タによる類似度計算と共にこれら波形のピークに
関する情報をパターン認識上の判定データとして
用いているので、システム全体の認識性能の向上
を可能ならしめる、きわめて実用性の高い方式を
提供する事が出来る。
[Table] As explained above, the present invention detects the peak position and number of audio waveforms, calculates the similarity using sampling data, and uses information regarding these waveform peaks as judgment data for pattern recognition. It is possible to provide an extremely practical method that makes it possible to improve the recognition performance of the entire system.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図はパターンマツチング原理に依る単語音
声認識装置の概略を示すブロツク図、第2図はそ
の内部構成を示すブロツク図、第3図a,bは音
声信号の波形図、第4図は本発明装置の構成を示
すブロツク図、第5図はその要部の構成を示すブ
ロツク図、第6図は動作説明の為のタイミングチ
ヤート、であつて、1は入力部、2は特徴抽出
部、3は認識処理部、4は登録パターンメモリ、
5は入力パターンメモリ、27はピーク検出回
路、を夫々示している。
Fig. 1 is a block diagram showing the outline of a word speech recognition device based on the pattern matching principle, Fig. 2 is a block diagram showing its internal configuration, Fig. 3 a and b are waveform diagrams of speech signals, and Fig. 4 is FIG. 5 is a block diagram showing the configuration of the apparatus of the present invention, FIG. 5 is a block diagram showing the configuration of its main parts, and FIG. 6 is a timing chart for explaining the operation, where 1 is an input section and 2 is a feature extraction section. , 3 is a recognition processing unit, 4 is a registered pattern memory,
Reference numeral 5 indicates an input pattern memory, and reference numeral 27 indicates a peak detection circuit.

Claims (1)

【特許請求の範囲】[Claims] 1 音声を電気信号に変換する音声入力手段と、
入力音声波形の特徴を抽出する特徴抽出手段と、
サンプリング手段と、サンプリングされた音声の
特徴をデイジタルコードに変換する変換手段と、
音声信号の始終端を検出する始終端検出手段と、
音声信号の振巾を検出する振巾検出手段と、この
振巾検出手段の上記サンプリング手段に依るサン
プリング値の差分を検出する差分検出手段と、そ
の差分の符号変化を検出する変化検出手段と、こ
の差分符号の検出手段に応動するピーク検出手段
と、該ピーク検出手段の出力からピーク数並びに
ピーク間隔を算定計数する手段と、予め登録の為
に入力した音声の特徴及びピーク情報を記憶する
登録パターン記憶手段と、音声入力の都度入力音
声の特徴及びピーク情報を記憶する入力パターン
記憶手段と、これ等の登録パターン記憶手段の内
容と入力パターン記憶手段の内容との類似度を計
算すると共に前記両ピーク情報を比較することに
よりパターン認識を行なう認識処理手段と、から
成るパターンマツチング法を用いた単語音声認識
装置。
1. Audio input means for converting audio into electrical signals;
a feature extraction means for extracting features of an input audio waveform;
a sampling means; a conversion means for converting the sampled audio characteristics into a digital code;
Start/end detection means for detecting the start/end of the audio signal;
An amplitude detection means for detecting the amplitude of the audio signal, a difference detection means for detecting a difference between sampling values by the sampling means of the amplitude detection means, and a change detection means for detecting a change in sign of the difference; A peak detecting means that responds to the differential code detecting means, a means for calculating and counting the number of peaks and peak intervals from the output of the peak detecting means, and a register that stores voice characteristics and peak information input in advance for registration. a pattern storage means, an input pattern storage means that stores the characteristics and peak information of the input voice each time a voice is input, and calculates the degree of similarity between the contents of these registered pattern storage means and the contents of the input pattern storage means. A word speech recognition device using a pattern matching method, comprising: recognition processing means that performs pattern recognition by comparing both peak information.
JP2379580A 1980-02-26 1980-02-26 Word voice identifying device Granted JPS56119198A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2379580A JPS56119198A (en) 1980-02-26 1980-02-26 Word voice identifying device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2379580A JPS56119198A (en) 1980-02-26 1980-02-26 Word voice identifying device

Publications (2)

Publication Number Publication Date
JPS56119198A JPS56119198A (en) 1981-09-18
JPS6328320B2 true JPS6328320B2 (en) 1988-06-08

Family

ID=12120251

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2379580A Granted JPS56119198A (en) 1980-02-26 1980-02-26 Word voice identifying device

Country Status (1)

Country Link
JP (1) JPS56119198A (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5242006A (en) * 1975-09-29 1977-04-01 Fujitsu Ltd Recognition system with non-linear matching
JPS5374807A (en) * 1976-12-15 1978-07-03 Fujitsu Ltd Voice recognition matching control system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5242006A (en) * 1975-09-29 1977-04-01 Fujitsu Ltd Recognition system with non-linear matching
JPS5374807A (en) * 1976-12-15 1978-07-03 Fujitsu Ltd Voice recognition matching control system

Also Published As

Publication number Publication date
JPS56119198A (en) 1981-09-18

Similar Documents

Publication Publication Date Title
EP0077194B1 (en) Speech recognition system
JP3402748B2 (en) Pitch period extraction device for audio signal
KR20020005205A (en) Efficient Speech Recognition System based on Auditory Model
JPS6328320B2 (en)
JPS6328319B2 (en)
JPS6131880B2 (en)
JPS6120880B2 (en)
JPH05181498A (en) Pattern recognition device
JP3035982B2 (en) Pitch detection device for audio signal
JPS60166993A (en) Word voice recognition equipment
JPS58159599A (en) Monosyllabic voice recognition system
JP2891259B2 (en) Voice section detection device
JPH0319560B2 (en)
JPH0115079B2 (en)
JPS59211098A (en) Voice recognition equipment
JPS63300298A (en) Voice recognition equipment
JPS5923400A (en) Voice recognition equipment
JPH027000A (en) Pattern matching system
JPS61290496A (en) Voice recognition equipment
JPS59124388A (en) Word voice recognition processing system
JPS6228480B2 (en)
JPS59180594A (en) Voice recognition equipment
JPH0354359B2 (en)
JPH04240899A (en) Speech recognizer
JPS5888797A (en) Voice recognition equipment