JPH0311478B2 - - Google Patents

Info

Publication number
JPH0311478B2
JPH0311478B2 JP58096960A JP9696083A JPH0311478B2 JP H0311478 B2 JPH0311478 B2 JP H0311478B2 JP 58096960 A JP58096960 A JP 58096960A JP 9696083 A JP9696083 A JP 9696083A JP H0311478 B2 JPH0311478 B2 JP H0311478B2
Authority
JP
Japan
Prior art keywords
pattern
input
voice
circuit
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58096960A
Other languages
Japanese (ja)
Other versions
JPS59222900A (en
Inventor
Yutaka Iizuka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP9696083A priority Critical patent/JPS59222900A/en
Publication of JPS59222900A publication Critical patent/JPS59222900A/en
Publication of JPH0311478B2 publication Critical patent/JPH0311478B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】[Detailed description of the invention]

(技術分野) 本発明は認識性能の向上を図るようにした音声
認識方法に関する。 (従来技術) 従来の音声認識装置は第1図のように構成され
ており、1は入力端子、2は周波数分析部、3は
スペクトル変換部、4は音声区間決定部、5は非
類似度演算部、6は標準音声スペクトルパターン
メモリ、7は判定部、8は認識結果出力端子であ
る。 従来の音声認識装置では、入力音声スペクトル
パターンと標準スペクトルパターンk(k=1〜
K)との非類似度演算において、非類似度Dk
入力スペクトルパターンの時間標本点第n番目の
mチヤネル目の要素をA(m,n)とし、標準ス
ペクトルパターンkの時間標本点n番目のmチヤ
ネル目の要素をSk(m,n)とした時に、 DkNn=1 Mm=1 |A(m,n)−Sk (m,n)|×W(m,n) …(1) (1)式により計算し、k個の標準スペクトルパタ
ーンの中でDkを最小とする標準スペクトルパタ
ーンのカテゴリを認識結果としている。ここで重
みW(m,n)の計算方法については数々の方式
があるが、本発明の目的でないので省略する。 従来の音声認識装置では入力音声を周波数分析
し、音声スペクトルの最小2乗近似直線を計算
し、最小2乗近似直線の傾きをスペクトル傾斜値
としている。そして、スペクトル傾斜値が負の場
合は入力音声を有声音と判定し、音声スペクトル
から音声スペクトルの最小2乗近似直線を引き、
スペクトル傾斜値が正の場合には入力音声を無声
音と判定し、音声スペクトルから音声スペクトル
の平均を引くことにより、入力音声の声帯音源特
性および発声強度の正規化を行なつている。この
変換作用により入力音声のパワー情報は完全に失
なわれる。その結果、「イチ」を「ニ」と誤認識
したり、「ゴ」を「ロク」に誤認識するという場
合がある。 第2図に「イチ」,「ニ」,「ゴ」,「ロク」の音声
パターンソナグラムの例を示す。第2図で、横方
向は周波数軸たて方向が時間軸である。 このようにスペクトル変換により、「イチ」と
「ニ」、「ゴ」と「ロク」はかなり似かよつたパタ
ーンとなりその差としては「イ」と「チ」の間の
無音区間、「ロ」と「ク」の間の無音区間が大き
いがパワー情報は失なわれているので、結果とし
て誤認識されることがある。又、有声音と無声音
の場合でまつたく異なる変換を行なつているのに
その情報は失なわれてしまうため「サン」と「ヨ
ン」を誤認識したり、「ニ」と「キユウ」を誤認
識する場合がある。 第3図に「サン」と「ヨン」、「ニ」と「キユ
ウ」の音声パターンの例を示す。第3図で横方向
は周波数軸、たて方向が時間軸である。 このように、前記の変換により「サン」と「ヨ
ン」、「ニ」と「キユウ」はかなり似かよつたパタ
ーンになり、その差としては「サン」の先頭数フ
レームは無声音であるが「ヨン」では有声音であ
ること、又「キユウ」の先頭類フレームは無声音
だが「ニ」では有声音であることがあげられる
が、その差はごくわずかであり、前記変換作用に
よりほとんど同じようなパターンとなつてしま
い、結果として誤認識されることがある。この2
つの要因により誤認識が発生し、認識率が低下し
た。 (発明の目的) 本発明はこれらの欠点を解決するため、非類似
度演算処理時に音声入力と標準音声間のパワーパ
ターンの比較並びに音声入力パターンと標準パタ
ーン間のスペクトル傾斜値パターンの比較を行わ
せるようにしたものであり、以下詳細に説明す
る。 (発明の構成) 第4図は本発明を実施するための音声認識装置
の一例を示したブロツク図である。第4図におい
て、100は入力端子、200は周波数分析部で
ある。300はスペクトル変換部であり、カウン
タ301、乗算回路302、加算回路303、レ
ジスタ304、加算回路305、レジスタ30
6、マルチプレクサ307,308、乗算回路3
09,310、減算除算回路311、レジスタ3
12、減算除算回路313、レジスタ314、カ
ウンタ315、乗算回路316、加算回路31
7、遅延回路318、減算回路319、切り換え
回路320,321、除算回路322から成る。 400は音声区間決定部である。500は非類
似度演算部であり、入力音声スペクトルパターン
メモリ501、減算回路502、絶対値回路50
3、乗算回路504、重み決定回路505、定数
発生回路506、アキユムレータ、入力音声パワ
ーパターンメモリ508、加算回路509、レジ
スタ510、除算回路511、標準音声平均パワ
ーメモリ512、減算回路513、標準音声パワ
ーパターンメモリ514、加算回路515、入力
音声スペクトル傾斜値パターンメモリ516、標
準音声スペクトル傾斜値パターンメモリ517、
切り換え回路518,519,520から成る。 600は標準音声スペクトルパターンメモリ、
700は判定部、800は認識結果出力端子であ
る。 入力端子100から入力される入力音声信号は
周波数分析部200に入力され、複数の周波数帯
域に対応した量子化信号として周波数分析され、
スペクトル変換部300に送られる。 周波数分析部200で、ある時刻nに分析され
たM個のデータをx(m,n)(m=1〜M)とす
ると、スペクトル変換された入力スペクトルデー
タA(m,n),(m=1〜M)は(1)′式で与えられ
る。 A(m,n) =x(m,n)−(αo・m+βo) …(1)′ (1)′式においてαo,βoはそれぞれx(m,n)の
最小2乗近似直線の傾き及び切片を意味するもの
で、それぞれ次式によつて求められる。 (2),(3)式においてデータ数Mを固定すればMm=1
m,Mm=1 m2は定数となり、従つて(2),(3)式の分母
も定数となる。 C1Mm=1 m,C2Mm=1 m2とおけば、(2),(3)式は となる。ここにC3=M・Mm=1 m2−(Mm=1 m)2である。
(4),(5)式から明らかのように入力データからMm=1
m・x(m,n)及びMm=1 x(m,n)を求めれば、
(4),(5)式によりαo,βoの値を求めることができ、
さらに(1)′式により入力スペクトルデータA(m,
n)を求めることができる。第4図ではこの入力
スペクトルデータA(m,n)を次の如くして作
成している。 まず、周波数分析部200より入力された入力
データx(m,n)と、入力データと同期して計
算するカウンタ301によつて発生したmとの積
を乗算回路302によつて求めさらに加算回路3
03とレジスタ304によりm・x(m,n)の
値を累積させることによりレジスタ304にMm=1
m・x(m,n)の値をセツトすることができる。
また、加算回路305とレジスタ306により同
様に、レジスタ306にMm=1 x(m,n)の値をセ
ツトすることができる。又、その結果を乗算回路
322によりMで除し、音声パワーPoとして出
力する。 ただし Po=1/MMm=1 x(m,n) である。 次にマルチプレクサ307,308において、
それぞれM,C1の値を選択することにより、乗
算回路309ではM・Mm=1 m・x(m,n)が、乗
算回路310ではC1Mm=1 x(m,n)が得られ、
切り換え回路320,321により減算除算回路
311側に接続させてさらに減算除算回路311
により(M・Mm=1 m・x(m,n)−C1Mm=1 x(m,
n))/C3の演算を行ない、結果すなわちαoの値
をレジスタ312にセツトし、これを非類似度演
算部へ出力する。 同様に、マルチプレクサ307,308におい
てそれぞれC1,C2を選択させ、乗算回路309,
310及び切り換え回路320,321を減算除
算回路313側に切り換え、減算除算回路313
を使用して(C2Mm=1 x(m,n)−C1Mm=1 m・x
(m,n))/C3の演算を行ない、その結果すな
わちβoの値をレジスタ314にセツトする。 続いてカウンタ315によりmを発生させ、乗
算回路316によりαo・mを求め、さらに加算回
路317によりαo・m+βoを求めることができ
る。次に遅延回路318により遅延した入力デー
タx(m,n)と加算回路317で求めたαo・m
+βoの減算を減算回路319によつて行なえば、
スペクトル変換された入力スペクトルデータA
(m,n)が入力音声スペクトルパターンメモリ
501に出力される。第5図は入力x(m,n)、
直線Y=αo・m+βoスペクトル変換データA(m,
n)の関係を表わした図である。(nはある時刻、
m=1〜M)Y=αo・m+βoはx(m,n)の最
小2乗近似直線であり、x(m,n)からαo・m
+βoをさし引いたものがA(m,n)である。 音声区間検出部400は音声区間の始端及び終
端を検出し非類似度演算部に始端検出信号及び終
端検出信号を送るものであり、簡易的な検出法と
してはサンプル周期毎の周波数分析部200から
のM個の分析データの平均値を求めその値があら
かじめ設定された閾値を最初に越えた時点を始点
とし、最後に閾値以下になつた時点を終端とする
検出法がある。 音声区間検出部400において、音声の始端が
検出されると、入力スペクトルデータA(m,n)
の入力音声スペクトルパターンメモリ501への
書き込み、入力音声のパワー情報Poの入力音声
パワーパターンメモリ508への書き込み、及び
入力音声のスペクトル傾斜値αoの入力音声傾斜値
パターンメモリ516への書き込みが開始され
る。また音声の終端が検出されると入力音声スペ
クトルパターンメモリ501、入力音声パワーパ
ターンメモリ508、入力音声スペクトル傾斜値
パターンメモリ516への書き込みが打ち切ら
れ、これら、入力スペクトルパターン、入力パワ
ーパターン及び入力スペクトル傾斜値パターンに
基づいて非類似度演算処理が開始される。入力音
声スペクトルパターンメモリ501は2次元のメ
モリであり、その要素が入力スペクトルデータA
(m,n)(m=1〜M,n=1〜N)で表わされ
る。入力音声パワーパターンメモリ508は1次
元のメモリであり、その要素をIP(n)、(n=1
〜N)で表わす。入力音声スペクトル傾斜値パタ
ーンメモリ516は1次元のメモリであり、その
要素をIA(n)、(n=1〜N)で表わす。 非類似度演算部500ではK個の標準音声と入
力音声との非類似度を計算するが、ここではk番
目の標準音声との非類似度を計算することを考え
る。 非類似度Dkは次式で表わされる。 DkNn=1 Mm=1 |A(m,n)−Sk(m,n)|×W(m,n)+Nn=1 |IP(n)−Pk(n) −PP+APk|×WP+Nn=1 |IA(n)−SAk(n)|×WA …(6) ここで、Sk(m,n)はk番目の標準音声のス
ペクトルパターンの要素(m=1〜M,n=1〜
M)。W(m,n)は重み決定回路505により決
定される重み、Pk(n)(n=1〜N)はその標
準音声kのパワーパターンの要素、PPは入力音
声の平均パワー、APkは標準音声kの平均パワー
であり、APk=1/NNn=1 Pk(n)と表わせる。IA (n)は入力音声のスペクトル傾斜値パターンの
要素、SAk(n)は標準音声kのスペクトル傾斜
値パターンの要素、WAは非類似度中のスペクト
ル傾斜値による非類似度の割合を設定するための
重み係数である。WPは非類似度中のパワーパタ
ーンによる非類似度の割合を設定するための重み
係数である。 まず、非類似度計算用アキユムレータ507を
ゼロクリアする。次に、入力音声スペクトルパタ
ーンメモリ501から切り換え回路517を通じ
入力音声要素A(m,n)と標準音声スペクトル
パターンメモリ600から標準音声kの要素Sk
(m,n)を読み込み、切り換え回路518を通
じ減算回路502によりA(m,n)−Sk(m,n)
を計算し、絶対値回路503により絶対値をと
り、切り換え回路519を通じ乗算回路504に
より重み係数W(m,n)を乗じる。重み係数W
(m,n)は重み決定回路505により決定され
る。重み決定方式については数々の方式があり、
その例としては特願昭56−184416「音声認識装置」
に開示されており、本発明の目的ではないので説
明は省略する。さらに乗算回路504の出力をア
キユムレータ507で累加算する。m,nをm=
1〜M,n=1,nまで以上の動作をくり返し、
Dkの第1項が計算されることになる。 次に入力音声の平均パワーPPを計算する。入
力音声パワーパターンメモリ508から入力音声
のパワーパターンIP(n),n=1〜Nを読み出
し、加算回路509とレジスタ510により累算
してレジスタ510にNn=1 IP(n)の値をセツトす
る。この値を除算回路511によりNで除し、入
力音声の平均パワーPPを求める。PPは次式で表
わせる。 PP=1/NNn=1 IP(N) …(7) 次に標準音声平均パワーメモリ512から標準
音声kの平均パワーAPkを読み出し、減算回路5
13によりPPからAPkを減し、パワー補正値PP
−APkを計算する。 次に標準音声パワーパターンメモリ514から
標準音声kのパワーパターンPk(n)を読み出
し、加算回路515によりパワー補正値(PP−
APk)と加算する。加算結果は(Pk(n)+(PP−
APk))となる。一方、入力音声パワーパターン
メモリ508から入力音声パワーパターンIP
(n)(n=1,N)を切り換え回路518を通じ
読み出し、切り換え回路519により加算回路5
15の出力を選択し、減算回路502でIP(n)
−(Pk(n)+(PP−APk))を計算し、絶対値回路
503でその絶対値をとる。次に定数発生回路5
06から定数WPを出力し、切り換え回路520
を通じ乗算回路504により絶対値回路の出力に
乗じアキユムレータ507に加算していくnを1
〜Nまで変化させてアキユムレータへの加算が終
了したら(6)式の第2項まで計算できたことにな
る。次に入力音声スペクトル傾斜値パターンメモ
リ516から切り換え回路519を通じ入力音声
スペクトル傾斜値パターンIA(n),(n=1〜
N)を順に読み出し、一方、標準音声スペクトル
傾斜値パターンメモリ517から切り換え回路5
19を通じ標準スペクトルパターンkのスペクト
ル傾斜値SAk(n)(n=1〜N)を順に読み出
し、減算回路502でIA(n)−SAk(n)を計算
し、絶対値回路503で絶対値をとる。次に定数
発生回路506から定数WAを出力し、切り換え
回路520を通じ乗算回路504により絶対値回
路の出力に乗じ、アキユムレータ507に加算し
ていく。 nを1〜Nまで変化させてアキユムレータへの
加算が終了したら加算結果を非類似度演算結果と
して判定部700に出力する。判定部700では
非類似度が最も小さい標準音声のカテゴリを認識
結果とする。 定数WPの値はシミユレーシヨンの結果1/2〜
2程度、定数WAの値は2〜8が最適である。 ただし認識語が語中に無音区間を含まない語だ
けである場合にはWP=0とすることも考えられ
る。表1は従来の非類似度演算部と本発明による
非類似度演算部を比較するために行なつたシミユ
レーシヨンの結果である。約400人の人が発声し
た数字10語、ハイ、イイエの合計12語を学習し、
標準音声を作成し別の100人分の音声を認識し評
価した。この時標準音声数は192パターンとした。
(Technical Field) The present invention relates to a speech recognition method designed to improve recognition performance. (Prior Art) A conventional speech recognition device is configured as shown in Fig. 1, where 1 is an input terminal, 2 is a frequency analysis section, 3 is a spectrum conversion section, 4 is a speech interval determination section, and 5 is a degree of dissimilarity. 6 is a standard speech spectrum pattern memory, 7 is a determination unit, and 8 is a recognition result output terminal. In a conventional speech recognition device, an input speech spectrum pattern and a standard spectrum pattern k (k=1 to
In the dissimilarity calculation with K), the dissimilarity D k is defined as the m channel element of the nth time sample point of the input spectrum pattern as A(m, n), and the time sample point n of the standard spectrum pattern k. When the m-th channel element is S k (m, n), D k = Nn=1 Mm=1 | A (m, n) − S k (m, n) | × W (m, n)...(1) Calculated using equation (1), and the recognition result is the category of the standard spectrum pattern that minimizes D k among the k standard spectrum patterns. There are many methods for calculating the weight W(m, n), but they are not the purpose of the present invention, so their description will be omitted. Conventional speech recognition devices frequency-analyze input speech, calculate a least squares approximation straight line of a speech spectrum, and use the slope of the least squares approximation straight line as a spectral slope value. If the spectral slope value is negative, the input speech is determined to be voiced, and a least square approximation straight line of the speech spectrum is drawn from the speech spectrum.
If the spectral slope value is positive, the input voice is determined to be unvoiced, and the vocal cord sound source characteristics and phonation intensity of the input voice are normalized by subtracting the average of the voice spectrum from the voice spectrum. Due to this conversion effect, the power information of the input voice is completely lost. As a result, "ichi" may be mistakenly recognized as "ni" or "go" may be mistakenly recognized as "roku". FIG. 2 shows an example of a sound pattern sonagram for "ichi", "ni", "go", and "roku". In FIG. 2, the horizontal direction is the frequency axis, and the vertical direction is the time axis. In this way, due to spectral conversion, "ichi" and "ni", "go" and "roku" have very similar patterns, and the difference is the silent interval between "i" and "chi", and the pattern between "ro" and "ro". Although the silent section between "ku" is large, the power information is lost, so it may be misrecognized as a result. Furthermore, even though voiced and unvoiced sounds are converted in very different ways, this information is lost, leading to misrecognition of "san" and "yon", or "ni" and "kiyuu". Misrecognition may occur. FIG. 3 shows examples of voice patterns for "san" and "yon" and "ni" and "kiyuu." In FIG. 3, the horizontal direction is the frequency axis, and the vertical direction is the time axis. In this way, as a result of the above conversion, "san" and "yon" and "ni" and "kiyuu" have very similar patterns, and the difference is that the first few frames of "san" are unvoiced, but "yon"'' is a voiced sound, and the leading class frame of ``kiyu'' is an unvoiced sound, but ``ni'' is a voiced sound, but the difference is very small, and due to the conversion effect described above, almost the same pattern As a result, it may be misrecognized. This 2
Misrecognition occurred due to two factors, and the recognition rate decreased. (Objective of the Invention) In order to solve these drawbacks, the present invention compares power patterns between a voice input and a standard voice and compares spectral slope value patterns between a voice input pattern and a standard pattern during dissimilarity calculation processing. This will be explained in detail below. (Structure of the Invention) FIG. 4 is a block diagram showing an example of a speech recognition device for implementing the present invention. In FIG. 4, 100 is an input terminal, and 200 is a frequency analysis section. 300 is a spectrum conversion unit, which includes a counter 301, a multiplication circuit 302, an addition circuit 303, a register 304, an addition circuit 305, and a register 30.
6. Multiplexers 307, 308, multiplication circuit 3
09, 310, subtraction/division circuit 311, register 3
12, subtraction/division circuit 313, register 314, counter 315, multiplication circuit 316, addition circuit 31
7. Consists of a delay circuit 318, a subtraction circuit 319, switching circuits 320, 321, and a division circuit 322. 400 is a voice section determining section. 500 is a dissimilarity calculation unit, which includes an input speech spectrum pattern memory 501, a subtraction circuit 502, and an absolute value circuit 50.
3. Multiplication circuit 504, weight determination circuit 505, constant generation circuit 506, accumulator, input audio power pattern memory 508, addition circuit 509, register 510, division circuit 511, standard audio average power memory 512, subtraction circuit 513, standard audio power pattern memory 514, addition circuit 515, input audio spectrum slope value pattern memory 516, standard audio spectrum slope value pattern memory 517,
It consists of switching circuits 518, 519, and 520. 600 is a standard audio spectrum pattern memory;
700 is a determination unit, and 800 is a recognition result output terminal. The input audio signal input from the input terminal 100 is input to the frequency analysis section 200, where it is frequency analyzed as a quantized signal corresponding to a plurality of frequency bands.
The signal is sent to the spectrum conversion section 300. If the M pieces of data analyzed at a certain time n by the frequency analysis unit 200 are x (m, n) (m=1 to M), the spectrum-converted input spectrum data A (m, n), (m =1 to M) is given by equation (1)'. A (m, n) = x (m, n) - (α o m + β o ) ...(1)' In equation (1)', α o and β o are the least square approximations of x (m, n), respectively. It means the slope and intercept of a straight line, and each is calculated by the following formula. If the number of data M is fixed in equations (2) and (3), Mm=1
m, Mm=1 m 2 is a constant, so the denominators of equations (2) and (3) are also constants. If we set C 1 = Mm=1 m, C 2 = Mm=1 m 2 , equations (2) and (3) become becomes. Here, C 3 =M・Mm=1 m 2 −( Mm=1 m) 2 .
As is clear from equations (4) and (5), from the input data Mm=1
If we find m x (m, n) and Mm=1 x (m, n), we get
The values of α o and β o can be found using equations (4) and (5),
Furthermore, input spectrum data A(m,
n) can be obtained. In FIG. 4, this input spectrum data A(m,n) is created as follows. First, a multiplier circuit 302 calculates the product of input data x (m, n) inputted from the frequency analysis section 200 and m generated by a counter 301 that calculates in synchronization with the input data, and then an adder circuit 3
By accumulating the value of m x (m, n) using 03 and register 304, Mm=1 is stored in register 304.
The value of m.x(m,n) can be set.
Further, the value Mm=1 x (m, n) can be similarly set in the register 306 using the adder circuit 305 and the register 306. Further, the result is divided by M by the multiplication circuit 322 and output as the audio power P o . However, P o =1/M Mm=1 x (m, n). Next, in multiplexers 307 and 308,
By selecting the values of M and C 1 respectively, the multiplier circuit 309 obtains M・Mm=1 m・x(m, n), and the multiplier circuit 310 obtains C 1Mm=1 x(m, n) is obtained,
The switching circuits 320 and 321 are connected to the subtraction/division circuit 311 side, and the subtraction/division circuit 311 is connected to the subtraction/division circuit 311 side.
(M・Mm=1 m・x(m, n)−C 1Mm=1 x(m,
n))/ C3 is performed, and the result, that is, the value of αo , is set in the register 312, and is output to the dissimilarity calculating section. Similarly, multiplexers 307 and 308 select C 1 and C 2 respectively, and multiplier circuits 309 and
310 and switching circuits 320 and 321 to the subtraction/division circuit 313 side, and the subtraction/division circuit 313
Using (C 2Mm=1 x (m, n)−C 1Mm=1 m・x
(m, n))/C 3 is performed, and the result, ie, the value of β o , is set in the register 314. Subsequently, the counter 315 generates m, the multiplier circuit 316 calculates α o ·m, and the adder circuit 317 calculates α o ·m+β o . Next, the input data x(m, n) delayed by the delay circuit 318 and α o・m obtained by the addition circuit 317
If +β o is subtracted by the subtraction circuit 319,
Spectrum-converted input spectrum data A
(m, n) is output to the input audio spectrum pattern memory 501. Figure 5 shows input x (m, n),
Straight line Y = α o・m + β o Spectrum conversion data A (m,
It is a figure showing the relationship of (n). (n is a certain time,
m=1~M) Y= αo・m+ βo is the least squares approximation straight line of x(m,n), and αo・m from x(m,n)
The value obtained by subtracting +β o is A(m, n). The voice section detection section 400 detects the start and end of a voice section and sends a start detection signal and an end detection signal to the dissimilarity calculation section.As a simple detection method, the frequency analysis section 200 detects the beginning and end of a voice section, and sends a start detection signal and an end detection signal to the dissimilarity calculation section. There is a detection method in which the average value of M pieces of analysis data is determined, and the starting point is the point in time when the value first exceeds a preset threshold value, and the ending point is the point in time when it finally falls below the threshold value. When the voice section detection unit 400 detects the beginning of the voice, input spectrum data A(m,n)
is written into the input audio spectrum pattern memory 501, the power information P o of the input audio is written into the input audio power pattern memory 508, and the spectral slope value α o of the input audio is written into the input audio slope value pattern memory 516. Begins. Furthermore, when the end of the audio is detected, writing to the input audio spectrum pattern memory 501, input audio power pattern memory 508, and input audio spectrum slope value pattern memory 516 is terminated, and the input spectrum pattern, input power pattern, and input spectrum are discontinued. Dissimilarity calculation processing is started based on the gradient value pattern. The input audio spectrum pattern memory 501 is a two-dimensional memory whose elements are input spectrum data A.
It is represented by (m, n) (m=1 to M, n=1 to N). The input voice power pattern memory 508 is a one-dimensional memory whose elements are IP(n), (n=1
~N). The input audio spectrum slope value pattern memory 516 is a one-dimensional memory, and its elements are represented by IA(n), (n=1 to N). The dissimilarity calculation unit 500 calculates the dissimilarity between the K standard voices and the input voice, and here we will consider calculating the dissimilarity with the k-th standard voice. The degree of dissimilarity D k is expressed by the following equation. D k = Nn=1 Mm=1 | A (m, n) − S k (m, n) | × W (m, n) + Nn=1 | IP (n) − P k (n) −PP+AP k |×WP+ Nn=1 |IA(n)−SA k (n)|×WA …(6) Here, S k (m, n) is the spectrum of the k-th standard speech Pattern elements (m=1~M, n=1~
M). W (m, n) is the weight determined by the weight determination circuit 505, P k (n) (n = 1 to N) is an element of the power pattern of the standard voice k, PP is the average power of the input voice, AP k is the average power of standard speech k, and can be expressed as AP k =1/N Nn=1 P k (n). IA (n) is the element of the spectral slope value pattern of the input voice, SA k (n) is the element of the spectral slope value pattern of standard voice k, and WA is the proportion of dissimilarity due to the spectral slope value among the dissimilarities. This is a weighting coefficient for WP is a weighting coefficient for setting the proportion of dissimilarity due to power pattern among dissimilarities. First, the dissimilarity calculation accumulator 507 is cleared to zero. Next, from the input speech spectrum pattern memory 501 through the switching circuit 517, the input speech element A (m, n) and the standard speech element S k of the standard speech k are sent from the standard speech spectrum pattern memory 600.
(m, n) is read, and A(m, n) - S k (m, n) is obtained by the subtraction circuit 502 through the switching circuit 518.
is calculated, the absolute value is taken by the absolute value circuit 503, and the multiplication circuit 504 passes through the switching circuit 519 and multiplies the weighting coefficient W(m,n). Weighting factor W
(m, n) is determined by the weight determining circuit 505. There are many methods for determining weights,
An example of this is the patent application No. 56-184416 "Voice recognition device"
The description thereof will be omitted since it is not the purpose of the present invention. Furthermore, the output of the multiplication circuit 504 is cumulatively added by an accumulator 507. m, n as m=
Repeat the above operations until 1 to M, n = 1, n.
The first term of D k will be calculated. Next, calculate the average power PP of the input voice. The input audio power pattern IP(n), n=1 to N, is read from the input audio power pattern memory 508, accumulated by the adder circuit 509 and register 510, and stored in the register 510 as Nn=1 IP(n) value. Set. This value is divided by N by the division circuit 511 to obtain the average power PP of the input voice. PP can be expressed by the following formula. PP=1/N Nn=1 IP(N) ...(7) Next, the average power AP k of the standard voice k is read from the standard voice average power memory 512, and the subtraction circuit 5
13, subtract AP k from PP and get the power correction value PP
−Calculate AP k . Next, the power pattern P k (n) of the standard voice k is read from the standard voice power pattern memory 514, and the power correction value (PP-
AP k ). The addition result is (P k (n) + (PP−
AP k )). On the other hand, from the input audio power pattern memory 508, the input audio power pattern IP
(n) (n=1, N) is read out through the switching circuit 518, and the switching circuit 519 reads out the addition circuit 5.
15 output is selected, and the subtraction circuit 502 calculates IP(n).
-(P k (n) + (PP - AP k )) is calculated, and the absolute value is taken by the absolute value circuit 503. Next, constant generation circuit 5
The constant WP is output from 06, and the switching circuit 520
The output of the absolute value circuit is multiplied by the multiplier circuit 504 and added to the accumulator 507.
When the addition to the accumulator is completed by changing the value up to ~N, it means that the second term of equation (6) has been calculated. Next, the input audio spectrum slope value pattern IA(n), (n=1~
N) in order, while the standard audio spectrum slope value pattern memory 517 is read out from the switching circuit 5.
19, the spectral slope values SA k (n) (n = 1 to N) of the standard spectral pattern k are sequentially read out, the subtraction circuit 502 calculates IA (n) - SA k (n), and the absolute value circuit 503 calculates the absolute Takes a value. Next, a constant WA is output from the constant generator circuit 506, multiplied by the output of the absolute value circuit by the multiplier circuit 504 through the switching circuit 520, and added to the accumulator 507. After changing n from 1 to N and completing the addition to the accumulator, the addition result is output to the determination unit 700 as a dissimilarity calculation result. The determination unit 700 determines the standard speech category with the smallest degree of dissimilarity as the recognition result. The value of the constant WP is the simulation result 1/2 ~
The optimum value for the constant WA is 2 to 8. However, if the recognized words are only words that do not include silent sections, it is also possible to set WP=0. Table 1 shows the results of a simulation conducted to compare the conventional dissimilarity calculation unit and the dissimilarity calculation unit according to the present invention. Learn a total of 12 words, including 10 numbers, hi, and yes, uttered by approximately 400 people.
A standard voice was created and the voices of another 100 people were recognized and evaluated. At this time, the standard number of voices was 192 patterns.

【表】 このように従来と比較して認識率が明らかに向
上した。 以上説明したように、第1の実施例では通常の
パターンマツチングに加え音声のパワーパターン
とスペクトル傾斜値パターンを比較している。 第6図は「イチ」と「ニ」の音声のパワーを比
較した図である。「チ」は無声破裂音であるため
に、「イ」と「チ」の間は無音になる。一方「ニ」
の方はパワーが連続しているので、例えば「イ
チ」と発声された入力音声のパターンと「ニ」の
標準音声のパターンを本発明による非類似度演算
部で比較すれば、従来よりも非類似度が大きくな
る。 又「ニ」を発声された入力音声のパターンを
「ニ」の標準音声のパターンと比較すれば、両方
とも単語内の無音区間は存在しないし、声の大き
さが異なつたとしても、音声の平均パワーで正規
化しているため、非類似度は大きくならない。 従つて、「ニ」の標準音声パターンと「イチ」
と発声された音声との非類似度はより大きくな
り、「ニ」と発生された音声との非類似度はほと
んど変化しないので、誤認識が少なくなる。これ
らの関係は「ゴ」と「ロク」、「ハイ」と「ハチ」
の間でも成立する。 又、第7図は「サン」と「ヨン」のスペクトル
傾斜値を比較した図である。「サン」の先頭数フ
レームは無声音であり、スペクトル傾斜値が正に
なつているが、ヨンの先頭数フレームは有声音で
あるためにスペクトル傾斜値が負になつている。
このため、例えば「サン」と発声された入力音声
のパターンと「ヨン」の標準音声パターンを本発
明による非類似度演算部で比較すれば従来よりも
非類似度が大きくなる。 従つて、「ヨン」の標準パターンと「サン」と
発声された音声の非類似度はより大きくなり、
「ヨン」と発声された音声の非類似度はほとんど
変化しないので、誤認識が少なくなる。これらの
関係は「ニ」と「キユウ」の間でも成立する。 以上2つの要因により認識率が向上するという
利点がある。 (発明の効果) 本発明は通常のパターンマツチングに加え、音
声のパワーパターンの比較と音声のスペクトル傾
斜パターンの比較を行ない、非類似度を計算して
いるので、「イチ」と「ニ」、「ゴ」と「ロク」、
「サン」と「ヨン」などの間の誤認識が少なく認
識率が向上するので、音声認識応答システムに利
用することができる。
[Table] As shown above, the recognition rate has clearly improved compared to the conventional method. As explained above, in the first embodiment, in addition to normal pattern matching, the power pattern of the voice and the spectrum slope value pattern are compared. FIG. 6 is a diagram comparing the power of the sounds of "ichi" and "ni". Since "chi" is a voiceless plosive, there is no sound between "i" and "chi." On the other hand, “ni”
Since the power is continuous, for example, if the pattern of the input voice uttered ``ichi'' and the standard voice pattern uttered ``ni'' are compared using the dissimilarity calculation unit of the present invention, the dissimilarity calculation unit of the present invention will find that the input voice pattern uttered is more dissimilar than the conventional one. The degree of similarity increases. Furthermore, if we compare the input speech pattern of "ni" uttered with the standard speech pattern of "ni", we find that there is no silent section within the word in both cases, and even if the voice volume is different, the Since it is normalized using the average power, the degree of dissimilarity does not increase. Therefore, the standard speech pattern for "ni" and "ichi"
The degree of dissimilarity between the voice uttered as ``'' becomes larger, and the degree of dissimilarity between the voice uttered ``ni'' and the voice uttered hardly changes, so that the number of misrecognitions is reduced. These relationships are "go" and "roku", "hai" and "hachi"
It also holds true between. Moreover, FIG. 7 is a diagram comparing the spectral slope values of "San" and "Yon". The first few frames of "san" are unvoiced sounds and have positive spectral slope values, but the first few frames of "yon" are voiced sounds and have negative spectral slope values.
For this reason, if the input speech pattern uttered, for example, "san" and the standard speech pattern uttered "yon" are compared by the dissimilarity calculating section according to the present invention, the dissimilarity will be greater than that of the conventional method. Therefore, the degree of dissimilarity between the standard pattern of "yon" and the voice pronounced "san" becomes larger,
Since the degree of dissimilarity of the voice uttered as "Yon" hardly changes, misrecognition is reduced. These relationships also hold true between ``ni'' and ``kiyu.'' There is an advantage that the recognition rate is improved due to the above two factors. (Effects of the Invention) In addition to normal pattern matching, the present invention calculates dissimilarity by comparing voice power patterns and voice spectral slope patterns. , "Go" and "Roku",
It can be used in voice recognition response systems because there are fewer misrecognitions between ``san'' and ``yong,'' and the recognition rate is improved.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は従来の音声認識装置のブロツク図、第
2図は音声パターンの例、第3図は音声パターン
の例、第4図は本発明を実施するための音声認識
装置の一例を示した図、第5図は入力データx
(m,n)と入力スペクトルパターンデータA
(m,n)との関係を示した図、第6図はパワー
パターンの例、第7図はスペクトル傾斜値パター
ンの例である。 100……入力端子、200……周波数分析
部、300……スペクトル変換部、400……音
声区間決定部、500……非類似度演算部、50
1……入力音声スペクトルパターンメモリ、50
2……減算回路、503……絶対値回路、504
……乗算回路、505……重み決定回路、506
……定数発生回路、507……アキユムレータ、
508……入力音声パワーパターンメモリ、50
9……加算回路、510……レジスタ、511…
…除算回路、512……標準音声平均パワーメモ
リ、513……減算回路、514……標準音声パ
ワーパターンメモリ、515……加算回路、51
6……入力音声スペクトル傾斜値パターンメモ
リ、517……標準音声スペクトル傾斜値パター
ンメモリ、518,519,520……切り換え
回路、600……標準音声スペクトルパターンメ
モリ、700……判定部。
FIG. 1 is a block diagram of a conventional speech recognition device, FIG. 2 is an example of a speech pattern, FIG. 3 is an example of a speech pattern, and FIG. 4 is an example of a speech recognition device for implementing the present invention. Figure 5 shows the input data x
(m, n) and input spectrum pattern data A
(m, n), FIG. 6 is an example of a power pattern, and FIG. 7 is an example of a spectral slope value pattern. 100...Input terminal, 200...Frequency analysis section, 300...Spectrum conversion section, 400...Speech interval determination section, 500...Dissimilarity calculation section, 50
1...Input audio spectrum pattern memory, 50
2... Subtraction circuit, 503... Absolute value circuit, 504
... Multiplication circuit, 505 ... Weight determination circuit, 506
... Constant generation circuit, 507 ... Accumulator,
508...Input audio power pattern memory, 50
9...Addition circuit, 510...Register, 511...
...Division circuit, 512...Standard voice average power memory, 513...Subtraction circuit, 514...Standard voice power pattern memory, 515...Addition circuit, 51
6... Input speech spectrum slope value pattern memory, 517... Standard speech spectrum gradient value pattern memory, 518, 519, 520... Switching circuit, 600... Standard speech spectrum pattern memory, 700... Judgment unit.

Claims (1)

【特許請求の範囲】 1 入力音声のスペクトル傾斜値パターンを作成
する過程と、 入力音声のパワーパターンを作成する過程と、 入力音声の、スペクトル傾斜で正規化されたス
ペクトルパターンを作成する過程と、 標準音声の予め用意されたスペクトルパターン
と入力音声の前記スペクトルパターンとのパター
ンマツチングを行い、第1の非類似度を算出する
過程と、Nn=1 |IP(n)−Pk(n)−PP+APk| なる計算によつて(但し、Nは音声区間のパワー
データの総数、IP(n)は入力音声のn番目のパ
ワーデータ、Pk(n)は標準音声のn番目のパワ
ーデータ、PPは入力音声の平均パワーデータ、
APkは標準音声の平均パワーデータ)、標準音声
の予め用意されたパワーパターンと入力音声の前
記パワーパターンとのパターンマツチングを行
い、第2の非類似度を算出する過程と、 前記標準音声の予め用意されたスペクトル傾斜
値パターンと入力音声の前記スペクトル傾斜値パ
ターンとのパターンマツチングを行い、第3の非
類似度を算出する過程と、 3種類の前記非類似度のそれぞれに予め定めら
れたそれぞれの重みをつけて加算する過程とを備
え、 その加算値を入力音声と前記標準音声との非類
似度として入力音声を認識することを特徴とした
音声認識方法。
[Claims] 1. A process of creating a spectral slope value pattern of input audio, a process of creating a power pattern of input audio, and a process of creating a spectral pattern normalized by the spectral slope of input audio, A process of performing pattern matching between a pre-prepared spectral pattern of standard speech and the spectral pattern of input speech to calculate a first dissimilarity, Nn=1 | IP (n) − P k ( n) - PP + AP k | (where N is the total number of power data in the voice section, IP (n) is the n-th power data of the input voice, P k (n) is the n-th power data of the standard voice Power data, PP is the average power data of the input audio,
AP k is the average power data of the standard voice), a process of performing pattern matching between a pre-prepared power pattern of the standard voice and the power pattern of the input voice to calculate a second degree of dissimilarity; performing pattern matching between a pre-prepared spectral slope value pattern and the spectral slope value pattern of input speech to calculate a third degree of dissimilarity; A speech recognition method comprising the step of adding weights to each of the input speech, and recognizing the input speech as a degree of dissimilarity between the input speech and the standard speech using the added value.
JP9696083A 1983-06-02 1983-06-02 Voice recognition Granted JPS59222900A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9696083A JPS59222900A (en) 1983-06-02 1983-06-02 Voice recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9696083A JPS59222900A (en) 1983-06-02 1983-06-02 Voice recognition

Publications (2)

Publication Number Publication Date
JPS59222900A JPS59222900A (en) 1984-12-14
JPH0311478B2 true JPH0311478B2 (en) 1991-02-18

Family

ID=14178818

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9696083A Granted JPS59222900A (en) 1983-06-02 1983-06-02 Voice recognition

Country Status (1)

Country Link
JP (1) JPS59222900A (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2523286B2 (en) * 1986-08-01 1996-08-07 日本電信電話株式会社 Speech encoding and decoding method
JPH03105229A (en) * 1989-09-19 1991-05-02 Hitachi Cable Ltd Abnormality detector for structural body

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56159696A (en) * 1980-05-14 1981-12-09 Oki Electric Ind Co Ltd Voice recognizing device
JPS5852696A (en) * 1981-09-25 1983-03-28 大日本印刷株式会社 Voice recognition unit

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56159696A (en) * 1980-05-14 1981-12-09 Oki Electric Ind Co Ltd Voice recognizing device
JPS5852696A (en) * 1981-09-25 1983-03-28 大日本印刷株式会社 Voice recognition unit

Also Published As

Publication number Publication date
JPS59222900A (en) 1984-12-14

Similar Documents

Publication Publication Date Title
US4956865A (en) Speech recognition
US5097509A (en) Rejection method for speech recognition
Bezoui et al. Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC)
JPH0612089A (en) Speech recognizing method
US4991216A (en) Method for speech recognition
EP0192898B1 (en) Speech recognition
JPH0311478B2 (en)
Golipour et al. A new approach for phoneme segmentation of speech signals.
JPS63502304A (en) Frame comparison method for language recognition in high noise environments
GB2216320A (en) Selective addition of noise to templates employed in automatic speech recognition systems
JPH04296799A (en) Voice recognition device
JP2001083978A (en) Speech recognition device
JPH0311479B2 (en)
CA2013263C (en) Rejection method for speech recognition
Yip et al. Optimal root cepstral analysis for speech recognition
JPH0311480B2 (en)
JPH0323920B2 (en)
JP2658426B2 (en) Voice recognition method
Nara et al. Large-vocabulary spoken word recognition using simplified time-warping patterns
JP2022529437A (en) Dialog detector
JP3008404B2 (en) Voice recognition device
JPH026078B2 (en)
JPH0413719B2 (en)
Tyagi et al. Comparative study of different features on OLLO logatome recognition task
JPS607492A (en) Monosyllable voice recognition system