JPS60254100A - Voice recognition system - Google Patents
Voice recognition systemInfo
- Publication number
- JPS60254100A JPS60254100A JP59108668A JP10866884A JPS60254100A JP S60254100 A JPS60254100 A JP S60254100A JP 59108668 A JP59108668 A JP 59108668A JP 10866884 A JP10866884 A JP 10866884A JP S60254100 A JPS60254100 A JP S60254100A
- Authority
- JP
- Japan
- Prior art keywords
- section
- voice
- speech
- block
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.
Description
【発明の詳細な説明】
(技術分野)
本発明は、音声認識方式に関し、特に精度良く音声区間
の検出を行う音声区間検出に関するものである。DETAILED DESCRIPTION OF THE INVENTION (Technical Field) The present invention relates to a speech recognition system, and particularly to speech segment detection for detecting speech segments with high accuracy.
(背景技術)
従来の音声認識装置のブロック図を第1図に示す。第1
図において、■は信号入力端子、2は周波数分析部、3
は音声取込制御部、4は取込開始信号、5は音声区間検
出部、6は取込終了信号、7は始端・終端情報、8は認
識部、9は出力端子の如く構成されてお9、以下各部の
説明をする。(Background Art) A block diagram of a conventional speech recognition device is shown in FIG. 1st
In the figure, ■ is a signal input terminal, 2 is a frequency analysis section, and 3 is a signal input terminal.
4 is a voice capture control section, 4 is a capture start signal, 5 is a voice section detection section, 6 is a capture end signal, 7 is start/end information, 8 is a recognition section, and 9 is an output terminal. 9. Each part will be explained below.
周波数分析部2は、第2図に示す如く構成されておシ、
人力音声信号11は前置増幅器12により適邑なレベル
に増幅され、約201JHz7>・ら6000Hzまで
を対数尺度で等間隔に分割されたN個のバンド・ぐスフ
ィルタ群i3、全波整流器群14、およびローパスフィ
ルタ群15により分析され、さらに、あらかじめ定めら
れた時間周期(以後サンプル周期と記す)毎にマルチプ
レクサ16を順次切り換えなからAD変換器17によっ
て量子化され、サンプル周期毎にN個の分析結果18を
出力する。The frequency analysis section 2 is configured as shown in FIG.
The human voice signal 11 is amplified to an appropriate level by a preamplifier 12, and is then amplified by a group of N band filters i3 and a group of full-wave rectifiers, which are equally spaced on a logarithmic scale from approximately 201 JHz7 to 6000 Hz. 14, and a group of low-pass filters 15, and furthermore, the multiplexer 16 is sequentially switched at every predetermined time period (hereinafter referred to as a sample period), and then quantized by the AD converter 17. The analysis result 18 is output.
音声取込制御部3(は、取込開始信号4を受信したのち
、周波数分析部2の分析結果18を音声区間検出部5お
よび認識部8へ一定時間、寸たけ確かに音声の入力が終
了したと判断する寸で出力する。音声の入力終了の判断
法としては、たとえば、各サンプル周期毎のN個のデ゛
−夕の平均値(以後7、 V−ムyeワー、!: 記−
r ) ヲ利用して、フレーl、パワーがあらかじめ設
定された閾値を越えるものが、ある一定数存在したのち
、閾値を越えないものが連続一定数続いたとき音声の入
力が終了したと判断する方法がある。After receiving the capture start signal 4, the voice capture control unit 3 sends the analysis result 18 of the frequency analysis unit 2 to the voice section detection unit 5 and the recognition unit 8 for a certain period of time, and then the voice input is completed exactly. To determine when the audio input has ended, for example, the average value of N data for each sample period (hereinafter 7, V-mye-wah,!: Record-
r) After a certain number of sounds whose power exceeds a preset threshold, it is determined that voice input has ended when a certain number of sounds that do not exceed the threshold continue. There is a way.
音声区間検出部5におけるブロック図を第3図に示す。A block diagram of the voice section detection section 5 is shown in FIG.
第3図において、18は分析結果、21はパラメータ演
算部、6は取込終了信号、22はブロック化部、23は
音声区間判定部、7は始端終端情報の如く構成され、以
下詳細に説明する。In FIG. 3, 18 is an analysis result, 21 is a parameter calculation unit, 6 is a capture end signal, 22 is a blocking unit, 23 is a voice section determination unit, and 7 is configured as start and end information, which will be explained in detail below. do.
パラメータ演算部21は、分析結果18から音声区間検
出に使用する(])式て定義されるパラメータをめる部
分である。The parameter calculation unit 21 is a part that calculates parameters defined by the expression (]) used for voice section detection from the analysis result 18.
P−a、・X(1)
、IJ、ま
ただしa ;第3番目の分析結果のス被りトル傾斜マ
;第3番目の分析結果の平均値
また、スにクトル傾劇a、すなわち最少2乗近似直線の
傾きは、第3番目のN個の分析結果をX Hjとすると
(iiN分割されたバンドパスフィルタ群の周波数の低
いものから順にイ」けられた番号)、a は(2)式に
よってめられる。P-a, ·
; Average value of the third analysis results Also, the gradient a, that is, the slope of the least squares approximation straight line, is the average value of the third N analysis results. (numbers assigned in descending order of frequency of the filter group), a is determined by equation (2).
置き換えることができ、(2)式は(3)式に変形され
る。can be replaced, and equation (2) is transformed into equation (3).
めることかできる。I can do it.
また、んはΣX 1JをNで除すことによって得!=1
られる。第4図は、Pl、を演算するブロック図であり
、以下図に従って説明する。Also, n is obtained by dividing ΣX 1J by N! =1 can be done. FIG. 4 is a block diagram for calculating Pl, and will be explained below according to the diagram.
第3番目のN個の分析結果x r 、+ (’−1,2
r・・・N)が順番に出力されるものとすると、加算
器101結果を乗算器103と除算器106に出力され
る。Third N analysis results x r , + ('-1,2
r...N) are output in order, the result of the adder 101 is output to the multiplier 103 and the divider 106.
ない、さも(で補数器104によって−cl・ΣX の
i=+ 1J
値をめ、加算器1.05の一方に入力される。また、X
1Jのデータ出力と同期して働くカウンタ107OIj
j力と、Xljと)NR’ −x l Jを乗算器10
8によってめ、乗算器108の出力に接続されている加
算器109と、さらにそれに接続されている″″110
G・て1蛋1′°゛・Jをめ7′員Cへ)
ができる。レジスター10の出力、δ+ −x r j
jo算器111の一方の入力に接続さ涯ており、乗算器
111の他方の入力にはNがセットされていて、乗算器
111ではN ′、蛋、i °x H・が演算され・加
算器105のもう一方に入力される。加算器105でサ
ンプルデータのス被りトル傾&4. をめら五1.1
その結果は乗算器113の一方の入力となる。また除算
器1067は・、蛋1x・JをN1除す員によってXJ
がめられ、その結果は乗算器113の他方の入力となり
、乗算器113によってP、(−a−x、)をめること
ができる。以上の演算をサンプル周期毎に行在って、各
サンプル時のPの値を全て演算することができる。Yes, the complementer 104 calculates the i=+1J value of -cl·ΣX and inputs it to one side of the adder 1.05.
Counter 107OIj that works in synchronization with the data output of 1J
j force, Xlj and) NR' −x l J multiplier 10
8, an adder 109 connected to the output of the multiplier 108, and an adder 110 connected thereto.
G, te1, 1'°゛, J to 7', member C) can be done. Output of register 10, δ+ −x r j
The multiplier 111 is connected to one input of the multiplier 111, and the other input of the multiplier 111 is set to N, and the multiplier 111 calculates and adds The signal is input to the other side of the device 105. The adder 105 calculates the spread torque slope of the sample data &4. 1.1 The result becomes one input of the multiplier 113. Also, the divider 1067 is
The result becomes the other input of the multiplier 113, and the multiplier 113 can multiply P, (-a-x,). By performing the above calculations for each sampling period, all values of P at each sampling time can be calculated.
ブロック化部22は、パラメータ演算部21の結果PJ
を取込終了信号6を検出するまで受け取り、取込終了信
号6を検出後、音声のプロ、り化(音声であると思われ
る部分のかたまりの検出)を行なう部分て、第5図にブ
ロック図を示し、第5図に従って説明する。The blocking unit 22 uses the result PJ of the parameter calculation unit 21.
The block diagram in FIG. 5 shows the part where the audio is processed until the capture end signal 6 is detected, and after the capture end signal 6 is detected, the audio is professionally converted (detection of chunks of parts that seem to be audio). A diagram is shown and the explanation will be given according to FIG.
、e−yメータ演算部21の各サンプル周期毎(D P
j
―:1、順次p−クラメータメモ+J 200に格納さ
れているので、それを順番に読取し絶対値回路201に
よって絶対値化され、IP、lを比較器202の一方に
入力する。比較器202の他方の入力には、IP−の閾
値PTHがセットされている。比較器202では、IP
71≧PTHのときにはα出力に、IPj I 〈PT
Hのときにはβ出力にそれぞれ有意信号を出力する。, for each sampling period of the e-y meter calculation unit 21 (D P
j -: 1, which are sequentially stored in the p-crameter memo +J 200, are read in order, converted into absolute values by the absolute value circuit 201, and input IP, l to one side of the comparator 202. The other input of the comparator 202 is set to an IP- threshold PTH. In the comparator 202, the IP
When 71≧PTH, α output, IPj I <PT
When the signal is H, a significant signal is output to each β output.
カウンタ203は、IPjl≧PTHのときカウントア
ツプし、IPjl〈P、Hのときクリアされるようにな
っており、IP−≧PTI(となる連続量をカウントす
る。また、カウンタ203の出力は、常にレジスタ20
4にセットされている。レジスタ204にセットされて
いる値(IP、l≧PTHである連続数)は、比較器2
05に入力され、比較器205の他方の入力にはKがセ
ットされており、IP−≧PTl(である連続量(以下
ブロック長吉記す)かに以上のとき、比較器205の出
力Cに有意信号が出力される。The counter 203 counts up when IPjl≧PTH, and is cleared when IPjl<P, H, and counts the continuous amount that satisfies IP−≧PTI. Also, the output of the counter 203 is as follows: always register 20
It is set to 4. The value set in the register 204 (IP, consecutive number where l≧PTH) is set in the comparator 2
05, and K is set in the other input of the comparator 205, and when IP-≧PTl (a continuous quantity (hereinafter referred to as block Chokichi)) or more, the output C of the comparator 205 is significant. A signal is output.
ブロック長がK(K≧2の自然数)以上(C信号出力時
)で、かつ、比較器202のβ出力(1pJl <PT
H)が表われたタイミング1AND回路206によって
捕える。カウンタ207は、AND回路206の出力か
ら出力寸でのPを読み出した、1
量を数えるもので、減H器208によってカウンタ7の
出力からレジスタ204の結果(ブロック長)を差し引
くことにより、ブロック間の距離(時間)をめることが
できる。寸たカウンタ209は、Pの読出しと同期して
カウントしておす、減算器21.0によってカウンタ2
09の結果からレジスタ204の出力(ブロック長)を
引くことによって、当該ブロックの先頭をめられる。The block length is K (a natural number of K≧2) or more (when outputting C signal), and the β output of the comparator 202 (1 pJl < PT
The timing at which H) appears is captured by the AND circuit 206. The counter 207 counts the amount of P read out at the output size from the output of the AND circuit 206. By subtracting the result (block length) of the register 204 from the output of the counter 7 by the H reducer 208, the block length is calculated. You can measure the distance (time) between The subtractor 21.0 counts the counter 209 in synchronization with the reading of P.
By subtracting the output (block length) of the register 204 from the result of step 09, the beginning of the block can be determined.
加算器211とレジスタ212によりIPjl≧PTl
□の部分の累積をめ、プロ、りの大きさを表わすSll
なるものをめ、AND回路206の信号を検出したとき
、レジスタ213にセットすると同時に、レジスタ21
3の出力(以下ブロック量と記す)、減算器210の出
力(ブロック先頭情報)、レジスタ204の出力(ブロ
ック長)、および減算器208のiJJ力(ブロック間
距離)をプロ、ツクテーブル214に登録する。このよ
うにして取込んだ邦全てについてブロック化が行なうこ
とができる。IPjl≧PTl by adder 211 and register 212
The accumulation of the □ part indicates the size of the pro.
When the signal of the AND circuit 206 is detected, it is set in the register 213 and at the same time, the signal of the AND circuit 206 is set.
3 (hereinafter referred to as block amount), the output of the subtracter 210 (block head information), the output of the register 204 (block length), and the iJJ force (interblock distance) of the subtractor 208 are stored in the professional table 214. register. In this way, all the imported Japanese can be divided into blocks.
音声区間判定部23ば、ブロック化部22で得られたブ
ロックテーブル214から、次のようにして音声区間の
判定を行なっていた。すなわち、ブロック量の最大値と
彦るブロックを検出し、それを音声区間の中心として前
後のブロックについて、ブロック間距離が一定値以下で
あれば当該ブロックも童声区間に含めるという方法で、
音声区間の判定を行なっていた。The speech section determination section 23 determines the speech section from the block table 214 obtained by the blocking section 22 in the following manner. In other words, the block with the maximum block amount is detected, and with respect to the blocks before and after the block as the center of the voice section, if the distance between the blocks is less than a certain value, the block is also included in the children's voice section.
The voice section was being determined.
認識部8は、音声取込制御部3に取込開始信号を送ると
ともに、音声取込制御部3からの分析結果を格納してお
き、さらに音声区間検出部5からの始端終端情報7を受
けると、あらかじめ用意されている内容既知の標準パタ
ーンとの類似度演算を行ない、最も類似度の高い標準・
ぐターンと同一内容の音声が入力されたと判断し、その
結果を出力する。The recognition unit 8 sends a capture start signal to the voice capture control unit 3, stores the analysis results from the voice capture control unit 3, and further receives start and end information 7 from the voice section detection unit 5. The similarity calculation is performed between the standard pattern prepared in advance and the contents of which are known, and the standard pattern with the highest degree of similarity is selected.
It determines that the audio with the same content as the turn is input, and outputs the result.
しかしながら、上記従来の技術における音声区間検出で
は、
(1)入力音声の強弱によりスペクトル傾斜ajが変化
するため、不安定な・ぐラメータすなわち、Pjが不安
定々・やラメークである。However, in the voice section detection in the conventional technique described above, (1) the spectral slope aj changes depending on the strength of the input voice, so that the parameter Pj is unstable.
(2) スペクトル傾斜ajは、音韻、話者による変化
とともにマイクの特性等によって往往にして、音声部に
おいても0に近い値を取り、結果としてPもOに近い値
となり、プロ、り化を誤捷る。(2) The spectral slope aj changes depending on the phoneme and the speaker, as well as the characteristics of the microphone, and takes a value close to 0 even in the voice part, and as a result, P also takes a value close to O, which makes it difficult for professionals and listeners to make a mistake.
(3) ノイズが大きい場合、ノイズとの区別(特に子
音)がつけにくい。(3) When the noise is large, it is difficult to distinguish it from the noise (especially consonants).
という欠点があった。There was a drawback.
(発明の課題)
この発明の目的は誤認識をなくして認識率の向上をはか
ることの出来る音声認識方式を提供することにあり、そ
の特徴は、音声区間検出時に、音声・やターンからノイ
ズノやターンを差し引くことによシ、音声区間検出をよ
り精度よく行ない、認識率を上げる手段を提供するもの
で、以下詳細に説明する。(Problem to be solved by the invention) The purpose of the present invention is to provide a speech recognition method that can improve the recognition rate by eliminating recognition errors. By subtracting turns, this method provides a means for detecting voice sections with higher accuracy and increasing the recognition rate, and will be described in detail below.
(発明の構成および作用)
第6図(は、本発明のブロック図であり、100は入力
端子、200は周波数分析部、300は対数変換部、4
00はス硬りトル変換部、500は音声区間決定部であ
り、対数変換部データ部501、ノイズパターン検出部
502、減算回路503、乗算回路504、加算回路5
05、除算回路506、P)ぐラメータメモリ507、
比較器1 508、FLAG 509、スムージング1
510、スムージング2 511、ブロック化5]2、
比較器2513、ブロック決定514、音声区間決定5
15、MAXBLKテーブル516から成る、600は
再サンプル部、700は距離演算部、800は標準パタ
ーンメモリ、900は判定部、1000は認識結果出力
端子である。(Structure and operation of the invention) FIG. 6 is a block diagram of the present invention, 100 is an input terminal, 200 is a frequency analysis section, 300 is a logarithmic conversion section, 4
00 is a tone conversion section, 500 is a speech interval determination section, a logarithmic conversion section data section 501, a noise pattern detection section 502, a subtraction circuit 503, a multiplication circuit 504, an addition circuit 5
05, division circuit 506, P) parameter memory 507,
Comparator 1 508, FLAG 509, smoothing 1
510, Smoothing 2 511, Blocking 5] 2,
Comparator 2513, block determination 514, voice section determination 5
15, MAXBLK table 516, 600 is a resampling section, 700 is a distance calculation section, 800 is a standard pattern memory, 900 is a determination section, and 1000 is a recognition result output terminal.
このよう々構成において、入力端子100から入力され
る入力音声信号は、周波数分析部200に入力され、複
数の周波数帯域に対応した君子化信号U(i、j)とし
て周波数分析され、対数変換部300に送られる。In such a configuration, an input audio signal inputted from the input terminal 100 is inputted to the frequency analysis section 200, frequency-analyzed as a regularized signal U(i, j) corresponding to a plurality of frequency bands, and then processed by the logarithmic conversion section. Sent to 300.
対数変換部300に送られたデータは、スにクトル情報
と、・やワー情報等となり、スぜクトル変換部400へ
はスにクトル情報、音声区間決定部500へはスイクト
ル情報及び・ぐワー情報が送られる。The data sent to the logarithmic conversion section 300 becomes spectral information, . . . , word information, etc.; Information will be sent.
対数変換部300では第(4)式の割算が行なわれる。The logarithmic conversion unit 300 performs division according to equation (4).
周波数分析データをuに、Dとする。Let u and D be the frequency analysis data.
U(i、D ””1〜19 j=1〜■O≦u(1,D
≦2047
対数変換データを■(i、Dとする。U(i, D ””1~19 j=1~■O≦u(1,D
≦2047 Let the logarithmic conversion data be ■(i, D.
V(i、j) i「9J=1〜■
とこでiは周波数(] ch〜19ch)を示し、Jは
時間(1フレーム〜(1)フレーム)を示す。寸だ前処
理部からの入力データをu(1,Dとする。U(1,;
) +−1〜19 j=1〜ω O≦U(11j)≦2
047 対数変換ビット数をNBとする。ここではNH
−4である。V(i, j) i'9J=1~■ Here, i indicates the frequency (]ch to 19ch), and J indicates the time (1 frame to (1) frame). Input from the preprocessing section Let the data be u(1,D.U(1,;
) +-1~19 j=1~ω O≦U(11j)≦2
047 Let NB be the number of logarithmic conversion bits. Here N.H.
-4.
U(i、j)>0
ここて入カバターンの・ぐワーPOW(J)及び入力・
ぐターンの10フレーム・やワーの計算式を第(5)式
。U (i, j) > 0 Here, input cover turn POW (J) and input
Equation (5) is the calculation formula for the 10th frame of the turn.
第(6)式で定義する。It is defined by equation (6).
k −= ’(J−1)/] O+1 但し、j=(k−])才10+1とする。k −=’(J-1)/] O+1 However, it is assumed that j=(k-]) 10+1.
ノイズレベルは第(7)式で定義する。The noise level is defined by equation (7).
ノイズレベル測定区間をに=に、〜に2とした時、但し
、k2=に、+2とする
ここで切り出しスライスレベルL1を
L 1 = NLEVEL+LO
として、はじめてPOWlo(k3)がLlよりも大き
くPOW 10 (k3 + 1 )がLlよりも大き
い点に3から40フレーム逆のぼったフレームJlヲ
j+=(k31)才10+1−40
として、仮の音声始りh1フレーム5TFR1をSTF
Rl−Mi′A(J、1)
とする。When the noise level measurement interval is set to 2 and to 2, however, k2 is set to +2.Then, when the cutout slice level L1 is L1 = NLEVEL+LO, POWlo(k3) is larger than Ll for the first time.POW10 Assuming that the frame Jlwoj+=(k31) is 10+1-40, which is 3 to 40 frames backward at the point where (k3 + 1) is larger than Ll, the tentative voice start h1 frame 5TFR1 is converted into STF.
Let it be Rl-Mi'A(J, 1).
終端検出は1(4かに2+1よりも大きく、かつPOW
]、0 < k4 )がLlよりも小さいか等しくな
った時に、仮の音声終端フレームEDFR1をEDFR
1= (k4−1 ) * ] O−]+9とする。Termination detection is 1 (4 or greater than 2+1 and POW
], 0 < k4 ) is smaller than or equal to Ll, the temporary audio end frame EDFR1 is set to EDFR
1=(k4-1)*]O-]+9.
さて、対数変換部300より計算された対数変換デ゛−
タV(i 、 j )は−1対数変換済デ一タ部501
へ送られた後、ノイズノやターンNPAT(i )をめ
るためノイズパターン検出部502にて、ノイズパター
7 NPAT(i )を割算する。但し、ノイズレベル
測定区間をに=に、−に2とした時、J2及びJ3の値
を第(8)式において計算する。Now, the logarithmic transformation data calculated by the logarithmic transformation unit 300 is
The data V(i, j) is -1 logarithmically transformed data section 501
After being sent to the noise pattern 7 NPAT(i), the noise pattern detection unit 502 divides the noise pattern 7 NPAT(i) in order to calculate the noise pattern 7 NPAT(i). However, when the noise level measurement interval is set to 2 and -2, the values of J2 and J3 are calculated using equation (8).
ノイズパターンNPAT(i )をめる式を第(9)式
に示す。The formula for calculating the noise pattern NPAT(i) is shown in formula (9).
j=sTFR1〜EDFR1
次に、減算回路503、乗算回路504、力ll算回路
505、除算回路506、において、対数変換法データ
部501に格納されている■(i、、i)及びノイズ、
ノやターン検出部502において、第(9)式より1つ
たNPAT(i)を用い、ノイズ・ぐターンを差し引い
た・ぐワ一の割算を第00)式により行なう。j=sTFR1 to EDFR1 Next, in the subtraction circuit 503, the multiplication circuit 504, the force ll calculation circuit 505, and the division circuit 506,
In the turn detection section 502, NPAT(i), which is one from equation (9), is used to subtract the noise and turn, and then divide the noise and turn by equation 00).
P(、i)=上r ((:V(i、、j)−NPAT(
i)/4)2→−9(10)]9□テ・。P(,i)=upper r ((:V(i,,j)−NPAT(
i)/4)2→-9(10)]9□Te・.
2−J”−、(i[J)式より寸ったP(、i)はPパ
ラメータメモリ507へ格納され、比較器]508によ
り次の第(11)式の比較を行なう。2-J"-, (i[J) P(,i) obtained from the equation is stored in the P parameter memory 507, and the comparator] 508 performs a comparison according to the following equation (11).
第1、印式において、スライスレベルL2がP(j)よ
りも大きい場合は、Fr、Ac(j)−oとする。また
L2がP(j)よりも等しいか小さい場合はFbAG(
J)= 1とする。第(11)式において決定されたF
LAG(J)の値は、FLAG 509へ格納され、F
LAG(J)の値−に応じて、スムージング1510あ
るいけスムージング2511へ送うれる。スムージング
15」OではFLAG(jl二〇の場合の操作を行ない
FLAG(、i−]) = 0であり、FLAG(J+
1 )−〇である時ば、FLAG(、r)=oとする。In the first type, when the slice level L2 is larger than P(j), Fr, Ac(j)-o is set. Also, if L2 is equal to or smaller than P(j), FbAG(
J) = 1. F determined in equation (11)
The value of LAG(J) is stored in FLAG 509 and
Depending on the value of LAG(J), it is sent to smoothing 1510 or smoothing 2511. In smoothing 15''O, perform the operation in the case of FLAG(jl20, FLAG(,i-]) = 0, and FLAG(J+
1) - 0, set FLAG(,r)=o.
寸だ、スムージング25」1ではFLAG (:r )
=1の砺合の操作を行ないFLAG(j−] )=1で
あり、FLAG(j+] ) −1である時は、FLA
G(j ) −1とする。Smoothing 25" 1 is FLAG (:r)
= 1, and when FLAG (j-] ) = 1 and FLAG (j+] ) -1, FLA
Let G(j) be −1.
次にブロック化512においてFLAG(J) = 1
が4フレーム以」一連続し、その区間の、pow 1
(z) −よΣ:P(j)がp□w 1 (/−)≧L
3、すなわちPOW 1. (/i)がスライスレベル
L3よりも太きいか等しい場合のものをブロック表する
。Next, in blocking 512, FLAG(J) = 1
is continuous for 4 frames or more, and pow 1 of that section
(z) −yoΣ:P(j) is p□w 1 (/−)≧L
3, i.e. POW 1. A block is represented when (/i) is thicker than or equal to slice level L3.
ブO,り数をBLKSとし、ブロックlの先頭フレーム
f:5(t)、ブロックlの最終フレームラE(,4)
どする。ブロックlのノイズ・Pターンを差り引いた・
ぐワーP (j)の加算値は第(12)式によりめられ
る。The first frame f of block l is 5(t), and the last frame of block l is E(,4).
What should I do? Subtracted the noise and P turn of block l.
The added value of the power P (j) is determined by equation (12).
ブロックlのフレーム数は第(13)式によりめられる
。The number of frames in block l is determined by equation (13).
FR](t)二E(71−5(t)+ 1 ・ ・ (
13)寸だ、前プロ、り(1−1)との間隔は第(14
)式によりめられる。FR](t)2E(71-5(t)+1 ・ ・ (
13) Sunda, former pro, the distance with Ri (1-1) is the (14th)
) is determined by the formula.
=2(t)=s(t)−E(1−1,) ・・(14)
ここでtlを音声先頭プロ、り、12を音声最終ブロッ
クとして比較器2 513において、音声先頭プロ、り
tlについては、第(I5)式の条件を満たしている限
りt、 =t1−1とする。=2(t)=s(t)-E(1-1,)...(14)
Here, tl is the audio beginning block, and 12 is the audio final block. In the comparator 2 513, as long as the audio beginning process, tl, satisfies the condition of equation (I5), t = t1-1. do.
FR2(4)≦iV[IN(POWI(4])/SC1
+SC2,5C3) −(15)捷だ音声最終プロ、り
12については、第(1G)式の条件を満たしている限
りJ−2−t2+1とする。FR2(4)≦iV[IN(POWI(4))/SC1
+SC2, 5C3) - (15) For the final audio pro, ri12, set as J-2-t2+1 as long as the condition of equation (1G) is satisfied.
FR(22+1.)≦MIN(POWI(tz+1)/
SC]+SC2,5C3)−f16)ここでSCI〜S
C3は定数でありSCに16 、 SC2二8゜5C3
−30である。FR(22+1.)≦MIN(POWI(tz+1)/
SC]+SC2,5C3)-f16) Here SCI~S
C3 is a constant and SC is 16, SC228゜5C3
-30.
以上の式より、最大ブロックを中心に前後のブロックを
音声区間のブO7りとして取シ込むがどうかの判定を行
ない、音声区間として採用する。Based on the above formula, it is determined whether or not the blocks before and after the largest block are to be included as part of the voice section, and are adopted as the voice section.
このようにして決定された音声区1141プロ、り候補
である音声光[相]ブロックL1及び音声最終ブロック
・t2の値はブロック決定514に送られる。The values of the audio optical [phase] block L1 and the audio final block t2, which are candidates for the audio area 1141, determined in this manner, are sent to the block determination 514.
次に音声区間決定4]7に用いる認識語の最大ブロック
数のテーブルMAXB LKテーブル1118を説明す
る。Next, the table MAXB LK table 1118 for the maximum number of blocks of recognition words used for speech section determination 4]7 will be explained.
最大ブロック数MAXBLKO例を第8図に示す。An example of the maximum number of blocks MAXBLKO is shown in FIG.
左側が力テコ’IJ(16語)を示し、右側tqt:、
予め発声データからめた各力テコ゛りの最大ブロック数
を示す。これらの認識語セットの中で最大のMAXBL
Kをジぶ。例えば認識語の中に「モーイチドJを含むな
ら1VIAXB LK二3とする。The left side shows power lever 'IJ (16 words), the right side tqt:,
It shows the maximum number of blocks for each force lever determined in advance from the vocalization data. MAXBL is the largest among these recognition word sets.
Give K. For example, if the recognized word contains "Moichido J", it will be 1VIAXB LK23.
音声区間決定部515において、
BLKS≦MAXBLK
とする時、すなわちプロ、り数BLKSが最大ブロック
数MAXBLKよりも小さいか等しい場合であればすべ
てのプロ、7りを音声区間とする。逆にBLKS )
MAXBLK
とする時、すなわちプロ、り数BLKが最大プロ。In the voice section determining unit 515, when BLKS≦MAXBLK, that is, when the number of blocks BLKS is smaller than or equal to the maximum number of blocks MAXBLK, all blocks are determined to be voice sections. On the contrary, BLKS)
When MAXBLK is set, that is, the number of BLK is maximum.
り数MAXBLK 、1:夕も大きい場合、例え(げ第
7図においてブロック数BLKS = :3で)2大プ
ロ、り数MAXBLK = 2であれば■または■の紹
み合わせが考えられ、■及び■のブロックの組み合わせ
の各々ノハワーpp (t)をめた後PPの比較を行な
いプロ、りのパワーPP(t)が最大となるブロックの
組合せを音声区間とする。ブロックのパワーPP(t)
は第(17)式によりめられる。If the number of blocks MAXBLK is 1: If the number of blocks is also large, for example (in Figure 7, the number of blocks BLKS = :3), if there are two major professionals, and the number of blocks MAXBLK = 2, the introduction of ■ or ■ is possible, and ■ After determining the power PP (t) of each of the combinations of blocks (2) and (2), the PPs are compared, and the combination of blocks for which the professional power PP (t) is maximized is determined as the voice section. Block power PP(t)
is determined by equation (17).
t=1〜BLKS−MAXBLK+1
第(I7)式よりめられたS(/l−+)は音声先頭プ
ロ、りであシ、E(22)は音声最終ブロックとなり、
音声始端フレーム5TFRば −
5TFR,= S(L、)
寸だ音声終端フレームEDFRは
EDFR二E(、−52)
となる。丑だ、入力・ぐターンフレーム数IFRは次の
第(18)式で表わされる。t=1~BLKS-MAXBLK+1 S (/l-+) determined from equation (I7) is the audio beginning block, rear edge, E (22) is the audio final block,
The voice start frame 5TFR is -5TFR,=S(L,), and the voice end frame EDFR is EDFR2E(, -52). The input/turn frame number IFR is expressed by the following equation (18).
TFR二EDFR−5TFR+ 1 ・・・(18)処
理終了の判定は、音声最終ブロックt2が以下の第卸式
の条件を全て満たした時、処理を終了とする。TFR2EDFR-5TFR+1 (18) The determination of the end of the process is made when the final audio block t2 satisfies all the conditions of the following formula.
すなわち、L 1が1<4 、に4’−1−1、k4+
2 、 k4−1−3 。That is, L 1 is 1<4, 4'-1-1, k4+
2, k4-1-3.
k 4 +4 +のいずれに対しても太きいか等しい場
合は、処理終了となる。If it is thick or equal to any of k 4 +4 +, the process ends.
−1だ第(I9)式の条件が満たされなかった場合は、
認識を打ち切り
pow】、o(k4)≦L1
すなわちLlが大きいか等しくなる次のに4の値をめる
。-1 If the condition of formula (I9) is not satisfied,
Abort recognition pow], o(k4)≦L1 In other words, set the value of 4 to the next value where Ll is greater or equal.
このように決定された音声区間5TFR及びE[)FR
は、スペクトル変換部400から送られるW(i、j)
と同時に再サンプル部500に送られる。再サンプル部
500では、音声の時間軸の正規化を行われる。時間軸
の正規化の方法は従来公知の技術であり、リニアマツチ
ング方法で(は、音声区間を認識装置の条件によって定
められた一定数に、時間的に等間隔に分割、再サンプル
する方法である。Voice section 5TFR and E[)FR determined in this way
is W(i,j) sent from the spectrum conversion section 400
At the same time, it is sent to the re-sampling unit 500. The resampling unit 500 normalizes the time axis of the audio. The method of normalizing the time axis is a conventionally known technique, and is a linear matching method (a method in which the speech interval is divided into a fixed number determined by the conditions of the recognition device at equal intervals in time and resampled). It is.
そして、距離演算部700において、同様に作成された
標準バタンメモリ800の出力との距離演算を行ないそ
の結果を判定部900へ送る。Then, the distance calculation section 700 performs a distance calculation with the output of the standard baton memory 800 created in the same manner, and sends the result to the determination section 900.
判定部900ては、トータル距離との距離値の比較を行
ない、最も小さいトータル距離のカテがす名を認識結果
として、認識結果出力瑞子1000から出力する。The determination unit 900 compares the distance value with the total distance, and outputs the category name with the smallest total distance as the recognition result from the recognition result output Mizuko 1000.
す、上器1明したように、本発明では、音声区間検出時
に音声パターンからノイズ・ぐターンを差し引くととに
より、音声区間検出をより精度よく行ない、認識率を上
げることができる。As mentioned above, in the present invention, by subtracting noise and patterns from the speech pattern when detecting a speech section, the speech section can be detected more accurately and the recognition rate can be increased.
(以下余白)
(発明の効果)
本発明は、音声区間検出の際に、音声のノイズパターン
の情報を音声パターン情報から差し引くととにより、音
声区間検出をより精度よく行なうことができ、音声認識
装置の認識性能を向上するのに効果がある。(The following is a margin) (Effects of the Invention) The present invention subtracts information on the noise pattern of the voice from the voice pattern information when detecting the voice zone, thereby making it possible to detect the voice zone more accurately and improve voice recognition. It is effective in improving the recognition performance of the device.
第1図は従来の音声認識装置のブロック図、第2図は第
1図の周波数分析部の詳細ブロック図、第3図は第1図
の音声区間検出部のブロック図、第4図は第3図の・ぐ
ラメータ演算部の詳細ブロック図、第5図は第3図のプ
ロ、り化部の詳細図、第6図は本発明の音声認識装置の
プrj7り図、第7図は音声区間のブロックの組合せを
示す図、第8図は音声の最大ブロック数を示す図である
。
1・・入力端子、2・周波数分析部、3 ・音声取込制
御部、4・・・取込開始信号、5・・音声区間検出部、
6・・・取込終了信号、7・・・始端・終端情報、8・
・・認識部、9・・・出力端子、11・入力音声信号、
12・・・前置増幅器、13・−バンドパスフィルタ群
、■4・・全波整流器群、15・ローパスフィルタ群、
16・・マルチプレクサ、17・・AD変換器、18・
・・分析結果、21・・・パラメータ演算部、22・・
ブロック化部、23・音声区間判定部、101,1.0
5゜109・・加算器、102,110・・・レジスタ
、103.108,111,113・・・乗算器、10
4 補数器’1 106.112・・・除算器、107
・・・カウンタ、200・ Pパラメータ演算部J、2
01・絶対値回路、202,205・比較器、203,
207,209・ カウンタ、204..212,21
3・レジスタ、206・・AND回路、208,210
減算器、211 ・加算器、214・ブロックテーブ
ル、100・入力端子、200・・周波数分析部、3’
OO・・・対数変換部、400・・・スペクトル変換部
、500・・・音声区間決定部、501・・対数変換部
、502 ノイズ・々タン検出部、503・減算回路、
504・乗算回路、505 ・加算回路、506・・・
除算回路、507・ Pパラメータメモリ、508・・
・比較器1.509・・・FLAG、、510・・スム
ージング1.511・・・スムージング2.512・・
・ブロック化、513・・比較器2 ’、)12 、、
514・・ブロック決定、515・・・音声区間決定
、516・・・MAXBLK 、、 600・・・再サ
ンプル部、70〇 −距離演算部、、SOO・・標準・
ぐタンメモリ、900・・・判定部、、1000・・認
識結果出力端子。
特許出願人
沖電気工業株式会社
特許出願代理人
弁理士 山 本 恵 −
第1図
第2図
第3図Fig. 1 is a block diagram of a conventional speech recognition device, Fig. 2 is a detailed block diagram of the frequency analysis section shown in Fig. 1, Fig. 3 is a block diagram of the speech interval detection section shown in Fig. Figure 3 is a detailed block diagram of the parameter calculation section, Figure 5 is a detailed diagram of the programmerization unit in Figure 3, Figure 6 is a detailed diagram of the speech recognition device of the present invention, and Figure 7 is FIG. 8 is a diagram showing the combination of blocks in the audio section, and FIG. 8 is a diagram showing the maximum number of audio blocks. 1. Input terminal, 2. Frequency analysis section, 3. Audio capture control section, 4. Capture start signal, 5. Voice section detection section,
6... Capturing end signal, 7... Starting end/terminating end information, 8...
... Recognition unit, 9... Output terminal, 11. Input audio signal,
12... Preamplifier, 13... Band pass filter group, ■4... Full wave rectifier group, 15... Low pass filter group,
16... Multiplexer, 17... AD converter, 18...
...Analysis results, 21...Parameter calculation section, 22...
Blocking unit, 23・Voice section determining unit, 101, 1.0
5゜109...adder, 102,110...register, 103.108,111,113...multiplier, 10
4 Complementer '1 106.112...Divider, 107
...Counter, 200・P parameter calculation section J, 2
01・Absolute value circuit, 202, 205・Comparator, 203,
207,209・Counter, 204. .. 212, 21
3. Register, 206...AND circuit, 208, 210
Subtractor, 211 - Adder, 214 - Block table, 100 - Input terminal, 200... Frequency analysis section, 3'
OO: Logarithmic conversion unit, 400: Spectrum conversion unit, 500: Voice interval determination unit, 501: Logarithmic conversion unit, 502: Noise/tan detection unit, 503: Subtraction circuit,
504・Multiplication circuit, 505・Addition circuit, 506...
Division circuit, 507・P parameter memory, 508...
・Comparator 1.509...FLAG,, 510...Smoothing 1.511...Smoothing 2.512...
・Blocking, 513... Comparator 2', ) 12 ,,
514...Block determination, 515...Speech section determination, 516...MAXBLK,, 600...Re-sampling section, 700-distance calculation section, SOO...Standard...
900... Judgment unit, 1000... Recognition result output terminal. Patent applicant Oki Electric Industry Co., Ltd. Patent application agent Megumi Yamamoto - Figure 1 Figure 2 Figure 3
Claims (1)
分析されたスペクトル特性の正規化を行ない、一定のデ
ータ長に再サンプルして入力音声・ぐターンを作成し、
該パターンと標準パターンとの距離演算を行な帆、距離
最小の認識カテゴリを認識判定する音声認識方式におい
て;対数変換法データを格納する手段と;対数変換法デ
ータを用い、ノイズ・ぐ夕〜ンを演算する手段と;音声
・ぐターンからノイズパターンを差し引いたパワーヲ演
算する手段と;演算したパワー情報から音声区間フラッ
グをめ、スムージングを行なう手段と;スムージング〉
行なった音声区間フラッグにより、音声ブロック候補を
める手段と;該音声ブロック候補を用い、最大ブロック
(MAXBLK)テーブルを参照しながら音声区間決定
を行なう手段とを有することを特徴とする音声認識方式
。Analyze the frequency of the input audio signal, logarithmically transform the result,
The analyzed spectral characteristics are normalized and resampled to a certain data length to create the input audio pattern.
In a speech recognition method that calculates the distance between the pattern and the standard pattern and recognizes and determines the recognition category with the minimum distance; means for storing logarithmic transformation data; means for calculating the power obtained by subtracting the noise pattern from the voice/guitar; means for setting a voice section flag from the calculated power information and performing smoothing;
A speech recognition method comprising: means for determining a speech block candidate based on a speech section flag obtained by the processing; and means for determining a speech section using the speech block candidate while referring to a maximum block (MAXBLK) table. .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59108668A JPS60254100A (en) | 1984-05-30 | 1984-05-30 | Voice recognition system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59108668A JPS60254100A (en) | 1984-05-30 | 1984-05-30 | Voice recognition system |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS60254100A true JPS60254100A (en) | 1985-12-14 |
JPH0424717B2 JPH0424717B2 (en) | 1992-04-27 |
Family
ID=14490648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59108668A Granted JPS60254100A (en) | 1984-05-30 | 1984-05-30 | Voice recognition system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS60254100A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02232697A (en) * | 1989-03-06 | 1990-09-14 | Nippondenso Co Ltd | Voice recognition device |
JPH03212697A (en) * | 1990-01-18 | 1991-09-18 | Matsushita Electric Ind Co Ltd | Signal processor |
JPH0677894A (en) * | 1986-06-02 | 1994-03-18 | British Telecommun Plc <Bt> | Radio terminal device |
-
1984
- 1984-05-30 JP JP59108668A patent/JPS60254100A/en active Granted
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0677894A (en) * | 1986-06-02 | 1994-03-18 | British Telecommun Plc <Bt> | Radio terminal device |
JPH09325790A (en) * | 1986-06-02 | 1997-12-16 | British Telecommun Plc <Bt> | Method and device for processing voice |
JPH02232697A (en) * | 1989-03-06 | 1990-09-14 | Nippondenso Co Ltd | Voice recognition device |
JPH03212697A (en) * | 1990-01-18 | 1991-09-18 | Matsushita Electric Ind Co Ltd | Signal processor |
Also Published As
Publication number | Publication date |
---|---|
JPH0424717B2 (en) | 1992-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA1227286A (en) | Speech recognition method and apparatus thereof | |
US8050910B2 (en) | Pitch extraction with inhibition of harmonics and sub-harmonics of the fundamental frequency | |
JPS6128998B2 (en) | ||
EP0092612B1 (en) | Speech analysis system | |
JPS60254100A (en) | Voice recognition system | |
EP0474496B1 (en) | Speech recognition apparatus | |
JPH02157800A (en) | Feature extracting system | |
CA1270568A (en) | Formant pattern matching vocoder | |
JPH05143098A (en) | Method and apparatus for spectrum analysis | |
JPS61256399A (en) | Voice recognition system | |
JPS61203497A (en) | Voice recognition system | |
JP3023135B2 (en) | Voice recognition device | |
JPH0556520B2 (en) | ||
JPS6310440B2 (en) | ||
JPS6258515B2 (en) | ||
JPS6258518B2 (en) | ||
JPS62113197A (en) | Voice recognition equipment | |
JPS60166993A (en) | Word voice recognition equipment | |
JPS6255798B2 (en) | ||
JPS6126680B2 (en) | ||
JP2643202B2 (en) | Detection device for steady, transient and uncertain parts of input speech | |
JPS625298A (en) | Voice recognition equipment | |
JPS5879299A (en) | Formant tracking system | |
JPS58136097A (en) | Recognition pattern collation system | |
JPS61174600A (en) | Voice recognition equipment |