JPH0219477B2 - - Google Patents

Info

Publication number
JPH0219477B2
JPH0219477B2 JP58069474A JP6947483A JPH0219477B2 JP H0219477 B2 JPH0219477 B2 JP H0219477B2 JP 58069474 A JP58069474 A JP 58069474A JP 6947483 A JP6947483 A JP 6947483A JP H0219477 B2 JPH0219477 B2 JP H0219477B2
Authority
JP
Japan
Prior art keywords
walsh
value
transform
conversion
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP58069474A
Other languages
Japanese (ja)
Other versions
JPS59195286A (en
Inventor
Masao Watari
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP58069474A priority Critical patent/JPS59195286A/en
Priority to EP84103993A priority patent/EP0128298B1/en
Priority to DE8484103993T priority patent/DE3482627D1/en
Publication of JPS59195286A publication Critical patent/JPS59195286A/en
Priority to US07/177,799 priority patent/US4839844A/en
Publication of JPH0219477B2 publication Critical patent/JPH0219477B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】[Detailed description of the invention]

本発明は簡易形音声分析装置の改良に関する。 通常、音声認識装置では、音声波形を分析し、
その分析出力である特徴パラメータの時系列とあ
らかじめ記憶されているパターンとの間で識別計
算を行い、認識結果を求めている。従来、この音
声認識装置に使用されている音声分析としてバン
ドスフイルタ分析やケプストラム分析や変形ケプ
ストラム分析があつた。 音声波の声帯の振動によつて励振された声道か
らの放射出力であると考えることができ、音声信
号G(t)は(1)式のように声道のインパルス応答
R(t)と音源波形S(t)の畳み込みで表わされ
る。 G(t)=R(t)*S(t) ……(1) *は畳み込み操作 (1)式をフーリエ変換すると Gf(w)=Rf(w)×Sf(w) ……(2) となる。音源特性Sf(w)は周期的な線スペクト
ラムであり、声道特性Rf(w)は、音声スペクト
ルGf(w)のエンベロープである。このエンベロ
ープを得る方法として一定値以上の帯域幅を持つ
たバンドバスフイルタを音声帯域内に複数個並べ
るバンドバスフイルタ分析がある。一定値以上の
帯域幅を持つことにより音源特性であるスペクト
ルの影響を弱くし複数個並べることによりエンベ
ロープの全体の特性すなわち声道特性を得ること
ができていた。 ところで、より精密な声道特性を得るために
は、バンドバスフイルタの帯域幅を細くする必要
があるが、細くすると音源スペクトルである線ス
ペクトルの影響が大きく表われてくる。このため
バンドパスフイルタの帯域幅はある程度以上細く
することはできず、バンドパスフイルタ分析では
より精密な声道特性を得ることはできなかつた。
一方、声道特性と音源特性を分離し、より精密な
声道特性を求める方法としてケプストラム分析が
ある。ケプストラム分析では、(2)式をさらにlog
変換し、 log|Gf(w)|=log|Rf(w)| +log|Sf(w) ……(3) 次に逆フーリエ変換によつてケプストラムを得
る。 Gc(q)=Rc(q)+Sc(q) ……(4) この(4)式のように、スペクトラム領域での積が
ケプストラム領域では和となる。音源スペクトル
Sf(w)である周期的な線スペクトルのケプスト
ラムSc(q)は音源の周期Tpの近傍にのみ表われ
る。一方、声道スペクトルRf(w)はGf(w)の
エンベロープとして表われ、そのケプストラム
RC(q)は低ケフレンシ部へ表われる。すなわ
ち、音声信号をケプストラム分析し、ケフレンシ
の低い成分に音源特性より分離された声道特性を
得ることができる。 さらに特願昭56―069031号明細書(特開昭57―
185098号公報)に記載されているように音声のス
ペクトルの中より帯域内の周波数成分のみを切出
しゼロ周波数までシワトする切出し部を用けるこ
とにより、伝送路の帯域外の特性の影響を除去す
ることができる。また、周波数の高域部を圧縮す
る写像関数による周波数軸のスケール変換例えば
logスケール変換、Melスケール変換などを行う
スケール変換部を設けることにより、高域より低
域へ重みが置かれたすなわち人間の聴覚特性に近
い特性を持つた変形ケプストラムが得られる。前
記スケール変換は第1図に示すような写像関数
Sm=M(Sl)により、伝送路の帯域内のみのデー
タをlogスケールまたはMelスケールへ並び換え
ることである。すなわとSl番目のスペクトルを
Sm番目の変形スペクトルとすることである。 しかしながら、前記のバンドパスフイルタ分析
やケプストラム分析や変形ケプストラム分析は、
フーリエ変換を基本としており三角関数系との乗
算を必要とし装置が大型となる欠点があつた。 一方、フーリエ変換の近似的な変換であるウオ
ルシユ変換は±1の2値の直交関数系による変換
であるため、ウオルシユスペクトルは加減算のみ
で求めることができる。このウオルシユ変換を用
いることにより特開昭57―700号公報に記載され
ているように小型の疑似バンドパスフイルタを実
現することが知られている。しかし疑似バンドパ
スフイルタではより細かで精密な声道特性を得ら
れない欠点があつた。 本発明の目的は、ケプストラム分析における。
フーリエ変換と逆フーリエ変換を多値ウオルシユ
変換に置き換えることにより、ケプストラムの近
似値を得る小型の装置、すなわち、より細かで精
密な声道特性が得られかつ小型の音声分析装置を
提供することにある。 本発明による音声分析装置は、入力信号の多値
ウオルシユ変換を行う第1多値ウオルシユ変換部
と、前記第1多値ウオルシユ変換部の出力よりウ
オルシユパワースペクトルを求めそのlog変換を
行うlog変換部と、ウオルシユ交番数軸のスケー
ル変換を行う写像関数Sm=M(Sl)により前記
log変換部の出力を変形交番数軸へ写像するスケ
ール変換部と、前記スケール変換部の出力の多値
ウオルシユ変換を行う第2多値ウオルシユ変換部
を有している。 次に本発明で使用する多値ウオルシユ変換につ
いて説明する。ウオルシユ変換はフーリエ変換に
おける直交関数系である三角関数を±1の2値の
関数であるウオルシユ関数への置き換えたもので
あり、加減算のみでフーリエ変換の近似値が得ら
れる。しかし三角関数を±1の2値関数へ近似さ
せているため、近似度合が悪かつた。一方、ウオ
ルシユ関数を多値化し複素数化させることにより
簡単な演算でフーリエ変換のよりよい近似値が得
られる多値ウオルシユ変換が同一出願人から昭和
58年4月11日に出願された特願昭58―63186号明
細書「多値ウオルシユ変換装置」に記載されてい
る。ここで多値ウオルシユ変換の原理について述
べる。すでに述べたとおり、ウオルシユ関数は、
三角関数を±1に量子化したものであるので、よ
り細かい量子化による多値ウオルシユ関数を導入
することによつて、よりフーリエスペクトルへ近
づけることができる。例えば、第10図に示し
た。 の8個の要素をもつ多値ウオルシユ関数が考えら
れる。しかし、この方法では
The present invention relates to an improvement in a simplified speech analysis device. Normally, speech recognition devices analyze speech waveforms and
Discrimination calculations are performed between the time series of feature parameters that are the output of the analysis and pre-stored patterns to obtain recognition results. Conventionally, speech analyzes used in this speech recognition device include band filter analysis, cepstrum analysis, and modified cepstrum analysis. It can be considered to be the radiation output from the vocal tract excited by the vibration of the vocal cords of the voice wave, and the voice signal G(t) is expressed as the impulse response R(t) of the vocal tract as shown in equation (1). It is expressed by convolution of the sound source waveform S(t). G(t)=R(t)*S(t) ……(1) * is the convolution operation When formula (1) is Fourier transformed, Gf(w)=Rf(w)×Sf(w) ……(2) becomes. The sound source characteristic Sf(w) is a periodic line spectrum, and the vocal tract characteristic Rf(w) is an envelope of the voice spectrum Gf(w). As a method for obtaining this envelope, there is a band-pass filter analysis in which a plurality of band-pass filters having a bandwidth of a certain value or more are arranged in the audio band. Having a bandwidth above a certain value weakens the influence of the spectrum, which is a sound source characteristic, and by arranging multiple envelopes, it was possible to obtain the overall characteristics of the envelope, that is, the vocal tract characteristics. By the way, in order to obtain more precise vocal tract characteristics, it is necessary to narrow the bandwidth of the bandpass filter, but when it is narrowed, the influence of the line spectrum, which is the sound source spectrum, becomes more pronounced. For this reason, the bandwidth of the bandpass filter cannot be narrowed beyond a certain level, and more precise vocal tract characteristics cannot be obtained by bandpass filter analysis.
On the other hand, cepstral analysis is a method for separating vocal tract characteristics and sound source characteristics and obtaining more precise vocal tract characteristics. In cepstral analysis, equation (2) is further transformed into log
Transform, log|Gf(w)|=log|Rf(w)|+log|Sf(w)...(3) Next, obtain the cepstrum by inverse Fourier transformation. Gc (q) = Rc (q) + Sc (q) ... (4) As shown in equation (4), the product in the spectral domain becomes the sum in the cepstrum domain. sound source spectrum
The cepstrum Sc(q) of the periodic line spectrum Sf(w) appears only in the vicinity of the period Tp of the sound source. On the other hand, the vocal tract spectrum Rf(w) appears as an envelope of Gf(w), and its cepstrum
RC(q) appears in the low que frency part. That is, by performing cepstral analysis on the audio signal, it is possible to obtain vocal tract characteristics that are separated from the sound source characteristics into components with low quefrency. Furthermore, the specification of Japanese Patent Application No. 56-069031 (JP-A-57-069031)
As described in Publication No. 185098), by using an extraction section that extracts only the frequency components within the band from the voice spectrum and wrinkles them to zero frequency, the influence of the characteristics outside the band of the transmission path is removed. be able to. In addition, scale conversion of the frequency axis using a mapping function that compresses the high frequency part, for example,
By providing a scale conversion unit that performs log scale conversion, Mel scale conversion, etc., a modified cepstrum can be obtained in which weight is placed more on low frequencies than on high frequencies, that is, having characteristics close to human auditory characteristics. The scale conversion is performed using a mapping function as shown in Figure 1.
By using Sm=M(Sl), data only within the band of the transmission path is rearranged into log scale or Mel scale. The spectrum of Sl and
This is to be the Smth deformed spectrum. However, the above-mentioned bandpass filter analysis, cepstrum analysis, and modified cepstrum analysis
It is based on Fourier transform and requires multiplication with a trigonometric function system, which has the disadvantage of increasing the size of the device. On the other hand, since the Walsh transform, which is an approximation of the Fourier transform, is a transform using a binary orthogonal function system of ±1, the Walsh spectrum can be obtained only by addition and subtraction. It is known that by using this Walsh transform, a small pseudo bandpass filter can be realized as described in Japanese Patent Laid-Open No. 57-700. However, the pseudo bandpass filter had the disadvantage that finer and more precise vocal tract characteristics could not be obtained. The object of the invention is in cepstral analysis.
To provide a compact device for obtaining an approximate value of the cepstrum by replacing the Fourier transform and inverse Fourier transform with a multivalued Walsh transform, that is, a compact speech analysis device that can obtain finer and more precise vocal tract characteristics. be. The speech analysis device according to the present invention includes a first multi-value Walsh transform unit that performs a multi-value Walsh transform of an input signal, and a log transform that obtains a Walsh power spectrum from the output of the first multi-value Walsh transform unit and performs a log transform on the output of the first multi-value Walsh transform unit. and the mapping function Sm=M(Sl) that performs scale conversion of the Walsh alternating number axis.
It has a scale conversion section that maps the output of the log conversion section onto a modified alternating number axis, and a second multi-value Walsh conversion section that performs multi-value Walsh conversion of the output of the scale conversion section. Next, the multivalued Walsh transform used in the present invention will be explained. The Walsh transform replaces the trigonometric function, which is an orthogonal function system in the Fourier transform, with the Walsh function, which is a binary function of ±1, and an approximate value of the Fourier transform can be obtained only by addition and subtraction. However, since the trigonometric functions were approximated to binary functions of ±1, the degree of approximation was poor. On the other hand, the multivalued Walsh function, which can obtain a better approximation of the Fourier transform by simple calculations, was developed by the same applicant in the Showa era.
This method is described in Japanese Patent Application No. 1986-63186 entitled "Multiple Walsh Transform Device" filed on April 11, 1958. Here, we will discuss the principle of multivalued Walsh transform. As already mentioned, the Walsh function is
Since it is a trigonometric function quantized to ±1, by introducing a multivalued Walsh function with finer quantization, it can be made closer to the Fourier spectrum. For example, it is shown in FIG. A multivalued Walsh function with eight elements is considered. But with this method

【式】 などの要素を持つため、その変換には乗算を必要
とする。 特願昭58―63186号明細書では、8値ウオルシ
ユ変換の場合には、第11図に示したように、 (1,1+j,j,−1+j,−1,−1,−j,
−j,1−j) の8個の要素を用いている。この関数系による8
値ウオルシユ変換の演算は、±1,±jとの積の間
の演算であるので、加減算のみで実行できる。 また、同様の考え方により、16値ウオルシユ変
換は、第12図に示したような、 (1,1+1/2j,1+j,1/2+j,j,− 1/2+j,−1+j,−1+1/2j,−1,−1− 1/2j,−1−j,−1/2−j,−j,1/2−j
, 1−j,1−1/2j) の16個要素を用いる。これによる関数系を用い
る16値ウオルシユ変換の演算は、±1,±1/2,± j,±1/2jとの積の演算であるため、シフタによ る1/2化と加減算のみで実行でき、実質的に乗算
は不要である。 入力時系列を逆2進順に並べた列ベクトルを
X、多値ウオルシユスペクトルをW、変換行列を
Cとすれば、 W=C・X =Go・Go-1……G1・X ……(6) n回の行列の積として表現できる。ここで各Gi
(7),(8),(9)式により決定される。 Gi=EiIo-i ただしはクロネツカー積である Li=diag(1.〔ai〕.〔a2 i〕.….〔a2i-1 1〕)…
…(9) ただしIiは2i行2i列の単位行列であり、diag( )
は括孤内を対角要素とする対角行列である。 ここで〔ai〕は多値化の数によつて決定され、
8値の場合は ai=e×p(jπ/2i)、ak i=e×p(jθ)とし 〔e×p(jθ)〕=1、0θ<π/4のとき =1+j、π/4θ<π/2のとき =j、π/2θ<3π/4のとき =1+j、3π/4θ<πのとき とする。また、16値の場合は 〔e×P(jθ)〕=1、0θ<π/8のとき =1+1/2i、π/8θ<π/4のとき =1+j、π/4θ<3π/8のとき =1/2+j、3π/8θ<π/2のとき =j、π/2θ<5π/8のとき =−1/2+j、5π/8θ<3π/4のとき =1+j、3π/4θ<7π/8のとき =−1+1/2j、7π/8θ<πのとき とする。 また、逆2進順とは自然数を2進表現し、その
桁桁を逆転させた数を考え、その数の順序に並べ
ることであり、n=3の場合 X=(X0X4X2X6X1X5X3X7)となる。さらに
8値ウオルシユ変換の場合各Gi となる。これらGiの各行ともゼロでない要素は2
つのみであり高速フーリエ変換で用いられるバタ
フライ演算と同形の演算にて求められることを示
している。このゼロでない要素は(±1.±j)で
あるため複素数の加減算のみで実行できる。さら
に16値ウオルシユ変換の場合ゼロでない要素は
(±1/±1/2、±j/±1/2j)であるためシフ
ト 演算と複素数の加減算のみで実行できる。また、
この時得られる多値ウオルシユスペクトルのWi
とWo/2-i(N=2n)は共役複素数となる。 本発明の音声分析装置は、ケプストラム分析に
おけるフーリエ変換と逆フーリエ変換を多値ウオ
ルシユ変換へ置き換えることにより、加減算器等
による簡単な演算器で構成できる利点を持つてい
る。さらにウオルシユ変換を用いた疑似バンドパ
スフイルタ分析装置に比較し、より細かで精密な
声道特性が得られる利点を持つている。 次に本発明の装置の具体的な構成を図面を参照
しながら説明する。 本発明の実施例は第2図に示すように、第1バ
ツフアメモリ部1、第1多値ウオルシユ演算部
2、第1多値ウオルシユ変換制御部3、log変換
部4、スケール変換部5、第2バツフアメモリ
6、第2多値ウオルシユ演算部7、第2多値ウオ
ルシユ変換制御部8より構成される。始めに入力
時系列データが第1バツフアメモリ部1へ入力さ
れ一時記憶される。記憶された後、第4図に示し
たn=4の場合の計算の流れ図に従つた第1多値
ウオルシユ変換制御部3の制御信号により、第1
段より第n段まで計算が進められる。第i段の処
理は、第4図に示した第i段の2n-1個のバタフラ
イ演算を実行することであり、(7)式のGiの行列を
乗ずることを意味している。 バタフライ演算は Ya=Xa+Xb・ak Yb=Xa−Xb・ak ……(10) であり、第3図に示す第1多値ウオルシユ演算部
2にて求められる。バタフライ演算では始めに
Xa.Xbが第1バツフアメモリ部1より読み出さ
れ、Xaの実数部と虚数部がレジスタ201,2
02へ、Xbの実数部と虚数部がレジスタ203,
204へそれぞれ一時格納される。Xa・akの複
素数乗算は8値ウオルシユ変換の場合は次の4通
りの加減算にて実行される。 (zR+jzI)=(XbR+jXbI)・akとし、 a0=1のとき zR=XbR zI=XbI a2=1+jのとき zR=XbR−XbI zI=XbR+XbI a4=jのとき zR=−XbI zI=XbR a0=1+jのとき zR=−XbR−XbI zI=XbR−XbI ……(11) 第4図の計算の流れ図中のa1.a3.a5.a7はそれぞ
れa0.a2.a4.a6と同じ値である。(11)式の演算は第1
多値ウオルシユ変換制御部3の制御信号のもとで
スイツチ211と加減算器221と222により
求められる。すなわちスイツチ211は加減算器
221と222の入力をXbR,XbI、ゼロのどれ
かを選択し、加減算器221と222は加算又は
減算又は加算符号反転を行い前記(11)式の演算を行
う。つづいて(10)式の加算および減算が実数部、虚
数部に分けて加算器231と232および減算器
233と234にて行われる。得られた結果Ya
Ybは第1バツフアメモリ部1のXa,Xbが記憶さ
れていた場所へ書かれる。最終段である第n段ま
で前記処理が終了すると、第1バツフアメモリ1
に多値ウオルシユスペクトラムが得られる。 多値ウオルシユ変換が終了した後、第5図に示
すlog変換部4とスケール変換部5によつて、log
パワー多値ウオルシユスペクトルが求められ、ス
ケール変換を行う写像関数Sn=M(Se)により変
形交番数軸へ写像を行う。すなわち、スケール変
換制御部51は第6図に示すタイムチヤートに従
つた制御信号を発し、始めに第1バツフアメモリ
部1より信号a1に従つて多値ウオルシユスペクト
ルの偶数項W2iと奇数項W2i+1を順次読み出し、
log変換部4の乗算器41で2乗され加算器42
とアキユムレータ43を用いてパワー多値ウオル
シユスペクトル(Pi=W2 2i+W2 2i+1)が求められ、
つづいてlog変換部4にてlog変換され、信号a2を
アドレスとして指示された写像関数値M(i)を
写像関数テーブルメモリ部52より読み出し、そ
の出力M(i)を第2バツフアメモリ部6のアド
レス信号a3としてlogパワー多値ウオルシユスペ
クトル(logPi)を第2バツフアメモリ部6のM
(i)番地へ格納する。第2の多値ウオルシユ変
換は第1の多値ウオルシユ変換と同様に動作し第
2バツフアメモリ部6、第2多値ウオルシユ変換
部7、第2ウオルシユ変換制御部8にて実行され
る。なお、以上の説明では、スケール変換後に再
び多値ウオルシユ変換を行なうものとして説明し
たが、このスケール変換後(正確には絶対値化し
た直後)には、その信号は縦軸に対称な実関数と
なつている。一般に、縦軸に対称な実関数のフー
リエ変換とフーリエ逆変換は、同じ結果を与え
る。この多値ウオルシユ変換においても同様のこ
とが成立する。したがつて、すでに述べた実施例
において、第2多値ウオルシユ変換部7が、多値
逆ウオルシユ変換を行なわせたとしても、結果は
同一となる。 ところで、通常音声認識ではケプストラムの低
次の項のみ使用するため、第2の多値ウオルシユ
変換は低次の項のみ計算すればよい。そのため第
2の多値ウオルシユ変換(6)式の変換行列の低次の
項のみすなわち WkN-1l=0 Hkl・Xl ……(12) の小さいkについてのみ計算すればよい。ここで
さらにXlは偶関数であるのでHklの実数部である
H′klを使用すればよい。 WkN-1l=0 H′kl・Xl ……(13) 本発明の第2の実施例は、第2のウオルシユ変
換を(13)式にて求める装置である、第1の実施
例における第2多値ウオルシユ変換制御部8、第
2多値ウオルシユ演算部7を第7図に示す構成へ
変更したものである。第2多値ウオルシユ変換制
御部7は第8図に示すタイムチヤートに従つた制
御信号を発し、信号cl7によつてアキユムレータ
72をクリヤし、信号k1に従つて第2バツフア
メモリ部6より変形logパワー多値ウオルシユス
ペクトルXl=logPM(i)を読み出し、多値ウオ
ルシユ変換行列の実数部H′klに従つた+1または
−1の信号b2により加減算器71はアキユムレ
ータ72との間で加算または減算を行う。すなわ
ち信号b2が+1の場合はACC+Xl→ACCを行
い、信号b2が−1の場合はACC―Xl→ACCを
行う。信号b1がN―1となつた時アキユムレー
タ72へウオルシユ変換値Wkすなわち疑似ケプ
ストラムが得られる。 次に本発明の第3の実施例は多値ウオルシユ変
換として16値ウオルシユ変換を採用した場合の装
置であり、第1の実施例における第1多値ウオル
シユ演算部を第9図に示す構成へ変更したもので
ある。計算は第1の実施例と同様に進められる。
第1の実施例と異なる点はバタフライ演算におけ
る乗算要素akの値が8種類あることである。(10)式
における複素数乗算は次の8通りの演算にて実行
される。 (zR+jzI)=(XbR+jXbI)・akとし a0=1のとき zR=XbR zI=XbI a1=1+1/2jのとき zR=XbR−1/2XbI zI=1/2XbR+XbI a2=1+jのとき zR=XbR−XbI zI=XbR+XbI a3=1/2+jのとき zR=1/2XbR−XbI zI=XbR+1/2XbI a4=jのとき zR=−XbI zI=XbR a5=−1/2+jのとき zR=−1/2XbR−XbI ZI=XbR−1/2XbI a6=−1+jのとき zR=−XbR−XbI zI=XbR−XbI a7=−1+1/2jのとき zR=−XbR−1/2XbI zI=1/2XbR−XbI ……(14) シフタ241と242は1ビツト右シフトする
ことにより1/2XbRおよび1/2XbIを求め、スイツ チ212は加減算器221と222の入力を
XbR.XbI.1/2XbR.1/2XbI.ゼロのどれかを選 択し、加減算器221と222にて加算又は減算
と符号反転を行い(11)式の複素数乗算を実行する。 以上本発明を実施例に基づき説明したが、これ
らの記載は本発明の範囲を限定するものではな
い。特に本発明の実施例ではFWTのアルゴリズ
ムとして(6)式に示すように入力時系を逆2進順に
並べG1よりGoまで順次積を取り求めていたが、
(13)式に示すような正順序の時系列X′とGo T
よりG1 Tまで順次積を取り、その結果として逆2
進順のウオルシユスペクトルW′を得る方法も採
用できることは明白である。 W′=G1T・G2T・…Go T・X′ ……(15) また、パワースペクトルをPi=W2 2i+W2 2i+1と
して求めるが、乗算器を必要としているためPi
|W2i|+|W2i+1|のように絶対値の和とし
てパワースペクトルを近似的に求める方法も採用
できることは明白である。
Since it has elements such as [expression], multiplication is required for its conversion. In the specification of Japanese Patent Application No. 58-63186, in the case of 8-value Walsh transform, as shown in FIG.
-j, 1-j) are used. 8 due to this function system
Since the value Walsh conversion is an operation between the products of ±1 and ±j, it can be executed only by addition and subtraction. Also, based on the same idea, the 16-value Walsh transform is as shown in Fig. 12, -1, -1- 1/2j, -1-j, -1/2-j, -j, 1/2-j
, 1-j, 1-1/2j) are used. The 16-value Walsh transform using this function system is a multiplication operation with ±1, ±1/2, ±j, ±1/2j, so it can be performed only by halving using a shifter and addition/subtraction. , virtually no multiplication is required. If the column vector of the input time series arranged in reverse binary order is X, the multilevel Walsh spectrum is W, and the transformation matrix is C, then W=C・X = G o・G o-1 ...G 1・X ...(6) It can be expressed as a product of n matrices. Here each G i is
Determined by equations (7), (8), and (9). G i = E i I oi where is the Kronetzker product L i = diag (1.[ai].[a 2 i ].….[a 2i-1 1 ])…
…(9) where I i is an identity matrix with 2 i rows and 2 i columns, and diag( )
is a diagonal matrix whose diagonal elements are inside the parentheses. Here, [a i ] is determined by the number of multilevel conversions,
In the case of 8 values, a i = e x p (jπ/2i), a k i = e x p (jθ), [e x p (jθ)] = 1, when 0θ < π/4 = 1 + j, π When /4θ<π/2 =j, when π/2θ<3π/4 =1+j, and when 3π/4θ<π. In addition, in the case of 16 values, [e×P(jθ)] = 1, when 0θ<π/8 = 1+1/2i, when π/8θ<π/4 = 1+j, when π/4θ<3π/8 When = 1/2 + j, when 3π/8θ < π/2 = j, when π/2θ < 5π/8 = -1/2 + j, when 5π/8θ < 3π/4 = 1 + j, 3π/4θ < 7π /8=−1+1/2j, 7π/8θ<π. In addition, reverse binary order means to express a natural number in binary, consider a number with its digits reversed, and arrange it in the order of that number. In the case of n=3, X=(X 0 X 4 X 2 X 6 X 1 X 5 X 3 X 7 ). Furthermore, in the case of 8-level Walsh transform, each G i is becomes. The number of non-zero elements in each row of G i is 2
This shows that it can be obtained by an operation isomorphic to the butterfly operation used in fast Fourier transform. Since this non-zero element is (±1.±j), it can be executed only by adding and subtracting complex numbers. Furthermore, in the case of 16-value Walsh transform, the non-zero elements are (±1/±1/2, ±j/±1/2j), so it can be executed only by shift operations and addition/subtraction of complex numbers. Also,
W i of the multilevel Walsh spectrum obtained at this time
and W o/2-i (N=2 n ) are conjugate complex numbers. The speech analysis device of the present invention has the advantage that it can be configured with a simple arithmetic unit such as an adder/subtractor by replacing the Fourier transform and inverse Fourier transform in cepstral analysis with a multivalued Walsh transform. Furthermore, compared to pseudo-bandpass filter analyzers that use Walsh transform, it has the advantage of providing more detailed and precise vocal tract characteristics. Next, the specific configuration of the apparatus of the present invention will be explained with reference to the drawings. The embodiment of the present invention, as shown in FIG. It is composed of a 2-buffer memory 6, a second multi-valued Walsh calculation section 7, and a second multi-valued Walsh conversion control section 8. First, input time series data is input to the first buffer memory section 1 and temporarily stored. After being stored, the first
The calculation proceeds from stage to nth stage. The processing at the i-th stage is to execute the 2 n-1 butterfly operations of the i-th stage shown in FIG. 4, and means to multiply by the matrix of G i in equation (7). The butterfly operation is Y a =X a +X b ·a k Y b =X a −X b ·a k (10), and is obtained by the first multivalued Walsh arithmetic unit 2 shown in FIG. At the beginning of butterfly operation
X a . X b is read from the first buffer memory section 1, and the real part and imaginary part of X a are stored in registers 201 and 2.
02, the real part and imaginary part of X b are stored in the register 203,
204, respectively. Complex number multiplication of X a · a k is performed by the following four types of addition and subtraction in the case of 8-value Walsh transform. (z R + jz I ) = (X bR + jX bI ) · a k , when a 0 = 1 z R = X bR z I = X bI when a 2 = 1 + j z R = X bR −X bI z I =X bR +X bI a 4 When = j z R = −X bI z I =X bR a 0 When = 1 + j z R = −X bR −X bI z I =X bR −X bI ...(11) In the calculation flowchart of FIG. 4, a 1 .a 3 .a 5 .a 7 are the same values as a 0 .a 2 .a 4 .a 6 , respectively. The calculation of equation (11) is the first
It is determined by the switch 211 and the adders/subtractors 221 and 222 under the control signal of the multilevel Walsh conversion control section 3. In other words, the switch 211 selects the inputs of the adders/subtractors 221 and 222 from X bR , X bI , or zero, and the adders/subtractors 221 and 222 perform addition, subtraction, or addition sign inversion to perform the calculation of equation (11) above. . Subsequently, addition and subtraction in equation (10) are performed by adders 231 and 232 and subtracters 233 and 234, dividing into real and imaginary parts. The obtained result Y a ,
Y b is written to the location in the first buffer memory section 1 where X a and X b were stored. When the processing is completed up to the n-th stage, which is the final stage, the first buffer memory 1
A multivalued Walsh spectrum is obtained. After the multivalued Walsh transform is completed, the log conversion unit 4 and scale conversion unit 5 shown in FIG.
A power multilevel Walsh spectrum is obtained, and is mapped onto a modified alternating number axis using a mapping function S n =M (S e ) that performs scale conversion. That is, the scale conversion control section 51 issues a control signal according to the time chart shown in FIG . Read W 2i+1 sequentially,
Squared by the multiplier 41 of the log conversion unit 4 and added by the adder 42
The power multilevel Walsh spectrum (Pi=W 2 2i +W 2 2i+1 ) is obtained using the and accumulator 43,
Subsequently, the mapping function value M(i), which is log-converted in the log conversion section 4 and designated using the signal a2 as an address, is read out from the mapping function table memory section 52, and the output M(i) is stored in the second buffer memory section 6. The log power multilevel Walsh spectrum (logP i ) is stored in the second buffer memory section 6 as the address signal a3.
(i) Store at address. The second multi-value Walsh conversion operates in the same manner as the first multi-value Walsh conversion, and is executed by the second buffer memory section 6, the second multi-value Walsh conversion section 7, and the second Walsh conversion control section 8. Note that the above explanation assumes that the multivalued Walsh transform is performed again after scale conversion, but after this scale conversion (more precisely, immediately after converting to an absolute value), the signal becomes a real function that is symmetrical about the vertical axis. It is becoming. Generally, the Fourier transform and inverse Fourier transform of a real function symmetric about the vertical axis give the same result. The same thing holds true in this multivalued Walsh transformation. Therefore, in the embodiments already described, even if the second multi-value Walsh transform section 7 performs the multi-value inverse Walsh transform, the result will be the same. By the way, in normal speech recognition, only the low-order terms of the cepstrum are used, so the second multi-level Walsh transform only needs to calculate the low-order terms. Therefore, if we calculate only the low-order terms of the transformation matrix of the second multivalued Walsh transformation equation (6), that is, only the small k of W k = N-1l=0 H kl・X l ...(12) good. Furthermore, since Xl is an even function, it is the real part of H kl .
Just use H′ kl . W k = N-1l=0 H′ kl・X l ...(13) The second embodiment of the present invention is a device for calculating the second Walsh transform using equation (13). In this embodiment, the second multi-valued Walsh conversion control section 8 and the second multi-valued Walsh calculation section 7 in the embodiment are changed to the configuration shown in FIG. The second multi-level Walsh conversion control section 7 issues a control signal according to the time chart shown in FIG. The adder/subtractor 71 reads out the multi-valued Walsh spectrum X l =logPM(i) and performs addition or subtraction with the accumulator 72 using the +1 or -1 signal b2 according to the real part H′ kl of the multi-valued Walsh transform matrix. I do. That is, when the signal b2 is +1, ACC+X l →ACC is performed, and when the signal b2 is -1, ACC-X l →ACC is performed. When the signal b1 becomes N-1, a Walsh transform value Wk , that is, a pseudo cepstrum is obtained in the accumulator 72. Next, a third embodiment of the present invention is an apparatus in which a 16-value Walsh transform is adopted as the multi-value Walsh transform, and the first multi-value Walsh calculation section in the first embodiment is changed to the configuration shown in FIG. This has been changed. The calculation proceeds in the same manner as in the first embodiment.
The difference from the first embodiment is that there are eight types of values for the multiplication element a k in the butterfly operation. Complex number multiplication in equation (10) is performed using the following eight operations. (z R + jz I ) = (X bR + jX bI )・a k When a 0 = 1 z R = X bR z I = X bI When a 1 = 1 + 1/2j z R = X bR - 1/2X bI z I =1/2X bR +X bI a 2 =1+j z R =X bR −X bI z I =X bR +X bI a 3 =1/2+j z R =1/2X bR −X bI z I = X bR + 1/2X bI a 4 When = j z R = -X bI z I = X bR a 5 = -1/2 + j When z R = -1/2 -1/2X bI a 6 When =-1+j z R =-X bR -X bI z I =X bR -X bI a 7 When =-1+1/2j z R =-X bR -1/2X bI z I = 1 / 2x bR -
XbRXbI . 1/2X bR . 1/2X bI . One of the zeros is selected, and adder/subtractor 221 and 222 perform addition or subtraction and sign inversion to execute complex multiplication of equation (11). Although the present invention has been described above based on Examples, these descriptions do not limit the scope of the present invention. In particular, in the embodiment of the present invention, as an FWT algorithm, the input time series is arranged in reverse binary order as shown in equation (6), and the products are sequentially obtained from G 1 to G o .
(13) The forward-ordered time series X′ and G o T as shown in equation (13),
Take the products sequentially up to G 1 T , and as a result, the inverse 2
It is obvious that the method of obtaining the progressive Walsh spectrum W′ can also be adopted. W′=G 1T・G 2T・…G o T・X′……(15) Also, the power spectrum is obtained as P i =W 2 2i +W 2 2i +1, but since a multiplier is required, P i =
It is obvious that a method of approximately obtaining the power spectrum as a sum of absolute values such as |W 2i |+|W 2i +1| can also be adopted.

【図面の簡単な説明】[Brief explanation of drawings]

第1図はスケール変換を示す図であり、第2図
は本発明の第1の実施例のブロツク図であり、第
3図は第1多値ウオルシユ演算部2のブロツク図
であり、第4図は第1多値ウオルシユ変換の計算
の流れの図であり、第5図はlog変換部4とスケ
ール変換部5のブロツク図であり、第6図はスケ
ール変換のタイムチヤートであり、第7図は本発
明の第2の実施例における第2多値ウオルシユ演
算部2のブロツク図であり、第8図は第2多値ウ
オルシユ変換のタイムチヤートであり、第9図は
本発明の第3の実施例における第1多値ウオルシ
ユ演算部2のブロツク図、第10図,第11図,
第12図は本発明で用いる多値ウオルシユ変換を
説明するための図である。 図において、1は第1バツフアメモリ部、2は
第1多値ウオルシユ演算部、3は第1多値ウオル
シユ変換制御部、4はlog変換部、6は第2バツ
フアメモリ部、7は第2多値ウオルシユ演算部、
8は第2多値ウオルシユ変換制御部201,20
2,203,204はレジスタ、211,212
はスイツチ、221,222は加減算器、23
1,232は加算器、233,234は減算器、
241,242はシフタである。第5図において
41は乗算器、42は加算器、43はアキムレー
タ、44はlog変換器、51はスケール変換制御
部、52は写像関数テーブルメモリ、71は加算
器、72はアキユムレータである。
FIG. 1 is a diagram showing scale conversion, FIG. 2 is a block diagram of the first embodiment of the present invention, FIG. The figure shows the calculation flow of the first multi-level Walsh transform, FIG. 5 is a block diagram of the log converter 4 and the scale converter 5, FIG. The figure is a block diagram of the second multi-level wallet calculation unit 2 in the second embodiment of the present invention, FIG. 8 is a time chart of the second multi-level wallet conversion, and FIG. A block diagram of the first multivalued Walsh calculation unit 2 in the embodiment of FIG. 10, FIG. 11,
FIG. 12 is a diagram for explaining the multivalued Walsh transform used in the present invention. In the figure, 1 is a first buffer memory section, 2 is a first multi-value Walsh calculation section, 3 is a first multi-value Walsh conversion control section, 4 is a log conversion section, 6 is a second buffer memory section, and 7 is a second multi-value Walsh arithmetic unit,
8 is a second multi-value Walsh conversion control unit 201, 20
2, 203, 204 are registers, 211, 212
is a switch, 221, 222 is an adder/subtractor, 23
1,232 is an adder, 233,234 is a subtracter,
241 and 242 are shifters. In FIG. 5, 41 is a multiplier, 42 is an adder, 43 is an accumulator, 44 is a log converter, 51 is a scale conversion control section, 52 is a mapping function table memory, 71 is an adder, and 72 is an accumulator.

Claims (1)

【特許請求の範囲】[Claims] 1 入力信号の多値ウオルシユ変換を行う第1多
値ウオルシユ変換部と、前記第1多値ウオルシユ
変換部の出力よりウオルシユパワースペクトルを
求めそのlog変換をlog変換部と、ウオルシユ交番
数軸のスケール変換を行う写像関数Sm=M(Sl)
により前記log変換部の出力変形交番数軸へ写像
するスケール変換部と、前記スケール変換部の出
力の多値ウオルシユ変換を行う第2多値ウオルシ
ユ変換部とを持つことを特徴とする音声分析装
置。
1. A first multi-value Walsh transform unit that performs a multi-value Walsh transform of an input signal; a Walsh power spectrum is obtained from the output of the first multi-value Walsh transform unit; Mapping function Sm = M (Sl) that performs scale conversion
A speech analysis device comprising: a scale conversion unit that maps the output of the log conversion unit onto a modified alternating number axis; and a second multi-value Walsh conversion unit that performs multi-value Walsh conversion of the output of the scale conversion unit. .
JP58069474A 1983-04-11 1983-04-20 Voice analyzer Granted JPS59195286A (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP58069474A JPS59195286A (en) 1983-04-20 1983-04-20 Voice analyzer
EP84103993A EP0128298B1 (en) 1983-04-11 1984-04-10 Orthogonal transformer and apparatus operational thereby
DE8484103993T DE3482627D1 (en) 1983-04-11 1984-04-10 ORTHOGONAL TRANSFORMATION AND DEVICE FOR IMPLEMENTING IT.
US07/177,799 US4839844A (en) 1983-04-11 1988-04-06 Orthogonal transformer and apparatus operational thereby

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58069474A JPS59195286A (en) 1983-04-20 1983-04-20 Voice analyzer

Publications (2)

Publication Number Publication Date
JPS59195286A JPS59195286A (en) 1984-11-06
JPH0219477B2 true JPH0219477B2 (en) 1990-05-01

Family

ID=13403707

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58069474A Granted JPS59195286A (en) 1983-04-11 1983-04-20 Voice analyzer

Country Status (1)

Country Link
JP (1) JPS59195286A (en)

Also Published As

Publication number Publication date
JPS59195286A (en) 1984-11-06

Similar Documents

Publication Publication Date Title
EP0128298B1 (en) Orthogonal transformer and apparatus operational thereby
Chan Wavelet basics
Rao et al. Digital signal processing: Theory and practice
EP2932502B1 (en) Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
DK2337224T3 (en) Filter unit and method for generating subband filter pulse response
RU2668060C2 (en) Method and apparatus for compressing and decompressing a higher order ambisonics representation
US8155954B2 (en) Device and method for generating a complex spectral representation of a discrete-time signal
Lai Practical digital signal processing
JP2005148274A (en) Signal analyzing method and signal composing method for complex index modulation filter bank, and program therefor and recording medium therefor
JPH05145428A (en) Method and device for coding and decoding digital signal
Szu et al. Image wavelet transforms implemented by discrete wavelet chips
JP3918034B2 (en) Method and apparatus for determining mask limits
JPH0722957A (en) Signal processor of subband coding system
US20230051509A1 (en) Method and system for implementing a modal processor
US4231277A (en) Process for forming musical tones
Narasimhan et al. Signal processing: principles and implementation
JPH0219477B2 (en)
JPS6145408B2 (en)
EP0797824A1 (en) Speech processing
JP2020194558A (en) Information processing method
US20200090637A1 (en) Method and system for implementing a modal processor
JPS59195288A (en) Voice analyzer
WO1994019791A1 (en) Improved filter for use in audio compression and decompression systems
Matusiak et al. Noninvertible gabor transforms
JP3060767B2 (en) Modified discrete cosine transform and inverse transform method and apparatus