JPH0343640B2 - - Google Patents

Info

Publication number
JPH0343640B2
JPH0343640B2 JP56088152A JP8815281A JPH0343640B2 JP H0343640 B2 JPH0343640 B2 JP H0343640B2 JP 56088152 A JP56088152 A JP 56088152A JP 8815281 A JP8815281 A JP 8815281A JP H0343640 B2 JPH0343640 B2 JP H0343640B2
Authority
JP
Japan
Prior art keywords
filter
coefficient
autocorrelation coefficient
order
adaptive inverse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP56088152A
Other languages
English (en)
Other versions
JPS57204094A (en
Inventor
Nobuo Hataoka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP56088152A priority Critical patent/JPS57204094A/ja
Publication of JPS57204094A publication Critical patent/JPS57204094A/ja
Publication of JPH0343640B2 publication Critical patent/JPH0343640B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Filters That Use Time-Delay Elements (AREA)

Description

【発明の詳細な説明】
本発明は音声分析装置における、話者の個人差
による音声の変動を除去(正規化)する前処理に
関するものである。 音声分析、特に音韻性情報(例えば|音声|は
|onsei|という5つの音韻から構成されてい
る。)を抽出する音声認識において、話者が変わ
るごとにその音声を表わす特徴空間が変動するの
は好ましくない。話者によつて変動する原因とし
ては、話者の発声器官の物理的違いや発声のく
せ、なまりなどがある。話者の発声器官の物理的
違いとしては主に声帯音源特性の違いと声道の違
い(大きさ、長さ、形状など)があげられる。本
発明は前者の声帯音源特性の違いによる個人差に
着目してその差を正規化する手段を提供するもの
である。この個人差は音声スペクトル概形の全体
的な傾斜の違いという形で現われてくる。 従来、上記スペクトル概形の傾斜を平坦化し
て、音源特性の違いによる個人差を除去(正規
化)する方法としては、電総研の中島らによつて
示された適応逆フイルタがある。(日本音響学会
音声研究会資料(昭和48、2、16))適応逆フイ
ルタは音源特性や唇での放射特性の逆フイルタを
構成して、音声の音韻情報に深く関与している声
道特性を抽出するものであり、一般に1〜3次の
零フイルタ(特に2,3次は各々零点が等しい臨
界制動型フイルタ)が考えられている。しかし1
次零フイルタでは完全にスペクトラム概形の傾き
を平坦化するには到らず、一方2〜3次零フイル
タは各々高次方程式を分析区間ごとに解かなけれ
ばならない。 従つて、本発明の目的は適応逆フイルタの構成
において、話者の音源特性を除去するために音声
のスペクトラム概形を完全に平坦化し、かつ処理
速度の速い音声分析装置を提供することにある。 上記目的を達成するために、本発明において
は、係数が1次の部分相関係数に等しい1次の適
応逆フイルタを用い、該フイルタの出力信号を新
たな入力信号として該フイルタに巡回的に入力す
ることにより、該フイルタを等価的に多段構成と
し、かつ適応逆フイルタの効果が入力音声によつ
て大きく異なる事に着目し、フイルタの係数であ
る1次の部分自己相関係数の絶対値がある閾値よ
りも小さくなつた場合で打ち切つて適応的に段数
を切り換え、処理速度を速めることを第1の特徴
としている。 第2の特徴は、各段の出力を音声波形レベルに
戻さず、入力波形の自己相関係数から直接次段の
自己相関係数を算出し、掛け算の回数を大幅に減
らして、処理速度を速めることにある。 以上の結果、高次方程式を解かずに、ハード的
に構成し易い1次1段の適応逆フイルタを時分割
的に利用することによつて、完全にスペクトラム
概形を平坦にできる。 なお、本発明においては、上記1次1段の適応
逆フイルタの係数を、その値によつて3段階
(0、±1)に置き換え、掛け算の回数を減少させ
た簡易型適応逆フイルタにより処理速度を速める
簡易化手法も併せて示す。 以下、第1図を参照して本発明の原理を説明す
る。 第1図は、音声|a|のある時間におけるスペ
クトラムの様子を図示したものである。実線Aは
高速フーリエ変換(FFT)にて求めたもの、点
線Bは線形予測分析によつて求めた平滑化スペク
トラムである。第1図でわかるようにスペクトラ
ムは高域側が下がつた形状となつている。この原
因は声帯音源特性や唇の放射特性による約−
6dB/oct(周波数が2倍になれば6dB減衰する。)
という結果にもとづくものであるが、過去の研究
からこの傾きの度合は話者によつて大きく変動す
るということが判明している。電総研の中島らに
よつて提案された適応逆フイルタは、このスペク
トル概形の全体的傾斜を平坦化し、音源特性や放
射特性の個人差を除去するものである。 以下、1次と2次の適応逆フイルタを例にとつ
て説明する。1次の適応逆フイルタのZ領域での
伝達関数をH(Z)とすれば(時間tでの音声信
号をxt、1tNとする。) H(Z)=1−k1Z-1 ………(1) ここで k1=v1/v0 但し viN-1t-1 xt・xt+i(i=0、1、2…、p) となる。係数k1は音声分野で重要なパラメータ、
すなわち1次の部分(あるいは偏)自己相関係数
であり、スペクトラム概形の傾斜に関係したパラ
メータである。有音声の場合はk1の値が1に近
く、適応逆フイルタは微分特性を持ち、高域強調
の効果があり、また無声子音の場合はk1の値は−
1に近く、適応逆フイルタは積分特性を持ち、高
域が下り、結果としてスペクトラムの傾斜を平坦
化する効果を持つ。 一方、2次の適応逆フイルタのZ領域での伝達
関係H(Z)は、 H(Z)=(1−βZ-12 ………(2) ここでβは β3−3v1/v0β+(v2/v0+2)β−v1/v0
0 |β|<1の実根 となる。 1次では完全にスペクトル概形が平坦化され
ず、2次以上では式(2)からわかるように、分析区
間ごとに高次の方程式を解かなければならない。 さて、従来の研究から1次の適応逆フイルタの
2段で構成されたフイルタが2次の適応逆フイル
タとほぼ効果の等しいことが知られている。ま
た、1次の適応逆フイルタの効果が入力音声によ
つて異なる。そこで1次の適応逆フイルタを多段
に重ね、1次の部分自己相関係数の絶対値がある
閾値よりも小さくなつた場合(式(1)から|k1
0ならばフイルタの効果はほとんどなくなる。)
を打ち切りとして、適応的に段数を切り換える1
次の適応逆フイルタの段数適応型多段構成にする
ことが有効となり、本発明はこの点に着目してな
されたものである。 1次の適応逆フイルタn段構成の伝達関係は、 H(Z)=H1(Z)H2(Z)……Ho(Z)
………(3) 但し Hi(Z)=1−k1 (i-1)Z-1 k1 (i-1)はi−1段での出力信号を新たに入力信
号とみなして求めた1次の部分自己相関係数とな
る。 以下、第2図を参照して適応的段数切り換え方
式の多段適応逆フイルタの原理を説明する。 第2図は1次の適応逆フイルタの多段構成フイ
ルタの各段における1次の部分自己相関係数k1
値の変化を図示したものである(第2図Aが音韻
|a|、第2図Bが音韻|i|の場合をそれぞれ
示す。)。第2図からわかるように、k1の値は段数
の増加に伴い、0に収束する。更に、k1の変化と
スペクトラムの変化とを視察して、音韻|a|で
は5段以上、音韻|i|では3段以上での効果は
ほぼ認められないことから、k1の値により段数を
適応的に(例えば|a|では5段|i|では3
段)切り換えることによつて、処理量を少なく
し、効率的に多段構成が実現できる。k1の閾値θ1
は実験的にθ1=0.03とした。即ち、k1の絶対値が
θ1よりも小さくなつた場合をもつて、段数を打ち
切ることにする。 次に、従来の多段構成による適応逆フイルタと
本発明の第2の特徴である原音声信号の差分信号
波形を求めることなく自己相関係数を直接算出す
る方式、更には本発明の第1の特徴である適応的
段数切り換え方式との処理速度の違いを掛算処理
の回数に着目して説明する。 まず、直接自己相関係数算出方式の原理を述べ
る。 (3)式で示される多段構成の適応逆フイルタにた
いし、従来法では前段での出力信号(予測の差分
信号)を新たに入力信号とみなして、相関計算
(分析区間の総サンプル数をNとすると、ほぼN
回の掛算処理)と予測差分演算(N回の掛算が必
要)とを各段ごとにしなければならない。これに
反し直接自己相関係数算出方式は、初段のみ相関
計算を行えば、逐次巡回的に適応逆フイルタを通
した結果の自己相関係数が算出されるものであ
る。 今、i段目の出力音声信号をxt (i)とすれば、 xt (i)=xt (i-1)−k1 (i-1)xt-1 (i-1) ………(4) となる。従つて、i段目のp次の自己相関係数vp
(i)を(i−1)段でのvp (i-1)で表わせば次のよう
になる。 vp (i)N-1 〓 〓t-1 xt (i)xt+p (i)=Σ(xt (i-1)−k1 (i-1)xt-1 (i-1))(
xt+p (i-1)−k1 (i-1)xt+p-1 (i-1)) =vp (i-1)+k1 (i-1)・(k1 (i-1)vp (i-1)−vp-1 (i
-1)
−vp+1 (i-1))………(5) 但しpは1pPなる次数を示す。 この結果、相関計算の掛け算処理が2N回から、
(5)式では2回になり大幅に減少する。 従来の多段構成での掛け算の回数(k1を求める
割り算も数える)は、段数をn、p次までの相関
計算を行うとして、n=0の時は2N、n1の
時は新たにk1 (i-1)xt-1 (i-1)の掛け算が加わることと
最終段で2次〜P次までの相関計算を行うことに
注意して、 {2N+n(3N−1)+n}+ {(N−2)+…、+(N−P)} =(3n+P+1)N−(P−1)(P+2)/2 回となる。一方、本発明による直接相関係数を算
出する方法では、n段目でPまでの自己相関係数
を得るのに必要な初段での自己相関係数の次数は
(n+P)次であることを注意して、 (n+P+1)N−(n+P)(n+P+1)/2 +2{(n+P)+(n+P+1) +…+(P+1)}+(n+1) =(n+P+1)N+n(n+2・P+1) −(n+P)(n+P+1)/2+(n+1) 回となる。 最大段数をn=5、相関次数をP=10、分析区
間のサンプル総数をN=160とした場合の、従来
方式と新方式との掛け算の回数は表1のようにな
る。
【表】 以上の結果、打ち切り段数は一般に2、3回以
上であることから、本発明によつて大幅に掛け算
回数を減らすことができる。 次に、本発明の変形として多段を構成する1次
の適応逆フイルタの係数をk1の値によつて、つぎ
の3段階に置き換え、掛算処理の不要な簡易型適
応逆フイルタの構成について説明する。 H(Z)=1−Z-1(k1θ2) 1(θ1<k1<θ2) 1−Z-1(k1θ1) ……(6) θ1、θ2の値は実験的に求められるが、音声信号
を単一正弦波とした場合、k1=cosωT(ω;単一
正弦波の角周波数、T;サンプリング周期)とな
ることから、cosの偏角空間からの決定が望まし
い。たとえば、θ2=−θ1=0.5とした実験では良
好な結果(簡易型でない本来の適応逆フイルタを
構成要素とした場合に近い効果)を得た。 以下、実施例をもつて本発明を詳細に説明す
る。 第3図は本発明による適応的段数切り換え方式
の多段構成適応逆フイルタを前処理部とする音声
分析装置の構成ブロツク図である。 入力音声1(アナログ量)は低域通過波器2
(Low Pass Filter…以下、LPFとする)を通つ
て、アナログ−デイジタル変換器3(Analog to
Digital Converter…以下、ADCとする)により
デイジタル量に変換されて、入力バツフアメモリ
4に格納される。入力バツフアメモリ4は前処理
と入力との平行処理が可能な2面バツフア構成に
なつていて分析を行う期間分のデータを格納し、
制御部5の制御信号によつて本発明による前処理
部6に入力される。前処理部6では1次の部分自
己相関係数の絶対値が閾値θより小さくなるま
で、出力信号を再度入力バツフア4に転送し、再
び制御信号によつて前処理部6に入力される。上
記θよりも小さい条件が満たされたなら、入力バ
ツフア4の内容が、分析部7へ入力され、音声の
分析が始まる。もし上記条件が決められた時間
(入力バツフア4の分析側に次の分析区間のデー
タが入力されるまでの時間など)内に満たされな
い場合は、前もつて決められた最終段階で打ち切
ることとし、次の分析部7での分析処理に移る。 第4図は本発明による第3図における前処理部
6の第1の実施例の構成ブロツク図である。 分析区間だけ音声信号が格納されている入力バ
ツフア4から、入力バツフア4に入力された順序
に従つて、音声信号がレジスタ601に転送され
る。このとき、1サンプリング周期だけ前にレジ
スタ601に入力されていた音声信号データはレ
ジスタ602に転送され、掛算器603,60
4、累算器(Accumulator…以下、ACCとする)
605,606によつて各々v0及びv1が計算され
る。更にACC605の出力v0は逆数ROM607
の読み出しアドレスとなり、逆数1/v0に変換さ
れて、掛算器608の乗数となり、1次の部分自
己相関係数k1が出力される。k1の値はレジスタ6
09を介して絶対値比較器610に入力され、閾
値θとの大小関係を比較し、|k1|<θの条件が
満足されれば割り込み信号INTが制御部へ送ら
れる。制御部に割り込みがかかると、入力バツフ
ア4の内容が前記第2図の分析部7へ転送され分
析が始まる。割り込みがない場合は以下の処理が
継続される。 音声信号は再び制御信号によつて、入力バツフ
ア4からレジスタ601,602に転送され、今
度はレジスタ602の出力が掛算器611の入力
となりレジスタ609の出力k1との乗算が行われ
る。掛算器の出力は、レジスタ601の出力とと
もに減算器612に入力され、1段の前処理の出
力信号として再度入力バツフア4に格納され、1
次の自己相関係数k1を求める最初の処理へ戻る。 以上によつて、k1の絶対値が閾値θよりも小さ
くなるまで前処理が継続され、本発明による前処
理が実行される。 第5図は、直接相関係数を算出する場合の本発
明による前処理部6の第2の実施例の構成ブロツ
ク図である。初段のみ、レジスタ621(#0〜
#(n+P))、掛算器622(#0〜#(n+
P))、ACC623(#0〜#(n+P))を使つ
て、自己相関係数v0〜vo+pを求め、相関入力バツ
フア624に格納する。前記第4図と同様に逆数
ROM625、掛算器626は一次の自己相関係
数k1を求める手段であつて、レジスタ627、絶
対値比較器628によつて、θとの大小関係を比
較する。k1の絶対値がθよりも小さくなつたな
ら、割り込み信号INTが制御部へ入力され、処
理は分析部7へ移る。次段の自己相関係数vp (i)
(0Pn+P−i−1)は前記(5)式により、
前段の自己相関係数vp (i-1)(0pn+P−i)
とk1 (i-1)により演算器629により算出される。
次段の自己相関係数を求める手段である演算器6
29は、掛算器m1,m2の2個、加算器a1,a2
a3の3個で構成され、出力は再度相関出力バツフ
ア624に格納される。 以上により、掛算処理の少ない、処理速度の速
い前処理部6が構成される。 第6図は、簡易型適応逆フイルタの一構成例を
図示したものである。(6)式に示すようにk1の値を
3段階に分け制御部5から出力されるこの3段階
に対応した制御信号CR(−1,0,1)に従つ
て、入力xt,xt-1から条件付演算器631にて(7)
式により出力ytが計算され入力バツフア4へ転送
される。 yt=xt+xt-1CR=−1 xtCR=0 xt−xt-1CR=1 ……(7) 条件付演算器は掛算器を不要とする高々加算器
1個で構成されうる。制御信号は、例えば前記第
4図の絶対値比較器610の出力信号を用いるこ
とによつて得られる。 次に、第7図を参照して本発明の効果を説明す
る。 第7図は、音声を表わす重要なパラメータであ
る部分自己相関係数の話者効果(実線)音韻効果
(一点鎖線)の度合を図示したものである。各効
果は分散比(級間分散/級内分散)という指標で
示され、値が大きい程、各要因による変動が大き
く、効果が大きいとみなされる。横軸は部分自己
相関係数の次数を表わしている。前処理をしない
場合aと本発明による前処理を行つた場合bとの
結果を示した。図から、前処理なしの場合は音韻
効果と話者効果とは近接しているが、本発明によ
る前処理の結果、話者効果が低減、かつ音韻効果
が増加している事がわかる。 すなわち、本発明によれば話者の違いによる変
動は小さくなり、音韻の違いが検出されやすくな
りその効果は大きい。
【図面の簡単な説明】
第1図は音声|a|のある時刻における周波数
スペクトラムを示し、第2図は多段適応逆フイル
タの段数と1次の部分自己係数との関係を音声|
a|と|i|の場合について示し、第3図は本発
明による前処理部を有する音声分析装置の構成を
示し、第4図は本発明による音声前処理部の第1
の実施例の構成を示し、第5図は本発明による音
声前処理部の第2の実施例の構成を示し、第6図
は簡易型適応逆フイルタの1構成例を示し、第7
図は部分自己相関係数の話者効果と音韻効果を分
散比の指標で示したものである。 6……前処理部、7……分析部。

Claims (1)

  1. 【特許請求の範囲】 1 係数が1次の部分自己相関係数に等しい1次
    の適応逆フイルタを用い、該フイルタの出力信号
    を新たな入力信号として該フイルタに巡回的に入
    力することにより、該フイルタを等価的に多段構
    成とし、該フイルタの係数である1次の部分自己
    相関係数の絶対値の大きさに基づいて該フイルタ
    の段数を適応的に切り換える制御部を備えたこと
    を特徴とする音声分析装置。 2 上記制御部は、上記フイルタの係数である1
    次の部分自己相関係数の絶対値の大きさを所定の
    閾値と比較し、該閾値よりも小さい場合に上記フ
    イルタの処理を打ち切ることにより、上記フイル
    タの段数を切り換えることを特徴とする特許請求
    の範囲第1項に記載の音声分析装置。 3 上記フイルタの係数である1次の部分自己相
    関係数の絶対値の大きさが所定の時間内に上記閾
    値よりも小さくならない場合は、あらかじめ決め
    られた繰返し回数で上記フイルタの処理を打ち切
    ることを特徴とする特許請求の範囲第2項に記載
    の音声分析装置。 4 上記フイルタとして、入力音声信号の差分信
    号波形を出力し、該差分信号波形を新たな入力信
    号として入力する適応逆フイルタを用いることを
    特徴とする特許請求の範囲第1項乃至第3項のい
    ずれかに記載の音声分析装置。 5 上記フイルタとして、入力音声信号の自己相
    関係数列を求める手段と、該自己相関係数列とそ
    の1次の部分自己相関係数とから次段の自己相関
    係数列を直接算出する演算手段とからなる適応逆
    フイルタを用い、該演算手段の出力信号を新たな
    入力信号として該演算手段に巡回的に入力するこ
    とを特徴とする特許請求の範囲第1項乃至第3項
    のいずれかに記載の音声分析装置。 6 上記フイルタとして、該フイルタの係数であ
    る1次の部分自己相関係数を、その値によつて
    0、±1のいずれかに置き換える簡易型適応逆フ
    イルタを用いることを特徴とする特許請求の範囲
    第1項乃至第3項のいずれかに記載の音声分析装
    置。
JP56088152A 1981-06-10 1981-06-10 Pretreatment for voice analyzer Granted JPS57204094A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56088152A JPS57204094A (en) 1981-06-10 1981-06-10 Pretreatment for voice analyzer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56088152A JPS57204094A (en) 1981-06-10 1981-06-10 Pretreatment for voice analyzer

Publications (2)

Publication Number Publication Date
JPS57204094A JPS57204094A (en) 1982-12-14
JPH0343640B2 true JPH0343640B2 (ja) 1991-07-03

Family

ID=13934952

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56088152A Granted JPS57204094A (en) 1981-06-10 1981-06-10 Pretreatment for voice analyzer

Country Status (1)

Country Link
JP (1) JPS57204094A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2554255B2 (ja) * 1987-03-23 1996-11-13 旭光学工業株式会社 フイルタリング装置
WO2010073977A1 (ja) * 2008-12-22 2010-07-01 日本電信電話株式会社 符号化方法、復号方法、それらの装置、プログラム及び記録媒体
JP2023064381A (ja) * 2021-10-26 2023-05-11 株式会社リコー 情報処理方法、情報処理装置、プログラム、情報処理システム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5848112B2 (ja) * 1975-03-31 1983-10-26 日本電気株式会社 オンセイブンセキキ

Also Published As

Publication number Publication date
JPS57204094A (en) 1982-12-14

Similar Documents

Publication Publication Date Title
CN103189916B (zh) 估计信号模式的方法和设备
US20050216259A1 (en) Filter set for frequency analysis
JPH0863197A (ja) 符号化音声信号の復号化方法
AU2002252143A1 (en) Segmenting audio signals into auditory events
CN113077806A (zh) 音频处理方法及装置、模型训练方法及装置、介质和设备
Kumar et al. Performance evaluation of a ACF-AMDF based pitch detection scheme in real-time
US20090070108A1 (en) Method and system for identifying speech sound and non-speech sound in an environment
JPH0343640B2 (ja)
EP1008138B1 (en) Fourier transform-based modification of audio
Amraoui et al. A novel approach on speaker gender identification and verification using DWT first level energy and zero crossing
JP7461192B2 (ja) 基本周波数推定装置、アクティブノイズコントロール装置、基本周波数の推定方法及び基本周波数の推定プログラム
JP4571871B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
Kato A code for two-dimensional frequency analysis using the Least Absolute Shrinkage and Selection Operator (Lasso) for multidisciplinary use
JP4760179B2 (ja) 音声特徴量算出装置およびプログラム
Meriem et al. New front end based on multitaper and gammatone filters for robust speaker verification
Muralishankar et al. Theoretical complex cepstrum of DCT and warped DCT filters
Zeremdini et al. Multi-pitch estimation based on multi-scale product analysis, improved comb filter and dynamic programming
JPH0318720B2 (ja)
Lee et al. Stacked U-Net with high-level feature transfer for parameter efficient speech enhancement
Braasch Convolution, Fourier analysis, cross-correlation and their interrelationship
Bhattacharya et al. Machine Learning for Audio
Krause Recent developments in speech signal pitch extraction
Nyborg The Fast Fourier Transform and its use in Spectral Analysis of Digital Audio
Pinjare et al. Implementation of STFT for Auditory Compensation on FPGA
Hugli Signal Procesing Laboratory Swiss Federal Institute of Technology