JP3312636B2 - 音響信号分析合成装置 - Google Patents

音響信号分析合成装置

Info

Publication number
JP3312636B2
JP3312636B2 JP01815894A JP1815894A JP3312636B2 JP 3312636 B2 JP3312636 B2 JP 3312636B2 JP 01815894 A JP01815894 A JP 01815894A JP 1815894 A JP1815894 A JP 1815894A JP 3312636 B2 JP3312636 B2 JP 3312636B2
Authority
JP
Japan
Prior art keywords
amplitude information
dimensional
information
feature
dimensional amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP01815894A
Other languages
English (en)
Other versions
JPH07225596A (ja
Inventor
雅博 藤田
サグァンコットチャコーン ソムサック
和彦 高林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP01815894A priority Critical patent/JP3312636B2/ja
Publication of JPH07225596A publication Critical patent/JPH07225596A/ja
Application granted granted Critical
Publication of JP3312636B2 publication Critical patent/JP3312636B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音響信号、特に音声信
号の抽出、分離、特徴抽出及び符号化を行う音響信号分
析合成装置に関する。
【0002】
【従来の技術】音声認識において、雑音レベルの高い場
所での認識や目的とする人間以外の音、音声をある環境
での認識を行なうことが、実用化への大きな課題となっ
ている。
【0003】これに対して、マイクの指向特性を工夫す
るものや適応信号処理を用いて雑音を抑圧するものなど
があるが、マイクの指向特性を工夫する方法は、指向特
性を狭くするとその効果は高い半面、動く音源に追従し
なければならないなどの困難が発生する。また、適応信
号処理では目的とする信号以外、すなわち妨害音のみか
ら作られる参照信号をいかに検出するかに大きな間題点
がある。
【0004】また、参考文献(2)に挙げるようなフィ
ルタバンクのエンベローブ信号を利用したものもある
が、問題が2種類の信号に限定されていたり、前提条件
として1つ1つの信号を周期関数P(t)にエンベロープ信
号A(t)を乗算したものものに限定していたり、2つの信
号のエンベロープを独立に近似できるフィルタの存在と
それを用いての定式化であったり、と現実の音声と妨害
音の和信号から音声を抽出することが困難である。
【0005】そこで、参考文献(3)では、聴覚信号の
表現法としてやはりフィルタバンクの出力の時間方向へ
の極大値検出とその整流、および周波数方向への極大値
検出とその整流という形を取っている。これは、聴覚神
経の”基底膜一Hair細胞一一側抑制”の部分を忠実
にモデル化したものである。また、参考文献(3)で
は、Convex Projection法を用いて入力された信号の再
合成も試みている。ここでは、'Spectral Enhancement'
あるいは'Noise Suppression'という言葉で声の信号強
調が議論されている。
【0006】
【発明が解決しようとする課題】しかしながら、この参
考文献(3)は、実際にはスペクトラムのピーク強調と
時間方向に平均してスムーシングしたものを凸射影法を
用いて音声信号を合成したものであり、ランダムノイズ
の様なものには有効と思われるが、一般的な妨害音の除
去には有効ではない。
【0007】本発明は、上記事情に鑑みてなされたもの
であり、簡単な構成により、異なる種類の1次元信号の
和信号から特定の信号を確実に分離、抽出できる音響信
号分析合成装置を提供することを目的としている。
【0008】
【課題を解決するための手段】本発明の音響信号分析合
成装置は、1次元入力信号から2次元振幅情報を生成す
る2次元振幅情報生成手段と、2次元振幅情報の特徴点
を検出する特徴点検出手段と、特徴点検出手段により検
出された特徴点を連結して連結特徴線を生成し、連結特
徴線の情報に基づいて特徴点を選択する特徴点処理手段
と、特徴点処理手段により選択された特徴点に基づいて
2次元振幅情報を復元する2次元振幅情報復元手段とを
備えることを特徴とする。 本発明の音響信号分析合成装
置は、特徴点処理手段によって選択された特徴点に基づ
き、2次元振幅情報復元手段によって復元された2次元
振幅情報と、1次元入力信号の位相情報とを合成して合
成信号を生成する合成信号生成手段をさらに備えること
ができる。 前記2次元振幅情報生成手段は、時間軸と周
波数軸の2次元振幅情報を生成するようにすることがで
き、前記特徴点検出手段は、2次元振幅情報の時間軸お
よび周波枢軸方向に対して分析を行って特徴点を検出す
るようにすることができる。 前記2次元振幅情報生成手
段は、時間軸と周波数軸の2次元振幅情報を生成するよ
うにすることができ、前記特徴点検出手段は、2次元振
幅情報の時間軸に対して所定の角度の方向に分析を行っ
て特徴点を検出するようにすることができる。
【0009】
【0010】
【作用】本発明の音響信号分析合成装置においては、1
次元入力信号から2次元振幅情報が生成され、2次元振
幅情報の特徴点が検出され、検出された特徴点を連結し
て連結特徴線が生成され、この連結特徴線の情報に基づ
いて特徴点が選択される。さらに、選択された特徴点に
基づいて2次元振幅情報が復元されるので、簡単な構成
により、異なる種類の1次元信号の和信号から特定の信
号を確実に分離、抽出する
【0011】
【0012】
【実施例】以下、図面を参照しながら本発明の実施例に
ついて述べる。
【0013】図1に示す本実施例の音響信号分析合成装
置において、符号1は音響信号である入力信号f(t)を分
析する第1フィルタバンクであり、符号2は第1フィル
タバンク1のヒルベルト対からなる第2フィルタバンク
である。これらの出力は振輻検出部3および位相検出部
4で振幅項と位相項に分解され、振幅項は振幅分析部5
に入力される。振幅分析部5では振幅項に対して2次元
的な処理を施し、振幅項の特徴点を検出し、その結果を
特徴点処理部6に出力する。特徴点処理部6では特徴点
を連結しその連結の情報を基づき、不必要な特徴点の除
去等の加工を行う。加工された特徴点情報は振幅復元部
7に入力され、そこで、振幅情報の復元をおこなう。復
元された振幅情報は位相検出部4の出力と共にフィルタ
出力復元部8に入力され、第1フィルタバンク1、第2
フィルタバンク2の出力に対応する信号を得る。それら
は、信号合成部12を構成する第1逆フィルタバンク
9、第2逆フィルタバンク10にそれぞれ入力され、そ
の出力を加算器11で加えることで処理された信号f'
(t)が得られる。
【0014】以下に、上記の音響信号分析合成装置の各
構成部を詳細に説明する。
【0015】[第1フィルタバンク1]第1フィルタバ
ンク1として、本実施例ではガンマトーンフィルタと呼
ばれるものを用いている。
【0016】第1フィルタバンク1は、その実部に対応
するものであり、インパルス応答gt_1(t)は、 (式1) gt_1(t)=a pow(t,n-1)exp(-2πbt)cos(2πf_
0t) で表すことができる。上式でpow(x,y)は、xのy乗を意
味する。また、tは時間、f_0はフィルターの中心周波
数、a及びbは中心周波数f_0によって決まる適当な定
数、nは適当な整数である。本実施例では、a=1,n=4とし
て、bは、 (式2) b=1.019×24.7(4.37f_0/1000+1) とした。このbの式は参考文献(1)による。
【0017】また、中心周波数f_0は (式3) f_0=f_start×pow(2,s/M) とした。ここで、f_startはスタート周波数で、例えば
200Hzを設定する。また、s=0,1,・・,S−
1は、第1フィルタバンク1を構成するS個のフィルタ
の番号である。このsを、以下スケールと呼ぶ。したが
って、以下gt_1(t)はスケールsの関数でもあるので、gt
_1(t,s)と表す。
【0018】ここで、入力信号f(t)と、このs番目のフ
ィルタのインパルス応答を畳み込み、フィルタ出力とし
て、以下のGf(t,s)を得る。 (式4) Gf(t,s)=gt_1(t,s)*f(t) そして、この出力Gf(t,s)は振幅検出部3および位相検
出部4へ送られる。
【0019】[第2フィルタバンク2]第2フィルタバ
ンク2は、第1フィルタバンク1の各フィルタのヒルベ
ルト変換対に依るバンクであり、後段の振幅位相情報を
得るために利用される。そのインパルス応答gt_2(t)
は、 (式5) gt_2(t)=a pow(t,n-1)exp(-2πbt)sin(2πf_
0t) である。上式中の各定数は第1フィルタバンク1と同し
に設定する。gt_1(t)と同様に、これはsの関数でもある
ので、gt_2(t,s)と表す。
【0020】このフィルタにf(t)が入力され以下の式で
表されるHf(t,s)を得る。 (式6) Hf(t,s)=gt_2(t,s)*f(t) この出力Hf(t,s)も第1フィルタバンク1と同様に、振
幅検出部3および位相検出部4へ送られる。
【0021】[振幅検出部3]振幅検出部では、第1フ
ィルタバンク1、第2フィルタバンク2の各フィルタの
出力から以下の振幅情報A(t,s)を取りだし、振幅分析部
5及び振幅復元部7に出力する。 (式7) A(t,s)=SQRT[Gf(t,s)×Gf(t,s)+Hf(t,s)×Hf
(t,s)] 上式において、SQRT[]は平方根を取ることを意味する。
【0022】[位相検出部4]位相検出部では、第1フ
ィルタバンク1、第2フィルタバンク2の各フィルタの
出力から以下の位相情報P(t,s)を取りだし、フィルタ出
力復元部8に出力する。 (式8) P(t,s)=atan[Hf(t,s),Gf(t,s)] 上式において、atan[y,x]は、x=Acos[θ],y=sin[θ]を
与えるθを求める関数である。
【0023】[振幅分析部5]振幅分析部5では、振幅
検出部3の出力A(t,s)を入力信号としてそれを分析して
特徴点を検出する。本実施例では多重解像度を用いた方
法で、分析フィルタに次のようなスムーシング関数G(t,
s;σ)をt方向とs方向に微分した形のインパルス応答
のフィルタを用いる。 (式9) W1(t,s;σ)=∂G(t,s;σ)/∂t (式10) W2(t,s;σ)=∂G(t,s;σ)/∂s
【0024】ここで、スムーシング関数G(t,s;σ)に以
下のガウス関数を用い、σは標準偏差である。 (式11) G(t,s;σ)=1/SQRT(2π)/σexp[-(t*t+s*s)
/2/σ/σ]
【0025】この分析フィルタW1(t,s;σ)及びW2(t,s;
σ)を振幅情報A(t,s)に畳み込み、以下のW1A(t,s;σ)と
W2A(t,s;σ)を得る。 (式12) W1A(t,s;σ)=W1(t,s;σ)**A(t,s) (式13) W2A(t,s;σ)=W2(t,s;σ)**A(t,s) なお、上式で記号”**”は、2次元の畳み込みを表す。
【0026】このW1A(t,s;σ)とW2A(t,s;σ)の極大値、
極小値をそれぞれ検出する。極値を求める方法は、もう
一回微分のゼロクロスを求める問題と考えられる。すな
わち、次のようなインパルス応答のフィルタを考える。 (式14) V1(t,s;σ)=∂W1(t,s;σ)/∂t (式15) V2(t,s;σ)=∂W1(t,s;σ)/∂s
【0027】これは、元のスムーシング関数G(t,s;σ)
の2回微分になる。このフィルタを振幅情報A(t,s)に畳
み込み、以下のV1A(t,s;σ)とV2A(t,s;σ)を得る。 (式16) V1A(t,s;σ)=V1(t.s;σ)**A(t,s) (式17) V2A(t,s;σ)=V2(t.s;σ)**A(t,s)
【0028】この出力信号V1A(t,s;σ)及びV2A(t,s;σ)
のゼロクロス点を探す。すなわち、V1A(t,s;σ)はt方
向にデータを読み符号が反転する点を見つける。V2A(t,
s;σ)はs方向にデータを読み符号が反転する点を見つ
ける。
【0029】そのようにして抜き出したV1A(t,s;σ),V2
A(t,s;σ)のゼロクロス点、すなわち、W1A(t,s;σ),W2A
(t,s;σ)の極値点の集合をそれぞれ順にP1(t_i(s),s;
σ),P2(t,s_j(t);σ)とする。ただし、t_i(s)はスケー
ルsにおけるW1A(t,s;σ)の極値を与えるtを小さい順に (式18) t_1(s)<t_2(s)<…<t_I(s) とI(s)個並べたものである。同様に、s_j(t)は時刻tに
おける、W2A(t,s;σ)の極値を与えるsを小さい順に (式19) s_1(t)<s_2(t)<…<s_J(t) とJ(t)個並べたものである。
【0030】また、W1A(t,s;σ),W2A(t,s;σ)の極値点
には”1”、そうでない点には”0”をおいた2次元ビ
ットマップをP1A(t,s;σ),P2A(t,s;σ)とする。実際の
処理にはこのP1A(t,s;σ),P2A(t,s;σ)を用い、特徴点
処理部6に出力する。
【0031】[特徴点処理部6]このままではP1A(t,s;
σ)は2次元平面(t,s)の点集合であるが、特徴点
処理部6では、この点集合の連結性を調べて線集合にす
る。すなわち、極値点を与える”1”の値が2次元ピク
セル上で近接する領域内にあった場合は、その点をつな
いで線情報とする。得られた線をL1(k;σ)とする。k=
1,2,3,…,K(σ)は適当に順序づけられた線の
番号を表し、全部でK(σ)個の線が得られたことを示
す。
【0032】同様に、P2A(t,s;σ)も線集合にする。得
られた線をL2(h;σ)とする。h=1,2,3,…,H
(σ)は適当に順序づけられた線の番号を表し、全部で
H(σ)個の線が得られたことを示す。
【0033】ここで、L1(k;σ)とL2(h;σ)の意味を簡単
に述べておく。振幅情報A(t,s)は2次元空間(t,s)
上の情報であり、ほぽサウンドスペクトラムと同じ物で
ある。スケールsは、ほぼスペクトラムの周波数に対応
するので、スペクトルエンベローブの時間方向tへ伸び
た尾根に関する情報がL2(h;σ)の線情報に乗っている。
【0034】逆にL1(k;σ)には時問的に急変する信号に
関する情報、あるいは、ピッチ情報が乗っている。ただ
し、ピッチ周波数は周波数軸にも現われるので、2次元
空間(t,s)上の線L2(h)のsに関する位置情報はピッ
チ周波数にも関係している。
【0035】さて、ここで音声にランダムノイズの様な
雑音が乗っていたとする。このようなノイズは短い線セ
グメントとしてL2(k),L1(h)を構成する。したがって、
適当に与えた長さのスレッショルドを越えた線をL1(k),
L2(h)から選び出すことにより、このランダムノイズの
情報を落とすことが可能である。
【0036】このようにして処理した線情報を再び番号
付けし、L1'(k';σ),L2'(h';σ)とする。ここで、k'=
1,2,3,…,K’(σ),h'=1,2,3,…,
H’(σ)で、K’(σ)<=K(σ)、H’(σ)<
=H(σ)である。このL1'(k';σ),L2'(h';σ)を次の
振輻復元部7に送る。
【0037】[振幅復元部7]振幅復元部7では、L1'
(k';σ),L2'(h';σ)から振幅情報復元する。まず、線情
報L1'(k';σ),L2'(h';σ)を各σの2次元平面(t,
s;σ)上におき直し極値点を2次元平面上に表したも
のを順にP1A'(t,s;σ),P2A'(t,s;σ)とする。
【0038】次に、この極値を与える点にもとの極値そ
のもの、W1A(t,s;σ),W2A(t,s;σ)を情報としておいて
いく。その信号をPW1A(t,s;σ),PW2A(t,s;σ)とする。
これらは、P1A'(t,s;σ)=1,P2A'(t,s;σ)=1の点にのみ
値が存在する信号である。そして、この信号PW1A(t,s;
σ),PW2A(t,s;σ)を凸射影法を用いて振福情報を復元す
る。
【0039】ここで、凸射影法のアルゴリズムを簡単に
説明する。まず、初期状態としてすべての2次元平面
(t,s;σ)で、ER1(t,s;σ)=0,ER2(t,s;σ)=0なる
信号を用意する。これと、PW1A(t,s;σ),PW2A(t,s;σ)
との差をとる。 (式20) ER1(t,s;σ)<-PW1A(t,s;σ)-ER1(t,s;σ) (式21) ER2(t,s;σ)<-PW2A(t,s;σ)-ER2(t,s;σ) 上式で記号”<-”は、代入を示している。
【0040】次に、このER1(t,s;σ),ER2(t,s;σ)をt
方向、s方向に補間する。具体的にはスムーシングフィ
ルタG(t;σ)、G(s;σ)を畳み込む。ここでは、G(t;σ),G
(s;σ)を平均0、標準偏差σのガウス関数とする。すな
わち、あるsにおいて、 (式21) ER1A(t,s;σ)=ER1(t,s;σ)*G(t;σ) また、あるtにおいて (式22) ER2A(t,s;σ)=ER2(t,s;σ)*G(s;σ) である。
【0041】このようにして得たERlA(t,s;σ),ER2A(t,
s;σ)を初期状態W1A'(t,s;σ)=0,W2A'(t,s;σ)=0なる信
号と足し込む。 (式23) W1A'(t,s;σ)<-W1A'(t,s;σ)+ER1A(t,s;
σ) (式24) W2A'(t,s;σ)<-W2A'(t,s;σ)+ER2A(t,s;
σ)
【0042】これに対し、A(t,s)を復元するために、分
析フィルタW1(t,s;σ),W2(t,s;σ)の逆フィルタを置み
込む。逆フイルタをIW1(t,s;σ),IW2(t,s;σ)とする
と、 (式25) AA'(t,s)=Σ[IW1(t,s;σ)**W1A'(t,s;σ)+
IW2(t,s;σ)**W2A'(t,s;σ)] なお、上式においてΣはσに対して行なう。
【0043】この信号AA'(t,s)を(式12)、(式1
3)のA(t,s)のかわりに代入し、その結果をW1A'(t,s;
σ),W2A'(t,s;σ)とする。これと、P1A'(t,s;σ)=1,P2
A'(t,s;σ)=1におけるPW1A'(t,s;σ),PW2A'(t,s;σ)と
の差をER1(t,s;σ),ER2(t,s;σ)とおいて、以下(式2
0)〜(式25)をAA'(t,s)の変更量の総和がある値以
下になろまで繰り返す。このようにして最後に得られた
AA'(t,s)を復元した振幅情報をA'(t,s)とし、フィルタ
出力復元部8に出力する。
【0044】[フィルタ出力復元部8]フィルタ出力復
元部8では、復元された振幅情報をA'(t,s)と位柑情報P
(t,s)を用いて第1フィルタバンク1及び第1フィルタ
バンク2の出力に対応する信号を作るため、振幅と位相
情報を実部Gf'(t,s)と虚部Hf'(t,s)にわける。すなわ
ち、 (式26) Gf'(t,s)=A'(t,s)cos(P(t,s)) (式27) Hf'(t,s)=A'(t,s)sin(P(t,s)) を算出し、Gf'(t,s)を第1逆フィルタバンク9に、Hf'
(t,s)を第2逆フィルタバンク10にそれぞれ出力す
る。
【0045】[第1逆フィルタバンク9及び第2逆フィ
ルタバンク10]次に第1逆フィルタバンク9及び第2
逆フィルタバンク10について説明する。逆変換にあた
るフィルタバンクは、分析側と同様に2種類あり、その
インパルス応答をそれぞれ、INV-G(t,s),INV-H(t,s)と
する。tに関するフーリエ変換をFt[]で表し、共役複素
数をとることを、Conj[]で表すと、G(t,s),H(t,s)とINV
一G(t,s),INV一H(t,s)の関係は以下のようである。 (式28) Ft[INV-C(t,s)]=Conj[Ft[C(t,s)]]/C(w) (式29) Ft[INV-H(t,s)]=Conj[Ft[H(t,s)]]/C(w) ここで、wはtに対応する周波数軸で、C(w)はその関数
で、次の式で与えられる。 (式30) C(w)=S0RT[SUM_{s}[|FG(w,s)]|∧2+|FH(w,
s)]|∧2]] ただし、上式において、記号”SUM_{s}[]”は、すべて
のsに関しての加算を意味する。また、 (式31) FG(w,s)=F[G(t.s)] (式32) GH(w,s)=F[H(t,s)] であり、記号”|^2”は振幅の絶対値の2乗を意味し
ている。すなわち、 (式33) |FG(w,s)|∧2=FG(w,s)Conj[FG(w,s)] (式34) |FH(w,s)|∧2=FH(w,s)Conj[FH(w,s)]
【0046】このようにして設計したフィルタINV-G(t,
s),INV-H(t,s)をそれぞれGf'(t,s),Hf'(t,s)に畳み込
み、加算器11で結果の総和を求めることにより1次元
信号f'(t)を得る。すなわち、 (式35) f'(t)=SUM_{s}[Gf'(t,s)*INV-G(t,s)+Hf'
(t,s)*INV-H(t,s) これが、本実施例におけるノイズを除かれた音となる。
【0047】以上説明したように、本実施例の音響信号
分析合成装置によれば、意味のある音響信号を有した1
次元信号である入力信号を第1フィルタバンク1及び第
2フィルタバンク2を介し、その出力を2次元信号とし
てみたときのエッジ構造を振幅検出部3で検出し、振幅
分析部5及び特徴点処理部6でエッジ構造の長さ、角
度、エッジの位置におけるフィルタ出力値、前後の関係
を用いて音響信号を判断することにより、従来の時間方
向へフィルタバンク出力にスムーシングをかける場合に
比べて、入力信号からノイズのような信号を除去し、意
味のある音響信号を確実に分離、抽出することができ
る。
【0048】なお、本実施例の変形として、第1フィル
タバンク1、第2フィルタバンク2において、あるい
は、振幅復元部7で用いたその逆フィルタに関して、そ
のインパルス応答はgt_1(t),gt_2(t)あるいはその逆フ
ィルタに限るものではない。すなわち、例えば通常のウ
ェーブレットによるのものや、サブバンド符号化などで
用いられるQuadrature Mirror Filter,Conjugate Quadr
ature Filter,Symmetrical Short Kernel Filterなど、
あるいはShort Time Fourier Transformなどでもよい。
以上のものは逆フィルタが自動的に定義される。
【0049】また、振幅情報A(t,s)を分折する方法とし
て、本実施例では一次微分型の分析を行なったが、通常
の画像処理で用いられる処理は適用可能である。例え
ば、スムーシング関数G(t,s;σ)のt軸に対して0度、
60度、120度の方向へ2次微分とったものをA(t,s)
に畳み込み、その出力の極値を特徴点として与えること
は容易に類推できる。A(t,s)と通常の画像信号の違い
は、主としてA(t,s)には階段状に変化する縁はなく、山
のように上がって下がるという信号からなっているとい
うことである。つまり、G(t,s;σ)の2次微分のフィル
タ出力の谷の位置が元の振幅情報A(t,s)の尾根の位置に
相当する。従って、1次微分型のフィルタより2次微分
型のフィルタの方が特徴点としては意味のある位置を示
すことになる。2次微分フィルタの場合3方向の分析フ
ィルタを用いれば、エッジの方向に関する情報が得られ
ることは参考文献(4)に詳しい。
【0050】また、特徴点処理部6においてはL1(k),L2
(h)の長さだけでなく、L1(k),L2(h)の方向やL1(k),L2
(h)の位置にあるW1A(t,s;σ),W2A(t,s;σ)の値などを複
合して処理することは効果的である。例えば、L2(h)は
スペクトルエンベロープの尾根に対応する線になるが、
通常音声の母音部はt方向に平行に近い線になる。した
がって、t方向に対しての角度を元に取り除くべき情報
であるかを判断できる。
【0051】一方、破裂音の場合はt方向と直角に近い
角度、あるいは、比較的短い縦線になるが、スペクトロ
グラムの研究の結果、後続の母音と関係づけられて知覚
される。例えば、/p,t,k/の様な無声破裂音は後続の母
音により場合によって/p/と知覚されたり、/k/と知覚さ
れたりする。
【0052】また、線情報として母音とつながるような
線を構成しない。有性破裂音はそれに対して後続の母音
とつながるような線を構成する。したがって、t方向に
ほぼ平行な部分を持つ線およびt方向にほぼ平行な線の
直前にあるt方向に直角な短い線分は声に関係する情報
であるので取り除くべきではない。
【0053】さらに、ノイズなどの影響で線が途切れる
可能性もあるので、t方向にほぼ平行な線の直前にある
それとつながりそうなt方向と直角に近い線は取り除く
べきではない。
【0054】このように単に線の長い短いでなく、その
角度や前後の関係をもちいての判断を加えることにより
より効果的なノイズ除去が可能である。
【0055】[参考文献] (1)"Characterzation of signals from multiscale
edge",S.Mallat etal,IEEE Trns. on PAMI,PAMI-14(7),
pp.710-732,1992 (2)”ウェーブレット変換を用いたエンベロープの異
なる信号分離”、島内他、情報通信学会、通信技報、CS
92 No.98 pp.101-108,1993 (3)"Auditory representations of acorstic signal
s" (4)W.T.Freeman and E.H.Adelson,"Steerable Filte
rs for Early Vision,Image Analysis,and Wavelet Dec
omposition," The 3rd International Conference on C
omputer Vision,IEEE,December4-7,1990,pp.406-415
【0056】
【発明の効果】以上説明したように本発明の音響信号分
析合成装置によれば、2次元振幅情報生成手段で1次元
入力信号から2次元振幅情報を生成し、特徴点検出手段
で2次元振幅情報の特徴点を検出し、特徴点処理手段で
特徴点検出手段により検出された特徴点を連結して連結
特徴線を生成し、連結特徴線の情報に基づいて特徴点を
選択し、2次元振幅情報復元手段で特徴点処理手段によ
り選択された特徴点に基づい2次元振幅情報を復元す
るので、簡単な構成により、異なる種類の1次元信号の
和信号から特定の信号を確実に分離、抽出することがで
きるという効果がある。
【0057】また、合成信号生成手段で、特徴点処理手
段によって選択された特徴点に基づき、2次元振幅情報
復元手段によって復元された2次元振幅情報と、1次元
入力信号の位相情報とを合成して合成信号を生成するの
で、分離、抽出した特定の信号から所望の1次元信号を
復元することできるという効果がある。
【図面の簡単な説明】
【図1】本発明の音響信号分析合成装置の一実施例の構
成を示す構成図である。
【符号の説明】
1 第1フィルタバンク 2 第2フィルタバンク 3 振幅検出部 4 位相検出部 5 振幅分析部 6 特徴点処理部 7 振幅復元部 8 フィルタ出力復元部 9 第1逆フィルタバンク 10 第2逆フィルタバンク 11 加算器 12 信号合成部
フロントページの続き (56)参考文献 特開 平7−234697(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 11/00

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 1次元入力信号から2次元振幅情報を生
    成する2次元振幅情報生成手段と、 前記2次元振幅情報の特徴点を検出する特徴点検出手段
    と、 前記特徴点検出手段により検出された前記特徴点を連結
    して連結特徴線を生成し、前記連結特徴線の情報に基づ
    いて前記特徴点を選択する特徴点処理手段と、 前記特徴点処理手段により選択された前記特徴点に基づ
    前記2次元振幅情報を復元する2次元振幅情報復元
    手段とを備えことを特徴とする音響信号分析合成装
    置。
  2. 【請求項2】 前記特徴点処理手段によって選択された
    前記特徴点に基づき、前記2次元振幅情報復元手段によ
    って復元された前記2次元振幅情報と、前記1次元入力
    信号の位相情報とを合成して合成信号を生成する合成信
    号生成手段をさらに備えることを特徴とする請求項1に
    記載の音響信号分析合成装置。
  3. 【請求項3】 前記2次元振幅情報生成手段は、時間軸
    と周波数軸の2次元振幅情報を生成し、 前記特徴点検出手段は、前記2次元振幅情報の時間軸お
    よび周波枢軸方向に対して分析を行って特徴点を検出す
    ることを特徴とする請求項1に記載の音響信号分析合成
    装置。
  4. 【請求項4】 前記2次元振幅情報生成手段は、時間軸
    と周波数軸の2次元振幅情報を生成し、 前記特徴点検出手段は、前記2次元振幅情報の時間軸に
    対して所定の角度の方向に分析を行って特徴点を検出す
    ることを特徴とする請求項1に記載の音響信号分析装
    置。
JP01815894A 1994-02-15 1994-02-15 音響信号分析合成装置 Expired - Fee Related JP3312636B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP01815894A JP3312636B2 (ja) 1994-02-15 1994-02-15 音響信号分析合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01815894A JP3312636B2 (ja) 1994-02-15 1994-02-15 音響信号分析合成装置

Publications (2)

Publication Number Publication Date
JPH07225596A JPH07225596A (ja) 1995-08-22
JP3312636B2 true JP3312636B2 (ja) 2002-08-12

Family

ID=11963812

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01815894A Expired - Fee Related JP3312636B2 (ja) 1994-02-15 1994-02-15 音響信号分析合成装置

Country Status (1)

Country Link
JP (1) JP3312636B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10137685C1 (de) * 2001-08-01 2002-12-19 Tuerk & Tuerk Electronic Gmbh Verfahren zum Erkennen des Vorliegens von Sprachsignalen
ITTO20040013A1 (it) * 2004-01-13 2004-04-13 Fiat Ricerche Procedimento per il controllo della qualita' di processi industriali in particolare processi di saldatura laser
CN109767760A (zh) * 2019-02-23 2019-05-17 天津大学 基于振幅和相位信息的多目标学习的远场语音识别方法

Also Published As

Publication number Publication date
JPH07225596A (ja) 1995-08-22

Similar Documents

Publication Publication Date Title
US11282505B2 (en) Acoustic signal processing with neural network using amplitude, phase, and frequency
EP1103951B1 (en) Adaptive wavelet extraction for speech recognition
JP3301473B2 (ja) 広帯域音声信号復元方法
EP0853309B1 (en) Method and apparatus for signal analysis
EP2249333B1 (en) Method and apparatus for estimating a fundamental frequency of a speech signal
US7574352B2 (en) 2-D processing of speech
CN110706719A (zh) 一种语音提取方法、装置、电子设备及存储介质
US8185382B2 (en) Unified treatment of resolved and unresolved harmonics
JP2005266797A (ja) 音源信号分離装置及び方法、並びにピッチ検出装置及び方法
CN113160852A (zh) 语音情绪识别方法、装置、设备及存储介质
JP3312636B2 (ja) 音響信号分析合成装置
Shifas et al. A non-causal FFTNet architecture for speech enhancement
CN116705056A (zh) 音频生成方法、声码器、电子设备及存储介质
KR101547344B1 (ko) 음성복원장치 및 그 방법
JPH0573093A (ja) 信号特徴点の抽出方法
Dhiman et al. A Spectro-Temporal Demodulation Technique for Pitch Estimation.
Daubechies et al. Adaptive gabor transforms
JP3040651B2 (ja) 信号処理装置
Zeremdini et al. Multi-pitch estimation based on multi-scale product analysis, improved comb filter and dynamic programming
Thiem et al. Reducing artifacts in GAN audio synthesis
JP3472046B2 (ja) 信号分離装置
WO2021193637A1 (ja) 基本周波数推定装置、アクティブノイズコントロール装置、基本周波数の推定方法及び基本周波数の推定プログラム
JP2968976B2 (ja) 音声認識装置
JP3271193B2 (ja) 音声符号化方法
JP3230790B2 (ja) 広帯域音声信号復元方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020501

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090531

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100531

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100531

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110531

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120531

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees