JP7167686B2 - 音響信号処理装置、その方法、およびプログラム - Google Patents
音響信号処理装置、その方法、およびプログラム Download PDFInfo
- Publication number
- JP7167686B2 JP7167686B2 JP2018234185A JP2018234185A JP7167686B2 JP 7167686 B2 JP7167686 B2 JP 7167686B2 JP 2018234185 A JP2018234185 A JP 2018234185A JP 2018234185 A JP2018234185 A JP 2018234185A JP 7167686 B2 JP7167686 B2 JP 7167686B2
- Authority
- JP
- Japan
- Prior art keywords
- processing
- signal processing
- acoustic signal
- transformation
- transform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 164
- 238000000034 method Methods 0.000 title claims description 33
- 230000005236 sound signal Effects 0.000 title description 14
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 title 1
- 230000006870 function Effects 0.000 claims description 34
- 230000009466 transformation Effects 0.000 claims description 34
- 230000008569 process Effects 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000003672 processing method Methods 0.000 claims 2
- 238000013528 artificial neural network Methods 0.000 description 16
- 238000001228 spectrum Methods 0.000 description 9
- 238000000354 decomposition reaction Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000001131 transforming effect Effects 0.000 description 5
- 230000000873 masking effect Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000001994 activation Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000002945 steepest descent method Methods 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03H—IMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
- H03H17/00—Networks using digital techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
- Complex Calculations (AREA)
Description
xk=sk+nk (1)
ここで、kは時間領域における時間のインデックスである。観測信号から目的音を抽出するために、時間領域の観測信号をK点毎にL点まとめて解析することを考える。以降、観測信号をその様にまとめたt∈{0,…,T}番目の信号
xt=(xtK+1,…,xtK+L)T (2)
をtフレーム目の観測信号と表現する。ただしTは転置を表す。すると、tフレーム目の観測信号は、式(1)より、以下の様に記述できる。
xt=st+nt (3)
ここで
st=(stK+1,…,stK+L)T
nt=(ntK+1,…,ntK+L)T
である。STFTを用いた信号の時間周波数解析では、各時間フレームの観測信号に対してSTFTをかける。STFT後の信号は以下の性質を満たす。
^st=ISTFT[^S(STFT) t] (6)
今、観測信号からGtを推定する、パラメータθGを持つ関数をHと置く。そして、Gtを以下の様に定義する。
Gt=H(xt|θG) (7)
なお、近年盛んに研究されている深層学習を用いた音源強調では、Hを深層ニューラルネットワーク(DNN:deep neural network)で設計する手法が主流である。以降では、HはDNNを利用して実装されていると仮定する。すると式(5)と式(6)より、^S(STFT) tと^stは以下の様に記述できる。
JPSF(θM)=E[||St-M(Xt|θM)||2 2]t (11)
ISTFT後の信号の平均絶対誤差
JE2E(θM)=E[||st-^st||1]t (12)
などを利用すれば良い。ここで||・||pはLpノルム、E[・]tはtに関する期待値を表す。
1.処理Mを高度化することで位相スペクトルも推定する。
2.STFT領域ではない実数の領域で音源強調を行う。
の2つがある。
(参考文献1)D. W. Griffin and J. S. Lim, "Signal estimation from modified short-time Fourier transform", IEEE Trans. Acoust. Speech Signal Process., 32, p.236-243 (1984).
(参考文献2)D. S. Williamson, Y. Wang and D. L. Wang, "Complex ratio masking for monaural speech separation", IEEE/ACM Transactions on Audio, Speech, and Language Processing, pp.483-492, 2016.
(参考文献3)Y. Koizumi, N. harada, Y. Haneda, Y. Hioka, and K. Kobayashi, "End-to-end sound source enhancement using deep neural network in the modified discrete cosine transform domain", in Proc. ICASSP, 2018.
従来、深層学習の有無に限らず、音声/音響信号処理では、波形をそのまま扱うことは稀であり、多くの場合、観測信号を短い時間区間毎にフーリエ変換(STFT)し、その信号に対して強調や識別をかける。ところが、STFTは実数から複素数への変換であり、複素数を利用した深層学習はその学習が複雑になることから、STFTスペクトルの振幅情報のみを利用したり、制御したりすることが多い。これは、位相スペクトルの情報を無視していることになる。そのため、観測信号から得られる情報を余すことなく利用しているとは言えない。本実施形態は、もはや周波数変換がSTFTでなければならない理由はないのではないか?という思想から出発する。そして、これまで、修正離散コサイン変換(MDCT)をSTFTの代わりに利用してきた。本実施形態は、もはや"変換"はSTFTやMDCTのように固定関数である必要すらなく、むしろ音声/音響信号処理との相性を考えるのであればその"変換"も最適化可能な関数として設計し、音声/音響信号処理向けのニューラルネットワークを学習する目的関数で同時最適化すべきだ、という考えに基づく。同時最適化を実現するには、"変換"を、逆変換可能なニューラルネットワークで設計し、音声/音響信号処理向けのニューラルネットワークと同時に誤差逆伝搬を実行すれば良い。
本実施形態では、STFTを逆変換を持つ写像関数全般P(以下変換関数Pともいう)に拡張して考える。すると、式(9)は以下の様に記述できる。
^st=P-1[M(P[xt]|θM)] (13)
(参考文献4)K. Qian, Y. Zhang, S. Chang, X. Yang, D.Florencio, and M. H. Johnson, "Speech enhancement using Bayesian wavenet", in Proc. INTERSPEECH, 2017.
^st=P-1[M(P[xt|θP]|θM)|θP] (14)
Pをニューラルネットワークを利用して設計する例を述べる。説明の簡単のために、ニューラルネットワークとして1層の全結合ニューラルネットワーク(FCN:fully-connected network)を利用する。まず、正方行列W∈RL×L、バイアスベクトルb∈RLおよび非線形変換
P(x|θP)=σ(Wx+b)=X (16)
P-1(X|θP)=W-1[σ-1(X)-b]=x (17)
上記の変換が成り立つための条件は、Wが正則であること(i.e.逆行列を持つこと)と、σ(x)が逆変換を持つことである。まず、Wの正則性を保証したWの学習法を説明する。一般のFCNの最適化では、Wの正則性は保証されない。本実施形態ではこれを保証するために、Wを行列が正則な場合にのみ成り立つ行列分解をし、行列分解後の行列を最適化することで、正則性を保証したWの学習をおこなう。そのような行列分解には、例えばLU分解、QR分解、コレスキー分解などが考えられる。本実施形態によればWはどの分解を施しても良いが、ここでは以下の行列分解を考える。
W=Q(AAT+εE) (18)
ここでQ∈RL×Lは任意の正則行列、A∈RL×Lは任意の正方行列、EはL×Lの単位行列、ε>0は正則化パラメータである。式(18)は、Aがどのような値をとったとしても、Wは必ず正則な行列となる。ゆえに、勾配法などを用いてAを学習していくことでWを学習する。なお、他の値は変更せず固定する。本実施形態では、例えば、QをDCT行列(離散コサイン変換する行列)とし、Aの初期値もDCT行列とする。すると初期値においてはAATが単位行列となるため、Wの初期値はDCT行列を1+ε倍したものとなる。そして学習が進むにつれ(AAT+εE)が変化していき、結果的にWはDCT行列を変形した正則行列となる。
σ(x)=max(x,αx) (19)
σ-1(x)=min(x,α-1x) (20)
ここで0<α<1である。このように設計したPは明らかにθPで微分可能であり、Pを含んだ合成関数であるJ(θ)もまた、θPおよびθMで微分可能である。ゆえに、変換と音響信号処理のパラメータθPおよびθMは式(15)を満たすように誤差逆伝搬法で同時学習できる。
P(x|θP)=σQ(WQ…σ2(W2(σ1(W1x+b1))+b2)…bQ) (21)
P-1(X|θP)=W-1 1[σ-1 1(…W-1 Q-1[σ-1 Q-1(W-1 Q[σ-1 Q(X)-bQ])-bQ-1]…)-b1] (22)
(参考文献5)A. N. Gomez, M. Ren, R. Urtasun, and R. b. Grosse, "The reversible residual network: Backpropagation without storing activations", in Proc. NIPS, 2017.
第一実施形態に係る音響信号処理システムは、学習装置と音響信号処理装置とを含む。
<学習装置>
図1は第一実施形態に係る学習装置の機能ブロック図を、図2はその処理フローを示す。
<サンプリング部110>
サンプリング部110は、学習用の目的音信号と雑音信号とを入力とし、目的音信号と雑音信号をランダムに選択し(S110)、目的音信号と雑音信号を重畳することで観測信号をシミュレートし、シミュレーション結果の観測信号x(Learn)(t)を出力する。例えば、
x(Learn)(t)=s(Learn)(t)+n(Learn)(t)
である。ただし、n(Learn)(t)は学習用の雑音信号である。また、サンプリング部110は、観測信号x(Learn)(t)に対応する目的音信号s(Learn)(t)をパラメータ更新部150に出力する。
変換部120は、観測信号x(Learn)(t)とパラメータθP (n-1)とを入力とし、観測信号x(Learn)(t)にパラメータθP (n-1)に基づく変換処理Pを施し第一の変換係数X(Learn)(t)を得(S120)、出力する。例えば、Q層のFCNを利用した場合、次式により、観測信号x(Learn)(t)を第一の変換係数X(Learn)(t)に変換する。
X(Learn)(t)=P(x(Learn)(t)|θP (n-1))=σQ(WQ…σ2(W2(σ1(W1x(Learn)(t)+b1))+b2)…bQ)
例えば、Q=1の場合、
X(Learn)(t)=P(x(Learn)(t)|θP (n-1))=σ1(W1x(Learn)(t)+b1)
である。ただし、nはパラメータθP (n)の更新回数を示し、1回前の更新処理で得たパラメータθP (n-1)を用いて第一の変換係数X(Learn)(t)を得る。なお、初回の更新処理では初期値θP (0)に基づく変換処理Pを施す。
信号処理部130は、第一の変換係数X(Learn)(t)とパラメータθM (n-1)とを入力とし、第一の変換係数X(Learn)(t)にパラメータθM (n-1)に基づく所望の目的に対応する信号処理Mを施し第二の変換係数^S(Learn)(t)を得(S130)、出力する。本実施形態では信号処理として音源強調処理を行う。
^S(Learn)(t)=M(X(Learn)(t)|θM (n-1))
ただし、初回の更新処理では初期値θM (0)に基づく信号処理Mを施す。
逆変換部140は、第二の変換係数^S(Learn)(t)とパラメータθP (n-1)とを入力とし、第二の変換係数^S(Learn)(t)にパラメータθP (n-1)に基づく逆変換処理P-1を施し所望の目的の信号処理が施された音響信号^s(Learn)(t)を得(S140)、出力する。例えば、Q層のFCNを利用した場合、次式により、第二の変換係数^S(Learn)(t)を音響信号^s(Learn)(t)に変換する。
^s(Learn)(t)=P-1(^S(Learn)(t)|θP)
=W-1 1[σ-1 1(…W-1 Q-1[σ-1 Q-1(W-1 Q[σ-1 Q(^S(Learn)(t))-bQ])-bQ-1]…)-b1]
例えば、Q=1の場合、
^s(Learn)(t)=P-1(^S(Learn)(t)|θP)=W-1 1[σ-1 1(^S(Learn)(t))-b1
である。ただし、初回の更新処理では初期値θP (0)に基づく変換処理Pを施す。
パラメータ更新部150は、音響信号^s(Learn)(t)と目的音信号s(Learn)(t)とを入力とし、これらの値に基づき、目的関数Jに対応する評価が良くなるようにθP (n-1)とθM (n-1)とを更新しパラメータθP (n)とθM (n)とを得る(S150)。例えば、目的関数J(θ)の値が小さければ小さいほど、評価が良いことを意味する場合には、次式により、パラメータθ(n-1)を更新する。
J(θ)=E[||s(Learn)(t)-^s(Learn)(t)||1]t
である。
<音響信号処理装置>
図3は第一実施形態に係る音響信号処理装置の機能ブロック図を、図4はその処理フローを示す。
<変換部220>
変換部220は、観測信号x(t)を入力とし、観測信号x(t)にパラメータθPに基づく変換処理Pを施し第一の変換係数X(t)を得(S220)、出力する。変換処理Pの内容は変換部120と同様である。
信号処理部230は、第一の変換係数X(t)を入力とし、第一の変換係数X(t)にパラメータθMに基づく所望の目的に対応する信号処理Mを施し第二の変換係数^S(t)を得(S230)、出力する。信号処理Mの内容は信号処理部130と同様である。
逆変換部240は、第二の変換係数^S(t)を入力とし、第二の変換係数^S(t)にパラメータθPに基づく逆変換処理P-1を施し所望の目的の信号処理が施された音響信号^s(t)を得(S240)、出力する。逆変換処理P-1の内容は逆変換部140と同様である。
以上の構成により、所望の信号処理に適した信号変換を行った上で、変換後の信号に対して所望の信号処理を行うため、所望の信号処理の精度を向上させることができる。
本実施形態では所望の目的の信号処理が音源強調処理である例を示したが、本発明は他の音響信号処理にも適用できる。音響信号処理は、音を信号解析(例えばSTFTやMDCT)した上で行う処理であって、何らかの評価を行う処理であれば適用可能である。例えば、音声区間推定処理、音源方向推定処理、音源位置推定処理、雑音抑圧処理、雑音消去処理、音声認識処理、音声合成処理等に適用できる。学習装置では、同一の目的関数を用いて、評価が良くなるように信号解析のパラメータと音響信号処理のパラメータとを同時に更新すればよい。本実施形態のように正解(実際の目的音信号s)と推定値(音響信号(推定した目的音信号)^s)との差分や一致度から評価するものに限らず、音響信号処理の処理結果に対して何らかの評価を与えるものであってもよい。例えば、所望の目的の信号処理として、音声合成処理を行い、処理結果の合成音声が自然に聴こえるかを評価し、この評価を用いてパラメータを更新してもよい。ここで、評価は、人手により与えるもの(例えば、合成音声が自然に聴こえるかを5段階で評価する)であってもよいし、何らかの指標に基づき評価システムにより自動的に与えるものであってもよい。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (6)
- 入力された音響信号xに所望の目的の信号処理Mを施す音響信号処理装置であって、
前記音響信号xに変換処理Pを施し第一の変換係数Xを得る変換部と、
前記第一の変換係数Xに所望の目的に対応する信号処理Mを施し第二の変換係数^Sを得る信号処理部と、
前記第二の変換係数^Sに逆変換処理P-1を施し所望の目的の信号処理が施された音響信号^sを得る逆変換部を有し、
前記変換処理Pと、前記逆変換処理P-1と、前記信号処理Mは同時に最適化されたものであり、
前記変換処理Pが逆変換処理P -1 を有するという制約のもと最適化されている、
音響信号処理装置。 - 請求項1の音響信号処理装置であって、
前記変換処理Pと、前記逆変換処理P-1と、前記信号処理Mとは、同一の目的関数Jで最適化されている、
音響信号処理装置。 - 請求項2の音響信号処理装置であって、
前記変換処理PのパラメータをθPとし、前記第一の変換係数XはP[x|θP]であり、
前記信号処理MのパラメータをθMとし、前記第二の変換係数^SはM(P[x|θP]|θM)であり、
学習用の音響信号x(Learn)に所望の目的の信号処理Mを施した音響信号^s(Learn)はP-1[M(P[x|θP]|θM)|θP]であり、
前記θPと前記θMとは、前記音響信号^s(Learn)に基づき、前記目的関数Jに対応する評価が良くなるように最適化されている、
音響信号処理装置。 - 請求項3の音響信号処理装置であって、
前記変換処理Pと前記逆変換処理P-1は行列で定義されており、
前記変換処理Pと前記逆変換処理P-1は、前記行列を所定の規則で分解した分解行列を最適化したものである、
音響信号処理装置。 - 入力された音響信号xに所望の目的の信号処理Mを施す音響信号処理方法であって、
前記音響信号xに変換処理Pを施し第一の変換係数Xを得る変換ステップと、
前記第一の変換係数Xに所望の目的に対応する信号処理Mを施し第二の変換係数^Sを得る信号処理ステップと、
前記第二の変換係数^Sに逆変換処理P-1を施し所望の目的の信号処理が施された音響信号^sを得る逆変換ステップを有し、
前記変換処理Pと、前記逆変換処理P-1と、前記信号処理Mは同時に最適化されたものであり、
前記変換処理Pが逆変換処理P -1 を有するという制約のもと最適化されている、
音響信号処理方法。 - 請求項1から請求項4の音響信号処理装置としてコンピュータを機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018234185A JP7167686B2 (ja) | 2018-12-14 | 2018-12-14 | 音響信号処理装置、その方法、およびプログラム |
PCT/JP2019/046934 WO2020121860A1 (ja) | 2018-12-14 | 2019-12-02 | 音響信号処理装置、その方法、およびプログラム |
US17/413,504 US11798571B2 (en) | 2018-12-14 | 2019-12-02 | Acoustic signal processing apparatus, method and program for the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018234185A JP7167686B2 (ja) | 2018-12-14 | 2018-12-14 | 音響信号処理装置、その方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020095202A JP2020095202A (ja) | 2020-06-18 |
JP7167686B2 true JP7167686B2 (ja) | 2022-11-09 |
Family
ID=71075343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018234185A Active JP7167686B2 (ja) | 2018-12-14 | 2018-12-14 | 音響信号処理装置、その方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11798571B2 (ja) |
JP (1) | JP7167686B2 (ja) |
WO (1) | WO2020121860A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114550731B (zh) * | 2022-03-31 | 2024-09-17 | 北京百度网讯科技有限公司 | 一种音频识别方法、装置、电子设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH096391A (ja) * | 1995-06-22 | 1997-01-10 | Ono Sokki Co Ltd | 信号推定装置 |
US6898583B1 (en) * | 2000-01-24 | 2005-05-24 | Sony Corporation | Method and apparatus of creating application-specific, non-uniform wavelet transforms |
FR2817100B1 (fr) * | 2000-11-17 | 2003-08-22 | Cit Alcatel | Procede pour optimiser les performances d'un emetteur pour systeme de radiocommunications mobiles |
-
2018
- 2018-12-14 JP JP2018234185A patent/JP7167686B2/ja active Active
-
2019
- 2019-12-02 US US17/413,504 patent/US11798571B2/en active Active
- 2019-12-02 WO PCT/JP2019/046934 patent/WO2020121860A1/ja active Application Filing
Non-Patent Citations (2)
Title |
---|
KOIZUMI, Yuma, et al.,TRAINABLE ADAPTIVE WINDOW SWITCHING FOR SPEECH ENHANCEMENT,arXiv preprint,arXiv:1811.02438v1,[online],2018年11月05日,インターネット:<URL: https://arxiv.org/pdf/1811.02438v1.pdf>,[検索日 2020.02.06] |
VENKATARAMANI, Shrikant, et al.,END-TO-END SOURCE SEPARATION WITH ADAPTIVE FRONT-ENDS,arXiv preprint,[online],2017年10月31日,インターネット:<URL: https://arxiv.org/pdf/1705.02514.pdf>,[検索日 2020.02.06] |
Also Published As
Publication number | Publication date |
---|---|
US11798571B2 (en) | 2023-10-24 |
WO2020121860A1 (ja) | 2020-06-18 |
JP2020095202A (ja) | 2020-06-18 |
US20220059115A1 (en) | 2022-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Uncini | Fundamentals of adaptive signal processing | |
US20140114650A1 (en) | Method for Transforming Non-Stationary Signals Using a Dynamic Model | |
CN114067826B (zh) | 语音降噪方法、装置、设备及存储介质 | |
WO2020084787A1 (en) | A source separation device, a method for a source separation device, and a non-transitory computer readable medium | |
JP2024129003A (ja) | フィルタバンク領域でオーディオサンプルを処理するための生成ニューラルネットワークモデル | |
JP4617497B2 (ja) | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム | |
JP7167686B2 (ja) | 音響信号処理装置、その方法、およびプログラム | |
JP5881454B2 (ja) | 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム | |
Bayram et al. | Primal-dual algorithms for audio decomposition using mixed norms | |
JP7120573B2 (ja) | 推定装置、その方法、およびプログラム | |
Long et al. | Domain adaptation of lattice-free MMI based TDNN models for speech recognition | |
CN115859048A (zh) | 一种局放信号的噪声处理方法及装置 | |
JP6912780B2 (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
WO2019208137A1 (ja) | 音源分離装置、その方法、およびプログラム | |
Chakrabartty et al. | Robust speech feature extraction by growth transformation in reproducing kernel Hilbert space | |
JP7188589B2 (ja) | 復元装置、復元方法、およびプログラム | |
US20210219048A1 (en) | Acoustic signal separation apparatus, learning apparatus, method, and program thereof | |
JP2018142278A (ja) | 符号化装置、符号化方法およびプログラム | |
JP7156064B2 (ja) | 潜在変数最適化装置、フィルタ係数最適化装置、潜在変数最適化方法、フィルタ係数最適化方法、プログラム | |
Li et al. | Robust Non‐negative matrix factorization with β‐divergence for speech separation | |
JP7541312B2 (ja) | 学習方法、学習装置、およびプログラム | |
WO2021144934A1 (ja) | 音声強調装置、学習装置、それらの方法、およびプログラム | |
JP5498452B2 (ja) | 背景音抑圧装置、背景音抑圧方法、およびプログラム | |
Hua | Do WaveNets Dream of Acoustic Waves? | |
Khademian et al. | Modeling state-conditional observation distribution using weighted stereo samples for factorial speech processing models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210316 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220426 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220601 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220927 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221010 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7167686 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |