CN117437932A - 一种基于双路径网络的语音频带扩展方法 - Google Patents
一种基于双路径网络的语音频带扩展方法 Download PDFInfo
- Publication number
- CN117437932A CN117437932A CN202310396230.3A CN202310396230A CN117437932A CN 117437932 A CN117437932 A CN 117437932A CN 202310396230 A CN202310396230 A CN 202310396230A CN 117437932 A CN117437932 A CN 117437932A
- Authority
- CN
- China
- Prior art keywords
- network
- complex
- spectrum
- frequency
- dual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000001228 spectrum Methods 0.000 claims abstract description 76
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000012360 testing method Methods 0.000 claims abstract description 18
- 230000003993 interaction Effects 0.000 claims abstract description 16
- 238000013528 artificial neural network Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 230000004927 fusion Effects 0.000 claims abstract description 5
- 238000005070 sampling Methods 0.000 claims description 33
- 230000003595 spectral effect Effects 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000010276 construction Methods 0.000 abstract 2
- 230000006870 function Effects 0.000 description 7
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
- G10L21/0388—Details of processing therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
本发明提出一种基于双路径网络的语音频带扩展方法,针对于现有频域频带扩展方法无法准确估计高频相位信息这一问题,能够同时预测高频幅度谱和复数谱信息并融合,以实现频带扩展任务中高频信息的准确估计。本发明包括模型训练阶段和测试阶段,训练阶段包括语音预处理、构建双路径频带扩展神经网络、构建双路径特征交互模块、双路径输出融合、网络损失计算,更新参数模型收敛。模型测试阶段则包括测试语音预处理、测试语音频带扩展。
Description
技术领域
本发明属于声学领域的频带扩展部分,尤其涉及基于神经网络的盲式频带扩展技术。
背景技术
语音频带扩展在音频信号处理领域中是一个非常重要的研究课题。频带扩展是指通过低频语音信息来恢复丢失的高频信息的一种技术,提高给定低分辨率语音信号的采样率。早期的频谱扩展工作是由低频段的频谱参数估计高频段的频谱参数,例如其谱包络和增益系数。其中使用的技术包括非负矩阵分解、线性预测编码、隐马尔科夫模型和高斯混合模型等。近些年来,深度学习方法在频带扩展领域中的应用也取得了巨大的成功。一般来说,这些方法可以分为两类:频域方法和时域方法。频域方法通常学习语音信号的低频幅度谱到高频幅度谱的映射,为了在高频段生成缺失的相位信息,可以将低频段的相位谱镜像复制到高频段,并与预测的幅度相结合并重建时域信号。另一方面,时域方法则直接利用神经网络去建立波形到波形间的映射关系,通过输入原始的低采样率时域信号或者经过插值后的时域信号并输出预测的高采样率波形。该方法在时域中工作,因此隐含了对于高频信息的相位估计。现有的频域方法能够有效补偿缺失高频信息的幅度信息,但是其对高频成分的相位估计不够准确。针对此问题,本发明设计了一种联合幅度和相位估计的一种双路径频带扩展神经网络,其中一路完成对高频幅度谱的幅度估计,另一路完成对高频复数谱的估计,最后通过融合两路输出的幅度和相位信息得到最终估计的高频信息。本发明通过双路径神经网络的方法同时预测高频信号的幅度和相位信息,再与低频谱结合,最终重建高分辨率的音频信号。
频带扩展技术的应用十分广泛,它能够提高语音质量,利于许多语音处理任务。如文本到语音合成、自动语音识别、说话人识别和语音增强等。
发明内容
本发明针对于现有频域频带扩展方法无法准确估计高频相位信息这一问题,提出了一种双路径神经网络结构,能够同时预测高频幅度和复数谱信息并融合,以实现频带扩展任务中高频信息的准确估计。
本发明为解决频带扩展问题,提出一种双路径频带扩展神经网络方法,主要分为以下几个步骤:
步骤1,对训练集中低采样率语音信号进行预处理,首先对其进行预插值至目标采样率,然后利用短时傅里叶变换对插值信号和原始高采样率信号进行时频变换,获得它们的对数幅度谱和对数复数谱。
步骤2:构建一个双路径频带扩展网络,一个分支为幅值预测网络,另一分支为复值预测网络。
步骤3:构建特征交互模块,促进双分支间的特征融合和复用。
步骤4:融合幅度预测网络和复值预测网络的输出,计算双路径频带扩展网络最终输出。
步骤5:根据模型损失函数计算网络预测高采样率语音信号和实际高采样率语音信号的损失。
步骤6:使用Adam优化器,通过最小化损失更新网络参数在训练数据集上训练,训练完毕,得到双路径频带扩展网络。
步骤7:对测试低采样率语音信号进行预处理,首先对其进行预插值,然后利用短时傅里叶变换对插值信号进行时频变换,获得信号的对数幅度谱和对数复数谱。
步骤8:将步骤7得到的幅度谱和复数谱分别输入训练完毕的双路径频带扩展网络中,得到两个分支网络的输出,融合双路径网络输出得到最终频带扩展的结果。
1.在步骤1中,对于训练集合为s={(z1,y1),(z2,y2),…,(zN,yN)},表示有N个训练样本,其中第i个训练样本表示为(zi,yi),zi为低采样率语音信号,,yi为对应的目标高采样率语音信号。
训练语音的预处理分为两步:首先对第i个低采样率语音信号zi进行插值,将低采样率的语音信号插值至目标采样率得到插值信号xi;然后对xi进行分帧处理,利用短时傅里叶变换对其进行时频变换并将其幅值取对数得到语音信号的对数复数时频谱Ci=(ci(t,f))T×F,ci(t,f)为xi短时傅里叶变换得到的对数复数谱系数,t,f分别表示帧号和频点号。进一步,对复数谱取模得到对应对数幅度谱Mi=(mi(t,f))T×F,其中,T,F分别表示第i段数据的帧数和每帧频点数,mi(t,f)=|ci(t,f)|。目标高采样率语音信号的复数时频谱集合Y=(Y1,Y2,…,YN),Yi=(yi(t,f))T×F,yi(t,f)是原始高采样率语音信号的对数复数谱系数。
在步骤2中,构建一个双路径频带扩展网络,一个分支为幅值预测网络,另一分支为复值预测网络。
幅值预测网络包括卷积编码模块、循环时域建模模块和卷积解码模块。该网络的输入为语音信号预处理后的幅度谱M=(M1,M2,…,MN),输出预测得到的包含高频信息的语音幅度谱其中,/> 是预测得到的包含高频信息的语音幅度谱系数;
复值预测网络也由卷积编码模块、循环时域建模模块和卷积解码模块组成,其中,网络参数与幅值预测网络独立。该网络的输入为语音预处理后得到的复数时频谱集合C=(C1,C2,…,CN),网络输出预测得到的包含高频信息的语音复数谱其中, 是预测得到的包含高频信息的语音复数谱系数。
3.在步骤3中,模型对两分支网络中除最后一个卷积块以外的每个卷积块输出特征执行特征交互。每个分支的特征通过特征交互模块获得另一分支的特征信息并融合,其中特征交互模块的输入分别为两分支网络中卷积块的输出特征,输出为融合另一分支信息后的特征。
4.在步骤4中,双路径频带扩展网络分为幅值预测网络和复数预测网络,根据幅值预测网络的输出和复值预测网络的输出可以融合两路输出得到预测的频带扩展后的复数谱/> 是频带扩展后的复数谱系数,为复数谱的指数形式,其中e为自然常数,j表示虚数单位,为幅度,/>为相位信息,通过下式得到:
其中,fphase(·)表示取复数相位操作。
5.在步骤5中,模型的损失函数定义为网络预测幅值压缩时频谱和实际幅值时压缩频谱的损失,损失函数包含两项,即:
L=Lmag+LRI
其中,Lmag表示预测压缩频谱与实际压缩频谱的均方误差损失,LRI表示预测压缩复数谱与实际压缩复数谱实部和虚部上的均方误差损失,定义如下:
其中,Re(·)和Im(·)分别表示取实部和取虚部操作。
6.在步骤6中,使用Adam优化器,通过最小化损失更新网络参数在训练数据集上训练,训练完毕,得到双路径频带扩展网络。
7.在步骤7中,对测试低采样率语音信号进行预处理,首先对其进行预插值,然后利用短时傅里叶变换对插值信号进行时频变换,获得信号的对数幅度谱和对数复数谱。
8.在步骤8中,将预处理后的幅度谱和复数谱分别输入训练好的双路径频带扩展网络中,得到两个分支网络的输出,融合双路径网络输出得到频带扩展的结果。
附图说明
图1是本发明方法的流程步骤。
图2是本发明方法的双路径频带扩展网络结构。
图3是网络特征交互模块的结构。
具体实施方式
本发明为解决频带扩展问题,提出一种双路径频带扩展神经网络方法,包括模型训练阶段和测试阶段,如附图1所示,训练阶段包括语音预处理、双路径频带扩展神经网络搭建、双路径输出融合、网络损失计算,更新参数模型收敛。模型测试阶段则包括测试语音预处理、测试语音频带扩展。具体实施方法说明如下。
步骤1:预处理训练语音,对其进行预插值和时频变换。
训练集合为s={(z1,y1),(z2,y2),…,(zN,yN)},表示有N个训练样本,其中第i个训练样本表示为(zi,yi),zi为低采样率语音信号,yi为对应的目标高采样率语音信号。训练语音的预处理分为两步:首先对第i个低采样率语音信号zi进行插值,将低采样率的语音信号插值至目标采样率得到插值信号xi,本实施例中,采用sinc插值对低采样率信号进行插值;然后对xi进行分帧处理,利用短时傅里叶变换对其进行时频变换并进行对数幅值压缩得到语音信号的复数时频谱Ci=(ci(t,f))T×F,ci(t,f)为xi短时傅里叶变换得到的对数复数谱系数,t,f分别表示帧号和频点号。进一步,对复数谱取模得到对应幅度谱Mi=(mi(t,f))T×F,其中,T,F分别表示第i段数据的帧数和每帧频点数,mi(t,f)=|ci(t,f)|。
目标高采样率语音信号的复数时频谱集合Y=(Y1,Y2,…,YN),Yi=(yi(t,f))T×F,yi(t,f)是原始高采样率语音信号的对数复数谱系数。
步骤2:双路径频带扩展网络搭建。
构建一个双路径频带扩展网络,一个分支为幅值预测网络,另一分支为复值预测网络。
幅值预测网络包括卷积编码模块、循环时域建模模块和卷积解码模块。该网络的输入为语音信号预处理后的幅度谱M=(M1,M2,…,MN),输出预测得到的包含高频信息的语音幅度谱其中,/> 是预测得到的包含高频信息的语音幅度谱系数;
复值预测网络也由卷积编码模块、循环时域建模模块和卷积解码模块组成,其中,网络层参数与幅值预测网络独立。该网络的输入为语音预处理后得到的复数时频谱集合C=(C1,C2,…,CN),网络输出预测得到的包含高频信息的语音复数谱其中,/> 是预测得到的包含高频信息的语音复数谱系数。
如附图2所示,本实施例中卷积编码模块由3个卷积块构成,其中每个卷积块都包含二维卷积层、批标准化层以及参数修正线性单元构成,其中二维卷积层的卷积核尺寸为(2,5),步长为(2,1),每层卷积都在频率尺度上对时频谱进行2倍下采样,三个卷积块的输出通道依次为16,32,64;循环时域建模模块由一个两层长短时记忆网络构成,其中每一层长短时记忆网络的隐藏层单元数为128;卷积解码模块的结构与卷积编码模块对称,由对应转置卷积块构成,参数与卷积编码模块相同。本实施例中幅值预测网络与幅值预测网络结构只区别卷积编码模块的第一个卷积块输入通道数和对应卷积解码模块的最后一个卷积块的输出通道数,幅值预测网络中的通道数为1而复值预测网络中的通道数为2。
步骤3:构建双路径特征交互模块。
在双路径网络中,特征交互模块能够促进分支间的特征融合和复用,使得训练更有效。模型对两分支网络中除最后一个卷积块以外的每个卷积块输出特征进行特征交互。每个特征交互模块的输入为两分支网络中卷积块的输出特征,交互后的各分支输出作为下一卷积块的输入。
本实施例中,特征交互模块如附图3所示,包含特征拼接、卷积层、批标准化层以及Sigmoid激活函数,其中卷积层的卷积核大小为(1,1),步长为(1,1),输入通道数为单个输入分支特征通道数的两倍,输出通道数等于单个输入分支特征通道数。
步骤4:双路径输出融合。
双路径频带扩展网络分为幅值预测网络和复数预测网络,根据幅值预测网络的输出和复值预测网络的输出可以融合两路输出得到预测的频带扩展后的复数谱 是频带扩展后的复数谱系数,/> 为复数谱的指数形式,其中e为自然常数,j表示虚数单位,/>为幅度,为相位信息,通过下式得到:
其中,fphase(·)表示取复数相位操作。
步骤5:定义损失函数,计算网络损失。
模型的损失函数定义为网络预测幅值压缩时频谱和实际幅值时压缩频谱的损失,损失函数包含两项,即:
L=Lmag+LRI
其中,Lmag表示预测压缩频谱与实际压缩频谱的均方误差损失,LRI表示预测压缩复数谱与实际压缩复数谱实部和虚部上的均方误差损失,定义如下:
其中,Re(·)和Im(·)分别表示取实部和取虚部操作。
步骤6:更新参数模型收敛。
使用Adam优化器,通过最小化损失L更新网络参数在训练数据集上训练,训练完毕,得到双路径频带扩展网络。
本实施例中,Adam优化器的学习率设置为0.0002,以32的批量大小在训练数据集上训练200轮。
步骤7:预处理测试语音,对其进行预插值和时频变换。
对测试低采样率语音信号进行预处理,首先对其进行预插值,然后利用短时傅里叶变换对插值信号进行时频变换,获得信号的对数幅度谱和对数复数谱。
步骤8:测试语音频带扩展。
将预处理后的幅度谱和复数谱分别输入训练好的双路径频带扩展网络中,得到两个分支网络的输出,融合双路径网络输出得到频带扩展的结果。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (5)
1.一种双路径频带扩展神经网络方法,包括模型训练阶段和测试阶段,其特征在于:
步骤1,对训练集中低采样率语音信号进行预处理,首先对其进行预插值至目标采样率,然后利用短时傅里叶变换对插值信号和原始高采样率信号进行时频变换,获得它们的对数幅度谱和对数复数谱;
步骤2:构建一个双路径频带扩展网络,一个分支为幅值预测网络,另一分支为复值预测网络;
步骤3:构建特征交互模块,促进双分支间的特征融合和复用;
步骤4:融合幅度预测网络和复值预测网络的输出,计算双路径频带扩展网络最终输出;
步骤5:根据模型损失函数计算网络预测高采样率语音信号和实际高采样率语音信号的损失;
步骤6:使用Adam优化器,通过最小化损失更新网络参数在训练数据集上训练,训练完毕,得到双路径频带扩展网络;
步骤7:对测试低采样率语音信号进行预处理,首先对其进行预插值,然后利用短时傅里叶变换对插值信号进行时频变换,获得信号的对数幅度谱和对数复数谱;
步骤8:将步骤7得到的幅度谱和复数谱分别输入训练完毕的双路径频带扩展网络中,得到两个分支网络的输出,融合双路径网络输出得到最终频带扩展的结果。
2.如权利要求1所述的一种双路径频带扩展神经网络方法,其特征在于:在步骤1中,对于训练集合为s={(z1,y1),(z2,y2),…,(zN,yN)},表示有N个训练样本,其中第i个训练样本表示为(zi,yi),zi为低采样率语音信号,yi为对应的目标高采样率语音信号;训练语音的预处理分为两步:首先对第i个低采样率语音信号zi进行插值,将低采样率的语音信号插值至目标采样率得到插值信号xi;然后对xi进行分帧处理,利用短时傅里叶变换对其进行时频变换并将其幅值取对数得到语音信号的对数复数时频谱Ci=(ci(t,f))T×F,ci(t,f)为xi短时傅里叶变换得到的对数复数谱系数,t,f分别表示帧号和频点号;进一步,对复数谱取模得到对应对数幅度谱Mi=(mi(t,f))T×F,其中,T,F分别表示第i段数据的帧数和每帧频点数,mi(t,f)=|ci(t,f)|;目标高采样率语音信号的复数时频谱集合Y=(Y1,Y2,...,YN),Yi=(yi(t,f))T×F,yi(t,f)是原始高采样率语音信号的对数复数谱系数。
3.如权利要求1所述的一种双路径频带扩展神经网络方法,其特征在于:在步骤2中,构建一个双路径频带扩展网络,一个分支为幅值预测网络,另一分支为复值预测网络;幅值预测网络包括卷积编码模块、循环时域建模模块和卷积解码模块;该网络的输入为语音信号预处理后的幅度谱M=(M1,M2,...,MN),输出预测得到的包含高频信息的语音幅度谱其中,/> 是预测得到的包含高频信息的语音幅度谱系数;复值预测网络也由卷积编码模块、循环时域建模模块和卷积解码模块组成,其中,网络参数与幅值预测网络独立;该网络的输入为语音预处理后得到的复数时频谱集合C=(C1,C2,...,CN),网络输出预测得到的包含高频信息的语音复数谱/> 其中,/> 是预测得到的包含高频信息的语音复数谱系数。
4.如权利要求1所述的一种双路径频带扩展神经网络方法,其特征在于:在步骤3中,模型对两分支网络中除最后一个卷积块以外的每个卷积块输出特征执行特征交互;每个分支的特征通过特征交互模块获得另一分支的特征信息并融合,其中特征交互模块的输入分别为两分支网络中卷积块的输出特征,输出为融合另一分支信息后的特征。
5.如权利要求1所述的一种双路径频带扩展神经网络方法,其特征在于:在步骤5中,双路径频带扩展网络分为幅值预测网络和复数预测网络,根据幅值预测网络的输出和复值预测网络的输出融合两路输出得到预测的频带扩展后的复数谱/> 是频带扩展后的复数谱系数,/>为复数谱的指数形式,其中e为自然常数,j表示虚数单位,/>为幅度,/>为相位信息,通过下式得到:
其中,fphase(·)表示取复数相位操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310396230.3A CN117437932A (zh) | 2023-04-13 | 2023-04-13 | 一种基于双路径网络的语音频带扩展方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310396230.3A CN117437932A (zh) | 2023-04-13 | 2023-04-13 | 一种基于双路径网络的语音频带扩展方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117437932A true CN117437932A (zh) | 2024-01-23 |
Family
ID=89552214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310396230.3A Pending CN117437932A (zh) | 2023-04-13 | 2023-04-13 | 一种基于双路径网络的语音频带扩展方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117437932A (zh) |
-
2023
- 2023-04-13 CN CN202310396230.3A patent/CN117437932A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yen et al. | Cold diffusion for speech enhancement | |
CN107703486B (zh) | 一种基于卷积神经网络cnn的声源定位方法 | |
WO2021128256A1 (zh) | 语音转换方法、装置、设备及存储介质 | |
EP1995723B1 (en) | Neuroevolution training system | |
Zhang et al. | On loss functions and recurrency training for GAN-based speech enhancement systems | |
CN113314140A (zh) | 一种端到端时域多尺度卷积神经网络的音源分离算法 | |
JP5717097B2 (ja) | 音声合成用の隠れマルコフモデル学習装置及び音声合成装置 | |
JP2002507033A (ja) | 顔合成装置および顔合成方法 | |
Jiang et al. | Geometric methods for spectral analysis | |
CN112767959B (zh) | 语音增强方法、装置、设备及介质 | |
CN113823308B (zh) | 一种使用单个带噪语音样本进行语音去噪的方法 | |
CN112633175A (zh) | 复杂环境下基于多尺度卷积神经网络单音符实时识别算法 | |
WO2022228144A1 (zh) | 音频信号增强方法、装置、计算机设备、存储介质和计算机程序产品 | |
CN112259119B (zh) | 基于堆叠沙漏网络的音乐源分离方法 | |
Du et al. | A joint framework of denoising autoencoder and generative vocoder for monaural speech enhancement | |
CN114495969A (zh) | 一种融合语音增强的语音识别方法 | |
CN106782599A (zh) | 基于高斯过程输出后滤波的语音转换方法 | |
JPH04264500A (ja) | 音声信号伝送方法および音声信号伝送装置 | |
Nercessian | Differentiable world synthesizer-based neural vocoder with application to end-to-end audio style transfer | |
Li et al. | A Two-Stage Approach to Quality Restoration of Bone-Conducted Speech | |
CN116092475B (zh) | 一种基于上下文感知扩散模型的口吃语音编辑方法和系统 | |
JPH08248994A (ja) | 声質変換音声合成装置 | |
CN117437932A (zh) | 一种基于双路径网络的语音频带扩展方法 | |
CN105551503B (zh) | 基于原子预选择的音频匹配追踪方法与系统 | |
Liu et al. | LPCSE: Neural Speech Enhancement through Linear Predictive Coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |