CN114999508A - 一种利用多源辅助信息的通用语音增强方法和装置 - Google Patents
一种利用多源辅助信息的通用语音增强方法和装置 Download PDFInfo
- Publication number
- CN114999508A CN114999508A CN202210902896.7A CN202210902896A CN114999508A CN 114999508 A CN114999508 A CN 114999508A CN 202210902896 A CN202210902896 A CN 202210902896A CN 114999508 A CN114999508 A CN 114999508A
- Authority
- CN
- China
- Prior art keywords
- sound source
- auxiliary sound
- signal
- source signal
- group auxiliary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012512 characterization method Methods 0.000 claims description 92
- 230000006870 function Effects 0.000 claims description 38
- 230000004927 fusion Effects 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000001228 spectrum Methods 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 9
- 238000013135 deep learning Methods 0.000 claims description 6
- 238000009825 accumulation Methods 0.000 claims description 5
- 230000033228 biological regulation Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 238000004519 manufacturing process Methods 0.000 claims description 5
- 230000005236 sound signal Effects 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 239000000463 material Substances 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Complex Calculations (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种利用多源辅助信息的通用语音增强方法和装置,包括以下步骤:步骤S1:构建训练数据集;步骤S2:利用所述训练数据集对模型的网络参数进行学习,构建语音增强模型;步骤S3:通过预采集或者现场采集的方式构建声源信息数据库;步骤S4:获取语音增强模型的输入;步骤S5:将所述含噪原始信号作为所述语音增强模型的主输入,所述目标组辅助声源信号和所述干扰组辅助声源信号作为所述语音增强模型的旁输入进行语音增强,得到增强语音信号。本发明多类声源辅助声源信息提取辅助声源信号表征;对待增强的原始音频信息提取原始信号表征;将原始信号表征与辅助声源信号表征送入语音增强模型进行语音增强。
Description
技术领域
本发明涉及一种语音处理技术领域,尤其涉及一种利用多源辅助信息的通用语音增强方法和装置。
背景技术
话音增强的目标是从噪声环境中将目标语音分离出来,在许多研究中也称为语音分离。语音分离是语音信号处理的基本方法和任务,在许多应用中,只有将语音尽可能地与背景干扰和噪声分隔开,后续处理过程才会取得良好的效果。早期的语音增强算法以非监督学习算法为主,近年来随着深度学习方法的进步,以带噪特征为输入、干净特征为目标的有监督学习算法给语音增强算法领域带来了长足的进步。当前,主流的基于深度学习算法的语音增强方法首先对带噪信号提取频谱特征,再基于频谱特征估计理想二值掩码、理想比率掩码等掩码信息,进而对带噪频谱特征进行一定的掩蔽后,再通过逆短时傅里叶变换重建干净语音。此类方法的问题在于,提取频谱特征所需要进行的短时傅里叶变换需要固定窗长的信号,这一定程度上影响了算法的实时性,且人工设计的频谱特征并不一定完美适用于语音增强任务。此外,在现实应用中,通常可获得较丰富的实用场景中的不同声源的先验信息,如设备使用者的历史音频、长期共存的环境干扰说话人的历史音频、环境噪声的历史数据等等。此前的语音增强算法较少对此类信息的应用,有较少量工作开始发掘利用主要目标说话人的历史信息进行特定人的个性语音增强,但对可得的多类声源辅助信息还是利用不足。
为此,我们提出一种利用多源辅助信息的通用语音增强方法和装置以此解决上述技术问题。
发明内容
本发明为了解决上述技术问题,提供一种利用多源辅助信息的通用语音增强方法和装置。
本发明采用的技术方案如下:
一种利用多源辅助信息的通用语音增强方法,包括以下步骤:
步骤S1:构建训练数据集;
步骤S2:根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型,并利用所述训练数据集对所述语音增强模型的网络参数进行学习;
步骤S3:通过预采集或者现场采集的方式构建声源信息数据库;
步骤S4:获取语音增强模型的输入,包括待处理的含噪原始信号以及利用所述声源信息数据库得到目标组辅助声源信号和干扰组辅助声源信号;
步骤S5:将所述含噪原始信号作为所述语音增强模型的主输入,所述目标组辅助声源信号和所述干扰组辅助声源信号作为所述语音增强模型的旁输入进行语音增强,得到增强语音信号。
进一步地,所述步骤S1具体包括以下子步骤:
步骤S11:采集一个基础数据集,所述基础数据集由三部分组成:干净人声数据集、噪声数据集、场所混响数据集;
步骤S12:在所述干净人声数据集中随机选定某一说话人作为目标说话人,在所述目标说话人语料集合中随机抽取目标语料与目标辅助信息语料;在所述干净人声数据集中随机选定另一不同的说话人作为干扰说话人,在所述干扰说话人语料集合中随机抽取干扰语料与干扰辅助信息语料;
步骤S13:在所述噪声数据集中随机抽取噪声音频;
步骤S14:在所述场所混响数据集中随机选定冲激响应;
步骤S15:将所述目标语料、干扰语料、噪声音频和冲激响应通过随机设定的信噪比计算得到仿真嘈杂音频;
步骤S16:将所述目标语料、仿真嘈杂音频、目标辅助信息语料和干扰辅助信息语料按四元组形式进行保存,得到训练数据集。
进一步地,所述步骤S2具体包括以下子步骤:
步骤S21:根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型,从所述训练数据集中抽取四元组数据,包括目标语料,仿真嘈杂音频,目标辅助信息语料和干扰辅助信息语料;
步骤S22:将所述仿真嘈杂音频搭配所述目标辅助信息语料与所述干扰辅助信息语料输入所述语音增强模型,得到增强语音信号,利用所述目标语料与所述增强语音信号,计算频谱损失函数和幅度损失函数;
步骤S23:根据所述频谱损失函数和所述幅度损失函数构建总损失函数;
步骤S24:根据所述总损失函数,利用梯度下降深度学习的模型更新算法对所述语音增强模型的参数进行更新;
步骤S25:重复步骤S21至步骤S24,直到更新的迭代次数到达预设的学习步数、或当在所述训练数据集的所有数据上完成进行过50轮的训练、或当使用所述总损失函数的下降速度低于预设阈值、或当所述训练数据集上的相邻训练轮次之间的轮内平均损失函数相对下降小于10%,则停止所述语音增强模型更新迭代,得到所述语音增强模型的网络参数。
进一步地,所述步骤S3中所述预采集为通过搜集说话人的声纹系统中的注册数据和/或历史会话中的语音数据;
所述现场采集要求用户发声说话并使用拾音及录音设备对发声过程进行记录,得到记录结果,所述记录结果即为对应用户的辅助信息。
进一步地,所述步骤S4具体包括以下子步骤:
步骤S41:通过拾音设备采集、网络传输获取用户的音频信号和/或直接使用在存储器上现有的音频文件得到待处理的含噪原始信号;
步骤S42:根据实际需求,使用者人工选定目标组声源和干扰组声源,从所述声源信息数据库中提取对应的目标组辅助声源信号和干扰组辅助声源信号。
进一步地,所述步骤S5具体包括以下子步骤:
步骤S51:将所述含噪原始信号通过对应的所述编码器模块得到原始信号表征;将所述目标组辅助声源信号和所述干扰组辅助声源信号通过对应的所述编码器模块,分别得到目标组辅助声源信号表征和干扰组辅助声源信号表征;
步骤S52:将所述原始信号表征和所述目标组辅助声源信号表征及所述干扰组辅助声源信号表征通过注意力模型依次读取第一信号表征对和第二信号表征对,得到目标组辅助声源信号表征掩码和干扰组辅助声源信号表征掩码,其中,所述第一信号表征对包括原始信号表征和目标组辅助声源信号表征,所述第二信号表征对包括原始信号表征和干扰组辅助声源信号表征;
步骤S53:将所述目标组辅助声源信号表征掩码和所述干扰组辅助声源信号表征掩码通过注意力融合进行融合,得到融合掩码;
步骤S54:将所述原始信号表征利用所述融合掩码得到增强的表征;
步骤S55:利用所述解码器模块将所述增强的表征转换为增强语音信号。
进一步地,所述步骤S52具体包括以下子步骤:
步骤S521:所述注意力模型由若干个相同的Conformer模块堆叠而成,所述Conformer模块由第一全连接层FFN、卷积层Conv、第一多头交叉注意力层MHCA、第二多头交叉注意力层MHCA、特征维线性调制层FiLM、第二全连接层FFN、层规整层LayerNorm依次连接组成;
步骤S522:所述原始信号表征、所述目标组辅助声源信号表征及所述干扰组辅助声源信号表征分别依次通过所述Conformer模块中的所述第一全连接层FFN与所述卷积层Conv,得到原始信号高级表征、目标组辅助声源信号高级表征及干扰组辅助声源信号高级表征;
步骤S523:将所述原始信号高级表征当作值,所述目标组辅助声源信号高级表征及所述干扰组辅助声源信号高级表征分别当作查询和键送入所述第一多头交叉注意力层MHCA,分别得到目标组辅助声源信号对应的原始信号调制向量与干扰组辅助声源信号对应的原始信号调制向量;
步骤S524:所述特征维线性调制层FiLM基于所述目标组辅助声源信号对应的原始信号调制向量或干扰组辅助声源信号对应的原始信号调制向量对所述原始信号高级表征进行调制,分别得到目标组辅助声源信号调制后对应的原始信号更高级表征与干扰组辅助声源信号调制后对应的原始信号更高级表征;
步骤S525:分别将所述目标组辅助声源信号调制后对应的原始信号更高级表征与干扰组辅助声源信号调制后对应的原始信号更高级表征当作值与键,所述原始信号高级表征当作查询送入所述第二多头交叉注意力层MHCA得到目标组辅助声源信号对应的原始信号交叉条件化后的高级表征和干扰组辅助声源信号对应的原始信号交叉条件化后的高级表征;
步骤S526:将所述目标组辅助声源信号对应的原始信号交叉条件化后的高级表征和干扰组辅助声源信号对应的原始信号交叉条件化后的高级表征分别通过所述第二全连接层FFN和所述层规整层LayerNorm,得到目标组辅助声源信号初步表征掩码及干扰组辅助声源信号初步表征掩码;
步骤S527:下一个所述Conformer模块的输入为所述步骤S526得到的所述目标组辅助声源信号初步表征掩码与所述目标组辅助声源信号表征以及所述干扰组辅助声源信号初步表征掩码与所述干扰组辅助声源信号表征,重复步骤S522-步骤S526,直至遍历所有所述Conformer模块,得到所有所述Conformer模块对应的目标组辅助声源信号表征掩码及干扰组辅助声源信号表征掩码。
进一步地,所述步骤S53具体包括以下子步骤:
步骤S531:对所述目标组辅助声源信号表征掩码和所述干扰组辅助声源信号表征掩码通过累加的方式分别进行组内的表征掩码融合,分别得到目标组辅助声源信号组内表征掩码和干扰组辅助声源信号组内表征掩码;
步骤532:将所述目标组辅助声源信号组内表征掩码和所述干扰组辅助声源信号组内表征掩码通过相减的方式进行组间融合,得到融合掩码。
本发明还提供一种利用多源辅助信息的通用语音增强装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中任一项所述的一种利用多源辅助信息的通用语音增强方法。
本发明还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中任一项所述的一种利用多源辅助信息的通用语音增强方法。
本发明的有益效果是:
1、本发明提供了一种对多声源辅助信息加以利用进行定向的灵活可定制的语音增强,包括:为声源辅助信息提取辅助声源信号表征;对待增强的原始音频信息提取原始信号表征;将原始信号表征与辅助声源信号表征送入语音增强模型进行语音增强;
2、本发明提供了一种对多声源辅助信息进行注意力建模与多源注意力整合的方法,包括:收集声源信息数据;确定目标组、干扰组的声源组成,并对应从声源信息数据库中抽取;为各声源辅助信息提取音频嵌入信息;基于辅助声源信号表征、原始信号表征,计算对应原始信号的表征掩码;根据分组信息,对各声源表征掩码进行统一融合,得到最终的融合掩码。
3、本发明提供一个利用多源辅助信息的通用语音增强模型,为一个直接使用音频原始波形信号的端到端神经网络,由U-Net结构的编码器模块和解码器模块与Conformer模块组成。
4、本发明因可对多个目标声源及多个干扰声源的辅助信息加以利用,尤其是对干扰声源辅助信息的利用,相比同领域的现有语音增强算法,使用本发明增强后的语音信号有着更高的语音质量、语音清晰度、语音可懂度和语音自然度。
附图说明
图1为本发明一种利用多源辅助信息的通用语音增强方法的流程示意图;
图2为本发明实施例语音增强模型示意图;
图3为本发明实施例目标组辅助声源信号和干扰组辅助声源信号进行语音增强的模型示意图;
图4为本发明实施例注意力模型的基本模块——交叉注意力conformer模块的结构示意力;
图5为本发明一种利用多源辅助信息的通用语音增强装置的结构图。
具体实施方式
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,一种利用多源辅助信息的通用语音增强方法,包括以下步骤:
步骤S1:构建训练数据集;
步骤S11:采集一个基础数据集,所述基础数据集由三部分组成:干净人声数据集、噪声数据集、场所混响数据集;
步骤S12:在所述干净人声数据集中随机选定某一说话人作为目标说话人,在所述目标说话人语料集合中随机抽取目标语料与目标辅助信息语料;在所述干净人声数据集中随机选定另一不同的说话人作为干扰说话人,在所述干扰说话人语料集合中随机抽取干扰语料与干扰辅助信息语料;
步骤S13:在所述噪声数据集中随机抽取噪声音频;
步骤S14:在所述场所混响数据集中随机选定冲激响应;
步骤S15:将所述目标语料、干扰语料、噪声音频和冲激响应通过随机设定的信噪比计算得到仿真嘈杂音频;
步骤S16:将所述目标语料、仿真嘈杂音频、目标辅助信息语料和干扰辅助信息语料按四元组形式进行保存,得到训练数据集。
步骤S2:根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型,并利用所述训练数据集对所述语音增强模型的网络参数进行学习;
步骤S21:根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型,从所述训练数据集中抽取四元组数据,包括目标语料,仿真嘈杂音频,目标辅助信息语料和干扰辅助信息语料;
步骤S22:将所述仿真嘈杂音频搭配所述目标辅助信息语料与所述干扰辅助信息语料输入所述语音增强模型,得到增强语音信号,利用所述目标语料与所述增强语音信号,计算频谱损失函数和幅度损失函数;
步骤S23:根据所述频谱损失函数和所述幅度损失函数构建总损失函数;
步骤S24:根据所述总损失函数,利用梯度下降深度学习的模型更新算法对所述语音增强模型的参数进行更新;
步骤S25:重复步骤S21至步骤S24,直到更新的迭代次数到达预设的学习步数、或当在所述训练数据集的所有数据上完成进行过50轮的训练、或当使用所述总损失函数的下降速度低于预设阈值、或当所述训练数据集上的相邻训练轮次之间的轮内平均损失函数相对下降小于10%,则停止所述语音增强模型更新迭代,得到所述语音增强模型的网络参数。
步骤S3:通过预采集或者现场采集的方式构建声源信息数据库;
所述预采集为通过搜集说话人的声纹系统中的注册数据和/或历史会话中的语音数据;
所述现场采集要求用户发声说话并使用拾音及录音设备对发声过程进行记录,得到记录结果,所述记录结果即为对应用户的辅助信息。
步骤S4:获取语音增强模型的输入,包括待处理的含噪原始信号以及利用所述声源信息数据库得到目标组辅助声源信号和干扰组辅助声源信号;
步骤S41:通过拾音设备采集、网络传输获取用户的音频信号和/或直接使用在存储器上现有的音频文件得到待处理的含噪原始信号;
步骤S42:根据实际需求,使用者人工选定目标组声源和干扰组声源,从所述声源信息数据库中提取对应的目标组辅助声源信号和干扰组辅助声源信号。
步骤S5:将所述含噪原始信号作为所述语音增强模型的主输入,所述目标组辅助声源信号和所述干扰组辅助声源信号作为所述语音增强模型的旁输入进行语音增强,得到增强语音信号。
步骤S51:将所述含噪原始信号通过对应的所述编码器模块得到原始信号表征;将所述目标组辅助声源信号和所述干扰组辅助声源信号通过对应的所述编码器模块,分别得到目标组辅助声源信号表征和干扰组辅助声源信号表征;
步骤S52:将所述原始信号表征和所述目标组辅助声源信号表征及所述干扰组辅助声源信号表征通过注意力模型依次读取第一信号表征对和第二信号表征对,得到目标组辅助声源信号表征掩码和干扰组辅助声源信号表征掩码,其中,所述第一信号表征对包括原始信号表征和目标组辅助声源信号表征,所述第二信号表征对包括原始信号表征和干扰组辅助声源信号表征;
步骤S521:所述注意力模型由若干个相同的Conformer模块堆叠而成,所述Conformer模块由第一全连接层FFN、卷积层Conv、第一多头交叉注意力层MHCA、第二多头交叉注意力层MHCA、特征维线性调制层FiLM、第二全连接层FFN、层规整层LayerNorm依次连接组成;
步骤S522:所述原始信号表征、所述目标组辅助声源信号表征及所述干扰组辅助声源信号表征分别依次通过所述Conformer模块中的所述第一全连接层FFN与所述卷积层Conv,得到原始信号高级表征、目标组辅助声源信号高级表征及干扰组辅助声源信号高级表征;
步骤S523:将所述原始信号高级表征当作值,所述目标组辅助声源信号高级表征及所述干扰组辅助声源信号高级表征分别当作查询和键送入所述第一多头交叉注意力层MHCA,分别得到目标组辅助声源信号对应的原始信号调制向量与干扰组辅助声源信号对应的原始信号调制向量;
步骤S524:所述特征维线性调制层FiLM基于所述目标组辅助声源信号对应的原始信号调制向量或干扰组辅助声源信号对应的原始信号调制向量对所述原始信号高级表征进行调制,分别得到目标组辅助声源信号调制后对应的原始信号更高级表征与干扰组辅助声源信号调制后对应的原始信号更高级表征;
步骤S525:分别将所述目标组辅助声源信号调制后对应的原始信号更高级表征与干扰组辅助声源信号调制后对应的原始信号更高级表征当作值与键,所述原始信号高级表征当作查询送入所述第二多头交叉注意力层MHCA得到目标组辅助声源信号对应的原始信号交叉条件化后的高级表征和干扰组辅助声源信号对应的原始信号交叉条件化后的高级表征;
步骤S526:将所述目标组辅助声源信号对应的原始信号交叉条件化后的高级表征和干扰组辅助声源信号对应的原始信号交叉条件化后的高级表征分别通过所述第二全连接层FFN和所述层规整层LayerNorm,得到目标组辅助声源信号初步表征掩码及干扰组辅助声源信号初步表征掩码;
步骤S527:下一个所述Conformer模块的输入为所述步骤S526得到的所述目标组辅助声源信号初步表征掩码与所述目标组辅助声源信号表征以及所述干扰组辅助声源信号初步表征掩码与所述干扰组辅助声源信号表征,重复步骤S522-步骤S526,直至遍历所有所述Conformer模块,得到所有所述Conformer模块对应的目标组辅助声源信号表征掩码及干扰组辅助声源信号表征掩码。
步骤S53:将所述目标组辅助声源信号表征掩码和所述干扰组辅助声源信号表征掩码通过注意力融合进行融合,得到融合掩码;
步骤S531:对所述目标组辅助声源信号表征掩码和所述干扰组辅助声源信号表征掩码通过累加的方式分别进行组内的表征掩码融合,分别得到目标组辅助声源信号组内表征掩码和干扰组辅助声源信号组内表征掩码;
步骤532:将所述目标组辅助声源信号组内表征掩码和所述干扰组辅助声源信号组内表征掩码通过相减的方式进行组间融合,得到融合掩码。
步骤S54:将所述原始信号表征利用所述融合掩码得到增强的表征;
步骤S55:利用所述解码器模块将所述增强的表征转换为增强语音信号。
实施例:
参见图2,一种利用多源辅助信息的通用语音增强方法,包括:
步骤S1:构建训练数据集;
应包含较多的说话人;
每段语料数据应尽量干净纯粹:除目标说话人外,不包含其他说话人、音乐等等干扰,且背景噪音要低于一定阈值;
每个说话人的所有语料数据累计时长不应小于1分钟;
每个说话人的语料数据应尽可能覆盖更多录音条件,如拾音设备等。
如果不存在对应信息,则使用全0的假输入。
在必要情况下,对数据进行静音剔除、音量规整、采样率统一等步骤。在本实施例中,统一采用单通道、16kHz采样、16位量化精度的音频格式,亦可选取其他格式,只需注意对格式进行统一。
步骤S12:在所述干净人声数据集中随机选定某一说话人作为目标说话人,在所述目标说话人语料集合中随机抽取目标语料与目标辅助信息语料;在所述干净人声数据集中随机选定另一不同的说话人作为干扰说话人,在所述干扰说话人语料集合中随机抽取干扰语料与干扰辅助信息语料;
在后续的训练步骤中,仿真嘈杂音频将作为语音增强模型的主输入,对应待增强的含噪原始信号;目标辅助信息语料与干扰辅助信息语料将作为语音增强模型的旁输入,分别对应目标辅助声源信号与干扰辅助声源信号;目标语料将作为语音增强模型的目标输出,对应增强语音信号。
注:在步骤S12中,仅以目标组与干扰组仅包含一个说话人为例进行了说明,每组也可包含多个说话人。
步骤S2:根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型,并利用所述训练数据集对所述语音增强模型的网络参数进行学习;
步骤S24:根据所述总损失函数,利用梯度下降深度学习的模型更新算法对所述语音增强模型的参数进行更新;
步骤S25:重复步骤S21至步骤S24,直到更新的迭代次数到达预设的学习步数、或当在所述训练数据集的所有数据上完成进行过50轮的训练、或当使用所述总损失函数的下降速度低于预设阈值、或当所述训练数据集上的相邻训练轮次之间的轮内平均损失函数相对下降小于10%,则停止所述语音增强模型更新迭代,得到所述语音增强模型的网络参数。
步骤S3:通过预采集或者现场采集的方式构建声源信息数据库;
所述声源信息数据库通过预采集或者现场采集的方式构建,所述声源信息数据库包括语音类声源信息和非语音类声源信息;
所述预采集为通过搜集说话人的声纹系统中的注册数据和/或历史会话中的语音数据;
所述现场采集要求用户发声说话并使用拾音及录音设备对发声过程进行记录,得到记录结果,所述记录结果即为对应用户的辅助信息。
在一般的语音应用环境中,通常涉及到的角色是相对比较固定的,会话发生的周遭环境也较为固定。因而在长期使用后,语音会话涉及到的各方因素均会有较为丰富的历史信息可供使用,例如不同说话人的声纹注册语料、历史会话等等。一般的语音增强算法通常不会针对目标对象和实际干扰源进行定制,而是以对环境不可知的方式进行一般性质的通用语音增强。本发明实施例的主要出发点即如何利用各个声源的已有的丰富历史信息,依此对音频成分进行定向的语音增强。
所述声源信息数据库需要至少支持三个表的管理功能:声源数据表、说话人信息表、非语音类声源信息表。见表1为声源数据表,表2为说话人信息表,表3为非语音类声源信息表;
表1 声源数据表
字段名 | 字段意义 |
Aux_id | 声源数据表的主键。 |
Type | 两类:voice,语音类声源信息;non-voice,非语音类声源信息,如噪声等。 |
Source_id | 本条所属声源的“身份”信息,如语音类声源对应的说话人、噪声类声源对应的噪声来源等。对应于说话人信息表或者非语音类声源信息表的主键。 |
Data | 声源信息信号 |
表2 说话人信息表
字段名 | 字段意义 |
Speaker_id | 说话人信息表的主键。 |
Speaker_info | 说话人的基本信息,如姓名、性别等。可根据实际需求进行字段扩充。 |
表3 非语音类声源信息表
字段名 | 字段意义 |
Sound_id | 非语音类声源信息表的主键。 |
Sound_info | 声源的基本信息,如产生声源的物体、带宽等。可根据实际需求进行字段扩充。 |
其中,所述声源数据表中的Data字段对应声源辅助信号,在本实施例中的Data字段直接存储声源的音频信号(即波形文件),如某说话人的speaker_000_000.wav,本领域的技术人员亦可使用其他类型的声源辅助信号,如直接记录speaker_000_000.wav对应的声学特征或者使用神经网络编码器提取的音频表征。
预采集为主要的获取方式,主要通过搜集说话人的历史数据如声纹系统中的注册数据、历史会话中的语音数据等。
所述现场采集要求用户发声说话并使用拾音及录音设备对发声过程进行记录,所述记录结果即为对应用户的辅助信息。
步骤S4:获取语音增强模型的输入,包括待处理的含噪原始信号以及利用所述声源信息数据库得到目标组辅助声源信号和干扰组辅助声源信号;
步骤S41:通过拾音设备采集、网络传输获取用户的音频信号和/或直接使用在存储器上现有的音频文件得到待处理的含噪原始信号;
步骤S42:根据实际需求,使用者人工选定目标组声源和干扰组声源,从所述声源信息数据库中提取对应的目标组辅助声源信号和干扰组辅助声源信号;
在本实施例中,为固定网络结构、优化性能,在满足绝大多数场景的使用需求的前提下,N与M使用固定的参数,如N=4,M=4。当实际可用声源数量少于固定值时,对应声源信号使用取值均为0的填充数据,从而后续的注意力计算结果亦为全0的掩蔽,不影响融合注意力的准确度。通过这种方式,本实施例方法可实现多种语音增强方式的统一:传统的以目标与干扰均未知的语音增强、针对特定说话人的个性化语音增强、针对特定干扰进行定向抑制的语音增强以及前述模式的组合。
步骤S51:将所述含噪原始信号通过对应的所述编码器模块得到原始信号表征;将所述目标组辅助声源信号和所述干扰组辅助声源信号通过对应的所述编码器模块,分别得到目标组辅助声源信号表征和干扰组辅助声源信号表征;
在本实施例中,以上的编码过程均通过同一编码器实现,以保证各信号的表征处于同一个表征空间中。
所述编码器模块与步骤S55中所述解码器模块一同构成U-net的卷积网络结构,所述编码器模块与所述解码器模块对应的卷积层之间具有跳跃连接,以保证解码信号的质量下限;编码器模块与解码模块均由L个1维卷积层或反卷积层堆叠而成,本实施例中L=5;
步骤S52:将所述原始信号表征和所述目标组辅助声源信号表征及所述干扰组辅助声源信号表征通过注意力模型依次读取第一信号表征对和第二信号表征对,得到目标组辅助声源信号表征掩码和干扰组辅助声源信号表征掩码,其中,所述第一信号表征对包括原始信号表征和目标组辅助声源信号表征,所述第二信号表征对包括原始信号表征和干扰组辅助声源信号表征;;
步骤S521:所述注意力模型由若干个相同的Conformer模块堆叠而成,所述Conformer模块由第一全连接层FFN、卷积层Conv、第一多头交叉注意力层MHCA、第二多头交叉注意力层MHCA、特征维线性调制层FiLM、第二全连接层FFN、层规整层LayerNorm依次连接组成;
步骤S522:所述原始信号表征、所述目标组辅助声源信号表征及所述干扰组辅助声源信号表征分别依次通过所述Conformer模块中的所述第一全连接层FFN与所述卷积层Conv,得到原始信号高级表征、目标组辅助声源信号高级表征及干扰组辅助声源信号高级表征;
步骤S523:将所述原始信号高级表征当作值(Value, V),所述目标组辅助声源信号高级表征及所述干扰组辅助声源信号高级表征分别当作查询(Query, Q)和键(Key, K)送入所述第一多头交叉注意力层MHCA,分别得到目标组辅助声源信号对应的原始信号调制向量与干扰组辅助声源信号对应的原始信号调制向量:
步骤S524:所述特征维线性调制层FiLM基于所述目标组辅助声源信号对应的原始信号调制向量或干扰组辅助声源信号对应的原始信号调制向量对所述原始信号高级表征进行调制,分别得到目标组辅助声源信号调制后对应的原始信号更高级表征与干扰组辅助声源信号调制后对应的原始信号更高级表征;
步骤S525:分别将所述目标组辅助声源信号调制后对应的原始信号更高级表征与干扰组辅助声源信号调制后对应的原始信号更高级表征当作值(Value, V)与键(Key, K),所述原始信号高级表征当作查询(Query, Q)送入所述第二多头交叉注意力层MHCA得到目标组辅助声源信号对应的原始信号交叉条件化后的高级表征和干扰组辅助声源信号对应的原始信号交叉条件化后的高级表征:
步骤S526:将所述目标组辅助声源信号对应的原始信号交叉条件化后的高级表征和干扰组辅助声源信号对应的原始信号交叉条件化后的高级表征分别通过所述第二全连接层FFN和所述层规整层LayerNorm,得到目标组辅助声源信号初步表征掩码及干扰组辅助声源信号初步表征掩码;
步骤S527:下一个所述Conformer模块的输入为所述步骤S526得到的所述目标组辅助声源信号初步表征掩码与所述目标组辅助声源信号表征以及所述干扰组辅助声源信号初步表征掩码与所述干扰组辅助声源信号表征,重复步骤S522-步骤S526,直至遍历所有所述Conformer模块,得到所有所述Conformer模块对应的目标组辅助声源信号表征掩码及干扰组辅助声源信号表征掩码。
所述利用多源辅助声源信息的语音增强模型由两组多分支流程组成,分别对应目标辅助声源信号与干扰辅助声源信号;
具体地,这里的融合方法为累加:
所述解码器模块为一个由L个1维反卷积层堆叠而成的1维反卷积神经网络组成,在本实施例中,L=5;所述解码器模块的每一个反卷积层与步骤S51中的编码器模块的对应卷积层通过跳跃连接结构相连接。
以客观语音质量评估指标PESQ为例,在单目标源单干扰源的样本数据集上,本发明增强后的语音信号的PESQ相对一般的语音增强算法可相对提升大约5%以上。
与前述一种物联网设备协同联动方法的实施例相对应,本发明还提供了一种物联网设备协同联动装置的实施例。
参见图5,本发明实施例提供的一种利用多源辅助信息的通用语音增强装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的一种利用多源辅助信息的通用语音增强方法。
本发明一种利用多源辅助信息的通用语音增强装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本发明一种利用多源辅助信息的通用语音增强装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种利用多源辅助信息的通用语音增强方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种利用多源辅助信息的通用语音增强方法,其特征在于,包括以下步骤:
步骤S1:构建训练数据集;
步骤S2:根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型,并利用所述训练数据集对所述语音增强模型的网络参数进行学习;
步骤S3:通过预采集或者现场采集的方式构建声源信息数据库;
步骤S4:获取语音增强模型的输入,包括待处理的含噪原始信号以及利用所述声源信息数据库得到目标组辅助声源信号和干扰组辅助声源信号;
步骤S5:将所述含噪原始信号作为所述语音增强模型的主输入,所述目标组辅助声源信号和所述干扰组辅助声源信号作为所述语音增强模型的旁输入进行语音增强,得到增强语音信号。
2.如权利要求1所述的一种利用多源辅助信息的通用语音增强方法,其特征在于,所述步骤S1具体包括以下子步骤:
步骤S11:采集一个基础数据集,所述基础数据集由三部分组成:干净人声数据集、噪声数据集、场所混响数据集;
步骤S12:在所述干净人声数据集中随机选定某一说话人作为目标说话人,在所述目标说话人语料集合中随机抽取目标语料与目标辅助信息语料;在所述干净人声数据集中随机选定另一不同的说话人作为干扰说话人,在所述干扰说话人语料集合中随机抽取干扰语料与干扰辅助信息语料;
步骤S13:在所述噪声数据集中随机抽取噪声音频;
步骤S14:在所述场所混响数据集中随机选定冲激响应;
步骤S15:将所述目标语料、干扰语料、噪声音频和冲激响应通过随机设定的信噪比计算得到仿真嘈杂音频:
步骤S16:将所述目标语料、仿真嘈杂音频、目标辅助信息语料和干扰辅助信息语料按四元组形式进行保存,得到训练数据集。
3.如权利要求1所述的一种利用多源辅助信息的通用语音增强方法,其特征在于,所述步骤S2具体包括以下子步骤:
步骤S21:根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型,从所述训练数据集中抽取四元组数据,包括目标语料,仿真嘈杂音频,目标辅助信息语料和干扰辅助信息语料;
步骤S22:将所述仿真嘈杂音频搭配所述目标辅助信息语料与所述干扰辅助信息语料输入所述语音增强模型,得到增强语音信号,利用所述目标语料与所述增强语音信号,计算频谱损失函数和幅度损失函数;
步骤S23:根据所述频谱损失函数和所述幅度损失函数构建总损失函数:
步骤S24:根据所述总损失函数,利用梯度下降深度学习的模型更新算法对所述语音增强模型的参数进行更新;
步骤S25:重复步骤S21至步骤S24,直到更新的迭代次数到达预设的学习步数、或当在所述训练数据集的所有数据上完成进行过50轮的训练、或当使用所述总损失函数的下降速度低于预设阈值、或当所述训练数据集上的相邻训练轮次之间的轮内平均损失函数相对下降小于10%,则停止所述语音增强模型更新迭代,得到所述语音增强模型的网络参数。
4.如权利要求1所述的一种利用多源辅助信息的通用语音增强方法,其特征在于,所述步骤S3中所述预采集为通过搜集说话人的声纹系统中的注册数据和/或历史会话中的语音数据;
所述现场采集要求用户发声说话并使用拾音及录音设备对发声过程进行记录,得到记录结果,所述记录结果即为对应用户的辅助信息。
5.如权利要求1所述的一种利用多源辅助信息的通用语音增强方法,其特征在于,所述步骤S4具体包括以下子步骤:
步骤S41:通过拾音设备采集、网络传输获取用户的音频信号和/或直接使用在存储器上现有的音频文件得到待处理的含噪原始信号;
步骤S42:根据实际需求,使用者人工选定目标组声源和干扰组声源,从所述声源信息数据库中提取对应的目标组辅助声源信号和干扰组辅助声源信号。
6.如权利要求1所述的一种利用多源辅助信息的通用语音增强方法,其特征在于,所述步骤S5具体包括以下子步骤:
步骤S51:将所述含噪原始信号通过对应的所述编码器模块得到原始信号表征;将所述目标组辅助声源信号和所述干扰组辅助声源信号通过对应的所述编码器模块,分别得到目标组辅助声源信号表征和干扰组辅助声源信号表征;
步骤S52:将所述原始信号表征和所述目标组辅助声源信号表征及所述干扰组辅助声源信号表征通过注意力模型依次读取第一信号表征对和第二信号表征对,得到目标组辅助声源信号表征掩码和干扰组辅助声源信号表征掩码,其中,所述第一信号表征对包括原始信号表征和目标组辅助声源信号表征,所述第二信号表征对包括原始信号表征和干扰组辅助声源信号表征;
步骤S53:将所述目标组辅助声源信号表征掩码和所述干扰组辅助声源信号表征掩码通过注意力融合进行融合,得到融合掩码;
步骤S54:将所述原始信号表征利用所述融合掩码得到增强的表征;
步骤S55:利用所述解码器模块将所述增强的表征转换为增强语音信号。
7.如权利要求6所述的一种利用多源辅助信息的通用语音增强方法,其特征在于,所述步骤S52具体包括以下子步骤:
步骤S521:所述注意力模型由若干个相同的Conformer模块堆叠而成,所述Conformer模块由第一全连接层FFN、卷积层Conv、第一多头交叉注意力层MHCA、第二多头交叉注意力层MHCA、特征维线性调制层FiLM、第二全连接层FFN、层规整层LayerNorm依次连接组成;
步骤S522:所述原始信号表征、所述目标组辅助声源信号表征及所述干扰组辅助声源信号表征分别依次通过所述Conformer模块中的所述第一全连接层FFN与所述卷积层Conv,得到原始信号高级表征、目标组辅助声源信号高级表征及干扰组辅助声源信号高级表征;
步骤S523:将所述原始信号高级表征当作值,所述目标组辅助声源信号高级表征及所述干扰组辅助声源信号高级表征分别当作查询和键送入所述第一多头交叉注意力层MHCA,分别得到目标组辅助声源信号对应的原始信号调制向量与干扰组辅助声源信号对应的原始信号调制向量;
步骤S524:所述特征维线性调制层FiLM基于所述目标组辅助声源信号对应的原始信号调制向量或干扰组辅助声源信号对应的原始信号调制向量对所述原始信号高级表征进行调制,分别得到目标组辅助声源信号调制后对应的原始信号更高级表征与干扰组辅助声源信号调制后对应的原始信号更高级表征;
步骤S525:分别将所述目标组辅助声源信号调制后对应的原始信号更高级表征与干扰组辅助声源信号调制后对应的原始信号更高级表征当作值与键,所述原始信号高级表征当作查询送入所述第二多头交叉注意力层MHCA得到目标组辅助声源信号对应的原始信号交叉条件化后的高级表征和干扰组辅助声源信号对应的原始信号交叉条件化后的高级表征;
步骤S526:将所述目标组辅助声源信号对应的原始信号交叉条件化后的高级表征和干扰组辅助声源信号对应的原始信号交叉条件化后的高级表征分别通过所述第二全连接层FFN和所述层规整层LayerNorm,得到目标组辅助声源信号初步表征掩码及干扰组辅助声源信号初步表征掩码;
步骤S527:下一个所述Conformer模块的输入为所述步骤S526得到的所述目标组辅助声源信号初步表征掩码与所述目标组辅助声源信号表征以及所述干扰组辅助声源信号初步表征掩码与所述干扰组辅助声源信号表征,重复步骤S522-步骤S526,直至遍历所有所述Conformer模块,得到所有所述Conformer模块对应的目标组辅助声源信号表征掩码及干扰组辅助声源信号表征掩码。
8.如权利要求6所述的一种利用多源辅助信息的通用语音增强方法,其特征在于,所述步骤S53具体包括以下子步骤:
步骤S531:对所述目标组辅助声源信号表征掩码和所述干扰组辅助声源信号表征掩码通过累加的方式分别进行组内的表征掩码融合,分别得到目标组辅助声源信号组内表征掩码和干扰组辅助声源信号组内表征掩码;
步骤532:将所述目标组辅助声源信号组内表征掩码和所述干扰组辅助声源信号组内表征掩码通过相减的方式进行组间融合,得到融合掩码。
9.一种利用多源辅助信息的通用语音增强装置,其特征在于,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-8中任一项所述的一种利用多源辅助信息的通用语音增强方法。
10.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求1-8中任一项所述的一种利用多源辅助信息的通用语音增强方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210902896.7A CN114999508B (zh) | 2022-07-29 | 2022-07-29 | 一种利用多源辅助信息的通用语音增强方法和装置 |
US18/360,838 US20240079022A1 (en) | 2022-07-29 | 2023-07-28 | General speech enhancement method and apparatus using multi-source auxiliary information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210902896.7A CN114999508B (zh) | 2022-07-29 | 2022-07-29 | 一种利用多源辅助信息的通用语音增强方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114999508A true CN114999508A (zh) | 2022-09-02 |
CN114999508B CN114999508B (zh) | 2022-11-08 |
Family
ID=83021323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210902896.7A Active CN114999508B (zh) | 2022-07-29 | 2022-07-29 | 一种利用多源辅助信息的通用语音增强方法和装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240079022A1 (zh) |
CN (1) | CN114999508B (zh) |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110135107A1 (en) * | 2007-07-19 | 2011-06-09 | Alon Konchitsky | Dual Adaptive Structure for Speech Enhancement |
US20180366138A1 (en) * | 2017-06-16 | 2018-12-20 | Apple Inc. | Speech Model-Based Neural Network-Assisted Signal Enhancement |
US20190005976A1 (en) * | 2017-07-03 | 2019-01-03 | Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. | Method and system for enhancing a speech signal of a human speaker in a video using visual information |
CN109785852A (zh) * | 2018-12-14 | 2019-05-21 | 厦门快商通信息技术有限公司 | 一种增强说话人语音的方法及系统 |
CN111009252A (zh) * | 2019-12-19 | 2020-04-14 | 电子科技大学 | 一种embedding编解码器的语音增强系统及方法 |
US20200211580A1 (en) * | 2018-12-27 | 2020-07-02 | Lg Electronics Inc. | Apparatus for noise canceling and method for the same |
CN111653288A (zh) * | 2020-06-18 | 2020-09-11 | 南京大学 | 基于条件变分自编码器的目标人语音增强方法 |
CN112289333A (zh) * | 2020-12-25 | 2021-01-29 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
CN112786064A (zh) * | 2020-12-30 | 2021-05-11 | 西北工业大学 | 一种端到端的骨气导语音联合增强方法 |
CN112927707A (zh) * | 2021-01-25 | 2021-06-08 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
CN113284507A (zh) * | 2021-05-14 | 2021-08-20 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
CN113345460A (zh) * | 2021-08-05 | 2021-09-03 | 北京世纪好未来教育科技有限公司 | 音频信号处理方法、装置、设备及存储介质 |
WO2021205494A1 (ja) * | 2020-04-06 | 2021-10-14 | 日本電信電話株式会社 | 信号処理装置、信号処理方法、およびプログラム |
CN113921022A (zh) * | 2021-12-13 | 2022-01-11 | 北京世纪好未来教育科技有限公司 | 音频信号分离方法、装置、存储介质和电子设备 |
US20220013133A1 (en) * | 2019-09-23 | 2022-01-13 | Tencent Technology (Shenzhen) Company Limited | Speech data processing method and apparatus, electronic device, and readable storage medium |
CN114242098A (zh) * | 2021-12-13 | 2022-03-25 | 北京百度网讯科技有限公司 | 一种语音增强方法、装置、设备以及存储介质 |
CN114255782A (zh) * | 2021-12-21 | 2022-03-29 | 思必驰科技股份有限公司 | 说话人语音增强方法、电子设备和存储介质 |
CN114333895A (zh) * | 2022-01-10 | 2022-04-12 | 阿里巴巴达摩院(杭州)科技有限公司 | 语音增强模型、电子设备、存储介质和相关方法 |
CN114360571A (zh) * | 2022-01-14 | 2022-04-15 | 天津大学 | 基于参考的语音增强方法 |
-
2022
- 2022-07-29 CN CN202210902896.7A patent/CN114999508B/zh active Active
-
2023
- 2023-07-28 US US18/360,838 patent/US20240079022A1/en active Pending
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110135107A1 (en) * | 2007-07-19 | 2011-06-09 | Alon Konchitsky | Dual Adaptive Structure for Speech Enhancement |
US20180366138A1 (en) * | 2017-06-16 | 2018-12-20 | Apple Inc. | Speech Model-Based Neural Network-Assisted Signal Enhancement |
US20190005976A1 (en) * | 2017-07-03 | 2019-01-03 | Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. | Method and system for enhancing a speech signal of a human speaker in a video using visual information |
CN109785852A (zh) * | 2018-12-14 | 2019-05-21 | 厦门快商通信息技术有限公司 | 一种增强说话人语音的方法及系统 |
US20200211580A1 (en) * | 2018-12-27 | 2020-07-02 | Lg Electronics Inc. | Apparatus for noise canceling and method for the same |
US20220013133A1 (en) * | 2019-09-23 | 2022-01-13 | Tencent Technology (Shenzhen) Company Limited | Speech data processing method and apparatus, electronic device, and readable storage medium |
CN111009252A (zh) * | 2019-12-19 | 2020-04-14 | 电子科技大学 | 一种embedding编解码器的语音增强系统及方法 |
WO2021205494A1 (ja) * | 2020-04-06 | 2021-10-14 | 日本電信電話株式会社 | 信号処理装置、信号処理方法、およびプログラム |
CN111653288A (zh) * | 2020-06-18 | 2020-09-11 | 南京大学 | 基于条件变分自编码器的目标人语音增强方法 |
CN112289333A (zh) * | 2020-12-25 | 2021-01-29 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
CN112786064A (zh) * | 2020-12-30 | 2021-05-11 | 西北工业大学 | 一种端到端的骨气导语音联合增强方法 |
CN112927707A (zh) * | 2021-01-25 | 2021-06-08 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
CN113284507A (zh) * | 2021-05-14 | 2021-08-20 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
CN113345460A (zh) * | 2021-08-05 | 2021-09-03 | 北京世纪好未来教育科技有限公司 | 音频信号处理方法、装置、设备及存储介质 |
CN113921022A (zh) * | 2021-12-13 | 2022-01-11 | 北京世纪好未来教育科技有限公司 | 音频信号分离方法、装置、存储介质和电子设备 |
CN114242098A (zh) * | 2021-12-13 | 2022-03-25 | 北京百度网讯科技有限公司 | 一种语音增强方法、装置、设备以及存储介质 |
CN114255782A (zh) * | 2021-12-21 | 2022-03-29 | 思必驰科技股份有限公司 | 说话人语音增强方法、电子设备和存储介质 |
CN114333895A (zh) * | 2022-01-10 | 2022-04-12 | 阿里巴巴达摩院(杭州)科技有限公司 | 语音增强模型、电子设备、存储介质和相关方法 |
CN114360571A (zh) * | 2022-01-14 | 2022-04-15 | 天津大学 | 基于参考的语音增强方法 |
Non-Patent Citations (3)
Title |
---|
崔唯佳等: "自适应波束形成语音增强方法的研究与实现", 《伺服控制》 * |
王振力等: "一种基于双通道自适应噪声对消的语音增强法", 《信号处理》 * |
衡霞等: "基于自适应滤波的语音增强和噪声消除", 《微机发展》 * |
Also Published As
Publication number | Publication date |
---|---|
CN114999508B (zh) | 2022-11-08 |
US20240079022A1 (en) | 2024-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7337953B2 (ja) | 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム | |
Yin et al. | Phasen: A phase-and-harmonics-aware speech enhancement network | |
Xu et al. | Convolutional gated recurrent neural network incorporating spatial features for audio tagging | |
CN110415687A (zh) | 语音处理方法、装置、介质、电子设备 | |
CN106328123B (zh) | 小数据库条件下正常语音流中耳语音的识别方法 | |
WO2022141868A1 (zh) | 一种提取语音特征的方法、装置、终端及存储介质 | |
Beckmann et al. | Speech-vgg: A deep feature extractor for speech processing | |
Do et al. | Speech source separation using variational autoencoder and bandpass filter | |
CN115602165A (zh) | 基于金融系统的数字员工智能系统 | |
Huang et al. | Novel sub-band spectral centroid weighted wavelet packet features with importance-weighted support vector machines for robust speech emotion recognition | |
CN117672268A (zh) | 基于相对熵对齐融合的多模态语音情感识别方法 | |
Wang | Supervised speech separation using deep neural networks | |
Parthasarathi et al. | Wordless sounds: Robust speaker diarization using privacy-preserving audio representations | |
CN106875944A (zh) | 一种语音控制家庭智能终端的系统 | |
KR20190021421A (ko) | 오디오 인식을 위한 방법 및 디바이스 | |
CN114999508B (zh) | 一种利用多源辅助信息的通用语音增强方法和装置 | |
CN116534700A (zh) | 爬楼机的控制系统及其方法 | |
Indra et al. | A modified tunable–Q wavelet transform approach for tamil speech enhancement | |
Sunny et al. | Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam | |
CN113327631B (zh) | 一种情感识别模型的训练方法、情感识别方法及装置 | |
Lung | Wavelet feature selection based neural networks with application to the text independent speaker identification | |
CN113707172A (zh) | 稀疏正交网络的单通道语音分离方法、系统、计算机设备 | |
CN113129926A (zh) | 语音情绪识别模型训练方法、语音情绪识别方法及装置 | |
CN113345413B (zh) | 基于音频特征提取的语音合成方法、装置、设备及介质 | |
Zhou et al. | Meta-reinforcement learning based few-shot speech reconstruction for non-intrusive speech quality assessment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |