CN114999508A - 一种利用多源辅助信息的通用语音增强方法和装置 - Google Patents

一种利用多源辅助信息的通用语音增强方法和装置 Download PDF

Info

Publication number
CN114999508A
CN114999508A CN202210902896.7A CN202210902896A CN114999508A CN 114999508 A CN114999508 A CN 114999508A CN 202210902896 A CN202210902896 A CN 202210902896A CN 114999508 A CN114999508 A CN 114999508A
Authority
CN
China
Prior art keywords
sound source
auxiliary sound
signal
source signal
group auxiliary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210902896.7A
Other languages
English (en)
Other versions
CN114999508B (zh
Inventor
李劲松
张镇川
周天舒
田雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210902896.7A priority Critical patent/CN114999508B/zh
Publication of CN114999508A publication Critical patent/CN114999508A/zh
Application granted granted Critical
Publication of CN114999508B publication Critical patent/CN114999508B/zh
Priority to US18/360,838 priority patent/US20240079022A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Complex Calculations (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种利用多源辅助信息的通用语音增强方法和装置,包括以下步骤:步骤S1:构建训练数据集;步骤S2:利用所述训练数据集对模型的网络参数进行学习,构建语音增强模型;步骤S3:通过预采集或者现场采集的方式构建声源信息数据库;步骤S4:获取语音增强模型的输入;步骤S5:将所述含噪原始信号作为所述语音增强模型的主输入,所述目标组辅助声源信号和所述干扰组辅助声源信号作为所述语音增强模型的旁输入进行语音增强,得到增强语音信号。本发明多类声源辅助声源信息提取辅助声源信号表征;对待增强的原始音频信息提取原始信号表征;将原始信号表征与辅助声源信号表征送入语音增强模型进行语音增强。

Description

一种利用多源辅助信息的通用语音增强方法和装置
技术领域
本发明涉及一种语音处理技术领域,尤其涉及一种利用多源辅助信息的通用语音增强方法和装置。
背景技术
话音增强的目标是从噪声环境中将目标语音分离出来,在许多研究中也称为语音分离。语音分离是语音信号处理的基本方法和任务,在许多应用中,只有将语音尽可能地与背景干扰和噪声分隔开,后续处理过程才会取得良好的效果。早期的语音增强算法以非监督学习算法为主,近年来随着深度学习方法的进步,以带噪特征为输入、干净特征为目标的有监督学习算法给语音增强算法领域带来了长足的进步。当前,主流的基于深度学习算法的语音增强方法首先对带噪信号提取频谱特征,再基于频谱特征估计理想二值掩码、理想比率掩码等掩码信息,进而对带噪频谱特征进行一定的掩蔽后,再通过逆短时傅里叶变换重建干净语音。此类方法的问题在于,提取频谱特征所需要进行的短时傅里叶变换需要固定窗长的信号,这一定程度上影响了算法的实时性,且人工设计的频谱特征并不一定完美适用于语音增强任务。此外,在现实应用中,通常可获得较丰富的实用场景中的不同声源的先验信息,如设备使用者的历史音频、长期共存的环境干扰说话人的历史音频、环境噪声的历史数据等等。此前的语音增强算法较少对此类信息的应用,有较少量工作开始发掘利用主要目标说话人的历史信息进行特定人的个性语音增强,但对可得的多类声源辅助信息还是利用不足。
为此,我们提出一种利用多源辅助信息的通用语音增强方法和装置以此解决上述技术问题。
发明内容
本发明为了解决上述技术问题,提供一种利用多源辅助信息的通用语音增强方法和装置。
本发明采用的技术方案如下:
一种利用多源辅助信息的通用语音增强方法,包括以下步骤:
步骤S1:构建训练数据集;
步骤S2:根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型,并利用所述训练数据集对所述语音增强模型的网络参数进行学习;
步骤S3:通过预采集或者现场采集的方式构建声源信息数据库;
步骤S4:获取语音增强模型的输入,包括待处理的含噪原始信号以及利用所述声源信息数据库得到目标组辅助声源信号和干扰组辅助声源信号;
步骤S5:将所述含噪原始信号作为所述语音增强模型的主输入,所述目标组辅助声源信号和所述干扰组辅助声源信号作为所述语音增强模型的旁输入进行语音增强,得到增强语音信号。
进一步地,所述步骤S1具体包括以下子步骤:
步骤S11:采集一个基础数据集,所述基础数据集由三部分组成:干净人声数据集、噪声数据集、场所混响数据集;
步骤S12:在所述干净人声数据集中随机选定某一说话人作为目标说话人,在所述目标说话人语料集合中随机抽取目标语料与目标辅助信息语料;在所述干净人声数据集中随机选定另一不同的说话人作为干扰说话人,在所述干扰说话人语料集合中随机抽取干扰语料与干扰辅助信息语料;
步骤S13:在所述噪声数据集中随机抽取噪声音频;
步骤S14:在所述场所混响数据集中随机选定冲激响应;
步骤S15:将所述目标语料、干扰语料、噪声音频和冲激响应通过随机设定的信噪比计算得到仿真嘈杂音频;
步骤S16:将所述目标语料、仿真嘈杂音频、目标辅助信息语料和干扰辅助信息语料按四元组形式进行保存,得到训练数据集。
进一步地,所述步骤S2具体包括以下子步骤:
步骤S21:根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型,从所述训练数据集中抽取四元组数据,包括目标语料,仿真嘈杂音频,目标辅助信息语料和干扰辅助信息语料;
步骤S22:将所述仿真嘈杂音频搭配所述目标辅助信息语料与所述干扰辅助信息语料输入所述语音增强模型,得到增强语音信号,利用所述目标语料与所述增强语音信号,计算频谱损失函数和幅度损失函数;
步骤S23:根据所述频谱损失函数和所述幅度损失函数构建总损失函数;
步骤S24:根据所述总损失函数,利用梯度下降深度学习的模型更新算法对所述语音增强模型的参数进行更新;
步骤S25:重复步骤S21至步骤S24,直到更新的迭代次数到达预设的学习步数、或当在所述训练数据集的所有数据上完成进行过50轮的训练、或当使用所述总损失函数的下降速度低于预设阈值、或当所述训练数据集上的相邻训练轮次之间的轮内平均损失函数相对下降小于10%,则停止所述语音增强模型更新迭代,得到所述语音增强模型的网络参数。
进一步地,所述步骤S3中所述预采集为通过搜集说话人的声纹系统中的注册数据和/或历史会话中的语音数据;
所述现场采集要求用户发声说话并使用拾音及录音设备对发声过程进行记录,得到记录结果,所述记录结果即为对应用户的辅助信息。
进一步地,所述步骤S4具体包括以下子步骤:
步骤S41:通过拾音设备采集、网络传输获取用户的音频信号和/或直接使用在存储器上现有的音频文件得到待处理的含噪原始信号;
步骤S42:根据实际需求,使用者人工选定目标组声源和干扰组声源,从所述声源信息数据库中提取对应的目标组辅助声源信号和干扰组辅助声源信号。
进一步地,所述步骤S5具体包括以下子步骤:
步骤S51:将所述含噪原始信号通过对应的所述编码器模块得到原始信号表征;将所述目标组辅助声源信号和所述干扰组辅助声源信号通过对应的所述编码器模块,分别得到目标组辅助声源信号表征和干扰组辅助声源信号表征;
步骤S52:将所述原始信号表征和所述目标组辅助声源信号表征及所述干扰组辅助声源信号表征通过注意力模型依次读取第一信号表征对和第二信号表征对,得到目标组辅助声源信号表征掩码和干扰组辅助声源信号表征掩码,其中,所述第一信号表征对包括原始信号表征和目标组辅助声源信号表征,所述第二信号表征对包括原始信号表征和干扰组辅助声源信号表征;
步骤S53:将所述目标组辅助声源信号表征掩码和所述干扰组辅助声源信号表征掩码通过注意力融合进行融合,得到融合掩码;
步骤S54:将所述原始信号表征利用所述融合掩码得到增强的表征;
步骤S55:利用所述解码器模块将所述增强的表征转换为增强语音信号。
进一步地,所述步骤S52具体包括以下子步骤:
步骤S521:所述注意力模型由若干个相同的Conformer模块堆叠而成,所述Conformer模块由第一全连接层FFN、卷积层Conv、第一多头交叉注意力层MHCA、第二多头交叉注意力层MHCA、特征维线性调制层FiLM、第二全连接层FFN、层规整层LayerNorm依次连接组成;
步骤S522:所述原始信号表征、所述目标组辅助声源信号表征及所述干扰组辅助声源信号表征分别依次通过所述Conformer模块中的所述第一全连接层FFN与所述卷积层Conv,得到原始信号高级表征、目标组辅助声源信号高级表征及干扰组辅助声源信号高级表征;
步骤S523:将所述原始信号高级表征当作值,所述目标组辅助声源信号高级表征及所述干扰组辅助声源信号高级表征分别当作查询和键送入所述第一多头交叉注意力层MHCA,分别得到目标组辅助声源信号对应的原始信号调制向量与干扰组辅助声源信号对应的原始信号调制向量;
步骤S524:所述特征维线性调制层FiLM基于所述目标组辅助声源信号对应的原始信号调制向量或干扰组辅助声源信号对应的原始信号调制向量对所述原始信号高级表征进行调制,分别得到目标组辅助声源信号调制后对应的原始信号更高级表征与干扰组辅助声源信号调制后对应的原始信号更高级表征;
步骤S525:分别将所述目标组辅助声源信号调制后对应的原始信号更高级表征与干扰组辅助声源信号调制后对应的原始信号更高级表征当作值与键,所述原始信号高级表征当作查询送入所述第二多头交叉注意力层MHCA得到目标组辅助声源信号对应的原始信号交叉条件化后的高级表征和干扰组辅助声源信号对应的原始信号交叉条件化后的高级表征;
步骤S526:将所述目标组辅助声源信号对应的原始信号交叉条件化后的高级表征和干扰组辅助声源信号对应的原始信号交叉条件化后的高级表征分别通过所述第二全连接层FFN和所述层规整层LayerNorm,得到目标组辅助声源信号初步表征掩码及干扰组辅助声源信号初步表征掩码;
步骤S527:下一个所述Conformer模块的输入为所述步骤S526得到的所述目标组辅助声源信号初步表征掩码与所述目标组辅助声源信号表征以及所述干扰组辅助声源信号初步表征掩码与所述干扰组辅助声源信号表征,重复步骤S522-步骤S526,直至遍历所有所述Conformer模块,得到所有所述Conformer模块对应的目标组辅助声源信号表征掩码及干扰组辅助声源信号表征掩码。
进一步地,所述步骤S53具体包括以下子步骤:
步骤S531:对所述目标组辅助声源信号表征掩码和所述干扰组辅助声源信号表征掩码通过累加的方式分别进行组内的表征掩码融合,分别得到目标组辅助声源信号组内表征掩码和干扰组辅助声源信号组内表征掩码;
步骤532:将所述目标组辅助声源信号组内表征掩码和所述干扰组辅助声源信号组内表征掩码通过相减的方式进行组间融合,得到融合掩码。
本发明还提供一种利用多源辅助信息的通用语音增强装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中任一项所述的一种利用多源辅助信息的通用语音增强方法。
本发明还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中任一项所述的一种利用多源辅助信息的通用语音增强方法。
本发明的有益效果是:
1、本发明提供了一种对多声源辅助信息加以利用进行定向的灵活可定制的语音增强,包括:为声源辅助信息提取辅助声源信号表征;对待增强的原始音频信息提取原始信号表征;将原始信号表征与辅助声源信号表征送入语音增强模型进行语音增强;
2、本发明提供了一种对多声源辅助信息进行注意力建模与多源注意力整合的方法,包括:收集声源信息数据;确定目标组、干扰组的声源组成,并对应从声源信息数据库中抽取;为各声源辅助信息提取音频嵌入信息;基于辅助声源信号表征、原始信号表征,计算对应原始信号的表征掩码;根据分组信息,对各声源表征掩码进行统一融合,得到最终的融合掩码。
3、本发明提供一个利用多源辅助信息的通用语音增强模型,为一个直接使用音频原始波形信号的端到端神经网络,由U-Net结构的编码器模块和解码器模块与Conformer模块组成。
4、本发明因可对多个目标声源及多个干扰声源的辅助信息加以利用,尤其是对干扰声源辅助信息的利用,相比同领域的现有语音增强算法,使用本发明增强后的语音信号有着更高的语音质量、语音清晰度、语音可懂度和语音自然度。
附图说明
图1为本发明一种利用多源辅助信息的通用语音增强方法的流程示意图;
图2为本发明实施例语音增强模型示意图;
图3为本发明实施例目标组辅助声源信号和干扰组辅助声源信号进行语音增强的模型示意图;
图4为本发明实施例注意力模型的基本模块——交叉注意力conformer模块的结构示意力;
图5为本发明一种利用多源辅助信息的通用语音增强装置的结构图。
具体实施方式
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,一种利用多源辅助信息的通用语音增强方法,包括以下步骤:
步骤S1:构建训练数据集;
步骤S11:采集一个基础数据集,所述基础数据集由三部分组成:干净人声数据集、噪声数据集、场所混响数据集;
步骤S12:在所述干净人声数据集中随机选定某一说话人作为目标说话人,在所述目标说话人语料集合中随机抽取目标语料与目标辅助信息语料;在所述干净人声数据集中随机选定另一不同的说话人作为干扰说话人,在所述干扰说话人语料集合中随机抽取干扰语料与干扰辅助信息语料;
步骤S13:在所述噪声数据集中随机抽取噪声音频;
步骤S14:在所述场所混响数据集中随机选定冲激响应;
步骤S15:将所述目标语料、干扰语料、噪声音频和冲激响应通过随机设定的信噪比计算得到仿真嘈杂音频;
步骤S16:将所述目标语料、仿真嘈杂音频、目标辅助信息语料和干扰辅助信息语料按四元组形式进行保存,得到训练数据集。
步骤S2:根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型,并利用所述训练数据集对所述语音增强模型的网络参数进行学习;
步骤S21:根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型,从所述训练数据集中抽取四元组数据,包括目标语料,仿真嘈杂音频,目标辅助信息语料和干扰辅助信息语料;
步骤S22:将所述仿真嘈杂音频搭配所述目标辅助信息语料与所述干扰辅助信息语料输入所述语音增强模型,得到增强语音信号,利用所述目标语料与所述增强语音信号,计算频谱损失函数和幅度损失函数;
步骤S23:根据所述频谱损失函数和所述幅度损失函数构建总损失函数;
步骤S24:根据所述总损失函数,利用梯度下降深度学习的模型更新算法对所述语音增强模型的参数进行更新;
步骤S25:重复步骤S21至步骤S24,直到更新的迭代次数到达预设的学习步数、或当在所述训练数据集的所有数据上完成进行过50轮的训练、或当使用所述总损失函数的下降速度低于预设阈值、或当所述训练数据集上的相邻训练轮次之间的轮内平均损失函数相对下降小于10%,则停止所述语音增强模型更新迭代,得到所述语音增强模型的网络参数。
步骤S3:通过预采集或者现场采集的方式构建声源信息数据库;
所述预采集为通过搜集说话人的声纹系统中的注册数据和/或历史会话中的语音数据;
所述现场采集要求用户发声说话并使用拾音及录音设备对发声过程进行记录,得到记录结果,所述记录结果即为对应用户的辅助信息。
步骤S4:获取语音增强模型的输入,包括待处理的含噪原始信号以及利用所述声源信息数据库得到目标组辅助声源信号和干扰组辅助声源信号;
步骤S41:通过拾音设备采集、网络传输获取用户的音频信号和/或直接使用在存储器上现有的音频文件得到待处理的含噪原始信号;
步骤S42:根据实际需求,使用者人工选定目标组声源和干扰组声源,从所述声源信息数据库中提取对应的目标组辅助声源信号和干扰组辅助声源信号。
步骤S5:将所述含噪原始信号作为所述语音增强模型的主输入,所述目标组辅助声源信号和所述干扰组辅助声源信号作为所述语音增强模型的旁输入进行语音增强,得到增强语音信号。
步骤S51:将所述含噪原始信号通过对应的所述编码器模块得到原始信号表征;将所述目标组辅助声源信号和所述干扰组辅助声源信号通过对应的所述编码器模块,分别得到目标组辅助声源信号表征和干扰组辅助声源信号表征;
步骤S52:将所述原始信号表征和所述目标组辅助声源信号表征及所述干扰组辅助声源信号表征通过注意力模型依次读取第一信号表征对和第二信号表征对,得到目标组辅助声源信号表征掩码和干扰组辅助声源信号表征掩码,其中,所述第一信号表征对包括原始信号表征和目标组辅助声源信号表征,所述第二信号表征对包括原始信号表征和干扰组辅助声源信号表征;
步骤S521:所述注意力模型由若干个相同的Conformer模块堆叠而成,所述Conformer模块由第一全连接层FFN、卷积层Conv、第一多头交叉注意力层MHCA、第二多头交叉注意力层MHCA、特征维线性调制层FiLM、第二全连接层FFN、层规整层LayerNorm依次连接组成;
步骤S522:所述原始信号表征、所述目标组辅助声源信号表征及所述干扰组辅助声源信号表征分别依次通过所述Conformer模块中的所述第一全连接层FFN与所述卷积层Conv,得到原始信号高级表征、目标组辅助声源信号高级表征及干扰组辅助声源信号高级表征;
步骤S523:将所述原始信号高级表征当作值,所述目标组辅助声源信号高级表征及所述干扰组辅助声源信号高级表征分别当作查询和键送入所述第一多头交叉注意力层MHCA,分别得到目标组辅助声源信号对应的原始信号调制向量与干扰组辅助声源信号对应的原始信号调制向量;
步骤S524:所述特征维线性调制层FiLM基于所述目标组辅助声源信号对应的原始信号调制向量或干扰组辅助声源信号对应的原始信号调制向量对所述原始信号高级表征进行调制,分别得到目标组辅助声源信号调制后对应的原始信号更高级表征与干扰组辅助声源信号调制后对应的原始信号更高级表征;
步骤S525:分别将所述目标组辅助声源信号调制后对应的原始信号更高级表征与干扰组辅助声源信号调制后对应的原始信号更高级表征当作值与键,所述原始信号高级表征当作查询送入所述第二多头交叉注意力层MHCA得到目标组辅助声源信号对应的原始信号交叉条件化后的高级表征和干扰组辅助声源信号对应的原始信号交叉条件化后的高级表征;
步骤S526:将所述目标组辅助声源信号对应的原始信号交叉条件化后的高级表征和干扰组辅助声源信号对应的原始信号交叉条件化后的高级表征分别通过所述第二全连接层FFN和所述层规整层LayerNorm,得到目标组辅助声源信号初步表征掩码及干扰组辅助声源信号初步表征掩码;
步骤S527:下一个所述Conformer模块的输入为所述步骤S526得到的所述目标组辅助声源信号初步表征掩码与所述目标组辅助声源信号表征以及所述干扰组辅助声源信号初步表征掩码与所述干扰组辅助声源信号表征,重复步骤S522-步骤S526,直至遍历所有所述Conformer模块,得到所有所述Conformer模块对应的目标组辅助声源信号表征掩码及干扰组辅助声源信号表征掩码。
步骤S53:将所述目标组辅助声源信号表征掩码和所述干扰组辅助声源信号表征掩码通过注意力融合进行融合,得到融合掩码;
步骤S531:对所述目标组辅助声源信号表征掩码和所述干扰组辅助声源信号表征掩码通过累加的方式分别进行组内的表征掩码融合,分别得到目标组辅助声源信号组内表征掩码和干扰组辅助声源信号组内表征掩码;
步骤532:将所述目标组辅助声源信号组内表征掩码和所述干扰组辅助声源信号组内表征掩码通过相减的方式进行组间融合,得到融合掩码。
步骤S54:将所述原始信号表征利用所述融合掩码得到增强的表征;
步骤S55:利用所述解码器模块将所述增强的表征转换为增强语音信号。
实施例:
参见图2,一种利用多源辅助信息的通用语音增强方法,包括:
步骤S1:构建训练数据集;
步骤S11:采集一个基础数据集,所述基础数据集由三部分组成:干净人声数据集
Figure 272701DEST_PATH_IMAGE001
、噪声数据集
Figure 455421DEST_PATH_IMAGE002
、场所混响数据集
Figure 641683DEST_PATH_IMAGE003
所述干净人声数据集
Figure 833630DEST_PATH_IMAGE004
,其中
Figure 287483DEST_PATH_IMAGE005
为所述干净人声数据集包含的说话人数量,
Figure 641104DEST_PATH_IMAGE006
为第i个说话人的语料集合;
所述干净人声数据集
Figure 580241DEST_PATH_IMAGE001
的采集要求:
应包含较多的说话人;
每段语料数据应尽量干净纯粹:除目标说话人外,不包含其他说话人、音乐等等干扰,且背景噪音要低于一定阈值;
每段语料数据对应的说话人均为已知的,且所述干净人声数据集
Figure 310299DEST_PATH_IMAGE001
须支持通过说话人身份检索其所有语料的功能;
每个说话人的所有语料数据累计时长不应小于1分钟;
每个说话人的语料数据应尽可能覆盖更多录音条件,如拾音设备等。
如果不存在对应信息,则使用全0的假输入。
所述噪声数据集
Figure 385703DEST_PATH_IMAGE002
中的元素为噪声音频数据,应尽可能覆盖更多的噪声种类。
所述场所混响数据集
Figure 113487DEST_PATH_IMAGE003
中的元素是在不同声学环境中采集到的房屋冲激响应,也可使用通过仿真方法生成的房屋冲激响应。
在必要情况下,对数据进行静音剔除、音量规整、采样率统一等步骤。在本实施例中,统一采用单通道、16kHz采样、16位量化精度的音频格式,亦可选取其他格式,只需注意对格式进行统一。
步骤S12:在所述干净人声数据集
Figure 398975DEST_PATH_IMAGE001
中随机选定某一说话人
Figure 542512DEST_PATH_IMAGE007
作为目标说话人,在所述目标说话人语料集合
Figure 862635DEST_PATH_IMAGE008
中随机抽取目标语料
Figure 197539DEST_PATH_IMAGE009
与目标辅助信息语料
Figure 704743DEST_PATH_IMAGE010
;在所述干净人声数据集
Figure 651971DEST_PATH_IMAGE001
中随机选定另一不同的说话人作为干扰说话人
Figure 826600DEST_PATH_IMAGE011
,在所述干扰说话人语料集合
Figure 896187DEST_PATH_IMAGE012
中随机抽取干扰语料
Figure 31634DEST_PATH_IMAGE013
与干扰辅助信息语料
Figure 641607DEST_PATH_IMAGE014
步骤S13:在所述噪声数据集
Figure 811688DEST_PATH_IMAGE002
中随机抽取噪声音频
Figure 114493DEST_PATH_IMAGE015
步骤S14:在所述场所混响数据集
Figure 970192DEST_PATH_IMAGE003
中随机选定冲激响应
Figure 383855DEST_PATH_IMAGE016
步骤S15:将所述目标语料
Figure 470760DEST_PATH_IMAGE009
、干扰语料
Figure 819833DEST_PATH_IMAGE013
、噪声音频
Figure 54505DEST_PATH_IMAGE015
和冲激响应
Figure 881647DEST_PATH_IMAGE016
通过随机设定的信噪比
Figure 88637DEST_PATH_IMAGE017
Figure 733245DEST_PATH_IMAGE018
计算得到仿真嘈杂音频
Figure 330580DEST_PATH_IMAGE019
Figure 86046DEST_PATH_IMAGE020
步骤S16:将所述目标语料、仿真嘈杂音频、目标辅助信息语料和干扰辅助信息语料
Figure 792883DEST_PATH_IMAGE021
按四元组形式进行保存,得到训练数据集。
在后续的训练步骤中,仿真嘈杂音频
Figure 873972DEST_PATH_IMAGE019
将作为语音增强模型的主输入,对应待增强的含噪原始信号;目标辅助信息语料
Figure 693023DEST_PATH_IMAGE010
与干扰辅助信息语料
Figure 455443DEST_PATH_IMAGE014
将作为语音增强模型的旁输入,分别对应目标辅助声源信号与干扰辅助声源信号;目标语料
Figure 168184DEST_PATH_IMAGE009
将作为语音增强模型的目标输出,对应增强语音信号。
注:在步骤S12中,仅以目标组与干扰组仅包含一个说话人为例进行了说明,每组也可包含多个说话人。
步骤S2:根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型,并利用所述训练数据集对所述语音增强模型的网络参数进行学习;
步骤S21:根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型,从所述训练数据集中抽取四元组数据,包括目标语料,仿真嘈杂音频,目标辅助信息语料和干扰辅助信息语料
Figure 764381DEST_PATH_IMAGE021
下面为方便表述,目标语料
Figure 460942DEST_PATH_IMAGE009
Figure 167998DEST_PATH_IMAGE022
进行指代;
步骤S22:将所述仿真嘈杂音频
Figure 266404DEST_PATH_IMAGE019
搭配目标辅助信息语料
Figure 532038DEST_PATH_IMAGE010
与干扰辅助信息语料
Figure 653578DEST_PATH_IMAGE014
输入所述语音增强模型,得到增强语音信号
Figure 554538DEST_PATH_IMAGE023
,利用目标语料
Figure 851658DEST_PATH_IMAGE022
与增强语音信号
Figure 445450DEST_PATH_IMAGE023
,计算频谱损失函数和幅度损失函数;
Figure 460811DEST_PATH_IMAGE024
Figure 368724DEST_PATH_IMAGE025
其中,
Figure 910564DEST_PATH_IMAGE026
为频谱损失函数,
Figure 285044DEST_PATH_IMAGE027
为幅度损失函数,
Figure 177914DEST_PATH_IMAGE022
Figure 794578DEST_PATH_IMAGE023
分别是目标语料与增强语音信号,
Figure 394186DEST_PATH_IMAGE028
Figure 64202DEST_PATH_IMAGE029
分别是Frobenius范数与L1范数,STFT代表对应信号经短时傅里叶变换后得到的频谱。
步骤S23:根据所述频谱损失函数和所述幅度损失函数构建总损失函数
Figure 319734DEST_PATH_IMAGE030
Figure 100608DEST_PATH_IMAGE031
步骤S24:根据所述总损失函数,利用梯度下降深度学习的模型更新算法对所述语音增强模型的参数进行更新;
步骤S25:重复步骤S21至步骤S24,直到更新的迭代次数到达预设的学习步数、或当在所述训练数据集的所有数据上完成进行过50轮的训练、或当使用所述总损失函数的下降速度低于预设阈值、或当所述训练数据集上的相邻训练轮次之间的轮内平均损失函数相对下降小于10%,则停止所述语音增强模型更新迭代,得到所述语音增强模型的网络参数。
步骤S3:通过预采集或者现场采集的方式构建声源信息数据库;
所述声源信息数据库通过预采集或者现场采集的方式构建,所述声源信息数据库包括语音类声源信息和非语音类声源信息;
所述预采集为通过搜集说话人的声纹系统中的注册数据和/或历史会话中的语音数据;
所述现场采集要求用户发声说话并使用拾音及录音设备对发声过程进行记录,得到记录结果,所述记录结果即为对应用户的辅助信息。
在一般的语音应用环境中,通常涉及到的角色是相对比较固定的,会话发生的周遭环境也较为固定。因而在长期使用后,语音会话涉及到的各方因素均会有较为丰富的历史信息可供使用,例如不同说话人的声纹注册语料、历史会话等等。一般的语音增强算法通常不会针对目标对象和实际干扰源进行定制,而是以对环境不可知的方式进行一般性质的通用语音增强。本发明实施例的主要出发点即如何利用各个声源的已有的丰富历史信息,依此对音频成分进行定向的语音增强。
所述声源信息数据库需要至少支持三个表的管理功能:声源数据表、说话人信息表、非语音类声源信息表。见表1为声源数据表,表2为说话人信息表,表3为非语音类声源信息表;
表1 声源数据表
字段名 字段意义
Aux_id 声源数据表的主键。
Type 两类:voice,语音类声源信息;non-voice,非语音类声源信息,如噪声等。
Source_id 本条所属声源的“身份”信息,如语音类声源对应的说话人、噪声类声源对应的噪声来源等。对应于说话人信息表或者非语音类声源信息表的主键。
Data 声源信息信号
表2 说话人信息表
字段名 字段意义
Speaker_id 说话人信息表的主键。
Speaker_info 说话人的基本信息,如姓名、性别等。可根据实际需求进行字段扩充。
表3 非语音类声源信息表
字段名 字段意义
Sound_id 非语音类声源信息表的主键。
Sound_info 声源的基本信息,如产生声源的物体、带宽等。可根据实际需求进行字段扩充。
其中,所述声源数据表中的Data字段对应声源辅助信号,在本实施例中的Data字段直接存储声源的音频信号(即波形文件),如某说话人的speaker_000_000.wav,本领域的技术人员亦可使用其他类型的声源辅助信号,如直接记录speaker_000_000.wav对应的声学特征或者使用神经网络编码器提取的音频表征。
预采集为主要的获取方式,主要通过搜集说话人的历史数据如声纹系统中的注册数据、历史会话中的语音数据等。
所述现场采集要求用户发声说话并使用拾音及录音设备对发声过程进行记录,所述记录结果即为对应用户的辅助信息。
步骤S4:获取语音增强模型的输入,包括待处理的含噪原始信号以及利用所述声源信息数据库得到目标组辅助声源信号和干扰组辅助声源信号;
步骤S41:通过拾音设备采集、网络传输获取用户的音频信号和/或直接使用在存储器上现有的音频文件得到待处理的含噪原始信号;
所述含噪原始信号为一个向量,用
Figure 820303DEST_PATH_IMAGE032
加以表示;
步骤S42:根据实际需求,使用者人工选定目标组声源和干扰组声源,从所述声源信息数据库中提取对应的目标组辅助声源信号和干扰组辅助声源信号;
目标组辅助声源信号用
Figure 536586DEST_PATH_IMAGE033
表示,代表共包含有N个目标辅助声源,分别用
Figure 810572DEST_PATH_IMAGE034
表示;
干扰组辅助声源信号用
Figure 395138DEST_PATH_IMAGE035
表示,代表共包含有M个干扰辅助声源,分别用
Figure 969338DEST_PATH_IMAGE036
表示。
在本实施例中,为固定网络结构、优化性能,在满足绝大多数场景的使用需求的前提下,N与M使用固定的参数,如N=4,M=4。当实际可用声源数量少于固定值时,对应声源信号使用取值均为0的填充数据,从而后续的注意力计算结果亦为全0的掩蔽,不影响融合注意力的准确度。通过这种方式,本实施例方法可实现多种语音增强方式的统一:传统的以目标与干扰均未知的语音增强、针对特定说话人的个性化语音增强、针对特定干扰进行定向抑制的语音增强以及前述模式的组合。
参见图3,步骤S5:将所述含噪原始信号
Figure 355058DEST_PATH_IMAGE032
作为所述语音增强模型的主输入,所述目标组辅助声源信号
Figure 444237DEST_PATH_IMAGE033
和所述干扰组辅助声源信号
Figure 442280DEST_PATH_IMAGE035
作为所述语音增强模型的旁输入进行语音增强,得到增强语音信号
Figure 933304DEST_PATH_IMAGE037
步骤S51:将所述含噪原始信号
Figure 991390DEST_PATH_IMAGE032
通过对应的所述编码器模块得到原始信号表征
Figure 771127DEST_PATH_IMAGE038
;将所述目标组辅助声源信号
Figure 697495DEST_PATH_IMAGE033
和所述干扰组辅助声源信号
Figure 652812DEST_PATH_IMAGE035
通过对应的所述编码器模块,分别得到目标组辅助声源信号表征
Figure 537592DEST_PATH_IMAGE039
和干扰组辅助声源信号表征
Figure 438246DEST_PATH_IMAGE040
在本实施例中,以上的编码过程均通过同一编码器实现,以保证各信号的表征处于同一个表征空间中。
所述编码器模块与步骤S55中所述解码器模块一同构成U-net的卷积网络结构,所述编码器模块与所述解码器模块对应的卷积层之间具有跳跃连接,以保证解码信号的质量下限;编码器模块与解码模块均由L个1维卷积层或反卷积层堆叠而成,本实施例中L=5;
步骤S52:将所述原始信号表征
Figure 433884DEST_PATH_IMAGE038
和所述目标组辅助声源信号表征
Figure 243708DEST_PATH_IMAGE039
及所述干扰组辅助声源信号表征
Figure 33810DEST_PATH_IMAGE040
通过注意力模型依次读取第一信号表征
Figure 522560DEST_PATH_IMAGE041
对和第二信号表征
Figure 666096DEST_PATH_IMAGE042
对,得到目标组辅助声源信号表征掩码
Figure 986219DEST_PATH_IMAGE043
和干扰组辅助声源信号表征掩码
Figure 822588DEST_PATH_IMAGE044
,其中,所述第一信号表征
Figure 329793DEST_PATH_IMAGE041
对包括原始信号表征和目标组辅助声源信号表征,所述第二信号表征
Figure 604917DEST_PATH_IMAGE042
对包括原始信号表征和干扰组辅助声源信号表征;;
参见图4,在接下来的步骤中以(原始信号表征,目标组辅助声源信号表征)
Figure 153447DEST_PATH_IMAGE041
为例进行说明,图4中涉及到的参数含义具体为以下所述,图中不再进行赘述。
步骤S521:所述注意力模型由若干个相同的Conformer模块堆叠而成,所述Conformer模块由第一全连接层FFN、卷积层Conv、第一多头交叉注意力层MHCA、第二多头交叉注意力层MHCA、特征维线性调制层FiLM、第二全连接层FFN、层规整层LayerNorm依次连接组成;
步骤S522:所述原始信号表征
Figure 285351DEST_PATH_IMAGE038
、所述目标组辅助声源信号表征
Figure 420798DEST_PATH_IMAGE045
及所述干扰组辅助声源信号表征
Figure 30771DEST_PATH_IMAGE046
分别依次通过所述Conformer模块中的所述第一全连接层FFN与所述卷积层Conv,得到原始信号高级表征
Figure 935273DEST_PATH_IMAGE047
、目标组辅助声源信号高级表征
Figure 175761DEST_PATH_IMAGE048
及干扰组辅助声源信号高级表征;
Figure 923137DEST_PATH_IMAGE049
Figure 212167DEST_PATH_IMAGE050
步骤S523:将所述原始信号高级表征
Figure 361389DEST_PATH_IMAGE047
当作值(Value, V),所述目标组辅助声源信号高级表征
Figure 208997DEST_PATH_IMAGE048
及所述干扰组辅助声源信号高级表征分别当作查询(Query, Q)和键(Key, K)送入所述第一多头交叉注意力层MHCA,分别得到目标组辅助声源信号对应的原始信号调制向量
Figure 381352DEST_PATH_IMAGE051
与干扰组辅助声源信号对应的原始信号调制向量:
Figure 333128DEST_PATH_IMAGE052
步骤S524:所述特征维线性调制层FiLM基于所述目标组辅助声源信号对应的原始信号调制向量
Figure 212222DEST_PATH_IMAGE051
或干扰组辅助声源信号对应的原始信号调制向量对所述原始信号高级表征
Figure 856830DEST_PATH_IMAGE047
进行调制,分别得到目标组辅助声源信号调制后对应的原始信号更高级表征
Figure 923006DEST_PATH_IMAGE053
与干扰组辅助声源信号调制后对应的原始信号更高级表征;
其中,调制过程使用的调制参数
Figure 944052DEST_PATH_IMAGE054
分别为原始信号调制向量
Figure 677653DEST_PATH_IMAGE051
的仿射变换;
Figure 696424DEST_PATH_IMAGE055
Figure 640109DEST_PATH_IMAGE056
Figure 573168DEST_PATH_IMAGE057
步骤S525:分别将所述目标组辅助声源信号调制后对应的原始信号更高级表征
Figure 285909DEST_PATH_IMAGE053
与干扰组辅助声源信号调制后对应的原始信号更高级表征当作值(Value, V)与键(Key, K),所述原始信号高级表征
Figure 147686DEST_PATH_IMAGE047
当作查询(Query, Q)送入所述第二多头交叉注意力层MHCA得到目标组辅助声源信号对应的原始信号交叉条件化后的高级表征
Figure 781930DEST_PATH_IMAGE058
和干扰组辅助声源信号对应的原始信号交叉条件化后的高级表征:
Figure 879199DEST_PATH_IMAGE059
步骤S526:将所述目标组辅助声源信号对应的原始信号交叉条件化后的高级表征
Figure 587392DEST_PATH_IMAGE058
和干扰组辅助声源信号对应的原始信号交叉条件化后的高级表征分别通过所述第二全连接层FFN和所述层规整层LayerNorm,得到目标组辅助声源信号初步表征掩码
Figure 744703DEST_PATH_IMAGE060
及干扰组辅助声源信号初步表征掩码;
即目标组辅助声源信号初步表征掩码
Figure 538347DEST_PATH_IMAGE060
的初步估计:
Figure 173728DEST_PATH_IMAGE061
步骤S527:下一个所述Conformer模块的输入为所述步骤S526得到的所述目标组辅助声源信号初步表征掩码
Figure 240822DEST_PATH_IMAGE060
与所述目标组辅助声源信号表征
Figure 772297DEST_PATH_IMAGE062
以及所述干扰组辅助声源信号初步表征掩码与所述干扰组辅助声源信号表征,重复步骤S522-步骤S526,直至遍历所有所述Conformer模块,得到所有所述Conformer模块对应的目标组辅助声源信号表征掩码
Figure 912292DEST_PATH_IMAGE063
及干扰组辅助声源信号表征掩码
Figure 492309DEST_PATH_IMAGE064
所述利用多源辅助声源信息的语音增强模型由两组多分支流程组成,分别对应目标辅助声源信号与干扰辅助声源信号;
每组分支又由多个分支组成,每个分支对应一个声源信号,其输出为目标组辅助声源信号表征掩码
Figure 299728DEST_PATH_IMAGE063
和干扰组辅助声源信号表征掩码
Figure 674208DEST_PATH_IMAGE064
步骤S53:将所述目标组辅助声源信号表征掩码
Figure 504761DEST_PATH_IMAGE065
和所述干扰组辅助声源信号表征掩码
Figure 481944DEST_PATH_IMAGE066
通过注意力融合进行融合,得到融合掩码
Figure 284815DEST_PATH_IMAGE067
步骤S531:对所述目标组辅助声源信号表征掩码
Figure 689252DEST_PATH_IMAGE065
和所述干扰组辅助声源信号表征掩码
Figure 177740DEST_PATH_IMAGE066
通过累加的方式分别进行组内的表征掩码融合,分别得到目标组辅助声源信号组内表征掩码
Figure 224193DEST_PATH_IMAGE068
和干扰组辅助声源信号组内表征掩码
Figure 615991DEST_PATH_IMAGE069
具体地,这里的融合方法为累加:
Figure 660171DEST_PATH_IMAGE070
Figure 262053DEST_PATH_IMAGE071
步骤532:将所述目标组辅助声源信号组内表征掩码
Figure 721985DEST_PATH_IMAGE068
和所述干扰组辅助声源信号组内表征掩码
Figure 358502DEST_PATH_IMAGE069
通过相减的方式进行组间融合,得到融合掩码
Figure 245687DEST_PATH_IMAGE067
Figure 272549DEST_PATH_IMAGE072
步骤S54:将所述原始信号表征
Figure 660805DEST_PATH_IMAGE073
利用所述融合掩码
Figure 56889DEST_PATH_IMAGE074
得到增强的表征
Figure 442871DEST_PATH_IMAGE075
Figure 894712DEST_PATH_IMAGE076
步骤S55:通过所述解码器模块将所述增强的表征
Figure 86659DEST_PATH_IMAGE077
转换为增强语音信号
Figure 41976DEST_PATH_IMAGE078
Figure 864439DEST_PATH_IMAGE079
所述解码器模块为一个由L个1维反卷积层堆叠而成的1维反卷积神经网络组成,在本实施例中,L=5;所述解码器模块的每一个反卷积层与步骤S51中的编码器模块的对应卷积层通过跳跃连接结构相连接。
以客观语音质量评估指标PESQ为例,在单目标源单干扰源的样本数据集上,本发明增强后的语音信号的PESQ相对一般的语音增强算法可相对提升大约5%以上。
与前述一种物联网设备协同联动方法的实施例相对应,本发明还提供了一种物联网设备协同联动装置的实施例。
参见图5,本发明实施例提供的一种利用多源辅助信息的通用语音增强装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的一种利用多源辅助信息的通用语音增强方法。
本发明一种利用多源辅助信息的通用语音增强装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本发明一种利用多源辅助信息的通用语音增强装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种利用多源辅助信息的通用语音增强方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种利用多源辅助信息的通用语音增强方法,其特征在于,包括以下步骤:
步骤S1:构建训练数据集;
步骤S2:根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型,并利用所述训练数据集对所述语音增强模型的网络参数进行学习;
步骤S3:通过预采集或者现场采集的方式构建声源信息数据库;
步骤S4:获取语音增强模型的输入,包括待处理的含噪原始信号以及利用所述声源信息数据库得到目标组辅助声源信号和干扰组辅助声源信号;
步骤S5:将所述含噪原始信号作为所述语音增强模型的主输入,所述目标组辅助声源信号和所述干扰组辅助声源信号作为所述语音增强模型的旁输入进行语音增强,得到增强语音信号。
2.如权利要求1所述的一种利用多源辅助信息的通用语音增强方法,其特征在于,所述步骤S1具体包括以下子步骤:
步骤S11:采集一个基础数据集,所述基础数据集由三部分组成:干净人声数据集、噪声数据集、场所混响数据集;
步骤S12:在所述干净人声数据集中随机选定某一说话人作为目标说话人,在所述目标说话人语料集合中随机抽取目标语料与目标辅助信息语料;在所述干净人声数据集中随机选定另一不同的说话人作为干扰说话人,在所述干扰说话人语料集合中随机抽取干扰语料与干扰辅助信息语料;
步骤S13:在所述噪声数据集中随机抽取噪声音频;
步骤S14:在所述场所混响数据集中随机选定冲激响应;
步骤S15:将所述目标语料、干扰语料、噪声音频和冲激响应通过随机设定的信噪比计算得到仿真嘈杂音频:
步骤S16:将所述目标语料、仿真嘈杂音频、目标辅助信息语料和干扰辅助信息语料按四元组形式进行保存,得到训练数据集。
3.如权利要求1所述的一种利用多源辅助信息的通用语音增强方法,其特征在于,所述步骤S2具体包括以下子步骤:
步骤S21:根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型,从所述训练数据集中抽取四元组数据,包括目标语料,仿真嘈杂音频,目标辅助信息语料和干扰辅助信息语料;
步骤S22:将所述仿真嘈杂音频搭配所述目标辅助信息语料与所述干扰辅助信息语料输入所述语音增强模型,得到增强语音信号,利用所述目标语料与所述增强语音信号,计算频谱损失函数和幅度损失函数;
步骤S23:根据所述频谱损失函数和所述幅度损失函数构建总损失函数:
步骤S24:根据所述总损失函数,利用梯度下降深度学习的模型更新算法对所述语音增强模型的参数进行更新;
步骤S25:重复步骤S21至步骤S24,直到更新的迭代次数到达预设的学习步数、或当在所述训练数据集的所有数据上完成进行过50轮的训练、或当使用所述总损失函数的下降速度低于预设阈值、或当所述训练数据集上的相邻训练轮次之间的轮内平均损失函数相对下降小于10%,则停止所述语音增强模型更新迭代,得到所述语音增强模型的网络参数。
4.如权利要求1所述的一种利用多源辅助信息的通用语音增强方法,其特征在于,所述步骤S3中所述预采集为通过搜集说话人的声纹系统中的注册数据和/或历史会话中的语音数据;
所述现场采集要求用户发声说话并使用拾音及录音设备对发声过程进行记录,得到记录结果,所述记录结果即为对应用户的辅助信息。
5.如权利要求1所述的一种利用多源辅助信息的通用语音增强方法,其特征在于,所述步骤S4具体包括以下子步骤:
步骤S41:通过拾音设备采集、网络传输获取用户的音频信号和/或直接使用在存储器上现有的音频文件得到待处理的含噪原始信号;
步骤S42:根据实际需求,使用者人工选定目标组声源和干扰组声源,从所述声源信息数据库中提取对应的目标组辅助声源信号和干扰组辅助声源信号。
6.如权利要求1所述的一种利用多源辅助信息的通用语音增强方法,其特征在于,所述步骤S5具体包括以下子步骤:
步骤S51:将所述含噪原始信号通过对应的所述编码器模块得到原始信号表征;将所述目标组辅助声源信号和所述干扰组辅助声源信号通过对应的所述编码器模块,分别得到目标组辅助声源信号表征和干扰组辅助声源信号表征;
步骤S52:将所述原始信号表征和所述目标组辅助声源信号表征及所述干扰组辅助声源信号表征通过注意力模型依次读取第一信号表征对和第二信号表征对,得到目标组辅助声源信号表征掩码和干扰组辅助声源信号表征掩码,其中,所述第一信号表征对包括原始信号表征和目标组辅助声源信号表征,所述第二信号表征对包括原始信号表征和干扰组辅助声源信号表征;
步骤S53:将所述目标组辅助声源信号表征掩码和所述干扰组辅助声源信号表征掩码通过注意力融合进行融合,得到融合掩码;
步骤S54:将所述原始信号表征利用所述融合掩码得到增强的表征;
步骤S55:利用所述解码器模块将所述增强的表征转换为增强语音信号。
7.如权利要求6所述的一种利用多源辅助信息的通用语音增强方法,其特征在于,所述步骤S52具体包括以下子步骤:
步骤S521:所述注意力模型由若干个相同的Conformer模块堆叠而成,所述Conformer模块由第一全连接层FFN、卷积层Conv、第一多头交叉注意力层MHCA、第二多头交叉注意力层MHCA、特征维线性调制层FiLM、第二全连接层FFN、层规整层LayerNorm依次连接组成;
步骤S522:所述原始信号表征、所述目标组辅助声源信号表征及所述干扰组辅助声源信号表征分别依次通过所述Conformer模块中的所述第一全连接层FFN与所述卷积层Conv,得到原始信号高级表征、目标组辅助声源信号高级表征及干扰组辅助声源信号高级表征;
步骤S523:将所述原始信号高级表征当作值,所述目标组辅助声源信号高级表征及所述干扰组辅助声源信号高级表征分别当作查询和键送入所述第一多头交叉注意力层MHCA,分别得到目标组辅助声源信号对应的原始信号调制向量与干扰组辅助声源信号对应的原始信号调制向量;
步骤S524:所述特征维线性调制层FiLM基于所述目标组辅助声源信号对应的原始信号调制向量或干扰组辅助声源信号对应的原始信号调制向量对所述原始信号高级表征进行调制,分别得到目标组辅助声源信号调制后对应的原始信号更高级表征与干扰组辅助声源信号调制后对应的原始信号更高级表征;
步骤S525:分别将所述目标组辅助声源信号调制后对应的原始信号更高级表征与干扰组辅助声源信号调制后对应的原始信号更高级表征当作值与键,所述原始信号高级表征当作查询送入所述第二多头交叉注意力层MHCA得到目标组辅助声源信号对应的原始信号交叉条件化后的高级表征和干扰组辅助声源信号对应的原始信号交叉条件化后的高级表征;
步骤S526:将所述目标组辅助声源信号对应的原始信号交叉条件化后的高级表征和干扰组辅助声源信号对应的原始信号交叉条件化后的高级表征分别通过所述第二全连接层FFN和所述层规整层LayerNorm,得到目标组辅助声源信号初步表征掩码及干扰组辅助声源信号初步表征掩码;
步骤S527:下一个所述Conformer模块的输入为所述步骤S526得到的所述目标组辅助声源信号初步表征掩码与所述目标组辅助声源信号表征以及所述干扰组辅助声源信号初步表征掩码与所述干扰组辅助声源信号表征,重复步骤S522-步骤S526,直至遍历所有所述Conformer模块,得到所有所述Conformer模块对应的目标组辅助声源信号表征掩码及干扰组辅助声源信号表征掩码。
8.如权利要求6所述的一种利用多源辅助信息的通用语音增强方法,其特征在于,所述步骤S53具体包括以下子步骤:
步骤S531:对所述目标组辅助声源信号表征掩码和所述干扰组辅助声源信号表征掩码通过累加的方式分别进行组内的表征掩码融合,分别得到目标组辅助声源信号组内表征掩码和干扰组辅助声源信号组内表征掩码;
步骤532:将所述目标组辅助声源信号组内表征掩码和所述干扰组辅助声源信号组内表征掩码通过相减的方式进行组间融合,得到融合掩码。
9.一种利用多源辅助信息的通用语音增强装置,其特征在于,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-8中任一项所述的一种利用多源辅助信息的通用语音增强方法。
10.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求1-8中任一项所述的一种利用多源辅助信息的通用语音增强方法。
CN202210902896.7A 2022-07-29 2022-07-29 一种利用多源辅助信息的通用语音增强方法和装置 Active CN114999508B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210902896.7A CN114999508B (zh) 2022-07-29 2022-07-29 一种利用多源辅助信息的通用语音增强方法和装置
US18/360,838 US20240079022A1 (en) 2022-07-29 2023-07-28 General speech enhancement method and apparatus using multi-source auxiliary information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210902896.7A CN114999508B (zh) 2022-07-29 2022-07-29 一种利用多源辅助信息的通用语音增强方法和装置

Publications (2)

Publication Number Publication Date
CN114999508A true CN114999508A (zh) 2022-09-02
CN114999508B CN114999508B (zh) 2022-11-08

Family

ID=83021323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210902896.7A Active CN114999508B (zh) 2022-07-29 2022-07-29 一种利用多源辅助信息的通用语音增强方法和装置

Country Status (2)

Country Link
US (1) US20240079022A1 (zh)
CN (1) CN114999508B (zh)

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110135107A1 (en) * 2007-07-19 2011-06-09 Alon Konchitsky Dual Adaptive Structure for Speech Enhancement
US20180366138A1 (en) * 2017-06-16 2018-12-20 Apple Inc. Speech Model-Based Neural Network-Assisted Signal Enhancement
US20190005976A1 (en) * 2017-07-03 2019-01-03 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Method and system for enhancing a speech signal of a human speaker in a video using visual information
CN109785852A (zh) * 2018-12-14 2019-05-21 厦门快商通信息技术有限公司 一种增强说话人语音的方法及系统
CN111009252A (zh) * 2019-12-19 2020-04-14 电子科技大学 一种embedding编解码器的语音增强系统及方法
US20200211580A1 (en) * 2018-12-27 2020-07-02 Lg Electronics Inc. Apparatus for noise canceling and method for the same
CN111653288A (zh) * 2020-06-18 2020-09-11 南京大学 基于条件变分自编码器的目标人语音增强方法
CN112289333A (zh) * 2020-12-25 2021-01-29 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置及语音增强方法和装置
CN112786064A (zh) * 2020-12-30 2021-05-11 西北工业大学 一种端到端的骨气导语音联合增强方法
CN112927707A (zh) * 2021-01-25 2021-06-08 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置及语音增强方法和装置
CN113284507A (zh) * 2021-05-14 2021-08-20 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置及语音增强方法和装置
CN113345460A (zh) * 2021-08-05 2021-09-03 北京世纪好未来教育科技有限公司 音频信号处理方法、装置、设备及存储介质
WO2021205494A1 (ja) * 2020-04-06 2021-10-14 日本電信電話株式会社 信号処理装置、信号処理方法、およびプログラム
CN113921022A (zh) * 2021-12-13 2022-01-11 北京世纪好未来教育科技有限公司 音频信号分离方法、装置、存储介质和电子设备
US20220013133A1 (en) * 2019-09-23 2022-01-13 Tencent Technology (Shenzhen) Company Limited Speech data processing method and apparatus, electronic device, and readable storage medium
CN114242098A (zh) * 2021-12-13 2022-03-25 北京百度网讯科技有限公司 一种语音增强方法、装置、设备以及存储介质
CN114255782A (zh) * 2021-12-21 2022-03-29 思必驰科技股份有限公司 说话人语音增强方法、电子设备和存储介质
CN114333895A (zh) * 2022-01-10 2022-04-12 阿里巴巴达摩院(杭州)科技有限公司 语音增强模型、电子设备、存储介质和相关方法
CN114360571A (zh) * 2022-01-14 2022-04-15 天津大学 基于参考的语音增强方法

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110135107A1 (en) * 2007-07-19 2011-06-09 Alon Konchitsky Dual Adaptive Structure for Speech Enhancement
US20180366138A1 (en) * 2017-06-16 2018-12-20 Apple Inc. Speech Model-Based Neural Network-Assisted Signal Enhancement
US20190005976A1 (en) * 2017-07-03 2019-01-03 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Method and system for enhancing a speech signal of a human speaker in a video using visual information
CN109785852A (zh) * 2018-12-14 2019-05-21 厦门快商通信息技术有限公司 一种增强说话人语音的方法及系统
US20200211580A1 (en) * 2018-12-27 2020-07-02 Lg Electronics Inc. Apparatus for noise canceling and method for the same
US20220013133A1 (en) * 2019-09-23 2022-01-13 Tencent Technology (Shenzhen) Company Limited Speech data processing method and apparatus, electronic device, and readable storage medium
CN111009252A (zh) * 2019-12-19 2020-04-14 电子科技大学 一种embedding编解码器的语音增强系统及方法
WO2021205494A1 (ja) * 2020-04-06 2021-10-14 日本電信電話株式会社 信号処理装置、信号処理方法、およびプログラム
CN111653288A (zh) * 2020-06-18 2020-09-11 南京大学 基于条件变分自编码器的目标人语音增强方法
CN112289333A (zh) * 2020-12-25 2021-01-29 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置及语音增强方法和装置
CN112786064A (zh) * 2020-12-30 2021-05-11 西北工业大学 一种端到端的骨气导语音联合增强方法
CN112927707A (zh) * 2021-01-25 2021-06-08 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置及语音增强方法和装置
CN113284507A (zh) * 2021-05-14 2021-08-20 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置及语音增强方法和装置
CN113345460A (zh) * 2021-08-05 2021-09-03 北京世纪好未来教育科技有限公司 音频信号处理方法、装置、设备及存储介质
CN113921022A (zh) * 2021-12-13 2022-01-11 北京世纪好未来教育科技有限公司 音频信号分离方法、装置、存储介质和电子设备
CN114242098A (zh) * 2021-12-13 2022-03-25 北京百度网讯科技有限公司 一种语音增强方法、装置、设备以及存储介质
CN114255782A (zh) * 2021-12-21 2022-03-29 思必驰科技股份有限公司 说话人语音增强方法、电子设备和存储介质
CN114333895A (zh) * 2022-01-10 2022-04-12 阿里巴巴达摩院(杭州)科技有限公司 语音增强模型、电子设备、存储介质和相关方法
CN114360571A (zh) * 2022-01-14 2022-04-15 天津大学 基于参考的语音增强方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
崔唯佳等: "自适应波束形成语音增强方法的研究与实现", 《伺服控制》 *
王振力等: "一种基于双通道自适应噪声对消的语音增强法", 《信号处理》 *
衡霞等: "基于自适应滤波的语音增强和噪声消除", 《微机发展》 *

Also Published As

Publication number Publication date
CN114999508B (zh) 2022-11-08
US20240079022A1 (en) 2024-03-07

Similar Documents

Publication Publication Date Title
JP7337953B2 (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
Yin et al. Phasen: A phase-and-harmonics-aware speech enhancement network
Xu et al. Convolutional gated recurrent neural network incorporating spatial features for audio tagging
CN110415687A (zh) 语音处理方法、装置、介质、电子设备
CN106328123B (zh) 小数据库条件下正常语音流中耳语音的识别方法
WO2022141868A1 (zh) 一种提取语音特征的方法、装置、终端及存储介质
Beckmann et al. Speech-vgg: A deep feature extractor for speech processing
Do et al. Speech source separation using variational autoencoder and bandpass filter
CN115602165A (zh) 基于金融系统的数字员工智能系统
Huang et al. Novel sub-band spectral centroid weighted wavelet packet features with importance-weighted support vector machines for robust speech emotion recognition
CN117672268A (zh) 基于相对熵对齐融合的多模态语音情感识别方法
Wang Supervised speech separation using deep neural networks
Parthasarathi et al. Wordless sounds: Robust speaker diarization using privacy-preserving audio representations
CN106875944A (zh) 一种语音控制家庭智能终端的系统
KR20190021421A (ko) 오디오 인식을 위한 방법 및 디바이스
CN114999508B (zh) 一种利用多源辅助信息的通用语音增强方法和装置
CN116534700A (zh) 爬楼机的控制系统及其方法
Indra et al. A modified tunable–Q wavelet transform approach for tamil speech enhancement
Sunny et al. Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam
CN113327631B (zh) 一种情感识别模型的训练方法、情感识别方法及装置
Lung Wavelet feature selection based neural networks with application to the text independent speaker identification
CN113707172A (zh) 稀疏正交网络的单通道语音分离方法、系统、计算机设备
CN113129926A (zh) 语音情绪识别模型训练方法、语音情绪识别方法及装置
CN113345413B (zh) 基于音频特征提取的语音合成方法、装置、设备及介质
Zhou et al. Meta-reinforcement learning based few-shot speech reconstruction for non-intrusive speech quality assessment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant