CN112786068B - 一种音频音源分离方法、装置及存储介质 - Google Patents

一种音频音源分离方法、装置及存储介质 Download PDF

Info

Publication number
CN112786068B
CN112786068B CN202110039150.3A CN202110039150A CN112786068B CN 112786068 B CN112786068 B CN 112786068B CN 202110039150 A CN202110039150 A CN 202110039150A CN 112786068 B CN112786068 B CN 112786068B
Authority
CN
China
Prior art keywords
audio
source
trained
residual
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110039150.3A
Other languages
English (en)
Other versions
CN112786068A (zh
Inventor
李治均
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pulian International Co ltd
Original Assignee
Pulian International Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pulian International Co ltd filed Critical Pulian International Co ltd
Priority to CN202110039150.3A priority Critical patent/CN112786068B/zh
Publication of CN112786068A publication Critical patent/CN112786068A/zh
Application granted granted Critical
Publication of CN112786068B publication Critical patent/CN112786068B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供一种音频音源分离方法、装置及存储介质,所述方法包括:将待分离混合音频通过音源分离模型进行分离,得到当前初始源音频;获取与所述当前初始源音频对应的历史目标源音频之和;根据所述当前初始源音频和历史目标源音频之和计算得到共享残差音频;根据所述当前初始源音频和共享残差音频计算得到当前目标源音频。本发明实施例实现了仅依靠单通道音频数据,在未知混合音频的源音频种类个数的情况下的音频音源分离。

Description

一种音频音源分离方法、装置及存储介质
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种音频音源分离方法、装置及存储介质。
背景技术
音源分离具有广泛的应用范围,如不同人声的分离、人声与背景声的分离、乐器声的分离等。由于单通道音频信息不足,因此单通道音频音源分离任务极具挑战。为解决单通道音频信息不足的问题,现有方法大多数利用额外的信息,如利用与音频同步的视频辅助实现单通道音频的音源分离,但是这种方法对于只拥有音频数据时无法实现。此外,当前大多数单通道音频音源分离方法假设混合音频中不同种类音频的数量为先验知识被提前知道,但在实际的情况下,混合音频中不同类别音频的数量通常是未知的。
发明内容
本发明的目的在于提供一种音频音源分离方法、装置及存储介质,以实现仅仅依靠单通道音频数据,在未知混合音频的源音频种类个数的情况下,实现音频音源分离。
为了解决上述技术问题,第一方面,本发明实施例提供一种音频音源分离方法,包括:
将待分离混合音频通过音源分离模型进行分离,得到当前初始源音频;
获取与所述当前初始源音频对应的历史目标源音频之和;
根据所述当前初始源音频和历史目标源音频之和计算得到共享残差音频;
根据所述当前初始源音频和共享残差音频计算得到当前目标源音频。
进一步地,所述的音频音源分离方法,还包括:
根据所述待分离混合音频和当前初始源音频计算得到当前残余音频;
将所述当前残余音频输入递归迭代模型,得到输出结果;
将所述输出结果经过sigmoid函数,得到二分类结果;
当所述二分类结果为预设阈值时,将所述当前残余音频作为待分离混合音频,并返回所述将待分离混合音频通过音源分离模型进行分离,得到当前初始源音频的步骤。
进一步地,所述的音频音源分离方法,还包括:
获取待训练混合音频、待训练源音频和待训练分离模型;
根据所述待训练混合音频和待训练分离模型计算得到估计源音频和估计残余音频;
根据所述待训练源音频和估计源音频计算得到第一尺度不变信噪比;
根据所述估计残余音频和所述待训练源音频计算得到第二尺度不变信噪比;
将所述估计残余音频输入递归迭代模型,得到估计输出结果;
将所述估计输出结果经过sigmoid函数,得到估计二分类结果;
根据所述估计二分类结果计算得到均方误差;
将所述第一尺度不变信噪比、第二尺度不变信噪比和均方误差作为损失函数,利用排序不变训练策略对所述待训练分离模型进行训练,得到所述音源分离模型。
进一步地,所述将所述尺度不变信噪比和均方误差作为损失函数,利用排序不变训练策略对所述待训练分离模型进行训练,具体包括:
根据公式
对待训练分离模型进行训练,其中,LuPIT为排序不变训练策略的训练目标,表示第一尺度不变信噪比,/>表示第二尺度不变信噪比,MSE表示均方误差,/>表示估计源音频,/>表示待训练源音频,/>表示估计残余音频,R(.)表示递归迭代模型。
进一步地,所述音源分离模型为深度神经网络DNN、卷积神经网络CNN、长短期记忆网络LSTM、门控循环神经网络GRU、卷积循环神经网络CRNN和注意力机制模型中的至少一种。
进一步地,所述递归迭代模型为深度神经网络DNN、卷积神经网络CNN、长短期记忆网络LSTM、门控循环神经网络GRU、卷积循环神经网络CRNN和注意力机制模型中的至少一种。
第二方面,本发明实施例提供一种音频音源分离装置,包括:
分离单元,用于将待分离混合音频通过音源分离模型进行分离,得到当前初始源音频;
历史目标源音频之和获取单元,用于获取与所述当前初始源音频对应的历史目标源音频之和;
共享残差音频计算单元,用于根据所述当前初始源音频和历史目标源音频之和计算得到共享残差音频;
当前目标源音频计算单元,用于根据所述当前初始源音频和共享残差音频计算得到当前目标源音频。
进一步地,所述的音频音源分离装置,还包括:
当前残余音频计算单元,用于根据所述待分离混合音频和当前初始源音频计算得到当前残余音频;
输出结果获取单元,用于将所述当前残余音频输入递归迭代模型,得到输出结果;
二分类结果获取单元,用于将所述输出结果经过sigmoid函数,得到二分类结果;
返回单元,用于当所述二分类结果为预设阈值时,将所述当前残余音频作为待分离混合音频,并返回所述将待分离混合音频通过音源分离模型进行分离,得到当前初始源音频的步骤。
进一步地,所述的音频音源分离装置,还包括:
获取单元,用于获取待训练混合音频、待训练源音频和待训练分离模型;其中,所述待训练混合音频由所述待训练源音频组成;
估计源音频和估计残余音频计算单元,根据所述待训练混合音频和待训练分离模型计算得到估计源音频和估计残余音频;
尺度不变信噪比计算单元,用于根据所述待训练源音频和估计源音频计算得到第一尺度不变信噪比;
所述尺度不变信噪比计算单元,还用于根据所述估计残余音频和所述待训练源音频计算得到第二尺度不变信噪比;
估计输出结果获取单元,用于将所述估计残余音频输入递归迭代模型,得到估计输出结果;
估计二分类结果获取单元,用于将所述估计输出结果经过sigmoid函数,得到估计二分类结果;
均方误差计算单元,用于根据所述估计二分类结果计算得到均方误差;
训练单元,用于将所述尺度不变信噪比和均方误差作为损失函数,利用排序不变训练策略对所述待训练分离模型进行训练,得到所述音源分离模型。
第三方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述所述的音频音源分离方法。
本发明实施例提供的音频音源分离方法,包括:将待分离混合音频通过音源分离模型进行分离,得到当前初始源音频;获取与所述当前初始源音频对应的历史目标源音频之和;根据所述当前初始源音频和历史目标源音频之和计算得到共享残差音频;根据所述当前初始源音频和共享残差音频计算得到当前目标源音频。本发明实施例仅依靠单通道音频数据实现了音频音源分离,相比于现有技术,所利用的信息更少,且能在未知混合音频的源音频种类个数的情况下实现音频音源分离。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1提供的音频音源分离方法的流程示意图;
图2是本发明实施例1提供的音频音源分离方法的另一流程示意图;
图3是本发明一实施例提供的音频音源分离装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为对步骤执行先后顺序的限定。
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
实施例1:
设待分离混合音频为x(t),本发明实施例的目的在于从x(t)中分离出组成所述混合音频的各个源音频i∈[1,N],N为源音频的总个数。此处需要理解的是,一个源音频对应一种类别的源音频,此处所述的类别并非广泛的大类,例如,男A的声音与男B的声音在本实施例中看作两种类别。
请参阅图1,本发明实施例提供一种音频音源分离方法,包括S1-S4:
S1、将待分离混合音频通过音源分离模型进行分离,得到当前初始源音频。
其中,所述待分离混合音频可以为单通道混合音频,也可以为双通道或多通道混合音频。
S2、获取与所述当前初始源音频对应的历史目标源音频之和。
S3、根据所述当前初始源音频和历史目标源音频之和计算得到共享残差音频。
S4、根据所述当前初始源音频和共享残差音频计算得到当前目标源音频。
请参阅图2,在本发明实施例中,具体地,所述音源分离模型包括融合模块和消去模块。所述消去模块的作用为从待分离混合音频中提取当前的初始源音频。设待分离混合音频为x(t),当前初始源音频为则/>其中,E(·)表示消去模块。所述融合模块的作用为弥补由于消去模块导致损失的不同类别声音之间的共享信息。设当前初始源音频对应的历史目标源音频之和为/> 其中,为分离得到的当前目标源音频,对应地,/>为上一次分离得到的目标源音频,则通过公式/>可计算得到共享残差音频/>其中,M(·)为融合模块。此外,所述根据所述当前初始源音频和共享残差音频计算得到当前目标源音频,具体地,通过公式/>可计算得到当前目标源音频/>
在本发明实施例中,需要理解的是,由于从所述待分离混合音频中分离出第一个当前目标源音频之前,分离出的第一个当前初始源音频对应的历史目标源音频之和为0,因此,从所述待分离混合音频中分离出的第一个当前目标源音频实际上就是分离出的第一个当前初始源音频。
本发明实施例提供的音频音源分离方法,包括:将待分离混合音频通过音源分离模型进行分离,得到当前初始源音频;获取与所述当前初始源音频对应的历史目标源音频之和;根据所述当前初始源音频和历史目标源音频之和计算得到共享残差音频;根据所述当前初始源音频和共享残差音频计算得到当前目标源音频。本发明实施例仅依靠单通道音频数据实现了音频音源分离,相比于现有技术,所利用的信息更少,且能在未知混合音频的源音频种类个数的情况下实现音频音源分离。
从待分离混合音频中提取了当前初始源音频后,剩余音频记为当前残余音频。为实现从待分离的混合音频中自适应地分离出所有类别的源音频,因此,作为本发明实施例的一种举例,所述音频音源分离方法,还包括步骤S5-步骤S8:
S5、根据所述待分离混合音频和当前初始源音频计算得到当前残余音频。
在本发明实施例中,具体地,通过公式可计算得到当前残余音频/>其中,x(t)为待分离混合音频,/>为当前初始源音频。
S6、将所述当前残余音频输入递归迭代模型,得到输出结果。
在本发明实施例中,所述递归迭代模型的作用为根据残余音频判断是否继续递归迭代。设R(·)为递归迭代模型,则为所述输出结果,由于该输出结果为-∞~+∞的值,较难判断是否继续迭代,因此,为实现容易判断是否继续迭代,需执行步骤S7。
S7、将所述输出结果经过sigmoid函数,得到二分类结果。
由于sigmoid函数的输出值为0-1之间,因此通过将该输出结果经过sigmoid函数,利用sigmoid函数的输出值可容易判断是否需要继续迭代。
S8、当所述二分类结果为预设阈值时,将所述当前残余音频作为待分离混合音频,并返回所述将待分离混合音频通过音源分离模型进行分离,得到当前初始源音频的步骤。
应当理解的是,本步骤的目的在于通过二分类结果来判断是否继续递归迭代,以实现自适应地分离出所有类别的源音频,具体地,判断是否继续递归迭代的条件为:
其中,out为二分类结果,R(·)为递归迭代模型,ε为常数。若所述预设阈值为1,当out=1时,判断为需要继续递归迭代,将所述当前残余音频作为待分离混合音频,并返回所述将待分离混合音频通过音源分离模型进行分离,得到当前初始源音频的步骤;当out=0时,判断为不需要继续迭代,音频音源分离完成。
需要说明的是,ε的数值是根据实际的应用情况确定的,因此,本发明实施例对ε的具体数值在此不作限制,例如,在通过家用网络摄像头采集家庭声音并进行音源分离的场景下,ε可以等于0.5。调节阈值ε需要在实际的环境下进行,具体方法为:当在某一阈值情况下,实际测试中通过音源分离模型估计的源音频个数大于实际的源音频个数,则应调高ε;而当通过音源分离模型估计的源音频个数小于实际的源音频个数,则应调低ε。
在上述实施例中,所述待分离混合音频、所述当前初始源音频、所述当前目标源音频、所述当前残余音频和所述共享残差音频均可为时域上的波形音频数据,也可以为时域波形音频转化后的时频域音频特征,包括但不限于logmel频谱、梅尔频率倒谱系数MFCC以及CQT声谱等。
作为本发明实施例的一种举例,所述音源分离模型为深度神经网络DNN、卷积神经网络CNN、长短期记忆网络LSTM、门控循环神经网络GRU、卷积循环神经网络CRNN和注意力机制模型中的至少一种。
作为本发明实施例的一种举例,所述递归迭代模型为深度神经网络DNN、卷积神经网络CNN、长短期记忆网络LSTM、门控循环神经网络GRU、卷积循环神经网络CRNN和注意力机制模型中的至少一种。优选地,所述递归迭代模型为简单的二分类CNN模型。
需要说明的是,若待分离混合音频为时频域音频数据,则音源分离模型中的消去模块和融合模块应均为时频域音频网络。作为一种举例,当所述音源分离模型输入的待分离混合音频为时域波形数据时,所述分离模型中的消去模块为TasNet网络,融合模块为Dual-path RNN网络(DPRNN)。需要说明的是,TasNet网络和Dual-path RNN网络均为著名的以时频数据为输入的网络。若混合音频为时频域音频数据,则音源分离模型中的消去模块和融合模块应均为时频域音频网络,如以频谱图为输入的U-net网络。
为提高音频音源分离的准确性,作为本发明实施例的一种举例,所述的音频音源分离方法,还包括:
S31、获取待训练混合音频、待训练源音频和待训练分离模型;
在本发明实施例中,设待训练混合音频为xj(t),待训练源音频为N表示待训练源音频的总个数,j表示数据序号。此处,应当理解的是,由于模型是由多组训练数据训练得到的,则xj(t)表示第j个待训练混合音频。
S32、根据所述待训练混合音频和待训练分离模型计算得到估计源音频和估计残余音频。
具体地,将待训练混合音频输入待训练分离模型,按照上述步骤S1-S5中的计算方式计算得到估计源音频和估计残余音频,此处需要理解的是,由于模型训练需要根据估计值(分离出的源音频)和实际值(所述待训练源音频)调整模型权重,因此,为便于描述,将所述待训练混合音频输入待训练分离模型中得到的当前目标源音频命名为估计源音频,对应地,得到的当前残余音频命名为估计残余音频。
S33、根据所述待训练源音频和估计源音频计算得到第一尺度不变信噪比。
S34、根据所述估计残余音频和所述待训练源音频计算得到第二尺度不变信噪比。
其中,尺度不变信噪比的通用计算公式为:
其中,为估计值、s为实际值、/> ‖·‖表示L2范数。
将所述待训练源音频和估计源音频/>带入上述公式,可得第一尺度不变信噪比:
其中,为估计源音频、/>为待训练源音频、/> ‖·‖表示L2范数。
将所述估计残余音频和所述待训练源音频/>代入计算尺度不变信噪比的通用公式,得到第二尺度不变信噪比:
其中,为估计残余音频、sN j(t)表示待训练源音频,/> ‖·‖表示L2范数。此处,应当理解的是,/>表示实际残余音频。
S35、将所述估计残余音频输入递归迭代模型,得到估计输出结果。
S36、将所述估计输出结果经过sigmoid函数,得到估计二分类结果。
S37、根据所述估计二分类结果计算得到均方误差。
在本发明实施例中,均方误差的通用计算公式为:
其中,表示估计值,y表示实际值,N表示组成所述待训练混合音频的待训练源音频个数。
作为/>1作为y代入上述均方误差公式,可得:
S38、将所述第一尺度不变信噪比、所述第二尺度不变信噪比和均方误差作为损失函数,利用排序不变训练策略对所述待训练分离模型进行训练,得到所述音源分离模型。
作为本发明实施例的一种举例,所述将所述第一尺度不变信噪比、第二尺度不变信噪比和均方误差作为损失函数,利用排序不变训练策略对所述待训练分离模型进行训练,具体包括:
根据公式
对待训练分离模型进行训练,其中,LuPIT为排序不变训练策略的训练目标,表示第一尺度不变信噪比,/>表示第二尺度不变信噪比,MSE表示均方误差,/>表示估计源音频,/>表示待训练源音频,/>表示估计残余音频,R(.)表示递归迭代模型。
在本发明实施例中,应当理解的是,由于模型需由多组训练数据训练得到,因此,具体地,j表示数据序号,表示第j个待训练混合音频的第i个估计源音频,i=1,2...N,N表示组成待训练混合音频的源音频的总个数,即待训练混合音频的总个数,也为迭代总次数,/>表示第j个待训练混合音频的第i个待训练源音频,/>表示第j个待训练混合音频的第i个估计残余音频,/>表示对应的实际残余音频。
在本发明实施例中,对于某一训练样本,当组成待训练混合音频的源音频个数为N时,即待训练源音频总个数为N时,递归迭代N次后产生对应的N个估计源音频,然后计算该训练样本的LuPIT。对所有训练样本的训练迭代数,训练迭代数没有限制,训练目标LuPIT的值越小越好。需要说明的是,一般来说,随着迭代数的增加,LuPIT的值越小。
实施例2:
设待分离混合音频为x(t),本发明实施例的目的在于从x(t)中分离出组成所述混合音频的各个源音频i∈[1,N],N为源音频的总个数。此处需要理解的是,一个源音频对应一种类别的源音频,此处所述的类别并非广泛的大类,例如,男A的声音与男B的声音在本实施例中看作两种类别。
请参阅图3,本发明实施例提供一种音频音源分离装置,包括:
分离单元1,用于将待分离混合音频通过音源分离模型进行分离,得到当前初始源音频。
其中,所述待分离混合音频可以为单通道混合音频,也可以为双通道或多通道混合音频。
历史目标源音频之和获取单元2,用于获取与所述当前初始源音频对应的历史目标源音频之和。
共享残差音频计算单元3,用于根据所述当前初始源音频和历史目标源音频之和计算得到共享残差音频。
当前目标源音频计算单元4,用于根据所述当前初始源音频和共享残差音频计算得到当前目标源音频。
在本发明实施例中,具体地,所述音源分离模型包括融合模块和消去模块。所述消去模块的作用为从待分离混合音频中提取当前的初始源音频。设待分离混合音频为x(t),当前初始源音频为则/>其中,E(·)表示消去模块。所述融合模块的作用为弥补由于消去模块导致损失的不同类别声音之间的共享信息。设当前初始源音频对应的历史目标源音频之和为/> 其中,/>为分离得到的当前目标源音频,对应地,/>为上一次分离得到的目标源音频,则通过公式可计算得到共享残差音频/>其中,M(·)为融合模块。此外,所述根据所述当前初始源音频和共享残差音频计算得到当前目标源音频,具体地,通过公式/>可计算得到当前目标源音频/>
在本发明实施例中,需要理解的是,由于从所述待分离混合音频中分离出第一个当前目标源音频之前,分离出的第一个当前初始源音频对应的历史目标源音频之和为0,因此,从所述待分离混合音频中分离出的第一个当前目标源音频实际上就是分离出的第一个当前初始源音频。
从待分离混合音频中提取了当前初始源音频后,剩余音频记为当前残余音频。为实现从待分离的混合音频中自适应地分离出所有类别的源音频,因此,作为本发明实施例的一种举例,所述音频音源分离装置,还包括:
当前残余音频计算单元,用于根据所述待分离混合音频和当前初始源音频计算得到当前残余音频。
在本发明实施例中,具体地,通过公式可计算得到当前残余音频/>其中,x(t)为待分离混合音频,/>为当前初始源音频。
输出结果获取单元,用于将所述当前残余音频输入递归迭代模型,得到输出结果。
在本发明实施例中,所述递归迭代模型的作用为根据残余音频判断是否继续递归迭代。设R(·)为递归迭代模型,则为所述输出结果,由于该输出结果为-∞~+∞的值,较难判断是否继续迭代,因此,为实现容易判断是否继续迭代,需执行二分类结果获取单元。
二分类结果获取单元,用于将所述输出结果经过sigmoid函数,得到二分类结果。
由于sigmoid函数的输出值为0-1之间,因此通过将该输出结果经过sigmoid函数,利用sigmoid函数的输出值可容易判断是否需要继续迭代。
返回单元,用于当所述二分类结果为预设阈值时,将所述当前残余音频作为待分离混合音频,并返回所述将待分离混合音频通过音源分离模型进行分离,得到当前初始源音频的步骤。
应当理解的是,本步骤的目的在于通过二分类结果来判断是否继续递归迭代,以实现自适应地分离出所有类别的源音频,具体地,判断是否继续递归迭代的条件为:
其中,out为二分类结果,R(·)为递归迭代模型,ε为常数。若所述预设阈值为1,当out=1时,判断为需要继续递归迭代,将所述当前残余音频作为待分离混合音频,并返回所述将待分离混合音频通过音源分离模型进行分离,得到当前初始源音频的步骤;当out=0时,判断为不需要继续迭代,音频音源分离完成。
需要说明的是,ε的数值是根据实际的应用情况确定的,因此,本发明实施例对ε的具体数值在此不作限制,例如,在通过家用网络摄像头采集家庭声音并进行音源分离的场景下,ε可以等于0.5。调节阈值ε需要在实际的环境下进行,具体方法为:当在某一阈值情况下,实际测试中通过音源分离模型估计的源音频个数大于实际的源音频个数,则应调高ε;而当通过音源分离模型估计的源音频个数小于实际的源音频个数,则应调低ε。
在上述实施例中,所述待分离混合音频、所述当前初始源音频、所述当前目标源音频、所述当前残余音频和所述共享残差音频均可为时域上的波形音频数据,也可以为时域波形音频转化后的时频域音频特征,包括但不限于logmel频谱、梅尔频率倒谱系数MFCC以及CQT声谱等。
作为本发明实施例的一种举例,所述音源分离模型为深度神经网络DNN、卷积神经网络CNN、长短期记忆网络LSTM、门控循环神经网络GRU、卷积循环神经网络CRNN和注意力机制模型中的至少一种。
作为本发明实施例的一种举例,所述递归迭代模型为深度神经网络DNN、卷积神经网络CNN、长短期记忆网络LSTM、门控循环神经网络GRU、卷积循环神经网络CRNN和注意力机制模型中的至少一种。优选地,所述递归迭代模型为简单地二分类CNN模型。
需要说明的是,若待分离混合音频为时频域音频数据,则音源分离模型中的消去模块和融合模块应均为时频域音频网络。作为一种举例,当所述音源分离模型输入的待分离混合音频为时域波形数据时,所述分离模型中的消去模块为TasNet网络,融合模块为Dual-path RNN网络(DPRNN)。需要说明的是,TasNet网络和Dual-path RNN网络均为著名的以时频数据为输入的网络。若混合音频为时频域音频数据,则音源分离模型中的消去模块和融合模块应均为时频域音频网络,如以频谱图为输入的U-net网络。
作为本发明实施例的一种举例,所述音频音源分离装置,还包括:
获取单元,用于获取待训练混合音频、待训练源音频和待训练分离模型;其中,所述待训练混合音频由所述待训练源音频组成。
在本发明实施例中,设待训练混合音频为xj(t),待训练源音频为N表示待训练源音频的总个数,j表示数据序号。此处,应当理解的是,由于模型是由多组训练数据训练得到的,则xj(t)表示第j个待训练混合音频。
残余音频计算单元,根据所述待训练混合音频和待训练分离模型计算得到估计源音频和估计残余音频。
具体地,将待训练混合音频输入待训练分离模型,按照上述步骤S1-S5中的计算方式计算得到估计源音频和估计残余音频,此处需要理解的是,由于模型训练需要根据估计值(分离出的源音频)和实际值(所述待训练源音频)调整模型权重,因此,为便于描述,将所述待训练混合音频输入待训练分离模型中得到的当前目标源音频命名为估计源音频,对应地,得到的残余音频命名为估计残余音频。
尺度不变信噪比计算单元,用于根据所述待训练源音频和估计源音频计算得到第一尺度不变信噪比;
所述尺度不变信噪比计算单元,还用于根据所述估计残余音频和所述待训练源音频对应的残余音频计算得到第二尺度不变信噪比。
其中,尺度不变信噪比的通用计算公式为:
其中,为估计值、s为实际值、/> ‖·‖表示L2范数。
将所述待训练源音频和估计源音频/>带入上述公式,可得第一尺度不变信噪比:/>
其中,为估计源音频、/>表示待训练源音频、/> ‖·‖表示L2范数。
将所述估计残余音频和所述待训练源音频si j(t)代入计算尺度不变信噪比的通用公式,得到第二尺度不变信噪比:
其中,为估计残余音频、sN j(t)表示待训练源音频,/> ‖·‖表示L2范数。此处,应当理解的是,/>表示实际残余音频。
估计输出结果获取单元,用于将所述估计残余音频输入递归迭代模型,得到估计输出结果。
估计二分类结果获取单元,用于将所述估计输出结果经过sigmoid函数,得到估计二分类结果。
均方误差计算单元,用于根据所述估计二分类结果计算得到均方误差。
在本发明实施例中,均方误差的计算公式为:
其中,表示估计值,y表示实际,N表示组成所述待训练混合音频的待训练源音频个数。
作为/>1作为y代入上述均方误差公式,可得:
训练单元,用于将所述尺度不变信噪比和均方误差作为损失函数,利用排序不变训练策略对所述待训练分离模型进行训练,得到所述音源分离模型。
作为本发明实施例的一种举例,所述将所述第一尺度不变信噪比、第二尺度不变信噪比和均方误差作为损失函数,利用排序不变训练策略对所述待训练分离模型进行训练,具体包括:
根据公式
对待训练分离模型进行训练,其中,LuPIT为排序不变训练策略的训练目标,表示第一尺度不变信噪比,/>表示第二尺度不变信噪比,MSE表示均方误差,/>表示估计源音频,/>表示待训练源音频,/>表示估计残余音频,R(.)表示递归迭代模型。
在本发明实施例中,应当理解的是,由于模型需由多组训练数据训练得到,因此,具体地,j表示数据序号,表示第j个待训练混合音频的第i个估计源音频,i=1,2...N,N表示组成待训练混合音频的源音频的总个数,即待训练混合音频的总个数,也为迭代总次数,/>表示第j个待训练混合音频的第i个待训练源音频,/>表示第j个待训练混合音频的第i个估计残余音频,/>表示对应的实际残余音频。
在本发明实施例中,对于某一训练样本,当组成待训练混合音频的源音频个数为N时,即待训练源音频总个数为N时,递归迭代N次后产生对应的N个估计源音频,然后计算该训练样本的LuPIT。对所有训练样本的训练迭代数,训练迭代数没有限制,训练目标LuPIT的值越小越好。需要说明的是,一般来说,随着迭代数的增加,LuPIT的值越小。
实施例3:
本发明实施例还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述实施例所述的音频音源分离方法。
需要说明的是,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要进一步说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (8)

1.一种音频音源分离方法,其特征在于,包括:
将待分离混合音频通过音源分离模型进行分离,得到当前初始源音频;
获取与所述当前初始源音频对应的历史目标源音频之和;
根据所述当前初始源音频和历史目标源音频之和计算得到共享残差音频;
根据所述当前初始源音频和共享残差音频计算得到当前目标源音频;
还包括:
获取待训练混合音频、待训练源音频和待训练分离模型;
根据所述待训练混合音频和待训练分离模型计算得到估计源音频和估计残余音频;
根据所述待训练源音频和估计源音频计算得到第一尺度不变信噪比;
根据所述估计残余音频和所述待训练源音频计算得到第二尺度不变信噪比;
将所述估计残余音频输入递归迭代模型,得到估计输出结果;
将所述估计输出结果经过sigmoid函数,得到估计二分类结果;
根据所述估计二分类结果计算得到均方误差;
将所述第一尺度不变信噪比、所述第二尺度不变信噪比和均方误差作为损失函数,利用排序不变训练策略对所述待训练分离模型进行训练,得到所述音源分离模型。
2.根据权利要求1所述的音频音源分离方法,其特征在于,还包括:
根据所述待分离混合音频和当前初始源音频计算得到当前残余音频;
将所述当前残余音频输入递归迭代模型,得到输出结果;
将所述输出结果经过sigmoid函数,得到二分类结果;
当所述二分类结果为预设阈值时,将所述当前残余音频作为待分离混合音频,并返回所述将待分离混合音频通过音源分离模型进行分离,得到当前初始源音频的步骤。
3.根据权利要求1所述的音频音源分离方法,其特征在于,所述将所述第一尺度不变信噪比、所述第二尺度不变信噪比和均方误差作为损失函数,利用排序不变训练策略对所述待训练分离模型进行训练,具体包括:
根据公式
对待训练分离模型进行训练,其中,/>为排序不变训练策略的训练目标,/>表示第一尺度不变信噪比,/>表示第二尺度不变信噪比,/>表示均方误差,/>表示估计源音频,/>表示待训练源音频,/>表示估计残余音频,/>表示递归迭代模型,/>表示数据序号,/>,/>表示组成待训练混合音频的源音频的总个数,/>表示第/>个待训练混合音频的第/>个估计源音频,/>表示第/>个待训练混合音频的第/>个待训练源音频,/>表示第/>个待训练混合音频的第/>个估计残余音频,/>表示第/>个待训练混合音频的第/>个待训练源音频对应的实际残余音频,t表示时间。
4.根据权利要求1所述的音频音源分离方法,其特征在于,所述音源分离模型为深度神经网络DNN、卷积神经网络CNN、长短期记忆网络LSTM、门控循环神经网络GRU、卷积循环神经网络CRNN和注意力机制模型中的至少一种。
5.根据权利要求2所述的音频音源分离方法,其特征在于,所述递归迭代模型为深度神经网络DNN、卷积神经网络CNN、长短期记忆网络LSTM、门控循环神经网络GRU、卷积循环神经网络CRNN和注意力机制模型中的至少一种。
6.一种音频音源分离装置,其特征在于,包括:
分离单元,用于将待分离混合音频通过音源分离模型进行分离,得到当前初始源音频;
历史目标源音频之和获取单元,用于获取与所述当前初始源音频对应的历史目标源音频之和;
共享残差音频计算单元,用于根据所述当前初始源音频和历史目标源音频之和计算得到共享残差音频;
当前目标源音频计算单元,用于根据所述当前初始源音频和共享残差音频计算得到当前目标源音频;
还包括:
获取单元,用于获取待训练混合音频、待训练源音频和待训练分离模型;其中,所述待训练混合音频由所述待训练源音频组成;
估计源音频和估计残余音频计算单元,根据所述待训练混合音频和待训练分离模型计算得到估计源音频和估计残余音频;
尺度不变信噪比计算单元,用于根据所述待训练源音频和估计源音频计算得到第一尺度不变信噪比;
所述尺度不变信噪比计算单元,还用于根据所述估计残余音频和所述待训练源音频计算得到第二尺度不变信噪比;
估计输出结果获取单元,用于将所述估计残余音频输入递归迭代模型,得到估计输出结果;
估计二分类结果获取单元,用于将所述估计输出结果经过sigmoid函数,得到估计二分类结果;
均方误差计算单元,用于根据所述估计二分类结果计算得到均方误差;
训练单元,用于将所述尺度不变信噪比和均方误差作为损失函数,利用排序不变训练策略对所述待训练分离模型进行训练,得到所述音源分离模型。
7.根据权利要求6所述的音频音源分离装置,其特征在于,还包括:
当前残余音频计算单元,用于根据所述待分离混合音频和当前初始源音频计算得到当前残余音频;
输出结果获取单元,用于将所述当前残余音频输入递归迭代模型,得到输出结果;
二分类结果获取单元,用于将所述输出结果经过sigmoid函数,得到二分类结果;
返回单元,用于当所述二分类结果为预设阈值时,将所述当前残余音频作为待分离混合音频,并返回所述将待分离混合音频通过音源分离模型进行分离,得到当前初始源音频的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至5中任一项所述的音频音源分离方法。
CN202110039150.3A 2021-01-12 2021-01-12 一种音频音源分离方法、装置及存储介质 Active CN112786068B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110039150.3A CN112786068B (zh) 2021-01-12 2021-01-12 一种音频音源分离方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110039150.3A CN112786068B (zh) 2021-01-12 2021-01-12 一种音频音源分离方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN112786068A CN112786068A (zh) 2021-05-11
CN112786068B true CN112786068B (zh) 2024-01-16

Family

ID=75757055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110039150.3A Active CN112786068B (zh) 2021-01-12 2021-01-12 一种音频音源分离方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112786068B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113707167A (zh) * 2021-08-31 2021-11-26 北京地平线信息技术有限公司 残留回声抑制模型的训练方法和训练装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109841206A (zh) * 2018-08-31 2019-06-04 大象声科(深圳)科技有限公司 一种基于深度学习的回声消除方法
CN110120227A (zh) * 2019-04-26 2019-08-13 天津大学 一种深度堆叠残差网络的语音分离方法
CN110491412A (zh) * 2019-08-23 2019-11-22 北京市商汤科技开发有限公司 声音分离方法和装置、电子设备
CN110992978A (zh) * 2019-12-18 2020-04-10 苏州思必驰信息科技有限公司 音视频分离模型的训练方法及系统
CN111243620A (zh) * 2020-01-07 2020-06-05 腾讯科技(深圳)有限公司 语音分离模型训练方法、装置、存储介质和计算机设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8787591B2 (en) * 2009-09-11 2014-07-22 Texas Instruments Incorporated Method and system for interference suppression using blind source separation
US9966088B2 (en) * 2011-09-23 2018-05-08 Adobe Systems Incorporated Online source separation
US11373672B2 (en) * 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109841206A (zh) * 2018-08-31 2019-06-04 大象声科(深圳)科技有限公司 一种基于深度学习的回声消除方法
CN110120227A (zh) * 2019-04-26 2019-08-13 天津大学 一种深度堆叠残差网络的语音分离方法
CN110491412A (zh) * 2019-08-23 2019-11-22 北京市商汤科技开发有限公司 声音分离方法和装置、电子设备
CN110992978A (zh) * 2019-12-18 2020-04-10 苏州思必驰信息科技有限公司 音视频分离模型的训练方法及系统
CN111243620A (zh) * 2020-01-07 2020-06-05 腾讯科技(深圳)有限公司 语音分离模型训练方法、装置、存储介质和计算机设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Audio-visual speech separation and dereverberation with a two-stage multimodal network;Ke Tan等;IEEE Journal of Selected Topics in Signal Processing;第14卷(第3期);全文 *
单声道语音降噪与去混响研究综述;蓝天 等;计算机研究与发展(第05期);全文 *
基于自回归深度神经网络的单通道语音分离方法研究;李曾玺;中国博士学位论文全文数据库;全文 *

Also Published As

Publication number Publication date
CN112786068A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN108922513B (zh) 语音区分方法、装置、计算机设备及存储介质
US4038503A (en) Speech recognition apparatus
US5594834A (en) Method and system for recognizing a boundary between sounds in continuous speech
CN109448726A (zh) 一种语音控制准确率的调整方法及系统
US5734793A (en) System for recognizing spoken sounds from continuous speech and method of using same
CN109036470B (zh) 语音区分方法、装置、计算机设备及存储介质
CN112634858B (zh) 语音合成方法、装置、计算机设备及存储介质
CN114242044B (zh) 语音质量评估方法、语音质量评估模型训练方法及装置
CN109300470B (zh) 混音分离方法和混音分离装置
WO2019232867A1 (zh) 语音区分方法、装置、计算机设备及存储介质
CN113539293A (zh) 基于卷积神经网络和联合优化的单通道语音分离方法
CN112786068B (zh) 一种音频音源分离方法、装置及存储介质
US5832181A (en) Speech-recognition system utilizing neural networks and method of using same
CN112116921A (zh) 一种基于整合优化器的单声道语音分离方法
Ditter et al. Influence of Speaker-Specific Parameters on Speech Separation Systems.
KR100766170B1 (ko) 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법
EP0308433B1 (en) An adaptive multivariate estimating apparatus
CN115881157A (zh) 音频信号的处理方法及相关设备
CN110689875A (zh) 一种语种识别方法、装置及可读存储介质
CN112259107A (zh) 一种会议场景小样本条件下的声纹识别方法
Chiu et al. A micro-control device of soundscape collection for mixed frog call recognition
CN111354352A (zh) 一种用于音频检索的模板自动清洗方法及系统
CN116884438B (zh) 基于声学特征的练琴音准检测方法及系统
RU2364957C1 (ru) Способ определения параметров линейчатых спектров вокализованных звуков и система для его реализации
CN117727298B (zh) 基于深度学习的手提电脑语音识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant