CN111724806A - 一种基于深度神经网络的双视角单通道语音分离方法 - Google Patents

一种基于深度神经网络的双视角单通道语音分离方法 Download PDF

Info

Publication number
CN111724806A
CN111724806A CN202010506069.7A CN202010506069A CN111724806A CN 111724806 A CN111724806 A CN 111724806A CN 202010506069 A CN202010506069 A CN 202010506069A CN 111724806 A CN111724806 A CN 111724806A
Authority
CN
China
Prior art keywords
voice
mixed
speech
data
speakers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010506069.7A
Other languages
English (en)
Other versions
CN111724806B (zh
Inventor
丁彩英
刘松华
贾宏恩
李付江
王洋
王亚姣
相洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Technology
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN202010506069.7A priority Critical patent/CN111724806B/zh
Publication of CN111724806A publication Critical patent/CN111724806A/zh
Application granted granted Critical
Publication of CN111724806B publication Critical patent/CN111724806B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开了一种基于深度神经网络的双视角单通道语音分离方法,通过混合语音多空间投影,能有效利用不同说话人语音在不同空间表达能力不同的特性,提升混合语音分离的性能,简单有效;本发明通过类掩膜映射的分离语音设计,不仅规避了传统深度神经网络的框架需要利用PIT算法的缺陷,而且能有效选择相应说话人的特征,达到传统掩膜的功能,提高深度学习框架的泛化能力,避免掩膜设计。同时,本发明通过引入稀疏化的策略,只需一个解码器,避免传统解码时多个解码器、多套参数学习引起的参数爆炸和参数消失问题。

Description

一种基于深度神经网络的双视角单通道语音分离方法
技术领域
本发明涉及语音处理技术领域,更具体地说,涉及一种基于深度神经网络的双视角单通道语音分离方法。
背景技术
语音分离在人机交互、公安侦听、军用通信等领域均有重要研究意义,如何将目标语音从这些复杂的场景中分离处理是应用中最大的挑战。同时语音的时频域特性动态变化且受干扰噪声影响存在复杂关系,这也是语音分离难以解决的主要原因。单通道语音分离作为其重要的一个分支受到了各领域研究者的关注,按其结合信息的方式可粗略分为无监督和有监督两类。
无监督方法有谱减法、维纳滤波及各种基于最优化准则的频域方法,这类方法主要思路在于估计噪声并抑制;另一方面,还有估计发声系统参数或分解语音信号空间的时域方法;除此之外,还有受视觉场景分析启发而设计的各种频域和时域结合的分离方法。
有监督方法主要有基于矩阵分类、隐马尔可夫和神经网络等的模型。该类方法主要思路在于利用信号的监督信息对各声源与混合语音建立各种模型,并采用训练好信号的最大后验概率等准则估计目标语音。同时,前期的基于神经网络的语音分离算法规模小、结构简单且缺少足够的训练数据,一定程度上限制了该类方法的拓展。
近年来,随着深度学习技术的兴起,该类方法不再受到各种假设的限制,能有效通过网络规模提升语音分离模型的泛化能力,但受到大规模场景的应用限制。
传统的无监督分离方法在信噪比较低的情况下参数难以估计,在不同空间上投影时对正交假设要求较高,因此无法有效估计。而且多为线性模型,不仅受容量限制,也无法挖掘输入对之间的复杂关系。而近年来的深度神经网络框架能解决上述问题,但仍然存在如下挑战:首先纯净语音和监督信息较难获取;其次学习过程中掩膜设计难度较大,需要大量数据,进一步限制了其在大规模数据集上的应用。
发明内容
本发明的目的是为了克服现有技术中的不足,提供一种基于深度神经网络的双视角单通道语音分离方法,能够解决传统基于神经网络的语音分离算法面临的两个问题:(1)纯净语音和监督信息难以获取;(2)复杂的掩膜设计流程;除此之外,也能在一定程度上缓减深度学习框架较高时间复杂度和参数爆炸及消失的困扰,以便扩展到大规模数据集上。
本发明解决其技术问题所采用的技术方案是:构造一种基于深度神经网络的双视角单通道语音分离方法,包括:
获取相关的语料库,包括单个纯净的说话人语音、多说话人的混合语音,并进行预处理;
对预处理后的语音数据进行混合语音多空间投影训练,实现对混合语音数据的投影分离;
对投影分离后的语音数据进行分离语音类掩膜映射训练,分离出两个说话人的语音数据。
其中,对初始语音数据进行预处理的步骤包括:
下载使用公认的公开混合语音或者纯净语音,检查语音数据的完整性,根据使用提示或者可考证文献的方法对数据进行清洗;
从不同的说话人中随机抽取2个说话人,并在对应的语料中随机抽取部分生成训练混合语音,剩余的作为测试混合语音,生成方式采用随机混合的方法,参考JohnR.Hershey提供的开源工具,混合语音数据的信噪比设定为-2.5到2.5DB;
频域分离:对混合语音数据进行帧长为256、帧移为128的短时傅里叶变换,分析窗为汉宁窗,将短时傅里叶输出的绝对值作为混合语音数据的幅度谱;
时域分离:将混合语音数据划分为帧长为129的短信号。
其中,对预处理后的语音数据进行混合语音多空间投影训练的步骤包括:
使用公式(1)构建输入混合语音数据的稀疏网络,减少参数的相互依存关系,缓减过拟合,使用公式(2)编码非线性表达,避免前一层丢失过小的特征;
其中,公式(1)表示为:
y1=σ1(w1x+b1) (1)
式中,x表示混合语音信号,w1表示权重,b1表示偏置,σ1表示激活函数;y1为该层输出;
公式(2)表示为:
y2=σ2(w2y1+b2) (2)
式中,y1表示前一层输出,w2表示权重,b2表示偏置,σ2示激活函数,通过计算获取该层输出y2
利用前一层输入,将投影空间分为两部分,从对应投影空间观察输入混合语音数据,利用投影空间的正交特性保证不同混合语音数据的可区分性;
处理两个说话人,则使用公式(3)、(4)进行处理:
y31=w3y2 (3)
y32=(1-w))y2 (4)
公式(3)和(4)中,w3表示输入混合语音数据的权重,确保不同的数据在不同空间表达不同,y31,y32分别表示区别化处理过程输出;
将不同空间表达的信号y31,y32输入网络:
s1=σ1(w41y31+b41) (5)
s2=σ1(w42y32+b42) (6)
公式(5)和(6)中,s1,s2分别表示说话人1和2的输出的投影分离后的语音数据,w41,w42表示不同投影空间的基向量组成的矩阵;
设计约束误差view1err并使其接近于0,使得不同说话人在不同的特征空间表达,其计算公式如下:
Figure BDA0002526574470000041
其中,对投影分离后的语音数据进行分离语音类掩膜映射训练,分离出两个说话人的语音数据包括步骤:
设计分离语音类掩膜映射器,确保有效增强目标语音并抑制干扰语音,其采用的类掩膜映射器设计如公式(8)所示:
Figure BDA0002526574470000042
公式(8)中,∈确保不能除0,t1,t2为类似标签信息的矩阵,确保某个时刻只有一个说话人的状态激活;
分离出的两个说话人语音分别为:
Figure BDA0002526574470000043
其中,分离出两个说话人的语音数据的步骤之后,还包括步骤:
由前述实例分离出的语音合并为新的混合语音,如公式(10)所示:
Figure BDA0002526574470000044
设y为输入混合语音,计算还原语音与原始混合语音之间的均方误差,优化器设置为如公式(11)所示:
Figure BDA0002526574470000045
统计混合语音分离结果的各项技术指标。
区别于现有技术,本发明的基于深度神经网络的双视角单通道语音分离方法,通过混合语音多空间投影,能有效利用语音信号在不同空间表达能力不同的特性,增强该语音信号的特征表达能力,在一定程度上提升说话人分离的性能,简单有效;通过分离语音类掩膜映射,有别于传统深度神经网络的框架,本发明能有效选择相应说话人的特征,达到传统掩膜的功能,提高深度学习框架的泛化能力,避免掩膜设计,且只需一个解码器,避免传统解码时多个解码器、多套参数学习引起的参数爆炸和参数消失问题。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明提供的一种基于深度神经网络的双视角单通道语音分离方法的逻辑示意图。
图2是本发明提供的一种基于深度神经网络的双视角单通道语音分离方法的分离语音类掩膜映射训练第一步骤的示意图。
图3是本发明提供的一种基于深度神经网络的双视角单通道语音分离方法的分离语音类掩膜映射训练第二步骤的示意图。
图4是本发明提供的一种基于深度神经网络的双视角单通道语音分离方法的混合语音的频谱图。
图5是本发明提供的一种基于深度神经网络的双视角单通道语音分离方法的进行语音分离后的一部分语音频谱图。
图6是本发明提供的一种基于深度神经网络的双视角单通道语音分离方法的进行语音分离后的另一部分语音频谱图。。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
参阅图1,本发明提供了一种基于深度神经网络的双视角单通道语音分离方法,包括:
获取相关的语料库,包括单个纯净的说话人语音、多说话人的混合语音,并进行预处理;
对预处理后的语音数据进行混合语音多空间投影训练,实现对混合语音数据的投影分离;
对投影分离后的语音数据进行分离语音类掩膜映射训练,分离出两个说话人的语音数据。
其中,对初始语音数据进行预处理的步骤包括:
下载使用公认的公开混合语音或者纯净语音,检查语音数据的完整性,根据使用提示或者可考证文献的方法对数据进行清洗;
从不同的说话人中随机抽取2个说话人,并在对应的语料中随机抽取部分生成训练混合语音,剩余的作为测试混合语音,生成方式采用随机混合的方法,参考JohnR.Hershey提供的开源工具,混合语音数据的信噪比设定为-2.5到2.5DB;
频域分离:对混合语音数据进行帧长为256、帧移为128的短时傅里叶变换,分析窗为汉宁窗,将短时傅里叶输出的绝对值作为混合语音数据的幅度谱;
时域分离:将混合语音数据划分为帧长为129的短信号。
其中,对预处理后的语音数据进行混合语音多空间投影训练的步骤包括:
使用公式(1)构建输入混合语音数据的稀疏网络,减少参数的相互依存关系,缓减过拟合,使用公式(2)编码非线性表达,避免前一层丢失过小的特征;
其中,公式(1)表示为:
y1=σ1(w1x+b1) (1)
式中,x表示混合语音信号,w1表示权重,b1表示偏置,σ1表示激活函数;y1为该层输出;
公式(2)表示为:
y2=σ2(w2y1+b2) (2)
式中,y1表示前一层输出,w2表示权重,b2表示偏置,σ2示激活函数,通过计算获取该层输出y2
利用前一层输入,将投影空间分为两部分,从对应投影空间观察输入混合语音数据,利用投影空间的正交特性保证不同混合语音数据的可区分性;
处理两个说话人,则使用公式(3)、(4)进行处理:
y31=w3y2 (3)
y32=(1-w3)y2 (4)
公式(3)和(4)中,w3表示输入混合语音数据的权重,确保不同的数据在不同空间表达不同,y31,y32分别表示区别化处理过程输出;
将不同空间表达的信号y31,y32输入网络:
s1=σ1(w41y31+b41) (5)
s2=σ1(w42y32+b42) (6)
公式(5)和(6)中,s1,s2分别表示说话人1和2的输出的投影分离后的语音数据,w41,w42表示不同投影空间的基向量组成的矩阵;
设计约束误差view1err并使其接近于0,使得不同说话人具备不同的特征空间表达,其计算公式如下:
Figure BDA0002526574470000071
其中,对投影分离后的语音数据进行分离语音类掩膜映射训练,分离出两个说话人的语音数据包括步骤:
设计分离语音类掩膜映射器,确保有效增强目标语音并抑制干扰语音,其采用的类掩膜映射器设计如公式(8)所示:
Figure BDA0002526574470000072
公式(8)中,∈确保不能除0,t1,t2为类似标签信息的矩阵,确保某个时刻只有一个说话人的状态激活;
分离出的两个说话人语音分别为:
Figure BDA0002526574470000073
其中,分离出两个说话人的语音数据的步骤之后,还包括步骤:
由前述实例分离出的语音合并为新的混合语音,如公式(10)所示:
Figure BDA0002526574470000081
设y为输入混合语音,计算还原语音与原始混合语音之间的均方误差,优化器设置为如公式(11)所示:
Figure BDA0002526574470000082
统计混合语音分离结果的各项技术指标。
实施例1
(1)实验数据
以混合语音分离为例,对任意两个说话人的混合语音进行分离研究;研究数据来自语音技术研究中心CSTR VCTK的语料库,包括109名英语母语说话人使用不同口音所说的数据库,每个说话人朗读约400个句子,阅读内容为不同组的新闻语句,每组均通过贪心算法选择以最大化语境和语音覆盖。所有语音数据采用相同的语音设备采集,采样频率位24位96kHz,并转换为16位,并采用STPK降采样到16kHz;
(2)实验过程
按照图1所示的流程,采用如下步骤对109个说话人的混合语音进行分离:
步骤S1:获取语料库原始数据;
下载使用公认的公开混合语音或者纯净语音,检查语音数据的完整性,根据使用提示或者可考证文献的方法对数据进行清洗。
步骤S2:对语音原始数据进行预处理;
从CSTR VCTK语料库的109个说话人中随机抽取两个说话人,并随机抽取350个语句生成训练的混合语音,剩余的50条混合作为测试语音。混合语音的信噪比为-2.5--2.5DB,生成方式采用John R.Hershey提供的开源工具;
当进行频域分离时,对信号进行帧长为256,帧移为128的短时傅里叶变换,分析窗为汉宁窗,将短时傅里叶输出的绝对值作为语音信号的幅度谱,以幅度谱作为网络的输入。当进行时域分离时,将信号划分为帧长129的短信号作为网络输入。
步骤S3:混合语音多空间投影训练;
首先使用公式(1)构建输入混合语音的稀疏网络,减少参数的相互依存关系,缓减过拟合,使用公式(2)编码非线性表达,避免前一层丢失过小的特征:
y1=σ1(w1x+b1) (1)
公式(1)中,表示混合语音信号,w1表示权重,b1表示偏置,σ1表示ReLU激活函数,通过计算获取该层输出y1
y2=σ2(w2y1+b2 (2)
公式(2)中,y1表示前一层输出,w2表示权重,b2表示偏置,σ2示Sigmoid激活函数,通过计算获取该层输出y2
其次利用前一层输入,将投影空间分为两部分,从对应投影空间观察输入信号,利用投影空间的正交特性保证不同信号的可区分性;
如果处理两个说话人,则使用公式(3)、(4)进行处理:
y31=w3y2 (3)
y32=(1-w3)y2 (4)
公式(3)和(4)中,w3表示输入信号的权重,确保不同的信号在不同空间表达不同,y31,y32分别表示区别化处理过程输出;
将不同空间表达的信号y31,y32输入网络:
s1=σ1(w41y31+b41) (5)
s2=σ1(w42y32+b42) (6)
公式(5)和(6)中,s1,s2分别表示说话人1和2的混合语音多空间投影训练模型输出,w41,w42表示不同投影空间的基向量组成的矩阵,本实施例设置为258,其它参数含义和前述公式相同;
最后,为了确保混合语音多空间投影训练的有效,设计约束误差view1err,使得不同说话人在不同的特征空间表达。如图4所示,其计算公式如下:
Figure BDA0002526574470000091
公式(7)中,需要保证该式尽可能接近0。
本实施例实验结果如表1所示,分别测试了1427步和50000步的结果。
表1 view1err实验数据相同步数下对比,表格内数据为对应目标函数值
Figure BDA0002526574470000101
实验表明,该误差指标呈现单调递减下降趋势。为了验证整体有效性,两次实验采用了不同的随机种子,从表1中可以发现,随着测试步数的增加,该误差指标能有较大程度的下降,最低值达到了0.0205。充分表明了模型的有效性,保证了不同说话人在不同空间可分性能力;
步骤S4:分离语音类掩膜映射训练;
首先设计分离语音类掩膜映射器,如图2和图3中
Figure BDA0002526574470000105
所示,确保有效增强目标语音并抑制干扰语音,其采用的类掩膜映射器设计如公式(8)所示:
Figure BDA0002526574470000102
公式(8)中,∈确保不能除0,本实施例中取∈=10e-11,t1,t2为类似标签信息的矩阵,确保某个时刻只有一个说话人的状态激活,本实施例中可以根据损失函数确定激活的说话人的矩阵元素设置为1,其它设置为0;
其次,此层分离出的两个说话人语音分别为:
Figure BDA0002526574470000103
公式(9)中注意对两个说话人的幅度谱均取绝对值;
初始语音频谱图如图4所示,分离后不同说话人的语音频谱图如图5和图6所示,本实施例实验结果如表2所示。
表2 mask实验数据相同步数下对比,表格内数据为对应目标函数值
Figure BDA0002526574470000104
仍然随机两次实验,第一次执行1427步,第二次执行50000步。目标函数mask指标整体呈现小幅波动递减趋势,在前20步下降最快,在2425步之后基本处于平缓。但特别需要注意的是在第一次实验中,在440步的时候,该指标下降到14.26,为本次实验早期的极小值。而在第二次实验中,在1262步,达到了5.06,是早期极小值。尽管该指标后期仍然有小幅下降,如35000步的时候甚至降低到3.14,但该现象能为我们降低复杂度提供一定的指示作用。
步骤S5:合并分离语音,将还原语音与混合语音进行实验比对;
首先,由前述实例分离出的语音合并为新的混合语音,如下式所示:
Figure BDA0002526574470000111
其次,设y为输入混合语音,则可以计算还原语音与原始混合语音之间的均方误差。优化器设置为如下公式所示:
Figure BDA0002526574470000112
最后,统计混合语音分离结果的各项技术指标;
本实施例实验结果如表3和4所示,表3为本模型损失函数optimizer的性能曲线,与view1err指标出现类似的现象。表4为还原后语音与原始输入的混合语音之间的均方误差性能。
表3 optimizer实验数据相同步数下对比,表格内数据为对应目标函数值
Figure BDA0002526574470000113
表4 reconstruct error实验数据相同步数下对比,表格内数据为对应目标函数值
Figure BDA0002526574470000114
可以发现,本发明的方法能在一定程度上保证有效还原混合语音,在第1740步的时候,下降到了0.0215,还原混合语音的能力得到了有效的验证。同时,本实施例实验表明,上述各项指标在加权交叉验证的情况下能进一步以较少的循环次数获取相对较优的性能,有利于将本发明推广到大规模数据集上进行测试,具有较好的泛化能力。
实施例2
参数等设置方式同实施例1,针对传统基于神经网络的语音分离算法,本实施例测试如下两类:(1)比较混合语音和分离后语音频谱;(2)极小化与混合语音真实掩膜的最小均方误差;
首先观察频谱图,可以发现,本发明能有效将混合语音分离,分离后的语音听觉效果良好,频谱图清晰,能正确表示各自的特征,重构误差如表4所示;
其次以MSE为目标时,采用测度为SDR、SIR、STOI、PESQ,其结果见下表:
Figure BDA0002526574470000121
根据以上实验结果,可以得出如下结论:
(1)相比于其它方法,在SDR上的指标性能基本持平;
(2)在SIR指标上,性能分别提升了3;在STOI指标上,分别提升了0.21;在PESQ上,性能提升了0.92,证明了本发明策略更具优势;
同时比对前述所有实施例的数据结果,证明本发明在单GPU电脑上运行复杂度相对传统深度框架有一定程度的下降,如果以并行方式处理,效果更佳;同时在各项数据指标性能上的提升,进一步验证了本发明算法较好的泛化能力。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (5)

1.一种基于深度神经网络的双视角单通道语音分离方法,其特征在于,包括步骤:
获取相关的语料库,包括单个纯净的说话人语音、多说话人的混合语音,并进行预处理;
对预处理后的语音数据进行混合语音多空间投影训练,实现对混合语音数据的投影分离;
对投影分离后的语音数据进行分离语音类掩膜映射训练,分离出两个说话人的语音数据。
2.根据权利要求1所述的基于深度神经网络的双视角单通道语音分离方法,其特征在于,对初始语音数据进行预处理的步骤包括:
下载使用公认的公开混合语音或者纯净语音,检查语音数据的完整性,根据使用提示或者可考证文献的方法对数据进行清洗;
从不同的说话人中随机抽取2个说话人,并在对应的语料中随机抽取部分生成训练混合语音,剩余的作为测试混合语音,生成方式采用随机混合的方法,参考John R.Hershey提供的开源工具,混合语音数据的信噪比设定为-2.5到2.5DB;
频域分离:对混合语音数据进行帧长为256、帧移为128的短时傅里叶变换,分析窗为汉宁窗,将短时傅里叶输出的绝对值作为混合语音数据的幅度谱;
时域分离:将混合语音数据划分为帧长为129的短信号。
3.根据权利要求2所述的基于深度神经网络的双视角单通道语音分离方法,其特征在于,对预处理后的语音数据进行混合语音多空间投影训练的步骤包括:
使用公式(1)构建输入混合语音数据的稀疏网络,减少参数的相互依存关系,缓减过拟合,使用公式(2)编码非线性表达,避免前一层丢失过小的特征;
其中,公式(1)表示为:
y1=σ1(w1x+b1) (1)
式中,x表示混合语音信号,w1表示权重,b1表示偏置,σ1表示激活函数;y1为该层输出;
公式(2)表示为:
y2=σ2(w2y1+b2) (2)
式中,y1表示前一层输出,w2表示权重,b2表示偏置,σ2示激活函数,通过计算获取该层输出y2
利用前一层输入,将投影空间分为两部分,从对应投影空间观察输入混合语音数据,利用投影空间的正交特性保证不同混合语音数据的可区分性;
处理两个说话人,则使用公式(3)、(4)进行处理:
y31=w3y2 (3)
y32=(1-w3)y2 (4)
公式(3)和(4)中,w3表示输入混合语音数据的权重,确保不同的说话人在不同空间表达不同,y31,y32分别表示区别化处理过程输出;
将不同空间表达的信号y31,y32输入网络:
s1=σ1(w41y31+b41) (5)
s2=σ1(w42y32+b42) (6)
公式(5)和(6)中,s1,s2分别表示说话人1和2的输出的投影分离后的语音数据,w41,w42表示不同投影空间的基向量组成的矩阵;
设计约束误差view1err并使其接近于0,使得不同说话人在不同的特征空间表达,其计算公式如下:
Figure FDA0002526574460000021
4.根据权利要求3所述的基于深度神经网络的双视角单通道语音分离方法,其特征在于,对投影分离后的语音数据进行分离语音类掩膜映射训练,分离出两个说话人的语音数据包括步骤:
设计分离语音类掩膜映射器,确保有效增强目标语音并抑制干扰语音,其采用的类掩膜映射器设计如公式(8)所示:
Figure FDA0002526574460000031
公式(8)中,∈确保不能除0,t1,t2为类似标签信息的矩阵,确保每一个神经元只被一个说话人的状态激活;
分离出的两个说话人语音分别为:
Figure FDA0002526574460000032
5.根据权利要求3所述的基于深度神经网络的双视角单通道语音分离方法,其特征在于,分离出两个说话人的语音数据的步骤之后,还包括步骤:
由前述实例分离出的语音合并为新的混合语音,如公式(10)所示:
Figure FDA0002526574460000033
设y为输入混合语音,计算还原语音与原始混合语音之间的均方误差,优化器设置为如公式(11)所示:
Figure FDA0002526574460000034
统计混合语音分离结果的各项技术指标。
CN202010506069.7A 2020-06-05 2020-06-05 一种基于深度神经网络的双视角单通道语音分离方法 Expired - Fee Related CN111724806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010506069.7A CN111724806B (zh) 2020-06-05 2020-06-05 一种基于深度神经网络的双视角单通道语音分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010506069.7A CN111724806B (zh) 2020-06-05 2020-06-05 一种基于深度神经网络的双视角单通道语音分离方法

Publications (2)

Publication Number Publication Date
CN111724806A true CN111724806A (zh) 2020-09-29
CN111724806B CN111724806B (zh) 2022-09-06

Family

ID=72566175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010506069.7A Expired - Fee Related CN111724806B (zh) 2020-06-05 2020-06-05 一种基于深度神经网络的双视角单通道语音分离方法

Country Status (1)

Country Link
CN (1) CN111724806B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899757A (zh) * 2020-09-29 2020-11-06 南京蕴智科技有限公司 针对目标说话人提取的单通道语音分离方法及系统
CN113707172A (zh) * 2021-06-02 2021-11-26 西安电子科技大学 稀疏正交网络的单通道语音分离方法、系统、计算机设备
CN114970607A (zh) * 2022-05-06 2022-08-30 北京谛声科技有限责任公司 基于深度神经网络声发射信号分离的变压器局放检测方法
CN118262737A (zh) * 2024-04-15 2024-06-28 常州工学院 声阵列语音信号与背景杂音的分离方法、系统及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1717721A (zh) * 2003-09-02 2006-01-04 日本电信电话株式会社 信号分离方法、信号分离装置、信号分离程序以及记录媒体
CN103456312A (zh) * 2013-08-29 2013-12-18 太原理工大学 一种基于计算听觉场景分析的单通道语音盲分离方法
US20190066713A1 (en) * 2016-06-14 2019-02-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
CN110428848A (zh) * 2019-06-20 2019-11-08 西安电子科技大学 一种基于公共空间语音模型预测的语音增强方法
CN110634502A (zh) * 2019-09-06 2019-12-31 南京邮电大学 基于深度神经网络的单通道语音分离算法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1717721A (zh) * 2003-09-02 2006-01-04 日本电信电话株式会社 信号分离方法、信号分离装置、信号分离程序以及记录媒体
CN103456312A (zh) * 2013-08-29 2013-12-18 太原理工大学 一种基于计算听觉场景分析的单通道语音盲分离方法
US20190066713A1 (en) * 2016-06-14 2019-02-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
CN110428848A (zh) * 2019-06-20 2019-11-08 西安电子科技大学 一种基于公共空间语音模型预测的语音增强方法
CN110634502A (zh) * 2019-09-06 2019-12-31 南京邮电大学 基于深度神经网络的单通道语音分离算法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YANG SUN,等: "Two-Stage Monaural Source Separation in Reverberant Room Environments Using Deep Reverberant Room Environments Using Deep", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
周晓东,等: "基于注意力机制的单通道双人语音分离研究", 《通信技术》 *
屈俊玲,等: "基于计算听觉场景分析的混合语音信号分离算法研究", 《计算机应用研究》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899757A (zh) * 2020-09-29 2020-11-06 南京蕴智科技有限公司 针对目标说话人提取的单通道语音分离方法及系统
CN111899757B (zh) * 2020-09-29 2021-01-12 南京蕴智科技有限公司 针对目标说话人提取的单通道语音分离方法及系统
CN113707172A (zh) * 2021-06-02 2021-11-26 西安电子科技大学 稀疏正交网络的单通道语音分离方法、系统、计算机设备
CN113707172B (zh) * 2021-06-02 2024-02-09 西安电子科技大学 稀疏正交网络的单通道语音分离方法、系统、计算机设备
CN114970607A (zh) * 2022-05-06 2022-08-30 北京谛声科技有限责任公司 基于深度神经网络声发射信号分离的变压器局放检测方法
CN114970607B (zh) * 2022-05-06 2024-03-29 北京谛声科技有限责任公司 基于深度神经网络声发射信号分离的变压器局放检测方法
CN118262737A (zh) * 2024-04-15 2024-06-28 常州工学院 声阵列语音信号与背景杂音的分离方法、系统及存储介质

Also Published As

Publication number Publication date
CN111724806B (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
Luo et al. Conv-tasnet: Surpassing ideal time–frequency magnitude masking for speech separation
CN111724806B (zh) 一种基于深度神经网络的双视角单通道语音分离方法
Wang et al. Supervised speech separation based on deep learning: An overview
CN110400579B (zh) 基于方向自注意力机制和双向长短时网络的语音情感识别
Tan et al. Towards model compression for deep learning based speech enhancement
Pandey et al. Self-attending RNN for speech enhancement to improve cross-corpus generalization
Yu et al. Speech enhancement based on denoising autoencoder with multi-branched encoders
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
Yuliani et al. Speech enhancement using deep learning methods: A review
Pascual et al. Time-domain speech enhancement using generative adversarial networks
CN115762536A (zh) 一种基于桥接Transformer的小样本优化鸟声识别方法
CN112992121B (zh) 基于注意力残差学习的语音增强方法
CN106531174A (zh) 基于小波包分解和声谱图特征的动物声音识别方法
CN115602165B (zh) 基于金融系统的数字员工智能系统
CN115294970B (zh) 针对病理嗓音的语音转换方法、装置和存储介质
Vignolo et al. Evolutionary cepstral coefficients
CN113744749A (zh) 一种基于心理声学域加权损失函数的语音增强方法及系统
Koizumi et al. Miipher: A robust speech restoration model integrating self-supervised speech and text representations
Fan et al. Utterance-level permutation invariant training with discriminative learning for single channel speech separation
Wang et al. SELM: Speech enhancement using discrete tokens and language models
Wang Supervised speech separation using deep neural networks
Xu et al. Selector-enhancer: learning dynamic selection of local and non-local attention operation for speech enhancement
Li et al. Robust voice activity detection using an auditory-inspired masked modulation encoder based convolutional attention network
CN113571074B (zh) 基于多波段结构时域音频分离网络的语音增强方法及装置
CN113707172B (zh) 稀疏正交网络的单通道语音分离方法、系统、计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220906