CN111128211B - 一种语音分离方法及装置 - Google Patents

一种语音分离方法及装置 Download PDF

Info

Publication number
CN111128211B
CN111128211B CN201911212569.3A CN201911212569A CN111128211B CN 111128211 B CN111128211 B CN 111128211B CN 201911212569 A CN201911212569 A CN 201911212569A CN 111128211 B CN111128211 B CN 111128211B
Authority
CN
China
Prior art keywords
network
separation
training
speech
mixed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911212569.3A
Other languages
English (en)
Other versions
CN111128211A (zh
Inventor
刘广灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN201911212569.3A priority Critical patent/CN111128211B/zh
Publication of CN111128211A publication Critical patent/CN111128211A/zh
Application granted granted Critical
Publication of CN111128211B publication Critical patent/CN111128211B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种语音分离方法及装置,包括:获取混合语音信号;对混合语音信号进行预处理,提取出混合语音信号的幅度谱xt以训练分离网络;利用分离网络生成训练数据;利用训练数据训练优化网络Q;利用分离网络和训练好的优化网络Q对分离网络进行再次训练。通过训练优化网络来对分离网络二次训练进而优化分离网络,可以使分离网络的语音分离结果更加精确,进而提高了语音分离的效率,同时使分离网络可以更加的完善以针对不同的混合语音信号进行语音分离,解决了现有技术中由于分离模型过于单一,导致部分语音无法有效的进行分离,从而无法实现完整的语音分离的问题。

Description

一种语音分离方法及装置
技术领域
本发明涉及信号处理技术领域,尤其涉及一种语音分离方法及装置。
背景技术
目前,在人们的通信交流或者留言中由于身处的环境不同,在通信的过程中难免会掺杂着噪声,基于上述问题如今开发了语音分离技术,语音分离又称鸡尾酒会问题,目标是估计出混合语音中的每一个信号源。现有的基于深度学习的语音分离方法主要由以下步骤构成:首先将包括混合语音和纯净语音的数据划分为训练集、验证集和测试集,然后使用训练集训练语音分离模型,使用验证集来确定分离模型,最后在测试集上测试分离效果。目前基于深度学习的语音分离方法,一般使用均方误差作为分离模型的训练指标,使用声源失真比等作为分离效果的评价测试指标,但由于分离模型过于单一而导致部分语音无法有效的进行分离,从而无法实现完整的语音分离。
发明内容
针对上述所显示出来的问题,本方法利用分离网络来生成训练数据进而训练一个优化网络,使用优化网络和分离网络进行二次训练来提升语音分离效果。
一种语音分离方法,包括以下步骤:
获取混合语音信号;
对所述混合语音信号进行预处理,提取出所述混合语音信号的幅度谱xt以训练分离网络;
利用所述分离网络生成训练数据;
利用所述训练数据训练优化网络Q;
利用所述分离网络和训练好的优化网络Q对所述分离网络进行再次训练。
优选的,所述对所述混合语音信号进行预处理,提取出所述混合语音信号的幅度谱xt以训练分离网络,包括:
对所述混合语音信号进行预设时长傅里叶变换,得到所述幅度谱xt
将所述幅度谱xt进行归一化处理后传输给神经网络;
定义S()为分离网络,输入所述幅度谱xt,通过所述神经网络对所述幅度谱xt提取语音特征,输出预测的掩蔽值,进而得到所述掩蔽值的幅度谱S(xt);
通过最小化均方误差lmse(S(xt),yt)训练所述分离网络,其中所述lmse()为均方误差函数,所述yt表示说话人纯净语音的幅度谱。
优选的,所述利用所述分离网络生成训练数据,包括:
调用预先训练好的分离模型ht
利用多个混合语音信号的幅度谱组成训练集;
通过所述训练集获取序列H={h1,h2,......hn},其中,所述h1,h2,......hn为在所述混合语音信号里出现的其他幅度谱;
计算所述序列H对应的SDR得分q(H),获取所述优化网络Q的训练样本({xt,S(xt)},q(H))。
优选的,所述利用所述训练数据训练优化网络Q,包括:
获取预设数量的所述训练样本({xt,S(xt)},q(H))作为训练数据;
使用均方误差函数利用所述训练数据训练所述优化网络Q;
其中,所述优化网络Q使用卷积神经网络将所述xt和所述S(xt)表示为向量,然后将所述xt和所述S(xt)进行拼接,通过多层感知机预测最终q(H)。
优选的,所述利用分离网络和训练好的优化网络Q对所述分离网络进行再次训练,包括:
利用下列公式将所述优化网络Q整合到语音分离的损失函数中:
Figure GDA0003516639010000021
其中,所述lmse()为均方误差函数,所述Qtarget为期望的评价指标值,所述Q(xt,S(xt))为当前的评价值。
一种语音分离装置,该装置包括:
获取模块,用于获取混合语音信号;
提取模块,用于对所述混合语音信号进行预处理,提取出所述混合语音信号的幅度谱xt以训练分离网络;
生成模块,用于利用所述分离网络生成训练数据;
第一训练模块,用于利用所述训练数据训练优化网络Q;
第二训练模块,用于利用所述分离网络和训练好的优化网络Q对所述分离网络进行再次训练。
优选的,所述提取模块,包括:
转换子模块,用于对所述混合语音信号进行预设时长傅里叶变换,得到所述幅度谱xt
处理子模块,用于将所述幅度谱xt进行归一化处理后传输给神经网络;
提取子模块,用于定义S()为分离网络,输入所述幅度谱xt,通过所述神经网络对所述幅度谱xt提取语音特征,输出预测的掩蔽值,进而得到所述掩蔽值的幅度谱S(xt);
第一训练子模块,用于通过最小化均方误差lmse(S(xt),yt)训练所述分离网络,其中所述lmse()为均方误差函数,所述yt表示说话人纯净语音的幅度谱。
优选的,所述生成模块,包括:
调用子模块,用于调用预先训练好的分离模型ht
组成子模块,用于利用多个混合语音信号的幅度谱组成训练集;
第一获取子模块,用于通过所述训练集获取序列H={h1,h2,......hn},其中,所述h1,h2,......hn为在所述混合语音信号里出现的其他幅度谱;
计算子模块,用于计算所述序列H对应的SDR得分q(H),获取所述优化网络Q的训练样本({xt,S(xt)},q(H))。
优选的,所述第一训练模块,包括:
第二获取子模块,用于获取预设数量的所述训练样本({xt,S(xt)},q(H))作为训练数据;
第二训练子模块,用于使用均方误差函数利用所述训练数据训练所述优化网络Q;
其中,所述优化网络Q使用卷积神经网络将所述xt和所述S(xt)表示为向量,然后将所述xt和所述S(xt)进行拼接,通过多层感知机预测最终q(H)。
优选的,所述第二训练模块,包括:
整合模块,用于利用下列公式将所述优化网络Q整合到语音分离的损失函数中:
Figure GDA0003516639010000041
其中,所述lmse()为均方误差函数,所述Qtarget为期望的评价指标值,所述Q(xt,S(xt))为当前的评价值。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明所提供的一种语音分离方法的工作流程图;
图2为本发明所提供的一种语音分离方法的另一工作流程图;
图3为本发明所提供的一种语音分离方法的工作流程截图;
图4为本发明所提供的一种语音分离装置的结构图;
图5为本发明所提供的一种语音分离装置的另一结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本领域技术人员应当理解的是,本发明中的第一、第二指的是不同应用阶段而已。
目前,在人们的通信交流或者留言中由于身处的环境不同,在通信的过程中难免会掺杂着噪声,基于上述问题如今开发了语音分离技术,语音分离又称鸡尾酒会问题,目标是估计出混合语音中的每一个信号源。现有的基于深度学习的语音分离方法主要由以下步骤构成:首先将包括混合语音和纯净语音的数据划分为训练集、验证集和测试集,然后使用训练集训练语音分离模型,使用验证集来确定分离模型,最后在测试集上测试分离效果。目前基于深度学习的语音分离方法,一般使用均方误差作为分离模型的训练指标,使用声源失真比等作为分离效果的评价测试指标,这种方法存在以下问题:1、由于训练指标和测试指标之间的差异,会导致模型的训练和最终的需求不一致,从而阻碍了语音分离效果的提升。2、分离模型过于单一,导致部分语音无法有效的进行分离,从而无法实现完整的语音分离。为了解决上述问题,本实施例公开了一种利用分离网络来生成训练数据进而训练一个优化网络,使用优化网络和分离网络进行二次训练来提升语音分离效果的方法。
一种语音分离方法,如图1所示,包括以下步骤:
步骤S101、获取混合语音信号;
步骤S102、对混合语音信号进行预处理,提取出混合语音信号的幅度谱xt以训练分离网络;
步骤S103、利用分离网络生成训练数据;
步骤S104、利用训练数据训练优化网络Q;
步骤S105、利用分离网络和训练好的优化网络Q对分离网络进行再次训练。
上述技术方案的工作原理为:预先获取混合语音信号,在混合语音信号中提取出所有声音的幅度谱xt来训练分离网络,然后利用分离网络生成训练数据来训练优化网络Q,然后利用上述优化网络Q对分离网络进行二次训练以优化分离网络。
上述技术方案的有益效果为:通过训练优化网络来对分离网络二次训练进而优化分离网络,可以使分离网络的语音分离结果更加精确,进而提高了语音分离的效率,同时使分离网络可以更加的完善以针对不同的混合语音信号进行语音分离,解决了现有技术中由于分离模型过于单一,导致部分语音无法有效的进行分离,从而无法实现完整的语音分离的问题。
在一个实施例中,如图2所示,所述对所述混合语音信号进行预处理,提取出混合语音信号的幅度谱xt以训练分离网络,包括:
步骤S201、对混合语音信号进行预设时长傅里叶变换,得到幅度谱xt
步骤S202、将幅度谱xt进行归一化处理后传输给神经网络;
步骤S203、定义S()为分离网络,输入幅度谱xt,通过神经网络对幅度谱xt提取语音特征,输出预测的掩蔽值,进而得到掩蔽值的幅度谱S(xt);
步骤S204、通过最小化均方误差lmse(S(xt),yt)训练分离网络,其中lmse()为均方误差函数,yt表示说话人纯净语音的幅度谱;
特别的,上述掩蔽值为混合语音信号中的噪音信号,分离网路通过对混合语音信号的幅度谱进行分离,分离出噪音部分的幅度谱。
上述技术方案的有益效果为:通过最小化均方误差来输出最多的噪音幅度谱,使得分离的效果更好,同时为分离网络生成的训练数据更加的准确,为用户提供更好的的体验。
在一个实施例中,所述利用所述分离网络生成训练数据,包括:
调用预先训练好的分离模型ht
利用多个混合语音信号的幅度谱组成训练集;
通过训练集获取序列H={h1,h2,......hn},其中,所述h1,h2,......hn为在混合语音信号里出现的其他幅度谱;
计算序列H对应的SDR得分q(H),获取优化网络Q的训练样本({xt,S(xt)},q(H))。
上述技术方案的有益效果为:利用多个混合语音信号的幅度谱组成的训练集来提取出除了噪音部分之外的幅度谱用来做训练样本,避免了把用户纯净语音部分的幅度谱分离掉从而使分离的结果和预期结果不一致,降低了失误分离的风险。
在一个实施例中,所述利用所述训练数据训练优化网络Q,包括:
获取预设数量的训练样本({xt,S(xt)},q(H))作为训练数据;
使用均方误差函数利用训练数据训练优化网络Q;
其中,优化网络Q使用卷积神经网络将xt和S(xt)表示为向量,然后将xt和S(xt)进行拼接,通过多层感知机预测最终q(H)。
上述技术方案的有益效果为:再次利用均方误差函数来训练优化网络Q,明显的减小了误分离的概率,通过多层感知机预测最终q(H)可以使结果更加的准确,为保证优化网络Q更加偏向于期望值。
在一个实施例中,利用分离网络和训练好的优化网络Q对分离网络进行再次训练,包括:
利用下列公式将优化网络Q整合到语音分离的损失函数中:
Figure GDA0003516639010000071
其中,lmse()为均方误差函数,Qtarget为期望的评价指标值,Q(xt,S(xt))为当前的评价值。
上述技术方案的有益效果为:通过将优化网络Q整合到损失函数中可以优化分离网络,避免出现测试集和训练集不一致而出现的无法分离的问题,同时进一步地提高语音分离的效果解决了现有技术中由于训练指标和测试指标之间的差异,会导致模型的训练和最终的需求不一致,从而阻碍了语音分离效果的提升的问题。
在一个实施例中,如图3所示,包括:
第1.1步:本文使用mt表示时域混合语音,混合语音是由多个时域的纯净语音ni(t)线性相加得到,
Figure GDA0003516639010000081
对混合语音mt进行短时傅里叶变换,对得到幅度谱xt进行归一化之后作为神经网络的输入。
第1.2步:定义s()为分离网络,输入xt,神经网络输出说话人的幅度谱s(xt)。
第1.3步:通过最小化均方误差lmse(S(xt),yt)训练分离网络,其中lmse()是均方误差函数,yt表示说话人纯净语音的幅度谱。
第2步:使用已经训练好的分离网络为Q网络生成训练数据,然后使用该数据训练Q网络(未来期望度量函数)。
第2.1步:先要获得Q网络的训练样本。给定一个预先训练好的分离模型s(),输入xt,可以获得模型的输出s(xt),为了表示方便暂用ht表示s(xt),然后从语音分离网络的训练集中获得序列H={h1,hn,...,hm}除ht之外的成分。
第2.2步:对应强化学习中的概念,在当前状态xt执行动作s(xt)的未来期望度量就是完整序列H对应的SDR得分,使用q(H)表示,这样就获得了Q网络的一条训练样本({xt,S(xt)},q(H))。
第2.3步:使用上面的方式获得一定量的训练数据,然后使用均方误差训练未来期望度量函数Q。其中Q网络使用卷积神经网络将xt和s(xt)表示为向量,然后将这两部分信息进行拼接,然后通过多层感知机预测q(H)。以最小化均方误差为目的,通过Adam优化器优化模型参数。
第3步:将预先训练好的分离网络和未来期望预测网络Q相结合进行联合训练,即将函数Q整合到语音分离的损失函数中,以提升语音分离的效果,即获得更高的SDR评价指标SDR,具体损失函数定义如下:
Figure GDA0003516639010000091
其中,Qtarget是期望的评价指标值。
上述技术方案的工作原理和有益效果为:本方法提出基于强化学习的语音分离方法,类似actor-critic的网络结构,通过直接优化测试时的评价指标,避免了训练损失(均方误差)和测试指标(SDR)不一致的问题,保证了分离模型训练时不会和期望指标产生偏差,从而提升了语音分离的性能。
本实施例还提供了一种语音分离装置,如图4所示,该装置包括:
获取模块401,用于获取混合语音信号;
提取模块402,用于对混合语音信号进行预处理,提取出混合语音信号的幅度谱xt以训练分离网络;
生成模块403,用于利用分离网络生成训练数据;
第一训练模块404,用于利用训练数据训练优化网络Q;
第二训练模块405,用于利用分离网络和训练好的优化网络Q对分离网络进行再次训练。
在一个实施例中,如图5所示,提取模块,包括:
转换子模块501,用于对混合语音信号进行预设时长傅里叶变换,得到幅度谱xt
处理子模块502,用于将幅度谱xt进行归一化处理后传输给神经网络;
提取子模块503,用于定义S()为分离网络,输入幅度谱xt,通过神经网络对幅度谱xt提取语音特征,输出预测的掩蔽值,进而得到掩蔽值的幅度谱S(xt);
第一训练子模块504,用于通过最小化均方误差lmse(S(xt),yt)训练分离网络,其中lmse()为均方误差函数,yt表示说话人纯净语音的幅度谱。
在一个实施例中,生成模块,包括:
调用子模块,用于调用预先训练好的分离模型ht
组成子模块,用于利用多个混合语音信号的幅度谱组成训练集;
第一获取子模块,用于通过训练集获取序列H={h1,h2,......hn},其中,h1,h2,......hn为在混合语音信号里出现的其他幅度谱;
计算子模块,用于计算序列H对应的SDR得分q(H),获取优化网络Q的训练样本({xt,S(xt)},q(H))。
在一个实施例中,第一训练模块,包括:
第二获取子模块,用于获取预设数量的训练样本({xt,S(xt)},q(H))作为训练数据;
第二训练子模块,用于使用均方误差函数利用训练数据训练优化网络Q;
其中,优化网络Q使用卷积神经网络将xt和S(xt)表示为向量,然后将xt和S(xt)进行拼接,通过多层感知机预测最终q(H)。
在一个实施例中,第二训练模块,包括:
整合模块,用于利用下列公式将优化网络Q整合到语音分离的损失函数中:
Figure GDA0003516639010000101
其中,lmse()为均方误差函数,Qtarget为期望的评价指标值,Q(xt,S(xt))为当前的评价值。
本领域技术用户员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (4)

1.一种语音分离方法,其特征在于,包括以下步骤:
获取混合语音信号;
对所述混合语音信号进行预处理,提取出所述混合语音信号的幅度谱xt以训练分离网络;
利用所述分离网络生成训练数据;
利用所述训练数据训练优化网络Q;
利用所述分离网络和训练好的优化网络Q对所述分离网络进行再次训练;
所述利用所述分离网络生成训练数据,包括:
调用预先训练好的分离模型ht
利用多个混合语音信号的幅度谱组成训练集;
通过所述训练集获取序列H={h1,h2,......hn},其中,所述h1,h2,......hn为在所述混合语音信号里出现的其他幅度谱;
计算所述序列H对应的SDR得分q(H),获取所述优化网络Q的训练样本({xt,S(xt)},q(H));
所述利用所述训练数据训练优化网络Q,包括:
获取预设数量的所述训练样本({xt,S(xt)},q(H))作为训练数据;
使用均方误差函数利用所述训练数据训练所述优化网络Q;
其中,所述优化网络Q使用卷积神经网络将所述xt和所述S(xt)表示为向量,然后将所述xt和所述S(xt)进行拼接,通过多层感知机预测最终q(H);
所述利用分离网络和训练好的优化网络Q对所述分离网络进行再次训练,包括:
利用下列公式将所述优化网络Q整合到语音分离的损失函数中:
Figure FDA0003516639000000011
其中,所述lmse()为均方误差函数,所述Qtarget为期望的评价指标值,所述Q(xt,S(xt))为当前的评价值。
2.根据权利要求1所述语音分离方法,其特征在于,所述对所述混合语音信号进行预处理,提取出所述混合语音信号的幅度谱xt以训练分离网络,包括:
对所述混合语音信号进行预设时长傅里叶变换,得到所述幅度谱xt
将所述幅度谱xt进行归一化处理后传输给神经网络;
定义S()为分离网络,输入所述幅度谱xt,通过所述神经网络对所述幅度谱xt提取语音特征,输出预测的掩蔽值,进而得到所述掩蔽值的幅度谱S(xt);
通过最小化均方误差lmse(S(xt),yt)训练所述分离网络,其中所述lmse()为均方误差函数,所述yt表示说话人纯净语音的幅度谱。
3.一种语音分离装置,其特征在于,该装置包括:
获取模块,用于获取混合语音信号;
提取模块,用于对所述混合语音信号进行预处理,提取出所述混合语音信号的幅度谱xt以训练分离网络;
生成模块,用于利用所述分离网络生成训练数据;
第一训练模块,用于利用所述训练数据训练优化网络Q;
第二训练模块,用于利用所述分离网络和训练好的优化网络Q对所述分离网络进行再次训练;
所述生成模块,包括:
调用子模块,用于调用预先训练好的分离模型ht
组成子模块,用于利用多个混合语音信号的幅度谱组成训练集;
第一获取子模块,用于通过所述训练集获取序列H={h1,h2,......hn},其中,所述h1,h2,......hn为在所述混合语音信号里出现的其他幅度谱;
计算子模块,用于计算所述序列H对应的SDR得分q(H),获取所述优化网络Q的训练样本({xt,S(xt)},q(H));
所述第一训练模块,包括:
第二获取子模块,用于获取预设数量的所述训练样本({xt,S(xt)},q(H))作为训练数据;
第二训练子模块,用于使用均方误差函数利用所述训练数据训练所述优化网络Q;
其中,所述优化网络Q使用卷积神经网络将所述xt和所述S(xt)表示为向量,然后将所述xt和所述S(xt)进行拼接,通过多层感知机预测最终q(H);
所述第二训练模块,包括:
整合模块,用于利用下列公式将所述优化网络Q整合到语音分离的损失函数中:
Figure FDA0003516639000000031
其中,所述lmse()为均方误差函数,所述Qtarget为期望的评价指标值,所述Q(xt,S(xt))为当前的评价值。
4.根据权利要求3所述语音分离装置,其特征在于,所述提取模块,包括:
转换子模块,用于对所述混合语音信号进行预设时长傅里叶变换,得到所述幅度谱xt
处理子模块,用于将所述幅度谱xt进行归一化处理后传输给神经网络;
提取子模块,用于定义S()为分离网络,输入所述幅度谱xt,通过所述神经网络对所述幅度谱xt提取语音特征,输出预测的掩蔽值,进而得到所述掩蔽值的幅度谱S(xt);
第一训练子模块,用于通过最小化均方误差lmse(S(xt),yt)训练所述分离网络,其中所述lmse()为均方误差函数,所述yt表示说话人纯净语音的幅度谱。
CN201911212569.3A 2019-12-02 2019-12-02 一种语音分离方法及装置 Active CN111128211B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911212569.3A CN111128211B (zh) 2019-12-02 2019-12-02 一种语音分离方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911212569.3A CN111128211B (zh) 2019-12-02 2019-12-02 一种语音分离方法及装置

Publications (2)

Publication Number Publication Date
CN111128211A CN111128211A (zh) 2020-05-08
CN111128211B true CN111128211B (zh) 2022-04-12

Family

ID=70496644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911212569.3A Active CN111128211B (zh) 2019-12-02 2019-12-02 一种语音分离方法及装置

Country Status (1)

Country Link
CN (1) CN111128211B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111816208B (zh) * 2020-06-17 2023-05-05 厦门快商通科技股份有限公司 一种语音分离质量评估方法、装置及计算机存储介质
CN111899758B (zh) * 2020-09-07 2024-01-30 腾讯科技(深圳)有限公司 语音处理方法、装置、设备和存储介质
CN112331218B (zh) * 2020-09-29 2023-05-05 北京清微智能科技有限公司 一种针对多说话人的单通道语音分离方法和装置
CN113744719A (zh) * 2021-09-03 2021-12-03 清华大学 一种语音提取方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680611A (zh) * 2017-09-13 2018-02-09 电子科技大学 基于卷积神经网络的单通道声音分离方法
CN109830245A (zh) * 2019-01-02 2019-05-31 北京大学 一种基于波束成形的多说话者语音分离方法及系统
CN110148419A (zh) * 2019-04-25 2019-08-20 南京邮电大学 基于深度学习的语音分离方法
CN110246510A (zh) * 2019-06-24 2019-09-17 电子科技大学 一种基于RefineNet的端到端语音增强方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11373672B2 (en) * 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680611A (zh) * 2017-09-13 2018-02-09 电子科技大学 基于卷积神经网络的单通道声音分离方法
CN109830245A (zh) * 2019-01-02 2019-05-31 北京大学 一种基于波束成形的多说话者语音分离方法及系统
CN110148419A (zh) * 2019-04-25 2019-08-20 南京邮电大学 基于深度学习的语音分离方法
CN110246510A (zh) * 2019-06-24 2019-09-17 电子科技大学 一种基于RefineNet的端到端语音增强方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Performance based cost functions for end-to-end speech separation";Shrikant Venkataramani等;《arXiv:1806.00511v1 [eess.AS]》;20180101;全文 *
"基于深层声学特征的端到端语音分离";李娟娟 等;《计算机应用系统》;20191015;第28卷(第10期);全文 *

Also Published As

Publication number Publication date
CN111128211A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111128211B (zh) 一种语音分离方法及装置
Luo et al. Conv-tasnet: Surpassing ideal time–frequency magnitude masking for speech separation
CN110782872A (zh) 基于深度卷积循环神经网络的语种识别方法及装置
Yamamoto et al. Probability density distillation with generative adversarial networks for high-quality parallel waveform generation
Vougioukas et al. Video-driven speech reconstruction using generative adversarial networks
CN108847249A (zh) 声音转换优化方法和系统
Kelly et al. Deep neural network based forensic automatic speaker recognition in VOCALISE using x-vectors
CN110246488B (zh) 半优化CycleGAN模型的语音转换方法及装置
CN103811009A (zh) 一种基于语音分析的智能电话客服系统
Kinoshita et al. Text-informed speech enhancement with deep neural networks.
CN106297776A (zh) 一种基于音频模板的语音关键词检索方法
CN110767210A (zh) 一种生成个性化语音的方法及装置
CN103065620A (zh) 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
CN112489629A (zh) 语音转写模型、方法、介质及电子设备
Wang et al. Cam++: A fast and efficient network for speaker verification using context-aware masking
CN111785288A (zh) 语音增强方法、装置、设备及存储介质
CN111326170B (zh) 联合时频域扩张卷积的耳语音向正常音转换方法及其装置
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
Han et al. DPCCN: Densely-connected pyramid complex convolutional network for robust speech separation and extraction
CN102436815B (zh) 一种应用于英语口语网络机考系统的语音识别装置
Parthasarathi et al. Wordless sounds: Robust speaker diarization using privacy-preserving audio representations
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
Yoneyama et al. Nonparallel high-quality audio super resolution with domain adaptation and resampling CycleGANs
Mirishkar et al. CSTD-Telugu corpus: Crowd-sourced approach for large-scale speech data collection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant