CN110544482B - 一种单通道语音分离系统 - Google Patents

一种单通道语音分离系统 Download PDF

Info

Publication number
CN110544482B
CN110544482B CN201910865008.7A CN201910865008A CN110544482B CN 110544482 B CN110544482 B CN 110544482B CN 201910865008 A CN201910865008 A CN 201910865008A CN 110544482 B CN110544482 B CN 110544482B
Authority
CN
China
Prior art keywords
module
training
voice
deep
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910865008.7A
Other languages
English (en)
Other versions
CN110544482A (zh
Inventor
温正棋
范存航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Zhiji Technology Co ltd
Original Assignee
Beijing Zhongke Zhiji Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Zhiji Technology Co ltd filed Critical Beijing Zhongke Zhiji Technology Co ltd
Priority to CN201910865008.7A priority Critical patent/CN110544482B/zh
Publication of CN110544482A publication Critical patent/CN110544482A/zh
Application granted granted Critical
Publication of CN110544482B publication Critical patent/CN110544482B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种单通道语音分离系统,该系统深度嵌入式特征提取模块、语音分离模块、区分性训练模块和联合训练模块,其中,深度嵌入式特征提取模块,用于作为深度嵌入式特征的提取器;语音分离模块,与深度嵌入式特征提取模块相连,是基于句子级别的排列不变性训练准则进行语音分离,训练从深度嵌入式特征到各个目标语音信号的映射模型;区分性训练模块,与语音分离模块相连,用于增大不同说话人之间的距离,同时减小相同说话人之间的距离,提高语音分离的性能;联合训练模块,用于联合训练和优化深度嵌入式特征提取模块与语音分离模块;使用该系统可以提高语音分离的性能,使分离后的语音更加清晰、可懂且音质更好。

Description

一种单通道语音分离系统
【技术领域】
本发明涉及电子行业信号处理技术领域,特别涉及一种单通道语音分离系统。
【背景技术】
语音作为人类交流信息的主要手段之一,语音分离一直在语音信号处理中占据着重要的地位。语音分离技术目标是从同时含有多个说话人的混合语音信号中将各个目标源信号分离出来。当一段语音中同时含有多个说话人时,会严重影响语音识别、说话人识别和助听器等系统的性能,因此语音分离技术就显得尤其重要。在语音分离技术的发展过程中,早期的研究主要是采用基于计算场景分析技术、非负矩阵分解和最小均方误差等语音分离方法。但是,这些方法对于说话人独立的语音分离来说,效果十分有限,因此也制约着这些方法的应用。近年来,随着计算机技术的发展,基于深度学习的语音分离方法得到了很大的发展,受到了越来越多人的关注。
基于深度学习的语音分离方法通过训练分离模型,建立混合语音特征参数与各个源目标语音信号的特征参数之间的映射关系,这样对于任意输入的混合语音信号都可以通过建立的分离模型来输出各个源目标语音信号,从而达到语音分离的目的。采用基于深度学习建模的语音分离方法与传统的方法具有很多优点,比如利用深度学习的学习能力,可以很好的学习到混合语音和目标语音信号之间的映射关系。但是,对于说话人独立的语音分离来说,其最大的难点在于解决排列组合问题,即神经网络的输出排列问题。为了解决这一问题,比较有效的办法是利用排列不变性训练准则或者深度聚类算法。但是采用这些方法仅仅使用幅值谱作为特征,不具有区分性,限制着语音分离的性能。
【发明内容】
本发明的目的在于克服上述现有技术的不足,采用如下技术方案:
一种单通道语音分离系统,包括深度嵌入式特征提取模块、语音分离模块、区分性训练模块和联合训练模块,其中,深度嵌入式特征提取模块,用于作为深度嵌入式特征的提取器;语音分离模块,与深度嵌入式特征提取模块通信连接,是基于句子级别的排列不变性训练准则进行语音分离,训练从深度嵌入式特征到各个目标语音信号的映射模型;区分性训练模块,与语音分离模块通信连接,用于增大不同说话人之间的距离,同时减小相同说话人之间的距离,提高语音分离的性能;联合训练模块,用于联合训练和优化深度嵌入式特征提取模块与区分性训练模块。
进一步地,深度嵌入式特征提取模块用于提取深度嵌入式特征,利用深度神经网络训练得到,其训练目标函数为:
Figure GDA0003227609830000021
其中,V表示深度嵌入式特征,
Figure GDA0003227609830000022
TF表示经过傅里叶变换后的时频块,C表示混合说话人的个数,B表示每一个时频块的源对应关系。
进一步地,语音分离模块与深度嵌入式特征提取模块连接,利用深度嵌入式特征将语音进行分离,分离的输出为理想相位敏感掩蔽值(IPSM)
Figure GDA0003227609830000023
Figure GDA0003227609830000024
其中,fγ(*)表示基于深度神经网络的非线性映射函数;
对于语音分离模块的训练方向为:
Figure GDA0003227609830000025
其中,|Y|表示混合语音的幅值谱,|Xs|表示目标源s的幅值谱,θy和θs分别表示混合语音和目标源s的相位;
语音分离模块的训练目标函数为:
Figure GDA0003227609830000031
其中,P表示所有可能的排列组合。
进一步地,区分性训练模块与语音分离模块相连接,用于增大不同说话人之间的距离,同时减小相同说话人之间的距离,其损失函数为:
Figure GDA0003227609830000032
其中,α≥0表示区分性学习的正则化参数,P表示所有可能的排列组合,φ*表示语音分离模块的训练目标函数。
进一步地,联合训练模块用于联合训练和优化深度嵌入式特征提取模块与区分性训练模块,其训练目标函数为:
J=λJDC+(1-λ)JDL
其中,λ表示深度嵌入式特征提取模块和区分性训练模块的权重。
本发明的有益效果:
1、本发明中,利用深度聚类算法训练一个深度嵌入式特征提取器,获得一个具有区分性的深度特征,从而提升了语音分离系统对每个说话人的区分性;
2、本发明中,在区分性训练模块,利用区分性学习即增大不同说话人之间的距离,同时减小相同说话人之间的距离,从而降低了分离后的语音再次混合的目的,因此提高了语音分离系统的性能;
3、本发明中,在联合训练模块,采用联合优化深度嵌入式特征提取模块与区分性训练模块,可以在获得具有区分性的深度嵌入式特征的同时也保证了语音分离的性能。因此,分离后的语音比单独基于深度聚类和排列不变性训练准则的方法更加清晰、可懂,音质更好。
本发明的特征及优点将通过实施例结合附图进行详细说明。
【附图说明】
图1是一种单通道语音分离系统的结构示意图;
图2是一种单通道语音分离系统中深度嵌入式特征提取模块的结构示意图;
图3是一种单通道语音分离系统中语音分离模块的结构示意图;
图4是一种单通道语音分离系统中区分性训练模块的结构示意图;
图5是一种单通道语音分离系统中联合训练模块的结构示意图。
【具体实施方式】
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
本发明一种单通道语音分离系统中,构建输入混合语音信号的深度嵌入式特征,利用该特征通过训练基于句子级别的排列不变性训练准则的语音分离模型,从而将混合语音信号分离出来,最后利用区分性训练和联合优化方法进一步提升语音分离的模型性能。
参阅图1,本实施例包括深度嵌入式特征提取模块、语音分离模块、区分性训练模块和联合训练模块,其中,深度嵌入式特征提取模块,用于作为深度嵌入式特征的提取器;语音分离模块,与深度嵌入式特征提取模块通信连接,是基于句子级别的排列不变性训练准则进行语音分离,训练从深度嵌入式特征到各个目标语音信号的映射模型;区分性训练模块,与语音分离模块通信连接,用于增大不同说话人之间的距离,同时减小相同说话人之间的距离,提高语音分离的性能;联合训练模块,用于联合训练和优化深度嵌入式特征提取模块与区分性训练模块。
参阅图2,深度嵌入式特征提取模块对输入的混合语音信号进行短时傅里叶变换,将时域信号变换到频域信号,然后对其进行建模,获得更具有区分性的深度嵌入式特征;深度嵌入式特征提取模块利用深度神经网络训练得到,其训练目标函数为:
Figure GDA0003227609830000051
其中,V表示深度嵌入式特征,
Figure GDA0003227609830000052
TF表示经过傅里叶变换后的时频块,C表示混合说话人的个数,B表示每一个时频块的源对应关系。
参阅图3,语音分离模块与深度嵌入式特征提取模块通信连接,用于训练语音分离模型,利用深度嵌入式特征进行语音分离,分离的输出为估计的理想相位敏感掩蔽值(IPSM)
Figure GDA0003227609830000053
Figure GDA0003227609830000054
其中,fγ(*)表示基于深度神经网络的非线性映射函数。
对于语音分离模块的训练方向为:
Figure GDA0003227609830000055
其中,|Y|表示混合语音的幅值谱,|Xs|表示目标源s的幅值谱,θy和θs分别表示混合语音和目标源s的相位。
训练目标函数为:
Figure GDA0003227609830000056
其中,P表示所有可能的排列组合。
参阅图4,区分性训练模块与语音分离模块通信连接,用于增大不同说话人之间的距离,同时减小相同说话人之间的距离,提高语音分离的性能,其损失函数为:
Figure GDA0003227609830000057
其中,α≥0表示区分性学习的正则化参数,P表示所有可能的排列组合,φ*表示语音分离模块的训练目标函数。
参阅图5,联合训练模块与区分性训练模块通信连接,用于联合优化各个模块,总的训练目标函数为:
J=λJDC+(1-λ)JDL
其中,λ表示深度嵌入式特征提取模块和区分性训练模块的权重,最终,通过联合训练的方式优化整个语音分离系统。
以上对发明的具体实施方式进行了详细说明,但其只作为范例,本发明并不限制与以上描述的具体实施方式。对于本领域的技术人员而言,任何对该发明进行的等同修改或替代也都在本发明的范畴之中,因此,在不脱离本发明的精神和原则范围下所作的均等变换和修改、改进等,都应涵盖在本发明的范围内。

Claims (2)

1.一种单通道语音分离系统,其特征在于:包括深度嵌入式特征提取模块、语音分离模块、区分性训练模块和联合训练模块;其中,
深度嵌入式特征提取模块,用于作为深度嵌入式特征的提取器,利用深度神经网络训练得到,其训练目标函数为:
Figure FDA0003227609820000011
其中,V表示深度嵌入式特征,
Figure FDA0003227609820000012
TF表示经过傅里叶变换后的时频块,C表示混合说话人的个数,B表示每一个时频块的源对应关系;
语音分离模块,与深度嵌入式特征提取模块通信连接,是基于句子级别的排列不变性训练准则进行语音分离,训练从深度嵌入式特征到各个目标语音信号的映射模型;
区分性训练模块,与语音分离模块通信连接,用于增大不同说话人之间的距离,同时减小相同说话人之间的距离,提高语音分离的性能,其损失函数为:
Figure FDA0003227609820000013
其中,α≥0表示区分性学习的正则化参数,P表示所有可能的排列组合,φ表示所有可能的排列组合中的一种,φ*表示语音分离模块的训练目标函数;
联合训练模块,用于联合训练和优化深度嵌入式特征提取模块与区分性训练模块,其训练目标函数为:
J=λJDC+(1-λ)JDL
其中,λ表示深度嵌入式特征提取模块和区分性训练模块的权重。
2.根据权利要求1所述的一种单通道语音分离系统,其特征在于:语音分离模块与深度嵌入式特征提取模块连接,利用深度嵌入式特征将语音进行分离,分离的输出为理想相位敏感掩蔽值(IPSM)
Figure FDA0003227609820000021
Figure FDA0003227609820000022
其中,fγ(*)表示基于深度神经网络的非线性映射函数;
对于语音分离模块的训练方向为:
Figure FDA0003227609820000023
其中,|Y|表示混合语音的幅值谱,|Xs|表示目标源s的幅值谱,θy和θs分别表示混合语音和目标源s的相位;
语音分离模块的训练目标函数为:
Figure FDA0003227609820000024
其中,P表示所有可能的排列组合。
CN201910865008.7A 2019-09-09 2019-09-09 一种单通道语音分离系统 Active CN110544482B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910865008.7A CN110544482B (zh) 2019-09-09 2019-09-09 一种单通道语音分离系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910865008.7A CN110544482B (zh) 2019-09-09 2019-09-09 一种单通道语音分离系统

Publications (2)

Publication Number Publication Date
CN110544482A CN110544482A (zh) 2019-12-06
CN110544482B true CN110544482B (zh) 2021-11-12

Family

ID=68713471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910865008.7A Active CN110544482B (zh) 2019-09-09 2019-09-09 一种单通道语音分离系统

Country Status (1)

Country Link
CN (1) CN110544482B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179911B (zh) * 2020-01-02 2022-05-03 腾讯科技(深圳)有限公司 目标语音提取方法、装置、设备、介质和联合训练方法
CN112017686B (zh) * 2020-09-18 2022-03-01 中科极限元(杭州)智能科技股份有限公司 基于门控递归融合深度嵌入式特征的多通道语音分离系统
CN112017682B (zh) * 2020-09-18 2023-05-23 中科极限元(杭州)智能科技股份有限公司 一种单通道语音同时降噪和去混响系统
CN111899756B (zh) * 2020-09-29 2021-04-09 北京清微智能科技有限公司 一种单通道语音分离方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013030134A1 (en) * 2011-08-26 2013-03-07 The Queen's University Of Belfast Method and apparatus for acoustic source separation
CN108875824A (zh) * 2018-06-11 2018-11-23 南京邮电大学 单通道盲源分离方法
CN108962229A (zh) * 2018-07-26 2018-12-07 汕头大学 一种基于单通道、无监督式的目标说话人语音提取方法
CN109461447A (zh) * 2018-09-30 2019-03-12 厦门快商通信息技术有限公司 一种基于深度学习的端到端说话人分割方法及系统
CN110070882A (zh) * 2019-04-12 2019-07-30 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及电子设备
CN110164469A (zh) * 2018-08-09 2019-08-23 腾讯科技(深圳)有限公司 一种多人语音的分离方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013030134A1 (en) * 2011-08-26 2013-03-07 The Queen's University Of Belfast Method and apparatus for acoustic source separation
CN108875824A (zh) * 2018-06-11 2018-11-23 南京邮电大学 单通道盲源分离方法
CN108962229A (zh) * 2018-07-26 2018-12-07 汕头大学 一种基于单通道、无监督式的目标说话人语音提取方法
CN110164469A (zh) * 2018-08-09 2019-08-23 腾讯科技(深圳)有限公司 一种多人语音的分离方法和装置
CN109461447A (zh) * 2018-09-30 2019-03-12 厦门快商通信息技术有限公司 一种基于深度学习的端到端说话人分割方法及系统
CN110070882A (zh) * 2019-04-12 2019-07-30 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Separation of single-channel mixed signals based on the frequency-division of a convolution-type wavelet packet》;Mei Xue et al.;《The 27th Chinese Control and Decision Conference (2015 CCDC)》;20150720;全文 *
《基于深度学习的说话人无关单通道语音分离》;王燕南;《中国博士学位论文全文数据库 信息科技辑》;20170915(第09期);全文 *

Also Published As

Publication number Publication date
CN110544482A (zh) 2019-12-06

Similar Documents

Publication Publication Date Title
CN110544482B (zh) 一种单通道语音分离系统
US11948552B2 (en) Speech processing method, apparatus, electronic device, and computer-readable storage medium
CN109326302B (zh) 一种基于声纹比对和生成对抗网络的语音增强方法
CN110600018B (zh) 语音识别方法及装置、神经网络训练方法及装置
CN108847238B (zh) 一种服务机器人语音识别方法
CN111179911B (zh) 目标语音提取方法、装置、设备、介质和联合训练方法
CN110459240A (zh) 基于卷积神经网络和深度聚类的多说话人语音分离方法
CN112017682B (zh) 一种单通道语音同时降噪和去混响系统
CN110675891B (zh) 一种基于多层注意力机制的语音分离方法、模块
CN108922513A (zh) 语音区分方法、装置、计算机设备及存储介质
CN108962229B (zh) 一种基于单通道、无监督式的目标说话人语音提取方法
CN107068167A (zh) 融合多种端到端神经网络结构的说话人感冒症状识别方法
CN104464727A (zh) 一种基于深度信念网络的单通道音乐的歌声分离方法
CN108597505A (zh) 语音识别方法、装置及终端设备
CN109036460A (zh) 基于多模型神经网络的语音处理方法和装置
CN110176250B (zh) 一种基于局部学习的鲁棒声学场景识别方法
CN113763965B (zh) 一种多重注意力特征融合的说话人识别方法
Tzinis et al. Separate but together: Unsupervised federated learning for speech enhancement from non-iid data
CN112017686B (zh) 基于门控递归融合深度嵌入式特征的多通道语音分离系统
CN112420079B (zh) 语音端点检测方法和装置、存储介质及电子设备
CN112466276A (zh) 一种语音合成系统训练方法、装置以及可读存储介质
CN103077706A (zh) 对规律性鼓点节奏的音乐进行乐纹特征提取及表示方法
CN110060699A (zh) 一种基于深度稀疏展开的单信道语音分离方法
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN110992966B (zh) 一种人声分离方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 310000 Room 1105, 11/F, Building 4, No. 9, Jiuhuan Road, Jianggan District, Hangzhou City, Zhejiang Province

Applicant after: Zhongke extreme element (Hangzhou) Intelligent Technology Co.,Ltd.

Address before: 310000 Room 1105, 11/F, Building 4, No. 9, Jiuhuan Road, Jianggan District, Hangzhou City, Zhejiang Province

Applicant before: Limit element (Hangzhou) intelligent Polytron Technologies Inc.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211018

Address after: No. 4083, 4th floor, building 4, No. 7, Fengxian Middle Road, Haidian District, Beijing 100089

Applicant after: Beijing Zhongke Zhiji Technology Co.,Ltd.

Address before: 310000 Room 1105, 11/F, Building 4, No. 9, Jiuhuan Road, Jianggan District, Hangzhou City, Zhejiang Province

Applicant before: Zhongke extreme element (Hangzhou) Intelligent Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant