CN110619887A - 一种基于卷积神经网络的多说话人语音分离方法 - Google Patents

一种基于卷积神经网络的多说话人语音分离方法 Download PDF

Info

Publication number
CN110619887A
CN110619887A CN201910914177.5A CN201910914177A CN110619887A CN 110619887 A CN110619887 A CN 110619887A CN 201910914177 A CN201910914177 A CN 201910914177A CN 110619887 A CN110619887 A CN 110619887A
Authority
CN
China
Prior art keywords
attractor
network
dimensional
embedding
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910914177.5A
Other languages
English (en)
Other versions
CN110619887B (zh
Inventor
蓝天
钱宇欣
李萌
刘峤
彭川
吕忆蓝
李森
惠国强
叶文政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910914177.5A priority Critical patent/CN110619887B/zh
Publication of CN110619887A publication Critical patent/CN110619887A/zh
Application granted granted Critical
Publication of CN110619887B publication Critical patent/CN110619887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开一种基于卷积神经网络的多说话人语音分离方法,包括以下步骤:S1:构建基于卷积神经网络的语音分离模型,所述模型包括嵌入生成网络和吸引子估计网络;所述嵌入生成网络用于将时频点从频谱图映射到嵌入空间,所述吸引子网络用于在高维嵌入空间中直接估计每个源的吸引子;S2:使用基于可分离门控卷积神经网络的嵌入生成网络将语谱图中的时频点映射到高维嵌入空间;S3:使用基于门控一维卷积的吸引子估计网络估计每个声源的吸引子。该网络在嵌入维度中完成卷积操作,将时间及频率维度作为通道维度。最后通过在高维空间计算每个吸引子与各个时频点的相似度,得到每个源的时频掩膜。

Description

一种基于卷积神经网络的多说话人语音分离方法
技术领域
本发明属于语音分离技术领域,尤其涉及一种基于卷积神经网络的多说话人语音分离方法。
背景技术
在深度吸引子网络(Deep Attractor Network,DANet)中,在训练阶段,DANet通过双向长短时记忆网络将语谱图中的时频单元映射到高维空间中,通过每个时频单元的真实划分计算出每个源的吸引子并通过计算每个吸引子与各个时频单元的距离得到每个源的时频掩膜。在测试阶段,吸引子由K-means算法得到。由于在测试阶段吸引子的计算方式不同,因此产生了中心不匹配问题(Center mismatch problem)。
发明内容
本发明提供一种基于卷积神经网络的多说话人语音分离方法,旨在解决上述存在的问题。
本发明是这样实现的,一种基于卷积神经网络的多说话人语音分离方法,包括以下步骤:
S1:构建基于可分离门控卷积神经网络,所述神经网络包括嵌入生成网络和吸引子估计网络;所述嵌入生成网络用于将时频点从频谱图映射到嵌入空间,所述吸引子网络用于在高维嵌入空间中直接估计每个源的吸引子;
S2:使用基于可分离门控卷积神经网络的嵌入生成网络将语谱图中的时频点映射到高维嵌入空间;
S3:使用吸引子估计网络估计每个声源的吸引子,通过在高维空间计算每个吸引子与各个时频点的相似度,计算得到每个源的时频掩膜。
进一步的,所述语音分离方法使用多个可分离一维卷积块将语谱图的时频单元映射到一个高维空间。
进一步的,所述语音分离方法使用一维门控卷积构成的吸引子估计网络在高维嵌入空间直接估计吸引子。
进一步的,所述吸引子估计神经网络通过将时间以及频率维度作为卷积操作中的通道维度,在嵌入维度上实现卷积操作,来估计吸引子。
与现有技术相比,本发明的有益效果是:解决了中心不匹配问题,相较于原方法计算速度更快,分离效果更好。
附图说明
图1为本发明网络架构示意图;
图2为本发明中基于EGN的设计卷积块结构图;
图3为本发明结构示意图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
请参阅图1-3,本发明提供一种技术方案:一种基于卷积神经网络的多说话人分离方法,包括以下步骤:
S1:构建基于可分离门控卷积神经网络,所述神经网络包括嵌入生成网络和吸引子估计网络;所述嵌入生成网络用于将时频点从频谱图映射到嵌入空间,所述吸引子网络用于在高维嵌入空间中直接估计每个源的吸引子;
S2:使用基于可分离门控卷积神经网络的嵌入生成网络将语谱图中的时频点映射到高维嵌入空间;
S3:使用吸引子估计网络估计每个声源的吸引子,通过在高维空间计算每个吸引子与各个时频点的相似度,计算得到每个源的时频掩膜。
进一步的,所述语音分离方法使用多个可分离一维卷积块将语谱图的时频单元映射到一个高维空间。
进一步的,所述语音分离方法使用一维门控卷积构成的吸引子估计网络在高维嵌入空间直接估计吸引子。
进一步的,所述吸引子估计神经网络通过将时间以及频率维度作为卷积操作中的通道维度,在嵌入维度上实现卷积操作,来估计吸引子。
本实施方式中,本发明使用的神经网络整体结构如图1所示,其中,EGN网络由多个如图2所示的可分离门控卷积块堆叠组成;AEN网络由3层门控一维卷积组成。网络详细参数如表1所示:
表1神经网络参数表.k卷积核大小.s步长.d扩张率
经神经网络得到吸引子后,由式
mi=Softmax(aiV),i=1,2,...,C
计算得到每个源的时频掩膜。其中ai是由神经网络得到的多个吸引子中的一个;V为由EGN网络映射得到的嵌入矩阵;C为声源总数。最终将掩膜与语谱图相乘得到分离的语谱图。
试验例
实验分别使用TIMIT train数据集以及LibriSpeech train-clean-100数据集构建了两个混合两人说话的训练数据集,分别使用TIMIT test数据集以及LibriSpeechtest-clean数据集生成测试数据集。混合信噪比介于0-10dB之间,所有音频数据降采样为8kHz。使用包含256个采样点的hamming窗以及64的帧移的STFT来计算语谱图。本发明所公布的网络中的EGN层数根据数据集大小设置为10或20,其余参数设置如表1所示。
实验数据如下:
本发明解决了空间不匹配以及中心不匹配问题,相较于原方法计算速度更快,分离效果更好。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于卷积神经网络的多说话人语音分离方法,其特征在于,包括以下步骤:
S1:构建基于可分离门控卷积神经网络的语音分离模型,所述模型包括嵌入生成网络和吸引子估计网络;所述嵌入生成网络用于将时频点从频谱图映射到嵌入空间,所述吸引子网络用于在高维嵌入空间中直接估计每个源的吸引子;
S2:使用基于可分离门控卷积神经网络的嵌入生成网络将语谱图中的时频点映射到高维嵌入空间;
S3:使用吸引子估计网络估计每个声源的吸引子,通过在高维空间计算每个吸引子与各个时频点的相似度,计算得到每个源的时频掩膜。
2.根据权利要求1所述的多说话人语音分离方法,其特征在于:所述语音分离方法使用多个可分离一维卷积块将语谱图的时频单元映射到一个高维空间。
3.根据权利要求2所述的多说话人语音分离方法,其特征在于:所述语音分离方法使用一维门控卷积构成的吸引子估计网络在高维嵌入空间直接估计吸引子。
4.根据权利要求3所述的多说话人语音分离方法,其特征在于:所述吸引子估计神经网络通过将时间以及频率维度作为卷积操作中的通道维度,在嵌入维度上实现卷积操作,来估计吸引子。
CN201910914177.5A 2019-09-25 2019-09-25 一种基于卷积神经网络的多说话人语音分离方法 Active CN110619887B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910914177.5A CN110619887B (zh) 2019-09-25 2019-09-25 一种基于卷积神经网络的多说话人语音分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910914177.5A CN110619887B (zh) 2019-09-25 2019-09-25 一种基于卷积神经网络的多说话人语音分离方法

Publications (2)

Publication Number Publication Date
CN110619887A true CN110619887A (zh) 2019-12-27
CN110619887B CN110619887B (zh) 2020-07-10

Family

ID=68924193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910914177.5A Active CN110619887B (zh) 2019-09-25 2019-09-25 一种基于卷积神经网络的多说话人语音分离方法

Country Status (1)

Country Link
CN (1) CN110619887B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179961A (zh) * 2020-01-02 2020-05-19 腾讯科技(深圳)有限公司 音频信号处理方法、装置、电子设备及存储介质
CN111627458A (zh) * 2020-05-27 2020-09-04 北京声智科技有限公司 一种声源分离方法及设备
CN112634875A (zh) * 2021-03-04 2021-04-09 北京远鉴信息技术有限公司 语音分离方法、语音分离装置、电子设备及存储介质
CN113113041A (zh) * 2021-04-29 2021-07-13 电子科技大学 一种基于时频跨域特征选择的语音分离方法
CN114331904A (zh) * 2021-12-31 2022-04-12 电子科技大学 一种人脸遮挡识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104680178A (zh) * 2015-03-06 2015-06-03 西安电子科技大学 基于迁移学习多吸引子细胞自动机的图像分类方法
US20170330586A1 (en) * 2016-05-10 2017-11-16 Google Inc. Frequency based audio analysis using neural networks
CN107680611A (zh) * 2017-09-13 2018-02-09 电子科技大学 基于卷积神经网络的单通道声音分离方法
CN109065073A (zh) * 2018-08-16 2018-12-21 太原理工大学 基于深度svm网络模型的语音情感识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104680178A (zh) * 2015-03-06 2015-06-03 西安电子科技大学 基于迁移学习多吸引子细胞自动机的图像分类方法
US20170330586A1 (en) * 2016-05-10 2017-11-16 Google Inc. Frequency based audio analysis using neural networks
CN107680611A (zh) * 2017-09-13 2018-02-09 电子科技大学 基于卷积神经网络的单通道声音分离方法
CN109065073A (zh) * 2018-08-16 2018-12-21 太原理工大学 基于深度svm网络模型的语音情感识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张婷: "基于改进卷积神经网络的语音分离方法", 《第36届中国控制会议论文集》 *
范存航: "一种基于卷积神经网络的端到端语音分离方法", 《信号处理》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179961A (zh) * 2020-01-02 2020-05-19 腾讯科技(深圳)有限公司 音频信号处理方法、装置、电子设备及存储介质
CN111627458A (zh) * 2020-05-27 2020-09-04 北京声智科技有限公司 一种声源分离方法及设备
CN111627458B (zh) * 2020-05-27 2023-11-17 北京声智科技有限公司 一种声源分离方法及设备
CN112634875A (zh) * 2021-03-04 2021-04-09 北京远鉴信息技术有限公司 语音分离方法、语音分离装置、电子设备及存储介质
CN112634875B (zh) * 2021-03-04 2021-06-08 北京远鉴信息技术有限公司 语音分离方法、语音分离装置、电子设备及存储介质
CN113113041A (zh) * 2021-04-29 2021-07-13 电子科技大学 一种基于时频跨域特征选择的语音分离方法
CN113113041B (zh) * 2021-04-29 2022-10-11 电子科技大学 一种基于时频跨域特征选择的语音分离方法
CN114331904A (zh) * 2021-12-31 2022-04-12 电子科技大学 一种人脸遮挡识别方法
CN114331904B (zh) * 2021-12-31 2023-08-08 电子科技大学 一种人脸遮挡识别方法

Also Published As

Publication number Publication date
CN110619887B (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN110619887B (zh) 一种基于卷积神经网络的多说话人语音分离方法
Wang et al. Deep extractor network for target speaker recovery from single channel speech mixtures
Chen et al. Deep attractor network for single-microphone speaker separation
CN107680611B (zh) 基于卷积神经网络的单通道声音分离方法
CN102074236B (zh) 一种分布式麦克风的说话人聚类方法
US20160189730A1 (en) Speech separation method and system
CN103985381B (zh) 一种基于参数融合优化决策的音频索引方法
CN107346664A (zh) 一种基于临界频带的双耳语音分离方法
CN112989107B (zh) 音频分类和分离方法、装置、电子设备以及存储介质
CN105872855A (zh) 视频文件的标注方法及装置
CN108091345B (zh) 一种基于支持向量机的双耳语音分离方法
CN106373589A (zh) 一种基于迭代结构的双耳混合语音分离方法
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
CN105469807B (zh) 一种多基频提取方法及装置
CN111508524B (zh) 语音来源设备的识别方法和系统
JP2011164467A (ja) モデル推定装置、音源分離装置、それらの方法及びプログラム
CN108091326A (zh) 一种基于线性回归的声纹识别方法及系统
CN110544482B (zh) 一种单通道语音分离系统
Li et al. Sams-net: A sliced attention-based neural network for music source separation
Kim et al. WaveNODE: A continuous normalizing flow for speech synthesis
CN102930863A (zh) 一种基于简化自适应内插加权谱模型的语音转换及重构方法
CN104503963A (zh) 头相关脉冲响应数据集处理方法
WO2018001125A1 (zh) 一种音频识别方法和装置
CN113241092A (zh) 基于双注意力机制和多阶段混合卷积网络声源分离方法
CN104766612A (zh) 基于乐音音色匹配的正弦模型分离方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant