CN110619887A - 一种基于卷积神经网络的多说话人语音分离方法 - Google Patents
一种基于卷积神经网络的多说话人语音分离方法 Download PDFInfo
- Publication number
- CN110619887A CN110619887A CN201910914177.5A CN201910914177A CN110619887A CN 110619887 A CN110619887 A CN 110619887A CN 201910914177 A CN201910914177 A CN 201910914177A CN 110619887 A CN110619887 A CN 110619887A
- Authority
- CN
- China
- Prior art keywords
- attractor
- network
- dimensional
- embedding
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 18
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 15
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000000034 method Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Stereophonic System (AREA)
Abstract
本发明公开一种基于卷积神经网络的多说话人语音分离方法,包括以下步骤:S1:构建基于卷积神经网络的语音分离模型,所述模型包括嵌入生成网络和吸引子估计网络;所述嵌入生成网络用于将时频点从频谱图映射到嵌入空间,所述吸引子网络用于在高维嵌入空间中直接估计每个源的吸引子;S2:使用基于可分离门控卷积神经网络的嵌入生成网络将语谱图中的时频点映射到高维嵌入空间;S3:使用基于门控一维卷积的吸引子估计网络估计每个声源的吸引子。该网络在嵌入维度中完成卷积操作,将时间及频率维度作为通道维度。最后通过在高维空间计算每个吸引子与各个时频点的相似度,得到每个源的时频掩膜。
Description
技术领域
本发明属于语音分离技术领域,尤其涉及一种基于卷积神经网络的多说话人语音分离方法。
背景技术
在深度吸引子网络(Deep Attractor Network,DANet)中,在训练阶段,DANet通过双向长短时记忆网络将语谱图中的时频单元映射到高维空间中,通过每个时频单元的真实划分计算出每个源的吸引子并通过计算每个吸引子与各个时频单元的距离得到每个源的时频掩膜。在测试阶段,吸引子由K-means算法得到。由于在测试阶段吸引子的计算方式不同,因此产生了中心不匹配问题(Center mismatch problem)。
发明内容
本发明提供一种基于卷积神经网络的多说话人语音分离方法,旨在解决上述存在的问题。
本发明是这样实现的,一种基于卷积神经网络的多说话人语音分离方法,包括以下步骤:
S1:构建基于可分离门控卷积神经网络,所述神经网络包括嵌入生成网络和吸引子估计网络;所述嵌入生成网络用于将时频点从频谱图映射到嵌入空间,所述吸引子网络用于在高维嵌入空间中直接估计每个源的吸引子;
S2:使用基于可分离门控卷积神经网络的嵌入生成网络将语谱图中的时频点映射到高维嵌入空间;
S3:使用吸引子估计网络估计每个声源的吸引子,通过在高维空间计算每个吸引子与各个时频点的相似度,计算得到每个源的时频掩膜。
进一步的,所述语音分离方法使用多个可分离一维卷积块将语谱图的时频单元映射到一个高维空间。
进一步的,所述语音分离方法使用一维门控卷积构成的吸引子估计网络在高维嵌入空间直接估计吸引子。
进一步的,所述吸引子估计神经网络通过将时间以及频率维度作为卷积操作中的通道维度,在嵌入维度上实现卷积操作,来估计吸引子。
与现有技术相比,本发明的有益效果是:解决了中心不匹配问题,相较于原方法计算速度更快,分离效果更好。
附图说明
图1为本发明网络架构示意图;
图2为本发明中基于EGN的设计卷积块结构图;
图3为本发明结构示意图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
请参阅图1-3,本发明提供一种技术方案:一种基于卷积神经网络的多说话人分离方法,包括以下步骤:
S1:构建基于可分离门控卷积神经网络,所述神经网络包括嵌入生成网络和吸引子估计网络;所述嵌入生成网络用于将时频点从频谱图映射到嵌入空间,所述吸引子网络用于在高维嵌入空间中直接估计每个源的吸引子;
S2:使用基于可分离门控卷积神经网络的嵌入生成网络将语谱图中的时频点映射到高维嵌入空间;
S3:使用吸引子估计网络估计每个声源的吸引子,通过在高维空间计算每个吸引子与各个时频点的相似度,计算得到每个源的时频掩膜。
进一步的,所述语音分离方法使用多个可分离一维卷积块将语谱图的时频单元映射到一个高维空间。
进一步的,所述语音分离方法使用一维门控卷积构成的吸引子估计网络在高维嵌入空间直接估计吸引子。
进一步的,所述吸引子估计神经网络通过将时间以及频率维度作为卷积操作中的通道维度,在嵌入维度上实现卷积操作,来估计吸引子。
本实施方式中,本发明使用的神经网络整体结构如图1所示,其中,EGN网络由多个如图2所示的可分离门控卷积块堆叠组成;AEN网络由3层门控一维卷积组成。网络详细参数如表1所示:
表1神经网络参数表.k卷积核大小.s步长.d扩张率
经神经网络得到吸引子后,由式
mi=Softmax(aiV),i=1,2,...,C
计算得到每个源的时频掩膜。其中ai是由神经网络得到的多个吸引子中的一个;V为由EGN网络映射得到的嵌入矩阵;C为声源总数。最终将掩膜与语谱图相乘得到分离的语谱图。
试验例
实验分别使用TIMIT train数据集以及LibriSpeech train-clean-100数据集构建了两个混合两人说话的训练数据集,分别使用TIMIT test数据集以及LibriSpeechtest-clean数据集生成测试数据集。混合信噪比介于0-10dB之间,所有音频数据降采样为8kHz。使用包含256个采样点的hamming窗以及64的帧移的STFT来计算语谱图。本发明所公布的网络中的EGN层数根据数据集大小设置为10或20,其余参数设置如表1所示。
实验数据如下:
本发明解决了空间不匹配以及中心不匹配问题,相较于原方法计算速度更快,分离效果更好。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于卷积神经网络的多说话人语音分离方法,其特征在于,包括以下步骤:
S1:构建基于可分离门控卷积神经网络的语音分离模型,所述模型包括嵌入生成网络和吸引子估计网络;所述嵌入生成网络用于将时频点从频谱图映射到嵌入空间,所述吸引子网络用于在高维嵌入空间中直接估计每个源的吸引子;
S2:使用基于可分离门控卷积神经网络的嵌入生成网络将语谱图中的时频点映射到高维嵌入空间;
S3:使用吸引子估计网络估计每个声源的吸引子,通过在高维空间计算每个吸引子与各个时频点的相似度,计算得到每个源的时频掩膜。
2.根据权利要求1所述的多说话人语音分离方法,其特征在于:所述语音分离方法使用多个可分离一维卷积块将语谱图的时频单元映射到一个高维空间。
3.根据权利要求2所述的多说话人语音分离方法,其特征在于:所述语音分离方法使用一维门控卷积构成的吸引子估计网络在高维嵌入空间直接估计吸引子。
4.根据权利要求3所述的多说话人语音分离方法,其特征在于:所述吸引子估计神经网络通过将时间以及频率维度作为卷积操作中的通道维度,在嵌入维度上实现卷积操作,来估计吸引子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910914177.5A CN110619887B (zh) | 2019-09-25 | 2019-09-25 | 一种基于卷积神经网络的多说话人语音分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910914177.5A CN110619887B (zh) | 2019-09-25 | 2019-09-25 | 一种基于卷积神经网络的多说话人语音分离方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110619887A true CN110619887A (zh) | 2019-12-27 |
CN110619887B CN110619887B (zh) | 2020-07-10 |
Family
ID=68924193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910914177.5A Active CN110619887B (zh) | 2019-09-25 | 2019-09-25 | 一种基于卷积神经网络的多说话人语音分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110619887B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179961A (zh) * | 2020-01-02 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、电子设备及存储介质 |
CN111627458A (zh) * | 2020-05-27 | 2020-09-04 | 北京声智科技有限公司 | 一种声源分离方法及设备 |
CN112634875A (zh) * | 2021-03-04 | 2021-04-09 | 北京远鉴信息技术有限公司 | 语音分离方法、语音分离装置、电子设备及存储介质 |
CN113113041A (zh) * | 2021-04-29 | 2021-07-13 | 电子科技大学 | 一种基于时频跨域特征选择的语音分离方法 |
CN114331904A (zh) * | 2021-12-31 | 2022-04-12 | 电子科技大学 | 一种人脸遮挡识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104680178A (zh) * | 2015-03-06 | 2015-06-03 | 西安电子科技大学 | 基于迁移学习多吸引子细胞自动机的图像分类方法 |
US20170330586A1 (en) * | 2016-05-10 | 2017-11-16 | Google Inc. | Frequency based audio analysis using neural networks |
CN107680611A (zh) * | 2017-09-13 | 2018-02-09 | 电子科技大学 | 基于卷积神经网络的单通道声音分离方法 |
CN109065073A (zh) * | 2018-08-16 | 2018-12-21 | 太原理工大学 | 基于深度svm网络模型的语音情感识别方法 |
-
2019
- 2019-09-25 CN CN201910914177.5A patent/CN110619887B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104680178A (zh) * | 2015-03-06 | 2015-06-03 | 西安电子科技大学 | 基于迁移学习多吸引子细胞自动机的图像分类方法 |
US20170330586A1 (en) * | 2016-05-10 | 2017-11-16 | Google Inc. | Frequency based audio analysis using neural networks |
CN107680611A (zh) * | 2017-09-13 | 2018-02-09 | 电子科技大学 | 基于卷积神经网络的单通道声音分离方法 |
CN109065073A (zh) * | 2018-08-16 | 2018-12-21 | 太原理工大学 | 基于深度svm网络模型的语音情感识别方法 |
Non-Patent Citations (2)
Title |
---|
张婷: "基于改进卷积神经网络的语音分离方法", 《第36届中国控制会议论文集》 * |
范存航: "一种基于卷积神经网络的端到端语音分离方法", 《信号处理》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179961A (zh) * | 2020-01-02 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、电子设备及存储介质 |
CN111627458A (zh) * | 2020-05-27 | 2020-09-04 | 北京声智科技有限公司 | 一种声源分离方法及设备 |
CN111627458B (zh) * | 2020-05-27 | 2023-11-17 | 北京声智科技有限公司 | 一种声源分离方法及设备 |
CN112634875A (zh) * | 2021-03-04 | 2021-04-09 | 北京远鉴信息技术有限公司 | 语音分离方法、语音分离装置、电子设备及存储介质 |
CN112634875B (zh) * | 2021-03-04 | 2021-06-08 | 北京远鉴信息技术有限公司 | 语音分离方法、语音分离装置、电子设备及存储介质 |
CN113113041A (zh) * | 2021-04-29 | 2021-07-13 | 电子科技大学 | 一种基于时频跨域特征选择的语音分离方法 |
CN113113041B (zh) * | 2021-04-29 | 2022-10-11 | 电子科技大学 | 一种基于时频跨域特征选择的语音分离方法 |
CN114331904A (zh) * | 2021-12-31 | 2022-04-12 | 电子科技大学 | 一种人脸遮挡识别方法 |
CN114331904B (zh) * | 2021-12-31 | 2023-08-08 | 电子科技大学 | 一种人脸遮挡识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110619887B (zh) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110619887B (zh) | 一种基于卷积神经网络的多说话人语音分离方法 | |
Wang et al. | Deep extractor network for target speaker recovery from single channel speech mixtures | |
Chen et al. | Deep attractor network for single-microphone speaker separation | |
CN107680611B (zh) | 基于卷积神经网络的单通道声音分离方法 | |
CN102074236B (zh) | 一种分布式麦克风的说话人聚类方法 | |
US20160189730A1 (en) | Speech separation method and system | |
CN103985381B (zh) | 一种基于参数融合优化决策的音频索引方法 | |
CN107346664A (zh) | 一种基于临界频带的双耳语音分离方法 | |
CN112989107B (zh) | 音频分类和分离方法、装置、电子设备以及存储介质 | |
CN105872855A (zh) | 视频文件的标注方法及装置 | |
CN108091345B (zh) | 一种基于支持向量机的双耳语音分离方法 | |
CN106373589A (zh) | 一种基于迭代结构的双耳混合语音分离方法 | |
CN109346084A (zh) | 基于深度堆栈自编码网络的说话人识别方法 | |
CN105469807B (zh) | 一种多基频提取方法及装置 | |
CN111508524B (zh) | 语音来源设备的识别方法和系统 | |
JP2011164467A (ja) | モデル推定装置、音源分離装置、それらの方法及びプログラム | |
CN108091326A (zh) | 一种基于线性回归的声纹识别方法及系统 | |
CN110544482B (zh) | 一种单通道语音分离系统 | |
Li et al. | Sams-net: A sliced attention-based neural network for music source separation | |
Kim et al. | WaveNODE: A continuous normalizing flow for speech synthesis | |
CN102930863A (zh) | 一种基于简化自适应内插加权谱模型的语音转换及重构方法 | |
CN104503963A (zh) | 头相关脉冲响应数据集处理方法 | |
WO2018001125A1 (zh) | 一种音频识别方法和装置 | |
CN113241092A (zh) | 基于双注意力机制和多阶段混合卷积网络声源分离方法 | |
CN104766612A (zh) | 基于乐音音色匹配的正弦模型分离方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |