CN110675891A - 一种基于多层注意力机制的语音分离方法、模块 - Google Patents

一种基于多层注意力机制的语音分离方法、模块 Download PDF

Info

Publication number
CN110675891A
CN110675891A CN201910913626.4A CN201910913626A CN110675891A CN 110675891 A CN110675891 A CN 110675891A CN 201910913626 A CN201910913626 A CN 201910913626A CN 110675891 A CN110675891 A CN 110675891A
Authority
CN
China
Prior art keywords
voice
speech
layer
lstm
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910913626.4A
Other languages
English (en)
Other versions
CN110675891B (zh
Inventor
蓝天
李萌
彭川
刘峤
钱宇欣
叶文政
李森
惠国强
吕忆蓝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910913626.4A priority Critical patent/CN110675891B/zh
Publication of CN110675891A publication Critical patent/CN110675891A/zh
Application granted granted Critical
Publication of CN110675891B publication Critical patent/CN110675891B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开一种基于多层注意力机制的语音分离方法,包括以下步骤:S1:获取混合语音中特定讲话人的干净语音,并提取所述特定讲话人的声纹信息,所述混合语音包括多个讲话者;S2:通过多层注意结构和特定讲话人的声纹信息,连续净化所述混合语音,以获取分离语音。本发明在每一层中引入说话人信息以添加辅助信息以帮助提取语音,引入计算注意机制以处理每一层的输出,并通过多层结构提取语音信号。

Description

一种基于多层注意力机制的语音分离方法、模块
技术领域
本发明属于语音处理应用技术领域,尤其涉及一种基于多层注意力机制的语音分离方法及模块。
背景技术
鸡尾酒会问题自1953年由Cheery提出以来一直是研究的热门话题。几十年来,学术界一直在研究如何使机器在像人类这样复杂的环境中区分说话者的语音。到目前为止,还没有完美的解决方案。
单麦克风中的语音分离是一个欠定问题,这比多麦克风阵列问题更难。因为在分离语音的过程中,存在无限的可能性组合,并且需要通过规则或约束来获得分离的语音的最终解决方案。非负矩阵分解(NMF)和计算听觉场景分析(CASA)促进了语音分离任务的发展,但这些方法中假设的一些限制限制了该技术在日常环境中的使用。
为了避免假设所施加的限制,数据驱动的方法可能是更好的选择,并且将成为解决语音问题的一个可能途径。
目前,语音分离问题存在两个主要困难。一个是排列问题,另一个是输出维度不匹配问题。对于前者,提出了置换不变训练(PIT)来缓解网络中目标标签不匹配造成的梯度冲突,但是这种方法仍然需要确定固定数量的输出,无法分离任意数量的源。深度聚类(DC)方法通过构造嵌入表示和聚类时频点解决了这两个问题。在高维结构中,DC方法为不同说话人的不同时频点构造一个嵌入表示,并采用自相关矩阵,使得训练模型可以容易地扩展到三个说话人而无需再训练。提出了深度吸引网络(DANet)模型,通过首先计算聚类的吸引矢量来分离相应的语音。然后将训练过的吸引子视为测试阶段的空间特征表示。
目前的大多数方法都侧重于说话者独立的框架而忽略了说话者信息的使用。
发明内容
本发明提供一种基于多层注意力机制的语音分离方法,旨在解决上述存在的问题。
本发明还提供一种基于多层注意力机制的语音分离模块,旨在解决上述存在的问题。
本发明是这样实现的,一种基于多层注意力机制的语音分离方法,包括以下步骤:
S1:获取混合语音中特定讲话人的干净语音,并提取所述特定讲话人的声纹信息,所述混合语音包括多个讲话者;
S2:通过多层注意结构和特定讲话人的声纹信息,连续净化所述混合语音,以获取分离语音。
进一步的,步骤S1具体包括:
1)定义s为特定讲话人的干净语音,并通过短时傅里叶变换(STFT)将其转换为时频域St,将St作为双向-长期短期记忆(Bi-LSTM)层的输入,每一帧输入可以对应获得一个时间步的隐状态输出ht
ht=Bi-LSTM(St) (1);
2)将每个时间步的输出ht求和后取平均值,得到特定讲话人声纹向量表达pi,T为最大时间步:
Figure BDA0002215429760000021
3、根据权利要求2所述的语音分离方法,其特征在于,步骤S2具体包括:
1)定义x为原始多讲话者混合语音,然后通过STFT将其转换为时频域Xt,使用Xt作为Bi-LSTM层的输入,得到隐状态输出hi为:
hi=Bi-LSTM(Xt) (3);
2)将特定讲话人的声纹信息pi与hi进行拼接,然后送入多层感知机(MLP)计算得到注意力权重ej,并将其标准化,得到标准化后的注意力得分αt
ej=MLP(ht,pi) (4);
Figure BDA0002215429760000031
3)将注意力得分αt与上一层Bi-LSTM的输出ht直接相乘,获得过滤后的特征ft,过滤后的特征ft被视为对前一层输出过滤后的结果,然后作为下一个Bi-LSTM层的输入;:
ft=αt*ht (6);
4)在输出层,使用MLP对最后一层ft进行的特征映射,得到预测的分离语音量幅度谱
Figure BDA0002215429760000032
MLP层计算与损失函数定义如下:
Figure BDA0002215429760000033
Figure BDA0002215429760000034
其中yt表示对应的干净语音幅度谱。
本发明还提供一种基于多层注意力机制的语音分离模块,包括:
语音编码子模块,用于提取特定讲话人的语音信息;
语音分离子模块,通过多层注意结构和语音信息连续净化混合语音,以获得包含完整信息的分离语音。
与现有技术相比,本发明的有益效果是:(1)在每一层中引入说话人信息,通过添加辅助信息的方式帮助模型更好的学习到对混合语音中特定说话人信息的提取(2)引入计算注意机制对每一层的输出进行定向过滤,使得模型能够保留更多与特定说话人语音成分有关的信息(3)通过多层结构提取语音信号,保证了模型复杂度,在一定层数内的增加,能够提升模型效果。
附图说明
图1为本发明中基于多层关注的语音分离结构示意图;
图2为本发明中语音分离结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
本发明提供一种技术方案:一种基于多层注意力机制的语音分离方法,包括以下步骤:
S1:获取混合语音中特定讲话人的干净语音,并提取所述特定讲话人的声纹信息,所述混合语音包括多个讲话者;
S2:通过多层注意结构和特定讲话人的声纹信息,连续净化所述混合语音,以获取分离语音。
为了将指定的说话者语音与多说话者混合语音分开,在该模型中应用说话者信息,该方法允许模型关注在多讲者环境中的一个说话人语音;本发明将模型分为两部分来解释,说话人编码器模块用于提取特定说话人信息,语音分离模块通过多层注意结构连续净化混合语音,以获得包含更完整信息的分离语音;所提出的基于多层关注的语音分离模型如图1所示。
本发明定义s为原始干净的说话人语音,并通过短时傅里叶变换(STFT)将其转换为时频域St,然后本发明用St作双向-长期短期记忆(Bi-LSTM)层的输入,可以获得每个时间步的隐藏层向量hi
ht=Bi-LSTM(St)
本发明对每个时间步的输出ht求平均值,得到特定的说话人生成声纹向量pi。最大时间步长定义为T。每个向量pi都可以看作是具有d维的说话者i的声纹。
Figure BDA0002215429760000051
每次执行语音分离时,模型需要首先获得相应说话者的干净语音,并提取该特征以获得说话者的声纹信息。将Bi-LSTM的输出的取平均,得到固定长度矢量pi,并与语音分离模块进行联合训练。
语音分离模块是所提出模型的主要部分,本发明定义x为原始多讲话者混合语音,然后通过STFT将其转换为时频域Xt。在这个模块中,本发明使用Xt作为输入,第一个Bi-LSTM层定义为:
h1=Bi-LSTM(Xt)
这里的Bi-LSTM具有与先前模型中的Bi-LSTM相同数量的隐藏层单元,但不共享权重。在多层结构中,Bi-LSTM每层都整合了说话人信息。受注意力机制的启发,本发明使用说话者信息来计算每个图层输出的注意力得分,然后将注意力权重应用于前一层的输出以过滤不相关的信息。在这里,本发明使用MLP计算注意力得分ei,并将其标准化,细节如图2所示。
eti=MLP(St,pi)
Figure BDA0002215429760000052
获得注意力得分αi后,本发明将其乘以Bi-LSTM的输出以获得过滤后的特征fi
fi=αt*hi-1
过滤后的特征fi被视为来自前一层输出的方向过滤器,然后被发送到Bi-LSTM的下一层。
在输出层,本发明使用多层感知机将隐藏层特征映射到原始帧的维度大小。
通过多层结构,本发明可以在每层的说话人声纹特征上获得对混合语音的滤波结果。这种建模方法是引入了说话人信息,可以帮助模型获得更好的语音分离结果。最后一层获得预测的分离语音量幅度
Figure BDA0002215429760000061
损失函数定义为:
Figure BDA0002215429760000062
其中yt表示对应的干净语音幅度谱。
试验例
本实验在TSP语音语料库和THCHS-30语料库上进行了训练和测试。TSP数据集共包含24个说话人,THCHS-30数据集包含60个说话人。本发明将这些说话人分成训练集、验证集和测试集。从数据集中随机选择两个语音进行混合,设置的混合SNR范围为0-10dB。测试集说话人在训练集中不可见。在实验中,通过交叉验证评估模型。所有语音数据都重新采样到8kHz,以降低计算复杂度。本发明使用幅度谱作为语音的输入特征,采用帧长为32ms,帧移为8ms的Hanning窗口短时傅里叶变换,获得每帧的129维频域表示。在恢复时域信号时,利用混合语音相位与预测的分离语音进行合成,得到最终的时域表达。
评价指标采用PESQ、SDR、STOI。
与本发明的模型(PROPOSED)对比的有:非负矩阵分解(NMF),深度聚类算法(DC),以及声学选择框架下的注意力和记忆模型(ASAM)。
实验对比结果如下,本发明设计的模型在两个说话人混合和三个说话人混合的场景下,各项指标显著总体上优于其他模型。
表1.
Figure BDA0002215429760000071
表2.
Figure BDA0002215429760000072
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于多层注意力机制的语音分离方法,其特征在于,包括以下步骤:
S1:获取混合语音中特定讲话人的干净语音,并提取所述特定讲话人的声纹信息,所述混合语音包括多个讲话者;
S2:通过多层注意结构和特定讲话人的声纹信息,连续净化所述混合语音,以获取分离语音。
2.根据权利要求1所述的语音分离方法,其特征在于,步骤S1具体包括:
1)定义s为特定讲话人的干净语音,并通过短时傅里叶变换(STFT)将其转换为时频域St,将St作为双向-长期短期记忆(Bi-LSTM)层的输入,每一帧输入可以对应获得一个时间步的隐状态输出ht
ht=Bi-LSTM(St) (1);
2)将每个时间步的输出ht求和后取平均值,得到特定讲话人声纹向量表达pi,T为最大时间步:
Figure FDA0002215429750000011
3.根据权利要求2所述的语音分离方法,其特征在于,步骤S2具体包括:
1)定义x为原始多讲话者混合语音,然后通过STFT将其转换为时频域Xt,使用Xt作为Bi-LSTM层的输入,得到隐状态输出hi为:
hi=Bi-LSTM(Xt) (3);
2)将特定讲话人的声纹信息pi与hi进行拼接,然后送入多层感知机(MLP)计算得到注意力权重ej,并将其标准化,得到标准化后的注意力得分αt
ej=MLP(ht,pi) (4);
Figure FDA0002215429750000021
3)将注意力得分αt与上一层Bi-LSTM的输出ht直接相乘,获得过滤后的特征ft,过滤后的特征ft被视为对前一层输出过滤后的结果,然后作为下一个Bi-LSTM层的输入;:
ft=αt*ht (6);
4)在输出层,使用MLP对最后一层ft进行的特征映射,得到预测的分离语音量幅度谱MLP层计算与损失函数定义如下:
Figure FDA0002215429750000023
Figure FDA0002215429750000024
其中yt表示对应的干净语音幅度谱。
4.一种基于多层注意力机制的语音分离模块,其特征在于,包括:
语音编码子模块,用于提取特定讲话人的语音信息;
语音分离子模块,通过多层注意结构和语音信息连续净化混合语音,以获得包含完整信息的分离语音。
CN201910913626.4A 2019-09-25 2019-09-25 一种基于多层注意力机制的语音分离方法、模块 Active CN110675891B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910913626.4A CN110675891B (zh) 2019-09-25 2019-09-25 一种基于多层注意力机制的语音分离方法、模块

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910913626.4A CN110675891B (zh) 2019-09-25 2019-09-25 一种基于多层注意力机制的语音分离方法、模块

Publications (2)

Publication Number Publication Date
CN110675891A true CN110675891A (zh) 2020-01-10
CN110675891B CN110675891B (zh) 2020-09-18

Family

ID=69078974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910913626.4A Active CN110675891B (zh) 2019-09-25 2019-09-25 一种基于多层注意力机制的语音分离方法、模块

Country Status (1)

Country Link
CN (1) CN110675891B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968657A (zh) * 2020-08-17 2020-11-20 北京字节跳动网络技术有限公司 语音处理方法、装置、电子设备和计算机可读介质
CN112562706A (zh) * 2020-11-30 2021-03-26 哈尔滨工程大学 一种基于时间潜在域特定说话人信息的目标语音提取方法
CN112634935A (zh) * 2021-03-10 2021-04-09 北京世纪好未来教育科技有限公司 语音分离方法、装置、电子设备和可读存储介质
CN112712819A (zh) * 2020-12-23 2021-04-27 电子科技大学 视觉辅助跨模态音频信号分离方法
CN113345466A (zh) * 2021-06-01 2021-09-03 平安科技(深圳)有限公司 基于多麦克风场景的主说话人语音检测方法、装置及设备
CN113380262A (zh) * 2021-05-13 2021-09-10 重庆邮电大学 一种基于注意力机制与扰动感知的声音分离方法
CN113763965A (zh) * 2021-08-26 2021-12-07 江苏大学 一种多重注意力特征融合的说话人识别方法
CN114842866A (zh) * 2022-04-29 2022-08-02 思必驰科技股份有限公司 语音处理方法、电子设备和存储介质
CN114974261A (zh) * 2022-05-12 2022-08-30 厦门快商通科技股份有限公司 一种语音验证方法、终端设备及存储介质
US11676609B2 (en) 2020-07-06 2023-06-13 Beijing Century Tal Education Technology Co. Ltd. Speaker recognition method, electronic device, and storage medium

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017218492A1 (en) * 2016-06-14 2017-12-21 The Trustees Of Columbia University In The City Of New York Neural decoding of attentional selection in multi-speaker environments
CN108109619A (zh) * 2017-11-15 2018-06-01 中国科学院自动化研究所 基于记忆和注意力模型的听觉选择方法和装置
US20180261225A1 (en) * 2017-03-13 2018-09-13 Mitsubishi Electric Research Laboratories, Inc. System and Method for Multichannel End-to-End Speech Recognition
CN109308731A (zh) * 2018-08-24 2019-02-05 浙江大学 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
CN109326302A (zh) * 2018-11-14 2019-02-12 桂林电子科技大学 一种基于声纹比对和生成对抗网络的语音增强方法
CN109637545A (zh) * 2019-01-17 2019-04-16 哈尔滨工程大学 基于一维卷积非对称双向长短时记忆网络的声纹识别方法
CN110085249A (zh) * 2019-05-09 2019-08-02 南京工程学院 基于注意力门控的循环神经网络的单通道语音增强方法
CN110211591A (zh) * 2019-06-24 2019-09-06 卓尔智联(武汉)研究院有限公司 基于情感分类的面试数据分析方法、计算机装置及介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017218492A1 (en) * 2016-06-14 2017-12-21 The Trustees Of Columbia University In The City Of New York Neural decoding of attentional selection in multi-speaker environments
US20180261225A1 (en) * 2017-03-13 2018-09-13 Mitsubishi Electric Research Laboratories, Inc. System and Method for Multichannel End-to-End Speech Recognition
CN108109619A (zh) * 2017-11-15 2018-06-01 中国科学院自动化研究所 基于记忆和注意力模型的听觉选择方法和装置
CN109308731A (zh) * 2018-08-24 2019-02-05 浙江大学 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
CN109326302A (zh) * 2018-11-14 2019-02-12 桂林电子科技大学 一种基于声纹比对和生成对抗网络的语音增强方法
CN109637545A (zh) * 2019-01-17 2019-04-16 哈尔滨工程大学 基于一维卷积非对称双向长短时记忆网络的声纹识别方法
CN110085249A (zh) * 2019-05-09 2019-08-02 南京工程学院 基于注意力门控的循环神经网络的单通道语音增强方法
CN110211591A (zh) * 2019-06-24 2019-09-06 卓尔智联(武汉)研究院有限公司 基于情感分类的面试数据分析方法、计算机装置及介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
J. CHIEN: "RECALL NEURAL NETWORK FOR SOURCE SEPARATION", 《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
PENG ZHOU: "Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification", 《ACL》 *
X. HAO: "An Attention-based Neural Network Approach for Single Channel Speech Enhancement", 《ICASSP 2019 - 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
曾义夫: "基于双记忆注意力的方面级别情感分类模型", 《计算机学报》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11676609B2 (en) 2020-07-06 2023-06-13 Beijing Century Tal Education Technology Co. Ltd. Speaker recognition method, electronic device, and storage medium
CN111968657A (zh) * 2020-08-17 2020-11-20 北京字节跳动网络技术有限公司 语音处理方法、装置、电子设备和计算机可读介质
CN112562706A (zh) * 2020-11-30 2021-03-26 哈尔滨工程大学 一种基于时间潜在域特定说话人信息的目标语音提取方法
CN112562706B (zh) * 2020-11-30 2023-05-05 哈尔滨工程大学 一种基于时间潜在域特定说话人信息的目标语音提取方法
CN112712819B (zh) * 2020-12-23 2022-07-26 电子科技大学 视觉辅助跨模态音频信号分离方法
CN112712819A (zh) * 2020-12-23 2021-04-27 电子科技大学 视觉辅助跨模态音频信号分离方法
CN112634935B (zh) * 2021-03-10 2021-06-11 北京世纪好未来教育科技有限公司 语音分离方法、装置、电子设备和可读存储介质
CN112634935A (zh) * 2021-03-10 2021-04-09 北京世纪好未来教育科技有限公司 语音分离方法、装置、电子设备和可读存储介质
CN113380262A (zh) * 2021-05-13 2021-09-10 重庆邮电大学 一种基于注意力机制与扰动感知的声音分离方法
CN113380262B (zh) * 2021-05-13 2022-10-18 重庆邮电大学 一种基于注意力机制与扰动感知的声音分离方法
CN113345466A (zh) * 2021-06-01 2021-09-03 平安科技(深圳)有限公司 基于多麦克风场景的主说话人语音检测方法、装置及设备
CN113345466B (zh) * 2021-06-01 2024-03-01 平安科技(深圳)有限公司 基于多麦克风场景的主说话人语音检测方法、装置及设备
CN113763965A (zh) * 2021-08-26 2021-12-07 江苏大学 一种多重注意力特征融合的说话人识别方法
CN113763965B (zh) * 2021-08-26 2023-12-19 江苏大学 一种多重注意力特征融合的说话人识别方法
CN114842866A (zh) * 2022-04-29 2022-08-02 思必驰科技股份有限公司 语音处理方法、电子设备和存储介质
CN114842866B (zh) * 2022-04-29 2024-09-10 思必驰科技股份有限公司 语音处理方法、电子设备和存储介质
CN114974261A (zh) * 2022-05-12 2022-08-30 厦门快商通科技股份有限公司 一种语音验证方法、终端设备及存储介质

Also Published As

Publication number Publication date
CN110675891B (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
CN110675891B (zh) 一种基于多层注意力机制的语音分离方法、模块
Tan et al. Learning complex spectral mapping with gated convolutional recurrent networks for monaural speech enhancement
JP7337953B2 (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
Qian et al. Very deep convolutional neural networks for noise robust speech recognition
CN108847249A (zh) 声音转换优化方法和系统
CN108899047B (zh) 音频信号的掩蔽阈值估计方法、装置及存储介质
Agrawal et al. Modulation filter learning using deep variational networks for robust speech recognition
CN109036467A (zh) 基于tf-lstm的cffd提取方法、语音情感识别方法及系统
CN113539232B (zh) 一种基于慕课语音数据集的语音合成方法
Shi et al. End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network.
Xue et al. Cross-modal information fusion for voice spoofing detection
Das et al. Understanding the effect of voice quality and accent on talker similarity
Li et al. Dual-path modeling with memory embedding model for continuous speech separation
Gu et al. Memory storable network based feature aggregation for speaker representation learning
Soni et al. State-of-the-art analysis of deep learning-based monaural speech source separation techniques
CN112017686B (zh) 基于门控递归融合深度嵌入式特征的多通道语音分离系统
CN117310668A (zh) 融合注意力机制与深度残差收缩网络的水声目标识别方法
Wan Research on speech separation and recognition algorithm based on deep learning
Hu et al. Spoken arabic digits recognition based on wavelet neural networks
Li et al. A survey on probabilistic models in human perception and machines
CN115910091A (zh) 引入基频线索的生成式语音分离方法和装置
Li et al. Multi-layer attention mechanism based speech separation model
Paul et al. A review on speech recognition methods
CN115881157A (zh) 音频信号的处理方法及相关设备
Srinivasan et al. Multi-view representation based speech assisted system for people with neurological disorders

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant