CN111899756A - 一种单通道语音分离方法和装置 - Google Patents

一种单通道语音分离方法和装置 Download PDF

Info

Publication number
CN111899756A
CN111899756A CN202011057720.3A CN202011057720A CN111899756A CN 111899756 A CN111899756 A CN 111899756A CN 202011057720 A CN202011057720 A CN 202011057720A CN 111899756 A CN111899756 A CN 111899756A
Authority
CN
China
Prior art keywords
target
voice
phase
spectrum
amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011057720.3A
Other languages
English (en)
Other versions
CN111899756B (zh
Inventor
史慧宇
欧阳鹏
尹首一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Qingwei Intelligent Technology Co.,Ltd.
Original Assignee
Beijing Qingwei Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qingwei Intelligent Technology Co ltd filed Critical Beijing Qingwei Intelligent Technology Co ltd
Priority to CN202011057720.3A priority Critical patent/CN111899756B/zh
Publication of CN111899756A publication Critical patent/CN111899756A/zh
Application granted granted Critical
Publication of CN111899756B publication Critical patent/CN111899756B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明为一种单通道语音分离方法和装置,包括:麦克风接收端接收待分离的混合语音;获取混合语音的频谱幅值和频谱相位;提取混合语音的频谱幅值获取深度嵌入式特征矢量;获取多个声源的定位信息;获取神经网络模型输出的估计组合掩蔽;获取目标频谱幅值和目标频谱相位;重构目标频谱幅值和目标频谱相位,获取目标语音。提高混合语音中目标说话人与非目标说话人分离的准确度。

Description

一种单通道语音分离方法和装置
技术领域
本发明涉及语音分离领域,具体为一种单通道语音分离方法和装置。
背景技术
单通道语音分离技术在语音识别、助听器、会议记录等设备中得到广泛地应用。单通道语音分离技术是指单个麦克风接收语音信号后将其中的目标说话人与其他的说话人和背景噪音分离开的技术。随着语音分离和语音降噪技术的发展,环境噪音或其他与人声差异较大的噪音信号的分离已经取得较好的结果,但是其他目标说话人与非目标说话人的信号较为接近,因此分离的难度较高。混合语音信号分离的准确性对多种设备的应用效果至关重要,若不能提高分离的准确度,则会出现语音识别不准确、助听器传给用户错误语音信息等情况。
综上所述,针对目标说话人与非目标说话人的语音进行分离,如何进一步地提高单通道语音分离的准确度是确有必要解决的问题。
发明内容
本发明的目的是提供一种单通道语音分离方法,提高混合语音中目标说话人与非目标说话人分离的准确度,提高获取目标说话人的精度。
为了实现上述目的,采用的技术方案为:一种单通道语音分离方法,包括:
S101:麦克风接收端接收待分离的混合语音;获取所述混合语音的频谱幅值和频谱相位。
S102:提取所述混合语音的频谱幅值获取深度嵌入式特征矢量。
S103:根据所述麦克风接收端的位置、所述混合语音的频谱相位和介质空间方位信息,获取多个声源的定位信息。
S104:将所述深度嵌入式特征矢量和多个声源的定位信息输入至训练好的神经网络模型中,获取所述神经网络模型输出的估计组合掩蔽。
S105:根据所述估计组合掩蔽和所述混合语音的频谱幅值和频谱相位,获取目标频谱幅值和目标频谱相位。
S106:重构所述目标频谱幅值和目标频谱相位,获取目标语音。
与现有技术相比,本发明的技术效果为:对于目标说话人语音与非目标说话人语音分离,本发明根据所述麦克风接收端的位置、所述混合语音的频谱相位和介质空间方位信息,获取混合语音中多个声源的定位信息,也就是能进一步对混合语音中的多个说话人做定位。
提取混合语音频谱幅值得到的深度嵌入式特征矢量与多个声源的定位信息结合后,本发明的关键点是额外增加了多个声源的定位信息,输入训练好的神经网络模型中得到输出的估计组合掩蔽,这样提高神经网络模型预测估计组合掩蔽的准确度,进而提高混合语音中目标说话人与非目标说话人分离的准确度。
附图说明
图1为本发明单通道语音分离方法的流程示意图。
图2为本发明单通道语音分离装置的结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述。
如图1所示,本发明一实施例为一种单通道语音分离方法,包括:
S101:麦克风接收端接收待分离的混合语音;获取所述混合语音的频谱幅值和频谱相位。
对所述混合语音时域信号加窗分帧和短时傅里叶变换得到混合语音的频谱幅值和频谱相位。
S102:提取所述混合语音的频谱幅值获取深度嵌入式特征矢量。
也就是获得低维度的具有更高分辨率的嵌入矢量,通过训练目标函数
Figure 112683DEST_PATH_IMAGE001
实现深度嵌入式特征矢量的提取。
其中,V表示深度嵌入式特征,Y表示理想幅值掩蔽,
Figure 560981DEST_PATH_IMAGE002
F为弗罗贝尼乌斯范数,T为转置。
S103:根据所述麦克风接收端的位置、所述混合语音的频谱相位和介质空间方位信息,获取多个声源的定位信息。
声源所在的介质为空气,介质空间方位信息是根据声源所在位置和麦克风接收端建立的空间坐标系。麦克风接收端表面任意一点(x0,y0,z0=0)以及介质中任意位置r(x,y,z)的坐标能够确定。
声源的定位信息为声源的坐标位置和所述混合语音的频谱相位融合得到。
具体地,根据所述麦克风接收端的位置、频谱相位和介质空间方位信息,通过高斯声束法获取声源空间的声压分布状态。具体通过下述公式计算。
Figure 340719DEST_PATH_IMAGE004
其中,P(r,w)为声压分布状态;
Figure 391720DEST_PATH_IMAGE005
表示麦克风接收端表面任意一点(x0,y0,z0=0)到介质中任意位置r(x,y,z)的距离,w为信号频率。ρ为介质密度,c为介质声速,A和B为高斯系数,k为波数,
Figure 799568DEST_PATH_IMAGE006
为介质中场点到声源的距离,
Figure 153189DEST_PATH_IMAGE007
为瑞利距离;i为虚数。
根据所述声压分布状态,获取多个声源的定位信息。
S104:将所述深度嵌入式特征矢量和多个声源的定位信息输入至训练好的神经网络模型中,获取所述神经网络模型输出的估计组合掩蔽。
换言之,神经网络模型输出的预测值即为估计组合掩蔽。
S105:根据所述估计组合掩蔽和所述混合语音的频谱幅值和频谱相位,获取目标频谱幅值和目标频谱相位。
使用掩蔽的方法进行语音增强,在频谱幅值和频谱相位中既存在噪声信号又存在干净语音信号,因此,将混合语音中噪声信号掩蔽掉剩下的就是干净语音信号。
具体地,所述估计组合掩蔽包括估计幅值掩蔽和估计相位掩蔽;根据所述混合语音的频谱幅值和估计幅值掩蔽获取目标频谱幅值;根据所述混合语音的频谱相位和估计相位掩蔽获取目标频谱相位。
S106:重构所述目标频谱幅值和目标频谱相位,获取目标语音。
将所述目标频谱幅值和目标频谱相位结合,通过短时傅里叶逆变换和帧重叠恢复得到目标语音。
对于目标说话人语音与非目标说话人语音分离,本发明根据所述麦克风接收端的位置、所述混合语音的频谱相位和介质空间方位信息,获取混合语音中多个声源的定位信息,也就是能进一步对混合语音中的多个说话人做定位。
提取混合语音频谱幅值得到的深度嵌入式特征矢量与多个声源的定位信息结合后,额外增加了多个声源的定位信息,输入训练好的神经网络模型中得到输出的估计组合掩蔽,这样提高神经网络模型预测估计组合掩蔽的准确度,进而提高混合语音中目标说话人与非目标说话人分离的准确度。
本发明中所述神经网络模型通过步骤S201至S206训练。
S201:获取训练语音样本集,所述训练语音样本集中的一条训练语音样本包括混合语音样本和干净语音样本;
S202:用16KHz对训练语音样本的时域信号采样,分别获取混合语音样本时域信号y(t)和干净语音样本时域信号xi(t),(i=1,2,…, N)。
S203:对所述混合语音样本时域信号加窗分帧和短时傅里叶变换得到混合语音的幅度谱及相位谱,对所述干净语音样本时域信号加窗分帧和短时傅里叶变换得到幅度谱及相位谱;
通过加窗分帧和短时傅里叶变换分别得到混合语音样本时域信号y(t)和干净语音样本时域信号xi(t),(i=1,2,…, N)的幅度谱Y(t,f)和Xi(t,f)(i=1,2,…,N)、相位谱及幅度最大值。
语音信号是一个准稳态的信号,若把它分成较短的帧,每帧中可将其看作稳态信号,可用处理稳态信号的方法来处理。为了使一帧与另一帧之间的参数能够平稳过渡,应在相邻两帧之间互相有部分重叠。一般情况下,帧长取10 ~ 30ms,所以每秒的帧数约为33 ~100帧。帧移与帧长的比值一般取0~1/2。
将语音信号分帧后,需要对每一帧信号进行分析处理。窗函数一般具有低通特性,加窗函数的目的是减少频域中的泄漏。在语音信号分析中常用的窗函数有矩形窗、汉明窗和汉宁窗,可根据不同的情况选择不同的窗函数。本发明选择汉宁窗进行计算。
S204:根据所述混合语音样本和所述干净语音样本的幅度谱和相位谱,计算获得理想组合掩蔽,将所述理想组合掩蔽作为训练目标;
具体地,对所述混合语音样本和所述干净语音样本的幅度谱归一化处理;只对所述混合语音和所述干净语音的幅度谱归一化处理,而所述混合语音和所述干净语音的相位谱无需进行归一化处理。
根据归一化处理后的混合语音样本和所述干净语音样本的幅度谱和相位谱,获取理想组合掩蔽。理想组合掩蔽包括理想幅值掩蔽和理想相位掩蔽。
S205:根据采集训练语音样本的麦克风接收端位置、干净语音的频谱相位和介质空间方位信息,估计每个所述干净语音相应的定位信息。
具体参见上述S103的说明,此处不再赘述。
S206:将所述混合语音的幅度谱、干净语音的定位信息和作为训练目标的理想组合掩蔽输入神经网络模型中进行当次有监督训练,完成当次有监督训练后继续进行下一次训练,直至所述神经网络模型收敛。
随机初始化神经网络模型的参数,对神经网络模型进行训练,所述神经网络模型的训练阶段包括前向传播阶段和反向传播阶段。
前向传播阶段包括初始化网络神经元节点之间的权重和偏置;神经网络进行前向传播。
反向传播阶段包括计算神经网络模型的代价函数;通过梯度下降法更新神经网络模型的参数;
神经网络模型的损失函数如下所示。
Figure 951380DEST_PATH_IMAGE008
其中,|Y|为混合语音的幅度谱,|X|i为说话人i的幅度谱,
Figure 212597DEST_PATH_IMAGE009
为理想组合掩蔽值,i=1,2,…,N。
如图2所示,本发明另一实施例提供一种单通道语音分离装置,包括:
接收模块302,其被配置为麦克风接收端接收待分离的混合语音;获取所述混合语音的频谱幅值和频谱相位;
深度嵌入式特征提取模块304,其被配置为提取所述混合语音的频谱幅值获取深度嵌入式特征矢量;
声源定位模块306,其被配置为根据所述麦克风接收端的位置、所述混合语音的频谱相位和介质空间方位信息,获取多个声源的定位信息;
语音分离模块308,其被配置为将所述深度嵌入式特征矢量和多个声源的定位信息输入至训练好的神经网络模型中,获取所述神经网络模型输出的估计组合掩蔽;
获取模块310,其被配置为根据所述估计组合掩蔽和所述混合语音的频谱幅值和频谱相位,获取目标频谱幅值和目标频谱相位;
重构模块312,其被配置为重构所述目标频谱幅值和目标频谱相位,获取目标语音。
本实施例的单通道语音分离装置与上述单通道语音分离方法为同一发明构思,具体参见上述单通道语音分离方法的具体说明,此处不再赘述。

Claims (7)

1.一种单通道语音分离方法,其特征在于,包括:
S101:麦克风接收端接收待分离的混合语音;获取所述混合语音的频谱幅值和频谱相位;
S102:提取所述混合语音的频谱幅值获取深度嵌入式特征矢量;
S103:根据所述麦克风接收端的位置、所述混合语音的频谱相位和介质空间方位信息,获取多个声源的定位信息;
S104:将所述深度嵌入式特征矢量和多个声源的定位信息输入至训练好的神经网络模型中,获取所述神经网络模型输出的估计组合掩蔽;
S105:根据所述估计组合掩蔽和所述混合语音的频谱幅值和频谱相位,获取目标频谱幅值和目标频谱相位;
S106:重构所述目标频谱幅值和目标频谱相位,获取目标语音。
2.根据权利要求1所述的单通道语音分离方法,其特征在于,所述S103中根据,获取多个声源的定位信息,包括:
根据所述麦克风接收端的位置、频谱相位和介质空间方位信息,通过高斯声束法获取声源所处空间的声压分布状态;
根据所述声压分布状态,获取多个声源的定位信息。
3.根据权利要求1所述的单通道语音分离方法,其特征在于,所述神经网络模型通过步骤S201至S206训练;
S201:获取训练语音样本集,所述训练语音样本集中的一条训练语音样本包括混合语音样本和干净语音样本;
S202:对所述训练语音样本的时域信号采样,分别获取混合语音样本时域信号和干净语音样本时域信号;
S203:对所述混合语音样本时域信号加窗分帧和短时傅里叶变换得到混合语音的幅度谱及相位谱,对所述干净语音样本时域信号加窗分帧和短时傅里叶变换得到幅度谱及相位谱;
S204:根据所述混合语音样本和所述干净语音样本的幅度谱和相位谱,计算获得理想组合掩蔽,将所述理想组合掩蔽作为训练目标;
S205:根据采集训练语音样本的麦克风接收端位置、干净语音的频谱相位和介质空间方位信息,估计每个所述干净语音相应的定位信息;
S206:将所述混合语音的幅度谱、干净语音的定位信息和作为训练目标的理想组合掩蔽输入神经网络模型中进行当次有监督训练,完成当次有监督训练后继续进行下一次训练,直至所述神经网络模型收敛。
4.根据权利要求3所述的单通道语音分离方法,其特征在于,所述S204包括:
对所述混合语音样本和所述干净语音样本的幅度谱归一化处理;根据归一化处理后的混合语音样本和所述干净语音样本的幅度谱和相位谱,获取理想组合掩蔽。
5.根据权利要求1所述的单通道语音分离方法,其特征在于,所述估计组合掩蔽包括估计幅值掩蔽和估计相位掩蔽;
所述S105中根据所述估计组合掩蔽和所述混合语音的频谱幅值和频谱相位,获取目标频谱幅值和目标频谱相位,获取目标频谱幅值和目标频谱相位,包括:
根据所述混合语音的频谱幅值和估计幅值掩蔽获取目标频谱幅值;
根据所述混合语音的频谱相位和估计相位掩蔽获取目标频谱相位。
6.根据权利要求1所述的单通道语音分离方法,其特征在于,所述S106中重构所述目标频谱幅值和目标频谱相位,获取目标语音,包括:
将所述目标频谱幅值和目标频谱相位结合,通过短时傅里叶逆变换和帧重叠恢复得到目标语音。
7.一种单通道语音分离装置,其特征在于,包括:
接收模块,其被配置为麦克风接收端接收待分离的混合语音;获取所述混合语音的频谱幅值和频谱相位;
深度嵌入式特征提取模块,其被配置为提取所述混合语音的频谱幅值获取深度嵌入式特征矢量;
声源定位模块,其被配置为根据所述麦克风接收端的位置、所述混合语音的频谱相位和介质空间方位信息,获取多个声源的定位信息;
语音分离模块,其被配置为将所述深度嵌入式特征矢量和多个声源的定位信息输入至训练好的神经网络模型中,获取所述神经网络模型输出的估计组合掩蔽;
获取模块,其被配置为根据所述估计组合掩蔽和所述混合语音的频谱幅值和频谱相位,获取目标频谱幅值和目标频谱相位;
重构模块,其被配置为重构所述目标频谱幅值和目标频谱相位,获取目标语音。
CN202011057720.3A 2020-09-29 2020-09-29 一种单通道语音分离方法和装置 Active CN111899756B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011057720.3A CN111899756B (zh) 2020-09-29 2020-09-29 一种单通道语音分离方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011057720.3A CN111899756B (zh) 2020-09-29 2020-09-29 一种单通道语音分离方法和装置

Publications (2)

Publication Number Publication Date
CN111899756A true CN111899756A (zh) 2020-11-06
CN111899756B CN111899756B (zh) 2021-04-09

Family

ID=73224084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011057720.3A Active CN111899756B (zh) 2020-09-29 2020-09-29 一种单通道语音分离方法和装置

Country Status (1)

Country Link
CN (1) CN111899756B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112382306A (zh) * 2020-12-02 2021-02-19 苏州思必驰信息科技有限公司 分离说话人音频的方法及装置
CN113539293A (zh) * 2021-08-10 2021-10-22 南京邮电大学 基于卷积神经网络和联合优化的单通道语音分离方法
CN113921022A (zh) * 2021-12-13 2022-01-11 北京世纪好未来教育科技有限公司 音频信号分离方法、装置、存储介质和电子设备
CN114446316A (zh) * 2022-01-27 2022-05-06 腾讯科技(深圳)有限公司 音频分离方法、音频分离模型的训练方法、装置及设备
CN114678037A (zh) * 2022-04-13 2022-06-28 北京远鉴信息技术有限公司 一种重叠语音的检测方法、装置、电子设备及存储介质
CN115862669A (zh) * 2022-11-29 2023-03-28 南京领行科技股份有限公司 一种保证乘车安全的方法、装置、电子设备及存储介质
CN117727312A (zh) * 2023-12-12 2024-03-19 广州伏羲智能科技有限公司 一种目标噪声分离方法、系统及终端设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2023343A1 (en) * 2007-08-09 2009-02-11 HONDA MOTOR CO., Ltd. Sound-source separation system
CN103170068A (zh) * 2013-04-15 2013-06-26 南京大学 一种相控阵非线性声场的定量确定方法
CN103811020A (zh) * 2014-03-05 2014-05-21 东北大学 一种智能语音处理方法
CN109887494A (zh) * 2017-12-01 2019-06-14 腾讯科技(深圳)有限公司 重构语音信号的方法和装置
CN110544482A (zh) * 2019-09-09 2019-12-06 极限元(杭州)智能科技股份有限公司 一种单通道语音分离系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2023343A1 (en) * 2007-08-09 2009-02-11 HONDA MOTOR CO., Ltd. Sound-source separation system
CN103170068A (zh) * 2013-04-15 2013-06-26 南京大学 一种相控阵非线性声场的定量确定方法
CN103811020A (zh) * 2014-03-05 2014-05-21 东北大学 一种智能语音处理方法
CN109887494A (zh) * 2017-12-01 2019-06-14 腾讯科技(深圳)有限公司 重构语音信号的方法和装置
CN110544482A (zh) * 2019-09-09 2019-12-06 极限元(杭州)智能科技股份有限公司 一种单通道语音分离系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112382306A (zh) * 2020-12-02 2021-02-19 苏州思必驰信息科技有限公司 分离说话人音频的方法及装置
CN112382306B (zh) * 2020-12-02 2022-05-10 思必驰科技股份有限公司 分离说话人音频的方法及装置
CN113539293A (zh) * 2021-08-10 2021-10-22 南京邮电大学 基于卷积神经网络和联合优化的单通道语音分离方法
CN113539293B (zh) * 2021-08-10 2023-12-26 南京邮电大学 基于卷积神经网络和联合优化的单通道语音分离方法
CN113921022A (zh) * 2021-12-13 2022-01-11 北京世纪好未来教育科技有限公司 音频信号分离方法、装置、存储介质和电子设备
CN114446316A (zh) * 2022-01-27 2022-05-06 腾讯科技(深圳)有限公司 音频分离方法、音频分离模型的训练方法、装置及设备
CN114446316B (zh) * 2022-01-27 2024-03-12 腾讯科技(深圳)有限公司 音频分离方法、音频分离模型的训练方法、装置及设备
CN114678037A (zh) * 2022-04-13 2022-06-28 北京远鉴信息技术有限公司 一种重叠语音的检测方法、装置、电子设备及存储介质
CN114678037B (zh) * 2022-04-13 2022-10-25 北京远鉴信息技术有限公司 一种重叠语音的检测方法、装置、电子设备及存储介质
CN115862669A (zh) * 2022-11-29 2023-03-28 南京领行科技股份有限公司 一种保证乘车安全的方法、装置、电子设备及存储介质
CN117727312A (zh) * 2023-12-12 2024-03-19 广州伏羲智能科技有限公司 一种目标噪声分离方法、系统及终端设备

Also Published As

Publication number Publication date
CN111899756B (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN111899756B (zh) 一种单通道语音分离方法和装置
CN112331218B (zh) 一种针对多说话人的单通道语音分离方法和装置
Yegnanarayana et al. Processing of reverberant speech for time-delay estimation
Nesta et al. Convolutive underdetermined source separation through weighted interleaved ICA and spatio-temporal source correlation
CN106847301A (zh) 一种基于压缩感知和空间方位信息的双耳语音分离方法
Kumar et al. Non-negative matrix based optimization scheme for blind source separation in automatic speech recognition system
Haridas et al. A novel approach to improve the speech intelligibility using fractional delta-amplitude modulation spectrogram
Do et al. Speech Separation in the Frequency Domain with Autoencoder.
Xiao et al. Beamforming networks using spatial covariance features for far-field speech recognition
Gul et al. Integration of deep learning with expectation maximization for spatial cue-based speech separation in reverberant conditions
KR101802444B1 (ko) 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법
Zhang et al. Multi-Target Ensemble Learning for Monaural Speech Separation.
KR100969138B1 (ko) 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를수행하는 장치
Girin et al. Audio source separation into the wild
Cobos et al. Two-microphone separation of speech mixtures based on interclass variance maximization
Yoshioka et al. Dereverberation by using time-variant nature of speech production system
Marti et al. Automatic speech recognition in cocktail-party situations: A specific training for separated speech
Jafari et al. Underdetermined blind source separation with fuzzy clustering for arbitrarily arranged sensors
Meutzner et al. A generative-discriminative hybrid approach to multi-channel noise reduction for robust automatic speech recognition
Shareef et al. Comparison between features extraction techniques for impairments arabic speech
He et al. Mask-based blind source separation and MVDR beamforming in ASR
Jahanirad et al. Blind source computer device identification from recorded VoIP calls for forensic investigation
Al-Ali et al. Enhanced forensic speaker verification performance using the ICA-EBM algorithm under noisy and reverberant environments
Adiloğlu et al. A general variational Bayesian framework for robust feature extraction in multisource recordings
KR20100056859A (ko) 음성 인식 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221208

Address after: Room 3068, Floor 3, Building 2, No. 602, Tongpu Road, Putuo District, Shanghai, 200062

Patentee after: Shanghai Qingwei Intelligent Technology Co.,Ltd.

Address before: 100192 201, 2nd floor, building 26, yard 1, Baosheng South Road, Haidian District, Beijing

Patentee before: Beijing Qingwei Intelligent Technology Co.,Ltd.

CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Shi Huiyu

Inventor after: OuYang Peng

Inventor before: Shi Huiyu

Inventor before: OuYang Peng

Inventor before: Yin Shouyi