CN112820312A - 一种语音分离方法、装置及电子设备 - Google Patents

一种语音分离方法、装置及电子设备 Download PDF

Info

Publication number
CN112820312A
CN112820312A CN201911127751.9A CN201911127751A CN112820312A CN 112820312 A CN112820312 A CN 112820312A CN 201911127751 A CN201911127751 A CN 201911127751A CN 112820312 A CN112820312 A CN 112820312A
Authority
CN
China
Prior art keywords
voice
frequency band
signals
signal
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911127751.9A
Other languages
English (en)
Other versions
CN112820312B (zh
Inventor
陈孝良
钱思冲
冯大航
常乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN201911127751.9A priority Critical patent/CN112820312B/zh
Publication of CN112820312A publication Critical patent/CN112820312A/zh
Application granted granted Critical
Publication of CN112820312B publication Critical patent/CN112820312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供了一种语音分离方法、装置及电子设备,获取待进行语音分离的语音信号,计算所述语音信号在每一频带上对应的解混矩阵,基于所述语音信号在每一频带上对应的解混矩阵,对所述语音信号进行语音分离。通过本发明,可以实现语音分离,进而可以从嘈杂环境下提取出感兴趣的声源。

Description

一种语音分离方法、装置及电子设备
技术领域
本发明涉及盲语音分离领域,更具体的说,涉及一种语音分离方法、装置及电子设备。
背景技术
在嘈杂的声学环境中,比如在鸡尾酒会中,往往同时存在着许多不同的声源:多个人同时说话的声音、餐具的碰撞声、音乐声等杂音,以及这些声音经墙壁和室内的物体反射所产生的反射声等。在声波的传递过程中,不同声源所发出的声波之间(不同人说话的声音以及其他物体振动发出的声音)以及直达声和反射声之间会在传播介质(通常是空气)中相叠加而形成复杂的混合声波。
如果仅对嘈杂的声学环境中的某一语音感兴趣,那么如何从嘈杂环境下提取出感兴趣的声源是亟需解决的技术问题。
发明内容
有鉴于此,本发明提供一种语音分离方法、装置及电子设备,以解决亟需一种语音分离方法的问题。
为解决上述技术问题,本发明采用了如下技术方案:
一种语音分离方法,包括:
获取待进行语音分离的语音信号;
计算所述语音信号在每一频带上对应的解混矩阵;
基于所述语音信号在每一频带上对应的解混矩阵,对所述语音信号进行语音分离。
优选地,所述计算所述语音信号在每一频带上对应的解混矩阵,包括:
将所述语音信号从时域转换到频域,得到频域信号;
获取所述频域信号在每一频带上的子频域信号;
根据所述频域信号在每一频带上的子频域信号,计算代价函数;
依据所述代价函数,计算所述语音信号在每一频带上对应的解混矩阵。
优选地,所述根据所述频域信号在每一频带上的子频域信号,计算代价函数,包括:
获取表征所述语音信号在各频带上的分布特性的初始超高斯分布函数;
基于所述频域信号在每一频带上的子频域信号,计算所述初始超高斯分布函数中的参数;
基于所述初始超高斯分布函数中的参数,计算得到所述代价函数。
优选地,所述基于所述初始超高斯分布函数中的参数,计算得到所述代价函数,包括:
基于所述初始超高斯分布函数中的参数,计算得到代价函数的自然梯度;
根据所述代价函数的自然梯度,计算得到所述代价函数。
优选地,所述基于所述语音信号在每一频带上对应的解混矩阵,对所述语音信号进行语音分离,包括:
基于所述语音信号在每一频带上对应的解混矩阵,对相应的子频域信号进行分离,得到所述语音信号在每一频带上不同声源的分离信号;
所述语音信号在每一频带上不同声源的分离信号进行频域转时域变换,得到所述语音信号不同声源在时域上的分离信号;
对所述语音信号不同声源在时域上的分离信号按照时间顺序进行整合,得到所述语音信号分离后的结果。
一种语音分离装置,包括:
信号获取模块,用于获取待进行语音分离的语音信号;
矩阵计算模块,用于计算所述语音信号在每一频带上对应的解混矩阵;
语音分离模块,用于基于所述语音信号在每一频带上对应的解混矩阵,对所述语音信号进行语音分离。
优选地,所述矩阵计算模块包括:
信号转换子模块,用于将所述语音信号从时域转换到频域,得到频域信号;
信号获取子模块,用于获取所述频域信号在每一频带上的子频域信号;
函数计算子模块,用于根据所述频域信号在每一频带上的子频域信号,计算代价函数;
矩阵计算子模块,用于依据所述代价函数,计算所述语音信号在每一频带上对应的解混矩阵。
优选地,所述函数计算子模块包括:
函数获取单元,用于获取表征所述语音信号在各频带上的分布特性的初始超高斯分布函数;
参数计算单元,用于基于所述频域信号在每一频带上的子频域信号,计算所述初始超高斯分布函数中的参数;
函数计算单元,用于基于所述初始超高斯分布函数中的参数,计算得到所述代价函数。
优选地,所述函数计算单元用于基于所述初始超高斯分布函数中的参数,计算得到所述代价函数时,具体用于:
基于所述初始超高斯分布函数中的参数,计算得到代价函数的自然梯度,根据所述代价函数的自然梯度,计算得到所述代价函数。
优选地,所述语音分离模块包括:
语音分离子模块,用于基于所述语音信号在每一频带上对应的解混矩阵,对相应的子频域信号进行分离,得到所述语音信号在每一频带上不同声源的分离信号;
语音变换子模块,用于所述语音信号在每一频带上不同声源的分离信号进行频域转时域变换,得到所述语音信号不同声源在时域上的分离信号;
语音整合子模块,用于对所述语音信号不同声源在时域上的分离信号按照时间顺序进行整合,得到所述语音信号分离后的结果。
一种电子设备,包括:存储器和处理器;
其中,所述存储器用于存储程序;
处理器调用程序并用于:
获取待进行语音分离的语音信号;
计算所述语音信号在每一频带上对应的解混矩阵;
基于所述语音信号在每一频带上对应的解混矩阵,对所述语音信号进行语音分离。
相较于现有技术,本发明具有以下有益效果:
本发明提供了一种语音分离方法、装置及电子设备,获取待进行语音分离的语音信号,计算所述语音信号在每一频带上对应的解混矩阵,基于所述语音信号在每一频带上对应的解混矩阵,对所述语音信号进行语音分离。通过本发明,可以实现语音分离,进而可以从嘈杂环境下提取出感兴趣的声源。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种语音处理流程图;
图2为本发明实施例提供的一种语音分离方法的方法流程图;
图3为本发明实施例提供的另一种语音分离方法的方法流程图;
图4为本发明实施例提供的再一种语音分离方法的方法流程图;
图5为本发明实施例提供的一种语音在一频带上的分布直方图;
图6为本发明实施例提供的一种语音分离装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例主要研究语音分离方法,发明人在对语音分离研究的过程中,发现语音分离和识别的过称为:
利用麦克风阵列采集声音,即麦克风信号,然后使用麦克风阵列声源定位SRP-PHAT和粒子滤波对活动声源进行定位和跟踪,再根据跟踪的声源的方位对语音进行盲语音分离,对分离后的每路音频做后处理(即单通道后置滤波),最后送给语音识别器进行识别。
上述该方案在仿真数据的情况下能有良好的表现,但是当应用于实际的场景时,表现不理想,分析其各个模块,发现即使声源定位非常准确的情况下,基于声源方位的盲语音分离(Geometric Source Separation GSS)模块的分离效果依然很差,通道之间互扰非常严重,虽然这个缺点经过后置滤波后有所纠正,但是达不到有效提取目标语音的目标。经过详细分析,发现GSS有如下缺点:
一、GSS利用语音信号的非平稳特性,将独立性转化为互不相关,本质上只用到了信号的二阶统计信息。
二、语音信号为宽带信号,每个频带上分布都不一样,这里盲语音分离算法假定语音在各频带分布是一样的,即认为语音在每个频带上的分布属于拉普拉斯分布,但实际场景下语音在每个频带上的分布并不一定服从拉普拉斯分布,这会导致最终的分离结果在各个频带表现不一致,影响最终分离效果。
发明人在上述盲语音分离的基础上,做了进一步的技术改进,得到了本发明实施例的语音分离方法,具体的,参照图1,语音分离方法可以包括:
S11、获取待进行语音分离的语音信号。
本实施例中,采用扬声器矩阵进行语音采集,扬声器的数量依据实际场景而定,如4个、5个等。
实际场景一般都是有混响的环境,麦克风采集信号为语音的卷积混合,时域关系为:
Figure BDA0002277388090000051
其中,xl(t)为第l个麦克风采集的信号,
Figure BDA0002277388090000052
为从p个声源到第l个麦克风的脉冲响应,sp为声源,ul为加性噪声。
S12、计算所述语音信号在每一频带上对应的解混矩阵。
其中,解混矩阵就是为了将语音信号进行分离的矩阵,在对语音信号进行分离时,是对语音信号的频域部分的每一带宽进行处理的。
S13、基于所述语音信号在每一频带上对应的解混矩阵,对所述语音信号进行语音分离。
进行语音分离后,就可以单独确定出每一声源的语音,进而能够对感兴趣的语音进行语音识别等操作。
本实施例中,获取待进行语音分离的语音信号,计算所述语音信号在每一频带上对应的解混矩阵,基于所述语音信号在每一频带上对应的解混矩阵,对所述语音信号进行语音分离。通过本发明,可以实现语音分离,进而可以从嘈杂环境下提取出感兴趣的声源。
本发明的另一实施例中给出了步骤S12“计算所述语音信号在每一频带上对应的解混矩阵”的过程,参照图2,步骤S12可以包括:
S21、将所述语音信号从时域转换到频域,得到频域信号。
本实施例采用独立成分分析ICA(Independent Component CorrelationAlgorithm)进行语音分离,ICA及其衍生算法可以进行盲语音分离。语音信号为宽带非平稳信号,对其处理一般采用短时傅里叶变换STFT分频带分帧,再对每个频带单独做复数ICA分离。
经过短时傅里叶变换STFT后,时域卷积混合转变为频域线性混合:
X(k)=A(k)S(k) (2)
X(k),A(k)和S(k)分别为x,a和s的STFT变换,k表示频带。
S22、获取所述频域信号在每一频带上的子频域信号。
S23、根据所述频域信号在每一频带上的子频域信号,计算代价函数。
S24、依据所述代价函数,计算所述语音信号在每一频带上对应的解混矩阵。
ICA算法需要在每个频带估计一个解混矩阵W(k):
Y(k)=W(k)X(k) (3)
使得Y(k)=S(k)或者是S(k)的某种线性表示,Yk为频域信号。
ICA解决这个问题的途径是构建一个代价函数J(Y)来度量Y的分量[Y1,Y2,...,YP]之间的混合度,混合度越小,说明分离得越彻底,因此最小化该代价函数就能估计出最优解混矩阵:
Wopt=arg minW(J(Y)) (4)
在实际信号处理中,在频域最小化代价函数一般采用自然梯度下降法,即
Wt+1=Wt-μJ′(Wt) (5)
t表示迭代次数,μ表示步长,一般设置为0.1,J′为J的自然梯度。
现在ICA的关键就是代价函数的设计,负熵是最常用[1]的非高斯性度量方法,定义如下:
J(Y)=H(Ygauss)-H(Y) (6)
H(·)为熵,定义为:
H(Y)=-∫pY(v)log pY(v)dv (7)
其中Ygauss是与随机变量Y具有相同的方差
Figure BDA0002277388090000071
高斯变量,pY为Y的概率分布函数,
Figure BDA0002277388090000072
在本实施例的基础上,参照图4,步骤S23可以包括:
S31、获取表征所述语音信号在各频带上的分布特性的初始超高斯分布函数。
目前实际的语音分离中,一般假定代价函数中pY服从拉普拉斯分布,即语音在每个频带的分布属于拉普拉斯分布,实际场景下语音在每个频带并不一定服从拉普拉斯分布。
对语音在各频带的分布特性进行分析。图5为一个近场语音在子带频率fs=800Hz的实部的分布直方图。图中带颜色部分为实际语音的分布,这是一个典型的超高斯分布,不属于拉普拉斯分布。
大量纯净语音数据统计表明,可以用通用高斯概率密度函数(GeneralizedGaussian pdf,即初始超高斯分布函数)来表示各个频带的分布:
Figure BDA0002277388090000073
p为形状参数,
Figure BDA0002277388090000074
为尺度参数,这两个参数可以通过实际数据来估计,Γ(.)为gamma函数,且
Figure BDA0002277388090000075
S32、基于所述频域信号在每一频带上的子频域信号,计算所述初始超高斯分布函数中的参数。
Figure BDA0002277388090000081
的估计公式为:
Figure BDA0002277388090000082
形状参数p没有闭式解,只能用最大似然估计法,实际使用中可以取一个固定值0.5。
S33、基于所述初始超高斯分布函数中的参数,计算得到所述代价函数。
在实际应用中,步骤S33可以包括:
基于所述初始超高斯分布函数中的参数,计算得到代价函数的自然梯度,根据所述代价函数的自然梯度,计算得到所述代价函数。
具体的,通用高斯概率密度函数的熵为:
Figure BDA0002277388090000083
将公式(8)和公式(12)代入公式(6)并求其自然梯度,得到:
Figure BDA0002277388090000084
公式(13)代入公式(5),进行迭代运算,即可得到最终结果。
在本实施例的基础上,步骤S13可以包括:
基于所述语音信号在每一频带上对应的解混矩阵,对相应的子频域信号进行分离,得到所述语音信号在每一频带上不同声源的分离信号,所述语音信号在每一频带上不同声源的分离信号进行频域转时域变换,得到所述语音信号不同声源在时域上的分离信号,对所述语音信号不同声源在时域上的分离信号按照时间顺序进行整合,得到所述语音信号分离后的结果。
具体的,得到解混矩阵之后,使用解混矩阵对子频域信号进行分离,分离得到不同声源的信号,然后将频域转时域,然后在按照时间先后顺序进行组合即可。
本实施例的关键点为分频带估计语音的分布。在实际场景下,不同的人或者不同环境下每个频带的分布都是不同的,无法做到准确估计,ICA算法鲁棒性非常高,即使有一些误差也能达到比较好的分离效果。另外,本发明实施例基于信号的四阶统计特性,理论上就比仅利用二阶信息的波束或者现有技术方案一能更好提取目标语音。另外,本发明实施例针对语音的宽带特性在每个频带内分别估计其分布,以此为先验信息更准确分离出目标声源。
本实施例主要针对语音信号,对嘈杂环境下目标语音的提取有明显的改进,适用于所有使用麦克风阵列进行语音增强的场景。
可选的,在上述语音分离方法的实施例的基础上,本发明的另一实施例提供了一种语音分离装置,参照图6,可以包括:
信号获取模块101,用于获取待进行语音分离的语音信号;
矩阵计算模块102,用于计算所述语音信号在每一频带上对应的解混矩阵;
语音分离模块103,用于基于所述语音信号在每一频带上对应的解混矩阵,对所述语音信号进行语音分离。
本实施例中,获取待进行语音分离的语音信号,计算所述语音信号在每一频带上对应的解混矩阵,基于所述语音信号在每一频带上对应的解混矩阵,对所述语音信号进行语音分离。通过本发明,可以实现语音分离,进而可以从嘈杂环境下提取出感兴趣的声源。
需要说明的是,本实施例中的各个模块的工作过程,请参照上述实施例中的相应说明,在此不再赘述。
可选的,在上述语音分离装置的实施例的基础上,所述矩阵计算模块包括:
信号转换子模块,用于将所述语音信号从时域转换到频域,得到频域信号;
信号获取子模块,用于获取所述频域信号在每一频带上的子频域信号;
函数计算子模块,用于根据所述频域信号在每一频带上的子频域信号,计算代价函数;
矩阵计算子模块,用于依据所述代价函数,计算所述语音信号在每一频带上对应的解混矩阵。
进一步,所述函数计算子模块包括:
函数获取单元,用于获取表征所述语音信号在各频带上的分布特性的初始超高斯分布函数;
参数计算单元,用于基于所述频域信号在每一频带上的子频域信号,计算所述初始超高斯分布函数中的参数;
函数计算单元,用于基于所述初始超高斯分布函数中的参数,计算得到所述代价函数。
进一步,所述函数计算单元用于基于所述初始超高斯分布函数中的参数,计算得到所述代价函数时,具体用于:
基于所述初始超高斯分布函数中的参数,计算得到代价函数的自然梯度,根据所述代价函数的自然梯度,计算得到所述代价函数。
进一步,所述语音分离模块包括:
语音分离子模块,用于基于所述语音信号在每一频带上对应的解混矩阵,对相应的子频域信号进行分离,得到所述语音信号在每一频带上不同声源的分离信号;
语音变换子模块,用于所述语音信号在每一频带上不同声源的分离信号进行频域转时域变换,得到所述语音信号不同声源在时域上的分离信号;
语音整合子模块,用于对所述语音信号不同声源在时域上的分离信号按照时间顺序进行整合,得到所述语音信号分离后的结果。
本实施例主要针对语音信号,对嘈杂环境下目标语音的提取有明显的改进,适用于所有使用麦克风阵列进行语音增强的场景。
需要说明的是,本实施例中的各个模块、子模块和单元的工作过程,请参照上述实施例中的相应说明,在此不再赘述。
可选的,在上述语音分离方法的实施例的基础上,本发明的另一实施例提供了一种电子设备,包括:存储器和处理器;
其中,所述存储器用于存储程序;
处理器调用程序并用于:
获取待进行语音分离的语音信号;
计算所述语音信号在每一频带上对应的解混矩阵;
基于所述语音信号在每一频带上对应的解混矩阵,对所述语音信号进行语音分离。
进一步,所述计算所述语音信号在每一频带上对应的解混矩阵,包括:
将所述语音信号从时域转换到频域,得到频域信号;
获取所述频域信号在每一频带上的子频域信号;
根据所述频域信号在每一频带上的子频域信号,计算代价函数;
依据所述代价函数,计算所述语音信号在每一频带上对应的解混矩阵。
进一步,所述根据所述频域信号在每一频带上的子频域信号,计算代价函数,包括:
获取表征所述语音信号在各频带上的分布特性的初始超高斯分布函数;
基于所述频域信号在每一频带上的子频域信号,计算所述初始超高斯分布函数中的参数;
基于所述初始超高斯分布函数中的参数,计算得到所述代价函数。
进一步,所述基于所述初始超高斯分布函数中的参数,计算得到所述代价函数,包括:
基于所述初始超高斯分布函数中的参数,计算得到代价函数的自然梯度;
根据所述代价函数的自然梯度,计算得到所述代价函数。
进一步,所述基于所述语音信号在每一频带上对应的解混矩阵,对所述语音信号进行语音分离,包括:
基于所述语音信号在每一频带上对应的解混矩阵,对相应的子频域信号进行分离,得到所述语音信号在每一频带上不同声源的分离信号;
所述语音信号在每一频带上不同声源的分离信号进行频域转时域变换,得到所述语音信号不同声源在时域上的分离信号;
对所述语音信号不同声源在时域上的分离信号按照时间顺序进行整合,得到所述语音信号分离后的结果。
本实施例中,获取待进行语音分离的语音信号,计算所述语音信号在每一频带上对应的解混矩阵,基于所述语音信号在每一频带上对应的解混矩阵,对所述语音信号进行语音分离。通过本发明,可以实现语音分离,进而可以从嘈杂环境下提取出感兴趣的声源。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种语音分离方法,其特征在于,包括:
获取待进行语音分离的语音信号;
计算所述语音信号在每一频带上对应的解混矩阵;
基于所述语音信号在每一频带上对应的解混矩阵,对所述语音信号进行语音分离。
2.根据权利要求1所述的语音分离方法,其特征在于,所述计算所述语音信号在每一频带上对应的解混矩阵,包括:
将所述语音信号从时域转换到频域,得到频域信号;
获取所述频域信号在每一频带上的子频域信号;
根据所述频域信号在每一频带上的子频域信号,计算代价函数;
依据所述代价函数,计算所述语音信号在每一频带上对应的解混矩阵。
3.根据权利要求2所述的语音分离方法,其特征在于,所述根据所述频域信号在每一频带上的子频域信号,计算代价函数,包括:
获取表征所述语音信号在各频带上的分布特性的初始超高斯分布函数;
基于所述频域信号在每一频带上的子频域信号,计算所述初始超高斯分布函数中的参数;
基于所述初始超高斯分布函数中的参数,计算得到所述代价函数。
4.根据权利要求3所述的语音分离方法,其特征在于,所述基于所述初始超高斯分布函数中的参数,计算得到所述代价函数,包括:
基于所述初始超高斯分布函数中的参数,计算得到代价函数的自然梯度;
根据所述代价函数的自然梯度,计算得到所述代价函数。
5.根据权利要求2所述的语音分离方法,其特征在于,所述基于所述语音信号在每一频带上对应的解混矩阵,对所述语音信号进行语音分离,包括:
基于所述语音信号在每一频带上对应的解混矩阵,对相应的子频域信号进行分离,得到所述语音信号在每一频带上不同声源的分离信号;
所述语音信号在每一频带上不同声源的分离信号进行频域转时域变换,得到所述语音信号不同声源在时域上的分离信号;
对所述语音信号不同声源在时域上的分离信号按照时间顺序进行整合,得到所述语音信号分离后的结果。
6.一种语音分离装置,其特征在于,包括:
信号获取模块,用于获取待进行语音分离的语音信号;
矩阵计算模块,用于计算所述语音信号在每一频带上对应的解混矩阵;
语音分离模块,用于基于所述语音信号在每一频带上对应的解混矩阵,对所述语音信号进行语音分离。
7.根据权利要求6所述的语音分离装置,其特征在于,所述矩阵计算模块包括:
信号转换子模块,用于将所述语音信号从时域转换到频域,得到频域信号;
信号获取子模块,用于获取所述频域信号在每一频带上的子频域信号;
函数计算子模块,用于根据所述频域信号在每一频带上的子频域信号,计算代价函数;
矩阵计算子模块,用于依据所述代价函数,计算所述语音信号在每一频带上对应的解混矩阵。
8.根据权利要求7所述的语音分离装置,其特征在于,所述函数计算子模块包括:
函数获取单元,用于获取表征所述语音信号在各频带上的分布特性的初始超高斯分布函数;
参数计算单元,用于基于所述频域信号在每一频带上的子频域信号,计算所述初始超高斯分布函数中的参数;
函数计算单元,用于基于所述初始超高斯分布函数中的参数,计算得到所述代价函数。
9.根据权利要求8所述的语音分离装置,其特征在于,所述函数计算单元用于基于所述初始超高斯分布函数中的参数,计算得到所述代价函数时,具体用于:
基于所述初始超高斯分布函数中的参数,计算得到代价函数的自然梯度,根据所述代价函数的自然梯度,计算得到所述代价函数。
10.根据权利要求6所述的语音分离装置,其特征在于,所述语音分离模块包括:
语音分离子模块,用于基于所述语音信号在每一频带上对应的解混矩阵,对相应的子频域信号进行分离,得到所述语音信号在每一频带上不同声源的分离信号;
语音变换子模块,用于所述语音信号在每一频带上不同声源的分离信号进行频域转时域变换,得到所述语音信号不同声源在时域上的分离信号;
语音整合子模块,用于对所述语音信号不同声源在时域上的分离信号按照时间顺序进行整合,得到所述语音信号分离后的结果。
11.一种电子设备,其特征在于,包括:存储器和处理器;
其中,所述存储器用于存储程序;
处理器调用程序并用于:
获取待进行语音分离的语音信号;
计算所述语音信号在每一频带上对应的解混矩阵;
基于所述语音信号在每一频带上对应的解混矩阵,对所述语音信号进行语音分离。
CN201911127751.9A 2019-11-18 2019-11-18 一种语音分离方法、装置及电子设备 Active CN112820312B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911127751.9A CN112820312B (zh) 2019-11-18 2019-11-18 一种语音分离方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911127751.9A CN112820312B (zh) 2019-11-18 2019-11-18 一种语音分离方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112820312A true CN112820312A (zh) 2021-05-18
CN112820312B CN112820312B (zh) 2023-03-21

Family

ID=75852488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911127751.9A Active CN112820312B (zh) 2019-11-18 2019-11-18 一种语音分离方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112820312B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345465A (zh) * 2021-06-29 2021-09-03 中国农业银行股份有限公司 语音分离方法、装置、设备及计算机可读存储介质
CN113823316A (zh) * 2021-09-26 2021-12-21 南京大学 一种针对位置靠近声源的语音信号分离方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488776A (zh) * 2009-01-21 2009-07-22 中国人民解放军理工大学 统计复用无线通信系统
US20130294611A1 (en) * 2012-05-04 2013-11-07 Sony Computer Entertainment Inc. Source separation by independent component analysis in conjuction with optimization of acoustic echo cancellation
CN109410978A (zh) * 2018-11-06 2019-03-01 北京智能管家科技有限公司 一种语音信号分离方法、装置、电子设备及存储介质
CN110148422A (zh) * 2019-06-11 2019-08-20 南京地平线集成电路有限公司 基于传声器阵列确定声源信息的方法、装置及电子设备
CN110428852A (zh) * 2019-08-09 2019-11-08 南京人工智能高等研究院有限公司 语音分离方法、装置、介质和设备
CN112185411A (zh) * 2019-07-03 2021-01-05 南京人工智能高等研究院有限公司 语音分离方法、装置、介质和电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488776A (zh) * 2009-01-21 2009-07-22 中国人民解放军理工大学 统计复用无线通信系统
US20130294611A1 (en) * 2012-05-04 2013-11-07 Sony Computer Entertainment Inc. Source separation by independent component analysis in conjuction with optimization of acoustic echo cancellation
CN109410978A (zh) * 2018-11-06 2019-03-01 北京智能管家科技有限公司 一种语音信号分离方法、装置、电子设备及存储介质
CN110148422A (zh) * 2019-06-11 2019-08-20 南京地平线集成电路有限公司 基于传声器阵列确定声源信息的方法、装置及电子设备
CN112185411A (zh) * 2019-07-03 2021-01-05 南京人工智能高等研究院有限公司 语音分离方法、装置、介质和电子设备
CN110428852A (zh) * 2019-08-09 2019-11-08 南京人工智能高等研究院有限公司 语音分离方法、装置、介质和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨恒等: "飞机驾驶舱特定声音信号提取", 《机械与电子》 *
王英志等: "一种波束域子带盲源分离新方法", 《计算机应用》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345465A (zh) * 2021-06-29 2021-09-03 中国农业银行股份有限公司 语音分离方法、装置、设备及计算机可读存储介质
CN113823316A (zh) * 2021-09-26 2021-12-21 南京大学 一种针对位置靠近声源的语音信号分离方法
CN113823316B (zh) * 2021-09-26 2023-09-12 南京大学 一种针对位置靠近声源的语音信号分离方法

Also Published As

Publication number Publication date
CN112820312B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN107479030B (zh) 基于分频和改进的广义互相关双耳时延估计方法
Pedersen et al. Two-microphone separation of speech mixtures
CN106710601B (zh) 一种语音信号降噪拾音处理方法和装置及冰箱
CN106782590B (zh) 基于混响环境下麦克风阵列波束形成方法
CN105869651B (zh) 基于噪声混合相干性的双通道波束形成语音增强方法
JP5007442B2 (ja) 発話改善のためにマイク間レベル差を用いるシステム及び方法
Kumatani et al. Microphone array processing for distant speech recognition: Towards real-world deployment
US8880396B1 (en) Spectrum reconstruction for automatic speech recognition
US20140025374A1 (en) Speech enhancement to improve speech intelligibility and automatic speech recognition
WO2008106474A1 (en) Systems, methods, and apparatus for signal separation
CN112820312B (zh) 一种语音分离方法、装置及电子设备
US20200286501A1 (en) Apparatus and a method for signal enhancement
CN115472153A (zh) 语音增强系统、方法、装置及设备
CN111681665A (zh) 一种全向降噪方法、设备及存储介质
Thiergart et al. An informed MMSE filter based on multiple instantaneous direction-of-arrival estimates
WO2022256577A1 (en) A method of speech enhancement and a mobile computing device implementing the method
CN113409804A (zh) 一种基于变张成广义子空间的多通道频域语音增强算法
Al-Ali et al. Enhanced forensic speaker verification using multi-run ICA in the presence of environmental noise and reverberation conditions
Agcaer et al. Optimization of amplitude modulation features for low-resource acoustic scene classification
CN114220453B (zh) 基于频域卷积传递函数的多通道非负矩阵分解方法及系统
CN116129930A (zh) 无参考回路的回声消除装置及方法
Oliinyk et al. Center weighted median filter application to time delay estimation in non-Gaussian noise environment
Schwartz et al. RNN-based step-size estimation for the RLS algorithm with application to acoustic echo cancellation
Baumann et al. Beamforming-based convolutive source separation
Bella et al. Bin-wise combination of time-frequency masking and beamforming for convolutive source separation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant