CN112185411A - 语音分离方法、装置、介质和电子设备 - Google Patents

语音分离方法、装置、介质和电子设备 Download PDF

Info

Publication number
CN112185411A
CN112185411A CN201910595347.8A CN201910595347A CN112185411A CN 112185411 A CN112185411 A CN 112185411A CN 201910595347 A CN201910595347 A CN 201910595347A CN 112185411 A CN112185411 A CN 112185411A
Authority
CN
China
Prior art keywords
time
frequency domain
mixed signal
signal
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910595347.8A
Other languages
English (en)
Inventor
顾昭仪
卢晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Artificial Intelligence Advanced Research Institute Co ltd
Original Assignee
Nanjing Artificial Intelligence Advanced Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Artificial Intelligence Advanced Research Institute Co ltd filed Critical Nanjing Artificial Intelligence Advanced Research Institute Co ltd
Priority to CN201910595347.8A priority Critical patent/CN112185411A/zh
Priority to PCT/CN2019/100986 priority patent/WO2021000385A1/zh
Publication of CN112185411A publication Critical patent/CN112185411A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

公开了一种语音分离方法、装置、介质和电子设备。其中的语音分离方法包括:获取待处理的时频域混合信号;根据所述时频域混合信号以及包含有幅度调整因子的高斯混合模型的独立向量分析的代价函数,获得所述时频域混合信号的分离矩阵;根据所述分离矩阵,从所述时频域混合信号中获得每个声源的时频域信号。本公开提供的技术方案有利于提高语音分离技术的可实施性,从而有利于提高语音分离技术的适用范围。

Description

语音分离方法、装置、介质和电子设备
技术领域
本公开涉及语音处理技术,尤其是一种语音分离方法、语音分离装置、存储介质以及电子设备。
背景技术
语音分离技术可以从由多个声源混合信号中提取出初始声源信号,从而实现对期望信号的增强。目前,语音分离技术已被使用于智能家居系统、视频会议系统以及语音识别系统等多种应用中。
基于GMM(Gaussian Mixture Model,高斯混合模型)-IVA(Independent VectorAnalysis,独立向量分析)的语音分离技术,是一种将GMM作为IVA算法中的声源先验模型的语音分离技术。然而,由于GMM中的参数通常需要采用预训练的方式来确定初始值,因此,基于GMM-IVA的语音分离技术不能较好的适用于无法进行预训练的应用场景中。如何提高基于GMM-IVA的语音分离技术的语音分离的适用范围,是一个值得关注的技术问题。
发明内容
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种语音分离方法、语音分离装置、存储介质以及电子设备。
根据本公开实施例的一方面,提供一种语音分离方法,包括:获取待处理的时频域混合信号;根据所述时频域混合信号以及包含有幅度调整因子的高斯混合模型的独立向量分析的代价函数,获得所述时频域混合信号的分离矩阵;根据所述分离矩阵,从所述时频域混合信号中获得每个声源的时频域信号。
根据本公开实施例的另一方面,提供一种语音分离装置,包括:获取混合信号模块,用于获取待处理的时频域混合信号;获取分离矩阵模块,用于根据所述获取混合信号模块获取到的时频域混合信号以及包含有幅度调整因子的高斯混合模型的独立向量分析的代价函数,获得所述时频域混合信号的分离矩阵;分离处理模块,用于根据所述获取分离矩阵模块获得的分离矩阵,从所述时频域混合信号中获得每个声源的时频域信号。
基于本公开上述实施例提供的一种语音分离方法以及装置,通过在高斯混合模型中设置幅度调整因子来适应音频信号的非平稳特点,从而可以在不需要对高斯混合模型中的多个参数进行预训练的情况下,利用待处理的时频域混合信号以及独立向量分析的代价函数,快捷的获得分离矩阵,从而可以利用分离矩阵,快捷的从时频域混合信号中获得每个声源的时频域信号。由此可知,本公开提供的技术方案有利于提高语音分离技术的可实施性,从而有利于提高语音分离技术的适用范围。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1为本公开所适用的一个场景示意图;
图2为本公开所适用的另一个场景示意图;
图3为本公开的语音分离方法一个实施例的流程图;
图4为本公开的获取待处理的时频域混合信号的过程一个实施例的流程图;
图5为本公开的语音分离装置一个实施例的结构示意图
图6为本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或者两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅是一种描述关联对象的关联关系,表示可以存在三种关系,如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开的实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或者专用计算系统环境或配置一起操作。适于与终端设备、计算机系统或者服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施。在分布式云计算环境中,任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
本公开概述
在实现本公开的过程中,发明人发现,高斯混合模型是一种灵活度较高的模型。在为高斯混合模型选取了合适的参数后,在理论上,高斯混合模型可以表示任何概率密度分布,因此,将高斯混合模型作为IVA的声源先验模型,能够较好的实现语音分离。然而,高斯混合模型中存在着大量待估计模型参数,因此,在实现语音分离之前,通常需要利用纯净的声源信号对高斯混合模型进行训练,并利用训练获得的参数值,对高斯混合模型的参数进行初始化,以便于获得较好的语音分离结果。然而,在实际应用场景中,一方面有时难以获取到纯净的声源信号,另一方面,由于计算时间以及计算量限制等因素,往往无法实施预训练的过程。如果采用随机初始化等方式对高斯混合模型中的参数进行赋值,由于音频信号的幅度具有非平稳特性,因此,通常无法获得满意的语音分离效果。如果能够及时对音频信号的统计特性的幅度进行调整,则在采用随机初始化等方式对高斯混合模型中的参数进行赋值的情况下,可以获得较为满意的语音分离效果。
示例性概述
本公开提供的语音分离技术可广泛应用于现场会议、远程会议以及语音交互等任务中。
一个例子如图1所示。设置于讲台100上的麦克风101a和麦克风101b可以为型号完全相同的麦克风。麦克风101a和麦克风101b分别与数据处理设备102连接,且数据处理设备102可以与至少一个音箱连接。图1中仅示意性的示出了音箱103和音箱104,且数据处理设备102与音箱103和音箱104之间的连接可以无线连接。
假定主讲者位于麦克风101a和麦克风101b前进行发言。麦克风101a和麦克风101b可以通过实时采集外部的音频信号,分别获得声源混合信号,该声音混合信号可以为主讲者的声源信号与背景噪音相混合的声源混合信号。数据处理设备102可以利用本公开提供的语音分离技术从当前获得的声源混合信号中分离出主讲者的声源信号。之后,数据处理设备102可以基于分离出的主讲者的声源信号形成输出信号,并通过音箱103和音箱104播放输出信号,从而避免了背景噪音同时被播放出去的现象,有利于提高主讲者的声音清晰度,使参加现场会议的与会人员可以听到主讲者清晰的讲话。
另外,数据处理设备102还可以将基于分离出的主讲者的声源信号形成的输出信号,通过网络实时的传输给异地会场中的设备(如异地会场中的数据处理设备等),由异地会场的设备实时播放其接收到的信号,从而实现远程会议。
另一个例子如图2所示。可随身携带的翻译设备200(例如,智能移动电话等)中可以设置有两个麦克风。翻译设备200用于实现双语翻译。
在用户201与用户202对话过程中,用户201使其翻译设备200处于第一语言(如汉语等)与第二语言(如英语等)之间双向翻译的工作状态。
翻译设备200通过其内部设置的麦克风实时采集外部的音频信号,获得声源混合信号,该声源混合信号可以为当前讲话者的声源信号与背景噪音相混合的声源混合信号。翻译设备200可以利用本公开提供的语音分离技术从当前获得的声源混合信号中分离出当前讲话者的声源信号,从而可以避免背景噪音对后续语音识别处理的影响,有利于提高当前讲话者的声音清晰度。
之后,翻译设备200可以根据分离出的当前讲话者的声源信号,执行语音识别处理操作,翻译设备200可以根据语音识别处理的结果,确定出当前讲话者所使用的语言以及当前讲话者讲话的内容。
最后,翻译设备200可以将当前讲话者讲话的内容,转换为另一种语言,并输出,例如,翻译设备200将转换后的另一种语言通过其显示屏显示出来,再例如,翻译设备200将转换后的另一种语言通过其扬声器播放。
重复上述采集音频信号、分离出声源信号、语音识别处理以及语言转换处理等操作,从而可以帮助用户201和用户202之间实现连续对话。
示例性方法
图3为本公开的语音分离方法一个实施例的结构示意图。如图3所示,该实施例的语音分离方法包括步骤:S300、S301以及S302。下面对各单元分别进行说明。
S300、获取待处理的时频域混合信号。
本公开中的待处理的时频域混合信号可以称为待分离的时频域混合信号。本公开中的时频域混合信息是基于多个初始声源的时频域信号。其中的多个初始声源可以包括:期望的初始声源以及不期望的初始声源等。期望的初始声源可以为会议中的发言者,也可以为对话中的一方或两方讲话者等。不期望的初始声源通常为噪声声源等,也可以为不期望的干扰语音。
本公开中的时频域混合信号可以是指:同时包含了频域信息和时域信息的信号。时频域混合信号通常可以描述出各类随机信号的频域分量随时间的变化。
S301、根据时频域混合信号以及包含有幅度调整因子的高斯混合模型的独立向量分析的代价函数,获得时频域混合信号的分离矩阵。
本公开中的幅度调整因子可以是指:用于对时频域混合信号的方差的幅度进行调整的参数。本公开中的幅度调整因子可以随时间变化而变化,因此,本公开中的幅度调整因子也可以称为时变因子。
本公开中的分离矩阵通常是指用于对时频域混合信号进行声源分离处理的矩阵。本公开中的包含有幅度调整因子的高斯混合模型可以称为时变的高斯混合模型。本公开可以将包含有幅度调整因子的高斯混合模型作为独立向量分析的算法中声源的先验模型。
本公开可以根据时频域混合信号,对包含有幅度调整因子的高斯混合模型的独立向量分析的代价函数进行期望最大化处理,从而可以根据期望最大化处理结果,获得时频域混合信号的分离矩阵。
S302、根据上述分离矩阵,从上述时频域混合信号中获得每个声源的时频域信号。
本公开中的分离矩阵可以包括:多个分离矩阵,且多个分离矩阵各行分别对应不同通道中的不同频点。本公开可以利用多个分离矩阵,获得不同通道的各声源的时频域信号。
本公开通过在高斯混合模型中设置幅度调整因子,来适应音频信号的非平稳特点,从而可以在不需要对高斯混合模型中的多个参数进行预训练的情况下,通过利用时频域混合信号以及独立向量分析的代价函数(例如,利用时频域混合信号,对独立向量分析的代价函数进行期望最大化处理),可以快捷的获得分离矩阵,进而可以利用该分离矩阵,快捷的从时频域混合信号中获得每个声源的时频域信号。因此,本公开提供的技术方案有利于提高语音分离技术的可实施性,从而有利于提高语音分离技术的适用范围。
在一个可选示例中,本公开获取待处理的时频域混合信号的过程可以如图4所示。图4中的流程包括步骤:S400、S401以及S402。
S400、基于多个音频采集装置各自对应的通道获取时域信号,得到多个时域信号。
可选的,本公开中的音频采集装置可以是指:用于采集音频信号的音频采集元件(如麦克风等)。一个音频采集装置对应一个通道。本公开中的时域信号可以称为时域下的信号。时域信号在时域中的波形可以表达出该信号随着时间的变化。
S401、将多个时域信号中的每一个时域信号分别转换为基于时频域的时频点信号,从而得到多个第一时频点信号。
可选的,本公开可以使用离散短时傅里叶变换,将多个时域信号中的每一个时域信号分别转换为基于时频域的时频点信号,本公开将转换后的基于时频域的时频点信号称为第一时频点信号。本公开中的每一个第一时频点信号均对应有相应的通道。
可选的,本公开中的离散短时傅里叶变换所使用的窗函数可以为汉宁窗,汉宁窗窗长可以为128ms(毫秒),时域帧间的交叠率可以为75%。也就是说,在进行离散短时傅里叶变换过程中,前一个待变换的时长为128ms的时域信号与后一个待变换的时长为128ms的时域信号之间,存在时长为96ms的相同时域信号。
S402、将多个第一时频点信号进行空间白化处理,获得空间白化处理后的多个第二时频点信号。即本公开可以联合多个通道的各时频点信号,进行空间白化处理,获得空间白化处理后的各通道的时频点信号。
可选的,本公开可以使用下述公式(1)实现对第一时频点信号的空间白化处理:
Figure BDA0002117478810000071
在上述公式(1)中,
Figure BDA0002117478810000072
表示空间白化处理后的时频点信号,即空间白化处理后的第t帧中的第f频点的时频点信号;xft表示第一时频点信号,即未进行空间白化处理的第t帧中的第f频点的时频点信号;Cf表示第一时频点信号的相关矩阵估计量,且Cf可以使用下述公式(2)计算获得;
Figure BDA0002117478810000081
表示Cf的-0.5次方,Cf的逆矩阵可以表示为
Figure BDA0002117478810000082
Figure BDA0002117478810000083
在上述公式(2)中,T表示进行空间白化处理的时频点信号的总帧数;t表示第t帧;f表示频点;xft表示第t帧中的第f频点的第一时频点信号;
Figure BDA0002117478810000084
表示xft的共轭转置矩阵。
可选的,本公开中的待处理的时频域混合信号可以由多个第二时频点信号形成。例如,本公开可以将各第二时频点信号均作为待处理的时频域混合信号。每一个第二时频点信号对应相应的通道。另外,本公开也可以对多个第二时频点信号进行其他处理,并将经过其他处理后的第二时频点信号,作为待处理的时频域混合信号。
本公开通过对时频点信号进行空间白化处理,并利用空间白化处理后的时频点信号来获得分离矩阵,有利于提高获得分离矩阵的效率。
在一个可选示例中,本公开中的根据时频域混合信号以及包含有幅度调整因子的高斯混合模型的独立向量分析的代价函数,获得时频域混合信号的分离矩阵的过程可以为:首先,确定包含有幅度调整因子的高斯混合模型中的多个参数的初始值。其次,根据时频域混合信号,对具有初始值的高斯混合模型的独立向量分析的代价函数进行期望最大化处理,获得时频域混合信号的分离矩阵。
可选的,本公开中的包含有幅度调整因子的高斯混合模型中的多个参数的初始值,并不是利用训练的方式获得的,而是根据预先设置的信息获得的。也就是说,本公开是利用预设初始值方式,来设置包含有幅度调整因子的高斯混合模型中的多个参数的初始值。这里的参数可以包括但不限于:各声源的高斯混合模型中的各高斯模型的帧间共有频域特征、各声源的高斯混合模型中的各帧的幅度调整因子以及各声源的高斯混合模型中的各高斯模型的先验概率。
在一个可选示例中,本公开中的时变高斯混合模型可以表示为下述公式(3)的形式:
Figure BDA0002117478810000091
在上述公式(3)中,
Figure BDA0002117478810000092
表示第i个声源的第t帧的时变高斯混合模型的概率密度分布;
Figure BDA0002117478810000093
表示第i个声源在第t帧中的所有频点的时频点信号的向量表示形式,
Figure BDA0002117478810000094
可以采用下述公式(5)表示;D[i]表示第i个声源的总的混合状态数,即第i个声源的高斯混合模型所包含的高斯模型的总数量;d[i]指代第i个声源的时变高斯混合模型中的第d[i]个高斯模型;p(d[i])表示第i个声源的时变高斯混合模型中的第d[i]个高斯模型的先验概率,现有技术中的p(d[i])的初始值是通过对高斯模型进行训练而获得的参数值,本公开采用预设初始值方式来设置p(d[i]);f表示频点;
Figure BDA0002117478810000095
表示圆对称复高斯分布,
Figure BDA0002117478810000096
通常可以满足下述公式(6);
Figure BDA0002117478810000097
表示第i声源的第t帧中的第f频点的初始信号,且
Figure BDA0002117478810000098
M表示声源的数量,在本公开中的声源的数量与声道的数量相等的情况下,M也可以表示声道的数量;
Figure BDA0002117478810000099
表示第i个声源的第d[i]个高斯模型的第f个频点的帧间共有频域特征,现有技术中的
Figure BDA00021174788100000910
的初始值是通过对高斯模型进行训练而获得的参数值,本公开采用预设初始值方式来设置
Figure BDA00021174788100000911
Figure BDA00021174788100000912
表示第i个声源的高斯混合模型中的第t帧的幅度调整因子,本公开采用预设初始值方式来设置
Figure BDA0002117478810000101
例如,本公开可以利用预设初始值方式来设置
Figure BDA0002117478810000102
和qt(di=d[i])的初始值;之后,本公开可以利用下述公式(4)计算出
Figure BDA0002117478810000103
的初始值:
Figure BDA0002117478810000104
在上述公式(4)中,di表示由所有声源的状态组成的状态向量中第i个元素;F表示总的频点数量;f表示频点f;d[i]指代第i个初步估计声源的时变高斯混合模型中的第d[i]个高斯模型;qt(di=d[i])表示第t帧下的第i个初步估计声源在第d[i]个高斯模型下的边缘后验概率;
Figure BDA0002117478810000105
表示第i个初步估计声源的第d[i]个高斯模型的第f个频点的帧间共有频域特征;
Figure BDA0002117478810000106
表示分离出的第i个初步估计声源的第t帧中的第f频点的时频域信号(即待后处理的时频域信号)。本公开可以将分离矩阵初始化为单位矩阵,并利用单位矩阵以及公式(14)计算出
Figure BDA0002117478810000107
以便于确定
Figure BDA0002117478810000108
的初始值。
Figure BDA0002117478810000109
在上述公式(5)中,
Figure BDA00021174788100001010
表示第i个声源在第t帧中的第1个频点的时频域信号;
Figure BDA00021174788100001011
表示第i个声源在第t帧中的第2个频点的时频域信号;
Figure BDA00021174788100001012
表示第i个声源在第t帧中的第F个频点的时频域信号;F表示总频点数。第i个声源通常表示实际声源,而不是估计出的声源。
本公开中的
Figure BDA0002117478810000111
Figure BDA0002117478810000112
是决定
Figure BDA0002117478810000113
的精度的因素。现有的高斯混合模型并不存在用于刻画信号时域能量波动的参数,因此,现有的高斯混合模型中的
Figure BDA0002117478810000114
需要在提取信号的频域特征的同时,补偿时域能量变化,从而在不进行训练而采用随机初始化对
Figure BDA0002117478810000115
进行初始值赋值的情况下,较难获得有效的
Figure BDA0002117478810000116
的估计值。由于本公开中的
Figure BDA0002117478810000117
可以有效补偿由于时域能量波动引起的
Figure BDA0002117478810000118
和声源瞬时能量
Figure BDA0002117478810000119
之间的幅值差异,因此,本公开的时变高斯混合模型可以适应语音信号的非平稳特性,从而在采用随机初始化对
Figure BDA00021174788100001110
进行初始值赋值的情况下,可以使
Figure BDA00021174788100001111
获得较为合适的估计值。
Figure BDA00021174788100001112
可选的,本公开中的独立向量分析(IVA)的代价函数可以表示为下述公式(7)的形式:
Figure BDA00021174788100001113
在上述公式(7)中,θ表示概率密度分布模型(本公开为高斯混合模型)的所有参数;W表示概率密度分布模型的所有频点的分离矩阵(等号左边的W);T表示时频点信号的总帧数;t表示第t帧;i表示第i个初步估计声源,本公开中的声源数量和声道数量相同;
Figure BDA0002117478810000121
表示第i个初步估计声源在第t帧中的所有频点的时频域信号的向量,本公开中的
Figure BDA0002117478810000122
也可以认为是分离出的第i个初步估计声源的第t帧中的所有频点的时频域信号,
Figure BDA0002117478810000123
可以采用下述公式(8)表示;
Figure BDA0002117478810000124
表示高斯混合模型针对第i个初步估计声源的第t帧的所有频点的时频域信号所给出的概率密度分布;
Figure BDA0002117478810000125
表示第i个声源在第t帧中的所有频点的时频域信号的向量,
Figure BDA0002117478810000126
可以采用上述公式(5)表示;Wf表示第f频点的分离矩阵;det(Wf)表示第f频点的分离矩阵Wf的行列式。
Figure BDA0002117478810000127
在上述公式(8)中,
Figure BDA0002117478810000128
表示第i个初步估计声源在第t帧中的第1个频点的时频域信号;
Figure BDA0002117478810000129
表示第i个初步估计声源在第t帧中的第2个频点的时频域信号;
Figure BDA00021174788100001210
表示第i个初步估计声源在第t帧中的第F个频点的时频域信号。
可选的,本公开对上述公式(7)所示的IVA的代价函数进行期望最大化处理,可以认为是对下述公式(9)进行最大化的前提下估计高斯混合模型中的各参数,本公开可以根据估计的结果,获得各声源的各频点的分离矩阵。
Figure BDA0002117478810000131
在上述公式(9)中,t表示第t帧;d是一个M维的列向量;M表示声源的数量;f表示频点;p(d)表示第d种混合状态的先验概率,也可以认为是第二时频点信号的高斯混合模型中的第d种高斯模型的先验概率,且p(d)=Πip(d[i]);T表示时频点信号的总帧数;
Figure BDA0002117478810000132
表示圆对称复高斯分布,
Figure BDA0002117478810000133
可以采用上述公式(6)表示;
Figure BDA0002117478810000134
表示初步分离出的第t帧中的第f频点的各声源时频域信号(即需要进行后处理的时频域信号);Φftd可以为一个对角矩阵,且Φftd可以表示为下述公式(10)的形式;Wf表示第f频点的基于酉矩阵形式的分离矩阵。
可选的,在声源的数量为2,一个声源的高斯混合模型的状态数为2的情况下,两个声源的高斯混合模型包括4个高斯模型,由于上述公式(9)中的约束条件为
Figure BDA0002117478810000135
因此,p(d)可以为0.25。高斯混合模型的状态数可以表示一个高斯混合模型中的包含的高斯模型的数量,p(d)中的d可以表示出M个声源的混合状态,d可以为M维的列向量,该列向量可取的数值的数量与声源的数量以及一个声源的高斯混合模型中包含的高斯模型的数量相关。例如,在声源的数量为2,且一个声源的高斯混合模型中包含的高斯模型的数量为2的情况下,上述列向量可取的数值的数量为4,且列向量中的第i个元素表示第i个初步估计声源所处的状态,即d[i]
Figure BDA0002117478810000141
在上述公式(10)中,
Figure BDA0002117478810000142
表示第1个初步估计声源的第d[1]个高斯模型的第f频点下的帧间共有频域特征;
Figure BDA0002117478810000143
表示第2个初步估计声源的第d[2]个高斯模型的第f频点下的帧间共有频域特征;
Figure BDA0002117478810000144
表示第M个初步估计声源的第d[M]个高斯模型的第f频点下的帧间共有频域特征;上述
Figure BDA0002117478810000145
……以及
Figure BDA0002117478810000146
可以表示为
Figure BDA0002117478810000147
的形式;
Figure BDA0002117478810000148
表示第1个初步估计声源的高斯混合模型中的第t帧的幅度调整因子;
Figure BDA0002117478810000149
表示第2个初步估计声源的高斯混合模型中的第t帧的幅度调整因子;
Figure BDA00021174788100001410
表示第M个初步估计声源的高斯混合模型中的第t帧的幅度调整因子;
Figure BDA00021174788100001411
以及
Figure BDA00021174788100001412
可以表示为
Figure BDA00021174788100001413
的形式;M表示声源的数量;第i个对角线元素可以决定第i个初步估计声源的第d[i]个高斯模型下第t帧下的第f个频点的时频点信号的精度。上述
Figure BDA00021174788100001414
……、以及
Figure BDA00021174788100001415
形成各初步估计声源的高斯混合模型中的各高斯模型的帧间共有频域特征。
可选的,本公开可以基于EM(Expectation Maximization,期望最大化)算法的优化步骤对上述公式(8)应用Jensen不等式,从而获得下述公式(11):
Figure BDA0002117478810000151
在上述公式(11)中,t表示第t帧;d表示M个初步估计声源的混合状态,也可以表示第二时频混合信号所满足的高斯混合模型的混合状态;qt(d)可以采用下述公式(12)表示;
Figure BDA0002117478810000152
表示本公开分离出的初步估计声源的第t帧中的第f频点的时频域信号(即需要进行后处理的时频域信号);p(d)表示第d种混合状态的先验概率,即各初步估计声源的高斯混合模型中的各高斯模型的先验概率;
Figure BDA0002117478810000153
表示圆对称复高斯分布;Φftd为一个对角矩阵,且Φftd可以表示为上述公式(10)的形式;本公开可以将上述不等式右边的部分记为
Figure BDA0002117478810000154
Figure BDA0002117478810000155
在上述公式(12)中,d'指代第二时频混合信号所满足的高斯混合模型中的第d’个状态,Φftd'表示包含了各声源在第d’个状态下第t帧第f频点下的精度的矩阵。
本公开通过采用预设初始值方式,设置包含有幅度调整因子的高斯混合模型中的多个参数的初始值,可以避免对高斯混合模型中的多个参数进行预训练的过程,从而一方面可以避免难以获取到用于训练的纯净的声源信号的问题,另一方面,消除了训练对计算时间以及计算量的要求。因此,有利于提高语音分离技术的可实施性。
在一个可选示例中,本公开可以利用随机初始化方式,为各声源的高斯混合模型中的各高斯模型的帧间共有频域特征设置初始值。例如,本公开可以从第一预定数值区间(如[0.999,1.001])中随机选取相应的数值,作为各声源的高斯混合模型中的各高斯模型的帧间共有频域特征的初始值。
在一个可选示例中,本公开可以利用预先设置的均匀概率分布,确定各声源的高斯混合模型中的各高斯模型的先验概率的初始值。另外,本公开可以利用预先设置的均匀概率分布,确定qt的初始值。
本公开通过利用随机初始化方式以及均匀概率分布来设置高斯混合模型中的多个参数的初始值,不仅简化了设置高斯混合模型中的多个参数的初始值的过程,而且,由于幅度调整因子可以适应音频信号的非平稳特点,可以避免音频信号的幅度的非平稳特性对语音分离效果的影响。因此,有利于提高语音分离技术的可实施性,从而有利于提高语音分离技术的适用范围。
在一个可选示例中,本公开中的分离矩阵可以为基于酉矩阵形式的分离矩阵,也就是说,本公开可以利用上述获得的时频域混合信号,对具有初始值的高斯混合模型的独立向量分析的代价函数进行期望最大化处理,获得代价函数中的各频点的基于酉矩阵形式的分离矩阵。
可选的,本公开中的基于酉矩阵形式的分离矩阵可以为2×2的矩阵,该2×2的矩阵中的四个元素分别为:位于矩阵左上角的第一元素,位于矩阵右上角的第二元素,位于矩阵左下角第三元素,且第三元素为第二元素的复共轭的负值,位于矩阵右下角的第四元素,且第四元素为第一元素的复共轭。基于酉矩阵形式的分离矩阵可以表示为下述公式(13)的形式:
Figure BDA0002117478810000161
在上述公式(13)中,Wf表示第f频点的基于酉矩阵形式的分离矩阵;af表示针对第f频点的分离矩阵中的第一元素(位于分离矩阵的左上角);bf表示针对第f频点的分离矩阵中的第二元素(位于分离矩阵的右上角);
Figure BDA0002117478810000162
表示针对第f频点的位于分离矩阵中的左下角的元素;
Figure BDA0002117478810000163
表示针对第f频点的位于分离矩阵中的右下角的元素。
本公开通过采用基于酉矩阵形式的分离矩阵,有利于简化对IVA的代价函数进行期望最大化处理的过程,从而有利于提高获得分离矩阵的效率。
在一个可选示例中,本公开中的根据分离矩阵,从时频域混合信号中获得每个声源的时频域信号的过程可以包括:
首先,将多个第二时频点信号分别与相应频点的分离矩阵相乘。该相乘的结果可以认为是本公开分离出的声源的第t帧中的第f频点的初始时频域信号,本公开可以针对该初始时频域信号进行后处理,从而获得最终分离出的声源的时频域信号。本公开的相乘的过程可以采用下述公式(14)表示:
Figure BDA0002117478810000171
在上述公式(14)中,
Figure BDA0002117478810000172
表示初步分离出的声源(即初步估计声源)的第t帧中的第f频点的时频域信号(即待后处理的时频域信号);Wf表示第f频点的基于酉矩阵形式的分离矩阵,可以为上述公式(13)的形式;
Figure BDA0002117478810000173
表示空间白化处理后的第二时频点信号,即空间白化处理后的第t帧中的第f频点的时频点信号。
其次,根据上述相乘的结果以及针对各频点的空间白化处理构造的对角矩阵,最终获得每个声源的时频域信号,本公开利用该对角矩阵,最终获得每个声源的时频域信号的过程可以称为后处理过程。本公开可以利用下述公式(15)最终获得每个声源的时频域信号:
Figure BDA0002117478810000174
在上述公式(15)中,
Figure BDA0002117478810000175
表示本公开分离出的最终估计声源的第t帧中的第f频点的时频域信号;
Figure BDA0002117478810000176
表示上述公式(14)计算出的相乘的结果,即初步分离出的声源的第t帧中的第f频点的待后处理的时频域信号;
Figure BDA0002117478810000177
表示针对各频点的空间白化处理构造的对角矩阵,具体的,
Figure BDA0002117478810000178
可以表示:根据空间白化处理所使用的时频域混合信号相关矩阵和各频点的分离矩阵,利用最小失真准则而构造出的各频点各自对应的对角矩阵;Wf表示第f频点的基于酉矩阵形式的分离矩阵;
Figure BDA0002117478810000179
表示Cf的0.5次方,Cf可以表示为
Figure BDA00021174788100001710
Figure BDA0002117478810000181
在对第一时频点信号进行空间白化处理的情况下,利用分离矩阵获得声源的时频域信号,通常会具有一个较平的频谱。本公开通过利用对角矩阵,可以使分离出的声源的时频域信号的频域特征得到恢复;另外,本公开通过利用最小失真原则构造对角矩阵,可以减小频域特征失真的现象;因此,本公开有利于提高最终分离获得的声源的时频域信号的准确性。
可选的,本公开可以对最终分离出的声源的时频域信号进行逆短时傅里叶变换,从而获得分离出的声源的时域信号。
本公开在利用随机初始化的方式,设置时变高斯混合模型中的多个参数的初始值,并利用具有初始值的时变高斯混合模型,分离出声源的时频域信号后,可以通过迭代方式,利用分离出的时频域信号,来更新时变高斯混合模型中的多个参数的取值。例如,本公开可以通过对公式(11)求导,来获得更新后的
Figure BDA0002117478810000187
Figure BDA0002117478810000183
更新后的
Figure BDA0002117478810000184
Figure BDA0002117478810000185
可以表示为下述公式(16)和公式(17)的形式,更新后的p(d)可以表示为下述公式(18)的形式,在声道的数量为2,声源的数量为2的情况下,本公开可以采用下述公式(19)来更新分离矩阵。在声道的数量和声源的数量为其他数值的情况下,可以采用其他方式来更新分离矩阵。
Figure BDA0002117478810000186
在上述公式(16)中,di表示由所有声源的状态组成的状态向量中第i个元素;F表示总的频点数量;f表示频点f;d[i]指代第i个初步估计声源的时变高斯混合模型中的第d[i]个高斯模型;qt(di=d[i])可以采用下述公式(21)表示;
Figure BDA0002117478810000191
表示第i个初步估计声源的第d[i]个高斯模型的第f个频点的帧间共有频域特征;
Figure BDA0002117478810000192
表示分离出的第i个初步估计声源的第t帧中的第f频点的时频域信号(即待后处理的时频域信号)。
Figure BDA0002117478810000193
在上述公式(17)中,di表示由所有声源的状态组成的状态向量中第i个元素;d[i]指代第i个初步估计声源的时变高斯混合模型中的第d[i]个高斯模型;qt(di=d[i])可以采用下述公式(21)表示;
Figure BDA0002117478810000194
可以为上述公式(16)的形式;
Figure BDA0002117478810000195
表示分离出的第i个初步估计声源的第t帧中的第f频点的时频域信号(即待后处理时频域信号)。
Figure BDA0002117478810000196
在上述公式(18)中,T表示时频域信号的总帧数;t表示时频域信号中的第t帧;qt(d)可以采用上述公式(12)的形式。
Mfαf=λfαf 公式(19)
在上述公式(19)中,Mf可以采用下述公式(20)表示;αf表示Mf的特征向量;λf表示Mf的特征值。其中对应最小特征值的特征向量中的第一个元素和第二个元素是基于酉矩阵形式的分离矩阵中的
Figure BDA0002117478810000201
Figure BDA0002117478810000202
Figure BDA0002117478810000203
在上述公式(20)中,t表示时频域信号中的第t帧;d指代M个初步估计声源的混合状态,也可以指代第二时频混合信号所满足的高斯混合模型的第d种混合状态;qt(d)可以采用上述公式(12)的形式;
Figure BDA0002117478810000204
第1个初步估计声源的第d[1]个高斯模型的第f频点下的帧间共有频域特征;
Figure BDA0002117478810000205
表示第1个初步估计声源的高斯混合模型中的第t帧的幅度调整因子;
Figure BDA0002117478810000206
表示第2个初步估计声源的第d[2]个高斯模型的第f频点下的帧间共有频域特征;
Figure BDA0002117478810000207
表示第2个初步估计声源的高斯混合模型中的第t帧的幅度调整因子;
Figure BDA0002117478810000208
表示空间白化处理后的第二时频点信号,即空间白化处理后的第t帧中的第f频点的时频点信号;
Figure BDA0002117478810000209
表示
Figure BDA00021174788100002010
的共轭转置向量。
qt(di=d[i])=∑d[j]j≠i{qt(di=d[i],dj=d[j])} 公式(21)
在上述公式(21)中,d[i]表示第i个初步估计声源的时变高斯混合模型中的第d[i]个高斯模型;d[j]表示第j个初步估计声源的时变高斯混合模型中的第d[j]个高斯模型。
在每一次迭代更新参数的过程中,本公开均可以利用上述获得的各参数以及分离出的各声源的时频域信号,计算代价函数。如果相邻两次迭代过程所计算出的代价函数的变化率达到预定收敛标准(如小于10-6),则可以停止迭代更新参数的过程,即使用最后一次迭代更新获得的各声源的高斯混合模型中的各高斯模型的帧间共有频域特征、各声源的高斯混合模型中的各帧的幅度调整因子以及高斯混合模型中的各高斯模型的先验概率等参数,来获得分离矩阵。如果相邻两次迭代过程所计算出的代价函数的变化率达不到预定收敛标准,则应继续执行迭代更新参数的过程。
示例性装置
图5为本公开语音分离装置一个实施例的结构示意图。该实施例的装置可用于实现本公开上述各方法实施例。如图5所示,该实施例的装置包括:获取混合信号模块500、获取分离矩阵模块501以及分离处理模块502。
获取混合信号模块500用于获取待处理的时频域混合信号。
可选的,获取混合信号模块500可以基于多个音频采集装置各自对应的通道获取时域信号,得到多个时域信号,之后,获取混合信号模块500将多个时域信号中的每一个时域信号转换为基于时频域的时频点信号,得到多个第一时频点信号,然后,获取混合信号模块500将多个第一时频点信号进行空间白化处理,获得空间白化处理后的多个第二时频点信号。其中,待处理的时频域混合信号由多个第二时频点信号形成。
获取分离矩阵模块501用于根据获取混合信号模块500获取到的时频域混合信号以及包含有幅度调整因子的高斯混合模型的独立向量分析的代价函数,获得时频域混合信号的分离矩阵。
可选的,获取分离矩阵模块501可以包括:初始化子模块和获取分离矩阵子模块。其中的初始化子模块用于确定包含有幅度调整因子的高斯混合模型中的多个参数的初始值。例如,初始化子模块可以为各声源的高斯混合模型中的各高斯模型的帧间共有频域特征以及各声源的高斯混合模型中的各帧的幅度调整因子分别设置初始值。再例如,初始化子模块可以利用预先设置的均匀概率分布,确定各声源的高斯混合模型中的各高斯模型的先验概率的初始值。其中的获取分离矩阵子模块用于根据获取混合信号模块500获取的时频域混合信号,对具有初始值的高斯混合模型的独立向量分析的代价函数进行期望最大化处理,获得时频域混合信号的分离矩阵。例如,获取分离矩阵子模块可以根据时频域混合信号,对具有初始值的高斯混合模型的独立向量分析的代价函数进行期望最大化处理,获得代价函数中的各频点的基于酉矩阵形式的分离矩阵。
分离处理模块502用于根据获取分离矩阵模块501获得的分离矩阵,从时频域混合信号中获得每个声源的时频域信号。
可选的,分离处理模块502可以将多个第二时频点信号分别与相应频点的分离矩阵相乘,并根据相乘的结果以及针对各频点的空间白化处理构造的对角矩阵,获得每个声源的时频域信号。分离处理模块502可以根据空间白化处理所使用的时频域混合信号相关矩阵和所述各频点的分离矩阵,利用最小失真准则构造各频点各自对应的对角矩阵。
示例性电子设备
下面参考图6来描述根据本公开实施例的电子设备。图6示出了根据本公开实施例的电子设备的框图。如图6所示,电子设备61包括一个或多个处理器611和存储器612。
处理器611可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备61中的其他组件以执行期望的功能。
存储器612可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器,例如,可以包括:随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器,例如,可以包括:只读存储器(ROM)、硬盘以及闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器611可以运行所述程序指令,以实现上文所述的本公开的各个实施例的语音分离方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备61还可以包括:输入装置613以及输出装置614等,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外,该输入设备613还可以包括例如键盘、鼠标等等。该输出装置614可以向外部输出各种信息。该输出设备614可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图6中仅示出了该电子设备61中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备61还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音分离方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音分离方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括:具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势以及效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备以及系统。诸如“包括”、“包含、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述,以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言,是非常显而易见的,并且在此定义的一般原理可以应用于其他方面,而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (11)

1.一种语音分离方法,包括:
获取待处理的时频域混合信号;
根据所述时频域混合信号以及包含有幅度调整因子的高斯混合模型的独立向量分析的代价函数,获得所述时频域混合信号的分离矩阵;
根据所述分离矩阵,从所述时频域混合信号中获得每个声源的时频域信号。
2.根据权利要求1所述的语音分离方法,其中,所述获取待处理的时频域混合信号,包括:
基于多个音频采集装置各自对应的通道获取时域信号,得到多个时域信号;
将所述多个时域信号中的每一个时域信号转换为基于时频域的时频点信号,得到多个第一时频点信号;
将所述多个第一时频点信号进行空间白化处理,获得空间白化处理后的多个第二时频点信号;
其中,所述待处理的时频域混合信号由所述多个第二时频点信号形成。
3.根据权利要求1或2所述的语音分离方法,其中,所述根据所述时频域混合信号以及包含有幅度调整因子的高斯混合模型的独立向量分析的代价函数,获得所述时频域混合信号的分离矩阵,包括:
确定包含有幅度调整因子的高斯混合模型中的多个参数的初始值;
根据所述时频域混合信号,对具有初始值的高斯混合模型的独立向量分析的代价函数进行期望最大化处理,获得所述时频域混合信号的分离矩阵。
4.根据权利要求3所述的语音分离方法,其中,所述确定包含有幅度调整因子的高斯混合模型中的多个参数的初始值,包括:
为各声源的高斯混合模型中的各高斯模型的帧间共有频域特征以及各声源的高斯混合模型中的各帧的幅度调整因子分别设置初始值;
利用预先设置的均匀概率分布,确定各声源的高斯混合模型中的各高斯模型的先验概率的初始值。
5.根据权利要求3或4所述的语音分离方法,其中,所述根据所述时频域混合信号以及包含有幅度调整因子的高斯混合模型的独立向量分析的代价函数,获得所述时频域混合信号的分离矩阵,包括:
根据所述时频域混合信号,对具有初始值的高斯混合模型的独立向量分析的代价函数进行期望最大化处理,获得所述代价函数中的各频点的基于酉矩阵形式的分离矩阵。
6.根据权利要求2至5中任一项所述的语音分离方法,其中,所述根据所述分离矩阵,从所述时频域混合信号中获得每个声源的时频域信号,包括:
将所述多个第二时频点信号分别与相应频点的分离矩阵相乘;
根据所述相乘的结果以及针对各频点的空间白化处理构造的对角矩阵,获得每个声源的时频域信号。
7.根据权利要求6所述的语音分离方法,其中,所述根据所述分离矩阵,从所述时频域混合信号中获得每个声源的时频域信号,还包括:
根据所述空间白化处理所使用的时频域混合信号相关矩阵和所述各频点的分离矩阵,利用最小失真准则构造各频点各自对应的对角矩阵。
8.一种语音分离装置,其中,所述装置包括:
获取混合信号模块,用于获取待处理的时频域混合信号;
获取分离矩阵模块,用于根据所述获取混合信号模块获取到的时频域混合信号以及包含有幅度调整因子的高斯混合模型的独立向量分析的代价函数,获得所述时频域混合信号的分离矩阵;
分离处理模块,用于根据所述获取分离矩阵模块获得的分离矩阵,从所述时频域混合信号中获得每个声源的时频域信号。
9.根据权利要求8所述的语音分离装置,其中,所述获取分离矩阵模块包括:
初始化子模块,用于确定包含有幅度调整因子的高斯混合模型中的多个参数的初始值;
获取分离矩阵子模块,用于根据所述获取混合信号模块获取的时频域混合信号,对具有初始值的高斯混合模型的独立向量分析的代价函数进行期望最大化处理,获得所述时频域混合信号的分离矩阵。
10.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-7中任一项所述的方法。
11.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-7中任一项所述的方法。
CN201910595347.8A 2019-07-03 2019-07-03 语音分离方法、装置、介质和电子设备 Pending CN112185411A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910595347.8A CN112185411A (zh) 2019-07-03 2019-07-03 语音分离方法、装置、介质和电子设备
PCT/CN2019/100986 WO2021000385A1 (zh) 2019-07-03 2019-08-16 语音分离方法、装置、介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910595347.8A CN112185411A (zh) 2019-07-03 2019-07-03 语音分离方法、装置、介质和电子设备

Publications (1)

Publication Number Publication Date
CN112185411A true CN112185411A (zh) 2021-01-05

Family

ID=73915523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910595347.8A Pending CN112185411A (zh) 2019-07-03 2019-07-03 语音分离方法、装置、介质和电子设备

Country Status (2)

Country Link
CN (1) CN112185411A (zh)
WO (1) WO2021000385A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112820312A (zh) * 2019-11-18 2021-05-18 北京声智科技有限公司 一种语音分离方法、装置及电子设备
CN113030863A (zh) * 2021-03-02 2021-06-25 珠海格力电器股份有限公司 故障声源检测方法和系统
CN113345465A (zh) * 2021-06-29 2021-09-03 中国农业银行股份有限公司 语音分离方法、装置、设备及计算机可读存储介质
CN113823316A (zh) * 2021-09-26 2021-12-21 南京大学 一种针对位置靠近声源的语音信号分离方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
US20140355776A1 (en) * 2011-12-16 2014-12-04 Industry-University Cooperative Foundation Sogang University Interested audio source cancellation method and voice recognition method and voice recognition apparatus thereof
US20160099011A1 (en) * 2013-05-24 2016-04-07 Children's Hospital Medical Center System and Method for Assessing Suicide Risk of a Patient Based Upon Non-Verbal Characteristics of Voice Data
CN105989852A (zh) * 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源
US20170337924A1 (en) * 2016-05-19 2017-11-23 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
CN107919133A (zh) * 2016-10-09 2018-04-17 赛谛听股份有限公司 针对目标对象的语音增强系统及语音增强方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108766459B (zh) * 2018-06-13 2020-07-17 北京联合大学 一种多人语音混合中目标说话人估计方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
US20140355776A1 (en) * 2011-12-16 2014-12-04 Industry-University Cooperative Foundation Sogang University Interested audio source cancellation method and voice recognition method and voice recognition apparatus thereof
US20160099011A1 (en) * 2013-05-24 2016-04-07 Children's Hospital Medical Center System and Method for Assessing Suicide Risk of a Patient Based Upon Non-Verbal Characteristics of Voice Data
CN105989852A (zh) * 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源
CN107251138A (zh) * 2015-02-16 2017-10-13 杜比实验室特许公司 分离音频源
US20170337924A1 (en) * 2016-05-19 2017-11-23 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
CN107919133A (zh) * 2016-10-09 2018-04-17 赛谛听股份有限公司 针对目标对象的语音增强系统及语音增强方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIUCANG HAO;INTAE LEE;TE-WON LEE;SEJNOWSKI, TERRENCE J.: "Independent Vector Analysis for Source Separation Using a Mixture of Gaussians Prior.", 神经计算, vol. 22, no. 6, 31 December 2010 (2010-12-31), pages 1646 - 1673, XP055771675, DOI: 10.1162/neco.2010.11-08-906 *
陈锴;卢晶;徐柏龄;: "基于话者状态检测的自适应语音分离方法的研究", 声学学报(中文版), no. 03, 10 May 2006 (2006-05-10), pages 211 - 216 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112820312A (zh) * 2019-11-18 2021-05-18 北京声智科技有限公司 一种语音分离方法、装置及电子设备
CN112820312B (zh) * 2019-11-18 2023-03-21 北京声智科技有限公司 一种语音分离方法、装置及电子设备
CN113030863A (zh) * 2021-03-02 2021-06-25 珠海格力电器股份有限公司 故障声源检测方法和系统
CN113030863B (zh) * 2021-03-02 2023-08-25 珠海格力电器股份有限公司 故障声源检测方法和系统
CN113345465A (zh) * 2021-06-29 2021-09-03 中国农业银行股份有限公司 语音分离方法、装置、设备及计算机可读存储介质
CN113823316A (zh) * 2021-09-26 2021-12-21 南京大学 一种针对位置靠近声源的语音信号分离方法
CN113823316B (zh) * 2021-09-26 2023-09-12 南京大学 一种针对位置靠近声源的语音信号分离方法

Also Published As

Publication number Publication date
WO2021000385A1 (zh) 2021-01-07

Similar Documents

Publication Publication Date Title
CN112185411A (zh) 语音分离方法、装置、介质和电子设备
US11894014B2 (en) Audio-visual speech separation
US9741360B1 (en) Speech enhancement for target speakers
EP3776535B1 (en) Multi-microphone speech separation
Zhao et al. Monaural speech dereverberation using temporal convolutional networks with self attention
CN110428852B (zh) 语音分离方法、装置、介质和设备
US8880395B2 (en) Source separation by independent component analysis in conjunction with source direction information
US8886526B2 (en) Source separation using independent component analysis with mixed multi-variate probability density function
US20130294611A1 (en) Source separation by independent component analysis in conjuction with optimization of acoustic echo cancellation
Jensen et al. Noise reduction with optimal variable span linear filters
CN111489760A (zh) 语音信号去混响处理方法、装置、计算机设备和存储介质
Tavakoli et al. A framework for speech enhancement with ad hoc microphone arrays
WO2016130885A1 (en) Audio source separation
EP2437517B1 (en) Sound scene manipulation
CN112750444A (zh) 混音方法、装置及电子设备
Nesta et al. Robust Automatic Speech Recognition through On-line Semi Blind Signal Extraction
Luo et al. Implicit filter-and-sum network for multi-channel speech separation
Li et al. FastMVAE2: On improving and accelerating the fast variational autoencoder-based source separation algorithm for determined mixtures
WO2021007902A1 (zh) 语音滤波方法、装置、介质和电子设备
Bando et al. Weakly-Supervised Neural Full-Rank Spatial Covariance Analysis for a Front-End System of Distant Speech Recognition.
Mošner et al. Multi-channel speaker verification with conv-tasnet based beamformer
CN113689870A (zh) 一种多通道语音增强方法及其装置、终端、可读存储介质
CN114373473A (zh) 通过低延迟深度学习实现同时降噪和去混响
Jan et al. A blind source separation approach based on IVA for convolutive speech mixtures
Ideli Audio-visual speech processing using deep learning techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination