CN113053365A

CN113053365A - 语音分离方法、装置、设备和存储介质

Info

Publication number: CN113053365A
Application number: CN202110268203.9A
Authority: CN
Inventors: 关海欣; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2021-06-29
Anticipated expiration: 2041-03-12
Also published as: CN113053365B

Abstract

本发明涉及一种语音分离方法、装置、设备和存储介质，方法包括基于预设的多个区域，对采集的混合语音信号进行空间分离，得到每个区域的区域语音信号；基于每个区域的区域语音信号，选取待训练语音片段，并从待训练语音片段中选取指定区域的区域语音信号；提取指定区域的区域语音信号对应的声纹特征作为样本数据，以对待训练分离模型进行训练，得到训练后的分离模型作为目标语音分离模型；利用目标语音分离模型，提取每个待识别语音片段对应的声纹特征；以将每个待识别语音片段按说话人分类，得到每个说话人的语音片段集合，实现了在非可控的环境下准确获取样本数据，并实现了对说话人走动情况下的语音分离，提高了分离结果的准确性。

Description

语音分离方法、装置、设备和存储介质

技术领域

本发明涉及语音分离技术领域，具体涉及一种语音分离方法、装置、设备和存储介质。

背景技术

近年来，随着语音识别技术的飞速发展，多路语音识别场景中对实时语音分离技术提出迫切的技术需求。比如，在一对一教学中需要将学生的语音和老师的语音分离出来。

现有技术中，基于声纹的说话人聚类分割方法在电话中已有广泛应用，但在非可控的环境，比如跨信道、噪声、混响情况下则难以得到较好的效果。而使用麦克风阵列技术，可以通过每个人在空间位置不同进行拆分，同时去除混响和周围噪声，但该方法不能处理走动的问题。

因此，现有技术中的语音分离方法得到的分离结果误差较大。

发明内容

本发明提供一种语音分离方法、装置、设备和存储介质，以解决现有技术中语音分离方法得到的分离结果误差较大的技术问题。

本发明解决上述技术问题的技术方案如下：

一种语音分离方法，包括：

基于预设的多个区域，对采集的混合语音信号进行空间分离，得到每个区域的区域语音信号；

基于每个区域的区域语音信号，选取待训练语音片段，并从所述待训练语音片段中选取指定区域的区域语音信号；

提取指定区域的区域语音信号对应的声纹特征作为样本数据；

利用所述样本数据对待训练分离模型进行训练，得到训练后的分离模型作为目标语音分离模型；

利用所述目标语音分离模型，提取每个待识别语音片段对应的声纹特征；其中，每个待识别语音片段为对采集的混合语音信号进行切分得到的；

根据每个待识别语音片段对应的声纹特征，将每个待识别语音片段按说话人分类，得到每个说话人的语音片段集合。

进一步地，上述所述的语音分离方法中，基于预设的多个区域，对采集的混合语音信号进行空间分离，得到每个区域的语音信息，包括：

分别在每个区域对采集的混合语音信号进行波束增强，得到每个区域的增强语音信号；

对每个区域的增强语音信号进行过滤，得到每个区域的区域语音信号。

进一步地，上述所述的语音分离方法中，对每个区域的增强语音信号进行过滤，得到每个区域的区域语音信号，包括：

基于预设的窗长和窗移，分别计算每个区域对应的窗能量；

将最大窗能量对应的增强语音信号作为对应区域的区域语音信号。

进一步地，上述所述的语音分离方法中，基于每个区域的区域语音信号，选取待训练语音片段指定区域，包括：

基于预设的语音长度范围，确定预设的每个待选择语音片段内每个区域的区域语音信号的有效语音长度所属的语音长度范围；其中，所述有效语音长度为利用语音活性检测进行检测后保留的语音对应的语音长度；预设的每个待选择语音片段为对采集的混合语音信号进行切分得到的；

根据所述有效语音长度所属的语音长度范围，确定每个待选择语音片段的打分值；

将最高打分值对应的待选择语音片段作为所述待训练语音片段。

本发明还提供一种语音分离装置，包括：

空间分离模块，用于基于预设的多个区域，对采集的混合语音信号进行空间分离，得到每个区域的区域语音信号；

选取模块，用于基于每个区域的区域语音信号，选取待训练语音片段，并从所述待训练语音片段中选取指定区域的区域语音信号；

第一提取模块，用于提取指定区域的区域语音信号对应的声纹特征作为样本数据；

训练模块，用于利用所述样本数据对待训练分离模型进行训练，得到训练后的分离模型作为目标语音分离模型；

第二提取模块，用于利用所述目标语音分离模型，提取每个待识别语音片段对应的声纹特征；其中，每个待识别语音片段为对采集的混合语音信号进行切分得到的；

分离模块，用于根据每个待识别语音片段对应的声纹特征，将每个待识别语音片段按说话人分类，得到每个说话人的语音片段集合。

进一步地，上述所述的语音分离装置中，所述空间分离模块，具体用于：

进一步地，上述所述的语音分离装置中，所述空间分离模块，还用于：

基于预设的窗长和窗移，分别计算每个区域对应的窗能量；

进一步地，上述所述的语音分离装置中，所述选取模块，具体用于：

本发明还提供一种语音分离设备，包括：处理器和存储器；

所述处理器用于执行所述存储器中存储的程序，以实现上述任一项所述的语音分离方法。

本发明还提供一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被执行时实现上述任一项所述的语音分离方法。

本发明的有益效果是：

通过设定多个区域，并基于预设的多个区域，对采集的混合语音信号进行空间分离，得到每个区域的区域语音信号后，利用每个区域的区域语音信号，选取待训练语音片段，并从所述待训练语音片段中选取指定区域的区域语音信号后，提取指定区域的区域语音信号对应的声纹特征作为样本数据，实现了在非可控的环境下准确获取样本数据，并在此基础上，利用获取的样本数据对待训练分离模型进行训练，得到目标语音分离模型后，再利用目标语音分离模型，提取每个待识别语音片段对应的声纹特征，根据每个待识别语音片段对应的声纹特征，将每个待识别语音片段按说话人分类，得到每个说话人的语音片段集合，实现了对说话人走动情况下的语音分离。采用本发明的技术方案，能够提高分离结果的准确性。

附图说明

图1为本发明的语音分离方法实施例的流程图；

图2为本发明的语音分离装置实施例的流程图；

图3为本发明提供的语音分离设备的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明的语音分离方法实施例的流程图，如图1所示，本实施例的语音分离方法可以包括如下步骤：

100、基于预设的多个区域，对采集的混合语音信号进行空间分离，得到每个区域的区域语音信号；

在一个具体实现过程中，可以根据实际需求设置多个区域，例如，以一对一教学为例，在一对一教学中，学生和老师通常相对而坐，书桌上放置有麦克阵列等语音采集设备，且书桌靠墙放置，那么可以将屋内空间划分为3个区域，0～60°为第一区域，60～120°为第二区域，120～180°为第三区域。

本实施例中，在利用麦克阵列采集到混合语音信号后，可以利用波束增强技术，分别在每个区域对采集的混合语音信号进行波束增强，得到每个区域的增强语音信号，以便去除干扰方向的语音、噪声、混响等。

本实施例中，可以对得到每个区域的增强语音信号进行过滤，得到每个区域的区域语音信号，以便进一步去除干扰方向的语音、噪声、混响等。具体地，可以基于预设的窗长和窗移，分别计算每个区域对应的窗能量；将最大窗能量对应的增强语音信号作为对应区域的区域语音信号。

在一些实施例中，可以设定平滑窗长winLen(1s)和窗移winSft(0.5s)，每个区域分别计算窗能量Eij(i表示区域，j表示帧)，并保留最大窗能量对应的增强语音信号，其余方位语音信号置零，从而可将残留噪声进一步去除，使得所有通道同一时间段只有一个通道有语音。

例如，第一区域的窗能量分别大于第二区域的窗能量和第三区域的窗能量，那么可以保留第一区域的增强语音信号作为第一区域的区域语音信号，其余方位语音信号置零。依次类推，即可得到每个区域的区域语音信号。

101、基于每个区域的区域语音信号，选取待训练语音片段，并从所述待训练语音片段中选取指定区域的区域语音信号；

在一个具体实现过程中，在执行“基于每个区域的区域语音信号，选取待训练语音片段”时，可以按照如下步骤实现：

(1)基于预设的语音长度范围，确定预设的每个待选择语音片段内每个区域的区域语音信号的有效语音长度所属的语音长度范围；

本实施例中，可以按照预设长度对采集的混合语音信号进行切分得到多个待选择语音片段。其中，该待选择语音片段内尽可能的包括所有说话人的语音信号，且每个说话人的语音信号比较均衡。

本实施例中，可以设定最大有效语音长度Tmax与最小有效语音长度长度Tmin，并利用语音活性检测对每个待选择语音片段的语音信号进行检测，将符合条件的语音信号进行保留，并将保留的语音对应的语音长度作为每个待选择语音片段内的有效语音长度Li，进而可以确定Li所属的语音长度范围。

(2)根据所述有效语音长度所属的语音长度范围，确定每个待选择语音片段的打分值；

在一个具体实现过程中，若Li＞Tmax，则该区域得分Si＝1，Li＜Tmin，该区域得分Si＝0，否则，该区域得分Si＝Li/Tmax。最终每个待选择语音片段的打分值Sseg＝SUM(Ai*Si)，其中，Ai是根据方位可靠性给出，远离的区域混叠度小，临近的区域混叠度高。例如，第一区域和第三区域离的比较远，第一区域A1和第三区域离A3可以为1，而第二区域分别于第一区域和第三区域离临近，第三区域离A2可以为0.5。

(3)将最高打分值对应的待选择语音片段作为所述待训练语音片段。

在一个具体实现过程中，待选择语音片段的打分值越高，说明该待选择语音片段内存在叠加声音信号的可能性就越低，也就是说，最高打分值对应的待选择语音片段中与说话人数目一致的多个区域内存在语音信号，因此，可以挑选出最高打分值对应的待选择语音片段作为所述待训练语音片段。

在选取待训练语音片段后，可以从待训练语音片段中选取指定区域的区域语音信号。例如，针对一对一教学，老师通常在第一区域活动，学生通常在第三区域活动，老师和学生可能短时间内在第二区域活动，第二区域的声音无法分离的，因此，本实施例中，可以选取第一区域的区域语音信号作为老师的语音信号，选取第三区域的区域语音信号作为学生的语音信号，实现了学生的语音和老师的语音在空间的分离。

102、提取指定区域的区域语音信号对应的声纹特征作为样本数据；

在一个具体实现过程中，由于第二区域仍存在叠加的区域语音信号，其无法实现空间分离，最终的分离结果是不准确的，因此，本实施例中，可以提取指定区域的区域语音信号对应的声纹特征作为样本数据。

103、利用所述样本数据对待训练分离模型进行训练，得到训练后的分离模型作为目标语音分离模型；

本实施例中，可以利用提取的样本数据对待训练分离模型进行训练，得到训练后的分离模型作为目标语音分离模型。例如，可以采用GMM、i-vector、x-vector等建模方法训练目标语音分离模型。

104、利用所述目标语音分离模型，提取每个待识别语音片段对应的声纹特征；

105、根据每个待识别语音片段对应的声纹特征，将每个待识别语音片段按说话人分类，得到每个说话人的语音片段集合。

本实施例中，可以将采集的混合语音信号进行切分得到多个待识别语音片段，这样，在得到目标语音分离模型后，可以利用该目标语音分离模型，提取每个待识别语音片段对应的声纹特征，从而可以根据每个待识别语音片段对应的声纹特征，将每个待识别语音片段按说话人分类，得到每个说话人的语音片段集合。

本实施例的语音分离方法，通过设定多个区域，并基于预设的多个区域，对采集的混合语音信号进行空间分离，得到每个区域的区域语音信号后，利用每个区域的区域语音信号，选取待训练语音片段，并从所述待训练语音片段中选取指定区域的区域语音信号后，提取指定区域的区域语音信号对应的声纹特征作为样本数据，实现了在非可控的环境下准确获取样本数据，并在此基础上，利用获取的样本数据对待训练分离模型进行训练，得到目标语音分离模型后，再利用目标语音分离模型，提取每个待识别语音片段对应的声纹特征，根据每个待识别语音片段对应的声纹特征，将每个待识别语音片段按说话人分类，得到每个说话人的语音片段集合，实现了对说话人走动情况下的语音分离。采用本发明的技术方案，能够提高分离结果的准确性。

需要说明的是，本发明实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成的方法。

图2为本发明的语音分离装置实施例的流程图，如图2所示，本实施例的语音分离装置可以包括空间分离模块2520、选取模块21、第一提取模块22、训练模块23、第二提取模块24和分离模块25。

空间分离模块2520，用于基于预设的多个区域，对采集的混合语音信号进行空间分离，得到每个区域的区域语音信号；

在一个具体实现过程中，空间分离模块2520可以分别在每个区域对采集的混合语音信号进行波束增强，得到每个区域的增强语音信号；对每个区域的增强语音信号进行过滤，得到每个区域的区域语音信号。具体地，基于预设的窗长和窗移，分别计算每个区域对应的窗能量；将最大窗能量对应的增强语音信号作为对应区域的区域语音信号。

选取模块21，用于基于每个区域的区域语音信号，选取待训练语音片段，并从所述待训练语音片段中选取指定区域的区域语音信号；

具体地，可以基于预设的语音长度范围，确定预设的每个待选择语音片段内每个区域的区域语音信号的有效语音长度所属的语音长度范围；根据所述有效语音长度所属的语音长度范围，确定每个待选择语音片段的打分值；将最高打分值对应的待选择语音片段作为所述待训练语音片段。其中，所述有效语音长度为利用语音活性检测进行检测后保留的语音对应的语音长度；预设的每个待选择语音片段为对采集的混合语音信号进行切分得到的；

第一提取模块22，用于提取指定区域的区域语音信号对应的声纹特征作为样本数据；

训练模块23，用于利用所述样本数据对待训练分离模型进行训练，得到训练后的分离模型作为目标语音分离模型；

第二提取模块24，用于利用所述目标语音分离模型，提取每个待识别语音片段对应的声纹特征；其中，每个待识别语音片段为对采集的混合语音信号进行切分得到的；

分离模块25，用于根据每个待识别语音片段对应的声纹特征，将每个待识别语音片段按说话人分类，得到每个说话人的语音片段集合。

上述实施例的装置用于实现前述实施例中相应的方法，其具体实现方案可以参见前述实施例记载的方法及方法实施例中的相关说明，并且具有相应的方法实施例的有益效果，在此不再赘述。

图3为本发明提供的语音分离设备的结构示意图，如图3所示，本实施例的通行设备可以包括：处理器1010和存储器1020。本领域技术人员可知的，该设备还可以包括输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本发明还提供一种存储介质，其存储有一个或者多个程序，所述一个或者多个程序可被执行时实现上述实施例的语音分离方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音分离方法，其特征在于，包括：

2.根据权利要求1所述的语音分离方法，其特征在于，基于预设的多个区域，对采集的混合语音信号进行空间分离，得到每个区域的语音信息，包括：

3.根据权利要求2所述的语音分离方法，其特征在于，对每个区域的增强语音信号进行过滤，得到每个区域的区域语音信号，包括：

基于预设的窗长和窗移，分别计算每个区域对应的窗能量；

4.根据权利要求1所述的语音分离方法，其特征在于，基于每个区域的区域语音信号，选取待训练语音片段指定区域，包括：

5.一种语音分离装置，其特征在于，包括：

6.根据权利要求5所述的语音分离装置，其特征在于，所述空间分离模块，具体用于：

7.根据权利要求6所述的语音分离装置，其特征在于，所述空间分离模块，还用于：

基于预设的窗长和窗移，分别计算每个区域对应的窗能量；

8.根据权利要求6所述的语音分离装置，其特征在于，所述选取模块，具体用于：

9.一种语音分离设备，其特征在于，包括：处理器和存储器；

所述处理器用于执行所述存储器中存储的程序，以实现权利要求1-5任一项所述的语音分离方法。

10.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被执行时实现权利要求1-5任一项所述的语音分离方法。