CN113496698B

CN113496698B - 训练数据的筛选方法、装置、设备和存储介质

Info

Publication number: CN113496698B
Application number: CN202110927090.9A
Authority: CN
Inventors: 关海欣; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2024-01-23
Anticipated expiration: 2041-08-12
Also published as: CN113496698A

Abstract

本发明涉及一种训练数据的筛选方法、装置、设备和存储介质，方法包括：将获取的待筛选数据输入预先构建的语音活动检测模型进行检测，得到待筛选数据的语音帧和噪音帧；根据获取的语音帧级平均能量和噪音帧级平均能量，确定待筛选数据的信噪比；若信噪比大于第一预设阈值，对待筛选数据进行混响抑制，得到抑制数据；根据语音帧级平均能量和获取的抑制数据的平均能量，确定混响分量的平均能量；根据混响分量的平均能量和语音帧级平均能量，确定混响占比；若混响占比小于第二预设阈值，保留待筛选数据，实现了自动筛选训练数据，提高了训练数据的筛选效率。

Description

训练数据的筛选方法、装置、设备和存储介质

技术领域

本发明涉及神经网络技术领域，具体涉及一种训练数据的筛选方法、装置、设备和存储介质。

背景技术

在训练语音识别模型中，为了训练的效果，往往需要海量的安静、低混响等优质训练数据。而海量的优质训练数据往往难以获取，现有方案中，为了获取大量优质训练数据，通常基于简单的字符规则，通过简单粗糙的匹配完成，或者是先通过简单的规则匹配后，再使用人工检查的方式进行筛选，使得训练数据的筛选效率较低。

发明内容

本发明提供一种训练数据的筛选方法、装置、设备和存储介质，以解决现有技术中训练数据的筛选效率较低的技术问题。

本发明解决上述技术问题的技术方案如下：

一种训练数据的筛选方法，包括：

将获取的待筛选数据输入预先构建的语音活动检测模型进行检测，得到待筛选数据的语音帧和噪音帧；

获取待筛选数据的语音帧级平均能量和噪音帧级平均能量；

根据所述语音帧级平均能量和所述噪音帧级平均能量，确定所述待筛选数据的信噪比；

若所述信噪比大于第一预设阈值，对所述待筛选数据进行混响抑制，得到抑制数据；

根据所述语音帧级平均能量和获取的所述抑制数据的平均能量，确定混响分量的平均能量；

根据所述混响分量的平均能量和所述语音帧级平均能量，确定混响占比；

若所述混响占比小于第二预设阈值，保留所述待筛选数据。

进一步地，上述所述的训练数据的筛选方法中，根据所述语音帧级平均能量和获取的所述抑制数据的平均能量，确定混响分量的平均能量，包括：

将所述语音帧级平均能量与所述抑制数据的平均能量的差值作为所述混响分量的平均能量。

进一步地，上述所述的训练数据的筛选方法中，所述语音活动检测模型的构建过程包括：

以标定的需求语音数据作为基础数据，构造噪音数据；

将所述噪音数据和所述需求语音数据分别输入待训练模型进行迭代训练，直到满足迭代停止条件，生成所述语音活动检测模型。

进一步地，上述所述的训练数据的筛选方法中，以标定的需求语音数据作为基础数据，构造噪音数据，包括：

基于预设的噪音数据构造计算式，利用所述需求语音数据和从开源数据库中获取的加噪信号，构造所述噪音数据。

进一步地，上述所述的训练数据的筛选方法中，所述加噪信号包括冲激响应信号和噪音信号；

所述噪音数据构造计算式为：

其中，所述x(n)表示所述噪音数据，所述s(n)表示所述需求语音数据，h(n)表示所述冲激响应信号，noise(n)表示所述噪音信号，表示所述信噪比控制参数。

进一步地，上述所述的训练数据的筛选方法，还包括：

若所述信噪比小于或等于第一预设阈值，或者，所述混响占比大于或等于第二预设阈值，舍去所述待选数据。

本发明还提供了一种训练数据的筛选装置，包括：

输入模块，用于将获取的待筛选数据输入预先构建的语音活动检测模型进行检测，得到待筛选数据的语音帧和噪音帧；

获取模块，用于获取待筛选数据的语音帧级平均能量和噪音帧级平均能量；

第一确定模块，用于根据所述语音帧级平均能量和所述噪音帧级平均能量，确定所述待筛选数据的信噪比；

混响抑制模块，用于若所述信噪比大于第一预设阈值，对所述待筛选数据进行混响抑制，得到抑制数据；

第二确定模块，用于根据所述语音帧级平均能量和获取的所述抑制数据的平均能量，确定混响分量的平均能量；根据所述混响分量的平均能量和所述语音帧级平均能量，确定混响占比；

筛选模块，用于若所述混响占比小于第二预设阈值，保留所述待筛选数据。

进一步地，上述所述的训练数据的筛选装置中，所述语音活动检测模型的构建过程包括：

以标定的需求语音数据作为基础数据，构造噪音数据；

将所述噪音数据输入待训练模型进行迭代训练，直到满足迭代停止条件，生成所述语音活动检测模型。

本发明还提供了一种训练数据的筛选设备，包括：处理器和存储器；

所述处理器用于执行所述存储器中存储的训练数据的筛选的程序，以实现上述任一项所述的训练数据的筛选方法。

本发明还提供了一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被执行时实现上述任一项所述的训练数据的筛选方法。

本发明的有益效果是：

通过将获取的待筛选数据输入预先构建的语音活动检测模型进行检测，得到待筛选数据的语音帧和噪音帧；根据获取的语音帧级平均能量和获取的噪音帧级平均能量，确定所述待筛选数据的信噪比；若所述信噪比大于第一预设阈值，对所述待筛选数据进行混响抑制，得到抑制数据；根据所述语音帧级平均能量和获取的所述抑制数据的平均能量，确定混响分量的平均能量；根据所述混响分量的平均能量和所述语音帧级平均能量，确定混响占比；若所述混响占比小于第二预设阈值，保留所述待筛选数据，实现了自动筛选训练数据，提高了训练数据的筛选效率。

附图说明

图1为本发明的训练数据的筛选方法实施例的流程图；

图2为本发明的训练数据的筛选装置实施例的结构示意图；

图3为本发明的训练数据的筛选设备的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明的训练数据的筛选方法实施例的流程图，如图1所示，本实施例的训练数据的筛选方法具体可以包括如下步骤：

100、将获取的待筛选数据输入预先构建的语音活动检测模型进行检测，得到待筛选数据的语音帧和噪音帧；

在一个具体实现过程中，可以按照如下步骤构造语音活动检测模型。

(1)以标定的需求语音数据作为基础数据，构造噪音数据。

具体地，可以基于预设的噪音数据构造计算式，利用所述需求语音数据和从开源数据库中获取的加噪信号，构造所述噪音数据。在一些实施例中，所述加噪信号可以包括冲激响应信号和噪音信号。

所述噪音数据构造计算式为计算式(1)：

(2)将所述噪音数据输入待训练模型进行迭代训练，直到满足迭代停止条件，生成所述语音活动检测模型。

在一个具体实现过程中，在构造噪音数据后，可以将噪音数据和标定的需求语音数据进行混合得到混合数据，这样，只需收集相对量较小的需求语音数据即可得到大量的混合数据，然后将混合数据输入待训练模型进行迭代训练，直到满足迭代停止条件，生成所述语音活动检测模型。

在一个具体实现过程中，可以对每帧训练样本提取80维特征，然后通过4层卷积神经网络，然后连接长短期记忆网络及NN网络，其中，NN输出为1维，使用sigmoid函数输出0～1的概率。当使用测试样本进行验证时，验证结果满足迭代停止条件，生成所述语音活动检测模型。

在一个具体实现过程中，将获取的待筛选数据输入预先构建的语音活动检测模型进行检测，将待筛选数据中标定概率为0.5≤a≤1的语音部分作为语音帧，将标定为0≤a＜0.5的语音部分作为噪音帧。

101、获取待筛选数据的语音帧级平均能量和噪音帧级平均能量；

在一个具体实现过程中，可以根据计算式(2)获取语音帧级平均能量。

其中，Es表示语音帧级平均能量，T1s表示语音帧起始点，T2e表示语音帧终点，x(n1)表示语音帧。

在一个具体实现过程中，可以根据计算式(3)获取噪音帧级平均能量：

其中，En表示噪音帧级平均能量，T2s表示噪音帧起始点，T2e表示噪音帧终点，x(n2)表示噪音帧。

102、根据所述语音帧级平均能量和所述噪音帧级平均能量，确定所述待筛选数据的信噪比；

在一个具体实现过程中，可以通过计算式(4)定所述待筛选数据的信噪比。

snr＝10log10(Es/En) (4)

其中，snr表示信噪比。

103、若所述信噪比大于第一预设阈值，对所述待筛选数据进行混响抑制，得到抑制数据；

在一个具体实现过程中，若所述信噪比大于第一预设阈值，对所述待筛选数据进行混响抑制，得到抑制数据，例如，可以利用晚期混响抑制算法对所述待筛选数据进行混响抑制，得到抑制数据。若所述信噪比小于或等于第一预设阈值，舍去所述待筛选数据。其中，第一预设阈值可以为20。

104、根据所述语音帧级平均能量和获取的所述抑制数据的平均能量，确定混响分量的平均能量；

在一个具体实现过程中，所述抑制数据的平均能量可以参照所述语音帧级平均能量和获取的所述抑制数据的平均能量的方式获取，在此不再赘述。在一些实施例中，可以将所述语音帧级平均能量与所述抑制数据的平均能量的差值作为所述混响分量的平均能量。

105、根据所述混响分量的平均能量和所述语音帧级平均能量，确定混响占比；

在一个具体实现过程中，可以计算所述混响分量的平均能量与所述语音帧级平均能量的比值作为混响占比。

106、若所述混响占比小于第二预设阈值，保留所述待筛选数据。

在一个具体实现过程中，若所述混响占比小于第二预设阈值，保留所述待筛选数据。若所述混响占比大于或等于第二预设阈值，舍去所述待筛选数据。其中，第二预设阈值可以为10。

本实施例的训练数据的筛选方法，通过将获取的待筛选数据输入预先构建的语音活动检测模型进行检测，得到待筛选数据的语音帧和噪音帧；根据获取的语音帧级平均能量和获取的噪音帧级平均能量，确定所述待筛选数据的信噪比；若所述信噪比大于第一预设阈值，对所述待筛选数据进行混响抑制，得到抑制数据；根据所述语音帧级平均能量和获取的所述抑制数据的平均能量，确定混响分量的平均能量；根据所述混响分量的平均能量和所述语音帧级平均能量，确定混响占比；若所述混响占比小于第二预设阈值，保留所述待筛选数据，实现了自动筛选训练数据，提高了训练数据的筛选效率。

需要说明的是，本发明实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成的方法。

图2为本发明的训练数据的筛选装置实施例的结构示意图，如图2所示，本实施例的训练数据的筛选装置可以包括输入模块、获取模块、第一确定模块、混响抑制模块、第二确定模块和筛选模块。

在一个具体实现过程中，可以按照如下步骤构语音活动检测模型。

(1)以标定的需求语音数据作为基础数据，构造噪音数据。

所述噪音数据构造计算式为计算式(1)：

在一些实施例中，可以将所述语音帧级平均能量与所述抑制数据的平均能量的差值作为所述混响分量的平均能量，并计算所述混响分量的平均能量与所述语音帧级平均能量的比值作为混响占比。

本实施例的训练数据的筛选装置，通过将获取的待筛选数据输入预先构建的语音活动检测模型进行检测，得到待筛选数据的语音帧和噪音帧；根据获取的语音帧级平均能量和获取的噪音帧级平均能量，确定所述待筛选数据的信噪比；若所述信噪比大于第一预设阈值，对所述待筛选数据进行混响抑制，得到抑制数据；根据所述语音帧级平均能量和获取的所述抑制数据的平均能量，确定混响分量的平均能量；根据所述混响分量的平均能量和所述语音帧级平均能量，确定混响占比；若所述混响占比小于第二预设阈值，保留所述待筛选数据，实现了自动筛选训练数据，提高了训练数据的筛选效率。

上述实施例的装置用于实现前述实施例中相应的方法，其具体实现方案可以参见前述实施例记载的方法及方法实施例中的相关说明，并且具有相应的方法实施例的有益效果，在此不再赘述。

图3为本发明的训练数据的筛选设备的结构示意图，如图3所示，本实施例的通行设备可以包括：处理器1010和存储器1020。本领域技术人员可知的，该设备还可以包括输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块32，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本发明还提供一种存储介质，其存储有一个或者多个程序，所述一个或者多个程序可被执行时实现上述实施例的训练数据的筛选方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种训练数据的筛选方法，其特征在于，包括：

获取待筛选数据的语音帧级平均能量和噪音帧级平均能量；

若所述混响占比小于第二预设阈值，保留所述待筛选数据。

2.根据权利要求1所述的训练数据的筛选方法，其特征在于，根据所述语音帧级平均能量和获取的所述抑制数据的平均能量，确定混响分量的平均能量，包括：

3.根据权利要求1所述的训练数据的筛选方法，其特征在于，所述语音活动检测模型的构建过程包括：

以标定的需求语音数据作为基础数据，构造噪音数据；

4.根据权利要求3所述的训练数据的筛选方法，其特征在于，以标定的需求语音数据作为基础数据，构造噪音数据，包括：

5.根据权利要求4所述的训练数据的筛选方法，其特征在于，所述加噪信号包括冲激响应信号和噪音信号；

所述噪音数据构造计算式为：

6.根据权利要求1所述的训练数据的筛选方法，其特征在于，还包括：

若所述信噪比小于或等于第一预设阈值，或者，所述混响占比大于或等于第二预设阈值，舍去所述待筛选数据。

7.一种训练数据的筛选装置，其特征在于，包括：

8.根据权利要求7所述的训练数据的筛选装置，其特征在于，所述语音活动检测模型的构建过程包括：

以标定的需求语音数据作为基础数据，构造噪音数据；

9.一种训练数据的筛选设备，其特征在于，包括：处理器和存储器；

所述处理器用于执行所述存储器中存储的训练数据的筛选的程序，以实现权利要求1-7任一项所述的训练数据的筛选方法。

10.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被执行时实现权利要求1-7任一项所述的训练数据的筛选方法。