CN111369979B

CN111369979B - 训练样本获取方法、装置、设备及计算机存储介质

Info

Publication number: CN111369979B
Application number: CN202010120768.8A
Authority: CN
Inventors: 罗海斯·马尔斯
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2023-12-19
Anticipated expiration: 2040-02-26
Also published as: CN111369979A

Abstract

本申请公开了一种训练样本获取方法、装置、设备及计算机存储介质，属于深度学习技术领域。所述方法包括：从训练样本库中获取多个样本对，所述训练样本库中包括多个有效语音样本以及多个背景噪声样本，每个所述样本对包括所述训练样本库中的两个样本；确定每个所述样本对中两个样本的权值，每个所述样本对中两个样本的权值的和为1；根据每个样本对中两个样本的权值，将每个样本对中的两个样本叠加，得到多个训练样本。解决了相关技术中获取训练样本的过程较为缓慢，难以获取大量的训练样本的问题。达到了提高训练样本获取速度以及丰富训练样本的效果。

Description

训练样本获取方法、装置、设备及计算机存储介质

技术领域

本申请涉及深度学习技术领域，特别涉及一种训练样本获取方法、装置、设备及计算机存储介质。

背景技术

语音端点检测(speech activity detection，SAD)，是一种用于检测音频信号中有效语音部分是否存在的方法，是语音增强、语音识别等技术的预处理步骤，有效语音部分是音频信号中有人说话的部分。在将深度学习模型应用于SAD中时，需要使用训练样本对深度学习模型进行训练，以使SAD能够有效检测出音频信号中有效语音部分是否存在。

相关技术中一种训练样本获取方法，首先通过采集人说话的声音作为有效语音样本，之后再采集具有噪声但无人说话的声音作为背景噪声样本，并通过这两种样本构建训练样本库。

但是，这种训练样本获取方法获取训练样本的过程较为缓慢，难以获取大量的训练样本。

发明内容

本申请实施例提供了一种训练样本获取方法、装置、设备及计算机存储介质，能够解决相关技术中获取训练样本的过程较为缓慢，难以获取大量的训练样本的问题。所述技术方案如下：

根据本申请的第一方面，提供了一种训练样本获取方法，所述训练样本获取方法包括：

从训练样本库中获取多个样本对，所述训练样本库中包括多个有效语音样本以及多个背景噪声样本，每个所述样本对包括所述训练样本库中的两个样本；

确定每个所述样本对中两个样本的权值，每个所述样本对中两个样本的权值的和为1，且每个所述样本对中两个样本的权值均位于[0,1]中；

根据每个样本对中两个样本的权值，将每个样本对中的两个样本叠加，得到多个训练样本。

另一方面，提供了一种训练样本获取装置，所述训练样本获取装置包括：

获取模块，用于从训练样本库中获取多个样本对，所述训练样本库中包括多个有效语音样本以及多个背景噪声样本，每个所述样本对包括所述训练样本库中的两个样本；

确定模块，用于确定每个所述样本对中两个样本的权值，每个所述样本对中两个样本的权值的和为1，且每个所述样本对中两个样本的权值均位于[0,1]中；

训练样本获取模块，用于根据每个样本对中两个样本的权值，将每个样本对中的两个样本叠加，得到多个训练样本。

又一方面，提供了一种训练样本获取设备，所述训练样本获取设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的训练样本获取方法。

再一方面，提供了一种计算机存储介质，所述计算机存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的训练样本获取方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

提供了一种训练样本获取方法，该方法通过从训练样本库中获取多个样本对，并确定每个样本对中两个样本的权值，之后根据每个样本对中两个样本的权值，将每个样本对中的两个样本叠加，以得到多个训练样本，如此便能够通过训练样本库中的样本生成多个新的训练样本。解决了相关技术中获取训练样本的过程较为缓慢，难以获取大量的训练样本的问题。达到了提高训练样本获取速度以及丰富训练样本的效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的训练样本获取方法的实施环境的示意图；

图2是本申请实施例提供的一种训练样本获取方法的流程图；

图3是本申请实施例提供的另一种训练样本获取方法的流程图；

图4是本申请实施例提供的一种训练样本获取装置的框图；

图5是本申请实施例提供的另一种训练样本获取装置的框图；

图6是本申请实施例提供的一种训练样本获取装置的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

深度学习模型是一种可以经训练样本训练以识别训练样本特征的模型。当深度学习模型应用于SAD时，训练完成的深度学习模型可以确定语音片段中的有效语音的起始位置和终止位置。

目前，在一种训练样本获取方法中，首先通过采集人说话的声音作为有效语音样本，之后再采集具有噪声但无人说话的声音作为背景噪声样本，并通过这两种样本构建训练样本库。

本申请实施例提供了一种训练样本获取方法、装置、设备及计算机存储介质。

图1是本申请实施例提供的训练样本获取方法的实施环境的示意图，该实施环境可以包括服务器11以及终端12。

服务器11可以为一个服务器或服务器集群。

终端12可以为手机、平板电脑、笔记本电脑、智能可穿戴设备等各种终端。终端12可以通过有线或无线的方式(图1示出的是以无线的方式进行连接的情况)与服务器连接。

图2是本申请实施例提供的一种训练样本获取方法的流程图。该训练样本获取方法可以应用于上述实施环境的终端或服务器中。该训练样本获取方法可以包括：

步骤201，从训练样本库中获取多个样本对，训练样本库中包括多个有效语音样本以及多个背景噪声样本，每个样本对包括训练样本库中的两个样本。

步骤202，确定每个样本对中两个样本的权值，每个样本对中两个样本的权值的和为1，且每个样本对中两个样本的权值均位于[0,1]中。

步骤203，根据每个样本对中两个样本的权值，将每个样本对中的两个样本叠加，得到多个训练样本。

综上所述，本申请实施例提供了一种训练样本获取方法，该方法通过从训练样本库中获取多个样本对，并确定每个样本对中两个样本的权值，之后根据每个样本对中两个样本的权值，将每个样本对中的两个样本叠加，以得到多个训练样本，如此便能够通过训练样本库中的样本生成多个新的训练样本。解决了相关技术中获取训练样本的过程较为缓慢，难以获取大量的训练样本的问题。达到了提高训练样本获取速度以及丰富训练样本的效果。

图3是本申请实施例提供的另一种训练样本获取方法的流程图，该训练样本获取方法可以应用于上述实施环境的终端或服务器中。参考图3可以看出，该训练样本获取方法可以包括：

步骤301，从训练样本库中获取一个有效语音样本以及一个背景噪声样本构成的第一样本对。

训练样本库中包括多个有效语音样本以及多个背景噪声样本，每个第一样本对包括训练样本库中的两个样本。

步骤302，确定每个样本对中两个样本的权值。

终端(或服务器)可以确定每个样本对中两个样本的权值，该权值可以用于调整每个样本在后续得到的有效语音样本中的占比。每个样本对中两个样本的权值的和为1，且每个样本对中两个样本的权值均位于[0,1]中。样本对应的权值可以从[0,1]中选择，对于各个样本对确定不同的权值，即可以使样本对中样本的组合更为多样化，达到丰富样本的效果。

示例性的，样本对中一个样本的权值为w，则样本对中另一个样本的权值为1-w，且w与1-w均位于[0,1]中。样本的权值w的取值范围也可以是w∈[w₁，w₂]，其中，w₁＜w₂，且w₁∈[0，1]，w₂∈[0，1]，如此便可以根据深度学习模型不同的需求设置不同的取值范围，可以获得更符合深度学习模型需求的样本(例如w∈[0.3，0.8]，可以获得信噪比较低的有效语音样本)。

步骤303，根据每个第一样本对中两个样本的权值，在时域上将每个第一样本对中的两个样本叠加，得到多个有效语音样本。

通过将样本在时域上进行叠加得到的多个有效语音样本中，包括不同的噪音以及有效语音。

其中，时域上的样本的横轴表示时间，纵轴表示样本的振幅，振幅越大则样本的音量越大，根据每个第一样本对中两个样本的权值将每个第一样本对中的两个样本在时域上叠加，也即是将第一样本对中两个样本进行振幅的叠加，通过改变权值，可以获得有效语音与背景噪声占比不同的多个有效语音样本，也即是背景噪声与有效语音同时存在，但二者声音大小不同的多个有效语音样本。

示例性的，其中X_speech表示样本对中有效语音样本，X_non-speech表示背景噪声样本，w表示X_speech的权值，1-w表示X_non-speech的权值，表示叠加得到的有效语音样本。

步骤304，判断通过叠加得到的多个有效语音样本的数量是否大于预设值。

为了获取足够数量的通过叠加得到的有效语音样本，可以设置预设值进行判断，当有效语音样本的数量大于预设值时，执行步骤305以及后续步骤，当有效语音样本的数量不大于预设值时，执行步骤301以继续获取有效语音样本。步骤304也可以在步骤305之后执行，本申请实施例不进行任何限制。

步骤305，将多个有效语音样本放入训练样本库。

将样本叠加得到的多个有效语音样本放入训练样本库，可以丰富训练样本库中的样本。

终端(或服务器)可以获取多个第一样本对，对多个第一样本对进行处理得到多个有效语音样本之后，再将多个有效语音样本放入训练样本库，也可以获取一个第一样本对，对一个第一样本对进行处理得到一个有效语音样本之后，将该有效语音样本放入训练样本库，并将上述得到一个有效语音样本的步骤执行多次，直至获取到足够多的叠加得到的有效语音样本。

在步骤305之后，可以将训练样本库中的有效语音样本以及背景噪声样本用于训练深度学习模型，也可以在步骤305之后执行步骤306以及后续步骤，进一步丰富训练样本库中的样本，本申请实施例对此并不进行限制。

步骤306，从训练样本库中获取多个第二样本对，每个第二样本对包括训练样本库中任意两个样本。

从训练样本库中获取多个第二样本对时，训练样本库可以包括步骤303得到的多个有效语音样本，训练样本库也可以是执行步骤301之前的训练样本库。

由于每个第二样本对是从训练库中任意获取的两个样本，因此每个第二样本对可能包括两个有效语音样本，两个背景噪声样本以及一个有效语音样本和背景噪声样本。

其中，第二样本对中每个样本均对应有标签值，标签值用于指示第二样本对中的样本是有效语音样本或背景噪声样本。标签值可以由人工进行标定。

示例性的，标签值可以为0或1，当样本对应的标签值为1时，该样本为有效语音样本，当样本对应的标签值为0时，该样本为背景噪声样本。

步骤307，确定每个第二样本对中两个样本的权值。

每个第二样本对中两个样本的权值的和为1，且每个第二样本对中两个样本的权值均位于[0,1]中。样本对应的权值是从[0,1]中选择的，这样可以使样本对中样本的组合更为多样化，丰富样本的类型。

示例性的，样本对应的权值可以根据贝塔(beta，β)分布从[0,1]中选择。

步骤308，根据每个第二样本对中两个样本的权值，在频域上将每个第二样本对中的两个样本叠加，得到多个待确定样本。

在频域上对每个第二样本对中的两个样本叠加时，每个第二样本对中的两个样本为音频频谱图，该音频频谱图可以包括线性谱图、对数谱图、梅尔谱图以及对数梅尔谱图。可以先从训练样本库中获取多个第二样本对，再生成每个第二样本对中的每个样本对应的音频频谱图。也可以预先生成训练样本库中每个样本的音频谱图，在获取第二样本对时直接获取样本的音频谱图，可以减少得到多个待确定样本的时间。

根据第二样本对获取的待确定样本的类型较多，使得样本更加丰富。

示例性的，其中，X₁为第二样本对中的一个样本，X₂为第二样本对中的另一个样本，α为X₁的权值，1-α为X₂的权值，/>为待确定样本。

步骤309，将多个待确定样本划分为有效语音样本和背景噪声样本。

根据每个第二样本对中两个样本的权值，将每个第二样本对中的两个样本的标签值叠加，得到每个待确定样本对应的软标签值，根据软标签值，将多个待确定样本划分为有效语音样本和背景噪声样本，其中，对应的软标签值不小于阈值的待确定样本为有效语音样本，对应的软标签值小于阈值的待确定样本为背景噪声样本。

示例性的，其中，y₁为样本X₁对应的标签值，y₂为样本X₂对应的标签值，/>为待确定样本/>对应的软标签值。

阈值可以设置为0.3，当小于0.3时，将待确定样本确定为背景噪声样本，当/>不小于0.3时，将待确定样本确定为有效语音样本。当样本对中的权值α设置为较小时，阈值可以设置为相对较小的数，如此便可以获取信噪比较小的有效语音样本。

相较于使用现有技术获取到的训练样本训练深度学习模型，使用本申请实施例提供的训练样本获取方法获取到的训练样本训练深度学习模型时，不是通过简单的0与1区分有效语音样本和背景噪声样本，而是通过软标签值与阈值区分有效语音样本与背景噪声样本，使用软标签值与阈值区分有效语音样本与背景噪声样本，可以使训练完成的深度学习模型识别出信噪比较低的有效语音。

步骤310，将多个待确定样本划分的有效语音样本和背景噪声样本放入训练样本库。

根据软标签值划分完待确定样本之后，将多个有效语音样本以及背景噪声样本放入训练样本库，训练样本库中的样本可以用来训练应用于SAD的深度学习模型。使用本申请实施例提供的训练样本获取方法获取到的训练样本训练深度学习模型时，可以在保持深度学习模型召回率较高的情况下，提高深度学习模型的准确率，还可以提高深度学习模型的泛化能力。

在本申请实施例提供的训练样本获取方法中，步骤301至步骤305为时域上获取训练样本的方法，步骤306至步骤310为频域上获取训练样本的方法，在使用本申请实施例提供的训练样本获取方法时，可以仅执行步骤301至步骤305提供的时域上的方法或仅执行步骤306至步骤310提供的频域上的方法，也可以执行步骤301至步骤310，将时域上的方法与频域上的方法进行组合，本申请实施例对此并不进行限制。

本申请实施例提供的训练样本获取方法，通过从训练样本库中获取样本对，将样本对中的样本进行叠加获得新的训练样本，相较于相关技术，本申请实施例提供的训练样本获取方法无需实时采集有效语音和背景噪声便可以获得新的训练样本，获取训练样本的过程较快且更为便捷。

在一个示例性实施例中，从训练样本库中获取一个有效语音样本X_speech以及一个背景噪声样本X_non-speech构成的第一样本对，确定每个样本对中两个样本的权值，其中X_speech的权值w∈[w₁，w₂]，w₁＜w₂，且w₁∈[0，1]，w₂∈[0，1]，X_non-speech的权值为1-ω，根据每个第一样本对中两个样本的权值，在时域上将每个第一样本对中的两个样本叠加，得到多个有效语音样本当多个有效语音样本/>的数量大于预设值M时，将多个有效语音样本/>放入训练样本库。从包括多个有效语音样本的训练样本库中获取多个第二样本对，每个第二样本对包括训练样本库中任意两个样本X₁与X₂，确定每个第二样本对中两个样本的权值，X₁的权值为α，X₂的权值为1-α，根据每个第二样本对中两个样本的权值，在频域上将每个第二样本对中的两个样本叠加，得到多个待确定样本/>根据每个第二样本对中两个样本的权值，将每个第二样本对中的两个样本的标签值叠加，得到每个待确定样本对应的软标签值，其中，样本X₁对应的标签值为y₁，样本X₂对应的标签值为y2，则待确定样本/>对应的软标签值根据软标签值，将多个待确定样本划分为有效语音样本和背景噪声样本，其中，对应的软标签值不小于0.5的待确定样本为有效语音样本，对应的软标签值小于0.5的待确定样本为背景噪声样本，当多个待确定样本划分的有效语音样本和背景噪声样本的数量的和大于预设值时，将多个待确定样本划分的有效语音样本和背景噪声样本放入训练样本库。

在将多个待确定样本划分的有效语音样本和背景噪声样本放入训练样本库之后，可以使用该训练样本库对应用于SAD的深度学习模型进行训练。

图4是本申请实施例提供的一种训练样本获取装置的框图。参考图4可以看出，该训练样本获取装置400可以包括：

获取模块401，用于从训练样本库中获取多个样本对，训练样本库中包括多个有效语音样本以及多个背景噪声样本，每个样本对包括训练样本库中的两个样本。

确定模块402，用于确定每个样本对中两个样本的权值，每个样本对中两个样本的权值的和为1，且每个样本对中两个样本的权值均位于[0,1]中。

训练样本获取模块403，用于根据每个样本对中两个样本的权值，将每个样本对中的两个样本叠加，得到多个训练样本。

可选地，如图5所示，其为本申请实施例提供的另一种训练样本获取装置的框图，该训练样本获取装置400还包括：

归类模块404，用于将多个有效语音样本放入训练样本库。

综上所述，本申请实施例提供了一种训练样本获取装置，该装置通过从训练样本库中获取多个样本对，并确定每个样本对中两个样本的权值，之后根据每个样本对中两个样本的权值，将每个样本对中的两个样本叠加，以得到多个训练样本，如此便能够通过训练样本库中的样本生成多个新的训练样本。解决了相关技术中获取训练样本的过程较为缓慢，难以获取大量的训练样本的问题。达到了提高训练样本获取速度以及丰富训练样本的效果。

请参考图6，其示出了本申请实施例提供的一种训练样本获取装置600的结构示意图，该训练样本获取装置600可以为服务器。示例地，如图6所示，该装置600包括中央处理单元(CPU)601、存储器602，以及连接存储器602和中央处理单元601的系统总线603，存储器602可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。

上述存储器602还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行，以实现本申请实施例提供的方法。

本申请实施例还提供了一种训练样本获取设备，该训练样本获取设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，上述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上述方法实施例所提供的训练样本获取方法。

本申请实施例还提供了一种计算机存储介质，该计算机存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由处理器加载并执行以实现如上述方法实施例所提供的训练样本获取方法。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种训练样本获取方法，其特征在于，所述方法包括：

从训练样本库中获取多个第二样本对，所述训练样本库中包括多个有效语音样本以及多个背景噪声样本，每个所述第二样本对包括所述训练样本库中的任意两个样本；所述第二样本对中每个样本均对应有标签值，所述标签值用于指示所述第二样本对中的样本是有效语音样本或背景噪声样本；

确定每个所述第二样本对中两个样本的权值，每个所述第二样本对中两个样本的权值的和为1，且每个所述第二样本对中两个样本的权值均位于[0,1]中；

根据每个所述第二样本对中两个样本的权值，在频域上将每个所述第二样本对中的两个样本的音频频谱图叠加，得到多个待确定样本；所述音频频谱图包括线性谱图、对数谱图、梅尔谱图和对数梅尔谱图中的任意一种；

根据每个所述第二样本对中两个样本的权值，将每个所述第二样本对中的两个样本的标签值叠加，得到每个所述待确定样本对应的软标签值；根据所述软标签值，将所述多个待确定样本划分为有效语音样本和背景噪声样本，其中，对应的所述软标签值不小于阈值的待确定样本为有效语音样本，对应的所述软标签值小于所述阈值的待确定样本为背景噪声样本；

将所述多个待确定样本划分的有效语音样本和背景噪声样本放入所述训练样本库。

2.根据权利要求1所述的方法，其特征在于，所述从训练样本库中获取多个第二样本对之前，还包括：

从所述训练样本库中获取一个有效语音样本以及一个背景噪声样本构成的第一样本对；

根据每个所述第一样本对中两个样本的权值，在时域上将每个所述第一样本对中的两个样本叠加，得到多个有效语音样本；

将所述多个有效语音样本放入所述训练样本库。

3.根据权利要求1所述的方法，其特征在于，所述确定每个所述第二样本对中两个样本的权值，包括：

根据贝塔分布从[0,1]中确定每个所述第二样本对中两个样本的权值。

4.一种训练样本获取装置，其特征在于，所述训练样本获取装置包括：

获取模块，用于从训练样本库中获取多个第二样本对，所述训练样本库中包括多个有效语音样本以及多个背景噪声样本，每个所述第二样本对包括所述训练样本库中的任意两个样本；所述第二样本对中每个样本均对应有标签值，所述标签值用于指示所述第二样本对中的样本是有效语音样本或背景噪声样本；

确定模块，用于确定每个所述第二样本对中两个样本的权值，每个所述第二样本对中两个样本的权值的和为1，且每个所述第二样本对中两个样本的权值均位于[0,1]中；

训练样本获取模块，用于根据每个所述第二样本对中两个样本的权值，在频域上将每个所述样本对中的两个样本的音频频谱图叠加，得到多个待确定样本；所述音频频谱图包括线性谱图、对数谱图、梅尔谱图和对数梅尔谱图中的任意一种；

归类模块，用于根据每个所述第二样本对中两个样本的权值，将每个所述第二样本对中的两个样本的标签值叠加，得到每个所述待确定样本对应的软标签值；根据所述软标签值，将所述多个待确定样本划分为有效语音样本和背景噪声样本，其中，对应的所述软标签值不小于阈值的待确定样本为有效语音样本，对应的所述软标签值小于所述阈值的待确定样本为背景噪声样本；将所述多个待确定样本划分的有效语音样本和背景噪声样本放入所述训练样本库。

5.一种训练样本获取设备，其特征在于，所述训练样本获取设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至3任一所述的训练样本获取方法。

6.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至3任一所述的训练样本获取方法。