CN113223499B

CN113223499B - 一种音频负样本的生成方法及装置

Info

Publication number: CN113223499B
Application number: CN202110386374.1A
Authority: CN
Inventors: 李程帅; 徐涛; 牟杰
Original assignee: Qingdao Xinxin Microelectronics Technology Co Ltd
Current assignee: Qingdao Xinxin Microelectronics Technology Co Ltd
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2022-11-04
Anticipated expiration: 2041-04-12
Also published as: CN113223499A

Abstract

本发明实施例涉及音频处理技术领域，尤其涉及一种音频负样本的生成方法、装置、计算设备及计算机可读存储介质。包括：从音频正样本中截取k个第一子音频部分；所述音频正样本为具有唤醒词的音频信号；从音频负样本中截取k个第二子音频部分，所述音频负样本为不具有所述唤醒词的音频信号；将所述k个第一子音频部分替换所述音频负样本中的所述k个第二子音频部分，得到第一合成音频负样本。提高了模型对与正样本相似性较高的负样本的识别精度。同时，直接利用原有的正样本和负样本生成具有相似发音的负样本数据，无需另行采集负样本，方法便捷而高效，通用性强，生成的负样本数据覆盖面广。

Description

一种音频负样本的生成方法及装置

技术领域

本发明实施例涉及音频处理技术领域，尤其涉及一种音频负样本的生成方法、装置、计算设备及计算机可读存储介质。

背景技术

唤醒词识别是音频识别的重要应用场景之一。为音频识别系统提供专门的唤醒词模型，一是可以降低功耗，二是这样做可以更好的兼顾唤醒词的识别率与误触发率，提高用户体验。

然而在保证唤醒词识别率的前提下降低误唤醒率一直是唤醒词音频识别技术的主要难点。常用方法是采集大量的与唤醒词发音相似，容易导致误唤醒的负样本数据加入模型训练中，加强模型对这类相似词的识别，然而这样做的困难一是在于很难保证相似发音的数据覆盖全面，例如与唤醒词有相似发音的音频数据很有可能并不是音频数据，环境噪声导致的误唤醒也是时常发生的，这类数据无法覆盖；二是采集这些相似发音词的数据本身也会加大人力和财力。

综上，目前亟需一种音频负样本的生成方法，用以解决现有的获取与正样本相似度高的负样本难度大且难以覆盖全面的问题。

发明内容

本发明实施例提供一种音频负样本的生成方法，用以解决现有的获取与正样本相似度高的负样本难度大且难以覆盖全面的问题。

本发明实施例提供一种音频负样本的生成方法，包括：

从音频正样本中截取k个第一子音频部分；所述音频正样本为具有唤醒词的音频信号；

从音频负样本中截取k个第二子音频部分，所述音频负样本为不具有所述唤醒词的音频信号；

将所述k个第一子音频部分替换所述音频负样本中的所述k个第二子音频部分，得到第一合成音频负样本。

通过将正样本中的第一子音频部分替换至负样本中，使负样本中带有一定比例的正样本中的信息，保证了生成的第一合成音频负样本与正样本的相似度较高，在后续唤醒词模型针对这样的负样本进行学习训练，提高了模型对与正样本相似性较高的负样本的识别精度。同时，直接利用原有的正样本和负样本生成具有相似发音的负样本数据，无需另行采集负样本，方法便捷而高效，通用性强，生成的负样本数据覆盖面广。

可选地，所述方法还包括：

将所述k个第二子音频部分替换所述音频正样本中的所述k个第一子音频部分，得到第二合成音频负样本。

通过上述替换可以得到另一个音频负样本，利用原有的正负样本数据即可生成，方法便捷高效，扩大了负样本的范围。

可选地，从音频正样本中截取k个第一子音频部分，包括：

确定所述音频正样本中的有效音频部分；

将所述有效音频部分划分为n份；

从所述n份中选取k份，作为k个第一子音频部分。

首先识别正样本中的有效音频部分，在有效音频部分的基础上进行划分，可以保证不会截取到正样本中的无关信息。通过先划分为n份，再从n份中选取k个第一子音频部分，简化了选取第一子音频部分的流程。

可选地，将所述有效音频部分划分为n份，包括：

随机生成n-1个随机数，每个随机数用于指示在所述有效音频部分的对应位置；

根据所述n-1个随机数，将所述有效音频部分划分为n份。

如此，使选取第一子音频部分的方法更加便捷而高效。

可选地，所述k个第一子音频部分的相对位置与所述k个第二子音频部分的相对位置相同。

通过在替换的过程中，保留k个第一子音频部分和k个第二子音频部分的相对位置相同，可以尽最大可能地保留正负样本的原有信息，如此，得到的第一合成音频负样本和第二合成音频负样本更加合理，在后续唤醒词模型针对这样的负样本进行学习训练，有利于后续提高唤醒词模型的识别精度。

可选地，将所述k个第一子音频部分替换所述音频负样本中的所述k个第二子音频部分，得到第一合成音频负样本，包括：

针对所述k个第一子音频部分中第i个第一子音频部分，将所述音频负样本中第i个第二子音频部分替换为所述第i个第一子音频部分；所述第i个第一子音频部分在所述音频正样本中的位置与所述第i个第二子音频部分在音频负样本中的位置相同。

通过在替换的过程中，保留k个第一子音频部分和k个第二子音频部分的相对顺序相同，可以尽最大可能地保留正负样本的原有信息，如此，得到的第一合成音频负样本和第二合成音频负样本更加合理，在后续唤醒词模型针对这样的负样本进行学习训练，有利于后续提高唤醒词模型的识别精度。

可选地，所述k个第一子音频部分在音频正样本中所占比例不小于预设阈值。

通过设置替换的部分不小于预设阈值，可以在第一合成音频样本中尽最大可能地保留正样本的原有信息，使得到的第一合成音频样本与正样本的相似度较高，在后续唤醒词模型针对这样的负样本进行学习训练，有利于提高唤醒词模型的识别精度。

本发明实施例还提供一种音频负样本的生成装置，包括：

获取单元，用于：

处理单元，用于将所述k个第一子音频部分替换所述音频负样本中的所述k个第二子音频部分，得到第一合成音频负样本。

本发明实施例还提供一种计算设备，包括：

存储器，用于存储计算机程序；

处理器，用于调用所述存储器中存储的计算机程序，按照获得的程序执行上述任一方式所列音频负样本的生成方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行上述任一方式所列的音频负样本的生成方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示例性示出了本发明实施例提供的一种音频负样本的生成方法；

图2a-2c示出了示例性示出了3种可能的划分方法；

图3a和图3b示例性示出了两种k个第一子音频的选取方式；

图4a和图4b示例性示出了另外两种k个第一子音频的选取方式；

图5a-5c示出了3种可能的第一子音频部分替换第二子音频部分的替换方式；

图6a和图6b示出了另两种可能的第一子音频部分替换第二子音频部分的替换方式；

图7示出了另一种可能的替换方式；

图8为本发明实施例中所涉及到的整体性流程的示意图；

图9示例性示出了本发明实施例提供的一种可能的音频负样本生成装置。

具体实施方式

为使本申请的目的、实施方式和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

基于本申请描述的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请所附权利要求保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明(Unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换，例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本发明实施例提供了一种音频负样本的生成方法，通过将正样本中随机截取的部分替换至负样本中，将负样本中随机截取的部分替换至正样本中，从而获得新的音频负样本。将新的音频负样本加入模型训练中，用于降低模型的误唤醒率。本发明实施例提供的方法无需统计并采集具有相似发音的垃圾词表，具有使用便捷，通用性强，覆盖面广的优势。

本发明实施例提供的负样本生成方法可应用于多种应用场景，例如用于唤醒词的识别，猫叫检测等。

图1示例性示出了本发明实施例提供的一种音频负样本的生成方法，包括：

步骤101、从音频正样本中截取k个第一子音频部分；音频正样本为具有唤醒词的音频信号。

由于音频样本中可能会在开始位置或结尾位置出现静音音频，因此可首先对音频正样本提取有效音频部分，即去除静音音频部分。对有效音频部分进行划分。例如对于四字的唤醒词，可以将音频部分随机划分为n部分。

对有效音频进行划分的方法也是多种多样的，本发明实施例对此不作限制，下面示例性地示出两种划分方法。

方法一：随机生成n-1个随机数，生成的随机数表示在有效音频部分中进行拆分的位置，根据n-1个随机数，将有效音频部分划分为n份。例如，图2a示例性示出了一种可能的划分方法，已知有效音频部分时长为10s，生成的3个随机数分别为2,6,9，则在有效音频部分的2s,6s,9s处进行划分，将有效音频部分划分为4份。又例如，图2b示例性示出了一种可能的划分方法，已知有效音频部分时长为10s，将有效音频部分看做一个整体，生成的3个随机数均为不大于1的正数，表示拆分位置占有效音频整体的百分数，例如分别为0.2，0.7，0.8，则在有效音频部分的2s,7s,8s处进行划分，将有效音频部分划分为4份。

方法二：随机生成n个随机数，n个随机数的和为1，生成的随机数表示在有效音频部分中所占的比例，根据n个随机数，将有效音频部分划分为n份。例如，图2c示例性示出了一种可能的划分方法，已知有效音频部分时长为10s，生成的4个随机数分别为0.2,0.3,0.4,0.1，则在有效音频部分所占的比例分别为0.2,0.3,0.4,0.1，则有效音频部分按照顺序依次被划分为时长为2s,3s,4s,1s的4个部分。

将有效音频部分划分为n部分后，从n部分中选取k个第一子音频部分。选取的k个第一子音频部分可以为连续的，也可以为不连续的，以将有效音频部分划分为4部分为例，图3a和图3b示例性示出了两种k个第一子音频的选取方式，仅为示例，本发明实施例对此不作限制。

可选地，可以不经过将有效音频部分划分为n部分的步骤，直接从有效音频部分中选取k个第一子音频部分。例如，生成2k个随机数，每个随机数用于指示在有效音频部分中的坐标，如图4a所示，有效音频部分时长为10s，生成的随机数分别为2,3,5,8，则选取的2个第一子音频部分分别为2s-3s的部分和5s-8s的部分。又例如，生成k个随机数，每个随机数用于指示在有效音频部分中的坐标，以k个坐标为起始位置，取固定长度的部分得到k个第一子音频部分，如图4b所示，生成的随机数分别为2,3,5,8，则以2s,3s,5s,8s为起始位置，以1s为固定长度，选取4个第一子音频部分，分别为：2s-3s，3s-4s，5s-6s，8s-9s。以上仅为示例，本发明实施例对此不作限制。

本发明实施例对k个第一子音频部分的选取方法不作任何限制，可以利用狄利克雷分布生成的随机数进行划分，或固定划分的位置，或利用其他的概率分布随机划分。划分后的随机选择也可以加以限制，例如可以对特定的位置进行选择，或控制选择部分的占比，控制新数据的信噪比或混响条件等。

步骤102、从音频负样本中截取k个第二子音频部分，音频负样本为不具有所述唤醒词的音频信号。

音频负样本为不具有唤醒词的音频信号，可以是环境噪声、音乐、音频、随机分布的噪声等，本发明实施例对负样本的内容和来源不作限制。

在负样本集中随机选择一条负样本，在负样本中截取k个第二子音频部分，截取的方法和从正样本中截取第一子音频的方法相同，此处不再赘述。

步骤103、将k个第一子音频部分替换音频负样本中的k个第二子音频部分，得到第一合成音频负样本。

本发明实施例对k个第一子音频在正样本中的位置和k个第二子音频在负样本中的位置不作限定，以k为2为例，图5a-5c示出了3种可能的替换方式。为便于理解，在负样本中画出的加粗黑框表示从负样本中截取的第二子音频部分。

可选地，k个第一子音频部分的相对位置与k个第二子音频部分的相对位置相同。以k为4为例，图6a示出了一种可能的替换方式，该种替换方式中，4个第一子音频部分整体的位置可以发生变化，但4个第一子音频之间的相对位置保持不变。

可选地，k个第一子音频部分在正样本中的位置与k个第二子音频部分在负样本中的位置分别相同。针对k个第一子音频部分中第i个第一子音频部分，将音频负样本中第i个第二子音频部分替换为第i个第一子音频部分，第i个第一子音频部分在音频正样本中的位置与所述第i个第二子音频部分在音频负样本中的位置相同。图6b示出了另一种可能的替换方式。

值得注意的是，k个第一子音频部分占据负样本音频中有效音频部分的比例应满足一定的条件，如不小于第一预设阈值且小于第二预设阈值。若k个第一子音频部分占据负样本音频中有效音频部分的比例过高，则生成的第一合成音频负样本与正样本的相似度太高，则可以认为是正样本，若还将其作为负样本用于模型训练，无疑会使模型训练不够准确，因此应使k个第一子音频部分占据负样本音频中有效音频部分的比例小于第二预设阈值。若k个第一子音频部分占据负样本音频中有效音频部分的比例过低，则生成的第一合成音频负样本与正样本的相似度相去甚远，用于模型的训练中，虽然不会影响模型的识别准确性，但是不利于提高模型的识别精度，因此应使k个第一子音频部分占据负样本音频中有效音频部分的比例不小于第一预设阈值。

此外，在将截取的k个第一子音频部分替换k个第二子音频部分后，还可将截取的k个第二子音频部分替换k个第一子音频部分，得到第二合成音频负样本。替换方式与生成第一合成音频负样本的替换方式相同，此处不再赘述。

可选地，从正样本中截取的第一子音频部分的数量、大小尺寸与从负样本中截取的第二子音频部分的数量、大小尺寸不相同，图7示出了一种可能的替换方式。将从正样本中截取的4个第一子音频部分替换从负样本中截取的3个第二子音频部分，得到的第一合成音频负样本如图所示，如此，替换的部分也不相同，增加了生成的第一合成音频负样本和第二合成音频负样本的多样性和丰富性。

可选地，本发明实施例提供的负样本生成方法不仅可以用于直接对音频信号进行截取和替换的处理，还可对诸如Fbank或MFCC等音频帧特征进行截取和替换，或对音频信号进行处理或加入更多特征信息后操作。此外，本发明实施例提供的方法还可用于图像处理、视频处理等各领域的负样本生成。本发明实施例对此不作限制。

为了便于理解本发明实施例的技术方案，下面对涉及到的流程做整体性说明，如图8所示。

步骤801、输入批量的正负样本。

步骤802、随机选择一部分正样本和负样本。

步骤803、从正样本中截取第一子音频部分，替换至负样本中，得到第一合成音频负样本；从负样本中截取第二子音频部分，替换至正样本中，得到第二合成音频负样本。

步骤804、判断第一合成音频负样本和/或第二合成音频负样本是否满足预设阈值的要求，若是，则进入步骤805；若否，则返回步骤803。

步骤805、将满足要求的第一合成音频负样本和/或第二合成音频负样本加入至负样本集中，用于模型的训练。

本发明实施例还提供一种音频负样本的生成装置，如图9所示，包括：

获取单元901，用于：

处理单元902，用于将所述k个第一子音频部分替换所述音频负样本中的所述k个第二子音频部分，得到第一合成音频负样本。

本发明实施例还提供一种计算设备，包括：

存储器，用于存储计算机程序；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种音频负样本的生成方法，其特征在于，包括：

将所述k个第一子音频部分替换所述音频负样本中的所述k个第二子音频部分，得到第一合成音频负样本；

从音频正样本中截取k个第一子音频部分，包括：

确定所述音频正样本中的有效音频部分；

将所述有效音频部分划分为n份；

从所述n份中选取不连续的k份，作为k个第一子音频部分；

所述k个第一子音频部分在负样本音频的有效音频部分中所占比例不小于第一预设阈值且小于第二预设阈值，保证模型的识别精度；

将所述有效音频部分划分为n份，包括：

利用狄利克雷分布随机生成n个随机数，所述n个随机数的和为1，每个随机数表示在所述有效音频部分中所占的比例；

根据所述n个随机数，将所述有效音频部分划分为n份；

将所述k个第一子音频部分替换所述音频负样本中的所述k个第二子音频部分，得到第一合成音频负样本，包括：

2.如权利要求1所述的方法，其特征在于，还包括：

3.一种音频负样本的生成装置，其特征在于，包括：

获取单元，用于：

处理单元，用于将所述k个第一子音频部分替换所述音频负样本中的所述k个第二子音频部分，得到第一合成音频负样本；

从音频正样本中截取k个第一子音频部分，包括：

确定所述音频正样本中的有效音频部分；

将所述有效音频部分划分为n份；

从所述n份中选取不连续的k份，作为k个第一子音频部分；

将所述有效音频部分划分为n份，包括：

根据所述n个随机数，将所述有效音频部分划分为n份；

4.一种计算设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于调用所述存储器中存储的计算机程序，按照获得的程序执行权利要求1至2任一项所述的方法。

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行权利要求1至2任一项所述的方法。