CN110956952B

CN110956952B - 一种样本生成方法、装置、服务器及存储介质

Info

Publication number: CN110956952B
Application number: CN201911274790.1A
Authority: CN
Inventors: 郭震; 冯大航; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2022-06-03
Anticipated expiration: 2039-12-12
Also published as: CN110956952A

Abstract

本发明提供一种样本生成方法、装置、服务器及存储介质，确定已从音频样本集中选取的各个与目标唤醒词相关的目标音频样本的目标音素序列；判断根据所有目标音素序列中第一音素的总数量和第二音素的总数量得到的比较结果是否满足预先设置的样本生成条件；若比较结果不满足样本生成条件，从音频样本集中选取与目标唤醒词相关的目标音频样本；基于比较结果对当前选取的目标音频样本的音素序列进行处理生成目标音素序列；若比较结果满足样本生成条件，将已选取的各个目标音频样本的目标音素序列确定为目标唤醒词的样本。基于本发明，能够在减少样本生成耗时、降低人工成本的基础上，实现样本生成的目的。

Description

一种样本生成方法、装置、服务器及存储介质

技术领域

本发明涉及语音唤醒技术领域，更具体地说，涉及一种样本生成方法、装置、服务器及存储介质。

背景技术

语音唤醒在学术上被称为keywordspotting(简称KWS)，是指用户通过说出唤醒词来唤醒电子设备，使电子设备进入到等待语音指令的状态或使电子设备直接执行预定语音指令。语音唤醒技术的核心内容是语音识别模型，只有先利用语音识别模型识别语音中的唤醒词才能基于识别出的唤醒词来唤醒电子设备。

目前语音识别模型需要利用大量的样本训练生成，正样本是人工录制的包括唤醒词的语音样本，在正样本录制完成后可以根据正样本中对应唤醒词的音频帧的数量从负样本集中随机挑选出负样本，为了保证语音识别模型的训练效果，所有正负样本中对应唤醒词的语音帧的数量和未对应唤醒词的语音帧的数量是需要满足一定比例的，若不满足一定比例，则需要重新挑选。

这种样本生成方式每当出现一个新的唤醒词便需要人工录制大量的与该唤醒词相关的正样本，人工成本高，录制周期长；并且，因为负样本中可能既包括对应唤醒词的语音帧又包括未对应唤醒词的语音帧，且负样本中未对应唤醒词的语音帧的数量也是不定的，所以需要反复挑选负样本以使得所有正负样本中对应唤醒词的语音帧的数量和未对应唤醒词的语音帧的数量满足一定比例，负样本挑选过程耗时较长。

发明内容

有鉴于此，本发明实施例提供一种样本生成方法、装置、服务器及存储介质，以在减少正负样本生成耗时、降低人工成本的基础上，实现样本生成的目的。技术方案如下：

本发明第一方面公开一种样本生成方法，包括：

确定已从音频样本集中选取的各个与目标唤醒词相关的目标音频样本的目标音素序列；

比较所有所述目标音素序列中第一音素的总数量和第二音素的总数量，得到比较结果，所述第一音素与所述目标唤醒词相关，所述第二音素与所述目标唤醒词无关；

判断所述比较结果是否满足预先设置的样本生成条件；

若所述比较结果不满足所述样本生成条件，从所述音频样本集中选取与所述目标唤醒词相关的目标音频样本；

基于所述比较结果对当前选取的所述目标音频样本的音素序列进行处理生成目标音素序列；

若所述比较结果满足所述样本生成条件，将已选取的各个所述目标音频样本的目标音素序列确定为所述目标唤醒词的样本。

可选的，所述比较所有所述目标音素序列中第一音素的总数量和第二音素的总数量，得到比较结果，包括：

获取所有所述目标音素序列中第一音素的总数量以及所有所述目标音素序列中第二音素的总数量；

将所述第一音素的总数量和所述第二音素的总数量的第一比例确定为比较结果。

可选的，所述判断所述比较结果是否满足预先设置的样本生成条件，包括：

判断所述比较结果是否位于预先设置的样本生成条件指示的阈值范围；

若所述比较结果位于所述阈值范围，确定所述比较结果满足所述样本生成条件；

若所述比较结果没有位于所述阈值范围，确定所述比较结果不满足所述样本生成条件。

可选的，还包括：

从所述音频样本集中获取与所述目标唤醒词相关的目标音频样本；

确定当前获取的所述目标音频样本的音素序列中第一音素的总数量和第二音素的总数量的第二比例；

根据所述比较结果和所述第二比例确定是否选取当前获取的所述目标音频样本；

所述从所述音频样本集中选取与所述目标唤醒词相关的目标音频样本，包括：若根据所述比较结果和所述第二比例确定选取当前获取的所述目标音频样本，将当前获取的所述目标音频样本作为从所述音频样本集中选取与所述目标唤醒词相关的目标音频样本。

可选的，所述基于所述比较结果对当前选取的所述目标音频样本的音素序列进行处理生成目标音素序列，包括：

获取与所述目标唤醒词的标准音素序列相关的至少一个标准子音素序列；

根据所述至少一个标准子音素序列确定当前选取的所述目标音频样本的音素序列中的第三音素以及第四音素，所述第三音素为当前选取的所述目标音频样本的音素序列中第一个第一音素，所述第四音素为当前选取的所述目标音频样本的音素序列中最后一个第一音素；

根据所述比较结果对当前选取的所述目标音频样本的音素序列中位于所述第三音素之前的音素以及位于所述第四音素之后的音素进行调整生成目标音素序列。

可选的，所述根据所述至少一个标准子音素序列确定当前选取的所述目标音频样本的音素序列中第三音素以及第四音素，包括：

确定与当前选取的所述目标音频样本的音素序列相关的各个子音素序列，所述子音素序列和所述标准子音素序列中音素数量相同；

从各个所述子音素序列中选取出所述标准子音素序列；

获取所选取的标准子音素序列中的目标音素；

将当前选取的所述目标音频样本的音素序列中与所述目标音素对应的音素确定为第一音素，并将当前选取的所述目标音频样本的音素序列中除所确定的第一音素外的其他音素作为第二音素；

按照所确定的各个第一音素在当前选取的所述目标音频样本的音素序列中的顺序对所确定的各个第一音素进行排序，将排序最靠前的第一音素确定为第三音素，将排序最靠后的第一音素确定为第四音素。

可选的，所述根据所述比较结果对当前选取的所述目标音频样本的音素序列中位于所述第三音素之前的音素以及位于所述第四音素之后的音素进行调整生成目标音素序列，包括：

从当前选取的所述目标音频样本的音素序列的第二音素中选取表征音频音素的第五音素；

将当前选取的所述目标音频样本的音素序列中所述第五音素的音素值修改为预设音素值生成第一音素序列；

根据所述比较结果对所述第一音素序列中位于所述第三音素之前的音素数量以及位于所述第四音素之后的音素数量进行调整生成第二音素序列。

可选的，还包括生成与所述目标唤醒词的标准音素序列相关的至少一个标准子音素序列的过程，该过程包括：

根据所述目标唤醒词中各个字符的音素的标准音素值生成所述目标唤醒词的标准音素序列；

对所述标准音素序列中连续出现的音素值相同的各个音素值进行整合生成第一标准音素序列；

在所述第一标准音素序列的第一个音素之前和最后一个音素之后分别添加一个第六音素生成第二标准音素序列，所述第六音素的音素值为1；

按照所述第二标准音素序列中音素顺序依次生成与所述第二标准音素序列相关的各个标准子音素序列。

本发明第二方面公开一种样本生成装置，包括：

目标音素序列确定单元，用于确定已从音频样本集中选取的各个与目标唤醒词相关的目标音频样本的目标音素序列；

比较单元，用于比较所有所述目标音素序列中第一音素的总数量和第二音素的总数量，得到比较结果，所述第一音素与所述目标唤醒词相关，所述第二音素与所述目标唤醒词无关；

第一判断单元，用于判断所述比较结果是否满足预先设置的样本生成条件；

第一选取单元，用于若所述比较结果不满足所述样本生成条件，从所述音频样本集中选取与所述目标唤醒词相关的目标音频样本；

第一生成单元，用于基于所述比较结果对当前选取的所述目标音频样本的音素序列进行处理生成目标音素序列；

第一确定单元，用于若所述比较结果满足所述样本生成条件，将已选取的各个所述目标音频样本的目标音素序列确定为所述目标唤醒词的样本。

本发明第三方面公开一种服务器，包括：至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述存储器存储的程序，所述程序用于实现如上述本发明第一方面任意一项公开的样本生成方法。

本发明第四方面公开一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行如上述本发明第一方面任意一项公开的样本生成方法。

本发明提供的一种样本生成方法、装置、服务器及存储介质，当出现新的唤醒词时，可以从已有的音频样本集中获取唤醒词的正负样本，不需要进行大量的正样本录制；并且，基于已选取的与目标唤醒词相关的所有目标音频样本的目标音素序列中第一音素的总数量和第二音素的总数量的比较结果，对后续选取的与目标唤醒词相关的目标音频样本的音素序列进行的自动调整生成目标音频样本的目标音素序列的方式，可以控制唤醒词样本选取过程向满足样本生成条件的趋势发展，避免了现有技术反复挑选负样本的过程，减少了样本生成耗时。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种样本生成方法的流程示意图；

图2为本发明实施例提供的一种目标唤醒词的标准音素序列的示例图；

图3为本发明实施例提供的一种当前获取的目标音频样本的音素序列的示例图；

图4为本发明实施例提供的一种基于比较结果对当前选取的目标音频样本的音素序列进行处理生成目标音素序列的示例图；

图5为本发明实施例提供的另一种样本生成方法的流程示意图；

图6为本发明实施例提供的一种样本生成装置的结构示意图；

图7为本发明实施例提供的一种服务器的硬件结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

由上述背景技术可知，出现新的唤醒词时需要利用与唤醒词相关的音频样本对语音识别模型进行训练，为了保证语音识别模型的训练效果，通常需要控制与唤醒词相关的所有音频样本中对应唤醒词的语音帧的数量和未对应唤醒词的语音帧的数量满足一定比例。音频样本由多个语音帧构成，一个语音帧对应一个音素，若语音帧对应的音素为用于构成唤醒词的音素，则语音帧为对应唤醒词的语音帧，若语音帧对应的音素不为用于构成唤醒词的音素，则语音帧为未对应唤醒词的语音帧。

现有的样本生成方法不仅需要人工录制大量与唤醒词相关的正样本，还需要反复挑选负样本以保证所有正负样本中对应唤醒词的语音帧和未对应唤醒词的语音帧的数量满足一定比例，样本生成耗时长、人工成本高。

为了解决上述问题，本申请提供的一种样本生成方法、装置、服务器及存储介质，当出现新的唤醒词时，可以从已有的音频样本集中获取唤醒词的正负样本，不需要进行大量的正样本录制；并且，基于已选取的与目标唤醒词相关的所有目标音频样本的目标音素序列中第一音素的总数量和第二音素的总数量的比较结果，对后续选取的与目标唤醒词相关的目标音频样本的音素序列进行的自动调整生成目标音频样本的目标音素序列的方式，可以控制唤醒词样本选取过程向满足样本生成条件的趋势发展，避免了现有技术反复挑选负样本的过程，减少了样本生成耗时。

参考图1，示出了本发明提供的一种样本生成方法的流程示意图。该样本生成方法，具体包括以下步骤：

S101：确定已从音频样本集中选取的各个与目标唤醒词相关的目标音频样本的目标音素序列；

在本申请实施例中，预先设置有音频样本集，预先设置的音频样本集中包括至少一个音频样本。比如，预先设置的音频样本集中包括100个音频样本或者200个音频样本，有关于预先设置的音频样本中具体包括音频样本的数量，发明人可根据自己的需求进行设置，本申请实施例不加以限定。

在确定目标唤醒词后，可以从音频样本集中选取与目标唤醒词相关的音频样本，被选取的与目标唤醒词相关的音频样本称为目标音频样本。本申请实施例提供的一种样本生成方法，可以先从音频样本集中选取与目标唤醒词相关的第一预设数量的目标音频样本，并针对所选取的每个目标音频样本，将该目标音频样本的音素序列作为该目标音频样本的目标音素序列，进而执行步骤S101、确定已从音频样本集中选取的各个与目标唤醒词相关的目标音频样本的目标音素序列。

S102：比较所有目标音素序列中第一音素的总数量和第二音素的总数量，得到比较结果。

其中，第一音素为对应目标唤醒词的音素，第一音素与目标唤醒词相关；第二音素为未对应目标唤醒词的音素，第二音素与目标唤醒词无关。

在本申请实施例中，在确定各个目标音频样本的目标音素序列后，获取所有目标音素序列中与目标唤醒词相关的第一音素的总数量以及所有目标音素序列中与目标唤醒词无关的第二音素的总数量，进而将第一音素的总数量和第二音素的总数量的第一比例确定为比较结果。

作为本申请实施例的一种优选方式，可以先确定第一音素的总数量和第二音素的总数量的第一比例，进而将第一比例确定为比较结果。其中，确定第一音素的总数量和第二音素的总数量的第一比例的方式可以为：将第一音素的总数量除以第二音素的总数量得到第一比例；或者，将第二音素的总数量除以第一音素的总数量得到第一比例。

以上仅仅是本申请实施例提供的一种确定第一音素的总数量和第二音素的总数量的第一比例的优选方式，有关于确定第一音素的总数量和第二音素的总数量的第一比例的具体方式，发明人可根据自己的需求进行设置，本申请实施例不加以限定。

S103：判断比较结果是否满足预先设置的样本生成条件；若比较结果不满足样本生成条件，执行步骤S104；若比较结果满足样本生成条件，执行步骤S106。

在本申请实施例中，预先设置有样本生成条件，该样本生成条件可以指示预先设置的阈值范围，比如，阈值范围可以为9％～11％。

需要说明的是，在将第一音素的总数量除以第二音素的总数量的结果作为第一比例时，阈值范围表征第一音素的总数量除以第二音素的总数量的目标比例；在将第二音素的总数量除以第一音素的总数量的结果作为第二比例时，阈值范围表征第二音素的总数量除以第一音素的总数量的目标比例。

有关于样本生成条件指示的预先设置的阈值范围的具体内容，发明人可根据自己的需求进行设置，本申请实施例不加以限定。

在具体执行步骤S103的过程中，预先设置有样本生成条件，且该预先设置的样本生成条件指示预先设置的阈值范围，在比较目标音素序列中第一音素的总数量和第二音素的总数量生成比较结果后，判断比较结果是否位于预先设置的样本生成条件指示的预先设置的阈值范围，若比较结果位于预先设置的阈值范围内，确定比较结果满足样本生成条件，执行步骤S106，若比较结果不位于预先设置的阈值范围内，确定比较结果不满足样本生成条件，执行步骤S104。

以比较结果为第一比例，第一比例为第一音素的总数量除以第二音素的总数量的结果为例，当预先设置的样本生成条件指示的预先设置的阈值范围为9％～11％时。若已选取的与目标唤醒词相关的所有目标音频样本的目标音素序列中的第一音素的总数量为200，第二音素的总数量为2000，确定第一比例为10％，因为10％位于阈值范围9％～11％内，确定比较结果满足样本生成条件。

反之，若已选取的与目标唤醒词相关的所有目标音频样本的目标音素序列中的第一音素的总数量为200，第二音素的总数量为1000，确定第一比例20％，因为20％不位于阈值范围9％～11％内，确定比较结果不满足样本生成条件。

S104：从音频样本集中选取与目标唤醒词相关的目标音频样本；

在具体执行步骤S104的过程中，当所有目标音素序列中的第一音素的总数量和第二音素的总数量生成的比较结果不满足预先设置的样本生成条件时，从音频样本集中随机选取与目标唤醒词相关第二预设数量的目标音频样本，需要注意的是，音频样本集中同一音频样本不能重复被选取作为目标唤醒词的目标音频样本。

比如，在获取目标唤醒词后，从预先设置的音频样本集选取100个与目标唤醒词相关的目标音频样本，进而确定这100个目标音频样本中每个目标音频样本的目标音素序列，当这100个目标音素序列中的第一音素的总数量和第二音素的总数量生成的比较结果不满足预先设置的样本生成条件时，从音频样本集中除之前已被选取的与目标唤醒词相关的目标音频样本以外的其他音频样本，选取与目标唤醒词相关的1个目标音频样本。

以上仅仅是本申请实施例提供的预设第一数量和预设第二数量的优选方式，有关第一预设数量和第二预设数量的具体内容，发明人可根据自己的需求进行设置，在此不做限定。

S105：基于比较结果对当前选取的目标音频样本的音素序列进行处理生成目标音素序列；

本申请实施例，可以获取与目标唤醒词的标准音素序列相关的至少一个标准子音素序列，基于比较结果和至少一个标准子音素序列对当前选取的目标音频样本的音素序列进行处理以生成当前选取的目标音频样本的目标音素序列。

在本申请实施例中，预先设置有音素表，该预先设置的音素表中存储有至少一个字符以及至少一个字符中每个音素对应的标准音素值。

作为本申请实施例的一种优选方式，与目标唤醒词的标准音素序列相关的至少一个标准子音素序列的生成过程可以为：在获取目标唤醒词后，确定目标唤醒词中的每个字符的音素；查询预先设置的音素表，获取目标唤醒词中每个字符的音素对应标准音素值，根据目标唤醒词中各个字符的音素的标准音素值生成目标唤醒词的标准音素序列；对所生成的标准音素序列中连续出现的音素值相同的各个音素值进行整合生成第一标准音素序列；在第一标准序列的第一个音素之前和最后一个音素之后分别添加一个第六音素生成第二标准音素序列；按照第二标准音素序列中音素顺序依次生成与第二标准音素序列相关的各个标准子音素序列。

其中，标准子音素序列中音素的数量为预先设置的目标数量，第六音素的音素值为1，需要说明的是，音素值为1的第六音素为静音音素或者背景噪声音素。

在本申请实施例中，对所生成的标准音素序列中连续出现的音素值相同的各个音素进行整合可以理解为：将标准音素序列中连续出现的音素值相同的各个音素的数量修改为1个。

比如，当目标唤醒词为“嗨大小姐”时，确定“嗨”这个字符由连续的三个音素构成，进而查询预先设置的音素表确定这三个音素的标准音素值依次为[34，2，36]；确定“大”这个字符由连续的三个音素构成，进而查询预先设置的音素表确定这三个音素的标准音素值依次为[15，2，2]；确定“小”这个字符由连续的三个音素构成，进而查询预先设置的音素表确定这三个音素的标准音素值依次为[96，2，69]；确定“姐”这个字符由连续的三个音素构成，进而查询预先设置的音素表确定这三个音素的标准音素值依次为[45，36，21]；根据目标唤醒词中依次出现的各个字符的各个标准音素值生成的目标唤醒词的标准音素序列为[34，2，36，15，2，2，96，2，69，45，36，21]；对标准音素序列中连续出现的音素值相同的各个音素值进行整合生成的第一标准音素序列为[34，2，36，15，2，96，2，69，45，36，21]；在第一标准音素序列的第一个音素之前和最后一个音素之后分别添加一个第六音素生成第二标准音素序列为[1，34，2，36，15，2，96，2，69，45，36，21，1]，进而将该第二标准音素序列作为目标唤醒词的标准音素序列。

当目标唤醒词为“嗨大小姐”时，目标唤醒词的标准音素序列可参见图2，当预先设置标准子音素序列中音素的数量为3时，将第二标准音素序列(目标唤醒词的标准音素序列)中第六音素以外的每个音素作为目标音素，并选取与目标音素相连的前一个音素和后一个音素组成一个标准子音素序列，按照第二标音素序列中音素顺序，依次生成与标准音素序列相关的各个标准子音素序列分别为[1，34，2]、[34，2，36]、[2，36，15]…[45，36，21]、[36，21，1]。

在具体执行步骤S105的过程中，在从音频样本集中选取与目标唤醒词相关的目标音频样本后，获取与所述目标唤醒词的标准音素序列相关的至少一个标准子音素序列，根据至少一个标准子音素序列确定当前选取的目标音频样本的音素序列中的第三音素以及第四音素；进而根据比较结果对当前选取的目标音频样本的音素序列中位于第三音素之前的音素以及位于第四音素之后的音素进行调整，生成当前获取的目标音频样本的目标音素序列。

其中，第三音素为当前选取的目标音频样本的音素序列中第一个第一音素，第四音素为当前选取的所述目标音频样本的音素序列中最后一个第一音素。

在本申请实施例中，生成当前选取的目标音频样本的目标音素序列的方式可以为：确定与当前选取目标音频样本的音素序列相关的各个子音素序列，进而从各个子音素序列中选取出标准子音素序列；将选取出的标准字音素序列中位于中间的音素确定为目标音素，获取所选取的标准子音素序列中的目标音素；将当前选取的目标音频样本的音素序列中与目标音素对应的音素确定为第一音素；按照所确定的各个第一音素在当前选取的所述目标音频样本的音素序列中的顺序对所确定的各个第一音素进行排序，将排序最靠前的第一音素确定为第三音素，将排序最靠后的第一音素确定为第四音素；将当前选取的目标音频样本的音素序列中除所确定的第一音素外的其他音素作为第二音素，进而从当前选取的目标音频样本的音素序列的第二音素中选取表征音频音素的第五音素；将所选取的目标音频样本的音素序列中的第五音素修改为预设音素值生成第一音素序列，进而根据比较结果对第一音素序列中位于第三音素之前的音素数量和位于第四音素之后的音素数量进行调整生成第二音素序列，即生成当前获取目标音频样本的目标音素序列。

其中，子音素序列和标准子音素序列中音素数量相同。

在本申请实施例中，与目标音频样本的音素序列相关的各个子音素序列的生成过程可参见与目标唤醒词的标准音素序列相关的至少一个标准子音素序列的生成过程，这里不再进行赘述。

作为本申请实施例的一种优选方式，在确定与当前选取目标音频样本的音素序列相关的各个子音素序列后，从各个子音素序列中选取出标准子音素序列的方式可以为：在确定与目标唤醒词的标准音素序列相关的至少一个标准子音素序列，以及与当前选取的目标音频样本的音素序列相关的各个子音素序列后，将各个子音素序列中与至少一个标准子音素序列中任意一个标准子音素序列相同的子音素序列作为从各个子音素序列中选取出的标准子音素序列。

比如，当目标唤醒词为“嗨大小姐”时，目标唤醒词的标准音素序列为如图2所示的音素序列，进而确定与目标唤醒词的标准音素序列相关的至少一个标准子音素序列为[1，34，2]、[34，2，36]、[2，36，15]、[36，15，2]、[15，2，96]、[2，96,，5]、[96，5，96]…[45，36，21]、[36，21，1]；若当前选取的目标音频样本的目标音素序列为如图3所示的音素序列，可确定与当前选取的目标音频样本的音素序列相关的各个子音素序列为[1，96，5]、[96，5，69]…[36，21，1]；各个子音素序列中与至少一个标准字音素序列相同的子音素序列为[96，5，96]和[36，21，1]，进而将[96，5，96]和[36，21，1]作为从各个子音素序列中选取出的标准子音素序列。

在本申请实施例中，第五音素为除静音音素和背景噪音音素以外的未对应目标唤醒词的音素。第五音素的音素值可以为0，有关于第五音素的音素值的具体数值，发明人可根据自己的需求进行设置，本申请实施例不加以限定。

比如，在从音频样本集中选取与目标唤醒词相关的目标音频样本后，将获取的目标音频样本输入音素识别模型中，得到目标音频样本的音素序列，该目标样本的音素序列图3所示。

当目标唤醒词为“嗨大小姐”时，目标唤醒词的标准音素序列为如图2所示的音素序列，进而确定与目标唤醒词的标准音素序列相关的至少一个标准子音素序列为[1，34，2]、[34，2，36]、[2，36，15]、[36，15，2]、[15，2，96]、[2，96,，5]、[96，5，96]…[45，36，21]、[36，21，1]；若当前选取的目标音频样本的音素序列为如图3所示的音素序列，可确定与当前选取的目标音频样本的音素序列相关的各个子音素序列为[1，96，5]、[96，5，69]…[36，21，1]；各个子音素序列中与至少一个标准字音素序列相同的子音素序列为[96，5，96]和[36，21，1]，进而将[96，5，96]和[36，21，1]作为从各个子音素序列中选取出的标准子音素序列；将选取出的标准字音素序列中位于中间的音素确定为目标音素，获取所选取的标准子音素序列中的目标音素为“5”和“21”；将当前选取的目标音频样本的音素序列中与选取出的标准子音素序列中的目标音素对应的各个音素中的每个音素确定为一个第一音素，即将当前选取的目标音频样本的音素序列中与选取出的标准子音素序列中的目标音素“5”对应的连续出现的各个“5”中的每个“5”确定为一个第一音素，以及将当前选取的目标音频样本的音素序列中与选取出的标准子音素序列中的目标音素“21”对应的连续出现的各个“21”中的每个“21”确定为一个第一音素；进而按照所确定连续出现的各个“5”和连续出现的各个“21”在当前选取的目标音频样本的音素序列中的顺序对所确定的连续出现的各个“5”以及连续出现的各个“21”进行排序；将排位最靠前的第一音素“5”确定为第三音素，将排位最靠后的第一音素“21”确定为第四音素；将当前选取的目标音频样本的音素序列中除所确定的连续出现的各个“5”和连续出现的各个“21”外的其他音素作为第二音素；从当前选取的目标音频样本的音素序列的第二音素中选取出除音素值为1以外的未对应目标唤醒词的音素作为第五音素，并将第五音素的音素值修改为0，得到第一音素序列；进而根据比较结果对第一音素序列中位于第三音素之前的音素数量和位于第四音素之后的音素数量进行调整生成第二音素序列；将该第二音素序列作为基于比较结果对当前选取的目标音频样本的音素序列进行处理生成目标音素序列，其中，基于比较结果对当前选取的目标音频样本的音素序列进行处理生成目标音素序列如图4所示。

在本申请实施例中，在执行完步骤S105后返回执行步骤S101。

S106：将已选取的各个目标音频样本的目标音素序列确定为目标唤醒词的样本。

本发明提供的一种样本生成方法，当出现新的唤醒词时，可以从已有的音频样本集中获取唤醒词的正负样本，不需要进行大量的正样本录制；并且，基于已选取的与目标唤醒词相关的所有目标音频样本的目标音素序列中第一音素的总数量和第二音素的总数量的比较结果，对后续选取的与目标唤醒词相关的目标音频样本的音素序列进行的自动调整生成目标音频样本的目标音素序列的方式，可以控制唤醒词样本选取过程向满足样本生成条件的趋势发展，避免了现有技术反复挑选负样本的过程，减少了样本生成耗时。

参考图5，示出了本发明实施例提供的另一种样本生成方法的流程示意图，该样本生成方法包括以下步骤：

S501：确定已从音频样本集中选取的各个与目标唤醒词相关的目标音频样本的目标音素序列；

S502：比较所有目标音素序列中第一音素的总数量和第二音素的总数量，得到比较结果；

S503：判断比较结果是否满足预先设置的样本生成条件；若比较结果不满足样本生成条件，执行步骤S504；若比较结果满足样本生成条件，执行步骤S508。

S504：从音频样本集中选取与目标唤醒词相关的目标音频样本；

在具体执行步骤S501至步骤S504的过程中，步骤S501至步骤S504的具体实现原理和执行过程与步骤S101至步骤S104的具体实现原理和执行过程相同，可参见上述图1公开的相应部分，这里不再进行赘述。

S505：确定当前获取的目标音频样本的音素序列中第一音素的总数量和第二音素的总数量的第二比例；

在本申请实施例中，从音频样本集中随机选取与目标唤醒词相关第二预设数量的目标音频样本，获取所选取的目标音频样本的音素序列中第一音素的总数量以及所选取的目标音频样本的音素序列中第二音素的总数量，进而根据所获取的第一音素的总数量和第二音素的总数量确定第二比例。

作为本申请实施例的一种优选方式，根据当前选取的目标音频样本的音素序列中第一音素的总数量和第二音素的总数量确定第二比例的方式可以为：在获取所选取的目标音频样本的音素序列中第一音素的总数量以及所选取的目标音频样本的音素序列中第二音素的总数量后，将第一音素的总数量除以第二音素的总数量得到第二比例，或者，将第二音素的总数量除以第一音素的总数量得到二比例。

以上仅仅是本申请实施例提供的一种根据当前选取的目标音频样本的音素序列中第一音素的总数量和第二音素的总数量确定第二比例的优选方式，有关于根据当前选取的目标音频样本的音素序列中第一音素的总数量和第二音素的总数量确定第二比例的具体方式，发明人可根据自己的需求进行设置，本申请实施例不加以限定。

S506：根据比较结果和第二比例确定是否选取当前获取的目标音频样本；若确定将当前获取的目标音频样本作为从音频样本集中选取与目标唤醒词相关的目标音频样本，执行步骤S507，若确定不将当前获取的目标音频样本作为从音频样本集中选取与目标唤醒词相关的目标音频样本，执行步骤S504。

在本申请实施例中，根据比较结果和第二比例确定是否选取当前获取的目标音频样本的方式可以为：将所有目标音素序列中第一音素的总数量除以第二音素的总数量得到第一比例，若第一比例大于预先设置的样本生成条件指示的阈值范围中最大的数值时，说明第一音素的总数量所占的比例大于第二音素的总数量所占的比例；将当前选取的目标音频样本的音素序列中第一音素的总数量除以第二音素的总数量得到第二比例，若第二比例表征当前获取的目标音频样本的音素序列中的第一音素的总数量所占的比例小于当前获取的目标音频样本的音素序列中的第二音素的总数量所占的比例，则确定可以将当前选取的目标音频样本作为从音频样本集中选取与目标唤醒词相关的目标音频样本；若第二比例表征当前选取的目标音频样本的音素序列中的第一音素的总数量所占的比例不小于当前选取的目标音频样本的音素序列中第二音素的总数量所占的比例，则确定不将当前选取的目标音频样本作为从音频样本集中选取与目标唤醒词相关的目标音频样本。

S507：基于比较结果对当前选取的目标音频样本的音素序列进行处理生成目标音素序列；

在本申请实施例中，在执行完步骤S507后返回执行步骤S501。

在具体执行步骤S507的过程中，步骤S507的具体实现原理和执行过程与步骤S105的具体实现原理的执行过程相同，可参见图1公开的相应部分，这里不再进行赘述。

S508：将已选取的各个所述目标音频样本的目标音素序列确定为所述目标唤醒词的样本。

在本发明实施例中，在确定根据所有目标音素序列中第一音素的总数量，以及所有目标音素序列中第二音素的总数量生成的比较结果不满足预先设置的样本生成条件时，从音频样本集中随机选取与目标唤醒词相关第二预设数量的目标音频样本，并基于所选取的与目标唤醒词相关的第二预设目标音频样本的目标音素序列中第一音素的总数量和第二音素的总数量的第二比例，进而根据比较结果和第二比例确定是否将当前选取的与目标唤醒词相关第二预设数量的目标音频样本作为音频样本集中选取与目标唤醒词相关的目标音频样本。

与上述本发明提供的一种样本生成方法相对应，本发明还提供了一种样本生成装置，如图6所示，该样本生成装置包括：

目标音素序列确定单元61，用于确定已从音频样本集中选取的各个与目标唤醒词相关的目标音频样本的目标音素序列；

比较单元62，用于比较所有目标音素序列中第一音素的总数量和第二音素的总数量，得到比较结果，第一音素与目标唤醒词相关，第二音素与目标唤醒词无关；

第一判断单元63，用于判断比较结果是否满足预先设置的样本生成条件；

第一选取单元64，用于若比较结果不满足样本生成条件，从音频样本集中选取与目标唤醒词相关的目标音频样本；

第一生成单元65，用于基于比较结果对当前选取的目标音频样本的音素序列进行处理生成目标音素序列；

第一确定单元66，用于若比较结果满足样本生成条件，将已选取的各个目标音频样本的目标音素序列确定为目标唤醒词的样本。

上述本发明实施例公开的样本生成装置中各个单元具体的原理和执行过程，与上述本发明实施例公开的服务请求方法相同，可参见上述本发明实施例公开的样本生成方法中相应的部分，这里不再进行赘述。

本发明提供的一种样本生成装置，当出现新的唤醒词时，可以从已有的音频样本集中获取唤醒词的正负样本，不需要进行大量的正样本录制；并且，基于已选取的与目标唤醒词相关的所有目标音频样本的目标音素序列中第一音素的总数量和第二音素的总数量的比较结果，对后续选取的与目标唤醒词相关的目标音频样本的音素序列进行的自动调整生成目标音频样本的目标音素序列的方式，可以控制唤醒词样本选取过程向满足样本生成条件的趋势发展，避免了现有技术反复挑选负样本的过程，减少了样本生成耗时。

在本申请实施例中，比较单元，包括：

第一获取单元，用于获取所有目标音素序列中第一音素的总数量以及所有目标音素序列中第二音素的总数量；

第二确定单元，用于将第一音素的总数量和第二音素的总数量的第一比例确定为比较结果；

在本申请实施例中，第一判断单元，包括：

第二判断单元，用于判断比较结果是否位于预先设置的样本生成条件指示的阈值范围；

第三确定单元，用于若比较结果位于阈值范围，确定比较结果满足样本生成条件；

第四确定单元，用于若比较结果没有位于阈值范围，确定比较结果不满足样本生成条件；

进一步的，本申请实施例提供的一种样本生成装置，还包括：

第二获取单元，用于从音频样本集中获取与目标唤醒词相关的目标音频样本；

第五确定单元，用于确定当前获取的目标音频样本的音素序列中第一音素的总数量和第二音素的总数量的第二比例；

第六确定单元，用于根据比较结果和第二比例确定是否选取当前获取的目标音频样本；

第七确定单元，用于若根据比较结果和第二比例确定选取当前获取的目标音频样本，将当前获取的目标音频样本作为从音频样本集中选取与目标唤醒词相关的目标音频样本。

在本申请实施例中，第一生成单元，包括：

第三获取单元，用于获取与目标唤醒词的标准音素序列相关的至少一个标准子音素序列；

第八确定单元，用于根据至少一个标准子音素序列确定当前选取的目标音频样本的音素序列中的第三音素以及第四音素，第三音素为当前选取的目标音频样本的音素序列中第一个第一音素，第四音素为当前选取的目标音频样本的音素序列中最后一个第一音素；

第二生成单元，用于根据比较结果对当前选取的目标音频样本的音素序列中位于第三音素之前的音素以及位于第四音素之后的音素进行调整生成目标音素序列。

在本申请实施例中，第八确定单元，包括：

第九确定单元，用于确定与当前选取的目标音频样本的音素序列相关的各个子音素序列，子音素序列和标准子音素序列中音素数量相同；

第二选取单元，用于从各个子音素序列中选取出标准子音素序列；

第四获取单元，用于获取所选取的标准子音素序列中的目标音素；

第十确定单元，用于将当前选取的目标音频样本的音素序列中与目标音素对应的音素确定为第一音素，并将当前选取的目标音频样本的音素序列中除所确定的第一音素外的其他音素作为第二音素；

第十一确定单元，用于按照所确定的各个第一音素在当前选取的目标音频样本的音素序列中的顺序对所确定的各个第一音素进行排序，将排序最靠前的第一音素确定为第三音素，将排序最靠后的第一音素确定为第四音素。

在本申请实施例中，第二生成单元，包括：

第三选取单元，用于从当前选取的目标音频样本的音素序列的第二音素中选取表征音频音素的第五音素；

修改单元，用于将当前选取的目标音频样本的音素序列中第五音素的音素值修改为预设音素值生成第一音素序列；

第三生成单元，用于根据比较结果对第一音素序列中位于第三音素之前的音素数量以及位于第四音素之后的音素数量进行调整生成第二音素序列。

进一步的，本申请实施例提供的一种样本生成装置还包括：生成与目标唤醒词的标准音素序列相关的至少一个标准子音素序列的过程，该过程包括：

第四生成单元，用于根据目标唤醒词中各个字符的音素的标准音素值生成目标唤醒词的标准音素序列；

第五生成单元，用于对标准音素序列中连续出现的音素值相同的各个音素值进行整合生成第一标准音素序列；

添加单元，用于在第一标准音素序列的第一个音素之前和最后一个音素之后分别添加一个第六音素生成第二标准音素序列，第六音素的音素值为1；

第六生成单元，用于按照第二标准音素序列中音素顺序，依次生成与第二标准音素序列相关的各个标准子音素序列。

下面以请求方法应用于服务端为例，对本申请实施例提供的一种样本生成方法所适用于的服务端的硬件结构进行详细说明。

本申请实施例提供的一种样本生成方法可应用于服务端，该服务端可以是网络侧为用户提供服务的服务设备，其可能是多台服务器组成的服务器集群，也可能是单台服务器。

可选的，图7示出了本申请实施例提供的一种样本生成方法所适用于的服务端的硬件结构框图，参照图7，服务端的硬件结构可以包括：处理器61，通信接口72，存储器73和通信总线74；

在本发明实施例中，处理器71、通信接口72、存储器73、通信总线74的数量均可以为至少一个，且处理器71、通信接口72、存储器73通过通信总线74完成相互间的通信；

处理器71可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器73可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，程序用于：

比较所有目标音素序列中第一音素的总数量和第二音素的总数量生成比较结果，第一音素与所述目标唤醒词相关，第二音素与所述目标唤醒词无关；

判断比较结果是否满足预先设置的样本生成条件；

若比较结果不满足所述样本生成条件，从音频样本集中选取与目标唤醒词相关的目标音频样本；

基于比较结果对当前选取的目标音频样本的音素序列进行处理，得到目标音素序列；

若比较结果满足所述样本生成条件，将已选取的各个目标音频样本的目标音素序列确定为目标唤醒词的样本。

有关程序的功能可参见上文对本申请实施例提供的一种样本生成方法的详细描述，在此不做赘述。

进一步的，本申请实施例还提供一种计算机可读计算机存储介质，该计算机可读存储介质中存储有计算机可执行指令，该计算机可执行指令用于执行上述样本生成方法。

有关计算机可执行指令的具体内容可参见上文对本申请实施例提供的一种样本生成方法的详细描述，在此不做赘述。

以上对本发明所提供的一种样本生成方法、装置、服务器及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素，或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种样本生成方法，其特征在于，包括：

判断所述比较结果是否满足预先设置的样本生成条件；

2.根据权利要求1所述的方法，其特征在于，所述比较所有所述目标音素序列中第一音素的总数量和第二音素的总数量，得到比较结果，包括：

将所述第一音素的总数量和所述第二音素的总数量的第一比例确定为比较结果，所述第一比例为所有所述目标音素序列中第一音素的总数量除以所有所述目标音素序列中第二音素的总数量或所有所述目标音素序列中第二音素的总数量除以所有所述目标音素序列中第一音素的总数量。

3.根据权利要求2所述的方法，其特征在于，所述判断所述比较结果是否满足预先设置的样本生成条件，包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

确定当前获取的所述目标音频样本的音素序列中第一音素的总数量和第二音素的总数量的第二比例，所述第二比例为当前获取的所述目标音频样本的音素序列中的第一音素的总数量除以当前获取的所述目标音频样本的音素序列中的第二音素的总数量或当前获取的所述目标音频样本的音素序列中的第二音素的总数量除以当前获取的所述目标音频样本的音素序列中的第一音素的总数量；

5.根据权利要求1所述的方法，其特征在于，所述基于所述比较结果对当前选取的所述目标音频样本的音素序列进行处理生成目标音素序列，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述至少一个标准子音素序列确定当前选取的所述目标音频样本的音素序列中第三音素以及第四音素，包括：

从各个所述子音素序列中选取出所述标准子音素序列；

获取所选取的标准子音素序列中的目标音素；

7.根据权利要求6所述的方法，其特征在于，所述根据所述比较结果对当前选取的所述目标音频样本的音素序列中位于所述第三音素之前的音素以及位于所述第四音素之后的音素进行调整生成目标音素序列，包括：

8.根据权利要求1所述的方法，其特征在于，还包括生成与所述目标唤醒词的标准音素序列相关的至少一个标准子音素序列的过程，该过程包括：

在所述第一标准音素序列的第一个音素之前和最后一个音素之后分别添加一个第六音素生成第二标准音素序列，所述第六音素的音素值为1，所述音素值为预先设置的音素表内字符中每个音素对应的数值，音素值为1的第六音素为静音音素或者背景噪声音素；

9.一种样本生成装置，其特征在于，包括：

10.一种服务器，其特征在于，至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述存储器存储的程序，所述程序用于实现如权利要求1-8任意一项所述的样本生成方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1-8任意一项所述的样本生成方法。