CN113903340A

CN113903340A - 样本筛选方法及电子设备

Info

Publication number: CN113903340A
Application number: CN202010558607.7A
Authority: CN
Inventors: 杨晓帆; 冯大航; 陈孝良
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2022-01-07

Abstract

本发明提供一种样本筛选方法及电子设备，所述方法包括：对语音样本集中每个语音样本进行语音识别；将所述每个语音样本的语音识别结果分别与预设文本进行比对，得到所述每个语音样本对应的比对结果；基于所述每个语音样本对应的比对结果对所述语音样本集进行样本筛选。本发明实施例能够提高训练的模型的准确性。

Description

样本筛选方法及电子设备

技术领域

本发明涉及数据处理技术领域，尤其涉及一种样本筛选方法及电子设备。

背景技术

随着物联网技术的发展，智能家居越来越受到人们的欢迎。智能家居通过物联网将各种设备连接到一起，提供家电控制、照明控制、室内外遥控等多种功能和手段。通常采用语音方式实现人与智能家居设备的交互。

为实现人与智能家居设备之间的语音交互，需要采用语音训练样本对智能家居设备进行模型训练。目前，采用人工录制的语音进行模型训练，然而，人工录制的语音，可能会存在截断、录制人说错、录制被打断等问题。采用不准确的语音训练样本进行模型训练会导致训练的模型准确性较低。

发明内容

本发明实施例提供一种样本筛选方法及电子设备，以解决现有技术中采用不准确的语音训练样本进行模型训练会导致训练的模型准确性较低的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种样本筛选方法，应用于电子设备，所述方法包括：

对语音样本集中每个语音样本进行语音识别；

将所述每个语音样本的语音识别结果分别与预设文本进行比对，得到所述每个语音样本对应的比对结果；

基于所述每个语音样本对应的比对结果对所述语音样本集进行样本筛选。

第二方面，本发明实施例提供了一种电子设备，所述电子设备包括：

识别模块，用于对语音样本集中每个语音样本进行语音识别；

比对模块，用于将所述每个语音样本的语音识别结果分别与预设文本进行比对，得到所述每个语音样本对应的比对结果；

筛选模块，用于基于所述每个语音样本对应的比对结果对所述语音样本集进行样本筛选。

第三方面，本发明实施例提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如第一方面所述的样本筛选方法中的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的样本筛选方法中的步骤。

本发明实施例中，对语音样本集中每个语音样本进行语音识别；将所述每个语音样本的语音识别结果分别与预设文本进行比对，得到所述每个语音样本对应的比对结果；基于所述每个语音样本对应的比对结果对所述语音样本集进行样本筛选。这样，通过将所述每个语音样本的语音识别结果分别与预设文本进行比对，从而对所述语音样本集进行样本筛选，能够筛选掉不准确的语音训练样本，从而能够提高训练的模型的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种样本筛选方法的流程图；

图2是本发明实施例提供的一种电子设备的结构示意图之一；

图3是本发明实施例提供的一种电子设备的结构示意图之二；

图4是本发明实施例提供的一种电子设备的结构示意图之三；

图5是本发明实施例提供的一种电子设备的结构示意图之四。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载移动终端、可穿戴设备、以及计步器等。

参见图1，图1是本发明实施例提供的一种样本筛选方法的流程图，所述方法应用于电子设备，如图1所示，包括以下步骤：

步骤101、对语音样本集中每个语音样本进行语音识别。

其中，所述语音样本集中可以包括至少一个语音样本。所述语音样本集中的语音样本可以为人工录制的语音数据，或者，可以是从各种语音库中搜集的语音数据，或者还可以是在公共场合采集的语音数据等等，本发明实施例对此不进行限定。

另外，对语音样本集中每个语音样本进行语音识别，可以是，将第一语音样本输入到声学模型进行处理，以得到所述第一语音样本的多条路径的声学分值，将所述第一语音样本输入到语言模型进行处理，以得到所述第一语音样本的所述多条路径的语言分值，依据所述多条路径的声学分值和语言分值，从所述多条路径选择第一路径作为所述第一语音样本的语音识别结果，其中，所述第一语音样本为所述语音样本集中的任一语音样本；或者，还可以是，采用语音识别软件对语音样本集中每个语音样本进行语音识别；或者，还可以采用模式匹配法进行语音识别，在训练阶段，用户将词汇表中的每一个词依次说一遍，将其特征矢量作为模板存入模板库，在识别阶段，将每个语音样本的特征矢量依次与模板库中的每个模板进行相似度比较，将相似度最高者作为语音识别结果。

步骤102、将所述每个语音样本的语音识别结果分别与预设文本进行比对，得到所述每个语音样本对应的比对结果。

其中，所述预设文本可以为唤醒词对应的文本，或者可以为控制指令对应的文本，或者还可以为其他预先设置的文本。若所述预设文本为唤醒词对应的文本，则可以采用筛选后的语音样本集中的语音样本对唤醒模型进行训练；若所述预设文本为控制指令对应的文本，则可以采用筛选后的语音样本集中的语音样本对识别模型进行训练，训练后的识别模型可以用于识别用户对电子设备的控制指令。

另外，所述将所述每个语音样本的语音识别结果分别与预设文本进行比对，可以是将所述每个语音样本的语音识别结果中的文本内容与预设文本的文本内容进行比对。若语音样本的语音识别结果中的文本内容与预设文本的文本内容相同，则该语音样本对应的比对结果可以为相同；若语音样本的语音识别结果中的文本内容与预设文本的文本内容不相同，则该语音样本对应的比对结果可以为不相同。例如，预设文本为：“大大小小”，若语音样本的语音识别结果为：“大小小”，则该语音样本对应的比对结果可以为不相同；若语音样本的语音识别结果为：“大大小小”，则该语音样本对应的比对结果可以为相同。

步骤103、基于所述每个语音样本对应的比对结果对所述语音样本集进行样本筛选。

其中，可以将语音样本集中语音样本对应的比对结果为不相同的语音样本从语音样本集中删除，保留语音样本集中语音样本对应的比对结果为相同的语音样本。

可选的，所述预设文本为唤醒词对应的文本。

其中，唤醒词用于将电子设备从待机状态唤醒并切换到工作状态。唤醒词是触发一轮人机语音交互的起始点。电子设备在接收到用户的唤醒词语音后，可以从待机状态唤醒并切换到工作状态。

该实施方式中，所述预设文本为唤醒词对应的文本，可以对训练唤醒模型的训练样本进行样本筛选，保留质量较好的唤醒训练样本，从而可以提高训练的唤醒模型的准确性，优化唤醒效果。

可选的，所述基于所述每个语音样本对应的比对结果对所述语音样本集进行样本筛选之后，所述方法还包括：

采用筛选后的语音样本集中的语音样本对唤醒模型进行训练。

其中，筛选后的语音样本集中的语音样本的语音识别结果可以与唤醒词对应的文本相同，因此，筛选后的语音样本集中的语音样本不存在截断、录制人说错、录制被打断等有问题的语音样本。筛选后的语音样本集中的语音样本可以为删除不准确的语音样本后的语音样本集。

该实施方式中，采用筛选后的语音样本集中的语音样本对唤醒模型进行训练，能够筛选掉不准确的语音训练样本，从而能够提高训练的模型的准确性。

可选的，所述对语音样本集中每个语音样本进行语音识别，包括：

将第一语音样本输入到声学模型进行处理，以得到所述第一语音样本的多条路径的声学分值；

将所述第一语音样本输入到语言模型进行处理，以得到所述第一语音样本的所述多条路径的语言分值；

依据所述多条路径的声学分值和语言分值，从所述多条路径选择第一路径作为所述第一语音样本的语音识别结果；

其中，所述第一语音样本为所述语音样本集中的任一语音样本。

其中，所述声学模型可以为时间延迟神经网络(TDNN)模型，或者，还可以为其他神经网络模型。可以通过声学模型得到语音特征到音素的映射，可以通过词典将词串转换为音素串。语言模型可以表示某一文本发生的概率，可以将该文本发生的概率拆解成其中每个字或词的概率之积。语言模型可以采用n-gram模型。可以是将第一语音样本的每帧信号的语音特征输入到声学模型和语言模型进行处理。可以通过解码器依据所述多条路径的声学分值和语言分值，从所述多条路径选择第一路径作为所述第一语音样本的语音识别结果。

另外，将第一语音样本输入到声学模型和语言模型，可以通过声学模型和语言模型分析得到可能与第一语音样本匹配的多个文本，所述多个文本中每个文本在分析的过程中可以对应一条路径，每条路径可以由多条边组成，每条边可以表示文本中的一个字或词，通过声学模型和语言模型分析可以得到该字或词的声学分值和语言分值。可以将组成路径的边表示的字或词的声学分值相加作为该路径的声学分值，可以将组成路径的边表示的字或词的语言分值相加作为该路径的语言分值。例如，第一语音样本可以为“我真的好”，可能与第一语音样本匹配的多个文本可以包括“我真的好”和“我真得好”，每个文本对应一条路径。表示“我真的好”的路径可以包括三条边，每条边分别表示“我”、“真的”以及“好”，表示“我真得好”的路径可以包括三条边，每条边分别表示“我”、“真得”以及“好”。可以通过回溯所述第一语音样本的多条路径，从所述多条路径中选择第一路径。

进一步的，所述依据所述多条路径的声学分值和语言分值，从所述多条路径选择第一路径作为所述第一语音样本的语音识别结果，可以是，计算所述多条路径中每条路径的声学分值和语言分值的和，所述第一路径为所述多条路径中声学分值和语言分值的和最大的路径，将所述第一路径对应的文本作为所述第一语音样本的语音识别结果；或者，还可以是，从声学分值最大的路径和语言分值最大的路径中选择一条路径作为第一路径，例如，若声学分值最大的路径和语言分值最大的路径相同，则可以将该分值相同的路径作为第一路径；或者，还可以是，对多条路径的声学分值与语言分值分别进行排序，将每条路径的声学分值与语言分值排序的名次相加，将名次相加后最小的路径作为第一路径。本发明实施例对第一路径的选择方式不进行具体限定。

该实施方式中，将第一语音样本输入到声学模型进行处理，以得到所述第一语音样本的多条路径的声学分值；将所述第一语音样本输入到语言模型进行处理，以得到所述第一语音样本的所述多条路径的语言分值；依据所述多条路径的声学分值和语言分值，从所述多条路径选择第一路径作为所述第一语音样本的语音识别结果；其中，所述第一语音样本为所述语音样本集中的任一语音样本。这样，通过声学模型和语言模型对语音样本进行打分，基于声学分值和语言分值选取最优路径作为语音识别结果，能够提高语音识别结果的准确性，从而能够提高样本筛选的准确性，进而能够进一步提高训练的模型的准确性。

可选的，所述依据所述多条路径的声学分值和语言分值，从所述多条路径选择第一路径作为所述第一语音样本的语音识别结果，包括：

计算所述多条路径中每条路径的声学分值和语言分值的和，所述第一路径为所述多条路径中声学分值和语言分值的和最大的路径；

将所述第一路径对应的文本作为所述第一语音样本的语音识别结果。

其中，第一路径可以由多条边组成，每条边可以表示一个字或词，可以将第一路径上的字或词组合成的词串作为所述第一路径对应的文本。

该实施方式中，计算所述多条路径中每条路径的声学分值和语言分值的和，所述第一路径为所述多条路径中声学分值和语言分值的和最大的路径；将所述第一路径对应的文本作为所述第一语音样本的语音识别结果。这样，将声学分值和语言分值的和最大的路径作为最优路径，能够提高语音识别结果的准确性，从而能够提高样本筛选的准确性，进而能够进一步提高训练的模型的准确性。

参见图2，图2是本发明实施例提供的一种电子设备的结构示意图，如图2所示，电子设备200包括：

识别模块201，用于对语音样本集中每个语音样本进行语音识别；

比对模块202，用于将所述每个语音样本的语音识别结果分别与预设文本进行比对，得到所述每个语音样本对应的比对结果；

筛选模块203，用于基于所述每个语音样本对应的比对结果对所述语音样本集进行样本筛选。

可选的，所述预设文本为唤醒词对应的文本。

可选的，如图3所示，所述电子设备200还包括：

训练模块204，用于采用筛选后的语音样本集中的语音样本对唤醒模型进行训练。

可选的，如图4所示，所述识别模块201包括：

第一处理单元2011，用于将第一语音样本输入到声学模型进行处理，以得到所述第一语音样本的多条路径的声学分值；

第二处理单元2012，用于将所述第一语音样本输入到语言模型进行处理，以得到所述第一语音样本的所述多条路径的语言分值；

选择单元2013，用于依据所述多条路径的声学分值和语言分值，从所述多条路径选择第一路径作为所述第一语音样本的语音识别结果；

可选的，所述选择单元2013具体用于：

电子设备能够实现图1的方法实施例中实现的各个过程，为避免重复，这里不再赘述。

请参见图5，图5是本发明实施例提供的另一种电子设备的结构示意图，如图5所示，电子设备300包括：存储器302、处理器301及存储在所述存储器302上并可在所述处理器301上运行的程序，其中：

所述处理器301读取存储器302中的程序，用于执行：

对语音样本集中每个语音样本进行语音识别；

可选的，所述预设文本为唤醒词对应的文本。

可选的，所述处理器301还用于执行：

可选的，所述处理器301执行的所述对语音样本集中每个语音样本进行语音识别，包括：

可选的，所述处理器301执行的所述依据所述多条路径的声学分值和语言分值，从所述多条路径选择第一路径作为所述第一语音样本的语音识别结果，包括：

在图5中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器301代表的一个或多个处理器和存储器302代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。

处理器301负责管理总线架构和通常的处理，存储器302可以存储处理器301在执行操作时所使用的数据。

需要说明的是，本发明实施例方法实施例中的任意实施方式都可以被本实施例中的上述电子设备所实现，以及达到相同的有益效果，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述样本筛选方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种样本筛选方法，应用于电子设备，其特征在于，所述方法包括：

对语音样本集中每个语音样本进行语音识别；

2.根据权利要求1所述的方法，其特征在于，所述预设文本为唤醒词对应的文本。

3.根据权利要求2所述的方法，其特征在于，所述基于所述每个语音样本对应的比对结果对所述语音样本集进行样本筛选之后，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述对语音样本集中每个语音样本进行语音识别，包括：

5.根据权利要求4所述的方法，其特征在于，所述依据所述多条路径的声学分值和语言分值，从所述多条路径选择第一路径作为所述第一语音样本的语音识别结果，包括：

6.一种电子设备，其特征在于，所述电子设备包括：

7.根据权利要求6所述的电子设备，其特征在于，所述预设文本为唤醒词对应的文本。

8.根据权利要求7所述的电子设备，其特征在于，所述电子设备包括还包括：

训练模块，用于采用筛选后的语音样本集中的语音样本对唤醒模型进行训练。

9.根据权利要求6所述的电子设备，其特征在于，所述识别模块包括：

第一处理单元，用于将第一语音样本输入到声学模型进行处理，以得到所述第一语音样本的多条路径的声学分值；

第二处理单元，用于将所述第一语音样本输入到语言模型进行处理，以得到所述第一语音样本的所述多条路径的语言分值；

选择单元，用于依据所述多条路径的声学分值和语言分值，从所述多条路径选择第一路径作为所述第一语音样本的语音识别结果；

10.根据权利要求9所述的电子设备，其特征在于，所述选择单元具体用于：

11.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至5中任一项所述的样本筛选方法中的步骤。