CN110288976B

CN110288976B - 数据筛选方法、装置及智能音箱

Info

Publication number: CN110288976B
Application number: CN201910547514.1A
Authority: CN
Inventors: 陈孝良; 杨晓帆; 冯大航
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2021-09-07
Anticipated expiration: 2039-06-21
Also published as: CN110288976A

Abstract

本公开提供了一种数据筛选方法，包括：按照预设的筛选条件对待筛选数据进行数据筛选，得到目标数据；将所述目标数据进行训练，更新声学模型。本公开根据预设的筛选条件筛选数据，确定精确率高的目标数据，然后利用目标数据训练并更新声学模型，且经过多次迭代的筛选，在节省人力的情况下尽可能的保证数据质量，提高效率。

Description

数据筛选方法、装置及智能音箱

技术领域

本公开涉及数据筛选领域，尤其涉及一种数据筛选方法、装置及智能音箱。

背景技术

随着语音识别技术和人工智能的快速发展，人工智能产品越来越普及，例如智能音箱，自动驾驶、图像识别、智能书柜、聊天机器人、虚拟现实眼镜等都得到了广泛范围。而智能音箱作为使用最广泛的智能产品，在用户的使用过程中，有些产品往往存在用户的使用体验感不好的情况，其主要原因是数据的数量以及质量没有得到很好的筛选。

因此，需要一种新的数据筛选方法，方便自动准确地分出有效数据和无效数据。

公开内容

(一)要解决的技术问题

本公开的目的在于提供一种数据筛选方法、装置及智能音箱，以解决上述的至少一项技术问题。

(二)技术方案

根据本公开实施例的第一方面，提供一种数据筛选方法，包括：

按照预设的筛选条件对待筛选数据进行数据筛选，得到目标数据；

将所述目标数据进行训练，更新声学模型。

在本公开的一些实施例中，按照预设的筛选条件对待筛选数据进行数据筛选，得到目标数据，包括：

对所述待筛选数据进行音素位置标记；

根据标记后的音素确定待筛选数据是否满足筛选条件，若所述待筛选数据满足所述筛选条件，则将所述待筛选数据划分为目标数据；否则，确定所述待筛选数据不满足所述筛选条件，并删除所述待筛选数据。

在本公开的一些实施例中，根据标记后的音素确定待筛选数据是否满足筛选条件，包括：

判断所述待筛选数据中是否包括预定词的预定音素，若所述待筛选数据中包括所述预定音素，则判断所述标记后的音素的顺序是否与所述预定音素的顺序相同，若所述标记后的音素的顺序与所述预定音素的顺序相同，则确定所述待筛选数据满足所述筛选条件；否则，确定所述待筛选数据不满足所述筛选条件。

根据所述标记后的音素标记，确定所述待筛选数据的音素个数和时间长度；

根据所述待筛选数据的音素个数和时间长度，判断所述待筛选数据是否满足筛选条件。

在本公开的一些实施例中，根据所述待筛选数据的音素个数和时间长度，判断所述待筛选数据是否满足筛选条件，包括：

判断预定词的音素个数是否与所述待筛选数据的音素个数相同，若预定词的音素个数与所述待筛选数据的音素个数相同，则判断所述待筛选数据的时间长度是否在预定时间内，若所述待筛选数据的时间长度在预定时间内，则确定所述待筛选数据满足所述筛选条件；否则，确定所述待筛选数据不满足所述筛选条件。

判断所述待筛选数据中每两个字之间的停顿时间是否在预定停顿时间内，若停顿时间在所述预定停顿时间内，则确定所述待筛选数据满足所述筛选条件；否则，确定所述待筛选数据不满足所述筛选条件。

在本公开的一些实施例中，对所述待筛选数据进行音素位置标记，包括：

读取所述待筛选数据中的音频数据；

逐帧提取所述音频数据中的数据特征；

确定所述音频数据中每帧数据特征中各音素的概率值；

基于概率值，标记各音素的位置。

本公开实施例还提供了一种数据筛选装置，采用前述的数据筛选方法，训练并更新声学模型。

本公开实施例还提供了一种智能音箱，包括前述的数据筛选装置

(三)有益效果

本公开的数据筛选方法、装置及智能音箱，相较于相关技术，至少具有以下优点：

1、根据预设的筛选条件筛选数据，确定精确率高的目标数据，然后利用目标数据训练并更新声学模型，且经过多次迭代的筛选，在节省人力的情况下尽可能的保证数据质量，提高效率；

2、可以通过提取音频特征，对每帧待筛选数据进行分析，标记音素位置，能够高效、快速地筛选有效的目标数据；

3、可以根据预定词的预定音素和待筛选数据的音素的顺序、个数、时间长度以及停顿时间的至少一项，判断该待筛选数据是否满足筛选条件，由此，提高了目标数据筛选的准确率和效率；并将目标数据作为声学模型的训练数据从而更新声学模型，从而保证了数据筛选模型的准确率和效率。

附图说明

图1为本公开实施例的数据筛选方法的步骤示意图；

图2为步骤S1的子步骤的示意图；

图3为步骤S12的子步骤的示意图。

具体实施方式

相关技术中的数据筛选方法，不能通过较低的成本，方便自动准确地分出有效数据和无效数据，有鉴于此，本公开提供了一种数据筛选方法、装置及智能音箱，根据预设的筛选条件筛选数据，确定精确率高的目标数据，然后利用目标数据训练并更新声学模型，且经过多次迭代的筛选，在节省人力的情况下尽可能的保证数据质量，提高效率。

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

本公开第一实施例提供了一种数据筛选方法，图1为本公开实施例的数据筛选方法的步骤示意图，如图1所示，该方法包括以下步骤：

S1、按照预设的筛选条件对待筛选数据进行数据筛选，得到目标数据；

S2、将所述目标数据进行训练，更新声学模型。

在步骤S1中，用户可以根据实际情况提前选择合适的筛选条件，对待筛选数据进行数据筛选，保留满足筛选条件的待筛选数据，由此形成目标数据的集合，剔除不满足筛选条件的待筛选数据，从而达到高效、准确地进行数据筛选的目的。

图2为步骤S1的子步骤的示意图，如图2所示，在一些实施例中，步骤S1主要包括以下子步骤：

S11、对所述待筛选数据进行音素位置标记；

S12、根据标记后的音素确定待筛选数据是否满足筛选条件，若所述待筛选数据满足所述筛选条件，则将所述待筛选数据划分为目标数据；否则，删除所述待筛选数据。

在步骤S11中，可以根据音素位置标记待筛选数据，从而在位置标记后的待筛选数据中筛选目标数据。图3为步骤S11的子步骤的示意图，如图3所示，步骤S11可以包括以下子步骤：

S111、读取所述待筛选数据中的音频数据；

S112、逐帧提取所述音频数据中的数据特征；

S113、确定所述音频数据中每帧数据特征基于上一版模型的各音素的概率值；

S114、基于所述各音素的概率值，标记各音素的位置。

首先，在步骤S111中，接收语音形式的待筛选数据，并读取其中的音频数据。

在步骤S112中，依次逐帧提取音频数据中的数据特征，其中数据特征是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性，也就是梅尔倒谱系数。

在确定各帧的数据特征后，在步骤S113中还需确定音频数据中每帧数据特征基于上一版模型的各音素的概率值。

举例来说，“朋友”这个词语中所包含的音素依次为p，eh_l，ng_h，yv，v_l，v_l。每帧数据特征中的各音素的概率值公式满足：

其中，n为大于1的正整数，1≤i≤n，x_i为第i帧数据特征，p是音素的真实概率分布，比如：[0 1 0 0]，q表示模型所预测的音素概率分布，比如：[0.08 0.88 0.102 0.01]。

标记音素是提取的音频特征经过声学模型，基于交叉熵等计算出每帧每类音素的概率，其中每帧中分数最高音素的概率的标记为当前帧的音素。

在步骤S114中，基于步骤S113得到的基于交叉熵标记的音频中各音素的概率，标记各音素的位置。

在步骤S11中完成了对待筛选数据进行音素位置标记之后，在步骤S12中，根据标记的音素确定待筛选数据是否满足筛选条件，可以包括步骤S121：

判断所述待筛选数据中是否包括所述预定词的预定音素；若所述待筛选数据中包括所述预定音素，则判断所述标记后的音素的顺序是否与所述预定音素的顺序相同，若所述标记后的音素的顺序与所述预定音素的顺序相同，则确定所述待筛选数据满足所述筛选条件；否则，确定所述待筛选数据不满足所述筛选条件。

举例来说，预定词为“朋友”，若当前待筛选数据中未包含音素“p”，也可以剔除当前待筛选数据。若则当前待筛选数据也为“朋友”，则待筛选数据与预定音素中均包括相同顺序的p，eh_l，ng_h，yv，v_l，v_l，由此，当前待筛选数据“朋友”满足所述筛选条件，则保留当前待筛选数据。若当前待筛选数据为“友朋”，则其音素顺序为yv，v_l，v_l，p，eh_l，ng_h，则剔除当前待筛选数据。

也就是说，步骤S121将预定音素和音素的顺序作为筛选条件，用来判断是否应将待筛选数据划分为目标数据。

在根据音素的顺序筛选了一部分待筛选数据之后，步骤S12还可以包括S122：

S1221、根据所述标记后的音素标记，确定所述待筛选数据的音素个数和时间长度；

S1222、根据所述待筛选数据的音素个数和时间长度，判断所述待筛选数据是否满足筛选条件。

也就是说，步骤S122将待筛选数据的音素个数和时间长度作为筛选条件，用来判断是否应将待筛选数据划分为目标数据。

在本公开的一些实施例中，步骤S1222的具体判断过程可以为：

判断预定词的音素个数是否与所述待筛选数据的音素个数相同；

若预定词的音素个数与所述待筛选数据的音素个数相同，则判断该待筛选数据的时间长度是否在预定时间内，若该待筛选数据的时间长度在预定时间内，确定所述待筛选数据满足所述筛选条件；否则，确定所述待筛选数据不满足所述筛选条件。

在本公开的一些实施例中，可以根据某些特定规则，例如标记的音素个数、音频数据的来源，从而选择预定时间的大小。举例来说，如果待筛选数据来自老人或小孩，则可以将预定时间设定地较长；如果待筛选数据来自年轻人，则可以将预定时间设定地较短。或者，如果待筛选数据来自会议，则可以将预定时间设定地较长；如果待筛选数据来自运动解说，则可以将预定时间设定地较短。此外，根据待筛选数据中标记的音素个数，判断待筛选数据的预定时间在0.5s到1.3s内是合理的，如果待筛选数据的实际时间长度不在0.5s到1.3s内，则剔除该待筛选数据；如果待筛选数据的实际时间长度为0.8s，则保留该待筛选数据，作为目标数据。

在步骤S1222通过待筛选数据的音素个数和时间长度，筛选了一部分待筛选数据之后，步骤S2还可以包括步骤S123、判断所述待筛选数据中每两个字之间的停顿时间是否在预定停顿时间内，若停顿时间在所述预定停顿时间内，则确定所述待筛选数据满足所述筛选条件；否则，确定所述待筛选数据不满足所述筛选条件。

举例来说，预定词的每个字之间的预定停顿时间为0.01至0.1秒，如果待筛选数据的停顿时间不在这一范围内，则剔除该待筛选数据；否则，保留该待筛选数据。此外，对于同一说话人，其停顿时间可能保持在一个范围内，如果某两个字之间的停顿时间不在预定停顿时间内，可以剔除该待筛选数据。

也就是说，步骤S123将待筛选数据的停顿时间作为筛选条件，用来判断是否应将待筛选数据划分为目标数据。

需要说明的是，对于前述的方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本公开所必须的。即，步骤S121～S123的先后顺序不限，可以根据实际情况选择其中的至少一个步骤进行目标数据的筛选。

在步骤S2中，根据步骤S1筛选出满足筛选条件的目标数据，这些目标数据更接近预定词，并将这些目标数据输入至声学模型，从而训练并更新声学模型，由此，可以得到精确率和效率更高的数据筛选模型，从而进行高效准确地进行数据筛选。其中，声学模型包括但不限于卷积模型、深度神经网络模型和循环神经网络模型，因此，本公开具有极强的普适性、应用范围广泛的特点。

至此，本公开第一实施例的介绍完毕。

本公开第二实施例提供了一种数据筛选装置，采用前述的数据筛选方法，训练并更新声学模型。

本公开第三实施例提供了一种智能音箱，采用前述的数据筛选装置，训练并更新声学模型。

其中，数据筛选装置和智能音箱，与上述前述的数据筛选方法相对于相关技术所具有的优势相同，在此不再赘述。

综上，本公开实施例的数据筛选方法、装置及智能音箱，根据预设的筛选条件筛选数据，确定精确率高的目标数据，然后利用目标数据训练并更新声学模型，且经过多次迭代的筛选，在节省人力的情况下尽可能的保证数据质量，提高效率。

除非有所知名为相反之意，本说明书及所附权利要求中的数值参数是近似值，能够根据通过本公开的内容所得的所需特性改变。具体而言，所有使用于说明书及权利要求中表示组成的含量、反应条件等等的数字，应理解为在所有情况中是受到“约”的用语所修饰。一般情况下，其表达的含义是指包含由特定数量在一些实施例中±10％的变化、在一些实施例中±5％的变化、在一些实施例中±1％的变化、在一些实施例中±0.5％的变化。

说明书与权利要求中所使用的序数例如“第一”、“第二”、“第三”等的用词，以修饰相应的元件，其本身并不意味着该元件有任何的序数，也不代表某一元件与另一元件的顺序、或是制造方法上的顺序，该些序数的使用仅用来使具有某命名的一元件得以和另一具有相同命名的元件能做出清楚区分。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种数据筛选方法，其特征在于，包括：

将所述目标数据进行训练，更新声学模型；

所述按照预设的筛选条件对待筛选数据进行数据筛选，得到目标数据，包括：

对所述待筛选数据进行音素位置标记；

根据标记后的音素确定待筛选数据是否满足筛选条件，若所述待筛选数据满足所述筛选条件，则将所述待筛选数据划分为目标数据；否则，确定所述待筛选数据不满足所述筛选条件，并删除所述待筛选数据；

所述根据标记后的音素确定待筛选数据是否满足筛选条件，包括：

2.根据权利要求1所述的数据筛选方法，其特征在于，根据标记后的音素确定待筛选数据是否满足筛选条件，包括：

3.根据权利要求1所述的数据筛选方法，其特征在于，根据所述待筛选数据的音素个数和时间长度，判断所述待筛选数据是否满足筛选条件，包括：

4.根据权利要求1所述的数据筛选方法，其特征在于，根据标记后的音素确定待筛选数据是否满足筛选条件，包括：

5.根据权利要求1所述的数据筛选方法，其特征在于，对所述待筛选数据进行音素位置标记，包括：

读取所述待筛选数据中的音频数据；

逐帧提取所述音频数据中的数据特征；

确定所述音频数据中每帧数据特征中各音素的概率值；

基于概率值，标记各音素的位置。

6.一种数据筛选装置，其特征在于，采用如权利要求1至5任一所述的数据筛选方法，训练并更新声学模型。

7.一种智能音箱，其特征在于，包括如权利要求6所述的数据筛选装置。