CN109887487B

CN109887487B - 一种数据筛选方法、装置及电子设备

Info

Publication number: CN109887487B
Application number: CN201910086214.8A
Authority: CN
Inventors: 祖拓; 陈孝良; 冯大航; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2021-05-11
Anticipated expiration: 2039-01-29
Also published as: CN109887487A

Abstract

本发明提供了一种数据筛选方法、装置及电子设备，获取待筛选数据集，确定所述待筛选数据集中的每一所述音频数据的特征矩阵，根据每一所述音频数据的特征矩阵，从所述待筛选数据集中筛选出目标音频数据。通过本发明可以自动筛选得到快语速音频数据，避免由于人工筛选带来的浪费人力且消耗大量的时间的问题。

Description

一种数据筛选方法、装置及电子设备

技术领域

本发明涉及数据处理领域，更具体的说，涉及一种数据筛选方法、装置及电子设备。

背景技术

基于深度神经元网络模型的语音识别方法越来越成熟，为了在快语速语音识别方面进一步发展，需要使用快语速音频数据训练深度神经元网络模型。

现有技术中，快语速音频数据的获取方式为：从大量的音频数据中通过人工筛选的方法筛选得到快语速音频数据，但是人工筛选浪费人力且消耗大量的时间。

发明内容

有鉴于此，本发明提供一种数据筛选方法、装置及电子设备，以解决可以从大量的音频数据中通过人工筛选的方法筛选得到快语速音频数据，但是存在人工筛选浪费人力且消耗大量的时间的问题。

为解决上述技术问题，本发明采用了如下技术方案：

一种数据筛选方法，包括：

获取待筛选数据集；所述待筛选数据集包括同一词语对应的不同语速的音频数据；

确定所述待筛选数据集中的每一所述音频数据的特征矩阵；所述特征矩阵包括所述音频数据的每一帧音频信息的矩阵表示；

根据每一所述音频数据的特征矩阵，从所述待筛选数据集中筛选出目标音频数据；所述目标音频数据的语速大于预设语速。

优选地，根据每一所述音频数据的特征矩阵，从所述待筛选数据集中筛选出目标音频数据，包括：

根据每一所述音频数据的特征矩阵以及预设语音识别模型，确定每一所述音频数据的每一帧音频信息的语音识别结果；

根据每一所述音频数据的每一帧音频信息的语音识别结果，计算每一所述音频数据的音频持续帧数；所述音频持续帧数为所述音频数据中包括的所述词语的音频持续帧数；

根据每一所述音频数据的音频持续帧数，从所述待筛选数据集中筛选出目标音频数据。

优选地，根据每一所述音频数据的音频持续帧数，从所述待筛选数据集中筛选出目标音频数据，包括：

根据每一所述音频数据的音频持续帧数，对所有的所述音频数据按照音频持续帧数进行排序；

依据排序结果，筛选出排序结果中位于前预设数量的音频数据；所述预设语速与所述预设数量相关；

将筛选出的音频数据作为所述目标音频数据。

优选地，将筛选出的音频数据作为所述目标音频数据之后，还包括：

根据每一所述目标音频数据的特征矩阵以及所述预设语音识别模型，确定出所述目标音频数据的每一所述语音识别结果对应的语音识别分数值；所述语音识别分数值表征所述语音识别结果为预设语音识别结果的正确程度；

根据每一所述目标音频数据的每一帧音频信息的语音识别结果对应的语音识别分数值，计算每一所述目标音频数据的语音识别分数值。

优选地，根据每一所述目标音频数据的每一帧音频信息的语音识别结果对应的语音识别分数值，计算每一所述目标音频数据的语音识别分数值之后，还包括：

从所有的所述目标音频数据中筛选出对应的语音识别分数值小于预设分数阈值的第一音频数据以及对应的语音识别分数值不小于预设分数阈值的第二音频数据；

对筛选出的第一音频数据的语音识别结果进行修正操作，得到修正后的语音识别结果；

将所述第二音频数据以及修正后的语音识别结果为所述词语的第一音频数据作为训练数据；

基于所述训练数据，对所述预设语音识别模型再次进行训练，得到修正后的预设语音识别模型。

一种数据筛选装置，包括：

数据获取模块，用于获取待筛选数据集；所述待筛选数据集包括同一词语对应的不同语速的音频数据；

矩阵确定模块，用于确定所述待筛选数据集中的每一所述音频数据的特征矩阵；所述特征矩阵包括所述音频数据的每一帧音频信息的矩阵表示；

数据筛选模块，用于根据每一所述音频数据的特征矩阵，从所述待筛选数据集中筛选出目标音频数据；所述目标音频数据的语速大于预设语速。

优选地，所述数据筛选模块包括：

结果确定子模块，用于根据每一所述音频数据的特征矩阵以及预设语音识别模型，确定每一所述音频数据的每一帧音频信息的语音识别结果；

帧数计算子模块，用于根据每一所述音频数据的每一帧音频信息的语音识别结果，计算每一所述音频数据的音频持续帧数；所述音频持续帧数为所述音频数据中包括的所述词语的音频持续帧数；

筛选子模块，用于根据每一所述音频数据的音频持续帧数，从所述待筛选数据集中筛选出目标音频数据。

优选地，所述筛选子模块包括：

排序单元，用于根据每一所述音频数据的音频持续帧数，对所有的所述音频数据按照音频持续帧数进行排序；

筛选单元，用于依据排序结果，筛选出排序结果中位于前预设数量的音频数据；所述预设语速与所述预设数量相关；

确定单元，用于将筛选出的音频数据作为所述目标音频数据。

优选地，还包括：

分数确定单元，用于所述确定单元将筛选出的音频数据作为所述目标音频数据之后，根据每一所述目标音频数据的特征矩阵以及所述预设语音识别模型，确定出所述目标音频数据的每一所述语音识别结果对应的语音识别分数值；所述语音识别分数值表征所述语音识别结果为预设语音识别结果的正确程度；

分数计算单元，用于根据每一所述目标音频数据的每一帧音频信息的语音识别结果对应的语音识别分数值，计算每一所述目标音频数据的语音识别分数值。

优选地，还包括：

分数筛选单元，用于所述分数计算单元根据每一所述目标音频数据的每一帧音频信息的语音识别结果对应的语音识别分数值，计算每一所述目标音频数据的语音识别分数值之后，从所有的所述目标音频数据中筛选出对应的语音识别分数值小于预设分数阈值的第一音频数据以及对应的语音识别分数值不小于预设分数阈值的第二音频数据；

第一修正单元，用于对筛选出的第一音频数据的语音识别结果进行修正操作，得到修正后的语音识别结果；

数据确定单元，用于将所述第二音频数据以及修正后的语音识别结果为所述词语的第一音频数据作为训练数据；

第二修正单元，用于基于所述训练数据，对所述预设语音识别模型再次进行训练，得到修正后的预设语音识别模型。

一种电子设备，包括：存储器和处理器；

其中，所述存储器用于存储程序；

处理器调用程序并用于：

相较于现有技术，本发明具有以下有益效果：

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种数据筛选方法的方法流程图；

图2为本发明实施例提供的另一种数据筛选方法的方法流程图；

图3为本发明实施例提供的再一种数据筛选方法的方法流程图；

图4为本发明实施例提供的又一种数据筛选方法的方法流程图；

图5为本发明实施例提供的一种数据筛选装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种数据筛选方法，用于从海量的音频数据中筛选得到快语速音频数据。参照图1，数据筛选方法可以包括：

S11、获取待筛选数据集；

所述待筛选数据集包括同一词语对应的不同语速的音频数据。其中，词语可以是“小爱同学”、“天猫精灵”等词语。以“小爱同学”为例，待筛选数据集中包括不同语速的“小爱同学”的音频数据。“小爱同学”、“天猫精灵”等词语可以作为唤醒词语，用于唤醒电子设备，如“小爱同学”作为唤醒“小爱同学”设备的词语。

待筛选数据集可以是人工汇集得到，也可以是计算机自动识别大量的音频数据汇总得到。

S12、确定所述待筛选数据集中的每一所述音频数据的特征矩阵；

其中，所述特征矩阵包括所述音频数据的每一帧音频信息的矩阵表示。

具体的，每一音频数据包括多帧音频信息，一帧音频信息为10ms的数据。以“小爱同学”为例，快语速的“小爱同学”可以包括50帧音频信息，慢语速的“小爱同学”可以包括130帧音频信息，即不同语音的“小爱同学”大概可以包括50-130帧音频信息。

得到所述音频数据的每一帧音频信息之后，可以利用现有的特征值计算方法计算得到每一帧音频信息的矩阵表示，将音频数据的每一帧音频信息的矩阵表示组成特征矩阵。现有的特征值计算方法可以是梅尔频率倒谱系数MFCC。

S13、根据每一所述音频数据的特征矩阵，从所述待筛选数据集中筛选出目标音频数据；

所述目标音频数据的语速大于预设语速，即筛选出的目标音频数据为快语速音频数据。

本实施例中，获取待筛选数据集，确定所述待筛选数据集中的每一所述音频数据的特征矩阵，根据每一所述音频数据的特征矩阵，从所述待筛选数据集中筛选出目标音频数据。通过本发明可以自动筛选得到快语速音频数据，避免由于人工筛选带来的浪费人力且消耗大量的时间的问题。另外，实现快语速音频数据的自动筛选，提高快语速音频数据的筛选效率。

可选的，在上述数据筛选方法的实施例的基础上，参照图2，步骤S13可以包括：

S21、根据每一所述音频数据的特征矩阵以及预设语音识别模型，确定每一所述音频数据的每一帧音频信息的语音识别结果；

具体的，预设语音识别模型为进行语音识别的模型，输入一个音频数据的特征矩阵，就可以得到该音频数据的语音识别结果。

该预设语音识别模型基于大量的音频数据样本训练得到，首先人工标注出每一音频数据样本的语音识别结果，然后通过特征值计算方法计算得到每一音频数据样本的特征矩阵，将每一音频数据样本的特征矩阵以及语音识别结果输入到初始语音识别模型中进行训练，即可得到预设语音识别模型。其中，训练使用的音频数据样本可以是慢语速的音频数据样本，也可以是不同语速的音频数据样本。

其中，语音识别结果可以包括所述词语的每一个字以及噪音。如“小爱同学”的语音识别结果可以包括“噪音”、“小”、“爱”、“同”、“学”。

举例来说，快语速的“小爱同学”共有50帧音频数据，每10帧音频数据的语音识别结果分别为“噪音”、“小”、“爱”、“同”、“学”。即前10帧音频数据的每一帧音频信息的语音识别结果为“噪音”，第二个10帧音频数据的每一帧音频信息的语音识别结果均为“小”，第三个10帧音频数据的每一帧音频信息的语音识别结果均为“同”，第四个10帧音频数据的每一帧音频信息的语音识别结果均为“学”。

S22、根据每一所述音频数据的每一帧音频信息的语音识别结果，计算每一所述音频数据的音频持续帧数；

其中，所述音频持续帧数为所述音频数据中包括的所述词语的音频持续帧数。

具体的，仍以“小爱同学”为例，根据每一所述音频数据的每一帧音频信息的语音识别结果，确定出音频数据中除噪音之外的词语的音频持续帧数，即“小爱同学”的音频持续帧数，根据上述例子，“小爱同学”的音频持续帧数为从第11帧至第50帧，共40帧。

S23、根据每一所述音频数据的音频持续帧数，从所述待筛选数据集中筛选出目标音频数据。

具体的，本步骤从所有的音频数据中筛选出音频持续帧数较少的音频数据，并作为目标音频数据。

可选的，在本实施例的基础上，步骤S23可以包括：

S31、根据每一所述音频数据的音频持续帧数，对所有的所述音频数据按照音频持续帧数进行排序；

具体的，按照音频持续帧数从小到大的顺序进行排序，音频持续帧数较少的音频数据排名在前，音频持续帧数较多的音频数据排名在后。

S32、依据排序结果，筛选出排序结果中位于前预设数量的音频数据；

具体的，前预设数量可以是音频数据总量的20％，如总共有100条音频数据，则筛选出前20条音频数据。音频数据的音频持续帧数较少，说明音频数据的语速较快，即为快语速音频数据。

所述预设语速与所述预设数量相关，预设语速越快，预设数量越小，预设语速越慢，预设数量越大。

S33、将筛选出的音频数据作为所述目标音频数据。

本实施例中，根据每一所述音频数据的音频持续帧数，对所有的所述音频数据按照音频持续帧数进行排序，然后筛选出排名靠前的音频数据，就可以筛选得到快语速数据，避免人工筛选的复杂性，还能节省人力和成本。

可选的，在图3对应的实施例的基础上，参照图4，步骤S33之后，还可以包括：

S41、根据每一所述目标音频数据的特征矩阵以及所述预设语音识别模型，确定出所述目标音频数据的每一所述语音识别结果对应的语音识别分数值；

其中，所述语音识别分数值表征所述语音识别结果为预设语音识别结果的正确程度。如一帧音频信息为“小”进行语音识别得到语音识别结果为“小”的概率为70％。

具体的，预设语音识别模型可以输出每一帧音频信息的语音识别分数值。如上述例子中，快语速的“小爱同学”共有50帧音频数据，每10帧音频数据的语音识别结果分别为“噪音”、“小”、“爱”、“同”、“学”，则可以确定前10帧每帧识别为“噪音”的概率，第11至第20帧，每帧识别为“小”的概率，第21至第30帧，每帧识别为“爱”的概率，第31至第40帧，每帧识别为“同”的概率，第41至第50帧，每帧识别为“学”的概率。

S42、根据每一所述目标音频数据的每一帧音频信息的语音识别结果对应的语音识别分数值，计算每一所述目标音频数据的语音识别分数值。

对于每一目标音频数据的每一帧音频信息，为每一帧音频信息的语音识别分数值设置权重，将每一帧音频信息的语音识别分数值以及权重的乘积之和作为语音识别结果对应的语音识别分数值。其中，识别为“噪音”的权重值可以为零。

可选的，在本实施例的基础上，步骤S42之后，还可以包括：

1)从所有的所述目标音频数据中筛选出对应的语音识别分数值小于预设分数阈值的第一音频数据以及对应的语音识别分数值不小于预设分数阈值的第二音频数据；

具体的，由于所述语音识别分数值表征所述语音识别结果为预设语音识别结果的正确程度，筛选出的第一音频数据的语音识别分数值小于预设分数阈值，说明该第一音频数据很大程度识别出来不是步骤S11中预先设定的词语，即可能为错误数据，筛选出的第二音频数据的语音识别分数值不小于预设分数阈值，说明该第一音频数据很大程度识别出来是步骤S11中预先设定的词语。

2)对筛选出的第一音频数据的语音识别结果进行修正操作，得到修正后的语音识别结果；

由于在获取待筛选数据集时，待筛选数据集包括的是同一词语对应的不同语速的音频数据，进而本步骤在对筛选出的第一音频数据的语音识别结果进行修正操作，如可以是重新识别，此外还可以是人工语音识别出第一音频数据的语音识别结果，人工筛选有助于提高数据筛选的准确性。

3)将所述第二音频数据以及修正后的语音识别结果为所述词语的第一音频数据作为训练数据；

4)基于所述训练数据，对所述预设语音识别模型再次进行训练，得到修正后的预设语音识别模型。

具体的，预设语音识别模型一般采用的音频数据样本为慢语速音频数据，所述第二音频数据以及修正后的语音识别结果为所述词语的第一音频数据均为快语速数据，进而将其作为训练数据去训练预设语音识别模型，使得修正后的预设语音识别模型不仅可以识别慢语速音频数据，也可以识别快语速音频数据。

本实施例中，可以在进行快语速音频数据筛选的基础之上，进一步使用快语速音频数据对已有的预设语音识别模型进行训练，得到训练后的预设语音识别模型可以识别不同语速的音频数据。并且，训练数据均为快语速数据，进而训练后的预设语音识别模型对快语速音频数据的识别准确度可以得到提升。

参照表1，以唤醒“小爱同学”为例，在安静、信噪比的场景下，新模型比旧模型的唤醒效果相差不多，但是在快语速安静场景下，新模型的唤醒效果显著提高。其中，新模型为训练后的预设语音识别模型，旧模型为未进行训练的预设语音识别模型。

表1不同场景下的新旧预设语音识别模型的效果对比表

可选的，在上述数据筛选方法的实施例的基础上，本发明的另一实施例提供了一种数据筛选装置，参照图5，可以包括：

数据获取模块101，用于获取待筛选数据集；所述待筛选数据集包括同一词语对应的不同语速的音频数据；

矩阵确定模块102，用于确定所述待筛选数据集中的每一所述音频数据的特征矩阵；所述特征矩阵包括所述音频数据的每一帧音频信息的矩阵表示；

数据筛选模块103，用于根据每一所述音频数据的特征矩阵，从所述待筛选数据集中筛选出目标音频数据；所述目标音频数据的语速大于预设语速。

需要说明的是，本实施例中的各个模块的工作过程，请参照上述实施例中的相应说明，在此不再赘述。

可选的，在上述数据筛选装置的实施例的基础上，所述数据筛选模块包括：

进一步，所述筛选子模块包括：

需要说明的是，本实施例中的各个模块、子模块和单元的工作过程，请参照上述实施例中的相应说明，在此不再赘述。

可选的，在上一实施例的基础上，还包括：

进一步，还包括：

可选的，在上述数据筛选方法及装置的实施例的基础上，本发明的另一实施例提供了一种电子设备，可以包括：存储器和处理器；

其中，所述存储器用于存储程序；

处理器调用程序并用于：

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据筛选方法，其特征在于，包括：

根据每一所述音频数据的特征矩阵，计算每一所述音频数据的音频持续帧数；其中，包括：根据每一所述音频数据的特征矩阵以及预设语音识别模型，确定每一所述音频数据的每一帧音频信息的语音识别结果；根据每一所述音频数据的每一帧音频信息的语音识别结果，计算每一所述音频数据的音频持续帧数；所述音频持续帧数为所述音频数据中包括的所述词语的音频持续帧数；

根据每一所述音频数据的音频持续帧数，从所述待筛选数据集中筛选出目标音频数据；所述目标音频数据的语速大于预设语速。

2.根据权利要求1所述的数据筛选方法，其特征在于，根据每一所述音频数据的音频持续帧数，从所述待筛选数据集中筛选出目标音频数据，包括：

将筛选出的音频数据作为所述目标音频数据。

3.根据权利要求2所述的数据筛选方法，其特征在于，将筛选出的音频数据作为所述目标音频数据之后，还包括：

4.根据权利要求3所述的数据筛选方法，其特征在于，根据每一所述目标音频数据的每一帧音频信息的语音识别结果对应的语音识别分数值，计算每一所述目标音频数据的语音识别分数值之后，还包括：

5.一种数据筛选装置，其特征在于，包括：

数据筛选模块，用于根据每一所述音频数据的特征矩阵，计算每一所述音频数据的音频持续帧数，根据每一所述音频数据的音频持续帧数，从所述待筛选数据集中筛选出目标音频数据；所述目标音频数据的语速大于预设语速；所述数据筛选模块包括：结果确定子模块，用于根据每一所述音频数据的特征矩阵以及预设语音识别模型，确定每一所述音频数据的每一帧音频信息的语音识别结果；帧数计算子模块，用于根据每一所述音频数据的每一帧音频信息的语音识别结果，计算每一所述音频数据的音频持续帧数；所述音频持续帧数为所述音频数据中包括的所述词语的音频持续帧数。

6.根据权利要求5所述的数据筛选装置，其特征在于，所述数据筛选模块还包括：筛选子模块，用于根据每一所述音频数据的音频持续帧数，从所述待筛选数据集中筛选出目标音频数据；

所述筛选子模块包括：

7.根据权利要求6所述的数据筛选装置，其特征在于，还包括：

8.根据权利要求7所述的数据筛选装置，其特征在于，还包括：

9.一种电子设备，其特征在于，包括：存储器和处理器；

其中，所述存储器用于存储程序；

处理器调用程序并用于：