CN109599096B

CN109599096B - 一种数据筛选方法及装置

Info

Publication number: CN109599096B
Application number: CN201910074372.1A
Authority: CN
Inventors: 方昕; 刘海波; 方磊
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2021-12-07
Anticipated expiration: 2039-01-25
Also published as: CN109599096A

Abstract

本申请公开了一种数据筛选方法及装置，该方法包括：基于对数据特征的学习需求，采用预设的筛选策略在待筛选的数据集合中进行数据筛选，得到筛选数据，其中，该筛选数据中携带了未学习到的数据特征。可见，基于对数据特征的学习需求，预先制定数据筛选策略，以在待筛选的数据集合中进行数据筛选，使筛选出的数据携带有当前未学习到的数据特征，进而，可以基于这些筛选出的有限数据资源进行特征学习，即，实现了在低资源条件下的特征学习。

Description

一种数据筛选方法及装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种数据筛选方法及装置。

背景技术

随着语音识别技术的不断发展，语音识别在很多场合都有了实际的应用，例如语音输入法、会议转写、影视字幕生成等领域，优秀的语音识别技术对提高这些领域的效果起着举足轻重的作用，因此也得到了学者们越来越多的研究和关注。近年来，随着深度学习的快速发展，使得目前的语音识别系统中的声学模型和语言模型基本上是基于各类神经网络构建的模型，而神经网络模型往往需要大量的训练样本作为支撑，而如何在低资源条件下提高语音识别系统的性能成为越来越多的学者研究的重点。

实际中，需要利用大量的样本数据来训练声学模型和语言模型，而现有的声学模型和语言模型在数据标注阶段，都是随机挑选若干样本数据进行标注，从而完成后续模型的训练，而这些随机挑选出来的样本数据是否是模型真正要学习的样本确不得而知，故而，无法保证声学模型和语言模型的效果。

发明内容

本申请实施例的主要目的在于提供一种数据筛选方法及装置，能够筛选出所需学习的数据。

本申请实施例提供了一种语音数据筛选方法，包括：

利用第一时长的语音数据，训练得到声学模型；

利用所述声学模型从目标语音集合中筛选第二时长的语音数据，所述第二时长的语音数据在被所述声学模型进行声学预测时的预测难度高。

可选的，所述利用所述声学模型从目标语音集合中筛选第二时长的语音数据，包括：

利用所述声学模型，得到目标语音集合中的每一语音单元中的每一语音帧在进行声学预测时的可确定性和/或可区分性；

根据得到的可确定性和/或可区分性，从所述目标语音集合中筛选第二时长的语音数据。

可选的，所述可确定性为对应语音帧的最大后验概率，所述最大后验概率为对应语音帧属于各个语音类别时的各个后验概率中的最大概率；所述可区分性为对应语音帧的最大后验概率和次大后验概率的差值，所述最大后验概率和次大后验概率分别为对应语音帧属于各个语音类别时的各个后验概率中的最大概率和次大概率。

可选的，所述方法还包括：采用所述第二时长的语音数据，训练所述声学模型；或者，采用所述第一时长的语音数据与所述第二时长的语音数据，共同训练所述声学模型。

本申请实施例还提供了一种文本数据筛选方法，包括：

利用第一数量的文本数据，训练得到文本领域分类模型；

利用所述文本领域分类模型，从第一目标文本集合中筛选第二数量的文本数据，所述第二数量的文本数据在被所述文本领域分类模型进行特定领域预测时的预测难度高。

可选的，所述从第一目标文本集合中筛选第二数量的文本数据，包括：

通过将所述文本领域分类模型的部分网络节点置0，得到N种置0方式下的所述文本领域分类模型；

利用N种置0方式下的所述文本领域分类模型，从第一目标文本集合中筛选第二数量的文本数据。

可选的，所述利用N种置0方式下的所述文本领域分类模型，从第一目标文本集合中筛选第二数量的文本数据，包括：

利用N种置0方式下的所述文本领域分类模型，生成第一目标文本集合中的每一文本单元的N个最大后验概率，所述最大后验概率为对应文本单元属于特定领域类别和非特定领域类别时的后验概率中的最大概率；

根据生成的各个最大后验概率，从第一目标文本集合中筛选第二数量的文本数据。

可选的，所述根据生成的各个最大后验概率，从第一目标文本集合中筛选第二数量的文本数据，包括：

统计对应于每一文本单元的最大概率个数；

其中，所述最大概率个数为对应文本单元的第一个数和第二个数中的最大值，所述第一个数和第二个数分别为对应文本单元的N个最大后验概率中对应于所述特定领域类别的概率个数、以及对应于所述非特定领域类别的概率个数；

根据统计得到的最大概率个数，从第一目标文本集合中筛选第二数量的文本数据。

可选的，所述方法还包括：采用所述第二数量的文本数据，训练所述文本领域分类模型；或者，采用所述第一数量的文本数据与所述第二数量的文本数据，共同训练所述文本领域分类模型。

可选的，所述方法还包括：利用所述文本领域分类模型，从第二目标文本集合中挑选所述特定领域的文本数据，用于训练语言模型。

本申请实施例提供了一种数据筛选方法，包括：

基于对数据特征的学习需求，采用预设的筛选策略在待筛选的数据集合中进行数据筛选，得到筛选数据；

其中，所述筛选数据中携带了未学习到的数据特征。

可选的，所述采用预设的筛选策略在待筛选的数据集合中进行数据筛选，包括：

采用上述语音数据筛选方法的任一种实现方式筛选语音数据；

和/或，采用上述文本数据筛选方法的任一种实现方式筛选文本数据。

本申请实施例还提供了一种模型构建方法，包括：

采用上述语音数据筛选方法中的模型训练方法训练声学模型，以及，采用上述文本数据筛选方法中的模型训练方法训练语言模型；

利用训练得到的声学模型和语言模型，构建语音识别模型。

本申请实施例还提供了一种语音数据筛选装置，包括：

声学模型训练单元，用于利用第一时长的语音数据，训练得到声学模型；

语音数据筛选单元，用于利用所述声学模型从目标语音集合中筛选第二时长的语音数据，所述第二时长的语音数据在被所述声学模型进行声学预测时的预测难度高。

可选的，所述声学模型训练单元，还用于采用所述第二时长的语音数据，训练所述声学模型；或者，采用所述第一时长的语音数据与所述第二时长的语音数据，共同训练所述声学模型。

本申请实施例还提供了一种文本数据筛选装置，包括：

分类模型训练单元，用于利用第一数量的文本数据，训练得到文本领域分类模型；

文本数据筛选单元，用于利用所述文本领域分类模型，从第一目标文本集合中筛选第二数量的文本数据，所述第二数量的文本数据在被所述文本领域分类模型进行特定领域预测时的预测难度高。

可选的，所述分类模型训练单元，还用于采用所述第二数量的文本数据，训练所述文本领域分类模型；或者，采用所述第一数量的文本数据与所述第二数量的文本数据，共同训练所述文本领域分类模型。

可选的，所述装置还包括：语言模型训练单元，用于利用所述文本领域分类模型，从第二目标文本集合中挑选所述特定领域的文本数据，用于训练语言模型。

本申请实施例还提供了一种数据筛选装置，其特征在于，包括：

特征数据筛选单元，用于基于对数据特征的学习需求，采用预设的筛选策略在待筛选的数据集合中进行数据筛选，得到筛选数据；

其中，所述筛选数据中携带了未学习到的数据特征。

本申请实施例还提供了一种模型构建装置，其特征在于，包括：

模型训练单元，用于采用上述声学模型训练单元训练声学模型，以及，采用上述语言模型训练单元训练语言模型；

模型构建单元，用于利用训练得到的声学模型和语言模型，构建语音识别模型。

综上，本申请实施例提供了一种数据筛选方法及装置，基于对数据特征的学习需求，采用预设的筛选策略在待筛选的数据集合中进行数据筛选，得到筛选数据，其中，该筛选数据中携带了未学习到的数据特征。可见，基于对数据特征的学习需求，预先制定数据筛选策略，以在待筛选的数据集合中进行数据筛选，使筛选出的数据携带有当前未学习到的数据特征，进而，可以基于这些筛选出的有限数据资源进行特征学习，即，实现了在低资源条件下的特征学习。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的语音数据筛选方法的流程示意图；

图2为本申请实施例提供的文本数据筛选方法的流程示意图；

图3为本申请实施例提供的神经网络分类模型的示意图；

图4为本申请实施例提供的数据筛选方法的流程示意图；

图5为本申请实施例提供的模型构建方法的流程示意图；

图6为本申请实施例提供的语音数据筛选装置的组成示意图；

图7为本申请实施例提供的文本数据筛选装置的组成示意图；

图8为本申请实施例提供的数据筛选装置的组成示意图；

图9为本申请实施例提供的模型构建装置的组成示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

本实施例将介绍一种语音数据筛选方法，在这之前，可以预先构建一个由大量语音构成的训练数据集合，通过该方法，从该训练数据集合中筛选出声学模型真正需要学习的语音数据，用于对声学模型进行训练，这样，利用筛选出的有限的数据资源(即低资源)，使声学模型尽可能全面的进行声学特征的学习，不但提高了声学模型的训练速度，还提升了声学模型的预测效果。

参见图1，为本实施例提供的一种语音数据筛选方法的流程示意图，该方法包括以下步骤：

S101：利用第一时长的语音数据，训练得到声学模型。

在本实施例中，为了提升声学模型的训练数据的数据质量，可以在本步骤S101之前，对上述由大量语音构成的训练数据集合进行处理，从中去除一些能量过高、能量过低、信噪比过小的语音数据，从而形成初始语音集合；当然，也可以直接将上述训练数据集合作为初始语音集合。

在本实施例中，可以从初始语音集合中随机挑选一定时长的语音数据，这里，将其定义为第一时长的语音数据，并对该第一时长的语音数据进行人工标注，得到第一标注数据，利用该第一标注数据训练得到一个初始的声学模型。

其中，在选择“第一时长的语音数据”时，可以基于语音数据的人工标注能力进行选择，具体地，假设人工标注能力为可标注M1小时的语音数据，则可以基于M1的大小，选择一定比例(比如M1/5)的语音数据，作为第一时长的语音数据。例如，假设初始语音集合中包括共1000小时的语音数据、且人工标注能力为可标注100小时的语音数据，则可以从1000小时的语音数据中随机挑选20小时的语音数据，作为第一时长的语音数据，并对其进行人工标注。

需要说明的是，本实施例不限制声学模型的类型，例如，该声学模型可以是传统的隐马尔可夫模型(Hidden Markov Model，HMM)，也可以是神经网络模型，比如深度神经网络(Deep Neural Network，DNN)模型、循环神经网络(Recurrent Neural Networks，RNN)模型、卷积神经网络(Convolutional Neural Network，CNN)模型等。

S102：利用声学模型从目标语音集合中筛选第二时长的语音数据，其中，该第二时长的语音数据在被声学模型进行声学预测时的预测难度高。

在本实施例中，对于步骤S101中提及的初始语音集合，在从中选取第一时长的语音数据后，可以将该第一时长的语音数据从初始语音集合中去除，这里，将剩下的语音数据所形成的语音集合定义为目标语音集合。然后，从该目标语音集合中筛选出第二时长的语音数据。

在进行数据筛选时，可以只执行一次S102，即只筛选一次“第二时长的语音数据”。例如，假设初始语音集合中包括共1000小时的语音数据、且人工标注能力为可标注100小时的语音数据，则可以从1000小时的语音数据中随机挑选20小时的语音数据，作为第一时长的语音数据，再从剩下的980小时的语音数据中筛选80小时的语音数据，作为第二时长的语音数据。

当然，也可以多次执行S102，即多次筛选“第二时长的语音数据”，具体来讲，在第一次筛选之前，步骤S101中的“第一时长的语音数据”即为从初始语音集合中随机挑选的数据；而在第二次、第三次、……第N(N大于等于2)次筛选之前，步骤S101中的“第一时长的语音数据”包括从初始语音集合中随机挑选的数据、以及本次筛选之前已经筛选出的一组或多组“第二时长的语音数据”。在进行第二次、第三次、……第N次筛选时，从目标语音集合中筛选出第二时长的语音数据，该目标语音集合包括从初始语音集合中去除本次筛选对应的“第一时长的语音数据”后的语音数据。

例如，基于上个例子，可以分四次从剩下的980小时的语音数据中筛选80小时的语音数据。在第一次筛选时，从980小时的语音数据中筛选20小时的语音数据，此时剩下960小时的语音数据；在第二次筛选时，从960小时的语音数据中筛选20小时的语音数据，此时剩下940小时的语音数据；在第三次筛选时，从940小时的语音数据中筛选20小时的语音数据，此时剩下920小时的语音数据；在第四次筛选时，从920小时的语音数据中筛选20小时的语音数据。

在本实施例中，当利用本步骤S102进行每一次的数据筛选时，可以利用S101训练得到的声学模型进行筛选，具体地，可以将目标语音集合中的语音数据作为该声学模型的输入，利用该声学模型，从目标语音集合中筛选出声学预测难度较高的语音数据，形成第二时长的语音数据。

在本实施例的一种实现方式中，本步骤S102可以包括步骤A1-A2：

步骤A1：利用声学模型，得到目标语音集合中的每一语音单元中的每一语音帧在进行声学预测时的可确定性和/或可区分性。

在本实现方式中，对于目标语音集合中的每一语音单元，不限制该语音单元的长度，比如该语音单元是由一个或多个句子组成的语音单元，可以将每一语音单元按帧进行切分，从而得到每一语音单元中的每一语音帧。

然后，对于每一语音帧，利用该声学模型得到该语音帧在进行声学预测时的可确定性和/或可区分性。其中，该可确定性可以解释为：声学模型在对该语音帧进行声学预测时，其声学预测结果作为实际声学结果的可确定难度；该可区分性可以解释为：声学模型在对该语音帧进行声学预测时，从多种可选的声学预测结果中区分出实际声学结果的可区分难度。

其中，关于每一语音帧对应的可确定性，该可确定性可以是对应语音帧的最大后验概率，该最大后验概率为对应语音帧属于各个语音类别时的各个后验概率中的最大概率。具体地，为了生成每一语音帧的最大后验概率，可以利用声学模型(比如基于神经网络的声学模型)提取出每一语音帧属于各个语音类别时的各个后验概率，其中，本实施例不限制各个语音类别的划分方式，比如，各个语音类别可以是目标语音集合所属语种的各个音素类别、或各个音素类别下的各个状态类别等等，这样，对于每一语音帧来讲，该语音帧将对应多个后验概率，可以将这些后验概率从大到小进行排序，将排序在第一位的后验概率作为该语音帧的最大后验概率，据此，便得到每一语音帧的最大后验概率。

其中，关于每一语音帧对应的可区分性，该可区分性可以是对应语音帧的最大后验概率和次大后验概率的差值，该最大后验概率和次大后验概率分别为对应语音帧属于各个语音类别时的各个后验概率中的最大概率和次大概率。具体地，为了生成每一语音帧的最大后验概率和次大后验概率，可以利用声学模型(比如基于神经网络的声学模型)提取出每一语音帧属于各个语音类别时的各个后验概率，其中，本实施例不限制各个语音类别的划分方式，比如，各个语音类别可以是目标语音集合所属语种的各个音素类别、或各个音素类别下的各个状态类别等等，这样，对于每一语音帧来讲，该语音帧将对应多个后验概率，可以将这些后验概率从大到小进行排序，将排序在第一位的后验概率作为该语音帧的最大后验概率，将排序在第二位的后验概率作为该语音帧的次大后验概率，据此，便得到每一语音帧的最大后验概率和次大后验概率。

步骤A2：根据得到的可确定性和/或可区分性，从目标语音集合中筛选第二时长的语音数据。

在本实现方式中，可以采用以下三种方式之一，从目标语音集合中筛选第二时长的语音数据。

在第一种方式中，当通过步骤A1得到目标语音集合中的每一语音单元中的每一语音帧在进行声学预测时的可确定性后，可以据此从目标语音集合中筛选第二时长的语音数据。

需要说明的是，若语音帧对应的可确定性较大，则说明当前的声学模型可以很容易的对该语音帧进行声学预测，即，该声学模型已经学习了该语音帧的声学特征；反之，若语音帧对应的可确定性较小，则说明当前的声学模型较难对该语音帧进行声学预测，即，该声学模型很可能没有学习过该语音帧的声学特征，因此，该语音帧则是声学模型需要学习的样本数据。

故而，当目标语音集合中的每一语音单元的每一语音帧对应的可确定性，具体表现为每一语音帧的最大后验概率时，可以按照下述方式，从目标语音集合中筛选第二时长的语音数据。

由于在对声学模型进行训练时，通常是以语音单元为单位进行模型训练，因此，可以通过挑选多个语音单元来形成第二时长的语音数据。

具体实现时，可以先计算每一语音单元中的各个语音帧的最大后验概率的平均值，得到对应于每一语音单元的平均值。计算公式如下：

其中，P(y_ni*/x_ni，θ)为目标语音集合中第n个语音单元中的第i个语音帧的最大后验概率，n＝1、2……N，N为目标语音集合中的语音单元个数；θ为声学模型的网络参数；I为第n个语音单元中的语音帧总数；Ln为第n个语音单元中的各个语音帧的最大后验概率的平均值。

这样，目标语音集合中的每一语音单元均对应一个最大后验概率平均值，对于每一语音单元来讲，若该语音单元的最大后验概率平均值较大，则对该语音单元进行声学预测时的可确定性较大；反之，若该语音单元的最大后验概率平均值较小，则对该语音单元进行声学预测时的可确定性较小，该语音单元则是声学模型需要学习的样本数据。因此，可以将对应于每一语音单元的最大后验概率平均值从小到大进行排序，并选取排序在前的各个平均值对应的各个语音单元，以形成第二时长的语音数据。

在第二种方式中，当通过步骤A1得到目标语音集合中的每一语音单元中的每一语音帧在进行声学预测时的可区分性后，可以据此从目标语音集合中筛选第二时长的语音数据。

需要说明的是，若语音帧对应的可区分性较大，则说明当前的声学模型可以很容易的对该语音帧进行声学预测，即，该声学模型已经学习了该语音帧的声学特征；反之，若语音帧对应的可区分性较小，则说明当前的声学模型较难对该语音帧进行声学预测，即，该声学模型很可能没有学习过该语音帧的声学特征，因此，该语音帧则是声学模型需要学习的样本数据。

故而，当目标语音集合中的每一语音单元的每一语音帧对应的可区分性，具体表现为每一语音帧的最大后验概率和次大后验概率的差值时，可以按照下述方式，从目标语音集合中筛选第二时长的语音数据。

由于在对声学模型进行训练时，通常是以语音单元为单位进行模型训练，因此，可以通过挑选语音单元来形成第二时长的语音数据。

具体实现时，可以先计算每一语音单元中的各个语音帧的概率差的平均值，得到对应于每一语音单元的平均值，其中，该概率差为对应语音帧的最大后验概率和次大后验概率之差。计算公式如下：

其中，P(y_ni*1/x_ni*1，θ)为目标语音集合中第n个语音单元中的第i个语音帧的最大后验概率，P(y_ni*2/x_ni*2，θ)为目标语音集合中第n个语音单元中的第i个语音帧的次大后验概率，n＝1、2……N，N为目标语音集合中的语音单元个数；θ为声学模型的网络参数；I为第n个语音单元中的语音帧总数；Ln为第n个语音单元中的各个语音帧的概率差的平均值。

这样，目标语音集合中的每一语音单元均对应一个概率差平均值，对于每一语音单元来讲，若该语音单元的概率差平均值较大，则对该语音单元进行声学预测时的可区分性较大；反之，若该语音单元的概率差平均值较小，则对该语音单元进行声学预测时的可区分性较小，该语音单元则是声学模型需要学习的样本数据。因此，可以将对应于每一语音单元的概率差平均值从小到大进行排序，并选取排序在前的各个平均值对应的各个语音单元，以形成第二时长的语音数据。

在第三种方式中，当通过步骤A1得到目标语音集合中的每一语音单元中的每一语音帧在进行声学预测时的可确定性和可区分性后，可以据此从目标语音集合中筛选第二时长的语音数据。

具体实现时，可以按照上述第一种方式生成目标语音集合中的每一语音单元对应的最大后验概率平均值，共N个平均值，并按照上述第二种方式生成目标语音集合中的每一语音单元对应的概率差平均值，共N个平均值；然后，可以将这2N个平均值进行排序，并选取排序在前的各个平均值对应的各个语音单元，以形成第二时长的语音数据，或者，将相同语音单元的两个平均值进行加权计算，从而得到对应于每一语音单元的加权平均值，将这些加权平均值从小到大进行排序，并选取排序在前的各个平均值对应的各个语音单元，以形成第二时长的语音数据。

进一步地，在通过上述步骤S102筛选出第二时长的语音数据后，可以采用该第二时长的语音数据，训练声学模型。具体来讲，可以对第二时长的语音数据进行人工标注，得到第二标注数据，并在S101训练得到的声学模型的基础上，利用该第二标注数据继续对声学模型进行训练。

或者，在通过上述步骤S102筛选出第二时长的语音数据后，采用上述第一时长的语音数据与第二时长的语音数据，共同训练声学模型。具体来讲，可以对该第二时长的语音数据进行人工标注，得到第二标注数据，并在S101训练得到的声学模型的基础上，利用历史标注数据(即对第一时长的语音数据进行标注的结果)与该第二标注数据继续对声学模型进行训练。

综上，本实施例提供的一种语音数据筛选方法，先利用第一时长的语音数据，训练得到声学模型，然后，利用该声学模型从目标语音集合中筛选第二时长的语音数据，该第二时长的语音数据在被声学模型进行声学预测时的预测难度高。可见，本实施例可以对目标语音集合中的语音数据进行声学预测，根据预测结果判断哪些语音数据较难准确预测，从而将这些语音数据筛选出来，而这些语音数据中的数据特征正是声学模型需要学习的内容，进而可以利用这些语音数据对声学模型进行训练，不但提升了声学模型的预测效果，还降低了语音数据的标注代价。

第二实施例

本实施例将介绍一种文本数据筛选方法，在这之前，可以预先构建一个由大量文本构成的训练数据集合，通过该方法，从该训练数据集合中筛选出文本领域分类模型真正需要学习的特定领域(比如医学领域)的文本数据，用于对文本领域分类模型进行训练，这样，利用筛选出的有限的数据资源(即低资源)，使文本领域分类模型尽可能全面的进行该特定领域的文本特征的学习，不但提高了文本领域分类模型的训练速度，还提升了文本领域分类模型对该特定领域的分类效果。进而，可以利用该文本领域分类模型从用于训练语言模型的训练语料中，更准确的挑选出该特定领域的文本数据，用于对语言模型进行训练。

参见图2，为本实施例提供的一种文本数据筛选方法的流程示意图，该方法包括以下步骤：

S201：利用第一数量的文本数据，训练得到文本领域分类模型。

在本实施例中，为了提升文本领域分类模型的训练数据的数据质量，可以在本步骤S201之前，对上述由大量文本构成的训练数据集合进行处理，从中去除一些垃圾文本(比如含有乱码的文本等)，从而形成初始文本集合；或者，也可以直接将上述训练数据集合作为初始文本集合。

在本实施例中，可以从初始文本集合中随机挑选一定数量的文本数据，这里，将其定义为第一数量的文本数据，并对该第一数量的文本数据进行人工标注，标注出这些文本所属的领域，得到第三标注数据，利用该第三标注数据训练得到一个初始的文本领域分类模型。

其中，在选择“第一数量的文本数据”时，可以基于文本数据的人工标注能力进行选择，具体地，假设人工标注能力为可标注M2条文本数据，则可以基于M2的大小，选择一定比例(比如M2/5)的文本数据，作为第一数量的文本数据。例如，假设初始文本集合中包括共100000条文本数据、且人工标注能力为可标注10000条文本数据，则可以从100000条文本数据中随机挑选2000条文本数据，作为第一数量的文本数据，并对其进行人工标注。

需要说明的是，本实施例不限制文本领域分类模型的类型，例如，该文本领域分类模型可以是传统的支持向量机(Support Vector Machine，SVM)模型，也可以是神经网络模型，比如DNN模型、RNN模型、CNN模型等。

S202：利用文本领域分类模型，从第一目标文本集合中筛选第二数量的文本数据，其中，该第二数量的文本数据在被文本领域分类模型进行特定领域预测时的预测难度高。

在本实施例中，对于步骤S201中提及的初始文本集合，在从中选取第一数量的文本数据后，可以将该第一数量的文本数据从初始文本集合中去除，这里，将剩下的文本数据所形成的文本集合定义为第一目标文本集合。然后，从该第一目标文本集合中筛选出第二数量的文本数据。

在进行数据筛选时，可以只执行一次S202，即只筛选一次“第二数量的文本数据”。例如，初始文本集合中包括共100000条文本数据、且人工标注能力为可标注10000条文本数据，则可以从100000条文本数据中随机挑选2000条文本数据，作为第一数量的文本数据，再从剩下的98000条文本数据中筛选8000条文本数据，作为第二数量的文本数据。

当然，也可以多次执行S202，即多次筛选“第二数量的文本数据”，具体来讲，在第一次筛选之前，步骤S201中的“第一数量的文本数据”即为从初始文本集合中随机挑选的数据；而在第二次、第三次、……第N(N大于等于2)次筛选之前，步骤S201中的“第一数量的文本数据”包括从初始文本集合中随机挑选的数据、以及本次筛选之前已经筛选出的一组或多组“第二数量的文本数据”。在进行第二次、第三次、……第N次筛选时，从第一目标文本集合中筛选出第二数量的文本数据，其中，该第一目标文本集合包括从初始文本集合中去除本次筛选对应的“第一数量的文本数据”后的文本数据。

例如，基于上个例子，可以分四次从剩下的98000条文本数据中筛选8000条文本数据。在第一次筛选时，从98000条文本数据中筛选2000条文本数据，此时剩下96000条文本数据；在第二次筛选时，从96000条文本数据中筛选2000条文本数据，此时剩下94000条文本数据；在第三次筛选时，从94000条文本数据中筛选2000条文本数据，此时剩下92000条文本数据；在第四次筛选时，从92000条文本数据中筛选2000条文本数据。

在本实施例中，当利用本步骤S202进行每一次的数据筛选时，可以利用S201训练得到的文本领域分类模型进行筛选，具体地，可以将第一目标文本集合中的文本数据作为该文本领域分类模型的输入，利用该文本领域分类模型，从第一目标文本集合中筛选出预测难度较高(在进行特定领域预测时)的文本数据，形成第二数量的文本数据。

在本实施例的一种实现方式中，本步骤S202可以包括步骤B1-B2：

步骤B1：通过将文本领域分类模型的部分网络节点置0，得到N种置0方式下的文本领域分类模型。

在本实现方式中，可以将文本领域分类模型的网络节点进行dropout操作，即，将该文本领域分类模型的全连接层中的部分节点置0。具体地，可以预设置0节点在全连接层中的节点占比，然后，根据该节点占比，选择N种(N≥2)不同的节点组合，并对每一节点组合中的各个节点进行置0，从而得到N种置0方式下的文本领域分类模型。

例如，假设该文本分类模型为如图3所示的神经网络分类模型，可以预先设置dropout的概率(即节点占比)，比如0.5，即，对于N种dropout操作中的每一dropout操作，随机的将上一FC层(即全连接层full connect)的一半节点置零，从而得到N种置0方式下的文本领域分类模型。

步骤B2：利用N种置0方式下的文本领域分类模型，从第一目标文本集合中筛选第二数量的文本数据。

在本实现方式中，对于第一目标文本集合中的每一文本单元，不限制该文本单元的长度，比如该文本单元可以是由一个或多个句子组成的文本单元，可以将该文本单元分别作为这N种文本领域分类模型的输入，从而得到该文本单元对应的N个模型生成数据，这样，可以基于第一目标文本集合中的每一文本单元的N个模型生成数据，从第一目标文本集合中筛选第二数量的文本数据，即，筛选第二数量的文本单元。

在一种具体实现方式中，本步骤B2可以包括下述步骤B21-B22：

步骤B21：利用N种置0方式下的文本领域分类模型，生成第一目标文本集合中的每一文本单元的N个最大后验概率，其中，该最大后验概率为对应文本单元属于特定领域类别和非特定领域类别时的后验概率中的最大概率。

在文本领域分类模型中，可以对应两种领域分类类别，一种是特定领域(比如医疗领域)、另一种是非特定领域。

对于第一目标文本集合中的每一文本单元，可以利用N种置0方式下的文本领域分类模型，得到每一文本单元的N个最大后验概率，具体的，在利用某置0方式下的文本领域分类模型对一个文本单元进行领域分类时，可以得到该文本单元分别属于特定领域类别和非特定领域类别时的后验概率，在这两个后验概率中，选择其中的最大值作为该文本单元的最大后验概率。

步骤B22：根据生成的各个最大后验概率，从第一目标文本集合中筛选第二数量的文本数据。

当通过步骤B21生成每一文本单元的N个最大后验概率后，可以对这N个最大后验概率进行处理，得到一个参考指标L，该参考指标L可以表征对应文本单元在被文本领域分类模型进行特定领域预测时的预测难度的高低。

具体地，可以按照下述方式得到每一文本单元的参考指标L。

关于每一文本单元的N个最大后验概率，在这N个最大后验概率中，一部分的最大后验概率是该文本单元属于特定领域类别时的后验概率，另一部分的最大后验概率是该文本单元属于非特定领域类别时的后验概率。基于此，可以将这N个最大后验概率中对应于特定领域类别的概率个数，定义为第一个数，并将这N个最大后验概率中对应于非特定领域类别的概率个数，定义为第二个数；选取第一个数和第二个数中的最大值，作为该文本单元的最大概率个数，可以将该最大概率个数或将该最大概率个数与N的比值，作为该文本单元的参考指标L。

例如，假设N＝100，在文本单元A的100个最大后验概率中，对应于特定领域类别的概率个数为10(即第一个数)，对应于非特定领域类别的概率个数为90(即第二个数)，则文本单元A的最大概率个数为90，此时，文本单元A的参考指标L＝90或L＝90/100。

又例如，假设N＝100，在文本单元A的100个最大后验概率中，对应于特定领域类别的概率个数为60(即第一个数)，对应于非特定领域类别的概率个数为40(即第二个数)，则文本单元A的最大概率个数为60，此时，文本单元A的参考指标L＝60或L＝60/100。

基于此，在本步骤B22的一种实现方式中，可以先统计对应于每一文本单元的最大概率个数，之后，根据统计得到的最大概率个数，从第一目标文本集合中筛选第二数量的文本数据。具体地，当将最大概率个数作为参考指标L时，可以将对应于每一文本单元的最大概率个数L由小到大进行排序，选取排序在前的第二数量的最大概率个数L对应的各个文本单元；或者，当将最大概率个数与N的比值作为参考指标L时，可以将对应于每一文本单元的比值L由小到大进行排序，选取排序在前的第二数量的比值对应的各个文本单元。

需要说明的是，对于N种置0方式下的文本领域分类模型，由于这些文本领域分类模型的全连接层的矢量表征结果只包含了未置0之前的部分信息量，若使用这部分信息量仍能比较准确对某文本单元进行领域分类，即该文本单元的参考指标L较大，则说明文本领域分类模型很容易对该文本单元进行领域判定，进而说明文本领域分类模型已经学习到了该文本单元的文本特征。反之，若使用模型的部分信息量未能比较准确的对该文本单元进行领域分类，即该文本单元的参考指标L较小，则说明文本领域分类模型不容易对该文本单元进行领域判定，进而说明文本领域分类模型还未学习到该文本单元的文本特征，故而，该文本单元是文本领域分类模型需要学习的样本数据。

进一步地，在通过上述步骤S202筛选出第二数量的文本数据后，可以采用该第二数量的文本数据，训练文本领域分类模型。具体来讲，可以对第二数量的文本数据进行人工标注，得到第四标注数据，并在S201训练得到的文本领域分类模型的基础上，利用该第四标注数据继续对文本领域分类模型进行训练。

或者，在通过上述步骤S202筛选出第二数量的文本数据后，采用上述第一数量的文本数据与该第二数量的文本数据，共同训练文本领域分类模型。具体来讲，可以对该第二数量的文本数据进行人工标注，得到第四标注数据，并在S201训练得到的文本领域分类模型的基础上，利用历史标注数据(即对第一数量的文本数据进行标注的结果)与该第四标注数据继续对文本领域分类模型进行训练。

需要说明的是，关于步骤S202筛选出的第二数量的文本数据，由于这些文本数据在被文本领域分类模型进行特定领域预测时的预测难度较高，说明这些文本数据中包括了文本领域分类模型未学习到的特定领域的文本特征，因此，采用这些文本数据训练得到的文本领域分类模型，能够更准确的分辨出特定领域的文本数据。

更进一步地，当完成对文本领域分类模型的训练后，可以利用该文本领域分类模型，从第二目标文本集合中挑选特定领域的文本数据，用于训练语言模型。具体来讲，可以预先构建一个由大量文本构成的文本集合，这里，将该文本集合定义为第二目标文本集合，该第二目标文本集合可以与上述第一目标文本集合中的内容相同或不同；由于文本领域分类模型能够更准确的从第二目标文本集合中挑选出属于特定领域的文本数据，进而在利用其挑选出的文本数据对语言模型进行训练后，可以使得训练得到的语言模型在特定领域中具有较好的工作效果。

综上，本实施例提供的一种文本数据筛选方法，先利用第一数量的文本数据，训练得到文本领域分类模型，然后，利用该文本领域分类模型，从第一目标文本集合中筛选第二数量的文本数据，该第二数量的文本数据在被文本领域分类模型进行特定领域预测时的预测难度高。可见，本实施例可以对第一目标文本集合中的文本数据进行特定领域的预测，根据预测结果判断哪些文本数据较难准确预测，从而将这些文本数据筛选出来，而这些文本数据中的数据特征正是文本领域分类模型需要学习的内容，进而可以利用这些有限的文本数据对文本领域分类模型进行训练，不但提升了文本领域分类模型对特定领域的分类效果，还降低了文本数据的标注代价。

进一步地，可以利用该文本领域分类模型更准确的挑选出属于特定领域的文本数据，用于对语言模型进行训练，以提升语言模型在特定领域的工作性能。

第三实施例

需要说明的是，本实施例将介绍一种数据筛选方法、以及一种模型构建方法，可以采用上述第一实施例和第二实施例介绍的筛选方法进行具体实现。

参见图4，为本实施例提供的一种数据筛选方法的流程示意图，该方法包括：

步骤S401：基于对数据特征的学习需求，采用预设的筛选策略在待筛选的数据集合中进行数据筛选，得到筛选数据，其中，该筛选数据中携带了未学习到的数据特征。

在实际应用中，特别是在深度学习领域，为了实现不同的功能目标，需要收集与该功能目标相关的大量的样本数据，从而形成一个数据集合，并期望能够对该数据集合中的数据特征进行全面的学习，然而，为了能够在有限数据资源(低资源)的情况下实现对数据特征的全面学习，可以基于对数据特征的学习需求，预先制定数据筛选策略，以在待筛选的数据集合中进行数据筛选，使筛选出的数据携带有当前未学习到的数据特征，进而，可以基于这些筛选出的有限数据资源进行特征学习。

在本实施例的一种实现方式中，当待筛选的数据集合为第一实施例中的目标语音集合时，可以采用上述第一实施例介绍的语音数据筛选方法的任意一种实现方式，筛选语音数据。

在本实施例的另一种实现方式中，当待筛选的数据集合为第二实施例中的第一目标文本集合时，可以采用上述第二实施例介绍的文本数据筛选方法的任意一种实现方式，筛选文本数据。

参见图5，为本实施例提供的一种模型构建方法的流程示意图，该方法包括：

S501：采用第一实施例中介绍的方法训练声学模型，以及，采用第二实施例中介绍的方法训练语言模型。

在本实施例中，当通过上述第一实施例中的步骤S102筛选出第二时长的语音数据后，可以采用该第二时长的语音数据，训练声学模型。需要说明的是，如果采用步骤S102进行多次的数据筛选，则该声学模型是利用最后一次筛选数据训练得到的声学模型。

在本实施例中，当通过上述第二实施例完成对文本领域分类模型的训练后，可以利用该文本领域分类模型挑选出特定领域的文本数据，用于训练语言模型。

S502：利用训练得到的声学模型和语言模型，构建语音识别模型。

当通过S501训练得到声学模型以及语言模型后，便可以利用二者构建语音识别模型，由于该声学模型和语言模型是在低标注代价下训练得到的模型，故而，使得构建得到的语音识别模型也具有较低的标注代价。

第四实施例

参见图6，为本实施例提供的语音数据筛选装置的组成示意图，该装置600包括：

声学模型训练单元601，用于利用第一时长的语音数据，训练得到声学模型；

语音数据筛选单元602，用于利用所述声学模型从目标语音集合中筛选第二时长的语音数据，所述第二时长的语音数据在被所述声学模型进行声学预测时的预测难度高。

在本实施例的一种实现方式中，所述语音数据筛选单元602包括：

数据特性生成子单元，用于利用所述声学模型，得到目标语音集合中的每一语音单元中的每一语音帧在进行声学预测时的可确定性和/或可区分性；

语音数据筛选子单元，用于根据得到的可确定性和/或可区分性，从所述目标语音集合中筛选第二时长的语音数据。

在本实施例的一种实现方式中，所述可确定性为对应语音帧的最大后验概率，所述最大后验概率为对应语音帧属于各个语音类别时的各个后验概率中的最大概率；所述可区分性为对应语音帧的最大后验概率和次大后验概率的差值，所述最大后验概率和次大后验概率分别为对应语音帧属于各个语音类别时的各个后验概率中的最大概率和次大概率。

在本实施例的一种实现方式中，所述声学模型训练单元，还用于采用所述第二时长的语音数据，训练所述声学模型；或者，采用所述第一时长的语音数据与所述第二时长的语音数据，共同训练所述声学模型。

进一步地，本实施例还提供了一种语音数据筛选设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述语音数据筛选方法的任一种实现方式。

进一步地，本实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述语音数据筛选方法的任一种实现方式。

进一步地，本实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述语音数据筛选方法的任一种实现方式。

参见图7，为本实施例提供的文本数据筛选装置的组成示意图，该装置700包括：

分类模型训练单元701，用于利用第一数量的文本数据，训练得到文本领域分类模型；

文本数据筛选单元702，用于利用所述文本领域分类模型，从第一目标文本集合中筛选第二数量的文本数据，所述第二数量的文本数据在被所述文本领域分类模型进行特定领域预测时的预测难度高。

在本实施例的一种实现方式中，所述文本数据筛选单元702包括：

网络节点置零子单元，用于通过将所述文本领域分类模型的部分网络节点置0，得到N种置0方式下的所述文本领域分类模型；

第一文本筛选子单元，用于利用N种置0方式下的所述文本领域分类模型，从第一目标文本集合中筛选第二数量的文本数据。

在本实施例的一种实现方式中，所述第一文本筛选子单元包括：

后验概率生成子单元，用于利用N种置0方式下的所述文本领域分类模型，生成第一目标文本集合中的每一文本单元的N个最大后验概率，所述最大后验概率为对应文本单元属于特定领域类别和非特定领域类别时的后验概率中的最大概率；

第二文本筛选子单元，用于根据生成的各个最大后验概率，从第一目标文本集合中筛选第二数量的文本数据。

在本实施例的一种实现方式中，所述第二文本筛选子单元包括：

概率个数统计子单元，用于统计对应于每一文本单元的最大概率个数；

第三文本筛选子单元，用于根据统计得到的最大概率个数，从第一目标文本集合中筛选第二数量的文本数据。

在本实施例的一种实现方式中，所述分类模型训练单元，还用于采用所述第二数量的文本数据，训练所述文本领域分类模型；或者，采用所述第一数量的文本数据与所述第二数量的文本数据，共同训练所述文本领域分类模型。

在本实施例的一种实现方式中，所述装置还包括：

语言模型训练单元，用于利用所述文本领域分类模型，从第二目标文本集合中挑选所述特定领域的文本数据，用于训练语言模型。

进一步地，本实施例还提供了一种文本数据筛选设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述文本数据筛选方法的任一种实现方式。

进一步地，本实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述文本数据筛选方法的任一种实现方式。

进一步地，本实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述文本数据筛选方法的任一种实现方式。

参见图8，为本实施例提供的数据筛选装置的组成示意图，该装置800包括：

特征数据筛选单元801，用于基于对数据特征的学习需求，采用预设的筛选策略在待筛选的数据集合中进行数据筛选，得到筛选数据；

其中，所述筛选数据中携带了未学习到的数据特征。

在本实施例的一种实现方式中，所述特征数据筛选单元801包括：采用上述语音数据筛选装置筛选语音数据；和/或，采用上述文本数据筛选装置筛选文本数据。

进一步地，本实施例还提供了一种数据筛选设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述数据筛选方法的任一种实现方式。

进一步地，本实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述数据筛选方法的任一种实现方式。

进一步地，本实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述数据筛选方法的任一种实现方式。

参见图9，为本实施例提供的模型构建装置的组成示意图，该装置包括：

模型训练单元901，用于采用上述声学模型训练单元训练声学模型，以及，采用上述语言模型训练单元训练语言模型；

模型构建单元902，用于利用训练得到的声学模型和语言模型，构建语音识别模型。

进一步地，本实施例还提供了一种模型构建设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述模型构建方法的任一种实现方式。

进一步地，本实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述模型构建方法的任一种实现方式。

进一步地，本实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述模型构建方法的任一种实现方式。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音数据筛选方法，其特征在于，包括：

利用第一时长的语音数据，训练得到声学模型；

将目标语音集合中的语音数据作为所述声学模型的输入，利用该声学模型，从目标语音集合中筛选出声学预测难度高的语音数据，形成第二时长的语音数据；

其中，所述第一时长的语音数据，包括从初始语音集合中随机挑选的数据，以及本次从目标语音集合中筛选第二时长的语音数据之前已经筛选出的一组或多组第二时长的语音数据；

语音数据的声学预测难度根据对语音数据进行声学预测时的可确定性和/或可区分性而确定；

所述可确定性由对语音数据进行声学预测时的最大后验概率而确定，所述可区分性由对语音数据进行声学预测时的最大后验概率和次大后验概率而确定。

2.根据权利要求1所述的方法，其特征在于，所述利用该声学模型，从目标语音集合中筛选出声学预测难度高的语音数据，形成第二时长的语音数据，包括：

根据得到的可确定性和/或可区分性，从所述目标语音集合中筛选出声学预测难度高的语音数据，形成第二时长的语音数据。

3.根据权利要求2所述的方法，其特征在于，

所述可确定性为对应语音帧的最大后验概率，所述最大后验概率为对应语音帧属于各个语音类别时的各个后验概率中的最大概率；

所述可区分性为对应语音帧的最大后验概率和次大后验概率的差值，所述最大后验概率和次大后验概率分别为对应语音帧属于各个语音类别时的各个后验概率中的最大概率和次大概率。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：

采用所述第二时长的语音数据，训练所述声学模型；

或者，采用所述第一时长的语音数据与所述第二时长的语音数据，共同训练所述声学模型。

5.一种文本数据筛选方法，其特征在于，包括：

利用第一数量的文本数据，训练得到文本领域分类模型；

将第一目标文本集合中的文本数据作为所述文本领域分类模型的输入，利用所述文本领域分类模型，从第一目标文本集合中筛选出在进行特定领域预测时的预测难度高的文本数据，形成第二数量的文本数据；

其中，所述第一数量的文本数据，包括从初始文本集合中随机挑选的数据，以及本次从第一目标文本集合中筛选第二数量的文本数据之前已经筛选出的一组或多组第二数量的文本数据；

文本数据在被所述文本领域分类模型进行特定领域预测时的预测难度，根据文本数据在被所述文本领域分类模型进行特定领域预测时、该文本数据属于特定领域类别和非特定领域类别的后验概率中的最大概率而确定。

6.根据权利要求5所述的方法，其特征在于，所述从第一目标文本集合中筛选出在进行特定领域预测时的预测难度高的文本数据，形成第二数量的文本数据，包括：

利用N种置0方式下的所述文本领域分类模型，从第一目标文本集合中筛选出在进行特定领域预测时的预测难度高的文本数据，形成第二数量的文本数据。

7.根据权利要求6所述的方法，其特征在于，所述利用N种置0方式下的所述文本领域分类模型，从第一目标文本集合中筛选出在进行特定领域预测时的预测难度高的文本数据，形成第二数量的文本数据，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据生成的各个最大后验概率，从第一目标文本集合中筛选第二数量的文本数据，包括：

统计对应于每一文本单元的最大概率个数；

9.根据权利要求5至8任一项所述的方法，其特征在于，所述方法还包括：

采用所述第二数量的文本数据，训练所述文本领域分类模型；

或者，采用所述第一数量的文本数据与所述第二数量的文本数据，共同训练所述文本领域分类模型。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

利用所述文本领域分类模型，从第二目标文本集合中挑选所述特定领域的文本数据，用于训练语言模型。

11.一种数据筛选方法，其特征在于，包括：

基于对数据特征的学习需求，采用权利要求1至3任一项所述的方法筛选语音数据，和/或，采用权利要求5至8任一项所述的方法筛选文本数据，得到筛选数据；

其中，所述筛选数据中携带了未学习到的数据特征。

12.一种模型构建方法，其特征在于，包括：

采用权利要求4所述的方法训练声学模型，以及，采用权利要求10所述的方法训练语言模型；

利用训练得到的声学模型和语言模型，构建语音识别模型。

13.一种语音数据筛选装置，其特征在于，包括：

语音数据筛选单元，用于将目标语音集合中的语音数据作为所述声学模型的输入，利用该声学模型，从目标语音集合中筛选出声学预测难度高的语音数据，形成第二时长的语音数据；

14.根据权利要求13所述的装置，其特征在于，所述声学模型训练单元，还用于采用所述第二时长的语音数据，训练所述声学模型；或者，采用所述第一时长的语音数据与所述第二时长的语音数据，共同训练所述声学模型。

15.一种文本数据筛选装置，其特征在于，包括：

文本数据筛选单元，用于将第一目标文本集合中的文本数据作为所述文本领域分类模型的输入，利用所述文本领域分类模型，从第一目标文本集合中筛选出在进行特定领域预测时的预测难度高的文本数据，形成第二数量的文本数据；

16.根据权利要求15所述的装置，其特征在于，所述分类模型训练单元，还用于采用所述第二数量的文本数据，训练所述文本领域分类模型；或者，采用所述第一数量的文本数据与所述第二数量的文本数据，共同训练所述文本领域分类模型。

17.根据权利要求16所述的装置，其特征在于，所述装置还包括：

18.一种数据筛选装置，其特征在于，包括：

特征数据筛选单元，用于基于对数据特征的学习需求，采用权利要求13或14所述的语音数据筛选装置筛选语音数据，和/或，采用权利要求15至17任一项所述的文本数据筛选装置筛选文本数据，得到筛选数据；

其中，所述筛选数据中携带了未学习到的数据特征。

19.一种模型构建装置，其特征在于，包括：

模型训练单元，用于采用权利要求13或14所述的声学模型训练单元训练声学模型，以及，采用权利要求17所述的语言模型训练单元训练语言模型；