CN113761918A

CN113761918A - 一种数据处理方法及装置

Info

Publication number: CN113761918A
Application number: CN202010500084.0A
Authority: CN
Inventors: 顾淑琴; 扈中凯; 张昱琪; 施杨斌
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2021-12-07

Abstract

本发明公开了一种数据处理方法及装置，涉及计算机技术领域，本发明的主要目的在于从大量文本数据中选出能够有效提高模型识别效果的样本进行标注，从而节省标注成本。本发明主要的技术方案为：获取同一条数据的第一特征向量与第二特征向量；根据所述第一特征向量与所述第二特征向量确定所述数据的置信度；根据所述置信度选择所述数据作为标注数据。

Description

一种数据处理方法及装置

技术领域

本发明涉及计算机理技术领域，尤其涉及一种数据处理方法及装置。

背景技术

命名实体识别(Named Entity Recognition，NER)，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。在电商标题场景中，命名实体指的是产品名称、商品类目、商品属性词等。在进行电商单术语挖掘时，对命名实体识别的主要方式是基于神经网络的实现方法，常用的识别模型如BiLSTM-CRF模型。

而模型的使用需要预先对其进行训练以达到较好的识别效果，这就需要使用带有标注数据的样本，这些带有标注数据的样本大多是通过人工标注得到的。一般情况下，训练模型所需的样本数量与模型效果的并非线性，即模型的性能并不会随着训练样本数据的增加而无限提高，其会有相应的瓶颈值，因此，为了节省人工标注训练样本的成本，就需要有选择的对样本数据进行标注，从而达到使用较少的样本训练模型接近或达到其瓶颈值。

发明内容

鉴于上述问题，本发明提出了一种数据处理方法及装置，主要目的在于从大量文本数据中选出能够有效提高模型识别效果的样本进行标注，从而节省标注成本。

为达到上述目的，本发明主要提供如下技术方案：

一方面，本发明提供一种数据处理方法，具体包括：

获取同一条数据的第一特征向量与第二特征向量；

根据所述第一特征向量与所述第二特征向量确定所述数据的置信度；

根据所述置信度选择所述数据作为标注数据。

优选的，所述第一特征向量和所述第二特征向量通过如下方式获得：

将所述数据分别输入识别模型的第一嵌入层和第二嵌入层；

将所述第一嵌入层输出的内容输入第一神经网络层，以获得第一特征向量；

将所述第二嵌入层输出的内容输入第二神经网络层，以获得第二特征向量。

优选的，所述根据所述第一特征向量与第二特征向量确定所述数据的置信度，包括：

确定所述第一特征向量与第二特征向量之间的相似度；

利用所述第一特征向量与第二特征向量确定所述数据的平均信息熵；

将所述平均信息熵与所述相似度的差值作为所述数据的置信度。

优选的，所述根据所述第一特征向量与第二特征向量确定所述数据的平均信息熵，包括：

将所述第一特征向量与第二特征向量拼接为组合特征向量；

根据所述组合特征向量，确定所述数据中各个分词所对应的标签概率；

根据所述标签概率计算各个分词所对应的信息熵；

根据所述信息熵确定所述数据的平均信息熵。

优选的，所述方法还包括：

设置所述相似度的上限值；

如果所述数据所对应的第一特征向量与第二特征向量之间的相似度高于所述上限值，提示修改所述识别模型以提高参数设置的差异化程度。

优选的，所述根据所述置信度选择所述数据作为标注数据，包括：

获得多个数据的置信度；

按照所述置信度由高到低的顺序进行排序；

根据预设数量以及所述排序从所述多个数据中选择置信度高的数据作为标注数据。

优选的，所述识别模型为基于神经网络的BiLSTM-CRF模型。

另一方面，本发明提供一种数据处理装置，具体包括：

获取单元，用于获取同一条数据的第一特征向量与第二特征向量；

确定单元，用于根据所述获取单元得到的第一特征向量与所述第二特征向量确定所述数据的置信度；

选择单元，用于根据所述确定单元得到的置信度选择所述数据作为标注数据。

优选的，所述获取单元包括：

输入模块，用于将所述数据分别输入识别模型的第一嵌入层和第二嵌入层；

获取模块，用于将所述第一嵌入层输出的内容输入第一神经网络层，以获得第一特征向量；

获取模块还用于，将所述第二嵌入层输出的内容输入第二神经网络层，以获得第二特征向量。

优选的，所述确定单元包括：

第一确定模块，用于确定所述第一特征向量与第二特征向量之间的相似度；

第二确定模块，用于利用所述第一特征向量与第二特征向量确定所述数据的平均信息熵；

计算模块，用于将所述第二确定模块得到的平均信息熵与所述第一确定模块得到的相似度的差值作为所述数据的置信度。

优选的，所述第二确定模块还用于：

将所述第一特征向量与第二特征向量拼接为组合特征向量；

根据所述标签概率计算各个分词所对应的信息熵；

根据所述信息熵确定所述数据的平均信息熵。

优选的，所述装置还包括：

设置单元，用于设置所述确定单元确定的相似度的上限值；

报警单元，用于如果所述数据所对应的第一特征向量与第二特征向量之间的相似度高于所述设置单元设置的上限值，提示修改所述识别模型以提高参数设置的差异化程度。

优选的，所述选择单元包括：

获取模块，用于获得多个数据的置信度；

排序模块，用于按照所述获取模块得到的置信度由高到低的顺序进行排序；

选择模块，用于根据预设数量以及所述排序模块确定的排序从所述多个数据中选择置信度高的数据作为标注数据。

优选的，所述识别模型为基于神经网络的BiLSTM-CRF模型。

另一方面，本发明提供一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述的数据处理方法。

借由上述技术方案，本发明提供的一种数据处理方法及装置，通过对同一条数据使用基于不同参数设置的特征提取方式而得到两个对应的特征向量，比如通过识别模型中不同参数设置的编码器对数据进行编码，利用得到的第一特征向量与第二特征向量综合确定出该数据用于训练所述识别模型的置信度，由于不同特征向量的综合处理可以从更多维度来确定使用该数据训练识别模型的效果，并且可以对每个数据给出对应的量化值，因此，可以根据置信度从大量数据中选择较少数量的数据进行标注，以此将识别模型的识别效果训练至瓶颈值，从而减少人工标注训练样本的成本。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提出的一种数据处理方法的流程图；

图2示出了本发明实施例提出的另一种数据处理方法的流程图；

图3示出了本发明实施例提出的一种数据处理方法与其他方法在实际应用中的效果对比图；

图4示出了本发明实施例提出的另一种数据处理装置的组成框图；

图5示出了本发明实施例提出的另一种数据处理方法的流程图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明实施例提供的一种数据处理方法，该方法是在模型训练过程中，对样本数据筛选的改进，主要是对人工标注样本的选择方式进行的优化，不再通过随机抽样来挑选样本数据，而是利用置信度的计算来度量所有样本数据进行人工标注的价值，从而选择最优的样本数据进行样本标注。本方法具体步骤如图1所示，该方法包括：

步骤101、获取同一条数据的第一特征向量与第二特征向量。

其中，本实施例中的特征向量是基于识别模型对该数据的处理所获取的。具体的，本步骤中的该识别模型可以是多种命名实体识别的实现方式，常用的如BiLSTM-CRF模型，也可以是以RNN、CNN、Tranformer等网络结构构建的模型。这些模型在进行命名实体识别时，都需要对输入的数据进行向量转换，再提取其中的向量特征以进行命名实体识别，即对于输入的数据都需要进行特征向量的转化与提取，即模型中所应用的编码器encoder，针对编码器参数的设置不同，会导致所得到的特征向量不同，进而对命名实体识别的效率与准确性都会产生影响。

对于样本数据或待标注数据而言，识别模型采用不同的参数设置所提取的特征向量之间(即第一特征向量与第二特征向量)，如果差异越大，则说明该识别模型越难以识别该样本数据或待标注数据。而不同的样本数据或待标注数据所具有的这种差异也是不同的，利用这种差异，也可以作为选择数据的一种参考标准，以此来提高数据来源的多样性。同时，使用第一特征向量与第二特征向量也可以通过信息熵的方式从另一维度来衡量识别模型是否能够准确识别该样本数据或待标注数据。由此可见，通过获取同一条数据的第一特征向量与第二特征向量可以进行对比、组合等多种方式来定义不同维度的衡量标准，从而让数据具有多维度的衡量方式。

需要说明的是，本步骤中的第一特征向量与第二特征向量并不是用于对特征向量数量的限定，也就是说，根据不同的参数设置，可以得到针对同一数据的多组特征向量，进而实现更多维度衡量标准的定义与设置。

步骤102、根据第一特征向量与第二特征向量确定数据的置信度。

根据上一步骤中所说明的基于不同特征向量的组合所定义的不同维度的衡量标准，本步骤就是利用第一特征向量与第二特征向量针对不同维度的衡量标准进行综合评价，从而得到对应该数据的置信度。其中该置信度用于度量该数据用于训练该识别模型的识别效果。该置信度将作为选择数据进行人工标注的量化标准。

具体的，置信度中所含有的具体衡量标准可以包括不同特征向量之间的差异度，其可以通过相似度确定，以及数据中字词的信息熵，其需要根据数据中各个字词在所需标注标签上的概率计算得到，信息熵越大，就表明该数据的不确定性越大，即识别模型对该样本的预测越不准确。由不同特征向量所定义的不同维度的衡量标准还可以是基于不同特征向量所对应的加权值而统计得到的，其具体的统计方式不限定是求和、求最大值，求平均等等。

步骤103、根据置信度选择数据作为标注数据。

本发明实施例中，通过步骤101、102实现了对所有数据的置信度计算，以此作为选择标准，置信度越大的数据越适合进行标签标注。因此，本步骤就是根据预设的选择数量结合置信度进行选择，或者根据置信度的预设值选择高于该预设值的数据作为标注数据，以便进一步执行人工标注。

通过对上述实施例的说明可知，本发明实施例所提供的一种数据处理方法，是通过对所有数据进行置信度的量化计算，以此作为选择数据的标准，选出更有助于训练识别模型的数据进行标签标注。而置信度的计算则是通过由识别模型对参数的不同设置而实现的多组编码器，对同一数据进行不同编码，确定多组的特征向量，利用这些不同的特征向量从多个维度衡量识别模型预测该数据的准确性。可见，本发明实施例是从多个维度对数据进行综合量化打分，并基于该分数选出所需的数据，避免了现有选择方式中的由于随机采样导致的漏选，并且通过多维度评价也避免了所选中的数据缺乏多样性的问题。

进一步的，针对上述图1所述的数据处理方法，本发明实施例将详细说明针对命名实体识别中通过两个特征向量确定置信度，并以此进行数据筛选处理的过程，其具体步骤包括：

步骤201、基于识别模型对参数的不同设置，获取同一条数据的第一特征向量与第二特征向量。

具体本步骤中的识别模型为基于神经网络的BiLSTM-CRF模型，BiLSTM-CRF模型是目前使用比较流行的处理序列标注问题的模型，在命名实体识别任务上有着广泛应用。针对该模型的具体结构以及原理本实施例不再详细说明。

本步骤中针对BiLSTM-CRF模型所设置的参数包括维度的数量以及初始化权重等，这些参数主要影响的是BiLSTM-CRF模型的embedding层(嵌入层)与Bi-LSTM层(神经网络层)，其中，embedding层用于将输入模型的语句进行向量表示，而Bi-LSTM层则用于从语句的向量表示中提取特征向量。具体到本发明实施例中，需要对BiLSTM-CRF模型确定两组模型参数，通过使用这两组模型参数配置的识别模型分别对数据进行特征向量的提取，对于一条数据而言，就可以得到对应的第一特征向量与第二特征向量，经将同一条数据分别输入识别模型基于两组模型参数对应的embedding层中，即第一嵌入层和第二嵌入层，之后，将第一嵌入层输出的内容输入第一Bi-LSTM层，即第一神经网络层，以获得第一特征向量，将第二嵌入层输出的内容输入第二Bi-LSTM层，即第二神经网络层，以获得第二特征向量。比如，对于同一条数据，分别使用100维向量和300维向量转化的向量表示是不同的，再基于向量表示提取特征向量，该过程又与模型的初始化向量权重相关，不同的权重所提取的特征向量也不同，可见，不同的参数设置所提取的对应特征向量也是不同的。

在使用其他网络结构时，对应的需要对关于特征向量转化与提取部分的参数进行分组设置，以实现得到多组的特征向量。具体设置的参数与对应的网络结构相关，此处不再详细说明。

步骤202、确定第一特征向量与第二特征向量之间的相似度。

第一特征向量与第二特征向量之间的相似度大小可以表明使用不同参数设置的BiLSTM-CRF模型对同样的数据进行分类时所产生的分歧大小，分歧越大，表明该数据将难以被模型预测正确，即正确识别出其中的命名实体。

本步骤中的相似度是两个特征向量之间的相似度，常用的相似度计算方法包括余弦相似度、欧几里德距离、皮尔逊相关系数等等。本发明实施例不具体限定相似度的具体算法。

进一步的，由于第一特征向量与第二特征向量之间的相似度可以用于衡量模型识别该数据的能力，相似度越高，对应的该能力就越强，说明该数据不需要被选择进行人工标注。而影响相似度大小的原因，可以是模型自身识别能力的原因，或者是模型参数设置的原因，对于后者，本发明实施例还可以预先设置该相似度的上限值，如果所有数据对应的第一特征向量与第二特征向量之间的相似度都高于该上限值时，则发出报警提示，该报警提示用于提示修改该识别模型对参数的不同设置，即重新设置两组模型参数执行步骤201与202，通过提高参数设置的差异化程度，来增加同一数据对应的特征向量之间的差异性。

步骤203、利用第一特征向量与第二特征向量确定数据的平均信息熵。

信息熵是机器学习中的一个指标，常用来作为一个系统信息含量的量化指标，事件发生的概率越低，其发生时所能给出的信息量越大。在本实施例中，信息熵越大，就表明不确定性越大，即模型识别该数据的准确率越低。

具体到本实施例中，使用BiLSTM-CRF模型确定数据的平均信息熵的过程如下：

首先，将第一特征向量与第二特征向量拼接为组合特征向量。通过拼接为数据所对应的语句赋予更为丰富的语义信息。

之后，利用BiLSTM-CRF模型处理该组合特征向量，确定该数据中各个分词所对应的标签概率。

对于BiLSTM-CRF模型而言，Bi-LSTM层会输出针对输入语句中各个分词所对应的标签概率，而该步骤中，是将组合特征向量输入全连接层，利用softmax函数对其进行处理，得到一个处理后的向量，基于该向量进一步确定该语句中各个分词的标签以及该标签对应的标签概率。

第三，根据标签概率计算各个分词所对应的信息熵。

根据信息熵的定义可知，其是基于事件概率计算得到的，因此，本实施例中，根据上述所计算得到的标签概率，利用信息熵的定义公式就可以得出各个分词所对应的信息熵。

最后，根据信息熵确定数据的平均信息熵。即基于各个分词所对应的信息熵计算整个语句所对应的平均信息熵。现有的样本标注多是以该平均信息熵来衡量一个样本数据的不确定性，以此作为选择进行标注的采样准则。而本实施例中，则是将该平均信息熵作为一个维度的指标，参与评定该数据是否可以被选择进行人工标注。

需要说明的是，本步骤与步骤202之间不存在逻辑上的先后执行关系。

步骤204、将平均信息熵与相似度的差值作为数据的置信度。

本实例中对置信度的定义即为平均信息熵与相似度的差值。平均信息熵越大，对应的该数据越需要进行人工标签标注；而相似度则是越小，对应的数据才越需要进行人工标签标注，因此，两者的差值与该数据被选择的需求程度成正比。

步骤205、根据置信度选择数据作为标注数据。

本步骤中的具体选择过程是先获取多个数据的置信度，再将这些数据按照置信度由高到低的顺序进行排序，之后，根据预设数量以及排序从这多个数据中选择置信度高的数据作为标注数据，即需要进行人工标注的数据。

通过对上述实施例各步骤以及对应的图示说明可知，本发明实施例能够对数据集中的所有数据进行多维度的量化评价，即通过确定每个数据的置信度来衡量是否需要进行人工标注。相对于现有选择数据进行标签标注的常规方式，如随机抽样、不确定性采样等方法，本发明实施例是对所有的数据样本进行多维度的量化测评，通过不同特征向量的相似度对比可以确保所选择的数据的多样化，而通过信息熵的计算可以确保所选择的数据的不确定性。实现了以选择少量的数据进行人工标注后训练模型同样可以达到较高的识别效果，从而减少人工标注的工作量，提高标注效率。

本发明实施例通过在电商标题数据上进行的实验也说明了本发明相对于随机抽样方法和不确定性采样方法具有使用标注样本更少，其对比效果如图3所示，图中x轴表示从一个未标注的数据池中挑选的数据量，2k表示2000条句子，y轴表示利用不同的方法挑选的句子训练的电商NER模型的性能。图3中的线段A为本发明实施例采用的置信度方法所形成的线段，线段B为采用不确定性采样方法所形成的线段，线段C为采用随机抽样方法所形成的线段。从图中可以看出，在每一轮挑选句子过程，置信度最大准则均表现出较好的性能。与线段B与C相比，当需要标注16k条句子时，采用置信度方法的线段A，只要标注14k条句子就能实现比随机采样标注或不确定性采样标注16k条句子还要好的性能，大约可以节约12.5％的标注成本。

综合上述实施例的内容，本发明实施例提出的数据处理方法可以用于需要进行模型训练的各种应用场景，比如，电商平台，翻译软件或平台、人机交互服务等等，通过本发明可以为模型快速、准确地筛选出训练样本，实现使用少量训练样本而得到同等性能的模型，降低运营用户或企业对模型训练或维护的成本。

进一步的，作为对上述图1、2所示方法的实现，本发明实施例提供了一种数据处理装置，该装置主要目的在于从大量文本数据中选出能够有效提高模型识别效果的样本进行标注，从而节省标注成本。为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置如图4所示，具体包括：

获取单元31，用于获取同一条数据的第一特征向量与第二特征向量；

确定单元32，用于根据所述获取单元31得到的第一特征向量与所述第二特征向量确定所述数据的置信度；

选择单元33，用于根据所述确定单元32得到的置信度选择所述数据作为标注数据。

进一步的，如图5所示，所述获取单元31包括：

输入模块311，用于将所述数据分别输入识别模型的第一嵌入层和第二嵌入层；

获取模块312，用于将所述输入模块311输入第一嵌入层后输出的内容输入第一神经网络层，以获得第一特征向量；

获取模块312还用于，将所述输入模块311输入第二嵌入层输出的内容输入第二神经网络层，以获得第二特征向量。

进一步的，如图5所示，所述确定单元32包括：

第一确定模块321，用于确定所述第一特征向量与第二特征向量之间的相似度；

第二确定模块322，用于利用所述第一特征向量与第二特征向量确定所述数据的平均信息熵；

计算模块323，用于将所述第二确定模块322得到的平均信息熵与所述第一确定模块321得到的相似度的差值作为所述数据的置信度。

进一步的，所述第二确定模块322还用于：

将所述第一特征向量与第二特征向量拼接为组合特征向量；

根据所述标签概率计算各个分词所对应的信息熵；

根据所述信息熵确定所述数据的平均信息熵。

进一步的，如图5所示，所述装置还包括：

设置单元34，用于设置所述确定单元32确定的相似度的上限值；

报警单元35，用于如果所述数据所对应的第一特征向量与第二特征向量之间的相似度高于所述设置单元34设置的上限值，提示修改所述识别模型以提高参数设置的差异化程度。

进一步的，如图5所示，所述选择单元33包括：

获取模块331，用于获得多个数据的置信度；

排序模块332，用于按照所述获取模块331得到的置信度由高到低的顺序进行排序；

选择模块333，用于根据预设数量以及所述排序模块332确定的排序从所述多个数据中选择置信度高的数据作为标注数据。

进一步的，所述识别模型为基于神经网络的BiLSTM-CRF模型。

另外，本发明实施例还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述任意一个实施例提供的数据处理方法。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的较佳实施方式。

此外，存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存

(flash RAM)，存储器包括至少一个存储芯片。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据处理方法，所述方法包括：

获取同一条数据的第一特征向量与第二特征向量；

根据所述置信度选择所述数据作为标注数据。

2.根据权利要求1所述的方法，其特征在于，所述第一特征向量和所述第二特征向量通过如下方式获得：

将所述数据分别输入识别模型的第一嵌入层和第二嵌入层；

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一特征向量与第二特征向量确定所述数据的置信度，包括：

确定所述第一特征向量与第二特征向量之间的相似度；

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一特征向量与第二特征向量确定所述数据的平均信息熵，包括：

将所述第一特征向量与第二特征向量拼接为组合特征向量；

根据所述标签概率计算各个分词所对应的信息熵；

根据所述信息熵确定所述数据的平均信息熵。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

设置所述相似度的上限值；

6.根据权利要求1所述的方法，其特征在于，所述根据所述置信度选择所述数据作为标注数据，包括：

获得多个数据的置信度；

按照所述置信度由高到低的顺序进行排序；

7.根据权利要求2-6中任一项所述的方法，其特征在于，所述识别模型为基于神经网络的BiLSTM-CRF模型。

8.一种数据处理装置，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述获取单元包括：

10.根据权利要求9所述的装置，其特征在于，所述确定单元包括：

11.根据权利要求10所述的装置，其特征在于，所述第二确定模块还用于：

将所述第一特征向量与第二特征向量拼接为组合特征向量；

根据所述标签概率计算各个分词所对应的信息熵；

根据所述信息熵确定所述数据的平均信息熵。

12.根据权利要求10所述的装置，其特征在于，所述装置还包括：

设置单元，用于设置所述确定单元确定的相似度的上限值；

13.根据权利要求8所述的装置，其特征在于，所述选择单元包括：

获取模块，用于获得多个数据的置信度；

14.根据权利要求9-13中任一项所述的装置，其特征在于，所述识别模型为基于神经网络的BiLSTM-CRF模型。

15.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1-7中任意一项权利要求所述的数据处理方法。