CN111382268A

CN111382268A - 文本训练数据处理方法、装置及存储介质

Info

Publication number: CN111382268A
Application number: CN202010115489.2A
Authority: CN
Inventors: 韩佳乘; 齐保元; 孟二利
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2020-07-07
Anticipated expiration: 2040-02-25
Also published as: CN111382268B

Abstract

本公开是关于一种文本训练数据处理方法、装置及存储介质。文本训练数据处理方法包括：将第一文本训练数据作为分布式多用户能力搜索引擎的查询内容进行相似内容查询，得到预设数量的第二文本训练数据，分布式多用户能力搜索引擎中存储有多条文本训练数据，且第一文本训练数据为多条文本训练数据中的一条；针对预设数量的第二文本训练数据中每一第二文本训练数据，确定第二文本训练数据与第一文本训练数据的相似度值；依据相似度值以及相似度阈值，筛选与第一文本训练数据重复的文本训练数据。通过本公开，在文本训练数据中筛选重复的文本训练数据时，可提高筛选的效率。

Description

文本训练数据处理方法、装置及存储介质

技术领域

本公开涉及自然语言处理领域，尤其涉及文本训练数据处理方法、装置及存储介质。

背景技术

文本分类(Text Classification)任务是计算机根据文本内容，自动划分到规定的分类体系中某一类的自然语言处理任务。随着深度学习(Deep learning)技术的发展，文本分类任务使用深度学习模型自动提取特征，可以达到更加准确的分类效果。

但是，深度学习的文本分类方法是基于数据驱动的、有监督的学习方法，训练深度学习模型需要大量的标注文本作为文本训练数据。并且，文本训练数据的数量和质量直接影响模型的训练结果，文本训练数据的质量越好，模型学习到的文本特征越充分，文本分类的效果越好。

通常，文本训练数据中可能包含重复的文本训练数据，以及文本训练数据的预设的标签与系统生成的标签存在不一致等问题，严重影响文本训练数据的质量。

由于深度学习模型中文本训练数据的规模一般很大，通过对文本训练数据中任意两条文本训练数据进行比较，查找重复的文本训练数据以及校验文本训练数据预设的标签与系统生成标签之间的一致性时，非常耗时，效率低下。

发明内容

为克服相关技术中存在的问题，本公开提供一种文本训练数据处理方法、装置及存储介质。

根据本公开实施例的第一方面，提供一种文本训练数据处理方法，文本训练数据处理方法，包括：将第一文本训练数据作为分布式多用户能力搜索引擎的查询内容进行相似内容查询，得到预设数量的第二文本训练数据，分布式多用户能力搜索引擎中存储有多条文本训练数据，且第一文本训练数据为多条文本训练数据中的一条；针对预设数量的第二文本训练数据中每一第二文本训练数据，确定第二文本训练数据与第一文本训练数据的相似度值；依据相似度值以及相似度阈值，筛选与第一文本训练数据重复的文本训练数据。

在一示例中，确定第二文本训练数据与第一文本训练数据的相似度值，包括：对第一文本训练数据进行分词，并依据分词后的词向量构建第一词频矩阵；对第二文本训练数据进行分词，并依据分词后的词向量构建第二词频矩阵；分别提取第一词频矩阵和第二词频矩阵中的词频逆文本频率特征向量，并确定提取得到的词频逆文本频率特征向量的余弦距离；将余弦距离作为第二文本训练数据与第一文本训练数据的相似度值。

在一示例中，依据相似度值以及相似度阈值，筛选与第一文本训练数据重复的文本训练数据，包括：将相似度值大于相似度阈值的第二文本训练数据，确定为与第一文本训练数据重复的文本训练数据；将相似度值小于相似度阈值的第二文本训练数据，确定为与第一文本训练数据不重复的文本训练数据。

在一示例中，文本训练数据处理方法还包括：标记与第一文本训练数据重复的文本训练数据，以及标记与第一文本训练数据不重复的文本训练数据。

在一示例中，文本训练数据处理方法还包括：以预设数据格式存储多条文本训练数据；预设数据格式中包括数据内容、声称数据标签、系统生成数据标签，以及重复文本标志位；声称数据标签包括声称的一级类别标签和声称的二级类别标签，系统生成标签包括系统生成的一级类别标签和系统生成的二级类别标签。

在一示例中，文本训练数据处理方法还包括：获取文本训练数据的声称数据标签和系统生成数据标签；校验声称的一级类别标签与系统生成的一级类别标签的一致性，以及校验声称的二级类别标签与系统生成的二级类别标签的一致性。

在一示例中，文本训练数据处理方法还包括：根据声称的一级类别标签与系统生成的一级类别标签的一致性校验结果，标记用于表征一级类别标签相同与否的标志位；根据声称的二级类别标签与系统生成的二级类别标签的一致性校验结果，标记用于表征一级类别标签相同与否的标志位。

根据本公开实施例的第二方面，提供一种文本训练数据处理装置，文本训练数据处理装置，包括：查询单元，被配置为将第一文本训练数据作为分布式多用户能力搜索引擎的查询内容进行相似内容查询，得到预设数量的第二文本训练数据，分布式多用户能力搜索引擎中存储有多条文本训练数据，且第一文本训练数据为多条文本训练数据中的一条；确定单元，被配置为针对预设数量的第二文本训练数据中每一第二文本训练数据，确定第二文本训练数据与第一文本训练数据的相似度值；筛选单元，被配置为依据相似度值以及相似度阈值，筛选与第一文本训练数据重复的文本训练数据。

在一示例中，确定单元采用如下方式确定第二文本训练数据与第一文本训练数据的相似度值：对第一文本训练数据进行分词，并依据分词后的词向量构建第一词频矩阵；对第二文本训练数据进行分词，并依据分词后的词向量构建第二词频矩阵；分别提取第一词频矩阵和第二词频矩阵中的词频逆文本频率特征向量，并确定提取得到的词频逆文本频率特征向量的余弦距离；将余弦距离作为第二文本训练数据与第一文本训练数据的相似度值。

在一示例中，筛选单元依据相似度值以及相似度阈值，采用如下方式筛选与第一文本训练数据重复的文本训练数据：将相似度值大于相似度阈值的第二文本训练数据，确定为与第一文本训练数据重复的文本训练数据；将相似度值小于相似度阈值的第二文本训练数据，确定为与第一文本训练数据不重复的文本训练数据。

在一示例中，文本训练数据处理装置还包括：标记单元，被配置为标记与第一文本训练数据重复的文本训练数据，以及标记与第一文本训练数据不重复的文本训练数据。

在一示例中，文本训练数据处理装置还包括：存储单元，被配置为以预设数据格式存储多条文本训练数据；预设数据格式中包括数据内容、声称数据标签、系统生成数据标签，以及重复文本标志位；声称数据标签包括声称的一级类别标签和声称的二级类别标签，系统生成标签包括系统生成的一级类别标签和系统生成的二级类别标签。

在一示例中，确定单元还被配置为：获取文本训练数据的声称数据标签和系统生成数据标签；校验声称的一级类别标签与系统生成的一级类别标签的一致性，以及校验声称的二级类别标签与系统生成的二级类别标签的一致性。

在一示例中，标记单元还被配置为：根据声称的一级类别标签与系统生成的一级类别标签的一致性校验结果，标记用于表征一级类别标签相同与否的标志位；根据声称的二级类别标签与系统生成的二级类别标签的一致性校验结果，标记用于表征一级类别标签相同与否的标志位。

根据本公开的第三方面，提供了一种文本训练数据处理装置，文本训练数据处理装置包括：存储器，配置用于存储指令。以及处理器，配置用于调用指令执行前述第一方面或者第一方面中任意一示例中的文本训练数据处理。

根据本公开的第四方面，提供了一种非临时性计算机可读存储介质，非临时性计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行前述第一方面或者第一方面中任意一示例中的文本训练数据处理。

本公开的实施例提供的技术方案可以包括以下有益效果：通过将文本训练数据预存在ElasticSearch中，并将文本训练数据中的每一条文本训练数据作为ElasticSearch的查询内容query进行相似内容查询，能够快速筛选得到与查询的文本训练数据相似的预设数量的第二文本训练数据，并在第二文本训练数据的基础上，进一步筛选与查询query的相似度值，可减少文本训练数据相似值的计算量，提高筛选重复的文本训练数据的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种文本训练数据处理方法的流程图。

图2是根据一示例性实施例示出的一种文本训练数据处理方法的流程图。

图3是根据一示例性实施例示出的一种文本训练数据处理方法的流程图。

图4是根据一示例性实施例示出的一种文本训练数据处理方法的流程图。

图5是根据一示例性实施例示出的一种文本训练数据处理装置的框图。

图6是根据一示例性实施例示出的一种装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开的示例性实施例的技术方案可以应用于基于深度学习模型进行文本分类时，对深度学习模型中大量的文本训练数据的质量进行筛选的应用场景。在该场景中，文本训练数据处理方法的执行主体可以是文本训练数据处理装置，该文本训练数据处理装置可以是计算机，移动终端等终端，本公开实施例不做限定。

图1是根据一示例性实施例示出的一种文本训练数据处理方法的流程图，如图1所示，文本训练数据处理方法包括以下步骤。

在步骤S11中，将第一文本训练数据作为分布式多用户能力搜索引擎的查询内容进行相似内容查询，得到预设数量的第二文本训练数据，分布式多用户能力搜索引擎中存储有多条文本训练数据，且第一文本训练数据为多条文本训练数据中的一条。

本公开实施例中，为了从大量的文本训练数据中迅速筛选出重复的文本数据，可将大量的文本训练数据预存至分布式多用户能力搜索引擎(ElasticSearch)中，并将大量的文本训练数据中的每一条文本训练数据作为ElasticSearch的查询内容(query)进行相似内容查询，得到与查询的文本训练数据相似的预设数量的文本训练数据。其中，预设数量的文本训练数据可以是预设数量的与查询的文本训练数据相似的文本训练数据。

本公开为描述方便，将查询的文本训练数据称为第一文本训练数据，将与查询的文本训练数据相似的预设数量的文本训练数据，称为第二文本训练数据。

通过ElasticSearch对文本训练数据进行相似性初步筛选，得到与文本训练数据预设数量的相似的文本训练数据，例如可以采用如下方式进行：

依次将第一文本训练数据中的每一条文本训练数据，作为ElasticSearch的query查询内容，若文本训练数据中包含正则表达式符号{+、-、*、&、|、！、(、)、{、}、[、]、^、～、？、：、”、；、、/}，为了不让正则表达式符号影响ElasticSearch对文本训练数据的查询，可对正则表达式符号进行转义，将文本训练数据中出现的正则字符替换为空字符。

例如，将第一文本训练数据中的一条文本训练数据“更新到最新之后打开游戏模式不能在游戏界面分屏回复QQ微信消息了，请问要怎么解决”作为ElasticSearch的query查询内容，query＝“更新到最新之后打开游戏模式不能在游戏界面分屏回复QQ微信消息了，请问要怎么解决”，根据此query查询ElasticSearch，可以得到预设数量的Top2—Top10的查询结果。例如Top2的结果＝“更新最新版本之后游戏模式里不能回复qq微信消息，消息之后不是分屏状态，而是游戏回到后台”。

在步骤S12中，针对预设数量的第二文本训练数据中每一第二文本训练数据，确定第二文本训练数据与第一文本训练数据的相似度值。

利用ElasticSearch筛选得到预设数量的第二文本训练数据后，通过计算每一条第二文本训练数据与查询内容的相似度值，确定第二文本训练数据与第一文本训练数据的相似度。

在步骤S13中，依据相似度值以及相似度阈值，筛选与第一文本训练数据重复的文本训练数据。

本公开实施例中，根据计算得到的每一条第二文本训练数据与查询内容的相似度值，以及预设的相似度阈值，筛选得到与第一文本训练数据重复的文本训练数据。

其中，将相似度值大于相似度阈值的第二文本训练数据，确定为与第一文本训练数据重复的文本训练数据。将相似度值小于相似度阈值的第二文本训练数据，确定为与第一文本训练数据不重复的文本训练数据。

在本公开的示例性实施例中，通过将文本训练数据预存在ElasticSearch中，并将文本训练数据中的每一条文本训练数据作为ElasticSearch的查询内容进行相似内容查询，能够快速筛选得到与查询的文本训练数据相似的预设数量的第二文本训练数据，并在第二文本训练数据的基础上，进一步筛选与查询query的相似度值，提高了筛选重复的文本训练数据的计算效率。

本公开中，可基于余弦距离确定第二文本训练数据与第一文本训练数据的相似度值。本公开以下结合实际应用进行说明。

参照图2，图2是根据一示例性实施例示出的一种文本训练数据处理方法的流程图。如图2所示，确定第二文本训练数据与第一文本训练数据的相似度值，包括以下步骤。

在步骤S221中，对第一文本训练数据进行分词，并依据分词后的词向量构建第一词频矩阵。

本公开中，例如可通过jieba分词工具对第一文本训练数据进行分词，并依据分词后的词向量构建第一词频矩阵。

例如，query＝“更新到最新之后打开游戏模式不能在游戏界面分屏回复QQ微信消息了，请问要怎么解决”，分词后的结果为：{“更新”，“到”，“最新”，“之后”，“打开”，“游戏”，“模式”，“不能”，“在”，“游戏”，“界面”，“分屏”，“回复”，“qq”，“微信”，“消息”，“了”，“，”，“请问”，“要”，“怎么”，“解决”}。建立的query词频矩阵可以例如：{“游戏：2”，“更新”：1，“到”：1，“最新”：1，“之后”：1，“打开”：1，等...}。

同理，可以对第二文本训练数据进行分词，并依据分词后的词向量构建第二词频矩阵。

在步骤S222中，对第二文本训练数据进行分词，并依据分词后的词向量构建第二词频矩阵。

在步骤S223中，分别提取第一词频矩阵和第二词频矩阵中的词频-逆文本频率特征向量，并确定提取得到的词频逆文本频率特征向量的余弦距离，将余弦距离作为第二文本训练数据与第一文本训练数据的相似度值。

由于词频-逆文本频率可以评估一个词对于一个文档集或训练数据中某个文档的重要程度。根据词频-逆文本频率的特性，可提取第一词频矩阵和第二词频矩阵中的词频-逆文本频率特征向量，并基于提取的第一词频矩阵和第二词频矩阵中的词频-逆文本频率特征向量，确定提取得到词频逆文本频率特征向量的余弦距离。通过词频逆文本频率特征向量的余弦距离可以准确的得出第二文本训练数据与第一文本训练数据的相似度。

提取第一词频矩阵和第二词频矩阵中的词频-逆文本频率特征向量，例如可通过如下公式确定：

tf-idf＝tf×idf (1)

其中，公式(1)表示tf-idf等于tf(词频)和idf(逆文本频率)的乘积。

公式(2)表示第i个词语在文本训练数据j中出现的频率。其中，tf_ij表示第i个单词在第j个文本训练数据中的词频，n_ij表示第i个词语在文本训练数据j中的个数。

公式(3)表示词语ti的逆文本频率，其中分子表示文本训练数据总数，分母表示包含词语ti的文本训练数据数目。

例如，根据公式计算得到query的tf-idf特征向量为：

{'游戏':0.845,'分屏':0.703,'QQ':0.703,'微信':0.703,'界面':0.514,'请问':0.445,'回复':0.432,'更新':0.391,'打开':0.356,'最新':0.355,'模式':0.354,'解决':0.314,'消息':0.296,'怎么':0.259,'之后':0.257,'不能':0.234}

确定提取得到的词频逆文本频率特征向量的余弦距离，例如可根据如下公式确定：

其中，x和y分别代表参与计算的两个文本的tf-idf向量。

本公开中，通过分别计算预设数据中每一第二词频矩阵的词频-逆文本频率特征向量，与第一词频矩阵的词频-逆文本频率特征向量的余弦距离，得到预设数量的余弦距离。将得到的余弦距离作为第二文本训练数据与第一文本训练数据的相似度值。

在本公开的示例性实施例中，通过提取第一文本训练数据和第二文本训练数据的词频-逆文本频率特征向量，可评估出文本训练数据分词后的词频在文本训练数据中的重要程度，基于提取的第一词频矩阵和第二词频矩阵中的词频-逆文本频率特征向量的余弦距离，可以准确得出第二文本训练数据中与第一文本训练数据重复的文本训练数据。

图3是根据一示例性实施例示出的一种文本训练数据处理方法的流程图，如图3所示，文本训练数据处理方法包括步骤S31-步骤S35。其中，步骤S32-步骤S34分别与图1中步骤S11-步骤S13的执行过程类似，在此不再赘述。

在步骤S31中，以预设数据格式存储多条文本训练数据。

本公开中，为了全面掌握文本训练数据中是否为重复的文本训练数据以及文本训练数据的多级标签是否一致，可以以预设数据格式存储多条文本训练数据。预设数据格式中可以包括数据内容、声称数据标签、系统生成数据标签，以及重复文本标志位。本公开中声称数据标签和系统生成标签可以是多级标签，例如声称数据标签可以包括声称的一级类别标签和声称的二级类别标签，系统生成标签包括系统生成的一级类别标签和系统生成的二级类别标签。其中，一级类别标签可以是二级类别标签的上一级标签。

具体实施时，可以基于ElasticSearch建立索引，将训练数据存入ElasticSearch，数据格式可以为{content、declared_lv1、declared_lv2、lv1、lv2、dup_status}。其中，content表征训练数据的文本内容，declared_lv1表征声称的一级标签，declared_lv2表征声称的二级标签，lv1表征系统生成的一级类别，lv2表征系统生成的二级类别，dup_status是重复文本标志位，1表示重复、0表示不重复(这里只是示例)。也就是说一条文本训练数据可以存储为该数据格式，那么cotent即为ElasticSearch的查询内容。

在步骤S35中，标记与第一文本训练数据重复的文本训练数据，以及标记与第一文本训练数据不重复的文本训练数据。

本公开中，为了在使用文本训练数据时能够将重复的文本训练数据轻松剔除，可在第二文本训练数据中筛选出与第一文本训练数据重复的文本训练数据之后，对与第一文本训练数据重复的文本训练数据，以及与第一文本训练数据不重复的文本训练数据进行标记，由此在使用文本训练数据时，可直接根据标记的类型，筛选对应的文本训练数据。

如上述，可对与第一文本训练数据重复的文本训练数据的重复文本标志位标记为1，对与第一文本训练数据不重复的文本训练数据的重复文本标志位标记为0。在使用文本训练数据时，可直接筛选重复文本标志位标记为0的文本训练数据。

在本公开的示例性实施例中，通过以预设数据格式存储多条文本训练数据，可全面掌握文本训练数据中是否为重复的文本训练数据以及文本训练数据的多级标签是否一致。并且通过对文本训练数据中重复的文本训练数据以及不重复的文本训练数据进行标记，可轻松筛选出需要的文本训练数据。

本公开中，对文本训练数据中重复的文本训练数据筛选之后，还可以对文本训练数据中声称的标签与系统生成的标签的一致性进行校验。本公开以下结合实际应用进行说明。

图4是根据一示例性实施例示出的一种文本训练数据处理方法的流程图，如图4所示，文本训练数据处理方法包括步骤S41-步骤S47。其中，步骤S41-步骤S45分别与图3中步骤S31-步骤S35的执行过程类似，在此不再赘述。

在步骤S46中，获取文本训练数据的声称数据标签和系统生成数据标签。

本公开中，声称数据标签可以是对文本训练数据人为设定的数据标签。系统生成数据标签可以是利用生成标签的模型生成的数据标签。

在步骤S47中，校验声称的一级类别标签与系统生成的一级类别标签的一致性，以及校验声称的二级类别标签与系统生成的二级类别标签的一致性。

通过校验声称的一级类别标签与系统生成的一级类别标签的一致性，以及校验声称的二级类别标签与系统生成的二级类别标签的一致性，可保证文本训练数据的类别准确无误。

并且，根据声称的一级类别标签与系统生成的一级类别标签的一致性校验结果，标记用于表征一级类别标签相同与否的标志位。以及根据声称的二级类别标签与系统生成的二级类别标签的一致性校验结果，标记用于表征一级类别标签相同与否的标志位。

例如，如果声称的一级类别标签与系统生成的一级类别标签一致，则对文本训练数据标记用于表征一级类别标签相同的标志位。

在本公开的示例性实施例中，以预设数据格式存储多条文本训练数据，并校验文本训练数据的声称数据标签和系统生成标签，可保证文本训练数据的类别准确无误。

具体实施时，可以在{content、declared_lv1、declared_lv2、lv1、lv2、dup_status}的最后一列添加表征一级类别标签相同与否的标志位。通过一级类别标签一致性检验判断一级类别和系统生成的一级类别对应关系是否正确。如果lv1和declared_lv1对应关系正确，可以将{content、declared_lv1、declared_lv2、lv1、lv2、dup_status}的最后一列标志位标注为1，表示一级类别标签一致。如果不相同则可以标注为0。

在{content、declared_lv1、declared_lv2、lv1、lv2、dup_status}的倒数第二列添加表征二级类别标签相同与否的标志位。通过二级类别标签一致性检验判断系统给出的二级类别和人工标注的二级类是否一致。如果声称的二级类别declared_lv2和系统生成的二级类别lv2相同，则可以将{content、declared_lv1、declared_lv2、lv1、lv2、dup_status}的倒数第二列标志位标注为1，表示二级类别标签一致。如果不相同则可以标注为0。

基于相同的发明构思，本公开还提供一种文本训练数据处理装置。

可以理解的是，本公开实施例提供的应用控制装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤，本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本公开实施例的技术方案的范围。

图5是根据一示例性实施例示出的一种文本训练数据处理装置框图。参照图5，文本训练数据处理装置包括查询单元101、确定单元102、和筛选单元103。

其中，查询单元101，被配置为将第一文本训练数据作为分布式多用户能力搜索引擎的查询内容进行相似内容查询，得到预设数量的第二文本训练数据，分布式多用户能力搜索引擎中存储有多条文本训练数据，且第一文本训练数据为多条文本训练数据中的一条；确定单元102，被配置为针对预设数量的第二文本训练数据中每一第二文本训练数据，确定第二文本训练数据与第一文本训练数据的相似度值；筛选单元103，被配置为依据相似度值以及相似度阈值，筛选与第一文本训练数据重复的文本训练数据。

在一示例中，确定单元102采用如下方式确定第二文本训练数据与第一文本训练数据的相似度值：对第一文本训练数据进行分词，并依据分词后的词向量构建第一词频矩阵；对第二文本训练数据进行分词，并依据分词后的词向量构建第二词频矩阵；分别提取第一词频矩阵和第二词频矩阵中的词频逆文本频率特征向量，并确定提取得到的词频逆文本频率特征向量的余弦距离；将余弦距离作为第二文本训练数据与第一文本训练数据的相似度值。

在一示例中，筛选单元103依据相似度值以及相似度阈值，采用如下方式筛选与第一文本训练数据重复的文本训练数据：将相似度值大于相似度阈值的第二文本训练数据，确定为与第一文本训练数据重复的文本训练数据；将相似度值小于相似度阈值的第二文本训练数据，确定为与第一文本训练数据不重复的文本训练数据。

在一示例中，文本训练数据处理装置还包括：标记单元104，标记单元104被配置为标记与第一文本训练数据重复的文本训练数据，以及标记与第一文本训练数据不重复的文本训练数据。

在一示例中，文本训练数据处理装置还包括：存储单元105，存储单元105被配置为以预设数据格式存储多条文本训练数据；预设数据格式中包括数据内容、声称数据标签、系统生成数据标签，以及重复文本标志位；声称数据标签包括声称的一级类别标签和声称的二级类别标签，系统生成标签包括系统生成的一级类别标签和系统生成的二级类别标签。

在一示例中，确定单元102还被配置为：获取文本训练数据的声称数据标签和系统生成数据标签；校验声称的一级类别标签与系统生成的一级类别标签的一致性，以及校验声称的二级类别标签与系统生成的二级类别标签的一致性。

在一示例中，标记单元104还被配置为：根据声称的一级类别标签与系统生成的一级类别标签的一致性校验结果，标记用于表征一级类别标签相同与否的标志位；根据声称的二级类别标签与系统生成的二级类别标签的一致性校验结果，标记用于表征一级类别标签相同与否的标志位。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种用于文本训练数据处理的装置600的框图。例如，装置600可以被提供为一服务器。参照图6，装置600包括处理组件622，其进一步包括一个或多个处理器，以及由存储器632所代表的存储器资源，用于存储可由处理组件622的执行的指令，例如应用程序。存储器632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件622被配置为执行指令，以执行上述文本训练数据处理方法。

装置600还可以包括一个电源组件626被配置为执行装置600的电源管理，一个有线或无线网络接口650被配置为将装置600连接到网络，和一个输入输出(I/O)接口658。装置600可以操作基于存储在存储器632的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

进一步可以理解的是，本公开中“多个”是指两个或两个以上，其它量词与之类似。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

进一步可以理解的是，术语“第一”、“第二”等用于描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开，并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。

进一步可以理解的是，本公开实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种文本训练数据处理方法，其特征在于，包括：

将第一文本训练数据作为分布式多用户能力搜索引擎的查询内容进行相似内容查询，得到预设数量的第二文本训练数据，所述分布式多用户能力搜索引擎中存储有多条文本训练数据，且所述第一文本训练数据为所述多条文本训练数据中的一条；

针对所述预设数量的第二文本训练数据中每一第二文本训练数据，确定第二文本训练数据与所述第一文本训练数据的相似度值；

依据所述相似度值以及相似度阈值，筛选与所述第一文本训练数据重复的文本训练数据。

2.根据权利要求1所述的训练数据处理方法，其特征在于，所述确定第二文本训练数据与所述第一文本训练数据的相似度值，包括：

对所述第一文本训练数据进行分词，并依据分词后的词向量构建第一词频矩阵；

对所述第二文本训练数据进行分词，并依据分词后的词向量构建第二词频矩阵；

分别提取所述第一词频矩阵和所述第二词频矩阵中的词频逆文本频率特征向量，并确定提取得到的词频逆文本频率特征向量的余弦距离；

将所述余弦距离作为所述第二文本训练数据与所述第一文本训练数据的相似度值。

3.根据权利要求1或2所述的训练数据处理方法，其特征在于，依据所述相似度值以及相似度阈值，筛选与所述第一文本训练数据重复的文本训练数据，包括：

将所述相似度值大于相似度阈值的第二文本训练数据，确定为与所述第一文本训练数据重复的文本训练数据；

将所述相似度值小于相似度阈值的第二文本训练数据，确定为与所述第一文本训练数据不重复的文本训练数据。

4.根据权利要求3所述的训练数据处理方法，其特征在于，所述方法还包括：

标记与所述第一文本训练数据重复的文本训练数据，以及标记与所述第一文本训练数据不重复的文本训练数据。

5.根据权利要求1或4所述的文本信息处理方法，其特征在于，所述方法还包括：

以预设数据格式存储多条文本训练数据；

所述预设数据格式中包括数据内容、声称数据标签、系统生成数据标签，以及重复文本标志位；

所述声称数据标签包括声称的一级类别标签和声称的二级类别标签，所述系统生成标签包括系统生成的一级类别标签和系统生成的二级类别标签。

6.根据权利要求5所述的文本训练数据处理方法，其特征在于，所述方法还包括：

获取文本训练数据的声称数据标签和系统生成数据标签；

校验声称的一级类别标签与系统生成的一级类别标签的一致性，以及校验声称的二级类别标签与系统生成的二级类别标签的一致性。

7.根据权利要求6所述的文本训练数据处理方法，其特征在于，所述方法还包括：

根据声称的一级类别标签与系统生成的一级类别标签的一致性校验结果，标记用于表征一级类别标签相同与否的标志位；

根据声称的二级类别标签与系统生成的二级类别标签的一致性校验结果，标记用于表征一级类别标签相同与否的标志位。

8.一种文本训练数据处理装置，其特征在于，包括：

查询单元，被配置为将第一文本训练数据作为分布式多用户能力搜索引擎的查询内容进行相似内容查询，得到预设数量的第二文本训练数据，所述分布式多用户能力搜索引擎中存储有多条文本训练数据，且所述第一文本训练数据为所述多条文本训练数据中的一条；

确定单元，被配置为针对所述预设数量的第二文本训练数据中每一第二文本训练数据，确定第二文本训练数据与所述第一文本训练数据的相似度值；

筛选单元，被配置为依据所述相似度值以及相似度阈值，筛选与所述第一文本训练数据重复的文本训练数据。

9.根据权利要求8所述的训练数据处理装置，其特征在于，所述确定单元采用如下方式确定第二文本训练数据与所述第一文本训练数据的相似度值：

10.根据权利要求8或9所述的训练数据处理装置，其特征在于，所述筛选单元依据所述相似度值以及相似度阈值，采用如下方式筛选与所述第一文本训练数据重复的文本训练数据：

11.根据权利要求10所述的训练数据处理装置，其特征在于，所述装置还包括：

标记单元，被配置为标记与所述第一文本训练数据重复的文本训练数据，以及标记与所述第一文本训练数据不重复的文本训练数据。

12.根据权利要求8或11所述的文本信息处理装置，其特征在于，所述装置还包括：

存储单元，被配置为以预设数据格式存储多条文本训练数据；

13.根据权利要求12所述的文本训练数据处理装置，其特征在于，所述确定单元还被配置为：

获取文本训练数据的声称数据标签和系统生成数据标签；

14.根据权利要求13所述的文本训练数据处理装置，其特征在于，所述标记单元还被配置为：

15.一种文本训练数据处理装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行权利要求1-7中任一项所述的文本训练数据处理方法。

16.一种非临时性计算机可读存储介质，其特征在于，所述非临时性计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由处理器执行时，执行权利要求1-7中任意一项所述的文本训练数据处理方法。