CN113127607A

CN113127607A - 文本数据标注方法、装置、电子设备及可读存储介质

Info

Publication number: CN113127607A
Application number: CN202110675593.1A
Authority: CN
Inventors: 刘子玉; 潘东宇; 苏文博
Original assignee: Seashell Housing Beijing Technology Co Ltd
Current assignee: Seashell Housing Beijing Technology Co Ltd
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2021-07-16

Abstract

本发明提供一种文本数据标注方法、装置、电子设备及可读存储介质，其中方法包括：对待标注文本数据进行分词及词嵌入处理，获取待标注数据词嵌入向量，并对种子数据进行分词及词嵌入处理，获取种子数据词嵌入向量，所述种子数据为已经进行准确标注的数据；基于所述待标注数据词嵌入向量和所述种子数据词嵌入向量，计算所述待标注文本数据与所述种子数据之间的第一相似度；若所述第一相似度大于预设阈值，则根据所述种子数据的标签，预标注所述待标注文本数据。本发明在具有少量有标签的种子数据的情况下，通过采用弱监督结合词嵌入运算的方式，进行待标注文本数据的预标注，能够有效降低人工成本，并能有效提高标注效率和准确性，且可控性更强。

Description

文本数据标注方法、装置、电子设备及可读存储介质

技术领域

本发明涉及数据挖掘技术领域，尤其涉及一种文本数据标注方法、装置、电子设备及可读存储介质。

背景技术

随着互联网技术的快速发展，人工智能作为互联网技术的重要组成部分，使人类生活变得智能化和便捷化。人工智能的发展离不开大量线上数据的积累，而高质量且快速的数据标注又决定了更高程度的智能化水平。

目前，标注数据的产生主要依赖于人工标注或无监督的聚类算法。其中，人工标注主要包括对标注人员进行标注需求的简单培训、对待标注文本数据的理解以及进行人工标注的过程。无监督聚类过程主要包括：将待标注数据聚类成N类，N为人工设定的超参数；人工确认聚类结果中每个簇内的样本；根据簇内多数样本所属的标签，确定该簇内样本的标签。

但是，上述标注方法均需要人工参与，会消耗大量的人工成本且效率较低。

发明内容

本发明提供一种文本数据标注方法、装置、电子设备及可读存储介质，用以解决现有技术消耗人工成本较高且效率不高等问题的缺陷，实现有效降低人工成本并提高效率的目标。

本发明提供一种文本数据标注方法，包括：

对待标注文本数据进行分词及词嵌入处理，获取待标注数据词嵌入向量，并对种子数据进行分词及词嵌入处理，获取种子数据词嵌入向量，所述种子数据为已经进行预设标注的数据；

基于所述待标注数据词嵌入向量和所述种子数据词嵌入向量，计算所述待标注文本数据与所述种子数据之间的第一相似度；

若所述第一相似度大于预设阈值，则根据所述种子数据的标签，标注所述待标注文本数据。

根据本发明提供的一种文本数据标注方法，所述对待标注文本数据进行分词及词嵌入处理，包括：

基于目标垂类词典，对所述待标注文本数据进行分词并过滤，获取有效分词；

基于所述有效分词，利用目标词嵌入生成模型，生成所述待标注数据词嵌入向量。

根据本发明提供的一种文本数据标注方法，在所述基于目标垂类词典，对所述待标注文本数据进行分词并过滤之前，还包括构建所述目标垂类词典的步骤，包括：

获取设定数量的垂类文本数据，并对所述垂类文本数据进行分词处理，获取文本分词和所述文本分词对应的词频；

基于所述词频和所述词频对应的文本分词，以及预设停用词和识别出的人名、数字及非中文词中的至少一个，构建停用词表；

基于所述停用词表，过滤所述文本分词，获取所述目标垂类词典。

根据本发明提供的一种文本数据标注方法，在所述根据所述种子数据的标签，标注所述待标注文本数据之后，还包括：

根据所述标注的结果，将标注后的文本数据归类到所述种子数据不同的标签下；

标注出各所述标签下的同类数据和异类数据，并基于标注的所述同类数据和所述异类数据，构建种子数据集。

根据本发明提供的一种文本数据标注方法，所述基于标注的所述同类数据和所述异类数据，构建种子数据集，包括：

针对每个所述种子数据，对标注到所述种子数据的标签下的多个同类数据，计算所述多个同类数据相互之间的第二相似度，并基于所述第二相似度，剔除冗余的同类数据，且保留所述异类数据构建所述种子数据集。

根据本发明提供的一种文本数据标注方法，所述对所述垂类文本数据进行分词处理，包括：

采用计算引擎spark，对所述垂类文本数据进行并行分词处理并进行停用词过滤，获取所述文本分词和所述词频。

根据本发明提供的一种文本数据标注方法，所述计算所述待标注文本数据与所述种子数据之间的第一相似度，包括：

基于所述待标注数据词嵌入向量，通过加权平均运算，获取所述待标注文本数据的第一句向量；

基于所述种子数据词嵌入向量，通过加权平均运算，获取所述种子数据的第二句向量；

通过计算所述第一句向量与所述第二句向量之间的相似度，确定所述待标注文本数据与所述种子数据之间的第一相似度。

本发明还提供一种文本数据标注装置，包括：

词嵌入模块，用于对待标注文本数据进行分词及词嵌入处理，获取待标注数据词嵌入向量，并对种子数据进行分词及词嵌入处理，获取种子数据词嵌入向量，所述种子数据为已经进行预设标注的数据；

计算模块，用于基于所述待标注数据词嵌入向量和所述种子数据词嵌入向量，计算所述待标注文本数据与所述种子数据之间的第一相似度；

预标注模块，用于若所述第一相似度大于预设阈值，则根据所述种子数据的标签，标注所述待标注文本数据。

根据本发明提供的一种文本数据标注装置，所述词嵌入模块，在用于所述对待标注文本数据进行分词及词嵌入处理时，用于：

根据本发明提供的一种文本数据标注装置，还包括垂类词典生成模块，用于：

基于所述词频和所述词频对应的文本分词，以及预设停用词和对所述垂类文本数据识别出的人名、数字及非中文词中的至少一个，构建停用词表；

根据本发明提供的一种文本数据标注装置，还包括种子数据集模块，用于：

根据本发明提供的一种文本数据标注装置，所述种子数据集模块，在用于所述基于标注的所述同类数据和所述异类数据，构建种子数据集时，用于：

根据本发明提供的一种文本数据标注装置，所述垂类词典生成模块，在用于所述对所述垂类文本数据进行分词处理时，用于：

根据本发明提供的一种文本数据标注装置，所述计算模块，在用于所述计算所述待标注文本数据与所述种子数据之间的第一相似度时，用于：

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述处理器执行所述程序或指令时，实现如上述任一种所述的文本数据标注方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有程序或指令，所述程序或指令被计算机执行时，实现如上述任一种所述的文本数据标注方法的步骤。

本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时，实现如上述任一种所述的文本数据标注方法的步骤。

本发明提供的文本数据标注方法、装置、电子设备及可读存储介质，在具有少量有标签的种子数据的情况下，通过采用弱监督结合词嵌入运算的方式，进行待标注文本数据的预标注，能够有效降低人工成本，并能有效提高标注效率和准确性，且可控性更强。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对本发明实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的文本数据标注方法的流程示意图；

图2为根据本发明提供的文本数据标注方法中对待标注文本数据进行分词及词嵌入处理的流程示意图；

图3为本发明提供的文本数据标注装置的系统架构示意图；

图4为本发明提供的文本数据标注装置的结构示意图；

图5为本发明提供的电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明针对现有技术消耗人工成本较高且效率、可靠性和准确性不高等的问题，在具有少量有标签的种子数据的情况下，通过采用弱监督结合词嵌入运算的方式，进行待标注文本数据的预标注，能够有效降低人工成本，并能有效提高标注效率和准确性，且可控性更强。以下将结合附图，具体通过多个实施例对本发明进行展开说明和介绍。

图1为本发明提供的文本数据标注方法的流程示意图，如图1所示，该方法包括：

S101，对待标注文本数据进行分词及词嵌入处理，获取待标注数据词嵌入向量，并对种子数据进行分词及词嵌入处理，获取种子数据词嵌入向量。

其中，所述种子数据为已经进行预设标注的数据。

可以理解为，本发明主要是通过计算待标注文本数据和种子数据词嵌入向量的相似度，来对待标注文本数据进行预标注的过程。具体的，本步骤中先对待标注文本数据和种子数据分别进行分词处理，再分别根据分词处理的结果，进行词嵌入处理。也即，对待标注文本数据的分词结果和种子数据的分词结果分别进行词嵌入处理，最终得到待标注文本数据和种子数据分别对应的词嵌入向量，可分别称为待标注数据词嵌入向量和种子数据词嵌入向量。

其中，待标注文本数据是将要进行预标注的文本数据，其是待处理的目标对象。种子数据是已经进行了准确标注的数据，这部分数据中包含数据本身和对其标注的标签。

种子数据可作为对待标注文本数据进行标注的参考，实现对待标注文本数据的弱监督标注。种子数据是被用准确的标签标注了的数据，例如可以人工标注少量的数据，使其具有准确的标签，则这部分数据即可称为种子数据。

其中，词嵌入（embedding）处理可通过将高维数据映射到较低维空间，来解决稀疏输入数据的核心问题，如可将大型稀疏向量转换为保留语义关系的低维空间。应当理解，即使是一个很小的多维空间，也可以根据向量空间中的位置（距离和方向），自由地将语义相似的元素组合在一起，并使语义不同的元素隔开。

S102，基于所述待标注数据词嵌入向量和所述种子数据词嵌入向量，计算所述待标注文本数据与所述种子数据之间的第一相似度。

可以理解为，在获取待标注文本数据和种子数据的词嵌入向量的基础上，可结合待标注文本数据和种子数据的长度和类型，根据待标注数据词嵌入向量和种子数据词嵌入向量，计算获取待标注文本数据与种子数据的相似度。为便于区分，可将该相似度称为是第一相似度。

例如，当待标注文本数据和种子数据为独立分割的同一语义的单词时，可直接将其词嵌入向量之间的相似度作为待标注文本数据与种子数据间的第一相似度；当待标注文本数据和种子数据为超过一定长度的数据或文本时，可先根据分词时待标注文本数据和种子数据对应的多个分词，确定待标注文本数据和种子数据对应的多个词嵌入向量，再根据词嵌入向量通过加权平均等运算方式，计算整体数据向量或句向量，最后计算待标注文本数据和种子数据分别对应的整体数据向量或句向量的相似度，作为待标注文本数据与种子数据间的第一相似度。

其中，相似度用于比较待标注文本数据与种子数据间的相似性，通常相似度越高，说明两个数据越相似，否则说明相似性越小。相似度例如可以是余弦相似度（CosineSimilarity）、欧几里得距离（Eucledian Distance）、曼哈顿距离（Manhattan Distance）或明可夫斯基距离（Minkowski distance）等，本发明对此并不作具体限定。

S103，若所述第一相似度大于预设阈值，则根据所述种子数据的标签，标注所述待标注文本数据。

可以理解为，本步骤将计算得到的待标注文本数据与种子数据间的第一相似度与预设阈值进行比较，若第一相似度大于预设阈值，如第一相似度大于预设阈值0.85，说明待标注文本数据与种子数据的相似性越高，则可直接根据种子数据的标签确定待标注文本数据的标签，以此来完成对待标注文本数据的预标注工作，得到标注后的文本数据。

其中，标注后的文本数据可以根据需要用于人工智能机器学习的模型训练过程等，以进一步的完成相应的人工智能应用功能。例如，可应用于人脸识别、智能交通控制、智能语音识别、自然语言处理或图像处理等的应用场景中。

本发明提供的文本数据标注方法，在具有少量有标签的种子数据的情况下，通过采用弱监督结合词嵌入运算的方式，进行待标注文本数据的预标注，能够有效降低人工成本，并能有效提高标注效率和准确性，且可控性更强。

其中，根据上述各实施例提供的文本数据标注方法可选地，如图2所示，为根据本发明提供的文本数据标注方法中对待标注文本数据进行分词及词嵌入处理的流程示意图，所述对待标注文本数据进行分词及词嵌入处理，包括：

S201，基于目标垂类词典，对所述待标注文本数据进行分词并过滤，获取有效分词。

可以理解为，本发明主要通过对分词后的文本数据进行词嵌入的训练，最终得到词嵌入向量。对于待标注文本数据，通过目标垂类词典分词并过滤掉分词后得到的无用词，得到分词中其余分词作为有效分词。

可选地，若所述待标注数据的长度大于预设长度，则对所述待标注数据进行数据分割处理，获取分割数据，再进一步对分割数据执行上述分词与过滤操作。

可以理解为，本发明首先获取待标注文本数据的长度，并将该长度与预设长度进行比较判断。如果待标注文本数据的长度大于预设长度，如超过128位，则将预标注数据切割成多条数据，构成分割文本，以防止文本太长影响模型的学习能力。如果待标注文本数据的长度不大于预设长度，如128位，则无需对预标注长度进行切割，可直接将待标注文本数据作为分割数据。并进一步对分割数据通过目标垂类词典分词并过滤掉分词后得到的无用词，得到分词中其余分词作为有效分词。

其中，目标垂类词典表示某一特定垂直领域相关的词构成的词典，垂类是指与某一特定目标相关或属于某一特定的类型，也可以称为是垂直类。垂类例如可以是某一特定人群（如互联网用户）、特定行业（如房产行业、餐饮行业等）或特定目标群（如某企业客户）等，该特定人群或特定行业或特定目标群通常包括一项或者多项明显的统一特征。

S202，基于所述有效分词，利用目标词嵌入生成模型，生成所述待标注数据词嵌入向量。

其中，所述目标词嵌入生成模型用于将高维度的稀疏的有效分词映射到保留语义关系的低维的待标注数据词嵌入向量。

可以理解为，本步骤将有效分词输入到预先训练得到的目标词嵌入生成模型，通过目标词嵌入生成模型的内部运算，输出待标注数据词嵌入向量。

其中，目标词嵌入生成模型可以采用fasttext模型、word2vec模型或bert模型等训练得到，本发明对此并不作具体限制。

本发明通过在词嵌入运算时加入垂类词典，能够使目标领域的词能够得到更精确的分割。

进一步地，在上述各实施例提供的文本数据标注方法的基础上，在所述基于目标垂类词典，对所述待标注文本数据进行分词并过滤之前，本发明的文本数据标注方法还包括构建所述目标垂类词典的步骤，包括：获取设定数量的垂类文本数据，并对所述垂类文本数据进行分词处理，获取文本分词和所述文本分词对应的词频；基于所述词频和所述词频对应的文本分词，以及预设停用词和对所述垂类文本数据识别出的人名、数字及非中文词中的至少一个，构建停用词表；基于所述停用词表，过滤所述文本分词，获取所述目标垂类词典。

可以理解为，本发明首先进行垂类文本的收集整理和过滤。具体而言，首先，收集所有涉及目标垂类（如房产垂类）的文本数据，例如包括文章、聊天文本或评价文本等，共30G，1亿+条数据；然后，通过设定的过滤规则，过滤掉具有乱码的数据，得到数据大小变为6.8G，7000万+条数据。其中，垂类文本是指与某一垂直领域相关的文本。如上述实施例所述，垂类是指与某一特定目标相关或属于某一特定的类型，例如可以是某一特定人群（如互联网用户）、特定行业（如房产行业、餐饮行业等）或特定目标群（如某企业客户）等。

之后，对垂类文本进行分词处理，产出垂类词典和对应的词频，其中包括垂类的有用词典和停用词典。例如，通过使用spark进行并行化的分词操作，将分词所消耗的时间从8小时降低为5分钟。

然后，按照一定的规则，整理给定的停用词，构建停用词表。例如，整理的停用词可以包括：一些现有的预设停用词表所包含的词、词频低于10的词以及通过Thulac等词法分析工具包识别出的人名、数字和非中文词中的一种或多种组合。

最后，过滤掉垂类词典中的停用词得到的词典，即可作为目标垂类词典。

本发明提供的基于弱监督的文本预标注方法，相对于纯人工标注来说，具有低人工成本、标注效率高的优点；对于无监督聚类标注的方式来说，具有可控性强、积累的数据质量高等特点。也就是说，在实际业务场景中，对于模型训练数据的积累，本发明提出的方法是一种兼顾人工成本和数据标注质量的方式。

进一步地，在上述各实施例提供的文本数据标注方法的基础上，在所述根据所述种子数据的标签，标注所述待标注文本数据之后，本发明的文本数据标注方法还包括：根据所述标注的结果，将标注后的文本数据归类到所述种子数据不同的标签下；标注出各所述标签下的同类数据和异类数据，并基于标注的所述同类数据和所述异类数据，构建种子数据集。

可以理解为，本发明可以利用上述标注完成的文本数据进一步填充现有的种子数据集。具体的，首先，将预标注后的文本数据按照标注的不同种子数据标签进行归类，也就是将标注后的文本数据归类到不同的种子数据的标签下；然后，可以通过采用例如人工判别等的方式，将各标签下的异类数据标注出来，则被标注出的异类数据之外即为同类数据；最后，将标注（例如人工标注）出的异类数据和同类数据进行收集整理，填充到现有种子数据集，构成更高质量的种子数据集。其中，该种子数据集可进一步用于下一次的文本数据标注或者也可用于训练相应的人类识别、语音识别、自然语言处理等应用的人工智能模型。

本发明从基于弱监督的方式进行文本数据标注的角度，相对于本领域直接采用人工标注的方式，避免了标注大量无效数据，降低了人工成本，提高了标注数据的效率；同时相对于无监督的预标注方式，提高了预标注的准确度。

进一步地，根据上述各实施例提供的文本数据标注方法可选地，所述基于标注的所述同类数据和所述异类数据，构建种子数据集，包括：针对每个所述种子数据，对标注到所述种子数据的标签下的多个同类数据，计算所述多个同类数据相互之间的第二相似度，并基于所述第二相似度，剔除冗余的同类数据，且保留所述异类数据构建所述种子数据集。

可以理解为，本发明在预标注完成后，围绕每个种子数据（也即在每个种子数据的标签下），会产生很多相似数据，也即存在多个相似的同类数据。此时，通过相似度计算，得到这些相似的同类数据相互之间的相似度（可称为是第二相似度），并根据第二相似度对这些相似的同类数据进行冗余处理。

例如，当两个同类数据的第二相似度高于某设定阈值时，说明这两个同类数据比较接近，则可以将其中的一个数据作为冗余数据予以剔除。采用以上处理方式，可快速完成低冗余的高质量种子数据集的构建。并且，当将该种子数据集用于人脸识别、智能交通控制、智能语音识别、自然语言处理或图像处理等的模型训练时，采用此种方式能够将模型易混淆数据召回，可增加所训练模型的识别能力。

其中，根据上述各实施例提供的文本数据标注方法可选地，所述计算所述待标注文本数据与所述种子数据之间的第一相似度，包括：基于所述待标注数据词嵌入向量，通过加权平均运算，获取所述待标注文本数据的第一句向量；基于所述种子数据词嵌入向量，通过加权平均运算，获取所述种子数据的第二句向量；通过计算所述第一句向量与所述第二句向量之间的相似度，确定所述待标注文本数据与所述种子数据之间的第一相似度。

可以理解为，当待标注文本数据和种子数据为超过一定长度的文本数据时，可先根据分词时待标注文本数据对应的多个文本分词，确定待标注文本数据对应的多个词嵌入向量，再根据这些词嵌入向量，通过加权平均等运算方式，计算待标注文本数据对应的句向量，可称为是第一句向量。

同时，根据分词时种子数据对应的多个分词，确定种子数据对应的多个词嵌入向量，再根据这些词嵌入向量，通过加权平均等运算方式，计算种子数据对应的句向量，可称为是第二句向量。

最后，计算第一句向量与第二句向量之间的相似度，并将其作为待标注文本数据与种子数据间的第一相似度。

其中，根据上述各实施例提供的文本数据标注方法可选地，所述对所述垂类文本数据进行分词处理，包括：采用计算引擎spark，对所述垂类文本数据进行并行分词处理并进行停用词过滤，获取所述文本分词和所述词频。

可以理解为，实际应用中，由于数据量太大，通过使用spark，对垂类文本数据进行并行分词处理，获取文本分词和各文本分词对应的词频，以有效降低分词所消耗的时间，从而进一步提高文本数据标注效率。同时，对分词后的结果进行停用词过滤，滤除无用分词，以缩小数据量，从而进一步提高文本数据预标注效率。

基于相同的发明构思，本发明根据上述各实施例还提供一种文本数据标注装置，该装置用于在上述各实施例中实现文本数据标注。因此，在上述各实施例的文本数据标注方法中的描述和定义，可以用于本发明中各个执行模块的理解，具体可参考上述方法实施例，此处不在赘述。

如图3所示，为本发明提供的文本数据标注装置的系统架构示意图，主要包括垂类文本数据层、垂类词典生产层、词嵌入层和预标注层四个分层。

其中，垂类文本数据层是垂类词典生产层的输入，若想得到高质量的垂类词典，必须准备大量的垂类文本提供底层的数据，以此来支撑上层的模型训练。本发明中采用的数据为日常产生的目标（如房产）垂类文本，例如包括：聊天文本数据、看点文章文本、智能客服文本数据、ASR（语音转写）文本、房评文本和地点别名等。

垂类词典生产层，将目标领域的垂类文本作为输入。由于数据量太大，通过使用spark，进行分词和停用词过滤。其中停用词表可包括以下内容：人名、停用词（自定义）、具体数字和低频词等。

词嵌入层即通过将词嵌入（embedding）成为固定维度的向量，使得词语之间可以直接通过词嵌入进行相似度计算，在分词的过程中，加入了垂类词典，使房产领域的词能够得到更精确的分割。

预标注层，该层中主要是通过计算待标注文本数据和种子数据词嵌入的相似度，来对待标注文本数据进行预标注的过程。主要包括：首先，人工标注少量的数据，使其具有准确的标签，这部分数据称为种子数据（即将进行预标注的数据称为待标注文本数据）；然后，对种子数据和待标注文本数据进行分词；再然后，基于词嵌入层产出的词向量，以加权平均的方式计算种子数据和待标注文本数据的句向量；之后，通过余弦相似度，计算种子数据和待标注文本数据之间的相似度；最后，若某条待标注文本数据与某种子数据相似度大于0.85，即认为此待标注文本数据与此种子数据具有相同的标签，以此来完成数据的预标注工作。

也就是说，在具有少量有标签的种子数据的情况下，将种子数据和待标注文本数据通过词嵌入层得到的词embedding，进行句embedding化。最终通过计算待标注文本数据与种子数据的相似性，将待标注文本数据标注成与其相似性大的种子数据标签。

人工标注层中，在预标注完成后，围绕每个种子数据，会产生很多相似样本。此时，将通过相似度计算的相似样本进行标注，既可快速完成高质量数据集的构建，并且采用此种方式能够将模型易混淆数据召回，增加所训练模型的识别能力。

根据本发明的一个实施例，文本数据标注装置的结构如图4所示，为本发明提供的文本数据标注装置的结构示意图，该装置可以用于实现上述各方法实施例中的文本数据标注，该装置包括：词嵌入模块401、计算模块402和预标注模块403。其中：

词嵌入模块401用于对待标注文本数据进行分词及词嵌入处理，获取待标注数据词嵌入向量，并对种子数据进行分词及词嵌入处理，获取种子数据词嵌入向量，所述种子数据为已经进行预设标注的数据；计算模块402用于基于所述待标注数据词嵌入向量和所述种子数据词嵌入向量，计算所述待标注文本数据与所述种子数据之间的第一相似度；预标注模块403用于若所述第一相似度大于预设阈值，则根据所述种子数据的标签，标注所述待标注文本数据。

可以理解为，本发明主要是通过计算待标注文本数据和种子数据词嵌入向量的相似度，来对待标注文本数据进行预标注的过程。具体而言，词嵌入模块401先对待标注文本数据和种子数据分别进行分词处理，再分别根据分词处理的结果，进行词嵌入处理。也即，对待标注文本数据的分词结果和种子数据的分词结果分别进行词嵌入处理，最终得到待标注文本数据和种子数据分别对应的词嵌入向量，可分别称为待标注数据词嵌入向量和种子数据词嵌入向量。

其中，待标注文本数据是将要进行预标注的数据，其是待处理的目标对象。种子数据是已经进行了准确标注的数据，这部分数据中包含数据本身和对其标注的标签。

之后，在获取待标注文本数据和种子数据的词嵌入向量的基础上，计算模块402可结合待标注文本数据和种子数据的长度和类型，根据待标注数据词嵌入向量和种子数据词嵌入向量，计算获取待标注文本数据与种子数据的相似度。为便于区分，可将该相似度称为是第一相似度。

例如，当待标注文本数据和种子数据为独立分割的同一语义的单词时，计算模块402可直接将其词嵌入向量之间的相似度作为待标注文本数据与种子数据间的第一相似度；当待标注文本数据和种子数据为超过一定长度的数据或文本时，计算模块402可先根据分词时待标注文本数据和种子数据对应的多个分词，确定待标注文本数据和种子数据对应的多个词嵌入向量，再根据词嵌入向量通过加权平均等运算方式，计算整体数据向量或句向量，最后计算待标注文本数据和种子数据分别对应的整体数据向量或句向量的相似度，作为待标注文本数据与种子数据间的第一相似度。

最后，预标注模块403将计算得到的待标注文本数据与种子数据间的第一相似度与预设阈值进行比较，若第一相似度大于预设阈值，如第一相似度大于预设阈值0.85，说明待标注文本数据与种子数据的相似性较高，则可直接根据种子数据的标签确定待标注文本数据的标签，以此完成待标注文本数据的预标注工作，得到标注后的文本数据。

本发明提供的文本数据标注装置，在具有少量有标签的种子数据的情况下，通过采用弱监督结合词嵌入运算的方式，进行待标注文本数据的预标注，能够有效降低人工成本，并能有效提高标注效率和准确性，且可控性更强。

可选地，所述词嵌入模块，在用于所述对待标注文本数据进行分词及词嵌入处理时，用于：

进一步地，本发明的文本数据标注装置，还包括垂类词典生成模块，用于：

进一步地，本发明的文本数据标注装置，还包括种子数据集模块，用于：

可选地，所述种子数据集模块，在用于所述基于标注的所述同类数据和所述异类数据，构建种子数据集时，用于：

可选地，所述计算模块，在用于所述计算所述待标注文本数据与所述种子数据之间的第一相似度时，用于：

可选地，所述垂类词典生成模块，在用于所述对所述垂类文本数据进行分词处理时，用于：

可以理解的是，本发明中可以通过硬件处理器（hardware processor）来实现上述各实施例的装置中的各相关程序模块。并且，本发明的文本数据标注装置利用上述各程序模块，能够实现上述各方法实施例的文本数据标注流程，在用于实现上述各方法实施例中的文本数据标注时，本发明的装置产生的有益效果与对应的上述各方法实施例相同，可以参考上述各方法实施例，此处不再赘述。

作为本发明的又一个方面，本实施例根据上述各实施例提供一种电子设备，该电子设备包括存储器、处理器及存储在该存储器上并可在该处理器上运行的程序或指令，该处理器执行该程序或指令时，实现如上述各实施例所述的文本数据标注方法的步骤。

进一步的，本发明的电子设备还可以包括通信接口和总线。参考图5，为本发明提供的电子设备的实体结构示意图，包括：至少一个存储器501、至少一个处理器502、通信接口503和总线504。

其中，存储器501、处理器502和通信接口503通过总线504完成相互间的通信，通信接口503用于该电子设备与数据采集或存储设备之间的信息传输；存储器501中存储有可在处理器502上运行的程序或指令，处理器502执行该程序或指令时，实现如上述各实施例所述的文本数据标注方法的步骤。

可以理解为，该电子设备中至少包含存储器501、处理器502、通信接口503和总线504，且存储器501、处理器502和通信接口503通过总线504形成相互间的通信连接，并可完成相互间的通信，如处理器502从存储器501中读取文本数据标注方法的程序指令等。另外，通信接口503还可以实现该电子设备与数据采集或存储设备之间的通信连接，并可完成相互间信息传输，如通过通信接口503实现待标注文本数据的读取等。

电子设备运行时，处理器502调用存储器501中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：对待标注文本数据进行分词及词嵌入处理，获取待标注数据词嵌入向量，并对种子数据进行分词及词嵌入处理，获取种子数据词嵌入向量，所述种子数据为已经进行预设标注的数据；基于所述待标注数据词嵌入向量和所述种子数据词嵌入向量，计算所述待标注文本数据与所述种子数据之间的第一相似度；若所述第一相似度大于预设阈值，则根据所述种子数据的标签，标注所述待标注文本数据等。

上述的存储器501中的程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。或者，实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（RandomAccess Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

本发明还根据上述各实施例提供一种非暂态计算机可读存储介质，其上存储有程序或指令，该程序或指令被计算机执行时，实现如上述各实施例所述的文本数据标注方法的步骤，例如包括：对待标注文本数据进行分词及词嵌入处理，获取待标注数据词嵌入向量，并对种子数据进行分词及词嵌入处理，获取种子数据词嵌入向量，所述种子数据为已经进行预设标注的数据；基于所述待标注数据词嵌入向量和所述种子数据词嵌入向量，计算所述待标注文本数据与所述种子数据之间的第一相似度；若所述第一相似度大于预设阈值，则根据所述种子数据的标签，标注所述待标注文本数据等。

作为本发明的再一个方面，本实施例根据上述各实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的文本数据标注方法。

本发明提供的电子设备、非暂态计算机可读存储介质和计算机程序产品，通过执行上述各实施例所述的文本数据标注方法的步骤，在具有少量有标签的种子数据的情况下，通过采用弱监督结合词嵌入运算的方式，进行待标注文本数据的预标注，能够有效降低人工成本，并能有效提高标注效率和准确性，且可控性更强。

可以理解的是，以上所描述的装置、电子设备及存储介质的实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，既可以位于一个地方，或者也可以分布到不同网络单元上。可以根据实际需要选择其中的部分或全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上实施方式的描述，本领域的技术人员可以清楚地了解，各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令，用以使得一台计算机设备（如个人计算机，服务器，或者网络设备等）执行上述各方法实施例或者方法实施例的某些部分所述的方法。

另外，本领域内的技术人员应当理解的是，在本发明的申请文件中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明的说明书中，说明了大量具体细节。然而应当理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本数据标注方法，其特征在于，包括：

2.根据权利要求1所述的文本数据标注方法，其特征在于，所述对待标注文本数据进行分词及词嵌入处理，包括：

3.根据权利要求2所述的文本数据标注方法，其特征在于，在所述基于目标垂类词典，对所述待标注文本数据进行分词并过滤之前，还包括构建所述目标垂类词典的步骤，包括：

4.根据权利要求1-3中任一项所述的文本数据标注方法，其特征在于，在所述根据所述种子数据的标签，标注所述待标注文本数据之后，还包括：

5.根据权利要求4所述的文本数据标注方法，其特征在于，所述基于标注的所述同类数据和所述异类数据，构建种子数据集，包括：

6.根据权利要求3所述的文本数据标注方法，其特征在于，所述对所述垂类文本数据进行分词处理，包括：

7.根据权利要求1所述的文本数据标注方法，其特征在于，所述计算所述待标注文本数据与所述种子数据之间的第一相似度，包括：

8.一种文本数据标注装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序或指令，其特征在于，所述处理器执行所述程序或指令时，实现如权利要求1至7中任一项所述的文本数据标注方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有程序或指令，其特征在于，所述程序或指令被计算机执行时，实现如权利要求1至7中任一项所述的文本数据标注方法的步骤。