CN116257644A

CN116257644A - 标注数据的方法、通过模型标注数据的方法及装置

Info

Publication number: CN116257644A
Application number: CN202310151843.0A
Authority: CN
Inventors: 高峰; 杜新凯; 牛国扬; 赵飞飞
Original assignee: Sunshine Insurance Group Co Ltd
Current assignee: Sunshine Insurance Group Co Ltd
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2023-06-13

Abstract

本申请提供了标注数据的方法、通过模型标注数据的方法及装置，该方法包括，获取人工标注部分样本数据的第一数据集合；对第一数据集合中的数据进行特征提取，得到标注模板；利用标注模板对未标注的样本数据进行数据标注，得到第二数据集合。还包括，获取待标注文本；利用预设的自动标注模型对待标注文本进行标注，得到标注结果。通过该方法可以达到提高标注数据的效率的效果。

Description

标注数据的方法、通过模型标注数据的方法及装置

技术领域

本申请涉及数据处理的领域，具体而言，涉及标注数据的方法、通过模型标注数据的方法及装置。

背景技术

目前，在大量系统数据中进行数据的筛选，需要进行人工的进行数据标注或者采用固定的标注模板完成数据的标注。

上述数据标注的方式存在很大的局限性，在人工标注时会浪费大量的时间，采用模板标注的方式会导致标注数据出现错误并且也需要花费大量的时间。

因此，如何提高标注数据的效率，是一个需要解决的技术问题。

发明内容

本申请实施例的目的在于提供一种标注数据的方法，通过本申请的实施例的技术方案可以达到提高标注数据的效率的效果。

第一方面，本申请实施例提供了一种标注数据的方法，包括，获取人工标注部分样本数据的第一数据集合；对第一数据集合中的数据进行特征提取，得到标注模板；利用标注模板对未标注的样本数据进行数据标注，得到第二数据集合。

本申请在上述实施例中，通过部分的样本数据获取标注模板，通过标注模板对未标注的样本数据进行自动标注，可以实现快速的对未标注样本数据进行标注，可以达到提高标注数据的效率的效果。

在一些实施例中，在利用标注模板对未标注的样本数据进行数据标注，得到第二数据集合之后，方法还包括：

将第一数据集合和第二数据集合混合，得到混合数据样本；

利用混合数据样本分别对基础双向标注模型、基础局部特征标注模型和基础机器标注模型进行训练，得到初始双向标注模型、初始局部特征标注模型和初始机器标注模型；

利用验证集中的标准数据样本分别对初始双向标注模型、初始局部特征标注模型和初始机器标注模型进行更新，得到双向标注模型、局部特征标注模型和机器标注模型；

将双向标注模型、局部特征标注模型和机器标注模型进行融合，得到自动标注模型。

本申请在上述实施例中，通过人工标注的数据和标注模板标注的数据对基础模型的训练，可以得到自动标注模型，该模型可以用于直接对文本数据的标注，达到提高标注数据的效率的效果。

在一些实施例中，对第一数据集合中的数据进行特征提取，得到标注模板，包括：

对第一数据集合中标注结构相同或者相似的数据进行特征提取，得到标注模板。

本申请在上述实施例中，通过对相同或者相似的数据进行特征提取，可以获取用于数据标注的标注模板，通过标注模板可以快速的对文本数据进行标注。

第二方面，本申请实施例提供了一种通过模型标注数据的方法，包括，获取待标注文本；利用预设的自动标注模型对待标注文本进行标注，得到标注结果。其中，自动标注模型是通过将双向标注模型、局部特征标注模型和机器标注模型进行融合得到的，双向标注模型、局部特征标注模型和机器标注模型是通过验证集中的标准标注样本分别对初始双向标注模型、初始局部特征标注模型和初始机器标注模型进行更新得到的，初始双向标注模型、初始局部特征标注模型和初始机器标注模型是通过人工标注的人工样本数据和预设模板标注的模板数据样本进行混合得到的混合样本分别对基础双向标注模型、基础局部特征标注模型和基础机器标注模型进行训练得到的。

本申请在上述实施例中，通过人工标注的数据和标注模板标注的数据对基础模型的训练，可以得到自动标注模型，该模型可以用于直接对待标注文本进行标注，达到提高标注数据的效率的效果。

在一些实施例中，在获取待标注文本之前，方法还包括：

获取人工标注的人工样本数据和预设模板标注的模板数据样本，其中人工样本数据远远小于模板数据样本；

将人工样本数据和模板数据样本混合，得到混合样本；

利用混合样本分别对基础双向标注模型、基础局部特征标注模型和基础机器标注模型进行训练，得到初始双向标注模型、初始局部特征标注模型和初始机器标注模型；

利用验证集中的标准标注样本分别对初始双向标注模型、初始局部特征标注模型和初始机器标注模型进行更新，得到双向标注模型、局部特征标注模型和机器标注模型；

计算双向标注模型、局部特征标注模型和机器标注模型标注数据的预测比重；

根据预测比重调取双向标注模型、局部特征标注模型和机器标注模型中的模型参数并进行融合，得到自动标注模型。

本申请在上述实施例中，通过人工标注的数据和标注模板标注的数据对基础模型的训练，并利用验证集中的样本对模型进一步进行更新，通过三个模型的融合融合可以得到自动标注模型，该模型可以用于直接对文本数据的标注，达到提高标注数据的效率的效果。

在一些实施例中，利用验证集中的标准标注样本分别对初始双向标注模型、初始局部特征标注模型和初始机器标注模型进行更新，得到双向标注模型、局部特征标注模型和机器标注模型，包括：

将标准标注样本中的一个文本数据分别输入初始双向标注模型、初始局部特征标注模型和初始机器标注模型，分别得到第一标注结果、第二标注结果和第三标注结果；

若第一标注结果、第二标注结果和第三标注结果中的两种标注结果相同，则将两种标注结果之外的标注结果替换成两种标注结果中的随机一种，并利用替换后的标注结果和文本数据对两种标注结果之外的标注结果对应的模型进行训练，得到述双向标注模型、局部特征标注模型和机器标注模型；

若第一标注结果、第二标注结果和第三标注结果都不相同，则将文本数据删除。

本申请在上述实施例中，通过验证集中的样本数据对三个模型的训练样本进一步更新，可以使训练模型的训练样本更能训练出准确的自动标注模型。

第三方面，本申请实施例提供了一种标注数据的装置，包括：

获取模块，用于获取人工标注部分样本数据的第一数据集合；

特征提取模块，用于对第一数据集合中的数据进行特征提取，得到标注模板；

标注模块，用于利用标注模板对未标注的样本数据进行数据标注，得到第二数据集合。

可选的，所述装置还包括：

训练模块，用于所述标注模块在利用标注模板对未标注的样本数据进行数据标注，得到第二数据集合之后，将第一数据集合和第二数据集合混合，得到混合数据样本；

可选的，特征提取模块具体用于：

第四方面，本申请实施例提供了一种通过模型标注数据的装置，包括：

获取模块，用于获取待标注文本；

标注模块，用于利用预设的自动标注模型对待标注文本进行标注，得到标注结果。其中，自动标注模型是通过将双向标注模型、局部特征标注模型和机器标注模型进行融合得到的，双向标注模型、局部特征标注模型和机器标注模型是通过验证集中的标准标注样本分别对初始双向标注模型、初始局部特征标注模型和初始机器标注模型进行更新得到的，初始双向标注模型、初始局部特征标注模型和初始机器标注模型是通过人工标注的人工样本数据和预设模板标注的模板数据样本进行混合得到的混合样本分别对基础双向标注模型、基础局部特征标注模型和基础机器标注模型进行训练得到的。

可选的，所述装置还包括：

训练模块，用于所述获取模块在获取待标注文本之前，获取人工标注的人工样本数据和预设模板标注的模板数据样本，其中人工样本数据远远小于模板数据样本；

将人工样本数据和模板数据样本混合，得到混合样本；

可选的，训练模块具体用于：

第五方面，本申请实施例提供一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上述第一方面或第二方面提供的所述方法中的步骤。

第六方面，本申请实施例提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时运行如上述第一方面或第二方面提供的所述方法中的步骤。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种标注数据的方法的流程图；

图2为本申请实施例提供的一种通过模型标注数据的方法的流程图；

图3为本申请实施例提供的一种训练自动标注模型的方法的流程图；

图4为本申请实施例提供的一种人工标注样本的方法的流程图；

图5为本申请实施例提供的一种标注模板标注数据的方法的流程图；

图6为本申请实施例提供的一种更新自动标注模型的方法的流程图；

图7为本申请实施例提供的一种标注数据的装置的示意框图；

图8为本申请实施例提供的一种通过模型标注数据的装置的示意框图；

图9为本申请实施例提供的一种标注数据的装置的结构示意框图；

图10为本申请实施例提供的一种通过模型标注数据的装置的结构示意框图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和显示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

首先对本申请实施例中涉及的部分用语进行说明，以便于本领域技术人员理解。

Txt：txt是微软在操作系统上附带的一种文本格式，是最常见的一种文件格式。

MySql：一个关系型数据库管理系统，由瑞典MySQL AB公司开发，属于Oracle旗下产品。MySQL是最流行的关系型数据库管理系统之一，在WEB应用方面，MySQL是最好的RDBMS(Relational Database Management System，关系数据库管理系统)应用软件之一。

CRF：conditional random field，最常的算法是条件随机场模型。

半监督学习：(Semi-Supervised Learning，SSL)是模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据，以及同时使用标记数据，来进行模式识别工作。

BERT：有两部分：pre-training和fine-tuning。在pre-training阶段，会在没有标注数据且不同预训练任务上训练模型；在fine-tuning阶段，BERT会根据预训练模型的参数初始化，然后在下游任务的标注数据进行fine-tuned。

长短期记忆网络：(LSTM，Long Short-Term Memory)是一种时间循环神经网络，是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的，所有的RNN都具有一种重复神经网络模块的链式形式。

本申请应用于数据处理的场景，具体场景为通过标注模板对数据进行标注或者通过自动标注模板对数据进行自动标注。

但是目前，在大量系统数据中进行数据的筛选，需要进行人工的进行数据标注或者采用固定的标注模板完成数据的标注。上述数据标注的方式存在很大的局限性，在人工标注时会浪费大量的时间，采用模板标注的方式会导致标注数据出现错误并且也需要花费大量的时间。

为此本申请通过获取人工标注部分样本数据的第一数据集合；对第一数据集合中的数据进行特征提取，得到标注模板；利用标注模板对未标注的样本数据进行数据标注，得到第二数据集合。还包括，获取待标注文本；利用预设的自动标注模型对待标注文本进行标注，得到标注结果。通过该方法可以达到提高标注数据的效率的效果。

本申请实施例中，执行主体可以为标注数据系统中的标注数据设备，实际应用中，标注数据设备可以为终端设备和服务器等电子设备，在此不做限制。

下面结合图1对本申请实施例的标注数据的方法进行详细描述。

请参看图1，图1为本申请实施例提供的一种标注数据的方法的流程图，如图1所示的标注数据的方法包括：

步骤110：获取人工标注部分样本数据的第一数据集合。

其中，部分样本数据仅仅占有少量的样本数据，第一数据集合包括多个标注后的样本数据。本申请采用常用的BMEO四标注法对组织机构进行标注：B表示当前组织机构的开始；M表示当前组织机构的延续；E表示结束；O表示任意非实体。实体关系用R1,R2,......区分不同类型，R1表示子单位，R2表示子产品标注实例如下：

原始文本：“阳光人寿保险是阳光保险集团旗下的子公司”。

标注文本：阳/B光/M人/M寿/M保/M险/E是/O阳/B光/M保/M险/M集/M团/E旗/O下/O的/O子/O公/O司/O。||E1。

关系抽取：(阳光人寿保险)(阳光保险集团)[子单位]。

原始文本：“驾乘无忧险是阳光财产保险2022年针对一般上班族推出的一款优惠产品”。

标注文本：驾/B乘/M无/M忧/M险/E是/O阳/M光/M财/M产/M保/M险/E2022/O年/O针/O对/O一/O般/O上/O班/O族/O推/O出/O的/O一/O款/O优/O惠/O产/O品。||E2。

关系抽取：(驾乘无忧险)(阳光财产保险)[子产品]。

步骤120：对第一数据集合中的数据进行特征提取，得到标注模板。

其中，特征提取包括格式特征的提取，用于将相同或者相似的标注格式的样本数据中的标注格式特征进行提取，得到标注格式相同或者相似的标注模板。

在本申请的一些实施例中，对第一数据集合中的数据进行特征提取，得到标注模板，包括：对第一数据集合中标注结构相同或者相似的数据进行特征提取，得到标注模板。

本申请在上述过程中，通过对相同或者相似的数据进行特征提取，可以获取用于数据标注的标注模板，通过标注模板可以快速的对文本数据进行标注。

在本申请的一些实施例中，对第一数据集合中标注结构相同或者相似的数据进行特征提取，得到标注模板，包括：从人工样本数据中选择结构相似的人工标注数据；对结构相似的人工标注数据进行模板分析，得到预设模板。

步骤130：利用标注模板对未标注的样本数据进行数据标注，得到第二数据集合。

其中，未标注的样本数据远远大于步骤110中的部分样本数据。

在本申请的一些实施例中，在利用标注模板对未标注的样本数据进行数据标注，得到第二数据集合之后，图1所示方法还包括：将第一数据集合和第二数据集合混合，得到混合数据样本；利用混合数据样本分别对基础双向标注模型、基础局部特征标注模型和基础机器标注模型进行训练，得到初始双向标注模型、初始局部特征标注模型和初始机器标注模型；利用验证集中的标准数据样本分别对初始双向标注模型、初始局部特征标注模型和初始机器标注模型进行更新，得到双向标注模型、局部特征标注模型和机器标注模型；将双向标注模型、局部特征标注模型和机器标注模型进行融合，得到自动标注模型。

本申请在上述过程中，通过人工标注的数据和标注模板标注的数据对基础模型的训练，可以得到自动标注模型，该模型可以用于直接对文本数据的标注，达到提高标注数据的效率的效果。

其中，基础双向标注模型可以是用业界流行的BERT模型、双向LSTM模型和条件随机场(CRF)模型模型自动标注实体和关系，得到的模型。基础局部特征标注模型可以是提取局部特征的卷积神经网络(TextCNN)和隐马尔科夫(HMM)模型自动标注实体和关系得到的模型。基础机器标注模型可以是用传统的机器学习模型文档对象模型(TF-IDF)和最大熵马尔科夫模型(MHMM)自动标注实体和关系得到的模型。其中，自动标注模型可以用于实体关系自动抽取任务的半监督学习SSL装置。采用定期离线更新的方法，可以提高模型的适应能力。

在上述图1所示的过程中，本申请通过部分的样本数据获取标注模板，通过标注模板对未标注的样本数据进行自动标注，可以实现快速的对未标注样本数据进行标注，可以达到提高标注数据的效率的效果。

下面结合图2对本申请实施例的通过模型标注数据的方法进行详细描述。

请参看图2，图2为本申请实施例提供的一种通过模型标注数据的方法的流程图，如图2所示的标注数据的方法包括：

步骤210：获取待标注文本。

其中，待标注文本可以是任意一篇文章或者文档的文本数据。

在本申请的一些实施例中，在获取待标注文本之前，图2所示方法还包括：获取人工标注的人工样本数据和预设模板标注的模板数据样本，其中人工样本数据远远小于模板数据样本；将人工样本数据和模板数据样本混合，得到混合样本；利用混合样本分别对基础双向标注模型、基础局部特征标注模型和基础机器标注模型进行训练，得到初始双向标注模型、初始局部特征标注模型和初始机器标注模型；利用验证集中的标准标注样本分别对初始双向标注模型、初始局部特征标注模型和初始机器标注模型进行更新，得到双向标注模型、局部特征标注模型和机器标注模型；计算双向标注模型、局部特征标注模型和机器标注模型标注数据的预测比重；根据预测比重调取双向标注模型、局部特征标注模型和机器标注模型中的模型参数并进行融合，得到自动标注模型。

本申请在上述过程中，通过人工标注的数据和标注模板标注的数据对基础模型的训练，并利用验证集中的样本对模型进一步进行更新，通过三个模型的融合融合可以得到自动标注模型，该模型可以用于直接对文本数据的标注，达到提高标注数据的效率的效果。

下面结合图3对本申请实施例的训练自动标注模型的方法进行详细描述。

请参看图3，图3为本申请实施例提供的一种训练自动标注模型的方法的流程图，如图3所示的训练自动标注模型的方法包括：

步骤310：人工标注样本。

具体的，人工标注样本流工作，包括原始数据的采集、规范化，序列标注与关系标注、数据保存等处理流程。

步骤320：标注模板标注样本。

具体的，进行模板的发现与数据的自动标注工作，包括从标注数据中发现共性模板、用模板自动标注数据、标注结果人工检查与更正等处理流程。

步骤330：训练自动标注模型。

具体的，利用人工标注样本和标注模板标注样本对基础模型进行训练，得到自动标注模型。

步骤340：自动标注模型标注样本。

具体的，通过自动标注模型对训练集中的样本进行标注。

步骤350：更新自动标注模型。

具体的，将标准标注样本中的一个文本数据分别输入初始双向标注模型、初始局部特征标注模型和初始机器标注模型，分别得到第一标注结果、第二标注结果和第三标注结果，根据第一标注结果、第二标注结果和第三标注结果对模型进行更新。

步骤360：融合模型。

具体的，根据预测比重调取双向标注模型、局部特征标注模型和机器标注模型中的模型参数并进行融合，得到自动标注模型。

此外，图3所示的具体方法和步骤请参看图1或图2，此处不在过多赘述。

下面结合图4对本申请实施例的人工标注样本的方法进行详细描述。

请参看图4，图4为本申请实施例提供的一种人工标注样本的方法的流程图，如图4所示的人工标注样本的方法包括：

步骤410：收集原始数据。

具体的，从客服机器人对话数据、企业内部产品介绍文档和行业通用文件等进行数据收集。

步骤420：数据规范化。

具体的，收集到的数据按照算法要求的格式整合，将获得的数据中，筛选出富含实体与关系的文本语句，整理为统一的txt格式并存储到数据库中备用。

步骤430：序列标注与关系标注。

具体的，将样本数据中相同格式的数据和有关联关系的数据进行标注。

步骤440：审核奇异数据。

具体的，对三种标注不同的数据进行复核，并统一标准。

步骤450：保存标注数据。

具体的，存储到MySql数据库中备用。

此外，图4所示的具体方法和步骤请参看图1或图2，此处不在过多赘述。

下面结合图5对本申请实施例的标注模板标注数据的方法进行详细描述。

请参看图5，图5为本申请实施例提供的一种标注模板标注数据的方法的流程图，如图5所示的标注模板标注数据的方法包括：

步骤510：模板标注数据。

具体的，标注数据整理，将标注好的数据从MySql全量取出备用。

步骤520：关系聚类。

具体的，标注数据中相同关系的数据聚类到一起。

步骤530：规则模板编写。

具体的，将聚类后的数据整理，发现其中的共性，抽象出规则模板。

步骤540：模板扩充。

具体的，结合行业专业知识进行扩写，增加模板数量。将原始模板与扩充模板融合，对未标注数据进行自动标注。

步骤550：保存模板数据。

具体的，存储到MySql数据库中备用。

此外，图5所示的具体方法和步骤请参看图1或图2，此处不在过多赘述。

下面结合图6对本申请实施例的更新自动标注模型的方法进行详细描述。

请参看图6，图6为本申请实施例提供的一种更新自动标注模型的方法的流程图，如图6所示的更新自动标注模型的方法包括：

步骤610：获取更新模板的样本数据。

具体的，定期获得的未标注的数据。

步骤620：融合模型。

具体的，通过模型对未标注数据进行标注，并将模型融合。

步骤630：匹配模板。

具体的，对未标注数据匹配对应的标注模板。

步骤640：分析更新模型。

具体的，分析模型输出结果，并实时的存储更新数据，对模型进行更新。

此外，图6所示的具体方法和步骤请参看图1或图2，此处不在过多赘述。

在本申请的一些实施例中，在根据预测比重调取双向标注模型、局部特征标注模型和机器标注模型中的模型参数并进行融合，得到自动标注模型之后，图2所示方法还包括：利用预测比重的双向标注模型、局部特征标注模型和机器标注模型中的模型参数计算自动标注模型的交叉熵；基于交叉熵调整自动标注模型，直到交叉熵的至满足预设值。

其中，计算交叉熵的方式可通过如下公式获取：

L＝αH_a+βH_b+γH_c

其中，预测比重分别为α、β、γ，L为交叉熵H_a、H_b、H_c之和，p(x_k)代表每个子标记正确的概率，p(x_m)代表实体关系标记正确的概率，λ,μ分别代表序列标注与关系标注损失函数所占的比重。

在本申请的一些实施例中，利用验证集中的标准标注样本分别对初始双向标注模型、初始局部特征标注模型和初始机器标注模型进行更新，得到双向标注模型、局部特征标注模型和机器标注模型，包括：将标准标注样本中的一个文本数据分别输入初始双向标注模型、初始局部特征标注模型和初始机器标注模型，分别得到第一标注结果、第二标注结果和第三标注结果；若第一标注结果、第二标注结果和第三标注结果中的两种标注结果相同，则将两种标注结果之外的标注结果替换成两种标注结果中的随机一种，并利用替换后的标注结果和文本数据对两种标注结果之外的标注结果对应的模型进行训练，得到述双向标注模型、局部特征标注模型和机器标注模型；若第一标注结果、第二标注结果和第三标注结果都不相同，则将文本数据删除。

本申请在上述过程中，通过验证集中的样本数据对三个模型的训练样本进一步更新，可以使训练模型的训练样本更能训练出准确的自动标注模型。

此外，若第一标注结果、第二标注结果和第三标注结果相同，则可以利用该标准标注样本进一步对初始双向标注模型、初始局部特征标注模型和初始机器标注模型进行训练。

步骤220：利用预设的自动标注模型对待标注文本进行标注，得到标注结果。

其中，自动标注模型是通过将双向标注模型、局部特征标注模型和机器标注模型进行融合得到的，双向标注模型、局部特征标注模型和机器标注模型是通过验证集中的标准标注样本分别对初始双向标注模型、初始局部特征标注模型和初始机器标注模型进行更新得到的，初始双向标注模型、初始局部特征标注模型和初始机器标注模型是通过人工标注的人工样本数据和预设模板标注的模板数据样本进行混合得到的混合样本分别对基础双向标注模型、基础局部特征标注模型和基础机器标注模型进行训练得到的。

在上述图2所示的过程中，本申请通过人工标注的数据和标注模板标注的数据对基础模型的训练，可以得到自动标注模型，该模型可以用于直接对待标注文本进行标注，达到提高标注数据的效率的效果。

前文通过图1-图6描述了标注数据的方法和自动标注模型训练和更新的方法，下面结合图7-图10描述标注数据的装置。

请参照图7，为本申请实施例中提供的一种标注数据的装置700的示意框图，该装置700可以是电子设备上的模块、程序段或代码。该装置700与上述图1方法实施例对应，能够执行图1方法实施例涉及的各个步骤，该装置700具体的功能可以参见下文中的描述，为避免重复，此处适当省略详细描述。

可选的，所述装置700包括：

获取模块710，用于获取人工标注部分样本数据的第一数据集合；

特征提取模块720，用于对第一数据集合中的数据进行特征提取，得到标注模板；

标注模块730，用于利用标注模板对未标注的样本数据进行数据标注，得到第二数据集合。

可选的，所述装置还包括：

训练模块，用于所述标注模块在利用标注模板对未标注的样本数据进行数据标注，得到第二数据集合之后，将第一数据集合和第二数据集合混合，得到混合数据样本；利用混合数据样本分别对基础双向标注模型、基础局部特征标注模型和基础机器标注模型进行训练，得到初始双向标注模型、初始局部特征标注模型和初始机器标注模型；利用验证集中的标准数据样本分别对初始双向标注模型、初始局部特征标注模型和初始机器标注模型进行更新，得到双向标注模型、局部特征标注模型和机器标注模型；将双向标注模型、局部特征标注模型和机器标注模型进行融合，得到自动标注模型。

可选的，特征提取模块具体用于：

请参照图8，为本申请实施例中提供的一种通过模型标注数据的装置800的示意框图，该装置800可以是电子设备上的模块、程序段或代码。该装置800与上述图2方法实施例对应，能够执行图2方法实施例涉及的各个步骤，该装置800具体的功能可以参见下文中的描述，为避免重复，此处适当省略详细描述。

可选的，所述装置800包括：

获取模块810，用于获取待标注文本；

标注模块820，用于利用预设的自动标注模型对待标注文本进行标注，得到标注结果。其中，自动标注模型是通过将双向标注模型、局部特征标注模型和机器标注模型进行融合得到的，双向标注模型、局部特征标注模型和机器标注模型是通过验证集中的标准标注样本分别对初始双向标注模型、初始局部特征标注模型和初始机器标注模型进行更新得到的，初始双向标注模型、初始局部特征标注模型和初始机器标注模型是通过人工标注的人工样本数据和预设模板标注的模板数据样本进行混合得到的混合样本分别对基础双向标注模型、基础局部特征标注模型和基础机器标注模型进行训练得到的。

可选的，所述装置还包括：

训练模块，用于所述获取模块在获取待标注文本之前，获取人工标注的人工样本数据和预设模板标注的模板数据样本，其中人工样本数据远远小于模板数据样本；将人工样本数据和模板数据样本混合，得到混合样本；利用混合样本分别对基础双向标注模型、基础局部特征标注模型和基础机器标注模型进行训练，得到初始双向标注模型、初始局部特征标注模型和初始机器标注模型；利用验证集中的标准标注样本分别对初始双向标注模型、初始局部特征标注模型和初始机器标注模型进行更新，得到双向标注模型、局部特征标注模型和机器标注模型；计算双向标注模型、局部特征标注模型和机器标注模型标注数据的预测比重；根据预测比重调取双向标注模型、局部特征标注模型和机器标注模型中的模型参数并进行融合，得到自动标注模型。

可选的，训练模块具体用于：

将标准标注样本中的一个文本数据分别输入初始双向标注模型、初始局部特征标注模型和初始机器标注模型，分别得到第一标注结果、第二标注结果和第三标注结果；若第一标注结果、第二标注结果和第三标注结果中的两种标注结果相同，则将两种标注结果之外的标注结果替换成两种标注结果中的随机一种，并利用替换后的标注结果和文本数据对两种标注结果之外的标注结果对应的模型进行训练，得到述双向标注模型、局部特征标注模型和机器标注模型；若第一标注结果、第二标注结果和第三标注结果都不相同，则将文本数据删除。

请参照图9为本申请实施例中提供的一种标注数据的装置900的结构示意框图，该装置可以包括存储器910和处理器920。可选的，该装置还可以包括：通信接口930和通信总线940。该装置与上述图1方法实施例对应，能够执行图1方法实施例涉及的各个步骤，该装置具体的功能可以参见下文中的描述。

具体的，存储器910，用于存储计算机可读指令。

处理器920，用于处理存储器存储的可读指令，能够执行图1方法中的各个步骤。

通信接口930，用于与其他节点设备进行信令或数据的通信。例如：用于与服务器或者终端的通信，或者与其它设备节点进行通信，本申请实施例并不限于此。

通信总线940，用于实现上述组件直接的连接通信。

其中，本申请实施例中设备的通信接口930用于与其他节点设备进行信令或数据的通信。存储器910可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器910可选的还可以是至少一个位于远离前述处理器的存储装置。存储器910中存储有计算机可读取指令，当所述计算机可读取指令由所述处理器920执行时，电子设备执行上述图1所示方法过程。处理器920可以用于装置700上，并且用于执行本申请中的功能。示例性地，上述的处理器920可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，本申请实施例并不局限于此。

请参照图10为本申请实施例中提供的一种通过模型标注数据的装置1000的结构示意框图，该装置可以包括存储器1010和处理器1020。可选的，该装置还可以包括：通信接口1030和通信总线1040。该装置与上述图2方法实施例对应，能够执行图2方法实施例涉及的各个步骤，该装置具体的功能可以参见下文中的描述。

具体的，存储器1010，用于存储计算机可读指令。

处理器1020，用于处理存储器存储的可读指令，能够执行图2方法中的各个步骤。

通信接口1030，用于与其他节点设备进行信令或数据的通信。例如：用于与服务器或者终端的通信，或者与其它设备节点进行通信，本申请实施例并不限于此。

通信总线1040，用于实现上述组件直接的连接通信。

其中，本申请实施例中设备的通信接口1030用于与其他节点设备进行信令或数据的通信。存储器1010可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器1010可选的还可以是至少一个位于远离前述处理器的存储装置。存储器1010中存储有计算机可读取指令，当所述计算机可读取指令由所述处理器1020执行时，电子设备执行上述图2所示方法过程。处理器1020可以用于装置800上，并且用于执行本申请中的功能。示例性地，上述的处理器1020可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，本申请实施例并不局限于此。

本申请实施例还提供一种可读存储介质，所述计算机程序被处理器执行时，执行如图1或图2所示方法实施例中电子设备所执行的方法过程。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

综上所述，本申请实施例提供了标注数据的方法、通过模型标注数据的方法及装置，该方法包括，获取人工标注部分样本数据的第一数据集合；对第一数据集合中的数据进行特征提取，得到标注模板；利用标注模板对未标注的样本数据进行数据标注，得到第二数据集合。还包括，获取待标注文本；利用预设的自动标注模型对待标注文本进行标注，得到标注结果。通过该方法可以达到提高标注数据的效率的效果。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种标注数据的方法，其特征在于，包括：

获取人工标注部分样本数据的第一数据集合；

对所述第一数据集合中的数据进行特征提取，得到标注模板；

利用所述标注模板对未标注的样本数据进行数据标注，得到第二数据集合。

2.根据权利要求1所述的方法，其特征在于，在所述利用所述标注模板对未标注的样本数据进行数据标注，得到第二数据集合之后，所述方法还包括：

将所述第一数据集合和所述第二数据集合混合，得到混合数据样本；

利用所述混合数据样本分别对基础双向标注模型、基础局部特征标注模型和基础机器标注模型进行训练，得到初始双向标注模型、初始局部特征标注模型和初始机器标注模型；

利用验证集中的标准数据样本分别对所述初始双向标注模型、所述初始局部特征标注模型和所述初始机器标注模型进行更新，得到双向标注模型、局部特征标注模型和机器标注模型；

将所述双向标注模型、所述局部特征标注模型和所述机器标注模型进行融合，得到自动标注模型。

3.根据权利要求1或2所述的方法，其特征在于，所述对所述第一数据集合中的数据进行特征提取，得到标注模板，包括：

对所述第一数据集合中标注结构相同或者相似的数据进行特征提取，得到所述标注模板。

4.一种通过模型标注数据的方法，其特征在于，包括：

获取待标注文本；

利用预设的自动标注模型对所述待标注文本进行标注，得到标注结果，其中，所述自动标注模型是通过将双向标注模型、局部特征标注模型和机器标注模型进行融合得到的，所述双向标注模型、所述局部特征标注模型和所述机器标注模型是通过验证集中的标准标注样本分别对初始双向标注模型、初始局部特征标注模型和初始机器标注模型进行更新得到的，所述初始双向标注模型、所述初始局部特征标注模型和所述初始机器标注模型是通过人工标注的人工样本数据和预设模板标注的模板数据样本进行混合得到的混合样本分别对基础双向标注模型、基础局部特征标注模型和基础机器标注模型进行训练得到的。

5.根据权利要求4所述的方法，其特征在于，在所述获取待标注文本之前，所述方法还包括：

获取人工标注的所述人工样本数据和预设模板标注的所述模板数据样本；

将所述人工样本数据和所述模板数据样本混合，得到所述混合样本；

利用所述混合样本分别对所述基础双向标注模型、所述基础局部特征标注模型和所述基础机器标注模型进行训练，得到所述初始双向标注模型、所述初始局部特征标注模型和所述初始机器标注模型；

利用所述验证集中的所述标准标注样本分别对所述初始双向标注模型、所述初始局部特征标注模型和所述初始机器标注模型进行更新，得到所述双向标注模型、所述局部特征标注模型和所述机器标注模型；

计算所述双向标注模型、所述局部特征标注模型和所述机器标注模型标注数据的预测比重；

根据所述预测比重调取所述双向标注模型、所述局部特征标注模型和所述机器标注模型中的模型参数并进行融合，得到所述自动标注模型。

6.根据权利要求5所述的方法，其特征在于，所述利用所述验证集中的所述标准标注样本分别对所述初始双向标注模型、所述初始局部特征标注模型和所述初始机器标注模型进行更新，得到所述双向标注模型、所述局部特征标注模型和所述机器标注模型，包括：

将所述标准标注样本中的一个文本数据分别输入所述初始双向标注模型、所述初始局部特征标注模型和所述初始机器标注模型，分别得到第一标注结果、第二标注结果和第三标注结果；

若所述第一标注结果、所述第二标注结果和所述第三标注结果中的两种标注结果相同，则将所述两种标注结果之外的标注结果替换成所述两种标注结果中的随机一种，并利用替换后的标注结果和所述文本数据对所述两种标注结果之外的标注结果对应的模型进行训练，得到述双向标注模型、所述局部特征标注模型和所述机器标注模型；

若所述第一标注结果、所述第二标注结果和所述第三标注结果都不相同，则将所述文本数据删除。

7.一种标注数据的装置，其特征在于，包括：

特征提取模块，用于对所述第一数据集合中的数据进行特征提取，得到标注模板；

标注模块，用于利用所述标注模板对未标注的样本数据进行数据标注，得到第二数据集合。

8.一种通过模型标注数据的装置，其特征在于，包括：

获取模块，用于获取待标注文本；

标注模块，用于利用预设的自动标注模型对所述待标注文本进行标注，得到标注结果，其中，所述自动标注模型是通过将双向标注模型、局部特征标注模型和机器标注模型进行融合得到的，所述双向标注模型、所述局部特征标注模型和所述机器标注模型是通过验证集中的标准标注样本分别对初始双向标注模型、初始局部特征标注模型和初始机器标注模型进行更新得到的，所述初始双向标注模型、所述初始局部特征标注模型和所述初始机器标注模型是通过人工标注的人工样本数据和预设模板标注的模板数据样本进行混合得到的混合样本分别对基础双向标注模型、基础局部特征标注模型和基础机器标注模型进行训练得到的。

9.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-3或4-6中任一项所述方法中的步骤。

10.一种计算机可读存储介质，其特征在于，包括：

计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1-3或4-6中任一项所述的方法。