CN110362822A

CN110362822A - 用于模型训练的文本标注方法、装置、计算机设备及存储介质

Info

Publication number: CN110362822A
Application number: CN201910524497.XA
Authority: CN
Inventors: 汪杰; 高远
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2019-10-22
Anticipated expiration: 2039-06-18
Also published as: CN110362822B

Abstract

本发明公开了用于模型训练的文本标注方法、装置、计算机设备及存储介质，涉及文本处理技术领域。本发明通过建立与待标注文本样本关联的任务表单，从而方便于对标注数据进行统一管理；获取待标注文本样本根据待标注文本样本对任务数据进行标注，并对已标注文本样本的任务数据进行审核，从而保证标注数据的准确性；将审核通过的任务数据的任务列表及对应的已标注文本样本生成训练数据，以便于根据训练数据对数据集模型训练，从而提高模型训练的精准度，本发明可采用区块链实现对任务表单的加密存储。

Description

用于模型训练的文本标注方法、装置、计算机设备及存储介质

技术领域

本发明涉及文本处理技术领域，尤其涉及用于模型训练的文本标注方法、装置、计算机设备及存储介质。

背景技术

目前在文本处理领域常用的技术手段主要是：利用大规模的人工标注样本作为训练文本，对神经网络模型进行训练，以便于利用训练后的神经网络模型对待处理的文本数据进行处理，从而提高处理效率。神经网络模型的训练结果与人工标注样本的数量及标注准确性直接相关。目前获得文本人工标注数据的方法主要通过专门的标注人员、外包或众包的方式人工对文本进行标注。但是，由于文本标注是一项枯燥、简单重复的劳动，长时间的枯燥标注容易出现标注错误，且用时长、效率低。

发明内容

针对现有的人工标注样本容易出现错误存在误差的问题，现提供一种旨在可提高标注准确性、用时短、效率高的用于模型训练的文本标注方法、装置、计算机设备及存储介质。

为实现上述目的，本发明提供一种用于模型训练的文本标注方法，包括下述步骤：

S1.建立一任务表单，所述任务表单中的每一条任务数据关联一幅待标注文本样本的标识号；

S2.根据所述任务表单中所述任务数据关联的标识号从所述存储单元中提取与所述标识号对应的所述待标注文本样本；

S3.对所述待标注文本样本进行文本识别获取文本语义数据，对所述文本语义数据进行分类，并根据分类结果生成标签，将所述标签添加至所述待标注文本样本关联的任务数据中；

S4.对已标注文本样本的任务数据进行审核；

S5.将审核通过的所述任务数据的任务列表及对应的所述已标注文本样本生成训练数据，结束。

优选的，所述任务数据包括：标注类型和语料标签；

所述标注类型包括：文本对话类，和/或文本比对类，和/或分词类，和/或语句分类；

在所述步骤S1中建立与至少一个待标注文本样本关联的任务表单，包括：

根据待标注文本样本的类型选择相应的标注类型建立与待标注文本样本关联的任务表单。

优选的，当所述待标注文本样本对应的标注类型为文本对话类时，所述待标注文本样本为一段文本对话，每一段文本对话对应一条任务数据；

在所述步骤S3包括：

所述文本对话中每一句话对应一语料标签；

分别依据每一句话的内容选择相应的语料标签。

优选的，当所述待标注文本样本对应的标注类型为文本比对类时，所述待标注文本样本为一对句子，每一对句子对应一条任务数据；

在所述步骤S3包括：

依据每一对句子的内容是否相同选择相应的语料标签。

优选的，当所述待标注文本样本对应的标注类型为语句分类时，所述待标注文本样本为一个句子，每一个句子对应一条任务数据；

在所述步骤S3包括：

依据所述句子的内容选择相应的语料标签。

优选的，当所述待标注文本样本对应的标注类型为分词类时，所述待标注文本样本为一个句子，每一个句子对应一条任务数据；

在所述步骤S3包括：

依据所述句子中的词语词性选择相应的语料标签。

优选的，还包括：

S6.将审核未通过的所述任务数据进行标记；

S7.修改经标记后的所述任务数据，返回执行步骤S3。

为实现上述目的，本发明还提供一种用于模型训练的文本标注装置，其特征在于，包括：

存储单元，用于存储至少一个待标注文本样本；

建立单元，用于建立一任务表单，所述任务表单中的每一条任务数据关联一幅待标注文本样本的标识号；

提取单元，用于根据所述任务表单中所述任务数据关联的标识号从所述存储单元中提取与所述标识号对应的所述待标注文本样本；

标注单元，用于对所述待标注文本样本进行文本识别获取文本语义数据，对所述文本语义数据进行分类，并根据分类结果生成标签，将所述标签添加至所述待标注文本样本关联的任务数据中；

审核单元，用于对已标注文本样本的任务数据进行审核；

生成单元，用于将审核通过的所述任务数据的任务列表及对应的所述已标注文本样本生成训练数据。

为实现上述目的，本发明还提供一种计算机设备，其包括多个计算机设备，各计算机设备包括存储器.处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述多个计算机设备的处理器执行所述计算机程序时实现上述方法的步骤。

为实现上述目的，本发明还提供一种计算机可读存储介质，其包括多个存储介质，各存储介质上存储有计算机程序，所述多个存储介质存储的所述计算机程序被处理器执行时实现上述方法的步骤

本发明提供的用于模型训练的文本标注方法、装置、计算机设备及存储介质，通过建立与待标注文本样本关联的任务表单，从而方便于对标注数据进行统一管理；获取待标注文本样本根据待标注文本样本对任务数据进行标注，并对已标注文本样本的任务数据进行审核，从而保证标注数据的准确性；将审核通过的任务数据的任务列表及对应的已标注文本样本生成训练数据，以便于根据训练数据对数据集模型训练，从而提高模型训练的精准度、用时短且效率高。

附图说明

图1为本发明所述的用于模型训练的文本标注方法实施例一的方法流程图；

图2为本发明所述的用于模型训练的文本标注装置实施例二的模块图；

图3为本发明所述的计算机设备一实施例的硬件架构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的用于模型训练的文本标注方法、装置、计算机设备及存储介质，适用于保险业务领域，为标注人员提供一种具有统计标注人员标注准确率及工作效率的任务管理方法。本发明通过建立与待标注文本样本关联的任务表单，从而方便于对标注数据进行统一管理；获取待标注文本样本根据待标注文本样本对任务数据进行标注，并对已标注文本样本的任务数据进行审核，从而保证标注数据的准确性；将审核通过的任务数据的任务列表及对应的已标注文本样本生成训练数据，以便于根据训练数据对数据集模型训练，从而提高模型训练的精准度。

实施例一

请参阅图1，本实施例的一种用于模型训练的文本标注方法，提供一存储单元，用于存储至少一个待标注文本样本，包括下述步骤：

其中，所述任务数据可包括：标注类型和语料标签，每条任务数据可包括一个语料标签或多个语料标签；

进一步地，所述标注类型可包括：文本对话类，和/或文本比对类，和/或分词类，和/或语句分类；

在所述步骤S1中建立一任务表单，所述任务表单中的每一条任务数据关联一幅待标注文本样本的标识号，包括：

所述任务表单为预设模板，所述预设模板包括多条任务数据，逐条将任务数据与存储单元中的每一待标注文本样本的标识号进行关联，从而生成任务表单。在本步骤中，根据待标注文本样的类型选择相应的标注类型建立与至少一个待标注文本样本关联的任务表单。

需要说明的是：与同一任务表单关联的待标注文本样的数据类型为同一类型，相应的同一任务表单中的标注类型为同一类型。一个任务表单中可关联多个待标注文本样本。

在本步骤中，文本对话类对应的待标注文本样本是指两个对象互相对话的一段对话文，与文本对话类对应的语料标签可以是与保险相关的内容，如：理赔金额、理赔条件、优惠活动、保险年限、保险金额、保险类型等；文本对话类的待标注文本样本可是预先存储的文本样本，也可是预先将音频信息转换为文本数据的样本。文本比对类对应的待标注文本样本是指两个句子(即：一对句子)，与文本比对类对应的语料标签可以是表示相关度的内容，如：相似、不相似，相同、不相同等。分词类对应的待标注文本样本是指一个句子，与分词类对应的语料标签可以是与语法类词语相关的内容，如：主语、谓语、宾语、定语、状语等。语句分类对应的待标注文本样本是指一个句子，与语句分类对应的语料标签可以是体现语句内容所涉及的领域或体现语句表示的情感的内容，如：体育、娱乐、科技、房产、车险、人身保险、好评、差评、中评等。

上述的四种类型文本样本可以是同一种数据格式，也可以是不同的数据格式。

在实际应用中，可通过管理服务器基于大量的待标注文本样本(如：100段对话)建立一任务表单，其中，每段对话在该任务表单中对应一条任务数据。可根据待标注文本样本的不同的类型，建立相应的任务表单。

在本步骤中，为了避免接收到的待标注文本样本存在异常，如：格式不符合预设要求或格式不匹配无法加载等，可先对待标注文本样本进行预处理，将其转换为标准格式的文本，以便于后续对该待标注文本样本进行语义识别。

当所述待标注文本样本对应的标注类型为文本对话类时，所述待标注文本样本为一段文本对话，每一段文本对话对应一条任务数据；在所述步骤S3可包括：

所述文本对话中每一句话对应一语料标签；分别依据每一句话的内容选择相应的语料标签。

作为举例而非限定，以客户与坐席的一段文本对话为例，通过文本识别逐句识别每句话的内容以获取相应的文本语义数据，采用分类器对文本语义数据进行分类，从而获取与该句话对应的语料标签，采用该语料标签标注该对话的意图，例如通过语义识别分类后得知：第1句、第2句、第4句、第7句的内容核心语义与理赔条件有关就可将相应的第1句、第2句、第4句、第7句标注为理赔条件的语料标签；第3句、第5句、第6句、第8句的内容核心语义与理赔金额有关就可将相应的第3句、第5句、第6句、第8句标注为理赔金额的语料标签。

当所述待标注文本样本对应的标注类型为文本比对类时，所述待标注文本样本为一对句子，每一对句子对应一条任务数据；在所述步骤S3可包括：

依据每一对句子的内容是否相同选择相应的语料标签。

在本步骤中，进行标签标注时需采用文本识别对每个句子分别进行语义识别以生成文本语义数据，再判断两个文本语义数据是否相同，若是，则可标记为相同的语料标签；若否，则可标记为不相同的语料标签。

当所述待标注文本样本对应的标注类型为语句分类时，所述待标注文本样本为一个句子，每一个句子对应一条任务数据；在所述步骤S3的具体过程可包括：

依据所述句子的内容选择相应的语料标签。

在本步骤中，进行标注时需判断一句话中所表达的内容涉及哪一领域，或判断一句话中所表达的内容属于哪一种情绪表达以便于标注语句的意图，如：体育类、娱乐类、科技类、房产类、车险类、人身保险类、好评、差评、中评等，根据领域或情绪选择相应的标签进行标注。

当所述待标注文本样本对应的标注类型为分词类时，所述待标注文本样本为一个句子，每一个句子对应一条任务数据；在所述步骤S2中根据所述待标注文本样本对所述任务数据进行标注的具体过程可包括：

依据所述句子中的词语词性选择相应的语料标签。

在本实施例中，进行标注时需对待标注文本样本进行分析，提取文本句子中的主语、谓语、宾语等，以便于标注语句的意图。

在步骤S3中通过标注客户端对待标注文本样本进行标注。

S4.对已标注文本样本的任务数据进行审核；

在本步骤中，为了提高标注的准确性，当完成标注后，可对已标注文本样本的任务数据进行审核具体地，所述步骤S4可包括：

采用隐马尔可夫模型对已标注文本样本的任务数据进行审核，判断所述已标注样本图片的任务数据与经已标注文本样本获取的任务数据是否一致。

隐马尔可夫模型中状态是不直接可见的，但输出依赖于该状态下，是可见的。每个状态通过可能的输出记号有了可能的概率分布。因此，通过一个HMM产生标记序列提供了有关状态的一些序列的信息。需要说明的是"隐藏"指的是，该模型经其传递的状态序列，而不是模型的参数；即使这些参数是精确已知的，仍把该模型称为一个"隐藏"的马尔可夫模型。

S5.将审核通过的所述任务数据的任务列表及对应的所述已标注文本样本生成训练数据。

具体地，在任务表单中提取所有审核通过的任务数据，生成一任务列表，逐个将所述任务列表中的每一条任务数据及与该任务数据对应的标识号对应的已标注文本样本关联生成训练数据，以供后续的文本模型进行训练。

S6.将审核未通过的所述任务数据进行标记；

S7.修改经标记后的所述任务数据，返回执行步骤S3。

在本实施例中，若任务数据未通过审核，则对该任务数据进行标记，并将该标注数据返回至标注任务中，重新标注，完成标注后，再对任务数据重新审核，以保证任务数据的准确性。

在本实施例中，通过建立与至少一个待标注文本样本关联的任务表单，从而方便于对标注数据进行统一管理；获取待标注文本样本根据待标注文本样本对任务数据进行标注，并对已标注文本样本的任务数据进行审核，从而保证标注数据的准确性；将审核通过的任务数据的任务列表及对应的已标注文本样本生成训练数据，以便于根据训练数据对数据集模型训练，从而提高模型训练的精准度。

实施例二

请参阅图2，本实施例的一种用于模型训练的文本标注装置2，包括：建立单元21、标注单元22、审核单元23、生成单元24、存储单元25和提取单元26，其中：

存储单元25，用于存储至少一个待标注文本样本；

建立单元21，用于建立一任务表单，所述任务表单中的每一条任务数据关联一幅待标注文本样本的标识号；所述任务数据包括：标注类型和语料标签；所述标注类型包括：文本对话类，和/或文本比对类，和/或分词类，和/或语句分类；采用建立单元21根据待标注文本样的类型选择相应的标注类型建立与至少一个待标注文本样本关联的任务表单。

提取单元26，用于根据所述任务表单中所述任务数据关联的标识号从所述存储单元中提取与所述标识号对应的所述待标注文本样本；

标注单元22，用于对所述待标注文本样本进行文本识别获取文本语义数据，对所述文本语义数据进行分类，并根据分类结果生成标签，将所述标签添加至所述待标注文本样本关联的任务数据中；

当所述待标注文本样本对应的标注类型为文本对话类时，所述待标注文本样本为一段文本对话，每一段文本对话对应一条任务数据；所述文本对话中每一句话对应一语料标签；分别依据每一句话的内容选择相应的语料标签；

当所述待标注文本样本对应的标注类型为文本比对类时，所述待标注文本样本为一对句子，每一对句子对应一条任务数据；依据每一对句子的内容是否相同选择相应的语料标签。

当所述待标注文本样本对应的标注类型为语句分类时，所述待标注文本样本为一个句子，每一个句子对应一条任务数据；依据所述句子的内容选择相应的语料标签。

当所述待标注文本样本对应的标注类型为分词类时，所述待标注文本样本为一个句子，每一个句子对应一条任务数据；依据所述句子中的词语词性选择相应的语料标签。

审核单元23，用于对已标注文本样本的任务数据进行审核；

生成单元24，用于将审核通过的所述任务数据的任务列表及对应的所述已标注文本样本生成训练数据。

在实际应用中，可通过管理服务器基于大量的待标注文本样本(如：100段对话)建立一任务表单，其中，每段对话在该任务表单中对应一条任务数据。可根据待标注文本样本的不同的类型，建立相应的任务表单。对待标注文本样本进行文本识别获取文本语义数据，对文本语义数据进行分类，并根据分类结果生成标签，将所述标签添加至所述待标注文本样本关联的任务数据中进行标注，标注完成后，可将审核通过的任务数据的任务列表及关联的已标注文本样本生成训练数据供后续的文本模型进行训练。

需要说明的是：可通过管理服务器对任务表单进行监控管理，从而了解标注进度，完成情况，标注准确率等；可通过标注客户端对完成的标注任务及正在标注的任务进行管理修改。通过分级管理的方式保证了数据的安全性。

本技术方案可基于区块链实现，利用区块链数据库作为区块存储系统，将建立单元21建立的任务表单在区块链数据库中的节点存储进行加密，由验证节点验证任务表单的加密是否成功，以证明该任务表单确实由区块链数据库中的某一节点所对应的证明用户端所上传。

实施例三：

为实现上述目的，本发明还提供一种计算机设备，该计算机设备3包括多个计算机设备3，实施例二的用于模型训练的文本标注装置2的组成部分可分散于不同的计算机设备3中，计算机设备3可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备3至少包括但不限于：可通过系统总线相互通信连接的存储器31、处理器32、网络接口33以及用于模型训练的文本标注装置2(参考图3)。需要指出的是，图3仅示出了具有组件-的计算机设备3，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，所述存储器31至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器31可以是计算机设备3的内部存储单元，例如该计算机设备3的硬盘或内存。在另一些实施例中，存储器31也可以是计算机设备3的外部存储设备，例如该计算机设备3上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器31还可以既包括计算机设备3的内部存储单元也包括其外部存储设备。本实施例中，存储器31通常用于存储安装于计算机设备3的操作系统和各类应用软件，例如实施例一的用于模型训练的文本标注装置2的程序代码等。此外，存储器31还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器32在一些实施例中可以是中央处理器32(Central Processing Unit，CPU)、控制器、微控制器、微处理器32、或其他数据处理芯片。该处理器32通常用于控制计算机设备3的总体操作例如执行与所述计算机设备3进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器32用于运行所述存储器31中存储的程序代码或者处理数据，例如运行所述的用于模型训练的文本标注装置2等。

所述网络接口33可包括无线网络接口33或有线网络接口33，该网络接口33通常用于在所述计算机设备3与其他计算机设备3之间建立通信连接。例如，所述网络接口33用于通过网络将所述计算机设备3与外部终端相连，在所述计算机设备3与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(Wideband Code DivisionMultiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图3仅示出了具有部件31-33的计算机设备3，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器31中的所述用于模型训练的文本标注装置2还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器31中，并由一个或多个处理器32(本实施例为处理器32)所执行，以完成本发明。

实施例四：

为实现上述目的，本发明还提供一种计算机可读存储介质，其包括多个存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器32执行时实现相应功能。本实施例的计算机可读存储介质用于存储用于模型训练的文本标注装置2，被处理器32执行时实现实施例一的用于模型训练的文本标注方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种用于模型训练的文本标注方法，其特征在于，提供一存储单元，用于存储至少一个待标注文本样本，包括下述步骤：

S3.对所述待标注文本样本进行文本识别获取文本语义数据，对所述文本语义数据进行分类，并根据分类结果生成标签，将所述标签添加至所述待标注文本样本关联的任务数据中；S4.对已标注文本样本的任务数据进行审核；

2.根据权利要求1所述的用于模型训练的文本标注方法，其特征在于，所述任务数据包括：标注类型和语料标签；

3.根据权利要求2所述的用于模型训练的文本标注方法，其特征在于，当所述待标注文本样本对应的标注类型为文本对话类时，所述待标注文本样本为一段文本对话，每一段文本对话对应一条任务数据；

在所述步骤S3包括：

所述文本对话中每一句话对应一语料标签；

分别依据每一句话的内容选择相应的语料标签。

4.根据权利要求2所述的用于模型训练的文本标注方法，其特征在于，当所述待标注文本样本对应的标注类型为文本比对类时，所述待标注文本样本为一对句子，每一对句子对应一条任务数据；

在所述步骤S3包括：

依据每一对句子的内容是否相同选择相应的语料标签。

5.根据权利要求2所述的用于模型训练的文本标注方法，其特征在于，当所述待标注文本样本对应的标注类型为语句分类时，所述待标注文本样本为一个句子，每一个句子对应一条任务数据；

在所述步骤S3包括：

依据所述句子的内容选择相应的语料标签。

6.根据权利要求2所述的用于模型训练的文本标注方法，其特征在于，当所述待标注文本样本对应的标注类型为分词类时，所述待标注文本样本为一个句子，每一个句子对应一条任务数据；

在所述步骤S3包括：

依据所述句子中的词语词性选择相应的语料标签。

7.根据权利要求1所述的用于模型训练的文本标注方法，其特征在于，还包括：

S6.将审核未通过的所述任务数据进行标记；

S7.修改经标记后的所述任务数据，返回执行步骤S3。

8.一种用于模型训练的文本标注装置，其特征在于，包括：

存储单元，用于存储至少一个待标注文本样本；

审核单元，用于对已标注文本样本的任务数据进行审核；

9.一种计算机设备，所述计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。