CN110413775A

CN110413775A - 一种数据打标签分类方法、装置、终端及存储介质

Info

Publication number: CN110413775A
Application number: CN201910556460.5A
Authority: CN
Inventors: 孙瑛瑛; 陈生; 闫刚; 楚国庆; 金竹; 刘洋
Original assignee: Beijing Boda Data Technology Co Ltd
Current assignee: Beijing Boda Data Technology Co Ltd
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-11-05

Abstract

本发明公开了一种数据打标签分类方法、装置、终端及存储介质，该方法包括：对已打标签文本进行预处理，分别生成词向量训练集和BERT语言训练集；分别通过所述词向量训练集对多种神经网络模型中的每种进行训练，且通过所述BERT语言训练集对BERT分类模型进行训练；根据训练结果确定融合模型；根据所述融合模型对目标数据进行打标签分类。本发明提供的数据打标签分类方法、装置、终端及存储介质，可以对海量数据进行打标签分类，提高了分类的准确性。

Description

一种数据打标签分类方法、装置、终端及存储介质

技术领域

本发明涉及数据打标签分类技术领域，特别涉及一种数据打标签分类方法、装置、终端及存储介质。

背景技术

文字是现在社会最主要的传播媒介手段，可收集的海量数据，用户往往不能全部都阅读，需要对数据打标签分类，以方便用户关注自己感兴趣或需要的内容。例如：经销商推出一款新产品，想了解产品在市场上的效应和评价，那么会收集海量数据，对于这些海量数据，有产品信息介绍相关的，有用户体验相关的，有售后评价相关的，需要对数据打标签处理，以便把不同的信息分发到不同的部门来处理。

现有技术中，打标签方法通常为人工来进行，其过程和结果严重依赖用户的知识与经验，准确性及可重复性存在不稳定状态，而且面对海量数据，也需要消耗大量的人工。

发明内容

本发明提供一种数据打标签分类方法、装置、终端及存储介质，可以对海量数据进行打标签分类，提高了分类的准确性。

第一方面，本发明实施例提供了一种数据打标签分类方法，包括：

对已打标签文本进行预处理，分别生成词向量训练集和BERT语言训练集；

分别通过所述词向量训练集对多种神经网络模型中的每种进行训练，且通过所述BERT语言训练集对BERT分类模型进行训练；

根据训练结果确定融合模型；

根据所述融合模型对目标数据进行打标签分类。

优选地，所述对已打标签文本进行预处理，分别生成词向量训练集和BERT语言训练集，具体为：对已打标签文本进行脱敏处理，对脱敏处理后的数据用word2vec或elmo或glove训练模型进行训练得到词向量训练集，用BERT预训练模型对已打标签文本进行训练得到BERT语言训练集。

优选地，所述多种神经网络模型包括DPcnn、textcnn、RNN、Bi-lstm和Bi-GRU神经网络中的至少两种。

优选地，所述根据训练结果确定融合模型，具体为：通过对每种神经网络模型的训练结果以及对BERT分类模型的训练结果，对模型进行平均或加权融合，确定融合模型。

优选地，所述根据训练结果确定融合模型后，还包括步骤：通过测试集对所述融合模型进行测试，根据测试结果对所述融合模型进行优化，确定优化融合模型，对应的，根据所述优化融合模型对目标数据进行打标签分类。

优选地，还包括步骤：对所述测试结果进行评估，对应的，若评估达到预设值，用所述优化融合模型对目标数据进行打标签分类。

第二方面，本发明实施例提供了一种数据打标签分类装置，包括：

训练集生成模块，用于对已打标签文本进行预处理，分别生成词向量训练集和BERT语言训练集；

训练模块，用于分别通过所述词向量训练集对多种神经网络模型中的每种进行训练，且通过所述BERT语言训练集对BERT分类模型进行训练；

模型确定模块，用于根据训练结果确定融合模型；

打标签分类模块，用于根据所述融合模型对目标数据进行打标签分类。

优选地，还包括模型优化模块，用于通过测试集对所述融合模型进行测试，根据测试结果对所述融合模型进行优化，确定优化融合模型，对应的，所述打标签分类模块用于根据所述优化融合模型对目标数据进行打标签分类。

第三方面，本申请实施例提供了一种终端，包括：一个或多个处理器、一个或多个存储器；所述一个或多个存储器与所述一个或多个处理器耦合，所述一个或多个存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，所述终端执行上述的数据打标签分类方法。

第四方面，本申请实施例提供了计算机存储介质，包括计算机指令，当所述计算机指令在终端上运行时，使得所述终端执行上述的数据打标签分类方法。

采用上述技术方案，先通过已打标签文本生成词向量训练集和BERT语言训练集；分别通过该词向量训练集对多种神经网络模型中的每种进行训练，且通过该BERT语言训练集对BERT分类模型进行训练；根据训练结果确定融合模型；根据该融合模型就可以对目标数据进行打标签分类。该方案克服了现有人工打标签方法效率低下的问题，及准确度严重依赖知识经验的弊端，通过深度学习，使用计算机算法实现，大大提升速度、效率及其适用场景。

附图说明

图1为本发明实施例提供的数据打标签分类方法的流程图；

图2为本发明实施例提供的数据打标签分类装置的结构框图；

图3为本发明实施例提供的数据打标签分类装置的另一结构框图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

第一方面，如图1所示，本申请实施例提供了一种数据打标签分类方法，包括：

步骤S101、对已打标签文本进行预处理，分别生成词向量训练集和BERT语言训练集；

首先采集原始文本，对原始文本进行人工打标签，得到已打标签文本。对已打标签文本分别进行预处理，可以得到两个训练集，一个为词向量训练集，一个为BERT语言训练集。

步骤S102、分别通过词向量训练集对多种神经网络模型中的每种进行训练，且通过BERT语言训练集对BERT分类模型进行训练；

可以选择多种神经网络模型，对选择的多种神经网络模型中的每种通过词向量训练集进行训练，得到训练结果。并且通过BERT语言训练集对BERT分类模型进行训练，得到另一训练结果。

进一步地，可以在训练阶段使用K-Fold法，在训练集中再分出一部分做为验证(Validation)集，用来评估模型的训练效果。

验证集取自训练集，但不参与训练，这样可以相对客观的评估模型对于训练集之外数据的匹配程度。模型在验证数据中的评估常用的是交叉验证，又称循环验证。它将原始数据分成K组(K-Fold)，将每个子集数据分别做一次验证集，其余的K-1组子集数据作为训练集，这样会得到K个模型。这K个模型分别在验证集中评估结果，最后的误差MSE(MeanSquared Error)加和平均就得到交叉验证误差。交叉验证有效利用了有限的数据，并且评估结果能够尽可能接近模型在测试集上的表现，可以做为模型优化的指标使用。

步骤S103、根据训练结果确定融合模型；

根据上述的训练结果，对多种训练过的模型进行选择融合，生成融合模型。

比如训练过3个神经网络模型，和BERT分类模型，可以根据训练结果的好坏，选择融合其中一个神经网络模型和BERT分类模型，也可以融合其中两种神经网络模型，或者4种全部进行融合，本申请对此并不进行限制。

步骤S104、根据融合模型对目标数据进行打标签分类。

确定融合模型后，将采集的目标数据作为输入样本，输入融合模型后，即可得到打标签分类的结果。

优选地，对已打标签文本进行预处理，分别生成词向量训练集和BERT语言训练集，具体为：对已打标签文本进行脱敏处理，对脱敏处理后的数据用word2vec或elmo或glove训练模型进行训练得到词向量训练集，用BERT预训练模型对已打标签文本进行训练得到BERT语言训练集。

对语言符号元素的表达，越准确的表达对模型越有利。

数据脱敏，指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护。这样就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。

自然语言是一套用来表达含义的复杂系统。在这套系统中，词是表义的基本单元。顾名思义，词向量是用来表示词的向量，也可被认为是词的特征向量。

词向量可以通过基于语言模型的方式来获取。

语言模型旨在为语句的联合概率函数P(w1,...,wT)建模,其中wi表示句子中的第i个词。语言模型的目标是，希望模型对有意义的句子赋予大概率，对没意义的句子赋予小概率。

语言模型包括word2vec、elmo和glove模型，可以针对这三种模型中的一种对脱敏处理后的数据进行训练，生成词向量训练集。

BERT模型是谷歌提出的基于双向Transformer构建的语言模型。BERT模型和ELMo有大不同，在之前的预训练模型(包括word2vec，ELMo等)都会生成词向量，这种类别的预训练模型属于domain transfer。而BERT属于模型迁移。

BERT模型是将预训练模型和下游任务模型结合在一起的，也就是说在做下游任务时仍然是用BERT模型，而且天然支持文本分类任务，在做文本分类任务时不需要对模型做修改。

通过BERT模型对已打标签文本进行训练，得到BERT语言训练集。

优选地，多种神经网络模型包括DPcnn、textcnn、RNN、Bi-lstm和Bi-GRU神经网络中的至少两种。

定义网络模型，选取深度学习模型，尝试循环神经网络和卷积神经网络以及他们的变种，训练的时候使用深层网络结构，会尝试对几个模型做一个双向结构，从根本意义上来说，这样做可以提高记忆网络的能力，让神经网络从文本正序倒序两个方向观察语言。其中，多种神经网络模型可以为DPcnn、textcnn、RNN、Bi-lstm和Bi-GRU神经网络模型。

在实际运用过程中，如果原始文本为短文本，即文本字数不超过一定字数，则可以使用textcnn神经网络模型，如果原始文本为长文本，即文本字数超过一定字数，则可以使用使用Bi-lstm神经网络模型。如果已打标签文本数量少于预设阈值，则可以使用Bi-GRU神经网络模型，如果已打标签文本数量超过某一数值，则可以用Bi-lstm神经网络模型。并且在该阶段，还可以配合使用BERT分类模型做模型融合。

在训练阶段，需要进行参数的一些配置。

具体的参数配置：按重要性，loss weight：第一步按分类标签数据量传入类别比例作为参数，第二步输入每条数据的重要性学习目的自适应loss weight，每条文本长度、关键词、均值等作为每条数据参考的loss weight设置标准。Batch size、epoch等参数可以利用网格搜索式自动化调整。

优选地，根据训练结果确定融合模型，具体为：通过对每种神经网络模型的训练结果以及对BERT分类模型的训练结果，对模型进行平均或加权融合，确定融合模型。

模型融合的结合策略：基本学习器学习完后，需要将各个模型进行融合，可以选择平均法或投票法(加权法)进行模型融合。

平均法有一般的评价和加权平均。对于平均法来说一般用于回归预测模型中，在Boosting系列融合模型中，一般采用的是加权平均融合。

投票法：有绝对多数投票(得票超过一半)，相对多数投票(得票最多)，加权投票。

实际中，可以将常用网络结构差异性较大的几个模型进行融合，比如可以将textcnn、Bi-lstm、BERT等几个模型调优，之后把几个模型的结果加权平均，或者按一定权重调配，目的在实验测试集上达到最优。

优选地，根据训练结果确定融合模型后，还包括步骤：通过测试集对融合模型进行测试，根据测试结果对融合模型进行优化，确定优化融合模型，对应的，根据优化融合模型对目标数据进行打标签分类。

其中，优化方案包括数据均衡处理，采样，设置训练权重(仅仅只在训练过程中使用)。

优选地，还包括步骤：对测试结果进行评估，对应的，若评估达到预设值，用优化融合模型对目标数据进行打标签分类。

评估有多种方式，对应任务要选取对应的评估办法，通过制定几个模型评估的算法，之后在对此任务选取最适合的评估算法，有F1score、Accuracy等指标，最终人工验证一批数据作为最后确认。

该方案通过深度学习技术，对原始文本数据进行训练、优化、验证，模型更为科学合理，结果不断得到改善，并达到一定准确度。

另外，对不同平台的数据需要采用不同的策略，比如论坛数据和网页文章需要区分开来，分别做分类模型。

第二方面，如图2所示，本申请实施例提供了一种数据打标签分类装置，包括：

训练集生成模块21，用于对已打标签文本进行预处理，分别生成词向量训练集和BERT语言训练集；

训练模块22，用于分别通过词向量训练集对多种神经网络模型中的每种进行训练，且通过BERT语言训练集对BERT分类模型进行训练；

模型确定模块23，用于根据训练结果确定融合模型；

打标签分类模块24，用于根据融合模型对目标数据进行打标签分类。

优选地，如图2所示，还包括模型优化模块25，用于通过测试集对融合模型进行测试，根据测试结果对融合模型进行优化，确定优化融合模型，对应的，打标签分类模块24用于根据优化融合模型对目标数据进行打标签分类。

优选地，如图3所示，还包括评估模块26，用于对测试结果进行评估，对应的，若评估达到预设值，打标签分类模块24用于通过该优化融合模型对目标数据进行打标签分类。

第三方面，本申请实施例提供了一种终端，包括：一个或多个处理器、一个或多个存储器；所述一个或多个存储器与所述一个或多个处理器耦合，所述一个或多个存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，所述终端执行如上述的数据打标签分类方法。

上述存储器可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compactdisc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器用于存储执行本申请方案的应用程序代码，并由处理器来控制执行。处理器用于执行存储器中存储的应用程序代码，从而实现本专利方法中的功能。

在具体实现中，作为一种实施例，处理器可以包括一个或多个CPU。

在具体实现中，作为一种实施例，该终端可以包括多个处理器。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

第四方面，本申请实施例提供了计算机存储介质，其上存储计算机指令，当所述计算机指令在终端上运行时，使得所述终端执行如上述的数据打标签分类方法。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种数据打标签分类方法，其特征在于，包括：

根据训练结果确定融合模型；

根据所述融合模型对目标数据进行打标签分类。

2.根据权利要求1所述的数据打标签分类方法，其特征在于，所述对已打标签文本进行预处理，分别生成词向量训练集和BERT语言训练集，具体为：对已打标签文本进行脱敏处理，对脱敏处理后的数据用word2vec或elmo或glove训练模型进行训练得到词向量训练集，用BERT预训练模型对已打标签文本进行训练得到BERT语言训练集。

3.根据权利要求1所述的数据打标签分类方法，其特征在于，所述多种神经网络模型包括DPcnn、textcnn、RNN、Bi-lstm和Bi-GRU神经网络中的至少两种。

4.根据权利要求1所述的数据打标签分类方法，其特征在于，所述根据训练结果确定融合模型，具体为：通过对每种神经网络模型的训练结果以及对BERT分类模型的训练结果，对模型进行平均或加权融合，确定融合模型。

5.根据权利要求1-4任一项所述的数据打标签分类方法，其特征在于，所述根据训练结果确定融合模型后，还包括步骤：通过测试集对所述融合模型进行测试，根据测试结果对所述融合模型进行优化，确定优化融合模型，对应的，根据所述优化融合模型对目标数据进行打标签分类。

6.根据权利要求5所述的数据打标签分类方法，其特征在于，还包括步骤：对所述测试结果进行评估，对应的，若评估达到预设值，用所述优化融合模型对目标数据进行打标签分类。

7.一种数据打标签分类装置，其特征在于，包括：

模型确定模块，用于根据训练结果确定融合模型；

8.根据权利要求7所述的数据打标签分类装置，其特征在于，还包括模型优化模块，用于通过测试集对所述融合模型进行测试，根据测试结果对所述融合模型进行优化，确定优化融合模型，对应的，所述打标签分类模块用于根据所述优化融合模型对目标数据进行打标签分类。

9.一种终端，其特征在于，包括：一个或多个处理器、一个或多个存储器；所述一个或多个存储器与所述一个或多个处理器耦合，所述一个或多个存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，所述终端执行如权利要求1-6任一项所述的数据打标签分类方法。

10.一种计算机存储介质，其特征在于，包括计算机指令，当所述计算机指令在终端上运行时，使得所述终端执行如权利要求1-6任一项所述的数据打标签分类方法。