CN114091472B

CN114091472B - 多标签分类模型的训练方法

Info

Publication number: CN114091472B
Application number: CN202210063622.3A
Authority: CN
Inventors: 吉文标; 包利安; 汤灏
Original assignee: Beijing Zero Data Technology Co ltd; Beijing Zero Vision Network Technology Co ltd
Current assignee: Beijing Zero Data Technology Co ltd; Beijing Zero Vision Network Technology Co ltd
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-06-10
Anticipated expiration: 2042-01-20
Also published as: CN114091472A

Abstract

本公开的实施例提供了多标签分类模型的训练方法、装置、设备和计算机可读存储介质。所述方法包括获取政务数据样本集；对所述政务数据样本集进行预处理，将样本集中的文本信息转化为语义向量；将所述语义向量作为输入，将所有事件标签的概率值作为输出，通过BERT模型构建多标签场景损失函数，采用transformer模型作为向量特征提取表示，训练多标签分类模型。以此方式，实现了对政务数据的快速精准分类。

Description

多标签分类模型的训练方法

技术领域

本公开的实施例一般涉及模型训练技术领域，并且更具体地，涉及多标签分类模型的训练方法、装置、设备和计算机可读存储介质。

背景技术

政务信息对企业起着生死攸关的作用，企业需要时刻了解政府的各项规章制度和招标信息，抓住重要机遇，实现企业的繁荣发展。国内有很多提供招标信息的服务公司，但政务信息不仅包括招标信息，还包括经济和税收政策、行业管理办法、创新创业、产业基地建设、示范项目、招标中标、人才引进等，这些对企业来说同样至关重要。因此，对国内政务信息实行分类，从中筛选出对企业有利的信息，能够帮助企业及时了解政府发布的动态，进而调整经营战略，实现企业的长远发展。

政务信息具有时效性和长期性，目前通用的分类方法为通过关键词碰撞匹配对政务信息分类，此方法需要人工接入，且泛化能力弱，迁移能力差，不仅增加人力成本，还可能导致企业无法及时获取有效信息，对政府的政策变化来不及做出反应。

发明内容

根据本公开的实施例，提供了一种多标签分类模型的训练方案。

在本公开的第一方面，提供了一种多标签分类模型的训练方法。该方法包括：

获取政务数据样本集；

对所述政务数据样本集进行预处理，将样本集中的文本信息转化为语义向量；

将所述语义向量作为输入，将所有事件标签的概率值作为输出，通过BERT模型构建多标签场景损失函数，采用transformer模型作为向量特征提取表示，训练多标签分类模型。

进一步地，所述对所述政务数据样本集进行预处理，将样本集中的文本信息转化为语义向量包括：

对所述政务数据样本集进行分词处理，在每条文本数据的开头连接CLS标记；

对分词后的文本数据进行embedding向量化表示，得到CLS语义编码向量。

进一步地，所述多标签分类模型，采用如下损失函数作为优化目标：

其中，所述N为负样本集合；

所述P为正样本集合；

所述

为类别为i在正样本中占比得分；

所述

为类别为j在负样本中占比得分。

进一步地，

将最后一层的cls标记字符向量表示，作为下一层的输入向量：

其中，所述n为单个单词向量长度。

进一步地，还包括：

设置全连接层，将CLS语义编码向量作为所述全连接层的输入，输出维度长度为事件的类别种类个数。

进一步地，

对BERT模型进行参数蒸馏处理：

将所述BERT模型切分为X个模块，将第一模块中的多层参数层替换为正太分布初始化的一层transformer参数，得到第一模块替换层；

将第一模块替换层和其余模块，进行多标签任务微调训练，训练完成后保留第一模块的替换层参数；

重复上述步骤，对所述X个模块均完成多标签任务微调训练后，将所有模块的替换层参数进行整合，构建一个多层BERT预训练参数，完成对所述BERT模型的参数蒸馏。

在本公开的第二方面，提供了一种基于多标签分类模型的政务数据分类方法，包括：

获取政务数据；

将所述政务数据输入至已训练的多标签分类模型中，完成对所述政务数据的分类。

在本公开的第三方面，提供了一种多标签分类模型的训练装置。该装置包括：

获取模块，用于获取政务数据样本集；

处理模块，用于对所述政务数据样本集进行预处理，将样本集中的文本信息转化为语义向量；

训练模块，用于将所述语义向量作为输入，将所有事件标签的概率值作为输出，通过BERT模型构建多标签场景损失函数，采用transformer模型作为向量特征提取表示，训练多标签分类模型。

在本公开的第四方面，提供了一种电子设备。该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

在本公开的第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如根据本公开的第一方面的方法。

本申请实施例提供的多标签分类模型的训练方法，通过获取政务数据样本集；所述样本集包括带有两个互斥事件标签的正样本，和带有单个事件标签的负样本；对所述政务数据样本集进行预处理，将样本集中的文本信息转化为语义向量；将所述语义向量作为输入，将所有事件标签的概率值作为输出，通过BERT模型构建多标签场景损失函数，采用transformer模型作为向量特征提取表示，训练多标签分类模型，基于所述多标签分类模型，实现了对政务信息的精准分类。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了能够在其中实现本公开的实施例的示例性运行环境的示意图；

图2示出了根据本公开的实施例的多标签分类模型的训练方法的流程图；

图3示出了根据本公开的实施例的基于多标签分类模型的政务数据分类方法的流程图；

图4示出了根据本公开的实施例的多标签分类模型的训练装置的方框图；

图5示出了能够实施本公开的实施例的示例性电子设备的方框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1示出了可以应用本申请的多标签分类模型的训练方法或多标签分类模型的训练装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如模型训练类应用、视频识别类应用、网页浏览器应用、社交平台软件等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器（Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3）、MP4（Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4）播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块（例如用来提供分布式服务的多个软件或软件模块），也可以实现成单个软件或软件模块。在此不做具体限定。

当终端101、102、103为硬件时，其上还可以安装有视频采集设备。视频采集设备可以是各种能实现采集视频功能的设备，如摄像头、传感器等等。用户可以利用终端101、102、103上的视频采集设备来采集视频。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的数据处理的后台服务器。后台服务器可以对接收到的数据进行分析等处理，并可以将处理结果（例如分类结果）反馈给终端设备。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块（例如用来提供分布式服务的多个软件或软件模块），也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。特别地，在目标数据不需要从远程获取的情况下，上述系统架构可以不包括网络，而只包括终端设备或服务器。

如图2所示，是本申请实施例多标签分类模型的训练方法的流程图。从图2中可以看出，本实施例的多标签分类模型的训练方法，包括以下步骤：

S210，获取政务数据样本集。

在本实施例中，用于多标签分类模型的训练方法的执行主体（例如图1所示的服务器）可以通过有线方式或者无线连接的方式获取政务数据样本集。

进一步地，上述执行主体可以获取与之通信连接的电子设备（例如图1所示的终端设备）发送的政务数据样本集，也可以是预先存储于本地的政务数据样本集。

在一些实施例中，所述政务数据样本集为多标签样本集，可以为，包括带有两个互斥事件标签的正样本，和带有单个事件标签的负样本，基于上述样本训练出的模型可具有较强的泛化能力和迁移能力；

其中，所述多标签样本集的样式如下：

一、

X:某地方街道居民，来电咨询所属小区是否需要隔离，具体隔离政策；

Y: 卫生健康局;大数据监管局。

二、

X:市民来电，某中心城小区房屋带精装修，准备收房时发现装修的窗户关不严、地板不平、墙纸不平、边角翘起，跟开发商及时反映后一个月都没有收到回复；

Y: 建设局。

S220，对所述政务数据样本集进行预处理，将样本集中的文本信息转化为语义向量。

在一些实施例中，对所述政务数据样本集进行分词处理，在每条文本数据的开头连接CLS标记（[CLS]标记）；

其中，所述对所述政务数据样本集进行分词处理，包括：

通过Jieba、SnowNLP、PkuSeg、THULAC和/或HanLP对所述政务数据样本集进行分词处理。

在一些实施例中，对分词后的文本数据进行embedding向量化表示，得到CLS语义编码向量。即，将分词后的每个词用基于BERT预训练模型的特征向量表示，默认单个单词向量长度768，对每个句子进行embedding向量化表示，对文本词的相对位置编码向量表示，三种特征向量相加。

在一些实施例中，对多事件标签数据编码量化处理，样本标签类型数根据训练数据的样本范围自动化采集构建。

S230，将所述语义向量作为输入，将所有事件标签的概率值作为输出，通过BERT模型构建多标签场景损失函数，采用transformer模型作为向量特征提取表示，训练多标签分类模型。

在一些实施例中，基于预训练BERT模型构建多标签场景损失函数，进行finetuning训练。所述BERT模型采取双向transformer中的encoder模块作为向量特征提取表示；

其中，BERT包括注意力机制，能够自动化的挖掘文本中当前词和上下文中其他词的语义关联关系，并且忽略距离上的远近，从而获取的词的语义向量表示能够充分地挖掘上下文的关联信息。

进一步地，在本公开中所述transformer设置为12层，模型构建时，取最后一层的[cls]标记字符向量表示作为下一层的输入向量：

其中，所述n为单个单词向量长度，优选为768。

在一些实施例中，设置全连接层，将CLS语义编码向量作为所述全连接层的输入，输出维度长度为事件的类别种类个数。

在一些实施例中，采用如下自定义损失函数，作为优化目标：

其中，所述N为负样本集合；

所述P为正样本集合；

所述

为类别为i在正样本中占比得分；

所述

为类别为j在负样本中占比得分；

与现有损失函数相比，上述自定义损失函数，能够考虑多标签的场景情况。在多标签的场景下，上述损失函数能够进行高效拟合，并且可以规避大规模分类中的标签类别样本不平衡问题。

在一些实施例中，通过预设的蒸馏机制，对BERT模型进行参数蒸馏处理。将所述BERT模型切分为X个模块，将第一模块中的多层参数层替换为正太分布初始化的一层transformer参数，得到第一模块替换层；

具体地，在下游任务微调时针对BERT做参数蒸馏，将12层（transformer设置为12层）的BERT分成三部分，1-4层为A模块，5-8位B模块，9-12位C模块。一共分四轮训练模型，第一轮训练时，将A模块的1-4层参数替换层正太分布初始化的一层transformer参数，此时BERT总共为9层（A模块1层，B模块和C模块分别为4层），参加下游多标签任务微调训练，训练完成保留该轮A模块的替换层参数，以此类推完成第二轮B模块，第三轮C模块的替换层参数训练。第四轮训练时，取A,B，C三模块替换层的参数构建一个三层的BERT预训练参数，参加下游多标签任务的微调训练。

基于训练完成的最优蒸馏模型做推理功能，根据输入的文本数据，计算所有的所有事件标签的概率值，保留大于定义的多标签阈值，转换对应的标签，通过在多标签分类任务微调训练中，添加预训练模型的蒸馏机制，提高了分类模型的推理速度。

在一些实施例中，在进行模型训练时，进行如下设置：

epoch=40；

批次大小batch_size=16；

最大文本截取长度maxlen=410；

学习率lr=le-5；

多标签的阈值为0，在验证集时，根据最优指标替换保存最优的模型参数。

在一些实施例中，预先设置终止训练机制，当训练集模型指标达到连续10epochs不在更新最优模型时，提前终止后续的训练，用于节省GPU资源。

在一些实施例中，采用macro-averaging-f1指标，作为模型评价指标。

根据本公开的实施例，实现了以下技术效果：

通过本公开的训练方法，构建了一种应用于政务数据分类的多标签分类模型，实现了对大规模多事件标签的分类建模，可以迅速、准确的对多事项进行分类。

具体地，采用自定义的分类损失函数，在多标签分类任务中，避免了人工调整类权重和阈值的loss，同时并能自动有效解决样本不平衡问题。多标签分类任务微调训练中，添加预训练模型的蒸馏机制，提高了分类模型的推理速度。

根据本公开的另一方面，提出了一种基于多标签分类模型的政务数据分类方法，如图3所示，是本申请实施例基于多标签分类模型的政务数据分类方法的流程图。从图3中可以看出，本实施例的基于多标签分类模型的政务数据分类方法，包括：

S310，获取政务数据。

参考步骤S210中，获取政务数据样本集的方式，获取所述政务数据。

S320，将所述政务数据输入至已训练的多标签分类模型中，完成对所述政务数据的分类。

其中，所述已训练的多标签分类模型为，通过步骤S210-S230训练完成的多标签分类模型。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本公开所必须的。

以上是关于方法实施例的介绍，以下通过装置实施例，对本公开所述方案进行进一步说明。

图4示出了根据本公开的实施例的多标签分类模型的训练装置400的方框图。装置400包括：

获取模块410，用于获取政务数据样本集；

处理模块420，用于对所述政务数据样本集进行预处理，将样本集中的文本信息转化为语义向量；

训练模块430，用于将所述语义向量作为输入，将所有事件标签的概率值作为输出，通过BERT模型构建多标签场景损失函数，采用transformer模型作为向量特征提取表示，训练多标签分类模型。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图5示出了可以用来实施本公开的实施例的电子设备500的示意性框图。如图所示，设备500包括中央处理单元（CPU）501，其可以根据存储在只读存储器（ROM）502中的计算机程序指令或者从存储单元508加载到随机访问存储器（RAM）503中的计算机程序指令，来执行各种适当的动作和处理。在RAM503中，还可以存储设备500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出（I/O）接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元501执行上文所描述的各个方法和处理。例如，在一些实施例中，方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由CPU 501执行时，可以执行上文描述的方法的一个或多个步骤。备选地，在其他实施例中，CPU 501可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种多标签分类模型的训练方法，其特征在于，包括：

获取政务数据样本集；

将所述语义向量作为输入，将所有事件标签的概率值作为输出，通过已进行参数蒸馏的BERT模型构建多标签场景损失函数，采用transformer模型作为向量特征提取表示，训练多标签分类模型；

其中，对BERT模型进行参数蒸馏处理包括：

重复上述步骤，对所述X个模块均完成多标签任务微调训练后，将所有模块的替换层参数进行整合，构建一个多层BERT预训练参数，完成对所述BERT模型的参数蒸馏；

所述多标签分类模型，采用如下损失函数作为优化目标：

其中，N为负样本集合；

P为正样本集合；

S_i为类别为i在正样本中占比得分；

S_j为类别为j在负样本中占比得分。

2.根据权利要求1所述的方法，其特征在于，所述对所述政务数据样本集进行预处理，将样本集中的文本信息转化为语义向量包括：

3.根据权利要求2所述的方法，其特征在于，还包括：

其中，所述n为单个单词向量长度。

4.根据权利要求3所述的方法，其特征在于，还包括：

5.一种基于多标签分类模型的政务数据分类方法，其特征在于，包括：

获取政务数据；

将所述政务数据输入至如权利要求1-4任一项训练的多标签分类模型中，完成对所述政务数据的分类。

6.一种多标签分类模型的训练装置，其特征在于，包括：