CN113688235A

CN113688235A - 文本多标签分类方法、装置、设备及存储介质

Info

Publication number: CN113688235A
Application number: CN202110877267.9A
Authority: CN
Inventors: 詹作保; 沈维发; 陈科研
Original assignee: Guangzhou Yonglian Information Technology Co ltd
Current assignee: Guangzhou Yongzhe Information Technology Co ltd
Priority date: 2021-07-31
Filing date: 2021-07-31
Publication date: 2021-11-23

Abstract

本发明涉及文本分类技术领域，公开了一种文本多标签分类方法、装置、设备及存储介质。一种文本多标签分类方法包括：获取各计算机终端上传的包含敏感信息的可读文本文件；提取所述可读文本文件的多源信息，并对所述多源信息进行向量编码，得到多源信息向量；将所述多源信息向量输入预置文本多标签分类模型的多源信息融合网络进行公共特征提取，输出多个公共特征向量；将所述多个公共特征向量输入所述文本多标签分类模型的多头分类网络进行多标签分类，输出所述可读文本文件对应的多标签分类。本发明是一种旨在快速、自动化、无需人工接触、保密性高、能力强的分析企业敏感信息的技术，并将敏感信息文本进行多标签分类。

Description

文本多标签分类方法、装置、设备及存储介质

技术领域

本发明涉及文本分类领域，尤其涉及一种文本多标签分类方法、装置、设备及存储介质。

背景技术

传统方法针对企业的敏感信息文本多标签分类，主要策略是集中大量的本企业或领域内专家进行梳理和总结，但是，由于当下的敏感信息载体存在专业化、多态化、非结构化、分散、海量等特点。传统方法会出现以下四点缺点：一是首先不同的人员因经验因素可能在判断敏感信息上的存在专业性偏差；二是海量的特点使得分类过程的人力成本呈现指数级上升；三是分散和多态化容易照成识别的遗漏，综合上会对后续的保护和授权等动作达不到精确的目的；四是不同分类场景需要不同的专家，且单一模型无法完成不同场景的分类任务，需要不同的分类模型，严重影响着分类的速度，以及文本多标签分类场景的大规模运用。

因此，如何对企业/公司的文本进行快速而准确的多标签分类，是当前亟待解决的技术问题。

发明内容

本发明的主要目的在于解决文本多标签分类的问题。

本发明第一方面提供了一种文本多标签分类方法，包括：

获取各计算机终端上传的包含敏感信息的可读文本文件；

提取所述可读文本文件的多源信息，并对所述多源信息进行向量编码，得到多源信息向量，其中，所述多源信息包括正文、后缀、标题及文件名；

将所述多源信息向量输入预置文本多标签分类模型的多源信息融合网络进行公共特征提取，输出多个公共特征向量；

将所述多个公共特征向量输入所述文本多标签分类模型的多头分类网络进行多标签分类，输出所述可读文本文件对应的多标签分类。

可选地，所述获取各计算机终端上传的包含敏感信息的可读文本文件包括：

基于摆渡节点发送的文本读取通知，从分布式存储网络获取各计算机终端上传的包含敏感信息的可读文本文件，其中，当所述分布式存储网络接收到所述可读文本文件后通知所述摆渡节点发送所述文本读取通知。

可选地，所述提取所述可读文本文件的多源信息，并对所述多源信息进行向量编码，得到多源信息向量包括：

分别提取所述可读文本文件的正文、后缀、标题及文件名，得到所述可读文本文件的多源信息；

按照预设分词规则,对所述可读文本的多源信息进行分词处理，得到各多源信息对应的分词组，并对所述分词组中的分词进行清洗，得到选定分词组；

按照预设编码长度对各所述选定分词组进行编码，得到所述可读文本的多源信息对应的多源信息向量。

可选地，所述多源信息融合网络包括：多个感受野卷积神经网络、注意力机制网络、门控循环单元网络、注意力网络；所述感受野卷积神经网络包括输入层、卷积层、输出层；所述注意力机制网络包括多头自注意层、前馈网络层、编解码注意层；所述门控循环单元网络包括重置门、更新门；所述注意力网络包括全局池化层、归一化函数。

可选地，所述将所述多源信息向量输入预置文本多标签分类模型的多源信息融合网络进行公共特征提取，输出多个公共特征向量，包括：

将所述多源信息向量输入各所述感受野卷积神经网络，并通过所述感受野卷积神经网络对所述多源信息向量进行关联的特征提取，得到多源信息关联的特征向量，以及对所述多源信息关联的特征向量进行拼接，得到关联类型信息特征向量；

将所述关联类型信息特征向量输入到所述注意力机制网络进行特定特征提取，输出多个特定特征向量；

将多个所述特定特征向量输入到所述门控循环单元网络进行特征序列相关性的提取，输出相关性序列的特征向量；

将所述相关性序列的特征向量输入所述注意力网络与预置掩模版的参数进行向量元素对位相乘计算，输出空间维度特征向量与通道维度特征向量；

将所述空间维度特征向量和所述通道维度特征向量进行分类合并，输出多个公共特征向量。

可选地，所述多头分类网络包括：全连接层以及多个子分类网络；所述全连接层由多个神经元构成；所述子分类网络由多个卷积层构成。

可选地，所述将所述多个公共特征向量输入所述文本多标签分类模型的多头分类网络进行多标签分类，输出所述可读文本文件对应的多标签分类包括：

将多个所述公共特征向量输入所述全连接层，并通过所述全连接层对所述多个公共特征向量进行特征融合，得到多个节点特征；

将多个所述节点特征分别输入各所述子分类网络进行卷积操作，输出所述可读文本文件对应的多标签分类文本。

进一步地，为实现上述目的，本发明还提供一种文本多标签分类装置，包括：获取模块，用于获取各计算机终端上传的包含敏感信息的可读文本文件；编码模块，用于提取所述可读文本文件的多源信息，并对所述多源信息进行向量编码，得到多源信息向量，其中，所述多源信息包括正文、后缀、标题及文件名；提取模块，用于将所述多源信息向量输入预置文本多标签分类模型的多源信息融合网络进行公共特征提取，输出多个公共特征向量；分类模块，用于将所述多个公共特征向量输入所述文本多标签分类模型的多头分类网络进行多标签分类，输出所述可读文本文件对应的多标签分类，其中，所述多标签分类文本带有多个标签且各标签之间具有层级分类关系。

进一步地，为实现上述目的，本发明还提供一种文本多标签分类设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述文本多标签分类设备执行上述的文本多标签分类方法。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的文本多标签分类方法。

本发明提供的技术方案中，先获取各计算机终端上传的包含敏感信息的可读文本文件；进一步地，提取所述可读文本文件的多源信息，并对所述多源信息进行向量编码，得到多源信息向量；再将所述多源信息向量输入预置文本多标签分类模型的多源信息融合网络进行公共特征提取，输出多个公共特征向量，多源信息融合网络则可以完全依赖于注意力机制对输入输出的全局依赖关系进行建模，避免了文本全局特征难以提取的问题，也有利于分类准确性的提高；此后，将所述多个公共特征向量输入所述文本多标签分类模型的多头分类网络进行多标签分类，从而实现所述可读文本文件对应的多标签分类。

附图说明

图1为本发明实施例中文本多标签分类设备实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明实施例中文本多标签分类方法的一个实施例示意图；

图3为本发明实施例中文本多标签分类方法的另一个实施例示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种文本多标签分类设备。

如图1所示，该文本多标签分类的设备可以包括处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

本领域技术人员可以理解，图1中示出的文本多标签分类设备的硬件结构并不构成对文本多标签分类设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及指令。其中，操作系统是管理和控制文本多标签分类设备与软件资源的程序，支持网络通信模块、用户接口模块、控制程序以及其他程序或软件的运行；网络通信模块用于管理和控制网络接口1004；用户接口模块用于管理和控制用户接口1003。

在图1所示的文本多标签分类设备的硬件结构中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；处理器1001可以调用存储器1005中存储的指令，并执行以下操作：

获取各计算机终端上传的包含敏感信息的可读文本文件；

进一步地，所述获取各计算机终端上传的包含敏感信息的可读文本文件包括：

进一步地，所述提取所述可读文本文件的多源信息，并对所述多源信息进行向量编码，得到多源信息向量，处理器1001可以调用存储器1005中存储的指令，并执行以下操作：

进一步地，所述多源信息融合网络包括：多个感受野卷积神经网络、注意力机制网络、门控循环单元网络、注意力网络；所述感受野卷积神经网络包括输入层、卷积层、输出层；所述注意力机制网络包括多头自注意层、前馈网络层、编解码注意层；所述门控循环单元网络包括重置门、更新门；所述注意力网络包括全局池化层、归一化函数。

进一步地，在所述将所述多源信息向量输入预置文本多标签分类模型的多源信息融合网络进行公共特征提取，输出多个公共特征向量过程中，处理器1001可以调用存储器1005中存储的指令，并执行以下操作：

进一步地，所述多头分类网络包括：全连接层以及多个子分类网络；所述全连接层由多个神经元构成；所述子分类网络由多个卷积层构成。

进一步地，在所述将所述多个公共特征向量输入所述文本多标签分类模型的多头分类网络进行多标签分类，输出所述可读文本文件对应的多标签分类过程中，处理器1001可以调用存储器1005中存储的指令，并执行以下操作：

将多个所述节点特征分别输入各所述子分类网络进行卷积操作，输出所述可读文本文件对应的多标签分类文本，其中，所述多标签分类文本带有多个标签且各标签之间具有层级分类关系。

本发明文本多标签分类设备的实施方式与下述文本多标签分类方法各实施例基本相同，在此不再赘述。

本发明提供一种文本多标签分类方法，参照图2，图2为本发明文本多标签分类方法第一实施例的流程示意图。

本发明实施例提供了文本多标签分类方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。具体地，本实施例文本多标签分类方法包括：

步骤S10：获取各计算机终端上传的包含敏感信息的可读文本文件；

本实施例的文本多标签分类方法适用于上述文本多标签分类设备，文本多标签分类设备可以是手机、平板电脑、笔记本电脑等移动设备，也可以是台式电脑、智能电视等固定设备。通过在文本多标签分类设备部署由多源信息融合网络与多头分类网络所构建并训练形成的文本多标签分类模型，来识别公司、企事业单位的内部文本，以对文本进行多标签分类。其中，所划分的标签类别可依据需求设定，如设定包括财报文本、规章制度文本、奖惩通报文本、任命文本等各个标签类别。

具体地，先从多个公司、企事业单位获取多种类型的包含敏感信息的可读文本文件，其中，多种不同类型的包含敏感信息的可读文本文件可以是doc,docx,ppt,pptx,xls,xlsx,png,jpg,tiff,dwg,pdf中的任意一种。也因包含敏感信息文件的载体式多种类型的，所以设置一个载体格式解析库对不同类型敏感信息载体进行读取解析。

通过去中心化的分布式存储网络把可读文本文件传输到文本多标签分类模型进行分类，在可读文本文件传输到分布式存储网络后，消息节点通知文本多标签分类模型的服务器去获取可读文本文件，但是，消息节点只能发出通知却不能获取可读文本文件，其中，去中心化的分布式存储网络使计算机终端和文本多标签分类模型建立加密连接，若计算机终端为授权终端，则可以获取可读文本文件；大大提高了可读文本文件在传输和存储过程中的机密性。

步骤S20：提取所述可读文本文件的多源信息，并对所述多源信息进行向量编码，得到多源信息向量，其中，所述多源信息包括正文、后缀、标题及文件名；

进一步地：所述提取所述可读文本文件的多源信息，并对所述多源信息进行向量编码，得到多源信息向量包括：

为确保准确地进行文本多标签分类，对可读文本文件进行文本解析，将可读文本文件转换为多源信息文本，其中多源信息文本至少包含多源正文文本、后缀文本、标题文本和其他信息文本的多源信息文本，供以后模型训练使用；然后，对多源信息文本进行分词、清洗、构造词库、按照一定方法取固定长度的词和编码，得到各自的词嵌入向量，以便模型训练使用。

步骤S30：将所述多源信息向量输入预置文本多标签分类模型的多源信息融合网络进行公共特征提取，输出多个公共特征向量；

进一步地，所述将所述多源信息向量输入预置文本多标签分类模型的多源信息融合网络进行公共特征提取，输出多个公共特征向量，包括：

请参照图3，在图3中示出了一具体实施例中公共特征提取的具体过程，本实施例通过多感受野(MBM)、注意力机制网络(transformer)、门控循环单元网络(GRU)和注意力网络有效地捕捉文本的内容，利用标题概括文本的特性加权，并自适应地关注文本之间差异性较大的段落区域，大幅度提升特征提取能力和准确性。

具体编码与分类构建的具体流程如下，先对多源信息进行分词、清洗、构造词库、按照一定方法取固定长度的词、编码等操作过程，得到各自的词嵌入向量。然后引入和类别数同数量的可学习的嵌入向量，该向量的维度和多源信息产生的编码向量具有同样的维度。即是多源信息的编码彼此之间走相同的处理流程，维度一样，可以直接并列合并。MBM模块为多感受野模块。

利用多种卷积核可以增加网络的表达能力，提取不同特征结构，而且用小卷积核不至于增加网络的参数，多个小卷积核堆叠也可以具备大的感受野。Conv为1×3的卷积操作。Cat为张量的拼接操作，它将多源信息提取分支的结果拼接到一起以便后续操作。Transformer为一种新型的卷积模块操作，具备超强的特征提取与表示能力。GRU为门控循环单元，用来建模文本序列的相关性。Att为自注意力结构，通过设置一个掩模版，将掩模版与GRU模块输出作Element-Wise的乘法操作，作为最后的输出结果，在网络反向传播时可以通过梯度下降更新这个掩模版的参数。同时，在空间维度和通道维度分别进行att操作，并合并到一起。送入多头分类网络，其中每一头的分类网络是相似的，唯一区别在于最后的Conv层需要设置卷积核为分类的类别数，即n，输出敏感信息文本分类结果。

步骤S40：将所述多个公共特征向量输入所述文本多标签分类模型的多头分类网络进行多标签分类，输出所述可读文本文件对应的多标签分类。

进一步地，所述将所述多个公共特征向量输入所述文本多标签分类模型的多头分类网络进行多标签分类，输出所述可读文本文件对应的多标签分类包括：

将多个所述节点特征分别输入各所述子分类网络进行卷积操作，输出所述可读文本文件对应的多标签分类文本，其中，所述多标签分类文本带有多个标签且各标签之间具有层级分类关系。本实施例，通过多头分类网络的全连接层把之前提取到的公共特征综合起来，得到节点特征；然后通过子分类网络进行快速的文本多标签的分类，其中，各标签层级可以是一级标签、二级标签、三级标签、依次顺序至N级标签，例如分类1级标签是研发信息，那么2级标签则是被研发信息所包含的，如1-1源代码、1-2设计说明书、1-3测试报告；或者以专利的技术分类，例如以电机的技术分类为例，1级技术分类的1级标签为转子，转子的二级标签为1-1永磁同步、1-2异步电机，转子的三级标签为1-1-1铁芯结构、1-1-2铁芯材料。实现快速、自动化、无需人工接触的文本多标签分类，同时将文本多标签分类的结果传输到不同设备，以便后续的授权和加密操作，此后，预置文本多标签分类模型将可读文本文件进行删除，并通知消息摆渡节点去通知客户端模块提交撤回在去中心分布式存储网络中的可读文本文件的请求，至此完成一个安全敏感信息文本多标签分类流程。

本发明实施例还提出一种文本多标签分类装置，所述文本多标签分类装置包括：

获取模块，用于获取各计算机终端上传的包含敏感信息的可读文本文件；

编码模块，用于提取所述可读文本文件的多源信息，并对所述多源信息进行向量编码，得到多源信息向量，其中，所述多源信息包括正文、后缀、标题及文件名；

提取模块，用于将所述多源信息向量输入预置文本多标签分类模型的多源信息融合网络进行公共特征提取，输出多个公共特征向量；

分类模块，用于将所述多个公共特征向量输入所述文本多标签分类模型的多头分类网络进行多标签分类，输出所述可读文本文件对应的多标签分类。

进一步地，所述获取模块，还用于：

基于摆渡节点发送的文本读取通知，从分布式存储网络获取各计算机终端上传的包含敏感信息的可读文本文件，其中，当所述分布式存储网络接收到所述可读文本文件后通知所述摆渡节点发送所述文本读取通知

进一步地，所述获取模块，还用于：

所述多源信息融合网络包括：多个感受野卷积神经网络、注意力机制网络、门控循环单元网络、注意力网络；所述感受野卷积神经网络包括输入层、卷积层、输出层；所述注意力机制网络包括多头自注意层、前馈网络层、编解码注意层；所述门控循环单元网络包括重置门、更新门；所述注意力网络包括全局池化层、归一化函数。

进一步地，所述获取模块，还用于：

所述多头分类网络包括：全连接层以及多个子分类网络；所述全连接层由多个神经元构成；所述子分类网络由多个卷积层构成。

进一步地，所述获取模块，还用于：

本发明文本多标签分类装置具体实施方式与上述文本多标签分类方法各实施例基本相同，在此不再赘述。

本发明实施例还提出一种可读存储介质。所述可读存储介质上存储有指令，所述指令被所述处理器执行时实现如上所述文本多标签分类方法的步骤。

本发明可读存储介质可以为计算机可读存储介质，其具体实施方式与上述基于分类网络模型的文本分类方法各实施例基本相同，在此不再赘述。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

Claims

1.一种文本多标签分类方法，其特征在于，所述文本多标签分类方法包括：

获取各计算机终端上传的包含敏感信息的可读文本文件；

2.根据权利要求1所述的文本多标签分类方法，其特征在于，所述获取各计算机终端上传的包含敏感信息的可读文本文件包括：

3.根据权利要求1所述的文本多标签分类方法，其特征在于，所述提取所述可读文本文件的多源信息，并对所述多源信息进行向量编码，得到多源信息向量包括：

4.根据权利要求1所述的文本多标签分类方法，其特征在于，所述多源信息融合网络包括：多个感受野卷积神经网络、注意力机制网络、门控循环单元网络、注意力网络；所述感受野卷积神经网络包括输入层、卷积层、输出层；所述注意力机制网络包括多头自注意层、前馈网络层、编解码注意层；所述门控循环单元网络包括重置门、更新门；所述注意力网络包括全局池化层、归一化函数。

5.根据权利要求4所述的文本多标签分类方法，其特征在于，所述将所述多源信息向量输入预置文本多标签分类模型的多源信息融合网络进行公共特征提取，输出多个公共特征向量，包括：

6.根据权利要求1-5中任一项所述的文本多标签分类方法，其特征在于，所述多头分类网络包括：全连接层以及多个子分类网络；所述全连接层由多个神经元构成；所述子分类网络由多个卷积层构成。

7.根据权利要求6所述的文本多标签分类方法，其特征在于，所述将所述多个公共特征向量输入所述文本多标签分类模型的多头分类网络进行多标签分类，输出所述可读文本文件对应的多标签分类包括：

8.一种文本多标签分类装置，其特征在于，所述文本多标签分类装置包括：

9.一种文本多标签分类设备，其特征在于，所述文本多标签分类设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述文本多标签分类设备执行如权利要求1-7中任意一项所述的文本多标签分类方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述的文本多标签分类方法。