CN113672729A

CN113672729A - 敏感信息文本分类方法、装置、设备及存储介质

Info

Publication number: CN113672729A
Application number: CN202110877272.XA
Authority: CN
Inventors: 詹作保; 郭永聪; 陈科研
Original assignee: Guangzhou Yonglian Information Technology Co ltd
Current assignee: Guangzhou Yongzhe Information Technology Co ltd
Priority date: 2021-07-31
Filing date: 2021-07-31
Publication date: 2021-11-19

Abstract

本发明涉及文本分类技术领域，公开了一种敏感信息文本的分类方法、装置、设备以及存储介质。敏感信息文本的分类方法包括：接收摆渡节点发送的文本读取通知；从分布式存储网络获取各计算机终端上传的包含敏感信息的可读文本文件；提取可读文本文件的多源信息，并对多源信息进行向量编码，得到多源信息向量；将多源信息向量输入预置文本分类模型的多源信息融合网络进行公共特征提取，输出多个公共特征向量；对多个公共特征向量进行卷积操作，得到文本分类结果。本发明通过由多源信息提取与特征杂糅机制和注意力机制并结合卷积神经网络和循环神经网络构建的文本分类模型对敏感信息文本进行分类，实现敏感信息文本的准确分类。

Description

敏感信息文本分类方法、装置、设备及存储介质

技术领域

本发明涉及文本分类技术领域，尤其涉及一种敏感信息文本分类方法、装置、设备及存储介质。

背景技术

敏感信息文本分类主要是指通过海量文本，基于某类敏感要素来分类与该要素有关的文本，敏感信息的识别和分类是企业数据安全及商业秘密管理的核心内容。通过对不同类型的数据进行甄别，识别其中存在的敏感信息，并对包含这些敏感信息的文本进行分类，为后续文本的定级、保护、授权等提供准确依据。

针对企业的敏感信息文本分类，传统方法和策略是集中利用大量的本企业或领域内专家对企业文本进行梳理和总结。但是当下的敏感信息具有载体专业化、多态化、非结构化、分散、海量等特点，企业在进行敏感信息文本分类主要存在以下几点困难：一是不同的专业人员因经验因素的差异，可能造成敏感信息判断上的专业性偏差；二是海量的文本信息使得分类过程中人力成本呈现指数级上升，造成人工成本过高；三是分散和多态化容易造成识别的遗漏，造成分类结果不精确。综上所述，传统的文本分类方法不能满足企业现在对敏感信息文本分类的需求。

随着互联网的不断发展和进步，特别是随着卷积神经网络(Convolution NeuralNetwork,CNN)和循环神经网络(Recurrent Neural Network,RNN)为代表的深度学习技术的发展，基于文本信息的网络服务已经深入到人们生活的各个方面。互联网的自然语言处理技术中，神经网络非常适用于处理文本信息，而且各种用于文本分类任务的神经网络算法也层出不穷，但这些算法由于丢失了文本中词出现的先后顺序信息，仅将词语符号化，没有考虑词之间的语义联系，而难以提取到文本的全局特征，往往不能很好地将卷积神经网络和循环神经网络的优点结合。企业的敏感信息文本会存在由于撰写人写法习惯不同而使得文本写法具有不规范性；企业内部包含敏感信息的文本有着非常丰富的行业信息、行业的专有名词的频繁干扰；综上需要增强文本分类方法对文本信息的特征提取和表达，进而实现企业敏感信息文本的分类。

发明内容

本发明的主要目的在于提供一种敏感信息文本分类方法，旨在解决企业敏感信息文本分类不精准的技术问题。

为实现上述目的，本发明提供一种敏感信息文本分类方法，其特征在于，所述敏感信息文本分类方法步骤包括：

接收摆渡节点发送的文本读取通知；

基于所述文本读取通知，从分布式存储网络获取各计算机终端上传的包含敏感信息的可读文本文件；

提取所述可读文本文件的多源信息，并对所述多源信息进行向量编码，得到多源信息向量，其中，所述多源信息包括正文、后缀、标题及文件名；

将所述多源信息向量输入预置文本分类模型的多源信息融合网络进行公共特征提取，输出多个公共特征向量；

对多个所述公共特征向量进行卷积操作，得到文本分类结果。

可选的，在本发明第一方面的第一种实现方式中，所述分布式存储网络包括多种格式解析库，所述格式解析库用于将各计算机终端上传的包含敏感信息的文本信息解析为可读文本文件；

所述格式解析库可解析的文本格式包括doc、docx、ppt、pptx、xls、xlsx、png、jpg、tiff、dwg、pdf中的一种或多种。

可选的，在本发明第一方面的第一种实现方式中，所述分布式存储网络与各所述计算机终端采用加密授权机制进行通信。

可选的，在本发明第一方面的第一种实现方式中，所述提取所述可读文本文件的多源信息，并对所述多源信息进行向量编码，得到多源信息向量包括：

分别提取所述可读文本文件的正文、后缀、标题及文件名，得到所述可读文本文件的多源信息；

按照预设分词规则,对所述可读文本的多源信息进行分词处理，得到各多源信息对应的分词组，并对所述分词组中的分词进行清洗，得到选定分词组；

按照预设编码长度对各所述选定分词组进行编码，得到所述可读文本的多源信息对应的多源信息向量。

可选的，在本发明第一方面的第一种实现方式中，所述多源信息融合网络包括：多个感受野卷积神经网络、注意力机制网络、门控循环单元网络、注意力网络；所述感受野卷积神经网络包括输入层、卷积层、输出层；所述注意力机制网络包括多头自注意层、前馈网络层、编解码注意层；所述门控循环单元网络包括重置门、更新门；所述注意力网络包括全局池化层、归一化函数。

可选的，在本发明第一方面的第一种实现方式中，所述将所述多源信息向量输入预置文本分类模型的多源信息融合网络进行公共特征提取，输出多个公共特征向量包括：

将所述多源信息向量输入各所述感受野卷积神经网络，并通过所述感受野卷积神经网络对所述多源信息向量进行关联的特征提取，得到多源信息关联的特征向量，以及对所述多源信息关联的特征向量进行拼接，得到关联类型信息特征向量；

将所述关联类型信息特征向量输入到所述注意力机制网络进行特定特征提取，输出多个特定特征向量；

将多个所述特定特征向量输入到所述门控循环单元网络进行特征序列相关性的提取，输出相关性序列的特征向量；

将所述相关性序列的特征向量输入所述注意力网络与预置掩模版的参数进行向量元素对位相乘计算，输出空间维度特征向量与通道维度特征向量；

将所述空间维度特征向量和所述通道维度特征向量进行分类合并，输出多个公共特征向量。

本发明第二方面提供了一种敏感信息文本分类装置，其特征在于，所述敏感信息文本分类装置包括：

信息接收模块，用于接收摆渡节点发送的文本读取通知；

文本解析模块，用于基于所述文本读取通知，从分布式存储网络获取各计算机终端上传的包含敏感信息的可读文本文件；

多源信息编码模块，用于提取所述可读文本文件的多源信息，并对所述多源信息进行向量编码，得到多源信息向量，其中，所述多源信息包括正文、后缀、标题及文件名；

分类模块，用于将所述多源信息向量输入预置文本分类模型的多源信息融合网络进行公共特征提取，输出多个公共特征向量；对多个所述公共特征向量进行卷积操作，得到文本分类结果。

可选的，在本发明第二方面的第一种实现方式中，所述多源信息融合网络包括感受野卷积神经网络、注意力机制网络、门控循环单元网络和注意力网络。

本发明第三方面提供了一种敏感信息文本分类设备，其特征在于，所述敏感信息文本分类设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的控制程序，所述控制程序控制所述处理器执行实现上述敏感信息文本分类方法的敏感信息文本分类的步骤。

本发明第四方面提供了一种可读存储介质，其特征在于，所述可读存储介质上存储有控制程序，所述控制程序被处理器执行时实现上述敏感信息文本分类方法的敏感信息文本分类的步骤。

本发明提供的技术方案中，利用多源信息提取与特征杂糅机制和注意力机制并结合卷积神经网络和循环神经网络来构建文本分类模型，可有效地捕捉文本的内容，利用标题概括文本的特性加权，并自适应地关注文本之间差异性较大的段落区域，能够大幅度提升卷积神经网络的特征提取和表达能力，实现对敏感信息文本的准确分类。

附图说明

一个或多个实施例通过与之对应的附图进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1为本发明敏感信息文本分类方法一实施例的流程示意图；

图2为本发明中多源信息融合网络的结构示意图；

图3为本发明中感受野的结构示意图；

图4为本发明敏感信息文本分类设备一实施例的结构示意图。

具体实施方式

本发明实施例提供了一种敏感信息文本分类方法、装置、设备及存储介质。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供了文本分类管理管理方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。请参阅图1，本发明实施例敏感信息文本分类方法包括：

步骤S10，接收摆渡节点发送的文本读取通知；

本实施例敏感信息文本分类方法适用于企业敏感信息文本的分类，为了预防搭载分类模型的服务器被入侵或中心化控制的问题，导致可读文本的转化结果被获取，我们这里引入了一个消息摆渡机制，摆渡节点为文本信息的中转站。本发明方法接收到敏感信息文本分类的需求后，所述摆渡节点对所述文本读取通知进行信息传输并向下一级传递该文本读取通知。

步骤S20，基于所述文本读取通知，从分布式存储网络获取各计算机终端上传的包含敏感信息的可读文本文件；

具体地，当获得文本读取通知，为了敏感信息文本的有效识别，防止发生信息的遗漏，分布式存储网络会对承载企业敏感信息文本载体的计算机终端进行全面的采集。企业敏感文本信息载体的种类各式各样，载体格式包括后缀为doc,docx,ppt,pptx,xls,xlsx,png,jpg,tiff,dwg,pdf等等。对不同格式的敏感信息载体往往需要安装不同的软件进行读取，显示，人工解译和人工分类。计算机虽然对数值计算有很强大的能力，但是在这种载体的格式多样，难以有统一的载体解析工具情景下，计算机强大的计算能力不能发挥作用，需要将各种载体的文本转化为可以被计算机识别的可读文本。本发明通过细致的调查和研究，整合了多项已有的载体的格式解析库，实现了将不同类型敏感信息载体读取解析为可读的文本文件供后续分类模型的使用。所述可读文本文件指仅含有可读文字的文本文件，所述可读文本包括正文、后缀、标题以及文件名，其中正文指文本文件的正文内容，后缀指解析前原文件的后缀，标题指文本文件的标题，文件名指文本文件的文件名。

步骤S30，提取所述可读文本文件的多源信息，并对所述多源信息进行向量编码，得到多源信息向量，其中，所述多源信息包括正文、后缀、标题及文件名；

具体地，多源信息融合可以极大程度挖掘可读文本不同结构中的信息，显著提高分类的准确度。

步骤S40，将所述多源信息向量输入预置文本分类模型的多源信息融合网络进行公共特征提取，输出多个公共特征向量；

步骤S50，对多个所述公共特征向量进行卷积操作，得到文本分类结果。

具体地，本发明实施例可以从海量的文本中识别具有敏感信息因素的分类文本结果，所述敏感信息可能包括有企业的生产信息，设备信息，设计信息，软件程序，采购信息，人力资源，客户信息，研发信息，管理决策，营销信息，财务信息，采购经营等，经过方法分类可以便捷精准地获得针对某些敏感要素的文本的分类结果。

分类结果完成后，分类模型服务器的网络微服务模块将分类结果传递到不同管理应用供后续授权、加密等场景使用。同时将文本转换结果进行自动删除，并通知消息摆渡节点，摆渡节点接收到信息后通知客户端模块，自动提交撤回在去中心化分布式存储网络中的文本转换结果，至此完成安全计算敏感信息分类流程。

具体地，所述分布式存储网络包括多种格式解析库，所述格式解析库用于将各计算机终端上传的包含敏感信息的文本信息解析为可读文本文件；所述格式解析库可解析的文本格式包括doc、docx、ppt、pptx、xls、xlsx、png、jpg、tiff、dwg、pdf中的一种或多种。所述格式解析库能够将企业各种格式的文本文件转化为可读文件，在充分利用计算机卓越的计算性能下，同时提高信息采集的全面性，防止因为信息文本格式不能被读取解析而造成的数据结果不全面。

具体地，所述分布式存储网络与各所述计算机终端采用加密授权机制进行通信。通过步骤S20即经过可读文本的转化后，需要将其转换结果送入模型网络进行分类，由于文本内容仍然包含可见的文字信息，因此会涉及到企业商业机密问题，为保证可读文本转化结果不被无意的泄露或恶意窃取，对所述分布式存储网络与各所述计算机终端采用加密授权机制进行通信，所述分布式存储网络采用私有密钥认证模式搭建与TCP/IP应用层，该密钥算法可为RSA加密算法、也可为SM2等国产加密算法的任一种。该步骤能够实现非授权终端即使可以与授权网络的终端进行通信，也无法获取终端上文本转换存储结果，大大提升可读文本传输和存储过程的机密性。

进一步地，所述提取所述可读文本文件的多源信息，并对所述多源信息进行向量编码，得到多源信息向量包括：

进一步地，所述多源信息融合网络包括：多个感受野卷积神经网络、注意力机制网络、门控循环单元网络、注意力网络；所述感受野卷积神经网络包括输入层、卷积层、输出层；所述注意力机制网络包括多头自注意层、前馈网络层、编解码注意层；所述门控循环单元网络包括重置门、更新门；所述注意力网络包括全局池化层、归一化函数。

进一步地，所述将所述多源信息向量输入预置文本分类模型的多源信息融合网络进行公共特征提取，输出多个公共特征向量包括：

其中所述多源信息融合网络的网络结构如图2所述，其中MBM即为感受野模块(模块结构如图3所述)。Conv为1×3的卷积操作。Cat为张量的拼接操作，它将多源信息提取分支的结果拼接到一起以便后续操作。Transformer为一种新型的卷积模块操作，具备超强的特征提取与表示能力。GRU为门控循环单元，用来建模文本序列的相关性。Att为自注意力结构，通过设置一个掩模版，将掩模版与GRU模块输出作Element-Wise的乘法操作，作为最后的输出结果，在网络反向传播时可以通过梯度下降更新这个掩模版的参数。同时，我们在空间维度和通道维度分别进行att操作，并合并到一起。最后的Conv层需要设置卷积核为分类的类别数，最终输出敏感信息文本分类结果。

上述图1是本发明方法的一种实施例，此外本发明实施例还提供的一种敏感信息文本分类装置，所述敏感信息文本分类装置包括：

信息接收模块，用于接收摆渡节点发送的文本读取通知；

进一步地，所述多源信息编码模块包括感受野卷积神经网络、注意力机制网络、门控循环单元网络和注意力网络。

本发明敏感信息文本分类装置利用上述模块从而实现在海量的文本文件中进行敏感信息文本的分类。

如图4本发明实施例提供了一种敏感信息文本分类设备，所述敏感信息文本分类设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的控制程序，所述控制程序控制所述处理器执行实现上述各实施例中的所述敏感信息文本分类方法的步骤。

如图4所示，敏感信息文本分类终端包括处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏、输入单元比如键盘、鼠标等，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

本领域技术人员可以理解，图4中示出的敏感信息文本分类设备的硬件结构并不构成对敏感信息文本分类设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图4所示，作为一种可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及控制程序。其中，操作系统是管理和控制敏感信息文本分类设备与软件资源的程序，支持网络通信模块、用户接口模块、控制程序以及其他程序或软件的运行；网络通信模块用于管理和控制网络接口1004；用户接口模块用于管理和控制用户接口1003。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述敏感信息文本分类方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种敏感信息文本分类方法，其特征在于，所述敏感信息文本分类方法步骤包括：

接收摆渡节点发送的文本读取通知；

2.根据权利要求1所述的敏感信息文本分类方法，其特征在于，所述分布式存储网络包括多种格式解析库，所述格式解析库用于将各计算机终端上传的包含敏感信息的文本信息解析为可读文本文件；

3.根据权利要求1所述的敏感信息文本分类方法，其特征在于，所述分布式存储网络与各所述计算机终端采用加密授权机制进行通信。

4.根据权利要求1所述的敏感信息文本分类方法，其特征在于，所述提取所述可读文本文件的多源信息，并对所述多源信息进行向量编码，得到多源信息向量包括：

5.根据权利要求1-4中任一项所述的敏感信息文本分类方法，其特征在于，所述多源信息融合网络包括：多个感受野卷积神经网络、注意力机制网络、门控循环单元网络、注意力网络；所述感受野卷积神经网络包括输入层、卷积层、输出层；所述注意力机制网络包括多头自注意层、前馈网络层、编解码注意层；所述门控循环单元网络包括重置门、更新门；所述注意力网络包括全局池化层、归一化函数。

6.根据权利要求5所述的敏感信息文本分类方法，其特征在于，所述将所述多源信息向量输入预置文本分类模型的多源信息融合网络进行公共特征提取，输出多个公共特征向量包括：

7.一种敏感信息文本分类装置，其特征在于，所述敏感信息文本分类装置包括：

信息接收模块，用于接收摆渡节点发送的文本读取通知；

8.根据权利要求7所述的敏感信息文本分类装置，其特征在于，所述多源信息编码模块包括感受野卷积神经网络、注意力机制网络、门控循环单元网络和注意力网络。

9.一种敏感信息文本分类设备，其特征在于，所述敏感信息文本分类终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的控制程序，所述控制程序控制所述处理器执行实现如权利要求1-6中任一项所述的敏感信息文本分类的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有控制程序，所述控制程序被处理器执行时实现如权利要求1-6中任一项所述的敏感信息文本分类的步骤。