CN110727643B

CN110727643B - 一种基于机器学习的文件分类管理方法及系统

Info

Publication number: CN110727643B
Application number: CN201910875130.2A
Authority: CN
Inventors: 高志勇; 喻波; 王志海; 李永刚; 安鹏
Original assignee: Beijing Wondersoft Technology Co Ltd
Current assignee: Beijing Wondersoft Technology Co Ltd
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2022-04-19
Anticipated expiration: 2039-09-16
Also published as: CN110727643A

Abstract

本发明提供一种基于机器学习的文件分类管理方法及系统，所述系统包括：第三方业务系统、智能分类分级系统、数据文件存储系统、数据文件使用方系统。所述智能分类分级系统，扫描监听上传的文件，解析描述文件，利用AI分级分类模块进行分类、分级，对分类分级结果进行加密，进行机器学习，之后进行二次分类、分级，再由所述敏感数据分析及加密模块抓取敏感数据，并对所述敏感数据进行二次加密，将加密后的数据文件上传到数据文件存储系统。根据本发明的方案，能够使数据文件的安全性及使用效率得到保证。数据文件中的数据经过敏感数据分析模块的分析与计算，敏感数据被二次加密，大大增加了企业、单位对数据文件使用的便捷性和安全性。

Description

一种基于机器学习的文件分类管理方法及系统

技术领域

本发明涉及文件处理领域，尤其涉及一种基于机器学习的文件分类管理方法及系统。

背景技术

近年，随着信息网络技术飞速发展，信息化在各行各业得到了深入应用与发展。数据作为信息传输的实际载体，其重要性也随着行业信息化的发展逐渐凸显。为了保证数据的安全，现有技术多是对数据进行文件写入后对文件加密存储处理，为了防止数据存储与传输过程中出现安全隐患，进行传输的数据也多为加密处理的数据。

随着各个行业的数据文件通过第三方业务系统将数据文件进行存储，积累了海量的数据文件，各个数据文件使用方对数据文件的检索与应用显得尤为繁琐且效率低下，并对数据文件管理方的服务器资源(如CPU、硬盘IO及内存)造成极大的压力，严重时可能会使服务宕机甚至造成不可挽回的损失。鉴于此行业内对数据文件进行基于密级、数据类型等规则进行分类处理，以便数据文件的使用方能快速的从海量数据文件中检索到需要的文件。

但现有技术中通常都是采用如图1所示的系统提取数据文件的描述文件以及内容关键字对数据文件进行分类处理并进行加密处理。现有技术中的这种对数据文件的分类处理方式处理效率低、分类准确性有一定的错误率，也会给数据文件的使用者造成一定的业务损失和较差的用户体验。

发明内容

为解决上述技术问题，本发明提出了一种基于机器学习的文件分类管理方法及系统，所述方法及系统，用以解决现有技术中数据文件的分类处理方式处理效率低、分类准确性有一定的错误率的技术问题。

根据本发明的第一方面，提供一种基于机器学习的智能分类分级系统，包括：

定时扫描模块、文件解压模块、解析文件模块，AI分级分类模块、加密模块、二次分类模块、敏感数据分析及加密模块、文件上传模块、日志模块、机器学习模块；

所述定时扫描模块实时监听所述第三方业务系统上传的最新数据文件消息，监听到消息后将所述消息发送给所述文件解压模块；

所述文件解压模块接收到所述定时扫描模块发送的消息，下载压缩文件包并对所述压缩文件包进行解压；

所述解析文件模块，用于对解压后的所述数据文件进行解析，并提取关键字；

所述AI分级分类模块，使用智能分类模型进行分级分类；利用所述智能分类模型，基于所述数据文件的文件描述信息及提取到的关键字对所述数据文件进行分级分类；基于分级分类结果，所述智能分类模型进行机器学习；

所述加密模块用于根据所述数据文件所属的不同密级使用加密算法生成不同密级的加密文件；

所述二次分类模块使用经过机器学习优化后的智能分类模型并对所述AI分级分类模块的分级分类结果再次进行分级分类；基于分级分类结果，所述智能分类模型进行机器学习；

所述敏感数据分析及加密模块，使用敏感数据分析模型对所述数据文件进行解析，用于按照特征匹配的方式确定敏感数据并加密所述敏感数据；

所述文件上传模块用于上传加密文件到所述数据文件存储系统的文件服务器；

所述日志模块用于记录文件存储情况、敏感数据二次加密情况；

所述机器学习模块用于对每进行一次所述数据文件处理后得到的分级分类结果作为样本进行机器学习，并优化所述智能分类模型。

进一步地，所述敏感数据分析及加密模块利用已学习到的敏感数据集从输入的所述数据文件中按照特征匹配的方式确定敏感数据，进而抓取敏感数据，并标记抓取到的敏感数据，将标记的敏感数据根据相应的加密算法进行二次加密，并将所述敏感数据的二次加密日志上传至日志模块。

根据本发明第二方面，提供一种基于机器学习的文件分类管理系统，所述系统包括第三方业务系统、如前所述的智能分类分级系统、数据文件存储系统、数据文件使用方系统；

所述第三方业务系统生成数据文件，将所述数据文件提交至所述第三方业务系统后台，所述第三方业务系统后台获取所述数据文件并将所述数据文件及与其对应的描述文件压缩成压缩包文件，并将所述压缩包文件上传至所述智能分级分类系统；

所述数据文件存储系统用于存储进行分类分级后的所述数据文件的加密文件；

所述数据文件使用方系统检索加密的数据文件，调用算法对已分类的所述数据文件进行检索。

根据本发明第三方面，提供一种第三方业务系统向如前所述的智能分级分类系统上传数据文件的方法，所述方法包括：

S101：实时监听上传数据，监听器实时监听所述第三方业务系统上传的最新数据文件消息，监听到后将所述消息告知文件解压模块；

S102：获得定时扫描模块的推送的消息，下载压缩包文件并将所述压缩包文件推送给文件解压模块；

S103：解压所述压缩包文件；

S104：解析描述文件，对解压后的描述文件进行解析，提取所述数据文件的关键字。

根据本发明第四方面，提供一种如前所述的智能分类分级系统的智能分类分级方法，所述方法包括：

S401：利用所述智能分类模型，基于所述数据文件的文件描述信息及提取到的关键字对所述数据文件进行AI智能文件分级分类；

S402：根据所述数据文件的AI智能文件分级分类结果进行加密；得到的分级分类结果作为样本进行机器学习；

S403：使用智能分类模型并根据所述数据文件的密级再次进行分级分类；得到的分级分类结果作为样本进行机器学习；

S404：使用敏感数据分析模型对所述数据文件进行解析，按照特征匹配的方式确定敏感数据，进而抓取敏感数据，并标记抓取到的敏感数据，将标记的敏感数据根据相应的加密算法进行二次加密。

根据本发明第五方面，提供一种如前所述的文件分类管理系统的文件分类方法，其特征在于，所述方法包括：

S501：所述第三方业务系统准备业务数据，将所述业务数据进行组装以生成文件；将原数据文件及描述文件压缩成新文件压缩包，并调用上传接口上述新文件压缩包；

S502：所述智能分类分级系统扫描监听上传的文件，将获得的所述新文件压缩包进行解压，并解析所述描述文件，利用AI分级分类模块进行分类、分级，对分类分级结果进行加密，机器学习模块进行机器学习，对所述AI分级分类模块的分级分类结果再次进行分级分类，机器学习模块再次进行机器学习；再由所述敏感数据分析及加密模块抓取敏感数据，并对所述敏感数据进行二次加密，将加密后的数据文件上传到数据文件存储系统，并记录日志；

S503：所述数据文件存储系统存储所述加密后的数据文件，并返回状态码，所述智能分类分级系统记录日志信息；

S504：所述数据文件使用方发送检索消息，根据分类分级模式检索到所需文件并使用。

根据本发明第六方面，提供一种智能分类分级系统，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如前所述的基于智能分类分级系统的文件智能分类分级方法。

根据本发明第七方面，提供一种计算机可读存储介质，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如前所述的基于智能分类分级系统的文件智能分类分级方法。

根据本发明第八方面，提供一种文件分类系统，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如前所述的基于文件分类管理系统的文件分类方法。

根据本发明第九方面，提供一种计算机可读存储介质，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如前所述的基于文件分类管理系统的文件分类方法。

根据本发明的上述方案，能够有效的在应用系统中管理海量数据文件，并使数据文件的安全性及使用效率得到了保证。通过机器学习优化模型快速精准的分析数据文件，数据文件中的数据又经过敏感数据分析模块的分析与计算，敏感数据被二次加密，大大增加了企业、单位对数据文件使用的便捷性和安全性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明提供如下附图进行说明。在附图中：

图1为现有技术对数据文件进行分类处理并进行加密处理的系统架构图；

图2为本发明一个实施方式的基于机器学习的文件分类管理系统总体架构的总体架构图；

图3为本发明一个实施方式的定时扫描第三方业务系统上传数据文件的流程图；

图4为本发明的智能分级分类及优化智能分类模型的方法流程图；

图5为本发明的基于机器学习的文件分类管理系统的文件分类方法流程图；

图6示为本发明的一个实施方式的基于机器学习的文件分类管理系统结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先结合图2说明本发明的基于机器学习的文件分类管理系统总体架构，图2示出了根据本发明的一个实施方式的基于机器学习的文件分类管理系统总体架构图。如图2所示：

所述基于机器学习的文件分类管理系统包括第三方业务系统、智能分类分级系统、数据文件存储系统、数据文件使用方系统。

所述智能分类分级系统使用基于机器学习的模型对所述数据文件进行分级分类。所述智能分类分级系统包括定时扫描模块、文件解压模块、解析文件模块，AI分级分类模块、加密模块、二次分类模块、敏感数据分析及加密模块、文件上传模块、日志模块、机器学习模块。

所述AI分级分类模块、二次分类模块均基于智能分类模型对数据文件进行分类。所述智能分类模型基于具有分类类别的训练集进行机器学习，该智能分类模型第一次使用零次学习(Zero-shot Learning)，对未在训练集中出现过的文件分类类别进行训练，当第一次有类别出现后将该类别加入训练集，之后继续学习，以此类推得到不断优化的智能分类模型。所述AI分级分类模块基于所述智能分类模型对所述数据文件进行分级分类处理。

所述智能分类模型基于具有分类类别的训练集进行机器学习，该机器学习有两种学习方法，分别为判别式分类和生成式分类。对于已知模式x，求分类类别y的条件概率p(y|x)最大的类别：

条件概率改写为y的函数:

联合概率p(x,y)和后验概率p(y|x)成正比,故直接求联合概率最大值即可:

条件概率p(y|x)也称后验概率,联合概率p(x,y)也称数据生成概率，直接对后验概率p(y|x)学习的过程称为判别式分类。通过预测数据生成概率p(x,y)学习的过程称为生成式分类。

所述定时扫描模块实时监听所述第三方业务系统上传的最新数据文件消息，监听到消息后将所述消息发送给所述文件解压模块。

所述智能分类分级系统获取由所述第三方业务系统上传的数据文件压缩包。

所述文件解压模块接收到所述定时扫描模块发送的消息，下载压缩文件包并对所述压缩文件包进行解压。

所述解析文件模块，用于对解压后的所述数据文件进行解析，并提取关键字。

所述AI分级分类模块，使用智能分类模型进行分级分类及数据分析。利用所述智能分类模型，基于所述数据文件的文件描述信息及提取到的关键字对所述数据文件进行分级分类，即将所述数据文件按照类别进行分类，将相类似的数据文件归集到一类，并对已分类的数据文件再按密级进行分级。

基于分类、分级结果，所述智能分类模型进行机器学习，用以优化所述智能分类模型。

所述加密模块用于根据所述数据文件所属的不同密级使用不同加密算法生成不同密级的加密文件。

对于低密级的数据文件使用低级的加密方式，对于高密级的数据文件使用高级的加密方式，具体的加密算法可以根据企业自己研发的加密算法或通用的加密算法确定。

所述二次分类模块使用经过机器学习优化后的智能分类模型并对所述AI分级分类模块的分级分类结果再次进行分级分类。

由于所述AI分级分类模块分级分类后会进行一次机器学习，经过学习的智能分类模型更加优化完善，所以二次分类模块分级分类后得到的结果将会更加准确。

所述敏感数据分析及加密模块，用于分析敏感数据并加密所述敏感数据。

所述敏感数据分析及加密模块，使用敏感数据分析模型对所述数据文件进行解析。所述敏感数据分析模型与智能分类模型构成旁路模型分析模式，经过二次分类模型处理后的数据文件作为所述敏感数据分析及加密模块的输入，所述敏感数据分析及加密模块通过对每一次数据文件处理生命周期中的大量数据，按照大数据深度学习方法，获取敏感数据特征，通过不断的学习，获得敏感数据集。敏感数据分析及加密模块利用已学习到的敏感数据集从输入的所述数据文件中按照特征匹配的方式确定敏感数据，进而抓取敏感数据，并标记抓取到的敏感数据，将标记的敏感数据根据相应的加密算法进行二次加密，并将所述敏感数据的二次加密日志上传至日志模块。

所述文件上传模块用于上传加密文件到所述数据文件存储系统的文件服务器。将所述数据文件进行细致化分类后，所述文件上传模块根据分类结果将加密的数据文件按照分类分层级的方式存储文件到数据文件存储系统中。

所述日志模块用于记录文件存储情况、敏感数据二次加密情况。

所述机器学习模块用于对每进行一次所述数据文件处理后得到的分级分类结果作为样本进行机器学习，以便于使模型更优化，所述数据文件的分类更精准和高效。使用机器学习模块优化所述智能分类模型，直到所述智能分类模型精准度进一步地提高。

所述第三方业务系统用于上传数据文件，所述第三方业务系统生成数据文件，将所述数据文件提交至所述第三方业务系统后台，所述第三方业务系统后台获取所述数据文件并将所述数据文件及与其对应的描述文件压缩成压缩包文件，并将所述压缩包文件上传至所述智能分级分类系统。所述压缩包文件上传成功后，在所述第三方业务系统的日志系统中记录上传成功日志。

所述数据文件存储系统用于存储进行分类分级后的所述数据文件的加密文件。

所述数据文件使用方系统检索加密的数据文件，调用算法对已分类的所述数据文件进行检索，进而获得所检索的加密的数据文件，对所述数据文件进行解密，进而使用所述数据文件。

以下结合图3说明本发明的定时扫描第三方业务系统上传数据文件的流程，图3示出了根据本发明的定时扫描第三方业务系统上传数据文件的流程图。如图3所示：

S103：解压所述压缩包文件；

以下结合图4说明本发明的智能分级分类及优化智能分类模型的方法流程，图4示出了根据本发明的智能分级分类及优化智能分类模型的方法流程图。如图4所示：

以下结合图5说明本发明的基于机器学习的文件分类管理系统的文件分类方法流程，图5示出了根据本发明的基于机器学习的文件分类管理系统的文件分类方法流程图。如图5所示：

S502：所述智能分类分级系统扫描监听上传的文件，将获得的所述新文件压缩包进行解压，并解析所述描述文件，利用AI分级分类模块进行分类、分级，对分级分类结果进行加密，机器学习模块进行机器学习，对所述AI分级分类模块的分级分类结果再次进行分级分类，机器学习模块再次进行机器学习；再由所述敏感数据分析及加密模块抓取敏感数据，并对所述敏感数据进行二次加密，将加密后的数据文件上传到数据文件存储系统，并记录日志；

以下结合实施例进一步说明本方案。

以下结合图6说明本发明的基于机器学习的文件分类管理系统，图6示出了根据本发明的一个实施方式的基于机器学习的文件分类管理系统。如图6所示：

某企业部署并运行了基于机器学习的文件分类管理系统。该企业每日有千数量级的业务数据文件产生，整个文件管理系统的部署分为第三方业务服务系统、智能分级分类系统、数据文件存储系统以及数据文件调用方系统。

基于本方法实现的文件分类管理系统，面向海量的业务数据文件进行分类管理，经测算，在每日千数量级文件的分类处理效率及精确度上较传统的处理方式均有50％幅度的提升，并且整个服务器的资源使用率下降近20％。且后续随着机器学习样本数量的不断增加，智能分类模型不断得到优化，分级分类的精准度还会不断地提高。

本发明实施例进一步给出一种智能分类分级系统，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如前所述的智能分类分级方法。

本发明实施例进一步给出一种计算机可读存储介质，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如前所述的基于智能分类分级系统的文件智能分类分级方法。

本发明实施例进一步给出一种文件分类系统，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

本发明实施例进一步给出一种计算机可读存储介质，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如前所述的基于文件分类管理系统的文件分类方法。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，实体机服务器，或者网络云服务器等，需安装Windows或者Windows Server操作系统)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于机器学习的智能分类分级系统，其特征在于，所述智能分类分级系统包括定时扫描模块、文件解压模块、解析文件模块，AI分级分类模块、加密模块、二次分类模块、敏感数据分析及加密模块、文件上传模块、日志模块、机器学习模块；

所述定时扫描模块实时监听第三方业务系统上传的最新数据文件消息，监听到消息后将所述消息发送给所述文件解压模块；

所述文件上传模块用于上传加密文件到数据文件存储系统的文件服务器；

2.如权利要求1所述的基于机器学习的智能分类分级系统，其特征在于，所述敏感数据分析及加密模块利用已学习到的敏感数据集从输入的所述数据文件中按照特征匹配的方式确定敏感数据，进而抓取敏感数据，并标记抓取到的敏感数据，将标记的敏感数据根据相应的加密算法进行二次加密，并将所述敏感数据的二次加密日志上传至日志模块。

3.一种基于机器学习的文件分类管理系统，其特征在于，所述系统包括第三方业务系统、如权利要求1-2之任一项所述的智能分类分级系统、数据文件存储系统、数据文件使用方系统；

4.一种第三方业务系统向如权利要求1-2之任一项所述系统上传数据文件的方法，其特征在于，所述方法包括：

S103：解压所述压缩包文件；

5.一种文件智能分类分级方法，所述方法基于权利要求1-2之任一项所述系统实现，其特征在于，所述方法包括：

6.一种文件分类方法，所述方法基于权利要求1-2之任一项所述系统实现，其特征在于，所述方法包括：

S501：所述第三方业务系统准备业务数据，将所述业务数据进行组装以生成文件；将原数据文件及描述文件压缩成新文件压缩包，并调用上传接口上传新文件压缩包；

7.一种智能分类分级系统，其特征在于，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如权利要求5所述方法。

8.一种计算机可读存储介质，其特征在于，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如权利要求5所述方法。

9.一种文件分类系统，其特征在于，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如权利要求6所述方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如权利要求6所述方法。