CN111079184A - 防护数据泄漏的方法、系统、设备以及存储介质 - Google Patents
防护数据泄漏的方法、系统、设备以及存储介质 Download PDFInfo
- Publication number
- CN111079184A CN111079184A CN201911319969.4A CN201911319969A CN111079184A CN 111079184 A CN111079184 A CN 111079184A CN 201911319969 A CN201911319969 A CN 201911319969A CN 111079184 A CN111079184 A CN 111079184A
- Authority
- CN
- China
- Prior art keywords
- file
- classification
- detector
- sensitive
- trainer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Storage Device Security (AREA)
Abstract
本申请提供了一种防护数据泄漏的方法、系统、设备以及存储介质,涉及信息安全技术领域,旨在提供一种简单的,准确识别包含机密信息的敏感文件的解决方法。所述方法包括:所述检测器实时接收所述防护数据泄漏系统监控的终端收发的文件;所述检测器将所述文件发送给所述分类预测器;所述分类预测器对所述文件进行分类,得到文件类别信息;所述分类预测器将所述文件类别信息反馈给所述检测器;所述检测器将所述文件类别信息与预存的敏感类别进行匹配;所述检测器在所述文件类别信息符合所述敏感类别时,将所述文件发送给所述管理平台,以示所述文件为敏感文件。
Description
技术领域
本申请涉及信息安全技术领域,具体而言,涉及一种防护数据泄漏的方法、系统、设备以及存储介质。
背景技术
在目前网络信息技术高度发达的环境下,各类企业、事业单位以及政府机关的计算机终端的使用者,通过网络较会为容易地将内部重要的信息数据或文件泄漏。
为防止企业、事业单位以及政府机关重要数据或信息资产以违反安全策略规定的形式流出,通常使用数据泄密防护系统对通过终端传输的文件进行扫描,在发现有可能包含重要数据或信息资产等机密信息的传输文件时,进行上报。
现有技术下,数据泄密防护系统一般基于关键字匹配或正则表达式匹配等方式,扫描文件以预测该文件是否包含机密信息。关键字匹配是基于文本外形,没有做到语义层面的识别,会产生误报和漏报。例如金额识别:“工号1783转账金额是1783。”,无法区分工号和交易金额,会产生误报或漏报情况。正则表达式匹配,对维护人员要求有一定正则表达式语言基础,且正则表达式这种贪婪匹配符号很容易造成大量的回溯,对CPU要求高,导致性能下降。因此需要一种简单的,准确识别包含机密信息的文件的解决方法。
发明内容
本申请实施例提供一种防护数据泄漏的方法、系统、设备以及存储介质,旨在提供一种简单的,准确识别包含机密信息的敏感文件的解决方法。
本申请实施例第一方面提供一种防护数据泄漏的方法,应用于防护数据泄漏系统,所述防护数据泄漏系统包括:管理平台、检测器以及分类预测器;所述方法包括:
所述检测器实时接收所述防护数据泄漏系统监控的终端收发的文件;
所述检测器将所述文件发送给所述分类预测器;
所述分类预测器对所述文件进行分类,得到文件类别信息;
所述分类预测器将所述文件类别信息反馈给所述检测器;
所述检测器将所述文件类别信息与预存的敏感类别进行匹配;
所述检测器在所述文件类别信息符合所述敏感类别时,将所述文件发送给所述管理平台,以示所述文件为敏感文件。
可选地,所述防护数据泄漏系统还包括分类训练器,所述方法还包括:
所述分类训练器生成分类模型;
所述分类训练器将所述分类模型导入所述分类预测器;
所述分类预测器对所述文件进行分类,包括:
所述分类预测器将所述文件输入所述分类模型,以使所述分类模型输出所述文件的文件类别信息。
可选地,所述分类训练器生成分类模型,包括:
所述分类训练器根据用户的指令,对待训练的分类模型配置至少一种模型类别信息;
所述分类训练器接收依次导入的与所述至少一种模型类别信息中的目标类别信息对应的样本集,形成样本文件;
所述分类训练器以所述样本文件训练所述待训练的分类模型,得到所述分类模型。
可选地,所述方法还包括:
所述分类训练器根据配置的所述模型类别信息,生成所述分类模型的描述文件;
所述分类训练器将所述描述文件导入所述管理平台;
所述管理平台根据所述描述文件建立所述敏感类别;
所述管理平台将所述敏感类别下发给所述检测器;
所述检测器将接收到的所述敏感类别存储到本地。
可选地,所述方法还包括:
在识别到用户对所述敏感文件的文件类别信息进行修改的操作后,所述管理平台根据修改后的文件类别信息,将所述敏感文件导入所述分类训练器;
所述分类训练器以所述敏感文件继续训练所述分类模型。
本申请实施例第四方面提供一种防护数据泄漏系统,所述防护数据泄漏系统包括:管理平台、检测器以及分类预测器;
所述检测器用于实时接收所述防护数据泄漏系统监控的终端收发的文件;
所述检测器还用于将所述文件发送给所述分类预测器;
所述分类预测器用于对所述文件进行分类,得到文件类别信息;
所述分类预测器还用于将所述文件类别信息反馈给所述检测器;
所述检测器用于将所述文件类别信息与预存的敏感类别进行匹配;
所述检测器还用于在所述文件类别信息符合所述敏感类别时,将所述文件发送给所述管理平台,以示所述文件为敏感文件。
可选地,所述防护数据泄漏系统还包括分类训练器;所述分类训练器用于:
生成分类模型;
将所述分类模型导入所述分类预测器;
所述分类训练器还用于将所述文件输入所述分类模型,以使所述分类模型输出所述文件的文件类别信息。
可选地,所述分类训练器还用于:
根据用户的指令,对待训练的分类模型配置至少一种模型类别信息;
接收依次导入的与所述至少一种模型类别信息中的目标类别信息对应的样本集,形成样本文件;
以所述样本文件训练所述待训练的分类模型,得到所述分类模型。
可选地,所述分类训练器还用于根据配置的所述模型类别信息,生成所述分类模型的描述文件;
所述分类训练器还用于将所述描述文件导入所述管理平台;
所述管理平台用于根据所述描述文件建立所述敏感类别;
所述管理平台还用于将所述敏感类别下发给所述检测器;
所述检测器还用于将接收到的所述敏感类别存储到本地。
可选地,所述管理平台还用于在识别到用户对所述敏感文件的文件类别信息进行修改的操作后,根据修改后的文件类别信息,将所述敏感文件导入所述分类训练器;
所述分类训练器还用于以所述敏感文件继续训练所述分类模型。
本申请实施例第三方面提供一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如本申请第一方面所述的方法中的步骤。
本申请实施例第四方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现本申请第一方面所述的方法的步骤。
本申请实施例以将分类模型导入分类预测器,并将分类预测器得到的文件类别信息发送给检测器的方式,将根据自然语言对文件进行分类处理的分类模型,与防护数据泄漏的检测器结合,使检测器可以根据文件的类别判断文件是否为敏感文件。同时,检测器判断文件是否为敏感文件的依据分类模型的描述文件,进一步将自然语言对文件进行分类处理的方式和防护数据泄漏系统的管理平台结合,解决了基于关键词判断文件是否包含机密信息的方法误报率高的缺点,同时克服基于正则表达式判断文件是否包含机密信息人工维护成本高的问题。
进一步地管理平台可将敏感文件导入分类训练器,对分类模型做进一步优化,从而大幅提高上报包含机密信息的敏感文件的准确率,减少人工维护成本。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例生成分类模型的步骤流程图;
图2是本申请实施例防护数据泄漏系统的信息交互图;
图3是本申请实施例防护数据泄漏的步骤流程图;
图4是本申请实施例防护数据泄漏系统的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
分类训练器指的是基于自然语言处理(NLP)利用文本特征提取、文本权重计算、卷积神经网络等生成可以对文档进行分类的模型的组件。
分类训练器为浏览器/服务器模式,服务器中有预先构建好的神经网络模型,一般可以包括LSTM神经网络、RNN神经网络、CNN神经网络等,再利用K-Nearest Neighbour算法、朴素贝叶斯、支持向量机(SVM)方法等分类算法,以任意现有方法对样本文档进行学习,以得到可以准确识别出文档类型的分类模型。
具体可通过以下步骤得到分类模型。参考图1,图1是本申请实施例生成分类模型的步骤流程图。
步骤S11:所述分类训练器根据用户的指令,对待训练的分类模型配置至少一种模型类别信息;
步骤S12:所述分类训练器接收依次导入的与所述至少一种模型类别信息中的目标类别信息对应的样本集,形成样本文件;
步骤S13:所述分类训练器以所述样本文件训练所述待训练的分类模型,得到所述分类模型。
浏览器端具有交互页面,本申请实施例中,可以在分类训练器的交互页面配置分类训练器中构建的神经网络模型的类别信息。一般地根据用户的需求定义文档的分类类型。例如,在浏览器增添页面,在新增添的页面配置不用的文档类别:1-合同;2-财务报表;3-会议纪要;4-产品标准化文件;5- 实验数据等;6-其他。
在后续利用训练完成的分类模型对文档进行分类时,可以识别出以上6 种类型(1-合同;2-财务报表;3-会议纪要;4-产品标准化文件;5-实验数据等;6-其他)的文档。
针对配置的不同类别信息分别收集训练样本,每一种类别信息的训练样本集不低于6000份。训练样本可以是doc、pdf、excle等不同的格式,分类训练器会将不同的格式转换为统一的txt文档格式。
依次选择不同的类别信息,导入对应的训练样本集,在全部类别的训练样本集导入分类训练器完毕后,得到完整的样本文件,开始训练预先构建的神经网络模型。
分类训练器中的神经网络可以卷积神经网络、权重计算等方法解析文档,提取样本文档内容中的特征,再以深度学习等方式分析样本文档的语义特征,以达到对特别类别的文档可以准确识别的目的。例如:合同中存在格式条款、关键字(付款方式、交货期等)、落款处等格式特征或语义特征,分类训练器可以提取得到合同文档具有的上述特征,并学习上述各类特征之间的联系,进而在输入任意的文档时,可以准确地识别出该文档对应的类别信息,即该文档具体属于哪一类的文档。
分类训练器中预先构建好的神经网络模型经过训练后,得到分类模型,并将分类模型导入分类预测器。
本申请实施例中的防护数据泄漏系统不仅包括管理平台和检测器,还包括分类训练器和分类预测器,以使防护数据泄漏系统判断文件的文件类别信息,再根据文件所属的类别判断该文件是否为包含有机密信息的敏感文件。
若某公司为销售公司,那么对于公司业务的重点—合同文件,有极大可能包含公司的机密信息,因此某公司可以将文件类别信息为1-合同的文件定义为敏感文件。
参考图2,图2是本申请实施例防护数据泄漏系统的信息交互图。
分类预测器可以设置于检测器内,或检测器外,与检测器进行信息交互,分类训练器与管理平台和分类预测器进行信息交互。管理平台与分类训练器和检测器进行信息交互。检测器与管理平台和分类预测器进行信息交互。
分类预测器、检测器、管理平台和分类训练器形成闭环的结构。
分别地,管理平台用于提供用户交互页面,控制防护数据泄漏系统中检测器启停,依据分类训练器发送的描述文件建立敏感类别,再将敏感类别告知检测器,以接收检测器上报的依据敏感类别判断出的敏感文件。
检测器用于接收待检测文件进行扫描,发现敏感信息后上报到管理平台。具体地,接收管理平台下发的敏感类别和分类预测器上报的文件类别信息,将文件类别信息与敏感类别进行匹配,进而判断文件的文件类别信息是否为敏感类别,若文件类别信息为敏感类别,检测器判断文件为敏感文件,上报给管理平台。
分类预测器用于根据导入的分类训练器生成的分类模型对文件进行分类预测,并可将分类预测的结果反馈给检测器。
分类训练器与分类检测器的逻辑通信可以体现在分类训练器将分类模型导入到管理平台。
分类训练器用于生成分类模型和关于分类模型的描述文件,分别导入分类预测器和管理平台。
所述分类训练器生成分类模型;
所述分类训练器将所述分类模型导入所述分类预测器;
为根据企业具体的业务定义大概率包含机密信息的敏感文件的类别,申请人在分类训练器中设置了描述文件生成模块,在分类训练器生成分类模型后,调用预先配置的神经网络模型的类别信息,生成描述文件。描述文件具体表达的是1-合同;2-财务报表;3-会议纪要;4-产品标准化文件;5-实验数据等;6-其他等内容的对应json格式的描述信息。
所述分类训练器根据配置的所述模型类别信息,生成所述分类模型的描述文件;
所述分类训练器将所述描述文件导入所述管理平台;
描述文件与分类训练器生成的分类模型是相对应的。
继续参考图2,分类训练器与管理平台的逻辑通信可以体现在分类训练器将描述文件导入到管理平台。
管理平台可以依据公司的实际情况,在描述文件中选择敏感类别。例如 A公司研发部门使用的防护数据泄漏系统,可选择6-实验数据和4-产品标准化文件作为敏感类别,并下发到检测器。敏感类别为描述文件的子集。
所述管理平台根据所述描述文件建立所述敏感类别;
所述管理平台将所述敏感类别下发给所述检测器;
检测器接收到敏感类别后,存储在本地,并以敏感类别判断文件是否为包含有机密信息的敏感文件。
所述检测器将接收到的所述敏感类别存储到本地。
导入分类模型的分类预测器可以参与,对防护数据泄漏系统接收到的文件的扫描工作,完成对文件的分类。
参考图3,图3是本申请实施例防护数据泄漏的步骤流程图。
本实施例的方法应用于防护数据泄漏系统,防护数据泄漏系统由管理平台、检测器以及分类预测器组成。
S31:所述检测器实时接收所述防护数据泄漏系统监控的终端收发的文件;
检测器安装在计算机终端或移动终端上,或安装在公司局域网的服务器,可以接收计算机终端或移动终端发送或接收的文件。例如,计算机终端的邮件客户端在发送完带有附件的文本后,计算机终端的服务器会获取附件中文件,并将该文件发送到检测器,或包含有附件的邮件通过公司局域网发送到外网,公司局域网的服务器获取到附件文件,并将该文件发送到检测器。
文件可以是doc、pdf、excle等不同的格式。
步骤32:所述检测器将所述文件发送给所述分类预测器;
根据前述的内容可知,分类预测器内分类模型是基于文档格式的样本训练而成的,为使分类模型可以在准确地解析文件内容的基础上对文件进行分类,检测器收到文件后,解析文档的格式,将文件统一转换为txt文档格式,再发送给分类预测器。
继续参考图2,检测器和分类预测器之间的信息交互体现在,检测器将文档格式的文件发送给分类预测器,分类预测器将文件的文件类别信息反馈给检测器。
步骤S33:所述分类预测器对所述文件进行分类,得到文件类别信息;
分类预测器具体以扫描文件,将扫描后的文件输入分类模型,分类模型对文件自动识别的方式,得到文件类别信息。
步骤S33-1:所述分类预测器将所述文件输入所述分类模型,以使所述分类模型输出所述文件的文件类别信息。
示例地,对于文件1,分类模型输出的文件类别信息为5-实验数据,文件2,分类模型输出的文件类别信息为6-其他。
步骤S34:所述分类预测器将所述文件类别信息反馈给所述检测器;
步骤S35:所述检测器将所述文件类别信息与预存的敏感类别进行匹配;
所述检测器接收到分类预测器反馈的关于文件1和文件2的文件类别信息后,判断5-实验数据和6-其他是否包含在敏感类别中。实际上5-实验数据属于敏感类别,6-其他不属于敏感类别。进而,检测器将文件1确定为包含机密信息的敏感文件,并将该敏感文件发送给管理平台。
管理平台接收到检测器发送的敏感文件-文件1后,在页面生成提示数据可能泄漏的提示,管理员通过管理平台的交互页面,根据该提示确认该文件是否泄漏公司的重要数据。
步骤S36:所述检测器在所述文件类别信息符合所述敏感类别时,将所述文件发送给所述管理平台,以示所述文件为敏感文件。
为进一步优化分类模型,在管理员可以在管理平台对检测器上报的文件进行修正。在分类模型使用的前期,分类模型可能对输入的文件出现分类不够细化的问题。例如对于4-产品标准化文件和5-实验数据,可能会因文件中有相同或相似的语义特征或文件格式,对二者的类别判断出现误差。
在识别到用户对所述敏感文件的文件类别信息进行修改的操作后,所述管理平台根据修改后的文件类别信息,将所述敏感文件导入所述分类训练器;
所述分类训练器以所述敏感文件继续训练所述分类模型。
在确定文件1的真实类别信息为4-产品标准化文件后,在管理平台的交互页面修改文件1的文件类别信息,管理平台识别到管理员的修改操作后,将文件1导入分类训练器中的4-产品标准化样本中,以文件1继续训练分类模型,以实际出现的与使用公司相关的正确文件持续优化分类模型,降低了人工参与度。
基于分类训练器得到的分类模型可分析处理文档中的自然语言,根据文档的结构特征,和自然语言的语义特征判断出文档的类别,将分类模型结合应用到检测器一端,对检测器接收到的终端收发的文件进行分类,同时分类训练器导出文件的类别信息的描述文件,以管理平台结合描述文件,建立敏感类别,并对检测器下发敏感类别,检测器根据分类模型得到的文件类别信息和检测器下发敏感类别,判断该文件是否为敏感文件,若该文件未敏感文件,则上报管理平台,进而完成防护数据泄漏的目的。
根据上述分析可知,本申请通过将自然语言分类与防护数据泄漏结合的方法,解决基于关键词判断文件是否包含机密信息的方法误报率高的缺点,同时克服基于正则表达式判断文件是否包含机密信息人工维护成本高的问题,同时管理平台可将敏感文件导入分类训练器,对分类模型做进一步优化,从而大幅提高上报包含机密信息的敏感文件的准确率,减少人工维护成本。
基于同一种构思,本申请还提供了一种防护数据泄漏系统。
参考图4,图4是本申请实施例防护数据泄漏系统的结构示意图。
所述防护数据泄漏系统包括:管理平台41、检测器42以及分类预测器 43;
所述检测器42用于实时接收所述防护数据泄漏系统监控的终端收发的文件;
所述检测器42还用于将所述文件发送给所述分类预测器43;
所述分类预测器43用于对所述文件进行分类,得到文件类别信息;
所述分类预测器43还用于将所述文件类别信息反馈给所述检测器42;
所述检测器42用于将所述文件类别信息与预存的敏感类别进行匹配;
所述检测器42还用于在所述文件类别信息符合所述敏感类别时,将所述文件发送给所述管理平台41,以示所述文件为敏感文件。
同时,所述防护数据泄漏系统还可以包括分类训练器44;所述分类训练器44用于:
生成分类模型;
将所述分类模型导入所述分类预测器43;
所述分类训练器44还用于将所述文件输入所述分类模型,以使所述分类模型输出所述文件的文件类别信息。
可选地,所述分类训练器44还用于:
根据用户的指令,对待训练的分类模型配置至少一种模型类别信息;
接收依次导入的与所述至少一种模型类别信息中的目标类别信息对应的样本集,形成样本文件;
以所述样本文件训练所述待训练的分类模型,得到所述分类模型。
可选地,所述分类训练器44还用于根据配置的所述模型类别信息,生成所述分类模型的描述文件;
所述分类训练器44还用于将所述描述文件导入所述管理平台;
所述管理平台41用于根据所述描述文件建立所述敏感类别;
所述管理平台41还用于将所述敏感类别下发给所述检测器;
所述检测器42还用于将接收到的所述敏感类别存储到本地。
可选地,所述管理平台41还用于在识别到用户对所述敏感文件的文件类别信息进行修改的操作后,根据修改后的文件类别信息,将所述敏感文件导入所述分类训练器44;
所述分类训练器44还用于以所述敏感文件继续训练所述分类模型。
基于同一发明构思,本申请另一实施例提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的防护数据泄漏的方法中的步骤。
基于同一发明构思,本申请另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的防护数据泄漏的方法中的步骤。
本说明书中的各个实施例均采用递进或说明的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种防护数据泄漏的方法、系统、设备以及存储介质,进行了详细介绍,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种防护数据泄漏的方法,其特征在于,应用于防护数据泄漏系统,所述防护数据泄漏系统包括:管理平台、检测器以及分类预测器;所述方法包括:
所述检测器实时接收所述防护数据泄漏系统监控的终端收发的文件;
所述检测器将所述文件发送给所述分类预测器;
所述分类预测器对所述文件进行分类,得到文件类别信息;
所述分类预测器将所述文件类别信息反馈给所述检测器;
所述检测器将所述文件类别信息与预存的敏感类别进行匹配;
所述检测器在所述文件类别信息符合所述敏感类别时,将所述文件发送给所述管理平台,以示所述文件为敏感文件。
2.根据权利要求1所述的方法,其特征在于,所述防护数据泄漏系统还包括分类训练器,所述方法还包括:
所述分类训练器生成分类模型;
所述分类训练器将所述分类模型导入所述分类预测器;
所述分类预测器对所述文件进行分类,包括:
所述分类预测器将所述文件输入所述分类模型,以使所述分类模型输出所述文件的文件类别信息。
3.根据权利要求2所述的方法,其特征在于,所述分类训练器生成分类模型,包括:
所述分类训练器根据用户的指令,对待训练的分类模型配置至少一种模型类别信息;
所述分类训练器接收依次导入的与所述至少一种模型类别信息中的目标类别信息对应的样本集,形成样本文件;
所述分类训练器以所述样本文件训练所述待训练的分类模型,得到所述分类模型。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
所述分类训练器根据配置的所述模型类别信息,生成所述分类模型的描述文件;
所述分类训练器将所述描述文件导入所述管理平台;
所述管理平台根据所述描述文件建立所述敏感类别;
所述管理平台将所述敏感类别下发给所述检测器;
所述检测器将接收到的所述敏感类别存储到本地。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在识别到用户对所述敏感文件的文件类别信息进行修改的操作后,所述管理平台根据修改后的文件类别信息,将所述敏感文件导入所述分类训练器;
所述分类训练器以所述敏感文件继续训练所述分类模型。
6.一种防护数据泄漏系统,其特征在于,所述防护数据泄漏系统包括:管理平台、检测器以及分类预测器;
所述检测器用于实时接收所述防护数据泄漏系统监控的终端收发的文件;
所述检测器还用于将所述文件发送给所述分类预测器;
所述分类预测器用于对所述文件进行分类,得到文件类别信息;
所述分类预测器还用于将所述文件类别信息反馈给所述检测器;
所述检测器用于将所述文件类别信息与预存的敏感类别进行匹配;
所述检测器还用于在所述文件类别信息符合所述敏感类别时,将所述文件发送给所述管理平台,以示所述文件为敏感文件。
7.根据权利要求6所述的防护数据泄漏系统,其特征在于,所述防护数据泄漏系统还包括分类训练器;所述分类训练器用于:
生成分类模型;
将所述分类模型导入所述分类预测器;
所述分类训练器还用于将所述文件输入所述分类模型,以使所述分类模型输出所述文件的文件类别信息。
8.根据权利要求7所述的防护数据泄漏系统,其特征在于,所述分类训练器还用于:
根据用户的指令,对待训练的分类模型配置至少一种模型类别信息;
接收依次导入的与所述至少一种模型类别信息中的目标类别信息对应的样本集,形成样本文件;
以所述样本文件训练所述待训练的分类模型,得到所述分类模型。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现如权利要求1至5任一所述的方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至5任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911319969.4A CN111079184A (zh) | 2019-12-19 | 2019-12-19 | 防护数据泄漏的方法、系统、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911319969.4A CN111079184A (zh) | 2019-12-19 | 2019-12-19 | 防护数据泄漏的方法、系统、设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111079184A true CN111079184A (zh) | 2020-04-28 |
Family
ID=70315902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911319969.4A Pending CN111079184A (zh) | 2019-12-19 | 2019-12-19 | 防护数据泄漏的方法、系统、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079184A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613074A (zh) * | 2020-12-30 | 2021-04-06 | 绿盟科技集团股份有限公司 | 一种敏感文件识别方法、装置、设备及介质 |
CN112613031A (zh) * | 2020-11-26 | 2021-04-06 | 新华三技术有限公司 | 一种数据流的检测方法和装置 |
CN113343227A (zh) * | 2021-06-28 | 2021-09-03 | 深信服科技股份有限公司 | 一种泄密行为识别方法、装置、设备、介质 |
CN113342753A (zh) * | 2021-06-25 | 2021-09-03 | 长江存储科技有限责任公司 | 文件安全管理方法、装置、设备及计算机可读存储介质 |
CN117896136A (zh) * | 2024-01-09 | 2024-04-16 | 北京中睿天下信息技术有限公司 | 一种敏感文件明文传输风险预警处置方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748898A (zh) * | 2017-11-03 | 2018-03-02 | 北京奇虎科技有限公司 | 文件分类方法、装置、计算设备及计算机存储介质 |
CN108664801A (zh) * | 2018-03-15 | 2018-10-16 | 北京明朝万达科技股份有限公司 | 一种结合机器学习的数据防泄漏策略动态更新方法及装置 |
CN109101574A (zh) * | 2018-07-18 | 2018-12-28 | 北京明朝万达科技股份有限公司 | 一种数据防泄漏系统的任务审批方法和系统 |
CN110516748A (zh) * | 2019-08-29 | 2019-11-29 | 泰康保险集团股份有限公司 | 业务处理方法、装置、介质及电子设备 |
-
2019
- 2019-12-19 CN CN201911319969.4A patent/CN111079184A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748898A (zh) * | 2017-11-03 | 2018-03-02 | 北京奇虎科技有限公司 | 文件分类方法、装置、计算设备及计算机存储介质 |
CN108664801A (zh) * | 2018-03-15 | 2018-10-16 | 北京明朝万达科技股份有限公司 | 一种结合机器学习的数据防泄漏策略动态更新方法及装置 |
CN109101574A (zh) * | 2018-07-18 | 2018-12-28 | 北京明朝万达科技股份有限公司 | 一种数据防泄漏系统的任务审批方法和系统 |
CN110516748A (zh) * | 2019-08-29 | 2019-11-29 | 泰康保险集团股份有限公司 | 业务处理方法、装置、介质及电子设备 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613031A (zh) * | 2020-11-26 | 2021-04-06 | 新华三技术有限公司 | 一种数据流的检测方法和装置 |
CN112613074A (zh) * | 2020-12-30 | 2021-04-06 | 绿盟科技集团股份有限公司 | 一种敏感文件识别方法、装置、设备及介质 |
CN113342753A (zh) * | 2021-06-25 | 2021-09-03 | 长江存储科技有限责任公司 | 文件安全管理方法、装置、设备及计算机可读存储介质 |
CN113343227A (zh) * | 2021-06-28 | 2021-09-03 | 深信服科技股份有限公司 | 一种泄密行为识别方法、装置、设备、介质 |
CN117896136A (zh) * | 2024-01-09 | 2024-04-16 | 北京中睿天下信息技术有限公司 | 一种敏感文件明文传输风险预警处置方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079184A (zh) | 防护数据泄漏的方法、系统、设备以及存储介质 | |
CN109255499B (zh) | 投诉、投诉案件处理方法、装置及设备 | |
US11113689B2 (en) | Transaction policy audit | |
CN108366045B (zh) | 一种风控评分卡的设置方法和装置 | |
WO2020005731A1 (en) | Text entity detection and recognition from images | |
CN110516697B (zh) | 基于证据图聚合与推理的声明验证方法及系统 | |
US20220172204A1 (en) | Transaction auditing using token extraction and model matching | |
CN110147540B (zh) | 业务安全需求文档生成方法及系统 | |
CN110598070A (zh) | 应用类型识别方法及装置、服务器及存储介质 | |
TW202121329A (zh) | 針對隱私資料洩漏的風險評估方法及裝置 | |
CN111628896A (zh) | It运维管理方法、装置、设备及计算机存储介质 | |
CN107135314A (zh) | 骚扰短信的检测方法、系统、移动终端和服务器 | |
CN113704328B (zh) | 基于人工智能的用户行为大数据挖掘方法及系统 | |
CN109978020A (zh) | 一种基于多维特征的社交网络账号马甲身份辨识方法 | |
US20210398118A1 (en) | Transaction policy audit | |
CN113821587A (zh) | 文本相关性确定方法、模型训练方法、装置及存储介质 | |
CN110674370A (zh) | 域名识别方法及装置、存储介质及电子设备 | |
US20240346242A1 (en) | Systems and methods for proactively extracting data from complex documents | |
CN108804501B (zh) | 一种检测有效信息的方法及装置 | |
CN111275410A (zh) | 用于企业的远程法律顾问远程交互方法 | |
CN116383786A (zh) | 一种基于物联网的大数据信息监管系统及方法 | |
CN116739408A (zh) | 基于数据标签的电网调度安全监控方法、系统及电子设备 | |
CN116318974A (zh) | 站点风险识别方法、装置、计算机可读介质及电子设备 | |
CN109783450A (zh) | 一种数据处理方法和装置、以及计算机设备 | |
CN111080444B (zh) | 信息审核方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200428 |
|
RJ01 | Rejection of invention patent application after publication |