CN113536325A - 一种数字化信息风险监控方法及装置 - Google Patents
一种数字化信息风险监控方法及装置 Download PDFInfo
- Publication number
- CN113536325A CN113536325A CN202111074143.3A CN202111074143A CN113536325A CN 113536325 A CN113536325 A CN 113536325A CN 202111074143 A CN202111074143 A CN 202111074143A CN 113536325 A CN113536325 A CN 113536325A
- Authority
- CN
- China
- Prior art keywords
- data
- message data
- message
- processing
- screening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
- G06F21/577—Assessing vulnerabilities and evaluating computer system security
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9014—Indexing; Data structures therefor; Storage structures hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/03—Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
- G06F2221/034—Test or assess a computer or a system
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Storage Device Security (AREA)
Abstract
本发明公开了一种数字化信息风险监控方法,包括获取第一报文数据,将所述第一报文数据进行筛选处理后发送到消息队列;从所述消息队列中获取所述筛选处理后的第一报文数据并进行去重合并处理,得到第二报文数据;利用多模式匹配算法对所述第二报文数据中的敏感数据进行识别,并添加相应敏感标签;将完成所述识别处理后的第二报文数据落库,并进行风险监控。本申请整个过程自动化程度高,具有采集、清洗、识别、展示、告警等一系列功能;各模块通过协同工作和逻辑判断,完成敏感数据发现、告警、处理、验证等的全生命周期管理;并且该装置使用简单,可扩展性强,可适用于应用接口敏感数据识别和数据库敏感数据识别,极大的方便企业信息风险管理。
Description
技术领域
本发明涉及大数据领域,尤其涉及一种数字化信息风险监控方法及装置。
背景技术
近年来,数字经济蓬勃发展,企业在推动生产力发展和生产关系变革的同时带来了企业快速发展和新机遇,但同时企业在数字化转型升级过程中也遇到一些信息化、数字化安全风险,如企业数据泄露事件。随着民众对自身隐私和数据安全保护意识逐步提高,数据安全也越来越受到国家以及各界关注,企业一旦发生数据泄露会面临风险:
客户资损风险:用户数据泄露其信息会被不法分子利用进行诈骗或盗刷(金融数据),对用户造成资损;舆情危机风险:降低用户信任感,影响公司市场口碑和声誉,促使用户放弃使用产品、增加用户流失率;监管合规风险:带来法律法规风险,甚至是行政或刑事处罚。目前全球各国相继制定和完善数据安全相关法律法规,如欧盟GDPR规定“企业发生数据泄露最高受到当年全球营业额的4%或最高2000万欧元处罚”,而我国在数据安全法规制定方面也日趋和国际接轨。
发明内容
本发明提供的一种数字化信息风险监控方法,旨在解决现有技术中对企业数字化信息中的敏感数据处理不够彻底,对于其中报文数据存在重复处理导致效率低,并且数据落库后进行风险监控不及时,不能及时告警而形成闭环的风险处理的问题。
为实现上述目的,本发明采用以下技术方案:
获取第一报文数据,将所述第一报文数据进行筛选处理后发送到消息队列,所述筛选处理包括去除所述第一报文数据中静态数据和非法异常数据;
从所述消息队列中获取所述筛选处理后的第一报文数据并进行去重合并处理,得到第二报文数据;
利用多模式匹配算法对所述第二报文数据中的敏感数据进行识别,并添加相应敏感标签;
将完成所述识别处理后的第二报文数据落库,并进行风险监控。
作为优选,所述获取第一报文数据,将所述第一报文数据进行筛选处理后发送到消息队列,所述筛选处理包括去除所述第一报文数据中静态数据和非法异常数据,包括以下步骤:
通过配置脚本和应用接口,采集原始流量数据,所述脚本用于控制采集频率和限制采集的数据内容;
将所述原始流量数据按照网络报文格式进行解码获取第一报文数据;
根据预设的过滤规则对所述第一报文数据进行筛选过滤并格式化后,通过所述脚本推送到消息队列。
作为优选,所述从所述消息队列中获取所述筛选处理后的第一报文数据并进行去重合并处理,得到第二报文数据,包括:
从所述消息队列中获取所述筛选处理后的第一报文数据,从中提取关键参数,利用信息摘要算法将所述关键参数顺序拼接加密后生成唯一哈希值;
根据所述哈希值进行去重合并处理;
作为优选,所述利用多模式匹配算法对所述第二报文数据中的敏感数据进行识别,并添加相应敏感标签,包括:
根据预设关键字和预设正则表达式对所述第二报文数据的正文内容进行匹配,当匹配相符时,对所述匹配相符的正文内容添加敏感标签;所述预设关键字表示个人隐私身份数据,所述预设正则表达式表示被用来检索、替换那些符合某个模式的文本。
作为优选,所述将完成所述识别处理后的第二报文数据落库,并进行风险监控,包括:
通过所述哈希值判断第三报文数据是否是新落库的,若数据库中不存在相同的所述哈希值,所述第三报文数据是新落库的,并发起告警推送,以进行风险监控,所述第三报文数据是完成所述识别处理后的第二报文数据落库后得到的;
若数据库中存在相同的所述哈希值,则判断是否存在相同的所述敏感标签,若是则设置所述第三报文数据的敏感标签的状态为已修复状态,若否则不进行更新操作;
一种数字化信息风险监控装置,包括:
获取模块:用于获取第一报文数据,将所述第一报文数据进行筛选处理后发送到消息队列,所述筛选处理包括去除所述第一报文数据中静态数据和非法异常数据;
去重模块:用于从所述获取模块的所述消息队列中获取所述筛选处理后的第一报文数据并进行去重合并处理,得到第二报文数据;
识别模块:用于利用多模式匹配算法对所述去重模块得到的所述第二报文数据中的敏感数据进行识别,并添加相应敏感标签;
监控模块:用于将完成所述识别处理后的第二报文数据落库,并进行风险监控。
作为优选,所述获取模块具体包括:
配置单元:用于通过配置脚本和应用接口,采集原始流量数据,所述脚本用于控制采集频率和限制采集的数据内容;
解码单元:用于将所述配置单元得到所述原始流量数据按照网络报文格式进行解码获取第一报文数据;
过滤单元:用于根据预设的过滤规则对所述解码单元得到的所述第一报文数据进行筛选过滤并格式化后,通过所述脚本推送到消息队列。
作为优选,所述去重模块具体包括:
加密单元:用于从所述消息队列中获取所述筛选处理后的第一报文数据,从中提取关键参数,利用信息摘要算法将所述关键参数顺序拼接加密后生成唯一哈希值;
去重子单元:用于根据所述加密单元得到的所述哈希值进行去重合并处理。
作为优选,所述识别模块具体包括:
匹配单元:用于根据预设关键字和预设正则表达式对所述第二报文数据的正文内容进行匹配,当匹配相符时,对所述匹配相符的正文内容添加敏感标签;所述预设关键字表示个人隐私身份数据,所述预设正则表达式表示被用来检索、替换那些符合某个模式的文本。
作为优选,所述监控模块具体包括:
第一判断单元:用于通过所述哈希值判断第三报文数据是否是新落库的,若数据库中不存在相同的所述哈希值,所述第三报文数据是新落库的,并发起告警推送,以进行风险监控,所述第三报文数据是完成所述识别处理后的第二报文数据落库后得到的;
第二判断单元:若数据库中存在相同的所述哈希值,则判断是否存在相同的所述敏感标签,若是则设置所述第三报文数据的敏感标签的状态为已修复状态,若否则不进行更新操作。
一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如上述中任一项所述的一种数字化信息风险监控方法。
一种存储有计算机程序的计算机可读存储介质,所述计算机程序使计算机执行时实现如上述中任一项所述的一种数字化信息风险监控方法。
本发明具有如下有益效果:
本申请整个过程自动化程度高,具有采集、清洗、识别、展示、告警等一系列功能;各模块通过协同工作和逻辑判断,完成敏感数据发现、告警、处理、验证等的全生命周期管理;并且该装置使用简单,可扩展性强,可适用于应用接口敏感数据识别和数据库敏感数据识别,极大的方便企业信息风险管理。
附图说明
图1是本发明实施例实现一种数字化信息风险监控方法第一流程图;
图2是本发明实施例实现一种数字化信息风险监控方法第二流程图;
图3是本发明实施例实现一种数字化信息风险监控方法第三流程图;
图4是本发明实施例实现一种数字化信息风险监控方法具体实施流程图;
图5是本发明实施例实现一种数字化信息风险监控装置示意图;
图6是本发明实施例实现一种数字化信息风险监控装置的获取模块示意图;
图7是本发明实施例实现一种数字化信息风险监控装置的去重模块示意图;
图8是本发明实施例实现一种数字化信息风险监控装置的识别模块示意图;
图9是本发明实施例实现一种数字化信息风险监控装置的监控模块示意图;
图10是本发明实施例实现一种数字化信息风险监控装置具体实施流程图;
图11是本发明实施例实现一种数字化信息风险监控装置的一种电子设备示意图。
具体实施方式
下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的权利要求书和说明书的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序,应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式,此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他单元。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同,本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本申请。
实施例1
如图1所示,一种数字化信息风险监控方法,包括以下步骤:
S110、获取第一报文数据,将所述第一报文数据进行筛选处理后发送到消息队列,所述筛选处理包括去除所述第一报文数据中静态数据和非法异常数据;
S120、从所述消息队列中获取所述筛选处理后的第一报文数据并进行去重合并处理,得到第二报文数据;
S130、利用多模式匹配算法对所述第二报文数据中的敏感数据进行识别,并添加相应敏感标签;
S140、将完成所述识别处理后的第二报文数据落库,并进行风险监控。
在实施例1中,数字信息主要是指企业的信息资产数据,而敏感数据是指泄漏后可能会给社会或个人带来严重危害的数据。包括个人隐私数据,如姓名、身份证号码、住址、电话、银行账号、邮箱、密码、医疗信息、教育背景等;也包括企业或社会机构不适合公布的数据,如企业的经营情况,企业的网络结构、IP地址列表等。静态资源可以理解为前端的固定页面,这里面包含HTML、CSS、JS、图片等等,不需要查数据库也不需要程序处理,直接就能够显示的页面,如果想修改内容则必须修改页面,但是访问效率相当高,因此这类数据不需要参与敏感数据的识别和标记中,还有其中的非法异常数据,这类数据可能会直接造成服务器的崩溃,或者本身内容是不合法,也是企业风险监控中不需要的。从消息队列中源源不断的获取报文数据,再进行判断是否有重复的,减少不必要的工作量,提高效率。然后,进行敏感数据识别处理,若视为敏感数据则需要添加敏感标签,以表明该数据为敏感内容,再后续落库中提醒相关人员。最后,经过所有处理后,存储入数据库中,并发起告警推送,以进行风险监控。本申请整个过程自动化程度高,具有采集、清洗、识别、展示、告警等一系列功能;各模块通过协同工作和逻辑判断,完成敏感数据发现、告警、处理、验证等的全生命周期管理;并且该装置使用简单,可扩展性强,可适用于应用接口敏感数据识别和数据库敏感数据识别,极大的方便企业信息风险管理。
实施例2
如图2所示,一种数字化信息风险监控方法,包括:
S210、通过配置脚本和应用接口,采集原始流量数据,所述脚本用于控制采集频率和限制采集的数据内容;
S220、将所述原始流量数据按照网络报文格式进行解码获取第一报文数据;
S230、根据预设的过滤规则对所述第一报文数据进行筛选过滤并格式化后,通过所述脚本推送到消息队列;
S240、从所述消息队列中获取所述筛选处理后的第一报文数据并进行去重合并处理,得到第二报文数据;
S250、利用多模式匹配算法对所述第二报文数据中的敏感数据进行识别,并添加相应敏感标签;
S260、将完成所述识别处理后的第二报文数据落库,并进行风险监控。
由实施例2可知,首先在企业应用网关层也就是防火墙,负载均衡软件中插入配置脚本,并设置采集频率、采集数据内容、kafka服务IP、kafka服务队列、过滤规则等必要参数。再通过软件服务端的ngx_lua模块提供的开放接口获取原始的流量数据,这里的脚本为接口限定了采集的数据内容,也就通过接口就可以采集到需要的内容,其中ngx-lua模块的原理是在每个工作进程中创建一个Lua VM,工作线程内所有协程共享VM,将接口获得的数据原语封装注入Lua VM,允许Lua代码直接访问;每个外部请求都由一个Lua协程处理,协程之间数据隔离,Lua代码调用接口时,会挂起当前协程以保护上下文数据,而不阻塞工作线程,接口完成时还原相关协程上下文数据,并继续运行。获得原始的流量数据后,按照网络报文格式进行解码获取可读的报文内容。再按照设置的过滤规则对解码后的报文数据进行过滤,所述过滤规则具体如:通过匹配资源请求参数过滤静态资源请求报文、匹配响应状态值过滤非法或异常的报文数据。将过滤处理后的报文进行压缩、格式化处理,组装成格式一致的json字符串,将格式化组装后的报文通过脚本推送到预设的kafka服务器消息队列中。这里配置脚本可以采集需要的内容和采集频率,结合将报文数据缓存在消息队列中可以避免流量过大,达到流量削锋的效果。
实施例3
如图3所示,一种数字化信息风险监控方法,包括:
S310、获取第一报文数据,将所述第一报文数据进行筛选处理后发送到消息队列,所述筛选处理包括去除所述第一报文数据中静态数据和非法异常数据;
S320、从所述消息队列中获取所述筛选处理后的第一报文数据,从中提取关键参数,利用信息摘要算法将所述关键参数顺序拼接加密后生成唯一哈希值;根据所述哈希值进行去重合并处理;
S330、根据预设关键字和预设正则表达式对所述第二报文数据的正文内容进行匹配,当匹配相符时,对所述匹配相符的正文内容添加敏感标签;所述预设关键字表示个人隐私身份数据,所述预设正则表达式表示被用来检索、替换那些符合某个模式的文本;
S340、将完成所述识别处理后的第二报文数据落库,并进行风险监控。
实施例3中,从所述消息队列中获取所述筛选处理后的第一报文数据,从中提取关键参数,所述关键参数包括url值、host值、请求方法method值、请求参数key等暴露地址的数据,按顺序拼接后通过md5加密生成唯一哈希值。具有相同哈希值的报文视为同一数据,仅保留第一个报文,后续具有相同哈希值的报文直接舍弃;因为推送到消息队列中的报文数据是源源不断的,每获取一个报文数据,则生成对应的哈希值,通过哈希值来判断是否存在相同的报文数据。再进行敏感数据识别,首先将报文中的正文内容(包括请求头、请求体、响应头、响应体)与预先定义的关键字(如:phonenumber(电话号码)、cardno(卡号)、idcard(身份证号)等)进行匹配,当报文内容中存在相应关键字时,对该报文数据设置对应的敏感标签(如:手机号、身份证等)。再使用预先定义的正则表达式与报文内容进行匹配,当报文内容与正则匹配时,也对该报文数据设置对应的敏感标签;这样经过去重后的报文数据再进行敏感数据识别,可减少工作量,提高识别效率。
实施例4
如图4所示,一种具体的实施方式可为:
S410、基于LUA语言自主开发了流量采集器,用于采集并解码企业应用网关层的请求和响应报文,采集后初步进行筛选处理,去除静态资源文件及非法异常的报文,将纯净报文数据格式化后发送到Kafka消息队列。改采集器核心功能用于解码企业应用网关层的请求和响应报文数据,包括初始化、数据采集、报文解码、报文过滤、报文格式化、消息推送等,具体工作流程如下:
1)报文初始化:在应用网关层(防火墙)负载均衡软件中插入配置脚本,并设置采集频率、采集数据内容、kafka服务IP、kafka服务队列、过滤规则等必要参数;
2)数据采集:通过ngx_lua提供的开放API获取原始的流量数据;
3)报文解码:将采集的原始数据按照http/https网络报文格式进行解码获取可读的报文内容;
4)报文过滤:按照设置的过滤规则对解码后的报文数据进行过滤,具体如:通过匹配资源请求参数url过滤静态资源请求报文、匹配响应状态值过滤非法、异常的报文数据;
5)报文格式化:将过滤处理后的报文进行压缩、格式化处理,组装成格式一致的json字符串;
6)消息推送:将格式化组装后的报文通过lua脚本推送到预设的kafka服务器队列中;
S420、使用基于Flink流处理程序自主开发消费端,获取采集后的纯净数据。将数据进行去重合并,使用多模式匹配算法引擎对敏感数据进行识别,并添加相应标识字段,具体流程如下:
1)获取数据:通过消费kafka数据,获取第1步中推送到kafka的格式化报文数据,根据组装时的数据格式还原出可读的报文数据;
2)数据去重:提取报文数据中的url值、host值、请求方法method值、请求参数key等关键参数,按顺序拼接后通过md5生成唯一哈希值。具有相同哈希值的报文视为同一数据,仅保留第一个报文,后续具有相同哈希值的报文直接舍弃;
3)敏感数据识别:首先将报文中的正文内容(包括请求头、请求体、响应头、响应体)与预先定义的关键字(如:phonenumber(电话号码)、cardno(卡号)、idcard(身份证号)等)进行匹配,当报文内容中存在相应关键字时,对该报文数据设置对应的敏感标签(如:手机号、身份证等)。再使用预先定义的正则表达式与报文内容进行匹配,当报文内容与正则匹配时,也对该报文数据设置对应的敏感标签;
4)数据格式化:将识别后的数据按照哈希值-报文内容-敏感标签进行转换,方便下一步进行数据存储;
S430、将完成标识符处理后的数据落库保存,具体流程如下:
1)通过所述哈希值判断第三报文数据是否是新落库的,若数据库中不存在相同的所述哈希值,所述第三报文数据是新落库的,并发起告警推送,以进行风险监控,所述第三报文数据是完成所述识别处理后的第二报文数据落库后得到的;
2)若数据库中存在相同的所述哈希值,则判断是否存在相同的所述敏感标签,若是则设置所述第三报文数据的敏感标签的状态为已修复状态,若否则不进行更新操作;通过S520步骤的去重步骤,原则上,相同哈希值的报文数据是不会到次步骤的,但是存在这样一种情况:报文数据中的关键参数有遗漏或者获取到就存在少几项关键参数,这样经过顺序拼接再加密后的哈希值也可能不一样,但是其实报文内容其实是一致的,经过敏感标签标注的内容是一致的,经过此步骤更进一步的去重处理,便于后续的风险监控。
S440、展示端读取落库后的数据,以图表形式进行展示,平台运营人员可以通过该展示端查看日常运营数据,增改敏感数据匹配规则,设置告警模版,告警周期等。
S450、告警数据推送,当某报文新增敏感数据标签时自动生成相应告警工单发送给相应管理、开发等负责人员,具体流程如下:
1)流程发起:当新增数据落库后自动发起告警推送流程;
2)关联数据获取:读取落库后的报文内容和敏感标签,解析报文中的header值(对报文中的header字段身份验证),获取header中的服务名称,通过内部资产管理平台开放API获取该服务对应的开发负责人、运维负责人、项目管理负责人等相关的信息;
3)工单生成:在预设的模版中设置相关参数,如:告警来源、服务名、报文内容、开发负责人、运维负责人、项目管理负责人等相关信息,生成告警工单;
4)告警推送:将自动生成的工单通过邮件和企业IM推送给开发负责人、运维负责人、项目管理负责人等相关人员;
S460、负责人员完成敏感数据的脱敏治理后处理告警工单,平台在T+1日后自动完成新数据的识别,若不存在敏感数据,则完成治理,关闭告警工单;若仍旧存在敏感数据,则治理未成功,重置告警工单,重新发送告警给相应负责人员并定起跟进提醒;
实施例5
如图5所示,一种数字化信息风险监控装置,包括:
获取模块10:用于获取第一报文数据,将所述第一报文数据进行筛选处理后发送到消息队列,所述筛选处理包括去除所述第一报文数据中静态数据和非法异常数据;
去重模块20:用于从所述获取模块10的所述消息队列中获取所述筛选处理后的第一报文数据并进行去重合并处理,得到第二报文数据;
识别模块30:用于利用多模式匹配算法对所述去重模块20得到的所述第二报文数据中的敏感数据进行识别,并添加相应敏感标签;
监控模块40:用于将完成所述识别处理后的第二报文数据落库,并进行风险监控。
上述装置的一种实施方式可为:获取模块10获取第一报文数据,将所述第一报文数据进行筛选处理后发送到消息队列,所述筛选处理包括去除所述第一报文数据中静态数据和非法异常数据;去重模块20从所述获取模块10的所述消息队列中获取所述筛选处理后的第一报文数据并进行去重合并处理,得到第二报文数据;识别模块30利用多模式匹配算法对所述去重模块20得到的所述第二报文数据中的敏感数据进行识别,并添加相应敏感标签;监控模块40将完成所述识别处理后的第二报文数据落库,并进行风险监控。
实施例6
如图6所示,一种数字化信息风险监控装置的获取模块10包括:
配置单元12:用于通过配置脚本和应用接口,采集原始流量数据,所述脚本用于控制采集频率和限制采集的数据内容;
解码单元14:用于将所述配置单元12得到所述原始流量数据按照网络报文格式进行解码获取第一报文数据;
过滤单元16:用于根据预设的过滤规则对所述解码单元14得到的所述第一报文数据进行筛选过滤并格式化后,通过所述脚本推送到消息队列。
上述装置的获取模块10的一种实施方式可为:配置单元12通过配置脚本和应用接口,采集原始流量数据,所述脚本用于控制采集频率和限制采集的数据内容;解码单元14将所述配置单元12得到所述原始流量数据按照网络报文格式进行解码获取第一报文数据;过滤单元16根据预设的过滤规则对所述解码单元14得到的所述第一报文数据进行筛选过滤并格式化后,通过所述脚本推送到消息队列。
实施例7
如图7所示,一种数字化信息风险监控装置的去重模块20包括:
加密单元22:用于从所述消息队列中获取所述筛选处理后的第一报文数据,从中提取关键参数,利用信息摘要算法将所述关键参数顺序拼接加密后生成唯一哈希值;
去重子单元24:用于根据所述加密单元22得到的所述哈希值进行去重合并处理。
上述装置的去重模块20的一种实施方式可为:加密单元22从所述消息队列中获取所述筛选处理后的第一报文数据,从中提取关键参数,利用信息摘要算法将所述关键参数顺序拼接加密后生成唯一哈希值;去重子单元24根据所述加密单元22得到的所述哈希值进行去重合并处理。
实施例8
如图8所示,一种数字化信息风险监控装置的识别模块30包括:
匹配单元32:用于根据预设关键字和预设正则表达式对所述第二报文数据的正文内容进行匹配,当匹配相符时,对所述匹配相符的正文内容添加敏感标签;所述预设关键字表示个人隐私身份数据,所述预设正则表达式表示被用来检索、替换那些符合某个模式的文本。
实施例9
如图9所示,一种数字化信息风险监控装置的监控模块40包括:
第一判断单元42:用于通过所述哈希值判断第三报文数据是否是新落库的,若数据库中不存在相同的所述哈希值,所述第三报文数据是新落库的,并发起告警推送,以进行风险监控,所述第三报文数据是完成所述识别处理后的第二报文数据落库后得到的;
第二判断单元44:若数据库中存在相同的所述哈希值,则判断是否存在相同的所述敏感标签,若是则设置所述第三报文数据的敏感标签的状态为已修复状态,若否则不进行更新操作。
实施例10
如图10所示,一种具体的实施装置可为:
数据采集层:基于LUA语言自主开发了流量采集器,用于采集并解码企业应用网关层的请求和响应报文,采集后初步进行筛选处理,去除静态资源文件及非法异常的报文,将纯净报文数据格式化后发送到Kafka消息队列。改采集器核心功能用于解码企业应用网关层的请求和响应报文数据,包括初始化、数据采集、报文解码、报文过滤、报文格式化、消息推送等。
数据处理层:使用基于Flink流处理程序自主开发消费端,获取采集后的纯净数据。将数据进行去重合并,使用多模式匹配算法引擎对敏感数据进行识别,并添加相应标识字段。
数据存储层:将完成标识符处理后的数据落库保存。
数据展示层:展示端读取落库后的数据,以图表形式进行展示,平台运营人员可以通过该展示端查看日常运营数据,增改敏感数据匹配规则,设置告警模版,告警周期等。
实施例11
如图11所示,一种电子设备,包括存储器1101和处理器1102,所述存储器1101用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器1102执行以实现上述的一种数字化信息风险监控方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
一种存储有计算机程序的计算机可读存储介质,所述计算机程序使计算机执行时实现如上述的一种数字化信息风险监控方法。
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器1101中,并由处理器1102执行,并由输入接口1105和输出接口1106完成数据的I/O接口传输,以完成本发明,一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机设备中的执行过程。
计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括,但不仅限于,存储器1101、处理器1102,本领域技术人员可以理解,本实施例仅仅是计算机设备的示例,并不构成对计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入器1107、网络接入设备、总线等。
处理器1102可以是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器1102、数字信号处理器1102(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgRAM503mableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器1102可以是微处理器1102或者该处理器1102也可以是任何常规的处理器1102等。
存储器1101可以是计算机设备的内部存储单元,例如计算机设备的硬盘或内存。存储器1101也可以是计算机设备的外部存储设备,例如计算机设备上配备的插接式硬盘,智能存储卡(SmartMediaCard,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)等,进一步地,存储器1101还可以既包括计算机设备的内部存储单元也包括外部存储设备,存储器1101用于存储计算机程序以及计算机设备所需的其他程序和数据,存储器1101还可以用于暂时地存储在输出器1108,而前述的存储介质包括U盘、移动硬盘、只读存储器ROM1103、随机存储器RAM1104、碟盘或光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的具体实施例,但本发明的技术特征并不局限于此,任何本领域的技术人员在本发明的领域内,所作的变化或修饰皆涵盖在本发明的专利范围之中。
Claims (10)
1.一种数字化信息风险监控方法,其特征在于,包括:
获取第一报文数据,将所述第一报文数据进行筛选处理后发送到消息队列,所述筛选处理包括去除所述第一报文数据中静态数据和非法异常数据;
从所述消息队列中获取所述筛选处理后的第一报文数据并进行去重合并处理,得到第二报文数据;
利用多模式匹配算法对所述第二报文数据中的敏感数据进行识别,并添加相应敏感标签;
将完成所述识别处理后的第二报文数据落库,并进行风险监控。
2.根据权利要求1所述的一种数字化信息风险监控方法,其特征在于,所述获取第一报文数据,将所述第一报文数据进行筛选处理后发送到消息队列,所述筛选处理包括去除所述第一报文数据中静态数据和非法异常数据,包括以下步骤:
通过配置脚本和应用接口,采集原始流量数据,所述脚本用于控制采集频率和限制采集的数据内容;
将所述原始流量数据按照网络报文格式进行解码获取第一报文数据;
根据预设的过滤规则对所述第一报文数据进行筛选过滤并格式化后,通过所述脚本推送到消息队列。
3.根据权利要求1所述的一种数字化信息风险监控方法,其特征在于,所述从所述消息队列中获取所述筛选处理后的第一报文数据并进行去重合并处理,得到第二报文数据,包括:
从所述消息队列中获取所述筛选处理后的第一报文数据,从中提取关键参数,利用信息摘要算法将所述关键参数顺序拼接加密后生成唯一哈希值;
根据所述哈希值进行去重合并处理。
4.根据权利要求1所述的一种数字化信息风险监控方法,其特征在于,所述利用多模式匹配算法对所述第二报文数据中的敏感数据进行识别,并添加相应敏感标签,包括:
根据预设关键字和预设正则表达式对所述第二报文数据的正文内容进行匹配,当匹配相符时,对所述匹配相符的正文内容添加敏感标签;所述预设关键字表示个人隐私身份数据,所述预设正则表达式表示被用来检索、替换那些符合某个模式的文本。
5.根据权利要求1所述的一种数字化信息风险监控方法,其特征在于,所述将完成所述识别处理后的第二报文数据落库,并进行风险监控,包括:
通过所述哈希值判断第三报文数据是否是新落库的,若数据库中不存在相同的所述哈希值,所述第三报文数据是新落库的,并发起告警推送,以进行风险监控,所述第三报文数据是完成所述识别处理后的第二报文数据落库后得到的;
若数据库中存在相同的所述哈希值,则判断是否存在相同的所述敏感标签,若是则设置所述第三报文数据的敏感标签的状态为已修复状态,若否则不进行更新操作。
6.一种数字化信息风险监控装置,其特征在于,包括:
获取模块:用于获取第一报文数据,将所述第一报文数据进行筛选处理后发送到消息队列,所述筛选处理包括去除所述第一报文数据中静态数据和非法异常数据;
去重模块:用于从所述获取模块的所述消息队列中获取所述筛选处理后的第一报文数据并进行去重合并处理,得到第二报文数据;
识别模块:用于利用多模式匹配算法对所述去重模块得到的所述第二报文数据中的敏感数据进行识别,并添加相应敏感标签;
监控模块:用于将完成所述识别处理后的第二报文数据落库,并进行风险监控。
7.根据权利要求6所述的一种数字化信息风险监控装置,其特征在于,所述获取模块具体包括:
配置单元:用于通过配置脚本和应用接口,采集原始流量数据,所述脚本用于控制采集频率和限制采集的数据内容;
解码单元:用于将所述配置单元得到所述原始流量数据按照网络报文格式进行解码获取第一报文数据;
过滤单元:用于根据预设的过滤规则对所述解码单元得到的所述第一报文数据进行筛选过滤并格式化后,通过所述脚本推送到消息队列。
8.根据权利要求6所述的一种数字化信息风险监控装置,其特征在于,所述去重模块具体包括:
加密单元:用于从所述消息队列中获取所述筛选处理后的第一报文数据,从中提取关键参数,利用信息摘要算法将所述关键参数顺序拼接加密后生成唯一哈希值;
去重子单元:用于根据所述加密单元得到的所述哈希值进行去重合并处理。
9.根据权利要求6所述的一种数字化信息风险监控装置,其特征在于,所述识别模块具体包括:
匹配单元:用于根据预设关键字和预设正则表达式对所述第二报文数据的正文内容进行匹配,当匹配相符时,对所述匹配相符的正文内容添加敏感标签;所述预设关键字表示个人隐私身份数据,所述预设正则表达式表示被用来检索、替换那些符合某个模式的文本。
10.根据权利要求6所述的一种数字化信息风险监控装置,其特征在于,所述监控模块具体包括:
第一判断单元:用于通过所述哈希值判断第三报文数据是否是新落库的,若数据库中不存在相同的所述哈希值,所述第三报文数据是新落库的,并发起告警推送,以进行风险监控,所述第三报文数据是完成所述识别处理后的第二报文数据落库后得到的;
第二判断单元:若数据库中存在相同的所述哈希值,则判断是否存在相同的所述敏感标签,若是则设置所述第三报文数据的敏感标签的状态为已修复状态,若否则不进行更新操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111074143.3A CN113536325A (zh) | 2021-09-14 | 2021-09-14 | 一种数字化信息风险监控方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111074143.3A CN113536325A (zh) | 2021-09-14 | 2021-09-14 | 一种数字化信息风险监控方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113536325A true CN113536325A (zh) | 2021-10-22 |
Family
ID=78092519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111074143.3A Pending CN113536325A (zh) | 2021-09-14 | 2021-09-14 | 一种数字化信息风险监控方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113536325A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114006765A (zh) * | 2021-11-02 | 2022-02-01 | 中国工商银行股份有限公司 | 检测报文中敏感信息的方法、装置和电子设备 |
CN114116739A (zh) * | 2021-11-10 | 2022-03-01 | 浪潮卓数大数据产业发展有限公司 | 键值对数据插入列式数据库的系统及实现方法 |
CN114756901A (zh) * | 2022-04-11 | 2022-07-15 | 敏于行(北京)科技有限公司 | 操作性风险监控方法及装置 |
CN115859292A (zh) * | 2023-02-20 | 2023-03-28 | 卓望数码技术(深圳)有限公司 | 一种涉诈app检测系统和判定方法以及存储介质 |
CN115952515A (zh) * | 2022-12-05 | 2023-04-11 | 广州柏瀚信息科技有限公司 | 一种基于大数据的数据安全处理方法及装置 |
CN116488947A (zh) * | 2023-06-21 | 2023-07-25 | 北京锐服信科技有限公司 | 一种安全要素的治理方法 |
WO2023147861A1 (en) * | 2022-02-03 | 2023-08-10 | Huawei Technologies Co., Ltd. | Method of tracking sensitive data in a data storage system |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111199048A (zh) * | 2020-01-02 | 2020-05-26 | 航天信息股份有限公司 | 基于具有生命周期的容器的大数据分级脱敏方法和系统 |
CN111737742A (zh) * | 2020-06-19 | 2020-10-02 | 中国建设银行股份有限公司 | 敏感数据扫描方法和系统 |
CN111901199A (zh) * | 2020-07-29 | 2020-11-06 | 北京宏达隆和科技有限公司 | 一种基于海量数据的快速预警匹配实现方法 |
CN112417477A (zh) * | 2020-11-24 | 2021-02-26 | 恒安嘉新(北京)科技股份公司 | 一种数据安全监测方法、装置、设备及存储介质 |
-
2021
- 2021-09-14 CN CN202111074143.3A patent/CN113536325A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111199048A (zh) * | 2020-01-02 | 2020-05-26 | 航天信息股份有限公司 | 基于具有生命周期的容器的大数据分级脱敏方法和系统 |
CN111737742A (zh) * | 2020-06-19 | 2020-10-02 | 中国建设银行股份有限公司 | 敏感数据扫描方法和系统 |
CN111901199A (zh) * | 2020-07-29 | 2020-11-06 | 北京宏达隆和科技有限公司 | 一种基于海量数据的快速预警匹配实现方法 |
CN112417477A (zh) * | 2020-11-24 | 2021-02-26 | 恒安嘉新(北京)科技股份公司 | 一种数据安全监测方法、装置、设备及存储介质 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114006765A (zh) * | 2021-11-02 | 2022-02-01 | 中国工商银行股份有限公司 | 检测报文中敏感信息的方法、装置和电子设备 |
CN114116739A (zh) * | 2021-11-10 | 2022-03-01 | 浪潮卓数大数据产业发展有限公司 | 键值对数据插入列式数据库的系统及实现方法 |
CN114116739B (zh) * | 2021-11-10 | 2023-06-20 | 浪潮卓数大数据产业发展有限公司 | 键值对数据插入列式数据库的系统及实现方法 |
WO2023147861A1 (en) * | 2022-02-03 | 2023-08-10 | Huawei Technologies Co., Ltd. | Method of tracking sensitive data in a data storage system |
CN114756901A (zh) * | 2022-04-11 | 2022-07-15 | 敏于行(北京)科技有限公司 | 操作性风险监控方法及装置 |
CN115952515A (zh) * | 2022-12-05 | 2023-04-11 | 广州柏瀚信息科技有限公司 | 一种基于大数据的数据安全处理方法及装置 |
CN115952515B (zh) * | 2022-12-05 | 2023-09-26 | 广州柏瀚信息科技有限公司 | 一种基于大数据的数据安全处理方法及装置 |
CN115859292A (zh) * | 2023-02-20 | 2023-03-28 | 卓望数码技术(深圳)有限公司 | 一种涉诈app检测系统和判定方法以及存储介质 |
CN116488947A (zh) * | 2023-06-21 | 2023-07-25 | 北京锐服信科技有限公司 | 一种安全要素的治理方法 |
CN116488947B (zh) * | 2023-06-21 | 2023-09-26 | 北京锐服信科技有限公司 | 一种安全要素的治理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113536325A (zh) | 一种数字化信息风险监控方法及装置 | |
Casey et al. | Leveraging CybOX™ to standardize representation and exchange of digital forensic information | |
Riadi | Forensic investigation technique on android's blackberry messenger using nist framework | |
CN110413864A (zh) | 一种网络安全情报采集方法、装置、设备及存储介质 | |
CN108769255A (zh) | 企业数据的采集和治理方法 | |
CN110109888B (zh) | 一种文件处理方法及装置 | |
CN110147540B (zh) | 业务安全需求文档生成方法及系统 | |
CN111813960A (zh) | 基于知识图谱的数据安全审计模型装置、方法及终端设备 | |
CN112446622A (zh) | 企业微信会话评价方法、系统、电子设备及存储介质 | |
CN115514558A (zh) | 一种入侵检测方法、装置、设备及介质 | |
CN115098440A (zh) | 电子档案查询方法、装置、存储介质和设备 | |
CN112286815A (zh) | 一种接口测试脚本的生成方法及其相关设备 | |
CN106982147B (zh) | 一种Web通讯应用的通讯监控方法和装置 | |
CN116738369A (zh) | 一种流量数据的分类方法、装置、设备及存储介质 | |
CN115470361A (zh) | 数据检测方法以及装置 | |
CN113037555B (zh) | 风险事件标记方法、风险事件标记装置和电子设备 | |
CN112579833A (zh) | 基于用户操作数据的业务关联关系获取方法及装置 | |
CN111353170A (zh) | 文件隐私信息处理方法、装置、电子设备及存储介质 | |
RU2789629C1 (ru) | Система и способ выявления информационной атаки | |
CN115269879B (zh) | 知识结构数据的生成方法、数据搜索方法和风险告警方法 | |
CN114157711B (zh) | 一种资产处置方法及装置 | |
Lee et al. | Mobile junk message filter reflecting user preference. | |
CN116089429A (zh) | 一种大数据存储方法、装置、设备、存储介质 | |
CN117648686A (zh) | 一种数据安全监管方法、装置以及介质 | |
KR101895881B1 (ko) | 지적재산권 관리 방법 및 이를 실행하는 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211022 |