CN116701118A - 一种基于数据分析的风险监测预警系统及方法 - Google Patents
一种基于数据分析的风险监测预警系统及方法 Download PDFInfo
- Publication number
- CN116701118A CN116701118A CN202310703116.0A CN202310703116A CN116701118A CN 116701118 A CN116701118 A CN 116701118A CN 202310703116 A CN202310703116 A CN 202310703116A CN 116701118 A CN116701118 A CN 116701118A
- Authority
- CN
- China
- Prior art keywords
- file
- information
- user
- files
- stored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000007405 data analysis Methods 0.000 title claims abstract description 23
- 238000007726 management method Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000004140 cleaning Methods 0.000 claims description 43
- 230000002159 abnormal effect Effects 0.000 claims description 31
- 238000012216 screening Methods 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000012790 confirmation Methods 0.000 claims description 6
- 230000009191 jumping Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000013500 data storage Methods 0.000 abstract description 3
- 230000005540 biological transmission Effects 0.000 description 9
- 230000009471 action Effects 0.000 description 7
- 238000012217 deletion Methods 0.000 description 5
- 230000037430 deletion Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/302—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1448—Management of the data involved in backup or backup restore
- G06F11/1451—Management of the data involved in backup or backup restore by selection of backup contents
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于数据分析的风险监测预警系统及方法,属于数据存储技术领域。通过对用户、文件和操作行为进行监测预警,降低数据丢失风险概率。该系统包括数据采集模块、数据处理模块、运行管理模块和数据备份模块;所述数据采集模块用于采集指定区域内所有用户的操作信息,以及用户计算机内的文件信息;所述数据处理模块通过操作信息和文件信息筛选出数据漏存率高的用户,对这些用户计算机内的文件进行分析判断,找出重点文件进行监测;所述运行管理模块用于对重点文件的操作进行风险程度分析,高风险操作情况下及时给用户发送预警信息,根据用户回馈进行对应操作;所述数据备份模块用于对用户需要保存的文件进行备份。
Description
技术领域
本发明涉及数据存储技术领域,具体为一种基于数据分析的风险监测预警系统及方法。
背景技术
随着信息化技术的不断发展,各行各业都在加快数字化转型的步伐,数据存储成为数字化时代不可或缺的基础设施之一。人们越来越依赖电子设备来存储和管理个人和企业的重要数据。然而,由于人为因素影响或技术水平制约,文件在使用、传输和存储过程中产生丢失的现象时有发生,人为因素导致的文件丢失是主要原因之一。
现阶段对于数据防丢失主要集中在软件方面:使用数据备份软件、数据恢复软件等技术手段来实现对数据的保护,确保数据完整性。这些技术手段在一定程度上能够很好解决数据丢失问题,但同时也存在一些其他问题;例如:不是所有文件都很重要,粗略的对所有文件都进行备份,浪费计算机资源的同时也占用大量的存储空间;或者,当原始文件删除后,原始存储区域又被其他文件所覆盖,导致原始文件永久性丢失且无法恢复。如何做到对文件按需备份,以及如何尽量减少误删除现象,做到减轻备份压力的同时提高备份效率,降低误删除概率,这些问题已经是迫不及待需要得到解决的。
发明内容
本发明的目的在于提供一种基于数据分析的风险监测预警系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种基于数据分析的风险监测预警系统,该预警系统包括数据采集模块、数据处理模块、运行管理模块和数据备份模块。
所述数据采集模块用于采集所有用户的操作信息,以及用户计算机内的文件信息;所述数据处理模块通过操作信息和文件信息筛选出数据漏存率高的用户,对这些用户计算机内的文件进行分析判断,找出重点文件进行监测;所述运行管理模块用于对重点文件的操作进行风险程度分析,高风险操作情况下及时给用户发送预警信息,根据用户回馈进行对应操作;所述数据备份模块用于对用户需要保存的文件进行备份。
所述数据采集模块包括操作信息采集单元和文件信息采集单元。
所述操作信息采集单元用于采集指定区域内所有用户对文件的操作信息,操作信息包括打开操作、关闭操作、清理操作和保存操作,以及这些操作对应的时间。
所述文件信息采集单元用于采集用户计算机内的文件信息,文件信息包括文件格式、文件名称和有效期。
操作信息的采集是针对指定区域内所有的用户,文件信息的采集是针对部分异常用户。
所述数据处理模块包括用户筛选单元和文件定义单元。
所述用户筛选单元用于在指定区域内所有用户中筛选出异常用户。
首先,收集所有用户的操作信息,识别出用户打开失败的文件数量,同时获取对应用户保存的文件数量;其次,将两者数量信息代入公式中计算得到文件漏存率;最后,将文件漏存率大于漏存率阈值的用户筛选出来,定义为异常用户。
为提高系统的整体运行效率,降低冗余数据带来的干扰,系统为每份接收到的文件设定有效期。有效期内,文件即使没有保存也能够正常打开;超过有效期,系统会自动清理掉。
通常情况下,用户通过浏览传输记录来实现快速找到并打开文件。传输记录中保存所有文件的索引信息,仅凭肉眼无法观测到传输记录中的文件是否过期。用户点击打开文件时,系统会自动按照传输记录中保存的索引信息去硬盘上查找,若文件不超过有效期,则能够正常打开;超过有效期,则被系统自动清理掉,按照索引信息无法找到对应文件,打开失败。
当用户点击打开文件时,说明用户对这份文件存在需求,如果这份文件之前没有进行保存且超过有效期,则无法打开,该行为属于漏保存现象。用户这种行为次数过多,则说明对应用户经常性忘记保存重要文件,为降低数据丢失概率,有必要筛选出这类用户进行监测。
所述文件定义单元用于定义文件的状态信息和类型信息;状态信息包括已存和未存,类型信息包括重点和普通。
首先,收集所有异常用户计算机内的文件信息,按照是否被用户保存来区分已存文件和未存文件;其次,将未存文件浏览时间大于时间阈值的定义为重点文件;然后,根据已存文件的格式和名称建立格式信息集合和名称信息集合,判断未存文件格式是否属于格式信息集合,计算未存文件名称与名称信息集合中每一个元素的相似度;最后,将属于格式信息集合且最大相似度大于相似度阈值所对应的未存文件定义为重点文件,其他情况则定义为普通文件。
已存文件和未存文件是指文件的一种状态,当用户接收到文件时,选择主动保存即为已存文件,未进行保存则为未存文件。已存文件会被永久存储在计算机上,无有效期;未存文件会被临时存储在计算机上,超过有效期会被系统当作缓存自动清理掉,但是传输记录仍然存在,只是无法打开文件。
所述运行管理模块包括操作管理单元和风险管理单元。
所述操作管理单元用于判断用户操作的风险程度。实时获取异常用户的操作信息和文件信息进行监测,当用户对包含重点文件的文件夹进行清理操作,或者系统自动对时间到达有效期的重点文件进行清理操作时,判定为高风险操作;其他情况下,判定为低风险操作。
所述风险管理单元用于对高风险操作进行预警。当监测到高风险操作时,系统自动拦截对应操作,同时给对应用户发送预警信息,提醒用户针对清理行为做进一步确认,用户选择确认,则删除该文件或文件夹;用户选择取消,则跳转到数据备份模块。
当用户对包含重点文件的文件夹进行清理时,由于用户可能不完全知晓清理文件夹下每一个清理对象,此时误删除概率较大,系统判定为高风险操作。但是当用户直接对重点文件进行清理时,由于用户已经知晓清理对象,所以这种情况下不会被系统判定为高风险操作。
当重点文件被清理时,系统自动拦截该操作,并发送预警信息,让用户进一步确认。预警信息内容包括对要清理的文件夹下重点文件名称的展示,或者系统将对时间到达有效期的重点文件进行清理等文字内容,提供确定和取消两个选项,根据用户选择进行相应操作。用户在进行选择的时间内,重点文件不会被清理。这样,即避免了由于用户疏忽大意所造成的重要文件误删除,也避免了重要文件超过有效期被系统自动当作缓存清理掉。
所述数据备份模块用于将用户已经保存的文件以及需要保存的文件进行备份。
一种基于数据分析的风险监测预警方法,该预警方法包括以下步骤:
S1、在所有用户中筛选出异常用户;
S2、检测异常用户计算机内重点文件;
S3、监测对重点文件的所有操作,判断风险程度;
S4、针对高风险操作及时预警提醒。
在S1中,对异常用户的筛选步骤如下:
S101、获取指定区域内所有用户的操作信息,以及用户计算机内的文件信息。操作信息包括打开操作、关闭操作、清理操作和保存操作,以及这些操作对应的时间;文件信息包括文件格式、文件名称和有效期。
操作信息与用户绑定,一个用户能够多次操作同一份文件或不同文件。文件与操作信息绑定,一个操作信息只能对应一份文件。
S102、识别每个用户打开操作的失败次数,打开失败是指用户打开文件时,对应文件超过有效期被系统自动清理了,文件无法被打开导致打开失败。筛选出打开失败次数不为零的用户,对这些用户进行标记。
为确保后续计算的准确性,每份文件只有在首次被打开失败时才会计入失败次数,即使后续再次打开失败也不会计入失败次数。失败次数与文件数挂钩,同一时间多次打开同一份文件失败只计入一次失败次数,同一时间打开N个不同的文件失败计入N次失败次数。
S103、获取被标记的用户计算机中保存文件的数量,与对应用户打开文件失败次数一起代入公式中,计算得到文件漏存率,依次筛选出文件漏存率大于漏存率阈值的用户,将这些用户定义为异常用户;公式如下:
式中,result为用户类型判断结果,e为用户打开失败次数,f为用户保存文件的数量,F为漏存率阈值。
在S2中,检测重点文件的步骤如下:
S201、获取所有异常用户计算机内的文件信息,按照是否被用户保存进行分类,划分为已存文件和未存文件。已存文件是指被用户保存的文件,未存文件是指没有被用户保存且没有超过有效期的文件。
S202、获取未存文件对应的操作信息,判断打开操作与关闭操作时间差,将该时间差定义为该文件的浏览时间。判断浏览时间是否大于时间阈值,结果为是,则将对应文件定义为重点文件,进入下一步骤;结果为否,则直接进入下一步骤。
S203、获取已存文件的格式信息,将这些信息放入格式信息集合X中,集合X内包括{Q1,Q2,Q3,...,Qi},其中,i表示格式信息个数,Qi表示第i个格式信息的值。
S204、获取已存文件的名称信息,将这些信息放入名称信息集合Y中,集合Y内包括{W1,W2,W3,...,Wj},其中,j表示名称信息个数,Wj表示第j个名称信息的值。
S205、获取剩余没有被定义的未存文件的格式信息,依次判断是否属于格式信息集合,结果为是,则将对应的未存文件进行标记;结果为否,则将对应文件定义为普通文件。
S206、获取被标记文件的名称信息,依次与名称信息集合中每一个元素进行相似度计算,得到的相似度放入相似度集合Z中,每份被标记文件对应一个相似度集合。相似度计算步骤如下:
S206-1、对文件名称进行分词处理,将每个名称转化为一个词语列表。
S206-2、去除每个词语列表中的重复词语,得到两个不同的词语集合。
S206-3、将两个不同的词语集合合并,得到总词语集合。
S206-4、将总词语集合中的每个词语构建出一个向量,向量的每一维表示该词语在文本中出现的次数。使用公式计算两个向量之间的相似度,公式如下:
式中,cos(θ)为文件名称的相似度,|a|表示向量a的模,|b|表示向量b的模,a×b表示向量a和向量b的内积。
S207、判断每份被标记文件对应相似度集合中最大的数是否大于相似度阈值,结果为是,则将对应文件定义为重点文件;结果为否,则将对应文件定义为普通文件。判断公式如下:
式中,FT为文件类型,GS为文件格式,X为格式信息集合,max(Z)为文件相似度集合中最大值,Z阈为相似度阈值,Tend为文件关闭时间,Tstart为文件打开时间,T阈为时间阈值。
在S3中,风险程度分为高风险和低风险。
高风险是指对重点文件的清理操作,当用户对包含重点文件的文件夹进行清理操作,或者系统自动对时间到达有效期的重点文件进行清理操作时,判定为高风险操作;低风险是指除高风险操作以外的所有操作。
对包含重点文件的文件夹进行清理操作和对重点文件直接进行清理操作这两者是不一样的。前者在对文件夹进行直接清理时,有可能是在没有完全了解文件夹内所有内容的情况下进行清理的,而这种行为极有可能导致需要用到的文件跟随文件夹一起被误删除了。而直接对文件进行清理,则表明用户是经过主观判断再进行的操作,不存在上述现象。所以,当用户对重点文件直接清理不纳入高风险操作,而对包含重点文件的文件夹进行清理操作时,判定为高风险操作。
在S4中,预警提醒是指当监测到高风险操作时,系统自动拦截对应操作,同时给对应用户发送预警信息,提醒用户对清理操作进行确认。用户选择确认,则删除该文件或文件夹;用户选择取消,则自动将对应重点文件进行备份。
与现有技术相比,本发明所达到的有益效果是:
1、本发明对所有用户进行筛选,针对部分文件漏存率高的用户进行监测,减轻系统的资源消耗,提高监测效率。
2、本发明对被监测用户计算机上的文件进行重点文件划分,重点文件划分依据根据用户已保存的文件信息进行动态调整,且监测只针对重点文件进行,既能提高监测质量,又能减少监测压力。
3、本发明对重点文件的敏感操作进行预警,当用户对包含重点文件的文件夹进行清理或重点文件即将被系统自动清理时,自动给用户发送预警信息,最大程度上降低误删除概率。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明一种基于数据分析的风险监测预警系统及方法的结构示意图;
图2是本发明一种基于数据分析的风险监测预警系统及方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供技术方案:一种基于数据分析的风险监测预警系统,该预警系统包括数据采集模块、数据处理模块、运行管理模块和数据备份模块。
数据采集模块用于采集所有用户的操作信息,以及用户计算机内的文件信息;数据处理模块通过操作信息和文件信息筛选出数据漏存率高的用户,对这些用户计算机内的文件进行分析判断,找出重点文件进行监测;运行管理模块用于对重点文件的操作进行风险程度分析,高风险操作情况下及时给用户发送预警信息,根据用户回馈进行对应操作;数据备份模块用于对用户需要保存的文件进行备份。
数据采集模块包括操作信息采集单元和文件信息采集单元。
操作信息采集单元用于采集指定区域内所有用户对文件的操作信息,操作信息包括打开操作、关闭操作、清理操作和保存操作,以及这些操作对应的时间。
文件信息采集单元用于采集用户计算机内的文件信息,文件信息包括文件格式、文件名称和有效期。
操作信息的采集是针对指定区域内所有的用户,文件信息的采集是针对部分异常用户。
数据处理模块包括用户筛选单元和文件定义单元。
用户筛选单元用于在指定区域内所有用户中筛选出异常用户。
首先,收集所有用户的操作信息,识别出用户打开失败的文件数量,同时获取对应用户保存的文件数量;其次,将两者数量信息代入公式中计算得到文件漏存率;最后,将文件漏存率大于漏存率阈值的用户筛选出来,定义为异常用户。
为提高系统的整体运行效率,降低冗余数据带来的干扰,系统为每份接收到的文件设定有效期。有效期内,文件即使没有保存也能够正常打开;超过有效期,系统会自动清理掉。
通常情况下,用户通过浏览传输记录来实现快速找到并打开文件。传输记录中保存所有文件的索引信息,仅凭肉眼无法观测到传输记录中的文件是否过期。用户点击打开文件时,系统会自动按照传输记录中保存的索引信息去硬盘上查找,若文件不超过有效期,则能够正常打开;超过有效期,则被系统自动清理掉,按照索引信息无法找到对应文件,打开失败。
当用户点击打开文件时,说明用户对这份文件存在需求,如果这份文件之前没有进行保存且超过有效期,则无法打开,该行为属于漏保存现象。用户这种行为次数过多,则说明对应用户经常性忘记保存重要文件,为降低数据丢失概率,有必要筛选出这类用户进行监测。
文件定义单元用于定义文件的状态信息和类型信息;状态信息包括已存和未存,类型信息包括重点和普通。
首先,收集所有异常用户计算机内的文件信息,按照是否被用户保存来区分已存文件和未存文件;其次,将未存文件浏览时间大于时间阈值的定义为重点文件;然后,根据已存文件的格式和名称建立格式信息集合和名称信息集合,判断未存文件格式是否属于格式信息集合,计算未存文件名称与名称信息集合中每一个元素的相似度;最后,将属于格式信息集合且最大相似度大于相似度阈值所对应的未存文件定义为重点文件,其他情况则定义为普通文件。
已存文件和未存文件是指文件的一种状态,当用户接收到文件时,选择主动保存即为已存文件,未进行保存则为未存文件。已存文件会被永久存储在计算机上,无有效期;未存文件会被临时存储在计算机上,超过有效期会被系统当作缓存自动清理掉,但是传输记录仍然存在,只是无法打开文件。
运行管理模块包括操作管理单元和风险管理单元。
操作管理单元用于判断用户操作的风险程度。实时获取异常用户的操作信息和文件信息进行监测,当用户对包含重点文件的文件夹进行清理操作,或者系统自动对时间到达有效期的重点文件进行清理操作时,判定为高风险操作;其他情况下,判定为低风险操作。
风险管理单元用于对高风险操作进行预警。当监测到高风险操作时,系统自动拦截对应操作,同时给对应用户发送预警信息,提醒用户针对清理行为做进一步确认,用户选择确认,则删除该文件或文件夹;用户选择取消,则跳转到数据备份模块。
当用户对包含重点文件的文件夹进行清理时,由于用户可能不完全知晓清理文件夹下每一个清理对象,此时误删除概率较大,系统判定为高风险操作。但是当用户直接对重点文件进行清理时,由于用户已经知晓清理对象,所以这种情况下不会被系统判定为高风险操作。
当重点文件被清理时,系统自动拦截该操作,并发送预警信息,让用户进一步确认。预警信息内容包括对要清理的文件夹下重点文件名称的展示,或者系统将对时间到达有效期的重点文件进行清理等文字内容,提供确定和取消两个选项,根据用户选择进行相应操作。用户在进行选择的时间内,重点文件不会被清理。这样,即避免了由于用户疏忽大意所造成的重要文件误删除,也避免了重要文件超过有效期被系统自动当作缓存清理掉。
数据备份模块用于将用户已经保存的文件以及需要保存的文件进行备份。
请参阅图2,本发明提供技术方案,一种基于数据分析的风险监测预警方法,该预警方法包括以下步骤:
S1、在所有用户中筛选出异常用户;
S2、检测异常用户计算机内重点文件;
S3、监测对重点文件的所有操作,判断风险程度;
S4、针对高风险操作及时预警提醒。
在S1中,对异常用户的筛选步骤如下:
S101、获取指定区域内所有用户的操作信息,以及用户计算机内的文件信息。操作信息包括打开操作、关闭操作、清理操作和保存操作,以及这些操作对应的时间;文件信息包括文件格式、文件名称和有效期。
操作信息与用户绑定,一个用户能够多次操作同一份文件或不同文件。文件与操作信息绑定,一个操作信息只能对应一份文件。
S102、识别每个用户打开操作的失败次数,打开失败是指用户打开文件时,对应文件超过有效期被系统自动清理了,文件无法被打开导致打开失败。筛选出打开失败次数不为零的用户,对这些用户进行标记。
为确保后续计算的准确性,每份文件只有在首次被打开失败时才会计入失败次数,即使后续再次打开失败也不会计入失败次数。失败次数与文件数挂钩,同一时间多次打开同一份文件失败只计入一次失败次数,同一时间打开N个不同的文件失败计入N次失败次数。
S103、获取被标记的用户计算机中保存文件的数量,与对应用户打开文件失败次数一起代入公式中,计算得到文件漏存率,依次筛选出文件漏存率大于漏存率阈值的用户,将这些用户定义为异常用户;公式如下:
式中,result为用户类型判断结果,e为用户打开失败次数,f为用户保存文件的数量,F为漏存率阈值。
在S2中,检测重点文件的步骤如下:
S201、获取所有异常用户计算机内的文件信息,按照是否被用户保存进行分类,划分为已存文件和未存文件。已存文件是指被用户保存的文件,未存文件是指没有被用户保存且没有超过有效期的文件。
S202、获取未存文件对应的操作信息,判断打开操作与关闭操作时间差,将该时间差定义为该文件的浏览时间。判断浏览时间是否大于时间阈值,结果为是,则将对应文件定义为重点文件,进入下一步骤;结果为否,则直接进入下一步骤。
S203、获取已存文件的格式信息,将这些信息放入格式信息集合X中,集合X内包括{Q1,Q2,Q3,...,Qi},其中,i表示格式信息个数,Qi表示第i个格式信息的值。
S204、获取已存文件的名称信息,将这些信息放入名称信息集合Y中,集合Y内包括{W1,W2,W3,...,Wj},其中,j表示名称信息个数,Wj表示第j个名称信息的值。
S205、获取剩余没有被定义的未存文件的格式信息,依次判断是否属于格式信息集合,结果为是,则将对应的未存文件进行标记;结果为否,则将对应文件定义为普通文件。
S206、获取被标记文件的名称信息,依次与名称信息集合中每一个元素进行相似度计算,得到的相似度放入相似度集合Z中,每份被标记文件对应一个相似度集合。相似度计算步骤如下:
S206-1、对文件名称进行分词处理,将每个名称转化为一个词语列表。
S206-2、去除每个词语列表中的重复词语,得到两个不同的词语集合。
S206-3、将两个不同的词语集合合并,得到总词语集合。
S206-4、将总词语集合中的每个词语构建出一个向量,向量的每一维表示该词语在文本中出现的次数。使用公式计算两个向量之间的相似度,公式如下:
式中,cos(θ)为文件名称的相似度,|a|表示向量a的模,|b|表示向量b的模,a×b表示向量a和向量b的内积。
S207、判断每份被标记文件对应相似度集合中最大的数是否大于相似度阈值,结果为是,则将对应文件定义为重点文件;结果为否,则将对应文件定义为普通文件。判断公式如下:
式中,FT为文件类型,GS为文件格式,X为格式信息集合,max(Z)为文件相似度集合中最大值,Z阈为相似度阈值,Tend为文件关闭时间,Tstart为文件打开时间,T阈为时间阈值。
在S3中,风险程度分为高风险和低风险。
高风险是指对重点文件的清理操作,当用户对包含重点文件的文件夹进行清理操作,或者系统自动对时间到达有效期的重点文件进行清理操作时,判定为高风险操作;低风险是指除高风险操作以外的所有操作。
对包含重点文件的文件夹进行清理操作和对重点文件直接进行清理操作这两者是不一样的。前者在对文件夹进行直接清理时,有可能是在没有完全了解文件夹内所有内容的情况下进行清理的,而这种行为极有可能导致需要用到的文件跟随文件夹一起被误删除了。而直接对文件进行清理,则表明用户是经过主观判断再进行的操作,不存在上述现象。所以,当用户对重点文件直接清理不纳入高风险操作,而对包含重点文件的文件夹进行清理操作时,判定为高风险操作。
在S4中,预警提醒是指当监测到高风险操作时,系统自动拦截对应操作,同时给对应用户发送预警信息,提醒用户对清理操作进行确认。用户选择确认,则删除该文件或文件夹;用户选择取消,则自动将对应重点文件进行备份。
实施例一:
假设指定区域内存在A、B和C三个用户,用户打开失败次数与保存文件数量分别为:
A用户:打开失败次数15次,保存文件数量85个;
B用户:打开失败次数10次,保存文件数量90个;
C用户:打开失败次数20次,保存文件数量60个;
假设漏存率阈值为0.1,则用户类型判断结果为个:
A用户:异常用户;
B用户:正常用户;
C用户:异常用户;
对A用户和B用户计算机内重点文件进行监测,当用户对包含重点文件的文件夹进行清理操作,或者系统自动对时间到达有效期的重点文件进行清理操作时,自动预警并提醒。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于数据分析的风险监测预警系统,其特征在于:该预警系统包括数据采集模块、数据处理模块、运行管理模块和数据备份模块;
所述数据采集模块用于采集所有用户的操作信息,以及用户计算机内的文件信息;所述数据处理模块通过操作信息和文件信息筛选出数据漏存率高的用户,对这些用户计算机内的文件进行分析判断,找出重点文件进行监测;所述运行管理模块用于对重点文件的操作进行风险程度分析,高风险操作情况下及时给用户发送预警信息,根据用户回馈进行对应操作;所述数据备份模块用于对用户需要保存的文件进行备份。
2.根据权利要求1所述的一种基于数据分析的风险监测预警系统,其特征在于:所述数据采集模块包括操作信息采集单元和文件信息采集单元;
所述操作信息采集单元用于采集指定区域内所有用户对文件的操作信息,操作信息包括打开操作、关闭操作、清理操作和保存操作,以及这些操作对应的时间;
所述文件信息采集单元用于采集用户计算机内的文件信息,文件信息包括文件格式、文件名称和有效期。
3.根据权利要求1所述的一种基于数据分析的风险监测预警系统,其特征在于:所述数据处理模块包括用户筛选单元和文件定义单元;
所述用户筛选单元用于在指定区域内所有用户中筛选出异常用户;
首先,收集所有用户的操作信息,识别出用户打开失败的文件数量,同时获取对应用户保存的文件数量;其次,将两者数量信息代入公式中计算得到文件漏存率;最后,将文件漏存率大于漏存率阈值的用户筛选出来,定义为异常用户;
所述文件定义单元用于定义文件的状态信息和类型信息;状态信息包括已存和未存,类型信息包括重点和普通;
首先,收集所有异常用户计算机内的文件信息,按照是否被用户保存来区分已存文件和未存文件;其次,将未存文件浏览时间大于时间阈值的定义为重点文件;然后,根据已存文件的格式和名称建立格式信息集合和名称信息集合,判断未存文件格式是否属于格式信息集合,计算未存文件名称与名称信息集合中每一个元素的相似度;最后,将属于格式信息集合且最大相似度大于相似度阈值所对应的未存文件定义为重点文件,其他情况则定义为普通文件。
4.根据权利要求1所述的一种基于数据分析的风险监测预警系统,其特征在于:所述运行管理模块包括操作管理单元和风险管理单元;
所述操作管理单元用于判断用户操作的风险程度;实时获取异常用户的操作信息和文件信息进行监测,当用户对包含重点文件的文件夹进行清理操作,或者系统自动对时间到达有效期的重点文件进行清理操作时,判定为高风险操作;其他情况下,判定为低风险操作;
所述风险管理单元用于对高风险操作进行预警;当监测到高风险操作时,系统自动拦截对应操作,同时给对应用户发送预警信息,提醒用户针对清理行为做进一步确认,用户选择确认,则删除该文件或文件夹;用户选择取消,则跳转到数据备份模块。
5.根据权利要求1所述的一种基于数据分析的风险监测预警系统,其特征在于:所述数据备份模块用于将用户已经保存的文件以及需要保存的文件进行备份。
6.一种基于数据分析的风险监测预警方法,其特征在于,该预警方法包括以下步骤:
S1、在所有用户中筛选出异常用户;
S2、检测异常用户计算机内重点文件;
S3、监测对重点文件的所有操作,判断风险程度;
S4、针对高风险操作及时预警提醒。
7.根据权利要求6所述的一种基于数据分析的风险监测预警方法,其特征在于,在S1中,对异常用户的筛选步骤如下:
S101、获取指定区域内所有用户的操作信息,以及用户计算机内的文件信息;操作信息包括打开操作、关闭操作、清理操作和保存操作,以及这些操作对应的时间;文件信息包括文件格式、文件名称和有效期;
S102、识别每个用户打开操作的失败次数,打开失败是指用户打开文件时,对应文件超过有效期被系统自动清理了,文件无法被打开导致打开失败;筛选出打开失败次数不为零的用户,对这些用户进行标记;
S103、获取被标记的用户计算机中保存文件的数量,与对应用户打开文件失败次数一起代入公式中,计算得到文件漏存率,依次筛选出文件漏存率大于漏存率阈值的用户,将这些用户定义为异常用户;公式如下:
式中,result为用户类型判断结果,e为用户打开失败次数,f为用户保存文件的数量,F为漏存率阈值。
8.根据权利要求6所述的一种基于数据分析的风险监测预警方法,其特征在于,在S2中,检测重点文件的步骤如下:
S201、获取所有异常用户计算机内的文件信息,按照是否被用户保存进行分类,划分为已存文件和未存文件;已存文件是指被用户保存的文件,未存文件是指没有被用户保存且没有超过有效期的文件;
S202、获取未存文件对应的操作信息,判断打开操作与关闭操作时间差,将该时间差定义为该文件的浏览时间;判断浏览时间是否大于时间阈值,结果为是,则将对应文件定义为重点文件,进入下一步骤;结果为否,则直接进入下一步骤;
S203、获取已存文件的格式信息,将这些信息放入格式信息集合X中,集合X内包括{Q1,Q2,Q3,...,Qi},其中,i表示格式信息个数,Qi表示第i个格式信息的值;
S204、获取已存文件的名称信息,将这些信息放入名称信息集合Y中,集合Y内包括{W1,W2,W3,...,Wj},其中,j表示名称信息个数,Wj表示第j个名称信息的值;
S205、获取剩余没有被定义的未存文件的格式信息,依次判断是否属于格式信息集合,结果为是,则将对应的未存文件进行标记;结果为否,则将对应文件定义为普通文件;
S206、获取被标记文件的名称信息,依次与名称信息集合中每一个元素进行相似度计算,得到的相似度放入相似度集合Z中,每份被标记文件对应一个相似度集合,相似度计算步骤如下:
S206-1、对文件名称进行分词处理,将每个名称转化为一个词语列表;
S206-2、去除每个词语列表中的重复词语,得到两个不同的词语集合;
S206-3、将两个不同的词语集合合并,得到总词语集合;
S206-4、将总词语集合中的每个词语构建出一个向量,向量的每一维表示该词语在文本中出现的次数;使用公式计算两个向量之间的相似度,公式如下:
式中,cos(θ)为文件名称的相似度,|a|表示向量a的模,|b|表示向量b的模,a×b表示向量a和向量b的内积;
S207、判断每份被标记文件对应相似度集合中最大的数是否大于相似度阈值,结果为是,则将对应文件定义为重点文件;结果为否,则将对应文件定义为普通文件;判断公式如下:
式中,FT为文件类型,GS为文件格式,X为格式信息集合,max(Z)为文件相似度集合中最大值,Z阈为相似度阈值,Tend为文件关闭时间,Tstart为文件打开时间,T阈为时间阈值。
9.根据权利要求6所述的一种基于数据分析的风险监测预警方法,其特征在于:在S3中,风险程度分为高风险和低风险;
高风险是指对重点文件的清理操作,当用户对包含重点文件的文件夹进行清理操作,或者系统自动对时间到达有效期的重点文件进行清理操作时,判定为高风险操作;低风险是指除高风险操作以外的所有操作。
10.根据权利要求6所述的一种基于数据分析的风险监测预警方法,其特征在于:在S4中,预警提醒是指当监测到高风险操作时,系统自动拦截对应操作,同时给对应用户发送预警信息,提醒用户对清理操作进行确认;用户选择确认,则删除该文件或文件夹;用户选择取消,则自动将对应重点文件进行备份。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310703116.0A CN116701118A (zh) | 2023-06-14 | 2023-06-14 | 一种基于数据分析的风险监测预警系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310703116.0A CN116701118A (zh) | 2023-06-14 | 2023-06-14 | 一种基于数据分析的风险监测预警系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116701118A true CN116701118A (zh) | 2023-09-05 |
Family
ID=87838824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310703116.0A Pending CN116701118A (zh) | 2023-06-14 | 2023-06-14 | 一种基于数据分析的风险监测预警系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116701118A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980797A (zh) * | 2017-03-24 | 2017-07-25 | 北京奇虎科技有限公司 | 一种实现文件保护的方法、装置和计算设备 |
CN110895608A (zh) * | 2018-09-12 | 2020-03-20 | 珠海格力电器股份有限公司 | 一种文件下载预警提示系统及其预警提示方法 |
KR102175094B1 (ko) * | 2020-06-04 | 2020-11-05 | 최훈권 | 병렬처리 압축 기반 데이터 중복성 제거를 통한 고효율 데이터 저장 시스템 |
CN114398667A (zh) * | 2021-12-14 | 2022-04-26 | 中国通信建设第三工程局有限公司 | 一种计算机存储系统的数据安全访问系统及方法 |
CN115033885A (zh) * | 2022-06-01 | 2022-09-09 | 陈龙 | 一种计算机大数据处理的信息安全管控系统及方法 |
CN115146304A (zh) * | 2021-03-31 | 2022-10-04 | 奇安信科技集团股份有限公司 | 一种检测文件泄露行为的方法以及装置 |
CN115310139A (zh) * | 2021-05-06 | 2022-11-08 | 中国移动通信集团设计院有限公司 | 文件监控预警系统、方法、计算设备及计算机存储介质 |
-
2023
- 2023-06-14 CN CN202310703116.0A patent/CN116701118A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980797A (zh) * | 2017-03-24 | 2017-07-25 | 北京奇虎科技有限公司 | 一种实现文件保护的方法、装置和计算设备 |
CN110895608A (zh) * | 2018-09-12 | 2020-03-20 | 珠海格力电器股份有限公司 | 一种文件下载预警提示系统及其预警提示方法 |
KR102175094B1 (ko) * | 2020-06-04 | 2020-11-05 | 최훈권 | 병렬처리 압축 기반 데이터 중복성 제거를 통한 고효율 데이터 저장 시스템 |
CN115146304A (zh) * | 2021-03-31 | 2022-10-04 | 奇安信科技集团股份有限公司 | 一种检测文件泄露行为的方法以及装置 |
CN115310139A (zh) * | 2021-05-06 | 2022-11-08 | 中国移动通信集团设计院有限公司 | 文件监控预警系统、方法、计算设备及计算机存储介质 |
CN114398667A (zh) * | 2021-12-14 | 2022-04-26 | 中国通信建设第三工程局有限公司 | 一种计算机存储系统的数据安全访问系统及方法 |
CN115033885A (zh) * | 2022-06-01 | 2022-09-09 | 陈龙 | 一种计算机大数据处理的信息安全管控系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11675672B2 (en) | Automation and optimization of data recovery after a ransomware attack | |
US20070118528A1 (en) | Apparatus and method for blocking phishing web page access | |
US20090125751A1 (en) | System and Method for Correlated Analysis of Data Recovery Readiness for Data Assets | |
CN108984708B (zh) | 脏数据识别方法及装置、数据清洗方法及装置、控制器 | |
US7571351B2 (en) | Method for controlling a policy | |
US10452627B2 (en) | Column weight calculation for data deduplication | |
EP2026184B1 (en) | Device, method, and program for selecting data storage destination from a plurality of tape recording devices | |
US6397247B1 (en) | Failure prediction system and method for a client-server network | |
CN112528279B (zh) | 一种入侵检测模型的建立方法和装置 | |
JP7332949B2 (ja) | 評価方法、評価プログラム、および情報処理装置 | |
CN109496292A (zh) | 一种磁盘管理方法、磁盘管理装置及电子设备 | |
JP2000155719A (ja) | デ―タのバックアップ・復旧システムおよび非同期デ―タ管理方法 | |
CN114398667A (zh) | 一种计算机存储系统的数据安全访问系统及方法 | |
CN116701118A (zh) | 一种基于数据分析的风险监测预警系统及方法 | |
CN108459927A (zh) | 一种数据备份方法、装置和服务器 | |
CN106649458A (zh) | 一种文件更新量检测方法及系统 | |
CN114328127A (zh) | 软件性能异常情况的检测方法及检测装置 | |
CN113254938A (zh) | 自动化安全测试结果的处理方法、设备及介质 | |
CN112052468A (zh) | 一种用于信息保护的快速数据删除方法 | |
KR100567813B1 (ko) | 텐덤 시스템의 트랜잭션 분석 시스템 | |
US10606901B1 (en) | Data disposition services orchestrated in an information management infrastructure | |
JPH10134086A (ja) | 因果関係検出装置及び方法 | |
US11928135B2 (en) | Edge computing data reproduction and filtering gatekeeper | |
CN116383715A (zh) | 一种基于双指纹的Prometheus告警信号归类方法及装置 | |
US10496511B2 (en) | Frequent items detection in data sets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |