CN112364347A - 一种识别高频数据访问和操作的高性能计算方法 - Google Patents
一种识别高频数据访问和操作的高性能计算方法 Download PDFInfo
- Publication number
- CN112364347A CN112364347A CN202011302520.XA CN202011302520A CN112364347A CN 112364347 A CN112364347 A CN 112364347A CN 202011302520 A CN202011302520 A CN 202011302520A CN 112364347 A CN112364347 A CN 112364347A
- Authority
- CN
- China
- Prior art keywords
- data
- frequency
- signature
- main body
- access
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims abstract description 5
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/552—Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种识别高频数据访问和操作的高性能计算方法,具体涉及在安全大数据、数据安全、大数据处理、网络数据分析等多个一种识别高频数据访问和操作的高性能计算方法领域,包括以下步骤:步骤一、数据预处理模块;步骤二、数据缓存模块;步骤三、数据访问频次位图;步骤四、数据计算模块。本发明通过以数据操作对象为依据来衡量每个数据操作主体的高频数据操作行为,有效剔除无效操作对高频操作行为的刻画,通过结合bloomfilter和时序位图相结合方式来高效计算每个操作主体的每个时间窗口的去重访问次数,有效解决了重复操作和访问对数据访问频次刻画的影响的问题。
Description
技术领域
本发明实施例涉及在安全大数据、数据安全、大数据处理、网络数据分析等多个一种识别高频数据访问和操作的高性能计算方法领域,具体涉及一种识别高频数据访问和操作的高性能计算方法。
背景技术
大数据时代,数据被广泛应用企业生产和运营的各个场景。随着数据的广泛应用,存在大量的数据操作和使用的场景,而对这些数据使用和操作的监控变得格外重要,其中对异常高频的数据操作和访问就是其中一个重要的维度。
现有的高频数据操作和访问识别一般将时间划分为若干个窗口,计算每个窗口的访问次数,如果超过一定阀值就认为是有风险的高频操作和访问。但这种方法显著的弊端就是在进行高频统计过程中忽视了数据操作对象,因为在实际场景下,由于业务系统的设计或者业务流程的设计,操作主体往往会短时间内多次访问同一个数据客体,而这种类型的访问很多时候是无效的访问,不应纳入对操作主体的访问频率刻画。
发明内容
为解决重复操作和访问对数据访问频次刻画的影响,本发明提供了一种新的方式来衡量数据操作主体在短时间内发起的有效的数据操作和访问次数,同时提供一种高性能的计算方式来实现对海量主体的多时间段数据操作和访问频率度量。
为了实现上述目的,本发明实施例提供如下技术方案:一种识别高频数据访问和操作的高性能计算方法,包括以下步骤:
步骤一、数据预处理模块:对数据流动相关的日志进行结构化预处理,提取对数据操作的主体标识和被操作的数据客体标识,同时对被操作的数据客体计算数据签名;
步骤二、数据缓存模块:针对每个数据操作主体标识,记录该主体操作过的数据签名信息;
步骤三、数据访问频次位图:对数据操作主体的访问行为进行刻画,记录该主体访问数据的频次;
步骤四、数据计算模块。
进一步地,在步骤一中数据操作主体可以是多个,包括账号、用户、IP。
进一步地,在步骤一中数据签名计算方式如下:
S1、数据排序:统一将数据按照字符处理,按照字典序进行排序;
S2、数据拼接:将数据按照排序结构进行拼接;
S3、计算签名:计算拼接之后的字符串的hash值作为签名。
进一步地,在步骤二中具体的存储方式采用精确记录完整的数据签名清单或者bloomfilter等概率记录的方式来记录数据签名清单。
进一步地,在步骤三中将单日访问行为划分为分钟维度的频次位图,根据数据操作主体的访问行为(时间戳)以及数据缓存模块中该主体访问的数据签名,更新该时间段位图信息。
进一步地,在步骤四中具体步骤如下:
S1、每次接受到一个新的数据操作日志,利用数据预处理模块对日志进行结构化处理;
S2、从数据缓存模块提取每个主体的操作和访问过的数据签名信息;
S3、将该事件的数据签名跟历史的数据数据签名进行比对,如果是首次出现,则更新对应主体在当前时间窗口的位图数量;
S4、比对更新后的数据访问频次,如果超过预设的阀值,则进行告警;
S5、数据缓存更新:用新的数据签名信息更新各个主体的历史数据签名记录,并将更新后的结果存入数据缓存模块。
本发明实施例具有如下优点:
本发明通过以数据操作对象为依据来衡量每个数据操作主体的高频数据操作行为,有效剔除无效操作对高频操作行为的刻画,通过结合bloomfilter和时序位图相结合方式来高效计算每个操作主体的每个时间窗口的去重访问次数,有效解决了重复操作和访问对数据访问频次刻画的影响的问题。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
图1为本发明提供的流程图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照附图1,本发明提供一种识别高频数据访问和操作的高性能计算方法,包括以下步骤:
步骤一、数据预处理模块:对数据流动相关的日志进行结构化预处理,提取对数据操作的主体标识和被操作的数据客体标识,其中数据操作主体可以是多个,包括账号、用户、IP等,同时对被操作的数据客体计算数据签名,数据签名计算方式如下:
S1、数据排序:统一将数据按照字符处理,按照字典序进行排序;
S2、数据拼接:将数据按照排序结构进行拼接;
S3、计算签名:计算拼接之后的字符串的hash值作为签名。
步骤二、数据缓存模块:针对每个数据操作主体标识,记录该主体操作过的数据签名信息,具体的存储方式可以采用精确记录完整的数据签名清单或者bloomfilter等概率记录的方式来记录数据签名清单;
步骤三、数据访问频次位图:对数据操作主体的访问行为进行刻画,记录该主体访问数据的频次,将单日访问行为划分为分钟维度的频次位图,根据数据操作主体的访问行为(时间戳)以及数据缓存模块中该主体访问的数据签名,更新该时间段位图信息;
步骤四、数据计算模块:
S1、每次接受到一个新的数据操作日志,利用数据预处理模块对日志进行结构化处理;
S2、从数据缓存模块提取每个主体的操作和访问过的数据签名信息;
S3、将该事件的数据签名跟历史的数据数据签名进行比对,如果是首次出现,则更新对应主体在当前时间窗口的位图数量;
S4、比对更新后的数据访问频次,如果超过预设的阀值,则进行告警;
S5、数据缓存更新:用新的数据签名信息更新各个主体的历史数据签名记录,并将更新后的结果存入数据缓存模块。
本发明通过以数据操作对象为依据来衡量每个数据操作主体的高频数据操作行为,有效剔除无效操作对高频操作行为的刻画,通过结合bloomfilter和时序位图相结合方式来高效计算每个操作主体的每个时间窗口的去重访问次数,有效解决了重复操作和访问对数据访问频次刻画的影响的问题。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (6)
1.一种识别高频数据访问和操作的高性能计算方法,其特征在于:包括以下步骤:
步骤一、数据预处理模块:对数据流动相关的日志进行结构化预处理,提取对数据操作的主体标识和被操作的数据客体标识,同时对被操作的数据客体计算数据签名;
步骤二、数据缓存模块:针对每个数据操作主体标识,记录该主体操作过的数据签名信息;
步骤三、数据访问频次位图:对数据操作主体的访问行为进行刻画,记录该主体访问数据的频次;
步骤四、数据计算模块。
2.根据权利要求1所述的一种识别高频数据访问和操作的高性能计算方法,其特征在于:在步骤一中数据操作主体可以是多个,包括账号、用户、IP。
3.根据权利要求1所述的一种识别高频数据访问和操作的高性能计算方法,其特征在于:在步骤一中数据签名计算方式如下:
S1、数据排序:统一将数据按照字符处理,按照字典序进行排序;
S2、数据拼接:将数据按照排序结构进行拼接;
S3、计算签名:计算拼接之后的字符串的hash值作为签名。
4.根据权利要求1所述的一种识别高频数据访问和操作的高性能计算方法,其特征在于:在步骤二中具体的存储方式采用精确记录完整的数据签名清单或者bloomfilter等概率记录的方式来记录数据签名清单。
5.根据权利要求1所述的一种识别高频数据访问和操作的高性能计算方法,其特征在于:在步骤三中将单日访问行为划分为分钟维度的频次位图,根据数据操作主体的访问行为以及数据缓存模块中该主体访问的数据签名,更新该时间段位图信息。
6.根据权利要求1所述的一种识别高频数据访问和操作的高性能计算方法,其特征在于:在步骤四中具体步骤如下:
S1、每次接受到一个新的数据操作日志,利用数据预处理模块对日志进行结构化处理;
S2、从数据缓存模块提取每个主体的操作和访问过的数据签名信息;
S3、将该事件的数据签名跟历史的数据数据签名进行比对,如果是首次出现,则更新对应主体在当前时间窗口的位图数量;
S4、比对更新后的数据访问频次,如果超过预设的阀值,则进行告警;
S5、数据缓存更新:用新的数据签名信息更新各个主体的历史数据签名记录,并将更新后的结果存入数据缓存模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011302520.XA CN112364347A (zh) | 2020-11-19 | 2020-11-19 | 一种识别高频数据访问和操作的高性能计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011302520.XA CN112364347A (zh) | 2020-11-19 | 2020-11-19 | 一种识别高频数据访问和操作的高性能计算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112364347A true CN112364347A (zh) | 2021-02-12 |
Family
ID=74532565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011302520.XA Pending CN112364347A (zh) | 2020-11-19 | 2020-11-19 | 一种识别高频数据访问和操作的高性能计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364347A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103002329A (zh) * | 2012-12-03 | 2013-03-27 | 合一网络技术(北京)有限公司 | 一种预测网络视频广告的到达频次表数据的装置及方法 |
CN106657007A (zh) * | 2016-11-18 | 2017-05-10 | 北京红马传媒文化发展有限公司 | 识别基于dbscan模型的非正常批量购票行为的方法 |
CN109246116A (zh) * | 2018-09-26 | 2019-01-18 | 北京云端智度科技有限公司 | 一种基于dns日志分析的网络异常检测系统 |
CN109359263A (zh) * | 2018-10-16 | 2019-02-19 | 杭州安恒信息技术股份有限公司 | 一种用户行为特征提取方法及系统 |
-
2020
- 2020-11-19 CN CN202011302520.XA patent/CN112364347A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103002329A (zh) * | 2012-12-03 | 2013-03-27 | 合一网络技术(北京)有限公司 | 一种预测网络视频广告的到达频次表数据的装置及方法 |
CN106657007A (zh) * | 2016-11-18 | 2017-05-10 | 北京红马传媒文化发展有限公司 | 识别基于dbscan模型的非正常批量购票行为的方法 |
CN109246116A (zh) * | 2018-09-26 | 2019-01-18 | 北京云端智度科技有限公司 | 一种基于dns日志分析的网络异常检测系统 |
CN109359263A (zh) * | 2018-10-16 | 2019-02-19 | 杭州安恒信息技术股份有限公司 | 一种用户行为特征提取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230396633A1 (en) | Method and Apparatus for Detecting Security Event, and Computer-Readable Storage Medium | |
CN112769775B (zh) | 一种威胁情报关联分析方法、系统、设备及计算机介质 | |
WO2010015145A1 (zh) | 过滤以及监控程序行为的方法和系统 | |
CN112839014A (zh) | 建立识别异常访问者模型的方法、系统、设备及介质 | |
CN115687432A (zh) | 用于监测异常交易数据的方法、设备和介质 | |
CN112395179A (zh) | 一种模型训练方法、磁盘预测方法、装置及电子设备 | |
CN111797104A (zh) | 数据变更情况的获取方法、装置及电子设备 | |
CN111177362A (zh) | 一种信息处理方法、装置、服务器及介质 | |
CN117609992A (zh) | 一种数据泄密检测方法、装置及存储介质 | |
WO2016127858A1 (zh) | 网页入侵脚本特征的识别方法及设备 | |
CN112364347A (zh) | 一种识别高频数据访问和操作的高性能计算方法 | |
CN107315806B (zh) | 一种基于文件系统的嵌入式存储方法和装置 | |
CN114625805B (zh) | 一种回测配置方法、装置、设备及介质 | |
CN116303901A (zh) | 一种基于文本聚类的环境公告信息提取方法和装置 | |
CN115470489A (zh) | 检测模型训练方法、检测方法、设备以及计算机可读介质 | |
CN112380174B (zh) | 含删除文件的xfs文件系统解析方法、终端设备及存储介质 | |
CN112003819B (zh) | 识别爬虫的方法、装置、设备和计算机存储介质 | |
CN113326688A (zh) | 一种基于思想政治词语查重处理方法和装置 | |
CN111158994A (zh) | 一种压测性能测试方法及装置 | |
CN108073521B (zh) | 一种数据去重的方法和系统 | |
CN115454983B (zh) | 一种基于布隆过滤器的海量Hbase数据去重方法 | |
CN114138552B (zh) | 数据动态重删方法、系统、终端及存储介质 | |
CN118037472B (zh) | 财务数据处理方法及相关装置 | |
RU2824919C1 (ru) | Способ и система определения активности учетных записей в вычислительной среде | |
US20240211598A1 (en) | Data detection method and electronic device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210212 |