CN110020161B - 数据处理方法、日志处理方法和终端 - Google Patents

数据处理方法、日志处理方法和终端 Download PDF

Info

Publication number
CN110020161B
CN110020161B CN201711329386.0A CN201711329386A CN110020161B CN 110020161 B CN110020161 B CN 110020161B CN 201711329386 A CN201711329386 A CN 201711329386A CN 110020161 B CN110020161 B CN 110020161B
Authority
CN
China
Prior art keywords
log
data
data link
transfer protocol
hypertext transfer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711329386.0A
Other languages
English (en)
Other versions
CN110020161A (zh
Inventor
王意林
尚博
张永钰
李奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201711329386.0A priority Critical patent/CN110020161B/zh
Publication of CN110020161A publication Critical patent/CN110020161A/zh
Application granted granted Critical
Publication of CN110020161B publication Critical patent/CN110020161B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种数据处理方法、日志处理方法和终端。其中,该方法包括:获取数据链路对应的日志,其中,数据链路包括:数据从数据库经过中间件和/或应用代码最终展现的调用链路;通过日志对数据链路进行筛选,得到满足预设条件的数据链路。本发明解决了由于现有技术中通过人工对敏感数据进行排查,带来的排查效率低的技术问题。

Description

数据处理方法、日志处理方法和终端
技术领域
本发明涉及互联网技术应用领域,具体而言,涉及一种数据处理方法、日志处理方法和终端。
背景技术
随着网络技术的越来越发达,各企业和个人均对保障数据安全存在着极大的需求,在现有的污点分析技术会从代码层面入手,检测被攻击者输入污染的变量、内存和指令。
现有人工识别,很难列举所有敏感数据的匹配规则,在大流量的业务下,针对于每个HTTP请求做返回内容匹配,消耗资源量巨大。
针对上述由于现有技术中通过人工对敏感数据进行排查,带来的排查效率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据处理方法、日志处理方法和终端,以至少解决由于现有技术中通过人工对敏感数据进行排查,带来的排查效率低的技术问题。
根据本发明实施例的一个方面,提供了一种数据处理方法,包括:获取数据链路对应的日志,其中,数据链路包括:数据从数据库经过中间件和/或应用代码最终展现的调用链路;通过日志对数据链路进行筛选,得到满足预设条件的数据链路。
可选的,获取数据链路对应的日志包括:分别获取数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志。
进一步地,可选的,分别获取数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志包括:在获取数据链路对应的超文本传输协议日志的情况下,通过预设分光器镜像流量获取数据链路对应的超文本传输协议日志;其中,通过预设分光器镜像流量获取数据链路对应的超文本传输协议日志包括:在数据链路入口处通过路由设备配置流量镜像,获取所有数据链路以超文本传输协议传输的历史信息。
可选的,分别获取数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志包括:在获取数据链路对应的超文本传输协议日志的情况下,通过预设容器收集所有设备的日志,得到数据链路对应的超文本传输协议日志。
可选的,分别获取数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志包括:在获取数据链路对应的结构化查询语言日志的情况下,通过预设内核模块存储的结构化查询语言日志,得到数据链路对应的结构化查询语言日志。
可选的,分别获取数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志包括:在获取数据链路对应的业务打点日志的情况下,获取所有数据链路的网络请求,依据网络请求中携带的路径信息得到数据链路对应的业务打点日志。
可选的,通过日志对数据链路进行筛选,得到满足预设条件的数据链路包括:通过日志生成数据链路图;根据数据链路图对数据链路进行筛选,得到满足预设条件的数据链路。
进一步地,可选的,在通过日志生成数据链路图之前,该方法还包括:通过预设白盒代码对数据链路进行分析,得到数据链路对应的结构化查询语言的标识,以及数据链路对应的超文本传输协议接口和业务逻辑代码。
可选的,通过日志生成数据链路图包括:对结构化查询语言日志进行解析,得到数据链路中满足数据泄露条件的数据;通过对获取的数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志进行归一化操作,得到数据链路在各日志中的节点;依据数据和节点,得到数据链路图。
进一步地,可选的,根据数据链路图对数据链路进行筛选,得到满足预设条件的数据链路包括:根据预设搜索算法在数据链路图中进行搜索,得到数据对应的链路节点;依据链路节点得到数据链路。
可选的,预设条件包括:造成数据泄露的数据链路。
根据本发明实施例的另一方面,还提供了一种日志处理方法,包括:分别获取数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志;对结构化查询语言日志进行解析,得到数据链路中满足数据泄露条件的数据;通过对获取的数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志进行归一化操作,得到数据链路在各日志中的节点;依据数据和节点,得到数据链路图。
根据本发明实施例的又一方面,还提供了一种数据处理方法,包括:通过预设白盒代码对数据链路进行分析,得到数据链路对应的结构化查询语言的标识,数据链路对应的超文本传输协议接口和业务逻辑代码;分别获取数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志;依据结构化查询语言的标识查询对应的结构化查询语言日志,超文本传输协议接口查询对应的超文本传输协议日志和业务逻辑代码查询对应的业务打点日志,得到数据链路中满足数据泄露条件的数据;通过对超文本传输协议日志、结构化查询语言日志和业务打点日志进行归一化操作,得到数据链路在各日志中的节点;依据数据和节点,得到数据链路图。
根据本发明实施例的再一方面,还提供了一种终端,终端包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取数据链路对应的日志,其中,数据链路包括:数据从数据库经过中间件和/或应用代码最终展现的调用链路;通过日志,对数据链路进行筛选,得到满足预设条件的数据链路。
根据本发明实施例的又一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述数据处理方法。
根据本发明实施例的又一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述数据处理方法。
在本发明实施例中,通过获取数据链路对应的日志,其中,数据链路包括:数据从数据库经过中间件和/或应用代码最终展现的调用链路;通过日志对数据链路进行筛选,得到满足预设条件的数据链路,达到了自动排查敏感数据的目的,从而实现了提升对敏感数据进行排查的排查效率的技术效果,进而解决了由于现有技术中通过人工对敏感数据进行排查,带来的排查效率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种数据处理方法的计算机终端的硬件结构框图;
图2是根据本发明实施例一的数据处理方法的流程图;
图3是根据本发明实施例一的一种数据处理方法的流程图;
图4a是根据本发明实施例一的一种数据处理方法中使用分光器镜像流程存储获取HTTP日志的示意图;
图4b是根据本发明实施例一的一种数据处理方法中使用web容器的日志功能获取HTTP日志的示意图;
图4c是根据本发明实施例一的一种数据处理方法中获取SQL日志的示意图;
图4d是根据本发明实施例一的一种数据处理方法中获取业务打点日志的示意图;
图4e是根据本发明实施例一的一种数据处理方法中白盒代码分析的示意图;
图4f是根据本发明实施例一的一种数据处理方法中获取真实URL的示意图;
图4g是根据本发明实施例一的一种数据处理方法中SQL解析敏感字段的示意图;
图4h是根据本发明实施例一的一种数据处理方法中日志清洗的示意图;
图4i是根据本发明实施例一的一种数据处理方法中SQL语法解析的示意图;
图4j是根据本发明实施例一的一种数据处理方法中敏感数据打标的示意图;
图4k是根据本发明实施例一的一种数据处理方法中生成数据链路的示意图;
图5是根据本发明实施例四的一种终端的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请涉及的技术名词:
敏感信息泄露漏洞:业务逻辑中暴露用户敏感信息,可被攻击者批量抓取并利用于广告、诈骗等非法活动的页面或者接口。
动态污点分析:动态污点分析(Dynamic Taint Analysis)是近一种新的有效检测各种蠕虫攻击和自动提取特征码用于IDS和IPS的一系列解决方案。其原理主要分为两大部分:动态污点标记和非法操作检测、以及更精确的提取特征码的方法。
敏感信息:数据库中存储的用户相关隐私数据,如用户手机、身份证号码、真实姓名、购买记录等数据。
数据链路:数据从数据库经过中间件应用代码最终展现在客户端的链路,例如,数据爬取,根据浏览器接收的数据请求,后台服务器通过网络层反馈对应该数据请求的数据,其中,该数据从服务器中查询、调用、发送所经过的各个调用函数接口形成的路径,在本申请中称作数据链路。
威胁建模:通过数据链路图来辅助安全人员列举项目风险的一种方法论。
实施例1
根据本发明实施例,还提供了一种数据处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本发明实施例的一种数据处理方法的计算机终端的硬件结构框图。如图1所示,计算机终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的数据处理方法对应的程序指令/模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的数据处理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
在上述运行环境下,本申请提供了如图2所示的数据处理方法。图2是根据本发明实施例一的数据处理方法的流程图。
步骤S202,获取数据链路对应的日志,其中,数据链路包括:数据从数据库经过中间件和/或应用代码最终展现的调用链路;
具体的,本申请步骤S202中通过从数据库调取数据链路,其中,该数据链路为实施预定业务时,该预定业务所需数据在查询、调用、发送以及后续交互过程中,从数据库经过中间件应用代码最终展现在客户端的链路,通过获取该数据链路所属的日志,可以获取该数据链路在实施该预定业务时进行交互的历史信息。
其中,数据链路与对应的日志关系如表1所示:
表1
Figure BDA0001506322920000061
由于业务数据在经由服务器处理至展现在用户面前的过程中,在通过HTTP协议获取用户发起的业务请求,经由各个业务调用,并基于该业务请求通过SQL语句查询服务器,进而反馈用户的过程中,再通过各业务调用,通过HTTP协议返回响应结果时,会分别在超文本传输协议日志、业务打点日志以及结构化查询语言日志中留下历史记录,即,在超文本传输协议日志中留下该业务所调用的超文本传输协议接口;在结构化查询语言日志中留下该业务进行查询时的结构化查询语言的标识;以及,在业务打点日志中留下该业务调用函数时的业务逻辑代码;以便当进行业务风险排查时,通过提取一条业务数据链路,分别对应在上述各日志中查询对应的信息,通过对该信息进行过滤筛选,生成数据链路图,并根据该数据链路图查找数据泄露的节点位置。具体生成数据链路图见步骤S204。
步骤S204,通过日志对数据链路进行筛选,得到满足预设条件的数据链路;
其中,通过日志对数据链路进行筛选,得到满足预设条件的数据链路包括:
Setp1,通过日志生成数据链路图;
Setp2,根据数据链路图对数据链路进行筛选,得到满足预设条件的数据链路
具体的,本申请提供的数据链路图,根据日志自动生成,用于筛选出涉及处理敏感数据的高危页面/接口,其中,数据链路图包括:敏感数据对应的所有链路节点,以使得得到该敏感数据所流经的所有接口或页面。
其中,根据数据链路图对数据链路进行筛选,得到满足预设条件的数据链路,其中,预设条件包括:造成数据泄露的数据链路。
具体的,基于步骤S202中获取到的日志,以及步骤S204中根据该日志生成的数据链路图对数据链路进行筛选,得到涉及敏感数据的所有高危页面/接口,其中,本申请中该所有高危页面/接口做组成的能够说明数据链路向的链路称作数据链路。
综上,结合步骤S202和步骤S204,本申请提供的数据处理方法中如图3所示,图3是根据本发明实施例一的一种数据处理方法的流程图。
(1)收集数据链路所需的数据,包括:
a,收集应用HTTP流量信息,并根据应用进行收集分类;
b,对应用逻辑以及中间件涉及预设安全等级的步骤,在代码中进行埋点打标,并对日志进行收集分类;
其中,对代码进行埋点打标的过程可以根据代码涉及的风险优先级(或,安全等级)进行标记,以便后续调用过程中,根据该标记获取该代码对应的日志。
c,对数据库SQL执行日志进行记录,并统一收集分类。
d,使用代码扫描工具对应用代码进行扫描,分析出应用逻辑内部接口-SQL语句调用关系。
其中,如图3所示,在使用代码扫描工具对应用代码进行扫描,分析出应用逻辑内部接口-SQL语句调用关系的过程中,可以通过白盒代码分析进行扫描分析。
本申请以HTTP协议为优选示例进行说明,其他通信类协议,也可以通过获取数据的流量信息,根据该数据所属的应用进行手机分类,进而实现上述收集完成数据链路所需的数据的过程,以实现本申请提供的数据处理方法为准,具体不做限定。
(2)从SQL执行日志中,区分出涉及敏感数据查询的SQL语句。
a,针对于每条SQL进行语法解析,筛选出insert语句中每个字段的具体内容。
b,针对于识别出来的字段内容,使用正则和机器学习进行判断,筛选出涉及敏感数据查询的SQL语句。
(3)根据之前的收集的日志信息,计算生成数据链路。
a,日志归一化,生成数据链路图。
b,使用算法遍历调用链路图,生成敏感数据链路。
在本发明实施例中,通过获取数据链路对应的日志,其中,数据链路包括:数据从数据库经过中间件和/或应用代码最终展现的调用链路;通过日志对数据链路进行筛选,得到满足预设条件的数据链路,达到了自动排查敏感数据的目的,从而实现了提升对敏感数据进行排查的排查效率的技术效果,进而解决了由于现有技术中通过人工对敏感数据进行排查,带来的排查效率低的技术问题。
可选的,步骤S202中获取数据链路对应的日志包括:分别获取数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志。
其中,超文本传输协议日志,即,图3中的HTTP日志;结构化查询语言日志,即,图3中的SQL日志。
具体的,本申请实施例提供的HTTP日志收集目前有两种方式:
方式一:使用分光器镜像流程存储。
进一步地,可选的,分别获取数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志包括:
在获取数据链路对应的超文本传输协议日志的情况下,通过预设分光器镜像流量获取数据链路对应的超文本传输协议日志;其中,通过预设分光器镜像流量获取数据链路对应的超文本传输协议日志包括:在数据链路入口处通过路由设备配置流量镜像,获取所有数据链路以超文本传输协议传输的历史信息。
其中,如图4a所示,图4a是根据本发明实施例一的一种数据处理方法中使用分光器镜像流程存储获取HTTP日志的示意图。
使用分光器镜像流量存储。如图4a所示,在机房入口处,通过分流器或万兆路由器做流量镜像。在IDC机房较多,业务需要分布式部署,异地部署的情况下可以使用这种方法。
方式二:使用web容器的日志功能。
可选的,分别获取数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志包括:在获取数据链路对应的超文本传输协议日志的情况下,通过预设容器收集所有设备的日志,得到数据链路对应的超文本传输协议日志。
具体的,如图4b所示,图4b是根据本发明实施例一的一种数据处理方法中使用web容器的日志功能获取HTTP日志的示意图。使用web容器的日志功能,在机器较少部署环境不复杂的场景下使用。需要将每个机器上的日志通过统一管道进行收集
基于图3,在获取结构化查询语言日志的情况下。
可选的,分别获取数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志包括:在获取数据链路对应的结构化查询语言日志的情况下,通过预设内核模块存储的结构化查询语言日志,得到数据链路对应的结构化查询语言日志。
具体的,如图4c所示,图4c是根据本发明实施例一的一种数据处理方法中获取SQL日志的示意图。其中,有内核日志模块获取该SQL日志,其中,获取的过程中可以通过日志代理装置获取该内核日志模块中的SQL日志。
基于图3,在获取业务打点日志的情况下。
可选的,分别获取数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志包括:在获取数据链路对应的业务打点日志的情况下,获取所有数据链路的网络请求,依据网络请求中携带的路径信息得到数据链路对应的业务打点日志。
具体的,图4d是根据本发明实施例一的一种数据处理方法中获取业务打点日志的示意图。如图4d所示,需要业务逻辑做简单的改造,每次请求携带特定id,以用来关联其后的调用链。
其中,如图4d所示,应用A是接受到来自用户浏览器的Web请求的前端服务器,它是一条调用链的开始端。请求收到后它会生成特定Id并保存在内存中。在应用A调用应用B、C、D的服务,或者使用中间件时,特定Id随网络请求到达应用B、C、D和中间件之中,并放保持在内存内,因此后续调用到的这些系统都会有这次请求的上下文。这些系统再发起网络请求时,也类似的携带了上下文信息的。
可选的,在步骤S204中Step1中的通过日志生成数据链路图之前,本申请提供的数据处理方法还包括:
步骤S203,通过预设白盒代码对数据链路进行分析,得到数据链路对应的结构化查询语言的标识,以及数据链路对应的超文本传输协议接口和业务逻辑代码。
具体的,图4e是根据本发明实施例一的一种数据处理方法中白盒代码分析的示意图。其中,如图4e所示,
首先在应用代码Dao(数据访问对象,Data Access Object)层中找到具体的SQL语句的SQLid;
第二,在DAO层对应出执行该SQL的具体方法。
其中,对代码中HTTP接口内部逻辑函数进行白盒扫描,筛选出调用该DAO层方法的具体业务逻辑代码和接口。
例如,(1)在SQLMap.xml中找到了需要匹配的SQL。并且得到了SQLID。
其中,得到了SQLID过程如下:
Figure BDA0001506322920000101
(2)针对于SQLID在DAO层中很容易搜索到,执行该SQL的对应方法。
其中,执行该SQL的对应方法过程如下:
Figure BDA0001506322920000102
Figure BDA0001506322920000111
(3)在代码中搜索用到此Dao层函数的方法
其中,路径片段提取和流量日志匹配如下:
具体的,图4f是根据本发明实施例一的一种数据处理方法中获取真实URL的示意图。其中,通过代码判断出函数对应url片段(如RequestMap),再和HTTP流量做匹配,还原出真实URL。
可选的,步骤S204中通过日志生成数据链路图包括:
Step1,对结构化查询语言日志进行解析,得到数据链路中满足数据泄露条件的数据;
Step2,通过对获取的数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志进行归一化操作,得到数据链路在各日志中的节点;
Step3,依据数据和节点,得到数据链路图。
具体的,在通过日志生成数据链路图的过程中,本申请提供的数据处理方法具体如下:
(1)SQL解析/敏感字段识别:
如图4g所示,图4g是根据本发明实施例一的一种数据处理方法中SQL解析敏感字段的示意图,其中,对所有sql日志进行解析,提取出涉及字段,并和数据库字段安全等级打标做关联,最后筛选出高危操作SQL并去重。
SQL解析敏感字段中包括:日志清洗、SQL语法解析、深度学习训练和敏感数据打标。
其中,A、日志清洗:
如图4h所示,图4h是根据本发明实施例一的一种数据处理方法中日志清洗的示意图,首先提取出insert语句,之后针对于不同库的每个表获取100条记录作为样例。
B、SQL语法解析:
如图4i所示,图4i是根据本发明实施例一的一种数据处理方法中SQL语法解析的示意图,首先对SQL进行词法解析得到分词序列,之后对该序列进行语法解析,分别获取字段名称和字段内容。
C、深度学习训练:
采用基于卷积神经网络的文本分类算法,训练模型,实现敏感字段的识别。
D、敏感数据打标:
基于C的深度学习训练,如图4j所示,图4j是根据本发明实施例一的一种数据处理方法中敏感数据打标的示意图,模型训练结束后,对于每条数据,通过模型预测敏感程度,划定相应的阈值,阈值以上则识别为敏感数据。之后在通过正则表达式匹配,匹配通过的则判断为敏感数据。
其中,基于图3,为得到数据链路图,通过对获取的数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志进行归一化操作具体如下:
根据上述步骤产生/整理得到的数据如表2。
日志归一化的主要任务是统一业务逻辑名称,并将业务逻辑名称作为节点,以供下一步生成数据链路图使用。
表2
Figure BDA0001506322920000121
进一步地,可选的,步骤S206中根据数据链路图对数据链路进行筛选,得到满足预设条件的数据链路包括:
Step1,根据预设搜索算法在数据链路图中进行搜索,得到数据对应的链路节点;
Step2,依据链路节点得到数据链路。
可选的,预设条件包括:造成数据泄露的数据链路。
具体的,如图4k所示,图4k是根据本发明实施例一的一种数据处理方法中生成数据链路的示意图,根据日志使用搜索算法在数据链路图中生成和敏感数据有关的链路节点。
本申请提供的数据处理方法中针对于威胁建模,可自动生成威胁建模数据链路图(传统威胁建模需要工程师手动画数据链路图),减少威胁建模实施过程中的人力成本,并且提高威胁建模的分析质量和稳定性。
并且,针对于风险识别,可以自动识别出海量业务中输出敏感信息的接口/页面。针对于这些接口,重点进行安全排查。如目前扫描器不能覆盖的水平权限漏洞和业务逻辑漏洞。且当出现一个安全问题后可以通过数据链路规则找出相似的页面和接口。对于企业在安全领域会发挥较大的价值。
本申请提供的数据处理方法通过打点日志,打通敏感数据从数据库,到中间件,再到业务逻辑接口的链路关系。能较为准确的识别出业务中涉及敏感数据的页面和接口,为威胁建中风险优先级的判断提供了依据,并且为对这些页面和接口作进一步的精细的安全监测打下了基础。
相比常规的污点分析技术会从代码层面入手,检测被攻击者恶意输入污染的变量、内存和指令;本申请提供的数据处理方法分析被敏感数据“污染”过的页面和接口。使用流量分析的方法,通过组包的方式,根据页面返回内容来判断页面是否带有敏感数据,也可以实现本发明类似的效果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的数据处理方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例的另一方面,还提供了一种日志处理方法,包括:分别获取数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志;对结构化查询语言日志进行解析,得到数据链路中满足数据泄露条件的数据;通过对获取的数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志进行归一化操作,得到数据链路在各日志中的节点;依据数据和节点,得到数据链路图。
实施例3
根据本发明实施例的又一方面,还提供了一种数据处理方法,包括:通过预设白盒代码对数据链路进行分析,得到数据链路对应的结构化查询语言的标识,数据链路对应的超文本传输协议接口和业务逻辑代码;分别获取数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志;依据结构化查询语言的标识查询对应的结构化查询语言日志,超文本传输协议接口查询对应的超文本传输协议日志和业务逻辑代码查询对应的业务打点日志,得到数据链路中满足数据泄露条件的数据;通过对超文本传输协议日志、结构化查询语言日志和上述业务打点日志进行归一化操作,得到数据链路在各日志中的节点;依据数据和节点,得到数据链路图。
实施例4
根据本发明实施例,还提供了一种用于实施上述数据处理方法的终端,如图5所示,图5是根据本发明实施例四的一种终端的示意图,该终端包括:处理器52;以及存储器54,与处理器52连接,用于为处理器52提供处理以下处理步骤的指令:获取数据链路对应的日志,其中,数据链路包括:数据从数据库经过中间件和/或应用代码最终展现的调用链路;通过日志对数据链路进行筛选,得到满足预设条件的数据链路。
实施例5
根据本发明实施例的又一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述实施例1中的数据处理方法。
实施例6
根据本发明实施例的又一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述实施例1中的数据处理方法。
实施例7
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的数据处理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取数据链路对应的日志,其中,数据链路包括:数据从数据库经过中间件和/或应用代码最终展现的调用链路;通过日志对数据链路进行筛选,得到满足预设条件的数据链路。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取数据链路所属的日志包括:分别获取数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志。
进一步地,可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:分别获取数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志包括:在获取数据链路对应的超文本传输协议日志的情况下,通过预设分光器镜像流量获取数据链路对应的超文本传输协议日志;其中,通过预设分光器镜像流量获取数据链路对应的超文本传输协议日志包括:在数据链路入口处通过路由设备配置流量镜像,获取所有数据链路以超文本传输协议传输的历史信息。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:分别获取数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志包括:在获取数据链路对应的超文本传输协议日志的情况下,通过预设容器收集所有设备的日志,得到数据链路对应的超文本传输协议日志。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:分别获取数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志包括:在获取数据链路对应的结构化查询语言日志的情况下,通过预设内核模块存储的结构化查询语言日志,得到数据链路对应的结构化查询语言日志。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:分别获取数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志包括:在获取数据链路对应的业务打点日志的情况下,获取所有数据链路的网络请求,依据网络请求中携带的路径信息得到数据链路对应的业务打点日志。
可选的,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:通过日志对数据链路进行筛选,得到满足预设条件的数据链路包括:通过日志生成数据链路图;根据数据链路图对数据链路进行筛选,得到满足预设条件的数据链路。
进一步地,可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在通过日志生成数据链路图之前,通过预设白盒代码对数据链路进行分析,得到数据链路对应的结构化查询语言的标识,以及数据链路对应的超文本传输协议接口和业务逻辑代码。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:通过日志生成数据链路图包括:对结构化查询语言日志进行解析,得到数据链路中满足数据泄露条件的数据;通过对获取的数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志进行归一化操作,得到数据链路在各日志中的节点;依据数据和节点,得到数据链路图。
进一步地,可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:根据数据链路图对数据链路进行筛选,得到满足预设条件的数据链路包括:根据预设搜索算法在数据链路图中进行搜索,得到数据对应的链路节点;依据链路节点得到数据链路。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种数据处理方法,其特征在于,包括:
获取数据链路对应的日志,其中,所述数据链路包括:数据从数据库经过中间件和/或应用代码最终展现的调用链路,所述日志包括所述数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志;
基于所述超文本传输协议日志、所述结构化查询语言日志和所述业务打点日志生成数据链路图;
根据所述数据链路图对所述数据链路进行筛选,得到满足预设条件的数据链路。
2.根据权利要求1所述的数据处理方法,其特征在于,所述获取数据链路对应的日志包括:
分别获取所述数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志。
3.根据权利要求2所述的数据处理方法,其特征在于,所述分别获取所述数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志包括:
在获取所述数据链路对应的所述超文本传输协议日志的情况下,通过预设分光器镜像流量获取所述数据链路对应的所述超文本传输协议日志;
其中,通过预设分光器镜像流量获取所述数据链路对应的所述超文本传输协议日志包括:在数据链路入口处通过路由设备配置流量镜像,获取所有所述数据链路以超文本传输协议传输的历史信息。
4.根据权利要求2所述的数据处理方法,其特征在于,所述分别获取所述数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志包括:
在获取所述数据链路对应的所述超文本传输协议日志的情况下,通过预设容器收集所有设备的日志,得到所述数据链路对应的所述超文本传输协议日志。
5.根据权利要求2所述的数据处理方法,其特征在于,所述分别获取所述数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志包括:
在获取所述数据链路对应的所述结构化查询语言日志的情况下,通过预设内核模块存储的结构化查询语言日志,得到所述数据链路对应的所述结构化查询语言日志。
6.根据权利要求2所述的数据处理方法,其特征在于,所述分别获取所述数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志包括:
在获取所述数据链路对应的所述业务打点日志的情况下,获取所有数据链路的网络请求,依据所述网络请求中携带的路径信息得到所述数据链路对应的所述业务打点日志。
7.根据权利要求1所述的数据处理方法,其特征在于,在生成数据链路图之前,所述方法还包括:
通过预设白盒代码对所述数据链路进行分析,得到所述数据链路对应的结构化查询语言的标识,以及所述数据链路对应的超文本传输协议接口和业务逻辑代码。
8.根据权利要求1所述的数据处理方法,其特征在于,所述基于所述超文本传输协议日志、所述结构化查询语言日志和所述业务打点日志生成数据链路图包括:
对所述结构化查询语言日志进行解析,得到所述数据链路中满足数据泄露条件的数据;
通过对获取的所述数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志进行归一化操作,得到所述数据链路在各日志中的节点;
依据所述数据和所述节点,得到所述数据链路图。
9.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述数据链路图对所述数据链路进行筛选,得到满足预设条件的数据链路包括:
根据预设搜索算法在所述数据链路图中进行搜索,得到所述数据对应的链路节点;
依据所述链路节点得到所述数据链路。
10.根据权利要求1所述的数据处理方法,其特征在于,所述预设条件包括:造成数据泄露的数据链路。
11.一种日志处理方法,其特征在于,包括:
分别获取数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志;
对所述结构化查询语言日志进行解析,得到所述数据链路中满足数据泄露条件的数据;
通过对获取的所述数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志进行归一化操作,得到所述数据链路在各日志中的节点;
依据所述数据和所述节点,得到所述数据链路图。
12.一种数据处理方法,其特征在于,包括:
通过预设白盒代码对数据链路进行分析,得到所述数据链路对应的结构化查询语言的标识,所述数据链路对应的超文本传输协议接口和业务逻辑代码;
分别获取数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志;
依据所述结构化查询语言的标识查询对应的结构化查询语言日志,所述超文本传输协议接口查询对应的所述超文本传输协议日志和所述业务逻辑代码查询对应的业务打点日志,得到所述数据链路中满足数据泄露条件的数据;
通过对所述超文本传输协议日志、所述结构化查询语言日志和所述业务打点日志进行归一化操作,得到所述数据链路在各日志中的节点;
依据所述数据和所述节点,得到所述数据链路图。
13.一种终端,其特征在于,所述终端包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:获取数据链路对应的日志,其中,所述数据链路包括:数据从数据库经过中间件和/或应用代码最终展现的调用链路,所述日志包括所述数据链路对应的超文本传输协议日志、结构化查询语言日志和业务打点日志;基于所述超文本传输协议日志、所述结构化查询语言日志和所述业务打点日志生成数据链路图;根据所述数据链路图对所述数据链路进行筛选,得到满足预设条件的数据链路。
14.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至10中任意一项所述的数据处理方法。
15.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至10中任意一项所述的数据处理方法。
CN201711329386.0A 2017-12-13 2017-12-13 数据处理方法、日志处理方法和终端 Active CN110020161B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711329386.0A CN110020161B (zh) 2017-12-13 2017-12-13 数据处理方法、日志处理方法和终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711329386.0A CN110020161B (zh) 2017-12-13 2017-12-13 数据处理方法、日志处理方法和终端

Publications (2)

Publication Number Publication Date
CN110020161A CN110020161A (zh) 2019-07-16
CN110020161B true CN110020161B (zh) 2023-05-02

Family

ID=67186898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711329386.0A Active CN110020161B (zh) 2017-12-13 2017-12-13 数据处理方法、日志处理方法和终端

Country Status (1)

Country Link
CN (1) CN110020161B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472036A (zh) * 2019-08-21 2019-11-19 恩亿科(北京)数据科技有限公司 一种基于大数据的敏感数据确定方法及装置
CN110717032A (zh) * 2019-08-26 2020-01-21 四川新网银行股份有限公司 多系统的方法调用链路图的生成及显示方法
CN111754443B (zh) * 2020-05-18 2024-02-06 大唐软件技术股份有限公司 一种设备信息的整理方法和装置
CN112115023B (zh) * 2020-09-02 2022-08-05 厦门安胜网络科技有限公司 一种用于数据链路的获取方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229619A (zh) * 2016-03-23 2017-10-03 阿里巴巴集团控股有限公司 互联网业务链路调用情况的统计、展示方法及装置
CN107330034A (zh) * 2017-06-26 2017-11-07 百度在线网络技术(北京)有限公司 一种日志分析方法和装置、计算机设备、存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9912766B2 (en) * 2007-03-23 2018-03-06 Yahoo Holdings, Inc. System and method for identifying a link and generating a link identifier for the link on a webpage
US9678921B2 (en) * 2012-03-21 2017-06-13 Owl Computing Technologies, Llc Method and apparatus for data transfer reconciliation
CN103414758B (zh) * 2013-07-19 2017-04-05 北京奇虎科技有限公司 日志处理方法及装置
CN107306196A (zh) * 2016-04-20 2017-10-31 中兴通讯股份有限公司 虚拟化服务监控方法和装置
CN106571960B (zh) * 2016-11-03 2020-05-22 北京农信互联科技有限公司 日志收集管理系统及方法
CN106790718A (zh) * 2017-03-16 2017-05-31 北京搜狐新媒体信息技术有限公司 服务调用链路分析方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229619A (zh) * 2016-03-23 2017-10-03 阿里巴巴集团控股有限公司 互联网业务链路调用情况的统计、展示方法及装置
CN107330034A (zh) * 2017-06-26 2017-11-07 百度在线网络技术(北京)有限公司 一种日志分析方法和装置、计算机设备、存储介质

Also Published As

Publication number Publication date
CN110020161A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN106357618B (zh) 一种Web异常检测方法和装置
CN110020161B (zh) 数据处理方法、日志处理方法和终端
CN107341399B (zh) 评估代码文件安全性的方法及装置
CN111897962B (zh) 一种物联网资产标记方法及装置
CN102622553A (zh) 检测网页安全的方法及装置
CN102710770A (zh) 一种上网设备识别方法及其实现系统
US20150113651A1 (en) Spammer group extraction apparatus and method
CN102394885A (zh) 基于数据流的信息分类防护自动化核查方法
CN102984161B (zh) 一种可信网站的识别方法和装置
CN108023868B (zh) 恶意资源地址检测方法和装置
CN103218431A (zh) 一种能识别网页信息自动采集的系统与方法
CN106446124B (zh) 一种基于网络关系图的网站分类方法
JP2014502753A (ja) ウェブページ情報の検出方法及びシステム
CN110245273B (zh) 一种获取app业务特征库的方法及相应的装置
CN106446113A (zh) 移动大数据解析方法及装置
CN111104521A (zh) 一种基于图分析的反欺诈检测方法及检测系统
CN114817968B (zh) 无特征数据的路径追溯方法、装置、设备及存储介质
CN112733057A (zh) 网络内容安全检测方法、电子装置和存储介质
CN107766234A (zh) 一种基于移动设备的网页健康度的测评方法、装置及系统
CN111460803B (zh) 基于工业物联网设备Web管理页面的设备识别方法
CN114528457A (zh) Web指纹检测方法及相关设备
CA3122975A1 (en) Network device identification
US9665574B1 (en) Automatically scraping and adding contact information
Tongaonkar A look at the mobile app identification landscape
KR20090048998A (ko) 키워드를 통한 부정 여론 알림 방법 및 시스템과 이를 위한기록매체

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant