CN113965526A - 数据处理方法、电子设备及计算机可读存储介质 - Google Patents

数据处理方法、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113965526A
CN113965526A CN202111101842.2A CN202111101842A CN113965526A CN 113965526 A CN113965526 A CN 113965526A CN 202111101842 A CN202111101842 A CN 202111101842A CN 113965526 A CN113965526 A CN 113965526A
Authority
CN
China
Prior art keywords
data
identification
processed
identification module
identification result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111101842.2A
Other languages
English (en)
Inventor
陈加伟
谢文伟
李震
张伯雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wangsu Science and Technology Co Ltd
Original Assignee
Wangsu Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wangsu Science and Technology Co Ltd filed Critical Wangsu Science and Technology Co Ltd
Priority to CN202111101842.2A priority Critical patent/CN113965526A/zh
Publication of CN113965526A publication Critical patent/CN113965526A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Storage Device Security (AREA)

Abstract

本发明实施例涉及数据处理领域,公开了一种数据处理方法、电子设备及计算机可读存储介质。本发明的部分实施例中,数据处理方法应用于数据处理装置,数据处理装置包括第一识别模块和第二识别模块,包括:第一识别模块获取并识别待处理数据;若确定存在识别失败的数据,将识别失败的数据保存至存储区;第二识别模块从存储区获取识别失败的数据,对识别失败的数据进行解析并识别,得到待处理数据的最终识别结果。本申请实施例提供的技术方案可以减少丢包情况,数据处理结果更准确。

Description

数据处理方法、电子设备及计算机可读存储介质
技术领域
本发明实施例涉及数据处理领域,特别涉及数据处理方法、电子设备及计算机可读存储介质。
背景技术
网络流量分析是指捕捉网络中流动的数据包,并通过查看数据包内部数据以及进行相关的协议、流量分析、统计或安全分析等来发现网络运行过程中出现的问题或对用户行为进行监控。
然而,传统的流量分析常常发生丢包的情况,导致数据处理结果不准确。
发明内容
本发明实施方式的目的在于提供一种数据处理方法、电子设备及计算机可读存储介质,可以减少丢包情况,数据处理结果更准确。
为解决上述技术问题,第一方面,本发明实施例提供了一种数据处理方法,应用于数据处理装置,数据处理装置包括第一识别模块和第二识别模块,包括:第一识别模块获取并识别待处理数据;若确定存在识别失败的数据,将识别失败的数据保存至存储区;第二识别模块从存储区获取识别失败的数据,对识别失败的数据进行解析并识别,得到待处理数据的最终识别结果。
第二方面,本发明实施例提供了一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述实施例提及的数据处理方法。
第三方面,本发明实施例提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,实现上述实施例提及的数据处理方法。
本发明实施例相对于现有技术而言,在数据处理装置中设置第一识别模块和第二识别模块,第一识别模块对获取的待处理数据进行初步识别,若初步识别过程中,存在无法识别的数据,则存入存储区,进而交由第二识别模块进行深度识别;第二识别模块可从存储区获取该些无法识别的数据,并对其进一步进行解析和识别,从而得到解析结果。基于该方法,第一识别模块可快速完成对待处理数据进行处理,避免了耗费过多时间在某一条数据的处理而导致没有多余资源来接收新的数据只能将其丢弃的问题,此外,通过存储区来实现第一识别模块和第二识别模块之间的数据传递,可实现第一识别模块和第二识别模块的解耦,第二识别模块的处理进度也不会对第一识别模块产生任何影响。
在部分实施例中,第一识别模块获取待处理数据,包括:第一识别模块对接收到的数据包进行流分析,确定出数据包归属的数据流;第一识别模块将属于同一数据流的数据包中的业务数据进行整合,得到待处理数据。
在部分实施例中,数据处理装置还包括代理模块,第一识别模块接收到的数据包为对代理模块接收到的数据包进行镜像得到的。
在部分实施例中,识别失败的数据包含基于HTTPS协议加密的应用层数据,第二识别模块对识别失败的数据进行解析并识别,得到最终识别结果,包括:第二识别模块获取应用层数据的解密密钥;根据应用层数据的解密密钥,对应用层数据进行解密,并对解密后的应用层数据进行识别,得到最终识别结果。
在部分实施例中,第二识别模块获取应用层数据的解密密钥,包括:第二识别模块查找预先保存的证书信息获取待处理数据对应的数据流所使用的证书;通过证书,获取应用成数据的解密密钥;或者,第二识别模块获取待处理数据对应的数据流中建立安全套接字协议SSL握手过程的交互数据;从交互数据中获取应用层数据的解密密钥。
在部分实施例中,识别失败的数据包含文件格式的数据,对识别失败的数据进行解析并识别,得到待处理数据的最终识别结果,包括:对文件格式的数据进行解析,并对解析后的文件格式的数据进行识别,得到待处理数据的最终识别结果。
在部分实施例中,第一识别模块识别待处理数据,包括:确定待处理数据中是否包含基于HTTPS协议加密的应用层数据或文件格式的数据;若包含,则将应用层数据和/或文件格式的数据确定为识别失败的数据,以文件形式保存在存储区,并根据预设的第一识别算法,识别待处理数据中的其他数据,得到中间识别结果,将中间识别结果保存在存储区中;若不包含,则根据预设的第一识别算法,识别待处理数据,生成识别结果,并以日志形式输出。
在部分实施例中,第二识别模块从存储区获取识别失败的数据,对识别失败的数据进行解析并识别,得到待处理数据的最终识别结果,包括:第二识别模块从存储区的文件中获取识别失败的数据,并从数据库中获取待处理数据对应的中间识别结果,在根据预设的第二识别算法对识别失败的数据进行解析并识别后,得到二次识别结果,将中间识别结果与二次识别结果向结合得到最终识别结果,并以日志形式输出。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本申请一实施例中数据处理方法的流程图;
图2是本申请一实施例中数据处理装置的结构示意图;
图3是本申请另一实施例中数据处理方法的流程图;
图4是本申请实施例中电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
在本发明公开的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明公开的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本申请实施例中,如图1所示的数据处理方法,应用于数据处理装置,数据处理装置包括第一识别模块和第二识别模块。数据处理方法包括如下步骤。
步骤101:第一识别模块获取并识别待处理数据;若确定存在识别失败的数据,将识别失败的数据保存至存储区。
步骤102:第二识别模块从存储区获取识别失败的数据,对识别失败的数据进行解析并识别,得到待处理数据的最终识别结果。
本申请实施例中,在数据处理装置中设置第一识别模块和第二识别模块,第一识别模块对获取的待处理数据进行初步识别,若初步识别过程中,存在无法识别的数据,则存入存储区,进而交由第二识别模块进行深度识别;第二识别模块可从存储区获取该些无法识别的数据,并对其进一步进行解析和识别,从而得到解析结果。基于该方法,第一识别模块可快速完成对待处理数据进行处理,避免了耗费过多时间在某一条数据的处理而导致没有多余资源来接收新的数据只能将其丢弃的问题,此外,通过存储区来实现第一识别模块和第二识别模块之间的数据传递,可实现第一识别模块和第二识别模块的解耦,第二识别模块的处理进度也不会对第一识别模块产生任何影响。
例如,以数据处理装置为镜像服务器为例进行说明。镜像服务器实时接收来自前端的数据包。若镜像服务器需要对一个数据包完全识别后再继续其他数据包的处理,由于存在加密或者携带附件的情况,这些情况下,识别过程可能会非常耗时或者被中断,那么处理资源将一直被占用无法释放,当这样的情况并发量较大时,镜像服务器因处理资源无法释放,就无法正常接收新的数据包,进而发生丢包的情况,且整体处理效率较低。而本实施例中,将初步检测识别的功能设置在第一识别模块,将对无法直接识别或快速识别的数据的识别功能,如附件文件的解析识别和加密数据的解密及识别等,设置在第二识别模块,从而保证第一识别模块能先快速对接收到的数据包进行初步处理,对于处理耗时的数据包则交由第二识别模块来进行识别,进而减少丢包的情况。
在本申请的一个实施例中,第一识别模块获取并识别待处理数据的步骤可例如包括:第一识别模块对接收到的数据包进行流分析,确定出数据包归属的数据流;第一识别模块将属于同一数据流的数据包中的业务数据进行整合,得到待处理数据。
例如,第一识别模块可对接收到的数据包进行流分析,通过识别数据包的五元组(源IP地址、目的IP地址、协议号、源端口和目的端口),判断数据包归属的数据流。由于每个数据包中携带的业务数据是整个数据流的业务数据的一个片段,并非完整的业务数据,第一识别模块可将属于同一数据流的数据包的业务数据进行整合,得到待处理的数据。其中,业务数据可例如包括数据包应用层协议中携带的负载数据,负载数据可例如包括与实际业务相关的数据,如邮件正文内容、用户上传的文字内容等。
作为一种选择,数据处理装置可通过镜像的方式将用户流量引导到第一识别模块。例如,第一识别模块中可设置镜像引擎、抓包引擎、组包引擎和检测引擎。当用户流量传输至数据处理装置时,可通过镜像引擎对用户流量进行镜像,以把用户流量引用至抓包引擎。抓包引擎可对镜像的用户流量进行抓包,从而获取目标数据包,并将抓取的数据包传输至组包引擎。组包引擎可将抓取的数据包组合成数据流,并从各数据流中提取出对应的待处理数据,将待处理数据传输给检测引擎。检测引擎可通过预设的第一识别算法,对待处理数据进行初步识别检测。其中,第一识别算法可以通过控制台下发,也可以直接在数据处理装置设置,本实施例不做限制,识别算法仅对未加密的非文件类型数据进行识别,对于加密数据或文件(如附件)则无法识别。识别结果可以是对数据内容的审核、对用户行为的分析等,具体可根据实际应用需求进行设定。
值得一提的是,通过镜像方式获取用户流量进行分析,即对用户流量进行镜像复制,并不影响用户流量原本处理过程,可减少用户流量的分析过程对用户访问产生的影响。
需要说明的是,本领域技术人员可以理解,实际应用中,还可以通过其他方式引流,以便进行流量分析,本实施例仅为举例说明。
作为一种选择,数据处理装置还包括代理模块,第一识别模块接收到的数据包为对代理模块接收到的数据包进行镜像得到的,代理模块会将接收到的数据包按预设的代理规则进行处理。
可选择的,第一识别模块识别待处理数据的步骤可例如包括:确定待处理数据中是否包含基于HTTPS协议加密的应用层数据或文件格式的数据;若包含,则将应用层数据和文件格式的数据确定为识别失败的数据,以文件形式保存在存储区,并根据预设的第一识别算法,识别待处理数据中的其他数据,得到中间识别结果,将中间识别结果保存在存储区的数据库中;若不包含,则根据预设的第一识别算法,识别待处理数据,生成识别结果,并以日志形式输出。可以理解的是,当第一识别模块将识别失败的数据以文件形式保存、中间识别结果写入数据库,或以日志形式输出识别结果后,对于第一模块来说,即完成了对待处理数据的处理,相应的处理资源将会被释放,用于处理新的数据包。
具体地,基于HTTPS协议加密的应用层数据,在未获取密钥的情况下,无法对应用层数据进行解析和提取识别,故解析并识别基于HTTPS协议加密的应用层数据需要使用更多的时间。若待处理数据中包括文件格式的数据(例如邮件附件),可能存在需要对文件格式的数据进行解压或者附件数据量大的问题,解析耗费时间长,处理资源将无法及时释放。本申请的实施例中,为减少处理资源长时间被占用而导致丢包的情况,第一识别模块可将基于HTTPS协议加密的应用层数据或文件格式的数据以文件形式保存至存储区,由第二识别模块对基于HTTPS协议加密的应用层数据进行解析和识别,避免因处理该些数据而导致处理资源被长时间占用而出现的丢包,也进一步避免因为丢包而导致后续的数据流不完整,无法获取完整的待处理数据的情况,使得数据处理结果更准确。
应该理解的是,在不背离本申请教导的情况下,可根据数据处理装置的应用场景等,选择需要的第一识别算法,识别待处理数据中的未加密数据,本申请对此不做限制。
在本申请的一个实施方式中,第一识别模块在确定存在识别失败的数据的情况下,将识别失败的数据以文件形式保存至存储区,并中间识别结果存入数据库。具体地,可将识别失败的数据磁盘的保存在固定路径,第二识别模块对路径下的文件进行监控,若发现有新文件写入,则可从该文件中读取该数据并从数据库中读取对应的中间识别结果,如此一来,第一识别模块与第二识别模块之间无需进行数据交互,而实现解耦。
在本申请的一个实施方式中,数据处理装置还包括日志引擎,第一识别模块若能够完全识别该待处理数据,则可以通过日志引擎,以日志形式输出基于该待处理数据识别得到的数据;若第一识别模块确定该待处理数据中存在无法识别的数据(如基于HTTPS协议加密的应用层数据或文件格式的数据),则可将识别失败的数据存储至诸如数据库等具有存储功能的存储区中。
在一个实施例中,第二识别模块从存储区获取识别失败的数据,对识别失败的数据进行解析并识别,得到待处理数据的最终识别结果的步骤可例如包括:第二识别模块从存储区的文件中获取识别失败的数据,并从数据库中获取待处理数据对应的中间识别结果,在根据预设的第二识别算法对识别失败的数据进行解析并识别后,得到二次识别结果,将中间识别结果与二次识别结果向结合得到最终识别结果,并以日志形式输出。从而完成待处理数据的识别检测。
以下对第二识别模块对识别失败的数据进行解析并识别,得到待处理数据的最终识别结果的过程进行举例说明。
在识别失败的数据包含基于HTTPS协议加密的应用层数据的实施例中,第二识别模块可对识别失败的数据进行解析并识别,得到最终识别结果的步骤可例如包括:获取应用层数据的解密密钥;根据应用层数据的解密密钥,对应用层数据进行解密,并对解密后的应用层数据进行识别,得到最终识别结果。
可选择的,第二识别模块获取应用层数据的解密密钥的步骤可例如包括:第二识别模块查找预先保存的证书信息获取待处理数据对应的数据流所使用的证书;通过证书,获取应用层数据的解密密钥;或者,第二识别模块获取待处理数据对应的数据流中建立安全套接字协议SSL握手过程的交互数据;从交互数据中获取应用层数据的解密密钥。该实施例中,可使数据处理装置在具有用户流量的证书和无用户流量的证书的情况下,对数据进行分析处理。
可选择的,用户流量对应的证书由用户流量的发送端配置得到,如用户流量发送端自己的证书,或者,用户流量对应的证书由用户流量的发送端加载得到,如用户流量对应的域名的证书。
具体地,本实施例提及的数据处理方法适用于有证书的场景和无证书的场景,有安装应用程序和没有安装应用程序的场景。例如,当用户流量的发送端安装有应用程序时,用户可以通过应用程序加载应用程序的证书分析指定域名的流量,也可以通过客户端设置环境变量,分析浏览器记录的访问内容。当发送端没有安装应用程序时,可以由用户自行加载应用程序的证书,并针对需要分析的域名,通过域名系统(Domain Name System,DNS)或者防火墙(iptable)在出口网关进行引流到代理服务器,代理服务器进行安全套接字协议(Secure Sockets Layer,SSL)握手以及代理工作,避免对用户数据产生干预。即代理服务器在接收到带证书的数据流量,完成SSL握手后,将用户流量进行回源。若发送端无应用程序也无应用程序的证书,用户针对内部域名进行分析,用户提供内部域名的私钥证书。数据处理装置根据用户的私钥证书和镜像抓包,解密对应域名流量信息,并进行数据安全防护。针对上述情况,若发送端有应用程序的证书,可将该证书预先配置在第二识别模块上,第二识别模块查找用户流量对应的证书,即该用户流量对应的域名的证书(应用程序的证书);通过证书,获取用户流量对应的密钥,作为待处理数据的密钥。若发送端没有客户端的证书,可以从用户流量中提取出公钥,并保存数据库中,第二识别模块可从数据库中获取对应的公钥,作为待处理数据的解密密钥,对应用层数据进行解密。而针对SSL数据,数据处理装置可获取用户流量的发送端与代理模块的安全套接字协议SSL握手过程的交互数据;从交互数据中获取发送端的随机数和代理模块的私钥,通过私钥和随机数,得到待处理数据的解密密钥,并发送给第二识别模块,或保存在数据库中。
需要说明的是,本领域技术人员可以理解,实际应用中,若发送端采用其他加密方式,还可以通过其他方式获取密钥,以便对待处理数据进行解密,进而对解密后的数据进行识别,本实施例仅为举例说明。
可选择的,为使第二识别模块获取解密密钥,第一识别模块将同一条数据流的应用层数据写入文件的过程中,也可会将SSL握手过程中的交互数据,一并写入文件,或保存数据库中。
在识别失败的数据包含文件格式的数据的实施例中,第二识别模块可对识别失败的数据进行解析并识别,得到待处理数据的最终识别结果的步骤可例如包括:对文件格式的数据进行解析,并对解析后的文件格式的数据进行识别,得到待处理数据的最终识别结果。
例如,待处理数据包括邮件,邮件中包含附件,第一识别模块可先对邮件中非附件数据进行整合,得到邮件正文内容,并对正文内容进行识别检测,生成中间识别结果存入数据库,并将附件以文件的形式存储。可选择的,可将附件的存储路径和中间识别结果的关联信息存入数据库。第二识别模块从数据库获取中间识别结果,并从相关路径读取文件数据,对其进行解析和检测,得到二次识别结果,并将中间识别结果和二次识别结果整合得到待处理数据的最终识别结果。
可选择的,第二识别模块对文件数据进行识别包括:对文件数据进行检测。第二识别模块可以对文件数据进行敏感词检测和/或病毒检测,还可以进行其他检测。具体地,第二识别模块中可设置运维人员设置的病毒查杀引擎或第三方的病毒查杀引擎,对文件数据进行病毒检测。和/或,第二识别模块中设置有数据丢失预防(Data Loss Prevention,DLP)引擎,根据预设的DLP规则,对文件数据进行敏感词检测,以防数据丢失。
可选择的,在对文件数据进行检测操作之后,数据处理方法还包括:若确定检测结果指示文件数据中存在敏感词,进行告警操作,以告知发送端或管理者存在数据泄露风险。
需要说明的是,本领域技术人员可以理解,实际应用中,还可以对待处理数据进行其他检测,本实施例不一一列举。
在一个实施例中,数据处理装置的结构示意图如图2所示,数据处理装置包括第一识别模块21和第二识别模块22。第一识别模块21实现流分析和合成功能及初步识别,第二识别模块22实现文件解析和识别功能。具体地,第一识别模块21的镜像211将用户数据包引流至抓包引擎212,抓包引擎对目标数据包进行抓取,发送至组包引擎213。组包引擎213对抓取的数据包进行流分析,对同一数据流中的业务数据进行合成,得到待处理数据,发送给检测引擎214。检测引擎214对待处理数据进行初步识别检测,若能够直接识别,则通过日志引擎23输出识别结果,若不能够直接识别,通过文件转储215将识别失败的数据以文件形式保存,并将中间识别结果存储至数据库24中。
第二识别模块22从存储区获取文件,对其进行解析和检测,得到二次识别结果,并从数据库获取对应的中间识别结果,整合二次识别结果和中间识别结果,得到待检测数据的最终识别结果。在此过程中,第二识别模块22可调用解包引擎221获取解密密钥和中间识别结果,使用解密密钥对加密的应用层数据进行解密,得到明文数据,调用病毒查杀引擎222和DLP引擎223等对明文数据进行识别,将各引擎的识别结果作为最终识别结果,通过日志引擎23输出最终识别结果。
可选择的,当发送端配置认证机构的公钥,通过DNS或者iptable将指定域名的流量引导到代理服务器时,代理服务器纯做代理,不干预数据交互过程。镜像服务器拷贝用户跟代理服务器处理的数据,做到最小力度对用户的串行流量进行影响,同时把认证机构的证书生成的域名证书提供给第二识别模块,进行文件解密和分析数据流。
可选择的,若用户的发起端配置有域名,发起端可以将域名的证书配置到第二识别模块,使得无需通过代理服务器也可以解密和分析数据流。
以上各实施例可以相互结合相互引用,例如下面是各实施例结合后的例子,然并不以此为限;各实施例在不矛盾的前提下可以任意结合成为一个新的实施例。
在一个实施例中,如图3所示为数据处理方法,包括如下步骤。
步骤301:第一识别模块对接收到的数据包进行流分析,确定出数据包归属的数据流。
可选择的,数据处理装置还包括代理模块,第一识别模块接收到的数据包为对代理模块接收到的数据包进行镜像得到的。
步骤302:第一识别模块将属于同一数据流的数据包中的业务数据进行整合,得到待处理数据。
步骤303:第一识别模块确定待处理数据中是否包含基于HTTPS协议加密的应用层数据或文件格式的数据。若确定是,执行步骤304,否则,执行步骤306。
步骤304:第一识别模块将应用层数据和/或文件格式的数据确定为识别失败的数据,以文件形式保存在存储区,并根据预设的第一识别算法,识别待处理数据中的其他数据,得到中间识别结果,将中间识别结果保存在存储区中。
步骤305:第二识别模块从存储区获取识别失败的数据,对识别失败的数据进行解析并识别,得到待处理数据的最终识别结果。
步骤306:第一识别模块根据预设的第一识别算法,识别待处理数据,生成识别结果,并以日志形式输出。结束流程。
可选择的,第二识别模块可对存储区的文件进行监控,若发现有新文件存入,则对新文件进行识别。从存储区获取识别失败的数据,对识别失败的数据进行解析并识别,得到待处理数据的最终识别结果,包括:第二识别模块从存储区的文件中获取识别失败的数据,并从数据库中获取待处理数据对应的中间识别结果,在根据预设的第二识别算法对识别失败的数据进行解析并识别后,得到二次识别结果,将中间识别结果与二次识别结果向结合得到最终识别结果,并以日志形式输出。
可选择的,识别失败的数据包含基于HTTPS协议加密的应用层数据,第二识别模块对识别失败的数据进行解析并识别,得到最终识别结果,包括:第二识别模块获取应用层数据的解密密钥;根据应用层数据的解密密钥,对应用层数据进行解密,并对解密后的应用层数据进行识别,得到最终识别结果。
可选择的,第二识别模块获取应用层数据的解密密钥,包括:第二识别模块查找预先保存的证书信息获取待处理数据对应的数据流所使用的证书;通过证书,获取应用层数据的解密密钥;或者,第二识别模块获取待处理数据对应的数据流中建立安全套接字协议SSL握手过程的交互数据;从交互数据中获取应用层数据的解密密钥。
可选择的,识别失败的数据包含文件格式的数据,对识别失败的数据进行解析并识别,得到待处理数据的最终识别结果,包括:对文件格式的数据进行解析,并对解析后的文件格式的数据进行识别,得到待处理数据的最终识别结果。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本申请实施例还提供一种电子设备,如图4所示,包括:至少一个处理器401;以及与至少一个处理器401通信连接的存储器402;其中,存储器存储有可被至少一个处理器401执行的指令,指令被至少一个处理器401执行,以使至少一个处理器401能够执行上述方法实施例。
其中,存储器402和处理器401采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器401和存储器402的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器401处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器401。
处理器401负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器402可以被用于存储处理器401在执行操作时所使用的数据。
本申请实施例还提供一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (10)

1.一种数据处理方法,其特征在于,应用于数据处理装置,所述数据处理装置包括第一识别模块和第二识别模块,包括:
所述第一识别模块获取并识别待处理数据;若确定存在识别失败的数据,将所述识别失败的数据保存至存储区;
所述第二识别模块从所述存储区获取所述识别失败的数据,对所述识别失败的数据进行解析并识别,得到所述待处理数据的最终识别结果。
2.根据权利要求1所述的数据处理方法,其特征在于,所述第一识别模块获取待处理数据,包括:
所述第一识别模块对接收到的数据包进行流分析,确定出所述数据包归属的数据流;
所述第一识别模块将属于同一数据流的数据包中的业务数据进行整合,得到所述待处理数据。
3.根据权利要求2所述的数据处理方法,其特征在于,所述数据处理装置还包括代理模块,所述第一识别模块接收到的所述数据包为对所述代理模块接收到的数据包进行镜像得到的。
4.根据权利要求1所述的数据处理方法,其特征在于,所述识别失败的数据包含基于HTTPS协议加密的应用层数据,所述第二识别模块对所述识别失败的数据进行解析并识别,得到最终识别结果,包括:
所述第二识别模块获取所述应用层数据的解密密钥;根据所述应用层数据的解密密钥,对所述应用层数据进行解密,并对解密后的所述应用层数据进行识别,得到所述最终识别结果。
5.根据权利要求4所述的数据处理方法,其特征在于,所述第二识别模块获取所述应用层数据的解密密钥,包括:
所述第二识别模块查找预先保存的证书信息获取所述待处理数据对应的数据流所使用的证书;通过所述证书,获取所述应用层数据的解密密钥;或者,
所述第二识别模块获取所述待处理数据对应的数据流中建立安全套接字协议SSL握手过程的交互数据;从所述交互数据中获取所述应用层数据的解密密钥。
6.根据权利要求1所述的数据处理方法,其特征在于,所述识别失败的数据包含文件格式的数据,所述对所述识别失败的数据进行解析并识别,得到所述待处理数据的最终识别结果,包括:
对所述文件格式的数据进行解析,并对解析后的所述文件格式的数据进行识别,得到所述待处理数据的最终识别结果。
7.根据权利要求1所述的数据处理方法,其特征在于,所述第一识别模块识别所述待处理数据,包括:
确定所述待处理数据中是否包含基于HTTPS协议加密的应用层数据或文件格式的数据;
若包含,则将所述应用层数据和/或所述文件格式的数据确定为识别失败的数据,以文件形式保存在所述存储区,并根据预设的第一识别算法,识别所述待处理数据中的其他数据,得到中间识别结果,将所述中间识别结果保存在所述存储区中;
若不包含,则根据预设的第一识别算法,识别所述待处理数据,生成识别结果,并以日志形式输出。
8.根据权利要求7所述的数据处理方法,其特征在于,所述第二识别模块从所述存储区获取所述识别失败的数据,对所述识别失败的数据进行解析并识别,得到所述待处理数据的最终识别结果,包括:
所述第二识别模块从所述存储区的文件中获取所述识别失败的数据,并从所述数据库中获取所述待处理数据对应的所述中间识别结果,在根据预设的第二识别算法对所述识别失败的数据进行解析并识别后,得到二次识别结果,将所述中间识别结果与所述二次识别结果向结合得到所述最终识别结果,并以日志形式输出。
9.一种电子设备,其特征在于,包括:至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至8中任一项所述的数据处理方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至8中任一项所述的数据处理方法。
CN202111101842.2A 2021-09-18 2021-09-18 数据处理方法、电子设备及计算机可读存储介质 Pending CN113965526A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111101842.2A CN113965526A (zh) 2021-09-18 2021-09-18 数据处理方法、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111101842.2A CN113965526A (zh) 2021-09-18 2021-09-18 数据处理方法、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113965526A true CN113965526A (zh) 2022-01-21

Family

ID=79461647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111101842.2A Pending CN113965526A (zh) 2021-09-18 2021-09-18 数据处理方法、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113965526A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103312565A (zh) * 2013-06-28 2013-09-18 南京邮电大学 一种基于自主学习的对等网络流量识别方法
KR101504330B1 (ko) * 2014-11-10 2015-03-19 주식회사 씨에이에스 개인정보 모니터링 시스템 및 그 방법
CN111277578A (zh) * 2020-01-14 2020-06-12 西安电子科技大学 加密流量分析特征提取方法、系统、存储介质、安全设备
CN111694783A (zh) * 2020-06-11 2020-09-22 福建宏创科技信息有限公司 一种应用于dpi设备的并行数据分析方法和装置
CN112019449A (zh) * 2020-08-14 2020-12-01 四川电科网安科技有限公司 流量识别抓包方法和装置
CN113067743A (zh) * 2020-01-02 2021-07-02 中国移动通信有限公司研究院 流规则提取方法、装置、系统及存储介质
CN113242255A (zh) * 2021-05-24 2021-08-10 深圳市联软科技股份有限公司 一种基于企业安全的智能流量分析方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103312565A (zh) * 2013-06-28 2013-09-18 南京邮电大学 一种基于自主学习的对等网络流量识别方法
KR101504330B1 (ko) * 2014-11-10 2015-03-19 주식회사 씨에이에스 개인정보 모니터링 시스템 및 그 방법
CN113067743A (zh) * 2020-01-02 2021-07-02 中国移动通信有限公司研究院 流规则提取方法、装置、系统及存储介质
CN111277578A (zh) * 2020-01-14 2020-06-12 西安电子科技大学 加密流量分析特征提取方法、系统、存储介质、安全设备
CN111694783A (zh) * 2020-06-11 2020-09-22 福建宏创科技信息有限公司 一种应用于dpi设备的并行数据分析方法和装置
CN112019449A (zh) * 2020-08-14 2020-12-01 四川电科网安科技有限公司 流量识别抓包方法和装置
CN113242255A (zh) * 2021-05-24 2021-08-10 深圳市联软科技股份有限公司 一种基于企业安全的智能流量分析方法及系统

Similar Documents

Publication Publication Date Title
AU2021209277B2 (en) Efficient packet capture for cyber threat analysis
US10122746B1 (en) Correlation and consolidation of analytic data for holistic view of malware attack
US8079081B1 (en) Systems and methods for automated log event normalization using three-staged regular expressions
US8156553B1 (en) Systems and methods for correlating log messages into actionable security incidents and managing human responses
US8443190B2 (en) Method for securing a two-way communications channel and device for implementing said method
US20150163199A1 (en) Systems and methods for integrating cloud services with information management systems
CN113542253B (zh) 一种网络流量检测方法、装置、设备及介质
US7590844B1 (en) Decryption system and method for network analyzers and security programs
CN111030963B (zh) 文档追踪方法、网关设备及服务器
US8386409B2 (en) Syslog message routing systems and methods
US20180295043A1 (en) Tunneled monitoring service and method
CN108769743B (zh) 一种视频播放控制方法、系统、节点和计算机存储介质
CN112311722B (zh) 一种访问控制方法、装置、设备及计算机可读存储介质
KR101775517B1 (ko) 빅데이터 보안 점검 클라이언트, 빅데이터 보안 점검 장치 및 방법
CN110784375B (zh) 网络数据监控方法、装置、电子设备及存储介质
US20220116413A1 (en) Test device
CN109587134B (zh) 接口总线的安全认证的方法、装置、设备和介质
CN115334150B (zh) 一种数据转发的方法、装置、系统、电子设备及介质
CN113965526A (zh) 数据处理方法、电子设备及计算机可读存储介质
CN113242255B (zh) 一种基于企业安全的智能流量分析方法及系统
US20230308458A1 (en) Structured data discovery and cryptographic analysis
CN111770093B (zh) 交易监控决策方法、装置、设备及计算机可读存储介质
CN113992734A (zh) 会话连接方法及装置、设备
CN112995277B (zh) 访问处理方法、装置及代理服务器
KR102432835B1 (ko) 보안이벤트 비식별화시스템 및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination