CN116708369A - 网络应用信息合并方法、装置、电子设备和存储介质 - Google Patents

网络应用信息合并方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN116708369A
CN116708369A CN202310961990.4A CN202310961990A CN116708369A CN 116708369 A CN116708369 A CN 116708369A CN 202310961990 A CN202310961990 A CN 202310961990A CN 116708369 A CN116708369 A CN 116708369A
Authority
CN
China
Prior art keywords
application
network
group
domain name
merging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310961990.4A
Other languages
English (en)
Other versions
CN116708369B (zh
Inventor
张黎
赵龙祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Flash It Co ltd
Original Assignee
Flash It Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Flash It Co ltd filed Critical Flash It Co ltd
Priority to CN202310961990.4A priority Critical patent/CN116708369B/zh
Publication of CN116708369A publication Critical patent/CN116708369A/zh
Application granted granted Critical
Publication of CN116708369B publication Critical patent/CN116708369B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/30Managing network names, e.g. use of aliases or nicknames
    • H04L61/3015Name registration, generation or assignment
    • H04L61/3025Domain name generation or assignment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4553Object oriented directories, e.g. common object request broker architecture [CORBA] name server
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/133Protocols for remote procedure calls [RPC]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种网络应用信息合并方法、装置、电子设备和存储介质,通过提取内网网络流量涉及的网络地址,作为网络流量对应的应用标识,再基于各个网络流量对应的应用标识中的网络协议和域名层级,对各个网络流量对应的应用标识进行分组,得到多个应用标识组,继而针对任一应用标识组,计算得到该应用标识组的任意两个应用标识中各层级域名之间的层级相似度,并基于任意两个应用标识中各层级域名之间的层级相似度,确定任意两个应用标识的域名相似度,从而基于各个应用标识组中任意两个应用标识的域名相似度对各个应用标识组中的应用标识进行合并,得到多个域名合并组,实现了网络应用信息的快速、精准合并。

Description

网络应用信息合并方法、装置、电子设备和存储介质
技术领域
本发明涉及信息处理技术领域,尤其涉及一种网络应用信息合并方法、装置、电子设备和存储介质。
背景技术
在做网络资产信息梳理时,会出现很多域名或IP地址不相同,但实际属于同一个网络应用的情况,从而造成梳理出的网络资产信息存在大量的重复现象,不利于网络资产管理者掌握实际的网络资产状态。因此,需要对网络应用进行合并,得到更精确的网络资产信息。然而,目前在合并网络应用时需要人工识别并筛选出可以合并的应用,继而调用程序进行合并,费时费力,效率低下,且容易产生遗漏,导致合并后的网络资产信息中仍存在大量的重复网络应用信息。
发明内容
本发明提供一种网络应用信息合并方法、装置、电子设备和存储介质,用以解决现有技术中费时费力,效率低下,且容易产生遗漏的缺陷。
本发明提供一种网络应用信息合并方法,包括:
采集内网的多个网络流量,并提取所述网络流量涉及的网络地址,作为所述网络流量对应的应用标识;其中,任一网络流量涉及的网络地址包括网络协议和域名,或者包括网络协议和IP地址;
基于各个网络流量对应的应用标识中的网络协议和域名层级,对所述各个网络流量对应的应用标识进行分组,得到多个应用标识组;其中,任一应用标识组的应用标识中的网络协议和域名层级相同;
针对任一应用标识组,计算得到所述任一应用标识组的任意两个应用标识中各层级域名之间的层级相似度,并基于所述任意两个应用标识中各层级域名之间的层级相似度,确定所述任意两个应用标识的域名相似度;
基于各个应用标识组中任意两个应用标识的域名相似度对所述各个应用标识组中的应用标识进行合并,得到多个域名合并组;所述域名合并组中的应用标识对应同一网络应用。
根据本发明提供的一种网络应用信息合并方法,所述基于各个网络流量对应的应用标识中的网络协议和域名层级,对所述各个网络流量对应的应用标识进行分组,得到多个应用标识组,具体包括:
将采集的网络流量对应的应用标识进行划分,得到应用标识包括网络协议和域名的第一网络流量组和应用标识包括网络协议和IP地址的第二网络流量组;
针对所述第一网络流量组,基于所述第一网络流量组中各个网络流量对应的应用标识中的网络协议和域名层级,对所述各个网络流量对应的应用标识进行分组,得到多个应用标识组。
根据本发明提供的一种网络应用信息合并方法,所述方法还包括:
采集所述第一网络流量组和第二网络流量组中各个网络流量中包含的应用URL地址,并基于所述各个网络流量中包含的应用URL地址,确定所述各个网络流量调用的接口信息;
确定所述第二网络流量组中任意两个网络流量调用的接口信息之间的接口相似度,和/或,确定所述第二网络流量组中网络流量调用的接口信息与所述第一网络流量组中网络流量调用的接口信息之间的接口相似度;
基于所述第二网络流量组中任意两个网络流量调用的接口信息之间的接口相似度,和/或,基于所述第二网络流量组中网络流量调用的接口信息与所述第一网络流量组中网络流量调用的接口信息之间的接口相似度,对相应网络流量对应的应用标识进行合并。
根据本发明提供的一种网络应用信息合并方法,所述基于所述第二网络流量组中任意两个网络流量调用的接口信息之间的接口相似度,和/或,基于所述第二网络流量组中网络流量调用的接口信息与所述第一网络流量组中网络流量调用的接口信息之间的接口相似度,对相应网络流量对应的应用标识进行合并,具体包括:
基于所述第二网络流量组中任意两个网络流量调用的接口信息之间的接口相似度,对所述第二网络流量组中的各个网络流量对应的应用标识进行合并,得到多个初始合并组;
针对任一初始合并组,基于所述任一初始合并组中各个应用标识对应的网络流量调用的接口信息与各个域名合并组中各个应用标识对应的网络流量调用的接口信息之间的接口相似度,从所述各个域名合并组中确定所述任一初始合并组对应的相似域名合并组;
基于所述任一初始合并组中各个应用标识对应的网络流量调用的接口信息与所述相似域名合并组中各个应用标识对应的网络流量调用的接口信息之间的接口相似度,将所述任一初始合并组中的应用标识合并至所述相似域名合并组中。
根据本发明提供的一种网络应用信息合并方法,所述针对所述第一网络流量组,基于所述第一网络流量组中各个网络流量对应的应用标识中的网络协议和域名层级,对所述各个网络流量对应的应用标识进行分组,得到多个应用标识组,之后还包括:
若任一应用标识组中任意两个应用标识的一级域名不相同,则不对所述任意两个应用标识进行合并。
根据本发明提供的一种网络应用信息合并方法,所述基于各个应用标识组中任意两个应用标识的域名相似度对所述各个应用标识组中的应用标识进行合并,具体包括:
若任一应用标识组中任意两个应用标识的域名相似度大于域名相似度阈值,则将所述任一应用标识组中的所述任意两个应用标识进行合并;
若任一应用标识组中任意两个应用标识的域名相似度小于或等于域名相似度阈值,则确定所述任意两个应用标识对应的网络流量调用的接口信息之间的接口相似度,并基于所述任意两个应用标识对应的网络流量调用的接口信息之间的接口相似度,判断是否将所述任意两个应用标识进行合并。
根据本发明提供的一种网络应用信息合并方法,所述基于所述任意两个应用标识中各层级域名之间的层级相似度,确定所述任意两个应用标识的域名相似度,具体包括:
基于相应应用标识组对应的各层级域名的权重对所述任意两个应用标识中各层级域名之间的层级相似度进行加权求和,得到所述任意两个应用标识的域名相似度;
其中,所述应用标识组对应的各层级域名的权重是基于各层级域名在所述应用标识组对应的域名结构中的层级确定的;任一层级域名在所述应用标识组对应的域名结构中的层级越高,所述任一层级域名的权重越高。
本发明还提供一种网络应用信息合并装置,包括:
网络流量提取单元,用于采集内网的多个网络流量,并提取所述网络流量涉及的网络地址,作为所述网络流量对应的应用标识;其中,任一网络流量涉及的网络地址包括网络协议和域名,或者包括网络协议和IP地址;
应用标识分组单元,用于基于各个网络流量对应的应用标识中的网络协议和域名层级,对所述各个网络流量对应的应用标识进行分组,得到多个应用标识组;其中,任一应用标识组的应用标识中的网络协议和域名层级相同;
域名相似度计算单元,用于针对任一应用标识组,计算得到所述任一应用标识组的任意两个应用标识中各层级域名之间的层级相似度,并基于所述任意两个应用标识中各层级域名之间的层级相似度,确定所述任意两个应用标识的域名相似度;
应用标注合并单元,用于基于各个应用标识组中任意两个应用标识的域名相似度对所述各个应用标识组中的应用标识进行合并,得到多个域名合并组;所述域名合并组中的应用标识对应同一网络应用。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述网络应用信息合并方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述网络应用信息合并方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述网络应用信息合并方法。
本发明提供的网络应用信息合并方法、装置、电子设备和存储介质,通过提取内网网络流量涉及的网络地址,作为网络流量对应的应用标识,再基于各个网络流量对应的应用标识中的网络协议和域名层级,对各个网络流量对应的应用标识进行分组,得到多个应用标识组,其中,任一应用标识组的应用标识中的网络协议和域名层级相同,继而针对任一应用标识组,计算得到该应用标识组的任意两个应用标识中各层级域名之间的层级相似度,并基于任意两个应用标识中各层级域名之间的层级相似度,确定任意两个应用标识的域名相似度,从而基于各个应用标识组中任意两个应用标识的域名相似度对各个应用标识组中的应用标识进行合并,得到多个域名合并组,其中域名合并组中的应用标识对应同一网络应用,实现了网络应用信息的快速、精准合并。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的网络应用信息合并方法的流程示意图之一;
图2是本发明提供的网络应用信息合并方法的流程示意图之二;
图3是本发明提供的网络应用信息合并装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明提供的网络应用信息合并方法的流程示意图之一,如图1所示,该方法包括:
步骤110,采集内网的多个网络流量,并提取所述网络流量涉及的网络地址,作为所述网络流量对应的应用标识;其中,任一网络流量涉及的网络地址包括网络协议和域名,或者包括网络协议和IP地址;
步骤120,基于各个网络流量对应的应用标识中的网络协议和域名层级,对所述各个网络流量对应的应用标识进行分组,得到多个应用标识组;其中,任一应用标识组的应用标识中的网络协议和域名层级相同;
步骤130,针对任一应用标识组,计算得到所述任一应用标识组的任意两个应用标识中各层级域名之间的层级相似度,并基于所述任意两个应用标识中各层级域名之间的层级相似度,确定所述任意两个应用标识的域名相似度;
步骤140,基于各个应用标识组中任意两个应用标识的域名相似度对所述各个应用标识组中的应用标识进行合并,得到多个域名合并组;所述域名合并组中的应用标识对应同一网络应用。
具体地,对企业内网的网络流量进行审计,采集预设时间段内的多个网络流量,并对网络流量进行分析,从而提取网络流量涉及的网络地址(例如该网络流量的源地址,表明该网络流量的发送者),将各网络流量涉及的网络地址作为该网络流量对应的应用标识。其中,网络流量涉及的网络地址可以包括网络协议和域名,还可以包括网络协议和IP地址,即网络地址既可以是网络协议+域名的组合,也可以是网络协议+IP地址的组合。
针对网络地址/应用标识为网络协议+域名的组合的情况和网络地址/应用标识为网络协议+IP地址的组合的情况,将采用不同的合并策略对网络应用信息进行合并。具体而言,可以将采集的网络流量对应的应用标识进行划分,得到应用标识包括网络协议和域名的第一网络流量组和应用标识包括网络协议和IP地址的第二网络流量组。
针对第一网络流量组,可以基于各个网络流量对应的应用标识中的网络协议和域名层级,对各个网络流量对应的应用标识进行分组,得到多个应用标识组。其中,在对应用标识分组时,可以将网络协议和域名层级均相同的应用标识划到同一应用标识组中。针对任一应用标识组,计算得到该应用标识组中任意两个应用标识中各层级域名之间的层级相似度,从而基于任意两个应用标识中各层级域名之间的层级相似度,确定这两个应用标识的域名相似度。此处,针对该应用标识组中任意两个应用标识,由于这两个应用标识的域名层级是相同的,因此可以逐层计算两个应用标识中同一级域名之间的层级相似度,并综合两个应用标识中各层级域名之间的层级相似度,确定这两个应用标识之间的域名相似度。
随后,基于各个应用标识组中任意两个应用标识的域名相似度对各个应用标识组中的应用标识进行合并,得到多个域名合并组。其中,可以将同一应用标识组中两两之间域名相似度大于域名相似度阈值的应用标识合并到同一域名合并组中。可见,域名合并组中的应用标识对应同一网络应用。但若任一应用标识组中任意两个应用标识的域名相似度小于或等于域名相似度阈值,则可以确定这两个应用标识对应的网络流量调用的接口信息之间的接口相似度,并基于这两个应用标识对应的网络流量调用的接口信息之间的接口相似度,判断是否将这两个应用标识进行合并。若两个应用标识对应的网络流量调用的接口信息之间的接口相似度高于接口相似度阈值,则可以将这两个应用标识进行合并。其中,任一用用标识对应的网络流量调用的接口信息可以从该网络流量中包含的应用URL地址中获得,任意两个网络流量调用的接口信息之间的接口相似度则可以通过计算这两个网络流量调用的接口信息组成的集合之间的杰卡德距离得到。例如,网络流量1调用的接口信息组成的集合为A={api1,api2,api3},网络流量2调用的接口信息组成的集合为B={api1,api5,api6},则这两个网络流量调用的接口信息之间的接口相似度可以为
需要说明的是,若任一应用标识组中任意两个应用标识的一级域名不相同,则不对这两个应用标识进行合并。
在一些实施例中,针对两个应用标识的任一层级域名,可以计算两个应用标识的该层级域名之间的编辑距离,并计算两者的层级相似度s = (长串的长度-编辑距离)/长串的长度,其中长串为两个应用标识的该层级域名中字符长度较长的那个层级域名。在基于两个应用标识中各层级域名之间的层级相似度,确定这两个应用标识之间的域名相似度时,可以基于相应应用标识组(即这两个应用标识所属的应用标识组)对应的各层级域名的权重对这两个应用标识中各层级域名之间的层级相似度进行加权求和,得到这两个应用标识的域名相似度。其中,任一应用标识组对应的各层级域名的权重是基于各层级域名在该应用标识组对应的域名结构中的层级确定的,任一层级域名在该应用标识组对应的域名结构中的层级越高,该层级域名的权重越高。例如,域名结构为A.B.C.D的应用标识组对应的三级域名的权重低于二级域名的权重。需要说明的是,不同应用标识组对应同一层级域名的权重可以不同,例如域名结构为A.B.C.D的应用标识组对应三级域名的权重可以和域名结构为A.B.C的应用标识组对应三级域名的权重不同。
在另一些实施例中,针对第二网络流量组,如图2所示,可以采用如下方式进行网络应用信息合并:
步骤210,采集所述第一网络流量组和第二网络流量组中各个网络流量中包含的应用URL地址,并基于所述各个网络流量中包含的应用URL地址,确定所述各个网络流量调用的接口信息;
步骤220,确定所述第二网络流量组中任意两个网络流量调用的接口信息之间的接口相似度,和/或,确定所述第二网络流量组中网络流量调用的接口信息与所述第一网络流量组中网络流量调用的接口信息之间的接口相似度;
步骤220,基于所述第二网络流量组中任意两个网络流量调用的接口信息之间的接口相似度,和/或,基于所述第二网络流量组中网络流量调用的接口信息与所述第一网络流量组中网络流量调用的接口信息之间的接口相似度,对相应网络流量对应的应用标识进行合并。
具体而言,由于第二网络流量组中网络流量的应用标识为网络协议+IP地址的组合,因此难以直接利用上述第一网络流量组所采用的方式进行网络应用信息合并。对此,可以利用接口相似度的方式对第二网络流量组中网络流量的应用标识进行合并。
其中,可以采集第一网络流量组和第二网络流量组中各个网络流量中包含的应用URL地址,并基于各个网络流量中包含的应用URL地址,确定相应网络流量调用的接口信息。然后基于上述实施例中提及的接口相似度计算方式计算第二网络流量组中任意两个网络流量调用的接口信息之间的接口相似度,和/或,第二网络流量组中网络流量调用的接口信息与第一网络流量组中网络流量调用的接口信息之间的接口相似度。随后,基于第二网络流量组中任意两个网络流量调用的接口信息之间的接口相似度,和/或,基于第二网络流量组中网络流量调用的接口信息与第一网络流量组中网络流量调用的接口信息之间的接口相似度,对相应网络流量对应的应用标识进行合并。
即,可以根据第二网络流量组中任意两个网络流量调用的接口信息之间的接口相似度,将第二网络流量组中网络流量对应的应用标识合并到一起,其中,可以将接口相似度高于接口相似度阈值的网络流量对应的应用标识合并;也可以根据第二网络流量组中网络流量调用的接口信息与第一网络流量组中网络流量调用的接口信息之间的接口相似度,将与同一域名合并组中的网络流量的接口相似度高于接口相似度阈值的属于第二网络流量组的网络流量对应的应用标识合并到一起。可见,前两种方式仅针对第二网络流量组的网络流量进行合并,只是合并时依据的信息不同。除此之外,还可以结合第二网络流量组中任意两个网络流量调用的接口信息之间的接口相似度,以及第二网络流量组中网络流量调用的接口信息与第一网络流量组中网络流量调用的接口信息之间的接口相似度,将第二网络流量组中的网络流量对应的应用标识与包含第一网络流量组的网络流量对应的应用标识的域名合并组合并到一起,进一步降低网络应用信息的重复性。
针对上述第三种合并方式,在一些实施例中,可以基于第二网络流量组中任意两个网络流量调用的接口信息之间的接口相似度,对第二网络流量组中的各个网络流量对应的应用标识进行合并,得到多个初始合并组。其中,可以将第二网络流量组中接口相似度高于接口相似度阈值的网络流量对应的应用标识合并到同一初始合并组中。随后,针对任一初始合并组,基于该初始合并组中各个应用标识对应的网络流量调用的接口信息与各个域名合并组中各个应用标识对应的网络流量调用的接口信息之间的接口相似度,从各个域名合并组中确定该初始合并组对应的相似域名合并组。此处,由于域名合并组中的应用标识是第一网络流量组中部分网络流量对应的应用标识,因此可以从上述步骤中获取的第二网络流量组中网络流量调用的接口信息与第一网络流量组中网络流量调用的接口信息之间的接口相似度中,筛选得到该初始合并组中各个应用标识对应的网络流量调用的接口信息与各个域名合并组中各个应用标识对应的网络流量调用的接口信息之间的接口相似度。随后,确定该初始合并组中各个应用标识对应的网络流量调用的接口信息与任一域名合并组中各个应用标识对应的网络流量调用的接口信息之间的接口相似度中高于接口相似度阈值的数量,作为该初始合并组与该域名合并组的组相似度,并确定组相似度最高的域名合并组作为该初始合并组的相似域名合并组。
基于该初始合并组中各个应用标识对应的网络流量调用的接口信息与相似域名合并组中各个应用标识对应的网络流量调用的接口信息之间的接口相似度,将该初始合并组中的应用标识合并至相似域名合并组中。其中,可以将该初始合并组中与相似域名合并组中任一应用标识对应的网络流量调用的接口信息之间的接口相似度高于接口相似度阈值的网络流量对应的应用标识直接合并到相似域名合并组中。
综上所述,本发明实施例提供的方法,通过提取内网网络流量涉及的网络地址,作为网络流量对应的应用标识,再基于各个网络流量对应的应用标识中的网络协议和域名层级,对各个网络流量对应的应用标识进行分组,得到多个应用标识组,其中,任一应用标识组的应用标识中的网络协议和域名层级相同,继而针对任一应用标识组,计算得到该应用标识组的任意两个应用标识中各层级域名之间的层级相似度,并基于任意两个应用标识中各层级域名之间的层级相似度,确定任意两个应用标识的域名相似度,从而基于各个应用标识组中任意两个应用标识的域名相似度对各个应用标识组中的应用标识进行合并,得到多个域名合并组,其中域名合并组中的应用标识对应同一网络应用,实现了网络应用信息的快速、精准合并。
下面对本发明提供的网络应用信息合并装置进行描述,下文描述的网络应用信息合并装置与上文描述的网络应用信息合并方法可相互对应参照。
基于上述任一实施例,图3是本发明提供的网络应用信息合并装置的结构示意图,如图3所示,该装置包括:
网络流量提取单元310,用于采集内网的多个网络流量,并提取所述网络流量涉及的网络地址,作为所述网络流量对应的应用标识;其中,任一网络流量涉及的网络地址包括网络协议和域名,或者包括网络协议和IP地址;
应用标识分组单元320,用于基于各个网络流量对应的应用标识中的网络协议和域名层级,对所述各个网络流量对应的应用标识进行分组,得到多个应用标识组;其中,任一应用标识组的应用标识中的网络协议和域名层级相同;
域名相似度计算单元330,用于针对任一应用标识组,计算得到所述任一应用标识组的任意两个应用标识中各层级域名之间的层级相似度,并基于所述任意两个应用标识中各层级域名之间的层级相似度,确定所述任意两个应用标识的域名相似度;
应用标注合并单元340,用于基于各个应用标识组中任意两个应用标识的域名相似度对所述各个应用标识组中的应用标识进行合并,得到多个域名合并组;所述域名合并组中的应用标识对应同一网络应用。
本发明实施例提供的装置,通过提取内网网络流量涉及的网络地址,作为网络流量对应的应用标识,再基于各个网络流量对应的应用标识中的网络协议和域名层级,对各个网络流量对应的应用标识进行分组,得到多个应用标识组,其中,任一应用标识组的应用标识中的网络协议和域名层级相同,继而针对任一应用标识组,计算得到该应用标识组的任意两个应用标识中各层级域名之间的层级相似度,并基于任意两个应用标识中各层级域名之间的层级相似度,确定任意两个应用标识的域名相似度,从而基于各个应用标识组中任意两个应用标识的域名相似度对各个应用标识组中的应用标识进行合并,得到多个域名合并组,其中域名合并组中的应用标识对应同一网络应用,实现了网络应用信息的快速、精准合并。
图4是本发明提供的电子设备的结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、存储器(memory)420、通信接口(Communications Interface)430和通信总线440,其中,处理器410,存储器420,通信接口430通过通信总线440完成相互间的通信。处理器410可以调用存储器420中的逻辑指令,以执行网络应用信息合并方法,该方法包括:采集内网的多个网络流量,并提取所述网络流量涉及的网络地址,作为所述网络流量对应的应用标识;其中,任一网络流量涉及的网络地址包括网络协议和域名,或者包括网络协议和IP地址;基于各个网络流量对应的应用标识中的网络协议和域名层级,对所述各个网络流量对应的应用标识进行分组,得到多个应用标识组;其中,任一应用标识组的应用标识中的网络协议和域名层级相同;针对任一应用标识组,计算得到所述任一应用标识组的任意两个应用标识中各层级域名之间的层级相似度,并基于所述任意两个应用标识中各层级域名之间的层级相似度,确定所述任意两个应用标识的域名相似度;基于各个应用标识组中任意两个应用标识的域名相似度对所述各个应用标识组中的应用标识进行合并,得到多个域名合并组;所述域名合并组中的应用标识对应同一网络应用。
此外,上述的存储器420中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的网络应用信息合并方法,该方法包括:采集内网的多个网络流量,并提取所述网络流量涉及的网络地址,作为所述网络流量对应的应用标识;其中,任一网络流量涉及的网络地址包括网络协议和域名,或者包括网络协议和IP地址;基于各个网络流量对应的应用标识中的网络协议和域名层级,对所述各个网络流量对应的应用标识进行分组,得到多个应用标识组;其中,任一应用标识组的应用标识中的网络协议和域名层级相同;针对任一应用标识组,计算得到所述任一应用标识组的任意两个应用标识中各层级域名之间的层级相似度,并基于所述任意两个应用标识中各层级域名之间的层级相似度,确定所述任意两个应用标识的域名相似度;基于各个应用标识组中任意两个应用标识的域名相似度对所述各个应用标识组中的应用标识进行合并,得到多个域名合并组;所述域名合并组中的应用标识对应同一网络应用。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的网络应用信息合并方法,该方法包括:采集内网的多个网络流量,并提取所述网络流量涉及的网络地址,作为所述网络流量对应的应用标识;其中,任一网络流量涉及的网络地址包括网络协议和域名,或者包括网络协议和IP地址;基于各个网络流量对应的应用标识中的网络协议和域名层级,对所述各个网络流量对应的应用标识进行分组,得到多个应用标识组;其中,任一应用标识组的应用标识中的网络协议和域名层级相同;针对任一应用标识组,计算得到所述任一应用标识组的任意两个应用标识中各层级域名之间的层级相似度,并基于所述任意两个应用标识中各层级域名之间的层级相似度,确定所述任意两个应用标识的域名相似度;基于各个应用标识组中任意两个应用标识的域名相似度对所述各个应用标识组中的应用标识进行合并,得到多个域名合并组;所述域名合并组中的应用标识对应同一网络应用。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种网络应用信息合并方法,其特征在于,包括:
采集内网的多个网络流量,并提取所述网络流量涉及的网络地址,作为所述网络流量对应的应用标识;其中,任一网络流量涉及的网络地址包括网络协议和域名,或者包括网络协议和IP地址;
基于各个网络流量对应的应用标识中的网络协议和域名层级,对所述各个网络流量对应的应用标识进行分组,得到多个应用标识组;其中,任一应用标识组的应用标识中的网络协议和域名层级相同;
针对任一应用标识组,计算得到所述任一应用标识组的任意两个应用标识中各层级域名之间的层级相似度,并基于所述任意两个应用标识中各层级域名之间的层级相似度,确定所述任意两个应用标识的域名相似度;
基于各个应用标识组中任意两个应用标识的域名相似度对所述各个应用标识组中的应用标识进行合并,得到多个域名合并组;所述域名合并组中的应用标识对应同一网络应用。
2.根据权利要求1所述的网络应用信息合并方法,其特征在于,所述基于各个网络流量对应的应用标识中的网络协议和域名层级,对所述各个网络流量对应的应用标识进行分组,得到多个应用标识组,具体包括:
将采集的网络流量对应的应用标识进行划分,得到应用标识包括网络协议和域名的第一网络流量组和应用标识包括网络协议和IP地址的第二网络流量组;
针对所述第一网络流量组,基于所述第一网络流量组中各个网络流量对应的应用标识中的网络协议和域名层级,对所述各个网络流量对应的应用标识进行分组,得到多个应用标识组。
3.根据权利要求2所述的网络应用信息合并方法,其特征在于,所述方法还包括:
采集所述第一网络流量组和第二网络流量组中各个网络流量中包含的应用URL地址,并基于所述各个网络流量中包含的应用URL地址,确定所述各个网络流量调用的接口信息;
确定所述第二网络流量组中任意两个网络流量调用的接口信息之间的接口相似度,和/或,确定所述第二网络流量组中网络流量调用的接口信息与所述第一网络流量组中网络流量调用的接口信息之间的接口相似度;
基于所述第二网络流量组中任意两个网络流量调用的接口信息之间的接口相似度,和/或,基于所述第二网络流量组中网络流量调用的接口信息与所述第一网络流量组中网络流量调用的接口信息之间的接口相似度,对相应网络流量对应的应用标识进行合并。
4.根据权利要求3所述的网络应用信息合并方法,其特征在于,所述基于所述第二网络流量组中任意两个网络流量调用的接口信息之间的接口相似度,和/或,基于所述第二网络流量组中网络流量调用的接口信息与所述第一网络流量组中网络流量调用的接口信息之间的接口相似度,对相应网络流量对应的应用标识进行合并,具体包括:
基于所述第二网络流量组中任意两个网络流量调用的接口信息之间的接口相似度,对所述第二网络流量组中的各个网络流量对应的应用标识进行合并,得到多个初始合并组;
针对任一初始合并组,基于所述任一初始合并组中各个应用标识对应的网络流量调用的接口信息与各个域名合并组中各个应用标识对应的网络流量调用的接口信息之间的接口相似度,从所述各个域名合并组中确定所述任一初始合并组对应的相似域名合并组;
基于所述任一初始合并组中各个应用标识对应的网络流量调用的接口信息与所述相似域名合并组中各个应用标识对应的网络流量调用的接口信息之间的接口相似度,将所述任一初始合并组中的应用标识合并至所述相似域名合并组中。
5.根据权利要求2所述的网络应用信息合并方法,其特征在于,所述针对所述第一网络流量组,基于所述第一网络流量组中各个网络流量对应的应用标识中的网络协议和域名层级,对所述各个网络流量对应的应用标识进行分组,得到多个应用标识组,之后还包括:
若任一应用标识组中任意两个应用标识的一级域名不相同,则不对所述任意两个应用标识进行合并。
6.根据权利要求2所述的网络应用信息合并方法,其特征在于,所述基于各个应用标识组中任意两个应用标识的域名相似度对所述各个应用标识组中的应用标识进行合并,具体包括:
若任一应用标识组中任意两个应用标识的域名相似度大于域名相似度阈值,则将所述任一应用标识组中的所述任意两个应用标识进行合并;
若任一应用标识组中任意两个应用标识的域名相似度小于或等于域名相似度阈值,则确定所述任意两个应用标识对应的网络流量调用的接口信息之间的接口相似度,并基于所述任意两个应用标识对应的网络流量调用的接口信息之间的接口相似度,判断是否将所述任意两个应用标识进行合并。
7.根据权利要求2至6任一项所述的网络应用信息合并方法,其特征在于,所述基于所述任意两个应用标识中各层级域名之间的层级相似度,确定所述任意两个应用标识的域名相似度,具体包括:
基于相应应用标识组对应的各层级域名的权重对所述任意两个应用标识中各层级域名之间的层级相似度进行加权求和,得到所述任意两个应用标识的域名相似度;
其中,所述应用标识组对应的各层级域名的权重是基于各层级域名在所述应用标识组对应的域名结构中的层级确定的;任一层级域名在所述应用标识组对应的域名结构中的层级越高,所述任一层级域名的权重越高。
8.一种网络应用信息合并装置,其特征在于,包括:
网络流量提取单元,用于采集内网的多个网络流量,并提取所述网络流量涉及的网络地址,作为所述网络流量对应的应用标识;其中,任一网络流量涉及的网络地址包括网络协议和域名,或者包括网络协议和IP地址;
应用标识分组单元,用于基于各个网络流量对应的应用标识中的网络协议和域名层级,对所述各个网络流量对应的应用标识进行分组,得到多个应用标识组;其中,任一应用标识组的应用标识中的网络协议和域名层级相同;
域名相似度计算单元,用于针对任一应用标识组,计算得到所述任一应用标识组的任意两个应用标识中各层级域名之间的层级相似度,并基于所述任意两个应用标识中各层级域名之间的层级相似度,确定所述任意两个应用标识的域名相似度;
应用标注合并单元,用于基于各个应用标识组中任意两个应用标识的域名相似度对所述各个应用标识组中的应用标识进行合并,得到多个域名合并组;所述域名合并组中的应用标识对应同一网络应用。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述网络应用信息合并方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述网络应用信息合并方法。
CN202310961990.4A 2023-08-02 2023-08-02 网络应用信息合并方法、装置、电子设备和存储介质 Active CN116708369B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310961990.4A CN116708369B (zh) 2023-08-02 2023-08-02 网络应用信息合并方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310961990.4A CN116708369B (zh) 2023-08-02 2023-08-02 网络应用信息合并方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN116708369A true CN116708369A (zh) 2023-09-05
CN116708369B CN116708369B (zh) 2023-10-27

Family

ID=87831456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310961990.4A Active CN116708369B (zh) 2023-08-02 2023-08-02 网络应用信息合并方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN116708369B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117729176A (zh) * 2024-02-18 2024-03-19 闪捷信息科技有限公司 基于网络地址和响应体的应用程序接口聚合方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7748002B1 (en) * 2001-10-31 2010-06-29 Juniper Networks, Inc. Systems and methods for scheduling applications
US20120084860A1 (en) * 2010-10-01 2012-04-05 Alcatel-Lucent Usa Inc. System and method for detection of domain-flux botnets and the like
US20140086069A1 (en) * 2012-09-21 2014-03-27 Cisco Technology, Inc. Efficient network traffic analysis using a hierarchical key combination data structure
CN106385407A (zh) * 2016-09-01 2017-02-08 北京神州绿盟信息安全科技股份有限公司 一种应用识别待分析数据包去噪声的方法和装置
JP2018120308A (ja) * 2017-01-23 2018-08-02 日本電信電話株式会社 分類装置、分類方法及び分類プログラム
CN108540471A (zh) * 2018-04-08 2018-09-14 南京邮电大学 移动应用网络流量聚类方法、计算机可读存储介质和终端
CN112564991A (zh) * 2019-09-10 2021-03-26 华为技术有限公司 应用识别方法、装置及存储介质
CN113076453A (zh) * 2021-03-22 2021-07-06 鹏城实验室 域名分类方法、设备及计算机可读存储介质
CN113746738A (zh) * 2020-05-29 2021-12-03 华为技术有限公司 数据转发方法、装置及相关设备
CN114024912A (zh) * 2021-11-04 2022-02-08 天津市国瑞数码安全系统股份有限公司 一种基于改造chameleon算法的网络流量应用识别分析方法及系统
CN115134095A (zh) * 2021-03-10 2022-09-30 中国电信股份有限公司 僵尸网络控制端检测方法及装置、存储介质、电子设备
CN115955458A (zh) * 2022-10-17 2023-04-11 国网思极网安科技(北京)有限公司 一种内容分发网络地址的识别方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7748002B1 (en) * 2001-10-31 2010-06-29 Juniper Networks, Inc. Systems and methods for scheduling applications
US20120084860A1 (en) * 2010-10-01 2012-04-05 Alcatel-Lucent Usa Inc. System and method for detection of domain-flux botnets and the like
US20140086069A1 (en) * 2012-09-21 2014-03-27 Cisco Technology, Inc. Efficient network traffic analysis using a hierarchical key combination data structure
CN106385407A (zh) * 2016-09-01 2017-02-08 北京神州绿盟信息安全科技股份有限公司 一种应用识别待分析数据包去噪声的方法和装置
JP2018120308A (ja) * 2017-01-23 2018-08-02 日本電信電話株式会社 分類装置、分類方法及び分類プログラム
CN108540471A (zh) * 2018-04-08 2018-09-14 南京邮电大学 移动应用网络流量聚类方法、计算机可读存储介质和终端
CN112564991A (zh) * 2019-09-10 2021-03-26 华为技术有限公司 应用识别方法、装置及存储介质
CN113746738A (zh) * 2020-05-29 2021-12-03 华为技术有限公司 数据转发方法、装置及相关设备
CN115134095A (zh) * 2021-03-10 2022-09-30 中国电信股份有限公司 僵尸网络控制端检测方法及装置、存储介质、电子设备
CN113076453A (zh) * 2021-03-22 2021-07-06 鹏城实验室 域名分类方法、设备及计算机可读存储介质
CN114024912A (zh) * 2021-11-04 2022-02-08 天津市国瑞数码安全系统股份有限公司 一种基于改造chameleon算法的网络流量应用识别分析方法及系统
CN115955458A (zh) * 2022-10-17 2023-04-11 国网思极网安科技(北京)有限公司 一种内容分发网络地址的识别方法及装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ANKIT VIDYARTHI等: "ACLIME: Automatic cluster identification and merging", 《2014 5TH INTERNATIONAL CONFERENCE - CONFLUENCE THE NEXT GENERATION INFORMATION TECHNOLOGY SUMMIT (CONFLUENCE)》 *
于光喜;张?;崔华俊;杨兴华;李杨;刘畅;: "基于机器学习的僵尸网络DGA域名检测系统设计与实现", 信息安全学报, no. 03 *
季成;李晓东;袁坚;尉迟学彪;山秀明;: "基于k-means算法的DNS查询模式分析", 清华大学学报(自然科学版), no. 04 *
张洛什;王大伟;薛一波;: "基于流感知的复杂网络应用识别模型", 通信学报, no. 03 *
牛泽杰;李启南;李强军;: "基于矩形树图和折线图的网络流量分析", 兰州交通大学学报, no. 06 *
陆蓉蓉: "MapReduce模型在Hadoop中的性能优化应用研究", 《南京邮电大学硕士学位论文》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117729176A (zh) * 2024-02-18 2024-03-19 闪捷信息科技有限公司 基于网络地址和响应体的应用程序接口聚合方法及装置
CN117729176B (zh) * 2024-02-18 2024-04-26 闪捷信息科技有限公司 基于网络地址和响应体的应用程序接口聚合方法及装置

Also Published As

Publication number Publication date
CN116708369B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN109450955B (zh) 一种基于网络攻击的流量处理方法及装置
CN116708369B (zh) 网络应用信息合并方法、装置、电子设备和存储介质
CN106534164B (zh) 基于网络空间用户标识的有效虚拟身份刻画方法
CN110033302A (zh) 恶意账户识别方法及装置
CN108228875B (zh) 基于完美哈希的日志解析方法及装置
CN105376223B (zh) 网络身份关系的可靠度计算方法
CN110020086A (zh) 一种用户画像查询方法及装置
CN110365636B (zh) 工控蜜罐攻击数据来源的判别方法及装置
CN112241439A (zh) 一种攻击组织发现方法、装置、介质和设备
CN110851817A (zh) 一种终端类型识别方法及装置
CN115333966A (zh) 一种基于拓扑的Nginx日志分析方法、系统及设备
CN115189914A (zh) 网络流量的应用程序编程接口api识别方法和装置
CN112765660A (zh) 一种基于MapReduce并行聚类技术的终端安全性分析方法和系统
CN114880522A (zh) 基于图数据库实现ID Mapping的方法及装置
CN117254983A (zh) 涉诈网址检测方法、装置、设备及存储介质
CN106294375B (zh) 一种数据请求实时处理方法和装置
CN112003884A (zh) 一种网络资产的采集和自然语言检索方法
CN113382092B (zh) 基于图社区发现的活跃地址探测方法及装置
Sija et al. Automatic payload signature generation for accurate identification of internet applications and application services
CN109391738B (zh) 一种根据移动终端信息进行预警的方法
CN108449226B (zh) 信息快速分类的方法和系统
CN110597572B (zh) 一种服务调用关系分析方法和计算机系统
CN112686029A (zh) 用于数据库审计系统的sql新语句识别方法及装置
CN111352932A (zh) 基于位图树算法提高数据处理效率的方法及装置
CN116305220B (zh) 一种基于大数据的资源数据处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Network application information merging method, device, electronic equipment, and storage medium

Granted publication date: 20231027

Pledgee: Hangzhou Yuhang Policy Financing Guarantee Co.,Ltd.

Pledgor: Flash it Co.,Ltd.

Registration number: Y2024980030937