CN110287699B - 应用程序的特征提取方法和装置 - Google Patents

应用程序的特征提取方法和装置 Download PDF

Info

Publication number
CN110287699B
CN110287699B CN201910505790.1A CN201910505790A CN110287699B CN 110287699 B CN110287699 B CN 110287699B CN 201910505790 A CN201910505790 A CN 201910505790A CN 110287699 B CN110287699 B CN 110287699B
Authority
CN
China
Prior art keywords
application program
determined
feature
features
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910505790.1A
Other languages
English (en)
Other versions
CN110287699A (zh
Inventor
黄晓炼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou DPTech Technologies Co Ltd
Original Assignee
Hangzhou DPTech Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou DPTech Technologies Co Ltd filed Critical Hangzhou DPTech Technologies Co Ltd
Priority to CN201910505790.1A priority Critical patent/CN110287699B/zh
Publication of CN110287699A publication Critical patent/CN110287699A/zh
Application granted granted Critical
Publication of CN110287699B publication Critical patent/CN110287699B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/44Program or device authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/033Test or assess software

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请供一种应用程序的特征提取方法及装置,应用于网络设备中,所述方法包括:抓取针对待确定特征应用程序执行同一操作的报文;将抓取的报文中出现频率超过设定值且携带所述待确定特征应用程序的标识的字段确定为候选特征;从所述候选特征中剔除出符合所述待确定特征应用程序对应的预设过滤条件的特征,得到所述待确定特征应用程序的选定特征。应用本申请的实施例,可以更加精确地提取应用程序的特征,降低漏报或误报的风险。

Description

应用程序的特征提取方法和装置
技术领域
本申请涉及网络通信技术领域,特别设计一种应用程序的特征提取方法和装置。
背景技术
随着时代的发展和经济的进步,各类应用程序应运而生,由此带来的安全防护问题也越来越多地引起企业的重视,企业希望能够识别出应用程序,然后对不同的应用程序采取不同的访问控制策略。
基于端口和固定互联网协议(Internet Protocol,IP)地址进行应用程序的识别是简单易行、效率较高的手段,然而,这两种方式的弊端显而易见,当两个应用程序使用同一个端口时,比如:QQ和微信都使用端口8080,基于端口的方式就无法区分到底是QQ还是微信,从而无法对具体的应用程序配置访问控制策略,只能使用相同的访问控制策略;而固定IP地址的识别方式仅适用于局域网中服务器的IP地址固定的情况,适用范围狭隘。由此,引入了深度包检测(Deep Packet Inspection,DPI)和深度流检测(Deep Flow Inspection,DFI),成为安全防护领域的热门技术之一,这两种方式实际上就是预先提取各个应用程序的特征,然后基于抓取到的报文的特征来确定对应的应用程序。那么,如何准确提取各个应用程序的特征就成为重中之重。
目前,可以对比来自同一应用程序的多个报文的数据,提取相同内容的部分作为该应用程序的特征。该方式只是简单地将来自同一应用程序的多个报文的相同内容作为该应用程序的特征,导致提取的应用程序的特征准确性较差,会存在误报或者漏报的风险。
发明内容
有鉴于此,本申请提供一种应用程序的特征提取方法和装置,以解决提取的应用程序的特征准确性较差,会存在误报或者漏报的风险的问题。
具体地,本申请是通过如下技术方案实现的:
一种应用程序的特征提取方法,应用于网络设备中,所述方法包括:
抓取针对待确定特征应用程序执行同一操作的报文;
将抓取的报文中出现频率超过设定值且携带所述待确定特征应用程序的标识的字段确定为候选特征;
从所述候选特征中剔除出符合所述待确定特征应用程序对应的预设过滤条件的特征,得到所述待确定特征应用程序的选定特征。
一种应用程序的特征提取装置,应用于网络设备中,所述装置包括:
抓取模块,应用抓取针对待确定特征应用程序执行同一操作的报文;
确定模块,应用将抓取的报文中出现频率超过设定值且携带所述待确定特征应用程序的标识的字段确定为候选特征;
剔除模块,应用从所述候选特征中剔除出符合所述待确定特征应用程序对应的预设过滤条件的特征,得到所述待确定特征应用程序的选定特征。
由以上本申请提供的技术方案可见,首先将抓取的报文中出现频率超过设定值且携带待确定特征应用程序的标识的字段确定为候选特征,然后还要进一步从候选特征中剔除出符合待确定特征应用程序对应的预设过滤条件的特征,得到待确定特征应用程序的选定特征,相对于现有技术,可以更加精确地提取应用程序的特征,降低漏报或误报的风险。
附图说明
图1为本申请示出的一种应用程序的特征提取方法的流程图;
图2为本申请示出的一种应用程序的特征提取装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
针对相关技术中存在的技术问题,发明人进行了深入研究发现,只是简单地将来自同一应用程序的多个报文的相同内容作为该应用程序的特征,导致提取的应用程序的特征准确性较差,会存在误报或者漏报的风险。比如:对比来自同一应用程序的多个报文后发现均携带相同字段HOST:201.114.25.30,就把HOST:201.114.25.30作为该应用程序的特征,当该应用程序的服务器的IP地址变化时,就无法识别出该应用程序从而导致漏报。因此,可以在此基础上进一步引入判断筛选机制,排除一些容易变化因素,从而让提取的应用程序的特征更加准确和完善。
为了解决上述问题,本发明实施例提供了一种应用程序的特征提取方法,可以更加精确地提取应用程序的特征,降低漏报或误报的风险。请参见图1,图1为本申请示出的一种应用程序的特征提取方法的流程图,可以应用于网络设备中。
S11:抓取针对待确定特征应用程序执行同一操作的报文。
可以搜集当前广泛使用的应用程序得到待确定特征应用程序,就是要提取这些应用程序的特征,以便于后续在接收到报文时,确定对应的应用程序。可以基于已有的抓包程序来抓取报文,通常针对待确定特征应用程序执行同一操作时,产生的报文是类似的,因此,可以抓取针对待确定特征应用程序执行同一操作的报文。
S12:将抓取的报文中出现频率超过设定值且携带待确定特征应用程序的标识的字段确定为候选特征。
抓取的报文中通常会包含很多字段,这些字段并不能都成为待确定特征应用程序的选定特征,因此,可以将抓取的报文中同时满足出现频率超过设定值的字段和携带待确定特征应用程序的标识的字段确定为候选特征,候选特征只是有可能成为待确定特征应用程序的选定特征,还需要进一步进行确定。
其中,字段可以但不限于包括消息命令格式、字符及其组合等。
假设,待确定特征应用程序为酷狗音乐,当对比抓取的多个报文后,发现Host字段(Host:fx.v.kugou.com)出现频率极高,且带有酷狗音乐自身特有的特征时,则可以将Host:fx.v.kugou.com作为酷狗音乐的候选特征。
S13:从候选特征中剔除出符合待确定特征应用程序对应的预设过滤条件的特征,得到待确定特征应用程序的选定特征。
可以预先选择一些过滤条件作为待确定特征应用程序对应的预设过滤条件,满足这些过滤条件的候选特征是不合格的特征,因此需要从候选特征中剔除,剩下的候选特征就是待确定特征应用程序的选定特征。
由以上本申请提供的技术方案可见,首先将抓取的报文中出现频率超过设定值且携带待确定特征应用程序的标识的字段确定为候选特征,然后还要进一步从候选特征中剔除出符合待确定特征应用程序对应的预设过滤条件的特征,得到待确定特征应用程序的选定特征,相对于现有技术,可以更加精确地提取应用程序的特征,降低漏报或误报的风险。
一种可选的实施方式,上述S12中将抓取的报文中出现频率超过设定值且携带待确定特征应用程序的标识的字段确定为候选特征,实现过程具体包括:
对比抓取的报文中出现的各个字段;
统计携带待确定特征应用程序的标识的各个字段出现的频率;
获取频率超过设定值且携带待确定应用程序的标识的字段,得到候选特征。
抓取的报文里面会包含很多字段,对对这些字段进行分割、比较、计算,最后确定出所有可能的字段,首选确定出携带待确定特征应用程序的标识的字段,然后统计这些字段出现的次数,再将这些次数除以抓取的报文的个数,就可以得到各个字段出现的频率;可以预先设置设定值,将各个字段的频率与设定值进行比较,频率超过设定值的字段就可以确定为候选特征。
其中,设定值可以根据是需要进行设定;待确定特征应用程序的标识为区分待确定特征应用程序的标识,例如,酷狗音乐的标识为kugou.com。
一种可选的实施方式,上述方法还包括:
根据频率未超过设定值且携带待确定特征应用程序的标识的字段生成正则表达式;
将正则表达式作为待确定特征应用程序的选定特征。
对于上述频率未超过设定值的特征也有可能是待确定应用程序的选定特征,可以通过建立正则表达式来补充确定,例如:酷我音乐和酷狗音乐的报文中均会出现GET/mp3时,就无法区分到底是酷狗音乐还是酷我音乐,这时候就可以使用正则来补充描述该软件特征。下面以待确定特征应用程序为酷狗音乐为例进行说明,若候选特征为Host字段出现的格式比较相似:Host:fx.v.kugou.com、Host:fx.p.kugou.com、Host:fx.m.kugou.com......时,又不完全相同时,则可以引入正则表达式:Host:fx\..*\.kugou\.com,这样可以减少漏报概率,更好的描述了特征。
一种可选的实施方式,上述S13中从候选特征中剔除出符合待确定特征应用程序对应的预设过滤条件的特征,得到待确定特征应用程序的选定特征,实现过程具体包括:
分析待确定特征应用程序,得到待确定特征应用程序对应的预设过滤条件;
将候选特征与待确定特征应用程序对应的预设过滤条件进行匹配;
从候选特征中剔除匹配待确定特征应用程序对应的预设过滤条件的特征,得到待确定特征应用程序的选定特征。
例如,假设待确定特征应用程序为酷狗音乐,当对比多个报文后发现Host字段为IP时(Host:115.231.37.89),可能本次的服务器用的是这个IP地址,出现频率也很高,如果提取该字段,若下次服务器换了个IP地址,就会产生误报或者漏报现象,所以这种情况下,可以将其作为酷狗音乐对于的预设过滤条件,一旦检测到某个候选特征符合该预设过滤条件,可以将其剔除。
一种可选的实施方式,上述方法还包括:
将待确定特征应用程序的选定特征添加到特征库中。
可将特征库部署到网络设备中,从而对应用程序进行访问控制配置等后续操作。
请参见图2,图2为本申请示出的一种应用程序的特征提取装置的结构示意图,应用于网络设备中,该装置包括:
抓取模块21,应用抓取针对待确定特征应用程序执行同一操作的报文;
确定模块22,应用将抓取的报文中出现频率超过设定值且携带待确定特征应用程序的标识的字段确定为候选特征;
剔除模块23,应用从候选特征中剔除出符合待确定特征应用程序对应的预设过滤条件的特征,得到待确定特征应用程序的选定特征。
由以上本申请提供的技术方案可见,首先将抓取的报文中出现频率超过设定值且携带待确定特征应用程序的标识的字段确定为候选特征,然后还要进一步从候选特征中剔除出符合待确定特征应用程序对应的预设过滤条件的特征,得到待确定特征应用程序的选定特征,相对于现有技术,可以更加精确地提取应用程序的特征,降低漏报或误报的风险。
具体的,确定模块22,用于将抓取的报文中出现频率超过设定值且携带待确定特征应用程序的标识的字段确定为候选特征,具体用于:
对比抓取的报文中出现的各个字段;
统计携带待确定特征应用程序的标识的各个字段出现的频率;
获取频率超过设定值且携带待确定应用程序的标识的字段,得到候选特征。
可选的,确定模块22,还用于:
根据频率未超过设定值且携带待确定特征应用程序的标识的字段生成正则表达式;
将正则表达式作为待确定特征应用程序的选定特征。
具体的,剔除模块23,用于从候选特征中剔除出符合待确定特征应用程序对应的预设过滤条件的特征,得到待确定特征应用程序的选定特征,具体用于:
分析待确定特征应用程序,得到待确定特征应用程序对应的预设过滤条件;
将候选特征与待确定特征应用程序对应的预设过滤条件进行匹配;
从候选特征中剔除匹配待确定特征应用程序对应的预设过滤条件的特征,得到待确定特征应用程序的选定特征。
可选的,装置还包括添加模块,用于:
将待确定特征应用程序的选定特征添加到特征库中。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (8)

1.一种应用程序的特征提取方法,应用于网络设备中,其特征在于,所述方法包括:
抓取针对待确定特征应用程序执行同一操作的报文;
对比所述抓取的报文中出现的各个字段;
统计携带所述待确定特征应用程序的标识的各个字段出现的频率;
获取频率超过设定值且携带所述待确定特征应用程序的标识的字段,得到候选特征;
从所述候选特征中剔除出符合所述待确定特征应用程序对应的预设过滤条件的特征,得到所述待确定特征应用程序的选定特征。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据频率未超过所述设定值且携带所述待确定特征应用程序的标识的字段生成正则表达式;
将所述正则表达式作为所述待确定特征应用程序的选定特征。
3.根据权利要求1所述的方法,其特征在于,从所述候选特征中剔除出符合所述待确定特征应用程序对应的预设过滤条件的特征,得到所述待确定特征应用程序的选定特征,具体包括:
分析所述待确定特征应用程序,得到所述待确定特征应用程序对应的预设过滤条件;
将所述候选特征与所述待确定特征应用程序对应的预设过滤条件进行匹配;
从所述候选特征中剔除匹配所述待确定特征应用程序对应的预设过滤条件的特征,得到所述待确定特征应用程序的选定特征。
4.根据权利要求1-3任一所述的方法,其特征在于,所述方法还包括:
将所述待确定特征应用程序的选定特征添加到特征库中。
5.一种应用程序的特征提取装置,应用于网络设备中,其特征在于,所述装置包括:
抓取模块,用于抓取针对待确定特征应用程序执行同一操作的报文;
确定模块,用于:对比抓取的报文中出现的各个字段;统计携带所述待确定特征应用程序的标识的各个字段出现的频率;获取频率超过设定值且携带所述待确定特征应用程序的标识的字段,得到候选特征;
剔除模块,用于从所述候选特征中剔除出符合所述待确定特征应用程序对应的预设过滤条件的特征,得到所述待确定特征应用程序的选定特征。
6.根据权利要求5所述的装置,其特征在于,所述确定模块,还用于:
根据频率未超过所述设定值且携带所述待确定特征应用程序的标识的字段生成正则表达式;
将所述正则表达式作为所述待确定特征应用程序的选定特征。
7.根据权利要求5所述的装置,其特征在于,所述剔除模块,用于从所述候选特征中剔除出符合所述待确定特征应用程序对应的预设过滤条件的特征,得到所述待确定特征应用程序的选定特征,具体用于:
分析所述待确定特征应用程序,得到所述待确定特征应用程序对应的预设过滤条件;
将所述候选特征与所述待确定特征应用程序对应的预设过滤条件进行匹配;
从所述候选特征中剔除匹配所述待确定特征应用程序对应的预设过滤条件的特征,得到所述待确定特征应用程序的选定特征。
8.根据权利要求5-7任一所述的装置,其特征在于,所述装置还包括添加模块,用于:
将所述待确定特征应用程序的选定特征添加到特征库中。
CN201910505790.1A 2019-06-12 2019-06-12 应用程序的特征提取方法和装置 Active CN110287699B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910505790.1A CN110287699B (zh) 2019-06-12 2019-06-12 应用程序的特征提取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910505790.1A CN110287699B (zh) 2019-06-12 2019-06-12 应用程序的特征提取方法和装置

Publications (2)

Publication Number Publication Date
CN110287699A CN110287699A (zh) 2019-09-27
CN110287699B true CN110287699B (zh) 2021-02-26

Family

ID=68003806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910505790.1A Active CN110287699B (zh) 2019-06-12 2019-06-12 应用程序的特征提取方法和装置

Country Status (1)

Country Link
CN (1) CN110287699B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112954027B (zh) * 2021-01-29 2022-11-25 杭州迪普科技股份有限公司 一种网络服务特征确定方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101640594A (zh) * 2008-07-31 2010-02-03 北京启明星辰信息技术股份有限公司 一种在网络设备上提取流量攻击报文特征的方法和单元
CN105978897A (zh) * 2016-06-28 2016-09-28 南京南瑞继保电气有限公司 一种电力二次系统僵尸网络的检测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6718367B1 (en) * 1999-06-01 2004-04-06 General Interactive, Inc. Filter for modeling system and method for handling and routing of text-based asynchronous communications
CN102025636B (zh) * 2010-12-09 2012-09-05 北京星网锐捷网络技术有限公司 报文特征处理方法、装置及网络设备
CN102821002B (zh) * 2011-06-09 2015-08-26 中国移动通信集团河南有限公司信阳分公司 网络流量异常检测方法和系统
TWI461952B (zh) * 2012-12-26 2014-11-21 Univ Nat Taiwan Science Tech 惡意程式偵測方法與系統
CN108737203B (zh) * 2017-04-13 2020-07-17 中国移动通信有限公司研究院 一种集合提取的方法及装置
CN109327357B (zh) * 2018-11-29 2020-10-09 杭州迪普科技股份有限公司 应用软件的特征提取方法、装置及电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101640594A (zh) * 2008-07-31 2010-02-03 北京启明星辰信息技术股份有限公司 一种在网络设备上提取流量攻击报文特征的方法和单元
CN105978897A (zh) * 2016-06-28 2016-09-28 南京南瑞继保电气有限公司 一种电力二次系统僵尸网络的检测方法

Also Published As

Publication number Publication date
CN110287699A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN109726744B (zh) 一种网络流量分类方法
CN111917740B (zh) 一种异常流量告警日志检测方法、装置、设备及介质
CN110210213B (zh) 过滤恶意样本的方法及装置、存储介质、电子装置
CN110198303A (zh) 威胁情报的生成方法及装置、存储介质、电子装置
CN109063482B (zh) 宏病毒识别方法、装置、存储介质及处理器
CN106845323A (zh) 一种打标数据的收集方法、装置以及证件识别系统
CN104618132A (zh) 一种应用程序识别规则生成方法和装置
CN107347016B (zh) 一种信令流程模型识别方法及异常信令流程辨识方法
CN115208835A (zh) Api分类方法、装置、电子设备、介质及产品
CN113065026A (zh) 基于安全微服务架构的异常事件智能检测系统、方法及介质
CN110784486A (zh) 一种工业漏洞扫描方法和系统
CN110287699B (zh) 应用程序的特征提取方法和装置
CN110149247B (zh) 一种网络状态的检测方法及装置
CN111464510A (zh) 一种基于快速梯度提升树模型的网络实时入侵检测方法
CN108920955B (zh) 一种网页后门检测方法、装置、设备及存储介质
CN112214737B (zh) 以图片为主的欺诈网页的识别方法、系统、装置和介质
CN117220911B (zh) 一种基于协议深度分析的工控安全审计系统
CN117973347A (zh) 基于自动化模板填充技术的溯源报告自动生成方法及系统
CN106790130B (zh) 一种报文匹配方法及装置
CN109474529B (zh) 一种终端网络关联数据反馈的方法
CN115296892B (zh) 数据信息服务系统
CN108985059B (zh) 一种网页后门检测方法、装置、设备及存储介质
CN101296224A (zh) 一种p2p流量识别系统和方法
CN107992538B (zh) 报文日志生成方法、装置、查询方法及信息处理系统
CN109391626B (zh) 一种判定网络攻击结果未遂的方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant