CN109492655A - 一种特征提取方法、装置及终端 - Google Patents

一种特征提取方法、装置及终端 Download PDF

Info

Publication number
CN109492655A
CN109492655A CN201710813369.8A CN201710813369A CN109492655A CN 109492655 A CN109492655 A CN 109492655A CN 201710813369 A CN201710813369 A CN 201710813369A CN 109492655 A CN109492655 A CN 109492655A
Authority
CN
China
Prior art keywords
characteristic information
extracted
business
measured
key message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710813369.8A
Other languages
English (en)
Other versions
CN109492655B (zh
Inventor
杨晓
周岩
吕喆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201710813369.8A priority Critical patent/CN109492655B/zh
Publication of CN109492655A publication Critical patent/CN109492655A/zh
Application granted granted Critical
Publication of CN109492655B publication Critical patent/CN109492655B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种特征提取方法、装置及终端,其中,所述特征提取方法包括:获取待测业务的关键信息,根据所述关键信息,获取所述待测业务的PCAP数据,解析所述待测业务的PCAP数据,得到所述待测业务的至少一个待提取特征信息,确定所述至少一个待提取特征信息与所述关键信息的相似度,根据所述至少一个待提取特征信息与所述关键信息的相似度,从所述至少一个待提取特征信息中提取所述待测业务的特征信息。本发明的方案,不仅能够准确提取待测业务的正确特征信息,从而增强特征提取效果,提高通过提取的特征信息识别相应业务的效率,还能够降低查询数据库带来的系统开销。

Description

一种特征提取方法、装置及终端
技术领域
本发明涉及通信技术领域,尤其涉及一种特征提取方法、装置及终端。
背景技术
目前,为了克服人工参与提取业务特征造成的效率低下的问题,可通过统计方法自动提取业务特征。由于网络业务数据中基于超文本传输协议(Hyper Text TransferProtocol,简称HTTP)的数据占据了大部分,因此针对HTTP数据进行业务特征的提取可以大大提升协议分析效率。其中,一种现有的HTTP特征提取方法为:
首先,构建频繁信息库:对历史收集的带标签业务的过程特性分析软件包(Process Characterization Analysis Package,简称PCAP)数据进行解析,得到HTTP特征信息,该HTTP特征信息可包括Host、X-Requested-With、Referrer、Cookie等关键域的信息,并利用HTTP特征信息构建频繁信息库;
然后,提取HTTP特征:(1)获取并解析待测业务的PCAP数据,得到Host等关键域的待提取特征信息;(2)计算各个待提取特征信息所属会话(五元组相同的数据包属于同一个会话,该五元组包括源IP、目的IP、源端口、目的端口和协议类型)的流量信息,该流量信息包括会话个数以及会话所占字节数等;(3)查询频繁信息库,将在频繁信息库中出现次数超过频繁项阈值α的待提取特征信息过滤掉;(4)对于保留的待提取特征信息,将其中的会话个数和所占字节数大于频繁项阈值β的特征信息作为待测业务的HTTP特征信息进行提取。其中,α、β的大小一般根据协议分析人员的经验设定。
但上述HTTP特征提取方法可能面临如下两个问题:一、当上述(3)采用单一频繁信息过滤干扰项时,可能将正确的特征信息过滤掉,造成业务识别率低;例如,特征信息tmall.com频繁出现在其他业务的host值域中,当采用该方法提取天猫的host特征信息时,tmall.com虽然为正确的特征信息,但是将被过滤掉;二、由于该方法完全基于统计,没有考虑特征信息的语义,而实际特征信息多数是有特殊含义的,例如short.weixin.com可通过其字面语义确定这是微信的特征信息,采用统计方法就忽略了该层含义,因此该方法可能会漏掉正确的特征信息,当可通过字面语义确定特征信息的正确性时,再进行数据库操作会造成系统开销大。
发明内容
本发明实施例提供一种特征提取方法、装置及终端,以解决现有的特征提取方法可能造成的业务识别率低及系统开销大的问题。
第一方面,本发明实施例提供了一种特征提取方法,包括:
获取待测业务的关键信息;
根据所述关键信息,获取所述待测业务的过程特性分析软件包PCAP数据;
解析所述待测业务的PCAP数据,得到所述待测业务的至少一个待提取特征信息;
确定所述至少一个待提取特征信息与所述关键信息的相似度;
根据所述至少一个待提取特征信息与所述关键信息的相似度,从所述至少一个待提取特征信息中提取所述待测业务的特征信息。
可选的,所述待提取特征信息为HTTP特征信息。
可选的,所述HTTP特征信息包括如下信息中一个或者多个:Host特征信息、User-Agent特征信息、X-Requested-With特征信息、Referrer特征信息和Cookie特征信息。
可选的,所述确定所述至少一个待提取特征信息与所述关键信息的相似度,包括:
将所述至少一个待提取特征信息与所述关键信息进行字符串比对,得到所述至少一个待提取特征信息与所述关键信息的相似度。
可选的,所述根据所述至少一个待提取特征信息与所述关键信息的相似度,从所述至少一个待提取特征信息中提取所述待测业务的特征信息,包括:
将第一待提取特征信息作为所述待测业务的特征信息进行提取,其中,所述第一待提取特征信息为所述至少一个待提取特征信息中的与所述关键信息的相似度大于第一预设阈值的待提取特征信息。
可选的,所述根据所述至少一个待提取特征信息与所述关键信息的相似度,从所述至少一个待提取特征信息中提取所述待测业务的特征信息,包括:
计算第二待提取特征信息所在会话的流量信息,其中,所述第二待提取特征信息为所述至少一个待提取特征信息中的与所述关键信息的相似度小于或等于所述第一预设阈值的待提取特征信息;
计算所述第二待提取特征信息在预设频繁项数据库中的频繁信息;
将所述第二待提取特征信息中的所述流量信息与所述频繁信息的乘积大于第二预设阈值的待提取特征信息作为所述待测业务的特征信息进行提取。
可选的,所述关键信息包括如下信息中一个或者多个:安卓安装包APK数据、业务名称、业务所属公司的名称和APK包名。
可选的,所述方法还包括:
利用所述待测业务的至少一个待提取特征信息更新所述预设频繁项数据库。
第二方面,本发明实施例还提供了一种特征提取装置,包括:
第一获取模块,用于获取待测业务的关键信息;
第二获取模块,用于根据所述关键信息,获取所述待测业务的PCAP数据;
解析模块,用于解析所述待测业务的PCAP数据,得到所述待测业务的至少一个待提取特征信息;
确定模块,用于确定所述至少一个待提取特征信息与所述关键信息的相似度;
提取模块,用于根据所述至少一个待提取特征信息与所述关键信息的相似度,从所述至少一个待提取特征信息中提取所述待测业务的特征信息。
可选的,所述待提取特征信息为HTTP特征信息。
可选的,所述HTTP特征信息包括如下信息中一个或者多个:Host特征信息、User-Agent特征信息、X-Requested-With特征信息、Referrer特征信息和Cookie特征信息。
可选的,所述确定模块具体用于:
将所述至少一个待提取特征信息与所述关键信息进行字符串比对,得到所述至少一个待提取特征信息与所述关键信息的相似度。
可选的,所述提取模块具体用于:
将第一待提取特征信息作为所述待测业务的特征信息进行提取,其中,所述第一待提取特征信息为所述至少一个待提取特征信息中的与所述关键信息的相似度大于第一预设阈值的待提取特征信息。
可选的,所述提取模块包括:
第一计算单元,用于计算第二待提取特征信息所在会话的流量信息,其中,所述第二待提取特征信息为所述至少一个待提取特征信息中的与所述关键信息的相似度小于或等于所述第一预设阈值的待提取特征信息;
第二计算单元,用于计算所述第二待提取特征信息在预设频繁项数据库中的频繁信息;
提取单元,用于将所述第二待提取特征信息中的所述流量信息与所述频繁信息的乘积大于第二预设阈值的待提取特征信息作为所述待测业务的特征信息进行提取。
可选的,所述关键信息包括如下信息中一个或者多个:APK数据、业务名称、业务所属公司的名称和APK包名。
可选的,所述装置还包括:
更新模块,用于利用所述待测业务的至少一个待提取特征信息更新所述预设频繁项数据库。
第三方面,本发明实施例还提供了一种终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述计算机程序被所述处理器执行时实现上述特征提取方法中的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述特征提取方法中的步骤。
本发明实施例的特征提取方法,由于通过待测业务的关键信息与待测业务的至少一个待提取特征信息的相似度,提取待测业务的特征信息,待测业务的关键信息能够准确表征待测业务,因此可准确提取待测业务的正确特征信息,从而增强特征提取效果,提高通过提取的特征信息识别相应业务的效率,以及可相比于现有提取方法降低查询数据库带来的系统开销。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1表示本发明实施例的特征提取方法的流程图;
图2表示本发明具体实例的特征提取过程的流程图;
图3表示本发明实施例的特征提取装置的结构示意图之一;
图4表示本发明实施例的特征提取装置的结构示意图之二;
图5表示本发明实施例的终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1所示,本发明实施例提供了一种特征提取方法,应用于终端,包括如下步骤:
步骤101:获取待测业务的关键信息。
其中,该待测业务可为待提取特征的应用,例如微信、天猫、QQ等。当获取待测业务的关键信息时,终端可利用爬虫从应用商店中获取待测业务的关键信息,并且在获取待测业务的关键信息之后,根据这些关键信息建立待测业务的关键信息库,该关键信息库中存储有这些关键信息。
本发明实施例中,待测业务的关键信息可包括如下信息中一个或者多个:安卓安装包(Android Package,简称APK)数据、业务名称、业务所属公司的名称和APK包名等。
步骤102:根据所述关键信息,获取所述待测业务的PCAP数据。
其中,当获取待测业务的PCAP数据时,终端可利用待测业务的关键信息中的APK数据,抓包获取待测业务的PCAP数据。
步骤103:解析所述待测业务的PCAP数据,得到所述待测业务的至少一个待提取特征信息。
由于网络业务数据中基于HTTP的数据占据了大部分,因此本发明实施例中,待测业务的待提取特征信息具体可为HTTP特征信息。而HTTP特征信息可为HTTP字段的值。
可选的,HTTP特征信息可包括如下信息中一个或者多个:Host特征信息、User-Agent特征信息、X-Requested-With特征信息、Referrer特征信息和Cookie特征信息等。
步骤104:确定所述至少一个待提取特征信息与所述关键信息的相似度。
本发明实施例中,终端确定至少一个待提取特征信息与关键信息的相似度的方式可为:终端将所述至少一个待提取特征信息与所述关键信息进行字符串比对,得到所述至少一个待提取特征信息与所述关键信息的相似度。
其中,字符串比对即为字符串相似度计算,可通过编辑相应字符串之间的距离实现。若待提取特征信息为HTTP字段的值,字符串比对的过程可为:将各HTTP字段的值分别与关键信息中的业务名称、业务所属公司的名称和APK包名等进行字符串比对,以得到相应的相似度。
步骤105:根据所述至少一个待提取特征信息与所述关键信息的相似度,从所述至少一个待提取特征信息中提取所述待测业务的特征信息。
本发明实施例的特征提取方法,由于通过待测业务的关键信息与待测业务的至少一个待提取特征信息的相似度,提取待测业务的特征信息,待测业务的关键信息能够准确表征待测业务,因此可准确提取待测业务的正确特征信息,从而增强特征提取效果,提高通过提取的特征信息识别相应业务的效率,以及可相比于现有提取方法降低查询数据库带来的系统开销。
进一步的,本发明实施例的特征提取方法可以自动提取待测业务的特征信息,不需要人工参与,从而相比于人工参与提取业务特征能够提升业务分析的效率。
本发明实施例中,步骤105可包括:
终端将第一待提取特征信息作为所述待测业务的特征信息进行提取;其中,所述第一待提取特征信息为所述至少一个待提取特征信息中的与所述关键信息的相似度大于第一预设阈值的待提取特征信息;该第一预设阈值的大小一般根据协议分析人员的经验设定。
这样,将与关键信息较相似的待提取特征信息作为待测业务的特征信息进行提取,由于待测业务的关键信息能够准确表征待测业务,因此可增强待测业务的特征提取效果。
此外,由于除了与待测业务的关键信息较相似的待提取特征信息能够表征待测业务外,一些与待测业务的关键信息不太相似的待提取特征信息同样能够表征待测业务,因此对于与待测业务的关键信息不太相似的待提取特征信息,终端可进一步进行筛选及提取,以避免过滤掉待测业务的正确特征信息,增强特征提取效果。
其中,当针对与待测业务的关键信息不太相似的待提取特征信息进行特征提取时,终端可利用预设频繁项数据库进行特征提取。而为了消除因使用单一频繁信息进行提取造成的不利影响,本发明实施例可借助TF-IDF(term frequency–inverse documentfrequency)统计方法,根据待提取特征信息所在会话的流量信息(TF值)和待提取特征信息在预设频繁项数据库中的频繁信息(IDF值),提取待测业务的特征信息。例如,对于待提取特征信息(host字段值)www.baidu.com,可将www.baidu.com所在会话的总字节数占对应业务字节数的比值作为其TF值;若预设频繁项数据库对应的业务的总数为m,www.baidu.com在预设频繁项数据库中出现的次数为n,则可将m/n作为www.baidu.com在预设频繁项数据库中的IDF值;并且,通过TF*IDF可获得TF-IDF值。
应说明的是,预设频繁项数据库是通过解析历史收集的带标签业务的PCAP数据预先建立的。预设频繁项数据库中可存储有因解析PCAP数据得到的HTTP特征信息。对于域名类特征信息可去掉最低级字段后存入预设频繁项数据库,例如特征信息www.baidu.com,可去掉www,仅存储baidu.com。
例如,若预设频繁项数据库对应的业务有N个,则预设频繁项数据库中存储的HTTP特征信息可为:
App1{host:[..],user-agent:[..],referrer:[..],cookie:[..],x-requested-with:[..]}
AppN{host:[..],user-agent:[..],referrer:[..],cookie:[..],x-requested-with:[..]}
具体的,本发明实施例中,步骤105可包括:
终端计算第二待提取特征信息所在会话的流量信息,其中,所述第二待提取特征信息为所述至少一个待提取特征信息中的与所述关键信息的相似度小于或等于所述第一预设阈值的待提取特征信息;
终端计算所述第二待提取特征信息在预设频繁项数据库中的频繁信息;
终端将所述第二待提取特征信息中的所述流量信息与所述频繁信息的乘积大于第二预设阈值的待提取特征信息作为所述待测业务的特征信息进行提取;该第二预设阈值的大小一般根据协议分析人员的经验设定。
这样,借助TF-IDF统计方法对待测业务的特征信息进一步提取,不仅能够避免过滤掉待测业务的正确特征信息,增强特征提取效果,还能够消除因使用单一频繁信息进行提取造成的不利影响。
本发明实施例中,所述特征提取方法还可包括:
终端利用所述待测业务的至少一个待提取特征信息更新所述预设频繁项数据库。
这样,对预设频繁项数据库进行实时更新,能够进一步丰富预设频繁项数据库中的信息,从而提升后续根据预设频繁项数据库进行特征提取的效果。
下面,以待测业务为微信为例,结合图2对本发明具体实例的特征提取过程进行说明。
本发明具体实例中,终端提取的是微信的host特征信息。参见图2所示,该特征提取过程包括如下步骤:
步骤201:用户将业务名称即微信输入至终端,终端利用爬虫从应用商店中抓取微信的APK数据、业务名称、APK包名和所属公司名称等,并根据抓取的信息建立微信的关键信息库;
步骤202:终端根据微信的APK数据,抓包获取微信的PCAP数据,并解析该PCAP数据,得到微信的host特征信息,例如qlogo.cn、gtimg.com、digicert.com、weixin.qq.com、tc.qq.com和micromesenger.com;
步骤203:终端将各个host特征信息(即字串)与关键信息库中的关键信息(即字串)进行字符串相似度计算,得到各个host特征信息与关键信息的相似度;
步骤204:终端判断各个host特征信息与关键信息的相似度是否大于预设阈值ε,并选取与关键信息的相似度大于ε的weixin.qq.com作为微信的特征信息添加至业务特征库;
步骤205:对于与关键信息的相似度小于或等于ε的host特征信息即剩余特征信息,终端计算各个剩余特征信息所在会话的流量信息即TF值,例如qlogo.cn为0.23,gtimg.com为0.11,micromessenger.com为0.28,tc.qq.com为0.08;并通过查询预设频繁项数据库,计算各个剩余特征信息在预设频繁项数据库中的频繁信息即IDF值,例如qlogo.cn为1.6,gtimg.com为2.3,micromessenger.com为6.7,tc.qq.com为1.1;并判断各个剩余特征信息的TF*IDF值是否大于预设阈值α,选取TF*IDF值大于α的micromessenger.com作为微信的特征信息添加至业务特征库;至于TF*IDF值小于或等于α的host特征信息将被过滤掉;
步骤206:终端输出业务特征库中的微信的特征信息。
这样,借助该特征提取过程,可准确提取微信的host特征信息,例如weixin.qq.com和micromessenger.com,增强特征提取效果,提高识别微信的效率,且不需要人工参与,大大提升特征提取效率。
上述实施例对本发明的特征提取方法进行了说明,下面将结合实施例和附图对与本发明的特征提取方法对应的特征提取装置进行说明。
参见图3所示,本发明实施例还提供了一种特征提取装置,应用于终端,包括:
第一获取模块31,用于获取待测业务的关键信息;
第二获取模块32,用于根据所述关键信息,获取所述待测业务的PCAP数据;
解析模块33,用于解析所述待测业务的PCAP数据,得到所述待测业务的至少一个待提取特征信息;
确定模块34,用于确定所述至少一个待提取特征信息与所述关键信息的相似度;
提取模块35,用于根据所述至少一个待提取特征信息与所述关键信息的相似度,从所述至少一个待提取特征信息中提取所述待测业务的特征信息。
本发明实施例的特征提取方法,由于通过待测业务的关键信息与待测业务的至少一个待提取特征信息的相似度,提取待测业务的特征信息,待测业务的关键信息能够准确表征待测业务,因此可准确提取待测业务的正确特征信息,从而增强特征提取效果,提高通过提取的特征信息识别相应业务的效率,以及可相比于现有提取方法降低查询数据库带来的系统开销。
可选的,所述待提取特征信息为HTTP特征信息。
可选的,所述HTTP特征信息可包括如下信息中一个或者多个:Host特征信息、User-Agent特征信息、X-Requested-With特征信息、Referrer特征信息和Cookie特征信息。
本发明实施例中,所述确定模块34具体用于:
将所述至少一个待提取特征信息与所述关键信息进行字符串比对,得到所述至少一个待提取特征信息与所述关键信息的相似度。
本发明实施例中,所述提取模块35具体用于:
将第一待提取特征信息作为所述待测业务的特征信息进行提取,其中,所述第一待提取特征信息为所述至少一个待提取特征信息中的与所述关键信息的相似度大于第一预设阈值的待提取特征信息。
本发明实施例中,参见图4所示,所述提取模块35可包括:
第一计算单元351,用于计算第二待提取特征信息所在会话的流量信息,其中,所述第二待提取特征信息为所述至少一个待提取特征信息中的与所述关键信息的相似度小于或等于所述第一预设阈值的待提取特征信息;
第二计算单元352,用于计算所述第二待提取特征信息在预设频繁项数据库中的频繁信息;
提取单元353,用于将所述第二待提取特征信息中的所述流量信息与所述频繁信息的乘积大于第二预设阈值的待提取特征信息作为所述待测业务的特征信息进行提取。
可选的,所述关键信息可包括如下信息中一个或者多个:APK数据、业务名称、业务所属公司的名称和APK包名。
本发明实施例中,所述装置还包括:
更新模块,用于利用所述待测业务的至少一个待提取特征信息更新所述预设频繁项数据库。
此外,本发明实施例还提供一种终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述计算机程序被所述处理器执行时实现上述特征提取方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
参见图5所示,本发明实施例还提供了一种终端,所述终端包括总线51、处理器52、收发机53、总线接口54、存储器55和用户接口56。
其中,处理器52,用于读取存储器55中的程序,执行以下步骤:
获取待测业务的关键信息,根据所述关键信息,获取所述待测业务的PCAP数据,解析所述待测业务的PCAP数据,得到所述待测业务的至少一个待提取特征信息,确定所述至少一个待提取特征信息与所述关键信息的相似度,根据所述至少一个待提取特征信息与所述关键信息的相似度,从所述至少一个待提取特征信息中提取所述待测业务的特征信息。
收发机53,用于在处理器52的控制下接收和发送数据。
可选的,所述待提取特征信息为HTTP特征信息。
可选的,所述HTTP特征信息包括如下信息中一个或者多个:Host特征信息、User-Agent特征信息、X-Requested-With特征信息、Referrer特征信息和Cookie特征信息。
可选的,处理器52还用于读取所述程序,执行以下步骤:将所述至少一个待提取特征信息与所述关键信息进行字符串比对,得到所述至少一个待提取特征信息与所述关键信息的相似度。
可选的,处理器52还用于读取所述程序,执行以下步骤:将第一待提取特征信息作为所述待测业务的特征信息进行提取,其中,所述第一待提取特征信息为所述至少一个待提取特征信息中的与所述关键信息的相似度大于第一预设阈值的待提取特征信息。
可选的,处理器52还用于读取所述程序,执行以下步骤:计算第二待提取特征信息所在会话的流量信息,其中,所述第二待提取特征信息为所述至少一个待提取特征信息中的与所述关键信息的相似度小于或等于所述第一预设阈值的待提取特征信息,计算所述第二待提取特征信息在预设频繁项数据库中的频繁信息,将所述第二待提取特征信息中的所述流量信息与所述频繁信息的乘积大于第二预设阈值的待提取特征信息作为所述待测业务的特征信息进行提取。
可选的,所述关键信息包括如下信息中一个或者多个:APK数据、业务名称、业务所属公司的名称和APK包名。
可选的,处理器52还用于读取所述程序,执行以下步骤:利用所述待测业务的至少一个待提取特征信息更新所述预设频繁项数据库。
在图5中,总线架构(用总线51来代表),总线51可以包括任意数量的互联的总线和桥,总线51将包括由通用处理器52代表的一个或多个处理器和存储器55代表的存储器的各种电路链接在一起。总线51还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口54在总线51和收发机53之间提供接口。收发机53可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。例如:收发机53从其他设备接收外部数据。收发机53用于将处理器52处理后的数据发送给其他设备。取决于计算系统的性质,还可以提供用户接口56,例如小键盘、显示器、扬声器、麦克风、操纵杆。
处理器52负责管理总线51和通常的处理,如前述所述运行通用操作系统。而存储器55可以被用于存储处理器52在执行操作时所使用的数据。
可选的,处理器52可以是CPU、ASIC、FPGA或CPLD。
可以理解,本发明实施例中的存储器55可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本文描述的系统和方法的存储器55旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器55存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统551和应用程序552。
其中,操作系统551,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序552,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序552中。
此外,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述特征提取方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
具体的,计算机程序被处理器执行时可实现以下步骤:获取待测业务的关键信息,根据所述关键信息,获取所述待测业务的PCAP数据,解析所述待测业务的PCAP数据,得到所述待测业务的至少一个待提取特征信息,确定所述至少一个待提取特征信息与所述关键信息的相似度,根据所述至少一个待提取特征信息与所述关键信息的相似度,从所述至少一个待提取特征信息中提取所述待测业务的特征信息。
可选的,所述待提取特征信息为HTTP特征信息。
可选的,所述HTTP特征信息包括如下信息中一个或者多个:Host特征信息、User-Agent特征信息、X-Requested-With特征信息、Referrer特征信息和Cookie特征信息。
可选的,计算机程序被处理器执行时还可实现以下步骤:将所述至少一个待提取特征信息与所述关键信息进行字符串比对,得到所述至少一个待提取特征信息与所述关键信息的相似度。
可选的,计算机程序被处理器执行时还可实现以下步骤:将第一待提取特征信息作为所述待测业务的特征信息进行提取,其中,所述第一待提取特征信息为所述至少一个待提取特征信息中的与所述关键信息的相似度大于第一预设阈值的待提取特征信息。
可选的,计算机程序被处理器执行时还可实现以下步骤:计算第二待提取特征信息所在会话的流量信息,其中,所述第二待提取特征信息为所述至少一个待提取特征信息中的与所述关键信息的相似度小于或等于所述第一预设阈值的待提取特征信息,计算所述第二待提取特征信息在预设频繁项数据库中的频繁信息,将所述第二待提取特征信息中的所述流量信息与所述频繁信息的乘积大于第二预设阈值的待提取特征信息作为所述待测业务的特征信息进行提取。
可选的,所述关键信息包括如下信息中一个或者多个:APK数据、业务名称、业务所属公司的名称和APK包名。
可选的,计算机程序被处理器执行时还可实现以下步骤:利用所述待测业务的至少一个待提取特征信息更新所述预设频繁项数据库。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (11)

1.一种特征提取方法,其特征在于,包括:
获取待测业务的关键信息;
根据所述关键信息,获取所述待测业务的过程特性分析软件包PCAP数据;
解析所述待测业务的PCAP数据,得到所述待测业务的至少一个待提取特征信息;
确定所述至少一个待提取特征信息与所述关键信息的相似度;
根据所述至少一个待提取特征信息与所述关键信息的相似度,从所述至少一个待提取特征信息中提取所述待测业务的特征信息。
2.根据权利要求1所述的方法,其特征在于,所述待提取特征信息为超文本传输协议HTTP特征信息。
3.根据权利要求2所述的方法,其特征在于,所述HTTP特征信息包括如下信息中一个或者多个:Host特征信息、User-Agent特征信息、X-Requested-With特征信息、Referrer特征信息和Cookie特征信息。
4.根据权利要求1所述的方法,其特征在于,所述确定所述至少一个待提取特征信息与所述关键信息的相似度,包括:
将所述至少一个待提取特征信息与所述关键信息进行字符串比对,得到所述至少一个待提取特征信息与所述关键信息的相似度。
5.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个待提取特征信息与所述关键信息的相似度,从所述至少一个待提取特征信息中提取所述待测业务的特征信息,包括:
将第一待提取特征信息作为所述待测业务的特征信息进行提取;
其中,所述第一待提取特征信息为所述至少一个待提取特征信息中的与所述关键信息的相似度大于第一预设阈值的待提取特征信息。
6.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个待提取特征信息与所述关键信息的相似度,从所述至少一个待提取特征信息中提取所述待测业务的特征信息,包括:
计算第二待提取特征信息所在会话的流量信息,其中,所述第二待提取特征信息为所述至少一个待提取特征信息中的与所述关键信息的相似度小于或等于第一预设阈值的待提取特征信息;
计算所述第二待提取特征信息在预设频繁项数据库中的频繁信息;
将所述第二待提取特征信息中的所述流量信息与所述频繁信息的乘积大于第二预设阈值的待提取特征信息作为所述待测业务的特征信息进行提取。
7.根据权利要求1所述的方法,其特征在于,所述关键信息包括如下信息中一个或者多个:安卓安装包APK数据、业务名称、业务所属公司的名称和APK包名。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
利用所述待测业务的至少一个待提取特征信息更新所述预设频繁项数据库。
9.一种特征提取装置,其特征在于,包括:
第一获取模块,用于获取待测业务的关键信息;
第二获取模块,用于根据所述关键信息,获取所述待测业务的PCAP数据;
解析模块,用于解析所述待测业务的PCAP数据,得到所述待测业务的至少一个待提取特征信息;
确定模块,用于确定所述至少一个待提取特征信息与所述关键信息的相似度;
提取模块,用于根据所述至少一个待提取特征信息与所述关键信息的相似度,从所述至少一个待提取特征信息中提取所述待测业务的特征信息。
10.一种终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的特征提取方法中的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的特征提取方法中的步骤。
CN201710813369.8A 2017-09-11 2017-09-11 一种特征提取方法、装置及终端 Active CN109492655B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710813369.8A CN109492655B (zh) 2017-09-11 2017-09-11 一种特征提取方法、装置及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710813369.8A CN109492655B (zh) 2017-09-11 2017-09-11 一种特征提取方法、装置及终端

Publications (2)

Publication Number Publication Date
CN109492655A true CN109492655A (zh) 2019-03-19
CN109492655B CN109492655B (zh) 2021-08-06

Family

ID=65688640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710813369.8A Active CN109492655B (zh) 2017-09-11 2017-09-11 一种特征提取方法、装置及终端

Country Status (1)

Country Link
CN (1) CN109492655B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111902A (zh) * 2019-04-04 2019-08-09 平安科技(深圳)有限公司 急性传染病的发病周期预测方法、装置及存储介质
CN111553597A (zh) * 2020-04-29 2020-08-18 支付宝(杭州)信息技术有限公司 一种对企业进行财务舞弊风险识别的方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101741908A (zh) * 2009-12-25 2010-06-16 青岛朗讯科技通讯设备有限公司 一种应用层协议特征的识别方法
CN101902484A (zh) * 2009-05-25 2010-12-01 北京启明星辰信息技术股份有限公司 局域网http应用业务分类方法及系统
CN102025636A (zh) * 2010-12-09 2011-04-20 北京星网锐捷网络技术有限公司 报文特征处理方法、装置及网络设备
CN103067300A (zh) * 2013-01-09 2013-04-24 清华大学 网络流量自动化特征挖掘方法
CN103218375A (zh) * 2012-01-20 2013-07-24 北京四维图新科技股份有限公司 一种poi信息补充方法及装置
CN103414600A (zh) * 2013-07-19 2013-11-27 华为技术有限公司 近似匹配方法和相关设备及通信系统
CN106452948A (zh) * 2016-09-22 2017-02-22 恒安嘉新(北京)科技有限公司 一种网络流量的自动分类方法和系统
CN106850349A (zh) * 2017-02-08 2017-06-13 杭州迪普科技股份有限公司 一种特征信息的提取方法及装置
CN106982150A (zh) * 2017-03-27 2017-07-25 重庆邮电大学 一种基于Hadoop的移动互联网用户行为分析方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101902484A (zh) * 2009-05-25 2010-12-01 北京启明星辰信息技术股份有限公司 局域网http应用业务分类方法及系统
CN101741908A (zh) * 2009-12-25 2010-06-16 青岛朗讯科技通讯设备有限公司 一种应用层协议特征的识别方法
CN102025636A (zh) * 2010-12-09 2011-04-20 北京星网锐捷网络技术有限公司 报文特征处理方法、装置及网络设备
CN103218375A (zh) * 2012-01-20 2013-07-24 北京四维图新科技股份有限公司 一种poi信息补充方法及装置
CN103067300A (zh) * 2013-01-09 2013-04-24 清华大学 网络流量自动化特征挖掘方法
CN103414600A (zh) * 2013-07-19 2013-11-27 华为技术有限公司 近似匹配方法和相关设备及通信系统
CN106452948A (zh) * 2016-09-22 2017-02-22 恒安嘉新(北京)科技有限公司 一种网络流量的自动分类方法和系统
CN106850349A (zh) * 2017-02-08 2017-06-13 杭州迪普科技股份有限公司 一种特征信息的提取方法及装置
CN106982150A (zh) * 2017-03-27 2017-07-25 重庆邮电大学 一种基于Hadoop的移动互联网用户行为分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIN-YU SUN ETC: "Application of deep packet inspection in peer-to-peer traffic identification", 《2011 INTERNATIONAL CONFERENCE ON CONSUMER ELECTRONICS, COMMUNICATIONS AND NETWORKS (CECNET)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111902A (zh) * 2019-04-04 2019-08-09 平安科技(深圳)有限公司 急性传染病的发病周期预测方法、装置及存储介质
CN110111902B (zh) * 2019-04-04 2022-05-27 平安科技(深圳)有限公司 急性传染病的发病周期预测方法、装置及存储介质
CN111553597A (zh) * 2020-04-29 2020-08-18 支付宝(杭州)信息技术有限公司 一种对企业进行财务舞弊风险识别的方法及装置

Also Published As

Publication number Publication date
CN109492655B (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
US11425047B2 (en) Traffic analysis method, common service traffic attribution method, and corresponding computer system
CN109300028A (zh) 基于网络数据的实时反欺诈方法和系统及存储介质
US20130191890A1 (en) Method and system for user identity recognition based on specific information
CN107667510A (zh) 恶意软件和恶意应用的检测
US20120017010A1 (en) Inferring server state in a stateless communication protocol
CN101711470A (zh) 一种用于在对等网络上创建共享信息列表的系统和方法
CN110309058A (zh) 业务端测试方法、装置、计算机装置及计算机存储介质
US20130311283A1 (en) Data mining method for social network of terminal user and related methods, apparatuses and systems
CN106055608A (zh) 自动采集和分析交换机日志的方法和装置
DE102017111124A1 (de) Sichere und intelligente Anmeldeeinrichtung
CN105071966B (zh) 一种日志信息管理方法及日志抽取服务器
CN109995582A (zh) 基于实时状态的资产设备管理系统及方法
US20150254783A1 (en) Systems and methods for estate account discovery
CN104412565A (zh) 用于涉及承载无关协议的套接字管理的方法
CN110928934A (zh) 一种用于业务分析的数据处理方法和装置
CN111126928B (zh) 对发布内容审核的方法和装置
CN108710670A (zh) 一种日志分析方法、装置、电子设备及可读存储介质
CN108052358A (zh) 一种分布式部署的系统和方法
CN111222547A (zh) 一种面向移动应用的流量特征提取方法及系统
CN109492655A (zh) 一种特征提取方法、装置及终端
CN115471307A (zh) 基于知识图谱的审计评估信息生成方法、装置和电子设备
Wang et al. A smart automated signature extraction scheme for mobile phone number in human-centered smart home systems
CN104883705B (zh) 一种数据业务投诉的问题定位方法及装置
CN110830416A (zh) 网络入侵检测方法和装置
CN106488055A (zh) 话单排重方法、数据节点设备及路由节点设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant