CN106534145B

CN106534145B - 一种应用识别方法及设备

Info

Publication number: CN106534145B
Application number: CN201611065661.8A
Authority: CN
Inventors: 王洪波; 李志鹏; 罗超伟; 令狐永兴
Original assignee: Tols Tianxiang Net An Information Technology Co Ltd
Current assignee: Tols Tianxiang Net An Information Technology Co Ltd
Priority date: 2016-11-28
Filing date: 2016-11-28
Publication date: 2019-11-15
Anticipated expiration: 2036-11-28
Also published as: CN106534145A

Abstract

本发明公开了一种应用识别方法，用于对在客户端和应用服务器之间传输的网络数据对应的应用进行识别，该方法包括步骤：获取传输的网络数据；通过对网络数据进行协议识别，确定网络数据所采用的网络协议；对于识别为采用第一网络协议的网络数据，获取该网络数据的IP地址、端口号和域名；从该网络数据中抽取采用第一网络协议的同一IP地址、端口号和域名的请求、以及对该请求的响应的数据内容；根据抽取的数据内容生成其对应应用的原始页面；根据原始页面获取应用的至少一个候选名称；以及根据至少一个候选名称确定应用的名称。本发明还公开了一种相应的应用识别设备。

Description

一种应用识别方法及设备

技术领域

本发明涉及应用识别领域，尤其涉及一种应用识别方法及设备。

背景技术

随着网络通信技术的高速发展，各种网络应用和服务层出不穷，例如有门户网站的新闻浏览或者电子邮件、社交类网站、电子商务网站、即时聊天等等应用。网络应用种类的不断增多在给人们的生活带来各种方便的同时，也给网络安全管理带来一些严峻的问题。网络应用良莠不齐，一些不良应用在大量占据网络资源、降低网络性能的同时，还可能携带安全漏洞、病毒、木马等，造成用户隐私泄露、网络安全隐患。因此对网络应用进行识别十分关键。

然而随着网络架构日趋复杂，应用日趋庞大，传统的网络安全技术已无法满足现今网络安全的要求，存在无法认清应用的问题。例如面对数量众多、规模庞大、架构复杂的应用，传统的通过手工注册应用来识别应用的方式不仅注册起来工作量巨大，而且由于应用经常调整，静态信息总是落后于变化而导致信息失效。

因此需要一种更先进更有效的应用识别方案。

发明内容

鉴于此，本发明提供了一种新的应用识别方案，以力图解决或至少缓解上面存在的问题。

根据本发明的应用识别方案根据通过协议识别识别出的采用同一网络协议、以及同一IP地址、端口和域名的网络数据，提取其中的请求数据和响应数据，并根据提取的数据还原其对应的应用的原始页面，最后根据通过分析还原的原始页面筛选出应用的名称，实现了对应用的实时有效识别。进一步地，本发明还通过聚类算法，实时有效的识别出同一IP地址、端口和域名下的多个应用，从而进一步提高应用识别的准确性。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个示例性实施例的网络环境100的结构示意图；

图2示出了根据本发明一个示例性实施例的应用识别设备200的结构示意图；以及

图3示出了根据本发明一个示例性实施例的应用识别方法300的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个示例性实施例的网络环境100的结构示意图。如图1所示，网络环境100包括多个存储有应用的应用服务器110，用于以各自的网络协议与客户端120进行网络通信；以及根据本发明的应用识别设备200，用于获取多个应用服务器110和客户端120之间进行通信的网络数据，并根据这些网络数据进行应用识别。可选地，应用识别设备200可以部署在网络交换设备130处，或者和网络交换设备130集成在一起，以便方便地获取应用服务器110和客户端120之间进行通信的网络数据。

图2示出了根据本发明一个示例性实施例的应用识别设备200的结构示意图。如图2所示，应用识别设备200包括流量采集组件210、协议识别模块220、数据抽取模块230、数据重组模块240和名称筛选模块250。

应用识别设备200适于对在客户端和应用服务器之间传输的网络数据对应的应用进行识别，其中，流量采集组件210可以与网络交换设备的镜像端口连接、或是与虚拟网络设备TUN/TAP连接，获取上述传输的网络数据。协议识别模块220与流量采集组件210连接，适于接收流量采集组件210获取的网络数据，对该网络数据进行协议识别，并通过对网络数据进行协议识别，确定网络数据所采用的网络协议。

根据本发明的一个实施例，协议识别模块220可以对网络数据进行网络层协议识别和应用层协议识别，其中，网络层协议可以包括TCP协议和UDP协议，应用层协议可以包括HTTP协议、Oracle协议、Mysql协议、SqlServer协议、DB2协议、FTP协议、Samba协议、SMTP协议和POP3协议等。

具体地，协议识别模块220可以通过网络数据的端口号来确定其所采用的网络协议。例如，FTP协议通常对应的端口号为20或21，SMTP协议通常对应的端口号为25，POP3协议通常对应的端口号为110，HTTP协议通常对应的端口号为80，Mysql协议通常对应的端口号为3306。

协议识别模块220确定网络协议之后，与协议识别模块220连接的数据抽取模块230适于对于识别为采用第一网络协议的网络数据，获取该网络数据的IP地址、端口号和域名。

同时，数据抽取模块230还适于从该网络数据中抽取采用第一网络协议的同一IP地址、端口号和域名的请求、以及对该请求的响应的数据内容。

根据本发明的一个实施例，具体地，数据抽取模块230可以首先剥离网络数据中的以太网首部，而后继续剥离网络数据中的IP首部，再继续剥离网络数据中的TCP首部或者UDP首部，最后获取到网络数据中的上述数据内容。其中，数据抽取模块230在剥离网络数据中的以太网首部之后，还可以判断该网络数据是否存在虚拟局域网(VLAN)字段，若存在，则剥离该虚拟局域网(VLAN)首部。

数据抽取模块230从该网络数据中抽取采用第一网络协议的同一IP地址、端口号和域名的请求、以及响应该请求的数据内容之后，与数据抽取模块230连接的数据重组模块240适于根据抽取的数据内容生成应用的原始页面。其中第一网络协议通常可以为HTTP协议，对应生成的原始页面可以为HTML格式。

可以理解地，网络数据是通过具有序号的数据包传输，因此数据重组模块240可以将抽取的数据内容按照其序号进行重组，根据重组后的数据内容生成原始页面。这里，由于同一IP地址、端口号和域名下通常运行有一个应用，因此根据重组后的数据内容生成的原始页面通常为一个原始页面。

名称筛选模块250与数据重组模块240连接，适于根据生成的原始页面获取应用的至少一个候选名称。根据本发明的一个实施例，名称筛选模块250可以获取原始页面内容中具有特定标记的字段处的字符串，作为应用的候选名称，这里的特定标记可以是title标记、meta标记和copyright标记中的至少一个。根据本发明的另一个实施例，名称筛选模块250还可以对原始页面按照基于字典的匹配算法进行匹配，该字典包括应用的名称可能包含的关键词，例如“设备”、“网”、“网站”和“平台”中的至少一个关键词。若匹配成功，则名称筛选模块250获取匹配的字段处的字符串，作为应用的候选名称。

最后名称筛选模块250可以根据获取的至少一个候选名称确定应用的名称。根据本发明的一个实施例，具体地，名称筛选模块250可以对每个候选名称，获取将该候选名称经过分词后得到的至少一个词语，计算每个词语在常见语料库中的词频统计值(即TF-IDF值，term frequency–inverse document frequency，词频--反转文件频率)，并相加得到该候选名称的词频统计值之和。名称筛选模块还可以最后选取其中词频统计值之和最大的候选名称作为应用的名称。这样，完成了对应用的实时有效识别，并且准确率高。

进一步地，若同一IP地址、端口号和域名下运行有多个应用，相应地，数据重组模块240将根据抽取的数据内容生成多个原始页面。若数据重组模块240根据抽取的数据内容生成多个原始页面，那么应用识别设备200还可以包括应用分组模块260(图中未示出)，适于利用分词算法分析数据重组模块240获取的多个原始页面中的每个原始页面的内容，并基于该分析构建样本集合，其中样本集合包括每个原始页面内容中的预定数目个(例如20个)词语，最后通过聚类算法对构建的样本集合进行聚类分组，可以理解地，其中每个分组都对应一个应用。

在分组之后，应用分组模块260还可以经由名称筛选模块250对每个分组，根据该分组中的词语所属的至少一个原始页面获取该分组对应的应用的至少一个候选名称，其中具体过程与上述根据一个原始页面获取候选名称相同，名称筛选模块250可以对每个原始页面，都获取该原始页面中具有特定标记的字段处的字符串，作为应用的候选名称。名称筛选模块250还可以对每个原始页面，都对该原始页面内容按照基于字典的匹配算法进行匹配，该字典包括应用名称可能包含的关键词，若匹配成功，则获取匹配的字段处的字符串，作为应用的候选名称。

应用分组模块260经由名称筛选模块250获取分组对应的应用的至少一个候选名称后，可以根据至少一个候选名称确定该分组对应的应用的名称，其中具体过程与上述根据候选名称确定一个应用的名称相同，名称筛选模块250可以对每个候选名称，都获取将该候选名称经过分词后得到的至少一个词语，而后计算每个词语在常见语料库中的词频统计值，并相加得到该候选名称的词频统计值之和。最后名称筛选模块250可以选取其中词频统计值之和最大的候选名称作为该分组对应的应用的名称。这样，实现了对同一IP地址、端口号和域名下运行的多个应用的实时有效识别。

图3示出了根据本发明一个示例性实施例的应用识别方法300的流程图。应用识别方法300可以用于对在客户端和应用服务器之间传输的网络数据对应的应用进行识别。该方法300始于步骤S310，在步骤S310中，获取上述传输的网络数据。而后在步骤S320中，通过对上述网络数据进行协议识别，确定网络数据所采用的网络协议。

而后在步骤S330中，对于识别为采用第一网络协议的网络数据，获取该网络数据的IP地址、端口号和域名。

而后在步骤S340中，从该网络数据中抽取采用第一网络协议的一IP地址、端口号和域名的请求、以及对该请求的响应的数据内容。具体地，可以剥离网络数据中的以太网首部，继续剥离网络数据中的IP首部，以及再继续剥离网络数据中的TCP首部或者UDP首部得到上述数据内容。其中，在剥离网络数据中的以太网首部的步骤之后，还可以判断网络数据是否存在虚拟局域网(VLAN)字段，若存在，则也剥离该虚拟局域网(VLAN)首部。

获取数据内容后，在步骤S350中，根据抽取的数据内容生成其对应的应用的原始页面，通常对应一个应用，生成一个原始页面。具体地，可以将抽取的数据内容按照其序号进行重组，根据重组后的数据内容生成原始页面。这里的第一网络协议可以为HTTP协议，对应生成的原始页面为HTML格式。

而后在步骤S360中，根据原始页面获取应用的至少一个候选名称。具体地，可以获取原始页面中具有特定标记的字段处的字符串，作为应用的候选名称。其中，特定标记包括title标记、meta标记和copyright标记中的至少一个。进一步地，还可以对原始页面内容按照基于字典的匹配算法进行匹配，该字典包括应用名称可能包含的关键词。若匹配成功，则获取匹配的字段处的字符串，作为应用的候选名称。其中，关键词包括“设备”、“网”、“网站”和“平台”中的至少一个。

最后在步骤S370中，根据获取的至少一个候选名称确定应用的名称。具体地，可以对每个候选名称，获取将该候选名称经过分词后得到的至少一个词语，再计算每个词语在常见语料库中的词频统计值(TF-IDF值)，相加得到该候选名称的词频统计值之和。最后选取其中词频统计值之和最大的候选名称作为应用的名称。

根据本发明的一个实施例，方法300还可以包括步骤：若步骤S50中根据抽取的数据内容生成多个原始页面，则可以利用分词算法分析每个原始页面的内容，并基于该分析构建样本集合，该样本集合可以包括每个原始页面中的预定数目个词语，而后通过聚类算法对该样本集合进行聚类分组，其中每个分组都对应一个应用。

在通过聚类算法对样本集合进行聚类分组的步骤之后，可以对每个分组，都根据该分组中的词语所属的至少一个原始页面获取该分组对应的应用的至少一个候选名称，其中对每个原始页面，可以获取该原始页面中具有特定标记的字段处的字符串，作为应用的候选名称，还可以对该原始页面内容按照基于字典的匹配算法进行匹配，该字典包括应用名称可能包含的关键词，若匹配成功，则获取匹配的字段处的字符串，作为应用的候选名称。

而后，可以根据获取的至少一个候选名称确定该分组对应的应用的名称，其中对每个候选名称，可以获取将该候选名称经过分词后得到的至少一个词语，计算每个词语在常见语料库中的词频统计值(TF-IDF值)，并相加得到该候选名称的词频统计值之和。最后选取其中词频统计值之和最大的候选名称作为该分组对应的应用的名称。

以上在结合图1～图2对应用识别设备200进行的具体描述中已经对方法中各步骤的相应处理进行了详细说明，这里不再对重复内容进行赘述。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或

组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明还可以包括：A6、如A1-5中任一项所述的方法，其中，根据所述原始页面获取所述应用的至少一个候选名称的步骤包括：获取所述原始页面中具有特定标记的字段处的字符串，作为所述应用的候选名称。A7、如A6所述的方法，其中，所述特定标记包括title标记、meta标记和copyright标记中的至少一个。A8、如A1-7中任一项所述的方法，其中，根据所述原始页面获取所述应用的至少一个候选名称的步骤还包括：对原始页面内容按照基于字典的匹配算法进行匹配，所述字典包括应用名称可能包含的关键词；若匹配成功，则获取匹配的字段处的字符串，作为所述应用的候选名称。A9、如A8所述的方法，其中，所述关键词包括“设备”、“网”、“网站”和“平台”中的至少一个。A10、如A1-9中任一项所述的方法，其中，所述根据至少一个候选名称确定应用的名称的步骤包括：对每个候选名称，获取将该候选名称经过分词后得到的至少一个词语；计算每个词语在常见语料库中的词频统计值，并相加得到该候选名称的词频统计值之和；选取其中词频统计值之和最大的候选名称作为所述应用的名称。A11、如A1-10中任一项所述的方法，其中，所述方法还包括步骤：若根据抽取的数据内容生成多个原始页面，则利用分词算法分析每个原始页面的内容，基于所述分析构建样本集合，所述样本集合包括每个原始页面中的预定数目个词语；通过聚类算法对所述样本集合进行聚类分组，其中每个分组对应一个应用。A12、如A11所述的方法，其中，所述方法还包括步骤：在通过聚类算法对所述样本集合进行聚类分组的步骤之后，对每个分组，根据该分组中的词语所属的至少一个原始页面获取所述分组对应的应用的至少一个候选名称，包括：对每个原始页面，获取该原始页面中具有特定标记的字段处的字符串，作为所述应用的候选名称；和/或对该原始页面内容按照基于字典的匹配算法进行匹配，所述字典包括应用名称可能包含的关键词，若匹配成功，则获取匹配的字段处的字符串，作为所述应用的候选名称；根据所述至少一个候选名称确定所述应用的名称，包括：对每个候选名称，获取将该候选名称经过分词后得到的至少一个词语；计算每个词语在常见语料库中的词频统计值，并相加得到该候选名称的词频统计值之和；选取其中词频统计值之和最大的候选名称作为所述应用的名称。

B18、如B13-17中任一项所述的设备，其中，所述名称筛选模块适于获取所述原始页面内容中具有特定标记的字段处的字符串，作为所述应用的候选名称。B19、如B18所述的设备，其中，所述特定标记包括title标记、meta标记和copyright标记中的至少一个。B20、如B13-19中任一项所述的设备，其中，所述名称筛选模块适于对原始页面的内容按照基于字典的匹配算法进行匹配，所述字典包括应用的名称可能包含的关键词；若匹配成功，则获取匹配的字段处的字符串，作为所述应用的候选名称。B21、如B20所述的设备，其中，所述关键词包括“设备”、“网”、“网站”和“平台”中的至少一个。B22、如B13-21中任一项所述的设备，其中，所述名称筛选模块还适于对每个候选名称，获取将该候选名称经过分词后得到的至少一个词语；计算每个词语在常见语料库中的词频统计值，并相加得到该候选名称的词频统计值之和；选取其中词频统计值之和最大的候选名称作为所述应用的名称。B23、如B13-22中任一项所述的设备，其中，所述设备还包括应用分组模块，所述应用分组模块适于若所述数据重组模块根据抽取的数据内容生成多个原始页面，则利用分词算法分析每个原始页面的内容，基于所述分析构建样本集合，所述样本集合包括每个原始页面中的预定数目个词语；通过聚类算法对所述样本集合进行聚类分组，其中每个分组对应一个应用。B24、如B23所述的设备，其中，所述应用分组模块还适于在通过聚类算法对所述样本集合进行聚类分组之后，经由所述名称筛选模块对每个分组，根据该分组中的词语所属的至少一个原始页面获取所述分组对应的应用的至少一个候选名称，其中：对每个原始页面，获取该原始页面中具有特定标记的字段处的字符串，作为所述应用的候选名称；和/或对该原始页面内容按照基于字典的匹配算法进行匹配，所述字典包括应用名称可能包含的关键词，若匹配成功，则获取匹配的字段处的字符串，作为所述应用的候选名称；根据所述至少一个候选名称确定所述应用的名称，其中：对每个候选名称，获取将该候选名称经过分词后得到的至少一个词语；计算每个词语在常见语料库中的词频统计值，并相加得到该候选名称的词频统计值之和；选取其中词频统计值之和最大的候选名称作为所述应用的名称。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不

偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种应用识别方法，用于对在客户端和应用服务器之间传输的网络数据对应的应用进行识别，该方法包括步骤：

获取所述传输的网络数据；

通过对所述网络数据进行协议识别，确定所述网络数据所采用的网络协议；

对于识别为采用第一网络协议的网络数据，获取该网络数据的IP地址、端口号和域名；

从该网络数据中抽取采用第一网络协议的同一IP地址、端口号和域名的请求、以及对该请求的响应的数据内容；

根据抽取的数据内容生成其对应的应用的原始页面；

根据所述原始页面获取所述应用的至少一个候选名称，所述候选名称通过获取所述原始页面中具有特定标记的字段处的字符串得到、和/或通过对原始页面内容按照基于字典的匹配算法进行匹配得到；

对每个候选名称，

获取将该候选名称经过分词后得到的至少一个词语；

计算每个词语在常见语料库中的词频统计值，并相加得到该候选名称的词频统计值之和；以及

选取其中词频统计值之和最大的候选名称作为应用的名称。

2.如权利要求1所述的方法，其中，所述抽取采用第一网络协议的请求、以及对该请求的响应的数据内容的步骤包括：

剥离所述网络数据中的以太网首部；

继续剥离所述网络数据中的IP首部；以及

继续剥离所述网络数据中的TCP首部或者UDP首部。

3.如权利要求2所述的方法，其中，所述抽取采用第一网络协议的请求、以及对该请求的响应的数据内容的步骤还包括：

在剥离所述网络数据中的以太网首部的步骤之后，判断所述网络数据是否存在虚拟局域网(VLAN)字段；

若存在，则剥离所述虚拟局域网(VLAN)首部。

4.如权利要求1所述的方法，其中，根据抽取的数据内容生成原始页面的步骤包括：

将抽取的数据内容按照其序号进行重组；

根据重组后的数据内容生成原始页面。

5.如权利要求4所述的方法，其中，所述第一网络协议为HTTP协议，所述原始页面为HTML格式。

6.如权利要求1所述的方法，其中，所述特定标记包括title标记、meta标记和copyright标记中的至少一个。

7.如权利要求1所述的方法，其中，根据所述原始页面获取所述应用的至少一个候选名称的步骤还包括：

对原始页面内容按照基于字典的匹配算法进行匹配，所述字典包括应用名称可能包含的关键词；

若匹配成功，则获取匹配的字段处的字符串，作为所述应用的候选名称。

8.如权利要求7所述的方法，其中，所述关键词包括“设备”、“网”、“网站”和“平台”中的至少一个。

9.如权利要求1-8中任一项所述的方法，其中，所述方法还包括步骤：

若根据抽取的数据内容生成多个原始页面，则利用分词算法分析每个原始页面的内容，基于所述分析构建样本集合，所述样本集合包括每个原始页面中的预定数目个词语；

通过聚类算法对所述样本集合进行聚类分组，其中每个分组对应一个应用。

10.如权利要求9所述的方法，其中，所述方法还包括步骤：

在通过聚类算法对所述样本集合进行聚类分组的步骤之后，

对每个分组，

根据该分组中的词语所属的至少一个原始页面获取所述分组对应的应用的至少一个候选名称，包括：

对每个原始页面，

获取该原始页面中具有特定标记的字段处的字符串，作为所述

应用的候选名称；和/或

对该原始页面内容按照基于字典的匹配算法进行匹配，所述字

典包括应用名称可能包含的关键词，若匹配成功，则获取匹配的字段处的字符串，作为所述应用的候选名称；

根据所述至少一个候选名称确定所述应用的名称，包括：

对每个候选名称，

获取将该候选名称经过分词后得到的至少一个词语；

计算每个词语在常见语料库中的词频统计值，并相加得到该候

选名称的词频统计值之和；

选取其中词频统计值之和最大的候选名称作为所述应用的名称。

11.一种应用识别设备，适于对在客户端和应用服务器之间传输的网络数据对应的应用进行识别，该设备包括：

流量采集组件，适于获取所述传输的网络数据；

协议识别模块，适于通过对所述网络数据进行协议识别，确定所述网络数据所采用的网络协议；

数据抽取模块，适于对于识别为第一网络协议的网络数据，获取该网络数据的IP地址、端口号和域名；还适于从该网络数据中抽取采用第一网络协议的同一IP地址、端口号和域名的请求、以及对该请求的响应的数据内容；

数据重组模块，适于根据抽取的数据内容生成其对应的应用的原始页面；以及

名称筛选模块，适于根据所述原始页面获取至少一个应用的候选名称，所述候选名称通过获取所述原始页面中具有特定标记的字段处的字符串得到、和/或通过对原始页面内容按照基于字典的匹配算法进行匹配得到；对每个候选名称，获取将该候选名称经过分词后得到的至少一个词语；计算每个词语在常见语料库中的词频统计值，并相加得到该候选名称的词频统计值之和；以及选取其中词频统计值之和最大的候选名称作为应用的名称。

12.如权利要求11所述的设备，其中，所述数据抽取模块还适于剥离所述网络数据中的以太网首部；继续剥离所述网络数据中的IP首部；以及继续剥离所述网络数据中的TCP首部或者UDP首部。

13.如权利要求12所述的设备，其中，所述数据抽取模块还适于在剥离所述网络数据中的以太网首部之后，判断所述网络数据是否存在虚拟局域网(VLAN)字段，若存在，则剥离所述虚拟局域网(VLAN)首部。

14.如权利要求11-13中任一项所述的设备，其中，所述数据重组模块适于将抽取的数据内容按照其序号进行重组；根据重组后的数据内容生成原始页面。

15.如权利要求11所述的设备，其中，所述第一网络协议为HTTP协议，所述原始页面为HTML格式。