CN109698798A - 一种应用的识别方法、装置、服务器和存储介质 - Google Patents

一种应用的识别方法、装置、服务器和存储介质 Download PDF

Info

Publication number
CN109698798A
CN109698798A CN201811533268.6A CN201811533268A CN109698798A CN 109698798 A CN109698798 A CN 109698798A CN 201811533268 A CN201811533268 A CN 201811533268A CN 109698798 A CN109698798 A CN 109698798A
Authority
CN
China
Prior art keywords
field
message data
application type
detected
critical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811533268.6A
Other languages
English (en)
Other versions
CN109698798B (zh
Inventor
谢永恒
张晓东
万月亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201811533268.6A priority Critical patent/CN109698798B/zh
Publication of CN109698798A publication Critical patent/CN109698798A/zh
Application granted granted Critical
Publication of CN109698798B publication Critical patent/CN109698798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/51Discovery or management thereof, e.g. service location protocol [SLP] or web services

Abstract

本发明实施例公开了一种应用的识别方法、装置、服务器和存储介质。该方法包括:依据实时获取的待检测报文数据,确定所述待检测报文数据的目标字段列表和目标字段矩阵;向预先训练的预测模型输入所述目标字段列表和所述目标字段矩阵,识别所述待检测报文数据所属的目标应用类型和目标关键信息。本发明实施例通过预测模型实现了自动化地对网络应用及其关键信息进行识别,避免了预先对每个需要识别的应用进行协议特征和关键字段特征的分析,大幅度降低了人力和时间的投入,提高了网络应用的识别效率和准确度。

Description

一种应用的识别方法、装置、服务器和存储介质
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种应用的识别方法、装置、服务器和存储介质。
背景技术
网络应用识别是网关、防火墙等设备的管控基础。随着互联网技术的快速发展,互联网应用也越来越普及,针对互联网上日益增多的网络应用进行识别,以及识别出网络应用中的关键信息,提高应用识别的准确性、全面性,对提高网络管理监控的有效性十分重要。
现有技术中,通过预先对要识别的网络应用的报文数据进行分析,确定能够唯一识别该网络应用的协议特征表示,以及该网络应用的报文数据中的关键信息对应的字段标识,并把每个网络应该的协议特征标识和字段标识作为配置信息写入到识别模板当中,从而依据写好的配置信息进行网络应用的识别和关键信息的识别。
然而,互联网环境中新型的网络应用源源不断,且每个网络应用也在不定时的进行更新或升级。因此现有技术通过配置信息的识别方式,不仅降低了配置信息与实时网络应用信息的匹配度与准确度,而且为了提高配置信息的准确性,无形的增加大量的人力和时间的投入,以此反复对网络应用进行再次的报文数据分析和配置信息的更新。
发明内容
本发明实施例提供了一种应用的识别方法、装置、服务器和存储介质,能够自动化的对网络应用及其关键信息进行识别,提高识别效率和准确度,大幅度降低人力和时间的投入。
第一方面,本发明实施例提供了一种应用的识别方法,包括:
依据实时获取的待检测报文数据,确定所述待检测报文数据的目标字段列表和目标字段矩阵;
向预先训练的预测模型输入所述目标字段列表和所述目标字段矩阵,识别所述待检测报文数据所属的目标应用类型和目标关键信息。
第二方面,本发明实施例提供了一种应用的识别装置,包括:
字段信息确定模块,用于依据实时获取的待检测报文数据,确定所述待检测报文数据的目标字段列表和目标字段矩阵;
应用识别模块,用于向预先训练的预测模型输入所述目标字段列表和所述目标字段矩阵,识别所述待检测报文数据所属的目标应用类型和目标关键信息。
第三方面,本发明实施例提供了一种服务器,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的应用的识别方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的应用的识别方法。
本发明实施例通过获取网络中实时传输的待检测报文数据,提取出待检测报文数据的目标字段列表和目标字段矩阵,将目标字段列表和目标字段矩阵输入至预先训练好的预测模型当中,从而获取待检测报文数据所属的应用类型和关键信息。本发明实施例通过预测模型实现了自动化地对网络应用及其关键信息进行识别,避免了预先对每个需要识别的应用进行协议特征和关键字段的分析和备份,大幅度降低了人力和时间的投入,提高了网络应用的识别效率和准确度。
附图说明
图1为本发明实施例一提供的一种应用的识别方法的流程图;
图2为本发明实施例二提供的一种应用的识别方法的流程图;
图3为本发明实施例二提供的目标字段列表的示例图;
图4为本发明实施例三提供的训练预测模型的流程图;
图5为本发明实施例三提供的各类型网络应用划分的关键字段的示例图;
图6为本发明实施例四提供的一种应用的识别装置的结构示意图;
图7为本发明实施例五提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种应用的识别方法的流程图,本实施例可适用于识别网络应用类型及其关键信息的情况,该方法可由一种应用的识别装置来执行。该方法具体包括如下步骤:
步骤110、依据实时获取的待检测报文数据,确定待检测报文数据的目标字段列表和目标字段矩阵。
在本发明具体实施例中,报文数据可以是指网络应用基于用户行为产生的与服务器进行交互的数据,可选的,所述报文数据以HTTP POST方式在网络中传输。相应的,在网络中进行应用的识别时,网络中实时产生的报文数据即为本实施例所述的待检测报文数据。
具体的,报文数据中可以包括对应用户行为和网络数据的各种描述信息,通常由字段标识以及该字段标识关联字段内容构成,可以反映网络应用的协议特征,且体现网络应用的关键信息。相应的,在网络中进行应用的识别时,本实施例首先获取网络中实时的待检测报文数据,对待检测报文数据进行预解析,按照通用的编码格式提取出待检测报文数据的字段信息。其中,编码格式至少可以包括URL、MIME以及JSON等;依据报文数据的结构,至少可以从待检测报文数据的报文头部分和报文体部分进行字段信息的提取;并将提取的字段信息以键值对Key-Value的形式组成字段列表,从而获得网络应用识别所需的目标字段列表。相应的,目标字段列表中包括待检测报文数据中所有字段标识以及字段标识关联的字段内容。其次对目标字段列表进行转换,获得目标字段列表对应的且能够适应于对应模型的目标字段矩阵。示例性的,可以依据目标字段列表中的数据总长度对目标字段列表进行形式上的转换,得到目标字段列表对应的目标字段矩阵;也可以依据目标字段列表中数据长度最长的字段,对目标字段列中的其余字段进行数据长度的补充对齐,得到目标字段列表对应的目标字段矩阵;还可以对目标字段进行二进制的转换,得到二进制矩阵。值得注意的是,目标字段矩阵的确定方式不局限于上述方式,任何可以实现字段矩阵的转换或确定方式都可以应用于本实施例中。
示例性的,获取实时的待检测报文数据,假设提取的字段信息构成的目标字段列表如下:
Url:/js6/w?sid=rBfHXAaFgIhxyxsAOpFFWGXRC……x&func=ntes:pinle=1
Host:mail.163.com
Cookie:mail_health_check_time=1477375433817。
其中,目标字段列表中共包括3个字段信息,分别为字段Url、Host、Cookie以及其对应的数据项。假设字段Url关联的字段内容的数据长度为128个字节,则对其余字段信息的数据长度进行补充和对齐,可以得到3×128的目标字段矩阵。
步骤120、向预先训练的预测模型输入目标字段列表和目标字段矩阵,识别待检测报文数据所属的目标应用类型和目标关键信息。
在本发明具体实施例中,应用类型是指依据网络中各个应用的使用场景划分出的应用类型,例如邮件类、购物类、新闻类以及论坛类等应用类型。关键信息是指该应用类型下的报文数据中的关键字段所需体现的关键数据内容,例如邮件类应用的关键信息可以包括收件人、发件人以及邮件主题等。
本实施例中,预测模型是指能够通过待检测报文数据的字段信息,自动识别出待检测报文数据所属的目标应用类型和目标关键信息的模型。其中,预测模型可以是基于各类型应用下样本报文数据提取出的样本字段信息以及神经网络模型预先训练好的,预测模型中进行应用类型的识别和关键信息的识别的模型可以为一个,也可以为多个。本实施例中,可以将预测模型划分为多个,首先采用预测模型中的应用类型识别模型进行应用类别的识别,其次可以采用关键字段识别模型对各应用类型的字段信息进行关键字段的识别。其中,关键字段识别模型可以为一个,也可以为各应用类型下均有至少一个关联的关键字段识别模型。
具体的,在确定待检测报文数据的目标字段列表和目标字段矩阵之后,可以首先,向预测模型中的应用类型识别模型输入目标字段矩阵,确定待检测报文数据所属的目标应用类型,并向待检测报文数据标注目标应用类型的类型标识。其次,依据目标应用类型的类型标识,确定预测模型中目标应用类型关联的关键字段识别模型;并向该关键字段识别模型输入目标字段列表,依次确定目标字段列表中的关键字段并标注对应的关键字段标识。或者,向预测模型中的关键字段识别模型输入目标应用类型的类型标识和目标字段列表,依次确定目标字段列表中的关键字段对应的关键字段标识。最终,依据关键字段标识,以及字段标识与字段内容之间关联关系,确定待检测报文数据的目标关键信息。
本实施例的技术方案,通过获取网络中实时传输的待检测报文数据,提取出待检测报文数据的目标字段列表和目标字段矩阵,将目标字段列表和目标字段矩阵输入至预先训练好的预测模型当中,从而获取待检测报文数据所属的应用类型和关键信息。本发明实施例通过预测模型实现了自动化地对网络应用及其关键信息进行识别,避免了预先对每个需要识别的应用进行协议特征和关键字段特征的分析,大幅度降低了人力和时间的投入,提高了网络应用的识别效率和准确度。
实施例二
本实施例在上述实施例一的基础上,提供了应用的识别方法的一个优选实施方式,能够基于预测模型识别网络应用类型及其关键信息。图2为本发明实施例二提供的一种应用的识别方法的流程图,如图2所示,该方法包括以下具体步骤:
步骤210、获取网络中实时的待检测报文数据。
在本发明具体实施例中,报文数据可以是指网络应用基于用户行为产生的与服务器进行交互的数据,可选的,所述报文数据以HTTP POST方式在网络中传输。相应的,在网络中进行应用的识别时,网络中实时产生的报文数据即为本实施例所述的待检测报文数据。
步骤220、对待检测报文数据的预解析,根据所述待检测报文数据中字段标识以及字段标识关联的字段内容,生成目标字段列表。
在本发明具体实施例中,对待检测报文数据进行预解析,按照通用的编码格式,至少可以从待检测报文数据的报文头Head部分和报文体Body部分提取出待检测报文数据中的字段信息,并将提取的字段信息以Key-Value的形式,即字段标识以及与字段标识关联的字段内容的形式,组成字段信息列表,从而获得网络应用识别所需的目标字段列表。其中,编码格式至少可以包括URL、MIME以及JSON等。
示例性的,获取实时的待检测报文数据,假设对待检测报文数据提取的字段信息构成的目标字段列表如图3所示。其中,目标字段列表中共包括7个字段信息,分别为字段Url、Host、Cookie、var、object、name、mail以及各字段关联的数据项。其中,字符Url表示统一资源定位符,其后具体的数据项/js6/w?sid=rBfHXAaFgIhxyxsAOpFFWGXRCKsaIBLx&func=ntes:……………pinle=1表示具体的网址信息。因此,Url等字符即为字段标识,字段标识其后的数据项即为字段内容,字符标识与对应的字段内容具有关联的关系。
步骤230、对目标字段列表进行转换,确定待检测报文数据的目标字段矩阵。
在本发明具体实施例中,对目标字段列表进行转换,获得目标字段列表对应的且能够适应于对应模型的目标字段矩阵。示例性的,可以依据目标字段列表中的数据总长度对目标字段列表进行形式上的转换,得到目标字段列表对应的目标字段矩阵;也可以依据目标字段列表中数据长度最长的字段,对目标字段列中的其余字段进行数据长度的补充对其,得到目标字段列表对应的目标字段矩阵;还可以对目标字段进行二进制的转换,得到二进制矩阵。值得注意的是,目标字段矩阵的确定方式不局限于上述方式,任何可以实现字段矩阵的转换或确定方式都可以应用于本实施例中。
示例性的,在上述示例中,假设图3中第一个字段信息,即字段标识Url及其字段内容总共的数据长度为128个字节,且由图3中可以看出,其余6个字段信息的数据长度均小于128个字节,则对其余6个字段信息进行补充和对齐处理,使其余6个字段信息在不影响信息表示的情况下均补充至128个字节长度,因此可以将目标字段列表转换为7×128的目标字段矩阵。
步骤240、向预测模型中的应用类型识别模型输入目标字段矩阵,确定待检测报文数据所属的目标应用类型,并向待检测报文数据标注目标应用类型的类型标识。
在本发明具体实施例中,预测模型是指可以通过待检测报文数据的字段信息,自动识别出待检测报文数据所属的目标应用类型和目标关键信息的模型。其中,预测模型可以是基于各类型应用下样本报文数据提取出的样本字段信息以及神经网络模型预先训练好的,预测模型中进行应用类型的识别和关键信息的识别的模型可以为一个,也可以为多个。
本实施例中,可以将预测模型划分为两类,其中之一为应用类型识别模型,用于依据输入的目标字段矩阵,来识别出待检测报文数据所属的目标应用类型。其中,应用类型是预先按照网络中各个应用的使用场景划分出的应用类型,例如邮件类、购物类、新闻类以及论坛类等应用类型。最终向待检测报文数据标注目标应用类型的类型标识。
步骤250、向预测模型中的关键字段识别模型输入目标字段列表,依次确定目标字段列表中的关键字段,并向识别出的关键字段标注对应的关键字段标识。
在本发明具体实施例中,可以将预测模型划分为两类,其中之二即为关键字段识别模型。可以理解的是,报文数据中并非全部的字段信息都是能够有效识别应用的关键信息,因此预先依据网络应用的类型和对应划分的关键字段训练关键字段识别模型,用于依据输入的目标字段列表,来识别出目标字段列表中的关键字段,即可以确定关键字段关联的字段内容为该网络应用的目标关键信息。例如,对于邮件类的网络应用,其关键字段可以包括收件人、发件人和邮件主题等;对于购物类的网络应用,其关键字段可以包括下单人、收件人和物品名称等。
可选的,依据目标应用类型的类型标识,确定预测模型中目标应用类型关联的关键字段识别模型;向目标应用类型关联的关键字段识别模型输入目标字段列表,依次确定目标字段列表中的关键字段并标注对应的关键字段标识。
在本发明具体实施例中,可以预先对各类型的网络应用分别训练用于识别关键字段的关键字段识别模型。相应的,在依据目标字段矩阵识别出待检测报文数据所属的目标应用类型之后,依据为待检测报文数据标注的类型标识,确定该目标应用类型关联的关键字段识别模型。从而将目标字段列表输入至目标应用类型关联的关键字段识别模型当中,以此依次确定目标字段列表中的关键字段,并向识别出的关键字段标注对应的关键字段标识。
示例性的,假设使用通用的应用类型识别模型识别出待检测报文数据所属的目标应用类型为邮件类型,则向待检测报文数据标注邮件类型标识。并确定邮件类型关联的关键字段识别模型,将目标字段列表输入至邮件类型关联的关键字段识别模型当中,以此确定目标字段列表中例如发件人、收件人以及邮件主题等关键字段,并为识别出的关键字段标注对应的关键字段标识。
可选的,向预测模型中的关键字段识别模型输入目标应用类型的类型标识和目标字段列表,依次确定目标字段列表中的关键字段并标注对应的关键字段标识。
在本发明具体实施例中,可以预先依据所有应用类型训练通用的关键字段识别模型。相应的,在依据目标字段矩阵识别出待检测报文数据所属的目标应用类型之后,将目标应用类型的类型标识和目标字段列表输入至通用的关键字段识别模型,以此依次确定目标字段列表中的关键字段,并向识别出的关键字段标注对应的关键字段标识。
示例性的,假设使用通用的应用类型识别模型识别出待检测报文数据所属的目标应用类型为邮件类型,则向待检测报文数据标注邮件类型标识。并将邮件类型的类型标识和目标字段列表输入至通用的关键字段识别模型当中,以此确定目标字段列表中例如发件人、收件人以及邮件主题等关键字段,并为识别出的关键字段标注对应的关键字段标识。
步骤260、依据关键字段标识,以及字段标识与字段内容之间关联关系,确定待检测报文数据的目标关键信息。
在本发明具体实施例中,依据关键字段标识,以及字段标识与字段内容之间关联关系,从目标字段列表中提取标注有关键字段标识的字段标识关联的字段内容,以此确定待检测报文数据的目标关键信息。
示例性的,在上述示例中,假设目标字段列表的字段信息中分别标注有发件人关键字段标识、收件人关键字段标识以及邮件主题关键字段标识,则依据字段标识与字段内容之间的关联关系,分别提取出这三个关键字段标识关联的字段内容,以此确定属于邮件类型的待检测报文数据目标关键信息。
本实施例的技术方案,通过获取网络中实时传输的待检测报文数据,提取出待检测报文数据中的目标字段列表,并通过对目标字段列表的转换确定目标字段矩阵。从而将目标字段矩阵输入至预先训练好的预测模型当中的应用类型识别模型中,以此确定待检测报文数据所属的目标应用类型并标注类型标识;进而依据类型标识和目标字段列表,利用预测模型中的关键字段识别模型识别出目标字段列表中的关键字段并标注关键字段标识。最终依据关键字段标识从目标字段列表中提取待检测报文数据目标关键信息。本发明实施例通过预测模型实现了自动化地对网络应用及其关键信息进行识别,避免了预先对每个需要识别的应用进行协议特征和关键字段特征的分析,大幅度降低了人力和时间的投入,提高了网络应用的识别效率和准确度。
实施例三
本实施例在上述实施例一的基础上,提供了应用的识别方法的一个优选实施方式,能够基于样本报文数据训练预测模型。图4为本发明实施例三提供的训练预测模型的流程图,如图4所示,该方法包括以下具体步骤:
步骤410、依据网络中各应用的使用场景,确定至少一种待识别应用类型。
在本发明具体实施例中,依据网络中各应用的使用场景,可以确定至少一种待识别应用类型,例如邮件类、购物类、新闻类以及论坛类等应用类型,以此识别网络中属于待识别应用类型的网络应用。
步骤420、依据网络中各应用的字段信息,确定各待识别应用类型关联的至少一个关键字段。
在本发明具体实施例中,关键字段是指可以描述网络应用的关键信息的有效字段,关键字段关联的字段内容即为所需识别的目标关键信息。可以理解的是,相同类型的网络应用在不同时间产生的报文数据中的字段标识和/或关联的字段内容可能相同也可能不同,不同类型的网络应用的关键字段可能相同也可能不同。因此,预先对要识别的应用类型的网络应用进行关键字段的划分,即各类型的网络应用关联有至少一个关键字段。例如,对于邮件类的网络应用,其关联的关键字段可以包括收件人、发件人和邮件主题等;对于购物类的网络应用,其关联的关键字段可以包括下单人、收件人和物品名称等。从而依据待识别应用类型、各待识别应用类型关联的关键字段以及各应用的字段信息,训练预测模型。
示例性的,图5为各类型网络应用划分的关键字段的示例图。由图5可以里看出,图5包括两个Table,其中第一个Table为新闻类网络应用,包括关联的标题和链接等5个关键字段,第二个Table为邮件类网络应用,包括关联的主题、收件人和主文件等5个关键字段。
步骤430、确定各待识别应用类型下样本报文数据的样本字段列表和样本字段矩阵。
在本发明具体实施例中,同样首先对样本报文数据进行预解析,按照通用的编码格式,例如URL、MIME以及JSON等编码格式,至少可以从样本报文数据的报文头Head部分和报文体Body部分提取出样本报文数据中的字段信息,并将提取的字段信息以Key-Value的形式,即字段标识以及字段标识关联的字段内容的形式,组成字段信息列表,从而获得各待识别应用类型下样本报文数据的样本字段列表。其中,相同应用类型下的不同样本报文数据中,表示相同字段的字段标识可能相同也可能不相同,因此尽量收集各应用类型下有代表性的样本报文数据,以此涵盖尽可能多的字段标识表示方式。
本实施例中,其次对样本字段列表进行转换,获得样本字段列表对应的且能够适应于对应模型的样本字段矩阵。示例性的,可以依据样本字段列表中的数据总长度对样本字段列表进行形式上的转换,得到样本字段列表对应的样本字段矩阵;也可以依据样本字段列表中数据长度最长的字段,对样本字段列中的其余字段进行数据长度的补充对其,得到样本字段列表对应的样本字段矩阵;还可以对样本字段进行二进制的转换,得到二进制矩阵。值得注意的是,字段矩阵的确定方式不局限于上述方式,任何可以实现字段矩阵的转换或确定方式都可以应用于本实施例中。其中,可以采用大部分的样本字段列表及其对应的样本字段矩阵进行预测模型的训练,采用剩余小部分样本字段列表及其对应的样本字段矩阵进行预测模型的测试。
步骤440、依据待识别应用类型以及样本字段矩阵,基于神经网络模型训练预测模型中的应用类型识别模型。
在本发明具体实施例中,采用神经网络模型,通过学习每个待识别应用类型下的样本字段矩阵,积累每个待识别应用类型的数据特征,得到可以识别应用类型的应用类型识别模型。可选的,使用神经网络InceptionV4算法训练预测模型中的应用类型识别模型。
步骤450、依据待识别应用类型、各应用类型关联的关键字段以及样本字段矩阵,基于神经网络模型训练预测模型中的关键字段识别模型。
在本发明具体实施例中,采用神经网络模型,通过学习每个待识别应用类型下包括全部字段信息的样本字段列表,积累每个待识别应用类型下各关键字段的数据特征,得到可以识别字段列表中关键字段的关键字段识别模型。可选的,使用神经网络ResNetV2算法训练预测模型中的关键字段识别模型。
本实施例中,可以用剩余的小部分样本字段列表及其关联的样本字段矩阵进行预测模型的测试,并对测试结果进行抽样验证。具体的,根据应用类型识别模型和关键字段识别模型的识别结果,以及样本报文数据已知的网络应用类型和该类型的关键字段,判断应用类型和关键字段的识别结果是否准确。若不准确,则对预测模型进行修正或重新训练。
本实施例的技术方案,通过预先依据使用场景对网络中需要识别的应用类型进行划分,并确定各应用类型关联的关键字段。从而获取各应用类型下的样本报文数据,并提取各样本报文数据中的全部字段信息构成样本字段列表,最终依据应用类型、各应用类型关联的关键字段、样本字段列表以及样本字段列表转换的样本字段矩阵,基于神经网络模型训练预测模型。本发明实施例通过预测模型的自动化学习,实现了基于预测模型的自动化网络应用类型识别及其关键信息的识别,避免了预先对每个需要识别的应用进行协议特征和关键字段特征的分析,大幅度降低了人力和时间的投入,提高了网络应用的识别效率和准确度。
实施例四
图6为本发明实施例四提供的一种应用的识别装置的结构示意图,本实施例可适用于识别网络应用类型及其关键信息的情况,该装置可实现本发明任意实施例所述的应用的识别方法。该装置具体包括:
字段信息确定模块610,用于依据实时获取的待检测报文数据,确定所述待检测报文数据的目标字段列表和目标字段矩阵;
应用识别模块620,用于向预先训练的预测模型输入所述目标字段列表和所述目标字段矩阵,识别所述待检测报文数据所属的目标应用类型和目标关键信息。
可选的,所述字段信息确定模块610,包括:
字段列表确定单元,用于对所述待检测报文数据的预解析,根据所述待检测报文数据中字段标识以及字段标识关联的字段内容,生成目标字段列表;
字段矩阵确定单元,用于对所述目标字段列表进行转换,确定所述待检测报文数据的目标字段矩阵。
可选的,所述应用识别模块620,包括:
应用类型识别单元,用于向预测模型中的应用类型识别模型输入所述目标字段矩阵,确定所述待检测报文数据所属的目标应用类型,并向所述待检测报文数据标注目标应用类型的类型标识;
关键字段识别单元,用于依据所述目标应用类型的类型标识,确定预测模型中所述目标应用类型关联的关键字段识别模型;向所述目标应用类型关联的关键字段识别模型输入所述目标字段列表,依次确定目标字段列表中的关键字段并标注对应的关键字段标识;
关键信息确定单元,用于依据所述关键字段标识,以及字段标识与字段内容之间关联关系,确定所述待检测报文数据的目标关键信息。
可选的,所述应用识别模块620,包括:
所述应用类型识别单元,用于向预测模型中的应用类型识别模型输入所述目标字段矩阵,确定所述待检测报文数据所属的目标应用类型,并向所述待检测报文数据标注目标应用类型的类型标识;
所述关键字段识别单元,用于向预测模型中的关键字段识别模型输入所述目标应用类型的类型标识和所述目标字段列表,依次确定目标字段列表中的关键字段并标注对应的关键字段标识;
所述关键信息确定单元,用于依据所述关键字段标识,以及字段标识与字段内容之间关联关系,确定所述待检测报文数据的目标关键信息。
进一步的,所述装置还包括模型训练模块630;所述模型训练模块630,包括:
应用类型划分单元,用于在所述依据实时获取的待检测报文数据,确定所述待检测报文数据的目标字段列表和目标字段矩阵之前,依据网络中各应用的使用场景,确定至少一种待识别应用类型;
关键字段划分单元,用于依据网络中各应用的字段信息,确定各待识别应用类型关联的至少一个关键字段;
模型训练单元,用于依据所述待识别应用类型、各待识别应用类型关联的关键字段以及各应用的字段信息,训练所述预测模型。
可选的,所述模型训练单元具体用于:
确定各待识别应用类型下样本报文数据的样本字段列表和样本字段矩阵;
依据所述待识别应用类型以及所述样本字段矩阵,基于神经网络模型训练预测模型中的应用类型识别模型;
依据所述待识别应用类型、各待识别应用类型关联的关键字段以及所述样本字段矩阵,基于神经网络模型训练预测模型中的关键字段识别模型。
可选的,所述报文数据以HTTP POST方式在网络中传输。
本实施例的技术方案,通过各个功能模块之间的相互配合,实现了应用类型的划分、关键字段的划分、样本报文数据的确定、样本字段列表的提取、样本字段矩阵的转换、预测模型的训练、预测模型的测试、待检测报文数据的获取、目标字段列表的提取、目标字段矩阵的转换、应用类型的识别、关键字段的识别以及关键信息的确定等功能。本发明实施例通过预测模型实现了自动化地对网络应用及其关键信息进行识别,避免了预先对每个需要识别的应用进行协议特征和关键字段特征的分析,大幅度降低了人力和时间的投入,提高了网络应用的识别效率和准确度。
实施例五
图7为本发明实施例五提供的一种服务器的结构示意图。如图7所示,该服务器具体包括:一个或多个处理器710,图7中以一个处理器710为例;存储器720,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器710执行,使得一个或多个处理器710实现本发明任意实施例所述的应用的识别方法。处理器710与存储器720可以通过总线或其他方式连接,图7中以通过总线连接为例。
存储器720,作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的应用的识别方法对应的程序指令(例如,目标字段列表的提取和目标字段矩阵的转换以及应用类型的识别和关键信息的确定)。处理器710通过运行存储在存储器720中的软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述的应用的识别方法。
存储器720可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器720可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器720可进一步包括相对于处理器710远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实施例六
本发明实施例六还提供一种计算机可读存储介质,其上存储有计算机程序(或称为计算机可执行指令),该程序被处理器执行时用于执行一种应用的识别方法,该方法包括:
依据实时获取的待检测报文数据,确定所述待检测报文数据的目标字段列表和目标字段矩阵;
向预先训练的预测模型输入所述目标字段列表和所述目标字段矩阵,识别所述待检测报文数据所属的目标应用类型和目标关键信息。
当然,本发明实施例所提供的一种计算机可读存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的应用的识别方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明实施例可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明实施例进行了较为详细的说明,但是本发明实施例不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种应用的识别方法,其特征在于,包括:
依据实时获取的待检测报文数据,确定所述待检测报文数据的目标字段列表和目标字段矩阵;
向预先训练的预测模型输入所述目标字段列表和所述目标字段矩阵,识别所述待检测报文数据所属的目标应用类型和目标关键信息。
2.根据权利要求1所述的方法,其特征在于,所述依据实时获取的待检测报文数据,确定所述待检测报文数据的目标字段列表和目标字段矩阵,包括:
对所述待检测报文数据的预解析,根据所述待检测报文数据中字段标识以及字段标识关联的字段内容,字段内容生成目标字段列表;
对所述目标字段列表进行转换,确定所述待检测报文数据的目标字段矩阵。
3.根据权利要求1所述的方法,其特征在于,所述向预先训练的预测模型输入所述目标字段列表和所述目标字段矩阵,识别所述待检测报文数据所属的目标应用类型和目标关键信息,包括:
向预测模型中的应用类型识别模型输入所述目标字段矩阵,确定所述待检测报文数据所属的目标应用类型,并向所述待检测报文数据标注目标应用类型的类型标识;
依据所述目标应用类型的类型标识,确定预测模型中所述目标应用类型关联的关键字段识别模型;
向所述目标应用类型关联的关键字段识别模型输入所述目标字段列表,依次确定目标字段列表中的关键字段并标注对应的关键字段标识;
依据所述关键字段标识,以及字段标识与字段内容之间关联关系,确定所述待检测报文数据的目标关键信息。
4.根据权利要求1所述的方法,其特征在于,所述向预先训练的预测模型输入所述目标字段列表和所述目标字段矩阵,识别所述待检测报文数据所属的目标应用类型和目标关键信息,包括:
向预测模型中的应用类型识别模型输入所述目标字段矩阵,确定所述待检测报文数据所属的目标应用类型,并向所述待检测报文数据标注目标应用类型的类型标识;
向预测模型中的关键字段识别模型输入所述目标应用类型的类型标识和所述目标字段列表,依次确定目标字段列表中的关键字段并标注对应的关键字段标识;
依据所述关键字段标识,以及字段标识与字段内容之间关联关系,确定所述待检测报文数据的目标关键信息。
5.根据权利要求1所述的方法,其特征在于,在所述依据实时获取的待检测报文数据,确定所述待检测报文数据的目标字段列表和目标字段矩阵之前,还包括:
依据网络中各应用的使用场景,确定至少一种待识别应用类型;
依据网络中各应用的字段信息,确定各待识别应用类型关联的至少一个关键字段;
依据所述待识别应用类型、各待识别应用类型关联的关键字段以及各应用的字段信息,训练所述预测模型。
6.根据权利要求5所述的方法,其特征在于,所述依据所述待识别应用类型、各待识别应用类型关联的关键字段以及各应用的字段信息,训练所述预测模型,包括:
确定各待识别应用类型下样本报文数据的样本字段列表和样本字段矩阵;
依据所述待识别应用类型以及所述样本字段矩阵,基于神经网络模型训练预测模型中的应用类型识别模型;
依据所述待识别应用类型、各待识别应用类型关联的关键字段以及所述样本字段矩阵,基于神经网络模型训练预测模型中的关键字段识别模型。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述报文数据以HTTP POST方式在网络中传输。
8.一种应用的识别装置,其特征在于,包括:
字段信息确定模块,用于依据实时获取的待检测报文数据,确定所述待检测报文数据的目标字段列表和目标字段矩阵;
应用识别模块,用于向预先训练的预测模型输入所述目标字段列表和所述目标字段矩阵,识别所述待检测报文数据所属的目标应用类型和目标关键信息。
9.一种服务器,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的应用的识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的应用的识别方法。
CN201811533268.6A 2018-12-14 2018-12-14 一种应用的识别方法、装置、服务器和存储介质 Active CN109698798B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811533268.6A CN109698798B (zh) 2018-12-14 2018-12-14 一种应用的识别方法、装置、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811533268.6A CN109698798B (zh) 2018-12-14 2018-12-14 一种应用的识别方法、装置、服务器和存储介质

Publications (2)

Publication Number Publication Date
CN109698798A true CN109698798A (zh) 2019-04-30
CN109698798B CN109698798B (zh) 2022-04-01

Family

ID=66231661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811533268.6A Active CN109698798B (zh) 2018-12-14 2018-12-14 一种应用的识别方法、装置、服务器和存储介质

Country Status (1)

Country Link
CN (1) CN109698798B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634046A (zh) * 2020-12-30 2021-04-09 平安证券股份有限公司 资金头寸实时监控方法、装置、电子设备及存储介质
CN112784720A (zh) * 2021-01-13 2021-05-11 浙江诺诺网络科技有限公司 基于银行回单的关键信息提取方法、装置、设备及介质
CN112839004A (zh) * 2019-11-22 2021-05-25 中国电信股份有限公司 应用识别方法和装置
WO2022033115A1 (zh) * 2020-08-12 2022-02-17 华为技术有限公司 一种通信方法和通信装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105390132A (zh) * 2015-10-10 2016-03-09 中国科学院信息工程研究所 一种基于语言模型的应用协议识别方法及系统
CN107222369A (zh) * 2017-07-07 2017-09-29 北京小米移动软件有限公司 应用程序的识别方法、装置、交换装置和存储介质
CN108154177A (zh) * 2017-12-20 2018-06-12 广东宜通世纪科技股份有限公司 业务识别方法、装置、终端设备及存储介质
US20180227216A1 (en) * 2017-02-06 2018-08-09 Silver Peak Systems, Inc. Multi-level Learning For Classifying Traffic Flows From First Packet Data
CN108462707A (zh) * 2018-03-13 2018-08-28 中山大学 一种基于深度学习序列分析的移动应用识别方法
CN108667747A (zh) * 2018-04-28 2018-10-16 深圳信息职业技术学院 网络流应用类型识别的方法、装置及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105390132A (zh) * 2015-10-10 2016-03-09 中国科学院信息工程研究所 一种基于语言模型的应用协议识别方法及系统
US20180227216A1 (en) * 2017-02-06 2018-08-09 Silver Peak Systems, Inc. Multi-level Learning For Classifying Traffic Flows From First Packet Data
CN107222369A (zh) * 2017-07-07 2017-09-29 北京小米移动软件有限公司 应用程序的识别方法、装置、交换装置和存储介质
CN108154177A (zh) * 2017-12-20 2018-06-12 广东宜通世纪科技股份有限公司 业务识别方法、装置、终端设备及存储介质
CN108462707A (zh) * 2018-03-13 2018-08-28 中山大学 一种基于深度学习序列分析的移动应用识别方法
CN108667747A (zh) * 2018-04-28 2018-10-16 深圳信息职业技术学院 网络流应用类型识别的方法、装置及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
董浩等: "基于卷积神经网络的复杂网络加密流量识别", 《软件导刊》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112839004A (zh) * 2019-11-22 2021-05-25 中国电信股份有限公司 应用识别方法和装置
CN112839004B (zh) * 2019-11-22 2022-09-06 中国电信股份有限公司 应用识别方法和装置
WO2022033115A1 (zh) * 2020-08-12 2022-02-17 华为技术有限公司 一种通信方法和通信装置
US11855846B2 (en) 2020-08-12 2023-12-26 Huawei Technologies Co., Ltd. Communication method and communication apparatus
CN112634046A (zh) * 2020-12-30 2021-04-09 平安证券股份有限公司 资金头寸实时监控方法、装置、电子设备及存储介质
CN112784720A (zh) * 2021-01-13 2021-05-11 浙江诺诺网络科技有限公司 基于银行回单的关键信息提取方法、装置、设备及介质

Also Published As

Publication number Publication date
CN109698798B (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
CN109698798A (zh) 一种应用的识别方法、装置、服务器和存储介质
CN108768654B (zh) 基于声纹识别的身份验证方法、服务器及存储介质
CN111078978B (zh) 一种基于网站文本内容的网贷网站实体识别方法及系统
CN105373478B (zh) 自动化测试方法和系统
CN110598070B (zh) 应用类型识别方法及装置、服务器及存储介质
CN109408821B (zh) 一种语料生成方法、装置、计算设备及存储介质
CN109391706A (zh) 基于深度学习的域名检测方法、装置、设备和存储介质
CN105095415A (zh) 网络情绪的确定方法和装置
CN105893484A (zh) 一种基于文本特征和行为特征的微博Spammer识别方法
CN104700012A (zh) 生物数据辨识设备及其方法、和计算机可读取式媒体
CN111460185A (zh) 书籍搜索方法、装置和系统
CN111753846A (zh) 一种基于rpa和ai的网站验证方法、装置、设备及存储介质
CN104243475A (zh) 基于web反向代理的动态混淆的方法及系统
CN106878347A (zh) 信息处理方法、系统、移动终端和服务器
CN101261643B (zh) 网站页面信息统计方法及装置
CN110516162A (zh) 一种信息推荐方法、装置、设备及存储介质
CN110362826A (zh) 基于人工智能的期刊投稿方法、设备及可读存储介质
CN106484913A (zh) 一种目标图片确定的方法以及服务器
CN109618065A (zh) 一种语音质检评级系统
KR20110018244A (ko) 온라인 시험과 연계한 강의 정보 제공 시스템 및 방법
CN110826330B (zh) 人名识别方法及装置、计算机设备及可读存储介质
CN111126503B (zh) 一种训练样本的生成方法和装置
Bhuvaneswari et al. A comparative study of different log analyzer tools to analyze user behaviors
JP2004355386A (ja) 質問応答システムにおける質問会話中継方法及び装置、質問会話中継プログラム、質問会話中継プログラムを記録した記録媒体
CN105224655B (zh) 网站转化设置的检测方法、处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant