CN113271263A

CN113271263A - 一种数据处理方法及其设备

Info

Publication number: CN113271263A
Application number: CN202010097474.8A
Authority: CN
Inventors: 武维; 郭建伟; 李璠; 李建平
Original assignee: Huawei Technical Service Co Ltd
Current assignee: Huawei Technical Service Co Ltd
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2021-08-17
Anticipated expiration: 2040-02-17
Also published as: CN113271263B; WO2021164340A1

Abstract

本申请实施例公开了一种数据处理方法，本申请实施例方法可以用于网络数据传输中，本申请实施例方法包括：第一网络设备获取待检测数据，第一网络设备根据待检测数据得到w个第一特征区域，第一特征区域包括待检测数据中至少一个字节的数据，w为正整数，第一网络设备获取应用相关度信息，应用相关度信息指示w个第一特征区域和应用类别之间的相关度，第一网络设备根据w个第一特征区域和应用相关度信息确定待检测数据对应的应用类别。本申请实施例可以无需通过明文解析的方式就能确定待检测数据对应的应用类别，提升了用户数据的安全性。

Description

一种数据处理方法及其设备

技术领域

本申请实施例涉及网络通信技术领域，具体涉及一种数据处理方法及其设备。

背景技术

随着服务技术的不断提升，为了满足运营商对管道数据包流量的细分管理，对管道数据包流量进行应用识别变的越来越重要。网络应用识别是运营商服务建模的核心技术，其将属于不同应用类型的数据包流量区分出来，用于进行数据分析，提升客户对网络服务质量的满意度。为了完成管道数据包流量的应用识别，业界普遍采用基于深度数据包检测(deep packet inspection，DPI)的识别技术。

基于DPI的技术对数据流进行深度数据解析，增加了应用层数据分析，在解析的应用层数据中查找服务器的域名信息，来识别网络中流量对应的应用类别。

在解析的过程中，基于DPI的技术是采用明文解析的方式解析管道中的数据包，而明文解析会影响用户数据的安全性。

发明内容

本申请实施例提供了一种数据处理方法，用于在网络中识别应用时，第一网络设备根据获取到的应用相关度信息，不对报文进行明文解析就可以确定管道码流中的报文对应的应用类别，提升了用户数据的安全性。

本申请第一方面提供了一种数据处理方法。

当需要识别网络管道中数据流对应的应用类别时，第一网络设备会获取管道数据中的待检测数据，即该待检测数据包括了管道数据中的字节数据。

该第一网络设备获取到该待检测数据之后，该第一网络设备通过处理该待检测数据，得到一个或者多个第一特征区域，该第一特征区域包括该待检测数据中至少一个字节的数据。

该第一网络设备获取系统中保存的应用相关度信息，该应用相关度信息用于指示该一个或者多个第一特征区域和该应用相关度信息中应用类别之间的相关度。

该第一网络设备获取到应用相关度信息之后，该第一网络设备根据该一个或者多个第一特征区域和该应用相关度信息，确定该一个或者多个第一特征区域对应的应用类别，进而确定该待检测数据对应的应用类别。

本申请实施例中，第一网络设备在进行应用识别时，将从管道码流中获取到的待检测数据进行处理，得到第一特征区域，并且根据获取到的应用相关度信息和该第一特征区域确定该待检测数据的应用类别，不需要通过明文解析就可以确定该待检测数据对应的应用类别，提升了用户数据的安全性。

可选地，在一种可能的实现方式中，第一网络设备根据应用相关度信息和w个第一特征区域确定了第一特征区域对应的应用类别，以及该第一特征区域与对应的应用类别之间的区域相关度，该第一网络设备基于应用类别统计与每个应用类别对应的第一特征区域的区域相关度之和。

第一网络设备基于与第一应用类别对应的第一特征区域的区域相关度之和为最大值，确定待检测数据对应于第一应用类别。

本申请实施例中，第一网络设备根据应用相关度信息确定第一特征区域对应的区域相关度，并根据该区域相关度确定待检测数据对应的应用类别，提升了方案的可实现性。

可选地，在一种可能的实现方式中，应用相关度信息还包括p个第三特征区域的相关度信息，其中，第三特征区域的相关度信息包括第三特征区域、第三特征区域对应的应用类别和第三特征区域与第三特征区域对应的应用类别之间的区域相关度，该p个第三特征区域包括w个第一特征区域中至少1个第一特征区域。

本申请实施例中，通过限定了应用相关度信息还包括第三特征区域的相关度信息，提升了方案的可实现性。

可选的，在第一网络设备基于与第一应用类别对应的第一特征区域的区域相关度之和是最大值，且该最大值大于预设阈值，则确定待检测数据对应于第一应用类别。

本申请实施例中，第一网络上设备确定第一特征区域的相关度之和的值需要高于预设阈值，第一网络设备才确定该第一应用类别为该待检测数据对应的应用类别，因为当该第一特征区域的相关度之和的值还是低于预设阈值时，则表明该待检测数据中没有与应用相关度信息中的应用类别强相关的信息，因此该待检测数据对应的应用类别可能不在该应用相关度信息中，所以需要设定第一特征区域的相关度之和需要高于预设阈值，才能确定该待检测数据对应的应用类别，由此来提升方案确定待检测数据的准确率。

可选地，在一种可能的实现方式中，在获取到的待检测数据中至少包括一个报文的前K个字节，第一网络设备对该包括至少一个报文的前K个字节的待检测数据做滑动窗口处理，以得到w个第一特征区域。

本申请实施例中，第一网络设备通过滑动窗口的方式处理该待检测数据得到第一特征区域，提升了方案的可实现性。

可选地，在一种可能的实现方式中，该第一特征区域包括连续的s个字节的数据，该s为大于1的正整数。

本申请实施例中，通过限定第一特征区域的具体数据形式，提升了方案的可实现性。

可选地，在一种可能的实现方式中，在第一网络设备从管道数据中获取该待检测数据之前，该第一网络设备会生成该应用相关度信息。

该第一网络设备在准备生成应用相关度信息时，第一网络设备会获取第一应用类别对应的字节数据，即该第一应用类别对应的字节数据为第一数据。

第一网络设备将该第一数据输入训练好的第一模型中，第一模型会输出预测的应用类别，该第一模型是第一网络设备训练得到的，也可以是其他设备训练好之后发送给该第一网络设备的，该预测的应用类别信息即是第一应用类别。

第一网络设备得到第一应用类别之后，第一网络设备基于该第一应用类别以及第一模型得到n个第二特征区域，该第二特征区域包括第一数据中q个相邻的字节，n和q为正整数。

第一网络设备得到该n个第二特征区域之后，第一网络设备确定第二特征区域和第一应用类别的区域相关度，并生成应用相关度信息，该应用相关度信息包括了第二特征区域和第二特征区域的区域相关度。

本申请实施例中，第一网络设备通过获取第一应用类别的相关字节数据，并将该数据输入到训练好的第一模型中，得到预测应用类别信息，并根据该预测应用类别信息生成应用相关度信息，提升了方案的可实现性。

可选地，在一种可能的实现方式中，应用相关度信息还包括了第二特征区域相关度信息，该第二特征区域相关度信息包括第二特征区域，第二特征区域对应的第一应用类别，还有第二特征区域与第一应用类别的区域相关度，该n个第二特征区域里至少包含了w个第一特征区域中至少一个第一特征区域，即该待检测数据对应的应用类别为第一应用类别。

可选地，在一种可能的实现方式中，该第一网络设备基于第一应用类别以及第一模型得到h个第一特征值，例如，该第一网络设备可以根据第一模型计算该第一应用类别，得到h个第一特征值，该h个第一特征值用于指示第一应用类别与第一数据中第一特征点的相关度，该第一特征点包括第一数据中至少一个字节数据，该h为正整数。

该第一网络设备在得到该h个第一特征值之后，该第一网络设备根据该h个第一特征值得到n个第二特征区域。

本申请实施例中，第一网络设备通过处理该第一应用类别得到h个第一特征值，并根据该h个第一特征值得到n个第二特征区域，提升了方案的可实现性。

可选地，在一种可能的实现方式中，该第一网络设备根据h个第一特征值获取第一数据中的z个目标特征点，该第一数据中的一个目标特征点对应的特征值为该h个第一特征值中数值从大到小的排序中排列在前z个的特征值中的一个，该z为正整数，且z小于或等于h的整数。

该第一网络设备在获取到z个目标特征点之后，该第一网络设备根据该z个目标特征点得到n个第二特征区域，即每个第二特征区域包含至少一个目标特征点。

本申请实施例中，第一网络设备根据该h个第一特征值获取第一数据中的z个目标特征点，并根据该z个目标特征点得到n个第二特征区域，因为一个目标特征点对应的特征值为h个第一特征值中从大到小排序中排列在前几个的特征值中的一个，因为特征值是指示特征点与应用类别之间的关联度的，特征值越高代表关联度越高，因此根据该目标特征点得到的n个第二特征区域与该应用类别之间的关联度就越高，进而根据该n个特征区域生成的应用相关度信息在后续确定应用类别时的准确率就越高。

可选地，在一种可能的实现方式中，第二特征区域的中点为目标特征点。

本申请实施例中，通过说明第二特征区域的组成方式，提升了方案的可实现性。

可选地，在一种可能的实现方式中，第一网络设备根据n个第二特征区域中每个特征区域在对应的应用类别中出现的次数，和该n个第二特征区域中每个特征区域对应的应用类别在n个第二特征区域中对应的特征区域的数量，得到n个第二特征区域中每个特征区域的区域相关度，该n个第二特征区域中每个特征区域的区域相关度表示该n个第二特征区域中每个特征区域与第一应用类别的关联度，即该区域相关度越高，则表示与第一应用类别的关联度越高。

该第一网络设备根据该n个第二特征区域中每个特征区域的区域相关度生成应用相关度信息。

本申请实施例中，第一网络设备通过n个第二特征区域中每个特征区域对应的区域相关度生成应用相关度信息，提升了方案的可实现性。

可选地，在一种可能的实现方式中，第一网络设备获取第一数据中，以z个目标特征点中每个目标特征点为中点的连续q个特征点得到n个第二特征区域，该m为小于n的正整数。

本申请实施例中，第二网络设备通过以目标特征点为中点的方式得到第二特征区域，提升了方案的可实现性。

可选地，在一种可能的实现方式中，当n个第二特征区域中有两个不同的特征区域第六特征区域和第四特区域，这两个特征区域的相似度很高，即这两个不同的特征区域的特征点重复的比例大于第一预设阈值，且这两个不同的特征区域在第一应用类别中对应的应用类别相同，则第一网络设备删除这两个特征区域中在第一特征区域中出现的次数少的那一个特征区域。

本申请实施例中，当n个第二特征区域中有两个不同的特征区域的相似度很高时，则第一网络设备删除在n个第二特征区域中出现的次数少的那一个特征区域，避免了在计算区域相关度时，一些高度近似的特征区域重复计算区域相关度，提升了计算区域相关度时的准确度。

可选地，在一种可能的实现方式中，在n个第二特征区域中，若某一个特征区域在第一应用类别中对应至少两个应用类别，则第一网络设备删除该特征区域的相关信息，该特征区域即为第五特征区域。

本申请实施例中，第一网络设备删除n个第二特征区域中对应至少两个应用类别的特征区域，因为当有特征区域对应了两个以上的应用类别，则说明该特征区域表示不同类别中相同的特征，因此不能代表具体的某一个应用类别的强相关特征，因此第一网络设备删除了该对应了两个以上的应用类别的特征区域后，可以提升方案确定待检测数据的准确率。

可选地，在一种可能的实现方式中，该应用相关度信息可以以热图的形式显示，该热图中的特征点对应的特征值越大，则该特征点的色彩越鲜艳。

本申请实施例中，通过热图的方式显示应用相关度信息，可以更直观的看出该应用相关度信息的结果。

可选地，在一种可能的实现方式中，在获取到第一数据之后，可以截取该第一数据的前K个字节信息，该K的取值包括784，或者1024。

本申请实施例中，通过设定具体的数值，提升了方案的可实现性。

可选地，在一种可能的实现方式中，在获取到待检测数据之后，可以截取该待检测数据的前K个字节信息，该K的取值包括784，或者1024。

本申请第二方面提供了一种数据处理方法。

第二网络设备获取第一应用类别对应的字节数据，即该第一应用类别对应的字节数据为第一数据。

第二网络设备将该第一数据输入训练好的第一模型中，第一模型会输出预测的应用类别，该第一模型是第二网络设备训练得到的，也可以是其他设备训练好之后发送给该第二网络设备的，该预测的应用类别信息即是第一应用类别。

第二网络设备得到第一应用类别之后，第二网络设备基于该第一应用类别以及第一模型得到n个第二特征区域，该n个第二特征区域中的每个第二特征区域包括第一数据中q个相邻的字节，n和q为正整数。

第二网络设备得到该n个第二特征区域之后，第二网络设备确定第二特征区域和第一应用类别的区域相关度，并生成应用相关度信息，该应用相关度信息包括了第二特征区域和第二特征区域的区域相关度。

本申请实施例中，第二网络设备通过获取第一应用类别的相关字节数据，并将该数据输入到训练好的第一模型中，得到预测应用类别信息，并根据该预测应用类别信息生成应用相关度信息，提升了方案的可实现性。

可选地，在一种可能的实现方式中，该第二网络设备基于第一应用类别以及第一模型得到h个第一特征值，例如，该第二网络设备可以根据第一模型计算该第一应用类别，得到h个第一特征值，该h个第一特征值用于指示第一应用类别与第一数据中第一特征点的相关度，该第一特征点包括第一数据中至少一个字节数据，该h为正整数。

该第二网络设备在得到到该h个第一特征值之后，该第二网络设备根据该h个第一特征值得到n个第二特征区域。

本申请实施例中，第二网络设备通过通过处理该第一应用类别得到h个第一特征值，并根据该h个第一特征值得到n个第二特征区域，提升了方案的可实现性。

可选地，在一种可能的实现方式中，该第二网络设备根据h个第一特征值获取第一数据中的z个目标特征点，该第一数据中的一个目标特征点对应的特征值为该h个第一特征值中数值从大到小的排序中排列在前z个的特征值中的一个，该z为正整数，且z小于或等于h的整数。

该第二网络设备在获取到z个目标特征点之后，该第二网络设备根据该z个目标特征点得到n个第二特征区域，即每个第二特征区域包含至少一个目标特征点。

本申请实施例中，第二网络设备根据该h个第一特征值获取第一数据中的z个目标特征点，并根据该z个目标特征点得到n个第二特征区域，因为一个目标特征点对应的特征值为h个第一特征值中从大到小排序中排列在前几个的特征值中的一个，因为特征值是指示特征点与应用类别之间的关联度的，特征值越高代表关联度越高，因此根据该目标特征点得到的n个第二特征区域与该应用类别之间的关联度就越高，进而根据该n个特征区域生成的应用相关度信息在后续确定应用类别时的准确率就越高。

本申请实施例中，通过限定第二特征区域的组成方式，提升了方案的可实现性。

可选地，在一种可能的实现方式中，第二网络设备根据n个第二特征区域中每个特征区域在对应的应用类别中出现的次数，和该n个第二特征区域中每个特征区域对应的应用类别在n个第二特征区域中对应的特征区域的数量，得到n个第二特征区域中每个特征区域的区域相关度，该n个第二特征区域中每个特征区域的区域相关度表示该n个第二特征区域中每个特征区域与第一应用类别的关联度，即该区域相关度越高，则表示与第一应用类别的关联度越高。

该第二网络设备根据该n个第二特征区域中每个特征区域的区域相关度生成应用相关度信息。

本申请实施例中，第二网络设备通过n个第二特征区域中每个特征区域对应的区域相关度生成应用相关度信息，提升了方案的可实现性。

可选地，在一种可能的实现方式中，第二网络设备获取第一数据中，以z个目标特征点中每个目标特征点为中点的连续q个特征点得到n个第二特征区域，该m为小于n的正整数。

本申请实施例中，当n个第二特征区域中有两个不同的特征区域的相似度很高时，则第二网络设备删除在n个第二特征区域中出现的次数少的那一个特征区域，避免了在计算区域相关度时，一些高度近似的特征区域重复计算区域相关度，提升了计算区域相关度时的准确度。

可选地，在一种可能的实现方式中，在n个第二特征区域中，若某一个特征区域在第一应用类别中对应至少两个应用类别，则第二网络设备删除该特征区域的相关信息，该特征区域即为第五特征区域。

本申请实施例中，第二网络设备删除n个第二特征区域中对应至少两个应用类别的特征区域，因为当有特征区域对应了两个以上的应用类别，则说明该特征区域表示不同类别中相同的特征，因此不能代表具体的某一个应用类别的强相关特征，因此第二网络设备删除了该对应了两个以上的应用类别的特征区域后，可以提升方案确定待检测数据的准确率。

可选地，在一种可能的实现方式中，第二网络设备在获得了应用相关度信息之后，第二网络设备向第一网络设备发送该应用相关度信息。

本申请实施例中，在第二网络设备获得了应用相关度信息之后，且向第一网络设备发送该应用相关度信息，提升了方案的可实现性。

本申请第三方面提供了一种网络设备。

获取单元，用于获取待检测数据；

处理单元，用于根据待检测数据得到w个第一特征区域，第一特征区域包括待检测数据中至少一个字节的数据，w为正整数；

确定单元，用于根据w个第一特征区域和应用相关度信息确定待检测数据对应的应用类别,应用相关度信息指示第一特征区域和应用类别之间的相关度。

确定单元具体用于根据w个第一特征区域和应用相关度信息确定第一特征区域对应的应用类别，以及第一特征区域与对应的应用类别之间的区域相关度；

统计单元，用于基于应用类别统计与每个应用类别对应的第一特征区域的区域相关度之和；

确定单元还用于基于与第一应用类别对应的第一特征区域的区域相关度之和是最大值，确定待检测数据对应于第一应用类别。

可选的，应用相关度信息包括p个第三特征区域的相关度信息，其中第三特征区域的相关度信息包括第三特征区域，第三特征区域对应的应用类别，以及第三特征区域与对应的应用类别之间的区域相关度；p个第三特征区域包括w个第一特征区域中至少1个特征区域。

可选的，待检测数据包括至少一个报文的前K个字节；

处理单元具体用于对至少一个报文的前K个字节做滑动窗口处理，以得到w个第一特征区域。

可选的，第一特征区域包括连续的s个字节，s为大于1的整数。

可选的，获取单元还用于获取第一数据，第一数据包括第一应用类别对应的字节数据；

网络设备还包括：

输入单元，用于将第一数据输入第一模型，其中，第一模型的输出为第一应用类别；

处理单元还用于基于第一应用类别以及第一模型得到n个第二特征区域，第二特征区域包括第一数据中q个相邻字节，n为正整数，q为正整数；

确定单元还用于确定第二特征区域与第一应用类别的区域相关度；

网络设备还包括：

生成单元，用于基于第二特征区域与第一应用类别的区域相关度生成应用相关度信息。

可选的，应用相关度信息包括第二特征区域相关度信息，第二特征区域相关度信息包括第二特征区域，第二特征区域对应的第一应用类别，第二特征区域与第一应用类别的区域相关度；

n个第二特征区域包括w个第一特征区域中至少一个第一特征区域，待检测数据对应的应用类别为第一应用类别。

本申请第四方面提供了一种网络设备。

获取单元，用于获取第一数据，第一数据包括第一应用类别对应的字节数据；

处理单元，用于基于第一应用类别以及第一模型得到n个第二特征区域，第二特征区域包括第一数据中q个相邻字节，n为正整数，q为正整数；

确定单元，用于确定第二特征区域与第一应用类别的区域相关度；

可选的，应用相关度信息包括第二特征区域相关度信息，第二特征区域相关度信息包括第二特征区域，第二特征区域对应的第一应用类别，第二特征区域与第一应用类别的区域相关度。

可选的，处理单元具体用于基于第一应用类别以及第一模型得到h个第一特征值，第一特征值指示第一应用类别与第一数据中第一特征点的相关度，第一特征点包括第一数据中一个字节的数据，h为正整数；

处理单元具体用于根据h个第一特征值得到n个第二特征区域。

可选的，获取单元还用于根据h个第一特征值获取z个目标特征点，目标特征点的特征值为h个第一特征值中按数值从大到小的顺序排列的前z个特征值中的一个，z为正整数，z小于或等于h的整数；

处理单元具体用于根据z个目标特征点得到n个第二特征区域，每个第二特征区域包含至少一个目标特征点。

可选的，第二特征区域的中点为目标特征点。

可选的，n个第二特征区域包括第六特征区域和第四特征区域，若第六特征区域中的特征点和第四特征区域中的特征点重复的比例大于第一预设阈值，且第六特征区域在第一应用类别中对应的应用类别的特征区域中出现的次数大于第四特征区域在第一应用类别中对应的应用类别的特征区域中出现的次数，则网络设备还包括：

处理单元，用于删除第四特征区域的信息。

可选的，n个第二特征区域包括第五特征区域，若第五特征区域在应用相关度信息中对应至少两个应用类别，则处理单元还用于删除第五特征区域的信息。

本申请第五方面提供了一种网络设备。

至少一个处理器和存储器，存储器存储了程序代码，处理器调用程序代码以执行如本申请第一方面实施方式所述的方法。

本申请第六方面提供了一种网络设备。

至少一个处理器和存储器，存储器存储了程序代码，处理器调用程序代码以执行如本申请第二方面实施方式所述的方法。

本申请第七方面提供了一种应用识别系统，包括第一网络设备和第二网络设备。

第一网络设备用于执行如本申请第一方面实施方式所述的方法。

第二网络设备用于执行如本申请第二方面实施方式所述的方法。

第二网络设备用于向第一网络设备发送应用相关度信息。

本申请第八方面提供了一种计算机存储介质，所述计算机存储介质中存储有指令，所述指令在所述计算机上执行时，使得计算机执行如本申请第一方面，和/或，第二方面实施方式所述的方法。

本申请第九方面提供了一种计算机程序产品，所述计算机程序产品在计算机上执行时，使得所述计算机执行如本申请第一方面，和/或，第二方面实施方式所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

第一网络设备获取待检测数据，并处理该待检测数据得到第一特征区域，根据获取到的应用相关度信息和该第一特征区域确定待检测数据的应用类别，而不需要将数据明文解析，提升了用户数据的安全性。

附图说明

图1为本申请实施例中一个网络架构示意图；

图2为本申请实施例中一个数据处理方法流程示意图；

图3为本申请实施例中另一数据处理方法流程示意图；

图4为本申请实施例中一个网络设备结构示意图；

图5为本申请实施例中另一网络设备结构示意图；

图6为本申请实施例中另一网络设备结构示意图；

图7为本申请实施例中另一网络设备结构示意图；

图8为本申请实施例中另一网络设备结构示意图。

具体实施方式

本申请实施例提供了一种数据处理方法及其装置，用于对管道数据的应用识别中，通过获取管道码流中的待检测数据，并处理该待检测数据得到第一特征区域，根据应用相关度信息和第一特征区域确定待检测数据的应用类别，而不需要将数据明文解析，提升了用户数据的安全性。

请参阅图1，为本申请提供的网络架构示意图。

本申请实施例提供了一种示例性的网络架构。

该网络架构至少包括第一网络设备101。

第一网络设备101可以与网络管道连接，该网络管道用于传输数据，该网络管道可以是局域网中的网络管道，也可以是广域网中的网络管道，还可以是其他场景下的网络管道，具体此处不做限定。

例如，第一网络设备101可以安装在路由器与核心网之间，通过有线或者无线的方式连接，也可以安装在核心网与防火墙之间，还可以安装在局域网中，只要第一网络设备101连接到网络管道中即可，例如网络流量的汇聚节点处、网络流量的流经节点处等，具体此处不做限定。

第一网络设备101用于生成应用相关度信息，进而在线实时获取待检测数据，并通过应用相关度信息确定该待检测数据的应用类别。

具体地，第一网络设备101用于根据应用相关度信息识别数据传输管道中的报文所对应的应用类别，将属于不同应用类型的数据包流量区分出来，用于进行数据分析。第一网络设备101可以是单独功能的服务器，例如单独的应用识别服务器，也可以集成于现有的服务器当中，例如集成于网络管理服务器中，或者集成于网络监控服务器中，或者集成于流量管理服务器中等，具体的服务器形式此处不做限定。

例如，基站接收终端发送的数据，并经由网络管道向路由传输数据，路由中转分配数据后，将数据向核心网传输，核心网再向数据目的地传输需要传输的数据，途经防火墙，最终到达接收数据方。在此过程中，第一网络设备101连接到网络管道中，例如网络流量的汇聚节点处、网络流量的流经节点处等，第一网络设备101在通信网络中数据流经的地方，镜像出一部分数据来进行应用识别分析。

需要说明的是，在本申请实施例中，在该数据传输场景中，可以是一台第一网络设备101单独存在，也可以是多台第一网络设备101同时存在，具体此处不做限定。

可选的，该网络架构还可以包括终端设备103，当第一网络设备确定了待检测数据的应用类别时，第一网络设备101可以向终端设备103发送该应用类别的数据，以使得终端设备103可以接收该应用类别的数据，进而处理该应用类别的数据，例如显示该应用类别的数据，具体处理方式此处不做限定。

可以理解的是，该终端设备103可以是一种计算机设备，还可以是其他设备，例如网络管理设备，具体此处不做限定。

可选的，该网络架构还可以包括第二网络设备102，该第二网络设备102可以是离线单独的工作，也可以和第一网络设备连接。该第二网络设备102可以用于离线侧，即获取用于训练模型的第一数据，进而通过该第一数据训练得到第一模型，并根据训练好的第一模型和所述第一数据得到应用相关度信息。该第二网络设备102还用于将应用相关度信息发送给第一网络设备，具体此处不做限定。

可选的，第一网络设备101也可以用于离线侧，得到应用相关度信息，则该网络架构不包括第二网络设备102。

为了便于理解，本申请实施例对以下名词做基础解释：

网络管道：用于承载网络数据包的设备统称。

应用识别：识别管道中的流量属于什么应用类别，例如管道流量属于APP1、APP2等。

码流：网络中的数据包流。

热图：通过色彩变化来表示数据重要性的可视化方式。例如，在热图中，越亮位置的数据，对应用识别的结果的影响越大。

激活区域：热图中数据影响比较大的位置区域，表示热图中比较亮的位置区域。

拔测：类似于网络数据爬虫，从网络上截取数据包信息。

下面结合图1的数据传输框架，对本申请实施例中的数据处理方法进行描述：

为了方便描述，本申请实施例中以第一网络设备和第二网络设备代替网络设备为例进行说明。

本申请实施例中，第一网络设备可以通过第一模型训练得到应用相关度信息，进而通过该应用相关度信息确定管道数据中的报文对应的应用类别，也可以接收其他网络设备发送的应用相关度信息，进而通过其他网络设备发送的应用相关度信息确定管道数据中的报文对应的应用类别，因此本申请实施例的具体实施方式有几种，下面分别进行描述。

一、第一网络设备生成应用相关度信息。

请参阅图2，为本申请提供的数据处理方法的一个实施例的流程示意图。

需要说明的是，本实施例可以分为在线侧和离线侧，在线侧即为在线实时识别在线数据流对应的应用类别，离线侧即为通过搭建训练模型进行训练，以获得应用相关度信息的过程，该应用相关度信息可以用于在线侧识别在线数据流对应的应用类别。首先对离线侧进行描述。

在步骤201中，第二网络设备获取第一数据。

第二网络设备获取第一应用类别对应的数据流，该数据流包括第一应用类别对应的字节数据，可选的，第二网络设备可以通过拔测的方式获取管道数据中的数据流，也可以通过其他设备收集到多份数据流后，再统一发送给该第二网络设备，具体此处不做限定。

当第二网络设备获取一个应用类别对应的数据流时，第二网络设备获取的数据流可以如下所示：

数据流1：82 0a 2a 2e 67 76 74 32……＝＝＝＝＝>app1

应理解，第二网络设备还可以获取多个应用类别对应的数据流，如下所示：

数据流2 53 88 01bb b8 bc 6a 14……＝＝＝＝＝>app2

数据流3 29 6f e5 6d d3 9c 80 10……＝＝＝＝＝>app1

需要说明的是，在本申请实施例未说明的情况下，以第二网络设备获取和处理第一应用类别的数据为例进行说明。应理解，对于获取和处理多个应用类别的数据也是类似的，本申请不构成限定。

数据流在管道中传输时，以二进制数据的方式在传输，当获取到该数据流时，该数据流的显示方式可以是二进制，也可以是转换后的十六进制，具体此处不做限定，本申请以显示方式为十六进制为例进行说明。该第二网络设备截取该数据流的前K个字节数据，该截取的前K个字节数据包括地址信息对应的数据，域名信息对应的数据等等基础信息相关的数据。例如，K＝784，则当第二网络设备从管道数据中获取到数据流时，截取该数据流的前784个字节。另外，本申请以字节为单位进行描述，本申请也可以以比特等为单位，具体此处不做限定。

需要说明的是，在实际应用过程中，第二网络设备也可以不截取该数据流的前K个字节数据，而以该数据流来做后续处理，具体此处不做限定。

需要说明的是，当第二网络设备截取该数据流的前K个字节数据时，该第一数据即包括该数据流的前K个字节数据，当第二网络设备不对该数据流进行截取时，则该第一数据即为该数据流。

需要说明的是，当存在多个数据流的字节数据时，则该第一数据包括该多个数据流的字节数据。

在步骤202中，第二网络设备训练第一模型。

第二网络设备搭建一个多层的卷积神经网络，可以理解的是，该多层的卷积神经网络可以是三层，也可以是五层，可以是VGG类型的神经网络，还可以是ResNet类型的神经网络，具体此处不做限定。

例如，当搭建的卷积神经网络为五层时，该五层的卷积神经网络其结构依次是输入层、第一隐藏层、第二隐藏层、第三隐藏层和输出层。输入层的节点数等于K，和第二网络设备截取报文中前K个字节信息中的K相同。

神经网络中输出层的节点数为应用类别数。当该模型用于训练一个应用类别的数据时，则输出层的节点数为一个节点，当该模型用于训练多个应用类别的数据时，则输出层的节点数为对应的多个节点。

输入层数据采用卷积操作，并通过线性整流函数(rectified linear unit,ReLU)，生成第一个隐藏层，对第一个隐藏层采用卷积操作，并通过ReLU激活函数，生成第二个隐藏层，对第二个隐藏层，采用全局平均池化(global average pooling，GAP)操作，生成第三个隐藏层，对第三个隐藏层采用全连接操作，并通过归一化指数函数softmax激活函数，生成输出层数据。

将获取到的第一数据输入到搭建完成的神经网络中，即将第一数据输入到第一模型中。可选的，在将第一数据输入到第一模型之前，还可以将第一数据进行归一化处理，以得到用于第一模型训练的归一化数据，例如，可以通过以下方法实现归一化：

归一化数据＝第一数据/255

第一数据输入到第一模型后，经过该第一模型的前向运算，得到对应的预测类别，计算该预测类别与第一应用类别的交叉熵损失值，执行梯度下降法，更新模型参数，当达到最大的训练迭代次数或者当输出预测类别的准确度达到预设阈值时，则完成该第一模型的训练。应理解，当第一模型训练完成时，将第一应用类别对应的数据输入第一模型，则所述第一模型的输出为第一应用类别。

在步骤203中，第二网络设备基于第一应用类别以及第一模型得到h个第一特征值。

第二网络设备基于第一应用类别以及第一模型得到h个第一特征值，该第一特征值表示第一数据中第一特征点与第一应用类别之间的相关度，该第一特征点指的是一个字节的数据，且第一特征点对应的特征值越大表示与第一应用类别的相关度越高。

应理解，第一特征点也可以指多个字节的数据，例如2个字节等，本申请不构成限定。该第二网络设备可以通过多种方式得到该h个第一特征值，例如，该第二网络设备基于第一应用类别和第一模型的架构中最后一个隐藏层的数据得到连接权重值，将得到的连接权重值和对应的倒数第二个隐藏层数值进行相乘，得到加权后的特征信息，对加权后的特征信息进行加法操作，并通过上采样操作到第一数据，得到该h个第一特征值。

可以理解的是，在不同的模型架构下，还可以有不同的方式得到该h个第一特征值，本实施例为示意性的举例，并不对获取该h个第一特征值的方式做具体的限定。

在步骤204中，第二网络设备根据h个第一特征值获取z个目标特征点。

在获得了h个第一特征值之后，第二网络设备获取h个第一特征值中数值大小排序在前z个的特征值，z为小于或等于h的正整数，从而获取该z个特征值对应的z个特征点。以该z个特征点为z个目标特征点。

例如，该h(h＝10)个第一特征值分别为0.1，0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,0.95，那么获取该第一特征值中数据大小排序在前z(z＝5)个的特征值，则获取0.6,0.7,0.8,0.9,0.95，该0.6,0.7,0.8,0.9,0.95在第一数据中对应的特征点分别为5E，1C,B2,E0,A6,即该z(z＝5)个目标特征点为5E，1C,B2,E0,A6。

在实际应用过程中，不同的特征点特征值可能相同，例如：

h(h＝10)个第一特征值分别为,0.2,0.3,0.4,0.5,0.6,0.7,0.8，0.9,0.9,0.95，那么获取该第一特征值中数据大小排序在前z(z＝5)个的特征值，则获取0.7,0.8,0.9,0.9，95，该0.7,0.8，0.9,0.9,0.95在第一数据中对应的特征点分别为6E，3C,B5,E2,A7,即该z(z＝5)目标特征点为6E，3C,B5,E2,A7。

在步骤205中，第二网络设备根据z个目标特征点得到n个第二特征区域。

在第二网络设备获取到z个目标特征点之后，第二网络设备在第一数据中截取包括至少一个目标特征点的连续的一个或多个特征点以得到第二特征区域，以此类推，将会得到n个第二特征区域，n为大于或者等于z的正整数，下文以第二特征区域包括q个连续的特征点为例进行说明，q为大于等于1的整数。应理解，对于不同的第二特征区域，q的值可以不同。

可选的，第二特征区域的中心点为目标特征点。

例如，以第一数据中z个目标特征点中每个目标特征点为中心点，左右各截取a个特征点，a的取值范围为a∈[B1,B2],则总共构建a*(B2-B1+1)个第二特征区域。而第二特征区域包含(2a+1)个特征点的特征区域。应理解，n＝a*(B2-B1+1)，q＝2a+1。

需要说明的是，步骤203至步骤205为对一条数据流执行的步骤，当存在多条数据流时，则重复执行步骤203至步骤205。对于多个应用类别的数据流，则对多个应用类别对应的数据流分别进行步骤203至步骤205的处理。

在步骤206中，第二网络设备确定第二特征区域与第一应用类别的区域相关度。

第二网络设备在处理了多条数据流之后，进一步确定第二特征区域与第二特征区域对应的应用类别之间的区域相关度。

对于多条数据流都对应第一应用类别的情况：第二网络设备统计n个第二特征区域中，相同第二特征区域的数量，进一步得到该第二特征区域在第一应用类别对应的n个第二特征区域中出现的概率，从而得到了该第二特征区域与第一应用类别的区域相关度。如表1a所示：

表1a

以表1a中第二特征区域“82,0a，2a，2e，67,76,74,32”为例来进行说明，该第二特征区域的数量(又可以叫做出现的次数)为80，该第二特征区域对应于第一应用类别app1，该第一应用类别的第二特征区域总数为100，则该第二特征区域和与其对应的第一应用类别之间的区域相关度为80/100，即0.8。

对于多条数据流对应多个应用类别的情况：第二网络设备分别统计多个应用类别中每个应用类别对应的第二特征区域中，相同第二特征区域的数量，进一步得到该第二特征区域在与其对应的应用类别的第二特征区域总量中出现的概率，从而得到了该第二特征区域和与其对应的应用类别之间的区域相关度。如表1b所示：

表1b

以表1b中第二特征区域“53,99,55，b9，b4，b8，3a，25”为例来进行说明，该第二特征区域的数量为30，该第二特征区域对应于第二应用类别app2，该第二应用类别app2的第二特征区域总数为300，则该第二特征区域和与其对应的第二应用类别app2之间的区域相关度为30/300，即0.1。应理解，该情况下，第二网络设备可以对各应用类别的第二特征区域分别做统计和计算。

需要说明的是，在实际应用过程中，还可能存在某个特征区域的类别偏好权重，即在计算区域相关度时设置类别偏好权重值，则该计算区域相关度的方式还可以是(某个特征区域在其对应的应用类别中所有的特征区域中出现的次数*类别偏好权重值)/该应用类别中所有的特征区域数量，具体此处不做限定。

可选地，在第二网络设备统计n个第二特征区域中每个特征区域在第一数据中出现的数量以及所属的应用类别时，若n个第二特征区域包括第六特征区域和第四特征区域，若第六特征区域中的特征点和第四特征区域中的特征点重复的比例大于第一预设阈值，且第六特征区域在第一应用类别中对应的应用类别的特征区域中出现的次数大于第四特征区域在第一应用类别中对应的应用类别的特征区域中出现的次数，则第二网络设备删除第四特征区域的信息。需要说明的是，若两个特征区域出现的次数相等，则任意删除其中一个特征区域，具体此处不做限定。

当存在两个相似度极高的特征区域时，则确定该两个特征区域在第一数据中的位置比较接近，因此删除两个相似度极高的特征区域中出现次数少的特征区域，有利于在计算区域相关度时提高准确率。

可选地，在第二网络设备统计n个第二特征区域中每个特征区域在第一数据中出现的数量以及所属的应用类别时，若n个第二特征区域还包括第五特征区域，且该第五特征区域对应两个以及两个以上的应用类别，则删除该第五特征区域。

当一个特征区域对应两个以上的应用类别时，则说明该特征区域对应的特征点不是某个应用类别的基础特征，所以删除该特征区域，可以提高在线时确定数据流的效率。

在步骤207中，第二网络设备基于第二特征区域与第一应用类别的区域相关度生成应用相关度信息。

应理解，若步骤206中，第二网络设备删除第五特征区域和/或第四特征区域，则应用相关度信息不包含该特征区域的信息。

在第二网络设备得到n个第二特征区域中特征区域的区域相关度后，第二网络设备根据该n个第二特征区域中特征区域的区域相关度生成应用相关度信息。

对于多条数据流都对应第一应用类别的情况：应用相关度信息包括第二特征区域的区域相关度信息，第二特征区域的区域相关度信息包括第二特征区域，第二特征区域对应的第一应用类别，以及第二特征区域与第一应用类别的区域相关度。例如，该应用相关度信息可以如表2a所示，

特征区域	所属应用类别和区域相关度
		08 0a 2a 2e 67 53 24	<app1,0.8>
53 88 01 bb b8 bc 6a 1e	<app1,0.1>
		…….	……

表2a

对于多条数据流都对应第一应用类别的情况：第二网络设备分别根据不同应用类别的n个第二特征区域中每个特征区域的区域相关度生成应用相关度信息。应用相关度信息包括第二特征区域的区域相关度信息，第二特征区域的区域相关度信息包括第二特征区域，第二特征区域对应的应用类别，以及第二特征区域和与第二特征区域对应的应用类别之间的区域相关度。例如，该应用相关度信息可以如表2b所示，

特征区域	所属应用类别和区域相关度
		08 0a 2a 2e 67 53 24	<app1,0.8>
53 88 01 bb b8 bc 6a 1e	<app2,0.2>
		…….	……

表2b

可以理解的是，该应用相关度信息还可以以其他形式存在，只要该应用相关度信息可以表示出特征区域与应用类别和该特征区域在该应用类别下的区域相关度的关联关系，例如可以通过热图的方式表现该应用相关度信息，可以理解的是，还可以通过其他方式表现该应用相关度信息，例如通过一维向量或者表格的方式，具体此处不做限定。

步骤201至步骤207描述的是本实施例中离线侧的方法，以下步骤描述的是本实施例中在线侧的方法。

请参阅图3，为本申请在线侧的流程示意图。

在步骤301中，第一网络设备获取待检测数据。

当应用相关度信息由第二网络设备生成时，则第一网络设备接收第二网络设备发送的应用相关度信息。当第一网络设备需要对管道数据中的数据包进行应用类别的识别分类时，第一网络设备获取该管道数据中的待检测数据。

需要说明的是，第一网络设备可以通过自己拨测的方式获取该待检测数据，还可以通过接收其他网关设备发送的待检测数据，具体此处不做限定。

在实际应用过程中，第一网络设备获取到的待检测数据可以是一个二进制的数据包，也可以是一个十六进制的数据包，具体此处不做限定。

在步骤302中，第一网络设备根据待检测数据得到w个第一特征区域。

第一网络设备获取到待检测数据之后，截取该报文的前K个字节信息，即截取与离线侧训练模型时相同的字节信息，进而通过滑动窗口的方式，根据该K个字节信息生成w个第一特征区域，w为大于等于1的正整数。

例如，对于待检测数据：53 88 01 bb b8 bc 6a 1e 08 0a 2a 2e 67 53 24……，当滑动窗口的大小范围为[6,10]时，则滑动窗口的取值可以取6,7,8,9,10。当滑动窗口大小＝6时，滑动步长为1，会生成如下的特征区域：

53 88 01 bb b8 bc，

88 01 bb b8 bc 6a，

01 bb b8 bc 6a 1e，

bb b8 bc 6a 1e 08，

……

当滑动窗口大小＝7时，滑动步长为1，则生成如下的特征区域：

53 88 01 bb b8 bc 6a，

88 01 bb b8 bc 6a 1e，

01 bb b8 bc 6a 1e 08，

bb b8 bc 6a 1e 08 0a，

……

以此类推，会获得若干个特征区域，该若干个特征区域即为第一特征区域。

可以理解的是，还可以通过其他方式获得该w个第一特征区域，例如通过AC(Aho–Corasick，AC)自动机算法或者前缀树算法获得该w个第一特征区域，具体此处不做限定。

当通过AC自动机算法或者前缀数算法获得该w个第一特征区域时，需要根据应用相关度信息构建该AC自动机算法，再通过AC自动机算法获得该w个第一特征区域，即根据应用相关度信息中的已经存在的特征区域，自动获得与之匹配的w个第一特征区域。

可以理解的是，还可以通过其他方式获得该特征区域，只需要得到大小不同的字节的集合即可，具体此处不做限定。

需要说明的是，当不截取数据流的前K个字节信息时，可以通过处理该数据流的字节信息，得到第一特征区域。

在步骤303中，第一网络设备根据应用相关度信息和第一特征区域确定第一特征区域与对应的应用类别之间的区域相关度。

由图2所示实施例可知，应用相关度信息包括p个第三特征区域的区域相关度信息时，其中第三特征区域的相关度信息包括第三特征区域、第三特征区域对应的应用类别，以及第三特征区域与对应的应用类别之间的区域相关度，且当该p个第三特征区域包括w个第一特征区域中至少1个特征区域时，则第一网络设备在应用相关度信息中查找该w个第一特征区域中每个特征区域对应的区域相关度信息，例如对应的应用类别，以及与该应用类别的区域相关度，当第一特征区域中某一特征区域没有找到对应的应用类别，则该特征区域对应的区域相关度的值为0。

所述第一网络设备根据所述w个第一特征区域和所述应用相关度信息确定所述第一特征区域对应的应用类别，以及所述第一特征区域与对应的应用类别之间的区域相关度；

所述第一网络设备基于应用类别统计与每个应用类别对应的第一特征区域的区域相关度之和；

所述第一网络设备基于与第一应用类别对应的第一特征区域的区域相关度之和是最大值，确定所述待检测数据对应于所述第一应用类别。

第一网络设备根据w个第一特征区域和应用相关度信息确定第一特征区域对应的应用类别，以及所述第一特征区域与对应的应用类别之间的区域相关度；并且基于应用类别统计与每个应用类别对应的第一特征区域的区域相关度之和，从而得到各个应用类别分别对应的总区域相关度，例如下表3a所示，

表3a

以表3a中所属应用类别“app1”为例进行说明，该app1对应的特征区域为“65，6a，77，8e，67，6b，45，33”，和“33，11，96，5e，6b，3e，45，33”，且这两个特征区域对应的区域相关度分别为0.4和0.15，则统计该“app1”对应的区域相关度之和为0.55,应理解，该情况下，第二网络设备可以对各应用类别分别对应的区域相关度分别做统计和计算，得到各个应用类别分别对应的总区域相关度。

例如，该第一特征区域对应不同应用类别的总区域相关度如下表3b所示，

应用类别	对应的总区域相关度
		app1	0.85
app2	0.6
		…….	……

表3b

在步骤304中，第一网络设备基于与第一应用类别对应的第一特征区域的区域相关度之和是最大值，确定待检测数据对应于第一应用类别。

第一网络设备统计得到第一特征区域对应不同应用类别的总区域相关度之后，第一网络设备根据第一特征区域的区域相关度之和是最大值，确定第一特征区域对应的待检测数据对应于第一应用类别。

可选地，该第一网络设备在确定了第一特征区域的区域相关度之和是最大值之后，还可以判断该第一特征区域的区域相关度之和是否高于预设阈值，若该第一特征区域的区域相关度之和高于该预设阈值，则第一网络设备确定该第一特征区域对应的应用类别为该待检测数据对应的应用类别。若该第一特征区域的区域相关度之和低于该预设阈值，则第一网络设备确定该待检测数据对应的应用类别不是该应用相关度信息中的应用类别。

在确定了该待检测数据对应的应用类别之后，第一网络设备可以在该第一网络设备的显示区域显示该待检测数据对应的应用类别的结果，也可以将该结果发送给其他设备，如运维人员的终端设备。

需要说明的是，当第一网络设备确定该待检测数据对应的应用类别不是该应用相关度信息中的应用类别，则可以通过步骤201至步骤207，生成该应用类别对应的应用相关度信息。进而，可以将该应用类别对应的应用相关度信息与原有应用相关度信息整合到一起，形成更新的应用相关度信息。

在本实施例中，步骤201至步骤207，也可以由第一网络设备执行，当由第一网络设备执行时，则步骤301中，第一网络设备需要使用应用相关度信息时，直接获取应用相关度信息即可。

本实施例中，通过截取数据流的前K个字节信息，例如截取数据流的前1024个字节信息，在数据流的前1024个字节信息中包含有IP信息，DNS信息，端口信息等等二进制数据密文信息，因为这些信息可以反应出应用类别的某些特征，因此通过这些信息的二进制数据生成应用相关度信息，进而根据该应用相关度信息识别管道数据中的报文数据对应的应用类别，提升了第一网络设备识别应用类别的准确性。

上面对本申请实施例中的数据处理方法进行了描述，下面对本申请实施例中的网络设备进行描述，请参阅图4，为本申请提供的网络设备的一个实施例的结构示意图。

获取单元401，用于获取待检测数据；

处理单元402，用于根据待检测数据得到w个第一特征区域，第一特征区域包括待检测数据中至少一个字节的数据，w为正整数；

确定单元403，用于根据w个第一特征区域和应用相关度信息确定待检测数据对应的应用类别,应用相关度信息指示第一特征区域和应用类别之间的相关度。

本实施例中，网络设备各单元所执行的操作与前述图2所示实施例描述的类似，此处不再赘述。

请参阅图5，为本申请提供的网络设备的另一实施例的结构示意图。

获取单元501，用于获取待检测数据；

处理单元503，用于根据待检测数据得到w个第一特征区域，第一特征区域包括待检测数据中至少一个字节的数据，w为正整数；

确定单元505，用于根据w个第一特征区域和应用相关度信息确定待检测数据对应的应用类别,应用相关度信息指示第一特征区域和应用类别之间的相关度。

确定单元505具体用于根据w个第一特征区域和应用相关度信息确定第一特征区域对应的应用类别，以及第一特征区域与对应的应用类别之间的区域相关度；

统计单元504，用于基于应用类别统计与每个应用类别对应的第一特征区域的区域相关度之和；

确定单元505还用于基于与第一应用类别对应的第一特征区域的区域相关度之和是最大值，确定待检测数据对应于第一应用类别。

可选的，待检测数据包括至少一个报文的前K个字节；

处理单元503具体用于对至少一个报文的前K个字节做滑动窗口处理，以得到w个第一特征区域。

可选的，获取单元501还用于获取第一数据，第一数据包括第一应用类别对应的字节数据；

网络设备还包括：

输入单元502，用于将第一数据输入第一模型，其中，第一模型的输出为第一应用类别；

处理单元503还用于基于第一应用类别以及第一模型得到n个第二特征区域，第二特征区域包括第一数据中q个相邻字节，n为正整数，q为正整数；

确定单元505还用于确定第二特征区域与第一应用类别的区域相关度；

网络设备还包括：

生成单元506，用于基于第二特征区域与第一应用类别的区域相关度生成应用相关度信息。

本实施例中，网络设备各单元所执行的操作与前述图2和图3所示实施例描述的类似，此处不再赘述。

请参阅图6，为本申请提供的网络设备的另一实施例的结构示意图。

获取单元601，用于获取第一数据，第一数据包括第一应用类别对应的字节数据；

输入单元602，用于将第一数据输入第一模型，其中，第一模型的输出为第一应用类别；

处理单元603，用于基于第一应用类别以及第一模型得到n个第二特征区域，第二特征区域包括第一数据中q个相邻字节，n为正整数，q为正整数；

确定单元604，用于确定第二特征区域与第一应用类别的区域相关度；

生成单元605，用于基于第二特征区域与第一应用类别的区域相关度生成应用相关度信息。

本实施例中，网络设备各单元所执行的操作与前述图3所示实施例描述的类似，此处不再赘述。

请参阅图7，为本申请提供的网络设备的另一实施例的结构示意图。

获取单元701，用于获取第一数据，第一数据包括第一应用类别对应的字节数据；

输入单元702，用于将第一数据输入第一模型，其中，第一模型的输出为第一应用类别；

处理单元703，用于基于第一应用类别以及第一模型得到n个第二特征区域，第二特征区域包括第一数据中q个相邻字节，n为正整数，q为正整数；

确定单元704，用于确定第二特征区域与第一应用类别的区域相关度；

生成单元705，用于基于第二特征区域与第一应用类别的区域相关度生成应用相关度信息。

可选的，处理单元703具体用于基于第一应用类别以及第一模型得到h个第一特征值，第一特征值指示第一应用类别与第一数据中第一特征点的相关度，第一特征点包括第一数据中一个字节的数据，h为正整数；

处理单元703具体用于根据h个第一特征值得到n个第二特征区域。

可选的，获取单元701还用于根据h个第一特征值获取z个目标特征点，目标特征点的特征值为h个第一特征值中按数值从大到小的顺序排列的前z个特征值中的一个，z为正整数，z小于或等于h的整数；

处理单元703具体用于根据z个目标特征点得到n个第二特征区域，每个第二特征区域包含至少一个目标特征点。

可选的，第二特征区域的中点为目标特征点。

处理单元703，用于删除第四特征区域的信息。

可选的，n个第二特征区域包括第五特征区域，若第五特征区域在应用相关度信息中对应至少两个应用类别，则处理单元703还用于删除第五特征区域的信息。

请参阅图8，本申请实施例中网络设备另一实施例包括：

本申请实施例的网络设备或者媒体服务器还可以以图8中的计算机设备(或系统)的方式来实现。图8所示为本申请明实施例提供的计算机设备示意图。该计算机设备包括至少一个处理器801，通信总线802和存储器803，还可以包括至少一个通信接口804和I/O接口805。

处理器可以是一个通用中央处理器(CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信总线可包括一通路，在上述组件之间传送信息。所述通信接口，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(Wireless Local Area NetworKs，WLAN)等。

存储器可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中，所述存储器用于存储执行本申请方案的应用程序代码，并由处理器来控制执行。所述处理器用于执行所述存储器中存储的应用程序代码。

在具体实现中，处理器可以包括一个或多个CPU，每个CPU可以是一个单核(single-core)处理器，也可以是一个多核(multi-Core)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，该计算机设备还可以包括输入/输出(I/O)接口。例如，输出设备可以是液晶显示器(liquid crystal display，LCD),发光二级管(lightemitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备可以是鼠标、键盘、触摸屏设备或传感设备等。

上述的计算机设备可以是一个通用计算机设备或者是一个专用计算机设备。在具体实现中，计算机设备可以是台式机、便携式电脑、网络服务器、掌上电脑(PersonalDigital Assistant，PDA)、移动手机、平板电脑、无线终端设备、通信设备、嵌入式设备或有图7中类似结构的设备。本申请实施例不限定计算机设备的类型。

如图1、图2或图3中的第一网络设备、第二网络设备或者终端设备，可以为图8所示的设备，存储器中存储了一个或多个软件模块。网络设备和终端设备可以通过处理器以及存储器中的程序代码来实现软件模块，完成上述实施例中网络设备或者终端设备执行的方法。

本实施例中，该处理器801可以执行前述图2和图3所示实施例中第一网络设备或第二网络设备所执行的操作，具体此处不再赘述。

本申请实施例还提供了一种识别应用的系统，该系统包括了第一网络设备和第二网络设备。

第一网络设备用于执行如图3所示实施例中第一网络设备执行方法，具体此处不再赘述。

第二网络设备用于执行如图2所示实施例中第二网络设备执行的方法，具体此处不再赘述。

并且，所述第二网络设备还用于向所述第一网络设备发送应用相关度信息。

一种可能的设计中，所述第一网络设备还用于向终端设备发送待检测数据对应的应用类别。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机执行时实现上述任一方法实施例中与网络设备相关的方法流程。

应理解，本申请以上实施例中的网络设备中提及的处理器，或者本申请上述实施例提供的处理器，可以是中央处理单元(central processing unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(fieldprogrammable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请中以上实施例中的网络设备中的处理器的数量可以是一个，也可以是多个，可以根据实际应用场景调整，此处仅仅是示例性说明，并不作限定。本申请实施例中的存储器的数量可以是一个，也可以是多个，可以根据实际应用场景调整，此处仅仅是示例性说明，并不作限定。

还应理解，本申请实施例中以上实施例中的网络设备提及的存储器或可读存储介质等，可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlinkDRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

还需要说明的是，当网络设备包括处理器(或处理单元)与存储器时，本申请中的处理器可以是与存储器集成在一起的，也可以是处理器与存储器通过接口连接，可以根据实际应用场景调整，并不作限定。

本申请实施例还提供了一种计算机程序或包括计算机程序的一种计算机程序产品，该计算机程序在某一计算机上执行时，将会使所述计算机实现上述任一方法实施例中与网络设备的方法流程。

在上述图2-图3中各个实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者其他网络设备等)执行本申请图2至图6中各个实施例所述方法的全部或部分步骤。而该存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，并且，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

本申请各实施例中提供的消息/帧/信息、模块或单元等的名称仅为示例，可以使用其他名称，只要消息/帧/信息、模块或单元等的作用相同即可。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本申请实施例中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，在本申请的描述中，除非另有说明，“/”表示前后关联的对象是一种“或”的关系，例如，A/B可以表示A或B；本申请中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A,B可以是单数或者复数。

取决于语境，如在此所使用的词语“如果”或“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

第一网络设备获取待检测数据；

所述第一网络设备根据所述待检测数据得到w个第一特征区域，所述第一特征区域包括所述待检测数据中至少一个字节的数据，所述w为正整数；

所述第一网络设备根据所述w个第一特征区域和应用相关度信息确定所述待检测数据对应的应用类别,所述应用相关度信息指示所述第一特征区域和应用类别之间的相关度。

2.根据权利要求1所述的方法，其特征在于，所述第一网络设备根据所述w个第一特征区域和所述应用相关度信息确定所述待检测数据对应的应用类别具体包括：

3.根据权利要求1或2所述的方法，其特征在于，所述应用相关度信息包括p个第三特征区域的区域相关度信息，其中所述第三特征区域的区域相关度信息包括第三特征区域，所述第三特征区域对应的应用类别，以及所述第三特征区域与所述对应的应用类别之间的区域相关度；p个所述第三特征区域包括所述w个第一特征区域中至少1个特征区域。

4.根据权利要求1-3任一所述的方法，其特征在于，所述待检测数据包括至少一个报文的前K个字节；

所述第一网络设备根据所述待检测数据得到w个第一特征区域，具体包括：

所述第一网络设备对所述至少一个报文的前K个字节做滑动窗口处理，以得到所述w个第一特征区域。

5.根据权利要求1-4任一所述的方法，其特征在于，所述第一特征区域包括连续的s个字节，所述s为大于1的整数。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述第一网络设备获取待检测数据之前，所述方法还包括：

所述第一网络设备获取第一数据，所述第一数据包括第一应用类别对应的字节数据；

所述第一网络设备将所述第一数据输入第一模型，其中，所述第一模型的输出为所述第一应用类别；

所述第一网络设备基于所述第一应用类别以及所述第一模型得到n个第二特征区域，所述第二特征区域包括所述第一数据中q个相邻字节，所述n为正整数，所述q为正整数；

所述第一网络设备确定所述第二特征区域与所述第一应用类别的区域相关度；

所述第一网络设备基于所述第二特征区域与所述第一应用类别的区域相关度生成所述应用相关度信息。

7.根据权利要求6所述的方法，其特征在于，所述应用相关度信息包括所述第二特征区域相关度信息，所述第二特征区域相关度信息包括所述第二特征区域，所述第二特征区域对应的所述第一应用类别，所述第二特征区域与所述第一应用类别的区域相关度；

所述n个第二特征区域包括所述w个第一特征区域中至少一个第一特征区域，所述待检测数据对应的应用类别为所述第一应用类别。

8.一种数据处理方法，其特征在于，包括：

第二网络设备获取第一数据，所述第一数据包括第一应用类别对应的字节数据；

所述第二网络设备将所述第一数据输入第一模型，其中，所述第一模型的输出为所述第一应用类别；

所述第二网络设备基于所述第一应用类别以及所述第一模型得到n个第二特征区域，所述第二特征区域包括所述第一数据中q个相邻字节，所述n为正整数，所述q为正整数；

所述第二网络设备确定所述第二特征区域与所述第一应用类别的区域相关度；

所述第二网络设备基于所述第二特征区域与所述第一应用类别的区域相关度生成应用相关度信息。

9.根据权利要求8所述的方法，其特征在于，所述应用相关度信息包括所述第二特征区域相关度信息，所述第二特征区域相关度信息包括所述第二特征区域，所述第二特征区域对应的所述第一应用类别，所述第二特征区域与所述第一应用类别的区域相关度。

10.根据权利要求8或9所述的方法，其特征在于，所述第二网络设备基于所述第一应用类别以及所述第一模型得到n个第二特征区域包括：

所述第二网络设备基于所述第一应用类别以及所述第一模型得到h个第一特征值，所述第一特征值指示第一应用类别与所述第一数据中第一特征点的相关度，所述第一特征点包括所述第一数据中一个字节的数据，所述h为正整数；

所述第二网络设备根据所述h个第一特征值得到n个第二特征区域。

11.根据权利要求10所述的方法，其特征在于，所述第二网络设备根据所述h个第一特征值得到n个第二特征区域包括：

所述第二网络设备根据h个第一特征值获取z个目标特征点，所述目标特征点的特征值为所述h个第一特征值中按数值从大到小的顺序排列的前z个特征值中的一个，所述z为正整数，所述z为小于或等于所述h的整数；

所述第二网络设备根据所述z个目标特征点得到所述n个第二特征区域，每个所述第二特征区域包含至少一个所述目标特征点。

12.根据权利要求11所述的方法，其特征在于，所述第二特征区域的中点为所述目标特征点。

13.根据权利要求8至12中任一项所述的方法，其特征在于，所述方法还包括：

所述n个第二特征区域包括第六特征区域和第四特征区域，若所述第六特征区域中的特征点和所述第四特征区域中的特征点重复的比例大于第一预设阈值，且所述第六特征区域在所述第一应用类别中对应的应用类别的特征区域中出现的次数大于所述第四特征区域在所述第一应用类别中对应的应用类别的特征区域中出现的次数，则所述第二网络设备删除所述第四特征区域的信息。

14.根据权利要求8至13中任一项所述的方法，其特征在于，所述方法还包括：

所述n个第二特征区域包括第五特征区域，若所述第五特征区域在应用相关度信息中对应至少两个应用类别，则所述第二网络设备删除第五特征区域的信息。

15.一种网络设备，其特征在于，包括：

获取单元，用于获取待检测数据；

处理单元，用于根据所述待检测数据得到w个第一特征区域，所述第一特征区域包括所述待检测数据中至少一个字节的数据，所述w为正整数；

确定单元，用于根据所述w个第一特征区域和应用相关度信息确定所述待检测数据对应的应用类别,所述应用相关度信息指示所述第一特征区域和应用类别之间的相关度。

16.根据权利要求15所述的网络设备，其特征在于，所述确定单元具体用于根据所述w个第一特征区域和所述应用相关度信息确定所述第一特征区域对应的应用类别，以及所述第一特征区域与对应的应用类别之间的区域相关度；

所述确定单元还用于基于与第一应用类别对应的第一特征区域的区域相关度之和是最大值，确定所述待检测数据对应于所述第一应用类别。

17.根据权利要求15或16所述的网络设备，其特征在于，所述应用相关度信息包括p个第三特征区域的相关度信息，其中所述第三特征区域的相关度信息包括第三特征区域，所述第三特征区域对应的应用类别，以及所述第三特征区域与所述对应的应用类别之间的区域相关度；p个所述第三特征区域包括所述w个第一特征区域中至少1个特征区域。

18.根据权利要求15至17任一所述的网络设备，其特征在于，所述待检测数据包括至少一个报文的前K个字节；

所述处理单元具体用于对所述至少一个报文的前K个字节做滑动窗口处理，以得到所述w个第一特征区域。

19.根据权利要求15至18任一所述的网络设备，其特征在于，所述第一特征区域包括连续的s个字节，所述s为大于1的整数。

20.根据权利要求15至19中任一项所述的网络设备，其特征在于，所述获取单元还用于获取第一数据，所述第一数据包括第一应用类别对应的字节数据；

所述网络设备还包括：

输入单元，用于将所述第一数据输入第一模型，其中，所述第一模型的输出为所述第一应用类别；

所述处理单元还用于基于所述第一应用类别以及所述第一模型得到n个第二特征区域，所述第二特征区域包括所述第一数据中q个相邻字节，所述n为正整数，所述q为正整数；

所述确定单元还用于确定所述第二特征区域与所述第一应用类别的区域相关度；

所述网络设备还包括：

生成单元，用于基于所述第二特征区域与所述第一应用类别的区域相关度生成所述应用相关度信息。

21.根据权利要求20所述的网络设备，其特征在于，所述应用相关度信息包括所述第二特征区域相关度信息，所述第二特征区域相关度信息包括所述第二特征区域，所述第二特征区域对应的所述第一应用类别，所述第二特征区域与所述第一应用类别的区域相关度；

22.一种网络设备，其特征在于，包括：

获取单元，用于获取第一数据，所述第一数据包括第一应用类别对应的字节数据；

处理单元，用于基于所述第一应用类别以及所述第一模型得到n个第二特征区域，所述第二特征区域包括所述第一数据中q个相邻字节，所述n为正整数，所述q为正整数；

确定单元，用于确定所述第二特征区域与所述第一应用类别的区域相关度；

生成单元，用于基于所述第二特征区域与所述第一应用类别的区域相关度生成应用相关度信息。

23.根据权利要求22所述的网络设备，其特征在于，所述应用相关度信息包括所述第二特征区域相关度信息，所述第二特征区域相关度信息包括所述第二特征区域，所述第二特征区域对应的所述第一应用类别，所述第二特征区域与所述第一应用类别的区域相关度。

24.根据权利要求22或23所述的网络设备，其特征在于，所述处理单元具体用于基于所述第一应用类别以及所述第一模型得到h个第一特征值，所述第一特征值指示第一应用类别与所述第一数据中第一特征点的相关度，所述第一特征点包括所述第一数据中一个字节的数据，所述h为正整数；

所述处理单元具体用于根据所述h个第一特征值得到n个第二特征区域。

25.根据权利要求24所述的网络设备，其特征在于，所述获取单元还用于根据h个第一特征值获取z个目标特征点，所述目标特征点的特征值为所述h个第一特征值中按数值从大到小的顺序排列的前z个特征值中的一个，所述z为为小于或等于所述h的整数；

所述处理单元具体用于根据所述z个目标特征点得到所述n个第二特征区域，每个所述第二特征区域包含至少一个所述目标特征点。

26.根据权利要求25所述的网络设备，其特征在于，所述第二特征区域的中点为所述目标特征点。

27.根据权利要求22至26中任一项所述的网络设备，其特征在于，所述n个第二特征区域包括第六特征区域和第四特征区域，若所述第六特征区域中的特征点和所述第四特征区域中的特征点重复的比例大于第一预设阈值，且所述第六特征区域在所述第一应用类别中对应的应用类别的特征区域中出现的次数大于所述第四特征区域在所述第一应用类别中对应的应用类别的特征区域中出现的次数，则所述处理单元还用于删除所述第四特征区域的信息。

28.根据权利要求22至27中任一项所述的网络设备，其特征在于，所述n个第二特征区域包括第五特征区域，若所述第五特征区域在应用相关度信息中对应至少两个应用类别，则所述处理单元还用于删除第五特征区域的信息。

29.一种网络设备，其特征在于，包括：

至少一个处理器和存储器，所述存储器存储了程序代码，所述处理器调用所述程序代码以执行如权利要求1至7中任一项所述的方法。

30.一种网络设备，其特征在于，包括：

至少一个处理器和存储器，所述存储器存储了程序代码，所述处理器调用所述程序代码以执行如权利要求8至14中任一项所述的方法。