CN110445800B

CN110445800B - 一种基于自学习的深度报文解析系统

Info

Publication number: CN110445800B
Application number: CN201910755654.8A
Authority: CN
Inventors: 裴亚可; 曹瑜
Original assignee: Shanghai Gbcom Communication Technology Co ltd
Current assignee: Shanghai Gbcom Communication Technology Co ltd
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2022-06-14
Anticipated expiration: 2039-08-15
Also published as: CN110445800A

Abstract

本发明公开了一种基于自学习的深度报文解析系统，属于数据处理技术领域，包括：生成端和运行端，生成端包括：第一采集模块，第一解析模块，第一学习模块，第一学习模块具体包括：训练单元；上述技术方案的有益效果是：通过增加学习中枢，能够对现有网络环境中的数据进行机器学习，并把学习成果变为特征模型反馈到现有的特征库中，使特征库具备了自我更新的能力，且能与应用程序的更新速度保持同步，解决了现有技术中特征库维护量大，消耗的人力和资源大的问题，同时系统通过学习、反馈、再学习的过程，不断对现有的特征库进行自我优化，从而大大提高了特征识别的精确度。

Description

一种基于自学习的深度报文解析系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于自学习的深度报文解析系统。

背景技术

DPI(深度报文解析)是一种基于数据包的深度检测技术，针对不同的网络应用层载荷进行深度检测，通过对报文的有效载荷检测决定其合法性，DPI深度报文解析系统在现有网络环境中广泛使用，该系统主要用于识别应用程序，识别虚拟身份，识别网络内容，对网络进行流量监控等技术领域。现在的互联网环境中，手机和电脑的应用程序种类繁多，层出不穷且更新速度快，特征库的更新无法保持同步，各应用程序之间进行网络通讯产生的数据量巨大，对其进行深度报文解析需要投入大量的人力进行特征库的更新和维护，耗费大量的人力资源的同时数据提取的精确度也并不是很高。

发明内容

根据现有技术中存在的上述问题，提供一种具备自我学习功能的深度报文解析系统，通过增加学习中枢，能够对现有网络环境中的数据进行机器学习，并把学习成果变为特征模型反馈到现有的特征库中，使特征库具备了自我更新的能力，且能与应用程序的更新速度保持同步，解决了现有技术中特征库维护量大，消耗的人力和资源大的问题，同时系统通过学习、反馈、再学习的过程，不断对现有的特征库进行自我优化，从而大大提高了特征识别的精确度。

上述技术方案具体包括：

一种基于自学习的深度报文解析系统，其中包括生成端和运行端，所述生成端连接所述运行端，所述生成端包括：

第一采集模块，用于抓取网络中的数据报文；

第一解析模块，连接所述第一采集模块，所述第一解析模块根据一预设的第一特征库对所述数据报文进行特征标记，并根据标记结果对所述数据报文进行分类存储，输出一分类结果；

第一学习模块，连接所述第一解析模块，所述第一学习模块包括：

训练单元，用于根据所述分类结果，将分类存储且进行特征标记的所述数据报文作为训练数据，对一特征识别模型进行第一机器学习，以形成并保存一包括所述数据报文的数据特征的第二特征库，应用所述第二特征库可对所述数据报文进行特征识别；

所述运行端中包括：

第二采集模块，用于抓取网络中的数据报文；

第二解析模块，连接所述第二采集模块，读取所述生成端保存的所述第二特征库，对所述第二采集模块抓取的所述数据报文进行特征解析，并输出解析结果；

输出模块，连接所述第二解析模块，用于将所述解析结果输出给用户使用。

优选地，其中，所述第一学习模块还包括：

清洗单元，连接所述训练单元，用于对所述分类结果进行数据清洗。

优选地，其中，所述第一特征库为现有的DNS特征库。

优选地，其中，所述第二解析模块根据所述第二特征库对所述第二采集模块抓取的所述数据报文进行特征标记，并根据标记结果对所述数据报文进行分类，输出为所述解析结果。

优选地，其中，所述运行端还包括：

第二学习模块，连接所述第二解析模块，根据所述解析结果，将实际识别得到的所述数据报文的所述数据特征加入所述第一特征库中，并根据所述第一特征库，实时对所述特征识别模型进行第二机器学习，以更新所述第二特征库。

优选地，其中，所述第二机器学习为监督学习方式和\或强化学习方式。

优选地，其中，所述第一机器学习为无监督学习方式。

优选地，其中，所述第二特征库为应用程序特征库。

优选地，其中，所述训练单元采用聚类算法对所述特征识别模型进行所述第一机器学习。

优选地，其中，所述第二学习模块采用分类算法对所述特征识别模型进行第二机器学习。

上述技术方案的有益效果是：提供一种具备自我学习功能的深度报文解析系统，通过增加学习中枢，能够对现有网络环境中的数据进行机器学习，并把学习成果变为特征模型反馈到现有的特征库中，使特征库具备了自我更新的能力，且能与应用程序的更新速度保持同步，解决了现有技术中特征库维护量大，消耗的人力和资源大的问题，同时系统通过学习、反馈、再学习的过程，不断对现有的特征库进行自我优化，从而大大提高了特征识别的精确度。

附图说明

图1是本发明的较佳实施例中，一种基于自学习的深度报文解析系统结构示意图；

图2是本发明的较佳实施例中，于图1的基础上，第一学习模块的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

一种基于自学习的深度报文解析系统，如图1所示，其中包括生成端1和运行端2，生成端1连接运行端2，生成端1包括：

第一采集模块10，用于抓取网络中的数据报文；

第一解析模块11，连接第一采集模块10，第一解析模块11根据一预设的第一特征库对所述数据报文进行特征标记，并根据标记结果对所述数据报文进行分类存储，输出一分类结果；

第一学习模块12，连接第一解析模块11，如图2所示，第一学习模块12具体包括：

训练单元121，用于根据所述分类结果，将分类存储且进行特征标记的所述数据报文作为训练数据，对一特征识别模型进行第一机器学习，以形成并保存一包括所述数据报文的数据特征的第二特征库，应用所述第二特征库可对所述数据报文进行特征识别；

所述运行端2中包括：

第二采集模块20，用于抓取网络中的数据报文；

第二解析模块21，连接第二采集模块20，读取生成端1保存的第二特征库，对第二采集模块20抓取的数据报文进行特征解析，并输出解析结果；

输出模块22，连接第二解析模块21，用于将解析结果输出给用户使用。

在本发明的一个具体实施例中，生成端1负责根据已有的特征库学习并建立新的特征库，该学习建立过程具体包括：

第一步，在已有的深度报文解析服务器的基础上，使用现有的DNS特征库，对第一采集模块10抓取的网络中的数据报文进行DNS特征标记，并根据标记结果和目的IP地址对采集到的数据流进行分类存储。

第二步，在第一学习模块12中，预先通过无监督学习算法建立一无监督学习模型，该无监督学习模型用于对采集到的数据基于进行相应的训练。

第三步，将第一步分类存储的数据结果导入学习中枢也就是第一学习模块12中进行学习训练，该学习训练过程基于第二步过程中建立的无监督学习模型进行。

第四步，经过第一学习模块12的训练后，生成一训练好的计算机应用程序特征库，并将该特征库导入特征库集。

在本发明的较佳实施例中，第一学习模块12还包括：

清洗单元120，连接训练单元121，用于对所述分类结果进行数据清洗。

在本发明的一个具体实施例中，第一学习模块12还具有数据清洗的功能，用于发现并纠正分类后的数据结果中可识别的错误，其中包括：检查数据的一致性，处理数据中的无效值和缺失值，删除重复的信息等内容。

在本发明的较佳实施例中，所述第一特征库为现有的DNS特征库。

在本发明的较佳实施例中，第二解析模块21根据第二特征库对第二采集模块20抓取的数据报文进行特征标记，并根据标记结果对数据报文进行分类，输出为解析结果。

在本发明的较佳实施例中，运行端2还包括：

第二学习模块23，连接第二解析模块21，根据所述解析结果，将实际识别得到的所述数据报文的所述数据特征加入所述第一特征库中，并根据所述第一特征库实时对所述特征识别模型进行第二机器学习，以根据自学习得到的所述特征集合更新所述第二特征库。

在本发明的一个具体实施例中，运行端2负责系统的运行和再学习过程，其具体的工作过程包括以下步骤：

第一步，将深度报文解析系统部署到运行环境中，并在数据传输的过程中，交换机所有的数据包镜像到该系统中。

第二步，深度报文解析服务器使用经过生成端1训练好的特征库集中的计算机应用程序特征库进行深度报文解析，并将解析得到的数据提供给用户使用。

第三步，在第二学习模块23中，预先基于监督学习和强化学习的算法建立起特征识别模型，用于对解析好的数据进行训练。

第四步，把第二步中解析好的数据导入到第二学习模块23中，按照第三步中预先设置的特征识别模型进行再次的训练。

第五步，使用经过第二学习模块23训练后的数据，对生成端1生成的计算机应用程序特征库和DNS等其他特征库进行纠正和完善，并导入特征库集，完成再次学习过程，对特征库进行完善和强化。

在本发明的较佳实施例中，所述第二机器学习为监督学习方式和\或强化学习方式。

在本发明的较佳实施例中，所述第一机器学习为无监督学习方式。

在本发明的较佳实施例中，所述第二特征库为应用程序特征库。

在本发明的较佳实施例中，训练单元121采用聚类算法对特征识别模型进行第一机器学习。

在本发明的较佳实施例中，第二学习模块23采用分类算法对特征识别模型进行第二机器学习。

在本发明的一个具体实施例中，无监督学习是通过一些不知道输出的数据，计算机通过相应的算法操作，如聚类算法，然后给这些数据打上标签，生成端1通过无监督学习以及聚类算法对第一采集模块12抓取的网络报文数据进行聚类处理，并将聚类后的相应数据打上标签，从而对网络报文数据进行机器识别分类。

而监督学习则是由已有的数据，包括输入和输出，来训练模型函数，获得相应的模型函数以后，再把新的输入数据带入模型函数，从而来预测数据的输出，运行端2通过监督学习和分类算法对特征库进行完善和强化。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种基于自学习的深度报文解析系统，其特征在于，包括生成端和运行端，所述生成端连接所述运行端，所述生成端包括：

第一采集模块，用于抓取网络中的数据报文；

第一解析模块，连接所述第一采集模块，所述第一解析模块根据一预设的第一特征库对所述数据报文进行特征标记，并根据标记结果和目的IP地址对所述数据报文进行分类存储，输出一分类结果；

训练单元，用于根据所述分类结果，将分类存储且进行特征标记的所述数据报文作为训练数据，对一无监督学习模型进行第一机器学习，以形成并保存一包括所述数据报文的数据特征的第二特征库，应用所述第二特征库可对所述数据报文进行特征识别；

所述运行端中包括：

第二采集模块，用于抓取网络中的数据报文；

输出模块，连接所述第二解析模块，用于将所述解析结果输出给用户使用；

所述运行端还包括：

第二学习模块，连接所述第二解析模块，根据所述解析结果，将实际识别得到的所述数据报文的所述数据特征中的DNS特征标记结果和目的IP地址加入所述第一特征库中，并根据所述第一特征库，实时对所述特征识别模型进行第二机器学习，以更新所述第二特征库；

所述第一特征库为现有的DNS特征库，所述第二特征库为应用程序特征库，所述第一机器学习为无监督学习方式，所述第二机器学习为监督学习方式和/或强化学习方式；

所述解析结果包括对所述数据报文进行特征标记、分类的结果和通过深度报文解析得到的数据。

2.根据权利要求1所述的基于自学习的深度报文解析系统，其特征在于，所述第一学习模块还包括：

3.根据权利要求1所述的基于自学习的深度报文解析系统，其特征在于，

所述第二解析模块根据所述第二特征库对所述第二采集模块抓取的所述数据报文进行特征标记，并根据标记结果对所述数据报文进行分类，输出为所述解析结果。

4.根据权利要求1所述的基于自学习的深度报文解析系统，其特征在于，所述训练单元采用聚类算法对所述特征识别模型进行所述第一机器学习。

5.根据权利要求1所述的基于自学习的深度报文解析系统，其特征在于，所述第二学习模块采用分类算法对所述特征识别模型进行第二机器学习。