CN115277063B

CN115277063B - 一种在ipv4与ipv6混合网络环境下的终端识别装置

Info

Publication number: CN115277063B
Application number: CN202210666984.1A
Authority: CN
Inventors: 张树贵; 王元卓; 周俊; 李阳
Original assignee: Shenzhen Zhutai Technology Co ltd
Current assignee: Shenzhen Zhutai Technology Co ltd
Priority date: 2022-06-13
Filing date: 2022-06-13
Publication date: 2023-07-25
Anticipated expiration: 2042-06-13
Also published as: CN115277063A

Abstract

本发明适用于终端识别技术领域，提供了一种在IPV4与IPV6混合网络环境下的终端识别装置，所述装置包括：双协议栈开启模块，用于开启双协议栈；身份信息分析模块，用于配制终端扫描范围，获取输入终端的身份信息，将身份信息输入至终端身份库中得到第一终端识别集；流量数据分析模块，用于接入旁路流量，判定流量是否为加密流量，对加密流量进行解析识别后，对流量特征数据进行分析得到第二终端识别集；终端信息确定模块，用于根据第一终端识别集和第二终端识别集进行交叉验证得到终端信息。本发明能够根据第一终端识别集和第二终端识别集进行交叉验证得到终端信息，如此，即使在流量不全或者加密流量的情况下，得到的终端信息依然较为准确。

Description

一种在IPV4与IPV6混合网络环境下的终端识别装置

技术领域

本发明涉及终端识别技术领域，具体是涉及一种在IPV4与IPV6混合网络环境下的终端识别装置。

背景技术

随着IT信息技术的深入发展，物联终端的安全防护已经成为了IT产业的首要任务，很多行业物联终端成为了国家关键基础设施防护的关键对象。为了更好的防护各种物联终端，需要对终端进行识别，特别是在IPV4与IPV6混合网络环境下进行有效的终端识别，目前识别的主要方式是针对IPV4与IPV6分别做流量解析进行终端识别，这类方案在面临流量不全或者加密流量情况下很难实现终端的准确识别。因此，需要提供一种在IPV4与IPV6混合网络环境下的终端识别装置，旨在解决上述问题。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种在IPV4与IPV6混合网络环境下的终端识别装置，以解决上述背景技术中存在的问题。

本发明是这样实现的，一种在IPV4与IPV6混合网络环境下的终端识别装置，所述装置包括：

双协议栈开启模块，用于开启双协议栈；

身份信息分析模块，用于配制终端扫描范围，获取输入终端的身份信息，将身份信息输入至终端身份库中得到第一终端识别集；

流量数据分析模块，用于接入旁路流量，判定流量是否为加密流量，对加密流量进行解析识别后，对流量特征数据进行分析得到第二终端识别集；

终端信息确定模块，用于根据第一终端识别集和第二终端识别集进行交叉验证得到终端信息。

作为本发明进一步的方案：所述身份信息为指纹信息、人脸信息、密码信息以及用户名信息中的一个或者多个。

作为本发明进一步的方案：所述终端身份库为事先建立完成的，终端身份库包含终端信息和每个终端信息对应的身份信息。

作为本发明进一步的方案：所述身份信息分析模块包括：

身份信息输入单元，用于将身份信息输入至终端身份库中；

终端信息匹配单元，用于使得身份信息与终端身份库中的所有终端信息进行匹配；

第一终端识别集单元，用于输出相匹配的所有终端信息，对所有终端信息进行整合得到第一终端识别集。

作为本发明进一步的方案：所述流量数据分析模块包括加密流量解析单元和流量数据分析单元，所述加密流量解析单元用于对加密流量进行解析识别，所述流量数据分析单元用于对流量特征数据进行分析得到第二终端识别集。

作为本发明进一步的方案：所述加密流量解析单元包括：

训练验证子单元，所述训练验证子单元包含训练集和验证集，训练集和验证集分别用于训练模型和验证训练结果；

连接集合确定子单元，用于计算训练集中所有的加密连接的关联HTTP连接并形成关联HTTP连接集合；

训练模型子单元，用于根据得到关联HTTP连接集合，利用机器学习分类算法训练每个加密连接的单包结构模型和流模型；

训练结果验证子单元，用于验证训练结果，利用训练后的模型识别验证集中的流量，若正确识别率小于等于最低识别率要求值，则调整相应训练参数后重新进行训练。

作为本发明进一步的方案：所述流量数据分析单元包括：

流量特征数据子单元，用于对流量数据进行特征提取，得到流量特征数据，所述流量特征数据包括待识别终端使用的协议数据和待识别终端的流量行为数据；

终端类型确定子单元，用于将所述流量特征数据输入至训练好的分类模型进行终端类型识别，得到所述待识别终端的终端类型，其中，所述训练好的分类模型为基于各样本终端的样本流量数据，对初始的分类模型进行训练得到的，根据识别终端的终端类型得到第二终端识别集。

作为本发明进一步的方案：所述训练好的分类模型为随机森林模型或者支持向量机SVM模型，具体的，通过以下步骤训练得到所述训练好的分类模型：

获取各样本终端在预定时间段内产生的样本流量数据；

对所述样本流量数据进行特征提取，得到样本流量特征数据，每条样本流量特征数据包括对应的样本终端的样本协议数据和样本流量行为数据；

将所述样本流量特征数据输入至初始的分类模型进行终端类型识别，得到每个样本终端对应的预测终端类型的概率值；

根据得到的预测终端类型的概率值与设定的概率值之间的误差，对所述初始的分类模型的参数进行调整，直到收敛，得到所述训练好的分类模型。

作为本发明进一步的方案：所述根据第一终端识别集和第二终端识别集进行交叉验证得到终端信息的步骤，具体包括：

确定第一终端识别集和第二终端识别集中重叠的终端信息，当终端信息有且仅有一个时，直接输出所述终端信息；

当终端信息不止一个时，获取每个终端信息的近期流量特征数据信息，将所述流量特征数据与每一个终端信息的近期流量特征数据信息进行匹配，输出匹配度最高的终端信息。

作为本发明进一步的方案：每个待识别终端均对应采集有近期流量特征数据信息，近期流量特征数据信息不断进行更新。

与现有技术相比，本发明的有益效果是：

本发明通过配制终端扫描范围，获取输入终端的身份信息，将身份信息输入至终端身份库中得到第一终端识别集；并通过接入旁路流量，判定流量是否为加密流量，对加密流量进行解析识别后，对流量特征数据进行分析得到第二终端识别集；根据第一终端识别集和第二终端识别集进行交叉验证得到终端信息，如此，即使在流量不全或者加密流量的情况下，得到的终端信息依然较为准确。

附图说明

图1为一种在IPV4与IPV6混合网络环境下的终端识别装置的结构示意图。

图2为一种在IPV4与IPV6混合网络环境下的终端识别装置中身份信息分析模块的结构示意图。

图3为一种在IPV4与IPV6混合网络环境下的终端识别装置中加密流量解析单元的结构示意图。

图4为一种在IPV4与IPV6混合网络环境下的终端识别装置中流量数据分析单元的结构示意图。

图5为一种在IPV4与IPV6混合网络环境下的终端识别方法的流程图。

图6为一种在IPV4与IPV6混合网络环境下的终端识别方法中将身份信息输入至终端身份库中得到第一终端识别集的流程图。

图7为一种在IPV4与IPV6混合网络环境下的终端识别方法中对加密流量进行解析识别的流程图。

图8为一种在IPV4与IPV6混合网络环境下的终端识别方法中对流量特征数据进行分析得到第二终端识别集的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清晰，以下结合附图及具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述。

如图1所示，本发明实施例提供了一种在IPV4与IPV6混合网络环境下的终端识别装置，所述装置包括：

双协议栈开启模块100，用于开启双协议栈；

身份信息分析模块200，用于配制终端扫描范围，获取输入终端的身份信息，将身份信息输入至终端身份库中得到第一终端识别集；

流量数据分析模块300，用于接入旁路流量，判定流量是否为加密流量，对加密流量进行解析识别后，对流量特征数据进行分析得到第二终端识别集；

终端信息确定模块400，用于根据第一终端识别集和第二终端识别集进行交叉验证得到终端信息。

需要说明的是，随着IT信息技术的深入发展，物联终端的安全防护已经成为了IT产业的首要任务，很多行业物联终端成为了国家关键基础设施防护的关键对象。为了更好的防护各种物联终端，需要对终端进行识别，特别是在IPV4与IPV6混合网络环境下进行有效的终端识别，目前识别的主要方式是针对IPV4与IPV6分别做流量解析进行终端识别，这类方案在面临流量不全或者加密流量情况下很难实现终端的准确识别，本发明实施例旨在解决上述问题。

本发明实施例中，为了识别IPV4与IPV6混合网络环境下的终端，首先需要开启双协议栈，就是指在终端设备上同时启用IPV4协议栈和IPV6协议栈，这样的话，这台设备既能和IPV4网络通信，又能和IPV6网络通信。如果这台设备是一个路由器，那么这台路由器的不同接口上，分别配置了IPV4地址和IPV6地址，并很可能分别连接了IPV4网络和IPV6网络。如果这台设备是一个计算机，那么它将同时拥有IPV4地址和IPV6地址，并具备同时处理这两个协议地址的功能。接着配制终端扫描范围，获取输入终端的身份信息，容易理解用户在使用终端时或多或少都是输入一些身份信息，所述身份信息可以是指纹信息、人脸信息、密码信息以及用户名信息中的一个或者多个。本发明实施例需要事先建立终端身份库，终端身份库包含终端信息和每个终端信息对应的身份信息，将身份信息输入至终端身份库中得到第一终端识别集，容易理解，一个终端信息很可能对应很多的身份信息，一个身份信息也可能在多个终端设备上进行使用，因此将身份信息输入至终端身份库中进行匹配会得到若干个终端信息，对若干个终端信息进行整合得到第一终端识别集；接着需要获取终端产生的流量，并判定流量是否为加密流量，如果是需要对加密流量进行解析识别后，再对流量特征数据进行分析得到第二终端识别集；如果不是，直接对流量特征数据进行分析，最后根据第一终端识别集和第二终端识别集进行交叉验证得到终端信息，如此，即使在流量不全或者加密流量的情况下，得到的终端信息依然较为准确。

如图2所示，作为本发明一个优选的实施例，所述身份信息分析模块200包括：

身份信息输入单元201，用于将身份信息输入至终端身份库中；

终端信息匹配单元202，用于使得身份信息与终端身份库中的所有终端信息进行匹配；

第一终端识别集单元203，用于输出相匹配的所有终端信息，对所有终端信息进行整合得到第一终端识别集。

本发明实施例中，例如身份信息为一串数字密码，同一串数字密码可能被多个用户使用，则这些用户所对应的用户终端信息均存在于第一终端识别集中。

如图3所示，作为本发明一个优选的实施例，所述流量数据分析模块300包括加密流量解析单元310和流量数据分析单元320，所述加密流量解析单元310用于对加密流量进行解析识别，所述流量数据分析单元320用于对流量特征数据进行分析得到第二终端识别集。所述加密流量解析单元310包括：

训练验证子单元311，所述训练验证子单元包含训练集和验证集，训练集和验证集分别用于训练模型和验证训练结果；

连接集合确定子单元312，用于计算训练集中所有的加密连接的关联HTTP连接并形成关联HTTP连接集合；

训练模型子单元313，用于根据得到关联HTTP连接集合，利用机器学习分类算法训练每个加密连接的单包结构模型和流模型；

训练结果验证子单元314，用于验证训练结果，利用训练后的模型识别验证集中的流量，若正确识别率小于等于最低识别率要求值，则调整相应训练参数后重新进行训练。

本发明实施例中，加密流量识别方法通过结合多流关联识别、单包识别和单流多包识别的方法，使得该加密流量识别方法可适用任何的加密流量，并且有效提高了加密流量的正确识别率。加密流量可以是基于通用加密协议HTTPS、QUIC、DTLS等的流量，也可以是私有加密流量，例如一些APP产生的加密流量。训练验证子单元中还需要对每一条加密连接提取五元组信息，五元组信息为：源ip、源端口、目的ip、目的端口以及协议，每个报文需要记录五元组、应用名称和流量类型。本发明实施例中，每个应用的报文中随机抽取4/5的流量作为训练集，剩下1/5作为验证集，最后采用随机子抽样验证方法验证训练结果。

如图4所示，作为本发明一个优选的实施例，所述流量数据分析单元320包括：

流量特征数据子单元321，用于对流量数据进行特征提取，得到流量特征数据，所述流量特征数据包括待识别终端使用的协议数据和待识别终端的流量行为数据；

终端类型确定子单元322，用于将所述流量特征数据输入至训练好的分类模型进行终端类型识别，得到所述待识别终端的终端类型，其中，所述训练好的分类模型为基于各样本终端的样本流量数据，对初始的分类模型进行训练得到的，根据识别终端的终端类型得到第二终端识别集。

本发明实施例中，所述训练好的分类模型为随机森林模型或者支持向量机SVM模型，具体的，通过以下步骤训练得到所述训练好的分类模型：获取各样本终端在预定时间段内产生的样本流量数据；对所述样本流量数据进行特征提取，得到样本流量特征数据，每条样本流量特征数据包括对应的样本终端的样本协议数据和样本流量行为数据；将所述样本流量特征数据输入至初始的分类模型进行终端类型识别，得到每个样本终端对应的预测终端类型的概率值；根据得到的预测终端类型的概率值与设定的概率值之间的误差，对所述初始的分类模型的参数进行调整，直到收敛，得到所述训练好的分类模型。所述待识别终端的流量行为数据可以包括以下数据中的至少一种：待识别终端在第一指定时间段内的会话总数、外网连接次数、内网连接次数、终端在第一指定时间段内传输的数据包的总数量、终端在第一指定时间段内传输的数据包的总大小和在第一指定时间段内终端所通信的目的设备的IP地址所属的网段，当然，待识别终端的流量行为数据还可以包括其它数据，在此不再赘述。

作为本发明一个优选的实施例，所述根据第一终端识别集和第二终端识别集进行交叉验证得到终端信息的步骤，具体包括：

本发明实施例中，每个待识别终端均对应采集有近期流量特征数据信息，近期流量特征数据信息随着时间的推移不断进行更新，第一终端识别集和第二终端识别集进行交叉验证时，当确定的终端信息有且仅有一个时，那么直接输出所述终端信息；当终端信息不止一个时，获取每个终端信息的近期流量特征数据信息，将所述流量特征数据与每一个终端信息的近期流量特征数据信息进行匹配，输出匹配度最高的终端信息即可。

如图5所示，本发明实施例还提供了一种在IPV4与IPV6混合网络环境下的终端识别方法，所述方法包括：

S100，开启双协议栈；

S200，配制终端扫描范围，获取输入终端的身份信息，将身份信息输入至终端身份库中得到第一终端识别集；

S300，接入旁路流量，判定流量是否为加密流量，对加密流量进行解析识别后，对流量特征数据进行分析得到第二终端识别集；

S400，根据第一终端识别集和第二终端识别集进行交叉验证得到终端信息。

如图6所示，作为本发明一个优选的实施例，所述将身份信息输入至终端身份库中得到第一终端识别集的步骤，具体包括：

S201，将身份信息输入至终端身份库中；

S202，使得身份信息与终端身份库中的所有终端信息进行匹配；

S203，输出相匹配的所有终端信息，对所有终端信息进行整合得到第一终端识别集。

如图7所示，作为本发明一个优选的实施例，所述对加密流量进行解析识别的步骤，具体包括：

S311，设置训练集和验证集，训练集和验证集分别用于训练模型和验证训练结果；

S312，计算训练集中所有的加密连接的关联HTTP连接并形成关联HTTP连接集合；

S313，根据得到关联HTTP连接集合，利用机器学习分类算法训练每个加密连接的单包结构模型和流模型；

S314，验证训练结果，利用训练后的模型识别验证集中的流量，若正确识别率小于等于最低识别率要求值，则调整相应训练参数后重新进行训练。

如图8所示，作为本发明一个优选的实施例，所述对流量特征数据进行分析得到第二终端识别集的步骤，具体包括：

S321，对流量数据进行特征提取，得到流量特征数据，所述流量特征数据包括待识别终端使用的协议数据和待识别终端的流量行为数据；

S322，将所述流量特征数据输入至训练好的分类模型进行终端类型识别，得到所述待识别终端的终端类型，其中，所述训练好的分类模型为基于各样本终端的样本流量数据，对初始的分类模型进行训练得到的，根据识别终端的终端类型得到第二终端识别集。

以上仅对本发明的较佳实施例进行了详细叙述，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实施例处的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种在IPV4与IPV6混合网络环境下的终端识别装置，其特征在于，所述装置包括：

双协议栈开启模块，用于开启双协议栈；

流量数据分析模块，用于接入旁路流量，判定流量是否为加密流量，对加密流量进行解析识别后，对流量特征数据基于分类模型进行分析得到第二终端识别集；

终端信息确定模块，用于根据第一终端识别集和第二终端识别集进行交叉验证得到终端信息；

所述根据第一终端识别集和第二终端识别集进行交叉验证得到终端信息的步骤，具体包括：

2.根据权利要求1所述一种在IPV4与IPV6混合网络环境下的终端识别装置，其特征在于，所述身份信息为指纹信息、人脸信息、密码信息以及用户名信息中的一个或者多个。

3.根据权利要求2所述一种在IPV4与IPV6混合网络环境下的终端识别装置，其特征在于，所述终端身份库为事先建立完成的，终端身份库包含终端信息和每个终端信息对应的身份信息。

4.根据权利要求3所述一种在IPV4与IPV6混合网络环境下的终端识别装置，其特征在于，所述身份信息分析模块包括：

身份信息输入单元，用于将身份信息输入至终端身份库中；

5.根据权利要求1所述一种在IPV4与IPV6混合网络环境下的终端识别装置，其特征在于，所述流量数据分析模块包括加密流量解析单元和流量数据分析单元，所述加密流量解析单元用于对加密流量进行解析识别，所述流量数据分析单元用于对流量特征数据进行分析得到第二终端识别集。

6.根据权利要求5所述一种在IPV4与IPV6混合网络环境下的终端识别装置，其特征在于，所述加密流量解析单元包括：

7.根据权利要求5所述一种在IPV4与IPV6混合网络环境下的终端识别装置，其特征在于，所述流量数据分析单元包括：

8.根据权利要求7所述一种在IPV4与IPV6混合网络环境下的终端识别装置，其特征在于，所述训练好的分类模型为随机森林模型或者支持向量机SVM模型，具体的，通过以下步骤训练得到所述训练好的分类模型：

获取各样本终端在预定时间段内产生的样本流量数据；

9.根据权利要求1所述一种在IPV4与IPV6混合网络环境下的终端识别装置，其特征在于，每个待识别终端均对应采集有近期流量特征数据信息，近期流量特征数据信息不断进行更新。