CN117556902A

CN117556902A - 一种网络目标隐藏属性推理方法及装置

Info

Publication number: CN117556902A
Application number: CN202311545545.6A
Authority: CN
Inventors: 李宝静; 任传伦; 张先国; 杨天长; 刘策越; 邝野; 徐明烨; 尹誉衡
Original assignee: Cetc Cyberspace Security Research Institute Co ltd; CETC 15 Research Institute
Current assignee: Cetc Cyberspace Security Research Institute Co ltd; CETC 15 Research Institute
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2024-02-13

Abstract

本发明公开了一种网络目标隐藏属性推理方法及装置，所述方法包括获取初始训练集；利用所述初始训练集构建决策树分类模型；利用所述决策树分类模型，对待测数据源进行定向识别，得到属性标识。可见，本发明提供的方法，采用基于决策树的隐藏属性推理算法，利用机器学习的方法分析目标公开已知的、历史的属性和特点，可以自动预测目标的未知属性和潜在特质，实现网络目标隐藏属性的挖掘。

Description

一种网络目标隐藏属性推理方法及装置

技术领域

本发明涉及网络属性推理技术领域，具体涉及一种网络目标隐藏属性推理方法及装置。

背景技术

网络目标数据中缺失、不完整、未知或隐含的属性信息即为目标隐藏属性。由于现实环境下各种情报获取渠道易受到诸多因素的干扰，大量网络目标属性存在缺失和未知的情况，比如关联关系、业务能力、控守情况等，像一个“黑匣子”，对网络目标分析和数据应用带来阻碍。挖掘网络目标隐藏属性，对于掌握网络目标完整态势、预测目标未来行动都具有重要作用。传统的隐藏属性推理方法多依赖人工主观判断，难以适用于种类繁多的网络目标属性，因此，需要一种自动化程度高的隐藏属性推理方法。

发明内容

为解决上述问题，本发明提供一种网络目标隐藏属性推理方法及装置，采用基于决策树的隐藏属性推理算法，利用机器学习的方法分析目标公开已知的、历史的属性和特点，自动预测目标的未知属性和潜在特质，实现网络目标隐藏属性的挖掘。

为达到上述目的，本发明实施例第一方面公开了一种网络目标隐藏属性推理方法，所述方法包括：

S1、获取初始训练集；所述初始训练集包括N个训练数据；所述N个训练数据中包含有缺失属性数据；

S2、利用所述初始训练集构建决策树分类模型；

S3、利用所述决策树分类模型，对待测数据源进行定向识别，得到属性标识。

作为一种可选的实施方式，在本发明实施例第一方面中，所述利用所述初始训练集构建决策树分类模型，包括：

S21、对所述初始训练集进行预处理，得到训练集；

S22、利用所述训练集构建初始决策树模型；

S23、对所述初始决策树模型进行后剪枝处理，得到决策树分类模型。

作为一种可选的实施方式，在本发明实施例第一方面中，所述对所述初始训练集进行预处理，得到训练集，包括：

S211、对所述初始训练集中原始缺失属性序列进行缺值属性填补，得到第一训练集；

S212、对所述第一训练集中的连续属性进行离散化处理，得到训练集。

作为一种可选的实施方式，在本发明实施例第一方面中，所述利用所述训练集构建初始决策树模型，包括：以所述训练集中训练数据属性的信息增益率最高为节点分裂属性，构建初始决策树模型。

作为一种可选的实施方式，在本发明实施例第一方面中，所述利用所述决策树分类模型，对待测数据源进行定向识别，得到属性标识，包括：

S31、利用所述决策树分类模型的分类结果，统计每个类别的k阶特征向量，得到特征矩阵；

S32、基于所述特征矩阵，利用余弦相似度公式，计算所述训练集中训练数据的属性类别间相似度量值，得到属性类别间相似度阈值；

S33、利用所述决策树分类模型，对所述待测数据源进行处理，得到所述待测数据源的未知列属性；

S34、对所述未知列属性与已知分类属性进行处理，得到最小相似距离；

S35、对所述最小相似距离和所述相似度阈值进行判决，得到属性类别；所述属性类别包括已知类别、新类别；

S36、如果所述属性类别判决为已知类别，则输出所述未知列属性的类别，方法结束；

如果所述属性类别判决为新类别，则利用所述未知列属性优化所述决策树分类模型，利用优化后的决策树分类模型对待测试数据源进行处理，得到待测试数据源的属性标识。

作为一种可选的实施方式，在本发明实施例第一方面中，所述基于所述特征矩阵，利用余弦相似度公式，计算所述训练集中训练数据的属性类别间相似度量值，得到属性类别间相似度阈值，包括：

S321、根据余弦相似度公式，利用相似性度量函数计算出所述k阶特征矩阵中任意两个属性类别间的相似性度量值，得到相似性度量值集；

S322、对所述相似性度量值集进行处理，得到相似度阈值。

作为一种可选的实施方式，在本发明实施例第一方面中，所述对所述未知列属性与已知分类属性进行处理，得到最小相似距离，包括：

利用最小相似距离公式，对所述未知列属性与已知分类属性进行处理，得到最小相似距离；

所述最小相似距离公式为：

d_min＝min{sim(L_x,L_m)}

式中，d_min表示最小相似距离；L_x表示未知列属性；L_m表示任意已知分类属性。

作为一种可选的实施方式，在本发明实施例第一方面中，所述利用所述未知列属性优化所述决策树分类模型，利用优化后的决策树分类模型对待测试数据源进行处理，得到待测试数据源的属性标识，包括：

对所述未知列属性进行特征选择，得到最佳属性序列；

利用最佳属性序列加入训练集，利用更新后的训练集对所述决策树分类模型优化，得到最优决策树分类模型；

利用所述最优决策树分类模型，对所述未知列属性进行定向迭代识别，得到待测试数据源的属性标识。

本发明实施例第二方面公开了一种网络目标隐藏属性推理装置，所述装置包括：

获取模块，用于获取初始训练集；所述初始训练集包括N个训练数据；所述N个训练数据中包含有缺失属性数据；

决策树构建模块，利用所述初始训练集构建决策树分类模型；

属性识别模块，利用所述决策树分类模型，对待测数据源进行定向识别，得到属性标识。

与现有技术相比，本发明实施例具有以下有益效果：

一是，针对连续属性离散化处理效率低下，在对训练集进行缺失属性补全的前提下，通过划分样本子集、基于有序序列的分割阈值确定、简化查找顺序等方法，优化了连续属性离散化处理过程，辅助提高算法执行效率；

二是，针对未知类别对象无法挖掘隐藏属性进行定向识别问题，结合二进制粒子群优化算法提升决策树模型的可扩展性和模型自适应性，通过选取合理的未知类别属性，能够训练生成新决策树模型，进而针对未知的新类别挖掘其隐藏属性标识，实现未知类别对象的推理分类。

附图说明

图1为本发明实施例公开的一种网络目标隐藏属性推理方法流程示意图；

图2为本发明实施例公开的一种网络目标隐藏属性推理装置结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明公开了一种网络目标隐藏属性推理方法及装置采用基于决策树的隐藏属性推理算法，利用机器学习的方法自动预测目标的未知属性和潜在特质。

决策树算法作为数据挖掘中用于预测分析的一种典型分类方法，相较于支持向量机、逻辑回归、神经网络算法，具有效率高、易训练、易实施和通用性的优势。其实质是将隐藏属性的推理转化为二元或多元分类问题，从训练集找出能够区分不同目标的有效属性特征，根据不同的属性值建立决策树的分支结构并递归执行，直到所有样本都在同一个分支上，完成该类别的分类。当前决策树算法能够对不完整数据进行处理，完成对连续属性离散化的处理，但是存在以下不足：

一是，处理连续属性计算量大、效率低下。在连续型属性离散化时，算法要在任意一个属性的不同取值中插入若干个分割点，再计算所有分割点的信息增益率，选择其中信息增益率最大的分割阈值作为连续型属性的最佳分割阈值。当决策树的节点数量比较多、连续型属性数量比较多、连续型属性中任意一个属性取值又比较多时，算法涉及大量的对数运算、对数据集重复的进行扫描计算和排序，降低了分类的效率。

二是，不能处理未知对象分类。决策树模型基于训练集进行训练，当某个新类别对象超出训练集涵盖范围时，决策树模型算法缺乏扩展性，无法自动扩展训练集内容，进而无法自动调整模型算法，导致未知对象隐藏属性定向识别能力缺失。

本发明对决策树算法进行改进：

二是，针对未知类别对象无法挖掘隐藏属性进行定向识别问题，结合二进制粒子群优化算法提升决策模型的可扩展性和模型自适应性，通过选取合理的未知类别属性，能够训练生成新决策树模型，进而针对未知的新类别挖掘其隐藏属性标识，实现未知类别对象的推理分类。以下通过实施例进行详细说明。

实施例一

请参阅图1。图1为本发明实施例公开的一种网络目标隐藏属性推理方法流程示意图。如图1所示，该网络目标隐藏属性推理方法可以包括以下操作：

S1、获取初始训练集；

本发明实施例中，上述初始训练集包括N个训练数据，且上述N个训练数据中包含有缺失属性数据；上述训练数据来自于UCI公共标准数据库，包括：(1)Soybean数据集(35个属性，训练样本683个)；(2)Spam数据集(57个属性，训练样本4601个)；(3)Letter数据集(316个属性，训练样本20000个)；(4)Horse colic数据集(27个属性，训练样本368个)。

S2、利用所述初始训练集构建决策树分类模型；

可见，实施本发明实施例所描述的网络目标隐藏属性推理方法，利用决策树分类，对待测数据源进行定向识别，实现了对网络目标的隐藏属性的识别。

需要说明的是，在本发明实施例中定义：

训练集中，训练数据的属性A的个数为m,即A＝{v₁,……v_m},Gain为信息增益,分别以某个属性值v_i,其中1≤i≤m-1，按照v＝(v_i+v_i+1)/2将属性集合A划分为2个样本集：A₁＝{v_j|v_j≤v}、A₂＝{v_j|v_j＞v}，计算按v_i所计算出的v划分所得到的信息增益Gain_v；

相关概念说明。

熵。熵是信息论中的概念，假设数据集合D，熵的计算公式为:

式中,Pr(c_j)表示c_j类在数据集D中的概率，当熵越小，数据越纯净，所以，熵可作为数据混杂度或混乱度的衡量指标。

信息增益。信息增益可以衡量混杂度或混乱度的减少量。假设A_i是D的属性，可取v个值，则D可划分成v个不相交的子集D₁,D₂,…,D_v，划分后D的熵为:

则属性A_i的信息增益计算为:

Gain(D,A_i)＝entropy(D)-entropy(A_i,D)

信息增益率。信息增益偏向选择取值较多的属性，为了修正这种偏袒性，利用数据集的相对于属性值分布的熵归一化信息增益，使得熵都是相对于累属性的，称为信息增益率，计算为：

式中,s表示属性A_i的可能取值数目，D_j表示D中具有属性第j个值的子集。

在另一个可选的实施例中，上述步骤S2中利用所述初始训练集构建决策树分类模型，包括：

S21、对所述初始训练集进行预处理，得到训练集；

S22、利用所述训练集构建初始决策树模型；

在该可选的实施例中，上述步骤S21中对所述初始训练集进行预处理，得到训练集，包括：

S211、对所述初始训练集中原始缺失属性序列进行缺值属性填补，得到第一训练集；包括：

S2111、对所述初始训练集中训练数据进行采样处理，得到处理后属性序列，具体的：

a1、针对训练数据的原始缺失属性序列X，将缺失属性值以此替换为NULL，在原始缺失属性序列X的结束位置设置结束符号#；

a2、将训练属性看作具有一定规律的采样信号，根据香浓采用定律，选取信号最高频率的5-10倍作为采样频率；

a3、根据采样频率f进行抽样：如果采样抽取到某一个属性值为NULL，则继续下一个属性值的抽取；如果采样抽取到某一个属性值不为NULL，就将抽取的属性值存储到处理后属性序列中；

a4、直至抽取到#结束符号，抽样结束，得到处理后属性序列。

S2112、利用所述处理后属性序列，对训练数据的原始缺失属性序列X进行填充处理，得到第一训练集，具体的：

b1、读取原始缺失属性序列X；

b2、逐项扫描属性值，如果某原始属性值为NULL，则从处理后属性序列中抽取数据填入该属性位；如果某原始属性值不为NULL，判断是否为#结束符号；

b3、如果未到原始缺失属性序列X的结尾，则继续逐项扫描属性值；

b4、如果到原始缺失属性序列X的结尾，则填充结束，得到第一训练集。

S212、对所述第一训练集中的连续属性进行离散化处理，得到训练集，具体的：

将所述第一训练集中的训练数据按照连续属性A的值升序或降序排列；

为了提升离散化处理效率，增加变量参数M＝{i|2≤i≤m-1},Gain_m＝{Max(Gain_i)|2≤i≤m-1},M初始值为1，Gain_m初始值为0；

分别以某个属性值v_i,2≤i≤m-1，按照v_i将属性集合A划分为2个样本集：A₁＝{v_j|1≤j≤i}、A₂＝{v_j|i＜j≤m}，计算按v_i所计算出的v划分所得到的信息增益Gain_i,如果Gain_j≥Gain_m，则记M＝i,Gain_m＝Gain_j。确定{v₁,……v_m}中v_m为属性A的分割阈值。

采用上述方法将训练集中训练数据的连续属性进行离散化处理，得到训练集。

可见，实施本发明实施例所描述的网络目标隐藏属性推理方法，首先对训练集进行缺失属性进行了补全，通过划分样本子集、基于有序序列的分割阈值确定、简化查找顺序等方法，优化了连续属性离散化处理过程，辅助提高算法执行效率，解决了现有算法连续属性离散化处理效率低的问题。

在另一个可选的实施例中，上述利用所述训练集，以所述训练集中训练数据属性的信息增益率最高为节点分裂属性，构建初始决策树模型，具体的：

c1、根据全部训练数据，创建根节点N；

c2、如果训练集为空，则返回节点N，转向步骤S23；

c3、如果训练集不为空，则判断当前节点里的数据所属类别；

c4、如果数据属性都属于同一类C，则返回N为叶结点，标记为类C，转向步骤S23；

c5、如果该节点里的数据不全都属于同一类C，则判断当前属性类型，如果属性为连续型时，则根据信息增益进行离散化处理，找出该属性的分割阈值；

c6、连续型属性离散化处理完毕，或者当前属性为离散型时，计算每一个属性的信息增益率；

c7、选择信息增益率最高的属性，标记为N，作为分裂属性；

c8、根据步骤c6中属性取值的分裂，创建相应的分支，每一个分支对应一种取值划分，并根据取值的划分对之前节点进行划分。

c9、判断节点是否属于同一个类标，如果是，转向步骤c4，如果不是，转向步骤c5,依次递归；

c10、当遇到以下任意一种情况，递归构建结束：

给定节点的数据全部属于同一类标；

或，属性集己经全部参与划分，最后的叶子节点以多数类标来标注；

或，通过某一属性分裂后的数据集没有记录，那么就以分裂前的节点的类标来标注。

在该可选的实施例中，上述对所述初始决策树模型进行后剪枝处理，得到决策树分类模型，具体的：

计算每个结点的分类错误率，进行树剪枝；

从叶子节点开始，用训练集或准备好的测试集来估计剪枝前后的误差，如果误差小于选定的阔值，则减掉该分支，然后逐步向根节点进行剪枝。

在又一个可选的实施例中，上述利用所述决策树分类模型，对待测数据源进行定向识别，得到属性标识，包括：

在该可选的实施例中，上述利用所述决策树分类模型的分类结果，统计每个类别的k阶特征向量，得到特征矩阵，包括：

d1、将决策树的分支结果，分别记录为不同属性类；

d2、选取属性类C、D，其中，属性类C有n个不同取值，C₁、……、C_n；属性类D有m个不同取值，D₁、……、D_m，C_rj表示属性类C取C_r的记录中属于D_j的记录数。则C的不同取值下的各种D属性的记录分布可用矩阵表示；

d3、以矩阵列为维度，划分矩阵向量，得到k阶特征向量L_k；

d4、将所有类别的k阶特征向量进行组合，得到特征矩阵。

在该可选的实施例中，上述基于所述特征矩阵，利用余弦相似度公式，计算所述训练集中训练数据的属性类别间相似度量值，得到属性类别间相似度阈值，包括：

上述余弦相似度公式为：

式中，sim()表示相似度，，L_m，L_n为根据不同的属性类的特征取值特点，确定的特征向量。m,n代表当前测试数据集中所有属性类的某个特定阶数的具体值。

S322、对所述相似性度量值集进行处理，得到相似度阈值；具体的：

选取所有不同属性类向量之间的相似度值分别进行比较，相似矩阵中的最小值即为属性类间的最小类别代价，计算公式如下：

θ＝min{sim(L_m,L_n)}

式中，θ表示相似度阈值；L_m,L_n不同属性类向量之间的相似度值。

在该可选的实施例中，利用所述决策树分类模型，对所述待测数据源进行处理，得到所述待测数据源的未知列属性，包括：

根据决策树分类，按列维度空间进行预处理得到标识列的k阶特征向量，得到待测数据源的未知列属性。

在该可选的实施例中，上述所述对所述未知列属性与已知分类属性进行处理，得到最小相似距离，包括：

所述最小相似距离公式为：

d_min＝min{sim(L_x,L_m)}

在又一个可选的实施例中，上述利用所述未知列属性优化所述决策树分类模型，利用优化后的决策树分类模型对待测试数据源进行处理，得到待测试数据源的属性标识，包括：

e1、将新类别对象的每个属性看作遗传粒子，进行属性特征粒子群初始化；

e2、计算每个属性特征粒子的适应度值；

e3、根据适应度值更新个体极值p_i和全局极值p_g。其中，p_i＝[p_i1……p_id]，是第i个粒子在迭代过程中到目前为止的最好位置p_g＝[p_g1……p_gd])，是所有粒子中适应度值最好的粒子；

e4、更新粒子的位置和粒子位置的变化概率；

e5、如果不满足迭代次数达到最大或全局最优解满足最小界限，则跳转步骤e2；

e6、否则，新类别属性选择结束，全局极值最为当前新类别对象的属性集合；

e7、新类别加入决策树；

e8、采用十次交叉验证，取十次实验准确率的平均值，比较新旧决策树模型的分类准确率；

e9、如果新模型分类准确率低于旧模型，则跳转步骤e1；

e10、否则，则表明该新类别对象属性选取合理，进而生成新决策树模型。

实施例二

请参阅图2。图2为本发明实施例公开的一种网络目标隐藏属性推理装置结构示意图。

如图2所示，本发明实施例公开的一种网络目标隐藏属性推理装置，包括：

获取模块201，用于获取初始训练集；所述初始训练集包括N个训练数据；所述N个训练数据中包含有缺失属性数据；

决策树构建模块202，利用所述初始训练集构建决策树分类模型；

属性识别模块203，利用所述决策树分类模型，对待测数据源进行定向识别，得到属性标识。

实施例二公开的一种网络目标隐藏属性推理装置，是实施例一公开的一种网络目标隐藏属性推理方法对应的产品实施例，具体处理步骤及方法相同，在实施例二中不再赘述。

以上所描述的装置实施例仅是示意性的，其中作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

最后应说明的是：本发明实施例公开的一种网络目标隐藏属性推理方法及装置所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims

1.一种网络目标隐藏属性推理方法，其特征在于，所述方法包括：

S2、利用所述初始训练集构建决策树分类模型；

2.根据权利要求1所述的网络目标隐藏属性推理方法，其特征在于，所述利用所述初始训练集构建决策树分类模型，包括：

S21、对所述初始训练集进行预处理，得到训练集；

S22、利用所述训练集构建初始决策树模型；

3.根据权利要求2所述的网络目标隐藏属性推理方法，其特征在于，所述对所述初始训练集进行预处理，得到训练集，包括：

4.根据权利要求1所述的网络目标隐藏属性推理方法，其特征在于，所述利用所述训练集构建初始决策树模型，包括：以所述训练集中训练数据属性的信息增益率最高为节点分裂属性，构建初始决策树模型。

5.根据权利要求1所述的网络目标隐藏属性推理方法，其特征在于，所述利用所述决策树分类模型，对待测数据源进行定向识别，得到属性标识，包括：

6.根据权利要求3所述的网络目标隐藏属性推理方法，其特征在于，所述基于所述特征矩阵，利用余弦相似度公式，计算所述训练集中训练数据的属性类别间相似度量值，得到属性类别间相似度阈值，包括：

S322、对所述相似性度量值集进行处理，得到相似度阈值。

7.根据权利要求3所述的网络目标隐藏属性推理方法，其特征在于，所述对所述未知列属性与已知分类属性进行处理，得到最小相似距离，包括：

所述最小相似距离公式为：

d_min＝min{sim(L_x,L_m)}

8.根据权利要求5所述的网络目标隐藏属性推理方法，其特征在于，所述利用所述未知列属性优化所述决策树分类模型，利用优化后的决策树分类模型对待测试数据源进行处理，得到待测试数据源的属性标识，包括：

对所述未知列属性进行特征选择，得到最佳属性序列；

9.一种网络目标隐藏属性推理装置，其特征在于，所述装置包括：