CN112651430A

CN112651430A - 一种面向网络分类模型的数据增强方法

Info

Publication number: CN112651430A
Application number: CN202011451532.9A
Authority: CN
Inventors: 宣琦; 沈杰; 周嘉俊; 俞山青
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-04-13

Abstract

一种面向网络分类模型的数据增强方法，包括：加载网络数据集，将化合物网络数据集划分为训练集、测试集和验证集，训练集和验证集预训练网络分类模型，得到分类模型类标可靠度阈值；对训练集中的原始网络使用数据映射策略生成新网络；计算新网络的类标可靠度与分类模型的类标可靠度阈值比较，将类标可靠度大于分类模型类标可靠度阈值的新网络作为扩充样本生成扩充集，将所述扩充集和所述训练集合并得到新的训练集；利用新的训练集重新训练网络分类模型。本发明能有效提升小型标准网络数据集的数据规模，提升数据质量，实现网络数据增强；能有效提升模型的分类性能，且时间复杂度较低，运算速度快。

Description

一种面向网络分类模型的数据增强方法

技术领域

本发明涉及网络分类图像数据增强技术领域，特别是涉及一种面向网络分类模型的数据增强方法。

背景技术

网络分类是网络科学中重要的学习任务，被广泛应用于生物化学和网络科学领域。不同于节点层面的任务，网络分类需要关注网络的全局信息，这既包含了网络的结构信息，也包含各个节点的属性信息。给定多个网络，以及每个网络对应的类标，网络分类任务需要通过学习得到一个由网络到对应类标的网络分类模型，模型的重点在于如何通过学习得到一个优秀的网络表示向量。虽然近年来，基于核、嵌入以及图神经网络的网络分类方法得到了极大的发展，但数据规模的限制使得这些模型容易陷入过拟合和弱泛化的问题，由于网络数据的特殊性质，将传统的图像数据增强技术直接应用到网络数据上面临着诸多挑战，如：传统数据增强技术无法对不规则的网络数据进行几何变换，且传统数据增强技术处理的样本符合机器学习算法的样本独立同分布假设，这与网络的结构依赖性相悖。

发明内容

本发明要克服上述现有技术存在的问题，提供一种面向网络分类模型的数据增强方法，从实际需求和应用的角度出发，设计出一个完整的面向网络分类模型的数据增强方案。

本发明提供一种面向网络分类模型的数据增强方法，包括如下步骤：

S1：加载化合物网络数据集，构建图核模型与传统机器学习模型；具体包括：

加载包含t个网络的化合物网络数据集D＝{(G_i,y_i)|i＝1,...,t}，其中 G＝(V,E)，表示数据集中的无向网络，V＝{v_i|i＝1,...,n}和E＝{e_i|i＝1,...,m} 分别表示网络中的n个节点和m条连边的集合，v_i和e_i分别表示网络中的任意节点和边，i表示网络、节点或边的ID,y为网络的类标，网络的结构可以由邻接矩阵A＝{A_ij}_n×n表示，其中

i和j表示矩阵A的第i行第j列，A_ij是矩阵A第i行第j列的那个值，构建图核模型与传统机器学习模型；

S2：将图核模型与传统机器学习模型组合，得到网络分类模型；

S3：将化合物网络数据集划分为训练集D_train、测试集D_test和验证集D_val，通过所述训练集和验证集预训练所述网络分类模型，得到分类模型类标可靠度阈值θ。具体包括：

S3-1：将验证集D_val中的每一个样本输入网络分类模型，获得验证集的样本预测概率向量

其中|Y|表示数据集的标签类别数，

表示维度为|Y|的实数向量集合；

S3-2：通过验证集的所有样本预测概率向量p_i，计算验证集的第 k类标签的平均概率向量q_k：

Ω_k表示验证集中属于第k类的样本数量，y_i＝k表示所选的样本均为第k类，第k类标签的平均概率向量相当于验证集中所有属于第k类的样本的预测概率向量取均值；

S3-3：对k类标签的平均概率向量q_k拼接，得到分类模型的概率混淆矩阵

用于存储概率：

Q＝[q₁,q₂,...,q_|Y|]＝{q_ij}_|Y|×|Y| (2)

概率混淆矩阵Q的大小为|Y|×|Y|，概率混淆矩阵中的元素q_ij表示分类模型将第i类样本识别为第j类的概率；

S3-4：验证集的样本类标可靠度r_i为验证集的样本预测概率向量 p_i和验证集的标签类概率向量

的内积，T表示向量转置：

S3-5：基于优化方程对所有验证集样本的类标可靠度r_i进行可靠度优化，得到分类模型的类标可靠度阈值θ：

其中，

表示验证集的样本是否预测正确，C(G_i) 表示分类模型C对样本G_i预测输出预测标签，argmin表示优化方程达到最小值时θ的取值，

是一个自定义的赋值函数，就表示x大于0时，取值为1，小于等于0时，取值为0；

S4：针对训练集中的每一个原始网络，使用数据映射策略扩充生成新网络，将扩充生成的新网络存入数据池D_pool；具体包括：

S4-1：获取候选增边集合：给定任意原始网络G，在任意原始网络G中寻找长度为2的路径模体motif，通过邻接矩阵的乘方进行路径搜索，寻找模体motif，A^m(矩阵A的m次方)所代表的意义就是，在点与点之间走m步能够到达的方案总数，任意原始网络G中所有模体motif可以用A²来获取，通过模体motif的头尾节点对(v_i,v_j)构成候选增边集合

可以表示为：

候选增边集合中包含了所有模体motif的头尾节点对；

S4-2：利用资源分配指标计算候选增边集合

中每对候选节点对(v_i,v_j)归一化的相似性分数s_ij：

其中，Γ(i)表示节点v_i的一阶邻居，d_z表示节点v_z的度值，S集合包含了所有候选节点对的相似性分数，进一步使用加权随机采样的方式对候选节点对进行连接，通过计算候选节点对的归一化相似性分数得到候选节点对的权重

在计算

的过程中，

表示对S集合中的所有元素求和，W_add为增边权重集合，增边权重集合W_add包含了所有候选节点对的采样权重；

S4-3：根据增边权重集合W_add对候选增边集合

进行加权随机采样，获得增边集合E_add，

其中，β为采样比例，m为原始网络G的边数，βm为两者的乘积取整，表示增加的边的数量，e_i代表i条边；

S4-4：根据增边集合E_add中的每对节点对(v_i,v_j)，有长度为2的路径

删边的过程中采用加权随机采样的方式选择一条边进行删除，最终得到新的motif(a-i-j或i-j-a)，按公式计算构成模体motif的所有的边e_i的相似性分数s_e，获得相似性分数集合S：

通过加权随机采样的方式选择候选边进行删除，候选边e的权重

按如下公式计算：

删边权重集合W_del包含了所有候选边的采样权重，采样一条边进行删除，所有motif在增加一条边的同时均需要删除一条边，所有待删除的边构成删边集合E_del；

S4-5：根据增边集合E_add和删边集合E_del，对原始网络G进行更新，生成新网络G'，存入数据池D_pool：

G'＝(V,(E∪E_add)\E_del) (11)

S5：提取数据池D_pool中新网络，计算新网络的类标可靠度，并与分类模型的类标可靠度阈值θ比较，将类标可靠度大于分类模型类标可靠度阈值θ的新网络作为扩充样本，基于扩充样本生成扩充集，将所述扩充集和所述训练集合并得到新的训练集；具体包括：

S5-1：通过公式

计算数据池D_pool中新网络生成样本的类标可靠度r_i，并与分类模型的类标可靠度阈值θ比较，类标可靠度大于阈值θ的存入扩充集D'_train；

S5-2：新的训练集由初始训练集D_train和扩充集D'_train合并得到：

D'_train是D_pool的子集；

S6：利用得到的新的训练集重新训练网络分类模型，得到新的网络分类模型C'。

优选地，步骤S1所述化合物网络数据集为PTC_MR网络数据集(公鼠致癌物数据集)，该数据集信息为：344个网络，2类，平均节点14.29，平均边14.69。

优选地，所述S3中通过所述测试集,评价预训练网络分类模型训练的效果，得到的平均分类精度为47.1％。

优选地，步骤S3-3中，得到分类模型的概率混淆矩阵为：

步骤S3-4中，得到的分类模型的类标可靠度阈值为θ＝0.4657611247：

优选地，步骤S5中，最终筛选得到的扩充新样本个数为198。

优选地，步骤S6中利用得到的新训练集重训练网络分类模型，得到新的网络分类模型C'，新模型在测试集上的精度为51.4％，模型的分类性能得到了显著的提升。

本发明能有效提升小型标准化合物网络数据集的数据规模，提升数据质量，实现网络数据增强；更进一步，扩充后的数据集用于重训练网络分类模型，能有效提升模型的分类性能，本发明时间复杂度较低，运算速度快。

附图说明

图1是本发明方法的流程图；

图2是本发明方法的总体架构；

图3是本发明方法的开放式三角链式motif示意图；

图4是本发明方法的motif的边修改过程示意图；

图5是本发明方法的面向SF网络分类模型的mutag数据增强流程图。

具体实施方式

下面将结合本实施例中的附图，对本发明实施例中的技术方法进行清楚：完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1-5所示，本发明提供一种面向网络分类模型的数据增强方法，包括以下步骤；

S1：加载包含t个网络的化合物网络数据集D＝{(G_i,y_i)|i＝1,...,t}，其中G＝(V,E)，表示数据集中的无向网络，V＝{v_i|i＝1,...,n}和 E＝{e_i|i＝1,...,m}分别表示网络中的n个节点和m条连边的集合，v_i和e_i分别表示网络中的任意节点和边，i表示网络、节点或边的ID,y为网络的类标，网络的结构可以由邻接矩阵A＝{A_ij}_n×n表示，其中

S3：将数据集按比例划分为训练集D_train、测试集D_test和验证集D_val，其中训练集和验证集用于预训练网络分类模型C，将验证集D_val中的每一个样本输入网络分类模型，得到分类模型的类标可靠度阈值θ；

其中|Y|表示数据集的标签类别数，

表示维度为|Y|的实数向量集合；

用于存储概率：

Q＝[q₁,q₂,...,q_|Y|]＝{q_ij}_|Y|×|Y| (2)

的内积，T表示向量转置：

其中，

S4：针对训练集D_train中的每一个原始网络G，使用数据映射策略扩充生成新网络，将扩充生成的新网络存入数据池D_pool；

可以表示为：

候选增边集合中包含了所有模体motif的头尾节点对；

S4-2：利用资源分配指标计算候选增边集合

中每对候选节点对(v_i,v_j)归一化的相似性分数s_ij：

在计算

的过程中，

S4-3：根据增边权重集合W_add对候选增边集合

进行加权随机采样，获得增边集合E_add，

按如下公式计算：

G'＝(V,(E∪E_add)\E_del) (11)

S5：将验证集D_val中的每一个样本输入训练好的网络分类模型，得到分类模型的类标可靠度阈值θ；

S5-1：通过公式

D'_train是D_pool的子集；

S6：利用得到的新训练集重新训练网络分类模型，得到新的网络分类模型C'，新模型在测试集上的精度明显提升。

本发明提供的网络分类一般应用于生物、化合物领域。比如说蛋白质、酶等化合物的分子结构可以看成是一个网络图，其中节点表示原子，边表示化学键。网络分类一般用于对这些化合物从结构层面进行区分，比如说判断该种化合物是否具有致癌性、毒性、诱变性等。

本发明能有效提升小型标准网络数据集的数据规模，提升数据质量，实现网络数据增强；能有效提升模型的分类性能，且时间复杂度较低，运算速度快。

为了进一步验证本发明一种面向网络分类模型的数据增强方法，本实施例使用了PTC_MR网络数据集(公鼠致癌物数据集)和NetLSD 网络分类模型对本发明进行解释；

S1：加载PTC_MR网络数据集D＝{(G_i,y_i)|i＝1,...,344}；

S2：数据集按7:2:1的比例划分为训练集D_train、测试集D_test和验证集D_val。其中训练集和验证集用于预训练SF网络分类模型C，测试精度为47.1％；

S3：针对训练集中的每一个网络G，使用数据映射策略扩充生成新网络，获得的新网络存入数据池D_pool，具体操作步骤如下：

S3-1、给定原始网络G(id＝1)，如图5原始网络所示，原始网络节点数为8，边数为8，按公式

寻找到共9个指定类型的模体motif，将对应的节点对存入

S3-2：利用公式

计算候选增边集合

中每对候选节点(v_i,v_j)的相似性分数，存入S，按公式计算每个节点对的归一化相似性分数，得到其采样权重，存入增边权重集合W_add；

S3-3：根据增边权重集合W_add对候选增边集合

进行加权随机采样，获得增边集合E_add，这里采样比例β＝0.15，m＝8,βm＝1，需要采样1个节点对进行增边，如图5所示，结合计算得到的相似性分数，例如

其中(v_a,v_c)有更大的相似性分数，对应的采样权重更大，被采样的概率更大，假设这里节点对(v_a,v_c)被采样，那么增边集合E_add＝{(v_a,v_c)}；

S3-4：得到了增边集合E_add，确定了需要加边的模体motif，增边的过程中连接节点对(v_a,v_c)，下一步执行删边，删边过程也在模体 motif上进行；针对motif(a-b-c)，有相当于长度为2的路径

按公式

计算构成该模体motif的所有的边e的相似性分数s_e，获得相似性分数集合S＝{s_ab＝0,s_bc＝0}，两条边的相似性分数相同，故采样权重也相同，随机采样边(v_b,v_c)进行删除，综上，所有待删除的边构成删边集合 E_del＝{(v_b,v_c)}；

S3-5：根据增边集合E_add和删边集合E_del，按公式 G'＝(V,(E∪E_add)\E_del)对原始网络G进行更新，将增边集合中的边添加到网络中，将删边集合中的边，在网络中删除，生成新网络G'，存入数据池D_pool；

S4：针对新生成的网络的标注问题，利用数据筛选策略，选择类标可靠度高的新网络作为扩充样本，操作步骤如下：

S4-1：将验证集D_val中的每一个样本G_i输入网络分类模型C，获得预测概率向量

即PTC_MR是二分类数据集；

S4-2：根据验证集的所有样本的预测概率向量，计算类标的平均概率向量q₁＝[0.45517183,0.54482817]，q₂＝[0.34709629,0.65290371]]，分类模型的概率混淆矩阵

可以由所有标签类的概率向量q_k拼接得到：

S4-3：该分类模型的类标可靠度阈值θ由所有验证集样本的类标可靠度r_i优化得到θ＝0.4657611247；

S4-4：按公式

计算数据池D_pool中的生成样本(弱标注)的类标可靠度，并与阈值θ比较，类标可靠度大于阈值的存入扩充集 D'_train。最终扩充的新样本个数为198，新的训练集由初始训练集D_train和扩充集D'_train合并得到：

S5：利用得到的新训练集重训练网络分类模型，得到新的网络分类模型C'，新模型在测试集上的精度为51.4％，模型的分类性能得到了显著的提升。得到的新模型可以用于公鼠致癌物分类与检测，判断一种化合物是否能诱导公鼠基因突变，诱发癌症。同时，根据训练使用的数据集的不同，得到优化后的模型可以用于不同的场景，如药物毒性检测，蛋白质分类等。

本发明得到的新的网络分类模型C'的具体应用点可以落到药物分类、蛋白质分类、化合物分类等，能够应用于化合物致癌性检测、毒性检测中；因为上述这些任务用到的数据集规模较小，训练出来的模型会过拟合，为了缓解过拟合的问题，本发明针对网络数据提出了数据增强方法，用来缓解过拟合问题，提高分类模型的性能，取得了良好的效果。

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种面向网络分类模型的数据增强方法，其特征在于，包括如下步骤：

加载包含t个网络的化合物网络数据集D＝{(G_i,y_i)|i＝1,...,t}，其中G＝(V,E)表示数据集中的无向网络，V＝{v_i|i＝1,...,n}和E＝{e_i|i＝1,...,m}分别表示网络中的n个节点和m条连边的集合，v_i和e_i分别表示网络中的任意节点和边，i表示网络、节点或边的ID,y为网络的类标，网络的结构可以由邻接矩阵A＝{A_ij}_n×n表示，其中