CN112651430A - 一种面向网络分类模型的数据增强方法 - Google Patents

一种面向网络分类模型的数据增强方法 Download PDF

Info

Publication number
CN112651430A
CN112651430A CN202011451532.9A CN202011451532A CN112651430A CN 112651430 A CN112651430 A CN 112651430A CN 202011451532 A CN202011451532 A CN 202011451532A CN 112651430 A CN112651430 A CN 112651430A
Authority
CN
China
Prior art keywords
network
classification model
edge
class
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011451532.9A
Other languages
English (en)
Inventor
宣琦
沈杰
周嘉俊
俞山青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202011451532.9A priority Critical patent/CN112651430A/zh
Publication of CN112651430A publication Critical patent/CN112651430A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种面向网络分类模型的数据增强方法,包括:加载网络数据集,将化合物网络数据集划分为训练集、测试集和验证集,训练集和验证集预训练网络分类模型,得到分类模型类标可靠度阈值;对训练集中的原始网络使用数据映射策略生成新网络;计算新网络的类标可靠度与分类模型的类标可靠度阈值比较,将类标可靠度大于分类模型类标可靠度阈值的新网络作为扩充样本生成扩充集,将所述扩充集和所述训练集合并得到新的训练集;利用新的训练集重新训练网络分类模型。本发明能有效提升小型标准网络数据集的数据规模,提升数据质量,实现网络数据增强;能有效提升模型的分类性能,且时间复杂度较低,运算速度快。

Description

一种面向网络分类模型的数据增强方法
技术领域
本发明涉及网络分类图像数据增强技术领域,特别是涉及一种面 向网络分类模型的数据增强方法。
背景技术
网络分类是网络科学中重要的学习任务,被广泛应用于生物化学 和网络科学领域。不同于节点层面的任务,网络分类需要关注网络的 全局信息,这既包含了网络的结构信息,也包含各个节点的属性信息。 给定多个网络,以及每个网络对应的类标,网络分类任务需要通过学 习得到一个由网络到对应类标的网络分类模型,模型的重点在于如何 通过学习得到一个优秀的网络表示向量。虽然近年来,基于核、嵌入 以及图神经网络的网络分类方法得到了极大的发展,但数据规模的限 制使得这些模型容易陷入过拟合和弱泛化的问题,由于网络数据的特 殊性质,将传统的图像数据增强技术直接应用到网络数据上面临着诸 多挑战,如:传统数据增强技术无法对不规则的网络数据进行几何变 换,且传统数据增强技术处理的样本符合机器学习算法的样本独立同 分布假设,这与网络的结构依赖性相悖。
发明内容
本发明要克服上述现有技术存在的问题,提供一种面向网络分类 模型的数据增强方法,从实际需求和应用的角度出发,设计出一个完 整的面向网络分类模型的数据增强方案。
本发明提供一种面向网络分类模型的数据增强方法,包括如下步 骤:
S1:加载化合物网络数据集,构建图核模型与传统机器学习模型; 具体包括:
加载包含t个网络的化合物网络数据集D={(Gi,yi)|i=1,...,t},其中 G=(V,E),表示数据集中的无向网络,V={vi|i=1,...,n}和E={ei|i=1,...,m} 分别表示网络中的n个节点和m条连边的集合,vi和ei分别表示网络 中的任意节点和边,i表示网络、节点或边的ID,y为网络的类标,网 络的结构可以由邻接矩阵A={Aij}n×n表示,其中
Figure BDA0002827160490000021
i和j表 示矩阵A的第i行第j列,Aij是矩阵A第i行第j列的那个值,构建 图核模型与传统机器学习模型;
S2:将图核模型与传统机器学习模型组合,得到网络分类模型;
S3:将化合物网络数据集划分为训练集Dtrain、测试集Dtest和验证 集Dval,通过所述训练集和验证集预训练所述网络分类模型,得到分 类模型类标可靠度阈值θ。具体包括:
S3-1:将验证集Dval中的每一个样本输入网络分类模型,获得验 证集的样本预测概率向量
Figure BDA0002827160490000022
其中|Y|表示数据集的标签类别数,
Figure BDA0002827160490000023
表示维度为|Y|的实数向量集合;
S3-2:通过验证集的所有样本预测概率向量pi,计算验证集的第 k类标签的平均概率向量qk
Figure BDA0002827160490000024
Ωk表示验证集中属于第k类的样本数量,yi=k表示所选的样本均为 第k类,第k类标签的平均概率向量相当于验证集中所有属于第k类的 样本的预测概率向量取均值;
S3-3:对k类标签的平均概率向量qk拼接,得到分类模型的概率 混淆矩阵
Figure BDA0002827160490000031
用于存储概率:
Q=[q1,q2,...,q|Y|]={qij}|Y|×|Y| (2)
概率混淆矩阵Q的大小为|Y|×|Y|,概率混淆矩阵中的元素qij表示 分类模型将第i类样本识别为第j类的概率;
S3-4:验证集的样本类标可靠度ri为验证集的样本预测概率向量 pi和验证集的标签类概率向量
Figure BDA0002827160490000032
的内积,T表示向量转置:
Figure BDA0002827160490000033
S3-5:基于优化方程对所有验证集样本的类标可靠度ri进行可靠 度优化,得到分类模型的类标可靠度阈值θ:
Figure BDA0002827160490000034
其中,
Figure BDA0002827160490000035
表示验证集的样本是否预测正确,C(Gi) 表示分类模型C对样本Gi预测输出预测标签,argmin表示优化方程达 到最小值时θ的取值,
Figure BDA0002827160490000036
是一个自定义的赋值函数,就 表示x大于0时,取值为1,小于等于0时,取值为0;
S4:针对训练集中的每一个原始网络,使用数据映射策略扩充生 成新网络,将扩充生成的新网络存入数据池Dpool;具体包括:
S4-1:获取候选增边集合:给定任意原始网络G,在任意原始网 络G中寻找长度为2的路径模体motif,通过邻接矩阵的乘方进行路 径搜索,寻找模体motif,Am(矩阵A的m次方)所代表的意义就是, 在点与点之间走m步能够到达的方案总数,任意原始网络G中所有模 体motif可以用A2来获取,通过模体motif的头尾节点对(vi,vj)构成 候选增边集合
Figure BDA0002827160490000037
可以表示为:
Figure BDA0002827160490000038
候选增边集合中包含了所有模体motif的头尾节点对;
S4-2:利用资源分配指标计算候选增边集合
Figure BDA0002827160490000041
中每对候选节 点对(vi,vj)归一化的相似性分数sij
Figure BDA0002827160490000042
其中,Γ(i)表示节点vi的一阶邻居,dz表示节点vz的度值,S集合包 含了所有候选节点对的相似性分数,进一步使用加权随机采样的方式 对候选节点对进行连接,通过计算候选节点对的归一化相似性分数得 到候选节点对的权重
Figure BDA0002827160490000043
Figure BDA0002827160490000044
在计算
Figure BDA0002827160490000045
的过程中,
Figure BDA0002827160490000046
表示对S集合中的所有元素求和,Wadd为 增边权重集合,增边权重集合Wadd包含了所有候选节点对的采样权重;
S4-3:根据增边权重集合Wadd对候选增边集合
Figure BDA0002827160490000047
进行加权随 机采样,获得增边集合Eadd
Figure BDA0002827160490000048
其中,β为采样比例,m为原始网络G的边数,βm为两者的乘积取 整,表示增加的边的数量,ei代表i条边;
S4-4:根据增边集合Eadd中的每对节点对(vi,vj),有长度为2的 路径
Figure BDA0002827160490000049
删边的过程中采用加权随机采样的方式选择 一条边进行删除,最终得到新的motif(a-i-j或i-j-a),按公式计 算构成模体motif的所有的边ei的相似性分数se,获得相似性分数集 合S:
Figure BDA00028271604900000410
通过加权随机采样的方式选择候选边进行删除,候选边e的权重
Figure BDA0002827160490000051
按如下公式计算:
Figure BDA0002827160490000052
删边权重集合Wdel包含了所有候选边的采样权重,采样一条边进行 删除,所有motif在增加一条边的同时均需要删除一条边,所有待删 除的边构成删边集合Edel
S4-5:根据增边集合Eadd和删边集合Edel,对原始网络G进行更新, 生成新网络G',存入数据池Dpool
G'=(V,(E∪Eadd)\Edel) (11)
S5:提取数据池Dpool中新网络,计算新网络的类标可靠度,并与 分类模型的类标可靠度阈值θ比较,将类标可靠度大于分类模型类标 可靠度阈值θ的新网络作为扩充样本,基于扩充样本生成扩充集,将 所述扩充集和所述训练集合并得到新的训练集;具体包括:
S5-1:通过公式
Figure BDA0002827160490000053
计算数据池Dpool中新网络生成样本的类标 可靠度ri,并与分类模型的类标可靠度阈值θ比较,类标可靠度大于 阈值θ的存入扩充集D'train
S5-2:新的训练集由初始训练集Dtrain和扩充集D'train合并得到:
Figure BDA0002827160490000054
D'train是Dpool的子集;
S6:利用得到的新的训练集重新训练网络分类模型,得到新的网 络分类模型C'。
优选地,步骤S1所述化合物网络数据集为PTC_MR网络数据集(公 鼠致癌物数据集),该数据集信息为:344个网络,2类,平均节点14.29,平均边14.69。
优选地,所述S3中通过所述测试集,评价预训练网络分类模型训 练的效果,得到的平均分类精度为47.1%。
优选地,步骤S3-3中,得到分类模型的概率混淆矩阵为:
Figure BDA0002827160490000061
步骤S3-4中,得到的分类模型的类标可靠度阈值为θ=0.4657611247:
优选地,步骤S5中,最终筛选得到的扩充新样本个数为198。
优选地,步骤S6中利用得到的新训练集重训练网络分类模型, 得到新的网络分类模型C',新模型在测试集上的精度为51.4%,模型 的分类性能得到了显著的提升。
本发明能有效提升小型标准化合物网络数据集的数据规模,提升 数据质量,实现网络数据增强;更进一步,扩充后的数据集用于重训 练网络分类模型,能有效提升模型的分类性能,本发明时间复杂度较 低,运算速度快。
附图说明
图1是本发明方法的流程图;
图2是本发明方法的总体架构;
图3是本发明方法的开放式三角链式motif示意图;
图4是本发明方法的motif的边修改过程示意图;
图5是本发明方法的面向SF网络分类模型的mutag数据增强流 程图。
具体实施方式
下面将结合本实施例中的附图,对本发明实施例中的技术方法进 行清楚:完整地描述,显然,所描述的实施例仅仅是本发明一部分实 施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技 术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属 于本发明保护的范围。
参照图1-5所示,本发明提供一种面向网络分类模型的数据增强 方法,包括以下步骤;
S1:加载包含t个网络的化合物网络数据集D={(Gi,yi)|i=1,...,t}, 其中G=(V,E),表示数据集中的无向网络,V={vi|i=1,...,n}和 E={ei|i=1,...,m}分别表示网络中的n个节点和m条连边的集合,vi和ei分别表示网络中的任意节点和边,i表示网络、节点或边的ID,y为网 络的类标,网络的结构可以由邻接矩阵A={Aij}n×n表示,其中
Figure BDA0002827160490000071
i和j表示矩阵A的第i行第j列,Aij是矩阵A第i行第j列的那个 值,构建图核模型与传统机器学习模型;
S2:将图核模型与传统机器学习模型组合,得到网络分类模型;
S3:将数据集按比例划分为训练集Dtrain、测试集Dtest和验证集Dval, 其中训练集和验证集用于预训练网络分类模型C,将验证集Dval中的 每一个样本输入网络分类模型,得到分类模型的类标可靠度阈值θ;
S3-1:将验证集Dval中的每一个样本输入网络分类模型,获得验 证集的样本预测概率向量
Figure BDA0002827160490000081
其中|Y|表示数据集的标签类别数,
Figure BDA0002827160490000082
表示维度为|Y|的实数向量集合;
S3-2:通过验证集的所有样本预测概率向量pi,计算验证集的第 k类标签的平均概率向量qk
Figure BDA0002827160490000083
Ωk表示验证集中属于第k类的样本数量,yi=k表示所选的样本均为 第k类,第k类标签的平均概率向量相当于验证集中所有属于第k类的 样本的预测概率向量取均值;
S3-3:对k类标签的平均概率向量qk拼接,得到分类模型的概率 混淆矩阵
Figure BDA0002827160490000084
用于存储概率:
Q=[q1,q2,...,q|Y|]={qij}|Y|×|Y| (2)
概率混淆矩阵Q的大小为|Y|×|Y|,概率混淆矩阵中的元素qij表示 分类模型将第i类样本识别为第j类的概率;
S3-4:验证集的样本类标可靠度ri为验证集的样本预测概率向量 pi和验证集的标签类概率向量
Figure BDA0002827160490000085
的内积,T表示向量转置:
Figure BDA0002827160490000086
S3-5:基于优化方程对所有验证集样本的类标可靠度ri进行可靠 度优化,得到分类模型的类标可靠度阈值θ:
Figure BDA0002827160490000087
其中,
Figure BDA0002827160490000088
表示验证集的样本是否预测正确,C(Gi) 表示分类模型C对样本Gi预测输出预测标签,argmin表示优化方程达 到最小值时θ的取值,
Figure BDA0002827160490000089
是一个自定义的赋值函数,就 表示x大于0时,取值为1,小于等于0时,取值为0;
S4:针对训练集Dtrain中的每一个原始网络G,使用数据映射策略 扩充生成新网络,将扩充生成的新网络存入数据池Dpool
S4-1:获取候选增边集合:给定任意原始网络G,在任意原始网 络G中寻找长度为2的路径模体motif,通过邻接矩阵的乘方进行路 径搜索,寻找模体motif,Am(矩阵A的m次方)所代表的意义就是, 在点与点之间走m步能够到达的方案总数,任意原始网络G中所有模 体motif可以用A2来获取,通过模体motif的头尾节点对(vi,vj)构成 候选增边集合
Figure BDA0002827160490000091
可以表示为:
Figure BDA0002827160490000092
候选增边集合中包含了所有模体motif的头尾节点对;
S4-2:利用资源分配指标计算候选增边集合
Figure BDA0002827160490000093
中每对候选节 点对(vi,vj)归一化的相似性分数sij
Figure BDA0002827160490000094
其中,Γ(i)表示节点vi的一阶邻居,dz表示节点vz的度值,S集合包 含了所有候选节点对的相似性分数,进一步使用加权随机采样的方式 对候选节点对进行连接,通过计算候选节点对的归一化相似性分数得 到候选节点对的权重
Figure BDA0002827160490000095
Figure BDA0002827160490000096
在计算
Figure BDA0002827160490000097
的过程中,
Figure BDA0002827160490000098
表示对S集合中的所有元素求和,Wadd为 增边权重集合,增边权重集合Wadd包含了所有候选节点对的采样权重;
S4-3:根据增边权重集合Wadd对候选增边集合
Figure BDA0002827160490000099
进行加权随 机采样,获得增边集合Eadd
Figure BDA0002827160490000101
其中,β为采样比例,m为原始网络G的边数,βm为两者的乘积取 整,表示增加的边的数量,ei代表i条边;
S4-4:根据增边集合Eadd中的每对节点对(vi,vj),有长度为2的 路径
Figure BDA0002827160490000102
删边的过程中采用加权随机采样的方式选择 一条边进行删除,最终得到新的motif(a-i-j或i-j-a),按公式计 算构成模体motif的所有的边ei的相似性分数se,获得相似性分数集 合S:
Figure BDA0002827160490000103
通过加权随机采样的方式选择候选边进行删除,候选边e的权重
Figure BDA0002827160490000104
按如下公式计算:
Figure BDA0002827160490000105
删边权重集合Wdel包含了所有候选边的采样权重,采样一条边进行 删除,所有motif在增加一条边的同时均需要删除一条边,所有待删 除的边构成删边集合Edel
S4-5:根据增边集合Eadd和删边集合Edel,对原始网络G进行更新, 生成新网络G',存入数据池Dpool
G'=(V,(E∪Eadd)\Edel) (11)
S5:将验证集Dval中的每一个样本输入训练好的网络分类模型, 得到分类模型的类标可靠度阈值θ;
S5-1:通过公式
Figure BDA0002827160490000106
计算数据池Dpool中新网络生成样本的类标 可靠度ri,并与分类模型的类标可靠度阈值θ比较,类标可靠度大于 阈值θ的存入扩充集D'train
S5-2:新的训练集由初始训练集Dtrain和扩充集D'train合并得到:
Figure BDA0002827160490000111
D'train是Dpool的子集;
S6:利用得到的新训练集重新训练网络分类模型,得到新的网络 分类模型C',新模型在测试集上的精度明显提升。
本发明提供的网络分类一般应用于生物、化合物领域。比如说蛋 白质、酶等化合物的分子结构可以看成是一个网络图,其中节点表示 原子,边表示化学键。网络分类一般用于对这些化合物从结构层面进 行区分,比如说判断该种化合物是否具有致癌性、毒性、诱变性等。
本发明能有效提升小型标准网络数据集的数据规模,提升数据质 量,实现网络数据增强;能有效提升模型的分类性能,且时间复杂度 较低,运算速度快。
为了进一步验证本发明一种面向网络分类模型的数据增强方法, 本实施例使用了PTC_MR网络数据集(公鼠致癌物数据集)和NetLSD 网络分类模型对本发明进行解释;
S1:加载PTC_MR网络数据集D={(Gi,yi)|i=1,...,344};
S2:数据集按7:2:1的比例划分为训练集Dtrain、测试集Dtest和验 证集Dval。其中训练集和验证集用于预训练SF网络分类模型C,测试 精度为47.1%;
S3:针对训练集中的每一个网络G,使用数据映射策略扩充生成 新网络,获得的新网络存入数据池Dpool,具体操作步骤如下:
S3-1、给定原始网络G(id=1),如图5原始网络所示,原始网 络节点数为8,边数为8,按公式
Figure BDA0002827160490000112
寻找 到共9个指定类型的模体motif,将对应的节点对存入
Figure BDA0002827160490000121
S3-2:利用公式
Figure BDA0002827160490000122
计算候选 增边集合
Figure BDA0002827160490000123
中每对候选节点(vi,vj)的相似性分数,存入S,按公式 计算每个节点对的归一化相似性分数,得到其采样权重,存入增边权 重集合Wadd
S3-3:根据增边权重集合Wadd对候选增边集合
Figure BDA0002827160490000124
进行加权随 机采样,获得增边集合Eadd,这里采样比例β=0.15,m=8,βm=1, 需要采样1个节点对进行增边,如图5所示,结合计算得到的相似性 分数,例如
Figure BDA0002827160490000125
其中(va,vc)有更大的相似性分数,对应的采 样权重更大,被采样的概率更大,假设这里节点对(va,vc)被采样,那 么增边集合Eadd={(va,vc)};
S3-4:得到了增边集合Eadd,确定了需要加边的模体motif,增 边的过程中连接节点对(va,vc),下一步执行删边,删边过程也在模体 motif上进行;针对motif(a-b-c),有相当于长度为2的路径
Figure BDA0002827160490000126
按公式
Figure BDA0002827160490000127
计算 构成该模体motif的所有的边e的相似性分数se,获得相似性分数集 合S={sab=0,sbc=0},两条边的相似性分数相同,故采样权重也相同, 随机采样边(vb,vc)进行删除,综上,所有待删除的边构成删边集合 Edel={(vb,vc)};
S3-5:根据增边集合Eadd和删边集合Edel,按公式 G'=(V,(E∪Eadd)\Edel)对原始网络G进行更新,将增边集合中的边 添加到网络中,将删边集合中的边,在网络中删除,生成新网络G', 存入数据池Dpool
S4:针对新生成的网络的标注问题,利用数据筛选策略,选择类 标可靠度高的新网络作为扩充样本,操作步骤如下:
S4-1:将验证集Dval中的每一个样本Gi输入网络分类模型C,获 得预测概率向量
Figure BDA0002827160490000131
即PTC_MR是二分类数据集;
S4-2:根据验证集的所有样本的预测概率向量,计算类标的平均 概率向量q1=[0.45517183,0.54482817],q2=[0.34709629,0.65290371]],分 类模型的概率混淆矩阵
Figure BDA0002827160490000132
可以由所有标签类的概率向量qk拼 接得到:
Figure BDA0002827160490000133
S4-3:该分类模型的类标可靠度阈值θ由所有验证集样本的类标 可靠度ri优化得到θ=0.4657611247;
S4-4:按公式
Figure BDA0002827160490000134
计算数据池Dpool中的生成样本(弱标注)的 类标可靠度,并与阈值θ比较,类标可靠度大于阈值的存入扩充集 D'train。最终扩充的新样本个数为198,新的训练集由初始训练集Dtrain和 扩充集D'train合并得到:
Figure BDA0002827160490000135
S5:利用得到的新训练集重训练网络分类模型,得到新的网络分 类模型C',新模型在测试集上的精度为51.4%,模型的分类性能得到 了显著的提升。得到的新模型可以用于公鼠致癌物分类与检测,判断 一种化合物是否能诱导公鼠基因突变,诱发癌症。同时,根据训练使 用的数据集的不同,得到优化后的模型可以用于不同的场景,如药物 毒性检测,蛋白质分类等。
本发明得到的新的网络分类模型C'的具体应用点可以落到药物 分类、蛋白质分类、化合物分类等,能够应用于化合物致癌性检测、 毒性检测中;因为上述这些任务用到的数据集规模较小,训练出来的 模型会过拟合,为了缓解过拟合的问题,本发明针对网络数据提出了 数据增强方法,用来缓解过拟合问题,提高分类模型的性能,取得了 良好的效果。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本 发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普 通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本 发明权利要求书确定的保护范围内。

Claims (6)

1.一种面向网络分类模型的数据增强方法,其特征在于,包括如下步骤:
S1:加载化合物网络数据集,构建图核模型与传统机器学习模型;具体包括:
加载包含t个网络的化合物网络数据集D={(Gi,yi)|i=1,...,t},其中G=(V,E)表示数据集中的无向网络,V={vi|i=1,...,n}和E={ei|i=1,...,m}分别表示网络中的n个节点和m条连边的集合,vi和ei分别表示网络中的任意节点和边,i表示网络、节点或边的ID,y为网络的类标,网络的结构可以由邻接矩阵A={Aij}n×n表示,其中
Figure FDA0002827160480000011
i和j表示矩阵A的第i行第j列,Aij是矩阵A第i行第j列的那个值,构建图核模型与传统机器学习模型;
S2:将图核模型与传统机器学习模型组合,得到网络分类模型;
S3:将化合物网络数据集划分为训练集Dtrain、测试集Dtest和验证集Dval,通过所述训练集和验证集预训练所述网络分类模型,得到分类模型类标可靠度阈值θ,具体包括:
S3-1:将验证集Dval中的每一个样本输入网络分类模型,获得验证集的样本预测概率向量
Figure FDA0002827160480000012
其中|Y|表示数据集的标签类别数,
Figure FDA0002827160480000013
表示维度为|Y|的实数向量集合;
S3-2:通过验证集的所有样本预测概率向量pi,计算验证集的第k类标签的平均概率向量qk
Figure FDA0002827160480000014
Ωk表示验证集中属于第k类的样本数量,yi=k表示所选的样本均为第k类,第k类标签的平均概率向量相当于验证集中所有属于第k类的样本的预测概率向量取均值;
S3-3:对k类标签的平均概率向量qk拼接,得到分类模型的概率混淆矩阵
Figure FDA0002827160480000021
用于存储概率:
Q=[q1,q2,…,q|Y|]={qij}|Y|×|Y| (2)
概率混淆矩阵Q的大小为|Y|×|Y|,概率混淆矩阵中的元素qij表示分类模型将第i类样本识别为第j类的概率;
S3-4:验证集的样本类标可靠度ri为验证集的样本预测概率向量pi和验证集的标签类概率向量
Figure FDA0002827160480000022
的内积,T表示向量转置:
Figure FDA0002827160480000023
S3-5:基于优化方程对所有验证集样本的类标可靠度ri进行可靠度优化,得到分类模型的类标可靠度阈值θ:
Figure FDA0002827160480000024
其中,
Figure FDA0002827160480000025
表示验证集的样本是否预测正确,C(Gi)表示分类模型C对样本Gi预测输出预测标签,arg min表示优化方程达到最小值时θ的取值,
Figure FDA0002827160480000026
是一个自定义的赋值函数,就表示x大于0时,取值为1,小于等于0时,取值为0;
S4:针对训练集中的每一个原始网络,使用数据映射策略扩充生成新网络,将扩充生成的新网络存入数据池Dpool;具体包括:
S4-1:获取候选增边集合:给定任意原始网络G,在任意原始网络G中寻找长度为2的路径模体motif,通过邻接矩阵的乘方进行路径搜索,寻找模体motif,Am(矩阵A的m次方)所代表的意义就是,在点与点之间走m步能够到达的方案总数,任意原始网络G中所有模体motif可以用A2来获取,通过模体motif的头尾节点对(vi,vj)构成候选增边集合
Figure FDA0002827160480000031
可以表示为:
Figure FDA0002827160480000032
候选增边集合中包含了所有模体motif的头尾节点对;
S4-2:利用资源分配指标计算候选增边集合
Figure FDA0002827160480000033
中每对候选节点对(vi,vj)归一化的相似性分数sij
Figure FDA0002827160480000034
其中,Γ(i)表示节点vi的一阶邻居,dz表示节点vz的度值,S集合包含了所有候选节点对的相似性分数,进一步使用加权随机采样的方式对候选节点对进行连接,通过计算候选节点对的归一化相似性分数得到候选节点对的权重
Figure FDA0002827160480000035
Figure FDA0002827160480000036
在计算
Figure FDA0002827160480000037
的过程中,
Figure FDA0002827160480000038
表示对S集合中的所有元素求和,Wadd为增边权重集合,增边权重集合Wadd包含了所有候选节点对的采样权重;
S4-3:根据增边权重集合Wadd对候选增边集合
Figure FDA0002827160480000039
进行加权随机采样,获得增边集合Eadd
Figure FDA00028271604800000310
其中,β为采样比例,m为原始网络G的边数,βm为两者的乘积取整,表示增加的边的数量,ei代表i条边;
S4-4:根据增边集合Eadd中的每对节点对(vi,vj),有长度为2的路径
Figure FDA00028271604800000311
删边的过程中采用加权随机采样的方式选择一条边进行删除,最终得到新的motif(a-i-j或i-j-a),按公式计算构成模体motif的所有的边ei的相似性分数se,获得相似性分数集合S:
Figure FDA0002827160480000041
通过加权随机采样的方式选择候选边进行删除,候选边e的权重
Figure FDA0002827160480000042
按如下公式计算:
Figure FDA0002827160480000043
删边权重集合Wdel包含了所有候选边的采样权重,采样一条边进行删除,所有motif在增加一条边的同时均需要删除一条边,所有待删除的边构成删边集合Edel
S4-5:根据增边集合Eadd和删边集合Edel,对原始网络G进行更新,生成新网络G',存入数据池Dpool
G'=(V,(E∪Eadd)\Edel) (11)
S5:提取数据池Dpool中新网络,计算新网络的类标可靠度,并与分类模型的类标可靠度阈值θ比较,将类标可靠度大于分类模型类标可靠度阈值θ的新网络作为扩充样本,基于扩充样本生成扩充集,将所述扩充集和所述训练集合并得到新的训练集;具体包括:
S5-1:通过公式
Figure FDA0002827160480000044
计算数据池Dpool中新网络生成样本的类标可靠度ri,并与分类模型的类标可靠度阈值θ比较,类标可靠度大于阈值θ的存入扩充集D'train
S5-2:新的训练集由初始训练集Dtrain和扩充集D'train合并得到:
Figure FDA0002827160480000045
D'train是Dpool的子集;
S6:利用得到的新的训练集重新训练网络分类模型,得到新的网络分类模型C'。
2.根据权利要求1所述面向网络分类模型的数据增强方法,其特征在于:
步骤S1所述化合物网络数据集为PTC_MR网络数据集(公鼠致癌物数据集),该数据集信息为:344个网络,2类,平均节点14.29,平均边14.69。
3.根据权利要求1所述面向网络分类模型的数据增强方法,其特征在于,所述S3中通过所述测试集,评价预训练网络分类模型训练的效果,得到的平均分类精度为47.1%。
4.根据权利要求1所述面向网络分类模型的数据增强方法,其特征在于,步骤S3-3中,得到分类模型的概率混淆矩阵为:
Figure FDA0002827160480000051
步骤S3-4中,得到的分类模型的类标可靠度阈值为θ=0.4657611247。
5.根据权利要求1所述面向网络分类模型的数据增强方法,其特征在于,步骤S5中,最终筛选得到的扩充新样本个数为198。
6.根据权利要求1所述面向网络分类模型的数据增强方法,其特征在于,步骤S6中利用得到的新训练集重训练网络分类模型,得到新的网络分类模型C',新模型在测试集上的精度为51.4%,模型的分类性能得到了显著的提升。
CN202011451532.9A 2020-12-10 2020-12-10 一种面向网络分类模型的数据增强方法 Pending CN112651430A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011451532.9A CN112651430A (zh) 2020-12-10 2020-12-10 一种面向网络分类模型的数据增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011451532.9A CN112651430A (zh) 2020-12-10 2020-12-10 一种面向网络分类模型的数据增强方法

Publications (1)

Publication Number Publication Date
CN112651430A true CN112651430A (zh) 2021-04-13

Family

ID=75353768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011451532.9A Pending CN112651430A (zh) 2020-12-10 2020-12-10 一种面向网络分类模型的数据增强方法

Country Status (1)

Country Link
CN (1) CN112651430A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222867A (zh) * 2021-04-16 2021-08-06 山东师范大学 基于多模板图像的图像数据增强方法及系统
CN115031363A (zh) * 2022-05-27 2022-09-09 约克广州空调冷冻设备有限公司 预测空调性能的方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222867A (zh) * 2021-04-16 2021-08-06 山东师范大学 基于多模板图像的图像数据增强方法及系统
CN113222867B (zh) * 2021-04-16 2022-05-20 山东师范大学 基于多模板图像的图像数据增强方法及系统
CN115031363A (zh) * 2022-05-27 2022-09-09 约克广州空调冷冻设备有限公司 预测空调性能的方法和装置
CN115031363B (zh) * 2022-05-27 2023-11-28 约克广州空调冷冻设备有限公司 预测空调性能的方法和装置

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN111783419B (zh) 地址相似度计算方法、装置、设备和存储介质
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN110070909B (zh) 一种基于深度学习的融合多特征的蛋白质功能预测方法
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN112905801B (zh) 基于事件图谱的行程预测方法、系统、设备及存储介质
CN112966691A (zh) 基于语义分割的多尺度文本检测方法、装置及电子设备
CN111444344A (zh) 实体分类方法、装置、计算机设备和存储介质
CN110688479B (zh) 一种用于生成式摘要的评估方法及排序网络
CN113360701A (zh) 一种基于知识蒸馏的素描图处理方法及其系统
CN112651430A (zh) 一种面向网络分类模型的数据增强方法
CN112559658B (zh) 一种地址匹配方法及装置
CN113268612A (zh) 基于均值融合的异构信息网知识图谱补全方法和装置
CN113297369A (zh) 基于知识图谱子图检索的智能问答系统
CN114022687B (zh) 一种基于增强学习的图像描述对抗生成方法
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
Li et al. SDMNet: A deep-supervised dual discriminative metric network for change detection in high-resolution remote sensing images
CN111584010B (zh) 一种基于胶囊神经网络和集成学习的关键蛋白质识别方法
CN113764034A (zh) 基因组序列中潜在bgc的预测方法、装置、设备及介质
Hosseini et al. Pool and accuracy based stream classification: a new ensemble algorithm on data stream classification using recurring concepts detection
CN112711944A (zh) 一种分词方法、系统、分词器生成方法及系统
CN113159976B (zh) 一种微博网络重要用户的识别方法
CN113283605B (zh) 基于预训练模型的交叉聚焦损失的溯因推理方法
CN115879460A (zh) 面向文本内容的新标签实体识别方法、装置、设备及介质
CN114925203A (zh) 一种基于图嵌入方法的冲突文本预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination