CN112015659A - 基于网络模型的预测方法及装置 - Google Patents

基于网络模型的预测方法及装置 Download PDF

Info

Publication number
CN112015659A
CN112015659A CN202010912266.9A CN202010912266A CN112015659A CN 112015659 A CN112015659 A CN 112015659A CN 202010912266 A CN202010912266 A CN 202010912266A CN 112015659 A CN112015659 A CN 112015659A
Authority
CN
China
Prior art keywords
data set
target
network model
source
metric
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010912266.9A
Other languages
English (en)
Inventor
韩璐
严军荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sunwave Communications Co Ltd
Original Assignee
Sunwave Communications Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sunwave Communications Co Ltd filed Critical Sunwave Communications Co Ltd
Priority to CN202010912266.9A priority Critical patent/CN112015659A/zh
Publication of CN112015659A publication Critical patent/CN112015659A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3604Software analysis for verifying properties of programs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于网络模型的预测方法及装置,包括:将第一目标度量数据集和第一源度量数据集输入第一网络模型,通过第一网络模型对第一目标度量数据集和第一源度量数据集进行预处理,得到第一网络模型输出第二目标度量数据集和第二源度量数据集;将第二目标度量数据集输入第二网络模型,得到第二网络模型输出的预测结果。通过本发明,解决了软件缺陷预测结果准确率较低的问题,进而达到了提高软件缺陷预测结果准确率的效果。

Description

基于网络模型的预测方法及装置
技术领域
本发明涉及通信领域,具体而言,涉及一种基于网络模型的预测方法及装置。
背景技术
在实际应用中,人们越来越关注软件产品的质量。随着软件的规模和复杂度的大,软件中会包含多个软件项目,软件中不可避免的产生了许多缺陷。为了提高软件产品的质量,很多软件工程领域的研究人员致力于从事软件缺陷预测的研究。
目前的软件缺陷预测的研究主要是项目内缺陷预测。采用项目中的部分数据作为训练数据来构建缺陷预测模型,并且用同一个项目中的另一部分数据作为测试数据进行缺陷的预测以及评估,这两组不同的数据通常来自同一个项目。然而对于一个新启动的项目而言,没有充足的历史数据,无法保证模型的训练,导致构建出来的缺陷预测模型性能很差,预测结果准确率较低。
针对相关技术中,软件缺陷预测结果准确率较低的问题,目前尚未存在有效的解决方案。
发明内容
本发明实施例提供了一种基于网络模型的预测方法及装置,以至少解决相关技术中软件缺陷预测结果准确率较低的问题。
根据本发明的一个实施例,提供了一种基于网络模型的预测方法,包括:将第一目标度量数据集和第一源度量数据集输入第一网络模型,通过所述第一网络模型对所述第一目标度量数据集和第一源度量数据集进行预处理,得到所述第一网络模型输出第二目标度量数据集和第二源度量数据集;将所述第二目标度量数据集输入第二网络模型,得到所述第二网络模型输出的预测结果,其中,所述第二网络模型是使用所述第二源度量数据集对初始网络模型进行训练得到的。
可选地,在所述将第一目标度量数据集和第一源度量数据集输入第一网络模型之前,所述方法还包括:获取待预测项目的目标度量数据集和源项目的源度量数据集;将所述目标度量数据集和所述源度量数据集分别进行归一化处理,得到所述第一目标度量数据集和所述第一源度量数据集。
可选地,将所述目标度量数据集和所述源度量数据集分别进行归一化处理,得到所述第一目标度量数据集和所述第一源度量数据集包括:确定所述目标度量数据集中最大度量数据max(x)和最小度量数据min(x);通过公式
Figure BDA0002663746690000021
对所述目标度量数据集中的数据进行归一化处理,得到所述第一目标度量数据集,其中,xi是所述目标度量数据集中的目标度量数据,i是自然数,xi'是所述目标度量数据对应的归一化数据。
可选地,通过所述第一网络模型对所述第一目标度量数据集和第一源度量数据集进行预处理包括:通过所述第一网络模型将所述第一目标度量数据集和第一源度量数据集映射到目标公共子空间,得到第一映射目标度量数据集和第一映射源度量数据集;对所述第一映射目标度量数据集和第一映射源度量数据集进行预分类处理,得到所述第二目标度量数据集和第二源度量数据集,其中,所述第二源度量数据集中包括多个第二源度量数据子集,所述第二源度量数据子集中的数据满足第一损失函数,多个第二源度量数据子集之间满足第二损失函数。
可选地,在所述将所述第二目标度量数据集输入第二网络模型之前,所述方法包括:使用所述第二源度量数据集对所述初始网络模型进行训练,得到所述第二网络模型,其中,所述第二网络模型输出的预估结果与所述第二源度量数据集的已知结果之间满足目标收敛条件,所述目标收敛条件用于表示目标损失函数的输出值在预设范围内。
可选地,所述方法还包括:为所述目标损失函数中的第二源度量数据子集分配第一权重,其中,第二源度量数据子集的中所包括的数据量越多权重值越小。
可选地,所述方法还包括:为所述目标损失函数中的第二源度量数据子集分配第二权重,其中,所述预估结果表示的分类概率越大权重值小。
可选地,将所述第二目标度量数据集输入第二网络模型,得到所述第二网络模型输出的预测结果,包括:将所述第二目标度量数据集输入第二网络模型,得到所述第二网络模型输出的预测标签,其中,所述预测标签用于表示待预测项目是否存在缺陷。
根据本发明的另一个实施例,提供了一种基于网络模型的预测装置,包括:第一输入模块,用于将第一目标度量数据集和第一源度量数据集输入第一网络模型,通过所述第一网络模型对所述第一目标度量数据集和第一源度量数据集进行预处理,得到所述第一网络模型输出第二目标度量数据集和第二源度量数据集;第二输入模块,用于将所述第二目标度量数据集输入第二网络模型,得到所述第二网络模型输出的预测结果,其中,所述第二网络模型是使用所述第二源度量数据集对初始网络模型进行训练得到的。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,由于将第一目标度量数据集和第一源度量数据集输入第一网络模型,通过第一网络模型将第一目标度量数据集和第一源度量数据集映射到目标公共子空间,得到自编码网络模型输出第二目标度量数据集和第二源度量数据集;将第二目标度量数据集输入第二网络模型,得到第二网络模型输出的预测结果。达到了将软件的不同项目的度量数据映射到同一空间的目的。因此,可以解决软件缺陷预测结果准确率较低问题,达到提高软件缺陷预测结果准确率的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种基于网络模型的预测方法的移动终端的硬件结构框图;
图2是根据本发明实施例的基于网络模型的预测方法的流程图;
图3是根据本发明实施例的深度跨项目软件预测方法流程示意图;
图4是根据本发明实施例的基于网络模型的预测装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种基于网络模型的预测方法的移动终端的硬件结构框图。如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102 (处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA 等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的基于网络模型的预测方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为 NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于上述移动终端的基于网络模型的预测方法,图2是根据本发明实施例的基于网络模型的预测方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,将第一目标度量数据集和第一源度量数据集输入第一网络模型,通过所述第一网络模型对所述第一目标度量数据集和第一源度量数据集进行预处理,得到所述第一网络模型输出第二目标度量数据集和第二源度量数据集;
步骤S204,将所述第二目标度量数据集输入第二网络模型,得到所述第二网络模型输出的预测结果,其中,所述第二网络模型是使用所述第二源度量数据集对初始网络模型进行训练得到的
作为一个可选的实施方式,软件的度量数据可以包括代码度量数据:文件级别的包括:代码行数(Lines of Code)、注释行数(Comment Lines)、语句数(Number ofStatements)、函数个数(Number of Functions)等,类级别的包括:每类加权方法(Weighted methods per class)、继承树的深度 (Depth of Inheritance Tree)等;方法级别的包括:输入、输出数据等。进程度量数据包括:修订版本数量(Number ofrevisions)、行数增加(Lines add)、行数删除(Lines deleted)、行数修改(Linesmodified)等。
作为一个可选的实施方式,第一目标度量数据集与第一源度量数据集可以是不同项目的度量数据。第一源度量数据集中可以包括多个源项目的历史度量数据,多个源项目用于作为训练样本。第一源度量数据集可以对应于测试样本目标项目的度量数据。第一源度量数据集可以作为训练数据集,第一目标度量数据集可以作为测试数据集。
假设
Figure BDA0002663746690000061
表示源项目数据样本集,
Figure BDA0002663746690000062
Figure BDA0002663746690000063
分别表示0类(无缺陷)中第i个训练样本和1类(有缺陷) 中第j个训练样本,Ntrain_0和Ntrain_1分别表示0类和1类训练样本的个数。假设
Figure BDA0002663746690000064
表示目标项目(测试)数据集,其中Ntest表示Xtest中样本的个数。
作为一个可选的实施方式,第二网络模型是是基于分类器训练得到的分类模型,例如可以是softmax分类器,该分类器是基于源度量数据集训练得到的。
通过上述步骤,由于将第一目标度量数据集和第一源度量数据集输入第一网络模型,通过第一网络模型将第一目标度量数据集和第一源度量数据集映射到目标公共子空间,得到自编码网络模型输出第二目标度量数据集和第二源度量数据集;将第二目标度量数据集输入第二网络模型,得到第二网络模型输出的预测结果。达到了将软件的不同项目的度量数据映射到同一空间的目的。因此,可以解决软件缺陷预测结果准确率较低问题,达到提高软件缺陷预测结果准确率的效果。
可选地,上述步骤的执行主体可以为终端等,但不限于此。
可选地,在所述将第一目标度量数据集和第一源度量数据集输入第一网络模型之前,所述方法还包括:获取待预测项目的目标度量数据集和源项目的源度量数据集;将所述目标度量数据集和所述源度量数据集分别进行归一化处理,得到所述第一目标度量数据集和所述第一源度量数据集。
作为一个可选的实施方式,由于不同项目往往采用的度量值不在同一个维度空间,不便于后续的网络学习。需要对源度量数据集和目标度量数据集进行归一化预处理。
作为一个可选的实施方式将所述目标度量数据集和所述源度量数据集分别进行归一化处理,得到所述第一目标度量数据集和所述第一源度量数据集包括:确定所述目标度量数据集中最大度量数据max(x)和最小度量数据min(x);
通过公式
Figure BDA0002663746690000071
对所述目标度量数据集中的数据进行归一化处理,得到所述第一目标度量数据集,其中,xi是所述目标度量数据集中的目标度量数据,i是自然数,xi'是所述目标度量数据对应的归一化数据。
作为一个可选的实施方式,可以通过min-max数据归一化处理,使得源项目数据集和目标项目数据集中的数据具有同一数量级的度量值。 min-max归一化方法将源项目和目标项目中样本的度量值转换到[0,1]区间。例如,给定一个样本x=[x1,x2…xd]T,对于每个度量值xi而言,通过min-max 规范化后得到的新度量值为:
Figure BDA0002663746690000072
其中,max(x)表示样本x中的最大值,min(x)表示样本x中的最小值。
可选地,通过所述第一网络模型对所述第一目标度量数据集和第一源度量数据集进行预处理包括:通过所述第一网络模型将所述第一目标度量数据集和第一源度量数据集映射到目标公共子空间,得到第一映射目标度量数据集和第一映射源度量数据集;对所述第一映射目标度量数据集和第一映射源度量数据集进行预分类处理,得到所述第二目标度量数据集和第二源度量数据集,其中,所述第二源度量数据集中包括多个第二源度量数据子集,所述第二源度量数据子集中的数据满足第一损失函数,多个第二源度量数据子集之间满足第二损失函数。
作为一个可选的实施方式,跨项目缺陷预测就是采用源项目的历史数据(源度量数据)来训练一个缺陷模型,对目标项目的测试数据(目标度量数据)实例进行预测和评估。虽然采用相同的属性对源项目和目标项目进行度量,但是样本的来源不同,存在编程语言和代码风格不同等现象,源度量数据和目标度量数据存在不同的数据分布。为了尽可能地减少源、目标度量数据分布差异对后续分类模型的影响,通过在自编码器中引入隐层参数共享机制,学习源度量数据和目标度量数据的深度特征,将源项目和目标项目的数据映射到一个公共子空间。
假设第一网络模型的输入为f(X,Θae),其中,X是第一源度量数据集第一目标度量数据集构成的数据集合,
Figure BDA0002663746690000081
Figure BDA0002663746690000082
其中,
Figure BDA0002663746690000083
表示第m层网络的参数,M表示网络的层数,则网络的输出为:
Figure BDA0002663746690000084
可以通过最小化如下的重构误差损失项求得:
Figure BDA0002663746690000085
通过第一网络模型可以将第一目标度量数据集和第一源度量数据集映射到同一个目标公共子空间,得到第一映射目标度量数据集和第一映射源度量数据集。
作为一个可选的实施方式,在网络网络结构中增加类内局部鉴别损失项(对应于第一损失函数)和类间局部鉴别损失项(对应于第二损失函数),对映射到同一空间的源度量数据和目标度量数据进行预分类处理,构建提升深度特征鉴别性能的模型。设计类内局部鉴别损失函数和类间局部鉴别损失函数对源度量数据的深度特征进行约束,学习不同样本特征之间的非线性关系,使得在隐层公共子空间中,同类样本的局部类内变化最小,不同类样本间的类间变化最大,进而提高整个网络模型的鉴别性能。假设第二源度量数据子集中包括表示属于同一个类别的样本项目的度量数据,例如第二源数据子集
Figure BDA0002663746690000091
表示0类中所包括的训练样本的度量数据,
Figure BDA0002663746690000092
表示1类中所包括的训练样本的度量数据。多个第二源度量数据子集对应于多个不同类别的样本项目。不同类别的样本项目对应的度量数据位于不同的第二源度量数据子集中。在本实施例中,在第二源数据子集
Figure BDA0002663746690000093
中的局部类内变化最小, Xtrain0和Xtrain1不同类样本间的类间变化最大。
具体地,使用近邻矩阵S来表示源项目中同类数据间的近邻关系:对于属于同类别i的两个样本
Figure BDA0002663746690000094
Figure BDA0002663746690000095
Figure BDA0002663746690000096
属于
Figure BDA0002663746690000097
的k近邻,反之亦然,则sik,it=1,否则,sik,it=0。则源度量数据的类内局部鉴别损失项第一损失函数L(θtrain_intra)可表示为:
Figure BDA0002663746690000098
类似地,使用近邻矩阵S来表示源度量数据中不同类数据间的近邻关系:对于属于不同类别i和p的两个样本
Figure BDA0002663746690000099
Figure BDA00026637466900000910
Figure BDA0002663746690000096
属于
Figure BDA00026637466900000912
的k 近邻,反之亦然,则
Figure BDA00026637466900000913
否则,
Figure BDA00026637466900000914
则源度量数据的类间局部鉴别鉴别损失项L(θtrain_inter)可表示为:
Figure BDA00026637466900000915
根据公式(2)、(3)和(4),可得最终的目标函数为:
Figure BDA00026637466900000916
可选地,在所述将所述第二目标度量数据集输入第二网络模型之前,所述方法包括:使用所述第二源度量数据集对所述初始网络模型进行训练,得到所述第二网络模型,其中,所述第二网络模型输出的预估结果与所述第二源度量数据集的已知结果之间满足目标收敛条件,所述目标收敛条件用于表示目标损失函数的输出值在预设范围内。
作为一个可选的实施方式,基于网络输出的源项目深度特征来训练 softmax分类器,并引入焦点损失函数解决类不平衡问题。在自编码器网络最后添加一层激活函数为softmax的全连接层,作为网络的分类器。 softmax分类器采用目标损失函数(例如,交叉熵损失函数)来衡量两类标签之间的相似性,通过获取的源度量数据的深度特征第二源度量数据集来训练该分类器,使预测的结果更逼近实际结果,表达形式如下:
Figure BDA0002663746690000101
其中,
Figure BDA0002663746690000102
是真实分类标签表示的已知结果,
Figure BDA0002663746690000103
是预测结果表示的预测分类标签,g(·)是softmax激活函数。
可选地,所述方法还包括:为所述目标损失函数中的第二源度量数据子集分配第一权重,其中,第二源度量数据子集的中所包括的数据量越多权重值越小。
作为一个可选的实施方式,焦点损失对普通的交叉熵损失函数进行改进,可以增加两部分权重来区分对待每一个样本。让不同类别的样本在最终网络训练的loss损失中权重占比相同。
对于第一部分权重具体来说,假设无缺陷样本在所有的样本中占据的数量较大,则无缺陷样本视为绝大部分的样本,有缺陷样本视为少部分样本。对于绝大部分的样本,施加小权重u(0<u<1);对于少部分样本,施加大权重1-u,从而缓解类不平衡问题。在本实施例中,由于第二源度量数据子集中包括的是属于同一类别的数据,第二源度量数据子集中包括的数据量越大,说明该类别对应的样本量越大,属于绝大部分的样本,则为该第二源度量数据子集分配的权重值越小。反之,第二源度量数据子集中包括的数据量越小,说明该类别对应的样本量越少,属于少部分样本,则为该第二源度量数据子集分配的权重值越小大。
可选地,所述方法还包括:为所述目标损失函数中的第二源度量数据子集分配第二权重,其中,所述预估结果表示的分类概率越大权重值小。
作为一个可选的实施方式,分类概率表示项目样本属于某种类别的概率。可以设置样本难易分类权重
Figure BDA0002663746690000111
解决样本的难易分类问题。当预估结果表示测试样本的预测概率大于0.5时,为简单样本;反之,则为难区分样本。因此,对于预测模型中越容易分类的样本,权重
Figure BDA0002663746690000112
越小,反之越大。
改进后的焦点损失函数为:
Figure BDA0002663746690000113
可选地,将所述第二目标度量数据集输入第二网络模型,得到所述第二网络模型输出的预测结果,包括:将所述第二目标度量数据集输入第二网络模型,得到所述第二网络模型输出的预测标签,其中,所述预测标签用于表示待预测项目是否存在缺陷。
作为一个可选的实施方式,图3是根据本发明实施例的深度跨项目软件预测方法流程示意图。将目标项目作为测试样本,使用分类器获取最终预测结果。以目标项目的第二目标度量数据集作为第二网络模型的输入,得到网络模型输出的预测标签结果。将目标项目Xtest的深度特征
Figure BDA0002663746690000114
代入分类器模型中,预测Xtest的标签。通过该标签表示软件是否存在缺陷。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如 ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种基于网络模型的预测装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本发明实施例的基于网络模型的预测装置的结构框图,如图4所示,该装置包括:第一输入模块42,用于将第一目标度量数据集和第一源度量数据集输入第一网络模型,通过所述第一网络模型对所述第一目标度量数据集和第一源度量数据集进行预处理,得到所述第一网络模型输出第二目标度量数据集和第二源度量数据集;第二输入模块44,用于将所述第二目标度量数据集输入第二网络模型,得到所述第二网络模型输出的预测结果,其中,所述第二网络模型是使用所述第二源度量数据集对初始网络模型进行训练得到的。
可选地,上述装置还用于在所述将第一目标度量数据集和第一源度量数据集输入第一网络模型之前,获取待预测项目的目标度量数据集和源项目的源度量数据集;将所述目标度量数据集和所述源度量数据集分别进行归一化处理,得到所述第一目标度量数据集和所述第一源度量数据集。
可选地,上述装置还用于通过如下方式实现将所述目标度量数据集和所述源度量数据集分别进行归一化处理,得到所述第一目标度量数据集和所述第一源度量数据集:确定所述目标度量数据集中最大度量数据max(x) 和最小度量数据min(x);通过公式
Figure BDA0002663746690000121
对所述目标度量数据集中的数据进行归一化处理,得到所述第一目标度量数据集,其中,xi是所述目标度量数据集中的目标度量数据,i是自然数,x'i是所述目标度量数据对应的归一化数据。
可选地,上述装置还用于通过如下方式实现所述通过所述第一网络模型对所述第一目标度量数据集和第一源度量数据集进行预处理:通过所述第一网络模型将所述第一目标度量数据集和第一源度量数据集映射到目标公共子空间,得到第一映射目标度量数据集和第一映射源度量数据集;对所述第一映射目标度量数据集和第一映射源度量数据集进行预分类处理,得到所述第二目标度量数据集和第二源度量数据集,其中,所述第二源度量数据集中包括多个第二源度量数据子集,所述第二源度量数据子集中的数据满足第一损失函数,多个第二源度量数据子集之间满足第二损失函数。
可选地,上述装置还用于在所述将所述第二目标度量数据集输入第二网络模型之前,使用所述第二源度量数据集对所述初始网络模型进行训练,得到所述第二网络模型,其中,所述第二网络模型输出的预估结果与所述第二源度量数据集的已知结果之间满足目标收敛条件,所述目标收敛条件用于表示目标损失函数的输出值在预设范围内。
可选地,上述装置还用于为所述目标损失函数中的第二源度量数据子集分配第一权重,其中,第二源度量数据子集的中所包括的数据量越多权重值越小。
可选地,上述装置还用于为所述目标损失函数中的第二源度量数据子集分配第二权重,其中,所述预估结果表示的分类概率越大权重值小。
可选地,上述装置还用于通过如下方式实现将所述第二目标度量数据集输入第二网络模型,得到所述第二网络模型输出的预测结果:将所述第二目标度量数据集输入第二网络模型,得到所述第二网络模型输出的预测标签,其中,所述预测标签用于表示待预测项目是否存在缺陷。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,将第一目标度量数据集和第一源度量数据集输入第一网络模型,通过所述第一网络模型对所述第一目标度量数据集和第一源度量数据集进行预处理,得到所述第一网络模型输出第二目标度量数据集和第二源度量数据集;
S2,将所述第二目标度量数据集输入第二网络模型,得到所述第二网络模型输出的预测结果,其中,所述第二网络模型是使用所述第二源度量数据集对初始网络模型进行训练得到的。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,将第一目标度量数据集和第一源度量数据集输入第一网络模型,通过所述第一网络模型对所述第一目标度量数据集和第一源度量数据集进行预处理,得到所述第一网络模型输出第二目标度量数据集和第二源度量数据集;
S2,将所述第二目标度量数据集输入第二网络模型,得到所述第二网络模型输出的预测结果,其中,所述第二网络模型是使用所述第二源度量数据集对初始网络模型进行训练得到的。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于网络模型的预测方法,其特征在于,包括:
将第一目标度量数据集和第一源度量数据集输入第一网络模型,通过所述第一网络模型对所述第一目标度量数据集和第一源度量数据集进行预处理,得到所述第一网络模型输出第二目标度量数据集和第二源度量数据集;
将所述第二目标度量数据集输入第二网络模型,得到所述第二网络模型输出的预测结果,其中,所述第二网络模型是使用所述第二源度量数据集对初始网络模型进行训练得到的。
2.根据权利要求1所述的方法,其特征在于,在所述将第一目标度量数据集和第一源度量数据集输入第一网络模型之前,所述方法还包括:
获取待预测项目的目标度量数据集和源项目的源度量数据集;
将所述目标度量数据集和所述源度量数据集分别进行归一化处理,得到所述第一目标度量数据集和所述第一源度量数据集。
3.根据权利要求2所述的方法,其特征在于,将所述目标度量数据集和所述源度量数据集分别进行归一化处理,得到所述第一目标度量数据集和所述第一源度量数据集,包括:
确定所述目标度量数据集中最大度量数据max(x)和最小度量数据min(x);
通过公式
Figure FDA0002663746680000011
对所述目标度量数据集中的数据进行归一化处理,得到所述第一目标度量数据集,其中,xi是所述目标度量数据集中的目标度量数据,i是自然数,x′i是所述目标度量数据对应的归一化数据。
4.根据权利要求1所述的方法,其特征在于,通过所述第一网络模型对所述第一目标度量数据集和第一源度量数据集进行预处理包括:
通过所述第一网络模型将所述第一目标度量数据集和第一源度量数据集映射到目标公共子空间,得到第一映射目标度量数据集和第一映射源度量数据集;
对所述第一映射目标度量数据集和第一映射源度量数据集进行预分类处理,得到所述第二目标度量数据集和第二源度量数据集,其中,所述第二源度量数据集中包括多个第二源度量数据子集,所述第二源度量数据子集中的数据满足第一损失函数,多个第二源度量数据子集之间满足第二损失函数。
5.根据权利要求4所述的方法,其特征在于,在所述将所述第二目标度量数据集输入第二网络模型之前,所述方法包括:
使用所述第二源度量数据集对所述初始网络模型进行训练,得到所述第二网络模型,其中,所述第二网络模型输出的预估结果与所述第二源度量数据集的已知结果之间满足目标收敛条件,所述目标收敛条件用于表示目标损失函数的输出值在预设范围内。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
为所述目标损失函数中的第二源度量数据子集分配第一权重,其中,第二源度量数据子集的中所包括的数据量越多权重值越小。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
为所述目标损失函数中的第二源度量数据子集分配第二权重,其中,所述预估结果表示的分类概率越大权重值小。
8.根据权利要求1至7中任一项所述的方法,其特征在于,将所述第二目标度量数据集输入第二网络模型,得到所述第二网络模型输出的预测结果,包括:
将所述第二目标度量数据集输入第二网络模型,得到所述第二网络模型输出的预测标签,其中,所述预测标签用于表示待预测项目是否存在缺陷。
9.一种基于网络模型的预测装置,其特征在于,包括:
第一输入模块,用于将第一目标度量数据集和第一源度量数据集输入第一网络模型,通过所述第一网络模型对所述第一目标度量数据集和第一源度量数据集进行预处理,得到所述第一网络模型输出第二目标度量数据集和第二源度量数据集;
第二输入模块,用于将所述第二目标度量数据集输入第二网络模型,得到所述第二网络模型输出的预测结果,其中,所述第二网络模型是使用所述第二源度量数据集对初始网络模型进行训练得到的。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述程序可被终端设备或计算机运行时执行所述权利要求1至8任一项中所述的方法。
CN202010912266.9A 2020-09-02 2020-09-02 基于网络模型的预测方法及装置 Pending CN112015659A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010912266.9A CN112015659A (zh) 2020-09-02 2020-09-02 基于网络模型的预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010912266.9A CN112015659A (zh) 2020-09-02 2020-09-02 基于网络模型的预测方法及装置

Publications (1)

Publication Number Publication Date
CN112015659A true CN112015659A (zh) 2020-12-01

Family

ID=73515318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010912266.9A Pending CN112015659A (zh) 2020-09-02 2020-09-02 基于网络模型的预测方法及装置

Country Status (1)

Country Link
CN (1) CN112015659A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705616A (zh) * 2021-07-30 2021-11-26 三维通信股份有限公司 模型构建方法、软件缺陷预测方法、装置以及电子装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710512A (zh) * 2018-12-06 2019-05-03 南京邮电大学 基于测地线流核的神经网络软件缺陷预测方法
CN110162475A (zh) * 2019-05-27 2019-08-23 浙江工业大学 一种基于深度迁移的软件缺陷预测方法
CN110659207A (zh) * 2019-09-02 2020-01-07 北京航空航天大学 基于核谱映射迁移集成的异构跨项目软件缺陷预测方法
CN111198820A (zh) * 2020-01-02 2020-05-26 南京邮电大学 一种基于共享隐层自编码器的跨项目软件缺陷预测方法
CN111259673A (zh) * 2020-01-13 2020-06-09 山东财经大学 一种基于反馈序列多任务学习的法律判决预测方法及系统
WO2020135015A1 (zh) * 2018-12-27 2020-07-02 深圳先进技术研究院 一种医学成像模型的建立方法、装置、设备及存储介质
CN111553399A (zh) * 2020-04-21 2020-08-18 佳都新太科技股份有限公司 特征模型训练方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710512A (zh) * 2018-12-06 2019-05-03 南京邮电大学 基于测地线流核的神经网络软件缺陷预测方法
WO2020135015A1 (zh) * 2018-12-27 2020-07-02 深圳先进技术研究院 一种医学成像模型的建立方法、装置、设备及存储介质
CN110162475A (zh) * 2019-05-27 2019-08-23 浙江工业大学 一种基于深度迁移的软件缺陷预测方法
CN110659207A (zh) * 2019-09-02 2020-01-07 北京航空航天大学 基于核谱映射迁移集成的异构跨项目软件缺陷预测方法
CN111198820A (zh) * 2020-01-02 2020-05-26 南京邮电大学 一种基于共享隐层自编码器的跨项目软件缺陷预测方法
CN111259673A (zh) * 2020-01-13 2020-06-09 山东财经大学 一种基于反馈序列多任务学习的法律判决预测方法及系统
CN111553399A (zh) * 2020-04-21 2020-08-18 佳都新太科技股份有限公司 特征模型训练方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705616A (zh) * 2021-07-30 2021-11-26 三维通信股份有限公司 模型构建方法、软件缺陷预测方法、装置以及电子装置
CN113705616B (zh) * 2021-07-30 2024-05-10 三维通信股份有限公司 模型构建方法、软件缺陷预测方法、装置以及电子装置

Similar Documents

Publication Publication Date Title
WO2021017679A1 (zh) 地址信息解析方法、装置、系统及数据获取方法
US10621492B2 (en) Multiple record linkage algorithm selector
WO2022252363A1 (zh) 数据处理方法、计算机设备以及可读存储介质
EP2988230A1 (en) Data processing method and computer system
WO2021035412A1 (zh) 一种自动机器学习AutoML系统、方法及设备
Castaño et al. Exploring the Carbon Footprint of Hugging Face's ML Models: A Repository Mining Study
CN113704389A (zh) 一种数据评估方法、装置、计算机设备及存储介质
CN116663938B (zh) 基于企业数据中台系统的信息化管理方法及其相关装置
CN114897451B (zh) 考虑需求响应用户关键特征的双层聚类修正方法及装置
CN111199469A (zh) 用户还款模型生成方法、装置及电子设备
CN111582645B (zh) 基于因子分解机的app风险评估方法、装置和电子设备
CN110879776A (zh) 一种测试用例的生成方法和装置
CN111210332A (zh) 贷后管理策略生成方法、装置及电子设备
CN104933096B (zh) 数据库的异常键识别方法、装置与数据系统
CN111222769A (zh) 一种年报数据质量评价方法、装置、电子设备及存储介质
CN112015659A (zh) 基于网络模型的预测方法及装置
Diao et al. Clustering by Detecting Density Peaks and Assigning Points by Similarity‐First Search Based on Weighted K‐Nearest Neighbors Graph
CN113886454A (zh) 一种基于lstm-rbf的云资源预测方法
CN111582649B (zh) 基于用户app独热编码的风险评估方法、装置和电子设备
CN110177006B (zh) 基于接口预测模型的节点测试方法及装置
CN116257404A (zh) 一种日志解析方法及计算设备
CN115660101A (zh) 一种基于业务节点信息的数据服务提供方法及装置
CN115147020A (zh) 装修数据处理方法、装置、设备及存储介质
JPWO2018235841A1 (ja) グラフ構造解析装置、グラフ構造解析方法、及びプログラム
CN111461344B (zh) 高阶特征的自动生成方法、系统、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20201201

Assignee: ZHEJIANG SANWEI WIRELESS TECHNOLOGY Co.,Ltd.

Assignor: SUNWAVE COMMUNICATIONS Co.,Ltd.

Contract record no.: X2021330000205

Denomination of invention: Prediction method and device based on network model

License type: Common License

Record date: 20210831