CN113762501A - 预测模型的训练方法、装置、设备和存储介质 - Google Patents
预测模型的训练方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN113762501A CN113762501A CN202110424701.8A CN202110424701A CN113762501A CN 113762501 A CN113762501 A CN 113762501A CN 202110424701 A CN202110424701 A CN 202110424701A CN 113762501 A CN113762501 A CN 113762501A
- Authority
- CN
- China
- Prior art keywords
- domain
- target domain
- source
- training
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 153
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000013528 artificial neural network Methods 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 4
- 238000010438 heat treatment Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010387 memory retrieval Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005293 physical law Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Game Theory and Decision Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出一种预测模型的训练方法和装置、设备和存储介质,其中,方法包括:获取多个源域数据;其中,多个源域数据包括源标签;将多个源域数据输入神经网络进行训练,获取第一预测结果,根据第一预测结果和源标签调整神经网络的网络参数,以生成预训练模型;获取目标域数据,其中,目标域数据包括目标标签;将目标域数据输入预训练模型进行训练,获取第二预测结果,根据第二预测结果和目标标签调整预训练模型的网络参数,以生成目标域的预测模型。由此,通过源域的数据进行预训练获取预训练模型,并通过目标域的数据对预训练模型的参数进行微调,生成预测模型以实现数据量很少的情况下也能够准确预测。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种预测模型的训练方法、装置、设备和存储介质。
背景技术
通常,室内温度的预测对于区域供热系统预测控制是十分重要的,一方面可以将室内温度维持到一个人体舒适的范围,另一方面可以减少供热温度波动,降低热损耗,从而达到节能减排的目的。
相关技术中,室内温度的预测方法对于时间序列预测依赖于充足的训练数据,而现实生活中,对于新建成的小区,传感器数据往往是很少的,这就会导致训练过拟合的问题,从而对于未来的预测性能下降。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
本发明提出一种预测模型的训练方法、装置、设备和存储介质,解决了新建成小区,在数据量很少的情况下,如何保证准确预测的问题,实现通过源域的数据进行预训练获取预训练模型,并通过目标域的数据对预训练模型的参数进行微调,生成预测模型以实现数据量很少的情况下也能够准确预测。
本发明第一方面实施例提出了一种预测模型的训练方法,包括:
获取多个源域数据;其中,所述多个源域数据包括源标签;
将所述多个源域数据输入神经网络进行训练,获取第一预测结果,根据所述第一预测结果和所述源标签调整所述神经网络的网络参数,以生成预训练模型;
获取目标域数据,其中,所述目标域数据包括目标标签;
将所述目标域数据输入所述预训练模型进行训练,获取第二预测结果,根据所述第二预测结果和所述目标标签调整所述预训练模型的网络参数,以生成目标域的预测模型。
本发明实施例的预测模型的训练方法,通过获取多个源域数据;其中,多个源域数据包括源标签;将多个源域数据输入神经网络进行训练,获取第一预测结果,根据第一预测结果和源标签调整神经网络的网络参数,以生成预训练模型;获取目标域数据,其中,目标域数据包括目标标签;将目标域数据输入预训练模型进行训练,获取第二预测结果,根据第二预测结果和目标标签调整预训练模型的网络参数,以生成目标域的预测模型。由此,通过源域的数据进行预训练获取预训练模型,并通过目标域的数据对预训练模型的参数进行微调,生成预测模型以实现数据量很少的情况下也能够准确预测。
本发明第二方面实施例提出了一种预测模型的训练装置,包括:
第一获取模块,用于获取多个源域数据;其中,所述多个源域数据包括源标签;
第一训练模块,用于将所述多个源域数据输入神经网络进行训练,获取第一预测结果;
第一生成模块,用于根据所述第一预测结果和所述源标签调整所述神经网络的网络参数,以生成预训练模型;
第二获取模块,用于获取目标域数据,其中,所述目标域数据包括目标标签;
第二训练模块,用于将所述目标域数据输入所述预训练模型进行训练,获取第二预测结果;
第二生成模块,用于根据所述第二预测结果和所述目标标签调整所述预训练模型的网络参数,以生成目标域的预测模型。
本发明实施例的预测模型的训练装置,通过获取多个源域数据;其中,多个源域数据包括源标签;将多个源域数据输入神经网络进行训练,获取第一预测结果,根据第一预测结果和源标签调整神经网络的网络参数,以生成预训练模型;获取目标域数据,其中,目标域数据包括目标标签;将目标域数据输入预训练模型进行训练,获取第二预测结果,根据第二预测结果和目标标签调整预训练模型的网络参数,以生成目标域的预测模型。由此,通过源域的数据进行预训练获取预训练模型,并通过目标域的数据对预训练模型的参数进行微调,生成预测模型以实现数据量很少的情况下也能够准确预测。
本发明第三方面实施例提出了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如本发明第一方面实施例提出的预测模型的训练方法。
本发明第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如本发明第一方面实施例提出的预测模型的训练方法。
本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行如本发明第一方面实施例提出的预测模型的训练方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例中不同小区的室内温度变化不同的示意图;
图2为本发明实施例一所提供的预测模型的训练方法的流程示意图;
图3为本发明实施例中模型架构示意图;
图4为本发明实施例中的联合分解的结构示意图;
图5为本发明实施例二所提供的预测模型的训练方法的流程示意图;
图6为本发明实施例中的知识聚合示意图;
图7为本发明实施例中的记忆网络示意图;
图8为本发明实施例四所提供的预测模型的训练装置的结构示意图;
图9示出了适于用来实现本发明实施方式的示例性电子设备或服务器的框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的预测模型的训练方法、装置、设备和存储介质。
在实际应用中,不同小区的室内温度变化情况是不同的,如图1(a)所示,三个小区室温变化幅度甚至变化的方向都存在差异。其中,室内温度受到多种因素的动态作用,如图1(b)所示,可以将多种因素划分成外部因素和内部因素,外部因素比如包括天气,供热系统,主要反映了外部环境的变化;内部因素比如包括建筑结构,室内活动,内部因素反映了建筑本身的特性,难以用数据衡量。因此,直接将源域训练好的模型迁移到目标域,会导致较差的预测效果。
因此,受多种因素的影响,室内温度的数据分布随时间存在偏差,对于新建成的小区,只有很少量的数据,这些数据不足以覆盖到整个的数据分布,从而已观测到的数据可能会与未来的数据存在较大的分布差异。比如图1(a)中的红色实线(新小区已有数据)在区间1的分布与红色虚线(新小区未来数据)在区间2的分布差异很大,因此,需要解决新建成小区,在数据量很少的情况下,如何准确预测的问题。
针对上述问题,本申请提出一种预测模型的训练方法,通过源域的数据进行预训练获取预训练模型,并通过目标域的数据对预训练模型的参数进行微调,生成预测模型,提高模型的泛化能力,以实现数据量很少的情况下也能够准确预测,比如未来室内温度、未来室内人流量等。
图2为本发明实施例一所提供的预测模型的训练方法的流程示意图。
本发明实施例的对话识别方法,可以应用于电子设备。其中,电子设备可以为任一具有计算能力的设备,例如可以为PC(Personal Computer,个人电脑)、移动终端等,移动终端例如可以为手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
如图2所示,该预测模型的训练方法可以包括以下步骤:
步骤101,获取多个源域数据;其中,多个源域数据包括源标签。
在本发明实施例中,可以针对不同的应用场景,确定不同的源域和目标域,比如源域可以是已建立多年的小区,相关温度传感器随着时间推移以检测温度等数据量比较充足,目标域为新建小区,只有检测很少量的温度数据;再比如,源域可以是已建立多年的商场,相关摄像头随着时间推移以检测人流量等数据量比较充足,目标域为新建商场,只有检测很少量的人流量数据等,具体根据应用需要选择设置。
在本发明实施例中,为了预训练模型更加准确,获取多个不同源域的数据作为样本进行训练,即多个源域数据,可以理解的是,源域数据中具有相对预测时间的未来一段时间的准确的温度、人流量等数据作为源标签。
步骤102,将多个源域数据输入神经网络进行训练,获取第一预测结果,根据第一预测结果和源标签调整神经网络的网络参数,以生成预训练模型。
在本发明实施例中,将多个源域数据输入神经网络进行训练,获取第一预测结果的方式有很多种,作为一种场景举例,通过神经网络的特征提取网络对多个源域数据进行处理,以生成多个源域特征;通过神经网络的独立子网络和多个特有子网络分别对多个源域特征进行处理,以生成源域共享特征和多个源域特有特征;将源域共享特征和每个源域特有特征进行拼接后输入预测器,获取第一预测结果。
其中,作为一种示例,第一预测结果为相对于预测时间未来一段时间的温度预测结果,源标签为相对预测时间的未来一段时间的准确的温度数据,根据第一预测结果和源标签的差异不断调整神经网络的网络参数,使得第一预测结果和源标签一致或者差异维持在合理范围内,可以停止训练,生成预训练模型。
步骤103,获取目标域数据,其中,目标域数据包括目标标签。
在本发明实施例中,目标域的选择参见步骤101对于源域和目标域选择的详细描述,此处不再详述。
在本发明实施例中,为了获取目标域的预测模型,需要获取目标域数据,可以理解的是,目标域数据中具有相对预测时间的未来一段时间的准确的温度、人流量等数据作为目标标签。
步骤104,将目标域数据输入预训练模型进行训练,获取第二预测结果,根据第二预测结果和目标标签调整预训练模型的网络参数,以生成目标域的预测模型。
在本发明实施例中,将目标域数据输入预训练模型进行训练,获取第二预测结果的方式有很多种,作为一种场景举例,通过预训练模型的特征提取网络对目标域数据进行处理,以生成目标域特征;通过预训练模型的目标域源域记忆网络、独立子网络和特有子网络分别对目标域特征进行处理,以生成目标域源域共享特征和目标域特有特征;将目标域源域相关特征、目标域共享特征和每个目标域特有特征进行拼接后输入预测器,获取第二预测结果。
其中,作为一种示例,第二预测结果为相对于预测时间未来一段时间的温度预测结果,目标标签为相对预测时间的未来一段时间的准确的温度数据,根据第二预测结果和目标标签的差异不断调整预训练模型的网络参数,使得第二预测结果和目标标签一致或者差异维持在合理范围内,可以停止训练,生成目标域的预测模型。
本发明实施例的预测模型的训练方法,通过获取多个源域数据;其中,多个源域数据包括源标签;将多个源域数据输入神经网络进行训练,获取第一预测结果,根据第一预测结果和源标签调整神经网络的网络参数,以生成预训练模型;获取目标域数据,其中,目标域数据包括目标标签;将目标域数据输入预训练模型进行训练,获取第二预测结果,根据第二预测结果和目标标签调整预训练模型的网络参数,以生成目标域的预测模型。由此,通过源域的数据进行预训练获取预训练模型,并通过目标域的数据对预训练模型的参数进行微调,生成预测模型以实现数据量很少的情况下也能够准确预测。
下面结合实施例二,对上述过程进行详细说明。
在本发明实施例中,如图3所示的模型架构示例图,通过源域的数据进行预训练,学习到多个源域中的知识接着通过目标域的数据对网络参数进行微调,将源域学到的知识迁移到目标域。
具体地,将源域数据分别送入到神经网络中进行处理。首先,输入的源域数据通过一个特征提取网络,学习到原始特征表达,然后通过一个源域知识记忆模块,源域知识记忆模块采用一个联合分解的架构,从而分别学习到不同源域共享的和特有的知识。其中,独立子网络用来提取各个源域共有的特征,特有子网络用来学习每个源域各自特有的信息,最后将各个源域共有的特征和每个源域各自特有的信息进行拼接,送入到预测器中,得到输入源域对应的第一预测结果,基于第一预测结果和源标签调整神经网络的网络参数,以生成预训练模型。
其中,不同源域比如小区的室内温度变化各不相同,但是都遵循同样的热交换物理定律,提出了一个基于联合分解的源域知识记忆模块,用来学习每个源域小区中的共享的和特有的知识。联合分解的架构示意图如图4(a)所示,每个源域的数据分别被送入到独立子网络和特有子网络中,其中,独立子网络的参数对于所有源域共享,而对于每个源域都会有一个特有子网络的分支,用来记住每个源域的历史信息,独立子网络的结构比如图4(b)所示,通过两层全连接网络,批正则化层(Batch Normalization,BN)和修正线性单元(Rectified Linear Unit,ReLU)构成。
进一步地,将预训练模型中的特征提取网络和源域知识记忆模块的参数固定,然后,设计出一个基于记忆增强知识融合模块,用来利用源域学习到的知识,具体地,特征提取网络提取到的目标域特征分别送入到独立子网络和特有子网络,分别学习到共享和多个源域特有的信息,此外,目标域源域记忆模块,用来记忆目标域和源域的相关性,并利用这些相关性,将源域特有的知识进行融合,最后将域共享和特有的特征进行拼接,通过预测器得到最终目标域的第二预测结果,基于第二预测结果和目标标签调整预训练模型的网络参数,以生成目标域的预测模型。
图5为本发明实施例二所提供的预测模型的训练方法的流程示意图。
如图5所示,主要描述如何获取目标域源域共享特征,该预测模型的训练方法还可以包括以下步骤:
步骤201,目标域源域记忆网络对目标域特征进行处理,获取源域目标域历史相关特征。
步骤202,特有子网络的记忆网络对目标域特征进行检索,获取多个记忆表达特征。
步骤203,根据源域目标域历史相关特征和多个记忆表达特征进行计算,获取目标域源域共享特征。
在本发明实施例中,将预训练模型的独立子网络和特有子网络的参数冻结,输入的目标域特征需要通过独立子网络和特有子网络用来学习域共享的和独立的特征,如图6所示,目标域特征通过特有子网络时,会同时检索所有支路的记忆网络,并生成n个记忆表达特征同时设计了一个目标域源域记忆网络,用来记忆源域和目标域的历史相关性,当有目标域特征通过后,会生成源域目标域历史相关特征mt。
进一步地,根据源域目标域历史相关特征和多个记忆表达特征进行计算,获取目标域源域共享特征,比如通过一个线性变换计算得到不同源域信息的权重,通过加权融合的方式对源域目标域历史相关特征和多个记忆表达特征进行计算,获取目标域源域共享特征,具体计算过程如下:c=softmax(W·mt+b),其中,W,b为全连接网络的参数,c表示归一化后的相似性向量,o表示源域知识聚合后的结果,即目标域源域共享特征。
在本发明实施例中,特有子网络的记忆网络对所述目标域特征进行检索,获取多个记忆表达特征的方式有很多种,作为一种可能实现方式,对目标域特征与记忆网络中每个记忆单元进行相似度计算,获取多个相似度,根据每个相似度和已存储记忆特征矩阵进行计算,以生成多个记忆表达特征。
具体地,对于独立子网络,每个分支通过一个记忆网络实现,如图7所示,主要包含一个嵌入矩阵即上述记忆特征矩阵包含V个记忆表达,每个向量的维度为d。记忆检索的过程同键值查询类似,给定一个查询向量k,计算得到其与每个记忆单元的相似度p,计算过程为:Mi表示矩阵M的第i行,pi为一个概率值,范围从0到1,计算得到检索到的向量v,即记忆表达特征的方式为:
由此,使用联合分解的架构分别用来对多个源域的共享和特有的知识进行学习,记忆源域和目标域历史的相关性,并计算获取不同源域知识的权重从而将源域的知识迁移到目标域,生成预测模型以实现数据量很少的情况下也能够准确预测。
与上述图1至图7实施例提供的预测模型的训练方法相对应,本发明还提供一种预测模型的训练装置,由于本发明实施例提供的预测模型的训练装置与上述图1至图7实施例提供的预测模型的训练方法相对应,因此在预测模型的训练方法的实施方式也适用于本发明实施例提供的预测模型的训练装置,在本发明实施例中不再详细描述。
图8为本发明实施例四所提供的预测模型的训练装置的结构示意图。
如图8所示,该预测模型的训练装置800应用于电子设备,包括:第一获取模块801、第一训练模块802、第一生成模块803、第二获取模块804、第二训练模块805和第二生成模块806。
第一获取模块801,用于获取多个源域数据;其中,所述多个源域数据包括源标签。
第一训练模块802,用于将所述多个源域数据输入神经网络进行训练,获取第一预测结果。
第一生成模块803,用于根据所述第一预测结果和所述源标签调整所述神经网络的网络参数,以生成预训练模型。
第二获取模块804,用于获取目标域数据,其中,所述目标域数据包括目标标签。
第二训练模块805,用于将所述目标域数据输入所述预训练模型进行训练,获取第二预测结果。
第二生成模块806,用于根据所述第二预测结果和所述目标标签调整所述预训练模型的网络参数,以生成目标域的预测模型。
进一步地,在本发明实施例的一种可能的实现方式中,第一训练模块802,具体用于:通过所述神经网络的特征提取网络对所述多个源域数据进行处理,以生成多个源域特征;通过所述神经网络的独立子网络和多个特有子网络分别对所述多个源域特征进行处理,以生成源域共享特征和多个源域特有特征;将所述源域共享特征和每个所述源域特有特征进行拼接后输入预测器,获取所述第一预测结果。
进一步地,在本发明实施例的一种可能的实现方式中,第二训练模块805,包括:第一处理单元,用于通过所述预训练模型的特征提取网络对所述目标域数据进行处理,以生成目标域特征;第二处理单元,用于通过所述预训练模型的目标域源域记忆网络、独立子网络和特有子网络分别对所述目标域特征进行处理,以生成目标域源域共享特征和目标域特有特征;获取单元,用于将所述目标域源域相关特征、所述目标域共享特征和每个所述目标域特有特征进行拼接后输入预测器,获取所述第二预测结果。
进一步地,在本发明实施例的一种可能的实现方式中,第二处理单元,包括:处理子单元,用于所述目标域源域记忆网络对所述目标域特征进行处理,获取源域目标域历史相关特征;检索子单元,用于所述特有子网络的记忆网络对所述目标域特征进行检索,获取多个记忆表达特征;计算子单元,用于根据所述源域目标域历史相关特征和所述多个记忆表达特征进行计算,获取所述目标域源域共享特征。
进一步地,在本发明实施例的一种可能的实现方式中,检索子单元,具体用于:对所述目标域特征与所述记忆网络中每个记忆单元进行相似度计算,获取多个相似度;
本发明实施例的预测模型的训练装置,通过获取多个源域数据;其中,多个源域数据包括源标签;将多个源域数据输入神经网络进行训练,获取第一预测结果,根据第一预测结果和源标签调整神经网络的网络参数,以生成预训练模型;获取目标域数据,其中,目标域数据包括目标标签;将目标域数据输入预训练模型进行训练,获取第二预测结果,根据第二预测结果和目标标签调整预训练模型的网络参数,以生成目标域的预测模型。由此,通过源域的数据进行预训练获取预训练模型,并通过目标域的数据对预训练模型的参数进行微调,生成预测模型以实现数据量很少的情况下也能够准确预测。
为了实现上述实施例,本发明还提出一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,实现如本发明前述图1-图7中任一实施例提出的预测模型的训练方法。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现如本发明前述任一实施例提出的预测模型的训练方法。
为了实现上述实施例,本发明还提出一种计算机程序产品,当计算机程序产品中的指令由处理器执行时,执行如本发明前述任一实施例提出的预测模型的训练方法。
图9示出了适于用来实现本发明实施方式的示例性电子设备或服务器的框图。图9显示的电子设备或服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,电子设备或服务器12以通用计算设备的形式表现。电子设备或服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
电子设备或服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备或服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。电子设备或服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图9未显示,通常称为“硬盘驱动器”)。尽管图9中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc ReadOnly Memory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
电子设备或服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备或服务器12交互的设备通信,和/或与使得该电子设备或服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备或服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LocalArea Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与电子设备或服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备或服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (13)
1.一种预测模型的训练方法,其特征在于,包括以下步骤:
获取多个源域数据;其中,所述多个源域数据包括源标签;
将所述多个源域数据输入神经网络进行训练,获取第一预测结果,根据所述第一预测结果和所述源标签调整所述神经网络的网络参数,以生成预训练模型;
获取目标域数据,其中,所述目标域数据包括目标标签;
将所述目标域数据输入所述预训练模型进行训练,获取第二预测结果,根据所述第二预测结果和所述目标标签调整所述预训练模型的网络参数,以生成目标域的预测模型。
2.如权利要求1所述的方法,其特征在于,所述将所述多个源域数据输入神经网络进行训练,获取第一预测结果,包括:
通过所述神经网络的特征提取网络对所述多个源域数据进行处理,以生成多个源域特征;
通过所述神经网络的独立子网络和多个特有子网络分别对所述多个源域特征进行处理,以生成源域共享特征和多个源域特有特征;
将所述源域共享特征和每个所述源域特有特征进行拼接后输入预测器,获取所述第一预测结果。
3.如权利要求1所述的方法,其特征在于,所述将所述目标域数据输入所述预训练模型进行训练,获取第二预测结果,包括:
通过所述预训练模型的特征提取网络对所述目标域数据进行处理,以生成目标域特征;
通过所述预训练模型的目标域源域记忆网络、独立子网络和特有子网络分别对所述目标域特征进行处理,以生成目标域源域共享特征和目标域特有特征;
将所述目标域源域相关特征、所述目标域共享特征和每个所述目标域特有特征进行拼接后输入预测器,获取所述第二预测结果。
4.如权利要求1-3任一项所述的方法,其特征在于,通过所述预训练模型的目标域源域记忆网络和特有子网络对所述目标域特征进行处理,以生成所述目标域源域共享特征,包括:
所述目标域源域记忆网络对所述目标域特征进行处理,获取源域目标域历史相关特征;
所述特有子网络的记忆网络对所述目标域特征进行检索,获取多个记忆表达特征;
根据所述源域目标域历史相关特征和所述多个记忆表达特征进行计算,获取所述目标域源域共享特征。
5.如权利要求4所述的方法,其特征在于,所述特有子网络的记忆网络对所述目标域特征进行检索,获取多个记忆表达特征,包括:
对所述目标域特征与所述记忆网络中每个记忆单元进行相似度计算,获取多个相似度;
根据每个所述相似度和已存储记忆特征矩阵进行计算,以生成所述多个记忆表达特征。
6.一种预测模型的训练装置,其特征在于,包括:
第一获取模块,用于获取多个源域数据;其中,所述多个源域数据包括源标签;
第一训练模块,用于将所述多个源域数据输入神经网络进行训练,获取第一预测结果;
第一生成模块,用于根据所述第一预测结果和所述源标签调整所述神经网络的网络参数,以生成预训练模型;
第二获取模块,用于获取目标域数据,其中,所述目标域数据包括目标标签;
第二训练模块,用于将所述目标域数据输入所述预训练模型进行训练,获取第二预测结果;
第二生成模块,用于根据所述第二预测结果和所述目标标签调整所述预训练模型的网络参数,以生成目标域的预测模型。
7.如权利要求6所述的装置,其特征在于,所述第一训练模块,具体用于:
通过所述神经网络的特征提取网络对所述多个源域数据进行处理,以生成多个源域特征;
通过所述神经网络的独立子网络和多个特有子网络分别对所述多个源域特征进行处理,以生成源域共享特征和多个源域特有特征;
将所述源域共享特征和每个所述源域特有特征进行拼接后输入预测器,获取所述第一预测结果。
8.如权利要求6所述的装置,其特征在于,所述第二训练模块,包括:
第一处理单元,用于通过所述预训练模型的特征提取网络对所述目标域数据进行处理,以生成目标域特征;
第二处理单元,用于通过所述预训练模型的目标域源域记忆网络、独立子网络和特有子网络分别对所述目标域特征进行处理,以生成目标域源域共享特征和目标域特有特征;
获取单元,用于将所述目标域源域相关特征、所述目标域共享特征和每个所述目标域特有特征进行拼接后输入预测器,获取所述第二预测结果。
9.如权利要求6-8任一项所述的装置,其特征在于,所述第二处理单元,包括:
处理子单元,用于所述目标域源域记忆网络对所述目标域特征进行处理,获取源域目标域历史相关特征;
检索子单元,用于所述特有子网络的记忆网络对所述目标域特征进行检索,获取多个记忆表达特征;
计算子单元,用于根据所述源域目标域历史相关特征和所述多个记忆表达特征进行计算,获取所述目标域源域共享特征。
10.如权利要求9所述的装置,其特征在于,所述检索子单元,具体用于:
对所述目标域特征与所述记忆网络中每个记忆单元进行相似度计算,获取多个相似度;
根据每个所述相似度和已存储记忆特征矩阵进行计算,以生成所述多个记忆表达特征。
11.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-5中任一所述的预测模型的训练方法。
12.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一所述的预测模型的训练方法。
13.一种计算机程序产品,其特征在于,当所述计算机程序产品中的指令由处理器执行时,执行如权利要求1-5中任一所述的预测模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110424701.8A CN113762501A (zh) | 2021-04-20 | 2021-04-20 | 预测模型的训练方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110424701.8A CN113762501A (zh) | 2021-04-20 | 2021-04-20 | 预测模型的训练方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113762501A true CN113762501A (zh) | 2021-12-07 |
Family
ID=78787035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110424701.8A Pending CN113762501A (zh) | 2021-04-20 | 2021-04-20 | 预测模型的训练方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113762501A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114239859A (zh) * | 2022-02-25 | 2022-03-25 | 杭州海康威视数字技术股份有限公司 | 一种基于迁移学习的时序数据预测方法、装置及存储介质 |
CN115987817A (zh) * | 2022-12-23 | 2023-04-18 | 中国电信股份有限公司 | 交换任务调度方法、装置、电子设备及非易失性存储介质 |
CN116128049A (zh) * | 2023-04-04 | 2023-05-16 | 厦门大学 | 一种基于XGBoost模型的水质预测模型迁移条件选择方法 |
WO2024055912A1 (zh) * | 2022-09-14 | 2024-03-21 | 北京有竹居网络技术有限公司 | 数据处理方法、模型训练方法及电子设备 |
CN117852624A (zh) * | 2024-03-08 | 2024-04-09 | 腾讯科技(深圳)有限公司 | 时序信号预测模型的训练方法、预测方法、装置及设备 |
WO2024074037A1 (zh) * | 2022-10-08 | 2024-04-11 | 上海前瞻创新研究院有限公司 | 运动想象脑机接口通信方法、装置、系统、介质及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180218284A1 (en) * | 2017-01-31 | 2018-08-02 | Xerox Corporation | Method and system for learning transferable feature representations from a source domain for a target domain |
CN109189921A (zh) * | 2018-08-07 | 2019-01-11 | 阿里巴巴集团控股有限公司 | 评论评估模型的训练方法和装置 |
CN110659744A (zh) * | 2019-09-26 | 2020-01-07 | 支付宝(杭州)信息技术有限公司 | 训练事件预测模型、评估操作事件的方法及装置 |
CN110796232A (zh) * | 2019-10-12 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 属性预测模型训练方法、属性预测方法及电子设备 |
-
2021
- 2021-04-20 CN CN202110424701.8A patent/CN113762501A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180218284A1 (en) * | 2017-01-31 | 2018-08-02 | Xerox Corporation | Method and system for learning transferable feature representations from a source domain for a target domain |
CN109189921A (zh) * | 2018-08-07 | 2019-01-11 | 阿里巴巴集团控股有限公司 | 评论评估模型的训练方法和装置 |
CN110659744A (zh) * | 2019-09-26 | 2020-01-07 | 支付宝(杭州)信息技术有限公司 | 训练事件预测模型、评估操作事件的方法及装置 |
CN110796232A (zh) * | 2019-10-12 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 属性预测模型训练方法、属性预测方法及电子设备 |
Non-Patent Citations (1)
Title |
---|
郑文瑞 等: "土壤速效磷近红外迁移学习预测方法研究", 分析测试学报, no. 10 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114239859A (zh) * | 2022-02-25 | 2022-03-25 | 杭州海康威视数字技术股份有限公司 | 一种基于迁移学习的时序数据预测方法、装置及存储介质 |
WO2024055912A1 (zh) * | 2022-09-14 | 2024-03-21 | 北京有竹居网络技术有限公司 | 数据处理方法、模型训练方法及电子设备 |
WO2024074037A1 (zh) * | 2022-10-08 | 2024-04-11 | 上海前瞻创新研究院有限公司 | 运动想象脑机接口通信方法、装置、系统、介质及设备 |
CN115987817A (zh) * | 2022-12-23 | 2023-04-18 | 中国电信股份有限公司 | 交换任务调度方法、装置、电子设备及非易失性存储介质 |
CN115987817B (zh) * | 2022-12-23 | 2024-05-24 | 中国电信股份有限公司 | 交换任务调度方法、装置、电子设备及非易失性存储介质 |
CN116128049A (zh) * | 2023-04-04 | 2023-05-16 | 厦门大学 | 一种基于XGBoost模型的水质预测模型迁移条件选择方法 |
CN116128049B (zh) * | 2023-04-04 | 2023-06-30 | 厦门大学 | 一种基于XGBoost模型的水质预测模型迁移条件选择方法 |
CN117852624A (zh) * | 2024-03-08 | 2024-04-09 | 腾讯科技(深圳)有限公司 | 时序信号预测模型的训练方法、预测方法、装置及设备 |
CN117852624B (zh) * | 2024-03-08 | 2024-07-09 | 腾讯科技(深圳)有限公司 | 时序信号预测模型的训练方法、预测方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113762501A (zh) | 预测模型的训练方法、装置、设备和存储介质 | |
US20210264227A1 (en) | Method for locating image region, model training method, and related apparatus | |
CN110383299B (zh) | 记忆增强的生成时间模型 | |
US20200134469A1 (en) | Method and apparatus for determining a base model for transfer learning | |
CN111858859A (zh) | 自动问答处理方法、装置、计算机设备及存储介质 | |
Li et al. | MapReduce-based fast fuzzy c-means algorithm for large-scale underwater image segmentation | |
CN112784976A (zh) | 一种基于脉冲神经网络的图像识别系统及方法 | |
CN109447096B (zh) | 一种基于机器学习的扫视路径预测方法和装置 | |
CN113326851B (zh) | 图像特征提取方法、装置、电子设备及存储介质 | |
Zhou et al. | Classroom learning status assessment based on deep learning | |
CN114445461A (zh) | 基于非配对数据的可见光红外目标跟踪训练方法及装置 | |
CN116109449A (zh) | 一种数据处理方法及相关设备 | |
CN114528913A (zh) | 基于信任和一致性的模型迁移方法、装置、设备及介质 | |
CN111260074B (zh) | 一种超参数确定的方法、相关装置、设备及存储介质 | |
CN115527083B (zh) | 图像标注方法、装置和电子设备 | |
CN108364067B (zh) | 基于数据分割的深度学习方法以及机器人系统 | |
CN113722975B (zh) | 网络模型训练方法、室温预测方法、装置、设备及介质 | |
Lei et al. | Manifold semi-supervised learning for aluminum electrolysis temperature identification based on regularized hierarchical extreme learning machine | |
CN114757097A (zh) | 一种线路故障诊断方法及装置 | |
Huang | Class prediction of cancer using probabilistic neural networks and relative correlation metric | |
Jiang | Automated Nonverbal Cue Detection in Political-Debate Videos: An Optimized RNN-LSTM Approach | |
Zhao et al. | Place recognition with deep superpixel features for brain-inspired navigation | |
CN113869516B (zh) | 知识图谱嵌入模型训练方法、装置、电子设备及介质 | |
MacLeod et al. | A review of age estimation research to evaluate its inclusion in automated child pornography detection | |
Zheng et al. | Semi-supervised Learning with Nearest-Neighbor Label and Consistency Regularization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |