CN111488972A - 数据迁移方法、装置、电子设备和存储介质 - Google Patents
数据迁移方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN111488972A CN111488972A CN202010274239.3A CN202010274239A CN111488972A CN 111488972 A CN111488972 A CN 111488972A CN 202010274239 A CN202010274239 A CN 202010274239A CN 111488972 A CN111488972 A CN 111488972A
- Authority
- CN
- China
- Prior art keywords
- migration
- candidate
- distribution
- training
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013508 migration Methods 0.000 title claims abstract description 180
- 230000005012 migration Effects 0.000 title claims abstract description 180
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000009826 distribution Methods 0.000 claims abstract description 136
- 238000012549 training Methods 0.000 claims abstract description 136
- 238000003062 neural network model Methods 0.000 claims description 38
- 230000015654 memory Effects 0.000 claims description 19
- 230000000694 effects Effects 0.000 abstract description 16
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 108091026890 Coding region Proteins 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种数据迁移方法、装置、电子设备以及存储介质,涉及数据迁移领域。具体实现方案为:数据迁移方法包括:获取预定义训练样本的参考特征分布;采用迁移样本生成模型生成候选训练样本,获取候选训练样本的候选特征分布;计算候选特征分布和参考特征分布之间的相似度,利用相似度更新迁移样本生成模型;在满足预设条件的情况下,利用更新后的迁移样本生成模型生成最终训练样本,将最终训练样本作为迁移数据。本申请实施例提高了搜索迁移数据的速度和效率,提高了迁移效果。
Description
技术领域
本申请涉及大数据处理技术领域,尤其涉及一种数据迁移领域。
背景技术
深度学习技术中,迁移学习就是要迁移那些共性特征数据与信息,即卷积层共性特征迁移,能够有效减少训练数据,降低计算量和计算时间,并能适应新场景的业务需求。数据迁移在学术和工业场景中都非常重要,尤其在一些稀疏数据场景如近红外数据,RGBD(红绿蓝深度图,Red Green Blue Depth Map)数据等场景。
目前,利用深度学习模型的数据迁移主要采用如下方法:第一种,直接将A场景训练的网络模型迁移到B场景,然而,由于A场景与B场景数据分布的不一致,直接将A场景训练的网络模型迁移到B场景,会导致迁移效果不理想。第二种,将A场景训练的网络模型作为预训练网络模型,然后在B场景上用数据finetune(微调)。若微调的学习率较小,导致迁移效果不理想,若微调学习率过大,则会由于大大降低了预训练的模型的作用,降低迁移效果。
发明内容
本申请实施例提供一种数据迁移方法,包括:
获取预定义训练样本的参考特征分布;
采用迁移样本生成模型生成候选训练样本,获取候选训练样本的候选特征分布;
计算候选特征分布和参考特征分布之间的相似度,利用相似度更新迁移样本生成模型;
在满足预设条件的情况下,利用更新后的迁移样本生成模型,返回执行采用迁移样本生成模型生成候选训练样本的步骤。
本申请实施例还提供一种数据迁移装置,包括:
参考特征分布获取模块,用于获取预定义训练样本的参考特征分布;
候选特征分布获取模块,用于采用迁移样本生成模型生成候选训练样本,获取候选训练样本的候选特征分布;
迁移样本生成模型更新模块,用于计算候选特征分布和参考特征分布之间的相似度,利用相似度更新迁移样本生成模型;
迁移数据生成模块,用于在满足预设条件的情况下,利用更新后的迁移样本生成模型生成最终训练样本,将最终训练样本作为迁移数据。
本申请实施例还提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请实施例提供的方法。
本申请实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行本申请实施例的方法。
上述申请中的一个实施例具有如下优点或有益效果:利用神经网络架构技术构建迁移样本生成模型,并利用数据迁移前场景的候选特征分布和数据迁移后场景的参考特征分布之间的相似度,来更新迁移样本生成模型,直至达到预设的停止条件,将更新停止后得到的迁移样本生成模型生成的候选训练样本,作为迁移数据,提高了搜索迁移数据的速度和效率,提高了迁移效果。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请一实施例的一种数据迁移方法的示意图;
图2是根据本申请另一实施例的另一种数据迁移方法的示意图;
图3是根据本申请一实施例的一种数据迁移装置的示意图;
图4是根据本申请另一实施例的另一种数据迁移装置的示意图;
图5是用来实现本申请实施例的一种数据迁移方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如图1所示,本实施方式提供了一种数据迁移方法示意图,包括如下步骤:
S110:获取预定义训练样本的参考特征分布;
S120:采用迁移样本生成模型生成候选训练样本,获取候选训练样本的候选特征分布;
S130:计算候选特征分布和参考特征分布之间的相似度,利用相似度更新迁移样本生成模型;
S140:在满足预设条件的情况下,利用更新后的迁移样本生成模型生成最终训练样本,将最终训练样本作为迁移数据。
一种示例中,在数据迁移的应用场景中,通常数据迁移前场景的训练数据量大,可以包括多个子集,数据迁移后场景的训练数据量小。利用NAS技术(Neural ArchitectureSearch,神经网络架构搜索),能够在数据迁移前场景中的多个子集中搜索出运用在数据迁移后场景中的迁移效果最好的子集,迁移效果最好的子集可以作为迁移数据。迁移数据可以被当作数据迁移后场景的训练样本,使得利用迁移数据训练得到的神经网络模型的性能达到最优。
首先,利用NAS技术(Neural Architecture Search,神经网络架构搜索)构建迁移样本生成模型。可以将RNN(循环神经网络模型,Recurrent Neural Network)或者基于进化算法(EA,Evolutionary Algorithm)的神经网络模型等作为迁移样本生成模型。然后,利用迁移样本生成模型生成数据迁移前场景的候选训练样本。例如,迁移样本生成模型为RNN模型时,利用具有初始模型参数的RNN模型,随机生成编码序列,编码序列解码得到候选训练样本(子集),候选训练样本可以包括多个网络模型结构。由于迁移样本生成模型进行多次迭代更新时,得到的多个编码序列(候选训练样本/子集)构成搜索空间(解空间),所以,在搜索空间(解空间)中搜索迁移效果最优的编码序列(最优的候选训练样本/子集),并将迁移效果最优的编码序列转换成迁移数据。迁移数据作为数据迁移后场景的训练样本,使得利用迁移数据训练得到的神经网络模型的性能达到最优。
通过计算数据迁移前场景的候选训练样本的特征分布和数据迁移后场景的预定义训练样本的参考特征分布之间的相似度,来度量迁移学习的有效性。具体的,利用相似度来更新迁移样本生成模型,能够使得迁移样本生成模型生成的候选训练样本,逐渐接近于数据迁移后场景的预定义训练样本。直至达到预设条件(迁移样本生成模型的更新次数达到预设值,或者迁移样本生成模型的性能趋于稳定,不再提高)时,停止更新迁移样本生成模型。更新停止后的迁移样本生成模型生成的候选训练样本,迁移效果最好。
由于每次更新的迁移样本生成模型得到的候选训练样本不同,所以,不同的候选训练样本对应的候选特征分布不同。而数据迁移后场景的训练样本是根据数据迁移后场景预先定义的,数据迁移后场景的预定义训练样本对应参考特征分布。分别计算多个不同的候选特征分布和参考特征分布之间的相似度,作为反馈信息(reward)更新迁移样本生成模型即可。其中,候选特征分布或者参考特征分布可以是多维高斯分布等。候选特征分布和参考特征分布之间的相似度,可以是相对熵(Relative Entropy),衡量的是相同事件空间里的两个概率分布的差异情况,还可以是候选特征分布和参考特征分布的分布超参数的范数距离等。
本实施方式中,提供了一种数据迁移方法,利用神经网络架构技术构建迁移样本生成模型,并利用数据迁移前场景的候选特征分布和数据迁移后场景的参考特征分布之间的相似度,来更新迁移样本生成模型,直至达到预设的停止条件,将更新停止后得到的迁移样本生成模型生成的候选训练样本,作为迁移数据。迁移数据作为数据迁移后场景中的训练样本,使得利用迁移数据训练得到的神经网络模型的性能达到最优,进而能够为跨模态场景或者其他迁移场景提供最优的神经网络模型。
通过在数据迁移前场景提供的训练数据中搜索迁移数据,可以解决人脸识别等图像处理任务在某些场景因数据稀缺,导致神经网络模型的性能不好的问题。人脸识别等图像处理任务中,利用训练数据量较大的业务场景的数据信息,来提升训练数据量较小的业务场景的神经网络模型的性能,以使得训练数据量较小的业务场景的神经网络模型处理图像的速度更快,精度更高。
在一种实施方式中,如图2所示,还包括:
S150:在不满足预设条件的情况下,利用更新后的迁移样本生成模型,返回执行采用迁移样本生成模型生成候选训练样本的步骤。
本实施方式中,在未满足预设条件的情况下(迁移样本生成模型的更新次数未达到预设值,或者迁移样本生成模型的性能并未达到最大),返回执行S110-S140。更新后的迁移样本生成模型,生成的候选训练样本逐渐接近预定义训练样本,使得候选训练样本越来越适应数据迁移后的场景。
在一种实施方式中,S130中,计算候选特征分布和参考特征分布之间的相似度,包括:
S131:创建概率模型,将候选特征分布和参考特征分布分别输入概率模型,得到第一概率分布和第二概率分布;
S132:根据第一概率分布和第二概率分布计算相对熵,将相对熵作为候选特征分布和参考特征分布之间的相似度。
一种示例中,创建一概率模型,概率模型用于假设特定的概率分布,使得候选特征分布和参考特征分布符合特定的概率分布,得到第一概率分布和第二概率分布。然后计算数据迁移前场景的第一概率分布和迁移后场景的第二概率分布之间的相对熵,作为候选特征分布和参考特征分布之间的相似度,以利用相对熵更新迁移样本生成模型。
本实施方式中,通过创建概率模型,使候选特征分布和参考特征分布符合特定的概率分布,得到第一概率分布和第二概率分布,计算相对熵,以利用相对熵更新迁移样本生成模型,提高了更新迁移样本生成模型的准确率和效率。
在一种实施方式中,S120包括:
S121:采用迁移样本生成模型生成候选训练样本;
S122:利用候选训练样本训练第一神经网络模型,候选训练样本对应数据迁移前场景;
S123:将迁移样本生成模型生成的候选训练样本输入至训练完成的第一神经网络模型,得到候选特征分布。
一种示例中,候选训练样本或预定义训练样本为图像数据的样本。在数据迁移前场景中,第一神经网络模型用于提取候选训练样本(例如具体为图像数据)的特征分布。利用数据迁移前场景的候选训练样本训练第一神经网络模型,直至第一神经网络模型的模型参数达到最优,性能趋于稳定。将候选训练样本,输入至训练完成的第一神经网络模型(具有最优的模型参数的第一神经网络模型),得到候选特征分布。由于更新后的迁移样本生成模型,生成的候选训练样本逐渐接近预定义训练样本,进而使得候选特征分布越来越接近参考特征分布,有效提高数据迁移的效果。
在一种实施方式中,S110,包括:
S111:利用预定义训练样本训练第二神经网络模型,预定义训练样本对应数据迁移后场景;
S112:将预定义训练样本输入至训练完成的第二神经网络模型,得到参考特征分布。
一种示例中,在数据迁移后场景中,第二神经网络模型用于提取预定义训练样本(例如具体为图像数据)的特征分布。利用数据迁移后场景的预定义训练样本训练第二神经网络模型,直至第二神经网络模型的模型参数达到最优,性能趋于稳定。将数据迁移后场景中的训练样本输入至训练完成的第二神经网络模型(具有最优的模型参数的第二神经网络模型),得到参考特征分布。由于预定义训练样本是数据迁移后的场景的较好的训练样本,为在数据迁移前的场景中搜索较好的候选训练样本,做出了充分优良的参考,提高了搜索得到的候选训练样本的迁移效果。
在一种实施方式中,候选训练样本或预定义训练样本为图像数据的样本。
在人脸识别等图像处理任务中,候选训练样本为图像数据的样本,预定义训练样本为图像数据的样本,利用图像数据的样本较大的业务场景的数据信息,来提升图像数据的样本较小的业务场景的神经网络模型的性能,以使得图像数据的样本较小的业务场景的神经网络模型处理图像的速度更快,精度更高。
在一种实施方式中,预设条件包括:
更新后的迁移样本生成模型的性能与更新前的迁移样本生成模型的性能相同;和/或
更新的次数达到预设次数。
在一种示例中,更新的次数可以根据实际情况进行适应性调整,在一定范围内,更新的次数越多,迁移样本生成模型的性能越好,得到的候选训练样本应用于数据迁移后的场景中的迁移效果也越好。
如图3所示,本实施方式提供了一种数据迁移装置,包括:
参考特征分布获取模块110,用于获取预定义训练样本的参考特征分布;
候选特征分布获取模块120,用于采用迁移样本生成模型生成候选训练样本,获取候选训练样本的候选特征分布;
迁移样本生成模型更新模块130,用于计算候选特征分布和参考特征分布之间的相似度,利用相似度更新迁移样本生成模型;
迁移数据生成模块140,用于在满足预设条件的情况下,利用更新后的迁移样本生成模型生成最终训练样本,将最终训练样本作为迁移数据。
在一种实施方式中,如图4所示,还包括:
反馈模块150,用于在不满足预设条件的情况下,指示候选特征分布获取模块利用更新后的迁移样本生成模型生成候选训练样本,并获取候选训练样本的候选特征分布。
在一种实施方式中,如图4所示,迁移样本生成模型更新模块130包括:
概率模型创建子模块131,用于创建概率模型,将候选特征分布和参考特征分布分别输入概率模型,得到第一概率分布和第二概率分布;
相似度计算子模块132,用于根据第一概率分布和第二概率分布,计算相对熵,将相对熵作为候选特征分布和参考特征分布之间的相似度;
模型更新子模块133,用于利用相似度更新迁移样本生成模型。
在一种实施方式中,如图4所示,候选特征分布获取模块120包括:
第一训练子模块121,用于利用候选训练样本训练第一神经网络模型,候选训练样本对应数据迁移前场景;
候选特征分布获取子模块122,用于将迁移样本生成模型生成的候选训练样本输入至训练完成的第一神经网络模型,得到候选特征分布。
在一种实施方式中,如图4所示,参考特征分布获取模块110包括:
第二训练子模块111,用于利用数据迁移后场景的预定义训练样本训练第二神经网络模型,预定义训练样本对应数据迁移后场景;
参考特征分布获取子模块112,用于将预定义训练样本输入至训练完成的第二神经网络模型,得到参考特征分布。
在一种实施方式中,候选训练样本或预定义训练样本为图像数据的样本。
在一种实施方式中,预设条件包括以下至少一项:
更新后的迁移样本生成模型的性能与更新前的迁移样本生成模型的性能相同;和/或,
更新的次数达到预设次数。
本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图5所示,是根据本申请实施例的一种数据迁移方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示图形用户界面(Graphical User Interface,GUI)的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的一种数据迁移方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的一种数据迁移方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的一种数据迁移方法对应的程序指令/模块(例如,附图3所示的参考特征分布获取模块110、候选特征分布获取模块120、迁移样本生成模型更新模块130、迁移数据生成模块140)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的一种数据迁移方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据一种数据迁移方法的电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至上述电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与上述电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(Liquid Cr5stal Displa5,LCD)、发光二极管(Light Emitting Diode,LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,解决了由于不同场景下训练数据分布不同,导致迁移效果较差的问题,提高了搜索迁移数据的速度和效率,提高了迁移效果,使得利用迁移数据训练得到的神经网络模型的性能达到最优,进而能够为跨模态的场景或者其他迁移后的场景提供最优的神经网络模型。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (16)
1.一种数据迁移方法,其特征在于,包括:
获取预定义训练样本的参考特征分布;
采用迁移样本生成模型生成候选训练样本,获取所述候选训练样本的候选特征分布;
计算所述候选特征分布和所述参考特征分布之间的相似度,利用所述相似度更新所述迁移样本生成模型;
在满足预设条件的情况下,利用更新后的迁移样本生成模型生成最终训练样本,将所述最终训练样本作为迁移数据。
2.根据权利要求1所述的方法,其特征在于,还包括:
在不满足所述预设条件的情况下,利用更新后的迁移样本生成模型,返回执行所述采用迁移样本生成模型生成候选训练样本的步骤。
3.根据权利要求1或2所述的方法,其特征在于,计算所述候选特征分布和所述参考特征分布之间的相似度,包括:
创建概率模型,将所述候选特征分布和所述参考特征分布分别输入所述概率模型,得到第一概率分布和第二概率分布;
根据所述第一概率分布和所述第二概率分布计算相对熵,将所述相对熵作为所述候选特征分布和所述参考特征分布之间的相似度。
4.根据权利要求1或2所述的方法,其特征在于,所述获取所述候选训练样本的候选特征分布,包括:
利用所述候选训练样本训练第一神经网络模型,所述候选训练样本对应数据迁移前场景;
将所述候选训练样本输入至训练完成的所述第一神经网络模型,得到所述候选特征分布。
5.根据权利要求1或2所述的方法,其特征在于,所述获取预定义训练样本的参考特征分布,包括:
利用所述预定义训练样本训练第二神经网络模型,所述预定义训练样本对应数据迁移后场景;
将所述预定义训练样本输入至训练完成的所述第二神经网络模型,得到所述参考特征分布。
6.根据权利要求1或2所述的方法,其特征在于,所述候选训练样本或所述预定义训练样本为图像数据的样本。
7.根据权利要求1或2所述的方法,其特征在于,所述预设条件包括:
更新后的迁移样本生成模型的性能与更新前的迁移样本生成模型的性能相同;和/或,
更新的次数达到预设次数。
8.一种数据迁移装置,其特征在于,包括:
参考特征分布获取模块,用于获取预定义训练样本的参考特征分布;
候选特征分布获取模块,用于采用迁移样本生成模型生成候选训练样本,获取所述候选训练样本的候选特征分布;
迁移样本生成模型更新模块,用于计算所述候选特征分布和所述参考特征分布之间的相似度,利用所述相似度更新所述迁移样本生成模型;
迁移数据生成模块,用于在满足预设条件的情况下,利用更新后的迁移样本生成模型生成最终训练样本,将所述最终训练样本作为迁移数据。
9.根据权利要求8所述的装置,其特征在于,还包括:
反馈模块,用于在不满足所述预设条件的情况下,指示所述候选特征分布获取模块利用更新后的迁移样本生成模型生成候选训练样本,并获取所述候选训练样本的候选特征分布。
10.根据权利要求8或9所述的装置,其特征在于,所述迁移样本生成模型更新模块包括:
概率模型创建子模块,用于创建概率模型,将所述候选特征分布和所述参考特征分布分别输入所述概率模型,得到第一概率分布和第二概率分布;
特征分布相似度计算子模块,用于根据所述第一概率分布和所述第二概率分布计算相对熵,将所述相对熵作为所述候选特征分布和所述参考特征分布之间的相似度;
模型更新子模块,用于利用所述相似度更新迁移样本生成模型。
11.根据权利要求8或9所述的装置,其特征在于,所述候选特征分布获取模块包括:
第一训练子模块,用于利用所述候选训练样本训练第一神经网络模型,所述候选训练样本对应数据迁移前场景;
候选特征分布获取子模块,用于将所述候选训练样本输入至训练完成的所述第一神经网络模型,得到所述候选特征分布。
12.根据权利要求8或9所述的装置,其特征在于,所述参考特征分布获取模块包括:
第二训练子模块,用于利用所述预定义训练样本训练第二神经网络模型,所述预定义训练样本对应数据迁移后场景;
参考特征分布获取子模块,用于将所述预定义训练样本输入至训练完成的所述第二神经网络模型,得到所述参考特征分布。
13.根据权利要求8或9所述的装置,其特征在于,所述候选训练样本或所述预定义训练样本为图像数据的样本。
14.根据权利要求8或9所述的装置,其特征在于,所述预设条件包括:
更新后的迁移样本生成模型的性能与更新前的迁移样本生成模型的性能相同;和/或,
更新的次数达到预设次数。
15.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010274239.3A CN111488972B (zh) | 2020-04-09 | 2020-04-09 | 数据迁移方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010274239.3A CN111488972B (zh) | 2020-04-09 | 2020-04-09 | 数据迁移方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111488972A true CN111488972A (zh) | 2020-08-04 |
CN111488972B CN111488972B (zh) | 2023-08-08 |
Family
ID=71812770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010274239.3A Active CN111488972B (zh) | 2020-04-09 | 2020-04-09 | 数据迁移方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111488972B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733970A (zh) * | 2021-03-31 | 2021-04-30 | 腾讯科技(深圳)有限公司 | 图像分类模型处理方法、图像分类方法及装置 |
CN113205449A (zh) * | 2021-05-21 | 2021-08-03 | 珠海金山网络游戏科技有限公司 | 表情迁移模型的训练方法及装置、表情迁移方法及装置 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120158621A1 (en) * | 2010-12-16 | 2012-06-21 | Microsoft Corporation | Structured cross-lingual relevance feedback for enhancing search results |
CN104239907A (zh) * | 2014-07-16 | 2014-12-24 | 华南理工大学 | 面向变化场景的远红外行人检测方法 |
CN107527068A (zh) * | 2017-08-07 | 2017-12-29 | 南京信息工程大学 | 基于cnn和域自适应学习的车型识别方法 |
CN109271522A (zh) * | 2018-11-20 | 2019-01-25 | 深圳大学 | 基于深度混合模型迁移学习的评论情感分类方法及系统 |
CN109359793A (zh) * | 2018-08-03 | 2019-02-19 | 阿里巴巴集团控股有限公司 | 一种针对新场景的预测模型训练方法及装置 |
CN110046551A (zh) * | 2019-03-18 | 2019-07-23 | 中国科学院深圳先进技术研究院 | 一种人脸识别模型的生成方法及设备 |
CN110377587A (zh) * | 2019-07-15 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 基于机器学习的迁移数据确定方法、装置、设备及介质 |
CN110457470A (zh) * | 2019-07-05 | 2019-11-15 | 深圳壹账通智能科技有限公司 | 一种文本分类模型学习方法及装置 |
CN110503140A (zh) * | 2019-08-09 | 2019-11-26 | 哈尔滨工业大学 | 基于深度迁移学习与邻域降噪的分类方法 |
CN110781413A (zh) * | 2019-08-28 | 2020-02-11 | 腾讯大地通途(北京)科技有限公司 | 兴趣点确定方法及装置、存储介质、电子设备 |
CN110796233A (zh) * | 2019-10-17 | 2020-02-14 | 北京航空航天大学 | 基于迁移学习的深度残差卷积神经网络的自适应压缩方法 |
US20200097850A1 (en) * | 2018-09-20 | 2020-03-26 | Electronics And Telecommunications Research Institute | Machine learning apparatus and method based on multi-feature extraction and transfer learning, and leak detection apparatus using the same |
-
2020
- 2020-04-09 CN CN202010274239.3A patent/CN111488972B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120158621A1 (en) * | 2010-12-16 | 2012-06-21 | Microsoft Corporation | Structured cross-lingual relevance feedback for enhancing search results |
CN104239907A (zh) * | 2014-07-16 | 2014-12-24 | 华南理工大学 | 面向变化场景的远红外行人检测方法 |
CN107527068A (zh) * | 2017-08-07 | 2017-12-29 | 南京信息工程大学 | 基于cnn和域自适应学习的车型识别方法 |
CN109359793A (zh) * | 2018-08-03 | 2019-02-19 | 阿里巴巴集团控股有限公司 | 一种针对新场景的预测模型训练方法及装置 |
US20200097850A1 (en) * | 2018-09-20 | 2020-03-26 | Electronics And Telecommunications Research Institute | Machine learning apparatus and method based on multi-feature extraction and transfer learning, and leak detection apparatus using the same |
CN109271522A (zh) * | 2018-11-20 | 2019-01-25 | 深圳大学 | 基于深度混合模型迁移学习的评论情感分类方法及系统 |
CN110046551A (zh) * | 2019-03-18 | 2019-07-23 | 中国科学院深圳先进技术研究院 | 一种人脸识别模型的生成方法及设备 |
CN110457470A (zh) * | 2019-07-05 | 2019-11-15 | 深圳壹账通智能科技有限公司 | 一种文本分类模型学习方法及装置 |
CN110377587A (zh) * | 2019-07-15 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 基于机器学习的迁移数据确定方法、装置、设备及介质 |
CN110503140A (zh) * | 2019-08-09 | 2019-11-26 | 哈尔滨工业大学 | 基于深度迁移学习与邻域降噪的分类方法 |
CN110781413A (zh) * | 2019-08-28 | 2020-02-11 | 腾讯大地通途(北京)科技有限公司 | 兴趣点确定方法及装置、存储介质、电子设备 |
CN110796233A (zh) * | 2019-10-17 | 2020-02-14 | 北京航空航天大学 | 基于迁移学习的深度残差卷积神经网络的自适应压缩方法 |
Non-Patent Citations (5)
Title |
---|
SREYASEE DAS BHATTACHARJEE 等: "Multi-View, Generative, Transfer Learning for Distributed Time Series Classification", 2019 IEEE INTERNATIONAL CONFERENCE ON BIG DATA(BIG DATA), pages 5585 - 5594 * |
YOSHUA BENGIO: "Deep Learning of Representations for Unsupervised and Transfer Learning", WORKSHOP ON UNSUPERVISED AND TRANSFER LEARNING, vol. 27, pages 1 - 21 * |
武惠 等: "基于迁移学习和BiLSTM-CRF的中文命名实体识别", 小型微型计算机系统, vol. 40, no. 06, pages 1142 - 1147 * |
王通 等: "基于改进AdaBoost的油井动液面自适应集成建模", 电子测量与仪器学报, vol. 32, no. 08, pages 1342 - 1348 * |
齐金山;梁循;李志宇;陈燕方;许媛;: "大规模复杂信息网络表示学习:概念、方法与挑战", 计算机学报, vol. 41, no. 10, pages 2394 - 2420 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733970A (zh) * | 2021-03-31 | 2021-04-30 | 腾讯科技(深圳)有限公司 | 图像分类模型处理方法、图像分类方法及装置 |
CN112733970B (zh) * | 2021-03-31 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 图像分类模型处理方法、图像分类方法及装置 |
CN113205449A (zh) * | 2021-05-21 | 2021-08-03 | 珠海金山网络游戏科技有限公司 | 表情迁移模型的训练方法及装置、表情迁移方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111488972B (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102615957B1 (ko) | 점군 데이터 처리방법, 장치, 전자기기 및 판독 가능 기록매체 | |
CN110795569B (zh) | 知识图谱的向量表示生成方法、装置及设备 | |
CN111738414B (zh) | 推荐模型的生成、内容推荐方法、装置、设备和介质 | |
CN110633797B (zh) | 网络模型结构的搜索方法、装置以及电子设备 | |
US20220114218A1 (en) | Session Recommendation Method, Device and Electronic Equipment | |
CN112001180A (zh) | 多模态预训练模型获取方法、装置、电子设备及存储介质 | |
CN112241764A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN113094550A (zh) | 视频检索方法、装置、设备和介质 | |
CN111860769A (zh) | 预训练图神经网络的方法以及装置 | |
CN111563593B (zh) | 神经网络模型的训练方法和装置 | |
CN110852379B (zh) | 用于目标物体识别的训练样本生成方法及装置 | |
CN111582479A (zh) | 神经网络模型的蒸馏方法和装置 | |
CN110796191B (zh) | 轨迹分类方法及装置 | |
CN111241838B (zh) | 文本实体的语义关系处理方法、装置及设备 | |
CN110427436B (zh) | 实体相似度计算的方法及装置 | |
CN110569969A (zh) | 网络模型结构的采样方法、装置以及电子设备 | |
CN111079945A (zh) | 端到端模型的训练方法及装置 | |
CN112529180A (zh) | 模型蒸馏的方法和装置 | |
CN111708477B (zh) | 按键识别方法、装置、设备以及存储介质 | |
CN111488972A (zh) | 数据迁移方法、装置、电子设备和存储介质 | |
CN111753964A (zh) | 神经网络的训练方法和装置 | |
CN112241716A (zh) | 训练样本的生成方法和装置 | |
CN112580723A (zh) | 多模型融合方法、装置、电子设备和存储介质 | |
CN111767990A (zh) | 神经网络的处理方法和装置 | |
CN112819497B (zh) | 转化率预测方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |