CN114298146A - 样本扩充方法、装置、电子设备及存储介质 - Google Patents

样本扩充方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114298146A
CN114298146A CN202111394872.7A CN202111394872A CN114298146A CN 114298146 A CN114298146 A CN 114298146A CN 202111394872 A CN202111394872 A CN 202111394872A CN 114298146 A CN114298146 A CN 114298146A
Authority
CN
China
Prior art keywords
sample
target
source
expansion
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111394872.7A
Other languages
English (en)
Inventor
林建明
杨懿宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wuyu Technology Co ltd
Original Assignee
Shenzhen Wuyu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Wuyu Technology Co ltd filed Critical Shenzhen Wuyu Technology Co ltd
Priority to CN202111394872.7A priority Critical patent/CN114298146A/zh
Publication of CN114298146A publication Critical patent/CN114298146A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供了一种样本扩充方法、装置、电子设备及存储介质,所述方法包括:获取源样本以及目标样本,针对所述源样本以及所述目标样本分别进行样本扩充,生成源扩充样本以及目标扩充样本;确定所述源样本、所述目标样本、所述源扩充样本以及所述目标扩充样本各自对应的样本权重;根据所述源样本以及所述目标样本,调整所述源扩充样本以及所述目标扩充样各自对应的所述样本权重;整合所述源样本、所述目标样本以及样本权重调整后的所述源扩充样本与所述目标扩充样本。通过源样本以及目标样本来实现样本扩充,从而避免生成假样本,基于整合后的样本进行模型训练,模型训练的效果可以达到预期效果。

Description

样本扩充方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种样本扩充方法、装置、电子设备及存储介质。
背景技术
在模型训练过程中,经常会遇到样本不充足的小样本模型训练场景,由于样本数量不充足,导致模型训练的效果不理想,往往不具有代表性。传统的样本扩充方法大都是生成假样本,基于这些假样本进行模型训练,导致模型训练的效果达不到预期效果。
发明内容
为了解决上述传统的样本扩充方法大都是生成假样本,基于这些假样本进行模型训练,导致模型训练的效果达不到预期效果的技术问题,本发明实施例提供了一种样本扩充方法、装置、电子设备及存储介质。
在本发明实施例的第一方面,首先提供了一种样本扩充方法,所述方法包括:
获取源样本以及目标样本,针对所述源样本以及所述目标样本分别进行样本扩充,生成源扩充样本以及目标扩充样本;
确定所述源样本、所述目标样本、所述源扩充样本以及所述目标扩充样本各自对应的样本权重;
根据所述源样本以及所述目标样本,调整所述源扩充样本以及所述目标扩充样各自对应的所述样本权重;
整合所述源样本、所述目标样本以及样本权重调整后的所述源扩充样本与所述目标扩充样本。
在一个可选的实施方式中,所述获取源样本以及目标样本,包括:
确定待扩充的源样本以及目标样本,并确定所述源样本与所述目标样本之间的相似度;
若所述相似度超过预设相似度阈值,则获取所述源样本以及所述目标样本。
在一个可选的实施方式中,所述针对所述源样本以及所述目标样本分别进行样本扩充,生成源扩充样本以及目标扩充样本,包括:
针对所述源样本以及所述目标样本分别进行复制,生成源扩充样本以及目标扩充样本。
在一个可选的实施方式中,所述确定所述源样本、所述目标样本、所述源扩充样本以及所述目标扩充样本各自对应的样本权重,包括:
若所述源样本存在对应的第一样本权重,则确定所述第一样本权重为所述源扩充样本对应的样本权重;
若所述目标样本存在对应的第二样本权重,则确定所述第二样本权重为所述目标扩充样本对应的样本权重。
在一个可选的实施方式中,所述确定所述源样本、所述目标样本、所述源扩充样本以及所述目标扩充样本各自对应的样本权重,还包括:
若所述源样本未存在对应的第一样本权重,则赋予所述源样本、所述源扩充样本一致的样本权重;
若所述目标样本未存在对应的第二样本权重,则赋予所述目标样本、所述目标扩充样本一致的样本权重。
在一个可选的实施方式中,所述根据所述源样本以及所述目标样本,调整所述源扩充样本以及所述目标扩充样各自对应的所述样本权重,包括:
确定目标样本特征,其中,所述源扩充样本、所述目标扩充样本均包括所述目标样本特征;
将所述源扩充样本、所述目标扩充样本以及所述源扩充样本与所述目标扩充样本中的所述目标样本特征输入至预设权重调整模型;
获取所述预设权重调整模型输出的所述源扩充样本、所述目标扩充样本各自对应的目标样本权重;
根据所述源样本以及所述目标样本,调整所述源扩充样本以及所述目标扩充样各自对应的所述目标样本权重。
在一个可选的实施方式中,所述根据所述源样本以及所述目标样本,调整所述源扩充样本以及所述目标扩充样各自对应的所述目标样本权重,包括:
基于所述源样本对初始模型进行模型训练得到第一模型,并获取所述第一模型的第一指标;
基于所述源扩充样本对初始模型进行模型训练得到第二模型,并获取所述第二模型的第二指标;
若所述第一指标大于所述第二指标,则减小所述源扩充样本对应的所述目标样本权重;
基于所述目标样本对初始模型进行模型训练得到第三模型,并获取所述第三模型的第三指标;
基于所述目标扩充样本对初始模型进行模型训练得到第四模型,并获取所述第四模型的第四指标;
若所述第三指标大于所述第四指标,则增大所述目标扩充样本对应的所述目标样本权重。
在本发明实施例的第二方面,提供了一种样本扩充装置,所述装置包括:
样本获取模块,用于获取源样本以及目标样本;
样本扩充模块,用于针对所述源样本以及所述目标样本分别进行样本扩充,生成源扩充样本以及目标扩充样本;
权重确定模块,用于确定所述源样本、所述目标样本、所述源扩充样本以及所述目标扩充样本各自对应的样本权重;
权重调整模块,用于根据所述源样本以及所述目标样本,调整所述源扩充样本以及所述目标扩充样各自对应的所述样本权重;
样本整合模块,用于整合所述源样本、所述目标样本以及样本权重调整后的所述源扩充样本与所述目标扩充样本。
在本发明实施例的第三方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面中所述的样本扩充方法。
在本发明实施例的第四方面,还提供了一种存储介质,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面中所述的样本扩充方法。
在本发明实施例的第五方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面中所述的样本扩充方法。
本发明实施例提供的技术方案,获取源样本以及目标样本,针对源样本以及目标样本分别进行样本扩充,生成源扩充样本以及目标扩充样本,确定源样本、目标样本、源扩充样本以及目标扩充样本各自对应的样本权重,根据源样本以及目标样本,调整源扩充样本以及目标扩充样各自对应的样本权重,整合源样本、目标样本以及样本权重调整后的源扩充样本与目标扩充样本。通过源样本以及目标样本进行样本扩充,生成源扩充样本以及目标扩充样本,根据源样本以及目标样本,调整源扩充样本以及目标扩充样各自对应的样本权重,后续整合源样本、目标样本以及样本权重调整后的源扩充样本与目标扩充样本,以此来实现样本扩充,从而避免生成假样本,基于整合后的样本进行模型训练,模型训练的效果可以达到预期效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中示出的一种样本扩充方法的实施流程示意图;
图2为本发明实施例中示出的一种样本权重调整方法的实施流程示意图;
图3为本发明实施例中示出的一种预设权重调整模型的输入/输出示意图;
图4为本发明实施例中示出的一种样本扩充装置的结构示意图;
图5为本发明实施例中示出的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如图1所示,为本发明实施例提供的一种样本扩充方法的实施流程示意图,该方法应用于处理器,具体可以包括以下步骤:
S101,获取源样本以及目标样本,针对所述源样本以及所述目标样本分别进行样本扩充,生成源扩充样本以及目标扩充样本。
在本发明实施例中,为了扩充原有的建模数据集,获取原有的建模数据集中的源样本以及目标样本,这里源样本对应于源域,而目标样本对应于目标域,并且源样本以及目标样本都属于原有的建模数据集。
其中,在本发明实施例中,具体可以通过以下方式获取源样本以及目标样本:确定待扩充的源样本以及目标样本,并确定源样本与目标样本之间的相似度,若相似度超过预设相似度阈值,则获取源样本以及目标样本。
例如,在本发明实施例中,从原有的建模数据集中确定待扩充的源样本以及目标样本,并确定源样本与目标样本之间的相似度,若相似度超过95%,则可以获取源样本以及目标样本。
需要说明的是,对于源样本以及目标样本,两者之间的相似度超过预设相似度阈值,表明两者基本一致,区别仅在于样本特征对应的特征值有所不同,例如源样本中样本特征对应的特征值为1,而目标样本中样本特征对应的特征值为1.1,本发明实施例对此不作限定。
此外,对于源样本与目标样本各自对应的数量,可以包括一个或多个,且源样本与目标样本各自对应的数量可以相等或者不等,源样本与目标样本包含相同数量的样本特征(例如用户年龄)。例如,源样本1000个,目标样本1000个,或者,源样本1000个,而目标样本500个。
另外对于源样本与目标样本之间的相似度,具体可以参考目前市面上比较成熟的算法,据此可以确定源样本与目标样本之间的相似度,本发明实施例对此不作限定。
经过上述步骤,本发明实施例获取到源样本以及目标样本,针对源样本以及目标样本进行预处理,这里预处理具体可以包括缺失值检查、样本特征检查等预处理操作,本发明实施例对此不作限定。
针对源样本以及目标样本,如果预处理通过,则分别进行样本扩充,生成源扩充样本以及目标扩充样本,这里扩充的源扩充样本与源样本一致,目标扩充样本与目标样本一致。
具体地,在本发明实施例中,针对源样本以及目标样本分别进行复制,生成源扩充样本以及目标扩充样本,如此完成原有的建模数据集的扩充,后续需要对样本的样本权重进行调整。
例如,在本发明实施例中,针对源样本进行copy拷贝,可以生成源样本对应的源扩充样本,同理,针对目标样本进行copy拷贝,可以生成目标样本对应的目标扩充样本,后续需要调整其对应的样本权重。
S102,确定所述源样本、所述目标样本、所述源扩充样本以及所述目标扩充样本各自对应的样本权重。
在本发明实施例中,对于源样本、目标样本、源样本对应的源扩充样本以及目标样本对应的目标扩充样本,对其对应的样本权重进行初始化,即确定其各自对应的样本权重。
例如,在本发明实施例中,对于源样本、目标样本、源样本对应的源扩充样本以及目标样本对应的目标扩充样本,确定各自对应的样本权重,如下表1所示。
样本 样本权重
源样本 1
目标样本 1.5
源扩充样本 1
目标扩充样本 1.5
表1
需要说明的是,对于样本权重,例如1,表明了源样本、目标样本、源样本对应的源扩充样本以及目标样本对应的目标扩充样本等各自在模型训练过程中的重要程度,本发明实施例对此不作限定。
此外,在本发明实施例中,具体可以通过以下方式确定源样本、目标样本、源扩充样本以及目标扩充样本各自对应的样本权重:若源样本存在对应的第一样本权重,则确定第一样本权重为源扩充样本对应的样本权重;若目标样本存在对应的第二样本权重,则确定第二样本权重为目标扩充样本对应的样本权重。
例如,在本发明实施例中,对于源样本,若源样本存在对应的第一样本权重,意味着源样本存在对应的初始样本权重,则可以把源样本存在对应的初始样本权重赋予源扩充样本,即确定第一样本权重为源扩充样本对应的样本权重。
同理,在本发明实施例中,对于目标样本,若目标样本存在对应的第二样本权重,意味着目标样本存在对应的初始样本权重,则可以把目标样本存在对应的初始样本权重赋予源扩充样本,即确定第二样本权重为目标扩充样本对应的样本权重。
另外,若源样本未存在对应的第一样本权重,则赋予源样本、源扩充样本一致的样本权重,若目标样本未存在对应的第二样本权重,则赋予目标样本、目标扩充样本一致的样本权重。
例如,对于源样本,若源样本未存在对应的第一样本权重,意味着源样本未存在对应的初始样本权重,此时可以赋予源样本、源扩充样本一致的样本权重,比如源样本、源扩充样本的样本权重均为1,如上述表1所示。
同理,对于目标样本,若目标样本未存在对应的第二样本权重,意味着目标样本未存在对应的初始样本权重,此时可以赋予目标样本、目标扩充样本一致的样本权重,比如目标样本、目标扩充样本的样本权重均为1.5。
需要说明的是,可以根据经验值赋予源样本、源扩充样本一致的样本权重,同理,根据经验值赋予目标样本、目标扩充样本一致的样本权重,当然还可以是其它的权重赋予方式,本发明实施例对此不作限定。
S103,根据所述源样本以及所述目标样本,调整所述源扩充样本以及所述目标扩充样各自对应的所述样本权重。
在本发明实施例中,经过上述步骤,对于源样本、目标样本、源扩充样本以及目标扩充样本,均存在各自对应的样本权重,这里需要对源扩充样本以及目标扩充样各自对应的样本权重进行调整,具体是根据上述源样本、目标样本进行样本权重的调整。
其中,如图2所示,为本发明实施例提供的一种样本权重调整方法的实施流程示意图,该方法应用于处理器,具体可以包括以下步骤:
S201,确定目标样本特征,其中,所述源扩充样本、所述目标扩充样本均包括所述目标样本特征。
在本发明实施例中,确定目标样本特征(也可以称之为目标变量),其中,源扩充样本、目标扩充样本均包括该目标样本特征,但是区别在于源扩充样本中该目标样本特征对应的特征值与目标扩充样本中目标样本特征对应的特征值不同,意味着源扩充样本、目标扩充样本边缘分布存在差异性。
例如,在本发明实施例中,用户可以根据样本特征的重要程度,指定源扩充样本、目标扩充样本中对应的某个目标样本特征,从而本发明实施例可以确定用户指定的源扩充样本、目标扩充样本中对应的某个目标样本特征。
S202,将所述源扩充样本、所述目标扩充样本以及所述源扩充样本与所述目标扩充样本中的所述目标样本特征输入至预设权重调整模型。
在本发明实施例中,对于源扩充样本、目标扩充样本,以及源扩充样本与目标扩充样本中对应的目标样本特征,将这些输入至预设权重调整模型,如此对源扩充样本、目标扩充样本各自对应的样本权重进行初次调整。
需要说明的是,对于预设权重调整模型,具体可以是含有fit方法、predict方法、predict_proba方法、以及weights属性,且是二分类有监督的机器学习算法,例如逻辑回归算法,本发明实施例对此不作限定。
例如,在本发明实施例中,对于源扩充样本、目标扩充样本,以及源扩充样本与目标扩充样本中对应的目标样本特征,输入至逻辑回归模型,如此对源扩充样本、目标扩充样本各自对应的样本权重进行初次调整。
S203,获取所述预设权重调整模型输出的所述源扩充样本、所述目标扩充样本各自对应的目标样本权重。
在本发明实施例中,对于预设权重调整模型,可以调整源扩充样本、目标扩充样本各自对应的样本权重,如此可以获取预设权重调整模型输出的源扩充样本、目标扩充样本各自对应的目标样本权重,意味着源扩充样本、目标扩充样本各自对应的样本权重调整为目标样本权重。
例如,在本发明实施例中,对于预设权重调整模型,可以调整源扩充样本、目标扩充样本各自对应的样本权重,如图3所示,由此获取预设权重调整模型输出的源扩充样本对应的目标样本权重1.5、目标扩充样本对应的样本权重0.8,意味着源扩充样本的样本权重1调整为目标样本权重1.5,目标扩充样本对应的样本权重1调整为目标样本权重0.8。
S204,根据所述源样本以及所述目标样本,调整所述源扩充样本以及所述目标扩充样各自对应的所述目标样本权重。
在本发明实施例中,对于源扩充样本以及目标扩充样各自对应的目标样本权重,可以根据源样本以及目标样本,调整源扩充样本以及目标扩充样各自对应的目标样本权重。
具体地,基于源样本对初始模型进行模型训练得到第一模型,并获取第一模型的第一指标,基于源扩充样本对初始模型进行模型训练得到第二模型,并获取第二模型的第二指标;
对于第一模型的第一指标,与第二模型的第二指标进行比较,如果第一指标大于第二指标,说明源扩充样本的目标样本权重影响了模型的训练效果,此时可以减小源扩充样本对应的目标样本权重。
例如,基于源样本对初始模型进行模型训练得到第一模型,并获取第一模型的第一MSE,基于源扩充样本对初始模型进行模型训练得到第二模型,并获取第二模型的第二MSE;
对于第一模型的第一MSE,与第二模型的第二MSE进行比较,如果第一MSE大于第二MSE,则说明了源扩充样本的目标样本权重影响了模型的训练效果,此时可以减小源扩充样本对应的目标样本权重。
需要说明的是,对于第一模型的第一指标,与第二模型的第二指标进行比较,如果第一指标远远大于第二指标,则源扩充样本对应的目标样本权重的减小幅度越大,本发明实施例对此不作限定。
具体地,如果第一指标(远远)大于第二指标,此时可以计算第一指标与第二指标之间的差值,并除以第一指标计算一个比例,然后源扩充样本对应的目标样本权重按照这个比例减小,本发明实施例对此不作限定。
此外,基于目标样本对初始模型进行模型训练得到第三模型,并获取第三模型的第三指标,基于目标扩充样本对初始模型进行模型训练得到第四模型,并获取第四模型的第四指标;
对于第三模型的第三指标,与第四模型的第四指标进行比较,如果第三指标大于第四指标,说明目标扩充样本的目标样本权重影响了模型的训练效果,此时可以增大目标扩充样本对应的目标样本权重。
例如,基于目标样本对初始模型进行模型训练得到第三模型,并获取第三模型的第三MSE,基于目标扩充样本对初始模型进行模型训练得到第四模型,并获取第四模型的第四MSE;
对于第三模型的第三MSE,与第四模型的第四MSE进行比较,如果第三MSE大于第四MSE,则说明了扩充样本的目标样本权重影响了模型的训练效果,此时可以增大目标扩充样本对应的目标样本权重。
需要说明的是,对于第三模型的第三指标,与第四模型的第四指标进行比较,如果第三指标(远远)大于第四指标,则目标扩充样本对应的目标样本权重的增大幅度越大,本发明实施例对此不作限定。
具体地,如果第三指标(远远)大于第四指标,此时可以计算第三指标与第四指标之间的差值,并除以第三指标计算一个比例,然后目标扩充样本对应的目标样本权重按照这个比例增大,本发明实施例对此不作限定。
需要说明的是,在本发明实施例中可以迭代执行上述步骤S201~S204,,本发明实施例对此不作限定。期间用户可以根据实际样本的响应率来调整误差(即上述第一指标与第二指标之间的差值、第三指标与第四指标之间的差值)传导的学习率。
对于上述指标,具体可以是MSE(均方误差)、RMSE(均方根误差)、MAE(平均绝对误差)、R-Squared等,本发明实施例对此不作限定。
S104,整合所述源样本、所述目标样本以及样本权重调整后的所述源扩充样本与所述目标扩充样本。
在本发明实施例中,可以整合源样本、目标样本以及样本权重调整后的源扩充样本与目标扩充样本,意味着最终输出扩充后的带有样本权重的样本集用于后续的建模环节。
此外,在本发明实施例中,可以生成ROC图,具体是生成源样本、目标样本、样本权重调整后的源扩充样本与目标扩充样本,以及整体建模样本上的ROC图。
通过上述对本发明实施例提供的技术方案的描述,获取源样本以及目标样本,针对源样本以及目标样本分别进行样本扩充,生成源扩充样本以及目标扩充样本,确定源样本、目标样本、源扩充样本以及目标扩充样本各自对应的样本权重,根据源样本以及目标样本,调整源扩充样本以及目标扩充样各自对应的样本权重,整合源样本、目标样本以及样本权重调整后的源扩充样本与目标扩充样本。
通过源样本以及目标样本进行样本扩充,生成源扩充样本以及目标扩充样本,根据源样本以及目标样本,调整源扩充样本以及目标扩充样各自对应的样本权重,后续整合源样本、目标样本以及样本权重调整后的源扩充样本与目标扩充样本,以此来实现样本扩充,从而避免生成假样本,基于整合后的样本进行模型训练,模型训练的效果可以达到预期效果。
与上述方法实施例相对应,本发明实施例还提供了一种样本扩充装置,如图4所示,该装置可以包括:样本获取模块410、样本扩充模块420、权重确定模块430、权重调整模块440、样本整合模块450。
样本获取模块410,用于获取源样本以及目标样本;
样本扩充模块420,用于针对所述源样本以及所述目标样本分别进行样本扩充,生成源扩充样本以及目标扩充样本;
权重确定模块430,用于确定所述源样本、所述目标样本、所述源扩充样本以及所述目标扩充样本各自对应的样本权重;
权重调整模块440,用于根据所述源样本以及所述目标样本,调整所述源扩充样本以及所述目标扩充样各自对应的所述样本权重;
样本整合模块450,用于整合所述源样本、所述目标样本以及样本权重调整后的所述源扩充样本与所述目标扩充样本。
本发明实施例还提供了一种电子设备,如图5所示,包括处理器51、通信接口52、存储器53和通信总线54,其中,处理器51,通信接口52,存储器53通过通信总线54完成相互间的通信,
存储器53,用于存放计算机程序;
处理器51,用于执行存储器53上所存放的程序时,实现如下步骤:
获取源样本以及目标样本,针对所述源样本以及所述目标样本分别进行样本扩充,生成源扩充样本以及目标扩充样本;确定所述源样本、所述目标样本、所述源扩充样本以及所述目标扩充样本各自对应的样本权重;根据所述源样本以及所述目标样本,调整所述源扩充样本以及所述目标扩充样各自对应的所述样本权重;整合所述源样本、所述目标样本以及样本权重调整后的所述源扩充样本与所述目标扩充样本。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种存储介质,该存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的样本扩充方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的样本扩充方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在存储介质中,或者从一个存储介质向另一个存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种样本扩充方法,其特征在于,所述方法包括:
获取源样本以及目标样本,针对所述源样本以及所述目标样本分别进行样本扩充,生成源扩充样本以及目标扩充样本;
确定所述源样本、所述目标样本、所述源扩充样本以及所述目标扩充样本各自对应的样本权重;
根据所述源样本以及所述目标样本,调整所述源扩充样本以及所述目标扩充样各自对应的所述样本权重;
整合所述源样本、所述目标样本以及样本权重调整后的所述源扩充样本与所述目标扩充样本。
2.根据权利要求1所述的方法,其特征在于,所述获取源样本以及目标样本,包括:
确定待扩充的源样本以及目标样本,并确定所述源样本与所述目标样本之间的相似度;
若所述相似度超过预设相似度阈值,则获取所述源样本以及所述目标样本。
3.根据权利要求1所述的方法,其特征在于,所述针对所述源样本以及所述目标样本分别进行样本扩充,生成源扩充样本以及目标扩充样本,包括:
针对所述源样本以及所述目标样本分别进行复制,生成源扩充样本以及目标扩充样本。
4.根据权利要求1所述的方法,其特征在于,所述确定所述源样本、所述目标样本、所述源扩充样本以及所述目标扩充样本各自对应的样本权重,包括:
若所述源样本存在对应的第一样本权重,则确定所述第一样本权重为所述源扩充样本对应的样本权重;
若所述目标样本存在对应的第二样本权重,则确定所述第二样本权重为所述目标扩充样本对应的样本权重。
5.根据权利要求4所述的方法,其特征在于,所述确定所述源样本、所述目标样本、所述源扩充样本以及所述目标扩充样本各自对应的样本权重,还包括:
若所述源样本未存在对应的第一样本权重,则赋予所述源样本、所述源扩充样本一致的样本权重;
若所述目标样本未存在对应的第二样本权重,则赋予所述目标样本、所述目标扩充样本一致的样本权重。
6.根据权利要求1所述的方法,其特征在于,所述根据所述源样本以及所述目标样本,调整所述源扩充样本以及所述目标扩充样各自对应的所述样本权重,包括:
确定目标样本特征,其中,所述源扩充样本、所述目标扩充样本均包括所述目标样本特征;
将所述源扩充样本、所述目标扩充样本以及所述源扩充样本与所述目标扩充样本中的所述目标样本特征输入至预设权重调整模型;
获取所述预设权重调整模型输出的所述源扩充样本、所述目标扩充样本各自对应的目标样本权重;
根据所述源样本以及所述目标样本,调整所述源扩充样本以及所述目标扩充样各自对应的所述目标样本权重。
7.根据权利要求6所述的方法,其特征在于,所述根据所述源样本以及所述目标样本,调整所述源扩充样本以及所述目标扩充样各自对应的所述目标样本权重,包括:
基于所述源样本对初始模型进行模型训练得到第一模型,并获取所述第一模型的第一指标;
基于所述源扩充样本对初始模型进行模型训练得到第二模型,并获取所述第二模型的第二指标;
若所述第一指标大于所述第二指标,则减小所述源扩充样本对应的所述目标样本权重;
基于所述目标样本对初始模型进行模型训练得到第三模型,并获取所述第三模型的第三指标;
基于所述目标扩充样本对初始模型进行模型训练得到第四模型,并获取所述第四模型的第四指标;
若所述第三指标大于所述第四指标,则增大所述目标扩充样本对应的所述目标样本权重。
8.一种样本扩充装置,其特征在于,所述装置包括:
样本获取模块,用于获取源样本以及目标样本;
样本扩充模块,用于针对所述源样本以及所述目标样本分别进行样本扩充,生成源扩充样本以及目标扩充样本;
权重确定模块,用于确定所述源样本、所述目标样本、所述源扩充样本以及所述目标扩充样本各自对应的样本权重;
权重调整模块,用于根据所述源样本以及所述目标样本,调整所述源扩充样本以及所述目标扩充样各自对应的所述样本权重;
样本整合模块,用于整合所述源样本、所述目标样本以及样本权重调整后的所述源扩充样本与所述目标扩充样本。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1至7中任一项所述的方法步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
CN202111394872.7A 2021-11-23 2021-11-23 样本扩充方法、装置、电子设备及存储介质 Pending CN114298146A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111394872.7A CN114298146A (zh) 2021-11-23 2021-11-23 样本扩充方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111394872.7A CN114298146A (zh) 2021-11-23 2021-11-23 样本扩充方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114298146A true CN114298146A (zh) 2022-04-08

Family

ID=80966619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111394872.7A Pending CN114298146A (zh) 2021-11-23 2021-11-23 样本扩充方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114298146A (zh)

Similar Documents

Publication Publication Date Title
CN110311902B (zh) 一种异常行为的识别方法、装置及电子设备
CN108197652B (zh) 用于生成信息的方法和装置
CN108073902B (zh) 基于深度学习的视频总结方法、装置及终端设备
CN109190808B (zh) 用户行为预测方法、装置、设备及介质
TW202004559A (zh) 梯度提升決策樹(gbdt)模型的特徵解釋方法和裝置
CN107305611B (zh) 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置
WO2020238039A1 (zh) 神经网络搜索方法及装置
CN112231582B (zh) 一种基于变分自编码数据融合的网站推荐方法和设备
CN111027428A (zh) 一种多任务模型的训练方法、装置及电子设备
CN110909784A (zh) 一种图像识别模型的训练方法、装置及电子设备
CN109993026B (zh) 亲属识别网络模型的训练方法及装置
CN109740621B (zh) 一种视频分类方法、装置及设备
CN114298146A (zh) 样本扩充方法、装置、电子设备及存储介质
CN110880018A (zh) 一种基于新型损失函数的卷积神经网络目标分类方法
CN113269259B (zh) 一种目标信息的预测方法及装置
CN113076487B (zh) 一种用户兴趣表征及内容推荐方法、装置和设备
CN111737554A (zh) 评分模型训练方法、电子书评分方法及装置
CN112836819B (zh) 一种神经网络模型生成方法及装置
CN111191827A (zh) 一种数据波动趋势的预测方法及装置
CN112906909A (zh) 深度学习模型训练方法及其装置、电子设备及存储介质
CN113066486B (zh) 数据识别方法、装置、电子设备和计算机可读存储介质
CN111144471B (zh) 一种检测方法、装置、设备及存储介质
CN114881864B (zh) 印章修复网络模型的训练方法及装置
CN114648646B (zh) 一种图像分类方法及装置
US20240177066A1 (en) Intelligent ai architecture selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination