CN111461191A - 为模型训练确定图像样本集的方法、装置和电子设备 - Google Patents
为模型训练确定图像样本集的方法、装置和电子设备 Download PDFInfo
- Publication number
- CN111461191A CN111461191A CN202010217717.7A CN202010217717A CN111461191A CN 111461191 A CN111461191 A CN 111461191A CN 202010217717 A CN202010217717 A CN 202010217717A CN 111461191 A CN111461191 A CN 111461191A
- Authority
- CN
- China
- Prior art keywords
- data set
- image
- data
- labeling
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 110
- 238000012549 training Methods 0.000 title claims abstract description 97
- 239000011159 matrix material Substances 0.000 claims abstract description 94
- 230000008569 process Effects 0.000 claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 44
- 238000010606 normalization Methods 0.000 claims abstract description 34
- 238000002372 labelling Methods 0.000 claims description 64
- 238000012795 verification Methods 0.000 claims description 53
- 238000003860 storage Methods 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 6
- 230000003321 amplification Effects 0.000 claims description 3
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 3
- 238000013524 data verification Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 230000007547 defect Effects 0.000 description 11
- 239000003795 chemical substances by application Substances 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013502 data validation Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/382—Payment protocols; Details thereof insuring higher security of transaction
- G06Q20/3829—Payment protocols; Details thereof insuring higher security of transaction involving key management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/389—Keeping log of transactions for guaranteeing non-repudiation of a transaction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Abstract
本说明书一个或多个实施例公开了一种为模型训练确定图像样本集的方法、装置和电子设备,该方法包括:选择预训练模型;基于所述预训练模型确定源数据集与目标数据集之间的关联矩阵,其中,所述源数据集中的图像数量远大于所述目标数据集中的图像数量,且所述目标数据集包含有模型训练所需图像样本;利用层次分析法对所述关联矩阵进行归一化处理;按照二进制整数编程方法,基于归一化处理后的关联矩阵,从所述源数据集中选择满足关联矩阵确定的相似条件的图像样本作为图像样本集。从而,扩增了训练模型所需的图像样本集的数量,为后续训练模型提供了完善且全面的图像样本,保证训练得到模型的精准性。
Description
技术领域
本文件涉及人工智能技术领域,尤其涉及一种为模型训练确定图像样本集的方法、装置和电子设备。
背景技术
人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。其中,模型训练是人工智能技术的重要操作,具体可以基于样本数据对待训练模型进行训练,得到所需的分类模型。
然而,目前的样本数据集中样本数据的数量有限,可能会影响训练结果,导致训练得到的分类模型的预测分类精准度不高。
发明内容
本说明书一个或多个实施例的目的是提供。
为解决上述技术问题,本说明书一个或多个实施例是这样实现的:
第一方面,提出了一种为模型训练确定图像样本集的方法,包括:
选择预训练模型;
基于所述预训练模型确定源数据集与目标数据集之间的关联矩阵,其中,所述源数据集中的图像数量远大于所述目标数据集中的图像数量,且所述目标数据集包含有模型训练所需图像样本;
利用层次分析法对所述关联矩阵进行归一化处理;
按照二进制整数编程方法,基于归一化处理后的关联矩阵,从所述源数据集中选择满足关联矩阵确定的相似条件的图像样本作为图像样本集。
第二方面,提出了一种为模型训练确定图像样本集的装置,包括:
模型选择模块,选择预训练模型;
矩阵确定模块,基于所述预训练模型确定源数据集与目标数据集之间的关联矩阵,其中,所述源数据集中的图像数量远大于所述目标数据集中的图像数量,且所述目标数据集包含有模型训练所需图像样本;
归一化模块,利用层次分析法对所述关联矩阵进行归一化处理;
样本扩增模块,按照二进制整数编程方法,基于归一化处理后的关联矩阵,从所述源数据集中选择满足关联矩阵确定的相似条件的图像样本作为图像样本集。
第三方面,提出了一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行:
选择预训练模型;
基于所述预训练模型确定源数据集与目标数据集之间的关联矩阵,其中,所述源数据集中的图像数量远大于所述目标数据集中的图像数量,且所述目标数据集包含有模型训练所需图像样本;
利用层次分析法对所述关联矩阵进行归一化处理;
按照二进制整数编程方法,基于归一化处理后的关联矩阵,从所述源数据集中选择满足关联矩阵确定的相似条件的图像样本作为图像样本集。
第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行:
选择预训练模型;
基于所述预训练模型确定源数据集与目标数据集之间的关联矩阵,其中,所述源数据集中的图像数量远大于所述目标数据集中的图像数量,且所述目标数据集包含有模型训练所需图像样本;
利用层次分析法对所述关联矩阵进行归一化处理;
按照二进制整数编程方法,基于归一化处理后的关联矩阵,从所述源数据集中选择满足关联矩阵确定的相似条件的图像样本作为图像样本集。
由以上本说明书一个或多个实施例提供的技术方案可见,基于归一化的相关矩阵,在最优化对应的参数设置条件下,从源数据集中选择与目标数据集中相似性满足约束条件的类,这些类的图像样本汇总为图像样本集,从而,扩增了训练模型所需的图像样本集的数量,为后续训练模型提供了完善且全面的图像样本,保证训练得到模型的精准性。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对一个或多个实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书实施例提供的一种为模型训练确定图像样本集的方法的步骤示意图。
图2是本说明书实施例提供的归一化处理后的相关矩阵示意图。
图3是本说明书实施例中从源数据集选择满足相似条件的图像类的原理示意图。
图4是本说明书实施例提供的两种图像数据采集方案。
图5是本说明书实施例提供的数据标注时注册过程示意图。
图6是本说明书实施例提供的数据标注过程示意图。
图7是本说明书实施例提供的数据标注后投票过程示意图。
图8是本说明书实施例提供的验证时注册过程示意图。
图9是本说明书实施例提供的验证过程示意图。
图10是本说明书实施例提供的为模型训练确定图像样本集的装置结构示意图。
图11是本说明书的一个实施例提供的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的一个或多个实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
首先,对申请涉及的若干名词进行介绍。
区块链是由区块链网络中所有节点共同参与维护的去中心化分布式数据库系统,它是由一系列基于密码学方法产生的数据块组成,每个数据块即为区块链中的一个区块。根据产生时间的先后顺序,区块被有序地链接在一起,形成一个数据链条,被形象地称为区块链。区块链由其特别的区块和交易产生、验证协议,具有不可更改,不可伪造、完全可追溯的安全特性。
本申请涉到的区块链技术中的相关概念包括:区块链节点、区块链数据写入和智能合约。
-区块链节点:区块链网络基于P2P(Peer to Peer,对等网络)网络,每个参与交易和区块存储、验证、转发的P2P网络节点都是一个区块链网络中的节点。不同的节点可以运行于同一计算机设备;或者,运行于不同的计算机设备。
本申请中的节点在实际实现时,节点可以实现为软件、硬件或者软硬件的结合。
-区块链数据写入:区块链节点通过向区块链网络发布“交易”(Transaction)实现向区块链写入数据。交易中包含用户使用自己私钥对交易的签名,以证明用户的身份。交易被“矿工”(执行区块链共识竞争机制的区块链节点)记录入产生的新区块,然后发布到区块链网络,并被其他区块链节点验证通过和接受后,交易数据即被写入区块链。
-智能合约:从技术角度来讲,智能合约被认为是网络服务器,只是智能合约并不是使用IP地址架设在互联网上,而是架设在区块链上,从而可以在其上面运行特定的合约程序。与网络服务器不同的是,智能合约不依赖某个特定的硬件设备,事实上,智能合约的代码由所有参与挖矿的设备来执行。
智能合约是编程在区块链上的汇编语言,例如用Solidity或者Javascript类似的专用语言在创建区块链时预先制定智能合约。这些字节码给区块链的功能性提供了指引,因此代码可以很容易与它进行交互,例如转移密码学货币和记录事件。
其中,区块链上部署的智能合约可以分为工厂合约、代理合约和执行合约。
工厂合约:用于创建和部署“子”合约。这些子合约可以被称为“资产”。工厂用于存储子合约的地址,以便在必要时提取使用。
代理合约:负责将执行合约的地址存储在一个固定的地址当中,并负责委托调用它。
执行合约:它是主要合约,负责存储逻辑以及存储结构。
区块链具有的特性,包括:
1、去中心化:整个区块链系统没有中心化的硬件或者管理机构,任意节点之间的权利和义务都是均等的,且任一节点的损坏或者失去都会不影响整个系统的运作。因此也可以认为区块链具有极好的健壮性。
2、去信任化:参与整个区块链系统中的每个节点之间进行数据交换是无需互相信任的,整个系统的运作规则是公开透明的,所有的数据内容也是公开的,因此在系统指定的规则范围和时间范围内,节点之间是不能也无法欺骗其它节点。
应理解,VisionX可以是本申请所涉及的大型公共数据集所在服务平台,记为VNX-mart平台。VNX是支持VisionX交易所发行的平台数字资产。VNX可视为数字形式的预付款,允许数字资产持有人支付VNX-mart金融服务并参与VNX交易所早期的资产初始配售。VNX旨在增强平台生态系统,包括平台服务的各种折扣。
-同态加密:是一种加密函数,该加密函数对明文进行环上的加法和乘法运算再加密,与加密后对密文进行相应的运算,结果是等价的。具有同态性质的加密函数是指两个明文a、b满足的加密函数,其中En是加密运算,Dec是解密运算,⊙、分别对应明文和密文域上的运算。当代表加法时,称该加密为加同态加密:当代表乘法时,称该加密为乘同态加密。
下面介绍本说明书所涉及的技术方案。
实施例一
在大型模型训练时,针对数据样本缺乏的问题,提出了一种分类方法(data+taxonomy=Dataonomy),提取大型公共数据集(如ImageNet、MIT places)与有限任务样本数据之间的内在关联,从而创建一个包含大量相关数据样本的元数据集。该过程主要包括:利用AHP(层次分析法)挖掘数据类之间的数据相似性;利用BIP(二进制整数程序)从公共数据集中提取高度相似的数据类。这个过程涉及到一种完全计算的方法量化数据集关系,从中提取结构。“结构”是指一组关系,指定哪个数据集向另一个数据集提供有用的信息,以及提供多少信息。
参照图1所示,为本说明书实施例提供的一种为模型训练确定图像样本集的方法的步骤示意图。所述方法可以包括以下步骤:
步骤102:选择预训练模型。
具体实现时,可以选择对象分类的预训练模型,例如,Inception V3。应理解,这里的预训练模型为Inception V3仅是举例,并不作为限制,其实还可以包含其它预训练模型,在此不做赘述。
步骤104:基于所述预训练模型确定源数据集与目标数据集之间的关联矩阵,其中,所述源数据集中的图像数量远大于所述目标数据集中的图像数量,且所述目标数据集包含有模型训练所需图像样本。
具体地,步骤104在基于所述预训练模型确定源数据集与目标数据集之间的关联矩阵时,具体包括:
第一步,基于所述预训练模型对所述目标数据集中的图像样本进行分类;
第二步,确定所述源数据集中每一类与所述目标数据集中每一类的相似性;
第三步,统计所述相似性得到源数据集与目标数据集之间的关联矩阵。
其实,在具体实现时,需要找出源数据集与目标数据集之间的关联矩阵,如下所示。分数是度量数据集关联性的一个有用的指标。在我们的缺陷图像数据集T上直接测试模型,包括整个行业的N=10类缺陷,对于每个类ti,i=1,2,…,N,它包含一个正样本集tgood,i和一个负样本集tbad,i。
例如,对于缺陷集中的每个图像,该模型为公共数据库imageNet中的1000个类pk,c,c=1,2,...1000生成了“可能性”。其中,k是图像的索引,c是类的索引。
我们假设这种可能性反映了类和缺陷图像之间的相似性。类与表面无缺陷图像的相似性为:
类和表面有缺陷的图像之间的相似性为:
步骤106:利用层次分析法对所述关联矩阵进行归一化处理。
具体地,步骤106在利用层次分析法对所述关联矩阵进行归一化处理时,具体执行为:基于构造的成对矩阵确定所述目标数据集中瑕疵特征对应的相关程度矩阵;通过计算、合并所述目标数据集中每一类的相关程度矩阵的特征向量,得到最终归一化的关联矩阵。
由于步骤104的得分具有不同的范围,因此需要适当的进行归一化。利用层次分析法的思想进行归一化。对于每个缺陷数据集t,我们在所有可用的数据集(如ImageNet)之间构造一个成对矩阵Mt,作为传输到目标缺陷数据集的源。矩阵中(c,i)处的元素是每个数据集从源到目标缺陷数据集的相似性。类和表面图像之间的相似性是:
然后,将这种成对矩阵Mt重新缩放到0+∈到1-∈的范围内,∈=0.01。为了找到包含缺陷特征的类,而不是表面的特征,我们定义:
我们将Sc,c=1,2,…,1000作为Mt'的主特征向量的对应分量量化为t。然后,我们对t中所有t的Mt'的主特征向量进行叠加,得到一个相似性矩阵P,作为一个例子,它可以由图2所示的图像表示。
应理解,层次分析法的实现可以参考现有的层级分析法的层次分析过程,在此不作具体描述。
步骤108:按照二进制整数编程方法,基于归一化处理后的关联矩阵,从所述源数据集中选择满足关联矩阵确定的相似条件的图像样本作为图像样本集。
具体可以使用BIP(二进制整数编程)查找全局传输(数据扩充)分类法;利用归一化的数据相似度矩阵,最终的步骤是获得全局转移(数据增强)方案,具体参照图3所示,以最大化所有缺陷数据集的性能,同时最小化监督。我们使用二进制整数编程(BIP)来实现选择问题。这个问题的参数包括:监督预算,对目标缺陷数据集每次传输的性能进行度量。还可以包括其他参数,例如,终止从源数据集到目标数据集的传输的阈值,获取每个数据集的标签的相对成本。其中,规范形式可以表示为:
maximize CTx
subject to Ax≤b and x∈{0,1}|E|+|V|
其中C和b是向量,A是约束矩阵;每个元素Ci是其映射性能,从相似性矩阵pi获得。这里的x表示选择哪些节点作为源节点,以及选择了哪些传输。为了得到一个可行的解,增加了几个约束条件。例如,成本不超过预算。
最终,基于归一化的相关矩阵,在最优化对应的参数设置条件下,从源数据集中选择与目标数据集中相似性满足约束条件的类,这些类的图像样本汇总为图像样本集,从而,扩增了训练模型所需的图像样本集的数量,为后续训练模型提供了完善且全面的图像样本,保证训练得到模型的精准性。
应理解,上述确定训练模型所需的图像样本集的方案可以在普通的中心化服务平台实现,其实,还可以基于去中心化的区块链网络实现。换言之,基于区块链网络为模型训练确定图像样本集,而上述步骤102-步骤108的执行主体是区块链网络中的一个区块节点,且确定图像样本集过程中的关键数据可以存证在区块链网络中。相应地,上述步骤102-步骤108的执行需要按照区块链上部署的智能合约的内容实现。
另外,在基于区块链网络确定图像样本集之后,还可以基于确定的所述图像样本集,在区块链网络中分布式算力网络对所述预训练模型进行训练。
一种可实现的方案,在选择预训练模型之前,所述方法还包括:采集图像并对每个图像进行标注得到大型公共数据集。
--数据采集
具体地,接收至少一个图像提供方发送的采集交易,其中,所述采集交易中携带有目标图像;基于区块链网络部署的智能合约处理所述采集交易,并将所述采集交易中目标图像保存到本地数据库。
进一步,在保存所述目标图像之后,所述方法还包括:基于所述目标图像的质量,向所述至少一个图像提供方返回数字资产以作为激励。通过对目标数据进行验证,可以保证数据采集系统采集到的数据质量。另外,通过为数据提供者提供激励机制,可以提高数据提供者继续上传数据的概率。
本申请中,智能合约可以是区块链网络创建时各个区块链节点协商一致制定的。
可选地,第一账户包括数据购买者使用的账户和/或智能合约的合约账户。也即,在存在数据购买者时,使用该数据购买者的账户为数据提供者提供激励,例如返回数字资产;在不存在数据购买者时,使用智能合约上的合约账户为数据提供者提供激励。
可选地,接收提供方上传的目标数据之后,调用智能合约对目标数据进行验证;在验证结果为目标数据为高质量数据时,使用区块链的合约账户向第二账户提供激励。其中,对目标数据进行验证包括:验证目标数据是否为已上传数据;和/或,验证目标数据(图像)的像素值是否满足像素要求;和/或,验证目标数据的类型是否为期望类型,当然,在实际实现时,验证目标数据的方式还可以是其它方式,本实施例不对目标数据的验证方式作限定。
为了方便理解本实施例提供的数据提供方式,参考图4所示的数据提供过程的实例,数据提供过程包括两种场景,分别为:
第一种(参考图4中的a),数据提供者通过数据提供节点上传目标数据后;若对该目标数据验证通过,则从VNX-mart平台(运行有智能合约)获得基本奖励。
第二种(参考图4中的b),数据提供者通过数据提供节点上传目标数据后;若对该目标数据验证通过,则从VNX-mart平台(运行有智能合约)获得基本奖励;若存在数据购买者从VNX-mart平台购买目标数据,则使用数据购买者使用的账户为VNX-mart平台提供基本奖励;如果在VNX-mart平台上目标数据被标记为高质量数据,则VNX-mart平台提供额外奖励。
本申请中,智能合约是通过代理工厂创建的,代理工厂是通过工厂创建节点创建的。此时,数据提供系统还包括:区块链上的工厂创建节点。
工厂创建节点,用于在使用第一账户为数据提供者的第二账户提供目标数据对应的激励之前,在区块链上创建代理工厂;运行代理工厂的工厂运行节点,用于调用代理工厂创建智能合约,智能合约包括合约账户,合约账户上具有激励所用的数字资产。
可选地,工厂创建节点和工厂运行节点可以运行于同一设备,也可以运行于不同设备。
综上所述,本申请提供的数据采集系统,通过数据提供节点接收数据提供者上传的目标数据;数据交易节点调用区块链中预先创建的智能合约将目标数据写入区块链的第一数据库中,并使用第一账户为数据提供者的第二账户提供目标数据对应的激励;数据提供节点和数据交易节点为区块链上的节点;可以解决对神经网络模型训练之前的数据采集过程效率较低的问题;由于系统基于区块链建立,大量的数据提供者均可以通过该系统上传数据,数据提供者不再局限于某个人或组织,因此,可以增加采集到的数据量。
另外,通过区块链接收并存储目标数据,由于区块链上的数据具有不可篡改的特性,因此,既可以保证目标数据的安全性。
--数据标注
一种可实现的方案,接收多个标注方发送的标注交易,其中,所述每个标注交易中携带有发送本交易的标注方对目标图像的标注结果;基于区块链网络部署的智能合约处理所述标注交易,统计所述多个标注方针对同一目标图像所提交的标注结果,将投票最多的标注结果作为所述目标图像的标注。
本申请中,数据标注者预先在区块链中注册。参考图5,数据标注者的注册过程至少包括以下几个步骤:
步骤1、区块链上的合约创建节点41在区块链上创建注册合约;运行注册合约的节点为第一合约运行节点42。
步骤2、第一合约运行节点42调用预先创建的注册合约接收数据标注节点31发送的第一注册申请。可选地,第一注册申请携带有用户标识。用户标识可以是手机号、身份证号、或者用于唯一地标识用户的其它字符串,本实施例不对用户标识的实现方式作限定。
步骤3、合约创建节点41获取数据标注用户的第一身份信息,在对第一身份信息验证通过后,向第一合约运行节点42发送申请通过通知。第一身份信息包括用户标识和待验证信息。其中,待验证信息包括但不限于:手机号、名字、身份证号和人脸图像中的至少两种。
可选地,对第一身份信息进行验证包括:验证至少两种待验证信息是否匹配。若不匹配,则验证失败,向第一合约运行节点42发送申请失败通知,第一合约运行节点42基于申请通过通知在区块链上记录第一注册申请对应的申请失败信息,流程结束;若匹配,则验证成功,向第一合约运行节点42发送申请通过通知,执行步骤4。
步骤4、第一合约运行节点42基于申请通过通知在区块链上记录第一注册申请对应的申请通过信息。
其中,注册合约是智能合约中的一种,注册合约用于注册数据标注者。
在数据标注者在区块链上注册成功后可以在区块链上完成数据标注作业。参考图6,数据标注者的标注过程至少包括以下几个步骤:
步骤1、合约创建节点41在数据服务节点32从第一数据库中获取标注请求指示的待标注数据之前,在区块链上创建代理工厂。
代理工厂用于代理合约创建节点41创建智能合约。运行代理工厂的节点为工厂运行节点51。
步骤2、工厂运行节点51调用代理工厂创建代理合约。运行代理合约的节点为第二合约运行节点52。
代理合约用于记录数据的处理进度和数据处理者的工作状态。其中,处理进度包括标注进度(比如:未标注、正在标注和已标注完成);数据处理者包括数据标注者;工作状态包括数据标注者的请求标注状态和标注完成状态。
步骤3、第二合约运行节点52扫描代理合约以确定是否存在待标注数据;在存在待标注数据时向数据标注节点31发送待标注数据。
可选地,在不存在待标注数据时向数据标注节点31发送无作业通知,流程结束。无作业通知用于指示当前不存在待标注数据。
可选地,第二合约运行节点52从区块链中读取数据标注者的信用评分,在该信用评分大于第一阈值时向数据标注节点31发送待标注数据。每个数据标注者的信用评分初始化为预设值。
步骤4、数据标注节点31获取已注册的数据标注者触发的标注请求。
可选地,标注请求包括标注要求和数据要求。标注要求用于指示数据标注者执行数据标注的条件,比如:奖励要求;数据要求用于指示数据标注者对待标注数据的要求,比如:数据类型。
步骤5、第二合约运行节点52获取标注请求指示的标注要求;调用代理合约创建符合标注要求的工作合约。工作合约用于触发数据服务节点提供数据获取服务。
运行工作合约的节点为第三合约运行节点53。
第二合约运行节点52获取标注要求后将工作状态写入区块链。此时,工作状态为请求标注状态。
步骤6、数据服务节点32获取标注请求指示的数据要求;从工作合约中获取加密密钥;从第一数据库中读取符合数据要求的待标注数据;使用加密密钥对待标注数据进行加密,得到加密后的数据;将加密后的数据发送至数据标注节点31。
可选地,数据服务节点32基于同态加密算法使用加密密钥对目标数据进行加密,得到加密后的数据。
可选地,加密后的数据为对待标注数据进行加密得到的加密结果进行划分后得到的部分数据块。在其它实施例中,加密后的数据也可以为对待标注数据进行加密得到的整体加密结果。
步骤7、数据标注节点31使用加密密钥对应的解密密钥进行数据解密,得到待标注数据;获取所述待标注数据对应的标注结果,并将所述标注结果存储至第二数据库。
数据标注者对数据标注节点31显示的待标注数据进行标注。
步骤8、第三合约运行节点53在工作合约上签字,以记录标注请求指示的待标注数据已标注。
第三合约运行节点53签字完成后将工作状态写入区块链,此时,工作状态为标注完成状态。第三合约运行节点53在工作合约上的签字内容包括第二数据库的数据库标识和数据标注者的用户标识,从而保证第二数据库接收到标注结果,且数据标注者完成标注任务。即,第二数据库和数据标注节点都“签署”工作合约,指示标注过程已完成。如果在固定时间内缺少这两个签名中的任何一个,则将放弃标注任务。
数据标注者对待标注数据进行标注得到标注结果后,区块链还需要对标注结果进行投票以确定标注结果是否准确。此时,第三合约运行节点53,还用于获取除数据标注节点之外的其它数据标注节点对标注结果的投票结果;将投票结果记录至工作合约,该投票结果用于指示标注结果的准确性。此时,系统还包括区块链上的其它数据标注节点,即,用于投票验证标注结果的准确性的数据标注节点。示意性地,参考图7,投票过程至少包括以下几个步骤:
步骤1、第三合约运行节点53调用工作合约向其它数据标注节点61发送标注结果。
可选地,第三合约运行节点53基于同态加密算法对标注结果进行加密后发送至其它数据标注节点61。
其它数据标注节点61预先注册在区块链上,注册过程参考图5。
步骤2、其它数据标注节点61对标注请求指示的待标注数据进行标注,得到其它标注结果;将标注结果与其它标注结果进行比较,得到比较结果。
步骤3、第三合约运行节点53获取各个其它数据标注端的比较结果,得到投票结果;在工作合约上签字以记录标注结果已投票,并记录标注时间。
第三合约运行节点53在签字之后将其它数据标注端的工作状态写入区块链。此时,工作状态为投票完成状态。
步骤4、数据服务节点32确定工作合约中记录的已投票标注结果;将已投票标注结果从第二数据库移动至第三数据库。
可选地,标注结果包括待标注数据和该待标注数据的标注标记。
具体地,数据服务节点32将投票结果为准确的标注结果从第二数据库移动至第三数据库。
需要补充说明的是,数据标注者标注待标注数据得到标注结果后,区块链会向该数据标注者提供标注要求指示的激励用数字资产。示意性地,第三合约运行节点53调用工作合约向数据标注者提供标注要求指示的激励用数字资产。
综上所述,本申请提供的数据标注系统,通过数据标注节点获取已注册的数据标注者触发的标注请求;数据服务节点从第一数据库中获取标注请求指示的待标注数据,以使数据标注者对待标注数据进行标注得到标注结果,第一数据库中的数据为数据提供者上传的目标数据;数据标注节点获取待标注数据对应的标注结果,并将标注结果存储至第二数据库;可以解决对神经网络模型训练之前的数据标注过程效率较低的问题;由于系统基于区块链建立,大量的数据标注者均可以通过在区块链上注册以提供数据标注服务,数据标注者不再局限于某个人或组织,因此,可以提高数据标注的效率。
另外,通过将待标注数据划分成多个数据块,将部分数据块发送至数据标注者,这样,同一个数据标注者不会获取到整体的待标注数据,可以保证待标注数据不被泄露,提高待标注数据的安全性。
另外,通过使用非对称加密技术(同态加密算法)对待加密数据加密后发送至数据标注者,可以降低数据传输过程中数据泄露至第三方的概率,提高数据的安全性。
另外,通过其它数据标注者对标注结果进行投票,可以保证区块链上标注结果的准确性。
--标注验证
在标注之后,所述方法还包括:接收验证方发送的验证交易;基于区块链网络部署的智能合约处理所述验证交易,基于所述验证交易中的交易内容对所述目标图像的标注和/或标注方进行验证。
具体实现时,可以接收已注册的数据验证者发送的验证请求;从区块链上的第二数据库中获取待验证的标注结果,以供数据验证者对标注结果进行验证,得到验证结果;接收验证结果,并将验证结果存储至第三数据库。
其中,第二数据库用于存储数据标注者对目标数据进行标注后得到的标注结果,第二数据库中的标注结果为未验证的标注结果。
本申请中,数据验证者预先在区块链中注册。数据验证系统还包括区块链上的第一合约运行节点42和合约创建节点41。参考图8,数据验证者的注册过程至少包括以下几个步骤(数据验证者的注册过程与图4所示的数据标注者的注册过程相同,只是第一身份信息替换为第二身份信息):
步骤1、第一合约运行节点42调用预先创建的注册合约接收数据验证节点71发送的第二注册申请。
步骤2、合约创建节点41获取数据验证用户的第二身份信息,在对第二身份信息验证通过后,向第一合约运行节点发送申请通过通知。
对第二身份信息进行验证的过程参考图4中步骤3的描述,本实施例在此不再赘述。
步骤3、第一合约运行节点42基于申请通过通知在区块链上记录第二注册申请对应的申请通过信息。
其中,注册合约是合约创建节点41在区块链上创建注册合约,注册合约用于注册数据验证者。
在数据标注者在区块链上注册成功后可以在区块链上完成数据验证作业。参考图9,数据验证者的验证过程至少包括以下几个步骤:
步骤1、第二合约运行节点52扫描代理合约以确定是否存在待验证的标注结果;在存在待验证的标注结果时向数据验证节点发送待验证的标注结果。以供数据验证者从待验证的标注结果中选择一个待验证的标注结果以触发数据验证节点生成验证请求。
根据图6所示的数据标注过程可知,第二合约运行节点52是运行代理合约的节点;代理合约是运行代理工厂的工厂运行节点51调用代理工厂创建代理合约创建的;代理工厂是合约创建节点41在从所述区块链上的第二数据库中获取待验证的标注结果之前在区块链上创建的。
可选地,在不存在待验证的标注结果时向数据验证节点71发送无作业通知,该无作业通知用于指示当前不存在待验证的标注结果。
步骤2、数据验证节点71接收已注册的数据验证者发送的验证请求;从所述区块链上的第二数据库中获取待验证的标注结果,以供所述数据验证者对所述标注结果进行验证,得到验证结果;接收所述验证结果,并将所述验证结果存储至第三数据库。
可选地,数据验证者选择待验证的标注结果后,数据验证节点71将向第二合约运行节点52任务。区块链会将任务分配给第一个发出验证请求、且具有足够信用评分的客户。在对待验证的标注结果进行的加密和解密过程(比如基于同态加密算法进行加解密)之后,数据验证者将同时获取数据和标注。如果数据验证者不同意验证标注,则数据验证节点71将使用不同意标志签署代理合约。此时,验证请求对应的验证任务被放弃,并向数据验证者的账号支付激励用数字资产,数据验证者的信用评分降低。如果数据验证者同意标注,则他将使用同意标志签署代理合约,并将标注提交到第三数据库。
步骤3、第二合约运行节点52在代理合约上签字以记录验证请求指示的待验证的标注结果已验证。
第二合约运行节点53将工作状态写入区块链。此时,工作状态为数据验证者的验证完成状态。
步骤4、合约创建节点41从第二数据库中抽取预设数量的标注结果;从第三数据库中获取标注结果对应的验证结果;使用验证结果验证对应的标注结果的准确性。
本申请的数据验证系统将对预设数量的标注结果进行采样,并提供用户界面供用户验证。如果数据标注者同意标注,但标注结果未通过数据验证者的验证,则会向数据标注者支付一些数字资产,并降低数据验证者的信用分数。如果数据标注者不同意标注,但待标注数据通过了数据验证者的验证,则数据验证者的信用评分也会降低。
步骤5、第二合约运行节点53对于验证的结果为准确的标注结果,在代理合约上签字以确定标注结果准确;对于验证的结果为不准确的标注结果,拒绝注释。
综上所述,本申请提供的数据验证系统,通过数据验证节点接收已注册的数据验证者发送的验证请求;从区块链上的第二数据库中获取待验证的标注结果,以供数据验证者对标注结果进行验证,得到验证结果;第二数据库用于存储数据标注者对目标数据进行标注后得到的标注结果,第二数据库中的标注结果为未验证的标注结果;接收验证结果,并将验证结果存储至第三数据库;可以解决对神经网络模型训练之前的数据验证过程效率较低的问题;由于系统基于区块链建立,大量的数据验证者均可以通过在区块链上注册以提供数据验证服务,数据验证者不再局限于某个人或组织,因此,可以提高数据验证的效率。
应理解,在本说明书实施例中,所述第一数据库、第二数据库和第三数据库可以是所述本地数据库中具体存储空间的划分得到的用于存储不同阶段图像数据的数据库。
实施例二
参照图10所示,为本说明书实施例提供的为模型训练确定图像样本集的装置,该装置1000可以包括:
模型选择模块1002,选择预训练模型;
矩阵确定模块1004,基于所述预训练模型确定源数据集与目标数据集之间的关联矩阵,其中,所述源数据集中的图像数量远大于所述目标数据集中的图像数量,且所述目标数据集包含有模型训练所需图像样本;
归一化模块1006,利用层次分析法对所述关联矩阵进行归一化处理;
样本扩增模块1008,按照二进制整数编程方法,基于归一化处理后的关联矩阵,从所述源数据集中选择满足关联矩阵确定的相似条件的图像样本作为图像样本集。
可选地,作为一个实施例,所述矩阵确定模块,具体用于:基于所述预训练模型对所述目标数据集中的图像样本进行分类;确定所述源数据集中每一类与所述目标数据集中每一类的相似性;统计所述相似性得到源数据集与目标数据集之间的关联矩阵。
在本说明书实施例的一种具体实现方式中,所述归一化模块,具体用于:基于构造的成对矩阵确定所述目标数据集中瑕疵特征对应的相关程度矩阵;通过计算、合并所述目标数据集中每一类的相关程度矩阵的特征向量,得到最终归一化的关联矩阵。
在本说明书实施例的一种具体实现方式中,所述装置为区块链网络中的区块节点,用于为模型训练确定图像样本集。
在本说明书实施例的一种具体实现方式中,还包括:模型训练模块,基于确定的所述图像样本集,在区块链网络中分布式算力网络对所述预训练模型进行训练。
在本说明书实施例的一种具体实现方式中,还包括:采集模块和标注模块;所述采集模块,在选择预训练模型之前采集图像;以及所述标注模块,对采集到的图像进行标注得到大型公共数据集。
在本说明书实施例的一种具体实现方式中,应用于区块链网络,所述采集模块,具体用于:接收至少一个图像提供方发送的采集交易,其中,所述采集交易中携带有目标图像;基于区块链网络部署的智能合约处理所述采集交易,并将所述采集交易中目标图像保存到本地数据库。
在本说明书实施例的一种具体实现方式中,所述采集模块在保存所述目标图像之后,还用于:基于所述目标图像的质量,向所述至少一个图像提供方返回数字资产以作为激励。
在本说明书实施例的一种具体实现方式中,应用于区块链网络,所述标注模块,具体用于:接收多个标注方发送的标注交易,其中,所述每个标注交易中携带有发送本交易的标注方对目标图像的标注结果;基于区块链网络部署的智能合约处理所述标注交易,统计所述多个标注方针对同一目标图像所提交的标注结果,将投票最多的标注结果作为所述目标图像的标注。
在本说明书实施例的一种具体实现方式中,还包括:验证模块;所述验证模块,在标注之后,接收验证方发送的验证交易;以及基于区块链网络部署的智能合约处理所述验证交易,基于所述验证交易中的交易内容对所述目标图像的标注和/或标注方进行验证。
其实,在本说明书实施例中,还包括一种为模型训练确定图像样本集的系统,包括为模型训练确定图像样本集的装置以及其它外部节点设备,例如,数据提供方、数据标注方、数据验证方。这些节点设备与为模型训练确定图像样本集的装置分别作为区块节点接入在区块链网络。
实施例三
图11是本说明书的一个实施例电子设备的结构示意图。请参考图10,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成为模型训练确定图像样本集的装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
选择预训练模型;
基于所述预训练模型确定源数据集与目标数据集之间的关联矩阵,其中,所述源数据集中的图像数量远大于所述目标数据集中的图像数量,且所述目标数据集包含有模型训练所需图像样本;
利用层次分析法对所述关联矩阵进行归一化处理;
按照二进制整数编程方法,基于归一化处理后的关联矩阵,从所述源数据集中选择满足关联矩阵确定的相似条件的图像样本作为图像样本集。
上述如本说明书图1所示实施例揭示的装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书一个或多个实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1的方法,并实现相应装置在图1所示实施例的功能,本说明书实施例在此不再赘述。
当然,除了软件实现方式之外,本说明书实施例的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
通过上述技术方案,基于归一化的相关矩阵,在最优化对应的参数设置条件下,从源数据集中选择与目标数据集中相似性满足约束条件的类,这些类的图像样本汇总为图像样本集,从而,扩增了训练模型所需的图像样本集的数量,为后续训练模型提供了完善且全面的图像样本,保证训练得到模型的精准性。
实施例四
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下方法:
选择预训练模型;
基于所述预训练模型确定源数据集与目标数据集之间的关联矩阵,其中,所述源数据集中的图像数量远大于所述目标数据集中的图像数量,且所述目标数据集包含有模型训练所需图像样本;
利用层次分析法对所述关联矩阵进行归一化处理;
按照二进制整数编程方法,基于归一化处理后的关联矩阵,从所述源数据集中选择满足关联矩阵确定的相似条件的图像样本作为图像样本集。
通过上述技术方案,基于归一化的相关矩阵,在最优化对应的参数设置条件下,从源数据集中选择与目标数据集中相似性满足约束条件的类,这些类的图像样本汇总为图像样本集,从而,扩增了训练模型所需的图像样本集的数量,为后续训练模型提供了完善且全面的图像样本,保证训练得到模型的精准性。
总之,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书的保护范围之内。
上述一个或多个实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
Claims (22)
1.一种为模型训练确定图像样本集的方法,包括:
选择预训练模型;
基于所述预训练模型确定源数据集与目标数据集之间的关联矩阵,其中,所述源数据集中的图像数量远大于所述目标数据集中的图像数量,且所述目标数据集包含有模型训练所需图像样本;
利用层次分析法对所述关联矩阵进行归一化处理;
按照二进制整数编程方法,基于归一化处理后的关联矩阵,从所述源数据集中选择满足关联矩阵确定的相似条件的图像样本作为图像样本集。
2.如权利要求1所述的方法,基于所述预训练模型确定源数据集与目标数据集之间的关联矩阵,具体包括:
基于所述预训练模型对所述目标数据集中的图像样本进行分类;
确定所述源数据集中每一类与所述目标数据集中每一类的相似性;
统计所述相似性得到源数据集与目标数据集之间的关联矩阵。
3.如权利要求1所述的方法,利用层次分析法对所述关联矩阵进行归一化处理,具体包括:
基于构造的成对矩阵确定所述目标数据集中瑕疵特征对应的相关程度矩阵;
通过计算、合并所述目标数据集中每一类的相关程度矩阵的特征向量,得到最终归一化的关联矩阵。
4.如权利要求1-3任一项所述的方法,基于区块链网络为模型训练确定图像样本集。
5.如权利要求4所述的方法,还包括:
基于确定的所述图像样本集,在区块链网络中分布式算力网络对所述预训练模型进行训练。
6.如权利要求1所述的方法,在选择预训练模型之前,所述方法还包括:
采集图像并对每个图像进行标注得到大型公共数据集。
7.如权利要求6所述的方法,应用于区块链网络,所述采集图像,具体包括:
接收至少一个图像提供方发送的采集交易,其中,所述采集交易中携带有目标图像;
基于区块链网络部署的智能合约处理所述采集交易,并将所述采集交易中目标图像保存到本地数据库。
8.如权利要求7所述的方法,在保存所述目标图像之后,所述方法还包括:
基于所述目标图像的质量,向所述至少一个图像提供方返回数字资产以作为激励。
9.如权利要求6所述的方法,应用于区块链网络,所述对每个图像进行标注,具体包括:
接收多个标注方发送的标注交易,其中,所述每个标注交易中携带有发送本交易的标注方对目标图像的标注结果;
基于区块链网络部署的智能合约处理所述标注交易,统计所述多个标注方针对同一目标图像所提交的标注结果,将投票最多的标注结果作为所述目标图像的标注。
10.如权利要求9所述的方法,在标注之后,所述方法还包括:
接收验证方发送的验证交易;
基于区块链网络部署的智能合约处理所述验证交易,基于所述验证交易中的交易内容对所述目标图像的标注和/或标注方进行验证。
11.一种为模型训练确定图像样本集的装置,包括:
模型选择模块,选择预训练模型;
矩阵确定模块,基于所述预训练模型确定源数据集与目标数据集之间的关联矩阵,其中,所述源数据集中的图像数量远大于所述目标数据集中的图像数量,且所述目标数据集包含有模型训练所需图像样本;
归一化模块,利用层次分析法对所述关联矩阵进行归一化处理;
样本扩增模块,按照二进制整数编程方法,基于归一化处理后的关联矩阵,从所述源数据集中选择满足关联矩阵确定的相似条件的图像样本作为图像样本集。
12.如权利要求11所述的装置,所述矩阵确定模块,具体用于:
基于所述预训练模型对所述目标数据集中的图像样本进行分类;
确定所述源数据集中每一类与所述目标数据集中每一类的相似性;
统计所述相似性得到源数据集与目标数据集之间的关联矩阵。
13.如权利要求11所述的装置,所述归一化模块,具体用于:
基于构造的成对矩阵确定所述目标数据集中瑕疵特征对应的相关程度矩阵;
通过计算、合并所述目标数据集中每一类的相关程度矩阵的特征向量,得到最终归一化的关联矩阵。
14.如权利要求11-13任一项所述的装置,所述装置为区块链网络中的区块节点,用于为模型训练确定图像样本集。
15.如权利要求14所述的装置,还包括:
模型训练模块,基于确定的所述图像样本集,在区块链网络中分布式算力网络对所述预训练模型进行训练。
16.如权利要求11所述的装置,还包括:采集模块和标注模块;
所述采集模块,在选择预训练模型之前采集图像;以及
所述标注模块,对采集到的图像进行标注得到大型公共数据集。
17.如权利要求16所述的装置,应用于区块链网络,所述采集模块,具体用于:
接收至少一个图像提供方发送的采集交易,其中,所述采集交易中携带有目标图像;
基于区块链网络部署的智能合约处理所述采集交易,并将所述采集交易中目标图像保存到本地数据库。
18.如权利要求17所述的装置,所述采集模块在保存所述目标图像之后,还用于:
基于所述目标图像的质量,向所述至少一个图像提供方返回数字资产以作为激励。
19.如权利要求16所述的装置,应用于区块链网络,所述标注模块,具体用于:
接收多个标注方发送的标注交易,其中,所述每个标注交易中携带有发送本交易的标注方对目标图像的标注结果;
基于区块链网络部署的智能合约处理所述标注交易,统计所述多个标注方针对同一目标图像所提交的标注结果,将投票最多的标注结果作为所述目标图像的标注。
20.如权利要求19所述的装置,还包括:验证模块;
所述验证模块,在标注之后,接收验证方发送的验证交易;以及
基于区块链网络部署的智能合约处理所述验证交易,基于所述验证交易中的交易内容对所述目标图像的标注和/或标注方进行验证。
21.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行:
选择预训练模型;
基于所述预训练模型确定源数据集与目标数据集之间的关联矩阵,其中,所述源数据集中的图像数量远大于所述目标数据集中的图像数量,且所述目标数据集包含有模型训练所需图像样本;
利用层次分析法对所述关联矩阵进行归一化处理;
按照二进制整数编程方法,基于归一化处理后的关联矩阵,从所述源数据集中选择满足关联矩阵确定的相似条件的图像样本作为图像样本集。
22.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行:
选择预训练模型;
基于所述预训练模型确定源数据集与目标数据集之间的关联矩阵,其中,所述源数据集中的图像数量远大于所述目标数据集中的图像数量,且所述目标数据集包含有模型训练所需图像样本;
利用层次分析法对所述关联矩阵进行归一化处理;
按照二进制整数编程方法,基于归一化处理后的关联矩阵,从所述源数据集中选择满足关联矩阵确定的相似条件的图像样本作为图像样本集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010217717.7A CN111461191B (zh) | 2020-03-25 | 2020-03-25 | 为模型训练确定图像样本集的方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010217717.7A CN111461191B (zh) | 2020-03-25 | 2020-03-25 | 为模型训练确定图像样本集的方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111461191A true CN111461191A (zh) | 2020-07-28 |
CN111461191B CN111461191B (zh) | 2024-01-23 |
Family
ID=71678886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010217717.7A Active CN111461191B (zh) | 2020-03-25 | 2020-03-25 | 为模型训练确定图像样本集的方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111461191B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114443506A (zh) * | 2022-04-07 | 2022-05-06 | 浙江大学 | 一种用于测试人工智能模型的方法及装置 |
CN114998749A (zh) * | 2022-07-28 | 2022-09-02 | 北京卫星信息工程研究所 | 用于目标检测的sar数据扩增方法 |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070067281A1 (en) * | 2005-09-16 | 2007-03-22 | Irina Matveeva | Generalized latent semantic analysis |
CN101807258A (zh) * | 2010-01-08 | 2010-08-18 | 西安电子科技大学 | 基于核标度切维数约简的合成孔径雷达图像目标识别方法 |
CN102693316A (zh) * | 2012-05-29 | 2012-09-26 | 中国科学院自动化研究所 | 基于线性泛化回归模型的跨媒体检索方法 |
CN103927529A (zh) * | 2014-05-05 | 2014-07-16 | 苏州大学 | 一种最终分类器的获得方法及应用方法、系统 |
CN103927530A (zh) * | 2014-05-05 | 2014-07-16 | 苏州大学 | 一种最终分类器的获得方法及应用方法、系统 |
CN104680193A (zh) * | 2015-02-11 | 2015-06-03 | 上海交通大学 | 基于快速相似性网络融合算法的在线目标分类方法与系统 |
CN105740912A (zh) * | 2016-02-03 | 2016-07-06 | 苏州大学 | 基于核范数正则化的低秩图像特征提取的识别方法及系统 |
CN106127131A (zh) * | 2016-06-17 | 2016-11-16 | 安徽理工大学 | 一种基于互信息无参数局部保持投影算法的人脸识别方法 |
CN106326935A (zh) * | 2016-08-29 | 2017-01-11 | 重庆大学 | 一种基于稀疏非线性子空间迁移的图像分类方法 |
CN107146219A (zh) * | 2017-04-13 | 2017-09-08 | 大连理工大学 | 一种基于流形正则化支持向量机的图像显著性检测方法 |
CN107430705A (zh) * | 2015-03-17 | 2017-12-01 | 高通股份有限公司 | 用于重新训练分类器的样本选择 |
CN108710948A (zh) * | 2018-04-25 | 2018-10-26 | 佛山科学技术学院 | 一种基于聚类均衡和权重矩阵优化的迁移学习方法 |
WO2019100724A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
US20190213447A1 (en) * | 2017-02-08 | 2019-07-11 | Nanjing University Of Aeronautics And Astronautics | Sample selection method and apparatus and server |
CN110033026A (zh) * | 2019-03-15 | 2019-07-19 | 深圳先进技术研究院 | 一种连续小样本图像的目标检测方法、装置及设备 |
CN110222721A (zh) * | 2019-05-10 | 2019-09-10 | 深圳前海达闼云端智能科技有限公司 | 数据处理方法、装置,区块链节点及存储介质 |
US20190354850A1 (en) * | 2018-05-17 | 2019-11-21 | International Business Machines Corporation | Identifying transfer models for machine learning tasks |
CN110516717A (zh) * | 2019-08-09 | 2019-11-29 | 南京人工智能高等研究院有限公司 | 用于生成图像识别模型的方法和装置 |
WO2019228358A1 (zh) * | 2018-05-31 | 2019-12-05 | 华为技术有限公司 | 深度神经网络的训练方法和装置 |
US20200034740A1 (en) * | 2017-08-01 | 2020-01-30 | Alibaba Group Holding Limited | Method and apparatus for encrypting data, method and apparatus for training machine learning model, and electronic device |
-
2020
- 2020-03-25 CN CN202010217717.7A patent/CN111461191B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070067281A1 (en) * | 2005-09-16 | 2007-03-22 | Irina Matveeva | Generalized latent semantic analysis |
CN101807258A (zh) * | 2010-01-08 | 2010-08-18 | 西安电子科技大学 | 基于核标度切维数约简的合成孔径雷达图像目标识别方法 |
CN102693316A (zh) * | 2012-05-29 | 2012-09-26 | 中国科学院自动化研究所 | 基于线性泛化回归模型的跨媒体检索方法 |
CN103927529A (zh) * | 2014-05-05 | 2014-07-16 | 苏州大学 | 一种最终分类器的获得方法及应用方法、系统 |
CN103927530A (zh) * | 2014-05-05 | 2014-07-16 | 苏州大学 | 一种最终分类器的获得方法及应用方法、系统 |
CN104680193A (zh) * | 2015-02-11 | 2015-06-03 | 上海交通大学 | 基于快速相似性网络融合算法的在线目标分类方法与系统 |
CN107430705A (zh) * | 2015-03-17 | 2017-12-01 | 高通股份有限公司 | 用于重新训练分类器的样本选择 |
CN105740912A (zh) * | 2016-02-03 | 2016-07-06 | 苏州大学 | 基于核范数正则化的低秩图像特征提取的识别方法及系统 |
CN106127131A (zh) * | 2016-06-17 | 2016-11-16 | 安徽理工大学 | 一种基于互信息无参数局部保持投影算法的人脸识别方法 |
CN106326935A (zh) * | 2016-08-29 | 2017-01-11 | 重庆大学 | 一种基于稀疏非线性子空间迁移的图像分类方法 |
US20190213447A1 (en) * | 2017-02-08 | 2019-07-11 | Nanjing University Of Aeronautics And Astronautics | Sample selection method and apparatus and server |
CN107146219A (zh) * | 2017-04-13 | 2017-09-08 | 大连理工大学 | 一种基于流形正则化支持向量机的图像显著性检测方法 |
US20200034740A1 (en) * | 2017-08-01 | 2020-01-30 | Alibaba Group Holding Limited | Method and apparatus for encrypting data, method and apparatus for training machine learning model, and electronic device |
WO2019100724A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
CN108710948A (zh) * | 2018-04-25 | 2018-10-26 | 佛山科学技术学院 | 一种基于聚类均衡和权重矩阵优化的迁移学习方法 |
US20190354850A1 (en) * | 2018-05-17 | 2019-11-21 | International Business Machines Corporation | Identifying transfer models for machine learning tasks |
WO2019228358A1 (zh) * | 2018-05-31 | 2019-12-05 | 华为技术有限公司 | 深度神经网络的训练方法和装置 |
CN110033026A (zh) * | 2019-03-15 | 2019-07-19 | 深圳先进技术研究院 | 一种连续小样本图像的目标检测方法、装置及设备 |
CN110222721A (zh) * | 2019-05-10 | 2019-09-10 | 深圳前海达闼云端智能科技有限公司 | 数据处理方法、装置,区块链节点及存储介质 |
CN110516717A (zh) * | 2019-08-09 | 2019-11-29 | 南京人工智能高等研究院有限公司 | 用于生成图像识别模型的方法和装置 |
Non-Patent Citations (1)
Title |
---|
夏红科;郑雪峰;胡祥;: "多策略概念相似度计算方法LMSW", no. 20 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114443506A (zh) * | 2022-04-07 | 2022-05-06 | 浙江大学 | 一种用于测试人工智能模型的方法及装置 |
CN114443506B (zh) * | 2022-04-07 | 2022-06-10 | 浙江大学 | 一种用于测试人工智能模型的方法及装置 |
CN114998749A (zh) * | 2022-07-28 | 2022-09-02 | 北京卫星信息工程研究所 | 用于目标检测的sar数据扩增方法 |
CN114998749B (zh) * | 2022-07-28 | 2023-04-07 | 北京卫星信息工程研究所 | 用于目标检测的sar数据扩增方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111461191B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11709819B2 (en) | Validating test results using a blockchain network | |
AU2019265827B2 (en) | Blockchain-based music originality analysis method and apparatus | |
CN109034209B (zh) | 主动风险实时识别模型的训练方法和装置 | |
CN111723943B (zh) | 一种基于多标签的联邦学习方法、装置和系统 | |
CN110048995B (zh) | 多媒体协议的内容确认方法及装置、电子设备 | |
CN110046156A (zh) | 基于区块链的内容管理系统及方法、装置、电子设备 | |
Billard | Weighted forensics evidence using blockchain | |
CN111461191B (zh) | 为模型训练确定图像样本集的方法、装置和电子设备 | |
WO2020108152A1 (zh) | 身份数据的防误用方法及装置、电子设备 | |
US20130332374A1 (en) | Fraud prevention for real estate transactions | |
CN111815420A (zh) | 一种基于可信资产数据的匹配方法、装置及设备 | |
JP2022548501A (ja) | 暗号通貨取引を分析するためのデータ取得方法及び装置 | |
CN112650890A (zh) | 一种基于图数据库的加密货币流向追踪方法与装置 | |
US11797617B2 (en) | Method and apparatus for collecting information regarding dark web | |
Suresh et al. | Facial recognition attendance system using python and OpenCv | |
CN112039972A (zh) | 一种业务的处理方法、装置及设备 | |
CN112330412B (zh) | 一种产品推荐方法、装置、计算机设备及存储介质 | |
US11854005B2 (en) | Embedded data transaction exchange platform | |
CN111737764A (zh) | 生成描述信息的方法及装置 | |
CN110457332B (zh) | 一种信息处理方法及相关设备 | |
US20230125814A1 (en) | Credit score management apparatus, credit score management method, and computer readable recording medium | |
CN114463110A (zh) | 一种基于区块链的授信系统和方法 | |
CN112559863A (zh) | 基于区块链的信息推送方法、装置、设备和存储介质 | |
Ismatov et al. | FaceHub: facial recognition data management in blockchain | |
CN111311076B (zh) | 一种账户风险管理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |