CN116049660A - 数据处理方法、装置、设备、存储介质及程序产品 - Google Patents
数据处理方法、装置、设备、存储介质及程序产品 Download PDFInfo
- Publication number
- CN116049660A CN116049660A CN202111265130.4A CN202111265130A CN116049660A CN 116049660 A CN116049660 A CN 116049660A CN 202111265130 A CN202111265130 A CN 202111265130A CN 116049660 A CN116049660 A CN 116049660A
- Authority
- CN
- China
- Prior art keywords
- data
- sample
- loss
- sample data
- triplet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 36
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 78
- 238000007405 data analysis Methods 0.000 claims abstract description 70
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 44
- 238000004458 analytical method Methods 0.000 claims description 52
- 238000013139 quantization Methods 0.000 claims description 51
- 238000004590 computer program Methods 0.000 claims description 8
- 230000002708 enhancing effect Effects 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims description 5
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 7
- 238000002372 labelling Methods 0.000 abstract description 6
- 101150060512 SPATA6 gene Proteins 0.000 description 56
- 238000005516 engineering process Methods 0.000 description 28
- 230000006870 function Effects 0.000 description 12
- 238000013473 artificial intelligence Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 239000013598 vector Substances 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 241000282887 Suidae Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据处理方法、装置、设备、存储介质及程序产品,涉及机器学习领域。该方法包括:获取第一样本数据集和第二样本数据集,第一样本数据集中包括标注有三元组关系的第一样本三元组;对第二样本数据集中的第一样本数据进行增强处理,得到增强样本数据;从第二样本数据集中确定第二样本数据;以第一样本数据、增强样本数据和第二样本数据构建第二样本三元组;以第一样本三元组和第二样本三元组对数据分析模型进行训练。第二样本三元组为根据无标注数据自动生成的三元组样本,以数据增强方式得到正样本,以第二样本数据作为负样本,也即,用于对数据分析模型进行训练的三元组数据无需纯手动标注,提高了样本数据的生成效率。
Description
技术领域
本申请实施例涉及机器学习领域,特别涉及一种数据处理方法、装置、设备、存储介质及程序产品。
背景技术
在图像检索场景中,通常需要通过图像检索模型提取图像的特征后,将图像特征与图像库中的图像特征进行匹配,从而从图像库中找到与待检索图像对应匹配的目标图像作为检索结果。
相关技术中,需要通过三元组样本对图像检索模型进行训练,其中,三元组样本中包括锚点样本、正样本以及负样本,其中,正样本为与锚点样本相似的样本,负样本为与锚点样本不相似的样本,根据正负样本与锚点样本之间的特征距离对图像检索模型进行训练。
然而,相关技术中,由于三元组样本的生成需要标注图像之间的三元组关系,而三元组关系的标注需要消耗大量的人力资源,样本获取的效率较低,导致模型的训练效率较低。
发明内容
本申请实施例提供了一种数据处理方法、装置、设备、存储介质及程序产品,能够提高模型训练效率。所述技术方案如下。
一方面,提供了一种数据处理方法,所述方法包括:
获取第一样本数据集和第二样本数据集,其中,所述第一样本数据集中包括标注有三元组关系的第一样本三元组,所述第二样本数据集中包括至少两个样本数据;
针对至少两个样本数据中的第一样本数据,对所述第一样本数据进行增强处理,得到增强样本数据作为所述第一样本数据对应的正样本数据;
从至少两个样本数据中确定第二样本数据,作为所述第一样本数据对应的负样本数据;
以所述第一样本数据、所述增强样本数据和所述第二样本数据构建第二样本三元组;
以所述第一样本三元组和所述第二样本三元组作为训练样本对数据分析模型进行训练,得到目标分析模型,所述目标分析模型用于对数据进行相似情况分析。
另一方面,提供了一种数据处理装置,所述装置包括:
获取模块,用于获取第一样本数据集和第二样本数据集,其中,所述第一样本数据集中包括标注有三元组关系的第一样本三元组,所述第二样本数据集中包括至少两个样本数据;
处理模块,用于针对至少两个样本数据中的第一样本数据,对所述第一样本数据进行增强处理,得到增强样本数据作为所述第一样本数据对应的正样本数据;
确定模块,用于从至少两个样本数据中确定第二样本数据,作为所述第一样本数据对应的负样本数据;以所述第一样本数据、所述增强样本数据和所述第二样本数据构建第二样本三元组;
训练模块,用于以所述第一样本三元组和所述第二样本三元组作为训练样本对数据分析模型进行训练,得到目标分析模型,所述目标分析模型用于对数据进行相似情况分析。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述数据处理方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的数据处理方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的数据处理方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
在对目标分析模型进行训练的过程中,第一样本数据集中的第一样本三元组为预先标注三元组关系的样本,而第二样本三元组为根据无标注数据自动生成的三元组样本,以数据增强方式得到正样本,以第二样本数据作为负样本,也即,用于对数据分析模型进行训练的三元组数据无需纯手动标注,提高了样本数据的生成效率,以及同时提高了数据分析模型的训练效率,提高了数据相似情况分析的效率和准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的模型训练框架的示意图;
图2是本申请一个示例性实施例提供的实施环境示意图;
图3是本申请一个示例性实施例提供的数据处理方法的流程图;
图4是本申请另一个示例性实施例提供的数据处理方法的流程图;
图5是本申请一个示例性实施例提供的残差模块的结构示意图;
图6是本申请一个示例性实施例提供的数据处理装置的结构框图;
图7是本申请另一个示例性实施例提供的数据处理装置的结构框图;
图8是本申请一个示例性实施例提供的服务器的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,针对本申请实施例中涉及的名词进行简单介绍。
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
计算机视觉技术(Computer Vision,CV):是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
针对三元组数据标注过程较为繁琐的问题,图1是本申请一个示例性实施例提供的模型训练框架的示意图,如图1所示,用于对数据分析模型进行训练的数据中包括第一样本数据集110和第二样本数据集120。
其中,第一样本数据集110中包括标注有三元组关系的第一样本三元组,其中,三元组关系用于指示锚点数据、正样本数据和负样本数据之间的关系,也即,第一样本数据集110中的第一样本三元组标注有锚点数据、正样本数据和负样本数据。在一些实施例中,第一样本数据集110为预先标注得到的数据集。
针对第二样本数据集120,首先获取第二样本数据集120中的第一样本数据121,其中,第一样本数据121为无标签数据,或者,第一样本数据121为本实施例中被忽视标签的数据,对第一样本数据121进行增强处理,从而通过样本攻击得到与该第一样本数据121形成正样本的增强样本数据122;继而在第二样本数据集120中获取与第一样本数据形成负样本的第二样本数据123,其中,第一样本数据121与第二样本数据123的相似度小于相似度阈值。
上述第一样本数据121、增强样本数据122和第二样本数据123构成第二样本三元组。
从而通过上述第一样本三元组和上述第二样本三元组对数据分析模型130进行训练,其中,得到第一样本三元组对应的第一损失141,和第二样本三元组对应的第二损失142,得到总损失140后,通过总损失140对数据分析模型130中的模型参数进行调整。
针对本申请训练得到的目标分析模型,在应用时包括如下场景中的至少一种。
第一,应用于图像检索场景中,示意性的,将待检索图像输入至目标分析模型后,通过目标分析模型对待检索图像与图像库中的图像进行相似情况的分析,从而在图像库中找到与该待检索图像匹配的图像作为检索结果。
示意性的,对待检索图像(query)和库存样本提取二值特征、分段量化表征(样本在该分段下属于哪个量化码本向量),检索中根据各段量化表征获取对应的量化表征下的关联库存、根据多段量化召回的关联库存取交集得到实际召回库存,采用Hamming距离计算query和召回库存样本的哈希特征距离,根据距离从小到大排序取前k个结果返回,k为正整数。Hamming距离的计算中,示意性的,对于二值特征为(0,0,0,1)和(1,1,0,1)的两个样本,其Hamming距离为不相同位置的个数,即Hamming距离为2。
其中,目标分析模型是通过标注有三元组关系(也即样本相似度关系)的第一样本三元组和第二样本三元组训练得到的,而第二样本三元组是通过对目标数据进行增强处理后得到正样本数据,以及获取一个与目标数据不相似的负样本数据后得到的。
第二,应用于音频相似度分析场景中,示意性的,在接收到语音信号后,将语音信号与语音库中指定对象的语音信号进行相似度匹配,从而确定接收到的语音信号所属的对象。
第三,应用于内容推荐的场景中,示意性的,获取用户的历史互动数据,如:历史图像浏览数据,对历史图像浏览数据进行特征提取后,基于图像特征确定与历史图像浏览数据相似的图像作为检索结果,将该检索结果作为推荐内容反馈给用户。
值得注意的是,本申请实施例中所涉及的“第一”、“第二”“第三”等仅为示意性的举例,如:上述应用场景举例中的“第一”、“第二”“第三”仅为示意性的罗列,并不对应用场景的表达顺序造成限定。
另外,上述待检索图像、语音数据或者历史互动数据为用户主动上传的数据;或者,为经过用户授权后获取的数据。上述实施例中以图像检索场景、音频相似度分析场景以及内容推荐场景为例进行说明,本申请实施例提供的数据处理方法还可以应用于其他场景中,对此不加以限定。
其次,对本申请实施例中涉及的实施环境进行说明,示意性的,请参考图2,该实施环境中涉及终端210、服务器220,终端210和服务器220之间通过通信网络230连接。
在一些实施例中,终端210用于向服务器220发送待分析数据。在一些实施例中,终端210中安装有具有数据相似度分析功能(如:数据检索功能)的应用程序,示意性的,终端210中安装有具有图像检索功能的应用程序。如:终端210中安装有搜索引擎程序、即时通讯应用程序、视频类程序、游戏类程序等,本申请实施例对此不加以限定。
服务器220中包括目标分析模型,将待分析数据输入目标分析模型后,输出得到相似度分析结果,如:数据检索结果,并将数据检索结果反馈至终端210,从而终端210对数据检索结果进行显示展示或者语音播报展示。
其中,目标分析模型是通过第一样本三元组和第二样本三元组训练得到的,第一样本三元组为预先标注得到的三元组数据,其中包括锚点数据、正样本数据和负样本数据,正样本数据和锚点数据之间的相似度较高,负样本数据与锚点数据之间的相似度较低。第二样本三元组是通过无标签数据构建得到的,其中,获取第一样本数据(无标签),并对第一样本数据进行增强数据,如:当第一样本数据为图像数据时,则对第一样本数据进行图像增强处理,得到增强样本数据,与第一样本数据构成正样本对;再获取与第一样本数据相似度较低的第二样本数据,与第一样本数据构成负样本对,从而得到第二样本三元组。通过第一样本三元组和第二样本三元组分别对应的三元组关系,对数据分析模型进行训练,得到目标分析模型。
上述终端可以是手机、平板电脑、台式电脑、便携式笔记本电脑、智能电视、车载终端、智能家居设备等多种形式的终端设备,本申请实施例对此不加以限定。
值得注意的是,上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
在一些实施例中,上述服务器还可以实现为区块链系统中的节点。区块链(Blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
结合上述名词简介和应用场景,对本申请提供的数据处理方法进行说明,该方法可以由服务器或者终端执行,也可以由服务器和终端共同执行,本申请实施例中,以该方法由服务器执行为例进行说明,如图3所示,该方法包括如下步骤。
步骤301,获取第一样本数据集和第二样本数据集,其中,第一样本数据集中包括标注有三元组关系的第一样本三元组,第二样本数据集中包括至少两个样本数据。
样本数据为无标签数据,或者,样本数据所标注的标签为本申请实施例中无需使用的标签。
其中,第一样本数据集和第二样本数据集中的样本数据属于同一数据类型,如:第一样本数据集和第二样本数据集中的数据为图像数据、语音数据、文本数据等,本申请实施例对此不加以限定。
可选地,以该样本数据为图像数据为例,第一样本数据集和第二样本数据集为从Imagenet中获取的数据集,即从大型通用物体识别开源数据集中获取的数据集。在一些实施例中,第一样本数据集和第二样本数据集中包括不同数据内容的样本数据,以图像数据为例,该图像数据的图像内容包括猫、狗、羊、猪等动物。
其中,第一样本数据集中的第一样本三元组预先标注有三元组关系,其中,第一样本三元组中包括锚点数据(anchor)、正样本数据(positive)和负样本数据(negative),锚点数据与正样本数据为一对相似样本,锚点数据与负样本数据为一对不相似样本。
可选地,锚点数据与正样本数据的相似度大于(或者等于)相似度阈值,锚点数据与负样本数据之间的相似度小于(或者等于)相似度阈值。
第一样本三元组所标注的三元组关系用于指示在第一样本数据集中构成样本三元组的锚点数据、正样本数据和负样本数据。示意性的,第一样本数据集中的数据A标注有标签(a1),第一样本数据集中的数据B标注有标签(p1),第一样本数据集中的数据C标注有标签(n1),则数据A、数据B和数据C构成一组第一样本三元组,数据A为该第一样本三元组中的锚点数据,数据B为该第一样本三元组中的正样本数据,数据C为该第一样本三元组中的负样本数据。
步骤302,针对至少两个样本数据中的第一样本数据,对第一样本数据进行增强处理,得到增强样本数据作为第一样本数据对应的正样本数据。
在一些实施例中,首先从第二样本数据集的至少两个样本数据中随机抽取一个样本数据作为第一样本数据;或者,从第二样本数据集的至少两个样本数据中按序抽取一个样本数据作为第一样本数据;或者,从第二样本数据集的至少两个样本数据中按照预设抽取规则抽取一个样本数据作为第一样本数据,如:按照聚类结果从样本数据最少的聚类中随机抽取一个样本数据作为第一样本数据。
在一些实施例中,增强处理用于改变数据的表达结果,如:数据增强处理包括对图像数据的增强处理,对音频数据的增强处理等。其中,对音频数据的增强处理可以通过对音频信号的频率幅度进行增强,如:按比例增加音频信号的频率幅度。对图像数据的增强处理用于改变图像的视觉效果,有目的地强调图像的整体或局部特性,将原来不清晰的图像变得清晰或强调某些感兴趣的特征,扩大图像中不同物体特征之间的差别,抑制不感兴趣的特征,使之改善图像质量、丰富信息量,加强图像判读和识别效果。
本实施例中,以图像数据的增强处理为例进行说明,图像增强是通过一定手段对原图像附加一些信息或变换数据,有选择地突出图像中感兴趣的特征或者抑制(掩盖)图像中某些不需要的特征。
图像增强技术根据增强处理过程所在的空间不同,可分为基于空域的算法和基于频域的算法两大类。其中,基于空域的算法中具有代表性的算法包括局部求平均值法和中值滤波(取局部邻域中的中间像素值)法等,可用于去除或减弱噪声;基于频域的算法将图像看作二维信号,对其进行基于二维傅里叶变换的信号增强。采用低通滤波(即只让低频信号通过)法,可去掉图中的噪声;采用高通滤波法,则可增强边缘等高频信号,使模糊的图片变得清晰。
步骤303,从至少两个样本数据中确定第二样本数据,作为第一样本数据对应的负样本数据。
在一些实施例中,第一样本数据和第二样本数据之间的相似度小于(或者等于)相似度阈值。则计算第二样本数据集中的其他样本数据与第一样本数据之间的相似度,并根据其他样本数据与第一样本数据之间的相似度从其他样本数据中确定第二样本数据。其他样本数据是指至少两个样本数据中除第一样本数据以外的任意样本数据。
在一些实施例中,提取第一样本数据的第一哈希特征,提取第二样本数据集中的其他样本数据的候选哈希特征,确定与第一哈希特征的哈希距离符合距离要求的候选哈希特征,将符合距离要求的候选哈希特征对应的样本数据作为第二样本数据。其中,其他样本数据是指第二样本数据集中除第一样本数据以外的任意样本数据。
可选地,通过哈希算法提取第一样本数据的第一哈希特征,以及通过哈希算法提取其他样本数据的候选哈希特征。
在一些实施例里中,确定符合距离要求的n个候选哈希特征,n为正整数。确定n个候选哈希特征分别对应的样本数据作为n个第二样本数据,其中,第i个第二样本数据作为与第一样本数据对应的第i个负样本数据,i≤n且i为正整数。也即,n个候选哈希特征对应的n个第二样本数据与第一样本数据构成n个负样本对。
示意性的,确定符合距离要求的n个候选哈希特征并得到n个第二样本数据时包括如下方式中的至少一种:
第一,确定其他样本数据的候选哈希特征与第一哈希特征的哈希距离,以距离由小到大的顺序对其他样本数据进行排列,过滤距离最小的前k个样本数据后,在剩余的样本数据中随机选择n个样本数据作为第二样本数据,k为正整数。
第二,确定其他样本数据的候选哈希特征与第一哈希特征的哈希距离,以距离由大到小的顺序对其他样本数据进行排列,并选择距离最大的n个样本数据作为第二样本数据。
第三,确定其他样本数据的候选哈希特征与第一哈希特征的哈希距离,以距离由大到小的顺序对其他样本数据进行排列,并在距离最大的m个样本数据中随机选择n个样本数据作为第二样本数据,0<n≤m。
第四,确定其他样本数据的候选哈希特征与第一哈希特征的哈希距离,以距离由小到大的顺序对其他样本数据进行排列,并选择前n个样本数据作为第二样本数据。
值得注意的是,上述获取负样本数据的方式仅为示意性的举例,本实施例对此不加以限定。
步骤304,以第一样本数据、增强样本数据和第二样本数据构建第二样本三元组。
示意性的,本实施例中,在每个训练批次中对无标注数据的所有原图产生的哈希特征,以bs张无标注原图为例进行说明,计算每个原图哈希与其他无标注原图样本哈希特征的L2距离(即每个无标注原图与剩下bs-1个原图的距离),对这些距离从小到大排序,在这个排序中,距离越小越有可能是跟原图相同/足够相似的样本,这些样本成为负样本的概率较小,故去除排序中前20%的样本(需要根据噪声程度确定比例,若大部分样本都可能相似,比例需要变大),取剩下样本中随机抽样5个,分别与(原图anchor、原图增强的图像positive)组成三元组,得到5个无标注样本的三元组。这样每个无标注原图都能产生5个三元组样本,每个batch共产生5×bs个无标注数据的三元组样本。
步骤305,以第一样本三元组和第二样本三元组作为训练样本对数据分析模型进行训练,得到目标分析模型。
在一些实施例中,基于第一样本三元组和第二样本三元组中的三元组相似度关系对数据分析模型进行训练,得到目标分析模型。目标分析模型用于数据进行相似情况分析。
综上所述,本实施例提供的方法,在对目标分析模型进行训练的过程中,第一样本数据集中的第一样本三元组为预先标注三元组关系的样本,而第二样本三元组为根据无标注数据自动生成的三元组样本,以数据增强方式得到正样本,以第二样本数据作为负样本,也即,用于对数据分析模型进行训练的三元组数据无需纯手动标注,提高了样本数据的生成效率,以及同时提高了数据分析模型的训练效率,提高了数据相似情况分析的效率和准确率。
在一个可选的实施例中,在以第一样本三元组和第二样本三元组对数据分析模型进行训练时,分别得到两部分损失。图4是本申请另一个示例性实施例提供的数据处理方法的流程图,该方法可以由服务器或者终端执行,也可以由服务器和终端共同执行,本申请实施例中,以该方法由服务器执行为例进行说明,如图4所示,该方法包括如下步骤。
步骤401,获取第一样本数据集和第二样本数据集,其中,第一样本数据集中包括标注有三元组关系的第一样本三元组,第二样本数据集中包括至少两个样本数据。
样本数据为无标签数据,或者,样本数据所标注的标签为本申请实施例中无需使用的标签。
其中,第一样本数据集中的第一样本三元组预先标注有三元组关系。
步骤402,针对至少两个样本数据中的第一样本数据,对第一样本数据进行增强处理,得到增强样本数据作为第一样本数据对应的正样本数据。
在一些实施例中,增强处理用于改变数据的表达结果,如:数据增强处理包括对图像数据的增强处理,对音频数据的增强处理等。
步骤403,从至少两个样本数据中确定第二样本数据,作为第一样本数据对应的负样本数据。
在一些实施例中,提取第一样本数据的第一哈希特征,提取第二样本数据集中的其他样本数据的候选哈希特征,确定与第一哈希特征的哈希距离符合距离要求的候选哈希特征,将符合距离要求的候选哈希特征对应的样本数据作为第二样本数据。
步骤404,以第一样本数据、增强样本数据和第二样本数据构建第二样本三元组。
步骤401至步骤404的内容已在上述步骤301至步骤304中进行了详细说明,请参考上述步骤301至步骤304,此处不再赘述。
步骤405,通过数据分析模型对第一样本三元组进行数据分析,得到第一样本损失。
其中,第一样本三元组中包括锚点数据、正样本数据和负样本数据,锚点数据与正样本数据符合相似度要求,锚点数据与负样本数据不符合相似度要求。
可选地,在三元组关系的标注时,对正样本对进行标注,也即标注相似的样本对,而负样本对为自动识别得到的。示意性的,对每个批次的正样本对(假设有ba对)分别进行如下方式挖掘负样本得到三元组:对某个样本x:从剩余的ba-1个样本对(每对随机选择一张图像)的样本中计算与x的距离,按距离从小到大排序,取前20个样本作为负样本,该被选择的20个负样本由于与样本x的距离较小,故实现为难样本,分别与x中的正样本组成三元组,每个样本产生20个三元组,整个批次得到20×ba个三元组。ba需要设置相对大一点的值,如:256。
值得注意的是,上述以按距离从小到大排序取负样本为例进行说明,在一些实施例中,也可以按距离从大到小排序取负样本,或者随机取负样本,本申请实施例对此不加以限定。
可选地,通过数据分析模型对第一样本三元组中的锚点数据、正样本数据和负样本数据进行数据分析,输出锚点数据的第一数据特征、正样本数据的第二数据特征和负样本数据的第三数据特征,基于第一数据特征、第二数据特征和第三数据特征之间的相似度,确定第一相似度损失;基于第一数据特征、第二数据特征和第三数据特征的二值量化结果,确定第一量化损失,结合第一相似度损失和第一量化损失,得到第一样本损失。
在一些实施例中,确定第一相似度损失对应的第一权重,以及第一量化损失对应的第二权重,确定第一权重与第一相似度损失之积作为第一子损失,以及第二权重与第一量化损失之积作为第二子损失;将第一子损失和第二子损失之和作为第一样本损失。
示意性的,第一样本三元组的哈希特征的损失Lhash包含两部分,Ltriplet和Lquantization(负责图像相似度度量的度量损失,以及负责把网络预测的浮点结果拉向-1、1这样二值目标的二值量化损失),如下公式一所示:
公式一:Lhash=w11Ltriple+w12Lquantization
其中,w11为第一权重,w12为第二权重,Ltriple为第一相似度损失,Lquantization为第一量化损失。
针对Ltriple和Lquantization分别进行说明。
Ltriple:在第一样本三元组(a,p,n)中,对样本数据的特征计算第一相似度损失,第一相似度损失的计算如下公式二所示:
公式二:Ltriple=max(||xa-xp||-‖xa-xn‖+α,0)
其中α为预设参数,本实施例中设为20,还可以设置为其他值,对此不加以限定。||xa-xp||表示anchor样本、positive样本的哈希经过激活后的L2距离,‖xa-xn‖表示anchor样本、negative样本的哈希经过激活后的L2距离。哈希激活是指,对于哈希层输出y,经过tanh(y)计算后得到激活结果,xa=tanh(ya)表示anchor样本的激活值。tanh函数的作用是使得哈希输出分布于-1到1之间,避免过高输出,如远大于1造成大的tripletloss损失值影响收敛性能,因为对于-1/1量化目标而言,输出100与输出10最终都会量化到1上,这种情况下y为100和10并没有实质的差别,然而却能带来triplet-loss上剧烈的距离变化。
Ltriple的目的是使得anchor样本与nagative样本的L2距离比anchor样本与positive样本的L2距离大,且差值大于20。在总损失中,需要始终保证哈希特征度量学习效果,故w11权重取值为1。
Lquantization:由于二值特征目标为输出(-1,1)的量化值,由此可对网络输出采用符号量化(即<0为0,≥0为1),因而Lquantization的目的是使的量化编码coding(即二值特征)的输出靠近-1或1。可以采用符号函数产生量化学习任务的目标编码(如下式sign函数,对样本数据的特征向量u的每一位ui分别通过符号函数计算其目标编码bi,最终u的目标编码为b)。然后采用回归损失使模型输出向量u与目标编码b的L2距离变小。训练中特征量化的目的是使的输出结果要么非常接近1要么非常接近-1,应用时量化分支的每一维度输出根据其符号取0或1作为二值量化向量。
如下公式三和公式四所示:
由于量化损失并非处于主导的学习地位,故,w12权重取值为0.1。
步骤406,通过数据分析模型对第二样本三元组进行数据分析,得到第二样本损失。
可选地,通过数据分析模型对第二样本三元组中的第一样本数据、增强样本数据和第二样本数据进行数据分析,数据第一样本数据的第四数据特征、增强样本数据的第五数据特征和第二样本数据的第六数据特征;基于第四数据特征、第五数据特征和第六数据特征之间的相似度,确定第二相似度损失,基于第四数据特征、第五数据特征和第六数据特征的二值量化结果,确定第二量化损失,结合第二相似度损失和第二量化损失,得到第二样本损失。其中,确定第二相似度损失的第三权重,以及第二量化损失对应的第四权重,确定第三权重与第二相似度损失之积作为第三子损失,以及第四权重与第二量化损失之积作为第四子损失,将第三子损失和第四资损失之和作为第二样本损失。
示意性的,第二样本三元组的第二样本损失计算如下公式五所示:
公式五:Lunsuper-hash=w21Ltriplet2+w22Lquantization2
其中,w21为第三权重,w22为第四权重,Ltriple2为第二相似度损失,Lquantization2为第二量化损失。第二相似度损失和第二量化损失的计算方式请参考如下公式二和公式四,此处不再赘述。可选地,w21权重取值为1,w22权重取值为0.1。
值得注意的是,上述第一权重、第二权重、第三权重以及第四权重的取值仅为示意性的举例,上述权重的阈值还可以是其他预设取值,本申请实施例对此不加以限定。
步骤407,将第一样本损失与第二样本损失的整合结果对数据分析模型进行训练,得到目标分析模型。
在一些实施例中,将第一样本损失与第二样本损失之和确定为总损失,对数据分析模型进行训练;或者,将第一样本损失与第二样本损失的加权和确定为总损失,对数据分析模型进行训练。
可选地,确定第一样本损失对应的第一损失权重,以及确定第二样本损失对应的第二损失权重。确定第一损失权重与第一样本损失之积,得到第一子样本损失,确定第二损失权重与第二样本损失之积,得到第二子样本损失,将第一子样本损失与第二子样本损失之和确定为总损失,基于总损失对数据分析模型进行训练,得到目标分析模型。
示意性的,请参考如下公式六:
公式六:Ltotal=w1Lhash+w2Lunsuper-hash
其中,Ltotal表示总损失,Lhash表示第一样本损失,Lunsyper-hash表示第二样本损失,w1表示第一损失权重,w2表示第二损失权重。
可选地,通过p组第一样本三元组和q组第二样本三元组作为训练样本,对数据分析模型进行循环迭代训练,得到目标分析模型,其中,p和q皆为正整数。
在一些实施例中,p与q取值相同或者取值不同。
示意性的,数据分析模型训练中包括基础特征模型和二值特征模块,其中,基础特征模型如下表一所示:
表一
其中,Conv2、Conv3等类型的模块是在不同参数下的残差模块经过多次堆叠产生的。其中,残差模块的结构如图5所示的模块510。如图5所示出的模块510所示,首先第一层的“1×1,64”表示卷积核尺寸为1×1,输出的通道数为64,经过线性整流函数后输入至第二层“3×3,64”,经过逐层输入后,最后将输入第一层特征与最后一层输出的特征进行恒等映射,得到输出结果。
值得注意的是,上述表一示出的网络结构以resnet101为例,本申请实施例中,除了resnet101还可以使用不同的网络结构、不同的预训练模型权重作为基础模型,如resnet50、inceptionv4等,对于数据量较大的检索,可采用小网络如resnet18,以及降低embedding维度,如采用64位等从而降低特征存储空间。
二值特征模块如下表二所示:
表二
层名 | 输出尺寸 | 层类型 |
Pool | 1×2048 | 最大池化层Max pool |
Embedding | 1×128 | 全连接层Fc |
其中,表二所示embedding模块的作用是把稀疏的1×2048维的特征向量压缩成稠密的1×128维特征向量。对图像数据用模型获取到各图像的embedding,这里的embedding便是用来做检索的特征。把特征压缩到1×128,除了可以让特征更稠密外,还可以减少特征存储空间,提升检索效率。
在数据分析模型的训练过程中包括如下过程:
1、参数初始化,也即,对上述表一中的Conv1至Conv5采用在ImageNet数据集上预训练的参数,表二所示出的层采用方差为0.01,均值为0的高斯分布进行初始化。
2、设置学习参数,也即将表一和表二对应的参数设置为学习参数。
3、学习率,采用learningrate=0.0005作为学习率。
4、训练过程,对全量数据,进行批次迭代;每轮迭代处理一次全量样本。
5、每轮迭代具体进行如下操作,以第i轮迭代为例进行说明:
5.1从标注的正样本对中抽取bs对图像(记为Ai,共有2×bs张图像);从未标注的图像中抽取bs个图像(记为Bi1),同时每个图像进行图像增强,产生bs个增强图像(记为Bi2)。
5.2模型前向:把模型的指定参数(如:所有参数)设为待学习状态,训练时神经网络对上述3组共4×bs张图片进行前向计算得到预测结果。
5.3loss计算:计算各损失并求和。
5.4模型参数更新:采用随机梯度下降法,把上一步的loss进行梯度后向计算得到全部模型参数的更新值,并更新数据分析模型。
6、量化码本定期更新。由于码本需要对全局样本具备描述能力,故随着哈希特征的学习优化,旧码本未必对当前哈希最优,故需要定期更新。
在一些实施例中,在训练得到目标分析模型后,将待检索数据输入目标分析模型,输出得到检索结果,数据检索结果用于指示数据库中与待检索数据匹配的数据。
综上所述,本实施例提供的方法,在对目标分析模型进行训练的过程中,第一样本数据集中的第一样本三元组为预先标注三元组关系的样本,而第二样本三元组为根据无标注数据自动生成的三元组样本,以数据增强方式得到正样本,以第二样本数据作为负样本,也即,用于对数据分析模型进行训练的三元组数据无需纯手动标注,提高了样本数据的生成效率,以及同时提高了数据分析模型的训练效率,提高了数据相似情况分析的效率和准确率。
本实施例提供的方法,通过相似度损失的计算使得anchor样本与nagative样本的L2距离比anchor样本与positive样本的L2距离大,且差值大于预设阈值,从而确保正样本对与负样本对之间的相似度关系符合相似度关系要求,提高了训练准确率。通过二值量化损失的计算,使量化编码coding(即二值特征)的输出靠近-1或1,提高了量化准确率,提高了训练准确率。
本实施例提供的方法,通过循环迭代训练的方式对数据分析模型的模型参数进行调整,提高了数据分析模型的训练效率。
图6是本申请一个示例性实施例提供的数据处理装置的结构框图,如图6所示,该装置包括:
获取模块610,用于获取第一样本数据集和第二样本数据集,其中,所述第一样本数据集中包括标注有三元组关系的第一样本三元组,所述第二样本数据集中包括至少两个样本数据;
处理模块620,用于针对至少两个样本数据中的第一样本数据,对所述第一样本数据进行增强处理,得到增强样本数据作为所述第一样本数据对应的正样本数据;
确定模块630,用于从至少两个样本数据中确定第二样本数据,作为所述第一样本数据对应的负样本数据;以所述第一样本数据、所述增强样本数据和所述第二样本数据构建第二样本三元组;
训练模块640,用于以所述第一样本三元组和所述第二样本三元组作为训练样本对数据分析模型进行训练,得到目标分析模型,所述目标分析模型用于对数据进行相似情况分析。
在一个可选的实施例中,如图7所示,确定模块630,包括:
提取单元631,用于提取所述第一样本数据的第一哈希特征;
所述提取单元631,还用于提取所述第二样本数据集中的其他样本数据的候选哈希特征;
确定单元632,用于确定与所述第一哈希特征的哈希距离符合距离要求的候选哈希特征,将符合所述距离要求的候选哈希特征对应的样本数据作为所述第二样本数据。
在一个可选的实施例中,所述确定单元632,还用于确定符合所述距离要求的n个候选哈希特征,n为正整数;确定n个候选哈希特征分别对应的样本数据作为n个第二样本数据,其中,第i个第二样本数据作为与所述第一样本数据对应的第i个负样本数据,i≤n且i为正整数。
在一个可选的实施例中,所述训练模块640,还用于通过所述数据分析模型对所述第一样本三元组进行数据分析,得到第一样本损失;通过所述数据分析模型对所述第二样本三元组进行数据分析,得到第二样本损失;将所述第一样本损失与所述第二样本损失的整合结果对所述数据分析模型进行训练,得到所述目标分析模型。
在一个可选的实施例中,所述第一样本三元组中包括锚点数据、正样本数据和负样本数据,其中,所述锚点数据与所述正样本数据符合相似度要求,所述锚点数据与所述负样本数据不符合所述相似度要求;
所述训练模块640,还用于通过所述数据分析模型对所述第一样本三元组中的锚点数据、正样本数据和负样本数据进行数据分析,输出所述锚点数据的第一数据特征、所述正样本数据的第二数据特征和所述负样本数据的第三数据特征;
所述训练模块640,还用于基于所述第一数据特征、所述第二数据特征和所述第三数据特征之间的相似度,确定第一相似度损失;基于所述第一数据特征、所述第二数据特征和所述第三数据特征的二值量化结果,确定第一量化损失;结合所述第一相似度损失和所述第一量化损失,得到所述第一样本损失。
在一个可选的实施例中,所述训练模块640,还用于确定所述第一相似度损失对应的第一权重,以及所述第一量化损失对应的第二权重;将所述第一权重与所述第一相似度损失之积作为第一子损失;将所述第二权重与所述第一量化损失之积作为第二子损失;将所述第一子损失和所述第二子损失之和作为所述第一样本损失。
在一个可选的实施例中,所述训练模块640,还用于通过所述数据分析模型对所述第二样本三元组中的第一样本数据、增强样本数据和第二样本数据进行数据分析,输出所述第一样本数据的第四数据特征、所述增强样本数据的第五数据特征和所述第二样本数据的第六数据特征;基于所述第四数据特征、所述第五数据特征和所述第六数据特征之间的相似度,确定第二相似度损失;基于所述第四数据特征、所述第五数据特征和所述第六数据特征的二值量化结果,确定第二量化损失;结合所述第二相似度损失和所述第二量化损失,得到所述第二样本损失。
在一个可选的实施例中,所述训练模块640,还用于确定所述第二相似度损失对应的第三权重,以及所述第二量化损失对应的第四权重;将所述第三权重与所述第二相似度损失之积作为第三子损失;将所述第四权重与所述第二量化损失之积作为第四子损失;将所述第三子损失和所述第四子损失之和作为所述第二样本损失。
在一个可选的实施例中,所述训练模块640,还用于确定所述第一样本损失对应的第一损失权重;确定所述第二样本损失对应的第二损失权重;确定所述第一损失权重和所述第一样本损失之积,得到第一子样本损失;确定所述第二损失权重和所述第二样本损失之积,得到第二子样本损失;将所述第一子样本损失和所述第二子样本损失之和确定为总损失;基于所述总损失对所述数据分析模型进行训练,得到所述目标分析模型。
在一个可选的实施例中,所述训练模块640,还用于通过p组第一样本三元组和q组第二样本三元组作为训练样本,对所述数据分析模型进行循环迭代训练,得到所述目标分析模型,其中,p和q皆为正整数。
在一个可选的实施例中,所述装置,还包括:
检索模块650,用于将待检索数据输入所述目标分析模型,输出得到检索结果,所述数据检索结果用于指示数据库中与所述待检索数据匹配的数据。
综上所述,本实施例提供的装置,在对目标分析模型进行训练的过程中,第一样本数据集中的第一样本三元组为预先标注三元组关系的样本,而第二样本三元组为根据无标注数据自动生成的三元组样本,以数据增强方式得到正样本,以第二样本数据作为负样本,也即,用于对数据分析模型进行训练的三元组数据无需纯手动标注,提高了样本数据的生成效率,以及同时提高了数据分析模型的训练效率,提高了数据相似情况分析的效率和准确率。
需要说明的是:上述实施例提供的数据处理装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据处理装置与数据处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图8示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器可以是如图2所示的服务器。
具体来讲:服务器800包括中央处理单元(Central Processing Unit,CPU)801、包括随机存取存储器(Random Access Memory,RAM)802和只读存储器(Read Only Memory,ROM)803的系统存储器804,以及连接系统存储器804和中央处理单元801的系统总线805。服务器800还包括用于存储操作系统813、应用程序814和其他程序模块815的大容量存储设备806。
大容量存储设备806通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。大容量存储设备806及其相关联的计算机可读介质为服务器800提供非易失性存储。也就是说,大容量存储设备806可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory,EEPROM)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备806可以统称为存储器。
根据本申请的各种实施例,服务器800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器800可以通过连接在系统总线805上的网络接口单元811连接到网络812,或者说,也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
本申请的实施例还提供了一种计算机设备,该计算机设备可以实现为如图2所示的终端或者服务器。该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的数据处理方法。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的数据处理方法。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的数据处理方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种数据处理方法,其特征在于,所述方法包括:
获取第一样本数据集和第二样本数据集,其中,所述第一样本数据集中包括标注有三元组关系的第一样本三元组,所述第二样本数据集中包括至少两个样本数据;
针对所述至少两个样本数据中的第一样本数据,对所述第一样本数据进行增强处理,得到增强样本数据作为所述第一样本数据对应的正样本数据;
从所述至少两个样本数据中确定第二样本数据,作为所述第一样本数据对应的负样本数据;
以所述第一样本数据、所述增强样本数据和所述第二样本数据构建第二样本三元组;
以所述第一样本三元组和所述第二样本三元组作为训练样本对数据分析模型进行训练,得到目标分析模型,所述目标分析模型用于对数据进行相似情况分析。
2.根据权利要求1所述的方法,其特征在于,所述从所述至少两个样本数据中确定第二样本数据,包括:
提取所述第一样本数据的第一哈希特征;
提取所述第二样本数据集中的其他样本数据的候选哈希特征;
确定与所述第一哈希特征的哈希距离符合距离要求的候选哈希特征,将符合所述距离要求的候选哈希特征对应的样本数据作为所述第二样本数据。
3.根据权利要求2所述的方法,其特征在于,所述将符合所述距离要求的候选哈希特征对应的样本数据作为所述第二样本数据,包括:
确定符合所述距离要求的n个候选哈希特征,n为正整数;
确定n个候选哈希特征分别对应的样本数据作为n个第二样本数据,其中,第i个第二样本数据作为与所述第一样本数据对应的第i个负样本数据,i≤n且i为正整数。
4.根据权利要求1至3任一所述的方法,其特征在于,所述以所述第一样本三元组和所述第二样本三元组作为训练样本对数据分析模型进行训练,得到目标分析模型,包括:
通过所述数据分析模型对所述第一样本三元组进行数据分析,得到第一样本损失;
通过所述数据分析模型对所述第二样本三元组进行数据分析,得到第二样本损失;
将所述第一样本损失与所述第二样本损失的整合结果对所述数据分析模型进行训练,得到所述目标分析模型。
5.根据权利要求4所述的方法,其特征在于,所述第一样本三元组中包括锚点数据、正样本数据和负样本数据,其中,所述锚点数据与所述正样本数据符合相似度要求,所述锚点数据与所述负样本数据不符合所述相似度要求;
所述通过所述数据分析模型对所述第一样本三元组进行数据分析,得到第一样本损失,包括:
通过所述数据分析模型对所述第一样本三元组中的锚点数据、正样本数据和负样本数据进行数据分析,输出所述锚点数据的第一数据特征、所述正样本数据的第二数据特征和所述负样本数据的第三数据特征;
基于所述第一数据特征、所述第二数据特征和所述第三数据特征之间的相似度,确定第一相似度损失;
基于所述第一数据特征、所述第二数据特征和所述第三数据特征的二值量化结果,确定第一量化损失;
结合所述第一相似度损失和所述第一量化损失,得到所述第一样本损失。
6.根据权利要求5所述的方法,其特征在于,所述结合所述第一相似度损失和所述第一量化损失,得到所述第一样本损失,包括:
确定所述第一相似度损失对应的第一权重,以及所述第一量化损失对应的第二权重;
将所述第一权重与所述第一相似度损失之积作为第一子损失;
将所述第二权重与所述第一量化损失之积作为第二子损失;
将所述第一子损失和所述第二子损失之和作为所述第一样本损失。
7.根据权利要求4所述的方法,其特征在于,所述通过所述数据分析模型对所述第二样本三元组进行数据分析,得到第二样本损失,包括:
通过所述数据分析模型对所述第二样本三元组中的第一样本数据、增强样本数据和第二样本数据进行数据分析,输出所述第一样本数据的第四数据特征、所述增强样本数据的第五数据特征和所述第二样本数据的第六数据特征;
基于所述第四数据特征、所述第五数据特征和所述第六数据特征之间的相似度,确定第二相似度损失;
基于所述第四数据特征、所述第五数据特征和所述第六数据特征的二值量化结果,确定第二量化损失;
结合所述第二相似度损失和所述第二量化损失,得到所述第二样本损失。
8.根据权利要求7所述的方法,其特征在于,所述结合所述第二相似度损失和所述第二量化损失,得到所述第二样本损失,包括:
确定所述第二相似度损失对应的第三权重,以及所述第二量化损失对应的第四权重;
将所述第三权重与所述第二相似度损失之积作为第三子损失;
将所述第四权重与所述第二量化损失之积作为第四子损失;
将所述第三子损失和所述第四子损失之和作为所述第二样本损失。
9.根据权利要求4所述的方法,其特征在于,所述将所述第一样本损失与所述第二样本损失的整合结果对所述数据分析模型进行训练,得到所述目标分析模型,包括:
确定所述第一样本损失对应的第一损失权重;
确定所述第二样本损失对应的第二损失权重;
确定所述第一损失权重和所述第一样本损失之积,得到第一子样本损失;确定所述第二损失权重和所述第二样本损失之积,得到第二子样本损失;
将所述第一子样本损失和所述第二子样本损失之和确定为总损失;
基于所述总损失对所述数据分析模型进行训练,得到所述目标分析模型。
10.根据权利要求1至3任一所述的方法,其特征在于,所述以所述第一样本三元组和所述第二样本三元组作为训练样本对数据分析模型进行训练,得到目标分析模型,包括:
通过p组第一样本三元组和q组第二样本三元组作为训练样本,对所述数据分析模型进行循环迭代训练,得到所述目标分析模型,其中,p和q皆为正整数。
11.根据权利要求1至3任一所述的方法,其特征在于,所述以所述第一样本三元组和所述第二样本三元组作为训练样本对数据分析模型进行训练,得到目标分析模型之后,还包括:
将待检索数据输入所述目标分析模型,输出得到检索结果,所述数据检索结果用于指示数据库中与所述待检索数据匹配的数据。
12.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取第一样本数据集和第二样本数据集,其中,所述第一样本数据集中包括标注有三元组关系的第一样本三元组,所述第二样本数据集中包括至少两个样本数据;
处理模块,用于针对所述至少两个样本数据中的第一样本数据,对所述第一样本数据进行增强处理,得到增强样本数据作为所述第一样本数据对应的正样本数据;
确定模块,用于从所述至少两个样本数据中确定第二样本数据,作为所述第一样本数据对应的负样本数据;以所述第一样本数据、所述增强样本数据和所述第二样本数据构建第二样本三元组;
训练模块,用于以所述第一样本三元组和所述第二样本三元组作为训练样本对数据分析模型进行训练,得到目标分析模型,所述目标分析模型用于对数据进行相似情况分析。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一所述的数据处理方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至11任一所述的数据处理方法。
15.一种计算机程序产品,其特征在于,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现如权利要求1至11任一所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111265130.4A CN116049660A (zh) | 2021-10-28 | 2021-10-28 | 数据处理方法、装置、设备、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111265130.4A CN116049660A (zh) | 2021-10-28 | 2021-10-28 | 数据处理方法、装置、设备、存储介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116049660A true CN116049660A (zh) | 2023-05-02 |
Family
ID=86131858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111265130.4A Pending CN116049660A (zh) | 2021-10-28 | 2021-10-28 | 数据处理方法、装置、设备、存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116049660A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135459A (zh) * | 2019-04-15 | 2019-08-16 | 天津大学 | 一种基于双三元组深度度量学习网络的零样本分类方法 |
CN110866140A (zh) * | 2019-11-26 | 2020-03-06 | 腾讯科技(深圳)有限公司 | 图像特征提取模型训练方法、图像搜索方法及计算机设备 |
CN111368934A (zh) * | 2020-03-17 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 图像识别模型训练方法、图像识别方法以及相关装置 |
CN111832511A (zh) * | 2020-07-21 | 2020-10-27 | 中国石油大学(华东) | 一种增强样本数据的无监督行人重识别方法 |
CN113537384A (zh) * | 2021-07-30 | 2021-10-22 | 中国海洋大学 | 基于通道注意力的哈希遥感图像检索方法、装置及介质 |
-
2021
- 2021-10-28 CN CN202111265130.4A patent/CN116049660A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135459A (zh) * | 2019-04-15 | 2019-08-16 | 天津大学 | 一种基于双三元组深度度量学习网络的零样本分类方法 |
CN110866140A (zh) * | 2019-11-26 | 2020-03-06 | 腾讯科技(深圳)有限公司 | 图像特征提取模型训练方法、图像搜索方法及计算机设备 |
CN111368934A (zh) * | 2020-03-17 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 图像识别模型训练方法、图像识别方法以及相关装置 |
CN111832511A (zh) * | 2020-07-21 | 2020-10-27 | 中国石油大学(华东) | 一种增强样本数据的无监督行人重识别方法 |
CN113537384A (zh) * | 2021-07-30 | 2021-10-22 | 中国海洋大学 | 基于通道注意力的哈希遥感图像检索方法、装置及介质 |
Non-Patent Citations (1)
Title |
---|
赵思洋: "基于联合训练和无监督方法的中文知识图谱问答研究", 中国优秀硕士学位论文全文数据库 (信息科技辑), no. 01, 15 January 2021 (2021-01-15), pages 138 - 2482 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111898696A (zh) | 伪标签及标签预测模型的生成方法、装置、介质及设备 | |
CN113139628B (zh) | 样本图像的识别方法、装置、设备及可读存储介质 | |
CN111582409B (zh) | 图像标签分类网络的训练方法、图像标签分类方法及设备 | |
CN111444340A (zh) | 文本分类和推荐方法、装置、设备及存储介质 | |
CN111382555B (zh) | 数据处理方法、介质、装置和计算设备 | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
CN113298197B (zh) | 数据聚类方法、装置、设备及可读存储介质 | |
CN111046275A (zh) | 基于人工智能的用户标签确定方法及装置、存储介质 | |
CN113177616B (zh) | 图像分类方法、装置、设备及存储介质 | |
CN111339343A (zh) | 图像检索方法、装置、存储介质及设备 | |
CN114298122A (zh) | 数据分类方法、装置、设备、存储介质及计算机程序产品 | |
CN113392866A (zh) | 一种基于人工智能的图像处理方法、装置及存储介质 | |
CN114282059A (zh) | 视频检索的方法、装置、设备及存储介质 | |
CN115131698A (zh) | 视频属性确定方法、装置、设备及存储介质 | |
CN113763385A (zh) | 视频目标分割方法、装置、设备及介质 | |
CN113408282B (zh) | 主题模型训练和主题预测方法、装置、设备及存储介质 | |
CN114004364A (zh) | 采样优化方法、装置、电子设备及存储介质 | |
CN113704534A (zh) | 图像处理方法、装置及计算机设备 | |
CN115098732B (zh) | 数据处理方法及相关装置 | |
CN116977714A (zh) | 图像分类方法、装置、设备、存储介质和程序产品 | |
CN111091198B (zh) | 一种数据处理方法及装置 | |
CN116049660A (zh) | 数据处理方法、装置、设备、存储介质及程序产品 | |
CN114329050A (zh) | 视觉媒体数据去重处理方法、装置、设备和存储介质 | |
CN113822291A (zh) | 一种图像处理方法、装置、设备及存储介质 | |
CN113569081A (zh) | 图像识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40087210 Country of ref document: HK |