CN116704269B - 数据处理方法、装置、设备及存储介质 - Google Patents
数据处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116704269B CN116704269B CN202310976976.1A CN202310976976A CN116704269B CN 116704269 B CN116704269 B CN 116704269B CN 202310976976 A CN202310976976 A CN 202310976976A CN 116704269 B CN116704269 B CN 116704269B
- Authority
- CN
- China
- Prior art keywords
- image
- service
- diffusion model
- label
- labels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003860 storage Methods 0.000 title claims abstract description 23
- 238000003672 processing method Methods 0.000 title abstract description 18
- 238000009792 diffusion process Methods 0.000 claims abstract description 429
- 238000000034 method Methods 0.000 claims abstract description 75
- 230000004927 fusion Effects 0.000 claims abstract description 47
- 238000005070 sampling Methods 0.000 claims description 132
- 238000002372 labelling Methods 0.000 claims description 63
- 238000012545 processing Methods 0.000 claims description 57
- 238000012549 training Methods 0.000 claims description 54
- 239000013598 vector Substances 0.000 claims description 42
- 238000004590 computer program Methods 0.000 claims description 21
- 238000012935 Averaging Methods 0.000 claims description 15
- 238000005516 engineering process Methods 0.000 abstract description 20
- 238000013473 artificial intelligence Methods 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 10
- 241000282472 Canis lupus familiaris Species 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000004883 computer application Methods 0.000 description 8
- 238000012552 review Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 7
- 230000003993 interaction Effects 0.000 description 5
- 241000086550 Dinosauria Species 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/772—Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种数据处理方法、装置、设备及存储介质,应用于人工智能技术,该方法包括:向目标业务图像中添加K个时间步长对应的随机噪声数据,得到K个加噪图像;将N个候选业务标签和K个加噪图像,输入至业务扩散模型中,通过业务扩散模型根据候选业务标签i,对目标业务图像的K个加噪图像进行去噪处理,得到候选业务标签i在K个时间步长下分别对应的去噪图像;对候选业务标签i在K个时间步长下分别对应的去噪图像进行融合,得到候选业务标签i对应的融合去噪图像;根据N个候选业务标签分别对应的融合去噪图像,从N个候选业务标签中确定目标业务图像的目标业务标签。通过本申请能够提高业务扩散模型的标签识别的效率。
Description
技术领域
本申请涉及人工智能技术等领域,尤其涉及一种数据处理方法、装置、设备及存储介质。
背景技术
人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处 理技术以及机器学习/深度学习等几大方向。其中,计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,图像识别是基于已训练的图像识别模型识别出图像所具有的标签,图像所具有的标签反映图像中的对象的类别。实践中发现,目前的图像识别模型识别标签的耗时比较长,导致标签识别的效率比较低。
发明内容
本申请实施例提供一种数据处理方法、装置、设备及存储介质,降低业务扩散模型识别标签的耗时,提高业务扩散模型的标签识别的效率。
本申请实施例一方面提供一种数据处理方法,包括:
获取与目标业务关联的目标业务图像和N个候选业务标签;N为大于1的正整数;
向上述目标业务图像中添加K个时间步长对应的随机噪声数据,得到上述目标业务图像的K个加噪图像;K为大于1的正整数;
将上述N个候选业务标签和上述目标业务图像的K个加噪图像,输入至业务扩散模型中,通过上述业务扩散模型根据候选业务标签i,对上述目标业务图像的K个加噪图像进行去噪处理,得到上述候选业务标签i在上述K个时间步长下分别对应的去噪图像;i为小于或等于N的正整数,N为大于1的正整数;
对上述候选业务标签i在上述K个时间步长下分别对应的去噪图像进行融合,得到上述候选业务标签i对应的融合去噪图像;
根据上述N个候选业务标签分别对应的融合去噪图像,从上述N个候选业务标签中确定上述目标业务图像的目标业务标签。
本申请实施例一方面提供一种数据处理装置,包括:
获取模块,用于获取与目标业务关联的目标业务图像和N个候选业务标签;N为大于1的正整数;
添加模块,用于向上述目标业务图像中添加K个时间步长对应的随机噪声数据,得到上述目标业务图像的K个加噪图像;K为大于1的正整数;
处理模块,用于将上述N个候选业务标签和上述目标业务图像的K个加噪图像,输入至业务扩散模型中,通过上述业务扩散模型根据候选业务标签i,对上述目标业务图像的K个加噪图像进行去噪处理,得到上述候选业务标签i在上述K个时间步长下分别对应的去噪图像;i为小于或等于N的正整数,N为大于1的正整数;
融合模块,用于对上述候选业务标签i在上述K个时间步长下分别对应的去噪图像进行融合,得到上述候选业务标签i对应的融合去噪图像;
确定模块,用于根据上述N个候选业务标签分别对应的融合去噪图像,从上述N个候选业务标签中确定上述目标业务图像的目标业务标签。
本申请实施例一方面提供了一种计算机设备,包括存储器和处理器,上述存储器存储有计算机程序,上述处理器执行上述计算机程序时实现上述的方法的步骤。
本申请实施例一方面提供了一种计算机可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时实现上述的方法的步骤。
本申请实施例一方面提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法的步骤。
本申请中,由于目标业务图像的目标业务标签与目标业务图像的空间(即图像区域)具有较强的一一对应关系,即一个目标业务标签与目标业务图像中的一个图像区域相对应。因此,计算机设备可以同时将多个候选业务标签(即N个候选业务标签)输入至业务扩散模型中,业务扩散模型根据各个候选业务标签在不同时间步长(即K个时间步长)下对应的去噪图像,确定对应候选业务标签对应的融合去噪图像,根据N个候选业务标签分别对应的融合去噪图像,从N个候选业务标签中确定目标业务图像的目标业务标签。可见,不需要一一输入多个候选业务标签,有利于快速地识别到目标业务图像的一个或多个目标业务标签,降低业务扩散模型识别标签的耗时,提高业务扩散模型的标签识别效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的一种数据处理系统示意图;
图2是本申请提供的一种通用扩散模型的模型结构示意图;
图3是本申请提供的一种数据处理方法的交互场景示意图;
图4是本申请提供的又一种数据处理方法的交互场景示意图;
图5是本申请提供的一种数据处理方法的流程示意图;
图6是本申请提供的一种基于候选业务标签获取去噪图像的场景示意图;
图7是本申请提供的又一种数据处理方法的流程示意图;
图8是本申请提供的一种通用扩散模型的上采样网络和初始扩散模型的上采样网络的交互示意图;
图9是本申请提供的一种通用扩散模型的上采样块和初始扩散模型的上采样块的交互示意图;
图10是本申请实施例提供的一种数据处理装置的结构示意图;
图11是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例可涉及人工智能技术以及自动驾驶、智慧交通等领域,所谓人工智能(Artificial Intelligence,AI),是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
所谓机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
例如,本申请中,利用机器学习技术构建一个业务扩散模型,该业务扩散模型能够用于识别图像的业务标签,例如,计算机设备可以同时将多个候选业务标签(即N个候选业务标签)输入至业务扩散模型中,业务扩散模型根据各个候选业务标签在不同时间步长(即K个时间步长)下对应的去噪图像,确定对应候选业务标签对应的融合去噪图像,根据N个候选业务标签分别对应的融合去噪图像,从N个候选业务标签中确定目标业务图像的目标业务标签。可见,不需要一一输入多个候选业务标签,有利于快速地识别到目标业务图像的一个或多个目标业务标签,降低业务扩散模型识别标签的耗时,提高业务扩散模型的标签识别效率。
为了便于更清楚理解本申请,首先介绍实现本申请的数据处理系统,如图1所示,该数据处理系统中包括服务器10和终端集群,终端集群可以包括一个或者多个终端,这里将不对终端的数量进行限制。如图1所示,终端集群具体可以包括终端1、终端2、… 、终端n;可以理解的是,终端1、终端2、终端3、… 、终端n均可以与服务器10进行网络连接,以便于每个终端均可以通过网络连接与服务器10之间进行数据交互。
终端中安装有一个或多个目标应用,此处的目标应用可以是指具有图像处理(如下载图像、生成图像的标签)功能的应用,如目标应用可以包括独立的应用程序、网页应用、宿主应用中的小程序等。服务器10是指为终端中的目标应用提供后端服务的设备,在一个实施例中,服务器可以用于基于已训练的通用扩散模型对初始扩散模型进行训练,得到用于识别目标业务的业务标签的业务扩散模型,将该业务扩散模型发送至终端,该业务扩散模型可以为终端中的目标应用中的一个功能模块。在实际应用中,终端可以调用该业务扩散模型来识别目标业务图像的业务标签。
可理解的是,服务器可以是独立的一个物理服务器,也可以是至少两个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、中容分发网络(ContentDeliveryNetworK,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端具体可以是指车载终端、智能手机、平板电脑、笔记本电脑、桌上型电脑、智能音箱、有屏音箱、智能手表等等,但并不局限于此。各个终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,同时,终端以及服务器的数量可以为一个或至少两个,本申请在此不做限制。
可理解的是,目标业务可以是指与图像相关的业务,如该目标业务可以是指图像审核业务,图像审核业务是指识别图像中是否敏感画面,敏感画面是指不能直接展示给用户的数据;或者,该目标业务可以是指图像分类业务,如将包括动物、人物等的图像进行分类;或者,目标业务可以是指安全检测业务,如防止陌生人物进入某小区等。目标业务图像、样本业务图像是指与目标业务关联的图像,也即目标业务图像、样本业务图像是指与目标业务之间的关联度大于关联度阈值的图像。也即,目标业务图像是指待识别的业务图像,样本业务图像用于训练初始扩散模型的业务图像,如该目标业务可以是指图像审核业务,该样本业务图像可以包括具有敏感画面的图像和不具有敏感画面的图像,该目标业务图像是指待审核的图像,如目标业务图像可以是指待上传至网页中的图像。目标业务下的标注业务标签可以是指标注样本业务图像中是否包括目标业务所关注的内容的标签,如当该目标业务为图像审核业务时,标注业务标签可以包括敏感、正常等,标注业务标签为:敏感,反映样本业务图像包含敏感画面,敏感画面是指不适合发布至网络的画面,如容易误导他人、侵犯他人隐私的画面,标注业务标签为:正常,反映样本业务图像不包含敏感画面。当该目标业务为图像分类业务时,该标注业务标签可以包括动物、人物、建筑、植物等,更具体的,该标注业务标签包括猫、狗、人、某地建筑、花、树等;当该目标业务为安全检测业务时,该标注业务标签可以包括小区内的用户、小区外的用户等。其中,标注业务标签是指人工对与目标业务关联的样本业务图像进行标注得到的,预测业务标签是指初始扩散模型对样本业务图像进行预测得到的,目标业务标签是指业务扩散模型对与目标业务关联的目标业务图像进行识别得到的。
可理解的是,通用图像可以是指与目标业务之间的关联度小于或等于关联度阈值的图像,如该通用图像可以是从互联网中获取到的图像;通用标签可以是指从网页中获取到,或者,该通用图像标签可以是与其它业务关联的标注业务标签,其他业务是指除本申请中目标业务以外的业务。该通用图像标签可以是指该通用图像的描述信息;如该通用图像为包括狗的图像,该通用图像的通用图像标签为:高清晰宠物狗狗摄影图像欣赏;在如该通用图像为包括落日的图像,该通用图像的通用图像标签为:唯美日落自然风光图片。当然,这些通用图像标签的语种可以是中文,也可以是其他语种。
需要说明的是,将通用图像标签与标注业务标签进行对比可知,标注标签的描述形式比较统一,通用图像标签的描述形式比较多样化,且通用图像标签与业务标签之间具有一定的相似度。例如,通用图像为包括狗的图像,该通用图像的通用图像标签为:高清晰宠物狗狗摄影图像欣赏;当该目标业务为图像分类业务时,该样本业务图像为包括狗的图像时,该样本业务图像的标注业务标签为:狗,可见,通用图像标签和标注业务标签中均包括关键词:狗。由于本申请中的通用扩散模型是基于通用图像和通用图像标签训练得到的,同时,通用图像标签和标注业务标签之间具有一定的相似性,因此,可以称通用扩散模型具有识别目标业务图像的业务标签的粗略能力,可以基于该通用扩散模型进行微调得到业务扩散模型,这样可实现在确保业务扩散模型的准确度的情况下,采用少量标注业务标签训练得到业务扩散模型,提高业务扩散模型的训练准确度以及训练效率。
可理解的是,本申请中的通用扩散模型、初始扩散模型、业务扩散模型均属于扩散模型(Diffusion Model),扩散模型也是生成模型,扩散模型可以通过引入噪声,然后尝试通过去噪来生成图像。本申请中的通用扩散模型可以是指基于通用图像和通用图像标签训练得到的,该初始扩散模型与通用扩散模型具有相同的模型结构,如初始扩散模型和通用扩散模型均包括加噪网络、上采样网络和下采样网络,加噪网络可以是指用于向图像中添加随机噪声数据的网络,下采样网络用于对加噪网络得到的加噪图像进行下采样处理,上采样网络用于对下采样网络得到的下采样图像进行上采样处理,以去除加噪图像中的随机噪声数据。初始扩散模型的加噪网络的权重与通用扩散模型的加噪网络的权重相同,初始扩散模型的下采样网络的权重与通用扩散模型的下采样网络的权重相同,在对初始扩散模型的上采样网络的权重与通用扩散模型的上采样网络的权重相同。
可选的,该通用扩散模型还可以包括图像编码器、图像解码器以及条件生成网络,图像编码器用于将通用图像从像素空间pixel space 映射到潜在空间 latent space,得到该通用图像的潜在空间表示,将该通用图像的潜在空间表示,作为通用图像的图像特征。在文本数据生成图像数据的应用场景中,条件生成网络用于对文本数据(如通用图像标签、文本提示语)进行特征提取,得到文本数据对应文本特征。在通用扩散模型的训练阶段,图像解码器用于将上采样网络输出的去噪图像特征映射至像素空间,得到基于带噪图像特征恢复得到通用图像;在通用扩散模型的推理过程中,该图像解码器用于将上采样网络中输出的去噪图像映射至像素空间,得到与文本提示语关联的图像。
例如,如图2所示,该通用扩散模型可以包括图像编码器a、加噪网络、条件生成网络、上采样网络和下采样网络、图像解码器b。该通用扩散模型的训练过程中,图像编码器a用于对通用图像x从像素空间映射至潜在空间,得到通用图像x的图像特征z,加噪网络用于对图像特征z中添加随机步长t对应的随机噪声数据,得到通用图像对应的带噪图像特征。该条件生成网络包括图像编码器c和文本编码器d,用于对通用图像x的通用图像标签进行文本特征提取,得到通用图像标签的通用文本特征θ。下采样网络用于基于通用文本特征θ和带噪图像特征,预测随机步长t对应的预测噪声数据,根据随机噪声数据和随机步长t对应的预测噪声数据,对通用扩散模型进行训练,得到已训练的通用扩散模型。其中,该上采样网络和下采样网络中的Q、K、V指示相关上采样网络和下采样网络均是基于注意力机制的网络,图像编码器a、加噪网络、条件生成网络、相关性识别网络是预先训练好的。该条件生成网络可以是指clip网络,该条件生成网络用于将计算机视觉(图像数据)和人类语言(即文本数据)这两个不同维度的信息进行管理,两者使用同一的数学表示,例如,向条件生成网络中输入一张包括小狗的图像,以及文本数据(小狗照片),条件生成网络能够输出图像特征向量和文本特征向量,且该图像特征向量与该文本特征向量之间匹配。在本申请中,该条件生成网络可以用于提取业务文本标签的业务文本特征。本申请中,主要以通用扩散模型包括加噪网络、上采样网络、下采样网络为例进行说明,上采样网络和下采样网络可以构成unet网络,unet网络用于对加噪网络进行去噪处理,unet网络也可以称为去噪网络。
需要说明的是,在初始扩散模型的训练过程中,初始扩散模型的加噪网络、上采样网络的权重保持不变,可以基于样本业务图像和标注业务标签对初始扩散模型的上采样网络进行微调,以得到业务扩散模型。换而言之,计算机设备只需要将目标业务下的少量标注业务标签嵌入至该通用扩散模型中,就能够得到用于识别目标业务下的业务标签的业务扩散模型,使业务扩散模型具有识别目标业务图像的业务标签的精细化能力,即业务扩散模型具有化识别目标业务的标签的精细化能力,这样不仅提高业务扩散模型的标签识别准确度,还能够提高业务扩散模型的训练效率,降低成本,不需要完全依靠标注业务标签从零开始重新训练业务扩散模型。
需要说明的是,本申请的时间步长是指向图像中添加随机操作数据的加噪步数,不同的时间步长对应不同的加噪步数,时间步长可以表示为T,一个次加噪可以用于t表示,t也可以称为随机步长,即t也可以称为第t次加噪,不同随机步长对应的随机噪声数据的噪声量不相同,随机噪声数据的噪声量随着随机步长t的增大而增加。如,当T=5时,首先,t=1,向目标图像中添加随机步长1对应的随机噪声数据,得到加噪图像z1;t=2,向加噪图像z1中添加随机步长2对应的随机噪声数据,得到加噪图像z2;以此类推,直到获取到加噪图像z5。即加噪图像z5中累加了随机步长1到随机步长5分别对应的噪声数据,随机步长1对应的随机噪声数据的噪声量最少,随机步长5对应的随机噪声数据的噪声量最多,加噪图像z5可以称为时间步长5下的噪声图像。
图1中的数据处理系统可以用于实现本申请的数据处理方法,如图3和图4所示,图3和图4中的服务器20a可以是指图1中的服务器10,图4中的终端23a可以是指图1中的终端集群中的任一终端。图3和图4以该目标业务为图像审核业务为例进行说明,该图像审核业务对用户待发布的图像或待发布的视频数据中的图像的合法性进行检测,如检测用户待发布的图像或待发布的视频数据中的图像是否包含敏感画面。
如图3所示,服务器20a可以从网页中下载通用扩散模型,或者,可以从网页中获取通用图像以及该通用图像的通用图像标签,根据该通用图像和通用图像标签对通用扩散模型进行训练,得到已训练的通用扩散模型,此处的通用图像可以包括与目标业务相关的业务图像,还可以包括与目标业务非关联的图像。图3中以通用图像21a为例,通用图像21a可以是指包括一个人物的图像,该通用图像的通用图像标签为:严肃的xx老师。该通用扩散模型可以包括加噪网络、上采样网络、下采样网络。在获取到通用扩散模型之后,服务器20a可以根据通用扩散模型的结构,构建初始业务扩散模型,该初始业务扩散模型的结构与通用扩散模型的结构相同,该初始业务扩散模型也具有加噪网络、上采样网络和下采样网络。
进一步,服务器20a可以根据该通用扩散模型的加噪网络的权重,对初始业务扩散模型的加噪网络的权重进行初始化,根据该通用扩散模型的上采样网络的权重,对初始业务扩散模型的上采样网络的权重进行初始化,根据该通用扩散模型的下采样网络的权重,对初始业务扩散模型的下采样网络的权重进行初始化。即将该通用扩散模型的加噪网络的权重,迁移至初始业务扩散模型的加噪网络,将该通用扩散模型的上采样网络的权重,迁移至初始业务扩散模型的上采样网络,将该通用扩散模型的下采样网络的权重,迁移至初始业务扩散模型的下采样网络。换而言之,该初始扩散模型的加噪网络的权重与通用扩散模型的加噪网络的权重相同,初始扩散模型的上采样网络的权重与通用扩散模型的上采样网络的权重相同,初始扩散模型的下采样网络的权重与通用扩散模型的下采样网络的权重相同,即该初始扩散模型与通用扩散模型具有相同的识别能力。服务器20a可以获取与图像审核业务关联的样本业务图像,以及该样本业务图像的标注业务标签,以样本业务图像的数量可以为多张。如图4中,以样本业务图像包括样本业务图像22a为例进行说明,该样本业务图像22a为包括人物的图像,该样本业务图像22a的标注业务标签为正常(反映样本业务图像中不包括敏感画面),该标注业务标签是由人工对样本业务图像22a进行标注得到的,该标注业务标签反映样本业务图像22a在图像审核业务下的真实标签(实际标签)。
接着,服务器20a可以调用通用扩散模型的加噪网络,将随机步长t对应的噪声数据添加至通用图像21a中,得到该通用图像21a的加噪图像;进一步,调用通用扩散模型的下采样网络对该通用图像21a的加噪图像进行下采样处理,得到该通用图像21a的下采样图像。然后,可以调用通用扩散模型的上采样网络,根据通用标签和该通用图像21a的下采样图像,识别通用图像21a于通用图像标签之间的相关性特征,将通用图像21a与通用图像标签之间的相关性特征,确定为通用图像21a与通用图像标签之间的第一类相关性特征。
同理,如图4所示,服务器20a可以调用初始扩散模型的加噪网络,将随机步长t对应的随机噪声数据添加至样本业务图像22a中,得到样本业务图像22a的加噪图像,调用初始扩散模型的下采样网络,对样本业务图像22a的加噪图像进行下采样处理,得到样本业务图像22a的下采样图像。然后,可以调用初始扩散模型的上采样网络,根据标注业务标签、第一类相关性特征以及该样本业务图像22a的下采样图像,识别样本业务图像22a与标注业务标签之间的相关性特征,将样本业务图像22a与标注业务标签之间的相关性特征,确定为样本业务图像22a与标注业务标签之间的第二类相关性特征。根据该第二类相关性特征,确定样本业务图像22a的加噪图像中预测噪声数据。
服务器20a可以根据预测噪声数据和随机步长t对应的随机噪声数据,对初始扩散模型的上采样网络的权重进行调整,服务器20a可以参考上述步骤,根据其他样本业务图像对初始扩散模型进行多次训练,得到业务扩散模型。其中,在初始扩散模型的训练过程中通用扩散模型的参数处于冻结状态,即在初始扩散模型的训练过程中通用扩散模型的参数保持不变,这样该通用扩散模型可以用于训练多种业务关联的识别模型,提高通用扩散模型的利用率。同时,不同业务下的前向扩散过程均具有相似性,即前向扩散过程均是对图像特征进行逐步加噪处理,因此,在初始扩散模型的训练过程中,该初始扩散模型的加噪网络的权重处于冻结状态,只需要对初始扩散模型的上采样网络的参数进行调整,提高业务扩散模型的训练效率。另外,通过标注业务标签对初始扩散模型的上采样网络进行调整,使调整后的业务扩散模型具有识别目标业务下的业务标签的能力,提高业务扩散模型的标签识别准确度。
在训练得到业务扩散模型之后,服务器20a可以将该业务扩散模型发送至终端23a,终端23a接收到待发布的目标业务图像后,可以将目标业务图像和图像审核业务下的多个候选业务标签输入至业务扩散模型中,通过业务扩散模型从多个候选业务标签中,识别目标业务图像所具有的候选业务标签,作为目标业务图像的目标业务标签。进一步,根据该目标业务图像的目标业务标签,确定该目标业务图像的合法性,如该目标业务图像的目标业务标签为:正常,确定该目标业务图像具有合法性;如果该目标业务图像的目标业务标签包括裸露、血腥、暴力等,则确定该目标业务图像不具有合法性。如果该目标业务图像不具有合法性,暂停发布该目标业务图像,如果该目标业务图像具有合法性,则发布该目标业务图像,即可将该目标业务图像发布至网络中,通过业务扩散模型,能够确保图像审核业务快速、且准确地被处理,提高图像审核业务的处理效率和准确度。
可理解的是,对初始扩散模型的训练过程也可以由上述终端23a来执行,具体实现过程可以参考服务器20a对初始扩散模型的训练过程,重复之处不再赘述。
进一步地,请参见图5,是本申请实施例提供的一种数据处理方法的流程示意图。如图5所示,该方法可由图1中的终端集群中的任一终端来执行,也可以由图1中的服务器来执行,还可以由图1中的终端集群中的终端和服务器来协同执行,本申请中用于执行该数据处理方法的设备可以统称为计算机设备。其中,该方法可以包括如下步骤:
S101、获取与目标业务关联的目标业务图像和N个候选业务标签;N为大于1的正整数。
本申请中的,计算机设备可以获取与该目标业务关联的目标业务图像,以及与目标业务关联的N个候选业务标签;目标业务图像可以是指目标业务下的待识别图像,候选业务标签可以是指目标业务下的标注业务标签。例如,如该目标业务为图像审核业务,该目标业务图像可以是指待审核的图像(如待发布至网络的图像);候选业务标签可以包括敏感、正常等。如果目标业务为图像分类业务,该目标业务图像可以是指待分类的图像,该候选业务标签可以包括动物、人物、建筑、植物等,更具体的,该候选业务标签包括猫、狗、人、某地建筑、花、树等;当该目标业务为安全检测业务时,该候选业务标签可以包括小区内的用户、小区外的用户等。
S102、向该目标业务图像中添加K个时间步长对应的随机噪声数据,得到该目标业务图像的K个加噪图像;K为大于1的正整数。
本申请中,计算机设备可以向该目标业务图像中添加K个时间不长对应的随机噪声数据,得到该目标业务图像的K个加噪图像,K为大于1的正整数。K个时间步长均不相同,例如,K个时间步长可以为:T1、T2、……、Tc,c=K,假设 T1=10,计算机设备可以将随机步长1到随机步长10分别对应的随机噪声数据累加至目标业务图像中,得到时间步长T1下的加噪图像zT1;假设T2=20时,计算机设备可以将随机步长1到随机步长20分别对应的随机噪声数据累加至目标业务图像中,得到时间步长T2下的加噪图像zT2。以此类推,重复上述步骤,直到获取到K个时间步长下分别对应的加噪图像,将K个时间步长下分别对应的加噪图像,确定为目标业务图像的K个加噪图像。
S103、将该N个候选业务标签和该目标业务图像的K个加噪图像,输入至业务扩散模型中,通过该业务扩散模型根据候选业务标签i,对该目标业务图像的K个加噪图像进行去噪处理,得到该候选业务标签i在该K个时间步长下分别对应的去噪图像;i为小于或等于N的正整数,N为大于1的正整数。
本申请中,计算机设备可以同时将该N个候选业务标签和该目标业务图像的K个加噪图像,输入至业务扩散模型中,针对第i次去噪迭代,计算机设备可以调用该业务扩散模型根据该候选业务标签i,对时间步长T1下的加噪图像zT1进行T1次去噪处理,得到候选业务标签i在时间步长T1下的去噪图像,调用该业务扩散模型根据该候选业务标签i,对时间步长T2下的加噪图像zT2进行T2次去噪处理,得到候选业务标签i在时间步长T2下的去噪图像,以此类推,重复上述步骤,直到获取到该候选业务标签i在K个时间步长下分别对应的去噪图像。进一步,i+1,针对第i次去噪迭代,计算机设备可以调用该业务扩散模型根据该候选业务标签i+1,对时间步长T1下的加噪图像zT1进行T1次去噪处理,得到候选业务标签i+1在时间步长T1下的去噪图像,调用该业务扩散模型根据该候选业务标签i+1,对时间步长T2下的加噪图像zT2进行T2次去噪处理,得到候选业务标签i+1在时间步长T2下的去噪图像,以此类推,重复上述步骤,直到获取到该候选业务标签i+1在K个时间步长下分别对应的去噪图像。以此类推,直到去噪迭代次数为N时,可以获取到N个候选业务标签在K个时间步长下分别对应的去噪图像。
S104、对该候选业务标签i在该K个时间步长下分别对应的去噪图像进行融合,得到该候选业务标签i对应的融合去噪图像。
本申请中,计算机设备可以对该候选业务标签i在该K个时间步长下分别对应的去噪图像进行融合,得到该候选业务标签i对应的融合去噪图像;以此类推,重复上述步骤,直到获取到N个候选业务标签分别对应的融合去噪图像。
在一个实施例中,上述步骤S104包括:计算机设备可以对该候选业务标签i在该K个时间步长下分别对应的去噪图像进行累加,得到累加后的去噪图像;将该累加后的去噪图像确定为该候选业务标签i对应的融合去噪图像。
在一个实施例中,上述步骤S104包括:计算机设备可以采用平均算法对该候选业务标签i在该K个时间步长下分别对应的去噪图像进行平均化处理,得到候选业务标签i对应的平均去噪图像,将候选业务标签i对应的平均去噪图像,确定为该候选业务标签i对应的融合去噪图像。该平均算法可以是指算术平均算法、几何平均算法、平方平均算法以及调和平均算法等中的任一种。
需要说明的是,由于目标业务图像的目标业务标签与目标业务图像的空间(即图像区域)具有较强的一一对应关系,即一个目标业务标签与目标业务图像中的一个图像区域相对应。因此,如果目标业务图像中包括候选业务标签i对应的内容,则候选业务标签i能够更好地引导业务扩散模型对K个时间步长下分别对应的加噪图像进行去噪处理,即该候选业务标签i在K个时间步长下分别对应的去噪图像的图像质量比较高,也即该候选业务标签i在K个时间步长下分别对应的去噪图像中与候选业务标签i对应的图像区域的图像质量比较高;进一步,该候选业务标签i对应的融合去噪声图像的图像质量比较高。如果目标业务图像中不包括候选业务标签i对应的内容,则候选业务标签i不能够更好地引导业务扩散模型对K个时间步长下分别对应的加噪图像进行去噪处理,即该候选业务标签i在K个时间步长下分别对应的去噪图像的图像质量比较低;进一步,该候选业务标签i对应的融合去噪声图像的图像质量比较低。此处融合去噪图像的图像质量可以是根据该融合去噪图像中的像素值确定的,如融合去噪图像中的像素值比较大,该融合去噪图像中所包含的信息量比较多,即该融合去噪图像的清晰度比较高,也即融合去噪图像的图像质量比较高;相反,融合去噪图像中的像素值比较低,该融合去噪图像中所包含的信息量比较少,即该融合去噪图像的清晰度比较低,也即融合去噪图像的图像质量比较低。
例如,如图6所示,假设该目标业务图像包括一个恐龙和树,该目标业务图像的其中一个候选业务标签为:恐龙,将该N个候选业务标签和目标业务图像输入至业务扩散模型之后,业务扩散模型输出的目标业务图像在时间步长T1下的去噪图像如图6所示。从图6可知,该去噪图像中的目标图像区域的图像质量高于该去噪图像中的其他区域,该目标图像区域为该候选业务标签所指示的区域(即恐龙所在的区域)。也就是说,该候选业务标签:恐龙,能够引导扩散业务模型更好地对目标业务图像的加噪图像中的目标图像区域进行去噪。
S105、根据该N个候选业务标签分别对应的融合去噪图像,从该N个候选业务标签中确定该目标业务图像的目标业务标签。
本申请中,计算机设备可以根据该N个候选业务标签分别对应的融合去噪图像,从该N个候选业务标签中确定该目标业务图像的目标业务标签,该目标图像的目标业务标签的数量可以为一个或多个。
可选的,上述步骤S105包括:计算机设备可以根据该N个候选业务标签分别对应的融合去噪图像,确定该N个候选业务标签分别对应的初始业务特征值。如,计算机设备可以对候选业务标签i对应的融合去噪图像中的像素值进行累加处理,得到候选业务标签i对应的总像素值,将候选业务标签i对应的总像素值,确定为该候选业务标签i对应的初始业务特征值;以此类推,重复上述步骤,直到获取到N个候选业务标签分别对应的初始业务特征值。如果目标业务图像中包括候选业务标签i对应的内容,那么,候选业务标签i对应的融合去噪图像的图像质量比较高,进而,候选业务标签i对应的融合去噪图像中的像素值比较大,候选业务标签i对应的初始业务特征值也比较大。相反,如果目标业务图像中不包括候选业务标签i对应的内容,那么,候选业务标签i对应的融合去噪图像的图像质量比较低,进而,候选业务标签i对应的融合去噪图像中的像素值比较小,候选业务标签i对应的初始业务特征值比较小。因此,计算机设备可以对该N个候选业务标签分别对应的业务特征值进行平均化处理,得到平均业务特征值,将该N个候选业务标签中初始业务特征值大于该平均业务特征值的候选业务标签,确定为该目标业务图像的目标业务标签。通过一次性识别出目标业务图像中的一个或多个目标业务标签,可以提高目标业务标签的识别效率。
本申请中,由于目标业务图像的目标业务标签与目标业务图像的空间(即图像区域)具有较强的一一对应关系,即一个目标业务标签与目标业务图像中的一个图像区域相对应。因此,计算机设备可以同时将多个候选业务标签(即N个候选业务标签)输入至业务扩散模型中,业务扩散模型根据各个候选业务标签在不同时间步长(即K个时间步长)下对应的去噪图像,确定对应候选业务标签对应的融合去噪图像,根据N个候选业务标签分别对应的融合去噪图像,从N个候选业务标签中确定目标业务图像的目标业务标签。可见,不需要一一输入多个候选业务标签,有利于快速地识别到目标业务图像的一个或多个目标业务标签,降低业务扩散模型识别标签的耗时,提高业务扩散模型的标签识别效率。
进一步地,请参见图7,是本申请实施例提供的一种数据处理方法的流程示意图。如图7所示,该方法可由图1中的终端集群中的任一终端来执行,也可以由图1中的服务器来执行,还可以由图1中的终端集群中的终端和服务器来协同执行,本申请中用于执行该数据处理方法的设备可以统称为计算机设备。其中,该方法可以包括如下步骤:
S201、向与该目标业务关联的样本业务图像中添加随机步长t对应的随机噪声数据,得到该样本业务图像的加噪图像,向通用图像中添加该随机步长t对应的随机噪声数据,得到该通用图像的加噪图像;t为正整数。
本申请中,随机步长t是指一次加噪,t取值不同,随机步长t对应的随机噪声数据的噪声量不相同,随着随机步长t的取值增大,对应的随机噪声数据的噪声量也随之增加。该随机步长t的取值是[1,T]中随机选取的,T为时间步长,T可以为大于1的整数。计算机设备可以向与该目标业务关联的样本业务图像中添加随机步长t对应的随机噪声数据,得到该样本业务图像的加噪图像,向通用图像中添加该随机步长t对应的随机噪声数据,得到该通用图像的加噪图像。
S202、通过通用扩散模型,根据该通用图像的加噪图像,识别该通用图像与通用图像标签之间的第一类相关性特征。
本申请中,计算机设备可以调用该通用扩散模型,根据该通用图像的加噪图像,识别该通用图像与通用图像标签之间的第一类相关性特征,该第一类相关性特征用于反映通用图像与通用图像标签之间的相关性,即该第一类相关性特征用于反映通用图像与通用图像标签之间的关联度。
可选的,该通用扩散模型的上采样网络包括L个上采样块,该通用扩散模型的下采样网络包括L个下采样块,L为大于1的正整数;上述步骤S202包括:针对第j+1上采样迭代,获取该通用扩散模型的上采样块j所输出的该通用图像的上采样图像Xj;该通用图像的上采样图像Xj是根据该通用图像的加噪图像得到的;j为小于L的正整数;获取该通用扩散模型的下采样块L-j所输出的该通用图像在第L-j次下采样迭代的下采样图像;通过该通用扩散模型的上采样块j+1,根据该通用图像标签、该上采样图像Xj以及该通用图像在该第L-j次下采样迭代的下采样图像,识别该通用图像在该第j+1次上采样迭代下与该通用图像标签之间的相关性特征;将该通用图像在L次上采样迭代下分别与该通用图像标签之间的相关性特征,确定为该通用图像与该通用图像标签之间的第一类相关性特征。
例如,针对第1次下采样迭代,计算机设备可以调用该通用扩散模型的下采样块1根据该通用图像标签,对该通用图像的加噪图像进行下采样处理,得到该通用图像在第1次下采样迭代的下采样图像。针对第2次下采样迭代,计算机设备可以调用该通用扩散模型的下采样块2根据该通用图像标签,对该通用图像在第1次下采样迭代的下采样图像进行下采样处理,得到通用图像在第2次下采样迭代的下采样图像。以此类推,重复上述步骤,直到获取到通用图像在L次下采样迭代分别对应的下采样图像。
进一步,j=0,针对第1次上采样迭代,计算机设备可以调用该通用扩散模型的上采样块1,根据该通用图像标签和通用图像在第L次下采样迭代的下采样图像,识别通用图像在该第1次上采样迭代下与该通用图像标签之间的相关性特征a1;根据相关性特征a1,对通用图像在第L次下采样迭代的下采样图像进行上采样处理,得到通用扩散模型的上采样块1所输出的通用图像的上采样图像X1。j=1,针对第2次上采样迭代,计算机设备可以调用该通用扩散模型的上采样块2,根据该通用图像标签、上采样图像X1,以及通用图像在第L-1次下采样迭代的下采样图像,识别通用图像在该第2次上采样迭代下与该通用图像标签之间的相关性特征a2;根据相关性特征a2,对通用图像在第L-1次下采样迭代的下采样图像进行上采样处理,得到通用扩散模型的上采样块2所输出的通用图像的上采样图像X2。以此类推,重复上述步骤,直到获取到通用图像在L次上采样迭代下分别与该通用图像标签之间的相关性特征,将该通用图像在L次上采样迭代下分别与该通用图像标签之间的相关性特征,确定为该通用图像与上述通用图像标签之间的第一类相关性特征。
可选的,上述通过上述通用扩散模型的上采样块j+1,根据上述通用图像标签、上述上采样图像Xj以及上述通用图像在上述第L-j次下采样迭代的下采样图像,识别上述通用图像在上述第j+1次上采样迭代下与上述通用图像标签之间的相关性特征,包括:计算机设备可以通过该通用扩散模型的上采样块j+1,对该上采样图像Xj与该通用图像在该第L-j次下采样迭代的下采样图像进行融合,得到通用融合图像;进一步,获取该通用扩散模型的上采样块j+1对应的文本权重和图像权重,该文本权重和图像权重可以是指上采样块j+1对应的权重。然后,采用该文本权重对该通用图像标签对应的文本特征进行加权处理,得到加权文本向量,采用该图像权重对该通用融合图像的图像特征进行加权处理,得到加权图像向量,根据该加权文本向量和该加权图像向量,确定该通用图像在上述第j+1次上采样迭代下与该通用图像标签之间的相关性特征。
可选的,上述根据该加权文本向量和该加权图像向量,确定该通用图像在上述第j+1次上采样迭代下与上述通用图像标签之间的相关性特征,包括:计算机设备可以对该加权文本向量和加权图像向量进行乘积处理,得到该通用图像在上述第j+1次上采样迭代下与上述通用图像标签之间的初始相关性特征,然后,对该通用图像在该第j+1次上采样迭代下与上述通用图像标签之间的初始相关性特征进行归一化处理,得到归一化后的相关性特征;即将该通用图像在该第j+1次上采样迭代下与上述通用图像标签之间的初始相关性特征调整至小于或等于1的范围内,得到归一化后的相关性特征。进一步,可以根据上述归一化后的相关性特征和上述上采样块j+1在上述通用扩散模型中的位置,确定该通用图像在第j+1次上采样迭代下与上述通用图像标签之间的相关性特征。
例如,计算机设备可以采用如下公式(1)计算该通用图像在第j+1次上采样迭代下与上述通用图像标签之间的相关性特征:
(1)
在公式(1)中,表示该通用图像在第j+1次上采样迭代下与上述通用图像标签之间的相关性特征,/>归一化后的相关性特征,/>表示上采样块j+1在通用扩散模型中的位置,如可以反映上采样块j+1为通用扩散模型中的第j+1个上采样块。/>表示加权图像向量,/>表示加权文本向量/>的转置。
S203、通过初始扩散模型,根据该第一类相关性特征和该样本业务图像的标注业务标签,识别该样本业务图像的加噪图像中的预测噪声数据;该初始扩散模型的结构与该通用扩散模型的结构相同。
本申请中,计算机设备可以通过初始扩散模型,根据该第一类相关性特征和该样本业务图像的标注业务标签,识别该样本业务图像的加噪图像中的预测噪声数据,即通过初始扩散模型,根据该第一类相关性特征和标注业务标签,识别样本业务图像与标注业务标签之间的第二类相关性特征,根据该第二类相关性特征识别该样本业务图像的加噪图像中的预测噪声数据。这样有利于使初始扩散模型具备识别样本业务图像和标注业务标签之间的相关性的能力,进而,使初始扩散模型具备识别目标业务图像的业务标签的能力,使初始扩散模型具备处理某个业务(目标业务)的能力,实现业务的精细化处理,提高业务处理准确度。
例如,如图8所示,通用扩散模型包括下采样网络81a、上采样网络82a以及加噪网络(图8中未示出);业务扩散模型包括下采样网络84a、上采样网络85a以及加噪网络(图8中未示出)。图8中的通用图像包括刀叉,该通用图像的通用图像标签为:包括餐具的图像,图8中的样本业务图像包括刀叉以及水果,该样本业务图像的标注业务标签为:刀叉。首先,通用扩散模型的加噪网络可以将随机时长t对应的随机噪声数据添加至通用图像中,得到通用图像的加噪图像80a;下采样网络81a可以根据通用图像标签,对通用图像的加噪图像80a进行下采样处理,得到通用图像的下采样图像。上采样网络82a可以根据通用图像的下采样图像和通用图像标签,识别得到通用图像与通用图像标签之间的第一类相关性特征。
进一步,如图8所示,初始扩散模型的加噪网络可以将随机时长t对应的随机噪声数据添加至样本业务图像中,得到样本业务图像的加噪图像83a;下采样网络84a可以根据标注业务标签,对样本业务图像的加噪图像83a进行下采样处理,得到样本业务图像的下采样图像。上采样网络85a可以根据样本业务图像的下采样图像、标注业务标签以及第一类相关性特征,识别得到样本业务图像与样本业务标签之间的第二类相关性特征,根据该第二类相关性特征识别样本业务图像的加噪图像83a中的预测噪声数据。
可选的,上述第一类相关性特征包括上述通用图像在上述第j+1次上采样迭代下与上述通用图像标签之间的相关性特征,该初始扩散模型的上采样网络包括L个上采样块,该初始扩散模型的下采样网络包括L个下采样块,L为大于1的正整数,j为小于L的正整数。
可选的,上述步骤S203包括:针对第j+1次上采样迭代,获取该初始扩散模型的上采样块j所输出的该样本业务图像的上采样图像Yj;该样本业务图像的上采样图像Yj是根据该样本业务图像的加噪图像得到的。获取该初始扩散模型的下采样块L-j所输出的该业务图像在第L-j次下采样迭代的下采样图像;通过该初始扩散模型的上采样块j+1,根据该标注业务标签、该上采样图像Yj以及相关性特征j+1,以及该样本业务图像在第L-j次下采样迭代的下采样图像,识别得到第二类相关性特征;该相关性特征j+j反映该通用图像在该第j+1次上采样迭代下与该通用图像标签之间的相关性特征,该第二类相关性特征反映该样本业务图像在该第j+1次上采样迭代下与该标注业务标签之间的相关性特征;根据第L次上采样迭代所得到的第二类相关性特征,确定该样本业务图像的加噪图像中的预测噪声数据。
例如,针对第1次下采样迭代,计算机设备可以调用该初始扩散模型的下采样块1根据该标注业务标签,对该样本业务图像的加噪图像进行下采样处理,得到该样本业务图像在第1次下采样迭代的下采样图像。针对第2次下采样迭代,计算机设备可以调用该初始扩散模型的下采样块2根据该标注业务标签,对该样本业务图像在第1次下采样迭代的下采样图像进行下采样处理,得到样本业务图像在第2次下采样迭代的下采样图像。以此类推,重复上述步骤,直到获取到样本业务图像在L次下采样迭代分别对应的下采样图像。
进一步,j=0,针对第1次上采样迭代,计算机设备可以调用该初始扩散模型的上采样块1,根据该标注业务标签、上文相性特征a1,以及样本业务图像在第L次下采样迭代的下采样图像,识别样本业务图像在该第1次上采样迭代下与该标注业务标签之间的第二类相关性特征b1,根据第二类相关性特征b1,对样本业务图像在第L次下采样迭代的下采样图像进行上采样处理,得到初始扩散模型的上采样块1所输出的样本业务图像的上采样图像Y1。j=1,针对第2次上采样迭代,计算机设备可以调用该初始扩散模型的上采样块2,根据该标注业务标签、上文相性特征a2、上采样图像Y1,以及样本业务图像在第L-1次下采样迭代的下采样图像,识别样本业务图像在该第2次上采样迭代下与该标注业务标签之间的第二类相关性特征b2;根据第二类相关性特征b2,对样本业务图像在第L-1次下采样迭代的下采样图像进行上采样处理,得到初始扩散模型的上采样块2所输出的样本业务图像的上采样图像Y2。以此类推,重复上述步骤,直到第L次上采样迭代所得到的第二类相关性特征,根据第L次上采样迭代所得到的第二类相关性特征,对样本业务图像在第1次下采样迭代的下采样图像进行上采样处理,得到初始扩散模型的上采样块L所输出的样本业务图像的上采样图像YL。根据样本业务图像的上采样图像YL,确定该样本业务图像的加噪图像中的预测噪声数据。
可选的,上述通过上述初始扩散模型的上采样块j+1,根据上述标注业务标签、上述上采样图像Yj以及相关性特征j+1,以及上述样本业务图像在第L-j次下采样迭代的下采样图像,识别得到第二类相关性特征,包括:计算机设备可以通过该初始扩散模型的上采样块j+1,对该上采样图像Yj和该样本业务图像在第L-j次下采样迭代的下采样图像进行融合,得到业务融合图像;进一步,计算设备可以对该相关性特征j+1和该业务融合图像的图像特征进行融合,得到图像融合特征;此处的融合可以是指累加处理或者平均化处理。进一步,计算机设备可以通过该初始扩散模型的上采样块j+1,对该标注业务标签和该图像融合特征进行识别,得到第二类相关性特征。通过在训练初始扩散模型的过程中嵌入(融合)通用扩散模型的第一类相关性特征,有利于采用较少的训练数据,训练得到用于处理目标业务的业务扩散模型,提高业务扩散模型的标签识别准确度,以及业务扩散模型的训练效率。
可选的,如图9所示,通过扩散模型、初始扩散模型的一个上采样块均包括一个残差网络层、一个注意力层以及交叉注意力层,残差网络层用于对对应的下采样块输出的下采样图像与上一个上采样块的上采样图像进行融合,自注意力层用于基于残差网络层的融合图像,识别图像与文本标签之间的相关性特征,交叉注意力层用于根据注意力层输出的相关性特征,对应的下采样块输出的下采样图像进行上采样处理,得到上采样图像。例如,通用扩散模型的上采样块所获取的相关性特征会融合至,初始扩散模型中对应的上采样块中。以通用扩散模型中的上采样块j+1和初始扩散模型中的上采样块j+1为例进行说明。通用扩散模型中的上采样块j+1的残差网络层,对该上采样图像Xj与该通用图像在该第L-j次下采样迭代的下采样图像进行融合,得到通用融合图像;通用扩散模型中的上采样块j+1的自注意力层,获取该通用扩散模型的上采样块j+1对应的文本权重和图像权重,该文本权重和图像权重可以是指上采样块j+1对应的权重。然后,采用该文本权重对该通用图像标签对应的文本特征进行加权处理,得到加权文本向量,采用该图像权重对该通用融合图像的图像特征进行加权处理,得到加权图像向量,根据该加权文本向量和该加权图像向量,确定该通用图像在该第j+1次上采样迭代下与该通用图像标签之间的相关性特征(标记为相关性特征j+1)。通用扩散模型中的上采样块j+1的交叉注意力层,根据相关性特征j+1,对通用图像在第L-j次下采样迭代的下采样图像进行上采样处理,得到通用扩散模型的上采样块j+1所输出的通用图像的上采样图像Xj+1。
相应地,通过该初始扩散模型的上采样块j+1的残差网络层,对该上采样图像Yj和该样本业务图像在第L-j次下采样迭代的下采样图像进行融合,得到业务融合图像;对该相关性特征j+1和该业务融合图像的图像特征进行融合,得到图像融合特征。通过该初始扩散模型的上采样块j+1的自注意力层,对该标注业务标签和该图像融合特征进行识别,得到第二类相关性特征,该初始扩散模型的上采样块j+1的自注意力层获取第二类相关性特征的实现过程,可以参考通用扩散模型中的上采样块j+1的自注意力层获取相关性特征j+1的实现过程,重复之处不再赘述。通过该初始扩散模型的上采样块j+1的交叉注意力层,根据第二类相关性特征,对样本业务图像在第L-j次下采样迭代的下采样图像进行上采样处理,得到初始扩散模型的上采样块j+1所输出的样本业务图像的上采样图像Yj+1。以此类推,重复上述步骤,直到获取到初始扩散模型的上采样块L所输出的样本业务图像的上采样图像YL,上采样图像YL可以称为样本业务图像的去噪图像,根据样本业务图像的加噪图像与样本业务图像的去噪图像进行相减处理,得到样本业务图像的加噪图像中的预测噪声数据。
S204、根据该预测噪声数据和该随机步长t对应的随机噪声数据,对该初始扩散模型进行训练,得到该业务扩散模型。
可选的,上述步骤S204包括:计算机设备可以根据上述预测噪声数据和上述随机步长t对应的随机噪声数据,计算上述初始扩散模型的噪声预测误差,该噪声预测误差用于反映初始扩散模型的去噪能力,即噪声预测误差用于反映初始扩散模型识别标注业务标签与样本业务图像之间的相关性特征能力,即噪声预测误差用于反映初始扩散模型识别目标业务下的业务标签的准确度。如噪声预测误差越低,反映初始扩散模型识别标注业务标签与样本业务图像之间的相关性特征能力越强,即反映初始扩散模型识别目标业务下的业务标签的准确度越高;相反,噪声预测误差越高,反映初始扩散模型识别标注业务标签与样本业务图像之间的相关性特征能力越弱,即反映初始扩散模型识别目标业务下的业务标签的准确度越低。因此,计算机设备可以根据该噪声预测误差,确定该初始扩散模型的收敛状态,该收敛状态包括未收敛状态或已收敛状态,未收敛状态是指初始扩散模型的噪声预测误差大于误差阈值,已收敛状态反映是指初始扩散模型的噪声预测误差小于或等于误差阈值,该误差阈值可以是指初始扩散模型的最低噪声预测误差,最低噪声预测误差是根据初始扩散模型的损失函数确定的。若该初始扩散模型处于已收敛状态,则可以直接将该初始扩散模型确定为业务扩散模型;若该初始扩散模型处于未收敛状态,则根据该噪声预测误差,对该初始扩散模型的上采样网络进行训练,得到上述业务扩散模型。换言之,在训练初始扩散模型中过程中,通过嵌入通用扩散模型识别得到的第二类相关性特征,只需要对初始扩散模型的上采样网络进行训练,即只需要对初始扩散模型的上采样网络进行微调,就能得到业务扩散模型,提高业务扩散模型的训练效率。
可选的,上述若上述初始扩散模型处于未收敛状态,则若上述初始扩散模型处于未收敛状态,则根据上述噪声预测误差,对上述初始扩散模型的上采样网络进行训练,得到上述业务扩散模型,包括:若该初始扩散模型处于未收敛状态,则计算机设备可以根据该噪声预测误差,对该初始扩散模型的上采样网络的权重进行调整,得到调整后的初始扩散模型;进一步,通过上述调整后的初始扩散模型,根据上述第一类相关性特征和上述样本业务图像的标注业务标签,识别上述样本业务图像的加噪图像特征中噪声数据,将识别得到的噪声数据,确定为更新噪声数据。然后,根据上述更新噪声数据和上述随机步长t对应的随机噪声数据,对上述调整后的初始扩散模型的上采样网络进行训练;直到上述调整后的初始扩散模型的处于已收敛状态,将处于收敛状态的上述调整后的初始扩散模型,确定为上述业务扩散模型。
S205、获取与目标业务关联的目标业务图像和N个候选业务标签;N为大于1的正整数。
S206、向该目标业务图像中添加K个时间步长对应的随机噪声数据,得到该目标业务图像的K个加噪图像;K为大于1的正整数。
S207、将该N个候选业务标签和该目标业务图像的K个加噪图像,输入至业务扩散模型中,通过该业务扩散模型根据候选业务标签i,对该目标业务图像的K个加噪图像进行去噪处理,得到该候选业务标签i在该K个时间步长下分别对应的去噪图像;i为小于或等于N的正整数,N为大于1的正整数。
S208、对该候选业务标签i在该K个时间步长下分别对应的去噪图像进行融合,得到该候选业务标签i对应的融合去噪图像。
S209、根据该N个候选业务标签分别对应的融合去噪图像,从该N个候选业务标签中确定该目标业务图像的目标业务标签。
需要说明的是,针对步骤S205~209的解释说明,可以参考前文的实施例,重复之处,不再赘述。
本申请中,计算机设备可以获取预先已训练的通用扩散模型,该通用扩散模型是基于通用图像和通用图像标签训练得到的,该通用扩散模型具有识别通用图像的通用图像标签的能力。该通用图像标签与目标业务下的实际标签(即标注业务标签)存在一定的相似性,换而言之,通用扩散模型具有识别目标业务下的标注业务标签的粗略能力;因此,计算机设备只需要将目标业务下的少量标注业务标签嵌入至该通用扩散模型中,就能够得到用于识别目标业务下的业务标签的业务扩散模型,使业务扩散模型具有识别标注业务标签的精细化能力,即业务扩散模型具有化识别目标业务的标签的精细化能力,这样不仅提高业务扩散模型的标签识别准确度,还能够提高业务扩散模型的训练效率,降低成本,不需要完全依靠标注业务标签从零开始重新训练标签识别模型。
请参见图10,是本申请实施例提供的一种数据处理装置的结构示意图。如图10所示,该数据处理装置可以包括:
获取模块1011,用于获取与目标业务关联的目标业务图像和N个候选业务标签;N为大于1的正整数;
添加模块1012,用于向上述目标业务图像中添加K个时间步长对应的随机噪声数据,得到上述目标业务图像的K个加噪图像;K为大于1的正整数;
处理模块1013,用于将上述N个候选业务标签和上述目标业务图像的K个加噪图像,输入至业务扩散模型中,通过上述业务扩散模型根据候选业务标签i,对上述目标业务图像的K个加噪图像进行去噪处理,得到上述候选业务标签i在上述K个时间步长下分别对应的去噪图像;i为小于或等于N的正整数,N为大于1的正整数;
融合模块1014,用于对上述候选业务标签i在上述K个时间步长下分别对应的去噪图像进行融合,得到上述候选业务标签i对应的融合去噪图像;
确定模块1015,用于根据上述N个候选业务标签分别对应的融合去噪图像,从上述N个候选业务标签中确定上述目标业务图像的目标业务标签。
可选的,融合模块1014可以包括第一平均化处理单元101a和第一确定单元102a;
第一平均化处理单元101a,用于对上述候选业务标签i在上述K个时间步长下分别对应的去噪图像进行平均化处理,得到上述候选业务标签i对应的平均去噪图像;
第一确定单元102a,用于将上述候选业务标签i对应的平均去噪图像,确定为上述候选业务标签i对应的融合去噪图像。
可选的,确定模块1015包括第二确定单元103a、第二平均化处理单元104a以及第三确定单元105a;
第二确定单元103a,用于根据上述N个候选业务标签分别对应的融合去噪图像,确定上述N个候选业务标签分别对应的初始业务特征值;
第二平均化处理单元104a,用于对上述N个候选业务标签分别对应的业务特征值进行平均化处理,得到平均业务特征值;
第三确定单元105a,用于将上述N个候选业务标签中初始业务特征值大于上述平均业务特征值的候选业务标签,确定为上述目标业务图像的目标业务标签。
添加模块1012,用于向与上述目标业务关联的样本业务图像中添加随机步长t对应的随机噪声数据,得到上述样本业务图像的加噪图像,向通用图像中添加上述随机步长t对应的随机噪声数据,得到上述通用图像的加噪图像;t为正整数;
第一识别模块1016,用于通过通用扩散模型,根据上述通用图像的加噪图像,识别上述通用图像与上述通用图像的通用图像标签之间的第一类相关性特征;
第二识别模块1017,用于通过初始扩散模型,根据上述第一类相关性特征和上述样本业务图像的标注业务标签,识别上述样本业务图像的加噪图像中的预测噪声数据;上述初始扩散模型的结构与上述通用扩散模型的结构相同;
训练模块1018,用于根据上述预测噪声数据和上述随机步长t对应的随机噪声数据,对上述初始扩散模型进行训练,得到上述业务扩散模型。
可选的,上述通用扩散模型的上采样网络包括L个上采样块,上述通用扩散模型的下采样网络包括L个下采样块,L为大于1的正整数;
上述第一识别模块1016通过通用扩散模型,根据上述通用图像的加噪图像,识别上述通用图像与上述通用图像的通用图像标签之间的第一类相关性特征,包括:
针对第j+1上采样迭代,获取上述通用扩散模型的上采样块j所输出的上述通用图像的上采样图像Xj;上述通用图像的上采样图像Xj是根据上述通用图像的加噪图像得到的;j为小于L的正整数;
获取上述通用扩散模型的下采样块L-j所输出的上述通用图像在第L-j次下采样迭代的下采样图像;
通过上述通用扩散模型的上采样块j+1,根据上述通用图像标签、上述上采样图像Xj以及上述通用图像在上述第L-j次下采样迭代的下采样图像,识别上述通用图像在上述第j+1次上采样迭代下与上述通用图像标签之间的相关性特征;
将上述通用图像在L次上采样迭代下分别与上述通用图像标签之间的相关性特征,确定为上述通用图像与上述通用图像标签之间的第一类相关性特征。
可选的,第一识别模块1016通过上述通用扩散模型的上采样块j+1,根据上述通用图像标签、上述上采样图像Xj以及上述通用图像在上述第L-j次下采样迭代的下采样图像,识别上述通用图像在上述第j+1次上采样迭代下与上述通用图像标签之间的相关性特征,包括:
通过上述通用扩散模型的上采样块j+1,对上述上采样图像Xj与上述通用图像在上述第L-j次下采样迭代的下采样图像进行融合,得到通用融合图像;
获取上述通用扩散模型的上采样块j+1对应的文本权重和图像权重;
采用上述文本权重对上述通用图像标签对应的文本特征进行加权处理,得到加权文本向量;
采用上述图像权重对上述通用融合图像的图像特征进行加权处理,得到加权图像向量;
根据上述加权文本向量和上述加权图像向量,确定上述通用图像在上述第j+1次上采样迭代下与上述通用图像标签之间的相关性特征。
可选的,第一识别模块1016根据上述加权文本向量和上述加权图像向量,确定上述通用图像在上述第j+1次上采样迭代下与上述通用图像标签之间的相关性特征,包括:
对上述加权文本向量和加权图像向量进行乘积处理,得到上述通用图像在上述第j+1次上采样迭代下与上述通用图像标签之间的初始相关性特征;
对上述通用图像在上述第j+1次上采样迭代下与上述通用图像标签之间的初始相关性特征进行归一化处理,得到归一化后的相关性特征;
根据上述归一化后的相关性特征和上述上采样块j+1在上述通用扩散模型中的位置,确定上述通用图像在第j+1次上采样迭代下与上述通用图像标签之间的相关性特征。
可选的,上述第一类相关性特征包括上述通用图像在上述第j+1次上采样迭代下与上述通用图像标签之间的相关性特征,上述初始扩散模型的上采样网络包括L个上采样块,上述初始扩散模型的下采样网络包括L个下采样块,L为大于1的正整数,j为小于L的正整数;
第二识别模块1017通过初始扩散模型,根据上述第一类相关性特征和上述样本业务图像的标注业务标签,识别上述样本业务图像的加噪图像中的预测噪声数据,包括:
针对第j+1次上采样迭代,获取上述初始扩散模型的上采样块j所输出的上述样本业务图像的上采样图像Yj;上述样本业务图像的上采样图像Yj是根据上述样本业务图像的加噪图像得到的;
获取上述初始扩散模型的下采样块L-j所输出的上述业务图像在第L-j次下采样迭代的下采样图像;
通过上述初始扩散模型的上采样块j+1,根据上述标注业务标签、上述上采样图像Yj以及相关性特征j+1,以及上述样本业务图像在第L-j次下采样迭代的下采样图像,识别得到第二类相关性特征;上述相关性特征j+j反映上述通用图像在上述第j+1次上采样迭代下与上述通用图像标签之间的相关性特征,上述第二类相关性特征反映上述样本业务图像在上述第j+1次上采样迭代下与上述标注业务标签之间的相关性特征;
根据第L次上采样迭代所得到的第二类相关性特征,确定上述样本业务图像的加噪图像中的预测噪声数据。
可选的,第二识别模块1017通过上述初始扩散模型的上采样块j+1,根据上述标注业务标签、上述上采样图像Yj以及相关性特征j+1,以及上述样本业务图像在第L-j次下采样迭代的下采样图像,识别得到第二类相关性特征,包括:
通过上述初始扩散模型的上采样块j+1,对上述上采样图像Yj和上述样本业务图像在第L-j次下采样迭代的下采样图像进行融合,得到业务融合图像;
对上述相关性特征j+1和上述业务融合图像的图像特征进行融合,得到图像融合特征;
通过上述初始扩散模型的上采样块j+1,对上述标注业务标签和上述图像融合特征进行识别,得到第二类相关性特征。
可选的,训练模块1018初始扩散模型包括上采样网络,上述根据上述预测噪声数据和上述随机步长t对应的随机噪声数据,对上述初始扩散模型进行训练,得到上述业务扩散模型,包括:
根据上述预测噪声数据和上述随机步长t对应的随机噪声数据,计算上述初始扩散模型的噪声预测误差;
根据上述噪声预测误差,确定上述初始扩散模型的收敛状态;
若上述初始扩散模型处于未收敛状态,则根据上述噪声预测误差,对上述初始扩散模型的上采样网络进行训练,得到上述业务扩散模型。
可选的,训练模块1018若上述初始扩散模型处于未收敛状态,则若上述初始扩散模型处于未收敛状态,则根据上述噪声预测误差,对上述初始扩散模型的上采样网络进行训练,得到上述业务扩散模型,包括:
若上述初始扩散模型处于未收敛状态,则根据上述噪声预测误差,对上述初始扩散模型的上采样网络的权重进行调整,得到调整后的初始扩散模型;
通过上述调整后的初始扩散模型,根据上述第一类相关性特征和上述样本业务图像的标注业务标签,识别上述样本业务图像的加噪图像特征中更新噪声数据;
根据上述更新噪声数据和上述随机步长t对应的随机噪声数据,对上述调整后的初始扩散模型的上采样网络进行训练;
直到上述调整后的初始扩散模型的处于已收敛状态,将处于已收敛状态的上述调整后的初始扩散模型,确定为上述业务扩散模型。
本申请中,由于目标业务图像的目标业务标签与目标业务图像的空间(即图像区域)具有较强的一一对应关系,即一个目标业务标签与目标业务图像中的一个图像区域相对应。因此,计算机设备可以同时将多个候选业务标签(即N个候选业务标签)输入至业务扩散模型中,业务扩散模型根据各个候选业务标签在不同时间步长(即K个时间步长)下对应的去噪图像,确定对应候选业务标签对应的融合去噪图像,根据N个候选业务标签分别对应的融合去噪图像,从N个候选业务标签中确定目标业务图像的目标业务标签。可见,不需要一一输入多个候选业务标签,有利于快速地识别到目标业务图像的一个或多个目标业务标签,降低业务扩散模型识别标签的耗时,提高业务扩散模型的标签识别效率。
请参见图11,是本申请实施例提供的一种计算机设备的结构示意图。如图11所示,上述计算机设备1000可以为上述方法中的第一设备,具体可以是指终端或服务器,包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:用户接口1003,和至少一条通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,在一些实施例中,用户接口1003可以包括显示屏(DiSPlay)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非易失性的存储器(non-volatile MeMory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个在远离前述处理器1001的存储装置。如图11所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及计算机应用程序。
在图11所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于提供输入的接口;而处理器1001可以用于调用存储器1005中存储的计算机应用程序,以实现:
获取与目标业务关联的目标业务图像和N个候选业务标签;N为大于1的正整数;
向上述目标业务图像中添加K个时间步长对应的随机噪声数据,得到上述目标业务图像的K个加噪图像;K为大于1的正整数;
将上述N个候选业务标签和上述目标业务图像的K个加噪图像,输入至业务扩散模型中,通过上述业务扩散模型根据候选业务标签i,对上述目标业务图像的K个加噪图像进行去噪处理,得到上述候选业务标签i在上述K个时间步长下分别对应的去噪图像;i为小于或等于N的正整数,N为大于1的正整数;
对上述候选业务标签i在上述K个时间步长下分别对应的去噪图像进行融合,得到上述候选业务标签i对应的融合去噪图像;
根据上述N个候选业务标签分别对应的融合去噪图像,从上述N个候选业务标签中确定上述目标业务图像的目标业务标签。
可选的,处理器1001可以用于调用存储器1005中存储的计算机应用程序,以实现对上述候选业务标签i在上述K个时间步长下分别对应的去噪图像进行融合,得到上述候选业务标签i对应的融合去噪图像,包括:
对上述候选业务标签i在上述K个时间步长下分别对应的去噪图像进行平均化处理,得到上述候选业务标签i对应的平均去噪图像;
将上述候选业务标签i对应的平均去噪图像,确定为上述候选业务标签i对应的融合去噪图像。
可选的,处理器1001可以用于调用存储器1005中存储的计算机应用程序,以实现根据上述N个候选业务标签分别对应的融合去噪图像,从上述N个候选业务标签中确定上述目标业务图像的目标业务标签,包括:
根据上述N个候选业务标签分别对应的融合去噪图像,确定上述N个候选业务标签分别对应的初始业务特征值;
对上述N个候选业务标签分别对应的业务特征值进行平均化处理,得到平均业务特征值;
将上述N个候选业务标签中初始业务特征值大于上述平均业务特征值的候选业务标签,确定为上述目标业务图像的目标业务标签。
可选的,处理器1001可以用于调用存储器1005中存储的计算机应用程序,以实现:
向与上述目标业务关联的样本业务图像中添加随机步长t对应的随机噪声数据,得到上述样本业务图像的加噪图像,向通用图像中添加上述随机步长t对应的随机噪声数据,得到上述通用图像的加噪图像;t为正整数;
通过通用扩散模型,根据上述通用图像的加噪图像,识别上述通用图像与上述通用图像的通用图像标签之间的第一类相关性特征;
通过初始扩散模型,根据上述第一类相关性特征和上述样本业务图像的标注业务标签,识别上述样本业务图像的加噪图像中的预测噪声数据;上述初始扩散模型的结构与上述通用扩散模型的结构相同;
根据上述预测噪声数据和上述随机步长t对应的随机噪声数据,对上述初始扩散模型进行训练,得到上述业务扩散模型。
可选的,通用扩散模型的上采样网络包括L个上采样块,上述通用扩散模型的下采样网络包括L个下采样块,L为大于1的正整数;
可选的,处理器1001可以用于调用存储器1005中存储的计算机应用程序,以实现通过通用扩散模型,根据上述通用图像的加噪图像,识别上述通用图像与上述通用图像的通用图像标签之间的第一类相关性特征,包括:
针对第j+1上采样迭代,获取上述通用扩散模型的上采样块j所输出的上述通用图像的上采样图像Xj;上述通用图像的上采样图像Xj是根据上述通用图像的加噪图像得到的;j为小于L的正整数;
获取上述通用扩散模型的下采样块L-j所输出的上述通用图像在第L-j次下采样迭代的下采样图像;
通过上述通用扩散模型的上采样块j+1,根据上述通用图像标签、上述上采样图像Xj以及上述通用图像在上述第L-j次下采样迭代的下采样图像,识别上述通用图像在上述第j+1次上采样迭代下与上述通用图像标签之间的相关性特征;
将上述通用图像在L次上采样迭代下分别与上述通用图像标签之间的相关性特征,确定为上述通用图像与上述通用图像标签之间的第一类相关性特征。
可选的,处理器1001可以用于调用存储器1005中存储的计算机应用程序,以实现通过上述通用扩散模型的上采样块j+1,根据上述通用图像标签、上述上采样图像Xj以及上述通用图像在上述第L-j次下采样迭代的下采样图像,识别上述通用图像在上述第j+1次上采样迭代下与上述通用图像标签之间的相关性特征,包括:
通过上述通用扩散模型的上采样块j+1,对上述上采样图像Xj与上述通用图像在上述第L-j次下采样迭代的下采样图像进行融合,得到通用融合图像;
获取上述通用扩散模型的上采样块j+1对应的文本权重和图像权重;
采用上述文本权重对上述通用图像标签对应的文本特征进行加权处理,得到加权文本向量;
采用上述图像权重对上述通用融合图像的图像特征进行加权处理,得到加权图像向量;
根据上述加权文本向量和上述加权图像向量,确定上述通用图像在上述第j+1次上采样迭代下与上述通用图像标签之间的相关性特征。
可选的,处理器1001可以用于调用存储器1005中存储的计算机应用程序,以实现根据上述加权文本向量和上述加权图像向量,确定上述通用图像在上述第j+1次上采样迭代下与上述通用图像标签之间的相关性特征,包括:
对上述加权文本向量和加权图像向量进行乘积处理,得到上述通用图像在上述第j+1次上采样迭代下与上述通用图像标签之间的初始相关性特征;
对上述通用图像在上述第j+1次上采样迭代下与上述通用图像标签之间的初始相关性特征进行归一化处理,得到归一化后的相关性特征;
根据上述归一化后的相关性特征和上述上采样块j+1在上述通用扩散模型中的位置,确定上述通用图像在第j+1次上采样迭代下与上述通用图像标签之间的相关性特征。
可选的,上述第一类相关性特征包括上述通用图像在上述第j+1次上采样迭代下与上述通用图像标签之间的相关性特征,上述初始扩散模型的上采样网络包括L个上采样块,上述初始扩散模型的下采样网络包括L个下采样块,L为大于1的正整数,j为小于L的正整数;
可选的,处理器1001可以用于调用存储器1005中存储的计算机应用程序,以实现通过初始扩散模型,根据上述第一类相关性特征和上述样本业务图像的标注业务标签,识别上述样本业务图像的加噪图像中的预测噪声数据,包括:
针对第j+1次上采样迭代,获取上述初始扩散模型的上采样块j所输出的上述样本业务图像的上采样图像Yj;上述样本业务图像的上采样图像Yj是根据上述样本业务图像的加噪图像得到的;
获取上述初始扩散模型的下采样块L-j所输出的上述业务图像在第L-j次下采样迭代的下采样图像;
通过上述初始扩散模型的上采样块j+1,根据上述标注业务标签、上述上采样图像Yj以及相关性特征j+1,以及上述样本业务图像在第L-j次下采样迭代的下采样图像,识别得到第二类相关性特征;上述相关性特征j+j反映上述通用图像在上述第j+1次上采样迭代下与上述通用图像标签之间的相关性特征,上述第二类相关性特征反映上述样本业务图像在上述第j+1次上采样迭代下与上述标注业务标签之间的相关性特征;
根据第L次上采样迭代所得到的第二类相关性特征,确定上述样本业务图像的加噪图像中的预测噪声数据。
可选的,处理器1001可以用于调用存储器1005中存储的计算机应用程序,以实现通过上述初始扩散模型的上采样块j+1,根据上述标注业务标签、上述上采样图像Yj以及相关性特征j+1,以及上述样本业务图像在第L-j次下采样迭代的下采样图像,识别得到第二类相关性特征,包括:
通过上述初始扩散模型的上采样块j+1,对上述上采样图像Yj和上述样本业务图像在第L-j次下采样迭代的下采样图像进行融合,得到业务融合图像;
对上述相关性特征j+1和上述业务融合图像的图像特征进行融合,得到图像融合特征;
通过上述初始扩散模型的上采样块j+1,对上述标注业务标签和上述图像融合特征进行识别,得到第二类相关性特征。
可选的上述初始扩散模型包括上采样网络,处理器1001可以用于调用存储器1005中存储的计算机应用程序,以实现根据上述预测噪声数据和上述随机步长t对应的随机噪声数据,对上述初始扩散模型进行训练,得到上述业务扩散模型,包括:
根据上述预测噪声数据和上述随机步长t对应的随机噪声数据,计算上述初始扩散模型的噪声预测误差;
根据上述噪声预测误差,确定上述初始扩散模型的收敛状态;
若上述初始扩散模型处于未收敛状态,则根据上述噪声预测误差,对上述初始扩散模型的上采样网络进行训练,得到上述业务扩散模型。
可选的,处理器1001可以用于调用存储器1005中存储的计算机应用程序,以实现若上述初始扩散模型处于未收敛状态,则若上述初始扩散模型处于未收敛状态,则根据上述噪声预测误差,对上述初始扩散模型的上采样网络进行训练,得到上述业务扩散模型,包括:
若上述初始扩散模型处于未收敛状态,则根据上述噪声预测误差,对上述初始扩散模型的上采样网络的权重进行调整,得到调整后的初始扩散模型;
通过上述调整后的初始扩散模型,根据上述第一类相关性特征和上述样本业务图像的标注业务标签,识别上述样本业务图像的加噪图像特征中更新噪声数据;
根据上述更新噪声数据和上述随机步长t对应的随机噪声数据,对上述调整后的初始扩散模型的上采样网络进行训练;
直到上述调整后的初始扩散模型的处于已收敛状态,将处于已收敛状态的上述调整后的初始扩散模型,确定为上述业务扩散模型。
本申请中,由于目标业务图像的目标业务标签与目标业务图像的空间(即图像区域)具有较强的一一对应关系,即一个目标业务标签与目标业务图像中的一个图像区域相对应。因此,计算机设备可以同时将多个候选业务标签(即N个候选业务标签)输入至业务扩散模型中,业务扩散模型根据各个候选业务标签在不同时间步长(即K个时间步长)下对应的去噪图像,确定对应候选业务标签对应的融合去噪图像,根据N个候选业务标签分别对应的融合去噪图像,从N个候选业务标签中确定目标业务图像的目标业务标签。可见,不需要一一输入多个候选业务标签,有利于快速地识别到目标业务图像的一个或多个目标业务标签,降低业务扩散模型识别标签的耗时,提高业务扩散模型的标签识别效率。
应当理解,本申请实施例中所描述的计算机设备可执行前文所对应实施例中对上述数据处理方法的描述,也可执行前文所对应实施例中对上述数据处理装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且上述计算机可读存储介质中存储有前文提及的数据处理装置所执行的计算机程序,且上述计算机程序包括程序指令,当上述处理器执行上述程序指令时,能够执行前文对应实施例中对上述数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
作为示例,上述程序指令可被部署在一个计算机设备上执行,或者被部署在一个地点的至少两个计算机设备上执行,又或者,在分布在至少两个地点且通过通信网络互连的至少两个计算机设备上执行,分布在至少两个地点且通过通信网络互连的至少两个计算机设备可以组成区块链网络。
上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的中部存储单元,例如计算机设备的硬盘或中存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(SMart Media card,SMC),安全数字(Secure digital,SD)卡,闪存卡(flaSh card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的中部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同媒体中容,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本申请书中相关数据收集处理在实例应用时应该严格根据相关国家法律法规的要求,获取个人信息主体的知情同意或单独同意,并在法律法规及个人信息主体的授权范围内,开展后续数据使用及处理行为。
本申请实施例还提供了一种计算机程序产品,包括计算机程序/指令,上述计算机程序/指令被处理器执行时实现前文对应实施例中对上述数据处理方法、解码方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品的实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程网络连接设备的处理器以产生一个机器,使得通过计算机或其他可编程网络连接设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程网络连接设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程网络连接设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (14)
1.一种数据处理方法,其特征在于,包括:
向与目标业务关联的样本业务图像中添加随机步长t对应的随机噪声数据,得到所述样本业务图像的加噪图像,向通用图像中添加所述随机步长t对应的随机噪声数据,得到所述通用图像的加噪图像;t为正整数;
通过通用扩散模型,根据所述通用图像的加噪图像,识别所述通用图像与所述通用图像的通用图像标签之间的第一类相关性特征;
根据所述第一类相关性特征、所述样本业务图像的加噪图像、所述样本业务图像的标注业务标签以及所述随机步长t对应的随机噪声数据,对初始扩散模型进行训练,得到业务扩散模型;所述初始扩散模型的结构与所述通用扩散模型的结构相同;
获取与所述目标业务关联的目标业务图像和N个候选业务标签;N为大于1的正整数;
向所述目标业务图像中添加K个时间步长对应的随机噪声数据,得到所述目标业务图像的K个加噪图像;K为大于1的正整数;
将所述N个候选业务标签和所述目标业务图像的K个加噪图像,输入至所述业务扩散模型中,通过所述业务扩散模型根据候选业务标签i,对所述目标业务图像的K个加噪图像进行去噪处理,得到所述候选业务标签i在所述K个时间步长下分别对应的去噪图像;i为小于或等于N的正整数,N为大于1的正整数;
对所述候选业务标签i在所述K个时间步长下分别对应的去噪图像进行融合,得到所述候选业务标签i对应的融合去噪图像;
根据所述N个候选业务标签分别对应的融合去噪图像,从所述N个候选业务标签中确定所述目标业务图像的目标业务标签。
2.如权利要求1所述的方法,其特征在于,所述对所述候选业务标签i在所述K个时间步长下分别对应的去噪图像进行融合,得到所述候选业务标签i对应的融合去噪图像,包括:
对所述候选业务标签i在所述K个时间步长下分别对应的去噪图像进行平均化处理,得到所述候选业务标签i对应的平均去噪图像;
将所述候选业务标签i对应的平均去噪图像,确定为所述候选业务标签i对应的融合去噪图像。
3.如权利要求1所述的方法,其特征在于,所述根据所述N个候选业务标签分别对应的融合去噪图像,从所述N个候选业务标签中确定所述目标业务图像的目标业务标签,包括:
根据所述N个候选业务标签分别对应的融合去噪图像,确定所述N个候选业务标签分别对应的初始业务特征值;
对所述N个候选业务标签分别对应的业务特征值进行平均化处理,得到平均业务特征值;
将所述N个候选业务标签中初始业务特征值大于所述平均业务特征值的候选业务标签,确定为所述目标业务图像的目标业务标签。
4.如权利要求1所述的方法,其特征在于,所述根据所述第一类相关性特征、所述样本业务图像的加噪图像、所述样本业务图像的标注业务标签以及所述随机步长t对应的随机噪声数据,对初始扩散模型进行训练,得到业务扩散模型包括:
通过初始扩散模型,根据所述第一类相关性特征和所述样本业务图像的标注业务标签,识别所述样本业务图像的加噪图像中的预测噪声数据;所述初始扩散模型的结构与所述通用扩散模型的结构相同;
根据所述预测噪声数据和所述随机步长t对应的随机噪声数据,对所述初始扩散模型进行训练,得到所述业务扩散模型。
5.如权利要求4所述的方法,其特征在于,所述通用扩散模型的上采样网络包括L个上采样块,所述通用扩散模型的下采样网络包括L个下采样块,L为大于1的正整数;
所述通过通用扩散模型,根据所述通用图像的加噪图像,识别所述通用图像与所述通用图像的通用图像标签之间的第一类相关性特征,包括:
针对第j+1上采样迭代,获取所述通用扩散模型的上采样块j所输出的所述通用图像的上采样图像Xj;所述通用图像的上采样图像Xj是根据所述通用图像的加噪图像得到的;j为小于L的正整数;
获取所述通用扩散模型的下采样块L-j所输出的所述通用图像在第L-j次下采样迭代的下采样图像;
通过所述通用扩散模型的上采样块j+1,根据所述通用图像标签、所述上采样图像Xj以及所述通用图像在所述第L-j次下采样迭代的下采样图像,识别所述通用图像在所述第j+1次上采样迭代下与所述通用图像标签之间的相关性特征;
将所述通用图像在L次上采样迭代下分别与所述通用图像标签之间的相关性特征,确定为所述通用图像与所述通用图像标签之间的第一类相关性特征。
6.如权利要求5所述的方法,其特征在于,所述通过所述通用扩散模型的上采样块j+1,根据所述通用图像标签、所述上采样图像Xj以及所述通用图像在所述第L-j次下采样迭代的下采样图像,识别所述通用图像在所述第j+1次上采样迭代下与所述通用图像标签之间的相关性特征,包括:
通过所述通用扩散模型的上采样块j+1,对所述上采样图像Xj与所述通用图像在所述第L-j次下采样迭代的下采样图像进行融合,得到通用融合图像;
获取所述通用扩散模型的上采样块j+1对应的文本权重和图像权重;
采用所述文本权重对所述通用图像标签对应的文本特征进行加权处理,得到加权文本向量;
采用所述图像权重对所述通用融合图像的图像特征进行加权处理,得到加权图像向量;
根据所述加权文本向量和所述加权图像向量,确定所述通用图像在所述第j+1次上采样迭代下与所述通用图像标签之间的相关性特征。
7.如权利要求6所述的方法,其特征在于,所述根据所述加权文本向量和所述加权图像向量,确定所述通用图像在所述第j+1次上采样迭代下与所述通用图像标签之间的相关性特征,包括:
对所述加权文本向量和加权图像向量进行乘积处理,得到所述通用图像在所述第j+1次上采样迭代下与所述通用图像标签之间的初始相关性特征;
对所述通用图像在所述第j+1次上采样迭代下与所述通用图像标签之间的初始相关性特征进行归一化处理,得到归一化后的相关性特征;
根据所述归一化后的相关性特征和所述上采样块j+1在所述通用扩散模型中的位置,确定所述通用图像在第j+1次上采样迭代下与所述通用图像标签之间的相关性特征。
8.如权利要求4所述的方法,其特征在于,所述第一类相关性特征包括所述通用图像在第j+1次上采样迭代下与所述通用图像标签之间的相关性特征,所述初始扩散模型的上采样网络包括L个上采样块,所述初始扩散模型的下采样网络包括L个下采样块,L为大于1的正整数,j为小于L的正整数;
所述通过初始扩散模型,根据所述第一类相关性特征和所述样本业务图像的标注业务标签,识别所述样本业务图像的加噪图像中的预测噪声数据,包括:
针对第j+1次上采样迭代,获取所述初始扩散模型的上采样块j所输出的所述样本业务图像的上采样图像Yj;所述样本业务图像的上采样图像Yj是根据所述样本业务图像的加噪图像得到的;
获取所述初始扩散模型的下采样块L-j所输出的所述业务图像在第L-j次下采样迭代的下采样图像;
通过所述初始扩散模型的上采样块j+1,根据所述标注业务标签、所述上采样图像Yj以及相关性特征j+1,以及所述样本业务图像在第L-j次下采样迭代的下采样图像,识别得到第二类相关性特征;所述相关性特征j+j反映所述通用图像在所述第j+1次上采样迭代下与所述通用图像标签之间的相关性特征,所述第二类相关性特征反映所述样本业务图像在所述第j+1次上采样迭代下与所述标注业务标签之间的相关性特征;
根据第L次上采样迭代所得到的第二类相关性特征,确定所述样本业务图像的加噪图像中的预测噪声数据。
9.如权利要求8所述的方法,其特征在于,所述通过所述初始扩散模型的上采样块j+1,根据所述标注业务标签、所述上采样图像Yj以及相关性特征j+1,以及所述样本业务图像在第L-j次下采样迭代的下采样图像,识别得到第二类相关性特征,包括:
通过所述初始扩散模型的上采样块j+1,对所述上采样图像Yj和所述样本业务图像在第L-j次下采样迭代的下采样图像进行融合,得到业务融合图像;
对所述相关性特征j+1和所述业务融合图像的图像特征进行融合,得到图像融合特征;
通过所述初始扩散模型的上采样块j+1,对所述标注业务标签和所述图像融合特征进行识别,得到第二类相关性特征。
10.如权利要求4所述的方法,其特征在于,所述初始扩散模型包括上采样网络,所述根据所述预测噪声数据和所述随机步长t对应的随机噪声数据,对所述初始扩散模型进行训练,得到所述业务扩散模型,包括:
根据所述预测噪声数据和所述随机步长t对应的随机噪声数据,计算所述初始扩散模型的噪声预测误差;
根据所述噪声预测误差,确定所述初始扩散模型的收敛状态;
若所述初始扩散模型处于未收敛状态,则根据所述噪声预测误差,对所述初始扩散模型的上采样网络进行训练,得到所述业务扩散模型。
11.如权利要求10所述的方法,其特征在于,所述若所述初始扩散模型处于未收敛状态,则根据所述噪声预测误差,对所述初始扩散模型的上采样网络进行训练,得到所述业务扩散模型,包括:
若所述初始扩散模型处于未收敛状态,则根据所述噪声预测误差,对所述初始扩散模型的上采样网络的权重进行调整,得到调整后的初始扩散模型;
通过所述调整后的初始扩散模型,根据所述第一类相关性特征和所述样本业务图像的标注业务标签,识别所述样本业务图像的加噪图像特征中更新噪声数据;
根据所述更新噪声数据和所述随机步长t对应的随机噪声数据,对所述调整后的初始扩散模型的上采样网络进行训练;
直到所述调整后的初始扩散模型的处于已收敛状态,将处于已收敛状态的所述调整后的初始扩散模型,确定为所述业务扩散模型。
12.一种数据处理装置,其特征在于,包括:
添加模块,用于向与目标业务关联的样本业务图像中添加随机步长t对应的随机噪声数据,得到所述样本业务图像的加噪图像,向通用图像中添加所述随机步长t对应的随机噪声数据,得到所述通用图像的加噪图像;t为正整数;
第一识别模块,用于通过通用扩散模型,根据所述通用图像的加噪图像,识别所述通用图像与所述通用图像的通用图像标签之间的第一类相关性特征;
第二识别模块和训练模块,用于根据所述第一类相关性特征、所述样本业务图像的加噪图像、所述样本业务图像的标注业务标签以及所述随机步长t对应的随机噪声数据,对初始扩散模型进行训练,得到业务扩散模型;所述初始扩散模型的结构与所述通用扩散模型的结构相同;
获取模块,用于获取与所述目标业务关联的目标业务图像和N个候选业务标签;N为大于1的正整数;
添加模块,用于向所述目标业务图像中添加K个时间步长对应的随机噪声数据,得到所述目标业务图像的K个加噪图像;K为大于1的正整数;
处理模块,用于将所述N个候选业务标签和所述目标业务图像的K个加噪图像,输入至所述业务扩散模型中,通过所述业务扩散模型根据候选业务标签i,对所述目标业务图像的K个加噪图像进行去噪处理,得到所述候选业务标签i在所述K个时间步长下分别对应的去噪图像;i为小于或等于N的正整数,N为大于1的正整数;
融合模块,用于对所述候选业务标签i在所述K个时间步长下分别对应的去噪图像进行融合,得到所述候选业务标签i对应的融合去噪图像;
确定模块,用于根据所述N个候选业务标签分别对应的融合去噪图像,从所述N个候选业务标签中确定所述目标业务图像的目标业务标签。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310976976.1A CN116704269B (zh) | 2023-08-04 | 2023-08-04 | 数据处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310976976.1A CN116704269B (zh) | 2023-08-04 | 2023-08-04 | 数据处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116704269A CN116704269A (zh) | 2023-09-05 |
CN116704269B true CN116704269B (zh) | 2023-11-24 |
Family
ID=87829723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310976976.1A Active CN116704269B (zh) | 2023-08-04 | 2023-08-04 | 数据处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116704269B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116980541B (zh) * | 2023-09-22 | 2023-12-08 | 腾讯科技(深圳)有限公司 | 视频编辑方法、装置、电子设备以及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298606A (zh) * | 2011-06-01 | 2011-12-28 | 清华大学 | 基于标签图模型随机游走的图像自动标注方法及装置 |
CN110163230A (zh) * | 2018-06-15 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种图像标注方法和装置 |
CN112132106A (zh) * | 2020-10-09 | 2020-12-25 | 腾讯科技(北京)有限公司 | 基于人工智能的图像增广处理方法、装置、设备及存储介质 |
CN113139628A (zh) * | 2021-06-22 | 2021-07-20 | 腾讯科技(深圳)有限公司 | 样本图像的识别方法、装置、设备及可读存储介质 |
CN114332467A (zh) * | 2021-08-26 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、计算机及可读存储介质 |
CN115019050A (zh) * | 2021-03-05 | 2022-09-06 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
CN115222630A (zh) * | 2022-08-09 | 2022-10-21 | 中国科学院自动化研究所 | 图像生成方法、图像去噪模型的训练方法和设备 |
CN116152603A (zh) * | 2023-02-21 | 2023-05-23 | 汇客云(上海)数据服务有限公司 | 属性识别模型训练方法、系统、介质及装置 |
CN116258874A (zh) * | 2023-02-21 | 2023-06-13 | 西安电子科技大学 | 基于深度条件扩散网络的sar识别数据库样本姿态扩充方法 |
CN116311473A (zh) * | 2023-04-06 | 2023-06-23 | 平安科技(深圳)有限公司 | 基于扩散模型的表情迁移方法、装置、设备及介质 |
CN116310356A (zh) * | 2023-03-23 | 2023-06-23 | 昆仑芯(北京)科技有限公司 | 深度学习模型的训练方法、目标检测方法、装置及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021230708A1 (en) * | 2020-05-15 | 2021-11-18 | Samsung Electronics Co., Ltd. | Image processing method, electronic device and readable storage medium |
-
2023
- 2023-08-04 CN CN202310976976.1A patent/CN116704269B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298606A (zh) * | 2011-06-01 | 2011-12-28 | 清华大学 | 基于标签图模型随机游走的图像自动标注方法及装置 |
CN110163230A (zh) * | 2018-06-15 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种图像标注方法和装置 |
CN112132106A (zh) * | 2020-10-09 | 2020-12-25 | 腾讯科技(北京)有限公司 | 基于人工智能的图像增广处理方法、装置、设备及存储介质 |
CN115019050A (zh) * | 2021-03-05 | 2022-09-06 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
CN113139628A (zh) * | 2021-06-22 | 2021-07-20 | 腾讯科技(深圳)有限公司 | 样本图像的识别方法、装置、设备及可读存储介质 |
CN114332467A (zh) * | 2021-08-26 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、计算机及可读存储介质 |
CN115222630A (zh) * | 2022-08-09 | 2022-10-21 | 中国科学院自动化研究所 | 图像生成方法、图像去噪模型的训练方法和设备 |
CN116152603A (zh) * | 2023-02-21 | 2023-05-23 | 汇客云(上海)数据服务有限公司 | 属性识别模型训练方法、系统、介质及装置 |
CN116258874A (zh) * | 2023-02-21 | 2023-06-13 | 西安电子科技大学 | 基于深度条件扩散网络的sar识别数据库样本姿态扩充方法 |
CN116310356A (zh) * | 2023-03-23 | 2023-06-23 | 昆仑芯(北京)科技有限公司 | 深度学习模型的训练方法、目标检测方法、装置及设备 |
CN116311473A (zh) * | 2023-04-06 | 2023-06-23 | 平安科技(深圳)有限公司 | 基于扩散模型的表情迁移方法、装置、设备及介质 |
Non-Patent Citations (2)
Title |
---|
Junfeng Wu et al.ESGAN for generating high quality enhanced samples.《Springer》.2022,第1809–1822页. * |
基于多模态信息融合的新闻图像人脸标注;征察 等;《计算机应用》;第37卷(第10期);第3006-3038页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116704269A (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113780296B (zh) | 基于多尺度信息融合的遥感图像语义分割方法及系统 | |
CN111107048A (zh) | 一种钓鱼网站检测方法、装置和存储介质 | |
CN111783749A (zh) | 一种人脸检测方法、装置、电子设备及存储介质 | |
CN117576264B (zh) | 图像生成方法、装置、设备及介质 | |
CN116704269B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN117173504A (zh) | 一种文生图模型的训练方法、装置、设备及存储介质 | |
CN113837257A (zh) | 一种目标检测方法及装置 | |
CN114581710A (zh) | 图像识别方法、装置、设备、可读存储介质及程序产品 | |
Wei et al. | A robust image watermarking approach using cycle variational autoencoder | |
CN115577768A (zh) | 半监督模型训练方法和装置 | |
CN115757725A (zh) | 问答处理方法、装置、计算机设备及存储介质 | |
CN117011616A (zh) | 一种图像内容审核方法、装置、存储介质和电子设备 | |
CN115905605A (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
CN116980541B (zh) | 视频编辑方法、装置、电子设备以及存储介质 | |
CN117422783A (zh) | 图像样本生成模型的训练方法、图像样本生成方法及装置 | |
CN116774973A (zh) | 数据渲染方法、装置、计算机设备及存储介质 | |
CN116434218A (zh) | 适用于移动端的支票识别方法、装置、设备和介质 | |
Wang | Remote sensing image semantic segmentation network based on ENet | |
CN118096924B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN118071867B (zh) | 将文本数据转换为图像数据的方法和装置 | |
CN117314756B (zh) | 基于遥感图像的验保方法、装置、计算机设备及存储介质 | |
CN118015525B (zh) | 图像中道路积水的识别方法、装置、终端和存储介质 | |
CN117315685A (zh) | 分类模型训练方法、分类方法、装置及电子设备 | |
CN116978030A (zh) | 文本信息识别方法和文本信息识别模型的训练方法 | |
CN117034182A (zh) | 媒体数据识别方法、设备、存储介质及计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40093780 Country of ref document: HK |