CN118038214B - 数据处理方法、装置、电子设备、存储介质及程序产品 - Google Patents
数据处理方法、装置、电子设备、存储介质及程序产品 Download PDFInfo
- Publication number
- CN118038214B CN118038214B CN202410423280.0A CN202410423280A CN118038214B CN 118038214 B CN118038214 B CN 118038214B CN 202410423280 A CN202410423280 A CN 202410423280A CN 118038214 B CN118038214 B CN 118038214B
- Authority
- CN
- China
- Prior art keywords
- image
- text
- result
- denoising
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 28
- 238000011156 evaluation Methods 0.000 claims abstract description 291
- 238000012545 processing Methods 0.000 claims abstract description 155
- 238000000034 method Methods 0.000 claims abstract description 95
- 238000005070 sampling Methods 0.000 claims abstract description 87
- 230000008569 process Effects 0.000 claims abstract description 65
- 230000035945 sensitivity Effects 0.000 claims description 126
- 230000000875 corresponding effect Effects 0.000 claims description 94
- 230000015654 memory Effects 0.000 claims description 26
- 230000002596 correlated effect Effects 0.000 claims description 24
- 238000013507 mapping Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000009792 diffusion process Methods 0.000 description 30
- 238000005516 engineering process Methods 0.000 description 25
- 238000012549 training Methods 0.000 description 13
- 238000013473 artificial intelligence Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000012854 evaluation process Methods 0.000 description 10
- 241000283973 Oryctolagus cuniculus Species 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 238000012552 review Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 230000009182 swimming Effects 0.000 description 5
- 241000112598 Pseudoblennius percoides Species 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000014616 translation Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 241000695274 Processa Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000004549 pulsed laser deposition Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Abstract
本申请提供了一种数据处理方法、装置、电子设备、存储介质及程序产品;方法包括:获取图像描述文本,对图像描述文本进行文本合规性评估处理,得到文本评估结果。获取与图像描述文本匹配的目标图像,其中,目标图像是基于图像描述文本对原始图像进行去噪处理得到的,对去噪处理的过程中生成的去噪中间结果进行图像采样处理,得到中间图像。对目标图像以及中间图像进行图像合规性评估处理,得到图像评估结果。基于文本评估结果以及图像评估结果中至少之一,确定目标图像的合规性评估结果。通过本申请,能够在节约计算资源的同时,提高对基于文本生成的图像的评估准确率。
Description
技术领域
本申请涉及人工智能技术,尤其涉及一种数据处理方法、装置、电子设备、存储介质及程序产品。
背景技术
人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
随着图像生成技术的发展,可以通过人工智能模型来生成图像,这里生成图像实际上属于机器图像,对于机器图像的合规性检测通常是基于图像分类模型实现的,但是相关技术中的图像分类模型是基于真实图像训练得到的,无法对机器图像进行准确判断,因此导致合规性检测的准确度较低。
发明内容
本申请实施例提供一种数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够在节约计算资源的同时,提高对基于文本生成的图像的评估准确率。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种数据处理方法,所述方法包括:
获取图像描述文本;
对所述图像描述文本进行文本合规性评估处理,得到文本评估结果;
获取与所述图像描述文本匹配的目标图像,其中,所述目标图像是基于所述图像描述文本对原始图像进行去噪处理得到的;
对所述去噪处理的过程中生成的去噪中间结果进行图像采样处理,得到中间图像;
对所述目标图像以及所述中间图像进行图像合规性评估处理,得到图像评估结果;
基于所述文本评估结果以及所述图像评估结果中至少之一,确定所述目标图像的合规性评估结果。
本申请实施例提供一种数据处理装置,包括:
文本获取模块,用于获取图像描述文本;
文本评估模块,用于对所述图像描述文本进行文本合规性评估处理,得到文本评估结果;
第一图像获取模块,用于获取与所述图像描述文本匹配的目标图像,其中,所述目标图像是基于所述图像描述文本对原始图像进行去噪处理得到的;
图像采样模块,用于对所述去噪处理的过程中生成的去噪中间结果进行图像采样处理,得到中间图像;
第一图像评估模块,用于对所述目标图像以及所述中间图像进行图像合规性评估处理,得到图像评估结果;
第一结果确定模块,用于基于所述文本评估结果以及所述图像评估结果中至少之一,确定所述目标图像的合规性评估结果。
在上述方案中,所述文本获取模块,还用于接收对象输入的图像描述文本;或者接收对象输入的原始文本,通过语言模型对所述原始文本进行文本转换处理,得到与所述原始文本匹配的图像描述文本。
在上述方案中,所述文本评估模块,还用于当所述图像描述文本包括禁用关键词时,将文本违规作为所述文本评估结果;当所述图像描述文本不包括所述禁用关键词时,执行以下处理:对所述图像描述文本进行文本分类处理,得到文本分类结果,基于其他关键词生成对应所述图像描述文本的敏感程度数据,基于所述文本分类结果以及所述敏感程度数据,确定所述文本评估结果,其中,所述其他关键词是除所述禁用关键词之外的关键词。
在上述方案中,所述文本评估模块,还用于针对每个分类维度,对所述图像描述文本进行基于所述分类维度的分类处理,得到第一概率,其中所述第一概率表征所述图像描述文本符合所述分类维度对应的标签的概率;当所述分类维度的数目为多个时,将多个所述分类维度分别对应的第一概率进行合并处理,得到所述文本分类结果;当所述分类维度的数目为一个时,将所述分类维度对应的第一概率作为所述文本分类结果。
在上述方案中,所述文本评估模块,还用于针对每个敏感类别执行以下处理:确定所述图像描述文本中属于所述敏感类别的多个敏感程度各自的其他关键词的数目,并将对应所述多个敏感程度各自的数目组成对应所述敏感类别的敏感程度数据;将多个所述敏感类别的敏感程度数据进行组合处理,得到对应所述图像描述文本的敏感程度数据。
在上述方案中,所述文本评估模块,还用于对所述文本分类结果以及所述敏感程度数据进行概率映射处理,得到文本违规评分,所述文本违规评分与所述图像描述文本违规的概率正相关;当所述文本违规评分大于文本违规分数阈值时,将文本违规确定为所述文本评估结果;当所述文本违规评分不大于所述文本违规分数阈值时,将文本合规确定为所述文本评估结果。
在上述方案中,所述第一图像获取模块,还用于通过所述第一编码网络对所述原始图像进行潜在空间编码处理,得到所述原始图像的原始潜在空间编码;通过N个级联的去噪网络中第n去噪网络,对所述第n去噪网络的输入进行第n次去噪处理,并将所述第n去噪网络输出的第n潜在空间编码传输到第n+1去噪网络以继续进行第n+1次去噪处理,得到对应所述第n+1去噪网络的第n+1潜在空间编码;通过所述第一解码网络对第N潜在空间编码进行第一解码处理,得到与所述图像描述文本匹配的目标图像;其中,n为取值从1开始递增的整数变量,n的取值范围为1≤n<N,当n取值为1时,所述第n去噪网络的输入为所述图像描述文本的文本编码以及所述原始潜在空间编码,当n取值为2≤n<N时,所述第n去噪网络的输入为第n-1去噪网络输出的第n-1潜在空间编码以及所述图像描述文本的文本编码,所述去噪中间结果包括所述第n去噪网络输出的第n潜在空间编码。
在上述方案中,所述图像采样模块,还用于获取与所述文本违规评分正相关的采样数目;获取采样区间,其中,所述采样区间的起点是第p去噪网络输出的第p潜在空间编码,所述采样区间的终点是第q去噪网络输出的第q潜在空间编码,p的取值为1≤p<N,q的取值为1<q≤N,q的取值大于p的取值;基于所述采样数目对所述采样区间进行均等采样,得到至少一个采样潜在空间编码;对所述至少一个采样潜在空间编码分别进行解码处理,得到所述中间图像。
在上述方案中,所述第一图像评估模块,还用于对所述目标图像以及所述中间图像进行图像评估处理,得到所述目标图像对应的图像评估评分以及所述中间图像对应的图像评估评分;基于所述目标图像对应的图像评估评分以及所述中间图像对应的图像评估评分,确定图像违规评分,所述图像违规评分与图像违规的概率正相关;当所述图像违规评分大于图像违规分数阈值时,将图像违规确定为所述图像评估结果;当所述图像违规评分不大于所述图像违规分数阈值时,将图像合规确定为所述图像评估结果。
在上述方案中,所述第一图像评估模块,还用于当所述中间图像的数目是多个时,基于每个所述中间图像的权重,对多个所述中间图像对应的图像评估评分进行加权处理,得到加权中间图像评估评分,其中,所述中间图像的权重与对应的去噪程度正相关;对所述加权中间图像评估评分以及所述目标图像对应的图像评估评分进行求和处理,得到第一求和结果;对多个所述中间图像的权重以及所述目标图像的设置权重进行求和处理,得到第二求和结果;获取与所述第一求和结果正相关且与所述第二求和结果负相关的图像违规评分。
在上述方案中,所述第一结果确定模块,还用于当所述文本评估结果是文本合规时,基于所述图像描述文本对原始图像进行去噪处理,得到与所述图像描述文本匹配的目标图像;当所述文本评估结果是文本违规时,将所述图像评估结果作为所述目标图像的合规性评估结果;或者当所述文本评估结果表征所述图像描述文本存在文本违规时,将所述文本评估结果作为所述目标图像的合规性评估结果。
在上述方案中,所述第一结果确定模块,还用于获取所述文本评估结果对应的文本违规评分以及所述图像评估结果对应的图像违规评分;确定所述文本违规评分与所述图像违规评分的均值,作为目标违规评分;当所述目标违规评分大于目标违规分数阈值时,将目标图像违规确定为所述目标图像的合规性评估结果;当所述目标违规评分不大于所述目标分数阈值时,将目标图像合规确定为所述目标图像的合规性评估结果。
本申请实施例提供一种数据处理方法,所述方法包括:
获取目标图像,并对所述去噪处理的过程中生成的去噪中间结果进行图像采样处理,得到中间图像,其中,所述目标图像是基于对原始图像进行去噪处理得到的;
对所述目标图像以及所述中间图像进行图像合规性评估处理,得到图像评估结果;
基于所述图像评估结果,确定所述目标图像的合规性评估结果。
本申请实施例提供一种数据处理装置,所述装置包括:
第二图像获取模块,用于获取目标图像,并对所述去噪处理的过程中生成的去噪中间结果进行图像采样处理,得到中间图像,其中,所述目标图像是基于对原始图像进行去噪处理得到的;
第二图像评估模块,用于对所述目标图像以及所述中间图像进行图像合规性评估处理,得到图像评估结果;
第二结果确定模块,用于基于所述图像评估结果,确定所述目标图像的合规性评估结果。
本申请实施例提供一种电子设备,所述电子设备包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现本申请实施例提供的数据处理方法。
本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,用于被处理器执行时实现本申请实施例提供的数据处理方法。
本申请实施例提供一种计算机程序产品,包括计算机可执行指令,所述计算机可执行指令被处理器执行时,实现本申请实施例提供的数据处理方法。
本申请实施例具有以下有益效果:
首先,通过对图像描述文本进行文本合规性评估处理,得到文本评估结果,并且对目标图像进行图像合规性评估处理,得到图像评估结果,最后结合图像评估结果和文本评估结果两个维度的评估结果,确定目标图像的合规性评估结果,提高了确定出的目标图像合规性评估结果的准确性,同时,在确定图像评估结果的过程中,通过对去噪处理的过程中生成的去噪中间结果进行图像采样,得到中间图像,然后基于中间图像以及目标图像进行图像合规性评估处理,这里利用中间图像也进行图像评估处理,可以有效提高图像评估结果的准确性,同时,由于中间图像是通过采样得到的,因此还可以节约计算资源。
附图说明
图1是本申请实施例提供的数据处理系统100的架构示意图;
图2是本申请实施例提供的电子设备500的结构示意图;
图3A是本申请实施例提供的数据处理方法的第一流程示意图;
图3B是本申请实施例提供的数据处理方法的第二流程示意图;
图3C是本申请实施例提供的数据处理方法的第三流程示意图;
图4是本申请实施例提供的图像生成模型的结构图;
图5是本申请实施例提供的目标图像的示意图;
图6是本申请实施例提供的实际应用过程的流程示意图;
图7是本申请实施例提供的扩散过程的示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
本申请实施例中,术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分,并与其他相关部分一起工作以实现预定目标,并且可以通过使用软件、硬件(如处理电路或存储器)或其组合来全部或部分实现。同样的,一个处理器(或多个处理器或存储器)可以用来实现一个或多个模块或单元。此外,每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。
除非另有定义,本申请实施例所使用的所有的技术和科学术语与所属技术领域的技术人员通常理解的含义相同。本申请实施例中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
本申请实施例中相关数据收集处理在实例应用时应该严格根据相关国家法律法规的要求,获取个人信息主体的知情同意或单独同意,并在法律法规及个人信息主体的授权范围内,开展后续数据使用及处理。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)大语言模型(Large Language Model,LLM):一种深度学习语言模型,由具有十亿起的参数数量的人工神经网络组成。大语言模型可用于文本生成,例如摘要、对话、翻译等。
2)扩散模型(diffusion model):也称概率扩散模型,是一类通过学习扩散过程(diffusion process,一种连续时间的马尔可夫过程)来生成给定数据集概率分布的生成模型。该类模型常被用于生成图像、图像降噪、图像超分辨率采样等任务。
3)潜在扩散模型(latent diffusion model):一种在低维潜在表示空间上进行扩散过程的模型。通常图像分辨率较大,如果直接进行扩散模型的训练与推理需要消耗大量的计算资源与时间,因此可以通过训练一个编码器将图像压缩至潜在表示空间,以及一个解码器将潜在表示空间的元素解码为一张图像,使得扩散过程得以在更低维的空间中进行。
4)内容审核(Content Moderation):内容审核是基于图像、文本、音频、视频的检测技术,可自动检测涉黄、涉暴、图文违规等内容,对用户上传的图片、文字、音视频进行内容审核,以满足特定的要求,帮助降低业务违规风险。
5)基于大语言模型与潜在扩散模型的文生图场景:针对一段文本生成相应图片的场景——使用LLM对一段文本进行概括并生成潜在扩散模型的输入图像描述文本,使用潜在扩散模型生成图片的过程。
相关技术是基于直接利用图像本身进行的审核,包括下列方法或下列方法的组合:图像分类,例如是否为血腥图像的二分类;图像检测,例如图像中是否检测到违规区域;文本识别与判别,例如图像中提取的文字是否包含违规广告信息;图像情感倾向分析,例如判断货币的出现是正常场景还是炫富场景;图像黑名单:将已判定违规图像的文件哈希存入数据库,待审核的图像计算文件哈希值并与数据库中的违规值进行匹配。
申请人在实施本申请实施例时发现相关技术中的方案适用于现实生活中的图像,但深度学习模型生成的图像不适用于相关技术中的审核方式。因为深度学习生成的图像具有“神似”的特性,且通常具有非常强烈的风格化的特点,这对于已有的模型是陌生的。例如,深度学习模型生成的神似某明星的人像图像,由于该图像中包含的并不是该明星,因此原有的人脸检测与识别模型无法识别到生成的图像中包含该明星,若该图像被应用于商业使用以进行营利行为,则可能侵犯该明星的肖像权。
因此,相关技术虽然能够实现对文本生成图像的审核,但至少具有以下缺陷:
1、相关技术在文生图场景中仅对图像进行审核,缺乏对于文本的审核流程,从而无法识别输入的文本是否违规;
2、针对机器生成的图像,仅对生成的图像进行图像审核,导致审核的准确率较低。
本申请实施例提供一种数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够在节约计算资源的情况下,提高对基于文本生成的图像的评估准确率。本申请实施例提供的数据处理方法是基于人工智能技术中的大语言模型技术实现的。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
大语言模型(Large Language Model,LLM):是一种机器学习模型,旨在理解和生成人类语言,它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等,大语言模型的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式,通常基于深度学习架构。大语言模型是指使用大量文本数据训练的深度学习模型,包含数十亿甚至更加庞大的参数,可以用于生成自然语言文本并理解自然语言文本的含义,通过训练,模型能够学习到语言的统计规律和语义关联,以建立一个庞大的语言知识库,进而模拟人类的语言理解和生成能力。
下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为笔记本电脑、平板电脑,台式计算机、机顶盒、移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)、智能设备(例如,智能手机、智能音箱、智能手表、智能电视、智能家电、智能语音交互设备)、车载终端、飞行器等各种类型的对象终端,也可以实施为服务器。下面,将说明设备实施为服务器时示例性应用。
参见图1,图1是本申请实施例提供的数据处理系统100的架构示意图,为实现支撑一个数据处理应用,终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
终端400用于,获取用户输入的图像描述文本,之后将图像描述文本通过网络300传输到服务器200。
服务器200用于,在接收到终端400传输的图像描述文本后,对图像描述文本进行文本合规性评估处理,得到文本评估结果,之后获取与图像描述文本匹配的目标图像,其中,目标图像是基于所述图像描述文本对原始图像进行去噪处理得到的,之后对去噪处理的过程中生成的去噪中间结果进行图像采样处理,得到中间图像,对目标图像以及中间图像进行图像合规性评估处理,得到图像评估结果,基于文本评估结果以及图像评估结果中至少之一,确定目标图像的合规性评估结果,在目标图像的合规性评估结果为目标图像合规时,将生成的目标图像通过网络300传输至终端400,以由终端400向用户展示目标图像,在目标图像的合规性评估结果为目标图像不合规时,将目标图像不合规的合规性评估结果通过网络300传输至终端400,以由终端400将目标图像不合规的合规性评估结果展示给用户。
本申请实施例提供的信息交互的方法可以应用于创意设计场景、样本生成的场景中。在创意设计场景中,用户可以通过终端输入用户希望得到的创意设计对应的图像的描述文本,由终端将得到的图像描述文本传输到服务器,服务器在接收到图像描述文本后,对图像描述文本进行文本合规性评估处理,得到文本评估结果,之后获取与图像描述文本匹配的目标图像,其中,目标图像是基于所述图像描述文本对原始图像进行去噪处理得到的,之后对去噪处理的过程中生成的去噪中间结果进行图像采样处理,得到中间图像,对目标图像以及中间图像进行图像合规性评估处理,得到图像评估结果,基于文本评估结果以及图像评估结果中至少之一,确定目标图像的合规性评估结果,在目标图像的合规性评估结果为目标图像合规时,将生成的目标图像传输至终端,以由终端向用户展示目标图像,在目标图像的合规性评估结果为目标图像不合规时,将目标图像不合规的合规性评估结果传输至终端,以由终端将目标图像不合规的合规性评估结果展示给用户。
在样本生成场景中,用户可以在终端输入希望生成的图像样本的描述文本,由终端将得到的图像描述文本传输到服务器,服务器在接收到图像描述文本后,对图像描述文本进行文本合规性评估处理,得到文本评估结果,之后获取与图像描述文本匹配的目标图像,其中,目标图像是基于所述图像描述文本对原始图像进行去噪处理得到的,之后对去噪处理的过程中生成的去噪中间结果进行图像采样处理,得到中间图像,对目标图像以及中间图像进行图像合规性评估处理,得到图像评估结果,基于文本评估结果以及图像评估结果中至少之一,确定目标图像的合规性评估结果,在目标图像的合规性评估结果为目标图像合规时,将生成的目标图像传输至终端,以由终端向用户展示目标图像,在目标图像的合规性评估结果为目标图像不合规时,将目标图像不合规的合规性评估结果传输至终端,以由终端将目标图像不合规的合规性评估结果展示给用户。
本申请实施例提供的用于执行数据处理方法的电子设备可以是各种类型的终端设备或服务器,在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端、飞行等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
参见图2,图2是本申请实施例提供的电子设备500的结构示意图,图2所示的电子设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解,总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(Digital Signal Processor,DSP),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器550可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(Random Access Memory,RAM)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他电子设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(Universal Serial Bus,USB)等;
呈现模块553,用于经由一个或多个与用户接口530相关联的输出装置531(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块554,用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的装置可以采用软件方式实现,图2示出了存储在存储器550中的数据处理装置555,其可以是程序和插件等形式的软件,包括以下软件模块:文本获取模块5551、文本评估模块5552、第一图像获取模块5553、图像采样模块5554、第一图像评估模块5555和第一结果确定模块5556,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的装置可以采用硬件方式实现,作为示例,本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的数据处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(Application Specific Integrated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、可编程逻辑器件(Programmable Logic Device,PLD)、复杂可编程逻辑器件(Complex Programmable Logic Device,CPLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或其他电子元件。
下面,说明本申请实施例提供的数据处理方法,如前所述,实现本申请实施例的数据处理方法的电子设备可以是终端、服务器,又或者是二者的结合。因此下文中不再重复说明各个步骤的执行主体。
参见图3A,图3A是本申请实施例提供的数据处理方法的第一流程示意图,下面将结合图3A示出的步骤101至步骤106进行说明。
在步骤101中,获取图像描述文本。
作为示例,图像描述文本可以为用于描述图像内容的文本内容,例如“一只奔跑的黑猫,黑猫的脖子上有一个项圈”。需要说明的是,本申请实施例中的图像描述文本可以为文本生成图像的场景中的图像描述文本,也可以为图像生成图像的场景中的图像描述文本。
在一些实施例中,上述步骤101的获取图像描述文本可以通过如下技术方案实现:接收对象输入的图像描述文本;或者接收对象输入的原始文本,通过语言模型对原始文本进行文本转换处理,得到与原始文本匹配的图像描述文本。
作为示例,可以直接将对象输入的原始文本作为图像描述文本,也可以通过语言模型对对象输入的原始文本进行文本转换处理,得到图像描述文本。
作为示例,对象可以为输入文本的用户,也可以为人工智能机器人等具有输入文本能力的对象。语言模型可以通过对预训练的大语言模型进行微调训练实现,微调后的语言模型能够将原始文本转换为图像描述文本。
作为示例,当对象输入的原始文本101A为“一只黑猫戴着项圈,站在一个角落里,它的尾巴轻轻摇晃着,好像在享受着悠闲的时光。项圈上有一个小牌,写着它的名字和主人的联系方式。黑猫看起来很可爱,让人忍不住想要靠近它。”,可以通过语言模型对原始文本101A进行文本转换处理,得到图像描述文本101B“一只黑猫戴着项圈,站在一个角落里,项圈上有一个小牌,写着它的名字和主人的联系方式。”
通过去除原始文本中的非图像描述文本的内容,能够节约后续处理过程中所占用的算力资源,同时提高对图像描述文本进行文本合规性评估处理的准确性。
在步骤102中,对图像描述文本进行文本合规性评估处理,得到文本评估结果。
在得到图像描述文本后,可以对图像描述文本进行文本合规性评估处理,以得到图像描述文本是否合规的文本评估结果。
下面介绍对图像描述文本进行文本合规性评估处理的过程。
在一些实施例中,步骤102中的对图像描述文本进行文本合规性评估处理,得到文本评估结果可以通过如图3B所示的步骤1021到步骤1022实现。
在步骤1021中,当图像描述文本包括禁用关键词时,将文本违规作为文本评估结果。
作为示例,可以对图像描述文本进行关键词识别,确定出图像描述文本中包括的关键词,在本申请实施例中,对于从图像描述文本中提取出关键词的方式可以为通过预先训练的关键词提取模型提取图像描述文本中包括的关键词。
作为示例,当图像描述文本包括的关键词中包括禁用关键词时,可以直接将文本违规作为文本评估结果。
作为示例,图像描述文本包括关键词A、关键词B、关键词C和关键词D,其中,关键词C为禁用关键词,则可以确定图像描述文本对应的文本评估结果为文本违规。
在步骤1022中,当图像描述文本不包括禁用关键词时,执行以下处理:对图像描述文本进行文本分类处理,得到文本分类结果,基于其他关键词生成对应图像描述文本的敏感程度数据,基于文本分类结果以及敏感程度数据,确定文本评估结果,其中,其他关键词是除禁用关键词之外的关键词。
当图像描述文本不包括禁用关键词时,可以对图像描述文本进行文本分类处理,得到文本分类结果。下面介绍对图像描述文本进行文本分类处理的过程。
在一些实施例中,步骤1022中的对图像描述文本进行文本分类处理,得到文本分类结果可以通过如下技术方案实现:针对每个分类维度,对图像描述文本进行基于分类维度的分类处理,得到第一概率,其中第一概率表征图像描述文本符合分类维度对应的标签的概率;当分类维度的数目为多个时,将多个分类维度分别对应的第一概率进行合并处理,得到文本分类结果;当分类维度的数目为一个时,将分类维度对应的第一概率作为文本分类结果。
作为示例,其他关键词可以通过对图像描述文本进行关键词提取后,得到的除禁用关键词之外的所以关键词,这里的关键词可以是用户预先设置的词组合。
作为示例,基于每个分类维度对图像描述文本进行分类处理,得到图像描述文本在每个分类维度的概率,当存在多个分类维度时,对每个维度的概率进行合并处理,当分类维度为一个时,将该分类维度对应的概率作为文本分类结果。
作为示例,分类维度可以为图像描述文本可能属于的维度。若分类维度包括是否包括广告的维度、是否具有不良价值观的维度等等,对图像描述文本1022A进行基于是否包括广告的维度、是否具有不良价值观的维度的分类处理,若得到图像描述文本在是否包括广告的维度、是否具有不良价值观的第一概率分别为0.6、0.5,则可以确定图像描述文本1022A包括广告的概率为0.6,图像描述文本1022A具有不良价值观的概率为0.5。
作为示例,当分类维度的数目为一个时,图像描述文本在分类维度A的第一概率为0.7,则将0.7作为文本分类结果。当分类维度的数目为多个时,图像描述文本在分类维度A、分类维度B和分类维度C的第一概率分别为0.3、0.8和0.4,则对分类维度A、分类维度B和分类维度C的第一概率进行合并处理,得到向量[0.3,0.8,0.4]作为图像描述文本的文本分类结果。上述介绍的分类维度仅为作为示例说明的分类维度,具体的分类维度的设置可以根据实际情况进行选择,在此不做具体限定。
通过结合多个分类维度的第一概率确定文本分类结果,能够提高得到的文本分类结果的准确性。
在一些实施例中,步骤1022中的基于其他关键词生成对应图像描述文本的敏感程度数据可以通过如下技术方案实现:针对每个敏感类别执行以下处理:确定图像描述文本中属于敏感类别的多个敏感程度各自的其他关键词的数目,并将对应多个敏感程度各自的数目组成对应敏感类别的敏感程度数据;将多个敏感类别的敏感程度数据进行组合处理,得到对应图像描述文本的敏感程度数据。
作为示例,敏感类别可以为预先设置的具有违规可能性的类别,敏感程度用于表征违规可能性的大小,假设其他关键词属于敏感类型A中的低敏感程度,则表征其他关键词A具有违规可能性但是违规可能性较低。
作为示例,若其他关键词包括“手”、“腰”、“泳衣”、“头发”、“透明”、“湖水”,这里的其他关键词“手”、“腰”和“头发”可以属于敏感类别“身体部位”,其他关键词“泳衣”可以属于敏感类别“衣服”,其他关键词“湖水”不属于敏感类别,每个敏感类别包括的敏感程度可以分别为低敏感度、中敏感度和高敏感度,可以将其他关键词“手”归类为“身体部位”敏感类型的低敏感度,可以将其他关键词“头发”归类为“身体部位”敏感类型的低敏感度,可以将其他关键词“腰”归类为“身体部位”敏感类别的中敏感度,可以将关键词“泳衣”归类为“衣服”敏感类别的中敏感度。此时,“身体部位”的低敏感度包括的关键词为“手”和“头发”,则“身体部位”敏感类别的低敏感度包括其他关键词的数目为2,“身体部位”敏感类别的中敏感度包括其他关键词为“腰”,则“身体部位”敏感类别的中敏感度包括其他关键词的数目为1,“身体部位”敏感类别的高敏感度不包括其他关键词,则“身体部位”敏感类别的高敏感度包括其他关键词的数目为0。
在一些实施例中,还可以对具有相同语义的其他关键词进行合并,若从图像描述文本中提取出其他关键词“手”的数量为3个,例如,从图像描述文本中提取出其他关键词“手”、“手”和“手”,此时,“身体部位”敏感类别的低敏感度的数目仍然为1,即这里的数目指的是具有不同语义的其他关键词的数目。基于此,在对图像描述文本进行关键词提取后,可以对提取出的具有相同语义的其他关键词进行合并,将具有相同语义的其他关键词合并为同一关键词,例如,从图像描述文本中提取出的其他关键词包括“手指”、“手指头”,此时可以将“手指”或者“手指头”其中之一删除,以实现对具有相同含义的其他关键词的合并。
通过确定每个敏感类别的多个敏感程度的其他关键词的数目,能够提高得到敏感程度数据的准确性。
作为示例,在得到每个敏感程度的数目后,可以将多个敏感程度的数目组成对应敏感类别的敏感程度数据。若敏感类别A包括高敏感度、中敏感度和低敏感度三个程度,其中,图像描述文本中属于敏感类别A的高敏感度的其他关键词的数目为1,图像描述文本中属于敏感类别A的中敏感度的其他关键词的数目为2,图像描述文本中属于敏感类别A的低敏感度的其他关键词的数目为3。则敏感类别A的敏感程度数据可以为[1,2,3]。
作为示例,在得到每个敏感类别的敏感程度数据后,可以将多个敏感程度数据进行组合处理,得到对应图像描述文本的敏感程度数据。敏感类别A的敏感程度数据为[1,3,5],敏感类别B的敏感程度数据为[2,4,6],敏感类别C的敏感程度数据为[3,2,1],则对上述三个敏感类别的敏感程度数据进行组合处理,可以得到对应图像描述文本的敏感程度数据[1,3,5,2,4,6,3,2,1]。
在得到文本分类结果以及敏感程度数据后,可以确定文本评估结果,下面介绍确定文本评估结果的方式。
在一些实施例中,步骤1022中的基于文本分类结果以及敏感程度数据,确定文本评估结果可以通过如下技术方案实现:对文本分类结果以及敏感程度数据进行概率映射处理,得到文本违规评分,文本违规评分与图像描述文本违规的概率正相关;当文本违规评分大于文本违规分数阈值时,将文本违规确定为文本评估结果;当文本违规评分不大于文本违规分数阈值时,将文本合规确定为文本评估结果。
作为示例,通过对文本分类结果以及敏感程度数据进行概率映射,得到文本违规评分,当文本违规评分大于文本违规分数阈值时,确定文本违规,当文本违规评分不大于文本违规分数阈值时,文本不违规。对文本分类结果以及敏感程度数据进行概率映射的方式可以为通过预先训练的概率映射模型,将文本分类结果以及敏感程度数据映射为文本违规评分。
作为示例,训练概率映射模型的过程如下,首先,获取图像描述文本样本的文本分类结果样本以及敏感程度数据样本,通过人工标注的方式,标注图像描述文本样本的文本违规评分(真实评分),之后将文本分类结果样本以及敏感程度数据样本输入到待训练的概率映射模型中,获取待训练的概率映射模型输出的预测文本违规评分,以最小化待训练的概率映射模型输出的预测文本违规评分与真实评分之间的差异为目标,训练待训练的概率映射模型。
作为示例,在获取训练样本的过程中,可能会难以获得文本违规评分较高的图像描述文本,此时可以将易违规的文本输入到大语言模型中,由大语言模型输出文本违规评分较高的图像描述文本。
通过对文本分类结果以及敏感程度数据进行概率映射处理,能够提高得到文本违规评估的效率以及准确性。
在步骤103中,获取与图像描述文本匹配的目标图像,其中,目标图像是基于图像描述文本对原始图像进行去噪处理得到的。
作为示例,可以在进行文本合规性评估处理的过程的同时,基于图像描述文本生成目标图像,也可以在执行完成文本合规性评估处理的过程后,基于图像描述文本生成目标图像,即如果文本合规性评估未通过则不再生成图像。
作为示例,这里执行去噪过程的电子设备可以与执行步骤101至步骤102的电子设备相同,或者这里的去噪过程可以在其他电子设备上执行,由执行步骤101至步骤102的电子设备从其他电子设备上直接获取目标图像。
在一些实施例中,基于图像描述文本对原始图像进行去噪处理是通过调用图像生成模型实现的,图像生成模型包括N个级联的去噪网络、第一编码网络以及第一解码网络,N的取值满足2≤N。步骤103中的获取与图像描述文本匹配的目标图像可以通过如下技术方案实现:通过第一编码网络对原始图像进行潜在空间编码处理,得到原始图像的原始潜在空间编码;通过N个级联的去噪网络中第n去噪网络,对第n去噪网络的输入进行第n次去噪处理,并将第n去噪网络输出的第n潜在空间编码传输到第n+1去噪网络以继续进行第n+1次去噪处理,得到对应第n+1去噪网络的第n+1潜在空间编码;通过第一解码网络对第N潜在空间编码进行第一解码处理,得到与图像描述文本匹配的目标图像;其中,n为取值从1开始递增的整数变量,n的取值范围为1≤n<N,当n取值为1时,第n去噪网络的输入为图像描述文本的文本编码以及原始潜在空间编码,当n取值为2≤n<N时,第n去噪网络的输入为第n-1去噪网络输出的第n-1潜在空间编码以及图像描述文本的文本编码,去噪中间结果包括第n去噪网络输出的第n潜在空间编码。
作为示例,这里的图像描述文本是用于约束图像生成的文本,例如,图像描述文本可以是“一个巨大的太空飞船在太阳高升时降落在火星上”,这里的文本编码是通过自然语言处理技术得到的,例如可以通过transformer模型对图像描述文本进行文本编码处理。
作为示例,这里的原始图像可以是噪声图像,也可以是具有明确内容的图像,当原始图像是噪声图像时,以图像描述文本作为指导将噪声图像恢复至与图形描述文本匹配的目标图像,例如,图像描述文本是“一个巨大的太空飞船在太阳高升时降落在火星上”,这里的目标图像则是呈现有“一个巨大的太空飞船在太阳高升时降落在火星上”这种画面的图像。当原始图像是具有明确内容的图像时,以图像描述文本作为指导将具有明确内容的图像修改至与图像描述文本匹配的目标图像,图像描述文本是“一个巨大的太空飞船在太阳高升时降落在火星上”,原始图像可以是呈现“火星上太阳高升”这种画面的图像,这里的目标图像则是呈现有“一个巨大的太空飞船在太阳高升时降落在火星上”这种画面的图像。
以原始图像是噪声图像为例进行说明,噪声图像是高斯噪声的图像格式数据,为了实现隐空间的建模去噪,可以获取对应噪声图像的原始潜在空间编码,即噪声图像在隐空间(潜在空间)的编码,将高斯噪声的原始图像格式数据进行降维压缩得到原始潜在空间编码。第n潜在空间编码是图像数据在隐空间(潜在空间)的编码,隐空间比真实空间的维度更低(隐空间的编码维度小于维度阈值),原始潜在空间编码的潜在空间编码维度、以及第n潜在空间编码的潜在空间编码维度均低于维度阈值。
作为示例,图像生成模型可以为潜在扩散模型,通过图像生成模型对原始图像的原始潜在空间编码进行多次去噪处理,得到第N潜在空间编码,再对第N潜在空间编码进行解码得到目标图像,其中,在进行多次去噪处理的过程中,可以将每次去噪处理以及解码处理后得到的图像作为中间图像,也可以将采样部分去噪结果进行解码处理得到的图像作为中间图像。
作为示例,图像生成模型可以是普通扩散模型,通过图像生成模型对原始图像在图像空间进行多次去噪处理,即每个去噪网络的输出均是图像,直接将每个去噪网络(除最后一个去噪网络)输出的图像作为中间图像,即不需要进行解码处理。
作为示例,结合图4对图像生成模型的工作原理进行说明,图4是本申请实施例提供的图像生成模型的结构图。在图4中,可以先通过第一编码网络对原始图像进行潜在空间编码处理,得到原始图像的原始潜在空间编码,之后将原始潜在空间编码以及文本编码输入到第一去噪网络,得到第一潜在空间编码,之后将第一潜在空间编码以及文本编码输入第二去噪网络,得到第二潜在空间编码,直到将第N-1潜在空间编码以及文本编码输入到第N去噪网络,得到第N潜在空间编码后,将第N潜在空间编码输入到第一解码网络中,由第一解码网络对第N潜在空间编码进行解码处理,得到目标图像。每次都是根据前一次去噪得到的去噪结果进行去噪处理再输入到下一个去噪网络中进行去噪处理,以N为3举例进行说明,通过第1去噪网络对原始潜在空间编码以及文本编码进行去噪处理,得到第1去噪结果,通过第2去噪网络对第1去噪结果以及文本编码进行去噪处理,得到第2去噪结果,通过第3去噪网络对第2去噪结果以及文本编码进行去噪处理,得到第3去噪结果,通过上述方式得到的每个去噪结果也均是潜在空间编码。
通过本申请实施例可以对隐空间噪声编码逐步进行去噪处理,从而得到隐空间的去噪结果,因此可以在隐空间上实现去噪流程,降低数据处理量并提高去噪速度。
在步骤104中,对去噪处理的过程中生成的去噪中间结果进行图像采样处理,得到中间图像。
作为示例,去噪处理是通过多个去噪网络实现的,每个去噪网络输出的结果可以作为去噪中间结果,之后可以通过对去噪中间结果进行采样处理,得到中间图像,这里每个去噪网络输出的去噪中间结果可以是潜在空间编码还可以是图像。
在一些实施例中,文本评估结果包括文本违规评分,文本违规评分与图像描述文本违规的概率正相关;步骤104中的对去噪处理的过程中生成的去噪中间结果进行图像采样处理,得到中间图像可以通过如下技术方案实现:获取与文本违规评分正相关的采样数目;获取采样区间,其中,采样区间的起点是第p去噪网络输出的第p潜在空间编码,采样区间的终点是第q去噪网络输出的第q潜在空间编码,p的取值为1≤p<N,q的取值为1<q≤N,q的取值大于p的取值;基于采样数目对采样区间进行均等采样,得到至少一个采样潜在空间编码;对至少一个采样潜在空间编码分别进行解码处理,得到中间图像。
作为示例,将每个去噪网络输出的潜在空间编码作为一个图像对应的编码,在采样区间内,采样去噪网络输出的潜在空间编码,之后对采样得到的潜在空间编码进行解码处理,得到中间图像。
作为示例,由于目标图像往往为最清晰的图像,因此采样时可以包括最后一个去噪网络输出的潜在空间编码,此时可以先确定采样数目,由于文本违规评分反应了图像描述文本违规的概率,而文本违规的情况下,基于违规的文本生成的目标图像往往也是违规的,因此,为了保证生成的目标图像的评估的准确性,文本违规评分越高的图像描述文本对应的采样的数目越多。具体的,可以参见如下公式。
(1)
在公式(1)中,为采样的数目,为预设的参数值,为文本违规评分。
在确定出采样的数目后,可以确定采样间隔,采样间隔可以通过如下公式计算得到:
(2)
在公式(2)中,为采样间隔,为去噪网络的数量,和为预设的参数(b表示N个
去噪网络中前b个去噪网络输出的去噪结果不参与采样,c表示N个去噪网络中后c个去噪网
络输出的去噪结果不参与采样),为采样数目。
作为示例,第p去噪网络输出的第p潜在空间编码即为第b个去噪网络输出的去噪结果,第q去噪网络输出的第q潜在空间编码即为第s-c个去噪网络输出的去噪结果。
在得到采样间隔后,可以在采样区间内对去噪网络输出的潜在空间编码进行采样处理,若采样数目为3,采样间隔为5,则采样得到的采样潜在空间编码可以为第b+5去噪网络输出的潜在空间编码、第b+10去噪网络输出的潜在空间编码、第b+15去噪网络输出的潜在空间编码。
可以通过采样得到潜在空间编码,之后通过对每个潜在空间编码进行解码处理,即可得到每个潜在空间编码对应的中间图像。通过采样得到中间图像,相较于后续对全部的中间图像进行处理,能够减少对于计算资源的占用。
在步骤105中,对目标图像以及中间图像进行图像合规性评估处理,得到图像评估结果。
在得到目标图像以及中间图像后,可以对目标图像以及中间进行图像合规性评估处理,得到图像评估结果。下面介绍对目标图像以及中间进行图像合规性评估处理的过程。
在一些实施例中,步骤105中的对目标图像以及中间图像进行图像合规性评估处理,得到图像评估结果可以通过如图3C所示的步骤1051到步骤1054实现。
在步骤1051中,对目标图像以及中间图像进行图像评估处理,得到目标图像对应的图像评估评分以及中间图像对应的图像评估评分。
作为示例,对目标图像以及中间图像进行图像评估处理,得到图像评估评分的过程可以通过图像评分模型实现。具体的,可以将目标图像和中间图像输入到预先训练好的图像评分模型,由图像评分模型输出目标图像和中间图像的评分。
作为示例,训练图像评分模型的过程可以为,将多张标注后的图像输入到待训练的图像评分模型中,由图像评分模型输出每张图像的预测图像评估评分,之后基于图像评分模型输出的预测图像评估评分和图像的标签,计算损失值,最后基于损失值调整待训练的图像评分模型的参数。
在步骤1052中,基于目标图像对应的图像评估评分以及中间图像对应的图像评估评分,确定图像违规评分,图像违规评分与图像违规的概率正相关。
作为示例,图像违规评分反应了目标图违规的概率,图像违规评分越高则目标图像违规的概率越大。
在一些实施例中,步骤1052中的基于目标图像对应的图像评估评分以及中间图像对应的图像评估评分,确定图像违规评分可以通过如下技术方案实现:当中间图像的数目是多个时,基于每个中间图像的权重,对多个中间图像对应的图像评估评分进行加权处理,得到加权中间图像评估评分,其中,中间图像的权重与对应的去噪程度正相关;对加权中间图像评估评分以及目标图像对应的图像评估评分进行求和处理,得到第一求和结果;对多个中间图像的权重以及目标图像的设置权重进行求和处理,得到第二求和结果;获取与第一求和结果正相关且与第二求和结果负相关的图像违规评分。
作为示例,具体的可以参照如下公式:
(3)
在公式(3)中,为图像违规评分,为目标图像对应的图像评估评分,为第
个中间图像对应的图像评估评分,为第个图像与去噪过程中包括的全部图像之间
的函数(权重)。具体的可以参照如下公式。
(4)
在公式(4)中,表示去噪过程中包括的全部图像的数量,表示第个中间图像在
全部中间图像的排序,这里的排序是去噪程度的升序排序。
通过上述公式(3)和公式(4)可知,通过上述方式可以得到,去噪次数越多的图像对应的权重越大。通过对每个中间图像以及目标图像增加权重的方式确定图像违规评分,能够提高得到的图像违规评分的准确性。
在步骤1053中,当图像违规评分大于图像违规分数阈值时,将图像违规确定为图像评估结果。
作为示例,图像违规评分大于图像违规分数阈值说明图像大概率为违规图像,因此可以将图像违规确定为图像评估结果。
在步骤1054中,当图像违规评分不大于图像违规分数阈值时,将图像合规确定为图像评估结果。
作为示例,图像违规评分小于图像违规分数阈值说明图像大概率为合规图像,因此可以将图像合规确定为图像评估结果。
在步骤106中,基于文本评估结果以及图像评估结果中至少之一,确定目标图像的合规性评估结果。
作为示例,可以基于文本评估结果以及图像评估结果中至少之一,确定目标图像的合规性评估结果。如果合规性评估结果表征目标图像合规,则可以输出或者应用生成的目标图像。下面介绍基于文本评估结果以及图像评估结果至少之一确定合规性评估结果的过程。
在一些实施例中,步骤103中的获取与图像描述文本匹配的目标图像可以通过如下技术方案实现:当文本评估结果是文本合规时,基于图像描述文本对原始图像进行去噪处理,得到与图像描述文本匹配的目标图像。此时,步骤106中的基于文本评估结果以及图像评估结果中至少之一,确定目标图像的合规性评估结果可以通过如下技术方案实现:当文本评估结果是文本合规时,将图像评估结果作为目标图像的合规性评估结果;或者当文本评估结果是文本违规时,将文本评估结果作为目标图像的合规性评估结果。
作为示例,为了节约计算资源,可以在确定文本评估结果表征图像描述文本不存在文本违规时,基于图像描述文本对原始图像进行去噪处理,得到与图像描述文本匹配的目标图像。若确定文本评估结果表征图像描述文本存在违规时,可以不进行后续的基于图像描述文本对原始图像进行去噪处理,得到与图像描述文本匹配的目标图像的过程,可以直接将文本评估结果作为目标图像的合规性评估结果。当图像描述文本存在文本违规时,将文本违规作为目标图像的合规性评估结果,当图像描述文本不存在文本违规时,再执行图像生成程序,并将图像评估结果作为目标图像的合规性评估结果。
在一些实施例中,步骤106中的基于文本评估结果以及图像评估结果中至少之一,确定目标图像的合规性评估结果,可以通过如下技术方案实现:获取文本评估结果对应的文本违规评分以及图像评估结果对应的图像违规评分;确定文本违规评分与图像违规评分的均值,作为目标违规评分;当目标违规评分大于目标违规分数阈值时,将目标图像违规确定为目标图像的合规性评估结果;当目标违规评分不大于目标分数阈值时,将目标图像合规确定为目标图像的合规性评估结果。
作为示例,获取文本评估结果对应的文本违规评分以及图像评估结果对应的图像违规评分,之后可以将文本违规评分以及图像违规评分的均值,作为目标违规评分。例如,若文本违规评分为0.4,图像违规评分为0.2,则目标违规评分为0.3。当目标违规评分大于目标违规分数阈值时,将目标图像违规确定为目标图像的合规性评估结果,当目标违规评分不大于目标分数阈值时,将目标图像合规确定为目标图像的合规性评估结果。
通过结合文本违规评分和图像违规评分确定出的目标违规评分来确定合规性评估结果,能够提高得到的合规性评估结果的准确性。
下面介绍本申请实施例提供的一种数据处理方法。
在步骤201中,获取目标图像,并对去噪处理的过程中生成的去噪中间结果进行图像采样处理,得到中间图像,其中,目标图像是基于对原始图像进行去噪处理得到的。
作为示例,获取目标图像的实施方式可以参见上述步骤103中获取目标图像的实施方式,即这里的去噪过程可以是基于图像描述文本进行的。除此之外,也可以仅将原始图像输入至扩散模型,得到一张不同于原始图像的新图像,新图像可以具有更高的分辨率或者具有不同的风格,这是由扩散模型决定的。
作为示例,对去噪处理的过程中生成的去噪中间结果进行图像采样处理,得到中间图像的实施方式可以参见上述步骤104中的对去噪处理的过程中生成的去噪中间结果进行图像采样处理,得到中间图像的实施方式。
在步骤202中,对目标图像以及中间图像进行图像合规性评估处理,得到图像评估结果;
作为示例,对目标图像以及中间图像进行图像合规性评估处理,得到图像评估结果的实施方式可以参加上述步骤105的对目标图像以及中间图像进行图像合规性评估处理,得到图像评估结果的实施方式。
在步骤203中,基于图像评估结果,确定目标图像的合规性评估结果。
作为示例,基于图像评估结果,确定目标图像的合规性评估结果的实施方式可以为,若图像评估结果为目标图像违规,则将目标图像违规作为目标图像的合规性评估结果,若图像评估结果为目标图像合规,则将目标图像合规作为目标图像的合规性评估结果。
通过上述实施例提供的技术方案可知,可以直接对原始图像进行去噪处理以及采样处理,并基于得到的中间图像和目标图像进行图像合规性评估处理,得到图像评估结果,最后基于图像评估结果。
在一些实施例中,在对原始图像进行去噪处理之前,获取图像描述文本;对图像描述文本进行文本合规性评估处理,得到文本评估结果,上述对目标图像以及中间图像进行图像合规性评估处理,得到图像评估结果可以同以下技术方案实现:当文本评估结果是文本合规时,基于图像描述文本对原始图像进行去噪处理,得到与图像描述文本匹配的目标图像;当文本评估结果是文本违规时,将文本评估结果作为目标图像的合规性评估结果,上述基于图像评估结果,确定目标图像的合规性评估结果可以通过以下技术方案实现:当文本评估结果是文本合规时,将图像评估结果作为目标图像的合规性评估结果。
本申请实施例的具体实施方式可以参见步骤103以及步骤106的具体实施方式,在此不再赘述。
在一些实施例中,当去噪处理是基于图像描述文本实现的时候,在基于图像评估结果,确定目标图像的合规性评估结果之前,获取图像描述文本;对图像描述文本进行文本合规性评估处理,得到文本评估结果,上述基于图像评估结果,确定目标图像的合规性评估结果可以通过以下技术方案实现:基于图像评估结果以及文本评估结果,确定目标图像的合规性评估结果。
本申请实施例的具体实施方式可以参见步骤101、步骤102以及106的具体实施方式,在此不再赘述。
下面将说明本申请实施例在一个实际的应用场景中的示例性应用。
当用户有一段文本希望自动生成插图,则该过程可以被拆解为:1、该段文本转换为生成图片的图像描述文本;2、利用图像描述文本生成图片。第一步可以通过一个精调的大语言模型(Large Language Model,LLM)实现。
作为示例,用户输入如下文本“爱丽丝也没有感到离奇,虽然过后,她认为这事应该奇怪,可当时她的确感到很自然,但是兔子竟然从背心口袋掏出一块怀表看看,然后又匆匆忙忙的跑了。这时,爱丽丝跳了起来,她突然想到:从来没有见过穿着有口袋背心的兔子,更没有见过兔子还能从口袋里拿出一块表来,她好奇地穿过田野,紧紧地追赶那只兔子,刚好看见兔子条件了矮树下面的一个大洞。”,在大语言模型接收到上述图像描述文本后,可以将上述图像描述文本提取为“白兔拿着怀表”。
之后将得到的图像描述文本“白兔拿着怀表”作为扩散模型的输入,得到如图5所示的图像,图5是本申请实施例提供的目标图像的示意图。图5展示了一只白色的兔子拿着怀表的图像。对于生成的图像,如果希望用于发布,则需要进行内容审核,避免发布违规违禁图片。
在真实使用场景中,用户可能拥有百万级别的文本内容,每个文本内容可能包含百万级别的字符数,最终可能需要生成的图片数高达亿级。这就需要内容审核功能准确并尽量降低人工参与。
下面结合图6进行说明,图6是本申请实施例提供的实际应用过程的流程示意图。在图6中,首先获取对象输入的文本。之后将对象输入的文本转换为图像描述文本,之后对图像描述文本进行合规性评估,若图像描述文本不合规,则拒绝生成图像,若图像描述文本合规,则通过扩散模型生成目标图像,之后在扩散过程中进行间隔采样,通过采样得到的中间图像和生成的目标图像进行图像合规性评估,若确定目标图像合规,则输出图像,若目标图像不合规,则拒绝输出图像。
下面详细介绍在实际应用过程的流程。
针对大语音模型根据文本提取出的图像描述文本,可以通过关键词与综合评分进行合规性评估。
例如,图像描述文本为“一位黑色头发的女性在湖里游泳,湖水齐腰,上身xx”本段文本包含关键词“xx”,可能导致违规。又例如,图像描述文本为“一位黑色头发的女性在湖里游泳,湖水齐腰,面朝外,身着xxx泳衣”。本段文本可能不包含任何违规关键词,但可能在综合评分时,“不雅内容”维度评分较高。又例如,图像描述文本为“一位黑色头发的女性在湖里游泳,湖水齐腰,面朝外,衣服透明”。本段文本在通过已有技术进行评估可能不包含任何违规关键词,并且在评分时,可能并未得到较高的分数,但实际仍涉嫌违规。但是,若基于这段文字生成目标图像,则生成的目标图像是违规的。
接下来介绍通过本申请实施例提供的数据处理方法包括的评分系统和关键词审核的原理。
评分系统由n个文本分类器(均为“正”、“负”的二分类)组成。
假设第i个文本分类器,判定为“正”的概率或置信度记为。例如对于不雅内容维
度的二分类器,如果模型输出概率为0.9,则说明模型认为该文本有90%的概率/置信度认为
该文本属于不雅内容的类别。
通过组合n个文本分类器输出的概率,分别记为,,…,。对于输入的文本,
文本的文本分类结果可以表示为向量,,…,。
在本申请实施例中,关键词可以分为两类:违规关键词、关注关键词(其他关键词)。如果文本包含违规关键词,则确定该段图像描述文本违规,不再进行后续其他的判断。关注关键词将结合文本分类分数,在文本打分过程中被使用。例如,在图像描述文本x“一位黑色头发的女性在湖里游泳,湖水齐腰,面朝外,泳衣透明”中可能包含关注关键词:“黑色”、“头发”、“女性”、“游泳”、“腰”、“泳衣”、“透明”。另外,为减少关键词的数量,将含义基本一致但表述不同的关键词进行合并,例如“女性”、“女生”被认为是相同的关键词,将“女性”和“女生”其中之一删除。
下面介绍确定每个关键词所属的敏感类别的多个敏感程度的过程。
首先,将关注关键词分为m类,每类分为h个敏感度列表,则最终每个词汇可以被划分至这选项中的一个。假设第1类关注关键词的敏感类别是“身体部位”,如果取l=3,则可以分为高、中、低敏感度,可以设置关键词“头发”归为身体部位的低敏感度列表,“腰”归为身体部位的中敏感度列表。
给个选项分别编号。针对图像描述文本t,可以生成向量。其中,表示第i类关键词的第j个敏
感度列表中的词汇在文本中出现的次数。假设第1类关键词是“身体部位”,l=3,则对于上述
图像描述文本x“一位黑色头发的女性在湖里游泳,湖水齐腰,面朝外,泳衣透明”,=0,
=1,=1,此时,。
在得到以及后,可以对图像描述文本进行打分,首先通过训练一个分类器,
针对图像描述文本t在n个二分类器上得到的,以及关注关键词对应的向量,进行训
练。可以使用一个深度神经网络,输入,,输出为一个数值。表示该段图像描述文
本的文本违规评分。如果高于阈值θ,则认为该段图像描述文本违规。
下面介绍获取用于对图像描述文本进行打分的模型的训练集的过程。
将大语言模型以及打分系统部署后运行一段时间,在段时间内获得的图像描述文
本对应的,,以及图像描述文本对应的人工审核图像结果记录下来:(人工审核图像结
果为违规/不违规)。若违规数据不够,可以选择易违规的文本,使用大语言模型生成图像描
述文本并打分,然后通过人工审核目标图像的结果,将相应的打分与人工审核结果加入训
练集中。
下面介绍对关键词的词库进行扩展的方案。
由于固定关注关键词有m类、每类多个敏感度,相应地可以把关注关键词对应地划分入相应类别与敏感度即可。对于一个关键词可能对应多个类别、或一个类别不同敏感度的情况,例如“透明泳衣”和“透明玻璃杯”的“透明”,应该属于不同的敏感度。可以将原始的“词语”到“类别+敏感度”的映射,扩展到“词组”(作为关注关键词)到“类别+敏感度”的映射。在对图像描述文本包括的关键词进行归类的过程中,可以对每个词组进行检索,查看对词组有无单独配置。例如,可以单独配置“(衣服类词语)透明”、“透明的(衣服类词语)”映射到“材质-高敏感度+着装-高敏感度”,这样即可解决一个关键词对应多个类别或多个敏感度的问题。
下面介绍基于图像描述文本生成目标图像的过程。
在本申请实施例中,可以通过扩散模型实现基于图像描述文本生成目标图像。下面结合图7进行说明扩散模型,图7是本申请实施例提供的扩散过程的示意图。在图7中,701为原始图像,702为进行5次去噪后的图像,703为进行10次去噪的图像,704为进行15次去噪后的图像,705为进行20次去噪后的图像。
扩散模型可以概括为:图像满足分布具有一定的分布规律,模型利用文本信息将一张纯噪声的图像(图7中的701)逐步去噪,从而生成与图像描述信息匹配的图像。其中,潜在扩散模型的输入与输出都是更低维的向量,需要图像解码器根据该向量生成图像。
通常来说,图像主体在较少的去噪后即可生成,去噪次数越多则图像的细节越丰富完善。但是,丰富完善的细节可能干扰图像内容审核模型的准确度,若可以直接获得图像的主体,可以帮助进行图像的内容审核。
但是,将扩散过程中的每次去噪后的潜在空间编码进行解码、导出并审核需要消耗大量的计算资源,这是因为:图像内容审核包含例如物体检测、语义分割等步骤,需要消耗算力;潜在扩散模型的每一次去噪后都进行解码和输出都需要经过图像解码器才能从潜在空间(隐空间)的向量得到真正的图像。
因此,可以通过在进行扩散过程的采样,将一部分的图像导出并进行内容审核,从而辅助内容审核模型做出目标图像是否合规的决策。
由于针对不同文本、场景,可以采用不同的模型,以及不同的模型参数(例如,采样方法、迭代步数、提示文本相关性等)。
在已知图像描述文本的文本违规评分时,文本违规评分越高表示该图像描述文
本越可能违规),也可以在该步骤使用文本违规评分,文本违规评分越高,则采样越多。
因此,可以先定义“采样器”S,该采样器的输入为模型参数m(包含提示文本相关
性,这里的m是可选的,m的取值越高则表征采样起点越靠后)、总迭代步数s、文本违规评分,采样器输出需采样的步数s1,s2,…。
例如,可以定义采样器,该采样器的采样数目=5×(向上取整)张图像,并预设
第5步至倒数第5步之间均匀分布这张图像(向上取整)。即,假设=0.59,s=30,则=3,
采样间隔为,,,。
下面介绍对图像进行图像合规性评估处理的过程。
若图像描述文本t的图像,文本违规评分为,采样器输出需要在第步
采样,采样到的图像分别记为,目标图像记为。假设我们的内容审核模型给
图像打分分别为。可以通过定义计算策略,从这n+1个打分得到最终的打分
p。如果p超过某个阈值,则认为该图像违规。
常见的计算策略包括以下方案:
1、计算平均分,参见公式(5):
(5)
在公式(5)中,为图像违规评分,为第个中间图像对应的图像评估评分,表
示去噪过程中包括的全部图像的数量。
2、按步骤先后的加权平均分:
(6)
在公式(6)中,为图像违规评分,为目标图像对应的图像评估评分,为第
个中间图像对应的图像评估评分,为第个图像与去噪过程中包括的全部图像之间
的函数。具体的可以参照如下公式。
(7)
在公式(7)中,表示去噪过程中包括的全部图像的数量,表示第个图像在全部
图像中的序号。
3、基于采样图像中最高图像评估评分进行计算:
(8)
在公式(8)中,为图像违规评分,为第个中间图像对应的图像评估评分,表
示去噪过程中包括的全部图像的数量,为目标图像对应的图像评估评分,为个中间图像对应的最大的图像评估评分。
4、取采样图像以及目标图像中最高图像评估评分:
(9)
在公式(9)中,为图像违规评分,为个中间图像以及目标图像对应的
最大的图像评估评分。
在实际应用中,可以选择上述任意一个计算策略,就可以得到目标违规评分,若目标违规评分高于目标分数阈值则认为目标图像违规。
通过上述方式,通过大语言模型生成的图像描述文本进行内容审核,在图像生成前即可以防止生成可能违规的图像;利用在扩散过程中的图像辅助进行内容审核,在不额外消耗过多算力的情况下,避免了复杂元素过多、风格化强烈的目标图像难以审核。
可以理解的是,在本申请实施例中,涉及到对象的操作数据、对象的对象特征等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得对象许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
在本申请中,涉及到的数据抓取技术方案实施,在本申请以上实施例运用到具体产品或技术中时,相关数据收集、使用和处理过程应该遵守国家法律法规要求,符合合法、正当、必要的原则,不涉及获取法律法规禁止或限制的数据类型,不会妨碍目标网站的正常运行。
下面继续说明本申请实施例提供的数据处理装置555的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器550的数据处理装置555中的软件模块可以包括:文本获取模块5551,用于获取图像描述文本;文本评估模块5552,用于对所述图像描述文本进行文本合规性评估处理,得到文本评估结果;第一图像获取模块5553,用于获取与所述图像描述文本匹配的目标图像,其中,所述目标图像是基于所述图像描述文本对原始图像进行去噪处理得到的;图像采样模块5554,用于对所述去噪处理的过程中生成的去噪中间结果进行图像采样处理,得到中间图像;第一图像评估模块5555,用于对所述目标图像以及所述中间图像进行图像合规性评估处理,得到图像评估结果;第一结果确定模块5556,用于基于所述文本评估结果以及所述图像评估结果中至少之一,确定所述目标图像的合规性评估结果。
在一些实施例中,所述文本获取模块5551,还用于接收对象输入的图像描述文本;或者接收对象输入的原始文本,通过语言模型对所述原始文本进行文本转换处理,得到与所述原始文本匹配的图像描述文本。
在一些实施例中,所述文本评估模块5552,还用于当所述图像描述文本包括禁用关键词时,将文本违规作为所述文本评估结果;当所述图像描述文本不包括所述禁用关键词时,执行以下处理:对所述图像描述文本进行文本分类处理,得到文本分类结果,基于其他关键词生成对应所述图像描述文本的敏感程度数据,基于所述文本分类结果以及所述敏感程度数据,确定所述文本评估结果,其中,所述其他关键词是除所述禁用关键词之外的关键词。
在一些实施例中,所述文本评估模块5552,还用于针对每个分类维度,对所述图像描述文本进行基于所述分类维度的分类处理,得到第一概率,其中所述第一概率表征所述图像描述文本符合所述分类维度对应的标签的概率;当所述分类维度的数目为多个时,将多个所述分类维度分别对应的第一概率进行合并处理,得到所述文本分类结果;当所述分类维度的数目为一个时,将所述分类维度对应的第一概率作为所述文本分类结果。
在一些实施例中,所述文本评估模块5552,还用于针对每个敏感类别执行以下处理:确定所述图像描述文本中属于所述敏感类别的多个敏感程度各自的其他关键词的数目,并将对应所述多个敏感程度各自的数目组成对应所述敏感类别的敏感程度数据;将多个所述敏感类别的敏感程度数据进行组合处理,得到对应所述图像描述文本的敏感程度数据。
在一些实施例中,所述文本评估模块5552,还用于对所述文本分类结果以及所述敏感程度数据进行概率映射处理,得到文本违规评分,所述文本违规评分与所述图像描述文本违规的概率正相关;当所述文本违规评分大于文本违规分数阈值时,将文本违规确定为所述文本评估结果;当所述文本违规评分不大于所述文本违规分数阈值时,将文本合规确定为所述文本评估结果。
在一些实施例中,所述第一图像获取模块5553,还用于通过所述第一编码网络对所述原始图像进行潜在空间编码处理,得到所述原始图像的原始潜在空间编码;通过N个级联的去噪网络中第n去噪网络,对所述第n去噪网络的输入进行第n次去噪处理,并将所述第n去噪网络输出的第n潜在空间编码传输到第n+1去噪网络以继续进行第n+1次去噪处理,得到对应所述第n+1去噪网络的第n+1潜在空间编码;通过所述第一解码网络对第N潜在空间编码进行第一解码处理,得到与所述图像描述文本匹配的目标图像;其中,n为取值从1开始递增的整数变量,n的取值范围为1≤n<N,当n取值为1时,所述第n去噪网络的输入为所述图像描述文本的文本编码以及所述原始潜在空间编码,当n取值为2≤n<N时,所述第n去噪网络的输入为第n-1去噪网络输出的第n-1潜在空间编码以及所述图像描述文本的文本编码,所述去噪中间结果包括所述第n去噪网络输出的第n潜在空间编码。
在一些实施例中,所述图像采样模块5554,还用于获取与所述文本违规评分正相关的采样数目;获取采样区间,其中,所述采样区间的起点是第p去噪网络输出的第p潜在空间编码,所述采样区间的终点是第q去噪网络输出的第q潜在空间编码,p的取值为1≤p<N,q的取值为1<q≤N,q的取值大于p的取值;基于所述采样数目对所述采样区间进行均等采样,得到至少一个采样潜在空间编码;对所述至少一个采样潜在空间编码分别进行解码处理,得到所述中间图像。
在一些实施例中,所述第一图像评估模块5555,还用于对所述目标图像以及所述中间图像进行图像评估处理,得到所述目标图像对应的图像评估评分以及所述中间图像对应的图像评估评分;基于所述目标图像对应的图像评估评分以及所述中间图像对应的图像评估评分,确定图像违规评分,所述图像违规评分与图像违规的概率正相关;当所述图像违规评分大于图像违规分数阈值时,将图像违规确定为所述图像评估结果;当所述图像违规评分不大于所述图像违规分数阈值时,将图像合规确定为所述图像评估结果。
在一些实施例中,所述第一图像评估模块5555,还用于当所述中间图像的数目是多个时,基于每个所述中间图像的权重,对多个所述中间图像对应的图像评估评分进行加权处理,得到加权中间图像评估评分,其中,所述中间图像的权重与对应的去噪程度正相关;对所述加权中间图像评估评分以及所述目标图像对应的图像评估评分进行求和处理,得到第一求和结果;对多个所述中间图像的权重以及所述目标图像的设置权重进行求和处理,得到第二求和结果;获取与所述第一求和结果正相关且与所述第二求和结果负相关的图像违规评分。
在一些实施例中,所述第一结果确定模块5556,还用于当所述文本评估结果是文本合规时,基于所述图像描述文本对原始图像进行去噪处理,得到与所述图像描述文本匹配的目标图像;当所述文本评估结果是文本违规时,将所述图像评估结果作为所述目标图像的合规性评估结果;或者当所述文本评估结果表征所述图像描述文本存在文本违规时,将所述文本评估结果作为所述目标图像的合规性评估结果。
在一些实施例中,所述第一结果确定模块5556,还用于获取所述文本评估结果对应的文本违规评分以及所述图像评估结果对应的图像违规评分;确定所述文本违规评分与所述图像违规评分的均值,作为目标违规评分;当所述目标违规评分大于目标违规分数阈值时,将目标图像违规确定为所述目标图像的合规性评估结果;当所述目标违规评分不大于所述目标分数阈值时,将目标图像合规确定为所述目标图像的合规性评估结果。
下面继续说明本申请实施例提供的数据处理装置的实施为软件模块的示例性结构,在一些实施例中,存储在存储器的数据处理装置中的软件模块可以包括:第二图像获取模块,用于对原始图像进行去噪处理,得到目标图像,并对所述去噪处理的过程中生成的去噪中间结果进行图像采样处理,得到中间图像;第二图像评估模块,用于对所述目标图像以及所述中间图像进行图像合规性评估处理,得到图像评估结果;第二结果确定模块,用于基于所述图像评估结果,确定所述目标图像的合规性评估结果。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机可执行指令,该计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该电子设备执行本申请实施例上述的数据处理方法。
本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质,其中存储有计算机可执行指令,当计算机可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的数据处理方法,例如,如图3A示出的数据处理方法。
在一些实施例中,计算机可读存储介质可以是RAM、ROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,计算机可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(Hyper TextMarkup Language,HTML)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,计算机可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
综上所述,通过本申请实施例至少能够实现以下有益效果:
首先,通过对图像描述文本进行文本合规性评估处理,得到文本评估结果,并且对目标图像进行图像合规性评估处理,得到图像评估结果,最后结合图像评估结果和文本评估结果两个维度的评估结果,确定目标图像的合规性评估结果,提高了确定出的目标图像合规性评估结果的准确性,同时,在确定图像评估结果的过程中,通过对去噪处理的过程进行图像采样,得到中间图像,然后基于中间图像以及目标图像进行图像合规性评估处理,这里利用中间图像也进行图像评估处理,可以有效提高图像评估结果的准确性,同时,由于中间图像是通过采样得到的,因此还可以节约计算资源。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (16)
1.一种数据处理方法,其特征在于,所述方法包括:
获取图像描述文本,所述图像描述文本为用于描述图像内容的文本内容;
对所述图像描述文本进行文本合规性评估处理,得到文本评估结果;
获取与所述图像描述文本匹配的目标图像,其中,所述目标图像是基于所述图像描述文本对原始图像进行去噪处理得到的;
对所述去噪处理的过程中生成的去噪中间结果进行图像采样处理,得到中间图像;
对所述目标图像以及所述中间图像进行图像合规性评估处理,得到图像评估结果;
基于所述文本评估结果以及所述图像评估结果中至少之一,确定所述目标图像的合规性评估结果。
2.根据权利要求1所述的方法,其特征在于,所述获取图像描述文本,包括:
接收对象输入的图像描述文本;或者
接收对象输入的原始文本,通过语言模型对所述原始文本进行文本转换处理,得到与所述原始文本匹配的图像描述文本。
3.根据权利要求1所述的方法,其特征在于,所述对所述图像描述文本进行文本合规性评估处理,得到文本评估结果,包括:
当所述图像描述文本包括禁用关键词时,将文本违规作为所述文本评估结果;
当所述图像描述文本不包括所述禁用关键词时,执行以下处理:对所述图像描述文本进行文本分类处理,得到文本分类结果,基于其他关键词生成对应所述图像描述文本的敏感程度数据,基于所述文本分类结果以及所述敏感程度数据,确定所述文本评估结果,其中,所述其他关键词是除所述禁用关键词之外的关键词。
4.根据权利要求3所述的方法,其特征在于,所述对所述图像描述文本进行文本分类处理,得到文本分类结果,包括:
针对每个分类维度,对所述图像描述文本进行基于所述分类维度的分类处理,得到第一概率,其中所述第一概率表征所述图像描述文本符合所述分类维度对应的标签的概率;
当所述分类维度的数目为多个时,将多个所述分类维度分别对应的第一概率进行合并处理,得到所述文本分类结果;
当所述分类维度的数目为一个时,将所述分类维度对应的第一概率作为所述文本分类结果。
5.根据权利要求3所述的方法,其特征在于,所述基于其他关键词生成对应所述图像描述文本的敏感程度数据,包括:
针对每个敏感类别执行以下处理:确定所述图像描述文本中属于所述敏感类别的多个敏感程度各自的其他关键词的数目,并将对应所述多个敏感程度各自的数目组成对应所述敏感类别的敏感程度数据;
将多个所述敏感类别的敏感程度数据进行组合处理,得到对应所述图像描述文本的敏感程度数据。
6.根据权利要求3所述的方法,其特征在于,所述基于所述文本分类结果以及所述敏感程度数据,确定所述文本评估结果,包括:
对所述文本分类结果以及所述敏感程度数据进行概率映射处理,得到文本违规评分,所述文本违规评分与所述图像描述文本违规的概率正相关;
当所述文本违规评分大于文本违规分数阈值时,将文本违规确定为所述文本评估结果;
当所述文本违规评分不大于所述文本违规分数阈值时,将文本合规确定为所述文本评估结果。
7.根据权利要求1所述的方法,其特征在于,所述基于所述图像描述文本对原始图像进行去噪处理是通过调用图像生成模型实现的,所述图像生成模型包括N个级联的去噪网络、第一编码网络以及第一解码网络,N的取值满足2≤N;
所述获取与所述图像描述文本匹配的目标图像,包括:
通过所述第一编码网络对所述原始图像进行潜在空间编码处理,得到所述原始图像的原始潜在空间编码;
通过N个级联的去噪网络中第n去噪网络,对所述第n去噪网络的输入进行第n次去噪处理,并将所述第n去噪网络输出的第n潜在空间编码传输到第n+1去噪网络以继续进行第n+1次去噪处理,得到对应所述第n+1去噪网络的第n+1潜在空间编码;
通过所述第一解码网络对第N潜在空间编码进行第一解码处理,得到与所述图像描述文本匹配的目标图像;
其中,n为取值从1开始递增的整数变量,n的取值范围为1≤n<N,当n取值为1时,所述第n去噪网络的输入为所述图像描述文本的文本编码以及所述原始潜在空间编码,当n取值为2≤n<N时,所述第n去噪网络的输入为第n-1去噪网络输出的第n-1潜在空间编码以及所述图像描述文本的文本编码,所述去噪中间结果包括所述第n去噪网络输出的第n潜在空间编码。
8.根据权利要求7所述的方法,其特征在于,所述文本评估结果包括文本违规评分,所述文本违规评分与所述图像描述文本违规的概率正相关;
所述对所述去噪处理的过程中生成的去噪中间结果进行图像采样处理,得到中间图像,包括:
获取与所述文本违规评分正相关的采样数目;
获取采样区间,其中,所述采样区间的起点是第p去噪网络输出的第p潜在空间编码,所述采样区间的终点是第q去噪网络输出的第q潜在空间编码,p的取值为1≤p<N,q的取值为1<q≤N,q的取值大于p的取值;
基于所述采样数目对所述采样区间进行均等采样,得到至少一个采样潜在空间编码;
对所述至少一个采样潜在空间编码分别进行解码处理,得到所述中间图像。
9.根据权利要求1所述的方法,其特征在于,所述对所述目标图像以及所述中间图像进行图像合规性评估处理,得到图像评估结果,包括:
对所述目标图像以及所述中间图像进行图像评估处理,得到所述目标图像对应的图像评估评分以及所述中间图像对应的图像评估评分;
基于所述目标图像对应的图像评估评分以及所述中间图像对应的图像评估评分,确定图像违规评分,所述图像违规评分与图像违规的概率正相关;
当所述图像违规评分大于图像违规分数阈值时,将图像违规确定为所述图像评估结果;
当所述图像违规评分不大于所述图像违规分数阈值时,将图像合规确定为所述图像评估结果。
10.根据权利要求9所述的方法,其特征在于,所述基于所述目标图像对应的图像评估评分以及所述中间图像对应的图像评估评分,确定图像违规评分,包括:
当所述中间图像的数目是多个时,基于每个所述中间图像的权重,对多个所述中间图像对应的图像评估评分进行加权处理,得到加权中间图像评估评分,其中,所述中间图像的权重与对应的去噪程度正相关;
对所述加权中间图像评估评分以及所述目标图像对应的图像评估评分进行求和处理,得到第一求和结果;
对多个所述中间图像的权重以及所述目标图像的设置权重进行求和处理,得到第二求和结果;
获取与所述第一求和结果正相关且与所述第二求和结果负相关的图像违规评分。
11.根据权利要求1所述的方法,其特征在于,所述获取与所述图像描述文本匹配的目标图像,包括:
当所述文本评估结果是文本合规时,基于所述图像描述文本对原始图像进行去噪处理,得到与所述图像描述文本匹配的目标图像;
所述基于所述文本评估结果以及所述图像评估结果中至少之一,确定所述目标图像的合规性评估结果,包括:
当所述文本评估结果是文本合规时,将所述图像评估结果作为所述目标图像的合规性评估结果;或者
当所述文本评估结果是文本违规时,将所述文本评估结果作为所述目标图像的合规性评估结果。
12.根据权利要求1所述的方法,其特征在于,所述基于所述文本评估结果以及所述图像评估结果中至少之一,确定所述目标图像的合规性评估结果,包括:
获取所述文本评估结果对应的文本违规评分以及所述图像评估结果对应的图像违规评分;
确定所述文本违规评分与所述图像违规评分的均值,作为目标违规评分;
当所述目标违规评分大于目标违规分数阈值时,将目标图像违规确定为所述目标图像的合规性评估结果;
当所述目标违规评分不大于所述目标违规分数阈值时,将目标图像合规确定为所述目标图像的合规性评估结果。
13.一种数据处理装置,其特征在于,所述装置包括:
文本获取模块,用于获取图像描述文本,所述图像描述文本为用于描述图像内容的文本内容;
文本评估模块,用于对所述图像描述文本进行文本合规性评估处理,得到文本评估结果;
第一图像获取模块,用于获取与所述图像描述文本匹配的目标图像,其中,所述目标图像是基于所述图像描述文本对原始图像进行去噪处理得到的;
图像采样模块,用于对所述去噪处理的过程中生成的去噪中间结果进行图像采样处理,得到中间图像;
第一图像评估模块,用于对所述目标图像以及所述中间图像进行图像合规性评估处理,得到图像评估结果;
第一结果确定模块,用于基于所述文本评估结果以及所述图像评估结果中至少之一,确定所述目标图像的合规性评估结果。
14.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现权利要求1至12任一项所述的数据处理方法。
15.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令被处理器执行时实现权利要求1至12任一项所述的数据处理方法。
16.一种计算机程序产品,包括计算机可执行指令,其特征在于,所述计算机可执行指令被处理器执行时实现权利要求1至12任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410423280.0A CN118038214B (zh) | 2024-04-09 | 数据处理方法、装置、电子设备、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410423280.0A CN118038214B (zh) | 2024-04-09 | 数据处理方法、装置、电子设备、存储介质及程序产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118038214A CN118038214A (zh) | 2024-05-14 |
CN118038214B true CN118038214B (zh) | 2024-07-16 |
Family
ID=
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114881698A (zh) * | 2022-05-17 | 2022-08-09 | 平安科技(深圳)有限公司 | 广告合规审核方法、装置、电子设备及存储介质 |
CN116188765A (zh) * | 2022-12-29 | 2023-05-30 | 凌云光技术股份有限公司 | 检测方法、检测装置、检测设备和计算机可读存储介质 |
CN116450873A (zh) * | 2023-02-20 | 2023-07-18 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像生成及扩散模型训练方法、电子设备及存储介质 |
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114881698A (zh) * | 2022-05-17 | 2022-08-09 | 平安科技(深圳)有限公司 | 广告合规审核方法、装置、电子设备及存储介质 |
CN116188765A (zh) * | 2022-12-29 | 2023-05-30 | 凌云光技术股份有限公司 | 检测方法、检测装置、检测设备和计算机可读存储介质 |
CN116450873A (zh) * | 2023-02-20 | 2023-07-18 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像生成及扩散模型训练方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020228376A1 (zh) | 文本处理方法、模型训练方法和装置 | |
CN109905385B (zh) | 一种webshell检测方法、装置及系统 | |
CN111160452A (zh) | 一种基于预训练语言模型的多模态网络谣言检测方法 | |
CN112837669B (zh) | 语音合成方法、装置及服务器 | |
CN113220890A (zh) | 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法 | |
CN113255328B (zh) | 语言模型的训练方法及应用方法 | |
CN108345612A (zh) | 一种问题处理方法和装置、一种用于问题处理的装置 | |
CN113392640A (zh) | 一种标题确定方法、装置、设备及存储介质 | |
CN111241820A (zh) | 不良用语识别方法、装置、电子装置及存储介质 | |
CN116226785A (zh) | 目标对象识别方法、多模态识别模型的训练方法和装置 | |
CN114691864A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 | |
CN110737811A (zh) | 应用分类方法、装置以及相关设备 | |
CN113095072B (zh) | 文本处理方法及装置 | |
CN117558270B (zh) | 语音识别方法、装置、关键词检测模型的训练方法和装置 | |
CN116722992A (zh) | 一种基于多模态融合的诈骗网站识别方法及装置 | |
CN117235605B (zh) | 一种基于多模态注意力融合的敏感信息分类方法及装置 | |
CN111291551A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
Liang et al. | A lightweight method for face expression recognition based on improved MobileNetV3 | |
CN118038214B (zh) | 数据处理方法、装置、电子设备、存储介质及程序产品 | |
CN114786059B (zh) | 视频生成方法、视频生成装置、电子设备、存储介质 | |
CN116910251A (zh) | 基于bert模型的文本分类方法、装置、设备及介质 | |
CN113610080B (zh) | 基于跨模态感知的敏感图像识别方法、装置、设备及介质 | |
CN115757786A (zh) | 文本分类方法、装置、设备及存储介质 | |
CN118038214A (zh) | 数据处理方法、装置、电子设备、存储介质及程序产品 | |
CN113836297A (zh) | 文本情感分析模型的训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |