CN117218111A - 一种基于文本生成图像的变形检测方法及相关装置 - Google Patents
一种基于文本生成图像的变形检测方法及相关装置 Download PDFInfo
- Publication number
- CN117218111A CN117218111A CN202311380307.4A CN202311380307A CN117218111A CN 117218111 A CN117218111 A CN 117218111A CN 202311380307 A CN202311380307 A CN 202311380307A CN 117218111 A CN117218111 A CN 117218111A
- Authority
- CN
- China
- Prior art keywords
- detected
- image
- deformation
- sample
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 493
- 238000000034 method Methods 0.000 claims description 58
- 238000012549 training Methods 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 10
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000011897 real-time detection Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 15
- 238000005516 engineering process Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 230000004438 eyesight Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000016776 visual perception Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本申请公开一种基于文本生成图像的变形检测方法及相关装置,应用于人工智能领域。该方法针对提示文本生成的多个待测图像中每个待测图像,将待测图像输入对象检测模型,对待测图像中待测对象进行部位检测,得到待测对象的多个待测部位对应的多个检测区域;按照多个检测区域对待测图像进行区域截取,得到多个待测部位对应的多个待测子图。针对每个待测子图,将待测子图输入待测子图中待测部位的部位类别对应的变形检测模型,对待测子图中待测部位进行变形检测,得到待测子图中待测部位的变形检测数据;将多个待测子图中待测部位对应的多个变形检测数据作为待测图像中待测对象的变形检测数据,以提升变形检测数据的准确性和可靠性。
Description
技术领域
本申请涉及人工智能领域,特别是涉及一种基于文本生成图像的变形检测方法及相关装置。
背景技术
随着生成式人工智能技术的快速发展,基于生成式人工智能技术的文本生成图像逐渐应用到各种图像生成场景中,例如,广告图像生成场景。为了检测文本生成的图像的质量,需要对文本生成的图像中对象进行变形检测。
相关技术中,变形检测方法是指:在通过样本文本生成的样本图像和样本图像中样本对象的变形标签数据,训练一个检测模型得到变形检测模型之后,将提示文本生成的待测图像输入变形检测模型进行变形检测,得到待测图像中待测对象的变形检测数据。
然而,上述变形检测方法是将整个待测图像输入变形检测模型进行变形检测,在待测图像中待测对象包括多个对象部位时,容易导致待测对象的变形检测不够细致,从而导致待测图像中待测对象的变形检测数据不够准确、不够可靠。
发明内容
为了解决上述技术问题,本申请提供了一种基于文本生成图像的变形检测方法及相关装置,在关注、考虑待测图像中待测对象的多个待测部位的基础上,针对多个待测部位中每个待测部位,更细致、更精确对待测图像中待测对象进行变形检测,从而提升待测图像中待测对象的变形检测数据的准确性和可靠性。
本申请实施例公开了如下技术方案:
一方面,本申请实施例提供一种基于文本生成图像的变形检测方法,所述方法包括:
针对提示文本生成的多个待测图像中每个待测图像,通过对象检测模型对所述待测图像中待测对象进行部位检测,获得所述待测对象的多个待测部位对应的多个检测区域;
根据所述多个检测区域对所述待测图像进行区域截取,获得所述多个待测部位对应的多个待测子图;
针对每个待测子图,通过所述待测子图中待测部位的部位类别对应的变形检测模型,对所述待测子图中待测部位进行变形检测,获得所述待测子图中待测部位的变形检测数据;所述待测部位的部位类别对应的变形检测模型是根据样本部位对应的样本子图和所述样本子图中样本部位的变形标签数据训练预设检测模型得到的,所述样本子图是截取样本文本生成的样本图像中样本对象的样本部位得到的,所述样本部位与所述待测部位的部位类别相同,不同部位类别对应不同变形检测模型;
将所述多个待测子图中待测部位对应的多个变形检测数据,确定为所述待测图像中待测对象的变形检测数据。
另一方面,本申请实施例提供一种基于文本生成图像的变形检测装置,所述装置包括:检测单元、截取单元和确定单元;
所述检测单元,用于针对提示文本生成的多个待测图像中每个待测图像,通过对象检测模型对所述待测图像中待测对象进行部位检测,获得所述待测对象的多个待测部位对应的多个检测区域;
所述截取单元,用于根据所述多个检测区域对所述待测图像进行区域截取,获得所述多个待测部位对应的多个待测子图;
所述检测单元,还用于针对每个待测子图,通过所述待测子图中待测部位的部位类别对应的变形检测模型,对所述待测子图中待测部位进行变形检测,获得所述待测子图中待测部位的变形检测数据;所述待测部位的部位类别对应的变形检测模型是根据样本部位对应的样本子图和所述样本子图中样本部位的变形标签数据训练预设检测模型得到的,所述样本子图是截取样本文本生成的样本图像中样本对象的样本部位得到的,所述样本部位与所述待测部位的部位类别相同,不同部位类别对应不同变形检测模型;
所述确定单元,用于将所述多个待测子图中待测部位对应的多个变形检测数据,确定为所述待测图像中待测对象的变形检测数据。
另一方面,本申请实施例提供一种计算机设备,所述计算机设备包括处理器以及存储器:
所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
所述处理器用于根据所述计算机程序中的指令执行前述任一方面所述的方法。
另一方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,当所述计算机程序在计算机设备上运行时,使得所述计算机设备执行前述任一方面所述的方法。
另一方面,本申请实施例提供一种计算机程序产品,包括计算机程序,当所述计算机程序在计算机设备上运行时,使得所述计算机设备执行前述任一方面所述的方法。
由上述技术方案可以看出,首先,针对提示文本生成的多个待测图像中每个待测图像,将待测图像输入对象检测模型,对待测图像中待测对象进行部位检测,得到待测对象的多个待测部位对应的多个检测区域;按照多个检测区域对待测图像进行区域截取,得到多个待测部位对应的多个待测子图。该方式通过检测出提示文本生成的待测图像中待测对象的多个待测部位所在区域,以截取待测图像得到多个待测部位对应的多个待测子图,能够关注、考虑待测图像中待测对象的多个待测部位。
然后,针对每个待测子图,将待测子图输入待测子图中待测部位的部位类别对应的变形检测模型,对待测子图中待测部位进行变形检测,得到待测子图中待测部位的变形检测数据;其中,待测部位的部位类别对应的变形检测模型是由样本部位对应的样本子图和样本子图中样本部位的变形标签数据训练预设检测模型得到,样本子图是截取样本文本生成的样本图像中样本对象的样本部位得到的,样本部位与待测部位的部位类别相同,不同部位类别对应不同变形检测模型;将多个待测子图中待测部位对应的多个变形检测数据作为待测图像中待测对象的变形检测数据。该方式通过分别检测出每个待测子图中待测部位的变形检测数据,汇总多个待测子图中待测部位对应的多个变形检测数据,以决策待测图像中待测对象的变形检测数据,使得待测图像中待测对象的变形检测更细致、更精确。
基于此,该方法在关注、考虑待测图像中待测对象的多个待测部位的基础上,针对多个待测部位中每个待测部位,更细致、更精确对待测图像中待测对象进行变形检测,从而提升待测图像中待测对象的变形检测数据的准确性和可靠性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术成员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于文本生成图像的变形检测方法的系统架构示意图;
图2为本申请实施例提供的一种基于文本生成图像的变形检测方法的流程图;
图3为本申请实施例提供的一种提示文本生成的待测图像的示意图;
图4为本申请实施例提供的一种待测图像中待测对象的多个待测部位对应的多个检测区域的示意图;
图5为本申请实施例提供的一种样本文本生成的样本图像的示意图;
图6为本申请实施例提供的一种不同部位类别对应的预设变形数据下不同变形检测模型的准召曲线示意图;
图7为本申请实施例提供的一种基于文本生成图像的变形检测装置的结构图;
图8为本申请实施例提供的一种服务器的结构图;
图9为本申请实施例提供的一种终端的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
在广告图像生成场景中,基于文本生成的广告图像通常包括人像等对象,广告图像中人像变形容易引起观感上的不适,为了检测文本生成的广告图像的质量,需要对文本生成的广告图像中人像进行变形检测。现阶段,变形检测方法是指:在通过样本文本生成的样本图像和样本图像中样本人像的变形标签数据,训练一个检测模型得到变形检测模型之后,将提示文本生成的待测图像输入变形检测模型进行变形检测,得到待测图像中待测人像的变形检测数据。
但是,上述变形检测方法是将整个待测图像输入变形检测模型,对待测图像中整个待测人像进行变形检测,在待测图像中待测人像包括脸部、左手、右手等多个人像部位时,容易导致待测人像的变形检测不够细致,从而导致待测图像中待测人像的变形检测数据不够准确、不够可靠。
本申请实施例提供一种基于文本生成图像的变形检测方法,在关注、考虑待测图像中待测对象的多个待测部位的基础上,针对多个待测部位中每个待测部位,更细致、更精确对待测图像中待测对象进行变形检测,从而提升待测图像中待测对象的变形检测数据的准确性和可靠性。
接下来,将对基于文本生成图像的变形检测方法的系统架构进行介绍。参见图1,图1为本申请实施例提供的一种基于文本生成图像的变形检测方法的系统架构示意图,该系统架构中包括服务器100,该服务器100用于执行基于文本生成图像的变形检测方法。
服务器100针对提示文本生成的多个待测图像中每个待测图像,通过对象检测模型对待测图像中待测对象进行部位检测,获得待测对象的多个待测部位对应的多个检测区域。
作为一种示例,提示文本为文本1,该文本1生成的多个待测图像为m个图像a,m为正整数,m≥2,图像a中待测对象为待测人像,对象检测模型为姿态估计开源工具箱MMPose;则服务器100针对m个图像a中每个图像a,将该图像a输入MMPose,对该图像a中待测人像进行部位检测,得到待测人像的多个待测部位对应的多个检测区域为待测人像的n个待测部位对应的n个检测区域,n为正整数,n≥2。
服务器100根据多个检测区域对待测图像进行区域截取,获得多个待测部位对应的多个待测子图。
作为一种示例,在上述示例的基础上,服务器100按照n个检测区域对该图像a进行区域截取,得到n个待测部位对应的n个待测子图为n个子图a。
服务器100针对每个待测子图,通过待测子图中待测部位的部位类别对应的变形检测模型,对待测子图中待测部位进行变形检测,获得待测子图中待测部位的变形检测数据;待测部位的部位类别对应的变形检测模型是根据样本部位对应的样本子图和样本子图中样本部位的变形标签数据训练预设检测模型得到的,样本子图是截取样本文本生成的样本图像中样本对象的样本部位得到的,样本部位与待测部位的部位类别相同,不同部位类别对应不同变形检测模型。
作为一种示例,预设检测模型为卷积神经网络MobileNet_v2,样本文本为文本2,该文本2生成的样本图像为图像b,图像b中样本对象为样本人像;在上述示例的基础上,服务器100预先截取图像b中样本人像的与待测部位的部位类别相同的样本部位,得到样本部位对应的样本子图为子图b,由子图b和子图b中样本部位的变形标签数据,训练MobileNet_v2得到待测部位的部位类别对应的变形检测模型。基于此,服务器100针对n个子图a中每个子图a,将该子图a输入该子图a中待测部位的部位类别对应的变形检测模型,对该子图a中待测部位进行变形检测,得到该子图a中待测部位的变形检测数据。
服务器100将多个待测子图中待测部位对应的多个变形检测数据,确定为待测图像中待测对象的变形检测数据。
作为一种示例,在上述示例的基础上,将n个待测子图中待测部位对应的n个变形检测数据作为图像a中待测人像的变形检测数据。
也就是说,通过检测出提示文本生成的待测图像中待测对象的多个待测部位所在区域,以截取待测图像得到多个待测部位对应的多个待测子图,能够关注、考虑待测图像中待测对象的多个待测部位;通过分别检测出每个待测子图中待测部位的变形检测数据,汇总多个待测子图中待测部位对应的多个变形检测数据,以决策待测图像中待测对象的变形检测数据,使得待测图像中待测对象的变形检测更细致、更精确。可见,该方法在关注、考虑待测图像中待测对象的多个待测部位的基础上,针对多个待测部位中每个待测部位,更细致、更精确对待测图像中待测对象进行变形检测,从而提升待测图像中待测对象的变形检测数据的准确性和可靠性。
需要说明的是,在本申请实施例中,计算机设备可以是服务器或终端,本申请实施例提供的方法可以由终端或服务器单独执行,也可以由终端和服务器配合执行。其中,图1对应的实施例主要以服务器执行本申请实施例提供的方法为例进行介绍。
此外,当本申请实施例提供的方法由终端单独执行时,其执行方法与图1对应的实施例类似,主要是将服务器换成终端。另外,当由终端和服务器配合执行本申请实施例提供的方法时,需要体现在前端界面上的步骤可以由终端执行,而一些需要后台计算、无需体现在前端界面上的步骤可以由服务器执行。
其中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、车载终端或飞行器等,但并不局限于此。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器,但并不局限于此。终端和服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。例如终端和服务器可以通过网络连接,该网络可以是有线或无线网络。
其中,本申请实施例提供的方法涉及人工智能。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。本申请实施例提供的方法主要涉及计算机视觉技术和机器学习/深度学习。
其中,计算机视觉技术是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
此外,本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、音视频、辅助驾驶等。
接下来,将以服务器执行本申请实施例提供的方法为例、结合附图对本申请实施例提供的基于文本生成图像的变形检测方法进行详细介绍。参见图2,图2为本申请实施例提供的一种基于文本生成图像的变形检测方法的流程图,方法包括:
S201:针对提示文本生成的多个待测图像中每个待测图像,通过对象检测模型对待测图像中待测对象进行部位检测,获得待测对象的多个待测部位对应的多个检测区域。
由于相关技术中,对文本生成的图像中对象进行变形检测实际上是:在通过样本文本生成的样本图像和样本图像中样本对象的变形标签数据,训练一个检测模型得到变形检测模型之后,将提示文本生成的待测图像输入变形检测模型进行变形检测,得到待测图像中待测对象的变形检测数据。但是,该变形检测方法是将整个待测图像输入变形检测模型进行变形检测,在待测图像中待测对象包括多个对象部位时,容易导致待测对象的变形检测不够细致,从而导致待测图像中待测对象的变形检测数据不够准确、不够可靠。
因此,本申请实施例中,为了解决上述问题,考虑到待测图像中待测对象包括多个对象部位的情况,在基于提示文本生成多个待测图像之后,针对每个待测图像,需要检测出该待测图像中待测对象的多个待测部位所在区域,在该待测图像中待测对象的基础上,进一步关注、考虑待测图像中待测对象的多个待测部位,以便后续针对多个待测部位检测出多个变形检测数据,决策待测图像中待测对象的变形检测数据,使得待测图像中待测对象的变形检测更细致、更精确,从而提升待测图像中待测对象的变形检测数据的准确性和可靠性。
基于此,首先,检测出每个待测图像中待测对象的多个待测部位所在区域实际上是:针对提示文本生成的多个待测图像中每个待测图像,将待测图像输入对象检测模型,对待测图像中待测对象进行部位检测,得到待测对象的多个待测部位对应的多个检测区域。其中,对象检测模型用于对图像中整个对象的多个对象部位进行部位检测。
上述S201通过检测出提示文本生成的待测图像中待测对象的多个待测部位所在区域,能够关注、考虑待测图像中待测对象的多个待测部位;为后续针对多个待测部位检测出多个变形检测数据提供更细致、更精确的检测依据。
作为上述S201的一种示例,提示文本为文本1,该文本1生成的多个待测图像为m个图像a,m为正整数,m≥2,图像a中待测对象为待测人像,对象检测模型为MMPose;服务器针对m个图像a中每个图像a,将该图像a输入MMPose,对该图像a中待测人像进行部位检测,得到待测人像的多个待测部位对应的多个检测区域为待测人像的n个待测部位对应的n个检测区域,n为正整数,n≥2。
此外,对象检测模型还可以是基于深度学习的人体姿势估计工具OpenPose等其他检测模型,在实际应用中,主要基于图像中整个对象的多个对象部位的检测速度需求和检测准确率需求,确定对象检测模型。
参见图3,图3为本申请实施例提供的一种提示文本生成的待测图像的示意图;其中,提示文本具体为“有落地窗的办公室,女白领,用电脑工作,正在接听电话”,该提示文本生成的待测图像如图3所示。在图3的基础上,参见图4,图4为本申请实施例提供的一种待测图像中待测对象的多个待测部位对应的多个检测区域的示意图;将图3所示待测图像输入MMPose,对该待测图像中待测人像进行部位检测,得到待测人像的多个待测部位对应的多个检测区域包括:待测人像的待测脸部的检测区域、待测人像的待测左手的检测区域、以及待测人像的待测右手的检测区域,如图4所示的3个加粗方框表示的3个检测区域。
S202:根据多个检测区域对待测图像进行区域截取,获得多个待测部位对应的多个待测子图。
本申请实施例中,在执行S201得到待测图像中待测对象的多个待测部位对应的多个检测区域之后,为了后续针对多个待测部位检测出多个变形检测数据,考虑到不同部位类别的待测部位需要针对性进行变形检测,还需要获取待测图像中待测对象的每个待测部位的部位图像;即,按照多个检测区域对待测图像进行区域截取,得到多个待测部位对应的多个待测子图。
上述S202在上述S201检测出提示文本生成的待测图像中待测对象的多个待测部位所在区域的基础上,按照多个待测部位所在区域,截取待测图像得到多个待测部位对应的多个待测子图,为后续针对多个待测部位检测出多个变形检测数据提供更细致、更精确的图像数据。
作为上述S202的一种示例,在上述S201示例检测出图像a中待测人像的n个待测部位对应的n个检测区域基础上,按照n个检测区域对该图像a进行区域截取,得到n个待测部位对应的n个待测子图为n个子图a。在上述图4所示的3个加粗方框表示的3个检测区域的基础上,按照3个检测区域对图3所示待测图像进行区域截取,得到待测人像的待测脸部对应的脸部子图、待测人像的待测左手对应的左手子图、以及待测人像的待测右手对应的右手子图。
S203:针对每个待测子图,通过待测子图中待测部位的部位类别对应的变形检测模型,对待测子图中待测部位进行变形检测,获得待测子图中待测部位的变形检测数据;待测部位的部位类别对应的变形检测模型是根据样本部位对应的样本子图和样本子图中样本部位的变形标签数据训练预设检测模型得到的,样本子图是截取样本文本生成的样本图像中样本对象的样本部位得到的,样本部位与待测部位的部位类别相同,不同部位类别对应不同变形检测模型。
本申请实施例中,在执行S202截取待测图像得到待测图像中待测对象的多个待测部位对应的多个待测子图之后,为了使得待测图像中待测对象的变形检测更细致、更精确,还需要在多个待测部位对应的多个待测子图的基础上,针对多个待测部位检测出多个变形检测数据;即,针对每个待测子图,将待测子图输入待测子图中待测部位的部位类别对应的变形检测模型,对待测子图中待测部位进行变形检测,得到待测子图中待测部位的变形检测数据。
其中,待测部位的部位类别对应的变形检测模型的训练方式是指:预先截取样本图像中样本人像的与待测部位的部位类别相同的样本部位,得到样本部位对应的样本子图,由样本子图和样本子图中样本部位的变形标签数据训练预设检测模型,得到待测部位的部位类别对应的变形检测模型。在上述说明的基础上,可以确定不同部位类别对应不同变形检测模型。
上述S203通过分别检测出每个待测子图中待测部位的变形检测数据,能够更细致、更精确地针对待测图像中待测对象的每个待测部位进行变形检测,为后续确定待测图像中待测对象的变形检测数据提供更细致、更精确的检测数据,从而使得待测图像中待测对象的变形检测更细致、更精确。
作为上述S203的一种示例,预设检测模型为卷积神经网络MobileNet_v2,样本文本为文本2,文本生成的样本图像为图像b,图像b中样本对象为样本人像;服务器预先截取图像b中样本人像的与待测部位的部位类别相同的样本部位,得到样本部位对应的样本子图为子图b,由子图b和子图b中样本部位的变形标签数据,训练MobileNet_v2得到待测部位的部位类别对应的变形检测模型。参见图5,图5为本申请实施例提供的一种样本文本生成的样本图像的示意图;其中,样本文本具体为“一个商务男性,西装,飞机场”,该样本文本生成的样本图像如图5所示。在此基础上,将图5所示样本图像输入MMPose,对该样本图像中样本人像进行部位检测,得到样本人像的多个样本部位对应的多个检测区域包括:样本人像的样本脸部对应的检测区域、样本人像的样本左手对应的检测区域、以及样本人像的样本右手对应的检测区域,如图5所示的3个加粗方框表示的3个检测区域。样本脸部的变形标签数据为0,样本左手的变形标签数据为0,样本右手的变形标签数据为1,其中,样本部位的变形标签数据为0表示样本子图中样本部位未变形,样本部位的变形标签数据为1表示样本子图中样本部位变形。
基于此,在上述202示例截取图像a中待测人像的n个待测部位对应的n个子图a的基础上,服务器针对n个子图a中每个子图a,将该子图a输入该子图a中待测部位的部位类别对应的变形检测模型,对该子图a中待测部位进行变形检测,得到该子图a中待测部位的变形检测数据。在上述待测人像的待测脸部对应的脸部子图、待测人像的待测左手对应的左手子图、以及待测人像的待测右手对应的右手子图的基础上;将该待测脸部对应的脸部子图输入脸部类别对应的变形检测模型,对该待测脸部进行变形检测得到该待测脸部的变形检测数据为0.05;将该待测左手对应的左手子图输入左手类别对应的变形检测模型,对该待测左手进行变形检测得到该待测左手的变形检测数据为0.89;将该待测右手对应的右手子图输入右手类别对应的变形检测模型,对该待测右手进行变形检测得到该待测右手的变形检测数据为0.78。
此外,预设检测模型还可以是卷积神经网络MobileNet_v3等其他检测模型,在实际应用中,主要基于检测速度需求和检测准确率需求确定预设检测模型。
S204:将多个待测子图中待测部位对应的多个变形检测数据,确定为待测图像中待测对象的变形检测数据。
本申请实施例中,在执行S203得到每个待测子图中待测部位的变形检测数据之后,在多个待测子图中待测部位对应的多个变形检测数据的基础上,为了提升待测图像中待测对象的变形检测数据的准确性和可靠性,还需要将多个待测子图中待测部位对应的多个变形检测数据作为待测图像中待测对象的变形检测数据。
上述S204汇总多个待测子图中待测部位对应的多个变形检测数据,以决策待测图像中待测对象的变形检测数据,使得待测图像中待测对象的变形检测更细致、更精确。
作为上述S204的一种示例,在上述S203示例针对图像a截取的n个子图a,检测每个子图a中待测部位的变形检测数据的基础上,将n个子图a中待测部位对应的n个变形检测数据作为图像a中待测人像的变形检测数据。
由上述技术方案可以看出,基于文本生成图像的变形检测方法,首先,针对提示文本生成的多个待测图像中每个待测图像,将待测图像输入对象检测模型,对待测图像中待测对象进行部位检测,得到待测对象的多个待测部位对应的多个检测区域;按照多个检测区域对待测图像进行区域截取,得到多个待测部位对应的多个待测子图。该方式通过检测出提示文本生成的待测图像中待测对象的多个待测部位所在区域,以截取待测图像得到多个待测部位对应的多个待测子图,能够关注、考虑待测图像中待测对象的多个待测部位。
然后,针对每个待测子图,将待测子图输入待测子图中待测部位的部位类别对应的变形检测模型,对待测子图中待测部位进行变形检测,得到待测子图中待测部位的变形检测数据;其中,待测部位的部位类别对应的变形检测模型是由样本部位对应的样本子图和样本子图中样本部位的变形标签数据训练预设检测模型得到,样本子图是截取样本文本生成的样本图像中样本对象的样本部位得到的,样本部位与待测部位的部位类别相同,不同部位类别对应不同变形检测模型;将多个待测子图中待测部位对应的多个变形检测数据作为待测图像中待测对象的变形检测数据。该方式通过分别检测出每个待测子图中待测部位的变形检测数据,汇总多个待测子图中待测部位对应的多个变形检测数据,以决策待测图像中待测对象的变形检测数据,使得待测图像中待测对象的变形检测更细致、更精确。
基于此,该方法在关注、考虑待测图像中待测对象的多个待测部位的基础上,针对多个待测部位中每个待测部位,更细致、更精确对待测图像中待测对象进行变形检测,从而提升待测图像中待测对象的变形检测数据的准确性和可靠性。
本申请实施例中,在上述S201具体实现时,为了避免在检测待测图像中待测对象的多个待测部位对应的多个检测区域时,待测图像中背景区域的干扰影响,可以通过对象检测子模型和部位检测子模型构建对象检测模型;基于此,先将待测图像输入对象检测模型中对象检测子模型,对待测图像进行对象检测,得到待测图像中待测对象;再经过对象检测模型中部位检测子模型,对待测对象进行部位检测,得到待测对象的多个待测部位对应的多个检测区域。因此,本申请提供了一种可能的实现方式,对象检测模型包括对象检测子模型和部位检测子模型,上述S201包括如下S2011-S2012(图中未示出):
S2011:通过对象检测子模型对待测图像进行对象检测,获得待测图像中待测对象。
S2012:通过部位检测子模型对待测对象进行部位检测,获得待测对象的多个待测部位对应的多个检测区域。
上述S2011-S2012能够进一步更细致、更精准地检测出待测图像中待测对象的多个待测部位对应的多个检测区域,以进一步细致、更精准地关注考虑待测图像中待测对象的多个待测部位;为后续针对多个待测部位检测出多个变形检测数据提供进一步更细致、更精确的检测依据。
作为上述S2011-S2012的一种示例,在上述S201示例的基础上,服务器针对m个图像a中每个图像a,先将该图像a输入MMPose中对象检测子模型,对该图像a进行人像检测,得到该图像a中待测人像;再经过MMPose中部位检测子模型,对待测人像进行部位检测,得到待测人像的n个待测部位对应的n个检测区域。
此外,本申请实施例中,考虑到在显示提示文本生成的多个待测图像时,更加关注于优先显示的待测图像,需要优先显示待测人像的变形概率更小的待测图像,以尽量减少待测图像中待测对象变形引起观感上的不适;基于此,首先,针对每个待测图像,在检测出该待测图像截取的多个待测子图中待测部位对应的多个变形检测数据的基础上,综合计算该待测图像中待测对象的综合变形数据,以表示该待测图像中待测对象的变形概率;然后,按照多个待测图像中待测对象对应的多个综合变形数据表示的变形概率,由小到大排序多个待测图像得到多个待测图像的排序顺序;最后,按照多个待测图像的排序顺序显示多个待测图像。因此,本申请提供了一种可能的实现方式,方法还包括如下S1-S2(图中未示出):
S1:针对每个待测图像,根据待测图像截取的多个待测子图中待测部位对应的多个变形检测数据进行综合计算,获得待测图像中待测对象的综合变形数据。
S2:根据多个待测图像中待测对象对应的多个综合变形数据表示的变形概率,由小到大对多个待测图像进行排序处理,获得多个待测图像的排序顺序。
S3:根据多个待测图像的排序顺序,显示多个待测图像。
上述S1-S3针对提示文本生成的多个待测图像,优先显示待测人像的变形概率更小的待测图像,使得更加关注于优先显示的待测人像的变形概率更小的待测图像,减少关注于在后显示的待测人像的变形概率更大的待测图像,从而能够在一定程度上减少待测图像中待测对象变形引起观感上的不适。
作为上述S1-S3的一种示例,在上述S204示例的基础上,针对m个图像a中每个图像a,在检测出该图像a截取的n个子图a中待测部位对应的n个变形检测数据的基础上,综合计算该图像a中待测人像的综合变形数据,以表示该图像a中待测人像的变形概率;按照m个图像a中待测人像对应的多个综合变形数据表示的变形概率,由小到大排序m个图像a得到m个图像a的排序顺序;按照m个图像a的排序顺序显示m个图像a。
其中,在上述S1具体实现时,考虑到该多个待测子图中待测部位对应的多个部位类别,对该待测图像中待测对象的变形影响程度不同,在检测出该待测图像截取的多个待测子图中待测部位对应的多个变形检测数据的基础上,综合计算该待测图像中待测对象的综合变形数据实际上是:首先,通过多个待测子图中待测部位对应的多个部位类别,确定多个待测子图中待测部位对应的多个权重;然后,按照多个待测子图中待测部位对应的多个权重、以及多个待测子图中待测部位对应的多个变形检测数据,加权计算待测图像中待测对象的综合变形数据。因此,本申请提供了一种可能的实现方式,上述S1包括如下S1a-S1b(图中未示出):
S1a:根据多个待测子图中待测部位对应的多个部位类别,确定多个待测子图中待测部位对应的多个权重。
S1b:对多个待测子图中待测部位对应的多个权重、以及多个待测子图中待测部位对应的多个变形检测数据进行加权计算,获得待测图像中待测对象的综合变形数据。
上述S1a-S1b考虑到待测图像截取的多个待测子图中待测部位对应的多个部位类别,对待测图像中待测对象的变形影响程度不同,按照多个待测子图中待测部位对应的多个权重、以及多个待测子图中待测部位对应的多个变形检测数据,加权计算待测图像中待测对象的综合变形数据,能够更精准地表示待测图像中待测对象的变形概率;为后续显示提示文本生成的多个待测图像时,优先显示待测人像的变形概率更小的待测图像提供更精准的显示依据。
作为上述S1a-S1b的一种示例,在上述S1-S3示例的基础上,通过图像a截取的n个子图a中待测部位对应的n个部位类别,确定n个子图a中待测部位对应的n个权重;然后,按照n个子图a中待测部位对应的n个权重、以及n个子图a中待测部位对应的n个变形检测数据,加权计算图像a中待测人像的综合变形数据。
此外,本申请实施例中,考虑到在显示提示文本生成的多个待测图像时,过滤待测对象变形的待测图像,以避免显示待测对象变形的待测图像,从而尽量避免待测图像中待测对象变形引起观感上的不适;基于此,首先,针对每个待测图像,在检测出该待测图像截取的多个待测子图中待测部位对应的多个变形检测数据的基础上,判断待测子图中待测部位的变形检测数据是否匹配待测部位的部位类别对应的预设变形数据,若是,表示待测图像中待测对象变形,需要将待测图像作为待过滤图像;然后,将多个待测图像中待过滤图像过滤掉,得到过滤后的多个待测图像,以显示过滤后的多个待测图像。因此,本申请提供了一种可能的实现方式,方法还包括如下S4-S6(图中未示出):
S4:针对每个待测图像,若待测图像截取的待测子图中待测部位的变形检测数据,匹配待测部位的部位类别对应的预设变形数据,将待测图像确定为待过滤图像。
其中,部位类别对应的预设变形数据表示部位类别的对象部位存在变形的下限变形概率,不同部位类别可能对应不同预设变形数据。
S5:从多个待测图像中过滤待过滤图像,获得过滤后的多个待测图像。
S6:显示过滤后的多个待测图像。
上述S4-S6针对提示文本生成的多个待测图像,过滤待测对象变形的待测图像,显示待测对象未变形的待测图像,从而能够在一定程度上避免待测图像中待测对象变形引起观感上的不适。
作为上述S4-S6的一种示例,在上述S204示例的基础上,针对m个图像a中每个图像a,在检测出该图像a截取的n个子图a中待测部位对应的n个变形检测数据的基础上,判断子图a中待测部位的变形检测数据是否匹配待测部位的部位类别对应的预设变形数据,若是,表示图像a中待测人像变形,需要将图像a作为待过滤图像;然后,将m个图像a中待过滤图像过滤掉,得到过滤后的m个图像a,以显示过滤后的m个图像a。
此外,本申请实施例中,考虑到提示文本生成多个待测图像,每个待测图像截取的每个待测子图均需要经过变形检测模型进行变形检测,变形检测模型的模型大小越大,变形检测模型的检测速度越慢,变形检测模型的模型大小越小,变形检测模型的检测速度越快,在实际应用中变形检测模型的模型大小还需要匹配待测子图的实时检测需求,以便能够实时检测文本生成的图像中对象是否变形。因此,本申请提供了一种可能的实现方式,变形检测模型的模型大小匹配待测子图的实时检测需求。
作为一种示例,变形检测模型的模型大小可以为8.8M,针对提示文本生成的多个待测图像为4个待测图像,每个待测图像截取n个待测子图时,变形检测模型的检测时间仅需要0.6s左右,匹配待测子图的实时检测需求。
本申请实施例中,待测部位的部位类别对应的变形检测模型的训练过程是指:在获取样本部位对应的样本子图、以及样本子图中样本部位的变形标签数据之后;首先,对样本子图中样本部位进行变形检测,即,将样本部位对应的样本子图输入预设检测模型,对样本子图中样本部位进行变形检测,输出样本子图中样本部位的变形预测数据;然后,考虑到预设检测模型的训练方向是使得样本子图中样本部位的变形预测数据接近样本子图中样本部位的变形标签数据,在样本子图中样本部位的变形预测数据、样本子图中样本部位的变形标签数据的基础上,通过预设检测模型的损失函数对预设检测模型进行模型训练,从而将训练完成的预设检测模型作为待测部位的部位类别对应的变形检测模型。因此,本申请提供了一种可能的实现方式,待测部位的部位类别对应的变形检测模型的训练步骤,包括如下S7-S8(图中未示出):
S7:通过预设检测模型对样本子图中样本部位进行变形检测,获得样本子图中样本部位的变形预测数据。
S8:根据样本子图中样本部位的变形预测数据、样本子图中样本部位的变形标签数据和预设检测模型的损失函数,对预设检测模型进行模型训练,获得待测部位的部位类别对应的变形检测模型。
上述S7-S8通过学习样本子图中样本部位与样本子图中样本部位的变形标签数据之间的对应关系,训练预设检测模型得到待测部位的部位类别对应的变形检测模型,为后续更准确地检测出待测子图中待测部位的变形检测数据提供更准确的检测模型。
作为上述S7-S8的一种示例,在上述S203示例的基础上,将样本部位对应的子图b输入MobileNet_v2,对子图b中样本部位进行变形检测,输出子图b中样本部位的变形预测数据;在子图b中样本部位的变形预测数据、子图b中样本部位的变形标签数据的基础上,通过MobileNet_v2的损失函数对MobileNet_v2进行模型训练,将训练完成的MobileNet_v2作为待测部位的部位类别对应的变形检测模型。
参见图6,图6为本申请实施例提供的一种不同部位类别对应的预设变形数据下不同变形检测模型的准召曲线示意图;其中,图6中(a)表示脸部类别对应的预设变形数据为0.4下,脸部类别对应的变形检测模型的准召曲线,该准召曲线的横轴表示召回率、纵轴表示准确率;图6中(b)表示手部类别对应的预设变形数据为0.4下,手部类别对应的变形检测模型的准召曲线,该准召曲线的横轴表示召回率、纵轴表示准确率。
其中,在上述S8具体实现时,由于预设检测模型的训练方向是使得样本子图中样本部位的变形预测数据接近样本子图中样本部位的变形标签数据,考虑到交叉熵损失函数主要用于衡量样本子图中样本部位的变形预测数据、以及样本子图中样本部位的变形标签数据之间的差异性,因此,可以将交叉熵损失函数作为预设检测模型的损失函数。基于此,首先,将样本子图中样本部位的变形预测数据、以及样本子图中样本部位的变形标签数据代入交叉熵损失函数,计算样本子图中样本部位的变形预测数据与样本子图中样本部位的变形标签数据之间差异损失作为交叉熵损失;然后,通过最小化交叉熵损失对预设检测模型进行模型训练,将训练完成的预设检测模型作为待测部位的部位类别对应的变形检测模型。因此,本申请提供了一种可能的实现方式,预设检测模型的损失函数为交叉熵损失函数,上述S8包括如下S8a-S8b(图中未示出):
S8a:根据交叉熵损失函数对样本子图中样本部位的变形预测数据、以及样本子图中样本部位的变形标签数据进行损失计算,获得交叉熵损失。
S8b:根据最小化交叉熵损失对预设检测模型进行模型训练,获得待测部位的部位类别对应的变形检测模型。
上述S8a-S8b通过交叉熵损失函数计算样本子图中样本部位的变形预测数据、以及样本子图中样本部位的变形标签数据之间的交叉熵损失,并通过最小化交叉熵损失,按照使得样本子图中样本部位的变形预测数据接近样本子图中样本部位的变形标签数据的训练方向训练预设检测模型,更精准地学习样本子图中样本部位与样本子图中样本部位的变形标签数据之间的对应关系,训练预设检测模型得到待测部位的部位类别对应的变形检测模型,使得变形检测模型的变形检测能力更强。
作为上述S8a-S8b的一种示例,在上述S7-S8示例的基础上,预设检测模型的损失函数如下所示:
Ln=-[yn·logσ(xn)+(1-yn)·log(1-σ(xn))]
其中,xn表示子图b中样本部位的变形预测数据;yn表示子图b中样本部位的变形标签数据,子图b中样本部位的变形标签数据为0表示子图b中样本部位未变形,子图b中样本部位的变形标签数据为1表示子图b中样本部位变形;yn表示子图b中样本部位的变形预测数据与子图b中样本部位的变形标签数据之间的交叉熵损失。
此外,本申请实施例中,为了提升对预设检测模型进行模型训练得到变形检测模型的准确性和高效性,可以按照预训练检测模型的模型参数加载初始检测模型的模型参数,得到加载后的初始检测模型,将加载后的初始检测模型作为预设检测模型;基于此,仅需要基于少量的样本部位对应的样本子图和样本子图中样本部位的变形标签数据,微调训练预设检测模型即可得到待测部位的部位类别对应的变形检测模型。因此,本申请提供了一种可能的实现方式,预设检测模型的确定步骤,包括如下S9-S10(图中未示出):
S9:根据预训练检测模型的模型参数对初始检测模型的模型参数进行加载处理,获得加载后的初始检测模型。
S10:将加载后的初始检测模型确定为预设检测模型。
上述S9-S10针对初始检测模型通过加载预训练检测模型的模型参数得到预设检测模型,便于后续无需大量的样本部位对应的样本子图和样本子图中样本部位的变形标签数据,即可更快速、更准确地对预设检测模型进行模型训练得到变形检测模型。
需要说明的是,本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。
综上所述,本申请实施例提供的基于文本生成图像的变形检测方法,可以应用于广告图像生成场景中,在关注、考虑提示文本生成的广告图像中人像的多个人像部位的基础上,针对多个人像部位中每个人像部位,更细致、更精确对广告图像中人像进行变形检测,从而提升广告图像中人像的变形检测数据的准确性和可靠性;以便后续基于准确性和可靠性的广告图像中人像的变形检测数据,优先显示人像的变形概率更小的广告图像,在一定程度上减少广告图像中人像变形引起观感上的不适,或者,过滤人像变形的广告图像,在一定程度上避免广告图像中人像变形引起观感上的不适。
基于图2对应实施例提供的基于文本生成图像的变形检测方法,本申请实施例还提供一种基于文本生成图像的变形检测装置,参见图7,图7为本申请实施例提供的一种基于文本生成图像的变形检测装置的结构图,该基于文本生成图像的变形检测装置700包括:检测单元701、截取单元702和确定单元703;
检测单元701,用于针对提示文本生成的多个待测图像中每个待测图像,通过对象检测模型对待测图像中待测对象进行部位检测,获得待测对象的多个待测部位对应的多个检测区域;
截取单元702,用于根据多个检测区域对待测图像进行区域截取,获得多个待测部位对应的多个待测子图;
检测单元701,还用于针对每个待测子图,通过待测子图中待测部位的部位类别对应的变形检测模型,对待测子图中待测部位进行变形检测,获得待测子图中待测部位的变形检测数据;待测部位的部位类别对应的变形检测模型是根据样本部位对应的样本子图和样本子图中样本部位的变形标签数据训练预设检测模型得到的,样本子图是截取样本文本生成的样本图像中样本对象的样本部位得到的,样本部位与待测部位的部位类别相同,不同部位类别对应不同变形检测模型;
确定单元703,用于将多个待测子图中待测部位对应的多个变形检测数据,确定为待测图像中待测对象的变形检测数据。
在一种可能的实现方式中,检测单元701,具体用于:
通过对象检测子模型对待测图像进行对象检测,获得待测图像中待测对象;
通过部位检测子模型对待测对象进行部位检测,获得待测对象的多个待测部位对应的多个检测区域。
在一种可能的实现方式中,装置还包括:计算单元、排序单元和第一显示单元;
计算单元,用于针对每个待测图像,根据待测图像截取的多个待测子图中待测部位对应的多个变形检测数据进行综合计算,获得待测图像中待测对象的综合变形数据;
排序单元,用于根据多个待测图像中待测对象对应的多个综合变形数据表示的变形概率,由小到大对多个待测图像进行排序处理,获得多个待测图像的排序顺序;
第一显示单元,用于根据多个待测图像的排序顺序,显示多个待测图像。
在一种可能的实现方式中,计算单元,具体用于:
根据多个待测子图中待测部位对应的多个部位类别,确定多个待测子图中待测部位对应的多个权重;
对多个待测子图中待测部位对应的多个权重、以及多个待测子图中待测部位对应的多个变形检测数据进行加权计算,获得待测图像中待测对象的综合变形数据。
在一种可能的实现方式中,装置还包括:过滤单元和第二显示单元;
确定单元,还用于针对每个待测图像,若待测图像截取的待测子图中待测部位的变形检测数据,匹配待测部位的部位类别对应的预设变形数据,将待测图像确定为待过滤图像;
过滤单元,用于从多个待测图像中过滤待过滤图像,获得过滤后的多个待测图像;
第二显示单元,用于显示过滤后的多个待测图像。
在一种可能的实现方式中,变形检测模型的模型大小匹配待测子图的实时检测需求。
在一种可能的实现方式中,装置还包括:训练单元;
训练单元,用于:
通过预设检测模型对样本子图中样本部位进行变形检测,获得样本子图中样本部位的变形预测数据;
根据样本子图中样本部位的变形预测数据、样本子图中样本部位的变形标签数据和预设检测模型的损失函数,对预设检测模型进行模型训练,获得待测部位的部位类别对应的变形检测模型。
在一种可能的实现方式中,预设检测模型的损失函数为交叉熵损失函数,训练单元,具体用于:
根据交叉熵损失函数对样本子图中样本部位的变形预测数据、以及样本子图中样本部位的变形标签数据进行损失计算,获得交叉熵损失;
根据最小化交叉熵损失对预设检测模型进行模型训练,获得待测部位的部位类别对应的变形检测模型。
在一种可能的实现方式中,确定单元703,还用于:
根据预训练检测模型的模型参数对初始检测模型的模型参数进行加载处理,获得加载后的初始检测模型;
将加载后的初始检测模型确定为预设检测模型。
由上述技术方案可以看出,基于文本生成图像的变形检测装置包括检测单元、截取单元和确定单元;检测单元针对提示文本生成的多个待测图像中每个待测图像,将待测图像输入对象检测模型,对待测图像中待测对象进行部位检测,得到待测对象的多个待测部位对应的多个检测区域;截取单元按照多个检测区域对待测图像进行区域截取,得到多个待测部位对应的多个待测子图。即,通过检测出提示文本生成的待测图像中待测对象的多个待测部位所在区域,以截取待测图像得到多个待测部位对应的多个待测子图,能够关注、考虑待测图像中待测对象的多个待测部位。
检测单元还针对每个待测子图,将待测子图输入待测子图中待测部位的部位类别对应的变形检测模型,对待测子图中待测部位进行变形检测,得到待测子图中待测部位的变形检测数据;其中,待测部位的部位类别对应的变形检测模型是由样本部位对应的样本子图和样本子图中样本部位的变形标签数据训练预设检测模型得到,样本子图是截取样本文本生成的样本图像中样本对象的样本部位得到的,样本部位与待测部位的部位类别相同,不同部位类别对应不同变形检测模型;确定单元将多个待测子图中待测部位对应的多个变形检测数据作为待测图像中待测对象的变形检测数据。即,通过分别检测出每个待测子图中待测部位的变形检测数据,汇总多个待测子图中待测部位对应的多个变形检测数据,以决策待测图像中待测对象的变形检测数据,使得待测图像中待测对象的变形检测更细致、更精确。
基于此,该装置在关注、考虑待测图像中待测对象的多个待测部位的基础上,针对多个待测部位中每个待测部位,更细致、更精确对待测图像中待测对象进行变形检测,从而提升待测图像中待测对象的变形检测数据的准确性和可靠性。
本申请实施例还提供了一种计算机设备,该计算机设备可以是服务器,参见图8,图8为本申请实施例提供的一种服务器的结构图,服务器800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器,例如CPU822,以及存储器832,一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器822可以设置为与存储介质830通信,在服务器800上执行存储介质830中的一系列指令操作。
服务器800还可以包括一个或一个以上电源826,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口858,和/或,一个或一个以上操作系统841,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
在本实施例中,由服务器800中的中央处理器822可以执行上述实施例各种可选实现方式中提供的方法。
本申请实施例提供的计算机设备还可以是终端,参见图9,图9为本申请实施例提供的一种终端的结构图。以终端为智能手机为例,智能手机包括:射频(Radio Frequency,RF)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(Wireless Fidelity,WiFi)模块970、处理器980、以及电源9120等部件。输入单元930可包括触控面板931以及其他输入设备932,显示单元940可包括显示面板941,音频电路960可以包括扬声器961和传声器962。本领域技术人员可以理解,图9中示出的智能手机结构并不构成对智能手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储器920可用于存储软件程序以及模块,处理器980通过运行存储在存储器920的软件程序以及模块,从而执行智能手机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器980是智能手机的控制中心,利用各种接口和线路连接整个智能手机的各个部分,通过运行或执行存储在存储器920内的软件程序和/或模块,以及调用存储在存储器920内的数据,执行智能手机的各种功能和处理数据。可选的,处理器980可包括一个或多个处理单元;优选的,处理器980可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器980中。
在本实施例中,智能手机中的处理器980可以执行上述实施例各种可选实现方式中提供的方法。
根据本申请的一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,当所述计算机程序在计算机设备上运行时,使得所述计算机设备执行上述实施例各种可选实现方式中提供的方法。
根据本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述实施例各种可选实现方式中提供的方法。
上述各个附图对应的流程或结构的描述各有侧重,某个流程或结构中没有详述的部分,可以参见其他流程或结构的相关描述。
本申请的说明书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、RAM、磁碟或者光盘等各种可以存储计算机程序的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术成员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (15)
1.一种基于文本生成图像的变形检测方法,其特征在于,所述方法包括:
针对提示文本生成的多个待测图像中每个待测图像,通过对象检测模型对所述待测图像中待测对象进行部位检测,获得所述待测对象的多个待测部位对应的多个检测区域;
根据所述多个检测区域对所述待测图像进行区域截取,获得所述多个待测部位对应的多个待测子图;
针对每个待测子图,通过所述待测子图中待测部位的部位类别对应的变形检测模型,对所述待测子图中待测部位进行变形检测,获得所述待测子图中待测部位的变形检测数据;所述待测部位的部位类别对应的变形检测模型是根据样本部位对应的样本子图和所述样本子图中样本部位的变形标签数据训练预设检测模型得到的,所述样本子图是截取样本文本生成的样本图像中样本对象的样本部位得到的,所述样本部位与所述待测部位的部位类别相同,不同部位类别对应不同变形检测模型;
将所述多个待测子图中待测部位对应的多个变形检测数据,确定为所述待测图像中待测对象的变形检测数据。
2.根据权利要求1所述的方法,其特征在于,所述对象检测模型包括对象检测子模型和部位检测子模型,所述通过对象检测模型对所述待测图像中待测对象进行部位检测,获得所述待测对象的多个待测部位对应的多个检测区域,包括:
通过所述对象检测子模型对所述待测图像进行对象检测,获得所述待测图像中待测对象;
通过所述部位检测子模型对所述待测对象进行部位检测,获得所述待测对象的多个待测部位对应的多个检测区域。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对所述每个待测图像,根据所述待测图像截取的多个待测子图中待测部位对应的多个变形检测数据进行综合计算,获得所述待测图像中待测对象的综合变形数据;
根据所述多个待测图像中待测对象对应的多个综合变形数据表示的变形概率,由小到大对所述多个待测图像进行排序处理,获得所述多个待测图像的排序顺序;
根据多个待测图像的排序顺序,显示所述多个待测图像。
4.根据权利要求3所述的方法,其特征在于,所述根据所述待测图像截取的多个待测子图中待测部位对应的多个变形检测数据进行综合计算,获得所述待测图像中待测对象的综合变形数据,包括:
根据所述待测图像截取的多个待测子图中待测部位对应的多个部位类别,确定所述多个待测子图中待测部位对应的多个权重;
对所述多个待测子图中待测部位对应的多个权重、以及所述多个待测子图中待测部位对应的多个变形检测数据进行加权计算,获得所述待测图像中待测对象的综合变形数据。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对所述每个待测图像,若所述待测图像截取的待测子图中待测部位的变形检测数据,匹配所述待测部位的部位类别对应的预设变形数据,将所述待测图像确定为待过滤图像;
从所述多个待测图像中过滤所述待过滤图像,获得过滤后的多个待测图像;
显示所述过滤后的多个待测图像。
6.根据权利要求1所述的方法,其特征在于,所述变形检测模型的模型大小匹配所述待测子图的实时检测需求。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述待测部位的部位类别对应的变形检测模型的训练步骤,包括:
通过所述预设检测模型对所述样本子图中样本部位进行变形检测,获得所述样本子图中样本部位的变形预测数据;
根据所述样本子图中样本部位的变形预测数据、所述样本子图中样本部位的变形标签数据和所述预设检测模型的损失函数,对所述预设检测模型进行模型训练,获得所述待测部位的部位类别对应的变形检测模型。
8.根据权利要求7所述的方法,其特征在于,所述预设检测模型的损失函数为交叉熵损失函数,所述根据所述样本子图中样本部位的变形预测数据、所述样本子图中样本部位的变形标签数据和所述预设检测模型的损失函数,对所述预设检测模型进行模型训练,获得所述待测部位的部位类别对应的变形检测模型,包括:
根据所述交叉熵损失函数对所述样本子图中样本部位的变形预测数据、以及所述样本子图中样本部位的变形标签数据进行损失计算,获得交叉熵损失;
根据最小化所述交叉熵损失对所述预设检测模型进行模型训练,获得所述待测部位的部位类别对应的变形检测模型。
9.根据权利要求7所述的方法,其特征在于,所述预设检测模型的确定步骤,包括:
根据预训练检测模型的模型参数对初始检测模型的模型参数进行加载处理,获得加载后的初始检测模型;
将所述加载后的初始检测模型确定为所述预设检测模型。
10.一种基于文本生成图像的变形检测装置,其特征在于,所述装置包括:检测单元、截取单元和确定单元;
所述检测单元,用于针对提示文本生成的多个待测图像中每个待测图像,通过对象检测模型对所述待测图像中待测对象进行部位检测,获得所述待测对象的多个待测部位对应的多个检测区域;
所述截取单元,用于根据所述多个检测区域对所述待测图像进行区域截取,获得所述多个待测部位对应的多个待测子图;
所述检测单元,还用于针对每个待测子图,通过所述待测子图中待测部位的部位类别对应的变形检测模型,对所述待测子图中待测部位进行变形检测,获得所述待测子图中待测部位的变形检测数据;所述待测部位的部位类别对应的变形检测模型是根据样本部位对应的样本子图和所述样本子图中样本部位的变形标签数据训练预设检测模型得到的,所述样本子图是截取样本文本生成的样本图像中样本对象的样本部位得到的,所述样本部位与所述待测部位的部位类别相同,不同部位类别对应不同变形检测模型;
所述确定单元,用于将所述多个待测子图中待测部位对应的多个变形检测数据,确定为所述待测图像中待测对象的变形检测数据。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:计算单元、排序单元和第一显示单元;
所述计算单元,用于针对所述每个待测图像,根据所述待测图像截取的多个待测子图中待测部位对应的多个变形检测数据进行综合计算,获得所述待测图像中待测对象的综合变形数据;
所述排序单元,用于根据所述多个待测图像中待测对象对应的多个综合变形数据表示的变形概率,由小到大对所述多个待测图像进行排序处理,获得所述多个待测图像的排序顺序;
所述第一显示单元,用于根据多个待测图像的排序顺序,显示所述多个待测图像。
12.根据权利要求10所述的装置,其特征在于,所述装置还包括:过滤单元和第二显示单元;
所述确定单元,还用于针对所述每个待测图像,若所述待测图像截取的待测子图中待测部位的变形检测数据,匹配所述待测部位的部位类别对应的预设变形数据,将所述待测图像确定为待过滤图像;
所述过滤单元,用于从所述多个待测图像中过滤所述待过滤图像,获得过滤后的多个待测图像;
所述第二显示单元,用于显示所述过滤后的多个待测图像。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
所述处理器用于根据所述计算机程序中的指令执行权利要求1-9任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,当所述计算机程序在计算机设备上运行时,使得所述计算机设备执行权利要求1-9任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,其特征在于,当所述计算机程序在计算机设备上运行时,使得所述计算机设备执行权利要求1-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311380307.4A CN117218111A (zh) | 2023-10-23 | 2023-10-23 | 一种基于文本生成图像的变形检测方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311380307.4A CN117218111A (zh) | 2023-10-23 | 2023-10-23 | 一种基于文本生成图像的变形检测方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117218111A true CN117218111A (zh) | 2023-12-12 |
Family
ID=89035484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311380307.4A Pending CN117218111A (zh) | 2023-10-23 | 2023-10-23 | 一种基于文本生成图像的变形检测方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117218111A (zh) |
-
2023
- 2023-10-23 CN CN202311380307.4A patent/CN117218111A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11487995B2 (en) | Method and apparatus for determining image quality | |
TWI773189B (zh) | 基於人工智慧的物體檢測方法、裝置、設備及儲存媒體 | |
US10853623B2 (en) | Method and apparatus for generating information | |
US10846522B2 (en) | Speaking classification using audio-visual data | |
CN109993102B (zh) | 相似人脸检索方法、装置及存储介质 | |
CN111680678B (zh) | 目标区域识别方法、装置、设备及可读存储介质 | |
CN110765882B (zh) | 一种视频标签确定方法、装置、服务器及存储介质 | |
JP2022177232A (ja) | 画像処理方法、テキスト認識方法及び装置 | |
CN110660102B (zh) | 基于人工智能的说话人识别方法及装置、系统 | |
CN112188306B (zh) | 一种标签生成方法、装置、设备及存储介质 | |
CN114120432A (zh) | 基于视线估计的在线学习注意力跟踪方法及其应用 | |
EP4113376A1 (en) | Image classification model training method and apparatus, computer device, and storage medium | |
CN112257645B (zh) | 人脸的关键点定位方法和装置、存储介质及电子装置 | |
CN115861462B (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN111401318A (zh) | 动作识别方法及装置 | |
CN111967515A (zh) | 图像信息提取方法、训练方法及装置、介质和电子设备 | |
CN113822427A (zh) | 一种模型训练的方法、图像匹配的方法、装置及存储介质 | |
CN109829431B (zh) | 用于生成信息的方法和装置 | |
CN111126358A (zh) | 人脸检测方法、装置、存储介质及设备 | |
EP4318314A1 (en) | Image acquisition model training method and apparatus, image detection method and apparatus, and device | |
CN116958724A (zh) | 一种产品分类模型的训练方法和相关装置 | |
CN117218111A (zh) | 一种基于文本生成图像的变形检测方法及相关装置 | |
CN116824686A (zh) | 一种动作识别方法和相关装置 | |
CN113822871A (zh) | 基于动态检测头的目标检测方法、装置、存储介质及设备 | |
CN113822293A (zh) | 用于图数据的模型处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |