CN117132547A - 图像检测方法、装置、设备、存储介质及计算机程序产品 - Google Patents
图像检测方法、装置、设备、存储介质及计算机程序产品 Download PDFInfo
- Publication number
- CN117132547A CN117132547A CN202310972711.4A CN202310972711A CN117132547A CN 117132547 A CN117132547 A CN 117132547A CN 202310972711 A CN202310972711 A CN 202310972711A CN 117132547 A CN117132547 A CN 117132547A
- Authority
- CN
- China
- Prior art keywords
- image
- detected
- directivity
- detection
- competition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 294
- 238000003860 storage Methods 0.000 title claims abstract description 25
- 238000004590 computer program Methods 0.000 title claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 60
- 238000000034 method Methods 0.000 claims abstract description 52
- 230000002860 competitive effect Effects 0.000 claims abstract description 49
- 230000015654 memory Effects 0.000 claims description 31
- 230000008569 process Effects 0.000 abstract description 25
- 239000013598 vector Substances 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000013507 mapping Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000005294 ferromagnetic effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000005291 magnetic effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种图像检测方法、装置、设备、存储介质及计算机程序产品,至少应用于图像识别领域和指向性检测领域,其中,方法包括:获取待检测图像、竞争图像和指向性描述文本;指向性描述文本用于描述待检测图像和竞争图像中的待检测对象的属性信息;竞争图像中包括指向性描述文本所描述的待检测对象;对待检测图像和竞争图像进行图像拼接处理,得到拼接图像;基于指向性描述文本,对拼接图像进行目标检测,得到至少一个待检测对象的位置信息;基于至少一个待检测对象的位置信息确定待检测图像的图像检测结果。通过本申请,能够提高待检测图像中的待检测对象的检测准确率,减少指向性检测过程中的误识。
Description
技术领域
本申请实施例涉及互联网领域,涉及但不限于一种图像检测方法、装置、设备、存储介质及计算机程序产品。
背景技术
在图像检测领域中,为了识别待检测图像中的待检测目标,通常是将待检测图像和文本描述输入至指向性检测模型,模型的输出是待检测图像中与文本输入相关的坐标位置。
但是,相关技术中的指向性检测模型,当输入的待检测图像中不存在输入的文本中所对应的文本描述对象时,指向性检测模型也会以高置信度输出一个坐标,即,相关技术中的指向性检测方法无法判断输入的待检测图像中是否存在文本描述对应的区域,只能在待检测图像中存在文本描述对应的区域的情况下较为准确的框出该区域的坐标。
由此可见,相关技术中的指向性检测方法会产生非常多的误识,从而存在检测的准确率较低的问题。
发明内容
本申请实施例提供一种图像检测方法、装置、设备、存储介质及计算机程序产品,至少能够应用于图像识别领域和指向性检测领域中,通过混合待检测图像和竞争图像进行指向性检测,从而能够提高针对待检测图像中的待检测对象的检测准确率,减少指向性检测过程中的误识。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种图像检测方法,包括:获取待检测图像、竞争图像和指向性描述文本;所述指向性描述文本用于描述所述待检测图像和所述竞争图像中的待检测对象的属性信息;所述竞争图像中包括所述指向性描述文本所描述的待检测对象;对所述待检测图像和所述竞争图像进行图像拼接处理,得到拼接图像;基于所述指向性描述文本,对所述拼接图像进行目标检测,得到至少一个待检测对象的位置信息;基于所述至少一个待检测对象的位置信息确定所述待检测图像的图像检测结果。
本申请实施例提供一种图像检测装置,所述装置包括:获取模块,用于获取待检测图像、竞争图像和指向性描述文本;所述指向性描述文本用于描述所述待检测图像和所述竞争图像中的待检测对象的属性信息;所述竞争图像中包括所述指向性描述文本所描述的待检测对象;图像拼接模块,用于对所述待检测图像和所述竞争图像进行图像拼接处理,得到拼接图像;目标检测模块,用于基于所述指向性描述文本,对所述拼接图像进行目标检测,得到至少一个待检测对象的位置信息;检测结果确定模块,用于基于所述至少一个待检测对象的位置信息确定所述待检测图像的图像检测结果。
在一些实施例中,所述图像拼接模块还用于:对所述竞争图像进行预设缩放比例的尺寸缩放处理,得到缩放处理后的竞争图像;所述预设缩放比例为0到1之间的任意值;对所述待检测图像与所述缩放处理后的竞争图像进行图像横向拼接处理,得到所述拼接图像。
在一些实施例中,所述装置还包括:缩放比例确定模块,用于获取所述待检测图像的宽度和高度,以及,所述竞争图像的宽度和高度;基于所述待检测图像的宽度和高度,确定所述待检测图像的宽高比;基于所述竞争图像的宽度和高度,确定所述竞争图像的宽高比;基于所述待检测图像的宽高比和所述竞争图像的宽高比,确定所述预设缩放比例。
在一些实施例中,所述图像拼接模块还用于:基于预设透明度比例,对所述竞争图像进行透明化处理,得到透明化竞争图像;所述预设透明度比例为0到1之间的任意值;对所述待检测图像与所述透明化竞争图像进行图像横向拼接处理,得到所述拼接图像。
在一些实施例中,所述检测结果确定模块还用于:如果所述待检测对象的位置信息包括位于所述竞争图像中的一个位置坐标框,确定所述待检测图像的图像检测结果为所述待检测图像中不存在所述指向性描述文本所描述的待检测对象;如果所述待检测对象的位置信息包括位于所述待检测图像中的一个位置坐标框,确定所述待检测图像的图像检测结果为所述待检测图像中存在所述指向性描述文本所描述的待检测对象,且所述待检测对象位于所述位置坐标框对应的位置。
在一些实施例中,所述检测结果确定模块还用于:如果所述待检测对象的位置信息包括位于所述待检测图像中的N个位置坐标框,确定所述待检测图像的图像检测结果为所述待检测图像中存在所述指向性描述文本所描述的待检测对象,且所述待检测对象为N个,每个待检测对象位于一个所述位置坐标框对应的位置;N为大于1的整数;如果所述待检测对象的位置信息包括位于所述待检测图像和所述竞争图像中的M个位置坐标框,确定所述待检测图像的图像检测结果为所述待检测图像中存在所述指向性描述文本所描述的待检测对象,且所述待检测对象为M-1个,每个待检测对象位于一个所述位置坐标框对应的位置;M为大于1的整数。
在一些实施例中,所述检测结果确定模块还用于:确定所述待检测对象的位置信息中的位置坐标框的数量;如果所述位置坐标框的数量大于1,确定所述待检测图像的图像检测结果为所述待检测图像中存在所述指向性描述文本所描述的待检测对象。
在一些实施例中,所述指向性描述文本包括多条子文本;每一所述子文本用于描述一种类型的待检测对象的属性信息;所述目标检测模块还用于:基于每一所述子文本,对所述拼接图像进行目标检测,得到每一种类型的待检测对象的位置信息。
在一些实施例中,所述目标检测模块还用于:将所述指向性描述文本和所述拼接图像输入至预先训练的指向性检测模型中;通过所述指向性检测模型的文本编码模块,对所述指向性描述文本进行文本编码处理,得到文本特征;通过所述指向性检测模型的图像编码模块,对所述拼接图像进行图像编码处理,得到图像编码特征;通过所述指向性检测模型的指向性解码模块,对所述文本特征和所述图像编码特征进行特征解码,得到所述至少一个待检测对象的位置信息;其中,每一所述待检测对象的位置信息包括一个位置坐标框的四个位置坐标值。
本申请实施例提供一种电子设备,包括:存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现上述的图像检测方法。
本申请实施例提供一种计算机程序产品,该计算机程序产品包括可执行指令,可执行指令存储在计算机可读存储介质中;其中,电子设备的处理器从计算机可读存储介质中读取可执行指令,并执行可执行指令时,实现上述的图像检测方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行所述可执行指令时,实现上述的图像检测方法。
本申请实施例具有以下有益效果:通过获取待检测图像、竞争图像和指向性描述文本;指向性描述文本用于描述待检测图像和竞争图像中的待检测对象的属性信息;竞争图像中包括指向性描述文本所描述的待检测对象;并对待检测图像和所述竞争图像进行图像拼接处理,得到拼接图像;然后,基于指向性描述文本,对拼接图像进行目标检测,得到至少一个待检测对象的位置信息;最后,基于至少一个待检测对象的位置信息确定待检测图像的图像检测结果。如此,通过混合待检测图像和竞争图像进行指向性检测,从而能够提高针对待检测图像中的待检测对象的检测准确率,减少指向性检测过程中的误识。
附图说明
图1是本申请实施例提供的指向性检测的名词解释示意图;
图2是相关技术中的指向性检测方法的框架示意图;
图3是本申请实施例提供的图像检测系统的一个可选的架构示意图;
图4是本申请实施例提供的电子设备的结构示意图;
图5是本申请实施例提供的图像检测方法的一个可选的流程示意图;
图6是本申请实施例提供的图像检测方法的另一个可选的流程示意图;
图7是本申请实施例提供的图像拼接处理过程的实现流程示意图;
图8是本申请实施例提供的目标检测过程的实现流程示意图;
图9是本申请实施例提供的图像检测方法的总体流程示意图;
图10是本申请实施例提供的指向性检测模型的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。除非另有定义,本申请实施例所使用的所有的技术和科学术语与属于本申请实施例的技术领域的技术人员通常理解的含义相同。本申请实施例所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
在描述本申请实施例的图像检测方法之前,首先对本申请实施例中涉及的专业术语进行说明:
指向性检测(REC,Referring Expression Comprehension):指的是给定一段文本描述,算法能够自动在图像上框出该文本描述所对应的区域。如图1所示,给定文本描述为“在滑板上的人”,输入图片为图1中的左侧图101,算法将自动输出该文本描述对应的坐标,如图1的右侧图所示的位置坐标框102。一般情况下,一个指向性检测模型接受一个文本输入和一张图片输入,输出该文本描述在图片上所对应的位置坐标(通常仅有一个位置坐标)。
相关技术中的指向性检测方法的框架如图2所示,指向性检测模型201的输入为待检测图像202和文本描述203,模型输出待检测图像中与文本描述相关的坐标位置204。相关技术中,指向性检测模型的训练数据集包括VG、RefCOCO/RefCOCO+/RefCOCOg等,输入的文本描述必然对应着输入的待检测图像中的某个位置,比如图2中的文本描述不会是“天空中的鸟”,因为此时图像中并不存在该文本对应的位置区域。与训练数据相对应,相关技术中的方法在训练时输入文本必然对应着输入的待检测图像中的某个位置。
由此可见,相关技术中的指向性检测方法至少存在以下问题:当输入的待检测图像中不存在输入的文本中所对应的文本描述时,指向性检测模型也会以高置信度输出一个坐标,例如对于图2中的待检测图像,当文本输入改为“天空中的鸟”时,指向性检测模型无法判断待检测图像中是否存在该文本描述所对应的区域,此时会任意输出一个位置坐标。即,传统指向性检测方法无法判断输入的待检测图像中是否存在文本描述对应的区域,只能在输入的待检测图像中存在文本描述对应的区域的情况下框出该区域的坐标。在这种情况下,实际业务场景中,如果需要检测例如倒地垃圾桶,输入文本为“倒下的垃圾桶”,指向性检测模型始终会输出一个坐标位置,即始终判断存在倒地垃圾桶,这将产生非常多的误识。
本申请实施例针对指向性检测模型给定任何输入必然输出一个检测框,从而导致在实际业务场景中造成大量误识的问题,提出一种基于混合竞争的指向性检测方案(即一种图像检测方法),该方案的特点是:(1)误识低:能够大幅降低指向性检测在实际业务中的误识;(2)解耦性:该方案适用于不同的模型架构(包括各种卷积神经网络或Transformer等)和不同的指向性检测模型;(3)简单易用:可以不需要对原有指向性检测的模型架构进行调整(当然,根据项目所需也可以进行调整,同样在本申请实施例的保护范围内),还可以不需要新增额外训练数据(当然,也可以根据项目所需新增数据,同样在本申请实施例保护范围内);只需要对输入图像进行混合操作,对输出坐标进行逻辑判断。该方案的提出一种混合竞争的方法,通过混合输入图像以及与输入文本对应的竞争图像,让指向性检测模型同时具备两个能力:(1)判断待检测图像中是否存在文本描述所对应的区域;(2)输出待检测图像中与该文本描述所对应区域的坐标。显然,相关技术中的指向性检测方法不具备第一个能力,从而导致当输入的待检测图像中不存在文本描述所对应的区域时会任意输出一个检测框。
其中,本申请实施例提供的图像检测方法中,首先,获取待检测图像、竞争图像和指向性描述文本;指向性描述文本用于描述待检测图像和所述竞争图像中的待检测对象的属性信息;竞争图像中包括指向性描述文本所描述的待检测对象;然后,对待检测图像和竞争图像进行图像拼接处理,得到拼接图像;再然后,基于指向性描述文本,对拼接图像进行目标检测,得到至少一个待检测对象的位置信息;最后,基于至少一个待检测对象的位置信息确定待检测图像的图像检测结果。如此,通过混合待检测图像和竞争图像进行指向性检测,从而能够提高针对待检测图像中的待检测对象的检测准确率,减少指向性检测过程中的误识。
这里,首先说明本申请实施例的图像检测设备的示例性应用,该图像检测设备是用于实现图像检测方法的电子设备。在一种实现方式中,本申请实施例提供的图像检测设备(即电子设备)可以实施为终端,也可以实施为服务器。在一种实现方式中,本申请实施例提供的图像检测设备可以实施为笔记本电脑,平板电脑,台式计算机,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备,智能机器人,智能家电和智能车载设备等任意的具备图像识别和检测功能的终端;在另一种实现方式中,本申请实施例提供的图像检测设备还可以实施为服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,Content Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。下面,将说明图像检测设备实施为服务器时的示例性应用。
参见图3,图3是本申请实施例提供的图像检测系统的一个可选的架构示意图,为实现支撑任意一个图像检测应用,通过图像检测应用进行特定应用场景下的实时监测或者智慧视频分析,本申请实施例的终端上至少安装有该图像检测应用。图像检测系统10中至少包括终端100、网络200和服务器300,其中服务器300是图像检测应用的服务器。服务器300可以构成本申请实施例的图像检测设备,即通过服务器300实现本申请实施例的图像检测方法。终端100通过网络200连接服务器300,网络200可以是广域网或者局域网,又或者是二者的组合。
终端运行图像检测应用,该图像检测应用可以是智慧视频分析平台,例如,可以是支持物体状态检测或者组合物体检测的平台。在进行检测时,用户通过终端100上运行的图像检测应用输入待检测视频或者待检测图像,以及竞争图像和指向性描述文本,其中,该指向性描述文本用于描述待检测图像和竞争图像中的待检测对象的属性信息;竞争图像中包括指向性描述文本所描述的待检测对象。终端100将待检测图像、竞争图像和指向性描述文本封装至图像检测请求中,并通过网络200将图像检测请求发送给服务器300。服务器300在接收到图像检测请求之后,响应于图像检测请求,对待检测图像和竞争图像进行图像拼接处理,得到拼接图像;然后,基于指向性描述文本,对拼接图像进行目标检测,得到至少一个待检测对象的位置信息;最后,基于至少一个待检测对象的位置信息确定待检测图像的图像检测结果。在得到图像检测结果之后,服务器300将图像检测结果返回给终端100,终端100在当前界面上显示图像检测结果。
在一些实施例中,用户通过终端100上运行的图像检测应用输入待检测视频或者待检测图像,以及竞争图像和指向性描述文本之后,也可以由终端100采用本申请实施例提供的图像检测方法,对待检测图像和所述竞争图像进行图像拼接处理,得到拼接图像;以及,由终端100基于指向性描述文本,对拼接图像进行目标检测,得到至少一个待检测对象的位置信息;并由终端100基于所述一个待检测对象的位置信息确定待检测图像的图像检测结果。
本申请实施例所提供的图像检测方法还可以基于云平台并通过云技术来实现,例如,上述服务器300可以是云端服务器。通过云端服务器对待检测图像和竞争图像进行图像拼接处理,或者,通过云端服务器基于指向性描述文本,对拼接图像进行目标检测,或者,通过云端服务器基于至少一个待检测对象的位置信息确定待检测图像的图像检测结果等。
在一些实施例中,还可以具有云端存储器,可以将竞争图像存储至云端存储器中,也可以将图像检测结果存储至云端存储器中。这样,在接收到终端发送的图像检测请求时,则可以基于指向性描述文本从云端存储器中直接获取竞争图像,从而提高图像检测的效率。
这里需要说明的是,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,其可以通过云计算来实现。
图4是本申请实施例提供的电子设备的结构示意图,图4所示的电子设备可以是图像检测设备,图像检测设备包括:至少一个处理器310、存储器350、至少一个网络接口320和用户接口330。图像检测设备中的各个组件通过总线系统340耦合在一起。可理解,总线系统340用于实现这些组件之间的连接通信。总线系统340除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线系统340。
处理器310可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口330包括使得能够呈现媒体内容的一个或多个输出装置331,以及一个或多个输入装置332。
存储器350可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器350可选地包括在物理位置上远离处理器310的一个或多个存储设备。存储器350包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器350旨在包括任意适合类型的存储器。在一些实施例中,存储器350能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统351,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;网络通信模块352,用于经由一个或多个(有线或无线)网络接口320到达其他计算设备,示例性的网络接口320包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;输入处理模块353,用于对一个或多个来自一个或多个输入装置332之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的装置可采用软件方式实现,图4示出了存储在存储器350中的一种图像检测装置354,该图像检测装置354可以是电子设备中的图像检测装置,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块3541、图像拼接模块3542、目标检测模块3543和检测结果确定模块3544,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在一些实施例中,本申请实施例提供的装置可以采用硬件方式实现,作为示例,本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的图像检测方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Pr ogrammable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件。
本申请各实施例提供的图像检测方法可以由电子设备来执行,其中,该电子设备可以是服务器也可以是终端,即本申请各实施例的图像检测方法可以通过服务器来执行,也可以通过终端来执行,或者也可以通过服务器与终端之间交互执行。
图5是本申请实施例提供的图像检测方法的一个可选的流程示意图,下面将结合图5示出的步骤进行说明,如图5所示,以图像检测方法的执行主体为服务器为例进行说明,方法包括以下步骤S101至步骤S104:
步骤S101,获取待检测图像、竞争图像和指向性描述文本。
这里,待检测图像可以具有任意图像内容;待检测图像可以是对待检测视频进行视频帧截取或者分帧处理后得到的任意一帧视频帧,也可以是通过任意一种图像采集方式采集的图像,或者是从网络中下载的图像等。
指向性描述文本用于描述待检测图像和竞争图像中的待检测对象的属性信息,也就是说,指向性描述文本用于描述待检测对象的特征信息。这里,属性信息包括但不限于以下至少之一:待检测对象的形状、大小、动作、姿态、外貌、颜色等特征。指向性描述文本可以是用户输入的描述文本,也可以在图像检测应用中具有多个固定的描述文本样例,用户可以选择与当前的图像检测任务匹配的描述文本样例,将该描述文本样例作为当前的图像检测任务的指向性描述文本。
竞争图像中包括指向性描述文本所描述的待检测对象。也就是说,如果基于指向性描述文本对竞争图像进行检测的话,必然能够检测到与该指向性描述文本对应的对象。本申请实施例中,可以提供一竞争图像库,在竞争图像库中存储有多个竞争图像,每一竞争图像对应至少一条描述文本,该描述文本用于描述该竞争图像中的对象的属性信息。举例来说,如果指向性描述文本为“站在桥上的人”,则竞争图像中必然具有一个站在桥上的人。在一些实施例中,竞争图像中可以仅具有指向性描述文本所描述的待检测对象,这样,在后续进行图像检测的时候,竞争图像中并不会存在其他干扰信息对图像检测过程进行干扰。
在一些实施例中,在执行当前的图像检测任务时,在用户输入指向性描述文本之后,可以对该指向性描述文本进行文本语义分析,从而确定出该指向性描述文本的文本语义,然后,从竞争图像库中基于该文本语义确定出与指向性描述文本对应的竞争图像,从而采用确定出的竞争图像实现本申请实施例的图像检测方法。在另一些实施例中,用户也可以在竞争图像库中选择用于本次图像检测任务的竞争图像,或者用户输入用于本次图像检测任务的竞争图像。
步骤S102,对待检测图像和竞争图像进行图像拼接处理,得到拼接图像。
这里,可以将待检测图像和竞争图像按照预设拼接方式进行拼接,形成包括待检测图像和竞争图像的拼接图像,其中,在拼接图像中,待检测图像的显著性大于竞争图像的显著性,这里的显著性是指在对拼接图像进行图像识别和图像检测时,更容易识别到待检测图像中的图像信息。
在实现的过程中,可以对竞争图像进行缩放处理之后与待检测图像进行拼接,也可以是对竞争图像进行透明化处理之后与待检测图像进行拼接。
本申请实施例中,可以提供一拼接画布,将待检测图像和竞争图像添加至拼接画布中,得到拼接图像,其中,在将待检测图像添加至拼接画布中时,待检测图像的尺寸和透明度等信息不发生改变,也就是说,拼接画布的尺寸大于或等于待检测图像的尺寸。例如,拼接画布的宽度可以等于待检测图像的宽度,拼接画布的高度大于待检测图像的高度,这样,在将待检测图像与竞争图像进行拼接处理时,可以是在高度方向上,将待检测图像与竞争图像进行纵向拼接处理;或者,拼接画布的高度可以等于待检测图像的高度,拼接画布的宽度大于待检测图像的宽度,这样,在将待检测图像与竞争图像进行拼接处理时,可以是在宽度方向上,将待检测图像与竞争图像进行横向拼接处理。
这里需要解释的是,拼接画布是指没有填充任何像素信息的空白画布,拼接画布用于填充待检测图像和竞争图像的像素信息,像素信息包括但不限于:图像中的每一像素点的RG B像素值、YUV编码值等。
步骤S103,基于指向性描述文本,对拼接图像进行目标检测,得到至少一个待检测对象的位置信息。
这里,可以对拼接图像中的全部像素信息进行识别,以确定出拼接图像中具有指向性描述文本所描述的待检测对象的位置信息。在实现的过程中,可以采用指向性检测模型进行目标检测,通过指向性检测模型可以识别出拼接图像中的全部符合指向性描述文本所描述的待检测对象的位置信息。
待检测对象的位置信息可以是待检测对象所在位置的四个顶点的位置坐标值,也就是说,是每一待检测对象的位置信息对应一个位置坐标框,位置信息即该位置坐标框的四个位置坐标值。
步骤S104,基于至少一个待检测对象的位置信息确定待检测图像的图像检测结果。
本申请实施例中,在得到至少一个待检测对象的位置信息之后,可以基于至少一个待检测对象的位置信息,确定待检测图像中是否存在待检测对象,以及,在确定出待检测图像中存在待检测对象时,基于位置信息确定待检测对象的位置,从而得到待检测图像的图像检测结果。
在一些实施例中,如果在待检测图像中检测到待检测对象,可以用位置坐标框框出待检测图像中的待检测对象,也可以以其他标识标注出待检测对象。在终端显示图像检测结果时,可以直接将位置坐标框显示于待检测图像中,以标识出待检测对象所在的位置,或者也可以以在待检测对象在待检测图像中所在的位置显示其他标识,以标识出待检测对象所在的位置。
在一些实施例中,在检测到待检测图像中的待检测对象之后,可以基于图像检测结果进行进一步的图像后处理,例如,可以对待检测图像中的待检测对象进行抠图或者图像转换处理,也可以根据图像检测结果进行检测结果报警或提醒等处理。具体的图像后处理可以根据实际的图像处理任务来确定。
举例来说,本申请实施例的图像检测方法可以应用于以下场景:可以将本申请实施例的图像检测方法应用于智慧视频分析平台中,在智慧视频分析平台中,能够支持物体状态检测(比如“倒地垃圾桶”检测)。在实现的过程中,可以通过摄像设备实时采集监测区域内的监测视频,并对监测视频进行分帧处理,得到多个视频帧,每一视频帧均可以构成本申请实施例的待检测图像,在进行物体状态检测时,由于物体状态检测的检测任务是固定的,因此竞争图像和指向性描述文本可以为一个固定的竞争图像和描述文本,也就是说,可以在图像检测系统中预先输入一个竞争图像和指向性描述文本,该竞争图像和指向性描述文本用于对全部视频帧进行图像检测处理。在进行图像检测处理的过程中,可以对每一帧待检测图像和竞争图像进行图像拼接处理,得到拼接图像;然后,基于指向性描述文本,对拼接图像进行目标检测,得到至少一个待检测对象的位置信息;最后,基于至少一个待检测对象的位置信息确定待检测图像的图像检测结果。当任一帧待检测图像的图像检测结果为预设状态的结果时,可以输出相应的提醒信息。例如,对于“倒地垃圾桶”检测任务,如果任一帧待检测图像的图像检测结果为存在“倒地垃圾桶”,则输出提醒信息。
本申请实施例提供的图像检测方法,通过获取待检测图像、竞争图像和指向性描述文本;指向性描述文本用于描述待检测图像和竞争图像中的待检测对象的属性信息;竞争图像中包括指向性描述文本所描述的待检测对象;并对待检测图像和所述竞争图像进行图像拼接处理,得到拼接图像;然后,基于指向性描述文本,对拼接图像进行目标检测,得到至少一个待检测对象的位置信息;最后,基于至少一个待检测对象的位置信息确定待检测图像的图像检测结果。如此,通过混合待检测图像和竞争图像进行指向性检测,从而能够提高针对待检测图像中的待检测对象的检测准确率,减少指向性检测过程中的误识。
在一些实施例中,图像检测系统中至少包括终端和服务器,其中,终端上安装有图像检测应用,可以通过图像检测应用响应用户的实时检测任务,从而起到实时监测和提醒的作用。服务器为图像检测应用的后台服务器。
图6是本申请实施例提供的图像检测方法的另一个可选的流程示意图,如图6所示,方法包括以下步骤S201至步骤S209:
步骤S201,终端接收用户的输入操作。
本申请实施例中,输入操作用于在图像检测应用的客户端输入待检测图像、竞争图像和指向性描述文本;指向性描述文本用于描述待检测图像和所述竞争图像中的待检测对象的属性信息;竞争图像中包括指向性描述文本所描述的待检测对象。
步骤S202,终端将待检测图像、竞争图像和指向性描述文本封装至图像检测请求中。
步骤S203,终端将图像检测请求发送给服务器。
步骤S204,服务器响应于图像检测请求,对待检测图像和所述竞争图像进行图像拼接处理,得到拼接图像。
这里,图像检测请求用于请求对待检测图像进行图像检测,以确定待检测图像中是否存在指向性描述文本所描述的待检测对象,以及,在存在待检测对象的情况下确定待检测对象在待检测图像中的位置。
在一些实施例中,参见图7,步骤S204中的图像拼接处理过程可以通过以下步骤S2041至步骤S2042实现:
步骤S2041,对竞争图像进行预设缩放比例的尺寸缩放处理,得到缩放处理后的竞争图像。预设缩放比例为0到1之间的任意值。
本申请实施例中,预设缩放比例可以通过以下方式获取:首先,获取待检测图像的宽度和高度,以及,竞争图像的宽度和高度;然后,基于待检测图像的宽度和高度,确定待检测图像的宽高比;基于竞争图像的宽度和高度,确定竞争图像的宽高比;最后,基于待检测图像的宽高比和竞争图像的宽高比,确定预设缩放比例。
本申请实施例中,如果待检测图像的宽高比大于预设的宽高比阈值,则在第一取值区间中确定预设缩放比例;如果待检测图像的宽高比小于或等于预设的宽高比阈值,则在第二取值区间中确定预设缩放比例,其中,第一取值区间的取值小于第二取值区间的取值,且第一取值区间与第二取值区间的并集为0到1之间的区间。
也就是说,如果待检测图像的宽高比比较大的话,那么待检测图像的宽度较大,或者,待检测图像的高度较小,此时可以选择一个较小的预设缩放比例,即在较小的第一取值区间中取一个合适的预设缩放比例,如此,对于较大宽高比的待检测图像,通过较小的预设缩放比例对竞争图像进行较小比例的缩放处理,能够避免对竞争图像的过度缩放而造成待检测图像的显著性远大于竞争图像的显著性,从而降低对待检测对象检测的准确性的问题。如果待检测图像的宽高比比较小的话,那么待检测图像的宽度较小,或者,待检测图像的高度较大,此时可以选择一个较大的预设缩放比例,即在较大的第二取值区间中取一个合适的预设缩放比例。如此,对于较小宽高比的待检测图像,通过较大的预设缩放比例对竞争图像进行较大比例的缩放处理,能够避免对竞争图像的缩放不足而造成待检测图像的显著性与竞争图像的显著性区别较小,而无法显著区分待检测图像和竞争图像,从而降低对待检测对象检测的准确性的问题。
在一些实施例中,在确定预设缩放比例时,除了要考虑待检测图像的宽高比,还需要考虑竞争图像的宽高比,可以确定待检测图像的宽高比和竞争图像的宽高比之间的差值,如果确定待检测图像的宽高比和竞争图像的宽高比之间的差值的绝对值较大的话,则可以结合待检测图像的宽高比和竞争图像的宽高比确定一个能够对竞争图像进行合理的缩放处理的预设缩放比例;如果确定待检测图像的宽高比和竞争图像的宽高比之间的差值的绝对值不大的话,则可以基于待检测图像额宽高比来确定预设缩放比例即可。也就是说,可以预先设置一差值阈值,如果待检测图像的宽高比和竞争图像的宽高比之间的差值的绝对值大于该差值阈值,则可以结合待检测图像的宽高比和竞争图像的宽高比确定一个能够对竞争图像进行合理的缩放处理的预设缩放比例;如果待检测图像的宽高比和竞争图像的宽高比之间的差值的绝对值小于或等于该差值阈值,则可以基于待检测图像额宽高比来确定预设缩放比例即可。
本申请实施例中,在确定预设缩放比例时,可以提供一缩放比例映射表,该缩放比例映射表中存储有待检测图像的宽高比和竞争图像的宽高比之间的每一个差值的绝对值与一个缩放比例之间的映射关系,该缩放比例映射表中的映射关系可以是基于人工智能技术预先学习的映射关系表。
在确定出待检测图像的宽高比和竞争图像的宽高比之间的差值的绝对值之后,可以从缩放比例映射表中查询与该差值的绝对值具有映射关系的缩放比例,该缩放比例即为用于本次对竞争图像进行尺寸缩放处理的预设缩放比例。如此,通过查询缩放比例映射表,可以快速的确定出本次进行尺寸缩放处理的预设缩放比例。
本申请实施例中,在得到预设缩放比例之后,可以基于该预设缩放比例对竞争图像进行尺寸缩放处理,得到缩放处理后的竞争图像。其中,当预设缩放比例取值为1时,对竞争图像进行尺寸缩放处理时,竞争图像的尺寸不变,即缩放处理后的竞争图像与原始的竞争图像的尺寸相同;当预设缩放比例取值接近0时,对竞争图像进行尺寸缩放处理时,竞争图像为缩放到最小状态时的图像,需要说明的是,预设缩放比例不会取值为0。
步骤S2042,对待检测图像与缩放处理后的竞争图像进行图像横向拼接处理,得到拼接图像。
本申请实施例中,可以提供一拼接画布,将待检测图像和缩放处理后的竞争图像添加至拼接画布中,实现对待检测图像与缩放处理后的竞争图像的拼接处理,以得到拼接图像。
这里,拼接画布的宽度可以等于待检测图像的宽度与缩放处理后的竞争图像的宽度之和,拼接画布的高度等于待检测图像的高度,这样,在将待检测图像与缩放处理后的竞争图像进行拼接处理时,可以是在宽度方向上,将待检测图像与缩放处理后的竞争图像进行横向拼接处理。
在另一些实施例中,请继续参见图7,步骤S204中的图像拼接处理过程还可以通过以下步骤S2043至步骤S2044实现:
步骤S2043,基于预设透明度比例,对竞争图像进行透明化处理,得到透明化竞争图像。预设透明度比例为0到1之间的任意值。
本申请实施例中,预设透明度比例可以通过以下方式获取:首先,获取竞争图像中每一像素点的ARGB值,这里的ARGB是一种色彩模式,也就是RGB色彩模式附加上透明度(Alpha)通道,常见于32位位图的存储结构。然后,提取每一像素点的透明度Alpha值(即A值),并对全部像素点的A值求均值后得到竞争图像的透明度值。同时,还可以计算待检测图像的透明度值,即可以提取待检测图像中的每一像素点的A值,并对全部像素点的A值求均值后得到待检测图像的透明度值。然后,可以基于待检测图像的透明度值和竞争图像的透明度值,确定预设透明度比例。
在一些实施例中,基于待检测图像的透明度值和竞争图像的透明度值,确定预设透明度比例,可以是提供一个二维的透明度比例索引表,在该索引表中可以以待检测图像的透明度值和竞争图像的透明度值为索引值,查找到相应的预设透明度比例。
本申请实施例中,在得到预设透明度比例之后,可以基于该预设透明度比例对竞争图像进行透明化处理,得到透明化竞争图像。其中,当预设透明度比例取值为1时,对竞争图像进行透明化处理时,竞争图像的透明度不变,即透明化竞争图像与原始的竞争图像相同;当预设透明度比例取值为0时,对竞争图像进行透明化处理时,竞争图像为完全透明状态,即透明化竞争图像是对原始的竞争图像进行完全透明化处理后的图像。
步骤S2044,对待检测图像与透明化竞争图像进行图像横向拼接处理,得到拼接图像。
本申请实施例中,可以提供一拼接画布,将待检测图像和透明化竞争图像添加至拼接画布中,实现对待检测图像与透明化竞争图像的拼接处理,以得到拼接图像。
这里,拼接画布的宽度可以等于待检测图像的宽度与透明化竞争图像的宽度之和,拼接画布的高度等于待检测图像的高度,这样,在将待检测图像与透明化竞争图像进行拼接处理时,可以是在宽度方向上,将待检测图像与透明化竞争图像进行横向拼接处理。
步骤S205,服务器基于指向性描述文本,对拼接图像进行目标检测,得到至少一个待检测对象的位置信息。
在一些实施例中,指向性描述文本中可以包括多条子文本;每一条子文本用于描述一种类型的待检测对象的属性信息;可以基于每一条子文本,对拼接图像进行目标检测,得到每一种类型的待检测对象的位置信息。如此,能够实现对多条子文本对应的多个检测任务的同步检测,提高图像检测效率。
在一些实施例中,可以对指向性描述文本进行文本识别,得到指向性描述文本对应的多条子文本;或者,可以对指向性描述文本进行拆分,得到多条子文本。或者,指向性描述文本是由多条子文本构成的文本,例如,每一条子文本可以是指向性描述文本中的一段文本,可以从指向性描述文本中提取每一段文本形成一条子文本。
在一些实施例中,可以提供一预先训练的指向性检测模型,通过指向性检测模型对拼接图像进行目标检测。参见图8,图8示出了步骤S205中的目标检测过程可以通过以下步骤S2051至步骤S2054实现:
步骤S2051,将指向性描述文本和拼接图像输入至预先训练的指向性检测模型中。
步骤S2052,通过指向性检测模型的文本编码模块,对指向性描述文本进行文本编码处理,得到文本特征。
这里,文本编码模块用于对输入的指向性描述文本进行特征提取,从而实现文本编码处理过程,得到文本特征。
在实现的过程中,可以提供一词向量表。可以先对指向性描述文本进行分词处理,得到多个词语,然后对指向性描述文本进行特征提取,可以是通过查询词向量表,得到每一词语对应的向量元素。在得到候选搜索结果中的每一词语的向量元素之后,将多个向量元素进行汇总,得到该指向性描述文本的文本特征,其中,文本特征为一矩阵形式的特征,文本特征中包括每一词语对应的向量元素。
在一些实施例中,可以采用word2vec、GloVe等自然语言处理(NLP,NaturalLanguag e Processing)中常用的词向量技术计算得到每个词语对应的向量值,并将每个词语的向量值按照词语在指向性描述文本中的顺序进行汇总,从而得到包括多个词语对应的向量值的文本特征。
这里需要解释的是,词向量(Word embedding),又叫Word嵌入式自然语言处理(NLP,Natural Language Processing)中的一组语言建模和特征学习技术的统称,其中来自词汇表(即词向量表)的单词或短语被映射到实数的向量。从概念上讲,词向量涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。生成这种映射的方法包括神经网络、单词共生矩阵的降维、概率模型、可解释的知识库方法和术语的显式表示以及单词出现的背景。当用作底层输入表示时,单词和短语嵌入已经被证明可以提高NLP任务的性能,例如语法分析和情感分析。
步骤S2053,通过指向性检测模型的图像编码模块,对拼接图像进行图像编码处理,得到图像编码特征。
步骤S2054,通过指向性检测模型的指向性解码模块,对文本特征和图像编码特征进行特征解码,得到至少一个待检测对象的位置信息。
每一待检测对象的位置信息包括一个位置坐标框的四个位置坐标值。位置信息可以表示为一个位置坐标框。
步骤S206,服务器基于至少一个待检测对象的位置信息确定待检测图像的图像检测结果。
本申请实施例中,基于至少一个待检测对象的位置信息确定待检测图像的图像检测结果,至少存在以下几种情况:
情况一:如果待检测对象的位置信息包括位于竞争图像中的一个位置坐标框,确定待检测图像的图像检测结果为待检测图像中不存在指向性描述文本所描述的待检测对象。
情况二:如果待检测对象的位置信息包括位于待检测图像中的一个位置坐标框,确定待检测图像的图像检测结果为待检测图像中存在指向性描述文本所描述的待检测对象,且待检测对象位于位置坐标框对应的位置。
情况三:如果待检测对象的位置信息包括位于待检测图像中的N个位置坐标框,确定待检测图像的图像检测结果为待检测图像中存在指向性描述文本所描述的待检测对象,且待检测对象为N个,每个待检测对象位于一个位置坐标框对应的位置;N为大于1的整数。
情况四:如果待检测对象的位置信息包括位于待检测图像和竞争图像中的M个位置坐标框,确定待检测图像的图像检测结果为待检测图像中存在指向性描述文本所描述的待检测对象,且待检测对象为M-1个,每个待检测对象位于一个位置坐标框对应的位置;M为大于1的整数。
情况五:可以先确定待检测对象的位置信息中的位置坐标框的数量;如果位置坐标框的数量大于1,确定待检测图像的图像检测结果为待检测图像中存在指向性描述文本所描述的待检测对象。
步骤S207,服务器基于图像检测结果生成提醒信息。
步骤S208,服务器将图像检测结果和提醒信息发送给终端。
步骤S209,终端在当前界面上显示图像检测结果和提醒信息。
本申请实施例中,如果输入的指向性描述文本中包括多个子文本,可以检测每一子文本对应的待检测对象的位置信息,在输出的时候,每一子文本对应的待检测对象的位置信息的位置坐标框可以具有一种颜色,不同的子文本对应的位置坐标框的颜色不同,或者,还可以在位置坐标框的位置显示子文本的文本标识,该文本标识可以是相应的待检测对象的名称或者编号等标识。
本申请实施例中,通过终端与服务器交互实现对待检测视频中的待检测图像进行图像检测,在进行图像检测的过程中,由于将待检测图像与竞争图像进行图像拼接处理,且在图像拼接处理时,是保证待检测图像的显著性大于竞争图像的显著性,这样,在对拼接图像进行目标检测时,能够保证在待检测图像中也存在待检测对象时,优先检测到待检测图像中的待检测对象,从而得到能够准确反映最终的图像检测结果的至少一个待检测对象的位置。如此,通过混合待检测图像和竞争图像进行指向性检测,从而能够提高针对待检测图像中的待检测对象的检测准确率,减少指向性检测过程中的误识。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
本申请实施例提供一种混合竞争图像的图像检测方法,通过混合待检测图像以及与指向性描述文本对应的竞争图像,让指向性检测模型同时具备两个能力:(1)判断待检测图像中是否存在指向性描述文本的描述所对应的区域;(2)输出待检测图像中与该指向性描述文本的描述所对应区域的坐标。
本申请实施例提供的图像检测方法,能够服务于AI解决方案产品(例如,智慧视频分析平台),支持物体状态检测(比如“倒地垃圾桶”检测,当检测视频中出现倒地的垃圾桶时报警并输出检测框)和组合物体检测(比如“管道排水”检测,当检测视频中出现正在排水的管道时报警并输出检测框)。
图9是本申请实施例提供的图像检测方法的总体流程示意图,如图9所示,以检测“在滑板上的人”为例,总体算法过程如下:
首先,选取一张和“在滑板上的人”相对应的竞争图像,该图像符合文本输入的描述,如图9中实线框901中的竞争图像所示。
然后,将待检测图像与竞争图像混合,如图9中将待检测图像902和竞争图像901横向拼接。举例来说,一种可行的混合方法是:维持待检测图像902的大小不变,对竞争图像901做两种变换,第一种变换是将竞争图像901的图像宽度变换到待检测图像902的α(即预设缩放比例,取值0到1之间)倍,竞争图像901的高度根据宽度的缩放比例进行相应缩放,保持竞争图像901的长宽比不变;第二种变换是将竞争图像901进行透明化,通过参数β(即预设透明度比例,取值0到1之间,取值为0时竞争图像变成纯白色,取值为1时为原始竞争图像)控制。参数α和β都是用来调节竞争图像的竞争力,这两参数值越大,竞争图像的竞争力越强。
再然后,将混合图像(即拼接图像)和文本(即指向性描述文本)输入到指向性检测模型903,这里的模型可以是任意的指向性检测模型(通常仅输出一个位置坐标)。
最后,对指向性检测模型输出的位置坐标进行逻辑判断,存在两种可能性:(a)位置坐标框在竞争图像区域,则判断待检测图像中不存在“在滑板上的人”;(b)位置坐标框在待检测图像区域,则判断待检测图像中存在“在滑板上的人”,并且输出的坐标框即为文本描述所对应的位置。上述逻辑判断的缘由如下:采用适当的参数值α和β后,当待检测图像中不存在“在滑板上的人”时,指向性检测模型会关注到竞争图像符合“在滑板上的人”的描述,输出竞争图像所在位置的坐标;当待检测图像中确实存在“在滑板上的人”时,由于参数值α和β设置得当,待检测图像中“在滑板上的人”的相关区域的显著性大于竞争图像,将会使得坐标框框在待检测图像的相应区域。
图10是本申请实施例提供的指向性检测模型的结构示意图,如图10所示,在指向性检测模型的训练过程中,图像编码模块1001(Image Tokenizer)将输入的待检测图像变换为图像编码特征(Image Token);文本编码模块1002(Text Tokenizer)将输入文本编码为文本特征(Text Token),两种特征(Image Token和Text Token)联结起来后送入Transformer模型1003(即上述指向性解码模块),坐标值被编码为位置信息(TargetToken),作为Transformer模型的输出目标,以此输出目标来训练整个指向性检测模型,即根据Transformer模型输出的坐标值以及坐标的标签建立损失,来训练整个指向性检测模型。
在指向性检测模型的推理阶段,会将待检测图像和竞争图像混合,将混合图像编码为Image Token,并将Image Token和给定的文本描述对应的Text Token输入到训练好的Transformer模型,来获得输出的坐标值,该坐标值所标记的区域就是与该文本描述所对应区域的坐标。
举例来说,本申请实施例提供的图像检测方法可以应用于方锥倒地和管道排水任务上,表1是在方锥倒地检测任务中,本申请实施例与相关技术中的OFA的对比结果,表2是在管道排水检测任务中,本申请实施例与相关技术中的OFA的对比结果,从表1和表2中均可以看出,本申请实施例的方法可以大幅提升图像检测的精准度。
表1
表2
需要说明的是,本申请实施例的方案还可以具有以下改进方法,比如,本申请实施例是在输入像素层面进行竞争,可能改进为从特征层面进行竞争。又或者,目前的指向性检测模型只能输出单个检测框,本申请实施例还可以构建新的训练数据,使得一个输入文本描述支持多个对应目标框的输出,此时判断逻辑为:当只输出一个目标框时框的是竞争图像,则待检测图像中不存在文本描述所对应的区域;当输出多个目标框时,则除了竞争图像,其他框均为待检测图像中与文本描述所对应的区域。
可以理解的是,在本申请实施例中,涉及到用户信息的内容,例如,待检测图像、指向性描述文本、待检测图像的图像检测结果等信息,如果涉及与用户信息或企业信息相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,或者对这些信息进行模糊化处理,以消除这些信息与用户之间的对应关系;且相关数据收集处理在实例应用时应该严格根据相关国家法律法规的要求,获取个人信息主体的知情同意或单独同意,并在法律法规及个人信息主体的授权范围内,开展后续数据使用及处理行为。
下面继续说明本申请实施例提供的图像检测装置354实施为软件模块的示例性结构,在一些实施例中,如图4所示,图像检测装置354包括:获取模块3541,用于获取待检测图像、竞争图像和指向性描述文本;所述指向性描述文本用于描述所述待检测图像和所述竞争图像中的待检测对象的属性信息;所述竞争图像中包括所述指向性描述文本所描述的待检测对象;图像拼接模块3542,用于对所述待检测图像和所述竞争图像进行图像拼接处理,得到拼接图像;目标检测模块3543,用于基于所述指向性描述文本,对所述拼接图像进行目标检测,得到至少一个待检测对象的位置信息;检测结果确定模块3544,用于基于所述至少一个待检测对象的位置信息确定所述待检测图像的图像检测结果。
在一些实施例中,所述图像拼接模块还用于:对所述竞争图像进行预设缩放比例的尺寸缩放处理,得到缩放处理后的竞争图像;所述预设缩放比例为0到1之间的任意值;对所述待检测图像与所述缩放处理后的竞争图像进行图像横向拼接处理,得到所述拼接图像。
在一些实施例中,所述装置还包括:缩放比例确定模块,用于获取所述待检测图像的宽度和高度,以及,所述竞争图像的宽度和高度;基于所述待检测图像的宽度和高度,确定所述待检测图像的宽高比;基于所述竞争图像的宽度和高度,确定所述竞争图像的宽高比;基于所述待检测图像的宽高比和所述竞争图像的宽高比,确定所述预设缩放比例。
在一些实施例中,所述图像拼接模块还用于:基于预设透明度比例,对所述竞争图像进行透明化处理,得到透明化竞争图像;所述预设透明度比例为0到1之间的任意值;对所述待检测图像与所述透明化竞争图像进行图像横向拼接处理,得到所述拼接图像。
在一些实施例中,所述检测结果确定模块还用于:如果所述待检测对象的位置信息包括位于所述竞争图像中的一个位置坐标框,确定所述待检测图像的图像检测结果为所述待检测图像中不存在所述指向性描述文本所描述的待检测对象;如果所述待检测对象的位置信息包括位于所述待检测图像中的一个位置坐标框,确定所述待检测图像的图像检测结果为所述待检测图像中存在所述指向性描述文本所描述的待检测对象,且所述待检测对象位于所述位置坐标框对应的位置。
在一些实施例中,所述检测结果确定模块还用于:如果所述待检测对象的位置信息包括位于所述待检测图像中的N个位置坐标框,确定所述待检测图像的图像检测结果为所述待检测图像中存在所述指向性描述文本所描述的待检测对象,且所述待检测对象为N个,每个待检测对象位于一个所述位置坐标框对应的位置;N为大于1的整数;如果所述待检测对象的位置信息包括位于所述待检测图像和所述竞争图像中的M个位置坐标框,确定所述待检测图像的图像检测结果为所述待检测图像中存在所述指向性描述文本所描述的待检测对象,且所述待检测对象为M-1个,每个待检测对象位于一个所述位置坐标框对应的位置;M为大于1的整数。
在一些实施例中,所述检测结果确定模块还用于:确定所述待检测对象的位置信息中的位置坐标框的数量;如果所述位置坐标框的数量大于1,确定所述待检测图像的图像检测结果为所述待检测图像中存在所述指向性描述文本所描述的待检测对象。
在一些实施例中,所述指向性描述文本包括多条子文本;每一所述子文本用于描述一种类型的待检测对象的属性信息;所述目标检测模块还用于:基于每一所述子文本,对所述拼接图像进行目标检测,得到每一种类型的待检测对象的位置信息。
在一些实施例中,所述目标检测模块还用于:将所述指向性描述文本和所述拼接图像输入至预先训练的指向性检测模型中;通过所述指向性检测模型的文本编码模块,对所述指向性描述文本进行文本编码处理,得到文本特征;通过所述指向性检测模型的图像编码模块,对所述拼接图像进行图像编码处理,得到图像编码特征;通过所述指向性检测模型的指向性解码模块,对所述文本特征和所述图像编码特征进行特征解码,得到所述至少一个待检测对象的位置信息;其中,每一所述待检测对象的位置信息包括一个位置坐标框的四个位置坐标值。
需要说明的是,本申请实施例装置的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,因此不做赘述。对于本装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括可执行指令,该可执行指令是一种计算机指令;该可执行指令存储在计算机可读存储介质中。当电子设备的处理器从计算机可读存储介质读取该可执行指令,处理器执行该可执行指令时,使得该电子设备执行本申请实施例上述的方法。
本申请实施例提供一种存储有可执行指令的存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的方法,例如,如图5示出的方法。
在一些实施例中,存储介质可以是计算机可读存储介质,例如,铁电存储器(FRAM,Ferromagnetic Random Access Memory)、只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPR OM,Electrically Erasable Programmable Read Only Memory)、闪存、磁表面存储器、光盘、或光盘只读存储器(CD-ROM,Compact Disk-Read Only Memory)等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMar kup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。作为示例,可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (13)
1.一种图像检测方法,其特征在于,所述方法包括:
获取待检测图像、竞争图像和指向性描述文本;所述指向性描述文本用于描述所述待检测图像和所述竞争图像中的待检测对象的属性信息;所述竞争图像中包括所述指向性描述文本所描述的待检测对象;
对所述待检测图像和所述竞争图像进行图像拼接处理,得到拼接图像;
基于所述指向性描述文本,对所述拼接图像进行目标检测,得到至少一个待检测对象的位置信息;
基于所述至少一个待检测对象的位置信息确定所述待检测图像的图像检测结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述待检测图像和所述竞争图像进行图像拼接处理,得到拼接图像,包括:
对所述竞争图像进行预设缩放比例的尺寸缩放处理,得到缩放处理后的竞争图像;所述预设缩放比例为0到1之间的任意值;
对所述待检测图像与所述缩放处理后的竞争图像进行图像拼接处理,得到所述拼接图像。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取所述待检测图像的宽度和高度,以及,所述竞争图像的宽度和高度;
基于所述待检测图像的宽度和高度,确定所述待检测图像的宽高比;
基于所述竞争图像的宽度和高度,确定所述竞争图像的宽高比;
基于所述待检测图像的宽高比和所述竞争图像的宽高比,确定所述预设缩放比例。
4.根据权利要求1所述的方法,其特征在于,所述对所述待检测图像和所述竞争图像进行图像拼接处理,得到拼接图像,包括:
基于预设透明度比例,对所述竞争图像进行透明化处理,得到透明化竞争图像;所述预设透明度比例为0到1之间的任意值;
对所述待检测图像与所述透明化竞争图像进行图像拼接处理,得到所述拼接图像。
5.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个待检测对象的位置信息确定所述待检测图像的图像检测结果,包括:
如果所述待检测对象的位置信息包括位于所述竞争图像中的一个位置坐标框,确定所述待检测图像的图像检测结果为所述待检测图像中不存在所述指向性描述文本所描述的待检测对象;
如果所述待检测对象的位置信息包括位于所述待检测图像中的一个位置坐标框,确定所述待检测图像的图像检测结果为所述待检测图像中存在所述指向性描述文本所描述的待检测对象,且所述待检测对象位于所述位置坐标框对应的位置。
6.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个待检测对象的位置信息确定所述待检测图像的图像检测结果,包括:
如果所述待检测对象的位置信息包括位于所述待检测图像中的N个位置坐标框,确定所述待检测图像的图像检测结果为所述待检测图像中存在所述指向性描述文本所描述的待检测对象,且所述待检测对象为N个,每个待检测对象位于一个所述位置坐标框对应的位置;N为大于1的整数;
如果所述待检测对象的位置信息包括位于所述待检测图像和所述竞争图像中的M个位置坐标框,确定所述待检测图像的图像检测结果为所述待检测图像中存在所述指向性描述文本所描述的待检测对象,且所述待检测对象为M-1个,每个待检测对象位于一个所述位置坐标框对应的位置;M为大于1的整数。
7.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个待检测对象的位置信息确定所述待检测图像的图像检测结果,包括:
确定所述待检测对象的位置信息中的位置坐标框的数量;
如果所述位置坐标框的数量大于1,确定所述待检测图像的图像检测结果为所述待检测图像中存在所述指向性描述文本所描述的待检测对象。
8.根据权利要求1所述的方法,其特征在于,所述指向性描述文本包括多条子文本;每一所述子文本用于描述一种类型的待检测对象的属性信息;
所述基于所述指向性描述文本,对所述拼接图像进行目标检测,得到至少一个待检测对象的位置信息,包括:
基于每一所述子文本,对所述拼接图像进行目标检测,得到每一种类型的待检测对象的位置信息。
9.根据权利要求1至8任一项所述的方法,其特征在于,所述基于所述指向性描述文本,对所述拼接图像进行目标检测,得到至少一个待检测对象的位置信息,包括:
将所述指向性描述文本和所述拼接图像输入至预先训练的指向性检测模型中;
通过所述指向性检测模型的文本编码模块,对所述指向性描述文本进行文本编码处理,得到文本特征;
通过所述指向性检测模型的图像编码模块,对所述拼接图像进行图像编码处理,得到图像编码特征;
通过所述指向性检测模型的指向性解码模块,对所述文本特征和所述图像编码特征进行特征解码,得到所述至少一个待检测对象的位置信息;其中,每一所述待检测对象的位置信息包括一个位置坐标框的四个位置坐标值。
10.一种图像检测装置,其特征在于,所述装置包括:
获取模块,用于获取待检测图像、竞争图像和指向性描述文本;所述指向性描述文本用于描述所述待检测图像和所述竞争图像中的待检测对象的属性信息;所述竞争图像中包括所述指向性描述文本所描述的待检测对象;
图像拼接模块,用于对所述待检测图像和所述竞争图像进行图像拼接处理,得到拼接图像;
目标检测模块,用于基于所述指向性描述文本,对所述拼接图像进行目标检测,得到至少一个待检测对象的位置信息;
检测结果确定模块,用于基于所述至少一个待检测对象的位置信息确定所述待检测图像的图像检测结果。
11.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至9任一项所述的图像检测方法。
12.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于引起处理器执行所述可执行指令时,实现权利要求1至9任一项所述的图像检测方法。
13.一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括可执行指令,所述可执行指令存储在计算机可读存储介质中;
当电子设备的处理器从所述计算机可读存储介质读取所述可执行指令,并执行所述可执行指令时,实现权利要求1至9任一项所述的图像检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310972711.4A CN117132547A (zh) | 2023-08-03 | 2023-08-03 | 图像检测方法、装置、设备、存储介质及计算机程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310972711.4A CN117132547A (zh) | 2023-08-03 | 2023-08-03 | 图像检测方法、装置、设备、存储介质及计算机程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117132547A true CN117132547A (zh) | 2023-11-28 |
Family
ID=88851889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310972711.4A Pending CN117132547A (zh) | 2023-08-03 | 2023-08-03 | 图像检测方法、装置、设备、存储介质及计算机程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117132547A (zh) |
-
2023
- 2023-08-03 CN CN202310972711.4A patent/CN117132547A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112685565B (zh) | 基于多模态信息融合的文本分类方法、及其相关设备 | |
CN107391505B (zh) | 一种图像处理方法及系统 | |
CN110442856B (zh) | 一种地址信息标准化方法、装置、计算机设备及存储介质 | |
CN112215171B (zh) | 目标检测方法、装置、设备及计算机可读存储介质 | |
CN111414915B (zh) | 一种文字识别方法以及相关设备 | |
CN113704531A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN111240669B (zh) | 界面生成方法、装置、电子设备及计算机存储介质 | |
CN104850388A (zh) | 网页绘制方法及装置 | |
CN113159091A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN114495128B (zh) | 字幕信息检测方法、装置、设备以及存储介质 | |
JP2022088602A (ja) | テーブル生成方法、装置、電子機器、記憶媒体及びプログラム | |
CN115757725A (zh) | 问答处理方法、装置、计算机设备及存储介质 | |
CN114022891A (zh) | 扫描文本的关键信息提取方法、装置、设备及存储介质 | |
CN111881900B (zh) | 语料生成、翻译模型训练、翻译方法、装置、设备及介质 | |
CN116774973A (zh) | 数据渲染方法、装置、计算机设备及存储介质 | |
CN110852103A (zh) | 一种命名实体识别方法及装置 | |
CN117132547A (zh) | 图像检测方法、装置、设备、存储介质及计算机程序产品 | |
CN116226850A (zh) | 应用程序的病毒检测方法、装置、设备、介质及程序产品 | |
CN117009577A (zh) | 一种视频数据处理方法、装置、设备及可读存储介质 | |
US11494377B2 (en) | Multi-detector probabilistic reasoning for natural language queries | |
CN114331932A (zh) | 目标图像生成方法和装置、计算设备以及计算机存储介质 | |
CN113822521A (zh) | 题库题目的质量检测方法、装置及存储介质 | |
CN113254635B (zh) | 数据处理方法、装置及存储介质 | |
CN114399782B (zh) | 文本图像处理方法、装置、设备、存储介质及程序产品 | |
CN114639037B (zh) | 确定高速服务区的车辆饱和的方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |