CN111931723B - 目标检测与图像识别方法和设备、计算机可读介质 - Google Patents

目标检测与图像识别方法和设备、计算机可读介质 Download PDF

Info

Publication number
CN111931723B
CN111931723B CN202011006401.XA CN202011006401A CN111931723B CN 111931723 B CN111931723 B CN 111931723B CN 202011006401 A CN202011006401 A CN 202011006401A CN 111931723 B CN111931723 B CN 111931723B
Authority
CN
China
Prior art keywords
prediction
score
predicted pixel
pixel point
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011006401.XA
Other languages
English (en)
Other versions
CN111931723A (zh
Inventor
张子浩
李兵
杨家博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yizhen Xuesi Education Technology Co Ltd
Original Assignee
Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yizhen Xuesi Education Technology Co Ltd filed Critical Beijing Yizhen Xuesi Education Technology Co Ltd
Priority to CN202011006401.XA priority Critical patent/CN111931723B/zh
Publication of CN111931723A publication Critical patent/CN111931723A/zh
Application granted granted Critical
Publication of CN111931723B publication Critical patent/CN111931723B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了目标检测与图像识别方法和设备、计算机可读介质。一种目标检测方法包括:通过分类和预测模型,获得输入图像的预测像素点、以及由预测像素点的标签得分构成的标签得分图;通过边界框回归,得到和预测像素点与初步预测边界框之间的位置关系有关的预测参数作为位置相关参数,其中,所述初步预测边界框基于所述预测像素点中位于边界的预测像素点而形成;基于预测像素点的至少一部分所述位置相关参数,计算该预测像素点的位置得分;基于预测像素点的标签得分与位置得分,计算该预测像素点的置信度;以及基于通过所述置信度而确定的可信的预测像素点,确定输入图像的目标框。

Description

目标检测与图像识别方法和设备、计算机可读介质
技术领域
本申请涉及图像处理领域,尤其涉及用于人工智能的图像处理领域。本申请具体涉及目标检测与图像识别方法和设备、计算机可读介质。
背景技术
OCR(Optical Character Recognition,光学字符识别)技术是图像处理与人工智能技术中一个重要的技术领域,其主要用于解决自然场景中的图像(文本)检测和识别。
目前的目标检测尤其是文本检测中,针对密集文本和长文本,主要采用先进行图像分割、然后进行边界框预测和回归的方法。
发明内容
本申请提供了目标检测与图像识别方法和设备、计算机可读介质。
根据本申请的一方面,提供一种目标检测方法,包括:
通过分类和预测模型,获得输入图像的预测像素点、以及由预测像素点的标签得分构成的标签得分图;
通过边界框回归,得到和预测像素点与初步预测边界框之间的位置关系有关的预测参数作为位置相关参数,其中,所述初步预测边界框基于所述预测像素点中位于边界的预测像素点而形成;
基于预测像素点的至少一部分所述位置相关参数,计算该预测像素点的位置得分;
基于预测像素点的标签得分与位置得分,计算该预测像素点的置信度;以及
基于通过所述置信度而确定的可信的预测像素点,确定输入图像的目标框。
这里,目标框可以指目标边界框。例如在目标检测的场景为文本检测的情况下,目标框则是文本框。
根据本申请的另一方面,提供一种目标检测装置,包括:
标签得分图获得单元,被配置用于通过分类和预测模型,获得输入图像的各预测像素点以及由各预测像素点的标签得分构成的标签得分图;
位置相关参数获得单元,被配置用于通过边界框回归,得到和每个预测像素点与初步预测边界框之间的位置关系有关的预测参数作为位置相关参数,其中,所述初步预测边界框基于所述各预测像素点中位于边界的预测像素点而形成;
位置得分计算单元,被配置用于基于预测像素点的至少一部分所述位置相关参数,计算该预测像素点的位置得分;
置信度计算单元,被配置用于基于预测像素点的标签得分与位置得分,计算该预测像素点的置信度;以及
目标框确定单元,被配置用于基于通过所述置信度而确定的可信的预测像素点,确定输入图像的目标框。
根据本申请的另一方面,提供一种图像识别方法,包括:
利用上述的目标检测方法之一,获得待检测图像中的目标框;以及
针对目标框中的图像数据,进行图像识别。
根据本申请的另一方面,提供一种图像识别设备,包括:
上述目标检测装置之一,用于检测目标;以及
识别装置,用于识别目标。
根据本申请的另一方面,提供一种图像识别设备,包括:
处理器;以及
存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述的图像识别方法。
根据本申请的另一方面,提供一种存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由处理器执行时,使所述处理器执行上述的方法。
在本申请中,通过综合考虑预测像素点本身的质量与预测像素点所在的位置,过滤掉精度不高的预测像素点,从而筛选出精度较高的预测像素点参与最终的目标检测,由此大大提高目标检测的精度。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1示出了根据本申请实施例的目标检测方法的示意图;
图2示出了一个根据本申请实施例的目标检测方法的架构示意图;
图3关于根据本申请实施例的目标检测方法给出了一个示例性的具体实施方式;
图4示出了用于解释预测像素点的位置相关参数的含义的示意图;
图5示出了根据本申请实施例的图像识别方法的示意图;
图6示出了根据本申请实施例的目标检测装置的示意图;
图7示出了根据本申请实施例的图像识别设备的框图;
图8示出了根据本申请实施例的电子设备的框图;以及
图9示出了根据本申请实施例的另一电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示例性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如前所述,目前的目标检测尤其是文本检测中,针对密集文本和长文本,主要采用先进行图像分割、然后进行边界框预测和回归的方法。
但是,这种方法得到的文本框边界点的预测精度不高,容易出现冗余与低质量的检测框,导致文本检测的效率和精度都受到影响。
本申请公开了一种目标检测方法,通过对于由预测得到的预测框的边界点进行特定的处理,增大边界点的预测精度,由此有效提升文本检测的效率和精度。
图1示出了一种根据本公开实施例的目标检测方法。
在步骤S100,可以通过分类和预测模型102,获得输入图像101的各预测像素点以及由各预测像素点的标签得分构成的标签得分图103。
这里的“分类和预测模型”102(如图2所示)可以是各种人工智能模型,例如神经网络模型、机器学习模型、深度学习模型等,或者它们的任意组合,也可以是其他的分类和预测模型,只要该分类和预测模型能够执行所需的分类和预测功能即可。因此,本申请对于分类和预测模型的具体形式没有任何限制。
在步骤S200,可以通过边界框回归(Bounding-Box Regression),得到和预测像素点与初步预测边界框之间的位置关系有关的预测参数,作为位置相关参数,其中,所述初步预测边界框基于所述预测像素点中位于边界的预测像素点而形成。
例如,对于一个文本图像,通过上述的步骤S100可以得到所有的预测像素点。由此,基于预测像素点,可以确定初步预测边界框。具体地,比如,可以连接这些预测像素点中处于边界的预测像素点,形成一个连线图,并且可以将围绕该连线图的框(例如包围该连线图的各个框之中的最小矩形框)作为初步预测边界框。另外,基于预测像素点来形成初步预测边界框的方法不限于上面给出该示例,而是可以采用任何合适的方法来构建初步预测边界框。
根据本申请实施例,可以基于预测像素点的位置相关参数,组成位置预测图104(图2中示出)。即,位置预测图104中包括预测像素点的与上述的初步预测边界框的位置关系有关的预测参数(位置相关参数),后面将给出具体示例以便理解。
如上所述,通过边界框回归,可以得到和预测像素点与初步预测边界框之间的位置关系有关的预测参数,这里,所述位置关系可以包括距离关系、方位关系或者角度关系等等。具体地,比如,预测像素点与初步预测边界框的距离关系,预测像素点与初步预测边界框的角度关系等。
在步骤S300,基于预测像素点的至少一部分所述位置相关参数,计算该预测像素点的位置得分。
这里,预测像素点的位置得分可以基于预测像素点的全部位置相关参数来确定,也可以基于预测像素点的一部分位置相关参数来确定,本申请对此不做任何限制。而且,预测像素点的位置得分能够一定程度上反映出该预测像素点与上述初步预测边界框的中心点或者中心区域之间的位置关系。这里,所述中心区域可以指围绕中心点而形成的一个区域。
其中,可以基于预测像素点的位置得分,生成图2所示的位置得分图105。其中,位置得分图105中的参数(各预测像素点的位置得分)可以通过使用预测像素点的位置相关参数(即,位置预测图104中的参数)的至少一部分来得到。
这里,如上所述,所述位置相关参数涉及预测像素点与初步预测边界框的位置关系,例如距离、方位(角度)等。由此可以确定预测像素点在初步预测边界框中的位置。具体地,根据本申请实施例,所述位置相关参数可以包括预测像素点与所述初步预测边界框的边的相对距离参数和/或方位(角度)参数等。
在步骤S400,基于预测像素点的标签得分与位置得分,计算该预测像素点的置信度。
在本申请中,不是仅仅使用预测像素点的标签得分来作为预测像素点的置信度,而是还另外考虑了预测像素点的位置关系,比如考虑了预测像素点的位置得分。在综合考虑标签得分和位置得分的基础上,来确定预测像素点的置信度,由此使得可信的预测像素点的准确度更高。即,比仅仅考虑标签得分得到的预测像素点的置信度更可信。
在步骤S500,基于通过预测像素点的置信度所确定的可信的预测像素点,确定输入图像的目标框。
在本步骤,先基于预测像素点的置信度,确定可信的预测像素点。
如果一个预测像素点的置信度大于第一阈值,则该预测像素点可以为可信的预测像素点。这里,第一阈值例如可以为[0.4, 1)之间的值,比如可以为0.5等。本申请中通过综合考虑标签得分与位置得分而确定的置信度,来判断预测像素点是否为可信的预测像素点,由此抑制或者滤除预测精度低、质量不好的预测像素点。
然后,基于可信的预测像素点,确定输入图像的目标框。
由于步骤S200中得到的初步预测边界框是基于所有预测像素点的边界生成的,该初步预测边界框的精度可能不够(通常可能偏大),所以可以进一步生成预测目标框(更接近真实边界框),由此得到输入图像的目标框。
在本申请中,通过基于预测像素点的置信度确定可信的预测像素点,由此确定输入图像的目标框,能够减少某些不可信的预测像素点(例如某些预测精度不高的边界点)对于在确定目标框方面产生的干扰,由此大大提升目标框的预测精度和预测效率。尤其本申请中综合考虑了预测像素点的标签得分和位置得分,即不仅考虑了预测像素点本身的得分情况,还考虑了预测像素点在边界框中的位置,在此基础上来预测目标框,能够得到比仅考虑预测像素点本身的得分情况精度更高更接近真实边界框的目标框。
具体地,在本申请中,在计算预测像素点的置信度时,可以通过某种或某些方式来适当地调整(比如减小)某些预测像素点(比如作为边界点的一些预测像素点)的置信度,由此对于预测精度不高的边界点进行抑制(例如滤除)。通过这种筛选机制,将预测精度高的边界点保留下来作为可信的预测像素点来参与构建目标框,而预测精度不太高的边界点无法参与构建目标框。从而,大大提高了目标框的预测精度,从而提高目标检测方法的精度。
根据本公开实施例,如果想要主要筛选预测像素点中的边界点,以去除精度不高、质量不好的边界点,保留精度较高的边界点,则可以针对位置得分较低(表示偏离预测边界框的中心点或中心区域)的预测像素点,计算这些预测像素点的置信度,然后基于其置信度,去除置信度低的预测像素点(边界点)。其中,可以设定位置得分的阈值(第三阈值),针对位置得分等于或低于该第三阈值的预测像素点,使用上述置信度计算方法之一来计算其置信度。也可以使用其他的置信度计算方法。这里,由于不是针对全部的预测像素点来计算置信度,在大大减少了计算量、提高了处理效率的同时,仍然能够提高目标框的预测精度,从而提高目标检测方法的精度和效率。
为了更易于理解,下面将结合一个实例来更具体地描述上述目标检测方法。
如图3所示,可以将图像101(例如大小为512*512*3的图像)输入到神经网络(例如残差神经网络Resnet50),通过FPN(Feature Pyramid Network,特征金字塔网络)进行特征提取后,得到相应的特征图。例如,图3中示出了通过上述的FPN输出5个特征图,它们分别是C1、C2、C3、C4、C5,其大小例如可以分别为128*128*128、64*64*128、32*32*256、16*16*512、8*8*64*512。通过对特征图进行卷积、上采样、以及拼接等操作,得到融合特征图MF,其尺寸大小例如可以为128*128*256。然后经过特征提取(例如通过3个分支的卷积特征提取),得到提取特征图。例如,如图3所示,得到三个提取特征图FP,其分别为FP1(例如图3示出的标签得分图(label score map))103、FP2(例如图3示出的边界框图(rounding box map),也可以称为位置预测图,如图3所示)104、FP3(例如边缘图(edge-ness map),也可以称为位置得分图,如图3所示)105,其尺寸例如可以分别为128*128*1、128*128*5、128*128*2。
其中,对于FP1,即标签得分图103,其是通过图2所示的分类和预测模型,在本申请给出的图3的示例中为网络模型(例如残差神经网络Resnet50与特征金字塔网络)所得到的分类和预测图,包括每个预测像素点的标签得分。该标签得分是相应预测像素点的标签预测值。通常,像素点为前景时,标签得分为1,当像素点为背景时,标签得分为0。因此,例如,如果一个预测像素点的标签得分是0.8,则可以表示该预测像素点很有可能是前景像素点,而如果一个预测像素点的标签得分是0.3,则可以表示该预测像素点很有可能是背景像素点。用于判断预测像素点是背景像素点还是前景像素点的第二阈值一般可以是例如0.5,也可以是其他数值,本申请对此不做任何限制。
另外,为了解决样本数据不均衡的问题,在训练模型时,可以采用例如dice损失函数来优化模型。不过,本申请对于用于优化模型的损失函数不做特别的限制,而是可以根据实际需求来采用合适的损失函数。
在获取到标签得分图103之后,可以通过边界回归的方法,得到位置预测图104。
举例来说,对于大小为128*128*5的位置预测图,每个预测像素点可以通过边界回归得到该预测像素点的5个位置相关参数,这5个位置相关参数可以反映该预测像素点与上述的初步预测边界框之间的位置关系。例如,如图4所示,位置相关参数分别可以为例如当前预测像素点Px0到初步预测边界框左侧边的相对距离LL、到初步预测边界框右侧边的相对距离RL、到初步预测边界框上侧边的相对距离TL、到初步预测边界框下侧边的相对距离BL、以及该预测像素点到该左侧边或右侧边的垂线与X轴形成的角度(可以称为“预测角度”)TT。这里,该预测角度可以理解为初步预测边界框的长边与X轴所形成的角度。当然,该预测角度也可以是初步预测边界框的长边与Y轴所形成的角度,或者初步预测边界框的短边与X轴或者Y轴所形成的角度,本申请对此没有任何限制。
由上可知,通过边界回归得到的预测像素点的位置相关参数涉及该预测像素点与初步预测边界框的位置关系,例如距离、方位(角度)等。由此可以确定预测像素点在初步预测边界框中的位置。
根据本申请实施例,所述位置相关参数可以包括预测像素点与所述初步预测边界框的边的相对距离参数和/或方位(角度)参数。
虽然上述的例子给出了5个位置相关参数,在本申请中,不一定必须是这5个位置相关参数,而是也可以只有4个相对距离参数(分别在横向2个,纵向2个),或者2个相对距离参数(横向1个,纵向1个)等等,或者是其他形式的位置参数,本申请对此没有任何限制。
这里,对于位置相关参数的预测,在训练模型时,可以采用例如iou损失函数来计算回归的边界预测值LL、RL、TL、BL的损失。例如,本申请可以采用下面示出的式1来计算边界框的损失Lrbox,其中,A为预测边界框的面积,A*为真实边界框的面积。另外,可以采用例如下面示出的式2来计算预测角度的损失Lr,其中TT为预测角度,TT*为真实角度。
Figure DEST_PATH_IMAGE001
……式1
Figure DEST_PATH_IMAGE002
……式2
不过,与上面的说明类似,本申请对于用于优化模型的损失函数不做特别的限制,而是可以根据实际需求来采用合适的损失函数。
在目标检测中,距离真实的边界框的中心点(或者中心区域)越近的像素点,其左右距离和上下距离之间的差值较小,因此由其得到的预测边界框越接近或者匹配真实的边界框。但是,距离真实的边界框的边界较近的点,也就是距离边界框的中心点(或者中心区域)较远的点,由于它们的左右距离和/或上下距离之间相差较大,导致可能由于这些边界点而出现较差的预测边界框。为了解决这个问题,本申请采用衰减预测像素点的综合预测得分的方法,以期减少或避免低质量预测边界框的出现,从而提高边界框的预测精度。
在本示例中,可以针对每个预测像素点来分别预测该预测像素点的x方向(横向)得分Sx和y方向(纵向)得分Sy。由预测得到的预测像素点的x方向得分Sx和y方向得分Sy,可以构成位置得分图105。位置得分图的尺寸例如可以为128*128*2。
这里,预测像素点的位置得分(预测值)用于判断预测像素点的位置是否靠近边界框的中心点或者中心区域。因此,这样的位置得分可以通过预测像素点的位置相关参数(边界预测参数)来得到。
举例来说,Sx和Sy的值可以分别通过下述的式3和式4来计算。其中l、r、t、b分别代表当前预测像素点到初步预测边界框的左、右、上、下距离。
Figure DEST_PATH_IMAGE003
……式3
Figure DEST_PATH_IMAGE004
……式4
在上面的例子中,可以通过比较预测像素点的相对距离与初步预测边界框的边长来获得预测像素点的位置得分。更具体地,可以通过分别比较预测像素点到所述初步预测边界框的纵向边的横向相对距离与初步预测边界框的横向边长、预测像素点的到所述初步预测边界框的横向边的纵向相对距离与初步预测边界框的纵向边长来获得预测像素点的横向和纵向上的位置得分。不过,本申请并不仅限于通过上述方式来获得位置得分,而是还可以根据实际需要等,通过其他的任何合适的方式来获得所述位置得分。
然后,基于上述的位置得分图中的预测像素点的x方向得分和y方向得分以及标签得分图中的该预测像素点的标签得分值(即预测值),来确定该预测像素点的置信度。这里,预测像素点的置信度相当于是该预测像素点的用于评判可信度的综合得分值,通过置信度的大小来衡量该预测像素点是否可信。
根据本申请实施例,可以通过将预测像素点的标签得分与预测像素点的位置得分相乘,实现对于标签得分与位置得分的双重抑制,得到预测像素点的置信度。在这种情况下,预测像素点的位置得分可以是一个数值,例如,该位置得分可以是由预测像素点到初步预测边界框的一个边的相对距离与初步预测边界框的与该边垂直的一个边的边长之间的比值得到的。比如横向相对距离与横向边的比值,或者纵向相对距离与纵向边的比值等。
例如,可以通过下式5来确定预测像素点的置信度C,其中,该当前预测像素点的标签得分值为S(来自标签得分图),该当前预测像素点的x方向得分为Sx,其y方向得分为Sy(来自位置得分图)。
Figure DEST_PATH_IMAGE005
……式5
从式5可以看出,置信度C小于或等于得分值S,并且也小于或等于x方向得分与y方向得分的平均值。也就是说,通过式5计算得到的置信度,通常可能是比得分值S小的。通过这种方式,实现对于得分值较小的预测像素点的过滤。因为如果预测像素点的得分值与x方向和y方向得分值都相对较高的话,所得到的置信度应该能够大于第一阈值,即置信度阈值(例如可以为0.5)。而如果预测像素点的得分值与x方向和y方向得分值这三个数值中有至少一个值较低,则得到的置信度将很有可能小于第一阈值,则这样的质量不好的预测像素点将可以被过滤掉。由此可以尽量筛选掉质量不好(至少某个或某些得分不高)的预测像素点,而保留质量较高(各个得分较高)的预测像素点。
另外,再例如,还可以通过下式6来确定预测像素点的置信度C。
Figure DEST_PATH_IMAGE006
……式6
式6与式5类似,都是用于衰减预测像素点的综合得分值,获得减小的置信度,从而实现过滤得分不高的预测像素点的效果。
另外,还可以将预测像素点的横向位置得分的立方与纵向位置得分的立方的均值与该预测像素点的标签得分相乘,得到该预测像素点的置信度。
还可以设计更多的置信度计算式,以通过预测像素点的置信度来确定是否要过滤掉该预测像素点。因此,本公开不限于上面给出的两个示例性的置信度计算式。
另外,在训练模型时,Sx和Sy的损失值例如可以采用交叉熵损失函数来计算。
不过,与上面的说明类似,本申请对于用于优化模型的损失函数不做特别的限制,而是可以根据实际需求来采用合适的损失函数。
在计算得到每个预测像素点的置信度之后,可以将置信度小于或等于第一阈值(即置信度阈值)的预测像素点作为不可信的预测像素点,而将置信度大于第一阈值(即置信度阈值)的预测像素点作为可信的预测像素点。使用按照上述方式所确定的可信的预测像素点来预测目标边界框,即可得到作为预测结果的目标边界框(即目标框)。由于是使用挑选出的综合得分较高(置信度较高)的预测像素点,因此得到的预测结果比之前包含质量不好的预测像素点时得到的预测结果更好,由此大大提高了预测精度。
根据本申请实施例,可以通过以下方式来进行目标边界框预测:将挑选出的预测像素点的预测参数值进行绝对值计算,并将计算出的预测参数绝对值作为非极大值抑制(Non-Maximum Suppression, NMS)算法的输入,以便得到预测结果,即目标边界框(目标框)。
这里,NMS算法通过由预测像素点得到的预测目标框的交并比来筛选重叠度较高的预测目标框,产生预测目标框并对其进行打分,由此可以选择由其产生的、得分较高的预测目标框作为目标框。
本申请不限于上述的示例,而是还可以通过其他的方式来进行目标边界框的预测,在此不再赘述。
根据本申请的实施例,还提供一种图像识别方法。
如图5所示,在步骤S10,利用上述目标检测方法之一,获得待检测图像中的目标框。
在步骤S20,针对目标框中的图像数据,进行图像识别。
在本申请中,待检测图像可以为各种形式的图像,包括文本图像。在待检测图像为文本图像的情况下,本申请的目标检测方法和图像识别方法分别可以进行文本检测和文本识别。
根据本申请的实施例,还提供一种目标检测装置10。
如图6所示,目标检测装置10可以包括标签得分图获得单元100、位置相关参数获得单元200、位置得分计算单元300、置信度计算单元400、目标框确定单元500。
其中,标签得分图获得单元100可以被配置用于通过分类和预测模型,获得输入图像的各预测像素点以及由各预测像素点的标签得分构成的标签得分图。
位置相关参数获得单元200可以被配置用于通过边界框回归,得到每个预测像素点的、和该预测像素点与初步预测边界框之间的位置关系有关的预测参数作为位置相关参数,其中,所述初步预测边界框基于所述各预测像素点中位于边界的预测像素点而形成。
位置得分计算单元300可以被配置用于基于预测像素点的至少一部分所述位置相关参数,计算该预测像素点的位置得分。
置信度计算单元400可以被配置用于基于预测像素点的标签得分与位置得分,计算该预测像素点的置信度。
目标框确定单元500可以被配置用于基于通过所述置信度而确定的可信的预测像素点,确定输入图像的目标框。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如上所述,根据本申请实施例,所述位置关系包括距离关系和/或角度关系。
根据本申请实施例,所述位置相关参数包括预测像素点与所述初步预测边界框的边的相对距离参数和/或角度参数。
根据本申请实施例,所述位置相关参数包括预测像素点到所述初步预测边界框左侧边的相对距离LL、到所述初步预测边界框右侧边的相对距离RL、到所述初步预测边界框上侧边的相对距离TL、到所述初步预测边界框下侧边的相对距离BL、和/或预测角度TT。
其中,所述预测角度TT为该预测像素点到所述初步预测边界框的纵向边的垂线与X轴形成的角度或者该预测像素点到所述初步预测边界框的横向边的垂线与Y轴形成的角度。
根据本申请实施例,所述位置得分计算单元通过比较预测像素点的所述相对距离参数与所述初步预测边界框的边长来获得该预测像素点的位置得分。
根据本申请实施例,所述位置得分计算单元通过分别比较预测像素点的到所述初步预测边界框的纵向边的横向相对距离与所述初步预测边界框的横向边长、该预测像素点的到所述初步预测边界框的横向边的纵向相对距离与所述初步预测边界框的纵向边长来获得该预测像素点的横向位置得分和纵向位置得分。
根据本申请实施例,所述位置得分计算单元通过分别比较预测像素点的横向相对距离中的最小值与所述横向相对距离中的最大值、该预测像素点的纵向相对距离中的最小值与所述纵向相对距离中的最大值来获得该预测像素点的横向位置得分和纵向位置得分。
根据本申请实施例,所述置信度计算单元将预测像素点的位置得分与该预测像素点的标签得分相乘,得到该预测像素点的置信度。
根据本申请实施例,所述置信度计算单元将预测像素点的横向位置得分与纵向位置得分的均值与该预测像素点的标签得分相乘,得到该预测像素点的置信度。
根据本申请实施例,所述置信度计算单元将预测像素点的横向位置得分的平方与纵向位置得分的平方的均值与该预测像素点的标签得分相乘,得到该预测像素点的置信度。
根据本申请实施例,还提供一种图像识别设备1。
如图7所示,图像识别设备1可以包括上述的用于检测目标的目标检测装置10以及用于识别目标的识别装置20。
根据本申请实施例,还提供一种电子设备1000。
如图8所示,电子设备1000可以包括处理器1001以及存储程序的存储器1002。其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述方法之一。
根据本申请实施例,还提供一种存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由处理器执行时,使所述处理器执行上述方法之一。
如图9所示,是根据本申请实施例的电子设备的另一种示例性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图9所示,该电子设备包括:一个或多个处理器801、存储器802,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中虽然仅示出了一个处理器801,但是实际上可以有至少一个,例如可以有两个或者更多个。
存储器802可以为本申请所提供的计算机可读存储介质(例如非瞬时计算机可读存储介质)。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的方法之一。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的方法之一。
存储器802作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的上述方法之一对应的程序指令/模块(例如,图5所示的各个单元100、200、300、400、500等)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法之一。
存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据本申请实施例的电子设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器802可选地包括相对于处理器801远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
根本本申请实施例的电子设备还可以包括:输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接,图9中以通过总线连接为例。
输入装置803可接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与虚拟专用服务器(VPS)服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (24)

1.一种目标检测方法,包括:
通过分类和预测模型,获得输入图像的预测像素点、以及由预测像素点的标签得分构成的标签得分图;
通过边界框回归,得到和预测像素点与初步预测边界框之间的位置关系有关的预测参数,作为位置相关参数,其中,所述初步预测边界框基于所述预测像素点中位于边界的预测像素点而形成;
基于预测像素点的至少一部分所述位置相关参数,计算该预测像素点的位置得分;
基于预测像素点的标签得分与位置得分,计算该预测像素点的置信度;以及
基于通过所述置信度而确定的可信的预测像素点,确定输入图像的目标框。
2.根据权利要求1所述的方法,其中,所述位置关系包括距离关系和/或角度关系。
3.根据权利要求1所述的方法,其中,所述位置相关参数包括预测像素点与所述初步预测边界框的边的相对距离参数和/或角度参数。
4.根据权利要求1所述的方法,其中,所述位置相关参数包括预测像素点到所述初步预测边界框左侧边的相对距离LL、到所述初步预测边界框右侧边的相对距离RL、到所述初步预测边界框上侧边的相对距离TL、到所述初步预测边界框下侧边的相对距离BL、和/或预测角度TT,其中,所述预测角度TT为该预测像素点到所述初步预测边界框的纵向边的垂线与X轴形成的角度或者该预测像素点到所述初步预测边界框的横向边的垂线与Y轴形成的角度。
5.根据权利要求3所述的方法,其中,所述基于预测像素点的至少一部分所述位置相关参数,计算该预测像素点的位置得分包括:
通过比较该预测像素点的所述相对距离参数与所述初步预测边界框的边长来获得该预测像素点的位置得分。
6.根据权利要求4所述的方法,其中,所述基于预测像素点的至少一部分所述位置相关参数,计算该预测像素点的位置得分包括:
通过分别比较预测像素点到所述初步预测边界框的纵向边的横向相对距离与所述初步预测边界框的横向边长、该预测像素点到所述初步预测边界框的横向边的纵向相对距离与所述初步预测边界框的纵向边长来获得该预测像素点的横向位置得分和纵向位置得分。
7.根据权利要求4所述的方法,其中,所述基于各预测像素点的至少一部分所述位置相关参数,计算该预测像素点的位置得分包括:
通过分别比较预测像素点到所述初步预测边界框的纵向边的横向相对距离中的最小值与所述横向相对距离中的最大值、该预测像素点到所述初步预测边界框的横向边的纵向相对距离中的最小值与所述纵向相对距离中的最大值来获得该预测像素点的横向位置得分和纵向位置得分。
8.根据权利要求1所述的方法,其中,所述基于预测像素点的标签得分与位置得分,计算该预测像素点的置信度包括:
将该预测像素点的位置得分与标签得分相乘,得到该预测像素点的置信度。
9.根据权利要求6或7所述的方法,其中,所述基于预测像素点的标签得分与位置得分,计算该预测像素点的置信度包括:
将该预测像素点的横向位置得分与纵向位置得分的均值与该预测像素点的标签得分相乘,得到该预测像素点的置信度。
10.根据权利要求6或7所述的方法,其中,所述基于预测像素点的标签得分与位置得分,计算该预测像素点的置信度包括:
将该预测像素点的横向位置得分的平方与纵向位置得分的平方的均值与该预测像素点的标签得分相乘,得到该预测像素点的置信度。
11.一种目标检测装置,包括:
标签得分图获得单元,被配置用于通过分类和预测模型,获得输入图像的各预测像素点以及由各预测像素点的标签得分构成的标签得分图;
位置相关参数获得单元,被配置用于通过边界框回归,得到和每个预测像素点与初步预测边界框之间的位置关系有关的预测参数,作为位置相关参数,其中,所述初步预测边界框基于所述各预测像素点中位于边界的预测像素点而形成;
位置得分计算单元,被配置用于基于预测像素点的至少一部分所述位置相关参数,计算该预测像素点的位置得分;
置信度计算单元,被配置用于基于预测像素点的标签得分与位置得分,计算该预测像素点的置信度;以及
目标框确定单元,被配置用于基于通过所述置信度而确定的可信的预测像素点,确定输入图像的目标框。
12.根据权利要求11所述的装置,其中,所述位置关系包括距离关系和/或角度关系。
13.根据权利要求11所述的装置,其中,所述位置相关参数包括预测像素点与所述初步预测边界框的边的相对距离参数和/或角度参数。
14.根据权利要求11所述的装置,其中,所述位置相关参数包括预测像素点到所述初步预测边界框左侧边的相对距离LL、到所述初步预测边界框右侧边的相对距离RL、到所述初步预测边界框上侧边的相对距离TL、到所述初步预测边界框下侧边的相对距离BL、和/或预测角度TT,其中,所述预测角度TT为该预测像素点到所述初步预测边界框的纵向边的垂线与X轴形成的角度或者该预测像素点到所述初步预测边界框的横向边的垂线与Y轴形成的角度。
15.根据权利要求13所述的装置,其中,所述位置得分计算单元通过比较预测像素点的所述相对距离参数与所述初步预测边界框的边长来获得该预测像素点的位置得分。
16.根据权利要求14所述的装置,其中,所述位置得分计算单元通过分别比较预测像素点到所述初步预测边界框的纵向边的横向相对距离与所述初步预测边界框的横向边长、该预测像素点到所述初步预测边界框的横向边的纵向相对距离与所述初步预测边界框的纵向边长来获得该预测像素点的横向位置得分和纵向位置得分。
17.根据权利要求14所述的装置,其中,所述位置得分计算单元通过分别比较预测像素点到所述初步预测边界框的纵向边的横向相对距离中的最小值与所述横向相对距离中的最大值、该预测像素点到所述初步预测边界框的横向边的纵向相对距离中的最小值与所述纵向相对距离中的最大值来获得该预测像素点的横向位置得分和纵向位置得分。
18.根据权利要求11所述的装置,其中,所述置信度计算单元将预测像素点的位置得分与该预测像素点的标签得分相乘,得到该预测像素点的置信度。
19.根据权利要求16或17所述的装置,其中,所述置信度计算单元将预测像素点的横向位置得分与纵向位置得分的均值与该预测像素点的标签得分相乘,得到该预测像素点的置信度。
20.根据权利要求16或17所述的装置,其中,所述置信度计算单元将预测像素点的横向位置得分的平方与纵向位置得分的平方的均值与该预测像素点的标签得分相乘,得到该预测像素点的置信度。
21.一种图像识别方法,包括:
利用权利要求1-10中任一项所述的目标检测方法,获得待检测图像中的目标框;
针对目标框中的图像数据,进行图像识别。
22.一种图像识别设备,包括:
权利要求11-20中任一项所述的目标检测装置,用于检测目标;以及
识别装置,用于识别目标。
23.一种图像识别设备,包括:
处理器;以及
存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行权利要求1-10中任一项所述的方法。
24.一种存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由处理器执行时,使所述处理器执行权利要求1-10以及21中任一项所述的方法。
CN202011006401.XA 2020-09-23 2020-09-23 目标检测与图像识别方法和设备、计算机可读介质 Active CN111931723B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011006401.XA CN111931723B (zh) 2020-09-23 2020-09-23 目标检测与图像识别方法和设备、计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011006401.XA CN111931723B (zh) 2020-09-23 2020-09-23 目标检测与图像识别方法和设备、计算机可读介质

Publications (2)

Publication Number Publication Date
CN111931723A CN111931723A (zh) 2020-11-13
CN111931723B true CN111931723B (zh) 2021-01-05

Family

ID=73334037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011006401.XA Active CN111931723B (zh) 2020-09-23 2020-09-23 目标检测与图像识别方法和设备、计算机可读介质

Country Status (1)

Country Link
CN (1) CN111931723B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275082A (zh) * 2020-01-14 2020-06-12 中国地质大学(武汉) 一种基于改进端到端神经网络的室内物体目标检测方法
CN111275040A (zh) * 2020-01-18 2020-06-12 北京市商汤科技开发有限公司 定位方法及装置、电子设备、计算机可读存储介质
CN111401376A (zh) * 2020-03-12 2020-07-10 腾讯科技(深圳)有限公司 目标检测方法、装置、电子设备以及存储介质
US20200279128A1 (en) * 2019-02-28 2020-09-03 Sap Se Object Detection and Candidate Filtering System

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10489677B2 (en) * 2017-09-07 2019-11-26 Symbol Technologies, Llc Method and apparatus for shelf edge detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200279128A1 (en) * 2019-02-28 2020-09-03 Sap Se Object Detection and Candidate Filtering System
CN111275082A (zh) * 2020-01-14 2020-06-12 中国地质大学(武汉) 一种基于改进端到端神经网络的室内物体目标检测方法
CN111275040A (zh) * 2020-01-18 2020-06-12 北京市商汤科技开发有限公司 定位方法及装置、电子设备、计算机可读存储介质
CN111401376A (zh) * 2020-03-12 2020-07-10 腾讯科技(深圳)有限公司 目标检测方法、装置、电子设备以及存储介质

Also Published As

Publication number Publication date
CN111931723A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
US20220383535A1 (en) Object Tracking Method and Device, Electronic Device, and Computer-Readable Storage Medium
CN110659600B (zh) 物体检测方法、装置及设备
CN112529073A (zh) 模型训练方法、姿态估计方法、装置及电子设备
CN111768381A (zh) 零部件缺陷检测方法、装置及电子设备
CN111612753B (zh) 三维物体检测方法、装置、电子设备和可读存储介质
CN110595490B (zh) 车道线感知数据的预处理方法、装置、设备和介质
CN111402161B (zh) 点云障碍物的去噪方法、装置、设备和存储介质
CN113177968A (zh) 目标跟踪方法、装置、电子设备及存储介质
CN110675635B (zh) 相机外参的获取方法、装置、电子设备及存储介质
CN110717933B (zh) 针对运动物体漏检的后处理方法、装置、设备和介质
CN111767853A (zh) 车道线检测方法和装置
CN113033346B (zh) 文本检测方法、装置和电子设备
CN113724388B (zh) 高精地图的生成方法、装置、设备以及存储介质
CN113177472A (zh) 动态手势识别方法、装置、设备以及存储介质
CN112150462A (zh) 确定目标锚点的方法、装置、设备以及存储介质
CN111797745A (zh) 一种物体检测模型的训练及预测方法、装置、设备及介质
CN112270745A (zh) 一种图像生成方法、装置、设备以及存储介质
CN115719436A (zh) 模型训练方法、目标检测方法、装置、设备以及存储介质
CN111753739A (zh) 物体检测方法、装置、设备以及存储介质
CN114511661A (zh) 图像渲染方法、装置、电子设备及存储介质
CN115439543A (zh) 孔洞位置的确定方法和元宇宙中三维模型的生成方法
CN111275827A (zh) 基于边缘的增强现实三维跟踪注册方法、装置和电子设备
CN111337898A (zh) 激光点云的处理方法、装置、设备及存储介质
CN111768485A (zh) 三维图像的关键点标注方法、装置、电子设备及存储介质
CN111931723B (zh) 目标检测与图像识别方法和设备、计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant