CN111027621A - 图像识别模型的训练方法、系统、设备和存储介质 - Google Patents

图像识别模型的训练方法、系统、设备和存储介质 Download PDF

Info

Publication number
CN111027621A
CN111027621A CN201911252133.7A CN201911252133A CN111027621A CN 111027621 A CN111027621 A CN 111027621A CN 201911252133 A CN201911252133 A CN 201911252133A CN 111027621 A CN111027621 A CN 111027621A
Authority
CN
China
Prior art keywords
frame
training
true value
recognition model
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911252133.7A
Other languages
English (en)
Inventor
杨聪
唐健
柯严
严治庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Clobotics Technology Co ltd
Original Assignee
Shanghai Clobotics Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Clobotics Technology Co ltd filed Critical Shanghai Clobotics Technology Co ltd
Priority to CN201911252133.7A priority Critical patent/CN111027621A/zh
Publication of CN111027621A publication Critical patent/CN111027621A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及图像处理技术领域,特别涉及一种图像识别模型的训练方法、系统、设备和存储介质。图像识别模型的训练方法包括如下步骤:获取带有真值框的训练图像;将所述训练图像输入构建的预设有标记框的模型中;将模型朝向所述真值框与所述标记框的交叠区域面积占所述真值框与所述标记框总面积最大的方向回归,以获得所述图像识别模型。在本公开提供的图像识别模型的训练方法中,通过寻求交叠区域与真值框和标记框总面积的大小而最终获得最优的模型,不仅能够有效解决现有技术因约束关系的单一产生的识别精确度低的问题,而且还同时兼顾角度和交叠区域两种约束,因此能够较大提高识别模型的识别准确度。

Description

图像识别模型的训练方法、系统、设备和存储介质
技术领域
本公开涉及图像处理技术领域,特别涉及一种图像识别模型的训练方法、系统、设备和存储介质。
背景技术
识别和准确标记图像中的目标物体,有利于利用标记出的信息对相应事物进行管理和分类,还有利于向外界传递出更加有价值的统计信息。这是现代图像识别领域应用人工智能的意义所在。
经过大量的图像数据训练的识别模型,可以有效地识别出图像中的目标物体,从而可以快速地对目标物体采用标记框的方式进行标记。经过识别和标记后的图像,目标物体被明显的标记在标记框中。因此,这样的图像能够清楚的反映出所需要的信息,有利于后续过程中利用这些信息,进行必要的数据统计等操作。
训练好的模型中会构建有若干个不同的标记框,用来标记识别出的区域,这样的标记框也称为锚点。
发明内容
本公开的一方面提供了一种图像识别模型的训练方法。所述图像识别模型的训练方法包括如下步骤:
获取带有真值框的训练图像;
将所述训练图像输入构建的预设有标记框的模型中;
将模型朝向所述真值框与所述标记框的交叠区域面积占所述真值框与所述标记框总面积最大的方向回归,以获得所述图像识别模型。
在一实施例中,所述带有真值框的训练图像,采用人工标记的方式获得。
在一实施例中,所述真值框与所述标记框均为矩形框。
在一实施例中,将模型朝向所述真值框与所述标记框的交叠区域面积占真值框与标记框总面积最大的方向回归包括:
将所述模型中中心点和长宽均相同的所述标记框归为一类;
将每一类中的所述标记框按照随机计算的置信度大小排序,以获得置信度最高的最优标记框;
计算所述真值框与所述最优标记框的交叠区域占所述真值框与所述最优标记框总面积的比值大小;
判断所述比值大小是否最大;否则,按照重新随机计算的置信度排列所述标记框,并重新计算;直至,
所述比值大小最大时,完成回归。
在一实施例中,所述的计算真值框与最优标记框的交叠区域占真值框与最优标记框总面积的比值大小包括:
将所述真值框与所述最优标记框映射至一二值图上,以得到面积大小能够容纳所述真值框和所述标记框的映射二值图像;
统计所述映射二值图像中的位于交叠区域之内的像素点以及位于所述交叠区域之外的像素点;其中,
位于所述交叠区域之内的像素点最多、位于所述交叠区域之外的像素点最少时对应的所述比值大小最大。
在一实施例中,所述每一类的标记框中至少包括9个标记框。
在一实施例中,所述9个标记框的中心点相同,并且所述9个标记框之间的间隔均匀。
本公开的另一方面是提供了一种图像识别模型的训练系统。所述图像识别模型的训练系统用于实现如前所述的图像识别模型的训练方法的步骤。所述图像识别模型的训练系统包括:
图像获取模块,用于获取带有真值框的训练图像;
图像输入模块,用于将所述训练图像输入构建的带有标记框的模型中;
模型回归模块,用于将模型朝向所述真值框与所述标记框的交叠区域面积占所述真值框与所述标记框总面积最大的方向回归,以获得所述图像识别模型。
本公开的再一方面还提供了一种图像识别模型的训练设备。所述图像识别模型的训练设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如本公开前一方面所述的图像识别模型的训练方法的步骤。
本公开的最后一方面则是提供了一种计算机可读存储介质。所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述的图像识别模型的训练方法的步骤。
在本公开提供的图像识别模型的训练方法、系统、设备和存储介质中,通过寻求交叠区域与真值框和标记框总面积的大小而最终获得最优的模型,不仅能够有效解决现有技术因约束关系的单一(偏向角度约束)产生的识别精确度低的问题,而且还同时兼顾角度和交叠区域两种约束,因此能够较大提高识别模型的识别准确度。另外,通过将标记框进行归类和排序,大大减少了标记框的数量,进而降低了识别模型的训练难度,有利于模型的收敛,提高面对背景复杂的图像的识别准确度。还有,本公开提供的识别模型训练方法还通过将标记框与真值框投影到二值图上,统计二值图上的像素点的分布,以此来判断标记框与真值框是否达到匹配状态。并且还同时兼顾了对真值框和标记框的角度信息和交叠区域的约束,从而能够有效的获取与真值框匹配更佳的标记框,也因此能够更加容易地得到回归更好的识别模型,进而提高识别模型的普适性。不论是普通的目标物体还是长宽比例比较高的物体都能够准确识别。
附图说明
附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于示例的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1是本公开一实施例所展示的图像识别模型的训练方法的步骤流程图;
图2是本公开一实施例提供的模型回归方法的步骤流程图;
图3是本公开一实施例提供的标记框归类后的示意图;
图4是本公开一实施例提供的面积占比计算方法步骤流程图;
图5是本公开一实施例提供的图像识别模型的训练系统模块连接示意图;
图6是本公开一实施例提供的图像识别模型的训练设备的结构示意图;
图7是本公开一实施例提供的计算机可读存储介质的结构示意图。
具体实施方式
通过上述说明可知,识别和准确标记图像中的目标物体,有利于利用标记出的信息对相应事物进行管理和分类,还有利于向外界传递出更加有价值的统计信息。在识别目标物体的过程中,经过大量的图像数据训练的识别模型,可以有效地识别出图像中的目标物体,从而可以快速地对目标物体采用标记框的方式进行标记。这样,目标物体可以被包含在标记框中,进而可以醒目地将目标物体区域对外进行展示。另外还可以利用这样的标记好的信息,进行一些数据统计的工作。
训练好的模型中会构建有若干个不同的标记框(锚点),用来标记识别出的区域。传统的目标检测中,一个标记框的描述方式为标记框的中心点坐标(x,y),标记框的宽与高(w,h)。这些标记框常常始终只有水平状态(或者竖直状态)。这些标记框显然对带有旋转角度,尤其是带有旋转角度且长宽比较大的物体不能较好地进行检测标记。检测标记出来的区域中往往带有大量的背景信息。在面对数量多、较为密集的带有旋转角度的矩形物体时,按照这样的标记方式,最终输出的标记框将会出现大量的重叠,严重降低了标记的精确度。随着技术的发展,逐渐有研究人员将传统的标记框中加入角度信息(标记框的长度方向与水平方向的夹角信息),从而实现了旋转物体(图片中的物体的长度方向与水平方向存在夹角)的检测与标记。带有角度的标记框尽管比传统的标记框更优化了。但是,现有技术利用带有角度的标记框进行识别模型训练时,往往仅追寻标记框与采用人工标记的目标物体的真值框的角度回归(倾斜角度区域一致),从而导致标记框的倾斜角度可以与真值框(通过人工来标记目标物体的矩形框,真值框是最理性的框,训练识别模型的目的就是使识别模型在识别目标物体能够达到真值框的标记效果)的倾斜角度非常的接近,但是标记框与真值框的交叠区域的回归约束并不明显。这样训练出的识别模型在检测长宽比较大的物体时,容易出现较大的中心点偏离,最终无法准确的检测和标记出目标物体。
与此同时,这样带有角度信息的标记框尽管能够一定程度上实现物体的识别和标记。但是带有角度信息的标记框使得标记框的构建数量相比传统的不带角度信息的标记框成倍增加。数量成倍增加的角度框,在识别模型的训练过程中会极大提高模型的训练难度,使得模型难以收敛。对于一些背景复杂的图片来说,由于可能的候选角度更多,往往造成识别精确度大幅下降。
为了解决现有技术存在的问题,让标记框能够与目标物体更加匹配(这里的匹配可以更加确定的认为时标记框中存在更多的属于目标物体的像素),减少标记框内出现的非目标物体的数量或面积,发明人通过创造性的劳动提出了一种图像识别模型的训练方法、系统、设备和存储介质。值得说明的是,以下内容中,本公开所指的标记框除特殊说明之外,均为带有角度信息的标记框。本公开提供的图像识别模型的训练方法通过寻求交叠区域与真值框和标记框总面积的大小而最终获得最优的模型,不仅能够有效解决现有技术因约束关系的单一(偏向角度约束)产生的识别精确度低的问题,而且还同时兼顾角度和交叠区域两种约束,因此能够较大提高识别模型的识别准确度。另外,通过将标记框进行归类和排序,大大减少了标记框的数量,进而降低了识别模型的训练难度,有利于模型的收敛,提高面对背景复杂的图像的识别准确度。还有,本公开提供的识别模型训练方法还通过将标记框与真值框投影到二值图上,统计二值图上的像素点的分布,以此来判断标记框与真值框是否达到匹配状态。并且还同时兼顾了对真值框和标记框的角度信息和交叠区域的约束,从而能够有效的获取与真值框匹配更佳的标记框,也因此能够更加容易地得到回归更好的识别模型,进而提高识别模型的普适性。不论是普通的目标物体还是长宽比例比较大的物体都能够准确识别。
以下结合附图和具体实施例对本公开提出的图像识别模型的训练方法、系统、设备及存储介质作进一步详细说明。根据权利要求书和下面说明,本公开的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本公开实施例的目的。
应当理解的内容是,说明书中的用辞仅用于描述特定的实施例,并不旨在限定本公开。说明书使用的所有术语(包括技术术语和科学术语)除非另有定义,均具有本领域技术人员通常理解的含义。为简明和/或清楚起见,公知的功能或结构不再详细说明。
关于图像识别模型的训练方法的示例说明
在图1中,展示了本公开一实施例中的图像识别模型的训练方法的步骤流程图。
在这个实施例的步骤S001中,获取带有真值框的训练图像。带有真值框的训练图像通常是由人工进行标记。现阶段,人工标记的图像作为训练图像是识别模型中常用到的方式。无疑,由于是人工进行的标记,标记出的矩形框往往能够与目标物体达到非常高的匹配,因此我们把人工标记的矩形框称为真值框。
在步骤S002中,将所述训练图像输入构建的预设有标记框的模型中。这里预设的标记框,可以按照现有的方式在模型中构建出多种(包括带有角度的框)类型。通常为了便须后续的分析处理,标记框与真值框通常都是矩形框。
在步骤S003中,将模型朝向真值框与标记框的交叠区域面积占所述真值框与所述标记框总面积最大的方向回归,以获得所述图像识别模型。
可见,本公开提供的图像识别模型的训练方法,通过将模型朝向真值框与标记框的交叠区域面积占真值框与标记框总面积最大的方向回归,能够同时兼顾真值框与标记框的角度还有交叠区域,解决了现有技术中在训练识别模型时往往偏心与约束角度信息,而忽略交叠区域最终导致图像识别模型识别经度低的不足。
在本公开的一实施例中,还进一步说明了关于“模型回归的”的优选实施方案。在图2中,展示了该实施例提供的模型回归方法的步骤流程图。
在这个实施例的步骤S011中,将所述模型中中心点和长宽均相同的所述标记框归为一类。
在步骤S012中,将每一类中的所述标记框按照随机计算的置信度大小排序,以获得置信度最高的最优标记框。
在步骤S013中,计算所述真值框与所述最优标记框的交叠区域占所述真值框与所述最优标记框总面积的比值大小。
在步骤S014中,判断所述比值大小是否最大;否则,重新按照随机计算的置信度排列所述标记框,并重新计算;直至所述比值大小最大时,完成回归。
另外,请参考图3所示,图3是本实施例提供的标记框归类后的示意图。图中示出了经过归类后,每一类中的标记框都有相同的中心点,当然这些标记框的长和宽也是相同的。还可以看出,一类中的标记框之间的间隔是均匀的(这个可以在模型中构建标记框的时候进行设置),其数量可以是9个或者更多的时候能够覆盖以中心点为中心的圆形面区域。
由上述公开内容可知,本公开提供的优选的回归方案,通过将标记框进行归类和排序,进而选择出优选的标记框,大大减少了参与后续与真值框进行计算的标记框数量,进而降低了识别模型的训练难度,有利于模型的收敛回归。而且还进一步提高了识别模型面对背景复杂的图像的识别准确度。
在本公开的一实施例中,还进一步说明了关于“计算真值框与最优标记框的交叠区域占真值框与最优标记框总面积比值大小”的优选方案。在图4中,展示了面积占比计算方法步骤流程图。
在步骤S021中,将所述真值框与所述最优标记框映射至一个二值图上,以得到面积大小能够容纳所述真值框和所述标记框的映射二值图像。
在步骤S022中,统计所述映射二值图像中的位于交叠区域之内的像素点以及位于所述交叠区域之外的像素点;其中,
位于所述交底区域之内的像素点最多、位于所述交叠区域之外的像素点最少时对应的所述比值大小最大。
容易理解,在模型回归的过程中,本领域技术人员可以根据上述的方法构建一损失函数,以获得损失函数的最小值,来获得图像识别模型。
例如,可以在确定真值框与最优标记框的交叠区域后,计算交叠区域中的每个像素的贡献度,继而将交叠区域中每个像素的贡献度相加得到数值A。同时计算真值框和最优标记框中的所有像素的贡献度,并将真值框与最优标记框中的所有像素的贡献度相加得到数值B。利用数值A和数值B构成一个损失函数loss=A/B。最终,在求解获取损失函数的最小值,以获得符合本公开目的的识别模型。显然,通过上述构建出来的损失函数能够有效地引导图像识别模型去寻找最符合真值框的标记框,而且还能够引导模型去寻找最合适的标记框去匹配长宽比例较大的目标物体。
通过上述公开内容可以发现,本公开通过将标记框与真值框投影到二值图上,统计二值图上的像素点的分布,以此来判断标记框与真值框是否达到匹配状态。并且还同时兼顾了对真值框和标记框的角度信息和交叠区域的约束,从而能够有效的获取与真值框匹配更佳的标记框,也因此能够更加容易地得到回归更好的识别模型,进而提高识别模型的普适性。不论是普通的目标物体还是长宽比例比较高的物体都能够准确识别。
关于图像识别模型的训练系统的示例说明
本公开的一实施例中还提供了一种图像识别模型的训练系统。在图5中,展示了本公开一实施例提供的图像识别模型的训练系统的模块连接示意图。该系统能够实现本公开中说明的图像识别模型的训练方法。为了实现本公开说明的图像识别模型的训练方法,该系统包括:
图像获取模块501,用于获取带有真值框的训练图像;
图像输入模块502,用于将所述训练图像输入构建的带有标记框的模型中;
模型回归模块503,用于将模型朝向所述真值框与所述标记框的交叠区域面积占所述真值框与所述标记框总面积最大的方向回归,以获得所述图像识别模型。
关于图像识别模型的训练设备的示例说明
本公开的一实施例中还提供了一种图像识别模型的训练设备。所述设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现本公开中说明的图像识别模型的训练方法的步骤。
另外,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。
图6是本公开一实施例提供的商品引导设备的结构示意图。下面参照图6来详细描述根据本实施例中的实施方式实施的电子设备600。图6显示的电子设备600仅仅是一个示例,不应对本公开任何实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600以通用计算设备的形式表现。电子设备600的组建可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,存储单元存储有程序代码,程序代码可以被处理单元610执行,使得处理单元610执行本实施例中上述图像拼接方法部分中描述的根据本实施例中的实施步骤。例如,处理单元610可以执行如图1中所示的步骤。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取单元(RAM)和/或高速缓存存储单元,可以进一步包括只读存储单元(ROM)6203。
存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图像加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可以与一个或者多个使得用户与该电子设备600交互的设备通信,和/或与使得该电子设备能与一个或多个其他计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其他模块通信。应当明白,尽管图6中未示出,可以结合电子设备600使用其他硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
关于可读存储介质的示例说明
本本公开的一个实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时能够实现上述公开中图像识别模型的训练方法的步骤。尽管本实施例未详尽的列举其他具体的实施方式,但在一些可能的实施方式中,本公开公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本公开中商品引导方法部分中描述的根据本公开各种实施例中实施方式的步骤。
如上说明之内容,该实施例提供的计算机可读存储介质中存储的计算机程序被执行时,通过提供的图像识别模型的训练方法通过寻求交叠区域与真值框和标记框总面积的大小而最终获得最优的模型,不仅能够有效解决现有技术因约束关系的单一(偏向角度约束)产生的识别精确度低的问题,而且还同时兼顾角度和交叠区域另种约束,因此能够较大提高识别模型的识别准确度。
图7是本公开一实施例提供的计算机可读存储介质的结构示意图。如图7所示,其中描述了根据本公开的实施方式中用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。当然,依据本实施例产生的程序产品不限于此,在本公开中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上所述,在本公开提供的图像识别模型的训练方法、系统、设备和存储介质中,通过寻求交叠区域与真值框和标记框总面积的大小而最终获得最优的模型,不仅能够有效解决现有技术因约束关系的单一(偏向角度约束)产生的识别精确度低的问题,而且还同时兼顾角度和交叠区域两种约束,因此能够较大提高识别模型的识别准确度。另外,通过将标记框进行归类和排序,大大减少了标记框的数量,进而降低了识别模型的训练难度,有利于模型的收敛,提高面对背景复杂的图像的识别准确度。还有,本公开提供的识别模型训练方法还通过将标记框与真值框投影到二值图上,统计二值图上的像素点的分布,以此来判断标记框与真值框是否达到匹配状态。并且还同时兼顾了对真值框和标记框的角度信息和交叠区域的约束,从而能够有效的获取与真值框匹配更佳的标记框,也因此能够更加容易地得到回归更好的识别模型,进而提高识别模型的普适性。不论是普通的目标物体还是长宽比例比较高的物体都能够准确识别。
上述描述仅是对本公开较佳实施例的描述,并非对本公开范围的任何限定,本公开领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于权利要求书的保护范围。

Claims (10)

1.一种图像识别模型的训练方法,其特征在于,包括如下步骤:
获取带有真值框的训练图像;
将所述训练图像输入构建的预设有标记框的模型中;
将模型朝向所述真值框与所述标记框的交叠区域面积占所述真值框与所述标记框总面积最大的方向回归,以获得所述图像识别模型。
2.如权利要求1所述的图像识别模型的训练方法,其特征在于,所述带有真值框的训练图像,采用人工标记的方式获得。
3.如权利要求1中所述的图像识别模型的训练方法,其特征在于,所述真值框与所述标记框均为矩形框。
4.如权利要求3所述的图像识别模型的训练方法,其特征在于,将模型朝向所述真值框与所述标记框的交叠区域面积占真值框与标记框总面积最大的方向回归的步骤包括:
将所述模型中中心点和长宽均相同的所述标记框归为一类;
将每一类中的所述标记框按照随机计算的置信度大小排序,以获得置信度最高的最优标记框;
计算所述真值框与所述最优标记框的交叠区域占所述真值框与所述最优标记框总面积的比值大小;
判断所述比值大小是否最大;否则,按照重新随机计算的置信度排列所述标记框,并重新计算;直至,
所述比值大小最大时,完成回归。
5.如权利要求4中所述的图像识别模型的训练方法,其特征在于,所述的计算真值框与最优标记框的交叠区域占真值框与最优标记框总面积的比值大小的步骤包括:
将所述真值框与所述最优标记框映射至一二值图上,以得到面积大小能够容纳所述真值框和所述标记框的映射二值图像;
统计所述映射二值图像中的位于交叠区域之内的像素点以及位于所述交叠区域之外的像素点;其中,
位于所述交叠区域之内的像素点最多、位于所述交叠区域之外的像素点最少时对应的所述比值大小最大。
6.如权利要求2所述的图像识别模型的训练方法,其特征在于,所述每一类的标记框中至少包括9个标记框。
7.如权利要求6所述的图像识别模型的训练方法,其特征在于,所述9个标记框的中心点相同,并且所述9个标记框之间的间隔均匀。
8.一种图像识别模型的训练系统,用于实现权利要求1至7中任一项所述的图像识别模型的训练方法的步骤,其特征在于,所述系统包括:
图像获取模块,用于获取带有真值框的训练图像;
图像输入模块,用于将所述训练图像输入构建的带有标记框的模型中;
模型回归模块,用于将模型朝向所述真值框与所述标记框的交叠区域面积占所述真值框与所述标记框总面积最大的方向回归,以获得所述图像识别模型。
9.一种图像识别模型的训练设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7中任一项所述的图像识别模型的训练方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的图像识别模型的训练方法的步骤。
CN201911252133.7A 2019-12-09 2019-12-09 图像识别模型的训练方法、系统、设备和存储介质 Pending CN111027621A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911252133.7A CN111027621A (zh) 2019-12-09 2019-12-09 图像识别模型的训练方法、系统、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911252133.7A CN111027621A (zh) 2019-12-09 2019-12-09 图像识别模型的训练方法、系统、设备和存储介质

Publications (1)

Publication Number Publication Date
CN111027621A true CN111027621A (zh) 2020-04-17

Family

ID=70206148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911252133.7A Pending CN111027621A (zh) 2019-12-09 2019-12-09 图像识别模型的训练方法、系统、设备和存储介质

Country Status (1)

Country Link
CN (1) CN111027621A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063559A (zh) * 2018-06-28 2018-12-21 东南大学 一种基于改良区域回归的行人检测方法
CN109558902A (zh) * 2018-11-20 2019-04-02 成都通甲优博科技有限责任公司 一种快速目标检测方法
CN109766752A (zh) * 2018-11-28 2019-05-17 西安电子科技大学 一种基于深度学习的目标匹配和定位方法及系统、计算机
CN110084253A (zh) * 2019-05-05 2019-08-02 厦门美图之家科技有限公司 一种生成物体检测模型的方法
CN110135424A (zh) * 2019-05-23 2019-08-16 阳光保险集团股份有限公司 倾斜文本检测模型训练方法和票证图像文本检测方法
CN110276346A (zh) * 2019-06-06 2019-09-24 北京字节跳动网络技术有限公司 目标区域识别模型训练方法、装置和计算机可读存储介质
CN110503097A (zh) * 2019-08-27 2019-11-26 腾讯科技(深圳)有限公司 图像处理模型的训练方法、装置及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063559A (zh) * 2018-06-28 2018-12-21 东南大学 一种基于改良区域回归的行人检测方法
CN109558902A (zh) * 2018-11-20 2019-04-02 成都通甲优博科技有限责任公司 一种快速目标检测方法
CN109766752A (zh) * 2018-11-28 2019-05-17 西安电子科技大学 一种基于深度学习的目标匹配和定位方法及系统、计算机
CN110084253A (zh) * 2019-05-05 2019-08-02 厦门美图之家科技有限公司 一种生成物体检测模型的方法
CN110135424A (zh) * 2019-05-23 2019-08-16 阳光保险集团股份有限公司 倾斜文本检测模型训练方法和票证图像文本检测方法
CN110276346A (zh) * 2019-06-06 2019-09-24 北京字节跳动网络技术有限公司 目标区域识别模型训练方法、装置和计算机可读存储介质
CN110503097A (zh) * 2019-08-27 2019-11-26 腾讯科技(深圳)有限公司 图像处理模型的训练方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘冰,尹洪涛,付平主编: "《深度核机器学习技术及应用》", 北京工业大学出版社, pages: 163 *

Similar Documents

Publication Publication Date Title
CN108229509B (zh) 用于识别物体类别的方法及装置、电子设备
US20180114101A1 (en) Edge-based adaptive machine learning for object recognition
CN109791625A (zh) 使用人工神经网络进行面部识别
CN108520229A (zh) 图像检测方法、装置、电子设备和计算机可读介质
CN110163087B (zh) 一种人脸姿态识别方法及系统
CN108399386A (zh) 饼图中的信息提取方法及装置
US11640551B2 (en) Method and apparatus for recommending sample data
CN112016638B (zh) 一种钢筋簇的识别方法、装置、设备及存储介质
TWI716012B (zh) 樣本標註方法、裝置、儲存媒體和計算設備、損傷類別的識別方法及裝置
CN110889446A (zh) 人脸图像识别模型训练及人脸图像识别方法和装置
CN110059637B (zh) 一种人脸对齐的检测方法及装置
CN109543680A (zh) 兴趣点的位置确定方法、装置设备和介质
CN111832447A (zh) 建筑图纸构件识别方法、电子设备及相关产品
US11893773B2 (en) Finger vein comparison method, computer equipment, and storage medium
CN115136209A (zh) 缺陷检测系统
US11157730B2 (en) Determining experiments represented by images in documents
CN111310606A (zh) 多张图片之间重复内容获取方法、系统、设备和介质
CN111124863A (zh) 智能设备性能测试方法、装置及智能设备
CN112036516A (zh) 一种图像处理方法、装置、电子设备和存储介质
CN111027621A (zh) 图像识别模型的训练方法、系统、设备和存储介质
CN116309643A (zh) 人脸遮挡分确定方法、电子设备及介质
CN110781809A (zh) 基于注册特征更新的识别方法、装置及电子设备
CN115346041A (zh) 基于深度学习的点位标注方法、装置、设备及存储介质
CN115631374A (zh) 控件操作方法、控件检测模型的训练方法、装置和设备
CN114140612A (zh) 电力设备隐患检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200417