CN112560853A

CN112560853A - 图像处理的方法、装置及存储介质

Info

Publication number: CN112560853A
Application number: CN202011479468.5A
Authority: CN
Inventors: 黄跃峰; 杨军
Original assignee: Zoomlion Heavy Industry Science and Technology Co Ltd; Zhongke Yungu Technology Co Ltd
Current assignee: Zoomlion Heavy Industry Science and Technology Co Ltd; Zhongke Yungu Technology Co Ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-03-26

Abstract

本发明公开了一种图像处理的方法、装置及存储介质。该方法包括：获取图像采集设备采集的图像；使用强语义模型检测出图像中的强语义目标并截取与强语义目标对应的弱语义目标待测区域；使用弱语义模型检测出弱语义目标待测区域中的弱语义目标；将强语义目标和弱语义目标结合以得到最终的目标图像。这样，即使对于含有多个待检测目标且目标之间语义差别较大的图像，也能使得图像的检测精确度更高，召回率更高，减少漏检或误检的情况。

Description

图像处理的方法、装置及存储介质

技术领域

本发明涉及图像处理技术领域，具体地，涉及一种图像处理的方法、装置及存储介质。

背景技术

图像处理任务包括，目标检测、语义分割或光学字符识别(Optical CharacterRecognition,OCR)等。目前的图像处理方法一般是采用一次模型，一次模型具有端对端的效果，但是模型过大会导致训练耗时多，且区分效果并不明显，难以兼顾语义差别较大的目标。语义差别是指同一数据集中，不同样本在图像中的面积占比差别过大、对比度差异过大或者样本量差异过大等。现有的图像处理方法对于语义差别较大的图像，处理结果均不太理想。语义差别较大的目标加大了图像处理任务的难度，使得任务的精度不够，召回率偏低，易造成漏检或误检的情况。

发明内容

本发明的目的是提供一种图像处理的方法、装置及存储介质，用以解决现有的图像处理方法对于语义差别较大的图像，任务的精度不够，召回率偏低，易造成漏检或误检的情况。

为了实现上述目的，本发明第一方面提供一种图像处理的方法，该方法包括：

获取图像采集设备采集的图像；

使用强语义模型检测出图像中的强语义目标；

截取与强语义目标对应的弱语义目标待测区域；

使用弱语义模型检测出弱语义目标待测区域中的弱语义目标；

将强语义目标和弱语义目标结合以得到最终的目标图像。

在本发明的实施方式中，该方法还包括：

分别采集强语义目标样本和弱语义目标样本；

分别对强语义目标样本和弱语义目标样本进行标注以生成强语义目标样本的数据集和弱语义目标样本的数据集；

使用强语义目标样本的数据集和弱语义目标样本的数据集训练模型，以得到强语义模型和弱语义模型。

在本发明的实施方式中，强语义模型包括目标检测模型，弱语义模型包括目标检测模型、语义分割模型和光学字符识别模型中的至少一者。

在本发明的实施方式中，使用强语义模型检测出图像中的强语义目标并截取与强语义目标对应的弱语义目标待测区域包括：

使用强语义模型检测出图像中的强语义目标；

将强语义目标进行扩充，以得到弱语义目标待测区域。

在本发明的实施方式中，将强语义目标进行扩充，以得到弱语义目标待测区域包括：

将强语义目标的坐标输入至机器学习模型，以得到扩充参数；

将强语义目标的坐标按照扩充参数进行扩充，以得到弱语义目标待测区域。

在本发明的实施方式中，将强语义目标进行扩充，以得到弱语义目标待测区域还包括：

对机器学习模型进行训练。

在本发明的实施方式中，对机器学习模型进行训练包括：

获取强语义目标样本的坐标数据集、弱语义目标样本的坐标数据集以及对应的扩充参数的数据集；

使用强语义目标样本的坐标数据集、弱语义目标样本的坐标数据集以及扩充参数的数据集训练机器学习模型。

在本发明的实施方式中，将强语义目标和弱语义目标结合以得到最终的目标图像包括：

分别获取强语义目标的坐标和弱语义目标的坐标；

将强语义目标的坐标和弱语义目标的坐标分别映射到图像中；

根据映射后的强语义目标的坐标和弱语义目标的坐标，得到目标图像。

本发明第二方面提供一种图像处理的装置，被配置成执行上述的图像处理的方法。

本发明第三方面提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行上述的图像处理的方法。

通过上述技术方案，先使用强语义模型检测图像的强语义目标并截取与强语义目标对应的弱语义目标待测区域，再使用弱语义模型检测出弱语义目标待测区域中的弱语义目标，最后将强语义目标和弱语义目标结合以得到最终的目标图像。这样，即使对于语义差别较大的图像，也能使得图像的检测精确度更高，召回率更高，减少漏检或误检的情况。

本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是本发明一实施方式提供的一种图像处理的方法的流程示意图；

图2是本发明另一实施方式提供的一种图像处理的方法的流程示意图；

图3是本发明另一实施方式提供的一种获取弱语义目标待测区域的方法的流程示意图；

图4是本发明实施方式提供的一种图像处理的装置的结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

需要说明，若本申请实施方式中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本申请实施方式中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施方式之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

参见图1，图1是本发明一实施方式提供的一种图像处理的方法的流程示意图。如图1所示，本发明的实施方式提供一种图像处理的方法，该方法可以包括以下步骤。

在步骤S11中，获取图像采集设备采集的图像。在本发明的实施方式中，计算机设备可以接收图像采集设备采集的图像。其中，图像采集设备可以是手持照相设备或者设置于固定位置的照相设备，包括但不限于相机、手机、平板、摄像头等等。通过图像采集设备采集图像，将图像输入至计算机设备，计算机设备接收到图像采集设备发送的图像，并且存储接收到的图像。

在步骤S12中，使用强语义模型检测出图像中的强语义目标。在本发明的实施方式中，强语义模型是用于检测强语义目标的模型，强语义目标指的是大小适中、对比度合适或者数据量足够的容易预测的目标。强语义目标可以指的是一个或多个物体的图像区域。例如，在检测危险驾驶的情景中，以“手”为强语义目标，则“手”的图像可以为强语义目标。本发明的实施方式中，强语义模型可以是目标检测模型。例如，Faster R-CNN、SSD、YOLO等目标检测模型。优选地，本发明的实施方式的强语义模型可以为SSD mobilenet v1检测模型。

在步骤S13中，截取与强语义目标对应的弱语义目标待测区域。在本发明的实施方式中，计算机设备接收到图像采集设备发送的图像后，通过强语义模型检测出图像中的强语义目标。强语义模型检测出的强语义目标一般是大小适中、对比度合适或者数据量足够的容易预测的目标。对于特大或者特小、对比度特大或者特小或者样本量很少等不好预测的目标，即弱语义目标，如果只使用强语义模型预测，则容易造成漏检或误检的情况。弱语义目标也可以指的是一个或多个物体的图像区域，例如，在检测危险驾驶的情景中，以“手机”和“烟”为弱语义目标。因此，本发明的实施方式在后续会使用弱语义模型检测弱语义目标。弱语义目标和强语义目标具有语义逻辑，可以根据强语义目标及周边的一定范围的区域检测到弱语义目标。例如，在检测危险驾驶的情景中，若需要检测驾驶员是否抽烟或打电话，则需要检测“手机”和“烟”，而“手机”和“烟”一般是位于驾驶员的“手”上，对于一次检测模型，容易造成误检或漏检的情况。因此，本发明实施方式中，以“手”为强语义目标，则“手”的图像可以为强语义目标，“手机”和“烟”为弱语义目标。为了便于弱语义目标的检测，本发明实施方式在检测出强语义目标后，可以截取与强语义目标对应的弱语义目标待测区域。例如，在“手”的图像附近进行扩充，以得到可能包含弱语义目标的弱语义目标待测区域。截取的区域大小可以根据机器学习模型的算法或者根据具体实例的语义规则来进行设定。这样，可以便于弱语义目标的检测。

在步骤S14中，使用弱语义模型检测出弱语义目标待测区域中的弱语义目标。在本发明的实施方式中，弱语义模型是用于检测弱语义目标的模型，弱语义目标是指特大或特小的、对比度特大或特小的或者样本量很少等不好检测的目标。用户可以根据弱语义目标与强语义目标的逻辑关系进行语义推理，在弱语义目标待测区域中检测出弱语义目标。弱语义模型可以是目标检测模型、语义分割模型和/或光学字符识别(Optical CharacterRecognition，OCR)模型中至少一者。优选地，目标检测模型可以为SSD mobilenet v1检测模型；语义分割模型可以为deeplab v3检测模型；OCR模型可以为ABCNet检测模型。通过对强语义目标的检测和弱语义目标待测区域的截取，在弱语义目标待测区域的感受野下检测弱语义目标，可以使得弱语义目标的检测精度更高，召回率更高。

在步骤S15中，将强语义目标和弱语义目标结合以得到最终的目标图像。在本发明的实施方式中，通过强语义模型检测出强语义目标，通过弱语义模型检测出弱语义目标，最后将强语义目标和弱语义目标相结合，从而得到最终的目标图像。例如，使用强语义模型检测出强语义目标的坐标，使用弱语义模型检测出弱语义目标的坐标，再将强语义目标坐标和弱语义目标的坐标映射到原图像中，这样就可以在原图像中得到最终的目标图像。

本发明的实施方式中，强语义目标和弱语义目标指的是在同一图像中具有较大的语义差别的图像。本发明的实施方式先使用强语义模型检测图像的强语义目标并截取与强语义目标对应的弱语义目标待测区域，再使用弱语义模型检测出弱语义目标待测区域中的弱语义目标，最后将强语义目标和弱语义目标结合以得到最终的目标图像。这样，即使对于语义差别较大的图像，也能使得图像的检测精确度更高，召回率更高，减少漏检或误检的情况。

参见图2，图2是本发明另一实施方式提供的一种图像处理的方法的流程示意图。如图2所示，本发明的实施方式提供一种图像处理的方法，该方法可以包括以下步骤：

S21、分别采集强语义目标样本和弱语义目标样本；

S22、分别对强语义目标样本和弱语义目标样本进行标注以生成强语义目标样本的数据集和弱语义目标样本的数据集；

S23、使用强语义目标样本的数据集和弱语义目标样本的数据集训练模型，以得到强语义模型和弱语义模型；

S24、获取图像采集设备采集的图像；

S25、使用强语义模型检测出图像中的强语义目标；

S26、截取与强语义目标对应的弱语义目标待测区域；

S27、使用弱语义模型检测出弱语义目标待测区域中的弱语义目标；

S28、将强语义目标和弱语义目标结合以得到最终的目标图像。

本发明的实施方式与上述实施方式的不同之处在于，还包括步骤S21至步骤S23。用户在选定强语义目标和弱语义目标后，先对强语义目标和弱语义目标分别进行模型训练。以目标检测模型的训练为例，在检测危险驾驶行为的场景中，选定强语义目标为“手”，弱语义目标为“手机”。则可以分别训练关于“手”的强语义模型和关于“手机”的弱语义模型。先分别采集强语义目标样本和弱语义目标样本，分别对强语义目标样本进行标注，生成强语义目标样本的数据集，对弱语义目标样本进行标注，生成弱语义目标样本的数据集。生成数据集后，分别在强弱语义数据集上进行两个模型的训练。强语义目标样本训练的模型为强语义模型，弱语义目标样本训练的模型为弱语义模型。通过对强语义模型和弱语义模型的训练，使用强语义模型和弱语义模型二次检测，可以更好地检测出目标图像。

在本发明的实施方式中，强语义模型可以包括目标检测模型，弱语义模型包括目标检测模型、语义分割模型和光学字符识别模型中的至少一者。

具体地，目标检测也叫目标提取，是一种基于目标几何和统计特征的目标检测，它将目标的检测和识别合二为一，其准确性和实时性也是整个系统的一项重要能力。尤其是在复杂的场景中，需要对多个目标进行实时处理时，目标自动提取和识别就显得尤为重要。语义分割是将一些原始数据(例如，平面图像)输入并将它们转换为具有突出明显的感兴趣区域。OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。

本发明的实施方式中，强语义模型和弱语义模型这两个模型可以是目标检测+目标检测模型、目标检测+语义分割模型或目标检测+OCR模型。

以目标检测+目标检测模型为例，例如在危险驾驶行为的检测中，需要检测打电话和吸烟的行为。根据语义推理，在危险驾驶行为中，“手机”和“烟”一般会在驾驶员的手中。“手”为大小适中的目标，因此“手”的图像可以作为强语义模型检测的目标，即强语义目标；而“烟”和“手机”为比较小的目标，用强语义模型检测的效果较差，因此“烟”和“手机”可以作为弱语义模型检测的目标，即弱语义目标。通过强语义模型检测出“手”的图像，然后再截取“手”的图像周围一定范围内的图像，得到弱语义目标待测区域。在弱语义目标待测区域的图像中，使用弱语义模型对“烟”和“手机”进行检测，也就是“手”周围的弱语义目标，这样，“烟”和“手机”在更小的感受野中更容易检测出来，精度更高。优选地，两个目标检测模型都可以使用SSD mobilenet v1检测模型。

以目标检测+语义分割模型为例，例如在自动驾驶场景中，需要对前方的道路标识进行分割。可以先用强语义模型检测出“车辆”图像，即强语义目标，再截取强语义目标周围一定范围的区域，得到弱语义目标待测区域。在弱语义目标待测区域的基础上，使用弱语义模型对地面或者其他需要分割的目标进行语义分割。这样，使得语义分割的目标精度更高，召回率更高。优选地，目标检测模型可以使用SSD mobilenet v1检测模型；语义分割模型可以使用deeplab v3检测模型。

以目标检测+OCR模型为例，例如需要检测广告牌上的文字。可以先用强语义模型检测出“广告牌”图像，即强语义目标，再在广告牌图像的弱语义目标待测区域使用OCR模型进行文字识别，识别出“文字”图像，即弱语义目标。这样，可以在广告牌图像区域的范围内更加精确地检测出广告牌上的文字。优选地，目标检测模型可以使用SSD mobilenet v1检测模型；OCR模型可以使用ABCNet检测模型。

需要说明的是，本发明的实施方式不限于上述举例的场景，还可以是其他语义差别较大的图像的检测方法，本发明的实施方式也不限于上述举例的检测模型，还可以是其他可以进行目标检测、语义分割或OCR识别的模型或者能应用在本发明实施方式的方法中的检测模型。

如图3所示，图3是本发明另一实施方式提供的一种获取弱语义目标待测区域的方法的流程示意图。如图3所示，使用强语义模型检测出图像中的强语义目标并截取与强语义目标对应的弱语义目标待测区域可以包括：

S31、使用强语义模型检测出图像中的强语义目标；

S32、将强语义目标进行扩充，以得到弱语义目标待测区域。

具体地，计算机设备接收到图像采集设备发送的图像后，通过强语义模型检测出图像中的强语义目标。强语义模型检测出的强语义目标一般是大小适中、对比度合适或者数据量足够的容易预测的图像。对于特大或者特小、对比度特大或者特小或者样本量很少等不好预测的图像，即弱语义目标，如果只使用强语义模型预测，则容易造成漏检或误检的情况。因此，本发明的实施方式在后续会使用弱语义模型检测弱语义目标。弱语义目标和强语义目标具有语义逻辑，可以根据强语义目标及周边的一定范围的区域检测到弱语义目标。在本发明的实施方式中，通过强语义模型检测强语义目标后，对强语义目标进行扩充，例如长和宽各扩充一定范围的像素值，截取扩充后的区域为弱语义目标待测区域，将该区域输入弱语义模型进行预测。其中，截取的区域大小可以根据机器学习模型的算法或者根据具体实例的语义规则来进行设定。这样，可以便于弱语义目标的检测。

在本发明的实施方式中，步骤S32，即将强语义目标进行扩充，以得到弱语义目标待测区域可以包括：

具体地，扩充参数可以是强语义目标和弱语义目标存在的比例值。将强语义目标样本和弱语义目标样本的坐标集作为数据集，将样本数据中心强语义目标样本和弱语义目标样本的比例值作为标签，输入至机器学习模型进行训练，输入当前强语义目标至训练好的机器学习模型，可以得到扩充参数。其中，机器学习指的是计算机模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。将当前的强语义目标的坐标输入机器学习模型，可以得到最终的扩充参数，再根据扩充参数对当前的强语义目标进行扩充，以得到弱语义目标待测区域。根据强语义目标和弱语义目标的关系，对强语义目标进行扩充以得到弱语义目标待测区域，便于在弱语义目标待测区域中使用弱语义模型对弱语义目标进行检测，提高检测的精确度。

在本发明的实施方式中，步骤S32，即将强语义目标进行扩充，以得到弱语义目标待测区域还可以包括：

对机器学习模型进行训练。

其中，对机器学习模型进行训练可以包括：

具体地，机器学习模型可以是任意回归模型，包括但不限于线性回归模型、决策树回归模型、支持向量机回归模型、K近邻回归模型、随机森林回归模型等。本发明实施方式中，将强语义目标样本的坐标数据集、弱语义目标样本的坐标数据集以及对应的扩充参数的数据集输入至机器学习模型进行训练。假设在得到强语义目标后，长宽各扩充h和w个像素值，以得到弱语义目标待测区域。这里h和w则为扩充参数。扩充参数的计算方式可以有多种。

在本发明的实施方式中，扩充参数的一种计算方式为统计的方式。例如，假设强语义目标的坐标为：S＝(y_min,x_min,y_max,x_max)；弱语义目标的坐标为：S_t＝(y_{min_t},x_{min_t},y_{max_t},x_{max_t})；则h＝max((y_min-y_{min_t}),(y_{max_t}-y_max))；w＝max((x_min-x_{min_t}),(x_{max_t}-x_max))；T＝(h,w)。其中T为样本扩充参数。考虑，数据N＝{S₁，S₂，…，S_n}，标签Y＝{T₁，T₂，…，T_n}。在数据集N上，训练机器学习模型F，Y＝F(S)。则，在预测过程中，得到强语义目标的坐标为S(y_min,x_min,y_max,x_max)后，扩充区域为(y_min-h,x_min-w,y_max+h,x_max+w)；其中(h,w)＝F(S)。

在本发明的实施方式中，扩充参数的另一种计算方式可以通过具体实例的语义规则进行计算。例如，在广告牌文字的识别过程中，广告牌顶上的50个像素值是不会出现目标字符的，则可以进一步缩减至(y_{min_t},+50,x_{min_t},y_{max_t},x_{max_t})。即通过具体的语义逻辑情况去设定扩充参数。

分别获取强语义目标的坐标和弱语义目标的坐标；

具体地，通过强语义模型和弱语义模型可以分别获取强语义目标的坐标和弱语义目标的坐标，再将得到的强语义目标的坐标和弱语义目标的坐标分别映射到最初的图像中。根据映射后的强语义目标的坐标和弱语义目标的坐标，可以在图像中得到两个坐标围城的图像，最终得到目标图像。以危险驾驶的场景为例，得到强语义目标，如“手”的坐标和弱语义目标，如“烟”和“手机”的坐标，将“手”、“烟”和“手机”的图像映射到最初拍摄的图像中，可以得到由“手”、“烟”“手机”共同组成的图像。根据检测出的图像可以判断出该驾驶员有危险驾驶的行为，提高了检测的精确度，减少了漏检、误检的情况。

需要说明的是，本发明的实施方式中所提到的坐标可以表示单个或多个坐标，例如，多个坐标点围成的一个区域坐标。

如图4所示，图4是本发明实施方式提供的一种图像处理的装置的结构示意图。本发明提供一种图像处理的装置，被配置成执行上述的图像处理的方法。在本申请的实施方式中，该装置可以包括处理器410和存储器420。存储器420可以存储有指令，该指令在被处理器410执行时可以使得处理器410执行之前实施方式中描述的图像处理的方法。

具体地，在本发明一实施方式中，处理器410被配置成：

获取图像采集设备采集的图像；

使用强语义模型检测出图像中的强语义目标；

截取与强语义目标对应的弱语义目标待测区域；

将强语义目标和弱语义目标结合以得到最终的目标图像。

在本发明的实施方式中，在本发明的实施方式中，计算机设备可以接收图像采集设备采集的图像。其中，图像采集设备可以是手持照相设备或者设置于固定位置的照相设备，包括但不限于相机、手机、平板、摄像头等等。通过图像采集设备采集图像，将图像输入至计算机设备，计算机设备接收到图像采集设备发送的图像，并且存储接收到的图像。强语义模型是用于检测强语义目标的模型，强语义目标指的是大小适中、对比度合适或者数据量足够的容易预测的图像。强语义模型可以是目标检测模型。例如，Faster R-CNN、SSD、YOLO等目标检测模型。优选地，本发明的实施方式的强语义模型可以为SSD mobilenet v1检测模型。通过强语义模型检测出图像中的强语义目标。强语义模型检测出的强语义目标一般是大小适中、对比度合适或者数据量足够的容易预测的图像。对于特大或者特小、对比度特大或者特小或者样本量很少等不好预测的图像，即弱语义目标，如果只使用强语义模型预测，则容易造成漏检或误检的情况。因此，本发明的实施方式在后续会使用弱语义模型检测弱语义目标。弱语义目标和强语义目标具有语义逻辑，因此，可以根据强语义目标及周边的一定范围的区域检测到弱语义目标。为了便于弱语义目标的检测，本发明实施方式在检测出强语义目标后，可以截取与强语义目标对应的弱语义目标待测区域。截取的区域大小可以根据机器学习模型的算法或者根据具体实例的语义规则来进行设定。这样，可以便于弱语义目标的检测。用户可以根据弱语义目标与强语义目标的逻辑关系进行语义推理，在弱语义目标待测区域中检测出弱语义目标。弱语义模型可以是目标检测模型、语义分割模型和/或光学字符识别(Optical Character Recognition，OCR)模型中至少一者。优选地，目标检测模型可以为SSD mobilenet v1检测模型；语义分割模型可以为deeplab v3检测模型；OCR模型可以为ABCNet检测模型。通过对强语义目标的检测和弱语义目标待测区域的截取，在弱语义目标待测区域的感受野下检测弱语义目标，可以使得弱语义目标的检测精度更高，召回率更高。通过强语义模型检测出强语义目标，通过弱语义模型检测出弱语义目标，最后将强语义目标和弱语义目标相结合，从而得到最终的目标图像。例如，使用强语义模型检测出强语义目标的坐标，使用弱语义模型检测出弱语义目标的坐标，再将强语义目标的坐标和弱语义目标的坐标映射到原图像中，这样就可以在原图像中得到最终的目标图像。

进一步地，处理器410还被配置成：

分别采集强语义目标样本和弱语义目标样本；

在本发明的实施方式中，用户在选定强语义目标和弱语义目标后，先对强语义目标和弱语义目标分别进行模型训练。以目标检测模型的训练为例，在检测危险驾驶行为的场景中，选定强语义目标为手，弱语义目标为手机。则可以分别训练关于手的强语义模型和关于手机的弱语义模型。先分别采集强语义目标样本和弱语义目标样本，分别对强语义目标样本进行标注，生成强语义目标样本的数据集，对弱语义目标样本进行标注，生成弱语义目标样本的数据集。生成数据集后，分别在强弱语义数据集上进行两个模型的训练。强语义目标样本训练的模型为强语义模型，弱语义目标样本训练的模型为弱语义模型。通过对强语义模型和弱语义模型的训练，使用强语义模型和弱语义模型二次检测，可以更好地检测出目标图像。

在本发明的实施方式中，强语义模型包括目标检测模型，弱语义模型包括目标检测模型、语义分割模型和光学字符识别模型中的至少一者。也就是说，强语义模型和弱语义模型这两个模型可以是目标检测+目标检测模型、目标检测+语义分割模型或目标检测+OCR模型。优选地，目标检测模型都可以使用SSD mobilenet v1检测模型；语义分割模型可以使用deeplab v3检测模型；OCR模型可以使用ABCNet检测模型。

进一步地，处理器410还被配置成：

使用强语义模型检测出图像中的强语义目标；

将强语义目标进行扩充，以得到弱语义目标待测区域。

在本发明的实施方式中，计算机设备接收到图像采集设备发送的图像后，通过强语义模型检测出图像中的强语义目标。强语义模型检测出的强语义目标一般是大小适中、对比度合适或者数据量足够的容易预测的图像。对于特大或者特小、对比度特大或者特小或者样本量很少等不好预测的图像，即弱语义目标，如果只使用强语义模型预测，则容易造成漏检或误检的情况。因此，本发明的实施方式在后续会使用弱语义模型检测弱语义目标。弱语义目标和强语义目标具有语义逻辑，可以根据强语义目标及周边的一定范围的区域检测到弱语义目标。在本发明的实施方式中，通过强语义模型检测强语义目标后，对强语义目标进行扩充，例如长和宽各扩充一定范围的像素值，截取扩充后的区域为弱语义目标待测区域，将该区域输入弱语义模型进行预测。其中，截取的区域大小可以根据机器学习模型的算法或者根据具体实例的语义规则来进行设定。这样，可以便于弱语义目标的检测。

进一步地，处理器410还被配置成：

在本发明的实施方式中，扩充参数可以是强语义目标和弱语义目标存在的比例值。将强语义目标样本和弱语义目标样本的坐标集作为数据集，将样本数据中心强语义目标样本和弱语义目标样本的比例值作为标签，输入至机器学习模型进行训练，输入当前强语义目标至训练好的机器学习模型，可以得到扩充参数。其中，机器学习指的是计算机模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。将当前的强语义目标的坐标输入机器学习模型，可以得到最终的扩充参数，再根据扩充参数对当前的强语义目标进行扩充，以得到弱语义目标待测区域。根据强语义目标和弱语义目标的关系，对强语义目标进行扩充以得到弱语义目标待测区域，便于在弱语义目标待测区域中使用弱语义模型对弱语义目标进行检测，提高检测的精确度。

进一步地，处理器410还被配置成：对机器学习模型进行训练。

其中，对机器学习模型进行训练包括：

在本发明的实施方式中，机器学习模型可以是任意回归模型，包括但不限于线性回归模型、决策树回归模型、支持向量机回归模型、K近邻回归模型、随机森林回归模型等。本发明实施方式中，将强语义目标样本的坐标数据集、弱语义目标样本的坐标数据集以及对应的扩充参数的数据集输入至机器学习模型进行训练。假设在得到强语义目标后，长宽各扩充h和w个像素值，以得到弱语义目标待测区域。这里h和w则为扩充参数。扩充参数的计算方式可以有多种。

进一步地，处理器410还被配置成：

分别获取强语义目标的坐标和弱语义目标的坐标；

在本发明的实施方式中，通过强语义模型和弱语义模型可以分别获取强语义目标的坐标和弱语义目标的坐标，再将得到的强语义目标的坐标和弱语义目标的坐标分别映射到最初的图像中。根据映射后的强语义目标的坐标和弱语义目标的坐标，可以在图像中得到两个坐标围城的图像，最终得到目标图像。这样，提高了检测的精确度，减少了漏检、误检的情况。

处理器410的示例可以包括但不限于通用处理器、专用处理器、常规处理器、数字信号处理器(DSP)、多个微处理器、与DSP核心关联的一个或多个微处理器、控制器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)电路、其他任何类型的集成电路(IC)以及状态机等等。处理器可以执行信号编码、数据处理、功率控制、输入/输出处理。

存储器420的示例可以包括但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被处理器访问的信息。

在本发明的实施方式中，还提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行上述的图像处理的方法。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施方式可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施方式、完全软件实施方式、或结合软件和硬件方面的实施方式的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施方式的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种图像处理的方法，其特征在于，所述方法包括：

获取图像采集设备采集的图像；

使用强语义模型检测出所述图像中的强语义目标；

截取与所述强语义目标对应的弱语义目标待测区域；

使用弱语义模型检测出所述弱语义目标待测区域中的弱语义目标；

将所述强语义目标和所述弱语义目标结合以得到最终的目标图像。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

分别采集强语义目标样本和弱语义目标样本；

分别对所述强语义目标样本和所述弱语义目标样本进行标注以生成所述强语义目标样本的数据集和所述弱语义目标样本的数据集；

使用所述强语义目标样本的数据集和所述弱语义目标样本的数据集训练模型，以得到强语义模型和弱语义模型。

3.根据权利要求1所述的方法，其特征在于，所述强语义模型包括目标检测模型，所述弱语义模型包括目标检测模型、语义分割模型和光学字符识别模型中的至少一者。

4.根据权利要求1所述的方法，其特征在于，使用强语义模型检测出所述图像中的强语义目标并截取与所述强语义目标对应的弱语义目标待测区域包括：

使用所述强语义模型检测出所述图像中的强语义目标；

将所述强语义目标进行扩充，以得到所述弱语义目标待测区域。

5.根据权利要求4所述的方法，其特征在于，所述将所述强语义目标进行扩充，以得到所述弱语义目标待测区域包括：

将所述强语义目标的坐标输入至机器学习模型，以得到扩充参数；

将所述强语义目标的坐标按照所述扩充参数进行扩充，以得到所述弱语义目标待测区域。

6.根据权利要求5所述的方法，其特征在于，所述将所述强语义目标进行扩充，以得到所述弱语义目标待测区域还包括：

对所述机器学习模型进行训练。

7.根据权利要求6所述的方法，其特征在于，所述对所述机器学习模型进行训练包括：

获取所述强语义目标的坐标数据集、所述弱语义目标的坐标数据集以及对应的扩充参数的数据集；

使用所述强语义目标样本的坐标数据集、所述弱语义目标样本的坐标数据集以及所述扩充参数的数据集训练所述机器学习模型。

8.根据权利要求1所述的方法，其特征在于，所述将所述强语义目标和所述弱语义目标结合以得到目标图像包括：

分别获取所述强语义目标的坐标和所述弱语义目标的坐标；

将所述强语义目标的坐标和所述弱语义目标的坐标分别映射到所述图像中；

根据映射后的强语义目标的坐标和弱语义目标的坐标，得到所述目标图像。

9.一种图像处理的装置，其特征在于，被配置成执行根据权利要求1至8中任一项所述的图像处理的方法。

10.一种机器可读存储介质，其特征在于，该机器可读存储介质上存储有指令，该指令用于使得机器执行根据权利要求1至8中任一项所述的图像处理的方法。