CN111652219A

CN111652219A - 一种图文标识检测识别方法、装置、服务器及存储介质

Info

Publication number: CN111652219A
Application number: CN202010497450.1A
Authority: CN
Inventors: 钟艺豪; 李百川; 蔡锐涛
Original assignee: Youmi Technology Co ltd
Current assignee: Youmi Technology Co ltd
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2020-09-11
Anticipated expiration: 2040-06-03
Also published as: CN111652219B

Abstract

本发明提供一种图文标识检测识别方法、装置、服务器及存储介质，确定待进行图文标识检测识别的图像；将图像输入至预训练的图文标识检测模型预测图像中的至少一个第一图文标识区域；根据预训练的图文标识识别模型对图像在第一图文标识区域的图像内容进行图文标识识别得到第一图文标识区域的第一识别结果；利用预训练的OCR检测识别模型对图像进行字符类图文标识检测识别得到图像的至少一个第二图文标识区域和每个第二图文标识区域的第二识别结果；基于第一图文标识区域、第一识别结果、第二图文标识区域和第二识别结果确定图像的图文标识区域和图文标识区域的识别结果。本发明能够提高网络识别效果和降低网络训练消耗。

Description

一种图文标识检测识别方法、装置、服务器及存储介质

技术领域

本发明涉及互联网技术领域，更具体地说，涉及一种图文标识检测识别方法、装置、服务器及存储介质。

背景技术

图文标识是公司或产品的标识符，一个设计良好的图文标识既能表现丰富的品牌文化，又能起到良好的推广作用。图文标识经常见于图片或视频广告中，能为公司或产品带来很大的曝光量，而图文标识检测识别技术能自动检测并识别图片或视频中的图文标识信息，在商品溯源追踪、广告营销分析、侵权查询等领域有着巨大的应用前景。其中，图文标识可以为具有特定商业场景的Logo。

传统通用物体检测识别技术已有相对成熟的研究，而图文标识由于其差异不一(不同品牌可能有类似的图文标识样式)、大小不一、种类繁多等情形，传统通用物体检测识别技术对图文标识检测识别的效果不尽人意。

目前虽然通过网络模型能够实现对图文标识的检测识别，但是大多将图文标识检测和图文标识识别放在同一个网络中，同时输出图文标识区域和图文标识类别。这种图文标识检测识别技术当图文标识类别基数非常大时，不仅训练网络需要的资源消耗很大、可能造成网络不收敛的情况，而且每当新增一个图文标识类别时，都需要重新训练一次网络，代价太大。并且，目前的图文标识检测识别技术要么侧重于对图形类图文标识的检测识别，要么侧重于对字符类的图文标识的检测识别，检测识别效果单一，图文标识检测识别效果并不理想。

发明内容

有鉴于此，本发明提供一种图文标识检测识别方法、装置、服务器及存储介质，以在提高网络识别效果的基础上，降低网络训练消耗。技术方案如下：

本发明第一方面公开一种图文标识检测识别方法，包括：

确定待进行图文标识检测识别的图像；

将所述图像输入至预训练的图文标识检测模型预测所述图像中的至少一个第一图文标识区域；

根据预训练的图文标识识别模型对所述图像在所述第一图文标识区域的图像内容进行图文标识识别得到所述第一图文标识区域的第一识别结果；

利用预训练的OCR检测识别模型对所述图像进行字符类图文标识检测识别得到所述图像的至少一个第二图文标识区域和每个所述第二图文标识区域的第二识别结果；

基于所述第一图文标识区域、所述第一图文标识区域的第一识别结果、第二图文标识区域和所述第二图文标识区域的第二识别结果确定所述图像的图文标识区域和所述图文标识区域的识别结果。

可选的，还包括：

从当前所述至少一个第一图文标识区域中选取历史未被选取的面积最小的第三图文标识区域；

检测当前所述至少一个第一图文标识区域中面积大于所述第三图文标识区域的各个第一图文标识区域中是否存在第四图文标识区域，所述第四图文标识区域与所述第三图文标识区域之间的重叠程度满足预设重叠条件；

若当前所述至少一个第一图文标识区域中面积大于所述第三图文标识区域的各个第一图文标识区域中存在第四图文标识区域，将所述第三图文标识区域从所述至少一个第一图文标识区域中删除；

所述根据预训练的图文标识识别模型对所述图像在所述第一图文标识区域的图像内容进行图文标识识别得到所述第一图文标识区域的第一识别结果，包括：若当前所述至少一个第一图文标识区域中不存在历史未被选取的第一图文标识区域时，针对当前所述至少一个第一图文标识区域中的每个所述第一图文标识区域，根据预训练的图文标识识别模型对所述图像在所述第一图文标识区域的图像内容进行图文标识识别得到所述第一图文标识区域的第一识别结果。

可选的，所述检测当前所述至少一个第一图文标识区域中面积大于所述第三图文标识区域的各个第一图文标识区域中是否存在第四图文标识区域，包括：

确定当前所述至少一个第一图文标识区域中面积大于所述第三图文标识区域的第五图文标识区域；

检测所述第三图文标识区域与所述第五图文标识区域的重叠程度是否超过所述重叠条件指示的重叠阈值，所述第三图文标识区域与所述第五图文标识区域的重叠程度与所述第三图文标识区域和所述第五图文标识区域之间的重叠面积相关；

如果所述第三图文标识区域与所述第五图文标识区域的重叠程度超过所述重叠阈值，确定所述第五图文标识区域为第四图文标识区域。

可选的，所述图文标识识别模型的生成过程包括：

确定用户的图文标识识别需求，所述图文标识识别需求表征待识别的图文标识类别固定/待识别的图文标识类别不固定；

获取预先设置的与所述图文标识识别需求匹配的待训练图文标识识别模型；其中，若所述图文标识识别需求表征待识别图文标识类别固定，所述待训练图文标识识别模型为基于标签平滑策略的待训练分类模型；若所述图文标识识别需求表征待识别图文标识类别不固定，所述待训练图文标识识别模型为采用度量学习的待训练图文标识识别模型；

对所述待训练图文标识识别模型进行训练生成图文标识识别模型。

可选的，还包括：

检测所述第二图文标识区域的第二识别结果中是否存在预先设置的图文标识字符集中的字符；

如果所述第二图文标识区域的第二识别结果中不存在所述图文标识字符集中的字符，舍弃所述第二图文标识区域和所述第二图文标识区域的第二识别结果。

可选的，还包括：

确定所述第二图文标识区域在所述图像中的第一位置；

获取所述第二图文标识区域中第二识别结果字符串长度以及所述第二识别结果中图文标识字符串长度；

根据所述第一位置、所述第二识别结果字符串长度以及所述第二识别结果中图文标识字符串长度，确定所述第二图文标识区域中的图文标识区域。

可选的，所述基于所述第一图文标识区域、所述第一图文标识区域的第一识别结果、第二图文标识区域和所述第二图文标识区域的第二识别结果确定所述图像的图文标识区域和所述图文标识区域的识别结果，包括：

检测各个所述第一图文标识区域和所述第二图文标识区域中是否存在重叠程度满足预先设置的合并条件的目标第一图文标识区域和目标第二图文标识区域；

如果各个所述第一图文标识区域和所述第二图文标识区域中存在重叠程度满足所述合并条件的目标第一图文标识区域和目标第二图文标识区域，确定所述图像中用于包围所述目标第一图文标识区域和所述目标第二图文标识区域的最小包围区域；

将所述最小包围区域确定为目标图文标识区域，且根据所述目标第一图文标识区域的第一识别结果和所述目标第二图文标识区域的第二识别结果确定所述目标图文标识区域的识别结果。

本发明第二方面公开一种图文标识检测识别装置，包括：

第一确定单元，用于确定待进行图文标识检测识别的图像；

预测单元，用于将所述图像输入至预训练的图文标识检测模型预测所述图像中的至少一个图文标识区域；

识别单元，用于根据预训练的图文标识识别模型对所述图像在所述第一图文标识区域的图像内容进行图文标识识别得到所述第一图文标识区域的第一识别结果；

检测识别单元，用于利用预训练的OCR检测识别模型对所述图像进行字符类图文标识检测识别得到所述图像的至少一个第二图文标识区域和每个所述第二图文标识区别的第二识别结果；

第二确定单元，用于基于所述第一图文标识区域、所述第一图文标识区域的第一识别结果、第二图文标识区域和所述第二图文标识区域的第二识别结果确定所述图像图文标识区域和所述图文标识区域的识别结果。

本发明第三方面公开一种服务器，包括：至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述存储器存储的程序，所述程序用于实现如上述本发明第一方面任意一项公开的图文标识检测识别方法。

本发明第四方面公开一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行如上述本发明第一方面任意一项公开的图文标识检测识别方法。

本发明提供一种图文标识检测识别方法、装置、服务器及存储介质，确定待进行图文标识检测识别的图像；将图像输入至预训练的图文标识检测模型预测图像中的至少一个第一图文标识区域；根据预训练的图文标识识别模型对图像在第一图文标识区域的图像内容进行图文标识识别得到第一图文标识区域的第一识别结果；利用预训练的OCR检测识别模型对图像进行字符类图文标识检测识别得到图像的至少一个第二图文标识区域和每个第二图文标识区域的第二识别结果；基于第一图文标识区域、第一图文标识区域的第一识别结果、第二图文标识区域和第二图文标识区域的第二识别结果确定图像的图文标识区域和图文标识区域的识别结果。本发明提供的技术方案，通过图文标识检测模型实现对图像中图文标识区域的检测，通过图文标识识别模型实现对图文标识检测模型输入的图文标识区域进行图文标识识别，解决了现有技术中，通过一个网络同时进行图文标识检测和图文标识识别，导致训练网络资源消耗大的问题。

并且，本发明除了通过图文标识检测模型和图文标识识别模型对待进行图文标识检测识别的图像进行检测识别，还通过OCR检测识别模型对待进行图文标识检测识别的图像进行字符类图文标识检测和字符类图文标识识别，OCR检测识别模型能够实现对图像中字符类图文标识的检测和识别，本发明提供的图文标识检测识别方法不仅能够实现对图形类图文标识的检测识别，还能够实现对字符类图文标识的检测识别，检测识别效果多样，提高了网络识别效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种图文标识检测识别方法的流程示意图；

图2为本发明实施例提供的另一种图文标识检测识别方法的流程示意图；

图3为本发明实施例提供一种图文标识检测识别装置的结构示意图；

图4为本发明实施例提供的一种服务器的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

参见图1，示出了本发明实施例提供的一种图文标识检测识别方法的流程示意图，该图文标识检测识别方法具体包括以下步骤：

S101：确定待进行图文标识检测识别的图像；

在本申请实施例中，待进行图文标识检测识别的图像可以为包含图形类图文标识的图像，或者可以为包含字符类图文标识的图像，或者可以为既包含图形类图文标识又包含字符类图文标识的图像。

在本申请实施例中，图文标识可以为Logo，即待进行图像标识检测识别的图像可以为待进行Logo检测识别的图像。

S102：将图像输入至预训练的图文标识检测模型预测图像中的至少一个第一图文标识区域；

在本申请实施例中，在确定待进行图文标识检测识别的图像后，可以将所确定的待进行图文标识检测识别的图像输入至预训练的图文标识检测模型中，预训练的图文标识检测模型对待进行图文标识检测识别的图像进行预测，得到至少一个图文标识区域，为了便于区分，将预训练的图文标识检测模型对待进行图文标识检测识别的图像进行预测得到的图文标识区域称为第一图文标识区域。

在本申请实施例中，预训练的图文标识检测模型可以为Cascade-RCNN，预训练的图文标识检测模型的生成过程可以为：收集图像样本集，针对收集到图像样本集中的每个图像样本而言，对图像样本中的所有图文标识区域进行标注，得到携带至少一个目标图文标识区域的图文标识图像样本；通过至少一个图文标识图像样本对待训练图文标识检测模型进行训练，得到图文标识检测模型。其中，标注出的图像样本中的各个图文标识区域都会各自对应的图文标识。

S103：根据预训练的图文标识识别模型对图像在第一图文标识区域的图像内容进行图文标识识别得到第一图文标识区域的第一识别结果；

在本申请实施例中，在将待进行图文标识检测识别的图像输入至预训练的图文标识检测模型预测该图像中的至少一个第一图文标识区域后，将至少一个第一图文标识区域输入至预训练的图文标识识别模型；针对每个第一图文标识区域而言，预训练的图文标识识别模型对该图像在该第一图文标识区域的图像内容进行图文标识识别，得到该第一图文标识区域的第一识别结果。其中，第一图文标识区域的第一识别结果可以为图文识别类别，比如，若图文标识为Logo，第一图文标识区域的第一识别结果可以为Logo类别，即第一识别结果可以为具体的Logo商标。

在本申请实施例中，预先设置有与图文标识识别需求匹配的待训练图文标识识别模型。其中图文标识识别需求可以为待识别图文标识类别固定，或者待识别的图文标识类别不固定。若图文标识识别需求为待识别图文标识类别固定，预先设置的与图文标识识别需求匹配的待训练识别模型可以为基于标签平滑策略的待训练分类模型；若图文标识识别需求为待识别图文标识类别不固定，待训练图文标识识别模型可以为采用度量学习的待训练图文标识识别模型。其中，基于标签平滑策略的待训练分类模型可以为EfficientNet网络。

在本申请实施例中，当用户的图文标识识别需求表征待识别图文标识类别固定，作为本申请实施例的一种优选方式，图文标识识别模型的生成方式可以为：收集图像样本集，针对收集到图像样本集中的每个图像样本而言，对图像样本中的所有图文标识区域的图文标识进行标注，并将标注后图像样本进行剪裁，得到携带有目标识别结果的图文标识区域样本；获取预先设置的与待识别图文标识类别固定匹配的基于标签平滑策略的待训练分类模型；将图文标识区域样本输入基于标签平滑策略的待训练分类模型，基于标签平滑策略的待训练分类模型对图文标识区域样本进行识别，得到该图文标识区域样本的识别结果；将交叉熵损失函数作为基于标签平滑策略的待训练分类模型的损失函数，以识别出的图文识别区域样本的识别结果趋近于该图文识别区域样本的目标识别结果为训练目标，通过交叉熵损失函数反调节基于标签平滑策略的待训练分类模型中的参数，以使得基于标签平滑策略的待训练分类模型达到收敛得到图文标识识别模型。

在本申请实施例中，采用基于标签平滑策略的待训练分类模型可以降低未出现过的图文标识类别，或者不是图文标识类别的概率。

在本申请实施例中，当用户的图文标识识别需求表征待识别图文标识类别不固定时，作为本申请实施例的另一种优选方式，图文标识识别模型的生成方式可以为：获取预先设置的与待识别图文标识类别不固定匹配的采用度量学习的待训练图文标识识别模型；将图文标识区域样本输入采用度量学习的待训练图文标识识别模型，采用度量学习的待训练图文标识识别模型对图文标识区域样本进行识别，得到该图文标识区域样本的识别结果；以识别出的图文识别区域样本的识别结果趋近于该图文识别区域样本的目标识别结果为训练目标，反调节采用度量学习的待训练图文标识识别模型中的参数，以使得采用度量学习的待训练图文标识识别模型达到收敛得到图文标识识别模型。

在本申请实施例中，采用度量学习的待训练图文标识识别模型可以为输入该模型的图文标识样本计算该样本嵌入模型后的特征向量，当输入新的图文标识区域样本时，通过计算输入的新的图文标识区域样本的特征向量，分别计算模型中所有特征向量与该新的图文标识区域样本的特征向量之间的距离；与新的图文标识区域样本的特征向量距离最近的特征向量对应的图文标识区域样本对应的图文标识类别，即为该新的图文标识区域样本的图文标识类别。

S104：利用预训练的OCR检测识别模型对图像进行字符类图文标识检测识别得到图像的至少一个第二图文标识区域和每个第二图文标识区域的第二识别结果；

在本申请实施例中，将待进行图文标识检测识别的图像输入预训练的OCR检测识别模型，预训练的OCR检测识别模型对待进行图文标识检测识别的图像进行字符类图文标识检测和识别，得到该待进行图文标识检测识别的图像的至少一个图文标识区域和每个图文标识区域的识别结果，为了便于区分，将得到的至少一个图文标识区域中的每个图文标识区域成为第二图文标识区域，将每个图文标识区域的识别结果成为第二识别结果。

在本申请实施例中，预训练的OCR检测识别模型是通过字符类的图文标识图像样本对待训练OCR检测识别模型进行训练得到的。

S105：基于第一图文标识区域、第一图文标识区域的第一识别结果、第二图文标识区域和第二图文标识区域的第二识别结果确定图像的图文标识区域和图文标识区域的识别结果。

在本申请实施例中，在通过图文标识检测模型和图文标识识别模型确定待进行图文标识检测识别的图像的至少一个第一图文标识区域和每个第一图文标识区域的第一识别结果，以及通过OCR检测识别模型确定该待进行图文标识检测识别图像的至少一个第二图文标识区域和每个第二图文标识区域的第二识别结果后，可以判断各个第一图文标识区域和第二图文标识区域中是否存在可以合并的第一图文标识区域和第二图文标识区域；若存在，将可以合并的第一图文标识区域和第二图文标识区域进行合并得到合并的图文标识区域，进而将得到的合并的图文标识区域确定为待进行图文标识检测识别的图像的图文标识区域，以及根据可以合并的第一图文标识区域的第一识别结果和第二图文标识区域的第二识别结果确定该图像的识别结果。其中，可以合并的第一图文标识区域的第一识别结果和第二图文标识区域的第二识别结果相同。

除去可以合并的第一图文标识区域和第二图文标识区域后，剩下的不可以合并的各个第一图文标识区域均为待进行图文标识检测识别的图像的图文标识区域，和各个第一图文标识区域对应的第一识别结果均为该图像的识别结果；以及剩下的不可合并的各个第二图文标识区域也均为待进行图文标识检测识别的图像的图文标识区域，以及各个第二图文标识区域对应的第二识别结果也均为该图像的识别结果。

本发明提供一种图文标识检测识别方法，确定待进行图文标识检测识别的图像；将图像输入至预训练的图文标识检测模型预测图像中的至少一个第一图文标识区域；根据预训练的图文标识识别模型对图像在第一图文标识区域的图像内容进行图文标识识别得到第一图文标识区域的第一识别结果；利用预训练的OCR检测识别模型对图像进行字符类图文标识检测识别得到图像的至少一个第二图文标识区域和每个第二图文标识区域的第二识别结果；基于第一图文标识区域、第一图文标识区域的第一识别结果、第二图文标识区域和第二图文标识区域的第二识别结果确定图像的图文标识区域和图文标识区域的识别结果。本发明提供的技术方案，通过图文标识检测模型实现对图像中图文标识区域的检测，通过图文标识识别模型实现对图文标识检测模型输入的图文标识区域进行图文标识识别，解决了现有技术中，通过一个网络同时进行图文标识检测和图文标识识别，导致训练网络资源消耗大的问题。

参见图2，示出了本发明实施例提供的另一种图文标识检测识别方法的流程示意图，该图文标识检测识别方法具体包括以下步骤：

S201：确定待进行图文标识检测识别的图像；

在具体执行步骤S201的过程中，步骤S201的具体执行过程和实现原理与上述本发明公开的图1的步骤S101的具体执行过程和实现原理相同，可参见上述本发明公开的图1中的相应部分，这里不再进行赘述。

S202：将图像输入至预训练的图文标识检测模型预测图像中的至少一个第一图文标识区域；

在具体执行步骤S202的过程中，步骤S202的具体执行过程和实现原理与上述本发明公开的图1的步骤S102的具体执行过程和实现原理相同，可参见上述本发明公开的图1中的相应部分，这里不再进行赘述。

S203：判断当前至少一个第一图文标识区域中是否存在历史未被选取的第一图文标识区域；若当前至少一个图文标识区域存在历史未被选取的第一图文标识区域，执行步骤S204；若当前至少一个图文标识区域不存在历史未被选取的第一图文标识区域，执行步骤S207。

在本申请实施例中，预训练的图文标识检测模型对输入的待进行图文标识检测识别的图像进行预测，得到的至少一个第一图文标识区域中可能会存在多个图文标识区域重叠的情况，因此，需要对得到的至少一个第一图文标识区域进行去重。

在将待进行图文标识检测识别的图像输入至预训练的图文标识检测模型预测该图像中的至少一个第一图文标识区域后，可以判断当前至少一个第一图文标识区域中是否存在历史未被选取的第一图文标识区域，若存在，确定当前至少一个图文标识区域中存在历史未被选取的第一图文标识区域，进而确定历史未被选取的面积最小的第一图文标识区域，为了便于区分，将所确定的历史未被选取的面积最小的第一图文标识区域称为第三图文标识区域，进而对所选取的第三图文标识区域进行去重处理；若不存在，确定当前至少一个图文标识区域不存在历史未被选取的第一图文标识区域，进而将当前至少一个图文标识区域输入图文标识识别模型，以便图文标识识别模型对输入的图文标识区域进行识别。

比如，预训练的图文标识检测模型对输入的待进行图文标识检测识别的图像进行预测，得到3个第一图文识别区域；将得到的3个图文标识区域按照其面积大小进行排序，得到第一图文标识区域1、第一图文标识区域2、第一图文标识区域3；判断当前至少一个第一图文标识区域中是否存在历史未被选取的第一图文标识区域；若确定历史最近一次选取的第一图文标识区域为第一图文标识区域1，确定当前至少一个第一图文标识区域中存在历史未被选取的第一图文标识区域，且当前存在历史未被选取的第一图文标识区域分别为第一图文标识区域2和第一图文标识区域3；确定历史未被选取的面积最小的第一图文标识区域为第一图文标识区域2，将第一图文标识区域2为第三图文标识区域，进而对第三图文标识区域进行去重处理。

若确定历史最近一次选取的第一图文标识区域为第一图文标识区域2，确定历史上未被选取的第一图文标识区域为第一图文标识区域3，由于当前至少一个第一图文标识区域中不存在比第一图文标识区域3的面积大的第一图文标识区域，进而可以确定当前至少一个第一图文标识区域中不存在历史未被选取的第一图文标识区域，将当前至少一个图文标识区域输入图文标识识别模型，以便图文标识识别模型对输入的图文标识区域进行识别。

S204：从当前至少一个第一图文标识区域中选取历史未被选取的面积最小的第三图文标识区域；

在本申请实施例中，在当前至少一个图文标识区域存在历史未被选取的第一图文标识区域情况下，从当前至少一个第一图文标识区域中选取历史未被选取的面积最小的第三图文标识区域。

S205：检测当前至少一个第一图文标识区域中面积大于第三图文标识区域的各个第一图文标识区域中是否存在第四图文标识区域，第四图文标识区域与第三图文标识区域之间的重叠程度满足预设重叠条件；若当前至少一个第一图文标识区域中面积大于第三图文标识区域的各个第一图文标识区域中存在第四图文标识区域，执行步骤S206。

在本申请实施例中，在确定当前至少一个图文标识区域存在历史未被选取的第一图文标识区域情况下，从当前至少一个第一图文标识区域中选取历史未被选取的面积最小的第三图文标识区域；确定当前至少一个第一图文标识区域中面积大于第三图文标识区域的各个第一图文标识区域，为了便于区分，将面积大于第三图文标识区域的第一图文标识区域称为第五图文标识区域。

针对至少一个第五图文标识区域中的每个第五图文标识区域而言，计算第三图文标识区域与该第五图文标识区域的重叠程度；判断该重叠程度是否大于重叠条件条件指示的重叠阈值；在第三图文标识区域与该第五图文标识区域的重叠程度大于重叠条件指示的重叠阈值的情况下，确定该第五图文标识区域为第四图文标识区域，即确定面积大于第三图文标识区域的各个第一图文标识区域中存在与第三图文标识区域重叠的第一图文标识区域；将第三图文标识区域至少一个第一图文标识区域中删除，进而达到去重的目的。

在本申请实施例中，预先设置的重叠条件指示的重叠阈值可以为0.9。有关于预先设置的重叠条件指示的重叠阈值的具体数据，发明人可根据自己的需求进行设置，本申请实施例不加以限定。

比如，预先设置的重叠条件指示的重叠阈值为0.9。通过预训练的图文标识检测模型对输入的待进行图文标识检测识别的图像进行预测，得到3个第一图文识别区域；将得到的3个图文标识区域按照其面积大小进行排序，得到第一图文标识区域1、第一图文标识区域2、第一图文标识区域3；判断当前至少一个第一图文标识区域中是否存在历史未被选取的第一图文标识区域；若确定历史未选取过第一图文标识区域，确定当前至少一个第一图文标识区域中存在历史未被选取的第一图文标识区域，且当前存在历史未被选取的第一图文标识区域分别为第一图文标识区域1、第一图文标识区域2和第一图文标识区域3；进而确定历史未被选取的面积最小的第三图文标识区域为第一图文标识区域1，当前至少一个第一图文标识区域中面积大于第三图文标识区域的各个第一图文标识区域为第一图文标识区域2和第一图文标识区域3。

分别计算第一图文标识区域1和第一图文标识区域2的重叠程度1，和第一图文标识区域1和第一图文标识区域3的重叠程度2；若重叠程度1为0.92，重叠程度2为0.7，由于重叠程度1(0.92)大于预先设置的重叠条件指示的重叠阈值(0.9)，确定第一图文标识区域2为第四图文标识区域，进而确定当前至少一个第一图文标识区域中面积大于第三图文标识区域(第一图文标识区域1)的各个第一图文标识区域中存在第四图文标识区域(第一图文标识区域2)，进而将第三图文标识区域(第一图文标识区域1)从至少一个第一图文标识区域中删除；并返回执行判断当前至少一个第一图文标识区域(第一图文标识区域2和第一图文标识区域3)中是否存在历史未被选取的第一图文标识区域。

若确定历史最近一次选取的第一图文标识区域为第一图文标识区域2，确定历史上未被选取的第一图文标识区域为第一图文标识区域3，由于当前至少一个第一图文标识区域中不存在比第一图文标识区域3的面积大的第一图文标识区域，确定当前至少一个第一图文标识区域中不存在历史未被选取的第一图文标识区域，进而将当前至少一个图文标识区域输入图文标识识别模型，以便图文标识识别模型对输入的图文标识区域进行识别。

S206：将第三图文标识区域从至少一个第一图文标识区域中删除；

在本申请实施例中，在确定当前至少一个第一图文标识区域中面积大于第三图文标识区域的各个第一图文标识区域中存在第四图文标识区域的情况下，将第三图文标识区域从至少一个第一图文标识区域中删除。

在本申请实施例中，在执行完步骤S206后返回执行步骤S203。

S207：针对当前至少一个第一图文标识区域中的每个第一图文标识区域，根据预训练的图文标识识别模型对图像在第一图文标识区域的图像内容进行图文标识识别得到第一图文标识区域的第一识别结果；

在具体执行步骤S207的过程中，步骤S207的具体执行过程和实现原理与上述本发明公开的图1的步骤S103的具体执行过程和实现原理相同，可参见上述本发明公开的图1中的相应部分，这里不再进行赘述.

S208：利用预训练的OCR检测识别模型对图像进行字符类图文标识检测识别得到图像的至少一个第二图文标识区域和每个第二图文标识区域的第二识别结果；

在本申请实施例中，将待进行图文标识检测识别的图像输入预训练的OCR检测识别模型，预训练的OCR检测识别模型对待进行图文标识检测识别的图像进行字符类图文标识检测和识别，得到该待进行图文标识检测识别的图像的至少一个第二图文标识区域和每个第二图文标识区域的识别结果。

在本申请实施例中，在利用预训练的OCR检测识别模型对待进行图文标识检测识别的图像进行字符类图文标识检测识别得到该图像的至少一个第二图文标识区域的第二识别结果后，针对每个第二图文标识区域而言，确定第二图文标识区域的左上角在待进行图文标识检测识别的图像中的位置，为了便于区域，将所确定的第二图文标识区域的左上角在该图像中位置称为第一位置；获取该第二图文标识区域中第二识别结果的字符串长度、该第二识别结果中图文标识的字符串长度，以及第二识别结果中图文标识的字符串的起始位置；根据所述第一位置、第二识别结果字符串长度、第二识别结果中图文标识字符串长度和第二识别结果中图文标识的字符串的起始位置确定该第二图文标识区域中的图文标识区域。

在本申请实施例中，图文标识区域的数学表达式可以为(x，y，w，h)其中，x为图文标识区域左上角在待进行图文标识检测识别的图像上的位置的横坐标，y为图文标识区域左上角在待进行图文标识检测识别的图像上的位置的纵坐标，w为图文标识区域的宽，h为图文标识区域的高。第一位置包括第二图文标识区域的左上角横坐标x和纵坐标y，确定第二图文标识区域中的图文标识区域的数学表达式可以为：(x+第二图文标识区域的第二识别结果中图文标识字符串长度/第二图文标识区域的第二识别结果字符串长度*第二图文标识区域的第二识别结果中图文标识的字符串的起始位置，y，第二图文标识区域的第二识别结果中图文标识字符串长度/第二图文标识区域的第二识别结果字符串长度*w，h)。

进一步的，在本申请实施例中，预先设置有图文标识字符集，预先设置的图文标识字符集中包含至少一个字符；在利用预训练的OCR检测识别模型对待进行图文标识检测识别的图像进行字符类图文标识检测识别得到该图像的至少一个第二图文标识区域的第二识别结果后，针对每个第二识别结果而言，可以判断该第二识别结果是否为预先设置的图文标识字符集中的字符，若该第二识别结果不为预先设置图文标识字符集中的字符，可以将该第二识别结果和该第二识别结果对应的第二图文标识区域进行舍弃。

S209：检测各个第一图文标识区域和第二图文标识区域中是否存在重叠程度满足预先设置的合并条件的目标第一图文标识区域和目标第二图文标识区域；如果各个第一图文标识区域和所述第二图文标识区域中存在重叠程度满足合并条件的目标第一图文标识区域和目标第二图文标识区域，执行步骤S210。

在本申请实施例中，在确定各个第二图文标识区域中的每个第二图文标识区域的图文标识区域后，针对每个第一图文标识区域和每个第二图文标识区域的图文标识区域而言，计算第一图文标识区域和第二图文标识的图文标识区域的重叠程度；判断第一图文标识区域和第二图文标识的图文标识区域的重叠程度是否大于预先设置的合并条件指示的重叠阈值，若大于，确定该第一图文标识区域目标第一图文标识区域和第二图文标识的图文标识区域为目标第二图文标识区域。

在本申请实施例中，预先设置的合并条件指示的重叠阈值可以为0.9。有关于预先设置的合并条件指示的重叠阈值的具体数值，发明人可根据自己需求进行设置，本申请实施例不加以限定。

S210：确定图像中用于包围目标第一图文标识区域和目标第二图文标识区域的最小包围区域；

在本申请实施例中，在确定各个第一图文标识区域和第二图文标识区域的图文标识区域中存在重叠程度满足合并条件的目标第一图文标识区域和目标第二图文标识区域后，确定待进行图文标识检测识别的图像中用于包围目标第一图文标识区域和第二图文标识区域的图文标识区域的最小包围区域，进而将所确定的最小包围区域确定为待进行图文标识检测识别的图像的图文标识区域，并根据目标第一图文标识区域的第一识别结果和目标第二图文标识区域的第二识别结果确定图文标识区域的识别结果。其中，目标第一图文标识区域的第一识别结果和目标第二图文标识区域的第二识别结果相同。

S211：将最小包围区域确定为图文标识区域，且根据目标第一图文标识区域的第一识别结果和目标第二图文标识区域的第二识别结果确定图文标识区域的识别结果。

在本申请实施例中，通过各个第一图文标识区域和第二图文标识区域中存在重叠程度满足预先设置的合并条件的目标第一图文标识区域和目标第二图文标识区域的情况下，可以将待进行图文识别检测识别的图像中用于包围目标第一图文标识区域和目标第二图文标识区域的最小包围区域确定为待进行图文标识检测识别的图像的图文标识区域，以及将目标第一图文标识区域的第一识别结果，或者第二目标图文标识区域的第二识别确定确定为待进行如文标识检测的图像的识别结果。

与上述本发明实施例提供的图文标识检测识别方法相对应，本发明实施例还公开一种图文标识检测识别装置，如图3所示，该图文标识检测识别装置包括：

第一确定单元31，用于确定待进行图文标识检测识别的图像；

预测单元32，用于将图像输入至预训练的图文标识检测模型预测图像中的至少一个图文标识区域；

识别单元33，用于根据预训练的图文标识识别模型对图像在第一图文标识区域的图像内容进行图文标识识别得到第一图文标识区域的第一识别结果；

检测识别单元34，用于利用预训练的OCR检测识别模型对图像进行字符类图文标识检测识别得到图像的至少一个第二图文标识区域和每个第二图文标识区别的第二识别结果；

第二确定单元35，用于基于第一图文标识区域、第一图文标识区域的第一识别结果、第二图文标识区域和第二图文标识区域的第二识别结果确定图像图文标识区域和图文标识区域的识别结果。

上述本发明实施例公开的图文识别检测识别装置中各个单元具体的原理和执行过程，与上述本发明实施例公开的图文识别检测识别方法相同，可参见上述本发明实施例公开的图文识别检测识别方法中相应的部分，这里不再进行赘述。

本发明提供一种图文标识检测识别装置，确定待进行图文标识检测识别的图像；将图像输入至预训练的图文标识检测模型预测图像中的至少一个第一图文标识区域；根据预训练的图文标识识别模型对图像在第一图文标识区域的图像内容进行图文标识识别得到第一图文标识区域的第一识别结果；利用预训练的OCR检测识别模型对图像进行字符类图文标识检测识别得到图像的至少一个第二图文标识区域和每个第二图文标识区域的第二识别结果；基于第一图文标识区域、第一图文标识区域的第一识别结果、第二图文标识区域和第二图文标识区域的第二识别结果确定图像的图文标识区域和图文标识区域的识别结果。本发明提供的技术方案，通过图文标识检测模型实现对图像中图文标识区域的检测，通过图文标识识别模型实现对图文标识检测模型输入的图文标识区域进行图文标识识别，解决了现有技术中，通过一个网络同时进行图文标识检测和图文标识识别，导致训练网络资源消耗大的问题。

进一步的，本申请实施例提供的图文标识检测识别装置，还包括：

选取单元，用于从当前至少一个第一图文标识区域中选取历史未被选取的面积最小的第三图文标识区域；

第一检测单元，用于检测当前至少一个第一图文标识区域中面积大于第三图文标识区域的各个第一图文标识区域中是否存在第四图文标识区域，第四图文标识区域与第三图文标识区域之间的重叠程度满足预设重叠条件；

删除单元，用于若当前至少一个第一图文标识区域中面积大于第三图文标识区域的各个第一图文标识区域中存在第四图文标识区域，将第三图文标识区域从至少一个第一图文标识区域中删除；

识别单元还用于若当前至少一个第一图文标识区域中不存在历史未被选取的第一图文标识区域时，针对当前至少一个第一图文标识区域中的每个第一图文标识区域，根据预训练的图文标识识别模型对图像在第一图文标识区域的图像内容进行图文标识识别得到第一图文标识区域的第一识别结果。

在本申请实施例中，优选的，第一检测单元，包括：

第三确定单元，用于确定当前至少一个第一图文标识区域中面积大于第三图文标识区域的第五图文标识区域；

第二检测单元，用于检测第三图文标识区域与第五图文标识区域的重叠程度是否超过重叠条件指示的重叠阈值，第三图文标识区域与第五图文标识区域的重叠程度与第三图文标识区域和第五图文标识区域之间的重叠面积相关；

第四确定单元，用于如果第三图文标识区域与第五图文标识区域的重叠程度超过重叠阈值，确定第五图文标识区域为第四图文标识区域。

在本申请实施例中，优选的，检测识别单元，包括：

第五确定单元，用于确定用户的图文标识识别需求，图文标识识别需求表征待识别的图文标识类别固定/待识别的图文标识类别不固定；

第一获取单元，用于获取预先设置的与图文标识识别需求匹配的待训练图文标识识别模型；其中，若图文标识识别需求表征待识别图文标识类别固定，待训练图文标识识别模型为基于标签平滑策略的待训练分类模型；若图文标识识别需求表征待识别图文标识类别不固定，待训练图文标识识别模型为采用度量学习的待训练图文标识识别模型；

训练单元，用于对待训练图文标识识别模型进行训练生成图文标识识别模型。

第三检测单元，用于检测第二图文标识区域的第二识别结果中是否存在预先设置的图文标识字符集中的字符；

舍弃单元，用于如果第二图文标识区域的第二识别结果中不存在图文标识字符集中的字符，舍弃第二图文标识区域和第二图文标识区域的第二识别结果。

第六确定单元，用于确定第二图文标识区域在图像中的第一位置；

第二获取单元，用于获取第二图文标识区域中第二识别结果字符串长度以及第二识别结果中图文标识字符串长度；

第七确定单元，用于根据第一位置、第二识别结果字符串长度以及第二识别结果中图文标识字符串长度，确定第二图文标识区域中的图文标识区域。

在本申请实施例中，优选的，第二确定单元，包括：

第四检测单元，用于检测各个第一图文标识区域和第二图文标识区域中是否存在重叠程度满足预先设置的合并条件的目标第一图文标识区域和目标第二图文标识区域；

第八确定单元，用于如果各个第一图文标识区域和第二图文标识区域中存在重叠程度满足合并条件的目标第一图文标识区域和目标第二图文标识区域，确定图像中用于包围目标第一图文标识区域和目标第二图文标识区域的最小包围区域；

第九确定单元，用于将最小包围区域确定为目标图文标识区域，且根据目标第一图文标识区域的第一识别结果和目标第二图文标识区域的第二识别结果确定目标图文标识区域的识别结果。

下面以请求方法应用于服务端为例，对本申请实施例提供的一种图文标识检测识别方法所适用于的服务端的硬件结构进行详细说明。

本申请实施例提供的一种图文标识检测识别方法可应用于服务端，该服务端可以是网络侧为用户提供服务的服务设备，其可能是多台服务器组成的服务器集群，也可能是单台服务器。

可选的，图4示出了本申请实施例提供的一种图文标识检测识别方法所适用于的服务端的硬件结构框图，参照图4，服务端的硬件结构可以包括：处理器41，存储器42，通信接口43和通信总线44；

在本发明实施例中，处理器41、存储器42、通信接口43、通信总线44的数量均可以为至少一个，且处理器41、存储器42、通信接口43通过通信总线44完成相互间的通信；

处理器41可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器42可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，程序用于：

确定待进行图文标识检测识别的图像；

将图像输入至预训练的图文标识检测模型预测图像中的至少一个第一图文标识区域；

根据预训练的图文标识识别模型对图像在第一图文标识区域的图像内容进行图文标识识别得到第一图文标识区域的第一识别结果；

利用预训练的OCR检测识别模型对图像进行字符类图文标识检测识别得到图像的至少一个第二图文标识区域和每个第二图文标识区域的第二识别结果；

基于第一图文标识区域、第一图文标识区域的第一识别结果、第二图文标识区域和第二图文标识区域的第二识别结果确定图像的图文标识区域和图文标识区域的识别结果。

有关程序的功能可参见上文对本申请实施例提供的一种图文标识检测识别方法的详细描述，在此不做赘述。

进一步的，本申请实施例还提供一种计算机可读计算机存储介质，该计算机可读存储介质中存储有计算机可执行指令，该计算机可执行指令用于执行上述图文标识检测识别方法。

有关计算机可执行指令的具体内容可参见上文对本申请实施例提供的一种图文标识检测识别方法的详细描述，在此不做赘述。

以上对本发明所提供的一种图文标识检测识别方式、装置、服务器及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素，或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种图文标识检测识别方法，其特征在于，包括：

确定待进行图文标识检测识别的图像；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，所述检测当前所述至少一个第一图文标识区域中面积大于所述第三图文标识区域的各个第一图文标识区域中是否存在第四图文标识区域，包括：

4.根据权利要求1所述的方法，其特征在于，所述图文标识识别模型的生成过程包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

6.根据权利要求1所述的方法，其特征在于，还包括：

确定所述第二图文标识区域在所述图像中的第一位置；

7.根据权利要求6所述的方法，其特征在于，所述基于所述第一图文标识区域、所述第一图文标识区域的第一识别结果、第二图文标识区域和所述第二图文标识区域的第二识别结果确定所述图像的图文标识区域和所述图文标识区域的识别结果，包括：

8.一种图文标识检测识别装置，其特征在于，包括：

第一确定单元，用于确定待进行图文标识检测识别的图像；

9.一种服务器，其特征在于，包括：至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述存储器存储的程序，所述程序用于实现如权利要求1-7任意一项所述的图文标识检测识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1-7任意一项所述的图文标识检测识别方法。