CN114743030A

CN114743030A - 图像识别方法、装置、存储介质和计算机设备

Info

Publication number: CN114743030A
Application number: CN202210418926.7A
Authority: CN
Inventors: 邓芮; 李雨珂; 杜彬彬; 杨卫强; 朱浩齐; 周森
Original assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Current assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2022-07-12

Abstract

本公开的实施方式涉及计算机技术领域，更具体地，涉及图像识别方法、装置、存储介质和计算机设备。所述图像识别方法包括：自待识别图像中获取包含有文字的图片区域；对所述图片区域进行特征提取，获得相应图片区域的图片特征；确定所述图片特征与违规图片特征之间的相似度，所述违规图片特征取自违规图片特征库；响应于所述相似度大于第一阈值，将所述待识别图像确定为违规图像。本公开的违规图像识别方案能够高效识别文字内容异常的违规图像，降低对图像语义信息的依赖性，且能应对各种各样的文字类型，实现对违规图像的精准、全面识别。

Description

图像识别方法、装置、存储介质和计算机设备

技术领域

本公开的实施方式涉及计算机技术领域，更具体地，本公开的实施方式涉及图像识别方法、装置、存储介质和计算机设备。

背景技术

本部分旨在为权利要求中陈述的本公开的实施方式提供背景或上下文，此处的描述不因为包括在本部分中就承认是现有技术。

目前的违规图像识别，主要采用图像分类算法或文字识别算法。图像分类算法根据图像的语义信息判断是否包含违规内容，无法处理文字内容异常的图像；文字识别算法将图像中的文字转换为文本以判断是否包含违规内容，无法应对攻击者特意合成的用来攻击文字识别算法的文字类型。

发明内容

本公开的实施方式提供一种图像识别方法、装置、存储介质和计算机设备，能够高效识别文字内容异常的违规图像，降低对图像语义信息的依赖性，且能应对各种各样的文字类型，实现对违规图像的精准、全面识别。

根据本公开的一个方面，提供一种图像识别方法，包括：自待识别图像中获取包含有文字的图片区域；对所述图片区域进行特征提取，获得相应图片区域的图片特征；确定所述图片特征与违规图片特征之间的相似度，所述违规图片特征取自违规图片特征库；响应于所述相似度大于第一阈值，将所述待识别图像确定为违规图像。

在本公开的一示例性实施例中，所述自待识别图像中获取包含有文字的图片区域，包括：对所述待识别图像进行文字检测，以基于检测结果确定对应于相应文字序列的文本框；响应于所述文本框为多个，且相应的多个文本框符合合并条件，则对所述多个文本框进行合并以获得目标文本框，并根据所述目标文本框自所述待识别图像中截取所述图片区域；其中，所述合并条件是基于文本框之间的距离，和/或文本框之间的重合度确定的。

在本公开的一示例性实施例中，所述自待识别图像中获取包含有文字的图片区域，还包括：响应于所述文本框为一个，则根据所述文本框自所述待识别图像中截取所述图片区域。

在本公开的一示例性实施例中，所述对所述多个文本框进行合并以获得目标文本框，包括：按照预设比例对所述多个文本框进行放大，以获得对应的扩展文本框；对所述扩展文本框进行合并以获得所述目标文本框。

在本公开的一示例性实施例中，所述对所述扩展文本框进行合并以获得所述目标文本框，包括：将面积最大的扩展文本框确定为基准文本框；确定所述基准文本框与其他各扩展文本框之间的重合度，并基于重合度结果确定候选文本框；其中，所述候选文本框为其他各扩展文本框中，与所述基准文本框之间的重合度超过第二阈值的扩展文本框；将所述基准文本框与所述候选文本框合并以获得所述目标文本框；在剩余的扩展文本框中重复上述步骤，直至无法再依此获得新的目标文本框。

在本公开的一示例性实施例中，所述对所述扩展文本框进行合并以获得所述目标文本框，包括：将面积大于第三阈值的扩展文本框确定为基准文本框；确定每个基准文本框与所关联的各扩展文本框之间的重合度，并基于重合度结果确定每个所述基准文本框的候选文本框；其中，一所述基准文本框所关联的扩展文本框，为与该所述基准文本框之间的距离小于第四阈值的扩展文本框；该所述基准文本框的候选文本框为该所述基准文本框所关联的扩展文本框中，与该所述基准文本框之间的重合度超过第二阈值的扩展文本框；将每个所述基准文本框与其候选文本框合并以获得所述目标文本框；在剩余的扩展文本框中重复上述步骤，直至无法再依此获得新的目标文本框。

在本公开的一示例性实施例中，所述对所述图片区域进行特征提取，包括通过特征提取模型对所述图片区域进行特征提取；其中，所述特征提取模型在应用阶段的网络结构包括：骨干网络，用于对所述图片区域进行特征提取，获得所述图片区域的基础特征；度量网络，与所述骨干网络连接，用于对所述基础特征进行特征处理，获得所述图片区域的图片特征。

在本公开的一示例性实施例中，所述特征提取模型在训练阶段的网络结构还包括与所述骨干网络连接的分类网络；所述特征提取模型的训练阶段包括：获得标签样本，每个标签样本携带度量标签和/或分类标签；将所述标签样本输入所述骨干网络，获得所述度量网络输出的对应于所述度量标签的度量特征和所述分类网络输出的对应于所述分类标签的分类结果；根据包含所述度量损失和所述分类损失的总损失，优化所述骨干网络、所述度量网络和所述分类网络的参数。

在本公开的一示例性实施例中，所述度量标签为包含样本标签、正样本标签和负样本标签的三元组标签，在携带相关联的三元组标签的一组样本图像中：携带所述样本标签的当前样本图像自样本图像集中随机选取获得；携带所述正样本标签的正样本图像通过对所述当前样本图像进行数据增强获得；携带所述负样本标签的负样本图像，自所述样本图像集的至少除所述当前样本图像外的剩余样本图像组中选取获得。

在本公开的一示例性实施例中，所述特征提取模型的训练阶段，通过优化所述骨干网络和所述度量网络的参数，使所述度量网络输出的对应于当前样本图像的度量特征与其正样本图像的度量特征之间的距离减小，并使所述度量网络输出的对应于当前样本图像的度量特征与其负样本图像的度量特征之间的距离增大。

在本公开的一示例性实施例中，每组样本图像的度量特征的度量损失，采用三元组损失函数进行计算。

在本公开的一示例性实施例中，当所述当前样本图像不携带相似图像标签时，所述剩余样本图像组由所述样本图像集中除所述当前样本图像外的样本图像组成；当所述当前样本图像携带所述相似图像标签时，所述正样本图像还可自所述样本图像集的相似样本图像组中随机选取获得，所述相似样本图像组中的样本图像均携带所述相似图像标签，所述剩余样本图像组由所述样本图像集中除所述相似样本图像组外的样本图像组成。

在本公开的一示例性实施例中，所述携带所述负样本标签的负样本图像自所述样本图像集的剩余样本图像组中选取获得，包括：提取所述样本图像集中每张样本图像的特征；计算所述当前样本图像的特征与所述剩余样本图像组中每张剩余样本图像的特征之间的距离；自距离小于距离阈值的剩余样本图像中，随机选取一剩余样本图像作为所述负样本图像。

在本公开的一示例性实施例中，所述分类标签包括：第一类别标签，用于表征对应的样本图像来自于真实业务；第二类别标签，用于表征对应的样本图像通过机器合成；第三类别标签，用于表征对应的样本图像来自于外部资源平台；第四类别标签，用于表征对应的样本图像中不包含文字内容；其中，所述第一类别标签、所述第二类别标签和所述第三类别标签所对应的样本图像中，均包含文字内容。

在本公开的一示例性实施例中，所述第一类别标签、所述第二类别标签和所述第三类别标签所对应的样本图像的分类损失采用包含交叉熵损失函数和中心损失函数的分类损失函数进行计算；所述第四类别标签所对应的样本图像的分类损失采用所述交叉熵损失函数进行计算。

在本公开的一示例性实施例中，所述确定所述图片特征与违规图片特征之间的相似度，包括采用欧氏距离计算所述图片特征与所述违规图片特征之间的相似度。

在本公开的一示例性实施例中，所述确定所述图片特征与违规图片特征之间的相似度，包括：每确定一张图片区域的图片特征与一组违规图片特征之间的相似度，将所述相似度与所述第一阈值进行比较；其中，一组违规图片特征来自于一张违规图片；或者，确定每张图片区域的图片特征与各组违规图片特征之间的相似度，取最小相似度与所述第一阈值进行比较。

根据本公开的一个方面，提供一种图像识别装置，包括：区域获取模块，用于自待识别图像中获取包含有文字的图片区域；特征提取模块，用于对所述图片区域进行特征提取，获得相应图片区域的图片特征；特征比对模块，用于确定所述图片特征与违规图片特征之间的相似度，所述违规图片特征取自违规图片特征库；违规识别模块，用于响应于所述相似度大于第一阈值，将所述待识别图像确定为违规图像。

根据本公开的一个方面，提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上述任意实施例所述的图像识别方法。

根据本公开的一个方面，提供一种计算机设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令，来执行如上述任意实施例所述的图像识别方法。

本公开实施方式的图像识别方法、装置、存储介质和计算机设备，在获取到待识别图像中的包含有文字的图片区域后，直接提取图片区域的图片特征，通过图片特征与违规图片特征之间的相似度，确定待识别图像是否违规，能够高效识别文字内容异常的违规图像，降低对图像语义信息的依赖性，且无需依赖文字区域的文本内容，通过图片特征的相似度应对各种各样的文字类型，突破文字识别的局限性；此外，通过违规图片特征库的动态更新维护，本公开的违规图像识别方案能够快速响应新的攻击类型，实现对违规图像的高效、准确、全面识别。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1示意性地示出根据本公开一种实施方式的图像识别方法的流程示意图；

图2示意性地示出根据本公开一种实施方式的对文本框进行合并的效果示意图；

图3示意性地示出根据本公开一种实施方式的对文本框进行合并的流程示意图；

图4示意性地示出根据本公开又一种实施方式的对文本框进行合并的流程示意图；

图5示意性地示出根据本公开一种实施方式的特征提取模型的网络结构示意图；

图6示意性地示出根据本公开一种实施方式的特征提取模型的训练过程示意图；

图7示意性地示出根据本公开一种实施方式的图片特征提取过程示意图；

图8示意性地示出根据本公开一种实施方式的图像识别过程示意图；

图9示意性地示出根据本公开一种实施方式的图像识别装置的模块架构图；

图10示意性地示出根据本公开一种实施方式的存储介质的示意图；

图11示意性地示出根据本公开一种实施方式的计算机设备的模块架构图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提供图像识别方法、装置、存储介质和计算机设备。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本公开的若干代表性实施方式，详细阐述本公开的原理和精神。

发明概述

违规图像是指包含广告等不被允许的违规内容的图像。目前针对违规图像的识别，主要有图像分类算法和文字识别算法。

图像分类算法通过训练图像分类模型，来预测图像中包含违规内容的概率，根据预测概率判断图像是否违规。图像分类模型的违规预测依赖于图像的语义信息，例如图像中的人物、特殊物体、是否包含文字等，由于没有精确识别文字内容，因此无法处理文字内容异常的图像，而文字内容异常往往是导致图像违规的主要因素。此外，由于图像分类模型依赖图像的语义信息进行违规预测，即使提取文字内容作为高层语义信息，只要攻击者创造出新的攻击文字(例如在已有攻击文字上添加几笔、少些几笔)，就会由于破坏了语义信息而需要重新训练图像分类模型才能识别出新语义，无法实现快速响应新的攻击类型。

文字识别算法主要指OCR(Optical Character Recognition，光学字符识别)算法，OCR算法识别出图像中的文字，转换为文本，再通过文本理解模型或预定义的关键字，判断是否包含违规内容。随着OCR技术的成熟，攻击者会挖掘OCR算法难以识别的文字类型，合成新的攻击文字(例如人为在文字上添加遮挡，将攻击内容隐藏在文字中)，达到绕过OCR算法的攻击目的。新合成的攻击文字改变了原有文字的文字内容，如要识别出新的攻击文字，也需要重新训练OCR算法模型，才能识别出同类型的攻击文字，成本大且更新周期长，难以实现快速响应。

鉴于上述内容，本公开的基本思想在于：

针对待识别图像，在获取到图像中包含有文字的图片区域后，直接提取图片区域的图片特征，通过图片特征与违规图片特征之间的相似度，确定待识别图像是否违规，能够高效识别出文字内容异常的违规图像，降低对图像语义信息的依赖性，且无需依赖文字区域的文本内容，通过图片特征的相似度应对各种各样的文字类型，突破文字识别的局限性；此外，还能通过违规图片特征库的动态更新维护，快速响应新的攻击类型，实现对违规图像的高效、准确、全面识别。

在介绍了本公开的基本原理之后，下面结合附图具体介绍本公开的各种非限制性实施方式。

示例性方法

下面结合图1来描述根据本公开示例性实施方式的图像识别方法。参照图1所示，图像识别方法可以包括以下步骤：

S110，自待识别图像中获取包含有文字的图片区域。

待识别图像即待判定是否包含有违规内容的图像。自待识别图像中获取到的图片区域，可能包括一个或多个。

S120，对图片区域进行特征提取，获得相应图片区域的图片特征。

在图片区域包含多个的情况下，分别获得每个图片区域的图片特征。

S130，确定图片特征与违规图片特征之间的相似度，违规图片特征取自违规图片特征库。

违规图片特征库中，存储有已知的违规图片特征。图片特征与违规图片特征之间的相似度越高，表明对应的图片特征的违规可能性越高。

S140，响应于相似度大于第一阈值，将待识别图像确定为违规图像。

第一阈值是一个相似度阈值，第一阈值的具体数值可根据需要设置。针对自待识别图像中获取到的一个或多个包含有文字的图片区域，在任意图片区域的相似度大于第一阈值的情况下，可确定待识别图像为违规图像。

上述实施方式的图像识别方法，在获取到待识别图像中包含有文字的图片区域后，直接提取图片特征，通过图片特征与已知的违规图片特征之间的相似度，确定待识别图像是否违规，能够高效识别出文字内容异常的违规图像，降低对图像语义信息的依赖性，且无需依赖文字区域的文本内容，通过图片特征的相似度应对各种各样的文字类型，突破文字识别的局限性。此外，上述实施方式的图像识别方法，还能通过违规图片特征库的动态更新维护，快速响应新的攻击类型，实现对违规图像的高效、准确、全面识别。

在一示例性实施例中，自待识别图像中获取包含有文字的图片区域，可以包括：对待识别图像进行文字检测，以基于检测结果确定对应于相应文字序列的文本框；响应于文本框为多个，且相应的多个文本框符合合并条件，则对多个文本框进行合并以获得目标文本框，并根据目标文本框自待识别图像中截取图片区域；其中，合并条件是基于文本框之间的距离，和/或文本框之间的重合度确定的。此外，响应于文本框为一个，则根据该文本框自待识别图像中截取图片区域。

文字检测可采用已有的文字检测算法。文字检测算法会先识别出单个文字像素点，再将识别到的像素点聚合成单行的文字，生成包含一个或多个文本框的检测结果，每个文本框即对应单行的文字序列。文本框的形状通常是矩形；根据文字检测算法的配置，文本框的形状也可以是其他形状。

由于单行文字的特征差异小、区分度低，直接应用到后续基于相似度比对的违规识别中，会存在准确率低的问题。因此，在文本框包含多个的情况下，进一步对多个文本框进行合并。合并后获得的目标文本框，不仅具有更大的差异性，能够确保后续违规识别的准确性，而且能节省后续的特征提取计算量，无需针对数量众多的文本框对应的图片区域进行特征提取，此外还能节省特征存储空间，无需存储数量众多的文本框对应的图片区域的特征。

举例来说，某违规内容涉嫌低俗广告，包含三部分信息，第一部分信息是广告内容(例如，约会)、第二部分信息是操作引导(例如，点击网址链接)、第三部分信息是具体网址链接。攻击者利用文字检测算法识别单行文字的特点，将上述违规内容拆分成分别对应三部分信息的三行文字，三行文字之间间隔一定距离，以使文字检测算法对包含上述违规内容的待识别图像进行文字检测时，获得分别对应上述三部分信息的三个文本框。后续，如果单独基于每个文本框进行违规识别，由于单个文本框对应的违规程度不高，不会获得待识别图像为违规图像的识别结果；只有将该三个文本框合并成一个目标文本框，基于目标文本框对应的图片区域提取图片特征进行相似度比对，才能准确判定待识别图像的违规特性。

进一步地，对多个文本框进行合并以获得目标文本框，包括：按照预设比例对多个文本框进行放大，以获得对应的扩展文本框；对扩展文本框进行合并以获得目标文本框。

图2示出一示例性实施方式中对文本框进行合并的效果，参照图2所示，待识别图像200中，经过文字检测，获得5个文本框201、202、203、204和205。其中，左上角的三个文本框201、202和203对应一组相关联的内容(实际上是违规内容，例如上述举例的被拆分成三行文字的违规内容)，中下部的两个文本框204和205对应一组相关联的内容(是正常未违规内容)。对于文本框201、202和203，由于攻击者特意将相关联的违规内容拆分成间隔一定距离的三行文字，因此检测获得的三个文本框201、202和203相互间隔，导致在文本框合并时该三个相关的文本框很可能不被合并到一起，而影响后续的违规识别。

因此，对文本框进行合并前，先按预设比例放大文本框，预设比例可根据需要设置，例如本示例中对每个文本框按长宽比扩大1.5倍。图2中，文本框201～205示意出经文字检测获得的文本框，扩展文本框201’、202’、203’、204’和205’则示意出经长宽同比放大获得的扩展文本框。对文本框进行扩展，不仅能够确保文本框合并时将相关的文本框合并到一起，还能纳入文字周围的背景信息，以利于后续图片特征提取时获取到更全面的图片特征。

获得扩展文本框后，可基于文本框之间的距离(例如，对距离相近的扩展文本框进行合并)、文本框之间的重合度(例如，对相重合的扩展文本框进行合并)、或者结合距离和重合度，对扩展文本框进行合并。最终合并效果参照图2所示，扩展文本框201’、202’和203’合并成目标文本框200a，扩展文本框204’和205’合并成目标文本框200b。

图3示出一示例性实施方式中对文本框进行合并的流程，参照图3所示，本示例中，采用非极大值抑制算法对扩展文本框进行合并，包括：

S310，将面积最大的扩展文本框确定为基准文本框。

S320，确定基准文本框与其他各扩展文本框之间的重合度，并基于重合度结果确定候选文本框。其中，候选文本框为其他各扩展文本框中，与基准文本框之间的重合度超过第二阈值的扩展文本框。

重合度可采用交并比进行计算，交并比表示两个多边形的重合程度，范围在[0,1]，0为不重合，1为完全重合，交并比越大则重合程度越高。第二阈值可根据需要设置，本示例中将第二阈值设为0.1。

S330，将基准文本框与候选文本框合并以获得目标文本框。

目标文本框能够包围基准文本框及其候选文本框，例如是基准文本框及其候选文本框的最小外接矩形。

S340，在剩余的扩展文本框中重复上述步骤，直至无法再依此获得新的目标文本框。

实际算法运行时，可初始化一个空的结果集和一个空的候选集。每次合并时，从扩展文本框的初始集合中，取面积最大的扩展文本框作为基准文本框，并计算剩余的扩展文本框与该基准文本框的交并比；若有交并比大于0.1的扩展文本框，则将对应的扩展文本框移至候选集中。本轮交并比计算完后，如果候选集为空，则将该基准文本框移至结果集；如果候选集不为空，则将该基准文本框移至候选集，并对候选集中的所有文本框求最小外接矩形，作为目标文本框加入结果集，同时清空候选集。重复上述过程直至扩展文本框的初始集合为空，得到的结果集即为最终合并结果。

图4示出又一示例性实施方式中对文本框进行合并的流程，参照图4所示，本示例中，每次合并时，可选取面积较大的多个扩展文本框，对选取的每个扩展文本框及其附近的扩展文本框进行合并，以提升合并效率。具体来说，对扩展文本框进行合并以获得目标文本框，包括：

S410，将面积大于第三阈值的扩展文本框确定为基准文本框。

第三阈值可根据需要确定，可以结合所有扩展文本框的面积，动态确定第三阈值，以使每次合并时，选取出数量合适的基准文本框。

S420，确定每个基准文本框与所关联的各扩展文本框之间的重合度，并基于重合度结果确定每个基准文本框的候选文本框。其中，一基准文本框所关联的扩展文本框，为与该基准文本框之间的距离小于第四阈值的扩展文本框；该基准文本框的候选文本框为该基准文本框所关联的扩展文本框中，与该基准文本框之间的重合度超过第二阈值的扩展文本框。

可基于文本框的中心点，计算文本框之间的距离。第四阈值的设定，需确保相关的文本框能够合并到一起，又不会引入过多无关的文本框而增加计算量。关于重合度，本示例中也可采用交并比进行计算，具体原理、第二阈值的设置，均可参照上述示例中的说明。

S430，将每个基准文本框与其候选文本框合并以获得目标文本框。

在基准文本框具有候选文本框时，将包围基准文本框及其候选文本框的最小外接矩形或其他合适的包围框作为目标文本框；若基准文本框不具有候选文本框，则直接以基准文本框作为目标文本框。

S440，在剩余的扩展文本框中重复上述步骤，直至无法再依此获得新的目标文本框。

获得目标文本框后，根据目标文本框自待识别图像中截取图片区域。

上述的自待识别图像中获取包含有文字的图片区域的过程，在算法实现上，可通过文字区域检测模型来实现，文字区域检测模型用于自图像中截取包含文字的图片区域。后续，提取图片区域的图片特征，据此判定待识别图像是否为违规图像。

在本公开示例性实施例中，获得的目标文本框中包括文本框形状、图片区域背景、以及文字的格式、分布和占比等信息；从而，后续对目标文本框对应的图片区域进行特征提取，能够获得包含有文本框形状、图片区域区域背景、以及文字的格式、分布和占比等多方面特征信息的图片特征，基于包含有多方面特征信息的图片特征，能够准确高效地对待识别图像进行违规识别。

此外，在一示例性实施例中，合并获得目标文本框后，也可基于目标文本框的形状特征，判定待识别图像是否为违规图像。具体来说，考虑到正常文字内容通常规整地按行编排，前一行满格后转到下一行；而广告等违规文字内容，常常会采取敏感词断行等特殊格式编排来避开检测，导致对违规文字内容对应的文本框进行合并后，会获得梯形状、菱形状、T字形等等特殊形状的目标文本框。因此，在一个示例中，可预设一些特定形状，作为违规文本框的识别依据；合并获得目标文本框后，经比对目标文本框的形状匹配预设的特定形状，则可确定目标文本框为违规文本框，进一步可判定待识别图像为违规图像。通过基于目标文本框的形状特征判定待识别图像是否为违规图像，能够避免复杂图片特征的处理，更快速地对待识别图像进行违规识别。

在一示例性实施例中，对图片区域进行特征提取，包括通过特征提取模型对图片区域进行特征提取；其中，特征提取模型在应用阶段的网络结构包括：骨干网络，用于对图片区域进行特征提取，获得图片区域的基础特征；度量网络，与骨干网络连接，用于对基础特征进行特征处理，获得图片区域的图片特征。

骨干网络和度量网络均可选用卷积神经网络。骨干网络是一个深层的卷积神经网络，用于提取图像区域的基础的、通用的特征；度量网络是一个轻量级的卷积神经网络，用于对骨干网络提取的基础特征作进一步特征处理，输出关键的、重要的图片特征。特征提取模型经过训练，能够对输入的图片区域，准确提取其图片特征。

在一示例性实施例中，特征提取模型在训练阶段的网络结构还包括与骨干网络连接的分类网络。分类网络也可选用卷积神经网络，是一个轻量级的卷积神经网络。

图5示出一示例性实施方式中特征提取模型的网络结构，参照图5所示，特征提取模型在训练阶段的网络结构包括骨干网络510、度量网络520和分类网络530。分类网络530主要用于在训练阶段加速模型收敛速度，将在下文中具体说明。训练完成后，特征提取模型在应用阶段的网络结构500仅需骨干网络510和度量网络520。

下面对特征提取模型的训练过程进行说明。需要指出的是，下文中所称的样本图像，是指经过上述的文字区域检测模型处理后的样本图像，也即是对原始图像经过文字检测、文本框合并等操作后，截取获得的包含文字的关键区域。

在一示例性实施例中，特征提取模型的训练过程包括：获得标签样本，每个标签样本携带度量标签和/或分类标签；将标签样本输入骨干网络，获得度量网络输出的对应于度量标签的度量特征和分类网络输出的对应于分类标签的分类结果；根据包含度量损失和分类损失的总损失，优化骨干网络、度量网络和分类网络的参数。

上述特征提取模型的训练过程采用的是度量学习的方法，通过度量损失和分类损失共同约束，达到使特征提取模型快速收敛，准确学习图像之间的相似度的目的。其中，度量损失的作用是使相似的图像在特征空间中相互接近而不相似的图像相互远离；通常在图像度量学习中，同类别的图像互为正样本(即相似)，不同类别的图像互为负样本(即不相似)，因此分类损失作为一种辅助的损失，能够提供额外的监督信息，实现加快训练速度，提升训练效果。

模型训练时，分类标签采用对应多个类别的类别标签，通过分类损失，将属于同一类别的样本图像约束在同一类别空间中；度量标签采用包含样本标签、正样本标签和负样本标签的三元组标签，通过度量损失，使度量网络输出的对应于当前样本图像(携带样本标签)的度量特征与其正样本图像(携带关联的正样本标签)的度量特征之间的距离减小，并使度量网络输出的对应于当前样本图像的度量特征与其负样本图像(携带关联的负样本标签)的度量特征之间的距离增大。

图6示出一示例性实施方式中特征提取模型的训练过程，参照图6所示，以三元组样本(即携带相关联的三元组标签的一组样本图像)为例，包括携带样本标签“I”和分类标签“A”的样本图像610、携带正样本标签“+I”和分类标签“A”的正样本图像620、以及携带负样本标签“-I”和分类标签“B”的负样本图像630。将该三元组样本分别输入特征提取模型在训练阶段的网络结构500’中。骨干网络对每张样本图像进行基础特征提取；分类网络将骨干网络提取的基础特征映射到类别空间，获得对应于样本图像610的分类结果610₁、对应于正样本图像620的分类结果620₁、以及对应于负样本图像630的分类结果630₁；度量网络对骨干网络提取的基础特征作进一步特征处理，获得对应于样本图像610的度量特征610₂、对应于正样本图像620的度量特征620₂、以及对应于负样本图像630的度量特征630₂。

本示例中，度量网络输出的每张样本图像的度量特征为512维的特征；在其他示例中，度量特征的特征维度可从256维至2048维不等。考虑到准确率和速度的平衡，特征维度为512维时能够取得较佳的性能。

获得模型输出结果后，针对分类结果610₁、620₁和630₁，计算分类损失660₁；针对度量特征610₂、620₂和630₂，计算度量损失660₂；再根据包含度量损失和分类损失的总损失，调整网络结构500’的参数，以将样本图像610和正样本图像620约束在类别空间“A”中(负样本图像630也会与其他同类别图像约束到类别空间“B”中)，并使样本图像610和正样本图像620在特征空间中的距离接近，使样本图像610和负样本图像630在特征空间中的距离远离。

从而，通过分类损失对应的分类任务，区分不同类别的样本图像，实现样本图像的全局性的、粗粒度的类别空间约束；通过度量损失对应的度量任务，缩小正样本间距离、增大负样本间距离，实现在各类别空间内对样本图像进行更细粒度的约束；通过分类任务和度量任务的共同约束，加速模型收敛，获得能够准确提取图片特征的特征提取模型。

下面分别对分类任务和度量任务进行说明。

对于分类任务，在本公开的示例性实施例中，特征提取模型的训练数据是经文本框合并的包含多行文本的样本图像，缺乏常规图像分类需要的类别信息，难以按照常规方式构建分类任务的正负样本对和分类类别。其中，类别信息视分类任务而定。对于动物分类，类别信息可以是猫、狗、鸟等；对于植物分类，类别信息可以是花、数、草等；而对于多行文本对应的样本图像，很难定义其类别。具体来说，单个文字的属性有字体、颜色、饰线等，其中最具有区分性的是字体，但是字体类别多(200多种)，还包括艺术字和手写体，标注字体类别的成本极大；此外，在本公开的上述示例性实施例中，为提高计算效率并使单张图片更有区分性，采用了多行文本聚合的方式，使一张图片包含多行文字，不同文字的属性极可能存在冲突，导致按照文字属性区分类别的可行性不高。没有具体类别，就很难挖掘正样本(即相似的样本对)。

因此，本公开提出一种按照数据来源进行粗粒度区分的分类方法。具体来说，在一示例性实施例中，分类标签包括：第一类别标签，用于表征对应的样本图像来自于真实业务；第二类别标签，用于表征对应的样本图像通过机器合成；第三类别标签，用于表征对应的样本图像来自于外部资源平台；第四类别标签，用于表征对应的样本图像中不包含文字内容；其中，第一类别标签、第二类别标签和第三类别标签所对应的样本图像中，均包含文字内容，为分类任务的正样本，不包含文字内容的样本图像即为分类任务的负样本。

不同来源的数据，在特征表现上会有一定区别，按照数据来源标注分类标签，能够将不同数据来源的样本图像约束到对应的类别空间中。

在一示例性实施例中，第一类别标签、第二类别标签和第三类别标签所对应的样本图像的分类损失采用包含交叉熵损失(cross-entropy loss)函数和中心损失(center-loss)函数的分类损失函数进行计算，交叉熵损失和中心损失的权重关系例如为1:1；第四类别标签所对应的样本图像的分类损失采用交叉熵损失函数进行计算。不包含文字内容的样本图像即背景类图像，范围宽泛，属于开放空间，无法聚合，因此不采用中心损失损失计算其分类损失。

对于度量任务，由于上述的分类任务使用的类别标签是粗粒度的，与常规的带类别标签的度量学习不同，在本公开的示例性实施例中，同类别中的图片差异性大，无法互为正样本。因此，本公开提出一种“自监督”的方式进行度量学习。

具体来说，在一示例性实施例中，度量标签为包含样本标签、正样本标签和负样本标签的三元组标签，在携带相关联的三元组标签的一组样本图像中：携带样本标签的当前样本图像自样本图像集中随机选取获得；携带正样本标签的正样本图像通过对当前样本图像进行数据增强获得；携带负样本标签的负样本图像，自样本图像集的至少除当前样本图像外的剩余样本图像组中选取获得。

数据增强可以包括：随机裁剪、随机更改亮度或对比度、随机交换颜色通道、做归一化处理等操作。对于某一样本图像，其本身经过数据增强后的图像可作为其正样本，而除该样本图像以外的其他样本图像均可作为该样本图像的负样本。

在一示例性实施例中，样本图像集中少量样本图像可能携带相似图像标签，用于提供难例，帮助模型训练。此时，除通过对当前样本图像进行数据增强以获得其正样本图像外，当当前样本图像携带相似图像标签时，正样本图像还可自样本图像集的相似样本图像组中随机选取获得，相似样本图像组中的样本图像均携带相似图像标签。

此外，当当前样本图像不携带相似图像标签时，剩余样本图像组由样本图像集中除当前样本图像外的样本图像组成；当当前样本图像携带相似图像标签时，剩余样本图像组由样本图像集中除相似样本图像组外的样本图像组成；负样本图像即自剩余样本图像组中选取获得。

在一示例性实施例中，携带负样本标签的负样本图像自样本图像集的剩余样本图像组中选取获得，具体可包括：提取样本图像集中每张样本图像的特征；计算当前样本图像的特征与剩余样本图像组中每张剩余样本图像的特征之间的距离；自距离小于距离阈值的剩余样本图像中(例如自距离升序排序的前20％的剩余样本图像中)，随机选取一剩余样本图像作为负样本图像。

进一步地，在一示例性实施例中，对携带三元组标签的每组样本图像的度量特征的度量损失，采用三元组损失(triplet-loss)函数进行计算。经过度量学习，实现图像到特征空间的映射，度量网络输出的图片特征，能够使相似的图像在特征空间中的距离接近，而不相似的图像在特征空间中的距离远离。

包含度量损失和分类损失的总损失中，度量损失和分类损失的权重关系可根据需要设置，通常度量损失的权重大于分类损失的权重，从而以度量任务作为主任务，分类任务作为辅任务，对特征提取模型进行训练。在一示例性实施例中，度量损失和分类损失的权重关系为1:0.5。

综上，上述的模型训练过程中，通过分类任务将样本图像按照特定的类别约束在对应的类别空间中，不仅加快模型的收敛速度，还学习到如何区分文字/非文字；通过度量任务在对应的类别空间中对样本图像进行更细粒度的区分，实现相似图像的聚类。经过模型训练，度量网络能够输出准确的图片特征，以使待识别图像实际包含违规内容的情况下，所输出的图片特征与违规图片特征在特征空间中的距离接近，从而待识别图像后续能够被判定为违规图像；而在待识别图像实际不包含违规内容的情况下，度量网络输出的图片特征与违规图片特征在特征空间中的距离远离，从而待识别图像后续不会被判定为违规图像。

图7示出一示例性实施方式中图片特征提取过程，参照图7所示，结合上述各实施例的说明，对待识别图像700进行图片特征提取时：先采用文字区域检测模型710，进行文字检测和文本框合并等操作，以获得待识别图像700中包含有文字的图片区域；再采用包含骨干网络和度量网络的特征提取模型720，提取获得图片区域的图片特征700’。

获取到图片特征后，可采用欧氏距离计算图片特征与违规图片特征之间的相似度，距离越近则相似度越高。

在算法实现上，图片特征与违规图片特征之间的相似度可通过相似度对比模块实现。相似度对比模块可以在每获取到一个相似度即将其与阈值进行比对，或者在计算完所有的相似度后再与阈值进行比对。具体来说，确定图片特征与违规图片特征之间的相似度，包括：每确定一张图片区域的图片特征与一组违规图片特征之间的相似度，将相似度与第一阈值进行比较；其中，一组违规图片特征来自于一张违规图片；或者，确定每张图片区域的图片特征与各组违规图片特征之间的相似度，取最小相似度与第一阈值进行比较。

第一阈值与特征提取模型高度相关，需使用训练数据集计算不同阈值下的精度和召回值，以训练数据集上的最佳阈值作为最终的第一阈值。

图8示出一示例性实施方式中图像识别过程，参照图8所示，结合上述各实施例的说明，在一具体示例中，图像识别过程包括：

S810，构建违规图片特征库。具体是对已知的违规图片，进行图片特征提取(可参照图7所示的图片特征提取过程)，获得违规图片特征，存入违规图片特征库中。违规图片特征库中存储的是经提取的低维特征，而非高维的图片本身，能够减小相似度比对的计算量，加快计算速度。此外，当有新的违规识别需求、以及在真实业务中发现新的攻击类型等情况下，可以随时增加违规图片特征库中的违规图片特征；而在需要将某类违规图片特征恢复正常等情况下，可以随时删减违规图片特征库中的违规图片特征；结合更新的违规图片特征库对待识别的图片特征进行违规识别，能够适应快速的需求变化和不断变更的攻击类型。

通过违规图片特征库的动态维护，无需如图像分类算法，由于依赖图像语义信息进行违规预测，当攻击者破坏了原有的语义信息构造出新的攻击类型，需要重新训练图像分类模型才能识别新的攻击类型；也无需如文字识别算法，由于依赖文字内容进行违规识别，当攻击者破坏了原有的文字内容构造出新的攻击类型，需要重新训练文字识别模型才能识别新的攻击类型。

获得文字区域检测模型并训练好特征提取模型后，即可进行违规图片特征库的构建，为待识别图像的违规识别准备比对基础。

S820，对待识别图像，进行图片特征提取，获得图片特征。图片特征也是低维的特征向量，便于快速进行距离计算。

S830，通过相似度对比模块，计算图片特征与违规图片特征之间的相似度。在待识别图像的任意图片特征与违规图片特征库中的任意违规图片特征相似(相似度小于第一阈值)的情况下，确定待识别图像为违规图像；反之，图片特征与违规图片特征相似不相似，则确定待识别图像为正常图像。

在待识别图像包括多张的情况下，可以采用流式处理方式，将所有待识别图像加入队列中，依次进行图片特征的提取和相似度的比对。

综上，上述的图像识别方法，通过文字区域检测获得待识别图像中包含有文字的图片区域后，直接提取图片区域的图片特征，并通过图片特征与违规图片特征之间的相似度，确定待识别图像是否违规，能够高效识别出文字内容异常的违规图像，降低对图像语义信息的依赖性，且无需依赖文字区域的文本内容，通过图片特征的相似度应对各种各样的文字类型，突破文字识别的局限性；此外，还能通过违规图片特征库的动态更新维护，例如在真实业务中发现新的攻击类型时，将新的攻击类型对应的违规图片特征加入违规图片特征库中，以使后续有相似攻击类型的图像都能被识别出来，不需要重新训练模型，就能够快速响应新的攻击类型，实现对违规图像的高效、准确、全面识别。

示例性装置

在介绍了本公开示例性实施方式的图像识别方法之后，下文中将结合图9对本公开示例性实施方式的图像识别装置进行描述。

本公开实施例提供的图像识别装置，可用于实现上述对应实施例描述的图像识别方法。上述任意实施例描述的图像识别方法的特征和原理均可应用至下面对应的图像识别装置实施例。

参照图9所示，本公开示例性实施方式的图像识别装置900包括区域获取模块910、特征提取模块920、特征比对模块930和违规识别模块940。区域获取模块910可用于自待识别图像中获取包含有文字的图片区域；特征提取模块920可用于对图片区域进行特征提取，获得相应图片区域的图片特征；特征比对模块930可用于确定图片特征与违规图片特征之间的相似度，违规图片特征取自违规图片特征库；违规识别模块940可用于响应于相似度大于第一阈值，将待识别图像确定为违规图像。

上述的图像识别装置900，在获取到待识别图像中包含有文字的图片区域后，直接提取图片区域的图片特征，通过图片特征与违规图片特征之间的相似度，确定待识别图像是否违规，能够高效识别出文字内容异常的违规图像，降低对图像语义信息的依赖性，且无需依赖文字区域的文本内容，通过图片特征的相似度应对各种各样的文字类型，突破文字识别的局限性；此外，还能通过违规图片特征库的动态更新维护，快速响应新的攻击类型，实现对违规图像的高效、准确、全面识别。

根据本公开示例性实施例，区域获取模块910可包括：文字检测模块，用于对待识别图像进行文字检测，以基于检测结果确定对应于相应文字序列的文本框；第一截取模块，用于响应于文本框为多个，且相应的多个文本框符合合并条件，对多个文本框进行合并以获得目标文本框，并根据目标文本框自待识别图像中截取图片区域；其中，合并条件是基于文本框之间的距离，和/或文本框之间的重合度确定的。

根据本公开示例性实施例，区域获取模块910还可包括：第二截取模块，用于响应于文本框为一个，根据文本框自待识别图像中截取图片区域。

根据本公开示例性实施例，第一截取模块中，对多个文本框进行合并以获得目标文本框的模块可包括：文本框放大模块，用于按照预设比例对多个文本框进行放大，以获得对应的扩展文本框；文本框合并模块，用于对扩展文本框进行合并以获得目标文本框。

根据本公开示例性实施例，文本框合并模块可包括：第一基准框确定模块，用于将面积最大的扩展文本框确定为基准文本框；第一候选框确定模块，用于确定基准文本框与其他各扩展文本框之间的重合度，并基于重合度结果确定候选文本框；其中，候选文本框为其他各扩展文本框中，与基准文本框之间的重合度超过第二阈值的扩展文本框；第一合并模块，用于将基准文本框与候选文本框合并以获得目标文本框；第一循环模块，用于在剩余的扩展文本框中重复上述步骤，直至无法再依此获得新的目标文本框。

根据本公开示例性实施例，文本框合并模块可包括：第二基准框确定模块，用于将面积大于第三阈值的扩展文本框确定为基准文本框；第二候选框确定模块，用于确定每个基准文本框与所关联的各扩展文本框之间的重合度，并基于重合度结果确定每个基准文本框的候选文本框；其中，一基准文本框所关联的扩展文本框，为与该基准文本框之间的距离小于第四阈值的扩展文本框；该基准文本框的候选文本框为该基准文本框所关联的扩展文本框中，与该基准文本框之间的重合度超过第二阈值的扩展文本框；第二合并模块，用于将每个基准文本框与其候选文本框合并以获得目标文本框；第二循环模块，用于在剩余的扩展文本框中重复上述步骤，直至无法再依此获得新的目标文本框。

根据本公开示例性实施例，特征提取模块920可用于通过特征提取模型对图片区域进行特征提取；其中，特征提取模型在应用阶段的网络结构包括：骨干网络，用于对图片区域进行特征提取，获得图片区域的基础特征；度量网络，与骨干网络连接，用于对基础特征进行特征处理，获得图片区域的图片特征。

根据本公开示例性实施例，特征提取模型在训练阶段的网络结构还包括与骨干网络连接的分类网络；用于对特征提取模型进行训练的模块包括：样本获取模块，用于获得标签样本，每个标签样本携带度量标签和/或分类标签；模型运算模块，用于将标签样本输入骨干网络，获得度量网络输出的对应于度量标签的度量特征和分类网络输出的对应于分类标签的分类结果；模型调整模块，用于根据包含度量损失和分类损失的总损失，优化骨干网络、度量网络和分类网络的参数。

根据本公开示例性实施例，度量标签为包含样本标签、正样本标签和负样本标签的三元组标签，在携带相关联的三元组标签的一组样本图像中：携带样本标签的当前样本图像自样本图像集中随机选取获得；携带正样本标签的正样本图像通过对当前样本图像进行数据增强获得；携带负样本标签的负样本图像，自样本图像集的至少除当前样本图像外的剩余样本图像组中选取获得。

根据本公开示例性实施例，模型调整模块通过优化骨干网络和度量网络的参数，使度量网络输出的对应于当前样本图像的度量特征与其正样本图像的度量特征之间的距离减小，并使度量网络输出的对应于当前样本图像的度量特征与其负样本图像的度量特征之间的距离增大。

根据本公开示例性实施例，模型调整模块用于采用三元组损失函数进行计算每组样本图像的度量特征的度量损失。

根据本公开示例性实施例，当当前样本图像不携带相似图像标签时，剩余样本图像组由样本图像集中除当前样本图像外的样本图像组成；当当前样本图像携带相似图像标签时，正样本图像还可自样本图像集的相似样本图像组中随机选取获得，相似样本图像组中的样本图像均携带相似图像标签，剩余样本图像组由样本图像集中除相似样本图像组外的样本图像组成。

根据本公开示例性实施例，用于获得携带负样本标签的负样本图像的模块包括：特征获取模块，用于提取样本图像集中每张样本图像的特征；距离计算模块，用于计算当前样本图像的特征与剩余样本图像组中每张剩余样本图像的特征之间的距离；图像选取模块，用于自距离小于距离阈值的剩余样本图像中，随机选取一剩余样本图像作为负样本图像。

根据本公开示例性实施例，分类标签包括：第一类别标签，用于表征对应的样本图像来自于真实业务；第二类别标签，用于表征对应的样本图像通过机器合成；第三类别标签，用于表征对应的样本图像来自于外部资源平台；第四类别标签，用于表征对应的样本图像中不包含文字内容；其中，第一类别标签、第二类别标签和第三类别标签所对应的样本图像中，均包含文字内容。

根据本公开示例性实施例，模型调整模块采用包含交叉熵损失函数和中心损失函数的分类损失函数计算第一类别标签、第二类别标签和第三类别标签所对应的样本图像的分类损失；模型调整模块采用交叉熵损失函数计算第四类别标签所对应的样本图像的分类损失。

根据本公开示例性实施例，特征比对模块930采用欧氏距离计算图片特征与违规图片特征之间的相似度。

根据本公开示例性实施例，特征比对模块930可包括：第一比对模块，用于每确定一张图片区域的图片特征与一组违规图片特征之间的相似度，将相似度与第一阈值进行比较；其中，一组违规图片特征来自于一张违规图片；或者第二比对模块，用于确定每张图片区域的图片特征与各组违规图片特征之间的相似度，取最小相似度与第一阈值进行比较。

本公开上述实施方式的图像识别装置的各个功能模块与本公开上述实施方式中已详细描述的图像识别方法的原理和特征相同，各个功能模块的具体特征和原理可参照上述图像识别方法实施例的描述，此处不再重复说明。

综上，本公开示例性实施方式提供的图像识别装置，通过文字区域检测获得待识别图像中包含有文字的图片区域后，直接提取图片区域的图片特征，并通过图片特征与违规图片特征之间的相似度，确定待识别图像是否违规，能够高效识别出文字内容异常的违规图像，降低对图像语义信息的依赖性，且无需依赖文字区域的文本内容，通过图片特征的相似度应对各种各样的文字类型，突破文字识别的局限性；此外，还能通过违规图片特征库的动态更新维护，实现无需重新训练模型即快速响应新的攻击类型，实现对违规图像的高效、准确、全面识别。

示例性存储介质

在介绍了本公开示例性实施方式的图像识别方法和装置之后，接下来，参照图10对本公开示例性实施方式的存储介质进行说明。

参照图10所示，描述了根据本公开的实施方式的用于实现上述的图像识别方法的存储介质1000，其可以采用便携式紧凑盘只读存储器(CD-ROM)且包括程序代码，并可以在设备，例如个人电脑上运行。然而，本公开的存储介质不限于此，在本文件中，存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，如Java、C++等，还包括常规的过程式程序设计语言，如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

示例性计算机设备

在介绍了本公开示例性实施方式的存储介质之后，接下来，参照图11对本公开示例性实施方式的计算机设备进行说明。

图11显示的计算机设备1100仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图11所示，计算机设备1100以通用计算设备的形式表现。计算机设备1100的组件可以包括但不限于：上述至少一个处理单元1110、上述至少一个存储单元1120、连接不同系统组件(包括存储单元1120和处理单元1110)的总线1130、显示单元1140。

存储单元1120存储有程序代码，程序代码可以被处理单元1110执行，使得处理单元1110执行本说明书上述示例性方法部分描述的根据本公开各种示例性实施方式的图像识别方法的步骤。

存储单元1120可以包括易失性存储单元，例如随机存取存储单元(RAM)11201和/或高速缓存存储单元11202，还可以进一步包括只读存储单元(ROM)11203。

存储单元1120还可以包括具有一组(至少一个)程序模块11205的程序/实用工具11204，这样的程序模块11205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1130可以包括数据总线、地址总线和控制总线。

计算机设备1100也可以与一个或多个外部设备(例如键盘、指向设备、蓝牙设备等)通信，这种通信可以通过输入/输出(I/O)接口1150进行。计算机设备1100还包括显示单元1140，其连接到输入/输出(I/O)接口1150，用于进行显示。并且，计算机设备1100还可以通过网络适配器1160与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1160通过总线1130与计算机设备1100的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备1100使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了图像识别装置的若干模块或子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种图像识别方法，其特征在于，包括：

自待识别图像中获取包含有文字的图片区域；

对所述图片区域进行特征提取，获得相应图片区域的图片特征；

确定所述图片特征与违规图片特征之间的相似度，所述违规图片特征取自违规图片特征库；

响应于所述相似度大于第一阈值，将所述待识别图像确定为违规图像。

2.如权利要求1所述的图像识别方法，其特征在于，所述自待识别图像中获取包含有文字的图片区域，包括：

对所述待识别图像进行文字检测，以基于检测结果确定对应于相应文字序列的文本框；

响应于所述文本框为多个，且相应的多个文本框符合合并条件，则对所述多个文本框进行合并以获得目标文本框，并根据所述目标文本框自所述待识别图像中截取所述图片区域；

其中，所述合并条件是基于文本框之间的距离，和/或文本框之间的重合度确定的。

3.如权利要求1所述的图像识别方法，其特征在于，所述对所述图片区域进行特征提取，包括通过特征提取模型对所述图片区域进行特征提取；

其中，所述特征提取模型在应用阶段的网络结构包括：

骨干网络，用于对所述图片区域进行特征提取，获得所述图片区域的基础特征；

度量网络，与所述骨干网络连接，用于对所述基础特征进行特征处理，获得所述图片区域的图片特征。

4.如权利要求3所述的图像识别方法，其特征在于，所述特征提取模型在训练阶段的网络结构还包括与所述骨干网络连接的分类网络；

所述特征提取模型的训练阶段包括：

获得标签样本，每个标签样本携带度量标签和/或分类标签；

将所述标签样本输入所述骨干网络，获得所述度量网络输出的对应于所述度量标签的度量特征和所述分类网络输出的对应于所述分类标签的分类结果；

根据包含所述度量损失和所述分类损失的总损失，优化所述骨干网络、所述度量网络和所述分类网络的参数。

5.如权利要求4所述的图像识别方法，其特征在于，所述度量标签为包含样本标签、正样本标签和负样本标签的三元组标签，在携带相关联的三元组标签的一组样本图像中：

携带所述样本标签的当前样本图像自样本图像集中随机选取获得；

携带所述正样本标签的正样本图像通过对所述当前样本图像进行数据增强获得；

携带所述负样本标签的负样本图像，自所述样本图像集的至少除所述当前样本图像外的剩余样本图像组中选取获得。

6.如权利要求5所述的图像识别方法，其特征在于，所述特征提取模型的训练阶段，通过优化所述骨干网络和所述度量网络的参数，使所述度量网络输出的对应于当前样本图像的度量特征与其正样本图像的度量特征之间的距离减小，并使所述度量网络输出的对应于当前样本图像的度量特征与其负样本图像的度量特征之间的距离增大。

7.如权利要求4所述的图像识别方法，其特征在于，所述分类标签包括：

第一类别标签，用于表征对应的样本图像来自于真实业务；

第二类别标签，用于表征对应的样本图像通过机器合成；

第三类别标签，用于表征对应的样本图像来自于外部资源平台；

第四类别标签，用于表征对应的样本图像中不包含文字内容；

其中，所述第一类别标签、所述第二类别标签和所述第三类别标签所对应的样本图像中，均包含文字内容。

8.一种图像识别装置，其特征在于，包括：

区域获取模块，用于自待识别图像中获取包含有文字的图片区域；

特征提取模块，用于对所述图片区域进行特征提取，获得相应图片区域的图片特征；

特征比对模块，用于确定所述图片特征与违规图片特征之间的相似度，所述违规图片特征取自违规图片特征库；

违规识别模块，用于响应于所述相似度大于第一阈值，将所述待识别图像确定为违规图像。

9.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1-7任一项所述的图像识别方法。

10.一种计算机设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令，来执行权利要求1-7任一项所述的图像识别方法。