CN114140673B

CN114140673B - 一种违规图像识别方法、系统及设备

Info

Publication number: CN114140673B
Application number: CN202210115379.5A
Authority: CN
Inventors: 阮晓峰; 王坚; 李兵; 余昊楠; 胡卫明
Original assignee: Renmin Zhongke Beijing Intelligent Technology Co ltd
Current assignee: Renmin Zhongke Beijing Intelligent Technology Co ltd
Priority date: 2022-02-07
Filing date: 2022-02-07
Publication date: 2022-05-20
Anticipated expiration: 2042-02-07
Also published as: CN114140673A

Abstract

本文涉及人工智能领域，提供了一种违规图像识别方法、系统及设备，方法包括：分析待识别图像，得到文本信息及图像信息；将文本信息输入至文本特征提取模型中，得到文本特征向量组；将图像信息输入至图像特征提取模型中，得到图像特征向量组；将文本特征向量组及图像特征向量组输入至特征融合模型中，得到融合特征向量组，特征融合模型用于利用交叉注意力机制使得文本特征向量为图像特征向量添加注意力；将融合特征向量组输入至分类识别模型中，得到违规识别结果。本文使用交叉注意力机制融合两种模态特征，可提升违规图像识别的性能及鲁棒性。

Description

一种违规图像识别方法、系统及设备

技术领域

本文涉及人工智能技术领域，尤其涉及一种违规图像识别方法、系统及设备。

背景技术

互联网上存在着大量的违规图像，这些图像的广泛传播不仅严重危害青少年的身心健康，更增加了社会的不稳定因素。图像识别是计算机视觉领域最基本的研究问题之一，现有技术中对违规图像的识别主要采用如下方法：

（1）基于手工提取特征的方式，该种方式主要针对图像底层特征（例如RGB、HOG、SIFT、SURF、SILTP等）的提取，处理相对简单，无需学习与训练；

（2）基于卷积神经网络的深度模型识别图像，但现有的深度模型均采用单一图像模态的方式对图像进行识别。

第一种方式没有考虑高层次特征，具有识别精度低的问题。第二种方式存在无法识别文本违规的图像，不能保证图像识别的精度及鲁棒性。

发明内容

本文用于解决现有的违规图像识别方法未考虑高层次特征，且无法识别文本违规的图像，具有识别精度低及鲁棒性差的问题。

为了解决上述技术问题，本文的第一方面提供一种违规图像识别方法，包括：

分析待识别图像，得到文本信息及图像信息；

将所述文本信息输入至文本特征提取模型中，得到文本特征向量组；

将所述图像信息输入至图像特征提取模型中，得到图像特征向量组；

将所述文本特征向量组及所述图像特征向量组输入至特征融合模型中，得到融合特征向量组，其中，所述特征融合模型用于利用交叉注意力机制使得文本特征向量组中的向量为图像特征向量组中的向量添加注意力；

将所述融合特征向量输入至分类识别模型中，得到违规识别结果；

其中，所述文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型利用具有违规识别标签的图像训练得到。

作为本文的进一步实施例中，所述文本特征提取模型包括：第一嵌入层及多个第一Transformer层；

将所述文本信息输入至文本特征提取模型中，得到文本特征向量组，包括：

利用所述第一嵌入层对所述文本信息进行分词划分处理得到分词结果，在所述分词结果的开头添加开始符号以及在所述分词结果的结尾添加结束符号，将包含开始符号及结束符号的分词结果中的每一字符分别转换为一个d维度向量；

利用所述多个第一Transformer层学习所述第一嵌入层输出结果中每一符号语义关联性，得到文本特征向量组。

作为本文的进一步实施例中，所述图像特征提取模型包括：第二嵌入层及多个第二Transformer层；

将所述图像信息输入至图像特征提取模型中，得到图像特征向量组，包括：

利用所述第二嵌入层对所述图像信息进行缩放处理得到第一预定大小的图像，将缩放后的图像切分为第二预定大小的子图像，将各子图像分别转换为一个d维度向量；

利用所述多个第二Transformer层学习第二嵌入层输出结果中每一子图像语义关联性，得到图像特征向量组。

作为本文的进一步实施例中，所述特征融合模型包括第一线性变换层、第二线性变换层、第三线性变换层、第一关联层组、第二关联层组；

将所述文本特征向量组及所述图像特征向量组输入至特征融合模型中，得到融合特征向量组，包括：

利用所述第一线性变换层对所述文本特征向量组进行变换，得到键向量组；

利用所述第二线性变换层对所述文本特征向量组进行变换，得到值向量组；

利用所述第三线性变换层对所述图像特征向量组进行变换，得到查询向量组；

利用所述第一关联层组并根据所述查询向量组及键向量组，计算得到注意力矩阵；

利用所述第二关联层组并根据所述注意力矩阵、所述值向量组及所述图像特征向量组，计算得到融合特征向量组。

作为本文的进一步实施例中，所述第一关联层组包括：第一计算层及归一化层；

利用所述第一计算层对所述查询向量组及键向量组进行乘积处理，得到注意力矩阵；

利用所述归一化层对所述注意力矩阵进行归一化处理。

作为本文的进一步实施例中，所述第二关联层组包括：第二计算层、第一残差连接与归一化层、第四线性变换层及第二残差连接与归一化层；

利用所述第二计算层对归一化后的注意力矩阵及所述值向量组进行相乘处理，得到第一中间向量组；

利用所述第一残差连接与归一化层将所述图像特征向量组作为残差添加至所述第一中间向量组中，并对添加残差后的向量组进行归一化处理，得到第二中间向量组；

利用所述第四线性变换层对所述第二中间向量组进行变换；

利用所述第二残差连接与归一化层将第二中间向量组作为残差添加至所述第四线性变换层输出的向量组中，并对添加残差后的向量组进行归一化处理，得到融合特征向量组。

作为本文的进一步实施例中，所述文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型训练过程包括：

获取多个历史图像样本及各历史图像样本的违规识别标签；

分析各历史图像样本，得到各样本的文本信息及图像信息；

初始化文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型中的参数；

根据各样本的文本信息及文本特征提取模型，得到各样本的文本特征向量组；

根据各样本的图像信息及图像特征提取模型，得到各样本的图像特征向量组；

将各样本的文本特征向量组及各样本的图像特征向量组输入至特征融合模型中，得到各样本的融合特征向量组；

将各样本的融合特征向量组输入至分类识别模型中，得到各样本的违规识别结果；

根据各样本的违规识别结果及相应的违规识别标签，建立二分类损失函数；

利用二分类损失函数训练所述文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型中的参数。

作为本文的进一步实施例中，所述文本特征提取模型及图像特征提取模型中的参数利用CLIP预训练模型初始化；

所述特征融合模型中的参数利用图像特征提取模型的参数初始化；

所述分类识别模型中的参数利用Xvaier初始化。

本文的第二方面提供一种违规图像识别系统，包括：图像识别模型、文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型；

所述图像识别模型用于接收待识别图像，分析所述待识别图像得到文本信息及图像信息；

所述文本特征提取模型连接所述图像识别模型，用于提取文本信息中的特征，得到文本特征向量组；

所述图像特征提取模型连接所述图像识别模型，用于提取图像信息中的特征，得到图像特征向量组；

所述特征融合模型连接所述文本特征提取模型及图像特征提取模型，用于利用交叉注意力机制使得文本特征向量组中的向量为图像特征向量组中的向量添加注意力，从而得到融合特征向量组；

所述分类识别模型连接所述特征融合模型，用于根据融合特征向量组，得到违规识别结果。

作为本文进一步实施例中，所述文本特征提取模型包括：第一嵌入层及多个第一Transformer层；

所述第一嵌入层用于对所述文本信息进行分词划分处理得到分词结果，在所述分词结果的开头添加开始符号以及在分词结果的结尾添加结束符号，将包含开始符号及结束符号的分词结果中的每一字符分别转换为一个d维度向量；

所述多个第一Transformer层用于学习所述第一嵌入层输出结果中每一符号语义关联性，得到文本特征向量组。

作为本文进一步实施例中，所述图像特征提取模型包括：第二嵌入层及多个第二Transformer层；

所述第二嵌入层用于对所述图像信息进行缩放处理得到第一预定大小的图像，将缩放后的图像切分为第二预定大小的子图像，将各子图像分别转换为一个d维度向量；

所述多个第二Transformer层用于学习第二嵌入层输出结果中每一子图像语义关联性，得到图像特征向量组。

作为本文进一步实施例中，所述特征融合模型包括第一线性变换层、第二线性变换层、第三线性变换层、第一关联层组、第二关联层组；

所述第一线性变换层用于对所述文本特征向量进行变换，得到键向量组；

所述第二线性变换层用于对所述文本特征向量组进行变换，得到值向量组；

所述第三线性变换层用于对所述图像特征向量组进行变换，得到查询向量组；

所述第一关联层组用于根据所述查询向量及键向量，计算得到注意力矩阵组；

所述第二关联层组用于根据所述注意力矩阵、所述值向量组及图像特征向量组，计算得到融合特征向量组。

作为本文进一步实施例中，所述第一关联层组包括：第一计算层及归一化层；

所述第一计算层用于对所述查询向量组及键向量组进行乘积处理，得到注意力矩阵；

所述归一化层用于对所述注意力矩阵进行归一化处理。

作为本文进一步实施例中，所述第二关联层组包括：第二计算层、第一残差连接与归一化层、第四线性变换层及第二残差连接与归一化层；

所述第二计算层用于对归一化后的注意力矩阵及所述值向量组进行相乘处理，得到第一中间向量组；

所述第一残差连接与归一化层用于将所述图像特征向量组作为残差添加至所述第一中间向量组中，并对添加残差后的向量组进行归一化处理，得到第二中间向量组；

所述第四线性变换层用于对所述第二中间向量组进行变换；

所述第二残差连接与归一化层用于将第二中间向量组作为残差添加至所述第四线性变换层输出的向量组中，并对添加残差后的向量组进行归一化处理，得到融合特征向量组。

本文第三方面提供一种计算机设备，包括存储器、处理器、以及存储在所述存储器上的计算机程序，所述计算机程序被所述处理器运行时，执行前述任一实施例所述方法的指令。

本文提供的违规图像识别方法及系统，通过预先利用具有违规识别标签的图像训练得到文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型，其中，特征融合模型用于利用交叉注意力机制使得文本特征向量组中的向量为图像特征向量组中的向量添加注意力，能够根据文本特征提取模型、图像特征提取模型提取图像的多模态特征（图像特征及文本特征），根据特征融合模型将文本特征向量组及图像特征向量组相互作用，得到图像识别任务更重要、更准确的融合特征向量组，进而根据图像特征向量组得到准确的得到违规识别结果。本文充分利用图像中文本特征与图像特征，使用交叉注意力机制融合两种模态特征，可以有效提升违规图像识别的性能及鲁棒性。

为让本文的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本文实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本文的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本文实施例违规图像应用系统的结构图；

图2示出了本文实施例违规图像识别方法的流程图；

图3示出了本文实施例待识别图像的示意图；

图4示出了本文实施例文本特征提取模型的网络结构图；

图5示出了本文实施例图像特征提取模型的网络结构图；

图6示出了本文实施例特征融合模型的网络结构图；

图7示出了本文实施例特征融合模型的工作流程图；

图8示出了本文实施例第一关联层组的网络结构图；

图9示出了本文实施例第二关联层组的网络结构图；

图10示出了本文实施例各模型训练过程的流程图；

图11示出了本文实施例违规图像识别系统的结构图；

图12示出了本文实施例计算机设备的结构图。

附图符号说明：

110、识别设备；

120、数据库；

130、客户端；

401、第一嵌入层；

402、第一Transformer层；

501、第二嵌入层；

502、第二Transformer层；

601、第一线性变换层；

602、第二线性变换层；

603、第三线性变换层；

604、第一关联层组；

605、第二关联层组；

801、第一计算层；

802、归一化层；

901、第二计算层；

902、第一残差连接与归一化层；

903、第四线性变换层；

904、第二残差连接与归一化层；

1101、图像识别模型；

1102、文本特征提取模型；

1103、图像特征提取模型；

1104、特征融合模型；

1105、分类识别模型；

1204、处理器；

1206、存储器；

1208、驱动机构；

1210、输入/输出模块；

1212、输入设备；

1214、输出设备；

1216、呈现设备；

1218、图形用户接口；

1220、网络接口；

1222、通信链路；

1224、通信总线。

具体实施方式

下面将结合本文实施例中的附图，对本文实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本文一部分实施例，而不是全部的实施例。基于本文中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本文保护的范围。

需要说明的是，本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或装置产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。

需要说明的是，本文的违规图像识别方法及系统可用于任何领域的内容审核平台对违规图像的识别，违规图像可根据内容审核平台需求进行设定，对于互联网而言，违规图像通常指色情或低俗图像，比如正常的美女图像上含有微信号等信息。

需要说明的是，本申请所涉及的图像均为经用户授权或者经过各方充分授权的信息和数据。

现有技术中存在大量违规图像，例如互联网，对于违规图像的识别通常采用手工提取特征的方式及卷积神经网络的深度模型识别得到，手工提取特征的方式没有考虑高层次特征，具有识别精度低的问题，深度模型识别的方式仅能识别单一模态的图像，对文本违规的图像不能保证识别精度及鲁棒性。基于此，本文提供一种违规图像应用系统，如图1所示，包括：识别设备110及数据库120。

识别设备110用于获取待识别图像，实施时，识别设备110可直接从互联网的url爬取待识别图像，或从本地获取待识别图像。一些实施方式中，识别设备110例如为远端服务器，识别设备110还可接收客户端130上传的待识别图像，本文对待识别图像的来源方式不做限定。在本说明书一些实施例中，所述客户端130可以为台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备等。其中，智能可穿戴设备可以包括智能手环、智能手表、智能眼镜、智能头盔等。当然，所述客户端并不限于上述具有一定实体的电子设备，其还可以为运行于上述电子设备中的软件。

识别设备110还用于分析待识别图像，得到文本信息及图像信息；从数据库120调用文本特征提取模型，将文本信息输入至文本特征提取模型中，得到文本特征向量组，其中，文本特征向量组包含M个维度为d的文本特征向量，M和d为正整数，M为文本文字个数；从数据库120调用图像特征提取模型，将图像信息输入至图像特征提取模型中，得到图像特征向量组，其中，图像特征向量组包含N个维度为d的图像特征向量，N为图像patch数目；从数据库120调用特征融合模型，将文本特征向量组及所述图像特征向量组输入至特征融合模型中，得到融合特征向量组，其中，融合特征向量组包含N个维度为d的融合特征向量，特征融合模型用于利用交叉注意力机制使得文本特征向量组中的向量为图像特征向量组中的向量添加注意力；从数据库120调用分类识别模型，将融合特征向量组输入至分类识别模型中，得到违规识别结果。识别设备110可将识别结果发送至相关人员或处理程序，以便进一步处理违规图像（例如删除，打马赛克处理等）。

其中，文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型利用具有违规识别标签的图像样本集训练得到。

实施时，可由识别设备110或其它计算设备利用具有违规识别标签的历史图像训练得到文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型。历史图像的违规识别标签可由现有图像识别算法进行初步识别，由人工复查的方式得到。

数据库120用于存储文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型（模型架构及参数）。数据库120还用于存储获取的待识别图像以及待识别图像的违规识别结果。

各模型的具体实施过程以及训练过程可参考后续实施例，此处不再详述。

本实施例通过预先利用具有违规识别标签的图像样本集训练得到文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型，其中，特征融合模型用于利用交叉注意力机制使得文本特征向量为图像特征向量添加注意力，能够根据文本特征提取模型、图像特征提取模型提取图像的多模态特征（图像特征及文本特征），根据特征融合模型将文本特征向量及图像特征向量相互作用，得到图像识别任务更重要、更准确的融合特征向量，进而根据图像特征向量得到准确的得到违规识别结果。

本文一实施例中，还提供一种违规图像识别方法，该方法可以运行于独立数据来源的第三方系统、智能终端，包括智能手机、平板电脑、台式计算机等。具体的，如图2所示，违规图像识别方法包括：

步骤201，分析待识别图像，得到文本信息及图像信息；

步骤202，将文本信息输入至文本特征提取模型中，得到文本特征向量组，其中，文本特征向量组中包含M个维度为d的文本特征向量，M、d为正整数，M表示文本中文字个数；

步骤203，将图像信息输入至图像特征提取模型中，得到图像特征向量组，其中，图像特征向量组包含N个维度为d的图像特征向量，N为正整数，N表示图像patch数目；

步骤204，将文本特征向量组及所述图像特征向量组输入至特征融合模型中，得到融合特征向量，其中，特征融合模型用于利用交叉注意力机制使得文本特征向量组中的向量为图像特征向量组中的向量添加注意力，从而对图像特征中与文本特征联系密切的信息给予更大的关注；

步骤205，将融合特征向量组输入至分类识别模型中，得到违规识别结果；

其中，文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型利用具有违规识别标签的图像训练得到。

步骤201实施时，可利用现有的OCR（Optical Character Recognition，光学字符识别）模型识别图像，得到文本信息及图像信息，例如图3所示图像，利用OCR模型可以检测得到“依蝶外送茶Line：Yd68”。在识别待分析图像时，若存在文本数据，则步骤201同时返回文本信息和图像信息，若不存在文本数据，则步骤201仅返回图像信息。即使图像中不存在文本数据，通过OCR仅识别得到图像信息，因本文中的图像特征提取模型是基于多模态数据训练出来的，因此，与单一通过图像数据训练的模型相比，模型的泛化性能也更强。

步骤202得到的文本特征向量组可表示为T={t ₁ ,t ₂ ,……,t _i ,……,t _M }， t _i是一个维度为d的向量，M为文本信息中单词数目。步骤203得到的图像特征向量组可表示为Z={z ₁ , z ₂ ,……,z _i ,……,z _N }， z _i是一个维度为d的向量，N为图像patch数目（即一图像切分为的小图像的数量）。通常情况下，d的取值为768，当然，具体实施时，还可根据实际情况选择其它值，本文对d的取值不做具体限定。

步骤204中的特征融合模型采用交叉注意力机制能够实现文本特征向量及图像特征向量相互作用，并用这种相互关系对图像特征进行表示，以此获得更加有效的特征融合，实现融合图片多模态信息的识别任务。

步骤205中的分类识别模型为一全连接网络，输出的违规识别结果包括违规及正常，具体实施时，例如用1表示违规，用0表示正常。

本文一实施例中，为了解决长期依赖问题以及提升并行训练速度，如图4所示，文本特征提取模型包括：第一嵌入层401及多个第一Transformer层402，其中，第一Transformer层402的个数可根据实际情况进行调整。

将文本信息输入至文本特征提取模型中，得到文本特征向量组，包括：

（1）利用第一嵌入层401对文本信息进行分词划分处理得到分词结果，每一分词为一token，在分词结果的开头添加开始符号（即类标识）以及在分词结果的结尾添加结束符号，将包含开始符号及结束符号的分词结果中的每一字符转换为一个d维度向量。

其中，第一嵌入层401包括分词器（tokennization）、符号嵌入层（tokenembedding）、段嵌入层（segment embedding）及位置嵌入层（position embedding）。下面以图3得到的文本信息为例说明第一嵌入层401的工作过程。

分词器将文本信息中的单词/几个连续词和标点划分为单一符号，例如将文本“依蝶外送茶”划分为“‘依’，‘蝶’‘外’，‘送’，‘茶’，‘Line’，‘：’，‘Y’，‘d’，‘6’，‘8’”，此外，开始符号[CLS]及结束符号[SEP]被插入到分词结果的开头和结尾。

token embedding将分词结果中的每个词转换成固定维度（d）的向量，通常d=768。上一实例中的13个token（包含开头[CLS]和结尾[SEP]）被转换成一(13,768)的矩阵。

segment embedding用于区分文本信息中的第一句和第二句。segment embedding中只有 0 和 1两个值，第一句所有的分词结果（包括[CLS]和紧随第一句的[SEP]）的segment embedding的值为0，第二句所有的token（包括紧随第二句的[SEP]）的segmentembdding的值为1。在本文的文本特征提取器中只有一个句子，统一将所有分词结果对应的segment embedding设置为一个固定值（模型训练时，会学习到这个值），因此segmentembdding输出为一个(13,768)的矩阵。

position embedding用于区分不同位置的同一个词应该有着不同的向量表示，通过学习可以得到不同位置的一个向量来表示序列顺序的信息编码，position embedding输出为(13,768)的矩阵。

这样，将token embedding、segment embdding和position embedding相加起来，可以得到一个(13,768)的矩阵，即文本特征向量组，为了处理方便，将其按照批次数（batchsize=1）为1转换成一个（1,13,768）的张量。最终通过文本特征提取器的embedding层后，会得到一个维度为（1,13,768）的张量。

（2）利用多个第一Transformer层402学习第一嵌入层401输出结果中每一符号语义关联性，得到文本特征向量组。

继续上一举例，将第一嵌入层401得到的（1,13,768）张量作为第一Transformer层402的输入，通过多层transformer层，最终会输出一个（1,13,768）张量，即批次数为1，13个词“‘[CLS]’‘依’，‘蝶’‘外’，‘送’，‘茶’，‘Line’，‘：’，‘Y’，‘d’，‘6’，‘8’，‘[SEP]’”中各个词对应768维的特征。

本文一实施例中，类似于自然预处理，为了捕获到图像中子图像之间局部和全局依赖关系，如图5所示，图像特征提取模型包括：第二嵌入层501及多个第二Transformer层502。

将图像信息输入至图像特征提取模型中，得到图像特征向量组，包括：

（1）利用第二嵌入层501对图像信息进行缩放处理得到第一预定大小的图像，将缩放后的图像切分为第二预定大小的子图像，并将子图像转换为d维度向量。其中，第一预定大小大于第二预定大小，第一预定大小及第二预定大小的具体值可根据需求进行设定。

其中，第二嵌入层501包括缩放单元、划分单元、线性变换单元，缩放单元用于对图像进行缩放处理，划分单元用于将缩放后图像划分为固定大小的子图像，线性变换单元用于将子图像变换固定维度d的向量。

例如对待识别图像进行缩放处理得到尺寸大小为224×224的图像；将缩放后的图像按照16×16切分成196的patch，每一patch对应大小为16×16的图像，参考文本特征提取模型，patch对应上文提到的token，最终得到196张大小为16×16的图像，将其变换张量形式可以表示为（1,196,3,16,16），分别对应（批次数，patch数，RGB通道数，图像长度，图像宽度）；将张量（1,196,3,16,16）通过线性变换单元变换为（1,196,768），分别对应（批次数，patch数，特征维度）；类似于文本处理，也在开头加入开始符号[CLS]，得一（1,197,768）的张量。

具体实施时，为了提高模型的泛化能力，还可对各子图像进行图像增强、变换等预处理。

（2）利用多个第二Transformer层502学习第二嵌入层501输出结果中每一子图像语义关联性，得到图像特征向量。

继续上一举例，将第二嵌入层501得到的（1,197,768）张量作为第二Transformer层502的输入，通过多个第二Transformer层502，最终会输出一个（1,197,768）张量，即批次数为1，197个patch对应768维的特征。

本文一实施例中，如图6所示，特征融合模型包括第一线性变换层601、第二线性变换层602、第三线性变换层603、第一关联层组604、第二关联层组605。

如图7所示，将文本特征向量组及所述图像特征向量组输入至特征融合模型中，得到融合特征向量，包括：

步骤701，利用第一线性变换层601对文本特征向量组进行线性变换，得到键向量组；

步骤702，利用第二线性变换层602对文本特征向量组进行线性变换，得到值向量组；

步骤703，利用第三线性变换层603对图像特征向量组进行线性变换，得到查询向量组；

步骤704，利用第一关联层组604根据查询向量组及键向量组，计算得到注意力矩阵；

步骤705，利用第二关联层组605根据注意力矩阵、值向量组及图像特征向量组，计算得到融合特征向量组。

其中，键向量组及值向量组对应编码器，查询向量组对应解码器，键向量组及值向量组来自于文本信息，查询向量组来自于图像特征，注意力矩阵表示文本对图像添加注意力后的图像注意力得分。融合特征向量表示图像与文本特征融合的特征。

步骤701实施例，第一线性变换层601例如为前馈神经网络（Feedforward neuralnetwork，FFN），第一线性变换层601对应的权重矩阵W _K，可通过如下公式计算得到键向量组K：

K=W _K T；

其中，T为文本特征向量组，W _K为第一线性变换层的权重矩阵。

步骤702实施时，第二线性变换层602同样也可以为FFN，对应的权重矩阵W _V，可通过如下公式计算得到值向量组V：

V=W _V T；

其中，T为文本特征向量组，W _V为第二线性变换层的权重矩阵。

步骤703实施时，第三线性变换层603同样可以为FFN，对应的权重矩阵W _Q，可通过如下公式计算得到值向量组Q：

Q=W _Q Z；

其中，Z为文本特征向量组，W _Q为第三线性变换层的权重矩阵。

步骤704实施时，如图8所示，第一关联层组604包括：第一计算层801及归一化层802。

第一计算层801利用如下公式结合查询向量组及键向量组得到注意力矩阵Matrix：

；

归一化层802选用softmax函数，用于得到符合概率分布取值区间的注意力分配概率分布数值。

步骤705实施时，如图9所示，第二关联层组605包括：第二计算层901、第一残差连接与归一化层902、第四线性变换层903及第二残差连接与归一化层904。

第二计算层901用于对归一化后的注意力矩阵及值向量组进行相乘处理，得到第一中间向量组。

第一残差连接与归一化层902将图像特征向量组作为残差添加至第一中间向量组中，并对添加残差后的向量组进行归一化处理，得到第二中间向量组。具体的，第一残差连接与归一化层902的表达式如下：

；

其中，Z _c为第二中间变量组，LN(.)为归一化层的变换函数，

为softmax归一化层802变换函数，

为第一中间向量组，

为注意力矩阵，V为值向量组，Z为图像特征向量组。

第四线性变换层903为全神经网络，用于对第二中间向量组进行变换。

第二残差连接与归一化层904将第二中间向量组作为残差添加至第四线性变换层输出的向量组中，并对添加残差后的向量组进行归一化处理，得到融合特征向量组。具体的，融合后特征表示为：

其中，Z _a为融合特征向量组，MLP(.)为全神经网络的变换函数，LN(.)为为归一化层的变换函数，Z _c为第二中间变量组。

本实施例通在计算层及线性变换层后分别设置残差连接能够解决梯度消失和权重矩阵退化问题，通过设置归一化层能防止梯度爆炸和梯度消失，还可以提升模型训练速度，保证数据特征分布的稳定性。

本文一实施例中，如图10所示，文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型训练过程包括：

步骤1001，获取多个历史图像样本及各历史图像样本的违规识别标签；

步骤1002，分析各历史图像样本，得到各样本的文本信息及图像信息；

步骤1003，初始化文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型中的参数；

步骤1004，根据各样本的文本信息及文本特征提取模型，得到各样本的文本特征向量组；

步骤1005，根据各样本的图像信息及图像特征提取模型，得到各样本的图像特征向量组；

步骤1006，将各样本的文本特征向量组及各样本的图像特征向量组输入至特征融合模型中，得到各样本的融合特征向量组；

步骤1007，将各样本的融合特征向量组输入至分类识别模型中，得到各样本的违规识别结果；

步骤1008，根据各样本的违规识别结果及相应的违规识别标签，建立二分类损失函数；

步骤1009，利用二分类损失函数训练所述文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型中的参数。

具体实施时，步骤1001获取的历史图像样本中包含正负样本，每一样本均包含文字数据，正样本指的是图像及文字均不含有违规信息的样本，负样本指的是图像或文字含有违规信息（例如违规字，违规图像）的样本。正负样本比例可根据实际情况进行设定。历史图像样本的违规识别标签可用0，1表示，例如0表示为正常图像，1为违规图像。

为了提高模型训练速度避免所有输出值均区域0的现象，上述步骤1003实施时，利用CLIP预训练模型初始化文本特征提取模型及图像特征提取模型中的参数，利用图像特征提取模型的参数初始化特征融合模型中的参数（参数更新时使用反向传播算法实现），利用Xvaier初始化分类识别模型中的参数。

CLIP预训练模型及Xvaier实施过程可参考现有技术，本文对此不作限定。

步骤1008建立的二分类损失函数可参考现有技术，本文对其具体表达式不作限定。

通过上述过程将训练好的各模型的参数加载到各模型中，输入待识别图像会得到待识别图像的违规识别结果，即正常图像或违规图像。

本文一实施例中，还提供一种违规图像识别系统，如图11所示，包括：图像识别模型1101、文本特征提取模型1102、图像特征提取模型1103、特征融合模型1104及分类识别模型1105。

图像识别模型1101用于接收待识别图像，分析待识别图像得到文本信息及图像信息；

文本特征提取模型1102连接图像识别模型1101，用于提取文本信息中的特征，得到文本特征向量组；

图像特征提取模型1103连接图像识别模型1101，用于提取图像信息中的特征，得到图像特征向量组；

特征融合模型1104连接文本特征提取模型1102及图像特征提取模型1103，用于利用交叉注意力机制使得文本特征向量组中的向量为图像特征向量组中的向量添加注意力，从而得到融合特征向量；

分类识别模型1105连接特征融合模型1104，用于根据融合特征向量组，得到违规识别结果；

其中，文本特征提取模型1102、图像特征提取模型1103、特征融合模型1104及分类识别模型1105利用具有违规识别标签的图像训练得到，具体训练过程可参考图10所示实施例。

本实施例通过预先利用具有违规识别标签的图像训练得到文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型，能够根据文本特征提取模型、图像特征提取模型提取图像的多模态特征，根据特征融合模型将文本特征向量组及图像特征向量组相互作用，得到图像识别任务更重要、更准确的融合特征向量组，进而根据图像特征向量组得到准确的得到违规识别结果。本文充分利用图像中文本特征与图像特征，使用交叉注意力机制融合两种模态特征，可以有效提升违规图像识别的性能及鲁棒性。

本文一实施例中，参考图4所示，文本特征提取模型包括：第一嵌入层401及多个第一Transformer层402。

第一嵌入层401用于对文本信息进行分词划分处理得到分词结果，每一分词为一token，在分词结果的开头添加开始符号以及在分词结果的结尾添加结束符号，将包含开始符号及结束符号的分词结果中的每一字符分别转换为一个d维度向量。

多个第一Transformer层402用于学习第一嵌入层401输出结果中每一符号语义关联性，得到文本特征向量组。

参考图5所示，图像特征提取模型包括：第二嵌入层501及多个第二Transformer层502。

第二嵌入层501用于对图像信息进行缩放处理得到第一预定大小的图像，将缩放后的图像切分为第二预定大小的子图像，并将每一子图像分别转换为一个d维度向量

多个第二Transformer层502用于学习第二嵌入层501输出结果中每一子图像语义关联性，得到图像特征向量组。

参考图6所示，特征融合模型包括第一线性变换层601、第二线性变换层602、第三线性变换层603、第一关联层组604、第二关联层组605。

第一线性变换层601用于对文本特征向量组进行线性变换，得到键向量组；

第二线性变换层602用于对文本特征向量组进行线性变换，得到值向量组；

第三线性变换层603用于对图像特征向量组进行线性变换，得到查询向量组；

第一关联层组604用于根据查询向量组及键向量组，计算得到注意力矩阵；

第二关联层组605用于根据注意力矩阵、值向量组及图像特征向量组，计算得到融合特征向量组。

参考图8所示，第一关联层组604包括：第一计算层801及归一化层802。

第一计算层801用于对查询向量及键向量组进行乘积处理，得到注意力矩阵。归一化层802用于对注意力矩阵进行归一化处理。

参考图9所示，第二关联层组605包括：第二计算层901、第一残差连接与归一化层902、第四线性变换层903及第二残差连接与归一化层904。

第二计算层901用于对所述归一化后的注意力矩阵及所述值向量组进行相乘处理，得到第一中间向量组；

第一残差连接与归一化层902用于将所述图像特征向量组作为残差添加至所述第一中间向量组中，并对添加残差后的向量组进行归一化处理，得到第二中间向量组；

第四线性变换层903用于对所述第二中间向量组进行变换；

第二残差连接与归一化层904用于将第二中间向量组作为残差添加至所述第四线性变换层输出的向量组中，并对添加残差后的向量组进行归一化处理，得到融合特征向量组。

本文提供的违规图像识别方法及系统充分利用图像中文本与图像特征，使用交叉注意力机制融合两种模态特征，可以有效提升违规图像识别装置的性能，同时具有好的鲁棒性。

本文一实施例中，还提供一种计算机设备用于执行上述实施例所述方法的程序，具体的，如图12所示，计算机设备可以包括一个或多个处理器1204，诸如一个或多个中央处理单元(CPU)，每个处理单元可以实现一个或多个硬件线程。计算机设备还可以包括任何存储器1206，其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的，比如，存储器1206可以包括以下任一项或多种组合：任何类型的RAM，任何类型的ROM，闪存设备，硬盘，光盘等。更一般地，任何存储器都可以使用任何技术来存储信息。进一步地，任何存储器可以提供信息的易失性或非易失性保留。进一步地，任何存储器可以表示计算机设备的固定或可移除部件。在一种情况下，当处理器1204执行被存储在任何存储器或存储器的组合中的相关联的指令时，计算机设备可以执行相关联指令的任一操作。计算机设备还包括用于与任何存储器交互的一个或多个驱动机构1208，诸如硬盘驱动机构、光盘驱动机构等。

计算机设备还可以包括输入/输出模块1210（I/O），其用于接收各种输入(经由输入设备1212)和用于提供各种输出(经由输出设备1214))。一个具体输出机构可以包括呈现设备1216和相关联的图形用户接口1218 (GUI)。在其他实施例中，还可以不包括输入/输出模块1210（I/O）、输入设备1212以及输出设备1214，仅作为网络中的一台计算机设备。计算机设备还可以包括一个或多个网络接口1220，其用于经由一个或多个通信链路1222与其他设备交换数据。一个或多个通信总线1224将上文所描述的部件耦合在一起。

通信链路1222可以以任何方式实现，例如，通过局域网、广域网(例如，因特网)、点对点连接等、或其任何组合。通信链路1222可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。

对应于图2、图8、图10中的方法，本文实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法的步骤。

本文实施例还提供一种计算机可读指令，其中当处理器执行所述指令时，其中的程序使得处理器执行如图2、图8、图10所示的方法。

应理解，在本文的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本文实施例的实施过程构成任何限定。

还应理解，在本文实施例中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本文的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本文所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。

另外，在本文各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本文的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

本文中应用了具体实施例对本文的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本文的方法及其核心思想；同时，对于本领域的一般技术人员，依据本文的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本文的限制。

Claims

1.一种违规图像识别方法，其特征在于，包括：

分析待识别图像，得到文本信息及图像信息；

将所述融合特征向量组输入至分类识别模型中，得到违规识别结果；

其中，所述文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型利用具有违规识别标签的图像训练得到；

所述特征融合模型包括：第一线性变换层、第二线性变换层、第三线性变换层、第一关联层组、第二关联层组；

2.如权利要求1所述的方法，其特征在于，所述文本特征提取模型包括：第一嵌入层及多个第一Transformer层；

3.如权利要求1所述的方法，其特征在于，所述图像特征提取模型包括：第二嵌入层及多个第二Transformer层；

4.如权利要求1所述的方法，其特征在于，所述第一关联层组包括：第一计算层及归一化层；

利用所述归一化层对所述注意力矩阵进行归一化处理。

5.如权利要求4所述的方法，其特征在于，所述第二关联层组包括：第二计算层、第一残差连接与归一化层、第四线性变换层及第二残差连接与归一化层；

利用所述第四线性变换层对所述第二中间向量组进行变换；

6.如权利要求1所述的方法，其特征在于，所述文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型训练过程包括：

获取多个历史图像样本及各历史图像样本的违规识别标签；

分析各历史图像样本，得到各样本的文本信息及图像信息；

7.如权利要求6所述的方法，其特征在于，所述文本特征提取模型及图像特征提取模型中的参数利用CLIP预训练模型初始化；

所述分类识别模型中的参数利用Xvaier初始化。

8.一种违规图像识别系统，其特征在于，包括：图像识别模型、文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型；

所述分类识别模型连接所述特征融合模型，用于根据融合特征向量组，得到违规识别结果；

9.一种计算机设备，包括存储器、处理器、以及存储在所述存储器上的计算机程序，其特征在于，所述计算机程序被所述处理器运行时，执行根据权利要求1-7任意一项所述方法的指令。