CN117333878A

CN117333878A - 一种基于图文识别的敏感信息检测方法

Info

Publication number: CN117333878A
Application number: CN202311297883.2A
Authority: CN
Inventors: 李鹏; 李伟; 郑宇宁; 陈金镛; 谭高升; 马明杰
Original assignee: Beijing Jinghang Computing Communication Research Institute
Current assignee: Beijing Jinghang Computing Communication Research Institute
Priority date: 2023-10-09
Filing date: 2023-10-09
Publication date: 2024-01-02

Abstract

本发明涉及一种基于图文识别的敏感信息检测方法，属于图像处理及自然语言处理领域。方法包括：获取待识别图像；将所述待识别图像输入训练好的图文识别模型得到所述待识别图像中所含文本信息；其中，所述图文识别模型用于基于待识别图像中的图像特征和语义特征融合后得到所述待识别图像中的文字信息，包括：基础特征提取模块、视觉特征处理模块、自适应多层语义融合模块和文字识别模块；将所述待识别图像中所含的文字信息与敏感信息库的数据做信息匹配得到检测结果；其中，检测结果为包含敏感信息和不包含敏感信息。实现了有效提取图像的视觉特征与语义特征，进而提升敏感信息检测的精准度。

Description

一种基于图文识别的敏感信息检测方法

技术领域

本发明涉及敏感信息检测领域，尤其涉及一种基于图文识别的敏感信息检测方法。

背景技术

近年来，随着互联网技术的飞速发展和无纸化办公的兴起，人们获取图像的方式变得越来越便捷和多样化。而在一些特定应用场合与领域，图片中往往混杂有一些敏感文本信息，如果大量包含敏感文本信息的图像在网络上的传播，会对社会的稳定发展产生一定的负面影响，给网络信息监管部门带来了巨大挑战。

相对于传统检测技术不能像处理文本信息一样直接对图像进行匹配检测，而人工检测又费时费力、难以应对数据量的爆发式增长，现有敏感信息检测方法通过引入目标检测网络自主提取图像特征和文本信息的识别，在一定程度上提升了敏感信息的检测精度和效率。然而，现有敏感信息检测方法仅仅根据提取到的视觉特征来识别文本信息，由于视觉特征与文本特征之间存在巨大的语义鸿沟，因此现有敏感信息检测方法往往会出现误检和漏检的现象。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种基于图文识别的敏感信息检测方法，用以解决现有敏感信息检测方法仅仅根据提取到的视觉特征来识别文本信息出现误检和漏检的问题。

本发明的目的主要是通过以下技术方案实现的：

本发明提供了一种基于图文识别的敏感信息检测方法，包括如下步骤：

获取待识别图像；

将所述待识别图像输入训练好的图文识别模型得到所述待识别图像中所含文本信息；其中，所述图文识别模型用于基于待识别图像中的图像特征和语义特征融合后得到所述待识别图像中的文字信息，包括：基础特征提取模块、视觉特征处理模块、自适应多层语义融合模块和文字识别模块；

将所述待识别图像中所含的文字信息与敏感信息库的数据做信息匹配得到检测结果；其中，检测结果为包含敏感信息和不包含敏感信息。

进一步的，所述将所述待识别图像中所含的文字信息与敏感信息库的数据做信息匹配，包括：

所述敏感信息库包括26个以首字母为表名的敏感词表，以存储需要检测的敏感词；

获取所述待识别图像中所含的文字信息首字母，检索所述首字母对应的敏感词表，得到是否含有敏感信息的检测结果。

进一步的，将所述待识别图像输入训练好的图文识别模型，包括：

将所述待识别图像输入所述图文识别模型的基础特征提取模块，获取待处理图像的初始视觉特征F₀；

将所述初始视觉特征F₀输入所述图文识别模型的视觉特征处理模块与所述图文识别模型的自适应多层语义融合模块，分别得到更加精细的视觉特征F_v与语义特征F_s；

将所述视觉特征F_v与所述语义特征F_s输入所述图文识别模型的文字识别模块，得到所述待识别图像中所含文本信息。

进一步的，所述将所述初始视觉特征F₀输入所述图文识别模型的视觉特征处理模块得到更加精细的视觉特征F_v，其中：

所述初始视觉特征F₀通过所述视觉特征处理模块的特征通道聚合模块的聚类操作融合关注区域相近的特征；

将通过特征通道聚合模块融合后的视觉特征通过所述视觉特征处理模块的最大池化层扩大感受野；

经过所述最大池化层处理的视觉特征通过所述视觉特征处理模块的前向传播层的两个全连接层进行加权求和以及通过LeakyRelu激活函数的处理得到更加精细的视觉特征F_v。

进一步的，所述初始视觉特征F₀通过所述视觉特征处理模块的特征通道聚合模块的聚类操作融合关注区域相近的特征，包括：

所述初始视觉特征F₀通过所述特征通道聚合模块的卷积层提取所述初始视觉特征F₀的特征；

所述卷积层提取的特征通过所述特征通道聚合模块的全连接层进行通道级聚类；其中，通道数为所述卷积层提取的特征数；其公式如下：

F(.)＝[f₁(.),…,f_i(.),…,f_N(.)]

d_i(X)＝f_i(W×X)

d(X)＝[d₁,…,d_i,…,d_c]

其中，F(.)为聚类操作的结果；X为输入图像；f_i(.)为全连接层的输出；N为聚类簇数；W为参数；c为所获取的特征通道数；d(X)为所有通道的权重向量。

进一步的，将所述初始视觉特征F₀输入所述图文识别模型的自适应多层语义融合模块，得到语义特征F_s，包括：

将所述初始视觉特征F₀输入所述自适应多层语义融合模块的平均池化层进行全局感知视觉信息，得到全局视觉特征；

将所述初始视觉特征F₀分别输入所述自适应多层语义融合模块的膨胀率为1、2、4的空洞卷积提取不同尺度感受野特征；

将所述全局视觉特征和通过三个空洞卷积提取的不同感受野特征通过自适应权重进行加权求和后通过一个1×1的卷积层调节特征通道数得到所述语义特征F_s。

进一步的，所述将所述视觉特征F_v与所述语义特征F_s输入所述图文识别模型的文字识别模块，包括：

将所述视觉特征F_v输入所述文字识别模块的级联操作层使得输入特征在通道维度进行拼接得到拼接后的特征值；

将拼接后的特征值输入所述文字识别模块的第一个层级归一化模块，进行归一化操作，得到归一化特征F_n；

将所述语义特征F_s与归一化特征F_n输入所述文字识别模块的多头注意力模块进行融合处理得到输出特征F_a；

将所述输出特征F_a与所述归一化特征F_n输入所述文字识别模块的第二个层级归一化模块进行无纲量化处理，得到层级归一化特征F_m；

将所述层级归一化特征F_m输入所述文字识别模块的前向传播层，经过两个全连接层进行加权求和以及通过LeakyRelu激活函数的处理得到所述待处理图像中所含文本信息。

进一步的，所述将所述语义特征F_s与归一化特征F_n输入所述文字识别模块的多头注意力模块进行融合处理得到输出特征F_a，包括：

所述语义特征F_s作为第一个头的自注意力模块复制得到语义特征F_s′作为第二个头的自注意力模块；

所述第一个头的自注意力模块与第二个头的自注意力模块的转置做点乘后，除以语义特征F_s的特征维度做归一化处理；

所述归一化后结果通过softmax函数后与所述归一化特征F_n作为第三个头的自注意力模块进行矩阵相乘，得到输出特征F_a。

进一步的，所述将所述待识别图像输入所述图文识别模型的基础特征提取模块，包括；将所述待识别图像输入所述基础特征提取模块使用的VGG-16模型提取所述待识别图像的基础特征，获得待处理图像的初始视觉特征F₀。

进一步的，所述图文识别模型通过下述方法训练得到：

步骤S1、构建图文识别模型的训练数据集；所述训练数据集包括：样本图像及对应的样本图像中的文本信息；

步骤S2、基于所述训练数据集训练图文识别模型得到训练好的图文识别模型，包括：

加载所述训练数据集的待处理图片到基础特征提取模块中，经过视觉特征处理模块与自适应多层语义融合模块，得到视觉特征F_v和语义特征F_s；

加载所述训练数据集对应的文本信息作为标签与所述视觉特征F_v、语义特征F_s输入到图文识别模块得到图文识别结果；

使用交叉熵损失函数作为损失函数训练图文识别模型，通过反向传播和梯度下降优化算法，模型能够不断调整参数以最小化损失函数，训练结束后保存图文识别模型参数。

与现有技术相比，本发明至少可实现如下有益效果之一：

1、本发明将深度神经网络技术和图像文本信息提取技术相结合并应用到图像敏感信息检测中，充分发挥深度学习技术在图文识别中的优势，在图文识别中提出了特征通道聚合模块和自适应多层语义融合模块，有效弥合图像底层视觉特征和高层语义特征间的巨大鸿沟，进而提升图像敏感信息检测精度。

2、本发明在图文识别模型中构建了特征通道聚合模块，通过聚类操作将关注区域相近的特征融合为紧致、易区分的部分；该模块可以自适应地选择敏感区域进行感知识别，并使区域特征更为凸显。

3、本发明在图文识别模型中构建了自适应多层语义融合模块，通过模块中不同大小的感受野提取图像中不同语义信息，并通过训练使得模型自主学习得到相应的特征权重，从而提高语义识别的精确度。

4、本发明在图文识别模型构建时引入多头注意力机制，多头注意力模块提供了多个“表征空间”，可以使模型在不同位置上关注来自不同“表征空间”的信息，通过融合多个自注意力子模块，使得模型捕捉到更加丰富的特征信息，提高模型的泛化性。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实施例中一种基于图文识别的敏感信息检测方法流程示意图；

图2为本发明实施例中最大池化层操作示意图；

图3为本发明实施例中自适应多层语义融合模块结构图；

图4为本发明实施例中自注意力模块计算过程图；

图5为本发明实施例中文字识别模块中层归一化示意图

图6为本发明实施例中图文识别模型的构建方法的流程示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

本发明的一个具体实施例，公开了一种基于图文识别的敏感信息检测方法，如图1所示，包括以下步骤：

获取待识别图像；其中，使用网络爬虫对含有图片的网站进行图片抓取；所述图片的信息包括图片的链接以及图片名称；

进一步的，所述基础特征提取模块使用VGG-16模型，用于提取图像的基础特征，获取待处理图像的初始视觉特征F₀。

需要说明的是，所述VGG-16模型是一个预训练模型，已经在ImageNet数据库的一个子集上进行了训练；本实施例中，采用的预训练神经网络的层级结构如表1所示，能够对所述样本图像提取粗略特征。

表1预训练神经网络结构说明

需要说明的是，虽然卷积操作能够抽取图像中物体的视觉信息，但是单层特征中的有效信息偏少且难以聚焦，无法作为判定物体类别的直接依据。因此，本实施例的特征通道聚合模块通过聚类操作将关注区域相近的特征融合为紧致、易区分的部分，该模块可以自适应地选择敏感区域进行感知识别，并使区域特征更为凸显。

所述初始视觉特征F₀通过所述特征通道聚合模块的卷积层提取所述初始视觉特征F₀的特征；所述卷积层的通道数与所述基础特征提取模块的最后一层卷积层的输出通道数相同；本实施例中为512个视觉通道。

所述卷积层提取的特征通过所述特征通道聚合模块的全连接层进行通道级聚类，其可以在通道层面对特征图进行回归操作；其中，通道数为所述卷积层提取的特征数；其公式如下：

F(.)＝[f₁(.),…,f_i(.),…,f_N(.)]

d_i(X)＝f_i(W×X)

d(X)＝[d₁,…,d_i,…,d_c]

其中，F(.)为聚类操作的结果；X为输入图像；f_i(.)为全连接层的输出；N为聚类簇数，即生成的注意力区块数；W为参数；c为所获取的特征通道数，本实施例中特征通道数为512；d(X)为所有通道的权重向量，该向量可以将通道映射到不同的分组中。

需要说明的是，所述聚类簇数根据图像中的物体个数决定。

进一步的，如图2所示，将通过特征通道聚合模块融合后的视觉特征通过所述视觉特征处理模块的最大池化层扩大感受野；

进一步的，经过所述最大池化层处理的视觉特征通过所述视觉特征处理模块的前向传播层的两个全连接层进行加权求和以及通过LeakyRelu激活函数的处理得到比视觉特征F₀中的粗略特征更加精细的视觉特征F_v。

进一步的，如图3所示，将所述初始视觉特征F₀输入所述图文识别模型的自适应多层语义融合模块，得到语义特征F_s，包括：

具体的，所述平均池化层用于对初始视觉特征F₀从全局感知视觉信息，其步长为1，所以该结构并不改变特征尺寸。

需要说明的是，针对感受野不同的特征，通常的融合方式是将所有特征直接相加，这种方式的好处是简单易行、便于实现。然而，感受野较大的特征往往拥有较多的语义信息，其更有助于识别尺寸较大的物体；而感受野较小的特征通常会保留更多的物体结构信息，其更有利于识别尺寸较小的物体。也就是说，感受野不同的特征对最终结果的重要程度是不尽相同的。因此，为这些特征分配相应的权重是必要的。考虑到神经网络强大的拟合能力以及反向传播出众的优化能力，本实施例的自适应多层语义融合模块由模型自主学习特征权重。

需要说明的是，级联操作层将输入特征在通道维度进行拼接，不改变特征的长、宽尺寸，以保留特征的原始信息。

具体的，所述多头注意力模块提供了多个“表征空间”，可以使模型在不同位置上关注来自不同“表征空间”的信息。具体来讲，多头注意力机制通过融合多个自注意力子模块，使得模型捕捉到更加丰富的特征信息，提高模型的泛化性。

进一步的，如图4所示的自注意力模块的处理过程；所述将所述语义特征F_s与归一化特征F_n输入所述文字识别模块的多头注意力模块进行融合处理得到输出特征F_a，包括：

所述语义特征F_s作为第一个头的自注意力模块Q复制得到语义特征F_s′作为第二个头的自注意力模块K；

所述第一个头的自注意力模块Q与第二个头的自注意力模块的转置K^T做点乘后，除以语义特征F_s的特征维度做归一化处理；

所述归一化后结果通过softmax函数后与所述归一化特征F_n作为第三个头的自注意力模块V进行矩阵相乘，得到输出特征F_a，即为图中处理结果R。

进一步的，所述层归一化的主要作用是对输入特征进行无量纲化处理，使得不同维度(不同量纲)的特征具有可比性。这样做的原因是量纲的不同会导致计算结果的不同，尺度大(量纲大)的特征会起决定性作用，而尺度小(量纲小)的特征其作用可能会被忽略，为了消除特征间尺度差异的影响，使得每维特征都有相同的权重，因此需对特征进行归一化处理。

具体的，如图5所示，层归一化针对特征的所有维度计算均值μ和方差σ，并基于μ和σ对特征进行缩放。其中，x为缩放前的向量；y为缩放后的向量；γ和β为缩放和平移因子；本实施例中分别设置为0.3、0.4。

进一步的，所述将所述待识别图像中所含的文字信息与敏感信息库的数据做信息匹配得到检测结果，包括：

进一步的，如图6所示，所述图文识别模型通过下述方法训练得到：

步骤S1、构建图文识别模型的训练数据集；所述训练数据集包括：样本图像及对应的样本图像中的文本信息；样本图像包括自然场景文字图片、广告图片、视频截图等；通过人工识别得到其中的文本信息。

需要说明的是，在训练所述图文识别模型时，所述自适应多层语义融合模块由于习得的权重是没有被规约的，往往会导致训练的不稳定，为此，本实施例在训练时对所述习得的权重施加约束并表示如下：

其中，ω₁为平均池化层的权重；ω₂为膨胀率为1的空洞卷积权重；ω₃为膨胀率为2的空洞卷积权重；ω₄为膨胀率为4的空洞卷积权重；W_i是规约后的特征权重,i＝1,2,3,4。

进一步的，所述图文识别模型的文字识别模块的级联操作层还包括一个词向量映射层，用于将所述训练集对应的文本信息做量化表示。

具体的，在做文本识别任务之前，通常会把句子中的单词转变为数值型的输入，并且保持单词间语义上的相关性，即词向量的量化表示，本实施例采用的是word2vec词向量表示方法。

进一步的，所述训练参数如表2所示：

表2训练参数配置

进一步的，为了验证本实施例的敏感信息检测能力，本实施例选取了3个评价指标来衡量模型的性能，分别是：Overall Precision(OP)、Overall Recall(OR)，基于上述指标，Overall F1(OF1)也能被计算得到。

其中，OP为模型的精确率，反映模型正确预测正样本精度的能力，即预测的正样本中有多少是真实的正样本，其公式如下：

其中，TP为检测正确的样本个数；FP为检测错误的样本个数。

OR是模型的召回率，反映模型正确预测正样本全度的能力，增加将正样本预测为正样本，即正样本被预测为正样本占总的正样本的比例，其公式如下：

其中，TP为检测正确的样本个数；FN为漏检的样本个数。

OF1是F1值是综合评价指标，由于模型的精确率和召回率指标有时候会出现矛盾的情况，这样就需要综合考虑二者情况，最常见的方法就是F-Measure即精确率precision和召回率recall的加权调和平均，其公式如下：

当参数α＝1时，就是最常见的F1，其公式如下：

具体的，实验结果如表3所示：

表3实验结果

通过对比实验可以发现，本实施例的敏感信息检测方法在敏感信息检测中，检测精度较传统检测方法都有一定程度的提升，从而验证了本实施例的敏感信息检测方法的有效性。

本发明设计了一种通过人工智能技术识别图像文本信息的方法。为有效提取图像的视觉特征和语义特征，本发明分别提出了特征通道聚合模块和自适应多层语义融合模块，并通过引入多头注意力机制获得表达能力更强的特征，进而提升图像文本信息的识别精度和泛化性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于图文识别的敏感信息检测方法，其特征在于，包括如下步骤：

获取待识别图像；

2.根据权利要求1所述方法，其特征在于，所述将所述待识别图像中所含的文字信息与敏感信息库的数据做信息匹配，包括：

3.根据权利要求1所述方法，其特征在于，将所述待识别图像输入训练好的图文识别模型，包括：

4.根据权利要求3所述方法，其特征在于，所述将所述初始视觉特征F₀输入所述图文识别模型的视觉特征处理模块得到更加精细的视觉特征F_v，其中：

5.根据权利要求4所述方法，其特征在于，所述初始视觉特征F₀通过所述视觉特征处理模块的特征通道聚合模块的聚类操作融合关注区域相近的特征，包括：

F(.)＝[f₁(.),…,f_i(.),…,f_N(.)]

d_i(X)＝f_i(W×X)

d(X)＝[d₁,…,d_i,…,d_c]

6.根据权利要求3所述方法，其特征在于，将所述初始视觉特征F₀输入所述图文识别模型的自适应多层语义融合模块，得到语义特征F_s，包括：

7.根据权利要求3所述方法，其特征在于，所述将所述视觉特征F_v与所述语义特征F_s输入所述图文识别模型的文字识别模块，包括：

8.根据权利要求7所述方法，其特征在于，所述将所述语义特征F_s与归一化特征F_n输入所述文字识别模块的多头注意力模块进行融合处理得到输出特征F_a，包括：

9.根据权利要求3所述方法，其特征在于，所述将所述待识别图像输入所述图文识别模型的基础特征提取模块，包括；将所述待识别图像输入所述基础特征提取模块使用的VGG-16模型提取所述待识别图像的基础特征，获得待处理图像的初始视觉特征F₀。

10.根据权利要求1所述方法，其特征在于，所述图文识别模型通过下述方法训练得到：