CN117333878A - 一种基于图文识别的敏感信息检测方法 - Google Patents
一种基于图文识别的敏感信息检测方法 Download PDFInfo
- Publication number
- CN117333878A CN117333878A CN202311297883.2A CN202311297883A CN117333878A CN 117333878 A CN117333878 A CN 117333878A CN 202311297883 A CN202311297883 A CN 202311297883A CN 117333878 A CN117333878 A CN 117333878A
- Authority
- CN
- China
- Prior art keywords
- image
- module
- feature
- features
- visual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 45
- 230000000007 visual effect Effects 0.000 claims abstract description 107
- 238000012545 processing Methods 0.000 claims abstract description 40
- 230000004927 fusion Effects 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims description 31
- 230000002776 aggregation Effects 0.000 claims description 19
- 238000004220 aggregation Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000007499 fusion processing Methods 0.000 claims description 6
- 230000008447 perception Effects 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 230000001105 regulatory effect Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 2
- 238000003909 pattern recognition Methods 0.000 claims 1
- 238000003058 natural language processing Methods 0.000 abstract 1
- 239000010410 layer Substances 0.000 description 60
- 238000005516 engineering process Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
- G06V30/18038—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
- G06V30/18048—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
- G06V30/18057—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Biodiversity & Conservation Biology (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及一种基于图文识别的敏感信息检测方法,属于图像处理及自然语言处理领域。方法包括:获取待识别图像;将所述待识别图像输入训练好的图文识别模型得到所述待识别图像中所含文本信息;其中,所述图文识别模型用于基于待识别图像中的图像特征和语义特征融合后得到所述待识别图像中的文字信息,包括:基础特征提取模块、视觉特征处理模块、自适应多层语义融合模块和文字识别模块;将所述待识别图像中所含的文字信息与敏感信息库的数据做信息匹配得到检测结果;其中,检测结果为包含敏感信息和不包含敏感信息。实现了有效提取图像的视觉特征与语义特征,进而提升敏感信息检测的精准度。
Description
技术领域
本发明涉及敏感信息检测领域,尤其涉及一种基于图文识别的敏感信息检测方法。
背景技术
近年来,随着互联网技术的飞速发展和无纸化办公的兴起,人们获取图像的方式变得越来越便捷和多样化。而在一些特定应用场合与领域,图片中往往混杂有一些敏感文本信息,如果大量包含敏感文本信息的图像在网络上的传播,会对社会的稳定发展产生一定的负面影响,给网络信息监管部门带来了巨大挑战。
相对于传统检测技术不能像处理文本信息一样直接对图像进行匹配检测,而人工检测又费时费力、难以应对数据量的爆发式增长,现有敏感信息检测方法通过引入目标检测网络自主提取图像特征和文本信息的识别,在一定程度上提升了敏感信息的检测精度和效率。然而,现有敏感信息检测方法仅仅根据提取到的视觉特征来识别文本信息,由于视觉特征与文本特征之间存在巨大的语义鸿沟,因此现有敏感信息检测方法往往会出现误检和漏检的现象。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种基于图文识别的敏感信息检测方法,用以解决现有敏感信息检测方法仅仅根据提取到的视觉特征来识别文本信息出现误检和漏检的问题。
本发明的目的主要是通过以下技术方案实现的:
本发明提供了一种基于图文识别的敏感信息检测方法,包括如下步骤:
获取待识别图像;
将所述待识别图像输入训练好的图文识别模型得到所述待识别图像中所含文本信息;其中,所述图文识别模型用于基于待识别图像中的图像特征和语义特征融合后得到所述待识别图像中的文字信息,包括:基础特征提取模块、视觉特征处理模块、自适应多层语义融合模块和文字识别模块;
将所述待识别图像中所含的文字信息与敏感信息库的数据做信息匹配得到检测结果;其中,检测结果为包含敏感信息和不包含敏感信息。
进一步的,所述将所述待识别图像中所含的文字信息与敏感信息库的数据做信息匹配,包括:
所述敏感信息库包括26个以首字母为表名的敏感词表,以存储需要检测的敏感词;
获取所述待识别图像中所含的文字信息首字母,检索所述首字母对应的敏感词表,得到是否含有敏感信息的检测结果。
进一步的,将所述待识别图像输入训练好的图文识别模型,包括:
将所述待识别图像输入所述图文识别模型的基础特征提取模块,获取待处理图像的初始视觉特征F0;
将所述初始视觉特征F0输入所述图文识别模型的视觉特征处理模块与所述图文识别模型的自适应多层语义融合模块,分别得到更加精细的视觉特征Fv与语义特征Fs;
将所述视觉特征Fv与所述语义特征Fs输入所述图文识别模型的文字识别模块,得到所述待识别图像中所含文本信息。
进一步的,所述将所述初始视觉特征F0输入所述图文识别模型的视觉特征处理模块得到更加精细的视觉特征Fv,其中:
所述初始视觉特征F0通过所述视觉特征处理模块的特征通道聚合模块的聚类操作融合关注区域相近的特征;
将通过特征通道聚合模块融合后的视觉特征通过所述视觉特征处理模块的最大池化层扩大感受野;
经过所述最大池化层处理的视觉特征通过所述视觉特征处理模块的前向传播层的两个全连接层进行加权求和以及通过LeakyRelu激活函数的处理得到更加精细的视觉特征Fv。
进一步的,所述初始视觉特征F0通过所述视觉特征处理模块的特征通道聚合模块的聚类操作融合关注区域相近的特征,包括:
所述初始视觉特征F0通过所述特征通道聚合模块的卷积层提取所述初始视觉特征F0的特征;
所述卷积层提取的特征通过所述特征通道聚合模块的全连接层进行通道级聚类;其中,通道数为所述卷积层提取的特征数;其公式如下:
F(.)=[f1(.),…,fi(.),…,fN(.)]
di(X)=fi(W×X)
d(X)=[d1,…,di,…,dc]
其中,F(.)为聚类操作的结果;X为输入图像;fi(.)为全连接层的输出;N为聚类簇数;W为参数;c为所获取的特征通道数;d(X)为所有通道的权重向量。
进一步的,将所述初始视觉特征F0输入所述图文识别模型的自适应多层语义融合模块,得到语义特征Fs,包括:
将所述初始视觉特征F0输入所述自适应多层语义融合模块的平均池化层进行全局感知视觉信息,得到全局视觉特征;
将所述初始视觉特征F0分别输入所述自适应多层语义融合模块的膨胀率为1、2、4的空洞卷积提取不同尺度感受野特征;
将所述全局视觉特征和通过三个空洞卷积提取的不同感受野特征通过自适应权重进行加权求和后通过一个1×1的卷积层调节特征通道数得到所述语义特征Fs。
进一步的,所述将所述视觉特征Fv与所述语义特征Fs输入所述图文识别模型的文字识别模块,包括:
将所述视觉特征Fv输入所述文字识别模块的级联操作层使得输入特征在通道维度进行拼接得到拼接后的特征值;
将拼接后的特征值输入所述文字识别模块的第一个层级归一化模块,进行归一化操作,得到归一化特征Fn;
将所述语义特征Fs与归一化特征Fn输入所述文字识别模块的多头注意力模块进行融合处理得到输出特征Fa;
将所述输出特征Fa与所述归一化特征Fn输入所述文字识别模块的第二个层级归一化模块进行无纲量化处理,得到层级归一化特征Fm;
将所述层级归一化特征Fm输入所述文字识别模块的前向传播层,经过两个全连接层进行加权求和以及通过LeakyRelu激活函数的处理得到所述待处理图像中所含文本信息。
进一步的,所述将所述语义特征Fs与归一化特征Fn输入所述文字识别模块的多头注意力模块进行融合处理得到输出特征Fa,包括:
所述语义特征Fs作为第一个头的自注意力模块复制得到语义特征Fs′作为第二个头的自注意力模块;
所述第一个头的自注意力模块与第二个头的自注意力模块的转置做点乘后,除以语义特征Fs的特征维度做归一化处理;
所述归一化后结果通过softmax函数后与所述归一化特征Fn作为第三个头的自注意力模块进行矩阵相乘,得到输出特征Fa。
进一步的,所述将所述待识别图像输入所述图文识别模型的基础特征提取模块,包括;将所述待识别图像输入所述基础特征提取模块使用的VGG-16模型提取所述待识别图像的基础特征,获得待处理图像的初始视觉特征F0。
进一步的,所述图文识别模型通过下述方法训练得到:
步骤S1、构建图文识别模型的训练数据集;所述训练数据集包括:样本图像及对应的样本图像中的文本信息;
步骤S2、基于所述训练数据集训练图文识别模型得到训练好的图文识别模型,包括:
加载所述训练数据集的待处理图片到基础特征提取模块中,经过视觉特征处理模块与自适应多层语义融合模块,得到视觉特征Fv和语义特征Fs;
加载所述训练数据集对应的文本信息作为标签与所述视觉特征Fv、语义特征Fs输入到图文识别模块得到图文识别结果;
使用交叉熵损失函数作为损失函数训练图文识别模型,通过反向传播和梯度下降优化算法,模型能够不断调整参数以最小化损失函数,训练结束后保存图文识别模型参数。
与现有技术相比,本发明至少可实现如下有益效果之一:
1、本发明将深度神经网络技术和图像文本信息提取技术相结合并应用到图像敏感信息检测中,充分发挥深度学习技术在图文识别中的优势,在图文识别中提出了特征通道聚合模块和自适应多层语义融合模块,有效弥合图像底层视觉特征和高层语义特征间的巨大鸿沟,进而提升图像敏感信息检测精度。
2、本发明在图文识别模型中构建了特征通道聚合模块,通过聚类操作将关注区域相近的特征融合为紧致、易区分的部分;该模块可以自适应地选择敏感区域进行感知识别,并使区域特征更为凸显。
3、本发明在图文识别模型中构建了自适应多层语义融合模块,通过模块中不同大小的感受野提取图像中不同语义信息,并通过训练使得模型自主学习得到相应的特征权重,从而提高语义识别的精确度。
4、本发明在图文识别模型构建时引入多头注意力机制,多头注意力模块提供了多个“表征空间”,可以使模型在不同位置上关注来自不同“表征空间”的信息,通过融合多个自注意力子模块,使得模型捕捉到更加丰富的特征信息,提高模型的泛化性。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实施例中一种基于图文识别的敏感信息检测方法流程示意图;
图2为本发明实施例中最大池化层操作示意图;
图3为本发明实施例中自适应多层语义融合模块结构图;
图4为本发明实施例中自注意力模块计算过程图;
图5为本发明实施例中文字识别模块中层归一化示意图
图6为本发明实施例中图文识别模型的构建方法的流程示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本发明的一个具体实施例,公开了一种基于图文识别的敏感信息检测方法,如图1所示,包括以下步骤:
获取待识别图像;其中,使用网络爬虫对含有图片的网站进行图片抓取;所述图片的信息包括图片的链接以及图片名称;
将所述待识别图像输入训练好的图文识别模型得到所述待识别图像中所含文本信息;其中,所述图文识别模型用于基于待识别图像中的图像特征和语义特征融合后得到所述待识别图像中的文字信息,包括:基础特征提取模块、视觉特征处理模块、自适应多层语义融合模块和文字识别模块;
将所述待识别图像中所含的文字信息与敏感信息库的数据做信息匹配得到检测结果;其中,检测结果为包含敏感信息和不包含敏感信息。
进一步的,将所述待识别图像输入训练好的图文识别模型,包括:
将所述待识别图像输入所述图文识别模型的基础特征提取模块,获取待处理图像的初始视觉特征F0;
将所述初始视觉特征F0输入所述图文识别模型的视觉特征处理模块与所述图文识别模型的自适应多层语义融合模块,分别得到更加精细的视觉特征Fv与语义特征Fs;
将所述视觉特征Fv与所述语义特征Fs输入所述图文识别模型的文字识别模块,得到所述待识别图像中所含文本信息。
进一步的,所述基础特征提取模块使用VGG-16模型,用于提取图像的基础特征,获取待处理图像的初始视觉特征F0。
需要说明的是,所述VGG-16模型是一个预训练模型,已经在ImageNet数据库的一个子集上进行了训练;本实施例中,采用的预训练神经网络的层级结构如表1所示,能够对所述样本图像提取粗略特征。
表1预训练神经网络结构说明
进一步的,所述将所述初始视觉特征F0输入所述图文识别模型的视觉特征处理模块得到更加精细的视觉特征Fv,其中:
所述初始视觉特征F0通过所述视觉特征处理模块的特征通道聚合模块的聚类操作融合关注区域相近的特征;
需要说明的是,虽然卷积操作能够抽取图像中物体的视觉信息,但是单层特征中的有效信息偏少且难以聚焦,无法作为判定物体类别的直接依据。因此,本实施例的特征通道聚合模块通过聚类操作将关注区域相近的特征融合为紧致、易区分的部分,该模块可以自适应地选择敏感区域进行感知识别,并使区域特征更为凸显。
进一步的,所述初始视觉特征F0通过所述视觉特征处理模块的特征通道聚合模块的聚类操作融合关注区域相近的特征,包括:
所述初始视觉特征F0通过所述特征通道聚合模块的卷积层提取所述初始视觉特征F0的特征;所述卷积层的通道数与所述基础特征提取模块的最后一层卷积层的输出通道数相同;本实施例中为512个视觉通道。
所述卷积层提取的特征通过所述特征通道聚合模块的全连接层进行通道级聚类,其可以在通道层面对特征图进行回归操作;其中,通道数为所述卷积层提取的特征数;其公式如下:
F(.)=[f1(.),…,fi(.),…,fN(.)]
di(X)=fi(W×X)
d(X)=[d1,…,di,…,dc]
其中,F(.)为聚类操作的结果;X为输入图像;fi(.)为全连接层的输出;N为聚类簇数,即生成的注意力区块数;W为参数;c为所获取的特征通道数,本实施例中特征通道数为512;d(X)为所有通道的权重向量,该向量可以将通道映射到不同的分组中。
需要说明的是,所述聚类簇数根据图像中的物体个数决定。
进一步的,如图2所示,将通过特征通道聚合模块融合后的视觉特征通过所述视觉特征处理模块的最大池化层扩大感受野;
进一步的,经过所述最大池化层处理的视觉特征通过所述视觉特征处理模块的前向传播层的两个全连接层进行加权求和以及通过LeakyRelu激活函数的处理得到比视觉特征F0中的粗略特征更加精细的视觉特征Fv。
进一步的,如图3所示,将所述初始视觉特征F0输入所述图文识别模型的自适应多层语义融合模块,得到语义特征Fs,包括:
将所述初始视觉特征F0输入所述自适应多层语义融合模块的平均池化层进行全局感知视觉信息,得到全局视觉特征;
将所述初始视觉特征F0分别输入所述自适应多层语义融合模块的膨胀率为1、2、4的空洞卷积提取不同尺度感受野特征;
将所述全局视觉特征和通过三个空洞卷积提取的不同感受野特征通过自适应权重进行加权求和后通过一个1×1的卷积层调节特征通道数得到所述语义特征Fs。
具体的,所述平均池化层用于对初始视觉特征F0从全局感知视觉信息,其步长为1,所以该结构并不改变特征尺寸。
需要说明的是,针对感受野不同的特征,通常的融合方式是将所有特征直接相加,这种方式的好处是简单易行、便于实现。然而,感受野较大的特征往往拥有较多的语义信息,其更有助于识别尺寸较大的物体;而感受野较小的特征通常会保留更多的物体结构信息,其更有利于识别尺寸较小的物体。也就是说,感受野不同的特征对最终结果的重要程度是不尽相同的。因此,为这些特征分配相应的权重是必要的。考虑到神经网络强大的拟合能力以及反向传播出众的优化能力,本实施例的自适应多层语义融合模块由模型自主学习特征权重。
进一步的,所述将所述视觉特征Fv与所述语义特征Fs输入所述图文识别模型的文字识别模块,包括:
将所述视觉特征Fv输入所述文字识别模块的级联操作层使得输入特征在通道维度进行拼接得到拼接后的特征值;
将拼接后的特征值输入所述文字识别模块的第一个层级归一化模块,进行归一化操作,得到归一化特征Fn;
将所述语义特征Fs与归一化特征Fn输入所述文字识别模块的多头注意力模块进行融合处理得到输出特征Fa;
将所述输出特征Fa与所述归一化特征Fn输入所述文字识别模块的第二个层级归一化模块进行无纲量化处理,得到层级归一化特征Fm;
将所述层级归一化特征Fm输入所述文字识别模块的前向传播层,经过两个全连接层进行加权求和以及通过LeakyRelu激活函数的处理得到所述待处理图像中所含文本信息。
需要说明的是,级联操作层将输入特征在通道维度进行拼接,不改变特征的长、宽尺寸,以保留特征的原始信息。
具体的,所述多头注意力模块提供了多个“表征空间”,可以使模型在不同位置上关注来自不同“表征空间”的信息。具体来讲,多头注意力机制通过融合多个自注意力子模块,使得模型捕捉到更加丰富的特征信息,提高模型的泛化性。
进一步的,如图4所示的自注意力模块的处理过程;所述将所述语义特征Fs与归一化特征Fn输入所述文字识别模块的多头注意力模块进行融合处理得到输出特征Fa,包括:
所述语义特征Fs作为第一个头的自注意力模块Q复制得到语义特征Fs′作为第二个头的自注意力模块K;
所述第一个头的自注意力模块Q与第二个头的自注意力模块的转置KT做点乘后,除以语义特征Fs的特征维度做归一化处理;
所述归一化后结果通过softmax函数后与所述归一化特征Fn作为第三个头的自注意力模块V进行矩阵相乘,得到输出特征Fa,即为图中处理结果R。
进一步的,所述层归一化的主要作用是对输入特征进行无量纲化处理,使得不同维度(不同量纲)的特征具有可比性。这样做的原因是量纲的不同会导致计算结果的不同,尺度大(量纲大)的特征会起决定性作用,而尺度小(量纲小)的特征其作用可能会被忽略,为了消除特征间尺度差异的影响,使得每维特征都有相同的权重,因此需对特征进行归一化处理。
具体的,如图5所示,层归一化针对特征的所有维度计算均值μ和方差σ,并基于μ和σ对特征进行缩放。其中,x为缩放前的向量;y为缩放后的向量;γ和β为缩放和平移因子;本实施例中分别设置为0.3、0.4。
进一步的,所述将所述待识别图像中所含的文字信息与敏感信息库的数据做信息匹配得到检测结果,包括:
所述敏感信息库包括26个以首字母为表名的敏感词表,以存储需要检测的敏感词;
获取所述待识别图像中所含的文字信息首字母,检索所述首字母对应的敏感词表,得到是否含有敏感信息的检测结果。
进一步的,如图6所示,所述图文识别模型通过下述方法训练得到:
步骤S1、构建图文识别模型的训练数据集;所述训练数据集包括:样本图像及对应的样本图像中的文本信息;样本图像包括自然场景文字图片、广告图片、视频截图等;通过人工识别得到其中的文本信息。
步骤S2、基于所述训练数据集训练图文识别模型得到训练好的图文识别模型,包括:
加载所述训练数据集的待处理图片到基础特征提取模块中,经过视觉特征处理模块与自适应多层语义融合模块,得到视觉特征Fv和语义特征Fs;
加载所述训练数据集对应的文本信息作为标签与所述视觉特征Fv、语义特征Fs输入到图文识别模块得到图文识别结果;
使用交叉熵损失函数作为损失函数训练图文识别模型,通过反向传播和梯度下降优化算法,模型能够不断调整参数以最小化损失函数,训练结束后保存图文识别模型参数。
需要说明的是,在训练所述图文识别模型时,所述自适应多层语义融合模块由于习得的权重是没有被规约的,往往会导致训练的不稳定,为此,本实施例在训练时对所述习得的权重施加约束并表示如下:
其中,ω1为平均池化层的权重;ω2为膨胀率为1的空洞卷积权重;ω3为膨胀率为2的空洞卷积权重;ω4为膨胀率为4的空洞卷积权重;Wi是规约后的特征权重,i=1,2,3,4。
进一步的,所述图文识别模型的文字识别模块的级联操作层还包括一个词向量映射层,用于将所述训练集对应的文本信息做量化表示。
具体的,在做文本识别任务之前,通常会把句子中的单词转变为数值型的输入,并且保持单词间语义上的相关性,即词向量的量化表示,本实施例采用的是word2vec词向量表示方法。
需要说明的是,级联操作层将输入特征在通道维度进行拼接,不改变特征的长、宽尺寸,以保留特征的原始信息。
进一步的,所述训练参数如表2所示:
表2训练参数配置
进一步的,为了验证本实施例的敏感信息检测能力,本实施例选取了3个评价指标来衡量模型的性能,分别是:Overall Precision(OP)、Overall Recall(OR),基于上述指标,Overall F1(OF1)也能被计算得到。
其中,OP为模型的精确率,反映模型正确预测正样本精度的能力,即预测的正样本中有多少是真实的正样本,其公式如下:
其中,TP为检测正确的样本个数;FP为检测错误的样本个数。
OR是模型的召回率,反映模型正确预测正样本全度的能力,增加将正样本预测为正样本,即正样本被预测为正样本占总的正样本的比例,其公式如下:
其中,TP为检测正确的样本个数;FN为漏检的样本个数。
OF1是F1值是综合评价指标,由于模型的精确率和召回率指标有时候会出现矛盾的情况,这样就需要综合考虑二者情况,最常见的方法就是F-Measure即精确率precision和召回率recall的加权调和平均,其公式如下:
当参数α=1时,就是最常见的F1,其公式如下:
具体的,实验结果如表3所示:
表3实验结果
通过对比实验可以发现,本实施例的敏感信息检测方法在敏感信息检测中,检测精度较传统检测方法都有一定程度的提升,从而验证了本实施例的敏感信息检测方法的有效性。
本发明设计了一种通过人工智能技术识别图像文本信息的方法。为有效提取图像的视觉特征和语义特征,本发明分别提出了特征通道聚合模块和自适应多层语义融合模块,并通过引入多头注意力机制获得表达能力更强的特征,进而提升图像文本信息的识别精度和泛化性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于图文识别的敏感信息检测方法,其特征在于,包括如下步骤:
获取待识别图像;
将所述待识别图像输入训练好的图文识别模型得到所述待识别图像中所含文本信息;其中,所述图文识别模型用于基于待识别图像中的图像特征和语义特征融合后得到所述待识别图像中的文字信息,包括:基础特征提取模块、视觉特征处理模块、自适应多层语义融合模块和文字识别模块;
将所述待识别图像中所含的文字信息与敏感信息库的数据做信息匹配得到检测结果;其中,检测结果为包含敏感信息和不包含敏感信息。
2.根据权利要求1所述方法,其特征在于,所述将所述待识别图像中所含的文字信息与敏感信息库的数据做信息匹配,包括:
所述敏感信息库包括26个以首字母为表名的敏感词表,以存储需要检测的敏感词;
获取所述待识别图像中所含的文字信息首字母,检索所述首字母对应的敏感词表,得到是否含有敏感信息的检测结果。
3.根据权利要求1所述方法,其特征在于,将所述待识别图像输入训练好的图文识别模型,包括:
将所述待识别图像输入所述图文识别模型的基础特征提取模块,获取待处理图像的初始视觉特征F0;
将所述初始视觉特征F0输入所述图文识别模型的视觉特征处理模块与所述图文识别模型的自适应多层语义融合模块,分别得到更加精细的视觉特征Fv与语义特征Fs;
将所述视觉特征Fv与所述语义特征Fs输入所述图文识别模型的文字识别模块,得到所述待识别图像中所含文本信息。
4.根据权利要求3所述方法,其特征在于,所述将所述初始视觉特征F0输入所述图文识别模型的视觉特征处理模块得到更加精细的视觉特征Fv,其中:
所述初始视觉特征F0通过所述视觉特征处理模块的特征通道聚合模块的聚类操作融合关注区域相近的特征;
将通过特征通道聚合模块融合后的视觉特征通过所述视觉特征处理模块的最大池化层扩大感受野;
经过所述最大池化层处理的视觉特征通过所述视觉特征处理模块的前向传播层的两个全连接层进行加权求和以及通过LeakyRelu激活函数的处理得到更加精细的视觉特征Fv。
5.根据权利要求4所述方法,其特征在于,所述初始视觉特征F0通过所述视觉特征处理模块的特征通道聚合模块的聚类操作融合关注区域相近的特征,包括:
所述初始视觉特征F0通过所述特征通道聚合模块的卷积层提取所述初始视觉特征F0的特征;
所述卷积层提取的特征通过所述特征通道聚合模块的全连接层进行通道级聚类;其中,通道数为所述卷积层提取的特征数;其公式如下:
F(.)=[f1(.),…,fi(.),…,fN(.)]
di(X)=fi(W×X)
d(X)=[d1,…,di,…,dc]
其中,F(.)为聚类操作的结果;X为输入图像;fi(.)为全连接层的输出;N为聚类簇数;W为参数;c为所获取的特征通道数;d(X)为所有通道的权重向量。
6.根据权利要求3所述方法,其特征在于,将所述初始视觉特征F0输入所述图文识别模型的自适应多层语义融合模块,得到语义特征Fs,包括:
将所述初始视觉特征F0输入所述自适应多层语义融合模块的平均池化层进行全局感知视觉信息,得到全局视觉特征;
将所述初始视觉特征F0分别输入所述自适应多层语义融合模块的膨胀率为1、2、4的空洞卷积提取不同尺度感受野特征;
将所述全局视觉特征和通过三个空洞卷积提取的不同感受野特征通过自适应权重进行加权求和后通过一个1×1的卷积层调节特征通道数得到所述语义特征Fs。
7.根据权利要求3所述方法,其特征在于,所述将所述视觉特征Fv与所述语义特征Fs输入所述图文识别模型的文字识别模块,包括:
将所述视觉特征Fv输入所述文字识别模块的级联操作层使得输入特征在通道维度进行拼接得到拼接后的特征值;
将拼接后的特征值输入所述文字识别模块的第一个层级归一化模块,进行归一化操作,得到归一化特征Fn;
将所述语义特征Fs与归一化特征Fn输入所述文字识别模块的多头注意力模块进行融合处理得到输出特征Fa;
将所述输出特征Fa与所述归一化特征Fn输入所述文字识别模块的第二个层级归一化模块进行无纲量化处理,得到层级归一化特征Fm;
将所述层级归一化特征Fm输入所述文字识别模块的前向传播层,经过两个全连接层进行加权求和以及通过LeakyRelu激活函数的处理得到所述待处理图像中所含文本信息。
8.根据权利要求7所述方法,其特征在于,所述将所述语义特征Fs与归一化特征Fn输入所述文字识别模块的多头注意力模块进行融合处理得到输出特征Fa,包括:
所述语义特征Fs作为第一个头的自注意力模块复制得到语义特征Fs′作为第二个头的自注意力模块;
所述第一个头的自注意力模块与第二个头的自注意力模块的转置做点乘后,除以语义特征Fs的特征维度做归一化处理;
所述归一化后结果通过softmax函数后与所述归一化特征Fn作为第三个头的自注意力模块进行矩阵相乘,得到输出特征Fa。
9.根据权利要求3所述方法,其特征在于,所述将所述待识别图像输入所述图文识别模型的基础特征提取模块,包括;将所述待识别图像输入所述基础特征提取模块使用的VGG-16模型提取所述待识别图像的基础特征,获得待处理图像的初始视觉特征F0。
10.根据权利要求1所述方法,其特征在于,所述图文识别模型通过下述方法训练得到:
步骤S1、构建图文识别模型的训练数据集;所述训练数据集包括:样本图像及对应的样本图像中的文本信息;
步骤S2、基于所述训练数据集训练图文识别模型得到训练好的图文识别模型,包括:
加载所述训练数据集的待处理图片到基础特征提取模块中,经过视觉特征处理模块与自适应多层语义融合模块,得到视觉特征Fv和语义特征Fs;
加载所述训练数据集对应的文本信息作为标签与所述视觉特征Fv、语义特征Fs输入到图文识别模块得到图文识别结果;
使用交叉熵损失函数作为损失函数训练图文识别模型,通过反向传播和梯度下降优化算法,模型能够不断调整参数以最小化损失函数,训练结束后保存图文识别模型参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311297883.2A CN117333878A (zh) | 2023-10-09 | 2023-10-09 | 一种基于图文识别的敏感信息检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311297883.2A CN117333878A (zh) | 2023-10-09 | 2023-10-09 | 一种基于图文识别的敏感信息检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117333878A true CN117333878A (zh) | 2024-01-02 |
Family
ID=89292716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311297883.2A Pending CN117333878A (zh) | 2023-10-09 | 2023-10-09 | 一种基于图文识别的敏感信息检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117333878A (zh) |
-
2023
- 2023-10-09 CN CN202311297883.2A patent/CN117333878A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110737801B (zh) | 内容分类方法、装置、计算机设备和存储介质 | |
CN110717431B (zh) | 一种结合多视角注意力机制的细粒度视觉问答方法 | |
CN109359559B (zh) | 一种基于动态遮挡样本的行人再识别方法 | |
WO2020114378A1 (zh) | 视频水印的识别方法、装置、设备及存储介质 | |
CN114743020B (zh) | 一种结合标签语义嵌入和注意力融合的食物识别方法 | |
CN111340123A (zh) | 一种基于深度卷积神经网络的图像分数标签预测方法 | |
CN110851641A (zh) | 跨模态检索方法、装置和可读存储介质 | |
CN112052906A (zh) | 一种基于指针网络的图像描述优化方法 | |
Khan et al. | Movie tags prediction and segmentation using deep learning | |
CN112818849B (zh) | 基于对抗学习的上下文注意力卷积神经网络的人群密度检测算法 | |
Yang et al. | A comprehensive survey on image aesthetic quality assessment | |
CN112418351A (zh) | 基于全局与局部上下文感知的零样本学习图像分类方法 | |
CN111259823A (zh) | 一种基于卷积神经网络的色情图像识别方法 | |
CN114461890A (zh) | 分层多模态的知识产权搜索引擎方法与系统 | |
CN114510594A (zh) | 一种基于自注意力机制的传统纹样子图检索方法 | |
KR20190008699A (ko) | 토픽 모델링 기반 시맨틱 이미지 검색 방법, 시스템 및 컴퓨터 프로그램 | |
CN115203338A (zh) | 一种标签及标签实例推荐方法 | |
Zhang et al. | Bioinspired scene classification by deep active learning with remote sensing applications | |
CN112101154B (zh) | 视频分类方法、装置、计算机设备和存储介质 | |
Sowmyayani et al. | STHARNet: Spatio-temporal human action recognition network in content based video retrieval | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 | |
CN115909390B (zh) | 低俗内容识别方法、装置、计算机设备以及存储介质 | |
CN117333878A (zh) | 一种基于图文识别的敏感信息检测方法 | |
CN115908923A (zh) | 基于注意力引导3d神经网络的脑部磁共振图像分类系统 | |
Adaloglou et al. | Rethinking cluster-conditioned diffusion models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |