CN114155529A

CN114155529A - 结合文字视觉特征和文字内容特征的违规广告识别方法

Info

Publication number: CN114155529A
Application number: CN202111303591.6A
Authority: CN
Inventors: 刘杨; 路宏峰; 张�浩; 曾振威; 雷道宇
Original assignee: SHENZHEN INSTITUTE OF STANDARDS AND TECHNOLOGY
Current assignee: SHENZHEN INSTITUTE OF STANDARDS AND TECHNOLOGY
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-03-08

Abstract

本发明涉及计算机技术，具体涉及结合文字视觉特征和文字内容特征的违规广告识别方法，分别利用三种方式将彩色图像转化为文字视觉图像本身特征、文字视觉图像的笔画特征和图片文字识别转换为文本特征三种特征；利用vgg16抽取图像本身特征；利用RAN抽取汉字的笔顺特征；采用CNN‑encoder/Decoder架构抽取汉字的笔画特征后和图像本身特征嵌入转化融合；利用DenseNet进行特征学习分类；利用OCR对图像文字部分转化为文本信息；对文本信息进行规则匹配审核；应用RoFormer的神经网络模型对句子粒度的文本信息进行特征学习分裂；识别违规广告结果。该方法可为各大网站平台的广告审核监管系统提供有力支持。

Description

结合文字视觉特征和文字内容特征的违规广告识别方法

技术领域

本发明属于计算机技术领域，特别涉及结合文字视觉特征和文字内容特征的违规广告识别方法。

背景技术

随着互联网的发展与大数据时代的来临，网络数据存储总量迎来了爆炸式增长，人类的日常生活己经与数据密不可分，每个人都是信息的接受者。互联网在人们带来的便利的同时，也伴随着一些安全隐患，其中之一就是一些不法分子利用网络资源的复杂多样以及一些网民对网络信息缺乏甄别能力，对网络虚假信息防备心理较弱，利用网络散播非法信息以及导向性虚假广告，使得部分网民信以为真，进而使网民的财产收到威胁。目前许多网站都会采用关键词屏蔽的方式封禁文本格式的广告，由于图片比文本更具有隐蔽性，有一部分广告采取了在图片中嵌入文字的方式，因此许多平台不能分辨用户上传到服务器的图片是否是广告图片。用户在使用聊天软件或社交媒体时便会被这些广告图片骚扰，非常影响上网体验。此外，泛滥的广告图片甚至还可能为赌博、邪教传播等网络违法犯罪活动提供温床。因此，采用多模态的针对违规广告图片的审核识别技术有利于响应国家“净网行动”，从而保障广大网民拥有一个健康的上网环境。

现有的违规广告识别技术，绝大部分是针对文本形式的广告，利用词典匹配、关键词查找等技术判断文本广告是否是违规广告。但是，随着网络资源种类的增加，越来越多的广告采用图片或视频的形式传播，针对图片广告审核的技术一般也只是采用OCR文字识别的方式，把图片中的文字部分转化为文本信息，然后针对文本信息进行审核。但是该技术针对规则的印刷字体有一定的识别效果，对于目前许多广告图片采用的艺术字或者非宋体字体文字效果较差，难以达到识别审核的目的。

发明内容

针对背景技术存在的问题，本发明提供一种结合文字视觉特征和文字内容特征的违规广告多模态的识别方法。

为解决上述技术问题，本发明采用如下技术方案：结合文字视觉特征和文字内容特征的违规广告识别方法，包括以下步骤：

步骤1、输入格式多样含有视觉化文字的待检测广告图片，并进行降噪、图像裁剪等图像预处理步骤；

步骤2、将图片中视觉化的文字转化为三种不同特征的向量输入，分别是文字视觉图像本身特征、文字视觉图像的笔画信息特征和图片文字识别转换为文本特征；

步骤3、构建基于神经网络的特征分类器，将图像本身特征和笔画信息特征进行嵌入融合后进行特征分类；

步骤4、构建基于规则匹配和神经网络的文本审核系统对文字识别转换后的文本特征进行审核，判断是否含有恶意推广的违规广告内容；

步骤5、结合分类器和审核结果，判断待测广告图片是否含有违规广告信息。

在上述结合文字视觉特征和文字内容特征的违规广告识别方法中，步骤3的实现包括结合图像本身的特征和视觉文字的笔顺信息转化为嵌入表示，通过DenseNet神经网络进行特征学习分类，具体过程包括：

步骤3.1、输入待识别图片，利用vgg16神经网络抽取图像本身特征；

步骤3.2、使用RAN部件分析网络根据十大汉字常用空间结构对具有视觉效果的文字的空间架构和偏旁部件进行分析，抽取汉字的笔顺特征信息；

步骤3.3、将图像本身特征和笔顺特征转化成嵌入表示后进行concat向量拼接，通过DenseNet神经网络进行特征分类学习，识别图片中视觉化文字是否含有违规部分。

在上述结合文字视觉特征和文字内容特征的违规广告识别方法中，步骤4的实现包括利用OCR技术提取图像中的文本特征，然后利用规则匹配的方式审核文本是否含有电商平台链接恶意推广内容，再利用基于深度学习网络RoFormer的分类模型对文本特征进行分类；具体过程包括：

步骤4.1、利用OCR技术提取待检测图片中文本内容；

步骤4.2、采用正则表达式匹配的方式对文本内容进行恶意推广的匹配审核，包括QQ号、微信号、手机号、平台外链的恶意推广内容的审核；

步骤4.3构建RoFormer深度学习模型，将文本内容以句子或段落为粒度直接输入模型进行特征提取分类，识别出包含违规广告的信息。

在上述结合文字视觉特征和文字内容特征的违规广告识别方法中，步骤5的实现包括结合步骤3、步骤4的三种模态形成的两种特征学习过程的分类结果，对待检测图片进行违规广告审核识别并得到识别结果。

与现有技术相比，本发明的有益效果：对带有视觉文字信息的广告进行审核识别，在传统基于OCR技术的图片广告识别基础上增加了RoFormer的深度学习模型，更好的学习文本的特征，增加了OCR识别技术的准确度；同时提出了以图像本身特征和视觉化汉字笔顺特征为基础的融合特征学习模式，利用DenseNet网络学习非常规字体的汉字(如艺术字体)特征进行分类。所提出的多模态违规广告识别技术能够很好的处理嵌入图片的具有一定艺术效果广告文本的识别，更加符合当下多元化广告审核的需求，可以为各大网站平台的广告审核监管系统提供有力支持。

附图说明

图1为本发明一个实施例流程图。

具体实施方式

下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合具体实施例对本发明作进一步说明，但不作为本发明的限定。

本实施例在一般的OCR技术上，增加了神经网络提取特征的部分。使用图像编码器vgg16直接提取图像的特征，然后采用RAN部件分析网络提取文字的笔顺特征，将二者特征相结合输入DenseNet神经网络分类器进行特征学习分类。同时也利用OCR技术将图片文字转化为文本形式进行审核，以多模态的学习方法对违规广告进行识别。

本实施例是通过以下技术方案来实现的，结合文字视觉特征和文字内容特征的违规广告识别方法，针对带有视觉效果的文字广告图片，分别利用三种方式将彩色图像转化为文字视觉图像本身特征、文字视觉图像的笔画信息特征和图片文字识别转换为文本特征三种不同的特征；利用vgg16图像编码器抽取图像整体特征；利用部件分析网络RAN对于汉字的偏旁部件和空间架构进行分析，将汉字表示为一种层级树状结构，分析抽取汉字的笔顺特征；同时采用CNN-encoder/Decoder架构抽取汉字的笔画特征后和图像本身特征嵌入转化融合；利用基于DenseNet神经网络网络进行特征学习分类；利用OCR技术对图像文字部分抽取识别，转化为文本信息；对文本信息进行规则匹配审核，判断是否含有推广信息；应用基于预训练模型RoFormer的神经网络模型对句子粒度的文本信息进行特征学习分裂；多模态的学习识别结果汇总，形成最后的违规广告识别结果。具体步骤如下：

S1，输入格式多样的待检测的含有视觉化文字的广告图片，并进行降噪、图像裁剪等图像预处理步骤；

S2，将图片中视觉化的文字转化为三种不同特征的向量输入，分别是文字视觉图像本身特征、文字视觉图像的笔画信息特征和图片文字识别转换为文本特征；

S3，构建基于神经网络的特征分类器把图像本身特征和笔画信息特征进行嵌入融合后进行特征分类；

S4，构建基于规则匹配和神经网络的文本审核系统对文字识别转换后的文本特征进行审核，判断是否含有恶意推广等广告内容；

S5，结合两种模态的学习识别，得到最终的违规广告识别结果。

并且，S3的实现包括结合图像本身的特征和视觉文字的笔顺信息转化为嵌入表示，通过DenseNet神经网络进行特征学习分类，具体过程包括：

S31，输入待识别图片，利用vgg16神经网络进行图像本身特征提取；

S32，使用RAN部件分析网络根据十大汉字常用空间结构对具有视觉效果的文字的空间架构进行分析，抽取汉字的笔顺特征；

S33，将图像本身特征和笔顺特征转化成嵌入表示后进行特征拼接，通过DenseNet神经网络学习图片特征，进行特征分类。

并且，S4的实现包括使用OCR技术将图像中文字部分识别转化为文本形式后，同时采用基于规则的审核方法和基于RoFormer深度学习模型的方法进行特征分类，具体过程包括：

S41，利用OCR技术提取文本内容；

S42，编写规则，利用正则表达式匹配的方式对文本内容进行多方向的匹配审核：

S43，利用RoFormer神经网络模型，以句子为粒度学习文本特征并进行特征分类。

并且，S5的实现包括结合S3、S4里的三种模态形成的两种特征学习过程的分类结果，对待检测图片进行违规广告审核识别并得到识别结果。

具体实施时，由于广告图片形式种类多样，本实施示例以带有视觉特征文字的广告图片(如包含“最便宜”艺术字体的广告)为例阐述违规广告图片的识别方法，包括以下步骤：

1)输入待识别的广告图片；

2)用三种不同的方法将图片中视觉化的文字转化为三种特征的向量输入，分别是文字视觉图像本身特征、文字视觉图像的笔画信息特征和图片文字识别转换为文本特征；

3)构建基于神经网络的特征分类器将图像本身特征和笔画信息特征进行嵌入融合(concat)后输入基于pytorch框架编写的DenseNet神经网络进行特征学习分类；

利用部件分析网络RAN对于汉字的偏旁部件和空间架构进行分析，将汉字表示为一种层级树状结构。同时采用CNN-encoder/Decoder架构抽取汉字的笔画特征后和S2中的图像本身特征融合进行分类；

具体来说，步骤3)中的特征融合，具体过程包括：

3.1)利用深度学习模型vgg16抽取图像本身特征；将彩色图像的RGB三个颜色通道用二维数组表示，输入到包含13层卷积层和3层全连接层的vgg16神经网络，提取图像本身特征。

3.2)利用RAN部件分析网络分析汉字空间架构，抽取汉字的笔顺序列信息；利用RAN部件分析网络分析对于汉字的偏旁部件和空间架构进行分析，将汉字表示为一种层级树状结构。同时采用CNN-encoder/Decoder架构抽取汉字的笔画特征后和步骤2)中的图像本身特征融合进行分类，抽取汉字的笔顺序列信息；

3.3)将图像本身特征和笔顺特征转化为嵌入表示后进行concat向量拼接，然后输入DenseNet神经网络进行特征学习分类，识别图片中视觉化文字是否含有违规部分。

4)首先利用百度飞浆paddle的OCR工具包直接提取图像中的文本特征，然后利用规则匹配的方式审核文本是否含有电商平台链接等恶意推广内容，接着利用基于深度学习网络RoFormer的分类模型对文本特征分类，具体步骤包括：

4.1)利用OCR技术提取待检测图片里文本内容；

4.2)采用正则表达式匹配的方式对文本内容进行恶意推广的匹配审核，包括QQ号、微信号、手机号、平台外链等恶意推广内容的审核；

4.3)构建RoFormer深度学习模型，将文本内容以句子或段落为粒度直接输入模型进行特征提取分类，识别出包含违规广告的信息。

5)结合多模态学习分类器的结果，判断图片包含有“最便宜”涉嫌虚假宣传的违规广告信息。

以上仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.结合文字视觉特征和文字内容特征的违规广告识别方法，其特征在于：包括以下步骤：

2.根据权利要求1所述结合文字视觉特征和文字内容特征的违规广告识别方法，其特征在于：步骤3的实现包括结合图像本身的特征和视觉文字的笔顺信息转化为嵌入表示，通过DenseNet神经网络进行特征学习分类，具体过程包括：

3.根据权利要求1所述结合文字视觉特征和文字内容特征的违规广告识别方法，其特征在于：步骤4的实现包括利用OCR技术提取图像中的文本特征，然后利用规则匹配的方式审核文本是否含有电商平台链接恶意推广内容，再利用基于深度学习网络RoFormer的分类模型对文本特征进行分类；具体过程包括：

步骤4.1、利用OCR技术提取待检测图片中文本内容；

4.根据权利要求1所述结合文字视觉特征和文字内容特征的违规广告识别方法，其特征在于：步骤5的实现包括结合步骤3、步骤4的三种模态形成的两种特征学习过程的分类结果，对待检测图片进行违规广告审核识别并得到识别结果。