CN114662033B

CN114662033B - 一种基于文本和图像的多模态有害链接识别

Info

Publication number: CN114662033B
Application number: CN202210353216.0A
Authority: CN
Inventors: 陈晓云; 答智泉; 李国山
Original assignee: Kunming Information Port Media Co ltd
Current assignee: Kunming Information Port Media Co ltd
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2024-05-03
Anticipated expiration: 2042-04-06
Also published as: CN114662033A

Abstract

本发明公开了一种基于文本和图像的多模态有害链接识别，S1、数据收集：利用网页图片截图技术对目标网站进行网页图片截取，对截取的图片按照类别进行人工标注，在人工标注和筛选的基础上尽可能保证涵盖各个行业，不同样式以保证模型的泛化性能，S2、预处理：主要采用图片增强对样本进行上采样，S3、特征提取：通过“有害链接图片文本特征提取”、“有害链接图片图像特征提取”和“有害链接统计分析特征提取”对特征进行提取，S4、特征融合，S5、模型训练：构建全连接分类器，采用深度学习技术，结合文本、图像、统计特征进行多模态融合构建模型，对有害链接进行分类检测。

Description

一种基于文本和图像的多模态有害链接识别

技术领域

本发明涉及有害链接识别技术领域，具体为一种基于文本和图像的多模态有害链接识别。

背景技术

内容安全已成为全球性互联网生态治理难题。互联网平台多媒体内容爆发带来海量信息的同时，也泥沙俱下裹挟有大量不良有害信息。

当内容平台发展快速，就会被灰黑产盯上，视作“流量蜜罐”，利用其流量曝光机会，植入涉黄赌毒等不良信息，以及大量垃圾广告等。

其中页面内容中包含的有害链接是内容安全检测的一个重要方向，页面中的有害链接可能存在不同程度的安全隐患，例如对网站品牌名誉损害，对用户造成误导产生不良后果等，其中链接最多的是各类非法广告类，涉黄低俗类信息，以及涉赌涉毒信息。主要是由于页面中的网站链接主体由于域名过期被抢注或页面被非法篡改等造成。随着内容的多媒体融合，5G等信息基础设施的发展，互联网内容也迎来大爆发，内容安全压力愈加严峻。

常规的有害链接检测技术可以分为基于黑名单库的过滤检测，基于链接统计分析特征的分类检测，

现实场景下对链接进行解析，域名备案查询得到的信息存在不全面、有效性差、不权威的问题，此外链接、域名、IP的黑名单库建立成本十分高昂。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明采用深度学习技术，结合文本、图像、统计特征进行多模态融合构建模型，对有害链接进行分类检测，提供了一种基于文本和图像的多模态有害链接识别。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种基于文本和图像的多模态有害链接识别，具体包括以下步骤：

S1、数据收集：利用网页图片截图技术对目标网站进行网页图片截取，对截取的图片按照若干类别进行人工标注，其中网站图片样本每个类别500个，健康类别网站图片样本较多，在人工标注和筛选的基础上尽可能保证涵盖各个行业，不同样式以保证模型的泛化性能，对健康网站图片样本进行了下采样保证收集的若干类别样本相对均衡，样本图片大小为224*224*3；

S2、预处理：采用图片增强对样本进行上采样，利用Tensorflow图片预处理库完成，预处理后的结果将作为图片特征提取的输入；

S3、特征提取：通过“有害链接图片文本特征提取”、“有害链接图片图像特征提取”和“有害链接统计分析特征提取”对特征进行提取，有害链接图片文本特征提取利用基于中文的OCR模型对图片文字进行提取，有害链接图片图像特征提取涉及两个技术点“预训练微调”和“预训练模型提取图像特征”，特征提取手段利用python脚本进行字符串处理，再利用BERT模型提取文字特征、图像预训练模型微调提取网页截图特征、对链接进行统计分析提取特征；

S4、特征融合：在特征提取阶段中，将文本特征768维、图像特征512维、统计特征7维进行融合，共计1287维特征，由于文本、图像、统计特征均为1维的特征向量，特征融合只需对上述三个特征进行向量拼接；

S5、模型训练：构建全连接分类器，将融合后的1287维特征输入分类模型进行训练，经过35轮次的训练迭代后，模型取得了95％的正确率，模型经过部署后以API的形式对外提供，输入任意的网站链接即可返回有害链接的4个分类置信度；

所述S3步骤内“预训练微调”通过完成预训练对有害链接图片微调后，我们获得了一个图像的“特征抽取器”，即微调后的模型，利用这个“特征抽取器”我们输入图片便可以得到图像的特征向量表示，“预训练模型提取图像特征”加载VGG模型，对目标图片以(224，224，3)尺寸进行输入，输出全连接分类层倒数第二层的权重作为图片的特征向量，维度为(1，512)；

所述预训练微调模型核心原理通过冻结VGG16卷积层1到4层权重，解冻第5层卷积层权重，使之参与训练，在第五层的顶接入Flatten层将第五层输出特征矩阵展平，在上述模型的顶部接入全连接分类模型，接入分类模型是为了让预训练模型具有分辨有害链接类别的能力，通过解冻的第5层卷积层权重和全连接分类层进行训练，利用神经网络梯度下降对解冻的层进行参数更新，最终完成“预训练微调”。

优选的，所述S3步骤内OCR提取的文本特征目的是输入BERT模型，提取出图片上文本的特征向量，其中模型输出特征向量维度为(1，768)。

优选的，所述S3步骤内python脚本对域名长度，分隔符个数、特殊字符个数、数字占总长度比、分隔符内数字个数最大值、域名分隔符间最大长度、数字，字母转换频率7个维度进行特征提取，输入链接后，输出特征向量维度为(1，7)。

优选的，所述S3步骤中，BERT模型通过在海量的语料的基础上运行自监督学习方法为单词学习一个的特征表示，抛弃了传统的RNN和CNN，通过Attention机制将任意位置的两个单词的距离转换成1，有效的解决了NLP中棘手的长期依赖问题。

优选的，所述BERT的输入的编码向量是3个嵌入特征的单位和。

(三)有益效果

本发明提供了一种基于文本和图像的多模态有害链接识别。与现有技术相比，具备以下有益效果：该基于文本和图像的多模态有害链接识别，通过在S3、特征提取：通过“有害链接图片文本特征提取”、“有害链接图片图像特征提取”和“有害链接统计分析特征提取”对特征进行提取，有害链接图片文本特征提取利用基于中文的OCR模型对图片文字进行提取，有害链接图片图像特征提取涉及两个技术点“预训练微调”和“预训练模型提取图像特征”，特征提取手段主要利用python脚本进行字符串处理，再利用Bert模型提取文字特征、图像预训练模型微调提取网页截图特征、对链接进行统计分析提取特征，S4、特征融合：在特征提取阶段中，将文本特征768维、图像特征512维、统计特征7维进行融合，共计1287维特征，由于文本、图像、统计特征均为1维的特征向量，针对内容安全场景下黑链检测识别进行研发，利用文本OCR技术提取网页截图的文字，再通过模型提取文字特征、图像预训练模型微调提取网页截图特征、对链接进行统计分析提取特征。对上述特征进行融合训练分类模型以识别链接的合法性。

附图说明

图1为本发明基于文本和图像的多模态有害链接识别的流程图；

图2为本发明基于文本和图像的多模态有害链接识别的OCR文本特征提取流程流程图；

图3为本发明基于文本和图像的多模态有害链接识别的特征抽取器使用流程图；

图4为本发明基于文本和图像的多模态有害链接识别的预训练微调模型架构图；

图5为本发明基于文本和图像的多模态有害链接识别的python脚本提取流程图；

图6为本发明基于文本和图像的多模态有害链接识别的特征融合处理步骤图；

图7为本发明基于文本和图像的多模态有害链接识别的BERT模型结构图；

图8为本发明基于文本和图像的多模态有害链接识别的BERT的输入的编码向量特征图；

图9为本发明基于文本和图像的多模态有害链接识别的VGG16模型结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-9，本发明实施例提供一种技术方案：一种基于文本和图像的多模态有害链接识别，具体包括以下步骤：

S1、数据收集：利用网页图片截图技术对目标网站进行网页图片截取，对截取的图片按照类别进行人工标注，其中网站图片样本每个类别500个，健康类别网站图片样本较多，在人工标注和筛选的基础上尽可能保证涵盖各个行业，不同样式以保证模型的泛化性能，对健康网站图片样本进行了下采样保证收集的多个类别样本相对均衡，样本图片大小为224*224*3；

S5、模型训练：构建全连接分类器，将融合后的1287维特征输入分类模型进行训练，经过35轮次的训练迭代后，模型取得了95％的正确率，模型经过部署后以API的形式对外提供，输入任意的网站链接即可返回有害链接的4个分类置信度。

本发明中，S3步骤内“预训练微调”通过完成预训练对有害链接图片微调后，我们获得了一个图像的“特征抽取器”(微调后的模型)，利用这个“特征抽取器”我们输入图片便可以得到图像的特征向量表示，“预训练模型提取图像特征”加载VGG模型，对目标图片以(224，224，3)尺寸进行输入，输出全连接分类层倒数第二层的权重作为图片的特征向量，维度为(1，512)。

本发明中，预训练微调模型核心原理通过冻结VGG16卷积层1到4层权重，解冻第5层卷积层权重，使之参与训练，在第五层的顶接入Flatten层将第五层输出特征矩阵展平，在上述模型的顶部接入全连接分类模型，接入分类模型是为了让预训练模型具有分辨有害链接类别的能力，通过解冻的第5层卷积层权重和全连接分类层进行训练，利用神经网络梯度下降对解冻的层进行参数更新，最终完成“预训练微调”

VGG16的突出特点是简单，体现在：卷积层均采用相同的卷积核参数。

本发明中，S3步骤内OCR提取的文本特征目的是输入BERT模型，提取出图片上文本的特征向量，其中模型输出特征向量维度为(1，768)，BERT的网络架构使用的是《Attentionis all you need》中提出的多层Transformer结构，有效的解决了NLP中棘手的长期依赖问题。

本发明中，S3步骤内python脚本对域名长度，分隔符个数、特殊字符个数、数字占总长度比、分隔符内数字个数最大值、域名分隔符间最大长度、数字，字母转换频率7个维度进行特征提取，输入链接后，输出特征向量维度为(1，7)。

本发明中，S3步骤中，BERT模型通过在海量的语料的基础上运行自监督学习方法为单词学习一个的特征表示，抛弃了传统的RNN和CNN，通过Attention机制将任意位置的两个单词的距离转换成1，有效的解决了NLP中棘手的长期依赖问题。

本发明中，BERT的输入的编码向量是3个嵌入特征的单位和。

本发明中，S5步骤中，具体的数据返回案例如下：

同时本说明书中未作详细描述的内容均属于本领域技术人员公知的现有技术。

对比实验

本文本和图像的多模态有害链接识别，采用多模态链接识别方法与现有的链接识别方法方法进行综合对比实验，多模态链接识别方法综合指数为0.9(综合指数越高，识别效率越高)，现有链接识别方法综合指数为0.6(综合指数越高，识别效率越高)，本发明多模态链接识别方法其综合使用效果远高于现有链接识别方法综合使用效果。

综上所述，通过BERT提取文本特征、预训练模型提取图像特征多种特征提取方式，采用深度学习技术，结合文本、图像、统计特征进行多模态融合构建模型，对有害链接进行分类检测。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于文本和图像的多模态有害链接识别，其特征在于：具体包括以下步骤：

S1、数据收集：利用网页图片截图技术对目标网站进行网页图片截取，对截取的图片按照若干类别进行人工标注，其中网站图片样本每个类别500个，健康类别网站图片样本数量大于不健康类别网站图片样本数量，在人工标注和筛选的基础上尽可能保证涵盖各个行业，不同样式以保证模型的泛化性能，对健康网站图片样本进行了下采样保证收集的若干类别样本相对均衡，样本图片大小为224*224*3；

S3、特征提取：通过“有害链接图片文本特征提取”、“有害链接图片图像特征提取”和“有害链接统计分析特征提取”对特征进行提取，有害链接图片文本特征提取是利用基于中文的OCR模型对图片文字进行提取，有害链接图片图像特征提取涉及两个技术点“预训练微调”和“预训练模型提取图像特征”，特征提取手段利用python脚本进行字符串处理，再利用BERT模型提取文字特征、图像预训练模型微调提取网页截图特征、对链接进行统计分析提取特征；

所述S3步骤内“预训练微调”是通过完成预训练对有害链接图片微调后，获得了一个图像的“特征抽取器”，即微调后的模型，利用这个“特征抽取器”输入图片便可得到图像的特征向量表示，“预训练模型提取图像特征”加载VGG模型，对目标图片以(224，224，3)尺寸进行输入，输出全连接分类层倒数第二层的权重作为图片的特征向量，维度为(1，512)；

所述预训练微调模型核心原理是通过冻结VGG16卷积层1到4层权重，解冻第5层卷积层权重，使之参与训练，在第五层的顶接入Flatten层将第五层输出特征矩阵展平，在上述模型的顶部接入全连接分类模型，接入分类模型是为了让预训练模型具有分辨有害链接类别的能力，通过解冻的第5层卷积层权重和全连接分类层进行训练，利用神经网络梯度下降对解冻的层进行参数更新，最终完成“预训练微调”。

2.根据权利要求1所述的一种基于文本和图像的多模态有害链接识别，其特征在于：所述S3步骤内OCR提取的文本特征目的是输入BERT模型，提取出图片上文本的特征向量，其中模型输出特征向量维度为(1，768)。

3.根据权利要求1所述的一种基于文本和图像的多模态有害链接识别，其特征在于：所述S3步骤内python脚本对域名长度，分隔符个数、特殊字符个数、数字占总长度比、分隔符内数字个数最大值、域名分隔符间最大长度、数字，字母转换频率7个维度进行特征提取，输入链接后，输出特征向量维度为(1，7)。

4.根据权利要求1所述的一种基于文本和图像的多模态有害链接识别，其特征在于：所述S3步骤中，BERT模型通过在若干的语料的基础上运行自监督学习方法为单词学习一个特征表示，通过Attention机制将任意位置的两个单词的距离转换成1。

5.根据权利要求1所述的一种基于文本和图像的多模态有害链接识别，其特征在于：所述BERT的输入的编码向量是3个嵌入特征的单位和。