CN112417194A

CN112417194A - 恶意图文的多模态检测方法

Info

Publication number: CN112417194A
Application number: CN202011306928.4A
Authority: CN
Inventors: 李雪; 段强; 李锐; 王建华
Original assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Current assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-02-26

Abstract

本发明目的是提供了一种恶意图文的多模态检测方法。其包括以下步骤：S1.配置多模态环境；S2.建立图文检测数据集，并进行数据清洗和标记，分别给定是否属于恶意图文的标签0或1；S3.通过Faster R‑CNN网络对输入图像进行特征提取，提取图像特征；S4.以bert base模型基本参数作为文字处理部分的参数，提取文字特征及上下文关系；S5.图像特征与文字特征进行co‑attention处理，进而进行图片分类任务，及恶意图文信息判断，得到结果。

Description

恶意图文的多模态检测方法

技术领域

本发明涉及一种恶意图文的多模态检测方法，属于图文检测技术领域。

背景技术

互联网时代，奉行“能发图就不打字”的交流方式，给形形色色的图片配上恰当的文字，来表达各种情感。这种图片结合文字的方式使得交流更加形象，但是并不是所有表情包都是善意的，存在对个人、对社会、对国家等的恶意、歧视、讽刺或侮辱等不恰当的图文描述，这种言论的发布会对不具备辨别能力的青少年造成不良影响。因此在论坛、微博、贴吧等，需要对要发布的图文进行审核。

图文信息是指文字和图像的组合，在以往的深度学习项目中，AI只完成单一项目，只实现图像的分类、分割、目标追踪等操作，或者文字识别等。图文信息检测将图像和文字结合在一起进行分类识别，这对机器来说是一个新的挑战。

恶意图文是指在图像中添加意义相反的文字信息，表达一种讽刺、歧视等含义，多用于论坛发帖、微博等评论中。这类内容的检测通常靠人为检测再屏蔽的方式完成，存在漏检、误检及审核不及时等情况。

发明内容

本发明目的是提供了一种恶意图文的多模态检测方法。

本发明为实现上述目的，通过以下技术方案实现：

一种恶意图文的多模态检测方法，包括以下步骤：

S1.配置多模态环境；

S2.建立图文检测数据集，并进行数据清洗和标记，分别给定是否属于恶意图文的标签0或1；

S3. 通过Faster R-CNN网络对输入图像进行特征提取，提取图像特征；

S4.以bert base模型基本参数作为文字处理部分的参数，提取文字特征及上下文关系；

S5.图像特征与文字特征进行co-attention处理，进而进行图片分类任务，及恶意图文信息判断，得到结果。

所述恶意图文的多模态检测方法优选方案，步骤S2具体执行如下：ViLBERT选定了两项预训练任务：Masked multi-modal learning是遮挡住部分图片和文本信息，让模型预测相应的图片区域和文本；Multi-modal alignment prediction即是给定标题和图片，判断两者是否契合。

所述恶意图文的多模态检测方法优选方案，步骤S3具体执行如下：图像处理方面，利用Faster R-CNN从图像中提取多个目标区域的特征及位置信息，得到，分别代表归一化处理后的左上角、右下角坐标及面积；之后映射到匹配视觉特征的维度，作为图像信息表征。

所述恶意图文的多模态检测方法优选方案，步骤S4具体执行如下：对大量无标记的文本进行预训练，通过遮蔽部分信息，使模型实现自监督学习，文本在生成embedding后经过了额外的几个Transformer层，来生成上下文之间的联系。

所述恶意图文的多模态检测方法优选方案，步骤S5具体执行如下：文本流与图像流经过多层相互交叉的co-transformer，其输入为图片隐藏层和文本隐藏层，与基础BERT模型不同的是其Key和Value交叉传递，用图片的上下文给文字加权，用文字的上下文给图片加权，进而判断图片与文字是否吻合。

本发明的优点在于：

基于多模态框架的vilbert，对图像及图像中文字进行联合识别，判断图文是否一致，表达是否符合规定，禁止带有侮辱、讽刺、色情等图片及文字内容上传至公共页面。

具体实施方式

下面对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种恶意图文的多模态检测方法，包括以下步骤：

S1.配置多模态环境；

本实施例中，步骤S2具体执行如下：ViLBERT选定了两项预训练任务：Maskedmulti-modal learning是遮挡住部分图片和文本信息，让模型预测相应的图片区域和文本；Multi-modal alignment prediction即是给定标题和图片，判断两者是否契合。

本实施例中，步骤S3具体执行如下：图像处理方面，利用Faster R-CNN从图像中提取多个目标区域的特征及位置信息，得到

，分别代表归一化处理后的左上角、右下角坐标及面积；之后映射到匹配视觉特征的维度，作为图像信息表征。

本实施例中，步骤S4具体执行如下：对大量无标记的文本进行预训练，通过遮蔽部分信息，使模型实现自监督学习，文本在生成embedding后经过了额外的几个Transformer层，来生成上下文之间的联系。

本实施例中，步骤S5具体执行如下：文本流与图像流经过多层相互交叉的co-transformer，其输入为图片隐藏层和文本隐藏层，与基础BERT模型不同的是其Key和Value交叉传递，用图片的上下文给文字加权，用文字的上下文给图片加权。进而判断图片与文字是否吻合。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种恶意图文的多模态检测方法，其特征在于：包括以下步骤：

S1.配置多模态环境；

2.根据权利要求1所述恶意图文的多模态检测方法，其特征在于：步骤S2具体执行如下：ViLBERT选定了两项预训练任务：Masked multi-modal learning是遮挡住部分图片和文本信息，让模型预测相应的图片区域和文本；Multi-modal alignment prediction即是给定标题和图片，判断两者是否契合。

3.根据权利要求1所述恶意图文的多模态检测方法，其特征在于：步骤S3具体执行如下：图像处理方面，利用Faster R-CNN从图像中提取多个目标区域的特征及位置信息，得到

4.根据权利要求1所述恶意图文的多模态检测方法，其特征在于：步骤S4具体执行如下：对大量无标记的文本进行预训练，通过遮蔽部分信息，使模型实现自监督学习，文本在生成embedding后经过了额外的几个Transformer层，来生成上下文之间的联系。

5.根据权利要求1所述恶意图文的多模态检测方法，其特征在于：步骤S5具体执行如下：文本流与图像流经过多层相互交叉的co-transformer，其输入为图片隐藏层和文本隐藏层，与基础BERT模型不同的是其Key和Value交叉传递，用图片的上下文给文字加权，用文字的上下文给图片加权，进而判断图片与文字是否吻合。