CN112417194A - 恶意图文的多模态检测方法 - Google Patents

恶意图文的多模态检测方法 Download PDF

Info

Publication number
CN112417194A
CN112417194A CN202011306928.4A CN202011306928A CN112417194A CN 112417194 A CN112417194 A CN 112417194A CN 202011306928 A CN202011306928 A CN 202011306928A CN 112417194 A CN112417194 A CN 112417194A
Authority
CN
China
Prior art keywords
image
malicious
picture
text
texts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011306928.4A
Other languages
English (en)
Inventor
李雪
段强
李锐
王建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Inspur Hi Tech Investment and Development Co Ltd
Original Assignee
Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Hi Tech Investment and Development Co Ltd filed Critical Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority to CN202011306928.4A priority Critical patent/CN112417194A/zh
Publication of CN112417194A publication Critical patent/CN112417194A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明目的是提供了一种恶意图文的多模态检测方法。其包括以下步骤:S1.配置多模态环境;S2.建立图文检测数据集,并进行数据清洗和标记,分别给定是否属于恶意图文的标签0或1;S3.通过Faster R‑CNN网络对输入图像进行特征提取,提取图像特征;S4.以bert base模型基本参数作为文字处理部分的参数,提取文字特征及上下文关系;S5.图像特征与文字特征进行co‑attention处理,进而进行图片分类任务,及恶意图文信息判断,得到结果。

Description

恶意图文的多模态检测方法
技术领域
本发明涉及一种恶意图文的多模态检测方法,属于图文检测技术领域。
背景技术
互联网时代,奉行“能发图就不打字”的交流方式,给形形色色的图片配上恰当的文字,来表达各种情感。这种图片结合文字的方式使得交流更加形象,但是并不是所有表情包都是善意的,存在对个人、对社会、对国家等的恶意、歧视、讽刺或侮辱等不恰当的图文描述,这种言论的发布会对不具备辨别能力的青少年造成不良影响。因此在论坛、微博、贴吧等,需要对要发布的图文进行审核。
图文信息是指文字和图像的组合,在以往的深度学习项目中,AI只完成单一项目,只实现图像的分类、分割、目标追踪等操作,或者文字识别等。图文信息检测将图像和文字结合在一起进行分类识别,这对机器来说是一个新的挑战。
恶意图文是指在图像中添加意义相反的文字信息,表达一种讽刺、歧视等含义,多用于论坛发帖、微博等评论中。这类内容的检测通常靠人为检测再屏蔽的方式完成,存在漏检、误检及审核不及时等情况。
发明内容
本发明目的是提供了一种恶意图文的多模态检测方法。
本发明为实现上述目的,通过以下技术方案实现:
一种恶意图文的多模态检测方法,包括以下步骤:
S1.配置多模态环境;
S2.建立图文检测数据集,并进行数据清洗和标记,分别给定是否属于恶意图文的标签0或1;
S3. 通过Faster R-CNN网络对输入图像进行特征提取,提取图像特征;
S4.以bert base模型基本参数作为文字处理部分的参数,提取文字特征及上下文关系;
S5.图像特征与文字特征进行co-attention处理,进而进行图片分类任务,及恶意图文信息判断,得到结果。
所述恶意图文的多模态检测方法优选方案,步骤S2具体执行如下:ViLBERT选定了两项预训练任务:Masked multi-modal learning是遮挡住部分图片和文本信息,让模型预测相应的图片区域和文本;Multi-modal alignment prediction即是给定标题和图片,判断两者是否契合。
所述恶意图文的多模态检测方法优选方案,步骤S3具体执行如下:图像处理方面,利用Faster R-CNN从图像中提取多个目标区域的特征及位置信息,得到,分别代表归一化处理后的左上角、右下角坐标及面积;之后映射到匹配视觉特征的维度,作为图像信息表征。
所述恶意图文的多模态检测方法优选方案,步骤S4具体执行如下:对大量无标记的文本进行预训练,通过遮蔽部分信息,使模型实现自监督学习,文本在生成embedding后经过了额外的几个Transformer层,来生成上下文之间的联系。
所述恶意图文的多模态检测方法优选方案,步骤S5具体执行如下:文本流与图像流经过多层相互交叉的co-transformer,其输入为图片隐藏层和文本隐藏层,与基础BERT模型不同的是其Key和Value交叉传递,用图片的上下文给文字加权,用文字的上下文给图片加权,进而判断图片与文字是否吻合。
本发明的优点在于:
基于多模态框架的vilbert,对图像及图像中文字进行联合识别,判断图文是否一致,表达是否符合规定,禁止带有侮辱、讽刺、色情等图片及文字内容上传至公共页面。
具体实施方式
下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种恶意图文的多模态检测方法,包括以下步骤:
S1.配置多模态环境;
S2.建立图文检测数据集,并进行数据清洗和标记,分别给定是否属于恶意图文的标签0或1;
S3. 通过Faster R-CNN网络对输入图像进行特征提取,提取图像特征;
S4.以bert base模型基本参数作为文字处理部分的参数,提取文字特征及上下文关系;
S5.图像特征与文字特征进行co-attention处理,进而进行图片分类任务,及恶意图文信息判断,得到结果。
本实施例中,步骤S2具体执行如下:ViLBERT选定了两项预训练任务:Maskedmulti-modal learning是遮挡住部分图片和文本信息,让模型预测相应的图片区域和文本;Multi-modal alignment prediction即是给定标题和图片,判断两者是否契合。
本实施例中,步骤S3具体执行如下:图像处理方面,利用Faster R-CNN从图像中提取多个目标区域的特征及位置信息,得到
Figure DEST_PATH_IMAGE001
,分别代表归一化处理后的左上角、右下角坐标及面积;之后映射到匹配视觉特征的维度,作为图像信息表征。
本实施例中,步骤S4具体执行如下:对大量无标记的文本进行预训练,通过遮蔽部分信息,使模型实现自监督学习,文本在生成embedding后经过了额外的几个Transformer层,来生成上下文之间的联系。
本实施例中,步骤S5具体执行如下:文本流与图像流经过多层相互交叉的co-transformer,其输入为图片隐藏层和文本隐藏层,与基础BERT模型不同的是其Key和Value交叉传递,用图片的上下文给文字加权,用文字的上下文给图片加权。进而判断图片与文字是否吻合。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种恶意图文的多模态检测方法,其特征在于:包括以下步骤:
S1.配置多模态环境;
S2.建立图文检测数据集,并进行数据清洗和标记,分别给定是否属于恶意图文的标签0或1;
S3. 通过Faster R-CNN网络对输入图像进行特征提取,提取图像特征;
S4.以bert base模型基本参数作为文字处理部分的参数,提取文字特征及上下文关系;
S5.图像特征与文字特征进行co-attention处理,进而进行图片分类任务,及恶意图文信息判断,得到结果。
2.根据权利要求1所述恶意图文的多模态检测方法,其特征在于:步骤S2具体执行如下:ViLBERT选定了两项预训练任务:Masked multi-modal learning是遮挡住部分图片和文本信息,让模型预测相应的图片区域和文本;Multi-modal alignment prediction即是给定标题和图片,判断两者是否契合。
3.根据权利要求1所述恶意图文的多模态检测方法,其特征在于:步骤S3具体执行如下:图像处理方面,利用Faster R-CNN从图像中提取多个目标区域的特征及位置信息,得到
Figure DEST_PATH_IMAGE002
,分别代表归一化处理后的左上角、右下角坐标及面积;之后映射到匹配视觉特征的维度,作为图像信息表征。
4.根据权利要求1所述恶意图文的多模态检测方法,其特征在于:步骤S4具体执行如下:对大量无标记的文本进行预训练,通过遮蔽部分信息,使模型实现自监督学习,文本在生成embedding后经过了额外的几个Transformer层,来生成上下文之间的联系。
5.根据权利要求1所述恶意图文的多模态检测方法,其特征在于:步骤S5具体执行如下:文本流与图像流经过多层相互交叉的co-transformer,其输入为图片隐藏层和文本隐藏层,与基础BERT模型不同的是其Key和Value交叉传递,用图片的上下文给文字加权,用文字的上下文给图片加权,进而判断图片与文字是否吻合。
CN202011306928.4A 2020-11-20 2020-11-20 恶意图文的多模态检测方法 Pending CN112417194A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011306928.4A CN112417194A (zh) 2020-11-20 2020-11-20 恶意图文的多模态检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011306928.4A CN112417194A (zh) 2020-11-20 2020-11-20 恶意图文的多模态检测方法

Publications (1)

Publication Number Publication Date
CN112417194A true CN112417194A (zh) 2021-02-26

Family

ID=74773718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011306928.4A Pending CN112417194A (zh) 2020-11-20 2020-11-20 恶意图文的多模态检测方法

Country Status (1)

Country Link
CN (1) CN112417194A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434721A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 表情包分类方法、装置、计算机设备和存储介质
CN114140673A (zh) * 2022-02-07 2022-03-04 人民中科(济南)智能技术有限公司 一种违规图像识别方法、系统及设备
CN115909374A (zh) * 2021-09-30 2023-04-04 腾讯科技(深圳)有限公司 一种信息识别方法、装置、设备及存储介质、程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160292217A1 (en) * 2015-04-02 2016-10-06 Facebook, Inc. Techniques for context sensitive illustrated graphical user interface elements
CN108228720A (zh) * 2017-12-07 2018-06-29 北京字节跳动网络技术有限公司 识别目标文字内容和原图相关性的方法、系统、装置、终端、及存储介质
CN108984530A (zh) * 2018-07-23 2018-12-11 北京信息科技大学 一种网络敏感内容的检测方法及检测系统
CN110879963A (zh) * 2019-09-18 2020-03-13 北京印刷学院 一种敏感表情包检测方法、装置与电子设备
CN111460247A (zh) * 2019-01-21 2020-07-28 重庆邮电大学 网络图片敏感文字自动检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160292217A1 (en) * 2015-04-02 2016-10-06 Facebook, Inc. Techniques for context sensitive illustrated graphical user interface elements
CN108228720A (zh) * 2017-12-07 2018-06-29 北京字节跳动网络技术有限公司 识别目标文字内容和原图相关性的方法、系统、装置、终端、及存储介质
CN108984530A (zh) * 2018-07-23 2018-12-11 北京信息科技大学 一种网络敏感内容的检测方法及检测系统
CN111460247A (zh) * 2019-01-21 2020-07-28 重庆邮电大学 网络图片敏感文字自动检测方法
CN110879963A (zh) * 2019-09-18 2020-03-13 北京印刷学院 一种敏感表情包检测方法、装置与电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LU JS 等: "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS》 *
相子喜等: "基于有向图模型的多模态新闻图像检索研究", 《科学技术与工程》 *
魏忠钰等: "从视觉到文本:图像描述生成的研究进展综述", 《中文信息学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434721A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 表情包分类方法、装置、计算机设备和存储介质
CN115909374A (zh) * 2021-09-30 2023-04-04 腾讯科技(深圳)有限公司 一种信息识别方法、装置、设备及存储介质、程序产品
CN114140673A (zh) * 2022-02-07 2022-03-04 人民中科(济南)智能技术有限公司 一种违规图像识别方法、系统及设备

Similar Documents

Publication Publication Date Title
US11205023B2 (en) Computer aided systems and methods for creating custom products
US11030825B2 (en) Computer aided systems and methods for creating custom products
CN112417194A (zh) 恶意图文的多模态检测方法
CN109800698B (zh) 基于深度学习的图标检测方法、图标检测系统和存储介质
Karayev et al. Recognizing image style
Miao et al. A hierarchical multiscale and multiangle system for human face detection in a complex background using gravity-center template
JP6503081B2 (ja) 四次元コード及び、四次元コードに基づく画像識別システム及び画像識別方法、四次元コード検索システム及び四次元コード検索方法
CN107590491B (zh) 一种图像处理方法及装置
Huo et al. Research on QR image code recognition system based on artificial intelligence algorithm
CN106529380A (zh) 图像的识别方法及装置
EP2587826A1 (en) Extraction and association method and system for objects of interest in video
CN104603833B (zh) 用于将印刷对象与电子内容链接的方法和系统
CN105426810B (zh) 信息处理装置和图像修改方法
CN114821620A (zh) 基于行文本框纵向合并的文本内容提取识别方法
CN109582926A (zh) 一种基于融合字体的抗打印扫描攻击的数字打印方法
CN113190310B (zh) 基于随机位置对象语义识别的验证码设计方法
JP2011128924A (ja) マンガ画像からテキストを抽出するマンガ画像解析装置、プログラム、検索装置及び方法
Aadhirai et al. Image CAPTCHA: Based on human understanding of real world distances
Noaman et al. Image colorization: A survey of methodolgies and techniques
Zhang et al. DNN-CBAM: An enhanced DNN model for facial emotion recognition
Madan et al. Parsing and summarizing infographics with synthetically trained icon detection
Wang et al. Font transfer based on parallel auto-encoder for glyph perturbation via strokes moving
Zhu et al. On Image-Processing-Based Identification Method of Express Logistics Information.
Gupta et al. GlyphNet: Homoglyph domains dataset and detection using attention-based Convolutional Neural Networks
Iqbal et al. Machine learning techniques for image manipulation detection: A review and analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210226