CN114782670A - 一种多模态敏感信息鉴别方法、设备及介质 - Google Patents

一种多模态敏感信息鉴别方法、设备及介质 Download PDF

Info

Publication number
CN114782670A
CN114782670A CN202210509975.1A CN202210509975A CN114782670A CN 114782670 A CN114782670 A CN 114782670A CN 202210509975 A CN202210509975 A CN 202210509975A CN 114782670 A CN114782670 A CN 114782670A
Authority
CN
China
Prior art keywords
information
modal
image information
image
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210509975.1A
Other languages
English (en)
Inventor
籍焱
王兴
薄满辉
唐红武
王殿胜
王仲候
章凡寿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Travelsky Mobile Technology Co Ltd
Original Assignee
China Travelsky Mobile Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Travelsky Mobile Technology Co Ltd filed Critical China Travelsky Mobile Technology Co Ltd
Priority to CN202210509975.1A priority Critical patent/CN114782670A/zh
Publication of CN114782670A publication Critical patent/CN114782670A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种多模态敏感信息鉴别方法、设备及介质,包括:确定多模态信息包含的图像信息对应的ROI;通过多模态模型中的FasterRCNN模型提取每一ROI的视觉元素特征,通过所述多模态模型的图像编码层提取所述图像信息的图像特征,以确定图像信息特征序列;通过所述多模态模型中的BERT模型确定文本信息特征序列;将图像信息特征序列、文本信息特征序列分别嵌入到多模态模型对应的图像模态嵌入向量和文本模态嵌入向量,以确定特征组合序列;通过多模态模型的交互层对所述特征组合序列进行计算,得到鉴别特征集;通过多模态模型的分类层对所述鉴别特征集进行计算,得到所述多模态信息的鉴别结果。本发明能够对图像信息和文本信息不对应的多模态信息进行鉴别。

Description

一种多模态敏感信息鉴别方法、设备及介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种多模态敏感信息鉴别方法、设备及介质。
背景技术
随着互联网技术的快速发展,线上购物、社交、通讯等网络平台在人们的生活中扮演着越来越重要的角色,人们越发依赖线上的交流。线上交流又多以图片、文本为载体,内容复杂且多样,有时也充斥着各种低俗、博人眼球的内容,严重影响网络安全和人们的身心健康。利用人工的方式对不同模态信息进行分类筛选,极大地浪费人力成本。因此,如何利用人工智能来对各种模态的敏感信息进行鉴别,成为了研究者们越来越关注的问题。但目前主流的鉴别方法对图像和文本信息不对应的多模态信息的鉴别效果不佳,且对暗示性的图像和文本的鉴别结果不是很好。
发明内容
有鉴于此,本发明提供一种多模态敏感信息鉴别方法、设备及介质,可分别对待鉴别的多模态信息的图像信息和文本信息的敏感性进行鉴别,至少部分解决现有技术中存在的问题。
具体发明内容为:
一种多模态敏感信息鉴别方法,包括:
确定待鉴别的多模态信息;
确定所述多模态信息包含的图像信息对应的至少一个ROI;
通过多模态模型中的FasterRCNN模型提取每一ROI的视觉元素特征,通过所述多模态模型的图像编码层提取所述图像信息的图像特征;
根据所述视觉元素特征和图像特征确定图像信息特征序列
Figure 68275DEST_PATH_IMAGE002
Figure 100002_DEST_PATH_IMAGE003
=[vclass; v1V;……;vNV]+ Vpos,其中,vclass为所述图像信息的ROI序列,vx为第x个ROI对应的视觉元素 特征,N为所述图像信息包含的ROI数量,V为所述视觉元素特征和图像特征的特征矩阵,Vpos 为所述图像信息的位置嵌入矩阵;
通过所述多模态模型中的BERT模型获取所述多模态信息包含的文本信息的单词 嵌入矩阵T和位置嵌入矩阵Tpos,以确定文本信息特征序列
Figure 100002_DEST_PATH_IMAGE005
Figure 593191DEST_PATH_IMAGE007
=[tclass;t1T;……;tLT]+ Tpos,其中,tclass为所述文本信息经过分词后的单词序列,tx为单词序列中第x个单词的特 征,L为单词序列包含单词的数量;
将图像信息特征序列
Figure 335888DEST_PATH_IMAGE008
、文本信息特征序列
Figure 137490DEST_PATH_IMAGE010
分别嵌入到所述多模态模型对应的 图像模态嵌入向量vtype和文本模态嵌入向量ttype中,以确定特征组合序列z0;z0=[
Figure 372163DEST_PATH_IMAGE011
+vtype
Figure 448572DEST_PATH_IMAGE008
+vtype];
通过所述多模态模型的交互层对所述特征组合序列z0进行计算,得到鉴别特征集;
通过所述多模态模型的分类层对所述鉴别特征集进行计算,得到所述多模态信息的鉴别结果;所述鉴别结果包括:所述图像信息和文本信息相结合的鉴别结果、所述图像信息的鉴别结果和所述文本信息的鉴别结果。
进一步地,所述多模态模型的分类层包括第一分类层、第二分类层和第三分类层;通过所述多模态模型的分类层对所述鉴别特征集进行计算,包括:
通过所述第一分类层对所述鉴别特征集进行计算,得到所述图像信息和文本信息相结合的鉴别结果;
通过所述第二分类层对所述鉴别特征集进行计算,得到所述图像信息的鉴别结果;
通过所述第三分类层对所述鉴别特征集进行计算,得到所述文本信息的鉴别结果。
进一步地,所述多模态模型是根据敏感信息数据集训练得到的,所述敏感信息数据集包括图像信息和文本信息具有相关性的第一多模态信息数据集、图像信息和文本信息不具备相关性的第二多模态信息数据集;所述敏感信息数据集中的多模态信息根据标签设置规则设置有分类标签;所述标签设置规则包括:
根据各多模态信息包含的图像信息和文本信息的敏感分类,为每一图像信息和文本信息设置初始标签,所述初始标签包括敏感、非敏感、暗示;根据每一图像信息和文本信息的初始标签,为对应的各多模态信息设置总标签。
进一步地,所述根据每一图像信息和文本信息的初始标签,为对应的各多模态信息设置总标签,包括:
获取所述第一多模态信息数据集中各多模态信息包含的图像信息和文本信息的初始标签,当图像信息和文本信息的初始标签至少有一个为敏感或暗示时,为对应的多模态信息设置敏感标签;
获取所述第二多模态信息数据集中各多模态信息包含的图像信息和文本信息的初始标签,当图像信息和文本信息的初始标签至少有一个为敏感,或均为暗示时,为对应的多模态信息设置敏感标签。
进一步地,对所述多模态模型进行训练,包括:
通过所述多模态模型对所述敏感信息数据集中的多模态信息进行鉴别,得到所述敏感信息数据集中各多模态信息的所述鉴别结果;
将得到的鉴别结果与对应的每一多模态信息包含的初始标签和总标签进行对比,并确定每一类鉴别结果的交叉熵损失S,得到对应训练结果的全局损失Stotal,用以对所述多模态模型进行优化;
Figure 783126DEST_PATH_IMAGE013
,Stotal=λ 1S图像信息和文本信息+λ 2S图像信息+λ 3S文本信息;其中,k为单次训练 的多模态信息的数量,
Figure 21209DEST_PATH_IMAGE015
为y类鉴别结果的权重向量的转置矩阵,fy为y类鉴别结果的特征, c为所述敏感信息数据集中标签类别的数量,λ 1λ 2λ 3分别为预先设定的图像信息和文本信 息类鉴别结果的损失S图像信息和文本信息、图像信息类鉴别结果的损失S图像信息、文本信息类鉴别结果 的损失S文本信息的权重。
进一步地,通过所述多模态模型的交互层对所述特征组合序列z0进行计算,得到鉴别特征集,包括:
通过所述多模态模型的交互层对所述特征组合序列z0进行迭代计算,得到语境化 向量
Figure 743177DEST_PATH_IMAGE017
根据所述zD的第一个索引的线性投影Wpool和双曲正切确定所述鉴别特征集P;
Figure 357698DEST_PATH_IMAGE019
进一步地,通过所述多模态模型的交互层对所述特征组合序列z0进行迭代计算,包括:
通过所述交互层的MSA层和MLP层对所述特征组合序列z0进行迭代计算;
其中,通过MSA层计算得到特征序列
Figure 950354DEST_PATH_IMAGE021
;通过MLP层计算 得到特征序列zd
Figure 905145DEST_PATH_IMAGE023
;其中,D为迭代计算的深度,d=1……D,LN为归一 化。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述多模态敏感信息鉴别方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述多模态敏感信息鉴别方法。
一种计算机程序产品,包括:当所述计算机程序产品中的指令由处理器执行时,执行前述多模态敏感信息鉴别方法。
本发明的有益效果体现在:
本发明在对待鉴别的多模态信息的图像信息特征进行提取时,通过FasterRCNN模型提取关键区域的视觉元素特征,能够有效较少背景信息的干扰,同时考虑到通过FasterRCNN模型对图像信息进行切片可能会丢失全局信息,因此将整体的图像信息作为输入提取对应的图像特征,来完善全局信息,能够更全面准确地确定图像信息特征,进一步确保鉴别结果的精准性。本发明能够分别输出图像信息和文本信息相结合、单独图像信息、单独文本信息的三类鉴别结果,有利于对图像信息和文本信息不对应的多模态信息进行鉴别,有效提高鉴别结果准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例一种多模态敏感信息鉴别方法流程图;
图2为本发明实施例一种BERT模型示意图;
图3为本发明实施例一种多模态模型训练方法流程图;
图4为本发明实施例另一种多模态敏感信息鉴别方法流程图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
本发明提供一种多模态敏感信息鉴别方法实施例,如图1所示,包括:
S11:确定待鉴别的多模态信息;
S12:确定所述多模态信息包含的图像信息对应的至少一个ROI;
S13:通过多模态模型中的FasterRCNN模型提取每一ROI的视觉元素特征,通过所述多模态模型的图像编码层提取所述图像信息的图像特征;
S14:根据所述视觉元素特征和图像特征确定图像信息特征序列
Figure 848831DEST_PATH_IMAGE025
Figure 532622DEST_PATH_IMAGE026
=[vclass; v1V;……;vNV]+ Vpos,其中,vclass为所述图像信息的ROI序列,vx为第x个ROI对应的视觉元素 特征,N为所述图像信息包含的ROI数量,V为所述视觉元素特征和图像特征的特征矩阵,Vpos 为所述图像信息的位置嵌入矩阵;
S15:通过所述多模态模型中的BERT模型获取所述多模态信息包含的文本信息的 单词嵌入矩阵T和位置嵌入矩阵Tpos,以确定文本信息特征序列
Figure 245363DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
=[tclass;t1T;……; tLT]+ Tpos,其中,tclass为所述文本信息经过分词后的单词序列,tx为单词序列中第x个单词 的特征,L为单词序列包含单词的数量;
S16:将图像信息特征序列
Figure 421654DEST_PATH_IMAGE030
、文本信息特征序列
Figure 852635DEST_PATH_IMAGE010
分别嵌入到所述多模态模型对 应的图像模态嵌入向量vtype和文本模态嵌入向量ttype中,以确定特征组合序列z0;z0=[
Figure DEST_PATH_IMAGE031
+ vtype
Figure 605696DEST_PATH_IMAGE032
+vtype];
S17:通过所述多模态模型的交互层对所述特征组合序列z0进行计算,得到鉴别特征集;
S18:通过所述多模态模型的分类层对所述鉴别特征集进行计算,得到所述多模态信息的鉴别结果;所述鉴别结果包括:所述图像信息和文本信息相结合的鉴别结果、所述图像信息的鉴别结果和所述文本信息的鉴别结果。
图1所述实施例在对待鉴别的多模态信息的图像信息特征进行提取时,通过 FasterRCNN模型提取关键区域的视觉元素特征,能够有效较少背景信息的干扰,同时考虑 到通过FasterRCNN模型对图像信息进行切片可能会丢失全局信息,因此将整体的图像信息 作为输入提取对应的图像特征,来完善全局信息,能够更全面准确地确定图像信息特征,进 一步确保鉴别结果的精准性。位置嵌入矩阵Vpos用于标记图像信息的每一视觉元素的几何 位置,例如,每一ROI用一个4-D向量表示,如
Figure 563157DEST_PATH_IMAGE034
,其中,(XLT,YLT)和(XRB,YRB) 代表对应ROI的左上角和右下角的坐标,W、H代表对应ROI的宽度和高度。每个ROI输出层之 前的特征向量用作对应的视觉特征嵌入(2048-D)。本实施例在对待鉴别的多模态信息的文 本信息特征进行提取时,利用BERT模型,根据实际业务需求,若针对中文文本信息特征进行 提取,可单独使用中文BERT模型,能够更好地提取中文特征。为对BERT模型进行进一步说 明,本实施例提供一种BERT模型示意图,如图2所示。
优选地,所述多模态模型的分类层包括第一分类层、第二分类层和第三分类层;通过所述多模态模型的分类层对所述鉴别特征集进行计算,包括:
通过所述第一分类层对所述鉴别特征集进行计算,得到所述图像信息和文本信息相结合的鉴别结果;
通过所述第二分类层对所述鉴别特征集进行计算,得到所述图像信息的鉴别结果;
通过所述第三分类层对所述鉴别特征集进行计算,得到所述文本信息的鉴别结果。
该优选方案相较主流鉴别方法只输出一个鉴别结果相比,能够分别输出图像信息和文本信息相结合、单独图像信息、单独文本信息的三类鉴别结果,有利于对图像信息和文本信息不对应的多模态信息进行鉴别,有效提高鉴别结果准确率。所述第一分类层、第二分类层和第三分类层对所述鉴别特征集进行计算后,均分别得到各类鉴别结果的概率,取最大概率值对应的鉴别结果作为对应分类层输出的最终鉴别结果,所述鉴别结果包括:敏感、非敏感。以第三分类层为例,例如,通过第三分类层对所述鉴别特征集进行计算后,得到对应文本信息为敏感的概率为0.3,为非敏感的概率为0.7,则第三分类层输出的鉴别结果为非敏感。
优选地,所述多模态模型是根据敏感信息数据集训练得到的,所述敏感信息数据集包括图像信息和文本信息具有相关性的第一多模态信息数据集、图像信息和文本信息不具备相关性的第二多模态信息数据集;所述敏感信息数据集中的多模态信息根据标签设置规则设置有分类标签;所述标签设置规则包括:
根据各多模态信息包含的图像信息和文本信息的敏感分类,为每一图像信息和文本信息设置初始标签,所述初始标签包括敏感、非敏感、暗示;根据每一图像信息和文本信息的初始标签,为对应的各多模态信息设置总标签。
优选地,所述根据每一图像信息和文本信息的初始标签,为对应的各多模态信息设置总标签,包括:
获取所述第一多模态信息数据集中各多模态信息包含的图像信息和文本信息的初始标签,当图像信息和文本信息的初始标签至少有一个为敏感或暗示时,为对应的多模态信息设置敏感标签;
获取所述第二多模态信息数据集中各多模态信息包含的图像信息和文本信息的初始标签,当图像信息和文本信息的初始标签至少有一个为敏感,或均为暗示时,为对应的多模态信息设置敏感标签。
上述优选方案中,第一多模态信息数据集存储图像信息和文本信息有相关性的多模态信息,即文本描述的是图像中的一些内容,对应的文本信息和图像信息只要有一方为敏感或暗示,则相应的多模态信息即为敏感。第二多模态信息数据集存储图像信息和文本信息不具备相关性的多模态信息,即文本的描述和图像内容没有什么直接关系,这部分多模态信息可分为7种情况,根据不同情况对应的设置初始标签和总标签,例如,“0”为非敏感标签,“1”为敏感标签,“0(暗示)”为暗示标签,则相应标签设置如下表所示。
Figure 189310DEST_PATH_IMAGE036
基于上述敏感信息数据集对所述多模态模型进行训练,能够使得所述多模态模型具备对图像信息和文本信息不相关的多模态信息,以及具有暗示性的多模态信息的敏感性进行鉴别的能力,有效提升对多模态敏感信息的检出率,有利于维护网络安全和人们的身心健康。
优选地,对所述多模态模型进行训练,包括:
通过所述多模态模型对所述敏感信息数据集中的多模态信息进行鉴别,得到所述敏感信息数据集中各多模态信息的所述鉴别结果;
将得到的鉴别结果与对应的每一多模态信息包含的初始标签和总标签进行对比,并确定每一类鉴别结果的交叉熵损失S,得到对应训练结果的全局损失Stotal,用以对所述多模态模型进行优化;
Figure 235151DEST_PATH_IMAGE038
,Stotal=λ 1S图像信息和文本信息+λ 2S图像信息+λ 3S文本信息;其中,k为单次训练的 多模态信息的数量,
Figure 401690DEST_PATH_IMAGE040
为y类鉴别结果的权重向量的转置矩阵,fy为y类鉴别结果的特征,c 为所述敏感信息数据集中标签类别的数量,λ 1λ 2λ 3分别为预先设定的图像信息和文本信 息类鉴别结果的损失S图像信息和文本信息、图像信息类鉴别结果的损失S图像信息、文本信息类鉴别结果 的损失S文本信息的权重。
为对上述对多模态模型进行训练的过程进行进一步说明,结合上述优选方案,本发明提供一种多模态模型训练方法实施例,如图3所示,包括:
S31:根据预先设置的输入规则,将敏感信息数据集中的数据分批输入至多模态模型;
S32:确定输入的每一多模态信息包含的图像信息对应的至少一个ROI;
S33:通过多模态模型中的FasterRCNN模型提取每一ROI的视觉元素特征,通过所述多模态模型的图像编码层提取每一多模态信息对应的图像信息的图像特征;
S34:根据每一多模态信息对应的视觉元素特征和图像特征确定每一多模态信息的图像信息特征序列;
S35:通过所述多模态模型中的BERT模型获取每一多模态信息包含的文本信息的单词嵌入矩阵和位置嵌入矩阵,以确定每一多模态信息对应的文本信息特征序列;
S36:将每一多模态信息对应的图像信息特征和文本信息特征分别嵌入到所述多模态模型对应的图像模态嵌入向量和文本模态嵌入向量中,以确定每一多模态信息对应的特征组合序列;
S37:通过所述多模态模型的交互层对各特征组合序列进行计算,得到每一多模态信息对应的鉴别特征集;
S38:分别通过所述多模态模型分类层的第一分类层、第二分类层、第三分类层对每一多模态信息对应的鉴别特征集进行计算,对应得到每一多模态信息对应的图像信息和文本信息相结合的鉴别结果、图像信息的鉴别结果、文本信息的鉴别结果;
S39:将得到的鉴别结果与对应的每一多模态信息包含的初始标签和总标签进行对比,并确定每一类鉴别结果的交叉熵损失,得到对应训练结果的全局损失;
S310:根据所述全局损失对所述多模态模型进行优化。
图3所述实施例的部分过程与图1所述实施例相近,因此对图3所述实施例的描述较为简单,相应部分请参照图1所述实施例。
优选地,通过所述多模态模型的交互层对所述特征组合序列z0进行计算,得到鉴别特征集,包括:
通过所述多模态模型的交互层对所述特征组合序列
Figure DEST_PATH_IMAGE042
进行迭代计算,得到语境化 向量zD
根据所述zD的第一个索引的线性投影Wpool和双曲正切确定所述鉴别特征集P;
Figure DEST_PATH_IMAGE044
优选地,通过所述多模态模型的交互层对所述特征组合序列z0进行迭代计算,包括:
通过所述交互层的MSA层和MLP层对所述特征组合序列z0进行迭代计算;
其中,通过MSA层计算得到特征序列
Figure DEST_PATH_IMAGE046
;通过MLP 层计算得到特征序列zd
Figure DEST_PATH_IMAGE048
;其中,D为迭代计算的深度,d=1……D, LN为归一化。所述交互层由MSA层、MLP层和LN层堆叠的块组成,该优选方案每次进行MSA层 和MLP层计算时都要先进行归一化,即采用前规范的方式,LN层的位置在MSA层和MLP层之 前,通过多层堆叠快的迭代交互计算,得到最终的鉴别特征集P。
为对本发明进行进一步说明,结合上述优选方案,本发明提供另一种多模态敏感信息鉴别方法实施例,如图4所示,包括:
S41:确定待鉴别的多模态信息;
S42:确定所述多模态信息包含的图像信息对应的至少一个ROI;
S43:通过多模态模型中的FasterRCNN模型提取每一ROI的视觉元素特征,通过所述多模态模型的图像编码层提取所述图像信息的图像特征;
S44:根据所述视觉元素特征和图像特征确定图像信息特征序列;
S45:通过所述多模态模型中的BERT模型获取所述多模态信息包含的文本信息的单词嵌入矩阵和位置嵌入矩阵,以确定文本信息特征序列;
S46:将图像信息特征序列、文本信息特征序列分别嵌入到所述多模态模型对应的图像模态嵌入向量和文本模态嵌入向量中,以确定特征组合序列;
S47:通过所述多模态模型的交互层的MSA层和MLP层对所述特征组合序列进行迭代计算,得到语境化向量;
S48:根据所述语境化向量的第一个索引的线性投影和双曲正切确定鉴别特征集;
S49:通过所述多模态模型分类层的第一分类层、第二分类层、第三分类层对所述鉴别特征集进行计算,对应得到待鉴别多模态信息对应的图像信息和文本信息相结合的鉴别结果、图像信息的鉴别结果、文本信息的鉴别结果。
图4所述实施例的部分过程与图1所述实施例相近,因此对图4所述实施例描述的较为简单,相应之处请参照图1所述实施例。
本发明还提供了一种计算机设备实施例,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述实施例所述的方法,所述方法可参见图1、图3、图4所述实施例的描述,在此不再赘述。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述实施例所述的方法。
本发明实施例还提供一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行前述实施例所述的方法。
本发明在对待鉴别的多模态信息的图像信息特征进行提取时,通过FasterRCNN模型提取关键区域的视觉元素特征,能够有效较少背景信息的干扰,同时考虑到通过FasterRCNN模型对图像信息进行切片可能会丢失全局信息,因此将整体的图像信息作为输入提取对应的图像特征,来完善全局信息,能够更全面准确地确定图像信息特征,进一步确保鉴别结果的精准性。本发明能够分别输出图像信息和文本信息相结合、单独图像信息、单独文本信息的三类鉴别结果,有利于对图像信息和文本信息不对应的多模态信息进行鉴别,有效提高鉴别结果准确率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种多模态敏感信息鉴别方法,其特征在于,包括:
确定待鉴别的多模态信息;
确定所述多模态信息包含的图像信息对应的至少一个ROI;
通过多模态模型中的FasterRCNN模型提取每一ROI的视觉元素特征,通过所述多模态模型的图像编码层提取所述图像信息的图像特征;
根据所述视觉元素特征和图像特征确定图像信息特征序列
Figure DEST_PATH_IMAGE001
Figure 255291DEST_PATH_IMAGE001
=[vclass;v1V;……; vNV]+ Vpos,其中,vclass为所述图像信息的ROI序列,vx为第x个ROI对应的视觉元素特征,N为 所述图像信息包含的ROI数量,V为所述视觉元素特征和图像特征的特征矩阵,Vpos为所述图 像信息的位置嵌入矩阵;
通过所述多模态模型中的BERT模型获取所述多模态信息包含的文本信息的单词嵌入 矩阵T和位置嵌入矩阵Tpos,以确定文本信息特征序列
Figure 687278DEST_PATH_IMAGE002
Figure 515951DEST_PATH_IMAGE002
=[tclass;t1T;……;tLT]+ Tpos,其 中,tclass为所述文本信息经过分词后的单词序列,tx为单词序列中第x个单词的特征,L为单 词序列包含单词的数量;
将图像信息特征序列
Figure 491253DEST_PATH_IMAGE001
、文本信息特征序列
Figure DEST_PATH_IMAGE003
分别嵌入到所述多模态模型对应的图像模 态嵌入向量vtype和文本模态嵌入向量ttype中,以确定特征组合序列z0;z0=[
Figure 275932DEST_PATH_IMAGE002
+vtype
Figure 488607DEST_PATH_IMAGE001
+ vtype];
通过所述多模态模型的交互层对所述特征组合序列z0进行计算,得到鉴别特征集;
通过所述多模态模型的分类层对所述鉴别特征集进行计算,得到所述多模态信息的鉴别结果;所述鉴别结果包括:所述图像信息和文本信息相结合的鉴别结果、所述图像信息的鉴别结果和所述文本信息的鉴别结果。
2.根据权利要求1所述的方法,其特征在于,所述多模态模型的分类层包括第一分类层、第二分类层和第三分类层;通过所述多模态模型的分类层对所述鉴别特征集进行计算,包括:
通过所述第一分类层对所述鉴别特征集进行计算,得到所述图像信息和文本信息相结合的鉴别结果;
通过所述第二分类层对所述鉴别特征集进行计算,得到所述图像信息的鉴别结果;
通过所述第三分类层对所述鉴别特征集进行计算,得到所述文本信息的鉴别结果。
3.根据权利要求2所述的方法,其特征在于,所述多模态模型是根据敏感信息数据集训练得到的,所述敏感信息数据集包括图像信息和文本信息具有相关性的第一多模态信息数据集、图像信息和文本信息不具备相关性的第二多模态信息数据集;所述敏感信息数据集中的多模态信息根据标签设置规则设置有分类标签;所述标签设置规则包括:
根据各多模态信息包含的图像信息和文本信息的敏感分类,为每一图像信息和文本信息设置初始标签,所述初始标签包括敏感、非敏感、暗示;根据每一图像信息和文本信息的初始标签,为对应的各多模态信息设置总标签。
4.根据权利要求3所述的方法,其特征在于,所述根据每一图像信息和文本信息的初始标签,为对应的各多模态信息设置总标签,包括:
获取所述第一多模态信息数据集中各多模态信息包含的图像信息和文本信息的初始标签,当图像信息和文本信息的初始标签至少有一个为敏感或暗示时,为对应的多模态信息设置敏感标签;
获取所述第二多模态信息数据集中各多模态信息包含的图像信息和文本信息的初始标签,当图像信息和文本信息的初始标签至少有一个为敏感,或均为暗示时,为对应的多模态信息设置敏感标签。
5.根据权利要求4所述的方法,其特征在于,对所述多模态模型进行训练,包括:
通过所述多模态模型对所述敏感信息数据集中的多模态信息进行鉴别,得到所述敏感信息数据集中各多模态信息的所述鉴别结果;
将得到的鉴别结果与对应的每一多模态信息包含的初始标签和总标签进行对比,并确定每一类鉴别结果的交叉熵损失S,得到对应训练结果的全局损失Stotal,用以对所述多模态模型进行优化;
Figure 349116DEST_PATH_IMAGE004
,Stotal=λ 1S图像信息和文本信息+λ 2S图像信息+λ 3S文本信息;其中,k为单次 训练的多模态信息的数量,
Figure DEST_PATH_IMAGE005
为y类鉴别结果的权重向量的转置矩阵,fy为y类鉴别结果 的特征,c为所述敏感信息数据集中标签类别的数量,λ 1λ 2λ 3分别为预先设定的图像信息 和文本信息类鉴别结果的损失S图像信息和文本信息、图像信息类鉴别结果的损失S图像信息、文本信息类 鉴别结果的损失S文本信息的权重。
6.根据权利要求1所述的方法,其特征在于,通过所述多模态模型的交互层对所述特征组合序列z0进行计算,得到鉴别特征集,包括:
通过所述多模态模型的交互层对所述特征组合序列进行迭代计算,得到语境化向量zD
根据所述zD的第一个索引的线性投影Wpool和双曲正切确定所述鉴别特征集P;
Figure 522915DEST_PATH_IMAGE006
7.根据权利要求6所述的方法,其特征在于,通过所述多模态模型的交互层对所述特征组合序列z0进行迭代计算,包括:
通过所述交互层的MSA层和MLP层对所述特征组合序列z0进行迭代计算;
其中,通过MSA层计算得到特征序列
Figure DEST_PATH_IMAGE007
;通过 MLP层计算得到特征序列zd
Figure 644324DEST_PATH_IMAGE008
;其中,D为迭代计算的深度, d=1……D,LN为归一化。
8.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的多模态敏感信息鉴别方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1至7项任一所述的多模态敏感信息鉴别方法。
10.一种计算机程序产品,其特征在于,包括:当所述计算机程序产品中的指令由处理器执行时,执行如权利要求1至7项任一所述的多模态敏感信息鉴别方法。
CN202210509975.1A 2022-05-11 2022-05-11 一种多模态敏感信息鉴别方法、设备及介质 Pending CN114782670A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210509975.1A CN114782670A (zh) 2022-05-11 2022-05-11 一种多模态敏感信息鉴别方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210509975.1A CN114782670A (zh) 2022-05-11 2022-05-11 一种多模态敏感信息鉴别方法、设备及介质

Publications (1)

Publication Number Publication Date
CN114782670A true CN114782670A (zh) 2022-07-22

Family

ID=82437378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210509975.1A Pending CN114782670A (zh) 2022-05-11 2022-05-11 一种多模态敏感信息鉴别方法、设备及介质

Country Status (1)

Country Link
CN (1) CN114782670A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115423050A (zh) * 2022-11-04 2022-12-02 暨南大学 一种虚假新闻检测方法、装置、电子设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055621A (zh) * 2006-04-10 2007-10-17 中国科学院自动化研究所 基于内容的敏感网页识别方法
CN101281521A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及系统
CN107203765A (zh) * 2017-03-30 2017-09-26 腾讯科技(上海)有限公司 敏感图像检测方法和装置
CN107862322A (zh) * 2017-09-15 2018-03-30 广州唯品会研究院有限公司 结合图片和文本进行图片属性分类的方法、装置及系统
CN111241291A (zh) * 2020-04-24 2020-06-05 支付宝(杭州)信息技术有限公司 利用对抗生成网络生成对抗样本的方法及装置
CN111368074A (zh) * 2020-02-24 2020-07-03 西安电子科技大学 一种基于网络结构和文本信息的链路预测方法
CN112257661A (zh) * 2020-11-11 2021-01-22 腾讯科技(深圳)有限公司 低俗图像的识别方法、装置、设备及计算机可读存储介质
CN112364168A (zh) * 2020-11-24 2021-02-12 中国电子科技集团公司电子科学研究院 一种基于多属性信息融合的舆情分类方法
CN113033610A (zh) * 2021-02-23 2021-06-25 河南科技大学 一种多模态融合敏感信息分类检测方法
WO2021135193A1 (zh) * 2019-12-30 2021-07-08 华南理工大学 一种基于视觉对象引导的社交媒体短文本命名实体识别方法
CN113239926A (zh) * 2021-06-17 2021-08-10 北京邮电大学 基于对抗的多模态虚假信息检测模型
US20210256051A1 (en) * 2020-02-14 2021-08-19 Beijing Baidu Netcom Science And Technology Co., Ltd. Theme classification method based on multimodality, device, and storage medium

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055621A (zh) * 2006-04-10 2007-10-17 中国科学院自动化研究所 基于内容的敏感网页识别方法
CN101281521A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及系统
CN107203765A (zh) * 2017-03-30 2017-09-26 腾讯科技(上海)有限公司 敏感图像检测方法和装置
CN107862322A (zh) * 2017-09-15 2018-03-30 广州唯品会研究院有限公司 结合图片和文本进行图片属性分类的方法、装置及系统
WO2021135193A1 (zh) * 2019-12-30 2021-07-08 华南理工大学 一种基于视觉对象引导的社交媒体短文本命名实体识别方法
US20210256051A1 (en) * 2020-02-14 2021-08-19 Beijing Baidu Netcom Science And Technology Co., Ltd. Theme classification method based on multimodality, device, and storage medium
CN111368074A (zh) * 2020-02-24 2020-07-03 西安电子科技大学 一种基于网络结构和文本信息的链路预测方法
CN111241291A (zh) * 2020-04-24 2020-06-05 支付宝(杭州)信息技术有限公司 利用对抗生成网络生成对抗样本的方法及装置
CN112257661A (zh) * 2020-11-11 2021-01-22 腾讯科技(深圳)有限公司 低俗图像的识别方法、装置、设备及计算机可读存储介质
CN112364168A (zh) * 2020-11-24 2021-02-12 中国电子科技集团公司电子科学研究院 一种基于多属性信息融合的舆情分类方法
CN113033610A (zh) * 2021-02-23 2021-06-25 河南科技大学 一种多模态融合敏感信息分类检测方法
CN113239926A (zh) * 2021-06-17 2021-08-10 北京邮电大学 基于对抗的多模态虚假信息检测模型

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
FEIRAN HUANG 等: "Image–text sentiment analysis via deep multimodal attentive fusion", 《KNOWLEDGE-BASED SYSTEMS》 *
JUNFAN CHEN 等: "Augmenting Embedding Projection With Entity Descriptions for Knowledge Graph Completion", 《DIGITAL OBJECT IDENTIFIER》 *
WENMENG YU 等: "CH-SIMS: A Chinese Multimodal Sentiment Analysis Dataset with Fine-grained Annotations of Modality", 《PROCEEDINGS OF THE 58TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
WONJAE KIM 等: "ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision", 《ARXIV:2102.03334V2》 *
刘金硕 等: "MSRD:多模态网络谣言检测方法", 《计算机研究与发展》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115423050A (zh) * 2022-11-04 2022-12-02 暨南大学 一种虚假新闻检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US20210397876A1 (en) Similarity propagation for one-shot and few-shot image segmentation
Liu et al. MAT: A multimodal attentive translator for image captioning
CN108345587B (zh) 一种评论的真实性检测方法与系统
CN108288051B (zh) 行人再识别模型训练方法及装置、电子设备和存储介质
CN110651276A (zh) 标注和标记用于深度神经网络和神经网络应用的数据流的在线增量实时学习
US11508173B2 (en) Machine learning prediction and document rendering improvement based on content order
CN108550065B (zh) 评论数据处理方法、装置及设备
CN109271999B (zh) 图像的处理方法、装置和计算机可读存储介质
CN114445201A (zh) 一种基于多模态预训练模型的组合商品检索方法及系统
CN109918513A (zh) 图像处理方法、装置、服务器及存储介质
CN113722583A (zh) 推荐方法、推荐模型训练方法及相关产品
CN111881671A (zh) 一种属性词提取方法
CN111522979B (zh) 图片排序推荐方法、装置、电子设备、存储介质
CN115017358A (zh) 一种多模态交互的跨模态检索方法及系统
CN112836088A (zh) 用于生成与视频对应的标签的方法、设备和介质
CN114782670A (zh) 一种多模态敏感信息鉴别方法、设备及介质
CN114639109A (zh) 一种图像处理方法、装置、电子设备和存储介质
CN113705207A (zh) 语法错误识别方法及装置
CN113094476A (zh) 基于自然语言处理风险预警方法、系统、设备及介质
Zhou et al. Residual visualization-guided explainable copy-relationship learning for image copy detection in social networks
Dong et al. A supervised dictionary learning and discriminative weighting model for action recognition
JP2012194691A (ja) 識別器の再学習方法、再学習のためのプログラム、及び画像認識装置
Hu et al. Intelligent digital image firewall system for filtering privacy or sensitive images
CN117015789A (zh) 基于sns文本的用户的装修风格分析模型提供装置及方法
CN113869099A (zh) 一种图像处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220722