CN114782670A

CN114782670A - 一种多模态敏感信息鉴别方法、设备及介质

Info

Publication number: CN114782670A
Application number: CN202210509975.1A
Authority: CN
Inventors: 籍焱; 王兴; 薄满辉; 唐红武; 王殿胜; 王仲候; 章凡寿
Original assignee: China Travelsky Mobile Technology Co Ltd
Current assignee: China Travelsky Mobile Technology Co Ltd
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2022-07-22

Abstract

本发明提供一种多模态敏感信息鉴别方法、设备及介质，包括：确定多模态信息包含的图像信息对应的ROI；通过多模态模型中的FasterRCNN模型提取每一ROI的视觉元素特征，通过所述多模态模型的图像编码层提取所述图像信息的图像特征，以确定图像信息特征序列；通过所述多模态模型中的BERT模型确定文本信息特征序列；将图像信息特征序列、文本信息特征序列分别嵌入到多模态模型对应的图像模态嵌入向量和文本模态嵌入向量，以确定特征组合序列；通过多模态模型的交互层对所述特征组合序列进行计算，得到鉴别特征集；通过多模态模型的分类层对所述鉴别特征集进行计算，得到所述多模态信息的鉴别结果。本发明能够对图像信息和文本信息不对应的多模态信息进行鉴别。

Description

一种多模态敏感信息鉴别方法、设备及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种多模态敏感信息鉴别方法、设备及介质。

背景技术

随着互联网技术的快速发展，线上购物、社交、通讯等网络平台在人们的生活中扮演着越来越重要的角色，人们越发依赖线上的交流。线上交流又多以图片、文本为载体，内容复杂且多样，有时也充斥着各种低俗、博人眼球的内容，严重影响网络安全和人们的身心健康。利用人工的方式对不同模态信息进行分类筛选，极大地浪费人力成本。因此，如何利用人工智能来对各种模态的敏感信息进行鉴别，成为了研究者们越来越关注的问题。但目前主流的鉴别方法对图像和文本信息不对应的多模态信息的鉴别效果不佳，且对暗示性的图像和文本的鉴别结果不是很好。

发明内容

有鉴于此，本发明提供一种多模态敏感信息鉴别方法、设备及介质，可分别对待鉴别的多模态信息的图像信息和文本信息的敏感性进行鉴别，至少部分解决现有技术中存在的问题。

具体发明内容为：

一种多模态敏感信息鉴别方法，包括：

确定待鉴别的多模态信息；

确定所述多模态信息包含的图像信息对应的至少一个ROI；

通过多模态模型中的FasterRCNN模型提取每一ROI的视觉元素特征，通过所述多模态模型的图像编码层提取所述图像信息的图像特征；

根据所述视觉元素特征和图像特征确定图像信息特征序列

；

=[v_class； v₁V；……；v_NV]+ V^pos，其中，v_class为所述图像信息的ROI序列，v_x为第x个ROI对应的视觉元素特征，N为所述图像信息包含的ROI数量，V为所述视觉元素特征和图像特征的特征矩阵，V^pos 为所述图像信息的位置嵌入矩阵；

通过所述多模态模型中的BERT模型获取所述多模态信息包含的文本信息的单词嵌入矩阵T和位置嵌入矩阵T^pos，以确定文本信息特征序列

；

=[t_class；t₁T；……；t_LT]+ T^pos，其中，t_class为所述文本信息经过分词后的单词序列，t_x为单词序列中第x个单词的特征，L为单词序列包含单词的数量；

将图像信息特征序列

、文本信息特征序列

分别嵌入到所述多模态模型对应的图像模态嵌入向量v^type和文本模态嵌入向量t^type中，以确定特征组合序列z⁰；z⁰=[

+v^type；

+v^type]；

通过所述多模态模型的交互层对所述特征组合序列z⁰进行计算，得到鉴别特征集；

通过所述多模态模型的分类层对所述鉴别特征集进行计算，得到所述多模态信息的鉴别结果；所述鉴别结果包括：所述图像信息和文本信息相结合的鉴别结果、所述图像信息的鉴别结果和所述文本信息的鉴别结果。

进一步地，所述多模态模型的分类层包括第一分类层、第二分类层和第三分类层；通过所述多模态模型的分类层对所述鉴别特征集进行计算，包括：

通过所述第一分类层对所述鉴别特征集进行计算，得到所述图像信息和文本信息相结合的鉴别结果；

通过所述第二分类层对所述鉴别特征集进行计算，得到所述图像信息的鉴别结果；

通过所述第三分类层对所述鉴别特征集进行计算，得到所述文本信息的鉴别结果。

进一步地，所述多模态模型是根据敏感信息数据集训练得到的，所述敏感信息数据集包括图像信息和文本信息具有相关性的第一多模态信息数据集、图像信息和文本信息不具备相关性的第二多模态信息数据集；所述敏感信息数据集中的多模态信息根据标签设置规则设置有分类标签；所述标签设置规则包括：

根据各多模态信息包含的图像信息和文本信息的敏感分类，为每一图像信息和文本信息设置初始标签，所述初始标签包括敏感、非敏感、暗示；根据每一图像信息和文本信息的初始标签，为对应的各多模态信息设置总标签。

进一步地，所述根据每一图像信息和文本信息的初始标签，为对应的各多模态信息设置总标签，包括：

获取所述第一多模态信息数据集中各多模态信息包含的图像信息和文本信息的初始标签，当图像信息和文本信息的初始标签至少有一个为敏感或暗示时，为对应的多模态信息设置敏感标签；

获取所述第二多模态信息数据集中各多模态信息包含的图像信息和文本信息的初始标签，当图像信息和文本信息的初始标签至少有一个为敏感，或均为暗示时，为对应的多模态信息设置敏感标签。

进一步地，对所述多模态模型进行训练，包括：

通过所述多模态模型对所述敏感信息数据集中的多模态信息进行鉴别，得到所述敏感信息数据集中各多模态信息的所述鉴别结果；

将得到的鉴别结果与对应的每一多模态信息包含的初始标签和总标签进行对比，并确定每一类鉴别结果的交叉熵损失S，得到对应训练结果的全局损失S_total，用以对所述多模态模型进行优化；

，S_total=λ ₁S_{图像信息和文本信息}+λ ₂S_图像信息+λ ₃S_文本信息；其中，k为单次训练的多模态信息的数量，

为y类鉴别结果的权重向量的转置矩阵，f_y为y类鉴别结果的特征， c为所述敏感信息数据集中标签类别的数量，λ ₁、λ ₂、λ ₃分别为预先设定的图像信息和文本信息类鉴别结果的损失S_{图像信息和文本信息}、图像信息类鉴别结果的损失S_图像信息、文本信息类鉴别结果的损失S_文本信息的权重。

进一步地，通过所述多模态模型的交互层对所述特征组合序列z⁰进行计算，得到鉴别特征集，包括：

通过所述多模态模型的交互层对所述特征组合序列z⁰进行迭代计算，得到语境化向量

；

根据所述z^D的第一个索引的线性投影W_pool和双曲正切确定所述鉴别特征集P；

。

进一步地，通过所述多模态模型的交互层对所述特征组合序列z⁰进行迭代计算，包括：

通过所述交互层的MSA层和MLP层对所述特征组合序列z⁰进行迭代计算；

其中，通过MSA层计算得到特征序列

；通过MLP层计算得到特征序列z^d，

；其中，D为迭代计算的深度，d=1……D，LN为归一化。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述多模态敏感信息鉴别方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现前述多模态敏感信息鉴别方法。

一种计算机程序产品，包括：当所述计算机程序产品中的指令由处理器执行时，执行前述多模态敏感信息鉴别方法。

本发明的有益效果体现在：

本发明在对待鉴别的多模态信息的图像信息特征进行提取时，通过FasterRCNN模型提取关键区域的视觉元素特征，能够有效较少背景信息的干扰，同时考虑到通过FasterRCNN模型对图像信息进行切片可能会丢失全局信息，因此将整体的图像信息作为输入提取对应的图像特征，来完善全局信息，能够更全面准确地确定图像信息特征，进一步确保鉴别结果的精准性。本发明能够分别输出图像信息和文本信息相结合、单独图像信息、单独文本信息的三类鉴别结果，有利于对图像信息和文本信息不对应的多模态信息进行鉴别，有效提高鉴别结果准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例一种多模态敏感信息鉴别方法流程图；

图2为本发明实施例一种BERT模型示意图；

图3为本发明实施例一种多模态模型训练方法流程图；

图4为本发明实施例另一种多模态敏感信息鉴别方法流程图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。

需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合；并且，基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

本发明提供一种多模态敏感信息鉴别方法实施例，如图1所示，包括：

S11：确定待鉴别的多模态信息；

S12：确定所述多模态信息包含的图像信息对应的至少一个ROI；

S13：通过多模态模型中的FasterRCNN模型提取每一ROI的视觉元素特征，通过所述多模态模型的图像编码层提取所述图像信息的图像特征；

S14：根据所述视觉元素特征和图像特征确定图像信息特征序列

；

S15：通过所述多模态模型中的BERT模型获取所述多模态信息包含的文本信息的单词嵌入矩阵T和位置嵌入矩阵T^pos，以确定文本信息特征序列

；

=[t_class；t₁T；……； t_LT]+ T^pos，其中，t_class为所述文本信息经过分词后的单词序列，t_x为单词序列中第x个单词的特征，L为单词序列包含单词的数量；

S16：将图像信息特征序列

、文本信息特征序列

+ v^type；

+v^type]；

S17：通过所述多模态模型的交互层对所述特征组合序列z⁰进行计算，得到鉴别特征集；

S18：通过所述多模态模型的分类层对所述鉴别特征集进行计算，得到所述多模态信息的鉴别结果；所述鉴别结果包括：所述图像信息和文本信息相结合的鉴别结果、所述图像信息的鉴别结果和所述文本信息的鉴别结果。

图1所述实施例在对待鉴别的多模态信息的图像信息特征进行提取时，通过 FasterRCNN模型提取关键区域的视觉元素特征，能够有效较少背景信息的干扰，同时考虑到通过FasterRCNN模型对图像信息进行切片可能会丢失全局信息，因此将整体的图像信息作为输入提取对应的图像特征，来完善全局信息，能够更全面准确地确定图像信息特征，进一步确保鉴别结果的精准性。位置嵌入矩阵V^pos用于标记图像信息的每一视觉元素的几何位置，例如，每一ROI用一个4-D向量表示，如

，其中，（X_LT，Y_LT）和（X_RB，Y_RB）代表对应ROI的左上角和右下角的坐标，W、H代表对应ROI的宽度和高度。每个ROI输出层之前的特征向量用作对应的视觉特征嵌入（2048-D）。本实施例在对待鉴别的多模态信息的文本信息特征进行提取时，利用BERT模型，根据实际业务需求，若针对中文文本信息特征进行提取，可单独使用中文BERT模型，能够更好地提取中文特征。为对BERT模型进行进一步说明，本实施例提供一种BERT模型示意图，如图2所示。

优选地，所述多模态模型的分类层包括第一分类层、第二分类层和第三分类层；通过所述多模态模型的分类层对所述鉴别特征集进行计算，包括：

该优选方案相较主流鉴别方法只输出一个鉴别结果相比，能够分别输出图像信息和文本信息相结合、单独图像信息、单独文本信息的三类鉴别结果，有利于对图像信息和文本信息不对应的多模态信息进行鉴别，有效提高鉴别结果准确率。所述第一分类层、第二分类层和第三分类层对所述鉴别特征集进行计算后，均分别得到各类鉴别结果的概率，取最大概率值对应的鉴别结果作为对应分类层输出的最终鉴别结果，所述鉴别结果包括：敏感、非敏感。以第三分类层为例，例如，通过第三分类层对所述鉴别特征集进行计算后，得到对应文本信息为敏感的概率为0.3，为非敏感的概率为0.7，则第三分类层输出的鉴别结果为非敏感。

优选地，所述多模态模型是根据敏感信息数据集训练得到的，所述敏感信息数据集包括图像信息和文本信息具有相关性的第一多模态信息数据集、图像信息和文本信息不具备相关性的第二多模态信息数据集；所述敏感信息数据集中的多模态信息根据标签设置规则设置有分类标签；所述标签设置规则包括：

优选地，所述根据每一图像信息和文本信息的初始标签，为对应的各多模态信息设置总标签，包括：

上述优选方案中，第一多模态信息数据集存储图像信息和文本信息有相关性的多模态信息，即文本描述的是图像中的一些内容，对应的文本信息和图像信息只要有一方为敏感或暗示，则相应的多模态信息即为敏感。第二多模态信息数据集存储图像信息和文本信息不具备相关性的多模态信息，即文本的描述和图像内容没有什么直接关系，这部分多模态信息可分为7种情况，根据不同情况对应的设置初始标签和总标签，例如，“0”为非敏感标签，“1”为敏感标签，“0（暗示）”为暗示标签，则相应标签设置如下表所示。

基于上述敏感信息数据集对所述多模态模型进行训练，能够使得所述多模态模型具备对图像信息和文本信息不相关的多模态信息，以及具有暗示性的多模态信息的敏感性进行鉴别的能力，有效提升对多模态敏感信息的检出率，有利于维护网络安全和人们的身心健康。

优选地，对所述多模态模型进行训练，包括：

为y类鉴别结果的权重向量的转置矩阵，f_y为y类鉴别结果的特征，c 为所述敏感信息数据集中标签类别的数量，λ ₁、λ ₂、λ ₃分别为预先设定的图像信息和文本信息类鉴别结果的损失S_{图像信息和文本信息}、图像信息类鉴别结果的损失S_图像信息、文本信息类鉴别结果的损失S_文本信息的权重。

为对上述对多模态模型进行训练的过程进行进一步说明，结合上述优选方案，本发明提供一种多模态模型训练方法实施例，如图3所示，包括：

S31：根据预先设置的输入规则，将敏感信息数据集中的数据分批输入至多模态模型；

S32：确定输入的每一多模态信息包含的图像信息对应的至少一个ROI；

S33：通过多模态模型中的FasterRCNN模型提取每一ROI的视觉元素特征，通过所述多模态模型的图像编码层提取每一多模态信息对应的图像信息的图像特征；

S34：根据每一多模态信息对应的视觉元素特征和图像特征确定每一多模态信息的图像信息特征序列；

S35：通过所述多模态模型中的BERT模型获取每一多模态信息包含的文本信息的单词嵌入矩阵和位置嵌入矩阵，以确定每一多模态信息对应的文本信息特征序列；

S36：将每一多模态信息对应的图像信息特征和文本信息特征分别嵌入到所述多模态模型对应的图像模态嵌入向量和文本模态嵌入向量中，以确定每一多模态信息对应的特征组合序列；

S37：通过所述多模态模型的交互层对各特征组合序列进行计算，得到每一多模态信息对应的鉴别特征集；

S38：分别通过所述多模态模型分类层的第一分类层、第二分类层、第三分类层对每一多模态信息对应的鉴别特征集进行计算，对应得到每一多模态信息对应的图像信息和文本信息相结合的鉴别结果、图像信息的鉴别结果、文本信息的鉴别结果；

S39：将得到的鉴别结果与对应的每一多模态信息包含的初始标签和总标签进行对比，并确定每一类鉴别结果的交叉熵损失，得到对应训练结果的全局损失；

S310：根据所述全局损失对所述多模态模型进行优化。

图3所述实施例的部分过程与图1所述实施例相近，因此对图3所述实施例的描述较为简单，相应部分请参照图1所述实施例。

优选地，通过所述多模态模型的交互层对所述特征组合序列z⁰进行计算，得到鉴别特征集，包括：

通过所述多模态模型的交互层对所述特征组合序列

进行迭代计算，得到语境化向量z^D；

。

优选地，通过所述多模态模型的交互层对所述特征组合序列z⁰进行迭代计算，包括：

其中，通过MSA层计算得到特征序列

；通过MLP 层计算得到特征序列z^d，

；其中，D为迭代计算的深度，d=1……D， LN为归一化。所述交互层由MSA层、MLP层和LN层堆叠的块组成，该优选方案每次进行MSA层和MLP层计算时都要先进行归一化，即采用前规范的方式，LN层的位置在MSA层和MLP层之前，通过多层堆叠快的迭代交互计算，得到最终的鉴别特征集P。

为对本发明进行进一步说明，结合上述优选方案，本发明提供另一种多模态敏感信息鉴别方法实施例，如图4所示，包括：

S41：确定待鉴别的多模态信息；

S42：确定所述多模态信息包含的图像信息对应的至少一个ROI；

S43：通过多模态模型中的FasterRCNN模型提取每一ROI的视觉元素特征，通过所述多模态模型的图像编码层提取所述图像信息的图像特征；

S44：根据所述视觉元素特征和图像特征确定图像信息特征序列；

S45：通过所述多模态模型中的BERT模型获取所述多模态信息包含的文本信息的单词嵌入矩阵和位置嵌入矩阵，以确定文本信息特征序列；

S46：将图像信息特征序列、文本信息特征序列分别嵌入到所述多模态模型对应的图像模态嵌入向量和文本模态嵌入向量中，以确定特征组合序列；

S47：通过所述多模态模型的交互层的MSA层和MLP层对所述特征组合序列进行迭代计算，得到语境化向量；

S48：根据所述语境化向量的第一个索引的线性投影和双曲正切确定鉴别特征集；

S49：通过所述多模态模型分类层的第一分类层、第二分类层、第三分类层对所述鉴别特征集进行计算，对应得到待鉴别多模态信息对应的图像信息和文本信息相结合的鉴别结果、图像信息的鉴别结果、文本信息的鉴别结果。

图4所述实施例的部分过程与图1所述实施例相近，因此对图4所述实施例描述的较为简单，相应之处请参照图1所述实施例。

本发明还提供了一种计算机设备实施例，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述实施例所述的方法，所述方法可参见图1、图3、图4所述实施例的描述，在此不再赘述。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现前述实施例所述的方法。

本发明实施例还提供一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行前述实施例所述的方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种多模态敏感信息鉴别方法，其特征在于，包括：

确定待鉴别的多模态信息；

确定所述多模态信息包含的图像信息对应的至少一个ROI；

根据所述视觉元素特征和图像特征确定图像信息特征序列

；

=[v_class；v₁V；……； v_NV]+ V^pos，其中，v_class为所述图像信息的ROI序列，v_x为第x个ROI对应的视觉元素特征，N为所述图像信息包含的ROI数量，V为所述视觉元素特征和图像特征的特征矩阵，V^pos为所述图像信息的位置嵌入矩阵；

；

将图像信息特征序列

、文本信息特征序列

+v^type；

+ v^type]；

2.根据权利要求1所述的方法，其特征在于，所述多模态模型的分类层包括第一分类层、第二分类层和第三分类层；通过所述多模态模型的分类层对所述鉴别特征集进行计算，包括：

3.根据权利要求2所述的方法，其特征在于，所述多模态模型是根据敏感信息数据集训练得到的，所述敏感信息数据集包括图像信息和文本信息具有相关性的第一多模态信息数据集、图像信息和文本信息不具备相关性的第二多模态信息数据集；所述敏感信息数据集中的多模态信息根据标签设置规则设置有分类标签；所述标签设置规则包括：

4.根据权利要求3所述的方法，其特征在于，所述根据每一图像信息和文本信息的初始标签，为对应的各多模态信息设置总标签，包括：

5.根据权利要求4所述的方法，其特征在于，对所述多模态模型进行训练，包括：

为y类鉴别结果的权重向量的转置矩阵，f_y为y类鉴别结果的特征，c为所述敏感信息数据集中标签类别的数量，λ ₁、λ ₂、λ ₃分别为预先设定的图像信息和文本信息类鉴别结果的损失S_{图像信息和文本信息}、图像信息类鉴别结果的损失S_图像信息、文本信息类鉴别结果的损失S_文本信息的权重。

6.根据权利要求1所述的方法，其特征在于，通过所述多模态模型的交互层对所述特征组合序列z⁰进行计算，得到鉴别特征集，包括：

通过所述多模态模型的交互层对所述特征组合序列进行迭代计算，得到语境化向量z^D；

。

7.根据权利要求6所述的方法，其特征在于，通过所述多模态模型的交互层对所述特征组合序列z⁰进行迭代计算，包括：

其中，通过MSA层计算得到特征序列

；通过 MLP层计算得到特征序列z^d，

；其中，D为迭代计算的深度， d=1……D，LN为归一化。

8.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的多模态敏感信息鉴别方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1至7项任一所述的多模态敏感信息鉴别方法。

10.一种计算机程序产品，其特征在于，包括：当所述计算机程序产品中的指令由处理器执行时，执行如权利要求1至7项任一所述的多模态敏感信息鉴别方法。