CN117370934A

CN117370934A - 一种敏感信息发现模型的多模态数据增强方法

Info

Publication number: CN117370934A
Application number: CN202311638869.4A
Authority: CN
Inventors: 张卫平; 李显阔; 王晶; 张伟; 邵胜博
Original assignee: Global Digital Group Co Ltd
Current assignee: Global Numerical Technology Co ltd
Priority date: 2023-12-04
Filing date: 2023-12-04
Publication date: 2024-01-09
Anticipated expiration: 2043-12-04
Also published as: CN117370934B

Abstract

本发明公开了一种敏感信息发现模型的多模态数据增强方法与装置，属于人工智能技术领域。所述增强方法使用多编码器结构中的不同编码器对源数据中不同模态的数据进行分别编码，以保持各自的语义特征。其中，以图像数据为主，辅助以语音、文本等上下文数据进行编码。编码后的两类数据均输入到解码器进行融合处理。解码器中设置有注意力机制，可以聚焦不同编码器的输出，对源数据的可疑区域进行重新标注和增强。增强后的数据输出到敏感信息发现模型，可提高后续模型的处理效率与精确度。同时提出一种应用所述数据增强方法的装置，可在已在设备中接入该装置，即可以使现在的模型在输入端获取到增强后的源数据。

Description

一种敏感信息发现模型的多模态数据增强方法

技术领域

本发明属于人工智能技术领域，尤其涉及一种敏感信息发现模型的多模态数据增强方法。

背景技术

模态是指一些表达或感知事物的方式，每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介，有语音、视频、文字等；多种多样的传感器，如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。

随着社交软件、视频网站的兴起，存在大量需要向未成年人传播的媒体内容；这些媒体内容可以以视频、音频、文字等一种或者多种混合模态出现。为避免向未成年人传播敏感信息，需要对这些内容进行审查与筛选。但源内容数量巨大，若对敏感信息的发现探测任务全部交由媒体传播端或者播放端的敏感信息模型处理，会产生很大的运算压力，且考虑到内容传播的时效性，若为减少处理时间而降低模型精度，则容易出现漏查和错查的问题。为解决这个问题，需要对源数据进行预处理与增强，以提高后续敏感信息发现模型的工作效率与精确率。

根据已公开的技术方案，公开号为CN114241253A的技术方案提出一种违规内容识别的模型训练方法，通过对样本图像集中违观内容进行明确标注违规区域的方式，从而训练出可以识别动态违规内容的大模型；公开号为JP2010231587A的技术方案提出一种网页内容显示监控系统，其通过采用一个专门的监控服务器进网页内容进行实时截取并与规则进行匹配，从而由监控服务器决定可以向用户展示的具体网页内容；公开号为US20160140110A1的技术方案提出一种将屏幕中出现的数据进行增强的方法，其可以直接识别当前在屏幕上出现在文字内容，并通过理解该文字内容的上下文数据，突出显示需要进行增强的有关数据。

以上技术方案均提出若干对数据进行识别或增强的算法和装置，但对于目前多模态内容的复杂性，以及缺乏在分辨内容的敏感程度后作出灵活处理的技术方案，目前尚少有提及。因此尚需要提出更为高效的技术方案。

背景技术的前述论述仅意图便于理解本发明。此论述并不认可或承认提及的材料中的任一种公共常识的一部分。

发明内容

本发明的目的在于，公开了一种敏感信息发现模型的多模态数据增强方法与装置，属于人工智能技术领域。所述增强方法使用多编码器结构中的不同编码器对源数据中不同模态的数据进行分别编码，以保持各自的语义特征。其中，以图像数据为主，辅助以语音、文本等上下文数据进行编码。编码后的两类数据均输入到解码器进行融合处理。解码器中设置有注意力机制，可以聚焦不同编码器的输出，对源数据的可疑区域进行重新标注和增强。增强后的数据输出到敏感信息发现模型，可提高后续模型的处理效率与精确度。同时提出一种应用所述数据增强方法的装置，可在已在设备中接入该装置，即可以使现在的模型在输入端获取到增强后的源数据。

本发明采用如下技术方案：

一种敏感信息发现模型的多模态数据增强方法，所述增强方法包括以下步骤：

S100：从第一数据源接收含有多模态信息的源数据，从源数据中获得包括视频和/或图像的视频数据；使用图像分析器分析视频数据，从而生成多个时序上的图像特征向量；

S200：进一步处理源数据中的多模态数据，获得包括声音、情感、说话者特征中的一项或以上特征的数据；至少基于人物、情绪、噪音特征中的一项或以上特征生成上下文数据；

S300：使用多编码器变换器处理图像数据和上下文数据，以生成具有可疑信息时间标记的增强源数据，并将所述增强源数据输出到敏感信息发现模型作进一步的敏感信息分析；

其后在敏感信息发现模型的分析设置中，设置重点分析标记的敏感时间段，次要分析未标记时间段，忽略无标记段，并最终输出对源数据中的敏感信息的发现结果；

其中，所述多编码器变换器包括

第一编码器，用于将所述图像数据编码处理为第一编码数据；

第二编码器，用于将所述上下文数据编码处理为第二编码数据；

之后，将所述第一编码数据以及所述第二编码数据输入到所述多编码器变换器中对应的解码器，利用所述解码器的解码注意力网络对可疑信息进行时间标记；

优选地，还包括从除所述第一数据源以外的一个或多个的第二数据源获取所述上下文数据；

优选地，步骤S300中还包括以下子步骤：

S310：对所述图像数据的进行图像帧序列处理，为图像数据的n个图像帧进行编号，使每个图像帧具有编号为f₁，f₂，...f_n；

S320：对第i个图像帧f_i计算其可疑信息特征向量K_i和敏感信息特征向量L_i；

S330：对每个图像帧f_i抽取其图像特征向量F_i；

S340：定义权重矩阵ω_i，对抽取的图像特征向量F_i进行加权；

S350：计算新增强数据的可疑信息重点指数X，即：

；

上式中，表示向量对应元素相乘；σ表示非线性激活函数；

S360：根据重点指数X，对源数据在时间序列上进行可疑信息标记；

进一步的，提出一种敏感信息发现模型的多模态数据增强装置，所述数据增强装置应用上述一种敏感信息发现模型的多模态数据增强方法；所述数据增强装置包括：

一个或多个处理器，被配置为：

从第一数据源接收含有多模态信息的源数据，从源数据中获得包括图像部分的图像数据；

进一步处理源数据中的多模态数据，获得包括人物、情绪、噪音特征中的一项或以上特征的数据；至少基于人物、情绪、噪音特征中的一项或以上特征生成上下文数据；

使用多编码器变换器处理图像数据和上下文数据以生成具有可疑信息时间标记的增强源数据进行输出；

优选地，所述多编码器变换器包括编码器组群；所述编码器组群包括：

第一编码器，其包括第一注意力网络；以及

至少一个第二编码器，其包括第二注意力网络；以及

解码器，其包括解码注意力网络；

优选地，所述一个或多个处理器还被配置为：

将所述图像数据提供给所述第一编码器以生成第一编码数据；

从一个或多个数据源获取源数据，并从所述源数据中分析获取上下文数据；

将所述上下文数据至少提供给所述第二编码器以生成第二编码数据；以及

向解码注意力网络提供所述第一编码数据和所述第二编码数据，以生成具有可疑信息时间标记的增强源数据，并将所述增强源数据进行输出；

优选地，所述解码注意力网络包括：

第一多头注意力网络，被配置为处理所述第一编码数据；

第二多头注意力网络，被配置为处理所述第二编码数据；

组合器，被配置为组合第一多头注意力网络和第二多头注意力网络的输出。

本发明所取得的有益效果是：

本发明的数据增强方法通过对源数据的多模态增强预处理，可有针对性地标注和过滤数据，减轻后续敏感信息发现模型的工作量，提高整体流程的执行效率；

本发明的数据增强方法通过设置多编码器结构，可充分分解不同模态信息的语义特征，综合判断可疑区域，减少漏报和误报，提升敏感信息发现的整体准确率；

本发明的数据增强方法通过数据增强作为预处理模块，可广泛应用于社交平台、视频分享网站等存在大量数据需要敏感信息筛查的场景，拓展了应用范围。

本发明的数据增强系统中各软、硬件部分采用了模块化设计，方便今后的升级或者更换相关的软、硬件环境，降低了使用的成本。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在不同的视图中，相同的附图标记指定对应的部分。

序号说明：102-数据增强装置;190-处理器；122-图像分析器；126-上下文分析器；128-多编码器变换器；130-生成器；192-编码器组群；194-解码器；201-前端设备；202-用户端设备；206-内容分析引擎；208-人物识别引擎；210-情绪识别引擎；212-噪声分析引擎；214-引擎组合器；320-人物编码器；330-情绪编码器；340-文本编码器；350-第一编码器；360-第二组合器；

图1为本发明所述数据增强装置的示意图；

图2为本发明实施例中所述数据增强装置与其他具有敏感信息发现模型的装置通信连接的示意图；

图3为本发明实施例中所述上下文分析器的示意图；

图4为本发明实施例中所述编码器组群的示意图。

具体实施方式

为了使得本发明的目的技术方案及优点更加清楚明白，以下结合其实施例，对本发明进行进一步详细说明；应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。对于本领域技术人员而言，在查阅以下详细描述之后，本实施例的其它系统、方法和/或特征将变得显而易见。旨在所有此类附加的系统、方法、特征和优点都包括在本说明书内。包括在本发明的范围内，并且受所附权利要求书的保护。在以下详细描述描述了所公开的实施例的另外的特征，并且这些特征根据以下将详细描述将是显而易见的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或组件必须具有特定的方位。以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

实施例一：示例性地提出一种敏感信息发现模型的多模态数据增强方法，所述增强方法包括以下步骤：

S300：使用多编码器变换器处理图像特征向量和上下文数据，以生成具有可疑信息时间标记的增强源数据，并将所述增强源数据输出到敏感信息发现模型作进一步的敏感信息分析；

其中，所述多编码器变换器包括

第一编码器，用于将所述图像特征向量编码处理为第一编码数据；

优选地，步骤S300中还包括以下子步骤：

S310：对所述图像特征向量的进行图像帧序列处理，为图像特征向量的n个图像帧进行编号，使每个图像帧具有编号为f₁，f₂，...f_n；

S330：对每个图像帧f_i抽取其图像特征向量F_i；

S350：计算增强数据的可疑信息重点指数X，即：

；

上式中，表示向量对应元素相乘；σ表示非线性激活函数；

一个或多个处理器，被配置为：

从第一数据源接收含有多模态信息的源数据，从源数据中获得包括图像部分的图像特征向量；

使用多编码器变换器处理图像特征向量和上下文数据以生成具有可疑信息时间标记的增强源数据进行输出；

第一编码器，其包括第一注意力网络；以及

至少一个第二编码器，其包括第二注意力网络；以及

解码器，其包括解码注意力网络；

优选地，所述一个或多个处理器还被配置为：

将所述图像特征向量提供给所述第一编码器以生成第一编码数据；

优选地，所述解码注意力网络包括：

第一多头注意力网络，被配置为处理所述第一编码数据；

第二多头注意力网络，被配置为处理所述第二编码数据；

组合器，被配置为组合第一多头注意力网络和第二多头注意力网络的输出；

参考附图1，示例性地说明一种本文所述数据增强装置的实施方式；所述数据增强装置102包括被配置有一个或多个处理器190；示例性地，所述数据增强装置102可安装于各种类型设备中，如台式机、笔记本电脑、平板电脑、智能手机等个人计算设备；这些设备通常都具有接收和展示视频信息的功能；数据增强装置102可以集成在这些设备的软硬件系统中，并且进一步地与这些设备中已有的敏感信息发现模型进行通信耦合，以在源数据输入这些设备之后，首先通过数据增强装置102实施所述数据增强方法的数据增强步骤；

在一些示例性的实施方式中，如附图2所示，本发明的数据增强装置102也可以集成在服务器、路由器、交换机等网络前端设备201中；数据经过这些前端设备201后，再流入用户端设备202并展示于用户的观看界面，从而使用数据增强装置102实现对互联网视频流量的增强处理；

优选地，这些设备可以通过多种渠道接收到源数据，如网络视频流、互联网网页中的图像、视频网站分享的内容等多模态信息；源数据会首先进入数据增强装置102进行处理；

数据增强装置102包括图像分析器122、上下文分析器126、多编码器变换器128、生成器130或其组合；示例性地，图像分析器122被配置为数据源上接收源数据，并且进一步耦合到上下文分析器126、多编码器变换器128；上下文分析器126经由多编码器变压器128耦合到生成器130；

优选地，图像分析器122被配置为对视频和/或图像数据进行预处理；图像分析器122可以采用简单的滤波、灰度化、缩放等对图像进行预处理，输出标准化后的图像数据；其后，图像分析器122计算视频数据的颜色直方图、图像梯度方向直方图等简单特征；这些低级特征可以表示图像的整体颜色风格、局部纹理特征等信息，输出为图像特征向量；图像特征向量随后被输入到第一图像编码器中，进行下一步的特征学习与编码处理；

相比复杂的图像识别算法，这种简单的图像特征提取方式，计算量较小，满足作为数据增强模块的处理需要；

区别于图像分析器122对视频和/或图像数据进行可见性内容的分析作用，上下文分析器126在本技术方案中主要用于非可见性的内容分析，这类非可见性的内容亦称为“上下文内容”；

优选地，上下文分析器126被配置为基于源数据、视频数据、或者图像特征向量中的一种或以上的组合，来生成上下文数据；上下文分析器126被配置为分析源数据中的多模态信息，检测出潜在的可疑的敏感内容；

对于源数据中的音频信息，上下文分析器126首先将音频转换为文本，然后利用自然语言理解技术分析文本词义，判断文本信息是否包含敏感内容；

对于源数据中的视频/图像信息，上下文分析器126可以分析视频帧中的人物形象、表情等视觉信息，判断存在引起关注的画面内容；上下文分析器126还可以分析视频中的音频内容，进行语音转换和理解；

在本技术方案中，视频和/或图像数据作为主要载体输入第一编码器；图像分析器122针对图像的可视内容进行分析判断；

而上下文分析器的作用是进行内容语义层面的分析，不仅包括音频转文本后的理解，还可以分析视频和音频中所表达的逻辑意义、情感倾向等上下文信息，这与可视内容的判断是不同的；

通过上下文分析器126，后续的编码器和解码器模块可以基于上下文分析器和图像分析器的输出结果，对源数据的可疑部分进行重点处理和增强；综合两者的分析结果，可更全面判断出源数据中的可疑区域，为后续的增强处理提供依据；这部分在后面会详细陈述；

进一步的，多编码器变换器128被配置为处理图像特征向量和上下文数据以生成输出数据；多编码器变换器128包括编码器组群192和解码器194；编码器组群192被配置为基于上下文数据处理图像特征向量以生成输出数据；多编码器变换器128耦合到生成器130；生成器130被配置为处理多编码器变换器128解码后的增强数据，以生成输出数据；输出数据对应于源数据的增强版本；

优选地，在一些示例性的实施方式中，生成器130接收解码器输出的图像特征数据，所述特征数据保留了原始图像的主要内容和结构；然后，生成器130导入上下文分析器输出的可疑区域位置数据，作为生成的遮罩层；生成器130应用遮罩层到原始特征图像上，在可疑区域的对应位置进行像素值修改，例如置为特定颜色，或者进行灰度处理、遮盖处理、或者进行帧标记等方式，从而标示出可疑的敏感信息出现的时间位置或者画面位置；最后，生成器130利用修改后的特征图，通过算法重新生成增强后的图像输出；

经过以上步骤，实现了对源数据中可疑区域的选择性处理和标注，输出增强效果；

进一步地说明所述上下文分析器126；其中上下文分析器126包括多个情境分析引擎，例如内容分析引擎206、人物识别引擎208、情绪识别引擎210和噪声分析引擎212；可选地，上下文分析器126可以忽略以上一个或以上的引擎，或者可以包括一个或多个其他引擎来代替或补充以一个或多个引擎；

在一些实施方式中，如附图1所示，源数据可以同时输到入图像分析器122以及上下文分析器126中；

在另一些实施方式中，图像分析器122的输出端可以耦合到上下文分析器126中的分析引擎中的每一个，并且多个上下文分析引擎耦合到引擎组合器214；多个分析引擎中的每一个被配置为基于源数据或者视频数据生成对应的上下文内容的编码版本；并且，需要说明的是，源数据不仅可以来自单一数据源，源数据可以来自多个数据源，其中更可以包括图像数据、位置数据、运动数据、一个或多个其他上下文数据源、或其任意组合；

在一些示例性的实施方式中，内容分析引擎206被配置为处理源数据和视频数据以生成与由源数据表示的内容相对应的文本；在说明性示例中，内容分析引擎206包括神经网络（例如卷积神经网络CNN），其被配置为接收输入源数据和视频数据的数据作为输入，并对其进行处理以输出文本特征数据；

在一些示例性的实施方式中，人物识别引擎208被配置为处理源数据和视频数据的数据以生成说话人提取数据；示例性地，人物识别引擎208包括一个或多个更多网络被训练以基于语音特征、视觉数据（例如，面部或其他生物特征信息）或其组合来识别说话者特征；优选地，人物识别引擎208可以通过识别人物的特性，例如性别、年龄、口音类型，从而识别是否具有敏感内容的可能；并且，还可以包括分析说话者的身份、职位、角色等一个或多个其他特性，或者这些特性的组合的数据；最终由人物识别引擎208输出人物特征数据；

在一些示例性的实施方式中，情绪识别引擎210被配置为处理源数据和视频数据的数据以生成指示与源数据相关联的一个或多个情绪的情绪数据；在说明性示例中，可以基于从源数据和视频数据提取的音调、音量、语速或其他方面来估计情绪；替代地或附加地，可以基于说话者的姿势或运动进行情绪的判定；优选地，情绪识别引擎210包括被训练以基于源数据和视频数据的数据或识别情绪的一个或多个神经网络；最终由情绪识别引擎210输出情绪特征数据；

在一些示例性的实施方式中，噪声分析引擎212被配置为处理源数据和视频数据以生成噪声类型数据；其中所述噪声源数据是指多模态信息中如视频图像和音频序列，视频画面和音频序列作为主要分析对象，包含有效的视觉和听觉信息；除此之外，源数据中的视频图像可能还包含与主要内容无关的区域，如不明意义的背景、杂物遮挡等；源数据中的音频序列也可能混入与主要内容无关的杂音或无意义音调；这些与主要内容无直接关系，且不具备分析价值的无效视听信息，统一定义为“嘈音数据”；数据增强处理会需要识别图像和音频序列中的嘈音数据，将其与有效信息分离，仅保留与主要内容具有语义关联性的画面区域和声音作为分析对象，对嘈音数据进行过滤；最终由噪声分析引擎212输出嘈音特征数据；

进一步的，引擎组合器214包括神经网络（例如，CNN)、线性投影层或两者的组合；优选地，文本特征数据、人物特征数据、情绪特征数据、嘈音特征数据或其组合对应于神经网络的输入；神经网络向线性投影层提供输出，并且线性投影层通过对神经网络的输出执行线性投影来生成上下文数据；可选地，多编码器变换器128不包括任何卷积，而是通过使用引擎组合器214来执行卷积以处理文本特征数据、人物特征数据、情绪特征数据、嘈音特征数据或其组合；引擎组合器214将上下文数据提供给编码器组群192；优选地，引擎组合器214执行文本特征数据、人物特征数据、情绪特征数据、嘈音特征数据的串联或其他组合；

进一步的，编码器组群192接收并处理图像特征向量和上下文数据以生成编码数据；在一个示例中，编码器组群192处理图像特征向量以生成独立于上下文数据的第一编码数据，并且处理上下文数据127以生成对应于与输入信号121相关联的上下文方面的第二编码数据；

在一些示例性的实施方式中，引擎组合器214还将上下文数据127提供给解码器194，并且解码器194基于上下文数据处理编码数据以生成输出数据。

实施例二：本实施例应当理解为至少包含前述任意一个实施例的全部特征，并在其基础上进一步改进；

如附图4所示，编码器组群192包括用于处理图像特征向量第一编码器350和用于上下文数据的多个第二编码器，例如包括人物编码器320、情绪编码器330、文本编码器340中的一个或其组合；尽管编码器组群192被示出为包括用于三个上下文方面的编码器，但在其他实现中，编码器组群192可以包括少于三个编码器；

其中，对于由图像分析器122所提供的图像特征向量，以及由上下文分析器126所提供的上下文数据，可以由上述人物编码器320、情绪编码器330、文本编码器340、第一编码器350中适合的编码器进行编码操作；

其中，每一个编码器可以包括输入端，一个或以上归一化层、多头注意力网络、一个或以上组合器以及前馈网络；数据在在输入端通过归一化层进行归一化处理后，将归一化后的数据提供给多头注意力网络；多头注意力网络可以使用不同的注意力从来自不同编码器的编码数据构建上下文向量；

其中，所述第一注意力网络以及所述第二注意力网络均属于多头注意力网络；

进一步的，将输入乘以第一矩阵、第二矩阵和第三矩阵以分别生成第一查询向量、第一键向量和第一值向量；第一查询向量、第一键向量和第一值向量由第一注意力网络处理；将输入乘以第四矩阵、第五矩阵和第六矩阵以分别生成第二查询向量、第二键向量和第二值向量；第二查询向量、第二关键字向量和第二值向量由第二注意力网络处理；

其中，多头注意力网络的输出对应于以下等式：

；

其中Z对应于多头注意力网络的输出，L对应于查询向量，K对应于键向量，F对应于值向量，d_k对应于键向量的维度，softmax对应于归一化操作；T为向量转秩运算符号；

多头注意力网络将先将各个输出进行拼接，然后经过线性变换来生成多头注意力网络的输出；组合器通过把归一化层的输入和多头注意力网络的输出组合起来，生成组合器的输出；

组合器的输出在经过第二个归一化层的归一化后，作为前馈网络的输入；在一个具体示例中，前馈网络包含一个线性变换层，该层通过整流线性单元（ReLU）连接到第二个线性变换层；前馈网络用于对组合器归一化后的输出进行处理，最终生成前馈网络的输出；

第二组合器通过把前一组合器的输出和前馈网络的输出组合起来，作为第二组合器360的输入；在一个具体方面中，归一化层对第二组合器360的输出进行归一化，生成最终输出的编码数据；

其中，归一化层的主要作用就是调整每个组合器的输出（例如输出向量）中的每个值，使其落在一个特定范围内；

进一步的，编码器组群192向解码器194提供编码数据；其中编码数据包括基于图像特征向量的第一编码数据以及基于上下文数据的第二编码数据；

示例性地，解码器194包括顺序连接的解码器预处理网络、一个或多个解码层、第一归一化层、遮挡注意力层、注意力层、组合器、第二归一化层、前馈层、第三归一化层以及线性变换层；每个解码层中的一个或多个解码层包含遮挡注意力层、注意力层和前馈网络层；其中，遮挡注意力层包含遮挡多头注意力网络，并耦合到多个归一化层；每个归一化层后耦合对应各自的注意力层；其中，前馈层包含前馈全连接网络；

编码器的输出由一个或多个解码层中的一个进行处理；编码器的输出在通过第一归一化层进行归一化后，提供给遮挡注意力层的遮挡多头注意力网络；优选地，遮挡多头注意力网络遮挡其输入中的未来位置；遮挡多头注意力网络从一个遮挡版本中生成独有的查询向量、关键向量和值向量；遮挡多头注意力网络中的每个注意力头处理查询向量、关键向量和值向量以生成输出；组合器将遮挡多头注意力网络中的注意力头的各自输出进行拼接和线性转换以生成遮挡多头注意力网络的输出；

每个遮挡多头注意力网络的输出传递到组合器，并在归一化后提供给解码层中的多个多头注意力层；

多头注意力层中的每个多头注意力网络被配置为处理遮挡多头注意力层输出的规范化版本和从编码器组群192对应的编码器接收的编码数据；解码层中的每个多头注意力网络处理基于遮挡多头注意力归一化输出的查询向量、键向量以及值向量；

可选地，可以对应于第一编码数据以及第二编码数据分别设置两个多头注意力网络；或者，可以分别对应于第一编码器350、人物编码器320、情绪编码器330、文本编码器340设置四个多头注意力网络；

特别地，遮挡多头注意力网络是一种改进的多头注意力机制，其主要特点是在进行自注意力计算时，可以通过遮挡（Mask）来防止模型注意到某些位置的信息；

相比普通多头注意力网络，遮挡多头注意力网络在计算注意力时，会将padding位置以及未来时间步的信息遮挡掉，这样模型只能到当前和过去的信息；其具体实现是在计算注意力程度时，在输入给注意力网络的查询向量、键向量以及值向量上加上遮挡，以过滤掉不需要的位置信息；其中常见的遮挡方式有：

序列遮挡：主要遮挡掉padding位置，因为padding位置没有意义,不需要放配注意力；

因果遮挡：除了序列遮挡的遮挡部分以外，还会遮挡掉未来的时间步，实现自回归的属性；

遮挡多头注意力网络主要应用在自回归模型中，如Transformer解码器、BERT等；因为这类模型需要预测当前时刻的输出，不能让模型了解到未来时刻的信息；

相比普通注意力机制，引入遮挡机制可以防止信息泄露，允许解码器捕捉到被分析的数据中某些不被注意的次要属性；另外，遮挡也可以应用在编码器中遮蔽不重要的信息；

其后，组合器通过组合遮挡多头注意力网络的输出、每个多头注意力网络的输出组合来生成输出；组合器的输出在经过第二归一化层进行归一化后提供给前馈层的前馈全连接网络；

经过前馈层的前馈全连接网络390的输出，再次经过第三归一化层归一化和线性变换层的线性变换后，其输出的数据提供给生成器130；示例性地，生成器130对输入的数据执行多模态数据的合成，以生成输出数据，并提供到后续的敏感信息发现模型中。

实施例三：本实施例应当理解为至少包含前述任意一个实施例的全部特征，并在其基础上进一步改进：

为生成可疑信息时间标记，并将标记标签到源数据上，需要计算数据的可疑信息重点指数X，即：

；

上式中，K_i表示第i帧的键向量，L_i表示第i帧的查询向量，F_i表示第i帧对应的值向量；ω_i表示第i个注意力头对应的可学习权重矩阵；

其中，n的数值可以为视频数据的全部帧或者部分帧的数量；或者可以反复计算多个n值下对应的重点指数X，从而取其中较优的数据；

通过以上计算式，对于每个注意力网络，先计算查询向量向量和键向量的相似度作为注意力分数，再与值向量相乘，表示用注意力分数加权；该计算式对输入序列的n个帧，通过每个注意力网络计算加权值，再取各注意力网络输出的平均值，最后通过激活函数σ进行非线性变换，得到该序列位置的最终输出表示X；这样通过多头注意力机制和多头输出平均，可以综合不同注意力网络对输入序列的不同视角的表示，获得更全面的特征表达。

虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。也就是说上面讨论的方法，系统和设备是示例。各种配置可以适当地省略，替换或添加各种过程或组件。例如，在替代配置中，可以以与所描述的顺序不同的顺序执行方法，和/或可以添加，省略和/或组合各种部件。而且，关于某些配置描述的特征可以以各种其他配置组合，如可以以类似的方式组合配置的不同方面和元素。此外，随着技术发展其中的元素可以更新，即许多元素是示例，并不限制本公开或权利要求的范围。

在说明书中给出了具体细节以提供对包括实现的示例性配置的透彻理解。然而，可以在没有这些具体细节的情况下实践配置例如，已经示出了众所周知的电路，过程，算法，结构和技术而没有不必要的细节，以避免模糊配置。该描述仅提供示例配置，并且不限制权利要求的范围，适用性或配置。相反，前面对配置的描述将为本领域技术人员提供用于实现所描述的技术的使能描述。在不脱离本公开的精神或范围的情况下，可以对元件的功能和布置进行各种改变。

综上，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种敏感信息发现模型的多模态数据增强方法，其特征在于，所述增强方法包括以下步骤：

其中，所述多编码器变换器包括

之后，将所述第一编码数据以及所述第二编码数据输入到所述多编码器变换器中对应的解码器，利用所述解码器的解码注意力网络对可疑信息进行时间标记。

2.如权利要求1所述增强方法，其特征在于，还包括从除所述第一数据源以外的一个或多个的其他数据源获取直接所述上下文数据。

3.如权利要求2所述增强方法，其特征在于，步骤S300中还包括以下子步骤：

S330：对每个图像帧f_i抽取其图像特征向量F_i；

S350：计算视频数据的可疑信息重点指数X，即：

；

上式中，表示向量对应元素相乘；σ表示非线性激活函数；

S360：根据重点指数X，对源数据在时间序列上进行可疑信息标记。

4.一种敏感信息发现模型的多模态数据增强装置，其特征在于，所述数据增强装置应用如权利要求3所述一种敏感信息发现模型的多模态数据增强方法；所述数据增强装置包括：

一个或多个处理器，被配置为：

使用多编码器变换器处理图像特征向量和上下文数据以生成具有可疑信息时间标记的增强源数据进行输出。

5.如权利要求4所述数据增强装置，其特征在于，所述多编码器变换器包括编码器组群；所述编码器组群包括：

第一编码器，其包括第一注意力网络；以及

至少一个第二编码器，其包括第二注意力网络；以及

解码器，其包括解码注意力网络。

6.如权利要求5所述数据增强装置，其特征在于，所述一个或多个处理器还被配置为：

向解码注意力网络提供所述第一编码数据和所述第二编码数据，以生成具有可疑信息时间标记的增强源数据，并将所述增强源数据进行输出。

7.如权利要求6所述数据增强装置，其特征在于，所述解码注意力网络包括：

第一多头注意力网络，被配置为处理所述第一编码数据；

第二多头注意力网络，被配置为处理所述第二编码数据；

8.一种可读存储介质，其特征在于，该可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，执行如权利要求1所述一种敏感信息发现模型的多模态数据增强方法的步骤。