CN117235605B

CN117235605B - 一种基于多模态注意力融合的敏感信息分类方法及装置

Info

Publication number: CN117235605B
Application number: CN202311494327.4A
Authority: CN
Inventors: 邓正秋; 黎维
Original assignee: Hunan Malanshan Video Advanced Technology Research Institute Co ltd
Current assignee: Hunan Malanshan Video Advanced Technology Research Institute Co ltd
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2024-02-02
Anticipated expiration: 2043-11-10
Also published as: CN117235605A

Abstract

一种基于多模态注意力融合的敏感信息分类方法及装置，涉及数据处理技术领域，包括：S1、提取出多模态数据中的文本数据、图片数据和音频数据；S2、将三种数据输入至深度残差神经网络与卷积神经网络提取多模态数据的文本特征、图片特征及音频特征；S3、将文本特征、图片特征和音频特征连接在一起，形成跨模态信息的特征向量，再通过多头自注意力机制融合所述跨模态信息的特征向量形成融合特征；S4、将四种特征输入至多标签混合决策分类器中基于规则加权法对多模态数据的敏感信息识别与分类。本发明提取多模态语义特征并利用自注意力机制融合跨模态信息，获得更高层次的语义特征，从而提高了对敏感信息识别与分类的准确性。

Description

一种基于多模态注意力融合的敏感信息分类方法及装置

技术领域

本发明涉及数据处理技术领域，尤其是涉及一种基于多模态注意力融合的敏感信息分类方法及装置。

背景技术

在处理多模态数据中的敏感信息分类问题时，我们面临着许多挑战。相比于单一模态的数据，多模态数据的特征更加丰富多样，涵盖了图像、音频和文本等多方面信息，因此其分类更为复杂。

传统的分类方法通常针对单一模态进行处理，难以全面地利用多模态数据中的丰富信息，从而导致分类效果的局限性。基于规则的信息抽取方法也无法很好地适应多模态数据的分类需求，因为这些方法在面对不同模态的数据时表现欠佳。

此外，随着数据规模的不断增大，采用人工手动分类变得非常耗时且不切实际。虽然人类可以通过阅读理解多模态数据中的敏感信息，但在海量数据的情况下，实现手动分类工作已经超出了人力的承受范围。

基于以上考虑，我们迫切需要一种能够高效、准确地识别多模态数据中的敏感信息的方法。

发明内容

为了克服背景技术中的不足，本发明公开了一种基于多模态注意力融合的敏感信息分类方法及装置。

为实现上述发明目的，本发明采用如下技术方案：

一种基于多模态注意力融合的敏感信息分类方法，包含以下步骤：

S1、对多模态数据进行处理和分类，提取出所述多模态数据中的文本数据、图片数据和音频数据；

S2、将所述文本数据、图片数据和音频数据输入至深度残差神经网络与卷积神经网络提取所述多模态数据的高层语义特征，所述高层语义包括文本特征、图片特征/>及音频特征/>；

S3、将所述文本特征、所述图片特征/>和所述音频特征/>连接在一起，形成跨模态信息的特征向量/>，再通过多头自注意力机制融合所述跨模态信息的特征向量/>形成融合特征/>；

S4、将所述文本特征、所述图片特征/>、所述音频特征/>与所述融合特征输入至多标签混合决策分类器中基于规则加权法实现对所述多模态数据的敏感信息识别与分类。

具体的，步骤S2具体包括以下步骤：

S21、将所述文本数据输入到预训练ERINE模型中提取出初步文本特征，再将初步文本特征输入到残差全连接层网络，输出得到文本特征；

S22、将所述图片数据输入到ResNet模型中提取出初步图像特征，再将初步图像特征输入到双向长短期记忆网络模型进行进一步语义建模，输出得到图片特征；

S23、将所述音频数据输入到VGG模型中提取出初步音频特征，再将初步音频特征输入到双向长短期记忆网络模型进行进一步的语义建模，输出得到音频特征；

具体的，步骤S1中提取出所述多模态数据中的文本数据包括以下步骤：

S11、获取所述多模态数据中的文本信息作为第一文本信息；

S12、将所述多模态数据中的视频分解为视频图片与视频音频；

S13、获取所述多模态数据中的图片与所述视频图片中文本信息作为第二文本信息；

S14、获取所述多模态数据中的音频与所述视频音频中文本信息作为第三文本信息；

S15、将所述第一文本信息、第二文本信息及第三文本信息作为所述文本数据。

具体的，步骤S3具体包括以下步骤：

S31、特征连接，将文本特征、图片特征/>和音频特征/>连接在一起，形成一个具备跨模态信息的特征向量/>，如公式(4)所示：

；

其中，代表序列之间的串联运算；

S32、特征变换与多头注意力权重计算，通过线性变换将特征向量映射到查询、键和值空间，如公式(5)-(7)所示：

；

其中，，/>，/>代表特征向量/>的查询，键和值的映射，/>，/>，/>分别表示注意头i的对应查询，键和值的权重矩阵，/>，/>，/>分别表示注意头i的对应查询，键和值的偏差矩阵；

然后对每个注意力头i计算注意分数并获得注意力权重，如公式(8)所示：

；

其中，表示注意头i的对敏感信息的注意力分数，softmax为归一化指数函数，是键的维度，/>表示注意头i的注意力权重；

S33、多头权重加权与特征融合：利用注意力权重对值/>进行加权求和，如公式(9)所示：

；

其中，得到表示融合后的注意头i的所包含特征；

然后，将多头融合特征进行拼接进行线性逆变换后映射到原始特征空间，得到最终的融合特征，如公式(10)所示：

；

其中，代表最终的融合特征，n代表总共的注意力头数，/>和/>代表进行逆线性变换的权重矩阵与偏差。

具体的，步骤S4具体包括如下步骤：

S41、对敏感信息进行了j种类别的分类；

S42、根据所述文本特征、所述图片特征/>和所述音频特征/>与所述融合特征/>计算所述多模态数据在每个敏感标签的置信度，如公式(11)所示：

；

其中，，/>，/>，/>代表相应特征经过多层全连接层处理后的结果；/>，，/>，/>代表在i类标签下混合特征、文本特征、图片特征与音频特征的权重因子，这些权重因子通过网格搜索法确定；/>代表Sigmoid激活函数；/>代表第i个敏感标签的置信度；

S43、根据所述多模态数据在每个敏感标签的置信度判断其所属的敏感信息类别，

如果大于某类别敏感信息阈值，表示所述多模态数据属于该敏感信息类别；

如果小于等于某类别敏感信息阈值，表示所述多模态数据不属于该敏感信息类别，如公式(12)所示:

；

其中，对应标签i的阈值，当所有的/>都小于对应的阈值时，那么说明该多模态数据不涉及任何敏感信息。

具体的，步骤S13中通过OCR获取图片中的文本信息；

具体的，步骤S14中通过ASR获取音频中的文本信息。

本发明还公开了一种基于多模态注意力融合的敏感信息分类装置，包含如下单元：

预处理单元，用于对多模态数据进行处理和分类，提取出所述多模态数据中的文本数据、图片数据和音频数据；

高层语义特征提取单元，用于将所述文本数据、图片数据和音频数据输入至深度残差神经网络与卷积神经网络提取所述多模态数据的高层语义特征，所述高层语义特征包括文本特征、图片特征/>及音频特征/>；

特征融合单元，用于将所述文本特征、所述图片特征/>和所述音频特征/>连接在一起，形成跨模态信息的特征向量/>，再通过多头自注意力机制融合所述跨模态信息的特征向量/>形成融合特征/>；

识别与分类单元，用于将所述文本特征、所述图片特征/>、所述音频特征/>与所述融合特征/>输入至多标签混合决策分类器中基于规则加权法实现对所述多模态数据的敏感信息识别与分类。

本发明公开的一种基于多模态注意力融合的敏感信息分类方法，包括以下步骤：S1、对多模态数据进行处理和分类，提取出所述多模态数据中的文本数据、图片数据和音频数据；S2、将所述文本数据、图片数据和音频数据输入至深度残差神经网络与卷积神经网络提取所述多模态数据的高层语义特征，所述高层语义特征包括文本特征、图片特征及音频特征；S3、将所述文本特征、图片特征和音频特征连接在一起，形成跨模态信息的特征向量，再通过多头自注意力机制融合所述跨模态信息的特征向量形成融合特征；S4、将所述文本特征、所述图片特征、所述音频特征与所述融合特征输入至多标签混合决策分类器中基于规则加权法实现对所述多模态数据的敏感信息识别与分类。本发明基于综合的神经网络框架提取多模态语义特征并利用自注意力机制融合跨模态信息，实现了跨模态信息的深度融合，不仅能够充分挖掘不同模态之间的丰富信息，还能将来自不同模态的信息有机地融合在一起，从而获得更具代表性和高层次的语义特征，从而可以更全面地理解数据的内容，从而提高了对敏感信息识别与分类的准确性。

进一步的，本发明不仅提取了直接显现的信息，更是通过深入挖掘图片、视频和音频中蕴含的文本信息，从而扩展了多模态数据的应用领域。这样做不仅提升了信息获取的全面性和准确性，也为进一步的语义分析和深度理解提供了稳固的技术基础隐含信息的全面挖掘；

进一步的，本发明基于多标签混合决策模型实现了对敏感信息的识别与分类。该模型不仅能够综合考虑多种特征的信息，还能够在决策过程中充分利用各个特征的优势，从而提升了对敏感信息的准确识别；

进一步的，本发明通过整合文本、图片和音频等非结构化数据，采用了先进的多模态数据处理技术。这使得计算机能够以高效的方式获取并准确识别实体信息，满足了大数据时代人们快速获取关键信息的紧迫需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例提供的一种基于多模态注意力融合的敏感信息分类方法流程图；

图2是根据本发明实施例提供一种基于多模态注意力融合的敏感信息分类方法结构示意图；

图3是根据本发明实施例提供的一种多模态数据预处理流程图；

图4是根据本发明实施例提供的一种基于多模态注意力融合的敏感信息分类装置示意图；

图5是根据本发明实施例提供的一种基于多模态注意力融合的敏感信息分类设备的结构示意图。

具体实施方式

通过下面的实施例可以详细的解释本发明，公开本发明的目的旨在保护本发明范围内的一切技术改进，在本发明的描述中，需要理解的是，若有术语“上”、“下”、“前”、“后”、“左”、“右”等指示的方位或位置关系，仅是与本申请的附图对应，为了便于描述本发明，而不是指示或暗示所指的装置或元件必须具有特定的方位。

实施例一

参考图1-2，根据本实施例公开了一种基于多模态注意力融合的敏感信息分类方法，包含以下步骤：

多模态数据通常包括图像、音频、视频和文本等不同模态的信息，这些数据中蕴含着大量的敏感信息，如隐私、机密内容等。快速而准确地识别多模态数据中的敏感信息对于保障数据安全和隐私保护至关重要。

具体的，多模态数据的预处理，通过编码器-解码器结构提取各数据类型的文本信息；

具体的，多模态数据通常包括文本，视频，图片等等非结构化数据，因此首先需要对这些数据进行处理与分类。如图3所示，本发明的基于多模态注意力融合的敏感信息分类方法的输入数据为：文本，图片与音频。具体来说，首先会从多模态数据中提取出文本，图片，视频和音频等信息，然后将视频进一步提取为图片与音频两种类型。然而，图片与音频中一样包含着许多隐含的文本信息。因此，我们通过解码器-编码器结构来提取这些文本信息。

S11、获取所述多模态数据中的文本信息作为第一文本信息；

许多视频编辑软件，例如Adobe Premiere Pro、Final Cut Pro等可以将视频分解成帧或图片。本领域技术人员可以将视频帧导出为图像文件，同时可以导出音频轨道为音频文件，此为现有技术，此处便不再赘述。

具体的，步骤S13中通过OCR获取图片中的文本信息；

具体的，光学字符识别器OCR(Optical Character Recognition)是基于深度卷积神经网络和循环神经网络的解码器-编码器结构，用于提取图片中的文本信息。具体步骤如下：

（1）图像特征提取（编码器）：给定一张图片输入，使用预训练的卷积神经网络（CNN）模型，将图像输入传递给CNN网络，得到特征映射，如公式(1)所示：

；

其中，是图片的特征映射，/>表示第i层的卷积操作，包括池化，激活等，/>是第i层的CNN权重参数。每一层卷积层操作都将前一层的特征图（或输入图像）与对应的卷积核相卷积，产生新的特征图。

（2）文本区域检测与识别（解码器）：使用文本检测器度在中找到包含文本的区域内的序列化特征/>。使用LSTM将序列化特征映射到文本序列，如公式(2)所示：

；

其中，是检测到的文本区域中的每个字符的概率分布序列，/>表示第i层的LSTM层，包括输入门、遗忘门、输出门等，/>是第i层的LSTM权重参数。每一层LSTM操作会接受前一层的输出（或输入）作为输入，并根据当前时刻的输入和前一时刻的输出计算出新的输出。

（3）后处理：使用时序分类技术对进行后处理，以获得最终的文本结果。

具体的，步骤S14中通过ASR获取音频中的文本信息；

具体的，自动语音识别器ASR(Automatic Speech Recognition)是基于循环神经网络的解码器-编码器结构，用于提取音频中的文本信息。具体步骤如下：

（1）特征提取（编码器）：将音频信号转化为声谱图表示。这可以使用短时傅里叶变换技术，表示为公式(3)：

；

其中，表示在时刻 t 和频率 f 处的短时傅里叶变换值；/>表示输入音频信号；/>是希尔伯特窗口函数；/>是复指数项，表示频率的相位，其中j是虚数单位的虚部。

（2）文本序列生成（解码器）：类似的，我们使用LSTM将序列化的声谱图特征映射到文本序列，得到音频信号中每个时间步上文本的概率分布。

S2、将所述文本数据、图片数据和音频数据输入至深度残差神经网络与卷积神经网络提取所述多模态数据的高层语义特征，所述高层语义特征包括文本特征、图片特征及音频特征/>；

具体的，步骤S2具体包括以下步骤：

步骤1、文本数据特征提取：在第一个阶段，我们聚焦于文本数据的特征提取过程。给定输入我们采用了基于BERT模型经过中文词汇优化的预训练模型ERINE。ERINE模型通过对输入文本进行多层次的语法分析，构建了一个具有丰富语义信息的文本表示。接着，我们引入了残差全连接层网络，以进一步提取高维度的语言特征。这个网络设计旨在强调文本信息中的重要语义结构，使我们能够获得更丰富的语言表示。经过这个阶段的处理，我们得到了文本的特征/>。

步骤2、图片数据特征提取：在第二个阶段，我们着眼于图片数据的特征提取过程。对于给定的输入，我们运用了ResNet模型，这一模型在图像数据处理方面拥有卓越的性能。ResNet的设计使其能够在多层次上捕捉到图像中的丰富信息。接着，我们引入了双向长短期记忆网络模型，对ResNet提取的特征进行进一步的语义建模，从而使我们能够更全面地理解图像所包含的信息。通过这个阶段的处理，我们获得了具有高层语义信息的图片特征/>。

步骤3、音频数据特征提取：在第三个阶段，我们将重心放在了音频数据的特征提取上。通过给定的音频输入，我们使用了VGG模型进行初步特征提取，将音频信息转化为可供后续处理的形式。VGG模型通过对音频信号进行多层次的特征提取，构建了一个具有丰富信息的音频表示。随后，我们引入了双向长短期记忆网络模型，对VGG提取的特征进行进一步的语义建模，从而使我们能够更全面地理解音频数据。经过这个阶段的处理，我们得到了具有高层语义信息的音频特征/>。

S3、将所述文本特征、图片特征/>和音频特征/>形成跨模态信息的特征向量/>，再通过多头自注意力机制融合所述跨模态信息的特征向量/>形成融合特征/>；

具体的，步骤S3具体包括以下步骤：

特征连接是将不同模态的特征连接在一起形成一个整体的特征向量，可以提供更丰富的全局上下文信息，有助于模型更好地理解整个跨模态数据。因此，在第一阶段，将文本特征、所述图片特征/>和所述音频特征/>连接在一起，形成一个具备跨模态信息的特征向量/>。

；

其中，代表序列之间的串联运算；

特征融合是利用多头自注意力机制通过允许模型在特定任务中自动地关注不同模态的信息，从而提高了模型对跨模态高层语义特征融合的能力。因此，我们使用多头注意力机制进行特征融合。

；

其中，得到表示融合后的注意头i的所包含特征；

；

首先，我们对敏感信息进行了j种类别的分类，例如：涉政、暴力等等。每个类别代表了不同类型的敏感信息，我们的目标是对这些信息进行准确的识别与分类，每一个多模态信息可能存在多种敏感风险，而只有当多模态信息不存在任何一种敏感风险时，多模态信息才被认定为安全信息。

在前面的步骤中，我们已经得到了文本特征、图片特征/>音频特征/>与融合特征/>。我们将这四种不同模态的特征输入至多标签混合决策分类器中基于规则加权法实现对敏感信息的识别与分类。

具体的，步骤S4具体包括如下步骤：

S41、对敏感信息进行了j种类别的分类；

；

其中，，/>，/>，/>代表相应特征经过多层全连接层处理后的结果；/>，，/>，/>代表在i类标签下混合特征、文本特征、图片特征与音频特征的权重因子，这些权重因子通过网格搜索法确定；/>代表Sigmoid激活函数；/>代表第i个敏感标签的置信度；对于每个标签，可以设定一个阈值；

；

本实施例公开的一种基于多模态注意力融合的敏感信息分类方法，包括以下步骤：S1、对多模态数据进行处理和分类，提取出所述多模态数据中的文本数据、图片数据和音频数据； S2、将所述文本数据、图片数据和音频数据输入至深度残差神经网络与卷积神经网络提取所述多模态数据的高层语义特征，所述高层语义特征包括文本特征、图片特征及音频特征；S3、将所述文本特征、图片特征和音频特征连接在一起，形成跨模态信息的特征向量，再通过多头自注意力机制融合所述跨模态信息的特征向量形成融合特征；S4、将所述文本特征、所述图片特征、所述音频特征与所述融合特征输入至多标签混合决策分类器中基于规则加权法实现对所述多模态数据的敏感信息识别与分类。本发明基于综合的神经网络框架提取多模态语义特征并利用自注意力机制融合跨模态信息，实现了跨模态信息的深度融合，不仅能够充分挖掘不同模态之间的丰富信息，还能将来自不同模态的信息有机地融合在一起，从而获得更具代表性和高层次的语义特征，从而可以更全面地理解数据的内容，从而提高了对敏感信息识别与分类的准确性。

进一步的，本实施例不仅提取了直接显现的信息，更是通过深入挖掘图片、视频和音频中蕴含的文本信息，从而扩展了多模态数据的应用领域。这样做不仅提升了信息获取的全面性和准确性，也为进一步的语义分析和深度理解提供了稳固的技术基础隐含信息的全面挖掘；

进一步的，本实施例基于多标签混合决策模型实现了对敏感信息的识别与分类。该模型不仅能够综合考虑多种特征的信息，还能够在决策过程中充分利用各个特征的优势，从而提升了对敏感信息的准确识别；

进一步的，本实施例通过整合文本、图片和音频等非结构化数据，采用了先进的多模态数据处理技术。这使得计算机能够以高效的方式获取并准确识别实体信息，满足了大数据时代人们快速获取关键信息的紧迫需求。

实施例二

参考图4，本实施例公开了一种基于多模态注意力融合的敏感信息分类装置，包含如下单元：

本发明实施例所提供的一种基于多模态注意力融合的敏感信息分类装置可执行本发明任意实施例所提供的一种基于多模态注意力融合的敏感信息分类方法，具备执行方法相应的功能模块和有益效果。值得注意的是，上述基于多模态注意力融合的敏感信息分类装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例三

参考图5，图5是本实施例的一种基于多模态注意力融合的敏感信息分类设备的结构示意图。该实施例的基于多模态注意力融合的敏感信息分类设备20包括处理器21、存储器22以及存储在所述存储器22中并可在所述处理器21上运行的计算机程序。所述处理器21执行所述计算机程序时实现上述方法实施例中的步骤。或者，所述处理器21执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器22中，并由所述处理器21执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述基于多模态注意力融合的敏感信息分类设备20中的执行过程。例如，所述计算机程序可以被分割成实施例二中的各个模块,各模块具体功能请参考上述实施例所述的装置的工作过程，在此不再赘述。

所述基于多模态注意力融合的敏感信息分类设备20可包括，但不仅限于，处理器21、存储器22。本领域技术人员可以理解，所述示意图仅仅是基于多模态注意力融合的敏感信息分类设备20的示例，并不构成对基于多模态注意力融合的敏感信息分类设备20的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述基于多模态注意力融合的敏感信息分类设备20还可以包括输入输出设备、网络接入设备、总线等。

所述处理器21可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器21是所述基于多模态注意力融合的敏感信息分类设备20的控制中心，利用各种接口和线路连接整个基于多模态注意力融合的敏感信息分类设备20的各个部分。

所述存储器22可用于存储所述计算机程序和/或模块，所述处理器21通过运行或执行存储在所述存储器22内的计算机程序和/或模块，以及调用存储在存储器22内的数据，实现所述基于多模态注意力融合的敏感信息分类设备20的各种功能。所述存储器22可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card,SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述基于多模态注意力融合的敏感信息分类设备20集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器21执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明未详述部分为现有技术，对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明；因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，旨在将落在等同要件的含义和范围内的所有变化囊括在本发明内。

Claims

1.一种基于多模态注意力融合的敏感信息分类方法，其特征在于，包含以下步骤：

步骤S1中提取出所述多模态数据中的文本数据包括以下步骤：

S11、获取所述多模态数据中的文本信息作为第一文本信息；

S15、将所述第一文本信息、第二文本信息及第三文本信息作为所述文本数据；

S2、将所述文本数据、图片数据和音频数据输入至深度残差神经网络与卷积神经网络提取所述多模态数据的高层语义特征，所述高层语义特征包括文本特征、图片特征/>及音频特征/>；

S4、将所述文本特征、所述图片特征/>、所述音频特征/>与所述融合特征/>输入至多标签混合决策分类器中基于规则加权法实现对所述多模态数据的敏感信息识别与分类。

2.根据权利要求1所述的方法，其特征在于，步骤S2具体包括以下步骤：

S23、将所述音频数据输入到VGG模型中提取出初步音频特征，再将初步音频特征输入到双向长短期记忆网络模型进行进一步的语义建模，输出得到音频特征。

3.根据权利要求1所述的方法，其特征在于，步骤S3具体包括以下步骤：

；

其中，代表序列之间的串联运算；

；

其中，代表特征/>的查询，键和值的映射，/>分别表示注意头i的对应查询，键和值的权重矩阵，/>分别表示注意头i的对应查询，键和值的偏差矩阵；

；

其中，表示注意头i的对敏感信息的注意力分数，softmax为归一化指数函数，/>键的维度，/>表示注意头i的注意力权重；

；

其中，得到表示融合后的注意头i的所包含特征；

；

4.根据权利要求1所述的方法，其特征在于，步骤S4具体包括如下步骤：

S41、对敏感信息进行了j种类别的分类；

；

其中，代表相应特征经过多层全连接层处理后的结果；代表在i类标签下混合特征、文本特征、图片特征与音频特征的权重因子，这些权重因子通过网格搜索法确定；/>代表Sigmoid激活函数；/>代表第i个敏感标签的置信度；

如果小于等于某类别敏感信息阈值，表示所述多模态数据不属于该敏感信息类别，如公式(12)所示：

；

5.根据权利要求1所述的方法，其特征在于，步骤S13中通过OCR获取图片中的文本信息。

6.根据权利要求1所述的方法，其特征在于，步骤S14中通过ASR获取音频中的文本信息。

7.一种基于多模态注意力融合的敏感信息分类装置，其特征在于，包含如下单元：

提取出所述多模态数据中的文本数据包括以下步骤：

S11、获取所述多模态数据中的文本信息作为第一文本信息；