CN117668292A

CN117668292A - 一种跨模态敏感信息识别方法

Info

Publication number: CN117668292A
Application number: CN202311456039.XA
Authority: CN
Inventors: 郑中华; 胡淦; 王文仲
Original assignee: ANHUI BORYOU INFORMATION TECHNOLOGY CO LTD
Current assignee: ANHUI BORYOU INFORMATION TECHNOLOGY CO LTD
Priority date: 2023-11-03
Filing date: 2023-11-03
Publication date: 2024-03-08

Abstract

本发明提供了一种跨模态敏感信息识别方法，旨在处理多模态数据，如文本、图像和声音，以检测和识别其中的敏感信息，属于数据处理技术领域，方法具体包括如下步骤：首先，对视频数据进行截帧，从中提取关键帧来代表视频中的关键内容，同时对音频数据进行语音识别创建文本词条。然后，利用深度神经网络对每一种数据模态进行特征学习，确保文本、图像和音频等各模态数据的特征都被充分抽取。其次，将这些多模态特征进行迭代推理和融合，提高特征的表示能力和敏感信息的检测准确率。最后，通过分类器对融合后的特征进行敏感信息的识别和分类。所提模型包括四个模块：多模态特征学习模块、多模态特征迭代推理模块、特征融合模块和敏感信息识别模块。本发明可以更加高效和准确地在多模态数据中发现和识别潜在的敏感信息，有助于提高数据安全性和保护用户隐私。

Description

一种跨模态敏感信息识别方法

技术领域

本发明属于数据处理技术领域，具体涉及一种跨模态敏感信息识别方法。

背景技术

在数字时代，数据已经成为无价的资产。尽管这些数据为个人、组织甚至整个社会提供了无限的机会，但与此同时，也带来了巨大的风险。敏感信息，包括身份证号、银行账号，如果被非法获取、泄露或误用，可能会对相关的个体、组织甚至整个社会造成无法估量的损害。因此，针对敏感信息的识别与保护变得尤为重要。

为了应对这一挑战，众多研究者和机构试图设计和开发出有效的敏感信息识别方法。传统的方法往往只关注单一模态的数据，例如，只针对文本或仅仅是图像。然而，随着多媒体技术的演进，传统的单模态方法在处理如社交媒体帖子或新闻报道这样的复合型内容时显得力不从心。这引发了一系列问题，其中一个明显的问题是，单模态方法可能会遗漏其他模态中的关键信息，从而导致识别的不准确或不完整。此外，单模态方法也难以处理多模态间的互补和冲突信息。举例而言，在一个带有图片的新闻报道中，文本描述可能与图片内容之间存在语义上的差异或冲突，单一模态方法难以捕捉到这种复杂的关系。同样，音频和视频的结合，如在视频会议或多媒体教学中，也需要综合分析来确保敏感信息的准确识别。传统的敏感信息识别方法通常依赖于人工审核或基于规则的筛选，然而，这些方法不仅耗时耗力，还容易出现错误或漏检的情况。唯有跨模态的分析，才能全面、准确地捕捉到所有潜在的敏感信息。

近年来，深度学习技术已经在众多领域展现了其强大的潜力，从图像识别、语音处理到自然语言理解。跨模态敏感信息识别方法是一种利用深度学习技术，对不同类型的数据(如文本、图像、音频、视频等)进行敏感信息识别的方法。深度学习技术不仅大大提高了处理速度和自动化水平，更能深入挖掘多模态数据间的细微关联与差异，为识别结果带来更高的全面性和准确度。在文本处理方面，Bert模型作为一种基于Transformer的预训练模型，在近年来已经证明了其在多种自然语言处理任务中的优越性。通过Bert，我们可以更为准确地提取文本中的语义信息，并在此基础上进行敏感信息的自动识别。对于图像识别，Faster R-CNN作为一种区域卷积神经网络，已经在目标检测领域取得了卓越的成绩。它可以快速、准确地识别图像中的各种对象和场景，并提取与之相关的特征信息。当应用于敏感信息识别时，Faster R-CNN可以帮助我们自动检测图像中可能存在的敏感内容，如不当的标志、标识或其他敏感图像元素。值得注意的是，视频和音频数据的处理相对更为复杂。通常，视频可以被视为图像序列。因此，可以将视频分解为帧并使用Faster R-CNN进行处理。音频数据则可以通过先进的语音识别技术转化为文本格式，然后应用Bert进行分析。另外，通过深度学习技术，我们可以有效地实现多模态数据间的特征融合。这意味着，文本、图像、音频和视频等不同模态的数据可以在统一的框架下进行分析和处理，从而确保信息识别的全面性和准确性。这种方法不仅大大提高了敏感信息识别的效率，而且大大减少了人工审核的需求和相关的人力成本。利用深度学习技术，我们可以对大量的多模态数据进行快速、高效的分析，自动地检测出其中的敏感信息。这样不仅大大提高了识别的准确性和效率，而且显著减少了人工干预的成本和风险。

发明内容

为解决多模态数据中敏感信息提取准确度和效率低的问题，本发明提出了一种跨模态敏感信息识别方法。该方法采用深度神经网络模型学习多模态信息的特征表示，然后通过双通道多跳推理机制挖掘多模态信息间的隐含关系，最后进行特征融合与敏感信息的识别，以提高多模态数据中敏感信息提取的准确度和效率。

为了实现上述目的，本发明采用如下技术方案：

一种跨模态敏感信息识别方法，具体包括如下步骤：

步骤1、明确跨模态敏感信息识别任务的目的，分析并设计具体流程的实现；

步骤2、对视频数据进行截帧处理，同时对音频数据进行语音识别创建文本词条；

步骤3、设计模型架构，将其分为四个模块：多模态特征学习模块、多模态特征迭代推理模块、特征融合模块和敏感信息识别模块；

步骤4、多模态特征学习模块采用深度神经网络分别对文本、图像和音频等多模态数据进行特征学习，确保从各自模态中充分提取出有代表性的特征；

步骤5、多模态特征迭代推理模块用于捕获多模态信息间的关联，加强敏感语义信息理解。首先对文本和图像模块进行初始化，然后迭代交互两模块的信息，深度挖掘和利用图像与文本间的隐含关系，最后通过两条推理路径获得敏感信息感知的特征表示；

步骤6、提出一种双通道多跳推理机制用于对敏感信息进行深度推理；

步骤7、融合多模态数据，构建编码器嵌入表示；

步骤8、采用基于长短期记忆网络的多模态解码器计算特征分布，生成识别出敏感信息。

进一步地，步骤4的具体过程如下：

步骤4.1、多模态特征学习模块包括文本嵌入和图像嵌入两部分；

步骤4.2、使用预训练的文本深度神经网络模型Bert，对文本数据和敏感信息列表进行编码，分别转换为固定长度的向量T_q和S_q，以捕获文本中的关键语义内容；

步骤4.3、使用预训练的图像识别神经网络模型ResNet-101上的Faster R-CNN，对图像与视频截帧数据进行处理，将其转换为特征向量V_q，以提取输入数据中突出区域的视觉特征。

进一步地，步骤5的具体过程如下：

步骤5.1、文本模块初始化。首先将查询文本特征t_text和敏感信息特征s结合获取查询感知的注意权重η，然后将其应用到敏感信息特征s上，最后计算敏感信息的查询感知表示丰富文本敏感信息的语义表示；

步骤5.2、图像模块初始化。首先将特征信息映射到d维向量上，然后利用注意机制计算所有目标检测的注意权重，得到敏感信息感知注意权重α，最后将敏感信息感知注意权重应用于图像特征v以获得图像的敏感信息感知表示丰富图像敏感信息的语义表示；

步骤5.3、双通道多跳推理。双通道敏感信息多跳推理机制是通过两个模块实现的，即文本模块和图像模块。文本模块从敏感信息列表全面理解敏感语义信息，图像模块通过图像特征全面理解敏感语义信息。文本模块的推理路径是S₁→I₂→S₃→…→S_n，图像模块的推理路径是I₁→S₂→I₃→…→I_n。两个模块初始化完成后，输出需要多次交互迭代，挖掘多模态信息间隐藏的语义关联，共同对敏感信息进行深度推理。

进一步地，步骤6的具体过程如下：

对于推理路径I₁→S₂→I₃→…→I_n，初始化图像模块后，通过图像模块计算得到然后结合敏感信息列表特征s输入文本。在模块中，/>被计算，然后结合图像特征v，输入图像模块得到/>这是一个交互式推理过程，然后以这种方式迭代进行。最后，得到图像模块的推理结果/>具体地：

重复步骤1，2，3迭代；

对于推理路径S₁→I₂→S₃→…→S_n，初始化文本模块后，使用用户的敏感信息列表特征s、文本特征t_q输入。通过文本模块的计算得到。之后，图像特征v被输入到图像模块中进行计算/>将敏感信息列表特征s输入文本模块，得到/>这是一个交互推理的迭代过程，计算以这种方式继续进行。最后，得到文本模块的推理结果/>具体地：

重复步骤1，2，3迭代。

进一步地，步骤7中，具体过程为：

步骤7.1、使用待查询的文本特征t来增强由跟踪模块和定位模块生成的多态表征和/>的表征，计算公式如下：

式中，f表示ReLU激活的两层感知机。

步骤7.2根据公式(1)-(2)将三个模块的表示进行特征融合。

进一步地，步骤8的具体过程如下：

步骤8.1、使用编码器输出作为嵌入，初始化解码器LSTM的输入，如公式(5)所示：

其中，t_q是编码器中查询LSTM的最后一个状态。

步骤8.2、使用LSTM长短期记忆网络对h建模：

h_t＝LSTM(y_t-1,h_t-1) (6)

其中，h_t为在时刻t的隐藏状态，y-1为时刻t-1生成的敏感信息的表示。

步骤8.3、给定查询特征p、图像特征v、隐私列表s和隐藏状态h_t，通过带有Softmax函数的单层感知器生成查询特征、敏感列表特征、图像特征3个注意力分布权重，以查询特征p为例，定义如下：

式中，E是所有元素设为1的向量，W_q、是学习参数。之后，得到查询向量m_p如下：

步骤8.4、与查询向量的计算类似，计算得到图像向量m_v、敏感列表向量m_s，进而计算多模态上下文向量c_t：

c_t＝tanh(W_c[m_p·m_v·m_s]) (10)

其中，[·]表示向量之间的乘法，W_c表示可学习参数，用于计算向量。

步骤8.5、利用扩展LSTM获得视觉前哨s_t，计算公式如(11)-(12)所示：

g_t＝σ(W_xx_t+W_xh_t-1) (11)

其中，W_x、W_h是学习参数，g_t为应用于存储单元m_p的门，x_t为时刻t的LSTM输入。

步骤8.6、基于视觉哨兵s_t，由自适应注意力模型计算出的多模态上下文向量如下式所示：

式中，θ_t为时刻t的新哨门。当θ_t为1时，表示使用视觉标记信号，当θ_t为0时，表示在生成预测词时只使用空间图像信息。θ_t由t空间图像上的注意力分布α_t计算得出，计算过程如式(14)和式(15)所示：

步骤8.7、使用多模态融合特征表示和前一阶段要查询的特征，使用链式法则，将联合概率分布的对数似然分解为有序条件，如下式所示：

每个条件概率都使用递归神经网络建模，如下式所示：

一种跨模态敏感信息识别方法，其特征在于，采用如权利要求1-6任意一项所述的跨模态敏感信息识别方法；模型包括多模态特征学习模块、多模态特征迭代推理模块、特征融合模块和敏感信息识别模块；其中，

多模态特征学习模块将文本、图像、音频等多模态信息分别转换成相应的低维特征向量，为多模态特征迭代推理做准备。

多模态特征迭代推理模块通过多模态双通道多跳推理机制输入用户特征的多通道敏感信息，挖掘多模态间隐藏的语义关联，共同对敏感信息进行深度推理。首先对文本和图像模块进行初始化，然后迭代交互两模块的信息，深度挖掘和利用图像与文本间的隐含关系，最后通过两条推理路径获得敏感信息感知的特征表示；

特征融合模块用于增强图像和文本的表征，融合两个模块的表示，获得解码器的最终表示。

敏感信息识别模块采用一个基于LSTM的多模态解码器，桥接图像和句子之间的概率相关性，在给定的单词和图像的语义空间中学习联合分布，当存在多模态特征时，可以借助隐藏单元计算中的显式状态转换来分析隐藏在多模态数据中的时间依赖性，使用时间反向传播算法来训练参数，并从捕获的联合分布句子中逐字生成。

本发明所带来的有益技术效果：

通过对视频进行截帧，以转换为图像的处理，对音频数据进行语音识别创建文本词条，成功地实现了多模态信息的整合；

采用深度神经网络Bert和Faster R-CNN学习多模态信息的特征表示，快速而准确地捕获多模态数据中的关键特征，确保了信息的完整性和丰富性；

引入双通道多跳推理机制，对信息进行迭代交互，通过文本和图像两条推理路径深度挖掘和利用多模态数据之间的隐含关系；

基于LSTM的多模态解码器不仅可以实现图像和文本之间的交互，而且可以深入探索和利用它们之间的隐含相关性。在预测敏感信息时，通过关注文本和图像的上下文和上下文信息，并在视觉信息和语言模型之间自适应地切换注意力，实现了对敏感信息的灵活准确识别。

附图说明

图1为本发明一种跨模态敏感信息识别方法的模型架构图；

图2为本发明方法中多模态特征表示学习示意图；

图3为本发明方法中双通道多跳推理机制示意图。

图4为本发明方法中双通道多跳推理路径示意图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

如图1所示，一种跨模态敏感信息识别方法，首先通过对视频进行截帧，对音频进行语音识别的方法转换特征提取方式，采用深度神经网络模型学习文本、图像等多模态信息的特征表示，然后通过多模态特征迭代推理模块中的双通道多跳推理机制来深度挖掘多模态信息间的隐含关系，最后进行双模块特征融合和敏感信息的分类与识别，以提高多模态数据中敏感信息提取的准确度和效率；具体包括如下步骤：

步骤2、对视频数据进行截帧处理，同时对音频数据进行语音识别创建文本词条。具体过程如下：

采用爬取的社交平台上50名用户的手工注释数据来评估实验。每个用户有120条数据，每条数据可能包括内容文本，图像，图像描述、音频、视频和敏感列表信息。处理后包括6000个图像数据和24000个文本数据。在最后的训练数据集中，有4800张图像和19200种文本信息，验证集有600张图像和2400种文本信息，实验结果在测试集600张图像和2400种文本信息中得到验证。

步骤3、设计模型架构，将其分为四个模块：多模态特征学习模块、多模态特征迭代推理模块、特征融合模块和敏感信息识别模块。具体过程如下：

首先，多模态特征学习模块将输入的多模态数据映射为文本特征嵌入与图像特征嵌入。其次，多模态特征迭代推理模块通过多模态双通道多跳推理机制输入用户特征的多通道敏感信息，深度挖掘多模态信息间隐藏的语义关联。具体地，对文本和图像模块初始化后，迭代交互两模块的信息，通过两条推理路径获得敏感信息感知的特征表示。再次，使用待查询数据增强文本、图片两个模块的特征表示，并将两个模块的表示进行融合，最后通过解码器识别敏感信息。

步骤4、多模态特征学习模块采用深度神经网络分别对文本、图像和音频等多模态数据进行特征学习，确保从各自模态中充分提取出有代表性的特征。具体过程如下：

对于步骤4.3中深度神经网络对于输入文本和图像多模态数据的处理，可表示为图2所示的逻辑过程：

(1)将视频数据通过截帧转为图像数据，将音频数据通过语音识别转为文本信息；

(2)分别提取文本和图像信息的特征表示T_q、S_q和V_q，送入多模态特征交互推理模块提取敏感信息感知的特征表示。

步骤5、多模态特征迭代推理模块用于捕获多模态信息间的关联，加强敏感语义信息理解。首先对文本和图像模块进行初始化，然后迭代交互两模块的信息，深度挖掘和利用图像与文本间的隐含关系，最后通过两条推理路径获得敏感信息感知的特征表示。具体过程如下：

对于步骤5.3中双通道多跳推理机制的处理，可表示为图3所示的逻辑过程：

文本模块的推理路径是S₁→I₂→S₃→…→S_n，得到文本模块的推理结果

图像模块的推理路径是I₁→S₂→I₃→…→I_n，得到图像模块的推理结果

步骤6、提出一种双通道多跳推理机制用于对敏感信息进行深度推理。具体过程如下：

重复步骤1，2，3迭代；

重复步骤1，2，3迭代。

步骤7、融合多模态数据，构建编码器嵌入表示。具体过程如下：

式中，f表示ReLU激活的两层感知机。

步骤7.2根据公式(1)-(2)将三个模块的表示进行特征融合。

步骤8、采用基于长短期记忆网络的多模态解码器计算特征分布，生成识别出敏感信息。具体过程如下：

其中，t_q是编码器中查询LSTM的最后一个状态。

步骤8.2、使用LSTM长短期记忆网络对h建模：

h_t＝LSTM(y_t-1，h_t-1) (6)

c_t＝tanh(W_c[m_p·m_v·m_s]) (10)

g_t＝σ(W_xx_t+W_xh_t-1) (11)

每个条件概率都使用递归神经网络建模，如下式所示：

为了证明本发明的可行性和优越性，进行了验证实验。实验采用自制数据集来评估模型的性能。每个用户有120条数据，每条数据可能包括内容文本，图像，图像描述、音频、视频和敏感列表信息。处理后包括6000个图像数据和24000个文本数据。在最后的训练数据集中，有4800张图像和19200种文本信息，验证集有600张图像和2400种文本信息，实验结果在测试集600张图像和2400种文本信息中得到验证。以下为验证实验的具体步骤：

实验环境配置：windows10操作系统、11th Gen Intel(R)Core(TM)i5-1135G7@2.40GHz 1.38GHz、16GB RAM、python3.7、Tensorflow 1.15

输入：数据集所有的多模态数据；学习率l；批次大小batchsize

输出：训练完成的模型M

步骤1：根据数据集生成每条数据的特征表示T_q、S_q和V_q；

步骤2：通过双通道多跳推理机制对多模态数据进行深度推理，由两条推理路径获得敏感信息感知的特征表示和/>

步骤3：使用待查询文本特征t来增强由跟踪模块和定位模块生成的多态表征和的表征，融合特征表示得到编码器输出

步骤4：通过单层感知器生成各特征注意力分布权重。基于视觉哨兵s_t，由自适应注意力模型计算出的多模态上下文向量；

步骤5：完成构建训练集后，开始初始化模型参数，在训练集中抽取batchsize个样本；

步骤6：训练整个模型，并计算模型整体的损失Logloss；

步骤7：选择Adam优化器，根据反向传播算法更新模型参数，直到直至模型收敛或训练轮次达到阈值时停止训练。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种跨模态敏感信息识别方法，其特征在于，具体包括如下步骤：

步骤1、对待识别数据进行预处理，分类提取并保存文本、图像、视频、音频四类数据；

步骤2、对视频数据进行截帧处理，截取出的图片集保存至vedio中，同时对音频数据进行语音识别转换为文本；

步骤6、利用双通道多跳推理机制对敏感信息进行深度推理；

步骤7、融合多模态数据，构建编码器嵌入表示；

2.根据权利要求1所述一种跨模态敏感信息识别方法，其特征在于，所述步骤4的具体过程如下：

3.根据权利要求1所述一种跨模态敏感信息识别方法，其特征在于，所述步骤5的具体过程如下：

4.根据权利要求1所述一种跨模态敏感信息识别方法，其特征在于，所述步骤6的具体过程如下：

Step1:

Step2:

Step3:

重复步骤1，2，3迭代；

Step1:

Step2:

Step3:

重复步骤1，2，3迭代。

5.据权利要求1所述一种跨模态敏感信息识别方法，其特征在于，所述步骤7中，

式中，f表示ReLU激活的两层感知机。

步骤7.2根据公式(1)-(2)将三个模块的表示进行特征融合。

6.根据权利要求1所述一种跨模态敏感信息识别方法，其特征在于，所述步骤8中，

其中，t_q是编码器中查询LSTM的最后一个状态。

步骤8.2、使用LSTM长短期记忆网络对h建模：

h_t＝LSTM(y_t-1,h_t-1) (6)

c_t＝tanh(W_c[m_p·m_v·m_s]) (10)

g_t＝σ(W_xx_t+W_xh_t-1) (11)

每个条件概率都使用递归神经网络建模，如下式所示：

7.一种跨模态敏感信息识别方法，其特征在于，采用如权利要求1-6任意一项所述的跨模态敏感信息识别方法；模型包括多模态特征学习模块、多模态特征迭代推理模块、特征融合模块和敏感信息识别模块；其中，