CN117668292A - 一种跨模态敏感信息识别方法 - Google Patents
一种跨模态敏感信息识别方法 Download PDFInfo
- Publication number
- CN117668292A CN117668292A CN202311456039.XA CN202311456039A CN117668292A CN 117668292 A CN117668292 A CN 117668292A CN 202311456039 A CN202311456039 A CN 202311456039A CN 117668292 A CN117668292 A CN 117668292A
- Authority
- CN
- China
- Prior art keywords
- sensitive information
- module
- feature
- text
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000008569 process Effects 0.000 claims abstract description 21
- 230000004927 fusion Effects 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 238000001514 detection method Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 38
- 230000007246 mechanism Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000008447 perception Effects 0.000 claims description 15
- 230000000007 visual effect Effects 0.000 claims description 14
- 230000002708 enhancing effect Effects 0.000 claims description 10
- 230000002452 interceptive effect Effects 0.000 claims description 9
- 238000003062 neural network model Methods 0.000 claims description 8
- 238000005065 mining Methods 0.000 claims description 7
- 238000012512 characterization method Methods 0.000 claims description 6
- 230000007787 long-term memory Effects 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 230000004807 localization Effects 0.000 claims description 4
- 239000002356 single layer Substances 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 3
- 238000012804 iterative process Methods 0.000 claims description 3
- 239000010410 layer Substances 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种跨模态敏感信息识别方法,旨在处理多模态数据,如文本、图像和声音,以检测和识别其中的敏感信息,属于数据处理技术领域,方法具体包括如下步骤:首先,对视频数据进行截帧,从中提取关键帧来代表视频中的关键内容,同时对音频数据进行语音识别创建文本词条。然后,利用深度神经网络对每一种数据模态进行特征学习,确保文本、图像和音频等各模态数据的特征都被充分抽取。其次,将这些多模态特征进行迭代推理和融合,提高特征的表示能力和敏感信息的检测准确率。最后,通过分类器对融合后的特征进行敏感信息的识别和分类。所提模型包括四个模块:多模态特征学习模块、多模态特征迭代推理模块、特征融合模块和敏感信息识别模块。本发明可以更加高效和准确地在多模态数据中发现和识别潜在的敏感信息,有助于提高数据安全性和保护用户隐私。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种跨模态敏感信息识别方法。
背景技术
在数字时代,数据已经成为无价的资产。尽管这些数据为个人、组织甚至整个社会提供了无限的机会,但与此同时,也带来了巨大的风险。敏感信息,包括身份证号、银行账号,如果被非法获取、泄露或误用,可能会对相关的个体、组织甚至整个社会造成无法估量的损害。因此,针对敏感信息的识别与保护变得尤为重要。
为了应对这一挑战,众多研究者和机构试图设计和开发出有效的敏感信息识别方法。传统的方法往往只关注单一模态的数据,例如,只针对文本或仅仅是图像。然而,随着多媒体技术的演进,传统的单模态方法在处理如社交媒体帖子或新闻报道这样的复合型内容时显得力不从心。这引发了一系列问题,其中一个明显的问题是,单模态方法可能会遗漏其他模态中的关键信息,从而导致识别的不准确或不完整。此外,单模态方法也难以处理多模态间的互补和冲突信息。举例而言,在一个带有图片的新闻报道中,文本描述可能与图片内容之间存在语义上的差异或冲突,单一模态方法难以捕捉到这种复杂的关系。同样,音频和视频的结合,如在视频会议或多媒体教学中,也需要综合分析来确保敏感信息的准确识别。传统的敏感信息识别方法通常依赖于人工审核或基于规则的筛选,然而,这些方法不仅耗时耗力,还容易出现错误或漏检的情况。唯有跨模态的分析,才能全面、准确地捕捉到所有潜在的敏感信息。
近年来,深度学习技术已经在众多领域展现了其强大的潜力,从图像识别、语音处理到自然语言理解。跨模态敏感信息识别方法是一种利用深度学习技术,对不同类型的数据(如文本、图像、音频、视频等)进行敏感信息识别的方法。深度学习技术不仅大大提高了处理速度和自动化水平,更能深入挖掘多模态数据间的细微关联与差异,为识别结果带来更高的全面性和准确度。在文本处理方面,Bert模型作为一种基于Transformer的预训练模型,在近年来已经证明了其在多种自然语言处理任务中的优越性。通过Bert,我们可以更为准确地提取文本中的语义信息,并在此基础上进行敏感信息的自动识别。对于图像识别,Faster R-CNN作为一种区域卷积神经网络,已经在目标检测领域取得了卓越的成绩。它可以快速、准确地识别图像中的各种对象和场景,并提取与之相关的特征信息。当应用于敏感信息识别时,Faster R-CNN可以帮助我们自动检测图像中可能存在的敏感内容,如不当的标志、标识或其他敏感图像元素。值得注意的是,视频和音频数据的处理相对更为复杂。通常,视频可以被视为图像序列。因此,可以将视频分解为帧并使用Faster R-CNN进行处理。音频数据则可以通过先进的语音识别技术转化为文本格式,然后应用Bert进行分析。另外,通过深度学习技术,我们可以有效地实现多模态数据间的特征融合。这意味着,文本、图像、音频和视频等不同模态的数据可以在统一的框架下进行分析和处理,从而确保信息识别的全面性和准确性。这种方法不仅大大提高了敏感信息识别的效率,而且大大减少了人工审核的需求和相关的人力成本。利用深度学习技术,我们可以对大量的多模态数据进行快速、高效的分析,自动地检测出其中的敏感信息。这样不仅大大提高了识别的准确性和效率,而且显著减少了人工干预的成本和风险。
发明内容
为解决多模态数据中敏感信息提取准确度和效率低的问题,本发明提出了一种跨模态敏感信息识别方法。该方法采用深度神经网络模型学习多模态信息的特征表示,然后通过双通道多跳推理机制挖掘多模态信息间的隐含关系,最后进行特征融合与敏感信息的识别,以提高多模态数据中敏感信息提取的准确度和效率。
为了实现上述目的,本发明采用如下技术方案:
一种跨模态敏感信息识别方法,具体包括如下步骤:
步骤1、明确跨模态敏感信息识别任务的目的,分析并设计具体流程的实现;
步骤2、对视频数据进行截帧处理,同时对音频数据进行语音识别创建文本词条;
步骤3、设计模型架构,将其分为四个模块:多模态特征学习模块、多模态特征迭代推理模块、特征融合模块和敏感信息识别模块;
步骤4、多模态特征学习模块采用深度神经网络分别对文本、图像和音频等多模态数据进行特征学习,确保从各自模态中充分提取出有代表性的特征;
步骤5、多模态特征迭代推理模块用于捕获多模态信息间的关联,加强敏感语义信息理解。首先对文本和图像模块进行初始化,然后迭代交互两模块的信息,深度挖掘和利用图像与文本间的隐含关系,最后通过两条推理路径获得敏感信息感知的特征表示;
步骤6、提出一种双通道多跳推理机制用于对敏感信息进行深度推理;
步骤7、融合多模态数据,构建编码器嵌入表示;
步骤8、采用基于长短期记忆网络的多模态解码器计算特征分布,生成识别出敏感信息。
进一步地,步骤4的具体过程如下:
步骤4.1、多模态特征学习模块包括文本嵌入和图像嵌入两部分;
步骤4.2、使用预训练的文本深度神经网络模型Bert,对文本数据和敏感信息列表进行编码,分别转换为固定长度的向量Tq和Sq,以捕获文本中的关键语义内容;
步骤4.3、使用预训练的图像识别神经网络模型ResNet-101上的Faster R-CNN,对图像与视频截帧数据进行处理,将其转换为特征向量Vq,以提取输入数据中突出区域的视觉特征。
进一步地,步骤5的具体过程如下:
步骤5.1、文本模块初始化。首先将查询文本特征ttext和敏感信息特征s结合获取查询感知的注意权重η,然后将其应用到敏感信息特征s上,最后计算敏感信息的查询感知表示丰富文本敏感信息的语义表示;
步骤5.2、图像模块初始化。首先将特征信息映射到d维向量上,然后利用注意机制计算所有目标检测的注意权重,得到敏感信息感知注意权重α,最后将敏感信息感知注意权重应用于图像特征v以获得图像的敏感信息感知表示丰富图像敏感信息的语义表示;
步骤5.3、双通道多跳推理。双通道敏感信息多跳推理机制是通过两个模块实现的,即文本模块和图像模块。文本模块从敏感信息列表全面理解敏感语义信息,图像模块通过图像特征全面理解敏感语义信息。文本模块的推理路径是S1→I2→S3→…→Sn,图像模块的推理路径是I1→S2→I3→…→In。两个模块初始化完成后,输出需要多次交互迭代,挖掘多模态信息间隐藏的语义关联,共同对敏感信息进行深度推理。
进一步地,步骤6的具体过程如下:
对于推理路径I1→S2→I3→…→In,初始化图像模块后,通过图像模块计算得到然后结合敏感信息列表特征s输入文本。在模块中,/>被计算,然后结合图像特征v,输入图像模块得到/>这是一个交互式推理过程,然后以这种方式迭代进行。最后,得到图像模块的推理结果/>具体地:
重复步骤1,2,3迭代;
对于推理路径S1→I2→S3→…→Sn,初始化文本模块后,使用用户的敏感信息列表特征s、文本特征tq输入。通过文本模块的计算得到。之后,图像特征v被输入到图像模块中进行计算/>将敏感信息列表特征s输入文本模块,得到/>这是一个交互推理的迭代过程,计算以这种方式继续进行。最后,得到文本模块的推理结果/>具体地:
重复步骤1,2,3迭代。
进一步地,步骤7中,具体过程为:
步骤7.1、使用待查询的文本特征t来增强由跟踪模块和定位模块生成的多态表征和/>的表征,计算公式如下:
式中,f表示ReLU激活的两层感知机。
步骤7.2根据公式(1)-(2)将三个模块的表示进行特征融合。
进一步地,步骤8的具体过程如下:
步骤8.1、使用编码器输出作为嵌入,初始化解码器LSTM的输入,如公式(5)所示:
其中,tq是编码器中查询LSTM的最后一个状态。
步骤8.2、使用LSTM长短期记忆网络对h建模:
ht=LSTM(yt-1,ht-1) (6)
其中,ht为在时刻t的隐藏状态,y-1为时刻t-1生成的敏感信息的表示。
步骤8.3、给定查询特征p、图像特征v、隐私列表s和隐藏状态ht,通过带有Softmax函数的单层感知器生成查询特征、敏感列表特征、图像特征3个注意力分布权重,以查询特征p为例,定义如下:
式中,E是所有元素设为1的向量,Wq、是学习参数。之后,得到查询向量mp如下:
步骤8.4、与查询向量的计算类似,计算得到图像向量mv、敏感列表向量ms,进而计算多模态上下文向量ct:
ct=tanh(Wc[mp·mv·ms]) (10)
其中,[·]表示向量之间的乘法,Wc表示可学习参数,用于计算向量。
步骤8.5、利用扩展LSTM获得视觉前哨st,计算公式如(11)-(12)所示:
gt=σ(Wxxt+Wxht-1) (11)
其中,Wx、Wh是学习参数,gt为应用于存储单元mp的门,xt为时刻t的LSTM输入。
步骤8.6、基于视觉哨兵st,由自适应注意力模型计算出的多模态上下文向量如下式所示:
式中,θt为时刻t的新哨门。当θt为1时,表示使用视觉标记信号,当θt为0时,表示在生成预测词时只使用空间图像信息。θt由t空间图像上的注意力分布αt计算得出,计算过程如式(14)和式(15)所示:
步骤8.7、使用多模态融合特征表示和前一阶段要查询的特征,使用链式法则,将联合概率分布的对数似然分解为有序条件,如下式所示:
每个条件概率都使用递归神经网络建模,如下式所示:
一种跨模态敏感信息识别方法,其特征在于,采用如权利要求1-6任意一项所述的跨模态敏感信息识别方法;模型包括多模态特征学习模块、多模态特征迭代推理模块、特征融合模块和敏感信息识别模块;其中,
多模态特征学习模块将文本、图像、音频等多模态信息分别转换成相应的低维特征向量,为多模态特征迭代推理做准备。
多模态特征迭代推理模块通过多模态双通道多跳推理机制输入用户特征的多通道敏感信息,挖掘多模态间隐藏的语义关联,共同对敏感信息进行深度推理。首先对文本和图像模块进行初始化,然后迭代交互两模块的信息,深度挖掘和利用图像与文本间的隐含关系,最后通过两条推理路径获得敏感信息感知的特征表示;
特征融合模块用于增强图像和文本的表征,融合两个模块的表示,获得解码器的最终表示。
敏感信息识别模块采用一个基于LSTM的多模态解码器,桥接图像和句子之间的概率相关性,在给定的单词和图像的语义空间中学习联合分布,当存在多模态特征时,可以借助隐藏单元计算中的显式状态转换来分析隐藏在多模态数据中的时间依赖性,使用时间反向传播算法来训练参数,并从捕获的联合分布句子中逐字生成。
本发明所带来的有益技术效果:
通过对视频进行截帧,以转换为图像的处理,对音频数据进行语音识别创建文本词条,成功地实现了多模态信息的整合;
采用深度神经网络Bert和Faster R-CNN学习多模态信息的特征表示,快速而准确地捕获多模态数据中的关键特征,确保了信息的完整性和丰富性;
引入双通道多跳推理机制,对信息进行迭代交互,通过文本和图像两条推理路径深度挖掘和利用多模态数据之间的隐含关系;
基于LSTM的多模态解码器不仅可以实现图像和文本之间的交互,而且可以深入探索和利用它们之间的隐含相关性。在预测敏感信息时,通过关注文本和图像的上下文和上下文信息,并在视觉信息和语言模型之间自适应地切换注意力,实现了对敏感信息的灵活准确识别。
附图说明
图1为本发明一种跨模态敏感信息识别方法的模型架构图;
图2为本发明方法中多模态特征表示学习示意图;
图3为本发明方法中双通道多跳推理机制示意图。
图4为本发明方法中双通道多跳推理路径示意图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
如图1所示,一种跨模态敏感信息识别方法,首先通过对视频进行截帧,对音频进行语音识别的方法转换特征提取方式,采用深度神经网络模型学习文本、图像等多模态信息的特征表示,然后通过多模态特征迭代推理模块中的双通道多跳推理机制来深度挖掘多模态信息间的隐含关系,最后进行双模块特征融合和敏感信息的分类与识别,以提高多模态数据中敏感信息提取的准确度和效率;具体包括如下步骤:
步骤1、明确跨模态敏感信息识别任务的目的,分析并设计具体流程的实现;
步骤2、对视频数据进行截帧处理,同时对音频数据进行语音识别创建文本词条。具体过程如下:
采用爬取的社交平台上50名用户的手工注释数据来评估实验。每个用户有120条数据,每条数据可能包括内容文本,图像,图像描述、音频、视频和敏感列表信息。处理后包括6000个图像数据和24000个文本数据。在最后的训练数据集中,有4800张图像和19200种文本信息,验证集有600张图像和2400种文本信息,实验结果在测试集600张图像和2400种文本信息中得到验证。
步骤3、设计模型架构,将其分为四个模块:多模态特征学习模块、多模态特征迭代推理模块、特征融合模块和敏感信息识别模块。具体过程如下:
首先,多模态特征学习模块将输入的多模态数据映射为文本特征嵌入与图像特征嵌入。其次,多模态特征迭代推理模块通过多模态双通道多跳推理机制输入用户特征的多通道敏感信息,深度挖掘多模态信息间隐藏的语义关联。具体地,对文本和图像模块初始化后,迭代交互两模块的信息,通过两条推理路径获得敏感信息感知的特征表示。再次,使用待查询数据增强文本、图片两个模块的特征表示,并将两个模块的表示进行融合,最后通过解码器识别敏感信息。
步骤4、多模态特征学习模块采用深度神经网络分别对文本、图像和音频等多模态数据进行特征学习,确保从各自模态中充分提取出有代表性的特征。具体过程如下:
步骤4.1、多模态特征学习模块包括文本嵌入和图像嵌入两部分;
步骤4.2、使用预训练的文本深度神经网络模型Bert,对文本数据和敏感信息列表进行编码,分别转换为固定长度的向量Tq和Sq,以捕获文本中的关键语义内容;
步骤4.3、使用预训练的图像识别神经网络模型ResNet-101上的Faster R-CNN,对图像与视频截帧数据进行处理,将其转换为特征向量Vq,以提取输入数据中突出区域的视觉特征。
对于步骤4.3中深度神经网络对于输入文本和图像多模态数据的处理,可表示为图2所示的逻辑过程:
(1)将视频数据通过截帧转为图像数据,将音频数据通过语音识别转为文本信息;
(2)分别提取文本和图像信息的特征表示Tq、Sq和Vq,送入多模态特征交互推理模块提取敏感信息感知的特征表示。
步骤5、多模态特征迭代推理模块用于捕获多模态信息间的关联,加强敏感语义信息理解。首先对文本和图像模块进行初始化,然后迭代交互两模块的信息,深度挖掘和利用图像与文本间的隐含关系,最后通过两条推理路径获得敏感信息感知的特征表示。具体过程如下:
步骤5.1、文本模块初始化。首先将查询文本特征ttext和敏感信息特征s结合获取查询感知的注意权重η,然后将其应用到敏感信息特征s上,最后计算敏感信息的查询感知表示丰富文本敏感信息的语义表示;
步骤5.2、图像模块初始化。首先将特征信息映射到d维向量上,然后利用注意机制计算所有目标检测的注意权重,得到敏感信息感知注意权重α,最后将敏感信息感知注意权重应用于图像特征v以获得图像的敏感信息感知表示丰富图像敏感信息的语义表示;
步骤5.3、双通道多跳推理。双通道敏感信息多跳推理机制是通过两个模块实现的,即文本模块和图像模块。文本模块从敏感信息列表全面理解敏感语义信息,图像模块通过图像特征全面理解敏感语义信息。文本模块的推理路径是S1→I2→S3→…→Sn,图像模块的推理路径是I1→S2→I3→…→In。两个模块初始化完成后,输出需要多次交互迭代,挖掘多模态信息间隐藏的语义关联,共同对敏感信息进行深度推理。
对于步骤5.3中双通道多跳推理机制的处理,可表示为图3所示的逻辑过程:
文本模块的推理路径是S1→I2→S3→…→Sn,得到文本模块的推理结果
图像模块的推理路径是I1→S2→I3→…→In,得到图像模块的推理结果
步骤6、提出一种双通道多跳推理机制用于对敏感信息进行深度推理。具体过程如下:
对于推理路径I1→S2→I3→…→In,初始化图像模块后,通过图像模块计算得到然后结合敏感信息列表特征s输入文本。在模块中,/>被计算,然后结合图像特征v,输入图像模块得到/>这是一个交互式推理过程,然后以这种方式迭代进行。最后,得到图像模块的推理结果/>具体地:
重复步骤1,2,3迭代;
对于推理路径S1→I2→S3→…→Sn,初始化文本模块后,使用用户的敏感信息列表特征s、文本特征tq输入。通过文本模块的计算得到。之后,图像特征v被输入到图像模块中进行计算/>将敏感信息列表特征s输入文本模块,得到/>这是一个交互推理的迭代过程,计算以这种方式继续进行。最后,得到文本模块的推理结果/>具体地:
重复步骤1,2,3迭代。
步骤7、融合多模态数据,构建编码器嵌入表示。具体过程如下:
步骤7.1、使用待查询的文本特征t来增强由跟踪模块和定位模块生成的多态表征和/>的表征,计算公式如下:
式中,f表示ReLU激活的两层感知机。
步骤7.2根据公式(1)-(2)将三个模块的表示进行特征融合。
步骤8、采用基于长短期记忆网络的多模态解码器计算特征分布,生成识别出敏感信息。具体过程如下:
步骤8.1、使用编码器输出作为嵌入,初始化解码器LSTM的输入,如公式(5)所示:
其中,tq是编码器中查询LSTM的最后一个状态。
步骤8.2、使用LSTM长短期记忆网络对h建模:
ht=LSTM(yt-1,ht-1) (6)
其中,ht为在时刻t的隐藏状态,y-1为时刻t-1生成的敏感信息的表示。
步骤8.3、给定查询特征p、图像特征v、隐私列表s和隐藏状态ht,通过带有Softmax函数的单层感知器生成查询特征、敏感列表特征、图像特征3个注意力分布权重,以查询特征p为例,定义如下:
式中,E是所有元素设为1的向量,Wq、是学习参数。之后,得到查询向量mp如下:
步骤8.4、与查询向量的计算类似,计算得到图像向量mv、敏感列表向量ms,进而计算多模态上下文向量ct:
ct=tanh(Wc[mp·mv·ms]) (10)
其中,[·]表示向量之间的乘法,Wc表示可学习参数,用于计算向量。
步骤8.5、利用扩展LSTM获得视觉前哨st,计算公式如(11)-(12)所示:
gt=σ(Wxxt+Wxht-1) (11)
其中,Wx、Wh是学习参数,gt为应用于存储单元mp的门,xt为时刻t的LSTM输入。
步骤8.6、基于视觉哨兵st,由自适应注意力模型计算出的多模态上下文向量如下式所示:
式中,θt为时刻t的新哨门。当θt为1时,表示使用视觉标记信号,当θt为0时,表示在生成预测词时只使用空间图像信息。θt由t空间图像上的注意力分布αt计算得出,计算过程如式(14)和式(15)所示:
步骤8.7、使用多模态融合特征表示和前一阶段要查询的特征,使用链式法则,将联合概率分布的对数似然分解为有序条件,如下式所示:
每个条件概率都使用递归神经网络建模,如下式所示:
为了证明本发明的可行性和优越性,进行了验证实验。实验采用自制数据集来评估模型的性能。每个用户有120条数据,每条数据可能包括内容文本,图像,图像描述、音频、视频和敏感列表信息。处理后包括6000个图像数据和24000个文本数据。在最后的训练数据集中,有4800张图像和19200种文本信息,验证集有600张图像和2400种文本信息,实验结果在测试集600张图像和2400种文本信息中得到验证。以下为验证实验的具体步骤:
实验环境配置:windows10操作系统、11th Gen Intel(R)Core(TM)i5-1135G7@2.40GHz 1.38GHz、16GB RAM、python3.7、Tensorflow 1.15
输入:数据集所有的多模态数据;学习率l;批次大小batchsize
输出:训练完成的模型M
步骤1:根据数据集生成每条数据的特征表示Tq、Sq和Vq;
步骤2:通过双通道多跳推理机制对多模态数据进行深度推理,由两条推理路径获得敏感信息感知的特征表示和/>
步骤3:使用待查询文本特征t来增强由跟踪模块和定位模块生成的多态表征和的表征,融合特征表示得到编码器输出
步骤4:通过单层感知器生成各特征注意力分布权重。基于视觉哨兵st,由自适应注意力模型计算出的多模态上下文向量;
步骤5:完成构建训练集后,开始初始化模型参数,在训练集中抽取batchsize个样本;
步骤6:训练整个模型,并计算模型整体的损失Logloss;
步骤7:选择Adam优化器,根据反向传播算法更新模型参数,直到直至模型收敛或训练轮次达到阈值时停止训练。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (7)
1.一种跨模态敏感信息识别方法,其特征在于,具体包括如下步骤:
步骤1、对待识别数据进行预处理,分类提取并保存文本、图像、视频、音频四类数据;
步骤2、对视频数据进行截帧处理,截取出的图片集保存至vedio中,同时对音频数据进行语音识别转换为文本;
步骤3、设计模型架构,将其分为四个模块:多模态特征学习模块、多模态特征迭代推理模块、特征融合模块和敏感信息识别模块;
步骤4、多模态特征学习模块采用深度神经网络分别对文本、图像和音频等多模态数据进行特征学习,确保从各自模态中充分提取出有代表性的特征;
步骤5、多模态特征迭代推理模块用于捕获多模态信息间的关联,加强敏感语义信息理解。首先对文本和图像模块进行初始化,然后迭代交互两模块的信息,深度挖掘和利用图像与文本间的隐含关系,最后通过两条推理路径获得敏感信息感知的特征表示;
步骤6、利用双通道多跳推理机制对敏感信息进行深度推理;
步骤7、融合多模态数据,构建编码器嵌入表示;
步骤8、采用基于长短期记忆网络的多模态解码器计算特征分布,生成识别出敏感信息。
2.根据权利要求1所述一种跨模态敏感信息识别方法,其特征在于,所述步骤4的具体过程如下:
步骤4.1、多模态特征学习模块包括文本嵌入和图像嵌入两部分;
步骤4.2、使用预训练的文本深度神经网络模型Bert,对文本数据和敏感信息列表进行编码,分别转换为固定长度的向量Tq和Sq,以捕获文本中的关键语义内容;
步骤4.3、使用预训练的图像识别神经网络模型ResNet-101上的Faster R-CNN,对图像与视频截帧数据进行处理,将其转换为特征向量Vq,以提取输入数据中突出区域的视觉特征。
3.根据权利要求1所述一种跨模态敏感信息识别方法,其特征在于,所述步骤5的具体过程如下:
步骤5.1、文本模块初始化。首先将查询文本特征ttext和敏感信息特征s结合获取查询感知的注意权重η,然后将其应用到敏感信息特征s上,最后计算敏感信息的查询感知表示丰富文本敏感信息的语义表示;
步骤5.2、图像模块初始化。首先将特征信息映射到d维向量上,然后利用注意机制计算所有目标检测的注意权重,得到敏感信息感知注意权重α,最后将敏感信息感知注意权重应用于图像特征v以获得图像的敏感信息感知表示丰富图像敏感信息的语义表示;
步骤5.3、双通道多跳推理。双通道敏感信息多跳推理机制是通过两个模块实现的,即文本模块和图像模块。文本模块从敏感信息列表全面理解敏感语义信息,图像模块通过图像特征全面理解敏感语义信息。文本模块的推理路径是S1→I2→S3→…→Sn,图像模块的推理路径是I1→S2→I3→…→In。两个模块初始化完成后,输出需要多次交互迭代,挖掘多模态信息间隐藏的语义关联,共同对敏感信息进行深度推理。
4.根据权利要求1所述一种跨模态敏感信息识别方法,其特征在于,所述步骤6的具体过程如下:
对于推理路径I1→S2→I3→…→In,初始化图像模块后,通过图像模块计算得到然后结合敏感信息列表特征s输入文本。在模块中,/>被计算,然后结合图像特征v,输入图像模块得到/>这是一个交互式推理过程,然后以这种方式迭代进行。最后,得到图像模块的推理结果/>具体地:
Step1:
Step2:
Step3:
重复步骤1,2,3迭代;
对于推理路径S1→I2→S3→…→Sn,初始化文本模块后,使用用户的敏感信息列表特征s、文本特征tq输入。通过文本模块的计算得到。之后,图像特征v被输入到图像模块中进行计算/>将敏感信息列表特征s输入文本模块,得到/>这是一个交互推理的迭代过程,计算以这种方式继续进行。最后,得到文本模块的推理结果/>具体地:
Step1:
Step2:
Step3:
重复步骤1,2,3迭代。
5.据权利要求1所述一种跨模态敏感信息识别方法,其特征在于,所述步骤7中,
步骤7.1、使用待查询的文本特征t来增强由跟踪模块和定位模块生成的多态表征和/>的表征,计算公式如下:
式中,f表示ReLU激活的两层感知机。
步骤7.2根据公式(1)-(2)将三个模块的表示进行特征融合。
6.根据权利要求1所述一种跨模态敏感信息识别方法,其特征在于,所述步骤8中,
步骤8.1、使用编码器输出作为嵌入,初始化解码器LSTM的输入,如公式(5)所示:
其中,tq是编码器中查询LSTM的最后一个状态。
步骤8.2、使用LSTM长短期记忆网络对h建模:
ht=LSTM(yt-1,ht-1) (6)
其中,ht为在时刻t的隐藏状态,y-1为时刻t-1生成的敏感信息的表示。
步骤8.3、给定查询特征p、图像特征v、隐私列表s和隐藏状态ht,通过带有Softmax函数的单层感知器生成查询特征、敏感列表特征、图像特征3个注意力分布权重,以查询特征p为例,定义如下:
式中,E是所有元素设为1的向量,Wq、是学习参数。之后,得到查询向量mp如下:
步骤8.4、与查询向量的计算类似,计算得到图像向量mv、敏感列表向量ms,进而计算多模态上下文向量ct:
ct=tanh(Wc[mp·mv·ms]) (10)
其中,[·]表示向量之间的乘法,Wc表示可学习参数,用于计算向量。
步骤8.5、利用扩展LSTM获得视觉前哨st,计算公式如(11)-(12)所示:
gt=σ(Wxxt+Wxht-1) (11)
其中,Wx、Wh是学习参数,gt为应用于存储单元mp的门,xt为时刻t的LSTM输入。
步骤8.6、基于视觉哨兵st,由自适应注意力模型计算出的多模态上下文向量如下式所示:
式中,θt为时刻t的新哨门。当θt为1时,表示使用视觉标记信号,当θt为0时,表示在生成预测词时只使用空间图像信息。θt由t空间图像上的注意力分布αt计算得出,计算过程如式(14)和式(15)所示:
步骤8.7、使用多模态融合特征表示和前一阶段要查询的特征,使用链式法则,将联合概率分布的对数似然分解为有序条件,如下式所示:
每个条件概率都使用递归神经网络建模,如下式所示:
7.一种跨模态敏感信息识别方法,其特征在于,采用如权利要求1-6任意一项所述的跨模态敏感信息识别方法;模型包括多模态特征学习模块、多模态特征迭代推理模块、特征融合模块和敏感信息识别模块;其中,
多模态特征学习模块将文本、图像、音频等多模态信息分别转换成相应的低维特征向量,为多模态特征迭代推理做准备。
多模态特征迭代推理模块通过多模态双通道多跳推理机制输入用户特征的多通道敏感信息,挖掘多模态间隐藏的语义关联,共同对敏感信息进行深度推理。首先对文本和图像模块进行初始化,然后迭代交互两模块的信息,深度挖掘和利用图像与文本间的隐含关系,最后通过两条推理路径获得敏感信息感知的特征表示;
特征融合模块用于增强图像和文本的表征,融合两个模块的表示,获得解码器的最终表示。
敏感信息识别模块采用一个基于LSTM的多模态解码器,桥接图像和句子之间的概率相关性,在给定的单词和图像的语义空间中学习联合分布,当存在多模态特征时,可以借助隐藏单元计算中的显式状态转换来分析隐藏在多模态数据中的时间依赖性,使用时间反向传播算法来训练参数,并从捕获的联合分布句子中逐字生成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311456039.XA CN117668292A (zh) | 2023-11-03 | 2023-11-03 | 一种跨模态敏感信息识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311456039.XA CN117668292A (zh) | 2023-11-03 | 2023-11-03 | 一种跨模态敏感信息识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117668292A true CN117668292A (zh) | 2024-03-08 |
Family
ID=90070389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311456039.XA Pending CN117668292A (zh) | 2023-11-03 | 2023-11-03 | 一种跨模态敏感信息识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117668292A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117939207A (zh) * | 2024-03-15 | 2024-04-26 | 四川省广播电视科学技术研究所 | 一种广播电视内容监管方法及系统 |
CN118627015A (zh) * | 2024-08-12 | 2024-09-10 | 中国人民解放军国防科技大学 | 语义约束的多模态人格特征抗检测方法和装置 |
-
2023
- 2023-11-03 CN CN202311456039.XA patent/CN117668292A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117939207A (zh) * | 2024-03-15 | 2024-04-26 | 四川省广播电视科学技术研究所 | 一种广播电视内容监管方法及系统 |
CN118627015A (zh) * | 2024-08-12 | 2024-09-10 | 中国人民解放军国防科技大学 | 语义约束的多模态人格特征抗检测方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111061843B (zh) | 一种知识图谱引导的假新闻检测方法 | |
CN111046668B (zh) | 多模态文物数据的命名实体识别方法与装置 | |
WO2021135193A1 (zh) | 一种基于视觉对象引导的社交媒体短文本命名实体识别方法 | |
CN110598005B (zh) | 一种面向公共安全事件的多源异构数据知识图谱构建方法 | |
CN109165563B (zh) | 行人再识别方法和装置、电子设备、存储介质、程序产品 | |
CN117668292A (zh) | 一种跨模态敏感信息识别方法 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN112101044B (zh) | 一种意图识别方法、装置及电子设备 | |
CN113204952A (zh) | 一种基于聚类预分析的多意图与语义槽联合识别方法 | |
CN111581967B (zh) | 一种联合LW2V与Triplet网络的新闻主题事件检测方法 | |
CN112800184B (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN115796182A (zh) | 一种基于实体级跨模态交互的多模态命名实体识别方法 | |
CN116304307A (zh) | 一种图文跨模态检索网络训练方法、应用方法及电子设备 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN111161724B (zh) | 中文视听结合语音识别方法、系统、设备及介质 | |
CN114861082A (zh) | 一种基于多维度语义表示的攻击性评论检测方法 | |
Liu et al. | BAVS: bootstrapping audio-visual segmentation by integrating foundation knowledge | |
Al-Tameemi et al. | Multi-model fusion framework using deep learning for visual-textual sentiment classification | |
CN117235605B (zh) | 一种基于多模态注意力融合的敏感信息分类方法及装置 | |
CN114694255A (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN117033558A (zh) | 一种融合bert-wwm与多特征的影评情感分析方法 | |
Ermatita et al. | Sentiment Analysis of COVID-19 using Multimodal Fusion Neural Networks. | |
CN115346132A (zh) | 多模态表示学习的遥感图像异常事件检测方法及装置 | |
CN114386412B (zh) | 一种基于不确定性感知的多模态命名实体识别方法 | |
CN115146589A (zh) | 文本处理方法、装置、介质以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |