CN116186312A - 用于数据敏感信息发现模型的多模态数据增强方法 - Google Patents

用于数据敏感信息发现模型的多模态数据增强方法 Download PDF

Info

Publication number
CN116186312A
CN116186312A CN202211706025.4A CN202211706025A CN116186312A CN 116186312 A CN116186312 A CN 116186312A CN 202211706025 A CN202211706025 A CN 202211706025A CN 116186312 A CN116186312 A CN 116186312A
Authority
CN
China
Prior art keywords
image
text
sensitive information
data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211706025.4A
Other languages
English (en)
Inventor
蔡亮
邹贞贞
刘志超
杨潇健
杜海蛟
陈佩佩
肖雪雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huoyin Technology Co ltd
Original Assignee
Beijing Huoyin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huoyin Technology Co ltd filed Critical Beijing Huoyin Technology Co ltd
Priority to CN202211706025.4A priority Critical patent/CN116186312A/zh
Publication of CN116186312A publication Critical patent/CN116186312A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请涉及一种用于数据敏感信息发现模型的多模态数据增强方法,通过构建敏感信息图像库;利用图像描述生成模型,对所述敏感信息图像库中的图像生成相应的描述信息;将所述敏感信息图像库中的图像与相对应的所述描述信息进行组合,组建得到图像‑文字对数据库,并作为图像‑文字对多模态训练集;利用所述图像‑文字对多模态训练集,进行多模态联合数据增强训练,得到多模态融合敏感信息发现模型;利用所述多模态融合敏感信息发现模型,对所述图像‑文字对数据库进行关键敏感信息提取,获取并输出敏感实体结果。利用多模态数据增强技术,增加训练样本多样性,提高模型准确率,对于单图像数据,利用图像描述生成模型来伪造数据,对训练集进行扩展。

Description

用于数据敏感信息发现模型的多模态数据增强方法
技术领域
本公开涉及数据安全技术领域,尤其涉及一种用于数据敏感信息发现模型的多模态数据增强方法、装置和控制系统。
背景技术
身处互联网中,每个人都是数据贡献者。社交媒体上,每分钟产生难以计数的帖子,公司机构中,生产、研发、销售、售后等数据时刻更新着。这些数据中可能蕴藏着敏感信息,例如个人信息、行业技术信息等,一旦泄露,影响将不可估计。那如何在如此多数据中准确发现敏感数据,并对其定级,是数据安全的首要前提。
无论社交媒体上发帖数据,还是公司内部生产经营数据,它们的模态并非单一的,通常文本信息中夹杂关键图片信息,视频信息中蕴含重要的字幕信息,音频与音频中的文本更是不可割裂。为了充分挖掘不同模态下的数据信息,我们训练多模态融合深度学习模型来融合各个模态信息,模型跨模态可提取丰富信息以学习更好的潜在表示,使模型的敏感信息发现能力大大提高。可是如何获取蕴含敏感信息的训练数据集,多模态敏感信息发现模型的训练数据往往比较稀缺,又因为敏感信息因为其自身敏感属性,数据集往往不可公开访问,致使相应数据集的获取难上加难。此时不得不借助于数据增强技术来构造伪数据。数据增强技术广泛应用于深度学习,以提高数据效率并在计算机视觉和自然语言处理的模型训练期间提供明确的正则化。
传统的数据增强技术只是对图像或进行几何变换,包括翻转,旋转,裁剪,变形,缩放等各类操作,或改变图像本身的内容,这属于颜色变换类的数据增强,常见的包括噪声、模糊、颜色变换、擦除、填充等。对于文本信息来说,传统的数据增强只是简单地对文本语句进行某些单词替换、删除、遮掩、或者回译,或利用基于上下文信息地文本增强技术,或基于语言生成模型进行文本增强。然而,现有的数据增强技术应用于多模态的视觉语言学习并不简单。在图像-文本对中,图像和文本都包含相互匹配的丰富信息,我们希望在数据增强后,图像文本的语义信息依然匹配。例如,考虑一个图像-文本对:“一只白狗在绿色草坪的右上角玩球”的图像,如果图像应用裁剪、颜色更改或翻转等数据增强方法,对应的配对文本中的颜色、位置等词也需要同时更改。
因此,目前的数据敏感信息发现模型大多数是基于单模态数据的,很少考虑多模态信息融合技术去做敏感数据发现。即使使用了多模态融合技术,那训练数据集的稀缺也是限制其模型准确度的重要因素。再进一步,即使为了构建多模态训练数据集,使用了数据增强技术,但目前数据增强都是单独处理一种模态的数据,忽略视觉和文本之间的关联关系。
而且,现有的多模态敏感信息发现训练数据比较稀缺,传统的数据增强技术不能关联视觉文本信息,数据增强方法比较温和等问题。这是因为目前的多模态视觉文本数据增强方法,都是比较温和的:一是在视觉方面,例如用RandAugment做没有颜色反转的图像增强,或者只使用随机调整大小的裁剪,不使用其他增强技术;二是在文本方面,大多数只做简单的随机替换和删除,或用掩蔽语言建模来处理文字覆盖部分文字。
发明内容
为了解决上述问题,本申请提出一种用于数据敏感信息发现模型的多模态数据增强方法、装置和控制系统。
本申请一方面,提出一种用于数据敏感信息发现模型的多模态数据增强方法,用于数据敏感信息发现模型的多模态数据增强方法,其特征在于,包括如下步骤:
构建敏感信息图像库;
利用图像描述生成模型,对所述敏感信息图像库中的图像生成相应的描述信息;
将所述敏感信息图像库中的图像与相对应的所述描述信息进行组合,组建得到图像-文字对数据库,并作为图像-文字对多模态训练集;
利用所述图像-文字对多模态训练集,进行多模态联合数据增强训练,得到多模态融合敏感信息发现模型;
利用所述多模态融合敏感信息发现模型,对所述图像-文字对数据库进行关键敏感信息提取,获取并输出敏感实体结果。
作为本申请的一可选实施方案,可选地,利用图像描述生成模型,对所述敏感信息图像库中的图像生成相应的描述信息,包括:
获取所述图像描述训练数据中的图片序列;
采用Inception V3模型,提取所述图片序列的图像特征向量;
将所述图像特征向量依次经过一层Dropout和一全连接层,得到图片特征,并输出至特征融合层。
作为本申请的一可选实施方案,可选地,利用图像描述生成模型,对所述敏感信息图像库中的图像生成相应的描述信息,还包括:
对所述图像描述训练数据中的文本序列进行特征提取,得到对应的描述特征;
将所述描述特征中的每个词编码成索引,建立词与索引字典;
在词嵌入编码后,依次经过一层Dropout和一层长短时记忆网络,得到文本特征并输出至特征融合层。
作为本申请的一可选实施方案,可选地,利用图像描述生成模型,对所述敏感信息图像库中的图像生成相应的描述信息,还包括:
调用特征融合层,对输入的图片特征和文本特征进行特征融合;
将融合得到的特征以此经过一全连接层和一Softmax层,得到词概率分布结果;
基于贪婪算法,从词概率分布结果中,找到概率最大的词作为所述描述信息的描述词,并输出。
作为本申请的一可选实施方案,可选地,利用所述图像-文字对多模态训练集,进行多模态联合数据增强训练,得到多模态融合敏感信息发现模型,包括:
获取含有敏感信息的原始图文数据,并进行预处理,得到作为敏感数据集中的原始图文对;
利用多模态数据集Flick 8K,选取含有任务面部特征的图文对,加入所述敏感数据集中,构成训练数据集;
利用所述图像-文字对多模态训练集的图像和文本,生成新的伪图文对,并加入所述训练数据集中,作为增强训练数据集;
以增强训练数据集作为模型训练数据,进行多模态联合数据增强训练,得到多模态融合敏感信息发现模型。
作为本申请的一可选实施方案,可选地,所述多模态融合敏感信息发现模型的结构为共享参数的BERT模型结构。
作为本申请的一可选实施方案,可选地,利用所述多模态融合敏感信息发现模型,对所述图像-文字对数据库进行关键敏感信息提取,获取并输出敏感实体结果,包括:
基于预训练模型,获得所述图像-文字对数据库中文本序列的文本特征矩阵;
基于视觉预处理模型,获得所述图像-文字对数据库中图像序列的视觉特征矩阵;
将所述文本特征矩阵和所述视觉特征矩阵进行融合处理,得到融合后的特征向量;
将融合后的特征向量输入至所述多模态融合敏感信息发现模型中,得到带有视觉线索的文本编码矩阵;
将所述带有视觉线索的文本编码矩阵输入至预设的命名实体识别模型,提取并输出敏感实体结果。
作为本申请的一可选实施方案,可选地,在所述文本特征矩阵和所述视觉特征矩阵进行融合处理时,输入模型的序列分别为:
将所述文本特征矩阵记为T,其融合时输入模型的序列为:
[CLS]T+文本分段嵌入+文本位置嵌入,其中,[CLS]为开始一段融合特征开始标志;
将所述视觉特征矩阵记为V,其融合时输入模型的序列为:
[SEP]V+图像分段嵌入+图像位置嵌入,其中,[SEP]为文字特征和视觉特征的分隔符。
本申请另一方面,提出一种实现所述的用于数据敏感信息发现模型的多模态数据增强方法的装置,包括:
图像库构建模块,用于构建敏感信息图像库;
图像描述模块,用于利用图像描述生成模型,对所述敏感信息图像库中的图像生成相应的描述信息;
图文对构建模块,用于将所述敏感信息图像库中的图像与相对应的所述描述信息进行组合,组建得到图像-文字对数据库,并作为图像-文字对多模态训练集;
增强训练模块,用于利用所述图像-文字对多模态训练集,进行多模态联合数据增强训练,得到多模态融合敏感信息发现模型;
敏感信息提取模块,用于利用所述多模态融合敏感信息发现模型,对所述图像-文字对数据库进行关键敏感信息提取,获取并输出敏感实体结果。
本申请另一方面,还提出一种控制系统,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令时实现所述的用于数据敏感信息发现模型的多模态数据增强方法。
本发明的技术效果:
本申请通过构建敏感信息图像库;利用图像描述生成模型,对所述敏感信息图像库中的图像生成相应的描述信息;将所述敏感信息图像库中的图像与相对应的所述描述信息进行组合,组建得到图像-文字对数据库,并作为图像-文字对多模态训练集;利用所述图像-文字对多模态训练集,进行多模态联合数据增强训练,得到多模态融合敏感信息发现模型;利用所述多模态融合敏感信息发现模型,对所述图像-文字对数据库进行关键敏感信息提取,获取并输出敏感实体结果。利用多模态数据增强技术,增加训练样本多样性,提高模型准确率,对于单图像数据,利用图像描述生成模型来伪造数据,对训练集进行扩展。对于已有的图像-文本对,通过线性插值图像并连接来自两个现有图像-文本对的文本系列来生成新的训练样本。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出为本发明用于数据敏感信息发现模型的多模态数据增强方法的实施流程示意图;
图2示出为本发明图像描述生成模型生成描述信息的应用流程示意图;
图3示出为本发明多模态融合敏感信息发现模型生成敏感实体结果的流程示意图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
本发明提出一种基于图像描述的混合生成数据增强方法。对于单图像数据,利用图像描述生成模型来伪造数据,对训练集进行扩展。对于已有的图像-文本对,通过线性插值图像并连接来自两个现有图像-文本对的文本系列来生成新的训练样本。
本方案在只能获得图片的场景下,用于生成对图片的文字描述,从而构成图片文本对,用于扩充多模态模型训练集。
本实施例中,有关各个模型的训练规则和方法,本实施例仅作介绍,涉及到具体的训练过程,由用户自行决定训练过程。利用训练数据训练生成模型的技术,较为成熟,本实施例不做过多赘述。
实施例1
如图1所示,本申请一方面,提出一种用于数据敏感信息发现模型的多模态数据增强方法,用于数据敏感信息发现模型的多模态数据增强方法,其特征在于,包括如下步骤:
S1、构建敏感信息图像库;
含有敏感信息的图像库构建
采用比如爬取搜集的方式,获取含有枪支、弹药、爆炸、血腥暴力、黄、赌、毒等传统敏感信息或者含有个人信息或公司运营机密信息图像,组成敏感信息图像库。
S2、利用图像描述生成模型,对所述敏感信息图像库中的图像生成相应的描述信息;
图像描述生成模型具体生成方法为:利用比多模态训练数据更丰富的图像描述训练数据,训练一个图像描述生成模型,作为伪图像-文字对中文字的生成器。
图像描述生成模型的结构如图2所示。
利用预训练好的图像描述生成模型,对上述数据库中的图像生成相应描述信息。
下面会具体描述其功能。
S3、将所述敏感信息图像库中的图像与相对应的所述描述信息进行组合,组建得到图像-文字对数据库,并作为图像-文字对多模态训练集;
将步骤S2中图像和与之对应的描述信息进行组合,组成图像-文字对多模态训练集,对于图像-文字对,利用混合生成技术进行多模态联合数据增强,使图像中大多数对象和场景都保留在混合图像中,而文本信息则完全保留。新生成的图像-文本对内的语义关系是匹配的,所以可以使用增强后的数据来改进模型。
S4、利用所述图像-文字对多模态训练集,进行多模态联合数据增强训练,得到多模态融合敏感信息发现模型;
本实施例利用多模态数据增强技术,增加训练样本多样性,提高模型准确率。
需要利用上述多模态的数据集中的图像和文本,生成伪数据的伪图文对,将新生成的伪图文对加入到初始的训练数据集中当作训练数据,以此增强训练,得到多模态融合敏感信息发现模型。
S5、利用所述多模态融合敏感信息发现模型,对所述图像-文字对数据库进行关键敏感信息提取,获取并输出敏感实体结果。
多模态融合敏感信息发现模型的具体功能层如图3所示,利用此模型对非结构化数据中的文本和图像特征进行融合处理,进行敏感信息提取。
下面将具体描述各个方案步骤的应用实施例。
如图2所示,作为本申请的一可选实施方案,可选地,利用图像描述生成模型,对所述敏感信息图像库中的图像生成相应的描述信息,包括:
获取所述图像描述训练数据中的图片序列;
采用Inception V3模型,提取所述图片序列的图像特征向量;
将所述图像特征向量依次经过一层Dropout和一全连接层,得到图片特征,并输出至特征融合层。
作为本申请的一可选实施方案,可选地,利用图像描述生成模型,对所述敏感信息图像库中的图像生成相应的描述信息,还包括:
对所述图像描述训练数据中的文本序列进行特征提取,得到对应的描述特征;
将所述描述特征中的每个词编码成索引,建立词与索引字典;
在词嵌入编码后,依次经过一层Dropout和一层长短时记忆网络,得到文本特征并输出至特征融合层。
作为本申请的一可选实施方案,可选地,利用图像描述生成模型,对所述敏感信息图像库中的图像生成相应的描述信息,还包括:
调用特征融合层,对输入的图片特征和文本特征进行特征融合;
将融合得到的特征以此经过一全连接层和一Softmax层,得到词概率分布结果;
基于贪婪算法,从词概率分布结果中,找到概率最大的词作为所述描述信息的描述词,并输出。
如图2所示,图像描述生成模型的功能层结构中,分别由针对图像序列和文本序列的处理层,可以为图像序列和文本序列的分别生成对应的图片特征和文本特征。
经过特征融合层进行特征融合后,得到具体的描述每个图像内容的信息。
具体的结构应用如下:
1)首先对训练集中的图像序列的图像,运用Inception V3模型转换成一个固定长度(2048)的向量,使其可以作为输入到神经网络。注意要从倒数第二层提取图片特征向量;
2)图片特征向量经过一Dropout层,(随机失活)防止过拟合,之后再经过一层全连接层得到一个(batch_size,256)的输出---图片特征;
3)对于文本序列的描述特征,首先将每个词编码成为一个固定大小的向量,并建立词与索引字典;
4)描述特征经过预处理得到长度为40的向量后经过一个嵌入层,把每个单词都映射到一个长度为200的向量上,再经过一层Dropout防止过拟合;
5)之后经过一层长短时记忆网络,同样得到一个(batch_size,256)的输出---文本特征;
6)把两个格式相同的张量合成一个(调特征融合层,融合图片特征和文本特征),以便更好的训练。之后再经过一个全连接层,经最后一层softmax(指数归一化),产生涵盖所有词在词典出现的概率分布;
7)基于贪婪算法,概率最大的词即为所需要选择的输出单词(描述信息)。
作为本申请的一可选实施方案,可选地,利用所述图像-文字对多模态训练集,进行多模态联合数据增强训练,得到多模态融合敏感信息发现模型,包括:
1)获取含有敏感信息的原始图文数据,并进行预处理,得到作为敏感数据集中的原始图文对;
从社交媒体上爬取用户产生的含有敏感信息的图文数据对,并进行清洗转换等预处理,处理完的图文对作为敏感数据集的一部分;此为原始的图文对,为训练数据集中的一部分;
2)利用多模态数据集Flick 8K,选取含有任务面部特征的图文对,加入所述敏感数据集中,构成训练数据集;利用多模态数据集Flick8K,这个数据集包括8000多张图片,每个图片包括5句相关的句子,将句子译成中文,选取含有人物面部特征的图文对加入到步骤1)中的数据集,构成训练数据集;
3)利用所述图像-文字对多模态训练集的图像和文本,生成新的伪图文对,并加入所述训练数据集中,作为增强训练数据集;混合生成伪数据的方法如下:
将步骤1)图像-文本对数据集中的图像和文本分别用下表I和T表示。给定两个图像-文本对(Ii,Ti)和(Ij,Tj),其中i,j属于集合{1,…,N},i不等于j,N为原始数据集中图像文本对总数;新的训练样本(Ik,Tk)通过以下方法得到:
Ik=λ·Ii+(1-λ)·Ij;
Tk=concat(Ti,Tj);
其中λ是介于0和1之间的超参数,表示两个图像Ii和Ij的原始像素之间的线性插值;concat运算符表示选取直接连接两个文本序列Ti和Tj,如果文本序列来自Flick8K,则从5个描述语句中随机抽取一个。直接连接文本序列可以最好得保留原始信息。
这样新生成的伪图文对(Ik,Tk)其原始存在的语义关系在大多数场景下仍然成立。将新生成的伪图文对加入到步骤一中的训练数据集中当作训练数据。
这样,一个增强训练数据集中,包含了原始的图文对数据集、利用多模态数据集Flick 8K获取的部分数据集以及伪图文对(Ik,Tk)数据集,可以使用增强后的数据来改进模型。
以增强训练数据集作为模型训练数据,进行多模态联合数据增强训练,得到多模态融合敏感信息发现模型。
本实施例,步骤3)中的图像线性插值法中的λ是个固定值,除此之外,还可以使λ服从某种分布,这里使用Beta分布,即λ~Beta(0.1,0.1),作为图像线性插值的变体。文字序列的融合方法同步骤2)。
作为本申请的一可选实施方案,可选地,所述多模态融合敏感信息发现模型的结构为共享参数的BERT模型结构。
本实施例,使用一个共享参数的多模态BERT结构(采用BERT分词器对文本序列进行处理,得到文本特征矩阵SEP;采用152层残差网络对图片序列进行处理,并接入一个全连接层,得到视觉特征矩阵CLS),双向长短时记忆网络编码的文字特征和残差网络编码的图特征,进行[SEP]符号相连,输入到共享BERT模型中,输出的[CLS]向量用来判断不同模态数据表达的信息是否相关联。再将变换后的图文关联矩阵置信度与视觉特征矩阵进行点乘,得到的乘积矩阵与文字特征再[CLS]+文字特征+[SEP]+视觉表示拼接后,输入到共享BERT模型中,进行多模态命名实体识别任务,最终输出提取的关键信息结果。
如图3所示,作为本申请的一可选实施方案,可选地,利用所述多模态融合敏感信息发现模型,对所述图像-文字对数据库进行关键敏感信息提取,获取并输出敏感实体结果,包括:
基于预训练模型,获得所述图像-文字对数据库中文本序列的文本特征矩阵;
基于视觉预处理模型,获得所述图像-文字对数据库中图像序列的视觉特征矩阵;
将所述文本特征矩阵和所述视觉特征矩阵进行融合处理,得到融合后的特征向量;
将融合后的特征向量输入至所述多模态融合敏感信息发现模型中,得到带有视觉线索的文本编码矩阵;
将所述带有视觉线索的文本编码矩阵输入至预设的命名实体识别模型,提取并输出敏感实体结果。
多模态融合敏感信息发现模型的功能结构,同样包含对文本序列的文本进行特征提取的BERT模型以及对图像序列的图像进行特征提取的残差网络模型,在模型融合层进行特征融合后,送入BERT结构的多模态融合敏感信息发现模型进行处理,得到带有视觉线索的文本编码矩阵;最后经过双向长短时记忆-条件随机场网络模型,进行关键敏感信息提取,得到图文对的铭感实体结果,以此识别信息的敏感度。
各个功能结构(模型或者网络的训练,在前期将利用增强训练数据进行分别训练生成),结合附图3所示,多模态融合敏感信息发现模型的应用如下:
1)非结构化图像-文本/图像序列的特征提取
使用BERT预训练模型,提取文本特征表达矩阵,记为T。利用残差网络模型获得图像特征表达矩阵,记为V。
2)多模态特征矩阵融合
作为本申请的一可选实施方案,可选地,在所述文本特征矩阵和所述视觉特征矩阵进行融合处理时,输入模型的序列分别为:
将所述文本特征矩阵记为T,其融合时输入模型的序列为:
[CLS]T+文本分段嵌入+文本位置嵌入,其中,[CLS]为开始一段融合特征开始标志;
将所述视觉特征矩阵记为V,其融合时输入模型的序列为:
[SEP]V+图像分段嵌入+图像位置嵌入,其中,[SEP]为文字特征和视觉特征的分隔符。
按照BERT模型输入的做法,融合后的输入模型序列为:[CLS]T+文本分段嵌入+文本位置嵌入;[SEP]V+图像分段嵌入+图像位置嵌入,其中[CLS]为开始一段融合特征开始标志,[SEP]为文字特征和视觉特征的分隔符。
3)融合特征矩阵送入BERT训练模型
融合特征送入BERT模型,得到带有视觉线索的文本编码矩阵;
文本编码矩阵送入命名实体识别模型,提取得到要提取的关键敏感实体,并且返回其起始位置。
本实施例,命名实体识别模型,此处选用双向长短时记忆-条件随机场网络模型。
经过上述模型对多模态数据特征的关键词识别,得到该图像的描述文本信息的敏感实体结果。利用数据增强方法所识别的图像-文本对多模态训练数据集,可以提高模型对图像文本的识别准确度。
因此,本申请通过对于单图像数据,利用图像描述生成模型来伪造数据,对训练集进行扩展。对于已有的图像-文本对,通过线性插值图像并连接来自两个现有图像-文本对的文本系列来生成新的训练样本。可以解决做数据敏感信息发现相关多模态融合AI模型训练时,因多模态训练集难以获取,致使模型准确度低的技术缺点。
本发明利用多模态数据增强技术,增加训练样本多样性,提高模型准确率。
需要说明的是,尽管以多模态数据集Flick8K等训练集生成模型作为示例介绍了如上增强训练集的构成方法,但本领域技术人员能够理解,本公开应不限于此。事实上,用户完全可根据实际应用场景灵活设定各个训练集的数据生成方式,只要可以按照上述技术方法实现本申请的技术功能即可。
显然,本领域的技术人员应该明白,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各控制方法的实施例的流程。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各控制方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(FlashMemory)、硬盘(HardDiskDrive,缩写:HDD)或固态硬盘(Solid-StateDrive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
实施例2
基于实施例1的实施原理,本申请另一方面,提出一种实现所述的用于数据敏感信息发现模型的多模态数据增强方法的装置,包括:
图像库构建模块,用于构建敏感信息图像库;
图像描述模块,用于利用图像描述生成模型,对所述敏感信息图像库中的图像生成相应的描述信息;
图文对构建模块,用于将所述敏感信息图像库中的图像与相对应的所述描述信息进行组合,组建得到图像-文字对数据库,并作为图像-文字对多模态训练集;
增强训练模块,用于利用所述图像-文字对多模态训练集,进行多模态联合数据增强训练,得到多模态融合敏感信息发现模型;
敏感信息提取模块,用于利用所述多模态融合敏感信息发现模型,对所述图像-文字对数据库进行关键敏感信息提取,获取并输出敏感实体结果。
上述各个模块的具体应用原理和功能,具体参见实施例1的描述,本实施例不做赘述。
上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
实施例3
更进一步地,本申请另一方面,还提出一种控制系统,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令时实现所述的用于数据敏感信息发现模型的多模态数据增强方法。
本公开实施例来控制系统包括处理器以及用于存储处理器可执行指令的存储器。其中,处理器被配置为执行可执行指令时实现前面任一所述的一种用于数据敏感信息发现模型的多模态数据增强方法。
此处,应当指出的是,处理器的个数可以为一个或多个。同时,在本公开实施例的控制系统中,还可以包括输入装置和输出装置。其中,处理器、存储器、输入装置和输出装置之间可以通过总线连接,也可以通过其他方式连接,此处不进行具体限定。
存储器作为一计算机可读存储介质,可用于存储软件程序、计算机可执行程序和各种模块,如:本公开实施例的一种用于数据敏感信息发现模型的多模态数据增强方法所对应的程序或模块。处理器通过运行存储在存储器中的软件程序或模块,从而执行控制系统的各种功能应用及数据处理。
输入装置可用于接收输入的数字或信号。其中,信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出装置可以包括显示屏等显示设备。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (10)

1.用于数据敏感信息发现模型的多模态数据增强方法,其特征在于,包括如下步骤:
构建敏感信息图像库;
利用图像描述生成模型,对所述敏感信息图像库中的图像生成相应的描述信息;
将所述敏感信息图像库中的图像与相对应的所述描述信息进行组合,组建得到图像-文字对数据库,并作为图像-文字对多模态训练集;
利用所述图像-文字对多模态训练集,进行多模态联合数据增强训练,得到多模态融合敏感信息发现模型;
利用所述多模态融合敏感信息发现模型,对所述图像-文字对数据库进行关键敏感信息提取,获取并输出敏感实体结果。
2.根据权利要求1所述的用于数据敏感信息发现模型的多模态数据增强方法,其特征在于,利用图像描述生成模型,对所述敏感信息图像库中的图像生成相应的描述信息,包括:
获取所述图像描述训练数据中的图片序列;
采用Inception V3模型,提取所述图片序列的图像特征向量;
将所述图像特征向量依次经过一层Dropout和一全连接层,得到图片特征,并输出至特征融合层。
3.根据权利要求2所述的用于数据敏感信息发现模型的多模态数据增强方法,其特征在于,利用图像描述生成模型,对所述敏感信息图像库中的图像生成相应的描述信息,还包括:
对所述图像描述训练数据中的文本序列进行特征提取,得到对应的描述特征;
将所述描述特征中的每个词编码成索引,建立词与索引字典;
在词嵌入编码后,依次经过一层Dropout和一层长短时记忆网络,得到文本特征并输出至特征融合层。
4.根据权利要求3所述的用于数据敏感信息发现模型的多模态数据增强方法,其特征在于,利用图像描述生成模型,对所述敏感信息图像库中的图像生成相应的描述信息,还包括:
调用特征融合层,对输入的图片特征和文本特征进行特征融合;
将融合得到的特征以此经过一全连接层和一Softmax层,得到词概率分布结果;
基于贪婪算法,从词概率分布结果中,找到概率最大的词作为所述描述信息的描述词,并输出。
5.根据权利要求1所述的用于数据敏感信息发现模型的多模态数据增强方法,其特征在于,利用所述图像-文字对多模态训练集,进行多模态联合数据增强训练,得到多模态融合敏感信息发现模型,包括:
获取含有敏感信息的原始图文数据,并进行预处理,得到作为敏感数据集中的原始图文对;
利用多模态数据集Flick 8K,选取含有任务面部特征的图文对,加入所述敏感数据集中,构成训练数据集;
利用所述图像-文字对多模态训练集的图像和文本,生成新的伪图文对,并加入所述训练数据集中,作为增强训练数据集;
以增强训练数据集作为模型训练数据,进行多模态联合数据增强训练,得到多模态融合敏感信息发现模型。
6.根据权利要求1所述的用于数据敏感信息发现模型的多模态数据增强方法,其特征在于,所述多模态融合敏感信息发现模型的结构为共享参数的BERT模型结构。
7.根据权利要求6所述的用于数据敏感信息发现模型的多模态数据增强方法,其特征在于,利用所述多模态融合敏感信息发现模型,对所述图像-文字对数据库进行关键敏感信息提取,获取并输出敏感实体结果,包括:
基于预训练模型,获得所述图像-文字对数据库中文本序列的文本特征矩阵;
基于视觉预处理模型,获得所述图像-文字对数据库中图像序列的视觉特征矩阵;
将所述文本特征矩阵和所述视觉特征矩阵进行融合处理,得到融合后的特征向量;
将融合后的特征向量输入至所述多模态融合敏感信息发现模型中,得到带有视觉线索的文本编码矩阵;
将所述带有视觉线索的文本编码矩阵输入至预设的命名实体识别模型,提取并输出敏感实体结果。
8.根据权利要求7所述的用于数据敏感信息发现模型的多模态数据增强方法,其特征在于,在所述文本特征矩阵和所述视觉特征矩阵进行融合处理时,输入模型的序列分别为:
将所述文本特征矩阵记为T,其融合时输入模型的序列为:
[CLS]T+文本分段嵌入+文本位置嵌入,其中,[CLS]为开始一段融合特征开始标志;
将所述视觉特征矩阵记为V,其融合时输入模型的序列为:
[SEP]V+图像分段嵌入+图像位置嵌入,其中,[SEP]为文字特征和视觉特征的分隔符。
9.实现权利要求1-8中任一项所述的用于数据敏感信息发现模型的多模态数据增强方法的装置,其特征在于,包括:
图像库构建模块,用于构建敏感信息图像库;
图像描述模块,用于利用图像描述生成模型,对所述敏感信息图像库中的图像生成相应的描述信息;
图文对构建模块,用于将所述敏感信息图像库中的图像与相对应的所述描述信息进行组合,组建得到图像-文字对数据库,并作为图像-文字对多模态训练集;
增强训练模块,用于利用所述图像-文字对多模态训练集,进行多模态联合数据增强训练,得到多模态融合敏感信息发现模型;
敏感信息提取模块,用于利用所述多模态融合敏感信息发现模型,对所述图像-文字对数据库进行关键敏感信息提取,获取并输出敏感实体结果。
10.控制系统,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令时实现权利要求1-8中任一项所述的用于数据敏感信息发现模型的多模态数据增强方法。
CN202211706025.4A 2022-12-29 2022-12-29 用于数据敏感信息发现模型的多模态数据增强方法 Pending CN116186312A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211706025.4A CN116186312A (zh) 2022-12-29 2022-12-29 用于数据敏感信息发现模型的多模态数据增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211706025.4A CN116186312A (zh) 2022-12-29 2022-12-29 用于数据敏感信息发现模型的多模态数据增强方法

Publications (1)

Publication Number Publication Date
CN116186312A true CN116186312A (zh) 2023-05-30

Family

ID=86448036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211706025.4A Pending CN116186312A (zh) 2022-12-29 2022-12-29 用于数据敏感信息发现模型的多模态数据增强方法

Country Status (1)

Country Link
CN (1) CN116186312A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117708347A (zh) * 2023-12-14 2024-03-15 北京英视睿达科技股份有限公司 一种基于api端点的大模型输出多模态结果方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117708347A (zh) * 2023-12-14 2024-03-15 北京英视睿达科技股份有限公司 一种基于api端点的大模型输出多模态结果方法及系统

Similar Documents

Publication Publication Date Title
CN111488931B (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN110446063B (zh) 视频封面的生成方法、装置及电子设备
CN111191078A (zh) 基于视频信息处理模型的视频信息处理方法及装置
CN110704601A (zh) 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN112270196A (zh) 实体关系的识别方法、装置及电子设备
CN114926835A (zh) 文本生成、模型训练方法和装置
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN114332679A (zh) 视频处理方法、装置、设备、存储介质和计算机程序产品
CN115408558A (zh) 基于多尺度多示例相似度学习的长视频检索方法及装置
CN116186312A (zh) 用于数据敏感信息发现模型的多模态数据增强方法
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN114239730A (zh) 一种基于近邻排序关系的跨模态检索方法
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN117436480A (zh) 一种Mindspore框架下的大模型及推荐方法
CN117315249A (zh) 指代图像分割模型训练和分割方法、系统、设备及介质
CN117349402A (zh) 一种基于机器阅读理解的情绪原因对识别方法及系统
CN116311322A (zh) 一种文档版面要素检测方法、装置、存储介质及设备
CN117009577A (zh) 一种视频数据处理方法、装置、设备及可读存储介质
CN112287159A (zh) 检索方法、电子设备及计算机可读介质
CN105808522A (zh) 一种语义联想的方法及装置
CN116612466B (zh) 基于人工智能的内容识别方法、装置、设备及介质
CN117808923B (zh) 一种图像生成方法、系统、电子设备及可读存储介质
CN118262159A (zh) 一种图像标签确定方法、电子设备及计算机可读存储介质
CN118227910A (zh) 一种媒体资源聚合方法、装置、设备及存储介质
CN116935410A (zh) 数据分类方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination