CN118013372A

CN118013372A - 基于多模态数据异构Transformer资产识别方法、系统及设备

Info

Publication number: CN118013372A
Application number: CN202410257623.0A
Authority: CN
Inventors: 黄斐然; 杨正航; 郭榆; 刘志全; 林舒源; 林群雄; 陈志荣
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2024-03-07
Filing date: 2024-03-07
Publication date: 2024-05-10

Abstract

本发明公开了一种基于多模态数据异构Transformer资产识别方法、系统及设备，该方法包括下述步骤：采集资产各个模态的信息，包括文本信息和图像信息；构建ALBERT模型、ViT模型和CLIP模型；基于ALBERT模型进行文本信息特征提取；基于ViT模型进行图像信息特征提取；基于CLIP模型进行图像文本匹配信息特征提取；对不同模态的信息进行不同通道的资产类型识别，输出不同通道的分类信息，基于CLIP模型对资产缺失信息进行生成；将不同通道的分类信息与CLIP模型得到的图像信息与文本信息的匹配度进行判别融合，输出最终的资产类别信息。本发明能从多个模态进行综合判断，提高资产识别的准确率。

Description

基于多模态数据异构Transformer资产识别方法、系统及设备

技术领域

本发明涉及资产分类技术领域，具体涉及一种基于多模态数据异构Transformer资产识别方法、系统及设备。

背景技术

资产识别技术是指在数字环境中对资产进行识别和分类的过程，这项技术涉及对图像、视频、音频和其他类型的多媒体内容进行深度分析，以便提取有关资产的关键信息。为了实现这一目标，资产识别技术采用了各种高级算法、机器学习模型和计算机视觉技术，这些技术有助于提取并识别资产中的信息，然后根据对象类型、位置、颜色等特定属性进行分类和标记，识别。资产识别的目标是简化管理和组织数字资产的过程，使用户更容易搜索和访问他们需要的特定资产。资产识别技术主要分为基于标识符、基于图像识别和基于设备特征的算法，其中，基于标识符的算法适用于需要对具有唯一标识符的资产进行识别的场景，基于图像识别的算法适用于需要对资产外形、颜色等特征进行识别的场景，基于设备特征的算法适用于需要对网络设备、物联网设备等进行识别的场景。

基于标识符的资产识别技术是一种通过读取特定的标识符来识别资产的技术。标识符可以是一个数字代码、二维码、条形码、射频识别技术(Radio FrequencyIdentification，RFID)标签或其他形式的标识符，这一过程主要通过人工张贴条形码和RFID电子标签对资产进行标识，扫描标识后向后台录入资产数据，二维码和条形码缺点是需手工粘贴标签，人工占用量大，RFID通过射频信号自动识别目标对象并获取相关数据，缺点是成本较高，且需专用设备进行扫描，通过读取标识符，该算法可以确定资产的位置和状态，基于标识符的资产识别技术需要一个读取设备，如扫描器或读卡器，以及一个存储标识符信息的数据，缺点包括标识符可能会失效或损坏，从而导致识别失败；此外，当标识符数量很多时，读取和维护它们可能会很困难。设备和标识直接依赖网络连接，并且不能提供实时的资产识别信息。

基于图像识别的资产识别技术是通过使用图像识别技术来识别和追踪资产的技术，它通常使用摄像头或其他图像采集设备对资产进行扫描和采集图像数据，然后，通过使用图像识别技术，如计算机视觉和机器学习算法，识别和追踪资产，并且不需要在资产上安装额外的标识符，通过分析图像，可识别各种不同形状和大小的物品，然而，它仍然存在一些技术上的限制，例如光线和视角的变化对识别精度的影响较大，系统运行所需的计算能力的要求较高，并且需要大量的图像数据，对存储资源的要求很高，最重要的是识别效果受到图像质量的影响，需要高质量的图像系统才能高效运行。

基于设备特征的资产识别算法是指使用设备的特定特征来识别资产的算法，通过对网络设备进行特征提取和特征匹配，从而对设备进行分类和识别，这些特征可以包括设备的唯一标识符(例如MAC地址)、序列号、版本号等，算法通过对这些特征进行分析和比对，来识别相关设备并确定它是否属于特定的资产，但这种技术不能识别无设备特征的资产，需要严格的管理系统，以确保所有资产的设备特征正确且准确，而且在资产识别过程中可能受到设备特征的欺骗，需要依赖大量的特征库，容易受到网络环境的影响等。

因此，亟需一种能够实现更高的精确性和适用性的资产识别技术。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种基于多模态数据异构Transformer资产识别方法，本发明将ALBERT模型、ViT模型、CLIP模型作为一个组件，通过引入新的判别loss进行类别判别学习，使得新模型综合拥有各个模型的判断能力，从而使得能从多个模态进行综合判断，提高资产识别的准确率。

本发明的第二目的在于提供一种基于多模态数据异构Transformer资产识别系统；

本发明的第三目的在于提供一种计算机设备。

为了达到上述目的，本发明采用以下技术方案：

一种基于多模态数据异构Transformer资产识别方法，包括下述步骤：

采集资产各个模态的信息，包括文本信息和图像信息；

构建ALBERT模型、ViT模型和CLIP模型；

基于ALBERT模型进行文本信息特征提取，通过多层的Transformer编码器学习文本序列中的上下文关系，将ALBERT模型的输出连接到全连接层并输出最终的分类信息；

基于ViT模型进行图像信息特征提取，将图像信息划分成令牌，经过Transformer编码器对图像信息划分后的内容信息进行捕捉学习，经过分类头将图像特征映射成类别信息；

基于CLIP模型进行图像文本匹配信息特征提取，构造图像及与其匹配的文字描述样本对，将图像和文本信息进行编码后得到图像和文本的特征表示向量，图像和文本的特征表示向量线性投影到多模态空间中，计算两种模态的相似度，得到图像信息与文本信息的匹配度；

对不同模态的信息进行不同通道的资产类型识别，输出不同通道的分类信息，基于CLIP模型对资产缺失信息进行生成；

将不同通道的分类信息与CLIP模型得到的图像信息与文本信息的匹配度进行判别融合，输出最终的资产类别信息。

作为优选的技术方案，基于ALBERT模型进行文字信息特征提取，通过多层的Transformer编码器学习文本信息中的上下文关系，将ALBERT模型的输出连接到全连接层并输出最终的分类信息，具体包括：

对文本信息进行预处理，将预处理后的文本信息转换为向量表示，添加标志起始或者结束位的标识符，进行填充和截断，并将部分文本随机替换为[MASK]标记，基于MLM模型进行推理预测；

生成token嵌入向量E_token、分段嵌入向量E_seg、位置嵌入向量E_pos，生成Embedding表示为：

E＝E_token||E_seg||E_pos

其中，||表示拼接；

随机初始化一个token嵌入矩阵，选择语料库进行训练，在训练中通过不断更新嵌入矩阵中的值来适应语料库，训练结束后所存的token嵌入向量即为最终的嵌入向量，基于分段嵌入向量对词所在的段落进行学习，基于位置嵌入向量对每个词的相对位置进行学习；

生成的Embedding经过多层感知机得到向量E_obj，向量E_obj输入到Transformer编码器中，生成标志位向量E_present，表示为：

E_present＝Transformer_encoder(E_obj)

其中，Transformer_encoder表示Transformer编码器；

标志位向量E_present经过全连接层MLP_class、softmax函数进行分类，得到识别类型type为：

type＝softmax(MLP_class(E_present))。

作为优选的技术方案，基于ViT模型进行图像信息特征提取，将图像信息划分成令牌，经过Transformer编码器对图像信息划分后的内容信息进行捕捉学习，经过分类头将图像特征映射成类别信息，具体包括：

将图像分成多个图像块，经过全连接层将每个图像映射成D维向量E_D，表示为：

E_D＝MLP(image patch)

对向量E_D增加类别记号class token和位置标记position token，形成Transformer编码器的输入Input_trans，表示为：

Input_trans＝E_D+position token+class token

将Transformer编码器输出的类别记号对应的embedding输入到多层感知机中，经过softmax函数输出所属类别的概率，取概率最高的类别为ViT模型最终确定的类别output_class，表示为：

Output_class＝MAX(softmax(MLP(Transformer(Inpuy_trans))))

其中，MLP表示多层感知机。

作为优选的技术方案，将图像和文本信息进行编码后得到图像和文本的特征表示向量，图像和文本的特征表示向量线性投影到多模态空间中，计算两种模态的相似度，得到图像信息与文本信息的匹配度，具体包括：

对图像信息进行编码，选取类别记号作为图像信息的特征表示向量E_image；

对文本信息进行编码，并选取与文本位置信息相关的向量作为该文本的特征表示向量E_text；

经过多模态Embedding投影到多模态空间中，经过投影之后的向量表示为：

T＝W_t(E_text)

I＝W_i(E_image)

其中，W_t表示文本对应参数，W_i表示图像对应参数，T表示投影在多模态空间中的文本向量，I表示投影在多模态空间中的图像向量；

计算文本向量和图像向量之间的余弦相似度，分别按行、列经过softmax函数之后用交叉熵loss函数进行学习。

作为优选的技术方案，对不同模态的信息进行不同通道的资产类型识别，输出不同通道的分类信息，具体包括：

对于仅有文字信息的样本，在经过文字预处理后，输入ALBERT通道对资产进行类别识别，输出资产的类别；

对于仅有图像信息的样本，在经过图像预处理之后，输入ViT通道进行资产类别识别，输出为资产的类别；

对于有对应图像信息和文本信息的资产，同时输入三个通道，输出结果为ALBERT通道输出的文本嵌入向量表示、ViT通道输出的图像嵌入向量表示，以及CLIP模型输出的文本图像匹配相似度。

作为优选的技术方案，基于CLIP模型对资产缺失信息进行生成，具体包括：

获取同时有文本-图像对的数据，选取文本-图像对中的文本或者图像数据，对应的真实图像或文本信息作为标签信息，CLIP模型生成模块的loss函数为Loss_gen，表示为：

Loss_gen＝|label_real-label_output|

其中，label_reak表示标签信息，label_output表示输出信息；

训练完成后，将文本信息或者图像信息输入到CLIP模型之后得到对应的补充信息。

作为优选的技术方案，将不同通道的分类信息与CLIP模型得到的图像信息与文本信息的匹配度进行判别融合，具体包括：

将不同通道的分类信息与CLIP模型得到的匹配度进行联合识别，若不同通道输出的类别一致且CLIP模型的匹配度超过设定阈值，则对类别信息进行输出；若不同通道输出的类别不一致或信息匹配程度未超过设定阈值，则根据匹配度对类别进行判别融合，输出最终的资产类别信息。

对于同时拥有图像和文本的资产，进行判别融合训练，具体训练过程包括：

分别获取文本通道和图像通道最后的特征嵌入向量，文本与图像相对应匹配的特征嵌入向量在各自模态的空间中的距离表示为：

其中，表示文本特征嵌入向量，/>表示图像特征嵌入向量，Dis_s表示相匹配信息的图像与文本的特征嵌入向量的距离，Dis_n表示不匹配的图像与文本的特征嵌入向量的距离；

在不同模态中表示不同信息的嵌入向量间的距离具体为：

Dis(e_p1,e_p2)＝Dis(e_i1,e_i2)

Dis(e_p1,e_p2)＝e_p1-e_p2

Dis(e_i1,e_i2)＝e_i1-e_i2

将CLIP模型输出的匹配度作为累加项，构建得到训练判别融合的损失，表示为：

Loss_critic＝minα(-∑logσ(Dis_s-Dis_n))+β(Dis(e_ii,e_ij)+Dis(e_p1,e_p2))+γSim

其中，α,β,γ针对不同的数据集自动学习生成，σ为sigmoid激活函数，Sim表示匹配度；

在训练结束之后，得到融合判别之后的嵌入向量表示E_final并经过softmax分类器分类得到最终的资产类别信息，表示为：

Class_final＝softmax(critic(E_present,E_image,Sim))

其中，E_present表示文本通道特征嵌入向量，E_image表示图像通道特征嵌入向量，Class_final表示最终的资产类别信息。

为了达到上述第二目的，本发明采用以下技术方案：

本发明提供一种基于多模态数据异构Transformer资产识别系统，包括：信息采集模块、模型构建模块、文本数据编码器、图像数据编码器、文本数据分类器、图像数据分类器、匹配信息提取模块、多模态空间投影器、相似度计算模块、内容生成模块、判别融合模块、资产类别信息输出模块；

所述信息采集模块用于采集资产各个模态的信息，包括文本信息和图像信息；

所述模型构建模块用于构建ALBERT模型、ViT模型和CLIP模型；

所述文本数据编码器用于基于ALBERT模型进行文本信息特征提取，通过多层的Transformer编码器学习文本序列中的上下文关系；

所述文本数据分类器用于将ALBERT模型的输出连接到全连接层并输出最终的分类信息；

所述图像数据编码器用于基于ViT模型进行图像信息特征提取，将图像信息划分成令牌，经过Transformer编码器对图像信息划分后的内容信息进行捕捉学习；

所述图像数据分类器用于经过分类头将图像特征映射成类别信息；

所述匹配信息提取模块用于基于CLIP模型进行图像文本匹配信息特征提取，构造图像及与其匹配的文字描述样本对，将图像和文本信息进行编码后得到图像和文本的特征表示向量；

所述多模态空间投影器用于将图像和文本的特征表示向量线性投影到多模态空间中；

所述相似度计算模块用于计算两种模态的相似度，得到图像信息与文本信息的匹配度；

所述内容生成模块用于基于CLIP模型对资产缺失信息进行生成；

所述判别融合模块用于对不同模态的信息进行不同通道的资产类型识别，输出不同通道的分类信息，将不同通道的分类信息与CLIP模型得到的图像信息与文本信息的匹配度进行判别融合；

所述资产类别信息输出模块用于输出最终的资产类别信息。

为了达到上述第三目的，本发明采用以下技术方案：

一种计算机设备，包括处理器和用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述基于多模态数据异构Transformer资产识别方法。

本发明与现有技术相比，具有如下优点和有益效果：

本发明将ALBERT模型、ViT模型、CLIP模型作为一个组件，通过引入新的判别loss进行类别判别学习，使得新模型综合拥有各个模型的判断能力，从而使得能从多个模态进行综合判断，提高资产识别的准确率。

附图说明

图1为本发明基于多模态数据异构Transformer资产识别方法的流程示意图；

图2为本发明ALBERT模型对文本信息进行特征提取的流程示意图；

图3为本发明ViT模型对图像信息进行特征提取的流程示意图；

图4为本发明CLIP模型对图像信息和文本信息进行关联的流程示意图；

图5为本发明基于多模态数据异构Transformer资产识别系统的框架示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

如图1所示，本实施例提供一种基于多模态数据异构Transformer资产识别方法，包括下述步骤：

S1：对资产的各个模态的信息进行采集，包括文本信息和图像信息，文本信息包括资产名称、资产描述等信息；图像信息包括含有资产的照片，视频截图等，具体包括：

S11：文本信息的采集；通过文本采集技术获取资产相关的文字描述信息，并对文字描述信息进行数据预处理；

在本实施例中，明确获取哪些与资产相关的文字描述信息，这可能涉及到特定的资产类别、关键词等，对采集到的文本进行清洗和预处理，以去除HTML标签、特殊字符、标点符号等，可以使用Python中的正则表达式或库如NLTK或spaCy进行文本清洗和预处理，根据需求，使用关键词提取技术来从清洗后的文本中抽取与资产相关的关键词，这可以过滤和筛选出与资产相关的信息。

S12：图像信息的采集；通过图像采集技术获取资产相关的视觉图像信息，并对图像信息进行数据预处理；

在本实施例中，明确获取哪些与资产相关的图像信息，这可能包括不同类别的资产，不同角度的图片等，对采集到的图像进行准确的标注，以关联每个图像与其相关的资产信息，标注可能包括有类别、位置、状态等信息，同时，对数据进行清洗，去除低质量或者错误的图像，同时可以对图像数据进行如旋转、翻转、缩放等数据增强技术，以提高模型的鲁棒性，最后，对采集到的图像进行调整，将图像统一尺寸并且进行像素值归一化操作，确保符合后续模型的输入需要。

S2：构建对文本信息进行特征提取的ALBERT模型，构建对图像信息进行特征提取的ViT模型，构建进行图像文本信息特征匹配的CLIP模型，具体包括：

S21：对于文本信息，通过ALBERT模型进行文字信息特征提取；

首先对文本进行清洗和预处理，包括去除特殊字符、标点符号、停用词等，将预处理后的文本转换为数值表示，可以使用词嵌入技术(如Word2Vec、GloVe)将每个单词映射为固定长度的向量，或者使用词袋模型将文本转换为稀疏的向量表示，对输入数据添加标志起始或者结束位的特殊标识符，之后将文本向量输入到ALBERT模型中，ALBERT模型可以通过多层的Transformer编码器学习文本序列中的上下文关系，将ALBERT模型的输出连接到全连接层并输出最终的分类信息；

如图2所示，构建得到对文本信息进行特征提取的ALBERT的整体模型，首先将预处理之后的文本信息转化为模型所需的词汇表中的标记(token)，之后在序列的开头或者结尾添加特殊标记如[CLS]和[SEP]；之后对其进行填充和截断，并将一些标记随机选为特殊的[MASK]标记来实现预测Masked Language Modeling(MLM)目标的任务。

在本实施例中，在训练MLM时，会将输入序列中的某些词随机地替换为[MASK]标记，然后模型的目标是预测这些被遮掩的词，具体包括：

模型加载：加载预训练的MLM模型，确保它包含对[MASK]标记的预训练权重。

输入准备：对于特定任务，将输入文本转换为模型的输入格式。确保在文本中随机选择一些词，并将它们替换为[MASK]标记。

推理：将经过[MASK]标记处理的输入文本输入到加载的MLM模型中，进行推理。模型将输出[MASK]标记对应的概率分布，表示模型对可能的词的预测。

预测：对输出的概率分布进行解码，选择具有最高概率的词作为预测结果。

评估：将模型的预测与实际目标进行比较，计算性能指标(如准确率)以评估模型在特定任务上的性能。

在本实施例中，具体MLM任务为模型需要对文本序列中被标记为[MASK]的值进行预测，例如一段文本序列原本为“预测这段序列中的输出”，则MLM任务为将序列中的文字随机转换为[MASK]标记，如“预测这段[MASK]列中的输出”，模型的最终任务就是预测到[MASK]应该为“序”的概率最大。最后生成token嵌入向量E_token(Token Embeddings)。此外，还要构造用于构建句子对任务的分段嵌入向量E_seg(Segment Embeddings)以及和词语位置信息有关的位置嵌入向量E_pos(Position Embeddings)，最终根据以上生成的三种Embeddings结合生成最终的Embedding，具体表示为：

E＝E_token∥E_seg∥E_pos

其中，∥表示拼接，比如第一个embedding为[0，1，1]，第二个embedding为[1，1，0]，拼接操作完之后的结果为[0，1，1，1，1，0]。

在本实施例中，token嵌入向量是模型通过上述的MLM等任务进行学习的，首先随机初始化一个token嵌入矩阵，然后选择语料库进行训练，在训练中通过不断更新嵌入矩阵中的值来适应语料库，最后训练结束后所存的token嵌入向量即为最终的嵌入向量；而分段嵌入向量，位置嵌入向量与token嵌入向量类似，分段嵌入向量主要是对词所在的段落进行学习，而位置嵌入向量主要是对每个词的相对位置进行学习，具体都是先随机初始化一个值，然后在训练中不断更新。

之后将生成的Embedding映射到第一层较小维度的16维空间，之后再通过第二层全连接层映射到目标维度H＝128维空间，并将得到的Embedding称为E_obj。这样可以使得Embedding矩阵参数量减小，从而使得模型轻量化。

E_obj＝MLP(E)

其中，MLP表示多层感知机，表示由多个隐藏层表示的神经网络。在本实施例表示生成的Embedding映射到第一层较小维度的16维空间、第二层全连接层128维空间组成的整体神经网络。

将生成好的E_obj输入到由多个Transformer块组成的编码器中，Embedding被传递到各个层，从而使得其中的内容被神经网络所捕获。

在本实施例中，Embedding已经是上述三个embedding(token嵌入，分段嵌入，位置嵌入)的综合表示，这些嵌入向量已经具有一定的文本序列上下文关系信息。然后将其输入transformer编码器中，transformer中存在自注意力机制与前馈神经网络等组件。自注意力机制允许模型在处理每个词的同时关注其他词的信息，从而能够在每个transformer区块中都可以捕捉上下文信息，然后得到注意力权重。之后的前馈神经网络能够通过对每个位置的表示应用线性变换和激活函数，进一步提高模型的表示能力。

此外transformer中的多头注意力机制也允许模型在不同的注意力头中学习不同的上下文关系，能够捕捉不同方面的语境。

最后多个transformer层堆叠在一起，其中每一层都能捕捉上下文关系，多层堆叠更能处理复杂的上下文关系并加强上下文关系的理解能力。

在本实施例中，每一个Transformer区块都会经过多头注意力感知层，归一化层，残差结构，前馈层等结构的处理，其中多头注意力感知层主要是通过并行的计算多个注意力头的注意力权重来捕捉文本序列中不同位置的序列关系，归一化层则是希望对于每个子层的输出，通过减去其均值并除以标准差，以确保具有相似的尺度，这有助于稳定训练过程。残差结构在每个子层的输出上，通过添加残差连接(Residual Connection)，将输入与输出相加，这有助于防止梯度消失问题并且能有效的将信息通过残差结构直接传递，防止出现有效信息在计算中缺失的问题。前馈层通过线性以及非线性变换对文本信息中的线性特征以及非线性特征进行学习，最终并生成大小为768维的向量，取文本中表示整个文本语义信息的向量，即[CLS]标记。在输入序列中，[CLS]标记通常被放置在句子的开头。模型在预训练时，会使用这个[CLS]标记对整个句子进行编码，生成一个与整个句子相关的向量表示。这个向量被称为标志位向量，表示为E_present：

E_present＝Transformer_encoder(E_obj)

将生成的E_present再连接全连接层MLP_class并接softmax函数对其进行分类，分类头为一个线性层全连接网络以及概率输出函数softmax，输出确定识别之后的类型为type。

type＝softmax(MLP_class(E_present))

S22：对于图像信息，通过ViT模型来进行特征提取；

ViT(Vision Transformer)是一种将Transformer架构用于计算机视觉任务的神经网络模型，首先将图像划分成令牌(token)，之后经过Transformer编码器对图像划分后的内容信息进行捕捉学习，最后经过分类头将图像特征映射成具体类别信息。

如图3所示，构建得到对图像信息进行特征提取的ViT整体模型，其中所用到的transformer模块与图2的transformer模块的网络结构相同，但任务不一致，一个用来做NLP的任务，也就是文本分类识别的任务，一个用来做图像识别的任务，且transformer之后的下游任务有所区别。

首先将预处理后的图像分成N(16×16)个图像块(image patch),将图像块进行铺平处理后将其按照从左到右，从上到下的顺序依次输入到全连接层，全连接层将每个图像映射成D维向量E_D，表示为：

E_D＝MLP(image patch)

对E_D增加一个类别记号(class token)，类型为可学习的张量，维度为D；同时增加一个用于表示位置的标记(position token，类型为可学习的张量，维度为D；将上述三种内容按位相加，形成Transformer编码器的输入Input_trans，表示为：

Input_trans＝E_D+position token+class token

在每一个Transformer区块当中，都会经过多头注意力感知层，归一化层，残差结构，前馈层等结构的处理。其中多头注意力感知层主要是通过并行的计算多个注意力头的注意力权重来捕捉文本序列中不同位置的序列关系。归一化层则是希望对于每个子层的输出，通过减去其均值并除以标准差，以确保具有相似的尺度。这有助于稳定训练过程。残差结构在每个子层的输出上，通过添加残差连接(Residual Connection)，将输入与输出相加，这有助于防止梯度消失问题并且能有效的将信息通过残差结构直接传递，防止出现有效信息在计算中缺失的问题。前馈层通过线性以及非线性变换对文本信息中的线性特征以及非线性特征进行学习。取Transformer编码器输出的类别记号(class token)对应的embedding，将其输入到多层感知机中，经过softmax函数输出所属类别的概率，取概率最高的类别为ViT模型最终确定的类别output_class，表示为：

Output_class＝MAX(softmax(MLP(Transformer(Input_trans))))

S23：对于图像文本对应信息，通过CLIP模型来进行特征提取；

CLIP(Contrastive Language-Image Pre-Training)模型为多模态模型，可以识别图像中的内容和描述图像的语言，并对其进行匹配。首先构造图片及与其匹配的文字描述样本对，之后将图片和文字描述信息分别输入到CLIP模型的图像处理模块以及文本处理模块；之后将图像处理模块和文本处理模块处理过后的数据线性投影到多模态空间中，计算两种模态的相似度，即为文字信息与图片信息的匹配度。具体的线性投影操作为将经过编码器处理之后的数据通过矩阵乘法映射到一个低维的空间。这个低维空间通常由网络中的权重矩阵定义。经过线性投影操作之后可以将图像与文本信息对应为具体的嵌入向量来进行表示，分别表示为E_img和E_text。相似度Sim的计算使用余弦相似度来计算，公式表示如下：

如图4所示，构建得到对文本图像匹配信息进行特征提取的CLIP整体模型；

对于能够进行文本与图像匹配的数据，构造训练数据对<图像，文本>，使用步骤S21训练好的文本编码器ALBERT对文本数据进行编码，并选取与文本位置信息相关的E_pos向量作为该文本的特征表示向量E_text，本实施例通过位置编码来提供模型关于输入序列中每个位置的位置信息，位置编码是一个固定的矩阵，其维度与输入嵌入的维度相同，位置编码向量可以根据位置索引和位置编码函数生成，位置索引表示序列中每个单词的位置，通常从1到序列长度，位置函数常见的可以选择正弦或余弦函数，这样在知道位置索引和维度之后可以通过将位置索引与维度输入位置函数进行计算。

使用步骤S22训练好的图像编码器ViT对对应的图像数据进行编码，选取类别记号(class token)作为图像信息的特征表示向量E_image。

对于两组对应的特征表示向量经过多模态Embedding投影到多模态空间中。其中，文字对应参数与图片对应参数为W_t,W_i，经过投影之后两组向量分别为T，I。

T＝W_t(E_text)

I＝W_i(E_image)

得到投影在多模态空间中的向量表示之后，计算文本-图像向量之间的余弦相似度，分别按行、列经过softmax函数之后用交叉熵loss函数来进行学习；按行计算是希望通过计算算出对于每一张图片来说，与其最相似的文字是什么；与此同理，按列计算是希望通过计算算出对于每一段文字，与其最相似的图片是什么，之后将行与列的loss函数相加取平均，这样能同时考虑文字与图片之间的双向关系。通过对比学习，用loss函数拉近对应样本对之间的距离，拉远不对应样本对之间的距离，从而学习到图像与文本之间的关系。

S3：对不同模态的信息进行不同通道的资产类型识别，对缺失信息进行基于CLIP模型的信息生成，具体包括：

S31：各模态信息单独进行识别分类；

分别使用不同的分类算法对文本特征向量、图像特征向量进行分类，识别特征向量所包含的资产的类别和属性；

在本实施例中，对不同模态的信息进行不同通道的资产类型识别，对于仅有文字信息的样本，在经过文字预处理后，输入ALBERT通道对资产进行类别识别，输出为资产的具体类别Class_text；

对于仅有图像信息的样本，在经过图像预处理之后，输入ViT通道进行资产类别识别，输出为资产的具体类别Class_image；

对于有对应图像信息和文本信息的资产，同时输入三个通道，输出结果为ALBERT通道输出的文本嵌入向量表示E_present、ViT通道输出的图像嵌入向量表示E_image、以及CLIP模型输出的文本图像匹配相似度Sim；

S32：基于CLIP模型对资产缺失信息进行生成；

对于仅有图像或者仅有文本信息的资产，通过输入已有的图像或者文本信息，在经过CLIP模型之后输出缺失的文本或者图像信息；

在本实施例中，对缺失信息进行基于CLIP模型的信息补充，对于需要进行信息补充的场景(仅有文或者仅有图)，则需要进行信息生成训练。训练过程为选取同时有文本-图像对的数据。对于CLIP模型的信息填充模块，训练时输入文本-图像对中的文本或者图像数据，对应的真实图像或文本信息作为标签信息label_real。生成模块的loss函数为Loss_gen：

Loss_gen＝|label_real-label_output|

生成模块中的Loss_gen在训练时可以使得CLIP生成模块中的信息与真实的标签信息越来越接近，生成的信息越来越准。在训练结束后，如需要，则将文本信息或者图像信息输入到CLIP模型之后得到对应的补充信息，并进行相对应的信息填充；

S4：基于文本信息分类、图像信息分类、以及图文匹配模型进行联合识别，输出资产识别结果，具体包括：

整合不同通道的分类信息并确定最终类别；

将步骤S31所得出的类别信息以及CLIP模型得出的匹配度进行整合，如果不同通道输出的类别一致且CLIP模型匹配分数超过阈值，则对类别信息进行输出；如果不同通道输出的类别不一致或信息匹配程度未超过阈值，则根据信息匹配度对类别进行判别融合，之后输出最终的资产类别信息。

对于仅有文字的资产，文字识别通道输出的结果即为识别结果。

对于仅有图像的资产，图像识别通道输出的结果即为识别结果。

对于同时拥有图像和文字的资产，进行判别融合训练，具体训练过程如下：

针对一个batch的训练集，分别获取文字通道(ALBERT模型)和图像通道(ViT模型)最后的特征嵌入向量E_present和E_image，对于文本与图像相对应匹配的特征嵌入向量，其在各自模态的空间中的距离应该相近，用Dis_s表示相匹配信息的图像与文本的特征嵌入向量的距离；Dis_n表示不匹配的图像与文本的特征嵌入向量的距离，可以表示为Dis_s<Dis_n。具体如下列公式所示：

同时，对于在不同模态中表示的不同信息，其距离也应该类似。具体的，用e_p1表示文本空间的一号物品，e_p2表示文本空间的二号物品，则在对应的图像空间内，其嵌入向量间的距离也应该相近。具体的可以用e_i1表示图片空间的一号物品，e_i2表示图像空间的二号物品，其距离可以用下述公式来表达：

Dis(e_p1,e_p2)＝Dis(e_i1,e_i2)

Dis(e_p1,e_p2)＝e_p1-e_p2

Dis(e_i1,e_i2)＝e_i1-e_i2

此外，将CLIP模型输出的相似度Sim作为累加项，与上述公式构造为训练判别融合的Loss_critic，通过这个Loss函数可以同时将三种通道最后的嵌入向量进行学习，然后得到最终输出的判别类别，整理训练Loss如下：

其中公式中的α,β,γ针对不同的数据集自动学习生成，σ为sigmoid激活函数。

在训练结束之后，得到融合判别之后的嵌入向量表示E_final并经过softmax分类器分类得到最终的类别为Class_final。

Class_final＝softmax(critic(E_present,E_image,Sim))

实施例2

本实施例提供一种基于多模态数据异构Transformer资产识别系统，用于实现上述实施例1的基于多模态数据异构Transformer资产识别方法，该系统包括：信息采集模块、模型构建模块、文本数据编码器、图像数据编码器、文本数据分类器、图像数据分类器、匹配信息提取模块、多模态空间投影器、相似度计算模块、内容生成模块、判别融合模块、资产类别信息输出模块；

在本实施例中，信息采集模块用于采集资产各个模态的信息，包括文本信息和图像信息；

在本实施例中，模型构建模块用于构建ALBERT模型、ViT模型和CLIP模型；

在本实施例中，文本数据编码器用于基于ALBERT模型进行文本信息特征提取，通过多层的Transformer编码器学习文本序列中的上下文关系；

在本实施例中，文本数据分类器用于将ALBERT模型的输出连接到全连接层并输出最终的分类信息；

在本实施例中，图像数据编码器用于基于ViT模型进行图像信息特征提取，将图像信息划分成令牌，经过Transformer编码器对图像信息划分后的内容信息进行捕捉学习；

在本实施例中，图像数据分类器用于经过分类头将图像特征映射成类别信息；

在本实施例中，匹配信息提取模块用于基于CLIP模型进行图像文本匹配信息特征提取，构造图像及与其匹配的文字描述样本对，将图像和文本信息进行编码后得到图像和文本的特征表示向量；

在本实施例中，多模态空间投影器用于将图像和文本的特征表示向量线性投影到多模态空间中；

在本实施例中，相似度计算模块用于计算两种模态的相似度，得到图像信息与文本信息的匹配度；

在本实施例中，内容生成模块用于基于CLIP模型对资产缺失信息进行生成；

在本实施例中，判别融合模块用于对不同模态的信息进行不同通道的资产类型识别，输出不同通道的分类信息，将不同通道的分类信息与CLIP模型得到的图像信息与文本信息的匹配度进行判别融合；

在本实施例中，资产类别信息输出模块用于输出最终的资产类别信息。

实施例3

本实施例提供一种计算设备，该计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有显示功能的终端设备，该计算设备包括处理器和存储器，存储器存储有一个或多个程序，处理器执行存储器存储的程序时，实现实施例1的基于多模态数据异构Transformer资产识别方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于多模态数据异构Transformer资产识别方法，其特征在于，包括下述步骤：

采集资产各个模态的信息，包括文本信息和图像信息；

构建ALBERT模型、ViT模型和CLIP模型；

2.根据权利要求1所述的基于多模态数据异构Transformer资产识别方法，其特征在于，基于ALBERT模型进行文字信息特征提取，通过多层的Transformer编码器学习文本信息中的上下文关系，将ALBERT模型的输出连接到全连接层并输出最终的分类信息，具体包括：

E＝E_token||E_seg||E_pos

其中，||表示拼接；

E_present＝Transformer_encoder(E_obj)

其中，Transformer_encoder表示Transformer编码器；

type＝softmax(MLP_class(E_present))。

3.根据权利要求1所述的基于多模态数据异构Transformer资产识别方法，其特征在于，基于ViT模型进行图像信息特征提取，将图像信息划分成令牌，经过Transformer编码器对图像信息划分后的内容信息进行捕捉学习，经过分类头将图像特征映射成类别信息，具体包括：

E_D＝MLP(image patch)

Input_trans＝E_D+position token+class token

Output_class＝MAX(softmax(MLP(Transformer(Input_trans))))

其中，MLP表示多层感知机。

4.根据权利要求1所述的基于多模态数据异构Transformer资产识别方法，其特征在于，将图像和文本信息进行编码后得到图像和文本的特征表示向量，图像和文本的特征表示向量线性投影到多模态空间中，计算两种模态的相似度，得到图像信息与文本信息的匹配度，具体包括：

T＝W_t(E_text)

I＝W_i(E_image)

5.根据权利要求1所述的基于多模态数据异构Transformer资产识别方法，其特征在于，对不同模态的信息进行不同通道的资产类型识别，输出不同通道的分类信息，具体包括：

6.根据权利要求1所述的基于多模态数据异构Transformer资产识别方法，其特征在于，基于CLIP模型对资产缺失信息进行生成，具体包括：

获取同时有文本-图像对的数据，选取文本-图像对中的文本或者图像数据，对应的真实图像或文本信息作为标签信息，CLIP模型生成模块的loss函数为Loss_hen，表示为：

Loss_gen＝|label_real-label_output|

其中，label_reak表示标签信息，label_output表示输出信息；

7.根据权利要求1所述的基于多模态数据异构Transformer资产识别方法，其特征在于，将不同通道的分类信息与CLIP模型得到的图像信息与文本信息的匹配度进行判别融合，具体包括：

8.根据权利要求1所述的基于多模态数据异构Transformer资产识别方法，其特征在于，将不同通道的分类信息与CLIP模型得到的图像信息与文本信息的匹配度进行判别融合，具体包括：

在不同模态中表示不同信息的嵌入向量间的距离具体为：

Dis(e_p1,e_p2)＝Dis(e_i1,e_i2)

Dis(e_p1,e_p2)＝e_p1-e_p2

Dis(e_i1,e_i2)＝e_i1-e_i2

Class_final＝softmax(critic(E_present,E_image,Sim))

9.一种基于多模态数据异构Transformer资产识别系统，其特征在于，包括：信息采集模块、模型构建模块、文本数据编码器、图像数据编码器、文本数据分类器、图像数据分类器、匹配信息提取模块、多模态空间投影器、相似度计算模块、内容生成模块、判别融合模块、资产类别信息输出模块；

所述模型构建模块用于构建ALBERT模型、ViT模型和CLIP模型；

所述资产类别信息输出模块用于输出最终的资产类别信息。

10.一种计算机设备，包括处理器和用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现如权利要求1-8任一项所述基于多模态数据异构Transformer资产识别方法。