CN115909374B

CN115909374B - 一种信息识别方法、装置、设备及存储介质、程序产品

Info

Publication number: CN115909374B
Application number: CN202111163093.6A
Authority: CN
Inventors: 林志文; 孙众毅; 鄢科; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2024-06-18
Anticipated expiration: 2041-09-30
Also published as: CN115909374A

Abstract

本申请提供了一种信息识别方法、装置、设备及存储介质、程序产品；本申请实施例可以应用于云技术、人工智能、智慧交通、车载等各种场景，涉及人工智能技术；该方法包括：依据指定的信息类型，从预训练好的多模态分类模型的各个模块中，筛选出信息类型对应的匹配模块；其中，多模态分类模型是以文本模态的特征作为监督项，对图像模态的特征进行学习得到的；利用匹配模块，生成信息类型所对应的候选模型；依据信息类型对应的标注数据，对候选模型进行微调，得到信息类型对应的识别模型；当获取到信息类型的待识别信息时，通过识别模型对待识别信息进行特征提取，确定出识别结果。通过本申请，能够提高信息识别的智能程度。

Description

一种信息识别方法、装置、设备及存储介质、程序产品

技术领域

本申请涉及人工智能技术，尤其涉及一种信息识别方法、装置、设备及存储介质、程序产品。

背景技术

为了维度网络上的信息安全、健康，需要对网络上传播的，或者是用户发布的图像、文本、视频等信息进行识别，以及时发现违规信息，杜绝违规信息在网络上进一步传播。由于在网络上存在海量的信息，单纯依靠人工难以完成识别，因此需要借助于人工智能技术来实现信息识别。相关技术中，信息识别存在单模态识别核和多模态识别两种主流识别方式。然而，无论是多模态识别还是单模态识别，均存在覆盖的样本种类较少的问题，从而使得信息识别的智能程度较低。

发明内容

本申请实施例提供一种信息识别方法、装置、设备及计算机可读存储介质、程序产品，能够提高信息识别的智能程度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种信息识别方法，包括：

依据指定的信息类型，从预训练好的多模态分类模型的各个模块中，筛选出所述信息类型对应的匹配模块；

其中，所述多模态分类模型是以文本模态的特征作为监督项，对图像模态的特征进行学习得到的；

利用所述匹配模块，生成所述信息类型所对应的候选模型；

依据所述信息类型对应的标注数据，对所述候选模型进行微调，得到所述信息类型对应的识别模型；

当获取到所述信息类型的待识别信息时，通过所述识别模型对所述待识别信息进行特征提取，确定出识别结果。

本申请实施例提供一种信息识别装置，包括：

信息筛选模块，用于依据指定的信息类型，从预训练好的多模态分类模型的各个模块中，筛选出所述信息类型对应的匹配模块；其中，所述多模态分类模型是以文本模态的特征作为监督项，对图像模态的特征进行学习得到的；

模型生成模块，用于利用所述匹配模块，生成所述信息类型所对应的候选模型；

模型微调模块，用于依据所述信息类型对应的标注数据，对所述候选模型进行微调，得到所述信息类型对应的识别模型；

信息识别模块，用于当获取到所述信息类型的待识别信息时，通过所述识别模型对所述待识别信息进行特征提取，确定出识别结果。

在本申请的一些实施例中，所述待识别信息包括：图文类型的多模态信息；所述信息识别模块，还用于通过所述识别模型中的图像特征抽取模块，从所述多模态信息的图像部分中抽取出第一特征图，并从所述第一特征图中采样出多个图像特征；依据所述识别模型中的图像特征融合模块，对所述多个图像特征进行同模态融合，得到图像融合特征；依据所述识别模型中的文本特征融合模块，对从所述多模态信息的文本部分所抽取出的多个文本特征进行同模态融合，得到文本融合特征；利用所述识别模型中的跨模态特征融合模块，将所述图像融合特征和所述文本融合特征进行跨模态融合，得到多模态融合特征，并对所述多模态融合特征进行分类，得到所述多模态信息的识别结果。

在本申请的一些实施例中，所述待识别信息包括：图像类型的单模态信息；所述信息识别模块，还用于利用所述识别模型中的图像特征抽取模块，从所述图像类型的单模态信息中抽取出第二特征图；基于对从所述第二特征图中所提取到待处理特征进行特征分类，得到所述单模态信息的所述识别结果。

在本申请的一些实施例中，所述信息识别装置还包括：模型预训练模块；所述模型预训练模块，用于获取初始多模态模型和预训练图文数据；其中，所述预训练图文数据是未经过标注的图文数据；基于对所述预训练图文数据中的图像数据的特征和文本数据的特征进行相似度计算，以及对所述文本数据进行掩码文本预测，将所述初始多模态模型进行预训练，得到所述多模态分类模型。

在本申请的一些实施例中，所述模型预训练模块，还用于基于通过所述初始多模态模型对所述预训练图文数据中的所述文本数据进行掩码文本预测，生成掩码预测损失值；基于对通过所述初始多模态模型从所述预训练图文数据中的所述图像数据中抽取出的预训练特征图进行池化操作，得到全局图像特征；利用所述初始多模态模型从所述预训练图文数据的文本数据所对应的预训练文本特征中，提取出全局文本特征；基于对所述全局图像特征和所述全局文本特征进行相似度计算，确定出相似度损失值；依据所述掩码预测损失值和所述相似度损失值，对所述初始多模态模型持续进行参数调整，直至满足预训练停止条件时，得到所述多模态分类模型。

在本申请的一些实施例中，所述图像数据包括：多个子图像数据，所述文本数据包括：多个子文本数据；所述全局图像特征中包括：多个所述子图像数据对应的多个第一特征向量，所述全局文本特征中包括：多个所述子文本数据对应的多个第二特征向量；

所述模型预训练模块，还用于基于将每个所述第一特征向量的转置结果分别与所述多个第二特征向量相乘，构造出基于所述图像数据预测所述文本数据时的第一损失值；基于分别将多个所述第一特征向量和每个所述第二特征向量的转置结果相乘，构造出基于所述文本数据预测所述图像数据时的第二损失值；将所述第一损失值和所述第二损失值，确定为所述相似度损失值。

在本申请的一些实施例中，所述模型预训练模块，还用于依据所述掩码预测损失值和所述相似度损失值，对所述初始多模态模型持续进行参数调整，直至满足预训练停止条件时，得到所述多模态分类模型之前，基于通过所述初始多模态模型对所述预训练图文数据中的图像数据和文本数据进行图文匹配检测，生成匹配检测损失值；依据所述掩码预测损失值、所述相似度损失值和所述匹配检测损失值，对所述初始多模态模型持续进行参数调整，直至满足预训练停止条件时，得到所述多模态分类模型。

本申请实施例提供一种信息识别设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的信息识别方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的信息识别方法。

本申请实施例提供一种计算机程序产品，包括计算机程序或指令，所述计算机程序或指令被处理器执行时本申请实施例提供的信息识别方法。

本申请实施例具有以下有益效果：本申请实施例中多模态分类模型利用文本模型的特征对图像模态的特征的学习进行监督得到的，预训练好的多模态分类模型能够针对图像模态的信息能够具有较好的泛化能力，针对单纯的图像模态的信息也能够进行处理，使得候选模型也针对图像模态的信息具有较好的泛化能力，接着通过信息类型所对应的标注数据对候选模型再进行针对性的微调，以使得无论是针对图像模态、图文模态还是文本模态的待识别信息，均能够进行识别，且取得较好的识别准确度，从而提升信息识别的智能程度。

附图说明

图1是对多模态分类模型进行预训练的示意图；

图2是本申请实施例提供的信息识别系统的架构示意图；

图3是本申请实施例提供的图2中的服务器的结构示意图；

图4是本申请实施例提供的信息识别方法的流程示意图一；

图5是本申请实施例提供的通过微调生成候选模型的过程示意图；

图6是本申请实施例提供的信息识别方法的流程示意图二；

图7是本申请实施例提供的采样图像特征的示意图；

图8是本申请实施例提供的生成图像融合特征的过程示意图；

图9是本申请实施例提供的生成多模态信息的识别结果的过程示意图；

图10是本申请实施例提供的信息识别方法的流程示意图三；

图11是本申请实施例提供的从预训练特征图生成全局图像特征的过程示意图；

图12是本申请实施例提供的对初始多模态模型进行预训练的过程示意图一；

图13是本申请实施例提供的对初始多模态模型进行预训练的过程示意图二；

图14是本申请实施例提供的模型收敛速度对比图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

2)计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步说，就是指用摄影机和电脑代替人眼对目标进行识别、定位和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

3)自然语言处理(Nature Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

4)机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

5)信息识别，是指对网络上传播的信息、或者是用户准备发布的信息进行识别，以及时发现违规、低俗信息，杜绝这部分内容继续在网络上传播。

6)单模态识别，基于单独的一种模态的数据来进行信息识别，例如，仅基于图像进行信息识别，或者仅基于文本进行信息识别。

7)多模态识别，同时基于多种模态的数据来进行信息识别，例如，同时基于图像、文本以及音频进行信息识别。

为了维度网络上的信息安全、健康，需要对网络上传播的，或者是用户发布的图像、文本、视频等信息进行识别，以及时发现违规信息，杜绝违规信息在网络上进一步传播。

由于在网络上存在海量的信息，单纯依靠人工难以完成识别，因此需要借助于人工智能技术来实现信息识别。相关技术中，信息识别存在单模态识别核和多模态识别两种主流识别方式。

单模态识别是基于图像分类模型或文本分类模型来查找出违规的图像或文本。然而，网络上存在一些复合违规样本，单纯的图像和文本均无明显违规，但是将图像和文本结合之后就属于违规内容，例如，违规广告、低俗的表情包等，单模态识别无法准确识别出这类复合违规样本，从而使得单模态识别所能覆盖的样本较少。

多模态识别主要是基于多模态分类模型来识别图文数据的。目前的多模态分类模型是先基于大量的无标注图文数据进行预训练，然后再利用标注了的数据进行多模态分类的微调得到的。

在对多模态分类模型进行预训练时，是将图像模态数据和文本模态数据转换成序列作为模型输入，然后再通过定义掩码文本预测任务和图文匹配预测任务，实现自监督的预训练。示例性的，图1是对多模态分类模型进行预训练的示意图。参见图1，预训练时是将未标注过的图文数据1-1中的图像1-11进行特征提取，得到图像特征的序列1-21，同时将图文数据1-1中的文本1-12进行编码，得到文本特征的序列1-22，将图像特征的序列1-21和文本特征的序列1-22输入到特征转换模型1-3中，以得到转换后的特征序列1-31和转换后的特征序列1-32，以进行图文匹配预测任务和掩码文本预测任务。

然而，通过图文匹配预测任务和掩码文本预测任务预训练多模态分类模型时，很有可能会使得图像模态的模型部分无法得到足够的优化，使得预训练出的模型很难再用于纯图像任务，从而通过这种方式得到的多模态分类模型，仅能对图文数据进行识别，而对于纯图像任务则难以有效识别，从而使得信息识别所能覆盖的样本种类较少。

由此可见，相关技术中，无论是多模态识别还是单模态识别，均存在覆盖的样本种类较少的问题，从而使得信息识别的智能程度较低。

进一步的，图文匹配预测任务是一种低效率的自监督方式，其通过判断样本的图文是否匹配来学习图像与文本的相关关系，在每次迭代时，只能针对一张图片和一段文本计算相关度，从而需要多次迭代不同的负样本才能进行有效学习。并且，图文匹配预测任务是学习一种隐式关系，学习的难度也会较大。由此可见，通过图文匹配预测任务得到预训练多模态分类模型时，存在预训练效率低、预训练难度大等问题，使得多模态分类模型的预训练效率较低，从而使得用于进行信息识别的模型的生成效率较低。

随着人工智能技术的研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。本申请实施例提供的方案涉及人工智能中的计算机视觉、自然语言处理、深度学习等技术，具体通过如下实施例进行说明。

本申请实施例提供一种信息识别方法、装置、设备和计算机可读存储介质、程序产品，能够提高信息识别的智能程度。下面说明本申请实施例提供的信息识别设备的示例性应用，本申请实施例提供的信息识别设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明信息识别设备实施为服务器时示例性应用。

参见图2，图2是本申请实施例提供的信息识别系统的架构示意图，为实现支撑一个信息识别应用，终端400(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，终端400-1和终端400-2通过服务器200进行通信。

服务器200用于依据指定的信息类型，从预训练好的多模态分类模型的各个模块中，筛选出信息类型对应的匹配模块，其中，多模态分类模型是以文本模态的特征作为监督项，对图像模态的特征进行学习得到的；利用匹配模块，生成信息类型所对应的候选模型；依据信息类型对应的标注数据，对候选模型进行微调，得到信息类型对应的识别模型；当通过网络300从终端400-1获取到待识别信息时，通过识别模型对待识别信息进行特征提取，确定出识别结果，以实现信息识别。

终端400-1用于在图形界面上接收用户操作，从而生成信息类型的待识别信息，并通过服务器200向终端400-2转发待识别信息。

服务器200还用于在识别结果表征待识别信息未出现异常时，将待识别信息转发给终端400-2。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能家电、车载终端等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

参见图3，图3是本申请实施例提供的图2中的服务器的结构示意图，图3所示的服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB，Universal Serial Bus)等；

在一些实施例中，本申请实施例提供的信息识别装置可以采用软件方式实现，图3示出了存储在存储器250中的信息识别装置255，其可以是程序和插件等形式的软件，包括以下软件模块：信息筛选模块2551、模型生成模块2552、模型微调模块2553、信息识别模块2554和模型预训练模块2555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的信息识别装置可以采用硬件方式实现，作为示例，本申请实施例提供的信息识别装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的信息识别方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Progra mmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmabl e Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

在一些实施例中，信息识别设备可以通过运行计算机程序来实现本申请实施例提供的权限发放方法。举例来说，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(Native)应用程序(APP，Application)，即需要在操作系统中安装才能运行的程序，如信息识别APP等；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

本申请实施例提供的信息识别方法，可以应用到云技术、人工智能、智慧交通、车载等场景。下面，将结合本申请实施例提供的信息识别设备的示例性应用和实施，说明本申请实施例提供的信息识别方法。

参见图4，图4是本申请实施例提供的信息识别方法的流程示意图一，将结合图4示出的步骤进行说明。

S101、依据指定的信息类型，从预训练好的多模态分类模型的各个模块中，解析出信息类型对应的匹配模块。

本申请实施例是在构建能够对信息类型的信息进行识别的模型，并利用生成的模型对信息类型所对应的信息进行识别的场景下实现的，例如，生成能够对图文类型的信息进行识别的模型，并在获取到用户上传的图文信息时，对图文信息进行识别，以分辨图文信息是否包含违规内容、低俗内容。本申请实施例中，信息识别设备在构建模型时，会先获取指定的信息类型，例如，图文类型、图像类型、文本类型等，然后将预训练好的多模态分类模型进行解析，得到多模态分类模型的各个模块，然后依据信息类型，从解析得到的各个模块中，挑选出处理信息类型所对应的信息时所需要的模块，将挑选出的模块作为匹配模块。

需要说明的是，多模态分类模型是以文本模态的特征作为监督项，对图像模态的特征进行学习得到的，如此，多模态分类模型中负责处理图像模态的模型部分是经过足够的优化的，使得多模态分类模型能够针对图像模态的信息取得更好的处理效果。

多模态分类模型中可以包括用于对图像模态的信息进行特征抽取的图像特征抽取模块，用于对图像模态的特征进行融合的图像特征融合模块，用于对文本模型的信息进行特征抽取的文本特征抽取模块，用于对文本模态的特征进行融合的文本特征融合模型，以及用于对跨模态的特征进行融合的跨模块融合模块中的一个或多个。其中，图像特征抽取模块可以为实施为卷积神经网络(Co nvolutional Neural Networks，CNN)，文本特征抽取模块可以实施为Bert模型，图像特征融合模块、文本特征融合模块和跨模态特征融合模块可以实施为Tran sformer模型等等，本申请在此不作限定。

可以理解的是，当信息类型是图像类型时，信息识别设备就是从多模态分类模型的各个模块中，挑选出能够处理图像信息的模块，例如，图像特征抽取模块、图像特征融合模块等，作为匹配模块；当信息类型是文本类型时，信息识别设备可以将文本特征抽取模块、文本特征融合模块作为匹配模块；当信息类型是图文类型(即同时包含图像和文本的信息类型)时，信息识别设备可以将图像特征抽取模块、图像特征融合模块、文本特征抽取模块、文本特征融合模块和多模态特征融合模块作为匹配模块。

S102、利用匹配模块，生成信息类型所对应的候选模型。

信息识别设备从多模态分类模型中，确定出匹配模块之间的连接关系，然后依据确定出的连接关系将匹配模块进行连接，所得到的模型就是信息类型所对应的候选模型。

可以理解的是，当匹配模块中仅包括单个模态的特征抽取模块和特征挖掘模态时，例如，仅包括图像特征抽取模块和图像特征融合模块(或者文字特征抽取模块和文字特征融合模块)时，信息挖掘设备可以直接将多模态分类模型中原本的图像特征抽取模块和图像特征融合模块(或者文字特征抽取模块和文字特征融合模块)之间的连接关系，对匹配模块所包含的模块进行连接，得到能够对图像模态的信息进行设备的候选模型。

当匹配模块中包含了多模态分类模型的所有模块时，信息识别设备可以直接将这些模块按照多模态分类模型中的模块的连接方式进行连接，以生成候选模型，也即，信息识别设备直接将预训练好的多模态分类模型确定为候选模型。

S103、依据信息类型对应的标注数据，对候选模型进行微调，得到信息类型对应的识别模型。

需要说明的是，预训练并不等于真正的训练，预训练往往是为了利用大量可能与最终的识别任务无关的数据，来使得模型能够，以避免训练时出现过拟合等现象，影响最终的模型性能。因此，利用从预训练好的多模态分类模型的各个模块中，所抽取出的匹配模型组成的识别模型，还不能直接对信息类型的信息进行识别的，而是需要经过进一步的训练，才能进行执行候选的信息类型的识别任务。在此情况下，信息识别设备会先获取信息类型所对应的标注数据，标注数据由输入数据和标签数据组成，利用候选模型对标注数据中的输入数据进行识别，以得到训练时的预测结果，然后再根据标签数据和训练时的预测结果，构建出训练损失值，以利用该训练损失值对候选模型的参数进行微调，再利用微调后的模型作为新的候选模型，继续对输入数据进行识别，如此迭代，直至满足训练结束条件时，就能够得到效果优良的识别模型。

需要说明的是，当信息类型为图像类型时，标注数据就是标注过的图像；当信息类型为图文类型时，标注数据就是标注过的图文数据；当信息类型为文本类型时，标注数据就是标注过的文本数据。

示例性的，图5是本申请实施例提供的通过微调生成候选模型的过程示意图。参见图5，在预训练阶段5-A所生成的多模态分类模型5-1中，包括了图像特征抽取模块5-11、图像特征融合模块5-12、文本特征融合模块5-13和跨模态特征融合模块5-14。当信息类型为图文类型5-2时，在微调阶段5-B，信息识别设备就是利用标注有表情包是否违规、是够涉嫌广告的图文数据，来对整个多模态分类模型5-1进行微调，以得到能够分类5-3违规表情包5-4和广告5-5的识别模型；当信息类型为图像类型5-6时，在微调阶段5-B，信息识别设备就是利用标注有是否包含敏感内容的图像数据，来对图像特征抽取模块5-11进行微调，以得到能够分类5-7或检测5-8敏感内容5-9的识别模型。

S104、当获取到信息类型的待识别信息时，通过识别模型对待识别信息进行特征提取，确定出识别结果。

信息识别设备在得到识别模型之后，就会一直检测是否获取到了需要进行信息识别的待识别信息。当获取到信息类型的待识别信息时，信息识别设备就会调用微调好的识别模型，通过该识别模型对待识别信息进行特征提取，并对提取出的特征进行分类或者检测，以得到针对信息类型的识别结果，从而实现针对信息类型的信息识别。

可以理解的是，相比于相关技术中仅通过图文匹配预测任务和掩码文本预测任务所训练出的多模态分类模型，本申请实施例中多模态分类模型是将文本模型的特征作为学习图像模态的特征时的监督得到的，从而预训练好的多模态分类模型能够针对图像模态的信息能够具有较好的泛化能力，从而使得候选模型也针对图像模态的信息具有较好的泛化能力，针对单纯的图像模态的信息也能够进行处理，使得候选模型也针对图像模态的信息具有较好的泛化能力，接着通过信息类型所对应的标注数据对候选模型再进行针对性的微调，以使得无论是针对图像模态、图文模态还是文本模态的待识别信息，均能够进行识别，且取得较好的识别准确度。综上所述，本申请实施例提供的信息识别方法能够提升信息识别所能覆盖的样本的种类，以及识别的准确度，最终提升信息识别的智能程度。

基于图4，参见图6，图6是本申请实施例提供的信息识别方法的流程示意图二。在本申请的一些实施例中，待识别信息包括：图文类型的多模态信息，即待识别信息是同时包含了图像模态和文本模态的多模态信息，此时，通过识别模型对待识别信息进行特征提取，确定出识别结果，即S104的具体实现过程，可以包括：S1041-S1044，如下：

S1041、通过识别模型中的图像特征抽取模块，从多模态信息的图像部分中抽取出第一特征图，并从第一特征图中采样出多个图像特征。

信息识别设备先从多模态信息中，分离出图像部分和文本部分，然后将图像部分输入进识别模型的图像特征抽取模块中，以利用图像特征抽取模块抽取出图像部分的第一特征图，然后对第一特征图按照预设规则，或者是随机进行采样，得到多个图像特征。

可以理解的是，当多模态信息为图像和文本对的形式时(即多模态信息由纯图像和纯文本两部分组成)，信息识别设备可以直接将文本部分和图像部分提取出来。当多模态信息为嵌入了文本的图像时(例如叠加了字幕的图像)，信息识别设备可以通过文本定位，先从多模态信息中检测出文本所在的区域，然后将文本区域从多模态信息中截取出来，将除文本区域之外的部分提取为图像部分，针对文本区域利用光学字符识别(OpticalCharacter Recognition，OCR)技术进行字符提取，得到文本部分。

需要说明的是，预设规则可以是指将特征图在高和宽的维度进行分离，从而得到长度与特征图的深度相同的特征向量，信息设备识别一共可以得到特征图的高度和宽度的乘积的数量个特征向量，最后对这些特征向量进行随机采样，得到多个图像特征。

示例性的，图7是本申请实施例提供的采样图像特征的示意图。信息识别设备将图文类型的多模态信息，即嵌入有文本的图文信息7-1中，提取出图像部分7-2，将图像部分7-2输入至CNN模型7-3(图像特征抽取模块)中，以抽取出尺寸为H×W×C的第一特征图7-4，然后再按照H维度和W维度，将特征图7-4进行分离7-5，得到H×W个长度为C的特征向量7-6，再对这些特征向量进行随机采样7-7，就得到了多个图像特征7-8。

S1042、依据识别模型中的图像特征融合模块，对多个图像特征进行同模态融合，得到图像融合特征。

信息识别设备将多个图像特征输入进图像特征融合模块中，以利用图像特征融合模块对多个图像特征在同一个模态，即图像模态进行特征融合，融合之后的特征就是图像融合特征。

示例性的，图8是本申请实施例提供的生成图像融合特征的过程示意图。信息识别设备将多个图像特征8-1，输入到图像特征融合模块8-2中，进行同模态的特征融合，就能够得到图像融合特征8-3。

S1043、依据识别模型中的文本特征融合模块，对从多模态信息的文本部分所抽取出的多个文本特征进行同模态融合，得到文本融合特征。

信息识别设备针对多模态信息的文本部分进行分词，得到多个分词结果，然后对每个分词结果进行特征处理，就能够得到多个文本特征。接着，信息识别设备将多个文本特征输入到识别模型中的文本特征融合模型中，以通过文本特征融合模型对多个文本特征在同模态上进行融合，得到文本融合特征。

S1044、利用识别模型中的跨模态特征融合模块，将图像融合特征和文本融合特征进行跨模态融合，得到多模态融合特征，并对多模态融合特征进行分类，得到多模态信息的识别结果。

信息识别设备在得到图像融合特征和文本融合特征之后，可以将图像融合特征和文本融合特征共同输入到跨模态特征融合模块中，或者是先将图像融合特征和文本融合特征进行拼接，将拼接特征输入到跨模态特征融合模块中，以通过跨模态特征融合模块将图像融合特征和文本融合特征进行跨模态的信息交互与融合，得到多模态融合特征。最后，信息识别设备对多模态融合特征进行分类，就能够得到多模态信息的识别结果。

示例性的，图9是本申请实施例提供的生成多模态信息的识别结果的过程示意图。信息识别设备将文本特征融合模块9-1输出的文本融合特征，和图像特征融合模块9-2输出的图像融合特征，共同输入进跨模态特征融合模块9-3中，就能够得到多模态融合特征9-4，再对多模态融合特征9-4进行分类，以得到最终的识别结果。

本申请实施例中，当待识别信息为图文类型的多模态信息时，信息识别设备可以先针对多模态信息中的图像部分和文本部分，分别进行单独模态的信息抽取，然后再进行跨模态的信息融合，以基于多模态融合特征来共同确定出多模态信息的识别结果，提高识别结果的准确度。

在本申请的一些实施例中，待识别信息包括：图像类型的单模态信息，此时，通过识别模型对待识别信息进行特征提取，确定出识别结果，即S104的具体实现过程，可以包括：S1045-S1046，如下：

S1045、利用识别模型中的图像特征抽取模块，从图像类型的单模态信息中抽取出第二特征图。

S1046、基于对从第二特征图中所提取到待处理特征进行特征分类，得到单模态信息的识别结果。

当待识别信息为图像类型的单模态信息，即待识别信息为待识别的图像时，识别模型中可以仅包括图像特征抽取模块，例如CNN模型。此时，信息识别设备可以将图像类型的单模态信息输入至图像特征抽取模块中，以通过图像特征抽取模块从单模态信息中抽取出第二特征图。接着，信息识别设备可以将第二特征图输入进卷积层、池化层或者全连接层中，以继续从第二特征图中抽取出可以用来进行特征分类的待处理特征，然后通过对待处理特征进行特征分类，来实现对图像类型的单模态信息的分类和检测，从而得到识别结果。

本申请实施例中，当待识别信息为图像类型的单模态信息时，信息识别设备可以基于识别模型从单模态信息中得到可以用于进行图像分类、图像检测等处理的待处理特征，从而能够实现对纯图像类型的信息进行识别，以审核纯图像类型的信息中是否包含违规、低俗内容等，提高信息识别所覆盖的样本种类。

基于图4，参见图10，图10是本申请实施例提供的信息识别方法的流程示意图三。在本申请的一些实施例中，依据指定的信息类型，从预训练好的多模态分类模型的各个模块中，筛选出信息类型对应的匹配模块之前，即在S101之前，该方法还可以包括：S105-S106，如下：

S105、获取初始多模态模型和预训练图文数据。

需要说明的是，初始多模态模型可以为未经过训练的模型(即模型参数全部为0或者为初始化后的随机值)，也可以为利用标准数据集等数据进行过训练的多模态模型，本申请在此不作限定。预训练图文数据是未经过标注的图文数据。

S106、基于对预训练图文数据中的图像数据的特征和文本数据的特征进行相似度计算，以及对文本数据进行掩码文本预测，将初始多模态模型进行预训练，得到多模态分类模型。

信息识别设备将预训练图文数据输入到初始多模态模型中，并基于对初始多模态模型分别所提取出的图像数据的特征和文本数据的特征进行相似度计算，来实现关联关系构建，同时利用从文本数据所提取出的特征来对文本数据进行掩码文本预测，针对这两个任务分别生成损失值，利用损失值来对初始多模态模型中的参数进行调整，直至预训练完成时，得到多模态分类模型。

可以理解的是，掩码文本预测是指将文本数据中的某些字符，例如掩码进行替换，然后利用未被遮挡的字符的特征来预测被掩码所替换的字符，最后判断预测出的字符与原本被掩码遮挡的字符是否相同，从而得到损失值。

需要说明的是，掩码文本预测是基于文本数据的特征进行学习，而在图文匹配预测中，是同时利用了文本数据和图像数据的特征进行学习，但是，由于相比于文本数据的特征，图像数据的特征的学习任务相对简单，从而基于图像数据的特征会更加不容易学习到知识，最终基于掩码文本预测和图文匹配预测预训练时，文本模态的特征学习会压制图像模态的特征学习，从而使得图像模态的模型参数训练不充分。

对此，信息识别设备可以通过对预训练图文数据中的图像数据的特征和文本数据的特征进行相关度计算，能够显式地构建图像数据和文本数据的相关性关系，并在学习图像数据的特征时，将文本数据的特征作为监督项，使得能够更加多的从图像数据中学习知识，从而使得初始多模态模型中关于图像模态的模型参数得到足够的优化，以防止掩码文本预测所得到的损失值在训练时所起的作用过大，即文本模态的特征的学习压制图像模态的特征的学习。

本申请实施例中，信息识别设备能够通过显式地构建预训练数据中的图像数据和文本数据的关联关系，以及对文本数据进行掩码文本预测这两个任务，来实现对初始多模态模型的预训练，以在预训练时使得图像模态的模型参数得到足够的优化，从而所得到的多模态分类模型可以应用到纯图像的信息类型中。

在本申请的一些实施例中，基于对预训练图文数据中的图像数据的特征和文本数据的特征进行相似度计算，以及对文本数据进行掩码文本预测，将初始多模态模型进行预训练，得到预训练多模态模型，即S106的具体实现过程，可以包括：S1061-S1065，如下：

S1061、基于通过初始多模态模型对预训练图文数据中的文本数据进行掩码文本预测，生成掩码预测损失值。

信息识别设备对文本数据添加掩码，然后针对添加了掩码的文本数据进行分词、编码等操作，得到多个预训练文本特征，然后将多个预训练文本特征输入到初始多模态模型中的初始文本特征融合模块中，以对多个预训练文本特征进行同模态融合，得到预训练文本融合特征。同时，信息识别设备会将预训练图文数据中的图像数据输入到初始多模态模型中的初始图像特征抽取模块中，得到预训练特征图，然后再对预训练特征图进行随机采样，生成随机采样多个预训练图像特征，并通过初始多模态模型中的初始图像特征融合模块对多个初始多个模态模型进行同模态融合，得到预训练图像融合特征。接着通过初始多模态模型中的初始跨模态特征融合模块预训练文本融合特征和预训练图像融合特征进行跨模态的特征融合，得到预训练多模态融合特征，基于预训练融合特征预测被掩码所覆盖的字符，再基于预测出的字符和被掩码所覆盖的真实字符进行损失值的计算，得到掩码预测损失值。

S1062、基于对通过初始多模态模型从预训练图文数据中的图像数据中抽取出的预训练特征图进行池化操作，得到全局图像特征。

信息识别设备可以利用初始多模态模型对图像数据进行特征图的提取，以得到预训练特征图，然后对预训练特征图在高度和宽度的维度上进行全局池化，从而得到长度为特征图的深度的一个特征向量，将这个向量作为全局图像特征。

示例性的，图11是本申请实施例提供的从预训练特征图生成全局图像特征的过程示意图。信息识别设备将预训练图文数据中的图像数据输入到初始多模态模型中的初始图像特征抽取模块之后，能够得到尺寸为H×W×C的预训练特征图11-1(由多个特征图组成，每个特征图的尺寸为H×W，共有C张特征图，从而预训练特征图的深度为C)，然后将预训练特征图在H和W维度上进行全局池化11-2(将每张特征图的尺寸从H×W池化为1×1)，从而能够得到一个长度为C的特征向量11-3，将该特征向量作为全局图像特征。

S1063、利用初始多模态模型从预训练图文数据的文本数据所对应的预训练文本特征中，提取出全局文本融合特征。

信息识别设备对预训练图文数据中的文本数据进行分词、编码等操作，得到多个预训练文本特征，然后将多个预训练文本特征输入到初始多模态模型中的初始文本特征融合模型中，得到预训练文本融合特征，再从预训练文本融合特征中筛选出文本数据的全局语义特征，作为全局文本特征。

S1064、基于对全局图像特征和全局文本特征进行相似度计算，确定出相似度损失值。

一些实施例中，信息识别设备可以先计算全局图像特征和全局文本特征之间的相似度，然后将相似度与预设数值，例如1的差值，确定为相似度损失值。

在另一些实施例中，信息识别设备可以利用全局图像特征和全局文本特征分别构造出从图像数据预测文本数据时(即图像数据为输入，文本数据为标签)的损失值，以及从文本数据预测图像数据时(即文本数据为输入，图像数据为标签)的损失值，将这两个损失值确定为相似度损失值。

S1065、依据掩码预测损失值和相似度损失值，对初始多模态模型持续进行参数调整，直至满足预训练停止条件时，得到多模态分类模型。

可以理解的是，信息识别设备可以利用掩码预测损失值和相似度损失值分别对初始多模态模型进行调整，也可以将掩码预测损失值和相似度损失值合并，利用合并损失值对初始多模态模型进行调整，本申请在此不作限定。

预训练停止可以设置为迭代达到10000次，也可以设置为初始多模态模型针对预训练图文数据的预测精度达到99.9％等，本申请在此不作限定。

示例性的，图12是本申请实施例提供的对初始多模态模型进行预训练的过程示意图一。初始多模态模型包括了初始图像特征抽取模块(例如CNN模型)、初始图像特征融合模块(例如图像Transformer模型)、初始文本特征融合模块(例如文本Transformer模型)和初始跨模态特征融合模块(例如跨模态Transf ormer模型)。参见图12，信息识别设备对利用初始图像特征抽取模块12-2从预训练图文数据12-1的图像数据12-1a中抽取出预训练特征图12-3，基于对预训练特征图12-3进行全局池化得到全局图像特征12-4，基于对预训练特征图12-3进行随机采样得到多个预训练图像特征12-5，并输入到初始图像特征融合模块12-6；利用字符识别模型，例如OCR模型从预训练图文数据12-1中提取出文本数据12-1b，并针对文本数据12-12随机添加掩码12-7，得到文本数据12-8(给你泡[掩码12-7]绿[掩码12-7]茶)，再进行切分、编码等操作，得到多个预训练文本特征12-9，并输入到初始文本特征融合模块12-10中，然后再从文本初始文本特征融合模块12-10的输出中挑选出全局文本特征12-11。同时，信息识别设备将初始图像特征融合模块12-6的输出和初始文本特征融合模块12-10的输出输入到初始跨模态特征融合模块12-12中，得到预训练多模态融合特征。信息识别设备基于预训练多模态融合特征进行掩码文本预测12-13所得到的掩码预测损失值，基于全局图像特征12-4和全局文本特征12-11进行相似度计算12-14所得到的相似度损失值，来反向调整各个模型的参数，以便得到预训练模型。

本申请实施例中，信息识别设备能够针对从预训练图文数据中的图像数据所抽取出的预训练特征图，得到全局图像特征，从文本数据中得到全局文本特征，然后依据全局文本特征和全局图像特征构建相似度损失，从而能够显式地构建图像数据和文本数据之间的关联关系，并联合相似度损失和掩码预测损失，对初始多模态模型进行参数调整，降低了图像数据和文本数据之间的关联的学习难度，优化了最终的融合特征。

在本申请的一些实施例中，图像数据包括：多个子图像数据，文本数据包括：多个子文本数据；全局图像特征中包括：多个子图像数据对应的多个子图像特征，全局文本特征中包括：多个子文本数据对应的多个子文本特征，此时，基于对全局图像特征和全局文本特征进行相似度计算，确定出相似度损失值，即S1064的具体实现过程，可以包括：S1064a-S1064c，如下：

S1064a、基于将每个第一特征向量的转置结果分别与多个第二特征向量相乘，构造出基于图像数据预测文本数据时的第一损失值。

信息识别设备将每个第一特征向量进行转置，得到第一特征向量的转置结果，然后将第一特征向量的转置结果分别与多个第二特征进行相乘，得到第一乘积结果，然后将第一乘积结果与缩放因子的比值作为指数，将自然数e作为底数，进行指数运算，得到多个第二特征向量分别对应的第一指数运算结果，即得到多个第一指数运算结果。同时，信息识别设备将每个第一特征向量的转置结果，与每个第一特征向量相对应的第二特征向量相乘，得到第二乘积结果，将第二乘积结果与缩放因子的比值作为自然数e的指数来进行指数运算，得到第二指数运算结果。最后，信息识别设备再将多个第一指数运算结果的累加和，与第二指数运算结果进行比值运算，将比值运算结果作为自然数或者是预设数据的对数，以进行对数运算，得到每个第一特征向量，即每个子图像数据所对应的损失值分量，然后对所有子图像数据所对应的损失值分量取均值，就得到了最终的第一损失值。

示例性的，构造基于图像数据预测文本数据时的第一损失值的过程可以如式(1)所示：

其中，为子图像数据对应的第一特征向量的转置结果，y_i是第一特征向量对应的第二特征向量，y_j表示每个第二特征向量，σ表示缩放因子，N是子图像数据的总数量，L_i2t为第一损失值。

可以理解的是，通过上述这种方式计算损失值，能够在一个训练批次内针对单个的子图像数据采集更多的负样本，相比于图文匹配任务中的一个批次仅能一个图像和一个文本的相关关系，无疑会加快相关关系的分析速度，从而减少预训练所需要的时间，加快多模态分类模型的生成速度。

S1064b、基于分别将多个第一特征向量和每个第二特征向量的转置结果相乘，构造出基于文本数据预测所述图像数据时的第二损失值。

可以理解的是，第二损失值的构造方式与第一损失值的构造方式类似，唯一不同是将每个第二特征向量进行转置，利用每个第二特征向量的转置结果分别和多个第一特征向量进行相乘，以计算出第二损失值。

示例性的，构造基于文本数据预测图像数据时的第二损失值的过程可以如式(2)所示：

其中，x_j表示每个第一特征向量，表示每个第二特征向量的转置结果，L_t2i表示第二损失值。

S1064c、将第一损失值和第二损失值，确定为相似度损失值。

信息识别设备在得到第一损失值和第二损失值之后，就会将第一损失值和第二损失值均确定为相似度损失值，或者是将第一损失值和第二损失值的和确定为相似度损失值，以便于后续进行参数调整。

本申请实施例中，信息识别设备能够在一个训练批次内针对单个的子图像数据或者单个的子文本数据采集更多的负样本，从而能够加快相关关系的分析速度，从而减少预训练所需要的时间，提高多模态分类模型的生成效率。

在本申请的一些实施例中，在依据掩码预测损失值和相似度损失值，对初始多模态模型持续进行参数调整，直至满足预训练停止条件时，得到多模态分类模型，即在S1065之前，该过程还可以包括：S1066，如下：

S1066、基于通过初始多模态模型对预训练图文数据中的图像数据和文本数据进行图文匹配检测，生成匹配检测损失值。

信息识别设备除了基于相似度损失值和掩码预测损失值进行调整初始多模态模型的参数之外，还可以将图像数据和文本数据所生成的图文对时，将匹配对中的图像数据按照一定的概率替换为其他的图像，然后对初始跨模态特征融合模块所生成的预训练多模态融合特征进行图像和文本匹配度的预测，从而明确替换后的图文对中的图像和文本是否匹配，结合真实的匹配情况，生成匹配检测损失值。在此情况下，信息识别设备依据掩码预测损失值和相似度损失值，对初始多模态模型持续进行参数调整，直至满足预训练停止条件时，得到多模态分类模型，即S1065的具体实现过程，可以包括：

S1065a、依据掩码预测损失值、相似度损失值和匹配预测损失值，对初始多模态模型持续进行参数调整，直至满足预训练停止条件时，得到多模态分类模型。

示例性的，基于图12，参见图13，图13是本申请实施例提供的对初始多模态模型进行预训练的过程示意图二。信息识别设备除了对预训练多模态融合特征进行掩码文本预测12-13、相似度计算12-14之外，还可以进行图文匹配预测12-15，以得到匹配预测损失值，并同时利用掩码预测损失值、相似度损失值和匹配预测损失值对初始多模态模型进行参数调整。

本申请实施例中，信息识别设备可以同时结合掩码预测损失值、相似度损失值和匹配检测损失值三种损失值，来对初始多模态模型进行参数调整，以得到多模态分类模型。这样，可以使得初始多模态模型在预训练所能学习的知识进一步增加，从而能够进一步提高多模态分类模型的性能。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例是在生成对内容审核模型(识别模型)，以对网络上传播的内容进行审核，从而及时识别出违规内容、低俗内容、敏感内容的场景下实现的。

在生成审核模型时，服务器(信息识别设备)首先会预训练一个多模态模型(多模态分类模型)。多模态模型的结构可以与图12类似，采用双数据流形式的输入，即图像模态输入和文本模态输入，以得到文本的特征(多个预训练文本特征)和图像的特征(多个预训练图像特征)，然后将文本的特征和图像的输入到两个独立的Transformer模型(初始图像特征融合模块和初始文本特征融合模块)中，接着将两个独立的Transformer模型所输出的特征组成连续的序列，输入到一个统一的Transformer模型(初始跨模态特征融合模块)中进行跨模态的信息交互与融合，最后输出融合后的特征，采用相似度损失函数(相似度损失值)等损失函数进行计算。

在图像模态输入中，服务器将图像输入到深度卷积神经网络CNN(初始图像特征抽取模块)，得到对应的特征张量F(特征图)，F大小为(H，W，C)，其中C表示通道数，H对应高，W对应宽。接着，服务器将特征张量F分别进行两种处理，得到全局特征向量(全局图像特征)与局部特征向量序列。对于全局特征向量，将特征张量F在H和W维度上进行全局池化(池化操作)，得到一条长度为C的特征向量，作为全局特征向量Fv_global；对于局部特征向量序列，则是将特征张量F按照H和W维度进行分离，得到H*W个特征长度为C的特征向量序列，接着对特征向量序列进行一定概率的随机采样，得到最终的输入特征向量序列Fv_local(多个预训练图像特征)。对于文本模态的输入，服务器利用OCR模型，获取图像(预训练图文数据)上的文本内容(文本数据)，将文本转换为对应的文本向量序列Ft_local(多个预训练文本特征)，输入到后续模型。

接着，服务器将文本向量序列Ft_local和输入特征向量序列Fv_local，分别进行单一模态的内部特征融合。其具体方法为，将文本向量序列Ft_local输入到对应的单一模态的Transformer模型(初始文本特征融合模块)，将输入特征向量序列Fv_local输入到对应的单一模态的Transformer模型(初始图像特征融合模块)，得到Ft_local’(预训练文本融合特征)和Fv_local’(预训练图像融合特征)。在文本的Transformer模型的输出中，取[CLS]位对应的特征为文本全局特征(全局文本特征)Ft_global。

服务器接着将Ft_local’和Fv_local’进行拼接，得到完整的图文特征序列，而后将图文特征序列输入到用于进行特征融合的统一的Transformer模型(初始跨模态特征融合模块)中，将图像与文本两个模态的信息互相融合，得到融合后的图文特征(在前向预测时即为多模态融合特征，预训练时为预训练多模态融合特征)。

服务器对多模态模型会通过三个任务对多模态模型进行预训练，即图文匹配任务(图文匹配预测)、掩码语言模型任务(掩码文本预测)和相似度任务(相似度计算)。其中，图文匹配任务是一个人类任务，用于判断当前文本是否来自于图像的OCR生成内容，其具体搞作是在输入文本和图像匹配对时，按照一定概率将图像替换成其他图像，对于成对的图文，预测为匹配，对于被替换的图文，预测为不匹配。掩码语言模型任务中，服务器随机将某些文字利用掩码，即[Mask]进行替换，而利用Transformer对应的位置预测被替换的文字。

然而，图文匹配任务是一种低效率的自监督方式，每一次迭代时，一段文本仅与一张图像计算相关性，从而需要进行多次负样本的迭代才能学习到具有盘别想的特征，并且其学习的是隐式关系，学习难度大，而仅与掩码语言模型一起进行预训练时，会使得掩码语言模型任务在预训练时占据主导影响，使得图像模态的训练效果不够好。对此，服务器通过添加相似度任务，来解决这一问题。

服务器利用提取出的全局特征向量Fv_global和文本全局特征Ft_global，通过式(1)和式(2)的方式构造相似度损失函数，以在一个训练批次内，拉近匹配的图文对的特征相似度，拉远不匹配的图文对的特征相似度。通过这种方式，能够实现在一个训练批次内采样更多的负样本，显式地构建了图文的相关关系，使得能将不同模态的特征影响到相同的特征空间，同时利用文本特征监督了图像特征的学习，使得对图像模型进行了足够的优化。

在预训练完成之后，服务器就能够得到完整的图文预训练模型(多模态分类模型)，该模型由纯图像的Transformer(图像特征融合模块)、纯文本的Tran sformer(文本特征融合模块)、跨模态Transformer(跨模态特征融合模块)和图像CNN(图像特征抽取模块)四个模块组成。服务器可以根据后续任务的差异，利用图文预训练模型中的不同部分进行微调，例如，在进行图文内容(信息类型)审核(时，完整使用各个模块组成图文审核模型(识别模型)，利用有标注的图文数据(信息类型对应的标注数据)对模型进行微调；在进行纯图像内容审核(图像类型)时，利用图像CNN模型作为任务的模型，以应用于分类检测各类纯图像任务。

通过上述方式，能够大幅度提升多模态内容审核的指标效果。示例性的，针对违规表情包审核任务，基线模型(仅利用多模态融合)、仅利用标注数据进行训练的模型、通过预训练(图文匹配任务(ITM)+掩码语言模型(MLM))和标注数据微调的模型，以及本申请实施例所提供的模型的准确度对比可如表1所示：

表1

可见，本申请实施例提供的模型，无论是相比与基线模型、利用标注数据训练的模型和采用预训练(ITM+MLM)和标注数据微调的模型相比，在违规表情包的识别上均取得了较高的F1指标，从而召回率和精确率都得到了提升，使得针对违规表情包识别的智能程度得到了提升。

进一步的，相比于利用预训练(ITM+MLM)和标注数据微调的模型，本申请实施例提供的模型的收敛速度也更快。具体的，参见图14，图14是本申请实施例提供的模型收敛速度对比图，在该对比图14-1中，横轴为迭代epoch14-11(从0-100)，纵轴为训练精度14-12(从0.60-0.85)，曲线14-2表征预训练(ITM+MLM)和标注数据微调的模型的收敛情况，曲线14-3表征本申请实施例提供的模型收敛情况。可见，本申请实施例提供的模型在迭代了60个epoch之后，就已经收敛，而预训练(ITM+MLM)和标注数据微调的模型则在迭代了100个epoch之后，才开始收敛。由此可见，本申请实施例能够更快地完成预训练。

相比于相关技术中的模型，本申请实施例提供的模型还能够在纯图像任务上取得更好的效果，具体如表2所示：

表2

表2中的基线模型即为利用ImageNet数据集预训练出的模型，从表2可见，预训练(ITM+MLM)和标注数据微调的模型，与基线模型之间的图像检测准确度相差并不大，但是本申请实施例提供的模型的图像检测准确度相比于基线模型则得到了很大的提升，从而本申请实施例提供的模型针对纯图像任务也能够进行有效处理，提升了可以进行内容审核的样本的类型范围。

下面继续说明本申请实施例提供的信息识别装置255的实施为软件模块的示例性结构，在一些实施例中，如图3所示，存储在存储器250的信息识别装置255中的软件模块可以包括：

信息筛选模块2551，用于依据指定的信息类型，从预训练好的多模态分类模型的各个模块中，筛选出所述信息类型对应的匹配模块；其中，所述多模态分类模型是以文本模态的特征作为监督项，对图像模态的特征进行学习得到的；

模型生成模块2552，用于利用所述匹配模块，生成所述信息类型所对应的候选模型；

模型微调模块2553，用于依据所述信息类型对应的标注数据，对所述候选模型进行微调，得到所述信息类型对应的识别模型；

信息识别模块2554，用于当获取到所述信息类型的待识别信息时，通过所述识别模型对所述待识别信息进行特征提取，确定出识别结果。

在本申请的一些实施例中，所述待识别信息包括：图文类型的多模态信息；所述信息识别模块2554，还用于通过所述识别模型中的图像特征抽取模块，从所述多模态信息的图像部分中抽取出第一特征图，并从所述第一特征图中采样出多个图像特征；依据所述识别模型中的图像特征融合模块，对所述多个图像特征进行同模态融合，得到图像融合特征；依据所述识别模型中的文本特征融合模块，对从所述多模态信息的文本部分所抽取出的多个文本特征进行同模态融合，得到文本融合特征；利用所述识别模型中的跨模态特征融合模块，将所述图像融合特征和所述文本融合特征进行跨模态融合，得到多模态融合特征，并对所述多模态融合特征进行分类，得到所述多模态信息的识别结果。

在本申请的一些实施例中，所述待识别信息包括：图像类型的单模态信息；所述信息识别模块2554，还用于利用所述识别模型中的图像特征抽取模块，从所述图像类型的单模态信息中抽取出第二特征图；基于对从所述第二特征图中所提取到待处理特征进行特征分类，得到所述单模态信息的所述识别结果。

在本申请的一些实施例中，所述信息识别装置255还包括：模型预训练模块2555；所述模型预训练模块2555，用于获取初始多模态模型和预训练图文数据；其中，所述预训练图文数据是未经过标注的图文数据；基于对所述预训练图文数据中的图像数据的特征和文本数据的特征进行相似度计算，以及对所述文本数据进行掩码文本预测，将所述初始多模态模型进行预训练，得到所述多模态分类模型。

在本申请的一些实施例中，所述模型预训练模块2555，还用于基于通过所述初始多模态模型对所述预训练图文数据中的所述文本数据进行掩码文本预测，生成掩码预测损失值；基于对通过所述初始多模态模型从所述预训练图文数据中的所述图像数据中抽取出的预训练特征图进行池化操作，得到全局图像特征；利用所述初始多模态模型从所述预训练图文数据的文本数据所对应的预训练文本特征中，提取出全局文本特征；基于对所述全局图像特征和所述全局文本特征进行相似度计算，确定出相似度损失值；依据所述掩码预测损失值和所述相似度损失值，对所述初始多模态模型持续进行参数调整，直至满足预训练停止条件时，得到所述多模态分类模型。

所述模型预训练模块2555，还用于基于将每个所述第一特征向量的转置结果分别与所述多个第二特征向量相乘，构造出基于所述图像数据预测所述文本数据时的第一损失值；基于分别将多个所述第一特征向量和每个所述第二特征向量的转置结果相乘，构造出基于所述文本数据预测所述图像数据时的第二损失值；将所述第一损失值和所述第二损失值，确定为所述相似度损失值。

在本申请的一些实施例中，所述模型预训练模块2555，还用于依据所述掩码预测损失值和所述相似度损失值，对所述初始多模态模型持续进行参数调整，直至满足预训练停止条件时，得到所述多模态分类模型之前，基于通过所述初始多模态模型对所述预训练图文数据中的图像数据和文本数据进行图文匹配检测，生成匹配检测损失值；依据所述掩码预测损失值、所述相似度损失值和所述匹配检测损失值，对所述初始多模态模型持续进行参数调整，直至满足预训练停止条件时，得到所述多模态分类模型。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。信息识别设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该信息识别设备执行本申请实施例上述的信息识别方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的信息识别方法，例如，如图4示出的信息识别方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个信息识别设备上执行，或者在位于一个地点的多个信息识别设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个信息识别设备上执行。

综上所述，本申请实施例中多模态分类模型是将文本模型的特征作为学习图像模态的特征时的监督得到的，从而预训练好的多模态分类模型能够针对图像模态的信息能够具有较好的泛化能力，针对单纯的图像模态的信息也能够进行处理，从而使得无论是针对图像模态、图文模态还是文本模态的待识别信息，均能够进行识别，且取得较好的识别准确度，最终提升信息识别的智能程度。同时，本申请实施例能够显式地构建图像数据和文本数据之间的关联关系，并联合相似度损失和掩码预测损失，对初始多模态模型进行参数调整，降低了图像数据和文本数据之间的关联的学习难度，优化了最终的融合特征，以及在一个训练批次内针对单个的子图像数据或者单个的子文本数据采集更多的负样本，从而能够加快相关关系的分析速度，从而减少预训练所需要的时间，提高多模态分类模型的生成效率。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种信息识别方法，其特征在于，所述信息识别方法包括：

获取初始多模态模型和预训练图文数据；其中，所述预训练图文数据是未经过标注的图文数据；

基于对所述预训练图文数据中的图像数据的特征和文本数据的特征进行相似度计算，以及对所述文本数据进行掩码文本预测，将所述初始多模态模型进行预训练，得到多模态分类模型；

依据指定的信息类型，从预训练好的所述多模态分类模型的各个模块中，筛选出所述信息类型对应的匹配模块；

利用所述匹配模块，生成所述信息类型所对应的候选模型；

2.根据权利要求1所述的方法，其特征在于，所述待识别信息包括：图文类型的多模态信息；所述通过所述识别模型对所述待识别信息进行特征提取，确定出识别结果，包括：

通过所述识别模型中的图像特征抽取模块，从所述多模态信息的图像部分中抽取出第一特征图，并从所述第一特征图中采样出多个图像特征；

依据所述识别模型中的图像特征融合模块，对所述多个图像特征进行同模态融合，得到图像融合特征；

依据所述识别模型中的文本特征融合模块，对从所述多模态信息的文本部分所抽取出的多个文本特征进行同模态融合，得到文本融合特征；

利用所述识别模型中的跨模态特征融合模块，将所述图像融合特征和所述文本融合特征进行跨模态融合，得到多模态融合特征，并对所述多模态融合特征进行分类，得到所述多模态信息的识别结果。

3.根据权利要求1所述的方法，其特征在于，所述待识别信息包括：图像类型的单模态信息；所述通过所述识别模型对所述待识别信息进行特征提取，确定出识别结果，包括：

利用所述识别模型中的图像特征抽取模块，从所述图像类型的单模态信息中抽取出第二特征图；

基于对从所述第二特征图中所提取到待处理特征进行特征分类，得到所述单模态信息的所述识别结果。

4.根据权利要求1所述的方法，其特征在于，所述基于对所述预训练图文数据中的图像数据的特征和文本数据的特征进行相似度计算，以及对所述文本数据进行掩码文本预测，将所述初始多模态模型进行预训练，得到多模态分类模型，包括：

基于通过所述初始多模态模型对所述预训练图文数据中的所述文本数据进行掩码文本预测，生成掩码预测损失值；

基于对通过所述初始多模态模型从所述预训练图文数据中的所述图像数据中抽取出的预训练特征图进行池化操作，得到全局图像特征；

利用所述初始多模态模型从所述预训练图文数据的文本数据所对应的预训练文本特征中，提取出全局文本特征；

基于对所述全局图像特征和所述全局文本特征进行相似度计算，确定出相似度损失值；

依据所述掩码预测损失值和所述相似度损失值，对所述初始多模态模型持续进行参数调整，直至满足预训练停止条件时，得到所述多模态分类模型。

5.根据权利要求4所述的方法，其特征在于，所述图像数据包括：多个子图像数据，所述文本数据包括：多个子文本数据；所述全局图像特征中包括：多个所述子图像数据对应的多个第一特征向量，所述全局文本特征中包括：多个所述子文本数据对应的多个第二特征向量；

所述基于对所述全局图像特征和所述全局文本特征进行相似度计算，确定出相似度损失值，包括：

基于将每个所述第一特征向量的转置结果分别与所述多个第二特征向量相乘，构造出基于所述图像数据预测所述文本数据时的第一损失值；

基于分别将多个所述第一特征向量和每个所述第二特征向量的转置结果相乘，构造出基于所述文本数据预测所述图像数据时的第二损失值；

将所述第一损失值和所述第二损失值，确定为所述相似度损失值。

6.根据权利要求4所述的方法，其特征在于，所述依据所述掩码预测损失值和所述相似度损失值，对所述初始多模态模型持续进行参数调整，直至满足预训练停止条件时，得到多模态分类模型之前，所述方法还包括：

基于通过所述初始多模态模型对所述预训练图文数据中的图像数据和文本数据进行图文匹配检测，生成匹配检测损失值；

所述依据所述掩码预测损失值和所述相似度损失值，对所述初始多模态模型持续进行参数调整，直至满足预训练停止条件时，得到所述多模态分类模型，包括：

依据所述掩码预测损失值、所述相似度损失值和所述匹配检测损失值，对所述初始多模态模型持续进行参数调整，直至满足预训练停止条件时，得到所述多模态分类模型。

7.一种信息识别装置，其特征在于，所述信息识别装置包括：

模型预训练模块，用于获取初始多模态模型和预训练图文数据；其中，所述预训练图文数据是未经过标注的图文数据；基于对所述预训练图文数据中的图像数据的特征和文本数据的特征进行相似度计算，以及对所述文本数据进行掩码文本预测，将所述初始多模态模型进行预训练，得到多模态分类模型；

信息筛选模块，用于依据指定的信息类型，从预训练好的所述多模态分类模型的各个模块中，筛选出所述信息类型对应的匹配模块；其中，所述多模态分类模型是以文本模态的特征作为监督项，对图像模态的特征进行学习得到的；

8.一种信息识别设备，其特征在于，所述信息识别设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至6任一项所述的信息识别方法。

9.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至6任一项所述的信息识别方法。

10.一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时实现权利要求1至6任一项所述的信息识别方法。