CN115115914B

CN115115914B - 信息识别方法、装置以及计算机可读存储介质

Info

Publication number: CN115115914B
Application number: CN202210641551.0A
Authority: CN
Inventors: 郭太安; 何肃南; 谯睿智
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2024-02-27
Anticipated expiration: 2042-06-07
Also published as: CN115115914A

Abstract

本申请公开了一种信息识别方法、装置以及计算机可读存储介质，可应用于云技术等场景。具体的，获取图文样本对，图文样本对包含图像样本、图像样本对应的第一语种文本和第二语种文本；通过预训练后的第一目标语种模型对第一语种文本和样本图像进行表征，且通过待训练的预设模型对图像样本及第二语种文本进行特征表示，以根据两者的图文中间特征来确定预设模型在表征时的图文对比损失、图像特征损失及文本特征损失，进而联合各类损失作为监督信号对预设模型进行监督训练，可在图文样本量较小时避免模型出现过拟合；同时，实现以跨语种的模型训练方式对预设模型进行图文学习训练，使得训练得到的目标模型可满足用户对其他语种图文信息识别的需求。

Description

信息识别方法、装置以及计算机可读存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种信息识别方法、装置以及计算机可读存储介质。

背景技术

随着人工智能(Artificial Intelligence，AI)技术的发展，其已广泛应用于各领域场景，如图像识别、文本识别、图文匹配等场景。在当前信息识别领域中，图文识别、图文匹配等信息识别技术应用较广，对当前社会和用户而言具有极大意义，因此，为了实现基于人工智能对图文信息的识别，需要构建图文类信息识别模型。

在相关技术中，构建图文类的信息识别模型时，针对图像模态和文本模态，分别采用独立的单模态编码方式对图像和文本进行特征表示学习，并确定图像模态特征和文本模态特征之间的特征差异，进而，根据特征差异对模型的图文表征能力进行监督学习，以建立图文两个模态特征之间的对应关系，完成了图文类的信息识别模型的构建，以用于图文类的信息识别。

在对现有技术的研究和实践过程中，本申请的发明人发现现有技术在构建图文类的信息识别模型时，仅采用图文特征之间的对比损失，这使得模型在训练过程的监督信号较弱，当图文样本量较少时容易出现过拟合现象；此外，模型训练过程通常采用特定语种文本，其无法适用于其他语种的图文类信息识别场景，具有局限性，导致模型无法对用户所需的其他语种的图文进行信息识别，模型识别的性能较差。

发明内容

本申请实施例提供一种信息识别方法、装置以及计算机可读存储介质，可增强模型训练学习过程的监督信号，可在图文样本量较小时避免模型出现过拟合，且可适用于其他语种的图文类模型学习训练，使得训练后的模型可满足用户对其他语种图文信息的识别需求，提高模型识别性能。

本申请实施例提供一种信息识别方法，包括：

获取图文样本对，所述图文样本对包含图像样本、所述图像样本对应的第一语种文本和第二语种文本；

通过预训练后的第一目标语种模型对所述图像样本及第一语种文本进行特征表示，得到第一特征向量集合，并通过待训练的预设模型对所述图像样本及第二语种文本进行特征表示，得到第二特征向量集合；

基于所述第一特征向量集合及第二特征向量集合，确定所述预设模型对应的图文对比损失值、图像特征损失值和文本特征损失值；

根据所述图文对比损失值、图像特征损失值及文本特征损失值对所述预设模型进行联合监督训练，得到训练后的第二目标语种模型；

通过所述第二目标语种模型对第二语种的图文信息进行识别。

相应的，本申请实施例提供一种信息识别装置，包括：

获取单元，用于获取图文样本对，所述图文样本对包含图像样本、所述图像样本对应的第一语种文本和第二语种文本；

第一编码单元，用于通过预训练后的第一目标语种模型对所述图像样本及第一语种文本进行特征表示，得到第一特征向量集合；

第二编码单元，用于通过待训练的预设模型对所述图像样本及第二语种文本进行特征表示，得到第二特征向量集合；

确定单元，用于基于所述第一特征向量集合及第二特征向量集合，确定所述预设模型对应的图文对比损失值、图像特征损失值和文本特征损失值；

训练单元，用于根据所述图文对比损失值、图像特征损失值及文本特征损失值对所述预设模型进行联合监督训练，得到训练后的第二目标语种模型；

识别单元，用于通过所述第二目标语种模型对第二语种的图文信息进行识别。

在一些实施方式中，所述确定单元，还用于：

根据所述第一特征向量集合中的第一图像特征向量和第一文本特征向量，确定所述第一目标语种模型对应的第一图文损失值；

根据所述第二特征向量集合中的第二图像特征向量和第二文本特征向量，确定所述预设模型对应的第二图文损失值；

基于所述第一图文损失值和所述第二图文损失值确定图文对比损失值；

根据所述第一图像特征向量及所述第二图像特征向量，确定所述第一目标语种模型与所述预设模型之间的图像特征损失值；

根据所述第一文本特征向量及所述第二文本特征向量，确定所述第一目标语种模型与所述预设模型之间的文本特征损失值。

在一些实施方式中，所述确定单元，还用于：

对所述第一图像特征向量与所述第一文本特征向量之间进行余弦计算，得到第一相似度矩阵；

获取所述图像样本与所述第一语种文本之间的第一匹配关系矩阵，并计算所述第一匹配关系矩阵与所述第一相似度矩阵之间的交叉熵损失值；

根据所述交叉熵损失值确定所述第一目标语种模型对应的第一图文损失值。

在一些实施方式中，所述确定单元，还用于：

确定所述第一文本特征向量及所述第二文本特征向量中包含的文本特征参数的多个位置系数；

从所述第一文本特征向量中提取每一位置系数对应的第一文本特征子参数，以及从所述第二文本特征向量中提取每一位置系数对应的第二文本特征子参数；

确定每一位置系数对应的第一文本特征子参数和第二文本特征子参数之间的文本特征差异参数，并计算所述文本特征差异参数的一阶范数值；

对所有的一阶范数值进行求和处理，得到所述第一目标语种模型与所述预设模型之间的文本特征损失值。

在一些实施方式中，所述训练单元，还用于：

对所述第一图文损失值、第二图文损失值、图像特征损失值及文本特征损失值进行加权求和，得到所述预设模型的蒸馏损失值；

根据所述蒸馏损失值对所述预设模型进行联合监督训练，得到训练后的第二目标语种模型。

在一些实施方式中，所述训练单元，还用于：

根据所述蒸馏损失值更新所述预设模型的网络参数，得到中间预设模型作为下一次迭代训练的模型；

重复执行更新中间预设模型的步骤，直至所述蒸馏损失值收敛，将收敛状态下的中间预设模型作为训练后的第二目标语种模型。

在一些实施方式中，所述预训练后的第一目标语种模型包括图像编码模块和文本编码模块，所述第一编码单元，还用于：

通过所述图像编码模块对所述图像样本进行编码处理，得到第一图像特征向量；

通过所述文本编码模块对所述第一语种文本进行编码处理，得到第一文本特征向量；

根据所述第一图像特征向量和所述第一文本特征向量，构建第一特征向量集合。

在一些实施方式中，所述第二语种的图文信息包括待识别图像，所述识别单元，还用于：

通过所述第二目标语种模型中的图像编码模块对所述待识别图像进行编码处理，得到图像编码特征；

通过所述第二目标语种模型中的图文特征关系，确定所述图像编码特征对应的文本编码特征；

通过所述第二目标语种模型中的文本解码模块对所述文本编码特征进行解码处理，得到所述待识别图像对应的第二语种文本信息。

在一些实施方式中，所述第二语种的图文信息包括待识别的第二语种文本，所述识别单元，还用于：

通过所述第二目标语种模型对所述待识别的第二语种文本进行编码处理，得到所述第二语种文本对应的文本编码特征；

基于所述第二目标语种模型中的图文特征关系，确定所述文本编码特征对应的图像编码特征；

对所述图像编码特征进行解码处理，并通过所述第二目标语种模型中的全连接层对解码处理后的图像特征向量进行分类处理，得到与所述第二语种文本匹配的目标图像。

此外，本申请实施例还提供一种计算机设备，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器用于运行所述存储器内的计算机程序实现本申请实施例提供的任一种信息识别方法中的步骤。

此外，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例所提供的任一种信息识别方法中的步骤。

此外，本申请实施例还提供一种计算机程序产品，包括计算机指令，所述计算机指被执行时实现本申请实施例所提供的任一种信息识别方法中的步骤。

本申请实施例可以获取图文样本对，图文样本对包含图像样本、图像样本对应的第一语种文本和第二语种文本；通过预训练后的第一目标语种模型对图像样本及第一语种文本进行特征表示，得到第一特征向量集合；通过待训练的预设模型对图像样本及第二语种文本进行特征表示，得到第二特征向量集合；基于第一特征向量集合及第二特征向量集合，确定预设模型对应的图文对比损失值、图像特征损失值和文本特征损失值；根据图文对比损失值、图像特征损失值及文本特征损失值对预设模型进行联合监督训练，得到训练后的第二目标语种模型；通过第二目标语种模型对第二语种的图文信息进行识别。由此可得，本方案可通过预训练后的第一目标语种模型对第一语种文本和样本图像进行表征，且通过待训练的预设模型对图像样本及第二语种文本进行特征表示，以根据两者的图文中间特征来确定预设模型在表征时的图文对比损失、图像特征损失及文本特征损失，进而联合各类损失作为监督信号对预设模型进行监督训练，可在图文样本量较小时避免模型出现过拟合；同时，实现以跨语种的模型训练方式对预设模型进行图文学习训练，保证模型对第二语种图文信息的识别性能，使得训得到的第二目标语种模型可满足用户对其他语种图文信息识别的需求，提高用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的信息识别系统的场景示意图；

图2是本申请实施例提供的信息识别方法的步骤流程示意图；

图3是本申请实施例提供的信息识别方法的另一步骤流程示意图；

图4是本申请实施例提供的模型多模态跨语言知识蒸馏的图文训练框架的结构示意图；

图5为申请实施例提供的模型多模态跨语言知识蒸馏的图文训练场景示意图；

图6是本申请实施例提供的信息识别装置的结构示意图；

图7是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种信息识别方法、装置以及计算机可读存储介质。具体地，本申请实施例将从信息识别装置的角度进行描述，该信息识别装置具体可以集成在计算机设备中，该计算机设备可以是服务器，也可以是用户终端等设备。其中，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。其中，用户终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能家电、车载终端、智能语音交互设备、飞行器等，但并不局限于此。

本申请实施例提供的信息识别方法可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等信息识别的场景，这些场景不限于通过云服务、大数据等方式实现，具体通过如下实施例进行说明:

例如，参见图1，为本申请实施例提供的信息识别系统的场景示意图。该场景包括终端或服务器。

终端或服务器可以获取图文样本对，图文样本对包含图像样本、图像样本对应的第一语种文本和第二语种文本；通过预训练后的第一目标语种模型对图像样本及第一语种文本进行特征表示，得到第一特征向量集合；通过待训练的预设模型对图像样本及第二语种文本进行特征表示，得到第二特征向量集合；基于第一特征向量集合及第二特征向量集合，确定预设模型对应的图文对比损失值、图像特征损失值和文本特征损失值；根据图文对比损失值、图像特征损失值及文本特征损失值对预设模型进行联合监督训练，得到训练后的第二目标语种模型；通过第二目标语种模型对第二语种的图文信息进行识别。

其中，信息识别过程可以包括：获取图文样本对、通过编码对图文特征表示、基于特征表示确定损失、联合损失进行监督训练及信息识别等方式。

以下分别进行详细说明。需说明的是，以下实施例的顺序不作为对实施例优选顺序的限定。

在本申请实施例中，将从信息识别装置的角度进行描述，以该信息识别装置具体可以集成在计算机设备如终端或服务器中。参见图2，图2为本申请实施例提供的一种信息识别方法的步骤流程示意图，本申请实施例以信息识别装置具体集成在服务器上为例，服务器上的处理器执行信息识别方法对应的程序指令时，具体流程如下：

101、获取图文样本对。

其中，该图文样本对可以是包含内容信息相匹配的图像与文本的样本数据，用作模型学习训练过程的训练数据；为了便于描述，本申请实施例将图像和对应的文本合称为“图文”或“图文信息”。例如，以赛车对应的图文为例，图像所展示的内容信息为“一辆红色的F1方程式赛车和一辆蓝色的F1方程式赛车在赛车道上并排”，而文本是“在F1方程式赛道上，有一辆红色F1方程式赛车与一辆蓝色F1方程式赛车处于并排位置，正在进行激烈比拼”，则该图像和文本可视为一组图文样本数据，并作为一个图文样本对，以用作模型训练数据。

此外，该图像样本对还可包含多组关联的图文样本数据；其中，在包含多组关联的图文样本数据时，各组图文样本数据之间可包含关联的同一个样本元素个体。具体的，为了实现以不同的语种的文本数据作为训练样本，可选择一张包含目标内容信息的图像作为图像样本，并针对该图像样本中的目标内容信息分别设定不同语言的描述文本，如设定中文的描述文本，以及设定英文或其他语言的描述文本，并将包括不同语言的描述文本分别作为文本样本，进而，分别将每一文本样本与图像样本作为一组图文样本数据，则各组图文样本数据之间的图像样本相同，即各组图文样本数据之间具有相同的样本元素个体。

在本申请实施例中，该图文样本对包含图像样本、图像样本对应的第一语种文本和第二语种文本，虽然相同图像样本下的第一语种文本和第二语种文本的语种不同，但两者对应的内容语义是一样，例如，“a boy walks on the street”为第一语种文本，“一个男孩在街上散步”为第二语种文本；需要说明的是，以第一语种为英文为例，第二语种可以是英文以外的其他语种，此处仅为示例，可根据实际情况设定。

本申请实施例为了训练得到用于目标语种图文信息识别的模型，在已有某一语种的图文信息识别模型情况下，选定符合规格需求的未训练模型，并设定用于模型训练过程的图文样本对作为训练数据，以通过已有语种图文信息识别模型在表征图文样本对数据时的中间特征信息对未训练模型进行监督训练，从而得到目标语种图文信息识别的模型，以用于后续目标语种的图文信息识别、识别后的分类等场景。

其中，在获取图文样本对时，可搜寻包含任意图像信息的图片作为图像样本数据，并查询该样本图像对应的一种或多种语言的描述文本作为文本样本数据，以将图像样本数据与对应的文本样本数据作为图文样本对。此外，还可预先搜寻包含目标图像信息对应的图像，并通过机器识别方式将图像中的目标图像信息转换为不同语种的描述文本，或者，通过人工编辑的方式设定样本图像中目标图像信息对应的不同语种的描述文本，以作为样本文本数据；进而建立每一语种的样本文本数据与样本图像之间的关联关系，并将该具有关联关系的样本文本数据与样本图像存储至预设图文数据库；从而，在获取图文样本对时，可从该预设图文数据库中选取具有关联关系的样本文本数据与样本图像作为图文样本对。

通过以上方式，可获取图文样本对，以用于后续的目标语种图文信息识别模型的学习训练，以便于后续对目标语种下的图文信息识别，具有可靠性。

102、通过预训练后的第一目标语种模型对图像样本及第一语种文本进行特征表示，得到第一特征向量集合。

其中，该特征表示可以是通过特征编码方式对图像或文本进行表示，以具体可用特征向量来表征图像或文本，以便于模型机器识别。

其中，该预训练后的第一目标语种模型可以是预先训练好的模型，如大规模图文预训练模型(Connecting Text and Images，CLIP)，其主要通过大量图文对的图文对比损失来训练得到，以用于预设语种的图文信息识别。在本申请实施例中，该预训练后的第一目标语种模型具体可以为预先训练好的英文语种图文信息识别模型，用于对英文语种下的图文信息的识别；其可用作参照模型，即教师模型。

需要说明的是，在本申请实施例在训练目标语种下的图文信息识别模型时，可采用跨语言的知识蒸馏方式来监督训练模型。具体的，为了训练得到用于目标语种图文信息识别的模型，需要设定一个预先训练好的特定语种的图文信息识别模型(第一目标语种模型)作为教师模型(神经网络)，并选定符合需求(如模型规格和/或语言)的待训练模型；进而，通过提取该教师模型在对相关语种的图文进行表征时的各模态表征映射，以及提取待训练模型在对目标语种的图文进行表征时的各模态表征映射，并根据两者的表征映射确定监督信息；最后，根据监督学习对需要训练的模型进行监督学习训练，以此，完成对目标语种下的图文信息识别模型的学习训练。因此，本申请实施例在预先训练的第一目标语种模型不符合目标语种的信息识别需求时，如该预先训练的模型适用于英文的图文信息识别，与中文图像信息识别需求不匹配时，可将该预先训练的模型作为教师模型，以用于对目标语种的待训练学生模型的监督训练。

在一些实施方式中，为了使得本申请实施例中的教师模型更符合目标语种场景数据，可对教师模型进行的网络参数进行微调；如，在步骤“通过预训练后的第一目标语种模型对图像样本及第一语种文本进行特征表示”之后，可以包括：根据第一特征向量集合中的第一图像特征向量和第一文本特征向量，确定第一目标语种模型对应的第一图文损失值；通过梯度下降算法对第一图文损失值进行梯度信息计算，得到对应的第一图文损失梯度信息；将第一图文损失梯度信息反向传播至第一目标语种模型，使得第一目标语种模型根据第一图文损失梯度信息调整网络参数，得到调整后的第一目标语种模型，以便于将基于该调整后的第一目标语种模型作为下一回合对预设模型迭代训练的教师模型。

在一些实施方式中，在得到教师模型后，可通过该教师模型对第一语种的图文样本进行特征表示，以便于获取确定中间特征。具体的，该预训练后的第一目标语种模型包括图像编码模块和第一语种的文本编码模块，步骤“通过预训练后的第一目标语种模型对图像样本及第一语种文本进行特征表示，得到第一特征向量集合”，可以包括：通过预训练后的第一目标语种模型中的图像编码模块对图像样本进行编码处理，得到第一图像特征向量；通过预训练后的第一目标语种模型中的文本编码模块对第一语种文本进行编码处理，得到第一文本特征向量；根据第一图像特征向量和第一文本特征向量，构建第一特征向量集合。

通过以上方式，可通过教师模型对相应语种的图文样本信息进行特征表示，以获取教师模型的中间特征，以便于后续确定学生模型在蒸馏学习过程中的损失。

103、通过待训练的预设模型对图像样本及第二语种文本进行特征表示，得到第二特征向量集合。

其中，该待训练的预设模型可以是本申请实施例在监督训练目标语种的图文信息识别模型时所采用的学生模型，该预设模型可以根据实际需求自由配置，如根据预先确定的模型规格配置；该预设模型可以采用base模型、small模型等。

在一些实施方式中，可通过该学生模型对第二语种的图文样本进行特征表示，以便于获取确定中间特征。具体的，步骤“通过待训练的预设模型对图像样本及第二语种文本进行特征表示，得到第二特征向量集合”，可以包括：通过图像编码模块对图像样本进行编码处理，得到第二图像特征向量；通过文本编码模块对第二语种文本进行编码处理，得到第二文本特征向量；根据第二图像特征向量和第二文本特征向量，构建第二特征向量集合。

具体的，为了对待训练的预设模型进行监督训练，首先需要了解该待训练预设模型在对目标语种的图文的表征情况，如通过待训练的预设模型对图像样本及第二语种文本进行特征表示，得到第二特征向量集合。其中，该待训练的预设模型包括图像编码模块和第二语种的文本编码模块，该文本编码模块至少包含预训练的第二语种语料库，或与该第二语种语料库是实现语料数据交互，该第二语种语料库用于文本编码模块在对第二语种文本进行编码处理时的文本语料识别及特征转化；具体的，通过待训练的预设模型中的图像编码模块对图像样本进行编码处理，得到第二图像特征向量；通过待训练的预设模型中的文本编码模块对第二语种文本进行编码处理，得到第二文本特征向量；根据第二图像特征向量和第二文本特征向量，构建第二特征向量集合。

通过以上方式，可通过待训练的学生模型分别对目标语种的图文样本信息进行特征表示，并获取学生模型的中间特征，以便于后续根据教师模型与学生模型两者的中间特征来确定学生模型(待训练的预设模型)对应的蒸馏损失。

104、基于第一特征向量集合及第二特征向量集合，确定预设模型对应的图文对比损失值、图像特征损失值和文本特征损失值。

在本申请实施例中，在通过第一目标语种模型及待训练的预设模型获取到相应语种的图文表征信息，可根据两者模型的图文表征信息之间的差异来确定该待训练的预设模型在对图文信息进行特征表示时的损失情况。

其中，该图文对比损失值可以是模型对图文信息进行表征后所得到的图像特征向量与文本特征向量之间的特征对比差异值，其反映了相应图文模型在对图像和文本进行特征表示时的对齐状态，可用于后续对待训练的学生模型(即预设模型)中就特征表示方面及其他相关方面进行监督。需要说明的是，该图文对比损失值可包括教师模型在对图文信息进行特征表示时的对比学习损失，以及学生模型在对目标语种的图文信息进行特征表示时的对比学习损失；如，在本申请实施例中，该图文对比损失值由第一目标语种模型的第一图文损失值和预设模型的第二图文损失值共同确定。

其中，该图像特征损失值可以是教师模型所表征的图像特征向量与学生模型所表征的图像特征向量之间的图像特征损失，其可反映教师模型与学生模型之间在图像特征表示上的差异，以用于学生模型在图像特征表示方面的监督学习。在本申请实施例中，该图像特征损失值为第一目标语种模型所表征的第一图像特征向量与待训练预设模型所表征的第二图像特征向量之间的图像特征损失差异，其反映了第一目标语种模型与待训练预设模型之间在图像特征表示上的差异。

其中，该文本特征损失值可以是教师模型所表征的文本特征向量与学生模型所表征的文本特征向量之间的文本特征损失，其反映教师模型与学生模型之间在文本特征表示上的差异，可用于学生模型在文本特征表示方面的监督学习。在本申请实施例中，该文本特征损失值为第一目标语种模型所表征的第一文本特征向量与待训练预设模型所表征的第二文本特征向量之间的文本特征损失差异，其反映了第一目标语种模型与待训练预设模型之间在文本特征表示上的差异。

在本申请实施例中，在得到第一目标语种模型的第一特征向量集合和第二目标语种模型的第二特征向量集合，可根据这两个特征集合中间特征确定待训练的预设模型的蒸馏损失，该蒸馏损失包括第一目标语种模型的第一图文对比损失、预设模型的图文对比损失、第一目标语种模型与预设模型之间的图像特征损失和文本特征损失。

在一些实施方式中，为了确定待训练的预设模型在学习训练过程中的监督信号，本申请实施例在通过知识蒸馏方式对预设模型进行监督训练时，可根据第一目标语种模型(教师模型)表征的第一特征向量集合和预设模型(学生模型)表征的第二特征向量集合来计算所要确定的监督信号。

其中，该第一特征向量集合包含第一图像特征向量和第一文本特征向量，该第二特征向量集合包括第二图像特征向量和第二文本特征向量；具体的，步骤104“基于第一特征向量集合及第二特征向量集合，确定预设模型对应的图文对比损失值、图像特征损失值和文本特征损失值”，可以包括：

(104.1)根据第一特征向量集合中的第一图像特征向量和第一文本特征向量，确定第一目标语种模型对应的第一图文损失值。

其中，该第一图文损失值可以是第一目标语种模型在所表征得到的第一文本特征向量与第一图像特征向量之间的图文特征对比损失，反映模型在表征图像样本与第一语种文本时图文特征的对齐状态。

在本申请实施例中，在确定第一目标语种模型在分别对图像样本和第一语种文本进行表征的特征对齐状态时，可将第一目标语种模型在表征图像样本时得到的第一图像特征向量与表征第一语种文本时得到的第一文本特征向量进行特征对比，以得到第一目标语种模型在表征图文时的图文对比损失，即第一图文损失值。具体的，步骤(104.1)“根据第一特征向量集合中的第一图像特征向量和第一文本特征向量，确定第一目标语种模型对应的第一图文损失值”，可以包括：对第一图像特征向量与第一文本特征向量之间进行余弦计算，得到第一相似度矩阵；获取图像样本与第一语种文本之间的第一匹配关系矩阵，并计算匹配关系矩阵与第一相似度矩阵之间的交叉熵损失值；根据交叉熵损失值确定第一目标语种模型对应的第一图文损失值。

其中，该第一匹配关系矩阵可以是图像样本与第一语种文本之间真实的图文关系特征矩阵，其包含图像样本与第一语种文本之间真实图文关系的特征向量。例如，模型训练过程中批量(batch)处理内的第一语种文本与图像样本之间图文对应关系的特征矩阵，由于图像样本与第一语种文本之间具有实际的一对一匹配关系，该真实的第一匹配关系矩阵中特征向量所呈现的是特征对角矩阵。

需要说明的是，由于作为教师模型的第一目标语种模型，其在预训练时的数据通过不可获取，训练方式可能与蒸馏训练方式不同，这可能会导致预训练第一目标语种模型的场景数据与当前待训练的预设模型的场景数据不一致，即教师模型与学生模型之间不处于同一图文训练数据维度，而教师模型与学生模型之间在场景数据上的差异可能影响该预设模型后续的训练效果。因此，为了使得预设模型经过蒸馏学习后达到预期效果，本申请实施例在通过第一目标语种模型对学生模型(预设模型)进行监督训练时，采用相同的图像样本以及不同语种文本样本对模型进行蒸馏训练，以根据第一目标语种模型的图文对比损失(第一图文损失值)调整其模型参数，实现采用小学习率方式更新第一目标语种模型的模型参数，使得第一目标语种模型适配于特定的目标场景数据；进而，后续可将该第一图文损失值作为预设模型的蒸馏学习损失因素，并将其加入学生模型(预设模型)的蒸馏损失中，以使得学生模型在蒸馏学习过程中与教师模型处于相同的图文识别场景数据，使得预设模型后续在经过蒸馏学习后达到预期效果，具有可靠性。

(104.2)根据第二特征向量集合中的第二图像特征向量和第二文本特征向量，确定预设模型对应的第二图文损失值。

其中，该第二图文损失值可以是第二目标语种模型在所表征得到的第二文本特征向量与第二图像特征向量之间的图文特征对比损失，反映模型在表征图像样本与第二语种文本时图文特征的对齐状态。

为了确定预设模型在分别对图像样本和第二语种文本进行表征时的特征对齐状态，可将预设模型在表征图像样本时得到的第二图像特征向量与表征第二语种文本时得到的第二文本特征向量进行特征对比，以得到预设模型在表征图文时的图文对比损失，即第二图文损失值。

具体的，步骤(104.2)“根据第二特征向量集合中的第二图像特征向量和第二文本特征向量，确定预设模型对应的第二图文损失值”，可以包括：根据第二特征向量集合中的第二图像特征向量和第二文本特征向量，确定第二目标语种模型对应的第二图文损失值”，可以包括：对第二图像特征向量与第二文本特征向量之间进行余弦计算，得到第二相似度矩阵；获取图像样本与第二语种文本之间的第二匹配关系矩阵，并计算匹配关系矩阵与第二相似度矩阵之间的交叉熵损失值；根据交叉熵损失值确定第二目标语种模型对应的第二图文损失值。

其中，该第二匹配关系矩阵可以是图像样本与第二语种文本之间真实的图文关系特征矩阵，其包含图像样本与第二语种文本之间真实图文关系的特征向量。例如，模型训练过程中批量(batch)处理内的图像样本与对应的第二语种文本之间图文对应关系的特征矩阵，由于图像样本与第二语种文本之间具有实际的一对一匹配关系，该真实的第二匹配关系矩阵中特征向量所呈现的是特征对角矩阵。

通过计算待训练预设模型在表征图像和文本时的第二图文损失值，可反映待训练预设模型在表征图像样本和第二语种文本之间的图文特征对齐状态，以便于后续将该第二图文损失值加入预设模型蒸馏学习过程的蒸馏损失值中，对预设模型的图文对齐关系进行监督学习，以使得预设模型经过蒸馏训练后的图文对齐表征能力得以提高。

(104.3)基于第一图文损失值和第二图文损失值确定图文对比损失值。

其中，该图文对比损失值可由第一目标语种模型在表征图文信息时的第一图文损失值和预设模型在表征图文信息时的第二图文损失值通过计算得到。

具体的，根据第一图文损失值和第二图文损失值计算预设模型的图文对比损失值，可反映了待训练预设模型与第一目标语种模型之间在特征表示时图文对其主体上的差异，以便于后续将该图文对比损失值加入预设模型蒸馏学习过程的蒸馏损失值中，对预设模型的图文对其状态进行监督学习，以使得预设模型经过蒸馏训练后的图文对齐能力得以提高。

(104.4)根据第一图像特征向量及第二图像特征向量，确定第一目标语种模型与预设模型之间的图像特征损失值。

为了确定第一目标语种模型和预设模型在表征图像样本时两者特征之间的损失，可根据第一目标语种模型所表征的第一图像特征向量与待训练预设模型所表征的第二图像特征向量之间的差异确定。具体的，步骤(104.4)“根据第一图像特征向量及第二图像特征向量，确定第一目标语种模型与预设模型之间的图像特征损失值”，可以包括：确定第一图像特征向量及第二图像特征向量中包含的图像特征参数的多个图像特征位置系数；从第一图像特征向量中提取每一图像特征位置系数对应的第一图像特征子参数，以及从第二图像特征向量中提取每一图像特征位置系数对应的第二图像特征子参数；确定每一图像特征位置系数对应的第一图像特征子参数和第二图像特征子参数之间的图像特征差异参数，并计算图像特征差异参数的一阶范数值；对所有的一阶范数值进行求和处理，得到第一目标语种模型与预设模型之间的图像特征损失值。

其中，该图像特征参数可以是图像特征向量中的特征子参数，如，第一图像特征向量中包含的图像特征子参数，以及第二图像特征向量中包含的图像特征子参数；该图像特征参数可以是数值、字符串、编码等形式，此处不做限定。

其中，图像特征位置系数可以是图像特征参数在相关特征向量中的位置。例如，以模型训练过程中批量(batch)处理为例，该batch中包含多个图像样本，该图像特征位置系数表示被第一目标语种模型和预设模型编码处理的图像样本在各自图像特征向量中的位置，同时，该图像特征位置系数也可表示被编码的图像样本在多个图像样本(batch)中的位置标号、顺序或次序等，可以理解的是，第一目标语种模型和预设模型在蒸馏学习过程中的同一时间可仅对同一个图像样本进行编码处理，并将编码得到的图像特征子参数加入至各自对应的图像特征向量中，且该得到的第一图像特征向量和第二图像特征向量中同一位置系数的图像特征子参数与同一个图像样本相对应。

通过计算第一目标语种模型所表征的第一图像特征向量与待训练预设模型所表征的第二图像特征向量之间的图像特征损失值，可反映了第一目标语种模型与待训练预设模型之间在图像特征表示上的图像特征差异，以便于后续将该图像特征损失值加入预设模型蒸馏学习过程的蒸馏损失值中，对预设模型的图像表征进行监督学习，以使得预设模型经过蒸馏训练后的图像表征能力得以提高。

(104.5)根据第一文本特征向量及第二文本特征向量，确定第一目标语种模型与预设模型之间的文本特征损失值。

为了确定第一目标语种模型和预设模型在表征文本样本时两者特征之间的损失，可根据第一目标语种模型所表征的第一文本特征向量与待训练预设模型所表征的第二文本特征向量之间的差异确定。

具体的，步骤(104.5)“根据第一文本特征向量及第二文本特征向量，确定第一目标语种模型与预设模型之间的文本特征损失值”，可以包括：确定第一文本特征向量及第二文本特征向量中包含的文本特征参数的多个位置系数；从第一文本特征向量中提取每一位置系数对应的第一文本特征子参数，以及从第二文本特征向量中提取每一位置系数对应的第二文本特征子参数；确定每一位置系数对应的第一文本特征子参数和第二文本特征子参数之间的文本特征差异参数，并计算文本特征差异参数的一阶范数值；对所有的一阶范数值进行求和处理，得到第一目标语种模型与预设模型之间的文本特征损失值。

其中，该文本特征参数可以是文本特征向量中的特征子参数，如，第一文本特征向量中包含的文本特征子参数，以及第二文本特征向量中包含的文本特征子参数；该文本特征参数可以是数值、字符串、编码等形式，此处不做限定。

其中，位置系数可以是文本特征参数在相关特征向量中的位置。例如，以模型训练过程中批量(batch)处理为例，该batch中包含多个文本样本，该位置系数表示被第一目标语种模型和预设模型编码处理的文本样本在各自文本特征向量中的位置，同时，该位置系数也可表示被编码的文本样本在多个文本样本(batch)中的位置标号、顺序或次序等，可以理解的是，第一目标语种模型和预设模型在蒸馏学习过程中的同一时间可仅对同一个文本样本进行编码处理，并将编码得到的文本特征子参数加入至各自对应的文本特征向量中，且该得到的第一文本特征向量和第二文本特征向量中同一位置系数的文本特征子参数与同一文本样本相对应。

通过计算第一目标语种模型所表征的第一文本特征向量与待训练预设模型所表征的第二文本特征向量之间的文本特征损失值，可反映了第一目标语种模型与待训练预设模型之间在文本特征表示上的文本特征差异，以便于后续将该文本特征损失值加入预设模型蒸馏学习过程的蒸馏损失值中，对预设模型的文本表征进行监督学习，以使得预设模型经过蒸馏训练后的文本表征能力得以提高。

通过以上方式，可在获得第一特征向量集合及第二特征向量集合这两者之间特征后，通过计算第一语种模型的图文对比损失、待训练的预设模型的图文对比损失、第一语种模型与预设模型之间的图像特征损失、第一语种模型与预设模型之间的文本特征损失等，实现根据两者模型的中间特征差异来计算多个损失值，从而，确定该待训练的预设模型在对图文信息进行特征表示时的损失情况，并作为监督信号，以便于后续基于监督信号对待训练的预设模型进行监督训练，加快预设模型的收敛，提高训练效率。

105、根据图文对比损失值、图像特征损失值及文本特征损失值对预设模型进行联合监督训练，得到训练后的第二目标语种模型。

其中，该第二目标语种模型可以是用于识别目标语种的图文信息的模型。具体的，在本申请实施例中，该第二目标语种模型为由学生模型(如base模型或small模型等)及第二语种文本和图像样本蒸馏学习得到，可用于识别第二语种的图文信息。

为了蒸馏学习得到目标语种的图文信息识别模型，本申请实施例在得到第一图文损失值、第二图文损失值、图像特征损失值和文本特征损失值后，可根据以上损失值对待训练预设模型进行蒸馏学习训练，以得到训练后的第二目标语种模型，用于后续对目标语种的图文信息进行识别。

在一些实施方式中，在对预设模型进行蒸馏训练前，可先确定预设模型在对应的蒸馏学习流程中的蒸馏损失值，以作为监督信号对预设模型进行监督学习。具体的，步骤105“根据图文对比损失值、图像特征损失值及文本特征损失值对预设模型进行联合监督训练，得到训练后的第二目标语种模型”，可以包括：

(105.1)对第一图文损失值、第二图文损失值、图像特征损失值及文本特征损失值进行加权求和，得到预设模型的蒸馏损失值。

其中，该蒸馏损失值是预设模型在对图像样本和第二语种文本进行表征时的特征损失，其具体可理解为未进行监督学习的预设模型在对图文信息进行表征的总损失值；该蒸馏损失值可由第一图文损失值、第二图文损失值、图像特征损失值及文本特征损失值进行加权求和计算得到。

需要说明的是，在计算蒸馏损失值时，可根据一个或多个权重值分别对各损失值进行加权计算，以准确计算预设模型当前的蒸馏损失值。具体的，可根据第一图文损失值、第二图文损失值、图像特征损失值及文本特征损失值的实际情况来确定各损失值的相应权重，此外，还可根据预设损失权重值列表中各类损失值来选取相应的权重值；进而，根据确定的权重值对相应的损失值进行加权，以计算得到预设模型在蒸馏学习过程中的蒸馏损失值。

(105.2)根据蒸馏损失值对预设模型进行联合监督训练，得到训练后的第二目标语种模型。

为了得到第二目标语种的图文信息识别模型，本申请实施例在确定预设模型的蒸馏损失值后，可该蒸馏损失值作为监督信号，对待训练的预设模型进行监督学习。具体的，步骤(105.2)“根据蒸馏损失值对预设模型进行联合监督训练，得到训练后的第二目标语种模型”，可以包括：根据蒸馏损失值更新预设模型的网络参数，得到中间预设模型作为下一次迭代训练的模型；重复执行更新中间预设模型的步骤，直至蒸馏损失值收敛，将收敛状态下的中间预设模型作为训练后的第二目标语种模型。

进一步的，在更新待训练的预设模型的网络参数后，可根据更新后的中间预设模型在表征图像样本和第二语种文本时的特征损失情况来确定是否继续对中间预设模型进行网络参数的更新。具体的，在得到更新后的中间预设模型后，获取该中间预设模型在表征图像样本及第二语种文本时的蒸馏损失值，该蒸馏损失值的获取过程可参见本申请实施例中步骤104的具体叙述，此处不作进一步赘述；进而，将该当前的蒸馏损失值与预设损失阈值进行对比，若当前的蒸馏损失值小于预设损失阈值，则确定当前的蒸馏损失值收敛，并将当前处于收敛状态下的中间预设模型确定为第二目标语种模型；反之，若当前的蒸馏损失值大于或等于预设损失阈值，则重复执行更新中间预设模型的步骤，直至对应的蒸馏损失值收敛，并将收敛状态下的中间预设模型作为训练后的第二目标语种模型。

通过以上方式，可在根据图文对比损失值、图像特征损失值及文本特征损失值确定预设模型在表征图像样本和第二语种文本时的蒸馏损失值，以增强模型训练学习过程的监督信号；进而，将蒸馏损失值作为监督信号对预设模型进行蒸馏学习，可在图文样本量较小时避免模型出现过拟合的现象，且实现由第一语种到第二语种的模型跨语言蒸馏学习训练，加快预设模型训练收敛速度，使得训练得到的第二目标语种模型可识别相应语种的图文信息，以便于后续满足用户对其他语种图文信息的识别需要。

106、通过第二目标语种模型对第二语种的图文信息进行识别。

具体的，在得到训练后的第二目标语种模型后，可通过该第二目标语种模型对第二语种的图文信息进行识别，实现与图文信息识别相关的应用场景，例如，图文互搜、图文识别、图文分类、图文标签识别等应用场景。

在一些实施方式中，图文信息识别场景可包括图文互搜场景，如通过图像搜索对应的文本。具体的，该第二语种信息包括待识别图像，步骤“通过第二目标语种模型对第二语种的图文信息进行识别”，可以包括：通过第二目标语种模型中的图像编码模块对待识别图像进行编码处理，得到图像编码特征；通过第二目标语种模型中的图文特征关系，确定图像编码特征对应的文本编码特征；通过第二目标语种模型中的文本解码模块对文本编码特征进行解码处理，得到待识别图像对应的第二语种文本信息。其中，该第二语种文本信息可以是与待识别图像中图像内容信息一致的文本信息。

在一些实施方式中，图文信息识别场景可包括图文互搜场景，如通过文本搜索对应的图像。具体的，该第二语种信息包括待识别的第二语种文本，步骤“通过第二目标语种模型对第二语种的图文信息进行识别”，可以包括：通过第二目标语种模型对待识别的第二语种文本进行编码处理，得到第二语种文本对应的文本编码特征；基于第二目标语种模型中的图文特征关系，确定文本编码特征对应的图像编码特征；对图像编码特征进行解码处理，并通过第二目标语种模型中的全连接层对解码处理后的图像特征向量进行分类处理，得到与第二语种文本匹配的目标图像。其中，该目标图像包含与待识别的第二语种文本的文本内容相匹配的图像内容信息。

在本申请实施例中，可设定图像样本以及该图像样本对应的两个不同语种的文本，其中，这两个不同语种文本包括教师模型可识别语种的文本和需要训练得到目标语种的文本，作为图文样本对，以用于知识蒸馏中对学生模型跨语言训练；进而，获取教师模型在表征图像样本及相应语种文本时的中间特征，以及获取学生模型在表征图像样本及另一语种文本对应的中间特征，并根据这教师模型的中间特征和学生模型的中间特征确定学生模型的多个损失值，并根据多个损失值确定学生模型蒸馏学习过程的监督信号，可实现以较小图文样本量监督训练预设模型时避免模型出现过拟合现象；进而，根据监督信号对学生模型进行监督训练，使得监督训练后的学生模型学习得到教师模型上的图文表征能力，实现跨语言的知识蒸馏，得到相应目标语种的图文信息识别模型，即第二目标语种模型，实现后续对第二语种的图文信息进行识别，以用于后续与目标语种相关的图文信息识别需求，提高用户体验。

由上可知，本申请实施例可以获取图文样本对，图文样本对包含图像样本、图像样本对应的第一语种文本和第二语种文本；通过预训练后的第一目标语种模型对图像样本及第一语种文本进行特征表示，得到第一特征向量集合，并通过待训练的预设模型对图像样本及第二语种文本进行特征表示，得到第二特征向量集合；基于第一特征向量集合及第二特征向量集合，确定预设模型对应的图文对比损失值、图像特征损失值和文本特征损失值；根据图文对比损失值、图像特征损失值及文本特征损失值对预设模型进行联合监督训练，得到训练后的第二目标语种模型；通过第二目标语种模型对第二语种的图文信息进行识别。由此可得，本方案可通过预训练后的第一目标语种模型对第一语种文本和样本图像进行表征，且通过待训练的预设模型对图像样本及第二语种文本进行特征表示，以根据两者的图文中间特征来确定预设模型在表征时的图文对比损失、图像特征损失及文本特征损失，进而联合各类损失作为监督信号对预设模型进行监督训练，可在图文样本量较小时避免模型出现过拟合；同时，实现以跨语种的模型训练方式对预设模型进行图文类学习训练，保证模型对第二语种图文信息的识别性能，使得训练后的第二目标语种模型可满足用户对其他语种图文信息识别的需求，提高用户体验。

根据上面实施例所描述的方法，以下将举例作进一步详细说明。

本申请实施例以数据处理为例，对本申请实施例提供的数据处理方法作进一步叙述。

图3是本申请实施例提供的信息识别方法的另一步骤流程示意图，图4是本申请实施例提供的模型多模态跨语言知识蒸馏的图文训练框架的结构示意图，图5为申请实施例提供的模型多模态跨语言知识蒸馏的图文训练场景示意图。为了便于理解，本申请实施例结合图3-5进行描述。

在本申请实施例中，将从信息识别装置的角度进行描述，该信息识别装置具体可以集成在计算机设备如终端或服务器中。例如，该计算机设备上的处理器执行信息识别方法对应的程序时，该信息识别方法的具体流程如下：

201、获取图文样本对。

其中，该图文样本对可以是包含内容信息相匹配的图像与文本的样本数据，用作模型学习训练过程的训练数据。例如，以赛车对应的图文为例，图像所展示的内容信息为“一辆红色的F1方程式赛车和一辆蓝色的F1方程式赛车在赛车道上并排”，而文本是“在F1方程式赛道上，有一辆红色F1方程式赛车与一辆蓝色F1方程式赛车处于并排位置，正在进行激烈比拼”，则该图像和文本可视为一组图文样本数据。

需要说明的是，该图像样本对可包含多组关联的图文样本数据；其中，在包含多组关联的图文样本数据时，各组图文样本数据之间可包含关联的同一个样本元素个体。

本申请实施例为了实现模型之间的跨语言的知识蒸馏训练，在设定图文样本对时，可选择一张包含目标内容信息的图像作为图像样本，并针对该图像样本中的目标内容信息分别设定不同语言的描述文本，如设定中文的描述文本，以及设定英文或其他语言的描述文本，并将该不同语言的描述文本分别作为文本样本，进而，分别将每一文本样本与图像样本作为一组图文样本数据。以此，使得图文样本对包含图像样本、图像样本对应的第一语种文本和第二语种文本，具体的，以第一语种为英文为例，第二语种可以是中文。

202、通过预训练后的第一目标语种模型对图像样本及第一语种文本进行特征表示，得到第一图像特征向量和第一文本特征向量。

其中，该预训练后的第一目标语种模型可以是预先训练好的模型，如大规模图文预训练模型(Connecting Text and Images，CLIP)，其可为预先训练好的英文语种图文信息识别模型，用于对英文语种下的图文信息的识别。在本申请实施例中该预训练后的第一目标语种模型可用作监督模型或教师模型。

具体的，为了训练得到用于目标语种图文信息识别的模型，需要设定一个预先训练好的特定语种的第一目标语种模型作为教师模型(神经网络)；进而，通过提取该预训练后的第一目标语种模型在对相关语种的图文进行表征时的各模态表征映射，得到该预训练后的第一目标语种模型在表征图像样本和第一语种文本时的中间特征，即图像样本对应的第一图像特征向量和第一语种文本对应的第一文本特征向量，以用于后续确定待训练学生模型的损失。

203、通过待训练的预设模型对图像样本及第二语种文本进行特征表示，得到第二图像特征向量和第二文本特征向量。

具体的，该待训练的预设模型包括图像编码模块和第二语种的文本编码模块，该文本编码模块至少包含预训练的第二语种语料库；通过待训练的预设模型中的图像编码模块对图像样本进行编码处理，得到第二图像特征向量；通过待训练的预设模型中的文本编码模块对第二语种文本进行编码处理，得到第二文本特征向量；根据第二图像特征向量和第二文本特征向量。

204、根据第一特征向量集合中的第一图像特征向量和第一文本特征向量，确定第一目标语种模型对应的第一图文损失值。

具体的，对第一图像特征向量与第一文本特征向量之间进行余弦计算，得到第一相似度矩阵；获取图像样本与第一语种文本之间的第一匹配关系矩阵，其中，该第一匹配关系矩阵可以是图像样本与第一语种文本之间真实的图文关系特征矩阵，其包含图像样本与第一语种文本之间真实图文关系的特征向量，例如，模型训练过程中批量(batch)处理内的第一语种文本与图像样本之间图文对应关系的特征矩阵，由于图像样本与第一语种文本之间具有实际的一对一匹配关系，该真实的第一匹配关系矩阵中特征向量所呈现的是特征对角矩阵；进而，计算匹配关系矩阵与第一相似度矩阵之间的交叉熵损失值；根据交叉熵损失值确定第一目标语种模型对应的第一图文损失值。

205、根据第二特征向量集合中的第二图像特征向量和第二文本特征向量，确定预设模型对应的第二图文损失值。

具体的，对第二图像特征向量与第二文本特征向量之间进行余弦计算，得到第二相似度矩阵；获取图像样本与第二语种文本之间的第二匹配关系矩阵，并计算匹配关系矩阵与第二相似度矩阵之间的交叉熵损失值；根据交叉熵损失值确定第二目标语种模型对应的第二图文损失值。

206、根据第一图像特征向量及第二图像特征向量，确定第一目标语种模型与预设模型之间的图像特征损失值。

在本申请实施例中，该图像特征损失值为第一目标语种模型所表征的第一图像特征向量与待训练预设模型所表征的第二图像特征向量之间的图像特征损失差异，其反映了第一目标语种模型与待训练预设模型之间在图像特征表示上的差异。

具体的，确定第一图像特征向量及第二图像特征向量中包含的图像特征参数的多个图像特征位置系数；从第一图像特征向量中提取每一图像特征位置系数对应的第一图像特征子参数，以及从第二图像特征向量中提取每一图像特征位置系数对应的第二图像特征子参数；确定每一图像特征位置系数对应的第一图像特征子参数和第二图像特征子参数之间的图像特征差异参数，并计算图像特征差异参数的一阶范数值；对所有的一阶范数值进行求和处理，得到第一目标语种模型与预设模型之间的图像特征损失值。

207、根据第一文本特征向量及第二文本特征向量，确定第一目标语种模型与预设模型之间的文本特征损失值。

在本申请实施例中，该文本特征损失值为第一目标语种模型所表征的第一文本特征向量与待训练预设模型所表征的第二文本特征向量之间的文本特征损失差异，其反映了第一目标语种模型与待训练预设模型之间在文本特征表示上的差异。

具体的，确定第一文本特征向量及第二文本特征向量中包含的文本特征参数的多个位置系数；从第一文本特征向量中提取每一位置系数对应的第一文本特征子参数，以及从第二文本特征向量中提取每一位置系数对应的第二文本特征子参数；确定每一位置系数对应的第一文本特征子参数和第二文本特征子参数之间的文本特征差异参数，并计算文本特征差异参数的一阶范数值；对所有的一阶范数值进行求和处理，得到第一目标语种模型与预设模型之间的文本特征损失值。

208、对第一图文损失值、第二图文损失值、图像特征损失值及文本特征损失值进行加权求和，得到预设模型的蒸馏损失值。

在本申请实施例中，在对预设模型进行蒸馏训练前，可先确定预设模型在对应的蒸馏学习流程中的蒸馏损失值。具体的，该蒸馏损失值是预设模型在对图像样本和第二语种文本进行表征时的特征损失，其具体可理解为未进行监督学习的预设模型在对图文信息进行表征的总损失值；该蒸馏损失值可由第一图文损失值、第二图文损失值、图像特征损失值及文本特征损失值进行加权求和计算得到。进而，以便于后续将该蒸馏损失值作为监督信号对预设模型进行监督学习。

209、根据蒸馏损失值对预设模型进行联合监督训练，得到训练后的第二目标语种模型。

为了得到第二目标语种的图文信息识别模型，本申请实施例在确定预设模型的蒸馏损失值后，可该蒸馏损失值作为监督信号，对待训练的预设模型进行监督学习。具体的，通过梯度下降算法对蒸馏损失值进行梯度信息计算，得到对应的蒸馏损失梯度信息；将蒸馏损失梯度信息反向传播至待训练的预设模型，使得预设模型根据蒸馏损失梯度信息调整网络参数，得到更新后的中间预设模型。进一步的，获取该中间预设模型在表征图像样本及第二语种文本时的蒸馏损失值，该蒸馏损失值的获取过程可参见本申请实施例中前述步骤204-208的具体叙述；进而，将该当前的蒸馏损失值与预设损失阈值进行对比，若当前的蒸馏损失值小于预设损失阈值，则确定当前的蒸馏损失值收敛，并将当前处于收敛状态下的中间预设模型确定为第二目标语种模型；反之，若当前的蒸馏损失值大于或等于预设损失阈值，则重复执行更新中间预设模型的步骤，直至对应的蒸馏损失值收敛，并将收敛状态下的中间预设模型作为训练后的第二目标语种模型。

210、通过第二目标语种模型对第二语种的图文信息进行识别。

为了便于对本申请实施例的理解，将以具体的应用场景实例对本申请实施例进行描述。具体的，通过执行以上步骤201-210，以及结合图4和图5，对该应用场景实例进行描述。

本申请实施例的应用场景实例可包括跨语言的知识蒸馏的模型训练场景实例和监督训练后的模型的业务业务应用场景实例。为了便于理解，本申请实施例将分别对以上两个场景进行叙述，具体如下：

一、跨语言的知识蒸馏的模型训练场景实例：具体参见图4和图5，该多模态跨语言知识蒸馏的图文训练框架包括教师模型(即第一目标语种模型)和学生模型(待训练的预设模型)。

(1)该教师模型可以是CLIP、ALIGN、ALBEF、ViLT等，以大规模图文预训练模型(Connecting Text and Images，CLIP)作为教师模型，该教师模型可识别英文的图文信息；其中，该教师模型包括第一图像编码器(CLIP Image Encoder)和第一文本编码器(CLIPText Encoder)。具体的，通过第一图像编码器对“水果”图像进行编码处理，得到第一图像特征向量；以及，通过第一文本编码器对“水果”图像对应的英文文本(English Text)进行编码处理，得到第一文本特征向量。

(2)以base或small规格的模型作为学生模型为例，该学生模型可包括第二图像编码器(Student Image Encoder)和第二文本编码器(Student Text Encoder)，该第二文本编码器关联有中文语料库，使得该学生模型可用于识别中文语种的图文信息。具体的，通过第二图像编码器对“水果”图像进行编码处理，得到第二图像特征向量；以及，通过第二文本编码器对“水果”图像对应的中文文本(Chinese Text)进行编码处理，得到第二文本特征向量。

以上为教师模型和学生模型分别在对图像和对应的文本进行表征时的场景示例。此外，本模型训练场景实例还包括学生模型的损失计算场景示例，该损失值具体参见(3)-(6)。

(3)由于CLIP教师模型预训练数据不可获取，且不同于常规蒸馏训练方式，本模型训练场景实例在使用CLIP教师网络作为学生网络的监督信号时，采用小学习率更新教师网络的模型参数，以使得教师网络更加适配目标场景数据。具体的，教师网络在微调更新时同样采用对比学习损失，即第一图文损失值，该第一图文损失值可根据第一图像特征向量和第一文本特征向量计算得到；其中，该第一图文损失值的计算方式具体如下：

其中，表示教师模型的图像和文本特征相似度矩阵，Y_T表示真实的图文匹配关系矩阵。结合图5所示，T_I1,T_I2,T_I3,…,T_IN表示教师图像Encoder对一个batch中的每张图片编码之后得到的图像特征，T_T1,T_T2,T_T3,…,T_TN表示教师文本Encoder对一个batch中的每段文本编码之后得到的文本特征，这两组特征用于计算教师模型的图像和文本特征相似度矩阵/>

(4)为了保证学生模型在学习过程中适用于目标场景，本模型训练场景实例在学生网络上采用基本的对比学习损失，即第二图文损失值。具体的，根据学生模型的第二图像特征向量和第二文本特征向量计算第二图文损失值，该第二图文损失值具体计算方式如下：

其中，表示学生模型的图像和文本特征相似度矩阵，Y_s表示真实的图文匹配关系矩阵，axis取0或1分别代表对一个batch内的文本和图像特征相似度预测结果计算交叉熵损失。对应图2中，N表示一个batch中图片数量，S_I1,S_I2,S_I3,…,S_IN表示学生图像Encoder对该batch中的每张图片编码之后得到的图像特征，S_T1,S_T2,S_T3,…,S_TN表示学生文本Encoder对该batch中的每段文本编码之后得到的文本特征，这两组特征用于计算学生模型的图像和文本特征相似度矩阵/>特征相似度度量采用余弦距离。

(5)利用超大规模图文预训练模型CLIP的多模态知识，加快学生模型学习的收敛速度，收敛到更好的图文对齐状态，同时保持一定的泛化能力，防止学生模型陷入过拟合状态。本模型训练场景实例采用预训练CLIP模型作为教师网络，通过知识蒸馏的方式向学生模型迁移多模态知识。具体的，分别采用预训练CLIP模型的图像和文本Encoder作为各自模态的教师网络，采用蒸馏中间特征的方式，作为学生网络对应模态Encoder学习的监督信号，具体损失形式采用L1损失。其中，该损失包括图像特征损失值和文本特征损失值，该损失值的计算过程具体如下：

(5.1)对于同一张输入图片，以经过CLIP教师网络图像Encoder编码后得到的图像特征，即第一图像特征向量；进而，确定第一图像特征向量与第二图像特征向量之间的图像特征损失值，作为监督信号，以监督学生网络图像Encoder的学习。其中，该图像特征损失值的计算方式如下：

其中T_Ii、S_Ii分别表示一个batch的N张图片中第i张图片分别经过教师和学生图像Encoder编码后得到的图像特征，‖·‖₁代表向量1范数。

(5.2)对于同一段输入文本，以经过CLIP教师网络文本Encoder编码后得到的文本特征，即第一文本特征向量；进而，确定第一文本特征向量与第二文本特征向量之间的文本特征损失值，作为监督信号，监督学生网络文本Encoder的学习。其中，该文本特征损失值的计算方式如下：

其中T_Ti、S_Ti分别表示一个batch的N段文本中第i段文本分别经过教师和学生图像Encoder编码后得到的文本特征。

(6)该图文训练框架的训练过程采用完全端到端的方式，在训练过程中联合优化学生、教师网络的对比学习损失和图像、文本特征的损失，避免了多阶段训练框架下训练时间冗长、流程繁琐等问题，在实际使用过程中更加方便易用。因此，需要计算学生模型在蒸馏学习过程中的总损失值，即蒸馏损失值，该总损失值的计算方式如下：

其中λ、μ、ν为调节超参，实际训练过程中取λ＝0.01，μ＝ν＝50。

(7)根据总损失值对学生模型的训练进行监督，得到训练后的学生模型，即第二目标语种模型，以用于中文的图像信息识别。

以上场景(1)-(7)，提出了一种多模态跨语言知识蒸馏图文预训练算法框架，这一框架通过知识蒸馏的方式迁移超大规模数据集上预训练得到的CLIP教师模型的多模态知识，在原先对比损失的基础上进一步引入蒸馏损失，从而对学生网络的学习提供更强的监督信号，有利于图文表示学习模型更快地收敛到更好的图文特征对齐状态，同时保持较强的泛化能力。

二、将训练得到的第二目标语种模型应用于与图文信息识别相关的应用场景示例，该应用场景示例不限于包括图文检索(即图文识别)、零样本多标签识别(即图文标签识别)、模型辅助人工标注、多模态融合分类(即图文分类)、图文跨模态检索(即图文互搜)、新闻等媒体资讯等等。

通过以上应用场景实例，可实现如下效果：采用多模态跨语言蒸馏技术算法框架，在对比学习损失的基础上，以超大规模图文预训练模型CLIP作为教师模型，通过知识蒸馏的方式，分别向学生模型的图像和文本的Encoder迁移知识，从而增强学生模型学习过程中的泛化能力，避免过早出现过拟合；以及，在联合训练过程中，对教师的模型参数进行微调更新，以更加适合目标场景数据；以及，由于蒸馏对齐损失的引入，实现支持中英文跨语言蒸馏，即教师模型文本Encoder为英文，而学生模型文本Encoder支持中文等任意语言；此外，学生模型的图像和文本Encoder可自由指定模型规模，能够针对不同的使用场景训练不同大小的模型，满足不同的业务需求。

由以上可知，本申请实施例可通过预训练后的第一目标语种模型对第一语种文本和样本图像进行表征，且通过待训练的预设模型对图像样本及第二语种文本进行特征表示，以根据两者的图文中间特征来确定预设模型在表征时的图文对比损失、图像特征损失及文本特征损失，进而联合各类损失作为监督信号对预设模型进行监督训练，可在图文样本量较小时避免模型出现过拟合；同时，实现以跨语种的模型训练方式对预设模型进行图文类学习训练，使得训练后的第二目标语种模型可满足用户对其他语种图文信息识别的需求，提高用户体验。

为了更好地实施以上方法，本申请实施例还提供一种信息识别装置。例如，如图6所示，该信息识别装置可以包括获取单元401、第一编码单元402、第二编码单元403、确定单元404、训练单元405和识别单元406。

获取单元401，用于获取图文样本对，图文样本对包含图像样本、图像样本对应的第一语种文本和第二语种文本；

第一编码单元402，用于通过预训练后的第一目标语种模型对图像样本及第一语种文本进行特征表示，得到第一特征向量集合；

第二编码单元403，用于通过待训练的预设模型对图像样本及第二语种文本进行特征表示，得到第二特征向量集合；

确定单元404，用于基于第一特征向量集合及第二特征向量集合，确定预设模型对应的图文对比损失值、图像特征损失值和文本特征损失值；

训练单元405，用于根据图文对比损失值、图像特征损失值及文本特征损失值对预设模型进行联合监督训练，得到训练后的第二目标语种模型；

识别单元406，用于通过第二目标语种模型对第二语种的图文信息进行识别。

在一些实施方式中，确定单元404，还用于：根据第一特征向量集合中的第一图像特征向量和第一文本特征向量，确定第一目标语种模型对应的第一图文损失值；根据第二特征向量集合中的第二图像特征向量和第二文本特征向量，确定预设模型对应的第二图文损失值；基于第一图文损失值和第二图文损失值确定图文对比损失值；根据第一图像特征向量及第二图像特征向量，确定第一目标语种模型与预设模型之间的图像特征损失值；根据第一文本特征向量及第二文本特征向量，确定第一目标语种模型与预设模型之间的文本特征损失值。

在一些实施方式中，确定单元404，还用于：对第一图像特征向量与第一文本特征向量之间进行余弦计算，得到第一相似度矩阵；获取图像样本与第一语种文本之间的第一匹配关系矩阵，并计算第一匹配关系矩阵与第一相似度矩阵之间的交叉熵损失值；根据交叉熵损失值确定第一目标语种模型对应的第一图文损失值。

在一些实施方式中，确定单元404，还用于：确定第一文本特征向量及第二文本特征向量中包含的文本特征参数的多个位置系数；从第一文本特征向量中提取每一位置系数对应的第一文本特征子参数，以及从第二文本特征向量中提取每一位置系数对应的第二文本特征子参数；确定每一位置系数对应的第一文本特征子参数和第二文本特征子参数之间的文本特征差异参数，并计算文本特征差异参数的一阶范数值；对所有的一阶范数值进行求和处理，得到第一目标语种模型与预设模型之间的文本特征损失值。

在一些实施方式中，训练单元405，还用于：对第一图文损失值、第二图文损失值、图像特征损失值及文本特征损失值进行加权求和，得到预设模型的蒸馏损失值；根据蒸馏损失值对预设模型进行联合监督训练，得到训练后的第二目标语种模型。

在一些实施方式中，训练单元405，还用于：根据蒸馏损失值更新预设模型的网络参数，得到中间预设模型作为下一次迭代训练的模型；重复执行更新中间预设模型的步骤，直至蒸馏损失值收敛，将收敛状态下的中间预设模型作为训练后的第二目标语种模型。

在一些实施方式中，预训练后的第一目标语种模型包括图像编码模块和文本编码模块，第一编码单元402，还用于：通过图像编码模块对图像样本进行编码处理，得到第一图像特征向量；通过文本编码模块对第一语种文本进行编码处理，得到第一文本特征向量；根据第一图像特征向量和第一文本特征向量，构建第一特征向量集合。

在一些实施方式中，第二语种的图文信息包括待识别图像，识别单元406，还用于：通过第二目标语种模型中的图像编码模块对待识别图像进行编码处理，得到图像编码特征；通过第二目标语种模型中的图文特征关系，确定图像编码特征对应的文本编码特征；通过第二目标语种模型中的文本解码模块对文本编码特征进行解码处理，得到待识别图像对应的第二语种文本信息。

在一些实施方式中，第二语种的图文信息包括待识别的第二语种文本，识别单元406，还用于：通过第二目标语种模型对待识别的第二语种文本进行编码处理，得到第二语种文本对应的文本编码特征；基于第二目标语种模型中的图文特征关系，确定文本编码特征对应的图像编码特征；对图像编码特征进行解码处理，并通过第二目标语种模型中的全连接层对解码处理后的图像特征向量进行分类处理，得到与第二语种文本匹配的目标图像。

由以上可知，本申请实施例可以通过获取单元401获取图文样本对，图文样本对包含图像样本、图像样本对应的第一语种文本和第二语种文本；第一编码单元402用于通过预训练后的第一目标语种模型对图像样本及第一语种文本进行特征表示，得到第一特征向量集合；第二编码单元403用于通过待训练的预设模型对图像样本及第二语种文本进行特征表示，得到第二特征向量集合；确定单元404基于第一特征向量集合及第二特征向量集合，确定预设模型对应的图文对比损失值、图像特征损失值和文本特征损失值；训练单元405用于根据图文对比损失值、图像特征损失值及文本特征损失值对预设模型进行联合监督训练，得到训练后的第二目标语种模型；识别单元406用于通过第二目标语种模型对第二语种的图文信息进行识别。由此可得，本方案可通过预训练后的第一目标语种模型对第一语种文本和样本图像进行表征，且通过待训练的预设模型对图像样本及第二语种文本进行特征表示，以根据两者的图文中间特征来确定预设模型在表征时的图文对比损失、图像特征损失及文本特征损失，进而联合各类损失作为监督信号对预设模型进行监督训练，可在图文样本量较小时避免模型出现过拟合；同时，实现以跨语种的模型训练方式对预设模型进行图文学习训练，使得训得到的第二目标语种模型可满足用户对其他语种图文信息识别的需求，提高用户体验。

本申请实施例还提供一种计算机设备，如图7所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解，图7中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器501是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行计算机设备的各种功能和处理数据。可选的，处理器501可包括一个或多个处理核心；优选的，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及信息识别。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

计算机设备还包括给各个部件供电的电源503，优选的，电源503可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元504，该输入单元504可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本申请实施例中，计算机设备中的处理器501会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现各种功能，如下：

获取图文样本对，图文样本对包含图像样本、图像样本对应的第一语种文本和第二语种文本；通过预训练后的第一目标语种模型对图像样本及第一语种文本进行特征表示，得到第一特征向量集合；通过待训练的预设模型对图像样本及第二语种文本进行特征表示，得到第二特征向量集合；基于第一特征向量集合及第二特征向量集合，确定预设模型对应的图文对比损失值、图像特征损失值和文本特征损失值；根据图文对比损失值、图像特征损失值及文本特征损失值对预设模型进行联合监督训练，得到训练后的第二目标语种模型；通过第二目标语种模型对第二语种的图文信息进行识别。

以上各个操作的具体实施可参见前面的实施例，在此不作赘述。

由此可得，本方案可通过预训练后的第一目标语种模型对第一语种文本和样本图像进行表征，且通过待训练的预设模型对图像样本及第二语种文本进行特征表示，以根据两者的图文中间特征来确定预设模型在表征时的图文对比损失、图像特征损失及文本特征损失，进而联合各类损失作为监督信号对预设模型进行监督训练，可在图文样本量较小时避免模型出现过拟合；同时，实现以跨语种的模型训练方式对预设模型进行图文学习训练，使得训得到的第二目标语种模型可满足用户对其他语种图文信息识别的需求，提高用户体验。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种信息识别方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请实施例所提供的任一种数据处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种数据处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。

以上对本申请实施例所提供的一种信息识别方法、装置以及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种信息识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一特征向量集合及第二特征向量集合，确定所述预设模型对应的图文对比损失值、图像特征损失值和文本特征损失值，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一特征向量集合中的第一图像特征向量和第一文本特征向量，确定所述第一目标语种模型对应的第一图文损失值，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述第一文本特征向量及所述第二文本特征向量，确定所述第一目标语种模型与所述预设模型之间的文本特征损失值，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述图文对比损失值、图像特征损失值及文本特征损失值对所述预设模型进行联合监督训练，得到训练后的第二目标语种模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述蒸馏损失值对所述预设模型进行联合监督训练，得到训练后的第二目标语种模型，包括：

7.根据权利要求1所述的方法，其特征在于，所述预训练后的第一目标语种模型包括图像编码模块和文本编码模块，所述通过预训练后的第一目标语种模型对所述图像样本及第一语种文本进行特征表示，得到第一特征向量集合，包括：

8.根据权利要求1所述的方法，其特征在于，所述第二语种的图文信息包括待识别图像，所述通过所述第二目标语种模型对第二语种的图文信息进行识别，包括：

9.根据权利要求1所述的方法，其特征在于，所述第二语种的图文信息包括待识别的第二语种文本，所述通过所述第二目标语种模型对第二语种的图文信息进行识别，包括：

10.一种信息识别装置，其特征在于，包括：

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至9任一项所述的信息识别方法中的步骤。