CN116977691A

CN116977691A - 角色识别模型的训练方法、装置、设备及存储介质

Info

Publication number: CN116977691A
Application number: CN202310155225.3A
Authority: CN
Inventors: 吴佳祥; 易凡; 周水庚
Original assignee: Tencent Technology Shanghai Co Ltd
Current assignee: Tencent Technology Shanghai Co Ltd
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2023-10-31

Abstract

本申请涉及图像数据领域，尤其涉及一种角色识别模型的训练方法、装置、设备及存储介质，该方法为：基于训练样本集，对待训练的角色识别模型进行迭代训练，获得目标角色识别模型；每个训练样本包括：包含虚拟角色的图像数据，以及包含虚拟角色细节描述的文本数据，这样，结合图像数据和文本数据对模型进行训练，能够将图像特征和文本特征进行融合，强化图像与文本的关联，使得训练后的目标角色识别模型可以有效融合图像‑文本信息，提升虚拟角色的识别准确率。

Description

角色识别模型的训练方法、装置、设备及存储介质

技术领域

本申请涉及图像数据领域，尤其涉及一种角色识别模型的训练方法、装置、设备及存储介质。

背景技术

随着网络信息化技术的快速发展，动漫、视频、游戏等知识产权(IntellectualProperty，IP)的商业化保护问题也逐渐被人们所关注，例如，动漫等领域中常设计有许多虚拟角色，为了判断虚拟角色是否被其他网站或个人盗用，导致虚拟角色IP受到侵犯，可以采用角色识别模型，从视频或图像中准确识别出被保护的虚拟角色。

相关技术下，常见的角色识别模型的训练方法主要为单模态度量学习迁移训练方法，其具体操作为：

从视频或图像中采集单模态的图像数据集作为输入，使用卷积神经网络(Convolutional Neural Networks，CNN)或者视觉自注意力模型(Vision Transformer，ViT)提取图像特征，再利用数据增强构造正负样本，随后采用对比学习方式得到图像模态的预训练模型。

接着，增加多分类分类头后将预训练模型迁移至动漫等图像数据领域，基于虚拟角色的图像数据完成模型训练，获得角色识别模型。

然而，采用上述方法时，由于模型训练仅利用了基于单模态的图像数据获得的虚拟角色的图像特征，当虚拟角色的图像数据数量较小时，将导致没有足够的图像特征供模型学习，进而导致角色识别模型的准确率较低，而当虚拟角色的图像数据数量过大时，角色识别模型无法在短时间内找到关键的图像特征，将导致角色识别模型的识别效率较低。

因此，相关技术中的角色识别模型，其准确率和识别效率都有待提高。

发明内容

本申请提供了一种角色识别模型的方法及相关装置，用以提高目标角色识别模型的准确率和识别效率。

第一方面，本申请实施例提供了一种角色识别模型的训练方法，所述方法包括：

基于训练样本集，对待训练的角色识别模型进行迭代训练，获得目标角色识别模型；每个训练样本包括：包含虚拟角色的图像数据，以及包含虚拟角色细节描述的文本数据，其中，在一次迭代过程中，执行以下操作：

针对选取的训练样本包含的图像数据和文本数据，分别提取出相应的初始图像特征和初始文本特征；

采用注意力机制，基于初始图像特征中各图像特征元素之间的内部相关性，以及各图像特征元素和初始文本特征中各文本特征元素之间的交叉相关性，对初始图像特征和初始文本特征进行更新，获得相应的目标图像特征和目标文本特征；

基于目标图像特征和目标文本特征对应的目标融合特征，获得相应的虚拟角色预测结果，并基于预测结果对应的损失值进行调参。

第二方面，本申请实施例还提供了一种角色识别模型的训练装置，所述装置包括：

处理模块，用于基于训练样本集，对待训练的角色识别模型进行迭代训练，获得目标角色识别模型；每个训练样本包括：包含虚拟角色的图像数据，以及包含虚拟角色细节描述的文本数据，其中，在一次迭代过程中，执行以下操作：

在一种可能的实现方式中，针对选取的训练样本包含的图像数据和文本数据，分别提取出相应的初始图像特征和初始文本特征之后，处理模块还用于：

基于当前的迭代训练轮次，确定初始文本特征当前对应的遮掩比例，并按照遮掩比例对初始文本特征中的各文本特征元素进行遮掩处理；其中，遮掩比例与迭代训练轮次呈现正相关。

在一种可能的实现方式中，采用注意力机制，基于初始图像特征中各图像特征元素之间的内部相关性，以及各图像特征元素和初始文本特征中各文本特征元素之间的交叉相关性，对初始图像特征和初始文本特征进行更新，获得相应的目标图像特征和目标文本特征时，处理模块用于：

基于各图像特征元素各自对应的内部相关性，对初始图像特征进行更新，获得目标图像特征；

基于各文本特征元素各自对应的内部相关性，对初始文本特征进行更新，获得更新后的初始文本特征，以及基于各图像特征元素和各文本特征元素之间的交叉相关性，结合初始图像特征，构建图文关联特征；

基于更新后的初始文本特征和图文关联特征获得目标文本特征。

在一种可能的实现方式中，基于各图像特征元素各自对应的内部相关性，对初始图像特征进行更新，获得目标图像特征时，处理模块用于：

基于预设的第一权重矩阵、第二权重矩阵和第三权重矩阵，分别对初始图像特征进行线性变换，获得相应的图像查询矩阵、图像键矩阵和图像值矩阵；

基于图像查询矩阵和图像键矩阵，获得图像相似度矩阵，其中，图像相似度矩阵表征：每个图像特征元素与其他各图像特征元素之间的内部相关性；

基于图像相似度矩阵和图像值矩阵，获得目标图像特征。

在一种可能的实现方式中，基于各文本特征元素各自对应的内部相关性，对初始文本特征进行更新，获得更新后的初始文本特征，以及基于各图像特征元素和初始文本特征中各文本特征元素之间的交叉相关性，结合初始图像特征，构建图文关联特征时，处理模块用于：

基于预设的第四权重矩阵、第五权重矩阵和第六权重矩阵，分别对初始文本特征进行线性变换，获得相应的文本查询矩阵、文本键矩阵和文本值矩阵；

基于文本查询矩阵和文本键矩阵，获得文本相似度矩阵，其中，文本相似度矩阵表征：每个文本特征元素与其他各文本特征元素之间的内部相关性；

基于文本相似度矩阵和文本值矩阵，获得更新后的初始文本特征；

基于文本查询矩阵和图像键矩阵，获得图文相似度矩阵，其中，图文相似度矩阵中表征：每个图像特征元素与每个文本特征元素之间的交叉相关性；

基于图文相似度矩阵和图像值矩阵，获得图文关联特征。

在一种可能的实现方式中，基于目标图像特征和目标文本特征对应的目标融合特征，获得相应的虚拟角色预测结果，并基于预测结果对应的损失值进行调参时，处理模块用于：

基于虚拟角色预测结果和图像数据对应的角色真实标签，计算分类损失值；

基于目标文本特征获得相应的文本预测结果，并基于文本预测结果和文本数据对应的文本真实结果，计算文本还原损失值；

基于分类损失值和文本还原损失值，调整角色识别模型的网络参数。

在一种可能的实现方式中，一个虚拟角色对应的各图像，均关联保存有角色细节描述文本集，每个角色细节描述文本集中包含针对一个虚拟角色的多个描述标签；

则基于训练样本集，对待训练的角色识别模型进行迭代训练之前，处理模块还用于：

针对一个虚拟角色，选取出数量不小于第一设定阈值的图像，作为一个虚拟角色对应的图像数据；

从选取出的各图像关联保存的角色细节描述文本集中，获得出现频率不小于第二设定阈值的至少一个描述标签，作为一个虚拟角色对应的文本数据；

基于多个虚拟角色各自对应的图像数据和文本数据，构建训练样本集。

在一种可能的实现方式中，处理模块还用于：

每完成一次迭代训练后，采用余弦衰减法，基于当前的迭代训练轮次，调整角色识别模型的学习率，学习率用于控制调参的步长；

当角色识别模型当前输出的预测结果对应的损失值，相较于已获得的各历史损失值，满足预设的训练终止条件时，基于最后一次调参获得的网络参数，输出相应的目标角色识别模型。

在一种可能的实现方式中，获得目标角色识别模型之后，处理模块还用于：

获取包含待识别虚拟角色的目标图像数据；

将目标图像数据输入至目标角色识别模型中，获得待识别虚拟角色的角色标签。

第三方面，本申请实施例提供一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面任一项所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一所述方法的步骤。第五方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品在被计算机调用时，使得所述计算机执行如第一方面所述的方法。

本申请的有益效果如下：

本申请实施例中，提出了一种角色识别模型的训练方法、装置、设备及存储介质，处理设备在训练角色识别模型时，针对图像数据和文本数据，分别获取相应的图像特征和文本特征，并基于图像特征和文本特征的融合，训练多模态融合模型，使得模型可以借助文本特征强化对具有强区分度的图像块的关注，而非仅根据图像特征完成虚拟角色的预测，因此大大提高了角色识别模型的识别性能，且处理设备对初始图像特征和初始文本特征进行处理时，并非直接将初始文本特征与初始图像特征分开进行单独的自注意力计算，而是采用交叉注意力机制，利用图像特征元素和文本特征元素之间的交叉相关性，降低了模型对于文本分块之间的关联性的关注，使得文本特征的更新依赖于图像，避免了平均化地增强模型对图像分块和文本分块的重视，导致模型在图像单模态下性能较差的问题，最后再将目标图像特征和目标文本特征进行特征融合，强化图像与文本的关联，使得训练后的目标角色识别模型可以有效融合图像-文本信息，提升识别准确率的同时降低了对文本信息的依赖。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

图1为本申请实施例中可能的一种应用场景示意图；

图2为本申请实施例中构建训练集的流程示意图；

图3为本申请实施例中虚拟角色1对应的图像数据示意图；

图4为本申请实施例中图像1对应的角色细节描述文本集示意图；

图5为本申请实施例中角色识别模型的训练流程示意图；

图6为本申请实施例中处理设备获得目标图像特征和目标文本特征的流程示意图；

图7为本申请实施例中处理设备基于自注意力机制更新初始图像特征的流程示意图；

图8为本申请实施例中针对初始图像特征进行线性变换的场景示意图；

图9为本申请实施例中处理设备进行自注意力计算和交叉注意力计算的流程示意图；

图10为本申请实施例中针对初始文本特征进行线性变换的场景示意图；

图11为本申请实施例中角色识别模型的训练方法原理图；

图12为本申请实施例中处理设备基于预测结果对应的损失值进行调参的流程示意图；

图13为本申请实施例中角色识别流程示意图；

图14为本申请实施例中角色识别场景示意图；

图15为本申请实施例中提供的一种角色识别模型的训练装置的结构示意图；

图16为本申请实施例中一种计算机设备的一个硬件组成结构示意图；

图17为本申请实施例中另一种计算机设备的一个硬件组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够在除了这里图示或描述的那些以外的顺序实施。

以下对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

(1)单模态：指单一来源或模式(如数据库或电子表格)，单模态数据通常是结构化的，更易于分析，但可能无法捕捉到数据的全部复杂性。

(2)多模态：指多种模态的信息，包括：文本、图像、视频、音频等，多模态数据通常用于自然语言处理、计算机视觉和语音识别等领域，在这些领域中，不同模态的组合可以提供更完整和准确的数据表示。

(3)自注意力机制：其主要思路是计算输入数据之间的相关性，用这个相关性再对输入数据进行重新编码，其输入数据的基本形式就是一组元素，这些元素可以来自一个序列中不同时间点的数据(时间维度)，也可以来自一张图像上不同位置的数据(空间维度)，甚至也可以来自不同通道的数据(通道维度)。

(4)交叉注意力机制：与自注意力机制原理相同，区别在于自注意力机制提取的是同一数据自身的相关性，而交叉注意力机制提取的则是不同数据之间的相关性。

下面对本申请实施例的设计思想进行简要介绍：

相关技术下，为了保护动漫领域中虚拟角色的知识产权，通常需要针对各类虚拟角色，训练出角色识别模型，以识别出各类图像或视频中被保护的虚拟角色。

目前常用的角色识别模型训练方法包括：

方法一、单模态度量学习迁移训练方法和多模态简单融合方法。

将单模态的图像数据集作为输入，使用卷积神经网络或者视觉自注意力模型提取图像特征，再利用数据增强构造正负样本，随后采用对比学习方式得到图像模态的预训练模型，增加多分类分类头后将预训练模型迁移至动漫等图像数据领域，基于虚拟角色的图像数据完成模型训练，获得角色识别模型。

采用方法一时，由于无法充分利用动漫图像出于人工创造，具有许多具象化描述信息的特点，导致训练的角色识别模型的准确率和识别效率都存在瓶颈。

方法二、多模态简单融合方法。

将图像数据集和图像中虚拟角色的细节描述性文本同时作为输入，使用图像特征提取器和文本特征提取器，分别提取图像特征和文本特征，然后直接将图像特征和文本特征进行拼接后，通过多层基于自注意力机制的深度学习模型进行特征融合，从而训练并获得角色识别模型。

采用方法二时，训练获得的角色识别模型可以借助文本特征强化对某些有区分度的图像块的关注，提升模型的识别性能，然而，图像数据集中，各虚拟角色的描述性文本均为较零散的短语标签，并非完整的语句，其各自的关联性较低，多模态简单融合方法针对图像特征和文本特征的关注度相同，导致该方法对文本信息的依赖性较高，当应用于图像单模态场景下时，其识别性能较差。

有鉴于此，本申请实施例中，提出了一种角色识别模型的训练方法、装置、设备及存储介质。处理设备在训练角色识别模型时，针对选取的训练样本包含的图像数据和文本数据，分别提取出相应的初始图像特征和初始文本特征，采用注意力机制，基于初始图像特征中各图像特征元素之间的内部相关性，以及各图像特征元素和初始文本特征中各文本特征元素之间的交叉相关性，对初始图像特征和初始文本特征进行更新，获得相应的目标图像特征和目标文本特征，利用交叉相关性能够降低模型对于文本分块之间的关联性的关注，使得文本特征的更新依赖于图像，再将目标图像特征和目标文本特征进行特征融合，强化图像与文本的关联，使得训练后的目标角色识别模型可以有效融合图像-文本信息，提升识别准确率的同时降低了对文本信息的依赖。

在本申请实施例中，角色识别模型的部分，涉及人工智能(ArtificialIntelligence，AI)和机器学习技术，基于人工智能中的语音技术、自然语言处理技术和机器学习(Machine Learning，ML)而设计。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。

人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习等几大方向。随着人工智能技术研究和进步，人工智能在多个领域展开研究和应用，例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等，相信随着技术的发展，人工智能将在更多的领域获得应用，并发挥越来越重要的价值。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。对比于数据挖掘从大数据之间找相互特性而言，机器学习更加注重算法的设计，让计算机能够自动地从数据中“学习”规律，并利用规律对未知数据进行预测。

机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。强化学习(Reinforcement Learning，RL)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请实施例及实施例中的特征可以相互组合。

参阅图1所示，为本申请实施例中可能的应用场景示意图。该应用场景示意图中，包括一个服务端设备110，一个服务端设备120，以及终端设备130，其中，服务端设备110和服务端设备120可能为对应同一个应用的服务器，也可能是对应不同应用的服务器，服务端设备110和服务端设备120之间可以通过有限网络或无线网络进行通信，服务端设备110和终端设备130之间，终端设备130与服务端设备120之间均可以通过有线网络或无线网络进行通信。

在本申请实施例中，服务端设备110和服务端设备120分别可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

终端设备130可以是个人计算机、手机、平板电脑、笔记本、电子书阅读器、智能家居，以及车载终端等具有一定计算能力的计算机设备。

本申请可能的应用场景中，服务端设备110可以向其他设备提供待识别的包含虚拟角色的图像或视频资源，或者，可以接收其他设备发送的待识别的图像或视频资源，并执行虚拟角色识别操作。

在一些可能的应用场景中，服务端设备110可以是提供针对图像或视频资源进行虚拟角色识别服务的服务器，服务端设备120可以是提供待识别的图像或视频资源的服务器。本申请可以应用于直播的场景下，例如，可以实时接收直播服务器发送的直播视频流，并选择性地将直播视频流按照视频时长进行分段后，采用已训练的角色识别模型执行处理；本申请还可以应用于对各类渠道下获得的图像或视频资源进行识别的场景下，如，对公众号、小程序、网页、公共传媒平台上发布的图像或视频资源进行虚拟角色识别。

本申请实施例中，服务端设备110、服务端设备120，以及终端设备130中的任意一方或全部，可以配置有已训练的目标角色识别模型，使得能够采用已训练的目标角色识别模型，对待识别的图像或视频资源进行虚拟角色识别。

需要说明的是，本申请实施例中，设备上采用的角色识别模型可以是自身训练得到的，或者，可以是其他设备训练得到的。

以服务端设备110采用已训练的角色识别模型，对待识别的图像资源执行虚拟角色识别操作为例，服务端设备110采用的角色识别模型可以是自身训练得到的，或者，可以是其他设备完成角色识别模型的训练后，直接发送至服务端设备110的。

本申请以下的描述中，将从处理设备的角度，示意性的说明角色识别模型的训练过程和应用过程，其中，根据本申请不同的应用场景，处理设备可能具体对应图1中示意的服务端设备110、服务端设备120，以及终端设备130中的任意一个，本申请不做具体限制。

本申请实施例中，处理设备基于训练样本集，对待训练的角色识别模型进行迭代训练，获得目标角色识别模型，每个训练样本包括：包含虚拟角色的图像数据，以及包含虚拟角色细节描述的文本数据。

参阅图2所示，其为本申请实施例中构建训练集的流程示意图，下面结合附图2，对构建训练集执行的具体操作进行详细说明：

步骤201：针对一个虚拟角色，选取出数量不小于第一设定阈值的图像，作为一个虚拟角色对应的图像数据。

为了保证训练获得的角色识别模型可以更好地完成分类任务，处理设备在选取图像数据时，只保留包含一个虚拟角色的图像，且为了避免长尾分布的问题，每个虚拟角色类别的图像数量不小于10张(本申请实施例中，第一设定阈值即为10)。

例如，参阅图3所示，其为虚拟角色1对应的图像数据示意图，虚拟角色1对应的图像数据由10张图像组成，且每张图像中只包含虚拟角色1一个人物形象。

步骤202：从选取出的各图像关联保存的角色细节描述文本集中，获得出现频率不小于第二设定阈值的至少一个描述标签，作为一个虚拟角色对应的文本数据。

具体的，一个虚拟角色对应的各图像，均关联保存有角色细节描述文本集，每个角色细节描述文本集中包含针对一个虚拟角色的多个描述标签，为了提升文本的特征价值，处理设备在选取文本数据时，只保留角色细节描述文本集中出现频率大于等于2的标签描述(本申请实施例中，第二设定阈值即为2)。

例如，参阅图4所示，其为图像1对应的角色细节描述文本集示意图，其中，描述标签1：[金色的头发]在角色细节描述文本集中出现了3次，即出现频率大于2，因此，处理设备将描述标签1：[金色的头发]选入虚拟角色1的文本数据中。

步骤203：基于多个虚拟角色各自对应的图像数据和文本数据，构建所训练样本集。

进一步的，参阅图5所示，为本申请实施例中角色识别模型的训练流程示意图，下面结合附图5，对本申请实施例中处理设备训练角色识别模型的一轮训练过程执行的操作进行说明：

步骤501：针对选取的训练样本包含的图像数据和文本数据，分别提取出相应的初始图像特征和初始文本特征。

具体的，处理设备选取训练样本时，采用随机抽样的方式，从训练集中读取图像数据及其对应的文本数据，并将读取到的数据组成一个batch，其中，第k个batch中的图像数据为X_vk、文本数据为X_tk。

处理设备首先对图像数据进行分块处理，并基于卷积神经网络对分块后的图像进行特征提取，获得初始图像特征E_vk，其中，卷积神经网络包含有卷积计算、池化计算等操作，分块大小记为P×P，则卷积核大小为P×P，卷积核的滑动步长为P。处理设备然后采用预训练的语言表征模型(Bidirectional Encoder Representation from Transformers，BERT)对文本数据进行特征提取，获得初始文本特征E_tk，其中，本申请实施例中用于特征提取的卷积神经网络和BERT模型均为现有技术，此处不再赘述。

进一步的，执行步骤501之后，执行步骤502之前，处理设备基于当前的迭代训练轮次，确定初始文本特征当前对应的遮掩比例，并按照遮掩比例对初始文本特征中的各文本特征元素进行遮掩处理。

例如，设置遮掩比例的计算公式为：

其中，CurrentSteps为当前的迭代训练轮次，ClassStudySteps为预设的最大训练轮次阈值，遮掩比例ratio和迭代训练轮次CurrentSteps呈正相关，当CurrentSteps大于等于ClassStudySteps时，遮掩比例将维持为1，即在角色识别模型的训练初期，处理设备仅对初始文本特征E_tk中的各文本特征元素进行少量遮掩，随着迭代训练轮次的增加逐步提高遮掩比例，具体遮掩方式参考自然语言处理(Natural Language Processing，NLP)模型中，使用由0和1组成的mask矩阵，对初始文本特征E_tk进行处理，随机遮掩初始文本特征中的部分文本特征元素。

基于步骤501所述，针对初始文本特征中的各文本特征元素进行遮掩比例逐步增大的遮掩处理，可以帮助角色识别模型在利用多模态数据提升性能的同时，逐渐摆脱对于文本输入的依赖，使得最终训练完成的目标角色识别模型可以接受空文本数据输入，并且对于单独的图像数据输入，可以生成一些对应的虚拟角色细节描述标签。

步骤502：采用注意力机制，基于初始图像特征中各图像特征元素之间的内部相关性，以及各图像特征元素和初始文本特征中各文本特征元素之间的交叉相关性，对初始图像特征和初始文本特征进行更新，获得相应的目标图像特征和目标文本特征。

具体的，在执行步骤502时，处理设备具体执行以下操作，参阅图6所示，其为本申请实施例中处理设备获得目标图像特征和目标文本特征的流程示意图，下面结合附图6，对具体执行的操作进行详细说明：

步骤5021：基于各图像特征元素各自对应的内部相关性，对初始图像特征进行更新，获得目标图像特征。

具体的，处理设备获得初始图像特征E_vk后，对E_vk进行单独的自注意力计算(self-attention)，概括为参阅图7所示，其为处理设备基于自注意力机制更新初始图像特征的流程示意图，下面结合附图7，对自注意力计算的具体操作进行说明：

步骤5021-1：基于预设的第一权重矩阵、第二权重矩阵和第三权重矩阵，分别对初始图像特征进行线性变换，获得相应的图像查询矩阵、图像键矩阵和图像值矩阵。

参阅图8所示，将初始图像特征E_vk分别与第一权重矩阵第二权重矩阵/>第三权重矩阵/>做矩阵乘法，生成图像查询矩阵Q_vk、图像键矩阵K_vk和图像值矩阵V_vk，相当于实现对初始图像特征的三种线性变换，其中，/> 这三个权重矩阵会随着每一次迭代训练而更新，从而增强模型的拟合能力。

步骤5021-2：基于图像查询矩阵和图像键矩阵，获得图像相似度矩阵。

具体的，将图像查询矩阵与图像键矩阵的转置做矩阵乘法，获得图像相似度矩阵，即A_vk＝Q_vk*K_vk ^T，其中，图像相似度矩阵中的每个元素表征：每个图像特征元素与包括自身在内的其他各图像特征元素之间的内部相关性。

步骤5021-3：基于图像相似度矩阵和图像值矩阵，获得目标图像特征。

具体的，利用softmax函数获得归一化的图像相似度矩阵，具体为softmax其中，d_k为图像键矩阵K_vk的维度大小，归一化后的图像相似度矩阵中，每一行元素的取值之和为1，其各自代表着模型应分配给图像值矩阵中每个元素的注意力分数，最后将归一化的图像相似度矩阵与图像值矩阵V_vk相乘，获得目标图像特征，即

步骤5022：基于各文本特征元素各自对应的内部相关性，对初始文本特征进行更新，获得更新后的初始文本特征，以及基于各图像特征元素和各文本特征元素之间的交叉相关性，结合初始图像特征，构建图文关联特征。

具体的，处理设备获得初始文本特征E_tk后，首先对E_tk进行自注意力计算(self-attention)，获得更新后的初始文本特征，再对E_tk与初始图像特征E_vk进行交叉注意力计算(cross-attention)，构建图文关联特征，参阅图9所示，其为处理设备进行自注意力计算和交叉注意力计算的流程示意图，下面结合附图9，对自注意力计算和交叉注意力计算的具体操作进行说明：

步骤5022-1：基于预设的第四权重矩阵、第五权重矩阵和第六权重矩阵，分别对初始文本特征进行线性变换，获得相应的文本查询矩阵、文本键矩阵和文本值矩阵。

参阅图10所示，将初始文本特征E_tk分别与第四权重矩阵第五权重矩阵/>第六权重矩阵/>做矩阵乘法，生成文本查询矩阵Q_tk、文本键矩阵K_tk和文本值矩阵V_tk，相当于实现对初始文本特征的三种线性变换，同理，/> 这三个权重矩阵也会随着每一次迭代训练而更新，从而增强模型的拟合能力。

步骤5022-2：基于文本查询矩阵和文本键矩阵，获得文本相似度矩阵。

具体的，将文本查询矩阵与文本键矩阵的转置做矩阵乘法，获得文本相似度矩阵，即A_tk＝Q_tk*K_tk ^T，其中，文本相似度矩阵中的每个元素表征：每个文本特征元素与包括自身在内的其他各文本特征元素之间的内部相关性。

步骤5022-3：基于文本相似度矩阵和文本值矩阵，获得更新后的初始文本特征。

具体的，利用softmax函数获得归一化的文本相似度矩阵，具体为其中，d′_k为文本键矩阵K_tk的维度大小，归一化后的文本相似度矩阵中，每一行元素的取值之和为1，其各自代表着模型应分配给文本值矩阵中每个元素的注意力分数，最后将归一化的文本相似度矩阵与文本值矩阵V_tk相乘，获得更新后的初始文本特征，即

步骤5022-4：基于文本查询矩阵和图像键矩阵，获得图文相似度矩阵。

具体的，将文本查询矩阵与图像键矩阵的转置做矩阵乘法，获得图文相似度矩阵，即A＝Q_tk*K_vk ^T，其中，图文相似度矩阵中的每个元素表征：每个图像特征元素与每个文本特征元素之间的交叉相关性。

步骤5022-5：基于图文相似度矩阵和图像值矩阵，获得图文关联特征。

具体的，利用softmax函数获得归一化的图文相似度矩阵，具体为/>其中，d_k为文本键矩阵K_vk的维度大小，归一化后的图文相似度矩阵中，每一行元素的取值之和为1，其各自代表着模型应分配给图像值矩阵中每个元素的注意力分数，最后将归一化的图文相似度矩阵与图像值矩阵V_vk相乘，获得图文关联特征，即

步骤5023：基于更新后的初始文本特征和图文关联特征获得目标文本特征。

具体的，将更新后的初始文本特征和图文关联特征进行求和，获得目标文本特征，概括为

基于步骤5022和步骤5023所述，采用交叉注意力机制，利用图像特征元素和文本特征元素之间的交叉相关性，降低了模型对于文本分块之间的关联性的关注，使得文本特征的更新依赖于图像，避免了平均化地增强模型对图像分块和文本分块的重视，导致模型在图像单模态下性能较差的问题。

步骤503：基于目标图像特征和目标文本特征对应的目标融合特征，获得相应的虚拟角色预测结果，并基于预测结果对应的损失值进行调参。

具体的，参阅图11所示，其为角色识别模型的训练方法原理图，处理设备获得目标图像特征和目标文本特征后，首先将目标图像特征和目标文本特征进行特征融合，获得目标融合特征E_k，再针对目标融合特征E_k进行自注意力计算，获得更新后的目标融合特征，具体计算方式可参照前文所述，概括为最后基于更新后的目标融合特征获得虚拟角色预测结果。

进一步的，参阅图12所示，其为处理设备基于预测结果对应的损失值进行调参的流程示意图，下面结合附图12，对具体执行的操作进行说明：

步骤5031：基于虚拟角色预测结果和图像数据对应的角色真实标签，计算分类损失值。

具体的，处理设备将虚拟角色预测结果和图像数据对应的角色真实标签，作为目标分类损失函数的输入，获得分类损失值L_cls，本申请实施例中，使用交叉熵损失函数(Cross Entropy Loss Function)作为目标分类损失函数，该函数包含二分类和多分类两种情况，在实际应用中，可以按照实际需求选择二分类或者多分类，此处不做限定。

步骤5032：基于目标文本特征获得相应的文本预测结果，并基于文本预测结果和文本数据对应的文本真实结果，计算文本还原损失值。

进一步的，处理设备基于目标融合特征获得虚拟角色预测结果的同时，还会基于目标文本特征获得相应的文本预测结果，因此，处理设备将文本预测结果和文本数据对应的文本真实结果，作为文本还原目标函数的输入，获得文本还原损失值L_mlm，值得注意的是，获得L_mlm时仅计算相对于被遮掩的文本特征产生的损失。

步骤5033：基于分类损失值和文本还原损失值，调整角色识别模型的网络参数。

具体的，基于分类损失值L_cls和文本还原损失值L_mlm获得目标损失值，即L＝L_cls+L_mlm，目标损失值计算完成后，根据链式法则，可计算梯度 (θ为模型参数)，同时基于目标损失值调整角色识别模型的网络参数。

进一步的，本申请实施例中，每完成一次迭代训练后，采用余弦衰减法，基于当前的迭代训练轮次，调整角色识别模型的学习率，其中，学习率用于控制调参的步长，当角色识别模型当前输出的预测结果对应的损失值，相较于已获得的各历史损失值，满足预设的训练终止条件时，基于最后一次调参获得的网络参数，输出相应的目标角色识别模型。

具体的，在训练初期维持较高的学习率，经过较长迭代训练轮次后，进行一阶段的余弦退火，降低学习率，使得目标函数较快进行收敛，在训练中后期时维持较低的学习率，经过较短的迭代训练轮次后，进行二阶段的余弦退火，使得模型可以在最后阶段精调至接近损失函数的全局最小值。

当训练样本集中的所有样本都训练完成后，即可获得目标角色识别模型，进而利用目标角色识别模型执行虚拟角色识别操作。

可选的，参阅图13所示，其为本申请实施例中角色识别流程示意图，下面结合附图13，对本申请实施例中采用已训练的目标角色识别模型实现虚拟角色识别的过程进行说明：

步骤1301：获取包含待识别虚拟角色的目标图像数据。

本申请实施例中，处理设备可以根据实际的处理需要，从图像或视频中获得目标图像数据，并在获得目标图像数据后，可以选择性的针对目标图像数据创建其对应的角色细节描述文本集。

例如，为了判断某视频中是否出现动漫人物M，处理设备从该视频中截取包含待识别虚拟角色的图像，并将其作为目标图像数据。

步骤1302：将目标图像数据输入至目标角色识别模型中，获得待识别虚拟角色的角色标签。

具体的，若目标图像数据未关联保存对应的角色细节描述文本集，则处理设备仅将包含待识别虚拟角色的目标图像数据，输入至已训练的目标角色识别模型中，获得目标角色识别模型的输出，即待识别虚拟角色的角色标签，以及待识别虚拟角色细节描述对应的描述标签，

若目标图像数据关联保存有对应的角色细节描述文本集，则处理设备从角色细节描述文本集中选择出现频率不小于2的描述标签作为目标文本数据，与目标图像数据一同输入至目标角色识别模型中，获得目标角色识别模型的输出，即待识别虚拟角色的角色标签，以及待识别虚拟角色细节描述对应的其他描述标签，其中，目标角色识别模型是采用上述附图5所示意的训练流程得到的。

例如，参阅图14所示，其为本申请实施例中角色识别场景示意图，处理设备单独将包含待识别虚拟角色的目标图像数据输入至目标角色识别模型中，获得待识别虚拟角色的角色标签为：动漫人物M-93％，以及待识别虚拟角色细节描述对应的描述标签：描述标签1：[棕色瞳孔]；描述标签2：[铃铛项圈]；描述标签3：[粉色蝴蝶结]。

基于上述输出结果，相关人员可以对该视频是否侵犯了虚拟角色M的知识产权进行判断，并采取后续取证及维权等措施。

这样，借助于训练过程中的文本数据，能够在训练完成的目标角色识别模型中引入图像与文本的关联特征，使得采用目标角色识别模型进行虚拟角色识别时，不管是否输入虚拟角色对应的描述标签，都能够更精确地识别出虚拟角色的角色标签，同时生成虚拟角色对应的更详细的描述标签。

基于相同技术构思，参阅图15所示，本申请实施例还提供了一种角色识别模型的训练装置1500，该装置包括：

处理模块1501，用于基于训练样本集，对待训练的角色识别模型进行迭代训练，获得目标角色识别模型；每个训练样本包括：包含虚拟角色的图像数据，以及包含虚拟角色细节描述的文本数据，其中，在一次迭代过程中，执行以下操作：

在一种可能的实现方式中，针对选取的训练样本包含的图像数据和文本数据，分别提取出相应的初始图像特征和初始文本特征之后，处理模块1501还用于：

在一种可能的实现方式中，采用注意力机制，基于初始图像特征中各图像特征元素之间的内部相关性，以及各图像特征元素和初始文本特征中各文本特征元素之间的交叉相关性，对初始图像特征和初始文本特征进行更新，获得相应的目标图像特征和目标文本特征时，处理模块1501用于：

在一种可能的实现方式中，基于各图像特征元素各自对应的内部相关性，对初始图像特征进行更新，获得目标图像特征时，处理模块1501用于：

基于图像相似度矩阵和图像值矩阵，获得目标图像特征。

在一种可能的实现方式中，基于各文本特征元素各自对应的内部相关性，对初始文本特征进行更新，获得更新后的初始文本特征，以及基于各图像特征元素和初始文本特征中各文本特征元素之间的交叉相关性，结合初始图像特征，构建图文关联特征时，处理模块1501用于：

基于图文相似度矩阵和图像值矩阵，获得图文关联特征。

在一种可能的实现方式中，基于目标图像特征和目标文本特征对应的目标融合特征，获得相应的虚拟角色预测结果，并基于预测结果对应的损失值进行调参时，处理模块1501用于：

则基于训练样本集，对待训练的角色识别模型进行迭代训练之前，处理模块1501还用于：

在一种可能的实现方式中，处理模块1501还用于：

在一种可能的实现方式中，获得目标角色识别模型之后，处理模块1501还用于：

获取包含待识别虚拟角色的目标图像数据；

在介绍了本申请示例性实施方式的角色识别模型的训练方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的计算机设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

与上述方法实施例基于同一发明构思，本申请实施例中还提供了一种计算机设备1600。在一种实施例中，该计算机设备可以是服务端设备，如图1所示的服务端设备110。在该实施例中，计算机设备的结构如图16所示，可以至少包括存储器1601、通讯模块1603，以及至少一个处理器1602。

存储器1601，用于存储处理器1602执行的计算机程序。存储器1601可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及运行即时通讯功能所需的程序等；存储数据区可存储各种即时通讯信息和操作指令集等。

存储器1601可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器1601也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；或者存储器1601是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质，但不限于此。存储器1601可以是上述存储器的组合。

处理器1602，可以包括一个或多个中央处理单元(central processing unit，CPU)或者为数字处理单元等等。处理器1602，用于调用存储器1601中存储的计算机程序时实现上述角色识别模型的训练方法。

通讯模块1603用于与终端设备和其他服务器进行通信。

本申请实施例中不限定上述存储器1601、通讯模块1603和处理器1602之间的具体连接介质。本申请实施例在图16中以存储器1601和处理器1602之间通过总线1604连接，总线1604在图16中以粗线描述，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线1604可以分为地址总线、数据总线、控制总线等。为便于描述，图16中仅用一条粗线描述，但并不描述仅有一根总线或一种类型的总线。

存储器1601中存储有计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令用于实现本申请实施例的角色识别模型的训练方法。处理器1602用于执行上述的角色识别模型的训练方法。

在另一种实施例中，计算机设备也可以是其他计算机设备，如图1所示的终端设备130。在该实施例中，计算机设备的结构可以如图17所示，包括：通信组件1710、存储器1720、显示单元1730、摄像头1740、传感器1750、音频电路1760、蓝牙模块1770、处理器1780等部件。

通信组件1710用于与服务器进行通信。在一些实施例中，可以包括电路无线保真(Wireless Fidelity，WiFi)模块，WiFi模块属于短距离无线传输技术，电子设备通过WiFi模块可以帮助对象收发信息。

存储器1720可用于存储软件程序及数据。处理器1780通过运行存储在存储器1720的软件程序或数据，从而执行终端设备130的各种功能以及数据处理。存储器1720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器1720存储有使得终端设备130能运行的操作系统。本申请中存储器1720可以存储操作系统及各种应用程序，还可以存储执行本申请实施例角色识别模型的训练方法的计算机程序。

显示单元1730还可用于显示由对象输入的信息或提供给对象的信息以及终端设备110的各种菜单的图形用户界面(graphical user interface，GUI)。具体地，显示单元1730可以包括设置在终端设备110正面的显示屏1732。其中，显示屏1732可以采用液晶显示器、发光二极管等形式来配置。显示单元1730可以用于显示本申请实施例中的模型训练界面等。

显示单元1730还可用于接收输入的数字或字符信息，产生与终端设备130的对象设置以及功能控制有关的信号输入，具体地，显示单元1730可以包括设置在终端设备130正面的触控屏1731，可收集对象在其上或附近的触摸操作，例如点击按钮，拖动滚动框等。

其中，触控屏1731可以覆盖在显示屏1732之上，也可以将触控屏1731与显示屏1732集成而实现终端设备130的输入和输出功能，集成后可以简称触摸显示屏。本申请中显示单元1730可以显示应用程序以及对应的操作步骤。

摄像头1740可用于捕获静态图像，对象可以将摄像头1740拍摄的图像通过应用发布。摄像头1740可以是一个，也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给处理器1780转换成数字图像信号。

终端设备还可以包括至少一种传感器1750，比如加速度传感器1751、距离传感器1752、指纹传感器1753、温度传感器1754。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。

音频电路1760、扬声器1761、传声器1762可提供对象与终端设备130之间的音频接口。音频电路1760可将接收到的音频数据转换后的电信号，传输到扬声器1761，由扬声器1761转换为声音信号输出。终端设备130还可配置音量按钮，用于调节声音信号的音量。另一方面，传声器1762将收集的声音信号转换为电信号，由音频电路1760接收后转换为音频数据，再将音频数据输出至通信组件1710以发送给比如另一终端设备130，或者将音频数据输出至存储器1720以便进一步处理。

蓝牙模块1720用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如，终端设备可以通过蓝牙模块1720与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接，从而进行数据交互。

处理器1780是终端设备的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器1720内的软件程序，以及调用存储在存储器1720内的数据，执行终端设备的各种功能和处理数据。在一些实施例中，处理器1780可包括一个或多个处理单元；处理器1780还可以集成应用处理器和基带处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，基带处理器主要处理无线通信。可以理解的是，上述基带处理器也可以不集成到处理器1780中。本申请中处理器1780可以运行操作系统、应用程序、用户界面显示及触控响应，以及本申请实施例的角色识别模型的训练方法。另外，处理器1780与显示单元1730耦接。

此外需要注意的是，在本申请的具体实施方式中，涉及到与角色识别模型的训练等相关的对象数据，当本申请以上实施例运用到具体产品或技术中时，需要获得对象许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

在一些可能的实施方式中，本申请提供的角色识别模型的训练方法的各个方面还可以实现为一种程序产品的形式，其包括计算机程序，当程序产品在计算机设备上运行时，计算机程序用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的角色识别模型的训练方法中的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体地例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括计算机程序，并可以在电子设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的计算机程序，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。计算机程序可以完全地在用户计算机设备上执行、部分地在用户计算机设备上执行、作为一个独立的软件包执行、部分在用户计算机设备上部分在远程计算机设备上执行、或者完全在远程计算机设备上执行。在涉及远程计算机设备的情形中，远程计算机设备可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机设备，或者，可以连接到外部计算机设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种角色识别模型的训练方法，其特征在于，包括：

采用注意力机制，基于所述初始图像特征中各图像特征元素之间的内部相关性，以及所述各图像特征元素和所述初始文本特征中各文本特征元素之间的交叉相关性，对所述初始图像特征和所述初始文本特征进行更新，获得相应的目标图像特征和目标文本特征；

基于所述目标图像特征和所述目标文本特征对应的目标融合特征，获得相应的虚拟角色预测结果，并基于所述预测结果对应的损失值进行调参。

2.如权利要求1所述的方法，其特征在于，所述针对选取的训练样本包含的图像数据和文本数据，分别提取出相应的初始图像特征和初始文本特征之后，还包括：

基于当前的迭代训练轮次，确定所述初始文本特征当前对应的遮掩比例，并按照所述遮掩比例对所述初始文本特征中的各文本特征元素进行遮掩处理；其中，所述遮掩比例与所述迭代训练轮次呈现正相关。

3.如权利要求1所述的方法，其特征在于，所述采用注意力机制，基于所述初始图像特征中各图像特征元素之间的内部相关性，以及所述各图像特征元素和所述初始文本特征中各文本特征元素之间的交叉相关性，对所述初始图像特征和所述初始文本特征进行更新，获得相应的目标图像特征和目标文本特征，包括：

基于所述各图像特征元素各自对应的内部相关性，对所述初始图像特征进行更新，获得所述目标图像特征；

基于所述各文本特征元素各自对应的内部相关性，对所述初始文本特征进行更新，获得更新后的初始文本特征，以及基于所述各图像特征元素和所述各文本特征元素之间的交叉相关性，结合所述初始图像特征，构建图文关联特征；

基于所述更新后的初始文本特征和所述图文关联特征获得所述目标文本特征。

4.如权利要求3所述的方法，其特征在于，所述基于所述各图像特征元素各自对应的内部相关性，对所述初始图像特征进行更新，获得所述目标图像特征，包括：

基于预设的第一权重矩阵、第二权重矩阵和第三权重矩阵，分别对所述初始图像特征进行线性变换，获得相应的图像查询矩阵、图像键矩阵和图像值矩阵；

基于所述图像查询矩阵和所述图像键矩阵，获得图像相似度矩阵，其中，所述图像相似度矩阵表征：每个所述图像特征元素与其他各图像特征元素之间的内部相关性；

基于所述图像相似度矩阵和所述图像值矩阵，获得所述目标图像特征。

5.如权利要求4所述的方法，其特征在于，所述基于所述各文本特征元素各自对应的内部相关性，对所述初始文本特征进行更新，获得更新后的初始文本特征，以及基于所述各图像特征元素和所述初始文本特征中各文本特征元素之间的交叉相关性，结合所述初始图像特征，构建图文关联特征，包括：

基于预设的第四权重矩阵、第五权重矩阵和第六权重矩阵，分别对所述初始文本特征进行线性变换，获得相应的文本查询矩阵、文本键矩阵和文本值矩阵；

基于所述文本查询矩阵和所述文本键矩阵，获得文本相似度矩阵，其中，所述文本相似度矩阵表征：每个所述文本特征元素与其他各文本特征元素之间的内部相关性；

基于所述文本相似度矩阵和所述文本值矩阵，获得所述更新后的初始文本特征；

基于所述文本查询矩阵和所述图像键矩阵，获得图文相似度矩阵，其中，所述图文相似度矩阵中表征：每个所述图像特征元素与每个所述文本特征元素之间的交叉相关性；

基于所述图文相似度矩阵和所述图像值矩阵，获得所述图文关联特征。

6.如权利要求1-5任一项所述的方法，其特征在于，所述基于所述目标图像特征和所述目标文本特征对应的目标融合特征，获得相应的虚拟角色预测结果，并基于所述预测结果对应的损失值进行调参，包括：

基于所述虚拟角色预测结果和所述图像数据对应的角色真实标签，计算分类损失值；

基于所述目标文本特征获得相应的文本预测结果，并基于所述文本预测结果和所述文本数据对应的文本真实结果，计算文本还原损失值；

基于所述分类损失值和所述文本还原损失值，调整所述角色识别模型的网络参数。

7.如权利要求1-5任一项所述的方法，其特征在于，一个虚拟角色对应的各图像，均关联保存有角色细节描述文本集，每个所述角色细节描述文本集中包含针对所述一个虚拟角色的多个描述标签；

则所述基于训练样本集，对待训练的角色识别模型进行迭代训练之前，还包括：

针对所述一个虚拟角色，选取出数量不小于第一设定阈值的图像，作为所述一个虚拟角色对应的图像数据；

从选取出的各图像关联保存的角色细节描述文本集中，获得出现频率不小于第二设定阈值的至少一个描述标签，作为所述一个虚拟角色对应的文本数据；

基于多个虚拟角色各自对应的图像数据和文本数据，构建所述训练样本集。

8.如权利要求1-5任一项所述的方法，其特征在于，还包括：

每完成一次迭代训练后，采用余弦衰减法，基于当前的迭代训练轮次，调整所述角色识别模型的学习率，所述学习率用于控制所述调参的步长；

当所述角色识别模型当前输出的预测结果对应的损失值，相较于已获得的各历史损失值，满足预设的训练终止条件时，基于最后一次调参获得的网络参数，输出相应的目标角色识别模型。

9.如权利要求1-5任一项所述的方法，其特征在于，所述获得所述目标角色识别模型之后，还包括：

获取包含待识别虚拟角色的目标图像数据；

将所述目标图像数据输入至所述目标角色识别模型中，获得所述待识别虚拟角色的角色标签。

10.一种角色识别模型的训练装置，其特征在于，包括：

11.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-9中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-9中任一所述方法的步骤。

13.一种计算机程序产品，其特征在于，所述计算机程序产品在被计算机调用时，使得所述计算机执行如权利要求1-9任一项所述的方法。