CN118629042B

CN118629042B - 标识生成方法、装置、电子设备及存储介质

Info

Publication number: CN118629042B
Application number: CN202411111303.0A
Authority: CN
Inventors: 徐正斐; 刘庆斌; 李丽丽; 郝彦超; 李博; 陈曦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-08-14
Filing date: 2024-08-14
Publication date: 2024-12-03
Anticipated expiration: 2044-08-14
Also published as: CN118629042A

Abstract

本公开实施例公开了一种标识生成方法、装置、电子设备及存储介质，该方法包括：获取目标图像中各个候选对象对应的局部掩模，在多个局部掩模中确定查询掩模，其中，查询掩模用于指示多个候选对象中被选择的目标对象；对目标图像分别进行基于查询掩模以及各个局部掩模的特征提取，得到多个掩模视觉特征，提取查询掩模以及各个局部掩模对应的掩模位置特征；将各个掩模视觉特征分别与对应的掩模位置特征进行拼接，得到多个区域特征；提取目标图像的第一图像特征，将第一图像特征以及多个区域特征进行拼接，得到目标拼接特征；基于目标拼接特征进行文本预测，生成目标对象的目标实体标识；本公开实施例能够提高目标实体标识的预测准确率。

Description

标识生成方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，特别是涉及一种标识生成方法、装置、电子设备及存储介质。

背景技术

视觉实体链接是指将图像中的对象与知识库中的相应实体进行匹配。在相关技术中，通常通过将待识别图像编码为全局图像特征，同时将描述待识别图像中的目标对象的查询文本作为视觉提示，然后基于全局图像特征和查询文本的文本特征预测出图像对应的实体标识。然而，全局图像特征通常会忽略图像中的局部细节，导致信息丢失，从而降低实体标识的预测准确率。

发明内容

以下是对本公开详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本公开实施例提供了一种标识生成方法、装置、电子设备及存储介质，能够提高目标实体标识的预测准确率。

一方面，本公开实施例提供了一种标识生成方法，包括：

获取目标图像中各个候选对象对应的局部掩模，在多个所述局部掩模中确定查询掩模，其中，所述查询掩模用于指示多个所述候选对象中被选择的目标对象；

对所述目标图像分别进行基于所述查询掩模以及各个所述局部掩模的特征提取，得到多个掩模视觉特征，提取所述查询掩模以及各个所述局部掩模对应的掩模位置特征；

将各个所述掩模视觉特征分别与对应的所述掩模位置特征进行拼接，得到多个区域特征；

提取所述目标图像的第一图像特征，将所述第一图像特征以及多个所述区域特征进行拼接，得到目标拼接特征；

基于所述目标拼接特征进行文本预测，生成所述目标对象的目标实体标识。

另一方面，本公开实施例还提供了一种标识生成装置，包括：

获取模块，用于获取目标图像中各个候选对象对应的局部掩模，在多个所述局部掩模中确定查询掩模，其中，所述查询掩模用于指示多个所述候选对象中被选择的目标对象；

特征提取模块，用于对所述目标图像分别进行基于所述查询掩模以及各个所述局部掩模的特征提取，得到多个掩模视觉特征，提取所述查询掩模以及各个所述局部掩模对应的掩模位置特征；

第一拼接模块，用于将各个所述掩模视觉特征分别与对应的所述掩模位置特征进行拼接，得到多个区域特征；

第二拼接模块，用于提取所述目标图像的第一图像特征，将所述第一图像特征以及多个所述区域特征进行拼接，得到目标拼接特征；

生成模块，用于基于所述目标拼接特征进行文本预测，生成所述目标对象的目标实体标识。

进一步，上述第二拼接模块具体用于：

分别确定各个所述局部掩模的掩模面积，按照所述掩模面积的大小顺序，将各个所述局部掩模对应的所述区域特征进行拼接，得到第一拼接特征；

将所述第一图像特征、所述第一拼接特征以及所述查询掩模对应的所述区域特征进行拼接，得到目标拼接特征。

进一步，上述第二拼接模块具体用于：

构建用于提示所述第一大语言模型生成实体标识的提示文本；

提取所述提示文本的文本特征，将所述第一图像特征、所述文本特征、所述第一拼接特征以及所述查询掩模对应的所述区域特征进行拼接，得到目标拼接特征。

进一步，上述特征提取模块具体用于：

对所述目标图像进行多层级特征提取，得到所述目标图像的多层级视觉特征；

分别基于所述查询掩模以及各个所述局部掩模，对所述多层级视觉特征进行掩模池化，得到多个多层级池化特征；

分别对各个所述多层级池化特征进行特征融合，得到多个掩模视觉特征。

进一步，上述特征提取模块具体用于：

对于任意一个所述多层级池化特征，分别对所述多层级池化特征中各个层级的子特征进行映射，得到多个维度相同的中间特征，将各个所述中间特征进行特征融合，得到融合特征；

分别对各个所述融合特征进行多层感知处理，得到多个掩模视觉特征。

进一步，上述获取模块具体用于：

获取目标图像以及所述目标图像的提示标记，其中，所述目标图像包括多个候选对象，所述提示标记用于指示所述多个候选对象中被选择的目标对象；

对所述目标图像进行分割，得到各个所述候选对象对应的局部掩模，基于所述提示标记在各个所述局部掩模中确定查询掩模。

进一步，上述获取模块具体用于：

当所述提示标记为标记点时，基于所述标记点与各个所述局部掩模之间的位置关系，在各个所述局部掩模中确定查询掩模；

或者，当所述提示标记为标记框时，基于所述标记框与各个所述局部掩模的掩模边界之间的匹配程度，在各个所述局部掩模中确定查询掩模；

或者，当所述提示标记为标记区域时，基于所述标记区域与各个所述局部掩模之间的匹配程度，在各个所述局部掩模中确定查询掩模。

进一步，所述目标实体标识由第一大语言模型生成，上述标识生成装置还包括训练模块，训练模块具体用于：

获取样本图像以及所述样本图像中样本对象对应的第二掩模，对所述样本图像进行分割，得到所述样本图像中各个视觉对象对应的第一掩模，其中，所述样本对象为多个所述视觉对象中的一个对象；

提取所述样本图像的第二图像特征，对所述样本图像分别进行基于所述第二掩模以及各个所述第一掩模的特征提取，得到多个样本视觉特征，提取所述第二掩模以及各个所述第一掩模对应的样本位置特征；

将所述第二图像特征、所述样本视觉特征以及所述样本位置特征拼接后输入至所述第一大语言模型进行文本预测，生成预测概率分布，其中，所述预测概率分布用于确定所述样本对象的实体标识；

获取所述样本图像所链接的样本实体的第一实体标识，基于所述预测概率分布与所述第一实体标识确定模型损失，基于所述模型损失训练所述第一大语言模型，其中，所述样本实体用于指示所述样本对象。

进一步，所述样本图像、所述第二掩模以及所述第一实体标识均从数据集中获取，上述训练模块还用于：

获取多个原始图像以及各个所述原始图像对应的查询文本，根据各个所述原始图像以及对应的所述查询文本，分别确定各个所述原始图像对应的识别信息，其中，所述查询文本用于提示识别出对应的所述原始图像中的关注对象；

获取多个候选实体，基于各个所述识别信息，分别在多个所述候选实体中确定各个所述原始图像对应的链接实体；

基于各个所述原始图像以及对应的所述查询文本，分别确定各个所述原始图像的标注掩模，其中，所述标注掩模用于指示对应的所述关注对象；

将各个所述原始图像、对应的所述标注掩模以及对应的所述链接实体关联存储至所述数据集，其中，所述样本图像从多个所述原始图像中采样得到，所述第二掩模为所述样本图像对应的所述标注掩模，所述样本实体为所述样本图像所链接的所述链接实体。

进一步，上述训练模块具体用于：

将各个所述查询文本分别输入至第二大语言模型进行文本预测，生成各个所述原始图像对应的概括文本；

分别基于各个所述原始图像和对应的所述概括文本进行对象检测，生成各个所述原始图像对应的原始边界框，其中，所述原始边界框用于指示对应的所述关注对象；

分别将各个所述原始图像和对应的所述原始边界框输入至第一掩模生成模型进行掩模预测，生成各个所述原始图像对应的标注掩模。

进一步，上述训练模块还用于：

获取各个所述链接实体对应的参考名称文本，其中，所述参考名称文本用于指示参考实体的名称，所述参考实体在知识库中的层级高于所述链接实体在所述知识库中的层级；

分别将各个所述原始图像和对应的所述参考名称文本输入至第二掩模生成模型进行掩模预测，生成各个所述原始图像对应的参考掩模；

确定各个所述标注掩模与对应的所述参考掩模之间的匹配程度，得到各个所述标注掩模对应的目标匹配度；

当所述目标匹配度小于预设的匹配度阈值时，剔除所述目标匹配度对应的所述原始图像。

进一步，上述训练模块还用于：

统计各个所述标注掩模中连通区域的数量，得到各个所述标注掩模对应的区域数量；

当所述区域数量大于预设的数量阈值时，剔除所述区域数量对应的所述原始图像。

进一步，上述训练模块具体用于：

获取所述样本图像所链接的样本实体的样本名称文本，对所述样本名称文本进行分词得到多个第一分词；

确定各个所述第一分词在知识库中的出现频率，基于各个所述出现频率由小至大的顺序，对各个所述第一分词进行排序，将排列在前L位的所述第一分词确定为第二分词，其中，所述L为正整数；

基于各个所述第二分词，确定所述样本实体的第一实体标识。

另一方面，本公开实施例还提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的标识生成方法。

另一方面，本公开实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行实现上述的标识生成方法。

另一方面，本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行实现上述的标识生成方法。

本公开实施例至少包括以下有益效果：通过获取目标图像中各个候选对象对应的局部掩模，以及确定用于指示目标对象的查询掩模，进而通过特征提取得到查询掩模以及各个局部掩模对应的掩模视觉特征，并提取查询掩模以及各个局部掩模对应的掩模位置特征，掩模视觉特征能够捕捉到相应对象所在局部区域的像素级视觉信息，掩模位置特征能够捕捉到相应对象所在局部区域的像素级位置信息，然后将各个掩模视觉特征分别与对应的掩模位置特征进行拼接，得到各个局部区域的区域特征，相当于将局部区域的像素级视觉信息和对应的像素级位置信息组合为像素级区域信息，然后提取目标图像的第一图像特征，并将第一图像特征以及多个区域特征拼接为目标拼接特征，然后基于目标拼接特征进行文本预测，生成目标对象的目标实体标识，在文本预测过程中，通过对目标拼接特征中的各个特征进行交互，既能关注第一图像特征所捕捉的全局视觉信息，又能关注各个候选对象对应的像素级区域信息，还能关注目标对象对应的像素级区域信息，因此，能够有效提高对目标图像的全局图像特征以及像素级细节的理解，从而提高目标实体标识的预测准确率，另外，将像素级的查询掩模作为视觉提示，能够高效、灵活且准确地指代目标对象，从而进一步提高目标实体标识的预测准确率。

本公开的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本公开而了解。

附图说明

附图用来提供对本公开技术方案的进一步理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开的技术方案，并不构成对本公开技术方案的限制。

图1为本公开实施例提供的一种可选的实施环境的示意图；

图2为本公开实施例提供的标识生成方法的一种可选的流程示意图；

图3为本公开实施例提供的确定掩模视觉特征的一种可选的流程示意图；

图4为本公开实施例提供的生成掩模的一种可选的流程示意图；

图5为本公开实施例提供的更新数据集的一种可选的流程示意图；

图6为本公开实施例提供的剔除原始图像的一种可选的架构示意图；

图7为本公开实施例提供的多种样本集中实体类别的一种可选的分布示意图；

图8为本公开实施例提供的优化样本集中实体类别的一种可选的饼状示意图；

图9为本公开实施例提供的标注掩模的面积比的一种可选的分布示意图；

图10为本公开实施例提供的训练阶段的一种可选的构架示意图；

图11为本公开实施例提供的标识生成装置的一种可选的结构示意图；

图12为本公开实施例提供的终端的部分结构框图；

图13为本公开实施例提供的服务器的部分结构框图。

具体实施方式

为了使本公开的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本公开进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本公开，并不用于限定本公开。

需要说明的是，在本公开的各个具体实施方式中，当涉及到需要根据目标对象属性信息或属性信息集合等与目标对象特性相关的数据进行相关处理时，都会先获得目标对象的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关法律法规和标准。其中，目标对象可以是用户。此外，当本公开实施例需要获取目标对象属性信息时，会通过弹窗或者跳转到确认页面等方式获得目标对象的单独许可或者单独同意，在明确获得目标对象的单独许可或者单独同意之后，再获取用于使本公开实施例能够正常运行的必要的目标对象相关数据。

本公开实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件（如处理电路或存储器）或其组合来全部或部分实现。同样的，一个处理器（或多个处理器或存储器）可以用来实现一个或多个模块或单元。此外，每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。

为便于理解本公开实施例提供的技术方案，这里先对本公开实施例使用的一些关键名词进行解释：

视觉实体链接（Visual Entity Linking，VEL），是指将图像中的对象与知识库中的相应实体进行匹配。

在相关技术中，通常通过将待识别图像编码为全局图像特征，同时将描述待识别图像中的目标对象的查询文本作为视觉提示，然后基于全局图像特征和查询文本的文本特征预测出图像对应的实体标识。然而，全局图像特征通常会忽略图像中的局部细节，导致信息丢失，从而降低实体标识的预测准确率。

基于此，本公开实施例提供了一种标识生成方法、装置、电子设备及存储介质，能够提高目标实体标识的预测准确率。

参照图1，图1为本公开实施例提供的一种可选的实施环境的示意图，该实施环境包括终端101和服务器102，其中，终端101和服务器102之间通过通信网络连接。

示例性地，服务器102可以获取终端发送的目标图像，然后获取目标图像中各个候选对象对应的局部掩模，在多个局部掩模中确定查询掩模，其中，查询掩模用于指示多个候选对象中被选择的目标对象；对目标图像分别进行基于查询掩模以及各个局部掩模的特征提取，得到多个掩模视觉特征，提取查询掩模以及各个局部掩模对应的掩模位置特征；将各个掩模视觉特征分别与对应的掩模位置特征进行拼接，得到多个区域特征；提取目标图像的第一图像特征，将第一图像特征以及多个区域特征进行拼接，得到目标拼接特征；基于目标拼接特征进行文本预测，生成目标对象的目标实体标识，然后服务器102将目标实体标识发送至终端101。

服务器102通过获取目标图像中各个候选对象对应的局部掩模，以及确定用于指示目标对象的查询掩模，进而通过特征提取得到查询掩模以及各个局部掩模对应的掩模视觉特征，并提取查询掩模以及各个局部掩模对应的掩模位置特征，掩模视觉特征能够捕捉到相应对象所在局部区域的像素级视觉信息，掩模位置特征能够捕捉到相应对象所在局部区域的像素级位置信息，然后将各个掩模视觉特征分别与对应的掩模位置特征进行拼接，得到各个局部区域的区域特征，相当于将局部区域的像素级视觉信息和对应的像素级位置信息组合为像素级区域信息，然后提取目标图像的第一图像特征，并将第一图像特征以及多个区域特征拼接为目标拼接特征，然后基于目标拼接特征进行文本预测，生成目标对象的目标实体标识，在文本预测过程中，通过对目标拼接特征中的各个特征进行交互，既能关注第一图像特征所捕捉的全局视觉信息，又能关注各个候选对象对应的像素级区域信息，还能关注目标对象对应的像素级区域信息，因此，能够有效提高对目标图像的全局图像特征以及像素级细节的理解，从而提高目标实体标识的预测准确率，另外，将像素级的查询掩模作为视觉提示，能够高效、灵活且准确地指代目标对象，从而进一步提高目标实体标识的预测准确率。

服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器。另外，服务器102还可以是区块链网络中的一个节点服务器。

终端101可以是手机、电脑、智能语音交互设备、智能家电、车载终端等，但并不局限于此。终端101以及服务器102可以通过有线或无线通信方式进行直接或间接地连接，本公开实施例在此不做限制。

参照图2，图2为本公开实施例提供的标识生成方法的一种可选的流程示意图，该标识生成方法可以由服务器执行，或者也可以由终端执行，或者也可以由服务器配合终端执行，该标识生成方法包括但不限于以下步骤201至步骤205。

步骤201：获取目标图像中各个候选对象对应的局部掩模，在多个局部掩模中确定查询掩模。

其中，目标图像是指需要进行视觉实体链接的图像，目标图像可包含多个候选对象，例如，候选对象可包括动物、植物、物品等主要对象，候选对象也可包括自然景观、建筑物、城市街道等背景对象。各个局部掩模分别用于指示对应的候选对象，各个局部掩模均能够在目标图像中指定对应的候选对象所在的区域，相当于局部掩模能够指代对应的候选对象；查询掩模用于指示多个候选对象中被选择的目标对象，查询掩模能够在目标图像中指定目标对象所在的局部区域，相当于查询掩模能够指代目标对象。

具体地，各个局部掩模均可为与目标图像尺寸相同的二值图像，在任意一个局部掩模中，所有像素值为1的像素点构成的关注区域用于指示目标图像中对应的候选对象所在的局部区域，所有像素值为0的像素点构成的非关注区域用于指示目标图像中其余的区域；可选地，局部掩模也可为其他尺寸的图像，局部掩模能够指示对应的候选对象即可，本公开实施例在此不作限定。

类似地，查询掩模可为与目标图像尺寸相同的二值图像，在查询掩模中，所有像素值为1的像素点构成的关注区域用于指示目标图像中的目标对象所在的局部区域，所有像素值为0的像素点构成的非关注区域用于指示目标图像中其余的区域；可选地，查询掩模也可为其他尺寸的图像，查询掩模能够指示目标对象即可，本公开实施例在此不作限定。

基于此，由于查询掩模是在多个局部掩模中确定的，所以查询掩模具体是基于相关人员的选择确定的，查询掩模能够表征相关人员的指代意图，目标对象是被相关人员选择的对象，目标对象可以是多个候选对象中的任意一个对象。

步骤202：对目标图像分别进行基于查询掩模以及各个局部掩模的特征提取，得到多个掩模视觉特征，提取查询掩模以及各个局部掩模对应的掩模位置特征。

其中，对目标图像分别进行基于查询掩模以及各个局部掩模的特征提取，具体是指对目标图像进行基于查询掩模的特征提取，以及对目标图像分别进行基于各个局部掩模的特征提取；假设局部掩模的数量为两个，那么对目标图像分别进行基于各个局部掩模的特征提取，具体是指对目标图像进行基于第一个局部掩模的特征提取，以及对目标图像进行基于第二个局部掩模的特征提取；每当对目标图像进行特征提取时，都能得到对应的掩模视觉特征。

基于此，对目标图像进行基于掩模的特征提取得到掩模视觉特征，相当于从目标图像中提取出更抽象且更具有信息量的局部视觉特征；由于查询掩模指代目标对象，以及局部掩模指代对应的候选对象，所以掩模视觉特征能够捕捉到相应对象所在局部区域的像素级视觉信息；另外，提取查询掩模以及各个局部掩模对应的掩模位置特征，相当于分别确定各个掩模之间的空间位置关系，由于查询掩模指代目标对象，以及局部掩模指代对应的候选对象，所以掩模位置特征能够捕捉到相应对象所在局部区域的像素级位置信息。

在一种可能的实现方式中，提取查询掩模以及各个局部掩模对应的掩模位置特征，具体可以是分别将查询掩模以及各个局部掩模展平后输入至位置编码器进行映射，得到查询掩模以及各个局部掩模对应的掩模位置特征。

步骤203：将各个掩模视觉特征分别与对应的掩模位置特征进行拼接，得到多个区域特征。

其中，将各个掩模视觉特征分别与对应的掩模位置特征进行拼接，具体是将每个局部掩模对应的掩模视觉特征与对应的掩模位置特征进行拼接，以及将查询掩模对应的掩模视觉特征与对应的掩模位置特征进行拼接。

例如，对于查询掩模以及各个局部掩模中的任意一个掩模，可将该掩模对应的掩模视觉特征拼接在对应的掩模位置特征的首端或者尾端，得到该掩模对应的区域特征；因此，查询掩模以及各个局部掩模中的任意一个掩模都有对应的区域特征，区域特征为掩模视觉特征与对应的掩模位置特征的组合结果。

基于此，通过拼接能够得到查询掩模以及各个局部掩模中每个掩模对应的区域特征，即得到每个对象所在局部区域的区域特征，该局部区域的区域特征相当于目标图像的局部特征；具体来说，将掩模视觉特征与掩模位置特征进行拼接，相当于将目标对象以及各个候选对象中每个对象所在局部区域的像素级视觉信息和对应的像素级位置信息进行组合，能够得到每个对象所在局部区域的像素级区域信息，因此，各个区域特征都能表征相应对象所在局部区域的区域细节，后续能够基于像素级区域信息提高对目标图像的像素级细节的理解。

步骤204：提取目标图像的第一图像特征，将第一图像特征以及多个区域特征进行拼接，得到目标拼接特征。

其中，将第一图像特征以及多个区域特征进行拼接，具体可将多个区域特征进行依次拼接，得到拼接结果，然后将第一图像特征拼接在该拼接结果的首端，得到目标拼接特征；除此之外，也可采用其他拼接顺序得到目标拼接特征，本公开实施例在此不作限定。

基于此，提取目标图像的第一图像特征，相当于从目标图像中提取出更抽象且更具有信息量的全局图像特征，第一图像特征能够捕捉到目标图像的全局视觉信息，将第一图像特征以及多个区域特征拼接为目标拼接特征，后续能够基于目标拼接特征既关注全局视觉信息，又关注像素级区域信息。

步骤205：基于目标拼接特征进行文本预测，生成目标对象的目标实体标识。

其中，目标实体标识用于指示知识库中的目标实体，目标实体标识具有唯一性，即知识库中不同的实体会对应不同的目标实体标识，在生成目标实体标识之后，可基于目标实体标识将目标对象与目标实体标识指示的目标实体进行链接。

具体地，目标实体标识具体可为单个标识符，也可以为由多个标识符组成的序列，本公开实施例在此不作限定，例如，目标实体标识可为[50,10,3]的序列，该目标实体标识包括3个标识符，分别为50、10和3。

值得注意的是，目标实体标识用于指示知识库中的实体，在知识库中，每个实体通常被设计为表示一个独一无二的对象，并对应一个全局唯一的标签，不同的标签能够指示不同的实体，例如，假设知识库中的某个实体的名称为“高尔夫球场”，则该实体对应的对象为高尔夫球场，该实体可表示为e=Q1048XXX，e为实体（entity），Q1048XXX为标签。

基于此，在文本预测过程中，通过对目标拼接特征中的各个特征进行交互，既能关注第一图像特征所捕捉的全局视觉信息，又能关注各个候选对象对应的像素级区域信息，还能关注目标对象对应的像素级区域信息，因此，能够有效提高对目标图像的全局图像特征以及像素级细节的理解，从而提高目标实体标识的预测准确率，另外，将像素级的查询掩模作为视觉提示，能够高效、灵活且准确地指代目标对象，从而进一步提高目标实体标识的预测准确率。

在一种可能的实现方式中，将第一图像特征以及多个区域特征进行拼接，得到目标拼接特征，具体可以是分别确定各个局部掩模的掩模面积，按照掩模面积的大小顺序，将各个局部掩模对应的区域特征进行拼接，得到第一拼接特征；将第一图像特征、第一拼接特征以及查询掩模对应的区域特征进行拼接，得到目标拼接特征。

其中，局部掩模的掩模面积是指该局部掩模中关注区域的区域面积，局部掩模中关注区域通常由所有像素值为1的像素点构成，该关注区域用于指示目标图像中对应的候选对象所在的局部区域；因此，当掩模面积越大时，代表对应的候选对象所在的局部区域越大，即该候选对象在目标图像中占据的空间越大，该候选对象的视觉显著性越高，反之，当掩模面积越小时，代表对应的候选对象所在的局部区域越小，即该候选对象在目标图像中占据的空间越小，该候选对象的视觉显著性越低。

基于此，按照掩模面积的大小顺序，将各个局部掩模对应的区域特征进行拼接，具体可将各个局部掩模按照掩模面积大小顺序进行排序，相当于将各个局部掩模按照视觉显著性的高低顺序进行排序，然后将排列后的各个局部掩模对应的区域特征依次进行拼接，得到第一拼接特征，因此，在文本预测过程中，能够按照固定的视觉注意顺序，依次关注各个候选对象所在局部区域的像素级区域信息，从而有效对目标图像的像素级细节的理解。

另外，将第一图像特征、第一拼接特征以及查询掩模对应的区域特征进行拼接，得到目标拼接特征，因此，在文本预测过程中，能够关注第一图像特征所捕捉的全局视觉信息，从而有效提高对目标图像的全局图像特征的理解，还能关注目标对象所在局部区域的像素级区域信息，实现通过查询掩模高效、灵活且准确地指代目标对象，从而进一步提高目标实体标识的预测准确率。

例如，各个局部掩模是按照掩模面积由大至小顺序进行排序的，那么在第一拼接特征中，依次拼接的各个区域特征所对应的候选对象的占据空间是越来越小的，在文本预测过程中，先关注较大占据空间的候选对象对应的区域特征，后关注较小占据空间的候选对象对应的区域特征，模拟了人类视觉注意顺序，后续在文本预测过程中确保占据空间较大的候选对象能够受到更广泛的关注，通常有助于提高目标实体标识的预测准确率。

又例如，各个局部掩模是按照掩模面积由小至大顺序进行排序的，那么在第一拼接特征中，依次拼接的各个区域特征所对应的候选对象的占据空间是越来越大的，在文本预测过程中，先关注较小占据空间的候选对象对应的区域特征，后关注较大占据空间的候选对象对应的区域特征，在特定场景中有助于提高目标实体标识的预测准确率。

具体地，由于第一图像特征可视为目标图像全局的特征，区域特征可视为目标图像局部的特征，所以由第一图像特征以及第一拼接特征拼接得到的特征可视为综合图像特征，以各个局部掩模按照掩模面积由大至小顺序进行排序为例，综合图像特征的确定公式如下：

其中，为综合图像特征，为第一图像特征，为第一个局部掩模，为第二个局部掩模，为第个局部掩模，为第一个局部掩模对应的区域特征，为第二个局部掩模对应的区域特征，为第个局部掩模对应的区域特征，为由多个区域特征拼接而成的第一拼接特征，第一拼接特征可视为包括多个区域特征的局部特征序列，即，为至中的任意一个区域特征，为该局部特征序列的长度，即为该局部特征序列中局部特征的个数，可见，第一拼接特征也可表示为。

另外，各个局部掩模的掩模面积之间的大小关系满足以下公式：

其中，为第个局部掩模的掩模面积，为第个局部掩模的掩模面积，即前一个局部掩模的掩模面积大于或者等于局部掩模的掩模面积，能够确保各个局部掩模是按照掩模面积由大至小顺序进行排序的，即是基于掩模面积的降序对各个区域特征进行排序得到的。

值得注意的是，假设掩模视觉特征以及掩模位置特征视为由掩模感知视觉提取器提取得到，而各个局部掩模均由语义分割模型分割得到，那么第一拼接特征的确定公式如下：

其中，为第一拼接特征，为目标图像，为任意一个局部掩模,为局部掩模对应的掩模视觉特征，为局部掩模对应的掩模位置特征，为掩模感知视觉提取器，为语义分割模型。

需要说明的是,、以及中的为目标图像，中的是指全局（global），该用于指示第一图像特征为目标图像的全局特征，中的是指局部（local），该用于指示第一拼接特征中的区域特征为目标图像的局部特征。

在一种可能的实现方式中，将第一图像特征、第一拼接特征以及查询掩模对应的区域特征进行拼接，得到目标拼接特征，具体可以是将第一图像特征、第一拼接特征以及查询掩模对应的区域特征进行依次拼接，得到目标拼接特征。基于此，将第一拼接特征拼接在第一图像特征的尾端，在文本预测过程中，能够先关注目标图像中用于捕捉整体信息的全局特征，后关注目标图像中用于捕捉精细细节的局部特征，通常有助于提高目标实体标识的预测准确率。

在一种可能的实现方式中，目标实体标识由第一大语言模型生成，将第一图像特征、第一拼接特征以及查询掩模对应的区域特征进行拼接，得到目标拼接特征，具体可以是构建用于提示第一大语言模型生成实体标识的提示文本；提取提示文本的文本特征，将第一图像特征、文本特征、第一拼接特征以及查询掩模对应的区域特征进行拼接，得到目标拼接特征。

其中，第一大语言模型属于大语言模型（Large Language Model，LLM），大语言模型是使用大量文本数据训练的深度学习模型，可以生成自然语言文本或理解语言文本的含义；大语言模型一般采用循环神经网络(RNN)或变种，如长短时记忆网络(LSTM)和门控循环单元(GRU)，以捕捉文本序列中的上下文信息，从而实现自然语言文本的生成、语言模型评估、文本分类、情感分析等任务；在自然语言处理领域，大语言模型已经被广泛应用，例如语音识别、机器翻译、自动摘要、对话系统、智能问答等；此处，目标实体标识属于自然语言文本，第一大语言模型用于处理生成目标实体标识的任务。

基于此，提示文本可视为提示指令（Prompt），提示指令可以理解为一种启动大语言模型的方式，提示指令能够指导大语言模型生成特定类型、主题或格式的内容，所以通过构建提示第一大语言模型生成实体标识的提示文本，目标拼接特征除了包含第一图像特征以及第一拼接特征以及查询掩模对应的区域特征以外，目标拼接特征还包含了提示文本的文本特征，后续将目标拼接特征作为第一大语言模型的输入，在提示文本的指导下，能够提升第一大语言模型对目标实体标识的生成质量，另外，通过在第一大语言模型内引入像素级区域特征的交叉注意力交互，还能够有效提高第一大语言模型对目标图像的全局特征以及像素级细节的理解，从而提高目标实体标识的预测准确率。

具体地，第一图像特征、文本特征以及区域特征构成了大语言模型的多模态输入，因此第一大语言模型可采用多模态大语言模型（Multimodal Large Language Model，MLLM），多模态大语言模型对多模态输入的处理效果较好，能够提高目标实体标识的预测准确率；其中，多模态通常指的是来自不同感官或来源的信息，例如视觉、听觉、触觉等，多模态大语言模型是大语言模型的扩展形式，相较于仅能处理对应于文本模态的输入数据的大语言模型，多模态大语言模型不仅能够处理对应于文本模态的输入数据，还能够处理对应于除了文本模态之外的其他模态的输入数据，例如，其他模态包括视觉模态、音频模态或者多种模态组合结果等等。

在一种可能的实现方式中，提示文本可包含指令文本和指代文本，指令文本为提示指令，而指代文本用于指代目标对象，将指代文本作为文本提示，能够进一步准确指代目标对象，从而进一步提高目标实体标识的预测准确率。

在一种可能的实现方式中，对目标图像分别进行基于查询掩模以及各个局部掩模的特征提取，得到多个掩模视觉特征，具体可以是对目标图像进行多层级特征提取，得到目标图像的多层级视觉特征；分别基于查询掩模以及各个局部掩模，对多层级视觉特征进行掩模池化，得到多个多层级池化特征；分别对各个多层级池化特征进行特征融合，得到多个掩模视觉特征。

具体地，掩模池化具体是指在目标图像中，对于查询掩模和各个局部掩模中的任意一个掩模，对于该掩模指代对象所在的局部区域，通过池化操作聚合该局部区域内所有像素点的多层级视觉特征，得到多层级池化特征；掩模池化可分为掩模操作和池化操作，下面先对掩模操作进行详细描述。

首先，对于查询掩模和各个局部掩模中的任意一个掩模，基于多层级视觉特征的层级数量，对该掩模的维度进行多次调整，得到各个层级的视觉特征匹配的目标掩模，其中，该掩模是二值图像，该掩模中的关注区域由像素值为1的像素点构成，而该掩模中的其他区域由像素值为0的像素点构成。例如，假设某个层级的视觉特征的维度为128×128×16，掩模的维度为512×512，在调整维度时，先对掩模的维度缩小至128×128，然后对缩小后的掩模进行通道复制，得到具有16个通道的多通道图像，将该多通道图像定义为目标掩模，该目标掩模的维度为128×128×16，由于该目标掩模的维度与该层级的视觉特征的维度相同，所以该目标掩模与该层级的视觉特征匹配；因此，当多层级视觉特征的层级数量为五个时，可对掩模的维度进行五次调整，能够得到五个层级的视觉特征各自匹配的目标掩模。

然后，将该层级的视觉特征与目标掩模进行逐元素相乘，保留落在目标掩模中关注区域内的视觉特征，而落在目标掩模中其他区域内的视觉特征变成0，得到维度为128×128×16的关注特征。

下面对池化操作进行详细描述，池化操作可采用平均池化或者最大池化，也可以采用其他池化方式，本公开实施例在此不作限定。

以池化操作采用平均池化为例，对各个层级的视觉特征进行掩模操作能够得到对应的关注特征，假设某个关注特征的维度为128×128×16，该关注特征包含16个通道的维度为128×128的初始特征图，对于初始特征图中的各个位置，取16个通道中对应位置的平均值作为新的特征图中对应位置的特征值，从而生成一个维度为128×128的单通道的池化特征图，对各个层级的视觉特征对应的关注特征进行池化操作后，能够各个层级的视觉特征对应的池化特征图，各个层级的视觉特征对应的池化特征图能够组成多层级池化特征。

其中，分别对各个多层级池化特征进行特征融合，具体可指对于任意一个多层级池化特征，对该多层级池化特征中的所有池化特征图进行特征融合，得到其中一个掩模视觉特征。

基于此，在多层级特征提取中能够提取到目标图像在不同层级的视觉特征，高层级的视觉特征通常比低层级的视觉特征更抽象且更具信息量，多层级视觉特征提供了更丰富和多样的数据表示，能够更全面和有效地学习和表达目标图像，得到合适的多层级视觉特征，然后在掩模池化过程中能够精确捕捉到目标图像中特定区域的像素级视觉信息，实现从目标对象以及各个候选对象所在局部区域中精确提取视觉特征，得到合适的多层级池化特征，然后在特征融合过程中能够整合不同层级的池化特征图，得到合适的掩模视觉特征，实现细粒度视觉理解，能够增强特定区域的像素级视觉信息的完整性，后续在文本预测过程中，能够有效提高对目标图像的像素级细节的理解，从而提高目标实体标识的预测准确率。

在一种可能的实现方式中，提取目标图像的第一图像特征，具体可以是对目标图像进行多层级特征提取，得到目标图像的多层级视觉特征；将多层级视觉特征输入至第一多层感知器进行映射，得到第一图像特征。

基于此，第一多层感知器用于进行多层感知处理，通过多层感知处理对多层级视觉特征进行进一步抽象，能够学习到更高级的数据表示，从而提高目标实体标识的预测准确率；第一多层感知器与第一大语言模型可联合训练。另外，在提取掩模视觉特征以及第一图像特征时，可利用同一个视觉编码器进行多层级特征提取，通过共享视觉编码器的特征映射，能够减小额外的计算和参数开销。

在一种可能的实现方式中，参考照图3，图3为本公开实施例提供的确定掩模视觉特征的一种可选的流程示意图，分别对各个多层级池化特征进行特征融合，得到多个掩模视觉特征，具体可以是对于任意一个多层级池化特征，分别对多层级池化特征中各个层级的子特征进行映射，得到多个维度相同的中间特征，将各个中间特征进行特征融合，得到融合特征；分别对各个融合特征进行多层感知处理，得到多个掩模视觉特征。

其中，将各个中间特征进行特征融合，具体可将各个中间特征进行求和，也可将各个中间特征进行拼接，本公开实施例在此不作限定。

基于此，多层级池化特征中各个层级的子特征为上述的池化特征图，由于不同层级的子特征的维度通常是不同的，所以在特征融合之前，需要先将各个子特征映射为维度相同的中间特征，再对维度相同的中间特征进行特征融合，得到融合特征，能够有效整合不同层级的子特征，通过多层感知处理对融合特征进行进一步抽象，能够学习到更高级的数据表示，最后生成合适的掩模视觉特征，为文本预测提供更为丰富和精确的视觉信息，有助于提高对目标图像的像素级细节的理解，从而提高目标实体标识的预测准确率。

具体地，当目标实体标识由第一大语言模型生成时，多层感知处理能够将具有视觉信息的融合特征映射为具有语言信息的掩模视觉特征，相当于将融合特征映射到一个与文本嵌入空间相匹配的特征空间中，实现特征在不同表示空间之间的转换，能够有效整合输入第一大语言模型的视觉信息和文本信息，有助于提高第一大语言模型对目标图像的像素级细节的理解，从而提高目标实体标识的预测准确率。

另外，各个中间特征可由对应的第一线性层映射得到；而分别对各个融合特征进行多层感知处理，具体可将各个融合特征分别输入至第二多层感知器进行映射，能够得到各个融合特征对应的掩模视觉特征，第一线性层、第二多层感知器以及第一大语言模型可联合训练。

在一种可能的实现方式中，获取目标图像中各个候选对象对应的局部掩模，在多个局部掩模中确定查询掩模，具体可以是获取目标图像以及目标图像的提示标记；对目标图像进行分割，得到各个候选对象对应的局部掩模，基于提示标记在各个局部掩模中确定查询掩模。

其中，目标图像包括多个候选对象，提示标记用于指示多个候选对象中被选择的目标对象，提示标记是指目标图像上绘制的标记，例如，提示标记可为目标图像上绘制的点、线、框、涂抹区等等。

具体地，对目标图像进行分割，具体可先预测出目标图像中各个像素点的类别分布概率，类别分布概率包括像素点属于各个候选对象的匹配概率值，对于任意一个像素点，将最高匹配概率值的候选对象确定为该像素点匹配的候选对象，各个候选对象所在的局部区域分别由所有匹配的像素点构成，然后能够基于各个像素点所匹配的候选对象，在目标图像中准确分割出各个候选对象所在的局部区域，然后能够基于各个候选对象所在的局部区域，准确确定各个候选对象对应的局部掩模。

例如，对于任意一个候选对象，创建一个与目标图像相同的初始图像，在初始图像中，将该候选对象所在的局部区域内的像素点的像素值赋值为1，将在初始图像中的其他区域内的像素点的像素值赋值为0，得到该候选对象对应的局部掩模；也可以通过其他方式确定候选对象对应的局部掩模，本公开实施例在此不作限定。

基于此，通过对目标图像进行分割，能够准确得到各个候选对象对应的局部掩模，提示标记可由相关人员绘制，提示标记能够表征相关人员的指代意图，所以提示标记指示的目标对象具体是被相关人员选择的对象，基于提示标记在局部掩模中确定查询掩模，使得查询掩模也能够表征相关人员的指代意图，通过将像素级的查询掩模作为视觉提示，能够高效、灵活且准确地表征指代目标对象，从而进一步提高目标实体标识的预测准确率。

具体地，参考图4，图4为本公开实施例提供的生成掩模的一种可选的流程示意图，可将目标图像以及提示标记输入至目标掩模生成模型进行掩模预测，生成局部掩模以及查询掩模，例如，目标掩模生成模型可采用Segment Anything Model（SAM）、Fast SegmentAnything Model（FastSAM）等模型，本公开实施例在此不作限定。

在一种可能的实现方式中，基于提示标记在各个局部掩模中确定查询掩模，具体可以是当提示标记为标记点时，基于标记点与各个局部掩模之间的位置关系，在各个局部掩模中确定查询掩模；

或者，当提示标记为标记框时，基于标记框与各个局部掩模的掩模边界之间的匹配程度，在各个局部掩模中确定查询掩模；

或者，当提示标记为标记区域时，基于标记区域与各个局部掩模之间的匹配程度，在各个局部掩模中确定查询掩模。

其中，标记点的数量可以是一个或者多个，当标记点的数量是一个时，标记点位于查询掩模的掩模边界内；当标记点的数量是多个时，可将关注区域内包含最多标记点的局部掩模确定为查询掩模，也可通过其他方式确定查询掩模，本公开实施例在此不作限定。

基于此，在处理标记点时，由于标记点为目标图像上目标对象的所在区域内的像素点，通过确定标记点与各个局部掩模之间的位置关系，能够确定标记点是否位于局部掩模的掩模边界内，即确定局部掩模中的关注区域是否包含标记点，然后可将关注区域内包含标记点的局部掩模确定为查询掩模；在处理标记框时，由于标记框的框选区域通常能够覆盖目标对象的所在区域，所以可计算标记框与各个局部掩模的掩模边界之间的匹配程度，然后将匹配程度最高的局部掩模确定为查询掩模；类似地，在处理标记区域时，标记区域相当于涂鸦，由于标记区域通常能够覆盖目标对象的所在区域，所以也可计算匹配程度，并将匹配程度最高的局部掩模确定为查询掩模；因此，上述三种处理方式都使得查询掩模能够有效覆盖目标对象的所在区域，进而确保查询掩模能够高效、灵活且准确地表征指代目标对象，从而进一步提高目标实体标识的预测准确率。

需要说明的是，提示标记可通过多种方式确定，例如，在显示界面中显示了目标图像以及图像标记控件，响应于图像标记控件的交互，确定提示标记；图像标记控件具体可包括图像点击控件、图像框选控件、图像涂抹控件等等；示例性地，当图像标记控件为图像点击控件时，响应于图像点击控件的交互，能够检测相关人员在目标图像上点击的像素点，进而将该像素点确定为标记点；当图像标记控件为图像框选控件时，响应于图像框选控件的交互，能够检测相关人员在目标图像上绘制的边界框，进而将该边界框确定为标记框；当图像标记控件为图像涂抹控件时，响应于图像涂抹控件的交互，能够检测相关人员在目标图像上绘制的涂抹区域，进而将该涂抹区域确定为标记区域。

又例如，在显示界面中显示了文本输入框，响应于文本输入框的交互，能够获取相关人员在文本输入框输入的内容，进而基于文本输入框输入的内容确定提示标记。示例性地，假设目标图像表示为一个x行y列的二维矩阵，那么文本输入框输入的内容可为“目标图像中位于第x'行第y'列的像素点”，进而基于文本输入框输入的内容，将目标图像中位于第x'行第y'列的像素点确定为标记点，其中，x'≤x，y'≤y。

在一种可能的实现方式中，基于标记区域与各个局部掩模之间的匹配程度，在各个局部掩模中确定查询掩模，具体可以是确定标记区域与各个局部掩模之间的交并比，即匹配程度具体为交并比，然后将交并比最大的局部掩模确定为查询掩模；或者，确定标记区域与各个局部掩模之间的中心距离，即匹配程度具体为中心距离，然后将中心距离最大的局部掩模确定为查询掩模；也可采用其他方式确定查询掩模，本公开实施例在此不作限定。

具体地，与标记区域的处理方式类似，标记框与各个局部掩模的掩模边界之间的匹配程度也可通过计算交并比或者中心距离等方式确定。

在一种可能的实现方式中，目标实体标识由第一大语言模型生成，第一大语言模型通过以下步骤训练得到：获取样本图像以及样本图像中样本对象对应的第二掩模，对样本图像进行分割，得到样本图像中各个视觉对象对应的第一掩模，其中，样本对象为多个视觉对象中的一个对象；提取样本图像的第二图像特征，对样本图像分别进行基于第二掩模以及各个第一掩模的特征提取，得到多个样本视觉特征，提取第二掩模以及各个第一掩模对应的样本位置特征；将第二图像特征、样本视觉特征以及样本位置特征拼接后输入至第一大语言模型进行文本预测，生成预测概率分布，其中，预测概率分布用于确定样本对象的实体标识；获取样本图像所链接的样本实体的第一实体标识，基于预测概率分布与第一实体标识确定模型损失，基于模型损失训练第一大语言模型。

值得注意的是，与目标图像类似，样本图像是指需要进行视觉实体链接的图像；与局部掩模类似，各个第一掩模分别用于指示对应的视觉对象，第一掩模能够在样本图像中指定相应视觉对象所在的局部区域；与查询掩模类似，第二掩模用于指示样本对象，第二掩模能够在样本图像中指定样本对象所在的局部区域；与目标对象类似，样本对象相当于从多个视觉对象中选择的对象；与掩模视觉特征类似，样本视觉特征能够捕捉到相应对象所在局部区域的像素级视觉信息；与掩模位置特征类似，样本位置特征能够捕捉到相应对象所在局部区域的像素级位置信息。

其中，样本实体用于指示样本对象，样本实体可为知识库中实体的标签，在知识库中，每个实体通常被设计为表示一个独一无二的对象，并对应一个全局唯一的标签，不同的标签能够指示不同的实体，例如，样本实体可为e=Q10000XX，e为实体（entity），Q10000XX为标签。

其中，第一实体标识可包括一个样本标识符或者多个样本标识符；当第一实体标识为由多个样本标识符组成的序列时，大语言模型会生成各个样本标识符对应的预测概率分布，各个预测概率分布均包括各个候选标识符的预测概率值，可基于最高预测概率值的候选标识符确定样本对象的实体标识；当第一实体标识为单个样本标识符时，预测概率分布包括各个候选标识符的预测概率值。

具体地，第一实体标识用于指示样本对象的样本实体，样本标识符可为分词或者分词的索引，样本标识符也可为其他形式，只要确保第一实体标识能够指示样本对象的样本实体即可，本公开实施例在此不作限定。

例如，当样本标识符为分词时，候选标识符也为分词，所有分词均记录在词表中,预测概率分布包括词表中的各个分词的预测概率值，例如，第一实体标识为[_course][olf][_G]，该第一实体标识包括3个样本标识符，第一样本标识符为[_course]，第二个样本标识符为[olf]，样本标识符为[_G]。

又例如，当样本标识符为分词的索引时，候选标识符也为分词的索引，所有分词以及对应的索引均可记录在词表中，预测概率分布包括词表中的各个分词的索引的预测概率值，假设词表包括100个分词以及对应的索引，则预测概率分布包括100个预测概率值；其中，索引用于指示对应分词在词嵌入矩阵中的位置，词嵌入矩阵包括词表中的各个分词在词嵌入空间中的词嵌入向量，假设第一实体标识为[10,40,5]，该第一实体标识包括3个样本标识符，分别为10、40和5，样本标识符10用于指示词嵌入矩阵中的第10个位置，样本标识符40用于指示词嵌入矩阵中的第40个位置，样本标识符5用于指示词嵌入矩阵中的第5个位置，此时，第一实体标识能够以整数序列的形式存在，该整数序列又可称为整数代码，实现了通过紧凑的整数代码来表示知识库中的每个实体。

基于此，通过获取样本图像，然后通过对样本图像进行分割得到样本图像中各个视觉对象对应的第一掩模，还获取样本图像中样本对象对应的第二掩模，进而通过特征提取得到第二掩模以及各个第一掩模对应的样本视觉特征，并提取第二掩模以及各个第一掩模对应的样本位置特征，通过第一大语言模型进行文本预测，能够生成用于确定实体标识的预测概率分布，然后基于样本实体的第一实体标识确定样本概率分布，将样本概率分布作为标签数据，然后根据预测概率分布和样本概率分布之间的差异确定模型损失，基于模型损失对第一大语言模型进行监督学习，通过迭代训练缩小模型损失，使得第一大语言模型能够提高对目标图像的全局特征以及像素级细节的理解，从而提高目标实体标识的预测准确率。

在一种可能的实现方式中，样本图像、第二掩模以及第一实体标识均从数据集中获取，获取样本图像以及样本图像中样本对象对应的第二掩模之前，标识生成方法还包括：获取多个原始图像以及各个原始图像对应的查询文本，根据各个原始图像以及对应的查询文本，分别确定各个原始图像对应的识别信息；获取多个候选实体，基于各个识别信息，分别在多个候选实体中确定各个原始图像对应的链接实体；基于各个原始图像以及对应的查询文本，分别确定各个原始图像的标注掩模；将各个原始图像、对应的标注掩模以及对应的链接实体关联存储至数据集。

其中，原始图像是指需要进行视觉实体链接的图像，原始图像通常包括多个对象，但只需要对原始图像中的关注对象进行视觉实体链接，与目标对象类似，关注对象相当于从原始图像中的多个对象中选择的对象，查询文本用于提示识别出对应的原始图像中的关注对象，查询文本能够表征指代关注对象的意图，标注掩模用于指示对应的关注对象，标注掩模能够在原始图像中指定关注对象所在的局部区域。

具体地，各个候选实体均可为知识库中实体的标签，在知识库中，每个实体通常被设计为表示一个独一无二的对象，并对应一个全局唯一的标签，例如，某个候选实体可为e=Q10000XX，另一个候选实体可为e=Q20000XX，e为实体（entity），Q10000XX和Q20000XX均为标签；因此，链接实体也可为知识库中实体的标签。

其中，样本图像从多个原始图像中采样得到，第二掩模为样本图像对应的标注掩模，样本实体为样本图像所链接的链接实体。

基于此，根据原始图像以及对应的查询文本所提供额外的语义上下文，能够确定准确的识别信息，进而基于识别信息，能够确定准确的链接实体，原始图像、对应的标注掩模以及对应的链接实体之间存在关联性，因此可将原始图像、对应的标注掩模以及对应的链接实体作为一组训练样本，并将原始图像、对应的标注掩模以及对应的链接实体关联存储至数据集，实现将原始图像与对应的链接实体进行链接，使得标注掩模所指示的关注对象与对应的链接实体存在链接关系；由于数据集通常包括多组训练样本，在训练过程中可从数据集中采样出训练样本，然后将被采样得到的训练样本中的原始图像确定为样本图像，并将被采样得到的训练样本中的标注掩模确定为第二掩模，以及将被采样得到的训练样本中的链接实体确定为样本实体，确保采样得到的样本图像、第二掩模以及样本实体之间存在关联性，从而确保训练过程的有效进行。

具体地，从数据集中采样出训练样本的方式可为随机采样、均匀采样等等，本公开实施例在此不作限定；在训练过程中，可以先利用从数据集采集得到的训练样本对第一大语言模型进行预训练，使得第一大语言模型学习实体以及实体标识的知识，有助于在推理过程中生成有效的目标实体标识。然后利用下游场景的训练样本对第一大语言模型进行微调，以提高第一大语言模型进行细粒度视觉实体链接的能力。

具体地，链接实体可通过多种方式确定，下面对链接实体的第一种确定方式进行详细描述。

在一种可能的实现方式中，识别信息为识别编码结果，根据各个原始图像以及对应的查询文本，分别确定各个原始图像对应的识别信息，具体可以是分别将各个原始图像以及对应的查询文本输入至多模态编码模型进行编码，得到各个原始图像对应的识别编码结果；其中，多模态编码模型可为对比语言图像预训练模型（Contrastive Language–ImagePre-training，CLIP）、路径语言图像模型（Pathways Language and Image model，PaLI）等等，本公开实施例在此不作限定。

然后，基于各个识别信息，分别在多个候选实体中确定各个原始图像对应的链接实体，具体可以是将知识库中各个候选实体的候选名称文本以及对应的候选图像，输入至多模态编码模型进行编码，得到各个候选实体对应的候选编码结果；对于任意一个原始图像，分别确定原始图像对应的识别编码结果与各个候选编码结果之间的相似度，将相似度最高的候选编码结果确定为目标编码结果，将目标编码结果对应的候选实体确定为原始图像对应的链接实体；基于此，能够快速且准确确定原始图像对应的链接实体。

需要说明的是，知识库除了存储候选实体的标签以外，还会存储候选实体的相关文本以及对应的候选图像，候选图像用于展示候选实体，候选实体的相关文本包括候选实体的名称文本以及描述文本，名称文本用于指示实体且具有可读性，描述文本用于描述候选实体。

下面对链接实体的第二种确定方式进行详细描述。

在另一种可能的实现方式中，识别信息为识别名称文本，根据各个原始图像以及对应的查询文本，分别确定各个原始图像对应的识别信息，具体可以是分别将各个原始图像以及对应的查询文本输入至多模态编码模型进行编码，得到各个原始图像对应的识别编码结果；对识别编码结果进行解码，得到原始图像对应的识别名称文本。

然后，基于各个识别信息，分别在多个候选实体中确定各个原始图像对应的链接实体，具体可以是对于任意一个原始图像，基于原始图像对应的识别名称文本，在知识库中各个候选实体的候选名称文本中检索出一致的目标名称文本，将目标名称文本对应的候选实体确定为原始图像对应的链接实体；基于此，能够准确确定原始图像对应的链接实体。

需要说明的是，链接实体还可以通过其他方式确定，本公开实施例在此不作限定。

在一种可能的实现方式中，基于各个原始图像以及对应的查询文本，分别确定各个原始图像的标注掩模，具体可以是将各个查询文本分别输入至第二大语言模型进行文本预测，生成各个原始图像对应的概括文本；分别基于各个原始图像和对应的概括文本进行对象检测，生成各个原始图像对应的原始边界框，其中，原始边界框用于指示对应的关注对象；分别将各个原始图像和对应的原始边界框输入至第一掩模生成模型进行掩模预测，生成各个原始图像对应的标注掩模。

其中，第二大语言模型属于大语言模型，第二大语言模型用于处理提取文本的指代表达式的任务，第二大语言模型能够基于查询文本生成对应的概括文本，概括文本能够描述关注对象的位置或者与其他对象之间的关系，例如，假设查询文本为“椅子上放置的棕色物品是什么”，对应的概括文本可为“椅子上的棕色物品”。

基于此，基于原始图像和对应的概括文本进行对象检测，能够生成准确的原始边界框，使得原始边界框能够覆盖关注对象的所在区域，然后将原始图像和对应的原始边界框输入至第一掩模生成模型进行掩模预测，通过原始边界框提供准确的位置提示，能够提高第一掩模生成模型生成标注掩模的质量，从而有效提高标注掩模的标注成功率。

具体地，参考照图5，图5为本公开实施例提供的更新数据集的一种可选的流程示意图。

首先，根据原始图像和对应的查询文本确定识别信息，基于识别信息确定对应的链接实体；

然后，将查询文本输入至第二大语言模型进行文本预测，生成概括文本，将原始图像和对应的概括文本输入至对象预测模型进行对象检测，生成准确的原始边界框；其中，对象检测模型可采用Grounding DINO模型，也可采用其他模型，本公开实施例在此不作限定。

然后，将原始图像和对应的原始边界框输入至第一掩模生成模型进行掩模预测，生成标注掩模，其中，第一掩模生成模型可采用Segment Anything Model（SAM）、FastSegment Anything Model（FastSAM）等模型，本公开实施例在此不作限定。

然后，将原始图像、对应的标注掩模以及对应的链接实体关联存储至数据集。

在一种可能的实现方式中，参照图6，图6为本公开实施例提供的剔除原始图像的一种可选的架构示意图，分别将各个原始图像和对应的原始边界框输入至第一掩模生成模型进行掩模预测，生成各个原始图像对应的标注掩模之后，标识生成方法还包括：获取各个链接实体对应的参考名称文本，其中，参考名称文本用于指示参考实体的名称，参考实体在知识库中的层级高于链接实体在知识库中的层级；分别将各个原始图像和对应的参考名称文本输入至第二掩模生成模型进行掩模预测，生成各个原始图像对应的参考掩模；确定各个标注掩模与对应的参考掩模之间的匹配程度，得到各个标注掩模对应的目标匹配度；当目标匹配度小于预设的匹配度阈值时，剔除目标匹配度对应的原始图像。

其中，知识库的类型可为知识图谱，知识库中不同的实体可存在层级关系，假设知识库包括名称为“哺乳动物”的实体e=Q73XX，知识库还包括名称为“猫”的实体e=Q3009XX，由于“猫”属于“哺乳动物”，所以可在知识库中设定实体e=Q73XX与实体e=Q3009XX存在层级关系，且实体e=Q73XX的层级高于实体e=Q3009XX；因此，假设链接实体为实体e=Q3009XX，由于实体e=Q73XX的层级高于实体e=Q3009XX，可将实体e=Q73XX确定为参考实体，以及将“哺乳动物”确定为参考名称文本，也可将更高层级的实体确定为参考实体，本公开实施例在此不作限定。

其中,第二掩模生成模型可采用Segment Everything Everywhere All at OnceModel（SEEM）模型，也可采用其他模型，本公开实施例在此不作限定。

需要说明的是，匹配度阈值可通过训练后的第一回归模型的预测得到或者通过多次试验确定，本公开实施例在此不作限定。

基于此，将原始图像和对应的参考名称文本输入至第二掩模生成模型进行掩模预测，通过参考名称文本扩大关注对象的语义范围，能够提高第二掩模生成模型生成参考掩模的质量，然后确定标注掩模与对应的参考掩模之间的匹配程度，当目标匹配度小于预设的匹配度阈值时，代表第一掩模生成模型可能生成了低质量的标注掩模，通过剔除该目标匹配度对应的原始图像，相当于对原始图像进行过滤，能够避免将低质量的训练样本存储至数据集，从而有效提高第一大语言模型的训练质量；通过将第二掩模生成模型生成的参考掩模作为补充策略，过滤不合适的标注掩模，以应对第一掩模生成模型在生成过程中可能出现的错误传播问题。

具体地，与标记区域的处理方式类似，各个标注掩模与对应的参考掩模之间的匹配程度也可通过计算交并比或者中心距离等方式确定。

在一种可能的实现方式中，除了将参考名称文本输入至第二掩模生成模型之外，还可将链接实体的名称文本、描述文本、类别文本等内容输入至第二掩模生成模型，能够进一步提高第二掩模生成模型生成参考掩模的质量。

在一种可能的实现方式中，针对不同的任务目标、数据处理需求或者应用场景，可将各个原始图像以及对应查询文本划分至不同的原始子集，假设原始子集包括实体子集和查询子集，实体子集的任务目标是让模型能够从原始图像中识别出具体的实体，实体子集的查询文本通常用于描述应从图像中识别的实体类型，例如，原始图像展示了一只猫，查询文本可为“识别图中的动物”；而查询子集的任务目标是让模型既能识别图像中的实体，还能理解查询文本的语境和意图，例如，原始图像展示了一个戴着发带的女孩，查询文本可为“小女孩的头发上戴着什么”。

具体地，原始子集还可包括人类标注子集，人类标注子集的任务目标可以与实体子集或者查询子集的任务目标相同，人类标注子集内的原始图像经过人工筛选，人类标注子集内的查询文本由人工设定，能够确保人类标注子集的质量。

在一种可能的实现方式中，在确定各个标注掩模与对应的参考掩模之间的匹配程度，得到各个标注掩模对应的目标匹配度之后，标识生成方法还包括：当目标匹配度大于或者等于匹配度阈值，且原始图像以及对应的查询文本来自实体子集时，无需调整标注掩模；或者，当目标匹配度大于或者等于匹配度阈值，且原始图像以及对应的查询文本来自查询子集时，将各个标注掩模分别替换为对应的参考掩模。

基于此，能够提高实体子集中各个原始图像的标注掩模的准确性，还能够提高查询子集中各个原始图像的标注掩模的准确性。

在一种可能的实现方式中，将各个原始图像、对应的标注掩模以及对应的链接实体关联存储至数据集之前，标识生成方法还包括：统计各个标注掩模中连通区域的数量，得到各个标注掩模对应的区域数量；当区域数量大于预设的数量阈值时，剔除区域数量对应的原始图像。

其中，连通区域是由标志掩模中具有相同像素值并彼此相邻的像素点所构成的区域，标注掩模可为二值图像，连通区域内像素点的像素值为1，连通区域之外的区域内像素点的像素值为0，连通区域相当于标志掩模中的关注区域。

通常情况下，一个对象在图像中所占的区域大部分或者全部是连通的，因此，当连通区域的数量过多时，代表标注掩模可能指示了原始图像中的多个对象，即标注掩模无法准确地仅指示原始图像中的关注对象。

基于此，当区域数量大于数量阈值时，可认为连通区域的数量过多，将该标注掩模定义为低质量的掩模，通过剔除对应的原始图像，能够避免将低质量的训练样本存储至数据集，从而有效提高第一大语言模型的训练质量。

需要说明的是，数量阈值可通过训练后第二回归模型的预测得到或者通过多次试验确定，本公开实施例在此不作限定。

在一种可能的实现方式中，剔除原始图像相当于过滤训练样本，由于不属于视觉实体的关注对象无法有效地被标注掩模指示，所以除了基于区域数量过滤训练样本之外，可利用过滤器对训练样本进行过滤，例如，通过文本过滤器对查询文本进行过滤，能够剔除关注对象不属于视觉实体的原始图像，比如原始图像的关注对象是某个会议，就剔除该原始图像。

具体地，参考图7，图7为本公开实施例提供的多种样本集中实体类别的一种可选的分布示意图。

其中，将由过滤前且未携带标注掩模的所有训练样本构成的样本集定义为初始样本集，以及将过滤后的所有训练样本构成的样本集定义为优化样本集，可见，在各个实体类别中，优化样本集的样本数量小于初始样本集的样本数量，特别是在地点、建筑和体育类别中，原始图像中的关注对象通常不属于视觉实体，利用过滤器进行过滤，使得优化样本集的样本数量远小于初始样本集的样本数量。

参考图8，图8为本公开实施例提供的优化样本集中实体类别的一种可选的饼状示意图。

可见，在优化样本集中，其他类别、动物类别以及植物类别的占比是相对较大的，这些类别的关注对象通常属于视觉实体，属于视觉实体的关注对象能够有效地被标注掩模指示，因此，通过优化样本集中的训练样本，能够对第一大语言模型进行有效训练。

另外，参考图9，图9为本公开实施例提供的标注掩模的面积比的一种可选的分布示意图。

其中，标注掩模的面积比具体为标注掩模的面积与对应的原始图像的面积之间的比值，可见，面积比的分布曲线整体平滑，而当面积比超过95%时，频率会略有上升，这是由于部分原始图像中存在密集的物体群，例如，原始图像包括成群的植被，在标注过程中，会将其视为一个连贯的对象，利用标注掩模指示成群的植被。

下面对初始样本集以及优化样本集的一种可选的数据统计情况进行详细描述。

对于初始样本集，数据统计情况如下表1所示：

表1

由表1可知，初始样本集可包括训练集、验证集、测试集以及人工标注集，初始样本集包含了5214965张图像的5245421个标注，共覆盖了20077个实体，其中，人工标注集是指人为标注的数据集，“可见”是指图像中的关注对象通常属于视觉实体，“不可见”是指图像中的关注对象通常不属于视觉实体。

对于优化样本集，数据统计情况如下表2所示：

表2

由表2可知，优化样本集包含了1965145个携带有标注掩模的训练样本，能够对第一大语言模型进行有效训练。

在一种可能的实现方式中，获取样本图像所链接的样本实体的第一实体标识，具体可以是获取样本图像所链接的样本实体的样本名称文本，对样本名称文本进行分词得到多个第一分词；确定各个第一分词在知识库中的出现频率，基于各个出现频率由小至大的顺序，对各个第一分词进行排序，将排列在前L位的第一分词确定为第二分词；基于各个第二分词，确定样本实体的第一实体标识。

其中，样本名称文本用于指示样本实体且具有可读性，可通过多种方式对样本名称文本进行分词，例如将样本名称文本输入至文本分词器进行分词，或者按照固定的长度对样本名称文本进行分词，本公开实施例在此不作限定。

其中，知识库包括多个候选实体以及对应的候选名称文本，候选名称文本为知识库中的文本语料，在确定第一分词在知识库中的出现频率时，可先对知识库中所有文本语料进行分词，然后通过所有分词结构构建分词并集，再将第一分词在分词并集中的出现频率作为第一分词在知识库中的出现频率。可选地，文本语料除了包含候选名称文本以外，也可包含候选实体的描述文本，或者其他文本，本公开实施例在此不作限定。

其中，L为正整数，基于各个出现频率由小至大的顺序，对各个第一分词进行排序，将排列在前L位的第一分词确定为第二分词，相当于将各个第一分词按照在分词并集中的出现频率升序后取前L个分词作为第二分词；通常情况下，L小于或者等于第一分词的数量，当L的数量大于第一分词的个数时，将所有排序后的第一分词确定为第二分词即可，L的取值通常较小，例如，L可取4，能够提高第一大语言模型的解码效率。

基于此，对样本名称文本进行分词得到第二分词，能够将长文本的样本名称文本分解为更小的单元，使得第一大语言模型能够更有效地学习和理解语言的结构和意义，还能够提高处理效率，通过将各个第一分词按照在分词并集中的出现频率升序后取前L个分词，相当于选择出现频率最低的分词，使得由所有第二分词确定的第一实体标识更具独特性，能够减少混淆，而且出现频率越低的第二分词排在越前面，使得第一大语言模型能够先解码出更具区分性的结果，从而提高实体标识的预测准确率；另外，由于第一实体标识最多由L个第二分词确定，所以实体标识的长度有限，能够提高第一大语言模型的解码效率。

具体地，第一实体标识可包括一个样本标识符或者多个样本标识符；样本标识符可为分词或者分词的索引，样本标识符也可为其他形式，本公开实施例在此不作限定。

以候选标识符具体为分词为例，当第一实体标识为由多个样本标识符组成的序列时，第一实体标识的确定公式如下：

其中，为第一实体标识，为文本分词器，为样本名称文本，为多个第一分词，为知识库，为知识库中的第个候选实体，是指对第个候选实体的候选名称文本进行分词，是指知识库中所有候选实体的候选名称文本的分词结果的分词并集，用于按照词频升序后取前L个分词，是指各个第一分词按照在分词并集中的出现频率升序后取前L个分词，即包括各个第二分词，各个第二分词均可作为样本标识符，因此，第一实体标识由所有样本标识符组成。

示例性地，假设样本名称文本为Golf course，对样本名称文本进行分词得到三个第一分词，分别为[_G]、[olf]和[_course]，基于各个出现频率由小至大的顺序，对各个第一分词进行排序，得到[_course][olf][_G]，假设L等于3，那么第一实体标识为[_course][olf][_G]。

在一种可能的实现方式中，将第二图像特征、样本视觉特征以及样本位置特征拼接后输入至第一大语言模型进行文本预测，生成预测概率分布，具体可以是构建用于提示第一大语言模型生成实体标识的提示文本；提取提示文本的文本特征，将第二图像特征、文本特征、样本视觉特征以及样本位置特征拼接后输入至第一大语言模型进行文本预测，生成预测概率分布。

具体地，基于第一大语言模型生成的预测概率分布能够确定每个样本标识符对应的预测标识符，所有预测标识符能够组成预测实体标识，预测标识符的确定公式如下：

其中，为预测实体标识中第个位置的预测标识符，为预测实体标识中第个位置之前的预测标识符，为文本特征，为第二图像特征，为样本视觉特征以及样本位置特征，用于指示词嵌入矩阵，用于指示基于词嵌入矩阵对进行词嵌入处理，为预测实体标识中第个位置之前的预测标识符在词嵌入矩阵中对应的词嵌入向量，用于指示第一大语言模型，第一大语言模型能够基于输入的、、以及，生成预测实体标识中第个位置的概率分布，进而基于概率分布预测出预测实体标识中第个位置的预测标识符，然后再将预测得到的预测标识符对应的词嵌入向量输入第一大语言模型，以供第一大语言模型预测出下一个位置预测标识符，直至满足结束预设的结束条件，所有预测得到的预测标识符能够组成预测实体标识。

下面详细说明标识生成方法的完整过程，完整过程包括训练阶段和推理阶段。

下面对训练阶段进行详细描述。

参照图10，图10为本公开实施例提供的训练阶段的一种可选的构架示意图。

首先，获取多个原始图像以及各个原始图像对应的查询文本，根据各个原始图像以及对应的查询文本，分别确定各个原始图像对应的识别信息，其中，查询文本用于提示识别出对应的原始图像中的关注对象；获取多个候选实体，基于各个识别信息，分别在多个候选实体中确定各个原始图像对应的链接实体。

然后，将各个查询文本分别输入至第二大语言模型进行文本预测，生成各个原始图像对应的概括文本；分别基于各个原始图像和对应的概括文本进行对象检测，生成各个原始图像对应的原始边界框，其中，原始边界框用于指示对应的关注对象；分别将各个原始图像和对应的原始边界框输入至第一掩模生成模型进行掩模预测，生成各个原始图像对应的标注掩模，其中，标注掩模用于指示对应的关注对象。

然后，获取各个链接实体对应的参考名称文本，其中，参考名称文本用于指示参考实体的名称，参考实体在知识库中的层级高于链接实体在知识库中的层级；分别将各个原始图像和对应的参考名称文本输入至第二掩模生成模型进行掩模预测，生成各个原始图像对应的参考掩模；确定各个标注掩模与对应的参考掩模之间的匹配程度，得到各个标注掩模对应的目标匹配度；当目标匹配度小于预设的匹配度阈值时，剔除目标匹配度对应的原始图像。

然后，统计各个标注掩模中连通区域的数量，得到各个标注掩模对应的区域数量；当区域数量大于预设的数量阈值时，剔除区域数量对应的原始图像；然后，将各个原始图像、对应的标注掩模以及对应的链接实体关联存储至数据集，其中，样本图像从多个原始图像中采样得到，第二掩模为样本图像对应的标注掩模，样本实体为样本图像所链接的链接实体。

然后，获取样本图像以及样本图像中样本对象对应的第二掩模，对样本图像进行分割，得到样本图像中各个视觉对象对应的第一掩模，其中，样本对象为多个视觉对象中的一个对象，例如，可将样本图像输入至目标掩模生成模型进行全景分割，得到多个第一掩模；

然后，提取样本图像的第二图像特征，例如，可将样本图像输入至视觉编码器进行多层级特征提取，得到多层级编码特征；将多层级编码特征输入至第一多层感知器进行映射，得到第二图像特征；

然后，对样本图像分别进行基于第二掩模以及各个第一掩模的特征提取，得到多个样本视觉特征，提取第二掩模以及各个第一掩模对应的样本位置特征，例如，可将多层级编码特征、第二掩模以及各个第一掩模输入至掩模感知视觉提取器，基于掩模感知视觉提取器对多层级编码特征进行特征提取，得到多个样本视觉特征，以及通过位置编码得到第二掩模以及各个第一掩模对应的多个样本位置特征。

然后，构建用于提示第一大语言模型生成实体标识的提示文本；提取提示文本的文本特征；将第二图像特征、提示文本的文本特征、样本视觉特征以及样本位置特征拼接后输入至第一大语言模型进行文本预测，生成预测概率分布，其中，预测概率分布用于确定样本对象的实体标识；

然后，获取样本图像所链接的样本实体的样本名称文本，对样本名称文本进行分词得到多个第一分词；确定各个第一分词在知识库中的出现频率，基于各个出现频率由小至大的顺序，对各个第一分词进行排序，将排列在前L位的第一分词确定为第二分词，其中，L为正整数；基于各个第二分词，确定样本实体的第一实体标识；基于预测概率分布与第一实体标识确定模型损失，基于模型损失训练第一大语言模型，其中，样本实体用于指示样本对象。

下面对推理阶段进行详细描述。

首先，获取目标图像以及目标图像的提示标记；对目标图像进行分割，得到各个候选对象对应的局部掩模。其中，目标图像包括多个候选对象，提示标记用于指示多个候选对象中被选择的目标对象。

然后，当提示标记为标记点时，基于标记点与各个局部掩模之间的位置关系，在各个局部掩模中确定查询掩模；或者，当提示标记为标记框时，基于标记框与各个局部掩模的掩模边界之间的匹配程度，在各个局部掩模中确定查询掩模；或者，当提示标记为标记区域时，基于标记区域与各个局部掩模之间的匹配程度，在各个局部掩模中确定查询掩模。其中，查询掩模用于指示多个候选对象中被选择的目标对象。

然后，对目标图像进行多层级特征提取，得到目标图像的多层级视觉特征；分别基于查询掩模以及各个局部掩模，对多层级视觉特征进行掩模池化，得到多个多层级池化特征。

然后，对于任意一个多层级池化特征，分别对多层级池化特征中各个层级的子特征进行映射，得到多个维度相同的中间特征，将各个中间特征进行特征融合，得到融合特征；分别对各个融合特征进行多层感知处理，得到多个掩模视觉特征；提取查询掩模以及各个局部掩模对应的掩模位置特征。

然后，将各个掩模视觉特征分别与对应的掩模位置特征进行拼接，得到多个区域特征；提取目标图像的第一图像特征，分别确定各个局部掩模的掩模面积，按照掩模面积的大小顺序，将各个局部掩模对应的区域特征进行拼接，得到第一拼接特征。

然后，构建用于提示第一大语言模型生成实体标识的提示文本；提取提示文本的文本特征，将第一图像特征、文本特征、第一拼接特征以及查询掩模对应的区域特征进行拼接，得到目标拼接特征；基于目标拼接特征进行文本预测，生成目标对象的目标实体标识。

基于此，通过获取目标图像中各个候选对象对应的局部掩模，以及确定用于指示目标对象的查询掩模，进而通过特征提取得到查询掩模以及各个局部掩模对应的掩模视觉特征，并提取查询掩模以及各个局部掩模对应的掩模位置特征，掩模视觉特征能够捕捉到相应对象所在局部区域的像素级视觉信息，掩模位置特征能够捕捉到相应对象所在局部区域的像素级位置信息，然后将各个掩模视觉特征分别与对应的掩模位置特征进行拼接，得到各个局部区域的区域特征，相当于将局部区域的像素级视觉信息和对应的像素级位置信息组合为像素级区域信息，然后提取目标图像的第一图像特征，并将第一图像特征以及多个区域特征拼接为目标拼接特征，然后基于目标拼接特征进行文本预测，生成目标对象的目标实体标识，在文本预测过程中，通过对目标拼接特征中的各个特征进行交互，既能关注第一图像特征所捕捉的全局视觉信息，又能关注各个候选对象对应的像素级区域信息，还能关注目标对象对应的像素级区域信息，因此，能够有效提高对目标图像的全局图像特征以及像素级细节的理解，从而提高目标实体标识的预测准确率，另外，将像素级的查询掩模作为视觉提示，能够高效、灵活且准确地指代目标对象，从而进一步提高目标实体标识的预测准确率。

下面先对本公开提供的模型的训练过程进行详细描述。

本公开提供的第一大语言模型可经过两阶段的训练，在第一训练阶段中，通过包含200万样本的初始样本集对第一大语言模型进行预训练，在第二训练阶段中，通过优化样本集中的实体子集以及查询子集对预训练后的第一大语言模型进行微调。

由于优化数据集包含约450万个训练样本，所以在微调过程中，考虑到计算资源的限制和优化数据集的巨大规模，可将每个实体对应的训练样本的数量限制在50个以内，实现了在实体子集以及查询子集中仅使用了大约7%的训练样本，总数量约30万个，能够有效节省计算资源，提高训练效率。此外，所有输入图像的尺寸都统一预处理为512×512，能够确保训练的一致性，将实体标识的长度限制为4，避免实体标识的长度过长，从而提高训练效率。

然后，下面对本公开提供的模型与其他模型的评估过程进行详细描述。

评估所用的数据集可分为验证集和测试集，评估结果如下表3所示：

表3

其中，“无”表示未使用提示来引用视觉信息，是指基于检索的判别模型，是指生成模型，是指无需微调的零样本模型，“全部”所在列的准确率是由对应的实体子集以及查询子集所构成的数据集所确定的准确率；相较于本公开提供的模型，参考模型的区别在于将图像中的关注对象所对应的掩模的视觉特征以及位置特征输入至第一大语言模型，而未将图像中的其他对象所对应的掩模的视觉特征以及位置特征输入至第一大语言模型，参考模型-微调是指微调后的参考模型。

具体地，表3展示了不同提示类型的视觉语言（Vision-Language）模型在验证集和测试集上的准确率结果，将准确率作为衡量验证集和测试集上模型表现的关键指标，对于每个数据集，评估模型在实体子集以及查询子集上的表现，并计算各个子集中所有样本的总体准确率作为最终评估依据。

另外，考虑到零样本推理模型在生成实体标识以及处理特定领域的实体名称文本等方面存在挑战，需要使用BM25检索来处理生成的结果，具体来说，需要搜索知识库中600万条实体名称文本，然后选择将最相近的搜索结果作为计算准确率的基础。

由表3可知，相较于基于文本提示的视觉语言模型，本公开提供的模型在实体子集上取得了显著的提升，性能差异在-2.0%至11.3%，这个评估结果表明，通过精细化的视觉特征建模，可以缓解缺乏文本先验所带来的挑战。

然后，相较于和，本公开提供的模型在查询子集上的性能存在22%至42%的差距，可认为这是由于查询子集主要来源于视觉问答（VQA）而造成的，视觉问答的问题通常不仅涉及对视觉信息的引用，而且通常包含额外的查询意图，例如，“由……制成”、“产于”、“需要多少水”等，这些情况需要文本来表达用户意图和进行进一步推理，超出了VEL的范围。本公开提供的模型是基于视觉掩码的参考提示，所以无法较好地覆盖这些问题。基于此，对于查询子集中的数据，需要采用第二大语言模型提取其引用表达式，并将其替换为视觉掩码标记，以保留查询意图以外的参考信息。

然后，下面对本公开提供的模型的消融实验进行详细描述。

消融实验结果如下表4所示：

表4

其中，PT是指对模型进行预训练，FT是指对模型进行微调；相较于本公开提供的模型，参考模型的区别在于将图像中的关注对象所对应的掩模的视觉特征以及位置特征输入至第一大语言模型，而未将图像中的其他对象所对应的掩模的视觉特征以及位置特征输入至第一大语言模型，因此，参考模型可以视为在本公开提供的模型中去除了处理其他对象所对应的掩模的相应组件的模型。

具体地，表4展示了本公开提供的模型的消融实验结果，能够评估视觉语义标记和训练的有效性，实验结果显示，引入细粒度的局部视觉特征，能够显著提高模型的准确率，在实体子集上的准确率增加了3.7%至5.0%，在查询子集上的准确率增加了3.5%至5.5%。此外，微调也显著提高了模型的整体准确率，而预训练的影响相对较小，预训练的改进幅度在0.1%至1.6%。

基于此，能够确定本公开提供的模型在预训练阶段中的成功主要是由于：构建了较大规模的预训练数据集，例如，预训练数据集包含5500万个样本；以及使用GenerativeImage-to-text Transformer（GIT）作为骨干（具有4亿参数），并结合随机初始化的文本解码器。通过结合有限的模型参数和原始预训练策略，有助于提供本公开提供的模型的预训练效果。

然后，下面对对本公开提供的模型的泛化能力进行详细描述。

表5

其中，是指基于检索的判别模型，是指生成模型，是指无需微调的零样本模型；“可见”是指图像中的关注对象通常属于视觉实体，“不可见”是指图像中的关注对象通常不属于视觉实体；相较于本公开提供的模型，参考模型的区别在于将图像中的关注对象所对应的掩模的视觉特征以及位置特征输入至第一大语言模型，而未将图像中的其他对象所对应的掩模的视觉特征以及位置特征输入至第一大语言模型；参考模型-微调是指微调后的参考模型。

具体地，表5展示了不同模型在可见数据子集以及不可见数据子集上的准确率结果，由于本公开提供的模型缺乏文本先验，所以在确定泛能能力时是将与基于文本提示的模型进行比较。

其中，是基于文本提示的VEL模型，使用基于CLIP的编码器检索候选实体，然后通过基于MLLM的候选前缀树约束解码生成最终实体，这两个阶段通过多任务目标进行端到端优化。由于结合了检索增强（）和解码生成（），所以在可见实体子集（约30%）以及不可见实体子集（约10%）上的准确率都相对较高。

值得注意的是，为没有检索增强以及约束解码生成的模型，与本公开提供的模型的性能非常接近，准确率的差异范围在-0.2%至+0.5%，这表明检索增强可能是提高模型泛化能力的有效途径，因此，在第一大语言模型的训练过程中，需要从多个候选实体中确定各个原始图像对应的链接实体时，可引入检索增强的方式，从而提高第一大语言模型的泛化能力。

可见，本公开实施例提供的标识生成方法可以应用于多种领域。

例如，在智慧交通领域中，能够通过车辆传感器采集到道路图像，可将道路图像作为目标图像，然后，获取目标图像中各个候选对象对应的局部掩模，在多个局部掩模中确定查询掩模，其中，候选对象可为行人、车辆、交通标志等等，查询掩模用于指示多个候选对象中被选择的目标对象，例如，司机或者乘客能够与车载系统进行交互，以供车载系统获取目标图像的提示标记，提示标记用于指示多个候选对象中被选择的目标对象；对目标图像分别进行基于查询掩模以及各个局部掩模的特征提取，得到多个掩模视觉特征，提取查询掩模以及各个局部掩模对应的掩模位置特征；将各个掩模视觉特征分别与对应的掩模位置特征进行拼接，得到多个区域特征；提取目标图像的第一图像特征，将第一图像特征以及多个区域特征进行拼接，得到目标拼接特征；基于目标拼接特征进行文本预测，生成目标对象的目标实体标识；能够有效提高对目标图像的全局图像特征以及像素级细节的理解，从而提高目标实体标识的预测准确率；然后，可准确地将目标对象与目标实体标识所指示的实体进行链接，实现视觉实体链接，进而能够查询到被链接实体在知识库中的关联信息，从而帮助车载系统更充分地理解目标对象的信息。

又例如，在医学领域中，能够通过医学仪器采集到医学图像，例如，医学图像包括磁共振成像图像、病理图像和计算机断层扫描图像等等，然后，获取目标图像中各个候选对象对应的局部掩模，在多个局部掩模中确定查询掩模，其中，候选对象可为器官、组织等等，查询掩模用于指示多个候选对象中被选择的目标对象，例如，医生能够与医学系统进行交互，以供医学系统获取目标图像的提示标记，提示标记用于指示多个候选对象中被选择的目标对象；对目标图像分别进行基于查询掩模以及各个局部掩模的特征提取，得到多个掩模视觉特征，提取查询掩模以及各个局部掩模对应的掩模位置特征；将各个掩模视觉特征分别与对应的掩模位置特征进行拼接，得到多个区域特征；提取目标图像的第一图像特征，将第一图像特征以及多个区域特征进行拼接，得到目标拼接特征；基于目标拼接特征进行文本预测，生成目标对象的目标实体标识；能够有效提高对目标图像的全局图像特征以及像素级细节的理解，从而提高目标实体标识的预测准确率；然后，可准确地将目标对象与目标实体标识所指示的实体进行链接，实现视觉实体链接，进而能够查询到被链接实体在知识库中的关联信息，从而帮助医学系统更充分地理解目标对象的信息。

可以理解的是，虽然上述各个流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时间执行完成，而是可以在不同的时间执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

参照图11，图11为本公开实施例提供的标识生成装置的一种可选的结构示意图，该标识生成装置1100包括：

获取模块1101，用于获取目标图像中各个候选对象对应的局部掩模，在多个局部掩模中确定查询掩模，其中，查询掩模用于指示多个候选对象中被选择的目标对象；

特征提取模块1102，用于对目标图像分别进行基于查询掩模以及各个局部掩模的特征提取，得到多个掩模视觉特征，提取查询掩模以及各个局部掩模对应的掩模位置特征；

第一拼接模块1103，用于将各个掩模视觉特征分别与对应的掩模位置特征进行拼接，得到多个区域特征；

第二拼接模块1104，用于提取目标图像的第一图像特征，将第一图像特征以及多个区域特征进行拼接，得到目标拼接特征；

生成模块1105，用于基于目标拼接特征进行文本预测，生成目标对象的目标实体标识。

进一步，上述第二拼接模块1104具体用于：

分别确定各个局部掩模的掩模面积，按照掩模面积的大小顺序，将各个局部掩模对应的区域特征进行拼接，得到第一拼接特征；

将第一图像特征、第一拼接特征以及查询掩模对应的区域特征进行拼接，得到目标拼接特征。

进一步，上述第二拼接模块1104具体用于：

构建用于提示第一大语言模型生成实体标识的提示文本；

提取提示文本的文本特征，将第一图像特征、文本特征、第一拼接特征以及查询掩模对应的区域特征进行拼接，得到目标拼接特征。

进一步，上述特征提取模块1102具体用于：

对目标图像进行多层级特征提取，得到目标图像的多层级视觉特征；

分别基于查询掩模以及各个局部掩模，对多层级视觉特征进行掩模池化，得到多个多层级池化特征；

分别对各个多层级池化特征进行特征融合，得到多个掩模视觉特征。

进一步，上述特征提取模块1102具体用于：

对于任意一个多层级池化特征，分别对多层级池化特征中各个层级的子特征进行映射，得到多个维度相同的中间特征，将各个中间特征进行特征融合，得到融合特征；

分别对各个融合特征进行多层感知处理，得到多个掩模视觉特征。

进一步，上述获取模块1101具体用于：

获取目标图像以及目标图像的提示标记，其中，目标图像包括多个候选对象，提示标记用于指示多个候选对象中被选择的目标对象；

对目标图像进行分割，得到各个候选对象对应的局部掩模，基于提示标记在各个局部掩模中确定查询掩模。

进一步，上述获取模块1101具体用于：

当提示标记为标记点时，基于标记点与各个局部掩模之间的位置关系，在各个局部掩模中确定查询掩模；

进一步，目标实体标识由第一大语言模型生成，上述标识生成装置还包括训练模块（图中未示出），训练模块具体用于：

获取样本图像以及样本图像中样本对象对应的第二掩模，对样本图像进行分割，得到样本图像中各个视觉对象对应的第一掩模，其中，样本对象为多个视觉对象中的一个对象；

提取样本图像的第二图像特征，对样本图像分别进行基于第二掩模以及各个第一掩模的特征提取，得到多个样本视觉特征，提取第二掩模以及各个第一掩模对应的样本位置特征；

将第二图像特征、样本视觉特征以及样本位置特征拼接后输入至第一大语言模型进行文本预测，生成预测概率分布，其中，预测概率分布用于确定样本对象的实体标识；

获取样本图像所链接的样本实体的第一实体标识，基于预测概率分布与第一实体标识确定模型损失，基于模型损失训练第一大语言模型，其中，样本实体用于指示样本对象。

进一步，样本图像、第二掩模以及第一实体标识均从数据集中获取，上述训练模块还用于：

获取多个原始图像以及各个原始图像对应的查询文本，根据各个原始图像以及对应的查询文本，分别确定各个原始图像对应的识别信息，其中，查询文本用于提示识别出对应的原始图像中的关注对象；

获取多个候选实体，基于各个识别信息，分别在多个候选实体中确定各个原始图像对应的链接实体；

基于各个原始图像以及对应的查询文本，分别确定各个原始图像的标注掩模，其中，标注掩模用于指示对应的关注对象；

将各个原始图像、对应的标注掩模以及对应的链接实体关联存储至数据集，其中，样本图像从多个原始图像中采样得到，第二掩模为样本图像对应的标注掩模，样本实体为样本图像所链接的链接实体。

进一步，上述训练模块具体用于：

将各个查询文本分别输入至第二大语言模型进行文本预测，生成各个原始图像对应的概括文本；

分别基于各个原始图像和对应的概括文本进行对象检测，生成各个原始图像对应的原始边界框，其中，原始边界框用于指示对应的关注对象；

分别将各个原始图像和对应的原始边界框输入至第一掩模生成模型进行掩模预测，生成各个原始图像对应的标注掩模。

进一步，上述训练模块还用于：

获取各个链接实体对应的参考名称文本，其中，参考名称文本用于指示参考实体的名称，参考实体在知识库中的层级高于链接实体在知识库中的层级；

分别将各个原始图像和对应的参考名称文本输入至第二掩模生成模型进行掩模预测，生成各个原始图像对应的参考掩模；

确定各个标注掩模与对应的参考掩模之间的匹配程度，得到各个标注掩模对应的目标匹配度；

当目标匹配度小于预设的匹配度阈值时，剔除目标匹配度对应的原始图像。

进一步，上述训练模块还用于：

统计各个标注掩模中连通区域的数量，得到各个标注掩模对应的区域数量；

当区域数量大于预设的数量阈值时，剔除区域数量对应的原始图像。

进一步，上述训练模块具体用于：

获取样本图像所链接的样本实体的样本名称文本，对样本名称文本进行分词得到多个第一分词；

确定各个第一分词在知识库中的出现频率，基于各个出现频率由小至大的顺序，对各个第一分词进行排序，将排列在前L位的第一分词确定为第二分词，其中，L为正整数；

基于各个第二分词，确定样本实体的第一实体标识。

上述标识生成装置1100与标识生成方法基于相同的发明构思，通过获取目标图像中各个候选对象对应的局部掩模，以及确定用于指示目标对象的查询掩模，进而通过特征提取得到查询掩模以及各个局部掩模对应的掩模视觉特征，并提取查询掩模以及各个局部掩模对应的掩模位置特征，掩模视觉特征能够捕捉到相应对象所在局部区域的像素级视觉信息，掩模位置特征能够捕捉到相应对象所在局部区域的像素级位置信息，然后将各个掩模视觉特征分别与对应的掩模位置特征进行拼接，得到各个局部区域的区域特征，相当于将局部区域的像素级视觉信息和对应的像素级位置信息组合为像素级区域信息，然后提取目标图像的第一图像特征，并将第一图像特征以及多个区域特征拼接为目标拼接特征，然后基于目标拼接特征进行文本预测，生成目标对象的目标实体标识，在文本预测过程中，通过对目标拼接特征中的各个特征进行交互，既能关注第一图像特征所捕捉的全局视觉信息，又能关注各个候选对象对应的像素级区域信息，还能关注目标对象对应的像素级区域信息，因此，能够有效提高对目标图像的全局图像特征以及像素级细节的理解，从而提高目标实体标识的预测准确率，另外，将像素级的查询掩模作为视觉提示，能够高效、灵活且准确地指代目标对象，从而进一步提高目标实体标识的预测准确率。

本公开实施例提供的用于执行上述标识生成方法的电子设备可以是终端，参照图12，图12为本公开实施例提供的终端的部分结构框图，该终端包括：摄像头组件1210、第一存储器1220、输入单元1230、显示单元1240、传感器1250、音频电路1260、无线保真(wireless fidelity， WiFi)模块1270、第一处理器1280、以及第一电源1290等部件。本领域技术人员可以理解，图12中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

摄像头组件1210可用于采集图像或视频。可选地，摄像头组件1210包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR（Virtual Reality，虚拟现实）拍摄功能或者其它融合拍摄功能。

第一存储器1220可用于存储软件程序以及模块，第一处理器1280通过运行存储在第一存储器1220的软件程序以及模块，从而执行终端的各种功能应用以及数据处理。

输入单元1230可用于接收输入的数字或字符信息，以及产生与终端的设置以及功能控制有关的键信号输入。具体地，输入单元1230可包括触摸面板1231以及其他输入装置1232。

显示单元1240可用于显示输入的信息或提供的信息以及终端的各种菜单。显示单元1240可包括显示面板1241。

音频电路1260、扬声器1261，传声器1262可提供音频接口。

第一电源1290可以是交流电、直流电、一次性电池或可充电电池。

传感器1250的数量可以为一个或者多个，该一个或多个传感器1250包括但不限于：加速度传感器、陀螺仪传感器、压力传感器、光学传感器等等。其中：

加速度传感器可以检测以终端建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器可以用于检测重力加速度在三个坐标轴上的分量。第一处理器1280可以根据加速度传感器采集的重力加速度信号，控制显示单元1240以横向视图或纵向视图进行用户界面的显示。加速度传感器还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器可以检测终端的机体方向及转动角度，陀螺仪传感器可以与加速度传感器协同采集用户对终端的3D动作。第一处理器1280根据陀螺仪传感器采集的数据，可以实现如下功能：动作感应（比如根据用户的倾斜操作来改变UI）、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器可以设置在终端的侧边框和/或显示单元1240的下层。当压力传感器设置在终端的侧边框时，可以检测用户对终端的握持信号，由第一处理器1280根据压力传感器采集的握持信号进行左右手识别或快捷操作。当压力传感器设置在显示单元1240的下层时，由第一处理器1280根据用户对显示单元1240的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器用于采集环境光强度。在一个实施例中，第一处理器1280可以根据光学传感器采集的环境光强度，控制显示单元1240的显示亮度。具体地，当环境光强度较高时，调高显示单元1240的显示亮度；当环境光强度较低时，调低显示单元1240的显示亮度。在另一个实施例中，第一处理器1280还可以根据光学传感器采集的环境光强度，动态调整摄像头组件1210的拍摄参数。

在本实施例中，该终端所包括的第一处理器1280可以执行前面实施例的标识生成方法。

本公开实施例提供的用于执行上述标识生成方法的电子设备也可以是服务器，参照图13，图13为本公开实施例提供的服务器的部分结构框图，服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上第二处理器1310和第二存储器1330，一个或一个以上存储应用程序1343或数据1342的存储介质1340(例如一个或一个以上海量存储装置)。其中，第二存储器1330和存储介质1340可以是短暂存储或持久存储。存储在存储介质1340的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，第二处理器1310可以设置为与存储介质1340通信，在服务器上执行存储介质1340中的一系列指令操作。

服务器还可以包括一个或一个以上第二电源1320，一个或一个以上有线或无线网络接口1350，一个或一个以上输入输出接口1360，和/或，一个或一个以上操作系统1341，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

服务器中的第二处理器1310可以用于执行标识生成方法。

本公开实施例还提供一种计算机可读存储介质，计算机可读存储介质用于存储计算机程序，计算机程序用于执行前述各个实施例的标识生成方法。

本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行实现上述的标识生成方法。

本公开的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其它步骤或单元。

应当理解，在本公开中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

应了解，在本公开实施例的描述中，多个（或多项）的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。

在本公开所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)执行本公开各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

还应了解，本公开实施例提供的各种实施方式可以任意进行组合，以实现不同的技术效果。

以上是对本公开的较佳实施进行了具体说明，但本公开并不局限于上述实施方式，熟悉本领域的技术人员在不违背本公开精神的共享条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本公开权利要求所限定的范围内。

Claims

1.一种标识生成方法，其特征在于，包括：

对所述目标图像分别进行基于所述查询掩模以及各个所述局部掩模的特征提取，得到多个掩模视觉特征，将所述查询掩模以及各个所述局部掩模展平后输入至位置编码器进行映射，得到所述查询掩模以及各个所述局部掩模对应的掩模位置特征；

2.根据权利要求1所述的标识生成方法，其特征在于，所述将所述第一图像特征以及多个所述区域特征进行拼接，得到目标拼接特征，包括：

3.根据权利要求2所述的标识生成方法，其特征在于，所述目标实体标识由第一大语言模型生成，所述将所述第一图像特征、所述第一拼接特征以及所述查询掩模对应的所述区域特征进行拼接，得到目标拼接特征，包括：

4.根据权利要求1所述的标识生成方法，其特征在于，所述对所述目标图像分别进行基于所述查询掩模以及各个所述局部掩模的特征提取，得到多个掩模视觉特征，包括：

5.根据权利要求4所述的标识生成方法，其特征在于，所述分别对各个所述多层级池化特征进行特征融合，得到多个掩模视觉特征，包括：

6.根据权利要求1所述的标识生成方法，其特征在于，所述获取目标图像中各个候选对象对应的局部掩模，在多个所述局部掩模中确定查询掩模，包括：

7.根据权利要求6所述的标识生成方法，其特征在于，所述基于所述提示标记在各个所述局部掩模中确定查询掩模，包括：

8.根据权利要求1所述的标识生成方法，其特征在于，所述目标实体标识由第一大语言模型生成，所述第一大语言模型通过以下步骤训练得到：

9.根据权利要求8所述的标识生成方法，其特征在于，所述样本图像、所述第二掩模以及所述第一实体标识均从数据集中获取，所述获取样本图像以及所述样本图像中样本对象对应的第二掩模之前，所述标识生成方法还包括：

10.根据权利要求9所述的标识生成方法，其特征在于，所述基于各个所述原始图像以及对应的所述查询文本，分别确定各个所述原始图像的标注掩模，包括：

11.根据权利要求10所述的标识生成方法，其特征在于，所述分别将各个所述原始图像和对应的所述原始边界框输入至第一掩模生成模型进行掩模预测，生成各个所述原始图像对应的标注掩模之后，所述标识生成方法还包括：

12.根据权利要求9所述的标识生成方法，其特征在于，所述将各个所述原始图像、对应的所述标注掩模以及对应的所述链接实体关联存储至所述数据集之前，所述标识生成方法还包括：

13.根据权利要求8所述的标识生成方法，其特征在于，所述获取所述样本图像所链接的样本实体的第一实体标识，包括：

14.一种标识生成装置，其特征在于，包括：

特征提取模块，用于对所述目标图像分别进行基于所述查询掩模以及各个所述局部掩模的特征提取，得到多个掩模视觉特征，将所述查询掩模以及各个所述局部掩模展平后输入至位置编码器进行映射，得到所述查询掩模以及各个所述局部掩模对应的掩模位置特征；

15.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至13任意一项所述的标识生成方法。

16.一种计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至13任意一项所述的标识生成方法。

17.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至13任意一项所述的标识生成方法。