CN117523275A

CN117523275A - 基于人工智能的属性识别方法及属性识别模型训练方法

Info

Publication number: CN117523275A
Application number: CN202311470011.1A
Authority: CN
Inventors: 季家桢
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-11-06
Filing date: 2023-11-06
Publication date: 2024-02-06

Abstract

本申请提供了一种基于人工智能的属性识别方法、属性识别模型训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品，可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景；方法包括：获取待识别图像以及多个属性描述文本；对待识别图像进行图像特征提取处理，得到图像特征；对每个属性描述文本进行文本特征提取处理，得到文本特征；确定待识别图像的图像特征分别与多个属性描述文本的文本特征之间的相似度；在多个相似度中确定最大相似度，并将最大相似度对应的属性描述文本中的属性特征确定为待识别图像中待识别目标的属性特征。通过本申请，能够以较低的实现成本识别出图像中待识别目标的多种属性特征，同时保证识别精度。

Description

基于人工智能的属性识别方法及属性识别模型训练方法

技术领域

本申请涉及人工智能技术，尤其涉及一种基于人工智能的属性识别方法、属性识别模型训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

属性识别在多个领域具有重要意义，例如在待识别目标为人脸时，通过识别图像中的人脸属性(如性别、年龄、表情等)，能够更好地理解个体差异，从而实现更加个性化和智能化的服务。

在相关技术提供的方案中，通常是通过单任务学习的方式训练用于属性识别的模型，然而，单任务学习专注于学习和预测单一属性类型，如仅能识别出图像中人脸对应的性别是男或女，如果需要同时识别多种属性类型，则需要针对每种属性类型单独训练一个模型，实现成本较高。

发明内容

本申请提供一种基于人工智能的属性识别方法、属性识别模型训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够以较低的实现成本识别出图像中待识别目标的多种属性特征，同时保证识别精度。

本申请的技术方案是这样实现的：

本申请提供一种基于人工智能的属性识别方法，包括：

获取待识别图像以及多个属性描述文本；其中，每个属性描述文本是对待识别目标的多种属性特征进行自然语言描述处理得到的；

对所述待识别图像进行图像特征提取处理，得到所述待识别图像的图像特征；

对每个属性描述文本进行文本特征提取处理，得到每个属性描述文本的文本特征；

确定所述待识别图像的图像特征分别与多个属性描述文本的文本特征之间的相似度；

在多个相似度中确定最大相似度，并将最大相似度对应的属性描述文本中的属性特征确定为所述待识别图像中待识别目标的属性特征。

本申请提供一种基于人工智能的属性识别模型训练方法，包括：

获取训练图像以及多个属性描述文本；其中，每个属性描述文本是对待识别目标的多种属性特征进行自然语言描述处理得到的；

通过属性识别模型对所述训练图像进行图像特征提取处理，得到所述训练图像的图像特征，以作为训练图像特征；

通过属性识别模型对每个属性描述文本进行文本特征提取处理，得到每个属性描述文本的文本特征，以作为训练文本特征；

确定所述训练图像的训练图像特征分别与多个属性描述文本的训练文本特征之间的相似度，以作为训练相似度；

根据多个训练相似度以及所述训练图像中待识别目标的多种标签属性特征确定损失值，并根据所述损失值训练属性识别模型；其中，训练完成的属性识别模型用于对待识别图像进行图像特征提取处理、以及对属性描述文本进行文本特征提取处理。

本申请提供一种基于人工智能的属性识别装置，包括：

第一获取模块，用于获取待识别图像以及多个属性描述文本；其中，每个属性描述文本是对待识别目标的多种属性特征进行自然语言描述处理得到的；

第一图像特征提取模块，用于对所述待识别图像进行图像特征提取处理，得到所述待识别图像的图像特征；

第一文本特征提取模块，用于对每个属性描述文本进行文本特征提取处理，得到每个属性描述文本的文本特征；

第一确定模块，用于确定所述待识别图像的图像特征分别与多个属性描述文本的文本特征之间的相似度；

识别模块，用于在多个相似度中确定最大相似度，并将最大相似度对应的属性描述文本中的属性特征确定为所述待识别图像中待识别目标的属性特征。

本申请提供一种基于人工智能的属性识别模型训练装置，包括：

第二获取模块，用于获取训练图像以及多个属性描述文本；其中，每个属性描述文本是对待识别目标的多种属性特征进行自然语言描述处理得到的；

第二图像特征提取模块，用于通过属性识别模型对所述训练图像进行图像特征提取处理，得到所述训练图像的图像特征，以作为训练图像特征；

第二文本特征提取模块，用于通过属性识别模型对每个属性描述文本进行文本特征提取处理，得到每个属性描述文本的文本特征，以作为训练文本特征；

第二确定模块，用于确定所述训练图像的训练图像特征分别与多个属性描述文本的训练文本特征之间的相似度，以作为训练相似度；

训练模块，用于根据多个训练相似度以及所述训练图像中待识别目标的多种标签属性特征确定损失值，并根据所述损失值训练属性识别模型；其中，训练完成的属性识别模型用于对待识别图像进行图像特征提取处理、以及对属性描述文本进行文本特征提取处理。

本申请提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请提供的基于人工智能的属性识别方法或者基于人工智能的属性识别模型训练方法。

本申请提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请提供的基于人工智能的属性识别方法或者基于人工智能的属性识别模型训练方法。

本申请提供了一种计算机程序产品，该计算机程序产品包括可执行指令，用于引起处理器执行时，实现本申请提供的基于人工智能的属性识别方法或者基于人工智能的属性识别模型训练方法。

本申请具有以下有益效果：

在获取到待识别图像以及多个属性描述文本时，提取待识别图像的图像特征以及每个属性描述文本的文本特征，确定待识别图像的图像特征分别与多个属性描述文本的文本特征之间的相似度，由于图像特征能够有效表示待识别图像的语义，文本特征能够有效表示属性描述文本的语义，因此得到的相似度能够有效表示待识别图像与属性描述文本在语义上的相关程度，故将最大相似度对应的属性描述文本中的属性特征确定为待识别图像中待识别目标的属性特征，如此，一方面能够保证属性识别的精度，另一方面能够通过一次属性识别得到待识别图像中待识别目标的多种属性特征。同理，在训练属性识别模型时不再局限于单个属性类型，使得通过一个属性识别模型便可识别出多种属性特征，能够大大降低实现成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的基于人工智能的属性识别系统的一个架构示意图；

图2A是本申请实施例提供的终端设备的一个结构示意图；

图2B是本申请实施例提供的终端设备的另一个结构示意图；

图3是本申请实施例提供的基于人工智能的属性识别方法的一个流程示意图；

图4A是本申请实施例提供的基于人工智能的属性识别模型训练方法的一个流程示意图；

图4B是本申请实施例提供的基于人工智能的属性识别模型训练方法的另一个流程示意图；

图4C是本申请实施例提供的基于人工智能的属性识别模型训练方法的另一个流程示意图；

图5A是本申请实施例提供的针对单个训练图像计算相似度的示意图；

图5B是本申请实施例提供的针对多个训练图像计算相似度的示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。在以下的描述中，所涉及的术语“多个”是指至少两个。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革，swin-transformer，ViT，V-MOE，MAE等视觉领域的预训练模型经过微调(fine tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。在本申请实施例中，可以利用计算机视觉技术来实现图像特征提取处理。

自然语言处理(Nature Language Processing，NLP)是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言，即人们日常使用的语言，与语言学研究密切；同时涉及计算机科学和数学。大模型技术为自然语言处理技术发展带来变革，经过微调，NLP领域的大语言模型(Large Language Model)可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。在本申请实施例中，可以利用自然语言处理技术来实现自然语言描述处理以及文本特征提取处理。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。在本申请实施例中，可以利用机器学习原理来实现属性识别模型的训练。

2)属性类型：用于描述待识别目标具有的性质。可以针对待识别目标定义需要识别的多种属性类型，例如待识别目标为人脸，则属性类型可以包括“性别”、“年龄”和“表情”等。

3)属性特征：用于具体描述属性类型的特定参数，每种属性类型包括多种属性特征。例如，属性类型为年龄，则该属性类型包括的属性特征是具体的年龄参数，如“年轻”、“中年”以及“老年”。

4)属性描述文本：是指对待识别目标的多种属性特征进行自然语言描述处理得到的文本，例如，对待识别目标的属性特征“年轻”、“女性”、“微笑”进行自然语言描述处理，可以得到属性描述文本为“一个年轻的正在微笑的女性”。值得说明的是，一个属性描述文本中的多种属性特征分别属于不同的属性类型；不同属性描述文本在属性特征上存在不同。

5)模型训练：是机器学习的基本环节之一，在模型训练阶段，使用已知数据来训练模型(本质上是更新模型参数)，使其能够对未知数据进行准确预测。模型训练阶段所使用的已知数据可以包括若干个训练图像以及每个训练图像中待识别目标的多种标签属性特征，其中，标签属性特征是指标注好的、认定为正确的属性特征。

6)模型测试：是机器学习的最后一个环节，用于评估训练后的模型在已知数据上的性能指标，其中，为了保证测试的准确性，模型测试阶段使用的已知数据与模型训练阶段使用的已知数据不同，模型测试阶段使用的已知数据包括若干个测试图像以及每个测试图像中待识别目标的多种标签属性特征。

在相关技术提供的方案中，通常是通过单任务学习的方式训练用于属性识别的模型，然而，单任务学习存在以下问题：

1)无法利用关联信息：单任务学习仅关注一个特定的属性类型，无法充分利用不同属性类型之间的关联信息，这可能导致模型无法学习到更丰富、更具区分性的特征，从而影响识别性能。

2)模型众多：当需要识别多种属性类型时，单任务学习需要为每种属性类型单独训练一个模型，这会导致大量模型生成，计算资源和存储资源的需求较大，此外，维护和更新这些模型也需要耗费较多的时间和精力。

3)训练效率较低：在单任务学习中，用于识别每种属性类型的模型需要单独训练，这会导致训练效率较低。

4)泛化能力有限：由于单任务学习仅关注一种属性类型，导致在面对新的属性类型时表现出的泛化能力较弱。

本申请实施例提供一种基于人工智能的属性识别方法、属性识别模型训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够以较低的实现成本识别出图像中待识别目标的多种属性特征，同时保证识别精度。下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的电子设备可以实施为各种类型的终端设备，也可以实施为服务器。

参见图1，图1是本申请实施例提供的基于人工智能的属性识别系统100的一个架构示意图，终端设备400通过网络300连接服务器200，其中，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，以电子设备是终端设备为例，本申请实施例提供的基于人工智能的属性识别模型训练方法以及基于人工智能的属性识别方法可以均由终端设备实现。例如，终端设备400可以训练属性识别模型，并将训练完成的属性识别模型部署于本地。如此，终端设备400在接收到针对待识别图像的识别请求时，可以通过训练完成的属性识别模型对待识别图像进行属性识别，得到待识别图像中待识别目标的属性特征。

在一些实施例中，本申请实施例提供的基于人工智能的属性识别模型训练方法可以由服务器实现，本申请实施例提供的基于人工智能的属性识别方法可以由终端设备实现。例如，服务器200可以训练属性识别模型，并将训练完成的属性识别模型发送至终端设备400，以使终端设备400将接收到的训练完成的属性识别模型部署于本地。如此，终端设备400在接收到针对待识别图像的识别请求时，可以通过训练完成的属性识别模型对待识别图像进行属性识别，得到待识别图像中待识别目标的属性特征。

在一些实施例中，本申请实施例提供的基于人工智能的属性识别模型训练方法以及基于人工智能的属性识别方法可以均由服务器实现。例如，服务器200可以训练属性识别模型，并将训练完成的属性识别模型部署于本地。如此，终端设备400在接收到针对待识别图像的识别请求时，可以将待识别图像发送至服务器200。服务器200通过训练完成的属性识别模型对接收到的待识别图像进行属性识别，得到待识别图像中待识别目标的属性特征，并将待识别图像中待识别目标的属性特征发送至终端设备400，以便终端设备400进行显示。

在一些实施例中，终端设备400或服务器200可以通过运行计算机程序来实现本申请实施例提供的方法，例如，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(Native)应用程序(APP，Application)，即需要在操作系统中安装才能运行的程序，如人脸识别应用程序、个性化推荐应用程序、社交应用程序、娱乐应用程序等；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序，如嵌入至应用程序中的小程序组件，其中，该小程序组件可以由用户控制运行或关闭。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、车载终端、飞行器等，但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。

以本申请实施例提供的电子设备是终端设备为例说明，可以理解的，对于电子设备是服务器的情况，图2A中示出的结构中的部分(例如用户接口、呈现模块和输入处理模块)可以省略。参见图2A，图2A是本申请实施例提供的终端设备400的结构示意图，图2A所示的终端设备400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端设备400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2A中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的基于人工智能的属性识别装置可以采用软件方式实现，图2A示出了存储在存储器450中的基于人工智能的属性识别装置4551，其可以是程序和插件等形式的软件，包括以下软件模块：第一获取模块45511、第一图像特征提取模块45512、第一文本特征提取模块45513、第一确定模块45514以及识别模块45515，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在一些实施例中，本申请实施例提供的基于人工智能的属性识别模型训练装置可以采用软件方式实现，图2B示出了存储在存储器450中的基于人工智能的属性识别模型训练装置4552，其可以是程序和插件等形式的软件，包括以下软件模块：第二获取模块45521、第二图像特征提取模块45522、第二文本特征提取模块45523、第二确定模块45524以及训练模块45525，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

将结合本申请实施例提供的电子设备的示例性应用和实施，说明本申请实施例提供的基于人工智能的属性识别方法。

参见图3，图3是本申请实施例提供的基于人工智能的属性识别方法的一个流程示意图，将结合图3示出的步骤进行说明。

在步骤101中，获取待识别图像以及多个属性描述文本；其中，每个属性描述文本是对待识别目标的多种属性特征进行自然语言描述处理得到的。

待识别图像是指需要预测其中待识别目标的属性类型的图像，其中，待识别目标的含义与目标检测(Object Detection)任务中的目标相同，本申请实施例对待识别目标的类型不做限定，例如可以是人脸、车辆、动物等。

属性描述文本是指对待识别目标的多种属性特征进行自然语言描述处理得到的文本。例如，对待识别目标的属性特征“年轻”、“女性”、“微笑”进行自然语言描述处理，可以得到属性描述文本为“一个年轻的正在微笑的女性”。属性描述文本可以是人为生成的，也可以是自动生成的。

值得说明的是，一个属性描述文本中的多种属性特征分别属于不同的属性类型，例如属性描述文本“一个年轻的正在微笑的女性”中，属性特征“年轻”属于属性类型“年龄”，属性特征“女性”属于属性类型“性别”，属性特征“微笑”属于属性类型“表情”。一个属性描述文本可以包括部分或者全部属性类型的属性特征，例如，全部属性类型包括“年龄”、“性别”以及“表情”，则属性描述文本可以包括全部属性类型的属性特征，例如属性描述文本为“一个年轻的正在微笑的女性”；属性描述文本可以包括部分属性类型的属性特征，例如仅包括属性类型“年龄”、“性别”的属性特征，例如属性描述文本为“一个年轻的女性”。不同属性描述文本在属性特征上存在不同，即步骤101中获取到的多个属性描述文本是互不重复的，例如属性描述文本A“一个年轻的正在微笑的女性”中的属性特征“女性”与属性描述文本B“一个年轻的正在微笑的男性”中的属性特征“男性”不同。

在一些实施例中，获取待识别图像以及多个属性描述文本之前，基于人工智能的属性识别方法还包括：对分别属于多种属性类型的属性特征进行组合处理，得到多个属性特征组合；其中，每种属性类型包括多种属性特征，每个属性特征组合中的多个属性特征分别属于不同的属性类型；对每个属性特征组合中的多种属性特征进行自然语言描述处理，得到每个属性特征组合对应的属性描述文本。

在已知多种属性类型以及每种属性类型包括的多种属性特征的前提下，可以对分别属于多种属性类型的属性特征进行组合处理，得到多个属性特征组合，其中，每个属性特征组合中的多个属性特征分别属于不同的属性类型。组合处理可以是穷举式的组合处理，以覆盖各种可能出现的情况，例如，属性类型A包括3种属性特征，属性类型B包括4种属性特征，则经过组合处理后，可以得到3×4＝12个属性特征组合。

对于得到的每个属性特征组合，对属性特征组合中的多种属性特征进行自然语言描述处理得到属性描述文本。其中，自然语言描述处理是指将多种属性特征融合为符合自然语言的一句话，以便于后续进行文本特征提取处理。通过上述方式，在已知多种属性类型以及每种属性类型包括的多种属性特征的前提下，能够实现属性描述文本的自动生成，且生成的属性描述文本能够覆盖各种可能出现的情况，具有全面性，有助于提升属性识别的精度。

在一些实施例中，对分别属于多种属性类型的属性特征进行组合处理之前，基于人工智能的属性识别方法还包括：接收针对待识别图像的属性选定指令；其中，属性选定指令用于在多种属性类型中选定目标属性类型；可以通过这样的方式来实现上述的对分别属于多种属性类型的属性特征进行组合处理：对分别属于多种目标属性类型的属性特征进行组合处理。

这里，属性类型包括多种，而在具体场景中，可能需要预测待识别图像在全部属性类型或部分属性类型的属性特征。因此，可以接收针对待识别图像的属性选定指令，该属性选定指令用于在多种属性类型中选定目标属性类型，其中，目标属性类型同样包括多种。例如，属性类型包括“年龄”、“性别”以及“表情”，属性选定指令所选定的目标属性类型包括“年龄”、“性别”。

然后，对分别属于多种目标属性类型的属性特征进行组合处理，得到多个属性特征组合，其中，每个属性特征组合中的多个属性特征分别属于不同的目标属性类型。针对得到的每个属性特征组合，对属性特征组合中的多种属性特征进行自然语言描述处理，得到属性描述文本。通过上述方式，能够使得生成的属性描述文本符合用户的实际预测需求，提升对于具体应用场景的针对性。

在一些实施例中，自然语言描述处理包括以下任意一种处理：将待识别目标的多种属性特征填充至文本模板中，得到属性描述文本；将待识别目标的多种属性特征填充至提示模板中，得到文本提示，并通过生成式模型根据文本提示进行文本生成处理，得到属性描述文本。

自然语言描述处理可以是人为实现的，也可以是自动实现的。这里，提供了自动实现的两种方式：

1)将待识别目标的多种属性特征填充至文本模板中，得到属性描述文本。例如，在已知多种属性类型的前提下，可以基于多种属性类型预设文本模板，文本模板包括有每种属性类型的填充位置。如此，可以将每种属性类型的属性特征填充至文本模板中对应的填充位置，得到属性描述文本。

例如，属性类型包括“年龄”、“性别”以及“表情”，则可以预设文本模板为“一个[年龄]的正在[表情]的[性别]”，其中，[年龄]表示属性类型“年龄”对应的填充位置，以此类推。在此基础上，若属性类型“年龄”的属性特征为“年轻”、属性类型“表情”的属性特征为“微笑”、属性类型“性别”的属性特征为“女性”，则将每种属性特征填充到文本模板中对应的填充位置后，可以得到属性描述文本“一个年轻的正在微笑的女性”。

上述方式1)的效率较高，能够快速生成大量属性描述文本，适用于属性类型固定的场景。

2)将待识别目标的多种属性特征填充至提示模板中，得到文本提示，并通过生成式模型根据文本提示进行文本生成处理，得到属性描述文本。这里，可以基于生成式模型来自动生成属性描述文本，其中，生成式模型是基于生成式人工智能构建的模型，例如可以是NLP领域的大语言模型，生成式人工智能是指基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术。

为了使用生成式模型，将待识别目标的多种属性特征填充至提示模板中，得到文本提示，再将文本提示输入至生成式模型，得到生成式模型的输出以作为属性描述文本。其中，文本提示用于提示生成式模型如何生成属性描述文本。举例来说，提示模板可以是“将[属性特征1]、[属性特征2]……[属性特征N]组成一句话”，由于生成式模型能够较好地理解文本提示中各个属性特征的语义并组成符合自然语言的文本，因此，对提示模板中属性特征的数量以及属性特征的顺序不做限定，从而能够更好地适用于不同场景。基于上述提示模板，例如待生成属性描述文本的属性特征包括“年轻”、“微笑”以及“女性”，则得到的文本提示为“将年轻、微笑、女性组成一句话”，通过生成式模型根据该文本提示进行文本生成处理后，得到的属性描述文本如“一个年轻的正在微笑的女性”。

上述方式2)通过生成式模型来实现属性描述文本的自动生成，能够提升生成过程的自由性和灵活性，适用于不同场景。

在步骤102中，对待识别图像进行图像特征提取处理，得到待识别图像的图像特征。

这里，提取待识别图像的图像特征，图像特征能够有效表示待识别图像的语义。本申请实施例对图像特征提取处理的方式不做限定，例如可以通过训练完成的属性识别模型来实现，其中，训练完成的属性识别模型可以包括图像特征提取网络以及文本特征提取网络，可以通过图像特征提取网络对待识别图像进行图像特征提取处理，得到待识别图像的图像特征。

在步骤103中，对每个属性描述文本进行文本特征提取处理，得到每个属性描述文本的文本特征。

这里，提取每个属性描述文本的文本特征，文本特征能够有效表示属性描述文本的语义。本申请实施例对文本特征提取处理的方式不做限定，例如可以通过训练完成的属性识别模型来实现，其中，训练完成的属性识别模型可以包括图像特征提取网络以及文本特征提取网络，可以通过文本特征提取网络对每个属性描述文本进行文本特征提取处理，得到每个属性描述文本的文本特征。

在步骤104中，确定待识别图像的图像特征分别与多个属性描述文本的文本特征之间的相似度。

针对每个属性描述文本，确定属性描述文本的文本特征与待识别图像的图像特征之间的相似度。本申请实施例对相似度的计算方式不做限定，例如相似度可以是指余弦相似度，也可以对属性描述文本的文本特征以及待识别图像的图像特征进行点积运算，将点积运算的结果作为相似度。

在步骤105中，在多个相似度中确定最大相似度，并将最大相似度对应的属性描述文本中的属性特征确定为待识别图像中待识别目标的属性特征。

相似度反映的是属性描述文本与待识别图像在语义上的相似程度(或称关联程度、接近程度)，因此，在多个属性描述文本分别对应的相似度中确定数值最大的相似度(即最大相似度)，并将最大相似度对应的属性描述文本中的属性特征确定为待识别图像中待识别目标的属性特征。值得说明的是，由于每个属性描述文本均包括多种属性特征，因此，得到的待识别图像中待识别目标的属性特征同样有多种，即本申请实施例能够同时识别多种属性类型，通过一次属性识别即可得到待识别图像中待识别目标的多种属性特征，同时也能够保证识别精度。

基于得到的待识别图像中待识别目标的属性特征，可以进行进一步应用，例如可以应用于以下场景：

1)身份认证场景。例如，待识别图像是用于进行身份认证的图像(如门禁摄像头所拍摄到的图像)，可以对待识别图像进行身份识别处理，得到待识别图像中待识别目标的身份信息，其中，身份信息对应有身份特征(也是属性特征，命名不同是为了便于区分)，身份特征可以针对身份信息预先设定并进行存储，所涉及的属性类型可以包括性别、年龄等，例如，人员张三是一名年轻的汉族男性，则可以设定张三的身份信息对应的身份特征包括“男性”以及“年轻”。然后，将识别出的身份信息对应的身份特征与按照本申请实施例得到的属性特征进行匹配处理，若匹配成功(身份特征与属性特征相同)，则确定身份认证通过；若匹配失败，则确定身份认证未通过。通过上述方式，本申请实施例能够辅助进行身份认证，提升身份认证的准确性和安全性。

2)推荐场景。例如，待识别图像可以是用于推荐的用户图像。以电商场景举例，可以预先设定与不同属性特征(或者属性特征组合)分别对应的推荐策略，例如，对于属性特征“年轻”、“男性”来说，推荐策略是推荐电子产品；对于属性特征“中年”、“男性”来说，推荐策略是推荐茶叶。按照本申请实施例得到待识别图像中待识别目标的属性特征后，可以确定与待识别目标的属性特征对应的推荐策略，并按照确定出的推荐策略进行推荐。如此，可以为用户推荐更符合其兴趣和需求的广告或内容，提升推荐效果。

3)社交或娱乐场景。例如，可以预先设定与不同属性特征(或者属性特征组合)分别对应的滤镜效果、表情包或者虚拟形象等。按照本申请实施例得到待识别图像中待识别目标的属性特征后，可以确定与待识别目标的属性特征对应的滤镜效果、表情包或者虚拟形象，并进行展示。如此，能够实现个性化展示，提升用户在社交或者娱乐场景中的用户体验。

如图3所示，本申请实施例在获取到待识别图像以及多个属性描述文本时，提取待识别图像的图像特征以及每个属性描述文本的文本特征，确定待识别图像的图像特征分别与多个属性描述文本的文本特征之间的相似度，由于图像特征能够有效表示待识别图像的语义，文本特征能够有效表示属性描述文本的语义，因此得到的相似度能够有效表示待识别图像与属性描述文本在语义上的相似程度，故将最大相似度对应的属性描述文本中的属性特征确定为待识别图像中待识别目标的属性特征，如此，一方面能够保证属性识别的精度，另一方面能够通过一次属性识别得到待识别图像中待识别目标的多种属性特征，即能够实现多种属性类型的同时识别而无需针对每种属性类型进行单独识别，从而有效降低实现成本，节省计算资源的消耗。

将结合本申请实施例提供的电子设备的示例性应用和实施，说明本申请实施例提供的基于人工智能的属性识别模型训练方法。

参见图4A，图4A是本申请实施例提供的基于人工智能的属性识别模型训练方法的一个流程示意图，将结合图4A示出的步骤进行说明。

在步骤201中，获取训练图像以及多个属性描述文本；其中，每个属性描述文本是对待识别目标的多种属性特征进行自然语言描述处理得到的。

在本申请实施例中，可以通过专门的属性识别模型来实现属性识别，首先需要对属性识别模型进行训练，训练阶段需要准备训练数据，例如，获取训练图像以及多个属性描述文本以作为训练数据，其中，训练图像是指用于训练属性识别模型的图像，训练图像中待识别目标的多种属性特征是已知的，为了便于区分，命名为标签属性特征。

值得说明的是，多个属性描述文本中包括有与训练图像对应的属性描述文本，训练图像对应的属性描述文本包括训练图像中待识别目标的多种标签属性特征。如此，训练图像与对应的属性描述文本可以共同构成正样本，训练图像与不对应的每个属性描述文本可以共同构成负样本，通过正样本以及负样本来训练属性识别模型。

在一些实施例中，获取训练图像以及多个属性描述文本之前，基于人工智能的属性识别模型训练方法还包括：对分别属于多种属性类型的属性特征进行组合处理，得到多个属性特征组合；其中，每种属性类型包括多种属性特征，每个属性特征组合中的多个属性特征分别属于不同的属性类型；对每个属性特征组合中的多种属性特征进行自然语言描述处理，得到每个属性特征组合对应的属性描述文本。

在一些实施例中，可以通过这样的方式来实现上述的获取训练图像以及多个属性描述文本：获取多个训练图像；对每个训练图像中待识别目标的多种标签属性特征进行自然语言描述处理，得到每个训练图像对应的属性描述文本。

在获取到多个训练图像的情况下，针对每个训练图像，可以对该训练图像中待识别目标的多种标签属性特征进行自然语言描述处理，得到该训练图像对应的属性描述文本。如此，可以保证每个训练图像均有对应的属性描述文本、且每个属性描述文本均有对应的训练图像，避免出现属性描述文本与每个训练图像均不对应所导致的训练效果差。

在步骤202中，通过属性识别模型对训练图像进行图像特征提取处理，得到训练图像的图像特征，以作为训练图像特征。

这里，通过属性识别模型对训练图像进行图像特征提取处理，得到训练图像的图像特征，为了便于区分，将训练图像的图像特征命名为训练图像特征。

在步骤203中，通过属性识别模型对每个属性描述文本进行文本特征提取处理，得到每个属性描述文本的文本特征，以作为训练文本特征。

这里，通过属性识别模型对每个属性描述文本进行文本特征提取处理，得到每个属性描述文本的文本特征，为了便于区分，将属性描述文本的文本特征命名为训练文本特征。如此，基于提取到的训练文本特征，能够在后续训练过程中学习到不同属性类型之间的关联，即能够学习到更丰富、更具区分性的特征。

在一些实施例中，可以通过属性识别模型中的同一网络来实现图像特征提取处理以及文本特征提取处理；也可以通过属性识别模型中的图像特征提取网络来实现图像特征提取处理，通过属性识别模型中的文本特征提取网络来实现文本特征提取处理。由于后者区分了图像和文本的输入，因此训练效果更好。其中，对图像特征提取网络的类型不做限定，例如可以是残差网络(Residual Network，ResNet)或者视觉几何组(Visual GeometryGroup，VGG)等，对文本特征提取网络的类型同样不做限定，例如可以是基于Transformer的双向编码器表示(Bidirectional Encoder Representations from Transformers，BERT)网络或者生成式预训练Transformer(Generative Pre-trained Transformer，GPT)网络等。

值得说明的是，本申请实施例涉及的图像特征提取网络以及文本特征提取网络中的“网络”是指人工智能领域的网络结构，例如人工神经网络的网络结构，而并非是指通信网络。

在步骤204中，确定训练图像的训练图像特征分别与多个属性描述文本的训练文本特征之间的相似度，以作为训练相似度。

针对每个属性描述文本，确定训练图像的训练图像特征与属性描述文本的训练文本特征之间的相似度，为了便于区分，将这里得到的相似度命名为训练相似度。如此，可以得到多个属性描述文本分别对应的训练相似度。

在步骤205中，根据多个训练相似度以及训练图像中待识别目标的多种标签属性特征确定损失值，并根据损失值训练属性识别模型；其中，训练完成的属性识别模型用于对待识别图像进行图像特征提取处理、以及对属性描述文本进行文本特征提取处理。

训练图像与对应的属性描述文本可以共同构成正样本，训练图像与不对应的每个属性描述文本可以共同构成负样本，基于此，可以构建损失函数，该损失函数的目的是最大化正样本对应的相似度(即正样本中的属性描述文本对应的相似度)、同时最小化负样本对应的相似度(即负样本中的属性描述文本对应的相似度)。本申请实施例对损失函数的类型不做限定，例如可以是交叉熵损失函数。

本申请实施例提供了如图5A所示的针对单个训练图像计算相似度的示意图，在图5A中，训练图像特征表示为I1，属性描述文本包括N个，分别为属性描述文本1、属性描述文本2……属性描述文本N，属性描述文本1对应的训练文本特征表示为T1，训练图像特征I1与属性描述文本1的训练文本特征T1之间的相似度表示为I1.T1，以此类推，其中，N为大于1的整数。在图5A基础上，假设属性描述文本1与训练图像相对应，则损失函数的目的是最大化相似度I1.T1、同时最小化其他相似度(I1.T2……I1.TN)。

本申请实施例还提供了如图5B所示的针对多个训练图像计算相似度的示意图，在图5B中，训练图像包括N个，分别为训练图像1、训练图像2……训练图像N，训练图像1对应的训练图像特征表示为I1，以此类推；属性描述文本同样包括N个，分别为属性描述文本1、属性描述文本2……属性描述文本N，属性描述文本1与训练图像1相对应，属性描述文本1对应的训练文本特征表示为T1，训练图像1的训练图像特征I1与属性描述文本1的训练文本特征T1之间的相似度表示为I1.T1，以此类推。基于此，可以得到N×N的相似度矩阵，则损失函数的目的是最大化相似度矩阵中位于对角线的相似度(I1.T1、I2.T2、I3.T3……IN.TN)、同时最小化相似度矩阵中未处于对角线的相似度，这里的对角线是指从左上角的I1.T1到右下角的IN.TN的对角线。

根据构建的损失函数可以计算出损失值，以根据损失值训练属性识别模型，其中，在属性识别模型包括图像特征提取网络以及文本特征提取网络的情况下，根据损失值训练图像特征提取网络以及文本特征提取网络。训练属性识别模型即是指更新属性识别模型的模型参数，例如，可以利用反向传播(Back Propagation，BP)原理，根据损失值在属性识别模型中进行反向传播，并在反向传播过程中沿梯度下降方向更新属性识别模型的模型参数。值得说明的是，可以为训练过程设置训练停止条件，当满足训练停止条件时，停止对属性识别模型的训练，可以将训练后的属性识别模型作为训练完成的属性识别模型，或者可以进入模型测试阶段，其中，本申请实施例对训练停止条件不做限定，如达到预设训练次数或者损失值小于损失值阈值等。

训练完成的属性识别模型具有较好的属性识别效果，可以用于针对待识别图像的属性识别。例如，通过训练完成的属性识别模型对待识别图像进行图像特征提取处理，得到待识别图像的图像特征；通过训练完成的属性识别模型对每个属性描述文本进行文本特征提取处理，得到每个属性描述文本的文本特征；确定待识别图像的图像特征分别与多个属性描述文本的文本特征之间的相似度；在多个相似度中确定最大相似度，并将最大相似度对应的属性描述文本中的属性特征确定为待识别图像中待识别目标的属性特征。

如图4A所示，本申请实施例基于训练图像以及多个属性描述文本，训练出能够同时识别多种属性类型的一个属性识别模型，由于在训练过程中关注到了多种属性类型，因此能够学习到更丰富、更具区分性的特征，从而提升属性识别精度；由于仅需训练单个模型，因此训练过程对于计算资源和存储资源的需求较小，维护和更新属性识别模型也无需耗费过多时间和精力；相较于单任务学习的方式，本申请实施例的训练效率更高；训练完成的属性识别模型的泛化能力较强，在面对新的属性类型时仍能实现较高的识别精度。

在一些实施例中，参见图4B，图4B是本申请实施例提供的基于人工智能的属性识别模型训练方法的一个流程示意图，基于图4A，在步骤205之后，还可以在步骤301中，获取测试图像。

在根据训练图像以及多个属性描述文本训练属性识别模型后，可以进入模型测试环节，以测试训练后的属性识别模型的性能。例如，可以为训练过程设置训练停止条件，当满足训练停止条件时，停止对属性识别模型的训练，并进入模型测试阶段，如此，通过训练停止条件来保证属性识别模型得到充分训练。

在模型测试环节中，首先获取测试图像，测试图像中待识别目标的多种属性特征是已知的，为了便于区分，命名为标签属性特征。其中，为了保证测试效果，测试图像可以是不同于训练图像的图像。

在步骤302中，通过训练后的属性识别模型对测试图像进行图像特征提取处理，得到测试图像的图像特征，以作为测试图像特征。

这里，通过训练后的属性识别模型对测试图像进行图像特征提取处理，得到测试图像的图像特征，为了便于区分，将这里得到的图像特征命名为测试图像特征。

在步骤303中，通过训练后的属性识别模型对每个属性描述文本进行文本特征提取处理，得到每个属性描述文本的文本特征，以作为测试文本特征。

这里，通过训练后的属性识别模型对每个属性描述文本进行文本特征提取处理，得到每个属性描述文本的文本特征，为了便于区分，将这里得到的文本特征命名为测试文本特征。

在一些实施例中，步骤303可以沿用模型训练阶段所使用的属性描述文本；或者，在获取到多个测试图像的前提下，可以对每个测试图像中待识别目标的多种标签属性特征进行自然语言描述处理，得到每个测试图像对应的属性描述文本，并将每个测试图像对应的属性描述文本用于步骤303中。

在一些实施例中，测试图像中待识别目标的多种标签属性特征包括多个属性描述文本中未出现的属性特征；通过训练后的属性识别模型对每个属性描述文本进行文本特征提取处理之前，基于人工智能的属性识别模型训练方法还包括：对测试图像中待识别目标的多种标签属性特征进行自然语言描述处理，得到新的属性描述文本。

这里，获取的测试图像中待识别目标的多种标签属性特征包括多个属性描述文本(指模型训练阶段使用的多个属性描述文本)中未出现的属性特征，该未出现的属性特征可以属于已知的属性类型，也可以属于新的属性类型(即多个属性描述文本并未涉及的属性类型)。

在该情况下，多个属性描述文本与测试图像均不对应，导致无法测试出准确的性能指标，因此，对测试图像中待识别目标的多种标签属性特征进行自然语言描述处理，得到新的属性描述文本，该新的属性描述文本即是与测试图像对应的属性描述文本，如此，可以保证测试过程顺利进行。在上述方式中，测试图像中待识别目标的多种标签属性特征包括在模型训练阶段从未出现过的属性特征，通过构建出与测试图像对应的属性描述文本，能够准确测试训练后的属性识别模型的Zero-shot能力。

在步骤304中，确定测试图像的测试图像特征分别与多个属性描述文本的测试文本特征之间的相似度，以作为测试相似度。

针对每个属性描述文本，确定测试图像的测试图像特征与属性描述文本的测试文本特征之间的相似度，为了便于区分，命名为测试相似度。如此，可以得到多个属性描述文本分别对应的测试相似度。

在步骤305中，在多个测试相似度中确定最大测试相似度，并根据最大测试相似度对应的属性描述文本中的多种属性特征、以及测试图像中待识别目标的多种标签属性特征，确定模型指标。

在多个测试相似度中确定数值最大的测试相似度，即最大测试相似度。当最大测试相似度对应的属性描述文本中的多种属性特征与测试图像中待识别目标的多种标签属性特征完全相同(即最大测试相似度对应的属性描述文本也是测试图像对应的属性描述文本)时，确定训练后的属性识别模型针对测试图像的预测结果为正确；当最大测试相似度对应的属性描述文本中的多种属性特征与测试图像中待识别目标的多种标签属性特征并非完全相同时，确定训练后的属性识别模型针对测试图像的预测结果为错误。

根据训练后的属性识别模型针对测试图像的预测结果，可以计算出模型指标，其中，模型指标越大，表示训练后的属性识别模型的性能越好。本申请实施例对模型指标的类型不做限定，例如可以是准确率(Accuracy)、精确率(Precision)、召回率(Recall)或者F1分数(F1 Score)等。

为了使得计算出的模型指标更加准确，不局限于单个测试图像，在步骤301中可以获取多个测试图像，并根据训练后的属性识别模型分别针对多个测试图像的预测结果，计算出模型指标。

在步骤306中，当模型指标达到指标阈值时，将训练后的属性识别模型确定为训练完成的属性识别模型。

当模型指标达到指标阈值时，证明训练后的属性识别模型的性能已达到预期，因此将训练后的属性识别模型确定为训练完成的属性识别模型；当模型指标未达到指标阈值时，证明训练后的属性识别模型的性能未达预期，因此对训练后的属性识别模型再次进行训练，即再次进入模型训练阶段，直至最新计算出的模型指标达到指标阈值为止。

如图4B所示，本申请实施例在模型测试阶段对训练后的属性识别模型进行测试得到模型指标，当模型指标达到指标阈值时，证明训练后的属性识别模型已经具有较好的属性识别能力，可以投入使用，如此，可以保证通过训练完成的属性识别模型对待识别图像进行属性识别的精度。

在一些实施例中，参见图4C，图4C是本申请实施例提供的基于人工智能的属性识别模型训练方法的一个流程示意图，图4A示出的步骤205可以通过步骤401至步骤404实现，将结合各步骤进行说明。

在步骤401中，对多个训练相似度进行归一化处理，得到训练图像分别与多个属性描述文本之间的预测匹配概率。

在确定出训练图像的训练图像特征分别与多个属性描述文本的训练文本特征之间的训练相似度后，对多个训练相似度进行归一化处理，其中，归一化处理是指将多个训练相似度映射到一个相同的数值范围，如此，经过归一化处理后，可以得到训练图像分别与多个属性描述文本之间的预测匹配概率，从而便于后续计算损失值，其中，数值范围可以是[0，1]，当然也可以设定其他的数值范围。

值得说明的是，训练相似度与预测匹配概率之间是一对一的关系，即一个训练相似度的归一化处理结果为一个预测匹配概率。

以图5A举例，则是对相似度I1.T1、I1.T2……I1.TN进行归一化处理，得到训练图像分别与多个属性描述文本之间的预测匹配概率。

以图5B举例，则是对相似度矩阵中的每一行进行归一化处理，得到该行对应的训练图像分别与多个属性描述文本之间的预测匹配概率，例如对第一行的相似度I1.T1、I1.T2……I1.TN进行归一化处理，得到训练图像1分别与多个属性描述文本之间的预测匹配概率；对第二行的相似度I2.T1、I2.T2……I2.TN进行归一化处理，得到训练图像2分别与多个属性描述文本之间的预测匹配概率，以此类推。

在步骤402中，根据训练图像中待识别目标的多种标签属性特征，确定训练图像与多个属性描述文本之间的标签匹配概率。

根据训练图像中待识别目标的多种标签属性特征，可以在多个属性描述文本中确定与训练图像对应的属性描述文本，训练图像对应的属性描述文本中的多种属性特征与训练图像中待识别目标的多种标签属性特征完全相同。

基于此，可以确定训练图像与对应的属性描述文本之间的标签匹配概率为第一标签匹配概率(第一标签匹配概率表征训练图像与属性描述文本之间具有对应关系)，确定训练图像与不对应的每个属性描述文本之间的标签匹配概率为第二标签匹配概率(第二标签匹配概率表征训练图像与属性描述文本之间不具有对应关系)。

例如，在前述归一化处理所映射到的数值范围为[0，1]的情况下，第一标签匹配概率可以是1，第二标签匹配概率可以是0。

在步骤403中，根据训练图像与多个属性描述文本之间的预测匹配概率以及标签匹配概率，确定损失值。

预测匹配概率对应预测结果，标签匹配概率对应期望结果，因此，可以根据训练图像与多个属性描述文本之间的预测匹配概率以及标签匹配概率，确定损失值。例如，可以将训练图像与多个属性描述文本之间的预测匹配概率以及标签匹配概率代入至损失函数中，以计算损失值。

在步骤404中，根据损失值训练属性识别模型。

如图4C所示，本申请实施例通过归一化处理的方式去除训练相似度的量纲影响，将多个训练相似度均映射到一个相同的数值范围，得到多个预测匹配概率，如此，可以结合预测匹配概率与标签匹配概率计算损失值，提升计算过程的统一性和准确性。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。为了便于理解，以人脸属性识别的场景进行示例说明，人脸属性识别在多个领域具有重要意义，如人脸识别、社交媒体、广告定向和人机交互等。通过分析人脸的属性特征，可以更好地理解和识别个体差异，从而实现更加个性化和智能化的服务。

在本申请实施例中，结合计算机视觉技术以及自然语言处理技术训练人脸属性识别模型(对应上文的属性识别模型)，以实现多种属性类型的同时识别。将通过下面步骤进行详细说明。

步骤1)人脸属性标注。

对于人脸图像数据集中的每个人脸图像，标注人脸的多种属性特征，该多种属性特征分别属于不同的属性类型。例如属性类型可以包括“性别”、“年龄”以及“表情”，针对某个人脸图像中的人脸所标注的属性特征可以包括“女性”、“年轻”以及“微笑”。为便于区分，将标注的属性特征命名为标签属性特征。

为了保证标注质量，可以由具有专业知识和经验的标注人员进行标注，也可以采用半自动化的标注方法，如基于已有模型进行标注，再对模型的标注结果进行人工修正。

步骤2)自然语言描述处理。

对每个人脸图像中人脸的多种标签属性特征进行自然语言描述处理，得到属性描述文本。例如，对于一个具有“年轻”、“女性”和“微笑”等标签属性特征的人脸图像，可以将这些标签属性特征组合成一个以自然语言描述的句子，如“一个年轻的正在微笑的女性(或者以英文表示，如A young smiling woman)”。这样，可以尽可能精炼地融合各种属性特征，同时针对某些人脸图像也允许存在标签属性特征的缺失。

此外，还将人脸图像数据集划分为训练数据集(包括多个训练图像)以及测试数据集(包括多个测试图像)，训练数据集用于在模型训练阶段使用，测试数据集用于在模型测试阶段使用。其中，为了测试训练后的人脸属性识别模型的Zero-shot能力，划分出的测试图像所标注的标签属性特征(全部或者部分标签属性特征)应是模型训练阶段未出现过的，例如，对于属性类型“表情”来说，模型训练阶段出现了标签属性特征“高兴”、“悲伤”、“生气”，某个测试图像所标注的标签属性特征可以是未出现过的“惊讶”。

步骤3)模型训练阶段。

一方面，通过人脸属性识别模型的文本编码器(对应上文的文本特征提取网络)提取多个训练图像分别对应的属性描述文本的文本特征，其中，文本编码器可以通过预训练的语言模型(如BERT模型或者GPT模型等)来实现。这些文本特征将用于训练人脸属性识别模型，以实现图像和文本之间的关联学习。

另一方面，通过人脸属性识别模型的图像编码器(对应上文的图像特征提取网络)提取多个训练图像的图像特征，其中，图像编码器可以通过预训练的卷积神经网络(如ResNet模型或者VGG模型等)来实现。

基于得到的图像特征以及文本特征，使用对比学习方法进行训练，使人脸属性识别模型能够学习到训练图像和对应属性描述文本之间的关联，从而实现跨模态的人脸属性识别。举例来说，训练数据集中训练图像的数量为N，由于每个训练图像对应一个属性描述文本，因此属性描述文本的数量也为N，基于N个图像特征以及N个文本特征，可以得到N×N的相似度矩阵，公式如下：

S＝I*D^T

其中，S表示相似度矩阵，如图5B所示；I表示N个图像特征；D表示N个文本特征；T表示矩阵转置。

在相似度矩阵S中，每一行包括一个训练图像分别与N个属性描述文本之间的相似度，因此，对相似性得分矩阵S应用Softmax函数进行归一化处理，得到预测匹配概率矩阵，公式如下：

P＝Softmax(S)

其中，Softmax函数沿着相似性得分矩阵S的每一行进行归一化，得到每一行对应的训练图像分别与N个属性描述文本之间的预测匹配概率，以构成预测匹配概率矩阵P。值得说明的是，对于预测匹配概率矩阵P中的每一行来说，训练图像分别与N个属性描述文本之间的预测匹配概率总和为1。

然后，计算对比损失L(对应上文的损失值)。对比损失L采用交叉熵损失函数计算得到，用于衡量人脸属性识别模型的预测结果与真实结果(或称期望结果)之间的差异。公式如下：

L＝-(1/N)*Σ[y_i*log(p_i)]

其中，y_i表示第i个训练图像分别与N个属性描述文本之间的标签匹配概率，y_i可以用one-hot编码的形式来表示，例如，在N为3的情况下，第1个训练图像与第1个属性描述文本存在对应关系，则y_1可以表示为[1，0，0]，该one-hot编码中第1个数值表示第1个训练图像与第1个属性描述文本之间的标签匹配概率，即为1；该one-hot编码中第2个数值表示第1个训练图像与第2个属性描述文本之间的标签匹配概率，即为0；该one-hot编码中第3个数值表示第1个训练图像与第3个属性描述文本之间的标签匹配概率，即为0。p_i表示第i个训练图像分别与N个属性描述文本之间的预测匹配概率，例如，在N为3的情况下，p_i可以表示为[0.8，0.1，0.1]。

通过最小化对比损失L，人脸属性识别模型可以学会将人脸图像和对应的属性描述文本映射到相同的向量空间，从而实现跨模态的人脸属性识别。

步骤4)模型测试阶段。

经过模型训练阶段后，可以在模型测试阶段测试训练后的人脸属性识别模型的zero-shot能力。同样地，一方面，通过训练后的人脸属性识别模型的文本编码器提取多个测试图像分别对应的属性描述文本的文本特征；另一方面，通过训练后的人脸属性识别模型的图像编码器提取多个测试图像的图像特征。

对于每个测试图像，可以计算测试图像的图像特征与多个属性描述文本的文本特征之间的相似度，并判断最大相似度对应的属性描述文本是否与测试图像相对应。如此，可以得到训练后的人脸属性识别模型的模型指标，当模型指标达到指标阈值时，将训练后的人脸属性识别模型确定为训练完成的人脸属性识别模型，进入模型使用阶段；当模型指标未达到指标阈值时，再次进入模型训练阶段。

步骤5)模型使用阶段。

这里，对于待识别图像，通过训练完成的人脸属性识别模型的图像编码器提取待识别图像的图像特征；另一方面，通过训练完成的人脸属性识别模型的文本编码器提取多个属性描述文本(这里的属性描述文本可以从特定的语句库中获取，并不限于前述步骤中涉及的属性描述文本)的文本特征。

然后，计算待识别图像的图像特征与多个属性描述文本的文本特征之间的相似度，并将最大相似度对应的属性描述文本中的属性特征确定为待识别图像中人脸的属性特征。

通过本申请实施例至少能够实现以下技术效果：

1)更强的泛化能力：通过本申请实施例，可以学习到更丰富、更具区分性的特征表示，从而提高人脸属性识别的泛化能力，特别是在面对新的、未见过的属性类型或者属性特征时，可以通过人脸属性识别模型具有的zero-shot能力直接进行人脸属性识别，而无需额外的标注数据和微调。

2)更高的识别准确性：可以在模型训练阶段中捕捉到图像和文本之间的显著关联，这有助于提高模型在各种属性类型上的识别准确性，特别是对于具有较高语义复杂度的属性类型。

3)更好的数据利用效率：本申请实施例利用人脸图像以及对应的属性描述文本进行训练，对于属性标注的专业度要求不高，并且克服了类别不平衡的问题，提高了模型的数据利用效率。

本申请实施例适用范围广泛，可以应用于需要人脸属性识别的多种场景，例如：

1)人脸识别系统：人脸属性识别可以辅助人脸识别系统，提高系统的准确性和鲁棒性。例如，通过在性别、年龄等属性类型进行属性识别，可以优化人脸识别算法，提高识别效果。

2)个性化广告和推荐系统：在个性化广告和推荐系统中，人脸属性识别可以帮助实现更加个性化和精准的广告投放和内容推荐。例如，根据用户在年龄、性别和表情等属性类型具有的属性特征，为用户推送更符合其兴趣和需求的广告和内容。

3)社交媒体和娱乐应用：在社交媒体和娱乐应用中，人脸属性识别可以用于生成准确的滤镜效果、表情包和虚拟形象等。例如，根据用户的面部特征和表情，为用户生成个性化的动画角色或表情贴图。

下面继续说明本申请实施例提供的基于人工智能的属性识别装置4551实施为软件模块的示例性结构，在一些实施例中，如图2A所示，存储在存储器450的基于人工智能的属性识别装置4551中的软件模块可以包括：第一获取模块45511，用于获取待识别图像以及多个属性描述文本；其中，每个属性描述文本是对待识别目标的多种属性特征进行自然语言描述处理得到的；第一图像特征提取模块45512，用于对待识别图像进行图像特征提取处理，得到待识别图像的图像特征；第一文本特征提取模块45513，用于对每个属性描述文本进行文本特征提取处理，得到每个属性描述文本的文本特征；第一确定模块45514，用于确定待识别图像的图像特征分别与多个属性描述文本的文本特征之间的相似度；识别模块45515，用于在多个相似度中确定最大相似度，并将最大相似度对应的属性描述文本中的属性特征确定为待识别图像中待识别目标的属性特征。

在一些实施例中，第一获取模块45511还用于：对分别属于多种属性类型的属性特征进行组合处理，得到多个属性特征组合；其中，每种属性类型包括多种属性特征，每个属性特征组合中的多个属性特征分别属于不同的属性类型；对每个属性特征组合中的多种属性特征进行自然语言描述处理，得到每个属性特征组合对应的属性描述文本。

在一些实施例中，第一获取模块45511还用于：接收针对待识别图像的属性选定指令；其中，属性选定指令用于在多种属性类型中选定目标属性类型；对分别属于多种目标属性类型的属性特征进行组合处理。

下面继续说明本申请实施例提供的基于人工智能的属性识别模型训练装置4552实施为软件模块的示例性结构，在一些实施例中，如图2B所示，存储在存储器450的基于人工智能的属性识别模型训练装置4552中的软件模块可以包括：第二获取模块45521，用于获取训练图像以及多个属性描述文本；其中，每个属性描述文本是对待识别目标的多种属性特征进行自然语言描述处理得到的；第二图像特征提取模块45522，用于通过属性识别模型对训练图像进行图像特征提取处理，得到训练图像的图像特征，以作为训练图像特征；第二文本特征提取模块45523，用于通过属性识别模型对每个属性描述文本进行文本特征提取处理，得到每个属性描述文本的文本特征，以作为训练文本特征；第二确定模块45524，用于确定训练图像的训练图像特征分别与多个属性描述文本的训练文本特征之间的相似度，以作为训练相似度；训练模块45525，用于根据多个训练相似度以及训练图像中待识别目标的多种标签属性特征确定损失值，并根据损失值训练属性识别模型；其中，训练完成的属性识别模型用于对待识别图像进行图像特征提取处理、以及对属性描述文本进行文本特征提取处理。

在一些实施例中，基于人工智能的属性识别模型训练装置4552还包括测试模块，用于：获取测试图像；通过训练后的属性识别模型对测试图像进行图像特征提取处理，得到测试图像的图像特征，以作为测试图像特征；通过训练后的属性识别模型对每个属性描述文本进行文本特征提取处理，得到每个属性描述文本的文本特征，以作为测试文本特征；确定测试图像的测试图像特征分别与多个属性描述文本的测试文本特征之间的相似度，以作为测试相似度；在多个测试相似度中确定最大测试相似度，并根据最大测试相似度对应的属性描述文本中的多种属性特征、以及测试图像中待识别目标的多种标签属性特征，确定模型指标；当模型指标达到指标阈值时，将训练后的属性识别模型确定为训练完成的属性识别模型。

在一些实施例中，测试图像中待识别目标的多种标签属性特征包括多个属性描述文本中未出现的属性特征；第二获取模块45521还用于：对测试图像中待识别目标的多种标签属性特征进行自然语言描述处理，得到新的属性描述文本。

在一些实施例中，训练模块45525还用于：对多个训练相似度进行归一化处理，得到训练图像分别与多个属性描述文本之间的预测匹配概率；根据训练图像中待识别目标的多种标签属性特征，确定训练图像与多个属性描述文本之间的标签匹配概率；根据训练图像与多个属性描述文本之间的预测匹配概率以及标签匹配概率，确定损失值。

在一些实施例中，第二获取模块45521还用于：获取多个训练图像；对每个训练图像中待识别目标的多种标签属性特征进行自然语言描述处理，得到每个训练图像对应的属性描述文本。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括可执行指令，该可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该可执行指令，处理器执行该可执行指令，使得该电子设备执行本申请实施例上述的基于人工智能的属性识别方法或者基于人工智能的属性识别模型训练方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的基于人工智能的属性识别方法或者基于人工智能的属性识别模型训练方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种基于人工智能的属性识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待识别图像以及多个属性描述文本之前，所述方法还包括：

对分别属于多种属性类型的属性特征进行组合处理，得到多个属性特征组合；其中，每种属性类型包括多种属性特征，每个属性特征组合中的多个属性特征分别属于不同的属性类型；

对每个属性特征组合中的多种属性特征进行自然语言描述处理，得到每个属性特征组合对应的属性描述文本。

3.根据权利要求2所述的方法，其特征在于，所述对分别属于多种属性类型的属性特征进行组合处理之前，所述方法还包括：

接收针对所述待识别图像的属性选定指令；其中，所述属性选定指令用于在所述多种属性类型中选定目标属性类型；

所述对分别属于多种属性类型的属性特征进行组合处理，包括：

对分别属于多种目标属性类型的属性特征进行组合处理。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述自然语言描述处理包括以下任意一种处理：

将待识别目标的多种属性特征填充至文本模板中，得到属性描述文本；

将待识别目标的多种属性特征填充至提示模板中，得到文本提示，并通过生成式模型根据所述文本提示进行文本生成处理，得到属性描述文本。

5.一种基于人工智能的属性识别模型训练方法，其特征在于，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述损失值训练属性识别模型之后，所述方法还包括：

获取测试图像；

通过训练后的属性识别模型对所述测试图像进行图像特征提取处理，得到所述测试图像的图像特征，以作为测试图像特征；

通过训练后的属性识别模型对每个属性描述文本进行文本特征提取处理，得到每个属性描述文本的文本特征，以作为测试文本特征；

确定所述测试图像的测试图像特征分别与多个属性描述文本的测试文本特征之间的相似度，以作为测试相似度；

在多个测试相似度中确定最大测试相似度，并根据最大测试相似度对应的属性描述文本中的多种属性特征、以及所述测试图像中待识别目标的多种标签属性特征，确定模型指标；

当所述模型指标达到指标阈值时，将训练后的属性识别模型确定为训练完成的属性识别模型。

7.根据权利要求6所述的方法，其特征在于，所述测试图像中待识别目标的多种标签属性特征包括多个属性描述文本中未出现的属性特征；所述通过训练后的属性识别模型对每个属性描述文本进行文本特征提取处理之前，所述方法还包括：

对所述测试图像中待识别目标的多种标签属性特征进行自然语言描述处理，得到新的属性描述文本。

8.根据权利要求5所述的方法，其特征在于，所述根据多个训练相似度以及所述训练图像中待识别目标的多种标签属性特征确定损失值，包括：

对多个训练相似度进行归一化处理，得到所述训练图像分别与多个属性描述文本之间的预测匹配概率；

根据所述训练图像中待识别目标的多种标签属性特征，确定所述训练图像与多个属性描述文本之间的标签匹配概率；

根据所述训练图像与多个属性描述文本之间的预测匹配概率以及标签匹配概率，确定损失值。

9.根据权利要求5至8任一项所述的方法，其特征在于，所述获取训练图像以及多个属性描述文本，包括：

获取多个训练图像；

对每个训练图像中待识别目标的多种标签属性特征进行自然语言描述处理，得到每个训练图像对应的属性描述文本。

10.一种基于人工智能的属性识别装置，其特征在于，包括：

11.一种基于人工智能的属性识别模型训练装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至4任一项所述的基于人工智能的属性识别方法，或者权利要求5至9任一项所述的基于人工智能的属性识别模型训练方法。

13.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至4任一项所述的基于人工智能的属性识别方法，或者权利要求5至9任一项所述的基于人工智能的属性识别模型训练方法。

14.一种计算机程序产品，其特征在于，包括可执行指令，用于被处理器执行时，实现权利要求1至4任一项所述的基于人工智能的属性识别方法，或者权利要求5至9任一项所述的基于人工智能的属性识别模型训练方法。