CN116434000A

CN116434000A - 模型训练及物品分类方法、装置、存储介质及电子设备

Info

Publication number: CN116434000A
Application number: CN202310180870.0A
Authority: CN
Inventors: 娄梁山; 王秋霖; 张立平; 裴积全
Original assignee: Jingdong Technology Holding Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2023-07-14

Abstract

本公开提供了一种模型训练及物品分类方法、装置、存储介质及电子设备，涉及计算机技术领域。该方法包括：获取预训练样本，通过初始图文特征提取模型处理预训练样本得到图文特征集；其中，预训练样本包括预训练物品图像及其对应的预训练物品描述文本；基于图文特征集对初始图文特征提取模型进行自监督训练，得到目标图文特征提取模型；获取不同识别场景下的场景训练样本，分别使用不同识别场景下的场景训练样本对目标图文特征提取模型进行训练，获得不同识别场景下的物品分类模型；场景训练样本包括物品图像和物品描述文本中的至少一种，以及物品分类标签。该方法可以在不同识别场景下训练不同的物品分类模型，使分类结果更准确。

Description

模型训练及物品分类方法、装置、存储介质及电子设备

技术领域

本公开涉及计算机技术领域，尤其涉及一种模型训练及物品分类方法、装置、存储介质及电子设备。

背景技术

随着计算机技术的发展，可以利用深度学习模型基于物品信息对物品所属类别进行预测。相关技术中，通常是基于单一的物品图像信息或物品文字信息来进行物品类别的预测，获得的预测结果常常不够准确。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种模型训练方法、装置、电子设备及存储介质，可以提供一种模型训练方法及物品分类方法，以基于物品信息进行更准确的物品类别预测。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供一种模型训练方法，包括：获取预训练样本，通过初始图文特征提取模型处理预训练样本得到图文特征集；其中，预训练样本包括预训练物品图像及其对应的预训练物品描述文本；基于图文特征集对初始图文特征提取模型进行自监督训练，得到目标图文特征提取模型；获取不同识别场景下的场景训练样本，分别使用不同识别场景下的场景训练样本对目标图文特征提取模型进行训练，获得不同识别场景下的物品分类模型；场景训练样本包括物品图像和物品描述文本中的至少一种，以及物品分类标签。

在本公开一个实施例中，识别场景包括：图文识别场景、图像识别场景和文本识别场景；其中，图文识别场景下的场景训练样本包括第一物品图像、第一物品描述文本和第一物品分类标签；图像识别场景下的场景训练样本包括第二物品图像和第二物品分类标签；以及，文本识别场景下的场景训练样本包括第二物品描述文本和第三物品分类标签。

在本公开一个实施例中，目标图文特征提取模型包括：目标图像特征提取模型、目标文本特征提取模型和目标图文特征融合模型；其中，在识别场景为图文识别场景的情况下，使用不同识别场景下的场景训练样本对目标图文特征提取模型进行训练，获得不同识别场景下的物品分类模型，包括：通过目标图像特征提取模型处理第一物品图像，得到第一主图像特征；识别第一物品图像中的第一光学字符识别OCR字符文本，并通过目标文本特征提取模型处理第一OCR字符文本，得到第一OCR文本特征；通过目标图文特征融合模型对第一主图像特征和第一OCR文本特征进行融合处理，得到第一图文融合特征；通过目标文本特征提取模型处理第一物品描述文本，得到第一主文本特征；通过目标图文特征融合模型对第一图文融合特征和第一主文本特征进行融合处理，得到第二图文融合特征；获取物品类别特征集，确定第二图文融合特征与物品类别特征集中各个类别特征之间的相似度，以根据相似度确定图文识别场景下的场景训练样本的第一预测类别；其中，物品类别特征集中的各个类别特征是通过目标文本特征提取模型处理各个类别文本而得到的；根据第一预测类别和第一物品分类标签构建第一场景损失函数，进而利用第一场景损失函数训练目标图文特征提取模型，获得图文识别场景下的物品分类模型。

在本公开一个实施例中，目标图文特征提取模型包括：目标图像特征提取模型、目标文本特征提取模型和目标图文特征融合模型；其中，在识别场景为图像识别场景的情况下，使用不同识别场景下的场景训练样本对目标图文特征提取模型进行训练，获得不同识别场景下的物品分类模型，包括：通过目标图像特征提取模型处理第二物品图像，得到第二主图像特征；识别第二物品图像中的第二OCR字符文本，并通过目标文本特征提取模型处理第二OCR字符文本，得到第二OCR文本特征；通过目标图文特征融合模型对第二主图像特征和第二OCR文本特征进行融合处理，得到第三图文融合特征；获取物品类别特征集，确定第三图文融合特征与物品类别特征集中各个类别特征之间的相似度，以根据相似度确定图像识别场景下的场景训练样本的第二预测类别；其中，物品类别特征集中的各个类别特征是通过目标文本特征提取模型处理各个类别文本而得到的；根据第二预测类别和第二物品分类标签构建第二场景损失函数，进而利用第二场景损失函数训练目标图文特征提取模型，获得图像识别场景下的物品分类模型。

根据本公开的另一个方面，提供一种物品分类方法，包括：获取待识别物品信息；根据待识别物品信息确定识别场景；通过识别场景下的物品分类模型处理待识别物品信息，得到待识别物品信息的类别识别结果；其中，识别场景下的物品分类模型是通过如上述的模型训练方法训练得到的。

在本公开一个实施例中，待识别物品信息包括待识别物品图像和待识别物品描述文本中的至少一种；识别场景为图文识别场景、图像识别场景或者文本识别场景；其中，根据待识别物品信息确定识别场景，包括：若待识别物品信息为待识别物品图像和待识别物品描述文本，则确定识别场景为图文识别场景；若待识别物品信息为待识别物品图像，则确定识别场景为图像识别场景；若待识别物品信息为待识别物品描述文本，则确定识别场景为文本识别场景。

根据本公开的又一个方面，提供一种模型训练装置，包括：第一获取模块，用于获取预训练样本，通过初始图文特征提取模型处理预训练样本得到图文特征集；其中，预训练样本包括预训练物品图像及其对应的预训练物品描述文本；预训练模块，用于基于图文特征集对初始图文特征提取模型进行自监督训练，得到目标图文特征提取模型；场景训练模块，用于获取不同识别场景下的场景训练样本，分别使用不同识别场景下的场景训练样本对目标图文特征提取模型进行训练，获得不同识别场景下的物品分类模型；场景训练样本包括物品图像和物品描述文本中的至少一种，以及物品分类标签。

根据本公开的再一个方面，提供一种物品分类装置，包括：第二获取模块，用于获取待识别物品信息；场景确定模块，用于根据待识别物品信息确定识别场景；识别模块，用于通过识别场景下的物品分类模型处理待识别物品信息，得到待识别物品信息的类别识别结果；其中，识别场景下的物品分类模型是通过如上述的模型训练方法训练得到的。

根据本公开的再一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的模型训练方法或物品分类方法。

根据本公开的再一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述的模型训练方法或物品分类方法。

本公开的实施例所提供的模型训练方法，能够先以预训练物品图像及其对应的预训练物品描述文本作为预训练样本对初始图文特征提取模型进行训练，使得所得到的目标图文特征提取模型进行训练可以从图像和文本中提取出多种具有相一致表征的图像特征和/或文本特征；接着使用不同识别场景下的场景训练样本对目标图文特征提取模型进行进一步的分场景优化训练，获得不同识别场景下的物品分类模型，进而可以满足多种识别场景下的识别需求，使得识别结果更准确。

本公开实施例提供的物品分类方法，可以根据待识别物品信息中包含的信息种类确定待识别物品信息所适用的识别场景，进而使用适用于该识别场景下的物品分类模型来处理待识别物品信息，得到待识别物品信息的类别识别结果。其中，相应识别场景下的物品分类模型是通过如上述的模型训练方法训练得到的，能够对待识别进行更全面的特征提取处理，因此能够得到更准确的类别识别结果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本公开实施例的模型训练方法的示例性系统架构的示意图；

图2示出了本公开一个实施例的模型训练方法的流程图；

图3示出了本公开一个实施例的模型训练方法中图文识别场景下的训练方法的流程图；

图4示出了本公开一个实施例的模型训练方法中图像识别场景下的训练方法的流程图；

图5示出了本公开一个实施例的模型训练方法中文本识别场景下的训练方法的流程图；

图6示出了本公开一个实施例的模型训练方法中通过初始图文特征提取模型处理预训练样本的方法的流程图；

图7示出了本公开一个实施例的模型训练方法中从图像中识别出OCR文本图像和OCR字符文本的方法的示意图；

图8示出了本公开一个实施例的模型训练方法中训练初始图文特征提取模型的方法的流程图；

图9示出了本公开一个实施例的模型训练方法中训练初始图文特征提取模型的方法的示意图；

图10示出了本公开一个实施例的模型训练方法中在不同识别场景下对目标图文特征提取模型训练的方法的示意图；

图11示出了本公开一个实施例的物品分类方法的流程图；

图12示出了本公开一个实施例的模型训练装置1200的框图；

图13示出了本公开一个实施例的物品分类装置的框图；和

图14示出了本公开实施例中一种适于用来实现本公开示例性实施例的计算机设备的结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

图1示出了可以应用本公开实施例的模型训练方法的示例性系统架构的示意图。

如图1所示，该系统架构可以包括服务器101、网络102和客户端103。网络102用以在客户端103和服务器101之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

在示例性实施例中，与服务端101进行数据传输的客户端103可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、AR(Augmented Reality，增强现实)设备、VR(Virtual Reality，虚拟现实)设备、智能可穿戴设备等类型的电子设备。可选的，电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux系统、windows系统等。

服务器101可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。在一些实际应用中，服务器101也可以是网络平台的服务器，网络平台例如可以是交易平台、直播平台、社交平台或者音乐平台等，本公开实施例对此不作限定。其中，服务器可以是一台服务器，也可以是多台服务器形成的集群，本公开对于服务器的具体架构不做限定。

在示例性实施例中，服务器101用于实现模型训练方法的过程可以是：服务器101获取预训练样本，通过初始图文特征提取模型处理预训练样本得到图文特征集；其中，预训练样本包括预训练物品图像及其对应的预训练物品描述文本；服务器101基于图文特征集对初始图文特征提取模型进行自监督训练，得到目标图文特征提取模型；服务器101获取不同识别场景下的场景训练样本，分别使用不同识别场景下的场景训练样本对目标图文特征提取模型进行训练，获得不同识别场景下的物品分类模型；其中，场景训练样本包括物品图像和物品描述文本中的至少一种，以及物品分类标签。

此外，需要说明的是，图1所示的仅仅是本公开提供的模型训练方法的一种应用环境。图1中的客户端、网络和服务器的数目仅仅是示意性的，根据实际需要，可以具有任意数目的客户端、网络和服务器。

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图及实施例对本公开示例实施例中的模型训练方法的各个步骤进行更详细的说明。

图2示出了本公开一个实施例的模型训练方法的流程图。本公开实施例提供的方法可以由如图1所示的服务器或客户端中执行，但本公开并不限定于此。

在下面的举例说明中，以服务器101为执行主体进行示例说明。

如图2所示，本公开实施例提供的模型训练方法可以包括以下步骤。

步骤S201，获取预训练样本，通过初始图文特征提取模型处理预训练样本得到图文特征集；其中，预训练样本包括预训练物品图像及其对应的预训练物品描述文本。

本步骤中，预训练物品图像可以是包含有具体物品影像的图像，如预训练物品图像可以是电子产品的照片、车辆的照片等，预训练物品图像中还可以包含有文字图样信息，如电子产品的照片中包含该电子产品的名称、规格配置等文字信息；预训练物品描述文本可以是用于描述物品信息的文本，如电子产品所归属的品牌、颜色、产品特性等文本信息。预训练物品描述文本与预训练物品图像之间可以存在对应关系，一个预训练样本数据可以是一对具有对应关系的预训练物品描述文本与预训练物品图像，例如一个预训练样本数据可以是：电子产品的照片以及该电子产品的描述信息。

其中，可以通过初始图文特征提取模型基于多维度从预训练样本中提取出多种图像特征、文本特征、图文特征等特征，以得到特征丰富的图文特征集，可以在后续训练中对初始图文特征提取模型进行维度全面的训练。

步骤S203，基于图文特征集对初始图文特征提取模型进行自监督训练，得到目标图文特征提取模型。

本步骤中，图文特征集中的特征是初始图文特征提取模型从无标注的预训练样本中提取出的，因此可以利用图文特征集中的特征构建一个或多个损失函数，进而对初始图文特征提取模型进行自监督训练，使得得到的目标图文特征提取模型可以从图像和文本中提取出多种具有相一致表征的图像特征和/或文本特征，也即，可以为后续步骤中进一步的训练提供能输出准确且全面的特征数据的目标图文特征提取模型。

在一些实际应用中，初始图文特征提取模型中可以包括初始图像特征提取模型、初始文本特征提取模型和初始图文特征融合模型，对初始图文特征提取模型进行自监督训练可以看作是完成了对其中所包含的初始图像特征提取模型、初始文本特征提取模型和初始图文特征融合模型的训练，该训练完成后能对应得到目标图像特征提取模型、目标文本特征提取模型和目标图文特征融合模型，进而可以根据目标图像特征提取模型、目标文本特征提取模型和目标图文特征融合模型确定目标图文特征提取模型。

步骤S205，获取不同识别场景下的场景训练样本，分别使用不同识别场景下的场景训练样本对目标图文特征提取模型进行训练，获得不同识别场景下的物品分类模型；场景训练样本包括物品图像和物品描述文本中的至少一种，以及物品分类标签。

本步骤中，不同识别场景下的场景训练样本可以用于对上述得到的目标图文特征提取模型进行进一步的训练，本步骤中的场景训练样本可以看作是有标注的样本数据，其中物品分类标签可以看作是样本数据的标签。在一些实际应用中，分类标签可以是对物品在一种或多种维度上的分类信息，如在类目(如数码-电脑/手机、日用-厨卫用品等)、属性(如内存容量、尺寸等)、品牌(如品牌名称等)等维度的分类信息。

其中，不同识别场景下的场景训练样本可以有所不同，因此可以进一步在不同识别场景中将目标图文特征提取模型训练为可以适用于不同识别场景的物品分类模型，也即，可以对目标图文特征提取模型进行分场景的优化训练，以满足多种识别场景下的识别需求，使得识别结果更准确。

在一些实施例中，识别场景包括：图文识别场景、图像识别场景和文本识别场景。

具体而言，图文识别场景可以以图像和文本作为共同的输入数据进行识别，图像识别场景可以仅以图像作为输入数据进行识别，文本识别场景可以仅以文本作为输入数据进行识别。

基于此，在一些实施例中，图文识别场景下的场景训练样本可以包括第一物品图像、第一物品描述文本和第一物品分类标签；图像识别场景下的场景训练样本可以包括第二物品图像和第二物品分类标签；以及，文本识别场景下的场景训练样本可以包括第二物品描述文本和第三物品分类标签。

通过本公开提供的模型训练方法，可以首先以预训练物品图像及其对应的预训练物品描述文本作为预训练样本对初始图文特征提取模型进行训练，使得所得到的目标图文特征提取模型进行训练可以从图像和文本中提取出多种具有相一致表征的图像特征和/或文本特征；接着使用不同识别场景下的场景训练样本对目标图文特征提取模型进行进一步的分场景优化训练，获得不同识别场景下的物品分类模型，进而可以满足多种识别场景下的识别需求，使得识别结果更准确。

在一些实施例中，目标图文特征提取模型中可以包括：目标图像特征提取模型、目标文本特征提取模型和目标图文特征融合模型。

基于此，图3示出了本公开一个实施例的模型训练方法中图文识别场景下的训练方法的流程图，如图3所示，在识别场景为图文识别场景的情况下，步骤S205中的“使用不同识别场景下的场景训练样本对目标图文特征提取模型进行训练，获得不同识别场景下的物品分类模型”可以进一步包括以下步骤。

步骤S301，通过目标图像特征提取模型处理第一物品图像，得到第一主图像特征。

步骤S303，识别第一物品图像中的第一光学字符识别OCR字符文本，并通过目标文本特征提取模型处理第一OCR字符文本，得到第一OCR文本特征。

其中，目标图像特征提取模型中可以包含具有OCR识别功能的模块，可以利用该模块识别出第一物品图像中的第一OCR字符文本，进而使用目标文本特征提取模型从第一OCR字符文本中提取出第一OCR文本特征。

步骤S305，通过目标图文特征融合模型对第一主图像特征和第一OCR文本特征进行融合处理，得到第一图文融合特征。

在一些实际应用中，图像特征提取模型(包括初始图像特征提取模型和目标图像特征提取模型)可以主要由Swin Transformer构成；文本特征提取模型(初始文本特征提取模型和目标文本特征提取模型)可以主要由Bert构成，图像特征提取模型和文本特征提取模型分别可以对图像类信息和文本类信息(如OCR字符文本和物品描述文本)进行编码，提取出图像的视觉特征向量和文本的语言特征向量，且可以通过预先设置使得二者维度保持一致(如1024维度或2048维度等)，并且可以在对初始图文特征提取模型的训练过程汇总使得二者对齐到一个统一的语义空间中。图文特征融合模型(包括初始图文特征融合模型和目标图文特征融合模型)可以是一个多层transformer，可以将视觉和文本的特征进行融合。

步骤S307，通过目标文本特征提取模型处理第一物品描述文本，得到第一主文本特征。步骤S309，通过目标图文特征融合模型对第一图文融合特征和第一主文本特征进行融合处理，得到第二图文融合特征。

在一些实际应用中，可以对上述产生的特征进行多次融合处理，进而生成的第二图文融合特征不仅可以包含第一物品图像以及第一物品图像中OCR信息，同时也可以包含第一物品描述文本中的物品信息。

步骤S311，获取物品类别特征集，确定第二图文融合特征与物品类别特征集中各个类别特征之间的相似度，以根据相似度确定图文识别场景下的场景训练样本的第一预测类别；其中，物品类别特征集中的各个类别特征可以是预先通过目标文本特征提取模型处理各个类别文本而得到的。

本步骤中，可以将第二图文融合特征与所有的类别特征进行余弦相似度计算以确定上述相似度，也可以是用其他的相似度计算方法来实现相似度的计算。

步骤S313，根据第一预测类别和第一物品分类标签构建第一场景损失函数，进而利用第一场景损失函数训练目标图文特征提取模型，获得图文识别场景下的物品分类模型。

本步骤中，第一场景损失函数可以是0-1损失函数、绝对值损失函数、对数损失函数、平方损失函数、指数损失函数、铰链损失函数、感知损失函数、交叉熵损失函数、均方差损失函数等中的任一种，本公开实施例不作限定。

通过本实施例提供的图文识别场景下的训练方法，可以获得适用于输入信息为图像和文本信息的物品分类模型；也即，当物品的图像信息以及文本信息同时可获得时，可以选用上述获得的图文识别场景下的物品分类模型进行物品类别的识别。

基于此，图4示出了本公开一个实施例的模型训练方法中图像识别场景下的训练方法的流程图。如图4所示，在识别场景为图像识别场景的情况下，步骤S205中的“使用不同识别场景下的场景训练样本对目标图文特征提取模型进行训练，获得不同识别场景下的物品分类模型”可以进一步包括以下步骤。

步骤S401，通过目标图像特征提取模型处理第二物品图像，得到第二主图像特征。

步骤S403，识别第二物品图像中的第二OCR字符文本，并通过目标文本特征提取模型处理第二OCR字符文本，得到第二OCR文本特征。

步骤S405，通过目标图文特征融合模型对第二主图像特征和第二OCR文本特征进行融合处理，得到第三图文融合特征。

在一些实际应用中，训练得到的目标图像特征提取模型可以使得提取出的第二主图像特征与第二OCR字符文本属于同一特征空间，因此可以对第二主图像特征与第二OCR字符文本进行融合处理，得到内容信息丰富的第三图文融合特征。

步骤S407，获取物品类别特征集，确定第三图文融合特征与物品类别特征集中各个类别特征之间的相似度，以根据相似度确定图像识别场景下的场景训练样本的第二预测类别；其中，物品类别特征集中的各个类别特征是通过目标文本特征提取模型处理各个类别文本而得到的。

步骤S409，根据第二预测类别和第二物品分类标签构建第二场景损失函数，进而利用第二场景损失函数训练目标图文特征提取模型，获得图像识别场景下的物品分类模型。

通过本实施例提供的图像识别场景下的训练方法，可以获得适用于输入信息为图像的物品分类模型；也即，当物品的图像信息可获得时，可以选用上述获得的图像识别场景下的物品分类模型进行物品类别的识别。

在一些实施例中，目标图文特征提取模型中可以包括：目标文本特征提取模型。

基于此，图5示出了本公开一个实施例的模型训练方法中文本识别场景下的训练方法的流程图。如图5所示，在识别场景为文本识别场景的情况下，步骤S205中的“使用不同识别场景下的场景训练样本对目标图文特征提取模型进行训练，获得不同识别场景下的物品分类模型”可以进一步包括以下步骤。

步骤S501，通过目标文本特征提取模型处理第二物品描述文本，得到第二主文本特征。步骤S503，获取物品类别特征集，确定第二主文本特征与物品类别特征集中各个类别特征之间的相似度，以根据相似度确定文本识别场景下的场景训练样本的第三预测类别；其中，物品类别特征集中的各个类别特征是通过目标文本特征提取模型处理各个类别文本而得到的。步骤S505，根据第三预测类别和第三物品分类标签构建第三场景损失函数，进而利用第三场景损失函数训练目标图文特征提取模型，获得文本识别场景下的物品分类模型。

通过本实施例提供的文本识别场景下的训练方法，可以获得适用于输入信息为文本的物品分类模型；也即，当物品的文本信息可获得时，可以选用上述获得的文本识别场景下的物品分类模型进行物品类别的识别。

在一些实施例中，初始图文特征提取模型包括初始图像特征提取模型、初始文本特征提取模型和初始图文特征融合模型。

基于此，图6示出了本公开一个实施例的模型训练方法中通过初始图文特征提取模型处理预训练样本的方法的流程图，如图6所示，步骤S201中“通过初始图文特征提取模型处理预训练样本得到图文特征集”可以进一步包括以下步骤。

步骤S601，对预训练物品图像进行OCR识别处理，得到预训练物品图像中的预训练OCR文本图像和预训练OCR字符文本。

在一些实施例中，步骤S601可以进一步包括：通过OCR识别模块处理预训练物品图像，得到预训练物品图像中的OCR边界框和预训练OCR字符文本；基于OCR边界框从预训练物品图像分割出预训练OCR文本图像。

图7示出了本公开一个实施例的模型训练方法中从图像中识别出OCR文本图像和OCR字符文本的方法的示意图；如图7所示，包括预训练物品图像701和预训练OCR文本图像702，其中，预训练OCR文本图像是基于预训练物品图像701得到的。

具体地，可以先识别出预训练物品图像701中的OCR信息，如预训练物品图像701中的“服务、自动关机或重启、XXX笔记本维修、原厂备件、免费取送和价格透明”等预训练OCR字符文本，并同时识别出这些字样的边界框的位置。然后将预训练OCR字符文本用各自对应的边界框进行包围掩盖，并将边界框以外的区域用预训练物品图像701的像素平均值进行填充，最终获得OCR文本图像702。

步骤S603，通过初始图像特征提取模型分别处理预训练物品图像和预训练OCR文本图像，得到预训练主图像特征和预训练OCR图像特征。

步骤S605，通过初始文本特征提取模型分别处理预训练物品描述文本和预训练OCR字符文本，得到预训练主文本特征和OCR文本特征。

步骤S607，通过初始图文特征融合模型对预训练主图像特征和预训练主文本特征进行融合处理，得到预训练图文融合特征。

步骤S609，根据预训练主图像特征、预训练OCR图像特征、预训练主文本特征、预训练OCR文本特征以及预训练图文融合特征确定图文特征集。

图8示出了本公开一个实施例的模型训练方法中训练初始图文特征提取模型的方法的流程图，如图8所示，步骤S202可以进一步包括：

步骤S801，根据预训练OCR图像特征和预训练OCR文本特征构建第一损失函数。

在一些实际应用中，具体可以通过如下方式构建第一损失函数：将每一预训练物品图像的预训练OCR图像特征和预训练OCR文本特征作为第一正样本；将每一预训练物品图像的预训练OCR图像特征和其他预训练物品图像的预训练OCR文本特征作为第一负样本；基于第一正样本和第一负样本构建第一损失函数。

在一些实际应用中，构建出的第一损失函数可以是：

L_InfoNCE＝L_i2t+L_t2i；

其中，L_i2t可以为给定预训练OCR图像下的对比学习损失：

为OCR图片特征向量，/>

为OCR文字特征向量，τ为温度超参数(默认为0.05)。

L_t2i为给定预训练OCR文字下的对比学习损失：

利用海量的预训练OCR图像和预训练文本描述，通过对比学习训练，可以将预训练OCR图像中关于文字的视觉信息与文字统一到同一个特征空间。这样就可以得到一个通用的OCR图像和文字多模态信息编码器，实现商品信息中关于OCR信息的提取，并且在商品分类和属性预测等下游任务，丰富主图特征。

步骤S803，根据预训练主图像特征和预训练主文本特征构建第二损失函数。

在一些实际应用中，具体可以通过如下方式构建第二损失函数：将每一预训练物品图像的预训练主图像特征和预训练主文本特征作为第二正样本；将每一物品图像的预训练主图像特征和其他预训练物品图像的预训练主文本特征作为第二负样本；基于第二正样本和第二负样本构建第二损失函数。

在一些实际应用中，构建出的第二损失函数可以是：

L_InfoNCE＝L_i2t+L_t2i；

其中，L_i2t为给定商品图片下的对比学习损失：

f_* ⁱ为融合视觉特征向量，

为标题特征向量，τ为温度超参数(默认为0.05)。

L_t2i为给定商品标题下的对比学习损失：

利用海量的预训练商品图像和预训练描述文本，通过对比学习训练，可以将物品图像中融合OCR的视觉信息与描述文本中的文本信息统一到同一个特征空间，形成一个通用的多模态预训练模型，为后续步骤中物品的类别(如类目、品牌和属性)预测提供强大的特征提取器。

步骤S805，根据预训练图文融合特征和预训练物品描述文本构建第三损失函数。

在一些实际应用中，具体可以通过如下方式构建第三损失函数：首先，将预训练物品描述文本按照Bert的掩码方式进行随机掩码。其次，预训练物品描述文本经初始文本特征提取模型处理得到预训练主文本特征；然后通过初始图文特征融合模型处理预训练主图像特征和预训练主文本特征得到预训练图文融合特征；再基于预训练图文融合特征确定掩码位置文字的预测值，最后利用掩码位置文字的预测值和对应位置原始文字之间的关系，构建出交叉熵的用于自监督训练的第三损失函数：

其中，N_M可以表示被掩盖的文字集合，

可以表示被掩盖位置对应的真实文字，

可以表示被掩盖位置对应的预测值。

步骤S807，利用第一损失函数、第二损失函数和第三损失函数训练初始图文特征提取模型中的初始图像特征提取模型、初始文本特征提取模型和初始图文特征融合模型，进而得到目标图文特征提取模型。

其中，可以分别得到训练好的目标图像特征提取模型、目标文本特征提取模型和目标图文特征融合模型，再根据训练好的目标图像特征提取模型、目标文本特征提取模型和目标图文特征融合模型确定目标图文特征提取模型。

图9示出了本公开一个实施例的模型训练方法中训练初始图文特征提取模型的方法的示意图，如图9所示，输入的预训练样本可以为一张商品图像(即预训练物品图像)和标题(对应的预训练物品描述文本)，输出可以为不同模态的特征向量(即图文特征集中的各特征)。

初始图文特征提取模型的主干网络可以由一个视觉编码器(即初始图像特征提取模型)，一个文本编码器(即初始文本特征提取模型)和一个视觉文本融合模块(即初始图文特征融合模型)构成。视觉编码器主要可以由Swin Transformer构成，文本编码器主要可以由Bert构成，二者分别对商品图像(即预训练物品图像)和OCR文本(即预训练OCR字符文本)/商品标题文本(即预训练物品描述文本)进行编码，提取出图片的视觉特征向量(即预训练主图像特征)和文本的语言特征向量(即预训练主文本特征和OCR文本特征)，二者维度一致，并且通过对比学习预训练对齐到一个统一的语义空间。视觉文本融合模块(即初始图文特征融合模型)可以是一个多层transformer，可以将视觉和文本的特征进行融合。

训练过程中可以分为四个模块：(1)OCR文本图像与OCR文本对比学习模块，对应图1中模块①；(2)原图像与标题对比学习模块，对应图1中的模块②；(3)基于Transformer的视觉文本融合模块，对应图1中的模块③；(4)掩码文本预测模块，对应图1中的模块④。

通过如图9所示的预训练后，可以达到如下效果：使视觉编码器在具有识别图像中内容的功能之外，还可以在图像中包含OCR信息时具有识别图像中OCR信息的功能。使文本编码器从标题中提取出与图像相适应的特征，使得文本编码器从标题中提取出更准确的特征。使图文融合模块学会将图像特征和标题特征融合获得与标题信息相适应的融合特征。

图10示出了本公开一个实施例的模型训练方法中在不同识别场景下对目标图文特征提取模型训练的方法的示意图，如图10所示，可以将每个类别信息对应一个类别特征(如每个类目分别对应一个目标特征向量，每个属性值分别对应一个目标特征向量，每个品牌分别对应一个目标特征向量)，通过在不同场景下计算类别特征向量与不同模态的预测特征向量之间的相似度，进行类别信息(类目/属性/品牌)的训练和预测，最终基于目标图文特征提取模型训练获得不同识别场景下的物品分类模型。

具体地，先获取所有物品分类的类别信息，如类目、属性、品牌名称信息，然后通过目标文本特征提取模型对所有物品分类的类别信息进行编码，生成对应的目标特征向量(即物品类别特征集中的各个类别特征)，然后可以根据不同场景需求分为以下三种训练方式，如图2中的①模块，②模块和③模块。其中，①模块为图像识别场景，②模块为文本识别场景，③模块为图文识别场景。

①在图像识别场景下训练目标图文特征提取模型。该场景下训练出的物品分类模型可以基于主图(即第二物品图像)和OCR(第二OCR字符文本)进行融合预测：一些场景下，商品图像(即第二物品图像)通常会包含OCR文本。针对此种场景，经过目标图文特征提取模型处理获得的OCR文本特征(即第二OCR文本特征)与主图特征(即第二主图像特征)被统一在同一特征空间，OCR文本特征可以丰富主图特征。通过一个多层Transformer融合主图和OCR文本特征生成的特征向量(即第三图文融合特征)，与所有的商品属性/类目/品牌特征向量(即物品类别特征集中的各个类别特征)计算余弦相似度，将相似度最高的商品属性/类目/品牌特征向量作为预测结果，然后基于预测结果与原有的类别标签采用交叉熵损失函数进行训练。

②在文本识别场景下训练目标图文特征提取模型。该场景下训练出的物品分类模型可以基于标题(即第二物品描述文本)进行预测：一些场景下，可获得的只有针对商品的文字标题描述。针对此种场景，标题经过目标文本特征提取模型编码生成特征向量(即第二主文本特征)，此特征向量可以表征标题所描述的商品信息，将此特征与所有的商品属性/类目/品牌特征向量计算余弦相似度，将相似度最高的商品属性/类目/品牌特征向量作为预测结果，然后基于预测结果与原有的类别标签采用交叉熵损失函数进行训练。

③在图文识别场景下训练目标图文特征提取模型。该场景下训练出的物品分类模型可以基于主图、OCR文本和标题融合进行预测：一些场景下，可输入的信息不仅有商品图像，还有商品的文字标题描述。一个多层Transformer可以对主图特征、OCR文本特征和标题文本特征进行融合进而生成特征向量(即第二图文融合特征)。此特征向量不仅包含了主图以及OCR中的信息，同时也可以包含标题描述中的商品信息，将此特征与所有的商品属性/类目/品牌特征向量计算余弦相似度，将相似度最高的商品属性/类目/品牌特征向量作为预测结果，然后基于预测结果与原有的类别标签采用交叉熵损失函数进行训练。

图11示出了本公开一个实施例的物品分类方法的流程图。本公开实施例提供的方法可以由如图1所示的服务器或客户端中执行，但本公开并不限定于此。

如图11所示，本公开实施例提供的物品分类方法可以包括以下步骤。

步骤S1101，获取待识别物品信息。

在一些实施例中，待识别物品信息包括待识别物品图像和待识别物品描述文本中的至少一种。

步骤S1103，根据待识别物品信息确定识别场景。

在一些实施例中，识别场景为图文识别场景、图像识别场景或者文本识别场景，基于此，步骤S1103可以进一步包括：若待识别物品信息为待识别物品图像和待识别物品描述文本，则确定识别场景为图文识别场景；若待识别物品信息为待识别物品图像，则确定识别场景为图像识别场景；若待识别物品信息为待识别物品描述文本，则确定识别场景为文本识别场景。

步骤S1105，通过识别场景下的物品分类模型处理待识别物品信息，得到待识别物品信息的类别识别结果；其中，识别场景下的物品分类模型是通过如上述的模型训练方法训练得到的。

通过本公开提供的物品分类方法，可以根据待识别物品信息中包含的信息种类确定待识别物品信息所适用的识别场景，进而使用适用于该识别场景下的物品分类模型来处理待识别物品信息，得到待识别物品信息的类别识别结果。其中，相应识别场景下的物品分类模型是通过如上述的模型训练方法训练得到的，能够对待识别进行更全面的特征提取处理，因此能够得到更准确的类别识别结果。

需要注意的是，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

图12示出了本公开一个实施例的模型训练装置1200的框图；如图12所示，包括：

第一获取模块1201，用于获取预训练样本，通过初始图文特征提取模型处理预训练样本得到图文特征集；其中，预训练样本包括预训练物品图像及其对应的预训练物品描述文本；预训练模块1202，用于基于图文特征集对初始图文特征提取模型进行自监督训练，得到目标图文特征提取模型；场景训练模块1203，用于获取不同识别场景下的场景训练样本，分别使用不同识别场景下的场景训练样本对目标图文特征提取模型进行训练，获得不同识别场景下的物品分类模型；场景训练样本包括物品图像和物品描述文本中的至少一种，以及物品分类标签。

通过本公开提供的模型训练装置，可以首先以预训练物品图像及其对应的预训练物品描述文本作为预训练样本对初始图文特征提取模型进行训练，使得所得到的目标图文特征提取模型进行训练可以从图像和文本中提取出多种具有相一致表征的图像特征和/或文本特征；接着使用不同识别场景下的场景训练样本对目标图文特征提取模型进行进一步的分场景优化训练，获得不同识别场景下的物品分类模型，进而可以满足多种识别场景下的识别需求，使得识别结果更准确。

在一些实施例中，识别场景包括：图文识别场景、图像识别场景和文本识别场景；其中，图文识别场景下的场景训练样本包括第一物品图像、第一物品描述文本和第一物品分类标签；图像识别场景下的场景训练样本包括第二物品图像和第二物品分类标签；以及，文本识别场景下的场景训练样本包括第二物品描述文本和第三物品分类标签。

在一些实施例中，目标图文特征提取模型包括：目标图像特征提取模型、目标文本特征提取模型和目标图文特征融合模型；其中，在识别场景为图文识别场景的情况下，场景训练模块1203使用不同识别场景下的场景训练样本对目标图文特征提取模型进行训练，获得不同识别场景下的物品分类模型，包括：通过目标图像特征提取模型处理第一物品图像，得到第一主图像特征；识别第一物品图像中的第一光学字符识别OCR字符文本，并通过目标文本特征提取模型处理第一OCR字符文本，得到第一OCR文本特征；通过目标图文特征融合模型对第一主图像特征和第一OCR文本特征进行融合处理，得到第一图文融合特征；通过目标文本特征提取模型处理第一物品描述文本，得到第一主文本特征；通过目标图文特征融合模型对第一图文融合特征和第一主文本特征进行融合处理，得到第二图文融合特征；获取物品类别特征集，确定第二图文融合特征与物品类别特征集中各个类别特征之间的相似度，以根据相似度确定图文识别场景下的场景训练样本的第一预测类别；其中，物品类别特征集中的各个类别特征是通过目标文本特征提取模型处理各个类别文本而得到的；根据第一预测类别和第一物品分类标签构建第一场景损失函数，进而利用第一场景损失函数训练目标图文特征提取模型，获得图文识别场景下的物品分类模型。

在一些实施例中，目标图文特征提取模型包括：目标图像特征提取模型、目标文本特征提取模型和目标图文特征融合模型；其中，在识别场景为图像识别场景的情况下，场景训练模块1203使用不同识别场景下的场景训练样本对目标图文特征提取模型进行训练，获得不同识别场景下的物品分类模型，包括：通过目标图像特征提取模型处理第二物品图像，得到第二主图像特征；识别第二物品图像中的第二OCR字符文本，并通过目标文本特征提取模型处理第二OCR字符文本，得到第二OCR文本特征；通过目标图文特征融合模型对第二主图像特征和第二OCR文本特征进行融合处理，得到第三图文融合特征；获取物品类别特征集，确定第三图文融合特征与物品类别特征集中各个类别特征之间的相似度，以根据相似度确定图像识别场景下的场景训练样本的第二预测类别；其中，物品类别特征集中的各个类别特征是通过目标文本特征提取模型处理各个类别文本而得到的；根据第二预测类别和第二物品分类标签构建第二场景损失函数，进而利用第二场景损失函数训练目标图文特征提取模型，获得图像识别场景下的物品分类模型。

在一些实施例中，目标图文特征提取模型包括：目标文本特征提取模型；其中，在识别场景为文本识别场景的情况下，场景训练模块1203使用不同识别场景下的场景训练样本对目标图文特征提取模型进行训练，获得不同识别场景下的物品分类模型，包括：通过目标文本特征提取模型处理第二物品描述文本，得到第二主文本特征；获取物品类别特征集，确定第二主文本特征与物品类别特征集中各个类别特征之间的相似度，以根据相似度确定文本识别场景下的场景训练样本的第三预测类别；其中，物品类别特征集中的各个类别特征是通过目标文本特征提取模型处理各个类别文本而得到的；根据第三预测类别和第三物品分类标签构建第三场景损失函数，进而利用第三场景损失函数训练目标图文特征提取模型，获得文本识别场景下的物品分类模型。

在一些实施例中，初始图文特征提取模型包括初始图像特征提取模型、初始文本特征提取模型和初始图文特征融合模型；其中，第一获取模块1201通过初始图文特征提取模型处理预训练样本得到图文特征集，包括：对预训练物品图像进行OCR识别处理，得到预训练物品图像中的预训练OCR文本图像和预训练OCR字符文本；通过初始图像特征提取模型分别处理预训练物品图像和预训练OCR文本图像，得到预训练主图像特征和预训练OCR图像特征；通过初始文本特征提取模型分别处理预训练物品描述文本和预训练OCR字符文本，得到预训练主文本特征和OCR文本特征；以及，通过初始图文特征融合模型对预训练主图像特征和预训练主文本特征进行融合处理，得到预训练图文融合特征；根据预训练主图像特征、预训练OCR图像特征、预训练主文本特征、预训练OCR文本特征以及预训练图文融合特征确定图文特征集。

在一些实施例中，第一获取模块1201对预训练物品图像进行OCR识别处理，得到预训练物品图像中的预训练OCR文本图像和预训练OCR字符文本，包括：通过OCR识别模块处理预训练物品图像，得到预训练物品图像中的OCR边界框和预训练OCR字符文本；基于OCR边界框从预训练物品图像分割出预训练OCR文本图像。

在一些实施例中，预训练模块1202基于图文特征集对初始图文特征提取模型进行自监督训练，得到目标图文特征提取模型，包括：根据预训练OCR图像特征和预训练OCR文本特征构建第一损失函数；根据预训练主图像特征和预训练主文本特征构建第二损失函数；根据预训练图文融合特征和预训练物品描述文本构建第三损失函数；利用第一损失函数、第二损失函数和第三损失函数训练初始图文特征提取模型中的初始图像特征提取模型、初始文本特征提取模型和初始图文特征融合模型，进而得到目标图文特征提取模型。

图12实施例的其它内容可以参照上述其它实施例。

图13示出了本公开一个实施例的物品分类装置1300的框图，如图13所示，包括：

第二获取模块1301，用于获取待识别物品信息；场景确定模块1302，用于根据待识别物品信息确定识别场景；识别模块1303，用于通过识别场景下的物品分类模型处理待识别物品信息，得到待识别物品信息的类别识别结果；其中，识别场景下的物品分类模型是通过如上述的模型训练方法训练得到的。

在一些实施例中，待识别物品信息包括待识别物品图像和待识别物品描述文本中的至少一种；识别场景为图文识别场景、图像识别场景或者文本识别场景；其中，场景确定模块1302根据待识别物品信息确定识别场景，包括：若待识别物品信息为待识别物品图像和待识别物品描述文本，则确定识别场景为图文识别场景；若待识别物品信息为待识别物品图像，则确定识别场景为图像识别场景；若待识别物品信息为待识别物品描述文本，则确定识别场景为文本识别场景。

通过本公开提供的物品分类方法，可以根据待识别物品信息中包含的信息种类确定待识别物品信息所适用的识别场景，进而使用适用于该识别场景下的物品分类模型来处理待识别物品信息，得到待识别物品信息的类别识别结果。其中，相应识别场景下的物品分类模型是通过如上述的模型训练方法训练得到的，能够对待识别进行全面的特征提取处理，因此能够得到更准确的类别识别结果。

图13实施例的其它内容可以参照上述其它实施例。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

图14示出了本公开实施例中一种适于用来实现本公开示例性实施例的计算机设备的结构框图。需要说明的是，图示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

下面参照图14来描述根据本发明的这种实施方式的电子设备1400。图14显示的电子设备1400仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图14所示，电子设备1400以通用计算设备的形式表现。电子设备1400的组件可以包括但不限于：上述至少一个处理单元1410、上述至少一个存储单元1420、连接不同系统组件(包括存储单元1420和处理单元1410)的总线1430。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1410执行，使得所述处理单元1410执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元1410可以执行如图2中所示的方法。

存储单元1420可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)14201和/或高速缓存存储单元14202，还可以进一步包括只读存储单元(ROM)14203。

存储单元1420还可以包括具有一组(至少一个)程序模块14205的程序/实用工具14204，这样的程序模块14205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1430可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1400也可以与一个或多个外部设备1500(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1400交互的设备通信，和/或与使得该电子设备1400能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1450进行。并且，电子设备1400还可以通过网络适配器1460与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1460通过总线1430与电子设备1400的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1400使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

根据本发明实施方式的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

根据本公开的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例的各种可选实现方式中提供的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

Claims

1.一种模型训练方法，其特征在于，包括：

获取预训练样本，通过初始图文特征提取模型处理所述预训练样本得到图文特征集；其中，所述预训练样本包括预训练物品图像及其对应的预训练物品描述文本；

基于所述图文特征集对所述初始图文特征提取模型进行自监督训练，得到目标图文特征提取模型；

获取不同识别场景下的场景训练样本，分别使用不同识别场景下的场景训练样本对所述目标图文特征提取模型进行训练，获得不同识别场景下的物品分类模型；所述场景训练样本包括物品图像和物品描述文本中的至少一种，以及物品分类标签。

2.根据权利要求1所述的方法，其特征在于，所述识别场景包括：图文识别场景、图像识别场景和文本识别场景；

其中，所述图文识别场景下的场景训练样本包括第一物品图像、第一物品描述文本和第一物品分类标签；所述图像识别场景下的场景训练样本包括第二物品图像和第二物品分类标签；以及，所述文本识别场景下的场景训练样本包括第二物品描述文本和第三物品分类标签。

3.根据权利要求2所述的方法，其特征在于，所述目标图文特征提取模型包括：目标图像特征提取模型、目标文本特征提取模型和目标图文特征融合模型；

其中，在所述识别场景为图文识别场景的情况下，使用不同识别场景下的场景训练样本对所述目标图文特征提取模型进行训练，获得不同识别场景下的物品分类模型，包括：

通过所述目标图像特征提取模型处理所述第一物品图像，得到第一主图像特征；识别所述第一物品图像中的第一光学字符识别OCR字符文本，并通过所述目标文本特征提取模型处理所述第一OCR字符文本，得到第一OCR文本特征；通过所述目标图文特征融合模型对所述第一主图像特征和所述第一OCR文本特征进行融合处理，得到第一图文融合特征；

通过所述目标文本特征提取模型处理所述第一物品描述文本，得到第一主文本特征；

通过所述目标图文特征融合模型对所述第一图文融合特征和所述第一主文本特征进行融合处理，得到第二图文融合特征；

获取物品类别特征集，确定所述第二图文融合特征与所述物品类别特征集中各个类别特征之间的相似度，以根据所述相似度确定所述图文识别场景下的场景训练样本的第一预测类别；其中，所述物品类别特征集中的各个类别特征是通过所述目标文本特征提取模型处理各个类别文本而得到的；

根据所述第一预测类别和所述第一物品分类标签构建第一场景损失函数，进而利用所述第一场景损失函数训练所述目标图文特征提取模型，获得所述图文识别场景下的物品分类模型。

4.根据权利要求2所述的方法，其特征在于，所述目标图文特征提取模型包括：目标图像特征提取模型、目标文本特征提取模型和目标图文特征融合模型；

其中，在所述识别场景为图像识别场景的情况下，使用不同识别场景下的场景训练样本对所述目标图文特征提取模型进行训练，获得不同识别场景下的物品分类模型，包括：

通过所述目标图像特征提取模型处理所述第二物品图像，得到第二主图像特征；

识别所述第二物品图像中的第二OCR字符文本，并通过所述目标文本特征提取模型处理所述第二OCR字符文本，得到第二OCR文本特征；

通过所述目标图文特征融合模型对所述第二主图像特征和所述第二OCR文本特征进行融合处理，得到第三图文融合特征；

获取物品类别特征集，确定所述第三图文融合特征与所述物品类别特征集中各个类别特征之间的相似度，以根据所述相似度确定所述图像识别场景下的场景训练样本的第二预测类别；其中，所述物品类别特征集中的各个类别特征是通过所述目标文本特征提取模型处理各个类别文本而得到的；

根据所述第二预测类别和所述第二物品分类标签构建第二场景损失函数，进而利用所述第二场景损失函数训练所述目标图文特征提取模型，获得所述图像识别场景下的物品分类模型。

5.根据权利要求2所述的方法，其特征在于，所述目标图文特征提取模型包括：目标文本特征提取模型；

其中，在所述识别场景为文本识别场景的情况下，使用不同识别场景下的场景训练样本对所述目标图文特征提取模型进行训练，获得不同识别场景下的物品分类模型，包括：

通过所述目标文本特征提取模型处理所述第二物品描述文本，得到第二主文本特征；

获取物品类别特征集，确定所述第二主文本特征与所述物品类别特征集中各个类别特征之间的相似度，以根据所述相似度确定所述文本识别场景下的场景训练样本的第三预测类别；其中，所述物品类别特征集中的各个类别特征是通过所述目标文本特征提取模型处理各个类别文本而得到的；

根据所述第三预测类别和所述第三物品分类标签构建第三场景损失函数，进而利用所述第三场景损失函数训练所述目标图文特征提取模型，获得所述文本识别场景下的物品分类模型。

6.根据权利要求1所述的方法，其特征在于，所述初始图文特征提取模型包括初始图像特征提取模型、初始文本特征提取模型和初始图文特征融合模型；

其中，通过初始图文特征提取模型处理所述预训练样本得到图文特征集，包括：

对所述预训练物品图像进行OCR识别处理，得到所述预训练物品图像中的预训练OCR文本图像和预训练OCR字符文本；

通过所述初始图像特征提取模型分别处理所述预训练物品图像和所述预训练OCR文本图像，得到预训练主图像特征和预训练OCR图像特征；

通过所述初始文本特征提取模型分别处理所述预训练物品描述文本和所述预训练OCR字符文本，得到预训练主文本特征和OCR文本特征；

通过所述初始图文特征融合模型对所述预训练主图像特征和所述预训练主文本特征进行融合处理，得到预训练图文融合特征；

根据所述预训练主图像特征、所述预训练OCR图像特征、所述预训练主文本特征、所述预训练OCR文本特征以及所述预训练图文融合特征确定所述图文特征集。

7.根据权利要求6所述的方法，其特征在于，对所述预训练物品图像进行OCR识别处理，得到所述预训练物品图像中的预训练OCR文本图像和预训练OCR字符文本，包括：

通过OCR识别模块处理所述预训练物品图像，得到所述预训练物品图像中的OCR边界框和所述预训练OCR字符文本；

基于所述OCR边界框从所述预训练物品图像分割出所述预训练OCR文本图像。

8.根据权利要求6所述的方法，其特征在于，基于所述图文特征集对所述初始图文特征提取模型进行自监督训练，得到目标图文特征提取模型，包括：

根据所述预训练OCR图像特征和所述预训练OCR文本特征构建第一损失函数；

根据所述预训练主图像特征和所述预训练主文本特征构建第二损失函数；

根据所述预训练图文融合特征和所述预训练物品描述文本构建第三损失函数；

利用所述第一损失函数、所述第二损失函数和所述第三损失函数训练所述初始图文特征提取模型中的初始图像特征提取模型、初始文本特征提取模型和初始图文特征融合模型，进而得到所述目标图文特征提取模型。

9.一种物品分类方法，其特征在于，包括：

获取待识别物品信息；

根据所述待识别物品信息确定识别场景；

通过所述识别场景下的物品分类模型处理所述待识别物品信息，得到所述待识别物品信息的类别识别结果；其中，所述识别场景下的物品分类模型是通过如权利要求1至8任一项所述的方法训练得到的。

10.根据权利要求9所述的方法，其特征在于，所述待识别物品信息包括待识别物品图像和待识别物品描述文本中的至少一种；所述识别场景为图文识别场景、图像识别场景或者文本识别场景；

其中，根据所述待识别物品信息确定识别场景，包括：

若所述待识别物品信息为待识别物品图像和待识别物品描述文本，则确定所述识别场景为图文识别场景；

若所述待识别物品信息为待识别物品图像，则确定所述识别场景为图像识别场景；

若所述待识别物品信息为待识别物品描述文本，则确定所述识别场景为文本识别场景。

11.一种模型训练装置，其特征在于，包括：

第一获取模块，用于获取预训练样本，通过初始图文特征提取模型处理所述预训练样本得到图文特征集；其中，所述预训练样本包括预训练物品图像及其对应的预训练物品描述文本；

预训练模块，用于基于所述图文特征集对所述初始图文特征提取模型进行自监督训练，得到目标图文特征提取模型；

场景训练模块，用于获取不同识别场景下的场景训练样本，分别使用不同识别场景下的场景训练样本对所述目标图文特征提取模型进行训练，获得不同识别场景下的物品分类模型；所述场景训练样本包括物品图像和物品描述文本中的至少一种，以及物品分类标签。

12.一种物品分类装置，其特征在于，包括：

第二获取模块，用于获取待识别物品信息；

场景确定模块，用于根据所述待识别物品信息确定识别场景；

识别模块，用于通过所述识别场景下的物品分类模型处理所述待识别物品信息，得到所述待识别物品信息的类别识别结果；其中，所述识别场景下的物品分类模型是通过如权利要求1至8任一项所述的方法训练得到的。

13.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1-8中任一项所述的方法或者如权利要求9-10中任一项所述的方法。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-8中任一项所述的方法或者如权利要求9-10中任一项所述的方法。