CN116226785A

CN116226785A - 目标对象识别方法、多模态识别模型的训练方法和装置

Info

Publication number: CN116226785A
Application number: CN202310156295.0A
Authority: CN
Inventors: 罗达志
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2023-06-06

Abstract

本申请公开了一种目标对象识别方法、多模态识别模型的训练方法和相关装置，涉及人工智能、计算机视觉技术、自然语言处理、机器学习。在获取待识别对象的待识别图像数据和待识别文本数据之后，根据文本子模型对待识别文本数据进行特征提取得到的文本特征，或图像子模型对待识别图像数据进行特征提取得到的图像特征，确定待识别对象的初始识别结果，若初始识别结果的置信度小于或等于第一预设置信度或不为预设结果，通过综合判别模块对文本特征和图像特征进行特征融合得到的融合结果，确定待识别对象的预测识别结果，预测识别结果基于多模态数据确定，因此具有更高的准确性和可靠性，且基于单模态的对象识别需要处理较少数据，利于提高识别效率。

Description

目标对象识别方法、多模态识别模型的训练方法和装置

技术领域

本申请涉及数据处理领域，特别是涉及一种目标对象识别方法、多模态识别模型的训练方法和相关装置。

背景技术

目前可以通过识别模型对待识别对象进行识别处理，得到待识别对象的识别结果，待识别对象可以为待识别商品、待识别广告、待识别网页等，从而可以根据实际结果从待识别对象中确定出目标对象。识别模型可以识别待识别对象的相关信息，从而确定待识别对象的识别结果。然而目前的识别模型的识别准确性和识别效率不能满足实际需求。

发明内容

为了解决上述技术问题，本申请提供了一种多模态识别模型的训练方法和相关装置，提供了多模态识别模型的识别准确性和识别效率。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供了一种目标对象识别方法，所述方法包括：

获取待识别对象的待识别图像数据和待识别文本数据；

根据文本子模型对所述待识别文本数据进行特征提取得到的文本特征，或图像子模型对待识别图像数据进行特征提取得到的图像特征，确定所述待识别对象的初始识别结果；

若所述初始识别结果的置信度小于或等于第一预设置信度，则根据综合判别模型对所述文本特征和所述图像特征进行特征融合得到的融合结果，确定所述待识别对象的预测识别结果。

另一方面，本申请提供一种多模态识别模型的训练方法，所述方法包括：

获取具有类别标签的第一训练数据，所述第一训练数据包括第一训练对象的训练文本数据和训练图像数据，所述类别标签用于指示所述第一训练对象的目标识别结果；

通过文本子模型、图像子模型和综合判别模块对所述第一训练数据进行识别处理得到各个所述第一训练对象的第一识别结果，所述文本子模型用于对训练文本数据进行特征提取得到文本特征，所述图像子模型用于对训练图像数据进行特征提取得到图像特征，所述综合判别模块用于对所述文本特征和所述图像特征进行特征融合得到融合结果，所述融合结果用于确定所述第一识别结果；

根据所述类别标签和各个所述第一识别结果，构建第一综合损失函数；

根据所述第一综合损失函数对包括所述文本子模型、所述图像子模型和所述综合判别模块的目标模型进行进行训练，将所述目标模型训练为多模态识别模型，所述多模态识别模型用于根据所述待识别对象的待识别图像数据和待识别文本数据，确定所述待识别对象的预测识别结果。

另一方面，本申请提供了一种目标对象识别装置，所述装置包括：

待识别数据获取单元，用于获取待识别对象的待识别图像数据和待识别文本数据；

初始识别结果确定单元，用于根据文本子模型对所述待识别文本数据进行特征提取得到的文本特征，或图像子模型对待识别图像数据进行特征提取得到的图像特征，确定所述待识别对象的初始识别结果；

预测识别结果确定单元，用于若所述初始识别结果的置信度小于或等于第一预设置信度或所述初始识别结果不为预设结果，则根据综合判别模型对所述文本特征和所述图像特征进行特征融合得到的融合结果，确定所述待识别对象的预测识别结果。

另一方面，本申请提供一种多模态识别模型的训练装置，所述装置包括：

第一训练数据获取单元，用于获取具有类别标签的第一训练数据，所述第一训练数据包括第一训练对象的训练文本数据和训练图像数据，所述类别标签用于指示所述第一训练对象的目标识别结果；

第一识别单元，用于通过文本子模型、图像子模型和综合判别模块对所述第一训练数据进行识别处理得到各个所述第一训练对象的第一识别结果，所述文本子模型用于对训练文本数据进行特征提取得到文本特征，所述图像子模型用于对训练图像数据进行特征提取得到图像特征，所述综合判别模块用于对所述文本特征和所述图像特征进行特征融合得到融合结果，所述融合结果用于确定所述第一识别结果；

第一综合损失函数确定单元，用于根据所述类别标签和各个所述第一识别结果，构建第一综合损失函数；

训练单元，用于根据所述第一综合损失函数对包括所述文本子模型、所述图像子模型和所述综合判别模块的目标模型进行进行训练，将所述目标模型训练为多模态识别模型，所述多模态识别模型用于根据所述待识别对象的待识别图像数据和待识别文本数据，确定所述待识别对象的预测识别结果。

另一方面，本申请提供一种计算机设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序，并将所述计算机程序传输给所述处理器；

所述处理器用于根据所述计算机程序中的指令执行上述方面所述的目标对象识别方法或多模态识别模型的训练方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方面所述的目标对象识别方法或多模态识别模型的训练方法。

另一方面，本申请实施例提供了一种包括计算机程序的计算机程序产品，当其在计算机设备上运行时，使得所述计算机设备执行所述的目标对象识别方法或多模态识别模型的训练方法。

由上述技术方案可以看出，在获取待识别对象的待识别图像数据和待识别文本数据之后，可以根据文本子模型对待识别文本数据进行特征提取得到的文本特征，或图像子模型对待识别图像数据进行特征提取得到的图像特征，确定待识别对象的初始识别结果，即待识别对象可以具有多模态数据，可以先根据单模态数据确定待识别对象的初始识别结果，若根据单模态数据确定的初始识别结果的置信度小于或等于第一预设置信度，说明单模态数据确定的初始识别结果的可靠性不足，此时可以通过综合判别模块对文本特征和图像特征进行特征融合得到的融合结果，确定待识别对象的预测识别结果，从而根据预测识别结果从待识别对象中确定出目标对象，待识别对象的预测识别结果基于多模态数据确定，因此具有更高的准确性和可靠性。此外，基于单模态的对象识别相比于基于多模态的对象识别需要处理的数据量较少，因此本申请实施例在单模态数据确定的初始识别结果的可靠性不足时进行特征融合和结果预测，相对减少了需要进行特征融合的执行次数，利于提高识别效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种目标对象识别方法的应用场景的示意图；

图2为本申请实施例提供的一种目标对象识别方法的流程图；

图3为本申请实施例提供的一种待识别文本数据和待识别图像数据的示意图；

图4为本申请实施例提供的一种多模态识别模型的结构示意图；

图5为本申请实施例提供的一种对象识别过程的示意图；

图6为本申请实施例提供的另一种对象识别过程示意图；

图7为本申请实施例提供的又一种对象识别过程示意图；

图8为本申请实施例提供的一种文本子模型的结构示意图；

图9为本申请实施例提供的另一种文本子模型的结构示意图；

图10为本申请实施例提供的一种图像子模型的结构示意图；

图11为本申请实施例提供的一种多模态识别模型的工作示意图；

图12为本申请实施例提供的一种甲方的相关系统的界面示意图；

图13为本申请实施例提供的一种对违规电商商品的线索信息界面的示意图；

图14为本申请实施例提供的一种多模态识别模型的训练方法的流程图；

图15为本申请实施例提供的一种构建相似文本数据的过程示意图；

图16为本申请实施例提供的一种构建相似图像数据的过程示意图；

图17为本申请实施例提供的一种多模态识别模型的训练以及应用流程示意图；

图18为本申请实施例提供的一种训练数据均衡化的示意图；

图19为本申请实施例提供的一种半监督训练方案的流程示意图；

图20为本申请实施例提供的一种CDRLR学习率衰减示意图；

图21为本申请实施例提供的一种自适应优化的流程示意图；

图22为本申请实施例提供的一种目标对象识别装置的结构框图；

图23为本申请实施例提供的一种多模态识别模型的训练装置的结构框图；

图24为本申请实施例提供的一种终端设备的结构图；

图25为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

目前通过识别模型对待识别对象进行识别处理，得到待识别对象的识别结果，识别模型可以识别待识别对象的相关信息，从而确定待识别对象的识别结果。然而目前的识别模型的识别准确性和识别效率不能满足实际需求。

为了解决上述技术问题，本申请实施例中待识别对象的预测识别结果基于多模态数据确定，因此具有更高的准确性和可靠性。此外，基于单模态的对象识别相比于基于多模态的对象识别需要处理的数据量较少，因此本申请实施例在单模态数据确定的初始识别结果的可靠性不足时进行特征融合和结果预测，相对减少了需要进行特征融合的执行次数，利于提高识别效率。

本申请实施例提供的目标对象识别方法和多模态识别模型的训练方法是基于人工智能(Artificial Intelligence，AI)实现的，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述计算机视觉技术(Computer Vision，CV)、自然语言处理技术、机器学习/深度学习等方向。例如，可以涉及机器学习(Machine learning，ML)中的深度学习(Deep Learning)，包括各类人工神经网络(Artificial Neural Network，ANN)。

本申请实施例所提供的目标对象识别方法、多模态识别模型的训练方法可以通过计算机设备实施，该计算机设备可以是终端设备或服务器，其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

计算机视觉技术是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(optical character recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

该具有数据处理的计算机设备具备自然语言处理(Nature Languageprocessing，NLP)能力，自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

该具有数据处理的计算机设备具备机器学习能力，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

在本申请实施例提供的一种目标对象识别方法、多模态识别模型的训练方法及相关装置中，采用的人工智能模型主要涉及计算机视觉技术、自然语言处理技术、机器学习/深度学习等，通过计算机视觉技术可以提取图像的特征，通过自然语言处理技术可以提取文字的特征，通过机器学习/深度学习可以根据图像的特征和文字的特征进行对象识别。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

为了便于理解本申请提供的技术方案，接下来，将结合一种实际应用场景，对本申请实施例提供的一种目标对象识别方法进行介绍。

图1示出了本申请实施例提供的一种目标对象识别方法的应用场景的示意图，该场景中，包括服务器10和终端设备20，终端设备20中安装有用于对象识别的应用程序，该应用程序对应的服务器10和终端设备20之间可以通过网络进行交互。服务器10可以作为前述计算机设备，用于为待识别对象确定预测识别结果，向终端设备20发送待识别对象的预测识别结果。

服务器10在获取待识别对象的待识别图像数据和待识别文本数据之后，可以根据文本子模型对待识别文本数据进行特征提取得到的文本特征，或图像子模型对待识别图像数据进行特征提取得到的图像特征，确定待识别对象的初始识别结果，即待识别对象可以具有多模态数据，可以先根据单模态数据确定待识别对象的初始识别结果。

若服务器10根据单模态数据确定的初始识别结果的置信度小于或等于第一预设置信度，说明单模态数据确定的初始识别结果的可靠性不足，此时可以通过综合判别模块对文本特征和图像特征进行特征融合得到的融合结果，确定待识别对象的预测识别结果，待识别对象的预测识别结果基于多模态数据确定，因此具有更高的准确性和可靠性。此外，基于单模态的对象识别相比于基于多模态的对象识别需要处理的数据量较少，因此本申请实施例在单模态数据确定的初始识别结果的可靠性不足时进行特征融合和结果预测，相对减少了需要进行特征融合的执行次数，利于提高识别效率。

图2为本申请实施例提供的一种目标对象识别方法的流程图，本实施例中，以服务器作为前述计算机设备进行说明，该目标对象识别方法可以包括：

S101，获取待识别对象的待识别图像数据和待识别文本数据。

本申请实施例中，可以利用多模态识别模型对待识别对象进行识别，待识别对象可以为待识别商品、待识别广告、待识别网页等，多模态识别模型通过对待识别对象的相关数据进行处理得到待识别对象的预测识别结果，例如待识别对象所属的类别，从而可以根据待识别对象的预测识别结果从待识别对象中确定出目标对象。

其中，待识别商品可以为电商商品，电商为电子商务的简称，是指互联网上进行商品交易的相关服务活动，对待识别商品的识别，例如可以确定电商商品是否为违规电商商品，以及该违规电商商品属于什么类别的违规电商商品，违规电商商品的类别例如野生动物、烟草、捕猎工具等。违规电商商品指相关法律法规规定不准私自制造、购买、使用、持有、储存、运输、进出口的物品，这些违规商品层出不穷，严重危害群众生命财产安全，相关部门对该类情形给与了极高的关注。本申请实施例可以用于确定电商商品是否为不允许在电商上进行售卖的商品。同理，待识别广告可以为电商商品的广告，待识别网页可以为展示电商商品的网页，待识别广告和待识别网页的识别，可以确定待识别广告或待识别网页中是否有违规电商商品，以及存在什么类别的违规电商商品。

目前的对象识别方式中，可以通过为各个类别的对象配置关键词，将这些关键词与待识别对象的主要文案进行匹配，将与待识别对象匹配的关键词对应的类别，作为待识别对象的类别，从而实现待识别对象的类别的确定，例如为违规电商商品配置关键词，若待识别对象的主要文案与该关键词匹配，则待识别对象的类别为违规电商商品，从而实现违规电商商品的检出。然而这种方法没有很好的泛化性，容易出现漏检和误判的情况，且需要配置相应的关键词，其效果强烈依赖于人工关键词运维工作。

目前的对象识别方式中，也可以通过基于字嵌入和词嵌入的文本底层特征表示法，获得更强的标题结构特征表达，之后联合注意力、卷积神经网络和通道注意力的机制，对文本标题的底层特征进行增强并获得高层增强特征，而后通过将文本的字嵌入和词嵌入的高层增强特征进行融合，得到文本标题的综合特征，并实现待识别对象自动识别。然而这种方式仅仅基于待识别对象的文本内容进行识别，在实际场景中，为了躲避监管，售卖违规电商商品的商家会尽量少的展示违规相关信息，或者尽量隐晦地展示违规相关信息。因此，单种模态(如单纯文字模态或单纯图像模态)的特征，往往无法体现电商商品的违规与否，在应用过程中也不足以识别出违规电商商品。这种对象识别方式中并未将训练对象的其他重要多模态维度的特征(例如图像特征)利用起来，导致模型识别准确度较低。

基于单模态的特征表现的局限性，本申请实施例中，可以获取待识别对象的待识别图像数据和待识别文本数据，待识别图像数据和待识别文本数据成对出现，作为同一待识别对象的不同维度的特征，这样可以基于待识别对象的多个维度的特征进行识别，从而具有较高的识别准确度。

待识别对象的待识别文本数据可以包括待识别对象的名称、详情文案、通过OCR对图像识别得到的识别文字、店铺名称、待识别对象所属大类等中的至少一个，用于体现待识别对象的功能、参数等，待识别对象为电商商品时，待识别对象的名称为商品名称，待识别对象的详情文案为商品的详情文案，识别文字为通过OCR对电商商品的主图进行识别得到的识别文字。待识别对象的待识别图像数据包括待识别对象的主图，其格式可以为JPG，用于体现待识别对象的形状、颜色等信息。

参考图3所示，为本申请实施例提供的一种待识别文本数据和待识别图像数据的示意图，其中3A和3B分别为两个待识别图像数据的示意图，待识别图像数据中可以包括电子烟的形状和简单介绍，对应的待识别文本数据包括电子烟的名称：可吸入式能量棒，以及电子烟的详情文案：电子化雾器、草本雾化器、提神醒脑、缓解疲劳，识别文字：天然萃取、即取即吸、植物草本等，利用以上的待识别文本数据和待识别图像数据中的一个较难识别到该电商商品为电子烟。

S102，根据文本子模型对待识别文本数据进行特征提取得到的文本特征，或图像子模型对待识别图像数据进行特征提取得到的图像特征，确定待识别对象的初始识别结果。

S103，若初始识别结果的置信度小于或等于第一预设置信度或初始识别结果不为预设结果，则根据综合判别模型对文本特征和图像特征进行特征融合得到的融合结果，确定待识别对象的预测识别结果。

在获取到待识别对象的待识别文本数据和待识别图像数据后，可以通过预先训练得到的多模态识别模型通过对待识别文本数据和待识别图像数据中的至少一个进行处理，实现待识别对象的识别，得到待识别对象的预测识别结果，多模态识别模型本质上是一种识别模型，也可以作为一种分类模型，其具有处理多模态特征的性能，因此称为多模态识别模型。

其中，参考图4所示，为本申请实施例提供的一种多模态识别模型的结构示意图，多模态识别模型可以包括文本子模型、图像子模型和综合判别模块，文本子模型用于对输入的待识别文本数据进行特征提取得到文本特征，图像子模型用于对输入的待识别图像数据进行特征提取得到图像特征，综合判别模块用于对文本特征和图像特征进行特征融合得到融合结果，融合结果用于确定识别结果，由于通过文本特征和图像特征这多种模态的特征进行待识别对象的识别，契合分类特性，因此提高了待识别对象的识别结果确定的精度，以及提高了具有特定类别的目标对象的检索召回率。针对违规商品的检索场景，通过定制化的适用于多种模态的包括图像子模型和文字子模型的模型结构，使其适应违规商品检索的图文多模态特点，从而提升识别效果。此外，通过在多个类别的违规商品的识别测试可知，在识别准确率和检索召回率上均表现优异。

也就是说，文本子模型和图像子模型具有独立的特征提取能力，并且和后续的综合判别模块具有前后的级联关系，因此可以利用这种级联的特性，先利用文本子模型或图像子模型进行识别，而后根据识别结果决定是否启用综合判别模块，即可以根据基于单模态数据的处理结果，来调度多模态识别模型中模块，这样可以减少线上开销，降低计算复杂度，提高线上预测速度，提高综合效能。

具体的，可以通过文本子模型对待识别文本数据进行特征提取得到文本特征，通过图像子模型对待识别图像数据进行特征提取得到图像特征，文本特征和图像特征为不同维度的特征，可以从不同角度体现待识别对象的特性。因此，可以利用文本特征或图像特征，确定待识别对象的初始识别结果，即初始识别结果为基于单模态特征确定的识别结果。若初始识别结果的置信度较高，则说明单模态特征具有丰富的特征表现，足以据此进行对象识别，因此不可以不利用其他模态的特征进行对象识别，若初始识别结果的置信度不高，则说明单模态特征不具有丰富的特征表现，不足以据此进行对象识别，则可以结合多模态特征进行对象识别；若初始识别结果为预设结果，说明待识别对象为需要筛选出的对象，可以不结合多模态特征进行对象识别，若初始识别结果不为预设结果，说明待识别对象不会被筛选出，则可以结合多模态特征进行进一步对象识别。这种识别方式用于线上对待识别对象的识别，可以称为线上早停(Early-Stop)策略，提高线上预测速度，这样在线上环境中，运行速度越快，线上性能越好，其对业务的支持也越好。

作为一种可能的实施方式，可以根据图像特征确定初始识别结果，则在确定初始识别结果之前，可以根据文本子模型对待识别文本数据进行特征提取得到的文本特征，确定待识别对象的文本相关识别结果，若文本相关识别结果的置信度小于或等于第二预设置信度或文本相关识别结果不为预设结果，则通过图像子模型对待识别图像数据进行特征提取得到图像特征。之后，根据图像特征确定初始识别结果，若初始识别结果的置信度小于或等于第一预设置信度或初始识别结果不为预设结果，则根据综合判别模块对文本特征和图像特征进行特征融合得到的融合结果，确定待识别对象的预测识别结果。也就是说，可以先调用文本子模型，若文本子模型提取得到的文本特征的特性表现力不足或据此未能筛选出待识别对象，则可以调用图像子模型，若图像子模型提取得到的图像特征的特性表现力依然不足或据此未能筛选出待识别对象，说明单模态数据确定的初始识别结果的可靠性不足，再调用综合判别模块，这样依次进行模块的调用，使线上识别流程较为高效。

作为另一种可能的实施方式，可以根据文本特征确定初始识别结果，则在确定初始识别结果之前，可以根据图像子模型对待识别图像数据进行特征提取得到的图像特征，确定待识别对象的图像相关识别结果，若图像相关识别结果的置信度小于或等于第三预设置信度或图像相关识别结果不为预设结果，则通过文本子模型对待识别文本数据进行特征提取得到图像特征。之后，若初始识别结果的置信度小于或等于第一预设置信度或初始识别结果不为预设结果，则根据综合判别模块对文本特征和图像特征进行特征融合得到的融合结果，确定待识别对象的预测识别结果。也就是说，可以先调用图像子模型，若图像子模型提取得到的文本特征的特性表现力不足或据此未能筛选出待识别对象，则可以调用文本子模型，若文本子模型提取得到的文本特征的特性表现力依然不足或据此未能筛选出待识别对象，说明单模态数据确定的初始识别结果的可靠性不足，再调用综合判别模块，这样依次进行模块的调用，使线上识别流程较为高效。

由于待识别对象的预测识别结果基于多模态数据确定，因此具有更高的准确性和可靠性，由不同的子模型分别提取文本特征和图像特征，从而提取到训练对象和待识别对象的多维特征，提高特征的信息表达能力，进而提高模型的类别分析准确性。此外，基于单模态的对象识别相比于基于多模态的对象识别需要处理的数据量较少，因此本申请实施例在单模态数据确定的初始识别结果的可靠性不足时进行特征融合和结果预测，相对减少了需要进行特征融合的执行次数，利于提高识别效率。

以根据图像特征确定初始识别结果为例，具体实施时，可以根据识别结果的置信度进行模块调用，参考图5所示，为本申请实施例提供的一种对象识别过程的示意图，获取待识别对象的待识别文本数据和待识别图像数据之后，可以通过文本子模型对待识别文本数据进行特征提取得到文本特征，根据文本特征确定待识别对象的文本相关识别结果；若待识别对象的文本相关识别结果的置信度小于或等于第二预设置信度，则通过图像子模型对待识别图像数据进行特征提取得到图像特征，之后根据图像特征确定初始识别结果，若初始识别结果的置信度小于或等于第一预设置信度，则根据综合判别模块对文本特征和图像特征进行特征融合得到的融合结果，确定待识别对象的预测识别结果，其中可以在文本子模型的尾部连接分类器，在图像子模型的尾部连接分类器，以单独根据文本子模型和图像子模型实现对象识别。

此外，若文本相关识别结果的置信度大于第二预设置信度，意味着文本子模型的识别结果可靠，可以单独凭借待识别文本数据进行对象识别，则可以直接输出文本相关识别结果作为待识别对象的预测识别结果，无需启动图像子模型和综合判别模块；若初始识别结果的置信度大于第一预设置信度，则意味着图像子模型的识别结果可靠，可以单独凭借图像子模型根据待识别图像数据进行对象识别，则可以直接输出初始识别结果作为待识别对象的预测识别结果，无需启动综合判别模块。

以根据图像特征确定初始识别结果为例，在多模态识别模型用于检出预设结果的待识别对象的场景中，可以根据识别结果是否为预设结果进行模块的调用。具体的，可以在通过文本子模型确定待识别对象不为预设结果时，启动图像子模型，在通过图像子模型确定待识别对象不为预设结果时，启用综合判别模块，这样避免了预设结果的待识别对象的漏检。

参考图6所示，为本申请实施例提供的另一种对象识别过程示意图，获取待识别对象的待识别文本数据和待识别图像数据之后，可以通过文本子模型对待识别文本数据进行特征提取得到文本特征，根据文本特征确定待识别对象的文本相关识别结果；若文本相关识别结果不为预设结果，则通过图像子模型对待识别图像数据进行特征提取得到图像特征，之后根据图像特征确定初始识别结果；若初始识别结果不为预设结果，则根据综合判别模块对文本特征和图像特征进行特征融合得到的融合结果，确定待识别对象的预测识别结果，在待识别对象的预测识别结果为预设结果时，判断待识别对象的预测识别对象为预设结果，待识别对象被筛选出，在待识别对象的预测识别结果不为预设结果时，判断待识别对象的预测识别对象不为预设结果，待识别对象未被筛选出。

此外，若文本相关识别结果为预设结果，意味着该待识别对象被检出，则可以直接输出文本相关识别结果作为待识别对象的预测识别结果，无需启动图像子模型和综合判别模块；若初始识别结果为预设结果，则意味着该待识别对象被检出，则可以直接输出初始识别结果作为待识别对象的预测识别结果，无需启动综合判别模块。

以根据图像特征确定初始识别结果为例，还可以结合识别结果的置信度和识别结果是否为预设结果进行模块的调用，参考图7所示，为本申请实施例提供的又一种对象识别过程示意图，获取待分类对象的待识别文本数据和待识别图像数据之后，可以通过文本子模型对待识别文本数据进行特征提取得到文本特征，根据文本特征确定待识别对象的文本相关识别结果；若文本相关识别结果不为预设结果，或待识别对象的文本相关识别结果的置信度小于或等于第二预设置信度，则通过图像子模型对待识别图像数据进行特征提取得到图像特征，之后根据图像特征确定初始识别结果，若初始识别结果的置信度小于或等于第一预设置信度，或初始识别结果不为预设结果，则根据综合判别模块对文本特征和图像特征进行特征融合得到的融合结果，确定待识别对象的预测识别结果，在待识别对象的预测识别结果为预设结果时，判断待识别对象的预测识别对象为预设结果，待识别对象被筛选出，在待识别对象的预测识别结果不为预设结果时，判断待识别对象的预测识别对象不为预设结果，待识别对象未被筛选出。

此外，若文本相关识别结果为预设结果，且文本相关识别结果的置信度大于第二预设置信度，意味着文本子模型的识别结果可靠，可以单独凭借待识别文本数据进行对象识别，且该待识别对象被检出，则可以直接输出文本相关识别结果作为待识别对象的预测识别结果，无需启动图像子模型和综合判别模块；若初始识别结果为预设结果，且初始识别结果的置信度大于第一预设置信度，则意味着图像子模型的识别结果可靠，可以单独凭借图像子模型根据待识别图像数据进行对象识别，且该待识别对象被检出，则可以直接输出初始识别结果作为待识别对象的预测识别结果，无需启动综合判别模块。

参考图4所示，多模态识别模型还可以包括输入模块，输入模块用于对待识别文本信息和待识别图像信息进行预处理，分别得到待识别文本数据和待识别图像数据，以使待识别文本数据和待识别图像数据分别输入到文本子模型和图像子模型。无需调用图像子模型时，输入模块可以不进行待识别图像信息的预处理，无需调用文本子模型时，输入模块可以不进行待识别文本信息的预处理，以进一步提高线上识别效率。

在对待识别文本信息进行预处理的过程中，输入模块可以根据字和字向量的映射关系，以及词和词向量的映射关系中的至少一个，对待识别文本信息进行向量化得到待识别文本数据，得到的待识别文本数据包括待识别字向量和待识别词向量中的至少一个，也就是说，输入模块在模型应用阶段可以对应用数据中的文本信息进行向量化，提高后续文本子特征的文本提取效率的准确性。

对待识别文本信息进行向量化可以为待识别文本信息中的语句中的每个字或词创建嵌入(Embedding)表示，嵌入表示是对词条的稠密向量标识，其本质是字粒度或词粒度的词向量，字粒度的词向量称为字向量，待识别文本数据是代表字符序列信息的字符向量序列，可以为二维矩阵。字和字向量的映射关系，以及词和词向量的映射关系可以根据目标模型的应用场景训练得到并进行存储，需要时可以查找得到。字和字向量的映射关系，以及词和词向量的映射关系可以通过Skip-gram和CBOW方式训练得到，其中Skip-gram输入为中心字或中心词，输出为上下文；CBOW输入为上下文，输出为中心字或中心词，在输入和输出之间的数据处理过程中，其利用中心字或中心词所对应的向量确定与其对应的上下文，因此通过这两种训练方式可以提取得到字和字向量的映射关系，以及词和词向量的映射关系。

在对待识别图像信息进行预处理的过程中，可以对待识别图像信息进行矩阵化和归一化得到待识别图像数据，待识别图像数据可以为代表图像内容的多维数值矩阵，例如可以为三维矩阵。具体的，待识别图像信息可以包括JPG格式的图像中所有像素点的RGB值，对待识别图像信息的矩阵化，可以将所有像素点的RGB值转换为尺寸为(H,W,C)的三维矩阵M，其中H代表图像的高，W代表图像的宽，C代表图像的通道数，此处默认C＝3。而后，将M矩阵进行归一化处理，具体是将矩阵M中每个位置的RGB数值，取值范围从0～255已经转化为0～1之间，归一化不会改变图像本身的信息存储，同时归纳了统一样本的统计分布性，加速网络学习。

参考图8所示，为本申请实施例提供的一种文本子模型的结构示意图，文本子模型可以包括文本分类模块和第一注意力层(Attention，ATT)，在对待识别文本数据进行特征提取的过程中，可以通过文本分类模块对待识别文本数据进行特征提取得到多个初始文本特征，通过第一注意力层为多个初始文本特征赋予第一权重，并根据第一权重和初始文本特征得到对待识别文本数据提取的文本特征，多个初始文本特征可以对应待识别文本数据中的多个字或多个词中的至少一种，这样可以第一权重将多个字的特征进行融合，或将多个词的特征进行融合，使神经网络模型的学习变得更加灵活，实现了深层特征的提取。

具体的，文本分类模块可以基于卷积神经网络(CNN)，也可以基于LSTM长短期记忆网络(long short-term memory，LSTM)或BERT等。以卷积神经网络为例，文本分类模块可以基于卷积神经网络的文本分类网络，例如TCNN(TextCNN)，也可以为基于卷积神经网络和循环神经网络的文本分类网络，例如RCNN。TextCNN利用多个卷积核进行卷积，提取不同位置的特征，然后对多通道特征相加，得到最后的卷积矩阵作为特征，RCNN则用循环的思想改良了TCNN特征提取的过程，通过上下文的方式直接在隐含层特征中保存信息，从而避免使用固定的词窗口。

具体实施时，文本子模型可以包括多个分支，参考图9所示，为本申请实施例提供的另一种文本子模型的结构示意图，多个分支中的每个分支包括文本分类模块和第一注意力层，每个分支还包括第二注意力层(ATT)，文本子模型还包括拼接层，这样通过文本分类模块对待识别文本数据进行特征提取得到多个初始文本特征的过程中，可以根据待识别文本数据的分组信息，确定待识别文本数据所包括的多个分组数据分别对应的分支，以多个分支中的目标分支为例，通过目标分支的文本分类模块对目标分支对应的目标分组数据进行特征提取得到多个初始文本特征。

在通过第一注意力层为多个初始文本特征赋予第一权重，并根据第一权重和初始文本特征得到文本特征的过程中，可以通过目标分支中的第一注意力层为目标分支中的多个初始文本特征赋予第一权重，并根据第一权重对初始文本特征进行融合得到第一融合文本特征；通过目标分支中的第二注意力层为多个分支赋予第二权重，并根据第二权重对多个分支中的至少两个分支的第一融合文本特征进行融合，得到第二融合文本特征，即实现了不同分支之间的特征融合，以上至少两个分支包括目标分支，也可以包括目标分支之外的其他分支；而后通过拼接层(concat)对多个分支的第二融合文本特征进行拼接得到文本特征，在一些场景中，文本子模型也可以不包括拼接层，文本特征由多个分支的第二融合文本特征组合得到。这样通过多个分支处理不同的分组数据，分组数据内部可以进行特征融合，分组数据之间可以进行特征融合，实现不同特征之间的注意力的精细化调配，利于提高模型的自由度。

举例来说，待识别文本数据可以包括对象名称、对象详情文案和识别文字，分别作为三个分组数据，每个分组数据中可以包括多个字和多个词，则可以利用三个分支分别对这三个分组数据进行处理，参考图9所示，第一个分支对对象名称进行处理，第二个分支对对象详情文案进行处理，第三个分支对识别文字进行处理，则第一注意力层可以对所属分支的分组数据中的多个字进行特征融合，或对所属分支的分组数据中的多个词进行特征融合，第二注意力层可以对不同分支的分组数据中的字进行特征融合，或不同分支的分组数据中的词进行特征融合。

属于不同分支的文本分类模块可以具有相同的结构，也可以具有不同的结构。具体的，文本分类模块可以根据需要进行处理的分组数据的类别而设计，多个分组数据的类别包括第一类别和第二类别时，可以将在根据待识别文本数据的分组信息，确定文本数据所包括的多个分组数据，根据多个分组数据的类别，为多个分组数据分别确定对应的分支，多个分组数据中的目标数据对应的分支，具有对目标分组数据的类别对应的文本分类模块，从而针对性的对目标分组数据进行处理。具体的，若多个分组数据中的目标分组数据的类别为第一类别，目标分组数据对应的分支中的文本分类模块为基于卷积神经网络的文本分类模块，若多个分组数据中的目标分组数据的类别为第二类别，目标分组数据对应的分支中的文本分类模块为基于卷积神经网络和循环神经网络的文本分类模块，参考图9所示，第一个分支所输入的分组数据为对象名称，其不具有上下文语义，则其类别作为第一类别，第一分支中的文本分类模块可以为TCNN，第二个分支和第三个分支所输入的分组数据分别为对象详情文案和识别文字，其具有上下文语义，则其类别作为第二类别，第二分支和第三分支中的文本分类模块可以为RCNN。

这是因为，TextCNN利用多个卷积核进行卷积，提取不同位置的特征，捕捉局部重点特征，然后对多通道特征相加，得到最后的卷积矩阵作为特征，适用于对象名称等词汇堆叠的语义情形，无需过多的考虑上下文的语义依赖；RCNN则用循环的思想改良了TCNN特征提取的过程，通过上下文的方式直接在隐含层特征中保存信息，从而避免使用固定的词窗口，可以捕捉局部上下文语义和全局特征分布，这种结构更加适用于对象详情文案、识别文本中的特征提取，因为这两种文本更加具有上下文的语义依赖。

本申请实施例中，输入到不同分支的文本数据的组成可以不同，具体的，针对目标分支，若目标分支对应的目标分组数据的类别为第一类别，通过目标分支中的文本分类模块，对目标分组数据所包括的字向量和词向量进行特征提取得到多个初始文本特征，若目标分支对应的目标分组数据的类别为第二类别，通过目标分支中的文本分类模块，对目标分组数据所包括的词向量进行特征提取得到多个初始文本特征。参考图9所示，输入到基于卷积神经网络的文本分类模块(TCNN)中的目标分组数据可以包括字向量和词向量，这样无需考虑上下文的语义依赖的情况下可以提取到更多的信息，输入到基于卷积神经网络和循环神经网络的文本分类模块(RCNN)的目标分组数据可以包括词向量，这样对于对上下文的语义依赖体现力较弱的字向量可以进行忽略，提高数据处理效率。

参考图10所示，为本申请实施例提供的一种图像子模型的结构示意图，图像子模型可以包括卷积层(conv)和池化层(pool)，用于对图像特征进行提取，例如图像子模型可以基于ResNet50结构设计，图像子模型依次包括第一卷积层、池化层、第二卷积层、第三卷积层、第四卷积层和第五卷积层。其中第一卷积层的卷积核为7*7的第一卷积层，其步长为2，卷积核数量为64，在输入到图像子模型的图像数据的尺寸为224时，通过第一卷积层可以得到尺寸(size)为112的特征图；池化层的卷积核为2*2，通过池化层可以得到尺寸为56的特征图；第二卷积层的数量可以为多个，例如可以为3，每个第二卷积层包括多层子卷积层，子卷积层的卷积核依次为1*1、3*3和1*1，卷积核数量依次为64、64和256，通过9个子卷积层可以得到尺寸为28的特征图；第三卷积层的数量可以为多个，例如可以为3，每个第三卷积层包括多层子卷积层，子卷积层的卷积核依次为1*1、3*3和1*1，卷积核数量依次为128、128和512，通过9个子卷积层可以得到尺寸为14的特征图；第四卷积层的数量可以为多个，例如可以为3，每个第四卷积层包括多层子卷积层，子卷积层的卷积核依次为1*1、3*3和1*1，卷积核数量依次为256、256和1024，通过9个子卷积层可以得到尺寸为7的特征图；第五卷积层的数量可以为多个，例如可以为3，每个第五卷积层包括多层子卷积层，子卷积层的卷积核依次为1*1、3*3和1*1，卷积核数量依次为512、512和2048，通过9个子卷积层可以进一步特征提取得到图像特征。

综合判别模块可以对图像特征和文本特征进行特征融合，本申请实施例中，综合判别模块可以包括Transformer模块，Transformer是一种基于注意力机制的模型，最初用来完成不规则的文本翻译任务，主体包含Encoder和Decoder部分，分别负责对提取原始句子的意义和将提取出的意义转换为对应的语言，目前应用领域极其广泛，此处我们将其作为编码器，以实现图像特征和文本特征的融合。

参考图11所示，为本申请实施例提供的一种多模态识别模型的工作示意图，输入模块可以将待识别图像信息转换为向量化的待识别图像数据，将待识别文本信息转换为向量化的待识别文本数据，图像子模型可以对待识别图像数据进行特征提取得到图像特征，其结构参考图10所示，文本子模型可以对待识别文本数据进行特征提取得到文本特征，其结构参考图9所示，图像子模型尾部的分类器可以根据图像特征进行类别确定，文本子模型尾部的分类器可以根据文本特征进行类别确定，综合判别模块的输入为图像特征和文本特征，对图像特征和文本特征进行二次编码，从而将图像特征和文本特征融合得到融合特征，以充分利用其特征内的信息，其尾部可以设置有分类器，用于根据融合特征确定预测识别结果。

在待识别对象为电商商品，且识别结果用于指示该电商商品是否为违规电商商品时，预测识别结果可以分别为长度为n+1的浮点数组，其中数组每一位指代对每个识别结果的识别置信度，n代表违规商品类别数，n+1则是在违规商品类别数的基础上加上了非违规商品类别。

本申请实施例中，在确定待识别对象的预测识别结果之后，若待识别对象的预测识别结果为预设结果，则可以展示待识别对象，响应于针对待识别对象的反馈操作，从而根据反馈操作获取针对待识别对象的反馈信息，该反馈信息包括待分类对象的实际识别结果，这样实现了预设结果的对象的筛选和展出，以及反馈信息的获取，使其适用于更多的场景。

本申请实施例提供的目标对象识别方法中，多模态识别模型可以应用于电商监管项目中，该项目中以违规电商商品识别为主要目的，检测出的违规电商商品的数据会被传送到甲方的相关系统中，由甲方的审核人员进行审核，通过该多模态识别模型有力支持电商监管项目，使得违规电商商品数据检出准确率更高、召回率更好，同时对新需求的相应更快，人工投入更低。在审核之后确定违规的，可以按照违规电商商品所属商家的地域，将违规电商商品案例推送到相关部门进行复核和处置。

参考图12所示，为本申请实施例提供的一种甲方的相关系统的界面示意图，相关系统的界面100中包括多个违规电商商品的信息，且显示违规电商商品的违规类别、审核状态，相关系统的界面100可以包括检索区域，检索区域包括商品名称输入控件101、违规类别输入控件102、审核状态输入控件103以及查询控件104，通过商品名称输入控件101、违规类别输入控件102、审核状态输入控件103可以分别输入商品名称、违规类别、审核状态作为检索词，通过查询控件104生成查询请求，以根据检索词对违规电商商品进行搜索，符合搜索条件的违规电商商品可以被展示。

参考图13所示，为本申请实施例提供的一种对违规电商商品的线索信息界面的示意图，该线索信息界面200可以作为相关系统的界面100上的悬浮窗口，也可以作为独立的界面。线索信息界面200可以展示违规电商商品的详细信息，包括所属平台、所属店铺、违规原因等，还展示违规控件201和不违规控件202，分别用于添加违规或不违规的审核结果，线索信息界面200可以通过对相关系统的界面100中的违规电商商品的选中而展示，线索信息界面200还可以包括涉嫌违规的反馈信息203，反馈信息例如为涉嫌违规或不涉嫌违规等。前述的针对待识别对象的反馈操作，可以包括对待识别对象对应的线索信息界面中的违规控件或不违规控件的触发操作。

基于以上目标对象识别方法，本申请实施例还提供了一种多模态识别模型的训练方法，参考图14所示，为本申请实施例提供的一种多模态识别模型的训练方法的流程图，该多模态识别模型的训练方法可以包括：

S501，获取具有类别标签的第一训练数据，第一训练数据包括第一训练对象的训练文本数据和训练图像数据，类别标签用于指示第一训练对象的目标识别结果。

由于需要利用多模态识别模型对待识别对象进行对象识别，因此需要将训练对象的特征作为训练数据，实现多模态识别模型的训练。具体的，可以获取具有类别标签的第一训练数据，基于单模态的特征表现的局限性，本申请实施例中，多模态识别模型的训练数据可以包括多个模态的数据，具体的，第一训练数据可以包括第一图像数据和第一文本数据，第一图像数据和第一文本数据成对出现，作为同一训练对象的不同维度的特征。这样，使训练得到的多模态识别模型具有根据图像数据和文本数据进行对象识别的能力，即针对具有待识别图像数据和待识别文本数据的待识别对象，多模态识别模型可以根据待识别图像数据和待识别文本数据确定待识别对象的预测识别结果。

具体的，训练文本数据和训练文本数据作为文本数据，可以包括第一训练对象的名称、详情文案、通过OCR对图像识别得到的识别文字、店铺名称、对象所属大类等中的至少一个，用于体现第一训练对象的功能、参数等，第一训练对象为电商商品时，第一训练对象的名称为商品名称，第一训练对象的详情文案为商品的详情文案，识别文字为通过OCR对电商商品的主图进行识别得到的识别文字。训练图像数据和训练图像数据包括第一训练对象的主图，其格式可以为JPG，用于体现第一训练对象的形状、颜色等信息。

在待识别对象的类型众多时，需要的训练数据的数据量较大，若多模态识别模型强依赖于训练数据的标签，则需要标记大量的类别标签来进行多模态识别模型的训练。本申请实施例中，可以基于半监督学习确定多模态识别模型。半监督学习过程中使用大量的未标记数据，同时使用标记数据，来进行类别识别工作，因此可以获取第二训练数据，第二训练数据可以不具有类别标签，利用第一训练数据和第二训练数据进行多模态识别模型的训练，可以实现无标签数据的有效利用，使多模态识别模型能够学习到更多样本的特征，降低类别标签获取开销，使多模态识别模型较容易大规模展开，提高多模态识别模型的能力上限。第二训练数据包括第二图像数据和第二文本数据，第二图像数据和第二文本数据成对出现，作为同一训练对象的不同维度的特征。

本申请实施例中，由于第一训练数据具有类别标签，可以根据其类别标签进行模型训练，而第二训练数据可以不具有类别标签，可以对第二训练数据进行相思化处理得到第二训练数据的相似数据，通过第二训练数据的相似数据辅助第二训练数据，实现模型的训练。由于第二训练数据和第二训练数据的相似数据具有相似的特征，因此对于识别准确性较高的模型来说，根据第二训练数据得到的识别结果应该和根据第二训练数据的相似数据得到的识别结果一样，基于此，可以利用第二训练数据和第二训练数据的相似数据，实现无标签训练数据的有效利用，避免有标签数据的数量不足对模型能力上限的制约。

在第二训练数据包括第二训练对象的训练图像数据和训练文本数据时，可以为第二训练对象的训练图像数据确定与之相似的相似图像数据，为第二训练对象的训练文本数据确定与之相似的相似文本数据，从而可以根据相似图像数据和相似文本数据中的至少一个，确定第二训练数据的相似数据。具体的，可以将第二训练对象的训练文本数据从第一语言体系转换到第二语言体系，并从第二语言体系转换到第一语言体系，得到与第二训练对象的训练文本数据相似的相似文本数据，相似文本数据和第二训练对象的训练文本数据均属于第一语言体系。

对第二训练对象的训练图像数据进行图像变换操作，得到与第二训练对象的训练图像数据相似的相似图像数据，图像变换操作可以包括以下操作中的至少一个：整体颜色更正操作、尺寸调整操作、增加噪声操作等。

之后，可以基于第二训练对象的训练文本数据和相似文本数据中的一种，以及第二训练对象的训练图像数据和相似图像数据中的一种，确定第二训练数据的相似数据，第二训练数据的相似数据和第二训练数据不同，即第二训练数据的相似数据不会同时包括第二训练对象的训练文本数据和训练图像数据。也就是说，第二训练数据的相似数据可以包括第二训练对象的训练文本数据和相似图像数据，或者包括相似文本数据和第二训练对象的训练图像数据，或者包括相似文本数据和相似图像数据，使第二训练数据和第二训练数据的相似数据具有相同的内容，以及不同的表现形式。

其中，第一语言体系可以为中文，第二语言体系可以为英文、日文等任意一个语言系统，对文本数据的语言体系的转换可以通过翻译接口实现，参考图15所示，为本申请实施例提供的一种构建相似文本数据的过程示意图，可以将第二训练对象的训练文本数据翻译为英语，再从英语翻译为中文，这种中-英-中的翻译方式，被称为回译。这样，每个第二训练对象的训练文本数据均有一个相似文本数据与之对应，构成回译文本对，对各个第二训练对象的训练文本数据均进行处理，可以使包括多个第二训练对象的训练文本数据的初始文本数据集Ut，对应到包括多个相似文本数据的回译文本数据集Ut’。由于第二训练对象的训练文本数据和相似文本数据在翻译过程中保留了核心含义，因此二者为相似的数据。

其中，图像变换操作中，整体颜色变更操作例如可以包括调整第二训练对象的训练图像数据对应的图像的饱和度、对比度和色调中的至少一项，尺寸调整操作包括对第二训练对象的训练图像数据对应的图像进行裁剪、翻转和旋转等中的至少一项；增加噪声操作可以包括对第二图像数据对应的图像增加高斯噪声。参考图16所示，为本申请实施例提供的一种构建相似图像数据的过程示意图，以整体颜色变更操作包括调整图像的饱和度、对比度和色调，尺寸调整操作包括对图像进行裁剪、翻转和旋转，增加噪声操作可以包括对图像增加高斯噪声为例，经过多项图像变换操作，可以使每个第二训练对象的训练图像数据，均有一个相似图形数据与之对应，构成增强图像对，对各个第二训练对象的训练图像数据均进行处理，可以使包括多个第二训练对象的训练图像数据的初始图像数据集Up，对应到包括多个相似图像数据的增强图像数据集Up’。由于图像变换操作过程中并未影响图像原有的核心特征，因此第二训练对象的训练图像数据和相似图像数据为相似的数据。

第二训练数据的相似数据中，可以包括第二训练对象的训练文本数据和相似图像数据，或者包括相似文本数据和第二训练对象的训练图像数据，或者包括相似文本数据和相似图像数据，其中的文本数据和图像数据成对出现，作为同一训练对象的特征。同一训练对象可以具有多个第二训练数据的相似数据，例如具有三个相似数据，分别为第二训练对象的训练文本数据和相似图像数据，或者包括相似文本数据和第二训练对象的训练图像数据，或者包括相似文本数据和相似图像数据。该训练对象的全部特征参考表1所示。

表1第二训练对象的全部特征

商品	训练文本数据	训练图像数据	相似文本数据	相似图像数据
					商品A	商品A的文本描述	商品A的主图	商品A的回译文本描述	商品A的增强主图

在确定第二训练对象的全部特征之后，可以从第二训练对象的全部特征中提取训练文本数据和训练图像数据，可以作为第二训练数据，提取相似文本数据和相似图像数据可以作为第二训练数据的相似数据，或者提取相似文本数据和训练图像数据作为第二训练数据的相似数据，或者提取训练文本数据和相似图像数据的作为第二训练数据的相似数据。

S502，通过文本子模型、图像子模型和综合判别模块对第一训练数据进行识别处理得到各个第一训练对象的第一识别结果。

本申请实施例中，可以通过目标模型对第一训练数据进行识别处理得到第一训练对象的第一识别结果，目标模型包括文本子模型、图像子模型和综合判别模块，其中文本子模型用于对训练文本数据进行特征提取得到文本特征，图像子模型用于对训练图像数据进行特征提取得到图像特征，综合判别模块用于对文本特征和图像特征进行特征融合得到融合结果，融合结果用于确定第一识别结果。其中，目标模型和前述实施例中的多模态识别模型可以具有相同结构，其中的文本子模块、图像自模型和综合判别模块的功能一致，对输入的数据进行处理的方式可以参考多模态识别模型的处理方式。通过对目标模型进行训练可以得到多模态识别模型，因此目标模型和多模态识别模型可以具有不同的参数，从而实现不一致的效果，例如多模态识别模型的识别更加准确。

目标模型还可以包括输入模块，输入模块用于对训练文本信息和训练文本信息进行预处理，分别得到训练文本数据和训练图像数据，以使训练文本数据和训练图像数据分别输入到文本子模型和图像子模型。

在对训练文本信息进行预处理的过程中，输入模块可以根据字和字向量的映射关系，以及词和词向量的映射关系中的至少一个，对训练文本信息进行向量化得到训练文本数据，得到的训练文本数据包括训练字向量和训练词向量中的至少一个。也就是说，输入模块在模型训练阶段可以对训练数据中的文本信息进行向量化，提高后续文本子特征的文本提取效率的准确性。其中对训练文本信息进行向量化的方式，可以参考对待识别文本信息的向量化方式，在此不再赘述。

在对训练图像信息进行预处理的过程中，可以对训练图像信息进行矩阵化和归一化得到训练图像数据，训练图像数据可以为代表图像内容的多维数值矩阵，例如可以为三维矩阵，具体方式可以参考对训练图像信息进行预处理的过程，在此不再赘述。

在获取到第二训练数据和相似数据后，还可以利用目标模型分别对第二训练数据和相似数据进行识别处理，得到各个第二训练对象的第二识别结果和第三识别结果。目标模型对第二训练数据和相似数据进行识别处理的过程，可以参考其对第一训练数据的识别处理的过程。

输入模块还可以对相似文本信息进行向量化得到相似文本数据，得到的相似文本数据包括相似字向量和相似词向量中的至少一个，例如可以通过前述的回译过程将第二训练对象的训练文本信息转换为第二训练对象的相似文本信息，再通过该输入模块将第二训练对象的相似文本信息通过向量化得到相似文本数据。输入模块还可以对相似图像信息进行预处理得到相似图像数据，例如对相似图像信息进行矩阵化和归一化得到相似图像数据，例如可以通过前述的图像变换操作将第二训练对象的训练图像信息转换为第二训练对象的相似图像信息，再通过该输入模块将第二训练对象的相似图像信息预处理得到相似图像数据。

具体的，可以分别将第一训练数据、第二训练数据和第二训练数据的相似数据作为目标模型的基础数据，以通过目标模型确定各个基础数据对应的识别结果。其中，第一识别结果、第二识别结果和第三识别结果的确定顺序，可以为任意顺序，在实际操作中可以将包含第二训练数据的第二数据集U和包含第二训练数据的相似数据集U’作为目标模型的基础数据。

本申请实施例中，目标模型可以为未经训练的初始模型，也可以为对初始模型进行训练得到的具有一定对象识别能力的中间模型。目标模型作为可以识别多模态特征的模型，其参数量往往较多，训练难度高。为了降低训练难度，提高模型效果，可以对初始模型进行二段式训练得到目标模型，有效降低了模型训练的难度，提高了识别效果。参考图17所示，为本申请实施例提供的一种多模态识别模型的训练以及应用流程示意图，可以利用第三训练数据对初始模型进行训练得到目标模型。

在对初始模型进行训练得到目标模型的过程中，可以先对文本子模型和图像子模型进行训练，再对目标模型进行综合训练。具体的，可以根据其他文本数据对第一子模型进行训练得到文本子模型，根据其他图像数据对第二子模型进行训练得到图像子模型；根据具有类别标签的第三训练数据对包括文本子模型、图像子模型和综合判别模块的初始模型进行训练，将初始模型转换为目标模型，第三训练数据包括第三训练对象的训练文本数据和训练图像数据，这样文本子模型和图像子模型的参数量相对较少，单独训练可以降低训练难度。

实际操作中，可以在文本子模型尾部连接softmax分类器，在图像子模型尾部连接softmax分类器，softmax通过归一化函数可以将特征归一化，得到训练对象属于某一特征的概率，使文本子模型和图像子模型具有分类识别的能力，文本子模型可以根据文本数据进行分类识别，图像子模型可以根据图像数据进行分类识别，这样可以单独利用其他文本数据对第一子模型进行训练得到文本子模型，利用其他图像数据对第二子模型进行训练得到图像子模型。

在根据第三训练数据对包括文本子模型、图像子模型和综合判别模块的初始模型进行训练的过程中，可以利用文本子模型进行第三训练对象的训练文本特征的识别得到文本特征、图像子模型进行第三训练对象的训练图像特征的识别得到文本特征，利用综合判别模型根据文本特征和图像特征进行特征融合，融合后的融合结果用于确定识别结果。此时文本子模型可以向综合判别模型和尾部的softmax分类器传送文本特征，图像子模型可以向综合判别模型和尾部的softmax分类器传送图像特征，因此可以基于两个softmax分类器以及一个综合判别模型尾部的softmax分类器得到三个识别结果，基于这三个识别结果可以构建损失函数，并基于构建的损失函数进行初始模型的训练。

具体的，可以根据文本子模型对第三训练对象的训练文本数据进行特征提取得到的文本特征确定第三训练对象的文本相关识别结果，根据文本子模型对第三训练对象的训练图像数据进行特征提取得到的图像特征确定第三训练对象的图像相关识别结果，根据综合判别模块对文本特征和图像特征进行特征融合得到的融合结果，确定第三训练对象的综合识别结果。之后可以根据第三训练对象的文本相关识别结果和第三训练数据的类别标签得到第三损失函数，根据第三训练对象的图像相关识别结果和第三训练数据的类别标签得到第四损失函数，根据第三训练对象的综合识别结果和第三训练数据的类别标签得到第五损失函数。根据第三损失函数、第四损失函数和第五损失函数，确定第二综合损失函数，根据第二综合损失函数对包括文本子模型、图像子模型和综合判别模块的初始模型进行训练，以将初始模型训练为目标模型。由于第二综合损失函数考虑了整体分类的结果，以及基于文本特征分类的结果和基于图像特征分类的结果，因此可以综合表征初始模型各个组成部分的性能，在第二综合损失函数满足条件时，得到的目标模型具有较优的性能。

根据第三训练对象的文本相关识别结果和第三训练数据的类别标签得到的第三损失函数，经过设置之后和第三训练数据的类别标签等参数之间可以具有如下公式表示的关系：

其中，p_θ(x_i)是第三训练数据中的第i个数据对应的文本相关识别结果，y_i是第i个第三训练数据的类别标签，m代表第三训练数据的数据数量，训练过程以降低第三损失函数为目标，类别标签可以为独热格式下的特征向量。

根据图像相关识别结果和第三训练数据的类别标签得到的第四损失函数，经过设置之后和第三训练数据的类别标签等参数之间可以具有如下公式表示的关系：

其中，y表示数据标识，q_ρ(x_i)是第三训练数据中的第i个数据对应的图像相关识别结果，y_i是第i个第三训练数据的类别标签，m代表第三训练数据的数据数量，训练过程以降低第四损失函数为目标，类别标签可以为独热格式下的特征向量。

根据综合识别结果和第三训练数据的类别标签得到的第五损失函数，经过设置之后和第三训练数据的类别标签等参数之间可以具有如下公式表示的关系：

其中，y表示数据标识，O_σ(x_i)是第三训练数据中的第i个数据对应的综合识别结果，y_i是第i个第三训练数据的类别标签，m代表第三训练数据的数据数量，训练过程以降低第五损失函数为目标，类别标签可以为独热格式下的特征向量。

第二综合损失函数可以为第三损失函数、第四损失函数和第五损失函数的加权求和结果，根据第三损失函数、第四损失函数和第五损失函数确定的第二综合损失函数，经过设置之后可以和第三损失函数、第四损失函数和第五损失函数具有如下公式表示的关系：

F(y)＝a*T_θ(y)+b*I_ρ(y)+c*M_σ(y)

其中，F代表第二综合损失函数，y代表数据标识，a、b、c分别是三个子损失函数的权重参数，T_θ(y)是文本子模型对应的第三损失函数，I_ρ(y)是图像子模型对应的第四损失函数，M_σ(y)是初始模型对应的第五损失函数。

在构建第二综合损失函数之后，可以根据第二综合损失函数对初始模型进行训练，以将初始模型训练为目标模型。具体的，可以在第二综合损失函数收敛或迭代次数达到预设次数时，认为初始模型达到最优，将此时的初始模型作为目标模型。

在目标模型为具有一定对象识别能力的模型的情况下，可以预先对初始训练数据进行筛选得到第二训练数据，具体的，可以通过目标模型得到初始训练数据对应的初始识别结果；根据初始识别结果对初始训练数据进行筛选得到第二训练数据，以使第二训练数据中对应不同识别结果的训练数据的数量差异小于预设差异，这样可以使各个类别样本的数量尽量均衡化，目标模型可以均衡的学习到各个类别的特征，提高目标模型的训练准确度。

其中，参考图18所示，为本申请实施例提供的一种训练数据均衡化的示意图，初始训练数据为获取到的原始的训练对象的特征数据，在这些特征数据未被添加标签时，可以称为无标签数据，初始训练数据例如原始商品数据。目标模型可以记为M，初始识别结果也可以称为初始训练数据对应的训练对象的伪标签，伪标签具有一定的准确性，基于此进行的数据筛选也具有一定准确性。第二训练数据的集合可以记为U。根据初始识别结果对初始训练数据进行筛选得到第二训练数据，可以具体为，根据初始识别结果对初始训练数据进行分类，在训练数据的数量最少的类别中取n个训练数据，在其他类别中每个类别取n个训练数据，将取出的训练数据组合称为第二训练数据的集合U。

S503，根据类别标签和各个第一识别结果，构建第一综合损失函数。

S504，根据第一综合损失函数对目标模型进行训练，将目标模型训练为多模态识别模型。

本申请实施例中，可以利用第一训练数据对目标模型进行训练，此时可以将第一损失函数作为第一综合损失函数，以最小化第一综合损失函数的目的训练目标模型，使其训练为多模态识别模型。具体的，在根据第一训练数据确定第一识别结果之后，可以根据第一识别结果和类别标签构建第一损失函数H，第一损失函数H用于训练目标模型。由于第一识别结果为目标模型基于第一训练数据的预测结果，类别标签指示第一训练数据的目标识别结果，则第一识别结果所指示的预测识别结果越接近类别标签，说明目标模型的预测结果越准确。将H_θ作为第一损失函数，第一损失函数可以为基于各个类别下的第一训练数据构建的损失函数，通过设置第一损失函数，可以使第一损失函数和第一训练数据的类别标签满足如下公式所指示的关系：

其中，y表示数据标识，r_θ(x_i)为第一训练数据中第i个训练数据的第一识别结果，y_i为第i个第一训练数据的类别标签，m为第一训练数据中的数据量，类别标签可以为独热(one-hot)格式下的特征向量。这样可以以降低第一损失函数为目标进行目标模型的训练。

本申请实施例中，还可以利用第一训练数据、第二训练数据和相似数据对目标模型进行训练，此时可以在确定第一损失函数之外，还可以确定第二损失函数，并根据第一损失函数和第二损失函数确定第一综合损失函数。具体的，可以根据类别标签和各个第一识别结果，构建第一损失函数，参考前述说明，之后可以根据第二识别结果和第三识别结果的差异，构建第二损失函数，基于第一损失函数和第二损失函数确定第一综合损失函数。基于第一训练数据、第二训练数据和相似数据对目标模型训练，可以称为目标模型的半监督学习，参考图19所示，为本申请实施例提供的一种半监督训练方案的流程示意图，可以利用第一训练数据、第二训练数据和第二训练数据的相似数据为目标模型M确定损失函数，并基于损失函数训练目标模型M，使其转换为多模态识别模型。

在训练对象为电商商品，且识别结果用于指示该电商商品是否为违规电商商品时，第一识别结果、第二识别结果和第三识别结果可以分别为长度为n+1的浮点数组，其中数组每一位指代对每个识别结果的识别置信度，n代表违规商品类别数，n+1则是加上了非违规商品类别。n个违规商品类别对应的训练数据的黑样本，非违规商品类别对应的训练数据的白样本。

在根据第二训练数据确定第二识别结果，根据第二训练数据的相似数据确定第三识别结果之后，由于第二训练数据和第二训练数据的相似数据具有大致相同的实质内容，因此二者理论上具有相同的识别结果，根据第二识别结果和第三识别结果构建第二损失函数V，第二损失函数V用于训练目标模型。该过程可以称为一致性预测，一致性预测要求在数据发生扰动时，模型仍然能够准确判断该数据，具体的，对于海量的、已获得的无标签数据x和x的增光数据x’，第二损失函数强迫目标模型对数据x和数据x’作出一致性预测，即目标模型对二者的预测分布应该是一致的，这里无标签数据x为第二训练数据，x的增广数据x’为第二训练数据的相似数据。通过一致性预测的方式相当于给目标模型的泛化能力提出了目标，并以大量的无标签数据的信息来指导目标模型朝着这个目标前进。

第二损失函数V可以基于第二识别结果和第三识别结果的均方误差(Mean SquareError，MSE)确定，MSE为对应点误差的平方和的均值，也可以根据基于第二识别结果和第三识别结果的KL(Kullback-Leible)散度确定，KL散度为第二识别结果和第三识别结果的分布的信息熵(Shannon entropy)的差值。当然，第二损失函数也可以基于第二识别结果和第三识别结果的均方误差和KL散度确定。

以第二损失函数为第二识别结果和第三识别结果的均方误差为例，第二损失函数经过设置后，其与第二识别结果和第三识别结果可以具有如下公式指示的关系：

/>

其中，p_θ(u_i)是对第二训练数据中的第i个训练数据的第二识别结果，p_θ(u‘_i)是对第二训练数据的相似数据中的第i个数据的第三识别结果，n代表第二训练数据和第二训练数据的相似数据的数据数量，这样可以以降低第二损失函数为目标进行目标模型的训练。

在确定第一损失函数和第二损失函数之后，可以基于第一损失函数和第二损失函数对目标模型进行训练，具体的，可以先基于第一损失函数和第二损失函数构建第一综合损失函数，第一综合损失函数受到有标签训练过程中的第一损失函数的影响，也受到无标签训练过程中的第二损失函数的影响，因此可以有效利用有类别标签的第一训练数据，以及无标签类别的第二训练数据，这样通过少量有标签数据+大量无标签数据的训练方式，其训练得到的模型效果能达到使用大量有标签数据才能达到的情况。

具体的，可以为第一损失函数和第二损失函数确定对应的权重，将第一损失函数与其对应的权重的乘积，以及第二损失函数与其对应的权重的乘积进行求和，可以得到第一综合损失函数。具体实施中，可以将第一损失函数的权重记为λ，将第二损失函数设置为1，则第一综合损失函数L_θ(y)在被配置后和第一损失函数和第二损失函数之间的关系可以由如下公式表示：

L_θ(y)＝V_θ+λH_θ

其中，V_θ为第二损失函数，H_θ为第一损失函数。

参考图19所示，在对目标模型进行训练的过程中，还可以考虑学习率衰减规律，这是因为较少的有标签数据可能会使目标模型较早的陷入局部极值点，因此可以根据学习率随迭代次数的衰减规律，确定在学习率满足条件时模型训练的目标迭代次数；以最小化第一综合损失函数为目的对目标模型进行训练，在第一综合损失函数收敛且训练过程中的实际迭代次数达到目标迭代次数时，确定目标模型转换为多模态识别模型，这样可以根据学习率衰减规律设置合适的目标迭代次数，使模型跳出局部极值点，寻找更优极值点，使模型的性能达到更优。

学习率(learning_rate)衰减策略可以为CDRLR(Cosine Decay RestartsLearning Rate)策略，参考图20所示，为本申请实施例提供的一种CDRLR学习率衰减示意图，其横坐标为迭代次数，纵坐标为学习率，从图中可以看出，Cosine循环衰减学习率具有周期循环的特点，且逐渐降低，在达到一定跌代次数后，学习率趋近于一个常数。

参考图19所示，在基于第一损失函数和第二损失函数确定第一综合损失函数的过程中，可以设置缓释信号的策略，在有标签数据和无标签数据联合训练的过程中，由于有监督数据较少，模型可能很快对训练数据集过拟合，缓释信号的提出正是为了防止对有标签数据的快速过拟合。此处缓释信号的实现基本原理是在训练过程中，不计对有标签数据预测过于自信的样本，即置信度过高的样本，这部分有标签数据的误差无法反向传递，从而避免模型进一步过拟合到这些样本。

具体的，可以根据第一识别结果确定第一置信度，若第一置信度大于或等于第一阈值，则根据第二损失函数确定第一综合损失函数；若第一置信度小于第一阈值，则根据第一损失函数和第二损失函数确定第一综合损失函数。也就是说，多个第一识别结果中，置信度较高的结果不被考虑在计算第一综合损失函数的过程中，而多个第一识别结果中置信度较低的结果被考虑在计算第一综合损失函数的过程中。其中第一阈值可以根据对象类别总数K确定，将t时刻的第一阈值记为η_t，可以设置1/K≤η_t≤1，对于第一训练数据x而言，其第一识别结果指示其对应类别y*的概率(即类别y*的置信度)可以表示为pθ(y*|x)。

参考图19所示，对目标模型进行训练的过程中，可以设置输出信号锐化的策略，即当有标签数据很少时，模型对样本的认知不足，无标签数据的预测分布可能会很平坦，在计算损失时，主要贡献的部分将来自于有标签数据，这与利用无标签数据的思路是相悖的。而比较丰富的数据分布是比较有利于模型训练的，因此可以对确定出的识别结果进行锐化。

作为一种可能的锐化方式，可以基于无标签数据的预测置信度进行信号锐化。具体的，可以根据第二识别结果和第三识别结果确定第二置信度；若第二置信度小于或等于第二阈值，则根据第一损失函数确定所述第一综合损失函数；若第二置信度大于第一阈值，则根据第一损失函数和第二损失函数确定第一综合损失函数。这样，对于预测效果不好的无标签数据，可以不计算一致性预测损失，自然也不会被考虑到第一综合损失函数的确定过程中。其中，第二置信度可以根据第二识别结果和第三识别结果中对应同一类别的置信度的平均值确定，也可以通过其他方式确定。

作为另一种可能的锐化方式，可以基于第三识别结果的熵最小化进行信号锐化。具体的，可以确定第三识别结果的熵；根据第一损失函数、第二损失函数和第三识别结果的熵，确定第一综合损失函数。这是因为第三识别结果的熵越小，表示输出信号越锐化。

作为又一种可能的锐化方式，可以基于归一化(softmax)函数的参数调整进行信号锐化，其中归一化函数位于文本子模型、图像子模型或综合判别模型的尾部，用于对其前方模块确定的结果逻辑分布概率进行归一化，得到各个对象类别对应的概率。具体的，可以为归一化函数确定较低的温度参数，来使识别结果的分布锐化，其中识别结果pθ～(y|x)通过Softmax(l(X)/τ)计算，其中l(X)表示结果逻辑分布概率，τ表示温度，τ越小，分布越锐化。

以上三种锐化方式，在具体实施时可以选择至少一个来执行，例如可以结合无标签的预测置信度以及第三识别结果的熵最小化，来进行信号锐化。即若第二置信度小于或等于第二阈值，则可以第一损失函数和第三识别结果的熵确定第一综合损失函数，若第二置信度大于第二阈值，则可以根据第一损失函数、第二损失函数和第三识别结果的熵，确定第一综合损失函数。

在对目标模型进行训练之后，目标模型可以转换为多模态识别模型，多模态识别模型具有根据待识别对象的待识别图像数据和待识别文本数据，确定待识别对象的预测识别结果。待识别对象的预测识别结果的确定方式参考前述实施例的说明。

在获取到针对待识别对象的实际识别结果之后，可以基于实际识别结果对多模态识别模型进行更新，具体的，在获取到针对待识别对象的实际识别结果后，若根据待识别图像数据和待识别文本数据通过多模态识别模型确定实际识别结果的置信度，若该置信度大于或等于第三预设置信度且该实际识别结果具有可信标识，或该置信度小于第三预测置信度，将待识别对象的待识别图像数据和待识别文本数据增加到第一训练数据中，将实际识别结果作为待识别对象的目标识别结果，根据更新的第一训练数据对多模态识别模型进行训练，得到更新的多模态识别模型，或根据更新的第一训练数据、第二训练数据和相似数据对多模态识别模型进行训练，得到更新的多模态识别模型，这样可以实现多模态识别模型的自适应优化。

其中待识别对象的实际识别结果可以为甲方的审核人员核定，实际识别结果的可信标记可以由多模态识别模型的运维人员设置，实际识别结果的置信度可以在甲方的审核人员核定之前由多模态识别模型确定，也可以在甲方的审核人员核定之后由多模态识别模型确定，由于甲方的审核人员的核定结果的增加在大多数情况下都会对多模态识别模型产生正面的效果，因此多模态识别模型以自行进行长期的自适应提升。

参考图21所示，为本申请实施例提供的一种自适应优化的流程示意图，可以在多模态识别模型确定预测识别结果之后，由用户对预测识别结果进行反馈，反馈信息可以是准确的，也可以是不准确的，反馈信息可以包含待识别对象的实际识别结果，反馈信息可以存储在系统数据库中。在获取到反馈信息之后，可以确定实际识别结果的置信度，该置信度通过多模态识别模型对待识别对象的待识别数据进行处理得出，若实际识别结果的置信度较高，则可以由多模态识别模型的运维人员进行人工核验以确定该实际识别结果是否可信，如可信，则可以为该实际识别结果添加可信标识，反之则反馈不可信标识，则若实际识别结果具有可信标识，说明其是正确的结果，多模态识别模型对待识别对象进行识别得到的识别结果正确，待识别对象的待识别数据可以作为训练数据对多模态识别模型进行强化。若实际识别结果的置信度较低，可将待识别对象作为多模态识别模型的误判数据，通过人工核验可以确定其是否为可信数据，如可信为其添加可信标识。

实际识别结果具有可信标识的待识别对象的待识别数据，可以作为训练数据，其可以被增加到第一训练数据中，将实际识别结果作为待识别文本数据和待识别图像数据的类别标签，根据第一训练数据、第二训练数据和相似数据对多模态识别模型进行训练，得到更新的多模态识别模型。参考图21所示，可以基于增加了待识别文本数据和待识别图像数据的第一训练数据、第二训练数据和相似数据对多模态识别模型重新执行半监督训练。在多模态识别模型的半监督训练过程中，可以待识别文本数据和待识别图像数据以二二六区间划分为测试集、验证集与训练集，利用训练集对多模态识别模型进行训练，半监督训练的过程可以参考前述说明，利用验证集对多模态识别模型进行验证，利用测试集对多模态识别模型进行测试。若通过测试确定更新的多模态识别模型的效果优于或等于现有版本，则可以对更新的多模态识别模型进行上线，实现多模态识别模型的版本更新，若更新的多模态识别模型的效果劣于现有版本，则不进行更新的多模态识别模型的上线，由运维人员对更新的多模态识别模型进行人工查验。

综上，参考图17所示，可以利用第三训练数据对初始模型进行训练得到目标模型，利用第一训练数据、第二训练数据和相似数据，对目标模型进行训练得到多模态识别模型，第一训练数据、第二训练数据、第三训练数据和相似数据中，均包括文本数据和图像数据。初始模型可以被构建为多模态模型结构，在对初始模型进行训练的过程中，可以设置二段式训练方式，在对目标模型进行训练的过程中可以通过半监督学习实现无标签训练数据的有效利用。在得到多模态识别模型后，多模态识别模型可以用于线上预测，多模态识别模型的线上预测过程中，可以根据置信度调度其中的不同模块，即实现线上动态预测策略，提高线上预测效率。在通过线上预测得到预测识别结果之后，可以获取包括实际识别结果的反馈信息，根据实际识别结果可以对多模态识别模型进行自适应优化。以上，可以使多模态识别模型能够适用于多种分类任务，具有识别精度高、召回率高的特征，且对标签数据的依赖度较低，线上效能优秀且可持续发展。

基于本申请实施例提供的一种目标对象识别方法，本申请实施例还提供了一种目标对象识别装置，参考图22所示，为本申请实施例提供的一种目标对象识别装置的结构框图，该目标对象识别装置1200包括：

待识别数据获取单元1201，用于获取待识别对象的待识别图像数据和待识别文本数据；

初始识别结果确定单元1202，用于根据文本子模型对所述待识别文本数据进行特征提取得到的文本特征，或图像子模型对待识别图像数据进行特征提取得到的图像特征，确定所述待识别对象的初始识别结果；

预测识别结果确定单元1203，用于若所述初始识别结果的置信度小于或等于第一预设置信度或所述初始识别结果不为预设结果，则根据综合判别模型对所述文本特征和所述图像特征进行特征融合得到的融合结果，确定所述待识别对象的预测识别结果。

可选的，若所述初始识别结果根据所述图像特征确定，所述装置还包括：

文本相关识别结果确定单元，用于根据文本子模型对所述待识别文本数据进行特征提取得到的文本特征，确定所述待识别对象的文本相关识别结果；

图像特征获取单元，用于若所述文本相关识别结果的置信度小于或等于第二预设置信度或所述文本相关识别结果不为预设结果，则通过所述图像子模型对待识别图像数据进行特征提取得到图像特征。

可选的，所述文本子模型包括文本分类模块和第一注意力层，所述装置还包括：

文本特征提取单元，用于通过所述文本分类模块对所述待识别文本数据进行特征提取得到多个初始文本特征，所述多个初始文本特征对应所述待识别文本数据中的多个字或多个词中的至少一种；

第一特征融合单元，用于通过所述第一注意力层为所述多个初始文本特征赋予第一权重，并根据所述第一权重和所述初始文本特征得到所述文本特征。

可选的，所述文本子模型包括多个分支，所述多个分支中的每个分支包括所述文本分类模块和所述第一注意力层，所述每个分支还包括第二注意力层，所述文本子模型还包括拼接层，所述文本特征提取单元，包括：

分支确定单元，用于根据所述待识别文本数据的分组信息，确定所述待识别文本数据所包括的多个分组数据分别对应的分支；

文本特征提取子单元，用于针对所述多个分支中的目标分支，通过所述目标分支中的文本分类模块对所述目标分支对应的目标分组数据进行特征提取得到多个初始文本特征；

所述第一特征融合单元，包括：

第一特征融合子单元，用于针对所述目标分支，通过所述目标分支中的第一注意力层为所述多个初始文本特征赋予第一权重，并根据所述第一权重对所述初始文本特征进行融合得到第一融合文本特征；

第二特征融合单元，用于通过所述目标分支中的第二注意力层为所述多个分支赋予第二权重，并根据所述第二权重对所述多个分支中的至少两个分支的第一融合文本特征进行融合，得到第二融合文本特征；

拼接单元，用于通过所述拼接层对所述多个分支的第二融合文本特征进行拼接得到文本特征。

可选的，所述多个分组数据的类别包括第一类别和第二类别，所述分支确定单元，包括：

分组数据确定单元，用于根据所述待识别文本数据的分组信息，确定所述待识别文本数据所包括的多个分组数据；

分支确定子单元，用于根据所述多个分组数据的类别，为所述多个分组数据分别确定对应的分支，若所述多个分组数据中的目标分组数据的类别为第一类别，所述目标分组数据对应的分支中的文本分类模块为基于卷积神经网络的文本分类模块，若所述多个分组数据中的目标分组数据的类别为第二类别，所述目标分组数据对应的分支中的文本分类模块为基于卷积神经网络和循环神经网络的文本分类模块。

可选的，所述装置还包括：

向量化单元，用于通过输入模块根据字和字向量的映射关系，以及词和词向量的映射关系，对待识别文本信息进行向量化得到所述待识别文本数据，所述待识别文本数据包括待识别字向量和待识别词向量；

所述文本特征提取子单元，具体用于：

针对所述目标分支，若所述目标分支对应的目标分组数据的类别为第一类别，通过所述目标分支中的文本分类模块，对所述目标分组数据所包括的字向量和词向量进行特征提取得到多个初始文本特征；针对所述目标分支，若所述目标分支对应的目标分组数据的类别为第二类别，通过所述目标分支中的文本分类模块，对所述目标分组数据所包括的词向量进行特征提取得到多个初始文本特征。

可选的，所述装置还包括：

展示控制单元，用于若所述待识别对象的预测识别结果为预设结果，则控制展示所述待识别对象；

反馈信息获取单元，用于响应于针对所述待识别对象的反馈操作，根据所述反馈操作获取针对所述待识别对象的反馈信息，所述反馈信息包括所述待识别对象的实际识别结果。

基于本申请实施例提供的一种多模态识别模型的训练方法，本申请实施例还提供了一种多模态识别模型的训练装置，参考图23所示，为本申请实施例提供的一种多模态识别模型的训练装置的结构框图，该多模态识别模型的训练装置1300包括：

第一训练数据获取单元1301，用于获取具有类别标签的第一训练数据，所述第一训练数据包括第一训练对象的训练文本数据和训练图像数据，所述类别标签用于指示所述第一训练对象的目标识别结果；

第一识别单元1302，用于通过文本子模型、图像子模型和综合判别模块对所述第一训练数据进行识别处理得到各个所述第一训练对象的第一识别结果，所述文本子模型用于对训练文本数据进行特征提取得到文本特征，所述图像子模型用于对训练图像数据进行特征提取得到图像特征，所述综合判别模块用于对所述文本特征和所述图像特征进行特征融合得到融合结果，所述融合结果用于确定所述第一识别结果；

第一综合损失函数确定单元1303，用于根据所述类别标签和各个所述第一识别结果，构建第一综合损失函数；

训练单元1304，用于根据所述第一综合损失函数对包括所述文本子模型、所述图像子模型和所述综合判别模块的目标模型进行进行训练，将所述目标模型训练为多模态识别模型，所述多模态识别模型用于根据所述待识别对象的待识别图像数据和待识别文本数据，确定所述待识别对象的预测识别结果。

可选的，所述装置还包括：

第二训练数据获取单元，用于获取第二训练数据，所述第二训练数据包括第二训练对象的训练图像数据和训练文本数据；

相似化处理单元，用于对所述第二训练数据进行相似化处理得到所述第二训练数据的相似数据；

第二识别单元，用于通过所述目标模型分别对所述第二训练数据和所述相似数据进行识别处理，得到各个所述第二训练对象的第二识别结果和第三识别结果；

所述第一综合损失函数确定单元1303，包括：

第一损失函数构建单元，用于根据所述类别标签和各个所述第一识别结果，构建第一损失函数；

第二损失函数构建单元，用于根据所述第二识别结果和所述第三识别结果的差异，构建第二损失函数；

第一综合损失函数构建单元，用于基于所述第一损失函数和所述第二损失函数确定第一综合损失函数。

可选的，所述相似化处理单元，包括：

回译单元，用于将所述第二训练对象的训练文本数据从第一语言体系转换到第二语言体系，并从第二语言体系转换到第一语言体系，得到与所述第二训练对象的训练文本数据相似的相似文本数据；

图像处理单元，用于对所述第二训练对象的训练图像数据进行图像变换操作，得到与所述第二训练对象的训练图像数据相似的相似图像数据，所述图像变换操作包括以下操作中的至少一个：整体颜色更正操作、尺寸调整操作、增加噪音操作；

相似数据确定子单元，用于根据所述第二训练对象的训练文本数据和所述相似文本数据中的一种，以及所述第二训练对象的训练图像数据和所述相似图像数据中的一种，确定所述第二训练数据的相似数据，所述相似数据和所述第二训练数据不同。

可选的，所述训练单元1304，包括：

迭代次数确定单元，用于根据学习率随迭代次数的衰减规律，确定在学习率满足条件时模型训练的目标迭代次数；

训练子单元，用于以最小化所述第一综合损失函数为目的对包括所述文本子模型、所述图像子模型和所述综合判别模块的目标模型进行训练，在所述第一综合损失函数收敛且训练过程中的实际迭代次数达到所述目标迭代次数时，确定所述目标模型转换为多模态识别模型。

可选的，所述装置还包括：

子模型训练单元，用于所述获取具有类别标签的第一训练数据之前，根据其他文本数据对第一子模型进行训练得到所述文本子模型，根据其他图像数据对第二子模型进行训练得到所述图像子模型；

总模型训练单元，用于根据具有类别标签的第三训练数据对包括所述文本子模型、所述图像子模型和所述综合判别模块的初始模型进行训练，将所述初始模型转换为所述目标模型，所述第三训练数据包括第三训练对象的训练文本数据和训练图像数据。

可选的，所述总模型训练单元，包括：

结果获取单元，用于根据所述文本子模型对所述第三训练对象的训练文本数据进行特征提取得到的文本特征确定所述第三训练对象的文本相关识别结果，根据所述图像子模型对所述第三训练对象的训练图像数据进行特征提取得到的图像特征确定所述第三训练对象的图像相关识别结果，根据所述综合判别模块对所述文本特征和所述图像特征进行特征融合得到的融合结果，确定所述第三训练对象的综合识别结果；

子模型损失函数确定单元，用于根据所述第三训练对象的文本相关识别结果和所述第三训练数据的类别标签得到第三损失函数，根据所述所述第三训练对象的图像相关识别结果和所述第三训练数据的类别标签得到第四损失函数，根据所述第三训练对象的综合识别结果和所述第三训练数据的类别标签得到第五损失函数；

总损失函数确定单元，用于根据所述第三损失函数、所述第四损失函数和所述第五损失函数，确定第二综合损失函数；

总模型训练单元，用于根据所述第二综合损失函数对包括所述文本子模型、所述图像子模型和所述综合判别模块的初始模型进行训练，以将所述初始模型训练为所述目标模型。

可选的，所述装置还包括：

伪标签获取单元，用于通过所述目标模型得到初始训练数据对应的初始识别结果；

数据筛选单元，用于根据所述初始识别结果对所述初始训练数据进行筛选得到所述第二训练数据，以使所述第二训练数据中对应不同识别结果的训练数据的数量差异小于预设差异。

可选的，所述第一综合损失函数构建单元，包括：

第一置信度确定单元，用于根据所述第一识别结果确定第一置信度；

损失函数确定第一子单元，用于若所述第一置信度大于或等于第一阈值，则根据所述第二损失函数确定所述第一综合损失函数；若所述第一置信度小于所述第一阈值，则根据所述第一损失函数和所述第二损失函数确定所述第一综合损失函数。

可选的，所述第一综合损失函数构建单元，包括：

第二置信度确定单元，用于根据所述第二识别结果和所述第三识别结果确定第二置信度；

损失函数确定第二子单元，用于若所述第二置信度小于或等于第二阈值，则根据所述第一损失函数确定所述第一综合损失函数；若所述第二置信度大于所述第一阈值，则根据所述第一损失函数和所述第二损失函数确定所述第一综合损失函数。

可选的，所述第一综合损失函数构建单元，包括：

熵确定单元，用于确定所述第三识别结果的熵；

损失函数确定第三子单元，用于根据所述第一损失函数、所述第二损失函数和所述第三识别结果的熵，确定第一综合损失函数。

可选的，所述装置还包括：

实际识别结果确定单元，用于获取针对待识别对象的实际识别结果；

实际置信度确定单元，用于根据所述待识别图像数据和待识别文本数据，通过所述多模态识别模型确定所述实际识别结果的置信度；

模型更新单元，用于若所述置信度大于或等于第三预设置信度且所述实际识别结果具有可信标识，或所述置信度小于所述第三预测置信度，将所述待识别对象的待识别图像数据和待识别文本数据增加到所述第一训练数据中，将所述实际识别结果作为所述待识别对象的目标识别结果，根据更新的第一训练数据对所述多模态识别模型进行训练，得到更新的多模态识别模型。

本申请实施例还提供了一种计算机设备，该计算机设备为前述介绍的计算机设备，可以包括终端设备或服务器，前述的目标对象识别装置或多模态识别模型的训练装置可以配置在该计算机设备中。下面结合附图对该计算机设备进行介绍。

若该计算机设备为终端设备，请参见图24所示，本申请实施例提供了一种终端设备，以终端设备为手机为例：

图24示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图24，手机包括：射频(Radio Frequency，简称RF)电路1410、存储器1420、输入单元1430、显示单元1440、传感器1450、音频电路1460、无线保真(简称WiFi)模块1470、处理器1480、以及电源1490等部件。本领域技术人员可以理解，图24中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图24对手机的各个构成部件进行具体的介绍：

RF电路1410可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1480处理；另外，将设计上行的数据发送给基站。

存储器1420可用于存储软件程序以及模块，处理器1480通过运行存储在存储器1420的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1430可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1430可包括触控面板1431以及其他输入设备1432。

显示单元1440可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1440可包括显示面板1441。

手机还可包括至少一种传感器1450，比如光传感器、运动传感器以及其他传感器。

音频电路1460、扬声器1461，传声器1462可提供用户与手机之间的音频接口。

WiFi属于短距离无线传输技术，手机通过WiFi模块1470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。

处理器1480是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1420内的软件程序和/或模块，以及调用存储在存储器1420内的数据，执行手机的各种功能和处理数据。

手机还包括给各个部件供电的电源1490(比如电池)。

在本实施例中，该终端设备所包括的处理器1480还具有以下功能：

获取待识别对象的待识别图像数据和待识别文本数据；

若所述初始识别结果的置信度小于或等于第一预设置信度或所述初始识别结果不为预设结果，则根据综合判别模型对所述文本特征和所述图像特征进行特征融合得到的融合结果，确定所述待识别对象的预测识别结果。

或，获取具有类别标签的第一训练数据，所述第一训练数据包括第一训练对象的训练文本数据和训练图像数据，所述类别标签用于指示所述第一训练对象的目标识别结果；

若计算机设备为服务器，本申请实施例还提供一种服务器，请参见图25所示，图25为本申请实施例提供的服务器1500的结构图，服务器1500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器1522，如中央处理器(Central ProcessingUnits，简称CPU)，存储器1532，一个或一个以上存储应用程序1542或数据1544的存储介质1530(例如一个或一个以上海量存储设备)。其中，存储器1532和存储介质1530可以是短暂存储或持久存储。存储在存储介质1530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，处理器1522可以设置为与存储介质1530通信，在服务器1500上执行存储介质1530中的一系列指令操作。

服务器1500还可以包括一个或一个以上电源1526，一个或一个以上有线或无线网络接口1550，一个或一个以上输入输出接口1558，和/或，一个或一个以上操作系统1541，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于图25所示的服务器结构。

另外，本申请实施例还提供了一种存储介质，所述存储介质用于存储计算机程序，所述计算机程序用于执行上述实施例提供的方法。

本申请实施例还提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例提供的方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：Read-only Memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。而且本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种目标对象识别方法，其特征在于，所述方法包括：

获取待识别对象的待识别图像数据和待识别文本数据；

若所述初始识别结果的置信度小于或等于第一预设置信度，或所述初始识别结果不为预设结果，则根据综合判别模型对所述文本特征和所述图像特征进行特征融合得到的融合结果，确定所述待识别对象的预测识别结果。

2.根据权利要求1所述的方法，其特征在于，若所述初始识别结果根据所述图像特征确定，所述方法还包括：

根据文本子模型对所述待识别文本数据进行特征提取得到的文本特征，确定所述待识别对象的文本相关识别结果；

若所述文本相关识别结果的置信度小于或等于第二预设置信度，或所述文本相关识别结果不为预设结果，则通过所述图像子模型对待识别图像数据进行特征提取得到图像特征。

3.根据权利要求1或2所述的方法，其特征在于，所述文本子模型包括文本分类模块和第一注意力层，所述方法还包括：

通过所述文本分类模块对所述待识别文本数据进行特征提取得到多个初始文本特征，所述多个初始文本特征对应所述待识别文本数据中的多个字或多个词中的至少一种；

通过所述第一注意力层为所述多个初始文本特征赋予第一权重，并根据所述第一权重和所述初始文本特征得到所述文本特征。

4.根据权利要求3所述的方法，其特征在于，所述文本子模型包括多个分支，所述多个分支中的每个分支包括所述文本分类模块和所述第一注意力层，所述每个分支还包括第二注意力层，所述文本子模型还包括拼接层，所述通过所述文本分类模块对所述待识别文本数据进行特征提取得到多个初始文本特征，包括：

根据所述待识别文本数据的分组信息，确定所述待识别文本数据所包括的多个分组数据分别对应的分支；

针对所述多个分支中的目标分支，通过所述目标分支中的文本分类模块对所述目标分支对应的目标分组数据进行特征提取得到多个初始文本特征；

所述通过所述第一注意力层为所述多个初始文本特征赋予第一权重，并根据所述第一权重和所述初始文本特征得到所述文本特征，包括：

针对所述目标分支，通过所述目标分支中的第一注意力层为所述多个初始文本特征赋予第一权重，并根据所述第一权重对所述初始文本特征进行融合得到第一融合文本特征；

通过所述目标分支中的第二注意力层为所述多个分支赋予第二权重，并根据所述第二权重对所述多个分支中的至少两个分支的第一融合文本特征进行融合，得到第二融合文本特征；

通过所述拼接层对所述多个分支的第二融合文本特征进行拼接得到文本特征。

5.根据权利要求4所述的方法，其特征在于，所述多个分组数据的类别包括第一类别和第二类别，所述根据所述待识别文本数据的分组信息，确定所述待识别文本数据所包括的多个分组数据分别对应的分支，包括：

根据所述待识别文本数据的分组信息，确定所述待识别文本数据所包括的多个分组数据；

根据所述多个分组数据的类别，为所述多个分组数据分别确定对应的分支，若所述多个分组数据中的目标分组数据的类别为第一类别，所述目标分组数据对应的分支中的文本分类模块为基于卷积神经网络的文本分类模块，若所述多个分组数据中的目标分组数据的类别为第二类别，所述目标分组数据对应的分支中的文本分类模块为基于卷积神经网络和循环神经网络的文本分类模块。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

通过输入模块根据字和字向量的映射关系，以及词和词向量的映射关系，对待识别文本信息进行向量化得到所述待识别文本数据，所述待识别文本数据包括待识别字向量和待识别词向量；

所述针对所述多个分支中的目标分支，通过所述目标分支中的文本分类模块对所述目标分支对应的目标分组数据进行特征提取得到多个初始文本特征，包括：

针对所述目标分支，若所述目标分支对应的目标分组数据的类别为第一类别，通过所述目标分支中的文本分类模块，对所述目标分组数据所包括的字向量和词向量进行特征提取得到多个初始文本特征；

针对所述目标分支，若所述目标分支对应的目标分组数据的类别为第二类别，通过所述目标分支中的文本分类模块，对所述目标分组数据所包括的词向量进行特征提取得到多个初始文本特征。

7.一种多模态识别模型的确定方法，其特征在于，所述方法包括：

通过文本子模型、图像子模型和综合判别模块对所述第一训练数据进行识别处理得到各个所述第一训练对象的第一识别结果，所述文本子模型用于对所述训练文本数据进行特征提取得到文本特征，所述图像子模型用于对所述训练图像数据进行特征提取得到图像特征，所述综合判别模块用于对所述文本特征和所述图像特征进行特征融合得到融合结果，所述融合结果用于确定所述第一识别结果；

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

获取第二训练数据，所述第二训练数据包括第二训练对象的训练图像数据和训练文本数据；

对所述第二训练数据进行相似化处理得到所述第二训练数据的相似数据；

通过所述目标模型分别对所述第二训练数据和所述相似数据进行识别处理，得到各个所述第二训练对象的第二识别结果和第三识别结果；

所述根据所述类别标签和各个所述第一识别结果，构建第一综合损失函数，包括：

根据所述类别标签和各个所述第一识别结果，构建第一损失函数；

根据所述第二识别结果和所述第三识别结果的差异，构建第二损失函数；

基于所述第一损失函数和所述第二损失函数确定第一综合损失函数。

9.根据权利要求7所述的方法，其特征在于，所述对所述第二训练数据进行相似化处理得到所述第二训练数据的相似数据，包括：

将所述第二训练对象的训练文本数据从第一语言体系转换到第二语言体系，并从第二语言体系转换到第一语言体系，得到与所述第二训练对象的训练文本数据相似的相似文本数据；

对所述第二图像数据进行图像变换操作，得到与所述第二训练对象的训练图像数据相似的相似图像数据，所述图像变换操作包括以下操作中的至少一个：整体颜色更正操作、尺寸调整操作、增加噪音操作；

根据所述第二训练对象的训练文本数据和所述相似文本数据中的一种，以及所述第二训练对象的训练图像数据和所述相似图像数据中的一种，确定所述第二训练数据的相似数据，所述相似数据和所述第二训练数据不同。

10.根据权利要求9所述的方法，其特征在于，所述根据所述第一综合损失函数对包括所述文本子模型、所述图像子模型和所述综合判别模块的目标模型进行训练，以将所述目标模型训练为多模态识别模型，包括：

根据学习率随迭代次数的衰减规律，确定在学习率满足条件时模型训练的目标迭代次数；

以最小化所述第一综合损失函数为目的对包括所述文本子模型、所述图像子模型和所述综合判别模块的目标模型进行训练，在所述第一综合损失函数收敛且训练过程中的实际迭代次数达到所述目标迭代次数时，确定所述目标模型转换为多模态识别模型。

11.根据权利要求7-10任一项所述的方法，其特征在于，所述获取具有类别标签的第一训练数据之前，所述方法还包括：

根据其他文本数据对第一子模型进行训练得到所述文本子模型，根据其他图像数据对第二子模型进行训练得到所述图像子模型；

根据具有类别标签的第三训练数据对包括所述文本子模型、所述图像子模型和所述综合判别模块的初始模型进行训练，将所述初始模型转换为所述目标模型，所述第三训练数据包括第三训练对象的训练文本数据和训练图像数据。

12.根据权利要求11所述的方法，其特征在于，所述根据第三训练数据对包括所述文本子模型、所述图像子模型和所述综合判别模块的初始模型进行训练，将所述初始模型转换为所述目标模型，包括：

根据所述文本子模型对所述第三训练对象的训练文本数据进行特征提取得到的文本特征确定所述第三训练对象的文本相关识别结果，根据所述图像子模型对所述第三训练对象的训练图像数据进行特征提取得到的图像特征确定所述第三训练对象的图像相关识别结果，根据所述综合判别模块对所述文本特征和所述图像特征进行特征融合得到的融合结果，确定所述第三训练对象的综合识别结果；

根据所述第三训练对象的文本相关识别结果和所述第三训练数据的类别标签得到第三损失函数，根据所述第三训练对象的图像相关识别结果和所述第三训练数据的类别标签得到第四损失函数，根据所述第三训练对象的综合识别结果和所述第三训练数据的类别标签得到第五损失函数；

根据所述第三损失函数、所述第四损失函数和所述第五损失函数，确定第二综合损失函数；

根据所述第二综合损失函数对包括所述文本子模型、所述图像子模型和所述综合判别模块的初始模型进行训练，以将所述初始模型训练为所述目标模型。

13.根据权利要求11所述的方法，其特征在于，所述方法还包括：

通过所述目标模型得到初始训练数据对应的初始识别结果；

根据所述初始识别结果对所述初始训练数据进行筛选得到所述第二训练数据，以使所述第二训练数据中对应不同识别结果的训练数据的数量差异小于预设差异。

14.根据权利要求8-10任一项所述的方法，其特征在于，所述基于所述第一损失函数和所述第二损失函数确定第一综合损失函数，包括：

根据所述第一识别结果确定第一置信度；若所述第一置信度大于或等于第一阈值，则根据所述第二损失函数确定所述第一综合损失函数；若所述第一置信度小于所述第一阈值，则根据所述第一损失函数和所述第二损失函数确定所述第一综合损失函数；

或，根据所述第二识别结果和所述第三识别结果确定第二置信度；若所述第二置信度小于或等于第二阈值，则根据所述第一损失函数确定所述第一综合损失函数；若所述第二置信度大于所述第一阈值，则根据所述第一损失函数和所述第二损失函数确定所述第一综合损失函数；

或，确定所述第三识别结果的熵；根据所述第一损失函数、所述第二损失函数和所述第三识别结果的熵，确定第一综合损失函数。

15.根据权利要求7-10任一项所述的方法，其特征在于，所述方法还包括：

获取针对待识别对象的实际识别结果；

根据所述待识别图像数据和待识别文本数据，通过所述多模态识别模型确定所述实际识别结果的置信度；

若所述置信度大于或等于第三预设置信度且所述实际识别结果具有可信标识，或所述置信度小于所述第三预测置信度，将所述待识别对象的待识别图像数据和待识别文本数据增加到所述第一训练数据中，将所述实际识别结果作为所述待识别对象的目标识别结果，根据更新的第一训练数据对所述多模态识别模型进行训练，得到更新的多模态识别模型。

16.一种目标对象识别装置，其特征在于，所述装置包括：

17.一种多模态识别模型的训练装置，其特征在于，所述装置包括：

18.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述处理器用于根据所述计算机程序中的指令执行权利要求1-6中任意一项所述的目标对象识别方法或权利要求7-15任一项所述的多模态识别模型的训练方法。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-6中任意一项所述的目标对象识别方法或权利要求7-15任一项所述的多模态识别模型的训练方法。

20.一种包括计算机程序的计算机程序产品，其特征在于，当其在计算机设备上运行时，使得所述计算机设备执行权利要求1-6中任意一项所述的目标对象识别方法或权利要求7-15任一项所述的多模态识别模型的训练方法。