CN117079299A

CN117079299A - 数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN117079299A
Application number: CN202311318866.2A
Authority: CN
Inventors: 李德辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-10-12
Filing date: 2023-10-12
Publication date: 2023-11-17
Anticipated expiration: 2043-10-12
Also published as: CN117079299B

Abstract

本申请提供一种数据处理方法、装置、设备以及存储介质，涉及人工智能技术领域，本申请实施例中的大语言模型为大模型，该方法包括：获取待识别数据，待识别数据包括图像数据和文本数据，获取图像数据的标签，图像数据的标签用于描述图像数据中存在的元素，获取图像数据的文本描述，从预设的至少一个prompt中确定出与待识别数据对应的目标prompt，目标prompt根据多模态识别任务的业务场景设置，将图像数据的标签、图像数据的文本描述和文本数据按照目标prompt生成一条文本信息，将文本信息输入预训练的大语言模型，输出待识别数据的识别结果。从而，可提高多模态识别任务的执行效率，降低多模态识别的算力成本和时间成本。

Description

数据处理方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种数据处理方法、装置、设备以及存储介质。

背景技术

多模态识别是指同时使用多种感知模态的数据作为模型输入并输出对应的识别结果，多模态识别可以融合多种感知模态的数据，从而获取更加丰富和全面的信息，提高模型的准确性和鲁棒性。

目前，一些预训练的多模态大模型可以较好地提取多模态特征，但其不能直接实现具体的多模态识别任务，如分类任务、图文问答任务等，若要实现具体的多模态识别任务，需要对具体的任务标注数据，根据标注的数据集训练模型或者进行模型微调，进而再使用训练好的模型进行多模态识别。

然而，数据标注和模型训练耗时耗力，算力成本和时间成本较高，多模态识别任务的执行效率较低。

发明内容

本申请实施例提供了一种数据处理方法、装置、设备以及存储介质，可提高多模态识别任务的执行效率，降低多模态识别的算力成本和时间成本。

第一方面，本申请实施例提供了一种数据处理方法，包括：

获取待识别数据，所述待识别数据包括图像数据和文本数据；

获取所述图像数据的标签，所述图像数据的标签用于描述所述图像数据中存在的元素；

获取所述图像数据的文本描述；

从预设的至少一个prompt中确定出与所述待识别数据对应的目标prompt，将所述图像数据的标签、所述图像数据的文本描述和所述文本数据按照所述目标prompt生成一条文本信息，所述目标prompt根据多模态识别任务的业务场景设置；

将所述文本信息输入预训练的大语言模型，输出所述待识别数据的识别结果。

第二方面，本申请实施例提供了一种数据处理装置，包括：

第一获取模块，用于获取待识别数据，所述待识别数据包括图像数据和文本数据；

第二获取模块，用于获取所述图像数据的标签，所述图像数据的标签用于描述所述图像数据中存在的元素；

第三获取模块，用于获取所述图像数据的文本描述；

处理模块，用于从预设的至少一个prompt中确定出与所述待识别数据对应的目标prompt，将所述图像数据的标签、所述图像数据的文本描述和所述文本数据按照所述目标prompt生成一条文本信息，所述目标prompt根据多模态识别任务的业务场景设置；

所述处理模块还用于：将所述文本信息输入预训练的大语言模型，输出所述待识别数据的识别结果。

第三方面，本申请实施例提供了一种电子设备，包括：

处理器，适于实现计算机指令；以及，

存储器，存储有计算机指令，计算机指令适于由处理器加载并执行上述第一方面的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，该计算机指令被计算机设备的处理器读取并执行时，使得计算机设备执行上述第一方面的方法。

第五方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面的方法。

通过上述技术方案，本申请实施例通过在获取到多模态的待识别数据后，获取图像数据的标签以及获取图像数据的文本描述，将图像数据转换为文本形式的数据，其中图像数据的标签和文本描述均为文本，接着将图像数据的标签、图像数据的文本描述和文本数据按照预设的目标prompt生成一条文本信息，通过预训练的大语言模型对该文本信息进行推理得到待识别数据的识别结果，其中的目标prompt根据多模态识别任务的业务场景设置，从而可充分利用预训练的大语言模型的能力，能够在不需要数据标注和模型训练的情况下，实现不同业务场景下的多模态识别任务，降低多模态识别的算力成本和时间成本，从而推进多模态识别在各业务场景的落地应用。

进一步地，本申请实施例通过在获取到多模态的待识别数据后，使用预训练的第一多模态模型获取图像数据的标签，使用预训练的第二多模态模型获取图像数据的文本描述，将图像数据转换为文本形式的数据，其中图像数据的标签和文本描述均为文本，接着将图像数据的标签、图像数据的文本描述和文本数据按照预设的目标prompt生成一条文本信息，通过预训练的大语言模型对该文本信息进行推理得到待识别数据的识别结果，其中的目标prompt根据多模态识别任务的业务场景设置，从而可充分利用预训练的第一多模态模型、预训练的第二多模态模型以及预训练的大语言模型的能力，能够在不需要数据标注和模型训练的情况下，实现不同业务场景下的多模态识别任务，降低多模态识别的算力成本和时间成本，从而推进多模态识别在各业务场景的落地应用。

附图说明

图1为本申请实施例涉及的一种应用场景示意图；

图2为本申请实施例提供的一种数据处理方法的流程图；

图3为本申请实施例提供的一种数据处理方法的流程示意图；

图4为本申请实施例提供的一种获取图像数据的标签的过程示意图；

图5是本申请实施例的数据处理装置的示意性框图；

图6是本申请实施例提供的电子设备30的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应理解，在本申请实施例中，“与A对应的B”表示B与A相关联。在一种实现方式中，可以根据A确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

在本申请的描述中，除非另有说明，“至少一个”是指一个或多个，“多个”是指两个或多于两个。另外，“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项（个）或复数项（个）的任意组合。例如，a,b,或c中的至少一项（个），可以表示：a, b, c, a-b, a-c, b-c, 或a-b-c，其中a,b,c可以是单个，也可以是多个。

还应理解，本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。

还应理解，说明书中与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请提供的方案可涉及人工智能技术。

其中，人工智能（Artificial Intelligence, AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

应理解，人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容（AIGC）、对话式交互、智能医疗、智能客服、游戏AI等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例可涉及人工智能技术中的计算机视觉（Computer Vision, CV）技术，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、监测和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例可涉及人工智能技术中的自然语言处理(Nature LanguageProcessing，NLP)技术，自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例提供的方案还涉及网络媒体领域中的视频处理技术。网络媒体与传统的音视频设备采用的工作方式不同，网络媒体依赖信息技术（IT）设备开发商们提供的技术和设备来传输、存储和处理音视频信号。传统的串型数字（SDI）传输方式缺乏真正意义上的网络交换特性。需要做大量的工作才可能利用SDI创建类似以太网和因特网协议（IP）所提供的部分网络功能。因此，视频行业中的网络媒体技术就应运而生。进一步的，网络媒体的视频处理技术可以包括音视频信号的传输、存储和处理过程及音视频。

首先，对本申请实施例涉及的相关术语进行描述。

1、多模态识别：同时基于多种模态的数据来进行多模态识别，例如，同时基于图像、文本以及音频进行多模态识别。

2、预训练模型（Pre-training model，PTM），也称基石模型、大模型，指具有大参量的深度神经网络（Deep neural network，DNN），在海量未标记的数据上对其进行训练，利用大参量DNN的函数近似能力使PTM在数据上提取共性特征，经微调（fine tune）、参数高效微调（PEFT）、prompt-tuning等技术，适用于下游任务。因此，预训练模型可以在小样本（Few-shot）或零样本（Zero-shot）场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型（ELMO,BERT,GPT)、视觉模型（swin-transformer，ViT，V-MOE）、语音模型（VALL-E）、多模态模型(ViBERT, CLIP，Flamingo，Gato)等，其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容（AIGC）重要工具，也可以作为连接多个具体任务模型的通用接口。

3、零样本（Zero-shot）：在传统的机器学习方法中，需要为每个任务进行专门的训练，对于新的任务需要重新训练模型。而使用Zero-shot学习技术可以在没有针对特定任务的训练数据的情况下，利用已经训练好的模型进行预测或推理。大模型的训练通常需要较大的算力支持，训练时间也比较长，而Zero-shot技术不需要重新标注样本和训练，可以极大节约模型开发的成本和周期。

图1为本申请实施例涉及的一种应用场景示意图。如图1所示，应用场景包括终端设备102和服务器104。其中，终端设备102通过网络与服务器104进行通信。其中，服务器104可以但不限于用于为终端设备102或终端设备102上安装的客户端提供服务，客户端可以包括视频客户端、即时通信客户端、浏览器客户端、游戏客户端等，不作限定。

可选的，如图1所示，服务器104还可以连接数据存储系统106，比如数据库，用于为服务器104提供数据存储服务。数据存储系统可以集成在服务器104上，也可以部署在云上或其他服务器上，不做限定。

在一些可实现方式中，终端设备102是指一类具备丰富人机交互方式、拥有接入互联网能力、通常搭载各种操作系统、具有较强处理能力的设备。终端设备102可以是智能手机、平板电脑、便携式笔记本电脑、台式电脑、可穿戴设备、车载设备等终端设备，但不限于此。可选的，本申请实施例中，终端设备102中安装有具备多模态识别功能的应用程序。

可选的，终端设备102安装有多模态识别服务的应用程序，可通过终端设备102上配置的多模态识别应用程序的入口，使用上述多模态识别服务，例如，可以基于该应用程序使用本申请实施例提供的数据处理方法，通过应用程序的显示界面显示待识别数据上传的页面。应用程序的显示界面可以但不限于通过终端设备102进行显示。这里仅是一种示例，本实施例对此不作限定。

示例性地，服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content DeliveryNetwork，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器也可以成为区块链的节点。服务器可以是一台或多台。服务器是多台时，存在至少两台服务器用于提供不同的服务，和/或，存在至少两台服务器用于提供相同的服务，比如以负载均衡方式提供同一种服务，本申请实施例对此不加以限定。

示例性地，所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(WidebandCode Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。

本实施例提供的数据处理方法可由上述服务器104执行，也可由上述终端设备102执行，还可以是由上述终端设备102和服务器104共同执行。可选的，在一实施例中，可由终端设备102将待识别数据发送至服务器104，服务器104执行本申请实施例提供的数据处理方法，得到待识别数据的识别结果。

应理解，图1仅是示例性说明，并不对本申请实施例的应用场景进行具体限定。

相关技术中，要实现具体的多模态识别任务，需要对具体的任务标注数据，根据标注的数据集训练模型或者进行模型微调，进而再使用训练好的模型进行多模态识别。但是数据标注和模型训练耗时耗力，算力成本和时间成本较高，多模态识别任务的执行效率较低。

有鉴于此，本申请实施例提供了一种数据处理方法、装置、设备以及存储介质，能够在不需要数据标注和模型训练的情况下，实现多模态识别任务，从而可提高多模态识别任务的执行效率，降低多模态识别的算力成本和时间成本。

具体而言，可以获取待识别数据，待识别数据包括图像数据和文本数据，获取图像数据的标签，图像数据的标签用于描述图像数据中存在的元素，获取图像数据的文本描述，从预设的至少一个prompt中确定出与待识别数据对应的目标prompt，将图像数据的标签、图像数据的文本描述和文本数据按照目标prompt生成一条文本信息，其中的目标prompt根据多模态识别任务的业务场景设置，将文本信息输入预训练的大语言模型，输出待识别数据的识别结果。

本申请实施例通过在获取到多模态的待识别数据后，获取图像数据的标签以及获取图像数据的文本描述，将图像数据转换为文本形式的数据，其中图像数据的标签和文本描述均为文本，接着将图像数据的标签、图像数据的文本描述和文本数据按照预设的目标prompt生成一条文本信息，通过预训练的大语言模型对该文本信息进行推理得到待识别数据的识别结果，其中的目标prompt根据多模态识别任务的业务场景设置，从而可充分利用预训练的大语言模型的能力，能够在不需要数据标注和模型训练的情况下，实现不同业务场景下的多模态识别任务，降低多模态识别的算力成本和时间成本，从而推进多模态识别在各业务场景的落地应用。

需要说明的是，本申请实施例提供的数据处理方法能够应用到不同的业务场景中，例如智能座舱、环境实时识别、网络信息安全风控、安防识别、医疗诊断、智能交互等场景中。下面详细举例说明。

例如，在智能座舱中，通常需要感知乘客状态、环境场景等信息，然后结合这些信息提供相应的座舱服务。而结合图像、声音等多模态信息可以实现更鲁棒的感知识别，从而提供更精确、智能、有温度的座舱服务。例如，在一实施例中，通过识别乘客是否感到紧张、愉悦、疲劳等，从而提供相应的服务和调节措施，例如调整音乐播放、调整座椅角度等；在另一实施例中，使用多模态识别技术对乘客的行为进行实时监测，例如是否在驾驶过程中分心、是否使用手机等，从而提供安全提醒、自动刹车等安全保障服务；在又一实施例中，用多模态识别技术对环境进行实时识别和分析，例如识别晴天、雨天、雾天、红灯等，主动发起调节空调、打开雨刷、打开雾灯、询问是否播放音乐解闷等服务。

在网络信息安全风控中，由于信息涉及图像、视频、音频、文本等多种形态，使用多模态识别可以结合多种形式的信息，实现更精确的识别和更鲁棒的风险控制。例如，在一实施例中，通过多模态识别，识别网络视频、网页等内容中图像帧、文字、声音等信息，判断内容是否属于色情、低俗擦边等；在另一实施例中，通过图像识别和文本识别技术，可以对恶意代码进行实时识别和分析，例如识别病毒、木马、恶意链接等，从而及时防范和避免恶意攻击；通过图像识别和文本识别技术，可以对网络安全日志进行分析和挖掘，例如识别异常登录、文件操作等，从而及时发现异常事件，并提供相应的应对措施。

下面通过一些实施例对本申请实施例的技术方案进行详细说明。下面这几个实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本申请实施例提供的一种数据处理方法的流程图，本申请实施例的执行主体为具有多模态识别功能的装置，该装置例如可以为服务器或者终端设备，如图2所示，该方法可以包括：

S101、获取待识别数据，待识别数据包括图像数据和文本数据。

具体地，待识别数据是本申请实施例提供的数据处理方法所对应的识别对象，待识别数据为多模态信息，待识别数据可以同时包括图像数据和文本数据，或者，待识别数据还可以同时包括图像数据、文本数据和音频数据等等，其中的图像数据可以是从待识别对象提取的图像，例如是从一段视频中抽取的一帧或多帧图像，文本数据可以是待识别数据自带的文本内容，可以包括内容文本、摘要文本以及内容自带文本。可选的，在一实施例中，本实施例中获取待识别数据，可以是：接收输入的待识别数据，待识别数据包括图像数据和文本数据。还可以是：接收输入的视频数据和文本数据，提取所述视频数据中的一帧图像或多帧图像，得到图像数据，根据得到的图像数据和该文本数据得到待识别数据。

S102、获取图像数据的标签，图像数据的标签用于描述图像数据中存在的元素。

具体地，图像数据可以为一张图像，或者可以为从一段视频中抽取的一帧或多帧图像，图像数据的标签用于描述图像数据中存在的元素，即图像数据的标签用于描述图像中存在的元素，例如一张图像中包括一只狗，该张图像的元素包括动物类别-狗，狗的大小，狗的毛的颜色，狗的牙齿的是否锋利等等。

具体地，如何获取图像数据的标签，作为一种可实施的方式，S102中获取图像数据的标签，具体可以为：

S1021、根据预训练的第一多模态模型和预设的词表，确定图像数据的标签，词表包括N个词语，词表根据多模态识别任务的业务场景设置，N为正整数。

其中，第一多模态模型为预训练好的模型，第一多模态模型例如可以为CLIP模型，还可以其他的模型，本实施例对此不做限制。预设的词表是根据多模态识别任务的业务场景设置，其中的业务场景例如可以为智能座舱、环境实时识别、网络信息安全风控、安防识别、医疗诊断、智能交互等业务场景。词表包括N个词语，本实施例中以低俗内容识别业务场景为例，词表可以包括词语一、词语二、词语三、词语四、词语五和词语六等。

可选的，S1021中根据预训练的第一多模态模型和预设的词表，确定图像数据的标签，具体可以为：

S11、将词表中的每一词语分别按照预设的第一prompt组成一文本。

具体地，预设的第一prompt可以是根据具体业务场景设置，例如第一prompt为：关于{ XX}的照片，将词表中的每一词语按照“关于{ XX}的照片”组成一文本，例如词表包括5个词语，相应得到5个文本，例如其中一词语为“词语二”，将该词语按照“关于{ XX}的照片”组成的文本为：关于{词语二}的照片。

S12、依次将每一文本输入第一多模态模型，输出每一文本的嵌入特征。

具体地，例如得到5个文本，将该5个文本中的每一文本输入第一多模态模型，输出每一文本的嵌入特征，得到5个文本的嵌入特征。第一多模态模型例如可以为CLIP模型，将一文本输入CLIP模型，通过CLIP模型的文本编码器（Text Encoder）提取该文本的嵌入特征。

S13、将图像数据输入第一多模态模型，输出图像数据的嵌入特征。

具体地，第一多模态模型例如可以为CLIP模型，将图像数据输入CLIP模型，通过CLIP模型的图像编码器（Image Encoder）提取该图像数据的嵌入特征。

S14、根据图像数据的嵌入特征和每一文本的嵌入特征的相似度，确定图像数据的标签，图像数据的标签包括词表中的至少一个词语。

具体地，此处的相似度可以为余弦相似度。针对每一文本的嵌入特征，可以计算图像数据的嵌入特征与该文本的嵌入特征的余弦相似度，具体可以计算二者的余弦距离。得到图像数据的嵌入特征和每一文本的嵌入特征的相似度，可以根据图像数据的嵌入特征和每一文本的嵌入特征的相似度，确定图像数据的标签，图像数据的标签包括词表中的至少一个词语。

可选的，在一实施例中，S14中根据图像数据的嵌入特征和每一文本的嵌入特征的相似度，确定图像数据的标签，具体可以为：

S141、将图像数据的嵌入特征和每一文本的嵌入特征的相似度进行归一化，得到N个文本的置信度。

具体地，将图像数据的嵌入特征和每一文本的嵌入特征的相似度进行归一化（softmax），得到N个文本的置信度。

S142、按照置信度从大到小的顺序，选取前k个置信度最高的文本对应的词语作为k个标签，k为预设正整数。

S143、对k个标签按照预设的过滤方式进行过滤，将过滤后剩余的标签确定为图像数据的标签。

其中，预设的过滤方式可以包括：对含义相反的两个标签，保留其中置信度最大的标签，例如两个标签为词语一和词语二，若标签“词语二”的置信度为二者中最大的，则保留标签“词语二”。

S103、获取图像数据的文本描述。

其中，图像数据的文本描述用于描述图像数据的内容。具体地，作为一种可实施的方式，S103中获取图像数据的文本描述，具体可以为：

S1031、根据预训练的第二多模态模型和预设的第二prompt，确定图像数据的文本描述，第二prompt用于控制生成多模态识别任务感兴趣的图像内容描述。

具体地，第二多模态模型例如可以为BLIP-2，第二prompt可以根据多模态识别任务的业务场景预先设置，第二prompt用于控制生成多模态识别任务感兴趣的图像内容描述，例如，本实施例中以低俗内容识别业务场景为例，第二prompt可以为“描述图像中人物的衣着和身材”。

可选的，在一实施例中，S1031中根据预训练的第二多模态模型和预设的第二prompt，确定图像数据的文本描述，具体可以为：将图像数据和第二prompt输入第二多模态模型，输出图像数据的文本描述。还是以低俗内容识别业务场景为例，第二prompt可以为“描述图像中人物的衣着和身材”。将图像数据和文本-“描述图像中人物的衣着和身材” 输入第二多模态模型，输出图像数据的文本描述例如可以为“图像中任务的词语四，词语三”。

S104、从预设的至少一个prompt中确定出与待识别数据对应的目标prompt，将图像数据的标签、图像数据的文本描述和文本数据按照目标prompt生成一条文本信息，目标prompt根据多模态识别任务的业务场景设置。

具体地，可预先设置并存储多个prompt，每个prompt与待识别数据包括的内容对应，例如待识别数据包括图像数据和文本数据时对应一prompt，待识别数据包括图像数据、文本数据和音频数据时对应另一prompt。获取到待识别数据，即可获知待识别数据包括的内容，进而可根据待识别数据包括的内容确定出与待识别数据对应的目标prompt。

其中，预设的至少一个prompt中的每个prompt根据多模态识别任务的业务场景设置，不同的业务场景对应的prompt不同。

确定出与待识别数据对应的目标prompt后，接着，将图像数据的标签、图像数据的文本描述和文本数据按照目标prompt生成一条文本信息。

可选的，在待识别数据的识别结果为文本数据所属的类型时，即多模态识别任务为分类任务时，分类类型可以预先设置并存储，例如以低俗内容识别业务场景为例，分类类型包括正常和低俗等。S104中将图像数据的标签、图像数据的文本描述和文本数据按照目标prompt生成一条文本信息，具体可以为：

将图像数据的标签、图像数据的文本描述、文本数据和预设的至少一个分类类型按照目标prompt生成一条文本信息。

S105、将文本信息输入预训练的大语言模型，输出待识别数据的识别结果。

具体地，将文本信息输入预训练的大语言模型后，大语言模型可根据输入的文本信息推理生成待识别数据的识别结果。可选的，本实施例中的大语言模型例如可以为LLM模型。

进一步地，在一种可实施的方式中，待识别数据还包括音频数据，本实施例的方法还可以包括：

S106、获取音频数据对应的语音文本。

具体地，在一实施例中，可以使用预训练的语音识别模型获取音频数据对应的语音文本，将音频数据输入语音识别模型，输出该音频数据对应的语音文本。可选的，还可以使用其他方式获取音频数据对应的语音文本，本实施例对此不做限制。

相应地，待识别数据还包括音频数据时，S104具体可以为：将图像数据的标签、图像数据的文本描述、文本数据和语音文本按照目标prompt组成一条文本信息。

例如，以多模态识别任务为分类任务为例，目标prompt为“图片中存在{ }，图片内容是{}，对应语音内容是{}，对图片的评论是{}，评论属于{XX、XX、XX}里的哪一类？”，图像数据的标签例如为标签一，图像数据的文本描述例如为文本描述一，文本数据例如为文本数据一，语音文本例如为语音文本一，分类类型包括正常、低俗、辱骂，则将图像数据的标签、图像数据的文本描述、文本数据和语音文本按照目标prompt组成一条文本信息为：“图片中存在{ 标签一 }，图片内容是{ 文本描述一 }，对应语音内容是{语音文本一 }，对图片的评论是{ 文本数据一 }，评论属于{正常、低俗、辱骂}里的哪一类？”。

可选的，在一实施例中，本实施例的方法还可以包括：

S107、根据待识别数据的识别结果执行相应的操作。

具体地，若本实施例的数据处理方法由终端设备执行，则终端设备根据待识别数据的识别结果执行相应的操作具体可以为：根据待识别数据的识别结果显示对应的指示信息。若本实施例的数据处理方法由服务器执行，则服务器根据待识别数据的识别结果执行相应的操作具体可以为：根据待识别数据的识别结果向终端设备发送对应的操作指令。由终端设备根据操作执行令执行相应的操作。

本实施例提供的数据处理方法，通过在获取到多模态的待识别数据后，获取图像数据的标签以及获取图像数据的文本描述，将图像数据转换为文本形式的数据，其中图像数据的标签和文本描述均为文本，接着将图像数据的标签、图像数据的文本描述和文本数据按照预设的目标prompt生成一条文本信息，通过预训练的大语言模型对该文本信息进行推理得到待识别数据的识别结果，其中的目标prompt根据多模态识别任务的业务场景设置，从而可充分利用预训练的大语言模型的能力，能够在不需要数据标注和模型训练的情况下，实现不同业务场景下的多模态识别任务，降低多模态识别的算力成本和时间成本，从而推进多模态识别在各业务场景的落地应用。

下面结合一个具体的实施例，对本申请的技术方案进行进一步详细说明。下面实施例中以多模态识别任务为直播评论分类为例。

图3为本申请实施例提供的一种数据处理方法的流程示意图，本申请实施例的执行主体为具有多模态识别功能的装置，该装置例如可以为服务器或者终端设备，结合图3所示，本实施例的方法可以包括：

S201、获取待识别数据，待识别数据包括图像数据、音频数据和文本数据。

具体地，本实施例中以直播评论分类为例，待识别数据包括当前评论对应的画面图像、当前评论时间段内的音频和当前评论的文本内容。即，图像数据为当前评论对应的画面图像，音频数据为当前评论时间段内的音频，文本数据为当前评论的文本内容。本实施例中评论的分类类别可以包括正常、低俗、不友善三类。

其中，在获取当前评论对应的画面图像时，可以获取当前评论对应的画面的一帧或者多帧图像。当前评论对应的画面图像、当前评论时间段内的音频和当前评论的文本内容在直播过程中可以由终端设备或者服务器获取到。

S202、获取图像数据的标签，图像数据的标签用于描述图像数据中存在的元素。

具体地，本实施例中图像数据为当前评论对应的画面图像，获取当前评论对应的画面图像的标签，该标签用于描述当前评论对应的画面图像中存在的元素。

具体地，如何获取图像数据的标签，作为一种可实施的方式，S202中获取图像数据的标签，具体可以为：

S2021、根据预训练的第一多模态模型和预设的词表，确定图像数据的标签，词表包括N个词语，词表根据多模态识别任务的业务场景设置，N为正整数。

其中，第一多模态模型为预训练好的模型，第一多模态模型例如可以为CLIP模型，还可以其他的模型，本实施例对此不做限制。预设的词表是根据多模态识别任务的业务场景设置，其中的业务场景例如可以为智能座舱、环境实时识别、网络信息安全风控、安防识别、医疗诊断、智能交互等业务场景。词表包括N个词语，本实施例中以直播评论分类业务场景为例，词表可以包括词语一、词语二、词语三、词语四、词语五和词语六。

示例性地，图4为本申请实施例提供的一种获取图像数据的标签的过程示意图，如图4所示，本实施例中的词表包括词语一、词语二、词语三、词语四等等，S2021中根据预训练的第一多模态模型和预设的词表，确定图像数据的标签，具体可以为：

S21、将词表中的每一词语分别按照预设的第一prompt组成一文本。

具体地，预设的第一prompt可以是根据具体业务场景设置，如图4所示，例如第一prompt为：关于{ XX}的照片，将词表中的每一词语按照“关于{ XX}的照片”组成一文本，例如词表包括N个词语，相应得到N个文本，例如其中一词语为“词语二”，将该词语按照“关于{ XX}的照片”组成的文本为：关于{词语二}的照片。

S22、依次将每一文本输入第一多模态模型，输出每一文本的嵌入特征。

具体地，例如得到N个文本，将该N个文本中的每一文本输入第一多模态模型，输出每一文本的嵌入特征，得到N个文本的嵌入特征T₁、T₂、T₃……、T_N。第一多模态模型例如可以为CLIP模型，将一文本输入CLIP模型，通过CLIP模型的文本编码器（Text Encoder）提取该文本的嵌入特征。

S23、将图像数据输入第一多模态模型，输出图像数据的嵌入特征。

具体地，第一多模态模型例如可以为CLIP模型，将图像数据输入CLIP模型，通过CLIP模型的图像编码器（Image Encoder）提取该图像数据的嵌入特征I₁。

S24、根据图像数据的嵌入特征和每一文本的嵌入特征的相似度I₁. T_n，n=1,2，…N，确定图像数据的标签，图像数据的标签包括词表中的至少一个词语。

可选的，在一实施例中，S24中根据图像数据的嵌入特征和每一文本的嵌入特征的相似度，确定图像数据的标签，具体可以为：

S241、将图像数据的嵌入特征和每一文本的嵌入特征的相似度进行归一化，得到N个文本的置信度。

S242、按照置信度从大到小的顺序，选取前k个置信度最高的文本对应的词语作为k个标签，k为预设正整数。

S243、对k个标签按照预设的过滤方式进行过滤，将过滤后剩余的标签确定为图像数据的标签。

S203、获取图像数据的文本描述。

其中，图像数据的文本描述用于描述图像数据的内容。具体地，作为一种可实施的方式，S203中获取图像数据的文本描述，具体可以为：

S2031、根据预训练的第二多模态模型和预设的第二prompt，确定图像数据的文本描述，第二prompt用于控制生成多模态识别任务感兴趣的图像内容描述。

具体地，第二多模态模型例如可以为BLIP-2，第二prompt可以根据多模态识别任务的业务场景预先设置，第二prompt用于控制生成多模态识别任务感兴趣的图像内容描述，例如，本实施例中第二prompt可以为“描述图像中人物的衣着和身材”。

可选的，在一实施例中，S2031中根据预训练的第二多模态模型和预设的第二prompt，确定图像数据的文本描述，具体可以为：将图像数据和第二prompt输入第二多模态模型，输出图像数据的文本描述。本实施例中第二prompt为“描述图像中人物的衣着和身材”。将图像数据和文本-“描述图像中人物的衣着和身材” 输入第二多模态模型，输出图像数据的文本描述例如可以为“图像中任务的词语四，词语三”。

S204、获取音频数据对应的语音文本。

S205、从预设的至少一个prompt中确定出与待识别数据对应的目标prompt，将图像数据的标签、图像数据的文本描述、语音文本和文本数据按照目标prompt生成一条文本信息，目标prompt根据多模态识别任务的业务场景设置。

可选的，在待识别数据的识别结果为文本数据所属的类型时，即多模态识别任务为分类任务时，分类类型可以预先设置并存储，例如本实施例中，评论的分类类别可以包括正常、低俗、不友善三类。S205中将图像数据的标签、图像数据的文本描述、语音文本和文本数据按照目标prompt生成一条文本信息，具体可以为：

将图像数据的标签、图像数据的文本描述、语音文本、文本数据和预设的分类类型按照目标prompt生成一条文本信息。

例如，本实施例中目标prompt为“图片中存在{ }，图片内容是{}，对应语音内容是{}，对图片的评论是{}，评论属于{XX、XX、XX}里的哪一类？”，图像数据的标签例如为标签一，图像数据的文本描述例如为文本描述一，文本数据例如为文本数据一，语音文本例如为语音文本一，分类类型包括正常、低俗、辱骂，则将图像数据的标签、图像数据的文本描述、语音文本、文本数据和预设的分类类型按照目标prompt生成一条文本信息为：“图片中存在{ 标签一 }，图片内容是{ 文本描述一 }，对应语音内容是{语音文本一 }，对图片的评论是{ 文本数据一 }，评论属于{正常、低俗、辱骂}里的哪一类？”。

S206、将文本信息输入预训练的大语言模型，输出待识别数据的识别结果。

具体地，将文本信息“图片中存在{ 标签一 }，图片内容是{ 文本描述一 }，对应语音内容是{语音文本一 }，对图片的评论是{ 文本数据一 }，评论属于{正常、低俗、辱骂}里的哪一类？”输入预训练的大语言模型后，大语言模型可根据输入的文本信息推理生成待识别数据的识别结果，具体可生成评论的分类。可选的，本实施例中的大语言模型例如可以为LLM模型。

可选的，在一实施例中，本实施例的方法还可以包括：

S207、根据待识别数据的识别结果执行相应的操作。

本实施例提供的数据处理方法，通过在获取到多模态的待识别数据后，使用预训练的第一多模态模型获取图像数据的标签，使用预训练的第二多模态模型获取图像数据的文本描述，将图像数据转换为文本形式的数据，其中图像数据的标签和文本描述均为文本，接着将图像数据的标签、图像数据的文本描述和文本数据按照预设的目标prompt生成一条文本信息，通过预训练的大语言模型对该文本信息进行推理得到待识别数据的识别结果，其中的目标prompt根据多模态识别任务的业务场景设置，从而可充分利用预训练的第一多模态模型、预训练的第二多模态模型以及预训练的大语言模型的能力，能够在不需要数据标注和模型训练的情况下，实现不同业务场景下的多模态识别任务，降低多模态识别的算力成本和时间成本，从而推进多模态识别在各业务场景的落地应用。

以上结合附图详细描述了本申请的具体实施方式，但是，本申请并不限于上述实施方式中的具体细节，在本申请的技术构思范围内，可以对本申请的技术方案进行多种简单变型，这些简单变型均属于本申请的保护范围。例如，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本申请对各种可能的组合方式不再另行说明。又例如，本申请的各种不同的实施方式之间也可以进行任意组合，只要其不违背本申请的思想，其同样应当视为本申请所公开的内容。

还应理解，在本申请的各种方法实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。应理解这些序号在适当情况下可以互换，以便描述的本申请的实施例能够以除了在图示或描述的那些以外的顺序实施。

上文详细描述了本申请的方法实施例，下文结合图5至图6，详细描述本申请的装置实施例。

图5是本申请实施例的数据处理装置的示意性框图。如图5所示，该装置可包括第一获取模块11、第二获取模块12、第三获取模块13和处理模块14。

其中，第一获取模块11用于获取待识别数据，待识别数据包括图像数据和文本数据；

第二获取模块12用于获取图像数据的标签，图像数据的标签用于描述图像数据中存在的元素；

第三获取模块13用于获取图像数据的文本描述；

处理模块14用于从预设的至少一个prompt中确定出与待识别数据对应的目标prompt，将图像数据的标签、图像数据的文本描述和文本数据按照目标prompt生成一条文本信息，目标prompt根据多模态识别任务的业务场景设置；

处理模块14还用于：将文本信息输入预训练的大语言模型，输出待识别数据的识别结果。

在一实施例中，待识别数据还包括音频数据，第一获取模块11还用于：

获取音频数据对应的语音文本。

处理模块14用于：

将图像数据的标签、图像数据的文本描述、文本数据和语音文本按照目标prompt组成一条文本信息。

在一实施例中，第二获取模块12用于：

根据预训练的第一多模态模型和预设的词表，确定图像数据的标签，词表包括N个词语，词表根据多模态识别任务的业务场景设置，N为正整数。

在一实施例中，第二获取模块12具体用于：

将词表中的每一词语分别按照预设的第一prompt组成一文本；

依次将每一文本输入第一多模态模型，输出每一文本的嵌入特征；

将图像数据输入第一多模态模型，输出图像数据的嵌入特征；

根据图像数据的嵌入特征和每一文本的嵌入特征的相似度，确定图像数据的标签，图像数据的标签包括词表中的至少一个词语。

在一实施例中，第二获取模块12具体用于：

将图像数据的嵌入特征和每一文本的嵌入特征的相似度进行归一化，得到N个文本的置信度；

按照置信度从大到小的顺序，选取前k个置信度最高的文本对应的词语作为k个标签，k为预设正整数；

对k个标签按照预设的过滤方式进行过滤，将过滤后剩余的标签确定为图像数据的标签。

在一实施例中，第三获取模块13用于：

根据预训练的第二多模态模型和预设的第二prompt，确定图像数据的文本描述，第二prompt用于控制生成多模态识别任务感兴趣的图像内容描述。

在一实施例中，第三获取模块13具体用于：

将图像数据和第二prompt输入第二多模态模型，输出图像数据的文本描述。

在一实施例中，处理模块14还用于：

根据待识别数据的识别结果执行相应的操作。

在一实施例中，待识别数据的识别结果为文本数据所属的类型时，处理模块14具体用于：将图像数据的标签、图像数据的文本描述、文本数据和预设的至少一个分类类型按照目标prompt生成一条文本信息。

应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图5所示的装置可以执行图2或图3所示实施例的方法，并且装置中的各个模块的前述和其它操作和/或功能分别为了实现上述方法中的相应流程，为了简洁，在此不再赘述。

上文中结合附图从功能模块的角度描述了本申请实施例的装置和系统。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

图6是本申请实施例提供的电子设备30的示意性框图。

如图6所示，该电子设备30可包括：

存储器31和处理器32，该存储器31用于存储计算机程序，并将该程序代码传输给该处理器32。换言之，该处理器32可以从存储器31中调用并运行计算机程序，以实现本申请实施例中的方法。

例如，该处理器32可用于根据该计算机程序中的指令执行上述方法实施例。

在本申请的一些实施例中，该处理器32可以包括但不限于：

通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（FieldProgrammable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

在本申请的一些实施例中，该存储器31包括但不限于：

易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器（Read-Only Memory，ROM）、可编程只读存储器（Programmable ROM，PROM）、可擦除可编程只读存储器（Erasable PROM，EPROM）、电可擦除可编程只读存储器（Electrically EPROM，EEPROM）或闪存。易失性存储器可以是随机存取存储器（Random Access Memory，RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器（Static RAM，SRAM）、动态随机存取存储器（Dynamic RAM，DRAM）、同步动态随机存取存储器（Synchronous DRAM，SDRAM）、双倍数据速率同步动态随机存取存储器（Double DataRate SDRAM，DDR SDRAM）、增强型同步动态随机存取存储器（Enhanced SDRAM，ESDRAM）、同步连接动态随机存取存储器（synch link DRAM，SLDRAM）和直接内存总线随机存取存储器（Direct Rambus RAM，DR RAM）。

在本申请的一些实施例中，该计算机程序可以被分割成一个或多个模块，该一个或者多个模块被存储在该存储器31中，并由该处理器32执行，以完成本申请提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述该计算机程序在该电子设备中的执行过程。

如图6所示，该电子设备30还可包括：

收发器33，该收发器33可连接至该处理器32或存储器31。

其中，处理器32可以控制该收发器33与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器33可以包括发射机和接收机。收发器33还可以进一步包括天线，天线的数量可以为一个或多个。

应当理解，该电子设备中的各个组件通过总线系统相连，其中，总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

根据本申请的一个方面，提供了一种通信装置，包括处理器和存储器，该存储器用于存储计算机程序，该处理器用于调用并运行存储器中存储的计算机程序，使得编码器执行上述方法实施例的方法。

根据本申请的一个方面，提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说，本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。

根据本申请的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方法实施例的方法。

换言之，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（digital subscriber line，DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如数字视频光盘（digital video disc，DVD））、或者半导体介质（例如固态硬盘（solid state disk，SSD））等。

可以理解的是，在本申请的具体实施方式中，可能涉及到用户信息等相关的数据。当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以该权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，包括：

获取所述图像数据的文本描述；

2.根据权利要求1所述的方法，其特征在于，所述待识别数据还包括音频数据，所述方法还包括：

获取所述音频数据对应的语音文本；

所述将所述图像数据的标签、所述图像数据的文本描述和所述文本数据按照所述目标prompt生成一条文本信息，包括：

将所述图像数据的标签、所述图像数据的文本描述、所述文本数据和所述语音文本按照所述目标prompt组成一条文本信息。

3.根据权利要求1所述的方法，其特征在于，所述获取所述图像数据的标签，包括：

根据预训练的第一多模态模型和预设的词表，确定所述图像数据的标签，所述词表包括N个词语，所述词表根据多模态识别任务的业务场景设置，所述N为正整数。

4.根据权利要求3所述的方法，其特征在于，所述根据预训练的第一多模态模型和预设的词表，确定所述图像数据的标签，包括：

将所述词表中的每一词语分别按照预设的第一prompt组成一文本；

依次将每一所述文本输入所述第一多模态模型，输出每一所述文本的嵌入特征；

将所述图像数据输入所述第一多模态模型，输出所述图像数据的嵌入特征；

根据所述图像数据的嵌入特征和每一所述文本的嵌入特征的相似度，确定所述图像数据的标签，所述图像数据的标签包括所述词表中的至少一个词语。

5.根据权利要求4所述的方法，其特征在于，所述根据所述图像数据的嵌入特征和每一所述文本的嵌入特征的相似度，确定所述图像数据的标签，包括：

将所述图像数据的嵌入特征和每一所述文本的嵌入特征的相似度进行归一化，得到所述N个文本的置信度；

按照置信度从大到小的顺序，选取前k个置信度最高的文本对应的词语作为k个标签，所述k为预设正整数；

对所述k个标签按照预设的过滤方式进行过滤，将过滤后剩余的标签确定为所述图像数据的标签。

6.根据权利要求1所述的方法，其特征在于，所述获取所述图像数据的文本描述，包括：

根据预训练的第二多模态模型和预设的第二prompt，确定所述图像数据的文本描述，所述第二prompt用于控制生成多模态识别任务感兴趣的图像内容描述。

7.根据权利要求6所述的方法，其特征在于，所述根据预训练的第二多模态模型和预设的第二prompt，确定所述图像数据的文本描述，包括：

将所述图像数据和所述第二prompt输入所述第二多模态模型，输出所述图像数据的文本描述。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述方法还包括：

根据所述待识别数据的识别结果执行相应的操作。

9.根据权利要求1所述的方法，其特征在于，所述待识别数据的识别结果为所述文本数据所属的类型时，所述将所述图像数据的标签、所述图像数据的文本描述和所述文本数据按照所述目标prompt生成一条文本信息，包括：

将所述图像数据的标签、所述图像数据的文本描述、所述文本数据和预设的至少一个分类类型按照所述目标prompt生成一条文本信息。

10.一种数据处理装置，其特征在于，包括：

第三获取模块，用于获取所述图像数据的文本描述；

11.一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储有指令，所述处理器执行所述指令时，使得所述处理器执行权利要求1-9任一项所述的方法。

12.一种计算机存储介质，其特征在于，用于存储计算机程序，所述计算机程序包括用于执行权利要求1-9中任一项所述的方法。

13.一种计算机程序产品，其特征在于，包括计算机程序代码，当所述计算机程序代码被电子设备运行时，使得所述电子设备执行权利要求1-9中任一项所述的方法。