CN118070209A

CN118070209A - 多模态数据处理方法、电子设备及存储介质

Info

Publication number: CN118070209A
Application number: CN202311620129.8A
Authority: CN
Inventors: 胡安文; 史雅雅; 徐海洋; 严明; 张佶; 黄非
Original assignee: Hangzhou Alibaba Cloud Feitian Information Technology Co ltd
Current assignee: Hangzhou Alibaba Cloud Feitian Information Technology Co ltd
Priority date: 2023-11-29
Filing date: 2023-11-29
Publication date: 2024-05-24

Abstract

本申请公开了一种多模态数据处理方法、电子设备及存储介质，涉及大模型技术、文本处理领域。其中，该方法包括：获取预设格式数据，以及与预设格式数据匹配的场景文本数据，其中，场景文本数据用于表征对预设格式数据的使用场景进行描述的文本数据；基于场景文本数据对预设格式数据进行识别，得到与预设格式数据匹配的总结文本数据，其中，总结文本数据用于表征对预设格式数据进行概括总结的文本数据；基于场景文本数据和总结文本数据对预设格式数据进行数据分析，得到与预设格式数据的分析文本数据，其中，分析文本数据用于表征对预设格式数据进行解释说明的文本数据。本申请解决了大型语言模型的图表分析准确度较低的技术问题。

Description

多模态数据处理方法、电子设备及存储介质

技术领域

本申请涉及大模型技术、文本处理领域，具体而言，涉及一种多模态数据处理方法、电子设备及存储介质。

背景技术

大型语言模型较强的文字理解和创作能力催生了文档阅读或书写工具的蓬勃发展，由于大型语言模型具备较强的辅助阅读文字的能力，因此，可以通过使用大型语言模型理解文档里的文字。在科学研究过程中，除了文本分析之外，研究者还需要进行图表分析，但是，利用大型语言模型进行图表分析的准确度较低，无法满足用户需求，导致用户体验感较差。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种多模态数据处理方法、电子设备及存储介质，以至少解决大型语言模型的图表分析准确度较低的技术问题。

根据本申请实施例的一个方面，提供了一种多模态数据处理方法，包括：获取预设格式数据，以及与预设格式数据匹配的场景文本数据，其中，场景文本数据用于表征对预设格式数据的使用场景进行描述的文本数据；基于场景文本数据对预设格式数据进行识别，得到与预设格式数据匹配的总结文本数据，其中，总结文本数据用于表征对预设格式数据进行概括总结的文本数据；基于场景文本数据和总结文本数据对预设格式数据进行数据分析，得到与预设格式数据的分析文本数据，其中，分析文本数据用于表征对预设格式数据进行解释说明的文本数据。

根据本申请实施例的另一方面，还提供了一种多模态数据处理方法，包括：获取图表数据，以及与图表数据匹配的场景文本数据，其中，场景文本数据用于表征对图表数据的使用场景进行描述的文本数据；基于场景文本数据对图表数据进行识别，得到与图表数据匹配的总结文本数据，其中，总结文本数据用于表征对图表数据进行概括总结的文本数据；基于场景文本数据和总结文本数据对图表数据进行数据分析，得到与图表数据的分析文本数据，其中，分析文本数据用于表征对图表数据进行解释说明的文本数据。

根据本申请实施例的另一方面，还提供了一种多模态数据处理方法，包括：通过调用第一接口获取图表数据，以及与图表数据匹配的前文文本数据，其中，第一接口包括第一参数，第一参数的参数值包括图表数据和前文文本数据，前文文本数据用于表征对图表数据的来源进行描述的文本数据；基于前文文本数据对图表数据进行识别，得到与图表数据匹配的概要文本数据，其中，概要文本数据用于表征对图表数据进行总结描述的文本数据；基于前文文本数据和概要文本数据对图表数据进行数据分析，得到与图表数据匹配的分析文本数据，其中，分析文本数据用于表征对图表数据进行解释说明的文本数据；通过调用第二接口输出分析文本数据，其中，第二接口包括第二参数，第二参数的参数值为分析文本数据。

在本申请实施例中，通过获取预设格式数据，以及与预设格式数据匹配的场景文本数据，其中，场景文本数据用于表征对预设格式数据的使用场景进行描述的文本数据；基于场景文本数据对预设格式数据进行识别，得到与预设格式数据匹配的总结文本数据，其中，总结文本数据用于表征对预设格式数据进行概括总结的文本数据；基于场景文本数据和总结文本数据对预设格式数据进行数据分析，得到与预设格式数据的分析文本数据，其中，分析文本数据用于表征对预设格式数据进行解释说明的文本数据。容易注意到的是，可以基于场景文本数据对预设格式数据进行识别，从而得到与预设格式数据匹配的总结文本数据，进一步的，基于场景文本数据和总结文本数据对预设格式数据进行数据分析，得到与预设格式数据匹配的分析文本数据，由于场景文本数据是对预设格式数据的来源进行描述的文本数据，总结文本数据为对预设格式数据进行总结描述的文本数据，也即，通过先对预设格式数据的来源进行描述，并对预设格式数据进行总结描述，在此基础上再对预设格式数据进行数据分析，从而提高了对预设格式数据进行分析的准确率，进一步提升用户的体验感，解决了大型语言模型的图表分析准确度较低的技术问题。

容易注意到的是，上面的通用描述和后面的详细描述仅仅是为了对本申请进行举例和解释，并不构成对本申请的限定。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种多模态数据处理方法的应用场景的示意图；

图2是根据本申请实施例1的多模态数据处理方法的流程图；

图3是根据本申请实施例的一种数据处理模型的示意图；

图4是根据本申请实施例的一种数据生成的示意图；

图5是根据本申请实施例2的多模态数据处理方法的流程图；

图6是根据本申请实施例3的多模态数据处理方法的流程图；

图7是根据本申请实施例4的多模态数据处理装置的示意图；

图8是根据本申请实施例5的多模态数据处理装置的示意图；

图9是根据本申请实施例6的多模态数据处理装置的示意图；

图10是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请提供的技术方案主要采用大模型技术实现，此处的大模型是指具有大规模模型参数的深度学习模型，通常可以包含上亿、上百亿、上千亿、上万亿甚至十万亿以上的模型参数。大模型又可以称为基石模型/基础模型(Foundation Model)，通过大规模无标注的语料进行大模型的预训练，产出亿级以上参数的预训练模型，这种模型能适应广泛的下游任务，模型具有较好的泛化能力，例如大规模语言模型(Large Language Model,LLM)、多模态预训练模型(multi-modal pre-training model)等。

需要说明的是，大模型在实际应用时，可以通过少量样本对预训练模型进行微调，使得大模型可以应用于不同的任务中。例如，大模型可以广泛应用于自然语言处理(Natural Language Processing，简称NLP)、计算机视觉、语音处理等领域，具体可以应用于如视觉问答(Visual Question Answering，简称VQA)、图像描述(Image Caption，简称IC)、图像生成等计算机视觉领域任务，也可以广泛应用于基于文本的情感分类、文本摘要生成、机器翻译等自然语言处理领域任务。因此，大模型主要的应用场景包括但不限于数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等。在本申请实施例中，以论文图表分析场景下通过大型语言模型进行数据处理为例进行解释说明，

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

大型语言模型：Large Language Model，简称LLM。

多模态大型语言模型：Multimodal Large Language Model，简称MLLM。

n-gram：由n个连续的词语组成的词组。

F1：考虑准确率和召回率对预测结果进行评测的指标。

CIDEr：Consensus-based Image Description Evaluation，共识评估，为一种衡量两个句子n-gram吻合度的指标。

DocOwl：Document Owl，一个针对文档理解进行训练的多模态大型语言模型。

LoRA：Low Rank Adaptation of Large Language Models，一种通过增加少量参数进行大型语言模型微调的方案。

F1-gpt：基于GPT3.5计算的，考虑了关键点准确率和召回率的F1得分。

实施例1

根据本申请实施例，提供了一种多模态数据处理方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

考虑到大模型的模型参数量庞大，且移动终端的运算资源有限，图1是根据本申请实施例的一种多模态数据处理方法的应用场景的示意图，本申请实施例提供的上述多模态数据处理方法可以应用于如图1所示的应用场景，但不仅限于此。在如图1所示的应用场景中，大模型部署在服务器10中，服务器10可以通过局域网连接、广域网连接、因特网连接，或者其他类型的数据网络，连接一个或多个客户端设备11，此处的客户端设备11可以包括但不限于：智能手机、平板电脑、笔记本电脑、掌上电脑、个人计算机、智能家居设备、车载设备等。客户端设备11可以通过图形用户界面与用户进行交互，实现对大模型的调用，进而实现本申请实施例所提供的方法。

在本申请实施例中，客户端设备和服务器构成的系统可以执行如下步骤：客户端设备执行：接收数据处理指令，并发送至服务器，服务器在接收到数据处理指令之后执行：获取预设格式数据，以及与预设格式数据匹配的场景文本数据，其中，场景文本数据用于表征对预设格式数据的使用场景进行描述的文本数据；基于场景文本数据对预设格式数据进行识别，得到与预设格式数据匹配的总结文本数据，其中，总结文本数据用于表征对预设格式数据进行概括总结的文本数据；基于场景文本数据和总结文本数据对预设格式数据进行数据分析，得到与预设格式数据的分析文本数据，其中，分析文本数据用于表征对预设格式数据进行解释说明的文本数据。需要说明的是，在客户端设备的运行资源能够满足大模型的部署和运行条件的情况下，本申请实施例可以在客户端设备中进行。

在上述运行环境下，本申请提供了如图2所示的多模态数据处理方法。图2是根据本申请实施例1的多模态数据处理方法的流程图。如图2所示，该方法可以包括如下步骤：

步骤S202：获取预设格式数据，以及与预设格式数据匹配的场景文本数据，其中，场景文本数据用于表征对预设格式数据的使用场景进行描述的文本数据。

上述的预设格式数据和场景文本数据可以由用户提供，其中，预设格式的数据可以为图表格式的数据、文字格式的数据等，在本申请中以预设格式数据为图表格式的数据为例来进行说明。

在一种可选的实施例中，用户可以从通过以下方式得到预设格式数据：

数据库查询：如果数据存储在数据库中，可以通过数据库查询获取所需的数据，然后根据得到的所需的数据生成图表。

文件导入：如果数据存储在文件中，可以通过文件导入的方式将数据读取到图表生成工具中。

手动输入：如果数据量较小，也可以通过手动输入的方式将数据输入到图表生成工具中，从而生成图表数据。

可选的，在得到预设格式数据和场景文本数据后，可以通过利用多模态数据处理模型对预设格式数据和场景文本数据进行识别，从而得到预设格式数据所对应的分析结果，其中，多模态数据处理模型可以为能够利用多种不同类型的数据(例如文本、图像、音频等)进行综合处理和分析的模型，这种模型可以结合多种数据源，从而能够更全面地理解和分析所涉及的内容，多模态数据处理模型通常涉及到深度学习、机器学习和自然语言处理等技术，以实现对多种数据类型的深度理解和分析。

步骤S204：基于场景文本数据对预设格式数据进行识别，得到与预设格式数据匹配的总结文本数据，其中，总结文本数据用于表征对预设格式数据进行概括总结的文本数据。

在一种可选的实施例中，在得到预设格式数据和场景文本数据后，可以将预设格式数据和场景文本数据输入多模态数据处理模型中，从而可以通过多模态数据处理模型对预设格式数据进行识别，从而确定出与图表数据匹配的总结文本数据，也即，通过多模态数据处理模型对预设格式数据所对应的内容进行概括总结，从而得到总结文本数据，可选的，总结文本数据的段落长度可以小于预设格式数据所对应的内容的一半。

步骤S206：基于场景文本数据和总结文本数据对预设格式数据进行数据分析，得到与预设格式数据的分析文本数据，其中，分析文本数据用于表征对预设格式数据进行解释说明的文本数据。

在一种可选的实施例中，由于场景文本数据是对预设格式数据的来源进行描述的文本数据，总结文本数据是对预设格式数据进行总结描述的文本数据，因此，在得到场景文本数据以及总结文本数据后，可以利用多模态数据处理模型通过对场景文本数据以及总结文本数据进行解析，从而实现对图表数据的解释说明，可选的，可以将对图表数据的解释说明内容通过文本的形式来表示，也即，得到与预设格式数据匹配的分析文本数据。

在本申请上述实施例中，基于场景文本数据对预设格式数据进行识别，得到与预设格式数据匹配的总结文本数据，包括：利用数据处理模型基于场景文本数据对预设格式数据进行识别，得到总结文本数据。

上述的数据处理模型可以为多模态数据处理模型。

在一种可选的实施例中，数据处理模型可以用于确定总结文本数据，可选的，在得到场景文本数据后，可以将场景文本数据输入多模态数据处理模型，并利用多模态数据处理模型基于场景文本数据对预设格式数据进行识别，从而得到总结文本数据。

在本申请上述实施例中，基于场景文本数据和总结文本数据对预设格式数据进行数据分析，得到与预设格式数据匹配的分析文本数据，包括：利用数据处理模型基于场景文本数据和总结文本数据对预设格式数据进行数据分析，得到分析文本数据。

在一种可选的实施例中，数据处理模型可以用于确定分析文本数据，可选的，在得到场景文本数据和总结文本数据后，可以将场景文本数据和总结文本数据输入多模态数据处理模型，并利用多模态数据处理模型基于场景文本数据和总结文本数据进行识别，从而得到分析文本数据。

在本申请上述实施例中，该方法还包括：利用数据处理模型基于场景文本数据对预设格式数据进行识别，得到与预设格式数据匹配的标题文本数据。

在一种可选的实施例中，数据处理模型可以用于确定标题文本数据，可选的，在得到场景文本数据对预设格式数据后，可以将场景文本数据对预设格式数据输入多模态数据处理模型，并利用多模态数据处理模型基于场景文本数据对预设格式数据进行识别，从而得到标题文本数据。

在本申请上述实施例中，在预设格式数据包括图像格式的数据的情况下，数据处理模型包括切分模块、视觉编码模块、视觉抽象模块和文本生成模块；在预设格式数据包括文本格式的数据的情况下，数据处理模型包括：文本生成模块。

在一种可选的实施例中，预设格式数据可以为文本格式、图像格式，或文本格式以及图像格式，针对不同的预设格式数据，数据处理模型中所包含的模块也是不同的，可选的，假设预设格式数据中仅包含文本格式，则数据处理模型中可以包含文本生成模块，假设预设格式数据中包含图像格式，则数据处理模型包括切分模块、视觉编码模块、视觉抽象模块和文本生成模块，其中，切分模块可以用于对图表进行切分，视觉编码模块可以用于对切分后的图表进行编码，从而得到切分后的图表的特征，视觉抽象模块可以用于对图表的特征进行提取，文本生成模块可以用于基于场景文本数据和视觉抽象模块所提取出的特征对预设格式数据进行识别，得到总结文本数据。

在本申请上述实施例中，在预设格式数据包括图像格式的数据的情况下，利用数据处理模型基于场景文本数据对预设格式数据进行识别，得到总结文本数据，包括：利用切分模块对预设格式数据进行切分，得到多个图像块；利用视觉编码模块对多个图像块进行编码，得到多个图像块的图像特征；利用视觉抽象模块对多个图像块的图像特征进行提取，得到预设格式数据对应的文本特征；利用基于场景文本数据和文本特征对预设格式数据进行识别，得到总结文本数据。

在一种可选的实施例中，假设预设格式数据包含图像格式的数据，由于图像中的文字在预设格式数据分析中起着至关重要的作用，数据处理模型中默认的分辨率一般为224x224，若预设格式数据的分辨率大于224x224，直接采用224x224的分辨率进行理解会导致文字模糊无法识别，为此，可以利用数据处理模型中的切分模块对预设格式数据进行切分，从而得到多个图像块，例如，将一个448x448的图表切成4个224x224的小图，并利用视觉编码模块对多个图像块进行编码，得到多个图像块的图像特征，之后再利用视觉抽象模块对图像特征单独进行特征提取，然后通过文本生成模块进行子图的联合理解，也即，利用基于场景文本数据和文本特征对预设格式数据进行识别，得到总结文本数据。

图3是根据本申请实施例的一种数据处理模型的示意图，如图3所示，数据处理模型中可以包含切分模块、视觉编码模块、视觉抽象模块、文本生成模块，可选的，以利用数据处理模型生成分析文本数据为例来进行说明，当接收到用户给出的指令后，在利用数据处理模型进行图表分析时，若预设格式数据的格式中包含图像格式的预设格式数据，则需要利用数据处理模型中的切分模块对图表进行切分，利用数据处理模型中的视觉编码模块对切分后的图表进行编码，从而得到切分后的图表的特征，并利用视觉抽象模块对图表的特征进行提取，得到预设格式数据对应的文本特征，利用基于场景文本数据和文本特征对预设格式数据进行识别，得到总结文本数据，最终可以利用文本生成模块基于生成场景文本数据、总结文本数据，生成分析文本数据，若预设格式数据中仅包含文本数据，则无需用到切分模块、视觉编码模块，以及视觉抽象模块，可以直接利用文本生成模块来生成分析文本数据，其中，文本生成模块中可以包含适配器，其中，适配器可以为LoRA，适配器用于对预设格式数据进行处理，从而匹配到与预设格式数据适配的场景文本数据。

在本申请上述实施例中，在预设格式数据包括图像格式的数据的情况下，利用数据处理模型基于场景文本数据对预设格式数据进行识别，得到总结文本数据，包括：利用文本生成模块基于场景文本数据对预设格式数据进行识别，得到总结文本数据。

在一种可选的实施例中，若预设格式数据包括图像格式，则需要利用数据处理模型中所包含的文本生成模块对并结合场景文本数据对预设格式数据进行识别，从而得到总结文本数据。

在本申请上述实施例中，该方法还包括：获取多模态数据，其中，多模态数据中包含图表和文本；基于多模态数据，构建多个处理任务对应的训练数据，其中，训练数据包含训练预设格式数据，以及与训练预设格式数据匹配的训练场景文本数据、训练标题文本数据、训练总结文本数据和训练分析文本数据；基于多个处理任务对应的训练数据对初始处理模型进行联合训练，得到数据处理模型。

上述的多模态数据可以为论文数据。

上述的多个处理任务可以为场景文本数据生成任务、标题文本数据生成任务、总结文本数据生成任务，以及分析文本数据生成任务，等处理任务。

上述的初始处理模型可以为Paper Owl模型，其中，Paper Owl模型是一个基于深度学习的自然语言处理模型，用于生成和理解自然语言文本，它采用了最新的神经网络技术和大规模语料库进行训练，可以执行多种文本处理任务，如文本生成、语义理解、情感分析等。

在一种可选的实施例中，可以利用训练数据对初始处理模型进行训练，从而得到数据处理模型，可选的，在进行初始处理模型的训练之前，需要先构建训练数据，其中，训练数据可以包括训练预设格式数据，以及与训练预设格式数据匹配的训练场景文本数据、训练标题文本数据、训练总结文本数据和训练分析文本数据。

可选的，可以通过在相关的网站上进行搜索，从而得到相关的论文的地址，进一步的，可以根据论文地址获取到论文的原始文件，也即，得到多模态数据，可选的，由于多模态数据中的图表是通过文字代码的形式表现的，因此，可以对所获取到的多模态数据进行渲染，从而可以将图表渲染成图片，进一步的，可以采用相关技术中的解析方法对图片中的内容进行解析，从而得到训练预设格式数据，进一步的，可以进行图表与段落之间的对齐，从而确定出训练预设格式数据的对应内容在多模态数据中所处的位置，并根据训练预设格式数据的对应内容在论文中所处的位置确定出训练场景文本数据，可选的，可以将训练预设格式数据的对应内容在论文中所处的位置之前的一段文字确定为训练场景文本数据。

可选的，还可以直接通过相关的网站上下载多模态数据，其中，该多模态数据中包含预设格式数据，也即，训练预设格式数据，进一步的利用相关的人工智能聊天机器人通过从该多模态数据中提取出准确的训练场景文本数据、训练标题文本数据、训练总结文本数据和训练分析文本数据，并将训练预设格式数据、训练场景文本数据、训练标题文本数据、训练总结文本数据和训练分析文本数据确定为训练数据，从而可以利用训练数据对初始处理模型进行训练，得到数据处理模型。具体地，可以利用多个处理任务对应的训练数据对初始处理模型进行联合训练，在训练过程中，采用的损失函数可以是生成模型常用的损失函数，本申请对此不作具体限定，而且，可以基于损失函数对初始处理模型中的视觉抽象模块和文本生成模块中的适配器进行微调，提高数据处理模型的文本生成准确度。

可选的，在得到数据处理模型后，可以利用数据处理模型来进行应用，也即，利用数据处理模型进行数据生成，图4是根据本申请实施例的一种数据生成的示意图，如图4所示，数据处理模型可以用于确定任务内容，也即，确定总结文本数据、分析文本数据，以及标题文本数据，可选的，在确定总结文本数据、分析文本数据，以及标题文本数据之前，需要先进行论文查找，也即，从相关网站上获取论文的地址，并基于该地址下载原始论文，进一步的，可以基于原始文件进行解析，从而得到预设格式数据、标题文本数据、分析文本数据、场景文本数据、总结文本数据，可选的，解析过程可以包含图像解析与图像渲染、图表与段落对齐、以及对预设格式数据进行概括，可选的，通过解析可以先获取到预设格式数据，以及场景文本数据，进一步的，可以基于场景文本数据对预设格式数据进行识别，得到与预设格式数据匹配的总结文本数据，并过基于场景文本数据和总结文本数据对预设格式数据进行数据分析，得到与预设格式数据匹配的分析文本数据，再利用数据处理模型基于场景文本数据对预设格式数据进行识别，得到与预设格式数据匹配的标题文本数据。

在本申请上述实施例中，在基于多个处理任务对应的训练数据对初始处理模型进行联合训练，得到数据处理模型之后，该方法还包括：基于多模态数据，构建多个处理任务对应的评测数据，其中，评测数据包含评测预设格式数据，以及与评测预设格式数据匹配的评测场景文本数据、评测标题文本数据、评测总结文本数据和评测分析文本数据；基于多个处理任务对应的评测数据对数据处理模型进行评测，得到多个处理任务对应的总评测指标，其中，总评测指标用于表征数据处理模型在对应的处理任务中的模型性能。

上述的评测数据可以用于对训练好的数据处理模型进行评测的数据，可选的，可以在获取到多模态数据后，基于多模态数据构建评测数据。

在一种可选的实施例中，在获取到多模态数据后，可以对多模态数据进行解析，得到相应的评测数据，可选的，由于评测数据包含评测预设格式数据，以及与评测预设格式数据匹配的评测场景文本数据、评测标题文本数据、评测总结文本数据和评测分析文本数据，因此，可以基于评测数据将训练预设格式数据与多模态数据进行匹配，从而可以在多模态数据中确定出与预设格式数据相关的内容所在的段落，也即，训练分析文本数据，并将与预设格式数据相关的内容所在的段落之前的段落确定为训练场景文本数据，进一步的，可以通过相关的人工智能聊天机器人对训练分析文本数据进行总结概括，得到训练总结文本数据，从而可以基于多个处理任务对应的评测数据对数据处理模型进行评测，得到多个处理任务对应的总评测指标。

可选的，假设已经得到评测预设格式数据和评测标题文本数据，以及评测总结文本数据后，则可以通过相关的人工智能聊天机器人基于评测预设格式数据、评测场景文本数据和评测标题文本数据，生成与评测预设格式数据匹配的评测标题文本数据。

可选的，假设已经得到评测预设格式数据、评测场景文本数据和评测总结文本数据，则可以通过相关的人工智能聊天机器人基于评测预设格式数据、评测场景文本数据和评测总结文本数据，确定与评测预设格式数据匹配的总结文本数据。

可选的，假设已经得到了评测预设格式数据、评测场景文本数据、评测分析文本数据和评测总结文本数据，则可以通过相关的人工智能聊天机器人，基于评测预设格式数据、评测场景文本数据、评测分析文本数据和评测总结文本数据，生成与评测预设格式数据匹配的分析文本数据。

在本申请上述实施例中，将评测预设格式数据和评测场景文本数据输入至数据处理模型，得到与评测预设格式数据匹配的生成标题文本数据；将评测预设格式数据和评测场景文本数据输入至数据处理模型，得到与评测预设格式数据匹配的生成总结文本数据；将评测预设格式数据、评测场景文本数据和评测总结文本数据输入至数据处理模型，得到与评测预设格式数据匹配的生成分析文本数据；基于生成标题文本数据、评测标题文本数据、生成总结文本数据、评测总结文本数据、生成分析文本数据和评测分析文本数据，构建多个处理任务对应的总评测指标。

在一种可选的实施例中，在对初始处理模型进行联合训练，得到数据处理模型之后，可以将测评预设格式数据和测评场景文本数据输入至数据处理模型，通过数据处理模型对测评预设格式数据和测评场景文本数据进行计算，得到与测评预设格式数据匹配的生成标题文本数据。

可选的，还可以将测评预设格式数据和测评场景文本数据输入至数据处理模型，通过数据处理模型对测评预设格式数据和测评场景文本数据进行计算，得到与测评预设格式数据匹配的生成总结文本数据。

可选的，还可以将测评预设格式数据、测评场景文本数据和测评总结文本数据输入至数据处理模型，通过数据处理模型对测评预设格式数据、测评场景文本数据和测评总结文本数据进行计算，得到与测评预设格式数据匹配的生成分析文本数据。

进一步的，在得到生成标题文本数据、测评标题文本数据、生成总结文本数据、测评总结文本数据、生成分析文本数据和测评分析文本数据后，可以通过将生成标题文本数据与测评标题文本数据进行对比，得到对比结果，并将生成总结文本数据与测评总结文本数据进行对比，得到对比结果，同时将生成分析文本数据和测评分析文本数据进行对比，得到对比结果，可选的，可以利用对应的对比结果确定出生成标题文本数据与测评标题文本数据之间的差异值，并确定出生成总结文本数据与测评总结文本数据之间的差异值，同时确定出生成分析文本数据和测评分析文本数据之间的差异值，并通过相乘的方式生成任务的指标CIDEr，也即，构建多个处理任务对应的总评测指标，通过总评测指标，可以反映数据处理模型的模型性能，为后续数据处理模型的迭代更新提供准确依据。

在本申请上述实施例中，基于生成标题文本数据、测评标题文本数据、生成总结文本数据、测评总结文本数据、生成分析文本数据和测评分析文本数据，构建多个处理任务对应的总评测指标，包括：基于生成标题文本数据和测评标题文本数据之间的一致性，构建第一处理任务对应的第一评测指标，基于生成总结文本数据和测评总结文本数据之间的一致性，构建第二处理任务对应的第一评测指标，并基于生成分析文本数据和测评分析文本数据之间的一致性，构建第三处理任务对应的第一评测指标；分别对生成标题文本数据、测评标题文本数据、生成总结文本数据、测评总结文本数据、生成分析文本数据和测评分析文本数据进行要点提取，得到生成标题要点、测评标题要点、生成总结要点、测评总结要点、生成分析要点和测评分析要点；基于生成标题要点和测评标题要点之间的一致性，构建第一处理任务对应的第二评测指标，基于生成总结要点和测评总结要点之间的一致性，构建第二处理任务对应的第二评测指标，基于生成分析要点和测评分析要点之间的一致性，构建第三处理任务对应的第二评测指标；获取第一处理任务对应的第一评测指标与第一处理任务对应的第二评测指标的乘积，得到第一处理任务对应的总评测指标，获取第二处理任务对应的第一评测指标与第二处理任务对应的第二评测指标的乘积，得到第二处理任务对应的总评测指标，获取第三处理任务对应的第一评测指标与第三处理任务对应的第二评测指标的乘积，得到第三处理任务对应的总评测指标。

上述的第二评测指标可以为一种考虑准确率和召回率对预测结果进行评测的指标。

在一种可选的实施例中，可以基于生成标题文本数据和测评标题文本数据之间的一致性，构建第一处理任务对应的第一评测指标，基于生成总结文本数据和测评总结文本数据之间的一致性，构建第二处理任务对应的第一评测指标，并基于生成分析文本数据和测评分析文本数据之间的一致性，构建第三处理任务对应的第一评测指标，也即，基于生成标题文本数据和测评标题文本数据之间的差值，构建第一处理任务对应的第一评测指标，基于生成总结文本数据和测评总结文本数据之间的差值，构建第二处理任务对应的第一评测指标，并基于生成分析文本数据和测评分析文本数据之间的差值，构建第三处理任务对应的第一评测指标。

进一步的，可以分别对生成标题文本数据、测评标题文本数据、生成总结文本数据、测评总结文本数据、生成分析文本数据和测评分析文本数据进行要点提取，得到生成标题要点、测评标题要点、生成总结要点、测评总结要点、生成分析要点和测评分析要点，并确定生成标题要点与测评标题要点之间的差异值，构建第一处理任务对应的第二评测指标，基于生成总结要点和测评总结要点之间的差异值，构建第二处理任务对应的第二评测指标，基于生成分析要点和测评分析要点的差异值，构建第三处理任务对应的第二评测指标。

可选的，由于第二评测指标仅能够在宏观层面评估了语义的准确性，并不能细粒度地评估描述的语言质量，因此，可以通过相乘的方式结合了传统描述生成任务的指标CIDEr和F1-gpt，得到最终指标，也即，获取第一处理任务对应的第一评测指标与第一处理任务对应的第二评测指标的乘积，得到第一处理任务对应的总评测指标，获取第二处理任务对应的第一评测指标与第二处理任务对应的第二评测指标的乘积，得到第二处理任务对应的总评测指标，获取第三处理任务对应的第一评测指标与第三处理任务对应的第二评测指标的乘积，得到第三处理任务对应的总评测指标。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例2

根据本申请实施例，还提供了一种多模态数据处理方法。图5是根据本申请实施例2的多模态数据处理方法的流程图，如图5所示，该方法包括如下步骤：

步骤S502：获取图表数据，以及与图表数据匹配的场景文本数据，其中，场景文本数据用于表征对图表数据的使用场景进行描述的文本数据。

步骤S504：基于场景文本数据对图表数据进行识别，得到与图表数据匹配的总结文本数据，其中，总结文本数据用于表征对图表数据进行概括总结的文本数据。

步骤S506：基于场景文本数据和总结文本数据对图表数据进行数据分析，得到与图表数据的分析文本数据，其中，分析文本数据用于表征对图表数据进行解释说明的文本数据。

在一种可选的实施例中，可以由用户在客户端52上的操作界面上通过任意一种形式在数据输入框中给出图表数据，以及与该图表数据相匹配的场景文本数据，进一步的，可以将获取图表数据，以及与图表数据匹配的场景文本数据发送至服务器51，从而可以基于场景文本数据对图表数据进行识别，得到与图表数据匹配的总结文本数据，进一步的，可以基于场景文本数据和总结文本数据对图表数据进行数据分析，得到与图表数据的分析文本数据。

实施例3

根据本申请实施例，还提供了一种多模态数据处理方法。图6是根据本申请实施例3的多模态数据处理方法的流程图，如图6所示，该方法包括如下步骤：

步骤S602：通过调用第一接口获取图表数据，以及与图表数据匹配的前文文本数据，其中，第一接口包括第一参数，第一参数的参数值包括图表数据和前文文本数据，前文文本数据用于表征对图表数据的来源进行描述的文本数据。

上述的第一接口可以为串行总线接口(Universal Serial Bus简称USB接口)，或虚拟网络接口，等其他接口，可选的，本申请中对第一接口的类型不做具体限制。

步骤S604：基于前文文本数据对图表数据进行识别，得到与图表数据匹配的概要文本数据，其中，概要文本数据用于表征对图表数据进行总结描述的文本数据。

步骤S606：基于前文文本数据和概要文本数据对图表数据进行数据分析，得到与图表数据匹配的分析文本数据，其中，分析文本数据用于表征对图表数据进行解释说明的文本数据。

步骤S608：通过调用第二接口输出分析文本数据，其中，第二接口包括第二参数，第二参数的参数值为分析文本数据。

上述的第二接口可以为USB接口，或虚拟网络接口，等其他接口，可选的，本申请中对第二接口的类型不做具体限制。

在一种可选的实施例中，用户可以通过部署在客户端62上的图像用户界面上第一接口输入图表数据，以及与图表数据匹配的前文文本数据，客户端62在接收到图表数据，以及与图表数据匹配的前文文本数据后，可以将图表数据，以及与图表数据匹配的前文文本数据后发送至服务端61，服务端61可以基于前文文本数据对图表数据进行识别，得到与图表数据匹配的概要文本数据，并基于前文文本数据对图表数据进行识别，得到与图表数据匹配的概要文本数据，基于前文文本数据和概要文本数据对图表数据进行数据分析，得到与图表数据匹配的分析文本数据，进一步的，将分析文本数据发送至客户端62上的图形用户界面，并通过图形用户界面上的第二接口输出分析文本数据。

实施例4

根据本申请实施例，还提供了一种用于实施上述多模态数据处理的装置，图7是根据本申请实施例4的多模态数据处理装置的示意图，如图7所示，该装置包括：获取模块702、识别模块704、分析模块706。

其中，获取模块702，用于获取预设格式数据，以及与预设格式数据匹配的场景文本数据，其中，场景文本数据用于表征对预设格式数据的使用场景进行描述的文本数据；识别模块704，用于基于场景文本数据对预设格式数据进行识别，得到与预设格式数据匹配的总结文本数据，其中，总结文本数据用于表征对预设格式数据进行概括总结的文本数据；分析模块706，用于基于场景文本数据和总结文本数据对预设格式数据进行数据分析，得到与预设格式数据的分析文本数据，其中，分析文本数据用于表征对预设格式数据进行解释说明的文本数据。

在本申请上述实施例中，识别模块704，包括：第一识别单元，用于利用数据处理模型基于场景文本数据对预设格式数据进行识别，得到总结文本数据。

在本申请上述实施例中，分析模块706，包括：第一分析单元，用于利用数据处理模型基于场景文本数据和总结文本数据对预设格式数据进行数据分析，得到分析文本数据。

在本申请上述实施例中，该装置还包括：第二识别模块，用于利用数据处理模型基于场景文本数据对预设格式数据进行识别，得到与预设格式数据匹配的标题文本数据。

在本申请上述实施例中，第一识别单元，包括：切分子单元，用于利用切分模块对预设格式数据进行切分，得到多个图像块；编码子单元，用于利用视觉编码模块对多个图像块进行编码，得到多个图像块的图像特征；提取子单元，用于利用视觉抽象模块对多个图像块的图像特征进行提取，得到预设格式数据对应的文本特征；第一识别子单元，用于利用文本生成模块基于场景文本数据和文本特征对预设格式数据进行识别，得到总结文本数据。

在本申请上述实施例中，第一识别单元，还包括：第二识别子单元，用于利用文本生成模块基于场景文本数据对预设格式数据进行识别，得到总结文本数据。

在本申请上述实施例中，该装置还包括：第二获取模块，用于获取多模态数据，其中，多模态数据中包含图表和文本；第一构建模块，用于基于多模态数据，构建多个处理任务对应的训练数据，其中，训练数据包含训练预设格式数据，以及与训练预设格式数据匹配的训练场景文本数据、训练标题文本数据、训练总结文本数据和训练分析文本数据；训练模块，用于基于多个处理任务对应的训练数据对初始处理模型进行联合训练，得到数据处理模型。

在本申请上述实施例中，该装置还包括：第二构建模块，用于基于多模态数据，构建多个处理任务对应的评测数据，其中，评测数据包含评测预设格式数据，以及与评测预设格式数据匹配的评测场景文本数据、评测标题文本数据、评测总结文本数据和评测分析文本数据；评测模块，用于基于多个处理任务对应的评测数据对数据处理模型进行评测，得到多个处理任务对应的总评测指标，其中，总评测指标用于表征数据处理模型在对应的处理任务中的模型性能。

在本申请上述实施例中，第二构建模块还包括：第一获取单元，用于获取评测数据，其中，评测数据包含评测预设格式数据，以及与评测预设格式数据匹配的评测场景文本数据、评测标题文本数据、评测总结文本数据和评测分析文本数据；生成模块，用于将评测预设格式数据和评测场景文本数据输入至数据处理模型，得到与评测预设格式数据匹配的生成标题文本数据；输入单元，用于将评测预设格式数据和评测场景文本数据输入至数据处理模型，得到与评测预设格式数据匹配的生成总结文本数据；第二输入单元，用于将评测预设格式数据、评测场景文本数据和评测总结文本数据输入至数据处理模型，得到与评测预设格式数据匹配的生成分析文本数据；构建单元，用于基于生成标题文本数据、评测标题文本数据、生成总结文本数据、评测总结文本数据、生成分析文本数据和评测分析文本数据，构建多个处理任务对应的总评测指标，其中，总评测指标用于表征数据处理模型的模型性能。

在本申请上述实施例中，第三构建模块，包括：第一构建单元，用于基于生成标题文本数据和训练标题文本数据之间的一致性，构建第一处理任务对应的第一评测指标，基于生成总结文本数据和训练总结文本数据之间的一致性，构建第二处理任务对应的第一评测指标，并基于生成分析文本数据和训练分析文本数据之间的一致性，构建第三处理任务对应的第一评测指标；生成单元，用于分别对生成标题文本数据、训练标题文本数据、生成总结文本数据、训练总结文本数据、生成分析文本数据和训练分析文本数据进行要点提取，得到生成标题要点、训练标题要点、生成概要要点、训练概要要点、生成分析要点和训练分析要点；第二构建单元，用于基于生成标题要点和训练标题要点之间的一致性，构建第一处理任务对应的第二评测指标，基于生成概要要点和训练概要要点之间的一致性，构建第二处理任务对应的第二评测指标，基于生成分析要点和训练分析要点之间的一致性，构建第三处理任务对应的第二评测指标；第二获取单元，用于获取第一处理任务对应的第一评测指标与第一处理任务对应的第二评测指标的乘积，得到第一处理任务对应的总评测指标，获取第二处理任务对应的第一评测指标与第二处理任务对应的第二评测指标的乘积，得到第二处理任务对应的总评测指标，获取第三处理任务对应的第一评测指标与第三处理任务对应的第二评测指标的乘积，得到第三处理任务对应的总评测指标。

此处需要说明的是，上述获取模块702、识别模块704、分析模块706对应于实施例1中的步骤S202至步骤S206，模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件，上述模块也可以作为装置的一部分可以运行在实施例1提供的服务器10中。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例5

根据本申请实施例，还提供了一种用于实施上述多模态数据处理的装置，图8是根据本申请实施例5的多模态数据处理装置的示意图，如图8所示，该装置包括：获取模块802、识别模块804、分析模块806。

其中，获取模块802，用于获取图表数据，以及与图表数据匹配的场景文本数据，其中，场景文本数据用于表征对图表数据的使用场景进行描述的文本数据；识别模块804，用于基于场景文本数据对图表数据进行识别，得到与图表数据匹配的总结文本数据，其中，总结文本数据用于表征对图表数据进行概括总结的文本数据；分析模块806，用于基于场景文本数据和总结文本数据对图表数据进行数据分析，得到与图表数据的分析文本数据，其中，分析文本数据用于表征对图表数据进行解释说明的文本数据。

此处需要说明的是，上述的获取模块802、识别模块804、分析模块806对应于实施例2中的步骤S502至步骤S506，模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件，上述模块也可以作为装置的一部分可以运行在实施例1提供的服务器10中。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例2提供的方案以及应用场景、实施过程相同，但不仅限于实施例2所提供的方案。

实施例6

根据本申请实施例，还提供了一种用于实施上述多模态数据处理的装置，图9是根据本申请实施例6的多模态数据处理装置的示意图，如图9所示，该装置包括：获取模块902、识别模块904、分析模块906、输出模块908。

其中，获取模块902，用于通过调用第一接口获取图表数据，以及与图表数据匹配的前文文本数据，其中，第一接口包括第一参数，第一参数的参数值包括图表数据和前文文本数据，前文文本数据用于表征对图表数据的来源进行描述的文本数据；识别模块904，用于基于前文文本数据对图表数据进行识别，得到与图表数据匹配的概要文本数据，其中，概要文本数据用于表征对图表数据进行总结描述的文本数据；分析模块906，用于基于前文文本数据和概要文本数据对图表数据进行数据分析，得到与图表数据匹配的分析文本数据，其中，分析文本数据用于表征对图表数据进行解释说明的文本数据；输出模块908，用于通过调用第二接口输出分析文本数据，其中，第二接口包括第二参数，第二参数的参数值为分析文本数据。

此处需要说明的是，上述获取模块902、识别模块904、分析模块906、输出模块908对应于实施例3中的步骤S602至步骤S608，模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件，上述模块也可以作为装置的一部分可以运行在实施例1提供的服务器10中。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例3提供的方案以及应用场景、实施过程相同，但不仅限于实施例3所提供的方案。

实施例7

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行多模态数据处理方法中以下步骤的程序代码：获取预设格式数据，以及与预设格式数据匹配的场景文本数据，其中，场景文本数据用于表征对预设格式数据的使用场景进行描述的文本数据；基于场景文本数据对预设格式数据进行识别，得到与预设格式数据匹配的总结文本数据，其中，总结文本数据用于表征对预设格式数据进行概括总结的文本数据；基于场景文本数据和总结文本数据对预设格式数据进行数据分析，得到与预设格式数据的分析文本数据，其中，分析文本数据用于表征对预设格式数据进行解释说明的文本数据。

可选地，图10是根据本申请实施例的一种计算机终端的结构框图。如图10所示，该计算机终端A可以包括：一个或多个(图中仅示出一个)处理器1002、存储器1004、存储控制器、以及外设接口，其中，外设接口与射频模块、音频模块和显示器连接。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的多模态数据处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的多模态数据处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取图表数据，以及与图表数据匹配的前文文本数据，其中，前文文本数据用于表征对图表数据的来源进行描述的文本数据；基于前文文本数据对图表数据进行识别，得到与图表数据匹配的概要文本数据，其中，概要文本数据用于表征对图表数据进行总结描述的文本数据；基于前文文本数据和概要文本数据对图表数据进行数据分析，得到与图表数据匹配的分析文本数据，其中，分析文本数据用于表征对图表数据进行解释说明的文本数据。

可选的，上述处理器还可以执行如下步骤的程序代码：利用数据处理模型基于场景文本数据对预设格式数据进行识别，得到总结文本数据。

可选的，上述处理器还可以执行如下步骤的程序代码：利用数据处理模型基于场景文本数据和总结文本数据对预设格式数据进行数据分析，得到分析文本数据。

可选的，上述处理器还可以执行如下步骤的程序代码：利用数据处理模型基于场景文本数据对预设格式数据进行识别，得到与预设格式数据匹配的标题文本数据。

可选的，上述处理器还可以执行如下步骤的程序代码：利用切分模块对预设格式数据进行切分，得到多个图像块；利用视觉编码模块对多个图像块进行编码，得到多个图像块的图像特征；利用视觉抽象模块对多个图像块的图像特征进行提取，得到预设格式数据对应的文本特征；利用文本生成模块基于场景文本数据和文本特征对预设格式数据进行识别，得到总结文本数据。

可选的，上述处理器还可以执行如下步骤的程序代码：利用文本生成模块基于场景文本数据对预设格式数据进行识别，得到总结文本数据。

可选的，上述处理器还可以执行如下步骤的程序代码：获取多模态数据，其中，多模态数据中包含图表和文本；基于多模态数据，构建多个处理任务对应的训练数据，其中，训练数据包含训练预设格式数据，以及与训练预设格式数据匹配的训练场景文本数据、训练标题文本数据、训练总结文本数据和训练分析文本数据；基于多个处理任务对应的训练数据对初始处理模型进行联合训练，得到数据处理模型。

可选的，上述处理器还可以执行如下步骤的程序代码：基于多模态数据，构建多个处理任务对应的评测数据，其中，评测数据包含评测预设格式数据，以及与评测预设格式数据匹配的评测场景文本数据、评测标题文本数据、评测总结文本数据和评测分析文本数据；基于多个处理任务对应的评测数据对数据处理模型进行评测，得到多个处理任务对应的总评测指标，其中，总评测指标用于表征数据处理模型在对应的处理任务中的模型性能。

可选的，上述处理器还可以执行如下步骤的程序代码：获取评测数据，其中，评测数据包含评测预设格式数据，以及与评测预设格式数据匹配的评测场景文本数据、评测标题文本数据、评测总结文本数据和评测分析文本数据；将评测预设格式数据和评测场景文本数据输入至数据处理模型，得到与评测预设格式数据匹配的生成标题文本数据；将评测预设格式数据和评测场景文本数据输入至数据处理模型，得到与评测预设格式数据匹配的生成总结文本数据；将评测预设格式数据、评测场景文本数据和评测总结文本数据输入至数据处理模型，得到与评测预设格式数据匹配的生成分析文本数据；基于生成标题文本数据、评测标题文本数据、生成总结文本数据、评测总结文本数据、生成分析文本数据和评测分析文本数据，构建多个处理任务对应的总评测指标，其中，总评测指标用于表征数据处理模型的模型性能。

可选的，上述处理器还可以执行如下步骤的程序代码：基于生成标题文本数据和测评标题文本数据之间的一致性，构建第一处理任务对应的第一评测指标，基于生成总结文本数据和测评总结文本数据之间的一致性，构建第二处理任务对应的第一评测指标，并基于生成分析文本数据和测评分析文本数据之间的一致性，构建第三处理任务对应的第一评测指标；分别对生成标题文本数据、测评标题文本数据、生成总结文本数据、测评总结文本数据、生成分析文本数据和测评分析文本数据进行要点提取，得到生成标题要点、测评标题要点、生成总结要点、测评总结要点、生成分析要点和测评分析要点；基于生成标题要点和测评标题要点之间的一致性，构建第一处理任务对应的第二评测指标，基于生成总结要点和测评总结要点之间的一致性，构建第二处理任务对应的第二评测指标，基于生成分析要点和测评分析要点之间的一致性，构建第三处理任务对应的第二评测指标；获取第一处理任务对应的第一评测指标与第一处理任务对应的第二评测指标的乘积，得到第一处理任务对应的总评测指标，获取第二处理任务对应的第一评测指标与第二处理任务对应的第二评测指标的乘积，得到第二处理任务对应的总评测指标，获取第三处理任务对应的第一评测指标与第三处理任务对应的第二评测指标的乘积，得到第三处理任务对应的总评测指标。

本领域普通技术人员可以理解，图所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternetDevices，MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如，计算机终端A还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图10所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例8

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的多模态数据处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取图表数据，以及与图表数据匹配的前文文本数据，其中，前文文本数据用于表征对图表数据的来源进行描述的文本数据；基于前文文本数据对图表数据进行识别，得到与图表数据匹配的概要文本数据，其中，概要文本数据用于表征对图表数据进行总结描述的文本数据；基于前文文本数据和概要文本数据对图表数据进行数据分析，得到与图表数据匹配的分析文本数据，其中，分析文本数据用于表征对图表数据进行解释说明的文本数据。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种多模态数据处理方法，其特征在于，包括：

获取预设格式数据，以及与所述预设格式数据匹配的场景文本数据，其中，所述场景文本数据用于表征对所述预设格式数据的使用场景进行描述的文本数据；

基于所述场景文本数据对所述预设格式数据进行识别，得到与所述预设格式数据匹配的总结文本数据，其中，所述总结文本数据用于表征对所述预设格式数据进行概括总结的文本数据；

基于所述场景文本数据和所述总结文本数据对所述预设格式数据进行数据分析，得到与所述预设格式数据的分析文本数据，其中，所述分析文本数据用于表征对所述预设格式数据进行解释说明的文本数据。

2.根据权利要求1所述的方法，其特征在于，基于所述场景文本数据对所述预设格式数据进行识别，得到与所述预设格式数据匹配的总结文本数据，包括：

利用数据处理模型基于所述场景文本数据对所述预设格式数据进行识别，得到所述总结文本数据。

3.根据权利要求2所述的方法，其特征在于，基于所述场景文本数据和所述总结文本数据对所述预设格式数据进行数据分析，得到与所述预设格式数据匹配的分析文本数据，包括：

利用所述数据处理模型基于所述场景文本数据和所述总结文本数据对所述预设格式数据进行数据分析，得到所述分析文本数据。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

利用所述数据处理模型基于所述场景文本数据对所述预设格式数据进行识别，得到与所述预设格式数据匹配的标题文本数据。

5.根据权利要求2所述的方法，其特征在于，在所述预设格式数据包括图像格式的数据情况下，所述数据处理模型包括切分模块、视觉编码模块、视觉抽象模块和文本生成模块；在所述预设格式数据包括文本格式的数据的情况下，所述数据处理模型包括：文本生成模块。

6.根据权利要求5所述的方法，其特征在于，在所述预设格式数据包括图像格式的数据的情况下，利用数据处理模型基于所述场景文本数据对所述预设格式数据进行识别，得到所述总结文本数据，包括：

利用所述切分模块对所述预设格式数据进行切分，得到多个图像块；

利用所述视觉编码模块对所述多个图像块进行编码，得到所述多个图像块的图像特征；

利用所述视觉抽象模块对所述多个图像块的图像特征进行提取，得到所述预设格式数据对应的文本特征；

利用所述文本生成模块基于所述场景文本数据和所述文本特征对所述预设格式数据进行识别，得到所述总结文本数据。

7.根据权利要求5所述的方法，其特征在于，在所述预设格式数据包括图像格式的数据的情况下，利用数据处理模型基于所述场景文本数据对所述预设格式数据进行识别，得到所述总结文本数据，包括：

利用所述文本生成模块基于所述场景文本数据对所述预设格式数据进行识别，得到所述总结文本数据。

8.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取多模态数据，其中，所述多模态数据中包含图表和文本；

基于所述多模态数据，构建多个处理任务对应的训练数据，其中，所述训练数据包含训练预设格式数据，以及与所述训练预设格式数据匹配的训练场景文本数据、训练标题文本数据、训练总结文本数据和训练分析文本数据；

基于所述多个处理任务对应的训练数据对初始处理模型进行联合训练，得到所述数据处理模型。

9.根据权利要求8所述的方法，其特征在于，在基于所述多个处理任务对应的训练数据对初始处理模型进行联合训练，得到所述数据处理模型之后，所述方法还包括：

基于所述多模态数据，构建所述多个处理任务对应的评测数据，其中，所述评测数据包含评测预设格式数据，以及与所述评测预设格式数据匹配的评测场景文本数据、评测标题文本数据、评测总结文本数据和评测分析文本数据；

基于所述多个处理任务对应的评测数据对所述数据处理模型进行评测，得到所述多个处理任务对应的总评测指标，其中，所述总评测指标用于表征所述数据处理模型在对应的处理任务中的模型性能。

10.根据权利要求9所述的方法，其特征在于，基于所述多个处理任务对应的评测数据对所述数据处理模型进行评测，得到所述多个处理任务对应的总评测指标，包括：

将所述评测预设格式数据和所述评测场景文本数据输入至所述数据处理模型，得到与所述评测预设格式数据匹配的生成标题文本数据；

将所述评测预设格式数据和所述评测场景文本数据输入至所述数据处理模型，得到与所述评测预设格式数据匹配的生成总结文本数据；

将所述评测预设格式数据、所述评测场景文本数据和所述评测总结文本数据输入至所述数据处理模型，得到与所述评测预设格式数据匹配的生成分析文本数据；

基于所述生成标题文本数据、所述评测标题文本数据、所述生成总结文本数据、所述评测总结文本数据、所述生成分析文本数据和所述评测分析文本数据，构建所述多个处理任务对应的总评测指标。

11.一种多模态数据处理方法，其特征在于，包括：

获取图表数据，以及与所述图表数据匹配的场景文本数据，其中，所述场景文本数据用于表征对所述图表数据的使用场景进行描述的文本数据；

基于所述场景文本数据对所述图表数据进行识别，得到与所述图表数据匹配的总结文本数据，其中，所述总结文本数据用于表征对所述图表数据进行概括总结的文本数据；

基于所述场景文本数据和所述总结文本数据对所述图表数据进行数据分析，得到与所述图表数据的分析文本数据，其中，所述分析文本数据用于表征对所述图表数据进行解释说明的文本数据。

12.一种多模态数据处理方法，其特征在于，包括：

通过调用第一接口获取图表数据，以及与所述图表数据匹配的前文文本数据，其中，所述第一接口包括第一参数，所述第一参数的参数值包括所述图表数据和所述前文文本数据，所述前文文本数据用于表征对所述图表数据的来源进行描述的文本数据；

基于所述前文文本数据对所述图表数据进行识别，得到与所述图表数据匹配的概要文本数据，其中，所述概要文本数据用于表征对所述图表数据进行总结描述的文本数据；

基于所述前文文本数据和所述概要文本数据对所述图表数据进行数据分析，得到与所述图表数据匹配的分析文本数据，其中，所述分析文本数据用于表征对所述图表数据进行解释说明的文本数据；

通过调用第二接口输出所述分析文本数据，其中，所述第二接口包括第二参数，所述第二参数的参数值为所述分析文本数据。

13.一种电子设备，其特征在于，包括：

存储器，存储有可执行程序；

处理器，用于运行所述程序，其中，所述程序运行时执行权利要求1至12中任意一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的可执行程序，其中，在所述可执行程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至12中任意一项所述的方法。