CN117216242A

CN117216242A - 摘要生成模型的训练方法、装置、设备、介质及程序产品

Info

Publication number: CN117216242A
Application number: CN202310289380.4A
Authority: CN
Inventors: 刘烨
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-12-12

Abstract

本申请公开了一种摘要生成模型的训练方法、装置、设备、介质及程序产品，涉及人工智能技术领域。该方法包括：基于第一特征表示与第二特征表示之间的正差异，和第一特征表示与第三特征表示之间的负差异确定第一损失；通过候选摘要生成模型对第一特征表示进行摘要预测，生成多媒体数据对应的预测摘要，并基于参考摘要与预测摘要之间的差异，确定第二损失；结合第一损失和第二损失对候选摘要生成模型进行训练，得到摘要生成模型。在对摘要生成模型的训练过程中，引入第一损失，使得模型能够学习到一个鲁棒性较佳的语义表达空间，当输入摘要生成模型的文本是一个质量较差的文本，摘要生成模型也能对该文本进行较为准确的摘要预测。

Description

摘要生成模型的训练方法、装置、设备、介质及程序产品

技术领域

本申请实施例涉及人工智能技术领域，特别涉及一种摘要生成模型的训练方法、装置、设备、介质及程序产品。

背景技术

文本摘要生成是自然语言处理领域中的一项基础任务，即给定一篇长文章作为原文，通过文本摘要模型生成一段覆盖原文关键信息的文本作为该长文章的摘要。目前，越来越多的将文本摘要模型应用到视频摘要领域，进而生成一个总结性的内容去概括原始视频发生的事件。

相关技术中，在生成视频摘要之前，需要先获取视频对应的原始文本，通常使用自动语音识别(Automatic Speech Recognition，ASR)技术将视频中的语音翻译成文本，该文本即为视频对应的原始文本，然后将该原始文本输入文本摘要模型中，生成视频摘要。

然而，通过ASR技术生成的视频原始文本通常包含很多噪声，例如：“恢复”容易识别为“回复”，该原始文本会影响文本摘要模型的性能，导致文本摘要模型预测得到的摘要的质量较低。

发明内容

本申请实施例提供了一种摘要生成模型的训练方法、装置、设备、介质及程序产品，解决了在输入数据噪音过多的情况下，摘要生成模型的预测准确率低的问题，所述技术方案如下：

一方面，提供了一种摘要生成模型的训练方法，所述方法包括：

获取样本数据集，所述样本数据集中包括第一样本文本、正样本文本以及负样本文本，所述第一样本文本用于指示多媒体数据对应的多媒体内容，所述第一样本文本标注有所述多媒体数据对应的参考摘要，所述第一样本文本与所述正样本文本之间符合相似度要求；

通过候选摘要生成模型提取所述第一样本文本对应的第一特征表示、所述正样本文本对应的第二特征表示以及所述负样本文本对应的第三特征表示；

基于所述第一特征表示与所述第二特征表示之间的正差异，和所述第一特征表示与所述第三特征表示之间的负差异确定第一损失；

通过所述候选摘要生成模型对所述第一特征表示进行摘要预测，生成所述多媒体数据对应的预测摘要，并基于所述参考摘要与所述预测摘要之间的差异，确定第二损失；

结合所述第一损失和所述第二损失对所述候选摘要生成模型进行训练，得到摘要生成模型，所述摘要生成模型用于对目标多媒体数据进行摘要预测。

另一方面，提供了一种摘要生成模型的训练装置，所述装置包括：

数据获取模块，用于获取样本数据集，所述样本数据集中包括第一样本文本、正样本文本以及负样本文本，所述第一样本文本用于指示多媒体数据对应的多媒体内容，所述第一样本文本标注有所述多媒体数据对应的参考摘要，所述第一样本文本与所述正样本文本之间符合相似度要求；

特征提取模块，用于通过候选摘要生成模型提取所述第一样本文本对应的第一特征表示、所述正样本文本对应的第二特征表示以及所述负样本文本对应的第三特征表示；

损失确定模块，用于基于所述第一特征表示与所述第二特征表示之间的正差异，和所述第一特征表示与所述第三特征表示之间的负差异确定第一损失；

所述损失确定模块，还用于通过所述候选摘要生成模型对所述第一特征表示进行摘要预测，生成所述多媒体数据对应的预测摘要，并基于所述参考摘要与所述预测摘要之间的差异，确定第二损失；

模型训练模块，用于结合所述第一损失和所述第二损失对所述候选摘要生成模型进行训练，得到摘要生成模型，所述摘要生成模型用于对目标多媒体数据进行摘要预测。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述实施例中任一所述摘要生成模型的训练方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述实施例中任一所述的摘要生成模型的训练方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的摘要生成模型的训练方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过候选摘要生成模型提取样本数据集中第一样本文本、正样本文本和负样本文本分别对应的特征表示，基于第一特征表示与第二特征表示之间的正差异，和第一特征表示与第三特征表示之间的负差异确定第一损失；然后，通过候选摘要生成模型对第一特征表示进行摘要预测，得到预测摘要，并基于参考摘要与预测摘要之间的差异，确定第二损失；最后，联合第一损失和第二损失对候选摘要生成模型进行训练，得到摘要生成模型。在对摘要生成模型的训练过程中，引入第一损失，使得模型能够学习到一个鲁棒性较佳的语义表达空间，当输入摘要生成模型的文本是一个质量较差的文本，摘要生成模型也能对该文本进行较为准确的摘要预测，也即，本申请实施例提供的模型训练方法提高了训练得到的摘要生成模型的容错能力，解决了在输入数据噪音过多的情况下，摘要生成模型的预测准确率低的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的实施环境示意图；

图2是本申请一个示例性实施例提供的摘要生成模型的训练方法的流程图；

图3是本申请另一个示例性实施例提供的摘要生成模型的训练方法的流程图；

图4是本申请一个示例性实施例提供的摘要生成模型的模型结构示意图；

图5是本申请又一个示例性实施例提供的摘要生成模型的训练方法的流程图；

图6是本申请一个示例性实施例提供的摘要生成模型的训练装置的结构框图；

图7是本申请另一个示例性实施例提供的摘要生成模型的训练装置的结构框图；

图8是本申请一个示例性实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中术语“第一”、“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

首先，对本申请涉及的一些背景技术知识进行介绍说明。以下相关技术作为可选方案与本申请实施例的技术方案可以进行任意结合，其均属于本申请实施例的保护范围。本申请实施例包括以下内容中的至少部分内容。

人工智能(ArtificialIntelligence，简称AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括自然语言处理技术、机器学习/深度学习等几大方向。

自然语言处理(Nature Language Processing，简称NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，简称ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、虚拟现实(Virtual Reality，简称VR)、增强现实(Augmented Reality，简称AR)、游戏、虚拟人、数字人等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的机器学习及自然语言处理等技术，具体通过如下实施例进行说明。

其次，对本申请实施例中涉及的实施环境进行说明，示意性的，请参考图1，该实施环境中涉及终端110、服务器120，终端110和服务器120之间通过通信网络130连接，通信网络可以是有线网络，还可以是无线网络。

终端110能够是手机、平板电脑、台式电脑、便携式笔记本电脑、智能电视、车载终端、智能家居设备等多种形式的终端设备，本申请实施例对此不加以限定。可选地，终端110可以将样本数据集直接上传至服务器120中，也可以将原始样本数据库上传至服务器120中，由服务器120对该原始样本数据库进行处理，从而构建样本数据集，本实施例对此不加以限制。

可选地，终端110中安装具有摘要生成功能的应用程序，示意性的，该应用程序包括视频应用程序、音乐应用程序、即时通讯应用程序、新闻资讯应用程序、综合搜索引擎应用程序、社交应用程序、游戏应用程序、购物应用程序等，本申请实施例对此不加以限定。

服务器120用于对候选摘要生成模型进行训练。服务器120可以从终端110中获取样本数据集，或者，服务器120中本身存储有样本数据集。

服务器120中初始化有候选摘要生成模型，服务器120接收到样本数据集后，将该样本数据集输入到候选摘要生成模型中，首先，提取得到样本数据集中第一样本文本对应的第一特征表示、正样本文本对应的第二特征表示以及负样本文本对应的第三特征表示；然后，基于第一特征表示与第二特征表示之间的正差异，和第一特征表示与第三特征表示之间的负差异确定第一损失；并且，通过候选摘要生成模型对第一特征表示进行摘要预测，生成预测摘要，并基于参考摘要与预测摘要之间的差异，确定第二损失；最后，结合第一损失和第二损失对候选摘要生成模型进行训练，得到摘要生成模型。

可选地，服务器120训练得到摘要生成模型后，可为终端110的摘要生成功能提供后台服务；或者，服务器120训练得到摘要生成模型后，可以将该摘要生成模型发送至终端110，终端110将摘要生成模型存储在本地，则终端110可以单独实现上述摘要生成功能。

在一些可选的实施例中，上述摘要生成模型的训练过程还可以实现在终端110中，本申请实施例对此不加以限定。

值得注意的是，服务器120能够是独立的物理服务器，也能够是多个物理服务器构成的服务器集群或者分布式系统，还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模型应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。可选地，服务器120还可以实现为区块链系统中的节点。

需要进行说明的是，本申请在收集用户的相关数据(例如：第一样本文本、正样本文本和负样本文本等)之前以及在收集用户的相关数据的过程中，都可以显示提示界面、弹窗或输出语音提示信息，该提示界面、弹窗或语音提示信息用于提示用户当前正在搜集其相关数据，使得本申请仅仅在获取到用户对该提示界面或者弹窗发出的确认操作后，才开始执行获取用户相关数据的相关步骤，否则(即未获取到用户对该提示界面或者弹窗发出的确认操作时)，结束获取用户相关数据的相关步骤，即不获取用户的相关数据。换句话说，本申请所采集的所有用户数据都是在用户同意并授权的情况下进行采集的，且相关用户数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

结合上述介绍和实施环境，图2是本申请实施例提供的一种摘要生成模型的训练方法的流程图，该方法可以由服务器或者终端执行，也可以由服务器和终端共同执行，本申请实施例中，以该方法由服务器执行为例进行说明，如图2所示，该方法包括：

步骤201，获取样本数据集。

其中，样本数据集中包括第一样本文本、正样本文本以及负样本文本，第一样本文本用于指示多媒体数据对应的多媒体内容，第一样本文本标注有多媒体数据对应的参考摘要，第一样本文本与正样本文本之间符合相似度要求。

上述样本数据集为候选摘要生成模型的训练数据集，该候选摘要生成模型可实现为视频摘要生成模型或者音频摘要生成模型。

在一些实施例中，若候选摘要生成模型实现为视频摘要生成模型，则第一样本文本用于指示视频数据对应的视频内容。可选地，第一样本文本实现为视频数据中的多个音频帧指示的音频文本；或者，第一样本文本实现为视频数据中的多个图像帧指示的图像内容文本；或者，第一样本文本实现为上述音频文本和图像内容文本的融合文本。

在一些实施例中，若候选摘要生成模型实现为音频摘要生成模型，则第一样本文本用于指示音频数据对应的音频内容。可选地，第一样本文本实现为音频数据中的多个音频帧指示的音频文本。

上述第一样本文本为多媒体数据对应的正确的多媒体内容。示意性的，以多媒体数据实现为音频数据为例进行说明，若音频数据对应的语音为“该项技术属于自然语言处理领域”，那么第一样本文本即为“该项技术属于自然语言处理领域”，即第一样本文本是该语音对应的正确的语音文本。

可选地，从多媒体库中收集多媒体数据对应的文本内容作为第一样本文本。示意性的，从多媒体库中获取视频对应的视频字幕文本作为该视频对应的第一样本文本。

可选的，将多媒体数据输入到语音识别引擎中，识别得到候选文本；对该候选文本进行优化处理，得到优化后的候选文本作为第一样本文本。示意性的，通过语音转文字引擎对音频数据进行处理，识别得到候选音频文本，对该候选音频文本进行分析，修改其中可能包含的错别字、语法错误等，得到修改后的候选音频文本作为该音频数据对应的第一样本文本。

可选地，获取得到第一样本文本后，可确定第一样本文本对应的参考摘要。

上述参考摘要是指以简明的语句确切记述第一样本文本的重要内容的文本。可选地，参考摘要可以是针对第一生成文本人工标注的一段文本，一般地，参考摘要的文本长度远小于第一样本文本的文本长度。

可选地，获取得到第一样本文本后，还需要确定第一样本文本对应的正样本文本和负样本文本。

上述正样本文本与第一样本文本之间符合相似度要求，即正样本文本与第一样本文本表达的基本语义相同。

在一些实施例中，基于预设错误类型，构建第一样本文本对应的正样本文本。

其中，预设错误类型包括同音词错误、语气词错误等中的至少一种。可选地，单个正样本文本中的预测错误类型可以是一种，也可以是多种。

示意性的，假设第一样本文本为“他出生于二十世纪末”，可构建正样本文本为“他出身于二十世纪末”，其中，正样本文本中的“出身”为同音词错误。

可选地，第一样本文本对应的正样本文本的数量可以是一个，也可以是多个。

可选地，负样本文本是指除第一样本文本之外的其他多媒体数据对应的样本文本。示意性的，假设输入候选摘要生成模型的一批训练数据中包括样本文本1(对应多媒体数据1)、样本文本2(对应多媒体数据2)和样本文本3(对应多媒体数据3)，对于样本文本1来说，样本文本2和样本文本3即为样本文本1对应的负样本文本；则将样本文本1作为第一样本文本，样本文本1对应的同音词替换文本作为正样本文本，样本文本2和样本文本3作为负样本文本共同构成样本文本1对应的样本数据集。

可选地，第一样本文本对应的负样本文本的数量可以是一个，也可以是多个。

步骤202，通过候选摘要生成模型提取第一样本文本对应的第一特征表示、正样本文本对应的第二特征表示以及负样本文本对应的第三特征表示。

在一些实施例中，候选摘要生成模型中包括特征提取模块，该特征提取模块可实现为文本特征编码器，则通过文本特征编码器提取第一样本文本对应的第一特征表示、正样本文本对应的第二特征表示以及负样本文本对应的第三特征表示。

可选地，上述文本特征编码器主要是基于转换器(transformer)的结构，文本特征编码器包括基于Transformer的双向编码(Bidirectional Encoder Representation fromTransformers，BERT)模型、SpanBERT模型以及生成式预训练(Generative Pre-trainedTransformer 3，GPT-3)模型等中的至少一种，本申请实施例对此不加以限定。

示意性的，通过文本特征编码器将输入编码器的第一样本文本、负样本文本和正样本文本分别编码成第一向量表示、第二向量表示和第三向量表示，第一向量表示用于表征第一样本文本的语义，第二向量表示用于表征正样本文本的语义，第三向量表示用于标注负样本文本的语义。

步骤203，基于第一特征表示与第二特征表示之间的正差异，和第一特征表示与第三特征表示之间的负差异确定第一损失。

可选地，候选摘要生成模型中还包括容错模块，以最小化第一特征表示与第二特征表示之间的差异，最大化第一特征表示与第三特征表示之间的差异为目标，构建第一损失函数。

示意性的，将第一特征表示、第二特征表示和第三特征表示代入第一损失函数中，计算得到第一损失。

可选地，上述容错模块中还包括特征映射层，特征映射层用于对文本特征表示进行降维处理。则将第一特征表示、第二特征表示和第三特征表示输入特征映射层，输出得到第一特征表示对应的第一目标特征表示、第二特征表示对应的第二目标特征表示和第三特征表示对应的第三目标特征表示；计算第一特征表示与第二特征表示之间的第一距离，计算第一特征表示与第三特征表示之间的第二距离；基于第一距离对应的正值，第二距离对应的负值，确定第一损失。

可选地，上述特征表示之间的距离包括余弦距离、欧式距离、杰卡德距离、皮尔逊距离等中的至少一种，本申请实施例对此不加以限定。

步骤204，通过候选摘要生成模型对第一特征表示进行摘要预测，生成多媒体数据对应的预测摘要，并基于参考摘要与预测摘要之间的差异，确定第二损失。

可选地，候选摘要生成模型中还包括摘要预测模块，该摘要预测模块可实现为文本特征解码器。则将第一特征表示输入文本特征解码器中，输出得到多媒体数据对应的预测摘要。

可选地，得到多媒体数据对应的预测摘要的方法包括以下方法中的至少一种：

1、基于抽取式摘要生成的方法。

上述文本特征解码器可实现为基于注意力机制(Attention)的模型，第一特征表示中包括第一样本文本拆分得到的多个子文本分别对应的特征表示；将第一特征表示输入文本特征解码器中，计算得到第一特征表示中各个子文本分别对应的特征表示的概率值，该概率值用于表征子文本对于第一样本文本的重要度；将概率值大于预设阈值的子文本按照拆分顺序进行拼接，得到的拼接文本即为多媒体数据对应的预测摘要。

其中，子文本可以是对第一样本文本进行分句处理得到的分句，还可以是对第一样本文本进行分词处理得到的分词，本申请实施例对此不加以限定。

2、基于生成式摘要生成的方式。

第一特征表示对应有n个解码时刻，每个解码时刻从词典中选出一个词汇作为解码器的输出，n个解码时刻输出的n个词汇组成的文本即为多媒体数据对应的预测摘要；将第一特征表示输入文本特征解码器中，在第i个解码时刻，预测得到词典中各个词汇属于第i个解码时刻输出词汇的概率值，将其中概率值最大的词典词汇确定为第i个解码时刻的输出词汇；将n个解码时刻输出的n个词汇进行拼接，得到的拼接文本即为即为多媒体数据对应的预测摘要。其中，n为正整数，i为小于或者等于n的正整数。

可选地，以最小化预测摘要和参考摘要之间的差异为目标，构建第二损失函数。示意性的，第二损失函数可实现为交叉熵损失函数，将预测摘要和参考摘要分别对应的特征表示带入第二损失函数中，计算得到第二损失。

步骤205，结合第一损失和第二损失对候选摘要生成模型进行训练，得到摘要生成模型。

可选地，基于第一损失和第二损失对候选摘要生成模型中的模型参数进行调整；当候选摘要生成模型达到训练次数，或者，第一损失和第二损失对应的损失值之和小于或者等于预设损失值，停止对候选摘要生成模型进行训练，此时，得到的候选摘要生成模型即为训练好的摘要生成模型。

其中，摘要生成模型用于对目标多媒体数据进行摘要预测。

示意性的，将目标音频输入到语音转文本引擎中，输出得到目标音频对应的音频文本，将该音频文本输入到训练好的摘要生成模型中，即可得到目标音频的摘要数据。

综上所述，本申请实施例提供的摘要生成模型的训练方法通过候选摘要生成模型提取样本数据集中第一样本文本、正样本文本和负样本文本分别对应的特征表示，基于第一特征表示与第二特征表示之间的正差异，和第一特征表示与第三特征表示之间的负差异确定第一损失；然后，通过候选摘要生成模型对第一特征表示进行摘要预测，得到预测摘要，并基于参考摘要与预测摘要之间的差异，确定第二损失；最后，联合第一损失和第二损失对候选摘要生成模型进行训练，得到摘要生成模型。在对摘要生成模型的训练过程中，引入第一损失，使得模型能够学习到一个鲁棒性较佳的语义表达空间，当输入摘要生成模型的文本是一个质量较差的文本，摘要生成模型也能对该文本进行较为准确的摘要预测，也即，本申请实施例提供的模型训练方法提高了训练得到的摘要生成模型的容错能力，解决了在输入数据噪音过多的情况下，摘要生成模型的预测准确率低的问题。

在一些实施例中，可针对ASR识别过程中产生的错误类型，对第一样本文本进行文本增强处理，从而得到正样本文本。图3是本申请实施例提供的一种摘要生成模型的训练方法的流程图，该方法可以由服务器或者终端执行，也可以由服务器和终端共同执行，本申请实施例中，以该方法由服务器执行为例进行说明，如图3所示，该方法包括：

步骤301，获取第一样本文本和负样本文本。

其中，第一样本文本用于指示多媒体数据对应的多媒体内容，第一样本文本标注有多媒体数据对应的参考摘要。

在一些实施例中，若多媒体数据实现为视频数据，则第一样本文本可实现为视频数据中的多个音频帧指示的音频文本与视频数据中的多个图像帧指示的图像内容文本的融合文本。

可选地，以音频文本为主文本，图像内容文本为补充文本构建第一样本文本。

可选地，通过ASR识别得到目标视频的多个音频帧对应的m段音频文本，通过光学字符识别(Optical Character Recognition，OCR)得到目标视频的多个图像帧对应的m段图像内容文本，第j段音频文本与第j段图像内容文本对应的时间戳相同；在第j段图像内容文本不完全包含在第j段音频文本中的情况下，对第j段图像内容文本进行语义分析，将第j段图像内容文本中不包含在第j段音频文本的文本内容插入第j段音频文本中。其中，m为正整数，j为小于或者等于m的正整数。

示意性的，假设第j段音频帧对应的音频文本为“他出生于一个小山村”，第j段图像帧对应的图像内容文本为“南方的小山村”，则最终构建的样本文本可以是“他出生于一个南方的小山村”。

可选地，对进行插入处理后的m段音频文本进行分析，修改其中可能包含的错别字、语法错误等，得到修改后的m段音频文本作为该视频数据对应的第一样本文本。

可选地，负样本文本是指除第一样本文本之外的其他多媒体数据对应的样本文本。其中，其他多媒体数据对应的样本文本可以是其他多媒体数据对应的第一样本文本，还可以是其他多媒体数据对应的第一样本文本的正样本文本。

步骤302，基于预设错误类型，对第一样本文本进行文本增强处理，得到正样本文本，并构建样本数据集。

其中，预测错误类型是指对多媒体数据进行文本识别时产生的错误类型。

上述文本识别可实现为OCR识别或者ASR识别中的至少一种，示意性的，模拟ASR识别中产生的错误，对第一样本文本进行文本增强处理，得到正样本文本。

可选地，预设错误类型包括同义词错误、同音词错误、语气词错误、标点错误、语言错误等中的至少一种。示意性的，以ASR识别得到文本为“古建东老师，你好，今天呢，国家博物馆有序的，呃，回复对外开放了，Na Me”为例进行说明，其中，包含：

1、标点错误：“古建东老师，你好，”应为“古建东老师，你好。”；

2、语气词错误：“今天呢”中的语气词“呢”不应出现；

3、同音词(或者同义词)错误：“回复对外开放”应为“恢复对外开放”；

4、语言错误：“Na Me”是错误的英文表达。

可选地，预设错误类型是根据对多媒体数据进行文本识别产生的识别结果确定的错误类型。示意性的，在样本视频库中提取多个目标视频，通过ASR技术对其进行文本识别，得到多个目标视频分别对应的视频文本；对该视频文本进行分析，统计在各个错误类型下，多个视频文本对应的错误次数；在指定错误类型，多个视频文本对应的错误次数大于或者等于预设错误次数，则将该指定错误类型确定为预设错误类型。

可选地，基于预设错误类型，对第一样本文本进行文本增强处理的方法包括以下方法中的至少一种：

1、对第一样本文本进行词汇替换处理，得到正样本文本。

其中，词汇替换处理包括以下情况中的至少一种：

情况一：同音词替换。

可选地，对第一样本文本进行分词处理，得到第一样本文本对应的多个分词；将多个分词与预设同音词词库进行匹配，在多个分词中目标词汇与预设同音词词库中目标同音词匹配成功的情况下，在第一样本文本中将目标词汇替换为目标同音词；将替换后的第一样本文本作为正样本文本。

示意性的，第一样本文本为“它的成分中包含蛋白质、水、白砂糖。”，进行分词处理后，将其中的多个分词与预设同音词词库进行匹配，得到“成分”的同音词为“成份”，“包含”的同音词为“包涵”，则对上述第一样本文本进行替换处理，得到正样本文本“它的成份中包涵蛋白质、水、白砂糖。”。

可选地，预设同音词词库是根据对多媒体数据进行文本识别产生的识别结果总结得到的词库。示意性的，在样本库中提取多个目标视频，通过ASR技术对其进行文本识别，得到多个目标视频分别对应的视频文本；对该视频文本进行分析，统计其中产生的同音词错误，若相同的同音词错误出现的次数大于预设次数，则将该同音词错误对应的同音词对(例如：成分-成份)添加至预设同音词词库。

其中，样本库可根据需要进行训练的摘要生成模型的类型进行确定，例如：若摘要生成模型为影视类视频的摘要生成模型，则样本库中包含的样本数据为影视类视频；若摘要生成模型为新闻类视频的摘要生成模型，则样本库中包含的样本数据为新闻类视频；若摘要生成模型为广播剧类音频的摘要生成模型，则样本库中包含的样本数据为广播剧音频。

可选地，预设同音词词库中不同同音词对应的权重不同，可选地，同义词包括同音近义词和同音异义词，例如：对于目标词汇“仓皇”来说，同音近义词为“仓惶”，它们都是仓促慌张的意思；同音异义词为“苍黄”，“苍黄”是指一种类型的黄色，也比喻事情变化反复。则对于目标词汇来说，同音近义词对应的权重小于同音异义词对应的权重，这是因为，若两个词之间为同音近义词，替换后的正样本文本与第一样本文本之间的实际上无语义上的差异，也可说，正样本文本并非第一样本文本的错误文本，正样本文本可看成是第一样本文本，故可降低替换的同音近义词的权重；若两个词之间为同音异义词，替换后的正样本文本与第一样本文本之间的存在语义上的差异，也可说，正样本文本是第一样本文本的错误文本，为了提高模型的鲁棒性，可增加替换的同音异义词的权重。

需要进行说明的是，上述同音词替换也可实现为同义词替换，对于同义词替换的具体步骤可参考同音词替换的步骤，此处不再赘述。

情况二：根据词汇置信度进行词汇替换。

可选地，对第一样本文本进行分词处理，得到第一样本文本对应的多个分词；通过注意力机制对多个分词进行置信度分析，得到多个分词分别对应的置信度；将多个分词中置信度小于或者等于置信度阈值的目标分词进行词汇替换处理，得到正样本文本。

示意性的，上述分词对应的置信度表示的是该分词对于第一样本文本的重要度，即对第一样本文本中重要度较低的分词进行替换处理。

其中，对目标分词进行替换处理的方法包括：将目标分词替换为空白词汇(即将目标分词进行删除)，将目标分词替换为同音词或者同义词，将目标分词替换为词典中随机一个词汇等，本申请实施例对此不加以限定。

2、对第一样本文本进行标点增删处理，得到正样本文本。

可选地，随机删除第一样本文本中的标点符号，得到正样本文本。其中，删除的标点符号数量可以是一个也可以是多个。

可选地，对第一样本文本进行分字处理，得到第一样本文本对应的多个分字；在多个分字之间随机添加标点符号，得到正样本文本。

3、对第一样本文本进行语气词增删处理，得到正样本文本。

可选地，随机删除第一样本文本中的语气词，得到正样本文本。其中，删除的语气词数量可以是一个也可以是多个。

可选地，对第一样本文本进行分词处理，得到第一样本文本对应的多个分词；在多个分词后随机添加语气词，得到正样本文本。

4、对第一样本文本进行回译处理，得到正样本文本。

可选地，第一样本文本对应的语言为第一语言，将第一样本文本输入至第一语言-第二语言翻译模型中，输出得到翻译为第二语言的第二样本文本；将第二样本文本输入至第二语言-第一语言翻译模型种，将第二样本文本回译为第一语言的第三样本文本，该第三样本文本即为正样本文本。

在一些实施例中，可以将未经过处理的ASR识别得到的原始文本作为正样本文本，可选地，通过语音识别引擎对多媒体数据进行文本识别，得到正样本文本。

可选地，上述语音识别引擎实际上包括不同类型的引擎，每个语音识别引擎的识别准确度和训练数据集都不同，则构建样本数据集的方法还包括：

获取第一样本文本和负样本文本；通过不同类型的语音识别引擎对多媒体数据进行文本识别，得到不同类型的语音识别引擎分别对应的识别文本作为正样本文本，并构建样本数据集。

示意性的，语音识别引擎1对目标视频进行识别得到识别文本1“古建东老师，你好，今天呢，国家博物馆有序的，呃，回复对外开放了，Na Me”；语音识别引擎2对目标视频进行识别得到识别文本2“郭建东老师，你好，今天呢，国家博物馆有序的，呃，恢复对外开放了，那么”。将识别文本1和识别文本2都作为正样本文本。

在一些可选的实施例中，在确定第一样本文本对应的正样本文本之前，需要对文本增强后的文本进行相似度分析，当文本增强后的文本与第一样本文本之间符合相似度条件，则确定文本增强后的文本为正样本文本。

可选地，基于预设错误类型，对第一样本文本进行文本增强处理，得到候选文本；在候选文本与第一样本文本之间的语义相似度大于或者等于预设相似度阈值的情况下，将候选文本作为正样本文本。

示意性的，经过文本增强后的第一样本文本可能与原有的第一样本文本之间的语义相差过大，则需要通过设置相似度筛选步骤，确保第一样本文本与正样本文本之间符合相似度要求。

可选地，得到正样本文本之后，基于正样本文本、负样本文本和第一样本文本构建样本数据集；并将样本数据集输入到候选摘要生成模型中。

示意性的，请参考图4，其示出了一种候选摘要生成模型的训练模型结构图，若图4所示，将样本数据集输入到候选摘要生成模型中，对候选摘要生成模型进行训练。

步骤303，通过候选摘要生成模型提取第一样本文本对应的第一特征表示、正样本文本对应的第二特征表示以及负样本文本对应的第三特征表示。

示意性的，请参考图4，通过候选摘要生成模型中的文本特征编码器401提取第一样本文本对应的第一特征表示、正样本文本对应的第二特征表示以及负样本文本对应的第三特征表示。

步骤304，基于第一特征表示与第二特征表示之间的正差异，和第一特征表示与第三特征表示之间的负差异确定第一损失。

可选地，基于第一特征表示与第二特征表示之间的差异，确定第一子损失；基于第一特征表示与第三特征表示之间的差异，确定第二子损失；对第二子损失取反，并对第一子损失和取反后的第二子损失进行加权融合，得到第一损失。

示意性的，请参考图4，将第一特征表示、第二特征表示和第三特征表示输入候选摘要生成模型中的容错模块402，计算第一损失。

可选地，第一损失函数的具体公式可如下公式一所示：

公式一：

其中，其中，z_p为第一样本文本对应的特征表示、为正样本文本对应的特征表示、z_q为第一样本文本对应的第p个负样本文本对应的特征表示、N为负样本文本的数量、sim表示余弦距离计算函数。

可选地，当正样本文本的数量实现为多个，且对应的权重不同时，则第一损失函数的具体公式还可如下公式二所示：

公式二：

其中，其中，z_p为第一样本文本对应的特征表示、为第一样本文本对应的第k个正样本文本对应的特征表示、/>为第k个正样本文本对应的特征表示的权重、M为正样本文本的数量、z_q为第一样本文本对应的第p个负样本文本对应的特征表示，N为负样本文本的数量，sim表示余弦距离计算函数。

步骤305，通过候选摘要生成模型对第一特征表示进行摘要预测，生成多媒体数据对应的预测摘要，并基于参考摘要与预测摘要之间的差异，确定第二损失。

示意性的，请参考图4，将第一特征表示输入候选摘要生成模型中的文本特征解码器403中，输出得到预测摘要，并基于参考摘要与预测摘要之间的差异，确定第二损失。

步骤306，结合第一损失和第二损失对候选摘要生成模型进行训练，得到摘要生成模型。

可选地，通过第一损失和第二损失分别对候选摘要生成模型中的模型参数进行更新；示意性的，通过第一损失对候选摘要生成模型中的特征提取模块的参数进行更新，通过第二损失对候选摘要生成模型中的所有模型参数进行更新。

或者，获取第一损失和第二损失的加权融合结果，得到目标损失；基于目标损失对候选摘要生成模型进行训练，得到摘要生成模型。

可选地，通过目标损失对候选摘要生成模型中的模型参数进行更新，当候选摘要生成模型达到训练次数，或者，目标损失对应的损失值小于或者等于预设损失值，停止对候选摘要生成模型进行训练，此时，得到的候选摘要生成模型即为训练好的摘要生成模型。

其中，摘要生成模型用于对目标多媒体数据进行摘要预测。

需要进行说明的是，在实际应用摘要生成模型时，输入的是未经处理的原始的ASR文本，在预测ASR文本对应的摘要时，不需要计算ASR文本的第一损失，该第一损失只在训练过程中进行计算，目的是为了训练得到一个可容错的特征提取模块；即在图4中，容错模块402在摘要生成模型应用时不参与摘要预测。

本申请实施例提供的方法，基于预设错误类型，对第一样本文本进行文本增强处理(词汇替换处理、标点增删处理、语气词增删处理、回译处理等中的至少一种)，得到正样本文本，从而构建样本数据集，其中，预设错误类型是指对多媒体数据进行文本识别时产生的错误类型，针对性的对文本识别得到的原始噪声文本进行容错，进而提升训练得到的摘要生成模型的鲁棒性。

本申请实施例提供的方法，通过对第一样本文本进行分词处理，对第一样本文本中的同音词基于预设同音词词库进行替换处理，得到正样本文本，提高训练得到的摘要生成模型在同音词错误场景下的鲁棒性，提升摘要生成模型的适用性。

本申请实施例提供的方法，通过对第一样本文本进行分词处理和置信度分析，对第一样本文本中重要度较低的词汇进行替换，保证了正样本和第一样本文本之间的语义相关性，增加了正样本的可信度，提高了在训练摘要生成模型时的嵌入质量。

本申请实施例提供的方法，基于预设错误类型，对第一样本文本进行文本增强处理，得到候选文本；在候选文本与第一样本文本之间的语义相似度大于或者等于预设相似度阈值的情况下，将候选文本作为正样本文本，保证了构成训练数据的正样本和第一样本文本之间的语义相关性，使得最终的生成的语义表达空间不至于太离散，从而生成与原本语义差别较大的特征表示，影响最终生成的摘要生成模型的预测精度。

本申请实施例提供的方法，通过不同类型的语音识别引擎对多媒体数据进行文本识别，得到不同类型的语音识别引擎分别对应的识别文本作为正样本文本，并构建样本数据集，提高了对摘要生成模型进行训练的训练数据的多样性。

在一些实施例中，可通过掩码机制生成预测摘要，从而完成对候选摘要生成模型的训练。图5是本申请实施例提供的一种摘要生成模型的训练方法的流程图，该方法可以由服务器或者终端执行，也可以由服务器和终端共同执行，本申请实施例中，以该方法由服务器执行为例进行说明，如图5所示，该方法包括：

步骤501，获取样本数据集。

步骤502，通过候选摘要生成模型提取第一样本文本对应的第一特征表示、正样本文本对应的第二特征表示以及负样本文本对应的第三特征表示。

在一些实施例中，候选摘要生成模型中包括特征提取模块，该特征提取模块可实现为文本特征编码器，则通过文本特征编码器对第一样本文本、正样本文本以及负样本文本分别进行编码处理，得到第一特征表示、第二特征表示和第三特征表示。

步骤503，通过候选摘要生成模型提取参考摘要对应的第四特征表示。

可选地，通过候选摘要生成模型中的文本特征编码器对参考摘要进行编码处理，得到第四特征表示。

其中，第四特征表示中包括参考摘要中各个字符分别对应的特征表示；或者，第四特征表示中包括参考摘要中各个分词分别对应的特征表示。

步骤504，基于第一特征表示与第二特征表示之间的正差异，和第一特征表示与第三特征表示之间的负差异确定第一损失。

步骤505，通过候选摘要生成模型对第四特征表示中目标掩码位置的目标字符对应的特征表示进行掩码操作，得到掩码后的第四特征表示。

可选地，候选摘要生成模型中的文本特征解码器中包括掩码机制，通过掩码机制对第四特征表示中目标掩码位置的目标字符对应的特征表示进行掩码操作，得到掩码后的第四特征表示。

可选地，上述候选摘要生成模型可实现为以统一语言模型(Unified LanguageModel，UniLM)为模型框架的候选摘要生成模型，则候选摘要生成模型为预训练得到的UniLM模型。

其中，UniLM模型包含一个编码器模块(即上述实施例中的文本特征编码器)和一个解码器模块(即上述实施例中的文本特征解码器)，UniLM模型使用了三种类型的语言建模任务进行预训练，包括：单向模型、双向模型、序列到序列预测模型。其统一建模时使用了共享的Transformer网络，并且还使用了特定的自注意掩码来控制预测条件所处的上下文。在对UniLM模型进行微调得到摘要生成模型时，可使用UniLM模型中的序列到序列预测模型进行摘要预测。

示意性的，假设参考摘要为“I haveadog”，编码后得到第四特征表示，可将第四特征表示中“have”位置的字符特征表示进行掩码操作，即对“have”位置的特征表示用“[mask]”进行代替，得到掩码后的第四特征表示。

在一些实施例中，通过掩码机制对第四特征表示中目标掩码位置的目标分词对应的特征表示进行掩码操作，得到掩码后的第五特征表示。

示意性的，假设参考摘要为“我喜欢小狗”，编码后得到第五特征表示，可将第五特征表示中“喜欢”位置的特征表示进行掩码操作，即对“喜欢”位置的特征表示用“[mask]”进行代替，得到掩码后的第四特征表示。

步骤506，通过候选摘要生成模型对第一特征表示进行解码操作，预测得到掩码后的第四特征表示中目标掩码位置对应的预测字符。

可选地，通过候选摘要生成模型中的文本特征解码器对第一特征表示进行解码，预测得到掩码后的第四特征表示中目标掩码位置对应的预测字符。

示意的，将掩码后的第四特征表示和第一特征表示进行连接组成上下文特征，通过UniLM模型中的解码器，对上下文特征进行分析，预测得到目标掩码位置对应的预测字符，可选地，预测词典中的字符属于目标掩码位置上的字符的概率值，将其中概率值最大的字符作为预测字符。

可选地，通过候选摘要生成模型中的文本特征解码器对第一特征表示进行解码，预测得到掩码后的第五特征表示中目标掩码位置对应的预测分词。

示意的，将掩码后的第五特征表示和第一特征表示进行连接组成上下文特征，通过UniLM模型中的解码器，对上下文特征进行分析，预测得到目标掩码位置对应的预测分词，可选地，预测词典中的词汇属于目标掩码位置上的分词的概率值，将其中概率值最大的字符作为预测分词。

步骤507，基于预测字符和目标字符之间的差异，确定第二损失。

可选地，依次对第四特征表示中K个字符位置上的目标字符对应的特征表示进行掩码操作，并依次对掩码后的K个特征表示进行字符预测，得到第四特征表示中K个字符位置分别对应的预测字符，计算第w个字符位置上预测字符和目标字符之间的差异，得到第w个子损失；对K个子损失进行加权融合，得到融合后的损失为第二损失。其中，K为正整数，w为小于或者等于K的正整数。

其中，K个字符位置分别对应有置信度权重，该权重用于表示该字符位置上的原本的目标字符对整个参考摘要的重要性，则该置信度权重即为对K个子损失进行加权融合时，各个损失的权重。

可选地，依次对第五特征表示中R个分词位置上的目标分词对应的特征表示进行掩码操作，并依次对掩码后的R个特征表示进行分词预测，得到第五特征表示中R个分词位置分别对应的预测分词，计算第z个分词位置上预测分词和目标分词之间的差异，得到第z个子损失；对R个子损失进行加权融合，得到融合后的损失为第二损失。其中，R为正整数，z为小于或者等于R的正整数。

其中，R个分词位置分别对应有置信度权重，该权重用于表示该分词位置上的原本的目标分词对整个参考摘要的重要性，则该置信度权重即为对R个子损失进行加权融合时，各个损失的权重。

步骤508，结合第一损失和第二损失对候选摘要生成模型进行训练，得到摘要生成模型。

其中，摘要生成模型用于对目标多媒体数据进行摘要预测。

本申请实施例提供的方法，通过对第二子损失取反，并对第一子损失和取反后的第二子损失进行加权融合，得到第一损失，通过对比学习的方法，去拉近相似的样本(正样本文本)，推开不相似的样本(负样本文本)，使得模型能从训练数据集中中学习到一个好的语义表示空间，兼顾局部与全局信息，提高了训练得到的摘要生成模型的性能。

本申请实施例提供的方法，基于序列到序列的预测模型和掩码机制生成式的生成摘要，提高了训练得到的摘要生成模型的摘要预测效果。

本申请实施例提供的方法，获取第一损失和第二损失的加权融合结果，得到目标损失，并基于目标损失对候选摘要生成模型进行训练，得到摘要生成模型。采用第一损失和第二损失这两个监督信号对候选摘要生成模型进行训练，增加了训练得到的摘要生成模型的预测精度。

图6是本申请一个示例性实施例提供摘要生成模型的训练装置的结构框图，如图6所示，该装置包括如下部分：

数据获取模块600，用于获取样本数据集，所述样本数据集中包括第一样本文本、正样本文本以及负样本文本，所述第一样本文本用于指示多媒体数据对应的多媒体内容，所述第一样本文本标注有所述多媒体数据对应的参考摘要，所述第一样本文本与所述正样本文本之间符合相似度要求；

特征提取模块610，用于通过候选摘要生成模型提取所述第一样本文本对应的第一特征表示、所述正样本文本对应的第二特征表示以及所述负样本文本对应的第三特征表示；

损失确定模块620，用于基于所述第一特征表示与所述第二特征表示之间的正差异，和所述第一特征表示与所述第三特征表示之间的负差异确定第一损失；

所述损失确定模块620，还用于通过所述候选摘要生成模型对所述第一特征表示进行摘要预测，生成所述多媒体数据对应的预测摘要，并基于所述参考摘要与所述预测摘要之间的差异，确定第二损失；

模型训练模块630，用于结合所述第一损失和所述第二损失对所述候选摘要生成模型进行训练，得到摘要生成模型，所述摘要生成模型用于对目标多媒体数据进行摘要预测。

在一些实施例中，请参考图7，所述数据获取模块600，用于获取所述第一样本文本和所述负样本文本；所述数据获取模块600，包括：

增强单元601，用于基于预设错误类型，对所述第一样本文本进行文本增强处理，得到所述正样本文本，并构建所述样本数据集，所述预设错误类型是指对所述多媒体数据进行文本识别时产生的错误类型。

在一些实施例中，所述增强单元601，用于对所述第一样本文本进行词汇替换处理，得到所述正样本文本；或者，用于对所述第一样本文本进行标点增删处理，得到所述正样本文本；或者，用于对所述第一样本文本进行语气词增删处理，得到所述正样本文本；或者，用于对所述第一样本文本进行回译处理，得到所述正样本文本。

在一些实施例中，所述增强单元601，用于对所述第一样本文本进行分词处理，得到所述第一样本文本对应的多个分词；所述增强单元601，用于将所述多个分词与预设同音词词库进行匹配，在所述多个分词中目标词汇与所述预设同音词词库中目标同音词匹配成功的情况下，在所述第一样本文本中将所述目标词汇替换为所述目标同音词；所述增强单元601，用于将替换后的所述第一样本文本作为所述正样本文本。

在一些实施例中，所述增强单元601，用于对所述第一样本文本进行分词处理，得到所述第一样本文本对应的多个分词；所述增强单元601，用于通过注意力机制对所述多个分词进行置信度分析，得到所述多个分词分别对应的置信度；所述增强单元601，用于将所述多个分词中置信度小于或者等于置信度阈值的目标分词进行词汇替换处理，得到所述正样本文本。

在一些实施例中，所述数据获取模块600，用于获取所述第一样本文本和所述负样本文本；所述数据获取模块600，包括：

识别单元602，用于通过不同类型的语音识别引擎对所述多媒体数据进行文本识别，得到所述不同类型的语音识别引擎分别对应的识别文本作为所述正样本文本，并构建样本数据集。

在一些实施例中，所述增强单元601，用于基于所述预设错误类型，对所述第一样本文本进行文本增强处理，得到候选文本；所述增强单元601，用于在所述候选文本与所述第一样本文本之间的语义相似度大于或者等于预设相似度阈值的情况下，将所述候选文本作为所述正样本文本。

在一些实施例中，所述损失确定模块620，用于基于所述第一特征表示与所述第二特征表示之间的差异，确定第一子损失；所述损失确定模块620，用于基于所述第一特征表示与所述第三特征表示之间的差异，确定第二子损失；所述损失确定模块620，包括：

融合单元621，用于对所述第二子损失取反，并对所述第一子损失和取反后的所述第二子损失进行加权融合，得到所述第一损失。

在一些实施例中，所述特征提取模块610，用于通过所述候选摘要生成模型提取所述参考摘要对应的第四特征表示，所述第四特征表示中包括所述参考摘要中各个字符分别对应的特征表示；所述损失确定模块620，包括：

掩码单元622，用于通过所述候选摘要生成模型对所述第四特征表示中目标掩码位置的目标字符对应的特征表示进行掩码操作，得到掩码后的第四特征表示；

解码单元623，用于通过所述候选摘要生成模型对所述第一特征表示进行解码操作，预测得到所述掩码后的第四特征表示中所述目标掩码位置对应的预测字符；

所述损失确定模块620，用于基于所述预测字符和所述目标字符之间的差异，确定所述第二损失。

在一些实施例中，所述模型训练模块630，用于获取所述第一损失和所述第二损失的加权融合结果，得到目标损失；所述模型训练模块630，用于基于所述目标损失对所述候选摘要生成模型进行训练，得到所述摘要生成模型。

综上所述，本申请实施例提供的摘要生成模型的训练装置通过候选摘要生成模型提取样本数据集中第一样本文本、正样本文本和负样本文本分别对应的特征表示，基于第一特征表示与第二特征表示之间的正差异，和第一特征表示与第三特征表示之间的负差异确定第一损失；然后，通过候选摘要生成模型对第一特征表示进行摘要预测，得到预测摘要，并基于参考摘要与预测摘要之间的差异，确定第二损失；最后，联合第一损失和第二损失对候选摘要生成模型进行训练，得到摘要生成模型。在对摘要生成模型的训练过程中，引入第一损失，使得模型能够学习到一个鲁棒性较佳的语义表达空间，当输入摘要生成模型的文本是一个质量较差的文本，摘要生成模型也能对该文本进行较为准确的摘要预测，也即，本申请实施例提供的模型训练方法提高了训练得到的摘要生成模型的容错能力，解决了在输入数据噪音过多的情况下，摘要生成模型的预测准确率低的问题。

需要说明的是：上述实施例提供的摘要生成模型的训练装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的摘要生成模型的训练装置与摘要生成模型的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8示出了本申请一个示例性实施例提供的计算机设备800的结构框图。该计算机设备800可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。计算机设备800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，计算机设备800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的摘要生成模型的训练方法。

在一些实施例中，计算机设备800还可选包括其他组件，本领域技术人员可以理解，图8中示出的结构并不构成对计算机设备800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述实施例中任一所述的摘要生成模型的训练方法。

可选的，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种摘要生成模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取样本数据集，包括：

获取所述第一样本文本和所述负样本文本；

基于预设错误类型，对所述第一样本文本进行文本增强处理，得到所述正样本文本，并构建所述样本数据集，所述预设错误类型是指对所述多媒体数据进行文本识别时产生的错误类型。

3.根据权利要求2所述的方法，其特征在于，所述基于预设错误类型，对所述第一样本文本进行文本增强处理，得到所述正样本文本，包括：

对所述第一样本文本进行词汇替换处理，得到所述正样本文本；

或者，

对所述第一样本文本进行标点增删处理，得到所述正样本文本；

或者，

对所述第一样本文本进行语气词增删处理，得到所述正样本文本；

或者，

对所述第一样本文本进行回译处理，得到所述正样本文本。

4.根据权利要求3所述的方法，其特征在于，所述对所述第一样本文本进行词汇替换处理，得到所述正样本文本，包括：

对所述第一样本文本进行分词处理，得到所述第一样本文本对应的多个分词；

将所述多个分词与预设同音词词库进行匹配，在所述多个分词中目标词汇与所述预设同音词词库中目标同音词匹配成功的情况下，在所述第一样本文本中将所述目标词汇替换为所述目标同音词；

将替换后的所述第一样本文本作为所述正样本文本。

5.根据权利要求3所述的方法，其特征在于，所述对所述第一样本文本进行词汇替换处理，得到所述正样本文本，包括：

通过注意力机制对所述多个分词进行置信度分析，得到所述多个分词分别对应的置信度；

将所述多个分词中置信度小于或者等于置信度阈值的目标分词进行词汇替换处理，得到所述正样本文本。

6.根据权利要求1所述的方法，其特征在于，所述获取样本数据集，包括：

获取所述第一样本文本和所述负样本文本；

通过不同类型的语音识别引擎对所述多媒体数据进行文本识别，得到所述不同类型的语音识别引擎分别对应的识别文本作为所述正样本文本，并构建样本数据集。

7.根据权利要求2至5任一所述的方法，其特征在于，所述基于预设错误类型，对所述第一样本文本进行文本增强处理，得到所述正样本文本，包括：

基于所述预设错误类型，对所述第一样本文本进行文本增强处理，得到候选文本；

在所述候选文本与所述第一样本文本之间的语义相似度大于或者等于预设相似度阈值的情况下，将所述候选文本作为所述正样本文本。

8.根据权利要求1至6任一所述的方法，其特征在于，所述基于所述第一特征表示与所述第二特征表示之间的正差异，和所述第一特征表示与所述第三特征表示之间的负差异确定第一损失，包括：

基于所述第一特征表示与所述第二特征表示之间的差异，确定第一子损失；

基于所述第一特征表示与所述第三特征表示之间的差异，确定第二子损失；

对所述第二子损失取反，并对所述第一子损失和取反后的所述第二子损失进行加权融合，得到所述第一损失。

9.根据权利要求1至6任一所述的方法，其特征在于，所述方法还包括：

通过所述候选摘要生成模型提取所述参考摘要对应的第四特征表示，所述第四特征表示中包括所述参考摘要中各个字符分别对应的特征表示；

所述通过所述候选摘要生成模型对所述第一特征表示进行摘要预测，生成所述多媒体数据对应的预测摘要，并基于所述参考摘要与所述预测摘要之间的差异，确定第二损失，包括：

通过所述候选摘要生成模型对所述第四特征表示中目标掩码位置的目标字符对应的特征表示进行掩码操作，得到掩码后的第四特征表示；

通过所述候选摘要生成模型对所述第一特征表示进行解码操作，预测得到所述掩码后的第四特征表示中所述目标掩码位置对应的预测字符；

基于所述预测字符和所述目标字符之间的差异，确定所述第二损失。

10.根据权利要求1至6任一所述的方法，其特征在于，所述结合所述第一损失和所述第二损失对所述候选摘要生成模型进行训练，得到摘要生成模型，包括：

获取所述第一损失和所述第二损失的加权融合结果，得到目标损失；

基于所述目标损失对所述候选摘要生成模型进行训练，得到所述摘要生成模型。

11.一种摘要生成模型的训练装置，其特征在于，所述装置包括：

12.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至10任一所述的摘要生成模型的训练方法。

13.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至10任一所述的摘要生成模型的训练方法。

14.一种计算机程序产品，其特征在于，包括计算机指令，所述计算机指令被处理器执行时实现如权利要求1至10任一所述的摘要生成模型的训练方法。