CN116579298A

CN116579298A - 一种视频生成方法、装置、设备及存储介质

Info

Publication number: CN116579298A
Application number: CN202210114344.XA
Authority: CN
Inventors: 申彤彤; 徐竟达; 杨鹏; 祁点点
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-30
Filing date: 2022-01-30
Publication date: 2023-08-11

Abstract

本申请实施例公开了一种视频生成方法、装置、设备及存储介质，相关实施例可应用于云技术、人工智能等各种场景，用于维护手语视频的声画同步。本申请实施例方法包括：获取目标文本以及与所述目标文本相对应的目标时间，其中，所述目标时间为延迟时长或播放时长，根据所述目标时间，为所述目标文本中的每个句子确定一个句子压缩比，根据所述句子压缩比以及所述目标文本，生成目标压缩文本，将所述目标压缩文本输入至手语视频生成模型，通过所述手语视频生成模型生成目标手语视频。

Description

一种视频生成方法、装置、设备及存储介质

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种视频生成方法、装置、设备及存储介质。

背景技术

随着信息技术的飞速发展，在人工智能、虚拟现实等新技术的带动下，数字人技术取得了长足的进步，以虚拟主播、虚拟员工等为代表的数字对象成功进入大众视野。而现有的手语数字对象系统通常是将自然语言文本或语音识别后的口语文本翻译为手语语序文本，再结合手形、肢体动作、面部表情和口型等多模态合成手语视频。

但是，手语作为一种视觉语言，是由手控信息(如手形或手部位置等)和非手控信息(如表情、口动或体态等)联动而成，手语的速度一般要比正常人的语速要慢30％-50％，这样就容易出现手语合成的画面无法跟上视频流本身的播放速度，从而导致在为视频内容搭配手语视频时出现原音视频和生成的手语视频的声画不同步问题。

发明内容

本申请实施例提供了一种视频生成方法、装置、设备及存储介质，用于基于句子压缩比可以生成文本字符数小于目标文本初始的文本字符数的目标压缩文本，从而使得基于目标压缩文本生成的手语视频中的手语语速能够接近目标文本对应的口语语速，达到手语视频中声画尽可能同步的效果。

本申请实施例一方面提供了一种视频生成方法，包括：

获取目标文本以及与目标文本相对应的目标时间，其中，目标时间为延迟时长或播放时长；

根据目标时间，为目标文本中的每个句子确定一个句子压缩比；

根据句子压缩比以及目标文本，生成目标压缩文本；

将目标压缩文本输入至手语视频生成模型，通过手语视频生成模型生成目标手语视频。

本申请另一方面提供了一种视频生成装置，包括：

获取单元，用于获取目标文本以及与目标文本相对应的目标时间，其中，目标时间为延迟时长或播放时长；

确定单元，用于根据目标时间，为目标文本中的每个句子确定一个句子压缩比；

处理单元，用于根据句子压缩比以及目标文本，生成目标压缩文本；

处理单元，还用于将目标压缩文本输入至手语视频生成模型，通过手语视频生成模型生成目标手语视频。

在一种可能的设计中，本申请实施例另一方面的一种实现方式中，确定单元具体可以用于：

调用语言压缩模型集合，根据语言压缩模型集合以及目标时间确定与目标文本对应的目标压缩比，其中，目标压缩比为每个句子的句子压缩比的组合，或目标压缩比为所有句子的句子压缩比，语言压缩模型集合中的每个语言压缩模型分别设置有对应的一个压缩比；

根据句子压缩比以及目标文本，生成目标压缩文本，包括：

根据目标压缩比以及目标文本，生成目标压缩文本。

依次将目标文本的每个句子输入至语言压缩模型集合进行压缩，得到与每个句子相对应的初始压缩文本集合；

分别从每个句子相对应的初始压缩文本集合中选取任一个初始压缩子文本，得到目标文本对应的若干个候选压缩组合；

从若干个候选压缩组合中确定符合播放时长的目标压缩组合；

将目标压缩组合中的每个初始压缩子文本对应的压缩比作为句子压缩比。

在一种可能的设计中，本申请实施例另一方面的一种实现方式中，

获取单元，还用于获取与每个语言压缩比相对应的训练样本对，其中，训练样本对包括训练原始样本以及训练压缩样本，训练压缩样本为字符数小于训练原始样本，且与训练原始样本之间的相似度大于相似阈值的文本；

处理单元，还用于将训练样本对以及基础压缩比输入语言压缩模型，通过语言压缩模型输出样本压缩文本；

处理单元，还用于计算样本压缩文本与训练压缩样本之间的文本相似度；

处理单元，还用于根据文本相似度对样本压缩文本进行损失计算，得到压缩损失结果；

处理单元，还用于根据压缩损失结果对语言压缩模型的模型参数进行更新。

根据目标文本中的每个句子的长度，对播放时长进行划分，得到每个句子对应的句子时间段；

根据每个句子对应的句子时间段，为每个句子确定一个句子压缩比。

获取每个句子所对应的句子手语时长；

计算每个句子时间段的长度与句子手语时长之间的时长比值；

将时长比值作为句子压缩比。

将延迟时长与延迟阈值进行比对，确定每个延迟时长属于的延迟范围；

根据延迟范围与压缩比之间的关系，得到目标文本对应的压缩比，并将压缩比作为句子压缩比。

调用语言压缩模型集合，从语言压缩模型集合中确定与句子压缩比对应的目标语言压缩模型，其中，语言压缩模型集合中的每个语言压缩模型分别设置有对应的一个压缩比；

将每个句子输入至目标语言压缩模型，通过目标语言压缩模型输出压缩子文本；

将压缩子文本进行合并，得到目标压缩文本。

在一种可能的设计中，本申请实施例另一方面的一种实现方式中，获取单元具体可以用于：

获取原始文本，其中，原始文本包含至少两个句子；

根据语句重要程度信息对原始文本的句子进行抽取，得到目标文本。

将原始文本划分为至少两个文本段；

根据语句重要程度信息对至少两个文本段中的每个文本段分别进行句子抽取，得到每个文本段对应的摘要文本；

根据每个文本段在原始文本中的位置，对摘要文本进行整合，得到目标文本。

对每个文本段进行分句处理，得到至少两个句子；

对至少两个句子分别进行向量转换，得到每个句子对应的句向量；

将每个句子对应的句向量输入至分类器，通过分类器输出每个句子对应的句向量对应的摘要分值；

将摘要分值大于或等于摘要阈值的句子作为摘要句子，以获取摘要文本。

按照语义相关度，对原始文本进行切分，得到至少两个文本段；或

按照预设的文本长度，将原始文本切分为至少两个文本段。

从原始文本中提取若干个主题词语，其中，主题词语用于表示原始文本的主题类型；

根据若干个主题词语，对原始文本划分，得到每个主题词语对应的第一文本段；

计算两个相邻的第一文本段之间的语义相关度；

将语义相似度大于或等于相似阈值的基础文本段进行合并，得到至少两个文本段。

根据预设的第二文本长度，从原始文本中提取多个第二文本段；

对多个第二文本段中的每个第二文本段进行关键词筛选，得到每个第二文本段对应的候选关键词；

根据候选关键词的词频，从每个第二文本段对应的候选关键词中确定原始文本的局部关键词；

通过词汇链，将在原始文本上的位置距离小于距离阈值的局部关键词进行连接，得到若干个主题词汇链；

从若干个主题词汇链的每个主题词汇链中抽取一个主题词，得到若干个主题词语。

对每个第二文本段进行去停词处理，得到待处理文本；

对待处理文本进行分词处理，得到至少两个待处理关键词；

根据每个待处理关键词的词频，从至少两个待处理关键词中确定候选关键词。

本申请另一方面提供了一种计算机设备，包括：存储器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序时实现如上述各方面的方法；

总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

从以上技术方案可以看出，本申请实施例具有以下有益效果：

通过获取目标文本以及与目标文本相对应的目标时间，可以根据目标时间，为目标文本中的每个句子确定一个句子压缩比，并可以根据句子压缩比以及目标文本，生成目标压缩文本，然后，可以将目标压缩文本输入至手语视频生成模型，通过手语视频生成模型生成目标手语视频。通过上述方式，能够根据目标时间为目标文本中的每个句子确定一个句子压缩比，使得基于句子压缩比可以生成文本字符数小于目标文本初始的文本字符数的目标压缩文本，从而使得基于目标压缩文本生成的手语视频中的手语语速能够接近目标文本对应的口语语速，以减小手语语速与口语语速之间的差距，达到手语视频中声画尽可能同步的效果。

附图说明

图1是本申请实施例中视频数据控制系统的一个架构示意图；

图2是本申请实施例中视频生成方法的一个实施例流程图；

图3是本申请实施例中视频生成方法的另一个实施例流程图；

图4是本申请实施例中视频生成方法的另一个实施例流程图；

图5是本申请实施例中视频生成方法的另一个实施例流程图；

图6是本申请实施例中视频生成方法的另一个实施例流程图；

图7是本申请实施例中视频生成方法的另一个实施例流程图；

图8是本申请实施例中视频生成方法的另一个实施例流程图；

图9是本申请实施例中视频生成方法的另一个实施例流程图；

图10是本申请实施例中视频生成方法的另一个实施例流程图；

图11是本申请实施例中视频生成方法的另一个实施例流程图；

图12是本申请实施例中视频生成方法的另一个实施例流程图；

图13是本申请实施例中视频生成方法的另一个实施例流程图；

图14是本申请实施例中视频生成方法的另一个实施例流程图；

图15是本申请实施例中视频生成方法的另一个实施例流程图；

图16是本申请实施例中视频生成方法的另一个实施例流程图；

图17是本申请实施例中视频生成方法的一个声画不同步效果示意图；

图18是本申请实施例中视频生成方法的一个原理流程示意图；

图19是本申请实施例中视频生成方法的一个抽取摘要文本的示意图；

图20是本申请实施例中视频生成方法的一个语义分段示意图；

图21是本申请实施例中视频生成方法的一个获取摘要文本的模型结构示意图；

图22是本申请实施例中视频生成方法的一个获取目标压缩文本的模型结构示意图；

图23是本申请实施例中视频生成装置的一个实施例示意图；

图24是本申请实施例中计算机设备的一个实施例示意图。

具体实施方式

本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于理解，先对本申请实施例涉及到的一些术语或概念进行解释。

1、听人文本

听人文本指的是符合汉语普通话语法结构或表达习惯的文本。

2、听人语序

听人语序指的是符合汉语普通话语法结构或表达习惯的文本语序。

3、语音识别

语音识别技术旨在从音视频中获取听人文本信息，供后续模块使用，以解决听障人士听不见，无法直接从原音视频中获取信息的情况。

4、手语翻译

由于手语的语序和汉语并不完全一致，因此，手语翻译可以基于手语翻译模块使用机器翻译技术对自然文本进行语序转换，将获取到的听人文本的听人语序翻译成手语语序，以生成手语表征信息。

5、视频合成

视频合成可以基于视频合成模块通过多模态端到端生成模型，使用手语翻译模块得到的手语表征信息进行联合建模及预测，生成高准确率的动作、表情、唇动等序列，从而达到了自然地道、接受度高的手语表达效果。

可以理解的是，如本申请所公开的视频生成方法，具体涉及云技术(Cloudtechnology)，下面进一步地对云技术进行介绍。云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

而云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。

作为云计算的基础能力提供商，会建立云计算资源池(简称云平台，一般称为IaaS(Infrastructure as a Service，基础设施即服务)平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。

按照逻辑功能划分,在IaaS(Infrastructure as a Service，基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层，PaaS层之上再部署SaaS(Software as a Service,软件即服务)层，也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台，如数据库、web容器等。SaaS为各式各样的事务软件，如web门户网站、短信群发器等。一般来说，SaaS和PaaS相对于IaaS是上层。

其次，云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念，分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能，将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作，共同对外提供数据存储和事务访问功能的一个存储系统。

目前，存储系统的存储方法为：创建逻辑卷，在创建逻辑卷时，就为每个逻辑卷分配物理存储空间，该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。客户端在某一逻辑卷上存储数据，也就是将数据存储在文件系统上，文件系统将数据分成许多部分，每一部分是一个对象，对象不仅包含数据而且还包含数据标识(ID，ID entity)等额外的信息，文件系统将每个对象分别写入该逻辑卷的物理存储空间，且文件系统会记录每个对象的存储位置信息，从而当客户端请求访问数据时，文件系统能够根据每个对象的存储位置信息让客户端对数据进行访问。

存储系统为逻辑卷分配物理存储空间的过程，具体为：按照对存储于逻辑卷的对象的容量估量(该估量往往相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(RAID，Redundant Array of Independent Disk)的组别，预先将物理存储空间划分成分条，一个逻辑卷可以理解为一个分条，从而为逻辑卷分配了物理存储空间。

进一步地，区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监测等处理模块，提供身份信息管理、验证事务请求的有效性、事务存储、合约的注册发行、合约触发、合约执行以及产品运营等服务给区块链参与者进行使用。平台产品服务层提供典型应用的基本能力和实现框架，开发人员可以基于这些基本能力，叠加事务的特性，完成事务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给事务参与方进行使用。

应理解，本申请提供的视频生成方法可以应用于云技术、人工智能、智慧交通等领域，用于通过目标文本生成手语视频或手语数字对象等场景。作为示例，例如通过实时播放的视频对应的目标文本压缩为目标压缩文本来生成手语视频。作为另一个示例，例如通过待播放的非实时视频对应的目标文本压缩为目标压缩文本来生成手语视频。作为再一示例，例如通过待播放的非实时视频对应的目标文本压缩为目标压缩文本来生成手语数字对象。在上述种种场景中，为了生成手语视频，通常是将自然语言文本直接翻译为手语语序文本，再基于手语语序文本生成手语视频，由于手语的速度一般会慢于口语语速，导致原音视频和生成的手语视频的声画不同步问题。

为了解决上述问题，本申请提出了一种视频生成方法，该方法应用于图1所示的数字水印控制系统，请参阅图1，图1为本申请实施例中数字水印控制系统的一个架构示意图，如图1所示，服务器通过获取终端设备提供的目标文本以及与目标文本相对应的目标时间，可以根据目标时间，为目标文本中的每个句子确定一个句子压缩比，并可以根据句子压缩比以及目标文本，生成目标压缩文本，然后，可以将目标压缩文本输入至手语视频生成模型，通过手语视频生成模型生成目标手语视频。通过上述方式，能够根据目标时间为目标文本中的每个句子确定一个句子压缩比，使得基于句子压缩比可以生成文本字符数小于目标文本初始的文本字符数的目标压缩文本，从而使得基于目标压缩文本生成的手语视频中的手语语速能够接近目标文本对应的口语语速，以减小手语语速与口语语速之间的差距，达到手语视频中声画尽可能同步的效果。

可以理解的是，图1中仅示出了一种终端设备，在实际场景中可以由更多种类的终端设备参与到数据处理的过程中，终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等，具体数量和种类因实际场景而定，具体此处不做限定。另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，特别是在多模型训练交互的场景中，服务器的数量因实际场景而定，具体此处不做限定。

需要注意的是，本实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdelivery network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，终端设备以及服务器可以连接组成区块链网络，本申请在此不做限制。

为了解决上述问题，本申请提出了一种视频生成方法，该方法一般由服务器或终端设备执行，也可以由服务器和终端设备共同执行。

下面将对本申请中视频生成方法进行介绍，请参阅图2，本申请实施例中视频生成方法一个实施例包括：

在步骤S101中，获取目标文本以及与目标文本相对应的目标时间，其中，目标时间为延迟时长或播放时长；

在本实施例中，为了能够帮助听障对象获取到视频中的内容，如图17所示，可以对视频进行文本识别，并对文本识别结果生成手语动画，但是由于手语的速度一般会慢于口语的语速，会容易出现手语动画的画面播放时长Q1至Q4会长于原音视频的播放时长W1至W4，可以理解为，手语动画的播放的速度无法跟上视频流本身的播放速度，因此，为了能够帮助听障对象更好地更准确地获取或理解视频中的内容，本实施例通过从视频中的文本识别结果中提取到目标文本以及目标文本对应的目标时间。

其中，目标文本指的是文本识别结果中语句重要程度比较高的句子组成的文本，目标文本的字符数少于文本识别结果的字符数，目标文本符合汉语普通话语法结构或表达习惯，目标文本具体可以表现为摘要文本、关键句组成的文本或主题词语对应的文本等，还可以表现为其他文本，此处不作具体限制。目标时间具体可以表示延迟时长或播放时长。延迟时长指的是在实时直播场景中，目标文本对应的当前播放语音的起始时间与已生成手语视频的句子对应的起始时间之间的差值。播放时长指的在非实时转播场景中，播放目标文本所需时长。

具体地，在非实时转播场景中，可以对待播放的原音视频的进行语音文本识别，以获取原始文本，然后可以从目标文本，具体可以是将待播放的原音视频输入至语言识别模型中进行识别并翻译，可以通过语言识别模型获取到待播放的原音视频的原始文本，然后，可以根据语句重要程度将原始文本进行句子筛选，以获取到目标文本，其中，语言识别模型具体可以是采用如图18所示的ASR识别模型，还可以是采用其他语言识别模型，Transformer模型、Seq2Seq模型或Beamsearch模型等，此处不做具体限制。同时，根据待播放的原音视频的视频总时长，可以获取到原始文本中每个句子对应的句子播放时长，从而可以获取到目标文本中每个句子的句子播放时长，经过整合可以获取到目标文本的播放时长。

进一步地，在实时直播场景中，可以定时如每7s采集一段真人播报的句子，然后，可以计算这段真人播报的句子的当前播放语音的起始时间与已生成手语视频的句子对应的起始时间之间的差值，作为延迟总时长，其中，延迟总时长包括因为延时而出现的未来得及生成手语视频而堆积句子群中的每个句子的句子延迟时长，同时，可以从堆积句子群中抽取重要的句子，以获取到目标文本，并基于每个句子的句子延迟时长获取到目标文本对应的延迟时长。

在步骤S102中，根据目标时间，为目标文本中的每个句子确定一个句子压缩比；

在本实施例中，在获取到目标时间后，可以根据目标时间来筛选出适合对目标文本中的每个句子进行压缩的句子压缩比，以使后续可以使用每个句子的句子压缩比对目标文本进行处理，使得基于处理后的文本生成的手语视频的画面播放时长能够接近原音视频中的播放时长，以维护生成的手语视频的声画同步。

其中，句子压缩比具体可以表现为时长比例关系，如句子的句子播放时长与句子手语时长之间的比例关系，例如，假设一个句子对应的播放时长为4s，以及手语时长为10s，可以计算句子播放时长与句子手语时长之间的比值，可知对应的句子压缩比为0.25，或字符数比例关系，如句子经过压缩后得到的文本字符数与句子压缩前的文本字符数之间的比例关系等，例如，假设一个句子经过压缩后得到的文本字符数为10，句子压缩前的文本字符数为20，通过计算句子经过压缩后得到的文本字符数与句子压缩前的文本字符数之间的比值，可知对应的句子压缩比为0.5，还可以是其他比例关系，此处不做具体限制。

具体地，在获取到目标文本以及播放时长后，在非实时转播场景中，根据播放时长，为目标文本中的每个句子确定一个句子压缩比具体可以是通过调用语言压缩模型集合，依次将目标文本的每个句子输入至语言压缩模型集合进行压缩，以获取到与每个句子相对应的初始压缩文本集合，然后，可以根据初始压缩文本集合以及目标时间确定与目标文本对应的目标压缩比，其中，目标压缩比为每个句子的句子压缩比的组合，或目标压缩比为所有句子的句子压缩比；或者，根据播放时长，为目标文本中的每个句子确定一个句子压缩比具体还可以是通过可以将目标文本中每个句子输入至手语翻译模型中进行手语转化，可以通过手语翻译模型获取到每个句子对应的手语表达的时长，然后，可以计算每个句子播放时长与手语表达的时长之间的比值，作为每个句子对应的句子压缩比。

进一步地，在获取到目标文本以及延迟时长后，在实时直播场景中，可以通过预先设置的延时时间范围以及与延时时间范围相对应的压缩比，将获取到的延迟时长与预设的延时时间范围进行比对，可以确定该延迟时长落入的延时时间范围，然后，可以根据落入的延时时间范围选定目标文本中每个句子对应的句子压缩比。

例如，假设一个目标文本中的一个句子对应的延迟时长为0.8s，以及假设延时时间范围以及与延时时间范围相对应的压缩比有0s(不包括0s)至0.5s对应的压缩比0.8，或0.5s(不包括0.5s)至1.5s对应的压缩比0.6，或大于1.5s(不包括1.5s)对应的压缩比0.4等，通过将延迟时长与延时时间范围进行比对，可知该句子对应的句子压缩比为0.6。

在步骤S103中，根据句子压缩比以及目标文本，生成目标压缩文本；

在本实施例中，在获取到句子压缩比后，可以根据获取到的句子压缩比对目标文本中的每个句子进行文本处理，以获取到的目标压缩文本。

其中，目标压缩文本是文本字符数小于目标文本的压缩前的文本字符数的文本。

具体地，在获取到目标文本以及每个句子的句子压缩比后，在非实时转播场景中，可以按照每个句子对应的句子压缩比对目标文本中的每个句子进行压缩，以获取到目标压缩文本。例如，假设一个目标文本有一个句子A2对应的句子压缩比为0.5，以及假设该句子A2为“今天的天空真蓝真美啊”，将该句子A2按照对应的句子压缩比0.5进行压缩，可以得到一个五个字的压缩文本，如“天空真蓝啊”或者“天空真美啊”等文本；假设有一个句B2对应的句子压缩比为0.4，以及假设该句子A2为“大家可以去公园里赏花拍照放风筝”，将该句子B2按照对应的句子压缩比0.4进行压缩，可以得到一个六个字的压缩文本，如“赏花拍照风筝”或者“公园赏花拍照”等文本，从而可以得到目标压缩文本为“天空真蓝啊，赏花拍照风筝”或者“天空真美啊，公园赏花拍照”等。

或者，还可以是根据每个句子的句子压缩比从语言压缩模型集合中，选取合适的语言压缩模型进行压缩，得到每个句子对应的压缩文本，从而整合得到目标文本对应的目标压缩文本。

进一步地，在实时直播场景中，可以根据延迟时长获取到的每个句子对应的句子压缩比分别对目标文本中的每个句子进行压缩，以获取到目标压缩文本。

例如，假设一个目标文本中的一个句子A3对应的句子压缩比为0.6，以及假设句子A3为“这里流淌的湖水真清澈可以倒映出蓝天和白云”，将该句子A3按照该对应的句子压缩比0.6进行压缩，可以得到一个十二个字的压缩文本，如“湖水清澈倒映出蓝天和白云”或者“湖水真清澈倒映出蓝天白云”等文本；假设一个句子B3对应的句子压缩比为0.5，以及假设句子B3为“连绵不绝的青山郁郁葱葱的树木”，将该句子B3按照该对应的句子压缩比0.6进行压缩，可以得到一个七个字的压缩文本，如“连绵不绝的青山”或者“郁郁葱葱的树木”等文本，从而可以得到目标压缩文本为“湖水真清澈倒映出蓝天白云，连绵不绝的青山”或者“湖水清澈倒映出蓝天和白云，郁葱葱的树木”等。

在步骤S104中，将目标压缩文本输入至手语视频生成模型，通过手语视频生成模型生成目标手语视频。

在本实施例中，在获取到目标压缩文本之后，可以将目标压缩文本输入至手语视频生成模型，通过手语视频生成模型生成目标手语视频，使得基于目标压缩文本生成的手语视频的手语时长能够接近目标文本对应的目标时间，手语视频中的手语语速能够接近目标文本对应的口语语速，可以实现与原音视频搭配的手语视频声画尽可能同步的效果。

具体地，如图18所示，在获取到目标压缩文本之后，可以手语翻译模块使用机器翻译技术对对目标文本进行语序转换，将获取到的目标文本的文本语序翻译成手语语序，以生成手语表征信息，其中，文本语序具体可以表现为听人语序，还可以表现为其他语序，如其他自然语言语序，此处不作具体限制，听人语序指的是符合汉语普通话语法结构或表达习惯的文本语序，如汉语口语语序。

进一步地，在获取到的目标压缩文本对应的手语表征信息之后，可以基于视频合成模块通过多模态端到端生成模型，使用目标压缩文本对应的手语表征信息进行联合建模及预测，能够生成与目标压缩文本相对应的动作、表情、唇动等序列，再通过驱动模块使用如超写实数字对象驱动将这些序列合成支持手形、肢体动作、面部表情和口型等手语表达的数字对象视频即目标手语视频。

在本申请实施例中，提供了一种视频生成方法，通过上述方式，能够根据目标时间为目标文本中的每个句子确定一个句子压缩比，使得基于句子压缩比可以生成文本字符数小于目标文本初始的文本字符数的目标压缩文本，从而使得基于目标压缩文本生成的手语视频中的手语语速能够接近目标文本对应的口语语速，以减小手语语速与口语语速之间的差距，达到手语视频中声画尽可能同步的效果。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成方法另一个可选实施例中，如图3所示，当目标时间为播放时长时；步骤S102根据目标时间，为目标文本中的每个句子确定一个句子压缩比，包括：步骤S201，以及步骤S103包括：步骤S202；

在步骤S201，调用语言压缩模型集合，根据语言压缩模型集合以及目标时间确定与目标文本对应的目标压缩比，其中，目标压缩比为每个句子的句子压缩比的组合，或目标压缩比为所有句子的句子压缩比，语言压缩模型集合中的每个语言压缩模型分别设置有对应的一个压缩比；

在步骤S202中，根据目标压缩比以及目标文本，生成目标压缩文本。

在本实施例中，在获取到目标文本和目标时长之后，当目标时间为播放时长时，可以调用语言压缩模型集合，根据语言压缩模型集合以及目标时间确定与目标文本对应的目标压缩比，然后可以根据目标压缩比以及目标文本，生成目标压缩文本，使得后续基于目标压缩文本生成的手语视频的手语时长能够接近目标文本对应的目标时间，手语视频中的手语语速能够接近目标文本对应的口语语速，可以实现与原音视频搭配的手语视频声画尽可能同步的效果。

其中，目标压缩比可以是一个或者多个，即目标压缩比可以表现为每个句子的句子压缩比的组合，或目标压缩比为可以表现为所有句子的句子压缩比。语言压缩模型集合包括若干个语言压缩模型，每个语言压缩模型分别设置有对应的一个压缩比。

具体地，在获取到在获取到目标文本和目标时长之后，当目标时间为播放时长时，可以调用语言压缩模型集合，根据语言压缩模型集合以及目标时间确定与目标文本对应的目标压缩比，具体可以是通过依次将获取到的目标文本的每个句子输入至语言压缩模型集合进行压缩，可以得到与每个句子相对应的初始压缩文本集合，其中，该初始压缩文本集合包括若干个不同的初始压缩子文本，然后，可以分别从每个句子相对应的初始压缩文本集合中任意选取一个初始压缩子文本，以获取到目标文本对应的若干个候选压缩组合，从而从若干个候选压缩组合中筛选出最符合播放时长的目标压缩组合，则可以将目标压缩组合中的每个初始压缩子文本对应的压缩比作为句子压缩比。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的视频生成方法另一个可选实施例中，如图4所示，步骤S201调用语言压缩模型集合，根据语言压缩模型集合以及目标时间确定与目标文本对应的目标压缩比，包括：

在步骤S301中，依次将目标文本的每个句子输入至语言压缩模型集合进行压缩，得到与每个句子相对应的初始压缩文本集合；

在步骤S302中，分别从每个句子相对应的初始压缩文本集合中选取任一个初始压缩子文本，得到目标文本对应的若干个候选压缩组合；

在步骤S303中，从若干个候选压缩组合中确定符合播放时长的目标压缩组合；

在步骤S304中，将目标压缩组合中的每个初始压缩子文本对应的压缩比作为句子压缩比。

在本实施例中，在获取到目标文本和播放时长之后，可以依次将目标文本的每个句子输入至语言压缩模型集合进行压缩，以获取到与每个句子相对应的初始压缩文本集合，然后可以分别从每个句子相对应的初始压缩文本集合中选取任一个初始压缩子文本，以获取到目标文本对应的若干个候选压缩组合，可以从若干个候选压缩组合中确定符合播放时长的目标压缩组合，并将目标压缩组合中的每个初始压缩子文本对应的压缩比作为句子压缩比，以使后续可以使用每个句子的句子压缩比对目标文本进行处理，使得基于处理后的文本生成的手语视频的画面播放时长能够接近原音视频中的播放时长，以维护生成的手语视频的声画同步。

具体地，如图18所示，在获取到目标文本和播放时长之后，可以依次将目标文本的每个句子输入至语言压缩模型集合进行压缩，以获取到与每个句子相对应的初始压缩文本集合，具体可以是将从目标文本中的第一句子开始，依次将每个句子分别输入至语言压缩模型集合中的每个语言压缩模型中，可以通过每个语言压缩模型输出每个句子对应压缩文本，即初始压缩子文本，可以将每个初始压缩子文本整合为每个句子的初始压缩文本集合。

例如，假设一个语言压缩模型集合中有两个语言压缩模型，每个语言压缩模型对应有一个压缩比，假如分别为C1和C2，如果一个目标文本中有三个句子，分别为S1、S2和S3，可以依次将句子S1、S2和S3输入至该语言压缩模型中，可以得到句子S1对应的初始压缩文本集合包括初始压缩子文本C11和C21，以及句子S2对应的初始压缩文本集合包括初始压缩子文本C12和C22，以及句子S3对应的初始压缩文本集合包括初始压缩子文本C13和C23。

可以理解的是，为了便于文本管理以及查询，在获取到每个句子对应的初始文本集合后，可以将所有初始压缩文本集合进行整合，以获取到目标文本对应的初始压缩文本网络，如图18所示意的虚线框中所表示的是一个目标文本有N个句子，每个句子都会有经过M个语言压缩模型压缩后的M个初始压缩子文本，即一个初始压缩文本集合，可以与N个句子进行组合就可以形成一个N*M的网络，即目标文本对应的初始压缩文本网络。

进一步地，可以分别从每个句子相对应的初始压缩文本集合中选取任一个初始压缩子文本，以获取到目标文本对应的若干个候选压缩组合，具体可以是从依次从每个句子相对应的初始压缩文本集合中任意选取一个初始压缩子文本，可以得到若干个顺序的文本压缩组合，即目标文本对应的若干个候选压缩组合。

例如，假设继续使用上述句子S1、S2和S3对应的初始压缩文本集合的例子，可以分别从集合C11和C21、集合C12和C22以及集合C13和C23中任意选取一个初始压缩子文本，可以得到候选压缩集合“C11-C12-C13”、“C11-C12-C23”、“C11-C22-C13”、“C11-C22-C23”、“C21-C12-C13”、“C21-C12-C23”、“C21-C22-C13”以及“C21-C22-C23”。

进一步地，可以从若干个候选压缩组合中确定符合播放时长的目标压缩组合，并将目标压缩组合中的每个初始压缩子文本对应的压缩比作为句子压缩比，具体可以是将若干个候选压缩组合中的每个候选压缩组合分别进行手语翻译，以获取到每个候选压缩组合对应的手语时长，然后，可以将每个候选压缩组合对应的手语时长分别与播放时长进行比对，可以获取到与播放时长相同或最接近的目标手语时长，即目标文本的转换为手语视频的手语时长与播放时长最接近，则可以将该目标手语时长对应的候选压缩组合是符合播放时长的组合，即目标压缩组合，目标压缩组合中的每个初始压缩子文本对应的压缩比即为句子压缩比。

例如，假设目标文本对应的播放时长为60s，假如候选压缩集合“C11-C12-C13”、“C11-C12-C23”、“C11-C22-C13”、“C11-C22-C23”、“C21-C12-C13”、“C21-C12-C23”、“C21-C22-C13”以及“C21-C22-C23”经过手语翻译，分别对应的手语时长为50s、62s、67s、56s、61s、57s、55s和63s，将这些手语时长分别与播放时长进行比对，可知，“C21-C12-C13”符合播放时长，则可以将“C21-C12-C13”对应的C2作为句子S1的句子压缩比，将C1作为句子S2的句子压缩比，将C1作为句子S3的句子压缩比。

可选地，在上述图4对应的实施例的基础上，本申请实施例提供的视频生成方法另一个可选实施例中，如图5所示，语言压缩模型的训练包括以下步骤：

在步骤S401中，获取与每个语言压缩比相对应的训练样本对，其中，训练样本对包括训练原始样本以及训练压缩样本，训练压缩样本为字符数小于训练原始样本，且与训练原始样本之间的相似度大于相似阈值的文本；

在步骤S402中，将训练样本对以及基础压缩比输入语言压缩模型，通过语言压缩模型输出样本压缩文本；

在步骤S403中，计算样本压缩文本与训练压缩样本之间的文本相似度；

在步骤S404中，根据文本相似度对样本压缩文本进行损失计算，得到压缩损失结果；

在步骤S405中，根据压缩损失结果对语言压缩模型的模型参数进行更新。

在本实施例中，在调用语言压缩模型集合之前，可以获取与每个语言压缩比相对应的训练样本对，将训练样本对以及基础压缩比输入语言压缩模型，可以通过语言压缩模型输出样本压缩文本，计算样本压缩文本与训练压缩样本之间的文本相似度，并可以根据文本相似度对样本压缩文本进行损失计算，以获取压缩损失结果，然后，可以根据压缩损失结果对语言压缩模型的模型参数进行更新，能够通过使用不同压缩程度的训练样本对来更好地训练得到M个压缩比分别对应的M个语言压缩模型，以使后续可以通过M个语言压缩模型更精确地获取到每个摘要句子对应的M个候选压缩文本。

其中，训练样本对包括训练原始样本以及训练压缩样本，训练压缩样本是文本字符数小于训练原始样本的文本字符数的文本，以及训练压缩样本来源于训练原始样本，训练压缩样本是训练原始样本中的某一个段落，训练压缩样本与训练原始样本之间的相似度大于相似阈值。

具体地，在调用语言压缩模型集合之前，可以获取训练原始样本以及与训练原始样本相对应的M个训练压缩样本，具体可以是通过自动挖掘的方式，先在互联网上爬取文章即训练原始样本，再使用文章标题去训练原始样本中检索到相似的片段，这样就可以将(找出的相似片段，文章标题)当做训练原始文本的压缩结果即训练压缩样本。

进一步地，可以使用训练压缩样本的字数除以训练原始样本的字数，来计算得到挖掘到的数据对的压缩比，然后，可以按照压缩比程度对构造的数据进行分类，即可以根据M个压缩比对训练原始样本以及M个训练压缩样本进行分类，得到与每个压缩比相对应的训练样本对，同时，可以通过对同一个训练原始样本进行压缩比标注，例如，在不改变训练原始样本语义的情况下分别标注对应的M种如三种压缩程度的训练压缩样本。

进一步地，在获取到每个语言压缩比相对应的训练样本对之后，可以将训练样本对以及对应的语言压缩比输入语言压缩模型，则可以通过语言压缩模型输出与语言压缩比相对应的样本压缩文本，具体可以是采用如图22所示的T5-pegasus预训练语言模型的encoder-decoder架构，可以先通过encoder可以对每个摘要句子进行建模，即在预训练时，可以选择摘要句子中要重要的词语进行掩码mask处理，并被mask后的句子gap-sentence进行拼接得到为伪摘要句子，然后，可以通过decoder可以解码还原被mask掉的词语。

其中，重要句子或词语的选择方式具体可以是通过假如摘要文本中有n个句子或摘要句子中有n个词语，使用贪心算法逐步得从摘要文本中选择四分之n个句子，或从摘要句子中选择四分之n个词语，使得被选择出的n个句子拼接起来的文本和剩余的3n/4句子拼接起来的文本最长公共子序列尽可能长，或使得被选择出的n个词语拼接起来的文本和剩余的3n/4词语拼接起来的文本最长公共子序列尽可能长：

1)选择第1个句子或词语，使得它跟生成的n-1个句子或词语的最长公共子序列最长；

2)加入已经找到了k个句子或词语，再继续找第k+1个句子或词语，使得这k+1个句子拼起来的文本，跟剩下的n-k-1个句子拼起来的文本的最长公共子序列最长，或使得这k+1个词语拼起来的文本，跟剩下的n-k-1个词语拼起来的文本的最长公共子序列最长。

进一步地，可以采用修改decoder架构中的解码方式，以使的压缩得到的样本压缩文本中的词语都来源与训练样本对，从而保证压缩结果的正确性，具体可以是通过修改decoder解码时的解码空间，可以将解码空间强制为编码器输入的训练样本对所对应的词空间，其中，词空间指从文本符号转化为向量表征后的空间向量，这里的约束是指在解码输出的词向量限制只能来源于编码器输入的词向量，从而可以通过这种强制解码策略，使得解码后得到的样本压缩文本尽可能地忠于训练样本对，样本压缩文本中的词语必须在训练样本对中出现过，以缓解生成模型因约束不合理导致的样本压缩文本信息错误的情况。

进一步地，在获取到样本压缩文本之后，可以计算样本压缩文本与训练压缩样本之间的文本相似度，如余弦相似度，并可以根据文本相似度对样本压缩文本进行损失计算，以获取压缩损失结果，然后，可以根据压缩损失结果对语言压缩模型的模型参数进行更新，使得语言压缩模型收敛，具体可以是使用Multi-Task进一步约束语言压缩模型生成语义与压缩训练样本相似或相同的样本压缩文本。

其中，由于如图19所示的T5-pegasus预训练语言模型整体采用Seq2Seq架构，通常在训练时使用的损失函数为Cross Entropy Loss，但是，Cross Entropy Loss需要与预设的标签Label严格匹配，而对于生成式任务而言，理论上正确的Label不止一个，因此，为了使得语言压缩模型能够预测出语义与训练样本对相似或相同的样本压缩文本，本实施例采用对模型进行鼓励的方式，具体可以是通过使用相似度损失函数，即使用Cross EntropyLoss以及Similarity Loss结合的Multi-Task训练任务，其中，可以采用余弦相似度CosineSimialrity来衡量模型的输出结果与Golden之间的相似度，同时，可以采用Margin Loss损失函数来计算最终的压缩损失结果Loss，具体计算公式如下：

其中，x₁表示训练压缩样本所对应的向量,x₂表示样本压缩文本所对应的向量，y为标签(如y＝1时表示相似，y＝-1时表示不相似)，可以用来学习衡量两个输入的向量是否相似。

可以理解的是，该损失函数鼓励相似样本之间的余弦相似度越大越好，同时鼓励非相似样本之间的余弦相似度小于预先设定的相似阈值Margin。其中，x₁和x₂具体可以是基于Transformer模型计算得到的结果，并可以采用average pooling算法得到句子的向量表示。

进一步地，由于样本训练文本生成的过程是一个离散的过程，在每一个time step时，可以使用argmax函数来确定当前时刻生成的token，但是argmax函数是不可导的，容易在计算x₁和x₂之间的cosine similarity loss时，可能会导致梯度无法回传的情况，因此，本实施例采用soft-sentence embedding，可以将每一个time step时，模型预测出的关于next token的概率分布当作是类似于独热编码one-hot的标签label，然后，可以采用矩阵乘法的方式，将概率分布与word embedding相乘，得到的结果作为该时刻预测出的nexttoken对应的embedding的一个近似，且经验证得到在自动化指标rouge2、rouge3以及BLEU4上，使用Multi-task训练的语言压缩模型均有了一定程度的提高。

进一步地，可以使用不同压缩程度的训练样本对来训练得到多个不同压缩比对应的语言压缩模型，具体可以在Encoder端使用Prompt token来控制样本压缩文本的生成的长度，其中，由于在Seq2Seq架构的预训练模型中，Special Token可以起到prompt的作用，因此，本实施例可以使用和预训练模型(<CLS>Text<SEP>)不同的Special Token(<BOS>Text<EOS>)进行训练，通过使用不同的special token(<BOS>Text<EOS>，<CLS>Text<EOS>，<CLS>Text<SEP>)进行推理inference，可以控制样本压缩文本的生成的长度。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成方法另一个可选实施例中，如图6所示，当目标时间为播放时长时；根据目标时间，为目标文本中的每个句子确定一个句子压缩比，包括：

在步骤S501中，根据目标文本中的每个句子的长度，对播放时长进行划分，得到每个句子对应的句子时间段；

在步骤S502中，根据每个句子对应的句子时间段，为每个句子确定一个句子压缩比。

在本实施例中，在获取的目标文本以及目标文本对应的播放时长后，可以根据目标文本中的每个句子的长度，可以对播放时长进行划分，以获取到每个句子对应的句子时间段，然后，可以根据每个句子对应的句子时间段，为每个句子确定一个句子压缩比，以使后续可以使用每个句子的句子压缩比对目标文本进行处理，使得基于处理后的文本生成的手语视频的画面播放时长能够接近原音视频中的播放时长，以维护生成的手语视频的声画同步。

具体地，在获取的目标文本以及目标文本对应的播放时长后，可以根据目标文本中的每个句子的长度和句子的总数，可以对播放时长进行时段划分，可以获取到每个句子对应的句子时间段，例如，假设一个目标文本的有三个句子，播放时长为54s，假设一个句子A4对应的句子长度为8，一个句子B4对应的句子长度为12，以及一个句子C4对应的句子长度为16，即句子间的长度比为2:3:4，可以根据该长度比依次将播放时长划分为，句子A4对应的句子时间段为12s，句子B4对应的句子时间段为18s，以及句子C4对应的句子时间段为24s。

进一步地，在获取到每个句子对应的句子时间段之后，可以根据每个句子对应的句子时间段与每个句子对应的手语表达的时长之间的比例关系，来获取到每个句子对应的句子压缩比，或者，根据每个句子对应的句子时间段以及句子的长度，通过位移公式，获取每个句子的播放速度，然后，可以根据句子的播放速度与每个句子对应的手语播放速度之间的比例关系，来获取到每个句子对应的句子压缩比，或者，还可以采用其他获取方式，此处不做具体限制。

可选地，在上述图6对应的实施例的基础上，本申请实施例提供的视频生成方法另一个可选实施例中，如图7所示，根据每个句子对应的句子时间段，为每个句子确定一个句子压缩比，包括：

在步骤S601中，获取每个句子所对应的句子手语时长；

在步骤S602中，计算每个句子时间段的长度与句子手语时长之间的时长比值；

在步骤S603中，将时长比值作为句子压缩比。

在本实施例中，在获取到的目标文本以及每个句子对应的句子时间段之后，可以获取到每个句子所对应的句子手语时长，进而可以将每个句子时间段的长度与句子手语时长之间的时长比值，作为句子压缩比，以使后续可以使用每个句子的句子压缩比对目标文本进行处理，使得基于处理后的文本生成的手语视频的画面播放时长能够接近原音视频中的播放时长，以维护生成的手语视频的声画同步。

具体地，在获取到的目标文本以及每个句子对应的句子时间段之后，可以获取到每个句子所对应的句子手语时长，具体可以是将每个句子输入至手语翻译模型中进行手语转化，可以通过手语翻译模型获取到每个句子对应的手语表达的时长，即句子手语时长。

例如，假设一个目标文本中的句子依次为“今天天气真好阳光明媚”、“小伙伴们约定好要一起到郊外去野餐”、“乘坐的交通工具是中型巴士”，其中，“今天天气真好阳光明媚”对应的句子手语时长为6s,“小伙伴们约定好要一起到郊外去野餐”对应的句子手语时长为10s，以及“乘坐的交通工具是中型巴士”对应的句子手语时长为8s。

进一步地，可以将每个句子时间段的长度与句子手语时长之间的时长比值，作为句子压缩比，其中，为了使得目标文本对应的原音视频的时间轴与生成的手语视频的时间轴能够对齐，可以按照句子在目标文本中的顺序，依次计算原音视频的时间轴上对应的每个句子时间段与句子手语时长之间的比值，可以依次获取到每个句子对应的句子压缩比。

例如，假设一个目标文本进行口播原声时，该目标文本对应的时间轴上的划分的每个句子对应的句子时间段分别为S1、S2和S3，假设句子时间段分别S1为3s、S2为6s、S3为5s，假设继续使用上述各个摘要句子对应的摘要手语翻译时长，可以分别计算句子时间段S1与“今天天气真好阳光明媚”对应的句子手语时长之间的句子压缩比为0.5，句子时间段S2与“小伙伴们约定好要一起到郊外去野餐”对应的句子手语时长之间的句子压缩比为0.6，以及句子时间段S3与“乘坐的交通工具是中型巴士”对应的句子手语时长之间的句子压缩比为0.64。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成方法另一个可选实施例中，如图8所示，当目标时间为延迟时长时；根据目标时间，为每个句子确定一个句子压缩比，包括：

在步骤S701中，将延迟时长与延迟阈值进行比对，确定每个延迟时长属于的延迟范围；

在步骤S702中，根据延迟范围与压缩比之间的关系，得到目标文本对应的压缩比，并将压缩比作为句子压缩比。

在本实施例中，在获取到目标文本和目标时间后，如果当目标时间为延迟时长时，可以理解为该目标文本为实时直播场景中实时播放的视频流中提取到的目标文本，则可以将延迟时长与延迟阈值进行比对，来确定每个延迟时长属于的延迟范围，然后，可以根据延迟范围与压缩比之间的关系来获取每个目标文本对应的压缩比，并可以将该压缩比作为句子压缩比，以使后续可以使用每个句子的句子压缩比对目标文本进行处理，使得基于处理后的文本生成的手语视频的画面播放时长能够接近原音视频中的播放时长，以维护生成的手语视频的声画同步。

具体地，如果当目标时间为延迟时长时，可以理解为该目标文本为实时直播场景中实时播放的视频流中提取到的目标文本，则可以预先设置的延时时间范围即延迟范围，以及与延迟范围相对应的压缩比，进而可以将获取到的延迟时长与延迟阈值进行比对，可以确定延迟时长落入的延迟范围，然后，可以根据延迟时长落入的延迟范围来选定目标文本对应的压缩比，作为每个句子对应的句子压缩比，其中，延迟阈值是根据实际设置的延迟范围进行设置的，此处不作具体限制。

例如，假设一个目标文本P1对应的延迟时长为0.6s，另一个目标文本P2的延迟时长为1s,假设延迟范围以及与延迟范围相对应的压缩比有0s(不包括0s)至0.8s对应的压缩比0.8，以及对应的延迟阈值为0.8，或0.8s(不包括0.8s)至2s对应的压缩比0.6，以及对应的延迟阈值为2，或大于2s(不包括2s)对应的压缩比0.4等，通过将延迟时长分别与延迟阈值进行比对，可知该目标文本P1对应的延迟时长属于的延迟范围为0s(不包括0s)至0.8s，则该目标文本P1对应的压缩比为0.8，即目标文本P1中每个句子的句子压缩比为0.8，同理，可知该目标文本P2对应的延迟时长属于的延迟范围为0.8s(不包括0.8s)至2s，则该目标文本P2对应的压缩比为0.6，即目标文本P1中每个句子的句子压缩比为0.6。

可选地，在上述图8对应的实施例的基础上，本申请实施例提供的视频生成方法另一个可选实施例中，如图9所示，根据句子压缩比以及目标文本，生成目标压缩文本，包括：

在步骤S801中，调用语言压缩模型集合，从语言压缩模型集合中确定与句子压缩比对应的目标语言压缩模型，其中，语言压缩模型集合中的每个语言压缩模型分别设置有对应的一个压缩比；

在步骤S802中，将每个句子输入至目标语言压缩模型，通过目标语言压缩模型输出压缩子文本；

在步骤S803中，将压缩子文本进行合并，得到目标压缩文本。

在本实施例中，在获取到每个句子的句子压缩比之后，可以调用语言压缩模型集合，由于语言压缩模型集合中的每个语言压缩模型分别设置有对应的一个压缩比，则可以从语言压缩模型集合中确定句子压缩比对应的目标语言压缩模型，并将每个句子输入至对应的目标语言压缩模型，通过目标语言压缩模型输出压缩子文本，然后可以将压缩子文本进行合并，以获取到目标压缩文本，使得后续基于目标压缩文本生成的手语视频的手语时长能够接近目标文本对应的目标时间，手语视频中的手语语速能够接近目标文本对应的口语语速，可以实现与原音视频搭配的手语视频声画尽可能同步的效果。

其中，语言压缩模型集合包括若干个语言压缩模型，每个语言压缩模型分别设置有对应的一个压缩比，语言压缩模型具体可以表现为如图22所示的压缩式摘要算法模型如T5-pegasus预训练语言模型，还可以表现为其他语言模型，此处不作具体限制。

具体地，在获取到每个句子的句子压缩比之后，可以调用语言压缩模型集合，从语言压缩模型集合中遍历到与句子压缩比相同的压缩比对应的语言压缩模型，可以得到每个句子对应的语言压缩模型，即目标语言压缩模型，然后，可以依次将每个句子输入至对应的目标语言压缩模型中，通过目标语言压缩模型输出压缩子文本，最后，可以将依次输出的压缩子文本进行合并，以获取到目标压缩文本。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成方法另一个可选实施例中，如图10所示，步骤S101获取目标文本，包括：

在步骤S901中，获取原始文本，其中，原始文本包含至少两个句子；

在步骤S902中，根据语句重要程度信息对原始文本的句子进行抽取，得到目标文本。

在本实施例中，在获取目标文本之前，可以获取包含至少两个句子的原始文本，然后，可以根据语句重要程度信息对原始文本进行抽取，可以获取到更加准确精简的目标文本。

其中，原始文本具体可以表现为听人文本，还可以表现为其他文本，如其他自然语言文本等，此处不作具体限制。听人文本指的是符合汉语普通话语法结构或表达习惯的文本，如汉语口语文本。语句重要程度信息具体可以表现为包含的关键词比重、在原始文本中的篇幅、在原始文本中出现的频率以及表达的语义为反映原始文本主题对应的分值等，还可以表现为其他语句重要程度信息，此处不做具体限制。

具体地，在非实时转播场景中，可以对待播放的原音视频的进行语音文本识别，以获取原始文本，具体可以是将待播放的原音视频输入至语言识别模型中进行识别并翻译，可以通过语言识别模型获取到待播放的原音视频的原始文本，其中，语言识别模型具体可以是采用如图18所示的ASR识别模型，还可以是采用其他语言识别模型，Transformer模型、Seq2Seq模型或Beamsearch模型等，此处不做具体限制。

进一步地，在实时直播场景中，可以定时如每7s采集一段真人播报的句子，然后，可以将因为延时而出现的未来得及生成手语视频而堆积句子群作为原始文本。

进一步地，在获取到原始文本之后，可以根据语句重要程度信息对原始文本进行抽取，得到目标文本，具体可以是按照每个句子在原始文本中出现的频率，将频率大于预设频率阈值的句子合并为目标文本，还可以是采用其他语句重要程度信息来获取目标文本，此处不做具体限制。

可选地，在上述图10对应的实施例的基础上，本申请实施例提供的视频生成方法另一个可选实施例中，如图11所示，步骤S902按照语句重要程度对原始文本进行抽取，得到目标文本，包括：

在步骤S1001中，将原始文本划分为至少两个文本段；

在步骤S1002中，根据语句重要程度信息对至少两个文本段中的每个文本段分别进行句子抽取，得到每个文本段对应的摘要文本；

在步骤S1003中，根据每个文本段在原始文本中的位置，对摘要文本进行整合，得到目标文本。

在本实施例中，在获取到原始文本之后，可以将原始文本划分为至少两个文本段，然后，可以根据语句重要程度信息对至少两个文本段中的每个文本段分别进行句子抽取，以获取到每个文本段对应的摘要文本，并根据每个文本段在原始文本中的位置，对摘要文本进行整合，以获取到目标文本，可以将原始文本精简或压缩为目标文本，然后可以按照获取到的句子压缩比以及目标文本，生成更加精简且语义与目标文本相似或相同的目标压缩文本，以使后续可以基于更加精简且语义与目标文本相似或相同的目标压缩文本生成的手语视频，使得手语视频中的手语动画时长能够更加接近目标文本对应的口语播放时长，即手语视频中的手语语速能够更加接近目标文本对应的口语语速，从而更好地实现与原音视频搭配的手语视频声画尽可能同步的效果。

具体地，由于在使用基于语言压缩模型如预训练语言模型对应目标文本进行压缩时，会对文本字数有限制(如512字或1024字)，因此，为了能够更好对目标文本进行压缩，在获取到原始文本之后，可以对原始文本进行语义分段，具体可以是将原始文本转化为若干个句子，再将若干个句子通过语义识别模型获取到每个句子对应的语义，然后，可以按照句子的语义以及预设的段落长度范围等属性对应原始文本进行切分，以获取多至少两个段落，即文本段，还可以通过其他切分方式获取文本段，此处不作具体限制。

进一步地，为了使得听障对象能够从目标压缩文本生成的手语视频中获取到尽量全的信息量，需要使得目标压缩文本与目标文本表达的语义相似或相同，因此，在获取到至少两个文本段后，根据语句重要程度信息对至少两个文本段中的每个文本段分别进行摘要抽取，得到每个文本段对应的摘要文本，然后，在获取到摘要文本之后，根据每个文本段在原始文本中的位置，依次将摘要文本进行整合在一起，以获取到目标文本。

可选地，在上述图11对应的实施例的基础上，本申请实施例提供的视频生成方法另一个可选实施例中，如图12所示，当重要程度信息为摘要分值时；步骤S1002根据语句重要程度信息对至少两个文本段中的每个文本段分别进行句子抽取，得到每个文本段对应的摘要文本，包括：

在步骤S1101中，对每个文本段进行分句处理，得到至少两个句子；

在步骤S1102中，对至少两个句子分别进行向量转换，得到每个句子对应的句向量；

在步骤S1103中，将每个句子对应的句向量输入至分类器，通过分类器输出每个句子对应的句向量对应的摘要分值；

在步骤S1104中，将摘要分值大于或等于摘要阈值的句子作为摘要句子，以获取摘要文本。

在本实施例中，如图17所示，由于当出现生成的手语视频与原因视频的声画不同步时，通常会对未生成手语视频的堆积的句子进行随机丢弃，而随机丢弃时没有考虑被丢弃的堆积句子的语义信息，会导致原音视频中的信息不能完整或准确地传达给听障对象，甚至会导致传达的信息出现错误的情况，因此，在获取到原始文本的至少两个文本段之后，本实施例可以对每个文本段进行分句处理，以获取至少两个句子，并可以对至少两个句子分别进行向量转换，以获取到每个句子对应的句向量，进而，当重要程度信息为摘要分值时，可以将每个句子对应的句向量输入至分类器，通过分类器输出每个句子对应的句向量对应的摘要分值，然后，可以将摘要分值大于或等于摘要阈值的句子作为摘要句子，以获取摘要文本，能够将原始文本的文本段精简为与原始文本的文本段表达的语义相似或相同的摘要文本，使得后续可以基于摘要文本获取到的目标文本，更准确地压缩得到与目标文本表达的语义相似或相同的目标压缩文本，从而可以使得听障对象能够从目标压缩文本生成的手语视频中获取到准确完整的信息量。

具体地，如图21所示，为了使得手语翻译场景的获取到的摘要文本能够尽可能地忠实于目标文本，以及尽可能避免生成目标文本之外的摘要表述，本实施例基于Bertsum算法搭建具有抽取式段落摘要的能力的基础模型，其中，抽取式摘要范式具体可以表现为句子编码、句子打分和摘要选择。

进一步地，在获取到至少两个文本段之后，对每个文本段进行分句处理，以获取至少两个句子，具体可以是按照文本段中的句子的标点符号进行句子切分，可以得到至少两个句子，还可以采用其他分句方式，此处不作具体限制。

进一步地，在获取到至少两个句子之后，可以对至少两个句子分别进行向量转换，以获取到每个句子对应的句向量，具体可以是采用如图21所示的Bertsum基础模型分别对每个句子进行句子编码，通过Bertsum基础模型中的[CLS]token经过bert处理后，可以得到的对应向量编码为T[CLS]所跟着的向量编码，每个向量编码都是机器可使用的向量。

进一步地，在获取到每个句子对应的句向量之后，可以将每个句子对应的句向量输入至分类器，通过分类器输出每个句子对应的句向量对应的摘要分值，具体可以是采用Bertsum基础模型中的线性分类器对句子编码T[CLS]进行句子打分，通过分类器输出的得分即为每个句子的摘要分值，然后，可以将摘要分值与预设的摘要阈值进行比对，如果当句子的摘要分值大于或等于摘要阈值时，可以理解为该句子是语义与文本段的语义相同的重要句子，可以作为摘要句子，从而可以将每个文本段依次获取到的摘要句子，按照目标文本中的每个句子的先后顺序进行拼接，可以获取到顺序的摘要文本。

可选地，在上述图11对应的实施例的基础上，本申请实施例提供的视频生成方法另一个可选实施例中，如图13所示，步骤S1001将原始文本划分为至少两个文本段，包括：步骤S1201或步骤S1202；

在步骤S1201中，按照语义相关度，对原始文本进行切分，得到至少两个文本段；

在步骤S1202中，按照预设的文本长度，将原始文本切分为至少两个文本段。

在本实施例中，在获取到原始文本之后，可以按照语义相关度，对原始文本进行切分，得到至少两个文本段，可以更精确地获取到能够表达相同或相似语义的句子划分为同一文本段，或者，也可以按照预设的文本长度，将原始文本切分为至少两个文本段，可以快速地将原始文本进行切分，可以在一定程度上提高生成手语视频的效率，还可以采用其他方式对原始文本进行切分，此处不做具体限制。

具体地，在获取到原始文本之后，可以按照语义相关度，对原始文本进行切分，得到至少两个文本段，具体可以是将语义相关度大于或等于预设相似阈值的相邻句子划分为同一文本段，可以得到至少两个文本段；或者，也可以按照预设的文本长度，将原始文本切分为至少两个文本段，具体可以是从第一个字符开始，依次从原始文本中选取与预设的文本长度相同的段落，作为一个文本段，还可以采用其他方式对原始文本进行切分，此处不做具体限制。

可选地，在上述图13对应的实施例的基础上，本申请实施例提供的视频生成方法另一个可选实施例中，如图14所示，按照语义相关度，对原始文本进行切分，得到至少两个文本段，包括：

在步骤S1301中，从原始文本中提取若干个主题词语，其中，主题词语用于表示原始文本的主题类型；

在步骤S1302中，根据若干个主题词语，对原始文本划分，得到每个主题词语对应的第一文本段；

在步骤S1303中，计算两个相邻的第一文本段之间的语义相关度；

在步骤S1304中，将语义相似度大于或等于相似阈值的基础文本段进行合并，得到至少两个文本段。

在本实施例中，在获取到原始文本之后，可以从原始文本中提取若干个能够用于表示原始文本的主题类型主题词语，并根据若干个主题词语，对原始文本划分，以获取到每个主题词语对应的第一文本段，然后，可以计算两个相邻的第一文本段之间的语义相关度，并将语义相似度大于或等于相似阈值的基础文本段进行合并，能够根据两个相邻第一文本段之间的语义相关度，将表示相似或相同语义的第一文本段合并为一个文本段，可以对原始文本进行更准确地切分，从而可以更好地获取到原始文本对应的至少两个文本段。

具体地，如图18所示，在获取到原始文本之后，可以从原始文本中提取若干个能够表示原始文本的主题类型主题词语，进而可以根据若干个主题词语，对原始文本划分，得到每个主题词语对应的第一文本段，并可以计算两个相邻的第一文本段之间的语义相关度，具体可以是采用LCSeg算法，使用两个相邻不重叠的第一滑动窗口依次滑过原始文本中的句子，得到第一文本段，可以将每个滑动窗口选中的多个句子构造成一个用于表示窗口主题的向量即每个第一文本段对应的向量，然后，可以计算两个第一文本段对应的向量之间的相似度，以获取到两个相邻的第一文本段之间的语义相关度，其中，计算相似度的方式可以采用余弦相似度计算方式，也可以采用其他相似度计算方式来获取目标相似度，如欧氏距离公式，此处不作具体限制。

其中，第一滑动窗口是两个相邻不重叠的窗口长度相同的滑动窗口，能够在原始文本上滑动进行文本截取。每个第一文本段包括一个主题词语。

进一步地，可以理解的是，由于不同的文本段可以表示为不同的主题，因此，当文本的主题发生较大变化时，可以进行分段，而主题的变化程度可以通过相邻第一文本段之间的相似度即语义相关度的变化来表示，故当相邻滑动窗口的对应的第一文本段之间的相似度发生较大变化时，即两个相邻第一文本段之间语义相关度的差值大于或等于预设的相似阈值，可以结合一定的规则(例如段落不能过长、过短，句间时间差不能过长过短等)，对原始文本进行分段，即可以将语义相似度大于或等于相似阈值的基础文本段进行合并，以获取到至少两个文本段。

例如，如图20所示，横坐标用于表示原始文本的字符数，纵坐标用于表示相邻第一文本段的语义相关度，曲线用于表示相邻第一文本段的语义相关度连接得到的曲线，分割曲线LCF的直线用于表示相邻第一文本段的语义相关度发生较大变化的地方，即对原始文本进行分段的位置。

可选地，在上述图14对应的实施例的基础上，本申请实施例提供的视频生成方法另一个可选实施例中，如图15所示，步骤S1301从原始文本中提取若干个主题词语，包括：

在步骤S1401中，根据预设的第二文本长度，从原始文本中提取多个第二文本段；

在步骤S1402中，对多个第二文本段中的每个第二文本段进行关键词筛选，得到每个第二文本段对应的候选关键词；

在步骤S1403中，根据候选关键词的词频，从每个第二文本段对应的候选关键词中确定原始文本的局部关键词；

在步骤S1404中，通过词汇链，将在原始文本上的位置距离小于距离阈值的局部关键词进行连接，得到若干个主题词汇链；

在步骤S1405中，从若干个主题词汇链的每个主题词汇链中抽取一个主题词，得到若干个主题词语。

在本实施例中，在获取到原始文本之后，可以根据预设的第二文本长度，从原始文本中提取多个第二文本段，并对多个第二文本段中的每个第二文本段进行关键词筛选，可以获取到每个第二文本段对应的候选关键词，并根据候选关键词的词频，从每个第二文本段对应的候选关键词中确定原始文本的局部关键词，然后，可以通过词汇链，将在原始文本上的位置距离小于距离阈值的局部关键词进行连接，以获取到若干个主题词汇链，并从若干个主题词汇链的每个主题词汇链中抽取一个主题词，以获取若干个主题词语，以使后续可以根据获取到主题词语更好地进行第一文本段的提取，从而可以更准确地对原始文本进行切分。

具体地，在获取到原始文本之后，可以根据预设的第二文本长度，从原始文本中提取多个第二文本段，具体可以是从原始文本的第一个字开始依次通过第二滑动窗口选中的文本，即第二文本段，然后，可以根据候选关键词的词频，从每个第二文本段对应的候选关键词中确定原始文本的局部关键词，具体可以是统计第二文本段中的每个词语出现的次数，将出现次数最多的词语作为每个第二文本段对应的候选关键词，还可以采用其他获取候选关键词的方式，此处不作具体限制。

其中，第二滑动窗口是根据实际应用需求进行设置窗口长度，如通常可以设置的500字的滑动窗口，能够在原始文本上滑动进行文本截取。

进一步地，在获取到每个第二文本段对应的候选关键词之后，可以根据候选关键词的词频，来计算每个候选关键词在目标文本中的局部重要程度，然后，可以根据每个候选关键词在原始文本中的局部重要程度，从每个第二文本段对应的候选关键词中确定原始文本的局部关键词，具体可以是根据每个候选关键词的词频，采用词频-逆文本频率指数(term frequency–inverse document frequency，tf-idf)算法来计算每个候选关键词在原始文本中的tf-idf值来表示局部重要程度，然后，可以将每个候选关键词在原始文本中的tf-idf值进行从大到小进行排序，选择排在前面topN(如选择前三分之一)的候选关键词作为原始文本的局部关键词。

其中，tf-idf算法中的tf是词频(term frequency)，idf是逆文本频率指数(inverse document frequency)。词频tf指的是如果某个词很重要，它应该在原始文本中多次出现即出现的频率。逆文本频率指数idf是一个权重，这个权重叫做“逆文档频率”，该权重的大小与一个词的常见程度成反比，例如，一个文本为“是在北京购买的烤鸭”，可以对最常见的词(如“的”、“是”或“在”等词)给予最小的权重，或是对较常见的词(如“北京”)给予较小的权重，还可以对较少见的词(如“购买”或“烤鸭”)给予较大的权重。tf-idf算法是将一个词对应的词频tf和逆文本频率指数idf进行两个值相乘，可以得到这个词的tf-idf值，可以理解的是某个词对原始文本的重要性越高，它的tf-idf值就越大，因此可以将排在最前面的候选关键词作为原始文本的局部关键词。

其中，计算候选关键词的词频具体可以是通过如下公式进行计算：

公式(1)词频＝候选关键词在目标文本中的出现次数÷目标文本的总词数；

公式(2)词频＝候选关键词在目标文本中的出现次数÷拥有最高词频的候选关键词的次数。

其中，计算候选关键词的逆文档频率，可以先构造一个语料库(corpus)，用来模拟语言的使用环境，再通过如下公式进行计算：

逆文档频率(IDF)＝log(语料库的文本总数÷包含该候选关键词的文本总数+1)。

进一步地，在获取到原始文本的局部关键词之后，可以通过使用词汇链，将在原始文本上的位置距离小于距离阈值的局部关键词进行连接，以获取到若干个主题词汇链，具体可以是通过获取每个局部关键词在原始文本中的分布情况，即每个局部关键词在原始文本上的位置，可以计算出两两局部关键词之间的位置距离，如果同一个局部关键词在原始文本中的位置较近，即位置距离小于距离阈值时，可以使用词汇链Lexical Chain连接这两个局部关键词所出现的位置，可以理解为，通过词汇链连接起来的这两个局部关键词对应的文本在讨论或表达和这个关键词相关的内容，即属于同一个主题，可以获取到若干个主题词汇链。

进一步地，在获取到若干个主题词汇链之后，可以从若干个主题词汇链的每个主题词汇链中抽取一个主题词，具体可以是通过Hirst算法采用“贪心”的策略，或者是Barzilay算法考虑词语所有的词义来从每个主题词汇链中抽取一个词语作为主题词，以获取到目标文本的若干个主题词语，还可以采用其他算法来获取主题词语，此处不作具体限制。可以理解的是，目标文本中的每个句子，大部分也可以对应到一个或多个主题词汇链，也就是每个句子可能对应一个或多个主题词语。

可选地，在上述图15对应的实施例的基础上，本申请实施例提供的视频生成方法另一个可选实施例中，如图16所示，步骤S1402对多个第二文本段中的每个第二文本段进行关键词筛选，得到每个第二文本段对应的候选关键词，包括：

在步骤S1501中，对每个第二文本段进行去停词处理，得到待处理文本；

在步骤S1502中，对待处理文本进行分词处理，得到至少两个待处理关键词；

在步骤S1503中，根据每个待处理关键词的词频，从至少两个待处理关键词中确定候选关键词。

在本实施例中，在获取到多个第二文本段之后，可以对每个第二文本段进行去停词处理，以获取待处理文本，并对待处理文本进行分词处理，以获取到至少两个待处理关键词，然后，可以根据每个待处理关键词的词频，更加快速准确地从至少两个待处理关键词中确定候选关键词，使得后续可以根据候选关键词更好地从原始文本中提取主题词语。

具体地，在获取到多个第二文本段之后，可以对每个第二文本段进行去停词处理，以获取到待处理文本，具体可以是采用通用的停词表对每个第二文本段进行去停词识别或匹配，并将识别或匹配到的停词进行过滤或忽略处理后得到的文本即待处理文本。

进一步地，在获取到待处理文本之后，可以对待处理文本进行分词处理，以获取至少两个待处理关键词，具体可以是采用IK分词算法对待处理文本进行分词处理，可以得到字符数至少为1的若干个词语，还可以其他分词算法对待处理文本进行分词处理，此处不作具体限制，然后，为了使得获取到的关键词能够更准确地语义表达，本实施例可以通过对获取到字符数至少为1的若干个词语进行进一步地筛选，具体可以是将字符数小于2的词语进行过滤得到词语即为待处理关键词。

例如，假设一个待处理文本为“今天的天空真蓝真美”，对该待处理口文本进行分词处理，可以得到“今天，的，天，天空，真，真蓝，蓝，真，真美，美”等字符数至少为1的若干个词语，然后，可以将字符数小于2的词语进行过滤，以获取到“今天，天空，真蓝，真美”等待处理关键词。

进一步地，可以根据每个待处理关键词的词频，来计算每个待处理关键词在第二文本段中的局部重要程度，具体可以是根据每个待处理关键词的词频，采用tf-idf算法来计算每个待处理关键词在第二文本段中的tf-idf值来表示该局部重要程度，然后，可以将每个第二文本段中的tf-idf值最大的待处理关键词确定为候选关键词。

下面对本申请中的视频生成装置进行详细描述，请参阅图23，图23为本申请实施例中视频生成装置的一个实施例示意图，视频生成装置20包括：

获取单元201，用于获取目标文本以及与目标文本相对应的目标时间，其中，目标时间为延迟时长或播放时长；

确定单元202，用于根据目标时间，为目标文本中的每个句子确定一个句子压缩比；

处理单元203，用于根据句子压缩比以及目标文本，生成目标压缩文本；

处理单元203，还用于将目标压缩文本输入至手语视频生成模型，通过手语视频生成模型生成目标手语视频。

可选地，在上述图23对应的实施例的基础上，本申请实施例提供的视频生成装置的另一实施例中，确定单元202具体可以用于：

根据句子压缩比以及目标文本，生成目标压缩文本，包括：

根据目标压缩比以及目标文本，生成目标压缩文本。

可选地，在上述图23对应的实施例的基础上，本申请实施例提供的视频生成装置的另一实施例中，

获取每个句子所对应的句子手语时长；

将时长比值作为句子压缩比。

将压缩子文本进行合并，得到目标压缩文本。

可选地，在上述图23对应的实施例的基础上，本申请实施例提供的视频生成装置的另一实施例中，获取单元201具体可以用于：

获取原始文本，其中，原始文本包含至少两个句子；

将原始文本划分为至少两个文本段；

对每个文本段进行分句处理，得到至少两个句子；

按照预设的文本长度，将原始文本切分为至少两个文本段。

计算两个相邻的第一文本段之间的语义相关度；

对每个第二文本段进行去停词处理，得到待处理文本；

对待处理文本进行分词处理，得到至少两个待处理关键词；

本申请另一方面提供了另一种计算机设备示意图，如图24所示，图24是本申请实施例提供的一种计算机设备结构示意图，该计算机设备300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)310(例如，一个或一个以上处理器)和存储器320，一个或一个以上存储应用程序331或数据332的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器320和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对计算机设备300中的一系列指令操作。更进一步地，中央处理器310可以设置为与存储介质330通信，在计算机设备300上执行存储介质330中的一系列指令操作。

计算机设备300还可以包括一个或一个以上电源340，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口360，和/或，一个或一个以上操作系统333，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述计算机设备300还用于执行如图2至图16对应的实施例中的步骤。

本申请的另一方面提供了一种计算机可读存储介质，其上存储有计算机程序，当计算机程序被处理器执行时实现如图2至图16所示实施例描述的方法中的步骤。

本申请的另一方面提供了一种包含计算机程序的计算机程序产品，当计算机程序被处理器执行时实现如图2至图16所示实施例描述的方法中的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种视频生成方法，其特征在于，包括：

获取目标文本以及与所述目标文本相对应的目标时间，其中，所述目标时间为延迟时长或播放时长；

根据所述目标时间，为所述目标文本中的每个句子确定一个句子压缩比；

根据所述句子压缩比以及所述目标文本，生成目标压缩文本；

将所述目标压缩文本输入至手语视频生成模型，通过所述手语视频生成模型生成目标手语视频。

2.根据权利要求1所述方法，其特征在于，当所述目标时间为播放时长时；所述根据所述目标时间，为所述目标文本中的每个句子确定一个句子压缩比，包括：

调用语言压缩模型集合，根据所述语言压缩模型集合以及所述目标时间确定与所述目标文本对应的目标压缩比，其中，所述目标压缩比为所述每个句子的句子压缩比的组合，或所述目标压缩比为所有所述句子的句子压缩比，所述语言压缩模型集合中的每个语言压缩模型分别设置有对应的一个压缩比；

所述根据所述句子压缩比以及所述目标文本，生成目标压缩文本，包括：

根据所述目标压缩比以及所述目标文本，生成所述目标压缩文本。

3.根据权利要求2所述方法，其特征在于，所述调用语言压缩模型集合，根据所述语言压缩模型集合以及所述目标时间确定与所述目标文本对应的目标压缩比，包括：

依次将所述目标文本的每个句子输入至所述语言压缩模型集合进行压缩，得到与所述每个句子相对应的初始压缩文本集合；

分别从所述每个句子相对应的所述初始压缩文本集合中选取任一个初始压缩子文本，得到所述目标文本对应的若干个候选压缩组合；

从所述若干个候选压缩组合中确定符合所述播放时长的目标压缩组合；

将所述目标压缩组合中的每个初始压缩子文本对应的压缩比作为所述句子压缩比。

4.根据权利要求2所述方法，其特征在于，所述语言压缩模型的训练包括以下步骤：

获取与每个所述语言压缩比相对应的训练样本对，其中，所述所述训练样本对包括训练原始样本以及训练压缩样本，所述训练压缩样本为字符数小于所述训练原始样本，且与所述训练原始样本之间的相似度大于相似阈值的文本；

将所述训练样本对以及所述基础压缩比输入所述语言压缩模型，通过所述语言压缩模型输出样本压缩文本；

计算所述样本压缩文本与所述训练压缩样本之间的文本相似度；

根据所述文本相似度对所述样本压缩文本进行损失计算，得到压缩损失结果；

根据所述压缩损失结果对所述语言压缩模型的模型参数进行更新。

5.根据权利要求1所述方法，其特征在于，当所述目标时间为播放时长时；所述根据所述目标时间，为所述目标文本中的每个句子确定一个句子压缩比，包括：

根据所述目标文本中的每个句子的长度，对所述播放时长进行划分，得到所述每个句子对应的句子时间段；

根据所述每个句子对应的句子时间段，为所述每个句子确定一个所述句子压缩比。

6.根据权利要求5所述方法，其特征在于，所述根据所述每个句子对应的句子时间段，为所述每个句子确定一个所述句子压缩比，包括：

获取所述每个句子所对应的句子手语时长；

计算所述每个句子时间段的长度与所述句子手语时长之间的时长比值；

将所述时长比值作为所述句子压缩比。

7.根据权利要求1所述方法，其特征在于，当所述目标时间为所述延迟时长时；所述根据所述所述目标时间，为所述每个句子确定一个句子压缩比，包括：

将所述延迟时长与延迟阈值进行比对，确定每个所述延迟时长属于的延迟范围；

根据所述延迟范围与压缩比之间的关系，得到所述目标文本对应的所述压缩比，并将所述压缩比作为所述句子压缩比。

8.根据权利要求7所述的视频生成方法，其特征在于，所述根据所述句子压缩比以及所述目标文本，生成目标压缩文本，包括：

调用语言压缩模型集合，从所述语言压缩模型集合中确定与所述句子压缩比对应的目标语言压缩模型，其中，所述语言压缩模型集合中的每个语言压缩模型分别设置有对应的一个压缩比；

将所述每个句子输入至所述目标语言压缩模型，通过所述目标语言压缩模型输出压缩子文本；

将所述压缩子文本进行合并，得到所述目标压缩文本。

9.根据权利要求1至8中任一项所述方法，其特征在于，所述获取目标文本，包括：

获取原始文本，其中，所述原始文本包含至少两个句子；

根据语句重要程度信息对所述原始文本的句子进行抽取，得到所述目标文本。

10.根据权利要求9所述的方法，其特征在于，所述按照语句重要程度对所述原始文本的句子进行抽取，得到所述目标文本，包括：

将所述原始文本划分为至少两个文本段；

根据语句重要程度信息对所述至少两个文本段中的每个文本段分别进行句子抽取，得到所述每个文本段对应的摘要文本；

根据所述每个文本段在所述原始文本中的位置，对所述摘要文本进行整合，得到所述目标文本。

11.根据权利要求10所述的方法，其特征在于，当所述重要程度信息为摘要分值时；所述根据语句重要程度信息对所述至少两个文本段中的每个文本段分别进行句子抽取，得到所述每个文本段对应的摘要文本，包括：

对所述每个文本段进行分句处理，得到至少两个句子；

对所述至少两个句子分别进行向量转换，得到每个句子对应的句向量；

将所述每个句子对应的句向量输入至分类器，通过所述分类器输出所述每个句子对应的句向量对应的所述摘要分值；

将所述摘要分值大于或等于摘要阈值的句子作为摘要句子，以获取所述摘要文本。

12.根据权利要求10所述的方法，其特征在于，所述将所述原始文本划分为至少两个文本段，包括：

按照语义相关度，对所述原始文本进行切分，得到所述至少两个文本段；或

按照预设的文本长度，将所述原始文本切分为所述至少两个文本段。

13.根据所述权利要求12所述的方法，其特征在于，所述按照语义相关度，对所述原始文本进行切分，得到所述至少两个文本段，包括：

从所述原始文本中提取若干个主题词语，其中，所述主题词语用于表示所述原始文本的主题类型；

根据所述若干个主题词语，对所述原始文本划分，得到每个主题词语对应的第一文本段；

计算两个相邻的所述第一文本段之间的所述语义相关度；

将所述语义相似度大于或等于相似阈值的所述基础文本段进行合并，得到所述至少两个文本段。

14.根据权利要求13所述的方法，其特征在于，所述从所述原始文本中提取若干个主题词语，包括：

根据预设的第二文本长度，从所述原始文本中提取多个第二文本段；

对所述多个第二文本段中的每个第二文本段进行关键词筛选，得到所述每个第二文本段对应的候选关键词；

根据所述候选关键词的词频，从所述每个第二文本段对应的候选关键词中确定所述原始文本的局部关键词；

通过词汇链，将在所述原始文本上的位置距离小于距离阈值的局部关键词进行连接，得到若干个主题词汇链；

从所述若干个主题词汇链的每个主题词汇链中抽取一个主题词，得到所述若干个主题词语。

15.根据权利要求14所述方法，其特征在于，对所述多个第二文本段中的每个第二文本段进行关键词筛选，得到所述每个第二文本段对应的候选关键词，包括：

对所述每个第二文本段进行去停词处理，得到待处理文本；

对所述待处理文本进行分词处理，得到至少两个待处理关键词；

根据每个待处理关键词的词频，从所述至少两个待处理关键词中确定所述候选关键词。

16.一种视频生成装置，其特征在于，包括：

获取单元，用于获取目标文本以及与所述目标文本相对应的目标时间，其中，所述目标时间为延迟时长或播放时长；

确定单元，用于根据所述目标时间，为所述目标文本中的每个句子确定一个句子压缩比；

处理单元，用于根据所述句子压缩比以及所述目标文本，生成目标压缩文本；

所述处理单元，还用于将所述目标压缩文本输入至手语视频生成模型，通过所述手语视频生成模型生成目标手语视频。

17.一种计算机设备，包括存储器、处理器以及总线系统，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至15中任一项所述的方法的步骤；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至15中任一项所述的方法的步骤。

19.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至15中任一项所述的方法的步骤。