CN117370610A

CN117370610A - 视频优化方法、装置、设备和存储介质

Info

Publication number: CN117370610A
Application number: CN202311311365.1A
Authority: CN
Inventors: 梁亚妮
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2023-10-11
Filing date: 2023-10-11
Publication date: 2024-01-09

Abstract

本公开实施例提供视频优化方法、装置、设备和存储介质，涉及人工智能和金融科技技术领域。该方法从初始视频数据提取文本序列和图像帧，利用问答模型对文本序列进行文本校准得到预测文本，并得到预测文本的情绪标签；利用表情识别模型对图像帧进行表情识别，得到目标对象的表情标识；根据情绪标签和表情标识进行表情预测，得到预测文本的预测表情；再根据预测文本和预测表情生成用于优化初始视频数据的建议方案。对初始视频数据的文本序列和图像帧分别进行预测，得到预测文本和预测文本的预测表情，生成优化建议数据，优化建议数据是根据视频内容中的文本和图像综合生成，提示目标对象进行视频优化，提升视频优化效果，满足优化需求。

Description

视频优化方法、装置、设备和存储介质

技术领域

本公开涉及人工智能和金融科技技术领域，尤其涉及视频优化方法、装置、设备和存储介质。

背景技术

视频在金融科技领域的应用非常广泛，可以用于品牌推广、产品介绍、用户教育等方面。例如开发创新的金融产品或服务后，利用视频向用户介绍产品或服务的功能、优势和使用方法。通过生动、直观的视频演示，更好地展示产品的特点和实际应用场景，增强用户对产品的理解和兴趣。又比如金融产品通常涉及一些复杂的概念和操作流程，制作用户教育视频，包括操作指南、案例分析、解决问题的方法等，帮助用户更好地理解和使用金融科技产品。

相关技术中，为了提升视频的效果会对拍摄的视频进行优化，但是目前的神经网络模型多是针对视频本身给出优化建议，例如视频降噪、颜色校正等图像处理建议，这些模型更注中处理视频的视觉效果，而非基于视频内容来给出优化建议，导致视频优化效果不能满足实际需求。

发明内容

本申请实施例的主要目的在于提出视频优化方法、装置、设备和存储介质，针对视频内容提出优化建议，从而提升视频优化效果，满足优化需求。

为实现上述目的，本申请实施例的第一方面提出了一种视频优化方法，包括：

获取包含目标对象的初始视频数据，从所述初始视频数据提取待优化数据组，所述待优化数据组包括：文本序列和图像帧；

利用预先训练的问答模型对所述文本序列进行文本校准得到预测文本，并对所述预测文本进行情绪预测，得到所述预测文本的情绪标签；

利用预先训练的表情识别模型对所述图像帧进行表情识别，得到所述目标对象的表情标识；

根据所述情绪标签和所述表情标识进行表情预测，得到所述预测文本的预测表情；

根据所述预测文本和所述预测表情生成所述初始视频数据的优化建议数据，其中，所述优化建议数据包括用于优化所述初始视频数据的建议方案。

在一些实施例，所述从所述初始视频数据提取待优化数据组，包括：

从所述初始视频数据提取出音频数据和图像数据；所述图像数据包括候选帧；

将所述音频数据转化为文本数据，并利用预先训练的文本分段模型将所述文本数据划分为文本序列；所述文本序列包含时序信息；

根据所述时序信息从所述候选帧中选取所述文本序列对应的所述图像帧。

在一些实施例，所述时序信息包括第一时序值和第二时序值，所述第一时序值小于所述第二时序值；所述根据所述时序信息从所述图像数据的多个所述候选帧中选取所述文本序列对应的所述图像帧，包括：

获取所述第一时序值与所述第二时序值之间的时间帧；

对所述时间帧进行平均计算，得到平均时间帧；

获取所述平均时间帧对应的所述候选帧作为所述图像帧。

在一些实施例，所述对所述预测文本进行情绪预测，得到所述预测文本的情绪标签，包括：

对所述预测文本进行分词，得到至少两个文本分词；

根据预设情绪词典获取每个文本分词对应的分词情绪，并对所述分词情绪进行统计得到情绪统计结果；

在所述情绪统计结果选取次数最多的所述分词情绪作为所述情绪标签。

在一些实施例，所述表情识别模型包括特征提取层、全连接层和输出层；所述利用表情识别模型对所述图像帧进行表情识别，得到所述图像帧中所述目标对象的表情标识，包括：

利用所述特征提取层对所述图像帧进行特征提取，得到图像表情特征；

利用所述全连接层对所述图像表情特征进行表情分类预测，得到每类表情的概率向量；

利用所述输出层对所述概率向量进行筛选，得到所述表情标识。

在一些实施例，所述根据所述情绪标签和所述表情标识进行表情预测，得到所述预测文本的预测表情，包括：

比较所述情绪标签和所述表情标识得到比较结果；

若所述比较结果表征所述情绪标签和所述表情标识一致，则将所述表情标识作为所述预测表情；

若所述比较结果表征所述情绪标签和所述表情标识不同，则根据情绪转移策略选取与所述表情标识对应的候选表情，并根据所述候选表情的关联信息选择目标表情作为所述预测表情；所述情绪转移策略包括候选表情以及不同所述候选表情之间的关联信息。

在一些实施例，所述若所述比较结果表征所述情绪标签和所述表情标识不同，则根据情绪转移策略选取与所述表情标识对应的候选表情，包括：

若所述比较结果表征所述情绪标签和所述表情标识不同，获取多个候选视频，每个所述候选视频包括至少一个表情帧，所述表情帧包括表情时序；

对所述表情帧进行表情识别，得到候选表情；

基于所述表情时序生成所述候选表情的转移信息，得到所述候选视频的情绪转移数据；

对所述情绪转移数据进行合并处理，得到情绪转移策略；

根据所述情绪转移策略选取与上一时序的所述表情标识对应的候选表情。

为实现上述目的，本申请实施例的第二方面提出了一种视频优化装置，包括：

初始视频数据模块：用于获取包含目标对象的初始视频数据，从所述初始视频数据提取待优化数据组，所述待优化数据组包括：文本序列和图像帧；

文本处理模块：用于利用预先训练的问答模型对所述文本序列进行文本校准得到预测文本，并对所述预测文本进行情绪预测，得到所述预测文本的情绪标签；

表情识别模块：用于利用预先训练的表情识别模型对所述图像帧进行表情识别，得到所述目标对象的表情标识；

表情预测模块：用于根据所述情绪标签和所述表情标识进行表情预测，得到所述预测文本的预测表情；

优化建议生成模块：用于根据所述预测文本和所述预测表情生成所述初始视频数据的优化建议数据，其中，所述优化建议数据包括用于优化所述初始视频数据的建议方案。

为实现上述目的，本申请实施例的第三方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

为实现上述目的，本申请实施例的第四方面提出了一种存储介质，所述存储介质为计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法。

本申请实施例提出的视频优化方法、装置、设备和存储介质，通过获取包含目标对象的初始视频数据，从初始视频数据提取文本序列和图像帧，利用预先训练的问答模型对文本序列进行文本校准得到预测文本，并对文本序列进行情绪预测，得到预测文本的情绪标签；利用预先训练的表情识别模型对图像帧进行表情识别，得到目标对象的表情标识；根据情绪标签和表情标识进行表情预测，得到预测文本的预测表情；再根据预测文本和预测表情生成用于优化初始视频数据的建议方案。本申请实施例对初始视频数据的文本序列和图像帧分别进行预测，得到预测文本和预测文本的预测表情，生成优化建议数据，这里的优化建议数据是根据视频内容中的文本和图像综合生成，用来提示目标对象进行视频优化，从而提升视频优化效果，满足优化需求。

附图说明

图1是本公开实施例提供的视频优化方法的流程图。

图2是本公开实施例提供的视频优化方法的从初始视频数据提取待优化数据组的流程图。

图3是图2中的步骤S113的流程图。

图4是本公开实施例提供的视频优化方法的图像帧选取过程示意图。

图5是本公开实施例提供的视频优化方法的进行情绪预测的流程图。

图6是图1中的步骤S130的流程图。

图7是图1中的步骤S140的流程图。

图8是图7中的步骤S143的流程图。

图9是本公开实施例提供的视频优化方法的情绪转移数据的示意图。

图10是本公开实施例提供的视频优化方法的情绪转移策略的示意图。

图11是本公开实施例提供的视频优化方法的整体流程示意图。

图12是本公开又一实施例提供的视频优化装置结构框图。

图13是本公开实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本公开的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本公开进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本公开，并不用于限定本公开。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。

除非另有定义，本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本公开实施例的目的，不是旨在限制本公开。

首先，对本公开中涉及的若干名词进行解析：

人工智能(artificial intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

视频在金融科技领域的应用非常广泛，可以用于品牌推广、产品介绍、用户教育等方面。例如开发创新的金融产品或服务后，利用视频向用户介绍产品或服务的功能、优势和使用方法。通过生动、直观的视频演示，更好地展示产品的特点和实际应用场景，增强用户对产品的理解和兴趣。又比如金融产品通常涉及一些复杂的概念和操作流程，制作用户教育视频，包括操作指南、案例分析、解决问题的方法等，帮助用户更好地理解和使用金融科技产品。因此对于以视觉为主导物料进行品牌营销的金融科技从业人员来说，更需要人工智能在视频领域帮助他们提供更多的优化建议来辅助业务开展。

基于此，本公开实施例提供一种视频优化方法、装置、设备和存储介质，对初始视频数据的文本序列和图像帧分别进行预测，得到预测文本和预测文本的预测表情，生成优化建议数据，这里的优化建议数据是根据视频内容中的文本和图像综合生成，用来提示目标对象进行视频优化，从而提升视频优化效果，满足优化需求。

本公开实施例提供视频优化方法、装置、设备和存储介质，具体通过如下实施例进行说明，首先描述本公开实施例中的视频优化方法。

本公开实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本公开实施例提供的视频优化方法，涉及人工智能技术领域，尤其涉及数据挖掘技术领域。本公开实施例提供的视频优化方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的计算机程序。举例来说，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(Native)应用程序(APP，Application)，即需要在操作系统中安装才能运行的程序，如支持视频优化的客户端，也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。其中，终端通过网络与服务器进行通信。该视频优化方法可以由终端或服务器执行，或由终端和服务器协同执行。

在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器；也可以是区块链系统中的服务节点，该区块链系统中的各服务节点之间组成点对点(P2P，PeerTo Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission ControlProtocol)协议之上的应用层协议。服务器上可以安装视频优化系统的服务端，通过该服务端可以与终端进行交互，例如服务端上安装对应的软件，软件可以是实现视频优化方法的应用等，但并不局限于以上形式。终端与服务器之间可以通过蓝牙、USB(Universal SerialBus，通用串行总线)或者网络等通讯连接方式进行连接，本实施例在此不做限制。

本公开可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本公开可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本公开，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据用户信息、用户行为数据，用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时，都会先获得用户的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关国家和地区的相关法律法规和标准。此外，当本申请实施例需要获取用户的敏感个人信息时，会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意，在明确获得用户的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的用户相关数据。

下面描述本公开实施例中的视频优化方法。

图1是本公开实施例提供的视频优化方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤S110至步骤S150。同时可以理解的是，本实施例对图1中步骤S110至步骤S150的顺序不做具体限定，可以根据实际需求调整步骤顺序或者减少、增加某些步骤。

步骤S110：获取包含目标对象的初始视频数据，从初始视频数据提取待优化数据组。

在一实施例中，目标对象可以是金融科技的从业人员，初始视频数据可以是目标对象录制的与金融产品或服务相关的视频等，初始视频数据中需要包含目标对象的面部图像，目标对象出镜并且念出相关的文本，例如文本可以是产品或服务介绍、产品引导使用教程等。可以理解的是，本实施例对目标对象仅作示意并不进行限定，同样地初始视频数据也可以是金融科技以外领域的视频数据。

在一实施例中，从初始视频数据中需要提取出待优化数据组，这里待优化数据组包括：文本序列和图像帧。参照图2，从初始视频数据提取待优化数据组包括以下步骤：

步骤S111：从初始视频数据提取出音频数据和图像数据。

在一实施例中，可以利用视频编辑软件从初始视频数据中将音频轨道导出，从而得到音频数据，同时利用视频编辑软件逐帧导出初始视频数据中的图像数据，图像数据由多个具有时序关系的候选帧构成。

步骤S112：将音频数据转化为文本数据，并利用预先训练的文本分段模型将文本数据划分为文本序列。

在一实施例中，首先利用自动语音识别ASR技术将音频数据转化为文本数据。具体的转化过程为：从音频数据中提取声学特征，例如梅尔频率倒谱系数、滤波器组特征等，然后利用训练好的声学模型和语言模型解码并识别出最可能的文本结果。其中，声学模型使用大量标注的语音数据集进行训练，目的是建立语音信号和声学特征之间的映射关系；语言模型使用大量文本数据集进行训练，目的是建立词语和词序列的概率关系。

在一实施例中，考虑到目标对象的口音各异，其对于长文本的分段可能不合理，因此本实施例利用预先训练的文本分段模型将文本数据划分为文本序列，并按照文本序列的时间信息生成对应的时序信息，时序信息包括第一时序值和第二时序值，其中第一时序值小于第二时序值，时序信息用于表征该文本序列的持续时间是从第一时序值到第二时序值。

在一实施例中，文本分段模型是预先训练的用于将长文本划分为适当的段落或句子的模型，可以帮助提高视频优化后文本的可读性。其工作原理描述为：对输入的文本数据进行预处理，如去除多余的空格、标点符号等，以及进行必要的分词操作。使用词嵌入技术将经过预处理的文本数据转化为机器可理解的表示形式，具体是将每个词转化为向量表示，以捕捉词语之间的语义关系。然后将输入文本编码为隐含向量表示，并通过解码器生成分段结果，分段结果为文本分段模型预测的文本序列的边界位置，从而将长文本划分为合适的句子。该实施例中，文本分段模型可以是基于循环神经网络模型或长短期记忆网络的序列到序列模型。

步骤S113：根据时序信息从候选帧中选取文本序列对应的图像帧。

在一实施例中，目标对象阅读一句话需要一定的时间，在该时间段内获取的初始视频图像能够被划分成至少一个候选帧，这些候选帧中目标对象的表情会轻微变化，此时需要针对每个文本序列从多个候选帧中选取对应的图像帧。

参照图3，根据时序信息从图像数据的多个候选帧中选取文本序列对应的图像帧包括以下步骤：

步骤S1131：获取第一时序值与第二时序值之间的时间帧。

在一实施例中，由于第一时序值与第二时序值构成一个时间段，因此其中包含至少一个时间帧，获取第一时序值与第二时序值之间的所有时间帧。

步骤S1132：对时间帧进行平均计算，得到平均时间帧。

在一实施例中，为了获取第一时序值与第二时序值之间的最具有代表性的时间帧作为图像帧，因此对于每个像素位置，计算所有时间帧的图像在该位置像素值的平均值。计算像素值的平均值的过程可以是：遍历所有图像的对应像素位置，并进行求和操作，将求得的像素平均值更新到平均图像的对应像素位置。直到遍历完所有图像的所有像素，得到平均图像。该平均图像即为多个时间帧的图像的平均值，记为平均时间帧。

步骤S1133：获取平均时间帧对应的候选帧作为图像帧。

在一实施例中，由于是计算的平均时间帧，不一定和候选帧对应，因此在第一时序值与第二时序值之间所有时间帧中选取与平均时间帧最为相似候选帧作为图像帧。该实施例中，可以计算平均时间帧和每个时间帧的相似性，计算时间帧中每个位置的像素是否和平均时间帧中对应位置的像素相同，根据相同像素的数量得到时间帧和平均时间帧的相似性，相似像素越多，则相似性越高，通过这种方式选取与平均时间帧最相似的候选帧作为图像帧。

参照图4，假设初始视频数据的图像数据中包含共计12个候选帧，候选帧表示为：{Z1,…,Z12}，将初始视频数据的音频数据转化为文本数据，并利用预先训练的文本分段模型将文本数据划分为3个文本序列{W1,W2,W3}。

其中，文本序列W1的时序信息为(0,t1]，第一时序值为0，第二时序值为t1，文本序列W1的包含的候选帧为{Z1,…,Z3}；文本序列W2的时序信息为(t1,t2]，第一时序值为t1，第二时序值为t2，文本序列W2的包含的候选帧为{Z4,…,Z9}；文本序列W3的时序信息为(t2,t3]，第一时序值为t2，第二时序值为t3，文本序列W3的包含的候选帧为{Z10,…,Z12}。

因此，需要在候选帧{Z1,…,Z3}中为文本序列W1选取一个对应的图像帧，计算文本序列W1对应的平均时间帧为Z1’，分别计算候选帧Z1、候选帧Z2和候选帧Z3与平均时间帧Z1’的相似性，选取最相似的候选帧作为文本序列W1的图像帧。例如图4中选取候选帧Z1作为文本序列W1的图像帧。同样的方法在候选帧{Z4,…,Z9}中为文本序列W2选取一个对应的图像帧，例如选取的是候选帧Z7作为文本序列W2的图像帧。在候选帧{Z10,…,Z12}中为文本序列W3选取一个对应的图像帧，例如选取的是候选帧Z11作为文本序列W3的图像帧。

由上述过程得到文本序列和该文本序列对应的图像帧之后，需要据此生成视频优化建议。

步骤S120：利用预先训练的问答模型对文本序列进行文本校准得到预测文本，并对预测文本进行情绪预测，得到预测文本的情绪标签。

在一实施例中，问答模型可以是基于序列到序列的模型构建的，例如Seq2Seq模型，也可以是基于预训练语言模型构建，例如GPT模型或BERT模型。本实施例不限定问答模型的具体结构。

上述实施例中，利用预先训练的问答模型对文本序列进行文本校准得到预测文本，其中，文本校准过程包括：文本预处理和文本预测。文本预处理主要是对文本序列中的冗余信息或不规范表达进行校准，使文本序列具有规范的格式。文本预测是对经过预处理之后的文本序列进行预测，得到预测文本，预测文本可以是符合金融科技领域的推荐话术等，因此文本预测相当于对文本序列进行“润色”，使得预测文本更加符合传播学特性。

上述实施例中，为了使得预测文本更符合预测需求，在训练问答模型时，构建大量的标注文本数据，其中包括原始文本和对应的推荐话术，推荐话术可以利用人工标注的方式生成，例如生成多个候选话术，经由专业人士进行打分，根据打分结果从候选话术中选取最符合需求的推荐话术。本实施例对问答模型的训练过程不做限定。

另外，在一实施例中，在得到预测文本后，还需要对预测文本进行情绪预测，得到预测文本的情绪标签，参照图5，进行情绪预测包括以下步骤：

步骤S121：对预测文本进行分词，得到至少两个文本分词。

在一实施例中，可以利用分词工具对预测文本进行分词。分词工具可以利用预设词库在预测文本中进行匹配查找的方式得到预测文本的至少两个文本分词。可以理解的是，预设词库可以根据实际的应用场景构建，例如构建金融科技词库等。

步骤S122：根据预设情绪词典获取每个文本分词对应的分词情绪，并对分词情绪进行统计得到情绪统计结果。

在一实施例中，预设情绪词典中包含常见的多个词语以及该词语的情绪倾向，例如预设情绪词典中每个词语都标注了积极情绪、消极情绪或中性情绪。该实施例中可以根据文本分词查找预设情绪词典，匹配文本分词的情绪倾向作为该文本分词的分词情绪。例如，匹配文本分词为"惊喜"的分词情绪为“积极”；匹配文本分词为"不推荐"的分词情绪为“消极”等。然后统计文本情绪的次数，得到文本情绪的情绪统计结果。可以理解的是，预设情绪词典可以根据实际需求进行设定，本实施例仅作示意不对其进行限定。

步骤S123：在情绪统计结果选取次数最多的分词情绪作为情绪标签。

在一实施例中，对于每个文本序列可能包含一个以上的分词情绪，如果将所有的分词情绪均输出，则一句话可能包含两种以上的情绪变化，如果根据这种结果去引导目标对象进行视频优化，则会给目标对象带来较大的修改工作量。因此本实施例为每个文本序列选取一种情绪标签即可，情绪标签为该文本序列中统计次数最多的分词情绪。由于一句话较难出现很大的情绪波动，因此同一个文本序列的分词情绪比较相近，如果出现某些分词情绪的次数相同，则择一选取即可。

接着描述获取目标对象的表情标识的过程。

步骤S130：利用预先训练的表情识别模型对图像帧进行表情识别，得到目标对象的表情标识。

在一实施例中，表情识别模型包括：特征提取层、全连接层和输出层，其中特征提取层与全连接层连接，全连接层与输出连接，特征提取层用于接收输入的图像帧。

在一实施例中，参照图6，利用表情识别模型对图像帧进行表情识别，得到图像帧中目标对象的表情标识包括以下步骤：

步骤S131：利用特征提取层对图像帧进行特征提取，得到图像表情特征。

在一实施例中，特征提取层为卷积层或者与训练的特征提取器，用于提取图像帧的特征，得到图像表情特征。

步骤S132：利用全连接层对图像表情特征进行表情分类预测，得到每类表情的概率向量。

在一实施例中，预先设定多种不同的表情，利用全连接层获取图像表情特征是每种表情的概率，得到概率向量。

步骤S133：利用输出层对概率向量进行筛选，得到表情标识。

在一实施例中，选取概率向量的最大值对应的表情，利用输出层输出该表情作为图像帧的表情标识。

步骤S140：根据情绪标签和表情标识进行表情预测，得到预测文本的预测表情。

在一实施例中，该步骤的目的是利用预测文本中蕴含的表情来指示目标图像应该呈现的表情。参照图7，步骤S140包括以下步骤：

步骤S141：比较情绪标签和表情标识得到比较结果。

在一实施例中，表情标识可以是：喜悦、焦虑、疑惑、沮丧、悲伤、平静、愤怒等，情绪标签可以是：积极、中性、消极等，不同的情绪标签可以对应一个或一个以上的表情标识，例如消极情绪可以对应悲伤、愤怒或焦虑等。其中情绪标签和表情标识之间的对应关系可以预先设定，因此该步骤的比较结果可以是表情标识是否与情绪标签对应。

步骤S142：若比较结果表征情绪标签和表情标识一致，则将表情标识作为预测表情。

在一实施例中，如果比较结果表征情绪标签和表情标识一致，则说明预测文本中蕴含的表情与目标图像应该呈现的表情一致，因此将表情标识作为预测表情。

步骤S143：若比较结果表征情绪标签和表情标识不同，则根据情绪转移策略选取与表情标识对应的候选表情，并根据候选表情的关联信息选择目标表情作为预测表情。

在一实施例中，例如情绪标签为积极，表情标识为焦虑，则比较结果表征情绪标签和表情标识不同，则表明需要根据情绪标签调整表情标识。

在一实施例中，为了获得平滑过渡的预测表情，根据情绪转移策略选取上一时序的表情标识对应的候选表情，并根据候选表情的关联信息选择目标表情作为预测表情，其中，情绪转移策略包括候选表情以及不同候选表情之间的关联信息。可以理解的是，由于表情标识对应于图像帧，图像帧对应于文本序列，因此图像帧之间具有先后时序，对应地，表情标识也具有先后时序。该实施例中，选取上一时序的表情标识，然后根据情绪转移策略选取对应的候选表情，并根据候选表情的关联信息选择目标表情作为预测表情。

在一实施例中，参照图8，步骤S143包括以下步骤：

步骤S1431：若比较结果表征情绪标签和表情标识不同，获取多个候选视频。

在一实施例中，候选视频可以与初始视频数据类似，是某一用户的一段视频，该视频中用户的表情可能存在变化。将候选视频进行分帧操作，得到每个候选视频的至少一个表情帧，这些表情帧有先后顺序，先后顺序为表情时序。

步骤S1432：对表情帧进行表情识别，得到候选表情。

在一实施例中，利用表情识别模型对表情帧进行表情识别，得到候选表情。

步骤S1433：基于表情时序生成候选表情的转移信息，得到候选视频的情绪转移数据。

在一实施例中，针对每个候选视频，其每个表情帧均对应一个表情，按照表情时序可以得到表情的变化过程，这个变化过程为候选表情的转移信息，因此可以得到每个候选视频的情绪转移数据。参照图9，为情绪转移数据的示意图，该示意图表征一个候选视频的情绪转移过程。图中候选视频包含5个表情帧{B1,…,B5}，其中，表情帧B1的候选表情为H1，表情帧B2的候选表情为H1，表情帧B3的候选表情为H2，表情帧B4的候选表情为H1，表情帧B5的候选表情为H3，表情时序为：表情帧B10>帧B2>表情帧B3>表情帧B4>表情帧B5，因此候选表情的转移信息为：候选表情H1>候选表情H2>候选表情H1>候选表情H3。

步骤S1434：对情绪转移数据进行合并处理，得到情绪转移策略。

在一实施例中，由于每个候选视频均能够得到一组情绪转移数据，因此将每个候选视频的情绪转移数据进行合并处理，得到情绪转移策略。例如将每个候选表情作为一个节点，将转移信息作为节点之间的有向边，即可得到包含节点和边的图。参照图10，为情绪转移策略示意图。图中以6个候选表情为例，分别是：候选表情H1、候选表情H2、候选表情H3、候选表情H4、候选表情H5和候选表情H6，不同候选表情之间的转移信息以有向边表示。

步骤S1435：根据情绪转移策略选取与上一时序的表情标识对应的候选表情。

在一实施例中，首先获取上一时序的表情标识，然后在情绪转移策略中匹配得到与上一时序的表情标识相同的候选表情。

接着选择上一时序的表情标识对应的候选表情的目标表情，这里的目标表情是在情绪转移策略中统计候选表情的有向边的指向，选择指向最多的候选表情作为目标表情，将目标表情作为预测表情。参照图10，以有向边上的数字表示有向边的数量。假设上一时序的表情标识对应的候选表情为候选表情H4，候选表情H4的有向边分别指向候选表情H1和候选表情H6，其中有3条有向边指向候选表情H1，有2条边直线候选表情H6，因此选择候选表情H1作为候选表情H4的目标表情。

步骤S150：根据预测文本和预测表情生成初始视频数据的优化建议数据。

在一实施例中，优化建议数据包括用于优化初始视频数据的建议方案，这里的建议方案包括：多组[预测文本，预测表情]，即为目标对象生成更合理的预测文本供其朗读，同时每个预测文本包含指示性的预测表情，来引导目标对象以预测表情朗读对应的预测文本，这种建议方案是基于文本的逻辑，无需过多的图像分析，图像为辅助，能够减少干扰，并且针对一句话仅需给出一个预测标签，优化提示更简单高效，得到的视频优化建议更加可靠有针对性。

在一实施例中，参照图11，为本公开实施例的整体流程。

首先获取初始视频数据，从初始视频数据提取文本序列和图像帧，其中文本序列从音频数据中得到。然后利用预先训练的问答模型(例如GPT模型)对文本序列进行文本校准得到预测文本，并对预测文本进行情绪预测，得到预测文本的情绪标签。同时利用预先训练的表情识别模型对图像帧进行表情识别，得到目标对象的表情标识，接着根据情绪标签和表情标识进行表情预测，得到预测文本的预测表情，利用预测文本和预测表情生成初始视频数据的优化建议数据。

本公开实施例提供的技术方案，通过获取包含目标对象的初始视频数据，从初始视频数据提取文本序列和图像帧，利用预先训练的问答模型对文本序列进行文本校准得到预测文本，并对文本序列进行情绪预测，得到预测文本的情绪标签；利用预先训练的表情识别模型对图像帧进行表情识别，得到目标对象的表情标识；根据情绪标签和表情标识进行表情预测，得到预测文本的预测表情；再根据预测文本和预测表情生成用于优化初始视频数据的建议方案。本申请实施例对初始视频数据的文本序列和图像帧分别进行预测，得到预测文本和预测文本的预测表情，生成优化建议数据，这里的优化建议数据是根据视频内容中的文本和图像综合生成，用来提示目标对象进行视频优化，从而提升视频优化效果，满足优化需求。

本公开实施例还提供一种视频优化装置，可以实现上述视频优化方法，参照图12，该装置包括：

初始视频数据模块1210：用于获取包含目标对象的初始视频数据，从初始视频数据提取待优化数据组，待优化数据组包括：文本序列和图像帧。

文本处理模块1220：用于利用预先训练的问答模型对文本序列进行文本校准得到预测文本，并对预测文本进行情绪预测，得到预测文本的情绪标签。

表情识别模块1230：用于利用预先训练的表情识别模型对图像帧进行表情识别，得到目标对象的表情标识。

表情预测模块1240：用于根据情绪标签和表情标识进行表情预测，得到预测文本的预测表情。

优化建议生成模块1250：用于根据预测文本和预测表情生成初始视频数据的优化建议数据，其中，优化建议数据包括用于优化初始视频数据的建议方案。

本实施例的视频优化装置的具体实施方式与上述视频优化方法的具体实施方式基本一致，在此不再赘述。

本公开实施例还提供了一种电子设备，包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

所述程序被存储在存储器中，处理器执行所述至少一个程序以实现本公开实施上述的视频优化方法。该电子设备可以为包括手机、平板电脑、个人数字助理(PersonalDigital Assistant，简称PDA)、车载电脑等任意智能终端。

请参阅图13，图13示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器1301，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本公开实施例所提供的技术方案；

存储器1302，可以采用ROM(ReadOnlyMemory，只读存储器)、静态存储设备、动态存储设备或者RAM(RandomAccessMemory，随机存取存储器)等形式实现。存储器1302可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1302中，并由处理器1301来调用执行本公开实施例的视频优化方法；

输入/输出接口1303，用于实现信息输入及输出；

通信接口1304，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；和

总线1305，在设备的各个组件(例如处理器1301、存储器1302、输入/输出接口1303和通信接口1304)之间传输信息；

其中处理器1301、存储器1302、输入/输出接口1303和通信接口1304通过总线1305实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种存储介质，存储介质为计算机可读存储介质，该存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述视频优化方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本公开实施例提出的视频优化方法、视频优化装置、电子设备、存储介质，通过获取包含目标对象的初始视频数据，从初始视频数据提取文本序列和图像帧，利用预先训练的问答模型对文本序列进行文本校准得到预测文本，并对文本序列进行情绪预测，得到预测文本的情绪标签；利用预先训练的表情识别模型对图像帧进行表情识别，得到目标对象的表情标识；根据情绪标签和表情标识进行表情预测，得到预测文本的预测表情；再根据预测文本和预测表情生成用于优化初始视频数据的建议方案。本申请实施例对初始视频数据的文本序列和图像帧分别进行预测，得到预测文本和预测文本的预测表情，生成优化建议数据，这里的优化建议数据是根据视频内容中的文本和图像综合生成，用来提示目标对象进行视频优化，从而提升视频优化效果，满足优化需求。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图中示出的技术方案并不构成对本申请实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本申请实施例的优选实施例，并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本申请实施例的权利范围之内。

Claims

1.一种视频优化方法，其特征在于，包括：

2.根据权利要求1所述的视频优化方法，其特征在于，所述从所述初始视频数据提取待优化数据组，包括：

3.根据权利要求2所述的视频优化方法，其特征在于，所述时序信息包括第一时序值和第二时序值，所述第一时序值小于所述第二时序值；所述根据所述时序信息从所述图像数据的多个所述候选帧中选取所述文本序列对应的所述图像帧，包括：

获取所述第一时序值与所述第二时序值之间的时间帧；

对所述时间帧进行平均计算，得到平均时间帧；

获取所述平均时间帧对应的所述候选帧作为所述图像帧。

4.根据权利要求1所述的视频优化方法，其特征在于，所述对所述预测文本进行情绪预测，得到所述预测文本的情绪标签，包括：

对所述预测文本进行分词，得到至少两个文本分词；

5.根据权利要求1所述的视频优化方法，其特征在于，所述表情识别模型包括特征提取层、全连接层和输出层；所述利用表情识别模型对所述图像帧进行表情识别，得到所述图像帧中所述目标对象的表情标识，包括：

6.根据权利要求1所述的视频优化方法，其特征在于，所述根据所述情绪标签和所述表情标识进行表情预测，得到所述预测文本的预测表情，包括：

比较所述情绪标签和所述表情标识得到比较结果；

7.根据权利要求6所述的视频优化方法，其特征在于，所述若所述比较结果表征所述情绪标签和所述表情标识不同，则根据情绪转移策略选取与所述表情标识对应的候选表情，包括：

对所述表情帧进行表情识别，得到候选表情；

对所述情绪转移数据进行合并处理，得到情绪转移策略；

8.一种视频优化装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的视频优化方法。

10.一种计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的视频优化方法。