CN117670686A

CN117670686A - 视频帧增强方法、装置、计算机设备和存储介质

Info

Publication number: CN117670686A
Application number: CN202311688003.4A
Authority: CN
Inventors: 徐雪; 杨洁琼; 江文乐
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-12-08
Filing date: 2023-12-08
Publication date: 2024-03-08

Abstract

本申请涉及一种视频帧增强方法、装置、计算机设备、存储介质和计算机程序产品，可用于视频处理技术领域，也可用于金融科技领域或其他相关领域。该方法包括：获取待处理视频；根据待处理视频的业务场景，确定待处理视频的目标关键内容和目标话术模板；根据目标关键内容和目标话术模板，对待处理视频进行语音识别，确定出待处理视频中的关键视频帧；通过视频帧增强模型，对关键视频帧进行增强处理，得到目标视频帧。采用本方法能够提高视频帧增强处理的效率。

Description

视频帧增强方法、装置、计算机设备和存储介质

技术领域

本申请涉及视频处理技术领域，特别是涉及一种视频帧增强方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着视频处理领域的发展，视频帧增强技术在众多领域都有重要的应用。通过对视频帧进行增强处理，能有效提高视频帧的质量。因此，如何高效地进行视频帧增强处理，成为了重要的研究方向。

传统技术通常是通过人工处理的方式，进行视频帧增强处理；但是，通过该方式进行视频帧增强处理需要耗费较多的人工处理时间，导致视频帧增强处理的效率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高视频帧增强处理的效率的视频帧增强方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种视频帧增强方法。所述方法包括：

获取待处理视频；

根据所述待处理视频的业务场景，确定所述待处理视频的目标关键内容和目标话术模板；

根据所述目标关键内容和所述目标话术模板，对所述待处理视频进行语音识别，确定出所述待处理视频中的关键视频帧；

通过视频帧增强模型，对所述关键视频帧进行增强处理，得到目标视频帧。

在其中一个实施例中，所述通过视频帧增强模型，对所述关键视频帧进行增强处理，得到目标视频帧，包括：

通过所述视频帧增强模型，对所述关键视频帧进行图像分割处理，得到所述关键视频帧的图像分割结果；

通过所述视频帧增强模型，根据所述图像分割结果，对所述关键视频帧中的目标图像区域进行图像重建处理，得到所述目标图像区域的重建图像区域；

通过所述视频帧增强模型，利用所述重建图像区域，对所述关键视频帧进行图像区域更新处理，得到所述目标视频帧。

在其中一个实施例中，所述视频帧增强模型包括特征提取层、特征映射层和掩码处理模型；

所述通过所述视频帧增强模型，对所述关键视频帧进行图像分割处理，得到所述关键视频帧的图像分割结果，包括：

将所述关键视频帧输入至所述特征提取层进行特征提取处理，得到所述关键视频帧的第一图像特征；

将所述第一图像特征输入至所述特征映射层进行特征映射处理，得到所述关键视频帧的第二图像特征；

将所述第二图像特征输入至所述掩码处理模型进行掩码处理，得到所述关键视频帧的第一掩码信息；

将所述第一掩码信息识别为所述图像分割结果。

在其中一个实施例中，在将所述第二图像特征输入至所述掩码处理模型进行掩码处理，得到所述关键视频帧的第一掩码信息之前，还包括：

根据所述待处理视频的业务场景，确定所述关键视频帧的第二掩码信息和掩码提示信息；

所述将所述第二图像特征输入至所述掩码处理模型进行掩码处理，得到所述关键视频帧的第一掩码信息，包括：

将所述第二图像特征、所述第一图像特征、所述第二掩码信息和所述掩码提示信息，输入至所述掩码处理模型进行掩码处理，得到所述第一掩码信息。

在其中一个实施例中，所述根据所述目标关键内容和所述目标话术模板，对所述待处理视频进行语音识别，确定出所述待处理视频中的关键视频帧，包括：

从所述目标话术模板中，识别出与所述目标关键内容匹配的内容，作为所述目标话术模板中的目标内容；

对所述待处理视频进行语音识别，确定出所述待处理视频中的与所述目标内容匹配的视频帧，作为所述关键视频帧。

在其中一个实施例中，所述根据所述待处理视频的业务场景，确定所述待处理视频的目标关键内容和目标话术模板，包括：

根据所述待处理视频的业务场景，查询预先构建的业务场景和关键内容的对应关系，确定所述待处理视频的业务场景对应的关键内容，作为所述目标关键内容；

根据所述待处理视频的业务场景，查询预先构建的业务场景和话术模板的对应关系，确定所述待处理视频的业务场景对应的话术模板，作为所述目标话术模板。

在其中一个实施例中，在通过视频帧增强模型，对所述关键视频帧进行增强处理，得到目标视频帧之后，还包括：

将所述目标视频帧对应替换所述待处理视频中的所述关键视频帧，得到目标视频；

将所述目标视频作为所述待处理视频的增强视频。

第二方面，本申请还提供了一种视频帧增强装置。所述装置包括：

视频获取模块，用于获取待处理视频；

内容确定模块，用于根据所述待处理视频的业务场景，确定所述待处理视频的目标关键内容和目标话术模板；

视频识别模块，用于根据所述目标关键内容和所述目标话术模板，对所述待处理视频进行语音识别，确定出所述待处理视频中的关键视频帧；

视频处理模块，用于通过视频帧增强模型，对所述关键视频帧进行增强处理，得到目标视频帧。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待处理视频；

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待处理视频；

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取待处理视频；

上述视频帧增强方法、装置、计算机设备、存储介质和计算机程序产品，获取待处理视频；根据所述待处理视频的业务场景，确定所述待处理视频的目标关键内容和目标话术模板；根据所述目标关键内容和所述目标话术模板，对所述待处理视频进行语音识别，确定出所述待处理视频中的关键视频帧；通过视频帧增强模型，对所述关键视频帧进行增强处理，得到目标视频帧。该方案通过获取待处理视频，根据待处理视频的业务场景，确定目标关键内容和目标话术模板，根据目标关键内容和目标话术模板，通过语音识别，确定待处理视频中的关键视频帧，通过视频帧增强模型对关键视频帧进行增强处理，得到目标视频帧，实现对视频中关键视频帧的自动提取和增强处理，从而有利于提高视频帧增强处理的效率和准确率。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中视频帧增强方法的流程示意图；

图2为一个实施例中确定关键视频帧的步骤的流程示意图；

图3为一个实施例中确定目标关键内容和目标话术模板的步骤的流程示意图；

图4为一个实施例中视频帧替换的步骤的流程示意图；

图5为另一个实施例中视频帧增强方法的流程示意图；

图6为一个实施例中视频帧增强装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要符合相关规定。

在一个示例性的实施例中，如图1所示，提供了一种视频帧增强方法，本实施例以该方法应用于终端进行举例说明；可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器之间的交互实现。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑等；服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本实施例中，该方法包括以下步骤：

步骤S101，获取待处理视频。

其中，待处理视频可以是需要进行增强处理的原始视频。

可选地，终端从金融系统中，获取需要进行增强处理的待处理视频。

步骤S102，根据待处理视频的业务场景，确定待处理视频的目标关键内容和目标话术模板。

其中，业务场景可以是待处理视频对应的具体业务类型场景，如银行双录场景等。

其中，目标关键内容可以是根据业务场景确定的视频中需要关注和提取的重要内容，如签名、证件等。

其中，目标话术模板可以是根据业务场景预设的业务人员在视频中的标准讲解模板。

可选地，终端根据待处理视频的业务场景，在预设关键内容中，确定出待处理视频所对应的目标关键内容，以及，根据待处理视频的业务场景，在预设话术模板中，确定出待处理视频所对应的目标话术模板。

步骤S103，根据目标关键内容和目标话术模板，对待处理视频进行语音识别，确定出待处理视频中的关键视频帧。

其中，关键视频帧可以是待处理视频中的重要视频帧，例如需要进行增强处理的视频帧。

可选地，终端根据目标关键内容和目标话术模板，对待处理视频进行语音识别，确定出待处理视频中的需要进行增强处理的重要视频帧，作为关键视频帧。

步骤S104，通过视频帧增强模型，对关键视频帧进行增强处理，得到目标视频帧。

其中，视频帧增强模型可以是用于对关键视频帧进行增强处理的深度学习模型，如图像超分模型等。

其中，目标视频帧可以是经过视频帧增强模型处理后的关键视频帧，其图像质量等指标会有所提升。

可选地，终端将关键视频帧输入至预先训练的视频帧增强模型，通过视频帧增强模型对关键视频帧进行增强处理，得到视频帧增强模型输出的目标视频帧。

上述视频帧增强方法中，获取待处理视频；根据待处理视频的业务场景，确定待处理视频的目标关键内容和目标话术模板；根据目标关键内容和目标话术模板，对待处理视频进行语音识别，确定出待处理视频中的关键视频帧；通过视频帧增强模型，对关键视频帧进行增强处理，得到目标视频帧。该方案通过获取待处理视频，根据待处理视频的业务场景，确定目标关键内容和目标话术模板，根据目标关键内容和目标话术模板，通过语音识别，确定待处理视频中的关键视频帧，通过视频帧增强模型对关键视频帧进行增强处理，得到目标视频帧，实现对视频中关键视频帧的自动提取和增强处理，从而有利于提高视频帧增强处理的效率和准确率。

在一个示例性的实施例中，在步骤S104中，通过视频帧增强模型，对关键视频帧进行增强处理，得到目标视频帧，具体包括如下内容：通过视频帧增强模型，对关键视频帧进行图像分割处理，得到关键视频帧的图像分割结果；通过视频帧增强模型，根据图像分割结果，对关键视频帧中的目标图像区域进行图像重建处理，得到目标图像区域的重建图像区域；通过视频帧增强模型，利用重建图像区域，对关键视频帧进行图像区域更新处理，得到目标视频帧。

其中，图像分割处理可以是利用视频帧增强模型对关键视频帧进行像素级分类的处理，例如用于生成每个像素的类别掩码的处理。

其中，图像分割结果可以是利用视频帧增强模型对关键视频帧进行图像分割处理后的各个区域的掩码。

其中，目标图像区域可以是根据图像分割结果识别出的需要重建的重要图像区域，如对象的图像区域、证件的图像区域等。

其中，图像重建处理可以是利用视频帧增强模型对目标图像区域内像素进行重建以生成更清晰图像的处理。

其中，重建图像区域可以是目标图像区域经过图像重建处理后得到的图像。

其中，图像区域更新处理可以是利用重建图像区域替换关键视频帧中目标图像区域的处理。

可选地，终端将关键视频帧输入至预先训练的视频帧增强模型，通过视频帧增强模型，对关键视频帧进行图像分割处理，得到关键视频帧的图像分割结果，根据图像分割结果，对关键视频帧中的目标图像区域进行图像重建处理，得到图像重建处理后的目标图像区域，作为目标图像区域的重建图像区域，利用重建图像区域，对关键视频帧进行图像区域更新处理，例如，利用重建图像区域替换关键视频帧中的目标图像区域，得到图像区域更新处理后的关键视频帧，作为目标视频帧。

本实施例提供的技术方案，通过图像分割处理、图像重建处理和图像区域更新处理，精细增强关键视频帧中的重要图像区域细节，有利于高效和准确地得到目标视频帧，从而有利于提高视频帧增强处理的效率和准确率。

在一个示例性的实施例中，上述步骤中，通过视频帧增强模型，对关键视频帧进行图像分割处理，得到关键视频帧的图像分割结果，具体包括如下内容：将关键视频帧输入至特征提取层进行特征提取处理，得到关键视频帧的第一图像特征；将第一图像特征输入至特征映射层进行特征映射处理，得到关键视频帧的第二图像特征；将第二图像特征输入至掩码处理模型进行掩码处理，得到关键视频帧的第一掩码信息；将第一掩码信息识别为图像分割结果。

其中，视频帧增强模型包括特征提取层、特征映射层和掩码处理模型，例如，视频帧增强模型可以至少包括特征提取层、特征映射层和掩码处理模型这三部分。

其中，特征提取层可以是用于对关键视频帧进行特征提取，以输出关键视频帧的第一图像特征，例如特征提取层可以是图像编码器。

其中，特征映射层可以是用于对第一图像特征进行映射处理，以输出第二图像特征，例如特征映射层可以是图像嵌入层。

其中，掩码处理模型可以是用于根据第二图像特征进行像素级分类，以输出关键视频帧的第一掩码信息，例如掩码处理模型可以包括掩码编码器、提示编码器、注意力模块和/或掩码处理模块。

其中，第一图像特征可以是特征提取层提取出的关键视频帧特征，例如高维图像特征。

其中，第二图像特征可以是特征映射层映射后的关键视频帧特征，例如低维图像特征。

其中，第一掩码信息可以是掩码处理模型根据第二图像特征生成的像素级分类结果，例如精确的掩码。

可选地，终端将关键视频帧输入至特征提取层，通过特征提取层进行特征提取处理，得到特征提取层输出的关键视频帧的第一图像特征；将第一图像特征输入至特征映射层，通过特征映射层进行特征映射处理，得到特征映射层输出的关键视频帧的第二图像特征；将第二图像特征输入至掩码处理模型，通过掩码处理模型进行掩码处理，得到掩码处理模型输出的关键视频帧的第一掩码信息；将第一掩码信息作为图像分割结果。

本实施例提供的技术方案，通过特征提取处理、特征映射处理和掩码处理，有利于高效和准确地得到图像分割结果，从而有利于提高视频帧增强处理的效率和准确率。

在一个示例性的实施例中，在将第二图像特征输入至掩码处理模型进行掩码处理，得到关键视频帧的第一掩码信息之前，还包括如下内容：根据待处理视频的业务场景，确定关键视频帧的第二掩码信息和掩码提示信息；将第二图像特征输入至掩码处理模型进行掩码处理，得到关键视频帧的第一掩码信息，具体包括如下内容：将第二图像特征、第一图像特征、第二掩码信息和掩码提示信息，输入至掩码处理模型进行掩码处理，得到第一掩码信息。

其中，第二掩码信息可以是根据待处理视频的业务场景确定的关键视频帧的另一种掩码信息，例如第二掩码信息可以是粗略掩码，举例来说，在某个业务场景中，需要对象(如用户)在固定的区域进行对象信息识别，这个区域可以表示为粗略掩码。

其中，掩码提示信息可以是根据待处理视频的业务场景提供给掩码处理模型的提示信息，例如业务类型相关的提示，可以包括点、框和/或文本。

可选地，终端根据待处理视频的业务场景，确定关键视频帧所对应的第二掩码信息和关键视频帧所对应的掩码提示信息；将第二图像特征、第一图像特征、第二掩码信息和掩码提示信息，输入至掩码处理模型，通过掩码处理模型进行掩码处理，得到掩码处理模型输出的第一掩码信息。

本实施例提供的技术方案，通过结合第二图像特征、第一图像特征、第二掩码信息和掩码提示信息，进行掩码处理，有利于高效和准确地得到第一掩码信息，从而有利于提高视频帧增强处理的效率和准确率。

在一个示例性的实施例中，如图2所示，在步骤S103中，根据目标关键内容和目标话术模板，对待处理视频进行语音识别，确定出待处理视频中的关键视频帧，具体包括如下内容：

步骤S201，从目标话术模板中，识别出与目标关键内容匹配的内容，作为目标话术模板中的目标内容；

步骤S202，对待处理视频进行语音识别，确定出待处理视频中的与目标内容匹配的视频帧，作为关键视频帧。

其中，目标内容可以是从目标话术模板中识别出的与目标关键内容匹配的具体内容，如讲解签名的语音部分。

可选地，终端从待处理视频的话术模板中，识别出与待处理视频的目标关键内容匹配的内容，作为目标话术模板中的目标内容；通过语音分析技术，对待处理视频进行语音分析；若识别出的语音内容与话术模板中的目标内容匹配，则将待处理视频中与该语音内容关联的视频帧，作为待处理视频的关键视频帧，通过这种方式，可以确定待处理视频的多个关键视频帧。

本实施例提供的技术方案，通过提取目标话术模板中的与目标关键内容相关的目标内容，并利用它与语音识别结果进行匹配，来定位待处理视频中的关键视频帧，有利于高效和准确地确定出关键视频帧，从而有利于提高视频帧增强处理的效率和准确率。

在一个示例性的实施例中，如图3所示，在步骤S102中，根据待处理视频的业务场景，确定待处理视频的目标关键内容和目标话术模板，具体包括如下内容：

步骤S301，根据待处理视频的业务场景，查询预先构建的业务场景和关键内容的对应关系，确定待处理视频的业务场景对应的关键内容，作为目标关键内容；

步骤S302，根据待处理视频的业务场景，查询预先构建的业务场景和话术模板的对应关系，确定待处理视频的业务场景对应的话术模板，作为目标话术模板。

其中，预先构建的业务场景和关键内容的对应关系，可以是预先建立的不同业务场景与其对应的关键内容之间的映射关系表。

其中，预先构建的业务场景和话术模板的对应关系：可以是预先建立的不同业务场景与其对应的标准讲解模板之间的映射关系表。

可选地，终端根据待处理视频的业务场景，查询预先构建的业务场景和关键内容的对应关系，确定与待处理视频的业务场景对应的关键内容，作为目标关键内容；根据待处理视频的业务场景，查询预先构建的业务场景和话术模板的对应关系，确定与待处理视频的业务场景对应的话术模板，作为目标话术模板。

举例来说，假设待处理视频的业务场景为A，而预先构建的业务场景和关键内容的对应关系中，业务场景A对应的关键内容为a1，说明待处理视频的目标关键内容为a1，同时，预先构建的业务场景和话术模板的对应关系中，业务场景A对应的话术模板为a2，说明待处理视频的目标话术模板为a2。

本实施例提供的技术方案，通过预先构建的业务场景与关键内容/话术模板的映射，根据视频业务场景自动确定其目标关键内容和目标话术模板，有利于高效和准确地确定出待处理视频的目标关键内容和目标话术模板，从而有利于提高视频帧增强处理的效率和准确率。

在一个示例性的实施例中，如图4所示，在通过视频帧增强模型，对关键视频帧进行增强处理，得到目标视频帧之后，还包括如下内容：

步骤S401，将目标视频帧对应替换待处理视频中的关键视频帧，得到目标视频；

步骤S402，将目标视频作为待处理视频的增强视频。

其中，目标视频可以是将待处理视频中的关键视频帧替换为对应的目标视频帧后得到的新视频。

可选地，终端将目标视频帧对应替换待处理视频中的关键视频帧(例如，用目标视频帧替换待处理视频中同一时间点的原始关键视频帧)，得到目标视频；将目标视频作为待处理视频的增强视频(例如，将通过替换处理得到的目标视频，作为待处理视频经过增强后的结果视频)。

本实施例提供的技术方案，通过将增强后的关键视频帧替换回原视频中，形成最终的增强视频，从而有利于提高视频增强处理的效率和准确率。

以下以一个实施例说明本申请提供的视频帧增强方法，本实施例以该方法应用于终端进行举例说明，主要步骤包括：

第一步，终端获取待处理视频。

第二步，终端根据待处理视频的业务场景，查询预先构建的业务场景和关键内容的对应关系，确定待处理视频的业务场景对应的关键内容，作为目标关键内容；根据待处理视频的业务场景，查询预先构建的业务场景和话术模板的对应关系，确定待处理视频的业务场景对应的话术模板，作为目标话术模板。

第三步，终端从目标话术模板中，识别出与目标关键内容匹配的内容，作为目标话术模板中的目标内容；对待处理视频进行语音识别，确定出待处理视频中的与目标内容匹配的视频帧，作为关键视频帧。

第四步，终端将关键视频帧输入至特征提取层进行特征提取处理，得到关键视频帧的第一图像特征；将第一图像特征输入至特征映射层进行特征映射处理，得到关键视频帧的第二图像特征。

第五步，终端根据待处理视频的业务场景，确定关键视频帧的第二掩码信息和掩码提示信息；将第二图像特征、第一图像特征、第二掩码信息和掩码提示信息，输入至掩码处理模型进行掩码处理，得到第一掩码信息；将第一掩码信息识别为图像分割结果。

第六步，终端通过视频帧增强模型，根据图像分割结果，对关键视频帧中的目标图像区域进行图像重建处理，得到目标图像区域的重建图像区域；通过视频帧增强模型，利用重建图像区域，对关键视频帧进行图像区域更新处理，得到目标视频帧。

第七步，终端将目标视频帧对应替换待处理视频中的关键视频帧，得到目标视频；将目标视频作为待处理视频的增强视频。

其中，视频帧增强模型包括特征提取层、特征映射层和掩码处理模型。

本实施例提供的技术方案，通过获取待处理视频，根据待处理视频的业务场景，确定目标关键内容和目标话术模板，根据目标关键内容和目标话术模板，通过语音识别，确定待处理视频中的关键视频帧，通过视频帧增强模型对关键视频帧进行增强处理，得到目标视频帧，实现对视频中关键视频帧的自动提取和增强处理，从而有利于提高视频帧增强处理的效率和准确率。

在银行双录场景，比如个人营销双录场景中，需要将录制的视频进行增强后，比如提高视频分辨率，再上传至质检部门，方便质检部门对增强后的视频进行审核，以确认银行双录过程是否合规，比如用户的签字动作是否合规，用户手持的证件是否合规，业务人员的讲解是否合规，等等。然而，若对整个视频进行增强处理，会占用很多资源，造成处理后的视频的容量较大，导致传输效率较低。以下以一个应用实例说明本申请提供的视频帧增强方法，通过终端获取待处理视频，然后根据待处理视频的业务场景，确定待处理视频的关键内容和话术模板，接着根据待处理视频的关键内容和话术模板，结合语音分析技术，确定待处理视频的关键视频帧，最后通过视频帧重建模型，对待处理视频的关键视频帧进行重建处理，得到处理后的关键视频帧；其中，处理后的关键视频帧的清晰度更高。本应用实例以该方法应用于终端进行举例说明，主要步骤包括：

步骤1：获取待处理视频。

其中，待处理视频可以是指银行中的双录视频，比如个人营销双录视频、双录质检视频等。

可选地，终端响应于视频增强请求，从数据库中获取对应的视频；将获取的视频作为待处理视频，便于后续对待处理视频进行相应的视频增强处理。

步骤2：根据待处理视频的业务场景，确定待处理视频的关键内容和话术模板。

其中，不同业务场景对应的关键内容不一样；例如，针对双录质检场景，关键内容为证件、签字等。需要说明的是，待处理视频的关键内容，可以根据待处理视频的业务场景自动确定，也可以手动选择。同时，待处理视频的关键内容也可以为多个，具体根据实际情况确定。

其中，不同业务场景对应的话术模板不一样；比如，业务场景A对应的话术模板为a，业务场景B对应的话术模板为b，业务场景C对应的话术模板为c，等等。

可选地，终端预先构建业务场景和关键内容的对应关系，以及业务场景和话术模板的对应关系，然后根据待处理视频的业务场景，查询预先构建的业务场景和关键内容的对应关系，确定待处理视频的业务场景对应的关键内容，从而得到待处理视频的关键内容(目标关键内容)。同时，终端根据待处理视频的业务场景，查询预先构建的业务场景和话术模板的对应关系，确定待处理视频的业务场景对应的话术模板，从而得到待处理视频的话术模板(目标话术模板)。

举例说明，假设待处理视频的业务场景为A，而预先构建的业务场景和关键内容的对应关系中，业务场景A对应的关键内容为a1，说明待处理视频的关键内容为a1。同时，预先构建的业务场景和话术模板的对应关系中，业务场景A对应的话术模板为a2，说明待处理视频的话术模板为a2。

步骤3：根据待处理视频的关键内容和话术模板，结合语音分析技术，确定待处理视频的关键视频帧。

其中，待处理视频中业务人员的讲解语言，都是根据待处理视频的话术模板确定的。也就是说，在双录场景中，业务人员讲什么话，都是根据话术模板来的。

可选地，终端从待处理视频的话术模板中，识别出与待处理视频的关键内容匹配的内容，作为话术模板中的目标内容；通过语音分析技术，对待处理视频进行语音分析；若识别出的语音内容与话术模板中的目标内容匹配，则将待处理视频中与该语音内容关联的视频帧，作为待处理视频的关键视频帧。通过这种方法，可以确定待处理视频的多个关键视频帧。

举例说明，针对双录质检场景，关键内容为证件、签字等，则根据待处理视频的话术模板中的内容，结合语音分析技术，定位待处理视频中对象的签字动作视频帧，对象手持证件视频帧等，并将定位到的视频帧，作为待处理视频的关键视频帧。

步骤4：通过视频帧重建模型，对待处理视频的关键视频帧进行重建处理，得到处理后的关键视频帧。

其中，视频帧重建模型用于对视频帧进行重建处理，使得重建后的视频帧的质量更高，视频质量更高。例如，使得图像内容更清晰，通过把像素位置上的内容进行重建，可以不改变分辨率，或者说是同倍数的超分辨率。

可选地，终端获取预先训练的视频帧重建模型，将待处理视频的关键视频帧输入预先训练的视频帧重建模型进行重建处理，得到重建处理后的关键视频帧。

举例说明，在定位到待处理视频的关键视频帧之后，终端将视频流输入重建模型，标注数据，获得专属数据集；获取该业务场景关键内容的分割掩码图；使用网络中全连接的注意力机制，对掩码图数据特征进行处理优化，提升特征质量；最后合流，输出。

举例说明，参考图5，这里借助detection transformer(物体检测的基于注意力机制的深度学习模型)的框架机制，即SMCA(空间调制协同注意力)，使用的SAM(图像分割/任意分割)算法预测分割区域，对预测分割区域和真实分割区域进行匹配，计算IoU(交并比)损失以进一步优化预测结果，而类别部分的判定则是使用detection(目标检测)的transformer判定，这里需要进行判定主要是每个场景可能涉及多个证件。然后预测模块输出图像区域后，使用本地多倍数重建结合transformer模块(如localMIM，局部多尺度重建模型)进行图像重建。

举例说明，参考图5，首先关键帧输入Segment Anything(简称SAM，任意分割)的模型的图像编码器；该图像编码器输出的特征会被输入到Fast Convergence of DETR withSpatially Modulated Co-Attention(简称DT，具有空间调制共同注意力的快速收敛/注意力模块)即插即用的SMCA模块，同时特征会被传入图像嵌入层进行映射，映射到地位流形，使得高维原始数据变得可分；后面粗略掩码/点/框/文本是可以手动勾选或者按照前期获取的业务类型来核定的，例如对于对象信息，可能会要求对象(用户)到固定的区域进行识别，这个区域就是粗略掩码(粗略掩码后续可以经过卷积处理后输入至掩码编码器)，或者是随机位置摆放证件等资料，这些资料的名称就会作为文本信息输入，系统也可以通过页面点选或者框选或者输入文本或者画封闭区域选择，给出要输入的提示信息，帮助更好地进行分割，如果掩码没有输入，就是整张图片区域，如果prompt encoder(提示编码器)部分没有手动选择，就按照场景默认输入提示文本；相关提示信息和前面提取的低维特征(经过掩码处理后)输入至SAM的掩码解编码器，从而获取精确的图像分割结果；上一步的结果被输入到Masked Image Modeling with Local Multi-Scal Reconstruction(localMIM，局部多尺度重建模型/注意力模块)的编解码器，最后使用结合Density Modeling of ImagesUsing A Generalized Normalization Transformation(利用通用归一化变换进行图像密度建模)里的归一化层，即GDN层(归一化层)的重建层(重建层：卷积+归一化层+回归图像通道的卷积)，重建出分割部分的图片(其中为了进行完整图像处理)，注意这里不是随机掩码，而是用了上一层的分割结果，将其他部分置为空值；最后这个初始关键帧先减去分割部分位置的像素(即分割部分置被剪除)然后叠加更清晰的分割部分的重建像素，整个相当于用重建的关键部分替换原始的关键部分，得到重建帧。其中，训练的时候使用DT部分输出构成IoU损失和重建层获取的部分重建内容的像素损失和感知损失的加权和；训练数据可以用拍摄的高清和模糊视频帧，进行手工精细标注区域。

本应用实例提供的技术方案，通过获取待处理视频；然后根据待处理视频的业务场景，确定待处理视频的关键内容和话术模板；接着根据待处理视频的关键内容和话术模板，结合语音分析技术，确定待处理视频的关键视频帧；最后通过视频帧重建模型，对待处理视频的关键视频帧进行重建处理，得到处理后的关键视频帧。相比于通过对整个待处理视频进行增强处理的方式，本应用实例可以达到以下两个效果：第一，只对待处理视频的关键视频帧进行处理，无需对整个待处理视频进行处理，可以降低处理量，从而提高了视频增强效率；第二，避免了对整个视频进行增强处理，会占用很多资源，造成处理后的视频的容量较大，导致传输效率较低的缺陷，从而提高了视频传输效率。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的视频帧增强方法的视频帧增强装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个视频帧增强装置实施例中的具体限定可以参见上文中对于视频帧增强方法的限定，在此不再赘述。

在一个示例性的实施例中，如图6所示，提供了一种视频帧增强装置，该装置600可以包括：

视频获取模块601，用于获取待处理视频；

内容确定模块602，用于根据待处理视频的业务场景，确定待处理视频的目标关键内容和目标话术模板；

视频识别模块603，用于根据目标关键内容和目标话术模板，对待处理视频进行语音识别，确定出待处理视频中的关键视频帧；

视频处理模块604，用于通过视频帧增强模型，对关键视频帧进行增强处理，得到目标视频帧。

在一个示例性的实施例中，视频处理模块604，还用于通过视频帧增强模型，对关键视频帧进行图像分割处理，得到关键视频帧的图像分割结果；通过视频帧增强模型，根据图像分割结果，对关键视频帧中的目标图像区域进行图像重建处理，得到目标图像区域的重建图像区域；通过视频帧增强模型，利用重建图像区域，对关键视频帧进行图像区域更新处理，得到目标视频帧。

在一个示例性的实施例中，视频帧增强模型包括特征提取层、特征映射层和掩码处理模型；视频处理模块604，还用于将关键视频帧输入至特征提取层进行特征提取处理，得到关键视频帧的第一图像特征；将第一图像特征输入至特征映射层进行特征映射处理，得到关键视频帧的第二图像特征；将第二图像特征输入至掩码处理模型进行掩码处理，得到关键视频帧的第一掩码信息；将第一掩码信息识别为图像分割结果。

在一个示例性的实施例中，该装置600还包括：信息确定模块，用于根据待处理视频的业务场景，确定关键视频帧的第二掩码信息和掩码提示信息；视频处理模块604，还用于将第二图像特征、第一图像特征、第二掩码信息和掩码提示信息，输入至掩码处理模型进行掩码处理，得到第一掩码信息。

在一个示例性的实施例中，视频识别模块603，还用于从目标话术模板中，识别出与目标关键内容匹配的内容，作为目标话术模板中的目标内容；对待处理视频进行语音识别，确定出待处理视频中的与目标内容匹配的视频帧，作为关键视频帧。

在一个示例性的实施例中，内容确定模块602，还用于根据待处理视频的业务场景，查询预先构建的业务场景和关键内容的对应关系，确定待处理视频的业务场景对应的关键内容，作为目标关键内容；根据待处理视频的业务场景，查询预先构建的业务场景和话术模板的对应关系，确定待处理视频的业务场景对应的话术模板，作为目标话术模板。

在一个示例性的实施例中，该装置600还包括：视频替换模块，用于将目标视频帧对应替换待处理视频中的关键视频帧，得到目标视频；将目标视频作为待处理视频的增强视频。

上述视频帧增强装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

需要说明的是，本申请提供的视频帧增强的方法和装置可用于金融科技领域涉及视频帧增强的应用领域中，也可用于除金融科技领域之外的任意领域涉及视频帧增强的处理中，本申请提供的视频帧增强的方法和装置的应用领域不做限定。

在一个示例性的实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种视频帧增强方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个示例性的实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个示例性的实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个示例性的实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种视频帧增强方法，其特征在于，所述方法包括：

获取待处理视频；

2.根据权利要求1所述的方法，其特征在于，所述通过视频帧增强模型，对所述关键视频帧进行增强处理，得到目标视频帧，包括：

3.根据权利要求2所述的方法，其特征在于，所述视频帧增强模型包括特征提取层、特征映射层和掩码处理模型；

将所述第一掩码信息识别为所述图像分割结果。

4.根据权利要求3所述的方法，其特征在于，在将所述第二图像特征输入至所述掩码处理模型进行掩码处理，得到所述关键视频帧的第一掩码信息之前，还包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述目标关键内容和所述目标话术模板，对所述待处理视频进行语音识别，确定出所述待处理视频中的关键视频帧，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述待处理视频的业务场景，确定所述待处理视频的目标关键内容和目标话术模板，包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，在通过视频帧增强模型，对所述关键视频帧进行增强处理，得到目标视频帧之后，还包括：

将所述目标视频作为所述待处理视频的增强视频。

8.一种视频帧增强装置，其特征在于，所述装置包括：

视频获取模块，用于获取待处理视频；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

11.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。