CN115278382A

CN115278382A - 基于音频片段的视频片段确定方法及装置

Info

Publication number: CN115278382A
Application number: CN202210750191.8A
Authority: CN
Inventors: 王愈; 李健; 陈明; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-11-01
Anticipated expiration: 2042-06-29
Also published as: CN115278382B

Abstract

本发明公开了一种基于音频片段的视频片段确定方法及装置。其中，该方法包括：获取输入视频中音频片段对应的音频帧序列；通过预先训练完成的图像向量预测模型中的音频表征模块，根据音频帧序列确定音频表征向量组，其中，音频表征向量组包括输入视频的多个子波形信号分别对应的多个音频表征向量；通过图像向量预测模型中的预测模块，分别根据音频表征向量组以及图像表征向量查找表，确定输入视频的各个视频片段分别对应的预测图像表征向量；根据图像表征向量查找表以及各个预测图像表征向量，确定音频片段对应的目标视频片段。本发明解决了由于相关技术中合成视频中音频与图像帧不匹配，导致视频质量低，用户体验差的技术问题。

Description

基于音频片段的视频片段确定方法及装置

技术领域

本发明涉及电子技术领域，具体而言，涉及一种基于音频片段的视频片段确定方法及装置。

背景技术

随着技术的发展，虚拟角色制作越来越精良，也越来越受人们的喜爱。其中，虚拟角色的互动能力以及表演能力的变得越来越重要。在现有技术中，会存在虚拟角色的音频与视频不同步的现象，例如在虚拟角色视频中，音频发声与视频中虚拟角色口型不一致。虚拟角色的合成视频中音频与图像帧不匹配，导致视频质量低，用户体验差。

可见，相关技术中针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种基于音频片段的视频片段确定方法及装置，以至少解决由于相关技术中合成视频中音频与图像帧不匹配，导致视频质量低，用户体验差的技术问题。

根据本发明实施例的一个方面，提供了基于音频片段的视频片段确定方法，包括：获取输入视频中音频片段对应的音频帧序列；通过预先训练完成的图像向量预测模型中的音频表征模块，根据所述音频帧序列确定音频表征向量组，其中，所述音频表征向量组包括所述输入视频的多个子波形信号分别对应的多个音频表征向量；通过所述图像向量预测模型中的预测模块，分别根据所述音频表征向量组以及图像表征向量查找表，确定所述输入视频的各个视频片段分别对应的预测图像表征向量，其中，所述图像表征向量查找表包括所述输入视频的各个视频片段对应的图像表征向量；根据所述图像表征向量查找表以及所述各个预测图像表征向量，确定所述音频片段对应的目标视频片段。

进一步地，获取输入视频中音频片段对应的音频帧序列，包括：对所述输入视频进行多频带处理，以得到所述多个子波形对应的多个音频信号；对所述多个音频信号进行采样，以得到所述音频帧序列，其中，所述音频帧序列包括所述多个音频信号对应的多个音频信号特征。

进一步地，通过预先训练完成的图像向量预测模型中的音频表征模块，根据所述音频帧序列确定音频表征向量组，包括：根据所述音频帧序列获取所述多个音频信号特征，其中，所述多个音频信号特征分别对应所述多个子波形；分别将所述多个音频信号特征输入至所述多个音频表征模块，以得到所述音频表征向量组。

进一步地，在所述通过所述图像向量预测模型中的预测模块，分别根据所述音频表征向量组以及图像表征向量查找表，确定所述输入视频的各个视频片段分别对应的预测图像表征向量之前，还包括：通过所述图像向量预测模型中的图像表征模块，根据所述各个视频片段对应的图像帧序列，确定所述各个视频片段对应的图像表征向量；根据所述各个视频片段以及所述各个图像表征向量，生成所述图像表征向量查找表。

进一步地，所述预测模块包括注意力机制，其中，通过所述图像向量预测模型中的预测模块，分别根据所述音频表征向量组以及图像表征向量查找表，确定所述输入视频的各个视频片段分别对应的预测图像表征向量，包括：通过在所述预测模块中执行所述注意力机制，根据所述音频表征向量组与所述图像表征向量的关联度，确定所述图像表征向量对应的预测图像表征向量。

进一步地，根据所述图像表征向量查找表以及所述各个预测图像表征向量，确定所述音频片段对应的目标视频片段，包括：分别确定所述图像表征向量查找表中各个图像表征向量，与对应的预测图像表征向量之间的余弦距离；确定所述余弦距离最小的视频片段为所述目标视频片段。

根据本发明实施例的另一方面，还提供了一种基于音频片段的视频片段确定装置，包括：获取单元，用于获取输入视频中音频片段对应的音频帧序列；第一确定单元，用于通过预先训练完成的图像向量预测模型中的音频表征模块，根据所述音频帧序列确定音频表征向量组，其中，所述音频表征向量组包括所述输入视频的多个子波形信号分别对应的多个音频表征向量；第二确定单元，用于通过所述图像向量预测模型中的预测模块，分别根据所述音频表征向量组以及图像表征向量查找表，确定所述输入视频的各个视频片段分别对应的预测图像表征向量，其中，所述图像表征向量查找表包括所述输入视频的各个视频片段对应的图像表征向量；第三确定单元，用于根据所述图像表征向量查找表以及所述各个预测图像表征向量，确定所述音频片段对应的目标视频片段。

进一步地，所述预测模块包括注意力机制，其中，第二确定单元还用于：通过在所述预测模块中执行所述注意力机制，根据所述音频表征向量组与所述图像表征向量的关联度，确定所述图像表征向量对应的预测图像表征向量。

根据本发明实施例的另一方面，还提供了一种电子设备，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如上所述的基于音频片段的视频片段确定方法的步骤。

根据本发明实施例的另一方面，还提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如上所述的基于音频片段的视频片段确定方法的步骤。

在本发明实施例中，获取输入视频中音频片段对应的音频帧序列；通过预先训练完成的图像向量预测模型中的音频表征模块，根据音频帧序列确定音频表征向量组，其中，音频表征向量组包括输入视频的多个子波形信号分别对应的多个音频表征向量；通过图像向量预测模型中的预测模块，分别根据音频表征向量组以及图像表征向量查找表，确定输入视频的各个视频片段分别对应的预测图像表征向量，其中，图像表征向量查找表包括输入视频的各个视频片段对应的图像表征向量；根据图像表征向量查找表以及各个预测图像表征向量，确定音频片段对应的目标视频片段。本实施例通过获取音频帧序列对应的音频表征向量组，然后基于音频表征向量组以及图像表征向量查找表确定各个视频片段对应的预测图像表征向量，然后基于各个视频片段的图像表征向量以及预测图像表征向量之间的相似度，确定音频片段适配的视频片段，进而解决了由于相关技术中合成视频中音频与图像帧不匹配，导致视频质量低，用户体验差的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的基于音频片段的视频片段确定方法的流程示意图；

图2是根据本发明实施例的一种可选的图像向量预测模型的结构示意图；

图3是根据本发明实施例的一种可选的基于音频片段的视频片段确定装置的框架示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种基于音频片段的视频片段确定方法，如图1所示，该方法具体可以包括以下步骤：

S102，获取输入视频中音频片段对应的音频帧序列；

在本实施例中，输入视频为音频与视频中图像相关联的视频，例如包括人物发音口型的语音视频、歌唱视频，还可以包括动物嘴部动作图像以及音频的视频。输入视频中的图像与音频之间存在关联关系。

在本实施例中，视频片段应与音频片段互相匹配，因此，基于视频片段的时长或图像帧的帧数，来获取对应的音频帧音频片段，进一步地，根据视频片段的图像帧序列获取对应的音频帧序列，具体地帧数可以根据实际经验进行设定，本实施例对此不做限定。

在具体地应用场景中，对于输入视频，分离出其中的原始图像帧序列和音频片段，对每个视频片段的原始图像帧序列按预设间隔进行采样，以得到每个视频片段对应的图像帧序列。

另一方面，以语言为例，口型与声音频率是存在关联的，因此可以借助口型与声音频率的关联性对图像表征向量进行预测。本实施例中，获取输入视频的音频片段不同频率区间段分别对应的音频信号特征，然后根据不同频率区间段对应的音频信号特征建立音频帧序列。

可选地，在本实施例中，获取输入视频中音频片段对应的音频帧序列，包括但不限于：对音频片段进行多频带处理，以得到多个子波形信号，其中，多个子波形信号分别对应不同的频率区间段；对多个子波形信号进行采样，以得到音频帧序列，其中，音频帧序列包括多个子波形信号对应的多个音频信号特征。

具体地，对音频片段进行多频带处理，以得到不同频率区间段分别对应的子波形信号，每个子波形信号对应一个频率区间段，然后对多个子波形信号进行降采样，以得到音频帧序列，该音频帧序列中包括多个子波形信号对应的多个音频信号特征。

在实际的应用场景中，对音频片段进行多频带处理具体可以包括：对于一段长度为L的音频波形，通过PQMF(伪正交镜像滤波器，Pseudo-Quadrature Mirror Filter)滤波器组将音频波形分解为K个长度为L/K的子波形，每个子波形对应原波形的频谱中的不同频率区间段。

具体地，将长度为L的原波形，分别通过K个PQMF滤波器，每个PQMF滤波器对应一个频率区间段，可以得到K个长度为L的新波形；然后对每个新波形以K个样点为间隔做降采样，得到K个长度为L/K的子波形，即音频帧序列。

通过上述示例，对音频片段进行多频带处理，可以对音频片段分离频段然后进行子频带语音的编码，以提取音频片段在不同频率区段对应的音频信号特征。

S104，通过预先训练完成的图像向量预测模型中的音频表征模块，根据音频帧序列确定音频表征向量组，其中，音频表征向量组包括输入视频的多个子波形信号分别对应的多个音频表征向量；

S106，通过图像向量预测模型中的预测模块，分别根据音频表征向量组以及图像表征向量查找表，确定输入视频的各个视频片段分别对应的预测图像表征向量，其中，图像表征向量查找表包括输入视频的各个视频片段对应的图像表征向量；

本实施例中，通过预先训练完成的图像向量预测模型，获取各个视频片段对应的图像表征向量，以及音频片段对应的音频表征向量组，依次根据各个视频片段对应的各个图像表征向量以及音频表征向量组，确定音频片段与各个视频片段对应的预测图像表征向量。

在具体实施时，根据输入视频的各个视频片段，以及输入视频的各个音频片段，依次将各个视频片段以及一个音频片段输入至图像向量预测模型，由图像向量预测模型根据音频片段对应的特征以及视频片段对应的特征确定预测图像向量，与之类似的，依次获取各个视频片段分别对应的预测图像表征向量。

本实施例具体实施时，首先需要训练图像向量预测模型。

在一些实施例中，获取经过人工标注或已经存在标签的视频文件，分离视频文件中的视频片段以及音频片段；根据带有标签或经过人工标注的视频文件构建训练样本集，其中，训练样本集中的每条训练样本包括视频帧序列、音频帧序列以及预测图像表征向量。具体的训练样本构建方式如下：

一方面，对于分离出的音频片段，通过上述的多频带处理方式，得到K个子波形，对每个子波形提取帧粒度的语音信号特征，音频帧帧移长度与图像帧的时间粒度一致(比如都是40毫秒)，以保证二者时序对齐。设得到的音频帧序列的尺寸为[K,L,M]，其中L为帧数，M为语音信号特征维度。

另一方面，将每个视频文件的图像帧序列按等间隔K做降采样，然后将图像帧序列和音频帧序列组对，每对<图像帧序列,音频帧序列>作为一条训练样本。

接下来，为了增加训练样本的数量，将上述每条训练样本，进一步切碎，按第二维时间切分成长度为N帧的子片段，分裂成多段<图像帧序列,音频帧序列>子片段。其中的音频帧序列的尺寸为[K,N,M]，图像帧序列为N帧图像。通过上述方式，通过对时间维度的进一步切分，得到了更多的训练样本，以构建训练样本集。

通过上述方式，每条训练样本包括图像帧序列、音频帧序列以及预测图像表征向量等信息。在一些实施例中，将每一个样本表示为一个二元组，包括<图像帧序列,音频帧序列,预测图像表征向量>。

然后，基于构建的训练样本集训练图像向量预测模型，以图像帧序列以及音频帧序列作为模型输入，以预测图像表征向量作为模型目标，训练图像向量预测模型。

在本实施例中，如图2所示，图像向量预测模型包括音频表征模块210、图像表征模块220以及预测模块230。其中，音频表征模块210以及图像表征模块220分别与图像向量预测模型的输入端连接，音频表征模块210用于对音频帧序列进行处理，得到音频表征向量；图像表征模块220用于对图像帧序列进行处理，以得到图像表征向量。预测模块230与与图像向量预测模型的输入端连接，用于根据音频表征向量以及图像表征向量进行预测，以得到音频片段对应的预测图像表征向量。

可选地，在本实施例中，所述音频表征模块包括多个音频表征子模块，每个所述音频表征子模块分别对一个频率区间段，其中，通过预先训练完成的图像向量预测模型中的音频表征模块，根据所述音频帧序列确定音频表征向量组，包括：将所述多个音频信号特征分别输入至所述多个音频表征模块，以得到多个音频表征向量；根据多个音频表征向量获取音频表征向量组。

在实际的应用场景中，图像向量预测模型中的音频表征模块包括多个音频表征子模块，分别对应不同的音频频率区间段，多个音频表征子模块用于分别对相应频率区段的音频信号特征进行处理。具体地，将音频帧序列中多个音频信号特征分别输入至对应的音频表征子模块，通过各个音频表征子模块对相应频率区间段的音频信号特征进行独立预测，以得到多个音频表征向量，然后根据多个音频表征向量组成音频表征向量组。

通过上述示例，根据音频片段的音频帧序列获取多个音频信号特征，分别将多个音频信号特征输入至多个音频表征子模块，以得到音频表征向量组，实现根据代表音频不同频段信息的多个子波形独立预测音频表征向量，最终组成音频表征向量组。

可选地，在本实施例中，在通过图像向量预测模型中的预测模块，分别根据音频表征向量组以及图像表征向量查找表，确定输入视频的各个视频片段分别对应的预测图像表征向量之前，还包括但不限于：通过图像向量预测模型中的图像表征模块，根据各个视频片段对应的图像帧序列，确定各个视频片段对应的图像表征向量；根据各个视频片段以及各个图像表征向量，生成图像表征向量查找表。

具体地，在本实施例中，将输入视频中的视频片段对应的图像帧序列分别输入至图像表征模块中，得到视频片段对应的图像表征向量，依照相同的方式，获取输入视频中个视频片段对应的图像表征向量。然后，根据各个视频片段以及各个视频片段对应的图像表征向量，构建图像表征向量查找表，以便后续直接查询。

在一个例子中，将图像帧序列切分成长度为N帧的多个视频子片段，将每个视频子片段输入至表征向量预测模型的图像表征子模块，得到该子片段的图像表征向量，构建一个<图像片段序号，图像表征向量>两列的图像表征向量查找表。

需要说明的是，本实施例中的图像表征向量查找表可以预先构建，以减少进行预测图像表征向量的预测时的工作量。

通过上述示例，根据各个视频片段对应的图像帧序列，确定各个视频片段对应的图像表征向量；根据各个视频片段以及各个图像表征向量，生成图像表征向量查找表，以便后续的图像表征向量预测过程中，方便对各个视频片段对应的图像表征向量的查询，加快了预测速度。

可选地，在本实施例中，预测模块包括注意力机制，其中，通过图像向量预测模型中的预测模块，分别根据音频表征向量组以及图像表征向量查找表，确定输入视频的各个视频片段分别对应的预测图像表征向量，包括但不限于：通过在预测模块中执行注意力机制，根据音频表征向量组与图像表征向量的关联度，确定图像表征向量对应的预测图像表征向量。

在本实施例中，图像向量预测模型中的预测模块包括注意力机制，对于上述图像表征向量查找表中的每个条目，确定每个视频片段对应的图像表征向量与音频表征向量组的关联度。具体地，通过在预测模块中执行注意力机制，根据音频表征向量组与图像表征向量的关联度，确定图像表征向量对应的预测图像表征向量。

在一个例子中，将尺寸为[K,N,M]的音频帧序列，输入音频表征模块，输入前先按第一维拆分成K个尺寸为[N,M]的子矩阵，分别经过K个递归神经网络(音频表征子模块)，得到K个维度为F的音频表征向量组Encoder＝{e₁,e₂,…,e_K}(KxF的矩阵)。

然后，将视频片段图像帧序列输入图像表征模块，得到维度为F的图像表征向量m。

接下来，将图像表征向量m和音频表征向量组Encoder，输入至预测模块，得到预测图像表征向量μ，公式为：

μ＝Attention(m,Encoder)＝Value(Encoder)·Weight(Encoder,m)＝v₁·w₁+v₂·w₂+…+v_K·w_K

其中，Value是对表征向量的线性运算，可以看作是K个频率区间段中每个频率区间段预测出的图像表征向量，

Value(Encoder)＝{v₁,v₂,…,v_K}；

其中，w_j的维度是1，

其中，{b₁,b₂,…,b_F}是可训练的偏置向量。

通过各子频段预测出的图像表征向量的加权和，以得到预测图像表征向量μ。

通过上述示例，通过预测模块的注意力机制，根据输入的图像表征向量，动态决定其对输入音频不同频段信息的关注度。以关注度权重来综合不同频段信息，共同预测出图像表征向量

S108，根据图像表征向量查找表以及各个预测图像表征向量，确定音频片段对应的目标视频片段。

可选地，在本实施例中，根据图像表征向量查找表以及各个预测图像表征向量，确定音频片段对应的目标视频片段，包括但不限于：分别确定图像表征向量查找表中各个图像表征向量，与对应的预测图像表征向量之间的余弦距离；确定余弦距离最小的视频片段为目标视频片段。

具体地，在本实施例中，逐条计算图像表征向量与对应的预测图像表征向量之间的余弦距离，然后，找到余弦距离最小的一个视频片段的图像表征向量，作为为该音频子片段预选确定的目标视频片段。

在本实施例中，获取输入视频中音频片段对应的音频帧序列；通过预先训练完成的图像向量预测模型中的音频表征模块，根据音频帧序列确定音频表征向量组，其中，音频表征向量组包括输入视频的多个子波形信号分别对应的多个音频表征向量；通过图像向量预测模型中的预测模块，分别根据音频表征向量组以及图像表征向量查找表，确定输入视频的各个视频片段分别对应的预测图像表征向量，其中，图像表征向量查找表包括输入视频的各个视频片段对应的图像表征向量；根据图像表征向量查找表以及各个预测图像表征向量，确定音频片段对应的目标视频片段。本实施例通过获取音频帧序列对应的音频表征向量组，然后基于音频表征向量组以及图像表征向量查找表确定各个视频片段对应的预测图像表征向量，然后基于各个视频片段的图像表征向量以及预测图像表征向量之间的相似度，确定音频片段适配的视频片段，进而解决了由于相关技术中合成视频中音频与图像帧不匹配，导致视频质量低，用户体验差的技术问题。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于基于音频片段的视频片段确定方法的基于音频片段的视频片段确定装置，如图3所示，该装置包括：

1)获取单元30，用于获取输入视频中音频片段对应的音频帧序列；

2)第一确定单元32，用于通过预先训练完成的图像向量预测模型中的音频表征模块，根据所述音频帧序列确定音频表征向量组，其中，所述音频表征向量组包括所述输入视频的多个子波形信号分别对应的多个音频表征向量；

3)第二确定单元34，用于通过所述图像向量预测模型中的预测模块，分别根据所述音频表征向量组以及图像表征向量查找表，确定所述输入视频的各个视频片段分别对应的预测图像表征向量，其中，所述图像表征向量查找表包括所述输入视频的各个视频片段对应的图像表征向量；

4)第三确定单元36，用于根据所述图像表征向量查找表以及所述各个预测图像表征向量，确定所述音频片段对应的目标视频片段。

可选地，在本实施例中，所述预测模块包括注意力机制，其中，第二确定单元34还用于：

通过在所述预测模块中执行所述注意力机制，根据所述音频表征向量组与所述图像表征向量的关联度，确定所述图像表征向量对应的预测图像表征向量。

通过本实施例，获取输入视频中音频片段对应的音频帧序列；通过预先训练完成的图像向量预测模型中的音频表征模块，根据音频帧序列确定音频表征向量组，其中，音频表征向量组包括输入视频的多个子波形信号分别对应的多个音频表征向量；通过图像向量预测模型中的预测模块，分别根据音频表征向量组以及图像表征向量查找表，确定输入视频的各个视频片段分别对应的预测图像表征向量，其中，图像表征向量查找表包括输入视频的各个视频片段对应的图像表征向量；根据图像表征向量查找表以及各个预测图像表征向量，确定音频片段对应的目标视频片段。本实施例通过获取音频帧序列对应的音频表征向量组，然后基于音频表征向量组以及图像表征向量查找表确定各个视频片段对应的预测图像表征向量，然后基于各个视频片段的图像表征向量以及预测图像表征向量之间的相似度，确定音频片段适配的视频片段，进而解决了由于相关技术中合成视频中音频与图像帧不匹配，导致视频质量低，用户体验差的技术问题。

实施例3

根据本发明实施例，还提供了一种电子设备，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如上所述的基于音频片段的视频片段确定方法的步骤。

可选地，在本实施例中，存储器被设置为存储用于执行以下步骤的程序代码：

S1，获取输入视频中音频片段对应的音频帧序列；

S2，通过预先训练完成的图像向量预测模型中的音频表征模块，根据所述音频帧序列确定音频表征向量组，其中，所述音频表征向量组包括所述输入视频的多个子波形信号分别对应的多个音频表征向量；

S3，通过所述图像向量预测模型中的预测模块，分别根据所述音频表征向量组以及图像表征向量查找表，确定所述输入视频的各个视频片段分别对应的预测图像表征向量，其中，所述图像表征向量查找表包括所述输入视频的各个视频片段对应的图像表征向量；

S4，根据所述图像表征向量查找表以及所述各个预测图像表征向量，确定所述音频片段对应的目标视频片段。

可选地，本实施例中的具体示例可以参考上述实施例1中所描述的示例，本实施例在此不再赘述。

实施例4

本发明的实施例还提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如上所述的基于音频片段的视频片段确定方法的步骤。

可选地，在本实施例中，可读存储介质被设置为存储用于执行以下步骤的程序代码：

S1，获取输入视频中音频片段对应的音频帧序列；

可选地，可读存储介质还被设置为存储用于执行上述实施例1中的方法中所包括的步骤的程序代码，本实施例中对此不再赘述。

可选地，在本实施例中，上述可读存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于音频片段的视频片段确定方法，其特征在于，包括：

获取输入视频中音频片段对应的音频帧序列；

通过预先训练完成的图像向量预测模型中的音频表征模块，根据所述音频帧序列确定音频表征向量组，其中，所述音频表征向量组包括所述输入视频的多个子波形信号分别对应的多个音频表征向量；

通过所述图像向量预测模型中的预测模块，分别根据所述音频表征向量组以及图像表征向量查找表，确定所述输入视频的各个视频片段分别对应的预测图像表征向量，其中，所述图像表征向量查找表包括所述输入视频的各个视频片段对应的图像表征向量；

根据所述图像表征向量查找表以及所述各个预测图像表征向量，确定所述音频片段对应的目标视频片段。

2.根据权利要求1所述的方法，其特征在于，获取输入视频中音频片段对应的音频帧序列，包括：

对所述音频片段进行多频带处理，以得到所述多个子波形信号，其中，所述多个子波形信号分别对应不同的频率区间段；

对所述多个子波形信号进行采样，以得到所述音频帧序列，其中，所述音频帧序列包括所述多个子波形信号对应的多个音频信号特征。

3.根据权利要求2所述的方法，其特征在于，所述音频表征模块包括多个音频表征子模块，每个所述音频表征子模块分别对一个频率区间段，其中，

通过预先训练完成的图像向量预测模型中的音频表征模块，根据所述音频帧序列确定音频表征向量组，包括：

将所述多个音频信号特征分别输入至所述多个音频表征子模块，以得到所述多个音频表征向量；

根据所述多个音频表征向量获取所述音频表征向量组。

4.根据权利要求1所述的方法，其特征在于，在所述通过所述图像向量预测模型中的预测模块，分别根据所述音频表征向量组以及图像表征向量查找表，确定所述输入视频的各个视频片段分别对应的预测图像表征向量之前，还包括：

通过所述图像向量预测模型中的图像表征模块，根据所述各个视频片段对应的图像帧序列，确定所述各个视频片段对应的图像表征向量；

根据所述各个视频片段以及所述各个图像表征向量，生成所述图像表征向量查找表。

5.根据权利要求1所述的方法，其特征在于，所述预测模块包括注意力机制，其中，

通过所述图像向量预测模型中的预测模块，分别根据所述音频表征向量组以及图像表征向量查找表，确定所述输入视频的各个视频片段分别对应的预测图像表征向量，包括：

6.根据权利要求1所述的方法，其特征在于，根据所述图像表征向量查找表以及所述各个预测图像表征向量，确定所述音频片段对应的目标视频片段，包括：

分别确定所述图像表征向量查找表中各个图像表征向量，与对应的预测图像表征向量之间的余弦距离；

确定所述余弦距离最小的视频片段为所述目标视频片段。

7.一种基于音频片段的视频片段确定装置，其特征在于，包括：

获取单元，用于获取输入视频中音频片段对应的音频帧序列；

第一确定单元，用于通过预先训练完成的图像向量预测模型中的音频表征模块，根据所述音频帧序列确定音频表征向量组，其中，所述音频表征向量组包括所述输入视频的多个子波形信号分别对应的多个音频表征向量；

第二确定单元，用于通过所述图像向量预测模型中的预测模块，分别根据所述音频表征向量组以及图像表征向量查找表，确定所述输入视频的各个视频片段分别对应的预测图像表征向量，其中，所述图像表征向量查找表包括所述输入视频的各个视频片段对应的图像表征向量；

第三确定单元，用于根据所述图像表征向量查找表以及所述各个预测图像表征向量，确定所述音频片段对应的目标视频片段。

8.根据权利要求7所述的装置，其特征在于，所述预测模块包括注意力机制，其中，第二确定单元还用于：

9.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-5所述的语音合成效果评价方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-5所述的语音合成效果评价方法的步骤。