CN111225237B

CN111225237B - 一种视频的音画匹配方法、相关装置以及存储介质

Info

Publication number: CN111225237B
Application number: CN202010326306.1A
Authority: CN
Inventors: 凌永根; 黄浩智; 沈力
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2020-08-21
Anticipated expiration: 2040-04-23
Also published as: US20220223182A1; WO2021213008A1; EP4033769A1; CN111225237A; EP4033769A4

Abstract

本申请公开了一种视频的音画匹配方法、相关装置以及存储介质，用于人工智能领域。本申请方法包括：接收客户端发送的语音序列；从语音序列中获取待匹配语音片段；从图像序列中获取起止标识的初始位置以及起止标识的移动方向；根据起止标识的初始位置、起止标识的移动方向以及待匹配语音片段，获取待匹配活动片段；将待匹配语音片段与待匹配活动片段进行合成处理，得到视频片段。本申请在合成视频的过程中，利用起止标识位置能够定位出图像序列中活动片段的位置，从将具有动作的活动片段与语音片段进行匹配，使得合成的视频片段更符合人物说话时的自然规律，具有更好的真实性。

Description

一种视频的音画匹配方法、相关装置以及存储介质

技术领域

本申请涉及人工智能领域，尤其涉及一种视频的音画匹配方法、相关装置以及存储介质。

背景技术

随着科学技术的不断发展，计算机视觉技术已经在数字娱乐、医疗健康以及安防监控等很多领域存在较大需求。合成逼真的视觉内容不仅具有很大的商业价值，而且也是业界一直所期望的。

目前，提出了一种通过生成式对抗网络（Generative Adversarial Networks，GAN）生成视频的方法，即利用神经网络将已知的图像纹理映射到一个没有见过的场景里，并对映射后的图像进行修复和补全，从而生成期望的视频内容。

然而，采用GAN生成的视频内容中仅包括图像序列，并没有语音内容，而且受限于训练数据的不足以及训练方法的不稳定性，生成的图像序列往往会出现比较明显的瑕疵，从而导致生成的视频内容真实性较差。

发明内容

本申请实施例提供了一种视频的音画匹配方法、相关装置以及存储介质，可以在合成视频的过程中，利用起止标识位置能够定位出图像序列中活动片段的位置，从将具有动作的活动片段与语音片段进行匹配，使得合成的视频片段更符合人物说话时的自然规律，具有更好的真实性，此外，利用起止标识的移动方向能够有序地匹配语音片段和活动片段，可以提升片段合成的一致性和连续性。

有鉴于此，本申请第一方面提供一种视频的音画匹配方法，包括：

接收客户端发送的语音序列，其中，语音序列包括M个语音片段，M为大于或等于1的整数；

从语音序列中获取待匹配语音片段，其中，待匹配语音片段属于语音序列中的任意一个语音片段；

从图像序列中获取起止标识的初始位置以及起止标识的移动方向，其中，图像序列包括N个活动片段，每个活动片段中包括对象的动作画面，起止标识的初始位置为活动片段的起始帧或者活动片段的结束帧，N为大于或等于1的整数；

根据起止标识的初始位置、起止标识的移动方向以及待匹配语音片段，获取待匹配活动片段，其中，待匹配活动片段包括对象的动作画面；

将待匹配语音片段与待匹配活动片段进行合成处理，得到视频片段，其中，视频片段包括对象的动作画面以及对象的语音。

本申请第二方面提供一种音画匹配装置，包括：

接收模块，用于接收客户端发送的语音序列，其中，语音序列包括M个语音片段，M为大于或等于1的整数；

获取模块，用于从语音序列中获取待匹配语音片段，其中，待匹配语音片段属于语音序列中的任意一个语音片段；

获取模块，还用于从图像序列中获取起止标识的初始位置以及起止标识的移动方向，其中，图像序列包括N个活动片段，每个活动片段中包括对象的动作画面，起止标识的初始位置为活动片段的起始帧或者活动片段的结束帧，N为大于或等于1的整数；

获取模块，还用于根据起止标识的初始位置、起止标识的移动方向以及待匹配语音片段，获取待匹配活动片段，其中，待匹配活动片段包括对象的动作画面；

处理模块，用于将待匹配语音片段与待匹配活动片段进行合成处理，得到视频片段，其中，视频片段包括对象的动作画面以及对象的语音。

在一种可能的设计中，在本申请实施例的第二方面的一种实现方式中，音画匹配装置还包括更新模块以及调整模块；

获取模块，具体用于若起止标识的移动方向为正向，且起止标识的初始位置小于或等于第j个活动片段的起始帧，则根据最小缩放比例、起止标识的初始位置以及第j个活动片段的结束帧，确定第一正向时长最小值，其中，j为大于或等于1，且小于或等于(N+1)的整数；

根据最大缩放比例、起止标识的初始位置以及第(j+1)个活动片段的起始帧确定第一正向时长最大值；

根据第一正向时长最小值以及第一正向时长最大值确定目标正向时长区间；

若待匹配语音片段在目标正向时长区间内，则根据第j个活动片段以及第(j+1)个活动片段中至少一个活动片段，获取待匹配活动片段；

更新模块，用于若满足起止标识位置更新条件，则对起止标识的初始位置进行更新；

调整模块，用于若起止标识更新后的位置大于或等于第N个活动片段的结束帧所对应的位置，则将起止标识的移动方向调整为反向。

在一种可能的设计中，在本申请实施例的第二方面的另一实现方式中，

获取模块，具体用于根据起止标识的初始位置以及第j个活动片段的结束帧确定第二正向时长最小值，其中，第二正向时长最小值大于第一正向时长最小值；

根据第一正向时长最小值以及第二正向时长最小值确定第一正向时长区间；

若待匹配语音片段在第一正向时长区间内，则根据待匹配语音片段的时长，对起止标识的初始位置至第j个活动片段的结束帧之间的时长进行缩放处理，得到待匹配活动片段；

更新模块，具体用于若待匹配语音片段在第一正向时长区间内，则满足起止标识位置更新条件；

将起止标识的初始位置更新为第j个活动片段的结束帧所对应的位置。

获取模块，具体用于根据起止标识的初始位置以及第(j+1)个活动片段的结束帧确定第二正向时长最大值，其中，第二正向时长最大值小于第一正向时长最大值；

根据第一正向时长最大值以及第二正向时长最大值确定第二正向时长区间；

若待匹配语音片段在第二正向时长区间内，则根据待匹配语音片段的时长，对起止标识的初始位置至第(j+1)个活动片段的起始帧之间的时长进行缩放处理，得到待匹配活动片段；

更新模块，具体用于若待匹配语音片段在第二正向时长区间内，则满足起止标识位置更新条件；

将起止标识的初始位置更新为第(j+1)个活动片段的起始帧所对应的位置。

根据起止标识的初始位置以及第(j+1)个活动片段的结束帧确定第二正向时长最大值，其中，第二正向时长最大值小于第一正向时长最大值；

根据第二正向时长最小值与第二正向时长最大值确定第三正向时长区间；

若待匹配语音片段在第三正向时长区间内，则根据起止标识的初始位置以及待匹配语音片段的时长，获取待匹配活动片段；

更新模块，具体用于若待匹配语音片段在第三正向时长区间内，则满足起止标识位置更新条件；

将起止标识的初始位置更新为待匹配活动片段的结束帧所对应的位置。

获取模块，还用于若待匹配语音片段未在目标正向时长区间内，且待匹配语音片段的时长小于第一正向时长最小值，则根据待匹配语音片段的时长、起止标识的初始位置以及移动半径，获取待匹配活动片段；

或者，

获取模块，还用于若待匹配语音片段未在目标正向时长区间内，且待匹配语音片段的时长小于第一正向时长最小值，则根据待匹配语音片段的时长以及起止标识的初始位置，获取待匹配活动片段。

在一种可能的设计中，在本申请实施例的第二方面的另一实现方式中，音画匹配装置还包括确定模块以及划分模块；

获取模块，还用于若待匹配语音片段未在目标正向时长区间内，且待匹配语音片段的时长大于第一正向时长最大值，则从图像序列中获取第k个活动片段，其中，k为大于或等于1，且小于或等于N的整数；

确定模块，用于根据最大缩放比例、起止标识的初始位置以及第k个活动片段的起始帧确定第三正向时长最小值；

确定模块，还用于根据最小缩放比例、起止标识的初始位置以及第(k+1)个活动片段的结束帧确定第三正向时长最大值；

确定模块，还用于根据第三正向时长最小值以及第三正向时长最大值确定第四正向时长区间；

确定模块，还用于若待匹配语音片段在第四正向时长区间内，则根据起止标识的初始位置、最大缩放比例、第k个活动片段的起始帧，确定待匹配活动片段的时长；

划分模块，用于根据待匹配活动片段的时长，将待匹配语音片段划分为第一语音片段以及第二语音片段，其中，第一语音片段的时长与待匹配活动片段的时长一致，第二语音片段用于根据起止标识更新后的位置匹配对应的动作片段；

更新模块，具体用于若待匹配语音片段在第四正向时长区间内，则满足起止标识位置更新条件；

将起止标识的初始位置更新为第k个活动片段的起始帧所对应的位置。

获取模块，具体用于若起止标识的移动方向为反向，且起止标识的初始位置大于或等于第p个活动片段的起始帧，则根据最小缩放比例、起止标识的初始位置以及第p个活动片段的起始帧，确定第一反向时长最小值，其中，p为大于或等于1，且小于或等于N的整数；

根据最大缩放比例、起止标识的初始位置以及第(p-1)个活动片段的结束帧确定第一反向时长最大值；

根据第一反向时长最小值以及第一反向时长最大值确定目标反向时长区间；

若待匹配语音片段在目标反向时长区间内，则根据第p个活动片段以及第(p-1)个活动片段中至少一个活动片段获取待匹配活动片段；

更新模块，还用于若满足起止标识位置更新条件，则对起止标识的初始位置进行更新；

调整模块，还用于若起止标识更新后的位置小于或等于第一个活动片段的起始帧所对应的位置，则将起止标识的移动方向调整为正向。

获取模块，具体用于根据起止标识的初始位置以及第p个活动片段的起始帧确定第二反向时长最小值，其中，第二反向时长最小值大于第一反向时长最小值；

根据第一反向时长最小值以及第二反向时长最小值确定第一反向时长区间；

若待匹配语音片段在第一反向时长区间内，则根据待匹配语音片段的时长，对第p个活动片段的起始帧至起止标识的初始位置之间的时长进行缩放处理，得到待匹配活动片段；

更新模块，具体用于若待匹配语音片段在第一反向时长区间内，则满足起止标识位置更新条件；

将起止标识的初始位置更新为第p个活动片段的起始帧所对应的位置。

获取模块，具体用于根据起止标识的初始位置以及第(p-1)个活动片段的结束帧确定第二反向时长最大值，其中，第二反向时长最大值小于第一反向时长最大值；

根据第一反向时长最大值以及第二反向时长最大值确定第二反向时长区间；

若待匹配语音片段在第二反向时长区间内，则根据待匹配语音片段的时长，对第(p-1)个活动片段的结束帧至起止标识的初始位置之间的时长进行缩放处理，得到待匹配活动片段；

更新模块，具体用于若待匹配语音片段在第二反向时长区间内，则满足起止标识位置更新条件；

将起止标识的初始位置更新为第(p-1)个活动片段的结束帧所对应的位置。

根据起止标识的初始位置以及第(p-1)个活动片段的结束帧确定第二反向时长最大值，其中，第二反向时长最大值小于第一反向时长最大值；

根据第二反向时长最小值与第二反向时长最大值确定第三反向时长区间；

若待匹配语音片段在第三反向时长区间内，则根据起止标识的初始位置以及待匹配语音片段的时长，获取待匹配活动片段；

更新模块，具体用于若待匹配语音片段在第三反向时长区间内，则满足起止标识位置更新条件；

将起止标识的初始位置更新为待匹配活动片段的起始帧所对应的位置。

获取模块，还用于若待匹配语音片段未在目标反向时长区间内，且待匹配语音片段的时长小于第一反向时长最小值，则根据待匹配语音片段的时长、起止标识的初始位置以及移动半径，获取待匹配活动片段；

或者，

获取模块，还用于若待匹配语音片段未在目标反向时长区间内，且待匹配语音片段的时长小于第一反向时长最小值，则根据待匹配语音片段的时长以及起止标识的初始位置，获取待匹配活动片段。

获取模块，还用于若待匹配语音片段未在目标反向时长区间内，且待匹配语音片段的时长大于第一反向时长最大值，则从图像序列中获取第q个活动片段，其中，q为大于或等于1，且小于或等于N的整数；

确定模块，还用于根据最大缩放比例、起止标识的初始位置以及第q个活动片段的结束帧确定第三反向时长最小值；

确定模块，还用于根据最小缩放比例、起止标识的初始位置以及第(q-1)个活动片段的起始帧确定第三反向时长最大值；

确定模块，还用于根据第三反向时长最小值以及第三反向时长最大值确定第四反向时长区间；

确定模块，还用于若待匹配语音片段在第四反向时长区间内，则根据起止标识的初始位置、最大缩放比例、第q个活动片段的结束帧，确定待匹配活动片段的时长；

划分模块，还用于根据待匹配活动片段的时长，将待匹配语音片段划分为第一语音片段以及第二语音片段，其中，第一语音片段的时长与待匹配活动片段的时长一致，第二语音片段用于根据起止标识更新后的位置匹配对应的动作片段；

将起止标识的初始位置更新为第q个活动片段的结束帧所对应的位置。

在一种可能的设计中，在本申请实施例的第二方面的另一实现方式中，视频片段为虚拟视频片段、合成视频片段以及剪辑视频片段中的至少一种；

起止标识为起止标识或滑动杆。

本申请第三方面提供一种计算机设备，包括：存储器、收发器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，以实现上述各方面所述的方法；

总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种视频的音画匹配方法，首先接收客户端发送的语音序列，然后从语音序列中获取待匹配语音片段，还可以从图像序列中获取起止标识的初始位置以及起止标识的移动方向，再根据起止标识的初始位置、起止标识的移动方向以及待匹配语音片段，获取待匹配活动片段，最后将待匹配语音片段与待匹配活动片段进行合成处理，得到视频片段。通过上述方式，在合成视频的过程中，利用起止标识位置能够定位出图像序列中活动片段的位置，从将具有动作的活动片段与语音片段进行匹配，使得合成的视频片段更符合人物说话时的自然规律，具有更好的真实性，此外，利用起止标识的移动方向能够有序地匹配语音片段和活动片段，可以提升片段合成的一致性和连续性。

附图说明

图1为本申请实施例中基于音画匹配方法生成视频的一个场景示意图；

图2为本申请实施例中音画匹配系统的一个架构示意图；

图3为本申请实施例中视频的音画匹配方法的一个流程示意图；

图4为本申请实施例中视频的音画匹配方法的一个实施例示意图；

图5为本申请实施例中语音序列的一个实施例示意图；

图6A为本申请实施例中图像序列的一个实施例示意图；

图6B为本申请实施例中起止标识初始位置的一个实施例示意图；

图6C为本申请实施例中起止标识初始位置的另一个实施例示意图；

图7为本申请实施例中获取待匹配活动片段的一个实施例示意图；

图8为本申请实施例中获取待匹配活动片段的另一实施例示意图；

图9为本申请实施例中获取待匹配活动片段的另一实施例示意图；

图10为本申请实施例中获取待匹配活动片段的另一实施例示意图；

图11为本申请实施例中获取待匹配活动片段的另一实施例示意图；

图12为本申请实施例中获取待匹配活动片段的另一实施例示意图；

图13为本申请实施例中获取待匹配活动片段的另一实施例示意图；

图14为本申请实施例中获取待匹配活动片段的另一实施例示意图；

图15为本申请实施例中获取待匹配活动片段的另一实施例示意图；

图16为本申请实施例中音画匹配装置一个实施例示意图；

图17为本申请实施例中终端设备一个实施例示意图。

具体实施方式

本申请实施例提供了一种视频的音画匹配方法、相关装置以及存储介质，用于在合成视频的过程中，利用起止标识位置能够定位出图像序列中活动片段的位置，从将具有动作的活动片段与语音片段进行匹配，使得合成的视频片段更符合人物说话时的自然规律，具有更好的真实性，此外，利用起止标识的移动方向能够有序地匹配语音片段和活动片段，可以提升片段合成的一致性和连续性。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请提供的音画匹配方法应用于合成视频的场景中，即可以合成包括语音信息和图像信息的视频，基于该视频可以实现虚拟偶像，虚拟解说或者虚拟教师等应用。例如，在虚拟解说中，可以获取一段图像序列，该视频包括具有说话动作的图像序列。再获取语音序列，该语音序列可以是预先录制的，也可以是实时采集的，还可以是由文本转换后得到的，采用本申请提供的音画匹配方法可将该语音序列与图像序列对应起来，合成相应的视频，以此实现虚拟解说。为了便于理解，以应用于虚拟播报对象的场景作为另一个示例，请参阅图1，图1为本申请实施例中基于音画匹配方法生成视频的一个场景示意图，如图所示，图1中（A）图所示的为用户通过终端设备的麦克风输入语音序列的方式，终端设备基于从语音序列中获取待匹配语音片段，并在线确定待匹配活动片段，将待匹配语音片段与待匹配活动片段进行合成处理，得到视频片段，从而可以得到如图1中（B）图所示的视频片段，该视频片段中包括有所生成的对象的动作画面以及对象的语音，由此可以使得合成的视频片段更符合人物说话时的自然规律，使得在终端设备的客户端上所展示的视频片段具有更好的真实性。可以理解的是，此处不对应用场景进行穷举。

为了在上述各种场景中，提升视频内容的真实性，本申请提出了一种视频的音画匹配方法，该方法应用于图2所示的视频的音画匹配系统，请参阅图2，图2为本申请实施例中音画匹配系统的一个架构示意图，如图所示，视频的音画匹配系统中包括服务器和终端设备，音画匹配装置可以部署于服务器，也可以部署于终端设备，下面将以音画匹配装置部署于终端设备为例进行介绍。一种方式为，终端设备获取语音序列，然后从语音序列中获取待匹配语音片段，再按照本申请提供的音画匹配方法从图像序列中获取待匹配活动片段，并在终端设备侧将待匹配语音片段与待匹配活动片段进行合成处理，得到视频片段，终端设备直接播放即可。另一种方式为，终端设备获取语音序列，然后将语音序列发送至服务器，由服务器从语音序列中获取待匹配语音片段，再按照本申请提供的音画匹配方法从图像序列中获取待匹配活动片段，并在服务器侧将待匹配语音片段与待匹配活动片段进行合成处理，得到视频片段，服务器将视频片段反馈至终端设备，由终端设备进行播放。

需要说明的是，图2中的服务器可以是一台服务器或多台服务器组成的服务器集群或云计算中心等，具体此处均不限定。终端设备可以为图2中示出的平板电脑、笔记本电脑、掌上电脑、手机、个人电脑（personal computer，PC）及语音交互设备。其中，语音交互设备包含但不仅限于智能音响以及智能家电。

虽然图2中仅示出了五个终端设备和一个服务器，但应当理解，图2中的示例仅用于理解本方案，具体终端设备和服务器的数量均应当结合实际情况灵活确定。

本申请实施例可基于AI（Artificial Intelligence，AI）技术实现音画匹配，下面将先对AI领域的一些基础概念进行介绍。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，AI是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。AI也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。AI技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。AI基础技术一般包括如传感器、专用AI芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。AI软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着AI技术研究和进步，AI技术在多种方向展开研究，计算机视觉技术（ComputerVision，CV）就是AI技术的多种研究方向中研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的AI系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别（Optical Character Recognition，OCR）、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

基于此，下面将介绍视频的音画匹配方法，请参阅图3，图3为本申请实施例中视频的音画匹配方法的一个流程示意图，如图所示，具体地：

在步骤S1中，从图像序列中获取起止标识的初始位置以及起止标识的移动方向。

在步骤S2中，首先判断对待匹配活动片段缩放后，是否存在与待匹配语音片段同样的时长的情况，若存在，则执行步骤S3，若不存在，且理由是待匹配语音片段过短，则执行步骤S4。若不存在，且理由是待匹配活动片段过于长的情况，则执行步骤S5。

在步骤S3中，将缩放后的待匹配活动片段与待匹配语音片段直接进行匹配，并且得到视频片段。

在步骤S4中，以起止标识为中心原点生成待匹配活动片段，且与待匹配语音片段进行匹配，并且得到视频片段。

在步骤S5中，生成一段待匹配活动片段与待匹配语音片段匹配，然后重新获取当前起止标识位置以及方向。

本申请实施例提供的方案涉及计算机视觉技术，结合上述介绍，下面将对本申请中视频的音画匹配方法进行介绍，请参阅图4，如图所示，本申请实施例中视频的音画匹配方法一个实施例包括：

101、接收客户端发送的语音序列，其中，语音序列包括M个语音片段，M为大于或等于1的整数；

本实施例中，音画匹配装置接收客户端发送的语音序列，并且该语音序列中包括至少一个语音片段。具体地，客户端所发动的语音序列是通过客户端用户在线输入的，例如，用户通过麦克风输入一段语音后生成对应的语音序列，或者用户输入文本内容，对文本内容经过转换后得到的语音序列。需要说明的是，音画匹配装置可以部署于服务器，也可以部署于终端设备，本申请中以音画匹配装置部署于终端设备为例进行说明，然而这不应理解为对本申请的限定。

102、从语音序列中获取待匹配语音片段，其中，待匹配语音片段属于语音序列中的任意一个语音片段；

本实施例中，音画匹配装置可以从语音序列中获取一个待匹配语音片段。具体地，待匹配语音片段的时长为l_i，i为大于或等于1，且小于或等于M的整数。为了将待匹配语音和图像序列中的待匹配活动片段进行匹配以及对齐，本申请可以采用每秒30帧的速率从语音序列和图像序列中提取片段。

为了便于理解，请参阅图5，图5为本申请实施例中语音序列的一个实施例示意图，如图所示，A0用于指示一段语音序列，其中，A1、A2、A3、A4和A5分别指示语音序列中不同的语音片段，而待匹配语音片段可以为这五个语音片段中的任意一个。

103、从图像序列中获取起止标识的初始位置以及起止标识的移动方向，其中，图像序列包括N个活动片段，每个活动片段中包括对象的动作画面，起止标识的初始位置为活动片段的起始帧或者活动片段的结束帧，N为大于或等于1的整数；

本实施例中，音画匹配装置需要获取图像序列，其中，图像序列是由多帧图像组成的序列，图像序列中包括活动片段以及静默片段，每个活动片段中包括对象的动作画面，而每个静默片段中通常不具有活动的画面，比如，背景图像。音画匹配装置从图像序列中获取起止标识的初始位置以及起止标识的移动方向，起止标识的初始位置为活动片段的起始帧或者活动片段的结束帧，其中，起止标识可以为游标（Cursor）或滑动杆，游标具有向前移动或向后移动的能力，因此，可以把游标当作一个指针，游标可以指定图像序列或语音序列中的任何位置。滑动杆与游标类似，也具有向前移动或向后移动的能力，指定图像序列或语音序列中的任何位置。因此，起止标识可以表示为图像序列中一个特的帧号，时间总长度用帧的数量表示。对象可以指虚拟对象，例如虚拟播报员、虚拟人物或者卡通人物等。对象也可以指真实对象，例如，用户甲。

具体地，请参阅图6A，图6A为本申请实施例中图像序列的一个实施例示意图，如图所示，B0用于指示一段图像序列，其中，B1、B2、B3、B4和B5分别指示图像序列中不同的活动片段。请参阅图6B，图6B为本申请实施例中起止标识初始位置的一个实施例示意图，如图所示，当起止标识的移动方向为正向时，B6用于指示起止标识所对应的初始位置，且该起止标识的初始位置为活动片段的起始帧，请参阅图6C，图6C为本申请实施例中起止标识初始位置的另一个实施例示意图，如图所示，当起止标识的移动方向为反向时，B7用于指示起止标识所对应的初始位置，且该起止标识的初始位置为活动片段的结束帧。

104、根据起止标识的初始位置、起止标识的移动方向以及待匹配语音片段，获取待匹配活动片段，其中，待匹配活动片段包括对象的动作画面；

本实施例中，音画匹配装置可以根据起止标识的初始位置、起止标识的移动方向以及待匹配语音片段获取待匹配活动片段，该待匹配活动片段包括对象的动作画面。具体地，假设图5中A3为待匹配语音片段，起止标识的移动方向为正向，且起止标识的初始位置如图6B中的B6所示的位置，基于此，待匹配活动片段可以为图6A所示出的活动片段B3，且该待匹配活动片段B3可以包括对象的动作画面。

105、将待匹配语音片段与待匹配活动片段进行合成处理，得到视频片段，其中，视频片段包括对象的动作画面以及对象的语音。

本实施例中，音画匹配装置将待匹配语音片段与待匹配活动片段进行合成处理，得到视频片段。具体地，假设图5中A3为待匹配语音片段，图6A中的B3为待匹配活动片段，那么可以将待匹配语音片段A3与待匹配活动片段B3进行合成处理，从而得到视频片段，由于待匹配语音片段A3包括对象的语音，而待匹配活动片段B3包括对象的动作画面，因此，视频片段中也包括对象的动作画面以及所对应的语音。可选地，为了进一步提高合成视频的质量，还可以采用神经网络根据说话的内容合成对应的嘴唇形状，然后将嘴唇形状的缝补到合成到的视频片段。

可以理解的是，视频片段包括但不限于虚拟视频片段、合成视频片段以及剪辑视频片段。当视频片段为虚拟视频片段时，该虚拟视频片段包括虚拟对象的动作画面以及虚拟对象的语音。当视频片段为合成视频片段时，该合成视频片段包括对象的动作画面以及对象的语音。当视频片段为剪辑视频片段时，该剪辑视频片段包括从一段完整视频中剪辑得到的部分片段，该片段包括对象的动作画面以及对象的语音。

本申请实施例中，提供了一种视频的音画匹配方法，通过上述方式，在合成视频的过程中，利用起止标识位置能够定位出图像序列中活动片段的位置，从将具有动作的活动片段与语音片段进行匹配，使得合成的视频片段更符合人物说话时的自然规律，具有更好的真实性，此外，利用起止标识的移动方向能够有序地匹配语音片段和活动片段，可以提升片段合成的一致性和连续性。

可选地，在上述图4对应的实施例的基础上，本申请实施例提供的视频的音画匹配方法一个可选实施例中，根据起止标识的初始位置、起止标识的移动方向以及待匹配语音片段，获取待匹配活动片段，可以包括：

若起止标识的移动方向为正向，且起止标识的初始位置小于或等于第j个活动片段的起始帧，则根据最小缩放比例、起止标识的初始位置以及第j个活动片段的结束帧，确定第一正向时长最小值，其中，j为大于或等于1，且小于或等于(N+1)的整数；

视频的音画匹配方法还包括：

若满足起止标识位置更新条件，则对起止标识的初始位置进行更新；

若起止标识更新后的位置大于或等于第N个活动片段的结束帧所对应的位置，则将起止标识的移动方向调整为反向。

本实施例中，当起止标识的移动方向为正向，且起止标识的初始位置小于或等于第j个活动片段的起始帧时，音画匹配装置可以确定第一正向时长最小值以及第一正向时长最大值，再确定目标正向时长区间，当待匹配语音片段在目标正向时长区间内时，即可获取待匹配活动片段。

具体地，以最小缩放比例为0.8，最大缩放比例为1.25作为示例进行说明。第一正向时长最小值可以通过下式进行计算：

scale_short*(e_j-Index+1)；

第一正向时长最大值可以通过下式进行计算：

scale_long*(s_j+1-Index+1)；

目标正向时长区间可以通过下式进行计算：

[scale_short*(e_j-Index+1),scale_long*(s_j+1-Index+1)]；

其中，Index表示起止标识的初始位置，scale_short表示最小缩放比例，e_j表示第j个活动片段的结束帧，scale_long表示最大缩放比例，s_j+1表示第(j+1)个活动片段的起始帧。

为了便于理解，在起止标识的移动方向为正向时，以起止标识的初始位置为图像序列的第10帧，第j个活动片段的起始帧为第10帧，第j个活动片段的结束帧为第16帧，第(j+1)个活动片段的起始帧为第18帧作为示例进行说明，请参阅图7，图7为本申请实施例中获取待匹配活动片段的一个实施例示意图，如图所示，图7中（A）图示出的C0表示起止标识的初始位置Index，即为图像序列的第10帧。C1表示第j个活动片段的起始帧s_j，即为图像序列的第10帧。C2表示第j个活动片段的结束帧e_j，即为图像序列的第16帧。C3表示第(j+1)个活动片段的起始帧s_j+1，即为图像序列的第18帧。C4表示第j个活动片段的长度，C5表示第(j+1)个活动片段的长度。

由前述公式可以得到第一正向时长最小值为5.6，第一正向时长最大值为11.25，由此可以得到目标正向时长区间为[5.6，11.25]。若待匹配语音片段的时长处于[5.6，11.25]，即如图7中（B）图示出的待匹配语音片段C6，则可以根据活动片段C4以及活动片段C5中至少一个活动片段确定待匹配活动片段。

当满足起止标识位置更新条件时，音画匹配装置还可以对起止标识的初始位置进行更新，当起止标识更新后的位置大于或等于第N个活动片段的结束帧所对应的位置，将起止标识的移动方向调整为反向。也就是说，如果起止标识的移动方向为正向，并且起止标识更新后的位置已经超过了图像序列中最后一个活动片段的最后一帧，那么需要将起止标识的移动方向更改为反向，进行与正向的类似操作，通过起止标识在正向至反向的更新与调整，能够对实时出入的语音序列进行匹配，从而实时生成真实性较高的视频。

本申请实施例中，提供了一种获取待匹配活动片段的方法，通过上述方式，在起止标识的移动方向为正向时，具体通过起止标识的初始位置、以及活动片段的起始帧与结束帧，结合待匹配语音片段，对待匹配活动片段进行获取，由此所合成的视频更符合对象实际语音描述时的场景，从而视频更具有真实性。此外，通过活动片段与下一个活动片段的匹配使得不同待匹配语音片段对应的待匹配活动片段是首尾相连的，从而提升了片段合成的一致性和连续性。

可选地，在上述图4对应的实施例的基础上，本申请实施例提供的视频的音画匹配方法另一个可选实施例中，根据第j个活动片段以及第(j+1)个活动片段中至少一个活动片段，获取待匹配活动片段，可以包括：

根据起止标识的初始位置以及第j个活动片段的结束帧确定第二正向时长最小值，其中，第二正向时长最小值大于第一正向时长最小值；

若满足起止标识位置更新条件，则对起止标识的初始位置进行更新，可以包括：

若待匹配语音片段在第一正向时长区间内，则满足起止标识位置更新条件；

本实施例中，音画匹配装置可以确定第二正向时长最小值，再根据第一正向时长最小值以及第二正向时长最小值确定第一正向时长区间，当待匹配语音片段在第一正向时长区间内时，根据待匹配语音片段的时长，对起止标识的初始位置至第j个活动片段的结束帧之间的时长进行缩放处理，得到待匹配活动片段。当待匹配语音片段在第一正向时长区间内时，表示满足起止标识位置更新条件，即可将起止标识的初始位置更新为第j个活动片段的结束帧所对应的位置。

具体地，第二正向时长最小值可以通过下式进行计算：

e_j-Index+1；

其次，第一正向时长区间可以通过下式进行计算：

[scale_short*(e_j-Index+1)，e_j-Index+1]；

其中， Index表示起止标识的初始位置，scale_short表示最小缩放比例，e_j表示第j个活动片段的结束帧。

为了便于理解，以起止标识的初始位置为第10帧，第j个活动片段的起始帧为第10帧，第j个活动片段的结束帧为第16帧，第(j+1)个活动片段的起始帧为第18帧，且待匹配语音片段的时长为6帧作为示例进行说明，请参阅图8，图8为本申请实施例中获取待匹配活动片段的另一实施例示意图，如图所示，图8中（A）图示出的D0表示起止标识的初始位置Index，且起止标识的初始位置为第10帧。D1表示第j个活动片段的起始帧s_j，且为图像序列的第10帧。D2表示表示第j个活动片段的结束帧e_j，且为图像序列的第16帧。D3表示第(j+1)个活动片段的起始帧s_j+1，且为图像序列的第18帧。D4表示第j个活动片段的长度，D5表示第(j+1)个活动片段的长度。

由前述公式可以得到第一正向时长最小值为5.6帧，而第二正向时长最小值为7帧，由此可以得到第一正向时长区间为[5.6，7]。假设图8中（B）图示出的待匹配语音片段D6为6帧，即待匹配语音片段的时长处于第一正向时长区间内，由此，可以根据待匹配语音片段D6的时长，对起止标识的初始位置至第j个活动片段的结束帧之间的时长进行缩放处理，例如，将第j个活动片段的时长缩放至6帧。从而与待匹配语音片段D6进行匹配。

若待匹配语音片段的时长处于第一正向时长区间内，则满足起止标识位置更新条件，由此需要将起止标识的初始位置更新为第j个活动片段的结束帧所对应的位置，也就是将起止标识的初始位置从第10帧更改为第16帧。

若待匹配语音片段在第二正向时长区间内，则满足起止标识位置更新条件；

本实施例中，音画匹配装置可以确定第二正向时长最大值，然后根据第一正向时长最大值以及第二正向时长最大值确定第二正向时长区间，当待匹配语音片段在第二正向时长区间内时，根据待匹配语音片段的时长，对起止标识的初始位置至第(j+1)个活动片段的起始帧之间的时长进行缩放处理，得到待匹配活动片段。当待匹配语音片段在第二正向时长区间内时，将起止标识的初始位置更新为第(j+1)个活动片段的起始帧所对应的位置。

具体地，第二正向时长最大值可以通过下式进行计算：

s_j+1-Index+1；

其次，第二正向时长区间可以通过下式进行计算：

[s_j+1-Index+1，scale_long*(s_j+1-Index+1)]；

其中，Index表示起止标识的初始位置，scale_long表示最大缩放比例，s_j+1表示第(j+1)个活动片段的起始帧。

为了便于理解，以起止标识的初始位置为第10帧，第j个活动片段的起始帧为第10帧，第j个活动片段的结束帧为第16帧，第(j+1)个活动片段的起始帧为第18帧，且待匹配语音片段的时长为9帧作为示例进行说明，请参阅图9，图9为本申请实施例中获取待匹配活动片段的另一实施例示意图，如图所示，图9中（A）图示出的E0表示起止标识的初始位置Index，且起止标识的初始位置为第10帧。E1表示第j个活动片段的起始帧s_j，且为图像序列的第10帧，E2表示表示第j个活动片段的结束帧e_j，且为图像序列的第16帧，E3表示第(j+1)个活动片段的起始帧s_j+1，且为图像序列的第18帧，E4表示第j个活动片段的长度，E5表示第(j+1)个活动片段的长度。

由前述公式可以得到第一正向时长最大值为11.25帧，而第二正向时长最大值为9帧，由此可以得到第二正向时长区间为[9，11.25]。假设图9中（B）图示出的待匹配语音片段E6为10帧，即待匹配语音片段的时长处于第二正向时长区间内，由此，可以根据待匹配语音片段E6的时长，对起止标识的初始位置至第(j+1)个活动片段的起始帧之间的时长进行缩放处理，例如，将E0至E3之间的时长缩放至10帧。由此可以得到时长与待匹配语音片段E6相同的待匹配活动片段。

若待匹配语音片段的时长处于第二正向时长区间内，则满足起止标识位置更新条件，由此需要将起止标识的初始位置更新为第(j+1)个活动片段的起始帧所对应的位置，也就是将起止标识的初始位置从第10帧更改为第18帧。

若待匹配语音片段在第三正向时长区间内，则满足起止标识位置更新条件；

本实施例中，音画匹配装置确定第二正向时长最小值第二正向时长最大值，再根据第二正向时长最小值与第二正向时长最大值确定第三正向时长区间，当待匹配语音片段在第三正向时长区间内时，根据起止标识的初始位置以及待匹配语音片段的时长，获取待匹配活动片段。若待匹配语音片段在第三正向时长区间内，则将起止标识的初始位置更新为待匹配活动片段的结束帧所对应的位置。

具体地，第三正向时长区间可以通过下式进行计算：

[e_j-Index+1，s_j+1-Index+1]；

其中，Index表示起止标识的初始位置，e_j表示第j个活动片段的结束帧，s_j+1表示第(j+1)个活动片段的起始帧。

为了便于理解，以起止标识的初始位置为第10帧，第j个活动片段的起始帧为第10帧，第j个活动片段的结束帧为第16帧，第(j+1)个活动片段的起始帧为第18帧，且待匹配语音片段的时长为8帧作为示例进行说明，请参阅图10，图10为本申请实施例中获取待匹配活动片段的另一实施例示意图，如图所示，图10中（A）图示出的F0表示起止标识的初始位置Index，且起止标识的初始位置为第10帧。F1表示第j个活动片段的起始帧s_j，且为图像序列的第10帧，F2表示表示第j个活动片段的结束帧e_j，且为图像序列的第16帧，F3表示第(j+1)个活动片段的起始帧s_j+1，且为图像序列的第18帧，F4表示第j个活动片段的长度，F5表示第(j+1)个活动片段的长度。

由前述公式可以得到第二正向时长最小值为7帧，而第二正向时长最大值为9帧，由此可以得到第三正向时长区间为[7,9]。假设图10中（B）图示出的待匹配语音片段F6为8帧，即待匹配语音片段的时长处于第三正向时长区间内，由此，可以根据起止标识的初始位置F0以及待匹配语音片段F6的时长，采用如下方式确定待匹配活动片段：

[Index，Index+l_i-1]；

其中，Index表示起止标识的初始位置，l_i表示待匹配语音片段的长度。假设待匹配语音片段的长度为8帧，即待匹配活动片段表示为第10帧至第17帧之间的活动片段。

若待匹配语音片段的时长处于第三正向时长区间内，则满足起止标识位置更新条件，由此可以将起止标识的初始位置更新为待匹配活动片段的结束帧所对应的位置，也就是将起止标识的初始位置从第10帧更改为第17帧，从而保证起止标识的位置处于静默片段里。

本申请实施例中，提供了获取待匹配活动片段的方法，通过上述方式，可以在待匹配语音片段长度不同的情况下，采用不同的方式对待匹配活动片段进行获取，从而提升匹配算法的多样性，其次，更新后的起止标识落在静默片段里，使得活动片段配有语音，从而提升合成视频的显得更加自然。更进一步地，本申请提供的匹配方法计算简单，可用于实时计算，能够在线合成视频片段。

可选地，在上述图4对应的实施例的基础上，本申请实施例提供的视频的音画匹配方法另一个可选实施例中，根据第一正向时长最小值以及第一正向时长最大值确定目标正向时长区间之后，视频的音画匹配方法还包括：

若待匹配语音片段未在目标正向时长区间内，且待匹配语音片段的时长小于第一正向时长最小值，则根据待匹配语音片段的时长、起止标识的初始位置以及移动半径，获取待匹配活动片段；

或者，

若待匹配语音片段未在目标正向时长区间内，且待匹配语音片段的时长小于第一正向时长最小值，则根据待匹配语音片段的时长以及起止标识的初始位置，获取待匹配活动片段。

本实施例中，当待匹配语音片段未在目标正向时长区间内，且待匹配语音片段的时长小于第一正向时长最小值时，音画匹配装置可以以双向摆动取值的方式获取待匹配活动片段，或者，音画匹配装置可以朝静默片段的方向取若干帧，以获取待匹配活动片段。

具体地，以起止标识的初始位置为第10帧，第j个活动片段的起始帧为第10帧，第j个活动片段的结束帧为第16帧，第(j+1)个活动片段的起始帧为第18帧，且待匹配语音片段的时长为3帧作为示例进行说明，由前述公式可以得到目标正向时长区间为[5.6，11.25]，因此，待匹配语音片段未在目标正向时长区间内，且小于第一正向时长最小值5.6，于是可以根据起止标识的初始位置作为中心，以移动半径为 r来回在活动移动得到待匹配活动片段。可以理解的是，移动半径通常为大于或等于1，且小于或等于5的整数，且起止标识的初始位置不进行更新。假设半径为3，起止标识的初始位置为第10帧，那么可以取到第10帧、第11帧、第12帧、第11帧、第10帧、第9帧、第8帧、第9帧、第10帧、第11帧、第12帧、第11帧等，以此类推。根据再基于待匹配语音片段的时长，依次获取对应的帧，假设待匹配语音片段的时长为3帧，即从上述序列中取出前3帧图像，即第10帧、第11帧和第12帧。

可以理解的是，在实际应用中，有两种活动片段的设计方式，第一种方式为，将第一帧动作画面作为活动片段的起始帧，将该活动片段中最后一帧动作画面作为结束帧即活动片段与肉眼看到的具有动作的片段一致。另一种方式为，在第一帧动作画面之前选择若干帧静默画面，并将该静默画面所对应的某一帧作为活动片段的起始帧，类似地，从该活动片段中最后一帧动作画面结束后的若干帧静默画面中选择其中一帧，作为活动片段的结束帧，这样的话，相当于活动片段实际上在头尾部分是包括一小段静默片段的，更贴近于实际的工业应用。基于上述两种方式，本申请提供了以下两种解决方式。

为了便于理解，请参阅图11，图11为本申请实施例中获取待匹配活动片段的另一实施例示意图，如图所示，图11中（A）图所示出的为头尾部分是包括一小段静默片段的活动片段G1，即活动片段G1中可以包括有动作的图像帧以及静默帧，根据起止标识的初始位置为中心，以移动半径为 r 的正反移动得到待匹配活动片段，在实际应用中，待匹配活动片段通常包括若干静默帧，也可能包括少量活动帧。图11中（B）图所示出的为不包括静默帧的活动片段G2，即活动片段G2仅包括有动作的图像帧，于是可以直接从起止标识的初始位置向静默片段的方向移动若干帧，取出待匹配活动片段，且待匹配活动片段的帧数与待匹配语音片段的帧数相同。即当起止标识在活动片段的起始帧时，以待匹配语音片段的时长往前取几帧，比如从第10帧向反方向（静默片段的方向）取3帧，从而获取待匹配活动片段。当起止标识在活动片段的结束帧时，以待匹配语音片段的时长往后取几帧，比如从第16帧向正方向（静默片段的方向）取3帧，从而获取待匹配活动片段。

本申请实施例中，提供了一种获取待匹配活动片段的方法，通过上述方式，对于语音片段过短的情况，可以配以静默片段，从而不会显得合成后的视频过于突兀，由此提升视频的真实性。

若待匹配语音片段未在目标正向时长区间内，且待匹配语音片段的时长大于第一正向时长最大值，则从图像序列中获取第k个活动片段，其中，k为大于或等于1，且小于或等于N的整数；

根据最大缩放比例、起止标识的初始位置以及第k个活动片段的起始帧确定第三正向时长最小值；

根据最小缩放比例、起止标识的初始位置以及第(k+1)个活动片段的结束帧确定第三正向时长最大值；

根据第三正向时长最小值以及第三正向时长最大值确定第四正向时长区间；

若待匹配语音片段在第四正向时长区间内，则根据起止标识的初始位置、最大缩放比例、第k个活动片段的起始帧，确定待匹配活动片段的时长；

根据待匹配活动片段的时长，将待匹配语音片段划分为第一语音片段以及第二语音片段，其中，第一语音片段的时长与待匹配活动片段的时长一致，第二语音片段用于根据起止标识更新后的位置匹配对应的动作片段；

若待匹配语音片段在第四正向时长区间内，则满足起止标识位置更新条件；

本实施例中，如果待匹配语音片段过长，则音画匹配装置可以从图像序列中获取第k个活动片段，再确定第三正向时长最小值和第三正向时长最大值，进而确定第四正向时长区间，当待匹配语音片段在第四正向时长区间内时，根据起止标识的初始位置、最大缩放比例、第k个活动片段的起始帧，确定待匹配活动片段的时长，以此将待匹配语音片段划分为第一语音片段以及第二语音片段，第二语音片段用于根据起止标识更新后的位置匹配对应的动作片段，也就是将第二语音片段作为下一轮的待匹配语音片段再次进行音画匹配。如果待匹配语音片段在第四正向时长区间内时，表示满足起止标识位置更新条件，再将起止标识的初始位置更新为第k个活动片段的起始帧所对应的位置。

具体地，以起止标识的初始位置为第10帧，第j个活动片段的起始帧为第10帧，第j个活动片段的结束帧为第16帧，第(j+1)个活动片段的起始帧为第18帧，且待匹配语音片段的时长为25帧作为示例进行说明，由前述公式可以得到目标正向时长区间为[5.6，11.25]，且第一正向时长最大值为11.25帧，待匹配语音片段未在目标正向时长区间内，且大于第一正向时长最大值，于是需要获取第k个活动片段。

第三正向时长最小值可以通过下式进行计算：

scale_long*(s_k-Index+1)；

第三正向时长最大值可以通过下式进行计算：

scale_short*(e_k+1-Index+1)；

第四正向时长区间可以通过下式进行计算：

[scale_long*(s_k-Index+1), scale_short*(e_k+1-Index+1)]；

待匹配活动片段的时长可以通过下式进行计算：

scale_long*(s_k-Index+1)-1；

其中，Index表示起止标识的初始位置，s_k表示第k个活动片段的起始帧，e_k+1表示第（k+1）个活动片段的结束帧，scale_short表示最小缩放比例，scale_long表示最大缩放比例。

以起止标识的初始位置为第10帧，第k个活动片段的起始帧为第26帧，第(k+1)个活动片段的结束帧为第45帧作为示例进行说明，由前述公式可以得到第三正向时长最小值为21.25帧，第三正向时长最大值为28.8帧，根据第三正向时长最小值以及第三正向时长最大值确定第四正向时长区间为[21.25,28.8]，若待匹配语音片段的时长为25帧，则该待匹配语音片段在第四正向时长区间内，进一步地，根据前述公式可以得到待匹配活动片段的时长为20.25帧。

通过下式进行对第一语音片段进行计算：

[1，scale_long*(s_k-Index+1)-1]；

通过下式进行对第二语音片段的时长进行计算：

第二语音片段的时长= l_i-[scale_long*(s_k-Index+1)-1]；

其中，Index表示起止标识的初始位置，s_k表示第k个活动片段的起始帧，scale_long表示最大缩放比例，l_i表示待匹配语音片段的时长。

因此，由前述公式可以得到第一语音片段第1帧至第20.25帧，第二语音片段的时长为4.75帧。其次，由于待匹配语音片段在第四正向时长区间内，则满足起止标识位置更新条件，可以将起止标识的初始位置更新为第k个活动片段的起始帧所对应的位置，也就是将起止标识的初始位置从第10帧更改为第26帧，而前述所得到的第二语音片段可以根据起止标识更新后的位置匹配对应的动作片段，具体匹配方法与前述类似实施例类似，在此不再赘述。

本申请实施例中，提供了一种获取待匹配活动片段的方法，通过上述方式，可以提升匹配的准确度，由此提升视频中语音片段与活动片段的匹配度，从而提升视频的真实性。

可选地，在上述图4对应的实施例的基础上，本申请实施例提供的视频的音画匹配方法另一个可选实施例中，根据起止标识的初始位置、起止标识的移动方向以及待匹配语音片段，获取待匹配活动片段，可以包括：

若起止标识的移动方向为反向，且起止标识的初始位置大于或等于第p个活动片段的起始帧，则根据最小缩放比例、起止标识的初始位置以及第p个活动片段的起始帧，确定第一反向时长最小值，其中，p为大于或等于1，且小于或等于N的整数；

视频的音画匹配方法还包括：

若起止标识更新后的位置小于或等于第一个活动片段的起始帧所对应的位置，则将起止标识的移动方向调整为正向。

本实施例中，当起止标识的移动方向为反向，且起止标识的初始位置大于或等于第p个活动片段的起始帧时，音画匹配装置可以确定第一反向时长最小值以及第一反向时长最大值，再确定目标反向时长区间，当待匹配语音片段在目标反向时长区间内时，即可获取待匹配活动片段。若满足起止标识位置更新条件，则对起止标识的初始位置进行更新，若起止标识更新后的位置小于或等于第一个活动片段的起始帧所对应的位置，则将起止标识的移动方向调整为正向。

具体地，以最小缩放比例为0.8，最大缩放比例为1.25作为示例进行说明。第一反向时长最小值可以通过下式进行计算：

scale_short*(Index-s_p+1)；

第一反向时长最大值可以通过下式进行计算：

scale_long*(Index-e_p-1+1)；

目标反向时长区间可以通过下式进行计算：

[scale_short*(Index-s_p+1),scale_long*(Index-e_p-1+1)]；

其中，Index表示起止标识的初始位置，scale_short表示最小缩放比例，s_p表示第p个活动片段的起始帧，scale_long表示最大缩放比例，e_p-1表示第(p-1)个活动片段的结束帧。

为了便于理解，在起止标识的移动方向为反向时，以起止标识的初始位置为图像序列的第18帧，第p个活动片段的起始帧为第11帧，第(p-1)个活动片段的结束帧为第9帧作为示例进行说明，请参阅图12，图12为本申请实施例中获取待匹配活动片段的另一实施例示意图，如图所示，图12中（A）图示出的H0表示起止标识的初始位置Index，即为图像序列的第18帧。 H1表示第p个活动片段的起始帧s_p，即为图像序列的第11帧。H2表示第(p-1)个活动片段的结束帧e_p-1，即为图像序列的第9帧。H3表示第p个活动片段的长度，H4表示第(p-1)个活动片段的长度。

由前述公式可以得到第一反向时长最小值为6.4帧，而第一反向时长最大值为12.5帧，由此可以得到目标反向时长区间为[6.4，12.5]。若待匹配语音片段的时长处于[6.4，12.5]，即如图12中（B）图示出的待匹配语音片段H5，则可以根据活动片段H3以及活动片段H4中至少一个活动片段确定待匹配活动片段。

当满足起止标识位置更新条件时，音画匹配装置还可以对起止标识的初始位置进行更新，当起止标识更新后的位置小于或等于第一个活动片段的起始帧所对应的位置，将起止标识的移动方向调整为正向。也就是说，如果起止标识的移动方向为反向，并且起止标识更新后的位置已经超过了图像序列中第一个活动片段的第一帧，那么需要将起止标识的移动方向更改为正向，正向的匹配方法在前述实施例中已进行介绍，在此不再赘述。通过起止标识在正向至反向的更新与调整，能够对实时出入的语音序列进行匹配，从而实时生成真实性较高的视频。

本申请实施例中，提供了另一种获取待匹配活动片段的方法，通过上述方式，所合成的视频更符合对象实际语音描述时的场景，从而视频更具有真实性。此外，通过活动片段与下一个活动片段的匹配使得不同待匹配语音片段对应的待匹配活动片段是首尾相连的，从而提升了片段合成的一致性和连续性。

可选地，在上述图4对应的实施例的基础上，本申请实施例提供的视频的音画匹配方法另一个可选实施例中，根据第p个活动片段以及第(p-1)个活动片段中至少一个活动片段，获取待匹配活动片段，可以包括：

根据起止标识的初始位置以及第p个活动片段的起始帧确定第二反向时长最小值，其中，第二反向时长最小值大于第一反向时长最小值；

若待匹配语音片段在第一反向时长区间内，则满足起止标识位置更新条件；

本实施例中，音画匹配装置可以根据第一反向时长最小值以及第二反向时长最小值确定第一反向时长区间，若待匹配语音片段在第一反向时长区间内，根据待匹配语音片段的时长，对第p个活动片段的起始帧至起止标识的初始位置之间的时长进行缩放处理，得到待匹配活动片段。若待匹配语音片段在第一反向时长区间内，表示满足起止标识位置更新条件，并且可将起止标识的初始位置更新为第p个活动片段的起始帧所对应的位置。

具体地，第二反向时长最小值可以通过下式进行计算：

Index-s_p+1；

第一反向时长区间可以通过下式进行计算：

[scale_short*(Index-s_p+1),Index-s_p+1]；

其中，Index表示起止标识的初始位置，scale_short表示最小缩放比例，s_p表示第p个活动片段的起始帧。

为了便于理解，以起止标识的初始位置为图像序列的第18帧（第p个活动片段的结束帧），第p个活动片段的起始帧为第11帧，第(p-1)个活动片段的结束帧为第9帧，且待匹配语音片段的时长为7帧作为示例进行说明，请参阅图13，图13为本申请实施例中获取待匹配活动片段的另一实施例示意图，如图所示，图13中（A）图示出的I0表示起止标识的初始位置Index，且起止标识的初始位置为第18帧。I1表示第p个活动片段的起始帧s_p，且为图像序列的第11帧。I2表示第(p-1)个活动片段的结束帧e_p-1，且为图像序列的第9帧。I3表示第p个活动片段的长度，I4表示第(p-1)个活动片段的长度。由前述公式可以得到第一反向时长最小值为6.4帧，而第二反向时长最小值为8帧，由此可以得到第一反向时长区间为[6.4，8]。而图13中（B）图示出的待匹配语音片段I5的时长为7帧，即待匹配语音片段的时长处于第一反向时长区间内，由此，可以根据待匹配语音片段I5的时长，对第p个活动片段的起始帧至起止标识的初始位置之间的时长进行缩放处理，例如，将第p个活动片段的时长缩放至7帧。从而与待匹配语音片段I5进行匹配。

若由于待匹配语音片段的时长处于第一正向时长区间内，则满足起止标识位置更新条件，由此需要将起止标识的初始位置更新为第p个活动片段的起始帧所对应的位置，也就是将起止标识的初始位置从第18帧更改为第11帧。

若待匹配语音片段在第二反向时长区间内，则满足起止标识位置更新条件；

本实施例中，音画匹配装置可以根据第一反向时长最大值以及第二反向时长最大值确定第二反向时长区间，若待匹配语音片段在第二反向时长区间内，则根据待匹配语音片段的时长，对第(p-1)个活动片段的结束帧至起止标识的初始位置之间的时长进行缩放处理，得到待匹配活动片段。若待匹配语音片段在第二反向时长区间内，则满足起止标识位置更新条件，然后可以将起止标识的初始位置更新为第(p-1)个活动片段的结束帧所对应的位置。

具体地，第二反向时长最大值可以通过下式进行计算：

Index-e_p-1+1；

第二反向时长区间可以通过下式进行计算：

[Index-e_p-1+1,scale_long*(Index-e_p-1+1)]；

其中，Index表示起止标识的初始位置，scale_long表示最大缩放比例，e_p-1表示第(p-1)个活动片段的结束帧。

为了便于理解，以起止标识的初始位置为图像序列的第18帧（第p个活动片段的结束帧），第p个活动片段的起始帧为第11帧，第(p-1)个活动片段的结束帧为第9帧，且待匹配语音片段的时长为11帧作为示例进行说明，请参阅图14，图14为本申请实施例中获取待匹配活动片段的另一实施例示意图，如图所示，图14中（A）图示出的J0表示起止标识的初始位置Index，且起止标识的初始位置为第18帧。J1表示第p个活动片段的起始帧s_p，且为图像序列的第11帧。J2表示第(p-1)个活动片段的结束帧e_p-1，且为图像序列的第9帧。J3表示第p个活动片段的长度，J4表示第(p-1)个活动片段的长度。

由前述公式可以得到第一反向时长最大值为12.5帧，而第二反向时长最大值为10帧，由此可以得到第二反向时长区间为[10，12.5]。而图14中（B）图示出的待匹配语音片段J5为11帧，即待匹配语音片段的时长处于第二反向时长区间内，由此，可以根据待匹配语音片段J5的时长，对第(p-1)个活动片段的结束帧至起止标识的初始位置之间的时长进行缩放处理，例如，也就是将J2至J0之间的时长进行缩放至11帧。由此可以得到时长与待匹配语音片段J5相同的待匹配活动片段。

若待匹配语音片段的时长处于第二反向时长区间内，则满足起止标识位置更新条件，由此可以将起止标识的初始位置更新为第(p-1)个活动片段的结束帧所对应的位置，也就是将起止标识的初始位置从第18帧更改为第9帧。

若待匹配语音片段在第三反向时长区间内，则满足起止标识位置更新条件；

本实施例中，音画匹配装置根据第二反向时长最小值与第二反向时长最大值确定第三反向时长区间，若待匹配语音片段在第三反向时长区间内，则根据起止标识的初始位置以及待匹配语音片段的时长，获取待匹配活动片段。若待匹配语音片段在第三反向时长区间内，则表示满足起止标识位置更新条件，并且将起止标识的初始位置更新为待匹配活动片段的起始帧所对应的位置。

具体地，第三反向时长区间可以通过下式进行计算：

[Index-s_p+1，Index-e_p-1+1]；

其中，Index表示起止标识的初始位置，s_p表示第p个活动片段的起始帧，e_p-1表示第(p-1)个活动片段的结束帧。

为了便于理解，以起止标识的初始位置为图像序列的第18帧（第p个活动片段的结束帧），第p个活动片段的起始帧为第11帧，第(p-1)个活动片段的结束帧为第9帧，且待匹配语音片段的时长为9帧作为示例进行说明，请参阅图15，图15为本申请实施例中获取待匹配活动片段的另一实施例示意图，如图所示，图15中（A）图示出的K0表示起止标识的初始位置Index，且起止标识的初始位置为第18帧。K1表示表示第p个活动片段的起始帧s_p，且为图像序列的第11帧。K2表示第(p-1)个活动片段的结束帧e_p-1，且为图像序列的第9帧。K3表示第p个活动片段的长度，K4表示第(p-1)个活动片段的长度。

由前述公式可以得到第二反向时长最小值为8帧，而第二反向时长最大值为10帧，由此可以得到第三反向时长区间为[8，10]。而图15中（B）图示出的待匹配语音片段K5的时长为9帧，即待匹配语音片段的时长处于第三反向时长区间内，由此，可以根据起止标识的初始位置K0以及待匹配语音片段K5的时长，采用如下方式确定待匹配活动片段：

[Index-l_i+1，Index]；

其中，Index表示起止标识的初始位置，l_i表示待匹配语音片段的长度。假设待匹配语音片段的长度为9帧，即待匹配活动片段表示为第10帧至第18帧之间的活动片段。

若待匹配语音片段的时长处于第三反向时长区间内，则满足起止标识位置更新条件，由此可以将起止标识的初始位置更新为待匹配活动片段的起始帧所对应的位置，也就是将起止标识的初始位置从第18帧更改为第11帧，从而保证起止标识的位置处于静默片段里。

本申请实施例中，提供了另一种获取待匹配活动片段的方法，通过上述方式，可以在待匹配语音片段长度不同的情况下，采用不同的方式对待匹配活动片段进行获取，从而提升匹配算法的多样性，其次，更新后的起止标识落在静默片段里，使得活动片段配有语音，从而提升合成视频的显得更加自然。更进一步地，本申请提供的匹配方法计算简单，可用于实时计算，能够在线合成视频片段。

可选地，在上述图4对应的实施例的基础上，本申请实施例提供的视频的音画匹配方法另一个可选实施例中，根据第一反向时长最小值以及第一反向时长最大值确定目标反向时长区间之后，视频的音画匹配方法还包括：

若待匹配语音片段未在目标反向时长区间内，且待匹配语音片段的时长小于第一反向时长最小值，则根据待匹配语音片段的时长、起止标识的初始位置以及移动半径，获取待匹配活动片段；

或者，

若待匹配语音片段未在目标反向时长区间内，且待匹配语音片段的时长小于第一反向时长最小值，则根据待匹配语音片段的时长以及起止标识的初始位置，获取待匹配活动片段。

本实施例中，若待匹配语音片段未在目标反向时长区间内，且待匹配语音片段的时长小于第一反向时长最小值，音画匹配装置可以以双向摆动取值的方式获取待匹配活动片段，或者，音画匹配装置可以朝静默片段的方向取若干帧，以获取待匹配活动片段。

为了便于理解，以起止标识的初始位置为第18帧（第p个活动片段的结束帧），第p个活动片段的起始帧为第11帧，第(p-1)个活动片段的结束帧为第9帧，且待匹配语音片段的时长为2帧作为示例进行说明，由前述公式可以得到目标反向时长区间为[6.4，12.5]，因此，待匹配语音片段未在目标反向时长区间内，并且小于第一反向时长最小值6.4，于是可以根据起止标识的初始位置作为中心，以移动半径为 r来回在活动移动得到待匹配活动片段。可以理解的是，移动半径通常为大于或等于1，且小于或等于5的整数，且起止标识的初始位置不进行更新。假设半径为2，起止标识的初始位置为第18帧，那么可以取到第18帧、第17帧、第18帧、第19帧、第18帧、第17帧、第18帧、第19帧、第18帧、第17帧、第18帧等，以此类推。再基于待匹配语音片段的时长，依次获取对应的帧，假设待匹配语音片段的时长为2帧，即从上述序列中取出前2帧图像，即第17帧和第18帧。

可以理解的是，在实际应用中，有两种活动片段的设计方式，具体两种活动片段的设计方式与前述实施例中介绍的类似，在此不再赘述。

若待匹配语音片段未在目标反向时长区间内，且待匹配语音片段的时长大于第一反向时长最大值，则从图像序列中获取第q个活动片段，其中，q为大于或等于1，且小于或等于N的整数；

根据最大缩放比例、起止标识的初始位置以及第q个活动片段的结束帧确定第三反向时长最小值；

根据最小缩放比例、起止标识的初始位置以及第(q-1)个活动片段的起始帧确定第三反向时长最大值；

根据第三反向时长最小值以及第三反向时长最大值确定第四反向时长区间；

若待匹配语音片段在第四反向时长区间内，则根据起止标识的初始位置、最大缩放比例、第q个活动片段的结束帧，确定待匹配活动片段的时长；

本实施例中，如果待匹配语音片段过长，则音画匹配装置可以从图像序列中获取第q个活动片段，再确定第三反向时长最小值和第三反向时长最大值，进而确定第四反向时长区间，若待匹配语音片段在第四反向时长区间内，则确定待匹配活动片段的时长，以此将待匹配语音片段划分为第一语音片段以及第二语音片段，第二语音片段用于根据起止标识更新后的位置匹配对应的动作片段，也就是将第二语音片段作为下一轮的待匹配语音片段再次进行音画匹配。如果待匹配语音片段在第四正向时长区间内时，表示满足起止标识位置更新条件，可以将起止标识的初始位置更新为第q个活动片段的结束帧所对应的位置。

具体地，以起止标识的初始位置为图像序列的第38帧（第p个活动片段的结束帧），第p个活动片段的起始帧为第31帧，第(p-1)个活动片段的结束帧为第29帧，且待匹配语音片段的时长为15帧作为示例进行说明，由前述公式可以得到目标反向时长区间为[6.4，12.5]，第一正向时长最大值为12.5帧，因此，待匹配语音片段未在目标反向时长区间内，且大于第一反向时长最大值，于是需要获取第q个活动片段。

第三反向时长最小值可以通过下式进行计算：

scale_long*(Index-e_q+1)；

第三反向时长最大值可以通过下式进行计算：

scale_short*(Index-s_q-1+1)；

第四反向时长区间可以通过下式进行计算：

[scale_long*(Index-e_q+1)，scale_short*(Index-s_q-1+1)]；

待匹配活动片段的时长可以通过下式进行计算：

scale_long*(Index-e_q+1)-1；

其中，Index表示起止标识的初始位置，e_q表示第q个活动片段的结束帧，s_q-1表示第（q-1）个活动片段的起始帧，scale_short表示最小缩放比例，scale_long表示最大缩放比例。

以起止标识的初始位置为图像序列的第38帧（第p个活动片段的结束帧），第（q-1）个活动片段的起始帧为第9帧，第q个活动片段的结束帧为第29帧作为示例进行说明，由前述公式可以得到第三反向时长最小值为12.5帧，第三反向时长最大值为24帧，根据第三反向时长最小值以及第三反向时长最大值确定第四反向时长区间为[12.5，24]，若待匹配语音片段的时长为15帧，则该待匹配语音片段在第四反向时长区间内，进一步地，根据前述公式可以得到待匹配活动片段的时长为11.5帧。

通过下式进行对第一语音片段进行计算：

[1，scale_long*(Index-e_q+1) -1]；

通过下式进行对第二语音片段的时长进行计算：

第二语音片段的时长=l_i-[scale_long*(Index-e_q+1)-1]；

其中，Index表示起止标识的初始位置，e_q表示第q个活动片段的结束帧，scale_long表示最大缩放比例，l_i表示待匹配语音片段的时长。

因此，由前述公式可以得到第一语音片段为第1帧至第11.5帧，第二语音片段的时长为3.5帧。其次，由于待匹配语音片段在第四反向时长区间内，表示满足起止标识位置更新条件，因此可以将起止标识的初始位置更新为第q个活动片段的结束帧所对应的位置，也就是将起止标识的初始位置从第38帧更改为第29帧，而前述所得到的第二语音片段可以根据起止标识更新后的位置匹配对应的动作片段，具体匹配方法与前述类似实施例类似，在此不再赘述。

本申请实施例中，提供了一种获取待匹配活动片段的方法，通过上述方式。可以提升匹配的准确度，由此提升视频中语音片段与活动片段的匹配度，从而提升视频的真实性。

下面对本申请中的音画匹配装置进行详细描述，请参阅图16，图16为本申请实施例中唤醒词检测装置一个实施例示意图，音画匹配装置20包括：

接收模块201，用于接收客户端发送的语音序列，其中，语音序列包括M个语音片段，M为大于或等于1的整数；

获取模块202，用于从语音序列中获取待匹配语音片段，其中，待匹配语音片段属于语音序列中的任意一个语音片段；

获取模块202，还用于从图像序列中获取起止标识的初始位置以及起止标识的移动方向，其中，图像序列包括N个活动片段，每个活动片段中包括对象的动作画面，起止标识的初始位置为活动片段的起始帧或者活动片段的结束帧，N为大于或等于1的整数；

获取模块202，还用于根据起止标识的初始位置、起止标识的移动方向以及待匹配语音片段，获取待匹配活动片段，其中，待匹配活动片段包括对象的动作画面；

处理模块203，用于将待匹配语音片段与待匹配活动片段进行合成处理，得到视频片段，其中，视频片段包括对象的动作画面以及对象的语音。

可选地，在上述图16所对应的实施例的基础上，本申请实施例提供的音画匹配装置20的另一实施例中，音画匹配装置20还包括更新模块204以及调整模块205；

获取模块202，具体用于若起止标识的移动方向为正向，且起止标识的初始位置小于或等于第j个活动片段的起始帧，则根据最小缩放比例、起止标识的初始位置以及第j个活动片段的结束帧，确定第一正向时长最小值，其中，j为大于或等于1，且小于或等于(N+1)的整数；

更新模块204，用于若满足起止标识位置更新条件，则对起止标识的初始位置进行更新；

调整模块205，用于若起止标识更新后的位置大于或等于第N个活动片段的结束帧所对应的位置，则将起止标识的移动方向调整为反向。

可选地，在上述图16所对应的实施例的基础上，本申请实施例提供的音画匹配装置20的另一实施例中，

获取模块202，具体用于根据起止标识的初始位置以及第j个活动片段的结束帧确定第二正向时长最小值，其中，第二正向时长最小值大于第一正向时长最小值；

更新模块204，具体用于若待匹配语音片段在第一正向时长区间内，则满足起止标识位置更新条件；

获取模块202，具体用于根据起止标识的初始位置以及第(j+1)个活动片段的结束帧确定第二正向时长最大值，其中，第二正向时长最大值小于第一正向时长最大值；

更新模块204，具体用于若待匹配语音片段在第二正向时长区间内，则满足起止标识位置更新条件；

更新模块204，具体用于若待匹配语音片段在第三正向时长区间内，则满足起止标识位置更新条件；

获取模块202，还用于若待匹配语音片段未在目标正向时长区间内，且待匹配语音片段的时长小于第一正向时长最小值，则根据待匹配语音片段的时长、起止标识的初始位置以及移动半径，获取待匹配活动片段；

或者，

获取模块202，还用于若待匹配语音片段未在目标正向时长区间内，且待匹配语音片段的时长小于第一正向时长最小值，则根据待匹配语音片段的时长以及起止标识的初始位置，获取待匹配活动片段。

可选地，在上述图16所对应的实施例的基础上，本申请实施例提供的音画匹配装置20的另一实施例中，音画匹配装置20还包括确定模块206以及划分模块207；

获取模块202，还用于若待匹配语音片段未在目标正向时长区间内，且待匹配语音片段的时长大于第一正向时长最大值，则从图像序列中获取第k个活动片段，其中，k为大于或等于1，且小于或等于N的整数；

确定模块206，用于根据最大缩放比例、起止标识的初始位置以及第k个活动片段的起始帧确定第三正向时长最小值；

确定模块206，还用于根据最小缩放比例、起止标识的初始位置以及第(k+1)个活动片段的结束帧确定第三正向时长最大值；

确定模块206，还用于根据第三正向时长最小值以及第三正向时长最大值确定第四正向时长区间；

确定模块206，还用于若待匹配语音片段在第四正向时长区间内，则根据起止标识的初始位置、最大缩放比例、第k个活动片段的起始帧，确定待匹配活动片段的时长；

划分模块207，用于根据待匹配活动片段的时长，将待匹配语音片段划分为第一语音片段以及第二语音片段，其中，第一语音片段的时长与待匹配活动片段的时长一致，第二语音片段用于根据起止标识更新后的位置匹配对应的动作片段；

更新模块204，具体用于若待匹配语音片段在第四正向时长区间内，则满足起止标识位置更新条件；

获取模块202，具体用于若起止标识的移动方向为反向，且起止标识的初始位置大于或等于第p个活动片段的起始帧，则根据最小缩放比例、起止标识的初始位置以及第p个活动片段的起始帧，确定第一反向时长最小值，其中，p为大于或等于1，且小于或等于N的整数；

更新模块204，还用于若满足起止标识位置更新条件，则对起止标识的初始位置进行更新；

获取模块202，具体用于根据起止标识的初始位置以及第p个活动片段的起始帧确定第二反向时长最小值，其中，第二反向时长最小值大于第一反向时长最小值；

更新模块204，具体用于若待匹配语音片段在第一反向时长区间内，则满足起止标识位置更新条件；

获取模块202，具体用于根据起止标识的初始位置以及第(p-1)个活动片段的结束帧确定第二反向时长最大值，其中，第二反向时长最大值小于第一反向时长最大值；

更新模块204，具体用于若待匹配语音片段在第二反向时长区间内，则满足起止标识位置更新条件；

更新模块204，具体用于若待匹配语音片段在第三反向时长区间内，则满足起止标识位置更新条件；

获取模块202，还用于若待匹配语音片段未在目标反向时长区间内，且待匹配语音片段的时长小于第一反向时长最小值，则根据待匹配语音片段的时长、起止标识的初始位置以及移动半径，获取待匹配活动片段；

或者，

获取模块202，还用于若待匹配语音片段未在目标反向时长区间内，且待匹配语音片段的时长小于第一反向时长最小值，则根据待匹配语音片段的时长以及起止标识的初始位置，获取待匹配活动片段。

获取模块202，还用于若待匹配语音片段未在目标反向时长区间内，且待匹配语音片段的时长大于第一反向时长最大值，则从图像序列中获取第q个活动片段，其中，q为大于或等于1，且小于或等于N的整数；

确定模块206，还用于根据最大缩放比例、起止标识的初始位置以及第q个活动片段的结束帧确定第三反向时长最小值；

确定模块206，还用于根据最小缩放比例、起止标识的初始位置以及第(q-1)个活动片段的起始帧确定第三反向时长最大值；

确定模块206，还用于根据第三反向时长最小值以及第三反向时长最大值确定第四反向时长区间；

确定模块206，还用于若待匹配语音片段在第四反向时长区间内，则根据起止标识的初始位置、最大缩放比例、第q个活动片段的结束帧，确定待匹配活动片段的时长；

划分模块207，还用于根据待匹配活动片段的时长，将待匹配语音片段划分为第一语音片段以及第二语音片段，其中，第一语音片段的时长与待匹配活动片段的时长一致，第二语音片段用于根据起止标识更新后的位置匹配对应的动作片段；

可选地，在上述图16所对应的实施例的基础上，本申请实施例提供的音画匹配装置20的另一实施例中，视频片段为虚拟视频片段、合成视频片段以及剪辑视频片段中的至少一种；

起止标识为游标或滑动杆。

本申请实施例还提供了一种终端设备，终端设备上可以部署有音画匹配装置，如图17所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、PDA（PersonalDigital Assistant，个人数字助理）、POS（Point of Sales，销售终端设备）、车载电脑等任意终端设备，以终端设备为手机为例：

图17示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图17，手机包括：射频（Radio Frequency，RF）电路310、存储器320、输入单元330、显示单元340、传感器350、音频电路360、无线保真（wireless fidelity，WiFi）模块370、处理器380、以及电源390等部件。本领域技术人员可以理解，图17中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图17对手机的各个构成部件进行具体的介绍：

RF电路310可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器380处理；另外，将设计上行的数据发送给基站。通常，RF电路310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器（Low NoiseAmplifier，LNA）、双工器等。此外，RF电路310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统（GlobalSystem of Mobile communication，GSM）、通用分组无线服务（General Packet RadioService，GPRS）、码分多址（Code Division Multiple Access，CDMA）、宽带码分多址（Wideband Code Division Multiple Access，WCDMA）、长期演进（Long Term Evolution，LTE）、电子邮件、短消息服务（Short Messaging Service，SMS）等。

存储器320可用于存储软件程序以及模块，处理器380通过运行存储在存储器320的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元330可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元330可包括触控面板331以及其他输入设备332。触控面板331，也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板331上或在触控面板331附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触控面板331可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器380，并能接收处理器380发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板331。除了触控面板331，输入单元330还可以包括其他输入设备332。具体地，其他输入设备332可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元340可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元340可包括显示面板341，可选的，可以采用液晶显示器（Liquid CrystalDisplay，LCD）、有机发光二极管（Organic Light-Emitting Diode，OLED）等形式来配置显示面板341。进一步的，触控面板331可覆盖显示面板341，当触控面板331检测到在其上或附近的触摸操作后，传送给处理器380以确定触摸事件的类型，随后处理器380根据触摸事件的类型在显示面板341上提供相应的视觉输出。虽然在图17中，触控面板331与显示面板341是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板331与显示面板341集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器350，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板341的亮度，接近传感器可在手机移动到耳边时，关闭显示面板341和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路360、扬声器361，传声器362可提供用户与手机之间的音频接口。音频电路360可将接收到的音频数据转换后的电信号，传输到扬声器361，由扬声器361转换为声音信号输出；另一方面，传声器362将收集的声音信号转换为电信号，由音频电路360接收后转换为音频数据，再将音频数据输出处理器380处理后，经RF电路310以发送给比如另一手机，或者将音频数据输出至存储器320以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图17示出了WiFi模块370，但是可以理解的是，其并不属于手机的必须构成。

处理器380是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器320内的软件程序和/或模块，以及调用存储在存储器320内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器380可包括一个或多个处理单元；优选的，处理器380可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器380中。

手机还包括给各个部件供电的电源390（比如电池），优选的，电源可以通过电源管理系统与处理器380逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端设备所包括的处理器380可以执行前述实施例中的功能，此处不再赘述。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述各个实施例描述的方法中音画匹配装置所执行的步骤。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例描述的方法中音画匹配装置所执行的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频的音画匹配方法，其特征在于，包括：

接收客户端发送的语音序列，其中，所述语音序列包括M个语音片段，所述M为大于或等于1的整数；

从所述语音序列中获取待匹配语音片段，其中，所述待匹配语音片段属于所述语音序列中的任意一个语音片段，且所述待匹配语音片段包括对象的语音；

从图像序列中获取起止标识的初始位置以及所述起止标识的移动方向，其中，所述图像序列包括N个活动片段，每个活动片段中包括对象的动作画面，所述起止标识的初始位置为活动片段的起始帧或者活动片段的结束帧，所述N为大于或等于1的整数；

根据所述起止标识的初始位置、所述起止标识的移动方向以及所述待匹配语音片段，获取待匹配活动片段，其中，所述待匹配活动片段包括所述对象的动作画面；

将所述待匹配语音片段与所述待匹配活动片段进行合成处理，得到视频片段，其中，所述视频片段包括所述对象的动作画面以及所述对象的语音。

2.根据权利要求1所述的音画匹配方法，其特征在于，所述根据所述起止标识的初始位置、所述起止标识的移动方向以及所述待匹配语音片段，获取待匹配活动片段，包括：

若所述起止标识的移动方向为正向，且所述起止标识的初始位置小于或等于第j个活动片段的起始帧，则根据最小缩放比例、所述起止标识的初始位置以及所述第j个活动片段的结束帧，确定第一正向时长最小值，其中，所述j为大于或等于1，且小于或等于(N+1)的整数；

根据最大缩放比例、所述起止标识的初始位置以及第(j+1)个活动片段的起始帧确定第一正向时长最大值；

根据所述第一正向时长最小值以及所述第一正向时长最大值确定目标正向时长区间；

若所述待匹配语音片段在所述目标正向时长区间内，则根据所述第j个活动片段以及第(j+1)个活动片段中至少一个活动片段，获取所述待匹配活动片段；

所述方法还包括：

若满足起止标识位置更新条件，则对所述起止标识的初始位置进行更新；

若所述起止标识更新后的位置大于或等于第N个活动片段的结束帧所对应的位置，则将所述起止标识的移动方向调整为反向。

3.根据权利要求2所述的音画匹配方法，其特征在于，所述根据所述第j个活动片段以及第(j+1)个活动片段中至少一个活动片段，获取所述待匹配活动片段，包括：

根据所述起止标识的初始位置以及第j个活动片段的结束帧确定第二正向时长最小值，其中，所述第二正向时长最小值大于所述第一正向时长最小值；

根据所述第一正向时长最小值以及所述第二正向时长最小值确定第一正向时长区间；

若所述待匹配语音片段在所述第一正向时长区间内，则根据所述待匹配语音片段的时长，对所述起止标识的初始位置至所述第j个活动片段的结束帧之间的时长进行缩放处理，得到所述待匹配活动片段；

所述若满足起止标识位置更新条件，则对所述起止标识的初始位置进行更新，包括：

若所述待匹配语音片段在所述第一正向时长区间内，则满足所述起止标识位置更新条件；

将所述起止标识的初始位置更新为所述第j个活动片段的结束帧所对应的位置。

4.根据权利要求2所述的音画匹配方法，其特征在于，所述根据所述第j个活动片段以及第(j+1)个活动片段中至少一个活动片段，获取所述待匹配活动片段，包括：

根据所述起止标识的初始位置以及第(j+1)个活动片段的结束帧确定第二正向时长最大值，其中，所述第二正向时长最大值小于所述第一正向时长最大值；

根据所述第一正向时长最大值以及所述第二正向时长最大值确定第二正向时长区间；

若所述待匹配语音片段在所述第二正向时长区间内，则根据所述待匹配语音片段的时长，对所述起止标识的初始位置至所述第(j+1)个活动片段的起始帧之间的时长进行缩放处理，得到所述待匹配活动片段；

若所述待匹配语音片段在所述第二正向时长区间内，则满足所述起止标识位置更新条件；

将所述起止标识的初始位置更新为所述第(j+1)个活动片段的起始帧所对应的位置。

5.根据权利要求2所述的音画匹配方法，其特征在于，所述根据所述第j个活动片段以及第(j+1)个活动片段中至少一个活动片段，获取所述待匹配活动片段，包括：

根据所述第二正向时长最小值与所述第二正向时长最大值确定第三正向时长区间；

若所述待匹配语音片段在所述第三正向时长区间内，则根据所述起止标识的初始位置以及所述待匹配语音片段的时长，获取所述待匹配活动片段；

若所述待匹配语音片段在所述第三正向时长区间内，则满足所述起止标识位置更新条件；

将所述起止标识的初始位置更新为所述待匹配活动片段的结束帧所对应的位置。

6.根据权利要求2所述的音画匹配方法，其特征在于，所述根据所述第一正向时长最小值以及所述第一正向时长最大值确定目标正向时长区间之后，所述方法还包括：

若所述待匹配语音片段未在所述目标正向时长区间内，且所述待匹配语音片段的时长小于所述第一正向时长最小值，则根据所述待匹配语音片段的时长、所述起止标识的初始位置以及移动半径，获取所述待匹配活动片段；

或者，

若所述待匹配语音片段未在所述目标正向时长区间内，且所述待匹配语音片段的时长小于所述第一正向时长最小值，则根据所述待匹配语音片段的时长以及所述起止标识的初始位置，获取所述待匹配活动片段。

7.根据权利要求2或6所述的音画匹配方法，其特征在于，所述根据所述第一正向时长最小值以及所述第一正向时长最大值确定目标正向时长区间之后，所述方法还包括：

若所述待匹配语音片段未在所述目标正向时长区间内，且所述待匹配语音片段的时长大于所述第一正向时长最大值，则从所述图像序列中获取第k个活动片段，其中，所述k为大于或等于1，且小于或等于N的整数；

根据所述最大缩放比例、所述起止标识的初始位置以及所述第k个活动片段的起始帧确定第三正向时长最小值；

根据所述最小缩放比例、所述起止标识的初始位置以及第(k+1)个活动片段的结束帧确定第三正向时长最大值；

根据所述第三正向时长最小值以及所述第三正向时长最大值确定第四正向时长区间；

若所述待匹配语音片段在所述第四正向时长区间内，则根据所述起止标识的初始位置、所述最大缩放比例以及所述第k个活动片段的起始帧，确定所述待匹配活动片段的时长；

根据所述待匹配活动片段的时长，将所述待匹配语音片段划分为第一语音片段以及第二语音片段，其中，所述第一语音片段的时长与所述待匹配活动片段的时长一致，所述第二语音片段用于根据所述起止标识更新后的位置匹配对应的动作片段；

若所述待匹配语音片段在所述第四正向时长区间内，则满足所述起止标识位置更新条件；

将所述起止标识的初始位置更新为所述第k个活动片段的起始帧所对应的位置。

8.根据权利要求1所述的音画匹配方法，其特征在于，所述根据所述起止标识的初始位置、所述起止标识的移动方向以及所述待匹配语音片段，获取待匹配活动片段，包括：

若所述起止标识的移动方向为反向，且所述起止标识的初始位置大于或等于第p个活动片段的起始帧，则根据最小缩放比例、所述起止标识的初始位置以及所述第p个活动片段的起始帧，确定第一反向时长最小值，其中，所述p为大于或等于1，且小于或等于N的整数；

根据最大缩放比例、所述起止标识的初始位置以及第(p-1)个活动片段的结束帧确定第一反向时长最大值；

根据所述第一反向时长最小值以及所述第一反向时长最大值确定目标反向时长区间；

若所述待匹配语音片段在所述目标反向时长区间内，则根据所述第p个活动片段以及第(p-1)个活动片段中至少一个活动片段获取所述待匹配活动片段；

所述方法还包括：

若所述起止标识更新后的位置小于或等于第一个活动片段的起始帧所对应的位置，则将所述起止标识的移动方向调整为正向。

9.根据权利要求8所述的音画匹配方法，其特征在于，所述根据所述第p个活动片段以及第(p-1)个活动片段中至少一个活动片段，获取所述待匹配活动片段，包括：

根据所述起止标识的初始位置以及第p个活动片段的起始帧确定第二反向时长最小值，其中，所述第二反向时长最小值大于所述第一反向时长最小值；

根据所述第一反向时长最小值以及所述第二反向时长最小值确定第一反向时长区间；

若所述待匹配语音片段在所述第一反向时长区间内，则根据所述待匹配语音片段的时长，对所述第p个活动片段的起始帧至所述起止标识的初始位置之间的时长进行缩放处理，得到所述待匹配活动片段；

若所述待匹配语音片段在所述第一反向时长区间内，则满足所述起止标识位置更新条件；

将所述起止标识的初始位置更新为所述第p个活动片段的起始帧所对应的位置。

10.根据权利要求8所述的音画匹配方法，其特征在于，所述根据所述第p个活动片段以及第(p-1)个活动片段中至少一个活动片段，获取所述待匹配活动片段，包括：

根据所述起止标识的初始位置以及第(p-1)个活动片段的结束帧确定第二反向时长最大值，其中，所述第二反向时长最大值小于所述第一反向时长最大值；

根据所述第一反向时长最大值以及所述第二反向时长最大值确定第二反向时长区间；

若所述待匹配语音片段在所述第二反向时长区间内，则根据所述待匹配语音片段的时长，对所述第(p-1)个活动片段的结束帧至所述起止标识的初始位置之间的时长进行缩放处理，得到所述待匹配活动片段；

若所述待匹配语音片段在所述第二反向时长区间内，则满足所述起止标识位置更新条件；

将所述起止标识的初始位置更新为所述第(p-1)个活动片段的结束帧所对应的位置。

11.根据权利要求8所述的音画匹配方法，其特征在于，所述根据所述第p个活动片段以及第(p-1)个活动片段中至少一个活动片段，获取所述待匹配活动片段，包括：

根据所述第二反向时长最小值与所述第二反向时长最大值确定第三反向时长区间；

若所述待匹配语音片段在所述第三反向时长区间内，则根据所述起止标识的初始位置以及所述待匹配语音片段的时长，获取所述待匹配活动片段；

若所述待匹配语音片段在所述第三反向时长区间内，则满足所述起止标识位置更新条件；

将所述起止标识的初始位置更新为所述待匹配活动片段的起始帧所对应的位置。

12.根据权利要求8所述的音画匹配方法，其特征在于，所述根据所述第一反向时长最小值以及所述第一反向时长最大值确定目标反向时长区间之后，所述方法还包括：

若所述待匹配语音片段未在所述目标反向时长区间内，且所述待匹配语音片段的时长小于所述第一反向时长最小值，则根据所述待匹配语音片段的时长、所述起止标识的初始位置以及移动半径，获取所述待匹配活动片段；

或者，

若所述待匹配语音片段未在所述目标反向时长区间内，且所述待匹配语音片段的时长小于所述第一反向时长最小值，则根据所述待匹配语音片段的时长以及所述起止标识的初始位置，获取所述待匹配活动片段。

13.根据权利要求8或12所述的音画匹配方法，其特征在于，所述根据所述第一反向时长最小值以及所述第一反向时长最大值确定目标反向时长区间之后，所述方法还包括：

若所述待匹配语音片段未在所述目标反向时长区间内，且所述待匹配语音片段的时长大于所述第一反向时长最大值，则从所述图像序列中获取第q个活动片段，其中，所述q为大于或等于1，且小于或等于N的整数；

根据所述最大缩放比例、所述起止标识的初始位置以及所述第q个活动片段的结束帧确定第三反向时长最小值；

根据所述最小缩放比例、所述起止标识的初始位置以及第(q-1)个活动片段的起始帧确定第三反向时长最大值；

根据所述第三反向时长最小值以及所述第三反向时长最大值确定第四反向时长区间；

若所述待匹配语音片段在所述第四反向时长区间内，则根据所述起止标识的初始位置、所述最大缩放比例以及所述第q个活动片段的结束帧，确定所述待匹配活动片段的时长；

若所述待匹配语音片段在第四正向时长区间内，则满足所述起止标识位置更新条件；

将所述起止标识的初始位置更新为所述第q个活动片段的结束帧所对应的位置。

14.根据权利要求1所述方法，其特征在于，所述视频片段为虚拟视频片段、合成视频片段以及剪辑视频片段中的至少一种；

所述起止标识为游标或滑动杆。

15.一种音画匹配装置，其特征在于，包括：

接收模块，用于接收客户端发送的语音序列，其中，所述语音序列包括M个语音片段，所述M为大于或等于1的整数；

获取模块，用于从所述语音序列中获取待匹配语音片段，其中，所述待匹配语音片段属于所述语音序列中的任意一个语音片段，且所述待匹配语音片段包括对象的语音；

所述获取模块，还用于从图像序列中获取起止标识的初始位置以及所述起止标识的移动方向，其中，所述图像序列包括N个活动片段，每个活动片段中包括对象的动作画面，所述起止标识的初始位置为活动片段的起始帧或者活动片段的结束帧，所述N为大于或等于1的整数；

所述获取模块，还用于根据所述起止标识的初始位置、所述起止标识的移动方向以及所述待匹配语音片段，获取待匹配活动片段，其中，所述待匹配活动片段包括所述对象的动作画面；

处理模块，用于将所述待匹配语音片段与所述待匹配活动片段进行合成处理，得到视频片段，其中，所述视频片段包括所述对象的动作画面以及所述对象的语音。

16.一种计算机设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，以实现权利要求1至14中任一项所述的方法；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

17.一种计算机可读存储介质，存储有指令，当其在计算机上运行时，使得计算机执行如权利要求1至14中任一项所述的方法。