CN109547843A

CN109547843A - 对音视频进行处理的方法和装置

Info

Publication number: CN109547843A
Application number: CN201910105802.1A
Authority: CN
Inventors: 黄安麒; 李深远; 董治; 吕孟叶
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2019-03-29
Anticipated expiration: 2039-02-01
Also published as: CN109547843B

Abstract

本申请公开了一种对音视频进行处理的方法和装置，属于数据处理领域。所述方法包括：获取待合成视频数据中的基准音频数据，获取所述基准音频数据中包含的多个第一子数据，并获取待合成音频数据中包含的多个第二子数据；分别确定每个第一子数据与每个第二子数据之间的相似度，得到相似度集合；基于所述相似度集合，对所述待合成音频数据进行调整，得到调整后的待合成音频数据；将调整后的待合成音频数据与所述待合成视频数据中的图像数据进行合成，得到合成视频数据。采用本申请，可以提高合成的效率。

Description

对音视频进行处理的方法和装置

技术领域

本申请涉及数据处理领域，特别涉及一种对音视频进行处理的方法和装置。

背景技术

一首歌曲可以有多种不同版本的音频，如原唱版本、翻唱版本、现场演唱版本等，有时涉及到音频与视频合成的使用场景，如用户可以将自己翻唱某歌曲的音频整合到原唱的MV视频中，或者用户将原唱版本的音频整合到自己录制的翻唱视频中。在合成时，需要将音频与视频对齐，否则合成后的视频会出现音频与视频中的字幕不对应、或者音频与视频中的人的口型不对应等情况，导致合成的视频效果很差。

在实现本申请的过程中，发明人发现现有技术至少存在以下问题：

目前，音频与视频对齐合成的方法一般是人工合成，即用户可以将待合成音频分成多段，然后在视频对应的音频(可称为基准音频数据)中找到与每段待合成音频大致相似的一个音频段数据，使用待合成音频替换待替换音频。但人工合成的方式用户需要进行大量操作，合成的速度较慢，使得合成的效率较低。

发明内容

为了解决现有技术的问题，本申请实施例提供了一种对音视频进行处理的方法和装置。所述技术方案如下：

第一方面，提供了一种对音视频进行处理的方法，所述方法包括：

获取待合成视频数据中的基准音频数据，获取所述基准音频数据中包含的多个第一子数据，并获取待合成音频数据中包含的多个第二子数据；

分别确定每个第一子数据与每个第二子数据之间的相似度，得到相似度集合；

基于所述相似度集合，对所述待合成音频数据进行调整，得到调整后的待合成音频数据；

将调整后的待合成音频数据与所述待合成视频数据中的图像数据进行合成，得到合成视频数据。

可选地，所述获取所述基准音频数据中包含的多个第一子数据，包括：

获取所述基准音频数据的特征数据；

在所述基准音频数据的特征数据中，每隔预设时间步长选取预设时长的第一子数据，得到多个第一子数据；

所述获取待合成音频数据中包含的多个第二子数据，包括：

获取所述待合成音频数据的特征数据；

在所述待合成音频数据的特征数据中，每隔所述预设时间步长选取所述预设时长的第二子数据，得到多个第二子数据。

可选地，所述分别确定每个第一子数据与每个第二子数据之间的相似度，得到相似度集合，包括：

分别确定每个第一子数据与每个第二子数据之间的余弦距离，得到第一特征距离矩阵；

分别确定每个第一子数据与每个第二子数据之间的闵氏距离，得到第二特征距离矩阵；

将所述第一特征距离矩阵与所述第二特征距离矩阵进行矩阵点乘运算，得到综合特征距离矩阵，作为相似度集合，其中，所述综合特征距离矩阵中的每个元素分别对应每个第一子数据与每个第二子数据之间的相似度。

可选地，所述基于所述相似度集合，对所述待合成音频数据进行调整，得到调整后的待合成音频数据，包括：

基于所述相似度集合，分别确定与每个第一子数据相匹配的第二子数据，得到第一子数据与第二子数据的对应关系；

根据所述第一子数据与第二子数据的对应关系，确定所述第一子数据的时间点与第二子数据的时间点的对应关系，其中，所述第一子数据的时间点为所述第一子数据在所述基准音频数据中对应的音频段数据的中心时间点，所述第二子数据的时间点为所述第二子数据在所述待合成音频数据中对应的音频段数据的中心时间点；

根据所述第一子数据的时间点与第二子数据的时间点的对应关系，对所述待合成音频数据进行调整，得到调整后的待合成音频数据。

在所述综合特征距离矩阵中，确定第一矩阵元素与第二矩阵元素之间的综合特征距离总和最小的最优路径，其中，所述第一矩阵元素是时间最先的第一子数据和第二子数据对应的矩阵元素，所述第二矩阵元素是时间最后的第一子数据和第二子数据对应的矩阵元素；

确定所述最优路径在所述综合特征距离矩阵中对应的折线，其中，所述折线由至少一个线段组成；

对于所述折线中的每个线段，确定所述线段的两个端点处的矩阵元素对应的两个第一子数据，确定所述两个第一子数据在基准音频数据中对应的第一音频段数据的第一起始时间点和第一终止时间点，确定所述线段的两个端点处的矩阵元素对应的两个第二子数据，确定所述两个第二子数据在待合成音频数据中对应的第二音频段数据的第二起始时间点和第二终止时间点，根据所述第一起始时间点、所述第一终止时间点、所述第二起始时间点和所述第二终止时间点，调整所述第二音频段数据，使得调整后的第二音频段数据的起始时间点、终止时间点分别与所述第一起始时间点、第一终止时间点相同；

将所述折线中所有线段对应的调整后的第二音频段数据，按照时间顺序进行排列组合，得到调整后的待合成音频数据。

可选地，所述根据所述第一起始时间点、所述第一终止时间点、所述第二起始时间点和所述第二终止时间点，调整所述第二音频段数据，使得调整后的第二音频段数据的起始时间点、终止时间点分别与所述第一起始时间点、第一终止时间点相同，包括：

如果所述第一起始时间点与所述第一终止时间点的差值为0，且所述第二起始时间点和所述第二终止时间点的差值不为0，则删除所述第二音频段数据；

如果所述第一起始时间点与所述第一终止时间点的差值不为0，且所述第二起始时间点和所述第二终止时间点的差值为0，则在预设补充音频中截取时长为所述第一起始时间点与所述第一终止时间点的差值的补充音频，将其确定为新增第二音频段数据，且将所述新增第二音频段数据的起始时间点和终止时间点分别设定为所述第一起始时间点与所述第一终止时间点；

如果所述第一起始时间点与所述第一终止时间点的差值不为0，所述第二起始时间点和所述第二终止时间点的差值不为0，且所述第一起始时间点与所述第一终止时间点的差值等于第二起始时间点和所述第二终止时间点的差值，则将所述第二音频段数据的起始时间点和终止时间点分别修改为所述第一起始时间点与所述第一终止时间点；

如果所述第一起始时间点与所述第一终止时间点的差值不为0，所述第二起始时间点和所述第二终止时间点的差值不为0，且所述第一起始时间点与所述第一终止时间点的差值不等于所述第二起始时间点和所述第二终止时间点的差值，则将所述第二音频段数据进行缩放处理，使得缩放后的第二音频段数据的时长等于所述第一音频段数据的时长，将缩放后的第二音频段数据的起始时间点和终止时间点分别设定为所述第一起始时间点与所述第一终止时间点。

第二方面，提供了一种对音视频进行处理的装置，所述装置包括：

获取模块，用于获取待合成视频数据中的基准音频数据，获取所述基准音频数据中包含的多个第一子数据，并获取待合成音频数据中包含的多个第二子数据；

确定模块，用于分别确定每个第一子数据与每个第二子数据之间的相似度，得到相似度集合；

调整模块，用于基于所述相似度集合，对所述待合成音频数据进行调整，得到调整后的待合成音频数据；

合成模块，用于将调整后的待合成音频数据与所述待合成视频数据中的图像数据进行合成，得到合成视频数据。

可选地，所述获取模块，用于：

获取所述基准音频数据的特征数据；

所述获取模块，用于：

获取所述待合成音频数据的特征数据；

可选地，所述确定模块，用于：

可选地，所述调整模块，用于：

第三方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述第一方面所述的对音视频进行处理的方法。

第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述第一方面所述的对音视频进行处理的方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例中，提取待合成视频数据中的基准音频数据后，获取基准音频数据中包含的多个第一子数据以及待合成音频数据中包含的多个第二子数据，然后，分别确定每个第一子数据与每个第二子数据之间的相似度，得到相似度集合，再根据相似度集合，对待合成音频数据进行调整，将调整后的待合成音频数据与待合成视频数据中的图像数据进行合成，即可得到合成视频数据。这样，通过电子设备将音频数据整合到视频数据中，无需人工进行大量操作，使得合成的速度较快，进而使合成的效率提高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种对音视频进行处理的方法的流程图；

图2是本申请实施例提供的一种对音视频进行处理的方法的界面示意图；

图3是本申请实施例提供的一种对音视频进行处理的装置的结构示意图；

图4是本申请实施例提供的一种终端的结构框图；

图5是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种对音视频进行处理的方法，该方法可以由电子设备实现，其中，电子设备可以是终端或服务器。

如图1所示，该方法的处理流程可以包括如下的步骤：

在步骤101中，获取待合成视频数据中的基准音频数据，获取基准音频数据中包含的多个第一子数据，并获取待合成音频数据中包含的多个第二子数据。

其中，待合成视频数据包括基准音频数据以及图像数据，待合成音频数据是即将与待合成视频数据中的图像数据进行合成的音频数据，举例来说，如果用户想要将自己翻唱的音频数据整合到原唱的MV视频数据中，则用户翻唱的音频数据为待合成音频数据，原唱的MV视频数据为待合成视频数据，MV视频中的原唱音频数据为基准音频数据。

在一种可行的实施方式中，当用户想要将待合成音频数据整合到待合成视频数据中时，可以先获取待合成视频数据，并将待合成视频数据中的音轨分离出来，得到与待合成视频数据中的图像同步的基准音频数据。根据预设的选取规则，在基准音频数据中获取多个子数据(可称为第一子数据)，并根据相同的选取规则，在待合成音频数据中获取多个子数据(可称为第二子数据)，选取出的每个第一子数据以及每个第二子数据的时长相同。

可选地，上述第一子数据与第二子数据可以是音频数据，也可以是音频的特征数据。如果第一子数据与第二子数据是音频的特征数据，则获取第一子数据与第二子数据的相应处理可以如下：获取基准音频数据的特征数据；在基准音频数据的特征数据中，每隔预设时间步长选取预设时长的第一子数据，得到多个第一子数据；获取待合成音频数据的特征数据；在待合成音频数据的特征数据中，每隔预设时间步长选取预设时长的第二子数据，得到多个第二子数据。

其中，时间步长是指前后两个时间点之间的差值，本申请实施例中，时间步长指的是选取的相邻两个子数据的起始时间点的差值。

在一种可行的实施方式中，根据预设的音频特征算法，提取基准音频数据中的特征数据，可选地，提取出的特征数据可以是特征矩阵的形式，特征矩阵的横向表示基准音频数据的时间点，纵向表示基准音频数据的特征参数值。

需要说明的是，上述预设的音频特征算法有很多种，包括但不限于基于傅里叶变换的音频变换算法、常数Q变换算法、基于梅尔倒谱系数的音频特征算法、基于神经网络等机器学习算法、音高旋律提取算法等，根据不同的应用场景可以选择不同的音频特征算法，本申请对此不做限定。

在基准音频数据中的特征数据中，每隔预设时间步长选取一个预设时长的第一子数据，如果预设时间步长等于预设时长，例如预设时间步长都为预设时长1s，即分别以0s、1s、2s、3s……、Ns为起始时间点，选取时长为1s的特征数据作为第一子数据，这样，相当于将基准音频数据中的特征数据均分为N段，每段为一个第一子数据。如果预设时间步长大于预设时长，例如预设时间步长为1s，预设时长为0.5s，即分别以0s、1s、2s、3s……、Ns为起始时间点，选取时长为0.5s的特征数据作为第一子数据，这样，相当于基准音频数据中的特征数据中每间隔0.5s，选取一个时长为0.5s的特征数据作为第一子数据，这样，会有部分特征数据选取不到。如果预设时间步长小于预设时长，例如预设时间步长为1s，预设时长为2s，即分别以0s、1s、2s、3s……、Ns为起始时间点，选取时长为2s的特征数据作为第一子数据，这样，选取出的相邻两个第一子数据会有部分特征数据是重叠的。根据不同的应用场景可以设置不同的预设时间步长和预设时长，本申请对此不做限定。其中，N为基准音频数据的总时长。

对于待合成音频数据，获取待合成音频数据的特征数据；在待合成音频数据的特征数据中，每隔预设时间步长选取预设时长的第二子数据，得到多个第二子数据，相应的处理方式可以参照上述获取基准音频数据的第一子数据的处理方式，此处不做赘述。

在步骤102中，分别确定每个第一子数据与每个第二子数据之间的相似度，得到相似度集合。

在一种可行的实施方式中，基于预设的音频相似度确定算法，逐一确定每个第一子数据与每个第二子数据之间的相似度，将得到的相似度组成一个相似度集合。举例来说，假设第一子数据的数目为M个，第二子数据的数目为N个，则计算得到M×N相似度。

可选地，度量音频之间的相似度可以通过音频数据之间的特征距离来确定，特征距离可以包括余弦距离、闵氏距离等。其中，音频之间的余弦距离可以忽略音量因素度量两个音频数据之间的相似程度，两个音频数据之间的相似程度越大，其余弦距离越小。而闵氏距离是多个距离的通式，包括棋盘格距离、欧式距离等，当两个音频数据的相似度较大、且音量相近时，其闵氏距离会比较小。特征距离还可以包括马氏距离、相关距离等。

在确定两个音频数据之间的相似度时，可以采用上述多种特征距离中的一种特征距离来度量两个音频数据之间的相似度，也可以采用多种特征距离组合使用，下面以组合使用余弦距离以及闵氏距离为例进行说明，参考步骤1021-1023。

在步骤1021中，分别确定每个第一子数据与每个第二子数据之间的余弦距离，得到第一特征距离矩阵。

在一种可行的实施方式中，在计算第一子数据与第二子数据之间的余弦距离时，需要将第一子数据与第二子数据分别转化成向量的形式，然后计算向量形式的第一子数据与向量形式的第二子数据之间的距离。假设向量形式的第一子数据为向量X，向量形式的第二子数据为向量Y，则可以根据下述公式(1)计算第一子数据与第二子数据之间的余弦距离：

其中，d(X,Y)为第一子数据与第二子数据之间的余弦距离，X(i)为第一子数据的向量中第i个向量值，Y(i)为第二子数据的向量中第i个向量值，n为第一子数据的向量以及第二子数据的向量中的向量值的总数目。

通过上述步骤分别确定每个第一子数据与每个第二子数据之间的余弦距离，将得到的多个余弦距离按照顺序进行排列组合，得到一个特征距离矩阵(可称为第一特征距离矩阵)，假设第一特征距离矩阵用符号H表示，则H可以是：

H＝[[d(X(1),Y(1)),d(X(1),Y(2)),…],[d(X(2),Y(1)),d(X(2),Y(2)),…],…]

该第一特征距离矩阵中的行数和列数与第一子数据的个数和第二子数据的个数相关。具体地，如果第一特征距离矩阵中的每行矩阵元素为一个第一子数据与每个第二子数据之间的余弦距离，则该第一特征距离矩阵的行数为第一子数据的个数，其列数为第二子数据的个数。相反地，如果第一特征距离矩阵中的每行矩阵元素为一个第二子数据与每个第一子数据之间的余弦距离，则该第一特征距离矩阵的行数为第二子数据的个数，其列数为第一子数据的个数。

在步骤1022中，分别确定每个第一子数据与每个第二子数据之间的闵氏距离，得到第二特征距离矩阵。

在一种可行的实施方式中，在计算第一子数据与第二子数据之间的闵氏距离时，闵氏距离的定义如下述公式(2)：

其中，D(X,Y)为第一子数据与第二子数据之间的闵氏距离，X(i)为第一子数据的向量中第i个向量值，Y(i)为第二子数据的向量中第i个向量值，n为第一子数据的向量以及第二子数据的向量中的向量值的总数目，p是一个变参数，当p＝1时，闵氏距离为曼哈顿距离，当p＝2时，闵氏距离为欧氏距离，当p→∞时，闵氏距离为切比雪夫距离，根据变参数的不同，闵氏距离可以表示一类具体的特征距离，本申请实施例以p＝2，闵氏距离为欧氏距离为例进行说明，根据下述公式(3)确定第一子数据与第二子数据之间的欧氏距离。

其中，D(X,Y)为第一子数据与第二子数据之间的欧氏距离，X(i)为第一子数据的向量中第i个向量值，Y(i)为第二子数据的向量中第i个向量值，n为第一子数据的向量以及第二子数据的向量中的向量值的总数目。

通过上述步骤分别确定每个第一子数据与每个第二子数据之间的欧氏距离，将得到的多个欧氏距离按照顺序进行排列组合，得到一个特征距离矩阵(可称为第二特征距离矩阵)，假设第二特征距离矩阵用符号J表示，则J可以是：

J＝[[D(X(1),Y(1)),D(X(1),Y(2)),…],[D(X(2),Y(1)),D(X(2),Y(2)),…],…]

该第二特征距离矩阵的行数和列数与第一子数据的个数和第二子数据的个数相关，参照上述第一特征距离矩阵的行数和列数与第一子数据的个数和第二子数据的个数的对应关系，此处不再赘述。

在步骤1023中，将第一特征距离矩阵与第二特征距离矩阵进行矩阵点乘运算，得到综合特征距离矩阵作为相似度集合。

其中，综合特征距离矩阵中的每个元素分别对应每个第一子数据与每个第二子数据之间的相似度。

在一种可行的实施方式中，将上述步骤得到的第一特征距离矩阵与第二特征距离矩阵进行矩阵点成运算，即将第一特征距离矩阵的矩阵元素与第二特征距离矩阵的矩阵元素逐位相乘，得到的矩阵即为综合特征距离矩阵，综合特征距离矩阵兼顾了第一子数据与第二子数据的音频相似度以及音量相似度，相较于单一的第一特征距离矩阵或第二特征距离矩阵，能更准确地度量第一子数据与第二子数据之间的相似性。

需要说明的是，第一特征距离矩阵、第二特征距离矩阵以及生成的综合特征距离矩阵的矩阵尺寸相同，即三个矩阵的行数均相同，三个矩阵的列数也相同。

举例来说，第一特征距离矩阵与第二特征距离矩阵均为M×N的矩阵，将第一特征距离矩阵中第i行第j列对应的矩阵元素与将第二特征距离矩阵中第i行第j列对应的矩阵元素相乘，得到的乘积即为综合特征距离矩阵中第i行第j列对应的矩阵元素。

在步骤103中，基于相似度集合，对待合成音频数据进行调整，得到调整后的待合成音频数据。

在一种可行的实施方式中，通过上述步骤得到相似度集合后，根据相似度集合确定对待合成音频数据的调整方案，根据对待合成音频数据的调整方案对待合成音频数据进行调整，使得调整后的待合成音频数据与基准音频数据相匹配，而基准音频数据与待合成视频数据中的图像数据相匹配，这样，可以使调整后的待合成音频数据与待合成视频数据中的图像数据相匹配。

可选地，由于基准音频数据与待合成视频数据中的图像数据是相匹配的，因此，可以调整待合成音频数据使之与基准音频数据相匹配，这样，调整后的待合成音频数据即可与待合成视频中的图像数据是相匹配的，相应的处理可以如下：基于相似度集合，分别确定与每个第一子数据相匹配的第二子数据，得到第一子数据与第二子数据的对应关系；根据第一子数据与第二子数据的对应关系，确定第一子数据的时间点与第二子数据的时间点的对应关系，其中，时间点为第一子数据或第二子数据在待合成音频数据中对应的音频段数据的中心时间点；根据第一子数据的时间点与第二子数据的时间点的对应关系，对待合成音频数据进行调整。

在一种可行的实施方式中，上述步骤得到的相似度集合中，每个元素表示每个第一子数据与每个第二子数据的相似度。为了基准音频数据，可以在相似度集合中，根据每个第一子数据与每个第二子数据的相似度，确定与每个第一子数据相匹配的第二子数据，这样，可以得到一组第一子数据与第二子数据的对应关系。

通过上述步骤可以确定每个第一子数据的时间点以及每个第二子数据的时间点，将上述第一子数据与第二子数据之间的对应关系转化为第一子数据的时间点与第二子数据的时间点的对应关系，该第一子数据的时间点与第二子数据的时间点的对应关系表示与每个第一子数据相匹配的第二子数据的时间点。

需要说明的是，第一子数据的时间点的确定方法可以是，在上述步骤101选取每个第一子数据时，可以在选取每个第一子数据的同时，确定每个第一子数据对应的起始时间点以及终止时间点，进而确定每个第一子数据对应的中心时间点(即起始时间点与终止时间点的中值)。然后，可以将每个第一子数据的中心时间点记录在预设的时间点集合中，根据该时间点集合，可以直接确定每个第一子数据对应的中心时间点，这样，就可以确定第一子数据的时间点。第二子数据的时间点的确定方法可以与第一子数据的时间点的确定方法相同，此处不做赘述。

如果相似度集合是按照上述步骤1021-1023得到的特征距离矩阵，则第一子数据的时间点的确定方法还可以是，在选取多个第一子数据时，将每个第一子数据的中心时间点记录在一个向量中，选取多个第二子数据时，将每个第二子数据的中心时间点记录在另外一个向量中，然后，在按照上述步骤1021-1023确定特征距离矩阵时，确定每个第一子数据的中心时间点与每个第二子数据的中心时间点组成的数对，得到一个综合时间点矩阵，该综合时间点矩阵中的每个矩阵元素为一个数对。该综合时间点矩阵与上述第一特征距离矩阵、第二特征距离矩阵以及生成的综合特征距离矩阵的矩阵尺寸均相同，即四个矩阵的行数均相同，四个矩阵的列数也相同。

假设综合时间点矩阵用符号K表示，则K可以如下：

K＝[[(X(1),Y(1)),(X(1),Y(2)),…],[(X(2),Y(1)),(X(2),Y(2)),…],…]

根据上述确定出的第一子数据的时间点与第二子数据的时间点的对应关系，可以确定出待合成音频数据中的音频段数据与基准音频数据中的音频段数据之间的对应关系，进而，调整待合成音频数据中的音频段数据，使得每个音频段数据的时长以及起始时间点与终止时间点，与其匹配的基准音频数据中的音频段数据的时长以及起始时间点与终止时间点相同。这样，调整后的每个音频段数据组成的待合成音频数据与基准音频数据相匹配，进而，调整后的待合成音频数据即可与待合成视频中的图像数据是相匹配的。

可选地，可以采用最优路径算法确定相似度集合对应的最优路径，进而来确定待合成音频数据的调整规则，相应的处理步骤可以如下：在综合特征距离矩阵中，确定第一矩阵元素与第二矩阵元素之间的综合特征距离总和最小的最优路径，其中，第一矩阵元素是时间最先的第一子数据和第二子数据对应的矩阵元素，第二矩阵元素是时间最后的第一子数据和第二子数据对应的矩阵元素；确定最优路径在综合特征距离矩阵中对应的折线，其中，折线由至少一个线段组成；对于折线中的每个线段，确定线段的两个端点处的矩阵元素对应的两个第一子数据，确定两个第一子数据在基准音频数据中对应的第一音频段数据的第一起始时间点和第一终止时间点，确定线段的两个端点处的矩阵元素对应的两个第二子数据，确定两个第二子数据在待合成音频数据中对应的第二音频段数据的第二起始时间点和第二终止时间点，根据第一起始时间点、第一终止时间点、第二起始时间点和第二终止时间点，调整第二音频段数据，使得调整后的第二音频段数据的起始时间点、终止时间点分别与第一起始时间点、第一终止时间点相同；将折线中所有线段对应的调整后的第二音频段数据，按照时间顺序进行排列组合，得到调整后的待合成音频数据。

在一种可行的实施方式中，通过上述步骤确定综合特征距离矩阵后，在综合特征距离矩阵中，确定综合特征距离总和最小的最优路径，该最优路径的两个端点中起始点的矩阵元素对应的第一子数据为所有第一子数据中时间点最小的第一子数据，起始点矩阵元素对应的第二子数据为所有第二子数据中时间最先的第二子数据，该最优路径的终止点矩阵元素对应的第一子数据为所有第一子数据中时间最后的第一子数据，终止点矩阵元素对应的第二子数据为所有第二子数据中时间点最大的第二子数据，也就是说，该最优路径的起始点矩阵元素为时间最早的第一子数据与时间最早的第二子数据之间的综合特征距离，该最优路径的终止点矩阵元素为时间最后的第一子数据与时间最后的第二子数据之间的综合特征距离。该最优路径上的每个点对应的矩阵元素所对应的第一子数据，与该矩阵元素所对应的第二子数据相匹配。

确定综合特征距离矩阵的最优路径的方法有多种，例如，采用DTW(Dynamic TimeWarping，动态时间归整)算法等，根据不同的应用场景可以选择不同的方法确定最优路径，此处不做一一列举。

确定出的最优路径由一个个矩阵元素组成，相当于一个个矩阵元素对应的点组成的路径，将各个点依次连接，可以形成一条折线，该折线可以看做由多个线段组成。在该折线中识别出多个线段，如图2所示，可选地，可以使用霍夫线变换算法进行识别。

每条线段上至少包括两个矩阵元素，每个矩阵元素分别对应一个第一子数据与一个第二子数据，因此，每条线段对应多个第一子数据与第二子数据，且对应的多个第一子数据在时间上是连续的，同样的，对应的多个第二子数据在时间上也是连续的。以其中任一条线段为例，确定该线段的两个端点处的矩阵元素，并确定每个端点分别对应的第一子数据，确定这两个第一子数据在基准音频数据中分别对应的时间点，根据这两个时间点为第一音频段数据的第一起始时间点和第一终止时间点。同样，确定该线段的两个端点处的矩阵元素对应的两个第二子数据，确定两个第二子数据在待合成音频数据中对应的第二音频段数据的第二起始时间点和第二终止时间点。一条线段对应的第一音频段数据与第二音频段数据之间的综合特征距离是最短的，即一条线段对应的第一音频段数据与第二音频段数据之间的相似度是最大的。

然后，以每条线段对应的第一音频段数据为基准，调整该与第一音频段数据相似度最大的第二音频段数据(即该同一条线段对应的第二音频段数据)，使得调整后的第二音频段数据的起始时间点和终止时间点分别与第一起始时间点和第一终止时间点相同，这样，相似度最大的第一音频段数据与第二音频段数据在时间点上是相同的，而第一音频段数据与待合成视频数据中的图像数据是相对应的，因此，调整后的第二音频段数据与待合成视频数据中的图像数据也是相对应的。

按照上述步骤对折线上的每条线段对应的第二音频段数据进行相应的调整，将调整后的所有第二音频段数据按照时间顺序进行排列组合，得到调整后的待合成音频数据，调整后的待合成音频数据与待合成视频数据中的图像数据相匹配。

可选地，上述步骤对第二音频段数据的调整方式具体可以如下情况1-4：

情况1、如果第一起始时间点与第一终止时间点的差值为0，且第二起始时间点与第二终止时间点的差值不为0，则删除第二音频段数据。

在一种可行的实施方式中，第一起始时间点与第一终止时间点的差值为0说明第一音频段数据为空，第二起始时间点与第二终止时间点的差值不为0说明第二音频段数据不为空，不为空的第二音频段数据与空的第一音频段数据相对应，这种情况说明待合成音频数据相较于基准音频数据多余了一部分，多余的部分正是第二音频段数据。因此，这种情况下，将第二音频段数据删除即可。

情况2、如果第一起始时间点与第一终止时间点的差值不为0，且第二起始时间点与第二终止时间点的差值为0，则在预设补充音频中截取时长为第一起始时间点与第一终止时间点的差值的补充音频，将其确定为新增第二音频段数据，且将新增第二音频段数据的起始时间点与终止时间点分别设定为第一起始时间点与第一终止时间点。

在一种可行的实施方式中，第一起始时间点与第一终止时间点的差值不为0，说明第一音频段数据不为空，第二起始时间点与第二终止时间点的差值为0，说明第二音频段数据为空，空的第二音频段数据与不为空的第一音频段数据相对应，这种情况说明待合成音频数据相较于基准音频数据缺失了一部分，缺失的部分正是第二音频段数据。因此，确定第二音频段数据的时长，在预设补充音频中截取与第二音频段数据的时长相等的一部分补充音频，将其确定为新增第二音频段数据，然后将新增第二音频段数据的起始时间点与终止时间点分别设定为第一起始时间点与第一终止时间点。

情况3、如果第一起始时间点与第一终止时间点的差值不为0，第二起始时间点与第二终止时间点的差值不为0，且第一起始时间点与第一终止时间点的差值等于第二起始时间点与第二终止时间点的差值，则将第二音频段数据的起始时间点与终止时间点修改为第一起始时间点与第一终止时间点。

在一种可行的实施方式中，第一起始时间点与第一终止时间点的差值不为0，说明第一音频段数据不为空，第二起始时间点与第二终止时间点的差值不为0，说明第二音频段数据不为空，且第一起始时间点与第一终止时间点的差值等于第二起始时间点与第二终止时间点的差值，说明第一音频段数据的时长与第二音频段数据的时长相同，进而说明第一音频段数据与第二音频段数据的音频内容相对应，只需将第二音频段数据的起始时间点与终止时间点分别修改为第一起始时间点与第一终止时间点即可。

情况4、如果第一起始时间点与第一终止时间点的差值不为0，第二起始时间点与第二终止时间点的差值不为0，且第一起始时间点与第一终止时间点的差值不等于第二起始时间点与第二终止时间点的差值，则将第二音频段数据进行缩放处理，使得缩放后的第二音频段数据的时长等于第一音频段数据的时长，将缩放后的第二音频段数据的起始时间点与终止时间点分别设定为第一起始时间点与第一终止时间点。

在一种可行的实施方式中，第一起始时间点与第一终止时间点的差值不为0，说明第一音频段数据不为空，第二起始时间点与第二终止时间点的差值不为0，说明第二音频段数据不为空，第一起始时间点与第一终止时间点的差值不等于第二起始时间点与第二终止时间点的差值，说明第一音频段数据与第二音频段数据相对应，但两个音频段数据的时长不相等，需要将第二音频段数据进行缩放处理，使得缩放后的第二音频段数据的时长等于第一音频段数据的时长，然后将缩放后的第二音频段数据的起始时间点与终止时间点分别设定为第一起始时间点与第一终止时间点。

另外，还可以根据折线中各线段与水平方向的角度，来判断对第二音频段数据的调整方式。举例来说，假设综合特征距离矩阵的每行矩阵元素为随时间递增的不同第一子数据与同一个第二子数据的综合特征距离，即综合特征距离矩阵的水平方向表征第一子数据的时间变化，竖直方向表征第二子数据的时间变化。在识别出的多条线段中：

1)如果线段与水平方向呈90度，说明该线段对应的第一音频段数据的起始时间点与终止时间点相同，即该线段对应的第一音频段数据为空，也即，待合成音频数据相对于基准音频数据有多余，且多余的部分即为该线段对应的第二音频段数据，这种情况对应上述情况1。因此，将该线段对应的第二音频段数据删除即可。或者，也可以在待合成视频数据中，在对应第二音频段数据的起始时间点与终止时间点的位置增加预设补充视频数据。

2)如果线段与水平方向呈0度，说明该线段对应的第二音频段数据的起始时间点与终止时间点相同，即该线段对应的第二音频段数据为空，也即，待合成音频数据相对于基准音频数据有缺失，且缺失部分的时长等于该线段对应的第一音频段数据的时长，这种情况对应上述情况2。因此，在在预设补充音频中截取时长为该线段对应的第一音频段数据的时长的补充音频，将该补充音频的起始时间点与终止时间点设定为该线段对应的第一音频段数据的起始时间点与终止时间点。或者，也可以在待合成视频数据中，删除第一音频段数据的起始时间点与终止时间点对应的视频数据。

3)如果线段与水平方向呈45度，且线段上对应的所有综合特征距离的平均值小于第一预设距离，则该线段对应的第一音频段数据的时长与第二音频段数据的时长相等，这种情况对应上述情况3，将第二音频段数据的起始时间点与终止时间点修改第一音频段数据的起始时间点与终止时间点即可。

4)如果线段与水平方向呈现的角度不为0度、45度或90度，且线段上对应的所有综合特征距离的平均值小于第二预设距离，说明该线段对应的第一音频段数据以及第二音频段数据相似度较大，但该线段对应的第一音频段数据的时长与对应的第二音频段数据的时长不相等，这种情况对应上述情况4。因此，将第二音频段数据进行拉伸或缩短，使得第二音频段数据的时长等于第一音频段数据的时长，并将拉伸或缩短的第二音频段数据的起始时间点与终止时间点设定为第一音频段数据的起始时间点与终止时间点。或者，也可以对待合成视频数据中与第一音频段数据对应的视频段数据进行拉伸或缩短，使得拉伸或缩短后的视频段数据的时长等于第二音频段数据的时长。或者，还可以对将第二音频段数据和与第一音频段数据对应的视频段数据都进行拉伸或缩短，使得拉伸或缩短后的视频段数据的时长等于拉伸或缩短后的第二音频段数据的时长。只要能将与第一音频段数据对应的视频段数据和第二音频段数据对齐即可，具体处理方式可根据不同的使用场景选择不同的方式，本申请对此不作限定。

举例来说，假设基准音频数据为A，待合成音频数据为B，线段的两个端点的矩阵元素对应的第一子数据与第二子数据分别为(A1，B1)、(A2，B2)，其对应的第一子数据的时间点与第二子数据的时间点分别为(a1，b1)、(a2，b2)，则这个线段对应的第一音频段数据的起始时间点与终止时间点分别为a1、a2，时长为|a1-a2|，这个线段对应的第二音频段数据的起始时间点与终止时间点分别为b1、b2，时长为|b1-b2|。然后，确定对第二音频段数据的拉伸比例为：将第二音频段数据按照比例R进行拉伸即可。如果想要对第二音频段数据和待合成视频数据中的视频段数据同时进行拉伸处理，可以设第二音频段数据的拉伸比例为S，设待合成视频数据中的视频段数据的拉伸比例为T，且S与T需满足

需要说明的是，最优路径形成的折线在微观上看，每两个点对应的线段与水平方向呈现的角度只能是0度、45度或90度，但本申请实施例中的待合成音频数据以及基准音频数据的数据量都比较大，生成的综合特征距离矩阵的尺寸比较庞大，因此，在根据最优路径形成的折线中识别线段时，可以说是在宏观上进行识别的。而微观上的折线在宏观上可能检测为线段，因此，在根据最优路径形成的折线中可能包括与水平方向呈现的角度不为0度、45度或90度的线段。

在步骤104中，将调整后的待合成音频数据与待合成视频数据中的图像数据进行合成，得到合成视频数据。

在一种可行的实施方式中，通过上述步骤得到调整后的待合成音频数据后，将待合成视频数据中的基准音频数据去除，得到图像数据。图像数据是按照时间排列的多个图像帧。基于预设的视频合成算法，将调整后的待合成音频数据与图像数据进行合成，得到合成视频数据。得到的合成视频数据即为用户所需的播放画面为待合成视频数据的画面、播放声音则是待合成音频数据的声音，且合成视频数据播放出的画面与声音是相对应的，出现画面与声音不对应(如播放的字幕与声音不对应、画面中人的口型与声音不对应等)的情况较少。

基于相同的技术构思，本申请实施例还提供了一种对音视频进行处理的装置，该装置可以为上述实施例中的电子设备，如图3所示，该装置包括：获取模块310，确定模块320、调整模块330和合成模块340。

获取模块310，用于获取待合成视频数据中的基准音频数据，获取所述基准音频数据中包含的多个第一子数据，并获取待合成音频数据中包含的多个第二子数据；

确定模块320，用于分别确定每个第一子数据与每个第二子数据之间的相似度，得到相似度集合；

调整模块330，用于基于所述相似度集合，对所述待合成音频数据进行调整，得到调整后的待合成音频数据；

合成模块340，用于将调整后的待合成音频数据与所述待合成视频数据中的图像数据进行合成，得到合成视频数据。

可选地，所述获取模块310，用于：

获取所述基准音频数据的特征数据；

所述获取模块310，用于：

获取所述待合成音频数据的特征数据；

可选地，所述确定模块320，用于：

可选地，所述调整模块330，用于：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

需要说明的是：上述实施例提供的对音视频进行处理的装置在对音视频进行处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的对音视频进行处理的装置与对音视频进行处理的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4是本申请实施例提供的一种终端的结构框图，该终端可以是上述实施例中的电子设备。该终端400可以是便携式移动终端，比如：智能手机、平板电脑。终端400还可能被称为用户设备、便携式终端等其他名称。

通常，终端400包括有：处理器401和存储器402。

处理器401可以包括一个或多个处理核心，比如4核心处理器、4核心处理器等。处理器401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是有形的和非暂态的。存储器402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器401所执行以实现本申请中提供的对音视频进行处理的方法。

在一些实施例中，终端400还可选包括有：外围设备接口403和至少一个外围设备。具体地，外围设备包括：射频电路404、触摸显示屏405、摄像头406、音频电路407、定位组件408和电源409中的至少一种。

外围设备接口403可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器401和存储器402。在一些实施例中，处理器401、存储器402和外围设备接口403被集成在同一芯片或电路板上；在一些其他实施例中，处理器401、存储器402和外围设备接口403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路404用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路404将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路404包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路404还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

触摸显示屏405用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。触摸显示屏405还具有采集在触摸显示屏405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器401进行处理。触摸显示屏405用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，触摸显示屏405可以为一个，设置终端400的前面板；在另一些实施例中，触摸显示屏405可以为至少两个，分别设置在终端400的不同表面或呈折叠设计；在再一些实施例中，触摸显示屏405可以是柔性显示屏，设置在终端400的弯曲表面上或折叠面上。甚至，触摸显示屏405还可以设置成非矩形的不规则图形，也即异形屏。触摸显示屏405可以采用LCD(LiquidCrystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件406用于采集图像或视频。可选地，摄像头组件406包括前置摄像头和后置摄像头。通常，前置摄像头用于实现视频通话或自拍，后置摄像头用于实现照片或视频的拍摄。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能，主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能。在一些实施例中，摄像头组件406还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路407用于提供用户和终端400之间的音频接口。音频电路407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器401进行处理，或者输入至射频电路404以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器401或射频电路404的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路407还可以包括耳机插孔。

定位组件408用于定位终端400的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件408可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源409用于为终端400中的各个组件进行供电。电源409可以是交流电、直流电、一次性电池或可充电电池。当电源409包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端400还包括有一个或多个传感器410。该一个或多个传感器410包括但不限于：加速度传感器411、陀螺仪传感器412、压力传感器413、指纹传感器414、光学传感器415以及接近传感器416。

加速度传感器411可以检测以终端400建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器411可以用于检测重力加速度在三个坐标轴上的分量。处理器401可以根据加速度传感器411采集的重力加速度信号，控制触摸显示屏405以横向视图或纵向视图进行用户界面的显示。加速度传感器411还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器412可以检测终端400的机体方向及转动角度，陀螺仪传感器412可以与加速度传感器411协同采集用户对终端400的3D动作。处理器401根据陀螺仪传感器412采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器413可以设置在终端400的侧边框和/或触摸显示屏405的下层。当压力传感器413设置在终端400的侧边框时，可以检测用户对终端400的握持信号，根据该握持信号进行左右手识别或快捷操作。当压力传感器413设置在触摸显示屏405的下层时，可以根据用户对触摸显示屏405的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器414用于采集用户的指纹，以根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器401授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器414可以被设置终端400的正面、背面或侧面。当终端400上设置有物理按键或厂商Logo时，指纹传感器414可以与物理按键或厂商Logo集成在一起。

光学传感器415用于采集环境光强度。在一个实施例中，处理器401可以根据光学传感器415采集的环境光强度，控制触摸显示屏405的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏405的显示亮度；当环境光强度较低时，调低触摸显示屏405的显示亮度。在另一个实施例中，处理器401还可以根据光学传感器415采集的环境光强度，动态调整摄像头组件406的拍摄参数。

接近传感器416，也称距离传感器，通常设置在终端400的正面。接近传感器416用于采集用户与终端400的正面之间的距离。在一个实施例中，当接近传感器416检测到用户与终端400的正面之间的距离逐渐变小时，由处理器401控制触摸显示屏405从亮屏状态切换为息屏状态；当接近传感器416检测到用户与终端400的正面之间的距离逐渐变大时，由处理器401控制触摸显示屏405从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图4中示出的结构并不构成对终端400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，存储介质中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述实施例中的对音视频进行处理的方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图5是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备可以是上述实施例中的电子设备。该计算机设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)501和一个或一个以上的存储器502，其中，所述存储器502中存储有至少一条指令，所述至少一条指令由所述处理器501加载并执行以实现上述对音视频进行处理的方法步骤。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种对音视频进行处理的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述基准音频数据中包含的多个第一子数据，包括：

获取所述基准音频数据的特征数据；

所述获取待合成音频数据中包含的多个第二子数据，包括：

获取所述待合成音频数据的特征数据；

3.根据权利要求1所述的方法，其特征在于，所述分别确定每个第一子数据与每个第二子数据之间的相似度，得到相似度集合，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述相似度集合，对所述待合成音频数据进行调整，得到调整后的待合成音频数据，包括：

5.根据权利要求3所述的方法，其特征在于，所述基于所述相似度集合，对所述待合成音频数据进行调整，得到调整后的待合成音频数据，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一起始时间点、所述第一终止时间点、所述第二起始时间点和所述第二终止时间点，调整所述第二音频段数据，使得调整后的第二音频段数据的起始时间点、终止时间点分别与所述第一起始时间点、第一终止时间点相同，包括：

7.一种对音视频进行处理的装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述获取模块，用于：

获取所述基准音频数据的特征数据；

所述获取模块，用于：

获取所述待合成音频数据的特征数据；

9.根据权利要求7所述的装置，其特征在于，所述确定模块，用于：

10.根据权利要求7所述的装置，其特征在于，所述调整模块，用于：

11.根据权利要求9所述的装置，其特征在于，所述调整模块，用于：

12.根据权利要求11所述的装置，其特征在于，所述调整模块，用于：

13.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至6任一所述的对音视频进行处理的方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至6任一所述的对音视频进行处理的方法。