CN111182315A

CN111182315A - 一种多媒体文件拼接方法、装置、设备及介质

Info

Publication number: CN111182315A
Application number: CN201910995056.8A
Authority: CN
Inventors: 李志成
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2020-05-19

Abstract

本申请公开了一种多媒体文件拼接方法，包括：获取待拼接的多个源多媒体文件，确定一目标音频属性；生成与所述多个源多媒体文件的总播放时长匹配且与所述目标音频属性相同的静音音频数据流；对所述多个源多媒体文件中的音频数据流进行统一格式处理得到与目标音频属性相同的音频数据流；将经统一格式化处理后的音频数据流进行拼接，并将拼接后的音频数据流与静音音频数据流进行混音，得到拼接音频混音数据流。如此，避免了音频属性不一致或源多媒体文件音频丢失导致的拼接异常、无法播放等现象。本申请还公开了对应的装置、设备及介质。

Description

一种多媒体文件拼接方法、装置、设备及介质

技术领域

本申请涉及音视频处理技术领域，尤其涉及一种多媒体文件拼接方法、装置、设备及介质。

背景技术

多媒体文件拼接技术是指将多个多媒体文件进行拼接形成一个多媒体文件，目前多媒体拼接技术在音视频处理领域应用十分广泛，比较典型的应用场景有音乐剪辑场景、电视剧电影剪辑场景等，在这些场景下就需要基于多媒体文件拼接技术实现音频拼接或者音视频拼接。

目前在音频或者音视频拼接时，经常会遇到由于源多媒体文件中音频流不标准的情况，例如，有些视频文件没有对应的音频流、音频流数据不连续、多个音频流文件对应的音频采用频率、通道数、采样位数等参数不一致，然而在这些情况下，基于现有的多媒体拼接技术拼接得到的多媒体文件容易出现无法播放、音质损失如出现电平声等异常情况。

基于目前现状，如何提供一种多媒体文件拼接的解决方案能够兼容上述多种情况，以保证拼接所得的多媒体文件能够正常播放即提高拼接性能，这是目前急需解决的问题。

发明内容

本申请提供了一种多媒体文件拼接方法，通过统一源多媒体文件中音频数据流的音频属性，以统一音频属性后的音频数据流进行拼接，并引入静音音频数据流进行混音处理，解决已有的多媒体拼接技术存在的拼接异常、播放异常等问题，提高了拼接性能。本申请还提供了对应的装置、设备、介质以及计算机程序产品。

有鉴于此，本申请第一方面提供了一种多媒体文件拼接方法，所述方法包括：

获取待拼接的多个源多媒体文件，所述多个源多媒体文件中至少有一个源多媒体文件包括音频数据流；

确定一目标音频属性；

生成与所述多个源多媒体文件的总播放时长匹配且与所述目标音频属性相同的静音音频数据流；

对所述多个源多媒体文件中的音频数据流进行统一格式化处理得到与所述目标音频属性相同的音频数据流；

将所述统一格式化处理后的音频数据流进行拼接，并将拼接后的音频数据流与所述静音音频数据流进行混音得到拼接音频混音数据流。

本申请第二方面提供一种多媒体文件拼接装置，所述装置包括：

获取模块，用于获取待拼接的多个源多媒体文件，所述多个源多媒体文件中至少有一个源多媒体文件包括音频数据流；

确定模块，用于确定一目标音频属性；

生成模块，用于生成与所述多个源多媒体文件的总播放时长匹配且与所述目标音频属性相同的静音音频数据流；

转换模块，用于对所述多个源多媒体文件中的音频数据流进行统一格式化处理得到与所述目标音频属性相同的音频数据流；

音频拼接模块，用于将所述统一格式化处理后的所述多个源多媒体文件中的音频数据流进行拼接，并将拼接后的音频数据流与所述静音音频数据流进行混音得到拼接音频混音数据流。

本申请第三方面提供一种设备，所述设备包括：

处理器和存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述计算机程序以实现上述第一方面所述的多媒体文件拼接方法。

本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序在被执行时实现上述第一方面所述的多媒体文件拼接方法。

本申请第五方面提供一种包括指令的计算机程序产品，所述计算机可读存储介质用于存储计算机程序，所述计算机程序在被执行时实现上述第一方面所述的多媒体文件拼接所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

在对多个源多媒体文件进行拼接前，先确定目标音频属性，将多个源多媒体文件包括的音频数据流中与目标音频属性不匹配的音频数据流进行格式转换得到与目标音频属性匹配的音频数据流，从而统一所有待拼接的源多媒体文件的音频属性，然后将经过统一格式化处理后的音频数据流进行拼接，避免了音频属性不一致导致的拼接异常，并且，通过引入与多个源多媒体文件的总播放时长匹配且与目标音频属性相同的静音音频数据流与上述拼接后的音频数据流进行进行混音处理，避免最终得到的拼接音频混音数据流出现数据流不连续的情况，保证拼接所得的多媒体文件能够正常播放。

附图说明

图1为本申请实施例中多媒体文件拼接方法的系统架构图；

图2为本申请实施例中多媒体文件拼接方法的流程图；

图3为本申请实施例中音频信号数字化过程示意图；

图4为本申请实施例中音频编解码操作的流程图

图5为本申请实施例中音频数据流拼接示意图；

图6为本申请实施例中多媒体文件拼接方法得到的音频数据流效果图；

图7为本申请实施例中多媒体文件拼接方法的场景示意图；

图8为本申请实施例中多媒体文件拼接装置的一个结构示意图；

图9为本申请实施例中多媒体文件拼接装置的一个结构示意图；

图10为本申请实施例中服务器的一个结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

针对已有的多媒体文件拼接方法拼接所得多媒体文件容易出现无法播放、音质损失等异常情况，本申请提供了一种多媒体文件拼接方法，首先统一待拼接的源多媒体文件中音频数据流的音频属性，按照统一音频属性后的音频数据流进行拼接，从而解决格式不一致导致的拼接异常问题，此外还生成与源多媒体文件播放总时长匹配且与拼接所得音频数据流相同格式的静音音频数据流，将该静音音频数据流与拼接所得音频数据流进行混音处理，从而解决音频数据流不连续导致的播放异常问题。

可以理解，本申请提供的多媒体文件拼接方法可以应用于任意具有数据处理能力的处理设备，该处理设备可以是终端，也可以是服务器。其中，终端具体可以是台式机等桌面终端设备，也可以是笔记本电脑、平板电脑或者智能手机等便携式终端设备，或者是增强现实(Augmented Reality，AR)终端设备以及虚拟现实(Virtual Reality，VR)终端设备等等。服务器具体可以是提供多媒体文件拼接服务的计算设备。为了便于理解，后文主要以处理设备为服务器进行示例性说明。

本申请提供的多媒体文件拼接方法能够以计算机程序的形式存储于上述处理设备中，处理设备通过执行上述应用程序实现多媒体文件拼接方法。其中，计算机程序可以独立存在，也可以集成于其他计算机程序之上的形式存在，例如可以是集成于其他计算机程序之上的功能模块、插件或者小程序等等。

可以理解，本申请提供的多媒体文件拼接方法包括但不限于应用于如图1所示的应用环境中。

如图1所示，服务器101接收终端102上传的多个源多媒体文件，然后确定一目标音频属性，接着服务器101生成与多个源多媒体文件的总播放时长匹配且与所述目标音频属性相同的静音音频数据流，对多个源多媒体文件中的音频数据流进行统一格式化处理，得到与目标音频属性相同的音频数据流，将经过统一格式化处理后的音频数据流进行拼接，最后服务器101将拼接后的音频数据流与静音音频数据流进行混音得到拼接音频混音数据流。

为了使得本申请的技术方案更加清楚、易于理解，接下来将从服务器的角度对本申请实施例提供的多媒体文件拼接方法的各个步骤进行详细说明。

参见图2所示的多媒体文件拼接方法的流程图，该方法包括：

S201:获取待拼接的多个源多媒体文件。

多个源多媒体文件中至少有一个源多媒体文件包括音频数据流。待拼接的多个源多媒体文件可以是多个音频文件，也可以是多个视频文件，其中，视频文件中至少有一个包括音频数据流，当然，待拼接的多个源多媒体文件也可以是至少一个音频文件和至少一个视频文件。在有些情况下，源多媒体文件还可以包括图片文件。

在具体实现时，服务器可以自动从终端获取多个多媒体文件作为待拼接的多个源多媒体文件。针对流媒体应用，例如直播应用，主播在直播过程中产生的包括图像和/或声音的数据流，一般是采用流式传输方式从主播传输至观众，因此，在直播过程中可以产生多个较小的多媒体文件，终端可以将上述较小的多媒体文件自动上传至服务器进行拼接处理，得到完整的多媒体文件，以便在直播结束后可以获取该多媒体文件在线观看或者下载至本地。

当然，在有些情况下，如用户对多个素材(即多媒体文件)进行剪辑处理时，服务器也可以接收用户指定的多媒体文件作为待拼接的多个源多媒体文件。具体地，终端可以部署多媒体文件处理应用，该处理应用提供有上传控件，用户通过该上传控件上传来自本地或者网络中的多媒体文件，请求对上传的多媒体文件进行拼接处理，如此，服务器可以将用户手动上传的上述多媒体文件作为待拼接的多个源多媒体文件。

S202：确定一目标音频属性。

音频属性是指音频数据流的固有特性，音频属性可以包括以下任意一种或多种参数：音频流通道数、采样率、采样位数、音频格式，其中，音频格式具体是音频编码格式。为了方便理解，下面结合音频信号数字化过程对上述参数进行简单说明。

参见图3所示的音频信号数字化过程示意图，音频信号数字化是指将连续的模拟信号转换成离散的数字信号，一般需要完成采样、量化和编码三个步骤。其中，采样是指用每隔一定时间间隔的信号样本值序列来代替原来在时间上连续的信号，基于上述时间间隔可以确定采样频率，即为采样率；量化是用有限个幅度近似表示原来在时间上连续变化的幅度值，把模拟信号的连续幅度变为有限数量、有一定时间间隔的离散值，量化位数即为采样位数，其可以用于衡量声音波动变化；编码是按照一定规律，将量化后的离散值用二进制数码表示，采用不同算法进行编码将产生不同音频格式的音频，如wav、mp3或者aac等等。音频流通道数则是指声音录制时的音源数量或回放时相应的扬声器数量。

目标音频属性是指多媒体文件拼接方案中最终输出多媒体文件包括的音频数据流的音频属性。也即，目标音频属性是期望得到的音频属性。上述目标音频属性可以是根据多个源多媒体文件的音频属性而确定，也可以是根据用户需求而确定，下面对确定目标音频属性的几种实现方式进行说明。

在第一种实现方式中，服务器可以从包括音频数据流的源多媒体文件中，选择拼接顺序最靠前的一个源多媒体文件作为基准多媒体文件，将所述基准多媒体文件中包括的音频数据流的音频属性作为目标音频属性。

在第二种实现方式中，服务器也可以从包括音频数据流的源多媒体文件中，随机选择一个源多媒体文件作为基准多媒体文件，将所述基准多媒体文件中包括的音频数据流的音频属性作为目标音频属性。

在第三种实现方式中，服务器还可以将所述多个源多媒体文件中具有相同音频属性的源多媒体文件归为一类，并统计每一类别中所包含的源多媒体文件的文件个数，选择文件个数最多的类别作为目标类别，将所述目标类别中所包含的源多媒体文件具有的音频属性作为目标音频属性。如此，与其他实现方式相比，该实现方式可以减少后续转换音频格式的次数，节省计算资源，降低服务器计算压力。

在第四种实现方式中，用户可以根据自身需求指定最终输出的多媒体文件的音频属性。具体地，用户可以预先在音频拼接配置文件中定义目标音频属性，如此，服务器可以直接获取与所述多个源多媒体文件对应的音频拼接配置文件，该音频拼接配置文件中记录有音频拼接指定的目标音频属性，然后从音频拼接配置文件中读取所述目标音频属性。

当然，确定目标音频属性不局限于上述四种实现方式，在本申请实施例其他可能实现方式中，也可以采用其他方式确定目标音频属性。

S203:生成与所述多个源多媒体文件的总播放时长匹配且与所述目标音频属性相同的静音音频数据流。

在具体实现时，服务器可以先确定最终需要输出的多媒体文件的时长，该时长与源多媒体文件的总播放时长是相匹配的，一般情况下，该时长与源多媒体文件的总播放时长相等，然后按照目标音频属性对应的音频流通道数、采样率、采样位数以及编码格式生成相应时长且具备目标音频属性的静音音频数据流，其中，静音音频数据流的采样值均为0dB。

需要说明的是，源多媒体文件在拼接时如果在时间轴上存在重叠情形，则最终输出的多媒体文件的时长也可以小于源多媒体文件的总播放时长，源多媒体文件在拼接时如果在时间轴上存在复制情形，则最终输出的多媒体文件的时长也可以大于多媒体文件的总播放时长。

S204：对所述多个源多媒体文件中的音频数据流进行统一格式化处理得到与所述目标音频属性相同的音频数据流。

考虑到源多媒体文件包括的音频数据流音频属性不一致时，直接进行拼接可能会出现音频信息中间突变、拼接失败、没有声音等拼接异常，服务器可以统一各源多媒体文件中音频数据流的格式。

具体地，服务器可以检测各个源多媒体文件包括的音频数据流的音频属性，当音频数据流的属性为目标音频属性时，保持音频数据流不变，当音频数据流的音频属性与目标音频属性不同时，将该音频数据流转换为与目标音频属性相同的音频数据流。

考虑到音频数据流是通过模拟信号进行数字化实现的，因此，服务器也可以通过执行上述数字化过程的逆过程，将数字信号通过数模转换器转换为模拟信号，然后根据目标音频属性重新执行数字化过程，从而实现音频数据流的格式转换，得到与目标音频属性相同的音频数据流。下面对其具体实现进行详细说明。

图4还示出了一种对音频进行编解码的框图，如图4所示，脉冲编码调制(PulseCode Modulation，PCM)信号通过子带滤波器和声带模型之后进行比特分配，然后与经过子带滤波器滤波后的信号一并输入量化编码器重新量化，接着通过组帧处理得到编码码流，上述编码码流以帧的形式记录声音单元，其长度为采样位数和通道数的乘积，在进行解码时，先针对解码码流进行帧拆包，然后进行去量化，再通过反向子带滤波器，输出线性脉冲编码调制LPCM信号。

接着，服务器对解码后的信号进行去量化、反采样可以得到模拟信号，针对还原得到的模拟信号，按照目标音频属性执行音频信号数字化过程，得到与目标音频属性匹配的音频数据流。

S205：将所述统一格式化处理后的音频数据流进行拼接。

在具体实现时，服务器可以按照多个源多媒体文件中各源多媒体文件的拼接顺序以及各源多媒体文件中音频数据流对应的时间戳，将所述多个源多媒体文件统一格式化处理后的音频数据流进行拼接。

在具体实现时，用户可以预先在音频拼接配置文件中定义各源多媒体文件的拼接顺序，如此，服务器可以在获取音频拼接配置文件后，从音频拼接配置文件中读取各源多媒体文件的拼接顺序，接着按照上述拼接顺序针对每个源多媒体文件，依次按照音频数据流对应的解码时间戳(Decode Time Stamp，DTS)或者显示时间戳(Presentation TimeStamp，PTS)，将多个源多媒体文件中与目标音频属性匹配的音频数据流进行拼接。

以基于PTS拼接为例进行说明。如图5所示，源多媒体文件的拼接顺序为多媒体文件1、多媒体文件2以及多媒体文件3，多媒体文件1包括3段音频，根据这3段音频的PTS可以确定各自在多媒体文件1中的显示时间，如多媒体文件1总时长为38s，音频1在多媒体文件1中的显示时间为第27s，音频2在多媒体文件1中的显示时间为第11s，音频3在多媒体文件1中的显示时间为19s，则将音频1、2、3分别按照显示时间在时间轴上对齐，需要说明，如果音频1、2、3中有音频进行格式转换，则采用转换后与目标音频属性相匹配的音频，例如音频1被转换为音频1’，则采用音频1’在时间轴上对齐，接着对多媒体文件2和多媒体文件3中的音频进行类似的处理，从而完成音频拼接。

在一些可能的实现方式中，还可以在生成源多媒体文件时，自动为源多媒体文件添加拼接顺序标识位，例如在直播场景中，终端可以针对直播过程产生的直播流自动添加拼接顺序标识位，如此，服务器在获取多个直播流后，识别上述拼接顺序标识位得到拼接顺序，然后根据拼接顺序以及音频数据流的时间戳进行音频数据流拼接。

当然，在有些情况下，服务器也可以将获取源多媒体文件的顺序作为拼接顺序，根据该拼接顺序和源多媒体文件中音频数据流对应的时间戳，将所述多个源多媒体文件中与所述目标音频属性匹配的音频数据流进行拼接。

在一些可能的实现方式中，服务器也可以根据拼接顺序确定出排序最靠前且包括音频数据流的源多媒体文件，以该源多媒体文件中音频数据流的时间戳为起始时间戳，在拼接该源多媒体文件之后的音频数据流时，按时间基规序递增的方式修改在所述源多媒体文件之后的音频数据流的时间戳，从而实现音频数据流拼接。其中，拼接的音频数据流是与目标音频属性相匹配的音频数据流。

需要说明的是，上述S203和S204、S205的执行顺序并不影响本申请的具体实现，在实际应用时，S203可以和S204、S205并行执行，也可以是按照设定的顺序先后执行，本实施例对此不作限定。

S206：将拼接后的音频数据流与所述静音音频数据流进行混音得到拼接音频混音数据流。

具体地，服务器可以将拼接后的音频数据流与静音音频数据流按照时间戳在时间轴上进行对齐，然后整合至一个音轨中，实现对音频数据流的混音处理。一方面，拼接后的音频数据流与静音音频数据流的音频属性是相匹配的，因此，在对上述音频数据流进行混音处理时，能够避免音频属性不一致导致的异常；另一方面，由于是按照相对的DTS/PTS时间轴混音处理，即使拼接后的音频数据流中存在语音帧丢失的情况，静音音频数据流中的语音帧也可以填补空白，在混音处理后可以解决语音帧丢失导致的拼接异常，进而避免语音帧丢失导致的播放异常。并且，静音音频数据流中的语音帧为静音帧，和正常语音帧混音并不应影响混音后音频数据流的声音效果。

参见图6，其示出了对多个音频文件与静音音频数据流进行混音处理所得拼接音频混音数据流的波形图。具体地，601表征多媒体文件1、多媒体文件2和多媒体文件3中音频数据流统一格式后拼接所得音频数据流的波形图，602表征静音音频数据流的波形图，603表征对拼接所得音频数据流以及静音音频数据流进行混音处理所得音频数据流的波形图，基于601中的标注框604可知，多媒体文件2和多媒体文件3存在音频数据流中断，基于602中的静音音轨605可知静音音频数据流的采样值均为0，基于此，将拼接所得音频数据流和静音音频数据流进行混音处理，不仅不会引入噪声干扰，而且能够通过静音帧使得处理后的音频数据流连续不中断，具体可以参见标注框606，原来音频中断部分通过静音流连接起来了，从而解决了已有多媒体文件拼接方法中存在的语音帧丢失导致的拼接异常和播放异常问题。

由上可知，本申请实施例提供了一种基于静音音频数据流的多媒体文件拼接方法，在对多个源多媒体文件进行拼接前，先确定目标音频属性，将多个源多媒体文件包括的音频数据流中与目标音频属性不匹配的音频数据流进行格式转换得到与目标音频属性匹配的音频数据流，从而统一所有待拼接的源多媒体文件的音频属性，按照各源多媒体文件的拼接顺序以及各源多媒体文件中音频数据流对应的时间戳，将多个源多媒体文件中与目标音频属性匹配的音频数据流进行拼接，避免了音频属性不一致导致的拼接异常，并且，通过引入与多个源多媒体文件的总播放时长相匹配且具备目标音频属性的静音音频数据流与上述拼接后的音频数据流进行进行混音处理，避免最终得到的拼接音频混音数据流出现数据流不连续的情况，保证拼接所得的多媒体文件能够正常播放。

进一步地，在有些情况下，多个源多媒体文件中的每个源多媒体文件中至少包括视频数据流，服务器还可以基于时间戳对齐的方式将所述拼接音频混音数据流与所述视频数据流进行对齐得到目标多媒体文件，其中，目标多媒体文件中包括所述拼接音频混音数据流以及与所述拼接音频混音数据流的时间戳对齐的所述视频数据流。

需要说明的是，本申请实施例提供的多媒体文件拼接方法可以用于本地应用，也可以用于云端应用，作为一个示例，云端应用可以是云剪辑或者云直播等。该方法在应用到云端应用时，服务器具体可以是云端服务器，例如在，云直播场景中，云端服务器可以获取直播端发送的多段直播流，将所述多段直播流作为待拼接的多个源多媒体文件，利用本申请实施例提供的多媒体文件拼接方法将多段直播流拼接，可以得到一个完整的、能够正常播放的多媒体文件。

为了便于理解本申请的技术方案，接下来结合云直播场景对本申请的多媒体文件拼接方法进行介绍。

参见图7所示的多媒体文件拼接方法的场景示意图，该场景中包括主播端701、观众端702以及云端服务器703，主播端701和观众端702是指主播对应的终端和观众对应的端，其上安装有直播应用，主播端701的主播通过该直播应用在虚拟的直播房间704进行直播，直播流数据通过网络传输至观众端702，观众端702通过直播应用进入直播房间704，接收上述直播流数据，并播放该直播流数据，如此，观众可以观看主播端701直播内容。

由于上述直播流数据是以流式传输方式传输的，因此，在直播过程中会产生多段直播流，例如可以是直播流1、直播流2…至直播流N，其中，N为大于1的正整数，主播端701还可以将在直播过程中产生的多段直播流发送至云端服务器703，云端服务器703将多段直播流作为待拼接的多个源多媒体文件，以第一段直播流即直播流1的音频属性作为目标音频属性，生成与多个源多媒体文件的总播放时长相匹配且具备所述目标音频属性的静音音频数据流。

然后，云端服务器703检测每一直播流包括的音频数据流的音频属性，当任一直播流中包括的音频数据流的音频属性与目标音频属性不相同时，对与目标音频属性不相同的音频数据流进行格式转换得到对应的与目标音频属性相同的音频数据流，从而实现音频数据流的统一格式化处理。

接着，按照多个直播流的拼接顺序以及各直播流中音频数据流对应的时间戳，将统一格式化处理后的音频数据流进行拼接，并将拼接后的音频数据流与所述静音音频数据流进行混音得到拼接音频混音数据流。

由于每个直播流中还包括视频数据流，云端服务器703按照多个直播流中各直播流的拼接顺序以及各直播流中视频数据流的时间戳，基于时间戳对齐的方式将所述拼接音频混音数据流与所述视频数据流进行对齐得到目标视频文件，该目标视频文件中包括所述拼接音频混音数据流以及与所述拼接音频混音数据流的时间戳对齐的所述视频数据流。云端服务器703可以生成针对该目标视频文件的地址，如此，用户端702还可以在直播结束后，根据该地址从云端服务器703获取目标视频文件以回看直播内容。

以上为本申请实施例提供的多媒体文件拼接方法的一些具体实现方式，基于此，本申请还提供了对应的装置。下面将从功能模块化的角度对本申请实施例提供的上述装置进行介绍。

参见图8所示的多媒体文件拼接装置的结构示意图，该装置800包括：

获取模块810，用于获取待拼接的多个源多媒体文件，所述多个源多媒体文件中至少有一个源多媒体文件包括音频数据流；

确定模块820，用于确定一目标音频属性；

生成模块830，用于生成与所述多个源多媒体文件的总播放时长匹配且与所述目标音频属性相同的静音音频数据流；

转换模块840，用于对所述多个源多媒体文件中的音频数据流进行统一格式化处理得到与所述目标音频属性相同的音频数据流；音频拼接模块850，用于将所述统一格式化处理后的所述多个源多媒体文件中的音频数据流进行拼接，并将拼接后的音频数据流与所述静音音频数据流进行混音得到拼接音频混音数据流。

可选地，参见图9，图9为本申请实施例提供的多媒体文件拼接装置的一个结构示意图，在图8所示结构的基础上，所述多个源多媒体文件中的每个源多媒体文件中至少包括视频数据流；所述装置800还包括：

音视频对齐模块860，用于基于时间戳对齐的方式将所述拼接音频混音数据流与所述视频数据流进行对齐得到目标多媒体文件，所述目标多媒体文件中包括所述拼接音频混音数据流以及与所述拼接音频混音数据流的时间戳对齐的所述视频数据流。

可选地，所述多个源多媒体文件中有至少两个源多媒体文件至少包括音频数据流；

所述确定模块820具体用于：

从包括音频数据流的源多媒体文件中，选择拼接顺序最靠前的一个源多媒体文件作为基准多媒体文件；

将所述基准多媒体文件中包括的音频数据流的音频属性作为目标音频属性。

可选地，所述确定模块820具体用于：

从包括音频数据流的源多媒体文件中，随机选择一个源多媒体文件作为基准多媒体文件；

所述确定模块820具体用于：

将所述多个源多媒体文件中具有相同音频属性的源多媒体文件归为一类，并统计每一类别中所包含的源多媒体文件的文件个数，选择文件个数最多的类别作为目标类别；

将所述目标类别中所包含的源多媒体文件具有的音频属性作为目标音频属性。

可选地，所述确定模块820具体用于：

获取与所述多个源多媒体文件对应的音频拼接配置文件，所述音频拼接配置文件中记录有音频拼接指定的目标音频属性；

从所述音频拼接配置文件中读取所述目标音频属性。

可选地，所述转换模块840具体用于：

针对所述多个源多媒体文件中的每个源多媒体文件，当所述源多媒体文件中的音频数据流的属性为所述目标音频属性时，保持所述音频数据流不变；

当所述源多媒体文件中的音频数据流的属性与所述目标音频属性不相同时，则对所述源多媒体文件中的音频数据流进行格式转化，转化成与所述目标音频属性相同的音频数据流。

可选地，所述目标音频属性至少包括以下一种或多种：音频流通道数、采样率、采样位数、音频格式。

可选地，所述装置800应用于云端服务器；

所述获取模块810具体用于：

获取直播端发送的多段直播流，将所述多段直播流作为待拼接的多个源多媒体文件。

基于本申请实施例提供的上述方法和装置的具体实现方式，本申请还提供了一种设备，用于实现多媒体文件拼接。下面将从硬件实体化的角度对本申请实施例提供的设备进行介绍。

图10是本申请实施例提供的一种设备的结构示意图，该设备可以是服务器，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1022(例如，一个或一个以上处理器)和存储器1032，一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中，存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1022可以设置为与存储介质1030通信，在服务器1000上执行存储介质1030中的一系列指令操作。

服务器1000还可以包括一个或一个以上电源1026，一个或一个以上有线或无线网络接口1050，一个或一个以上输入输出接口1058，和/或，一个或一个以上操作系统1041，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图10所示的服务器结构。

其中，CPU 1022用于执行如下步骤：

确定一目标音频属性；

可选的，所述CPU 1022还用于执行本申请实施例提供的多媒体文件拼接方法的任意一种实现方式的步骤。

本申请实施例还提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述各个实施例所述的一种多媒体文件拼接方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种多媒体文件拼接方法，其特征在于，所述方法包括：

确定一目标音频属性；

2.根据权利要求1所述的多媒体文件拼接方法，其特征在于，所述多个源多媒体文件中的每个源多媒体文件中至少包括视频数据流；

则在进行混音得到拼接音频混音数据流之后，所述方法还包括：

基于时间戳对齐的方式将所述拼接音频混音数据流与所述视频数据流进行对齐得到目标多媒体文件，所述目标多媒体文件中包括所述拼接音频混音数据流以及与所述拼接音频混音数据流的时间戳对齐的所述视频数据流。

3.根据权利要求1所述的多媒体文件拼接方法，其特征在于，所述多个源多媒体文件中有至少两个源多媒体文件至少包括音频数据流；

所述确定目标音频属性，包括：

4.根据权利要求1所述的多媒体文件拼接方法，其特征在于，所述确定一目标音频属性，包括：

5.根据权利要求1所述的多媒体文件拼接方法，其特征在于，所述多个源多媒体文件中有至少两个源多媒体文件至少包括音频数据流；

所述确定目标音频属性，包括：

6.根据权利要求1所述的多媒体文件拼接方法，其特征在于，所述确定目标音频属性，包括：

从所述音频拼接配置文件中读取所述目标音频属性。

7.根据权利要求1所述的多媒体文件拼接方法，其特征在于，所述对所述多个源多媒体文件中的音频数据流进行统一转码处理得到与所述目标音频属性相同的音频数据流，包括：

8.根据权利要求1至7中任一项所述的多媒体文件拼接方法，其特征在于，所述目标音频属性至少包括以下一种或多种：

音频流通道数、采样率、采样位数、音频格式。

9.根据权利要求1至7中任一项所述的多媒体文件拼接方法，其特征在于，应用于云端服务器；

所述获取待拼接的多个源多媒体文件，包括：云端服务器获取直播端发送的多段直播流，将所述多段直播流作为待拼接的多个源多媒体文件。

10.一种多媒体文件拼接装置，其特征在于，所述装置包括：

确定模块，用于确定一目标音频属性；

11.根据权利要求10所述的多媒体文件拼接装置，其特征在于，所述多个源多媒体文件中的每个源多媒体文件中至少包括视频数据流；

则所述装置还包括：

音视频对齐模块，用于基于时间戳对齐的方式将所述拼接音频混音数据流与所述视频数据流进行对齐得到目标多媒体文件，所述目标多媒体文件中包括所述拼接音频混音数据流以及与所述拼接音频混音数据流的时间戳对齐的所述视频数据流。

12.一种设备，其特征在于，包括：

处理器和存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述计算机程序以实现上述权利要求1至9任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序在被执行时实现上述权利要求1至9任一项所述的方法。