CN108259965B

CN108259965B - 一种视频剪辑方法和剪辑系统

Info

Publication number: CN108259965B
Application number: CN201810277976.1A
Authority: CN
Inventors: 牛嵩峰; 周晓民; 唐炜
Original assignee: Hunan Radio And Television Broadcasting Media Center
Current assignee: Hunan Radio And Television Broadcasting Media Center
Priority date: 2018-03-31
Filing date: 2018-03-31
Publication date: 2020-05-12
Anticipated expiration: 2038-03-31
Also published as: CN108259965A

Abstract

本发明公开了一种视频剪辑方法和剪辑系统，包括：步骤1：解码视频文件并进行音视频分离得到画面帧数据、音频帧数据以及画面帧和音频帧的同步表；步骤2：将音频数据同步翻译为文字；步骤3：获取音频中每个音节的起始时刻、终止时刻以及底噪或静音区，并构建文字与音频中音节的同步时间戳；步骤4：在剪辑窗口剪辑文字或者音频，再依据所述画面帧和音频帧的同步表，所述同步时间戳同步剪辑画面帧数据、音频帧数据或者同步剪辑画面帧数据和文字；步骤5：将剪辑后的画面帧数据、音频帧数据以及文字进行封装导出。通过上述方法可以极大的提高视频剪辑效率。

Description

一种视频剪辑方法和剪辑系统

技术领域

本发明属于视频语音、音频剪辑、中文文字编辑的技术领域，具体涉及一种视频剪辑方法和剪辑系统。

背景技术

传统广播电台、电视台的语音类音频内容编辑，主要是利用通用的视频编辑软件实现(如Adobe Premiere Pro软件，Final Cut Pro软件)，此类软件本身没有同步文本编辑窗口，如图1所示，需要完全依靠人耳的听觉控制来进行人工剪切和修饰，效率及准确率不高。其中，一般是监听视频稿件中的伴音，人工理解对应的文字稿，然后再用wps软件和audition软件的不停切换方式工作，边修改文本文件边编辑音频和视频，关于音频和视频的修改则依托人工监听、监看，通过人脑记忆，逐字逐句的进行听写和校对。即文字的删减调整和视频、伴音的删减调整需要分三步完成，导致在重大节目播出时，视频稿和文字稿因审稿、不同渠道发布的需要，必须一一对应时，编辑的工作将消耗大量的工作时间，且工作过程繁琐而枯燥。

发明内容

本发明的目的是提供一种视频剪辑方法和剪辑系统，能够建立视频中视频画面、伴音以及文字的同步机制，再利用同步机制实现同步剪辑。

第一方面，本发明提供一种视频剪辑方法，包括如下步骤：

步骤1：解码视频文件并进行音视频分离得到画面帧数据、音频帧数据以及画面帧和音频帧的同步表；

其中，所述画面帧和音频帧的同步表包括每个音频帧与音频时长、画面帧以及视频时长的对应关系，所述音频帧数据以时间为横轴坐标、幅度为纵轴坐标的音频波，所述音频波上分布离散采样点；

步骤2：将音频数据同步翻译为文字；

步骤3：获取音频中每个音节的起始时刻、终止时刻以及底噪或静音区，并构建文字与音频中音节的同步时间戳；

其中，所述同步时间戳包括每个文字与对应音节在起始时刻、终止时刻、底噪或静音区的标记编号。

步骤4：在剪辑窗口剪辑文字或者音频，再依据所述画面帧和音频帧的同步表，所述同步时间戳同步剪辑画面帧数据、音频帧数据或者同步剪辑画面帧数据和文字；

a：在剪辑窗口剪辑文字时，依据所述同步时间戳获取所选定的文字对应在音频中的标记编号，再根据所述标记编号获取音频剪辑范围，然后再依据所述画面帧和音频帧的同步表判断所述音频剪辑范围内是否存在对应的画面帧，若存在，所述音频剪辑范围内对应的画面帧为待剪辑的画面帧；

b：在剪辑窗口剪辑音频时，获取音频剪辑范围，再依据所述同步时间戳获取文字剪辑范围，以及依据所述画面帧和音频帧的同步表判断所述音频剪辑范围内是否存在对应的画面帧，若存在，所述音频剪辑范围内对应的画面帧为待剪辑的画面帧；

步骤5：将剪辑后的画面帧数据、音频帧数据以及文字进行封装导出。

本发明所述的音频帧数据为视频的同期声音频帧数据。

获取到视频文件后将其解码得到画面帧数据和音频帧数据，其中，画面帧数据是基于时间轴分布，音频帧数据也是基于时间轴分布。同时，基于视频的原有同步机制，视频解码后可以得到画面帧和音频帧的同步表，如下表1所示：

表1

其中，表1中M0001表示第一个音频帧的第一个采样点的序列编号，M0002表示第二个音频帧的第一个采样点的序列编号，依次类推；N0001表示第一个画面帧，N0002表示第二个画面帧，依次类推，可以获得音频帧与画面帧的对应关系，且应当理解，每个音频帧对应音频时长中有一个时刻点位置，例如采样频率为48kHz的aac格式的音频，每一帧的音频时长为21.33ms；每个画面帧对应在视频时长中有一个时刻点位置，其中，相邻画面帧的时间一般为40ms。

本发明获取到音频中每个音节起始时刻、终止时刻以及底噪或静音区，进而构建文字与语音中音节的同步时间戳，该同步时间戳即表示为如下的时刻同步表。如下表2所示：

表2

从上述表格2可知，时刻同步表包括每个文字与对应音节在起始时刻、终止时刻、底噪或静音区的标记编号，进而根据时刻同步表确定了文字与语音的对应关系，其中，每个标记编号对应在音频中的时刻点位置是可以确定的，且每个音节对应多个音频帧，例如aac音频中单字发音需要平均帧9.05帧。

其中依托于表1画面帧和音频帧的对应关系及其所在的视频时长位置，音频时长位置；以及表2中标记编号及其在音频中的时间位置进而可以构建画面帧、音频帧以及文字三者之间的对应关系。

基于上述三者对应关系，可以是在剪辑窗口内剪辑文字，然后同步自动剪辑了画面帧数据以及音频帧数据；还可以是在剪辑窗口内显示已经进行标记编号的音频波形，再依据广播编辑人员在音频编辑窗口，以及标记编号选择单个音节或者以音节为单位的词语、句子或段落进行剪辑，确定剪辑范围后，同步依据所述画面帧和音频帧的同步表，所述同步时间戳同步剪辑画面帧数据和文字。

例如，基于上述三者对应关系，例如令λ₁为需要剪切的伴音(同期声)音节起头，λ₂为需要剪切的伴音(同期声)音节结束，若M0002<λ₁<λ₂<M0005，则位于M0002-M0005之间的画面帧仅仅为N0002，即只需要将N0002这一画面帧剪辑掉即可。

进一步优选，步骤3中所述构建文字与音频中音节的同步时间戳的过程如下：

S1：将所述音频波进行区间划分；

其中，每个区间包括x个采样点，音频波的采样频率低于或等于48kHz，x的取值范围为50-150，音频波的采样频率为96kHz或88.2kHz，x的取值范围为100-300，音频波的采样频率为192kHz，x的取值范围为200-600；

S2：计算每个区间的平均相对电平值；

其中，区间的平均相对电平值计算公式如下：

X＝0000,0000,0000,0001

式中，

表示第n个区间的平均相对电平值，

分别表示第n个区间中第1、2、x个采样点的幅度的绝对值，X表示量化比特数为16位的预设的取样信号，n为正整数；

S3：依据每个区间的平均相对电平值获取每个区间的节点识别参数；

其中，所述节点识别参数包括电平参数和电平变化参数：

式中，

表示第n个区间的电平参数，

表示第n个区间的电平变化参数；

S4：依据每个区间的节点识别参数以及预设的节点识别标准获取音频中每个音节起始时刻、终止时刻以及底噪或静音区，并依次进行标记编号；

其中，一个音节的终止时刻至后一相邻音节的起始时刻为音节的底噪或静音区；

S5：依据步骤1中的文字以及步骤5中标记编号构建文字与语音中音节的时刻同步表，得到文字与语音的同步时间戳；

其中，所述同步时间戳是所述同步表中每个文字与对应音节在起始时刻、终止时刻、底噪或静音区的标记编号。

本发明中预设的节点识别标准是以节点识别参数为依据而设定的，而节点识别参数中电平参数和电平变化参数其实质上是体现了区间内采样点幅度的变化以及变化快慢，进而通过研究得到一个统一标准来判定音节起始、终止等时刻，该统一标准即本发明的节点识别标准。

本发明通过将音频进行解码，再针对进行区间划分以及计算出每个区间的节点识别参数，再确定每个音节起始时刻、终止时刻以及底噪或静音区，进而构建文字与语音中音节的时刻同步表。如上表2所示：

本发明中将音频波进行区间划分，不同音频的音频波中每个区间的采样点所允许的范围不同，例如音频波的采样频率低于或等于48kHz，每个区间包含50-150的采样点。其目的是可以保证，每个区间可以采集到正常人声的1个以上的谐振周期，保证了数据模型的可靠性，且同时也使谐振周期数量不会过多，而降低数据模型的精度。

本发明基于人耳对声音的响度判断与音量幅度之间是呈对数变化的以及基于变化趋势的分析会提高识别结果的准确度，故选用对数计算出的电平参数和电平变化参数作为节点识别参数，可以更加准确地识别出音节的起始、终止时刻。

进一步优选，所述预设的节点识别标准为：

A：若连续α个区间的电平参数和电平变化参数均满足

则表示满足

的所述α个区间内存在底噪或静音区的起始时刻；

B：若区间的电平参数和电平变化参数满足

且随后相邻的α-1个区间的电平变化参数均大于1dB，则表示满足

的所述区间内存在一个音节的起始时刻；

C：若连续α-2个区间的电平参数和电平变化参数均满足

则表示满足

的所述α-2个区间内存在音节的高潮处时刻；

D：若区间的电平参数和电平变化参数均满足

且随后相邻的α-1个区间的电平变化参数均小于-1dB，则表示音节的幅度下降；

E：若连续α个区间的电平参数和电平变化参数均满足

则表示满足

的所述α个区间内存在音节终止时刻；

其中，3≤α≤7。

其中，B也表示音节的上升沿开始，D表示音节的下降沿开始。

在音频中各个音节位置识别过程中，是沿着时间轴以第一个区间依次往后进行识别的，其中，各个区间在音频中对应的时刻点是可以确定的，进而各个音节对应的标记编号的时刻点也是可以确定的。

基于研究发现：人耳对于声音的响度判断与音量幅度之间是呈对数变化的，音量每增加一倍，电平上增加6dB，由广电标准的静音门限-60dBFs转换为本系统的相对电平值为36dB，按16bit的量化情况(音质为CD和广播级别)，可换算为有60dB(96-36)的动态范围，也就是近10倍的音量变化。在一个单字平均发音时长里，会有一次从静音(36dB)到8至9倍(90dB左右)的音量变化过程，1dB表示的变化为：后者音量是前者的1.15倍，其为基本的一个音量开始增长的趋势，这种趋势在发音时的变化在上升沿的位置会变得更大，在本系统定义的时间戳抽样间隔下，通常是3-6dB甚至更高的前后坡度差，下降沿同样如此。

基于上述原理可知，使用一次获得的启动门限1dB不足以判断已经进入上升周期，应该是多次计算多次判断后才能确定已经进入单音开启点，因为整体处于上升周期的某些时间戳抽样间隔内不一定会有后者比前者大很多的情况，有些部分会出现缓坡，因此不能将启动门限定义的太高。至于1dB这个门限值是不是门限太低，在需要更为锋利的时间戳启动点位置的时候，可以将门限值提高，抽取的单音节语素会更紧凑，会导致音节之间的过度处理平滑度更差，更难处理。因此，基于上述分析，本发明将电平变化参数的参数标准设置为1dB和-1dB，同时进行多次判断才能得出节点结论，即α的取值为3-7。

一般而言，男声发声的基础频率较低，谐振波形的时间周期较长，可调整x(步进为5)和α(步进为1)以个位数的适当增加；如果是女声，女声发声的基础频率较低，谐振波形的时间周期较短，可调整x(步进为5)和α(步进为1)以个位数的适当减少；童声接近女声，方法类似。其中，若是男女童声均采用同一α取值时，本发明将α为5作为最优的。

进一步优选，构建所述同步时间戳后还包括识别音频中是否时长超过5s的底噪或静音区，若存在，在文字中针对所述超过5s的静音区的对应位置进行留白或者标记。

在视频编辑的过程中，音频的缺失并不表示信息的归零。有些时候有画面的介入，伴随一些非常轻微的环境声或者是静音，后期人员再进行配音处理，也就是日常见到的音配画情境。那么在这种情况下，静音的部分就变得不再可有可无。进而通过识别出超长的底噪或静音区，进而在文字中进行相应的留白或者标记，可以警示编辑者，文字空缺的灰色区域，是同期声的静音区域或噪声区域，是可能有视频内容的，需要同步观察和剪辑。

进一步优选，节点识别标准A中，满足

的连续α个区间中的第一个区间内存在底噪或静音区的进入时刻；

节点识别标准E中，满足

的连续α个区间中第一个区间内存在音节终止时刻。

均选择第一个区间可以提高最终结果的准确率，降低选择不同区间而导致的偏差。

进一步优选，aac格式的音频文件的采样频率为48kHz或44.1kHz时，x的取值为90。

通过研究发现，aac格式的音频文件的采样频率为48kHz或44.1kHz时，若x的取值为90，每个区间的时长大概为2ms，按照一个正常人声带的发声则可以取到3个左右的谐振周期，而通过实验证明，3个左右的谐振周期其结果的准确率高，能够更加精确地确定时间戳点位。

进一步优选，依据文字剪辑操作同步进行音频剪辑时，每个文字对应的音频剪辑范围为：与文字对应的音节的起始时刻至音节的底噪或静音区的中间位置。

其中，选择剪辑音节的起始时刻至底噪或静音区的中间位置，是为了留有空间进行修整，例如删除某个音节后，留有一段静音区，可以采用幅度调整函数和淡入淡出函数进行修饰，使剪切或删除的位置过渡自然，贴近自然语义逻辑和文字语感环境。应当说明，若选择剪辑音节的起始时刻至底噪或静音区的中间位置，则将中间位置的标记编号选择底噪或静音区起始或终点处的标记编号。

第二方面，本发明还提供一种采用上述剪辑方法的剪辑系统，包括解码模块、音频文字转换模块、同步时间戳构建模块、文字剪辑模块、音视频剪辑模块、音视频编码模块；

其中，所述音频文字转换模块、音视频剪辑模块、同步时间戳构建模块均与所述解码模块连接，所述同步时间戳构建模块、文字剪辑模块均与所述音频文字转换模块连接，所述音视频剪辑模块与所述同步时间戳构建模块、文字剪辑模块、音视频编码模块连接；

所述解码模块，用于解码视频文件并进行音视频分离得到画面帧数据、音频帧数据以及画面帧和音频帧的同步表；

所述音频文字转换模块，用于将音频翻译为文字；

所述同步时间戳构建模块，用于构建音频中文字与语音的同步时间戳；

所述文字剪辑模块，用于依据剪辑窗口内的剪辑操作对文字进行剪辑；

所述音视频剪辑模块，用于依据所述画面帧和音频帧的同步表，所述同步时间戳同步剪辑画面帧数据、音频帧数据；或者是依据在剪辑窗口内的剪辑操作对音频进行剪辑；

所述音视频编码模块，用于将剪辑后的画面帧数据、音频帧数据封装导出。

有益效果

与现有预测技术相比，本发明的优点有：

1、本发明采用上述方法，可以实现视频中画面、同期声、文字的同步剪辑，依托文字稿直接剪辑伴音音频和画面，将音画素材的时间线剪辑转换为空间的目测直接剪辑，极大地提高了剪辑效率，依托画面帧和音频帧的同步表、文字与音频中音节的同步时间戳，能够实现画面帧、音频、文字三者的同步定位，进而实现剪辑对应的文字界面同步剪辑掉同期声和相应画面的目的，相较于人工监听、监看，其准确率更高。

2、由于建立了精确的时间戳，传统视频编辑人员也可以同期声单个音节或者以音节为单位的词语、句子、段落为单位，在音频区进行监听的同时直接进行剪辑，剪辑完成对应的文字稿件和视频素材，然后同步导出音视频和文字成稿，同样极大的提高剪辑效率。

3、本发明基于人耳对声音的响度判断与音量幅度之间是呈对数变化的以及基于变化趋势的分析会提高识别结果的效率和准确度，故选用对数计算出的电平参数和电平变化参数作为节点识别参数，可以更加快速和准确地识别出音节的起始、终止时刻，进而建立精准的文字与语音的同步时间戳，时间戳的精度为ms级，为同步剪辑提供基础。

4、本发明将电平变化参数的参数标准设置为1dB和-1dB，是充分考虑门限定义的高低要求而得出的，其使得得出的节点结论更加准确。

附图说明

图1是本发明提供的传统画音同步剪辑窗口；

图2是本发明一种视频剪辑方法的流程示意图；

图3是本发明提供的画面帧数据与音频帧数据对应关系的示意图；

图4是本发明提供的构建文字与音频中音节的同步时间戳的流程示意图；

图5是本发明提供的音频波形离散采样点的示意图；

图6是本发明提供的音频波的波形图，其中(a)图显示为一个汉子音节对应的音频波，(b)图为(a)图中间白色部分的放大图；

图7是本发明提供的音频波上的节点标记的示意图。

具体实施方式

下面将结合实施例对本发明做进一步的说明。

本发明提供的一种视频剪辑方法和剪辑系统，主要是应用于视频剪辑。一般视频文件格式有mp4，mts。据统计，使用mp4格式的情况占所有采访的60％，使用mts格式的情况大约为35％，其余5％为其它视频格式。例如记者外出采样，在摄像机里会形成一个视频文件，后缀名可能是.mp4，.mts等，记者会把这个视频文件拷贝到编辑电脑，将视频文件导入剪辑系统，进行后台视频伴音解析、语音中文翻译和同步时间戳建立工作，进而建立文字、视频和伴音的同步剪辑窗口。

如图2所示，本发明提供一种视频剪辑方法，包括如下步骤：

步骤1：解码视频文件并进行音视频分离得到画面帧数据、音频帧数据以及画面帧和音频帧的同步表。

其中，解码视频文件的过程为先拆解帧头，再通过通用分离器分离音视频，以及通过H264通用解码器解码得到画面帧数据，同时通过AAC通用解码器解码得到音频帧数据。且基于视频的画面帧播放和音频帧播放有着严格的同步机制，如图3所示，只要严格记录并抽取和还原它们之间的同步信号，就能很好的保证音画之间的同步，即通过分离音视频则可以得到画面帧和音频帧的同步表，如上表1所示，画面帧和音频帧的同步表包括每个音频帧与音频时长、画面帧以及视频时长的对应关系。

其中，以mp4格式的视频文件为例，视频的播放时间跟帧频有关，例如，H264编码fps＝25.00，计算出来的时常为40ms，这就是专业视频工作人员所说的40ms一帧的视频画面数据。而音频的播放时间也与帧频有关，若采用频率为48kHz的AAC格式的伴音音频，则每一帧的播放时间为21.33ms。由此可知，每一音频帧与每一画面帧的播放时间不同，即不是每个音频帧均会对应一个视频的画面帧。而帧对视频中画面帧与音频帧的播放规律如下：

首先视频第一画面帧和音频的第一帧同步播放，但是由于声卡每次播一个采样点，而不是一帧。视频的播放点位一般跟随音频，插入画面的时间看音频的播放情况而定，一般是画面先出一帧，后续的画面帧是根据音频帧和视频帧的播出时间比较，四舍五入，决定画面帧落入哪一个音频帧位。例如第一帧画面对应第一音频帧中第一个采样点，第二帧画面与第一画面相距40ms，此时，从第一音频帧中第一采样点的时间相隔40ms时，距离最近的音频帧为第三音频帧的第一个采样点，则将第二帧画面插入在第三个音频帧的第一采样点的对应位置。其中，20ms左右的画面延迟人眼是发现不了的。

因此，若采用频率为48kHz的AAC格式的伴音音频，则当音频的21.33ms一次回调时，就可以播放第二帧视频画面；第一次回调(42.66ms)---不播视频画面；第一次回调(63.99ms)---播(80ms)视频画面；第一次回调(85.32ms)---不播视频画面；第一次回调(106.65ms)---播(120ms)视频画面；依此类推，可以得到画面帧以及视频时长的对应关系。

步骤2：采用AI技术将音频数据同步翻译为文字并显示。

步骤3：获取音频中每个音节的起始时刻、终止时刻以及底噪或静音区，并构建文字与音频中音节的同步时间戳。

其中，构建文字与音频中音节的同步时间戳如上表2所示。其中同步时间戳包括每个文字与对应音节在起始时刻、终止时刻、底噪或静音区的标记编号。

b：在剪辑窗口剪辑音频时，获取音频剪辑范围，再依据所述同步时间戳获取文字剪辑范围，以及依据所述画面帧和音频帧的同步表判断所述音频剪辑范围内是否存在对应的画面帧，若存在，所述音频剪辑范围内对应的画面帧为待剪辑的画面帧。

其中，剪辑操作类型包括剪切、复制、粘贴和删除。本实施例中将以在剪辑窗口剪辑文字，再自动同步剪辑画面帧数据和音频帧数据为例进行说明。剪辑窗口内可以显示翻译后的文字或者是同期声音频波形。

在文字窗口双击文字部分，可按人工智能识别的基本语义选中单句或词组，同步选中对应的音频。如需改变选择范围，再用鼠标扩大和缩小文字范围，同步关联到相应的音频以及画面帧。选择完成之后，再统一在文字稿上进行剪辑或编辑，这样更进一步，提升视频编辑的工作效率。

本实施例中优选，剪辑音频时，每个文字对应的音频剪辑范围为：音节的起始时刻至底噪或静音区的中间位置。即留有底噪或静音区，其目的是为了防止完全以音节的起始或终止时刻进行剪辑时导致接口过度不自然的情况，即接口过渡过紧或过松，底噪不一致而造成编辑后的音频听感不自然的问题。本发明优选留有一段底噪或静音区，是为了引用幅度调整函数和淡入淡出函数对语音边界进行适当修整。

其中所采用的幅度调整函数和淡入淡出函数在剪切和删除的位置，使其过渡自然，需尽量符合人的自然语义逻辑和文字语感环境。例如，将后面讲过的一句话插入前面的某一个自然段里，则需采样自然段里的音节之间的过渡时间和音节的幅度，然后计算该自然段的平均过渡时间和平均幅度，再计算目标句子的平均过渡时间和平均幅度，得到两者的比值，最后对插入的句子进行幅度调整和过渡间隙的淡入淡出调整。并且需注意到，尽量采用自然段中的底噪片段进行修饰，以适合语境，同时也不能完全抛弃原句子的底噪片段，在音节过渡的位置，需要保留部分原位置的底噪，采用淡入淡出函数进行卷积操作，以尽量实现过渡的平滑。

其他可行的实施例中，每个文字对应的音频剪辑范围为：音节的起始时刻至底噪或静音区的任意位置或者音节的起始时刻至同一音节的终止时刻。

步骤6：将剪辑后的画面帧数据、音频帧数据以及文字进行封装导出。

在音视频编辑工作完成以后，三个窗口的文字、音频和视频文件就是目标文件，它们之间是有严格同步机制的，需要将其导出。文字可直接导出为word文件或txt文件。根据系统后台表1和表2经过剪辑后的重新排布，最后严格还原同步机制，伴音可再次封装为.aac格式，视频也重新编码，恢复成视频帧的mp4格式，重新导出。还可以对视频稿件的进一步润色待生成目标视频稿后，在专业视频处理软件如Premiere、Final Cut Pro等中再做渲染处理。

下述将具体描述同步时间戳的建立过程。

一般在专业广播领域，音频采样频率采用48kHz，CD的采样频率为44.1kHz。

采样频率为48kHz时：

当前AAC一帧的播放时间是＝1024*(1000000/48000)＝21.33ms(单位为ms)。

采样频率为44.1kHz时：

当前AAC一帧的播放时间是＝1024*(1000000/44100)＝22.32ms(单位为ms)。

而人一秒钟可以说3到5个字。研究人员计算出汉语为母语的人的平均说话速率为每秒5.18个音节，即单个字的发音平均需时间为：1000/5.18ms＝193.05ms。

即在48kHz采样频率下，aac单字发音需要平均帧数为：

193.05/21.33帧＝9.05帧。

在44.1kHz采样频率下，aac单字发音需要平均帧数为：

193.05/22.32帧＝8.65帧。

而帧对mps格式的音频文件，在44.1kHz采样频率下，每帧播放时间固定为26ms，单字发音需要平均mp3帧数为：

193.05/26.122帧＝7.39帧。

在48kHz采样频率下，每帧时长为24.00ms，需要平均mp3帧数为：

193.05/24.00帧＝8.04帧。

由上可知，对于平均单个汉字发音而言，无论是aac格式，还是mp3格式，还是ac3格式，还是无论是9帧或是6帧，完全按照伴音帧的时间度量，还是无法统一个标准精确的对单个音节进行时间打点操作。因此在建立文字和伴音的时间同步机制时，需在更底层的界面上进行精细化分析。故本发明采用以下方法进行精细化分析来确定单个音节的起始、终止时刻，进而构建与文字的同步时间戳。

如图4所示，构建文字与音频中音节的同步时间戳的过程如下：

S1：将所述音频波进行区间划分；

其中，音频波如图5所示，音频波上存在离散的采样点，音频波的采样频率低于或等于48kHz，x的取值范围为50-150，音频波的采样频率为96kHz或88.2kHz，x的取值范围为100-300，音频波的采样频率为192kHz，x的取值范围为200-600。本实施例中以音频波的采样频率低于或等于48kHz，x的取值范围为50-150为例进行说明。本实施例中选用aac格式的音频文件且采样频率为48kHz或44.1kHz时，x的取值为90。如图6中的(a)图显示为一个汉子音节对应的音频波，其中该音节的时长约为200ms，(b)图为(a)图中间白色部分的放大图，其为汉子音节的开启部分的上升沿位置，音频波的波形图上90个点构成一个区间T_x ⁿ，区间T_x ⁿ中有近3至4次的波形周期起伏。

本实施例中优选x为90是基于采样频率为48kHz时，aac单字发音需要平均帧数为9.05帧，采样频率为44.1kHz时，aac单字发音需要平均帧数为8.65帧。例如采样频率为48kHz时，汉语单个字的发音平均采样点数为：

1024*9.05＝9267.2

如果每个区间包括90个采样点，则是将单个字的发音平均采样点数分为约100分，每区间对应的时间约为2ms，按照一个正常人声带的发声则可以取到3个左右的谐振周期，而通过实验证明，3个左右的谐振周期其结果的准确率高，能够更加精确地确定时间戳点位。

其他可行的实施例中，音频波的采样频率低于或等于48kHz，x取值可以是50-150中的任意一个，或者是音频波的采样频率为96kHz或88.2kHz，x的取值范围为100-300，音频波的采样频率为192kHz，x的取值范围为200-600，一般优先x取对应范围的中间点。这是基于为了更加精准地确定时间戳，则每个区间至少能够取到一个完整的谐振周期且要高于一个谐振周期，因为考虑到每个人发音频率有差异，需要留有一定的容错空间，因此必须高于一个谐振周期，例如每个区间多30个采样点来缓冲，但是每个区间提取的谐振周期也不能过多，过多则将造成数据选取不够精细，降低预测结果的可靠性。因此，本发明将音频波的采样频率低于或等于48kHz，x取值选为50-150的范围。按48kHz和44.1kHz的广播专业级采样频率，x的取值为50时，能提取到6个谐振周期，x的取值为150时，能提取到1.5个谐振周期。

S2：计算每个区间的平均相对电平值；

其中，区间的平均相对电平值计算公式如下：

X＝0000,0000,0000,0001

式中，

表示第n个区间的平均相对电平值，

分别表示第n个区间中第1、2、x个采样点的幅度的绝对值，X表示量化比特数为16位的预设的取样信号，n为正整数。

其中，上述实质为将模拟信号转换成数字信号，把输入信号量化成一个个离散的数据其中，每个区间对应一个平均相对电平值

步骤4：依据步骤3计算出的每个区间的平均相对电平值获取每个区间的节点识别参数；

其中，所述节点识别参数包括电平参数和电平变化参数：

式中，

表示第n个区间的电平参数，β_x ⁿ表示第n个区间的电平变化参数。以此类推，记录n取值后的

和

的状态表。

S4：依据每个区间的节点识别参数以及预设的节点识别标准获取音频中每个音节起始时刻、终止时刻以及底噪或静音区，并依次进行标记编号。

其中，一个音节的终止时刻至后一相邻音节的起始时刻为音节的底噪或静音区。由此可知，可以确定音节对应的时间节点，即音节的起始时刻、终止时刻以及底噪或静音区。

其中，预设的节点识别标准如下：

A：若连续α个区间的电平参数和电平变化参数均满足

则表示满足

的所述α个区间内存在底噪或静音区的起始时刻；

B：若区间的电平参数和电平变化参数满足

的所述区间内存在一个音节的起始时刻；

C：若连续α-2个区间的电平参数和电平变化参数均满足

则表示满足

的所述α-2个区间内存在音节的高潮处时刻；

D：若区间的电平参数和电平变化参数均满足

E：若连续α个区间的电平参数和电平变化参数均满足

则表示满足

的所述α个区间内存在音节终止时刻；

其中，3≤α≤7。本实施例中将α的取值设定为5。

S5：依据步骤1中的文字以及步骤5中标记编号构建文字与语音中音节的时刻同步表，得到文字与语音的同步时间戳。

其中，所述同步时间戳是所述同步表中每个文字与对应音节在起始时刻、终止时刻、底噪或静音区的标记编号。其中，依据每个单音节所对应的起始、结束时刻，可以确定每个单音节在语音中的位置，进而与文字可以构成时刻同步表，如上表2所示，从表格中可知，一个音节的终止时刻至后一相邻音节的起始时刻为音节的底噪或静音区，例如表2中“不忘初心方得”中的文字“不”对应在音节的起始时刻、终止时刻的标记编号为T0001、T0002，而“不”相邻的字“忘”应在音节的起始时刻、终止时刻的标记编号为T0003、T0004，即相邻的“不”、“忘”之间的底噪或静音区为T0002-T0003。

应当理解，时刻同步表的精度取决每个区间所选定的x大小。如图6所示，在音频波上可以标记出音节的节点标记，如：标记01、标记02、标记03、标记04等位置。其中，标记01至标记03为第一个音节，标记02至标记03之间为底噪声区，标记02至标记04为第二个音节。得到的时间戳即为：表1中文字中“不”与“起始时刻”(T0001对应标记01)，“终止时刻”(T0002对应标记03)，“底噪或静音区”(T0002-T0003对应标记03-标记02)。

进一步优选，本实施中构建同步时间戳之后还包括识别音频中是否时长超过5s的底噪或静音区，若存在，在文字中针对所述超过5s的静音区的对应位置进行留白或者标记，否则，正常显示文字。

具体的，是通过上述节点识别标准A来识别音频中的底噪或静音区的起始时刻，且连续5s以上并未出现音节，此时，在翻译的文字中予以标记或留白。其中，留白的长度是依据底噪或静音区的时长而定，底噪或静音区的时长越长，则留白的长度越长。

上述主要是应用于音配画中，即先出现画面且伴随一些非常轻微的环境声或者直接是静音。例如：

音配画：(由远及近，前门箭楼墙体慢慢转向附近茶店，慢镜头，12秒。1979年夏，北京前门箭楼西侧，汗流浃背的外地游客端起粗瓷蓝边大碗，咕咚咕咚喝下散发着茉莉清香的茶水，那股透心的滋润不亚于今天的冰镇雪碧。)

这段画面为伴随一些非常轻微的环境声或者直接是静音，在视频文件中这些画面是不能被剪辑掉的，而由伴音翻译成的文字若是无法体现该静音区，则容易导致编辑人员将此段画面剪辑掉。因此，本发明采用该方法对翻译的文字中进行留白或标记，以提示编辑人员此段可能有视频画面的，需要同步观察和剪辑。

具体实现过程中，若识别出超过5s的底噪或静音区，通过同步时间戳则可以确定该超过5s的底噪或静音区对应在文字中的位置，即哪些单字之间或者单字之前或之后。

基于采用上述剪辑方法，本发明还提供一种剪辑系统，包括解码模块、音频文字转换模块、同步时间戳构建模块、文字剪辑模块、音视频剪辑模块、音视频编码模块；

所述音频文字转换模块，用于采用AI技术将音频翻译为文字并显示在剪辑窗口中；

所述文字剪辑模块，用于依据文字窗口内的剪辑操作对文字进行剪辑；

所述音视频剪辑模块，用于依据所述画面帧和音频帧的同步表，所述同步时间戳同步剪辑画面帧数据、音频帧数据。

其中，解码模块、音频文字转换模块、同步时间戳构建模块、文字剪辑模块、音视频剪辑模块的具体实施过程请参照上述方法的描述。

“时间戳”建立的核心点在于，首先要建立音频和文本的严格同步机制。只有首先做到精准的时间同步，才有可能在完成文字剪辑时，同步处理音频内容。同时，只有将同步时间戳与画面帧和音频帧的同步表结合起来，才能构建画面帧、音频以及文字的严格同步机制。

通过本发明所述方法，可以极大地提高新闻工作者的剪辑效率。

需要强调的是，本发明所述的实例是说明性的，而不是限定性的，因此本发明不限于具体实施方式中所述的实例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，不脱离本发明宗旨和范围的，不论是修改还是替换，同样属于本发明的保护范围。

Claims

1.一种视频剪辑方法，其特征在于：包括如下步骤：

步骤2：将音频数据同步翻译为文字；

其中，所述同步时间戳包括每个文字与对应音节在起始时刻、终止时刻、底噪或静音区的标记编号；

2.根据权利要求1所述的方法，其特征在于：步骤3中所述构建文字与音频中音节的同步时间戳的过程如下：

S1：将所述音频波进行区间划分；

S2：计算每个区间的平均相对电平值；

其中，区间的平均相对电平值计算公式如下：

X＝0000,0000,0000,0001

式中，

表示第n个区间的平均相对电平值，

其中，所述节点识别参数包括电平参数和电平变化参数：

式中，

表示第n个区间的电平参数，

表示第n个区间的电平变化参数；

3.根据权利要求2所述的方法，其特征在于：所述预设的节点识别标准为：

A：若连续α个区间的电平参数和电平变化参数均满足

则表示满足

的所述α个区间内存在底噪或静音区的起始时刻；

B：若区间的电平参数和电平变化参数满足

的所述区间内存在一个音节的起始时刻；

C：若连续α-2个区间的电平参数和电平变化参数均满足

则表示满足

的所述α-2个区间内存在音节的高潮处时刻；

D：若区间的电平参数和电平变化参数均满足

E：若连续α个区间的电平参数和电平变化参数均满足

则表示满足

的所述α个区间内存在音节终止时刻；

其中，3≤α≤7。

4.根据权利要求3所述的方法，其特征在于：构建所述同步时间戳后还包括识别音频中是否时长超过5s的底噪或静音区，若存在，在文字中针对所述超过5s的底噪或静音区的对应位置进行留白或者标记。

5.根据权利要求3所述的方法，其特征在于：节点识别标准A中，满足

节点识别标准E中，满足

的连续α个区间中第一个区间内存在音节终止时刻。

6.根据权利要求2所述的方法，其特征在于，aac格式的音频文件的采样频率为48kHz或44.1kHz时，x的取值为90。

7.根据权利要求1所述的方法，其特征在于：依据文字剪辑操作同步进行音频剪辑时，每个文字对应的音频剪辑范围为：与文字对应的音节的起始时刻至音节的底噪或静音区的中间位置。

8.一种采用权利要求1-7任一项所述方法的剪辑系统，其特征在于：包括解码模块、音频文字转换模块、同步时间戳构建模块、文字剪辑模块、音视频剪辑模块、音视频编码模块；

所述音频文字转换模块，用于将音频翻译为文字；