CN113973229B

CN113973229B - 一种处理视频中口误的在线剪辑方法

Info

Publication number: CN113973229B
Application number: CN202110919101.9A
Authority: CN
Inventors: 王晖; 周清
Original assignee: SHANGHAI ZHUOYUE RUIXIN DIGITAL TECHNOLOGY CO LTD
Current assignee: SHANGHAI ZHUOYUE RUIXIN DIGITAL TECHNOLOGY CO LTD
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2023-12-29
Anticipated expiration: 2041-08-11
Also published as: CN113973229A

Abstract

本发明属于在线视频编辑领域，尤其是涉及一种处理视频中口误的在线剪辑方法。一种处理视频中口误的在线剪辑方法，其中包括步骤：将每段文字识别子文本文件与标准字幕子文件进行对比，若对比不匹配，则对语音子文件进行修改或删除后生成新音频流文件；根据被标记的语音子文件保留或删除对应的视频画面流子文件，生成新视频纯画面流文件；将新音频流文件和新视频纯画面流文件合并成新执行文件。通过将语音子文件和标准字幕子文件进行比较获得差异，根据不同差异进行不同的自动化剪辑，自动处理口误，无需人工参与，提升在线剪辑智能化程度。

Description

一种处理视频中口误的在线剪辑方法

技术领域

本发明属于在线视频编辑领域，尤其是涉及一种处理视频中口误的在线剪辑方法。

背景技术

目前视频剪辑中，对于口误的处理，基本上还是依托于线下人工剪辑，一般使用Adobe Premiere，After Effects等软件，这些软件都提供了根据音频段裁切视频段的功能对视频口误进行处理。在此过程中需要将视频从头到尾观看一遍，确定口误点进行处理，非常耗时。

同时市场上也有一些视频在线剪辑的平台，比如腾讯的腾讯云剪、美摄科技的云剪辑平台，这些平台的操作性比较简单，能快速对视频的图像层进行素材叠加，从而达到视频剪辑的要求，但功能上不支持口误处理，剪辑人员需要线下先对视频预先处理。所以我们需要设计一直能在线编辑处理口误的在线剪辑方法。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种处理视频中口误的在线剪辑方法，可以在线进行口误处理，过程中不需要视频剪辑人员再从头检测口误。

为实现上述目的，本发明提供了如下技术方案：

一种处理视频中口误的在线剪辑方法，包括以下步骤：

S1，解析被执行文件得到音频流文件和视频画面流文件；

S2，对所述音频流文件进行语音识别，根据预设分句特征参数对所述音频流文件进行语音分句，按时间顺序命名所有语音子文件，并对应将所述视频画面流文件进行分段并标记；

S3，得到每段所述语音子文件对应的文字识别子文本，将每段所述文字识别子文本文件与标准字幕子文件进行对比，若对比不匹配，则对所述语音子文件进行修改或删除后生成新音频流文件；

S4，根据被标记的所述语音子文件保留或删除对应的视频画面流子文件，生成新视频纯画面流文件；

S5，将所述新音频流文件和所述新视频纯画面流文件合并成新执行文件。

作为本技术方案的优选，所述S2中具体包括以下步骤；

S2.1，对所述音频流文件进行语音识别，获取所述音频流文件的声音停顿点，标记每个所述声音停顿点的停顿点时间信息；

S2.2，根据所述停顿点时间信息对所述音频流文件进行语音分句，将所述音频流文件划分成多个包含一句整句的所述语音子文件并按时间顺序对所有的所述语音子文件命名；

S2.3，获取所述语音子文件内声音频率变化信息，根据所述匹配句式模型获得所述语音子文件的句式类型信息；

S2.4，获取所以所述语音子文件的始末时间端点信息，根据所述始末时间端点信息对所述视频画面流文件分段生成多个所述视频画面流子文件并按时间顺序对所述视频画面流子文件命名。

作为本技术方案的优选，所述预设分段特征参数包括声音停顿时长、每个发音的音频数值。

作为本技术方案的优选，所述S3中具体包括以下步骤；

S3.1，对所述语音子文件进行语音识别得到所述文字识别子文本，并根据所述语音子文件的文件名对应命名；

S3.2，根据所述文字识别子文本调取对应的所述标准字幕子文件进行内容对比，若对比结果为完全相同，则生成所述新音频流文件并所述视频画面流文件在时间轴上合轨生成正确执行文件；若对比结果为不相同，则标记不匹配的所述语音子文件并删除后生成新音频流文件。

作为本技术方案的优选，所述标准字幕子文件的获取方法包括：

SA1，根据被执行文件信息从标准字幕文件库中匹配对应的标准字幕文件；

SA2，将所述标准字幕文件分割为多段所述标准字幕子文件并根据所述顺序命名每段所述标准字幕子文件。

作为本技术方案的优选，所述S3.2中当对比结果为不相同时，且不同率小于5%时：

获取所述所述文字识别子文本文件和所述标准字幕子文件的不同之处，抓取所述标准字幕子文件中的正确内容，将所述正确内容添加入所述文字识别子文本文件中对应的位置形成正确文字识别子文本。

作为本技术方案的优选，所述S3.2中当对比结果为不相同时，且不同率大于等于5%时：

获取所述标准字幕子文件中的正确句式类型信息，与所述句式类型信息进行对比，若判断结果为句式不同，则删除所述标准字幕子文件并标记所述标准字幕子文件的信息记录在后期编辑提示文件中。

作为本技术方案的优选，所述视频画面流子文件为根据所有的所述语音子文件的始末时间信息对应将所述视频画面流文件根据时间轴进行分割得到的子文件。

作为本技术方案的优选，根据时间顺序对所述视频画面流子文件进行命名。

作为本技术方案的优选，所述S4包括以下步骤：

S4.1，根据被标记的所述语音子文件对应删除所述视频画面流子文件；

S4.2，将剩余所有的所述视频画面流子文件命按名称顺序进行排序生产所述新视频纯画面流文件。

通过实施上述技术方案，本发明具有如下的优点：

本发明通过语音识别从被执行文件中获得语音子文件，通过将语音子文件和标准字幕子文件进行比较获得差异，根据不同差异进行不同的自动化剪辑，自动处理口误，无需人工参与，提升在线剪辑智能化程度。

附图说明

图1为本发明一种处理视频中口误的在线剪辑方法的流程图；

图2为本发明述S2中具体的流程图；

图3为本发明中S3的具体流程图；

图4为本发明中S3的判断逻辑图；

图5为本发明中标准字幕子文件的获取方法的流程图；

图6为本发明中S4的具体流程图。

具体实施方式

以下结合具体的实施例和实验数据对本发明做进一步的说明。应理解，本发明的实施例只用于说明本发明而非限制本发明，在不脱离本发明技术思想的情况下，根据本领域普通技术知识和惯用手段，做出的各种替换和变更，均应包括在本发明的范围内。

实施例

如图1-6所示，一种处理视频中口误的在线剪辑方法，包括以下步骤：

S1，解析被执行文件得到音频流文件和视频画面流文件；

S2，对所述音频流文件进行语音识别，根据预设分句特征参数对所述音频流文件进行语音分句，按时间顺序命名所有语音子文件，并对应将所述视频画面流文件进行分段并标记。

在实际操作时，将被执行文件（这里的所述被执行文件为包含音频和画面的原始视频文件）先被分解成音频流文件和视频画面流文件。接下来将音频流文件通过预设分句特征参数进行分句，将整段的视频细分为每段包含一个完整句子的语音子文件，获得语音子文件中的文本内容，生成文字识别子文本，并按时间顺序进行命名。

S3，得到每段所述语音子文件对应的文字识别子文本，将每段所述文字识别子文本文件与标准字幕子文件进行对比，若对比不匹配，则对所述语音子文件进行修改或删除后生成新音频流文件。

S4，根据被标记的所述语音子文件保留或删除对应的视频画面流子文件，生成新视频纯画面流文件。

本发明通过语音识别从被执行文件中获得语音子文件，通过将语音子文件和标准字幕子文件进行比较获得差异，根据不同差异进行不同的自动化剪辑，自动处理口误，无需人工参与，提升在线剪辑智能化。

所述S2中具体包括以下步骤；

S2.1，对所述音频流文件进行语音识别，获取所述音频流文件的声音停顿点，标记每个所述声音停顿点的停顿点时间信息。

一般在朗读文段时，在完成一句完整的句子后会有短暂停顿，在0.8秒至1.1秒之间。标点符号的停顿规律一般是：句号、问号、感叹号、省略号停顿略长于分号、破折号、连接号；分号、破折号、连接号的停顿时间又长于逗号、冒号；逗号、冒号的停顿时间又长于顿号、间隔号。另外，在作品上的段落之间，停顿的时间要比一般的句号时间长些。

S2.2，根据所述停顿点时间信息对所述音频流文件进行语音分句，将所述音频流文件划分成多个包含一句整句的所述语音子文件并按时间顺序对所有的所述语音子文件命名。

如“三场小组赛，进6球，失17球，让人吃惊。4月份还在绝境下逆转淘汰A国队，获得奥运会入场券的B国女足，那支让C市看台上老爷们痛哭流涕的铿锵玫瑰去哪了？”将通过语音识别后划分成包含内容为“三场小组赛，进6球，失17球，让人吃惊。”、“4月份还在绝境下逆转淘汰A国队，获得奥运会入场券的B国女足，那支让苏州看台上老爷们痛哭流涕的铿锵玫瑰去哪了？”的两个语音子文件，并根据时间信息按顺序命名成文件名为“语音子文件1”和“语音子文件2”的语音子文件。

S2.3，获取所述语音子文件内声音频率变化信息，根据所述匹配句式模型获得所述语音子文件的句式类型信息。

在说话演讲叙述时，在不同句式时演讲者会根据需要发出不同声调变化，在音频中则体现在整句话时间内的声音频率变化，根据实际的声音频率变化去匹配句式模型，获得语音子文件的句式类型信息。如陈述句的句式模型中声音频率变化形状类似于局有厚度的平面；反问句的句式模型中声音频率变化形状类似于具有初始厚度平面后连接趋势为斜向上带有厚度的鞋面；感叹句的句式模型中声音频率变化形状类似于具有明显向上凸出的几何体构造。

所述预设分段特征参数包括声音停顿时长、每个发音的音频数值。

所述S3中具体包括以下步骤；

所述标准字幕子文件的获取方法包括：

SA1，根据被执行文件信息从标准字幕文件库中匹配对应的标准字幕文件。如被执行文件的名称为“女足怎么了”，则从标准字幕文件库中匹配到文件名匹配的标准字幕文件。或者更优选的，提取被执行文件的作者信息以及上传时间信息，从从标准字幕文件库中匹配到在预设时间段内相同作者上传的标准字幕文件。

进一步的，所述S3.2中当对比结果为不相同时，且不同率小于5%时：此时可能发生的情况为口误，可能是发错字音或用错词

或者，在另一种情况下：

所述S3.2中当对比结果为不相同时，且不同率大于等于5%时：此时可能发生的情况为不同句式替换，但表达内容实质相同

获取所述标准字幕子文件中的正确句式类型信息，与所述句式类型信息进行对比，若判断结果为句式不同，则删除所述标准字幕子文件并标记所述标准字幕子文件的信息记录在后期编辑提示文件中。有句式错误或整句的错误情况下，删除对应的语句的音频和视频，但在后期错误提示中提示句子序号，以便操作人员重录该段以便修改正确后上传。

所述视频画面流子文件为根据所有的所述语音子文件的始末时间信息对应将所述视频画面流文件根据时间轴进行分割得到的子文件。根据时间顺序对所述视频画面流子文件进行命名。

所述S4包括以下步骤：

Claims

1.一种处理视频中口误的在线剪辑方法，其特征在于，包括以下步骤：

S1，解析被执行文件得到音频流文件和视频画面流文件；

S5，将所述新音频流文件和所述新视频纯画面流文件合并成新执行文件；

所述S2中具体包括以下步骤；

S2.3，获取所述语音子文件内声音频率变化信息，根据匹配句式模型获得所述语音子文件的句式类型信息；

S2.4，获取所以所述语音子文件的始末时间端点信息，根据所述始末时间端点信息对所述视频画面流文件分段生成多个所述视频画面流子文件并按时间顺序对所述视频画面流子文件命名；

所述预设分段特征参数包括声音停顿时长、每个发音的音频数值；

所述S3中具体包括以下步骤；

S3.2，根据所述文字识别子文本调取对应的所述标准字幕子文件进行内容对比，若对比结果为完全相同，则生成所述新音频流文件并所述视频画面流文件在时间轴上合轨生成正确执行文件；若对比结果为不相同，则标记不匹配的所述语音子文件并删除后生成新音频流文件；

所述标准字幕子文件的获取方法包括：

SA2，将所述标准字幕文件分割为多段所述标准字幕子文件并根据所述顺序命名每段所述标准字幕子文件；

所述S3.2中当对比结果为不相同时，且不同率小于5%时：

获取所述所述文字识别子文本文件和所述标准字幕子文件的不同之处，抓取所述标准字幕子文件中的正确内容，将所述正确内容添加入所述文字识别子文本文件中对应的位置形成正确文字识别子文本；

所述S3.2中当对比结果为不相同时，且不同率大于等于5%时：

2.根据权利要求1所述的一种处理视频中口误的在线剪辑方法，其特征在于，所述视频画面流子文件为根据所有的所述语音子文件的始末时间信息对应将所述视频画面流文件根据时间轴进行分割得到的子文件。

3.根据权利要求2所述的一种处理视频中口误的在线剪辑方法，其特征在于，根据时间顺序对所述视频画面流子文件进行命名。

4.根据权利要求3所述的一种处理视频中口误的在线剪辑方法，其特征在于，所述S4包括以下步骤：