CN107562737B

CN107562737B - 一种用于翻译的视频分割方法及其系统

Info

Publication number: CN107562737B
Application number: CN201710784509.3A
Authority: CN
Inventors: 郑丽华
Original assignee: Iol Wuhan Information Technology Co ltd
Current assignee: Iol Wuhan Information Technology Co ltd
Priority date: 2017-09-05
Filing date: 2017-09-05
Publication date: 2020-12-22
Anticipated expiration: 2037-09-05
Also published as: CN107562737A

Abstract

本发明首先提出了一种用于翻译的视频分割方法，用于将视频中需要翻译的片段和不需要翻译的片段分别分割出来。所述视频分割方法不同于已有的各种视频分割算法，它是通过检测视频中的声音流得到多个时间节点，通过所述时间节点对所述视频文件进行自动分割，从而得到多个视频子片段；本发明还公开了一种利用上述视频分割方法的视频翻译方法；采用该翻译方法，避免了将视频声音文件转化为文本文件的工作，同时可以跳过不需要翻译的视频部分，大大减少了视频翻译工作量，同时保证了翻译质量。

Description

一种用于翻译的视频分割方法及其系统

技术领域

本发明属于视频分割领域，特别是涉及一种用于视频翻译的视频分割方法。

背景技术

为了使得使用不同语言的观众都能欣赏不同国家的影视、电视剧，需要对影视、电视剧的视频语言进行翻译。这个过程重要包括：首先将影视、电视剧中的声音文件转换成文本(语音识别加人工校对，或者纯人工听录)，再将文本交给译员进行翻译，翻译完后交审校人员完成校对后，作为字幕嵌入到原有的影视、电视剧当中。

然而，上述过程中，将声音文件转化为文本文件的过程工作量巨大。为了避免这一过程，翻译人员还可以采用边观看视频边进行翻译的方法。但是，由此又带来另一个问题。视频中经常存在大量的无对白场景，这些场景没有声音流出现，原本不需要翻译，但是翻译人员却不得不等待其继续播放直到声音流或者对白再次出现，这个等待过程不可避免(翻译人员无法预知下一个声音流出现的时间点，因此也无法快进播放或者跳过)的浪费了翻译时间。

现有技术虽然存在多种视频分割算法，但是都无法满足上述翻译需要。

发明内容

鉴于上述问题，本发明首先提出了一种视频分割方法，用于将视频中需要翻译的片段和不需要翻译的片段分别分割出来。所述视频分割方法不同于已有的各种视频分割算法，它是通过检测视频中的声音流得到多个时间节点，通过所述时间节点对所述视频文件进行自动分割，从而得到多个视频子片段。

具体来说，本发明提供的视频分割算法如下：

一种视频分割方法，所述视频包含声音流，该方法包括如下步骤：

(1)导入待分割的视频文件；

(2)对所述待分割的视频文件进行自动分割，得到多个视频子片段；其特征在于：

所述步骤(2)进一步包括：通过检测所述声音流得到多个时间节点，通过所述时间节点对所述待分割的视频文件进行自动分割，得到所述多个视频子片段。

进一步的，本发明提出的视频分割方法中，对所述待翻译的视频文件进行自动分割，得到多个视频子片段，主要包括：

针对单个的影视视频，采用视频分割算法，识别出其中的片头部分、片尾部分并将其分割出来，从而将视频至少分成三部分：片头部分、片尾部分和除片头片尾之外的正文视频部分；

针对所述正文视频部分，识别其中的声音流，开始检测声音流的初始起始点、中间停顿点、中间起始点和结束点；

所述初始起始点是指该视频文件第一次检测到声音流的时间点；

所述中间停顿点是指所述视频文件在该点之后的第一预设时间段内存在播放画面，但是未检测到声音流；

所述中间起始点是指所述自前述中间停顿点之后，再次检测到声音流文件的点；

所述结束点是指该视频文件最后一次检测到声音流的时间点。

检测出所有初始起始点、中间停顿点、中间起始点和结束点之后，按照所述初始起始点、中间停顿点、中间起始点和结束点，将所述视频文件分割成多个视频子片段。

当然，如果是电视剧，其通常包含多集视频。在处理时，将每一集视频文件作为前述单个视频进行类似处理。

发明人注意到，现有技术虽然存在多种视频分割算法，然而，其对视频进行分割大多依据视频本身的属性，例如画面识别、场景识别、人物识别等，其分割后的视频在声音流上通常出现不完整的现象。然而，对视频翻译而言，其首先应当考虑声音流的完整性，因此，发明人创造性的提出了采用声音流文件进行视频分割；

另一方面，在视频文件中，存在大量的无对白场景。对于这些无对白场景，不存在需要翻译的声音流。因此，可以将其单独分离出来，在翻译时不需考虑。如果采用传统的视频分割算法，例如场景分割算法，这些无对白的场景将会和其他有声音流的场景一样，都被分割出来等待翻译，这样浪费了翻译人员的时间。

因此，本发明提出的前述视频分割算法，充分考虑了翻译工作本身的需要；将视频进行分割后得到的多个视频子片段中，很容易得出其是否是需要翻译的视频文件，从而避免了无对白场景视频的等待和翻译。

可以理解，本发明所述的声音流是指视频中出现的人物对白声音。通常情况下，视频中可能会出现多种声音，例如，作为人物角色的对白，作为环境背景渲染的背景音乐，还可能存在各种环境声音表现，例如鸟叫、风声、水流声等等。但是，作为翻译人员而言，只需要关注其中的人物对白声音段即可，因为其它类型的声音，例如，背景音乐、环境声音等，不需要进行翻译。

因此，本发明所述的识别其中的声音流，是指识别视频中的人物对白声音。

例如，根据前述得到初始起始点、中间停顿点、中间起始点和结束点的过程可知，从初始起始点到接下来的中间停顿点这段时间内，是有声音的对白场景场景，这一部分视频被分割出来之后，就是应当翻译的视频子文件；而从某个中间停顿点到接下来的中间起始点这段时间内，没有检测到声音流，虽然依旧有播放画面，但是这一部分视频被分割出来后，不需要翻译。

因此，基于上述视频分割算法，本发明还提出了一种视频翻译方法，其包含视频分割步骤，该视频分割步骤采用前述提出的视频分割方法，对待翻译的视频进行分割，得到得到多个视频子片段；选择所述多个视频子片段中需要翻译的视频子片段进行翻译。

其中，所述需要翻译的视频子片段，是指该视频子片段中包含需要翻译的声音。

可见，采用上述步骤进行视频翻译，避免了将视频声音文件转化为文本文件的工作，减少了视频翻译工作量。

本发明的有益效果

采用本发明的方法对视频进行分割，可以将视频中需要翻译的片段和不需要翻译的片段分别分割出来。其采用的基于声音流的视频分割方法，将视频分割成需要翻译的子片段和不需要翻译的子片段，避免了无对白场景的翻译和等待，提高了工作效率；此外，本发明提出的视频翻译方法基于上述视频分割算法，在翻译时不需要完成将声音文件转化为文本文件的过程，同时可以跳过不需要翻译的视频部分，大大较少了视频翻译工作量，同时保证了翻译质量。

附图说明

图1是本发明的视频分割方法结果示意图。

具体实施方式

对视频正文内容进行分割，现有技术也存在多种分割算法。然而，这些分割方法大多依据视频本身的属性，例如画面识别、场景识别、人物识别等，其分割结果大多将某一段场景连续的画面分割出来，而不考虑这些连续画面构成的场景是否存在声音流。这种分割方法不适用于翻译过程中。因为，某个连续场画面构成的场景，有可能部分存在对白，部分不存在对白；对于对不存在对白的画面，翻译人员只能等待。

而采用图1所示的方法，则可以避免上述现象。

在图1中，针对所述正文视频(1)部分，识别其中的声音流(2)，开始检测声音流的初始起始点(20)、中间停顿点(21)、中间起始点(22)和结束点(23)；

所述初始起始点(20)是指该视频文件第一次检测到声音流的时间点；通常，在正文视频(1)开始播放后，即可检测到该点；

可以理解，对于单个视频文件而言，所述初始起始点(20)只有一个；

所述中间停顿点(21)是指所述视频文件在该点之后的第一预设时间段内存在播放画面，但是未检测到声音流；

通常，正文视频中会存在多个对话场景，不同的对话场景之间，会存在较长的画面过渡，或者其他静默场景。在前一个对话结束后下一个对话开始之前的这段时间内，没有声音流。因此，本发明定义的中间停顿点(21)，也可以理解为某个场景对话结束时的时间点。

所述中间起始点(22)是指所述自前述中间停顿点(21)之后，再次检测到声音流文件的点。

如前所述，在前一个对话结束后，在一定时间段内没有检测到声音流。过了这段时间，就会继续下一个对话。下一个对话的起点就是本发明定义的中间起始点(22)。

可以理解，对于单个视频文件而言，所述中间停顿点(21)、中间起始点(22)可以有多个。在附图1中，相同的标记表示相同的特征，因此从附图1也可以看出，该视频文件可以检测到多个中间停顿点(21)，中间起始点(22)，尽管图中未一一标出。

所述结束点(23)是指该视频文件最后一次检测到声音流的时间点。可以理解，对于单个视频文件而言，所述结束点(23)也只有一个。

检测出所有初始起始点(20)、中间停顿点(21)、中间起始点(22)和结束点(23)之后，将所述视频文件分割成多个视频子片段。

参照附图1，采用本发明的分割方法，该视频可以被分为如下多个片段：

片段1：初始起始点(20)———中间停顿点(21)；

片段2：中间停顿点(21)———中间起始点(22)；

……

按照前述定义，其中片段1包含声音流，片段2不包括声音流，因此，翻译时只需要选择片段1进行翻译而直接跳过片段2。由于视频正文中存在大量的类似片段2，因此，可以大大提高翻译效率。

可见，采用本发明的分割方法，可以有效分割出视频中需要翻译的部分而跳过不需要翻译的部分。

Claims

1.一种用于翻译的视频分割方法，所述视频包含声音流，该方法包括如下步骤：

(1)导入待分割的视频文件；

(2)对所述待分割的视频文件进行自动分割，得到多个视频子片段；

其特征在于：

所述步骤(2)进一步包括：通过检测所述声音流得到多个时间节点，通过所述时间节点对所述待分割的视频文件进行自动分割，得到所述多个视频子片段；

其中，得到多个视频子片段，包括：采用视频分割算法，识别出其中的片头部分、片尾部分并将其分割出来，从而将视频至少分成三部分：片头部分、片尾部分和除片头片尾之外的正文视频部分；

其中，

所述中间停顿点是指所述视频文件的某个时间点，在该某个时间点之后的第一预设时间段内存在播放画面，但是未检测到声音流；

所述中间起始点是指自前述中间停顿点之后，再次检测到声音流文件的时间点；

所述结束点是指该视频文件最后一次检测到声音流的时间点；

其中，对于每一份单独的视频文件，所述初始起始点和结束点只有一个，所述中间停顿点、中间起始点至少有一个。

2.一种视频翻译方法，其包含视频分割步骤；其特征在于，所述视频分割步骤采用前述权利要求1所述的视频分割方法。

3.如权利要求2所述的视频翻译方法，其特征在于：通过所述视频分割步骤，得到多个视频子片段；选择所述多个视频子片段中需要翻译的视频子片段进行翻译。

4.如权利要求3所述的视频翻译方法，其特征在于：所述选择所述多个视频子片段中需要翻译的视频子片段进行翻译，其中，所述需要翻译的视频子片段，是指该视频子片段中包含需要翻译的声音。