CN109361958A

CN109361958A - 多语字幕制作方法、装置、介质及电子设备

Info

Publication number: CN109361958A
Application number: CN201811307845.XA
Authority: CN
Inventors: 侯清元
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-11-05
Filing date: 2018-11-05
Publication date: 2019-02-19

Abstract

本发明实施例提供了一种多语字幕制作方法、装置、介质及电子设备，该多语字幕制作方法包括：获取目标视频的各帧图像，并确定所述图像的目标区域；逐帧对比识别所述图像的目标区域，判断所述目标区域内是否有第一字幕，并确定所述第一字幕的出现时刻及消失时刻；在所述目标区域内有第一字幕出现时，获取所述第一字幕；对基于第一语言的所述第一字幕进行翻译，得到基于第二语言的第二字幕；根据所述第二字幕、所述出现时刻及消失时刻，生成所述第二字幕的字幕文件。本发明实施例的技术方案可以提高字幕制作的效率。

Description

多语字幕制作方法、装置、介质及电子设备

技术领域

本发明涉及多媒体技术领域，具体而言，涉及一种多语字幕制作方法、装置、介质及电子设备。

背景技术

随着多媒体技术的发展，多媒体信息传播的速度越来越快，传播的范围也越来越广。

在电影、电视剧等视频信息播放时，字幕可以帮助观众更好的理解视频的内容，并且对于一些听力障碍者，字幕更为重要，因此，字幕已经成为视频中不可缺少的一部分。但是，对于非本国的视频而言，无论是靠声音还是字幕都难以理解视频内容，而对这些视频重新配音，难度太大，因此，重新制作字幕成为了解决这一问题的主要手段。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明实施例的目的在于提供一种多语字幕制作方法、装置、介质及电子设备，进而至少在一定程度上克服字幕制作效率低的问题。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明实施例的第一方面，提供了一种多语字幕制作方法，包括：

获取目标视频的各帧图像，并确定所述图像的目标区域；

逐帧对比识别所述图像的目标区域，判断所述目标区域内是否有第一字幕，并确定所述第一字幕的出现时刻及消失时刻；

在所述目标区域内有第一字幕出现时，获取所述第一字幕；

对基于第一语言的所述第一字幕进行翻译，得到基于第二语言的第二字幕；

根据所述第二字幕、所述出现时刻及消失时刻，生成所述第二字幕的字幕文件。

在本发明的一种示例性实施例中，所述判断所述目标区域内是否有第一字幕，并确定所述第一字幕的出现时刻及消失时刻，包括；

依次对间隔预设数量相邻帧图像的所述目标区域进行对比识别，判断所述目标区域内是否有第一字幕出现；

在所述目标区域内有第一字幕出现时，记录出现所述第一字幕的图像在所述目标视频对应的时刻为所述第一字幕的出现时刻；

将出现第一字幕的图像依次与其之后的图像进行对比，判断所述第一字幕是否消失；

在所述第一字幕消失时，记录所述第一字幕消失的图像在所述目标视频对应的时刻为所述第一字幕的消失时刻。

在本发明的一种示例性实施例中，所述在所述目标区域内有第一字幕出现时，获取所述第一字幕，包括：

在所述目标区域内有第一字幕出现时，对出现所述第一字幕的图像的目标区域进行图像识别，获取所述第一字幕。

在本发明的一种示例性实施例中，所述对基于第一语言的所述第一字幕进行翻译，得到基于第二语言的第二字幕，包括：

对出现所述第一字幕的图像的目标区域进行文字识别获取第一字幕文本；

对基于第一语言的所述第一字幕文本进行翻译，获取基于第二语言的第三字幕。

根据所述目标视频，获取所述第一字幕的出现时刻及消失时刻之间的音频信息；

对基于第一语言的所述音频信息进行语音识别，以得到基于第二语言的第四字幕。

将所述第三字幕与所述第四进行对比，根据对比结果确定所述第二字幕。

在本发明的一种示例性实施例中，所述确定所述各帧图像的目标区域，包括：

对所述图像进行二值化处理，得到所述图像对应的二值图像；

对所述二值图像进行边缘检测，获取字符轮廓信息；

根据所述字符轮廓信息在所述图像中所在的位置确定所述目标区域。

根据本发明实施例的第二方面，提供了一种多语字幕制作装置，包括：

目标区域确定单元，用于获取目标视频的各帧图像，并确定所述各帧图像的目标区域；

时刻确定单元，用于逐帧对比识别所述图像的目标区域，判断所述目标区域内是否有第一字幕，并确定所述第一字幕的出现时刻及消失时刻；

字幕获取单元，用于在所述目标区域内有第一字幕出现时，获取所述第一字幕；

翻译单元，用于对基于第一语言的所述第一字幕进行翻译，得到基于第二语言的第二字幕；

字幕生成单元，用于根据所述第二字幕、所述出现时刻及消失时刻，生成所述第二字幕的字幕文件。

根据本发明实施例的第三方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述实施例中第一方面所述的多语字幕制作方法。

根据本发明实施例的第四方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中第一方面所述的多语字幕制作方法。

本发明实施例提供的技术方案可以包括以下有益效果：

在本发明的一些实施例所提供的技术方案中，一方面，通过获取目标视频的各帧图像，确定各帧图像的目标区域，然后逐帧对比识别所述图像的目标区域，判断所述目标区域是否有第一字幕出现，进而可以确定第一字幕的出现时刻及消失时刻，而无需反复手动调整视频进度来确定字幕的出现时刻和消失时刻，节省了大量的时间，提高了效率；另一方面，在所述目标区域内有第一字幕出现时，获取第一字幕，对基于第一语言的第一字幕进行翻译，可以得到基于第二语言的第二字幕，然后根据所述第二字幕、所述出现时刻及消失时刻生成第二字幕的字幕文件，可以避免为了获取第一字幕而需反复观看视频所花费的时间，提高了第一字幕获取的效率；并且，在获取到第一字幕后能够对第一字幕进行翻译，从而可以避免人工翻译对人员的要求，提高翻译的准确率；再一方面，针对不同语言要求的字幕，可以快速灵活地制作字幕文件，提高字幕制作的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出了根据本发明的实施例的多语字幕制作方法的流程图；

图2示意性示出了根据本发明的另一实施例的多语字幕制作方法的流程图；

图3示意性示出了根据本发明的另一实施例的多语字幕制作方法的流程图；

图4示意性示出了根据本发明的另一实施例的多语字幕制作方法的流程图；

图5示意性示出了根据本发明的另一实施例的多语字幕制作方法的流程图；

图6示意性示出了根据本发明的一个实施例的目标视频的图像示意图；

图7示意性示出了根据本发明的一个实施例的目标视频的图像示意图；

图8示意性示出了根据本发明的一个实施例的目标视频的图像示意图；

图9示意性示出了根据本发明的实施例的多语字幕制作装置的结构示意图；

图10示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

目前，字幕制作主要通过翻译人员反复观看视频，将字幕内容翻译成目标语言的字幕文本，再将翻译好的字幕文本交给时间轴制作人员，时间轴制作人员也需要反复调整视频进度确定字幕的出现时刻及消失时刻，进而在翻译好的字幕文本中添加时间，生成字幕文件。这种方法不但费时费力并且时间的确定并不精确。

基于此，本发明实施方式中首先提出一种多语字幕制作方法。如图1所示，该多语字幕制作方法包括步骤S110、S120、S130、S140、S150。其中：

步骤S110.获取目标视频的各帧图像，并确定所述图像的目标区域；

步骤S120.逐帧对比识别所述图像的目标区域，判断所述目标区域内是否有第一字幕，并确定所述第一字幕的出现时刻及消失时刻；

步骤S130.在所述目标区域内有第一字幕出现时，获取所述第一字幕；

步骤S140.对基于第一语言的所述第一字幕进行翻译，得到基于第二语言的第二字幕；

步骤S150.根据所述第二字幕、所述出现时刻及消失时刻，生成所述第二字幕的字幕文件。

根据本示例性实施方式的多语字幕制作方法，一方面，通过获取目标视频的各帧图像，确定各帧图像的目标区域，然后逐帧对比识别所述图像的目标区域，判断所述目标区域是否有第一字幕出现，进而可以确定第一字幕的出现时刻及消失时刻，而无需反复手动调整视频进度来确定字幕的出现时刻和消失时刻，节省了大量的时间，提高了效率；并且，确定的出现时刻及消失时刻更加精确，提高了精确度；另一方面，在所述目标区域内有第一字幕出现时，获取第一字幕，对基于第一语言的第一字幕进行翻译，可以得到基于第二语言的第二字幕，然后根据所述第二字幕、所述出现时刻及消失时刻生成第二字幕的字幕文件，可以避免为了获取第一字幕而需反复观看视频所花费的时间，提高了第一字幕获取的效率；并且，在获取到第一字幕后能够对第一字幕进行翻译，从而可以避免人工翻译对人员的要求，提高翻译的准确率；再一方面，针对不同语言要求的字幕，可以快速灵活地制作字幕文件，提高字幕制作的效率。

下面将结合图1至图8对本示例性实施方式的多语字幕制作方法的各个步骤进行更加详细的说明。

如图1所示，在步骤S110中，获取目标视频的各帧图像，并确定所述图像的目标区域。

本示例性实施方式中，目标视频可以包括具有声音和画面的数据，或者在视觉上动态变化的图像，例如，动画片、电影作品、电视作品等等；也可以包括能够在多媒体设备上播放的文件，例如，AVI文件、MPEG4文件等等；本示例性实施方式对此不做特殊限制。

目标视频可以转化为图像。举例而言，通过图像处理工具可以获取目标视频的每帧图像，例如，OpenCV、MATLAB等等。将目标视频转化成一帧帧的图像后，可以确定图像中的目标区域。目标区域中可以包含目标视频播放时的字幕。通过观看视频，很容易可以确定字幕出现的区域，因此，通过人工标记可以确定目标区域。或者，通过图像识别也可以确定图像中字幕出现的区域，例如，通过OCR(Optical Character Recognition，光学字符识别)技术可以识别到图像中的字符，进而可以确定字符所在的区域为字幕出现的区域。当然，也可以通过其他方式确定目标区域，例如，通过各帧图像的对比，可以确定没有字幕的图像和有字幕的图像，如图6和图7所示，进而可以确定有字幕出现的区域为目标区域，图7中，字幕出现在图像的下方，那么各帧图像的目标区域可以确定为图中A所示的区域。

参考图2，确定各帧图像的目标区域还可以包括步骤S201、步骤S202以及步骤S203。

在步骤S201中，对所述图像进行二值化处理，得到所述图像对应的二值图像。

本示例性实施例中，对所述图像进行二值化处理可以将图像转化成只有两种颜色值的二值图像，处理二值图像的算法复杂度会大大降低，更便于检测到字幕出现的位置。通过二值化阈值，可以将图像的颜色值进行二值化，从而得到对应的二值图像。二值图像的颜色值可以为0，或者也可以为255，例如，可以将颜色值大于阈值的像素设置为255，将颜色值小于阈值的像素设置为0。并且，对于目标视频的各帧图像可以采用同一阈值进行二值化，也可以对不同的图像确定不同的二值化阈值。此外，二值化阈值的确定可以通过计算图像的平均颜色值，将该平均颜色值作为阈值。当然，也可以通过其他方法确定二值化阈值，例如，人工指定一阈值、最小类内方差法确定阈值等等，本示例实施方式对此不做特殊限定。

在步骤S202中，对所述二值图像进行边缘检测，获取字符轮廓信息。

本示例性实施方式中，得到所述图像的二值图像后，可以对该二值图像进行边缘检测，进而提取到字符轮廓信息，即字幕轮廓信息。其中，对二值图像进行边缘检测可以通过各种算法来进行，例如，Roberts算法、Canny算法等等。

在步骤S203中，根据所述字符轮廓信息在所述图像中所在的位置确定所述目标区域。

本示例性实施方式中，获取到字符轮廓信息后，可以根据字符轮廓信息在所述图像中所在的位置确定所述图像的目标区域。其中，根据边缘检测算法获取到的字符轮廓信息出现的位置，可以确定目标区域，例如，图像的下方、图像的上方等等。并且，确定字符轮廓信息出现的位置时，还可以对该位置进行标记，或者框选等操作，便于对该位置进行处理。

继续参考图1，在步骤S120中，逐帧对比识别所述图像的目标区域，判断所述目标区域内是否有第一字幕，并确定所述第一字幕的出现时刻及消失时刻。

本示例性实施方式中，对目标视频的各帧图像可以进行逐帧对比，识别各帧图像的目标区域，判断目标区域内是否有第一字幕出现或者消失，在第一字幕出现时，确定第一字幕的出现时刻，并且在第一字幕消失时，确定第一字幕的消失时刻。通过对各帧图像进行逐帧对比识别，可以确定目标视频中每一条第一字幕的出现时刻和消失时刻。因此，可以对已确定的多个出现时刻及消失时刻进行标记，便于将出现时刻及消失时刻与相应的字幕内容进行关联，例如，可以将第一个出现时刻及消失时刻记录为：“1，0:03:11.50，0:03:13.98”，其中，0:03:11.50表示出现时刻，0:03:13.98为消失时刻，那么第二个出现时刻及消失时刻可以记录为：“2，0:05:11.41，0:05:25.98”。

判断所述目标区域内是否有第一字幕，并确定第一字幕的出现时刻及消失时刻还可以包括步骤S301至步骤S304。参考图3所示，其中：

步骤S301中，依次对预设数量相邻帧图像的所述目标区域进行对比识别，判断所述目标区域内是否有第一字幕出现。

本示例实施方式中，可以依次对间隔预设数量相邻帧图像的目标区域进行对比识别，从而判断目标区域内是否有第一字幕出现。其中，预设数量可以包括5帧、10帧、15帧等等，也可以包括其他数量，例如，0帧、25帧、35帧等等，本示例性实施方式对此不做特殊限定。举例而言，可以在目标视频的各帧图像中，两两进行对比识别，从而判断目标区域是否有第一字幕出现。由于目标视频中每秒种可以包含24帧以上的图像，而字幕在图像中停留的时间可能远大于1秒，所以也可以依次对间隔预设数量相邻的图像进行对比识别。举例而言，若间隔10帧相邻的图像，可以是第1帧和第12帧进行对比识别，第12帧与第23帧进行对比识别，以此类推，同样的，间隔20帧相邻的图像可以是第1帧和第22帧对比识别等等，本示例实施方式对此不做特殊限定。

步骤S302中，在所述目标区域内有第一字幕出现时，记录出现所述第一字幕的图像在所述目标视频对应的时刻为所述第一字幕的出现时刻。

在本示例性实施方式中，在识别到目标区域内有第一字幕出现时，可以记录出现第一字幕的图像在目标视频中对应的时刻为第一字幕的出现时刻。其中，目标视频在播放时，可以通过每秒连续变化多帧图像来达到视觉上动态的效果，目标视频的各帧图像可以随着时间的推移进行切换。因此目标视频的每帧图像都可以对应一播放时刻，在识别到出现第一字幕的图像时，就可以获取到该图像在目标视频中对应的时刻，然后将该时刻作为第一字幕的出现时刻进行记录。

步骤S303中，将出现第一字幕的图像依次与其之后的图像进行对比，判断所述第一字幕是否消失。

本示例性实施方式中，识别到出现第一字幕的图像后，可以将该图像依次与其之后的图像进行对比，从而判断第一字幕是否消失。其中，出现第一字幕的图像可以依次与其之后的图像进行对比，例如，设出现第一字幕的图像是第35帧图像，那么可以将第35帧图像依次与第36帧、第37帧、第38帧等等，进行对比判断第35帧图像上的第一字幕是否消失。此外，若第一字幕只在一帧图像上出现，人眼可能无法识别，因而同一条第一字幕可能会连续保持在多帧图像上出现，以便于人眼进行识别，因此，第一字幕的图像也可以与其之后间隔预设数量帧的图像依次进行对比，例如，与其之后间隔25帧的图像依次进行对比，即，若出现第一字幕的图像是第50帧图像，那么可以将第50帧图像依次与第76帧、第77帧、第78帧等等图像进行对比。当然，也可以与其之后的每间隔预设数量帧图像进行对比，例如，每间隔10帧、15帧等等。例如，若出现第一字幕的图像是第50帧图像，那么可以依次与其之后每间隔15帧进行对比，也就是依次与第66帧、第82帧等等。本示例实施方式对此不做特殊限定。

步骤S304中，在所述第一字幕消失时，记录所述第一字幕消失的图像在所述目标视频对应的时刻为所述第一字幕的消失时刻。

本示例性实施方式中，在确定所述第一字幕消失时，可以将第一字幕消失的图像在目标视频中对应的时刻作为第一字幕的消失时刻。其中：通过出现第一字幕的图像之后与其之后的图像进行对比，可以检索到目标区域中没有该第一字幕的图像，该图像可以作为第一字幕消失的图像。并且，可以将该第一字幕消失的图像在目标视频中对应的时刻作为该第一字幕的消失时刻。

在确定了第一字幕的出现时刻及消失时刻后，可以将该出现时刻及消失时刻进行记录。其中，每个出现时刻可以对应一个消失时刻，并且在目标视频中包含多条字幕时，还可以对每条第一字幕的出现时刻及消失时刻进行编号，以便于进行区分。例如第一条第一字幕的出现时刻及消失时刻可以记录为“1，0:04:10.40，0:05:11.11”。

参考图1，步骤S130中，在所述目标区域内有第一字幕出现时，获取所述第一字幕。

本示例性实施方式中，若确定所述目标区域内有第一字幕出现，则可以获取第一字幕。其中，在目标区域有第一字幕时，如图7所示，目标区域A中有第一字幕出现，可以利用图像识别对目标区域进行识别，从而提取到目标区域中的文字内容。获取目标区域中的文字内容可以利用图像识别技术，例如OCR技术等，也可以利用其他方法，例如，神经网络模型等。此外，获取到第一字幕后，可以对第一字幕进行记录或者保存，并且在目标视频中包含多个第一字幕时，可以对每条第一字幕添加标记，以便于进行区分。该标记可以是根据第一字幕的获取顺序进行编号生成的序号，例如，获取的第一条第一字幕为：“我们是一家人”，那么该条第一字幕可以记录为“1，我们是一家人”，当然，该标记也可以以其他方式生成，例如，根据获取到第一字幕的图像的序号生成标记，即，获取到第一字幕的图像为第30帧图像，那么该标记可以是“30”，本示例实施方式对此不做特殊限定。

优选地，在所述目标区域内有第一字幕出现时，对出现所述第一字幕的图像的目标区域进行图像识别，获取所述第一字幕。

在步骤S140中，对基于第一语言的所述第一字幕进行翻译，得到基于第二语言的第二字幕。

本示例实施方式中，获取到上述第一字幕后，可以对基于第一语言的第一字幕进行翻译，进而得到基于第二语言的第二字幕。其中，第一字幕所用的第一语言可以包括任何语种，例如，英语、日语等，本示例实施方式对此不做限定。第二语言可以包括翻译的目标语言，例如，汉语(中文)、韩语、藏语等等，本示例实施方式对此不做限定。对第一字幕进行翻译可以通过人工翻译，也可以通过其他方式，例如，谷歌翻译、翻译软件等等。对第一字幕进行翻译后可以得到基于第二语言的第二字幕。

进一步地，对基于第一语言的所述第一字幕进行翻译，得到基于第二语言的第二字幕还可以包括步骤S401以及S402。参考图4所示，其中：

步骤S401.对出现所述第一字幕的图像的目标区域进行文字识别获取第一字幕文本；

步骤S402.对基于第一语言的所述第一字幕文本进行翻译，获取基于第二语言的第三字幕。

本示例性实施方式中，可以对出现第一字幕的图像进行文字识别，从而获取第一字幕文本，对该第一字幕文本进行翻译，得到基于第二语言的第三字幕。其中，对出现第一字幕的图像进行文字识别可以通过文字识别工具，例如，OCRMaker Online等，也可以通过其他方式，例如，在线文字识别、图片文字转换等等。在对第一字幕的图像进行识别之后，可以将图像中的第一字幕转化成可编辑的文本，并且可以以文本的格式进行保存，例如，TXT格式、DOC格式等等。然后，对该文本进行翻译，可以采用翻译工具进行翻译，也可以采用其他方式，例如，人工翻译、在线翻译等等。将第一语言的第一字幕文本可以翻译成第二语言，以得到第二语言的第三字幕，例如，第一字幕文本为英文，可以将第一字幕文本翻译成中文，那么中文的字幕文本可以作为第三字幕。可以理解地，第三字幕可以作为第二字幕，以生成字幕文件。

再进一步地，对基于第一语言的所述第一字幕进行翻译，得到基于第二语言的第二字幕还可以包括步骤S501以及S502。如图5所示，其中：

步骤S501.根据所述目标视频，获取所述第一字幕的出现时刻及消失时刻之间的音频信息；

步骤S502.对基于第一语言的所述音频信息进行语音识别，以得到基于第二语言的第四字幕。

本示例性实施方式中，确定了第一字幕的出现时刻及消失时刻后，可以获取目标视频的出现时刻及消失时刻之间的音频信息。其中，音频信息可以在目标视频播放到上述出现时刻时进行采集，并在上述消失时刻时停止采集，从而获取该音频信息；或者也可以直接从目标视频的文件中获取，可以将目标视频转化为音频，从而获取第一字幕出现时刻及消失时刻之间的音频信息；本示例性实施方式对此不做限定。

在获取到第一字幕出现时刻及消失时刻之间的音频信息后，可以对该音频信息进行语言识别。语言识别可以将该音频信息识别为目标语言的信息，并且，也可以将音频信息转化成文字信息。通过语言识别可以将第一语言的音频信息转换成第二语言的信息，该第二语言的信息可以包括文本格式的信息，例如，可编辑的文字信息等，也可以包括文件，例如，TXT格式的文件等，并且该信息可以作为第四字幕。可以理解地，第四字幕可以作为第二字幕最终生成字幕文件。

由上可知，对基于第一语言的所述第一字幕进行翻译，得到基于第二语言的第二字幕还可以包括将所述第三字幕与所述第四进行对比，根据对比结果确定所述第二字幕。其中，第三字幕可以包括对于第一语言的第一字幕文本进行翻译，获得的第二语言的字幕，第四字幕可以包括第一语言的第一字幕对应的音频信息进行识别，获得的第二语言的字幕。因此，可以将第三字幕与第四字幕进行对比，进一步校对第二语言的字幕，得到第二字幕。通过这种方法可以提高第二字幕的准确率。

参考图1，在步骤S150中，根据所述第二字幕、所述出现时刻及消失时刻，生成所述第二字幕的字幕文件。

本示例性实施方式中，获取到第二语言的第二字幕后，可以根据上述确定的第一字幕的出现时刻及消失时刻，以及第二字幕生成第二字幕的字幕文件。其中，字幕文件可以包括多条字幕，也可以包括每条字幕的出现时刻及消失时刻。因此，有多条字幕时，还可以在该字幕文件中对每条字幕进行标识，该标识可以包括根据字幕的顺序生成的序号，也可以包括其他信息，例如，可以根据字幕出现的图像的帧序号生成该标识，本示例实施方式对此不做限定。并且，在字幕文件中还可以对字幕的显示效果进行设置，例如，字体、颜色、大小等等。此外，字幕文件的格式可以是SRT、ASS等，也可以是其他格式，例如，SSA、SMI等，本示例实施方式对此不做限定。因此，获取到第二语言的第二字幕后，根据第一字幕的出现时刻及消失时刻可以对第二字幕添加上对应的出现时刻及消失时刻，从而生成第二字幕的字幕文件。

举例而言，若获取到的第一条第一字幕为：“空中一号你可以起飞了”，确定该第一字幕对应的出现时刻及消失时刻为：“0:03:11.50,0:03:13.98”，并且根据该中文的第一字幕可以得到英文的第二字幕为：“Air One clear for takeoff”，那么该第二字幕的字幕文件的内容可以包括：“1，0:03:11.50,0:03:13.98，Air One clear for takeoff”，其中，“1”可以表示该条字幕的序号。因此，可以将第一语言的第一字幕翻译成任何第二语言的第二字幕，例如，汉语、英语、法语等等，从而快速的生成多个第二语言的字幕文件，提高字幕制作的效率。

在获得第二字幕的字幕文件后，播放设备可以在目标视频在播放时加载第二字幕的字幕文件，第二字幕文件中的第二字幕根据其对应的出现时刻，可以出现在对应图像的目标区域中，如图8所示，其中英文的第一字幕“It seems like only 306days ago…”上方出现了中文的第二字幕“短短的306天恍如昨日”。因此，用户在观看目标视频时，可以通过第二字幕理解视频中的内容，为用户提供了更多选择，提高了用户体验，并且可以提高多媒体作品的传播率。

以下介绍本发明的装置实施例，可以用于执行本发明上述的多语字幕制作方法。如图9所示，该多语字幕制作装置900可以包括：

目标区域确定单元910，用于获取目标视频的各帧图像，并确定所述各帧图像的目标区域；

时刻确定单元920，用于逐帧对比识别所述图像的目标区域，判断所述目标区域内是否有第一字幕，并确定所述第一字幕的出现时刻及消失时刻；

字幕获取单元930，用于在所述目标区域内有第一字幕出现时，获取所述第一字幕；

翻译单元940，用于对基于第一语言的所述第一字幕进行翻译，得到基于第二语言的第二字幕；

字幕生成单元950，用于根据所述第二字幕、所述出现时刻及消失时刻，生成所述第二字幕的字幕文件。

由于本发明的示例实施方式的多语字幕制作装置的各个功能模块与上述多语字幕制作方法的示例实施方式的步骤对应，因此对于本发明装置实施方式中未披露的细节，请参照本发明上述的多语字幕制作方法的实施方式。

下面参考图10，其示出了适于用来实现本发明实施例的电子设备的计算机系统1000的结构示意图。图10示出的电子设备的计算机系统1000仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，计算机系统1000包括中央处理单元(CPU)1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有系统操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述的多语字幕制作方法。

例如，所述的电子设备可以实现如图1中所示的：步骤S110.获取目标视频的各帧图像，并确定所述图像的目标区域；步骤S120.逐帧对比识别所述图像的目标区域，判断所述目标区域内是否有第一字幕，并确定所述第一字幕的出现时刻及消失时刻；步骤S130.在所述目标区域内有第一字幕出现时，获取所述第一字幕；步骤S140.对基于第一语言的所述第一字幕进行翻译，得到基于第二语言的第二字幕；步骤S150.根据所述第二字幕、所述出现时刻及消失时刻，生成所述第二字幕的字幕文件。

又如，所述的电子设备可以实现如图2所示的各个步骤。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种多语字幕制作方法，其特征在于，包括：

获取目标视频的各帧图像，并确定所述图像的目标区域；

在所述目标区域内有第一字幕出现时，获取所述第一字幕；

2.根据权利要求1所述的多语字幕制作方法，其特征在于，所述判断所述目标区域内是否有第一字幕，并确定所述第一字幕的出现时刻及消失时刻，包括；

3.根据权利要求1所述的多语字幕制作方法，其特征在于，所述在所述目标区域内有第一字幕出现时，获取所述第一字幕，包括：

4.根据权利要求3所述的多语字幕制作方法，其特征在于，所述对基于第一语言的所述第一字幕进行翻译，得到基于第二语言的第二字幕，包括：

5.根据权利要求1所述的多语字幕制作方法，其特征在于，所述对基于第一语言的所述第一字幕进行翻译，得到基于第二语言的第二字幕，包括：

6.根据权利要求1所述的多语字幕制作方法，其特征在于，所述对基于第一语言的所述第一字幕进行翻译，得到基于第二语言的第二字幕，包括：

将所述第三字幕与所述第四字幕进行对比，根据对比结果确定所述第二字幕。

7.根据权利要求1所述的多语字幕制作方法，其特征在于，所述确定所述各帧图像的目标区域，包括：

对所述二值图像进行边缘检测，获取字符轮廓信息；

8.一种多语字幕制作装置，其特征在于，包括：

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一项所述的多语字幕制作方法。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-7中任一项所述的多语字幕制作方法。