CN113660432B

CN113660432B - 翻译字幕制作方法、装置、电子设备与存储介质

Info

Publication number: CN113660432B
Application number: CN202110945068.7A
Authority: CN
Inventors: 丁艳燕; 袁华东; 国丽; 王兆育
Original assignee: Anhui Tingjian Technology Co ltd
Current assignee: Anhui Tingjian Technology Co ltd
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2024-05-28
Anticipated expiration: 2041-08-17
Also published as: CN113660432A

Abstract

本发明提供一种翻译字幕制作方法、装置、电子设备与存储介质，所述方法包括：基于源语言字幕中各字幕帧的尾部标点，和/或各字幕帧之间的间隔时长，对所述源语言字幕进行译群分割，得到若干个译群文本；分别对各译群文本进行翻译，得到各译群文本的翻译文本；基于各译群文本的翻译文本，确定目标语言字幕。本发明提供的方法与装置，通过在翻译前对多个字幕帧进行基于语义的合并，得到若干个能够独立表达完整语义的译群文本，再在此基础上进行机器翻译，使得翻译时可以综合字幕帧的上下文语境，从而提升字幕场景下机器翻译的效果，保证翻译结果整体的语言连贯性，进而减少用户后续修整次数，提高用户满意程度。

Description

翻译字幕制作方法、装置、电子设备与存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种翻译字幕制作方法、装置、电子设备与存储介质。

背景技术

随着国际性、多语种交流日趋频繁，视频分享已成为当今世界普遍流行的知识传播和文化交流方式。为了提高视频制作过程中字幕制作环节的效率，对语音识别和机器翻译等AI(Artificial Intelligence，人工智能)技术的利用受到了广泛关注。

市面上现有的一些采用AI技术的字幕制作软件，在对已校对字幕进行翻译的环节处理效果均无法达到一个较理想的水平，在对现状具体分析后，得出影响环节处理效果的主要因素是，对字幕进行翻译时大多是逐行进行字幕文本的翻译处理，导致翻译后的内容在整体上缺乏场景和语义的连贯性。

发明内容

本发明提供一种翻译字幕制作方法、装置、电子设备与存储介质，用以解决现有技术中字幕翻译缺乏语义连贯性的缺陷，实现翻译结果整体的语言连贯性。

本发明提供一种翻译字幕制作方法，包括：

基于源语言字幕中各字幕帧的尾部标点，和/或各字幕帧之间的间隔时长，对所述源语言字幕进行译群分割，得到若干个译群文本；

分别对各译群文本进行翻译，得到各译群文本的翻译文本；

基于各译群文本的翻译文本，确定目标语言字幕。

根据本发明提供的一种翻译字幕制作方法，所述基于源语言字幕中各字幕帧的尾部标点，和/或各字幕帧之间的间隔时长，对所述源语言字幕进行译群分割，包括：

基于所述源语言字幕中前一字幕帧的尾部标点，和/或所述前一字幕帧和当前字幕帧之间的间隔时长，确定所述当前字幕帧与当前译群文本的从属关系，所述当前译群文本为所述前一字幕帧所属的译群文本；

基于所述当前字幕帧与当前译群文本的从属关系，将所述当前字幕帧置入对应译群文本。

根据本发明提供的一种翻译字幕制作方法，所述分别对各译群文本进行翻译，得到各译群文本的翻译文本，包括：

基于各译群文本的文本长度，对各译群文本进行译群分割调整；

分别对调整后的各译群文本进行翻译，得到调整后的各译群文本的翻译文本。

根据本发明提供的一种翻译字幕制作方法，所述基于各译群文本的文本长度，对各译群文本进行译群分割调整，包括：

若任一译群文本的文本长度大于翻译长度阈值，则基于所述任一译群文本包含的标点，对所述任一译群文本进行译群分割调整。

根据本发明提供的一种翻译字幕制作方法，所述基于所述任一译群文本包含的标点，对所述任一译群文本进行译群分割调整，包括：

截取所述任一译群文本的第一部分文本进行标点标注，得到所述第一部分文本的第一标注文本，所述第一部分文本是以所述任一译群文本的首字符为开头，且文本长度等于标注长度阈值的一段文本；

基于所述第一标注文本包含的标点，对所述第一标注文本进行译群分割，若分割成功，则基于分割后的分割标注文本与所述任一译群文本的第二部分文本确定新的译群文本，所述分割标注文本为对所述第一标注文本进行译群分割后的剩余文本，所述第二部分文本是所述任一译群文本中除所述第一部分文本之外的文本。

根据本发明提供的一种翻译字幕制作方法，所述基于各译群文本的翻译文本，确定目标语言字幕，包括：

确定任一译群文本在所述源语言字幕中占用的字幕帧数量；

对所述任一译群文本的翻译文本进行分句，得到分句数量；

基于所述字幕帧数量和所述分句数量，确定所述任一译群文本的翻译文本在所述目标语言字幕中与各字幕帧的对应关系。

根据本发明提供的一种翻译字幕制作方法，所述源语言字幕中各字幕帧是基于如下步骤确定的：

对语音数据进行转写，得到转写文本；

基于转写文本中包含的标点和/或所述转写文本中各分词所属的角色信息，对所述转写文本进行分割，得到多个字幕帧。

根据本发明提供的一种翻译字幕制作方法，所述基于转写文本中包含的标点和/或所述转写文本中各分词所属的角色信息，对所述转写文本进行分割，得到多个字幕帧，包括：

基于转写文本中包含的标点和/或所述转写文本中各分词所属的角色信息，对所述转写文本进行分割，得到多个语句；

基于各语句的持续时长和/或各语句的文本长度，对各语句进行调整；

基于调整后的各语句，确定所述多个字幕帧。

根据本发明提供的一种翻译字幕制作方法，所述基于各语句的持续时长和/或各语句的文本长度，对各语句进行调整，包括：

基于各语句的持续时长和/或各语句的文本长度，以及各语句的结尾标点和/或各语句之间的间隔时长，对各语句进行调整。

本发明还提供一种翻译字幕制作装置，包括：

分割模块，用于基于源语言字幕中各字幕帧的尾部标点，和/或各字幕帧之间的间隔时长，对所述源语言字幕进行译群分割，得到若干个译群文本；

翻译模块，用于分别对各译群文本进行翻译，得到各译群文本的翻译文本；

确定模块，用于基于各译群文本的翻译文本，确定目标语言字幕。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述翻译字幕制作方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述翻译字幕制作方法的步骤。

本发明提供的翻译字幕制作方法、装置、电子设备与存储介质，通过在翻译前对多个字幕帧进行基于语义的合并，得到若干个能够独立表达完整语义的译群文本，再在此基础上进行机器翻译，使得翻译时可以综合字幕帧的上下文语境，从而提升字幕场景下机器翻译的效果，保证翻译结果整体的语言连贯性，进而减少用户后续修整次数，提高用户满意程度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的翻译字幕制作方法的流程示意图；

图2是本发明提供的译群分割方法的流程示意图；

图3是本发明提供的翻译文本的确定方法的流程示意图；

图4是本发明提供的译群分割调整方法的流程示意图；

图5是本发明提供的第一标注文本的译群分割方法的流程示意图；

图6是本发明提供的目标语言字幕的确定方法的流程示意图；

图7是本发明提供的字幕帧的确定方法的流程示意图之一；

图8是本发明提供的字幕帧的确定方法的流程示意图之二；

图9是本发明提供的翻译字幕制作装置的结构示意图；

图10是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种翻译字幕制作方法，图1是本发明提供的翻译字幕制作方法的流程示意图，如图1所示，该方法包括：

步骤110，基于源语言字幕中各字幕帧的尾部标点，和/或各字幕帧之间的间隔时长，对源语言字幕进行译群分割，得到若干个译群文本；

步骤120，分别对各译群文本进行翻译，得到各译群文本的翻译文本；

步骤130，基于各译群文本的翻译文本，确定目标语言字幕。

具体地，源语言字幕即需要进行翻译的字幕，源语言字幕所应用的语言即源语言，进行翻译后得到字幕所应用的语言即目标语言，对应得到的翻译结果为目标语言字幕。此处，本发明实施例对于源语言和目标语言的种类不作具体限定，例如可以是汉语、英语、法语等。源语言字幕可以由按照时间顺序依次显示的若干个字幕帧组成，源语言字幕可以是从多媒体文件中直接获取的，也可以是从多媒体文件中提取语音数据，再对语音数据进行语音转写后得到的，本发明实施例对此不作具体限定。

考虑到现有技术通常是逐个字幕帧对字幕文本内容进行机器翻译处理，使得翻译后的结果缺少与前后字幕帧的语言连贯性，导致整体翻译质量不高，需要用户进行大面积修改。针对这一问题，本发明实施例首先对源语言字幕进行译群分割，即将源语言字幕分割为若干个译群文本，此处的译群文本为可以独立表达完整语义的一段文本，一段译群文本可以对应一个或者多个字幕帧。在完成译群分割之后，即可分别对各个译群文本进行机器翻译处理，得到各个译群文本的翻译文本，从而使得机器翻译后仍能保持字幕帧与前后字幕帧语境的一致，保证了翻译结果整体上的连贯性。

此处，译群分割可以基于源语言字幕中的各个字幕帧的语义，对同一语义下的连续字幕帧进行合并实现，基于语义的字幕帧合并后即可形成由若干字幕帧组成的译群文本。基于语义的字幕帧合并，可以通过判断各字幕帧所表达的语义是否结束，或者判断两个相邻字幕帧之间的语义是否相同实现。

由于字幕帧的尾部标点能够表征对应字幕帧是否为一个完整句的结束部分，例如，字幕帧的尾部标点为句号、问号或感叹号，即表征对应字幕帧为一个完整句的结束部分，另外，字幕帧之间的间隔时长能够表征对应语音之间的停顿时长，一定程度上可以反映两个字幕帧分别表达的语义之间的相关性，基于语义的字幕帧合并具体可以根据源语言字幕中各个字幕帧的尾部标点，或者各个字幕帧之间的间隔时长，或者结合各个字幕帧的尾部标点以及各个字幕帧之间的间隔时长，对各个字幕帧进行基于语义的合并实现。

对各个字幕帧进行基于语义的合并的方式可以是从前到后依次判断相邻两个字幕帧是否属于同一译群文本，再根据判断结果确定对这两个字幕帧进行合并还是进行分隔开，也可以是根据所确定出的语义结束的位置将所有字幕帧切分成若干段区间，再将每段区间内的所有字幕帧组合成各个译群文本，本发明实施例对此不作具体限定。

在得到各个译群文本的翻译文本之后，可以直接将各个译群文本的翻译文本作为目标语言字幕，也可以根据翻译文本的语义信息对各个译群文本的翻译文本进行相应调整，将调整后的翻译文本作为目标语言字幕，本发明实施例对此不作具体限定。另外，目标语言字幕可以在屏幕上单独进行显示，也可以将目标语言字幕还原至源语言字幕的各个字幕帧中，由此制作成双语字幕。

本发明实施例提供的方法，通过在翻译前对多个字幕帧进行基于语义的合并，得到若干个能够独立表达完整语义的译群文本，再在此基础上进行机器翻译，使得翻译时可以综合字幕帧的上下文语境，从而提升字幕场景下机器翻译的效果，保证翻译结果整体的语言连贯性，进而减少用户后续修整次数，提高用户满意程度。

基于上述任一实施例，图2是本发明提供的译群分割方法的流程示意图，如图2所示，步骤110包括：

步骤111，基于源语言字幕中前一字幕帧的尾部标点，和/或前一字幕帧和当前字幕帧之间的间隔时长，确定当前字幕帧与当前译群文本的从属关系，当前译群文本为前一字幕帧所属的译群文本；

步骤112，基于当前字幕帧与当前译群文本的从属关系，将当前字幕帧置入对应译群文本。

具体地，对源语言字幕进行译群分割可以通过如下方式实现：对源语言字幕中的各个字幕帧从前到后依次进行合并，当确定了前一字幕帧所属的译群文本即当前译群文本之后，可以判断当前字幕帧与当前译群文本之间的从属关系，即判断当前字幕帧是否属于该当前译群文本，如果属于，则可以将当前字幕帧合并入该当前译群文本，如果不属于，则可以将当前字幕帧作为下一译群文本的开头，在此基础上，再进行后续字幕帧的合并，直至源语言字幕中的所有字幕帧都归属到对应的译群文本。

此处，具体的判断当前字幕帧与当前译群文本之间的从属关系的方式可以是根据源语言字幕中前一字幕帧的尾部标点进行判断的，例如，前一字幕帧的尾部标点为句号、感叹号或问号等，则可以认为当前译群文本所包含的内容已经是完整语义，此时当前字幕帧与当前译群文本之间的从属关系应为不属于；也可以是根据前一字幕帧和当前字幕帧之间的间隔时长进行判断的，例如，前一字幕帧和当前字幕帧之间的间隔时长小于预设的最大间隔时长，则可以认为当前译群文本所要表达的语义仍不完整，此时当前字幕帧与当前译群文本之间的从属关系应为属于，还可以是结合前一字幕帧的尾部标点以及前一字幕帧和当前字幕帧之间的间隔时长进行判断的，本发明实施例对此不作具体限定。

基于上述任一实施例，图3是本发明提供的翻译文本的确定方法的流程示意图，如图3所示，步骤120包括：

步骤121，基于各译群文本的文本长度，对各译群文本进行译群分割调整；

步骤122，分别对调整后的各译群文本进行翻译，得到调整后的各译群文本的翻译文本。

具体地，考虑到如果译群文本的文本长度过长，会导致机器翻译的质量降低，因此，本发明实施例在得到各个译群文本之后，判断各个译群文本的文本长度是否超过预设的翻译长度阈值，根据判断结果对各个译群文本进行译群分割调整，得到调整后的各个译群文本，从而使得调整后的各个译群文本的文本长度不超过翻译长度阈值，随即，分别对调整后的各个译群文本进行机器翻译处理，得到调整后的各个译群文本的翻译文本，从而能够保证字幕场景下机器翻译的准确性。

基于上述任一实施例，步骤121包括：

若任一译群文本的文本长度大于翻译长度阈值，则基于任一译群文本包含的标点，对该译群文本进行译群分割调整。

具体地，当判断出任意一个译群文本的文本长度超过预设的翻译长度阈值之后，可以根据该译群文本包含的标点，对该译群文本进行译群分割调整，例如，如果该译群文本中包含句号，即说明该译群文本中包含完整句，则可以将该完整句作为一个调整后的译群文本，将剩余的文本作为另一个调整后的译群文本。又例如，如果该译群文本中不包含常用于表示语句结束的标点，但是仍需要对译群文本的长度进行调整时，可以根据该译群文本中包含的逗号、分号等标点，对该译群文本进行译群分割调整。

此处，标点可以是译群文本直接存在的标点，也可以是根据译群文本的语义信息对译群文本进行标点标注后得到的标点，本发明实施例对此不作具体限定。

基于上述任一实施例，图4是本发明提供的译群分割调整方法的流程示意图，如图4所示，基于任一译群文本包含的标点，对该译群文本进行译群分割调整，包括：

步骤1211，截取任一译群文本的第一部分文本进行标点标注，得到第一部分文本的第一标注文本，第一部分文本是以该译群文本的首字符为开头，且文本长度等于标注长度阈值的一段文本；

步骤1212，基于第一标注文本包含的标点，对第一标注文本进行译群分割，若分割成功，则基于分割后的分割标注文本与该译群文本的第二部分文本确定新的译群文本，分割标注文本为对第一标注文本进行译群分割后的剩余文本，第二部分文本是该译群文本中除第一部分文本之外的文本。

具体地，考虑到字幕制作过程中可能会去掉标点，导致译群文本中没有标点或者标点不全，因此，本发明实施例当判断出任意一个译群文本的文本长度超过预设的翻译长度阈值之后，首先对该译群文本进行标点标注处理，再根据标注后的译群文本包含的标点，对该译群文本进行译群分割调整。

另外，考虑到译群文本的文本长度过长会对标点标注的准确性造成影响，因此，本发明实施例首先从该译群文本的首字符开始，截取一段文本长度等于预设的标注长度阈值的文本，即第一部分文本，再对第一部分文本进行标点标注，得到第一部分文本的第一标注文本。

在得到第一标注文本之后，可以根据第一标注文本包含的标点，对第一标注文本进行译群分割，如果第一标注文本中包含完整句，且该完整句的结束标点并不在第一标注文本的最后位置，则可以从第一标注文本中将完整句分割出去，每个完整句均可以作为一个译群文本，此时即说明译群分割成功，反之，则说明译群分割不成功。

在译群分割成功之后，可以基于第一标注文本中的剩余文本即分割标注文本，以及该译群文本中除第一部分文本之外的文本即第二部分文本确定新的译群文本。此处，确定新的译群文本的方式与上述过程类似，即可以将分割标注文本作为下个待标注文本的开头，再从第二部分文本中从前往后依次取出字符与分割标注文本进行拼接，直至达到标注长度阈值或者第二部分文本的所有字符都取出完毕，即可得到下一待标注文本，再对下一待标注文本进行标点标注，得到下一待标注文本的第二标注文本，根据第二标注文本包含的标点对第二标注文本进行译群分割，即可得到新的译群文本。

例如，如果分割标注文本加上第二部分文本的总文本长度不超过标注长度阈值，则可以将分割标注文本与第二部分文本进行拼接得到下一待标注文本，再对该待标注文本进行标点标注即可得到第二标注文本，接着判断第二标注文本是否包含完整句，如果包含，就可以将该完整句作为新的译群文本。

基于上述任一实施例，译群分割和译群分割调整的具体流程可以如下：

1、从前到后遍历查找源语言字幕中的各个字幕帧的尾部标点；

2、当未找到表征语句结束的标点且两个字幕帧之间的时间间隔小于最大间隔时长S时，将这两个字幕帧继续合并为同一译群文本，需要保证合并后译群文本的文本长度不会超过翻译长度阈值M限制，一直往后找直至找到表征语句结束的标点，将该标点作为该译群文本的结束点；

3、若两个字幕帧之间的时间间隔超过S，则取超过位置的前一字幕帧作为一个译群文本合并的结束点；

4、若合并后译群文本的文本长度超过M，则往前切出一个小译群，小译群为从译群文本的开始点到距离当前字幕帧最近的逗号或分号标点位置当中的若干个字幕帧组成的一段文本，将切出后该译群文本中剩余的若干字幕帧与当前字幕帧组合，若组合后的文本长度不超过M，则将切出的小译群单独包装为一个译群文本，再将切出后剩余的若干字幕帧与当前字幕帧组合为新的译群文本，若组合后的文本长度仍超过M，则将切出的小译群与剩余的若干字幕帧拼接还原并包装为一个译群文本，再将当前字幕帧作为新的译群文本的开始字幕帧；

5、当合并后译群文本的文本长度超过M后仍未找到表征语句结束的标点，则往前取最近的逗号或分号标点位置为合并译群文本的结束点，将该逗号或分号位置之后的字幕帧与当前字幕帧合并为新的译群文本，若新的译群文本的文本长度仍超过M，则取当前字幕帧之前的字幕帧为译群文本的结束点，当前字幕帧作为新的译群文本的开始字幕帧；若往前未找到逗号或分号标点，则取当前字幕帧之前的字幕帧为译群文本的结束点，当前字幕帧作为新的译群文本的开始字幕帧。

基于上述任一实施例，译群分割和译群分割调整的具体流程可以如下，需要说明的是，此流程适用于各种语种的源语言字幕，尤其适用于中文的源语言字幕：

1、先按最大间隔时长规则以及尾部标点规则对源语言字幕进行译群分割，得到若干个由字幕帧组合得到的译群文本；

2、逐一处理各个译群文本，若任意一个译群文本的文本长度超过翻译长度阈值M，则进一步判断该译群文本的文本长度是否超过标注长度阈值N(M>N)，根据判断结果对该译群文本进行译群分割调整；

3、若该译群文本的文本长度不超过N，则直接将该译群文本送入标注处理：若标注后的文本中有若干完整句，则将该若干完整句一一包装为译群文本，将切出若干完整句后剩下的文本包装为一个译群文本；若标注后的文本中没有完整句，则将该译群文本中各字幕帧一一拼接后的文本内容作为一个译群文本；

4、若该译群文本的文本长度超过N，则从该译群文本的首字符开始，截取一段文本长度等于预设的N的文本，即第一部分文本，将第一部分文本送入标注处理，得到第一部分文本的第一标注文本，再根据第一标注文本包含的标点对第一标注文本进行译群分割，图5是本发明提供的第一标注文本的译群分割方法的流程示意图，如图5所示：

(1)若第一标注文本中有若干完整句，且完整句的结束标点不在第一标注文本的最后位置(第一标注文本结尾位置的结束标点不具有严格意义上的参考性)，则切出该若干完整句，切出后第一标注文本中的剩余文本作为下个待标注文本的开头，再依次往后继续拼接待标注文本进行标注和后续处理；

(2)若第一标注文本中有若干完整句，且完整句的结束标点在第一标注文本的最后位置，则判断第一标注文本能否切出最大标准语义句，若能则将该最大标准语义句作为一个译群文本，将剩余的文本作为下个待标注文本的开头，若不能则将第一标注文本作为一个译群文本；

(3)若第一标注文本中无完整句，但有标准语义句，则切出第一标注文本中的最大标准语义句作为待定译群文本，将切出后的剩余文本作为下个待标注文本的开头，再依次往后继续拼接待标注文本(在拼接过程中需要保证两点，其一，拼接的待标注文本加上之前切出的最大标准语义句的总文本长度不超过M，其二，拼接的待标注文本的文本长度不超过N)，若当前拼接的待标注文本加上最大标准语义句的总文本长度已到达M边缘，将当前拼接的待标注文本做标注处理，得到已标注文本，若已标注文本中出现完整句且结束标点不在最后位置，则将完整句与之前的最大标准语义句拼接为一个译群文本，将剩余的文本作为下个待标注文本的开头；若已标注文本中出现完整句且结束标点在最后位置，则判断总的标注文本能否切出最大标准语义句，若能则将该最大标准语义句作为一个译群文本，将剩余的文本作为下个待标注文本的开头，若不能则将总的标注文本作为一个译群文本；

(4)若第一标注文本中无完整句，且第一标注文本中切不出标准语义句，则将第一标注文本作为一个译群文本。

此处，最大标准语义句指的是在一个标注文本中尽可能的切出更多的标准语义句的组合后的句子，标准语义句即结尾为语句分割标点的句子，语句分割标点例如逗号、分号等。

上述各实施例中，考虑到现有的机器字幕翻译方法是逐行翻译，翻译结果缺少与前后字幕帧的语言连贯性，导致整体翻译质量不高的问题，提供了一种能够整合多个字幕帧为一个完整语义的译群文本，并对译群文本进行回溯调整的算法，能够提升字幕场景下机器翻译的效果，保证翻译结果整体的语言连贯性。

基于上述任一实施例，图6是本发明提供的目标语言字幕的确定方法的流程示意图，如图6所示，步骤130包括：

步骤131，确定任一译群文本在源语言字幕中占用的字幕帧数量；

步骤132，对该译群文本的翻译文本进行分句，得到分句数量；

步骤133，基于字幕帧数量和分句数量，确定该译群文本的翻译文本在目标语言字幕中与各字幕帧的对应关系。

具体地，为了形成双语字幕，本发明实施例在得到各个译群文本的翻译文本之后，确定各个译群文本的翻译文本在目标语言字幕中与各个字幕帧的对应关系，再根据该对应关系将各个译群文本的翻译文本还原至源语言字幕中对应的字幕帧。可以理解的是，最终在各个字幕帧上都会有源语言和目标语言这两种语言显示的文本，其中在各个字幕帧上以目标语言显示的文本即组成了目标语言字幕。

此处，对于任意一个译群文本，可以首先确定该译群文本在源语言字幕中占用的字幕帧数量，并对该译群文本的翻译文本进行分句得到分句数量，再根据字幕帧数量和分句数量，确定该译群文本的翻译文本在目标语言字幕中与各个字幕帧的对应关系。例如，该译群文本在源语言字幕中仅占用一个字幕帧，则可以直接确定该译群文本的翻译文本与该字幕帧之间存在一一对应关系。又例如，该译群文本在源语言字幕中占用至少两个字幕帧，并且该译群文本的翻译文本的分句数量与该译群文本的字幕帧数量相同，则可以确定该翻译文本的各个分句与该译群文本所占用的各个字幕帧之间存在一一对应关系。

基于上述任一实施例，将各个译群文本的翻译文本拆分还原至源语言字幕中对应的字幕帧的具体流程可以如下，需要说明的是，此流程适用于各种语种的翻译文本的拆分还原，尤其适用于英文的翻译文本：

1、确定各个译群文本在源语言字幕中所占用的字幕帧数量，以及各个译群文本中每个字幕帧在该译群文本中的占比情况；

2、若译群文本在源语言字幕中仅占用一个字幕帧，则可以直接将该译群文本的翻译文本赋给该字幕帧；

3、若译群文本在源语言字幕中占用至少两个字幕帧，则按语义分割标点将该译群文本的翻译文本进行分句，若分割后的分句数量与该译群文本所占用的字幕帧数量相同，则可以将各个分句从前至后一一赋给该译群文本所占用的各个字幕帧；

4、若分割后的分句数量与该译群文本所占用的字幕帧数量不相同，则先将该译群文本的翻译文本按照英文分单词阿拉伯文分单字进行分词，再根据每个字幕帧在该译群文本中的占比情况，依次将对应数量的分词拼接成词语组赋给该译群文本所占用的各个字幕帧，然后执行语言优化；从前至后一一处理各个字幕帧的词语组，将词语组中的头尾短句切出，若该短句可往前面或后面的字幕帧合并，则将该切出的短句合并给前面或后面的字幕帧，合并条件是被合并的两个字幕帧不能被语义分割标点所分隔。

基于上述任一实施例，将各个译群文本的翻译文本拆分还原至源语言字幕中对应的字幕帧的具体流程可以如下，需要说明的是，此流程适用于各种语种的翻译文本的拆分还原，尤其适用于中文的翻译文本：

4、若分割后的分句数量与该译群文本所占用的字幕帧数量不相同，则先将该译群文本的翻译文本进行中文分词，再根据每个字幕帧在该译群文本中的占比情况，依次将对应数量的分词拼接成词语组赋给该译群文本所占用的各个字幕帧，然后执行语言优化；从前至后一一处理各个字幕帧的词语组，将词语组中的头尾短句切出，若该短句可往前面或后面的字幕帧合并，则将该切出的短句合并给前面或后面的字幕帧，合并条件是被合并的两个字幕帧不能被语义分割标点所分隔；

5、遍历各个字幕帧的文本内容，检查每个字幕帧的前后字幕帧的结尾字符是否为标点，若满足如下条件：

前一字幕帧非标点符号结尾，则对当前字幕帧的文本进行中文分词，对分词后的结果进行中文分词词序规则修正，以达到语义更流畅和通顺的拆分还原效果。例如，“了”这一助词不能用在句首，则可以将“了”置于前一字幕帧的结尾。

基于上述任一实施例，图7是本发明提供的字幕帧的确定方法的流程示意图之一，如图7所示，源语言字幕中各字幕帧是基于如下步骤确定的：

步骤101，对语音数据进行转写，得到转写文本；

步骤102，基于转写文本中包含的标点和/或转写文本中各分词所属的角色信息，对转写文本进行分割，得到多个字幕帧。

具体地，在制作源语言字幕的各个字幕帧时，可以首先从多媒体文件中解析出语音数据，此处的多媒体文件例如可以是视频文件、音频文件等，随即对该语音数据进行语音转写，得到转写文本，再将转写文本划分为各个字幕帧。

考虑到现有技术在制作源语言字幕的各个字幕帧时，仅将各个字幕帧所包含的字符长度不超过用户输入的固定值作为唯一的切分规则，按照该切分规则将原始字幕文本强制切分为若干个字幕帧，并没有综合考虑整体效果，导致常常会出现上下字幕帧语义错乱等问题。

针对这一问题，本发明实施例根据转写文本中包含的标点和/或转写文本中各分词所属的角色信息，对转写文本进行分割，再根据分割结果确定多个字幕帧，从而使得分割时进行了整体效果的综合评估，避免了分割所得的各个字幕帧出现的语义错乱的问题。此处，各分词在转写文本中所属的角色信息是在转写过程中根据语音数据的语音特征进行角色识别得到的。

基于上述任一实施例，图8是本发明提供的字幕帧的确定方法的流程示意图之二，如图8所示，步骤102包括：

步骤1021，基于转写文本中包含的标点和/或转写文本中各分词所属的角色信息，对转写文本进行分割，得到多个语句；

步骤1022，基于各语句的持续时长和/或各语句的文本长度，对各语句进行调整；

步骤1023，基于调整后的各语句，确定多个字幕帧。

具体地，考虑到现有技术中可供用户输入的规则指标单一，用户仅能自定义字幕帧的最大字符长度，对此，本发明实施例提供了一种可提供用户场景定制化的字幕分割后处理规则，在制作各个字幕帧时会综合权衡各方面因素对转写文本进行字幕帧切分：首先根据转写文本中包含的标点和/或转写文本中各分词所属的角色信息，对转写文本进行初步分割，得到初步分割后的多个语句，在此基础上，再根据用户自定义分割指标对初步分割结果进行对应指标的调整，得到调整后的各个语句，随即根据调整后的各个语句确定源语言字幕中的各个字幕帧。

此处，用户自定义分割指标可以是各个语句的最大持续时长、最小持续时长和最大文本长度中的至少一种。例如，用户自定义分割指标包括各个语句的最大持续时长，则可以判断各个语句的持续时长是否超过该最大持续时长，如果判断得知存在语句超过，则可以将该语句进行分割调整，从而保证分割后的语句都不超过最大持续时长。

利用可供用户输入的规则指标多样，使得在字幕分割时综合权衡各方面因素，较符合字幕制作场景，显著提升字幕生成的准确性，同时也能提升用户满意程度。

基于上述任一实施例，对转写文本进行初步分割的具体流程如下：

1、过滤转写文本中词性为分段标识的分词，并按用户自定义是否过滤语气词(默认过滤)，再过滤词性为顺滑词的分词。

2、整理计算各个分词的开始时间和结束时间。

3、遍历整理后的分词，按照标点切分、角色分离规则将分词组合成一个个的长短(持续时长、文本长度)不一的句子，中文不保留标点符号，英文保留标点符号，具体拼装流程如下：

(1)判断当前分词与前一个分词是否归属相同角色，若不是，则结束当前语句的拼装过程，并将当前分词作为新一行语句的开头；

(2)判断当前分词是否为标点，若是，则结束当前语句的拼装过程，重新开始新一行语句的拼装；

(3)若当前分词与前一个分词归属相同角色，且当前分词不为标点，则将当前分词拼装入当前语句中；

(4)若当前分词为最后一个分词，则结束当前语句的拼装过程。

基于上述任一实施例，步骤1022包括：

具体地，考虑到在对语句进行调整的过程中也可能出现语义错乱的问题，因此，本发明实施例在根据各个语句的持续时长和/或各个语句的文本长度，确定出初步分割后的语句需要进行调整之后，根据各个语句的结尾标点和/或各个语句之间的间隔时长，对各个语句进行调整，从而避免调整后的语句出现语义错乱的问题。例如，如果任意一个语句的持续时长小于用户自定义的最小持续时长，则可以对该语句进行合并调整，此时如果进一步判断得知该语句与前句之间的间隔时长超过了最大间隔时长，而与后句之间的间隔时长不超过最大间隔时长，则可以将该语句与后句进行合并。

基于上述任一实施例，根据用户自定义分割指标对初步分割结果进行各项指标的调整，可以包括消灭持续时长过长的语句、合并持续时长过短的语句和消灭文本长度过长的语句这三个步骤。其中，持续时长过长的语句即持续时长超过用户自定义的最大持续时长的语句，消灭持续时长过长的语句可以通过对该语句按照持续时长进行优化分割实现，具体流程如下：

1、计算评估出一个平均分割时长AL。

2、对该语句中的各词语进行重新组合，使得组合后的各句的持续时长不大于AL，如：

平均分割时长为8s，当前组合的句子时长为7.8s，若下个词拼接进去后句子长度为8.2s，则将当前组合的句子作为分割后的语句，将下个词作为下一语句的开始词。

3、依次判断分割后的各个语句是否有持续时长过短的语句，若有持续时长过短的语句则取消当前分割结果，调整平均分割时长AL的值，重新进行分割，直至分割后的各个语句没有持续时长过短的语句为止。

持续时长过短的语句即持续时长小于用户自定义的最小持续时长的语句，合并持续时长过短的语句可以通过将该语句与前后句进行合并实现，具体流程如下：

1、该语句可与前后句合并的条件为：

该语句与前后句之间的间隔时长不得超过根据用户自定义分割指标评估计算得到的最大间隔时长S；如果该语句与前句合并，则前句的结尾标点不可为表征语句结束的标点；如果该语句与后句合并，则该语句的结尾标点不可为表征语句结束的标点；该语句与前后句归属相同角色。

2、判断该语句是否可与前后句进行合并，若前后句均符合合并条件，则优先与间隔时长较短的句子合并，若前后句均符合合并条件且与该语句的间隔时长相同，则与前句合并。

3、中文句子合并后用空格将前后两句分隔，英文句子合并不做处理。

文本长度过长的语句即文本长度超过用户自定义的最大文本长度的语句，消灭文本长度过长的语句可以通过对该语句进行均匀分割实现，具体流程如下：

1、计算平均分割长度，使得平均分割长度靠近规定长度并每份长度均匀，如：

该语句的文本长度为80，则计算得到的平均分割长度为27；

该语句的文本长度为58，则计算得到的平均分割长度为29。

2、对该语句中的各词语进行重新组合，使得组合后的各句文本长度不大于平均分割长度，如：

计算得平均分割长度为29，当前组合的句子的文本长度为26，下个词的文本长度为4，则将当前组合的句子作为分割后的语句，将下个词作为下一语句的开始词。

3、依次判断分割后的各个语句是否有持续时长过短的语句，若有持续时长过短的语句则将平均分割长度+2后再次尝试分割，试图综合消灭持续时长过短的语句。

4、若尝试分割次数超过5次且仍未切分出符合规则的各个语句，则会保留当前次的尝试分割方案。

5、尝试从反方向(在原始的平均分割长度的基础上进行递减)进行语句分割尝试，若尝试过程中出现坏点次数增多的情况，则按照上个步骤中正向尝试的最后一个尝试分割方案对该语句进行分割。

基于上述任一实施例，如果转写文本为汉语，在对初步分割结果执行消灭持续时长过长的语句、合并持续时长过短的语句和消灭文本长度过长的语句这三个步骤之后，还可以进行中文标准语义下的词序调整，具体流程如下：

对每个字幕帧的前后字幕进行角色分离、结尾字符是否为标点、字幕间间隔是否超过最大间隔时长S的规则检查，若满足如下条件：

前一字幕帧非标点符号结尾且当前字幕帧与前一字幕帧之间的间隔时长不超过S且当前字幕帧和前一字幕帧归属相同角色，则对当前字幕帧进行中文分词，对分词后的结果进行中文分词词序规则修正，以得到语义更流畅和通顺的调整后的语句。例如，“了”这一助词不能用在句首，则可以将“了”置于前一字幕帧的结尾。此处，词性标记参考汉语文本词性标注标记集。

基于上述任一实施例，本发明采用先进的语音识别技术、机器翻译等自然语言处理技术，构建一套智能字幕制作系统，利用本发明提供的智能化字幕分割、意群翻译字幕制作方法(意群是指一个稍长的句子分成的具有一定意义的若干个短语)，显著提升字幕生成的准确性，提升字幕场景下机器翻译效果，提高用户满意程度。

需要说明的是，意群是语言学的专业名词，表示的一种抽象化的划分概念，而译群文本则是采取了这种划分概念而设计的一种具体应用在字幕翻译过程中的工作产物。译群文本为可以独立表达一定场景下的完整语义的待翻译群体，译群文本从开头到结尾是一个完整的语句，包含了若干个短句和上下文关联性较强的句子。

下面对本发明提供的翻译字幕制作装置进行描述，下文描述的翻译字幕制作装置与上文描述的翻译字幕制作方法可相互对应参照。

基于上述任一实施例，本发明实施例提供了一种翻译字幕制作装置，图9是本发明提供的翻译字幕制作装置的结构示意图，如图9所示，该装置包括：

分割模块910，用于基于源语言字幕中各字幕帧的尾部标点，和/或各字幕帧之间的间隔时长，对源语言字幕进行译群分割，得到若干个译群文本；

翻译模块920，用于分别对各译群文本进行翻译，得到各译群文本的翻译文本；

确定模块930，用于基于各译群文本的翻译文本，确定目标语言字幕。

本发明实施例提供的装置，通过在翻译前对多个字幕帧进行基于语义的合并，得到若干个能够独立表达完整语义的译群文本，再在此基础上进行机器翻译，使得翻译时可以综合字幕帧的上下文语境，从而提升字幕场景下机器翻译的效果，保证翻译结果整体的语言连贯性，进而减少用户后续修整次数，提高用户满意程度。

基于上述任一实施例，分割模块910包括：

从属关系确定单元，用于基于源语言字幕中前一字幕帧的尾部标点，和/或前一字幕帧和当前字幕帧之间的间隔时长，确定当前字幕帧与当前译群文本的从属关系，当前译群文本为前一字幕帧所属的译群文本；

字幕帧置入单元，用于基于当前字幕帧与当前译群文本的从属关系，将当前字幕帧置入对应译群文本。

基于上述任一实施例，翻译模块920包括：

调整子模块，用于基于各译群文本的文本长度，对各译群文本进行译群分割调整；

翻译子模块，用于分别对调整后的各译群文本进行翻译，得到调整后的各译群文本的翻译文本。

基于上述任一实施例，调整子模块用于：

基于上述任一实施例，基于任一译群文本包含的标点，对该译群文本进行译群分割调整，包括：

截取任一译群文本的第一部分文本进行标点标注，得到第一部分文本的第一标注文本，第一部分文本是以该译群文本的首字符为开头，且文本长度等于标注长度阈值的一段文本；

基于第一标注文本包含的标点，对第一标注文本进行译群分割，若分割成功，则基于分割后的分割标注文本与该译群文本的第二部分文本确定新的译群文本，分割标注文本为对第一标注文本进行译群分割后的剩余文本，第二部分文本是该译群文本中除第一部分文本之外的文本。

基于上述任一实施例，确定模块930包括：

数量确定单元，用于确定任一译群文本在源语言字幕中占用的字幕帧数量；

文本分句单元，用于对该译群文本的翻译文本进行分句，得到分句数量；

关系确定单元，用于基于字幕帧数量和分句数量，确定该译群文本的翻译文本在目标语言字幕中与各字幕帧的对应关系。

基于上述任一实施例，源语言字幕中各字幕帧是基于如下步骤确定的：

对语音数据进行转写，得到转写文本；

基于转写文本中包含的标点和/或转写文本中各分词所属的角色信息，对转写文本进行分割，得到多个字幕帧。

基于上述任一实施例，基于转写文本中包含的标点和/或转写文本中各分词所属的角色信息，对转写文本进行分割，得到多个字幕帧，包括：

基于转写文本中包含的标点和/或转写文本中各分词所属的角色信息，对转写文本进行分割，得到多个语句；

基于调整后的各语句，确定多个字幕帧。

基于上述任一实施例，基于各语句的持续时长和/或各语句的文本长度，对各语句进行调整，包括：

图10示例了一种电子设备的实体结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040，其中，处理器1010，通信接口1020，存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令，以执行翻译字幕制作方法，该方法包括：基于源语言字幕中各字幕帧的尾部标点，和/或各字幕帧之间的间隔时长，对源语言字幕进行译群分割，得到若干个译群文本；分别对各译群文本进行翻译，得到各译群文本的翻译文本；基于各译群文本的翻译文本，确定目标语言字幕。

此外，上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的翻译字幕制作方法，该方法包括：基于源语言字幕中各字幕帧的尾部标点，和/或各字幕帧之间的间隔时长，对源语言字幕进行译群分割，得到若干个译群文本；分别对各译群文本进行翻译，得到各译群文本的翻译文本；基于各译群文本的翻译文本，确定目标语言字幕。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的翻译字幕制作方法，该方法包括：基于源语言字幕中各字幕帧的尾部标点，和/或各字幕帧之间的间隔时长，对源语言字幕进行译群分割，得到若干个译群文本；分别对各译群文本进行翻译，得到各译群文本的翻译文本；基于各译群文本的翻译文本，确定目标语言字幕。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种翻译字幕制作方法，其特征在于，包括：

基于源语言字幕中各字幕帧的尾部标点，和/或各字幕帧之间的间隔时长，对所述源语言字幕进行译群分割，得到若干个译群文本；译群分割通过基于源语言字幕中的各个字幕帧的语义，对同一语义下的连续字幕帧进行合并实现，每个译群文本包括一个或多个连续字幕帧；所述源语言字幕由按照时间顺序依次显示的若干个字幕帧组成；

分别对各译群文本进行翻译，得到各译群文本的翻译文本；

基于各译群文本的翻译文本，确定所述翻译文本的各分句在目标语言字幕中与各字幕帧的对应关系。

2.根据权利要求1所述的翻译字幕制作方法，其特征在于，所述基于源语言字幕中各字幕帧的尾部标点，和/或各字幕帧之间的间隔时长，对所述源语言字幕进行译群分割，包括：

基于所述源语言字幕中前一字幕帧的尾部标点，和/或所述前一字幕帧和当前字幕帧之间的间隔时长，确定所述当前字幕帧与当前译群文本的从属关系，所述当前译群文本为所述前一字幕帧所属的译群文本；所述从属关系表征所述当前字幕帧是否属于所述当前译群文本；

3.根据权利要求1所述的翻译字幕制作方法，其特征在于，所述分别对各译群文本进行翻译，得到各译群文本的翻译文本，包括：

4.根据权利要求3所述的翻译字幕制作方法，其特征在于，所述基于各译群文本的文本长度，对各译群文本进行译群分割调整，包括：

5.根据权利要求4所述的翻译字幕制作方法，其特征在于，所述基于所述任一译群文本包含的标点，对所述任一译群文本进行译群分割调整，包括：

6.根据权利要求1至5中任一项所述的翻译字幕制作方法，其特征在于，所述基于各译群文本的翻译文本，确定所述翻译文本的各分句在目标语言字幕中与各字幕帧的对应关系，包括：

确定任一译群文本在所述源语言字幕中占用的字幕帧数量；

对所述任一译群文本的翻译文本进行分句，得到分句数量；

7.根据权利要求1至5中任一项所述的翻译字幕制作方法，其特征在于，所述源语言字幕中各字幕帧是基于如下步骤确定的：

对语音数据进行转写，得到转写文本；

8.根据权利要求7所述的翻译字幕制作方法，其特征在于，所述基于转写文本中包含的标点和/或所述转写文本中各分词所属的角色信息，对所述转写文本进行分割，得到多个字幕帧，包括：

基于调整后的各语句，确定所述多个字幕帧。

9.根据权利要求8所述的翻译字幕制作方法，其特征在于，所述基于各语句的持续时长和/或各语句的文本长度，对各语句进行调整，包括：

10.一种翻译字幕制作装置，其特征在于，包括：

分割模块，用于基于源语言字幕中各字幕帧的尾部标点，和/或各字幕帧之间的间隔时长，对所述源语言字幕进行译群分割，得到若干个译群文本；译群分割通过基于源语言字幕中的各个字幕帧的语义，对同一语义下的连续字幕帧进行合并实现，每个译群文本包括一个或多个连续字幕帧；所述源语言字幕由按照时间顺序依次显示的若干个字幕帧组成；

确定模块，用于基于各译群文本的翻译文本，确定所述翻译文本的各分句在目标语言字幕中与各字幕帧的对应关系。

11.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至9任一项所述翻译字幕制作方法的步骤。

12.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述翻译字幕制作方法的步骤。