一种单双语字幕修改查找处理方法及系统
技术领域
本发明涉及字幕处理领域,具体涉及一种单双语字幕修改查找处理方法及系统。
背景技术
字幕是指以文字形式显示电视、电影、舞台作品中的对话等非影像内容,也指视频类影视作品后期所加的文字。在电影银幕、电视机等显示屏下方出现的解说文字以及种种文字,如影片的片名、演职员表、唱词、对白、说明词以有人物介绍、地名和年代等都称为字幕。
在单语字幕翻译为双语字幕的过程中,若部分单语字幕发生改变,则需要找出该单语字幕对应的已经翻译完成的双语字幕部分,以便对双语字幕部分进行重新翻译。现有技术中,对于双语字幕部分的查找一般通过某些工具完成,但这类工具在使用的过程中,存在以下缺点:1、字幕语句较多的情况下,对于修改部分的字幕查找较为耗时;2、在双语字幕与单语字幕进行比对以找出修改部分时,容易产生遗漏。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种单双语字幕修改查找处理方法及系统,能够极大地节省翻译修改时间。
为达到以上目的,本发明提供一种单双语字幕修改查找处理方法,包括以下步骤:
获取完成修改的单语字幕文件,以及翻译中的双语字幕文件;
依次按条读取单语字幕文件中的字幕,将读取出的当前条字幕记为第一字幕,并从双语字幕文件中读取出与第一字幕的时间轴相差在预设时间范围内的所有字幕,记为字幕集合,所述字幕集合包括至少一条双语字幕;
将第一字幕与字幕集合进行比对;
基于比对结果,判断得到双语字幕相较于单语字幕的修改类型,并对字幕进行标记和修改处理。
在上述技术方案的基础上,在依次读取单语字幕文件中的字幕之前,还包括:识别单语字幕文件中字幕是否为字幕类型,识别双语字幕文件中的字幕类型,所述字幕类型包括单语字幕和双语字幕。
在上述技术方案的基础上,所述识别单语字幕文件中字幕是否为字幕类型,具体包括以下步骤:
读取单语字幕文件中的每条字幕;
拼接读取的每条字幕的第一行,形成第一文本块;
拼接读取的每条字幕的最后一行,形成第二文本块;
判断第一文本块的语言代码与第二文本块的语言代码是否相同,若是,则单语字幕文件中的字幕为单语字幕,若否,则单语字幕文件中的字幕为双语字幕。
在上述技术方案的基础上,所述识别双语字幕文件中的字幕类型,具体包括以下步骤:
读取双语字幕文件中的每条字幕;
拼接读取的每条字幕的第一行,形成第三文本块;
拼接读取的每条字幕的最后一行,形成第四文本块;
判断第三文本块的语言代码与第四文本块的语言代码是否相同,若是,则双语字幕文件中的字幕为单语字幕,若否,则双语字幕文件中的字幕为双语字幕。
在上述技术方案的基础上,在将第一字幕与第二字幕进行比对之前,还包括:去除第一字幕与第二字幕的ass特效代码和行尾的标点符号。
在上述技术方案的基础上,所述单语字幕文件中的字幕,每条字幕仅包括原文,所述双语字幕文件中的字幕,每条字幕包括原文和译文。
在上述技术方案的基础上,所述判断得到双语字幕相较于单语字幕的修改类型,并对字幕进行标记和修改处理,具体为:
按行对字幕集合中的每条字幕进行拆分,得到多行字幕文本;
若满足第一规则,所述第一规则为第一字幕与拆分得到的任一行字幕文本内容相同,则表明单语字幕文件中对应第一字幕的字幕未发生修改,则提取双语字幕文件中对应第一字幕的字幕的译文,与第一字幕的时间轴和文本组成新的双语字幕;
若满足第二规则,所述第二规则为拆分得到的任一行字幕文本是第一字幕内容的前缀字符串,且字幕集合中与该行字幕文本所属字幕相邻的下一个字幕的任一行字幕文本是第一字幕内容的后缀字符串,则表明第一字幕为进行合并修改后得到的字幕,则提取双语字幕文件中对应第一字幕的两个字幕的译文,与第一字幕的时间轴和文本组成新的双语字幕;
若满足第三规则,所述第三规则为第一字幕内容是拆分得到的任一行字幕文本的前缀字符串,且单语字幕文件中与第一字幕相邻的下一个字幕的内容是拆分得到的任一行字幕文本的后缀字符串,则表明单语字幕文件中的这两条字幕为进行拆分修改后得到的字幕,则提取单语字幕文件中拆分修改后得到的两条字幕的时间轴和文本组成新的单语字幕,并对形成的新字幕进行标记;
若满足第四规则,所述第四规则为第一字幕内容与拆分得到的任一行字幕文本的相似度大于预设相似度,且该行字幕文本是拆分得到的所有行字幕文本中与第一字幕内容相似度最大的一行字幕文本,且不满足第一规则、第二规则、第三规则中的任何一个,则表明单语字幕文件中对应第一字幕的字幕发生修改,则提取双语字幕文件中对应第一字幕的字幕的译文,与第一字幕的时间轴和文本组成新的双语字幕,并对形成的新字幕进行标记,并对新字幕进行重新翻译;
若第一字幕与拆分得到的多行字幕进行比对,不满足第一规则、第二规则、第三规则、第四规则中的任何一个,则表明单语字幕文件中对应第一字幕的字幕为新增字幕,记为第五规则,则提取单语字幕文件中对应第一字幕的时间轴和文本组成新的单语字幕,并对形成的新字幕进行标记,并对新字幕进行重新翻译。
本发明提供一种单双语字幕修改查找处理系统,包括:
获取模块,其用于获取完成修改的单语字幕文件,以及翻译中的双语字幕文件;
读取模块,其用于依次按条读取单语字幕文件中的字幕,将读取出的当前条字幕记为第一字幕,并从双语字幕文件中读取出与第一字幕的时间轴相差在预设时间范围内的所有字幕,记为字幕集合,所述字幕集合包括至少一条双语字幕;
比对模块,其用于将第一字幕与字幕集合进行比对;
判断模块,其用于基于比对模块的比对结果,判断得到第一字幕相较于字幕集合中字幕发生改变的类型,并对双语字幕文件中的字幕进行修改处理。
在上述技术方案的基础上,还包括识别模块,所述识别模块用于识别单语字幕文件中字幕是否为字幕类型,识别双语字幕文件中的字幕类型,当识别到单语字幕文件中字幕为单语字幕,且双语字幕文件中的字幕为双语字幕,则驱使读取模块、比对模块和判断模块工作,反之,则结束。
与现有技术相比,本发明的优点在于:通过将读取出的单语字幕文件中的字幕,与从双语字幕文件中读取出的时间轴相差在预设时间范围内的字幕进行比对,从而快速获知发生修改了的字幕部分,且在进行修改操作时,保留未修改部分的翻译内容,只对修改部分进行翻译,从而极大地节省翻译修改时间。
附图说明
图1为本发明实施例中一种单双语字幕修改查找处理方法的流程图;
图2为本发明实施例中一种单双语字幕修改查找处理系统法的结构示意图。
具体实施方式
本发明实施例提供一种单双语字幕修改查找处理方法,能够快速找出发生修改的部分,保留未修改部分的翻译内容,只对修改部分进行翻译,极大地节省翻译时间。本发明实施例相应地还提供了一种单双语字幕修改查找处理系统。
以下结合附图及实施例对本发明作进一步详细说明。本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
参见图1所示,本发明实施例提供的一种单双语字幕修改查找处理方法,包括以下步骤:
S1:获取完成修改的单语字幕文件,以及翻译中的双语字幕文件;
本发明实施例中,单语字幕文件中的字幕,每条字幕仅包括原文,所述双语字幕文件中的字幕,每条字幕包括原文和译文。例如,对于中英双语字幕电影,则单语字幕文件中的字幕为中文,双语字幕文件中的字幕包括中文和英文,且双语字幕文件中每条字幕的中文和英文分行排列。
本发明实施例中,在依次读取单语字幕文件中的字幕之前,还包括:识别单语字幕文件中字幕是否为字幕类型,识别双语字幕文件中的字幕类型,字幕类型包括单语字幕和双语字幕。识别单语字幕文件中字幕是否为字幕类型,具体包括以下步骤:
A:读取单语字幕文件中的每条字幕;
B:拼接读取的每条字幕的第一行,形成第一文本块;
C:拼接读取的每条字幕的最后一行,形成第二文本块;
D:判断第一文本块的语言代码与第二文本块的语言代码是否相同,若是,则单语字幕文件中的字幕为单语字幕,若否,则单语字幕文件中的字幕为双语字幕。
识别双语字幕文件中的字幕类型,具体包括以下步骤:
a:读取双语字幕文件中的每条字幕;
b:拼接读取的每条字幕的第一行,形成第三文本块;
c:拼接读取的每条字幕的最后一行,形成第四文本块;
d:判断第三文本块的语言代码与第四文本块的语言代码是否相同,若是,则双语字幕文件中的字幕为单语字幕,若否,则双语字幕文件中的字幕为双语字幕。
S2:依次按条读取单语字幕文件中的字幕,将读取出的当前条字幕记为第一字幕,并从双语字幕文件中读取出与第一字幕的时间轴相差在预设时间范围内的所有字幕,记为字幕集合,字幕集合包括至少一条双语字幕。本发明实施例的预设时间为2分钟。对于字幕集合,若第一字幕的时间轴为10:30,则读取出双语字幕文件时间轴在8:30~12:30范围内的所有字幕,记到字幕集合中。
S3:将第一字幕与字幕集合进行比对。在将第一字幕与第二字幕进行比对之前,还包括:去除第一字幕与第二字幕的ass特效代码和行尾的标点符号,以提升比对的准确性。ass,英文全称Advanced SubStation Alpha,其是一种高级字幕格式,它支持前置标签来控制样式。
S4:基于比对结果,判断得到双语字幕相较于单语字幕的修改类型,并对字幕进行标记和修改处理。
本发明实施例中,判断得到双语字幕相较于单语字幕的修改类型,并对字幕进行标记和修改处理,具体为:
按行对字幕集合中的每条字幕进行拆分,得到多行字幕文本,一般的,每条字幕拆分得到两行字幕文本,一行为原文,一行为译文;
若满足第一规则,第一规则为第一字幕与拆分得到的任一行字幕文本内容相同,则表明单语字幕文件中对应第一字幕的字幕未发生修改,则提取双语字幕文件中对应第一字幕的字幕中的译文,与第一字幕的时间轴和文本组成新的双语字幕;例如,第一字幕的内容与字幕集合中字幕A的一行字幕文本内容相同,则将第一字幕的原文和时间轴,与字幕A的译文进行组合,形成一条新的双语字幕,替换掉双语字幕文件中的字幕A;
若满足第二规则,第二规则为拆分得到的任一行字幕文本是第一字幕内容的前缀字符串,且字幕集合中与该行字幕文本所属字幕相邻的下一个字幕的任一行字幕文本是第一字幕内容的后缀字符串,则表明第一字幕为进行合并修改后得到的字幕,则对第一字幕进行标记。并提取双语字幕文件中对应第一字幕的两个字幕的译文,与第一字幕的时间轴和文本组成新的双语字幕。例如,字幕B和字幕C是字幕集合中的两条相邻字幕,字幕B的一行字幕文本是第一字幕内容的前缀字符串,字幕C的一行字幕文本是第一字幕内容的后缀字符串,则第一字幕是字幕B和字幕C的原文合并后得到的字幕。将第一字幕的原文和时间轴,与字幕B和字幕C译文进行组合,形成一条新的双语字幕,替换掉双语字幕文件中的字幕B和字幕C。
若满足第三规则,所述第三规则为第一字幕内容是拆分得到的任一行字幕文本的前缀字符串,且单语字幕文件中与第一字幕相邻的下一个字幕的内容是拆分得到的任一行字幕文本的后缀字符串,则表明单语字幕文件中的这两条字幕为进行拆分修改后得到的字幕,则对单语字幕文件中的这两条字幕进行标记。并提取单语字幕文件中拆分修改后得到的两条字幕的时间轴和文本组成新的单语字幕;例如,字幕D是单语字幕文件中与第一字幕相邻的下一个字幕,第一字幕内容是拆分得到的字幕E任一行文本的前缀字符串,字幕D的内容是拆分得到的字幕E任一行文本的后缀字符串,则说明第一字幕和字幕D是单语字幕文件中原先某一条字幕拆分后得到的字幕,取第一字幕和字幕D,替换掉双语字幕文件的字幕E。
若满足第四规则,第四规则为第一字幕内容与拆分得到的任一行字幕文本的相似度大于预设相似度,且该行字幕文本是拆分得到的所有行字幕文本中与第一字幕内容相似度最大的一行字幕文本,且不满足第一规则、第二规则、第三规则中的任何一个,则表明单语字幕文件中对应第一字幕的字幕发生修改,并对第一字幕进行标记;本发明实施例中的预设相似度为50%。提取双语字幕文件中对应第一字幕的字幕的译文,与第一字幕的时间轴和文本组成新的双语字幕,并对新字幕进行重新翻译,之前的译文可以作为翻译的参考。例如,字幕集合中的字幕F的一行字幕文本与第一字幕内容的相似度大于预设相似度,且该行字幕文本是拆分得到的所有行字幕文本中与第一字幕内容相似度最大的一行字幕文本,则将第一字幕的原文和时间轴,与字幕F的译文组合,形成一条新的双语字幕,替换掉双语字幕文件中的字幕F。
若第一字幕与拆分得到的多行字幕进行比对,不满足第一规则、第二规则、第三规则、第四规则中的任何一个,则表明单语字幕文件中对应第一字幕的字幕为新增字幕,记为第五规则。则提取单语字幕文件中对应第一字幕的时间轴和文本组成新的单语字幕,插入到双语字幕文件中,对形成的新字幕进行标记,并对新字幕进行重新翻译。
通过本发明的单双语字幕修改查找处理方法,不需要人工介入便可快速找出修改了的字幕,且对于没有完全修改的单语字幕,复制单语字幕的时间轴到双语字幕中,对于修改了的单语字幕进行标记,方便后续进行翻译,且原文修改小于50%的单语字幕,保留了译文作为后缀翻译的参考,修改大小等于50%的单语字幕,不保留译文,全部重新翻译。
本发明实施例的单双语字幕修改查找处理方法,通过将读取出的单语字幕文件中的字幕,与从双语字幕文件中读取出的时间轴相差在预设时间范围内的字幕进行比对,从而快速获知发生修改了的字幕部分,且在进行修改操作时,保留未修改部分的翻译内容,只对修改部分进行翻译,从而极大地节省翻译修改时间。
参见图2所示,本发明实施例还提供一种单双语字幕修改查找处理系统,包括获取模块、读取模块、比对模块和判断模块。获取模块用于获取完成修改的单语字幕文件,以及翻译中的双语字幕文件;读取模块用于依次按条读取单语字幕文件中的字幕,将读取出的当前条字幕记为第一字幕,并从双语字幕文件中读取出与第一字幕的时间轴相差在预设时间范围内的所有字幕,记为字幕集合,所述字幕集合包括至少一条双语字幕;比对模块用于将第一字幕与字幕集合进行比对;判断模块用于基于比对模块的比对结果,判断得到第一字幕相较于字幕集合中字幕发生改变的类型,并对双语字幕文件中的字幕进行修改处理。
识别模块用于识别单语字幕文件中字幕是否为字幕类型,识别双语字幕文件中的字幕类型,当识别到单语字幕文件中字幕为单语字幕,且双语字幕文件中的字幕为双语字幕,则驱使读取模块、比对模块和判断模块工作,反之,则结束。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。