CN112104917A - 一种单双语字幕修改查找处理方法及系统 - Google Patents

一种单双语字幕修改查找处理方法及系统 Download PDF

Info

Publication number
CN112104917A
CN112104917A CN202010784084.8A CN202010784084A CN112104917A CN 112104917 A CN112104917 A CN 112104917A CN 202010784084 A CN202010784084 A CN 202010784084A CN 112104917 A CN112104917 A CN 112104917A
Authority
CN
China
Prior art keywords
caption
subtitle
file
bilingual
monolingual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010784084.8A
Other languages
English (en)
Other versions
CN112104917B (zh
Inventor
王正航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Yimantianxia Technology Co ltd
Original Assignee
Wuhan Yimantianxia Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Yimantianxia Technology Co ltd filed Critical Wuhan Yimantianxia Technology Co ltd
Priority to CN202010784084.8A priority Critical patent/CN112104917B/zh
Publication of CN112104917A publication Critical patent/CN112104917A/zh
Application granted granted Critical
Publication of CN112104917B publication Critical patent/CN112104917B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)
  • Studio Circuits (AREA)

Abstract

本发明公开了一种单双语字幕修改查找处理方法及系统,涉及字幕处理领域,该方法包括获取完成修改的单语字幕文件,以及翻译中的双语字幕文件;依次按条读取单语字幕文件中的字幕,将读取出的当前条字幕记为第一字幕,并从双语字幕文件中读取出与第一字幕的时间轴相差在预设时间范围内的所有字幕,记为字幕集合,所述字幕集合包括至少一条双语字幕;将第一字幕与字幕集合进行比对;基于比对结果,判断得到双语字幕相较于单语字幕的修改类型,并对字幕进行标记和修改处理。本发明能够极大地节省翻译修改时间。

Description

一种单双语字幕修改查找处理方法及系统
技术领域
本发明涉及字幕处理领域,具体涉及一种单双语字幕修改查找处理方法及系统。
背景技术
字幕是指以文字形式显示电视、电影、舞台作品中的对话等非影像内容,也指视频类影视作品后期所加的文字。在电影银幕、电视机等显示屏下方出现的解说文字以及种种文字,如影片的片名、演职员表、唱词、对白、说明词以有人物介绍、地名和年代等都称为字幕。
在单语字幕翻译为双语字幕的过程中,若部分单语字幕发生改变,则需要找出该单语字幕对应的已经翻译完成的双语字幕部分,以便对双语字幕部分进行重新翻译。现有技术中,对于双语字幕部分的查找一般通过某些工具完成,但这类工具在使用的过程中,存在以下缺点:1、字幕语句较多的情况下,对于修改部分的字幕查找较为耗时;2、在双语字幕与单语字幕进行比对以找出修改部分时,容易产生遗漏。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种单双语字幕修改查找处理方法及系统,能够极大地节省翻译修改时间。
为达到以上目的,本发明提供一种单双语字幕修改查找处理方法,包括以下步骤:
获取完成修改的单语字幕文件,以及翻译中的双语字幕文件;
依次按条读取单语字幕文件中的字幕,将读取出的当前条字幕记为第一字幕,并从双语字幕文件中读取出与第一字幕的时间轴相差在预设时间范围内的所有字幕,记为字幕集合,所述字幕集合包括至少一条双语字幕;
将第一字幕与字幕集合进行比对;
基于比对结果,判断得到双语字幕相较于单语字幕的修改类型,并对字幕进行标记和修改处理。
在上述技术方案的基础上,在依次读取单语字幕文件中的字幕之前,还包括:识别单语字幕文件中字幕是否为字幕类型,识别双语字幕文件中的字幕类型,所述字幕类型包括单语字幕和双语字幕。
在上述技术方案的基础上,所述识别单语字幕文件中字幕是否为字幕类型,具体包括以下步骤:
读取单语字幕文件中的每条字幕;
拼接读取的每条字幕的第一行,形成第一文本块;
拼接读取的每条字幕的最后一行,形成第二文本块;
判断第一文本块的语言代码与第二文本块的语言代码是否相同,若是,则单语字幕文件中的字幕为单语字幕,若否,则单语字幕文件中的字幕为双语字幕。
在上述技术方案的基础上,所述识别双语字幕文件中的字幕类型,具体包括以下步骤:
读取双语字幕文件中的每条字幕;
拼接读取的每条字幕的第一行,形成第三文本块;
拼接读取的每条字幕的最后一行,形成第四文本块;
判断第三文本块的语言代码与第四文本块的语言代码是否相同,若是,则双语字幕文件中的字幕为单语字幕,若否,则双语字幕文件中的字幕为双语字幕。
在上述技术方案的基础上,在将第一字幕与第二字幕进行比对之前,还包括:去除第一字幕与第二字幕的ass特效代码和行尾的标点符号。
在上述技术方案的基础上,所述单语字幕文件中的字幕,每条字幕仅包括原文,所述双语字幕文件中的字幕,每条字幕包括原文和译文。
在上述技术方案的基础上,所述判断得到双语字幕相较于单语字幕的修改类型,并对字幕进行标记和修改处理,具体为:
按行对字幕集合中的每条字幕进行拆分,得到多行字幕文本;
若满足第一规则,所述第一规则为第一字幕与拆分得到的任一行字幕文本内容相同,则表明单语字幕文件中对应第一字幕的字幕未发生修改,则提取双语字幕文件中对应第一字幕的字幕的译文,与第一字幕的时间轴和文本组成新的双语字幕;
若满足第二规则,所述第二规则为拆分得到的任一行字幕文本是第一字幕内容的前缀字符串,且字幕集合中与该行字幕文本所属字幕相邻的下一个字幕的任一行字幕文本是第一字幕内容的后缀字符串,则表明第一字幕为进行合并修改后得到的字幕,则提取双语字幕文件中对应第一字幕的两个字幕的译文,与第一字幕的时间轴和文本组成新的双语字幕;
若满足第三规则,所述第三规则为第一字幕内容是拆分得到的任一行字幕文本的前缀字符串,且单语字幕文件中与第一字幕相邻的下一个字幕的内容是拆分得到的任一行字幕文本的后缀字符串,则表明单语字幕文件中的这两条字幕为进行拆分修改后得到的字幕,则提取单语字幕文件中拆分修改后得到的两条字幕的时间轴和文本组成新的单语字幕,并对形成的新字幕进行标记;
若满足第四规则,所述第四规则为第一字幕内容与拆分得到的任一行字幕文本的相似度大于预设相似度,且该行字幕文本是拆分得到的所有行字幕文本中与第一字幕内容相似度最大的一行字幕文本,且不满足第一规则、第二规则、第三规则中的任何一个,则表明单语字幕文件中对应第一字幕的字幕发生修改,则提取双语字幕文件中对应第一字幕的字幕的译文,与第一字幕的时间轴和文本组成新的双语字幕,并对形成的新字幕进行标记,并对新字幕进行重新翻译;
若第一字幕与拆分得到的多行字幕进行比对,不满足第一规则、第二规则、第三规则、第四规则中的任何一个,则表明单语字幕文件中对应第一字幕的字幕为新增字幕,记为第五规则,则提取单语字幕文件中对应第一字幕的时间轴和文本组成新的单语字幕,并对形成的新字幕进行标记,并对新字幕进行重新翻译。
本发明提供一种单双语字幕修改查找处理系统,包括:
获取模块,其用于获取完成修改的单语字幕文件,以及翻译中的双语字幕文件;
读取模块,其用于依次按条读取单语字幕文件中的字幕,将读取出的当前条字幕记为第一字幕,并从双语字幕文件中读取出与第一字幕的时间轴相差在预设时间范围内的所有字幕,记为字幕集合,所述字幕集合包括至少一条双语字幕;
比对模块,其用于将第一字幕与字幕集合进行比对;
判断模块,其用于基于比对模块的比对结果,判断得到第一字幕相较于字幕集合中字幕发生改变的类型,并对双语字幕文件中的字幕进行修改处理。
在上述技术方案的基础上,还包括识别模块,所述识别模块用于识别单语字幕文件中字幕是否为字幕类型,识别双语字幕文件中的字幕类型,当识别到单语字幕文件中字幕为单语字幕,且双语字幕文件中的字幕为双语字幕,则驱使读取模块、比对模块和判断模块工作,反之,则结束。
与现有技术相比,本发明的优点在于:通过将读取出的单语字幕文件中的字幕,与从双语字幕文件中读取出的时间轴相差在预设时间范围内的字幕进行比对,从而快速获知发生修改了的字幕部分,且在进行修改操作时,保留未修改部分的翻译内容,只对修改部分进行翻译,从而极大地节省翻译修改时间。
附图说明
图1为本发明实施例中一种单双语字幕修改查找处理方法的流程图;
图2为本发明实施例中一种单双语字幕修改查找处理系统法的结构示意图。
具体实施方式
本发明实施例提供一种单双语字幕修改查找处理方法,能够快速找出发生修改的部分,保留未修改部分的翻译内容,只对修改部分进行翻译,极大地节省翻译时间。本发明实施例相应地还提供了一种单双语字幕修改查找处理系统。
以下结合附图及实施例对本发明作进一步详细说明。本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
参见图1所示,本发明实施例提供的一种单双语字幕修改查找处理方法,包括以下步骤:
S1:获取完成修改的单语字幕文件,以及翻译中的双语字幕文件;
本发明实施例中,单语字幕文件中的字幕,每条字幕仅包括原文,所述双语字幕文件中的字幕,每条字幕包括原文和译文。例如,对于中英双语字幕电影,则单语字幕文件中的字幕为中文,双语字幕文件中的字幕包括中文和英文,且双语字幕文件中每条字幕的中文和英文分行排列。
本发明实施例中,在依次读取单语字幕文件中的字幕之前,还包括:识别单语字幕文件中字幕是否为字幕类型,识别双语字幕文件中的字幕类型,字幕类型包括单语字幕和双语字幕。识别单语字幕文件中字幕是否为字幕类型,具体包括以下步骤:
A:读取单语字幕文件中的每条字幕;
B:拼接读取的每条字幕的第一行,形成第一文本块;
C:拼接读取的每条字幕的最后一行,形成第二文本块;
D:判断第一文本块的语言代码与第二文本块的语言代码是否相同,若是,则单语字幕文件中的字幕为单语字幕,若否,则单语字幕文件中的字幕为双语字幕。
识别双语字幕文件中的字幕类型,具体包括以下步骤:
a:读取双语字幕文件中的每条字幕;
b:拼接读取的每条字幕的第一行,形成第三文本块;
c:拼接读取的每条字幕的最后一行,形成第四文本块;
d:判断第三文本块的语言代码与第四文本块的语言代码是否相同,若是,则双语字幕文件中的字幕为单语字幕,若否,则双语字幕文件中的字幕为双语字幕。
S2:依次按条读取单语字幕文件中的字幕,将读取出的当前条字幕记为第一字幕,并从双语字幕文件中读取出与第一字幕的时间轴相差在预设时间范围内的所有字幕,记为字幕集合,字幕集合包括至少一条双语字幕。本发明实施例的预设时间为2分钟。对于字幕集合,若第一字幕的时间轴为10:30,则读取出双语字幕文件时间轴在8:30~12:30范围内的所有字幕,记到字幕集合中。
S3:将第一字幕与字幕集合进行比对。在将第一字幕与第二字幕进行比对之前,还包括:去除第一字幕与第二字幕的ass特效代码和行尾的标点符号,以提升比对的准确性。ass,英文全称Advanced SubStation Alpha,其是一种高级字幕格式,它支持前置标签来控制样式。
S4:基于比对结果,判断得到双语字幕相较于单语字幕的修改类型,并对字幕进行标记和修改处理。
本发明实施例中,判断得到双语字幕相较于单语字幕的修改类型,并对字幕进行标记和修改处理,具体为:
按行对字幕集合中的每条字幕进行拆分,得到多行字幕文本,一般的,每条字幕拆分得到两行字幕文本,一行为原文,一行为译文;
若满足第一规则,第一规则为第一字幕与拆分得到的任一行字幕文本内容相同,则表明单语字幕文件中对应第一字幕的字幕未发生修改,则提取双语字幕文件中对应第一字幕的字幕中的译文,与第一字幕的时间轴和文本组成新的双语字幕;例如,第一字幕的内容与字幕集合中字幕A的一行字幕文本内容相同,则将第一字幕的原文和时间轴,与字幕A的译文进行组合,形成一条新的双语字幕,替换掉双语字幕文件中的字幕A;
若满足第二规则,第二规则为拆分得到的任一行字幕文本是第一字幕内容的前缀字符串,且字幕集合中与该行字幕文本所属字幕相邻的下一个字幕的任一行字幕文本是第一字幕内容的后缀字符串,则表明第一字幕为进行合并修改后得到的字幕,则对第一字幕进行标记。并提取双语字幕文件中对应第一字幕的两个字幕的译文,与第一字幕的时间轴和文本组成新的双语字幕。例如,字幕B和字幕C是字幕集合中的两条相邻字幕,字幕B的一行字幕文本是第一字幕内容的前缀字符串,字幕C的一行字幕文本是第一字幕内容的后缀字符串,则第一字幕是字幕B和字幕C的原文合并后得到的字幕。将第一字幕的原文和时间轴,与字幕B和字幕C译文进行组合,形成一条新的双语字幕,替换掉双语字幕文件中的字幕B和字幕C。
若满足第三规则,所述第三规则为第一字幕内容是拆分得到的任一行字幕文本的前缀字符串,且单语字幕文件中与第一字幕相邻的下一个字幕的内容是拆分得到的任一行字幕文本的后缀字符串,则表明单语字幕文件中的这两条字幕为进行拆分修改后得到的字幕,则对单语字幕文件中的这两条字幕进行标记。并提取单语字幕文件中拆分修改后得到的两条字幕的时间轴和文本组成新的单语字幕;例如,字幕D是单语字幕文件中与第一字幕相邻的下一个字幕,第一字幕内容是拆分得到的字幕E任一行文本的前缀字符串,字幕D的内容是拆分得到的字幕E任一行文本的后缀字符串,则说明第一字幕和字幕D是单语字幕文件中原先某一条字幕拆分后得到的字幕,取第一字幕和字幕D,替换掉双语字幕文件的字幕E。
若满足第四规则,第四规则为第一字幕内容与拆分得到的任一行字幕文本的相似度大于预设相似度,且该行字幕文本是拆分得到的所有行字幕文本中与第一字幕内容相似度最大的一行字幕文本,且不满足第一规则、第二规则、第三规则中的任何一个,则表明单语字幕文件中对应第一字幕的字幕发生修改,并对第一字幕进行标记;本发明实施例中的预设相似度为50%。提取双语字幕文件中对应第一字幕的字幕的译文,与第一字幕的时间轴和文本组成新的双语字幕,并对新字幕进行重新翻译,之前的译文可以作为翻译的参考。例如,字幕集合中的字幕F的一行字幕文本与第一字幕内容的相似度大于预设相似度,且该行字幕文本是拆分得到的所有行字幕文本中与第一字幕内容相似度最大的一行字幕文本,则将第一字幕的原文和时间轴,与字幕F的译文组合,形成一条新的双语字幕,替换掉双语字幕文件中的字幕F。
若第一字幕与拆分得到的多行字幕进行比对,不满足第一规则、第二规则、第三规则、第四规则中的任何一个,则表明单语字幕文件中对应第一字幕的字幕为新增字幕,记为第五规则。则提取单语字幕文件中对应第一字幕的时间轴和文本组成新的单语字幕,插入到双语字幕文件中,对形成的新字幕进行标记,并对新字幕进行重新翻译。
通过本发明的单双语字幕修改查找处理方法,不需要人工介入便可快速找出修改了的字幕,且对于没有完全修改的单语字幕,复制单语字幕的时间轴到双语字幕中,对于修改了的单语字幕进行标记,方便后续进行翻译,且原文修改小于50%的单语字幕,保留了译文作为后缀翻译的参考,修改大小等于50%的单语字幕,不保留译文,全部重新翻译。
本发明实施例的单双语字幕修改查找处理方法,通过将读取出的单语字幕文件中的字幕,与从双语字幕文件中读取出的时间轴相差在预设时间范围内的字幕进行比对,从而快速获知发生修改了的字幕部分,且在进行修改操作时,保留未修改部分的翻译内容,只对修改部分进行翻译,从而极大地节省翻译修改时间。
参见图2所示,本发明实施例还提供一种单双语字幕修改查找处理系统,包括获取模块、读取模块、比对模块和判断模块。获取模块用于获取完成修改的单语字幕文件,以及翻译中的双语字幕文件;读取模块用于依次按条读取单语字幕文件中的字幕,将读取出的当前条字幕记为第一字幕,并从双语字幕文件中读取出与第一字幕的时间轴相差在预设时间范围内的所有字幕,记为字幕集合,所述字幕集合包括至少一条双语字幕;比对模块用于将第一字幕与字幕集合进行比对;判断模块用于基于比对模块的比对结果,判断得到第一字幕相较于字幕集合中字幕发生改变的类型,并对双语字幕文件中的字幕进行修改处理。
识别模块用于识别单语字幕文件中字幕是否为字幕类型,识别双语字幕文件中的字幕类型,当识别到单语字幕文件中字幕为单语字幕,且双语字幕文件中的字幕为双语字幕,则驱使读取模块、比对模块和判断模块工作,反之,则结束。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

Claims (9)

1.一种单双语字幕修改查找处理方法,其特征在于,包括以下步骤:
获取完成修改的单语字幕文件,以及翻译中的双语字幕文件;
依次按条读取单语字幕文件中的字幕,将读取出的当前条字幕记为第一字幕,并从双语字幕文件中读取出与第一字幕的时间轴相差在预设时间范围内的所有字幕,记为字幕集合,所述字幕集合包括至少一条双语字幕;
将第一字幕与字幕集合进行比对;
基于比对结果,判断得到双语字幕相较于单语字幕的修改类型,并对字幕进行标记和修改处理。
2.如权利要求1所述的一种单双语字幕修改查找处理方法,其特征在于,在依次读取单语字幕文件中的字幕之前,还包括:识别单语字幕文件中字幕是否为字幕类型,识别双语字幕文件中的字幕类型,所述字幕类型包括单语字幕和双语字幕。
3.如权利要求2所述的一种单双语字幕修改查找处理方法,其特征在于:所述识别单语字幕文件中字幕是否为字幕类型,具体包括以下步骤:
读取单语字幕文件中的每条字幕;
拼接读取的每条字幕的第一行,形成第一文本块;
拼接读取的每条字幕的最后一行,形成第二文本块;
判断第一文本块的语言代码与第二文本块的语言代码是否相同,若是,则单语字幕文件中的字幕为单语字幕,若否,则单语字幕文件中的字幕为双语字幕。
4.如权利要求2所述的一种单双语字幕修改查找处理方法,其特征在于:所述识别双语字幕文件中的字幕类型,具体包括以下步骤:
读取双语字幕文件中的每条字幕;
拼接读取的每条字幕的第一行,形成第三文本块;
拼接读取的每条字幕的最后一行,形成第四文本块;
判断第三文本块的语言代码与第四文本块的语言代码是否相同,若是,则双语字幕文件中的字幕为单语字幕,若否,则双语字幕文件中的字幕为双语字幕。
5.如权利要求1所述的一种单双语字幕修改查找处理方法,其特征在于:在将第一字幕与第二字幕进行比对之前,还包括:去除第一字幕与第二字幕的ass特效代码和行尾的标点符号。
6.如权利要求1所述的一种单双语字幕修改查找处理方法,其特征在于:所述单语字幕文件中的字幕,每条字幕仅包括原文,所述双语字幕文件中的字幕,每条字幕包括原文和译文。
7.如权利要求6所述的一种单双语字幕修改查找处理方法,其特征在于:所述判断得到双语字幕相较于单语字幕的修改类型,并对字幕进行标记和修改处理,具体为:
按行对字幕集合中的每条字幕进行拆分,得到多行字幕文本;
若满足第一规则,所述第一规则为第一字幕与拆分得到的任一行字幕文本内容相同,则表明单语字幕文件中对应第一字幕的字幕未发生修改,则提取双语字幕文件中对应第一字幕的字幕的译文,与第一字幕的时间轴和文本组成新的双语字幕;
若满足第二规则,所述第二规则为拆分得到的任一行字幕文本是第一字幕内容的前缀字符串,且字幕集合中与该行字幕文本所属字幕相邻的下一个字幕的任一行字幕文本是第一字幕内容的后缀字符串,则表明第一字幕为进行合并修改后得到的字幕,则提取双语字幕文件中对应第一字幕的两个字幕的译文,与第一字幕的时间轴和文本组成新的双语字幕;
若满足第三规则,所述第三规则为第一字幕内容是拆分得到的任一行字幕文本的前缀字符串,且单语字幕文件中与第一字幕相邻的下一个字幕的内容是拆分得到的任一行字幕文本的后缀字符串,则表明单语字幕文件中的这两条字幕为进行拆分修改后得到的字幕,则提取单语字幕文件中拆分修改后得到的两条字幕的时间轴和文本组成新的单语字幕,并对形成的新字幕进行标记;
若满足第四规则,所述第四规则为第一字幕内容与拆分得到的任一行字幕文本的相似度大于预设相似度,且该行字幕文本是拆分得到的所有行字幕文本中与第一字幕内容相似度最大的一行字幕文本,且不满足第一规则、第二规则、第三规则中的任何一个,则表明单语字幕文件中对应第一字幕的字幕发生修改,则提取双语字幕文件中对应第一字幕的字幕的译文,与第一字幕的时间轴和文本组成新的双语字幕,并对形成的新字幕进行标记,并对新字幕进行重新翻译;
若第一字幕与拆分得到的多行字幕进行比对,不满足第一规则、第二规则、第三规则、第四规则中的任何一个,则表明单语字幕文件中对应第一字幕的字幕为新增字幕,记为第五规则,则提取单语字幕文件中对应第一字幕的时间轴和文本组成新的单语字幕,并对形成的新字幕进行标记,并对新字幕进行重新翻译。
8.一种单双语字幕修改查找处理系统,其特征在于,包括:
获取模块,其用于获取完成修改的单语字幕文件,以及翻译中的双语字幕文件;
读取模块,其用于依次按条读取单语字幕文件中的字幕,将读取出的当前条字幕记为第一字幕,并从双语字幕文件中读取出与第一字幕的时间轴相差在预设时间范围内的所有字幕,记为字幕集合,所述字幕集合包括至少一条双语字幕;
比对模块,其用于将第一字幕与字幕集合进行比对;
判断模块,其用于基于比对模块的比对结果,判断得到第一字幕相较于字幕集合中字幕发生改变的类型,并对双语字幕文件中的字幕进行修改处理。
9.如权利要求8所述的一种单双语字幕修改查找处理系统,其特征在于,还包括识别模块,所述识别模块用于识别单语字幕文件中字幕是否为字幕类型,识别双语字幕文件中的字幕类型,当识别到单语字幕文件中字幕为单语字幕,且双语字幕文件中的字幕为双语字幕,则驱使读取模块、比对模块和判断模块工作,反之,则结束。
CN202010784084.8A 2020-08-06 2020-08-06 一种单双语字幕修改查找处理方法及系统 Active CN112104917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010784084.8A CN112104917B (zh) 2020-08-06 2020-08-06 一种单双语字幕修改查找处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010784084.8A CN112104917B (zh) 2020-08-06 2020-08-06 一种单双语字幕修改查找处理方法及系统

Publications (2)

Publication Number Publication Date
CN112104917A true CN112104917A (zh) 2020-12-18
CN112104917B CN112104917B (zh) 2022-07-08

Family

ID=73750403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010784084.8A Active CN112104917B (zh) 2020-08-06 2020-08-06 一种单双语字幕修改查找处理方法及系统

Country Status (1)

Country Link
CN (1) CN112104917B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113891168A (zh) * 2021-10-19 2022-01-04 北京有竹居网络技术有限公司 字幕处理方法、装置、电子设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100198581A1 (en) * 2009-01-30 2010-08-05 Facebook, Inc. Incorporation of Variables Into Textual Content
US20100226526A1 (en) * 2008-12-31 2010-09-09 Modro Sierra K Mobile media, devices, and signaling
CN104378692A (zh) * 2014-11-17 2015-02-25 天脉聚源(北京)传媒科技有限公司 一种处理视频字幕的方法及装置
CN104915417A (zh) * 2015-06-08 2015-09-16 上海如书文化传播有限公司 使用移动终端拍摄和处理图片成为电影效果的方法及装置
CN105704579A (zh) * 2014-11-27 2016-06-22 南京苏宁软件技术有限公司 媒体播放中实时自动翻译字幕的方法和系统
CN106933782A (zh) * 2015-12-30 2017-07-07 阿里巴巴集团控股有限公司 一种文本资源文件的比对方法及装置
CN108259971A (zh) * 2018-01-31 2018-07-06 百度在线网络技术(北京)有限公司 字幕添加方法、装置、服务器及存储介质
US20190215421A1 (en) * 2018-01-05 2019-07-11 Netflix, Inc. Detecting errors in the timing between subtitles and shot changes
US20200135225A1 (en) * 2018-10-25 2020-04-30 International Business Machines Corporation Producing comprehensible subtitles and captions for an effective group viewing experience

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100226526A1 (en) * 2008-12-31 2010-09-09 Modro Sierra K Mobile media, devices, and signaling
US20100198581A1 (en) * 2009-01-30 2010-08-05 Facebook, Inc. Incorporation of Variables Into Textual Content
CN104378692A (zh) * 2014-11-17 2015-02-25 天脉聚源(北京)传媒科技有限公司 一种处理视频字幕的方法及装置
CN105704579A (zh) * 2014-11-27 2016-06-22 南京苏宁软件技术有限公司 媒体播放中实时自动翻译字幕的方法和系统
CN104915417A (zh) * 2015-06-08 2015-09-16 上海如书文化传播有限公司 使用移动终端拍摄和处理图片成为电影效果的方法及装置
CN106933782A (zh) * 2015-12-30 2017-07-07 阿里巴巴集团控股有限公司 一种文本资源文件的比对方法及装置
US20190215421A1 (en) * 2018-01-05 2019-07-11 Netflix, Inc. Detecting errors in the timing between subtitles and shot changes
CN108259971A (zh) * 2018-01-31 2018-07-06 百度在线网络技术(北京)有限公司 字幕添加方法、装置、服务器及存储介质
US20200135225A1 (en) * 2018-10-25 2020-04-30 International Business Machines Corporation Producing comprehensible subtitles and captions for an effective group viewing experience

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113891168A (zh) * 2021-10-19 2022-01-04 北京有竹居网络技术有限公司 字幕处理方法、装置、电子设备和存储介质
CN113891168B (zh) * 2021-10-19 2023-12-19 北京有竹居网络技术有限公司 字幕处理方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN112104917B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
Lison et al. Opensubtitles2016: Extracting large parallel corpora from movie and tv subtitles
JP4997966B2 (ja) 対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法
JP3969628B2 (ja) 翻訳支援装置、方法及び翻訳支援プログラム
AU2020290469B2 (en) Machine-assisted translation for subtitle localization
CN103051945B (zh) 一种视频播放终端的字幕翻译方法、系统
CN103093252B (zh) 信息输出装置以及信息输出方法
JPH07282063A (ja) 機械翻訳装置
CN112104917B (zh) 一种单双语字幕修改查找处理方法及系统
CN114268829B (zh) 视频处理方法、装置、电子设备及计算机可读存储介质
JP5446877B2 (ja) 目次構造特定装置
JP2007149109A (ja) 翻訳支援装置
KR101412722B1 (ko) 자막 관리방법 및 자막 검색방법
JP2009080625A (ja) 知識構築装置、プログラムおよび知識構築方法
JP3813665B2 (ja) 文書表示装置
Karakanta et al. Are Subtitling Corpora really Subtitle-like?
JP6056489B2 (ja) 翻訳支援プログラム、方法、および装置
JP6926175B2 (ja) 表示支援装置、方法およびプログラム
JPS6118074A (ja) プレ・エデイツト方式
US20060062551A1 (en) Method for converting DVD captions
CN112965772A (zh) web页面显示方法、装置和电子设备
CN108769552B (zh) 新闻视频制作过程中字幕制作方法
US20080046488A1 (en) Populating a database
JPH0869469A (ja) 機械翻訳の方法
CN116320622B (zh) 一种广播电视新闻视频转图文稿制作系统和制作方法
CN112347755A (zh) 双语语料的生成方法、文本处理系统和字幕文件处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230614

Address after: 518000, Area A, Huayi Building, No. 9 Pingji Avenue, Xialilang Community, Nanwan Street, Longgang District, Guangzhou City, Guangdong Province, China 1603

Patentee after: Shenzhen Youyou Brand Communication Co.,Ltd.

Address before: 430000 2007, building B, Optics Valley New World t+ office building, No. 355, Guanshan Avenue, East Lake New Technology Development Zone, Wuhan, Hubei Province

Patentee before: Wuhan yimantianxia Technology Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231116

Address after: 430000 office 7, 20 / F, building B, office building, block a, Optics Valley New World Center, Donghu New Technology Development Zone, Wuhan, Hubei Province

Patentee after: Wuhan yimantianxia Technology Co.,Ltd.

Address before: 518000, Area A, Huayi Building, No. 9 Pingji Avenue, Xialilang Community, Nanwan Street, Longgang District, Guangzhou City, Guangdong Province, China 1603

Patentee before: Shenzhen Youyou Brand Communication Co.,Ltd.