CN117201889A

CN117201889A - 预先录制的视频的自动语音翻译配音

Info

Publication number: CN117201889A
Application number: CN202311273416.6A
Authority: CN
Inventors: 小特伦斯·保罗·麦卡特尼; 布赖恩·科隆纳; 迈克尔·内希巴
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-02-26
Filing date: 2018-02-26
Publication date: 2023-12-08
Also published as: US20230199264A1; KR102598824B1; US11582527B2; KR20230005430A; KR102481871B1; US12114048B2; WO2019164535A1; KR20200118894A; CN111758264A; US20200404386A1; EP3759935A1

Abstract

本申请公开了预先录制的视频的自动语音翻译配音，提供了一种将原始字幕数据的翻译与视频的音频部分对齐的方法。该方法包括由处理设备识别包括多个字幕字符串的视频的原始字幕数据。处理设备识别话语辨识数据，该话语辨识数据包括多个生成字符串以及每个生成字符串的相关联的定时信息。处理设备使用指示字符串之间的语义相似性的指配值将多个字幕字符串映射到多个生成字符串。处理设备基于映射的单独生成字符串的定时信息来将定时信息指配给单独字幕字符串。处理设备使用单独字幕字符串的指配的定时信息将原始字幕数据的翻译与视频的音频部分对齐。

Description

预先录制的视频的自动语音翻译配音

分案说明

本申请属于申请日为2018年02月26日的中国发明专利申请201880090248.8的分案申请。

技术领域

本申请涉及预先录制的视频的自动语音翻译配音。

背景技术

将视频中的话语从原始记录的语言翻译成另一种语言可能涉及将翻译音频部分语音配音到原始视频上的劳动密集型工作。通常，语音配音指代将其他或补充录音(配音的话语)与原始录制的话语组合以创建视频的最终声迹。但是，配音的话语可能与原始录制的话语不同，并且可能不与原始录制的话语的开始时间和结束时间对齐。结果，翻译音频可能看起来不同步，并且可能对观看者没有吸引力。

发明内容

下文是本公开的简化发明内容以便提供对本公开的一些方面的基本理解。此发明内容不是本公开的广泛概要。它既不旨在识别本公开的关键或决定性元素，也不旨在划定本公开的特定实施方式的任何范围或权利要求的任何范围。其唯一目的是为了以简化形式呈现本公开的一些构思作为稍后呈现的更详细描述的序言。

本公开的实施方式可以包括由处理设备识别视频的原始字幕数据的方法，其中原始字幕数据包括与视频的音频部分相关联的多个字幕字符串。处理设备可以识别针对视频的音频部分而生成的话语辨识数据，其中话语辨识数据包括多个生成字符串以及针对每个生成字符串的相关联的定时信息。处理设备可以使用指示多个字幕字符串的单独字幕字符串与多个生成字符串的单独生成字符串之间的语义相似性的指配值来映射多个生成字符串。该方法可以进一步基于映射的单独生成字符串的定时信息将定时信息指配给单独字幕字符串。处理设备可以使用指配的单独字幕字符串的定时信息来将原始字幕数据的翻译与视频的音频部分对齐。

本公开的实施方式可以包括一种用于生成原始字幕数据的翻译的翻译音频话语的方法。翻译音频话语可以是包含翻译音频话语分段集的机器生成的音频话语。该方法可以进一步包括，将音频话语分段集中的翻译音频话语分段覆盖在视频的视频分段上，该视频的视频分段对应于翻译音频话语分段中的每一个的时间间隔。该方法可以进一步包括生成第二视频，该第二视频包含视频的视频部分和包括覆盖的翻译音频话语分段的翻译音频部分。

附图说明

从下面给出的详细描述以及从本公开的各个方面和实施方式的附图，将更全面地理解本公开的方面和实施方式，然而，所述下面给出的详细描述以及从本公开的各个方面和实施方式的附图不应将本公开限制为特定的方面或实施方式，但是仅用于解释和理解。

图1图示根据本公开的一些方面的示例系统架构。

图2描绘根据本公开的一些方面的用于向原始字幕数据指配定时信息并且使用所指配的定时信息将原始字幕数据的翻译与视频内容项的音频部分对齐的方法的流程图。

图3A图示根据本公开的一些方面的向每个独特字幕字符串和独特生成字符串指配值的示例方法。

图3B图示根据本公开的一些方面的用于使用指配值来确定字幕字符串和生成字符串的匹配序列的示例方法。

图4A图示根据本公开的一些方面的用于使用指配的单独字幕字符串的定时信息来将翻译语言字幕数据与视频内容项的音频部分对齐的示例方法。

图4B图示根据本公开的一些方面的用于使用已指配的单独字幕字符串的定时信息来将机器生成的翻译字幕数据与视频的音频部分对齐的示例方法。

图5A是根据本公开的一些方面的用于多个字幕字符串和多个生成字符串的指配值的说明性示例。

图5B是根据本公开的一些方面的从字幕字符串序列和生成字符串序列生成的序列匹配对的说明性示例。

图5C图示根据本公开的一些方面的具有指配的定时信息的单独字幕字符串的示例表。

图6A图示根据本公开的一些方面的用于将翻译音频话语覆盖在视频上并生成包括翻译话语的音频部分的第二视频的示例方法。

图6B图示根据本公开的一些方面的用于调整覆盖参数以将视频内容项中的音频和视频持续时间与翻译话语进行匹配的示例方法。

图7描绘根据本公开的一个或多个方面操作的示例计算系统的框图。

具体实施方式

本公开的各方面涉及使用来自原始字幕数据的单独字幕字符串的定时信息来将翻译字幕数据对齐到视频的音频部分。翻译字幕数据可以用于将话语的配音翻译覆盖到视频上以生成视频的翻译版本。原始视频和视频的翻译版本可以存储在用于媒体内容项的内容共享平台内。客户端设备的用户可以查询和检索视频的翻译版本，以在其他们相应的客户端设备上回放。客户端设备可以包括但不限于个人计算机、平板电脑、智能电话或任何其他计算设备。

存储在内容共享平台上的视频可以具有音频，该音频包括以与观看视频的用户的期望语言不同的原始语言记录的话语。例如，内容共享平台上的视频可以包括以英语录制的话语；但是，用户可能只懂日语，并且因此想要以日语观看视频。许多专业制作的视频可能包括不同的音频声迹，这些音频声迹指定不同语言的话语。这些专业制作的视频的制作者可以使用配音演员为说外语的观看者生成外语轨道。但是，使用配音演员来生成替代的语言轨道是一个耗时且富有表现力的过程。成本可能会随着特定视频所期望的不同外语版本的数量进一步增加。

使用配音演员生成视频的外语版本的另一种替代方法是为外语对白提供视频。然后，外语对白可以覆盖在视频上，以在视频内显示说出的单词的外语翻译。但是，简单地提供外语对白的主要缺点是，要求观看者在播放视频时阅读对白。观看者的在这部分上的这种额外努力可能会使用户的注意力从视频内显示的内容上移开。例如，如果观看者正在观看有关汽车维修的“入门指南”视频，则对观看者而言，注意视频内示出的步骤而不是关注所提供的外语对白将是有益的。

技术可用于使用计算机生成的话语，该计算机生成的话语将外语对白作为输入，并生成要覆盖在原始视频上的话语。但是，将自动生成的外语话语的持续时间与原始话语同步可能会是有问题的，并且可能导致外语话语开始或结束得太早或太晚。当将来自对白的定时信息用于确定覆盖的外语话语的时间间隔时，可能会发生自动生成外语话语的同步问题。例如，与对白相关联的定时信息(字幕定时)可以与何时将对白显示在视频上有关。通常，对白在视频中的说话者说话之前显示，而在说话者结束说话后保持显示。这样做的原因是为了确保观看者有足够的时间阅读所显示对白内的文本。将对白转换成话语以进行外语配音时，转换后的话语的持续时间可能与视频中原始话语的持续时间不匹配。结果，基于字幕定时来同步外语话语(如传统上所做的那样)可能会导致话语覆盖不精确，这可能导致话语定时不准确的不可取的视频。

本公开的各方面通过使用与原始语言相关联的话语辨识数据以及与原始语言相关联的字幕数据来帮助确定如何将翻译话语与视频的音频部分进行匹配来解决上述和其他缺陷。话语辨识数据可以包括以生成字符串的形式的自动生成话语数据，该生成字符串包括用于每个生成字符串的定时信息。生成字符串可以表示来自视频内容项中最初说出的对话的单词和/或短语。例如，自动生成话语数据可以是来自视频的最初说出的对话的转录，其中每个单词都具有描述单词开始时间和结束时间的相关联的定时信息。生成话语数据可能包括错误，诸如话语内的错误识别的单词。为了改善这种错误，可以将原始字幕数据与生成话语数据结合使用，该原始字幕数据包括表示视频中最初说出的单词的字幕字符串。原始字幕数据可以包括从用于对视频内容项加字幕的字幕文本提供的最初说出的对话的转录。

原始字幕数据内的字幕字符串可以被映射到话语辨识数据中的生成字符串，以便将定时信息从生成字符串指配给原始字幕数据的字幕字符串。可以使用指配给单独字幕字符串和单独生成字符串的值来执行将字幕字符串映射到生成字符串，所述值指示单独字幕字符串和单独生成字符串之间的语义相似性。通过这样做，可以将来自原始字幕数据的话语的准确性与来自话语辨识数据的定时信息的准确性进行组合，以便将原始字幕数据与视频的音频部分对齐。

一旦原始字幕数据内的字幕字符串被映射到话语辨识数据中的生成字符串，并且将来自生成字符串的定时信息指配给原始字幕数据的字幕字符串，则原始字幕数据和指配的定时信息可以被用于将翻译字幕数据(针对除了原始字幕数据之外的语言)与视频的音频部分对齐。翻译字幕数据可以包括与视频的音频部分相关联的翻译字符串。

作为对齐过程的一部分，可以基于字幕字符串中的标点符号从原始字幕数据的字幕字符串中生成字幕语句片段。另外，可以基于翻译字符串中的标点符号从翻译字幕数据的翻译的字符串生成翻译语句片段。可以基于与原始字幕数据和翻译字幕数据相关联的定时，将字幕语句片段映射到相应的翻译语句片段。将原始字幕数据的语句片段映射到经翻译数据的相应语句片段，而不是将原始字幕数据的单独字符串映射到翻译字幕数据的对应单独字符串，节省处理资源，因为单独字符串之间的映射会涉及原始字幕数据和翻译字幕数据两者中的字符串的较深的理解含义，以便确定原始字符串和翻译字符串之间的一对一对应关系。在字符串级别处确定原始字幕数据与翻译字幕数据的对应关系将消耗大量操作，以确保在字符串级别处的正确对齐字幕数据。

对于每个所得的字幕语句片段，可以使用字幕语句片段中的单独字幕字符串的指配的定时信息来估计涵盖字幕语句片段的时间间隔。可以基于映射的单独字幕语句片段的估计的时间间隔，将时间间隔指配给单独翻译语句片段。可以基于标点符号从连续的翻译语句片段中生成翻译语句。每个翻译语句可以具有由相应翻译的语句中包括的翻译语句片段的指配的时间间隔定义的定时信息。使用每个翻译语句的定时信息，翻译语句可以与视频的音频部分对齐。

在一些实施方式中，外语配音使用作为机器生成的话语的翻译音频话语来翻译原始字幕数据。翻译的音频话语包括翻译的音频话语分段，其可以覆盖在视频的视频分段上，该视频分段对应于每个翻译音频话语分段的时间间隔。所得的视频可以包含原始视频部分和包括覆盖的翻译的音频话语分段的翻译的音频部分。

本公开的各方面提供从翻译的字幕话语生成的翻译的音频部分与视频中原始音频话语的持续时间和定时的精确对齐。结果，将配音的音频平稳地集成到视频上，从而改善用户的观看体验并增加用户对外语配音的视频的兴趣。

图1图示根据本公开的一个实施方式的示例系统架构100。系统架构100包括客户端设备110A至110Z、网络105、数据存储106、内容共享平台120、服务器130、以及话语辨识和生成服务150。在一个实施方式中，网络105可以包括公用网络(例如，因特网)、专用网络(例如，局域网(LAN)或广域网(WAN))、有线网络(例如，以太网网络)、无线网络(例如，802.11网络或Wi-Fi网络)、蜂窝网络(例如，长期演进(LTE)网络)、路由器、集线器、交换机、服务器计算机和/或其组合。在一个实施方式中，数据存储106可以是存储器(例如，随机存取存储器)、高速缓存、驱动器(例如，硬盘驱动器)、闪存驱动器、数据库系统或能够存储数据的其它类型的组件或设备。数据存储106还可以包括也可以跨多个计算设备(例如，多个服务器计算机)的多个存储组件(例如，多个驱动器或多个数据库)。

客户端设备110A至110Z可以均包括诸如个人计算机(PC)、膝上型电脑、移动电话、智能电话、平板计算机、连网电视、上网本计算机等的计算设备。在一些实施方式中，客户端设备110A至110Z也可以被称为“用户设备”。每个客户端设备包括媒体查看器111。在一个实施方式中，媒体查看器111可以是允许用户查看诸如视频的内容的应用。例如，媒体查看器111可以是可访问、检索、呈现和/或导航由web服务器所服务的内容(例如，诸如超文本标记语言(HTML)页面的网页、数字媒体项或内容项等)的web浏览器。媒体查看器111可以将内容(例如，网页、媒体查看器)渲染、显示和/或呈现给用户。媒体查看器111还可以显示被嵌入在网页(例如，可以提供关于由在线商家所销售的产品的信息的网页)中的嵌入式媒体播放器(例如，播放器或HTML5播放器)。在另一示例中，媒体查看器111可以是允许用户查看诸如数字视频的数字媒体内容项的独立应用。

媒体查看器111可以由服务器130和/或内容共享平台120提供给客户端设备110A至110Z。例如，媒体查看器111可以是被嵌入在由内容共享平台120所提供的网页中的嵌入式媒体播放器。在另一示例中，媒体查看器111可以是与服务器130进行通信的应用。

如果适当，则还可以在其它实施方式中在客户端设备110A至110Z上执行在一个实施方式中被描述为由内容共享平台120执行的功能。此外，归因于特定组件的功能性可由一起操作的不同或多个组件执行。内容共享平台120还可作为通过适当的应用编程接口提供给其它系统或设备的服务被访问，并且因此不限于在网站中使用。

在一个实施方式中，内容共享平台120可以是一个或多个计算设备(诸如机架式服务器、路由器计算机、服务器计算机、个人计算机、大型机计算机、膝上型计算机、平板计算机、连网电视、台式计算机等)、数据存储(例如，硬盘、存储器、数据库)、网络、软件组件和/或可以用于给用户提供对媒体项(也称为内容项)的访问的和/或将媒体项提供给用户的硬件组件。例如，内容共享平台120可以允许用户消费、上传、搜索、批准(“喜欢”)、不喜欢和/或评论媒体项。内容共享平台120还可以包括可以用于给用户提供对媒体项的访问的网站(例如，网页)。

在本公开的实施方式中，“用户”可以被表示为单个个人。然而，本公开的其他实施方式包括“用户”，其是由用户集和/或自动化源控制的实体。例如，在社交网络中联合为社区的个人用户集可以被视为“用户”。在另一个示例中，自动化的消费者可以是内容共享平台120的自动化的摄取管线，例如主题频道。

内容共享平台120可以包括多个频道(例如，频道A至Z)。频道可以是可从公共源获得的数据内容或具有公共话题、主题或主旨的数据内容。数据内容可以是由用户选取的数字内容、由用户使其可用的数字内容、由用户上传的数字内容、由内容提供者选取的数字内容、由广播者选取的数字内容等。例如，频道X可包括视频Y和Z。频道可与所有者相关联，所述所有者是可对频道执行动作的用户。可基于所有者的动作(诸如所有者在频道上使数字内容可用、所有者选择(例如，喜欢)与另一频道相关联的数字内容、所有者对与另一频道相关联的数字内容进行评论等)使不同的活动与频道相关联。可将与频道相关联的活动收集到频道的活动馈送中。除频道的所有者以外的用户可以订阅他们感兴趣的一个或多个频道。“订阅”的概念也可以被称为“喜欢”、“追随”、“加为好友”等。

一旦用户订阅频道，就可给用户呈现来自频道的活动馈送的信息。如果用户订阅多个频道，则可将用户订阅的每个频道的活动馈送组合成聚合活动馈送。可将来自聚合活动馈送的信息呈现给用户。频道可以具有它们自己的馈送。例如，当导航到内容共享平台上的频道的主页时，可以在频道主页上显示由该频道产生的馈送项。用户可以具有聚合馈送，所述聚合馈送是包括至少来自用户订阅的所有频道的内容项的子集的馈送。聚合馈送还可以包括来自用户未订阅的频道的内容项。例如，内容共享平台120或其它社交网络可以将推荐的内容项插入到用户的聚合馈送中，或者可以在聚合馈送中插入与用户的相关连接相关联的内容项。

每个频道可以包括一个或多个媒体内容项121。媒体内容项121的示例可包括但不限于数字视频、数字电影、数字照片、数字音乐、网站内容、社交媒体更新、电子书(电子书)、电子杂志、数字报纸、数字音频书、电子期刊、web博客、真实简单聚合(RSS)馈送、电子漫画书、软件应用等。在一些实施方式中，媒体内容项121也被称为视频内容项。

可以经由因特网和/或经由移动设备应用消费媒体内容项121。如本文中所使用的，“媒体”、“媒体项”、“在线媒体项”、“数字媒体”、“数字媒体项”、“内容”、“内容项”和“视频内容项”可以包括可以使用被配置成向实体呈现数字媒体项的软件、固件或硬件来执行或者加载的电子文件。在一个实施方式中，内容共享平台120可以使用数据存储106来存储媒体内容项121。

在一个实施方式中，话语辨识和生成服务150可以是一个或多个计算设备(例如，机架式服务器、服务器计算机等)，其配置成通过分析来自视频内容项的音频来识别视频中的说出语言来生成话语辨识数据。话语辨识和生成服务150可以实现自动话语辨识(ASR)、话语到文本(STT)或配置成辨识音频中的说出对话的任何其他话语辨识算法。话语辨识数据可以包括多个生成字符串，每个生成字符串表示来自音频部分的一个或多个说出单词。每个生成字符串可以包括音频定时，该音频定时识别音频部分内的生成字符串的开始和结束时间。例如，如果话语辨识和生成服务150分析包含具有“Hello world”的说出话语的音频的视频，则话语辨识和生成服务150可以实现ASR以生成话语辨识数据，该话语辨识数据包含作为“hello”和“world”的从“Hello world”生成的字符串。生成的字符串可能具有相关联的定时信息，该定时信息指示视频中的“hello”在0:05秒开始，并且在0:07秒结束。类似地，“world”字符串可以具有指示“world”在0:07秒开始并且在0:08秒结束的定时信息。话语辨识和生成服务150可以被配置成辨识视频内容项内的多种不同的说出语言。

在一个实施方式中，话语辨识和生成服务150可以被配置成使用字幕数据生成说出对话的计算机化音频。例如，话语辨识和生成服务150可以接收两个不同人之间的会话的转录的字幕数据。话语辨识和生成服务150可以将两种不同的计算机生成的语音与字幕数据相关联，并且然后使用字幕数据作为输入来生成表示会话的音频。话语辨识和生成服务150可以被配置成输入不同的语言的字幕数据，并以输入的字幕数据的语言生成针对话语的音频部分。例如，话语辨识和生成服务150可以接收日语的语句，并且可以将该语句合成为表示说日语语句的计算机语音的音频。

在一个实施方式中，服务器130可以是一个或多个计算设备(例如，机架式服务器、服务器计算机等)。服务器130可以被包括在内容共享平台120中或者可以是不同系统的一部分。服务器130可以托管字幕对齐组件140和音频/视频持续时间匹配组件145。字幕对齐组件140可以被配置成基于字幕数据和话语辨识数据内的字符串的语义相似性将字幕数据与话语辨识数据对齐。例如，字幕对齐组件140可以接收将表示来自特定视频内容项的音频的字幕转录的原始字幕数据与表示来自特定视频内容项的自动辨识的话语的话语辨识数据进行对齐的请求。字幕对齐组件140可以使用来自原始字幕数据和话语辨识数据的字符串内的语义相似性来确定匹配的字符串序列并生成用于匹配的字符串序列的映射信息。例如，如果字幕对齐组件140确定来自于原始字幕数据的短语“this is really cool(这真的很酷)”与话语辨识数据中的相同短语“this is really cool”匹配，则字幕对齐组件140可以生成映射信息，其将构成“this is really cool”的字幕字符串映射到从话语辨识数据中生成的相应字符串。通过这样做，字幕对齐组件140可以将与单独生成字符串相关联的定时信息指配给对应的单独字幕字符串。

在一个实施方式中，字幕对齐组件140可以将字幕字符串从原始字幕数据与翻译的字幕数据对齐。翻译的字幕数据可以表示视频内容项的音频部分中的说出对话的翻译转录。字幕对齐组件140可以使用诸如字典、语言数据库或其他翻译服务的翻译资源，来确定如何将一种语言的原始字幕数据与另一种语言的翻译的字幕数据对齐。例如，翻译服务可以提供一种语言的单词、短语和/或语句到另一种语言的翻译，并且字幕对齐组件140可以识别原始字幕数据中的那些单词、短语和/或语句及其在翻译字幕数据中的翻译版本以执行对齐。

在一个实施方式中，音频/视频匹配组件145可以被配置成确定来自视频的话语的翻译的音频部分和话语的原始音频部分之间的持续时间差异。音频/视频匹配组件145可以被配置成调整翻译的音频部分的速率、视频内容项中的视频部分的速率和/或两者，以便将话语的翻译的音频部分的持续时间与话语的原始音频部分对齐，用于配音目的。通过调整话语的翻译部分的音频速率和/或视频速率，音频/视频匹配组件145可以将翻译音频部分无缝地覆盖在原始视频内容项中的对应视频部分上，使得翻译音频部分与原始话语对齐。

现在将更详细地讨论与本公开的各方面有关的各种方法。通常，这些方法可以由处理逻辑来执行，该处理逻辑可以包括硬件(例如，处理设备、电路、专用逻辑、可编程逻辑、微码等)、软件(例如，在处理设备上运行的指令)或其组合。在一些实施方式中，该方法可以由服务器130内的组件执行。在替代实施方式中，一些方法也可以使用图1的话语辨识和生成服务150和/或媒体查看器111来执行。

为了简化说明，将本公开的方法描绘和描述为一系列行为。然而，根据本公开的行为可以以各种顺序和/或同时发生，并且具有本文未呈现和描述的其他行为。此外，可能不需要所有图示的行为来实现根据所公开的主题的方法。另外，本领域的技术人员将理解和领会，可以经由状态图或事件将方法替代地表示为一系列相关的状态。另外，应领会到，在本说明书中公开的方法能够存储在制品上，以促进将此类方法输送并转移到计算设备。如本文中所使用的术语“制品”旨在包含可从任何计算机可读设备或存储介质访问的计算机程序。

图2描绘方法200的各方面的流程图，其用于将定时信息指配给原始字幕数据的字幕字符串并使用指配的定时信息将原始字幕数据的翻译与视频内容项的音频部分对齐。

在框205处，处理逻辑可以识别视频内容项的原始字幕数据。原始字幕数据包括与视频内容项的音频部分相关联的多个字幕字符串。在实施方式中，处理逻辑可以从可以存储视频内容项及其相关联的原始字幕数据的数据存储106中检索原始字幕数据。原始字幕数据可以表示视频内容项的音频部分(例如，话语)的转录。原始字幕数据可以被格式化为包括表示视频中来自说话者的说出单词的语句或片段以及指示何时要在视频中显示字幕的相关联的字幕定时信息。例如，如果视频中的第一个人说出“Hello world！”则原始的字幕数据可能包括将“Hello world！”表示为两个字幕字符串的语句，一个字幕字符串表示“Hello”，另一个字幕字符串表示“world！”。字幕字符串可以表示单词、短语或字符集。原始字幕数据中的字幕定时信息可以指示何时要在屏幕上显示语句“Hello world！”。字幕定时信息不一定与当第一个人开始说出短语“Hello world！”时对齐。反而字幕定时信息可以被配置成显示字幕，使得观看者具有足够的时间来读取字幕。例如，字幕定时信息可以在视频中的第一个人开始说话之前显示字幕1或1/2秒。来自字幕定时信息的开始和结束时间可能会基于字幕的大小而变化。因此，字幕定时信息可能不是说话者何时开始在视频中说话的准确指示器。

在框210处，处理逻辑可以识别为视频内容项的音频部分生成的话语辨识数据。在一个实施方式中，处理逻辑可以从话语辨识和生成服务150请求话语辨识数据。话语辨识和生成服务150可以在请求时生成，或者可以先前已经生成用于视频内容项的话语辨识数据，并且可以已经在数据存储106中存储了话语辨识数据。话语辨识数据可以表示自动辨识的话语或来自视频内容项的其他音频。话语辨识数据可以包括多个生成字符串，其中每个单独生成字符串表示视频内容项内的说话者说出的单词、短语或字符集。话语辨识数据内的每个生成字符串可以与定时信息相关联，该定时信息表示在视频内说出生成字符串的特定时间。使用上面的示例，短语“Hello world！”的定时信息可能包括单词“hello”被说出的定时以及当单词“world”被说出的定时。定时信息可以包括每个生成字符串的特定开始和结束时间，或者可以包括每个生成字符串的特定开始时间和持续时间信息。

在框215处，处理逻辑可以使用指示单独字幕字符串和单独生成字幕字符串之间的语义相似性的指配值来将来自原始字幕数据的多个字幕字符串映射到来自话语辨识数据的多个生成字符串。在一个实施方式中，处理逻辑可以将整数标识符(ID)指配给多个字幕字符串和多个生成字符串内的每个独特字符串。整数ID可以被用于基于单词编辑距离值来确定字符串之间的语义相似性，该单词编辑距离值表示将一个单词变换为另一个单词所需的指令数量。将一个单词变换为另一个单词的指令可以包括诸如字母替换、字母添加、字母去除和相邻字母切换的指令。在其他实施方式中，可以将除了整数ID之外的标识符指配给多个字幕字符串和多个生成字符串中的每个独特字符串。

下面结合图3A和3B更详细地讨论了通过将值指配给每个独特字幕字符串和生成字符串并且确定字幕字符串和生成字符串的匹配序列来将多个字幕字符串映射到多个生成字符串的一些方面。

参考图2，在框220处，处理逻辑基于映射的单独生成字符串的定时信息来将定时信息指配给单独字幕字符串。图5C图示具有指配的定时信息的单独字幕字符串的示例表。表570包含基于话语辨识数据的指代与视频内容项相关联的音频部分的定时的开始和结束定时、每个单独字幕字符串的持续时间定时、以及置信度信息。置信度信息指代可以基于字幕字符串与对应的生成字符串精确地匹配程度而指配给每个字幕字符串的置信度值。例如，如果匹配是基于整数ID值的精确匹配，则可以将置信度值设置为1。可替代地，如果匹配是部分匹配或根据相邻的字幕字符串推断的匹配，则置信度值可以设置为成比例的较低值。

如图5C中所示，字符串575指代单词“pea(豌豆)”，并且先前未映射到相应的生成字符串。结果，定时信息被设置为零。处理逻辑可以基于相邻字符串来推断字符串575的定时信息。例如，由于实际说出的对话可以包括单词“chickpea(鹰嘴豆)”而不是字符串“chick”和“pea”，可以将在前的字符串“chick(小鸡)”的结束时间应用于字符串575“pea”的结束时间。

参考图2，在框225处，处理逻辑使用原始字幕数据的单独字幕字符串的所指配的定时信息和检测到的话语分段时间间隔将原始字幕数据的翻译与视频内容项的音频部分对齐。原始字幕数据的翻译可以包括但不限于翻译语言字幕和从话语辨识和生成服务150生成的机器翻译的对话。翻译语言字幕可以包括从人群源用户或专业翻译人员生成的文本翻译。可以通过向话语辨识和生成服务提供用于翻译的原始字幕数据或用于翻译的诸如单独语句或语句片段的原始字幕数据的部分来生成由话语辨识和生成服务150生成的机器翻译的对话。

图3A图示将值指配给每个独特字幕字符串和生成字符串的过程。在框305处，处理逻辑可以通过去除微小的字符不同来将原始字幕数据中的字幕字符串和话语辨识数据中的生成字符串规范化以有效地匹配对应的字幕字符串和生成字符串。原始字幕数据中的字幕字符串可以被格式化，以帮助视频的观看者理解说出对话以及视频的其他方面。例如，原始字幕数据可能包括用于指示谁在说话的附加的非说出文本或特定字符，诸如“Mary:Hi,it’s a great day(玛丽：嗨，今天真好)”，其中“Mary”指示该短语的说话者。其他非说出文本可以包括视频内声音效果的指示，诸如“music playing(音乐播放)”或“BANG”，其中的每个都可以表示视频中的声音。声音效果字幕对聋哑人和听觉不好的观看者很有用，否则他们可能不会意识到视频中的其他声音。为了对齐说出对话的目的，可以在规范化过程中去除非说出的文本。

在实施方式中，处理逻辑可以实现常规表达匹配以从字幕字符串和生成字符串中识别和去除前缀标签。例如，字幕字符串集可能包括“>>Fred：How are you”。处理逻辑可以从字幕字符串集中识别并去除非说出文本“>>Fred：”，从而得到“How are you”。在实施例中，处理逻辑可以实现常规表达匹配以去除指示音频描述的注释。例如，字幕字符串“[music]”可以被去除，因为它不是说出对话的一部分。

在实施方式中，字幕字符串和生成字符串可以表示英语以外的语言。其他语言(诸如印地语或日语)使用不同的语句标点符号。处理逻辑可以被配置成将标点符号规范化为单个类型的标点符号。例如，可以将用于不同语言的标点符号规范化为英语，以便准确地将字幕字符串序列与生成字符串对齐，并确定语句和语句片段边界。例如，表示印地语对话的字幕字符串可能包含“|”以进行语句中断。处理逻辑可以识别这些语句中断，并将印地语句中断替换为英语句点。处理逻辑可以被配置成使用任何语言作为规范化标点符号语言，或者可以被配置成指配特定字符来表示语句标点符号。

在一个实施方式中，处理逻辑可以被配置成基于具有字幕字符串和生成字符串的模式来推断语句标点符号。例如，由众包(crowd-sourced)的字幕提供的原始字幕数据可能缺少适当的标点符号。处理逻辑被配置成基于诸如单词之间的额外间隔或在单词序列中间的大写单词的其他队列来推断语句标点符号，诸如句点。这些队列可能指示新语句的开始。处理逻辑可以配置成在出现额外间隔或大写后续字幕的地方插入句点。

在一种实施方式中，处理逻辑可以被配置成通过转换字母大小写，去除前面的或尾随的标点符号，分离连字符连接的单词和/或分离单词缩写形式来规范化多个字幕字符串和多个生成字符串中的字符串。例如，来自话语辨识和生成服务150的生成字符串可能包含不必要的连字符连接的单词，或者当他们不应该使用缩写形式时可能将单词显示为缩写形式，其可以通过处理逻辑被去除。

在对字幕字符串和生成字符串的每个序列进行规范化之后，可以将整数ID指配给每个独特字符串。整数ID表示整数编辑距离空间内的值，在该空间内相对于相关联的单词之间的相对单词编辑距离安排整数ID。单词编辑距离值表示将一个单词变换为另一个单词所需的指令的数量。例如，单词“mean(平均值)”和“men(男人)”的单词编辑距离值将等于1，因为只需要从“mean”中去除“a”的一个变换指令，以将“mean”变换为“men”。通过在整数编辑距离空间内表示每个字符串，可以将字符串安排在单维空间内。使用整数ID对字符串的单维空间指配可以基于确定字幕字符串和生成字符串的两个序列内的独特字符串集。

在框310处，处理逻辑确定来自字幕字符串和生成字符串的字符串集包括独特字幕字符串集、独特生成字符串集和公共字符串集。独特字幕字符串集可以表示仅在字幕字符串序列中找到的字符串。独特生成字符串集可以表示仅在生成字符串序列内找到的字符串。公共字符串集表示通过字幕字符串序列和生成字符串序列找到的字符串。

在实施方式中，字幕字符串序列内的字符串表示来自视频的说出对话的转录，并且可以比来自话语辨识数据的生成字符串更准确地表示说出对话。如上所述，话语辨识数据主要包含每个生成字符串的准确定时信息，但是可能包含当识别说出对话时可能已经发生的微小的错误。结果，处理逻辑可以将独特字幕字符串集视为更可能表示视频内容项内的说出对话的字符串。

在框315处，处理逻辑可以将整数ID指配给独特字幕字符串集内的每个字符串。在实施方式中，独特字幕字符串集中的每个字符串都被视为整数编辑距离空间内的种子字符串。种子字符串是确定为表示视频内容项中可能说出的单词或短语的字符串。指配给每个独特字幕字符串的整数ID相互间隔开，使得独特字幕字符串之间的整数编辑距离值超出用于匹配具有相似语义的字符串的编辑距离值阈值。例如，如果独特字幕字符串集包括{light,men,monies,told}，则处理逻辑可以将整数ID指配为{light＝4352,men＝350,monies＝1402,told＝7701}。指配的整数ID的值间隔开足够远，以至于将一个独特字幕字符串改变为另一个独特字幕字符串所需的编辑指令的数量足够大，以确保独特字幕字符串不会错误地相互匹配，或者忽视彼此之间的字符串不同。

在实施方式中，独特字幕字符串的整数ID值之间的间隔允许对独特生成字符串进行聚类，该独特生成字符串可能在生成字符串和字幕字符串之间具有微小的字符差异。在框320处，处理逻辑可以将整数ID值指配给独特生成字符串集中的至少一个独特生成字符串子集。将整数ID值指配给至少一个独特生成字符串子集可以基于确定来自独特生成字符串集中的哪些独特生成字符串在整数编辑值的阈值内。整数编辑值阈值内的整数编辑值可以指示生成字符串充分接近字幕字符串，并且可以被辨识为字幕字符串的变体。例如，在框315处，生成字符串“man”可以被识别为与已被指配了整数ID值350的字幕字符串“men”充分接近。在这种情况下，处理逻辑可以计算“men”与“man”之间的整数编辑距离值是1，并且因此处理逻辑可以将整数ID值351指配给生成字符串，该整数ID值351比“men”的整数ID值(350)大一。在实施方式中，用于确定两个字符串之间的接近度的整数编辑值阈值可以基于字幕字符串的大小和进行精确匹配所需的编辑指令的类型。例如，如果字幕字符串较短，诸如“men”，则“men”的编辑距离值阈值可能小于诸如“unimportant”的字幕字符串的编辑距离值阈值，其中当确定两个字符串相对接近时，较长的字符串可能允许较大的编辑距离值阈值。

在框320中执行的操作可以包括将整数ID值指配给生成字符串子集。独特生成字符串集内的生成字符串子集可以通过将生成字符串子集视为与已经指配的整数ID具有相似性的字符串为来被指配整数ID值；因此，将整数ID值指配给生成字符串子集是基于一种聚类技术，其基于相似字符串的已经指配的整数ID值来指配整数ID值。在判定框325，处理逻辑确定在独特字符串集内是否存在需要整数ID值指配的附加的独特生成字符串。如果存在是要指配整数ID值的附加的独特生成字符串，则处理逻辑进入框330，以将整数ID值指配给附加的独特生成字符串。如果不存在要指配整数ID值的附加的独特生成字符串，则处理逻辑进入到框340，以将整数ID值指配给公共字符串集内的字符串。

在框330处，处理逻辑可以将整数ID值指配给独特生成字符串集中的其余的独特生成字符串中的一个或多个。在实施方式中，将一个或多个其余的独特生成字符串视为整数编辑距离空间内的种子字符串，并且将一个或多个其余的独特生成字符串的整数ID值间隔开，使得其余的独特生成字符串之间的整数编辑距离值超出编辑距离值阈值，以匹配已经指配整数ID值的其他字符串。例如，独特生成字符串集内的其余的独特生成字符串可以包括{importance,bright,importantly}。处理逻辑可以选择“importance(重要)”和“bright(明亮)”，并分别指配整数ID值21154和25002。

在判定框335，处理逻辑确定在独特生成字符串集内是否存在尚未指配整数ID值的其余的独特生成字符串。如果在独特生成字符串集中存在需要整数ID值指配的其余的独特生成字符串，则处理逻辑进入框320，以使用确定哪个独特生成字符串在整数编辑值的阈值内的聚类技术将整数ID值指配给其余的独特生成字符串，该阈值表示生成字符串充分地接近已指配整数ID值的字符串。例如，独特生成字符串“importantly(重要地)”可以被指配整数ID值21151，因为可以将“importantly”变换为字符串“importance”(整数ID 21154)。处理逻辑可以迭代地重复框320至335，直到所有其余的独特生成字符串被指配整数ID值为止。

如果在判定框335处，处理逻辑确定独特生成字符串已经被指配整数ID值，则处理逻辑进入框340。在框340处，处理逻辑将整数ID值指配给公共字符串集中的字符串。公共字符串集包括已被识别为是在字幕字符串序列和生成字符串序列两者中的字符串。在实施方式中，处理逻辑可以使用框320中描述的聚类技术将整数ID值指配给公共字符串集中的至少一个字符串子集。如果存在需要指配整数ID值的其余的公共字符串，则处理逻辑可以选择一个或多个其余的公共字符串，并通过指配与已经指配的字符串充分间隔开的整数ID值将所选则的公共字符串视为种子字符串。然后，处理逻辑可以使用类似于分别在框320和330中描述的技术的聚类和种子指配技术来将整数ID值迭代地指配给其余的公共字符串。

在实施方式中，多个字幕字符串和多个生成字符串中的每个字符串被指配整数ID值。图5A是用于多个字幕字符串和多个生成字符串的整数ID值指配的说明性示例。表505图示多个字幕字符串、多个生成字符串、独特字幕字符串集、独特生成字符串集和公共字符串集。表505图示多个字幕字符串和多个生成字符串内的每个独特字符串的整数ID值指配。列515显示指配给每个字符串的整数ID值，列520显示来自多个字幕字符串和多个生成字符串的每个独特字符串，并且列525显示被用于将整数ID值指配给每个字符串的指配方法。

图3B图示用于使用指配的整数ID值来确定字幕字符串和生成字符串的匹配序列的过程。在框350处，处理逻辑识别字幕字符串序列和生成字符串序列以用于匹配。在实施方式中，处理逻辑以原始字幕数据中识别的顺序使用多个字幕字符串。例如，字幕字符串序列按照在视频内容项中字符串被如何说出的顺序表示字符串。处理逻辑以话语辨识数据中识别的顺序使用多个生成字符串。

在框360处，处理逻辑从字幕字符串序列和生成字符串序列中确定最长的序列匹配对。在实施方式中，整数子序列匹配算法使用与字幕字符串序列和生成字符串序列中的与字符串相关联的整数ID值来对齐精确的字符串和接近匹配的字符串。接近匹配的字符串可以基于编辑距离值阈值。如果整数子序列匹配算法导致较长的序列匹配对，则整数子序列匹配算法可能允许序列匹配对内的一定数量的错配。图5B图示从字幕字符串序列和生成字符串序列生成的序列匹配对。匹配对530可以由框360处的处理逻辑来确定，因为它是最长识别的序列匹配对。

在实施方式中，处理逻辑可以允许字幕字符串序列与生成字符串序列之间的错配和不同。例如，错配532图示“of/and(的/和)”之间的错配，并且错配534图示“to/on(到/在上面)”之间的错配。这些错配可能是由于基于笔误或未正确辨识的单词的字幕字符串或生成字符串序列中的错误造成的。处理逻辑可以配置成允许短字符串上的错配，因为当已经发生最大数量的字符突变时，编辑距离值阈值可能不应用。例如，如果原始字符串上的变换指令变换原始字符串的40％以上，则编辑距离值阈值可能应用，因为这可能导致完全不同的字符串不必要地匹配。

在判定菱形框365处，处理逻辑确定是否存在仍然需要匹配的字幕字符串序列和生成字符串序列中的其余部分。使用先前的示例，仅匹配字幕字符串序列的第一部分和生成字符串序列；因此，处理逻辑可以被配置成迭代地匹配其余的序列部分。处理逻辑进入框370，以选择字幕字符串序列和生成字符串序列的子序列以进行匹配。然而，如果在判定菱形框365处，处理逻辑确定字幕字符串序列和生成字符串序列的所有部分都已经匹配，则处理逻辑进入框375以在字幕字符串序列中的单独字幕字符串与字幕字符串序列中的单独生成字符串序列之间生成映射。

在框370处，处理逻辑从字幕字符串序列和生成字符串序列中选择子序列以进行匹配。处理逻辑进入360，以从所选择的序列中确定最长的序列匹配对。重复框360–370，直到已经确定所有序列匹配对。

在实施方式中，即使部分匹配的序列包含不匹配的字符串，处理逻辑也可以部分匹配字幕字符串序列和生成字符串序列的序列。部分匹配的序列的匹配部分可以用作锚点，用于确定匹配的区域，即使使用整数ID值未匹配字符串。可以使用其他技术来匹配部分匹配的序列中的子序列。

在实施方式中，如果字符串的子序列仅包括生成字符串，因为字幕字符串被用于确定说出对话，处理逻辑可以忽略生成字符串。在另一实施方式中，如果字幕字符串和生成字符串的子序列在字符串的数量之间具有一一对应关系，则处理逻辑可以假定对应的字符串匹配。例如，错配552图示字幕字符串“come on(加油)”和生成字符串“c mon”。这些对应的字符串可以被一起配对成“come/c”和“on/mon”的匹配。

在实施方式中，处理逻辑可以计算字符串相似性矩阵以确定针对非匹配子序列的匹配。例如，错配565包含字幕字符串“served with chutney(配酸辣酱)”和生成字符串“sowith the chuck knee”。处理逻辑可以确定两个子序列之间的字符串“with”的精确匹配。处理逻辑可以迭代地确定从匹配“with”而生成的包括“served/so”和“chutney/the chuckknee”的子序列的匹配。处理逻辑可以从子序列“served/so”确定匹配，因为其是一对一的对应关系。对于其余的子序列，处理逻辑基于匹配的三个字符“chu”确定“chutney”和“chuck”之间的相似性。类似地，“knees”和“chutneys”包含音标匹配对。因为字幕字符串子序列中不存在对应的对，所以处理逻辑可以从生成字符串子序列中忽略“the”。

在框375处，处理逻辑可以使用匹配的序列对在单独字幕字符串和生成字符串之间生成映射。

图4A图示用于使用原始字幕数据的单独字幕字符串的指配的定时信息来将翻译语言字幕数据与视频内容项的音频部分对齐的示例方法。在实施方式中，框405-430代表可以在图2的框225内执行的详细行为。

在框405处，处理逻辑识别视频内容项的翻译语言字幕数据。翻译字幕数据可以包括与视频内容项的音频部分相关联的多个翻译字符串。处理逻辑可以被配置成规范化翻译语言字幕数据中的翻译字符串，以便从翻译字符串中去除非说出文本或特定字符。规范化可以包括在翻译字符串中识别语句中断和其他标点符号，并用由处理逻辑使用的诸如英语的标准化的标点符号来代替翻译标点符号。

在框410处，处理逻辑从原始字幕数据的多个字幕字符串生成字幕语句片段集，并从该翻译字符串集生成翻译语句片段集。在实施方式中，处理逻辑可以使用标点符号作为多个字幕字符串和多个翻译字符串中的语句片段边界标记来识别语句片段。例如，逗号和语句句点可以用作边界标记，用于识别多个字幕字符串和多个翻译字符串内的语句片段。处理逻辑可以生成包含字幕字符串的识别的语句片段的字幕语句片段集和包含翻译字符串的识别的语句片段的翻译语句片段集。

在框415处，处理逻辑将字幕语句片段集中的字幕语句片段映射到翻译语句片段集中的翻译语句片段。在实施方式中，处理逻辑可以使用重叠的定时信息对来自字幕语句片段集和翻译语句片段集的语句片段进行配对。字幕语句片段集中的语句片段可以使用来自原始字幕数据的字幕定时，以将语句片段与对应的翻译语句片段配对。来自翻译语言字幕数据的定时信息可以用于识别翻译语句片段和字幕语句片段的重叠对。

在框420处，处理逻辑可以估计字幕语句片段集的字幕语句片段时间间隔。在实施方式中，处理逻辑可以使用用于单独字幕字符串的定时信息(在框220处指配)来估计用于字幕语句片段集的语句片段时间间隔。例如，处理逻辑可以将语句片段的开始时间指配为与语句片段中的第一字符串相关联的时间。可以为语句片段的结束时间指配与语句片段中的最后的字符串相关联的时间。

在一些情况下，由于可能与生成字符串相关联的定时错误，或者由于在将字幕字符串映射到生成字符串时可能发生的错配，所以单独字幕字符串的定时信息可能不准确。在实施方式中，处理逻辑可以按照字符串长度聚集定时信息以针对每个字符串长度计算中值字符串持续时间来生成针对不同字符串长度的概要统计。例如，概要统计被聚集用于长度为五个字符的字符串。然后，可以将所计算的五个字符的字符串的中值持续时间用于估计以较低置信度级别匹配的字符串的定时信息。针对多个字幕字符串中的每个字符串长度计算中值持续时间。

处理逻辑可以基于中值持续时间值使用指配的字幕字符串定时信息和估计字符串定时信息，以基于每个字符串的置信度值估计每个语句片段的开始和结束时间。如果语句片段包含与高置信度值匹配的字幕字符串，则处理逻辑可以使用与语句片段中的第一个字幕字符串的开始时间和语句片段的最后一个字符串的结束时间相关联的指配的定时信息以计算整个语句片段的开始和结束时间。

如果语句片段在语句片段的中间附近包含具有高置信度值的字幕字符串集，而在语句的开头和结尾包含具有较低置信度值的另一字幕字符串集，则处理逻辑可以使用具有高置信度值的字幕字符串集作为锚，来确定语句片段的定时信息。对于前面字符串和尾随字符串的持续时间，处理逻辑可以使用来自计算的摘要统计的估计定时信息。处理逻辑可以减去在语句片段中的锚定的字幕字符串之前的每个低置信度字幕字符串的中值持续时间定时值，以确定语句片段的开始时间。例如，如果语句片段包含字幕字符串“friedserved with chutney(配酸辣酱油炸)”，其置信度值为{fried＝0.72，served＝0.18，with＝1.00，chutney＝0.34}，则处理逻辑可以将字幕字符串“with”识别为高置信度字幕字符串，并使用开始和结束时间锚定该字符串。“with”的开始时间和结束时间分别为[2:12.709,2:12.979]。字符串“fried”和“served”的中值时间分别基于5个字符和6个字符的字符串中值时间。处理逻辑可以从锚单词“with”的开始时间中减去5个字符和6个字符的字符串中值时间，以便估计语句片段的开始时间。语句片段的结束时间可以类似地通过加上与每个尾随低置信度字幕字符串相对应的中值持续时间直到到达语句片段的结束来计算。例如，可以通过将7个字符的字符串“chutney”的中值持续时间加到锚字幕字符串“with”的结束时间来估计结束时间。

如果语句片段不包含任何具有高置信度得分的字幕字符串，则处理逻辑可以使用针对语句片段中的每个字幕字符串的摘要统计来近似语句片段持续时间。在实施方式中，处理逻辑聚集语句片段中每个字幕字符串的中值持续时间值，并且然后使用估计的定时确定语句片段的中点。在确定中点之后，可以估计开始时间和结束时间。

在框425处，处理逻辑基于字幕语句片段集的映射的单独字幕语句片段的估计时间间隔将估计时间间隔指配给翻译语句片段集中的单独翻译语句片段。在实施方式中，处理逻辑将来自字幕语句片段集的估计开始/结束定时指配给翻译语句片段集中的对应的翻译语句片段。

在框430处，处理逻辑将话语分段集与翻译语句片段集进行匹配。话语分段指代在视频内容项中话语是活动的以及只有一位说话者正在讲话的时间间隔。例如，单独话语分段可以表示其中一个人正在讲话的持续时间。如果视频内存在一个接一个讲话的多个人，则每个人的话语将表示为单独话语分段。话语分段可以由内容共享平台120或配置成分析视频内容项的音频和视频部分以提供说话者信息和与该视频内容项相关联的字幕数据的相关联的话语分段的任何其他外部或内部话语分段服务平台提供。话语分段集可以包括识别每个话语分段的开始/结束时间的定时信息。

在实施方式中，处理逻辑可以从内容共享平台120请求视频的话语分段集。处理逻辑可以将来自该话语分段集的定时信息与指配给该翻译语句片段集的估计定时信息进行比较。如果来自单独话语分段的定时与翻译语句片段的估计定时信息重叠，则处理逻辑可以将单独话语分段和对应的翻译语句片段视为匹配。处理逻辑可以使用来自匹配话语分段的定时信息来调整翻译语句片段集中的单独翻译语句片段的定时信息。

在实施方式中，如果翻译语句片段的定时信息与多个话语分段重叠，则处理逻辑可以将多个话语分段合并为单个话语分段，用于将翻译语句片段与对应的话语分段进行匹配的目的。如果话语分段被话语分段服务平台过度分割，则将翻译语句片段与多个话语分段匹配可能发生。例如，话语分段服务平台可以包括多个话语分段，这些话语分段指代通过单个说话者的可能被过度分割的连续的话语。在匹配期间，处理逻辑可以将过度分割的话语分段组成为与单个翻译语句片段匹配的单个话语分段。

在实施方式中，如果翻译语句片段与话语分段充分重叠并且与另一个话语分段稍微重叠，则处理逻辑可以配置成忽略稍微匹配的话语分段，并将翻译语句片段与充分重叠翻译语句片段的话语分段匹配。充分重叠可以定义为超过配置的阈值的定时重叠的百分比。例如，如果80％的翻译语句片段与话语分段重叠，则可以将翻译语句片段和话语分段视为充分重叠。在其他实施方式中，充分重叠可以基于最小的时间量或任何其他可测量的度量。

在实施方式中，如果翻译语句片段没有与特定话语分段充分重叠，则处理逻辑可以基于话语分段将翻译语句片段与话语分段进行匹配，该话语分段基于定时信息是最接近的。

在将翻译语句片段与对应的话语分段匹配之后，处理逻辑可以使用来自匹配的话语分段的定时信息来调整翻译语句片段集中的单独翻译语句片段的定时信息。对于每个话语分段，匹配的翻译语句片段可以按比例进行时间调整，以匹配该匹配的话语分段的定时信息。例如，如果两个翻译语句片段匹配单个话语分段并且第一翻译语句片段是第二翻译语句片段的持续时间的两倍，则处理逻辑可以调整第一翻译语句片段的开始时间以与话语分段的开始时间对齐并且调整第一翻译语句片段的结束时间，以在话语分段的持续时间内的大约2/3处结束。处理逻辑可以将第二翻译语句片段的开始时间调整为话语分段的持续时间内的大约2/3，并且将第二翻译语句片段的结束时间调整为话语分段的结束时间。

在框435处，处理逻辑可以使用来自话语分段的说话者标识符(ID)信息将说话者信息与翻译语句片段集中的每个翻译语句片段相关联。在实施方式中，提供的话语分段可以包括元数据信息，该元数据信息包括与每个话语分段相关联的说话者ID信息。例如，说话者ID信息可以指示视频内容项内的哪个人说出话语分段内的对话。说话者ID信息可能包括与说话者的性别、年龄、屏幕位置有关的人口统计信息，或与说话者的身份有关的任何其他相关信息。例如，来自内容共享平台120的提供的话语分段可以使用诸如面部跟踪、视觉话语分类(即，随着时间的流逝注视视频中的每个面部以自动推断其是否在讲话)以及音频语音识别的技术，来确定视频中每个说话者的说话者ID信息。在实施方式中，处理逻辑可以基于说话者ID信息将独特合成语音指配给每个说话者ID。

在框440处，处理逻辑可以组合来自翻译语句片段集的连续翻译语句片段以生成翻译语句集。在实施方式中，处理逻辑可以使用连续翻译语句片段的相关联的说话者ID、标点符号和定时信息来组合连续翻译语句片段。例如，如果连续翻译语句片段具有相同的相关联的说话者ID，则处理逻辑可以组合连续的翻译语句片段以生成翻译语句。在另一个示例中，如果将连续的翻译语句片段被识别为部分语句，则处理逻辑可以基于翻译语句片段中的标点符号来组合部分语句以生成翻译语句。在又一示例中，如果连续的翻译语句片段在时间上接近，而一个翻译语句片段的结束时间与另一翻译语句片段的开始时间之间具有短的间隙或没有间隙，则处理逻辑可以组合连续的翻译语句片段以生成单个翻译语句。处理逻辑从翻译语句片段中生成包括定时信息和说话者ID信息的翻译语句集。在实施方式中，处理逻辑可以将翻译语句集与视频的音频部分对齐。

图4B图示使用指配的单独字幕字符串的定时信息将机器生成的翻译字幕数据与视频的音频部分对齐的示例方法。在实施方式中，框450-475表示可以在图2的框225内执行的详细行为。

在框450处，处理逻辑从多个字幕字符串生成语句片段。在实施方式中，处理逻辑可以使用标点符号作为多个字幕字符串中的语句片段边界标记来辨识语句片段。处理逻辑可以生成包含字幕字符串的语句片段的字幕语句片段集。

在框455处，处理逻辑为字幕语句片段集估计语句片段时间间隔。在实施方式中，处理逻辑可以使用用于单独字幕字符串的指配的定时信息，以使用如在框415中所描绘的摘要统计来估计字幕语句片段集的语句片段时间间隔。

在框460处，处理逻辑可以将由内容共享平台120或任何其他外部或内部话语分段服务平台提供的话语分段集与字幕语句片段集进行匹配。在实施方式中，处理逻辑可以从内容共享平台120请求用于视频的话语分段集。处理逻辑可以将来自话语分段集的定时信息与指配给字幕语句片段集的估计的定时信息进行比较。如果来自单独话语分段的定时与字幕语句片段的估计定时信息重叠，则处理逻辑可以将单独话语分段和对应的字幕语句片段视为匹配。处理逻辑可以使用来自匹配的话语分段的定时信息来调整字幕语句片段集中的单独字幕语句片段的定时信息。

在实施方式中，如果字幕语句片段的定时信息与多个话语分段重叠，则处理逻辑可以将多个话语分段合并为单个话语分段，以将字幕语句片段与对应的话语分段进行匹配。如果话语分段被话语分段服务平台过度分割，则可能发生将字幕语句片段与多个话语分段匹配。例如，话语分段服务平台可以包括多个话语分段，这些话语分段指代单个说话者进行的可能已经被过度分割的连续话语。在匹配期间，处理逻辑可以将过度分割的话语分段组合到与单个字幕语句片段匹配的单个话语分段。

在实施方式中，如果字幕语句片段与话语分段充分重叠并且与另一个话语分段稍微重叠，则处理逻辑可以被配置成忽略稍微匹配的话语分段，并将字幕语句片段与充分重叠字幕语句片段的话语分段匹配。在实施方式中，如果字幕语句片段与特定话语分段没有充分重叠，则处理逻辑可以基于话语分段将字幕语句片段与话语分段进行匹配，该话语分段基于定时信息是最接近的。

在将字幕语句片段匹配到对应的话语分段之后，处理逻辑可以使用来自匹配的话语分段的定时信息来调整字幕语句片段集中的单独字幕语句片段的定时信息。对于每个话语分段，可以按比例地时间调整匹配的字幕语句片段，以匹配该匹配的话语分段的定时信息。例如，如果两个字幕语句片段匹配单个话语分段并且第一字幕语句片段是第二字幕语句片段的持续时间的两倍，则处理逻辑可以调整第一字幕语句片段的开始时间以与话语分段的开始时间对齐，并调整第一字幕语句片段的结束时间，以在话语分段的持续时间的大约2/3处结束。处理逻辑可以将第二字幕语句片段的开始时间调整为话语分段的持续时间的大约2/3，并且将第二字幕语句片段的结束时间调整为话语分段的结束时间。

在框465处，处理逻辑可以使用来自话语分段的说话者ID信息将说话者信息与字幕句片段集中的每个字幕语句片段相关联。如前面所讨论的，所提供的话语分段可以包括元数据信息，该元数据信息包括与每个话语分段相关联的说话者ID信息。说话者ID信息可以包括与说话者的性别、年龄、屏幕位置有关的人口统计信息，或与说话者身份有关的任何其他相关信息。

在框470处，处理逻辑可以组合来自字幕语句片段集的连续字幕语句片段以生成字幕语句集。在实施方式中，处理逻辑可以使用连续字幕语句片段的相关联的说话者ID、标点符号和定时信息来组合连续字幕语句片段。例如，如果连续字幕语句片段具有相同的相关联的说话者ID，则处理逻辑可以组合连续字幕语句片段以生成字幕语句。在另一个示例中，如果连续字幕语句片段被识别为部分语句，则处理逻辑可以基于字幕语句片段中的标点符号来组合部分语句以生成字幕语句。在又一示例中，如果连续字幕语句片段在时间上接近，而在一个字幕语句片段的结束时间与另一字幕语句片段的开始时间之间具有短的间隙或没有间隙，则处理逻辑可以组合连续字幕语句片段以生成单个字幕语句。处理逻辑从字幕语句片段中生成包括时间信息和说话者ID信息的字幕语句集。

在框475处，处理逻辑使用机器翻译和字幕语句集来生成翻译语句集。在实施方式中，处理逻辑可以向话语辨识和生成服务150发送请求，以从该字幕语句集中生成翻译语句集。所生成的机器翻译可以被表示为翻译语句集，并且处理逻辑可以将定时信息和说话者ID信息与来自相应字幕语句的每个单独翻译语句相关联。在实施方式中，处理逻辑可以将翻译语句集与视频的音频部分对齐。

在实施方式中，处理逻辑可以将翻译语句集变换为可以叠加在视频上的翻译音频话语，以创建原始视频内容项的翻译版本。可以使用自动话语合成器来生成翻译音频话语，该自动话语合成器被配置成将翻译语句合成为翻译音频话语。在其他示例中，可以使用来自配音演员的翻译的语音表演来生成翻译音频话语。如果较高质量的语音和/或情感话语产生更理想的用于覆盖的翻译音频话语，则使用配音演员来生成翻译音频话语可能是有益的。图6A图示用于将翻译的音频话语覆盖到视频上并生成包括翻译的话语的音频部分的第二视频的示例方法。示例方法可以使用来自语音合成器的翻译的音频话语、由配音演员产生的翻译的音频话语、或两者的组合来描述。在框605处，处理逻辑可以接收翻译音频话语集，其中该翻译音频话语集中的每个翻译音频话语对应于翻译语句集中的翻译语句。

在实施方式中，处理逻辑可以从话语辨识和生成服务150或任何其他翻译和话语生成服务中请求与该翻译语句集相对应的音频话语。称为翻译音频话语的音频话语可以作为翻译音频话语分段集来接收，其中每个翻译音频话语分段对应于翻译语句集中的翻译语句。在实施方式中，音频话语分段集中的每个音频话语分段可以包括与每个翻译语句的对应的说话者ID属性匹配的机器生成的音频话语。例如，如果翻译语句具有说话者ID和指示说话者是女人的相关联的说话者属性，则接收到的对应音频话语分段可以是与女性语音匹配的机器生成的音频话语。

在实施方式中，话语辨识和生成服务150可以被配置成基于相关联的说话者ID信息为说话者选择合成语音。话语辨识和生成服务150可以基于每个说话者讲话的持续时间来对不同的说话者进行排序，并且然后将匹配的合成语音首先指配给讲话时间最多的说话者。在为具有讲话时间最多的说话者指配合成语音之后，可以基于相关联的说话者ID信息和其余的可用合成语音为其余说话者指配合成语音。

在框610处，对于翻译音频话语集中的每个翻译音频话语，处理逻辑可以使用与对应的翻译语句相关联的定时信息和与该翻译音频话语相关联的持续时间信息将翻译音频话语覆盖到视频上。如果翻译音频话语的持续时间和对应的翻译语句的持续时间匹配，则可以将翻译音频话语无缝地覆盖在视频上，替换对应的翻译语句的原始音频部分。例如，如果对应的翻译语句是“I like chickpea soup(我喜欢鹰嘴豆汤)”并且翻译语句的定时信息指示翻译语句长2.2秒，如果翻译音频话语也长2.2秒则可以将“I like chickpea soup”的翻译音频话语无缝地覆盖到视频。

如果翻译音频话语的持续时间更长或更短，则在没有修改的情况下覆盖翻译音频话语可能以看起来令人不快告终。例如，如果翻译音频话语比翻译语句的持续时间短，则音频话语将结束，但视频将示出说话者的嘴唇仍然移动。相反，如果翻译音频话语比翻译语句的持续时间长，则在说话者的嘴唇已经停止移动之后，音频话语仍将在播放。在两种情况下，由于不正确地配音的翻译音频话语，可能阻止翻译视频的观看者观看视频。

在实施方式中，处理逻辑可以降低与原始音频话语相对应的原始音频部分的音频音量，并覆盖翻译音频话语。在另一实施方式中，处理逻辑可以从原始音频部分数字地擦除语音，同时保留诸如音乐或背景噪声的其他声音，并且覆盖对应的翻译音频话语。在又一个实施方式中，处理逻辑可以用翻译音频话语代替原始音频部分。

图6B图示用于调整覆盖参数以将视频内容项中的音频和视频持续时间与翻译话语进行匹配的示例方法。在框620处，处理逻辑选择翻译音频话语集中的翻译音频话语，以覆盖在视频上。在判定框625，处理逻辑确定所选择的翻译音频话语的持续时间是否与相关联的视频分段的持续时间匹配。如果翻译音频话语的持续时间和相关联的视频分段的持续时间匹配，则不需要进行对音频或视频的调整来覆盖翻译音频话语，并且处理逻辑可以进入块630以执行覆盖。如果翻译音频话语的持续时间和相关联的视频分段的持续时间不匹配，则可以调整翻译音频话语的音频和/或视频和/或视频以便生成翻译音频话语和视频的无缝覆盖。

在框635处，处理逻辑可以调整覆盖参数，以便翻译话语分段的持续时间与视频中的对应视频分段匹配。覆盖参数可以包括调整翻译音频话语的音频速率和与翻译音频话语相对应的视频的分段的视频速率和/或持续时间。

在实施方式中，处理逻辑可以更快或更慢地调整翻译音频话语速率，以便使翻译音频话语与视频中的原始音频话语的持续时间匹配。例如，如果翻译音频话语为2.5秒长而原始音频话语为2.2秒长，则处理逻辑可以将翻译音频话语的速率加快了约10％，以便将翻译音频话语的持续时间调整为2.2秒长。在另一个示例中，如果翻译音频话语为1.95秒长，而原始音频话语为2.2秒长，则处理逻辑可以将翻译音频话语的速率减慢了约10％，以便将翻译音频话语的持续时间调整为2.2秒长。

如果调整参数在期望的速度调整范围内，则对翻译音频话语的音频话语速率的调整是优选的。如果翻译音频话语的速率加快得太多，则翻译话语分段可能播放得太快而无法被观看者理解。如果翻译音频话语的速率减慢太多，则翻译话语分段可能播放得太慢，并且翻译音频话语可能听起来失真或模糊不清。处理逻辑可以实现配置的最小和最大回放速度阈值，其中最小速度阈值是可以在没有负面影响的情况下播放翻译音频话语的最低速率，而最大速度阈值是在没有观看者体验到的负面影响的情况下翻译音频话语可以播放的最快速率。在实施方式中，配置的最小和最大回放速度阈值可以是语言特定的。语言特定的配置的最小/最大回放速度阈值可以基于话语调整后每种特定语言的可理解程度。例如，英语最小/最大回放速度阈值可以允许比中文最小/最大回放速度阈值更大的速度调整。

在实施方式中，处理逻辑可以确定在时间上接近地发生的多个翻译音频话语，以为了减少翻译音频速度速率减慢的量的目的。可以在多个翻译音频话语之间识别短停顿。处理逻辑可以通过以下来将多个翻译音频话语作为组调整和覆盖：调整组内的后续翻译音频话语的开始时间，以便在多个翻译音频话语之间添加额外的停顿。在多个翻译音频话语之间添加额外的停顿允许处理逻辑扩展多个翻译音频话语的持续时间，而不必显著地减慢多个翻译音频话语中的每个的速度速率。

在实施方式中，在框635处，处理逻辑可以在所配置的最小和最大回放速度阈值内调整翻译音频话语的翻译音频速度速率。处理逻辑可以返回到判定框630。如果在判定框630处，处理逻辑确定翻译音频话语与视频中原始音频话语的持续时间匹配，则处理逻辑可以进入630以将翻译音频话语覆盖在视频的对应的视频部分上。如果在配置的最小和最大回放速度阈值内调整翻译音频速度速率之后，翻译音频话语的持续时间与视频中原始音频话语的持续时间不匹配，则处理逻辑可以返回到框635以进行进一步调整覆盖参数。处理逻辑可以调整来自视频的对应视频部分的视频速率，便于使翻译音频话语的持续时间与对应于原始音频话语的视频部分的调整的持续时间匹配。

在实施方式中，处理逻辑可以通过更快或更慢地调整视频部分回放速率来调整与原始音频话语相对应的对应视频部分的视频速率，便于使翻译音频话语持续时间与相应视频部分的持续时间匹配。处理逻辑可以实现配置的最小/最大视频速率调整阈值，其中最小调整阈值是在没有负面影响的情况下可以播放视频部分的最低速率，而最大调整阈值是在没有观看者体验到的负面影响的情况下视频部分可以播放的最快速率。配置的最小/最大视频速率调整阈值可以是比用于调整音频速率的配置的最小/最大回放速度阈值更小的调整窗口，因为对视频的调整可能与对音频速率的调整相比更容易引起观看者的注意。

在实施方式中，处理逻辑可以通过在视频部分中复制所选择的帧来调整对应的视频部分的视频速率。复制所选择的帧可能会增加视频部分的回放持续时间，以便于匹配更长的翻译音频话语的持续时间。可以以规则的间隔复制所选择的帧，以延伸视频部分的持续时间。

在实施方式中，处理逻辑可以去除视频部分中的所选择的视频帧，以便于压缩视频部分的持续时间以匹配较短的翻译音频话语。例如，处理逻辑可以在视频部分的持续时间内以规则间隔去除所选则的帧，以便于使视频部分更快地播放。

在实施方式中，通过复制或去除所选则的帧来调整视频速率可以基于最小/最大视频调整阈值，其指定可以在规则间隔期间添加或去除的帧数量。最小/最大视频调整阈值可以基于视频部分内的视频的类型来配置。例如，如果视频部分包括静态帧(诸如幻灯片的显示)，则最小/最大视频调整阈值可以允许增加的视频帧的去除或复制，因为观看者不太可能注意到对视频部分的调整。如果视频部分包括诸如动作序列的快速移动的场景，则最小/最大视频调整阈值可以允许对视频帧进行有限数量的改变，因为观看者更容易注意到对快速移动视频的调整。

在实施方式中，处理逻辑可以调整翻译音频话语的音频、与原始音频话语相对应的视频部分或音频和视频调整的组合。

参考框635，处理逻辑可以调整覆盖参数，诸如翻译音频话语的音频速率或对应的视频部分的视频速率。在调整覆盖参数之后，处理逻辑进入判定框625，以确定是否有必要进行附加的调整以匹配翻译音频话语和原始音频话语的持续时间。如果有必要进行附加的调整，则处理逻辑返回到框635，以对翻译音频话语的音频速率或对应视频部分的视频速率进行附加的调整。如果不必要进行附加的调整，则处理逻辑进入630，以将翻译音频话语覆盖到视频的对应视频部分上。

在框630处，处理逻辑可以将翻译音频话语覆盖到视频的对应视频部分上，以为观看者生成翻译音频轨道。在实施方式中，当生成翻译音频轨道时，处理逻辑可以保持原始音频部分的非讲话的音频部分。这样可以使观看者仍然听到与其他非讲话的声音有关的音频，以便于保持整体视频体验。但是，如果音频在翻译音频话语和原始音频之间切换，则观看者可能会经历音频声音的突然变化，这可能是不可取的。

在实施方式中，当两个翻译音频话语之间存在短间隙时，处理逻辑可以通过在两个翻译音频话语之间插入静音来减小音频的突然改变的影响。例如，如果两个翻译音频话语之间存在1/2秒的间隙，则播放原始音频部分的1/2秒可能是不可取的。而是处理逻辑可以在两个翻译音频话语之间插入静音，因为两个翻译音频话语之间的间隙很小。

在实施方式中，如果原始音频包括到紧接在翻译音频话语之前或之后的声音的连续声音，则处理逻辑可以紧接在翻译音频话语之前和之后添加短的静音时段。例如，如果原始音频包括交通噪音的连续声音，则听到结束的翻译音频话语并且此后紧接开始交通噪音的连续声音可能会令人不安。处理逻辑可以在之前和之后添加静音缓冲，以允许观看者在引入诸如交通噪音的连续声音的原始音频之前理解翻译音频话语。

在实施方式中，处理逻辑可以实现淡入和淡出技术，以在原始音频和翻译话语分段之间进行过渡，以防止突然过渡。例如，处理逻辑可以在播放翻译音频话语之前淡出原始音频，以便于产生到翻译音频话语的平稳过渡。类似地，在播放翻译音频话语之后，处理逻辑可以淡入原始音频，以便于从翻译音频话语和原始音频产生平滑过渡。

在将翻译音频话语覆盖到对应的视频部分上之后，处理逻辑进入判定菱形框640。在判定菱形框640处，处理逻辑确定是否将附加的翻译音频话语覆盖在视频上。如果要将附加的翻译音频话语覆盖在视频上，则处理逻辑进入620以选择另一翻译音频话语。如果所有翻译音频话语都已经覆盖在视频上，则处理逻辑进入615以生成第二视频。

参考图6A，在框615处，处理逻辑生成第二视频，该第二视频包括覆盖在音频轨道上的翻译音频部分和原始视频的视频部分。在一种实施方式中，如果已经调整视频速率，则处理逻辑可以生成包括调整视频和覆盖的音频部分的独立的第二视频。

在实施方式中，如果仅在覆盖过程期间调整音频速率，则处理逻辑可以将覆盖的音频部分合并为原始视频中的附加音频轨道。然而，如果已经使用视频速度速率调整来调整视频速率，则处理逻辑可以将附加的元数据以及涉及覆盖部分的翻译音频轨道添加到原始视频中，以便于将翻译音频合并到原始视频中。附加元数据可以指定媒体播放器何时需要加快或减慢视频速率，从而包括针对诸如媒体查看器111的客户端媒体播放器的回放指令，以允许原始视频合并翻译音频而无需生成独立的第二视频。

图7描绘根据本公开的一个或多个方面操作的示例计算系统的框图。在各种说明性示例中，计算机系统700可以与图1的系统架构100内的计算设备中的任一个相对应。在一个实施方式中，计算机系统700可以是服务器130A-130Z中的每一个。在另一实施方式中，计算机系统700可以是客户端设备130A-130Z中的每一个。

在某些实施方式中，计算机系统700可以(例如，经由诸如局域网(LAN)、内联网、外联网、或互联网的网络)连接到其它计算机系统。计算机系统700可以在客户端-服务器环境中以服务器或客户端计算机的职能操作，或者在对等或分布式网络环境中作为对等计算机操作。计算机系统700可以由个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、蜂窝电话、web电器、服务器、网络路由器、交换机或桥接器、或能够执行指定要由该设备采取的动作的指令集(顺序的或其它的)的任何设备来提供。另外，术语“计算机”应当包括单独地或联合地执行指令集(或多个指令集)，以执行本文中描述的方法中的任何一个或多个的计算机的任何集合。

在另一个方面中，计算机系统700可以包括可以经由总线708彼此通信的处理设备702、易失性存储器704(例如，随机存取存储器(RAM))、非易失性存储器706(例如，只读存储器(ROM)或电可擦除可编程ROM(EEPROM))、和数据存储设备716。

处理设备702可以由诸如以下的一个或多个处理器提供：通用处理器(诸如例如，复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、甚长指令字(VLIW)微处理器、实现其它类型的指令集的微处理器，或实现各种类型的指令集的组合的微处理器)或专用处理器(诸如例如，专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或网络处理器)。

计算机系统700还可以包括网络接口设备722。计算机系统700还可以包括视频显示单元710(例如，LCD)、字母数字输入设备712(例如，键盘)、光标控制设备714(例如，鼠标)和信号生成设备720。

数据存储设备716可以包括非暂时性计算机可读存储介质724，在其上可以存储对本文中描述的方法或功能中的任何一个或多个进行编码的指令726，其包括实现用于实现本文中描述的方法的图1的基于云的内容管理平台125(125A-125Z)和/或用户界面134(134A-134Z)的指令。

指令726还可以在其由计算机系统700执行期间完全地或部分地驻留在易失性存储器704内和/或在处理设备702内，因此，易失性存储器704和处理设备702还可以构成机器可读存储介质。

虽然计算机可读存储介质724在说明性示例中作为单个介质被示出，但是术语“计算机可读存储介质”应当包括存储一个或多个可执行指令集的单个介质或多个介质(例如，集中式或分布式数据库，和/或相关联的高速缓存和服务器)。术语“计算机可读存储介质”还应当包括能够存储或编码用于由计算机执行使计算机执行本文中描述的方法中的任何一个或多个的指令集的任何有形介质。术语“计算机可读存储介质”应当包括但不限于固态存储器、光介质和磁介质。

在前面的描述中，阐述了许多细节。然而，对于受益于本公开的本领域的普通技术人员而言将显而易见的是，能够在没有这些具体细节的情况下实践本公开。在一些情况下，众所周知的结构和设备是以框图形式而不是详细地示出，以便避免使本公开模糊。

已经在对计算机存储器内的数据比特的操作的算法和符号表示方面呈现了详细描述的一些部分。这些算法描述和表示是由数据处理领域的技术人员使用来最有效地将其工作的实质传达给本领域的其它技术人员的手段。算法在这里且一般地被认为是导致期望结果的步骤的自相一致序列。这些步骤是要求物理量的物理操纵的步骤。通常，尽管不一定，然而这些量采取能够被存储、转移、组合、比较并以其它方式操纵的电信号或磁信号的形式。出于通用的原因，有时将这些信号称为比特、值、元素、符号、字符、项、数字等已经证明是方便的。

然而，应当记住的是，所有这些和类似的术语将与适当的物理量相关联并且仅仅是应用于这些量的方便标签。除非像从以下讨论中显而易见的那样具体地陈述，否则应当显而易见的是在整个说明书中，利用诸如“接收”、“显示”、“移动”、“调整”、“替换”、“确定”、“播放”等的术语的讨论指的是计算机系统或类似的电子计算设备的动作和过程，所述计算机系统或类似的电子计算设备将表示为计算机系统的寄存器和存储器内的物理(例如，电子)量的数据操纵并变换成类似地表示为计算机系统存储器或寄存器或其它这种信息存储、传输或显示设备内的物理量的其它数据。

为了说明的简单，方法在本文中被描绘和描述为一系列动作。然而，根据本公开的动作可以以各种次序发生和/或同时发生，并且同时在本文中未呈现和描述其它动作。此外，可能不要求所有图示的动作来实现根据所公开的主题的方法。此外，本领域的技术人员应当理解并显而易见的是，这些方法能可替选地经由状态图或事件被表示为一系列相关状态。附加地，应当显而易的是，本说明书中公开的方法能够被存储在制品上以方便将此类方法输送并转移到计算设备。如本文中所使用的术语“制品”旨在包含可从任何计算机可读设备或存储介质访问的计算机程序。

本公开的某些实施方式还涉及一种用于执行本文的操作的装置。此装置能够被构造用于预定目的，或者它能够包括通过在计算机中存储的计算机程序选择性地激活或者重新配置的通用计算机。这种计算机程序能够被存储在计算机可读存储介质中，所述计算机可读存储介质诸如但不限于包括软盘、光盘、CD-ROM、和磁光盘的任何类型的盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁卡或光卡或适合于存储电子指令的任何类型的介质。

贯穿本说明书对“一个实施方式”或“实施方式”的参考意味着连同该实施方式一起描述的特定特征、结构或特性被包括在至少一个实施方式中。因此，短语“在一个实施方式中”或“在实施方式中”贯穿本说明书在各个地方中的出现不一定全部都参考相同的实施方式。此外，术语“或”旨在意指包含性“或”而不是排他性“或”。此外，单词“示例”或“示例性”在本文中用于意指用作示例、实例或图示。在本文中描述为“示例性”的任何方面或设计不一定被解释为优于其它方面或设计为优选的或有利的。相反，单词“示例”或“示例性”的使用旨在以具体方式呈现构思。

应当理解的是，以上描述旨在为说明性的，而不是限制性的。在阅读和理解以上描述后，许多其它实施方式对于本领域的技术人员而言将是显而易见的。因此，应当参考所附权利要求以及此类权利要求所赋予的等同物的完全范围来确定本公开的范围。

除以上描述之外，可以给用户提供有允许用户关于本文中描述的系统、程序或特征是否并何时可以使得能够收集用户信息(例如，关于用户的社交网络、社交动作或活动、专业、用户的偏好、或用户的当前位置的信息)并且用户是否被从服务器发送了内容或通信做出选择的控制。此外，某些数据可以在它被存储或者使用之前被以一个或多个方式处理，使得个人可识别的信息被移除。例如，可以处理用户的身份，使得对用户来说不能够确定个人可的信息，或者用户的地理位置可以在获得位置信息的情况下被一般化(诸如到城市、邮政编码、或州级别)，使得不能够确定用户的特定位置。因此，用户可以具有对收集关于用户的什么信息、如何使用该信息并且向用户提供什么信息的控制。

Claims

1.一种方法，包括：

由处理设备识别具有包括以原始语言记录的话语的音频的视频的原始字幕数据，其中，所述原始字幕数据包括以所述原始语言的并且与所述视频的音频部分相关联的多个字幕字符串；

由所述处理设备识别所述视频的翻译语言字幕数据，其中，所述翻译语言字幕数据包括与所述视频的所述音频部分相关联的多个翻译字符串；

由所述处理设备从所述多个字幕字符串生成字幕语句片段集合，并且从所述多个翻译字符串生成翻译语句片段集合；

由所述处理设备基于与所述原始字幕数据和所述翻译语言字幕数据相关联的定时，将所述字幕语句片段集合中的字幕语句片段映射到所述翻译语句片段集合中对应的翻译语句片段；

由所述处理设备使用与单独字幕字符串相对应的定时信息来估计所述字幕语句片段集合中的单独字幕语句片段的时间间隔；

由所述处理设备基于所述单独字幕语句片段的估计时间间隔，向所述翻译语句片段集合中的单独翻译语句片段指配时间间隔；

由所述处理设备利用所述翻译语句片段集合中的连续翻译语句片段生成翻译语句集合；以及

由所述处理设备使用来自对应翻译语句的单独翻译语句片段的指配的时间间隔来将所述翻译语句集合与所述视频的所述音频部分对齐。

2.根据权利要求1所述的方法，其中，所述字幕语句片段集合是使用所述多个字幕字符串中的标点符号从所述多个字幕字符串而被生成。

3.根据权利要求1所述的方法，进一步包括：

识别为所述视频的所述音频部分生成的话语辨识数据，所述话语辨识数据包括多个生成字符串和针对每个生成的字符串的相关联的定时信息。

4.根据权利要求3所述的方法，进一步包括：通过将所述多个字幕字符串映射到所述多个生成字符串来确定与所述原始字幕数据相关联的所述定时，并且基于映射的单独生成字符串的定时信息，来向所述原始字幕数据的单独字幕字符串指配定时信息，其中，与所述原始字幕数据相关联的所述定时与被指配给所述原始字幕数据的所述单独字幕字符串的所述定时信息相对应。

5.根据权利要求4所述的方法，其中，使用指示所述单独字幕字符串与所述多个生成字符串中的单独生成字符串之间的语义相似性的指配值，所述多个字幕字符串被映射到所述多个生成字符串。

6.根据权利要求4所述的方法，进一步包括：在将所述多个字幕字符串映射到所述多个生成字符串之前，通过去除非说出的字符串来标准化所述多个字幕字符串和所述多个生成字符串。

7.根据权利要求5所述的方法，其中，使用指示所述多个字幕字符串中的所述单独字幕字符串与所述多个生成字符串中的所述单独生成字符串之间的语义相似性的所述指配值，来将所述多个字幕字符串映射到所述多个生成字符串包括：

将整数标识符值指配给所述多个字幕字符串中的所述单独字幕字符串的每个独特字符串和所述多个生成字符串中的所述单独生成字符串的每个独特字符串；

其中，与第一字符串相关联的第一整数标识符值和与第二字符串相关联的第二整数标识符值之间的距离表示所述第一字符串与所述第二字符串之间的字符差异。

8.根据权利要求5所述的方法，其中，使用所述指配值将所述多个字幕字符串映射到所述多个生成字符串包括：

使用所述多个字幕字符串中的每个单独字幕字符串和所述多个生成字符串中的每个单独字幕字符串的所述指配值，来确定所述多个字幕字符串中的字幕字符串序列和所述多个生成字符串中的生成字符串序列的匹配对；以及

基于所述字幕字符串序列和所述生成字符串序列的所述匹配对，来将所述多个字幕字符串中的所述单独字幕字符串映射到所述多个生成字符串中的所述单独生成字符串。

9.根据权利要求1所述的方法，其中，使用所述翻译语句片段集合中的连续翻译语句片段生成所述翻译语句集合包括：

基于标点符号来使用所述字幕语句片段集合中的连续字幕语句片段生成字幕语句集合；以及

使用机器翻译基于所述字幕语句集合来生成所述翻译语句集合。

10.根据权利要求1所述的方法，进一步包括：

识别所述视频的话语分段数据，其中，所述话语分段数据包括具有与所述视频的所述音频部分相关联的话语定时信息的多个话语分段；以及

基于与所述多个话语分段相关联的话语定时信息来更新所述字幕语句片段集合中的所述单独字幕语句片段的所述时间间隔。

11.根据权利要求1所述的方法，进一步包括：

获取翻译音频话语，所述翻译音频话语是针对所述原始字幕数据的翻译的机器生成的话语，其中，所述翻译音频话语包括翻译音频话语分段集合；

将所述翻译音频话语分段集合中的翻译音频话语分段覆盖到所述视频的视频分段上，所述视频分段与所述翻译音频话语分段中的每个翻译音频话语分段的时间间隔相对应；以及

生成第二视频，所述第二视频包含所述视频的视频部分和包括所覆盖的翻译音频话语分段的翻译音频部分。

12.根据权利要求11所述的方法，其中，将所述翻译音频话语分段集合中的所述翻译音频话语分段覆盖到所述视频的所述视频分段上包括：

对于所述翻译音频话语分段集合中的每个翻译音频话语分段：

确定所述翻译音频话语分段的定时信息是否与对应的视频分段的定时信息匹配；

在确定所述翻译音频话语分段的定时信息与所述对应的视频分段的定时信息不匹配时，调整所述翻译音频话语分段的回放速度速率，以使所述翻译音频话语分段的定时信息与所述对应的视频分段的定时信息匹配；以及

将所述翻译音频话语分段覆盖到所述对应的视频分段上。

13.根据权利要求11所述的方法，其中，将所述翻译音频话语分段集合中的所述翻译音频话语分段覆盖到所述视频的所述视频分段上包括：

在确定所述翻译音频话语分段的定时信息与所述对应的视频分段的定时信息不匹配时，调整所述对应的视频分段的回放速度速率，以使所述对应的视频分段的定时信息与所述翻译音频话语分段的定时信息匹配；以及

将所述翻译音频话语分段覆盖到所述对应的视频分段上。

14.一种系统，包括：

存储器；以及

处理设备，所述处理设备可操作地与所述存储器耦合以执行根据权利要求1至13中任一项所述的方法。