CN112567721B

CN112567721B - 一种分段式混合视频和音频同步的方法和装置

Info

Publication number: CN112567721B
Application number: CN201980039051.6A
Authority: CN
Inventors: 赵杰
Original assignee: Video Localization Co
Current assignee: Video Localization Co
Priority date: 2018-10-03
Filing date: 2019-08-13
Publication date: 2024-04-05
Anticipated expiration: 2039-08-13
Also published as: EP3791568A4; CN112567721A; US11064245B1; EP3791568A1; WO2020069594A1; US20210195281A1

Abstract

本发明提供了一种分段式混合视频和音频同步的方法和装置。该方法和装置将数据流解码为通道，将通道分割为控制点(具有相同索引的控制点将在所有通道上进行时间同步)定义的多个分段片段，使用线性或非线性数字信号处理算法以最优混合方式自动、智能地调整每个片段中的媒体数据的长度，同步和混合所有经过处理的片段，并输出经过混合和编码的最终数据流。具体而言，媒体数据之一是视频，另一媒体数据是音频或另一种语言的翻译音频。通过将失真控制在最低程度，可以加快后期处理速度并获得最佳同步质量，从而节省视频语言本地化服务的时间和成本。

Description

一种分段式混合视频和音频同步的方法和装置

本申请要求于 2018 年 10 月 3 日提交的美国临时专利申请号 62/740,463 的优先权。以上申请公开内容全文以引用方式并入本文

技术领域

本公开属于视频和音频同步、配音和旁白翻译领域。具体而言，本公开涉及一种分段式混合视频和音频同步的方法和装置。

背景技术

旁白翻译和配音是将视频本地化为原始源语言以外的其他语言的常用方法。旁白翻译的方法是在包括原始配音的现有音轨之上添加新配音，并且可在背景声中听到新配音。配音的方法是创建新音轨用于替换已有音轨。新音轨将新配音与原始背景音乐和音效合并。无论使用哪种方式，都需要录制和处理新配音。

在录制之前，需要将源语言中的每个句子翻译成目标语言，并由配音员进行演绎。由于演绎和语言差异，目标语言中每个句子的语音长度（持续时间）通常与原始语言中的不同。这会导致新配音与原始音效、音乐和/或其他视觉内容不同步。例如，新配音可能会在角色嘴巴闭合后继续；或爆炸音效在人们开始尖叫后才出现。音视频 (AV) 同步指在创作、后期制作（混合）、传输、接收和播放处理期间音频（声音）和视频（画面）组件的相对定时。在电视、视频会议和电影行业中，AV 同步可能会是个问题。同步误差表示为音频偏离与视频的完美同步的时间量，其中正数表示音频早于视频，而负数表示音频晚于视频。

现有的使新配音与原始配音和/或视听内容匹配的方法通常需要高昂的成本和冗长的过程。配音中最常用的方法是基于试错法录制新句子来匹配播放的视频。声音演绎中的重复和时间消耗会带来巨额制作成本。另一种方法是手动调整每个新音频来匹配相应的视频内容。这需要人类工作人员对同步进入点和退出点、视频和音频匹配事件做出所有决策，并通过剪辑、重新定时或改变语气来手动调整音频长度。该过程十分繁琐且通常很难完成，甚至有可能无法完成。因此，需要一种更好、更具成本效益的方法，以及一个将两种媒体数据（特别是音频和配音）自动同步到视频的系统。

发明内容

本发明公开了一种分段式混合视频和音频同步的方法，包括：从媒体流文件中解码获得通道，其中通道之一为视频，另一通道为音频，为每个通道确定一个相同取值的阈值；

标识每个通道内除起点外按时间顺序编制索引的多个控制点，其中一个通道内的某个控制点上的数据内容与每个其他通道内具有相同索引的控制点上的数据内容同步；

使用每个通道的控制点将其分割为相同数量的分段片段，以便每个片段的起点和终点都在某个控制点上，第一个片段除外，第一个片段始于起点并终于第一个控制点；

为所有通道中具有相同索引的所有片段确定一个目标长度，且为每个具有相同索引的片段确定一组参数，该目标长度的数值通过应用第一种算法来确定；

应用第二种算法，以使用片段的一组参数修改每个具有相同索引的片段的数据来匹配目标长度；

通过按顺序连接经过修改的片段来重新生成每个通道；

其中，在媒体播放期间，任何通道内各控制点上的内容都与所有其他通道内各控制点上的内容同时出现；

其中所有通道内任意位置的内容在感官上已同步；其中经过修改的通道和输入数据之间的感知质量差异在所述阈值范围内，所述输入数据为从媒体流文件中解码获得的通道；

其中全部处理操作自动完成。

优选的，其中第二算法为线性或非线性媒体数据转换方法。

优选的，其中所述输入数据由对媒体流文件进行解码获得，且将解码生成的输入数据编码为另一媒体流文件。

优选的，通过按顺序连接经过修改的片段来重新生成每个通道，其中通过混合至少两个重新生成的通道获得一个生成的通道。

优选的，其中通过音视频交互方法来搜索和确定控制点。

优选的，其中第二算法包括对视频帧进行插值、抽取或重新采样，以及更改样本音频的音调、节拍或速度。

优选的，其中视频保持不变，修改音频以在时间上匹配视频。

优选的，其中音频保持不变，修改视频以在时间上匹配音频。

优选的，其中修改视频和音频以匹配时间长度不同的视频和音频。

优选的，其中修改至少一个视频片段以匹配音频片段，并修改至少一个音频片段以匹配视频片段。

优选的，当存在至少一个不能在阈值范围内同步的片段时，如果原始长度比目标长度长，则将截断该片段；如果原始长度比目标长度短，则将空白内容填充至该片段使该片段的长度与目标长度一致。

还公开了一种分段式混合视频和音频同步的装置，包括：

一个解码器，其从第一媒体数据流中解码第一通道和第二通道，并从第二媒体数据流中解码第三通道，其中第一通道为视频，第二通道和第三通道为音频；一个控制模块，其用于设置参数组并确定阈值；

一个处理器，其至少识别三个通道中各通道的第一控制点和第二控制点，这三个通道为第一通道，第二通道和第三通道；

其中对所有通道中的第一控制点和第二控制点进行时间同步；

其中处理器将三个通道中的每个通道分割为至少第一分段片段和第二分段片段，其中第一片段始于通道的起点并终于通道的第一控制点；第二片段始于通道的第一控制点并终于通道的第二控制点；

其中处理器使用某种算法来确定所有通道中所有第一片段的第一目标长度；以及所有通道中所有第二片段的第二目标长度；第一片段和第二片段通过控制模块确定及设置参数组；

一个视频处理器，通过第一片段确定的参数组和设置修改每个视频的第一片段以使其与第一目标长度相匹配，通过第二片段确定的参数组和设置修改每个视频的第二片段以使其与第二目标长度相匹配，并按顺序连接所有修改后的视频的第一片段和第二片段，生成经过处理的视频；

一个音频处理器，通过第一片段确定的参数组和设置修改每个第二通道和第三通道的第一片段以使其与第一目标长度相匹配，通过第二片段确定的参数组和设置修改每个第二通道和第三通道的第二片段以使其与第二目标长度相匹配，并按顺序连接所有修改后的第二通道和第三通道的第一片段和第二片段，生成同步的第二通道和第三通道，将同步的第二通道和第三通道混合为一个经过处理的音频；

一个编码器，其将经过处理的第一通道、第二通道和第三通道编码为第三媒体数据流；

其中所有通道内任意位置的内容在感官上已同步；其中经过修改的通道和原始通道之间的感知质量差异在所述阈值范围内；

其中通过自动数字信号处理来搜索和确定控制点。

优选的，其中视频处理器使用线性或非线性方法对帧进行插值、抽取或重新采样处理，且音频处理器使用线性或非线性方法来更改样本的音调、节拍或速度。

优选的，当通道存在至少一个不能在阈值范围内同步的第一片段或第二片段时，如果第一片段原始长度比第一目标长度长，则将截断该第一片段，或者第二片段原始长度比第二目标长度长，则将截断该第二片段；如果第一片段原始长度比第一目标长度短，则将空白内容填充至第一片段使第一片段的长度与目标长度一致，或者第二片段原始长度比第二目标长度短，则将空白内容填充至第二片段使第二片段的长度与目标长度一致。

本发明的有益效果在于：

所有决策和处理都在有或没有人工智能算法及软件的情况下自动、智能地执行；因此，通过将失真控制在可忽略的范围内，可以获得更好的同步质量和更快的后期处理速度，从而节省视频语言本地化服务的时间和成本。

附图说明

图 1 为本公开的分段式视频和音频同步方法的基本示例性实施例。

图 2 为本公开的分段式视频和音频同步方法的替代性实施例。

图 3 为本公开的分段式混合视频和音频同步方法的优选实施例。

图 4 为本公开的分段式混合视频和音频同步方法的替代性实施例。

图 5 为本公开的分段式混合视频和音频同步方法的示例性实施例变型。

图 6 为本公开的分段式视频和音频同步方法的示例性实施例，其中包括原始音频。

图 7 为本公开的视频和音频同步方法的优选实施例的一般流程图。

图 8 为本公开的视频和音频同步方法的示例性系统设计。

具体实施方式

此处使用的术语仅用于说明特定实施例，而不是想要限制本发明。此处使用的术语“和/或”包括一个或多个相关列出项目的任意及所有组合。此处使用的单数形式的“一种”、“一个”和“该”旨在包括复数形式以及单数形式，除非上下文另有明确指示。需要进一步理解，在本说明书中使用术语“包括”和/或“其中包括”时，其说明存在所述特点、步骤、操作、要素和/或组件，但并不排除其中存在一个或多个其他特点、步骤、操作、要素、组件和/或分组，也不排除增加这些项目。除非另有定义，否则此处使用的所有术语（包括技术和科学术语）均具有本发明所属领域的普通技术人员通常理解的相同含义。需要进一步理解，术语（例如常用字典中定义的术语）应被解释为具有与其在相关领域和本公开的上下文中的含义一致的含义，并且不会以理想化或过于正式的方式进行解释，除非此处有明确定义。在描述本发明时，需要理解公开了多项技术和多个步骤。其中每项技术和每个步骤均有其单独的优先权，并且各自可与其他一项或多项结合使用，或在某些情况下可全部与其他公开的技术结合使用。因此，为了清楚起见，本说明书将避免以不必要的方式重复各个步骤的每种可能组合。尽管如此，应当在理解此类组合完全在本发明和权利要求范围内的前提下阅读说明书和权利要求。

在以下说明中，出于解释目的阐述了许多具体细节，以帮助完全理解本发明。但是，本领域的普通技术人员显然可以在没有这些具体细节的情况下实施本发明。本公开应被视为本发明的范例，并不用于将本发明限于

下文附图或说明所示的特定实施例。现将通过引用表示优选或替代性实施例的附图来描述本发明。

本公开描述了一种用于自动同步至少两个输入媒体数据流（通常为一个视频数据流和一个音频数据流）的新方法。但是，也可以是两个视频数据流或两个音频数据流。视频和音频数据都是时间函数。应当注意，两个输入媒体并不一定具有相同的时间长度。

完美的视频和音频同步意味着音频的任何信号样本都恰好与匹配的视频帧在所需的时间点出现。同时录制视频和音频通常可以确保原生 AV 同步。如果必须分别录制音频和视频，则必须有一种在后期制作阶段进行同步的方法。通常使用场记板。打板用于同步音频，而信息板则用于同步视频帧。

但是，通过识别音频中的打板位置和/或视频中的信息板帧，人们只能在时间上移动音频和视频片段。如果音频长度对于视频而言太短或太长，则无论位移量如何，音频都无法与视频同步。要更改数字音频的长度，必须加快/减慢节拍或提高/降低音调，或同时调整声音的音调和节拍。要更改数字视频的长度（也称为重新定时），必须对视频帧进行插值或降采样操作。通过组合使用调整媒体长度和移动起始位置的方法，可以让任意媒体与另一媒体同步。

本公开讨论了用于将第一输入媒体数据同步到第二输入媒体数据的方法，包括：(1) 将第一媒体数据分割为多个分段片段；(2) 将第二媒体数据分割为相同数量的分段片段；(3) 在每个片段中，借助机器学习模型确定要调整的媒体数据；(4) 调整所述媒体数据的长度以匹配每个片段中的其他媒体数据；(5) 连接各媒体数据的所有片段；并 (6) 输出最终的同步媒体数据；特别是在媒体数据之一是视频，另一媒体数据是音频或翻译音频的情况下。所有决策和处理都通过软件自动执行；因此，通过将媒体失真控制在较轻微的范围内，可以获得更好的媒体同步质量和更快的后期处理速度，从而节省视频语言本地化工作所需花费的时间和金钱。

图 1 为本公开的分段式视频和音频同步方法的基本示例性实施例。左侧粗黑线表示第一输入媒体数据，左侧粗阴影线表示第二输入媒体数据。各输入媒体数据可以是但不限于视频或音频数据，其中音频数据可以是但不限于翻译语言之一的旁白或背景音乐和音效。这适用于以下所有附图。在本公开的基本实施例之一中，粗黑线表示视频；粗阴影线表示目标语言的翻译旁白音频。如图 1 所示，输入视频数据分割为公共控制点对（110、112、114、116）定义的三个分段片段（120、121、122）。输入音频也分割为三个分段片段（126、127、128），其中片段 (127) 为静默片段，而片段 (126) 和 (128) 各自包含经过翻译的句子。音频片段由与视频片段（120、121、122）相同的公共控制点对（110、112、114、116）定义。第一视频和音频公共片段 (102) 始于公共控制点 (110)（也可称为公共控制线），终于公共控制点 (112)。第二视频和音频公共片段 (103) 始于公共控制线 (112)，终于公共控制线 (114)。第三视频和音频公共片段 (104) 始于公共控制线 (114)，终于公共控制线(116)。目标在于使第一对公共控制点（110 和 112）和第二对公共点（114 和 116）中的视频及音频同步。由于片段 (127) 为静默片段，不需要在相应时间间隔内进行同步。在本公开的此实施例示例中，

媒体片段 (120) 长于媒体片段 (126)，媒体片段 (122) 短于媒体片段 (128)。在现实中，任何媒体片段长度组合都有可能。

右侧粗黑线 (130) 表示处理第一输入媒体数据 (120) 得到的第一输出媒体数据；右侧粗阴影线 (132) 表示处理第二输入媒体数据 (122) 得到的第二输出媒体数据。各输出媒体数据可以是但不限于视频或音频数据，其中音频数据可以是但不限于翻译语言之一的旁白或背景音乐和音效。在本公开的优选实施例之一中，粗黑线（130、132）表示经过同步的视频；粗阴影线（136、138）表示目标语言的翻译旁白。在本公开的此实施例中，第一视频片段 (120) 的长度经过调整，成为同步片段 (130)，其具有与音频片段 (136) 相同的长度。同样，第二视频片段 (122) 的长度经过调整，成为同步片段 (132)，其具有与音频片段 (138) 相同的长度。片段 (131) 相对片段 (121) 保持不变，因为没有要同步到其中的新音频。音频片段（136、137、138）分别相对片段（126、127、128）保持不变，因为在本公开的此示例性设计实施例中未改变任何音频媒体数据。在本公开的实施例之一中，通过对视频重新采样以匹配音频长度来实现视频和音频同步。

普通数字视频每秒大约 30 帧；因此，10 秒的视频包含 300 帧。添加更多帧可以增加视频的长度。例如，如果添加 150 帧，则原始视频现在长 15 秒，并且视频中的动作将变慢 50%。通常情况下，新帧通过某种插值算法生成。最简单的算法是复制现有帧或场（电视中为半帧）。其中一种常用算法称为三二下拉。即通过重复使用一个帧或两个场将每 4帧转换为 5 帧。插入帧的一种略复杂的方法是混合相邻帧。高级视频

插值算法涉及准确的像素级帧间动作跟踪和预测。

相反，删除帧可以缩短视频长度。例如，如果删除 150 帧，则原始视频变为 5 秒长。视频中的动作将变快 100%。通常情况下，通过某种重新采样算法删除帧。其中一种最简单的算法是抽取，即仅删除一些原始帧，但这通常会导致抖动赝象，并让动作变得粗糙且不连续。更深入的算法是先混合两个相邻帧，然后将两个原始帧替换为此混合帧。高级视频重新采样算法利用准确的像素级帧间动作跟踪和预测。跟踪信息随后用于在所需的新时间位置创建新帧。高级算法可以是非线性视频处理方法。此类视频处理软件的一个示例是Adobe Premiere Pro。

在图 1 中，输入媒体数据仅分割为三个片段，但对于本领域的普通技术人员而言，所述方法可以应用于一个、两个、四个或任何更大数量的片段。例如，输入视频数据可分割为五个要同步的分段片段。但是，音频片段的数量必须与输入视频数据分割为的分段片段的数量相同。例如，如果有五个输入音频片段，则输入视频数据将分割为五个相应的分段片段。通过同步过程，五个输入视频数据片段都将在长度上与各自对应的输入音频数据片段相匹配。

在本公开的另一个替代性实施例中，可以存在任何数量的要彼此同步的媒体数据，如三个、四个或更多个。例如，对于共计四个要同步的输入媒体数据，可能有一个视频输入数据和三个音频输入数据（例如旁白、背景音乐和音效）。图 2 为本公开的分段式视频和音频同步方法的替代性实施例。输入两个媒体数据的情况与图 1 中完全相同。如本公开的示例性实施例所示，片段（120、121、122）为输入视频数据；片段（126、127、128）为输入音频数据。现在，在本公开的替代性实施例中，视频输出片段（230、131、232）与输入片段（120、121、122）相同，而音频片段 (236) 和 (238) 则修改为分别同步到相应的视频片段 (230)和 (232)。即，调整公共控制线 (110) 和 (112) 之间的音频片段 (236) 的长度以匹配视频片段 (120) 或 (230) 的长度；调整公共控制线 (114) 和 (116) 之间的音频片段(238) 的长度以匹配视频片段 (122) 或 (232) 的长度。输入音频片段 (127) 为静默片段，因此仍不进行调整。它作为 (137) 直接输出。

音频重新定时可以通过改变音频的音调、节拍或速度（音调和节拍）来实现。例如，音频节拍变慢会增加音频长度。较低的音调也会延长音频持续时间。相反，更快的节拍和更高的音调将缩短原始音频长度。音调与声音的频率相关，节拍与声音的持续时间相关。加快或减慢转盘上的唱片速度时，音轨的音调和节拍相互关联：将唱片旋转速度加快 10% 会使音调和节拍都提高 10%。在不更改节拍的情况下改变音调或反之亦然的软件处理操作称为时间拉伸或音调移位。虽然这对于小幅度调整 (± 20%) 而言效果很好，但对于较大幅度的更改，最终获得的媒体文件可能很嘈杂且没有音乐性。高级算法可以是非线性音频处理方法。此类软件的一个示例是 Audacity。

图 3 为本公开的分段式混合视频和音频同步方法的优选实施例。输入两个媒体数据的情况与图 1 中完全相同。如本公开的示例性实施例所示，分段片段（120、121、122）为输入视频数据；分段片段（126、127、128）为输入音频数据。公共控制线 (110) 和 (112)之间的视频片段 (120) 和音频片段 (126) 需要在长度上同步。公共控制线 (114) 和(116) 之间的视频片段 (122) 和音频片段 (128) 也需要在长度上同步。

现在，在本公开的此实施例中，视频输入片段 (120) 调整为中间视频长度(330)。中间长度比原始视频长度 (120) 短，但比原始音频长度 (126) 长。同时，音频输入片段 (126) 调整为中间视频长度 (336)。中间长度比原始音频长度 (126) 长，但比原始视频长度 (120) 短。音频输出长度 (336) 与视频输出长度 (330) 匹配。

类似地，视频输入片段 (122) 调整为中间视频长度 (332)。中间长度比原始视频长度 (122) 长，但比原始音频长度 (128) 短。同时，音频输入片段 (128) 调整为中间视频长度 (338)。中间长度比原始音频长度 (128) 短，但比原始视频长度 (122) 长。音频输出长度 (338) 与视频输出长度 (32) 匹配。输入音频片段 (127) 为静默片段，因此仍不进行调整。它作为 (137) 直接输出。输入视频片段 (121) 也保持不变，并作为 (131) 输出。

图 4 为本公开的混合视频和音频同步方法的替代性实施例。输入两个媒体数据的情况与图 1 中完全相同。如本公开的示例性实施例所示，分段片段（120、121、122）为输入视频数据；分段片段（126、127、128）为输入音频数据。公共控制线 (110) 和 (112) 之间的视频片段 (120) 和音频片段 (126) 需要在长度上同步。公共控制线 (114) 和 (116)之间的视频片段 (122) 和音频片段 (128) 也需要在长度上同步。

现在，在本公开的此实施例中，混合使用了同步方法。在公共控制点 (110) 和(112) 之间，视频片段 (120) 和音频片段 (126) 的同步使用图 1 所示的方法执行，即调整视频片段 (120) 以匹配音频片段 (126) 的长度。经过处理的视频片段为 (130)，其具有与音频片段 (136) 相同的长度。而在公共控制点 (114) 和 (116) 之间，视频片段(122) 和音频片段 (128) 的同步使用图 2 所示的方法执行，即调整音频片段 (128) 以匹配视频片段 (122) 的长度。经过处理的音频片段为 (438)，其具有与音频片段 (432)相同的长度。

在本公开的又一个实施例中，除图 1 和图 2 中的同步外，还可以使用图 3 所示的同步。因此，任何媒体片段都可以具有由公共控制点对定义的更多片段。每个片段都可以使用上述任何方法进行同步；因此，混合分段片段媒体数据同步可能会包含任意片段同步方法组合。

图 5 为本公开的分段式混合视频和音频同步方法的示例性实施例变型。输入两个媒体数据的情况与图 1 中完全相同。如本公开的示例性实施例所示，分段片段（120、121、122）为输入视频数据；分段片段（126、127、128）为输入音频数据。公共控制线 (110)和 (112) 之间的视频片段 (120) 和音频片段 (126) 需要在长度上同步。公共控制线(114) 和 (116) 之间的视频片段 (122) 和音频片段 (128) 也需要在长度上同步。

此实施例表示将视频 (120) 和音频 (126) 都调整为中间媒体长度的情况。调整两个媒体数据后，如果不引入不可接受的失真，则至少一个媒体数据无法达到目标中间媒体长度。只会以小于说明书中的可接受阈值的失真来调整媒体数据。因此，将存在至少一个长度短于所需长度的媒体。在不失一般性的前提下，在公共控制点 (110) 和 (112) 之间，视频片段 (120) 可以调整为目标中间长度 (130)，并且更改无需超出预定义的阈值；也就是说，因调整视频片段而引入的视觉失真对于用户而言不可见或可忍受。但是，在不超出预定义阈值的情况下，音频片段 (126) 无法调整为目标中间长度 (536)；也就是说，因调整音频片段而引入的听觉失真对于用户而言明显或不可接受。因此，音频片段 (126) 只能在阈值范围内进行调整。因此，经过处理的音频片段 (536) 将短于所需长度。缺失长度为(538)。

类似地，在公共控制点 (114) 和 (116) 之间，音频片段 (128) 可以调整为目标中间长度 (438)，并且更改无需超出预定义的阈值；也就是说，因调整音频片段而引入的听觉失真对于用户而言不明显或可忍受。但是，在不超出预定义阈值的情况下，视频片段(122) 无法调整为目标中间长度 (532)；也就是说，因调整视频片段而引入的视觉失真对于用户而言可见或不可接受。因此，视频片段 (122) 只能在阈值范围内进行调整。因此，经过处理的视频片段 (532) 将短于所需长度。缺失长度为 (534)。

图 5 仅显示混合分段式匹配方法用于限制在阈值的一种情况。对于本领域的普通技术人员而言，这也易于理解，使用匹配方法的其他组合时，也会发生相同的限制情况。例如，调整视频片段以匹配音频片段；或调整音频片段以匹配视频片段。

图 6 为本公开的分段式视频和音频同步方法的示例性实施例，其中包括原始音频。输入两个媒体数据的情况与图 1 中完全相同。如本公开的示例性实施例所示，分段片段（120、121、122）为输入视频数据；分段片段（126、127、128）为输入音频数据。公共控制线(110) 和 (112) 之间的视频片段 (120) 和音频片段 (126) 需要在长度上同步。公共控制线 (114) 和 (116) 之间的视频片段 (122) 和音频片段 (128) 也需要在长度上同步。

此外，原始输入音频媒体数据也分割为公共控制点对（110、112、114、116）定义的三个分段片段（623、624、625）。经过处理的输出音频数据也分为三个分段片段（633、634、635）。在本公开的此实施例中，原始音频片段（623、624、625）始终与相应的视频片段同步。这相对容易实现，因为音频片段 (623) 将始终与视频片段 (120) 的长度相同，而音频片段 (634) 将始终与视频片段（120、132）的长度相同。音频片段 (625) 将始终与视频片段（122、130）的长度相同。因此，如图 6 所示，在公共控制线 (110) 和 (112) 内，修改视频片段 (120) 以匹配音频长度（126 或 136），并修改原始音频片段 (623) 以匹配音频长度（126 或 136）。在公共控制线 (114) 和 (116) 内，修改视频片段 (122) 以匹配音频长度，并修改原始音频片段 (623) 以匹配音频长度（126 或 136）。

在本公开的此典型实施例中，原始音频媒体和视频之间的同步相对容易，因为它们的原始长度总是相同；且它们的目标长度也总是相同。在调整音频片段以匹配视频片段的其中一个实施例中，在存在原始音频片段的情况下，可以选择调整新音频片段以匹配原始音频片段，而不是视频片段。通过更改某个音频片段来匹配另一个音频片段，可以使用更多方法实现同步。除限制媒体长度外，还可以按内容或事件进行同步。例如，两个音频媒体数据中都有打板声；特殊的声音或语音等。

图 7 为本公开的视频和音频同步方法的优选实施例的一般流程图。从模块(702) 开始，至少输入了两个媒体数据。还输入了配置数据。配置数据包括但不限于最大视频调整阈值、最大音频调整阈值、首选转换媒体类型、默认媒体同步方法、默认媒体数据压缩率、混音器参数的默认值等。

在以下说明中，图 8 显示使用以 8 开头的交叉引用号提及的所有组件（例如，解码器 802 和 804）。解码器（802、804）在 (704) 中接收所有输入媒体数据（810、814）。对媒体数据进行解码后，解码器基于媒体内容和配置数据 (834) 将第一媒体数据分割为多个分段片段。在 (706) 中，另一个解码器基于媒体内容、配置数据和第一媒体数据的分割段将第二媒体数据分割为多个分段片段。

然后，在步骤 (708) 中，主处理器 (806) 收集有关输入的媒体和配置数据的所有信息，并确定每个片段中的最佳媒体转换方法和最佳目标参考媒体长度。最佳目标参考媒体长度是定义该片段的公共控制点对中所有媒体片段应转换为的最终长度。系统处理器(840) 将进一步确定 (710) 中用于媒体数据转换的参数。除最佳目标媒体长度外，还确定了用于引导媒体转换满足预定义说明书要求并生成高质量同步结果的其他参数和操作设置。

确定所有参数并做出所有决策后，在模块 (712) 中，媒体处理器 (808) 和(810) 开始使用确定的媒体转换方法来调整每个媒体片段，以匹配最佳目标长度。匹配在每对公共控制点界定的各媒体片段数据中进行。长度匹配后，媒体处理器会根据 (714) 中的配置设置进一步执行位移和处理，以同步各片段中的所有媒体数据。例如，如果达到最大媒体调整阈值，则经过处理的媒体数据将设置为同步到开始时间戳、内部事件或任何其他时间位置。

所有媒体分段都经过处理并同步后，混合器处理器 (850) 可能会混合多个媒体数据以在 (716) 中形成输出媒体数据。例如，在将翻译旁白添加到包括原始语言音乐和音频的现有音频数据的项目中，需要基于一些预定义的混合参数在混合器处理器中混合两个经过处理的音频流。最终，编码器对混合的媒体数据和/或未混合的其他媒体数据进行编码，以在模块 (718) 中创建最终媒体数据。最终编码的媒体数据随后在最终模块 (720)中输出。至此完成了本公开的整个分段式混合多媒体数据同步方法。

图 7 描述的处理流程仅用于提供本公开的示例性实施例。模块和顺序不一定如图所示。对于本领域的普通技术人员而言，对处理步骤或模块的顺序进行一些改变，和/或增加或缺失一些次要相关处理步骤，不会改变本公开的基本理念。所有步骤均用于通过分段以及混合线性和非线性媒体转换方法来实现自动、智能的多媒体同步方法和系统。

图 8 为本公开的视频和音频同步方法的示例性系统设计 (800)。输入打包媒体数据 (810) 进入视频解码器 (802)，视频解码器对其进行解码并生成一个原始视频数据(816) 和一个原始音频数据 (818)。通常情况下，视频数据 (816) 和音频数据 (818) 长度相同。同时，输入音频数据 (814) 进入音频解码器 (804)，音频解码器对其进行解码并生成音频数据 (828)。通常情况下，音频数据 (828) 与视频数据 (816) 和音频数据(818) 的长度不同。在本公开的实施例之一中，音频数据 (818) 包含音乐和音效以及原始语言的音频数据。旁白数据 (828) 包含翻译语言的新音频数据。控制箱 (840) 提供数据处理系统级参数和配置文件数据 (834)。控制箱 (840) 可能会包含高级主处理器，例如人工智能 (AI) 模型或机器学习网络。它也可以像存储基本配置参数的 Excel 文件一样简单。具体而言，字幕信息文件（又名字幕文件或隐藏字幕文件）可以是输入系统参数数据之一。

本公开的示例性实施例之一使用机器学习网络就翻译旁白同步过程做出更好决策。视频中可能经常出现某些字词或短语。例如，“CNN reports”在新闻视频中多次出现。机器学习模型可以通过之前的数据和/或用户自定义调整学习此模式，并预先获知此短语的另一种目标语言翻译的最佳长度和其他转换参数，因此，总体同步可变得更快和更好。

生成的视频数据 (816)、音频数据 (818)、新语音数据 (828) 和控制盒 (840)提供的系统配置数据都馈送到系统处理器 (806) 中。系统处理器 (806) 执行前述方法的所有决策逻辑。系统处理器 (806) 还将预处理结果发回控制箱 (840)，以进行更高级别的决策，例如利用人工智能、大数据和机器学习进行决策。处理器 (806) 决定应调整的媒体数据以及将在处理中使用的方法和参数。然后，处理器 (806) 将纯视频数据 (820) 输出到视频处理器 (808)。视频处理器 (808) 使用所确定的方法和来自 (806) 的参数调整视频数据长度，以生成经过处理的视频数据 (824)。经过处理的视频数据 (824) 可以是原始视频 (820) 的拉长或缩短版本。中央处理器 (806) 还会将原始音频数据 (822) 引导至音频处理器 (810)。音频处理器 (810) 使用所确定的方法和来自 (806) 的参数调整音频数据长度，以生成经过处理的音频数据 (826)。经过处理的音频数据 (826) 可以是原始音频 (822) 的拉长或缩短版本。处理器 (806) 还会将语音音频数据 (830) 输出至音频处理器 (810)。音频处理器 (810) 使用所确定的方法和来自 (806) 的参数调整音频数据长度，以生成经过处理的语音数据 (832)。经过处理的语音数据 (832) 可以是输入语音音频(830) 的拉长或缩短版本。最后，所有经过处理的媒体数据都会到达编码器 (850)，其中包括视频数据 (824)、音频数据 (826) 和语音数据 (832)。编码器 (850) 将所有媒体数据以标准动作图像压缩和打包格式之一编码为最终视频或电影。此类动作图像压缩格式的一个示例是 MPEG4。

以上说明限定为一个视频输入和两个音频输入。对于本领域的普通技术人员而言，将系统扩展为具有两个、三个或更多个媒体输入的任意组合很简单。例如，可能有两个视频输入；或三个音频输入等。处理逻辑保持不变。

前述各处理器可以是计算机、PCB 板或正在运行的软件模块的线程。处理器可能会包含内存、非易失性存储、CPU、群集、数据库、网络和/或 Internet 连接。在各处理器上运行的软件可以是开源软件模块、内部开发的软件，或算法和功能的硬件实现。

Claims

1.一种分段式混合视频和音频同步的方法，其特征在于，包括：从媒体流文件中解码获得通道，其中通道之一为视频，另一通道为音频，为每个通道确定一个相同取值的阈值；

通过按顺序连接经过修改的片段来重新生成每个通道；

其中全部处理操作自动完成。

2.如权利要求 1 所述的一种分段式混合视频和音频同步的方法，其特征在于，其中第二算法为线性或非线性媒体数据转换方法。

3.如权利要求 1 所述的一种分段式混合视频和音频同步的方法，其特征在于，其中所述输入数据由对媒体流文件进行解码获得，且将解码生成的输入数据编码为另一媒体流文件。

4.如权利要求 1 所述的一种分段式混合视频和音频同步的方法，其特征在于，通过按顺序连接经过修改的片段来重新生成每个通道，其中通过混合至少两个重新生成的通道获得一个生成的通道。

5.如权利要求 1 所述的一种分段式混合视频和音频同步的方法，其特征在于，其中通过音视频交互方法来搜索和确定控制点。

6.如权利要求 1所述的一种分段式混合视频和音频同步的方法，其特征在于，其中第二算法包括对视频帧进行插值、抽取或重新采样，以及更改样本音频的音调、节拍或速度。

7.如权利要求6所述的一种分段式混合视频和音频同步的方法，其特征在于，其中视频保持不变，修改音频以在时间上匹配视频。

8.如权利要求6 所述的一种分段式混合视频和音频同步的方法，其特征在于，其中音频保持不变，修改视频以在时间上匹配音频。

9.如权利要求 6 所述的一种分段式混合视频和音频同步的方法，其特征在于，其中修改视频和音频以匹配时间长度不同的视频和音频。

10.如权利要求 6 所述的一种分段式混合视频和音频同步的方法，其特征在于，其中修改至少一个视频片段以匹配音频片段，并修改至少一个音频片段以匹配视频片段。

11.如权利要求 1 所述的一种分段式混合视频和音频同步的方法，其特征在于，当存在至少一个不能在阈值范围内同步的片段时，如果原始长度比目标长度长，则将截断该片段；如果原始长度比目标长度短，则将空白内容填充至该片段使该片段的长度与目标长度一致。

12.一种分段式混合视频和音频同步的装置，其特征在于，包括：

其中对所有通道中的第一控制点进行时间同步，并且对所有通道中的第二控制点也进行时间同步；

其中通过自动数字信号处理来搜索和确定控制点。

13.如权利要求 12 所述的一种分段式混合视频和音频同步的装置，其特征在于，其中视频处理器使用线性或非线性方法对帧进行插值、抽取或重新采样处理，且音频处理器使用线性或非线性方法来更改样本的音调、节拍或速度。

14.如权利要求 12 所述的一种分段式混合视频和音频同步的装置，其特征在于，当通道存在至少一个不能在阈值范围内同步的第一片段或第二片段时，如果第一片段原始长度比第一目标长度长，则将截断该第一片段，或者第二片段原始长度比第二目标长度长，则将截断该第二片段；如果第一片段原始长度比第一目标长度短，则将空白内容填充至第一片段使第一片段的长度与第一目标长度一致，或者第二片段原始长度比第二目标长度短，则将空白内容填充至第二片段使第二片段的长度与第二目标长度一致。