CN109587543A

CN109587543A - 音频同步方法和装置及存储介质

Info

Publication number: CN109587543A
Application number: CN201811616135.5A
Authority: CN
Inventors: 唐大闰; 徐浩; 吴明辉
Original assignee: Miaozhen Systems Information Technology Co Ltd
Current assignee: Miaozhen Information Technology Co Ltd; Miaozhen Systems Information Technology Co Ltd
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2019-04-05
Anticipated expiration: 2038-12-27
Also published as: CN109587543B

Abstract

本发明公开了一种音频同步方法和装置及存储介质。其中，该方法包括：获取为目标视频文件进行配音所录制的配音文件；将配音文件中的配音音频按照单位间隔划分为多个配音片段；根据目标视频文件中提取出的目标音频，将多个配音片段划分到多个配音集合中；依次比对每个配音集合所用的配音播放时长与目标播放时长，其中，目标播放时长为在目标音频中与配音集合对应的目标音频片段所用的音频播放时长；根据比对的结果调整配音集合中的配音片段，以使配音音频与目标音频同步播放。本发明解决了相关技术提供的音频同步方法存在操作复杂度较高的技术问题。

Description

音频同步方法和装置及存储介质

技术领域

本发明涉及计算机领域，具体而言，涉及一种音频同步方法和装置及存储介质。

背景技术

如今，为了避免将拍摄过程中从现场采集到的噪音带入视频中，越来越多的影视剧作品开始采用后期配音。也就是说，由配音演员为影视剧作品中的角色进行专门的配音录制。

然而，配音演员在进行配音的过程中，往往需要经过多次尝试，才能与影视剧作品中的角色保持一致的说话节奏。也就是说，目前由配音演员控制自身的配音节奏，来使得配音音频与影视剧作品中角色音频达到同步，这种方式存在操作复杂度较高的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种音频同步方法和装置及存储介质，以至少解决相关技术提供的音频同步方法存在操作复杂度较高的技术问题。

根据本发明实施例的一个方面，提供了一种音频同步方法，包括：获取为目标视频文件进行配音所录制的配音文件；将上述配音文件中的配音音频按照单位间隔划分为多个配音片段；根据上述目标视频文件中提取出的目标音频，将上述多个配音片段划分到多个配音集合中；依次比对每个上述配音集合所用的配音播放时长与目标播放时长，其中，上述目标播放时长为在上述目标音频中与上述配音集合对应的目标音频片段所用的音频播放时长；根据比对的结果调整上述配音集合中的配音片段，以使上述配音音频与上述目标音频同步播放。

作为一种可选的示例，上述根据上述目标视频文件中提取出的目标音频，将上述多个配音片段划分到多个配音集合中包括：获取对上述目标音频进行文本转换所得到的第一文本集，其中，上述第一文本集中所包含的每一个文本片段用于指示将上述目标音频按照目标时间间隔进行划分后得到的每一个对象音频片段对应的文本信息；重复执行以下步骤，直至遍历上述第一文本集中全部的文本片段：从上述第一文本集中获取当前文本片段；从上述多个配音片段中获取与上述当前文本片段对应的目标配音片段；将上述目标配音片段划分到一个配音集合中；获取下一个文本片段作为上述当前文本片段。

作为一种可选的示例，上述获取对上述目标音频进行文本转换所得到的第一文本集包括：从上述目标视频文件提取出上述目标音频；将上述目标音频按照上述目标时间间隔划分为多个对象音频片段；对上述多个对象音频片段进行文本转换，得到上述第一文本集，其中，在上述对象音频片段中包含的关键音频片段的播放时长达到下一个上述目标时间间隔的情况下，在与上述关键音频片段对应的上述对象音频片段中标记上述关键音频片段为同一个音频片段。

作为一种可选的示例，上述根据比对的结果调整上述配音集合中的配音片段包括：在上述比对的结果指示上述配音集合所用的配音播放时长小于上述目标播放时长的情况下，将上述配音集合所用的配音播放时长拉伸至上述目标播放时长；在上述比对的结果指示上述配音集合所用的配音播放时长大于上述目标播放时长的情况下，将上述配音集合所用的配音播放时长压缩至上述目标播放时长。

作为一种可选的示例，在上述根据比对的结果调整上述配音集合中的配音片段之后，还包括：在上述配音集合所用的配音播放时长被拉伸至上述目标播放时长的情况下，将上述配音集合中配音片段的频率调低；在上述配音集合所用的配音播放时长被压缩至上述目标播放时长的情况下，将上述配音集合中配音片段的频率调高。

作为一种可选的示例，上述将上述配音文件中的配音音频按照单位间隔划分为多个配音片段包括：对上述配音音频进行文本转换，得到配音文本；以上述配音文本中的字为单位，将上述配音音频划分为上述多个配音片段；或者，以上述配音文本中字的音素为单位，将上述配音音频划分为上述多个配音片段。

根据本发明实施例的另一方面，还提供了一种音频同步装置，包括：获取单元，用于获取为目标视频文件进行配音所录制的配音文件；第一划分单元，用于将上述配音文件中的配音音频按照单位间隔划分为多个配音片段；第二划分单元，用于根据上述目标视频文件中提取出的目标音频，将上述多个配音片段划分到多个配音集合中；比对单元，用于依次比对每个上述配音集合所用的配音播放时长与目标播放时长，其中，上述目标播放时长为在上述目标音频中与上述配音集合对应的目标音频片段所用的音频播放时长；调整同步单元，用于根据比对的结果调整上述配音集合中的配音片段，以使上述配音音频与上述目标音频同步播放。

作为一种可选的示例，上述第二划分单元包括：获取模块，用于获取对上述目标音频进行文本转换所得到的第一文本集，其中，上述第一文本集中所包含的每一个文本片段用于指示将上述目标音频按照目标时间间隔进行划分后得到的每一个对象音频片段对应的文本信息；处理模块，用于重复执行以下步骤，直至遍历上述第一文本集中全部的文本片段：从上述第一文本集中获取当前文本片段；从上述多个配音片段中获取与上述当前文本片段对应的目标配音片段；将上述目标配音片段划分到一个配音集合中；获取下一个文本片段作为上述当前文本片段。

作为一种可选的示例，上述获取模块包括：提取子模块，用于从上述目标视频文件提取出上述目标音频；划分子模块，用于将上述目标音频按照上述目标时间间隔划分为多个对象音频片段；转换子模块，用于对上述多个对象音频片段进行文本转换，得到上述第一文本集，其中，在上述对象音频片段中包含的关键音频片段的播放时长达到下一个上述目标时间间隔的情况下，在与上述关键音频片段对应的上述对象音频片段中标记上述关键音频片段为同一个音频片段。

作为一种可选的示例，上述调整同步单元包括：第一调整模块，用于在上述比对的结果指示上述配音集合所用的配音播放时长小于上述目标播放时长的情况下，将上述配音集合所用的配音播放时长拉伸至上述目标播放时长；第二调整模块，在上述比对的结果指示上述配音集合所用的配音播放时长大于上述目标播放时长的情况下，将上述配音集合所用的配音播放时长压缩至上述目标播放时长。

作为一种可选的示例，上述装置还包括：第三调整模块，用于在上述根据比对的结果调整上述配音集合中的配音片段之后，在上述配音集合所用的配音播放时长被拉伸至上述目标播放时长的情况下，将上述配音集合中配音片段的频率调低；第四调整模块，用于在上述根据比对的结果调整上述配音集合中的配音片段之后，在上述配音集合所用的配音播放时长被压缩至上述目标播放时长的情况下，将上述配音集合中配音片段的频率调高。

作为一种可选的示例，上述第一划分单元包括：转换模块，用于对上述配音音频进行文本转换，得到配音文本；划分模块，用于以上述配音文本中的字为单位，将上述配音音频划分为上述多个配音片段；或者，以上述配音文本中字的音素为单位，将上述配音音频划分为上述多个配音片段。

根据本发明实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述音频同步方法。

在本发明实施例中，通过将配音音频按照单位间隔划分为多个配音片段，并按照目标视频文件中的目标音频的节奏将多个配音片段划分到多个配音集合中，从而实现利用配音集合所用的播放时长与目标播放时长的比对结果，来调整配音集合中的配音片段，达到对配音集合中配音片段的自动调整，以实现对配音音频与目标音频同步控制的自动化，简化音频同步控制操作，提高音频同步效率，进而解决了相关技术提供的音频同步方法存在操作复杂度较高的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的音频同步方法的流程图；

图2是根据本发明实施例的另一种可选的音频同步方法的流程图；

图3是根据本发明实施例的一种可选的音频同步装置的结构示意图；

图4是根据本发明实施例的另一种可选的音频同步装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种音频同步方法，可选地，作为一种可选的实施方式，如图1所示，上述音频同步方法包括：

S102，获取为目标视频文件进行配音所录制的配音文件；

S104，将配音文件中的配音音频按照单位间隔划分为多个配音片段；

S106，根据目标视频文件中提取出的目标音频，将多个配音片段划分到多个配音集合中；

S108，依次比对每个配音集合所用的配音播放时长与目标播放时长，其中，目标播放时长为在目标音频中与配音集合对应的目标音频片段所用的音频播放时长；

S110，根据比对的结果调整配音集合中的配音片段，以使配音音频与目标音频同步播放。

可选地，在本实施例中，上述音频同步方法可以但不限于应用于为目标视频文件进行配音的场景中，通过本实施例中提供的方法对录制的配音音频与待配音的目标视频文件中提取出的目标音频进行同步控制。其中，上述目标视频文件可以包括但不限于：影视剧作品、记录片、动画片等，需要为其中的角色配音或通过配音为其进行旁白说明的视频文件。上述仅是一种示例，本实施例中对此不作任何限定。

需要说明的是，在本实施例中，在获取为目标视频文件进行配音所录制的配音文件之后，将该配音文件中的配音音频按照单位间隔划分为多个配音片段。再根据上述目标视频文件中提取出的目标音频，将上述多个配音片段划分到多个配音集合中，并依此比对每个配音集合所用的配音播放时长与目标播放时长，其中目标播放时长为在目标音频中与上述配音集合对应的目标音频片段所用的音频播放时长。从而根据比对的结果来调整配音集合中的配音片段，以使配音音频与目标音频实现自动同步播放。也就是说，通过将配音音频按照单位间隔划分为多个配音片段，并按照目标视频文件中的目标音频的节奏将多个配音片段划分到多个配音集合中，从而实现利用配音集合所用的播放时长与目标播放时长的比对结果，来调整配音集合中的配音片段，达到对配音集合中配音片段的自动调整，以实现对配音音频与目标音频同步控制的自动化，简化音频同步控制操作，提高音频同步效率，进而克服相关技术中存在的音频同步操作较复杂的问题。

可选地，在本实施例中，上述将配音文件中的配音音频按照单位间隔划分为多个配音片段包括：对配音音频进行文本转换，得到配音文本；然后可以但不限于通过以下一种方式获取多个配音片段：

1)以配音文本中的字为单位，将配音音频划分为多个配音片段；

2)以配音文本中字的音素为单位，将配音音频划分为多个配音片段。

需要说明的是，每个字可以但不限于按照声母和/或韵母拆分为多个音素。也就是说，在本实施例中，上述配音片段可以以配音片段中的字为单位间隔进行划分得到，也可以但不限于以配音片段中字的音素为单位间隔进行划分得到，从而实现将配音音频划分为更加精细的单位片段，以便于将划分后的结果精准地划分到配音集合中，进而便于提高同步调整的精度。

可选地，在本实施例中，上述目标音频可以但不限于进行文本转换得到第一文本集，其中，第一文本集中所包含的每一个文本片段用于指示将目标音频按照目标时间间隔进行划分后得到的每一个对象音频片段对应的文本信息。

需要说明的是，上述目标时间间隔可以但不限于为单位时间间隔，也就是说，将目标音频按照单位时间间隔划分为多个对象音频片段，然后将各个对象音频片段转换为对应的文本片段。其中，每个文本片段中包括对应的对象音频片段转换得到的一个或多个文字。此外，在本实施例中，在一个对象音频片段中的关键音频片段所用的播放时长达到下一个目标时间间隔的情况下，可以但不限于在上述对象音频片段所对应的文本片段中都保留重复的关键音频片段。例如，当对象音频片段中一个字的发音(即关键音频片段)跨度超过单位时间间隔，如单位时间间隔为1ms，该发音持续时长为2ms，则可在所跨越的两个文本片段中标记：上述是同一个字的发音，而不是重复发音。

可选地，在本实施例中，可以但不限于对配音音频划分的配音片段和目标音频划分后的对象音频片段进行配音对准处理：将多个配音片段中，与文本片段对应的目标配音片段划分到一个配音集合中。利用文本片段作为对准参考媒介，使配音音频中的配音片段与目标音频中对象音频片段实现同步对准。从而达到自动控制配音音频与目标音频以相同节奏播放的目的，而无需人为调整配音演员的语速。

可选地，在本实施例中，在配音对准处理后，为了保证配音音频的音质，避免因调整配音音频的播放时长所导致的失真问题，还可以但不限于：根据播放时长的调整，对应调整配音集合中配音片段的频率，以保证对准后的配音集合的流畅衔接。

通过本申请提供的实施例，通过将配音音频按照单位间隔划分为多个配音片段，并按照目标视频文件中的目标音频的节奏将多个配音片段划分到多个配音集合中，从而实现利用配音集合所用的播放时长与目标播放时长的比对结果，来调整配音集合中的配音片段，达到对配音集合中配音片段的自动调整，以实现对配音音频与目标音频同步控制的自动化，简化音频同步控制操作，提高音频同步效率，进而克服相关技术中存在的音频同步操作较复杂的问题。

作为一种可选的方案，根据目标视频文件中提取出的目标音频，将多个配音片段划分到多个配音集合中包括：

S1，获取对目标音频进行文本转换所得到的第一文本集，其中，第一文本集中所包含的每一个文本片段用于指示将目标音频按照目标时间间隔进行划分后得到的每一个对象音频片段对应的文本信息；

S2，重复执行以下步骤，直至遍历第一文本集中全部的文本片段：

S21，从第一文本集中获取当前文本片段；

S22，从多个配音片段中获取与当前文本片段对应的目标配音片段；

S23，将目标配音片段划分到一个配音集合中；

S24，获取下一个文本片段作为当前文本片段。

需要说明的是，在本实施例中，上述文本片段中可以包括但不限于对象音频片段转换得到的一个或多个文字。例如，假设用于获取文本片段的目标时间间隔为1秒(s)，则文本片段中所包括的是目标音频在1s内播放的音频片段对应的文字信息。上述仅是一种示例，本实施例中对此不作任何限定。

例如，假设上述配音片段以字为单位划分。目标音频在第1s内播放的对象音频片段对应的文本片段为“你好”，则根据上述目标音频对应的文本片段，从按字划分后得到的多个配音片段中，获取两个目标配音片段“你”、“好”划分到一个配音集合A中；进一步，获取目标音频在第2s内播放的对象音频片段对应的文本片段为“吗”，根据上述目标音频对应的文本片段，从按字划分后得到的多个配音片段中，获取一个目标配音片段“吗”划分到一个配音集合B中。以此类推，将得到与配音音频对应的多个配音集合。

可选地，在本实施例中，获取对目标音频进行文本转换所得到的第一文本集包括：

S11，从目标视频文件提取出目标音频；

S12，将目标音频按照目标时间间隔划分为多个对象音频片段；

S13，对多个对象音频片段进行文本转换，得到第一文本集，其中，在对象音频片段中包含的关键音频片段的播放时长大于目标时间间隔的情况下，在与关键音频片段对应的对象音频片段中标记关键音频片段为同一个音频片段。

需要说明的是，在本实施例中，上述目标音频在转换为文本的过程中，可以但不限于将按照目标时间间隔划分后的对象音频片段转换后的文字分布到时间轴上的对应位置，以得到与该目标时间间隔对应的文本片段。

例如，假设目标时间间隔以秒(s)为单位，时间轴也以秒(s)为单位，目标音频时长为1分钟。则可以将目标音频以s为单位，划分得到60个对象音频片段，进一步对其分别进行文本转换得到60个文本片段，分别对应到时间轴上的60个时间格子中，从而得到目标音频对应的第一文本集。

通过本申请提供的实施例，通过获取与目标音频对应的第一文本集，和与配音音频对应的多个配音集合，从而实现利用第一文本集中的文本片段，对配音集合与目标音频进行自动化对准，以达到自动化音频同步控制的目的，简化音频同步的操作。

作为一种可选的方案，根据比对的结果调整配音集合中的配音片段包括：

1)在比对的结果指示配音集合所用的配音播放时长小于目标播放时长的情况下，将配音集合所用的配音播放时长拉伸至目标播放时长；

2)在比对的结果指示配音集合所用的配音播放时长大于目标播放时长的情况下，将配音集合所用的配音播放时长压缩至目标播放时长。

可选地，在本实施例中，在根据比对的结果调整配音集合中的配音片段之后，还包括：

1)在配音集合所用的配音播放时长被拉伸至目标播放时长的情况下，将配音集合中配音片段的频率调低；

2)在配音集合所用的配音播放时长被压缩至目标播放时长的情况下，将配音集合中配音片段的频率调高。

需要说明的是，在本实施例中，上述目标播放时长可以但不限于为目标时间间隔，与目标播放时长对应的目标音频片段可以但不限于为与目标时间间隔对应的对象音频片段。也就是说，通过比对每个配音集合所用的配音播放时长与目标音频的目标时间间隔，以判定配音音频与目标音频是否同步。进一步，在比对的结果指示二者不同步的情况下，可以通过调整配音集合中的配音片段，来使二者实现同步。

可选地，在本实施例中，上述调整配音集合中的配音片段可以包括但不限于：调整配音集合所用的配音播放时长。其中，上述调整配音播放时长可以包括但不限于：

1)调整总的配音播放时长。也就是说，对总的配音播放时长进行整体的拉伸或压缩处理，从而使其与目标播放时长相等。

2)调整配音集合中每个配音片段的播放时长，以使总的配音播放时长与目标播放时长相等。也就是说，可以分别调整配音集合中每个字的播放时长，也可以调整配音集合中每个字的每个音素的播放时长，通过调整更小量级单位的播放时长来实现对音频的同步控制，以提高调整精度的目的。

需要说明的是，由于很多发音常常会拖长尾音，因而，在本实施例中针对上述方式2)，可以但不限于对不同的配音片段进行不同的调整。例如，第一个配音片段不压缩，第二个配音片段拉伸10％，第三个配音片段压缩30％，以达到对配音集合整体的配音播放时长进行灵活调整的目的。

进一步，在本实施例中，由于压缩播放时长可能会导致配音音频失真，因而还将对调整过配音播放时长的配音集合中的配音片段进行频率调整。其中，上述对配音片段进行频率调整可以包括但不限于：对配音片段所指示的语音进行频率调整。例如，在配音集合所用的配音播放时长被拉伸至目标播放时长的情况下，则将配音集合中配音片段所指示的语音的频率调低；在配音集合所用的配音播放时长被压缩至目标播放时长的情况下，则将配音集合中配音片段所指示的语音的频率调高。

通过本申请提供的实施例，通过对配音集合进行调整，不仅实现音频的同步控制，还将优化各个配音集合的衔接过程，保证衔接的自然真实性。

具体结合图2所示示例进行说明：

准备步骤(也可称步骤0)：准备好用于配音录制所需的台词；

步骤1：使用视频录制模块，通过摄像机获取目标视频文件，并从目标视频文件中提取出目标音频，然后将目标音频转换为文本分布到时间轴上，得到第一文本集。例如，假设时间轴以1秒为单位，划分为若干个时间格子，将每秒内的目标音频转换成文字，分布到每一秒对应的时间格子里，得到一个文本片段。需要说明的是，如果划分后的对象音频片段中的某个关键音频片段(如某个字)的时间跨度超过1秒，则将该字放到所占据的每1秒对应的时间格子里，并标记这个字是同一个字的发音，而不是同一个字的多次重复发音。如果在1秒内转换出多个文字，则可以将多个文字分布到这1秒的格子里。换言之，文本片段中包括一个或多个文字。需要说明的是时间轴划分的单位在本实施例中不作任何限定，也就是说，目标时间间隔可以但不限于根据实际场景设置为不同取值，本实施例中对此不作任何限定。

步骤2：使用音频录制模块，通过麦克风为上述目标视频文件录制配音得到配音文件，并将配音文件中的配音音频自动转换为文字，分布到时间轴上。这里配音音频的文字分布方式可以但不限于参考上述目标视频的文字分布方式，在此不再赘述。

步骤3：使用台词配音拆分模块，将配音音频以文字为单位进行拆分，得到多个配音片段。如每个配音片段对应一个文字。

步骤4：使用台词配音对准模块，按照步骤1中每个文字在时间轴上的分布状况，将步骤3中拆分开的多个配音片段，重新分布到时间轴上，以与步骤1中的文本片段对准。即，将步骤3中的多个配音片段按照文本片段进行分组得到多个配音集合。

步骤5：使用台词衔接优化模块，对步骤4中的多个配音集合中音频片段进行时长调整和音质处理，再进行优化衔接合并。

例如，如果在1s对应的一个文字片段中包括两个文字“你好”。假设在步骤3中，一个配音集合中两个配音片段“你好”的持续时间为2s，则对该上述配音集合中的配音片段进行压缩。进一步，为了保证音质，还可以适当调高上述配音片段中发音的频率。又例如，假设在步骤3中，一个配音集合中两个配音片段“你好”的持续时间为0.5s，则对该上述配音集合中的配音片段进行拉伸，并适当调低上述配音片段中发音的频率。

此外，还可以按照文字的发音的音素拆分多个配音片段，调整方式可以参考上述示例，在此不再赘述。需要说明的是，多个配音片段中每个配音片段的调整方式可以不同，以保证音频同步控制的灵活性。

步骤6：得到调整后的最终的配音音频，可以直接与上述目标视频合成，生成最终的配音视频文件。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述音频同步方法的音频同步装置。如图3所示，该装置包括：

1)获取单元302，用于获取为目标视频文件进行配音所录制的配音文件；

2)第一划分单元304，用于将配音文件中的配音音频按照单位间隔划分为多个配音片段；

3)第二划分单元306，用于根据目标视频文件中提取出的目标音频，将多个配音片段划分到多个配音集合中；

4)比对单元308，用于依次比对每个配音集合所用的配音播放时长与目标播放时长，其中，目标播放时长为在目标音频中与配音集合对应的目标音频片段所用的音频播放时长；

5)调整同步单元310，用于根据比对的结果调整配音集合中的配音片段，以使配音音频与目标音频同步播放。

可选地，在本实施例中，上述音频同步装置可以但不限于应用于为目标视频文件进行配音的场景中，通过本实施例中提供的装置对录制的配音音频与待配音的目标视频文件中提取出的目标音频进行同步控制。其中，上述目标视频文件可以包括但不限于：影视剧作品、记录片、动画片等，需要为其中的角色配音或通过配音为其进行旁白说明的视频文件。上述仅是一种示例，本实施例中对此不作任何限定。

可选地，在本实施例中，上述第一划分单元包括：转换模块，用于对上述配音音频进行文本转换，得到配音文本；划分模块，用于以上述配音文本中的字为单位，将上述配音音频划分为上述多个配音片段；或者，以上述配音文本中字的音素为单位，将上述配音音频划分为上述多个配音片段。

作为一种可选的方案，如图4所示，第二划分单元306包括：

1)获取模块402，用于获取对目标音频进行文本转换所得到的第一文本集，其中，第一文本集中所包含的每一个文本片段用于指示将目标音频按照目标时间间隔进行划分后得到的每一个对象音频片段对应的文本信息；

2)处理模块404，用于重复执行以下步骤，直至遍历第一文本集中全部的文本片段：

S1，从第一文本集中获取当前文本片段；

S2，从多个配音片段中获取与当前文本片段对应的目标配音片段；

S3，将目标配音片段划分到一个配音集合中；

S4，获取下一个文本片段作为当前文本片段。

可选地，在本实施例中，获取模块402包括：

(1)提取子模块，用于从目标视频文件提取出目标音频；

(2)划分子模块，用于将目标音频按照目标时间间隔划分为多个对象音频片段；

(3)转换子模块，用于对多个对象音频片段进行文本转换，得到第一文本集，其中，在对象音频片段中包含的关键音频片段的播放时长大于目标时间间隔的情况下，在与关键音频片段对应的对象音频片段中标记关键音频片段为同一个音频片段。

作为一种可选的方案，调整同步单元310包括：

1)第一调整模块，用于在比对的结果指示配音集合所用的配音播放时长小于目标播放时长的情况下，将配音集合所用的配音播放时长拉伸至目标播放时长；

2)第二调整模块，在比对的结果指示配音集合所用的配音播放时长大于目标播放时长的情况下，将配音集合所用的配音播放时长压缩至目标播放时长。

可选地，在本实施例中，还包括：

3)第三调整模块，用于在根据比对的结果调整配音集合中的配音片段之后，在配音集合所用的配音播放时长被拉伸至目标播放时长的情况下，将配音集合中配音片段的频率调低；

4)第四调整模块，用于在根据比对的结果调整配音集合中的配音片段之后，在配音集合所用的配音播放时长被压缩至目标播放时长的情况下，将配音集合中配音片段的频率调高。

在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

根据本发明的实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取为目标视频文件进行配音所录制的配音文件；

S2，将配音文件中的配音音频按照单位间隔划分为多个配音片段；

S3，根据目标视频文件中提取出的目标音频，将多个配音片段划分到多个配音集合中；

S4，依次比对每个配音集合所用的配音播放时长与目标播放时长，其中，目标播放时长为在目标音频中与配音集合对应的目标音频片段所用的音频播放时长；

S5，根据比对的结果调整配音集合中的配音片段，以使配音音频与目标音频同步播放。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频同步方法，其特征在于，包括：

获取为目标视频文件进行配音所录制的配音文件；

将所述配音文件中的配音音频按照单位间隔划分为多个配音片段；

根据所述目标视频文件中提取出的目标音频，将所述多个配音片段划分到多个配音集合中；

依次比对每个所述配音集合所用的配音播放时长与目标播放时长，其中，所述目标播放时长为在所述目标音频中与所述配音集合对应的目标音频片段所用的音频播放时长；

根据比对的结果调整所述配音集合中的配音片段，以使所述配音音频与所述目标音频同步播放。

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标视频文件中提取出的目标音频，将所述多个配音片段划分到多个配音集合中包括：

获取对所述目标音频进行文本转换所得到的第一文本集，其中，所述第一文本集中所包含的每一个文本片段用于指示将所述目标音频按照目标时间间隔进行划分后得到的每一个对象音频片段对应的文本信息；

重复执行以下步骤，直至遍历所述第一文本集中全部的文本片段：

从所述第一文本集中获取当前文本片段；

从所述多个配音片段中获取与所述当前文本片段对应的目标配音片段；

将所述目标配音片段划分到一个配音集合中；

获取下一个文本片段作为所述当前文本片段。

3.根据权利要求2所述的方法，其特征在于，所述获取对所述目标音频进行文本转换所得到的第一文本集包括：

从所述目标视频文件提取出所述目标音频；

将所述目标音频按照所述目标时间间隔划分为多个对象音频片段；

对所述多个对象音频片段进行文本转换，得到所述第一文本集，其中，在所述对象音频片段中包含的关键音频片段的播放时长达到下一个所述目标时间间隔的情况下，在与所述关键音频片段对应的所述对象音频片段中标记所述关键音频片段为同一个音频片段。

4.根据权利要求1所述的方法，其特征在于，所述根据比对的结果调整所述配音集合中的配音片段包括：

在所述比对的结果指示所述配音集合所用的配音播放时长小于所述目标播放时长的情况下，将所述配音集合所用的配音播放时长拉伸至所述目标播放时长；

在所述比对的结果指示所述配音集合所用的配音播放时长大于所述目标播放时长的情况下，将所述配音集合所用的配音播放时长压缩至所述目标播放时长。

5.根据权利要求4所述的方法，其特征在于，在所述根据比对的结果调整所述配音集合中的配音片段之后，还包括：

在所述配音集合所用的配音播放时长被拉伸至所述目标播放时长的情况下，将所述配音集合中配音片段的频率调低；

在所述配音集合所用的配音播放时长被压缩至所述目标播放时长的情况下，将所述配音集合中配音片段的频率调高。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述将所述配音文件中的配音音频按照单位间隔划分为多个配音片段包括：

对所述配音音频进行文本转换，得到配音文本；

以所述配音文本中的字为单位，将所述配音音频划分为所述多个配音片段；或者，以所述配音文本中字的音素为单位，将所述配音音频划分为所述多个配音片段。

7.一种音频同步装置，其特征在于，包括：

获取单元，用于获取为目标视频文件进行配音所录制的配音文件；

第一划分单元，用于将所述配音文件中的配音音频按照单位间隔划分为多个配音片段；

第二划分单元，用于根据所述目标视频文件中提取出的目标音频，将所述多个配音片段划分到多个配音集合中；

比对单元，用于依次比对每个所述配音集合所用的配音播放时长与目标播放时长，其中，所述目标播放时长为在所述目标音频中与所述配音集合对应的目标音频片段所用的音频播放时长；

调整同步单元，用于根据比对的结果调整所述配音集合中的配音片段，以使所述配音音频与所述目标音频同步播放。

8.根据权利要求7所述的装置，其特征在于，所述第二划分单元包括：

获取模块，用于获取对所述目标音频进行文本转换所得到的第一文本集，其中，所述第一文本集中所包含的每一个文本片段用于指示将所述目标音频按照目标时间间隔进行划分后得到的每一个对象音频片段对应的文本信息；

处理模块，用于重复执行以下步骤，直至遍历所述第一文本集中全部的文本片段：

从所述第一文本集中获取当前文本片段；

将所述目标配音片段划分到一个配音集合中；

获取下一个文本片段作为所述当前文本片段。

9.根据权利要求8所述的装置，其特征在于，所述获取模块包括：

提取子模块，用于从所述目标视频文件提取出所述目标音频；

划分子模块，用于将所述目标音频按照所述目标时间间隔划分为多个对象音频片段；

转换子模块，用于对所述多个对象音频片段进行文本转换，得到所述第一文本集，其中，在所述对象音频片段中包含的关键音频片段的播放时长达到下一个所述目标时间间隔的情况下，在与所述关键音频片段对应的所述对象音频片段中标记所述关键音频片段为同一个音频片段。

10.根据权利要求7所述的装置，其特征在于，所述调整同步单元包括：

第一调整模块，用于在所述比对的结果指示所述配音集合所用的配音播放时长小于所述目标播放时长的情况下，将所述配音集合所用的配音播放时长拉伸至所述目标播放时长；

第二调整模块，在所述比对的结果指示所述配音集合所用的配音播放时长大于所述目标播放时长的情况下，将所述配音集合所用的配音播放时长压缩至所述目标播放时长。

11.根据权利要求10所述的装置，其特征在于，还包括：

第三调整模块，用于在所述根据比对的结果调整所述配音集合中的配音片段之后，在所述配音集合所用的配音播放时长被拉伸至所述目标播放时长的情况下，将所述配音集合中配音片段的频率调低；

第四调整模块，用于在所述根据比对的结果调整所述配音集合中的配音片段之后，在所述配音集合所用的配音播放时长被压缩至所述目标播放时长的情况下，将所述配音集合中配音片段的频率调高。

12.根据权利要求7至11中任一项所述的装置，其特征在于，所述第一划分单元包括：

转换模块，用于对所述配音音频进行文本转换，得到配音文本；

划分模块，用于以所述配音文本中的字为单位，将所述配音音频划分为所述多个配音片段；或者，以所述配音文本中字的音素为单位，将所述配音音频划分为所述多个配音片段。

13.一种存储介质，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至6任一项中所述的方法。