CN116403570A

CN116403570A - 音频数据处理方法、装置及电子设备

Info

Publication number: CN116403570A
Application number: CN202310485353.4A
Authority: CN
Inventors: 李娜
Original assignee: Chengdu iQIYI Intelligent Innovation Technology Co Ltd
Current assignee: Chengdu iQIYI Intelligent Innovation Technology Co Ltd
Priority date: 2023-04-28
Filing date: 2023-04-28
Publication date: 2023-07-07

Abstract

本申请公开了音频数据处理方法、装置及电子设备。该方法包括：获得目标音频数据中的配音语音片段和静音片段；从原片音频数据中获得与配音语音片段对应的原片语音片段；分别确定出配音语音片段和对应的原片语音片段的音量；以对应的原片语音片段的音量为基准，对配音语音片段进行音量调整；将经过音量调整的配音语音片段和静音片段进行拼接，得到处理后的音频数据。基于本申请公开的技术方案，能够带给用户更好的听感。

Description

音频数据处理方法、装置及电子设备

技术领域

本申请属于语音处理技术领域，尤其涉及一种音频数据处理方法、装置及电子设备。

背景技术

配音是视频制作过程中的一个重要环节。随着人工智能(ArtificialIntelligence，AI)的不断发展，目前出现了基于人工智能的配音方案，具体的：由一个配音人员针对视频中的多个角色进行配音(可以采用相同的音色)，再将该配音人员针对每个角色的配音转换为与该角色对应的音色。在具体应用中，可以由一个配音人员为视频中的多个角色甚至所有角色进行配音。基于人工智能的配音方案能够极大地降低人力成本。

但是，基于人工智能的配音方案所生成的音频与基于传统配音方案所生成的音频相比，存在较大差距，用户的听觉感受较差。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供一种音频数据处理方法、装置及电子设备。

第一方面，本申请提供一种音频数据处理方法，应用于电子设备，所述方法包括：

获得目标音频数据中的配音语音片段和静音片段；

从原片音频数据中获得与所述配音语音片段对应的原片语音片段，其中，所述目标音频数据和所述原片音频数据为同一对象的音频数据，所述原片音频数据为经过后期处理的音频数据；

分别确定出配音语音片段和对应的原片语音片段的音量；

以对应的原片语音片段的音量为基准，对所述配音语音片段进行音量调整；

将经过音量调整的配音语音片段和所述静音片段进行拼接，得到处理后的音频数据。

可选的，所述以对应的原片语音片段的音量为基准，对所述配音语音片段进行音量调整，包括：

根据

计算增益；

基于所述增益对所述配音语音片段进行音量调整；

其中，g为增益，E_d为所述配音语音片段的音量均值，E_b为对应的原片语音片段的音量均值。

可选的，所述获得目标音频数据中的配音语音片段和静音片段，包括：

对所述目标音频数据进行语音活动性检测，以获得配音语音片段和静音片段。

可选的，所述从原片音频数据中获得与所述配音语音片段对应的原片语音片段，包括：

从所述原片音频数据中获得目标角色的人声时间序列，所述目标角色为所述配音语音片段对应的角色；

对所述目标角色的人声时间序列进行语音活动性检测，以获得所述目标角色的原片语音片段集合；

基于所述配音语音片段的起始时刻和结束时刻，在所述目标角色的原片语音片段集合中获得对应的原片语音片段。

可选的，所述从所述原片音频数据中获得目标角色的人声时间序列，包括：

从所述原片音频数据中获得人声数据；

对所述人声数据进行分割聚类，以得到所述目标角色的人声时间序列。

可选的，所述从原片音频数据中获得人声数据，包括：

在所述原片音频数据包括对话音轨数据的情况下，获得所述对话轨数据作为人声数据；

在所述原片音频数据未包含对话音轨数据的情况下，对所述原片音频数据进行盲源分离处理，以得到人声数据。

第二方面，本申请提供一种音频数据处理装置，包括：

第一音频数据处理模块，用于获得目标音频数据中的配音语音片段和静音片段；

第二音频数据处理模块，用于从原片音频数据中获得与所述配音语音片段对应的原片语音片段，其中，所述目标音频数据和所述原片音频数据为同一对象的音频数据，所述原片音频数据为经过后期处理的音频数据；

音量检测模块，用于分别确定出配音语音片段和对应的原片语音片段的音量；

音量调整模块，用于以对应的原片语音片段的音量为基准，对所述配音语音片段进行音量调整；

拼接模块，用于将经过音量调整的配音语音片段和所述静音片段进行拼接，得到处理后的音频数据。

可选的，所述第二音频数据处理模块包括：

人声时间序列获取单元，用于从所述原片音频数据中获得目标角色的人声时间序列，所述目标角色为所述配音语音片段对应的角色；

语音片段集合获取单元，用于对所述目标角色的人声时间序列进行语音活动性检测，以获得所述目标角色的原片语音片段集合；

语音片段获取单元，用于基于所述配音语音片段的起始时刻和结束时刻，在所述目标角色的原片语音片段集合中获得对应的原片语音片段。

可选的，所述人声时间序列获取单元具体用于：从所述原片音频数据中获得人声数据；对所述人声数据进行分割聚类，以得到所述目标角色的人声时间序列。

第三方面，本申请提供一种电子设备，包括处理器和存储器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上述任意一个方法的各个步骤。

由此可见，本申请的有益效果为：

本申请公开的音频数据处理方法、装置及电子设备，获得目标音频数据中的配音语音片段和静音片段，从原片音频数据中获得与配音语音片段对应的原片语音片段，之后分别确定出配音语音片段和原片语音片段的音量，以对应的原片语音片段的音量为基准，对配音语音片段进行音量调整，之后将经过音量调整的配音语音片段和静音片段进行拼接，得到处理后的音频数据。本申请公开的技术方案，以原片音频(人声具有自然的音量起伏，且与国际音的音量适配)为基准，对目标音频中人声的音量进行自适应调整，这使得处理后的音频数据中的人声具有自然的音量起伏，而且人声的音量与国际音的音量更加适配，能够减少或消除人声被国际音覆盖或者人声的音量过大的问题，从而带给用户更好的听感。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请公开的一种音频数据处理方法的流程图；

图2为本申请公开的从原片音频数据中获得与配音语音片段对应的原片语音片段的方法的流程图；

图3为本申请公开的一种音频数据处理装置的结构示意图；

图4为本申请公开的一种电子设备的结构图。

具体实施方式

申请人发现，基于人工智能的配音方案所生成的音频，其听感较差的主要原因是：人声缺乏自然的音量起伏，并且与国际音(除人声之外的声音，包含环境背景音、添加的音乐和效果音)的音量不匹配，例如，人声被国际音覆盖，或者人声的音量过大。

基于上述发现，本申请公开一种音频数据处理方法、装置及电子设备，参考原片音频对目标音频的音量进行自适应调整，以便调整后的音频向用户提供更好的听感。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先对本申请中的原片音频数据和目标音频数据进行说明。

原片音频数据和目标音频数据为同一对象(视频，如影视作品)的音频数据，原片音频数据中的人声(包含对白，还可能包含旁白)和目标音频数据中的人声为不同语言。原片音频数据为经过后期处理的音频数据，具体的，原片音频数据中的人声通常是由专业演员根据剧本进行演绎，且经过后期制作(例如音量调整)得到的，这使得原片音频数据中的人声具有自然的音量起伏，且与国际音的音量适配。目标音频数据是基于人工智能的配音方案所生成的音频数据，与原片音频数据相比存在较大差距。

例如，在将国内生产的影视作品出口海外的场景下，需要使用目的地的语言为该影视作品进行配音，也就是说，该影视作品的原片音频数据中的人声为中文，而该影视作品的目标音频数据中的人声为目的地的语言。例如，在将海外影视作品引入国内的场景下，需要使用中文为该影视作品进行配音，也就是说，该影视作品的原片音频数据中的人声为出口地的语言，而该影视作品的目标音频数据中的人声为中文。

参见图1，图1为本申请公开的一种配音音频数据处理方法的流程图。该方法由电子设备执行，包括：

S101：获得目标音频数据中的配音语音片段和静音片段。

需要说明的是，目标音频数据是配音人员使用第一语言(不同于原片音频数据中的人声所使用的第二语言)，对一个角色的台词文本进行演绎得到的。目标音频数据包含人声，但不包含国际音。

可选的，对目标音频数据进行语音活动性检测，以获得配音语音片段和静音片段。静音片段是指目标音频数据中不包含语音信息的片段。

实施中，利用预先完成训练的活动性检测模型对目标音频数据进行语音活动性检测，以获得配音语音片段和静音片段。

S102：从原片音频数据中获得与配音语音片段对应的原片语音片段，

与配音语音片段对应的原片语音片段是指：针对同一角色，起始时刻和结束时刻与配音语音片段相同或相近的原片语音片段。原片音频数据和目标音频数据中的台词采用不同语言，采用不同语言的语义相同或相似的两句台词，在原片音频数据和目标音频数据中的时长可能相同，也可能存在一定差异。例如，原片为普通话版本的电影，发行方需要针对该电影制作出外文版本(如英文版本、日文版本)，那么就需要制作外文版本的音频文件，普通话台词在原片音频数据中的时长，与该普通话台词对应的外文台词在目标音频数据中的时长可能会存在一定差异，而不是完全相同。

在实施中，以配音语音片段的起始时刻和结束时刻为依据，在同一角色的原片语音片段中查找与该配音语音片段对应的原片语音片段。例如，比较配音语音片段和各原片语音片段的起始时刻和结束时刻，将时间重合度最高的原片语音片段确定为该配音语音片段对应的原片语音片段。

S103：分别确定出配音语音片段和对应的原片语音片段的音量。

S104：以对应的原片语音片段的音量为基准，对配音语音片段进行音量调整。

在为视频制作音频文件的过程中，需要将各角色的音频数据与国际音数据融合，以形成最终的音频文件。如果角色的音频数据中人声的音量与国际音的音量不匹配，会导致最终形成的音频文件存在以下问题：人声被国际音覆盖，或者人声的音量过大。原片音频数据中的人声通常是由专业演员根据剧本进行演绎，且经过后期制作(例如音量调整)得到的，这使得原片音频数据中的人声具有自然的音量起伏，并且与国际音的音量适配。因此，在本申请中，将原片音频数据中的人声的音量作为基准，对目标音频数据中的人声进行音量调整。

从目标音频数据中获得的配音语音片段与从原片音频数据中获得的原片语音片段具有对应关系。实施中，针对每一配音语音片段，获得与该配音语音片段对应的原片语音片段，基于原片语音片段的音量对配音语音片段进行音量调整，以使得调整后的配音语音片段的音量与对应的原片语音片段的音量满足预设的相似性要求。该预设要求可以为：两者的音量相同，或者为两者的音量的差值在预设范围内。

可选的，分别确定出配音语音片段和对应的原片语音片段的音量均值，以原片语音片段的音量均值为基准，对配音语音片段进行音量调整。

可选的，以原片语音片段的音量均值为基准，对配音语音片段进行音量调整包括：

根据

计算增益；

基于该增益对配音语音片段进行音量调整。

其中，g为增益，E_d为配音语音片段的音量均值，E_b为对应的原片语音片段的音量均值。

实施中，确定配音语音片段的音量均值，采用如下方案：分别获得配音语音片段中多个采样点的音量；计算多个采样点的音量的平均值。确定原片语音片段的音量均值，采用如下方案：分别获得原片语音片段中多个采样点的音量；计算多个采样点的音量的平均值。

需要说明的是，音量又称为音强或者响度，是指人耳对所听到声音的大小强弱的主观感受，可以用以下指标来客观的表征音量：声波的幅值；声波的能量(声波的幅值的平方)；声波的声压级。

以确定配音语音片段的音量均值为例。

在该配音语音片段设置N个采样点，N的取值大于1，其中，N个采样点可以为均匀设置，也可以非均匀设置。声波在N个采样点的幅值记为：

{s(n₀),s(n₁),s(n₂),…,s(n_i),…,s(n_N)}

配音语音片段的总能量为：

配音语音片段的平均能量(音量均值)为：

S105：将经过音量调整的配音语音片段和静音片段进行拼接，得到处理后的音频数据。

在对各配音语音片段进行音量调整后，将各配音语音片段和各静音片段进行拼接，就得到处理后的音频数据，也就是优化的音频数据。需要说明的是，各个配音语音片段以及静音片段具有起始时刻和结束时刻，以各个配音语音片段和静音片段的起始时刻和结束时刻为依据，将各个配音语音片段和静音片段顺序排列，再进行拼接即可。

可以理解的是，将原片音频数据中的人声的音量作为基准，对目标音频数据中的人声进行音量调整，这使得处理后的音频数据中的人声具有自然的音量起伏，而且人声的音量与国际音的音量更加适配，能够减少或消除人声被国际音覆盖或者人声的音量过大的问题，从而带给用户更好的听感。

需要说明的是，图1所示的音频数据处理方法是针对一个角色的音频数据的处理过程进行描述。通常视频包含多个角色，实施中，将每个角色的音频数据依次作为目标音频数据，分别执行如图1所示的处理，以便得到每个角色处理后的音频数据，之后将多个角色的音频数据和国际音数据进行融合，得到视频的音频文件。

本申请公开的音频数据处理方法，获得目标音频数据中的配音语音片段和静音片段，从原片音频数据中获得与配音语音片段对应的原片语音片段，之后分别确定出配音语音片段和原片语音片段的音量，以对应的原片语音片段的音量为基准，对配音语音片段进行音量调整，之后将经过音量调整的配音语音片段和静音片段进行拼接，得到处理后的音频数据。本申请公开的技术方案，以原片音频(人声具有自然的音量起伏，且与国际音的音量适配)为基准，对目标音频中人声的音量进行自适应调整，这使得处理后的音频数据中的人声具有自然的音量起伏，而且人声的音量与国际音的音量更加适配，能够减少或消除人声被国际音覆盖或者人声的音量过大的问题，从而带给用户更好的听感。

在本申请的另一个实施例中，着重于从原片音频数据中获得与配音语音片段对应的原片语音片段的方案进行介绍。请参见图2所示，具体包括：

S201：从原片音频数据中获得目标角色的人声时间序列。

每个角色的人声时间序列为与原片音频数据的时长相同的音频数据，每个角色的人声时间序列包含该角色的全部人声数据。这里的目标角色是指：配音语音片段对应的角色。需要说明的是，如果影视作品包含旁白，那么旁白也视为一个角色。

S202：对目标角色的人声时间序列进行语音活动性检测，以获得目标角色的原片语音片段集合。

针对任意一个角色，对该角色的人声时间序列进行语音活动性检测(VoiceActivity Detection，VAD)，能够识别出音频中的帧信号是否存在语音信息，从而获得原片音频数据中该角色的原片语音片段。

实施中，利用预先完成训练的活动性检测模型对人声时间序列进行语音活动性检测，以便获得原片语音片段。

例如，在原片音频数据中，角色A的语音片段包括：05分30秒至06分00秒的语音片段01，08分00秒至08分30秒的语音片段02，10分10秒至10分20秒的语音片段03。那么，角色A的原片语音片段集合包括前述的语音片段01、语音片段02和语音片段03。

S203：基于配音语音片段的起始时刻和结束时刻，在目标角色的原片语音片段集合中获得对应的原片语音片段。

配音语音片段具有起始时刻和结束时刻。实施中，以配音语音片段的起始时刻和结束时刻为依据，在目标角色的原片语音片段中查找与该配音语音片段对应的原片语音片段。例如，比较配音语音片段和各原片语音片段的起始时刻和结束时刻，将时间重合度最高的原片语音片段确定为该配音语音片段对应的原片语音片段。

需要说明的是，在原片音频数据中，某段时间内可能包含多个角色的人声。基于该情况，在本方案中，首先从原片音频数据中获得目标角色的人声时间序列，再对目标角色的人声时间序列进行语音活动性检测，以便获得目标角色的原片语音片段集合，之后以配音语音片段的起始时刻和结束时刻为依据，在目标角色的原片语音片段集合中查找，能够准确地获得与配音语音片段对应的原片语音片段。

可选的，从原片音频数据中获得目标角色的人声时间序列，采用如下方案：

A1：从原片音频数据中获得人声数据。

实施中，如果原片音频数据包括对话音轨数据，那么获得对话音轨数据作为人声数据；如果原片音频数据未包含对话音轨数据，那么对原片音频数据进行盲源分离处理，以得到人声数据。

本申请中的对象可以为电影、影视剧、小视频等视频。电影和影视剧的音频文件通常包括多个音轨，例如包括对话音轨和国际音音轨，那么获得对话音轨数据作为人声数据。针对未区分音轨的视频，例如小视频，对该视频的音频数据进行盲源分离处理，以便得到原片音频数据中的人声数据。

A2：对人声数据进行分割聚类，得到目标角色的人声时间序列。

实施中，可以利用预先完成训练的分类模型对人声数据进行分割聚类，以便得到每个角色的人声时间序列。

具体的：对人声数据进行语音活动性检测，以便将人声数据分割为多个语音片段和静音片段；针对每个语音片段，将语音片段输入预先完成训练的分类模型，由分类模型对语音片段进行分析，得到语音片段的角色标签；针对每个角色标签，将具有该角色标签的语音片段和静音片段拼接为人声时间序列。

需要说明的是，语音片段具有开始时刻和结束时刻，针对具有同一角色标签的多个语音片段，以各个语音片段的起始时刻或者结束时刻为依据，将多个语音片段顺序排列，另外，在相邻语音片段之间设置静音片段(静音片段的时长为：前一语音片段的结束时刻至后一语音片段的起始时刻之间的时长)，将排列后的语音片段和静音片段拼接为该角色的人声时间序列。

本申请上述公开了音频数据处理方法，相应的，本申请公开音频数据处理装置，说明书中关于两者的描述可以相互参考。

参见图3，图3为本申请公开的一种音频数据处理装置的结构示意图。该音频数据处理装置包括：

第一音频数据处理模块301，用于获得目标音频数据中的配音语音片段和静音片段；

第二音频数据处理模块302，用于从原片音频数据中获得与配音语音片段对应的原片语音片段，其中，目标音频数据和原片音频数据为同一对象的音频数据，原片音频数据为经过后期处理的音频数据；

音量检测模块303，用于分别确定出配音语音片段和对应的原片语音片段的音量；

音量调整模块304，用于以对应的原片语音片段的音量为基准，对配音语音片段进行音量调整；

拼接模块305，用于将经过音量调整的配音语音片段和静音片段进行拼接，得到处理后的音频数据。

本申请公开的音频数据处理装置，以原片音频(人声具有自然的音量起伏，且与国际音的音量适配)为基准，对目标音频中人声的音量进行自适应调整，这使得处理后的音频数据中的人声具有自然的音量起伏，而且人声的音量与国际音的音量更加适配，能够减少或消除人声被国际音覆盖或者人声的音量过大的问题，从而带给用户更好的听感。

可选的，音量调整模块304具体用于：

根据

计算增益；基于所述增益对配音语音片段进行音量调整；其中，g为增益，E_d为配音语音片段的音量均值，E_b为对应的原片语音片段的音量均值。

可选的，第一音频数据处理模块301具体用于：对目标音频数据进行语音活动性检测，以获得配音语音片段和静音片段。

可选的，第二音频数据处理模块302包括：

人声时间序列获取单元，用于从原片音频数据中获得目标角色的人声时间序列，目标角色为配音语音片段对应的角色；

语音片段集合获取单元，用于对目标角色的人声时间序列进行语音活动性检测，以获得目标角色的原片语音片段集合；

语音片段获取单元，用于基于配音语音片段的起始时刻和结束时刻，在目标角色的原片语音片段集合中获得对应的原片语音片段。

可选的，人声时间序列获取单元具体用于：从原片音频数据中获得人声数据；对人声数据进行分割聚类，以得到目标角色的人声时间序列。

可选的，人声时间序列获取单元从原片音频数据中获得人声数据具体为：在原片音频数据包括对话音轨数据的情况下，获得对话轨数据作为人声数据；在原片音频数据未包含对话音轨数据的情况下，对原片音频数据进行盲源分离处理，以得到人声数据。

本申请还提供一种电子设备。

参见图4，图4示出了电子设备的硬件结构，该电子设备包括：处理器401、存储器402、通信接口403、以及通信总线404。

在本申请实施例中，处理器401、存储器402、通信接口403、通信总线404的数量为至少一个，且处理器401、存储器402和通信接口403通过通信总线404完成相互间的通信。通信总线404可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。

需要说明的是，本领域技术人员可以理解，图4中示出的电子设备的结构并不构成对电子设备的限定，电子设备可以包括比图4所示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图4对电子设备的各个构成部件进行具体的介绍。

处理器401是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。

处理器401可能是一个中央处理器(Central Processing Unit，CPU)，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器402可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)和只读存储器(Read-Only Memory，ROM)，也可能还包括大容量存储设备，例如至少1个磁盘存储器等。

其中，存储器402存储有程序，处理器401可调用存储器存储的程序，所述程序用于：

获得目标音频数据中的配音语音片段和静音片段；

分别确定出配音语音片段和对应的原片语音片段的音量；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的音频数据处理装置和电子设备而言，由于其与实施例公开的音频数据处理方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音频数据处理方法，应用于电子设备，其特征在于，所述方法包括：

获得目标音频数据中的配音语音片段和静音片段；

分别确定出配音语音片段和对应的原片语音片段的音量；

2.根据权利要求1所述的方法，其特征在于，所述以对应的原片语音片段的音量为基准，对所述配音语音片段进行音量调整，包括：

根据

计算增益；

基于所述增益对所述配音语音片段进行音量调整；

3.根据权利要求1所述的方法，其特征在于，所述获得目标音频数据中的配音语音片段和静音片段，包括：

4.根据权利要求1所述的方法，其特征在于，所述从原片音频数据中获得与所述配音语音片段对应的原片语音片段，包括：

5.根据权利要求4所述的方法，其特征在于，所述从所述原片音频数据中获得目标角色的人声时间序列，包括：

从所述原片音频数据中获得人声数据；

6.根据权利要求5所述的方法，其特征在于，所述从原片音频数据中获得人声数据，包括：

7.一种音频数据处理装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述第二音频数据处理模块包括：

9.根据权利要求8所述的装置，其特征在于，所述人声时间序列获取单元具体用于：从所述原片音频数据中获得人声数据；对所述人声数据进行分割聚类，以得到所述目标角色的人声时间序列。

10.一种电子设备，其特征在于，包括处理器和存储器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1至6中任一项所述的方法的各个步骤。