CN109618223B

CN109618223B - 一种声音替换方法

Info

Publication number: CN109618223B
Application number: CN201910082624.5A
Authority: CN
Inventors: 许栋刚; 邢丽; 张延良; 王伟; 李林; 王静; 王娜; 刘大鹏; 张玲玲
Original assignee: Beijing Yijiesheng Technology Co ltd
Current assignee: Beijing Yijiesheng Technology Co ltd
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2021-02-05
Anticipated expiration: 2039-01-28
Also published as: CN109618223A

Abstract

本发明涉及一种声音替换方法，该方法包括：确定音视频资源中的被替换人物，音视频资源为包含音频信息和影像信息的资源，或者，仅包含影像信息的资源，或者，仅包含音频信息的资源；确定指定人物；获取指定人物的音频信息；按顺序依次播放音视频资源的每一帧；对于任一帧，其播放方式为：若任一帧包含被替换人物对应的音频信息，则先被将替换人物对应的音频信息替换成指定人物的音频信息，再播放替换音频后的帧；若任一帧不包含被替换人物对应的音频信息，但包含被替换人物对应的影像信息，则播放任一帧中被替换人物对应的影像信息的同时播放指定人物的音频信息；否则直接播放该帧，实现了音视频资源制作后的人物声音变化，提升了参与性和互动性。

Description

一种声音替换方法

技术领域

本发明涉及视频处理技术领域，尤其涉及一种声音替换方法。

背景技术

目前如电影、电视、动画、动漫、游戏等音视频资源中，人物形象是固定的，即音视频资源一经制作完成，人物声音只能为制作时的样子，不可改变。

人物形象不可改变的方式呈现人物声音，会降低音视频资源的趣味性，使得音视频资源与用户之间的参与性和互动性不足。

发明内容

(一)要解决的技术问题

为了提升音视频资源的互动性，本发明提供一种声音替换方法。

(二)技术方案

为了达到上述目的，本发明采用的主要技术方案包括：

一种声音替换方法包括：

S101，确定音视频资源，所述音视频资源为包含音频信息和影像信息的资源，或者，仅包含影像信息不包含音频信息的资源，或者，仅包含音频信息不包含影像信息的资源；

S102，确定所述音视频资源中的被替换人物；

S103，确定指定人物；

S104，获取所述指定人物的音频信息；

S105，按顺序依次播放音视频资源的每一帧；

对于任一帧，其播放方式为：

若所述任一帧包含被替换人物对应的音频信息，则先将被替换人物对应的音频信息替换成S104中获取的所述指定人物的音频信息，再播放替换音频后的帧；

若所述任一帧不包含被替换人物对应的音频信息，但包含被替换人物对应的影像信息，则将S104中获取的所述指定人物的音频信息与所述被替换人物对应的影像信息对应，播放所述任一帧中被替换人物对应的影像信息的同时播放S104中获取的所述指定人物的音频信息；

若所述任一帧不包含被替换人物对应的音频信息，也不包含被替换人物对应的影像信息，则直接播放该帧。

可选地，所述被替换人物为一个或多个；

所述被替换人物为多个时，所述指定人物也为多个；

所述被替换人物数量与指定人物数量相同，且所述被替换人物与指定人物一一对应。

可选地，所述S102包括：

若所述音视频资源中包含影像信息，则从影像信息中确定被替换人物对应的影像信息；

若所述音视频资源中仅包含音频信息，则从音频信息中确定被替换人物对应的音频信息。

可选地，所述S104包括：

从预先存储的音频文件中获取指定人物的音频信息；或者，

从上传的音频文件中获取指定人物的音频信息；或者，

从即时录制的音频文件中获取指定人物的音频信息；

所述音频文件为录音，或者，视频。

可选地，将被替换人物对应的音频信息替换成S104中获取的所述指定人物的音频信息包括：

根据所述指定人物的音频信息确定所述指定人物的发音特点；

根据所述指定人物的发音特点替换所述被替换人物对应的音频信息。

可选地，所述发音特点包括：音调、语速、音量。

可选地，根据所述指定人物的发音特点替换所述被替换人物对应的音频信息包括：

根据所述指定人物的发音特点替换所述被替换人物对应的音频信息中的音调、语速、音量。

可选地，根据所述指定人物的发音特点替换所述被替换人物对应的音频信息中的音调包括：

S801，根据所述被替换人物对应的音频信息确定第一音调；

S802，根据所述指定人物的发音特点确定第二音调；

S803，确定所述任一帧的背景音调；

S804，将所述被替换人物对应的音频信息中的音调替换为第二音调*第一音调/背景音调。

可选地，根据所述指定人物的发音特点替换所述被替换人物对应的音频信息中的语速包括：

S901，根据所述被替换人物对应的音频信息确定第一语速和第一词间停顿平均时长；

S902，根据所述指定人物的发音特点确定第二语速和第二词间停顿平均时长；

S903，将所述被替换人物对应的音频信息中的语速替换为(第二语速*第二词间停顿平均时长)/(第一语速*第一词间停顿平均时长)。

可选地，根据所述指定人物的发音特点替换所述被替换人物对应的音频信息中的音量包括：

S1001，根据所述被替换人物对应的音频信息确定第一音量；

S1002，根据所述指定人物的发音特点确定第二音量；

S1003，确定所述任一帧的背景音量以及已播放所有帧的平均音量；

S1004，将所述被替换人物对应的音频信息中的音量替换为第二音量*(第一音量/背景音量)^(背景音量/平均音量)。

(三)有益效果

本发明的有益效果是：确定音视频资源中被替换人物以及指定人物的音频信息之后，在播放每一帧时，若任一帧包含被替换人物对应的音频信息，则先被将替换人物对应的音频信息替换成指定人物的音频信息，再播放替换音频后的帧，若任一帧不包含被替换人物对应的音频信息，但包含被替换人物对应的影像信息，则播放任一帧中被替换人物对应的影像信息的同时播放指定人物的音频信息，否则直接播放该帧，实现了音视频资源制作后的人物声音变化，提升了参与性和互动性。

附图说明

图1为本发明一个实施例提供的一种声音替换方法的流程示意图。

具体实施方式

为了提升音视频资源的互动性，本申请提供一种声音替换方法，确定音视频资源中被替换人物以及指定人物的音频信息之后，在播放每一帧时，若任一帧包含被替换人物对应的音频信息，则先被将替换人物对应的音频信息替换成指定人物的音频信息，再播放替换音频后的帧，若任一帧不包含被替换人物对应的音频信息，但包含被替换人物对应的影像信息，则播放任一帧中被替换人物对应的影像信息的同时播放指定人物的音频信息，否则直接播放该帧，实现了音视频资源制作后的人物声音变化，提升了参与性和互动性。

本申请文件中，“被替换人物”指音视频资源中原有的，预被替换声音/音频的人物。

参见图1，本实施例提供的声音替换方法实现流程，如下：

S101，确定音视频资源。

其中，音视频资源为包含音频信息和影像信息的资源，或者，仅包含影像信息不包含音频信息的资源，或者，仅包含音频信息不包含影像信息的资源。

例如，音视频资源为包含音频信息的动态影像资源。动态影像为电影，或者，电视，或者，动画，或者，游戏，或者，自拍视频，或者，广告视频，或者，小视频。即有声音的电影，或者，有声音的电视，或者，有声音的动画，或者，有声音的游戏，或者，有声音的自拍视频，或者，有声音的广告视频，或者，有声音的小视频。

再例如，音视频资源为无声电影等。

还例如，音视频资源为录音，广播等，只有声音没有影像。

S102，确定音视频资源中的被替换人物。

本步骤中的被替换人物可以为一个，也可以为多个。本实施例不对被替换人物的数量进行限定。

实际应用时，被替换人物为一个或多个人物的影像信息，或者，一个或多个人物的音频信息。

本步骤的实现方式可以为：

若所述音视频资源中包含影像信息，则从影像信息中确定被替换人物对应的影像信息。

例如，用户点击一个人物，则将影像信息中的点击的人物图像的相关影像信息确定为被替换人物对应的影像信息。

再例如，用户点击多个人物，则将影像信息中的点击的所有人物图像的相关影像信息均确定为被替换人物对应的影像信息。

例如，用户截取一个人物的一段音频，则将音频信息中与用户截取的那段音频相关的音频信息确定被替换人物对应的音频信息。

再例如，用户截取包括多个人物的一段音频，则将音频信息中与用户截取的那段音频所有人物相关的音频信息均确定被替换人物对应的音频信息。

S103，确定指定人物。

其中，指定人物与被替换人物不同。

即，当被替换人物为1个时，指定人物为1个，且指定人物与被替换人物不同。当被替换人物为多个时，指定人物为多个，且指定人物的数量与被替换人物的数量相同，每个指定人物对应一个唯一的被替换人物，指定人物与其对应的被替换人物不同。

例如，当被替换人物为2个(如A和B)时，指定人物也为2个(如C和D)，每个指定人物对应一个唯一的被替换人物(如C和A对应，D和B对应)，指定人物与其对应的被替换人物不同(如C与A不同，D与B同)。本实施例仅限定C与A不同，D与B同，但C与B是否相同本实施例不做限定，A与D是否相同本实施例也不做限定。

S104，获取指定人物的音频信息。

本步骤的实现方式为：从预先存储的音频文件中获取指定人物的音频信息。或者，从上传的音频文件中获取指定人物的音频信息。或者，从即时录制的音频文件中获取指定人物的音频信息。

其中，音频文件为录音，或者，视频。

例如，从预先存储的录音，或者，视频中获取指定人物的音频信息。或者，从上传的录音，或者，视频中获取指定人物的音频信息。或者，从即时录制的录音，或者，视频中获取指定人物的音频信息。

S105，按顺序依次播放音视频资源的每一帧。

对于任一帧，其播放方式为：

若任一帧包含被替换人物对应的音频信息，则先将被替换人物对应的音频信息替换成S104中获取的指定人物的音频信息，再播放替换音频后的帧。

若任一帧不包含被替换人物对应的音频信息，但包含被替换人物对应的影像信息，则将S104中获取的指定人物的音频信息与被替换人物对应的影像信息对应，播放任一帧中被替换人物对应的影像信息的同时播放S104中获取的指定人物的音频信息。

若任一帧不包含被替换人物对应的音频信息，也不包含被替换人物对应的影像信息，则直接播放该帧。

如对于任一帧(第k帧)，若该帧中既不包含被替换人物对应的音频信息，也不包含被替换人物对应的影像信息，说明第k帧无需替换声音，因此直接播放第k帧。其播放方式与现有方式相同。

如对于任一帧(第j帧)，若该帧中不包含被替换人物对应的音频信息，但包含被替换人物对应的影像信息，说明第j帧只有被替换人物的图像，但没有相应的声音。此时，只需要将指定人物作为该图像的声音，在图像播放时同时播放即可。例如给电影配音的场景。因此，将S104中获取的指定人物的音频信息与被替换人物对应的影像信息对应，播放第j帧中被替换人物对应的影像信息的同时播放S104中获取的指定人物的音频信息。其播放方式与现有方式相同。

如对于任一帧(第i帧)，若该帧包含被替换人物对应的音频信息，说明第i帧有被替换人物的声音，对于被替换人物的图像是否也存在，根据实际情况而定，可以存在(如有声电影)，也可以不存在(如纯录音)。此时，需要先将被替换人物对应的音频信息替换成S104中获取的指定人物的音频信息，再播放替换音频后的帧，进而实现声音的替换。

上述方法由于对每一帧先将被替换人物对应的音频信息替换成S104中获取的指定人物的音频信息，以及在只有被替换人物图像的帧中加入相应的指定人物的音频信息，然后播出，在按帧顺序将所有帧都播放后，可以将S101确定的音视频资源中的所有被替换人物的声音替换成S104中获取的指定人物的声音，以及为没有声音的图像配成后S104中获取的指定人物的声音再播放，实现了音视频资源制作后的人物声音的变化，提升了参与性和互动性。

具体的，将被替换人物对应的音频信息替换成S104中获取的指定人物的音频信息，包括但不限于：

1)根据指定人物的音频信息确定指定人物的发音特点。

其中，发音特点包括：音调、语速、音量。

音调可以用声波的频率表示，音量可以用声波的振幅表示。

2)根据指定人物的发音特点替换被替换人物对应的音频信息。

例如，根据指定人物的发音特点替换被替换人物对应的音频信息中的音调、语速、音量。

对于根据指定人物的发音特点替换被替换人物对应的音频信息中的音调、语速、音量的实现方案，本实施例提供一种可行方案。

1)根据指定人物的发音特点替换被替换人物对应的音频信息中的音调的实现方案

S801，根据被替换人物对应的音频信息确定第一音调。

S802，根据指定人物的发音特点确定第二音调。

S803，确定任一帧的背景音调。

S804，将被替换人物对应的音频信息中的音调替换为第二音调*第一音调/背景音调。

其中，第一音调为被替换人物的音调，第二音调为指定人物的音调。

如果直接将指定人物的音调调整为第二音调，则会出现指定人物的音调与背景不匹配，刺耳的情况，影响观看体验，因此，本提案将被替换人物对应的音频信息中的音调替换为第二音调*第一音调/背景音调，即保存了指定人物的音调特性，又提升了与背景的匹配程度，提升用户体验。

2)根据指定人物的发音特点替换被替换人物对应的音频信息中的语速的实现方案

S901，根据被替换人物对应的音频信息确定第一语速和第一词间停顿平均时长。

S902，根据指定人物的发音特点确定第二语速和第二词间停顿平均时长。

S903，将被替换人物对应的音频信息中的语速替换为(第二语速*第二词间停顿平均时长)/(第一语速*第一词间停顿平均时长)。

其中，第一语速为被替换人物的语速，第一词间停顿平均时长为被替换人物的词间停顿平均时长，第二语速为指定人物的语速，第二词间停顿平均时长为指定人物的词间停顿平均时长。

如果直接将指定人物的语速调整为第二语速，则会出现指定人物的词间停顿习惯不搭的情况，如音视频资源为《疯狂动物城》，被替换人物为闪电，其语速非常的慢，若指定人物为说话语速偏快的用户，直接将闪电的慢语速变为用户的偏快语速，会破坏闪电形象的设计，也破坏整个音视频资源的亮点，影响观看体验，因此，本提案将被替换人物对应的音频信息中的语速替换为(第二语速*第二词间停顿平均时长)/(第一语速*第一词间停顿平均时长)，即保存了指定人物的语速特性，又提升了与被替换人物的匹配程度，提升用户体验。

3)根据指定人物的发音特点替换被替换人物对应的音频信息中的音量的实现方案

S1001，根据被替换人物对应的音频信息确定第一音量。

S1002，根据指定人物的发音特点确定第二音量。

S1003，确定任一帧的背景音量以及已播放所有帧的平均音量。

S1004，将被替换人物对应的音频信息中的音量替换为第二音量*(第一音量/背景音量)^(背景音量/平均音量)。

其中，第一音量为被替换人物的音量，第二音量为指定人物的音量。

如果直接将指定人物的音量调整为第二语速，则会出现指定人物的音量与整个音视频资源不搭的情况，如音视频资源音量较小，而指定人物的音量较大，造成声音忽高忽低，影响观看体验，因此，本提案将被替换人物对应的音频信息中的音量替换为第二音量*(第一音量/背景音量)^(背景音量/平均音量)，即保存了指定人物的音量特性，又提升了与音视频资源整体音量的匹配程度，提升用户体验。

通过上述方法，可以不改变台词的情况下将每一帧中被替换人物的声音替换为指定人物的声音进行播放，即替换后的指定人物与被替换人物的台词相同，但音调、语速、音量发生变化，变为指定人物的音调、语速、音量，保证替换后的观看效果。

需要说明的是，本实施例中的“第一”、“第二”仅为序号，用于区分不同的音调、语速、音量、词间停顿平均时长等，无其他意义。

本发明提供的方法，确定音视频资源中被替换人物以及指定人物的音频信息之后，在播放每一帧时，若该帧不包被替换人物的图像，则直接播放该帧；若该帧包含被替换人物的图像，则先将被替换人物对应的音频信息替换成指定人物的音频信息，再播放替换音频后的帧，实现了音视频资源制作后的人物声音变化，提升了参与性和互动性。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤描述了本方法。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

最后应说明的是：以上所述的各实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种声音替换方法，其特征在于，所述方法包括：

S102，确定所述音视频资源中的被替换人物；

S103，确定指定人物；

S104，获取所述指定人物的音频信息；

S105，按顺序依次播放音视频资源的每一帧；

对于任一帧，其播放方式为：

若所述任一帧不包含被替换人物对应的音频信息，也不包含被替换人物对应的影像信息，则直接播放该帧；

其中，将被替换人物对应的音频信息替换成S104中获取的所述指定人物的音频信息包括：

根据所述指定人物的发音特点替换所述被替换人物对应的音频信息；

所述发音特点包括：音调、语速、音量；

其中，根据所述指定人物的发音特点替换所述被替换人物对应的音频信息包括：

根据所述指定人物的发音特点替换所述被替换人物对应的音频信息中的音调、语速、音量；

其中，根据所述指定人物的发音特点替换所述被替换人物对应的音频信息中的音调包括：

S801，根据所述被替换人物对应的音频信息确定第一音调；

S802，根据所述指定人物的发音特点确定第二音调；

S803，确定所述任一帧的背景音调；

2.根据权利要求1所述的方法，其特征在于，所述被替换人物为一个或多个；

所述被替换人物为多个时，所述指定人物也为多个；

3.根据权利要求1所述的方法，其特征在于，所述S102包括：

4.根据权利要求1所述的方法，其特征在于，所述S104包括：

从预先存储的音频文件中获取指定人物的音频信息；或者，

从上传的音频文件中获取指定人物的音频信息；或者，

从即时录制的音频文件中获取指定人物的音频信息；

所述音频文件为录音，或者，视频。

5.根据权利要求1所述的方法，其特征在于，根据所述指定人物的发音特点替换所述被替换人物对应的音频信息中的语速包括：

6.根据权利要求1所述的方法，其特征在于，根据所述指定人物的发音特点替换所述被替换人物对应的音频信息中的音量包括：

S1001，根据所述被替换人物对应的音频信息确定第一音量；

S1002，根据所述指定人物的发音特点确定第二音量；