CN113395577A

CN113395577A - 变声播放方法和装置、存储介质及电子设备

Info

Publication number: CN113395577A
Application number: CN202010949708.7A
Authority: CN
Inventors: 李怀东
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2021-09-14

Abstract

本发明公开了一种变声播放方法和装置、存储介质及电子设备。该方法包括：在视频播放应用中播放目标视频的视频画面以及所述目标视频的原始音频；在所述视频播放应用中获取第一交互操作，其中，所述第一交互操作用于请求对所述原始音频进行变声操作；响应于所述第一交互操作，对所述原始音频中在所述第一交互操作之后待播放的音频进行变声操作，得到变声音频，并在所述视频播放应用中播放所述变声音频。采用上述技术方案，解决了相关技术中，在视频播放过程中，存在视频声音播放方式单一、趣味性低的问题。

Description

变声播放方法和装置、存储介质及电子设备

技术领域

本发明涉及计算机领域，具体而言，涉及一种变声播放方法和装置、存储介质及电子设备。

背景技术

目前，在播放视频时，视频中的声音都是按照人物本身的声音来正常播放的，例如，新闻联播、影视作品、纪录片等，在播放这些视频时，都是按照按照视频中原始的声音正常播放视频。

上述按照视频原始的声音正常播放视频的方式，使得视频中的声音比较单一，降低了趣味性，用户体验不佳。

针对相关技术中，在视频播放过程中，存在视频声音播放方式单一、趣味性低的问题，尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种变声播放方法和装置、存储介质及电子设备，以至少解决相关技术中，在视频播放过程中，存在视频声音播放方式单一、趣味性低的问题。

根据本发明实施例的一个方面，提供了一种变声播放方法，包括：在视频播放应用中播放目标视频的视频画面以及上述目标视频的原始音频；在上述视频播放应用中获取第一交互操作，其中，上述第一交互操作用于请求对上述原始音频进行变声操作；响应于上述第一交互操作，对上述原始音频中在上述第一交互操作之后待播放的音频进行变声操作，得到变声音频，并在上述视频播放应用中播放上述变声音频。

根据本发明实施例的另一方面，还提供了一种变声播放装置，包括：第一播放单元，用于在视频播放应用中播放目标视频的视频画面以及上述目标视频的原始音频；第一获取单元，用于在上述视频播放应用中获取第一交互操作，其中，上述第一交互操作用于请求对上述原始音频进行变声操作；第一处理单元，用于响应于上述第一交互操作，对上述原始音频中在上述第一交互操作之后待播放的音频进行变声操作，得到变声音频，并在上述视频播放应用中播放上述变声音频。

根据本申请的又一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述变声播放方法的各种可选实现方式中提供的方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器被设置为通过上述计算机程序执行执行上述变声播放方法。

通过本发明，在视频播放应用中，播放目标视频的视频画面以及目标视频的原始音频，在该视频播放应用中，获取用于请求对原始音频进行变声操作的第一交互操作，然后，响应该第一交互操作，对原始音频中在第一交互操作之后待播放的音频进行变声操作，来得到变声音频，并在该视频播放应用中播放该变声音频。采用上述方式，可以在视频播放应用中通过第一交互操作，对原始音频中在第一交互操作之后待播放的音频进行变声操作，得到变声音频，通过该变声音频，可以使用户听到不同于原始音频的声音，使得视频播放的声音变得更加丰富，并不局限于原始音频。解决了相关技术中，存在视频声音播放方式单一、趣味性低的问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种变声播放方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的变声播放方法的流程示意图；

图3是根据本发明实施例的一种可选的视频播放应用的显示界面的示意图(一)；

图4是根据本发明实施例的一种可选的视频播放应用的显示界面的示意图(二)；

图5是根据本发明实施例的一种可选的视频播放应用的显示界面的示意图(三)；

图6是根据本发明实施例的一种可选的视频播放应用的显示界面的示意图(四)；

图7是根据本发明实施例的另一种可选的变声播放方法的流程示意图；

图8是根据本发明实施例的又一种可选的变声播放方法的流程示意图；

图9是根据本发明实施例的一种可选的变速原理的示意图；

图10是根据本发明实施例的一种可选的自然界声音由多个波形合成的示意图；

图11是根据本发明实施例的一种可选的变声播放装置的结构示意图；

图12是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种变声播放方法。可选地，上述变声播放方法可以但不限于应用于如图1所示的应用环境中。如图1所示，上述变声播放方法可以但不限于应用于如图1所示的环境中的变声播放系统中，其中，该变声播放系统可以包括但不限于终端设备102、网络104、服务器106。终端设备102中运行有视频播放应用。上述终端设备102中包括人机交互屏幕1022，处理器1024及存储器1026。人机交互屏幕1022用于播放目标视频的视频画面，还用于提供人机交互接口以接收对人机交互界面执行的人机交互操作，如获取第一交互操作。处理器1024用于响应于上述第一交互操作。存储器1026用于存储目标视频。

此外，服务器106中包括数据库1062及处理引擎1064，数据库1062中用于存储目标视频、变声音频。处理引擎1064用于对上述原始音频中在上述第一交互操作之后待播放的音频进行变声操作，得到变声音频，通知终端设备102在上述视频播放应用中播放上述变声音频。

具体过程如以下步骤：如步骤S102-S108，在终端设备102的视频播放应用中播放目标视频的视频画面以及上述目标视频的原始音频，在上述视频播放应用中获取第一交互操作，其中，上述第一交互操作用于请求对上述原始音频进行变声操作；服务器106响应于上述第一交互操作，对上述原始音频中在上述第一交互操作之后待播放的音频进行变声操作，得到变声音频，并将该变声音频通过网络发送给终端设备102，终端设备102通过网络接收到变声音频时，在终端设备102的上述视频播放应用中播放上述变声音频。可理解，以上仅为一种示例，本申请实施例在此不作限定。

可选地，本发明实施例中的方法可以应用于视频播放应用中，如在视频播放应用中添加变声功能，使得在播放视频时，可以使视频中的人物的声音变成不同于原始音频的声音，增加视频播放过程中的趣味性。

可选地，在本实施例中，上述终端设备可以是配置有视频播放应用的终端设备，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视等。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述只是一种示例，本实施例对此不做任何限定。

可选地，在本实施例中，作为一种可选的实施方式，该方法可以由服务器执行，也可以由终端设备执行，或者由服务器和终端设备共同执行，本实施例中，以由终端设备(例如，上述终端设备102)执行为例进行说明。如图2所示，上述变声播放方法的流程可以包括步骤：

步骤S202，在视频播放应用中播放目标视频的视频画面以及上述目标视频的原始音频。

步骤S204，在上述视频播放应用中获取第一交互操作，其中，上述第一交互操作用于请求对上述原始音频进行变声操作。

步骤S206，响应于上述第一交互操作，对上述原始音频中在上述第一交互操作之后待播放的音频进行变声操作，得到变声音频，并在上述视频播放应用中播放上述变声音频。

可选地，上述视频播放应用可以为任何播放视频的应用，例如，新闻客户端、视频客户端、教育客户端、浏览器客户端、各种视频播放软件、视频播放网站等等，目标视频可以为、电视剧、电影、多集纪录片、综艺、少儿、动漫等，在此不作任何限定。

如图3所示，可以对变声功能按钮执行第一交互操作，如通过点击、触摸变声功能按钮来获取第一交互操作。其中，该第一交互操作用于请求对原始音频进行变声操作。其中，图3所示的变声功能按钮位于视频播放应用的显示界面的右下角，该变声功能按钮还可以在视频播放应用的显示界面的左下角、左上角、又上角等位置，在此不作任何限定。

在获取到上述第一变声操作之后，响应于第一交互操作，可以对在第一交互操作之后尚未播放的音频进行变声操作，得到变声音频，并在上述视频播放应用中播放该变声音频。其中，如图3所示，通过第一交互操作得到的变声音频的效果可以为视频播放应用中设置的一个默认的变声音频。

其中，上述变声音频不同于原始音频，可以为一种搞怪的音频，如惊悚音、大叔音、萝莉音、御姐音、某个知名人物的声音，等等，本实施例对于变声音频具体是什么不作任何限定。

举例来说，用户在通过视频播放应用观看目标视频时，可以在视频播放应用的界面点击如图3所示的变声功能按钮，在点击该变声功能按钮之后，用户可以听到不同于原始音频的变声音频，当用户想关闭该变声音频时，只需要将变声功能按钮的开关关闭即可，通过这种方式，用户可以享受到不同于原始音频的变声音频，增加了视频播放应用的趣味性。例如，用户可以在观看新闻联播时，将新闻联播中的播音声音，切换成一个变声后的鬼畜的声音，极大地增加了娱乐性。

通过本实施例，在视频播放应用中，播放目标视频的视频画面以及目标视频的原始音频，在该视频播放应用中，获取用于请求对原始音频进行变声操作的第一交互操作，然后，响应该第一交互操作，对原始音频中在第一交互操作之后待播放的音频进行变声操作，来得到变声音频，并在该视频播放应用中播放该变声音频。采用上述方式，可以在视频播放应用中通过第一交互操作，对原始音频中在第一交互操作之后待播放的音频进行变声操作，得到变声音频，通过该变声音频，可以使用户听到不同于原始音频的声音，使得视频播放的声音变得更加丰富，并不局限于原始音频。解决了相关技术中，存在视频声音播放方式单一、趣味性低的问题。

可选地，在本实施例中，在上述视频播放应用中获取第一交互操作，包括：在上述视频播放应用中获取对第一变声特效进行选择的第一选择操作，其中，上述第一变声特效为预设的多个变声特效中的一个变声特效，上述第一交互操作包括上述第一选择操作，上述第一选择操作用于请求按照上述第一变声特效对上述原始音频中在上述第一选择操作之后待播放的第一原始音频进行变声操作；响应于上述第一交互操作，对上述原始音频中在上述第一交互操作之后待播放的音频进行变声操作，得到变声音频，并在上述视频播放应用中播放上述变声音频，包括：响应于上述第一选择操作，对上述原始音频中在上述第一选择操作之后待播放的上述第一原始音频进行变声操作，得到与上述第一变声特效对应的上述第一变声音频，并在上述视频播放应用中播放上述第一变声音频。

可选地，在视频播放应用中，在确定要对原始音频执行变声操作之后，还可以执行一个第一选择操作，从多个变声特效中选择出一个变声特效，将这一个变声特效作为第一变声特效，其中，第一选择操作用于请求按照第一变声特效对原始音频中在第一选择操作之后待播放的第一原始音频进行变声操作。

在选择好第一变声特效之后，响应于第一选择操作，可以对原始音频中在第一选择操作之后的尚未播放的第一原始音频进行变声操作，得到与第一变声特效对应的第一变声音频，并在视频播放应用中播放该第一变声音频。

如图4所示，当用户想要开启变声功能时，先点击或者触摸变声功能按钮，此时，视频播放应用中会显示各种不同的变声特效，例如，大叔、搞怪、萝莉、御姐、惊悚、空灵、死肥仔等等，用户可以从中选择一个变声特效，用户在选择好想要变声的第一变声特效之后，可以得到以第一变声特效对应的第一变声音频，进而可以在视频播放应用中听到与选择好的第一变声特效对应的第一变声音频。其中，该第一变声音频不同于原始音频，该第一变声音频可以为第一选择操作之后待播放的全部音频中的部分或全部的音频，在此不作任何限定。

通过本实施例，可以为用户提供多个变声特效，以供用户选择，使得用户可以在视频播放应用中体验各种不同特效的变声音频，极大地增加了视频播放应用的趣味性、娱乐性，提高了用户体验。

可选地，在本实施例中，在上述视频播放应用中获取第一交互操作，包括：在上述视频播放应用中获取对第一角色进行选择的第二选择操作，其中，上述第一角色为上述目标视频中的一个角色，上述第一交互操作包括上述第二选择操作，上述第二选择操作用于请求对上述原始音频中在上述第二选择操作之后待播放的第二原始音频进行变声操作，上述第二原始音频为上述第一角色产生的音频；响应于上述第一交互操作，对上述原始音频中在上述第一交互操作之后待播放的音频进行变声操作，得到变声音频，并在上述视频播放应用中播放上述变声音频，包括：响应于上述第二选择操作，对上述原始音频中在上述第二选择操作之后待播放的上述第二原始音频进行变声操作，得到上述第二变声音频，并在到达上述第二原始音频的播放时刻时，在上述视频播放应用中播放上述第二变声音频。

可选地，在视频播放应用中，在确定要对原始音频执行变声操作之后，还可以执行一个第二选择操作，从目标视频中的多个角色中选择出一个想要执行变声的一个角色，使得可以对第二选择操作之后待播放的第一角色所产生的第二原始音频进行变声操作。其中，第一交互操作包括第二选择操作，第二选择操作用于请求对原始音频中在第二选择操作之后待播放的第二原始音频进行变声操作。

在选择好第一角色之后，响应于第二选择操作，可以对原始音频中在第二选择操作之后的尚未播放的第二原始音频进行变声操作，得到第二变声音频，并在视频播放应用中播放该第二变声音频。

如图5所示，当用户想要开启变声功能时，先点击或者触摸变声功能按钮，此时，视频播放应用中会显示目标视频中出现的各个角色，例如，第一角色、第二角色、第三角色、第四角色等，用户可以从中选择一个角色，用户在选择好想要变声的第一角色之后，可以得到该第一角色产生的第二原始音频对应的第二变声音频，进而可以在视频播放应用中听到第一角色以第二变声音频讲话。其中，该第二变声音频不同于第一角色的第二原始音频。当用户想要关闭对第一角色的变声特效，可以随时关闭变声功能按钮。其中，第二变声音频可以为视频播放应用中默认的变声音频，在此不作任何限定。

通过本实施例，可以单独为视频播放应用中的某个角色执行变声操作，使得用户可以在视频播放应用中体验到针对某个角色的变声特效，极大地增加了视频播放应用的趣味性、娱乐性，提高了用户体验。

可选地，在本实施例中，上述在上述视频播放应用中获取对第一角色进行选择的第二选择操作，包括：在上述视频播放应用中获取对上述第一角色和第二变声特效进行选择的上述第二选择操作，其中，上述第二变声特效为预设的多个变声特效中的一个变声特效，上述第二选择操作用于请求按照上述第二变声特效对上述第二原始音频进行变声操作；上述对上述原始音频中在上述第二选择操作之后待播放的上述第二原始音频进行变声操作，得到上述第二变声音频，包括：对上述原始音频中在上述第二选择操作之后待播放的上述第二原始音频进行变声操作，得到与上述第二变声特效对应的上述第二变声音频。

可选地，按照上述方式确定好第一角色之后，还可以为第一角色从预设的多个变声特效中选择一个变声特效，作为第一角色对应的第二变声特效。其中，上述第二选择操作用于选择第一角色和选择第二变声特效。

在通过第二选择操作确定好要变声的第一角色和第二变声特效时，可以对第二选择操作之后尚未播放的第二原始音频进行变声操作，进而可以得到与第二变声特效对应的第二变声音频。

如图6所示，当用户想要开启变声功能时，先点击或者触摸变声功能按钮，此时，视频播放应用中会显示目标视频中出现的各个角色，例如，第一角色、第二角色、第三角色、第四角色等，用户可以从中选择一个角色，用户在选择好想要变声的第一角色之后，还可以为该第一角色选择一个第二变声特效，从而可以得到该第一角色产生的第二原始音频对应的第二变声音频(第二变声音频与选择的第二变声音频对应)，进而可以在视频播放应用中听到第一角色以第二变声特效的效果讲话的第二变声音频。其中，该第二变声音频不同于第一角色的第二原始音频。当用户想要关闭对第一角色的第二变声特效，可以随时关闭变声功能按钮。其中，第二变声特效可以为视频播放应用中预设的多个变声特效，如默认、大叔、萝莉、惊悚、空灵、御姐等，在此不作任何限定。

通过本实施例，可以单独为视频播放应用中的某个角色执行变声操作，并且这个角色选择一个变声特效，使得用户可以在视频播放应用中体验到针对某个角色的变声特效，极大地增加了视频播放应用的趣味性、娱乐性，提高了用户体验。

可选地，在本实施例中，上述对上述原始音频中在上述第二选择操作之后待播放的上述第二原始音频进行变声操作，得到上述第二变声音频，包括：获取上述原始音频中的第一音轨，其中，上述第一音轨为上述第一角色的音轨；将上述第一音轨中在上述第二选择操作之后待播放的音频进行变声操作，得到上述第二变声音频。

可选地，在对第一角色的第二变声音频执行变声操作时，需要从目标视频的原始音频中获取到该第一角色的第一音轨，在执行第二选择操作之后，需要对第二选择操作之后尚未播放的音频中第一角色的第一音轨执行变声操作，来得到第一角色对应的第二变声音频。

通过本实施例，可以通过对第一角色的第一音轨执行变声操作，来得到第二变声音频，这种通过对获取第一角色的第一音轨，并改变第一音轨的方式，能够直接改变第一角色的第二原始音频，达到变声的效果，提高了变声效率。

可选地，在本实施例中，上述对上述原始音频中在上述第二选择操作之后待播放的上述第二原始音频进行变声操作，得到与上述第二变声特效对应的上述第二变声音频，包括：获取上述原始音频中的第一音轨，其中，上述第一音轨为上述第一角色的音轨；将上述第一音轨中在上述第二选择操作之后待播放的音频进行变声操作，得到与上述第二变声特效对应的上述第二变声音频。

可选地，在对第一角色的第二变声音频执行变声操作时，需要从目标视频的原始音频中获取到该第一角色的第一音轨，在执行第二选择操作之后，需要对第二选择操作之后尚未播放的音频中第一角色的第一音轨执行变声操作，可以通过将第二变声特效叠加到第一音轨上，或者，将第一音轨的参数改变为与第二变声特效一致的参数，来得到与第二变声特效对应的第二变声音频。

通过本实施例，可以通过对第一角色的第一音轨执行变声操作，来得到与第二变声特效对应的第二变声音频，这种通过对获取第一角色的第一音轨，并改变第一音轨的方式，能够直接改变第一角色的第二原始音频，达到变声的效果，提高了变声效率。

可选地，在本实施例中，在上述视频播放应用中获取对第一角色进行选择的第二选择操作之后，上述方法还包括：在到达第三原始音频的播放时刻时，在上述视频播放应用中播放上述第三原始音频，其中，上述第三原始音频为上述原始音频中的第二角色在上述第二选择操作之后产生的音频，上述第二角色为上述目标视频中的一个角色。

可选地，在通过第二选择操作选择好第一角色时，可以在第二角色对应的播放时刻，以第二变声音频播放第二角色对应的画面，当到达第二角色的第三原始音频的播放时刻，可以以第二角色的正常的第三原始音频播放第三角色对应的画面。其中，目标视频中包括多个角色，第二角色为目标视频中的多个角色中的其中一个角色。

通过本实施例，可以只对使用了变声特效的第一角色播放对应的第二变声音频，对于没有使用变声特效的第二角色，当到达该第二角色的第三原始音频的播放时刻时，可以以第二角色的正常的第三原始音频播放第二角色对应的第三原始音频，采用上述方式，可以在播放目标视频时，达到只对某个角色使用变声特效的效果，使得变声特效的使用更加灵活，提高了在视频播放应用中使用变声特效的灵活性、趣味性。

可选地，在本实施例中，对上述原始音频中在上述第一交互操作之后待播放的音频进行变声操作，得到变声音频，并在上述视频播放应用中播放上述变声音频，包括：对上述原始音频中在上述第一交互操作之后待播放的一段音频进行变声操作，得到一段变声音频，其中，上述一段音频中的多帧音频与一组播放时刻具有一一对应的关系，上述一段音频中的每帧音频对应有上述一组播放时刻中的一个播放时刻，上述一段变声音频的播放时长与上述一段音频的播放时长相同，上述一段音频与在上述第一交互操作之后待播放的一段视频画面具有同步播放关系；对上述一段变声音频与上述一组播放时刻建立上述一一对应的关系，以使得上述一段变声音频与上述一段视频画面具有上述同步播放关系；在上述视频播放应用中播放上述一段视频画面以及与上述一段视频画面具有同步播放关系的上述一段变声音频。

可选地，对上述原始音频中在上述第一交互操作之后待播放的一段音频进行变声操作，得到一段变声音频之后，还需要使该变声音频与视频画面同步播放，为了达到这种变声音频和视频画面同步播放的效果，可以采用以下方式：

对于需要执行变声操作的一段音频来说，该一段音频中的多帧音频是与一组播放时刻具有一一对应关系的，并且，这一段音频中的每帧音频对应于一组播放时刻中的一个播放时刻，需要进行变声操作的这一段音频的播放时长与执行变声操作之后得到的一段变声音频的播放时长相同。并且，这一段音频与执行第一交互操作之后待播放的一段视频画面具有同步播放的关系。

在按照上述方式得到一段音频对应的一段变声音频之后，可以对这一段变声音频与一组播放时刻建议一一对应关系，使得一段变声音频与一段视频画面具有同步播放的关系。

当目标视频播放到一段视频画面时，同步播放这一段视频画面，以及播放与这一段视频画面具有同步播放关系的一段变身音频。

通过本实施例，通过上述同步播放关系，可以使一段视频画面与上述一段变声音频在视频播放应用中同步播放，避免出现画面和声音不同步的情形，提高了视频播放的效果。

可选地，在本实施例中，对上述原始音频中在上述第一交互操作之后待播放的一段音频进行变声操作，得到一段变声音频，包括：对上述一段音频中包括的N帧音频进行变声操作，得到N帧变声音频，其中，上述N为正整数，上述一段变声音频包括上述N帧变声音频。

可选地，假设需要执行变声操作的一段音频中包括N帧音频，可以对该N帧音频执行变声操作，来得到N帧变声音频，那么，这N帧变声音频即组成了上述一段变声音频。其中，上述N为正整数。

在对N帧音频执行变声操作得到N帧变声音频时，可以将对应的变声特效的音轨叠加到这N帧音频的音轨上。

通过本实施例，可以通过对一段音频中包括的N帧音频执行变声操作的方式，来得到N帧变声音频，进而将N帧变声音频组合成一段变声音频，采用这种方式，可以从帧级出发，执行变身操作，使得一段音频中的每一帧音频都达到变声的效果，进而提高了整个一段变声音频的变声效果，极大地提高了变声效果。

可选地，在本实施例中，在上述视频播放应用中获取第一交互操作之后，上述方法还包括：在上述视频播放应用中获取第二交互操作，其中，上述第二交互操作用于请求恢复播放上述原始音频；响应于上述第二交互操作，在上述视频播放应用中停止播放上述变声音频，并播放上述原始音频中在上述第二交互操作之后待播放的音频。

可选地，还可以在视频播放应用中获取用于请求恢复播放原始音频的第二交互操作，当获取到该第二交互操作时，即可以响应该第二交互操作，在视频播放应用中停止播放变声音频，并且，在视频播放应用中，按照正常的原始音频播放在第二交互操作之后待播放的音频。

如图3、图4、图5、图6，可以通过再次点击或者触摸变声功能按钮的方式，在视频播放应用中停止播放变声音频。

通过本实施例，用户可以随时停止播放变声音频，提高了用户对是否播放变声视频的灵活性。

以下结合可选示例对变声播放方法的流程进行说明。

以终端设备的角度出发，如图7所示，该方法具体如下：

步骤S701，在视频播放应用的播放页面点击菜单键。

步骤S702，选择切换到变声功能。

如图4所示，可以在视频播放应用的显示界面选择切换到变声功能。

步骤S703，选中变声效果。

如图4所示，在切换到变声功能之后，还可以选择想要的变声效果，如默认变声效果、大叔变声效果、搞怪变声效果、惊悚变声效果等。

以服务器的角度出发，如图8所示，该方法具体如下：

步骤S801，在视频播放应用中切换到变声功能并且选定想要的变声效果之后，可以集成变声功能。

步骤S802，在播放视频的过程中，实时获取视频信息。

步骤S803，实时提取视频中的音频信息。

步骤S804，将实时提取到的音频信息进行变声处理。

步骤S805，播放变声后的音频信息。

以下详述对音频信息进行变声处理的原理：

变声的本质就是对音频信号数据进行加工与变换。声音的三特性为音色、音高、响度，通过改变这三个特性，可以达到变音效果。在分析视频音频时，针对不同的变声效果提取反应该变声效果个性的参数，例如，提高音高则实现女高音效果。如果把这些变换进行特定的组合调参，则可以得到一系列变声效果。

独立控制变速与变调原理介绍：

录音机绞带时的会发现声音变快，音调变高。这个现象很容易解释：声音的时域波形被在时间轴上压缩，导致构成信号的所有频率分量的周期变短，频率变高，对应音调变高。

应用重叠叠加(Overlap-Add，简称OLA)，可以在保证音调不变的情况下，拖长声音或缩短声音。

如图9所示，为音频的变速原理。其中：

当Ss>Sa时，序列变长，达到减速而音调不变的效果。

当Ss<Sa时，序列变短，达到加速而音调不变的效果。

当Ss＝Sa时，序列没变。

当实现了音调不变而速度变化时，可应用时间压缩为原长度而实现时长不变而变调的目的。但是单纯使用固定参数设置变调会出现一些问题：由于男声女声音调本身相差一倍(一个八度)当想让达到男女输入得到相近的输出效果时，无法通过固定参数实现。比如，当男声讲话可以让萝莉达到预期效果时，女声讲话会让输出声音音调太高，以致声音几乎听不出语义。而女声讲话达到预期结果时，男声音调提高的太少，最终的结果会离预期很远。故此需要对声音做音调分析检测。

变声的背景是每种声音都有其特有的音色，或者说起特征。为什么有的人说话声音低沉，有的声音高亢，这些都是由什么音频数据决定的呢？

基本的解释是：除了发音体整体振动产生的音是基音，以基音为标准，物体的各部分(二分之一，三分之一，四分之一等)也在震动，是泛音。泛音的组合决定了特定的音色，并能使人明确地感到基音的响度。

其中，泛音是决定音色的关键。可以这样理解，所有的声音其实不是单纯的有固定频率固定振幅的波形，是由许许多多的泛音合成的。单一音源的波形纯粹，但是往往发声物体的音源并不单一，拿人的声带来讲，其发声原本就是多个音源立体音源。

如图10所示，声音看起来的波形是最后多个泛音和基音合成的。可以看出对音色的分析可能可以通过提取泛音数据来对具体的泛音数据进行频率等分析来得出最终的声音特点。

声音在经过共振腔时，受到腔体的滤波作用，使得频域中不同频率的能量重新分配，一部分因为共振腔的共振作用得到强化，另一部分则受到衰减。由于能量分布不均匀，强的部分犹如山峰一般，故而称之为共振峰。共振峰是语音的另一重要特征，共振峰的分布和男女，老幼有较大的相关性。

(1)求取共振峰的线性预测分析方法

线性预测分析(linear prediction coefficients，简称LPA)，是目前语音信号分析最有效和最流行的方法，它提供了一组简洁的语音信号模型参数。LPA一般借助线性预测误差滤波器来实现。线性预测误差滤波器的传递函数为：

其中，P为预测器阶数，{α_i}i-1,2,…p为线性预测器系数，语音信号s(n)通过该滤波器后的输出为预测误差e(n)，则有

令

那么

即为s(n)的预测值。线性预测分析实质是设计A(z)，使得e(n)在某个准则下最小，理论上采用均方误差E[e²(n)]最小。该数学期望为：

令

1≤j≤p即：

将(2)代入得：

其中，r(j)＝E[s(n)s(n-j)]是s(n)的自相关序列。(4)是一个多元一次方程组，该方程组被称为Yule-Walker方程。求解该方程可以得到{α_i}i-1,2,…p，另外，可以求出这个最小的均方误差：

至此得到线性预测问题的完整求解表达式：

但是这里的自相关序列r(j)的求解，涉及到集平均，对于语音信号，一般认为短时平稳，即在短时内，认为此随机信号是各态遍历的平稳随机信号，那么集平均等于时间平均。

那么，可以用

对其进行估值，这里去掉了1/N，因为它不影响方程的解。

对n的求和范围不同，将导致不同的解法。这里使用的是自相关法。

(2)自相关法估计的Yule-Walker方程：

当假定信号s(n)在0≤n≤N以外都是0时，自相关序列的估计值为：

估值函数保留了自相关的偶函数特性r(j)＝r(-j)，那么应用该特性后可以重写(6)如下：

这个方程的矩阵是托布利兹矩阵，可以用Levinson-Durbin算法求解。具体解法不再详述。得到{α_i}i-1,2,…p就得到了线性预测滤波器。线性预测滤波器也叫白化滤波器，滤波器过程是将输入白化的过程。

在语音发生模型中，上述的预测误差对应激励，而预测滤波器的倒数对应声道滤波器，也即成型滤波器。整个过程是上述预测的逆过程。即成型滤波器为：

当得到声道滤波器后，我们就可以求得共振峰频率，显然，要求取上述传递函数的极点。

即使分母为0的所有根，这涉及到求解实系数一元高次方程所有根。可以使用QR方法求解全部根，QR方法简述如下：

首先将方程化为n次首一多项式方程

Q_n(x)＝xⁿ+b_n-1x^n-1+…+b₁x+b₀＝0 (10)

此方程可以看成某实数矩阵的特征方程，求解全部根的问题变为求解实矩阵的全部特征值的问题，此矩阵即：

该矩阵为上H阵，可以用QR方法直接求出全部特征值，这里不在详述。当求解得到根后，可以分析极点频率，并且可以通过调整极点位置，例如某极点为

可以调整r₁和

来改变共振峰频率和峰的锐度，从而重新构建成型滤波器，从而达到调节共振峰的目的。

整个过程，先做LPC分析，再修改共振峰频率，得到修改后的成型滤波器，再进行重新合成语音，达到修改共振峰的目的。

可以通过调节共振峰达到声音异样的结果，例如“感冒”中共振峰的调节使声音听起来像被捏住鼻子。

通过本实施例，可以在单集类正片(电影、单集纪录片)和多集类正片(电视剧、多集纪录片、综艺、少儿、动漫)等影视播放时，通过菜单键唤出变声功能，让视频变声播放，增加观看视频的趣味性。例如，可以把新闻联播的播音声音，换成一个鬼畜的声音，从而大大增加视频播放的娱乐性，带来更丰富的观影体验，有利于用户留存，提高了视频播放的趣味性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的又一方面，还提供了一种变声播放装置，如图11所示，该装置包括：

第一播放单元1102，用于在视频播放应用中播放目标视频的视频画面以及上述目标视频的原始音频；

第一获取单元1104，用于在上述视频播放应用中获取第一交互操作，其中，上述第一交互操作用于请求对上述原始音频进行变声操作；

第一处理单元1106，用于响应于上述第一交互操作，对上述原始音频中在上述第一交互操作之后待播放的音频进行变声操作，得到变声音频，并在上述视频播放应用中播放上述变声音频。

作为一种可选的技术方案，上述第一获取单元，还用于在上述视频播放应用中获取对第一变声特效进行选择的第一选择操作，其中，上述第一变声特效为预设的多个变声特效中的一个变声特效，上述第一交互操作包括上述第一选择操作，上述第一选择操作用于请求按照上述第一变声特效对上述原始音频中在上述第一选择操作之后待播放的第一原始音频进行变声操作；第一处理单元，还用于响应于上述第一选择操作，对上述原始音频中在上述第一选择操作之后待播放的上述第一原始音频进行变声操作，得到与上述第一变声特效对应的上述第一变声音频，并在上述视频播放应用中播放上述第一变声音频。

作为一种可选的技术方案，上述第一获取单元，还用于在上述视频播放应用中获取第一交互操作，包括：在上述视频播放应用中获取对第一角色进行选择的第二选择操作，其中，上述第一角色为上述目标视频中的一个角色，上述第一交互操作包括上述第二选择操作，上述第二选择操作用于请求对上述原始音频中在上述第二选择操作之后待播放的第二原始音频进行变声操作，上述第二原始音频为上述第一角色产生的音频；第一处理单元，还用于响应于上述第二选择操作，对上述原始音频中在上述第二选择操作之后待播放的上述第二原始音频进行变声操作，得到上述第二变声音频，并在到达上述第二原始音频的播放时刻时，在上述视频播放应用中播放上述第二变声音频。

作为一种可选的技术方案，上述第一获取单元，还用于在上述视频播放应用中获取对上述第一角色和第二变声特效进行选择的上述第二选择操作，其中，上述第二变声特效为预设的多个变声特效中的一个变声特效，上述第二选择操作用于请求按照上述第二变声特效对上述第二原始音频进行变声操作；上述第一处理单元，还用于对上述原始音频中在上述第二选择操作之后待播放的上述第二原始音频进行变声操作，得到与上述第二变声特效对应的上述第二变声音频。

作为一种可选的技术方案，上述第一处理单元，包括：第一获取模块，用于获取上述原始音频中的第一音轨，其中，上述第一音轨为上述第一角色的音轨；第一处理模块，用于将上述第一音轨中在上述第二选择操作之后待播放的音频进行变声操作，得到上述第二变声音频。

作为一种可选的技术方案，上述第一处理单元，包括：第二获取模块，用于获取上述原始音频中的第一音轨，其中，上述第一音轨为上述第一角色的音轨；第二处理模块，用于将上述第一音轨中在上述第二选择操作之后待播放的音频进行变声操作，得到与上述第二变声特效对应的上述第二变声音频。

作为一种可选的技术方案，上述装置还包括：第二播放单元，用于在到达第三原始音频的播放时刻时，在上述视频播放应用中播放上述第三原始音频，其中，上述第三原始音频为上述原始音频中的第二角色在上述第二选择操作之后产生的音频，上述第二角色为上述目标视频中的一个角色。

作为一种可选的技术方案，上述第一处理单元，包括：第三处理模块，用于对上述原始音频中在上述第一交互操作之后待播放的一段音频进行变声操作，得到一段变声音频，其中，上述一段音频中的多帧音频与一组播放时刻具有一一对应的关系，上述一段音频中的每帧音频对应有上述一组播放时刻中的一个播放时刻，上述一段变声音频的播放时长与上述一段音频的播放时长相同，上述一段音频与在上述第一交互操作之后待播放的一段视频画面具有同步播放关系；第四处理模块，用于对上述一段变声音频与上述一组播放时刻建立上述一一对应的关系，以使得上述一段变声音频与上述一段视频画面具有上述同步播放关系；第五处理模块，用于在上述视频播放应用中播放上述一段视频画面以及与上述一段视频画面具有同步播放关系的上述一段变声音频。

作为一种可选的技术方案，第三处理模块，还用于对上述一段音频中包括的N帧音频进行变声操作，得到N帧变声音频，其中，上述N为自然数，上述一段变声音频包括上述N帧变声音频。

作为一种可选的技术方案，上述装置还包括：第二获取单元，用于在上述视频播放应用中获取第二交互操作，其中，上述第二交互操作用于请求恢复播放上述原始音频；第二处理单元，用于响应于上述第二交互操作，在上述视频播放应用中停止播放上述变声音频，并播放上述原始音频中在上述第二交互操作之后待播放的音频。

根据本发明的实施例的又一方面，还提供了一种计算机可读存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，在视频播放应用中播放目标视频的视频画面以及上述目标视频的原始音频；

S2，在上述视频播放应用中获取第一交互操作，其中，上述第一交互操作用于请求对上述原始音频进行变声操作；

S3，响应于上述第一交互操作，对上述原始音频中在上述第一交互操作之后待播放的音频进行变声操作，得到变声音频，并在上述视频播放应用中播放上述变声音频。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来命令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取器)、磁盘或光盘等。

根据本发明实施例的又一方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述变声播放方法的各种可选实现方式中提供的方法。

可选地，在本实施例中，上述计算机程序产品或计算机程序可以被设置为存储用于执行以下步骤的计算机程序：

根据本发明实施例的又一个方面，还提供了一种用于实施上述变声播放方法的电子设备，该电子设备可以是图1所示的服务器或图1所示的终端设备。本实施例以该电子设备为终端设备为例来说明。如图12所示，该电子设备包括存储器1202和处理器1204，该存储器1202中存储有计算机程序，该处理器1204被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，本领域普通技术人员可以理解，图12所示的结构仅为示意，其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图12中所示更多或者更少的组件(如网络接口等)，或者具有与图12所示不同的配置。

其中，存储器1202可用于存储软件程序以及模块，如本发明实施例中的变声播放方法和装置对应的程序命令/模块，处理器1204通过运行存储在存储器1202内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的变声播放方法。存储器1202可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1202可进一步包括相对于处理器1204远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。作为一种示例，如图12所示，上述存储器1202中可以但不限于包括上述变声播放装置中的第一播放单元1102，第一获取单元1104、第一处理单元1106。此外，还可以包括但不限于上述变声播放装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1206用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1206包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1206为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器1208，用于显示上述目标视频的视频画面；连接总线1210，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来命令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干命令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上上述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种变声播放方法，其特征在于，包括：

在视频播放应用中播放目标视频的视频画面以及所述目标视频的原始音频；

在所述视频播放应用中获取第一交互操作，其中，所述第一交互操作用于请求对所述原始音频进行变声操作；

响应于所述第一交互操作，对所述原始音频中在所述第一交互操作之后待播放的音频进行变声操作，得到变声音频，并在所述视频播放应用中播放所述变声音频。

2.根据权利要求1所述的方法，其特征在于，

在所述视频播放应用中获取第一交互操作，包括：在所述视频播放应用中获取对第一变声特效进行选择的第一选择操作，其中，所述第一变声特效为预设的多个变声特效中的一个变声特效，所述第一交互操作包括所述第一选择操作，所述第一选择操作用于请求按照所述第一变声特效对所述原始音频中在所述第一选择操作之后待播放的第一原始音频进行变声操作；

响应于所述第一交互操作，对所述原始音频中在所述第一交互操作之后待播放的音频进行变声操作，得到变声音频，并在所述视频播放应用中播放所述变声音频，包括：响应于所述第一选择操作，对所述原始音频中在所述第一选择操作之后待播放的所述第一原始音频进行变声操作，得到与所述第一变声特效对应的所述第一变声音频，并在所述视频播放应用中播放所述第一变声音频。

3.根据权利要求1所述的方法，其特征在于，

在所述视频播放应用中获取第一交互操作，包括：在所述视频播放应用中获取对第一角色进行选择的第二选择操作，其中，所述第一角色为所述目标视频中的一个角色，所述第一交互操作包括所述第二选择操作，所述第二选择操作用于请求对所述原始音频中在所述第二选择操作之后待播放的第二原始音频进行变声操作，所述第二原始音频为所述第一角色产生的音频；

响应于所述第一交互操作，对所述原始音频中在所述第一交互操作之后待播放的音频进行变声操作，得到变声音频，并在所述视频播放应用中播放所述变声音频，包括：响应于所述第二选择操作，对所述原始音频中在所述第二选择操作之后待播放的所述第二原始音频进行变声操作，得到第二变声音频，并在到达所述第二原始音频的播放时刻时，在所述视频播放应用中播放所述第二变声音频。

4.根据权利要求3所述的方法，其特征在于，

所述在所述视频播放应用中获取对第一角色进行选择的第二选择操作，包括：在所述视频播放应用中获取对所述第一角色和第二变声特效进行选择的所述第二选择操作，其中，所述第二变声特效为预设的多个变声特效中的一个变声特效，所述第二选择操作用于请求按照所述第二变声特效对所述第二原始音频进行变声操作；

所述对所述原始音频中在所述第二选择操作之后待播放的所述第二原始音频进行变声操作，得到所述第二变声音频，包括：对所述原始音频中在所述第二选择操作之后待播放的所述第二原始音频进行变声操作，得到与所述第二变声特效对应的所述第二变声音频。

5.根据权利要求3所述的方法，其特征在于，所述对所述原始音频中在所述第二选择操作之后待播放的所述第二原始音频进行变声操作，得到所述第二变声音频，包括：

获取所述原始音频中的第一音轨，其中，所述第一音轨为所述第一角色的音轨；

将所述第一音轨中在所述第二选择操作之后待播放的音频进行变声操作，得到所述第二变声音频。

6.根据权利要求4所述的方法，其特征在于，所述对所述原始音频中在所述第二选择操作之后待播放的所述第二原始音频进行变声操作，得到与所述第二变声特效对应的所述第二变声音频，包括：

将所述第一音轨中在所述第二选择操作之后待播放的音频进行变声操作，得到与所述第二变声特效对应的所述第二变声音频。

7.根据权利要求3所述的方法，其特征在于，在所述视频播放应用中获取对第一角色进行选择的第二选择操作之后，所述方法还包括：

在到达第三原始音频的播放时刻时，在所述视频播放应用中播放所述第三原始音频，其中，所述第三原始音频为所述原始音频中的第二角色在所述第二选择操作之后产生的音频，所述第二角色为所述目标视频中的一个角色。

8.根据权利要求1至6中任一项所述的方法，其特征在于，对所述原始音频中在所述第一交互操作之后待播放的音频进行变声操作，得到变声音频，并在所述视频播放应用中播放所述变声音频，包括：

对所述原始音频中在所述第一交互操作之后待播放的一段音频进行变声操作，得到一段变声音频，其中，所述一段音频中的多帧音频与一组播放时刻具有一一对应的关系，所述一段音频中的每帧音频对应有所述一组播放时刻中的一个播放时刻，所述一段变声音频的播放时长与所述一段音频的播放时长相同，所述一段音频与在所述第一交互操作之后待播放的一段视频画面具有同步播放关系；

对所述一段变声音频与所述一组播放时刻建立所述一一对应的关系，以使得所述一段变声音频与所述一段视频画面具有所述同步播放关系；

在所述视频播放应用中播放所述一段视频画面以及与所述一段视频画面具有同步播放关系的所述一段变声音频。

9.根据权利要求8所述的方法，其特征在于，对所述原始音频中在所述第一交互操作之后待播放的一段音频进行变声操作，得到一段变声音频，包括：

对所述一段音频中包括的N帧音频进行变声操作，得到N帧变声音频，其中，所述N为正整数，所述一段变声音频包括所述N帧变声音频。

10.根据权利要求1至6中任一项所述的方法，其特征在于，在所述视频播放应用中获取第一交互操作之后，所述方法还包括：

在所述视频播放应用中获取第二交互操作，其中，所述第二交互操作用于请求恢复播放所述原始音频；

响应于所述第二交互操作，在所述视频播放应用中停止播放所述变声音频，并播放所述原始音频中在所述第二交互操作之后待播放的音频。

11.一种变声播放装置，其特征在于，包括：

第一播放单元，用于在视频播放应用中播放目标视频的视频画面以及所述目标视频的原始音频；

第一获取单元，用于在所述视频播放应用中获取第一交互操作，其中，所述第一交互操作用于请求对所述原始音频进行变声操作；

第一处理单元，用于响应于所述第一交互操作，对所述原始音频中在所述第一交互操作之后待播放的音频进行变声操作，得到变声音频，并在所述视频播放应用中播放所述变声音频。

12.根据权利要求11所述的装置，其特征在于，

所述第一获取单元，还用于在所述视频播放应用中获取对第一变声特效进行选择的第一选择操作，其中，所述第一变声特效为预设的多个变声特效中的一个变声特效，所述第一交互操作包括所述第一选择操作，所述第一选择操作用于请求按照所述第一变声特效对所述原始音频中在所述第一选择操作之后待播放的第一原始音频进行变声操作；

第一处理单元，还用于响应于所述第一选择操作，对所述原始音频中在所述第一选择操作之后待播放的所述第一原始音频进行变声操作，得到与所述第一变声特效对应的所述第一变声音频，并在所述视频播放应用中播放所述第一变声音频。

13.根据权利要求11所述的装置，其特征在于，

所述第一获取单元，还用于在所述视频播放应用中获取第一交互操作，包括：在所述视频播放应用中获取对第一角色进行选择的第二选择操作，其中，所述第一角色为所述目标视频中的一个角色，所述第一交互操作包括所述第二选择操作，所述第二选择操作用于请求对所述原始音频中在所述第二选择操作之后待播放的第二原始音频进行变声操作，所述第二原始音频为所述第一角色产生的音频；

第一处理单元，还用于响应于所述第二选择操作，对所述原始音频中在所述第二选择操作之后待播放的所述第二原始音频进行变声操作，得到第二变声音频，并在到达所述第二原始音频的播放时刻时，在所述视频播放应用中播放所述第二变声音频。

14.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至10任一项中所述的方法。

15.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至10任一项中所述的方法。