CN110390927B

CN110390927B - 音频处理方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN110390927B
Application number: CN201910579773.2A
Authority: CN
Inventors: 汤文强; 周志成; 艾国信; 赵鸿楠; 宋超
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2021-11-23
Anticipated expiration: 2039-06-28
Also published as: CN110390927A

Abstract

本发明涉及一种音频处理方法、装置、电子设备及计算机可读存储介质，该方法包括：提取视频中的原始音频数据；根据所述原始音频数据中的人声特征提取所述原始音频数据中的旁白片段；获取与所述旁白片段对应的旁白音频数据；在接收到终端的请求指令时，将所述请求指令对应的所述旁白音频数据和所述原始音频数据发送至所述终端。本发明提供的技术方案通过将视频中的旁白片段提取出来，形成相应的旁白音频数据，也就是在没有人声特征的地方加入旁白性解说，当用户选择听剧模式时，将旁白音频与原始音频发送到终端进行播放，使得用户在听剧时能更清楚地了解原视频的剧情发展，提高用户体验。

Description

音频处理方法、装置、电子设备及计算机可读存储介质

技术领域

本发明实施例涉及音频处理技术领域，具体涉及一种音频处理方法、装置、电子设备及计算机可读存储介质。

背景技术

随着科技的进步，为满足不同用户在视频播放中的不同需求，现在视频一般都会提供音频的功能，方便用户在睡前或是看累时可以听剧。

但是，目前的音频功能只是简单的从视频中抽取出了音频部分，将画面去掉，有一些只有画面没有声音的地方，用户在听剧时不知道发生了什么，这样就给用户在听剧时带来很多不好的体验。

上述对问题的发现过程的描述，仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本发明实施例提供了一种音频处理方法、装置、电子设备及计算机可读存储介质。

根据本公开实施例的第一方面，提供一种音频处理方法，所述方法包括：

提取视频中的原始音频数据；

根据所述原始音频数据中的人声特征提取所述原始音频数据中的旁白片段；

获取与所述旁白片段对应的旁白音频数据；

在接收到终端的请求指令时，将所述请求指令对应的所述旁白音频数据和所述原始音频数据发送至所述终端。

结合第一方面，在第一方面第一种可能的实现方式中，根据所述原始音频数据中的人声特征提取所述音频数据中的旁白判断，包括：

将所述原始音频数据根据人声特征分割成多个片段；

提取所述多个片段中未包含人声特征的片段作为旁白片段。

结合第一方面，在第一方面第二种可能的实现方式中，所述获取与所述旁白片段对应的旁白音频数据，包括：

获取所述旁白片段对应的旁白文本；

将所述旁白文本转化成旁白音频数据。

结合第一方面第二种可能的实现方式，在第一方面第三种可能的实现方式中，将所述旁白文本转化成旁白音频数据，包括：

获取预先设定的多种语音包；

接收用户的语音包选择操作指令；

根据所述选择操作指令选择相应的语音包；

根据选择的语音包，将所述旁白文本转化成旁白音频数据。

结合第一方面，在第一方面第四种可能的实现方式中，在接收到终端的请求指令时，将所述请求指令对应的所述旁白音频数据和所述原始音频数据发送至所述终端之前，所述方法还包括：

按照时间顺序将旁白音频数据融合到所述原始音频数据中。

根据本公开实施例的第二方面，提供一种音频处理装置，所述装置包括：

第一提取模块，用于提取视频中的原始音频数据；

第二提取模块，用于根据所述原始音频数据中的人声特征提取所述原始音频数据中的旁白片段；

生成模块，用于获取与所述旁白片段对应的旁白音频数据；

发送模块，用于在接收到终端的请求指令时，将所述请求指令对应的所述旁白音频数据和所述原始音频数据发送至所述终端。

结合第二方面，在第二方面第一种可能的实现方式中，所述第二提取模块包括：

分割子模块，用于将所述原始音频数据根据人声特征分割成多个片段；

提取子模块，用于提取所述多个片段中未包含人声特征的片段作为旁白片段。

结合第二方面，在第二方面第二种可能的实现方式中，所述获取模块包括：

获取子模块，用于获取所述旁白片段对应的旁白文本；

转化子模块，用于将所述旁白文本转化成旁白音频数据。

结合第二方面第二种可能的实现方式，在第二方面第三种可能的实现方式中，所述转化子模块包括：

获取单元，用于获取预先设定的多种语音包；

接收单元，用于接收用户的语音包选择操作指令；

选择单元，用于根据所述选择操作指令选择相应的语音包；

转化单元，用于根据选择的语音包将所述旁白文本转化成旁白音频数据。

结合第二方面，在第二方面第四种可能的实现方式中，所述装置还包括：融合模块，用于，

按照时间顺序将旁白音频数据融合到所述原始音频数据中。

根据本公开实施例的第三方面，提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的方法步骤。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有音频处理方法程序，所述音频处理方法程序被处理器执行时实现上述任一所述的音频处理方法的步骤。

与最接近的现有技术相比，本发明实施例首先提取视频中的原始音频数据，然后根据该原始音频数据中的人声特征提取所述原始音频数据中的旁白片段，获取与该旁白片段对应的旁白音频数据，最后在接收到终端的请求指令时，将所述请求指令对应的所述旁白音频数据和所述原始音频数据发送至所述终端。本方案通过将视频中的旁白片段提取出来，形成相应的旁白音频数据，也就是在没有人声特征的地方加入旁白性解说，当用户选择听剧模式时，将旁白音频与原始音频发送到终端进行播放，使得用户在听剧时能更清楚地了解原视频的剧情发展，提高用户体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种终端的播放界面示意图；

图2是根据一示例性实施例示出的一种音频处理方法的流程图；

图3为根据一示例性实施例示出的旁白文本转化成旁白音频数据的方法流程图；

图4为根据一示例性实施例示出的另一种音频处理方法的流程图；

图5为根据一示例性实施例示出的将视频转化成音频的示意图；

图6为根据一示例性实施例示出的一种音频处理装置示意图；

图7为根据一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，“模块”与“部件”可以混合地使用。

本公开的各步骤的执行主体可以是服务器。在接收到终端设备发送的请求指令时，将请求指令对应的处理好的数据发送至终端设备。该终端设备可以是诸如手机、平板电脑、笔记本电脑、掌上电脑、PDA(Personal Digital Assistant，个人数字助理)、PMP(Portable Media Player，便捷式多媒体播放器)等。

图1是本公开一示例性实施例示出的一种终端的播放界面示意图，图中包括：视频模式按钮1、听剧模式按钮2、暂停按钮3和播放界面4。

当用户打开一个播放应用，观看某视频时，在终端设备(以手机为例，也可以是其他终端设备)会展示出一个播放界面4，在播放界面4的底部会有三个按钮，视频模式按钮1、听剧模式按钮2和暂停按钮3，此时默认是视频模式的状态。当用户长时间看剧看累时，就可以点击听剧模式按钮2，播放界面就会从视频模式状态跳转到听剧模式状态，这样用户不需要看屏幕，就可以知道剧情的发展情况。当用户想继续观看时，再点击视频模式按钮1，就可以进入视频模式。

另外，图1所示仅为本公开的一种示意图，图中视频模式按钮1、听剧模式按钮2和暂停按钮3的相对位置关系是不做限定的。

具体地，当用户点击听剧模式按钮2，终端接收到该点击操作时，会向服务器发送请求指令，服务器就会将该视频对应的处理好的音频数据发送至终端，终端播放该音频数据。

图2是根据一示例性实施例示出的一种音频处理方法的流程图，如图2所示，该方法应用于服务器。该音频处理方法可以包括以下步骤：

在步骤S101中，提取视频中的原始音频数据。

获取视频对应的原始音频数据。此处的原始音频数据不能直接拿来给用户听，因为其中会有一些没有人声的地方，这部分信息是通过画面中的内容看到的，只靠听是不能知道此时发生的事情，所以还需要对原始音频数据做一些处理，也就是如步骤S102所示，将原始音频数据中的旁白片段提取出来，然后做相应的处理，最后得到用户只通过听就可以知道发生了什么的音频数据。

在步骤S102中，根据所述原始音频数据中的人声特征提取所述原始音频数据中的旁白片段。

由于原始音频数据中会有一些没有人声的地方，这部分信息是用户通过画面中的内容看到的，只靠听是不能知道此时发生的事情，所以还需要对原始音频数据做一些处理，也就是本步骤中提取旁白片段，将原始音频数据中的旁白片段提取出来，然后在这些片段中融入旁白解说，这样用户只通过听就可以清楚地知道发生了什么，保证了用户在听剧时对原视频的剧情发展的了解。

在本公开实施例中，旁白片段指的是只有动作或是只有背景音乐，而没有人物对话或是人物独白等人声特征的画面或是片段，用户只通过背景音乐或是背景声音没有办法知道当前发生了什么，所以需要将这样的片段从原始音频数据中提取出来。

在本公开的一个可能的实施方式中，根据原始音频数据中人声特征提取所述音频数据中的旁白片段，具体包括：

将所述原始音频数据根据人声特征分割成多个片段；

原始音频数据中会包含很多声音，有人物对话的声音、人物独白的声音、背景音乐的声音等等多种声音。现在通过其中人物的声音可以将原始音频数据分割成许多个片段，也就是，将有连续人声特征的分成一个片段，没有人声特征的分成一个片段，这样的多个片段连起来就是完整的原始音频数据。将原始音频数据分成多个片段的目的是方便后期将没有人声特征的片段(也就是旁白片段)从其中挑选出来。也就是下个步骤。

提取所述多个片段中未包含人声特征的片段作为旁白片段。

在步骤S103中，获取与所述旁白片段对应的旁白音频数据。

本公开的目的是让用户在不看视频只听视频的情况下就知道该视频剧情的发展，所以要在没有人物对话或是人物独白等人声特征的画面或是片段中添加相应的内容，以保证剧情的连贯性。

在本公开实施例中，通过在旁白片段的部分添加旁白音频数据来保证音频能完整的展现出原视频中的内容。

在本公开的一个可能的实施方式中，获取与所述旁白片段对应的旁白音频数据，具体包括：

获取所述旁白片段对应的旁白文本；

在本公开实施例中，旁白音频数据是根据旁白文本生成的，其中，旁白文本可以是在服务器端生成的。例如可以是根据用户上传的文字内容生成的，比如用户发的弹幕；也可以是工作人员根据视频画面中展示的信息生成的；还可以是根据电视剧原著记载的内容生成的。

将所述旁白文本转化成旁白音频数据；

服务器端将上述任意一种方式得到的旁白文本转化成旁白音频数据，然后终端获取该旁白音频数据。

在将旁白文本转化成旁白音频数据的时候，可以根据用户的爱好，在服务器提供的多种语音包中选择自己喜欢的声音来播放，在本公开的一个可能的实施方式中，如图3所示，将所述旁白文本转化成旁白音频数据，具体包括：

S1031、获取预先设定的多种语音包；

S1032、接收用户的语音包选择操作指令；

S1033、根据所述选择操作指令选择相应的语音包；

S1034、根据选择的语音包，将所述旁白文本转化成旁白音频数据。

在本公开实施例中，旁白的音色是多种多样的，用户可以根据自己的喜好选择不同类型的语音包来朗读，例如有的人喜欢某个明星的声音，就可以选择该明星的语音包来朗读旁白音频，有的人喜欢某个相声演员的声音，就可以选择该演员的语音包来朗读旁白音频。

也就是，服务器中包括多种声音的语音包，当用户在终端上点击听剧模式按钮2时，会在播放界面4上显示出上述语音包的选项，当用户选择其中一个时，终端获取用户的选择操作指令，然后发送至服务器，服务器根据用户选择的语音包，将该视频中旁白文本转化成旁白音频数据。

其中，利用语音包将旁白文本转化成旁白音频数据，可以通过本领域技术人员公知的任何一种技术进行转化，此处不再赘述。

在步骤S104中，在接收到终端的请求指令时，将所述请求指令对应的所述旁白音频数据和所述原始音频数据发送至所述终端。

在本公开实施例中，当服务器接收到终端发送的请求指令时，就会将该请求指令对应的旁白音频数据和原始音频数据发送至终端。

终端接收到服务器发送的旁白音频数据和原始音频数据后，按照时间顺序播放上述原始音频数据和旁白音频数据。

也就是，终端在播放原始音频数据时，当播放到旁白片段，播放旁白音频数据，这样就可以使得用户听到与原始视频对应的完整的音频了。

在本公开的一个可能的实施方式中，用户在通过耳机听剧时，先通过一个声道(例如左声道)播放原始音频数据，当播放到旁白片段时，就通过另外一个声道(例如右声道)播放与旁白片段对应的旁白音频数据。这样使得用户既可以了解完整的剧情，又可以分辨出哪些是原始视频中的人物对白或人物独白，哪些是旁白性的解说。让用户更好的了解剧情。

在本公开的一个可能的实施方式中，用户在通过耳机听剧时，也可以是左右声道同时播放音频数据，按照时间顺序进行播放，当播放到旁白片段时，就播放与旁白判断对应的旁白音频数据。因此，本公开的一种实施例中，在步骤S104、在接收到终端的请求指令时，将所述请求指令对应的所述旁白音频数据和所述原始音频数据发送至所述终端之前，如图4所示，该音频处理方法还可以包括以下步骤：

S105、按照时间顺序将旁白音频数据融合到所述原始音频数据中。

也就是，服务器将获取的旁白音频数据按时间顺序放到原始音频数据中旁白片段对应的位置，然后将原始音频数据中包含人声特征的音频数据与旁白音频数据融合到一起，形成一个完整的音频，这样用户在听剧时，可以同时使用左右声道进行声音的播放，使得音效更好，用户的体验更佳。

其中，声音的融合是可以通过现有的任何一种声音融合方法来实现。此处不再赘述。

如图5所示，利用本公开的音频处理方法将视频转化成音频的步骤的示意图。

要将一段时长为60分钟的视频V[0…60]转化成音频，其中，V[f…t]表示从时刻f到时刻t的视频段。

步骤一，利用音频提取器或是其他工具或其他方法提取出视频中的音频A[0…60]，其中，A[f…t]表示从时刻f到时刻t的音频段。

步骤二，根据原始音频数据中的人声特征提取其中的旁白片段A[fi…ti](fi<ti，i＝1,2,3…)。根据人声特征将原始音频数据分割成多个片段，提取其中未包含人声特征的片段作为旁白片段。

步骤三，获取与所述旁白片段对应的旁白音频数据P[fi…ti]，其中，P[f…t]表示从时刻f到时刻t的旁白音频段。首先获取所述旁白片段对应的旁白文本T[i](旁白文本T[i]是与旁白片段A[fi…ti]对应的文本)，其中旁白文本可以是在服务器端生成的，例如可以是根据剧情整理出相应的旁白文本，可以是根据用户上传的文字内容生成的，或是通过其他方式生成的均可；然后将旁边文本转化成旁白音频数据。

其中，转化可以根据用户的喜好下载不同的语音包进行转化，例如选择不同人声音的语音包，将旁白文本根据选择的语音包转化成该人声的旁白语音数据，用该人声来朗读旁白音频。

步骤四，当接收到终端的请求指令时，将上述请求指令对应的旁白音频数据和原始音频数据发送至上述终端。

当用户在听剧的过程中听到旁白片段A[fi…ti]对应的部分时，就播放该旁白片段A[fi…ti]对应的旁白音频数据P[fi…ti]。

也可以先将旁白片段A[fi…ti]对应的旁白音频数据P[fi…ti]放到原始音频A[0…60]中旁白片段A[fi…ti]对应的位置，将旁白音频数据P[fi…ti]融合到其中，然后在接收到终端请求指令时，将该请求指令对应的融合后的音频数据发送至终端，在终端播放融合后的音频。

本公开实施例首先提取视频中的原始音频数据，然后根据该原始音频数据中的人声特征提取所述原始音频数据中的旁白片段，获取与该旁白片段对应的旁白音频数据，最后在接收到终端的请求指令时，将该请求指令对应的所述旁白音频数据和所述原始音频数据发送至所述终端。本公开的实施例，通过将视频中的旁白片段提取出来，形成相应的旁白音频数据，也就是在没有人声特征的地方加入旁白，当用户选择听剧模式时，将该视频对应的旁白音频与原始音频发送到终端进行播放，使得用户在听剧时能更清楚地了解原视频的剧情发展，提高用户体验。

基于与上述方法相同的发明构思，在本公开另一实施例中，还公开了一种音频处理装置，如图6所示，应用于图1所示的终端中，该音频处理装置包括：第一提取模块101、第二提取模块102、获取模块103和发送模块104。

该第一提取模块101被配置为提取视频中的原始音频数据；

第一提取模块101会获取视频对应的原始音频数据。此处的原始音频数据不能直接拿来给用户听，因为其中会有一些没有人声的地方，这部分信息是通过画面中的内容看到的，只靠听是不能知道此时发生的事情，所以还需要对原始音频数据做一些处理，将原始音频数据中的旁白片段提取出来，然后做相应的处理，最后得到用户只通过听就可以知道发生了什么的音频数据。

该第二提取模块102被配置为根据所述原始音频数据中的人声特征提取所述原始音频数据中的旁白片段；

由于原始音频数据中会有一些没有人声的地方，这部分信息是用户通过画面中的内容看到的，只靠听是不能知道此时发生的事情，所以还需要对原始音频数据做一些处理，也就是通过第二提取模块102提取旁白片段，将原始音频数据中的旁白片段提取出来，然后在这些片段中融入旁白解说，这样用户只通过听就可以清楚地知道发生了什么，保证了用户在听剧时对原视频的剧情发展的了解。

其中，旁白片段指的是只有动作或是只有背景音乐，而没有人物对话或是人物独白等人声特征的画面或是片段，用户只通过背景音乐或是背景声音没有办法知道当前发生了什么，所以需要将这样的片段从原始音频数据中提取出来。

该获取模块103被配置为获取与所述旁白片段对应的旁白音频数据；

旁白音频数据是根据旁白文本生成的，其中，旁白文本可以是在服务器端生成的。例如可以是根据用户上传的文字内容生成的，比如用户发的弹幕；也可以是工作人员根据视频画面中展示的信息生成的；还可以是根据电视剧原著记载的内容生成的。

该执行模块104被配置为在接收到终端的请求指令时，将所述请求指令对应的所述旁白音频数据和所述原始音频数据发送至所述终端。

当服务器接收到终端发送的请求指令时，就会将请求指令对应的上述获取的旁白音频数据和原始音频数据发送至终端。

也就是，终端在播放原始音频数据时，当播放到旁白片段，就会播放旁白音频数据，这样就可以使得用户听到与原始视频对应的完整的音频了。

在本公开的另一实施例中，第二提取模块包括分割子模块和提取子模块。

该分割子模块被配置为将所述原始音频数据根据人声特征分割证多个片段；

原始音频数据中会包含很多声音，有人物对话的声音、人物独白的声音、背景音乐的声音等等多种声音。现在通过分割子模块将原始音频数据分割成许多个片段，也就是，将有连续人声特征的分成一个片段，没有人声特征的分成一个片段，这样的多个片段连起来就是完整的原始音频数据。将原始音频数据分成多个片段的目的是方便后期将没有人声特征的片段(也就是旁白片段)从其中挑选出来。

该提取子模块被配置为提取所述多个片段中未包含人声特征的片段作为旁白片段。

在本公开的另一实施例中，获取模块包括获取子模块和转化子模块。

该获取子模块被配置为获取所述旁白片段对应的旁白文本；

其中旁白文本可以是在服务器端生成的。例如可以是根据用户上传的文字内容生成的，比如用户发的弹幕；也可以是工作人员根据视频画面中展示的信息生成的；还可以是根据电视剧原著记载的内容生成的。然后获取子模块获取该旁白文本。

该转化子模块被配置为将所述旁白文本转化成旁白音频数据。

在本公开的又一实施例中，转化子模块包括获取单元、接收单元、选择单元和转化单元。

该获取单元被配置为获取预先设定的多种语音包；

该接收单元被配置为接收用户的语音包选择操作指令；

该选择单元被配置为根据所述选择操作指令选择相应的语音包；

该转化单元被配置为根据选择的语音包，将所述旁白文本转化成旁白音频数据。

在本公开的另一实施例中，该音频处理装置还包括：融合模块105。

该融合模块105被配置为按照时间顺序将旁白音频数据融合到所述原始音频数据中。

融合模块105将获取的旁白音频数据按时间顺序放到原始音频数据中旁白片段对应的位置，然后将原始音频数据中包含人声特征的音频数据与旁白音频数据融合到一起，形成一个完整的音频，这样用户在听剧时，可以同时使用左右声道进行声音的播放，使得音效更好，用户的体验更佳。

在本公开的另一实施例中，还提供了一种电子设备，如图7所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信；

存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，实现如下步骤：

提取视频中的原始音频数据；

获取与所述旁白片段对应的旁白音频数据；

上述电子设备提到的通信总线504可以是外设部件互连标准(PeripheralComponent Interconnect，简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture，简称EISA)总线等。该通信总线504可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口502用于上述电子设备与其他设备之间的通信。

存储器503可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器501可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请另一实施例中，还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有音频处理方法程序，所述音频处理方法程序被处理器执行时实现上述任一所述的音频处理方法的步骤。

本发明实施例在具体实现时，可以参阅上述各个实施例，具有相应的技术效果。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits，ASIC)、数字信号处理器(Digital Signal Processing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(Programmable LogicDevice，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明各个实施例所述的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法或者实施例的某些部分所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种音频处理方法，其特征在于，包括：

提取视频中的原始音频数据；

根据所述原始音频数据中的人声特征提取所述原始音频数据中的旁白片段；其中，所述旁白片段包括所述原始音频数据中没有人声特征的片段；

获取与所述旁白片段对应的旁白音频数据；所述获取与所述旁白片段对应的旁白音频数据，包括：获取所述旁白片段对应的旁白文本；将所述旁白文本转化成旁白音频数据；其中，所述旁白音频数据用于保证剧情的连贯性；

2.根据权利要求1所述的一种音频处理方法，其特征在于，根据所述原始音频数据中的人声特征提取所述原始音频数据中的旁白片段，包括：

将所述原始音频数据根据人声特征分割成多个片段；

提取所述多个片段中未包含人声特征的片段作为旁白片段。

3.根据权利要求1所述的一种音频处理方法，其特征在于，将所述旁白文本转化成旁白音频数据，包括：

获取预先设定的多种语音包；

接收用户的语音包选择操作指令；

根据所述选择操作指令选择相应的语音包；

根据选择的语音包，将所述旁白文本转化成旁白音频数据。

4.根据权利要求1所述的一种音频处理方法，其特征在于，在接收到终端的请求指令时，将所述请求指令对应的所述旁白音频数据和所述原始音频数据发送至所述终端之前，所述方法还包括：

按照时间顺序将旁白音频数据融合到所述原始音频数据中。

5.一种音频处理装置，其特征在于，包括：

第一提取模块，用于提取视频中的原始音频数据；

第二提取模块，用于根据所述原始音频数据中的人声特征提取所述原始音频数据中的旁白片段；其中，所述旁白片段包括所述原始音频数据中没有人声特征的片段；

获取模块，用于获取与所述旁白片段对应的旁白音频数据；所述获取与所述旁白片段对应的旁白音频数据，包括：获取所述旁白片段对应的旁白文本；将所述旁白文本转化成旁白音频数据；其中，所述旁白音频数据用于保证剧情的连贯性；

6.根据权利要求5所述的一种音频处理装置，其特征在于，所述第二提取模块包括：

7.根据权利要求5所述的一种音频处理装置，其特征在于，所述转化子模块包括：

获取单元，用于获取预先设定的多种语音包；

接收单元，用于接收用户的语音包选择操作指令；

选择单元，用于根据所述选择操作指令选择相应的语音包；

转化单元，用于根据选择的语音包，将所述旁白文本转化成旁白音频数据。

8.根据权利要求5所述的一种音频处理装置，其特征在于，还包括：融合模块，用于，

按照时间顺序将旁白音频数据融合到所述原始音频数据中。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-4任一所述的音频处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有音频处理方法程序，所述音频处理方法程序被处理器执行时实现权利要求1-4任一所述的音频处理方法的步骤。