CN111246285A

CN111246285A - 一种解说视频中声音的分离方法、音量调节方法及装置

Info

Publication number: CN111246285A
Application number: CN202010211293.3A
Authority: CN
Inventors: 罗小涛; 邓桂林
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2020-06-05

Abstract

本发明实施例提供了一种解说视频中声音的分离方法、音量调节方法及装置。其中，解说视频中声音的分离方法包括：获取解说视频的音频，作为待分离声音；将所述待分离声音输入预先训练的人声提取模型中，得到所述待分离声音中的人声；其中，所述人声提取模型是根据各样本声音，以及各样本声音中的纯人声训练得到的；所述样本声音是纯人声加噪处理后得到的声音；基于所述人声，从所述解说视频的待分离声音中，分离被解说内容的原始声音和解说员的解说声音。应用本发明实施例的方案，可以满足用户针对解说视频的不同类型声音的关注需求。

Description

一种解说视频中声音的分离方法、音量调节方法及装置

技术领域

本发明涉及声音处理技术领域，特别是涉及一种解说视频中声音的分离方法、音量调节方法及装置。

背景技术

解说(游戏解说、体育解说等)视频的声音，通常包含被解说内容的原始声音(游戏音效、体育现场声等)以及解说员的解说声音。

现有解说视频的声音是在解说视频生成的过程中，将被解说内容的声音和解说声音按照固定比例混合而成的。这样，在用户观看解说视频时，如果调节声音，则被解说内容的原始声音的声音大小和解说员的解说声音的声音大小始终是被同步调节的，即同步调高或同步调低。

但是，对同一解说视频，有些用户可能关注被解说内容的原始声音，而有些用户可能更关注解说员的解说声音。例如，在体育解说视频中，多数用户关注体育现场声，此类用户更倾向于让现场的声音更大，以增加沉浸感；而有些用户则可能更关注解说员的解说声音，此类用户更倾向于让解说声音更大。

因此，如何满足用户针对解说视频的不同类型声音的关注需求，是一个亟待解决的问题。

发明内容

本发明实施例的目的在于提供一种解说视频中声音的分离方法、音量调节方法、装置及电子设备，以满足用户针对解说视频的不同类型声音的关注需求。

具体技术方案如下：

第一方面，本发明实施例提供了一种解说视频中声音的分离方法，所述方法包括：

获取解说视频的音频，作为待分离声音；

将所述待分离声音输入预先训练的人声提取模型中，得到所述待分离声音中的人声；其中，所述人声提取模型是根据各样本声音，以及各样本声音中的纯人声训练得到的；所述样本声音是纯人声加噪处理后得到的声音；

基于所述人声，从所述解说视频的待分离声音中，分离被解说内容的原始声音和解说员的解说声音。

可选地，所述人声提取模型包括串联相接的卷积神经网络CNN和长短时记忆网络LSTM；所述卷积神经网络CNN利用输入的所述待分离声音的频谱特征，得到至少两段人声的频谱特征；所述长短时记忆网络LSTM用于将所述卷积神经网络CNN得到的至少两段人声的频谱特征进行连接，得到所述待分离声音中的人声的频谱特征。

可选地，所述基于所述人声，从所述解说视频的待分离声音中，分离被解说内容的原始声音和解说员的解说声音的步骤，包括：

去除所述待分离声音中的所述人声，得到被解说内容的原始声音，并将所述人声确定为解说员的解说声音。

按照预设分割时长，将所述人声分割为多段人声；

从多段人声中，筛选与声纹数据库中注册的指定解说员人声的声纹特征相匹配的各段人声；

将所述各段人声进行合并，得到解说员的解说声音；

从所述解说视频的待分离声音中，去除所述解说员的解说声音，得到被解说内容的原始声音。

可选地，所述从多段人声中，筛选与声纹数据库注册的指定解说员人声的声纹特征相匹配的各段人声的步骤，包括：

通过声纹模型，从多段人声中，筛选与声纹数据库中注册的指定解说员人声的声纹特征相匹配的各段人声；其中，所述声纹模型是通过数据集中的训练语音训练得到的、用于识别语音所属人员的模型；该数据集包括针对多个人员的训练语音，每个人员的训练语音包括多段不同的训练语音。

第二方面，本发明实施例还提供了一种音量调节方法，应用于客户端，所述方法包括：

在解说视频的播放过程中，接收用户针对所述解说视频的声音调节指令；

当所述声音调节指令为第一类调节指令时，响应所述第一类调节指令，对所述解说视频的被解说内容的原始声音的音量进行调节；

当所述声音调节指令为第二类调节指令时，响应所述第二类调节指令，对所述解说视频的解说员的解说声音的音量进行调节；其中，所述解说视频的被解说内容的原始声音和解说员的解说声音按照上述第一方面所述的方法分离得到。

可选地，所述解说视频的播放界面中设置有第一类图标和第二类图标；其中，所述第一类图标为关于所述被解说内容的原始声音的声音调节图标，所述第二类图标为关于所述解说员的解说声音的声音调节图标；

所述第一类调节指令为用户通过操作所述第一图标所发出的声音调节指令；

所述第二类调节指令为用户通过操作所述第二类图标所发出的声音调节指令。

第三方面，本发明实施例还提供了一种解说视频中声音的分离装置，所述装置包括：

获取模块，用于获取解说视频的音频，作为待分离声音；

提取模块，用于将所述待分离声音输入预先训练的人声提取模型中，得到所述待分离声音中的人声；其中，所述人声提取模型是根据各样本声音，以及各样本声音中纯人声的频谱特征训练得到的；所述样本声音是纯人声加噪处理后得到的声音；

可选地，所述分离模块，具体用于去除所述待分离声音中的所述人声，得到被解说内容的原始声音，并将所述人声确定为解说员的解说声音。

可选地，所述分离模块，具体用于按照预设分割时长，将所述人声分割为多段人声；

将所述各段人声进行合并，得到解说员的解说声音；

可选地，所述分离模块，具体用于通过声纹模型，从多段人声中，筛选与声纹数据库中注册的指定解说员人声的声纹特征相匹配的各段人声；其中，所述声纹模型是通过数据集中的训练语音训练得到的、用于识别语音所属人员的模型；该数据集包括针对多个人员的训练语音，每个人员的训练语音包括多段不同的训练语音。

第四方面，本发明实施例还提供了一种音量调节装置，应用于客户端，所述装置包括：

调节指令接收模块，用于在解说视频的播放过程中，接收用户针对所述解说视频的声音调节指令；

原始声音调节模块，用于当所述声音调节指令为第一类调节指令时，响应所述第一类调节指令，对所述解说视频的被解说内容的原始声音的音量进行调节；

解说声音调节模块，用于当所述声音调节指令为第二类调节指令时，响应所述第二类调节指令，对所述解说视频的解说员的解说声音的音量进行调节；其中，所述解说视频的被解说内容的原始声音和解说员的解说声音按照上述第一方面所述的方法分离得到。

第五方面，本发明实施例还提供了一种电子设备，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面所述的方法步骤。

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第二方面所述的方法步骤。

本发明实施例所提供的解说视频中声音的分离方法中，将解说视频的待分离声音输入预先训练好的人声提取模型中得到人声；然后利用所述人声，从所述解说视频的待分离声音中，分离被解说内容的原始声音和解说员的解说声音。可见，通过将解说视频的待分离声音中被解说内容的原始声音和解说员的解说声音分离，可以为用户分离调节两类声音提供实现基础，从而达到满足用户针对解说视频的不同类型的声音关注需求的目的。

另外，本发明实施例提供的音量调节方法，在解说视频的播放过程中，当接收到用户针对解说视频的第一类调节指令时，响应第一类调节指令，对解说视频的被解说内容的原始声音的音量进行调节；当接收到用户针对解说视频的第二类调节指令时，响应第二类调节指令，对解说视频的解说员的解说声音的音量进行调节。可见，基于两类调节指令，能够分别调节解说视频中的两类声音的音量，因此，可以满足用户针对解说视频的不同类型声音的关注需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例所提供的一种解说视频中声音的分离方法的流程图；

图2为本发明实施例所提供的另一种解说视频中声音的分离方法的流程图；

图3为本发明实施例所提供的一种音量调节方法的流程图；

图4为本发明实施例所提供的一种解说视频中声音的分离装置的结构示意图；

图5为本发明实施例所提供的一种音量调节装置的结构示意图；

图6为本发明实施例所提供的一种电子设备的结构示意图；

图7为本发明实施例所提供的另一种电子设备的结构示意图；

图8为本发明实施例所提供的一种解说视频中声音的分离流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术问题，本发明实施例提供了一种解说视频中声音的分离方法。

其中，该解说视频中声音的分离方法可以应用于电子设备。在具体应用中，该电子设备可以为具有解说视频播放功能的客户端对应的服务器。当然，该电子设备可以为运行具有解说视频播放功能的客户端的终端设备，此时，该解说视频中声音的分离方法的执行主体具体可以为该具有解说视频播放功能的客户端。

如图1所示，本发明实施例所提供的一种解说视频中声音的分离方法，可以包括如下步骤：

S101，获取解说视频的音频，作为待分离声音；

可以理解的是，为了满足用户针对解说视频的不同类型声音的关注需求，本发明实施例所提供的分离方法，将解说视频中的两类声音进行分离。而为了将被解说内容的原始声音和解说员的解说声音分离，在对解说视频的待分离声音进行分离之前，首先需要获取解说视频的音频，作为待分离声音，该待分离声音包括两类声音，即被解说内容的原始声音，如游戏音效、体育现场声等，以及解说员的解说声音。其中，获取待分离声音的方式属于现有技术，在此不再赘述。

S102，将所述待分离声音输入预先训练的人声提取模型中，得到所述待分离声音中的人声。

其中，所述人声提取模型是根据各样本声音，以及各样本声音中的纯人声训练得到的；所述样本声音是纯人声加噪处理后得到的声音。

可以理解的是，该人声提取模型的输入和输出均为音频，输入的音频中包含人声和其它噪声，经过该人声提取模型的处理，输出的音频中仅包含纯净的人声。

将所述待分离声音输入预先训练的人声提取模型，以使该人声提取模型提取该待分离声音的频谱特征，并利用所提取的频谱特征，提取到该待分离声音中的人声的频谱特征，从而得到纯人声。可以理解的是，在得到该待分离声音中的人声的频谱特征后，即可得到该待分离声音中的人声。

可以理解的是，该人声提取模型的训练过程可以包括：首先，将各样本声音输入至人声提取模型，以使该人声提取模型用于提取各样本声音的频谱特征，并利用各样本声音的频谱特征，预测各样本声音中的人声的频谱特征；然后，利用预测得到的各样本声音中的人声的频谱特征和各样本声音中纯人声的频谱特征的差异，通过设计适合的Loss函数，例如均方损失函数MSE Loss，计算损失值，当基于损失值判断出人声提取模型未收敛时，调整人声提取模型的模型参数，并返回将各样本声音输入至人声提取模型的步骤，而当基于损失值判断出人声提取模型收敛时，结束训练，得到训练完成的人声提取模型。

需要说明的是，在一种可选的实现方式中，所述人声提取模型可以包括串联相接的卷积神经网络CNN和长短时记忆网络LSTM；所述卷积神经网络CNN利用输入的所述待分离声音的频谱特征，得到至少两段人声的频谱特征；所述长短时记忆网络LSTM用于将所述卷积神经网络CNN得到的至少两段人声的频谱特征进行连接，得到所述待分离声音中的人声的频谱特征。由于解说视频的待分离声音中可能存在各种噪音，某些噪音的频谱特征掩盖人声的频谱特征，这样，卷积神经网络CNN提取的人声频谱特征可能不连续，从而得到至少两段不连续的人声的频谱特征；因此，通过采用具有预测前后相关信息能力的长短时记忆网络LSTM可以对不连续的人声的频谱特征进行连接，从而获得连续的人声的频谱特征，得到待分离声音中的人声的频谱特征。当然，人声提取模型并不局限于采用串联相接的卷积神经网络CNN和长短时记忆网络LSTM，也可以采用其他能够提取人声的模型。

S103，基于所述人声，从所述解说视频的待分离声音中，分离被解说内容的原始声音和解说员的解说声音。

其中，基于所述人声，从所述解说视频的待分离声音中，分离被解说内容的原始声音和解说员的解说声音的实现方式存在多种。示例性的，在一种实现方式中，基于所述人声，从所述解说视频的待分离声音中，分离被解说内容的原始声音和解说员的解说声音，可以直接通过去除所述待分离声音中的所述人声，得到被解说内容的原始声音，并将所述人声确定为解说员的解说声音。

考虑到被解说内容中可能存在人声，例如电影中的对白声、体育比赛的观众呐喊声等，而人声提取模型无法区分被解说内容中的人声和解说员的解说人声，因此，仅通过人声提取模型提取的人声，可能既包括被解说内容中的人声，又包括解说员的解说人声。那么，为了适应被解说内容存在人声的情况，从而更好地满足用户针对解说视频的不同类型声音的关注需求。如图2所示，本发明实施例所提供的另一种解说视频中声音的分离方法，可以包括如下步骤：

S201，获取解说视频的音频，作为待分离声音。

S202，将所述待分离声音输入预先训练的人声提取模型中，得到所述待分离声音中的人声；其中，所述人声提取模型是根据各样本声音，以及各样本声音中纯人声的频谱特征训练得到的；所述样本声音是纯人声加噪处理后得到的声音。

本发明实施例中，S201-S202可以与上述实施例中S101-S102的步骤相同，在此不做赘述。

S203，按照预设分割时长，将所述人声分割为多段人声；

由于较小的一段人声属于同一个人的概率较高，因此，为了从步骤S202所识别到的人声中，进一步分离出解说员的声音，本发明实施例通过将所述人声按照预设分割时长分割为多段人声，使每段人声中仅存在一个人的人声，这样采用后续步骤，识别出解说员的声音段，从而达到分离解说员的声音的目的。

S204，从多段人声中，筛选与声纹数据库中注册的指定解说员人声的声纹特征相匹配的各段人声；

需要说明的是，可以通过声纹模型，从多段人声中，筛选与声纹数据库中注册的指定解说员人声的声纹特征相匹配的各段人声；其中，所述声纹模型是通过数据集中的训练语音训练得到的、用于识别语音所属人员的模型；该数据集包括针对多个人员的训练语音，每个人员的训练语音包括多段不同的训练语音。其中，声纹模型可以使用现有的模型，例如X-Vector等。

可以理解的是，利用数据集训练完成的声纹模型可以使得：任一人员的训练语音的声纹特征与该人员的声纹特征进行匹配验证时，验证结果为匹配。这样，在后续利用声纹模型进行声纹识别时，可以预先向声纹数据库中注册指定人员的声纹特征，当一段人声输入到该声纹模型时，该声纹模型可以将提取该段人声的声纹特征，与该指定人员的声纹特征进行匹配验证。如果该段人声是该指定人员的人声，该声纹模型给定的验证结果为匹配，如果该段人声不是该指定人员的人声，该声纹模型给定的验证结果为不匹配。

其中，通过声纹识别模型，从多段人声中，筛选与声纹数据库中注册的指定解说员人声的声纹特征相匹配的各段人声，具体可以为：

针对每一段人声，将该段人声输入至声纹识别模型，以使该声纹识别模型提取该段人声的声纹特征，并将该段人声的声纹特征与声纹数据库中注册的指定解说员人声的声纹特征进行匹配验证；

将匹配验证结果为是的各段人声，确定为与纹数据库中注册的指定解说员人声的声纹特征相匹配的各段人声。

举例而言，对于时长为10分钟的人声，可以以1秒钟作为分割时长，将10分钟的人声分割为600段人声，然后从600段1秒钟的人声中，筛选与声纹数据库中注册的指定解说员人声的声纹特征相匹配的各段人声。

需要说明的是，上述以1秒钟作为分割时长仅仅作为举例，并不具有任何限定意义；实际应用中，可以根据实际需要设置合适的分割时长。

S205，将所述各段人声进行合并，得到解说员的解说声音；

通过将与声纹数据库中注册的指定解说员人声的声纹特征相匹配的各段人声进行合并，便可以得到解说员的解说声音。

为了方案清楚，图8给出了解说员的解说声音的分离原理图，参见图8，本发明实施例采用人声提取模型从待分离声音中提取人声，再通过声纹模型便可以从人声中提取解说员的解说声音。

还以上述时长为10分钟的人声为例，如果从600段1秒钟的人声中，筛选匹配得到20段1秒钟的人声，则按照各段1秒钟人声发生的时间顺序，将该20段1秒钟的人声进行合并，便可以得到解说员的解说声音。

S206，从所述解说视频的待分离声音中，去除所述解说员的解说声音，得到被解说内容的原始声音。

通过去除解说视频的待分离声音中解说员的解说声音，便能够得到被解说内容的原始声音。

本发明实施例所提供技术方案中，将解说视频的待分离声音输入预先训练好的人声提取模型中得到人声；按照预设分割时长，将所述人声分割为多段人声；从多段人声中，筛选与声纹数据库中注册的指定解说员人声的声纹特征相匹配的各段人声；将所述各段人声进行合并，得到解说员的解说声音；从所述解说视频的待分离声音中，去除所述解说员的解说声音，得到被解说内容的原始声音。这样，便能够将被解说内容的声音和解说员的解说人声精准分离，可以为用户分离调节两类声音提供实现基础，从而进一步达到满足用户针对解说视频的不同类型的声音关注需求的目的。

如图3所示，本发明实施例还提供一种音量调节方法，应用于客户端，可以执行如下步骤：

S301，在解说视频的播放过程中，接收用户针对所述解说视频的声音调节指令；

S302，当所述声音调节指令为第一类调节指令时，响应所述第一类调节指令，对所述解说视频的被解说内容的原始声音的音量进行调节；

S303，当所述声音调节指令为第二类调节指令时，响应所述第二类调节指令，对所述解说视频的解说员的解说声音的音量进行调节；

其中，所述解说视频的被解说内容的原始声音和解说员的解说声音按照上述解说视频中声音的分离方法分离得到。

可以理解的是，第一类调节指令的指令类型具体可以分为音量提升指令和音量降低指令；类似的，第二类调节指令的指令类型具体可以分为音量提升指令和音量降低指令。

可选地，在一种实现方式中，所述解说视频的播放界面中可以设置有第一类图标和第二类图标；其中，所述第一类图标为关于所述被解说内容的原始声音的声音调节图标，所述第二类图标为关于所述解说员的解说声音的声音调节图标；所述第一类调节指令为用户通过操作所述第一图标所发出的声音调节指令；所述第二类调节指令为用户通过操作所述第二类图标所发出的声音调节指令。在解说视频的播放过程中，当用户通过操作所述第一图标发出第一类调节指令时，响应所述第一类调节指令，对所述解说视频的被解说内容的原始声音的音量进行调节，即调大或调小被解说内容的原始声音。当用户通过操作所述第二图标发出第二类调节指令时，响应所述第二类调节指令，对所述解说视频的解说员的解说声音的音量进行调节，即调大或调小解说员的解说声音。

可以理解的是，还可以通过设定不同的控制手势，发出不同的声音调节指令。当用户操作产生预定控制手势时，发出上述第一类调节指令，对所述解说视频的被解说内容的原始声音进行调节；或者发出上述第二类调节指令，对所述解说视频的解说员的解说声音进行调节。例如，当用户设置鼠标在长按的情况下，移动形成“丿”字形手势时，发出上述第一类调节指令；设置鼠标在长按的情况下，移动形成“L”字形手势时，发出上述第二类调节指令。当然，控制手势并不限于“丿”字形或“L”字形，可根据用户习惯设定各种不同的控制手势。

另外，对于触屏设备而言，还可以通过设定不同的触摸手势，发出第一类调节指令和第二类调节指令。例如：单指滑动，发出第一类调节指令，而双指滑动，发出第二类调节指令。

本发明实施例提供的音量调节方法，在解说视频的播放过程中，当接收到用户针对解说视频的第一类调节指令时，响应第一类调节指令，对解说视频的被解说内容的原始声音的音量进行调节；当接收到用户针对解说视频的第二类调节指令时，响应第二类调节指令，对解说视频的解说员的解说声音的音量进行调节。可见，基于两类调节指令，能够分别调节解说视频中的两类声音的音量，因此，可以满足用户针对解说视频的不同类型声音的关注需求。

如图4所示，相应于上述方法实施例，本发明实施例还提供了一种解说视频中声音的分离装置，所述装置包括：

获取模块401，用于获取解说视频的音频，作为待分离声音；

提取模块402，用于将所述待分离声音输入预先训练的人声提取模型中，得到所述待分离声音中的人声；其中，所述人声提取模型是根据各样本声音，以及各样本声音中的纯人声训练得到的；所述样本声音是纯人声加噪处理后得到的声音；

分离模块403，用于基于所述人声，从所述解说视频的待分离声音中，分离被解说内容的原始声音和解说员的解说声音。

将所述各段人声进行合并，得到解说员的解说声音；

如图5所示，相应于上述方法实施例，本发明实施例还提供了一种音量调节装置，应用于客户端，所述装置包括：

调节指令接收模块501，用于在解说视频的播放过程中，接收用户针对所述解说视频的声音调节指令；

原始声音调节模块502，用于当所述声音调节指令为第一类调节指令时，响应所述第一类调节指令，对所述解说视频的被解说内容的原始声音的音量进行调节；

解说声音调节模块503，用于当所述声音调节指令为第二类调节指令时，响应所述第二类调节指令，对所述解说视频的解说员的解说声音的音量进行调节；其中，所述解说视频的被解说内容的原始声音和解说员的解说声音按照上述实施例中任一所述的解说视频中声音的分离方法分离得到。

所述第一类调节指令为用户通过操作所述第一图标所发出的；

所述第二类调节指令为用户通过操作所述第二类图标所发出的。

如图6所示，在本发明提供的又一实施例中，还提供了一种电子设备，所述电子设备包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信；

存储器603，用于存放计算机程序；

处理器601，用于执行存储器上所存放的程序时，实现上述实施例中任一所述的解说视频中声音的分离方法步骤。

如图7所示，在本发明提供的又一实施例中，还提供了一种电子设备，所述电子设备包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信；

存储器703，用于存放计算机程序；

处理器701，用于执行存储器上所存放的程序时，实现上述实施例中任一所述的音量调节方法步骤。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的解说视频中声音的分离方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的解说视频中声音的分离方法。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的音量调节方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的音量调节方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种解说视频中声音的分离方法，其特征在于，所述方法包括：

获取解说视频的音频，作为待分离声音；

2.根据权利要求1所述的方法，其特征在于，所述人声提取模型包括串联相接的卷积神经网络CNN和长短时记忆网络LSTM；所述卷积神经网络CNN利用输入的所述待分离声音的频谱特征，得到至少两段人声的频谱特征；所述长短时记忆网络LSTM用于将所述卷积神经网络CNN得到的至少两段人声的频谱特征进行连接，得到所述待分离声音中的人声的频谱特征。

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述人声，从所述解说视频的待分离声音中，分离被解说内容的原始声音和解说员的解说声音的步骤，包括：

按照预设分割时长，将所述人声分割为多段人声；

将所述各段人声进行合并，得到解说员的解说声音；

4.根据权利要求1所述的方法，其特征在于，所述从多段人声中，筛选与声纹数据库注册的指定解说员人声的声纹特征相匹配的各段人声的步骤，包括：

5.一种音量调节方法，其特征在于，应用于客户端，所述方法包括：

当所述声音调节指令为第二类调节指令时，响应所述第二类调节指令，对所述解说视频的解说员的解说声音的音量进行调节；其中，所述解说视频的被解说内容的原始声音和解说员的解说声音按照权利要求1-4任一项所述的方法分离得到。

6.一种解说视频中声音的分离装置，其特征在于，所述装置包括：

获取模块，用于获取解说视频的音频，作为待分离声音；

7.根据权利要求6所述的装置，其特征在于，所述人声提取模型包括串联相接的卷积神经网络CNN和长短时记忆网络LSTM；所述卷积神经网络CNN利用输入的所述待分离声音的频谱特征，得到至少两段人声的频谱特征；所述长短时记忆网络LSTM用于将所述卷积神经网络CNN得到的至少两段人声的频谱特征进行连接，得到所述待分离声音中的人声的频谱特征。

8.根据权利要求6或7所述的装置，其特征在于，所述分离模块，具体用于按照预设分割时长，将所述人声分割为多段人声；

将所述各段人声进行合并，得到解说员的解说声音；

9.根据权利要求6所述的装置，其特征在于，所述分离模块，具体用于通过声纹模型，从多段人声中，筛选与声纹数据库中注册的指定解说员人声的声纹特征相匹配的各段人声；其中，所述声纹模型是通过数据集中的训练语音训练得到的、用于识别语音所属人员的模型；该数据集包括针对多个人员的训练语音，每个人员的训练语音包括多段不同的训练语音。

10.一种音量调节装置，其特征在于，应用于客户端，所述装置包括：

解说声音调节模块，用于当所述声音调节指令为第二类调节指令时，响应所述第二类调节指令，对所述解说视频的解说员的解说声音的音量进行调节；其中，所述解说视频的被解说内容的原始声音和解说员的解说声音按照权利要求1-4任一项所述的方法分离得到。

11.一种电子设备，其特征在于，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1至4任一所述的方法步骤。

12.一种电子设备，其特征在于，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求5所述的方法步骤。