CN112201262B

CN112201262B - 一种声音处理方法及装置

Info

Publication number: CN112201262B
Application number: CN202011059464.1A
Authority: CN
Inventors: 戴嘉男; 陈彦宇; 李春光
Original assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Current assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2024-05-31
Anticipated expiration: 2040-09-30
Also published as: CN112201262A

Abstract

本发明提供了一种声音处理方法及装置，解决了目前市面上非专业声音处理设备功能简单、处理效果单一，且处理时间过长的问题。所述声音处理方法包括：采集初始声音信号，将所述初始声音信号分离出进行声音处理的部分；将所述声音处理的部分输入深度学习模型，对所述声音处理的部分卷积混响函数得到美化后的声音信号；将所述美化后的声音信号转换成音频并输出。

Description

一种声音处理方法及装置

技术领域

本发明涉及音频处理技术领域，具体涉及一种声音处理方法及装置。

背景技术

随着娱乐行业的快速发展和普及，许多娱乐方式已经成为大众触手可及的休闲活动，例如手机KTV，网络直播，视频记录生活的行为等等。同时伴随着自媒体的成熟，大众对这类娱乐方式的质量要求也越来越高，例如在手机上录制歌曲，直播，拍摄短视频的同时对声音的质量有着高要求。这个要求不仅包括一定的语音增强、噪声抑制的效果，还需要适度添加混响对声音进行美化。因此，语音信号处理的过程就变得尤为重要。语音信号处理是指对原始语音进行处理，消除部分噪声和他人说话带来的影响，语音信号处理中的语音增强的主要任务就是消除环境噪声对语音的影响，混响添加是麦克风、声卡等声音处理设备对声音进行美化的常用方法。

市面上专业的麦克风、声卡等设备操作复杂，上手难度大。定制化的声音处理设备可以根据客户需求制定一套处理方案，但价格过高，不适用于大多数的用户。简单的声音处理设备虽然价格亲民，但功能和处理效果单一，一般只能提供几种固定的混响程度，不适用于多种音色和场合，还同时存在处理后的声音相似度大，丢失个人特色的问题，这主要是由于没有像专业设备一样，考虑到不同音色需要的处理方法应该有所变化的原因。语音增强则包含了多种不同的算法，包括回声消除，声源定位，噪声消除等，每个算法对于不同的场景要做不同的处理，再将各个算法组合，算法难度大，处理时间长。

发明内容

有鉴于此，本发明实施例提供了一种声音处理方法及装置，解决了目前市面上非专业声音处理设备功能简单、处理效果单一，且处理时间过长的问题。

本发明一实施例提供的一种声音处理方法及装置包括：采集初始声音信号，将所述初始声音信号分离出进行声音处理的部分；将所述声音处理的部分输入深度学习模型，对所述声音处理的部分卷积混响函数得到美化后的声音信号；将所述美化后的声音信号转换成音频并输出。

在一种实施方式中，所述混响函数由所述初始声音信号决定。

在一种实施方式中，在采集初始声音信号，将所述初始声音信号分离出进行声音处理的部分之前，还包括获得深度学习的模型，包括：建立深度学习数据；基于所述深度学习数据对所述深度学习模型进行训练。

在一种实施方式中，准备深度学习数据包括：采集纯净目标语音；基于所述纯净目标语言得到混响目标语音，且基于所述混响目标语音得到噪声目标语音。

在一种实施方式中，基于所述纯净目标语音得到混响目标语音，且基于所述混响目标语音得到噪声目标语音的公式包括：y(m)＝sd*h(m)+n(m)，其中，sd为目标语音，*为卷积操作，h(m)为房间冲击函数，n(m)为加性噪声。

在一种实施方式中，基于所述深度学习数据对所述深度学习模型进行训练，包括：对所述深度学习数据提取特征向量得到深度学习的输入数据；区分所述输入数据中的目标语音和非目标语音；对所述目标语音和所述非目标语音进行端到端的训练。

在一种实施方式中，对所述深度学习数据提取特征向量得到深度学习的输入数据包括：对所述深度学习数据采用梅尔倒谱系数算法或线性预测分析中的一种提取特征向量。

在一种实施方式中，区分所述输入数据中的目标语音，包括：使用softmax激活函数和对数似然损失函数区分所述输入数据中的目标语音和非目标语音。

在一种实施方式中，对所述目标语音进行端到端的训练包括：以Mapping-basedtarget训练对所述目标语音和所述非目标语音进行端到端的训练。

在一种实施方式中，对所述目标语音进行端到端的训练的公式包括：

其中为目标语音，/>为非目标语音，Y(t)是真实的声音信号，*为卷积操作，h^(m)′为房间冲击函数，/>为异或运算符号。

一种声音处理装置，包括：声音采集设备，作用为采集初始声音信号；语音信号处理模块，作用为将所述初始声音信号分离出进行声音处理的部分，将所述声音处理的部分输入深度学习模型，对所述声音处理的部分卷积混响函数得到美化后的声音信号；输出模块，作用为将所述美化后的声音信号转换成音频并输出。

在一种实施方式中，所述语音信号处理模块的作用还包括：建立深度学习数据；基于所述深度学习数据对所述深度学习模型进行训练。

一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用以实现如权利要求任一所述的声音处理方法。

一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现如权利要求任一所述的声音处理方法。

本发明实施例提供的一种声音处理方法及装置，所述声音处理方法包括：采集初始声音信号，将所述初始声音信号分离出进行声音处理的部分；将所述声音处理的部分输入深度学习模型，对所述声音处理的部分卷积混响函数得到美化后的声音信号；将所述美化后的声音信号转换成音频并输出。通过对初始声音信号过滤出噪声得到声音处理部分，然后居于深度学习模型对声音处理部分卷积混响函数得到美化后的声音信号，具有增强声音处理部分的作用，使输出的音频中的噪声小、用户声音清晰且好听，采用此声音处理方法操作简单、功能性强，处理效果多种多样，且成本低，能够满足不同用户的需求。

附图说明

图1所示为本发明一实施例提供的一种声音处理方法的流程图。

图2所示为本发明一实施例提供的一种深度学习模型训练的流程图。

图3所示为本发明一实施例提供的一种声音处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明一实施例中，如图1所示，该声音处理方法，包括：

步骤01:采集初始声音信号，将初始声音信号分离出进行声音处理的部分。初始声音信号可以是用户自行录制的一段声音，例如：可以是用户在室外的场景下使用非专业设备进行录制的声音，该声音的音频会有风声，或者街道上车辆行驶的噪声等，且包括用户自行录制的人声语音，将初始声音信号中用户自行录制的人声语音分离出来作为声音处理的部分。

步骤02:将声音处理的部分输入深度学习模型，对声音处理的部分卷积混响函数得到美化后的声音信号。将步骤01中声音处理的部分作为深度学习的输入，将声音处理的部分输入深度学习的模型，对声音处理的部分卷积混响函数，从而得到美化后的声音信号。其中，混响函数由初始声音信号决定，由于不同的用户的音色不同，所以分离出的声音处理的部分是不同的，深度学习模型会根据用户的音色添加不同的混响函数，从而做出不同声音美化处理。例如：用户在室外的场景下使用非专业设备进行录制的声音，该声音的音频会有风声，或者街道上车辆行驶的噪声等，且包括用户自行录制的人声语音，将初始声音信号中用户自行录制的人声语音分离出来作为声音处理的部分，并根据声音处理部分中的用户的音色(可以是尖锐的、低沉的、清亮的和沙哑的等)做出不同的声音美化处理效果，进而得到美化后的声音信号。

步骤03:将美化后的声音信号转换成音频并输出。美化后的声音信号转换成的音频，具有增强声音处理部分的作用，使输出的音频中的噪声小、用户声音清晰且好听。采用此声音处理方法操作简单、功能性强，处理效果多种多样，能够满足不同用户的需求。

本发明实施例所述声音处理方法通过对初始声音信号过滤出噪声得到声音处理部分，然后居于深度学习模型对声音处理部分卷积混响函数得到美化后的声音信号，具有增强声音处理部分的作用，使输出的音频中的噪声小、用户声音清晰且好听，采用此声音处理方法操作简单、功能性强，处理效果多种多样，且成本低，能够满足不同用户的需求。

本发明一实施例中，如图2所示，在采集初始声音信号，将初始声音信号分离出进行声音处理的部分之前，还包括获得深度学习的模型，具体步骤参考如下：

步骤04:建立深度学习数据。深度学习数据包括准备用于深度学习所需要的数据。建立该深度学习数据首先需要采集纯净目标语音，纯净目标语音包括在安静的环境下进行的声音录制，例如：可以是无音乐的唱歌的声音、单人聊天的声音或者室外单人说话声音等等。基于纯净目标语音得到混响目标语音，且基于混响目标语音得到噪声目标语音。基于纯净目标语音得到混响目标语音包括给纯净目标语音卷积上适合的房间冲击函数以达到声音美化的目的，不同的纯净目标语音美化时选择不同的房间冲击函数，对房间冲击函数的选择需要考虑噪声环境和使用场景，其选择的标准包括当纯净目标语音卷积上被选择的房间冲激函数，可以达到当前噪声环境下的用户需求，例如：室内唱歌时需要声音混响足够，室外录音时需要声音清晰等。基于混响目标语音得到噪声目标语音包括：随机选用多种环境噪声与卷积房间冲击函数后的纯净目标语音音频数据混合模拟制作成在噪声环境下的声音录制场景，混合后的音频数据为噪声目标语音。将不同环境下的噪声目标语音进行分类，将噪声目标语音数据以一定的比例随机分配给训练集和测试集，比例可以为7:3或8:2等等，本发明对比例的分配不做限定。基于纯净目标语音得到混响目标语音，且基于混响目标语音得到噪声目标语音的公式包括：

y(m)＝sd*h(m)+n(m)；

其中，sd为目标语音，*为卷积操作，h(m)为房间冲击函数，n(m)为加性噪声。

深度学习数据是深度学习的原料，面对不同的场景和需求，所需要的数据也是不同的，合适的数据对于深度学习结果的影响是十分重要的。

步骤05:基于深度学习数据对深度学习模型进行训练，可选地，基于深度学习数据对深度学习模型进行训练包括：对深度学习数据提取特征向量得到深度学习的输入数据；区分所述输入数据中的目标语音和非目标语音；对所述目标语音和非目标语音进行端到端的训练。对深度学习数据采用梅尔倒谱系数算法或线性预测分析中的一种进行提取特征向量。可以使用softmax激活函数和对数似然损失函数区分输入数据中的目标语音和非目标语音。Softmax包括对于神经网络中隐藏层输出的一个转换公式，对数似然损失函数包括后续梯度下降或批梯度下降迭代参数时的判断标准。以Mapping-based targets训练对目标语音进行端到端的训练，对目标语音进行端到端的训练的公式包括：

现有的数据处理系统或者学习系统，需要多个阶段进行处理。那么端到端深度学习就是忽略所有这些不同的阶段，用单个神经网络代替它。以语音识别为例，目标是输入x，比如说一段音频，然后把它映射到一个输出y，就是这段音频的听写抄本，所以和现有的很多阶段的流水线相比，端到端深度学习做的是，训练一个巨大的神经网络，输入就是一段音频，输出直接是听写文本。事实证明，当你拥有非常大的数据集时，比如10,000小时数据或者100,000小时数据，这样端到端方法功能就变得强大了，端到端的训练方式可以使整个训练流程变得更简单，将语音分离得到的结果直接作用于声音美化。真实的声音信号在声学领域的表达是目标声音，干扰声，噪声以及混响的和，其数学表达为纯净目标语音卷积上房间冲激函数再加上加性噪声，这是模拟出来的声音，也就是深度学习的输入，而目标语音是纯净的人声，非目标语音是真实的声音减去目标语音，深度学习的输出是加混响的目标语音，非目标语音是中间需要被分离出来的步骤。

通过本实施例中所述的建立深度学习模型的方法，与现有技术相比，不需要将多个算法进行组合，可以简化算法的复杂度，缩短声音处理的时间。

本发明一实施例中，该声音处理装置包括声音采集设备10、语音信号处理模块20和输出模块30。其中声音采集设备10作用为采集初始声音信号；语音信号处理模块20作用为将初始声音信号分离出进行声音处理的部分，将声音处理的部分输入深度学习模型，对声音处理的部分卷积混响函数得到美化后的声音信号；输出模块30作用为将美化后的声音信号转换成音频并输出。声音处理装置可以包括语音板，语音板上包括声音采集接口，该声音采集接口可以和声音采集设备10相连，声音采集设备10可以为麦克风，声音采集设备10采集到用户声音传到语音板上转换成初始声音信号，然后语音板将初始声音信号发送给语音信号处理模块20，语音信号处理模块20上集成有特征提取算法和深度学习模型，语音信号处理模块20接收到初始声音信号后，对初识声音信号进行体征提取算法分离出进行声音处理的部分，然后将声音处理的部分输入深度学习模型，进行声音美化处理。输出模块30作用为将美化后的声音信号通过信号转音频接口40转换成音频并输出。美化完成的声音信号通过接口输出到输出模块30，该输出模块30可以直接将语音信号转换成音频进行输出，也可以添加其他音频处理模块50进行更进一步的处理，然后通过扬声器60进行播放。

本发明一实施例中，如图3所示，语音信号处理模块20的作用还包括建立深度学习模型，可选地，建立深度学习模型的步骤可以包括：建立深度学习数据；基于深度学习数据对深度学习模型进行训练。建立深度学习数据包括：声音采集设备10采集到纯净的目标语音后发送给语音信号处理模块20，语音信号处理模块20对纯净目标语言卷积房间冲击函数得到混响目标语音，然后语音信号处理模块20对混响目标语音添加加性噪声得到噪声目标语音，具体公式包括y(m)＝sd*h(m)+n(m)，其中，sd为目标语音，*为卷积操作，h(m)为房间冲击函数，n(m)为加性噪声。基于深度学习数据对深度学习模型进行训练包括：语音信号处理对深度学习数据提取特征向量得到深度学习的输入数据，可以采用梅尔倒谱系数算法或线性预测分析中的一种提取特征向量；语音信号处理模块20上集成的深度学习模型区分输入数据中的目标语音，可以使用softmax的激活函数和对数似然损失函数区分所述输入数据中的目标语音；语音信号处理模块20上集成的深度学习模型对目标语音进行端到端的训练，可以采用Mapping-based targets训练对目标语音进行端到端的训练，公式包括：

采用本发明中的声音处理装置对声音进行处理，可以在不使用专业设备的前提下根据客户的需求进行声音处理，功能多样，处理效果丰富，消除噪音且设备成本低，从而满足不同用户的需求。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序校验码的介质。

本实施例中一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述实施例中的声音处理方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换等，均应包含在本发明的保护范围之内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种声音处理方法，其特征在于，包括：

步骤一：采集非专业设备获取的初始声音信号，将所述初始声音信号分离出进行声音处理的部分，其中，进行声音处理的部分为将所述初始声音信号中用户自行录制的人声语音分离出来作为声音处理的部分；

步骤二：将所述声音处理的部分输入深度学习模型，对所述声音处理的部分卷积混响函数得到美化后的声音信号，其中深度学习模型会根据不同用户的音色添加不同的混响函数，以做出不同声音美化处理，其中，所述深度学习模型的建立过程如下：(1)建立深度学习数据，其包括：a.采集纯净目标语音，其中所述纯净目标语音为在安静的环境下进行的声音录制，所述纯净目标语音包括无音乐的唱歌的声音、单人聊天的声音和室外单人说话声音；b.给纯净目标语音卷积上房间冲击函数得到混响目标语音，其中，不同的纯净目标语音卷积时选择不同的房间冲击函数，c.随机选用多种环境噪声和所述混响目标语音进行混合模拟制作得到噪声目标语音，其中，将不同环境下的噪声目标语音进行分类，将噪声目标语音数据以预设比例随机分配给训练集和测试集，基于混响目标语音得到噪声目标语音的公式包括：

y^(m)＝s_d*h^(m)+n^(m)；

其中，s_d为目标语音，*为卷积操作，h^(m)为房间冲击函数，n^(m)为加性噪声；

(2)基于训练集和测试集的所述深度学习数据对所述深度学习模型进行训练得到所述深度学习模型，其包括：a.对训练集和测试集的深度学习数据提取特征向量得到深度学习的输入数据；b.区分所述输入数据中的目标语音和非目标语音；对所述目标语音和非目标语音进行端到端的训练，其中，以Mapping-based targets训练对目标语音进行端到端的训练，对目标语音进行端到端的训练的公式包括：

其中为目标语音，/>为非目标语音，Y(t)是真实的声音信号，*为卷积操作，h^(m)′为房间冲击函数，/>为异或运算符号；

步骤三：将所述美化后的声音信号转换成音频并输出。

2.根据权利要求1所述的声音处理方法，其特征在于，所述混响函数由所述初始声音信号决定。

3.根据权利要求1所述的声音处理方法，其特征在于，对所述深度学习数据采用梅尔倒谱系数算法或线性预测分析中的一种提取特征向量。

4.根据权利要求1所述的声音处理方法，其特征在于，区分所述输入数据中的目标语音和非目标语音，包括：使用softmax激活函数和对数似然损失函数区分所述输入数据中的目标语音。

5.一种声音处理装置，其特征在于，用于实现如权利要求1所述的声音处理方法，所述声音处理装置包括：

声音采集设备，作用为采集初始声音信号；

语音信号处理模块，作用为将所述初始声音信号分离出进行声音处理的部分，将所述声音处理的部分输入深度学习模型，对所述声音处理的部分卷积混响函数得到美化后的声音信号；

输出模块，作用为将所述美化后的声音信号转换成音频并输出。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用以实现如权利要求1-4任一所述的声音处理方法。

7.一种电子设备，其特征在于，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现如权利要求1-4任一所述的声音处理方法。