CN109801643B

CN109801643B - 混响抑制的处理方法和装置

Info

Publication number: CN109801643B
Application number: CN201910090031.3A
Authority: CN
Inventors: 张峰; 沙露露; 聂镭
Original assignee: Longma Zhixin Zhuhai Hengqin Technology Co ltd
Current assignee: Longma Zhixin Zhuhai Hengqin Technology Co ltd
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2020-12-04
Anticipated expiration: 2039-01-30
Also published as: CN109801643A

Abstract

本申请公开了一种混响抑制的处理方法和装置。该方法包括：获取待处理的声音数据，其中，所述待处理的声音数据为包含混响的第一声音数据；依据相似度矩阵对所述第一声音数据进行处理，得到初步混响抑制的第二声音数据，其中，所述相似度矩阵为预先训练得到；依据Wavenet网络模型对所述第二声音数据进行处理，其中，所述Wavenet网络模型为预先训练得到；从所述Wavenet网络模型中获取输出的第三声音数据。通过本申请，解决了相关技术中混响抑制算法的准确性较低、应用场景局限的问题。

Description

混响抑制的处理方法和装置

技术领域

本申请涉及混响处理领域，具体而言，涉及一种混响抑制的处理方法和装置。

背景技术

声波在室内传播时，要被墙壁、天花板、地板等障碍物反射，每反射一次都要被障碍物吸收一些。这样，当声源停止发声后，声波在室内要经过多次反射和吸收，最后才消失，我们就感觉到声源停止发声后还有若干个声波混合持续一段时间（室内声源停止发声后仍然存在的声延续现象），这种现象叫做混响。

在相对封闭的室内空间,当在麦克风与音源的距离较远的场合,如使用免提电话、助听器、电话会议,或者在录制声音时,混响的存在使声音混淆不清、难于分辩,导致音质下降,就需要对混响进行消除/抑制。混响降低了语音清晰度，也给语音识别带来了很大的难度。

现有技术中主要采用传统方法对混响进行抑制，按照所用技术可以分为以下三种：基于波束形成、基于逆滤波、基于语音增强的混响抑制方法。其中，波束形成的混响抑制方法易实现，但不能应用于变化的声学环境；基于逆滤波技术的混响抑制方法目前来说还难以实现；基于语音增强的混响抑制方法，是单麦克风常用的方法，但其不能精确的提取出纯净语音。

针对上述相关技术中混响抑制算法的准确性较低、应用场景局限的问题，目前尚未提出有效的解决方案。

发明内容

本申请提供一种混响抑制的处理方法和装置，以解决相关技术中混响抑制算法的准确性较低、应用场景局限的问题。

根据本申请的一个方面，提供了一种混响抑制的处理方法。该方法包括：获取待处理的声音数据，其中，所述待处理的声音数据为包含混响的第一声音数据；依据相似度矩阵对所述第一声音数据进行处理，得到初步混响抑制的第二声音数据，其中，所述相似度矩阵为预先训练得到；依据Wavenet网络模型对所述第二声音数据进行处理，其中，所述Wavenet网络模型为预先训练得到；从所述Wavenet网络模型中获取输出的第三声音数据。

可选的，依据相似度矩阵对所述第一声音数据进行处理，得到初步混响抑制的第二声音数据包括：根据所述相似度矩阵对所述第一声音数据进行加权处理，得到第一声音数据中混响分量的声音数据；将所述第一声音数据减去所述混响分量的声音数据，得到所述初步混响抑制的第二声音数据。

可选的，在依据相似度矩阵对所述第一声音数据进行处理之前，所述方法还包括：获取多组训练数据，其中，每组训练数据均为成对的声音数据，所述每组训练数据包括：包含混响的声音数据，以及与之对应的不含有混响的声音数据；使用滑窗法计算每对滑窗中所述包含混响的声音数据与所述不含有混响的声音数据之间的相似度，以确定所述相似度矩阵。

可选的，在依据Wavenet网络模型对所述第二声音数据进行处理之前，所述方法还包括：获取多组训练数据，其中，每组训练数据均为成对的声音数据，所述每组训练数据包括：包含混响的声音数据，以及与之对应的不含有混响的声音数据；使用上述多组训练数据进行对所述Wavenet网络模型进行学习训练，以确定所述Wavenet网络模型中的参数数据。

可选的，多组训练数据至少包括以下任意之一的特征：每组所述训练数据中的声音数据的采样率为16KHz；所述多组训练数据中的每段声音数据的平均时长为10s，且每段声音数据的时长标准差为1s；所述多组训练数据中声音数据的总时长为20h。

可选的，使用上述多组训练数据进行对所述Wavenet网络模型进行学习训练包括：依据上述多组训练数据进行对所述Wavenet网络模型使用随机梯度下降法进行学习训练。

可选的，在从所述Wavenet网络模型中获取输出的第三声音数据之后，所述方法还包括：对所述Wavenet网络模型中获取输出的所述第三声音数据进行平滑处理。

根据本申请的另一方面，提供了一种混响抑制的处理装置。该装置包括：第一获取单元，用于获取待处理的声音数据，其中，所述待处理的声音数据为包含混响的第一声音数据；第一处理单元，用于依据相似度矩阵对所述第一声音数据进行处理，得到初步混响抑制的第二声音数据，其中，所述相似度矩阵为预先训练得到；第二处理单元，用于依据Wavenet网络模型对所述第二声音数据进行处理，其中，所述Wavenet网络模型为预先训练得到；输出单元，用于从所述Wavenet网络模型中获取输出的第三声音数据。

根据本申请的另一方面，提供了一种存储介质，所述存储介质包括存储的程序，其中，所述程序执行上述任意一项所述的混响抑制的处理方法。

根据本申请的另一方面，提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述任意一项所述的混响抑制的处理方法。

通过本申请，采用以下步骤：获取待处理的声音数据，其中，所述待处理的声音数据为包含混响的第一声音数据；依据相似度矩阵对所述第一声音数据进行处理，得到初步混响抑制的第二声音数据，其中，所述相似度矩阵为预先训练得到；依据Wavenet网络模型对所述第二声音数据进行处理，其中，所述Wavenet网络模型为预先训练得到；从所述Wavenet网络模型中获取输出的第三声音数据，解决了相关技术中混响抑制算法的准确性较低、应用场景局限的问题。

也即，通过利用相似度矩阵进行混响抑制后的声音数据，通过Wavenet网络模型能够提高输出声音数据的准确性和可懂性。特别地，本申请不直接将含有混响的声音数据直接输入到Wavenet网络模型进行处理，是因为采用这种方法在进行网络模型训练时，网络模型的处理能力高度依赖于训练过程中所输入的含有混响的声音数据的种类，而采用本申请中的两步法进行混响抑制，则很大程度上避免了这种依赖情况的发生，解决了应用场景局限的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例提供的混响抑制的处理方法的流程图；

图2是根据本申请实施例提供的一种可选的相似度计算示意图；

图3是根据本申请实施例提供的一种可选的相似度计算示意图；

图4是根据本申请实施例提供的一种可选的Wavenet网络模型结构的示意图；

图5是根据本申请实施例提供的一种可选的Wavenet网络模型混响抑制的示意图（第1个点）；

图6是根据本申请实施例提供的一种可选的Wavenet网络模型混响抑制的示意图（第2个点）；

图7是根据本申请实施例提供的一种可选的Wavenet网络模型混响抑制的示意图（最后一个点）；

图8是根据本申请实施例提供的一种可选的平滑处理和补零处理的示意图；以及

图9是根据本申请实施例提供的混响抑制的处理装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”、“具有”和“含有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，当语音信号在房间内传播时，由于房间墙壁、室内物体的反射、吸收，声音通过多路径传输到达传声器时，接收到的声信号在时间序列可分为三部分：1.直达声（Direct sound）：从声源不经过任何的反射而以直线的形式直接传播到接受者的声音；2.早期反射声（Early reflected sounds）：在直达声以后到达的对音质起到有利作用的所有反射声，一般为经过一次、两次的反射，能量较大、时延较短的反射声；3.混响声（Reverberation）：经过多次反射以后到达的数目众多、能量较小、密集的反射声群。因为早期反射声有加强直达声和提高清晰度的作用，在本申请中，早期反射声被视作为直达声的一部分，因此，本申请中，对于一段含有混响的音频，应视为只包含直达声和混响声；而对于一段不含有混响的音频，其只包含直达声。

根据本申请的实施例，提供了一种混响抑制的处理方法。

图2是根据本申请实施例的混响抑制的处理方法的流程图。如图2所示，该方法包括以下步骤：

步骤S102，获取待处理的声音数据，其中，所述待处理的声音数据为包含混响的第一声音数据；

需要说明的是，待处理的声音数据可以是任何需要进行混响抑制的音频经过采样得到。特别地，本申请中所涉及的“声音数据”都是对原始的音频经过采样后得到。采样频率可以是8KHz、16KHz或48KHz，在本申请实施例中采用16KHz的采样率。上述音频数据可以是网上下载的，也可以是自行录制的音频。音频时间长度没有限制，如音频可以是1h的音频，也可以10min的音频，也可以是20s的音频。

步骤S104，依据相似度矩阵对所述第一声音数据进行处理，得到初步混响抑制的第二声音数据，其中，所述相似度矩阵为预先训练得到；

需要说明的是，相似度矩阵是特定环境下的用于评估音频中混响分量大小的矩阵，不同的环境下的相似度矩阵不同，例如，会议室中用于评估音频中混响分量大小的相似度矩阵不同于音乐厅中用于评估音频中混响分量大小的相似度矩阵。并且相似度矩阵需要预先进行训练得到。在训练完成后，在完全相同的环境下，可以使用训练得到的相似度矩阵对此环境中获得的音频中的混响分量大小进行评估，以得到音频中的混响分量大小。

步骤S106，依据Wavenet网络模型对所述第二声音数据进行处理，其中，所述Wavenet网络模型为预先训练得到；

步骤S108，从所述Wavenet网络模型中获取输出的第三声音数据。

本申请实施例提供的混响抑制的处理方法，通过获取待处理的声音数据，其中，所述待处理的声音数据为包含混响的第一声音数据；依据相似度矩阵对所述第一声音数据进行处理，得到初步混响抑制的第二声音数据，其中，所述相似度矩阵为预先训练得到；依据Wavenet网络模型对所述第二声音数据进行处理，其中，所述Wavenet网络模型为预先训练得到；从所述Wavenet网络模型中获取输出的第三声音数据，解决了相关技术中混响抑制算法的准确性较低、应用场景局限的问题。

也即，通过利用相似度矩阵进行混响抑制后的声音数据，通过Wavenet网络模型能够提高输出声音数据的准确性/可懂性。特别地，本申请不直接将含有混响的声音数据直接输入到Wavenet网络模型进行处理，是因为采用这种方法在进行网络模型训练时，网络模型的处理能力高度依赖于训练过程中所输入的含有混响的声音数据的种类，而采用本申请中的两步法进行混响抑制，则很大程度上避免了这种依赖情况的发生，解决了应用场景局限的技术问题。

可选地，在本申请实施例提供的混响抑制的处理方法中，依据相似度矩阵对所述第一声音数据进行处理，得到初步混响抑制的第二声音数据包括：根据所述相似度矩阵对所述第一声音数据进行加权处理，得到第一声音数据中混响分量的声音数据；将所述第一声音数据减去所述混响分量的声音数据，得到所述初步混响抑制的第二声音数据。

例如，经过采样处理后获取的待处理的声音数据为s_raw（1*16），预先训练得到的相似度矩阵为w（16*16），则根据所述相似度矩阵w（16*16）对所述第一声音数据s_raw（1*16）进行加权处理，得到第一声音数据中混响分量的声音数据s_raw.*w；将所述第一声音数据减去所述混响分量的声音数据，得到所述初步混响抑制的第二声音数据，即s = s_raw -s_raw.*w，其中“.*”代表矩阵的点乘操作。

可选地，在本申请实施例提供的混响抑制的处理方法中，在依据相似度矩阵对所述第一声音数据进行处理之前，所述方法还包括：获取多组训练数据，其中，每组训练数据均为成对的声音数据，所述每组训练数据包括：包含混响的声音数据，以及与之对应的不含有混响的声音数据；使用滑窗法计算每对滑窗中所述包含混响的声音数据与所述不含有混响的声音数据之间的相似度，以确定所述相似度矩阵。

也即，相似度矩阵的训练方法具体如下：

首先，获取多组训练数据，其中，每组训练数据均为成对的声音数据，所述每组训练数据包括：包含混响的声音数据，以及与之对应的不含有混响的声音数据；

需要说明的是，成对的声音数据是指对于同一个发声源的发出的声音，分别录制包含混响的音频和不含有混响的音频。其中，包含混响的音频为包括直达声和混响两部分；而不含有混响的音频中只含有直达声，没有混响。声音数据的收集方法为现有技术，此处不再赘述。

获得训练数据之后，使用滑窗法计算每对滑窗中所述包含混响的声音数据与所述不含有混响的声音数据之间的相似度，以确定所述相似度矩阵，具体方法如下：

如图2、图3如示，图中为成对的一组声音数据，其中，灰色的为不含有混响的声音数据，白色的为含有混响的声音数据。每个声音数据包含16个采样点，滑窗长度设置为4（即方框中的采样点个数）。如图2所示，在无混响声音数据的当前处理位置（即当前的滑窗位置），即的第一个采样点作为滑窗的第一个点，无混响声音数据的当前处理位置保持不变，而其对应的含有混响的声音数据从初始窗开始，每滑一次滑窗向前移动一个采样点，直至第15次滑窗，完成无混响声音数据的当前处理位置的相似度计算，一共需要进行16次相似度值的计算，因此对于无混响声音数据的当前位置点的相似度矩阵是（1×16）维的。同理，如图3所示，完成无混响声音数据的第二个采样点作为滑窗的第一个点的滑窗的相似度计算时，混响声音数据的当前处理位置保护不变，而其对应的含有混响的声音数据从初始窗开始，每滑一次滑窗向前移动一个采样点，直至第15次滑窗，完成无混响声音数据的当前处理位置的相似度计算，其相似度矩阵同样是（1×16）维。以此类推，直到完成无混响声音数据的所有的采样点的相似度计算，在本实施中无混响声音数据的所有的采样点一共为16个，得到相似度矩阵，即将16个（1×16）维的矩阵叠加，得到（16×16）维的相似度矩阵。需要说明的是，当滑窗的采样点不足4个时，则进行补零处理，即将滑窗内没有采样剩余的部分用“0”来填补。

进一步地，相似度值的计算方法，具体地，不含有混响的声音数据的当前处理位置（即当前的滑窗位置）与含有混响的声音数据的每一次滑窗位置对应的声音数据之间的相似值，即每一对滑窗中所述包含混响的声音数据与所述不含有混响的声音数据之间的相似度，其计算公式为：

其中，X表示无混响声音数据的当前处理位置的声音数据，Y表示含混响声音数据的每一次滑窗位置的声音数据，Cov(X,Y)为X与Y的协方差，Var[X]为X的方差，Var[Y]为Y的方差，|r(X,Y)|越大，表示相关性越大。

可选地，在本申请实施例提供的混响抑制的处理方法中，在依据Wavenet网络模型对所述第二声音数据进行处理之前，所述方法还包括：获取多组训练数据，其中，每组训练数据均为成对的声音数据，所述每组训练数据包括：包含混响的声音数据，以及与之对应的不含有混响的声音数据；使用上述多组训练数据进行对所述Wavenet网络模型进行学习训练，以确定所述Wavenet网络模型中的参数数据。

如图4所示，其为本申请实施例提供一种可选的Wavenet网络模型结构的示意图，如图所示，本实施例中的Wavenet网络模型包含5层，包括1个输入层、1个输出层和3个中间层。dilation1、dilation2、dilation4、dilation8分别为各层之间的步长，如从输入层到第一中间层的步长为1，从第一中间层到第二中间层的步长为2，以此类推。也即，第n中间层到第n+1中间层的步长为2^n，此为Wavenet网络结构本身的特点，此不再赘述。图中连接各个圆点的每一根黑线代表一个需要训练的参数。

还需要说明的是，对上述Wavenet网络模型进行学习训练的多组训练数据可以通过以下步骤获取：按照现有技术的方法对进行声音录制包含混响的音频和不含有混响的音频：在一个无混响的环境录制不含有混响的音频，然后用同样的发声源在目标环境下录制包含混响的音频，通过此种方法就可以获取符合训练要求的成对的声音数据；对录制的音频进行采样，得到多个采样点的声音数据，其中，采样频率可以为8KHz、16KHz和48KHz，本申请实施例中优选采样率为16KHz。最后，得到平均时长为10s、时长标准差在1s内、声音数据集合总时长约为20小时的7000段声音数据，其中，该7000段声音数据即为多组训练数据。

也即，上述Wavenet网络模型进行学习训练的多组训练数据至少包括以下任意之一的特征：每组训练数据中的声音数据的采样率为16KHz；多组训练数据中的每段声音数据的平均时长为10s，且每段声音数据的时长标准差为1s；多组训练数据中声音数据的总时长为20h。

此外，在本申请实施例提供的混响抑制的处理方法中，还采用随机梯度下降法对Wavenet网络模型进行训练。也即，在本申请实施例提供的混响抑制的处理方法中，使用上述多组训练数据进行对Wavenet网络模型进行学习训练包括：依据上述多组训练数据进行对Wavenet网络模型使用随机梯度下降法进行学习训练。

其中，在Wavenet网络模型训练完毕后，保存该训练成功的Wavenet网络模型，以便后续执行步骤S106时，使用该训练成功的Wavenet网络模型对声音数据进行处理。

如图5、图6、图7所示，使用训练好的Wavenet网络模型对包含16个采样点的声音数据进行混响抑制为例，即包含混响的待处理声音数据有16个采样点。并且，此声音数据是经过了步骤S104处理后的声音数据，其作为Wavenet网络模型的输入。图5为第1个采样点的Wavenet网络模型抑制混响的示意图，图6为第2个采样点的Wavenet网络模型抑制混响的示意图，图7为最后一个点（第16个采样点）的Wavenet网络模型抑制混响的示意图。特别地，当Wavenet网络模型中部分网络没有声音数据输入时，则进行补零处理，如图图5和图6，Wavenet网络模型的当前处理点位于第1个采样点和第2个采样点时，只有深灰色的网络有声音数据（即第1个采样点和第2个采样点的声音数据）输入，其余部分网络（浅灰色）没有声音数据，此时，将没有声音数据的部分进行补零处理，即用“0”来填补。如图7，当整个网络都有数据的输入的时候，则无需进行补零处理。

最后，在从所述Wavenet网络模型中获取输出的第三声音数据之后，所述方法还包括：对所述Wavenet网络模型中获取输出的所述第三声音数据进行平滑处理。

也即，在Wavenet网络模型的输出端连接两个3*1的卷积，以对Wavenet网络模型输出的声音数据进行平滑处理，使在输出的声音数据更接近于人耳能够接受的声音数据。其中，平滑处理的方法有多种，而在本申请实施例提供的混响抑制的处理方法中，为了保证平滑后声音数据的连续性采用了平均平滑法。同时，为了保证平滑前后声音数据长度不发生改变，则对该声音数据进行补零处理，即如图8所示。

例如：对8个采样点的值进行平滑处理，8个采样点的值平滑前用x1 、x2……x8来表示，平滑后的值用y1、 y2……y8来表示，则y1=（0+x1+x2）/3，y2=（x1+x2+x3）/3，依次类推。

综上，本申请实施例提供的混响抑制的处理方法，达到了以下技术效果：

相对于现有技术中混响抑制主要使用传统方法，本申请发明通过利用相似度矩阵进行混响抑制后的声音数据，通过Wavenet网络模型能够提高输出声音数据的准确性和可懂性。特别地，本申请不直接将含有混响的声音数据直接输入到Wavenet网络模型进行处理，是因为采用这种方法在进行网络模型训练时，网络模型的处理能力高度依赖于训练过程中所输入的含有混响的声音数据的种类，而采用本申请中的两步法进行混响抑制，则很大程度上避免了这种依赖情况的发生，解决了应用场景局限的技术问题。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种混响抑制的处理装置，需要说明的是，本申请实施例的混响抑制的处理装置可以用于执行本申请实施例所提供的用于混响抑制的处理方法。以下对本申请实施例提供的混响抑制的处理装置进行介绍。

图9是根据本申请实施例的混响抑制的处理装置的示意图。如图9所示，该装置包括：第一获取单元51、第一处理单元53、第二处理单元55和输出单元57。

第一获取单元51，用于获取待处理的声音数据，其中，所述待处理的声音数据为包含混响的第一声音数据；

第一处理单元53，用于依据相似度矩阵对所述第一声音数据进行处理，得到初步混响抑制的第二声音数据，其中，所述相似度矩阵为预先训练得到；

第二处理单元55，用于依据Wavenet网络模型对所述第二声音数据进行处理，其中，所述Wavenet网络模型为预先训练得到；

输出单元57，用于从所述Wavenet网络模型中获取输出的第三声音数据。

可选地，在本申请实施例提供的混响抑制的处理装置中，第一处理单元53包括：第一计算模块，用于根据所述相似度矩阵对所述第一声音数据进行加权处理，得到第一声音数据中混响分量的声音数据；第二计算模块，用于将所述第一声音数据减去所述混响分量的声音数据，得到所述初步混响抑制的第二声音数据。

可选地，在本申请实施例提供的混响抑制的处理装置中，装置还包括：第二获取单元，用于在依据相似度矩阵对所述第一声音数据进行处理之前，获取多组训练数据，其中，每组训练数据均为成对的声音数据，所述每组训练数据包括：包含混响的声音数据，以及与之对应的不含有混响的声音数据；第一训练单元，用于使用滑窗法计算每对滑窗中所述包含混响的声音数据与所述不含有混响的声音数据之间的相似度，以确定所述相似度矩阵。

可选地，在本申请实施例提供的混响抑制的处理装置中，装置还包括：第三获取单元，在依据Wavenet网络模型对所述第二声音数据进行处理之前，获取多组训练数据，其中，每组训练数据均为成对的声音数据，所述每组训练数据包括：包含混响的声音数据，以及与之对应的不含有混响的声音数据；第二训练单元，用于使用上述多组训练数据进行对所述Wavenet网络模型进行学习训练，以确定所述Wavenet网络模型中的参数数据。

可选地，在本申请实施例提供的混响抑制的处理装置中，多组训练数据至少包括以下任意之一的特征：每组训练数据中的声音数据的采样率为16KHz；多组训练数据中的每段声音数据的平均时长为10s，且每段声音数据的时长标准差为1s；多组训练数据中声音数据的总时长为20h。

可选地，在本申请实施例提供的混响抑制的处理装置中，第二训练单元包括：训练模块，用于依据上述多组训练数据进行对Wavenet网络模型使用随机梯度下降法进行学习训练。

可选地，在本申请实施例提供的混响抑制的处理装置中，装置还包括：平滑处理单元，用于在从所述Wavenet网络模型中获取输出的第三声音数据之后，对所述Wavenet网络模型中获取输出的所述第三声音数据进行平滑处理。

本申请实施例提供的混响抑制的处理装置，通过第一获取单元51，用于获取待处理的声音数据，其中，所述待处理的声音数据为包含混响的第一声音数据；第一处理单元53，用于依据相似度矩阵对所述第一声音数据进行处理，得到初步混响抑制的第二声音数据，其中，所述相似度矩阵为预先训练得到；第二处理单元55，用于依据Wavenet网络模型对所述第二声音数据进行处理，其中，所述Wavenet网络模型为预先训练得到；输出单元57，用于从所述Wavenet网络模型中获取输出的第三声音数据，解决了相关技术中混响抑制算法的准确性较低、且混响抑制效果较差的问题。

混响抑制的处理装置包括处理器和存储器，上述第一获取单元51、第一处理单元53、第一处理单元55和输出单元57等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来准确去除/减弱在第一数据传送到第二端后从第三端传送到第四端的声音数据中的混响信息，以及提高输出信号的可懂性。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现混响抑制的处理方法。

本发明实施例提供了一种处理器，处理器用于运行程序，其中，程序运行时执行混响抑制的处理方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：获取待处理的声音数据，其中，所述待处理的声音数据为包含混响的第一声音数据；依据相似度矩阵对所述第一声音数据进行处理，得到初步混响抑制的第二声音数据，其中，所述相似度矩阵为预先训练得到；依据Wavenet网络模型对所述第二声音数据进行处理，其中，所述Wavenet网络模型为预先训练得到；从所述Wavenet网络模型中获取输出的第三声音数据。本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：获取待处理的声音数据，其中，所述待处理的声音数据为包含混响的第一声音数据；依据相似度矩阵对所述第一声音数据进行处理，得到初步混响抑制的第二声音数据，其中，所述相似度矩阵为预先训练得到；依据Wavenet网络模型对所述第二声音数据进行处理，其中，所述Wavenet网络模型为预先训练得到；从所述Wavenet网络模型中获取输出的第三声音数据。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种混响抑制的处理方法，其特征在于，包括：

获取待处理的声音数据，其中，所述待处理的声音数据为包含混响的第一声音数据；

依据相似度矩阵对所述第一声音数据进行处理，得到初步混响抑制的第二声音数据，其中，所述相似度矩阵为预先训练得到，所述相似度矩阵是特定环境下的用于评估音频中混响分量大小的矩阵；

依据wavenet网络模型对所述第二声音数据进行处理，所述Wavenet网络模型为预先训练得到；

从所述Wavenet网络模型中获取输出的第三声音数据；

依据相似度矩阵对所述第一声音数据进行处理，得到初步混响抑制的第二声音数据包括：

根据所述相似度矩阵对所述第一声音数据进行加权处理，得到所述第一声音数据中混响分量的声音数据；

将所述第一声音数据减去所述混响分量的声音数据，得到所述初步混响抑制的第二声音数据；

在从所述Wavenet网络模型中获取输出的第三声音数据之后，所述方法还包括：对所述Wavenet网络模型中获取输出的所述第三声音数据进行平滑处理。

2.根据权利要求1所述的方法，其特征在于，在依据相似度矩阵对所述第一声音数据进行处理之前，所述方法还包括：

获取多组训练数据，其中，每组训练数据均为成对的声音数据，所述每组训练数据包括：包含混响的声音数据，以及与之对应的不含有混响的声音数据；

使用滑窗法计算每对滑窗中所述包含混响的声音数据与所述不含有混响的声音数据之间的相似度，以确定所述相似度矩阵。

3.根据权利要求1所述的方法，其特征在于，在依据wavenet网络模型对所述第二声音数据进行处理之前，所述方法还包括：

使用上述多组训练数据进行对所述wavenet网络模型进行学习训练，以确定所述wavenet网络模型中的参数数据。

4.根据权利要求2或3所述的方法，其特征在于，多组训练数据至少包括以下任意之一的特征：

每组所述训练数据中的声音数据的采样率为16KHz；

所述多组训练数据中的每段声音数据的平均时长为10s，且每段声音数据的时长标准差为1s；

所述多组训练数据中声音数据的总时长为20h。

5.根据权利要求4所述的方法，其特征在于，使用上述多组训练数据进行对所述wavenet网络模型进行学习训练包括：依据上述多组训练数据进行对所述wavenet网络模型使用随机梯度下降法进行学习训练。

6.一种混响抑制的处理装置，其特征在于，包括：

第一获取单元，用于获取待处理的声音数据，其中，所述待处理的声音数据为包含混响的第一声音数据；

第一处理单元，用于依据相似度矩阵对所述第一声音数据进行处理，得到初步混响抑制的第二声音数据，其中，所述相似度矩阵为预先训练得到，所述相似度矩阵是特定环境下的用于评估音频中混响分量大小的矩阵；

第二处理单元，用于依据wavenet网络模型对所述第二声音数据进行处理，其中，所述Wavenet网络模型为预先训练得到；

输出单元，用于从所述Wavenet网络模型中获取输出的第三声音数据；

所述第一处理单元包括：

第一处理模块，用于根据所述相似度矩阵对所述第一声音数据进行加权处理，得到所述第一声音数据中混响分量的声音数据；

第二处理模块，用于将所述第一声音数据减去所述混响分量的声音数据，得到所述初步混响抑制的第二声音数据

所述装置还包括：

第三处理单元，用于对所述Wavenet网络模型中获取输出的所述第三声音数据进行平滑处理。

7.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求1至5中任意一项所述的混响抑制的处理方法。

8.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至5中任意一项所述的混响抑制的处理方法。