CN117935821A

CN117935821A - 由电子设备执行的方法、电子设备以及存储介质

Info

Publication number: CN117935821A
Application number: CN202211308212.7A
Authority: CN
Inventors: 温亮; 王立众; 郑宇星; 崔光杓
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2022-10-25
Filing date: 2022-10-25
Publication date: 2024-04-26

Abstract

本公开提供了一种由电子设备执行的方法、电子设备以及存储介质，所述方法包括：基于神经网络，从接收的语音信号获得第一高频信号和第一低频信号；基于滤波处理，从接收的语音信号获得第二高频信号和第二低频信号；基于第一高频信号、第一低频信号、第二高频信号和第二低频信号，获得带宽扩展的语音信号。同时，可以使用人工智能模型来执行上述方法。

Description

由电子设备执行的方法、电子设备以及存储介质

技术领域

本申请总体说来涉及语音处理领域，更具体地讲，涉及由电子设备执行的方法、电子设备以及存储介质。

背景技术

当前的移动通信网络(2G/3G/4G)只支持窄带(Narrow Band，NB)/宽带(WideBand，WB)的语音采样率，但是当前主流的终端设备都已经支持超宽带(Super Wide Band，SWB)的语音信号采集和记录。因此，当前的移动通信网络无法充分发挥终端设备的性能。对此，技术人员提出了带宽扩展技术，即，通过在接收端对低频信号进行上采样以完成信号的采样率提升，然后利用神经网络进行高频信息的生成，从而实现带宽扩展。

但是现有技术中，在带宽扩展时，高频能量的大小不可调节并且对语音的低频信息没有修复增强，无法向用户提供优质的听觉体验。

发明内容

为了至少解决现有技术中存在的上述问题，本发明提供了一种由电子设备执行的方法、电子设备以及存储介质。

本发明的第一方面在于提供一种由电子设备执行的方法，包括：基于神经网络，从接收的语音信号获得第一高频信号和第一低频信号；基于滤波处理，从接收的语音信号获得第二高频信号和第二低频信号；基于第一高频信号、第一低频信号、第二高频信号和第二低频信号，获得带宽扩展的语音信号。

可选地，所述方法还包括：在获得第一高频信号、第一低频信号、第二高频信号和第二低频信号之前，通过对接收的语音信号进行上采样。

可选地，基于神经网络，从接收的语音信号获得第一高频信号和第一低频信号的步骤包括：通过第一神经网络对接收的语音信号进行高频扩展，获得第一高频信号；通过第二神经网络对接收的语音信号进行低频增强，获得第一低频信号。

可选地，通过第一神经网络对接收的语音信号进行高频扩展，获得第一高频信号的步骤包括：基于第一神经网络中的第一卷积层对接收的语音信号进行卷积处理，获得低频特征信息和高频特征信息；基于第一神经网络中的非线性激活层对所述低频特征信息和所述高频特征信息进行非线性处理；基于第一神经网络中的第二卷积层对经过非线性处理的所述低频特征信息和所述高频特征信息进行卷积处理，获得融合信号；以及通过第一高通滤波器对所述融合信号进行滤波，获得第一高频信号。

可选地，通过第二神经网络对接收的语音信号进行低频增强，获得第一低频信号的步骤包括：通过第一低通滤波器对接收的语音信号进行滤波，获得初始低频信号；通过第二神经网络对所述初始低频信号进行线性卷积处理，获得低频增强的第一低频信号。

可选地，基于第一高频信号、第一低频信号、第二高频信号和第二低频信号，获得所述带宽扩展的语音信号的步骤包括：按照预设的融合比率，对第一高频信号、第一低频信号、第二高频信号和第二低频信号进行融合处理，获得所述带宽扩展的语音信号。

可选地，基于第一高频信号、第一低频信号、第二高频信号和第二低频信号，获得所述带宽扩展的语音信号的步骤包括：通过将第一高频信号和第一低频信号进行合并，获得第一带宽扩展信号；分别对第一带宽扩展信号进行高通滤波和低通滤波，获得第三高频信号和第三低频信号；以及按照预设的融合比率，对第三高频信号、第三低频信号、第二高频信号和第二低频信号进行融合处理，获得所述带宽扩展的语音信号。

可选地，基于滤波处理，从接收的语音信号获得第二高频信号和第二低频信号的步骤包括：通过第二低通滤波器对接收的语音信号进行滤波，获得第二低频信号；对第二低频信号进行全波整流；通过第二高频滤波器对整流结果进行滤波，获得第二高频信号。

本发明的第二方面在于提供一种电子设备，包括：第一信号处理单元，被配置为基于神经网络，从接收的语音信号获得第一高频信号和第一低频信号；第二信号处理单元，被配置为基于滤波处理，从接收的语音信号获得第二高频信号和第二低频信号；第三信号处理单元，被配置为基于第一高频信号、第一低频信号、第二高频信号和第二低频信号，获得带宽扩展的语音信号。

可选地，所述语音处理装置还包括：上采样单元，被配置为在获得第一高频信号、第一低频信号、第二高频信号和第二低频信号之前，通过对接收的语音信号进行上采样，以扩充接收的语音信号的数据尺度。

可选地，第一信号处理单元被配置为：通过第一神经网络对接收的语音信号进行带宽扩展，获得第一高频信号；通过第二神经网络对接收的语音信号进行低频增强，获得第一低频信号。

可选地，第一信号处理单元被配置为：基于第一神经网络中的第一卷积层对接收的语音信号进行卷积处理，获得低频特征信息和高频特征信息；基于第一神经网络中的非线性激活层对所述低频特征信息和所述高频特征信息进行非线性处理；基于第一神经网络中的第二卷积层对经过非线性处理的所述低频特征信息和所述高频特征信息进行卷积处理，获得融合信号；以及通过第一高通滤波器对所述融合信号进行滤波，获得第一高频信号。

可选地，第一信号处理单元被配置为：通过第一低通滤波器对接收的语音信号进行滤波，获得初始低频信号；通过第二神经网络对所述初始低频信号进行线性卷积处理，获得低频增强的第一低频信号。

可选地，第三信号处理单元被配置为：按照预设的融合比率，对第一高频信号、第一低频信号、第二高频信号和第二低频信号进行融合处理，获得所述带宽扩展的语音信号。

可选地，第三信号处理单元被配置为：通过将第一高频信号和第一低频信号进行合并，获得第一带宽扩展信号；分别对第一带宽扩展信号进行高通滤波和低通滤波，获得第三高频信号和第三低频信号；以及按照预设的融合比率，对第三高频信号、第三低频信号、第二高频信号和第二低频信号进行融合处理，获得所述带宽扩展的语音信号。

可选地，第二信号处理单元被配置为：通过第二低通滤波器对接收的语音信号进行滤波，获得第二低频信号；通过整流滤波器对第二低频信号进行全波整流，获得第二高频信号。

本发明的第三方面在于提供一种电子设备，包括：至少一个处理器；以及至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的方法。

本发明的第四方面提供了一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如上所述的方法。

附图说明

从下面结合附图对本申请实施例的详细描述中，本申请的这些和/或其他方面和优点将变得更加清楚并更容易理解，其中：

图1是示出根据本申请的示例性实施例的由电子设备执行的方法的流程图；

图2A是示出根据本申请的示例性实施例的由电子设备执行的方法的过程示意图；

图2B是示出根据本申请的另一示例性实施例的由电子设备执行的方法的过程示意图；

图3是示出根据本申请的示例性实施例的通过第一神经网络对接收的语音信号进行高频扩展获得第一高频信号的过程的流程图；

图4是示出根据本申请的示例性实施例的通过第一神经网络获得第一高频信号的过程示意图；

图5是示出根据本申请的示例性实施例的语音处理装置的框图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”可以实现为“A”，或者实现为“B”，或者实现为“A和B”。在描述多个(两个或两个以上)项目时，如果没有明确限定多个项目之间的关系，这多个项目之间可以是指多个项目中的一个、多个或者全部，例如，对于“参数A包括A1、A2、A3”的描述，可以实现为参数A包括A1或A2或A3，还可以实现为参数A包括参数A1、A2、A3这三项中的至少两项。

如背景技术部分中所述，在现有技术中，可采用神经网络基于低频信息来生成高频信息，从而实现带宽扩展。但是，现有技术存在诸多问题，例如，带宽扩展高频能量大小不可调剂，这是因为在实际硬件和处理链路中，用户主观听感需根据用户和硬件特点适配才能达到良好的主观体验，然而现有技术采用单独固定的处理方法，因此带宽扩展能量不可控。又例如，现有技术没有对语音的低频信息修复增强，具体地，在语音通话链路中，低频信号经过采集、编解码传输，相对于原始语音信号，在音质、能量方面均有损失，并且在时域神经网络处理时，由于在时域没有对高低频信号分别处理，不可避免地会改变低频信号，从而会引入噪声。

本申请通过将神经网络方法与基于滤波处理的信号处理方法相结合，来克服现有技术中存在的诸多问题。下面参照图1至图5对此进行描述。此外，在本申请实施例中，应用本申请提出的方法的终端可以包括耳机、智能手机、平板装置、智能手表、个人数字助理、PC计算机等能够发送或接收语音的终端设备，但是本申请不限于此。终端可以在语音通话场景中按照本申请实施例提出的方法来处理接收的语音信号，例如，当应用本申请提出的方法的终端是智能手机时，该智能手机从与之通话的另一终端接收语音信号，然后可按照本申请实施例提出的方法对接收到的语音信号进行神经网络方法和基于滤波处理的信号处理方法相结合的处理，从而得到带宽扩展的语音信号，然后播放给用户。又例如，当应用本申请提出的方法的终端是与另一终端(例如智能手机、平板装置、智能手表等)相连的耳机时，在用户使用该另一终端接收来自另一用户的通话时，该另一终端从通话的对方接收语音信号，然后，耳机通过有线或者无线方式从智能手机接收该语音信号，此后，耳机可按照本申请实施例提出的方法对接收到的语音信号进行神经网络方法和基于滤波处理的信号处理方法相结合的处理，从而得到带宽扩展的语音信号，然后播放给用户。此外，也可以在其他接收语音的场景中应用本申请实施例提出的方法，本申请不做进一步限制。

图1是示出根据本申请的示例性实施例的由电子设备执行的方法的流程图。图2A是示出根据本申请的示例性实施例的由电子设备执行的方法的示意图。

如图1中所示，在步骤S110，基于神经网络，从接收的语音信号获得第一高频信号和第一低频信号。

具体地讲，在步骤S110之前，所述方法还可包括：通过对接收的语音信号进行上采样，以扩充接收的语音信号的数据尺度。这一步骤相当于预处理过程，例如图2A中示出的预处理过程。例如，本申请可通过webrtc中的WebRtcSpl_UpsampleBy2技术对接收的语音信号进行上采样，但是本申请不限于此，本申请还可以采用其他方法对接收的语音信号进行上采样以扩充接收的语音信号的数据尺度，例如，可通过间隔重复拷贝来进行上采样，例如，如果接收的语音信号的低频信号采样点数据是[0,1,2,3,4…]，则扩充后的语音信号的信号采样点数据是[0,0,1,1,2,2,3,3,4,4…]。

在本申请的一种示例性实施例中，基于神经网络，从接收的语音信号获得第一高频信号和第一低频信号的步骤包括：通过第一神经网络对接收的语音信号进行高频扩展，获得第一高频信号；通过第二神经网络对接收的语音信号进行低频增强，获得第一低频信号。

下面，首先参照图3和图4对通过第一神经网络对接收的语音信号进行高频扩展获得第一高频信号的过程进行描述。在以下描述中，假设接收的语音信号在时间域进行分割，分割大小为20ms(即语音信号帧大小)，语音信号为16KHz的信号，则每个分割大小为20ms的语音信号帧具有分割采样点为320个点，因此，对于一维语音信号，其大小可被表示为(320,1)，即，1通道，分割采样点为320个点。因此，在经过以上的步骤S110以后，接收的语音信号的大小变为(640,1)，即，其分割采样点变成了640个点，但仍为1通道。

在步骤S310，基于第一神经网络中的第一卷积层对接收的语音信号进行卷积处理，获得低频特征信息和高频特征信息。

如图4中所示，上采样后的语音信号为(640,1)，其被输入到第一卷积层，该卷积层由多个卷积核构成，每个卷积核具有预定大小，在以下描述中，假设第一卷积层由16个卷积核构成，因此，第一卷积层共有16个输出通道，也就是，每个卷积核对应于一个输出通道，每个卷积核的大小为16。因此，第一卷积层输出的信号大小为(640,16)，即，输出通道数为16，每个通道为640个采样点，。此时，获得的信号(640,16)为低频特征信息和高频特征信息，即，第一卷积层也可以被称为特征提取层，用于提取低频特征信息和高频特征信息。

在步骤S320，基于第一神经网络中的非线性激活层对所述低频特征信息和所述高频特征信息进行非线性处理。

如图4中所示，在第一卷积层后边，紧跟着非线性激活层，每个卷积核的输出信号均经过非线性激活层进行非线性处理。在本申请的一种示例性实施例中，非线性激活层可采用LeakyReLU激活函数，其负斜率参数例如为0.9，但是负斜率参数不限于此，例如可以是0.8、0.7、0.6等，并且非线性激活层可采用其他的激活函数，例如，ReLU激活函数、ELU函数、TanH函数等。第一卷积层的输出信号在经过非线性激活层以后，信号大小仍保持为(640,16)。

在步骤S330，基于第一神经网络中的第二卷积层对经过非线性处理的所述低频特征信息和所述高频特征信息进行卷积处理，获得融合信号。

如图4中所示，第二卷积层由一个卷积核构成，该卷积核的通道数等于第一卷积层的卷积核个数，即等于第一卷积层的输出通道数，因此，如上所述，如果第一卷积层的卷积核个数为16个(即输出通道的个数为16)，则第二卷积层由一个具有16个通道的卷积核构成，该卷积核的大小为例如16，该卷积核用于对经过非线性激活层处理的低频特征信息和高频特征信息进行卷积处理，即进行融合处理，获得融合信号。因此，第二卷积层也可以被称为特征融合层。第二卷积层的输出信号的大小为(640,1)，即分割采样点为640个点，且输出通道数为1。

在步骤S340，通过第一高通滤波器对所述融合信号进行滤波，获得第一高频信号。

具体地讲，在通过步骤S340获得融合信号(640,1)以后，需要利用第一高通滤波器对融合信号进行滤波处理，以获得第一高频信号。其中，第一高通滤波器可采用具有预定阶数的IIR滤波器，例如，可通过以下的等式(1)来进行IIR滤波：

a[1]*y[n]＝b[1]*x[n]+b[2]*x[n-1]+...+b[M]*x[n-M]-a[1]*y[n-1]-...-a[N]*y[n-N](1)

其中，x为输入信号，y为滤波后的输出信号，[.]表示采样点的序号。a,b分别为滤波器系数，N,M为滤波器长度。

例如，可采用阶数为6的无线脉冲响应(Infinite Impulse Response，简称IIR)滤波器作为第一高通滤波器，但是本申请不限于此，可采用具有其他阶数的IIR滤波器作为第一高通滤波器，也可以采用除了IIR滤波器以外的其他类型的滤波器。在经过第一高通滤波器滤波以后，获得的第一高频信号大小仍为(640,1)。

以上参照图3和图4描述了一种通过对接收的语音信号进行高频扩展来获得第一高频信号的方法，但是本申请还可采用其他技术进行高频扩展，本申请对此不做具体限定。

下面对通过第二神经网络对接收的语音信号进行低频增强来获得第一低频信号的过程进行详细描述。

首先，通过第一低通滤波器对接收的语音信号进行滤波，获得初始低频信号。该第一低通滤波器可采用具有预定阶数的IIR滤波器，例如，可采用阶数为10的IIR滤波器作为第一低通滤波器，但是本申请不限于此，可采用具有其他阶数的IIR滤波器作为第一低通滤波器，也可以采用除了IIR滤波器以外的其他类型的滤波器。如上所述，接收的语音信号在进行扩充以后其大小变为(640,1)，在经过第一低通滤波器进行滤波以后，其大小仍为(640,1)。

然后，通过第二神经网络对所述初始低频信号进行线性卷积处理，获得低频增强的第一低频信号。具体地讲，第二神经网络可采用一层一维线性卷积神经网络，即，卷积核个数为1，卷积核大小为16，也就是说，通过第一低通滤波器获得的初始低频信号在经过第二神经网络卷积处理以后，其大小仍保持(640,1)。其中，第二神经网络是以低能量的低频信号为输入且以高能量的低频信号为输出进行训练得到的，因此，第二神经网络可通过利用训练获得的卷积核对能量低的低频信号进行卷积处理，以获得高能量的低频信号，即获得低频增强且修复的第一低频信号。

返回参照图1，在步骤S120，基于滤波处理，从接收的语音信号获得第二高频信号和第二低频信号。

类似地，在步骤S120之前，所述方法同样需要对接收的语音信号进行上采样，以扩充接收的语音信号的数据尺度。该上采样过程可采用与以上描述的过程不同的方法，即，可利用与以上描述的上采样方法不同的方法单独对接收的语音信号进行上采样，例如，用于步骤S110的语音信号可以是利用webrtc中的WebRtcSpl_UpsampleBy2技术对接收的语音信号进行上采样得到的语音信号，而这里可以采用以上所述的间隔重复拷贝的方法对接收的语音信号进行上采样来获得尺度扩充的语音信号，这样针对不同的处理方法(以上描述的神经网络方法和后续描述的滤波方法)选择合适的上采样方法对接收的语音信号进行上采样，可有利于提高音质。但是本申请不限于此，用于步骤S120的语音信号可以直接使用用于步骤S110的语音信号，也就是说，可不针对步骤S120单独对接收的语音信号进行上采样，这样可以节省资源，进一步提高效率。

如图2A中所示，首先，通过第二低通滤波器对接收的语音信号进行滤波，获得第二低频信号。

具体地讲，第二低通滤波器可以采用具有预定阶数的IIR滤波器，例如，可采用阶数为10的IIR滤波器作为第二低通滤波器，但是本申请不限于此，可采用具有其他阶数的IIR滤波器作为第二低通滤波器，也可以采用除了IIR滤波器以外的其他类型的滤波器。如上所述，接收的语音信号在进行扩充以后其大小变为(640,1)，在经过第二低通滤波器进行滤波以后，其大小仍为(640,1)。

此后，对第二低频信号进行全波整流，生成高频信息。具体地讲，通过对第二低频信号的采样点数据逐点取绝对值来获得整流结果，即生成高频信息。此时，获得的信号大小仍为(640,1)。

然后，通过第二高通滤波器对整流结果进行滤波，获得第二高频信号。在这里，整流结果的大小为(640,1)，获得的第二高频信号的大小同样为(640,1)。在本申请中，第二高通滤波器可采用具有预定阶数的IIR滤波器，例如，可采用阶数为6的IIR滤波器作为第二高通滤波器，但是本申请不限于此，可采用具有其他阶数的IIR滤波器作为第二高通滤波器，也可以采用除了IIR滤波器以外的其他类型的滤波器。

至此，即可通过滤波方法(即信号处理方法)获得第二低频信号和第二高频信号。

返回参照图1，在步骤S130，基于第一高频信号、第一低频信号、第二高频信号和第二低频信号，获得带宽扩展的语音信号。

在本申请的一种示例性实施例中，如图2A中所示，可按照预设的融合比率，对第一高频信号、第一低频信号、第二高频信号和第二低频信号进行融合处理，获得所述带宽扩展的语音信号。

首先，分别设置高频信号融合比率ratio_H和低频信号融合比率ratio_L，它们分别代表通过神经网络获得的第一高频信号和第一低频信号在最终的带宽扩展的语音信号中的能量比值，其中，ratio_H和ratio_L中的每一个是例如大于0且小于10的实数，可按照以下等式(2)来对第一高频信号Fir_H、第一低频信号Fir_L、第二高频信号Sec_H和第二低频信号Sec_L进行融合处理，来获得所述带宽扩展的语音信号Signal。

Signal＝Fir_L×ratio_L/10+Sec_L×(10-ratio_L)/10+Fir_H×ratio_H/10+Sec_H×(10-ratio_H)/10(2)

在以上参照图2A所描述的实施例中，按照预设的融合比率直接对第一高频信号、第一低频信号、第二高频信号和第二低频信号进行了融合处理，从而获得了带宽扩展的语音信号，但是本申请不限于此，可对第一高频信号和第一低频信号进行进一步的处理，进一步提高语音质量，以下将参照图2B对此进行描述。

在本申请的另一种示例性实施例中，如图2B中所示，在通过高频扩展和低频增强获得第一高频信号和第一低频信号以后，首先，通过将第一高频信号和第一低频信号进行合并，获得第一带宽扩展信号，即使低频增强与高频扩展相融合。如上所述，第一高频信号和第一低频信号的信号大小均为(640,1)，通过对二者进行求和，得到第一带宽扩展信号，其大小也是(640,1)。

然后，分别对第一带宽扩展信号进行高通滤波和低通滤波，获得第三高频信号和第三低频信号。具体地讲，可采用第三高通滤波器对第一带宽扩展信号进行高通滤波，获得第三高频信号，其中，第三高通滤波器可采用具有预定阶数的IIR滤波器，例如，可采用阶数为6的IIR滤波器作为第三高通滤波器，但是本申请不限于此，可采用具有其他阶数的IIR滤波器作为第三高通滤波器，也可以采用除了IIR滤波器以外的其他类型的滤波器。此外，可采用第三低通滤波器对第一带宽扩展信号进行低通滤波，获得第三低频信号，其中，第三低通滤波器可采用具有预定阶数的IIR滤波器，例如，可采用阶数为10的IIR滤波器作为第三低通滤波器，但是本申请不限于此，可采用具有其他阶数的IIR滤波器作为第三低通滤波器，也可以采用除了IIR滤波器以外的其他类型的滤波器。

在以上描述中涉及到的第一低通滤波器、第二低通滤波器和第三低通滤波器可以是相同的滤波器，也就是说，可用同一个滤波器来实现上述三个滤波器，这样可重复利用同一滤波器，节约资源。但是本申请不对此进行限制，第一低通滤波器、第二低通滤波器和第三低通滤波器中的至少两个也可以使用不同的低通滤波器，但从不同滤波器输出的结果需要进行采样点移位，以使采样点对齐，以便于实现滤波结果的融合/合并。类似地，以上涉及的第一高通滤波器、第二高通滤波器和第三高通滤波器可以是相同的滤波器，但是它们中的至少两个也可以使用不同的高通滤波器。

此后，可按照预设的融合比率，对第三高频信号、第三低频信号、第二高频信号和第二低频信号进行融合处理，获得所述带宽扩展的语音信号。

具体地讲，与以上描述等式(2)时类似，首先，分别设置高频信号融合比率ratio_H’和低频信号融合比率ratio_L’，它们分别代表第三高频信号和第三低频信号在最终的带宽扩展的语音信号中的能量比值，其中，ratio_H’和ratio_L’中的每一个是大于0且小于10的实数，可按照以下等式(3)来对第三高频信号Thi_H、第三低频信号Thi_L、第二高频信号Sec_H和第二低频信号Sec_L进行融合处理，来获得所述带宽扩展的语音信号Signal’。

Signal’＝Thi_L×ratio_L’/10+Sec_L×(10-ratio_L’)/10+Thi_H×ratio_H’/10+Sec_H×(10-ratio_H’)/10(3)

通过等式(3)获得的带宽扩展的语音信号比通过对第一高频信号、第一低频信号、第二高频信号和第二低频信号进行融合处理所获得的带宽扩展的语音信号，具有更好的语音质量。

以上通过采用神经网络和滤波方法进行语音信号的带宽扩展，并通过以上等式(2)或等式(3)中的设置的高频融合比率和低频融合比率来融合高频信号和低频信号，即将传统的信号处理方法(滤波处理)与神经网络方法(即基于人工智能(AI)的方法)相结合，从而实现能量融合比例的调整和噪声的控制。此外，在主观质量上，本申请提出的方法相比于传统方法在语音清晰度和明亮程度上都有明显提升。

图5是示出根据本申请的示例性实施例的语音处理装置500的框图。

如图5中所示，语音处理装置500可包括第一信号处理单元510、第二信号处理单元520和第三信号处理单元530。第一信号处理单元510可被配置为基于神经网络，从接收的语音信号获得第一高频信号和第一低频信号。第二信号处理单元520可被配置为基于滤波处理，从接收的语音信号获得第二高频信号和第二低频信号。第三信号处理单元530可被配置为基于第一高频信号、第一低频信号、第二高频信号和第二低频信号，获得带宽扩展的语音信号。此外，语音信号处理单元500还可包括上采样单元(未示出)，上采样单元可被配置为在获得第一高频信号、第一低频信号、第二高频信号和第二低频信号之前，通过对接收的语音信号进行上采样，以扩充接收的语音信号的数据尺度。

第一信号处理单元510可被配置为通过以下操作基于神经网络从接收的语音信号获得第一高频信号和第一低频信号：通过第一神经网络对接收的语音信号进行带宽扩展，获得第一高频信号；以及通过第二神经网络对接收的语音信号进行低频增强，获得第一低频信号。

具体地，第一信号处理单元510被配置为：基于第一神经网络中的第一卷积层对接收的语音信号进行卷积处理，获得低频特征信息和高频特征信息；基于第一神经网络中的非线性激活层对所述低频特征信息和所述高频特征信息进行非线性处理；基于第一神经网络中的第二卷积层对经过非线性处理的所述低频特征信息和所述高频特征信息进行卷积处理，获得融合信号；以及通过第一高通滤波器对所述融合信号进行滤波，获得第一高频信号。

第一信号处理单元510被配置为：通过第一低通滤波器对接收的语音信号进行滤波，获得初始低频信号；通过第二神经网络对所述初始低频信号进行线性卷积处理，获得低频增强的第一低频信号。

第二信号处理单元520被配置为通过以下操作基于滤波处理从接收的语音信号获得第二高频信号和第二低频信号：通过第二低通滤波器对接收的语音信号进行滤波，获得第二低频信号；以及通过整流滤波器对第二低频信号进行全波整流，获得第二高频信号。

第三信号处理单元530被配置为：按照预设的融合比率，对第一高频信号、第一低频信号、第二高频信号和第二低频信号进行融合处理，获得所述带宽扩展的语音信号。

可选地，第三信号处理单元530可被配置为：通过将第一高频信号和第一低频信号进行合并，获得第一带宽扩展信号；分别对第一带宽扩展信号进行高通滤波和低通滤波，获得第三高频信号和第三低频信号；以及按照预设的融合比率，对第三高频信号、第三低频信号、第二高频信号和第二低频信号进行融合处理，获得所述带宽扩展的语音信号。

由于信号处理方法可由信号处理单元500执行，且以上已经参照图1至图4对信号处理方法进行了详细描述，因此，这里不再进行赘述。

此外，根据本申请的实施例，还可以提供一种电子设备，包括：至少一个处理器；以及至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行以上述的信号处理方法。

上述多个模块中的至少一个可以通过AI模型实现。与AI相关联的功能可以通过非易失性存储器、易失性存储器和处理器来执行。

作为示例，电子设备可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。处理器可以包括一个或多个处理器。此时，一个或多个处理器可以是通用处理器，例如中央处理器(CPU)、应用处理器(AP)等，仅用于图形的处理器(例如图形处理器(GPU)、视觉处理器(VPU)和/或AI专用处理器(例如神经处理单元(NPU))。一个或多个处理器根据存储在非易失性存储器和易失性存储器中的预定义操作规则或AI模型来控制输入数据的处理。预定义的操作规则或AI模型可通过训练或学习提供。这里，通过学习提供意味着，通过将学习算法应用于多个学习数据，形成具有期望特性的预定义操作规则或AI模型。学习可以在根据实施例的执行AI的设备本身中执行，和/或可以通过单独的服务器/设备/系统来实现。

学习算法是使用多个学习数据来训练预定目标设备(例如，机器人)以使得、允许或控制目标设备做出确定或预测的方法。学习算法的例子包括但不限于有监督学习、无监督学习、半监督学习或强化学习。

AI模型可以通过训练获得。这里，“通过训练获得”是指通过训练算法训练具有多个训练数据的基本AI模型，从而获得预定义的操作规则或AI模型，所述操作规则或AI模型配置为执行所需的特征(或目的)。

作为示例，AI模型可以包括多个神经网络层。所述多个神经网络层中的每一个包括多个权重值，并且通过在前一层的计算结果和所述多个权重值之间的计算来执行神经网络计算。神经网络的例子包括但不限于卷积神经网络(CNN)、深度神经网络(DNN)、递归神经网络(RNN)、受限玻尔兹曼机(RBM)、深度置信网络(DBN)、双向递归深度神经网络(BRDNN)、生成式对抗网络(GAN)和深度Q网络。

处理器可运行存储在存储器中的指令或代码，其中，存储器还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储器中的文件。

此外，电子设备还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。

根据本申请的实施例，还可提供一种存储指令的计算机可读存储介质，其中，当所述指令由至少一个处理器执行时，促使所述至少一个处理器执行根据本申请示例性实施例的上述的信号处理方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的指令或计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上所述仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种由电子设备执行的方法，包括：

基于神经网络，从接收的语音信号获得第一高频信号和第一低频信号；

基于滤波处理，从接收的语音信号获得第二高频信号和第二低频信号；

基于第一高频信号、第一低频信号、第二高频信号和第二低频信号，获得带宽扩展的语音信号。

2.如权利要求1所述的方法，还包括：在获得第一高频信号、第一低频信号、第二高频信号和第二低频信号之前，通过对接收的语音信号进行上采样。

3.如权利要求1所述的方法，其中，基于神经网络，从接收的语音信号获得第一高频信号和第一低频信号的步骤包括：

通过第一神经网络对接收的语音信号进行高频扩展，获得第一高频信号；

通过第二神经网络对接收的语音信号进行低频增强，获得第一低频信号。

4.如权利要求3所述的方法，其中，通过第一神经网络对接收的语音信号进行高频扩展，获得第一高频信号的步骤包括：

基于第一神经网络中的第一卷积层对接收的语音信号进行卷积处理，获得低频特征信息和高频特征信息；

基于第一神经网络中的非线性激活层对所述低频特征信息和所述高频特征信息进行非线性处理；

基于第一神经网络中的第二卷积层对经过非线性处理的所述低频特征信息和所述高频特征信息进行卷积处理，获得融合信号；以及

通过第一高通滤波器对所述融合信号进行滤波，获得第一高频信号。

5.如权利要求3或4所述的方法，其中，通过第二神经网络对接收的语音信号进行低频增强，获得第一低频信号的步骤包括：

通过第一低通滤波器对接收的语音信号进行滤波，获得初始低频信号；

通过第二神经网络对所述初始低频信号进行线性卷积处理，获得低频增强的第一低频信号。

6.如权利要求1至5中任一项所述的方法，其中，基于第一高频信号、第一低频信号、第二高频信号和第二低频信号，获得所述带宽扩展的语音信号的步骤包括：

按照预设的融合比率，对第一高频信号、第一低频信号、第二高频信号和第二低频信号进行融合处理，获得所述带宽扩展的语音信号。

7.如权利要求1至5中任一项所述的方法，其中，基于第一高频信号、第一低频信号、第二高频信号和第二低频信号，获得所述带宽扩展的语音信号的步骤包括：

通过将第一高频信号和第一低频信号进行合并，获得第一带宽扩展信号；

分别对第一带宽扩展信号进行高通滤波和低通滤波，获得第三高频信号和第三低频信号；以及

按照预设的融合比率，对第三高频信号、第三低频信号、第二高频信号和第二低频信号进行融合处理，获得所述带宽扩展的语音信号。

8.如权利要求1至7中任一项所述的方法，其中，基于滤波处理，从接收的语音信号获得第二高频信号和第二低频信号的步骤包括：

通过第二低通滤波器对接收的语音信号进行滤波，获得第二低频信号；

对第二低频信号进行全波整流；

通过第二高频滤波器对整流结果进行滤波，获得第二高频信号。

9.一种电子设备，包括：

至少一个处理器；以及

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至8中的任意一项所述的方法。

10.一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至8中的任意一项所述的方法。