CN107749305A

CN107749305A - 语音处理方法及其装置

Info

Publication number: CN107749305A
Application number: CN201710910848.1A
Authority: CN
Inventors: 吴俊楠; 宋辉; 崔玮玮
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2018-03-02
Anticipated expiration: 2037-09-29
Also published as: CN107749305B

Abstract

本发明提出一种语音处理方法及其装置，其中，方法包括：采集N路的当前语音帧；对每一路的当前语音帧进行子带分解，获取当前语音帧的M个子带信号；其中，N，M为正整数；从各路的M个子带信号中提取频带相同的子带信号；针对每个频带，对频带下的N路子带信号进行波束形成，得到一路的第一语音信号；对每个频带下的第一语音信号进行子带合成，获取当前语音帧的输出信号。该方法通过对采集的每路语音帧进行子带分解，和将相同频带下的子带信号进行波束形成，再子带合成出输出信号，不仅可以消除输出信号中的混叠，而且提高了输出信号的信噪比，能够输出高质量的语音信号，提高语音定位的准确率。

Description

语音处理方法及其装置

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音处理方法及其装置。

背景技术

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中，人工智能最重要的方面就是语音识别技术。

目前语音定位中，大多采用波束形成算法，通过波束形成算法得到的语音输出，往往会存在混叠，这对于语音定位会造成影响，使得定位准确率不高。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种语音处理方法，通过对每路语音帧进行子带分解和对相同频带下的子带信号进行波束形成，使得到的语音输出信号不存在混叠，提高定位的准确率，以解决现有的通过波束形成得到语音输出信号存在混叠，定位准确率不高的问题。

本发明的第二个目的在于提出一种语音处理装置。

本发明的第三个目的在于提出一种电子设备。

本发明的第四个目的在于提出一种计算机程序产品。

本发明的第五个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种语音处理方法，包括：

采集N路的当前语音帧；

对每一路的所述当前语音帧进行子带分解，获取所述当前语音帧的M个子带信号；其中，N，M为正整数；

从各路的所述M个子带信号中提取频带相同的子带信号；

针对每个频带，对所述频带下的N路子带信号进行波束形成，得到一路的第一语音信号；

对每个频带下的所述第一语音信号进行子带合成，获取所述当前语音帧的输出信号。

作为本发明第一方面实施例一种可选的实现方式，所述对每一路的所述当前语音帧进行子带分解，获取所述当前语音帧的M个子带信号，包括：

将所述当前语音帧输入到由M个子带滤波器组成的子带滤波器组中；

利用每个子带滤波器对所述当前语音帧进行滤波处理，形成所述子带滤波器对应的子带信号，由所有的所述子带滤波器对应的所述子带信号，构成所述当前的所述M个子带信号；其中，所述子带滤波器组中任意两个子带滤波器之间的频带不同。

利用长度为L的滑动窗对所述当前语音帧进行加窗，得到加窗信号；其中，所述L为M的整数倍；

对所述加窗信号进行切分获取K个信号块；其中，每个信号块中包括M个频带；

根据所述K个信号块获取所述当前语音帧的M个子带信号。

作为本发明第一方面实施例一种可选的实现方式，所述根据K个信号块获取所述当前语音帧的M个子带信号，包括：

将所述K个信号块相加，得到第一信号块，对所述第一信号块进行傅里叶变换，得到所述当前语音帧的M个子带信号。

将所述K个信号块中的每个信号块进行傅里叶变换，得到所述信号块的M个子带信号；

将所有信号块的M个子带信号进行子带合成，得到所述当前语音帧的M个子带信号。

作为本发明第一方面实施例一种可选的实现方式，所述根据K个信号块获取所述当前语音帧的M个子带信号之后，还包括：

将所述滑动窗按照预设的抽取因子移动，对下一个语音帧进行加窗。

作为本发明第一方面实施例一种可选的实现方式，所述滑动窗采用汉明窗。

作为本发明第一方面实施例一种可选的实现方式，所述针对每个频带，对所述频带下的N路子带信号进行波束形成，得到一路的第一语音信号，包括：利用最小方差无失真响应波束形成MVDR算法，对所述频带下N路子带信号进行波束形成，得到一路的所述第一语音信号。

作为本发明第一方面实施例一种可选的实现方式，所述利用最小方差无失真响应波束形成MVDR算法，对所述频带下N路子带信号进行波束形成，得到一路的所述第一语音信号，包括：

基于最小方差自适应调整所述频带下的每一路子带信号的权重；

获取每一路子带信号的延时信息，并对所述子带信号进行延时处理；

将延时处理的每一路子带信号进行叠加，形成所述第一语音信号。

本发明实施例的语音处理方法，通过采集N路的当前语音帧，然后对每一路的当前语音帧进行子带分解，获取当前语音帧的M个子带信号，其中，N，M为正整数，之后从各路的M个子带信号中提取频带相同的子带信号，并针对每个频带，对频带下的N路子带信号进行波束形成，得到一路的第一语音信号，最后对每个频带下的第一语音信号进行子带合成，获取当前语音帧的输出信号。本实施例中，通过对采集的每路语音帧进行子带分解，和将相同频带下的子带信号进行波束形成，再子带合成出输出信号，不仅可以消除输出信号中的混叠，而且提高了输出信号的信噪比，能够输出高质量的语音信号，提高语音定位的准确率，解决了现有的仅通过波束形成算法得到语音输出，往往存在混叠，导致定位准确率不高的问题。

为达上述目的，本发明第二方面实施例提出了一种语音处理装置，包括：

采集模块，用于采集N路的当前语音帧；

子带分解模块，用于对每一路的所述当前语音帧进行子带分解，获取所述当前语音帧的M个子带信号；其中，N，M为正整数；

提取模块，用于从各路的所述M个子带信号中提取频带相同的子带信号；

波束形成模块，用于针对每个频带，对所述频带下的N路子带信号进行波束形成，得到一路的第一语音信号；

子带合成模块，用于对每个频带下的所述第一语音信号进行子带合成，获取所述当前语音帧的输出信号。

本发明实施例的语音处理装置，通过采集N路的当前语音帧，对每一路的当前语音帧进行子带分解，获取当前语音帧的M个子带信号，其中，N，M为正整数，从各路的M个子带信号中提取频带相同的子带信号，并针对每个频带，对频带下的N路子带信号进行波束形成，得到一路的第一语音信号，对每个频带下的第一语音信号进行子带合成，获取当前语音帧的输出信号。本实施例中，通过对采集的每路语音帧进行子带分解，和将相同频带下的子带信号进行波束形成，再子带合成出输出信号，不仅可以消除输出信号中的混叠，而且提高了输出信号的信噪比，能够输出高质量的语音信号，提高语音定位的准确率，解决了现有的仅通过波束形成算法得到语音输出，往往存在混叠，导致定位准确率不高的问题。

为达上述目的，本发明第三方面实施例提出了一种电子设备，包括：处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如第一方面实施例所述的语音处理方法。

为了实现上述目的，本发明第四方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，以用于实现如第一方面实施例所述的语音处理方法。

为了实现上述目的，本发明第五方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面实施例所述的语音处理方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例提供的一种语音处理方法的流程示意图；

图2为本发明实施例提供的一种利用子带滤波器对语音信号进行处理的示意图；

图3为本发明实施例提供的一种通过加滑动窗进行子带分解的方法的流程示意图；

图4为本发明实施例提供的一种基于傅里叶变换获得子带信号的方法示意图；

图5为本发明实施例提供的另一种基于傅里叶变换获得子带信号的方法示意图；

图6为本发明实施例提供的对信号加矩形窗的示意图；

图7为本发明实施例提供的加矩形窗后的信号的能量频谱图；

图8为本发明实施例提供的对信号加汉明窗的示意图；

图9为本发明实施例提供的一种语音处理装置的结构示意图；

图10为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的语音处理方法及其装置。

针对这一问题，本发明实施例提出一种语音处理方法，通过对每路语音帧进行子带分解和对相同频带下的子带信号进行波束形成，使得到的语音输出信号不存在混叠，提高定位的准确率，以解决现有的通过波束形成得到的语音输出信号存在混叠，定位准确率不高的问题。

图1为本发明实施例提供的一种语音处理方法的流程示意图。

如图1所示，该语音处理方法包括以下步骤：

步骤101，采集N路的当前语音帧。

本实施例中，可在语音接收设备中设置麦克风阵列，通过麦克风阵列采集语音信号，其中，麦克风阵列包括N路麦克风。通过N路麦克风同时采集语音信号，可得到N路的语音信号。然后，对每路的语音信号进行分帧，从而可以得到N路的语音帧。

采集N路的语音帧，相比采集一路的语音帧，可以提高经处理后输出的语音信号的强度。

步骤102，对每一路的当前语音帧进行子带分解，获取当前语音帧的M个子带信号。

针对每路的当前语音帧，将语音帧分解成M个子带，得到M个子带信号，也就是说，将语音帧从宽带变为多个窄带。

步骤103，从各路的M个子带信号中提取频带相同的子带信号。

对每路的语音帧子带分解后，从每路的M个子带信号中，提取出频带相同的子带信号，也就是说，将每个频带相同的子带信号分别形成一个集合。由于每路语音帧均被分解成M个子带信号，即有M个频带，因此共有M个集合，每个集合包括来自不同路的语音帧的相同频带的N路子带信号。

步骤104，针对每个频带，对频带下的N路子带信号进行波束形成，得到一路的第一语音信号。

本实施例中，对于每个频带，将频带下N路频带相同的子带信号进行波束形成，得到一路的第一语音信号。由于共有M个频带，因此可得到M路第一语音信号。

通过对每路的语音帧进行子带分解，再将各路频带相同的子带信号进行波束形成，可以消除混叠。本实施例中，波束形成的过程中，通过延时将多路子带信号进行了叠加，提高信号强度，而且由于多路子带信号中所携带的噪声之间相关性差，噪声在叠加的过程中被抵消掉，从而提高了第一语音信号的信噪比。

步骤105，对每个频带下的第一语音信号进行子带合成，获取当前语音帧的输出信号。

本实施例中，将每个频带下的第一语音信号进行子带合成，可以得到含有各个频带的，频带完整的语音输出信号。

对于步骤102对每路的语音帧进行子带分解，作为一种可能的实现方式，可通过子带滤波器对语音帧进行处理，得到子带信号。

具体地，将当前语音帧输入到由M个子带滤波器组成的子带滤波器组中，其中，子带滤波器组中任意两个子带滤波器之间的频带不同。由此，利用每个子带滤波器对当前语音帧进行滤波处理，可得到与子带滤波器对应的子带信号，由所有的子带滤波器对应的子带信号，构成当前语音帧的M个子带信号。

如图2所示，图2中X₁(e^jω)、X₂(e^jω)、……、X_N(e^jω)为采集的N路的当前语音帧的频域表示。将X₁(e^jω)、X₂(e^jω)、……、X_N(e^jω)N路语音帧分别输入至子带滤波器H₀(e^jω)、H₁(e^j ^ω)、……、H_M-1(e^jω)，N路语音帧经子带滤波器组处理后，得到子带信号。以语音帧X₁(e^jω)为例，语音帧输入到H₀(e^jω)、H₁(e^jω)、……、H_M-1(e^jω)共M个子带滤波器中进行处理，每个子带滤波器输出一个子带信号，从而可以得到M个子带信号。

本实施例中，在通过子带滤波器处理之后，可以对各路的信号进行降采样，也就是减少采样点个数，从而可以减少对内存的占用。在降采样之后，可将利用相同子带滤波器处理得到的子带信号，从各路中提取出来形成一个集合，从而可以将每个频带下的N路子带信号从各路中提取出来。例如，每路语音帧经过H₀(e^jω)处理得到对应的N路子带信号，由于经过的子带滤波器相同，因此这N路的子带信号频带相同，可提取出N路子带信号。

然后，针对每个频带，将相同频带的N路子带信号进行波束形成得到第一语音信号。在得到M路第一语音信号后，对每路的第一语音信号进行升采样处理，具体地，可在频域中进行补零。最后，将升采样处理后的M路第一语音信号进行子带合成，得到一路输出信号Y(e^jω)。

需要说明的是，如果在将频带相同的子带信号进行波束形成之前，对每个子带信号进行了降采样，则相应的在将第一语音信号进行子带合成之前，对每路第一语音信号进行升采样，以避免造成语音信号失真，影响语音定位的准确率。

本实施例中，通过频带不同的子带滤波器对语音进行子带分解的方法，由于子带滤波器可以根据需要进行设计，由此可以满足不同子带分解需求。

对于步骤102，本发明实施例还提供了另一种对语音帧进行子带分解的方法。如图3所示，该子带分解方法包括以下步骤：

步骤301，利用长度为L的滑动窗对当前语音帧进行加窗，得到加窗信号；其中，L为M的整数倍。

在当前语音帧上加一个长度为L的滑动窗，得到加窗信号，从而可以从当前语音帧中截取长度为L的加窗信号。

步骤302，对加窗信号进行切分获取K个信号块；其中，每个信号块中包括M个频带。

由于L大于M，对加窗信号不能直接进行傅里叶变换，因此需要对加窗信号进行处理，使得处理后的信号能够进行傅里叶变换，也就是使得处理后的信号的长度与M相等。具体地，在获得长度为L的加窗信号后，将加窗信号切分为K个信号块，使每个信号块中包括M个频带。本实施例中，L为M的K倍。

步骤303，根据K个信号块获取当前语音帧的M个子带信号。

本实施例中，由于每个信号块均包括M个频带，因此可根据K个信号块获得当前语音帧的M个子带信号。

作为一种可能的实现方式，可将K个信号块相加，得到第一信号块，由于每个信号块的长度均为M，相加得到的第一信号块的长度也为M，因此可以直接对第一信号块进行傅里叶变换，得到当前语音帧的M个子带信号。

如图4所示，图中e^-j2πmi/M对应的波形为用于进行傅里叶变换的调制载波。图中x[nD-i]w[i]对应的波形为加窗信号的波形，加窗信号为在当前语音帧x[n]上加长度为L的滑动窗得到的。之后，将加窗信号切分为4个信号块，每个信号块包括M个频带，并将4个信号块相加得到一个包括M个频带的第一信号块。最后，通过将第一信号块与调制载波相乘，完成对第一信号块进行傅里叶变换，得到当前语音帧的M个子带信号。

进一步地，在通过K个信号块获得当前语音帧的M个子带信号之后，可将滑动窗按照预设的抽取因子移动，对下一个语音帧进行加窗。如公式(1)所示。

其中，m＝0,1,2…,M-1。M为子带个数，通常选2的幂次方；L为滑动窗的长度，是M的整数倍；D为抽取因子。

作为另一种可能的实现方式，可先对信号块进行傅里叶变换。具体而言，首先将K个信号块中每个信号块进行傅里叶变换，得到信号块的M个子带信号，然后对所有信号块提取频带相同的子带信号，并进行子带合成，从而可得到当前语音帧的M个子带信号。

如图5所示，加窗信号w[i]x[nD-i]是在当前语音帧x[n]上加长度为L的滑动窗得到的，将加窗后的信号与调制载波相乘，就可以完成傅里叶变换。

本实施例中，基于傅里叶变换对语音帧进行子带分解，通过代码容易实现。

此外，本发明实施例中，滑动窗采用汉明窗。如图6所示，在信号x[n]上加长度为M的矩形窗，然后将矩形窗每次向前移动一个采样点，这样每次矩形窗移动之后，相邻两次截取到的采样点会存在M-1个重合的采样点，这样就会存在冗余采样点。进一步地，图7所示，由于矩形窗自身的特性，会使加窗后的信号存在较长的旁瓣，即存在能量泄露，容易造成语音失真。图7中仅以一个频带下的前3个加窗为例进行了解释说明。

为了解决采用矩形窗存在的上述问题，本发明实施例提出滑动窗采用汉明窗。如图8所示，在信号x[n]上加汉明窗，可以降低冗余采样点的数量，而且会抑制旁瓣，增强主瓣，可以保证语音的质量。

为了抑制方向性噪声，对每个频带下的N路子带信号进行波束形成时，本发明实施例提出利用最小方差无失真响应波束形成(Minimum Variance DistortionlessResponse，简称MVDR)，对子带信号进行波束形成。

其中，MVDR的输出功率如公式(2)所示。

p＝y·y*＝W^HR_xW (2)

其中，y＝W^Hx，W为权向量，x为子带信号向量，R_x为噪声的协方差矩阵，R_x＝E[xx^H]。

当噪声为白噪声时，R_x为单位对角矩阵，MVDR为delay and sum波束形成；当噪声为方向性噪声时，R_x会自适应在噪声方向形成零陷。

为保证期望方向上信号无失真通过的前提下，输出功率最小，从而抑制其他方向的噪声。即最优化问题，如公式(3)所示。

minW^HR_xW s.t.W^Hα(θ₀)＝1 (3)

其中，α(θ₀)为方向矢量。利用拉格朗日乘子法求解上述最优化问题，可得权向量。如公式(4)所示。

其中，方向向量

本实施例中，利用MVDR对N路子带信号进行波束形成，得到一路的第一语音信号。具体地，基于最小方差自适应调整频带下的每一路子带信号的权重，并获取每一路子带信号的延时信息，并对子带信号进行延时处理。最后，将延时处理后的每一路子带信号进行加权叠加，形成一路的第一语音信号。

本实施例中，波束形成的过程中，通过延时将多路子带信号进行了叠加，提高信号强度，而且由于多路子带信号中所携带的噪声之间相关性差，噪声在叠加的过程中被抵消掉，从而提高了第一语音信号的信噪比。

本发明实施例的语音处理方法，通过采集N路的当前语音帧，然后对每一路的当前语音帧进行子带分解，获取当前语音帧的M个子带信号，其中，N，M为正整数，之后从各路的M个子带信号中提取频带相同的子带信号，并针对每个频带，对频带下的N路子带信号进行波束形成，得到一路的第一语音信号，最后对每个频带下的第一语音信号进行子带合成，获取当前语音帧的输出信号。本实施例中，通过对采集的每路语音帧进行子带分解，和将相同频带下的子带信号进行波束形成，再将子带合成出输出信号，不仅可以消除输出信号中的混叠，而且提高了输出信号的信噪比，能够输出高质量的语音信号，提高语音定位的准确率，解决了现有的仅通过波束形成算法得到语音输出，往往存在混叠，导致定位准确率不高的问题。

为了实现上述实施例，本发明还提出一种语音处理装置。

如图9所示，该语音处理装置包括：采集模块910、子带分解模块920、提取模块930、波束形成模块940、子带合成模块950。

其中，采集模块910用于采集N路的当前语音帧。

子带分解模块920用于对每一路的当前语音帧进行子带分解，获取当前语音帧的M个子带信号；其中，N，M为正整数。

提取模块930用于从各路的M个子带信号中提取频带相同的子带信号。

波束形成模块940用于针对每个频带，对频带下的N路子带信号进行波束形成，得到一路的第一语音信号。

子带合成模块950用于对每个频带下的第一语音信号进行子带合成，获取当前语音帧的输出信号。

需要说明的是，前述对语音处理方法实施例的解释说明，也适用于本实施例的语音处理装置，故在此不再赘述。

为了实现上述实施例，本发明还提出一种电子设备，包括：处理器和存储器；其中，处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于实现如前述实施例所述的语音处理方法。

为了清楚说明前述的电子设备的具体结构，图10示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图10显示的电子设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture，简称ISA)总线，微通道体系结构(Micro Channel Architecture，简称MAC)总线，增强型ISA总线、视频电子标准(Vedio Electronic Standard Association，简称VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，简称PCI)总线。

电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，简称RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图10未显示，通常称为“硬盘驱动器”)。尽管图10中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网，广域网和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、独立磁盘冗余阵列(Redundant Array ofIndependent Disks，简称RAID)系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，实现上述语音处理方法。

为了实现上述实施例，本发明还提出一种计算机程序产品，当计算机程序产品中的指令处理器执行时，以用于实现如前述实施例所述的语音处理方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前述实施例所述的语音处理方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音处理方法，其特征在于，包括以下步骤：

采集N路的当前语音帧；

从各路的所述M个子带信号中提取频带相同的子带信号；

2.根据权利要求1所述的方法，其特征在于，所述对每一路的所述当前语音帧进行子带分解，获取所述当前语音帧的M个子带信号，包括：

利用每个子带滤波器对所述当前语音帧进行滤波处理，形成所述子带滤波器对应的子带信号，由所有的所述子带滤波器对应的所述子带信号，构成所述当前语音帧的所述M个子带信号；其中，所述子带滤波器组中任意两个子带滤波器之间的频带不同。

3.根据权利要求1所述的方法，其特征在于，所述对每一路的所述当前语音帧进行子带分解，获取所述当前语音帧的M个子带信号，包括：

根据所述K个信号块获取所述当前语音帧的M个子带信号。

4.根据权利要求3所述的方法，其特征在于，所述根据K个信号块获取所述当前语音帧的M个子带信号，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据K个信号块获取所述当前语音帧的M个子带信号，包括：

6.根据权利要求3所述的方法，其特征在于，所述根据K个信号块获取所述当前语音帧的M个子带信号之后，还包括：

7.根据权利要求3所述的方法，其特征在于，所述滑动窗采用汉明窗。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述针对每个频带，对所述频带下的N路子带信号进行波束形成，得到一路的第一语音信号，包括：

利用最小方差无失真响应波束形成MVDR算法，对所述频带下N路子带信号进行波束形成，得到一路的所述第一语音信号。

9.根据权利要求8所述的方法，其特征在于，所述利用最小方差无失真响应波束形成MVDR算法，对所述频带下N路子带信号进行波束形成，得到一路的所述第一语音信号，包括：

10.一种语音处理装置，其特征在于，包括：

采集模块，用于采集N路的当前语音帧；

11.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-9中任一所述的语音处理方法。

12.一种计算机程序产品，其特征在于，当所述计算机程序产品中的指令由处理器执行时，以用于实现如权利要求1-9中任一所述的语音处理方法。

13.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-9中任一所述的语音处理方法。