CN107170461B

CN107170461B - 语音信号处理方法及装置

Info

Publication number: CN107170461B
Application number: CN201710606605.9A
Authority: CN
Inventors: 刘云峰
Original assignee: Goertek Techology Co Ltd
Current assignee: Goertek Techology Co Ltd
Priority date: 2017-07-24
Filing date: 2017-07-24
Publication date: 2020-10-09
Anticipated expiration: 2037-07-24
Also published as: CN107170461A

Abstract

本发明实施例提供一种语音信号处理方法及装置。其中，方法包括如下的步骤：获取混合语音信号；按照降幅系数对所述混合语音信号进行降幅处理，以得到降幅信号；若所述降幅信号不满足预设条件，则调整所述降幅系数，直至采用调整后的所述降幅系数对所述混合语音信号降幅处理后得到的降幅信号满足所述预设条件；将满足所述预设条件的降幅信号作为处理后的输出信号。本发明实施例能够降低回声和噪声消除难度。

Description

语音信号处理方法及装置

技术领域

本发明涉及语音技术领域，尤其涉及一种语音信号处理方法及装置。

背景技术

目前，很多通信终端(例如：智能音响、电脑、手机)中通常设置有扬声器和麦克风。在语音通话过程中，通信终端中的扬声器用来播放从远端发送过来的声音信号，终端中的麦克风用来收集当前端用户发出的声音信号。通常情况下，在多方用户进行语音通话过程中，麦克风和扬声器是同时工作的，因此，难以避免麦克风在采集当前端用户发出的有用声音信号的同时会采集到由扬声器发出的远端用户传来的回声以及环境噪声。

现有技术中的回声消除以及降噪处理算法需将有用声音与回声、噪声分离开，对回声、噪声进行单独抑制，进而减弱回声和噪声。然而，一旦有用声音与回声、噪声混合在一起之后，很难区分开，并且现有技术中回声和噪声消除算法难度高、消除难度大。若将现有技术中的回声消除以及降噪处理算法应用在语音通话场景(即人人交互场景)中，势必增加了人人交互场景中语音处理难度。

发明内容

本发明提供一种语音信号处理方法及装置，目的在于降低人人交互场景中回声和噪声消除难度。

于是，在本发明的一个实施例中，提供了一种语音信号处理方法。该方法包括：获取混合语音信号；按照降幅系数对所述混合语音信号进行降幅处理，以得到降幅信号；若所述降幅信号不满足预设条件，则调整所述降幅系数，直至采用调整后的所述降幅系数对所述混合语音信号降幅处理后得到的降幅信号满足所述预设条件；将满足所述预设条件的降幅信号作为处理后的输出信号。

可选地，根据所述混合语音信号的采样数量，确定所述降幅系数。

可选地，获取参考信号；采用最小均方根算法，计算所述降幅信号与所述参考信号的误差；若所述误差大于预设收敛系数，则判定所述降幅信号不满足所述预设条件。

可选地，所述调整所述降幅系数，包括：将所述误差作为调整后的所述降幅系数。

可选地，所述获取混合语音信号，包括：获取由麦克风阵列采集到的混合语音信号，所述混合语音信号为多路语音信号；相应的，所述方法，还包括：将满足所述预设条件的降幅处理后的多路语音信号转换成单路语音信号。

在本发明的另一实施例中，提供了一种语音信号处理装置。该装置包括：第一获取模块，用于获取混合语音信号；处理模块，用于按照降幅系数对所述混合语音信号进行降幅处理，以得到降幅信号；调整模块，用于若所述降幅信号不满足预设条件，则调整所述降幅系数，直至采用调整后的所述降幅系数对所述混合语音信号降幅处理后得到的降幅信号满足所述预设条件；输出模块，用于将满足所述预设条件的降幅信号作为处理后的输出信号。

本发明实施例提供的技术方案中，根据每一次的降幅处理结果来不断地调整降幅系数，直至采用调整后的降幅系数对混合语音信号进行降幅处理得到的处理结果满足条件为止，并将满足条件的处理结果作为最终的输出信号。可见，与现有技术相比，本方案无需将采集到的语音通信当前端用户发出的语音信号与扬声器发出的回声信号、背景噪声分离开以单独对回声信号、背景噪声进行抑制，而是对语音信号、回声信号和背景噪声进行共同抑制，以消除回声信号、背景噪声，有效降低了回声、噪声消除难度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的语音信号处理方法的流程示意图；

图2为本发明另一实施例提供的语音信号处理方法的流程示意图；

图3为本发明一实施例提供的语音信号处理装置的结构框图；

图4为本发明另一实施例提供的语音信号处理装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书、权利要求书及上述附图中描述的一些流程中，包含了按照特定顺序出现的多个操作，这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等，仅仅是用于区分各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明一实施例提供的语音信号处理方法的流程示意图。如图1所示，该方法包括：

101、获取混合语音信号。

102、按照降幅系数对所述混合语音信号进行降幅处理，以得到降幅信号。

103、若所述降幅信号不满足预设条件，则调整所述降幅系数，直至采用调整后的所述降幅系数对所述混合语音信号降幅处理后得到的降幅信号满足所述预设条件。

104、将满足所述预设条件的降幅信号作为处理后的输出信号。

目前市面上的终端多种多样，例如：台式电脑、笔记本电脑、固定电话、手机、智能音箱等。这些终端上通常会设置有麦克风和扬声器。麦克风用来拾取语音信号，扬声器用来播放远端传来的语音信号。一旦麦克风和扬声器同时工作，麦克风在拾取有用语音信号时也会拾取到扬声器发出的声音。例如：在人人交互中，语音通话的某一端的麦克风在拾取该端用户说话的声音的同时，扬声器正在播放语音通话的另一端用户传来的声音，麦克风不仅拾取到该端用户说话的声音信号，还会拾取到扬声器中播放出来的声音信号。将扬声器中播放出来的声音信号称为回声信号。除了上述的回声信号之外，若当前环境中存在有噪声信号，该噪声信号也会被麦克风拾取到。

上述步骤101中，可通过麦克风来拾取混合语音信号，混合语音信号中包括语音通信当前端用户发出的语音信号、扬声器发出的回声信号和噪声信号。所述麦克风可以为全指向性麦克风、单一指向性麦克风或双指向性麦克风。在麦克风拾取到混合语音信号之后，即可从麦克风处获取到混合语音信号。

上述步骤102中，在从麦克风处获取到混合语音信号之后，采用降幅系数来对混合语音信号进行降幅处理，即对混合语音信号的幅值进行压缩降低。降幅系数的初始值可以为任一小于1的随机非零值，还可以根据混合语音信号的采样数量，来确定所述降幅系数的初始值，例如：将采样数量的倒数作为所述降幅系数的初始值。采用降幅系数的初始值对所述混合语音信号进行降幅处理，以得到的降幅信号。

上述步骤103中，判断上述步骤102中采用降幅系数的初始值对所述混合语音信号进行降幅处理得到的降幅信号是否满足预设条件，若满足，则可直接将上述降幅信号作为最终的输出信号，结束降幅处理过程。若不满足，则需要调整所述降幅系数的值，并采用调整后的降幅系数对所述混合语音信号进行降幅处理得到又一降幅信号，若新的降幅信号还不满足预设条件，则继续调整所述降幅系数，直到采用调整后的降幅系数对所述混合语音信号进行降幅处理得到的降幅信号满足预设条件，才会停止对所述降幅系数的调整以及对混合语音信号的降幅处理。由于对语音信号进行处理之后，是需要将处理后的语音信号上传到云端进行语音识别和处理的，因此，处理后的语音信号需被云端识别，判断降幅信号是否满足预设条件，即是在判断降幅处理后的信号能否被云端识别和处理。

在上述步骤104中，将满足所述预设条件的降幅信号作为处理后的输出信号。

需要说明的是，本发明实施例提供的技术方案可应用于近场拾音或远场拾音场景中，且本发明实施例提供的技术方案尤其适用于人人交互场景中。现有技术中回声消除和噪声消除处理算法是需要单独对回声、噪声进行抑制，算法复杂度高。虽然现有技术中的回声消除和噪声消除算法在人机交互场景(例如：语音唤醒智能音箱)中具有较好的回声消除和降噪效果。然而，在人人交互应用场景中，语音是传达给用户，而不是传达给机器，由于用户对语音的识别能力高于机器，因此，可对混合语音信号进行一并处理以增强抑制效果，而无需对回声、噪声进行单独抑制，有效降低算法难度。

本发明实施例提供的技术方案中，根据每一次的降幅处理结果来不断地调整降幅系数，直至采用调整后的降幅系数对包含有语音通信当前端用户发出的语音信号、扬声器发出的回声信号和噪声信号的混合语音信号进行降幅处理得到的处理结果满足条件为止，并将满足条件的处理结果作为最终的输出信号。可见，与现有技术相比，本方案无需将采集到的语音通信当前端用户发出的语音信号、扬声器发出的回声信号和噪声信号分离开以单独对回声信号或噪声信号进行抑制，而是对语音信号、回声信号和噪声信号进行共同抑制，以消除回声和噪声信号，有效降低了回声和噪声消除难度。

在上述实施例中或下述各实施例中，所述混合语音信号可由数字麦克风或模拟麦克风来拾取，若混合语音信号为模拟麦克风拾取的，则需要在进行降幅处理之前，将模拟混合语音信号转换为数字混合语音信号。

在另一实施例中，所述混合语音信号可由麦克风阵列来拾取。由于由麦克风阵列拾取到的混合语音信号为多路语音信号，因此，在分别对多路语音信号进行上述降幅处理后，将满足预设条件的多路语音信号转换成单路语音信号。

图2为本发明另一实施例提供的语音信号处理方法的流程示意图。如图2所示，该方法包括：

201、获取混合语音信号。

202、按照降幅系数对所述混合语音信号进行降幅处理，以得到降幅信号。

203、获取参考信号。

204、采用最小均方根算法，计算所述降幅信号与所述参考信号的误差。

205、若所述误差大于预设收敛系数，则判定所述降幅信号不满足所述预设条件。

206、若所述降幅信号不满足预设条件，则调整所述降幅系数，直至采用调整后的所述降幅系数对所述混合语音信号降幅处理后得到的降幅信号满足所述预设条件。

207、将满足所述预设条件的降幅信号作为处理后的输出信号。

上述步骤201、202以及207可参见上述实施例中相应内容，在此不再赘述。

所述参考信号为预先设定的信号，也称为期望信号。只有当降幅处理后得到的降幅信号处于所述参考信号的预设范围内时，降幅信号才能够被云端识别和处理。

混合语音信号序列为u(n)，降幅系数为：W(n)，降幅信号序列y(n)＝W(n)^Tu(n)，所述降幅信号序列与所述参考信号序列的误差信号为E(n)＝d(n)-y(n)＝d(n)-W(n)^Tu(n)。通常来说，所述降幅信号序列与所述参考信号序列的误差越小，降幅信号序列越符合最终想要得到的信号。其中，n为迭代次数。由于u(n)、W(n)以及y(n)均为M个元素的集合，M为混合语音信号的采样数量。采用最小均方根算法计算所述降幅信号序列与所述参考信号序列的误差，所述误差即为所述降幅信号与所述参考信号的平方误差的平方根

将所述误差与预设收敛系数的值进行比较，若所述误差小于或等于所述预设收敛系数，则说明所述降幅信号满足预设条件，将所述降幅信号作为最终的输出信号。其中，所述预设收敛系数的值为预先设定的值，可根据实际情况对预设收敛系数的值进行设定，本发明对此不作具体限定。

若所述误差大于预设收敛系数，则说明所述降幅信号不满足预设条件，需要调整降幅系数的值。所述调整降幅系数的步骤，具体可采用如下方法实现：根据所述误差来调整所述降幅系数。例如：将所述误差作为调整后的所述降幅系数，即将所述降幅信号与所述参考信号的平方误差的平方根

作为调整后的所述降幅系数。也即是，将每一次迭代过程中得到的降幅信号与参考信号的平方误差的平方根作为下一次迭代过程中的降幅系数W(n+1)，直到采用调整后的降幅系数对混合语音信号降幅处理得到的降幅信号满足预设条件，才停止迭代。将最后一次迭代过程中得到的降幅信号作为最终的输出信号。

需要说明的是，降幅系数的初始值可设为混合语音信号的采样数量M的倒数1/M。此外，除了采用所述降幅信号与所述参考信号的平方误差的平方根作为所述误差，还可将所述降幅信号与所述参考信号的平方误差作为所述误差。

需要说明的是，麦克风拾取到的声音信号除了包括语音通信当前端用户发出的语音信号和扬声器发出的回声信号，还包括当前端环境中的噪声信号。由于回声信号和噪声信号的幅值都远远小于语音通信当前端用户发出的语音信号的幅值，因此，本方案中通过对混合语音信号进行降幅，不仅消除了回声信号，还消除了噪声信号。

下面将以最小均方根算法进行回声消除为例进行详细介绍：

获取到的混合语音信号u(n)为语音通信当前端用户发出的语音信号与扬声器发出的回声信号之和，将混合语音信号u(n)作为输入信号序列，n为迭代次数，n的初始值为0。u(n)中包括M个采样数据，M的值可按照实际需要进行提前设定，本发明对M的值不做具体限定。

降幅系数W(n)为自适应收敛系数，W(n)中包括M个权值。M个权值的初始值可均设为1/M。

输入信号为：u(n)＝[u₁，u₂，...，u_M]，降幅系数为：W(n)＝[W₁，W₂，...，W_M]，参考信号：d(n)＝[d₁，d₂，...，d_M]。

采用最小均方根算法对所述混合语音信号进行降幅处理过程如下：

步骤1：初始化降幅系数W(n)的值，W(0)＝[1/M，1/M，...，1/M]。

步骤2：采用降幅系数W(n)对混合语音信号W(n)进行降幅处理，以得到降幅信号：y(n)＝W(n)^Tu(n)＝[W₁u₁，W₂u₂，...，W_M u_M]。

步骤3：计算降幅信号与参考信号的平方误差的平方根：

步骤4：比较J(n)的值与预设收敛系数A的大小关系，若J(n)≤A，则算法结束，将降幅信号y(n)作为最终输出信号；若J(n)＞A，将所述J(n)的值作为下一次迭代时使用的降幅系数W(n+1)，并转入步骤2。

需要说明的是，在每一次迭代过程中，只有降幅系数的值在不断改变，u(n)和d(n)的值保持不变。

上述语音处理算法可集成在通信终端的线路主芯片中，也可集成在DSP中。

需要说明的是，除了上述最小均方根算法LMS(Least mean square)，还可采用归一化LMS算法来实现，即NLMS(normalized LMS)。

在本实施例中，采用最小均方根算法来对所述混合语音信号进行降幅处理，以消除混合语音信号中的回声信号。可见，本发明所采用的算法是对有用语音信号和回声信号进行共同抑制，无需将回声信号从有用语音信号中区分开，也就是说，本发明所采用简单的算法即可对回声信号进行有效抑制。

图3为本发明一实施例提供的语音信号处理装置的结构框图。如图3所示，该装置包括：第一获取模块301、处理模块302、调整模块303以及输出模块304。其中，

第一获取模块301，用于获取混合语音信号。

处理模块302，用于按照降幅系数对所述混合语音信号进行降幅处理，以得到降幅信号。

调整模块303，用于若所述降幅信号不满足预设条件，则调整所述降幅系数，直至采用调整后的所述降幅系数对所述混合语音信号降幅处理后得到的降幅信号满足所述预设条件。

输出模块304，用于将满足所述预设条件的降幅信号作为处理后的输出信号。

可选地，如图4所示，该装置还包括确定模块401。确定模块401，用于根据所述混合语音信号的采样数量，确定所述降幅系数。

可选地，如图4所示，该装置，还包括：第二获取模块501、计算模块502以及判定模块503。其中，

第二获取模块501，用于获取参考信号。

计算模块502，用于采用最小均方根算法，计算所述降幅信号与所述参考信号的误差。

判定模块503，用于若所述误差大于预设收敛系数，则判定所述降幅信号不满足所述预设条件。

可选地，所述调整模块303具体用于：将所述误差作为调整后的所述降幅系数。

可选地，所述第一获取模块301具体用于：获取由麦克风阵列采集到的混合语音信号，所述混合语音信号为多路语音信号；相应的，所述装置，还包括：转换模块，用于将满足所述预设条件的降幅处理后的多路语音信号转换成单路语音信号。

这里需要说明的是：上述实施例提供的语音信号处理装置可实现上述各方法实施例中描述的技术方案，上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容，此处不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音信号处理方法，其特征在于，包括：

获取混合语音信号；

按照降幅系数对所述混合语音信号进行降幅处理，以得到降幅信号；

若所述降幅信号不满足预设条件，则调整所述降幅系数，直至采用调整后的所述降幅系数对所述混合语音信号降幅处理后得到的降幅信号满足所述预设条件；其中，判断所述降幅信号是否满足所述预设条件，即是在判断降幅处理后的信号能否被云端识别和处理；

将满足所述预设条件的降幅信号作为处理后的输出信号。

2.根据权利要求1所述的方法，其特征在于，还包括：

根据所述混合语音信号的采样数量，确定所述降幅系数。

3.根据权利要求1或2所述的方法，其特征在于，还包括：

获取参考信号；

采用最小均方根算法，计算所述降幅信号与所述参考信号的误差；

若所述误差大于预设收敛系数，则判定所述降幅信号不满足所述预设条件。

4.根据权利要求3所述的方法，其特征在于，所述调整所述降幅系数，包括：

将所述误差作为调整后的所述降幅系数。

5.根据权利要求1或2所述的方法，其特征在于，所述获取混合语音信号，包括：获取由麦克风阵列采集到的混合语音信号，所述混合语音信号为多路语音信号；

相应的，所述方法，还包括：将满足所述预设条件的降幅处理后的多路语音信号转换成单路语音信号。

6.一种语音信号处理装置，其特征在于，包括：

第一获取模块，用于获取混合语音信号；

处理模块，用于按照降幅系数对所述混合语音信号进行降幅处理，以得到降幅信号；

调整模块，用于若所述降幅信号不满足预设条件，则调整所述降幅系数，直至采用调整后的所述降幅系数对所述混合语音信号降幅处理后得到的降幅信号满足所述预设条件；其中，判断所述降幅信号是否满足所述预设条件，即是在判断降幅处理后的信号能否被云端识别和处理；

输出模块，用于将满足所述预设条件的降幅信号作为处理后的输出信号。

7.根据权利要求6所述的装置，其特征在于，还包括：

确定模块，用于根据所述混合语音信号的采样数量，确定所述降幅系数。

8.根据权利要求6或7所述的装置，其特征在于，还包括：

第二获取模块，用于获取参考信号；

计算模块，用于采用最小均方根算法，计算所述降幅信号与所述参考信号的误差；

判定模块，用于若所述误差大于预设收敛系数，则判定所述降幅信号不满足所述预设条件。

9.根据权利要求8所述的装置，其特征在于，所述调整模块具体用于：将所述误差作为调整后的所述降幅系数。

10.根据权利要求6或7所述的装置，其特征在于，所述第一获取模块具体用于：获取由麦克风阵列采集到的混合语音信号，所述混合语音信号为多路语音信号；

相应的，所述装置，还包括：转换模块，用于将满足所述预设条件的降幅处理后的多路语音信号转换成单路语音信号。