CN113763978B

CN113763978B - 语音信号处理方法、装置、电子设备以及存储介质

Info

Publication number: CN113763978B
Application number: CN202110450066.0A
Authority: CN
Inventors: 梁俊斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2024-05-03
Anticipated expiration: 2041-04-25
Also published as: CN113763978A

Abstract

本申请实施例公开了一种语音信号处理方法、装置、电子设备以及存储介质，包括：在通话过程中获取采集信号以及参考信号；基于所述参考信号对所述采集信号进行回声消除处理，得到处理后语音信号；提取所述采集信号对应的第一信号音频特征以及所述参考信号对应的第二信号音频特征；根据所述第一信号音频特征以及第二信号音频特征，确定所述采集信号中近端语音信号的信号衰减；基于所述信号衰减抑制处理后语音信号中残留的回声信号，并对所述参考信号的音量进行调整，该方案可以提高语音信号处理的准确性。

Description

语音信号处理方法、装置、电子设备以及存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种语音信号处理方法、装置、电子设备以及存储介质。

背景技术

随着语音信号处理技术的不断发展，用户对语音质量要求也越来越高，若语音中出现有回声将会严重影响语音质量。回声产生的原理：语音信号在扬声器中播放以及在封闭或半封闭环境中经过多次反射而导致信号失真，最后与本地语音一起被麦克风采集从而形成回声。

为了消除回声对语音质量的影响，传统的消除回声方法主要是直接通过回声消除系统直接对麦克风采集的语音信号进行回声消除。然而，采用上述回声消除方法，无法解决扬声器存在的非线性失真问题，扬声器的非线性失真表现为：扬声器输出的声音中出现许多附加的非原有语音信号的失真信号，失真信号为扬声器非线性失真导致的非线性失真信号，现有的回声消除系统无法对非线性失真信号进行有效的处理，从而影响语音通信的质量。

发明内容

本发明实施例提供一种语音信号处理方法、装置、电子设备以及存储介质，可以提高语音通信的质量。

本发明实施例提供了一种语音信号处理方法，包括：

在通话过程中获取采集信号以及参考信号；

基于所述参考信号对所述采集信号进行回声消除处理，得到处理后语音信号；

提取所述采集信号对应的第一信号音频特征以及所述参考信号对应的第二信号音频特征；

根据所述第一信号音频特征以及第二信号音频特征，确定所述所述采集信号中近端语音信号的信号衰减；

基于所述信号衰减抑制处理后语音信号中残留的回声信号，并对所述参考信号的音量进行调整。

相应的，本申请实施例还提供了一种语音信号处理装置，包括：

获取模块，用于在通话过程中获取采集信号以及参考信号；

处理模块，用于基于所述参考信号对所述采集信号进行回声消除处理，得到处理后语音信号；

提取模块，用于提取所述采集信号对应的第一信号音频特征以及所述参考信号对应的第二信号音频特征；

确定模块，用于根据所述第一信号音频特征以及第二信号音频特征，确定所述采集信号中近端语音信号的信号衰减；

抑制模块，用于基于所述信号衰减抑制处理后语音信号中残留的回声信号；

调整模块，用于对所述参考信号的音量进行调整。

可选的，在本申请的一些实施例中，所述确定模块包括：

获取子模块，用于获取预设语音信号处理模型；

构建子模块，用于采用所述语音信号处理模型，构建所述第一信号音频特征对应的第一语音向量和第二信号音频特征对应的第二语音向量；

确定子模块，用于基于所述第一语音向量和第二语音向量，确定所述采集信号中近端语音信号的信号衰减。

可选的，在本申请的一些实施例中，所述确定子模块包括：

分解单元，用于对所述第一语音向量和第二语音向量进行音素分解处理，得到所述第一语音向量对应的第一音素以及所述第二语音向量对应的第二音素；

变换单元，用于对所述第一音素进行非线性变换，得到所述第一音素对应的非线性特征；

确定单元，用于基于所述非线性特征和第二音素，确定所述采集信号中近端语音信号的信号衰减。

可选的，在本申请的一些实施例中，所述确定单元包括：

第一确定子单元，用于确定与非线性特征对应的上下文特征；

第二确定子单元，用于基于所述上下文特征和第二音素，确定所述采集信号中近端语音信号的信号衰减。

可选的，在本申请的一些实施例中，第二确定子单元具体用于：

对所述上下文特征进行线性变换，得到所述第一音素的预测时长；

基于所述预测时长以及第二音素，识别所述采集信号中近端语音信号；

根据所述采集信号和近端语音信号，计算所述近端语音信号的信号衰减。

可选的，在本申请的一些实施例中，所述调整模块具体用于：

检测所述采集信号与抑制后语音信号之间的能量差；

当检测到所述采集信号与抑制后语音信号之间的能量差大于预设值时，则降低所述参考信号的音量。

可选的，在本申请的一些实施例中，所述抑制模块包括：

确定单元，用于确定信号衰减对应的信号衰减值；

计算单元，用于计算所述采集信号与信号衰减值之间的乘积，得到所述采集信号衰减后的功率谱值；

抑制单元，用于基于所述衰减后的功率谱值对所述采集信号中残留的回声信号进行抑制。

可选的，在本申请的一些实施例中，所述抑制单元具体用于：

获取所述采集信号的相位值；

基于所述功率谱值与相位值对所述采集信号中的回声信号进行抑制。

本申请实施例在通话过程中获取采集信号以及参考信号后，基于所述参考信号对所述采集信号进行回声消除处理，得到处理后语音信号，然后，提取所述采集信号对应的第一信号音频特征以及所述参考信号对应的第二信号音频特征，接着，根据所述第一信号音频特征以及第二信号音频特征，确定所述采集信号中近端语音信号的信号衰减，最后，基于所述信号衰减抑制处理后语音信号中残留的回声信号，并对所述参考信号的音量进行调整。因此，该方案可以提高语音通信的质量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的语音信号处理方法的场景示意图；

图1b是本申请实施例提供的语音信号处理方法的流程示意图；

图1c是本申请提供的语音检测模型的结构示意图；

图2a是本申请实施例提供的语音信号处理方法的另一流程示意图；

图2b是本申请实施例提供的语音信号处理方法的另一场景示意图

图3是本申请实施例提供的语音信号处理装置的结构示意图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。

深度学习是机器学习的核心部分，其通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。其中，深度学习是机器学习领域中一个新的研究方向。即，深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如，人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。

本申请实施例提供的方案涉及人工智能的深度学习技术，现通过如下实施例进行说明。

本申请实施例提供一种语音信号处理方法、装置、电子设备和存储介质。

其中，该语音信号处理装置具体可以集成在终端或服务器中。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，本申请在此不做限制。

例如，请参阅图1a，本申请提供一种语音通话系统，包括A用户使用的第一终端10以及B用户使用的第二终端20，为了方便描述，以语音信号处理装置集成在第一终端10为例进行具体说明，第一终端10(近端设备)为扬声器模式，A用户通过第一终端10与B用户进行通话，第一终端10的麦克风采集了近端讲话人(即A用户)的声音，同时也采集到第一终端10的扬声器播放出来的声音(即B用户的语音)，麦克风采集到的扬声器播放的声音称为回声，在本申请中，可以获取采集信号以及参考信号，然后，第一终端10基于参考信号对采集信号进行回声消除处理，得到处理后语音信号，接着，第一终端10提取所述采集信号对应的第一信号音频特征以及所述参考信号对应的第二信号音频特征，再然后，第一终端10可以根据第一信号音频特征以及第二信号音频特征，确定采集信号中近端语音信号的信号衰减，最后，第一终端10可以基于信号衰减抑制处理后语音信号中残留的回声信号，并对参考信号的音量进行调整。

本申请提供的语音信号处理方案，利用第一信号音频特征以及第二信号音频特征，确定采集信号中近端语音信号的信号衰减，最后，基于信号衰减抑制处理后语音信号中残留的回声信号，并对参考信号的音量进行调整，解决了扬声器回声残留的问题，从而提升语音通信的质量。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优先顺序的限定。

一种语音信号处理方法，包括：在通话过程中获取采集信号以及参考信号，基于参考信号对采集信号进行回声消除处理，得到处理后语音信号，提取采集信号对应的第一信号音频特征以及参考信号对应的第二信号音频特征，根据第一信号音频特征以及第二信号音频特征，确定采集信号中近端语音信号的信号衰减，基于信号衰减抑制处理后语音信号中残留的回声信号，并对参考信号的音量进行调整。

请参阅图1b，图1b为本申请实施例提供的语音信号处理方法的流程示意图。该语音信号处理方法的具体流程可以如下：

101、在通话过程中获取采集信号以及参考信号。

其中，麦克风采集到的语音称为采集信号，而扬声器播放出来的语音称为参考信号。本申请的语音信号处理方法，可以应用于语音通信的应用场景，也可以应用于带有扬声器播放的人机交互场景，例如具有语音通话的智能机器人、智能音箱、智能手表等智能设备。采集信号可以包括用户语音(通话语音)、音乐、背景音、合成音和提示音等音频信号。

若语音信号处理方法应用于语音通信的场景中，采集信号为由终端的麦克风所采集到的语音信号，该语音信号可以是频域或时域信号，频域信号可以是由时域信号进行傅里叶变换得到，需要说明的是，麦克风同时还会采集到噪声信号，该噪声信号可以是环境噪声，可以理解的是，采集信号是带噪语音信号，带噪语音信号是指带有噪声的语音信号。

若语音信号处理方法应用于人机交互场景，采集信号可以包括机器或人工智能设备通过语音合成得到的语音信号以及采集语音信号时，如语音文本转换为合成语音信号，本申请不作限定。

102、基于参考信号对采集信号进行回声消除处理，得到处理后语音信号。

比如，基于参考信号对采集信号进行回声消除处理，得到处理后语音信号，具体的，首先，将参考信号和采集信号中的回声进行同步对齐，对齐后的参考信号和采集信号经过自适应滤波器的处理，将回声中的线性部分抑制掉。当应用上述的自适应滤波器法消除线性回声后，其输出的信号中必然包含非线性回声，对本地语音存在干扰，故，可以利用声学回声消除(Acoustic Echo Cancellation，AEC)算法消除非线性回声，AEC算法是对扬声器信号(远端信号)与由它产生的多路径回声的相关性为基础，建立参考信号的语音模型，利用它对回声进行估计，并不断地修改滤波器的系数，使得估计值更加逼近真实的回声，然后，将回声估计值从话筒的输入信号(即采集信号)中减去，从而达到消除回声的目的。

需要说明的是，自适应滤波器是一个对输入信号进行处理并不停学习，直到其达到期望值的器件。自适应滤波器在输入信号非平稳条件下，也可以根据环境不断调节滤波器权值向量，使算法达到特定的收敛条件，从而实现自适应滤波过程。

自适应滤波器按输入信号类型可分为模拟滤波器和离散滤波器，本实施例中可以使用离散滤波器中的数字滤波器，数字滤波器按结构可划分为输入不仅与过去和当前的输入有关、还与过去的输出有关的无限冲激响应滤波器，以及输出与有限个过去和当前的输入有关的有限冲激响应滤波器，为了使得自适应滤波器具有更强的稳定性，并且具有足够的滤波器系数可以用来调整以达到特定的收敛准则，一般选取横向的限冲激响应滤波器进行来进行回声的消除。

103、提取采集信号对应的第一信号音频特征以及参考信号对应的第二信号音频特征。

其中，可以采用卷积神经网络提取提取采集信号对应的第一信号音频特征以及参考信号对应的第二信号音频特征，卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deep learning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力，能够按其阶层结构对输入信息进行平移不变分类(shift-invariant classification)，因此也被称为“平移不变人工神经网络(Shift-Invariant Artificial Neural Networks,SIANN)。

具体的，可以利用CNN提取采集信号对应的第一信号音频特征以及参考信号对应的第二信号音频特征，其中，第一信号音频特征可以携带有采集信号的功率谱和基音周期特征，第二信号音频特征可以携带有采集信号的功率谱和基音周期特征，功率谱是指信号功率随着频率的变化情况，即信号功率在频域的分布状况，基因周期是指人发声过程中声带每开启和闭合一次的周期时间，即可以用于指示有效音频信号的参数。

例如，采用bark域下，第一信号音频特征携带采集信号22维功率谱和1维基音周期，同样的，第二信号音频特征携带参考信号22维功率谱和1维基音周期，需要说明的是，Bark域是较早提出来的一种声音的心理声学尺度，心理声学(psychoacoustics)是研究声音和它引起的听觉之间关系的一门边缘学科，临界频带是听觉学和心理声学的专业名词，它于19世纪40年代年被Harvey Fletcher提出。耳蜗是内耳中听觉的传感器官，临界频带指的是由于耳蜗构造产生的听觉滤波器的频率带宽。概况地说，临界频带是声音频率带，在临界频带中第一个单音感知性会被第二单音的听觉掩蔽所干扰。声学研究中，人们使用听觉滤波器来模拟不同的临界频带。后来研究者发现人耳结构大致会对24个频率点产生共振，根据这个结论Eberhard Zwicker在1961年针对人耳特殊结构提出：信号在频带上也呈现出24个临界频带，分别从1到24，这就是Bark域。

104、根据第一信号音频特征以及第二信号音频特征，确定采集信号中近端语音信号的信号衰减。

在语音通话中，近端语音信号为近端的讲话者讲话被近端设备的音频采集设备采集到的语音信号，比如，用户A使用电话J与使用电话L的用户B进行语音通话，用户A的语音信号则为电话J的近端语音信号，用户L的语音信号则为电话J的远端语音信号。

可以理解的是，在语音通话时，由于外界的因素(如背景声以及回声)会导致语音信号中近端语音信号在传递时衰减，信号衰减则是用于衡量采集信号在信号传递时近端语音信号的衰减，在本申请中，可以利用预设的语音信号处理模型对第一信号音频特征以及第二信号音频特征进行处理，从而得到采集信号中近端语音信号的信号衰减，即，可选的，在一些实施例中，步骤“根据第一信号音频特征以及第二信号音频特征，确定采集信号中近端语音信号的信号衰减”，具体可以包括：

(11)获取预设语音信号处理模型；

(12)采用语音信号处理模型，构建第一信号音频特征对应的第一语音向量和第二信号音频特征对应的第二语音向量；

(13)基于第一语音向量和第二语音向量，确定采集信号中近端语音信号的信号衰减。

其中，语音信号处理模型可以是由运维人员预先构建的，也可以是由服务器构建的，可选的，在一些实施例中，语音信号处理模型可以包括4个全连接(Fully Connectedlayers，FC)以及3个门控循环单元(Gated Recurrent Unit，GRU)，如图1c所示。需要说明的是，全连接的核心操作就是矩阵向量乘积，本质就是由一个特征空间线性变换到另一个特征空间。在卷积神经网络中，FC层起到“分类器”的作用。如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话，全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。在实际使用中，全连接层可由卷积操作实现：对前层是全连接的全连接层可以转化为卷积核为1x1的卷积；而前层是卷积层的全连接层可以转化为卷积核为hxw的全局卷积，h和w分别为前层卷积结果的高和宽。GRU作为长短时记忆网络(Long Short Term Memory Network,LSTM)的一种变形，其本质上依然是一个循环神经网络(Recurrent Neural Network,RNN)，其输入是一类以序列数据为输入，在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络，因此，在本申请中，FC层的作用是将输入对应的嵌入向量从嵌入向量空间映射到其他维度的空间，因此，可以基于第一语音向量和第二语音向量，获取到其对应的音素，然后，基于获取到的音素确定采集信号中近端语音信号的信号衰减，即，可选的，在一些实施例中，步骤“基于第一语音向量和第二语音向量，确定采集信号中近端语音信号的信号衰减”，具体可以包括：

(21)对第一语音向量和第二语音向量进行音素分解处理，得到第一语音向量对应的第一音素以及第二语音向量对应的第二音素；

(22)对第一音素进行非线性变换，得到第一音素对应的非线性特征；

(23)基于非线性特征和第二音素，确定采集信号中近端语音信号的信号衰减。

其中，音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位。具体的，请参阅图1c，将第一音频信号特征输入至该语音检测模型后，通过第二全连接层将第一音频信号特征转换为采集信号中每个音素对应的嵌入向量，需要说明的是，本申请主要解决在语音通话时，麦克风采集到通话人与被通话人的语音导致出现回声的问题，由此，在一些实施例中，参考信号至少包括被通话用户的语音信号，因此，可以采用同样的方法，利用第一全连接层将第二音频信号特征转换为参考信号中每个音素对应的嵌入向量。

由于在语音通话中，语音是短时非平稳信号。所以，基于信号平稳、数据量足够多之假设所得到的分析结果,不能准确细致地刻划语音信号的非线性特征，故，需要对第一音素进行非线性变换处理，具体的，可以对每个第一音素的嵌入向量进行一系列的非线性变换，将嵌入向量的特征空间映射到维度更高的特征空间中，得到每个音素对应的非线性特征，然后，可以将该非线性特征和第二音素输入至GRU中，由此确定采集信号中近端语音信号的信号衰减，即，可选的，在一些实施例中，步骤“基于非线性特征和第二音素，确定采集信号中近端语音信号的信号衰减”，包括：

(31)确定与非线性特征对应的上下文特征；

(32)基于上下文特征和第二音素，确定采集信号中近端语音信号的信号衰减。

具体的，可以利用声学模型获取非线性特征对应的上下文特征，最后，基于上下文特征和第二音素，确定采集信号中近端语音信号的信号衰减，需要说明的是，在门控循环单元中，上一个时刻的网络状态信息可以作用于下一个时刻的网络状态，即当下一个时刻1到来时，网络神经元的状态不仅可以仅由1时刻的输入决定，也可以由0时刻的神经元状态决定。

请继续参阅图1c，将非线性特征输入至第二门控循环单元进行特征变化，不仅可以顺序读取各个音素(第一音素和第二音素)的非线性特征，从而获取上文信息，还可以反向读取各个音素的非线性特征，从而获取下文信息，从而得到非线性特征的有效的上下文信息，即得到上下文特征，其中，上下文特征可包括音素的语义特征和时序特征。

还需要说明的是，由于RNN网络存在反向传播路径太长导致的梯度消失/梯度爆炸的问题，所以，在本申请中，引入GRU，通过增加中间状态信息直接向后传播，以此缓解梯度消失问题。

进一步的，可以利用GRU预测每个第一音素的时长，并根据每个第一音素的预测时长和第二音素，预测每个音素的声学特征，确定近端语音信号的信号衰减，即，可选的，在一些实施例中，步骤“基于上下文特征和第二音素，确定采集信号中近端语音信号的信号衰减”，具体可以包括：

(41)对上下文特征进行线性变换，得到第一音素的预测时长；

(42)基于预测时长以及第二音素，识别采集信号中的近端语音信号；

(43)根据采集信号和近端语音信号，计算近端语音信号的信号衰减。

具体的，还是以图1c所示的模型为例，利用第四全连接层对对上下文特征进行线性变换，得到第一音素的预测时长，然后，基于第一音素的上下文特征和预测时长、以及第二音素，识别采集信号中的近端语音信号，最后，计算近端语音信号和采集信号之间比值，从而得到近端语音信号的信号衰减。

需要说明的是，该语音检测模型在训练时，可以利用大量的训练样本构建样本集，该样本集的采集信号样本可以是实测纯回声信号加入纯净语音信号构成，参考信号样本为实测过程的实际播放信号，即，扬声器播放的语音信号，为了使最终模型泛化性更好，采集信号样本的构造中可以加入不同噪声信号；而深度学习网络的目标输出中的回声标志的训练样本标识则为采集信号样本的实际能量判决结果，即，当采集信号样本的回声能量大于某阈值则回声标志设置为1，否则为0；而深度学习网络的目标衰减增益输出的训练样本目标值应为每一帧信号在bark域上各频点的纯语音信号功率谱除以采集信号功率谱的结果。训练过程中，回声标志采用交叉熵准则，而衰减增益采用均方误差准则，两者的加权和为最终的误差输出，然后，利用该误差输出调整语音检测模型的模型参数。

105、基于信号衰减抑制处理后语音信号中残留的回声信号，并对参考信号的音量进行调整。

例如，具体的，可以基于该信号衰减对采集信号中近端语音信号进行放大，实现对采集信号中的回声进行抑制，可选的，在一些实施例中，可以确定信号衰减对应的信号衰减值，然后，计算采集信号与信号衰减值之间的乘积，最后，利用该乘积对采集信号中的回声进行抑制，得到目标语音信号，即，可选的，在一些实施例中，步骤“基于信号衰减抑制处理后语音信号中残留的回声信号”，具体可以包括：

(51)确定信号衰减对应的信号衰减值；

(52)计算采集信号与信号衰减值之间的乘积，得到采集信号衰减后的功率谱值；

(53)基于衰减后的功率谱值对采集信号中残留的回声信号进行抑制

其中，功率谱是功率谱密度函数的简称，它定义为单位频带内的信号功率。它表示了信号功率随着频率的变化情况，即信号功率在频域的分布状况。功率谱表示了信号功率随着频率的变化关系。

具体的，计算采集信号各频点功率谱与信号衰减值之间的乘积，从而得到各频点衰减后的功率谱值，然后，再基于衰减后的功率谱值结合采集信号的相位对采集信号中的回声进行抑制，得到目标语音信号，即，可选的，在一些实施例中，步骤“基于衰减后的功率谱值对采集信号中的回声进行抑制，得到目标语音信号”，具体可以包括：

(61)获取采集信号的相位值；

(62)基于功率谱值与相位值对采集信号中残留的回声信号进行抑制。

在信号处理领域中，一个随机信号的频谱是随机的，频谱是频率谱密度的简称，是频率的分布曲线。复杂振荡分解为振幅不同和频率不同的谐振荡，这些谐振荡的幅值按频率排列的图形叫做频谱。频谱广泛应用于声学、光学和无线电技术等方面，每一次采样后得到的信号频谱是不一样的，然而，功率谱是恒定的，因此，可以基于周期图谱估计的原理，利用基于衰减后的功率谱值构建目标语音信号的双边功率谱密度幅值，然后，基于采集信号的相位值构建目标语音信号的相位谱，最后，基于傅里叶逆变换对双边功率谱密度幅值和相位谱进行处理，以对采集信号中残留的回声信号进行抑制。

可选的，在一些实施例中，在得到目标语音信号后，还可以检测采集信号与抑制后语音信号之间的能量差，当检测到采集信号与抑制后语音信号之间的能量差大于预设值时，则降低参考信号的音量，减少回声信号的产生，从而进一步提高语音通信的质量。

本申请实施例在获取由麦克风采集的采集信号以及由扬声器播放的参考信号后，提取采集信号对应的第一信号音频特征以及参考信号对应的第二信号音频特征，然后，根据第一信号音频特征以及第二信号音频特征，确定采集信号中近端语音信号的信号衰减，最后，基于信号衰减对采集信号中的回声进行抑制，得到目标语音信号。本申请提供的语音信号处理方案，利用第一信号音频特征以及第二信号音频特征，确定采集信号中近端语音信号的信号衰减，最后，基于信号衰减抑制处理后语音信号中残留的回声信号，并对参考信号的音量进行调整，解决了扬声器回声残留的问题，从而提升语音通信的质量。

根据实施例所述的方法，以下将举例进一步详细说明。

在本实施例中将以该语音信号处理装置具体集成在终端中为例进行说明。

请参阅图2a，一种语音信号处理方法，具体流程可以如下：

201、终端在通话过程中获取采集信号以及参考信号。

其中，本申请的语音信号处理方法，可以应用于语音通信的应用场景，也可以应用于带有扬声器播放的人机交互场景，例如具有语音通话的智能机器人、智能音箱、智能手表等智能设备。采集信号可以包括用户语音(通话语音)、音乐、背景音、合成音和提示音等音频信号。

202、终端基于参考信号对采集信号进行回声消除处理，得到处理后语音信号。

首先，终端将参考信号和采集信号中的回声进行同步对齐，对齐后的参考信号和采集信号经过自适应滤波器的处理，将回声中的线性部分抑制掉，然后，终端利用声学回声消除算法消除非线性回声，得到处理后语音信号。

203、终端提取采集信号对应的第一信号音频特征以及参考信号对应的第二信号音频特征。

其中，终端可以采用卷积神经网络提取提取采集信号对应的第一信号音频特征以及参考信号对应的第二信号音频特征。

204、终端根据第一信号音频特征以及第二信号音频特征，确定采集信号中近端语音信号的信号衰减。

语音通话时，由于外界的因素(如背景声以及回声)会导致语音信号中近端语音信号在传递时衰减，信号衰减则是用于衡量采集信号在信号传递时近端语音信号的衰减，在本申请中，可以利用预设的语音信号处理模型对第一信号音频特征以及第二信号音频特征进行处理，从而得到采集信号中近端语音信号的信号衰减。

205、终端基于信号衰减抑制处理后语音信号中残留的回声信号，并对参考信号的音量进行调整。

例如，具体的，终端计算采集信号各频点功率谱与信号衰减值之间的乘积，从而得到各频点衰减后的功率谱值，然后，再基于衰减后的功率谱值结合采集信号的相位对采集信号中的回声进行抑制。

为了便于进一步理解本申请的语音信号处理方法，以下以基于互联网的语音传输(Voice over Internet Protocol，VoIP)场景进行具体说明，VoIP通过语音的压缩算法把语音数据进行编码压缩处理后，按照网络传输协议标准进行打包，经过IP网络把数据包发送到目的IP地址，再把语音数据包解析并解压缩处理后，恢复原来的语音信号，从而达到通过互联网传送语音信号的目的。

例如，请参阅图2b，A端用户与B端用户利用VoIP技术进行语音通话，A端用户在与B端用户进行通话时，采用的是扬声器模式进行通话，A端用户设备的麦克风不仅采集到了A端用户的语音信号(简称A端语音)，还采集到B端用户的语音信号和B端用户所处场景下的噪声(统称参考信号)，由此，在A端用户设备中则会产生回声效应，故，云服务器获取由A端用户设备的麦克风采集的采集信号以及由A端用户设备的扬声器播放的参考信号后，云服务器基于参考信号对采集信号进行回声消除处理，得到处理后语音信号，接着，云服务器提取采集信号对应的第一信号音频特征以及参考信号对应的第二信号音频特征，再然后，云服务器根据第一信号音频特征以及第二信号音频特征，确定采集信号中近端语音信号的信号衰减，最后，云服务器基于信号衰减抑制处理后语音信号中残留的回声信号，并对参考信号的音量进行调整，同时将抑制后语音信号进行编码压缩处理后，按照网络传输协议标准进行打包，经过网络把数据包发送到B端用户设备的IP地址，B端用户设备接收到语音数据包后，对该语音数据包解析并解压缩处理后，得到抑制后语音信号，从而达到通过互联网传送语音信号的目的。

本申请实施例的终端在获取由麦克风采集的采集信号以及由扬声器播放的参考信号后，终端提取采集信号对应的第一信号音频特征以及参考信号对应的第二信号音频特征，然后，终端根据第一信号音频特征以及第二信号音频特征，确定采集信号中近端语音信号的信号衰减，最后，终端基于信号衰减对采集信号中的回声进行抑制，得到目标语音信号。本申请提供的语音信号处理方案，利用第一信号音频特征以及第二信号音频特征，确定采集信号中近端语音信号的信号衰减，最后，基于信号衰减抑制处理后语音信号中残留的回声信号，并对参考信号的音量进行调整，解决了扬声器回声残留的问题，从而提升语音通信的质量。

为便于更好的实施本申请实施例的语音信号处理方法，本申请实施例还提供一种基于上述语音信号处理装置(简称处理装置)。其中名词的含义与上述语音信号处理方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图3，图3为本申请实施例提供的语音信号处理装置的结构示意图，其中该处理装置可以包括获取模块301、处理模块302、提取模块303、确定模块304、抑制模块305以及调整模块306，具体可以如下：

获取模块301，用于在通话过程中获取采集信号以及参考信号。

获取模块301可以获取由手机的麦克风采集的采集信号以及由手机的扬声器播放的参考信号。

处理模块302，用于基于参考信号对采集信号进行回声消除处理，得到处理后语音信号。

首先，处理模块302将参考信号和采集信号中的回声进行同步对齐，对齐后的参考信号和采集信号经过自适应滤波器的处理，将回声中的线性部分抑制掉，然后，处理模块302利用声学回声消除算法消除非线性回声，得到处理后语音信号。

提取模块303，用于提取采集信号对应的第一信号音频特征以及参考信号对应的第二信号音频特征。

具体的，提取模块303可以利用CNN提取采集信号对应的第一信号音频特征以及参考信号对应的第二信号音频特征，其中，第一信号音频特征可以携带有采集信号的功率谱和基音周期特征，第二信号音频特征可以携带有采集信号的功率谱和基音周期特征，功率谱是指信号功率随着频率的变化情况，即信号功率在频域的分布状况，基因周期是指人发声过程中声带每开启和闭合一次的周期时间，即可以用于指示有效音频信号的参数。

确定模块304，用于根据第一信号音频特征以及第二信号音频特征，确定采集信号中近端语音信号的信号衰减。

例如，确定模块304可以利用预设的语音信号处理模型对第一信号音频特征以及第二信号音频特征进行处理，从而得到采集信号中近端语音信号的信号衰减。

可选的，在一些实施例中，确定模块304具体可以包括：

获取子模块，用于获取预设语音信号处理模型；

构建子模块，用于采用语音信号处理模型，构建第一信号音频特征对应的第一语音向量和第二信号音频特征对应的第二语音向量；

确定子模块，用于基于第一语音向量和第二语音向量，确定采集信号中近端语音信号的信号衰减。

可选的，在一些实施例中，确定子模块具体可以包括：

分解单元，用于对第一语音向量和第二语音向量进行音素分解处理，得到第一语音向量对应的第一音素以及第二语音向量对应的第二音素；

变换单元，用于对第一音素进行非线性变换，得到第一音素对应的非线性特征；

确定单元，用于基于非线性特征和第二音素，确定采集信号中近端语音信号的信号衰减。

可选的，在一些实施例中，确定单元具体可以包括：

第二确定子单元，用于基于上下文特征和第二音素，确定采集信号中近端语音信号的信号衰减。

可选的，在一些实施例中，第二确定子单元具体可以用于：对上下文特征进行线性变换，得到第一音素的预测时长；基于预测时长以及第二音素，识别采集信号中的近端语音信号；根据采集信号和近端语音信号，计算近端语音信号的信号衰减。

抑制模块305，用于基于信号衰减对采集信号中的回声进行抑制，得到目标语音信号。

例如，具体的，抑制模块305计算采集信号各频点功率谱与信号衰减值之间的乘积，从而得到各频点衰减后的功率谱值，然后，再基于衰减后的功率谱值结合采集信号的相位对采集信号中的回声进行抑制，得到目标语音信号。

可选的，在一些实施例中，抑制模块305具体可以包括：

确定单元，用于确定信号衰减对应的信号衰减值；

计算单元，用于计算采集信号与信号衰减值之间的乘积，得到采集信号衰减后的功率谱值；

抑制单元，用于基于衰减后的功率谱值对采集信号中残留的回声信号进行抑制。

可选的，在一些实施例中，抑制单元具体可以用于：获取采集信号的相位值；基于功率谱值与相位值对采集信号中残留的回声信号进行抑制。

调整模块306，用于对参考信号的音量进行调整.

可选的，在一些实施例中，调整模块306具体可以用于：检测采集信号与处理后语音信号之间的能量差，当检测到采集信号与所述处理后语音信号之间的能量差大于预设值时，则降低参考信号的音量。

本申请实施例的获取模块301在通话过程中获取采集信号以及参考信号后，处理模块302基于参考信号对采集信号进行回声消除处理，得到处理后语音信号，接着，提取模块303提取采集信号对应的第一信号音频特征以及参考信号对应的第二信号音频特征，然后，确定模块304根据第一信号音频特征以及第二信号音频特征，确定采集信号中近端语音信号的信号衰减，最后，抑制模块305基于信号衰减抑制处理后语音信号中残留的回声信号，调整模块306对参考信号的音量进行调整。本申请提供的语音信号处理方案，利用第一信号音频特征以及第二信号音频特征，确定采集信号中近端语音信号的信号衰减，最后，基于信号衰减抑制处理后语音信号中残留的回声信号，并对参考信号的音量进行调整，解决了扬声器回声残留的问题，从而提升语音通信的质量。

此外，本申请实施例还提供一种电子设备，如图4所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体检测。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

在通话过程中获取采集信号以及参考信号，基于参考信号对采集信号进行回声消除处理，得到处理后语音信号，提取采集信号对应的第一信号音频特征以及参考信号对应的第二信号音频特征，根据第一信号音频特征以及第二信号音频特征，确定采集信号中近端语音信号的信号衰减，基于信号衰减抑制处理后语音信号中残留的回声信号，并对参考信号的音量进行调整。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种语音信号处理方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种语音信号处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种语音信号处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种语音信号处理方法、装置、电子设备以及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音信号处理方法，其特征在于，包括：

在通话过程中获取采集信号以及参考信号；

根据所述第一信号音频特征以及第二信号音频特征，确定所述采集信号中近端语音信号的信号衰减；

基于所述信号衰减抑制处理后语音信号中残留的回声信号，并对所述参考信号的音量进行调整，包括：检测所述采集信号与抑制后语音信号之间的能量差；当检测到所述采集信号与抑制后语音信号之间的能量差大于预设值时，则降低所述参考信号的音量。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一信号音频特征以及第二信号音频特征，确定所述采集信号中近端语音信号的信号衰减，包括：

获取预设语音信号处理模型；

采用所述语音信号处理模型，构建所述第一信号音频特征对应的第一语音向量和第二信号音频特征对应的第二语音向量；

基于所述第一语音向量和第二语音向量，确定所述采集信号中近端语音信号的信号衰减。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一语音向量和第二语音向量，确定所述采集信号中近端语音信号的信号衰减，包括：

对所述第一语音向量和第二语音向量进行音素分解处理，得到所述第一语音向量对应的第一音素以及所述第二语音向量对应的第二音素；

对所述第一音素进行非线性变换，得到所述第一音素对应的非线性特征；

基于所述非线性特征和第二音素，确定所述采集信号中近端语音信号的信号衰减。

4.根据权利要求3所述的方法，其特征在于，所述基于所述非线性特征和第二音素，确定所述采集信号中近端语音信号的信号衰减，包括：

确定与非线性特征对应的上下文特征；

基于所述上下文特征和第二音素，确定所述采集信号中近端语音信号的信号衰减。

5.根据权利要求4所述的方法，其特征在于，所述基于所述上下文特征和第二音素，确定所述采集信号中近端语音信号的信号衰减，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述基于所述信号衰减抑制处理后语音信号中残留的回声信号，包括：

确定信号衰减对应的信号衰减值；

计算所述采集信号与信号衰减值之间的乘积，得到所述采集信号衰减后的功率谱值；

基于所述衰减后的功率谱值对所述采集信号中残留的回声信号进行抑制。

7.根据权利要求6所述的方法，其特征在于，所述基于所述衰减后的功率谱值对所述采集信号中残留的回声信号进行抑制，包括：

获取所述采集信号的相位值；

8.一种语音信号处理装置，其特征在于，包括：

获取模块，用于在通话过程中获取采集信号以及参考信号；

调整模块，用于对所述参考信号的音量进行调整，包括：检测所述采集信号与抑制后语音信号之间的能量差；当检测到所述采集信号与抑制后语音信号之间的能量差大于预设值时，则降低所述参考信号的音量。

9.根据权利要求8所述的装置，其特征在于，所述确定模块包括：

获取子模块，用于获取预设语音信号处理模型；

10.根据权利要求9所述的装置，其特征在于，所述确定子模块包括：

11.根据权利要求10所述的装置，其特征在于，所述确定单元包括：

12.根据权利要求11所述的装置，其特征在于，所述第二确定子单元具体用于：

13.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1-7任一项所述语音信号处理方法的步骤。

14.一种存储介质，其特征在于，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述语音信号处理方法的步骤。