CN115101097A

CN115101097A - 语音信号处理方法、装置、电子设备及存储介质

Info

Publication number: CN115101097A
Application number: CN202210686942.4A
Authority: CN
Inventors: 郝一亚; 陈功; 阮良; 马建立
Original assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Current assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2022-09-23

Abstract

本公开的实施例提供了一种语音信号处理方法、装置、电子设备及介质，涉及语音处理技术领域。所述方法包括：获取参考语音信号和待测语音信号；对参考语音信号和待测语音信号分别进行语音端点检测，并根据语音端点检测结果中参考语音信号的端点平移待测语音信号，得到与参考语音信号对齐的第一语音信号；计算参考语音信号和第一语音信号之间的互相关序列；根据互相关序列，计算第一语音信号相对于参考语音信号的延迟时间；根据延迟时间对齐第一语音信号和参考语音信号。本公开实施例通过语音端点检测将语音信号初步对齐后，可以基于语音信号的互相关序列将语音信号在采样点级别进行精细对齐，进一步提高了语音信号处理的精度。

Description

语音信号处理方法、装置、电子设备及存储介质

技术领域

本公开的实施方式涉及语音处理技术领域，更具体地，本公开的实施方式涉及语音信号处理方法、语音信号处理装置、电子设备以及计算机可读存储介质。

背景技术

本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

相关技术中，语音信号处理可以分为单通道处理和多通道处理。在多通道处理中，以两个输入声道为例，可以对两个输入声道进行降噪、回声消除等处理，也可以对输入的两个声道进行有源测试，实现对语音信号质量的评估。而对双声道语音信号处理时，需要两个输入声道的语音信号在起始时域位置和终止时域位置是对齐的，以保证语音信号处理的准确性。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的相关技术的信息。

发明内容

现有的语音信号对齐方法，包括基于VAD(Voice Activity Detection，语音活动检测)的语音信号对齐、基于语义的语音信号对齐等方法。但是，基于VAD的语音信号对齐的准确性和鲁棒性较差，且语音信号对齐的精度不高。基于语义的语音信号对齐是针对音色转换、语音识别的信号对齐方法。例如，针对两段包含相同语音内容，但在时序上存在偏移的语音信号，通过调整字或词之间的间隔，以使两段语音信号对齐，该语音信号的对齐效果也不满足有源测试中的信号对齐要求。

基于上述问题，发明人进行了相应的思考，做出了有针对性的改进，提供了一种语音信号处理方法、语音信号处理装置、电子设备以及计算机可读存储介质。

根据本公开实施例的第一方面，公开了一种语音信号处理方法，包括：

获取参考语音信号和待测语音信号，所述参考语音信号为未掺杂噪声信号的纯净语音信号，所述待测语音信号为在所述参考语音信号中加入噪声信号而得到的带噪语音信号；

对所述参考语音信号和所述待测语音信号分别进行语音端点检测，并根据语音端点检测结果中所述参考语音信号的端点平移所述待测语音信号，得到与所述参考语音信号对齐的第一语音信号；

计算所述参考语音信号和所述第一语音信号之间的互相关序列；

根据所述互相关序列，计算所述第一语音信号相对于所述参考语音信号的延迟时间；

根据所述延迟时间对齐所述第一语音信号和所述参考语音信号。

在一个实施例中，基于前述方案，所述对所述参考语音信号和所述待测语音信号分别进行语音端点检测，并根据语音端点检测结果中所述参考语音信号的端点平移所述待测语音信号，得到与所述参考语音信号对齐的第一语音信号，包括：

对所述待测语音信号进行语音端点检测，得到所述待测语音信号中包含有语音内容的第一信号片段；

对所述参考语音信号进行语音端点检测，得到所述参考语音信号中包含有语音内容的第二信号片段；

根据所述参考语音信号中包含有语音内容的第二信号片段的端点，平移所述待测语音信号中包含有语音内容的第一信号片段，得到第一语音信号，所述第一语音信号中包含有第三信号片段，所述第三信号片段与所述参考语音信号中包含有语音内容的第二信号片段是对齐的。

在一个实施例中，基于前述方案，所述对所述待测语音信号进行语音端点检测，得到所述待测语音信号中包含有语音内容的第一信号片段，包括：

对所述待测语音信号进行预处理；

对预处理后的所述待测语音信号进行基于能量的门限检测，得到所述待测语音信号中包含有语音内容的第一信号片段。

在一个实施例中，基于前述方案，所述对预处理后的所述待测语音信号进行基于能量的门限检测，得到所述待测语音信号中包含有语音内容的第一信号片段，包括：

计算预处理后的所述待测语音信号的短时能量；

对所述待测语音信号的短时能量进行直方图统计，得到所述待测语音信号的短时能量分布；

根据所述待测语音信号的短时能量分布确定所述待测语音信号的能量门限值；

根据所述待测语音信号的能量门限值对所述待测语音信号进行检测，得到所述待测语音信号中包含有语音内容的第一信号片段。

在一个实施例中，基于前述方案，所述根据所述待测语音信号的短时能量分布确定所述待测语音信号的能量门限值，包括：

通过对所述待测语音信号的短时能量分布进行解析，得到所述待测语音信号的噪声能量和所述待测语音信号的语音能量；

根据所述待测语音信号的噪声能量和所述待测语音信号的语音能量，计算所述待测语音信号的能量门限值。

在一个实施例中，基于前述方案，所述计算所述参考语音信号和第一语音信号之间的互相关序列，包括：

对所述参考语音信号和所述第一语音信号进行卷积运算，得到所述参考语音信号和所述第一语音信号之间的互相关序列。

在一个实施例中，基于前述方案，所述根据所述互相关序列，计算所述第一语音信号相对于所述参考语音信号的延迟时间，包括：

计算所述互相关序列在预设信号平移范围内的最大互相关值，并确定所述最大互相关值对应的采样点位置；

根据所述最大互相关值对应的采样点位置，计算所述第一语音信号相对于所述参考语音信号的延迟时间。

在一个实施例中，基于前述方案，所述根据所述最大互相关值对应的采样点位置计算所述第一语音信号相对于所述参考语音信号的延迟时间，包括：

根据

计算得到第一语音信号相对于参考语音信号的延迟时间；其中，τ_delay表示第一语音信号相对于参考语音信号的延迟时间，L1和L2分别表示参考语音信号与第一语音信号的信号长度，argmax_m∈[T1,T2]C_s(m)表示最大互相关值对应的采样点位置，[T1,T2]表示预设信号平移范围。

在一个实施例中，基于前述方案，所述根据所述延迟时间对齐所述第一语音信号和所述参考语音信号，包括：

根据所述延迟时间将所述第一语音信号进行平移，得到采样点与所述参考语音信号中的采样点对齐的第二语音信号。

在一个实施例中，基于前述方案，根据所述延迟时间对齐所述待测语音信号和所述参考语音信号后，所述方法还包括：

确定对齐后的所述待测语音信号和所述参考语音信号之间的时域差异量和频域差异量；

基于所述时域差异量和所述频域差异量，利用预设评估模型输出所述对齐后的待测语音信号的信号质量得分。

根据本公开实施例的第二方面，公开了一种语音信号处理装置，包括：语音信号获取模块、第一信号对齐模块、互相关序列计算模块、延迟时间确定模块以及第二信号对齐模块，其中：

语音信号获取模块，用于获取参考语音信号和待测语音信号，所述参考语音信号为未掺杂噪声信号的纯净语音信号，所述待测语音信号为在所述参考语音信号中加入噪声信号而得到的带噪语音信号；

第一信号对齐模块，用于对所述参考语音信号和所述待测语音信号分别进行语音端点检测，并根据语音端点检测结果中所述参考语音信号的端点平移所述待测语音信号，得到与所述参考语音信号对齐的第一语音信号；

互相关序列计算模块，用于计算所述参考语音信号和所述第一语音信号之间的互相关序列；

延迟时间确定模块，用于根据所述互相关序列，计算所述第一语音信号相对于所述参考语音信号的延迟时间；

第二信号对齐模块，用于根据所述延迟时间对齐所述第一语音信号和所述参考语音信号。

根据本公开实施例的第三方面，公开了一种电子设备，包括：处理器；以及存储器，存储器上存储有计算机可读指令，计算机可读指令被处理器执行时实现如第一方面公开的语音信号处理方法。

根据本公开实施例的第四方面，公开了一种计算机程序介质，其上存储有计算机可读指令，当计算机可读指令被计算机的处理器执行时，使计算机执行根据本公开第一方面公开的语音信号处理方法。

本公开实施例通过获取参考语音信号和待测语音信号，所述参考语音信号为未掺杂噪声信号的纯净语音信号，所述待测语音信号为在所述参考语音信号中加入噪声信号而得到的带噪语音信号；对所述参考语音信号和所述待测语音信号分别进行语音端点检测，并根据语音端点检测结果中所述参考语音信号的端点平移所述待测语音信号，得到与所述参考语音信号对齐的第一语音信号；计算所述参考语音信号和所述第一语音信号之间的互相关序列；根据所述互相关序列，计算所述第一语音信号相对于所述参考语音信号的延迟时间；根据所述延迟时间对齐所述第一语音信号和所述参考语音信号。一方面，通过语音端点检测将语音信号初步对齐后，可以基于语音信号的互相关序列将语音信号在采样点级别进行精细对齐，进一步提高了语音信号处理的精度；另一方面，在语音信号非线性失真的情况下或者在噪声环境中，通过参考语音信号和待测语音信号之间的互相关序列可以更加准确的计算出两个语音信号的延迟时间，进而根据该延迟时间可以将参考语音信号和待测语音信号进行采样点级别的精细对齐，提高了语音信号处理的准确性。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1示出了可以应用本公开实施例的语音信号处理方法的系统架构的示意图；

图2示出的是根据本公开一示例实施方式的语音信号处理方法的流程示意图；

图3示出的是根据本公开一示例实施方式的对语音信号进行粗对齐的流程示意图；

图4示出的是根据本公开一示例实施方式的对待测语音信号进行语音端点检测的流程示意图；

图5示出的是根据本公开一示例实施方式的待测语音信号的波形示意图；

图6示出的是根据本公开一示例实施方式的待测语音信号逐帧能量的直方图分布的示意图；

图7示出的是根据本公开一示例实施方式的对语音信号进行粗对齐的示意图；

图8示出的是根据本公开另一示例实施方式的语音信号处理方法的示意图；

图9示出了根据本公开一示例实施方式的语音信号处理装置的结构框图；

图10示出的是根据本公开一示例实施方式的计算机可读存储介质的示意图；

图11示出的是根据本公开一示例实施方式的电子设备的计算机系统的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提出了一种语音信号处理方法、语音信号处理装置、电子设备以及计算机可读存储介质。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

发明概述

相关的针对有源测试的语音信号对齐方法，包括基于VAD的语音信号对齐、基于语义的语音信号对齐等方法。其中，基于VAD的语音信号对齐是通过对语音信号和噪声信号进行区分，找到语音段，并通过语音段的信息(如能量和时间长度)对齐语音信号和噪声信号。基于语义的语音信号对齐和基于VAD的语音信号对齐的思路相似，也需要先找出语音段，再通过语音识别翻译成与时间轴对应的语义，最后进行对齐。

但是，基于VAD的语音信号对齐方法依赖于VAD算法的准确率，基于语义的语音信号对齐方法依赖于语音识别算法的准确率。在安静的环境中，VAD算法和语音识别算法的准确率较高，信号对齐的效果也比较理想。然而，在噪声环境中，特别是在非稳态噪声、低信噪比的情况下，VAD算法和语音识别算法的准确率较低，导致信号对齐的准确率也大幅降低。此外，在语音信号非线性失真的情况下，VAD算法和语音识别算法的准确率也较低，同样可能会导致语音信号对齐失败。

基于上述问题，本发明人想到可以获取参考语音信号和待测语音信号，所述参考语音信号为未掺杂噪声信号的纯净语音信号，所述待测语音信号为在所述参考语音信号中加入噪声信号而得到的带噪语音信号；对所述参考语音信号和所述待测语音信号分别进行语音端点检测，并根据语音端点检测结果中所述参考语音信号的端点平移所述待测语音信号，得到与所述参考语音信号对齐的第一语音信号；计算所述参考语音信号和所述第一语音信号之间的互相关序列；根据所述互相关序列，计算所述第一语音信号相对于所述参考语音信号的延迟时间；根据所述延迟时间对齐所述第一语音信号和所述参考语音信号。一方面，通过语音端点检测将语音信号初步对齐后，可以基于语音信号的互相关序列将语音信号在采样点级别进行精细对齐，进一步提高了语音信号处理的精度；另一方面，在语音信号非线性失真的情况下或者在噪声环境中，通过参考语音信号和待测语音信号之间的互相关序列可以更加准确的计算出两个语音信号的延迟时间，进而根据该延迟时间可以将参考语音信号和待测语音信号进行采样点级别的精细对齐，提高了语音信号处理的准确性。

在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。

应用场景总览

需要注意的是，下述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

本公开的实施方式可以针对有源测试中的参考语音信号和待测语音信号进行对齐，以根据对齐后的参考语音信号和待测语音信号实现语音信号质量的评估。具体地，可以先对待测语音信号和参考语音信号进行粗对齐。例如，在低信噪比环境、非稳态噪声环境中，可以通过基于能量的VAD算法将待测语音信号和参考语音信号进行粗对齐。其中，粗对齐是指将待测语音信号和参考语音信号在语音帧级别进行对齐，在粗对齐的基础上，将待测语音信号和参考语音信号在采样点级别进行对齐，从而实现语音信号的精细对齐。

可以理解的是，本公开中的语音信号处理方法适用但不限于利用对齐的语音信号进行有源测试的场景，还可以将本公开中的语音信号处理方法应用于对两个或多个输入声道进行降噪、回声消除等处理的场景，该场景中，同样需要将各个输入声道的语音信号进行对齐，本公开对此不做限定。

示例性方法

本公开的示例性实施方式首先提供一种语音信号处理方法，图1示出了可以应用该方法的系统架构图。如图1所示，系统架构100可以包括终端设备101、102、103中的一个或多个，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是安装有声音采集组件的各种电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等。其中，声音采集组件可以包括麦克风，用于接收语音信号。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

本公开的示例性实施方式所提供的语音信号处理方法一般由终端设备101、102、103中的一个或多个执行，相应的，语音信号处理装置也可以设置于终端设备101、102、103中。例如，终端设备101可以是测试人员使用的计算机，可以由终端设备101执行语音信号处理方法，将待测语音信号和参考语音信号进行对齐，并利用对齐的待测语音信号和参考语音信号进行信号质量评估。例如，得到待测语音信号的信号质量评估结果后，可以将信号质量评估结果直接显示在终端设备101的显示屏上以向测试人员展示，本示例性实施例中对此不做特殊限定。但本领域技术人员容易理解的是，本公开的示例性实施方式所提供的语音信号处理方法也可以由服务器105执行，相应地，语音信号处理装置也可以设置于服务器105中。例如，服务器105通过执行语音信号处理方法，对齐待测语音信号和参考语音信号，接着利用对齐的待测语音信号和参考语音信号进行信号质量评估。例如，得到待测语音信号的信号质量评估结果后，可以将信号质量评估结果发送至终端设备101，以将信号质量评估结果展示给测试人员。

下面对语音信号处理方法进行说明。

图2示出的是根据本公开一示例实施方式的语音信号处理方法的流程示意图。如图2所示，该语音信号处理方法可以包括：

步骤S210：获取参考语音信号和待测语音信号，所述参考语音信号为未掺杂噪声信号的纯净语音信号，所述待测语音信号为在所述参考语音信号中加入噪声信号而得到的带噪语音信号；

步骤S220：对所述参考语音信号和所述待测语音信号分别进行语音端点检测，并根据语音端点检测结果中所述参考语音信号的端点平移所述待测语音信号，得到与所述参考语音信号对齐的第一语音信号；

步骤S230：计算所述参考语音信号和所述第一语音信号之间的互相关序列；

步骤S240：根据所述互相关序列，计算所述第一语音信号相对于所述参考语音信号的延迟时间；

步骤S250：根据所述延迟时间对齐所述第一语音信号和所述参考语音信号。

实施图2所示的语音信号处理方法，一方面，通过语音端点检测将语音信号初步对齐后，可以基于语音信号的互相关序列将语音信号在采样点级别进行精细对齐，进一步提高了语音信号处理的精度；另一方面，在语音信号非线性失真的情况下或者在噪声环境中，通过参考语音信号和待测语音信号之间的互相关序列可以更加准确的计算出两个语音信号的延迟时间，进而根据该延迟时间可以将参考语音信号和待测语音信号进行采样点级别的精细对齐，提高了语音信号处理的准确性。

下面对这些步骤进行详细描述。

在步骤S210中，获取参考语音信号和待测语音信号，所述参考语音信号为未掺杂噪声信号的纯净语音信号，所述待测语音信号为在所述参考语音信号中加入噪声信号而得到的带噪语音信号。

本公开示例实施方式中，以针对有源测试中的参考语音信号和待测语音信号进行对齐的场景为例进行说明。示例性的，可以获取一段原始语音信号，该原始语音信号为未掺杂噪声信号的纯净语音信号，可以将该原始语音信号作为参考语音信号。待测语音信号为在参考语音信号中加入噪声信号而得到的带噪语音信号。例如，可以将参考语音信号经过播放、环境声音叠加、设备采集、通信系统等，使得参考语音信号中加入了噪声信号，从而得到带噪语音信号，可以将该带噪语音信号作为待测语音信号。

举例而言，对于一段时长为30s的纯净语音信号，以及一段将该纯净语音信号经过播放、环境声音叠加、设备采集、通信系统等得到的带噪语音信号，可以将该纯净语音信号中截取的信号片段作为参考语音信号，将该带噪语音信号中截取的信号片段作为待测语音信号。其中，参考语音信号和待测语音信号包含相同的语音内容。例如，截取到的参考语音信号为5s-20s之间的语音信号，截取到的待测语音信号为10s-25s之间的语音信号，此时，参考语音信号和待测语音信号包含相同的语音内容。若参考语音信号和待测语音信号之间存在偏移，可以将待测语音信号向参考语音信号对齐，并利用对齐后的待测语音信号和参考语音信号进行有源测试，以保证语音信号处理的准确性。

在步骤S220中，对所述参考语音信号和所述待测语音信号分别进行语音端点检测，并根据语音端点检测结果中所述参考语音信号的端点平移所述待测语音信号，得到与所述参考语音信号对齐的第一语音信号。

本公开示例实施方式中，可以将参考语音信号和待测语音信号通过粗对齐和精细对齐两个模块，在粗对齐模块先将二者在语音帧级别进行粗略对齐，再将粗对齐后的参考语音信号和待测语音信号基于语音信号的互相关性在采样点级别进行精细对齐，以不断接近并达到将参考语音信号和待测语音信号在时域上完全对齐的效果，进而提高语音信号处理的准确性。

一种示例实施方式中，可以先在粗对齐模块将参考语音信号和待测语音信号进行粗对齐。示例性的，可以通过VAD算法对参考语音信号和待测语音信号分别进行语音端点检测，并根据语音端点检测得到的信号片段实现参考语音信号和待测语音信号的粗对齐。其中，VAD算法可以从一段语音(纯净或带噪)信号中标识出语音片段与非语音片段。例如，可以通过基于能量的VAD算法对参考语音信号和待测语音信号进行语音端点检测。其中，语音信号的能量通常指的是时域上每帧语音信号的能量，即短时能量，语音信号的能量为语音信号的幅度的平方。再例如，也可以通过基于过零率的VAD算法对参考语音信号和待测语音信号进行语音端点检测，其中过零率表示一帧语音时域信号穿过0(时间轴)的次数。再例如，还可以通过基于模型的VAD算法等对参考语音信号和待测语音信号进行语音端点检测，其中模型可以是复高斯混合模型、深度神经网络模型等。其他示例实施方式中，还可以根据基于滤波器组实现参考语音信号和待测语音信号的粗对齐，本公开对此不做限定。

参考图3所示，示意性地给出了本公开一示例实施方式中对语音信号进行粗对齐的流程图，该示例中，可以通过基于能量的VAD算法实现语音信号的粗对齐。如图3所示，该过程可以包括步骤S310至步骤S330：

步骤S310.对所述待测语音信号进行语音端点检测，得到所述待测语音信号中包含有语音内容的第一信号片段。

需要说明的是，基于能量的VAD算法是通过检测语音信号的幅度，且基于能量的下限进行语音检测的。例如，可以假设能量的下限为信噪比(SNR，Signal-to-noise ratio)大于零，由于信噪比一般放在log区间，SNR＞0同时也表示语音能量大于噪声能量。可以设置一个能量门限值，当能量值大于该能量门限值时，即可以认为有语音存在。

对待测语音信号进行语音端点检测时，可以先对待测语音信号进行预处理，预处理可以包括加窗、分帧等处理。示例性的，可以将待测语音信号通过加窗划分为多个短时段，每一短时段称为一帧。例如，可以在时域上用窗函数去截取信号。具体的，可以利用时间窗函数乘以待测语音信号去截取信号，得到多帧语音信号，其中，时间窗函数可以是Rectangular窗(矩形窗)，也可以是Hamming窗(汉明窗)，还可以是Hanning窗(汉宁窗)、Bartlett窗(巴特雷特窗)等。另外，对待测语音信号进行加窗处理时，语音信号的幅度会发生变化，为了保持待测语音信号的原始幅度，即为了尽可能的不丢失语音信号动态变化的信息，还可以采用滑动窗，即帧与帧之间有一定的重叠，称为窗移，窗移可以取窗长的一半，示例性的，当窗长为20ms时，窗移也可以取10ms。通过添加时间窗函数或滑动窗，可以将语音信号进行平滑处理。

进一步的，可以对预处理后的待测语音信号进行基于能量的门限检测，得到待测语音信号中包含有语音内容的第一信号片段。参考图4所示，示意性地给出了本公开一示例实施方式中对语音信号进行端点检测的流程图。如图4所示，该过程可以包括步骤S410至步骤S440：

步骤S410.计算预处理后的所述待测语音信号的短时能量。

该示例中，可以对预处理后的待测语音信号进行基于短时能量的门限检测。将待测语音信号分为多帧语音信号后，可以对待测语音信号逐帧进行能量估计，得到待测语音信号的短时能量，也就是得到待测语音信号中每帧待测语音信号的能量。其中，对待测语音信号逐帧进行能量估计时，可以通过检测每帧待测语音信号的幅度，进而估计每帧待测语音信号的能量。参考图5所示，示意性的给出了待测语音信号的幅度谱，在图5中，横坐标为采样点，纵坐标为每个采样点对应的幅度大小，①表示幅度较大的语音部分，②表示幅度较小的噪声部分，可以看出待测语音信号中包含5个噪声段和4个语音段。

例如，可以计算每帧待测语音信号内所有采样点对应的语音信号幅度的平方和，得到每帧待测语音信号的能量E_s(i)，对应的有：

E_s(i)＝E{s(n),L} (1)

其中，s(n)表示待测语音信号，L表示每帧待测语音信号的长度。例如，可以将每帧待测语音信号的长度预设为10ms，当采样率为16kHz时一帧待测语音信号对应的采样点数目为160个。也可以根据实际应用需求将每帧待测语音信号的长度预设为任意数值，如20ms、30ms等，本公开对L的具体取值不做限定。E_s(i)表示将待测语音信号s(n)分帧后每帧待测语音信号的能量，如第i帧待测语音信号的能量。可以理解的是，若某帧待测语音信号的幅度值较小，对应的，该帧待测语音信号的能量值也较小。

步骤S420.对所述待测语音信号的短时能量进行直方图统计，得到所述待测语音信号的短时能量分布。

计算得到每帧待测语音信号的能量E_s(i)后，可以对每帧待测语音信号的能量E_s(i)进行统计，得到待测语音信号s(n)的短时能量分布。

例如，可以根据式(2)对每帧待测语音信号的能量E_s(i)进行直方图统计，即根据：

H_s(i)＝Histogram{E_s(i),D} (2)

其中，s(n)表示待测语音信号，D表示直方图中每个能量区间bin的宽度。示例性的，可以将能量区间bin的宽度设置为5dB，也可以根据实际需求将能量区间bin的宽度设置为其它值，本公开对此不做具体限定。H_s(i)表示第i帧待测语音信号的能量值在全部帧待测语音信号的能量值中的出现频率，即第i帧待测语音信号的能量值的出现次数在全部帧待测语音信号的能量值的出现总次数中的占比。对应的，待测语音信号s(n)的短时能量分布可以是待测语音信号逐帧能量的直方图分布。

参考图6所示，示意性的给出了待测语音信号逐帧能量的直方图分布。其中，横坐标为能量值，单位为dB，纵坐标为每帧待测语音信号的能量值在全部帧待测语音信号的能量值中的出现频率。例如，图6中能量值为-50dB的语音信号的出现频率为0，表示待测语音信号中不包括-50dB的语音帧。能量值为-38dB的语音信号的出现频率约为0.055，可以看出待测语音信号中能量值为-38dB的语音帧的出现频率较高。

步骤S430.根据所述待测语音信号的短时能量分布确定所述待测语音信号的能量门限值。

得到待测语音信号的短时能量分布后，可以通过对待测语音信号的短时能量分布进行解析，得到待测语音信号的噪声能量和待测语音信号的语音能量，并根据待测语音信号的噪声能量和待测语音信号的语音能量计算待测语音信号的能量门限值。

仍以图6所示的待测语音信号逐帧能量的直方图分布为例。由图6可知，在能量值约为-38dB和能量值约为-11dB处有两个波峰。由于语音信号能量大部分包含在低频带内，而噪音信号能量较小且含有较高频段的信息，对应的，第一个波峰(能量值出现频率高)对应于图5中噪声部分在待测语音信号中的占比，可以得出噪声能量约为-38dB。第二个波峰对应于图5中语音部分在待测语音信号中的占比，可以得出语音能量约为-11dB。因此，通过分析可以得到图6中的两个波峰分别表示噪声能量和语音能量，即噪声能量约为-38dB，语音能量约为-11dB。

进一步的，可以根据噪声能量和待测语音信号的语音能量计算待测语音信号的能量门限值。例如，可以将噪声能量和语音能量的中位数作为待测语音信号的能量门限值。举例而言，噪声能量为-38dB，语音能量为-11dB时，计算得到的能量门限值为-24.5dB。其他示例实施方式中，也可以统计全部帧待测语音信号的能量值，并计算全部帧待测语音信号的能量值的均方根，得到待测语音信号的平均能量值，将该平均能量值作为待测语音信号的能量门限值，该能量门限值也是由全局能量计算得到的，因此，在噪声环境下，可以更加准确地对待测语音信号进行检测，本公开对此不做限定。

步骤S440.根据所述待测语音信号的能量门限值对所述待测语音信号进行检测，得到所述待测语音信号中包含有语音内容的第一信号片段。

计算得到待测语音信号的能量门限值后，可以根据该能量门限值对待测语音信号进行检测。例如，当检测到待测语音信号的能量大于能量门限值时，输出的VAD值为1，当检测到待测语音信号的能量小于能量门限值时，输出的VAD值为0。基于此，可以得到待测语音信号中包含有语音内容的第一信号片段。其中，第一信号片段可以是整段待测语音信号，也可以是整段待测语音信号中的多帧语音信号，还可以是整段待测语音信号中的一帧语音信号，本公开对此不做限定。

可以理解的是，通过VAD算法可以将不包含语音内容的静音段或噪音部分筛选掉，得到待测语音信号中包含语音内容的第一信号片段。该示例中，通过统计全局能量计算VAD的能量门限值，利用该能量门限值对语音信号进行逐帧筛选，可以避免能量值较低的语音信号被筛选掉。举例而言，在噪声环境尤其是低信噪比、非稳态噪声中，不易于区分语音信号和噪声信号。而通过待测语音信号的全局能量也就是结合每一帧语音信号的能量计算得到VAD的能量门限值时，可以对噪声环境中能量值较低的语音信号进行准确识别。例如，对于某一帧能量值为-25dB的语音信号，若统计部分语音帧的能量得到的VAD的能量门限值为-20dB，则该帧语音信号会被识别为噪声部分而被筛选掉，从而降低了VAD算法识别语音信号的准确性。因此，在噪声环境尤其是低信噪比、非稳态噪声中，从全局能量出发确定VAD的能量门限值，并利用该能量门限值对语音信号进行逐帧筛选，可以更加准确地判断出语音信号和噪声信号，提高了VAD算法识别语音信号的鲁棒性。

步骤S320.对所述参考语音信号进行语音端点检测，得到所述参考语音信号中包含有语音内容的第二信号片段。

类似地，对参考语音信号进行语音端点检测时，也可以先对参考语音信号进行加窗、分帧等预处理，以将参考语音信号分为多帧语音信号。基于此，可以参考步骤S410至步骤S440，对分帧后的参考语音信号进行基于能量的VAD算法的语音端点检测，得到参考语音信号中包含有语音内容的第二信号片段，此处将不再赘述。其中，第二信号片段可以是整段参考语音信号，也可以是整段参考语音信号中的多帧语音信号，还可以是整段参考语音信号中的一帧语音信号，本公开对此不做限定。

参考图7所示，示意性的给出了基于能量的VAD算法对参考语音信号和待测语音信号进行检测的结果。其中，图(a)为参考语音信号r(n)的VAD检测结果，示意性的给出了参考语音信号中包含有语音内容的第二信号片段，图(b)为待测语音信号s(n)的VAD检测结果，示意性的给出了待测语音信号中包含有语音内容的第一信号片段。图(a)和图(b)中的横坐标均为采样点，纵坐标均为VAD值，其中，语音部分对应于VAD值为1的语音信号，噪声部分对应于VAD值为0的语音信号。举例而言，对于第2.5×10⁵个采样点，在图(a)所示的参考语音信号r(n)的VAD检测结果中，该采样点对应的VAD值为1，而在图(b)所示的待测语音信号s(n)的VAD检测结果中，该采样点对应的VAD值为0。可以看出，参考语音信号r(n)在时域上滞后于待测语音信号s(n)。

步骤S330.根据所述参考语音信号中包含有语音内容的第二信号片段的端点，平移所述待测语音信号中包含有语音内容的第一信号片段，得到第一语音信号，所述第一语音信号中包含有第三信号片段，所述第三信号片段与所述参考语音信号中包含有语音内容的第二信号片段是对齐的。

得到参考语音信号中包含有语音内容的第二信号片段和待测语音信号中包含有语音内容的第一信号片段后，可以根据参考语音信号中包含有语音内容的第二信号片段的端点，平移待测语音信号中包含有语音内容的第一信号片段，将第一信号片段中的所有语音帧与参考语音信号中第二信号片段中的所有语音帧进行对齐，得到粗对齐后的待测语音信号，即第一语音信号s₅(n)。其中，第一语音信号s₅(n)中包含有语音内容的第三信号片段，且该第三信号片段与参考语音信号中的第二信号片段在语音帧级别上是对齐的。

参考图7所示，以图(a)所示的参考语音信号包含有语音内容的第二信号片段作为参考，当参考语音信号在时域上滞后于待测语音信号时，可以将图(b)所示的待测语音信号中包含有语音内容的第一信号片段向右平移，以使第一信号片段中的每帧语音信号和第二信号片段的每帧语音信号对齐。

该示例中，通过统计全局能量计算VAD的能量门限值，可以避免能量值较低的语音信号被筛选掉，在噪声环境尤其是低信噪比、非稳态噪声中可以更加准确地判断出语音信号和噪声信号，提高了VAD算法识别语音信号的鲁棒性。基于此，将待测语音信号和参考语音信号在语音帧级别上进行对齐，提高了语音信号处理的准确性。

在步骤S230中，计算所述参考语音信号和所述第一语音信号之间的互相关序列。

在粗对齐模块将参考语音信号和待测语音信号进行粗对齐后，可以得到与参考语音信号粗对齐的第一语音信号。接着可以将参考语音信号和第一语音信号输入精细对齐模块，开始精细对齐。

一种示例实施方式中，可以通过确定参考语音信号和第一语音信号在时域上的相似性，根据参考语音信号和第一语音信号的相似度进行精细对齐。示例性的，可以通过计算参考语音信号和第一语音信号之间的互相关序列来确定参考语音信号和第一语音信号在时域上的相似性。其中，互相关序列可以反映参考语音信号和第一语音信号的相关系数以及参考语音信号中的采样点与第一语音信号中的采样点之间的偏移采样点数。

例如，计算参考语音信号和第一语音信号之间的互相关序列时，可以对第一语音信号和参考语音信号进行卷积运算，即根据：

C_s(m)＝[r(n)＊s₅(n)] (3)

其中，r(n)为参考语音信号，s_c(n)为第一语音信号，C_s(m)为第一语音信号s_c(n)和参考语音信号r(n)之间的互相关序列，m表示第m个采样点，n表示第n个采样点。

当两个语音信号的互相关序列较大时，表明两个语音信号的相似度较高，也即两个语音信号的采样点之间的偏移较少。基于此，可以根据互相关序列计算出两个语音信号的采样点之间的延迟时间，进而可以根据延迟时间将两个语音信号进一步对齐。而当两个语音信号的互相关序列为0时，说明两个信号完全不同，也即无需对两个语音信号进行对齐处理。因此，通过计算参考语音信号和第一语音信号的互相关序列，可以更加准确地计算出参考语音信号和第一语音信号之间的延迟时间，以便于实现参考语音信号和第一语音信号的精确对齐，从而提高有源测试模块对语音信号处理的准确性。

在步骤S240中，根据所述互相关序列，计算所述第一语音信号相对于所述参考语音信号的延迟时间。

示例性的，可以通过argmax函数计算互相关序列在预设信号平移范围内的最大互相关值，并确定最大互相关值对应的采样点位置。其中，argmax函数可以对目标函数进行求解，得到使该目标函数达到最大值时的自变量。对应的，利用argmax函数对互相关序列C_s(m)进行求解时，

表示互相关序列在预设信号平移范围[T₁,T₂]内的最大互相关值，并得到最大互相关值对应的采样点位置m。互相关值最大时，表示两个语音信号在时域上的相似度最高。进一步的，可以根据最大互相关值对应的采样点位置计算第一语音信号相对于参考语音信号的延迟时间。

例如，可以根据式(4)计算第一语音信号相对于参考语音信号的延迟时间，即根据：

其中，τ_delay表示第一语音信号相对于参考语音信号的延迟时间，本示例中的延迟时间表征的是语音信号中采样点的偏移量。L₁和L₂分别表示参考语音信号r(n)与第一语音信号s_c(n)的信号长度，

表示最大互相关值对应的采样点位置，[T₁,T₂]表示预设信号平移范围，T₁＝L₀-D₀，T₂＝L₀+D₀，

D₀为粗对齐中待测语音信号和参考语音信号之间的延迟时间。以图7中将待测语音信号和参考语音信号进行粗对齐的示意图为例，举例而言，D₀约为0.2×10⁵，表示参考语音信号相比于待测语音信号滞后的采样点数。

在式(4)中，当τ_delay＝0时，表示第一语音信号和参考语音信号是完全对齐的，式(4)左边表示第一语音信号和参考语音信号的长度叠加后的中间采样点位置，此时中间采样点位置也是互相关序列取到最大互相关值时对应的采样点位置。当第一语音信号和参考语音信号未对齐时，意味着该中间采样点位置L₀与互相关序列取到最大互相关值时对应的采样点位置之间存在延迟时间τ_delay。对应的，式(4)也可以写为：

在步骤S250中，根据所述延迟时间对齐所述第一语音信号和所述参考语音信号。

由式(5)得到第一语音信号相对于参考语音信号的延迟时间后，可以根据延迟时间将第一语音信号中的采样点进行平移，得到采样点与参考语音信号中的采样点对齐的第二语音信号，从而将第一语音信号和参考语音信号完全对齐。对应的有：

s_out(n)＝s₅(n-τ_delay) (6)

其中，s_out(n)为经过时序移动后与参考语音信号r(n)对齐的第二语音信号，τ_delay为第一语音信号相对于参考语音信号的延迟时间。

该示例中，在语音信号非线性失真的情况下或者在噪声环境中，通过计算参考语音信号和待测语音信号之间的互相关序列可以更加准确的计算出两个语音信号的延迟时间，进而根据该延迟时间可以将参考语音信号和待测语音信号进行采样点级别的精细对齐，提高了语音信号处理的准确性。

图8给出了本公开另一示例实施方式中进行语音信号处理的流程示意图，可以将参考语音信号r(n)和待测语音信号s(n)输入语音信号对齐模块，以将参考语音信号r(n)和待测语音信号s(n)进行更高精度的对齐，并将对齐后的参考语音信号r(n)和待测语音信号s(n)输入有源测试模块进行信号质量评估。其中，语音信号对齐模块包括两个模块，分别为基于能量VAD算法的粗对齐模块和基于互相关性的精细对齐模块。具体地，如图8所示，可以包括步骤S801至步骤S803。

步骤S801：将参考语音信号r(n)和待测语音信号s(n)输入基于能量VAD算法的粗对齐模块。在粗对齐模块中，通过全局统计待测语音信号能量得到一个较优的能量门限值，基于该能量门限值可以得到待测语音信号s(n)中包含有语音内容的第一信号片段，类似的，也可以得到参考语音信号r(n)中包含有语音内容的第二信号片段。进一步的，通过平移待测语音信号s(n)中包含有语音内容的第一信号片段，使得待测语音信号s(n)中第一信号片段的语音帧与参考语音信号r(n)中第二信号片段的语音帧对齐，从而实现参考语音信号r(n)和待测语音信号s(n)的粗对齐。通过粗对齐模块后，可以输出参考语音信号r(n)和与参考语音信号r(n)粗对齐的第一语音信号s_c(n)；

步骤S802：将参考语音信号r(n)和第一语音信号s_c(n)输入基于互相关性的精细对齐模块。在精细对齐模块中，通过计算参考语音信号r(n)和第一语音信号s_c(n)之间的互相关序列，根据该互相关序列可以计算得到第一语音信号s_c(n)相对于参考语音信号r(n)的延迟时间。进一步的，可以根据延迟时间将第一语音信号s₅(n)中的采样点进行平移，使得第一语音信号s_c(n)中的每个采样点和参考语音信号r(n)中每个采样点均对齐，从而实现参考语音信号r(n)和第一语音信号s_c(n)的精细对齐。对应的，通过精细对齐模块后，输出参考语音信号r(n)和与参考语音信号r(n)精细对齐的第二语音信号s_out(n)；

步骤S803：将参考语音信号r(n)和第二语音信号s_out(n)输入有源测试模块。在有源测试模块中，可以通过预设评估模型输出第二语音信号s_out(n)的信号质量得分。其中，预设评估模型可以是PESQ(Perceptual evaluation of speech quality，主观语音质量评估)、POLQA(Perceptual Objective Listening Quality Assessment，感知客观听力质量评估)等模型。以PESQ模型为例，PESQ模型是ITU.P.862标准提供的一种客观MOS(MeanOpinion Score，平均意见得分)值评价方法。示例性的，可以通过有源测试模块确定参考语音信号r(n)和第二语音信号s_out(n)之间的时域差异量和频域差异量，基于时域差异量和频域差异量，利用预设评估模型输出第二语音信号s_out(n)的信号质量得分。例如，可以将时域差异量和频域差异量综合成一组参数，并将这组参数输入PESQ模型中，最后输出一个代表待测语音信号质量的MOS分。

本公开示例实施方式中，需要参考语音信号r(n)和待测语音信号s(n)两个输入信号，先后通过粗对齐模块和精细对齐模型，将待测语音信号s(n)向参考语音信号r(n)对齐，并将二者剪切成长度相同的语音信号。最后，通过有源测试模块利用对齐后的待测语音信号和参考语音信号进行评测。通过对对齐精度较高的待测语音信号和参考语音信号进行语音质量评估，可以更加准确地输出语音信号的质量，拓宽了有源测试模块在移动通信、互联网、公共安全等领域的应用范围。

本公开实施例中，一方面，通过语音端点检测将语音信号初步对齐后，可以基于语音信号的互相关序列将语音信号在采样点级别进行精细对齐，进一步提高了语音信号处理的精度；另一方面，在语音信号非线性失真的情况下或者在噪声环境中，通过参考语音信号和待测语音信号之间的互相关序列可以更加准确的计算出两个语音信号的延迟时间，进而根据该延迟时间可以将参考语音信号和待测语音信号进行采样点级别的精细对齐，提高了语音信号处理的准确性。

示例性装置

参考图9对本公开示例性实施方式的语音信号处理装置进行说明。

图9示出的是根据本公开一示例实施方式的语音信号处理装置的结构框图。如图9所示，本公开一示例实施方式的语音信号处理装置900包括：语音信号获取模块910、第一信号对齐模块920、互相关序列计算模块930、延迟时间确定模块940以及第二信号对齐模块950，其中：

语音信号获取模块910，用于获取参考语音信号和待测语音信号，所述参考语音信号为未掺杂噪声信号的纯净语音信号，所述待测语音信号为在所述参考语音信号中加入噪声信号而得到的带噪语音信号；

第一信号对齐模块920，用于对所述参考语音信号和所述待测语音信号分别进行语音端点检测，并根据语音端点检测结果中所述参考语音信号的端点平移所述待测语音信号，得到与所述参考语音信号对齐的第一语音信号；

互相关序列计算模块930，用于计算所述参考语音信号和所述第一语音信号之间的互相关序列；

延迟时间确定模块940，用于根据所述互相关序列，计算所述第一语音信号相对于所述参考语音信号的延迟时间；

第二信号对齐模块950，用于根据所述延迟时间对齐所述第一语音信号和所述参考语音信号。

在一种可选的实施方式中，第一信号对齐模块920包括：

第一端点检测模块，用于对所述待测语音信号进行语音端点检测，得到所述待测语音信号中包含有语音内容的第一信号片段；

第二端点检测模块，用于对所述参考语音信号进行语音端点检测，得到所述参考语音信号中包含有语音内容的第二信号片段；

信号平移模块，用于根据所述参考语音信号中包含有语音内容的第二信号片段的端点，平移所述待测语音信号中包含有语音内容的第一信号片段，得到第一语音信号，所述第一语音信号中包含有第三信号片段，所述第三信号片段与所述参考语音信号中包含有语音内容的第二信号片段是对齐的。

在一种可选的实施方式中，第一端点检测模块，包括：

信号预处理子模块，用于对所述待测语音信号进行预处理；

第一端点检测子模块，用于对预处理后的所述待测语音信号进行基于能量的门限检测，得到所述待测语音信号中包含有语音内容的第一信号片段。

在一种可选的实施方式中，第一端点检测子模块，包括：

短时能量计算单元，用于计算预处理后的所述待测语音信号的短时能量；

短时能量统计单元，用于对所述待测语音信号的短时能量进行直方图统计，得到所述待测语音信号的短时能量分布；

能量门限值确定单元，用于根据所述待测语音信号的短时能量分布确定所述待测语音信号的能量门限值；

第一语音段确定单元，用于根据所述待测语音信号的能量门限值对所述待测语音信号进行检测，得到所述待测语音信号中包含有语音内容的第一信号片段。

在一种可选的实施方式中，能量门限值确定单元，包括：

能量确定子单元，用于通过对所述待测语音信号的短时能量分布进行解析，得到所述待测语音信号的噪声能量和所述待测语音信号的语音能量；

能量门限值确定子单元，用于根据所述待测语音信号的噪声能量和所述待测语音信号的语音能量，计算所述待测语音信号的能量门限值。

在一种可选的实施方式中，互相关序列计算模块930被配置为：

用于对所述参考语音信号和所述第一语音信号进行卷积运算，得到所述参考语音信号和所述第一语音信号之间的互相关序列。

在一种可选的实施方式中，延迟时间确定模块940包括：

采样点位置确定单元，用于计算所述互相关序列在预设信号平移范围内的最大互相关值，并确定所述最大互相关值对应的采样点位置；

延迟时间确定单元，用于根据所述最大互相关值对应的采样点位置，计算所述第一语音信号相对于所述参考语音信号的延迟时间。

在一种可选的实施方式中，延迟时间确定单元被配置为：

用于根据

计算得到第一语音信号相对于参考语音信号的延迟时间τ_delay；其中，L1和L2分别表示参考语音信号与第一语音信号的信号长度，arg max_m∈[T1,T2]C_s(m)表示最大互相关值对应的采样点位置，[T1,T2]表示预设信号平移范围。

在一种可选的实施方式中，第二信号对齐模块950被配置为：

用于根据所述延迟时间将所述第一语音信号进行平移，得到采样点与所述参考语音信号中的采样点对齐的第二语音信号。

在一种可选的实施方式中，语音信号处理装置900还包括：

语音信号分析模块，用于确定对齐后的所述待测语音信号和所述参考语音信号之间的时域差异量和频域差异量；

信号质量评估模块，用于基于所述时域差异量和所述频域差异量，利用预设评估模型输出所述对齐后的待测语音信号的信号质量得分。

应当注意，尽管在上文详细描述中提及了语音信号处理装置的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

示例性介质

在介绍了本公开示例性实施方式的方法之后，接下来，对本公开示例性实施方式的介质进行说明。

本示例性实施方式中，可以通过程序产品实现上述方法，如可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

该程序产品可以采用一个或多个可读介质的任意组合。如图10所示，给出了适于用来实现本公开实施例的计算机可读存储介质的示意图。其中，可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RE等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言-诸如Java、C++等，还包括常规的过程式程序设计语言-诸如"C"语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(FAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

示例性电子设备

在介绍了本公开示例性实施方式的方法、装置和介质之后，接下来，介绍根据本公开的一示例性实施方式的电子设备。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

图11示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图11示出的电子设备的计算机系统1100仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图11所示，电子设备1100以通用计算设备的形式表现。电子设备1100的组件可以包括但不限于：至少一个处理单元1110、至少一个存储单元1120、连接不同系统组件(包括存储单元1120和处理单元1110)的总线1130、显示单元1140。

其中，存储单元存储有程序代码，程序代码可以被处理单元1110执行，使得处理单元1110执行本说明书上述"示例性方法"部分中描述的根据本公开各种示例性实施方式的步骤。例如，处理单元1110可以执行如图2所示的方法步骤等。

存储单元1120可以包括易失性存储单元，例如随机存取存储单元(RAM)1121和/或高速缓存存储单元1122，还可以进一步包括只读存储单元(ROM)1123。

存储单元1120还可以包括具有一组(至少一个)程序模块1125的程序/实用工具1124，这样的程序模块1125包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1130可以包括数据总线、地址总线和控制总线。

电子设备1100也可以与一个或多个外部设备1200(例如键盘、指向设备、蓝牙设备等)通信，这种通信可以通过输入/输出(I/O)接口1150进行。电子设备1100还包括显示单元1140，其连接到输入/输出(I/O)接口1150，用于进行显示。并且，电子设备1100还可以通过网络适配器1160与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1160通过总线1130与电子设备1100的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1100使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了装置的若干模块或子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种语音信号处理方法，其特征在于，包括：

2.根据权利要求1所述的语音信号处理方法，其特征在于，所述对所述参考语音信号和所述待测语音信号分别进行语音端点检测，并根据语音端点检测结果中所述参考语音信号的端点平移所述待测语音信号，得到与所述参考语音信号对齐的第一语音信号，包括：

3.根据权利要求2所述的语音信号处理方法，其特征在于，所述对所述待测语音信号进行语音端点检测，得到所述待测语音信号中包含有语音内容的第一信号片段，包括：

对所述待测语音信号进行预处理；

4.根据权利要求3所述的语音信号处理方法，其特征在于，所述对预处理后的所述待测语音信号进行基于能量的门限检测，得到所述待测语音信号中包含有语音内容的第一信号片段，包括：

计算预处理后的所述待测语音信号的短时能量；

5.根据权利要求4所述的语音信号处理方法，其特征在于，所述根据所述待测语音信号的短时能量分布确定所述待测语音信号的能量门限值，包括：

对所述待测语音信号的短时能量分布进行解析，得到所述待测语音信号的噪声能量和所述待测语音信号的语音能量；

6.根据权利要求1所述的语音信号处理方法，其特征在于，所述根据所述互相关序列，计算所述第一语音信号相对于所述参考语音信号的延迟时间，包括：

7.根据权利要求4所述的语音信号处理方法，其特征在于，所述根据所述延迟时间对齐所述第一语音信号和所述参考语音信号，包括：

8.一种语音信号处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器被配置为经由执行所述可执行指令来执行权利要求1-7中的任意一项所述的语音信号处理方法。

10.一种计算机可读存储介质，其上存储计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7中的任意一项所述的语音信号处理方法。