CN111540365B

CN111540365B - 语音信号确定方法、装置、服务器及存储介质

Info

Publication number: CN111540365B
Application number: CN202010665168.XA
Authority: CN
Inventors: 冯大航; 靳源; 陈孝良
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2020-10-23
Anticipated expiration: 2040-07-10
Also published as: CN111540365A

Abstract

本公开提供了一种语音信号确定方法、装置、服务器及存储介质，属于语音识别技术领域。该方法包括：获取至少两个采集设备采集的第一语音信号，对于任一第一采集设备的第一语音信号，滤除第一语音信号中包含的噪声信号，得到第二语音信号，基于第二语音信号的信号能量，确定目标采集设备，将目标采集设备的第二语音信号作为发言人的语音信号。本公开通过对每个采集设备的语音信号进行噪声滤除，提高了语音信号的信噪比，也就提高了计算信号能量的精确性，则各个语音信号的信号能量差也随之提高，进而根据信号能量判断目标采集设备时，可以避免信号能量相差不多的情况，提高了确定目标采集设备的准确性，也提高了确定发言人的语音信号的准确性。

Description

语音信号确定方法、装置、服务器及存储介质

技术领域

本公开涉及语音识别技术领域，特别涉及一种语音信号确定方法、装置、服务器及存储介质。

背景技术

随着计算机技术的发展，语音识别技术的应用范围越来越广泛，将语音识别技术应用到会议系统也越来越普及。在会议过程中，可以通过采集设备（如麦克风）采集发言人的语音信号，然后利用语音识别技术可以直接将发言人的语音信号转化为文字记录下来，则无需人工进行会议记录。一般地，一个采集设备负责采集一个发言人的语音信号，但在会议过程中，若两个人距离较近，则其中一人发言时，其语音信号可能会传入另一个人的采集设备中，此时两个采集设备都接收到了语音信号，这种情况下，需要根据两个采集设备接收的语音信号，来确定发言人对应的采集设备，进而确定该采集设备对应的语音信号，作为发言人的语音信号。

目前，语音信号确定方法通常为：若一个发言人发言，两个采集设备都接收到语音信号时，根据每个采集设备接收的语音信号，计算每个采集设备接收的语音信号的能量，确定接收的能量大的语音信号对应的采集设备，作为发言人对应的采集设备，进而确定该采集设备接收的语音信号，作为发言人的语音信号。

上述技术方案中若两个人距离很近，由于房间混响等因素的存在，其采集设备接收到的语音信号的能量相差不多，甚至某些情况下，距离远的采集设备接收到的语音信号的能量还会大一些，容易导致误判，使得确定出的发言人的采集设备的准确性低，且确定出的发言人的语音信号的准确性低。

发明内容

本公开实施例提供了一种语音信号确定方法、装置、服务器及计算机可读存储介质，可以提高确定发言人对应的采集设备的准确性，也提高确定发言人的语音信号的准确性。该语音信号确定方法、装置、服务器及计算机可读存储介质的技术方案包括以下内容。

一方面，提供了一种语音信号确定方法，该方法包括：

获取至少两个采集设备采集的第一语音信号；

对于任一第一采集设备采集的第一语音信号，基于至少一个第二采集设备采集的第一语音信号，滤除所述第一采集设备采集的第一语音信号中包含的噪声信号，得到第二语音信号，所述第一采集设备为所述至少两个采集设备中任一个采集设备，所述第二采集设备为所述至少两个采集设备中除所述第一采集设备以外的采集设备；

基于所述至少两个第一采集设备的第二语音信号的信号能量，确定目标采集设备，所述目标采集设备为发言人对应的采集设备；

将所述目标采集设备的第二语音信号确定为所述发言人的语音信号。

在一种可能的实现方式中，所述对于任一第一采集设备采集的第一语音信号，基于至少一个第二采集设备采集的第一语音信号，滤除所述第一采集设备采集的第一语音信号中包含的噪声信号，得到第二语音信号包括：

基于所述第一采集设备采集的第一语音信号与所述至少一个第二采集设备采集的第一语音信号，通过自适应滤波器滤除所述第一采集设备采集的第一语音信号中包含的噪声信号，得到所述第一采集设备的第二语音信号。

在一种可能的实现方式中，所述滤除所述第一采集设备采集的第一语音信号中包含的噪声信号之前，所述方法还包括：

基于所述至少一个第二采集设备采集的第一语音信号，确定所述第一采集设备采集的第一语音信号中包含的噪声信号。

在一种可能的实现方式中，所述基于所述至少一个第二采集设备采集的第一语音信号，确定所述第一采集设备采集的第一语音信号中包含的噪声信号包括：

将所述至少一个第二采集设备采集的第一语音信号输入自适应滤波器，通过所述自适应滤波器对所述至少一个第二采集设备采集的第一语音信号进行自适应滤波处理，得到所述至少一个第二采集设备采集的噪声信号，作为所述第一采集设备采集的第一语音信号中包含的噪声信号。

在一种可能的实现方式中，所述将所述至少一个第二采集设备采集的第一语音信号输入自适应滤波器，通过所述自适应滤波器对所述至少一个第二采集设备采集的第一语音信号进行自适应滤波处理之后，所述方法还包括：

基于所述至少一个第二采集设备采集的第一语音信号，调整所述自适应滤波器的步长参数，所述步长参数与所述自适应滤波器的计算速度及计算稳定性相关；

基于所述自适应滤波器的步长参数，更新所述自适应滤波器；

基于更新后的自适应滤波器，对所述至少一个第二采集设备采集的第一语音信号进行自适应滤波处理。

在一种可能的实现方式中，所述基于所述至少一个第二采集设备采集的第一语音信号，调整所述自适应滤波器的步长参数包括：

基于所述至少一个第二采集设备采集的第一语音信号，计算所述至少一个第二采集设备的第一语音信号的信号总功率；

根据所述信号总功率，调整所述自适应滤波器的步长参数。

在一种可能的实现方式中，所述基于所述至少两个第一采集设备的第二语音信号的信号能量，确定目标采集设备包括：

基于所述至少两个第一采集设备对应的信号能量，在所述至少两个第一采集设备中，确定信号能量最大的第一采集设备，作为所述目标采集设备。

在一种可能的实现方式中，所述将所述目标采集设备的第二语音信号确定为所述发言人的语音信号之后，所述方法还包括：

将所述至少两个第一采集设备中除所述目标采集设备以外的采集设备的语音信号删除。

在一种可能的实现方式中，所述至少一个第二采集设备为所述第一采集设备的关联采集设备。

一方面，提供了一种语音信号确定装置，该装置包括：

获取模块，用于获取至少两个采集设备采集的第一语音信号；

滤除模块，用于对于任一第一采集设备采集的第一语音信号，基于至少一个第二采集设备采集的第一语音信号，滤除所述第一采集设备采集的第一语音信号中包含的噪声信号，得到第二语音信号，所述第一采集设备为所述至少两个采集设备中任一个采集设备，所述第二采集设备为所述至少两个采集设备中除所述第一采集设备以外的采集设备；

采集设备确定模块，用于基于所述至少两个第一采集设备的第二语音信号的信号能量，确定目标采集设备，所述目标采集设备为发言人对应的采集设备；

语音信号确定模块，用于将所述目标采集设备的第二语音信号确定为所述发言人的语音信号。

在一种可能的实现方式中，所述滤除模块，用于：

基于所述第一采集设备采集的第一语音信号与所述至少一个第二采集设备采集的第一语音信号，通过自适应滤波器滤除所述第一采集设备采集的第一语音信号中包含的噪声信号的，得到所述第一采集设备的第二语音信号。

在一种可能的实现方式中，所述装置还包括噪声信号确定模块，用于：

在一种可能的实现方式中，所述噪声信号确定模块，用于：

在一种可能的实现方式中，所述装置还包括：

调整模块，用于基于所述至少一个第二采集设备采集的第一语音信号，调整所述自适应滤波器的步长参数，所述步长参数与所述自适应滤波器的计算速度及计算稳定性相关；

更新模块，用于基于所述自适应滤波器的步长参数，更新所述自适应滤波器；

滤除模块，还用于基于更新后的自适应滤波器，对所述至少一个第二采集设备采集的第一语音信号进行自适应滤波处理。

在一种可能的实现方式中，所述调整模块，用于：

根据所述信号总功率，调整所述自适应滤波器的步长参数。

在一种可能的实现方式中，所述采集设备确定模块，用于：

在一种可能的实现方式中，所述装置还包括删除模块，用于：

一方面，提供了一种服务器，该服务器包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条程序代码，该程序代码由该一个或多个处理器加载并执行以实现该语音信号确定方法所执行的操作。

一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该程序代码由处理器加载并执行以实现该语音信号确定方法所执行的操作。

本公开实施例提供的方案，通过对每个采集设备接收的语音信号进行滤波处理，滤除了基于其他采集设备确定出的该采集设备所包含的噪声信号，得到滤波后的第二语音信号，提高了语音信号的信噪比，也就提高了计算信号能量的精确性，则各个采集设备之间的信号能量的差值也随之提高，进而在根据第二语音信号的信号能量来判断目标采集设备时，可以避免出现信号能量相差不多的情况，提高了确定目标采集设备的准确性，也提高了确定发言人的语音信号的准确性。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种语音信号确定方法的实施环境示意图；

图2是本公开实施例提供的一种语音信号确定方法的流程图；

图3是本公开实施例提供的一种语音信号确定方法的流程图；

图4是本公开实施例提供的一种语音信号确定方法的应用场景示意图；

图5是本公开实施例提供的一种语音信号确定方法的滤波示意图；

图6是本公开实施例提供的一种语音信号确定装置的结构示意图；

图7是本公开实施例提供的一种服务器的结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施方式作进一步地详细描述。

图1是本公开实施例提供的一种语音信号确定方法的实施环境示意图，参见图1，该实施环境包括：采集设备101、服务器102。

采集设备101可以为一种具有语音采集功能的终端设备，如智能手机、智能手表、台式电脑、手提电脑、虚拟现实终端、增强现实终端、无线终端和膝上型便携计算机等设备中的至少一种，或者，采集设备101也可以为一种语音采集设备，如麦克风、语音采集传感器等，采集设备101可用于采集会议室内发言人的语音信号，一个采集设备负责采集一个发言人的语音信号。采集设备101可以泛指多个采集设备中的一个，本实施例仅以采集设备101来举例说明。本领域技术人员可以知晓，上述采集设备的数量可以更多或更少。

服务器102可以为一种具有语音处理功能的会议服务器，服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式文件系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102与采集设备101可以通过有线或无线通信方式进行直接或间接的连接，本公开实施例在此不作限定。服务器102可以关联有语音信号数据库与文本信息数据库，该语音信号数据库用于存储多个发言人的语音信号，该文本信息数据库用于存储多个发言人语音信号对应的文本信息。可选地，上述服务器102的数量可以更多或更少，本公开实施例对此不加以限定。当然，服务器102还可以包括其他功能服务器，以便提供更全面且多样化的服务。

在实现本公开实施例的过程中，当发言人讲话时，采集设备101可以采集到发言人的语音信号，将采集的语音信号发送至服务器102，则服务器102响应于接收到语音信号，基于采集设备101采集的语音信号以及本公开实施例提供的方法，来确定发言人的语音信号，进而对语音信号进行语音识别，得到发言人语音信号对应的文本信息，生成会议记录，存储至文本信息数据中。

图2是本公开实施例提供的一种语音信号确定方法的流程图，参见图2，该实施例仅服务器为执行主体进行说明，该方法包括以下步骤。

201、服务器获取至少两个采集设备采集的第一语音信号。

202、服务器对于任一第一采集设备采集的第一语音信号，基于至少一个第二采集设备采集的第一语音信号，滤除该第一采集设备采集的第一语音信号中包含的噪声信号，得到第二语音信号，该第一采集设备为该至少两个采集设备中任一个采集设备，该第二采集设备为该至少两个采集设备中除该第一采集设备以外的采集设备。

203、服务器基于该至少两个第一采集设备的第二语音信号的信号能量，确定目标采集设备，该目标采集设备为发言人对应的采集设备。

204、服务器将该目标采集设备的第二语音信号确定为该发言人的语音信号。

在一种可能的实现方式中，该对于任一第一采集设备采集的第一语音信号，基于至少一个第二采集设备采集的第一语音信号，滤除该第一采集设备采集的第一语音信号中包含的噪声信号，得到第二语音信号包括：

基于该第一采集设备采集的第一语音信号与该至少一个第二采集设备采集的第一语音信号，通过自适应滤波器滤除该第一采集设备采集的第一语音信号中包含的噪声信号，得到该第一采集设备的第二语音信号。

在一种可能的实现方式中，滤除该第一采集设备采集的第一语音信号中包含的噪声信号之前，该方法还包括：

基于该至少一个第二采集设备采集的第一语音信号，确定该第一采集设备采集的第一语音信号中包含的噪声信号。

在一种可能的实现方式中，该基于该至少一个第二采集设备采集的第一语音信号，确定该第一采集设备采集的第一语音信号中包含的噪声信号包括：

将该至少一个第二采集设备采集的第一语音信号输入自适应滤波器，通过该自适应滤波器对该至少一个第二采集设备采集的第一语音信号进行自适应滤波处理，得到该至少一个第二采集设备采集的噪声信号，作为该第一采集设备采集的第一语音信号中包含的噪声信号。

在一种可能的实现方式中，该将该至少一个第二采集设备采集的第一语音信号输入自适应滤波器，通过该自适应滤波器对该至少一个第二采集设备采集的第一语音信号进行自适应滤波处理之后，该方法还包括：

基于该至少一个第二采集设备采集的第一语音信号，调整该自适应滤波器的步长参数，该步长参数与该自适应滤波器的计算速度及计算稳定性相关；

基于该自适应滤波器的步长参数，更新该自适应滤波器；

基于更新后的自适应滤波器，对该至少一个第二采集设备采集的第一语音信号进行自适应滤波处理。

在一种可能的实现方式中，该基于该至少一个第二采集设备采集的第一语音信号，调整该自适应滤波器的步长参数包括：

基于该至少一个第二采集设备采集的第一语音信号，计算该至少一个第二采集设备的第一语音信号的信号总功率；

根据该信号总功率，调整该自适应滤波器的步长参数。

在一种可能的实现方式中，该基于该至少两个第一采集设备的第二语音信号的信号能量，确定目标采集设备包括：

基于该至少两个第一采集设备对应的信号能量，在该至少两个第一采集设备中，确定信号能量最大的第一采集设备，作为该目标采集设备。

在一种可能的实现方式中，该将该目标采集设备的第二语音信号确定为该发言人的语音信号之后，该方法还包括：

将该至少两个第一采集设备中除该目标采集设备以外的采集设备的语音信号删除。

在一种可能的实现方式中，该至少一个第二采集设备为该第一采集设备的关联采集设备。

上述图2所示仅为本公开的语音信号确定方法的基本流程，下面基于一种具体实施方式，来对本公开提供的语音信号确定方法进行进一步阐述，图3是本公开实施例提供的一种语音信号确定方法的流程图，参见图3，该实施例以服务器为执行主体进行说明，该方法包括以下步骤。

301、服务器获取至少两个采集设备采集的第一语音信号。

其中，第一语音信号为采集设备采集的原始语音信号，该第一语音信号为通过音频采集和声电转换所形成的数字信号。该至少两个采集设备是指采集到语音信号的采集设备。可选地，一种可能的实现方式中，若当前时刻仅有一名发言人讲话，则该至少两个采集设备可以为发言人对应的采集设备与距离发言人较近的至少一个采集设备。例如，图4示出了一种语音信号确定方法的应用场景示意图，采集设备可以为麦克风，通常麦克风数量等于发言人数量，其中每个人可以对应一个麦克风进行发言，如发言人1对应Mic1。但在实际应用中，也会出现麦克风数量大于发言人数量的情况，如5个麦克风，3个发言人。本公开实施例对麦克风数量和发言人数量是否相等不作限定。如图4所示，会议室中包括5个麦克风，若发言人2讲话，该至少两个采集设备可以为麦克风1和麦克风2，或者，该至少两个采集设备可以为麦克风2和麦克风3，或者，该至少两个采集设备可以为麦克风1、麦克风2和麦克风3。另一种可能的实现方式中，若当前时刻有多名发言人讲话，则该至少两个采集设备可以为该多名发言人分别对应的采集设备，或者，该至少两个采集设备可以为该多名发言人分别对应的采集设备以及距离该多名发言人较近的至少一个采集设备。例如，如图4所示，若发言人2和发言人5讲话，则该至少两个采集设备可以为麦克风2、麦克风5，或者，该至少两个采集设备可以为麦克风2、麦克风5和麦克风1，或者，该至少两个采集设备可以为全部的麦克风。

在一种可能的实现方式中，在会议过程中，若发言人讲话，则距离该发言人较近的至少两个采集设备均可以采集到该发言人的语音信号，该至少两个采集设备将采集到的语音信号发送至服务器，则服务器可以获取到至少两个采集设备采集的语音信号，也即是服务器获取到至少两个采集设备采集的第一语音信号。

302、对于任一第一采集设备采集的第一语音信号，服务器将至少一个第二采集设备采集的第一语音信号输入自适应滤波器，通过该自适应滤波器对该至少一个第二采集设备采集的第一语音信号进行自适应滤波处理，得到该至少一个第二采集设备采集的噪声信号，作为第一采集设备采集的第一语音信号中包含的噪声信号，该第一采集设备为该至少两个采集设备中任一个采集设备，该第二采集设备为该至少两个采集设备中除该第一采集设备以外的采集设备。

其中，自适应滤波器是指根据环境的改变，利用自适应滤波算法来改变滤波器的参数，进而达到最佳滤波特性的滤波器。自适应滤波器通常由一组抽头延迟线、可变加权系数与自动调整参数组成，在自适应滤波处理时，按照特定的自适应滤波算法来调整参数，并更新加权系数，以达到最佳滤波特性。噪声信号用于表示第一采集设备采集的第一语音信号中除该第一采集设备对应发言人语音信号以外的信号，例如该噪声信号为该发言人的语音信号的回声信号、其他发言人的语音信号、其他发言人的语音信号的回声信号中的任意一种或者多种。其中，回声信号是指发言人讲话时由于房间混响、回声等原因产生的信号，房间混响是指声波在室内传播时被墙壁、天花板、地板等障碍物多次反射与多次吸收才消失的现象。在本公开实施例中，噪声信号用于表示第一采集设备所对应的噪声信号，也就是说，上述至少一个第二采集设备采集的噪声信号是相对于第一采集设备的噪声信号，并不是说至少一个第二采集设备采集到自身对应的噪声信号。

需要说明的是，至少一个第二采集设备采集的噪声信号实际上是与第一采集设备采集的第一语音信号包含的噪声信号强相关的信号。实际上，第一采集设备采集的第一语音信号包含的噪声信号和第二采集设备采集到的噪声信号并不是完全相同的信号，本公开实施例中将麦克风2采集到的噪声信号近似为麦克风1中所包含的噪声信号，以进行后续滤波处理。应理解地，当该至少一个第二采集设备不是发言人对应的采集设备时，该至少一个第二采集设备采集的第一语音信号可能包括上述发言人的语音信号和上述发言人的语音信号的回声信号，也可能仅包括上述发言人的语音信号的回声信号。例如，如图4所示，若发言人2讲话，且至少一个第二采集设备为麦克风1、麦克风3、麦克风4和麦克风5时，麦克风1和麦克风3作为距离发言人2最近的两个麦克风，所采集的语音信号可能包括了发言人2的语音信号和/或发言人2的语音信号的回声信号，而麦克风4和麦克风5作为距离发言人较远的两个麦克风，所采集的语音信号可能仅包括了发言人2的语音信号的回声信号。

下面以单人讲话和多人讲话的两种应用场景对噪声信号进行说明：一种可能的实现方式中，在当前时刻仅有一名发言人讲话的场景下，如图4所示，发言人1讲话且该至少两个采集设备为麦克风1和麦克风2时，若麦克风1为第一采集设备，麦克风2为第二采集设备，则第一采集设备（麦克风1）中包含的噪声信号可以为发言人1的语音信号的回声信号。若麦克风2为第一采集设备，麦克风1为第二采集设备，则第一采集设备（麦克风2）中包含的噪声信号可以为发言人1的语音信号和发言人1的语音信号的回声信号的任意一种或两种，应理解地，麦克风2并不是用于采集发言人1语音信号的麦克风，此时相对于麦克风2来说发言人1的语音信号及其回声信号即噪声信号，也即是其他发言人的语音信号和其他发言人的语音信号的回声信号。另一种可能的实现方式中，在当前时刻有多名发言人讲话的场景下，如图4所示，发言人1和发言人2讲话且该至少两个采集设备为麦克风1和麦克风2时，若麦克风1为第一采集设备，麦克风2为第二采集设备，则第一采集设备（麦克风1）中包含的噪声信号可以为发言人1的语音信号的回声信号、发言人2的语音信号和发言人2的语音信号的回声信号的任意一种或多种。若麦克风2为第一采集设备，麦克风1为第二采集设备，则第一采集设备（麦克风2）中包含的噪声信号可以为发言人2的语音信号的回声信号、发言人1的语音信号和发言人1的语音信号的回声信号的任意一种或多种。

在一种可能的实现方式中，基于至少一个第二采集设备采集的第一语音信号，来确定该第一采集设备采集的第一语音信号中包含的噪声信号，相应过程可以为：对于任一第一采集设备采集的第一语音信号，确定该第一采集设备对应的至少一个第二采集设备，服务器将该至少一个第二采集设备采集的第一语音信号输入自适应滤波器，通过该自适应滤波器对该至少一个第二采集设备采集的第一语音信号进行自适应滤波处理，得到该至少一个第二采集设备采集的噪声信号，将该至少一个第二采集设备采集的噪声信号作为该第一采集设备采集的第一语音信号中包含的噪声信号。

可选地，服务器确定该第一采集设备对应的至少一个第二采集设备的过程可以为：当服务器获取到第一采集设备采集的第一语音信号时，获取该第一语音信号携带的第一采集设备标识，根据该第一语音信号携带的第一采集设备标识，在设备信息库中查询，可以得到与该第一采集设备位于同一会议室内的多个采集设备标识，从该多个采集设备标识中选取除该第一采集设备标识以外的其他采集设备标识，则可以确定出该至少一个第二采集设备。应理解地，服务器可以运行有中控平台，该中控平台用于对采集设备信息的管理和配置。在实施本方案之前，通过中控平台对每个采集设备进行信息配置，能够实现对每个采集设备的标识标记，进而后续根据采集设备标识可以确定出对应的采集设备。可选地，采集设备标识可以采用采集设备ID（Identification）来表示。在该过程中，服务器可以关联有设备信息库，设备信息库用于存储会议室内多个采集设备标识。应理解地，若存在多个会议室时，该第一语音信号可以携带有会议室标识和第一采集设备标识，如2-ID3，表示会议室2内的采集设备ID3，相应地，该设备信息库可以存储多个会议室内的多个采集设备标识。

上述过程中以至少一个第二采集设备为除第一采集设备以外的其他采集设备，且设备信息库用于存储会议室内的采集设备标识为例对方案进行说明。在另一种可能的实现方式中，该至少一个第二采集设备也可以为该第一采集设备的关联采集设备，该关联采集设备用于表示与该第一采集设备相关联（可理解为距离相近）的采集设备。相应地，该设备信息库还用于存储采集设备标识以及其对应的关联采集设备标识之间的对应关系，也即是该设备信息库还用于存储第一采集设备标识以及其对应的至少一个第二采集设备标识之间的对应关系。可选地，对应关系为表格形式，如表1所示，表1为基于图4所示出的一种采集设备标识以及其对应的关联采集设备标识之间的对应关系。其中，ID1……ID5分别对应图4中的Mic1……Mic5。

表1

相应地，服务器确定该第一采集设备对应的至少一个第二采集设备的过程可以为：获取该第一语音信号携带的第一采集设备标识，根据该第一语音信号携带的第一采集设备标识，在设备信息库中查询，可以得到该第一采集设备对应的关联采集设备标识，根据该关联采集设备标识确定对应的采集设备，进而确定出了该至少一个第二采集设备。例如，如图4所示，若发言人2讲话，则根据该方法确定出的至少一个第二采集设备可以为麦克风1和麦克风3。在该过程中，将与第一采集设备相关联（可理解为距离相近）的采集设备作为至少一个第二采集设备，由于与第一采集设备相关联的采集设备距离第一采集设备较近，因此该至少一个第二采集设备能够采集到与第一采集设备中第一语音信号强相关的噪声信号，进而在后续基于该至少一个第二采集设备来滤除第一采集设备中第一语音信号所包含的噪声信号时，能够更加准确地确定出第一采集设备中的噪声信号，提高了语音信号的信噪比。本公开实施例对选用何种方式确定至少一个第二采集设备不作限定。

可选地，自适应滤波器对该至少一个第二采集设备采集的第一语音信号进行自适应滤波处理的具体过程可以为：服务器将该至少一个第二采集设备采集的第一语音信号输入自适应滤波器后，基于该自适应滤波器对应的自适应滤波算法，确定自适应滤波器的权系数，将该至少一个第二采集设备采集的第一语音信号与自适应滤波器的权系数相乘，可以得到自适应滤波器的输出信号，将该自适应滤波器的输出信号作为该至少一个第二采集设备采集的噪声信号。应理解地，该第一语音信号与自适应滤波器的权系数相乘的过程是指频域的相乘处理，也即是时域的卷积处理。

可选地，自适应滤波算法可以为LMS（Least Mean Square，最小均方自适应滤波器）算法、NLMS（Normalized Least Mean Square，归一化最小均方自适应滤波器）算法、RLS（Recursive Least Square，递推最小二乘自适应滤波器）算法、变换域自适应滤波算法、仿射投影算法、共扼梯度算法等，本公开实施例对选用何种自适应滤波算法不作限定。

303、服务器在该第一采集设备采集的第一语音信号中，滤除第一采集设备采集的第一语音信号中包含的噪声信号，得到第二语音信号。

其中，第二语音信号为滤除噪声信号后得到的语音信号。

在一种可能的实现方式中，在自适应滤波器确定出该至少一个第二采集设备采集的噪声信号后，基于该第一采集设备采集的第一语音信号与该第一采集设备采集的第一语音信号中包含的噪声信号，自适应滤波器可以滤除掉第一语音信号中所包含的噪声信号，将滤除噪声信号后得到的信号作为该第一采集设备的第二语音信号。

需要说明的是，通过上述步骤302至步骤303中自适应滤波器确定噪声信号并基于噪声信号确定第二语音信号的内容，可以发现，通过自适应滤波器，可以从第一语音信号中去除噪声信号，获得较为纯净的第二语音信号。为便于描述，引入了自适应滤波系统，下面以基于NLMS算法的自适应滤波系统为例对方案进行说明，需要说明的是，本公开实施例中将第一采集设备采集的第一语音信号作为自适应滤波系统的输入信号，在自适应滤波系统中，该自适应滤波系统的输入信号也可以称为期望信号，将至少一个第二采集设备采集的第一语音信号作为自适应滤波器的参考信号，该参考信号为自适应滤波系统中自适应滤波器的输入信号，参考信号是指与输入信号中的噪声具有相关性的信号，则自适应滤波器的输入为该至少一个第二采集设备采集的语音信号，输出为噪声信号，通过自适应滤波器滤除的是语音信号中与自适应滤波系统的输入信号（期望信号）相关的信号。

例如，图5是本公开实施例提供的一种语音信号确定方法的滤波示意图，图5提供了一种基于NLMS算法的自适应滤波系统，如图5所示，图5中麦克风的数目为M个，麦克风1为第一采集设备，该麦克风1采集的第一语音信号x1(n)为自适应滤波系统的输入信号（期望信号）。麦克风2、麦克风3、…、麦克风M为至少一个第二采集设备，麦克风2、麦克风3、…、麦克风M采集的第一语音信号x2(n)、x3(n)、x4(n)、…、xM(n)为自适应滤波器的参考信号，也即是自适应滤波系统中自适应滤波器的输入信号。自适应滤波系统还包括加法器，该加法器的输入为自适应滤波系统的输入信号x1(n)和自适应滤波器的输出信号，该加法器的输出（即自适应滤波系统的输出信号）为第一采集设备的第二语音信号e1(n)。

下面基于图5对自适应滤波系统的具体计算过程进行说明，其中，任一采集设备采集的第一语音信号可以为

，m的取值范围为[1,M]，M为采集设备的总个数，L为自适应滤波器的长度，L也可以称为自适应滤波器的快拍数。自适应滤波器的权系数可以为

，其中，k的取值范围为[2,M]。对于任一第一采集设备采集的第一语音信号，基于该第一采集设备采集的第一语音信号、该至少一个第二采集设备采集的第一语音信号、该自适应滤波器的权系数与自适应滤波机制（1），计算得到残差信号，作为该第一采集设备对应的第二语音信号。

（1）

式中，

为时刻，

为第一采集设备在n时刻的第二语音信号，

为第一采集设备在n时刻的第一语音信号，m为第m个麦克风，M为麦克风的总数，

为该自适应滤波器在n时刻的权系数，

为向量的转置形式，

为至少一个第二采集设备在n时刻采集的第一语音信号。

通过对（1）中的

和

进行向量变换，可以得到

和

的列向量形式，

的列向量形式可以为

、

的列向量形式可以为

，则自适应滤波机制（1）的求和形式可以表示为向量相乘的形式，如（2）所示。

（2）

下面以单人讲话和多人讲话的两种应用场景对噪声信号的滤除过程进行说明：一种可能的实现方式中，在当前时刻仅有一名发言人讲话的场景下，如图4所示，发言人1讲话且该至少两个采集设备为麦克风1和麦克风2时，麦克风1采集到的第一语音信号可以为发言人1的语音信号和发言人1对应的噪声信号（发言人1的语音信号的回声信号），麦克风2采集到的第一语音信号可以包括发言人1的语音信号和/或发言人1对应的噪声信号（发言人1的语音信号的回声信号）。若麦克风1为第一采集设备，麦克风2为第二采集设备，则可以将麦克风2采集的噪声信号作为麦克风1的参考信号，滤除麦克风1中包含的噪声信号，得到麦克风1对应的较为纯净的第二语音信号，也即是发言人1较为纯净的语音信号。应理解地，上述虽均以发言人1的语音信号和噪声信号来描述，但实际上麦克风1和麦克风2采集到的噪声信号并不是完全相同的信号，此处将麦克风2采集到的噪声信号近似为麦克风1中所包含的噪声信号，以进行滤波处理。若麦克风2为第一采集设备，麦克风1为第二采集设备，则可以将麦克风1采集的发言人1语音信号作为麦克风2的参考信号，滤除麦克风2中包含的发言人1语音信号（也即是麦克风2对应的噪声信号），得到麦克风2对应的较为纯净的第二语音信号。应理解地，理想情况下麦克风2的第二语音信号为零信号，也即是无信号。

另一种可能的实现方式中，在当前时刻有多名发言人讲话的场景下，如图4所示，发言人1和发言人2讲话且该至少两个采集设备为麦克风1和麦克风2时，麦克风1采集到的第一语音信号可以包括发言人1的语音信号和发言人1对应的噪声信号（发言人1的语音信号的回声信号、发言人2的语音信号和发言人2的语音信号的回声信号的任意一种或多种），麦克风2采集到的第一语音信号可以包括发言人2的语音信号和发言人2对应的噪声信号（发言人2的语音信号的回声信号、发言人1的语音信号和发言人1的语音信号的回声信号的任意一种或多种）。以噪声信号仅包括语音信号，不包括回声信号为例，若麦克风1为第一采集设备，麦克风2为第二采集设备，则可以将麦克风2采集的发言人2的语音信号作为麦克风1的参考信号，此时相对于麦克风1来说发言人2的语音信号即为麦克风1所包含的噪音信号，滤除麦克风1中包含的发言人2的语音信号，得到麦克风1对应的较为纯净的第二语音信号，也即是发言人1较为纯净的语音信号。若麦克风2为第一采集设备，麦克风1为第二采集设备，则可以将麦克风1采集的发言人1的语音信号作为麦克风2的参考信号，滤除麦克风2中包含的发言人1的语音信号，得到麦克风2对应的较为纯净的第二语音信号，也即是发言人2较为纯净的语音信号。

在上述步骤302和步骤303中，服务器基于该至少一个第二采集设备采集的噪声信号，来滤除第一采集设备的第一语音信号中包含的噪声信号，进而得到第一采集设备的第二语音信号。需要说明的是，在该过程中，可能会存在第二采集设备采集的噪声信号类型较多，而第一采集设备的第一语音信号中包含的噪声信号类型较少的情况。为便于描述，以第二采集设备采集的噪声信号P1，第一采集设备的第一语音信号中包含的噪声信号P2为例，在这种情况下，通过上述自适应滤波器，可以在噪声信号P1中确定与第一语音信号相关性小的噪声信号，将该相关性小的噪声信号对应的权系数设置为0，以达到在噪声信号P1中去除该相关性小的噪声信号的效果，得到与第一语音信号相关性大的噪声信号，将该噪声信号作为第一语音信号中包含的噪声信号P2，进而在第一语音信号中滤除该噪声信号P2。本公开实施例中，根据自适应滤波器的自适应原理，可以在第二采集设备采集的多种类型的噪声信号中，确定出与该第一语音信号相关性小的噪声信号以及与该第一语音信号相关性大的噪声信号，去除与该第一语音信号相关性小的噪声信号，保留与该第一语音信号相关性大的噪声信号，进而在后续能够更加准确的滤除第一语音信号中包含的噪声信号，提高了语音信号的信噪比。

需要说明的是，在实现上述步骤302至步骤303的过程中，基于自适应滤波算法还可以实时调整自适应滤波器的步长参数，并实时更新自适应滤波器的权系数，以提高自适应滤波系统的滤波性能，下面以基于NLMS算法调整步长参数、更新自适应滤波器为例展开说明，相应过程参见步骤304至步骤306。

304、服务器基于该至少一个第二采集设备采集的第一语音信号，调整自适应滤波器的步长参数，该步长参数与该自适应滤波器的计算速度及计算稳定性相关。

其中，步长参数越大，自适应滤波器对时变信号的跟踪速度越快，计算速度越快，步长参数越小，自适应滤波器的稳态失调噪声越少，稳定性越好。

在一种可能的实现方式中，服务器基于该至少一个第二采集设备采集的第一语音信号，计算该至少一个第二采集设备的第一语音信号的信号总功率，根据该信号总功率，调整该自适应滤波器的步长参数。

可选地，至少一个第二采集设备的第一语音信号的信号总功率的计算过程可以为：基于该至少一个第二采集设备采集的第一语音信号与功率计算公式（3），计算得到第一语音信号的信号总功率。

（3）

式中，

为时刻，

为至少一个第二采集设备采集的第一语音信号在n时刻的信号总功率，

为至少一个第二采集设备在n时刻的第一语音信号，

为该至少一个第二采集设备在n时刻的第一语音信号的转置形式，

为向量的转置形式。

可选地，基于信号总功率调整该自适应滤波器的步长参数的过程可以为：服务器计算得到该至少一个第二采集设备采集的第一语音信号的信号总功率后，基于该至少一个第二采集设备采集的第一语音信号的信号总功率、自适应滤波器的调节因子、第一采集设备的第二语音信号与步长调整机制（4），对该自适应滤波器的步长参数进行调整。

（4）

式中，

为时刻，

为自适应滤波器在n时刻的步长值，

为双曲正割函数，

为第一采集设备在n时刻的第二语音信号，

为自适应滤波器的第一调节因子，

为自适应滤波器的第二调节因子，

为自适应滤波器的第三调节因子，

为大于零的修正因子，一般取值为0.0001。其中，第一调节因子

和第二调节因子

的值越大，步长值

越大，第三调节因子

的值越大，步长值

越小，因此在算法中，通过调节第一调节因子、第二调节因子及第三调节因子，来调整该自适应滤波器的步长参数，以提高算法性能，进而提高滤波性能。

本公开实施例中采用参考信号即至少一个第二采集设备采集的第一语音信号来对自适应滤波器的步长参数进行调整，在环境噪声能量变大时，则经自适应滤波器处理后的噪声信号的幅值变大，则参考信号的信号总功率的数值增大，进而步长值变小，此时自适应滤波算法自动选择数值较小的步长参数，以减小稳态失调噪声，进而保障自适应滤波器的稳定性，在环境噪声能量变小时，则经自适应滤波器处理后的噪声信号的幅值变小，则参考信号的信号总功率的数值减小，进而步长值变大，此时自适应滤波算法自动选择数值较大的步长参数，提高自适应滤波器的计算速度以及对时变信号的跟踪速度。

305、服务器基于该自适应滤波器的步长参数，更新该自适应滤波器。

在一种可能实现方式中，服务器更新自适应滤波器的过程可以为：基于该自适应滤波器的步长参数以及自适应更新机制（5），更新该自适应滤波器的权系数。

（5）

式中，

为时刻，

为自适应滤波器在n+1时刻的权系数，

为自适应滤波器在n时刻的权系数，

为自适应滤波器在n时刻的步长值，

为该至少一个第二采集设备采集的第一语音信号在n时刻的信号总功率，

为自适应滤波器的第四调节因子，

为第一采集设备在n时刻的第二语音信号，

为至少一个第二采集设备在n时刻采集的第一语音信号。

306、服务器基于更新后的自适应滤波器，对该至少一个第二采集设备采集的第一语音信号进行自适应滤波处理，得到该至少一个第二采集设备采集的噪声信号，基于该第一采集设备的第一语音信号与该至少一个第二采集设备采集的噪声信号，确定该第一采集设备的第二语音信号。

通过上述步骤304至步骤306，实时调整自适应滤波器的步长参数，并实时更新自适应滤波器的权系数，并根据更新后的自适应滤波器，对该至少一个第二采集设备采集的第一语音信号进行自适应滤波处理，提高了自适应滤波器的滤波性能，进而提高了确定第一采集设备的第二语音信号的准确性。

307、服务器基于该至少两个第一采集设备的第二语音信号的信号能量，确定目标采集设备，该目标采集设备为发言人对应的采集设备。

在一种可能的实现方式中，服务器确定出至少两个第一采集设备的第二语音信号后，计算该至少两个第一采集设备的第二语音信号的信号能量，并基于该至少两个第一采集设备对应的信号能量，在该至少两个第一采集设备中，确定信号能量最大的第一采集设备，作为该目标采集设备。

308、服务器将该目标采集设备的第二语音信号确定为该发言人的语音信号。

在一种可能的实现方式中，服务器确定出目标采集设备后，获取该目标采集设备的第二语音信号，将该目标采集设备的第二语音信号作为发言人的语音信号。

可选地，服务器确定出发言人的语音信号后，可以对该发言人的语音信号进行语音识别，确定出该发言人的语音信号对应的文本信息，并将该文本信息存储至文本信息数据库中，用于后续查询会议记录，或者，服务器确定出该发言人的语音信号对应的文本信息后，可以向其他参会设备发送该文本信息，在其他参会设备屏幕上显示该文本信息。

309、服务器将该至少两个第一采集设备中除该目标采集设备以外的采集设备的语音信号删除。

在一种可能的实现方式中，服务器确定出该目标采集设备后，确定该至少两个第一采集设备中除该目标采集设备以外的采集设备，并将该采集设备的语音信号删除，避免出现发言人与语音信号不对应，导致会议记录错误的情况。

需要说明的是，上述以先确定发言人的语音信号，再进行语音信号删除操作的次序为例进行说明，在另一种可能实现方式中，服务器确定出该目标采集设备后，可以先进行语音信号删除操作，再确定发言人的语音信号，或者，服务器确定出该目标采集设备后，可以同时进行语音信号删除操作及确定发言人的语音信号的过程，本公开实施例对步骤308与步骤309的执行顺序不作限定。

上述步骤301至步骤309中，在单人讲话的情况下，如图4所示，若麦克风1处有人说话，对于麦克风1，将该麦克风1采集的第一语音信号通过自适应滤波系统后，得到滤除噪声信号后的第二语音信号，对于麦克风2，将该麦克风2采集的第一语音信号通过自适应滤波系统后，得到滤除噪声信号后的第二语音信号，通过对各个麦克风采集的第一语音信号进行噪声滤除处理，得到滤除噪声信号后的第二语音信号，提高了语音信号的信噪比，进而在进行信号能量计算时，能够精确地计算出语音信号的信号能量，提高了各个语音信号之间的信号能量差，能够区分距离相近的两个麦克风采集的语音信号的信号能量，避免出现信号能量相差不多的情况。另外，在多人讲话的情况下，如图4所示，若麦克风1和麦克风2处同时有人讲话，则对麦克风1进行处理时，将麦克风2作为参考信号，也即是可以将麦克风1中含有发言人2的信号作为噪声信号，此时可以将麦克风1中含有发言人2的信号消除，同理，对麦克风2进行处理时，将麦克风1作为参考信号，也即是可以将麦克风2中含有发言人1的信号作为噪声信号，此时可以将麦克风2中含有发言人1的信号消除，提高了各自语音信号的信噪比，更有利于后期的判断以及识别。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图6是本公开实施例提供的一种语音信号确定装置的结构示意图，参见图6，该装置包括：

获取模块601，用于获取至少两个采集设备采集的第一语音信号；

滤除模块602，用于对于任一第一采集设备采集的第一语音信号，基于至少一个第二采集设备采集的第一语音信号，滤除第一采集设备采集的第一语音信号中包含的噪声信号，得到第二语音信号，该第一采集设备为该至少两个采集设备中任一个采集设备，该第二采集设备为该至少两个采集设备中除该第一采集设备以外的采集设备；

采集设备确定模块603，用于基于该至少两个第一采集设备的第二语音信号的信号能量，确定目标采集设备，该目标采集设备为发言人对应的采集设备；

语音信号确定模块604，用于将该目标采集设备的第二语音信号确定为该发言人的语音信号。

在一种可能的实现方式中，该滤除模块602，用于：

在一种可能的实现方式中，该装置还包括噪声信号确定模块，用于：

在一种可能的实现方式中，该噪声信号确定模块，用于：

在一种可能的实现方式中，该装置还包括：

调整模块，用于基于该至少一个第二采集设备采集的第一语音信号，调整该自适应滤波器的步长参数，该步长参数与该自适应滤波器的计算速度及计算稳定性相关；

更新模块，用于基于该自适应滤波器的步长参数，更新该自适应滤波器；

滤除模块602，还用于基于更新后的自适应滤波器，对该至少一个第二采集设备采集的第一语音信号进行自适应滤波处理。

在一种可能的实现方式中，该调整模块，用于：

根据该信号总功率，调整该自适应滤波器的步长参数。

在一种可能的实现方式中，该采集设备确定模块603，用于：

在一种可能的实现方式中，该装置还包括删除模块，用于：

需要说明的是：上述实施例提供的语音信号确定装置在确定语音信号时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音信号确定装置与语音信号确定方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7是本公开实施例提供的一种服务器的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器（Central Processing Units，CPU）701和一个或多个的存储器702，其中，该一个或多个存储器702中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器701加载并执行以实现上述各个方法实施例提供的语音信号确定方法。当然，该服务器700还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器700还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括程序代码的存储器，上述程序代码可由处理器执行以完成上述实施例中的语音信号确定方法。例如，该计算机可读存储介质可以是只读存储器（Read-Only Memory, ROM）、随机存取存储器（RandomAccess Memory，RAM）、只读光盘 (Compact Disc Read-Only Memory，CD-ROM）、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来程序代码相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本公开的可选实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种语音信号确定方法，其特征在于，所述方法包括：

获取至少两个采集设备采集的第一语音信号；

对于任一第一采集设备采集的第一语音信号，将至少一个第二采集设备采集的第一语音信号输入自适应滤波器，通过所述自适应滤波器对所述至少一个第二采集设备采集的第一语音信号进行自适应滤波处理，在所述自适应滤波处理的过程中，基于所述至少一个第二采集设备采集的第一语音信号，调整所述自适应滤波器的步长参数，所述步长参数与所述自适应滤波器的计算速度及计算稳定性相关，基于所述自适应滤波器的步长参数，更新所述自适应滤波器，基于更新后的自适应滤波器，对所述至少一个第二采集设备采集的第一语音信号进行自适应滤波处理，得到所述至少一个第二采集设备采集的噪声信号，作为所述第一采集设备采集的第一语音信号中包含的噪声信号，所述第一采集设备为所述至少两个采集设备中任一个采集设备，所述第二采集设备为所述至少两个采集设备中除所述第一采集设备以外的采集设备；

滤除所述第一采集设备采集的第一语音信号中包含的噪声信号，得到第二语音信号；

2.根据权利要求1所述的方法，其特征在于，所述滤除所述第一采集设备采集的第一语音信号中包含的噪声信号，得到第二语音信号包括：

通过自适应滤波器滤除所述第一采集设备采集的第一语音信号中包含的噪声信号，得到所述第一采集设备的第二语音信号。

3.根据权利要求1所述的方法，其特征在于，所述基于所述至少一个第二采集设备采集的第一语音信号，调整所述自适应滤波器的步长参数包括：

根据所述信号总功率，调整所述自适应滤波器的步长参数。

4.根据权利要求1所述的方法，其特征在于，所述基于所述至少两个第一采集设备的第二语音信号的信号能量，确定目标采集设备包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述目标采集设备的第二语音信号确定为所述发言人的语音信号之后，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述至少一个第二采集设备为所述第一采集设备的关联采集设备。

7.一种语音信号确定装置，其特征在于，所述装置包括：

噪声信号确定模块，用于对于任一第一采集设备采集的第一语音信号，将至少一个第二采集设备采集的第一语音信号输入自适应滤波器，通过所述自适应滤波器对所述至少一个第二采集设备采集的第一语音信号进行自适应滤波处理，在所述自适应滤波处理的过程中，基于所述至少一个第二采集设备采集的第一语音信号，调整所述自适应滤波器的步长参数，所述步长参数与所述自适应滤波器的计算速度及计算稳定性相关，基于所述自适应滤波器的步长参数，更新所述自适应滤波器，基于更新后的自适应滤波器，对所述至少一个第二采集设备采集的第一语音信号进行自适应滤波处理，得到所述至少一个第二采集设备采集的噪声信号，作为所述第一采集设备采集的第一语音信号中包含的噪声信号，所述第一采集设备为所述至少两个采集设备中任一个采集设备，所述第二采集设备为所述至少两个采集设备中除所述第一采集设备以外的采集设备；

滤除模块，用于滤除所述第一采集设备采集的第一语音信号中包含的噪声信号，得到第二语音信号；

8.一种服务器，其特征在于，所述服务器包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求6任一项所述的语音信号确定方法所执行的操作。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至权利要求6任一项所述的语音信号确定方法所执行的操作。