CN115762504A

CN115762504A - 语音处理方法、装置、终端设备、服务器设备及存储介质

Info

Publication number: CN115762504A
Application number: CN202211055303.4A
Authority: CN
Inventors: 周岭松
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2023-03-07

Abstract

本公开是关于一种语音处理方法、装置、终端设备、服务器设备及存储介质。语音处理方法，应用于终端设备，终端设备包括麦克风阵列，语音处理方法包括：基于接收到的唤醒信号，获取终端设备与信号源之间的距离信息，其中，信号源为唤醒信号的来源；基于唤醒信号，确定麦克风阵列与信号源之间的互相关信息，互相关信息用于表征唤醒信号与终端设备之间的直达声距离；根据距离信息和互相关信息，确定修正互相关信息并发送至服务器。使用本公开中的方法，在具有多个终端设备的场景中，能够使得服务器从多个终端设备中根据用户意向快速选择出对应的终端设备对唤醒信号进行响应，提升了用户的使用体验。

Description

语音处理方法、装置、终端设备、服务器设备及存储介质

技术领域

本公开涉及智能设备技术领域，尤其涉及一种语音处理方法、装置、终端设备、服务器设备及存储介质。

背景技术

随着人工智能技术的发展和5G技术的日益成熟，家居环境中的智能终端设备越来越多。用户与终端设备之间的智能交互通常采用语音唤醒的方式，但是对于多个终端设备的场景，存在同一语音唤醒指令可能同时唤醒多个终端设备的问题。多个终端设备之间争抢响应用户的语音唤醒指令，会给用户造成较差的使用体验。

发明内容

为克服相关技术中存在的问题，本公开提供一种语音处理方法、装置、终端设备、服务器设备及存储介质。

根据本公开实施例的第一方面，提供了一种语音处理方法，应用于终端设备，所述终端设备包括麦克风阵列，所述语音处理方法包括：

基于接收到的唤醒信号，获取与信号源之间的距离信息，其中，所述信号源为所述唤醒信号的来源；

基于所述唤醒信号，确定所述麦克风阵列与所述信号源之间的互相关信息，所述互相关信息用于表征所述唤醒信号与所述终端设备之间的直达声距离；

根据所述距离信息和所述互相关信息，确定修正互相关信息并发送至服务器。

在一示例性实施例中，所述终端设备包括信号发射器，所述获取与信号源之间的距离信息，包括：

控制所述信号发射器发射特定超声波信号；

所述麦克风阵列接收反射信号，其中，所述反射信号由所述特定超声波信号经过反射后生成；

基于预设算法和所述反射信号，计算获得多个信号扰动幅值；

将多个所述信号扰动幅值中的最大值对应的位置与所述终端设备之间的距离值作为所述距离信息。

在一示例性实施例中，所述语音处理方法还包括：

接收所述服务器发送的频段信息；

其中，所述信号发射器发射的所述特定超声波信号与所述频段信息适配。

在一示例性实施例中，所述基于所述唤醒信号，确定所述麦克风阵列与所述信号源之间的互相关信息，包括：

基于所述唤醒信号，确定所述麦克风阵列中每个麦克风接收到的唤醒信号对应的频域信号；

确定每两个所述频域信号之间的初始互相关信息；

根据预设的频谱权重函数，确定所述频域信号中预设频点的权重信息；

根据所述权重信息和所述初始互相关信息，确定所述互相关信息。

在一示例性实施例中，所述根据所述距离信息和所述互相关信息，确定修正互相关信息，包括：

根据所述距离信息，确定修正信息；

将所述修正信息和所述互相关信息的乘积作为所述修正互相关信息。

在一示例性实施例中，所述语音处理方法还包括：

接收所述服务器发送的响应控制信息；

基于所述响应控制信息，对所述唤醒信息进行响应。

根据本公开实施例的第二方面，提供了一种语音处理方法，应用于服务器，所述语音处理方法包括：

接收多个终端设备发送的修正互相关信息；

选择多个所述修正互相关信息中数值最大的所述修正互相关信息对应的所述终端设备作为目标设备；

发送响应控制信息至所述目标设备，所述响应控制信息用于指示所述目标设备对唤醒信息进行响应。

根据本公开实施例的第三方面，提供了一种语音处理装置，应用于终端设备，所述终端设备包括麦克风阵列，所述语音处理装置法包括：

获取模块，被配置为基于接收到的唤醒信号，获取与信号源之间的距离信息，其中，所述信号源为所述唤醒信号的来源；

第一确定模块，被配置为基于所述唤醒信号，确定所述麦克风阵列与所述信号源之间的互相关信息，所述互相关信息用于表征所述唤醒信号与所述终端设备之间的直达声距离；

第二确定模块，被配置为根据所述距离信息和所述互相关信息，确定修正互相关信息并发送至服务器。

在一示例性实施例中，所述终端设备包括信号发射器，所述获取模块还被配置为：

控制所述信号发射器发射特定超声波信号；

在一示例性实施例中，所述获取模块还被配置为：

接收所述服务器发送的频段信息；

在一示例性实施例中，所述第一确定模块还被配置为：

确定每两个所述频域信号之间的初始互相关信息；

在一示例性实施例中，所述第二确定模块还被配置为：

根据所述距离信息，确定修正信息；

在一示例性实施例中，所述语音处理装置还包括：

接收模块，被配置为接收所述服务器发送的响应控制信息；

响应模块，被配置为基于所述响应控制信息，对所述唤醒信息进行响应。

根据本公开实施例的第四方面，提供了一种语音处理装置，应用于服务器，所述语音处理装置包括：

接收模块，被配置为接收多个终端设备发送的修正互相关信息；

确定模块，被配置为选择多个所述修正互相关信息中数值最大的所述修正互相关信息对应的所述终端设备作为目标设备；

发送模块，被配置为发送响应控制信息至所述目标设备，所述响应控制信息用于指示所述目标设备对唤醒信息进行响应。

根据本公开实施例的第五方面，提供了一种终端设备，所述终端设备包括本体，所述本体设置超声波传感器和麦克风阵列，所述终端设备还包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行如本公开实施例的第一方面所述的语音处理方法。

根据本公开实施例的第六方面，提供了一种服务器设备，所述服务器设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行如本公开实施例的第二方面所述的语音处理方法。

根据本公开实施例的第七方面，提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由所述终端设备的处理器执行时，使得所述终端设备能够执行如本公开实施例的第一方面所述的语音处理方法。

根据本公开实施例的第八方面，提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由所述服务器设备的处理器执行时，使得所述服务器设备能够执行如本公开实施例的第二方面所述的语音处理方法。

采用本公开的上述方法，具有以下有益效果：使用本公开中的方法，在具有多个终端设备的场景中，能够使得服务器从多个终端设备中根据用户意向快速选择出对应的终端设备对唤醒信号进行响应，提升了用户的使用体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的语音处理方法的流程图；

图2是根据一示例性实施例示出的语音处理方法的流程图；

图3是根据一示例性实施例示出的终端设备对应的超声波扰动幅度值示意图；

图4是根据一示例性实施例示出的语音处理方法的流程图；

图5是根据一示例性实施例示出的语音处理方法的流程图；

图6是根据一示例性实施例示出的语音处理方法的流程图；

图7是根据一示例性实施例示出的语音处理装置框图；

图8是根据一示例性实施例示出的语音处理装置框图；

图9是根据一示例性实施例示出的终端设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

相关技术中，为了实现只有一个智能设备响应语音唤醒指令，各个智能设备通过无线网络实现局域网内的互联互通。当用户发出语音唤醒指令时，每个智能设备的麦克风均获取用户的语音信号并提取语音能量等语音特征信息，通过无线网络连接共享每个智能设备获取的语音特征信息。每个智能设备在获取到其他智能设备的语音特征信息后，基于每个智能设备的语音特征信息，每个智能设备利用决策算法计算是否应该由自己对用户的语音唤醒指令进行响应。由于所有智能设备都基于相同的数据和决策算法来确定最终的响应设备，因而最终只会有一个智能设备响应用户的语音唤醒指令。

但是使用上述相关技术中的方法会造成，多个设备中最终对用户进行响应的智能设备不是用户期望对其进行响应的智能设备。例如，当家居场景中存在智能设备A和智能设备B时，如果此时智能设备B与用户的距离小于智能设备A与用户的距离，用户期望智能设备A进行响应时，用户对着智能设备A发出语音唤醒指令，由于声音传播的衰减，智能设备A获取到的语音特征信息有可能会小于智能设备B获取到的语音特征信息，其中，语音特征信息比如可以是声音能量信息，从而导致智能设备B响应用户的语音唤醒指令，导致用户期望进行响应的智能设备A没有响应，而智能设备B进行了响应，严重影响用户的使用体验。

在本公开示例性的实施例中，为了克服相关技术中的问题，提供了一种语音处理方法，应用于包括麦克风阵列的终端设备和服务器。终端设备基于接收到的唤醒信号，获取与信号源之间的距离信息，其中，信号源为唤醒信号的来源，基于唤醒信号，确定麦克风阵列与信号源之间的互相关信息，互相关信息用于表征唤醒信号与终端设备之间的直达声距离；根据距离信息和互相关信息，确定修正互相关信息并发送至服务器。服务器接收多个终端设备发送的修正互相关信息，选择多个修正互相关信息中数值最大的修正互相关信息对应的终端设备作为目标设备，发送响应控制信息至目标设备，以使目标设备根据响应控制信息对唤醒信息进行响应。本公开中对唤醒信号进行响应的目标设备即为用户期望进行响应的终端设备，在具有多个终端设备的场景中，能够使得服务器从多个终端设备中根据用户意向快速选择出对应的终端设备对唤醒信号进行响应，提升了用户的使用体验。

本公开示例性的实施例中，提供了一种语音处理方法，应用于包括麦克风阵列的终端设备。图1是根据一示例性实施例示出的语音处理方法的流程图，如图1所示，语音处理方法包括以下步骤：

步骤S101，基于接收到的唤醒信号，获取与信号源之间的距离信息，其中，信号源为唤醒信号的来源；

步骤S102，基于唤醒信号，确定麦克风阵列与信号源之间的互相关信息，互相关信息用于表征唤醒信号与终端设备之间的直达声距离；

步骤S103，根据距离信息和互相关信息，确定修正互相关信息并发送至服务器。

本公开中的语音处理方法应用于包括麦克风阵列的终端设备，终端设备包括智能电视、智能空调、智能台灯、智能音箱等具有语音交互功能的终端设备，终端设备与其他多个终端设备相互关联，例如可以通过无线网络在局域网内相互关联。终端设备包括由多个麦克风组成的麦克风阵列，例如线性麦克风阵列、平面麦克风阵列等。

在步骤S101中，信号源发出唤醒信号，信号源可以是用户本身，例如用户直接在多个互联的终端设备场景中发出唤醒信号，信号源也可以是终端设备，例如用户通过智能手机、智能摄像头等终端设备发出唤醒信号。唤醒信号为预设的终端设备唤醒语音信息，可以是默认的语音信息，也可以是用户自定义的语音信息，例如唤醒信号为“小A同学”。终端设备接收到唤醒信号后，根据所接收到的唤醒信号，获取与信号源之间的距离信息，距离信息的获取方式可以是通过超声波定位的方法获取信号源的位置信息，也可以是通过红外信号定位的方法获取信号源的位置信息，根据信号源的位置信息进一步获取与信号源之间的距离信息。

在步骤S102中，终端设备通过麦克风阵列接收唤醒信号，根据接收到的唤醒信号，能够确定终端设备的麦克风阵列与信号源之间的互相关信息。互相关信息用于表征信号源发出的唤醒信号与终端设备之间的直达声距离，由于直达声表示从声音发出方在不经过任何反射的情况下直线传播到声音接收方的声音，因此信号源与终端设备之间的直达声距离能够作为终端设备的声学特征信息，用于确定终端设备与信号源之间的相关性。终端设备的买麦克风阵列与信号源之间的互相关信息相关的参数越大，表示终端设备与信号源之间的相关性越强，与信号源相关性强的终端设备即为唤醒信号想要唤醒的终端设备。确定终端设备的麦克风阵列与信号源之间的互相关信息的方式，可以是任意能够获取终端设备与信号源之间的直达声距离的方式，例如通过麦克风阵列中不同麦克风接收到的唤醒信号对应的频域信号的相关性计算获取。

在步骤S103中，终端设备的麦克风阵列与信号源之间的互相关信息能够表征终端设备与信号源之间的直达声距离，将其作为终端设备的声学特征信息。终端设备与信号源之间的距离信息能够反映终端设备与信号源之间的实际距离。由于唤醒信号在传播过程中会出现信号强度衰减的问题，因此将终端设备与信号源之间的距离信息和与信号源之间的互相关信息相结合，通过距离信息对互相关信息进行修正，得到修正互相关信息，能够使得获取到的终端设备最终的声学特征信息更加准确。得到修正互相关信息后，终端设备将互相关信息发送至服务器，以使服务器根据每个终端设备的修正互相关信息，确定对唤醒信号进行响应的目标设备。

在本公开示例性的实施例中，终端设备基于接收到的唤醒信号，获取终端设备与信号源之间的距离信息，并确定麦克风阵列与信号源之间的互相关信息，根据距离信息和互相关信息，确定修正互相关信息并发送至服务器，以使服务器根据每个终端设备的互相关信息选择出对唤醒信号进行响应的终端设备。在具有多个终端设备的场景中，准确获取终端设备的修正互相关信息，能够从方便服务器多个终端设备中根据用户意向快速选择出对应的终端设备并进行响应，提升了用户的使用体验。

本公开示例性的实施例中，提供了一种语音处理方法，应用于包括麦克风阵列的终端设备。图2是根据一示例性实施例示出的语音处理方法的流程图，如图2所示，语音处理方法包括以下步骤：

步骤S201，控制信号发射器发射特定超声波信号；

步骤S202，麦克风阵列接收反射信号，其中，反射信号由特定超声波信号经过反射后生成；

步骤S203，基于预设算法和反射信号，计算获得多个信号扰动幅值；

步骤S204，将多个信号扰动幅值中的最大值对应的位置与终端设备之间的距离值作为距离信息；

步骤S205，基于唤醒信号，确定麦克风阵列与信号源之间的互相关信息，互相关信息用于表征唤醒信号与终端设备之间的直达声距离；

步骤S206，根据距离信息和互相关信息，确定修正互相关信息并发送至服务器。

其中，步骤S205-S206与步骤S102-S103的内容相同，在此不再赘述。

在步骤S201中，在多个终端设备的场景中，每个接收到唤醒信号的终端设备均需要发射特定超声波信号，超声波信号通过终端设备中的信号发射器发送。终端设备接收到唤醒信号后，由处理器控制信号发射器发射特定超声波信号。特定超声波信号为预设频段的超声波信号。为了防止每个终端设备发出的超声波信号相互混叠干扰，在各个终端设备进行相互关联时，服务器根据终端设备的数量，为每个终端设备划分不同的超声波频段，以使每个终端设备发送的超声波信号的频段不同。终端设备接收服务器发送的频段信息，频段信息为信号发射器所要发送的超声波信号的特定频段，控制信号发射器发射与频段信息适配的特定超声波信号。

在步骤S202中，终端设备通过麦克风阵列接收其发出的特定超声波信号反射生成的对应的反射信号。例如，当存在终端设备A和终端设备B时，终端设备A的特定超声波信号为频率30KHz-50KHz，终端设备B的特定超声波信号为频率60KHz-80KHz，根据频率不同确定对应的反射信息，终端设备A接收频率为30KHz-50KHz的反射信号，终端设备B接收频率为60KHz-80KHz的反射信号。

在步骤S203-S204中，当信号源为用户本身时，基于预设算法和反射信号，获得多个信号扰动幅值，由于MUSIC(Multiple Signal Classification，矩阵特征空间分解)算法能够确定出不同方向和距离上超声波扰动幅值，因此预设算法为MUSIC算法。在有人的地方扰动幅值会比较大，通过扰动幅值确定信号源的位置，从而确定终端设备与信号源之间的距离信息。

将终端设备的麦克风阵列接收到的特定超声波信号对应的反射信号输入到二维的MUSIC算法中进行计算。图3是根据一示例性实施例示出的终端设备对应的超声波扰动幅值示意图，如图3所示，横坐标为距离，纵坐标为角度，可以采用峰值检测算法，计算图中扰动幅值最大的位置，即为信号源的位置，即图3中P点的位置为信号源的位置，根据信号源的位置即可计算出终端设备与信号源之间的距离信息。

本公开示例性的实施例中，提供了一种语音处理方法，应用于包括麦克风阵列的终端设备。图4是根据一示例性实施例示出的语音处理方法的流程图，如图4所示，语音处理方法包括以下步骤：

步骤S401，控制信号发射器发射特定超声波信号；

步骤S402，麦克风阵列接收反射信号，其中，反射信号由特定超声波信号经过反射后生成；

步骤S403，基于预设算法和反射信号，计算获得多个信号扰动幅值；

步骤S404，将多个信号扰动幅值中的最大值对应的位置与终端设备之间的距离值作为距离信息；

步骤S405，基于唤醒信号，确定麦克风阵列中每个麦克风接收到的唤醒信号对应的频域信号；

步骤S406，确定每两个频域信号之间的初始互相关信息；

步骤S407，根据预设的频谱权重函数，确定频域信号中预设频点的权重信息；

步骤S408，根据权重信息和初始互相关信息，确定互相关信息；

步骤S409，根据距离信息和互相关信息，确定修正互相关信息并发送至服务器。

其中，步骤S401-S404与步骤S201-S204的内容相同，步骤S409与步骤S206的内容相同，在此不再赘述。

在步骤S405中，终端设备获取麦克风阵列中每个麦克风接收到的唤醒信号，对所接收到的唤醒信号进行频域变换，获取对应的频域信号，例如通过傅里叶变换将每个麦克风接收到唤醒信号转换为对应的频域信号。

在步骤S406中，终端设备获取到每个麦克风接收到的频域信号后，确定每两个频域信号之间的初始互相关信息。将第i个麦克风和第j个麦克风的频域信号分别记为X_i(k)和X_j(k)，帧长记为L，则两个频域信号之间的互相关特性表示为：

其中，R_ij(τ)为频域信号X_i(k)和X_j(k)的互相关信息，L为帧长。

为了产生更尖锐的相关峰信息，通过PHAT(Phase Transform，相位变换加权)方法对上述互相关特性进行加权，得到加权后的互相关特性，将加权后的互相关特性确定为初始互相关信息：

其中，

为频域信号X_i(k)和X_j(k)的初始互相关信息，L为帧长。

在步骤S407中，通过PHAT加权的方式确定的初始互相关信息，每个频点的频谱都占有相同的权重，对于噪声较多的频点，噪声鲁棒特性下降。为了提高高信噪比频点的鲁棒性，根据预设的频谱权重函数，确定频域信号中预设频点的权重信息，预设频点即为高信噪比频点。预设频谱权重函数为：

其中，k为频点，w(k)为频谱权重，Y(k)为麦克风的平均能量谱密度，Y_n(k)为通过Y(k)估计的噪声特性，γ的取值范围为0＜γ＜1。

在步骤S408中，根据权重信息和初始互相关信息，确定互相关信息为：

其中，

为频域信号X_i(k)和X_j(k)的互相关信息，w(k)为频谱权重，L为帧长。

本公开示例性的实施例中，提供了一种语音处理方法，应用于包括麦克风阵列的终端设备。图5是根据一示例性实施例示出的语音处理方法的流程图，如图5所示，语音处理方法包括以下步骤：

步骤S501，控制信号发射器发射特定超声波信号；

步骤S502，麦克风阵列接收反射信号，其中，反射信号由特定超声波信号经过反射后生成；

步骤S503，基于预设算法和反射信号，计算获得多个信号扰动幅值；

步骤S504，将多个信号扰动幅值中的最大值对应的位置与终端设备之间的距离值作为距离信息；

步骤S505，基于唤醒信号，确定麦克风阵列中每个麦克风接收到的唤醒信号对应的频域信号；

步骤S506，确定每两个频域信号之间的初始互相关信息；

步骤S507，根据预设的频谱权重函数，确定频域信号中预设频点的权重信息；

步骤S508，根据权重信息和初始互相关信息，确定互相关信息；

步骤S509，根据距离信息，确定修正信息；

步骤S510，将修正信息和互相关信息的乘积作为修正互相关信息，并发送至服务器；

步骤S511，接收服务器发送的响应控制信息；

步骤S512，基于响应控制信息，对唤醒信息进行响应。

其中，步骤S501-S508与步骤S401-S408的内容相同，在此不再赘述。

在步骤S509中，根据终端设备与信号源之间的距离信息，确定终端设备与信号源之间的修正信息。

在一示例中，根据以下公式确定修正信息：

其中，α为修正信息；d为距离信息。

在步骤S510中，基于修正信息和互相关信息，通过以下公式，将修正信息和互相关信息的乘积作为修正互相关信息：

其中，R为修正互相关信息，α为修正信息，

为频域信号X_i(k)和X_j(k)的互相关信息。

确定修正互相关信息后，将修正互相关信息发送到服务器。

在步骤S511中，如果终端设备被服务器设备确定为响应唤醒信号的目标设备，则终端设备在预设时间内接收服务器发送的响应控制信息；如果终端设备没有被服务器确定为响应唤醒信号的目标设备，则终端设备在预设时间内接收不到服务器发送的响应控制信息。响应控制信息为服务器发送的用于指示终端设备对唤醒信号进行响应的信息。

步骤S512，如果终端设备接收到响应控制信息，则根据对唤醒信息进行响应；如果终端设备没有接收到响应控制信息，则不需要对唤醒信息进行响应。

本公开示例性的实施例中，提供了一种语音处理方法，应用于服务器。图6是根据一示例性实施例示出的语音处理方法的流程图，如图6所示，语音处理方法包括以下步骤：

步骤S601，接收多个终端设备发送的修正互相关信息；

步骤S602，选择多个修正互相关信息中数值最大的修正互相关信息对应的终端设备作为目标设备；

步骤S603，发送响应控制信息至目标设备，响应控制信息用于指示目标设备对唤醒信息进行响应。

在多个终端设备的场景中，服务器可以是多个终端设备中的一个，也可以是多个终端设备之外的服务器设备。当服务器可以是多个终端设备中的一个时，需要同时执行终端设备所要执行的步骤和服务器所要执行的步骤，即在接收到唤醒信号后，确定自身修正互相关信息的同时接收其他终端设备发送的修正互相关信息。当服务器可以是多个终端设备之外的服务器设备时，只需要执行服务器所要执行的步骤，即接收多个终端设备发送的修正互相关信息。

接收到多个终端设备发送的修正互相关信息后，为了所选择出的目标设备的准确性，选择多个修正互相关信息中数值最大的修正互相关信息对应的终端设备作为目标设备，该目标设备即为用户期望进行响应的终端设备。确定目标设备后，向目标设备发送响应控制信息，响应控制信息用于指示目标设备对唤醒信息进行响应。

本公开示例性的实施例中，提供了一种语音处理装置，应用于终端设备，终端设备包括麦克风阵列。图7是根据一示例性实施例示出的语音处理装置框图，如图7所示，语音处理装置包括：

获取模块701，被配置为基于接收到的唤醒信号，获取与信号源之间的距离信息，其中，信号源为唤醒信号的来源；

第一确定模块702，被配置为基于唤醒信号，确定麦克风阵列与信号源之间的互相关信息，互相关信息用于表征唤醒信号与终端设备之间的直达声距离；

第二确定模块703，被配置为根据距离信息和互相关信息，确定修正互相关信息并发送至服务器。

在一示例性实施例中，终端设备包括信号发射器，获取模块701还被配置为：

控制信号发射器发射特定超声波信号；

麦克风阵列接收反射信号，其中，反射信号由特定超声波信号经过反射后生成；

基于预设算法和反射信号，计算获得多个信号扰动幅值；

将多个信号扰动幅值中的最大值对应的位置与终端设备之间的距离值作为距离信息。

在一示例性实施例中，获取模块701还被配置为：

接收服务器发送的频段信息；

其中，信号发射器发射的特定超声波信号与频段信息适配。

在一示例性实施例中，第一确定模块702还被配置为：

基于唤醒信号，确定麦克风阵列中每个麦克风接收到的唤醒信号对应的频域信号；

确定每两个频域信号之间的初始互相关信息；

根据预设的频谱权重函数，确定频域信号中预设频点的权重信息；

根据权重信息和初始互相关信息，确定互相关信息。

在一示例性实施例中，第二确定模块703还被配置为：

根据距离信息，确定修正信息；

将修正信息和互相关信息的乘积作为修正互相关信息。

在一示例性实施例中，语音处理装置还包括：

接收模块704，被配置为接收服务器发送的响应控制信息；

响应模块705，被配置为基于响应控制信息，对唤醒信息进行响应。

本公开示例性的实施例中，提供了一种语音处理装置，应用于服务器设备。图8是根据一示例性实施例示出的语音处理装置框图，如图8所示，语音处理装置包括：

接收模块801，被配置为接收多个终端设备发送的修正互相关信息；

确定模块802，被配置为选择多个修正互相关信息中数值最大的修正互相关信息对应的终端设备作为目标设备；

发送模块803，被配置为发送响应控制信息至目标设备，响应控制信息用于指示目标设备对唤醒信息进行响应。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开示例性的实施例中，提供了一种终端设备，终端设备包括本体，本体设置超声波传感器和麦克风阵列，终端设备还包括处理器和用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行本公开上述实施例中任一实施例中记载的语音处理方法。

本公开示例性的实施例中，提供了一种服务器设备，服务器设备包括处理器和用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行本公开上述实施例中任一实施例中记载的语音处理方法。

图9是根据一示例性实施例示出的终端设备900的框图。

参照图9，终端设备900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(I/O)的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制终端设备900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在终端设备900的操作。这些数据的示例包括用于在终端设备900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为终端设备900的各种组件提供电源。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为终端设备900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述终端设备900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当终端设备900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当终端设备900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为终端设备900提供各个方面的状态评估。例如，传感器组件914可以检测到终端设备900的打开/关闭状态，组件的相对定位，例如所述组件为终端设备900的显示器和小键盘，传感器组件914还可以检测终端设备900或终端设备900一个组件的位置改变，用户与终端设备900接触的存在或不存在，终端设备900方位或加速/减速和终端设备900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于终端设备900和其他设备之间有线或无线方式的通信。终端设备900可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，终端设备900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由终端设备900的处理器920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端设备的处理器执行时，使得终端设备能够执行上述的任一种语音处理方法。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器设备的处理器执行时，使得服务器设备能够执行上述的任一种语音处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种语音处理方法，其特征在于，应用于终端设备，所述终端设备包括麦克风阵列，所述语音处理方法包括：

2.根据权利要求1所述的语音处理方法，其特征在于，所述终端设备包括信号发射器，所述获取与信号源之间的距离信息，包括：

控制所述信号发射器发射特定超声波信号；

3.根据权利要求2所述的语音处理方法，其特征在于，所述语音处理方法还包括：

接收所述服务器发送的频段信息；

4.根据权利要求1所述的语音处理方法，其特征在于，所述基于所述唤醒信号，确定所述麦克风阵列与所述信号源之间的互相关信息，包括：

确定每两个所述频域信号之间的初始互相关信息；

5.根据权利要求1所述的语音处理方法，其特征在于，所述根据所述距离信息和所述互相关信息，确定修正互相关信息，包括：

根据所述距离信息，确定修正信息；

6.根据权利要求1所述的语音处理方法，其特征在于，所述语音处理方法还包括：

接收所述服务器发送的响应控制信息；

基于所述响应控制信息，对所述唤醒信息进行响应。

7.一种语音处理方法，其特征在于，应用于服务器，所述语音处理方法包括：

接收多个终端设备发送的修正互相关信息；

8.一种语音处理装置，其特征在于，应用于终端设备，所述终端设备包括麦克风阵列，所述语音处理装置法包括：

9.根据权利要求8所述的语音处理装置，其特征在于，所述语音处理装置还包括：

接收模块，被配置为接收所述服务器发送的响应控制信息；

10.一种语音处理装置，其特征在于，应用于服务器，所述语音处理装置包括：

11.一种终端设备，其特征在于，所述终端设备包括本体，所述本体设置超声波传感器和麦克风阵列，所述终端设备还包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行如权利要求1-6任一项所述的语音处理方法。

12.一种服务器设备，其特征在于，所述服务器设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行如权利要求7所述的语音处理方法。

13.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由所述终端设备的处理器执行时，使得所述终端设备能够执行如权利要求1-6任一项所述的语音处理方法。

14.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由所述服务器设备的处理器执行时，使得所述服务器设备能够执行如权利要求7所述的语音处理方法。