CN115083390A

CN115083390A - 声源距离排序方法及相关产品

Info

Publication number: CN115083390A
Application number: CN202110261900.1A
Authority: CN
Inventors: 江忠泽; 曾理; 张晓帆; 钟卫东; 王佩玲
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2022-09-20

Abstract

本申请实施例提供一种声源距离排序方法及相关产品，该声源距离排序方法包括：获取n个设备在同一时间段内分别采集的n条语音信号；对n条语音信号进行语音特征提取，得到n条语音信号对应的n条语音特征；将n条语音特征输入声源距离排序模型，通过声源距离排序模型计算n条语音信号的距离得分，根据n条语音信号的距离得分确定n个设备的声源距离排序关系，声源距离排序关系用于为唤醒服务提供参考。本申请实施例可以准确实现唤醒服务。

Description

声源距离排序方法及相关产品

技术领域

本申请涉及音频处理技术领域，具体涉及一种声源距离排序方法及相关产品。

背景技术

随着人工智能技术的发展，人机语音交互已成为产品化程度最高、服务人群最广的领域之一，涌现出许多语音助手或聊天机器人，比如苹果的Siri，微软的小冰等。然而，在同一空间中，用户可能拥有多台支持相同唤醒词的语音交互设备，若此时用户发起唤醒指令，多台设备可能同时应答，相互干扰，这会给用户带来困扰和不便，影响使用体验。

为此，许多终端厂商或者科技公司提出了“就近唤醒”技术，其实现原理是基于能量或者信噪比来选择距离声源(发声用户)最近的设备进行唤醒响应。然而，目前的方案只能反映出距离声源的最近的设备，如果距离声源最近的设备无法被唤醒，则无法实现唤醒服务。

发明内容

本申请实施例提供一种声源距离排序方法及相关产品，可以准确实现唤醒服务。

本申请实施例的第一方面提供了一种声源距离排序方法，包括：

获取n个设备在同一时间段内分别采集的n条语音信号，n为大于或等于2的整数；

对所述n条语音信号进行语音特征提取，得到所述n条语音信号对应的n条语音特征；

将所述n条语音特征输入声源距离排序模型，通过所述声源距离排序模型计算所述n条语音信号的距离得分，根据所述n条语音信号的距离得分确定所述n个设备的声源距离排序关系，所述声源距离排序关系用于为唤醒服务提供参考。

本申请实施例的第二方面提供了一种设备唤醒系统，包括仲裁端以及与所述仲裁端通信连接的n个设备，所述n个设备开启语音唤醒功能，n为大于或等于2的整数，其中：

所述仲裁端，用于接收所述n个设备在同一时间段内分别采集的n条语音信号，对所述n条语音信号进行语音特征提取，得到所述n条语音信号对应的n条语音特征；或者用于接收所述n个设备在同一时间段内分别采集的n条语音信号对应的n条语音特征；

所述仲裁端，还用于将所述n条语音特征输入声源距离排序模型，通过所述声源距离排序模型计算所述n条语音信号的距离得分，根据所述n条语音信号的距离得分确定所述n个设备的声源距离排序关系；

所述仲裁端，还用于根据所述n个设备的声源距离排序关系确定所述n个设备中的待唤醒设备，向所述待唤醒设备发送唤醒指令，以唤醒所述待唤醒设备。

本申请实施例的第三方面提供了一种声源距离排序装置，包括：

获取单元，用于获取n个设备在同一时间段内分别采集的n条语音信号，n为大于或等于2的整数；

特征提取单元，用于对所述n条语音信号进行语音特征提取，得到所述n条语音信号对应的n条语音特征；

排序单元，用于将所述n条语音特征输入声源距离排序模型，通过所述声源距离排序模型计算所述n条语音信号的距离得分，根据所述n条语音信号的距离得分确定所述n个设备的声源距离排序关系，所述声源距离排序关系用于为唤醒服务提供参考。

本申请实施例的第四方面提供了一种终端设备，包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如本申请实施例第一方面中的步骤指令。

本申请实施例的第五方面提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。

本申请实施例的第六方面提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

本申请实施例的声源距离排序方法包括如下步骤：获取n个设备在同一时间段内分别采集的n条语音信号，n为大于或等于2的整数；对所述n条语音信号进行语音特征提取，得到所述n条语音信号对应的n条语音特征；将所述n条语音特征输入声源距离排序模型，通过所述声源距离排序模型计算所述n条语音信号的距离得分，根据所述n条语音信号的距离得分确定所述n个设备的声源距离排序关系，所述声源距离排序关系用于为唤醒服务提供参考。本申请实施例的声源距离排序方法，可以通过声源距离排序模型对n个设备的声源距离进行排序，得到n个设备的声源距离排序关系，由于声源距离排序关系反映了n个设备距离声源的远近关系，可以为满足各种唤醒服务需求，为各种唤醒服务提供精准的参考，准确实现唤醒服务。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种多设备场景的结构示意图；

图2是本申请实施例提供的一种设备唤醒系统的结构示意图；

图3是本申请实施例提供的一种声源距离排序方法的流程示意图；

图4是本申请实施例提供的一种声源距离排序模型的训练方法的流程示意图；

图5是本申请实施例提供的一种多设备唤醒方法的流程示意图；

图6是本申请实施例提供的一种声源距离排序装置的结构示意图；

图7是本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

本申请实施例所涉及到的终端设备可以包括各种具有无线通信功能和语音交互功能(包括语音采集，有些还可以包括语音播放功能)的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(userequipment，UE)，移动台(mobile station，MS)，终端设备(terminal device)等等。为方便描述，上面提到的设备统称为终端设备。本申请实施例所涉及到的被校准设备、参考设备均属于终端设备的范畴。

目前的方案只能反映出距离声源的最近的设备，如果距离声源最近的设备无法被唤醒，则无法实现唤醒服务。有些方案能够估计每台设备距离声源的距离值，但误差往往比较大；或者能够将设备划分到其所在的距离区间，但是这无法比较在同一距离区间的设备的相对远近。

为此，本方案提出一种声源距离排序方法，在同一空间中，能够给出不同分布式异构设备距离声源(说话人)远近的顺序关系。异构设备与同构设备相对应，同构设备指的是同一种类型(比如，同一种型号)的设备，异构设备指的是不同类型的设备。

需要说明的是，本申请实施例所提到的“分布式”指的是硬件在物理空间上的分布，而不是通常意义上理解的软件或软件系统的分布。不同分布式异构设备中所有的设备在物理空间是分散的，并不是聚集在一起。

为了更好的理解本申请实施例中的声源距离排序方法，本申请实施例提出了一种多设备场景，该多设备场景包括发声用户和设备唤醒系统，发声用户处于设备唤醒系统中，该设备唤醒系统包括n个设备，n为大于或等于2的整数。n个设备均具有语音采集能力，n个设备可以全部具有语音播放能力，也可以部分具有语音播放能力，具有语音采集能力和语音播放能力的设备被认为具有语音交互功能。请参阅图1，图1是本申请实施例提供的一种多设备场景的结构示意图。该多设备场景的设备唤醒系统可以多个设备，比如，如图1所示的大屏多媒体语音交互终端(比如，具有语音交互功能的电视机)、移动通讯语音交互终端(比如，手机)、可穿戴语音交互终端(比如，智能手表)和平板电脑等。该多设备场景还可以包括发声用户，发声用户与设备唤醒系统中不同的设备的距离可以不同，从图1可以看出，发声用户发出语音指令“小布，小布”时，距离该发声用户从近到远依次是可穿戴语音交互终端、移动通讯语音交互终端、平板电脑和大屏多媒体语音交互终端。

可选的，图1所示的多设备场景还可以包括智能家电语音交互终端(比如，具有语音交互功能的智能冰箱、智能空调、智能洗衣机等)。

本申请实施例的终端设备可以包括图1所示系统中的任意一种设备。

可选的，图1还可以包括仲裁端，仲裁端可以与图1的设备进行通信。仲裁端用于进行服务仲裁，比如唤醒服务仲裁、语音操控服务仲裁等。唤醒服务是从多个设备中唤醒一个或多个设备的服务。唤醒服务的唤醒策略可以包括就近唤醒、最常用唤醒、最高剩余电量唤醒、最强处理能力唤醒中的一种或多种组合。其中，就近唤醒，是指多设备场景中距离发声者最近的设备，最常用唤醒，是指多设备场景中最常用的设备。剩余电量最高唤醒，是指多设备场景中剩余电量最高的设备。最强处理能力唤醒，是指多设备场景中处理能力最强的设备。

图1中，用户置身于多设备场景时，可以发出语音指令“小布、小布”，该场景下的n个设备都可以接收该语音，仲裁端根据n个设备上传的语音信号或n个设备上传的语音信号对应的语音特征确定n个设备的声源距离排序关系，根据该声源距离排序关系确定n个设备中需要唤醒的目标设备，仲裁端向该目标设备发送唤醒指令，以唤醒该目标设备，当该目标设备被唤醒后，该目标设备可以针对该语音指令做出相应的应答，并且与该用户进行语音交互。

声源距离指的是设备距离声源的距离。n个设备的声源距离排序关系是排列出n个设备距离同一声源从近到远的排序或者排列出n个设备距离同一声源从远到近的排序。

其中，仲裁端可以包括分布式仲裁端或云仲裁端。分布式仲裁端可以是图1所示场景中任意一台装有终端处理器的设备，一般设定为信息处理能力最优的设备。考虑到功耗的因素，除非没有其他选择，一般不将可穿戴语音交互终端设置为分布式仲裁端。云仲裁端可以包括云服务器。

请参阅图2，图2是本申请实施例提供的一种设备唤醒系统的结构示意图。如图2所示，该设备唤醒系统包括仲裁端以及与所述仲裁端通信连接的n个设备，所述n个设备开启语音唤醒功能，n为大于或等于2的整数。

其中，n个设备可以同一时间段内从同一声源分别拾取n条语音信号。仲裁端的具体描述可以参见图1。

其中，语音信号的距离得分越高，表明采集该语音信号的设备距离声源的距离越远。

其中，仲裁端可以根据n个设备的声源距离排序关系和上述唤醒策略确定n个设备中的待唤醒设备。n个设备的声源距离排序关系是唤醒策略的一个重要参考维度，还可以将声源距离排序关系和设备状态、设备服务能力、用户意图、用户习惯、用户历史行为等维度相结合，进行综合判定，选择一台最合适的待唤醒设备与用户进行语音交互。

其中，语音特征提取的具体方法、n条语音信号的距离得分计算方法可以以参见图3或图4所示的具体实施例。

可选的，每个设备还可以上传自身的能力信息，比如：终端设备的处理器能力、扬声器能力(扬声器的功率、灵敏度等)、麦克风能力(是否是麦克风阵列，麦克风的降噪能力、灵敏度等)等。

图1和图2中的n个设备可以是同构设备，也可以是异构设备。

本申请实施例中，可以通过声源距离排序模型对n个设备的声源距离进行排序，得到n个设备的声源距离排序关系，根据n个设备的声源距离排序关系确定n个设备中的待唤醒设备，向待唤醒设备发送唤醒指令，以唤醒待唤醒设备，由于声源距离排序关系是唤醒服务的一个重要参考维度，可以为唤醒服务提供精准的参考，准确实现唤醒服务。

请参阅图3，图3是本申请实施例提供的一种声源距离排序方法的流程示意图。图3所示的方法应用于图1所示的场景或图2所示的设备唤醒系统。如图3所示，该声源距离排序方法可以包括如下步骤。

301，终端设备获取n个设备在同一时间段内分别采集的n条语音信号。

本申请实施例中的终端设备可以是图1所示场景或图2所示的设备唤醒系统中的任意一种设备，也可以是图1所示场景或图2所示的设备唤醒系统中的仲裁端。

n个设备在同一时段从同一声源分别拾取一条语音信号，即上述n条语音信号，将该n条语音信号的集合记为一组语音信号，即一组语音信号是n个设备在同一空间场景、同一时段的条件下，从同一声源拾取的多条语音信号。

n个设备可以通过自身携带的语音采集模块在同一时间段内分别采集同一声源的n条语音信号。同一声源可以是同一个人的声带。

302，终端设备对n条语音信号进行语音特征提取，得到n条语音信号对应的n条语音特征。

本申请实施例中，终端设备可以包括语音特征提取模块，通过语音特征提取模块对n条语音信号中的每一条语音信号分别进行语音特征提取，所提取的语音特征可以包括语音信号的矢量频谱特征、标量语音特征或者矢量频谱特征与的标量语音特征的组合。

如表1所示，矢量频谱特征可以包括梅尔频率倒谱系数(Mel-Frequency CepstralCoefficients，MFCC)以及它的一阶差分特征、二阶差分特征。标量语音特征可以参见表2。

表1矢量频谱特征

表2标量语音特征

特征类型	中文解释	英文解释
			LP	线性预测	Linear Prediction
LPRR	LP残差峰值-均方根值比	LP Residual Ratio
			LPRK	LP残差峭度	LP Residual Kurtosis
LPRHP	LP残差直方图峰值	LP Residual Histogram Peak
			SPSK	语谱图偏度	Spectrogram Skewness
SHPP	语谱图直方图峰值位置	Spectrogram Histogram Peak Position

上述所有语音特征均依据其定义和现有的方法进行提取，在此不做赘述。在实际使用时，可以选择上述语音特征中的一种特征，或多种特征的组合，或全部特征的组合输入声源距离排序模型进行距离得分排序。在训练过程中，可以选择上述语音特征中的一种特征，或多种特征的组合，或全部特征的组合输入声源距离排序模型来训练声源距离排序模型，在此不做限定。

可选的，语音特征包括矢量频谱特征和标量语音特征。

其中，矢量频谱特征包括上述表1中的所有矢量频谱特征，标量语音特征可以包括上述表1中的所有标量语音特征。在声源距离排序模型的训练过程中，通过实验证明，使用上述表1和表2中的全部特征组合后的融合特征训练该声源距离排序模型能够达到最好的效果。

在提取出一组语音信号的语音特征(n条语音特征)之后，可以将提取的语音特征输入到训练完成(训练好)的声源距离排序模型中进行推理，得到多台设备和声源(说话人)之间距离的排序关系。

可选的，在提取出一组语音信号的语音特征(n条语音特征)之后，可以用提取的语音特征训练声源距离排序模型。

其中，n条语音信号可以采用相同的语音特征提取算法进行语音特征提取。

303，终端设备将n条语音特征输入声源距离排序模型，通过声源距离排序模型计算n条语音信号的距离得分，根据n条语音信号的距离得分确定n个设备的声源距离排序关系，声源距离排序关系用于为唤醒服务提供参考。

本申请实施例中，声源距离排序模型可以是训练好的模型。其中，语音信号的距离得分越高，表明采集该语音信号的设备距离声源的距离越远。

举例来说，以n等于4为例，4个设备包括设备1、设备2、设备3、设备4。设备1、设备2、设备3、设备4在同一时间段内分别采集同一声源的4条语音信号：语音信号1、语音信号2、语音信号3、语音信号4，对这4条语音信号进行语音特征提取，得到4条语音信号对应的4条语音特征：语音特征1、语音特征2、语音特征3、语音特征4。将4条语音特征输入声源距离排序模型，通过声源距离排序模型计算4条语音特征的距离得分：分数1、分数2、分数3、分数4。如果分数1＜分数2＜分数3＜分数4，则4个设备的声源距离排序关系为：4个设备按照从小到大进行声源距离排序为：设备1排第一、设备2排第二、设备3排第三、设备4排第四。

可选的，步骤303中，终端设备通过声源距离排序模型计算n条语音信号的距离得分，具体为：

通过如下公式计算所述n条语音信号的距离得分：

s_i＝f(x_i；w)，i∈[1,n]；

其中，s_i表示所述n条语音信号中第i条语音信号的距离得分，f(x；w)表示打分函数，x_i表示所述n条语音信号中第i条语音信号对应的语音特征，w表示训练好的声源距离排序模型的模型参数。声源距离排序模型的模型参数是通过训练得到的。

由于x_i表示所述n条语音信号中第i条语音信号对应的语音特征，x_i可以以向量的形式存在。n条语音特征可以用向量组{x₁,x₂,...,x₃}来表示。对于n条语音信号中的其他语音信号的距离得分也可以采用类似的方法进行计算，此处不再赘述。

本申请实施例的声源距离排序方法，可以通过声源距离排序模型对n个设备的声源距离进行排序，得到n个设备的声源距离排序关系，由于声源距离排序关系反映了n个设备距离声源的远近关系，可以为满足各种唤醒服务(不仅仅包括就近唤醒服务)需求，为各种不同的唤醒服务提供精准的参考，准确实现唤醒服务。

可选的，在执行步骤303之后，还可以执行如下步骤：

终端设备根据n个设备的声源距离排序关系执行唤醒服务。

本申请实施例中，如果唤醒服务的唤醒策略包括就近唤醒，则终端设备根据n个设备的声源距离排序关系确定n个设备中声源距离最近的设备，并唤醒该设备，从而实现唤醒服务。

在一个可能的实施例中，如果唤醒服务的唤醒策略包括就近唤醒剩余电量高于设定电量阈值的设备，终端设备(仲裁端或者n个设备中的一个)可以获取n个设备的剩余电量信息，终端设备可以根据n个设备的声源距离排序关系和n个设备的剩余电量信息，确定n个设备中剩余电量高于设定电量阈值的设备中声源距离最小的设备，并唤醒该设备，从而实现唤醒服务。

在一个可能的实施例中，如果唤醒服务的唤醒策略包括就近唤醒处理能力高于设定处理能力的设备，终端设备(仲裁端或者n个设备中的一个)可以获取n个设备的处理能力信息，终端设备可以根据n个设备的声源距离排序关系和n个设备的处理能力信息，确定n个设备中处理能力高于设定处理能力的设备中声源距离最小的设备，并唤醒该设备，从而实现唤醒服务。

本申请实施例中，n个设备的声源距离排序关系是唤醒策略的一个重要参考维度，n个设备的声源距离排序关系可以满足不同唤醒策略的需求。如果仅计算最近的设备或将设备的声源距离按区间划分，可能存在一部分唤醒策略失效的情况。

比如，如果仅计算最近的设备，唤醒策略包括就近唤醒处理能力高于设定处理能力的一个设备，如果确定距离声源最近的设备的处理能力低于该设定处理能力，则无法确定n个设备中处理能力高于设定处理能力的设备中声源距离最小的设备，无法实现唤醒服务。

又比如，如果将设备的声源距离按区间划分，唤醒策略包括就近唤醒处理能力高于设定处理能力的一个设备，如果确定高于设定处理能力的多个设备中均处于同一距离区间，则无法确定n个设备中处理能力高于设定处理能力的设备中声源距离最小的设备，无法实现唤醒服务。

本申请实施例中的声源距离排序模型都是训练好的模型，声源距离排序模型可以是卷积神经网络(Convolutional Neural Network，CNN)或者递归神经网络(RecurrentNeural Network，RNN)，在此不做限制。

下面对结合图4对该声源距离排序模型的训练方法进行详细说明。

请参阅图4，图4是本申请实施例提供的一种声源距离排序模型的训练方法的流程示意图。如图4所示，该声源距离排序模型的训练方法可以包括如下步骤。

401，终端设备获取语音训练数据集，训练数据集包括k组训练语音样本，每组训练语音样本包括n个设备在同一时间段从同一声源采集到的n条训练语音信号对应的n条训练语音特征以及n个设备与同一声源的n个距离标签，k为正整数。

本申请实施例中，声源距离排序模型采用有监督的方式进行训练。训练数据集包括的k组训练语音样本是在k个不同条件下分别采集的n条训练语音信号对应的n条训练语音特征。不同条件指的是，每次采集时，声源与各个设备之间的距离不完全相同，可以保证训练数据的分布均衡性，进而提高训练效果。

训练数据集的每条训练语音特征均采用相同的语音特征提取算法进行提取，从而保证每条训练语音特征对应的特征向量均包含相同的维度，每个维度代表相同的含义，区别在于两个特征向量之间同一维度的数值可能不同。

距离标签可以是在语音采集过程中实际测量的各个设备与同一声源之间的距离。由于实测距离的数值差异性较大，不利于训练，可以通过步骤402的方式组成距离标签对，便于比较两个不同设备之间的距离。

假设所述一组训练语音信号来自n(n≥2)台(个)设备，所述n台设备用{E₁,E₂,…,E_n}表示；对所述一组训练语音信号进行特征提取，得到一组训练语音特征，记为{x₁,x₂,…,x_n}；每台设备和声源(说话人)之间的距离标签表示为{d₁,d₂,…,d_n}。

402，终端设备将n条训练语音特征两两组合形成m条语音特征对，将n个距离标签两两组合形成m条距离标签对，m条语音特征对与m条距离标签对一一对应，形成m条训练样本，每条训练样本包含一条语音特征对以及对应的一条距离标签对。

本申请实施例中，n条训练语音特征两两组合(排列组合)可以形成

组语音特征对，

本申请实施例中，不同设备和声源(说话人)人之间的距离两两组合形成距离标签对d_i′j′，d_i′j′＝<d_i′，d_j′>，i≠j，d_i′j′可以表示3种情形：d_i′＜d_j′时表示设备E_i′比设备E_j′离声源(说话人)更近，d_i′＝d_j′时表示设备E_i′和设备E_j′离声源(说话人)同样近，d_i′＞d_j′时表示设备E_i′比设备E_j′离声源(说话人)更远，本申请实施例可以采用三分类函数S_i′j′∈{+1,-1,0}分别表示对应的情形(当d_i′＜d_j′时，S_i′j′＝1；当d_i′>d_j′时，S_i′j′＝-1；当d_i′＝d_j′时，S_i′j′＝0)。d_i′表示设备E_i′离声源的距离，d_j′表示设备E_j′离声源的距离。

训练声源距离排序模型时，可以以一组训练语音特征作为一个输入，所述一组语音特征内的语音特征两两组合可形成对应于距离标签对d_i′j′的语音特征对x_i′j′＝<x_i′，x_j′>，i≠j，每个语音特征对x_i′j′作为一条训练样本，x_i′j′对应于d_i′j′表示的3种情形，故可用S_i′j′∈{+1,-1,0}为x_i′j′赋予类别标签，由此便将多台设备和说话人之间距离的排序问题转化为了三分类问题。x_i′表示设备E_i′采集的训练语音信号对应的训练语音特征，x_j′表示设备E_j′采集的训练语音信号对应的训练语音特征，x_i′j′表示x_i′和x_j′组成的语音特征对。

其中，距离标签对d_i′j′通过三分类函数S_i′j′∈{+1,-1,0}为x_i′j′赋予类别标签后，可以将类比标签存储在终端设备的存储器(非易失性存储器)中，每个距离标签对都可以对应一个类别标签，类别标签用于表示距离标签对的两个距离标签对应的两个设备距离同一声源的远近关系。

403，终端设备将第一训练样本输入声源距离排序模型，得到第一语音特征的训练距离得分和第二语音特征的训练距离得分，第一训练样本是m条训练样本中的任一条，第一语音特征和第二语音特征是第一训练样本包含的一条语音特征对。

本申请实施例中，终端设备可以通过如下公式计算第一训练样本包含的第一语音特征的训练距离得分和第二语音特征的训练距离得分：

s_i′＝f(x_i′；w)；

s_j′＝f(x_j′；w)；

其中，s_i′表示所述第一训练样本包含的第一语音特征x_i′的训练距离得分，f(x_i′；w)表示打分函数，s_j′表示所述第一训练样本包含的第二语音特征x_j′的训练距离得分，f(x_j′；w)表示打分函数，w表示所述声源距离排序模型的模型参数。其他训练样本包含的语音特征对的距离得分的计算方法可以参照上述公式，此处不再赘述。

404，终端设备根据第一语音特征的训练距离得分和第二语音特征的训练距离得分计算第一语音特征对应的设备与同一声源的距离小于第二语音特征对应的设备与同一声源的距离的预测概率。

本申请实施例中，可以通过一个映射函数，将第一语音特征的训练距离得分和第二语音特征的训练距离得分映射到上述预测概率。该映射函数可以是指数函数，也可以是比例函数、也可以是三角函数。该映射函数具有如下特征：当第一语音特征的训练距离得分大于第二语音特征的训练距离得分时，通过该映射函数映射的预测概率小于0.5。当第一语音特征的训练距离得分等于第二语音特征的训练距离得分时，通过该映射函数映射的预测概率等于0.5。当第一语音特征的训练距离得分小于第二语音特征的训练距离得分时，通过该映射函数映射的预测概率大于0.5。其中，该映射函数在第一语音特征的训练距离得分与第二语音特征的训练距离得分的比值到预测概率的映射为单调递增函数。

可选的，步骤404具体可以包括如下步骤：

通过如下公式计算所述第一语音特征对应的设备与所述同一声源的距离小于所述第二语音特征对应的设备与所述同一声源的距离的预测概率：

其中，E_i′表示第i′个设备，E_j′表示第j′个设备，所述第i′个设备为所述n个设备中的任一个，所述第j′个设备为所述n个设备中与所述第i′个设备不同的一个；

表示所述第i′个设备与所述同一声源的距离小于所述第j′个设备与所述同一声源的距离的预测概率，s_i′表示所述第i′个设备采集到的第i′条训练语音信号的距离得分，s_j′表示所述第j′个设备采集到的第j′条训练语音信号的距离得分，e是欧拉常数。

如果

则表示模型预测结果为设备E_i′比设备E_j′离声源(说话人)更近，如果

则表示模型预测结果为设备E_i′和设备E_j′离声源(说话人)一样近，如果

则表示模型预测结果为设备E_i′比设备E_j′离声源(说话人)更远。由此，便借助Sigmoid函数将设备E_i′比设备E_j′离说话人更近的概率映射到[0,1]，并从概率的角度对哪台设备距离声源(说话人)更近进行了建模。最终得以通过分类问题的思想来对多台设备和声源(说话人)之间距离的排序问题进行求解。

405，终端设备将第一训练样本包含的距离标签对映射到真实概率空间，得到第一训练样本的真实概率，根据预测概率和真实概率计算第一训练样本的训练损失。

406，终端设备根据m条训练样本的训练损失计算一组训练语音样本的总训练损失，根据总训练损失对声源距离排序模型的模型参数进行更新。

其中，终端设备将所述第一训练样本包含的距离标签对映射到真实类别标签，将所述真实类别标签映射到真实概率空间，得到第一训练样本的真实概率。

距离标签对为d_i′j′，真实类别标签为S_i′j′，真实概率空间P_i′j′。

本申请实施例中，为了使用交叉熵损失来计算训练损失，需要将x_i′j′的真实类别标签S_i′j′与真实概率标签P_i′j′进行一一映射：

进一步地，训练样本x_i′j′的训练损失(交叉熵损失)计算如下：

利用上述公式对一组语音特征中所有的语音特征对x_i′j′计算对应的交叉熵损失C_i′j′，并对所有的C_i′j′求和得到一组语音特征的总交叉熵损失。

其中，步骤405可以在步骤404之前执行，也可以在步骤404之后执行，二者也可以同时执行。

407，终端设备在满足训练终止条件时，确定声源距离排序模型为训练好的模型。

所述训练终止条件包括：所述声源距离排序模型的预测准确率大于第一阈值，或者所述声源距离排序模型完成训练的训练语音样本的组数达到第二阈值。

所述训练终止条件具体描述为：当声源距离排序模型学习完一次所有组的语音特征学习后，称为完成一个训练epoch。每完成一个epoch，便在验证集上进行一次模型验证，若在验证集上的准确率达到设定的阈值，则停止训练，保存声源距离排序模型；另外，若训练epoch的数值达到设定的训练epoch数目的最大值，也停止训练，保存声源距离排序模型。

具体的，声源距离排序模型的训练过程可以总结为：

(1)首先利用语音特征提取模块对语音数据训练集按组进行语音特征提取并分配距离标签，然后将语音特征和距离标签按组以二进制形式存储于硬盘；

(2)从二进制文件中抽取一组语音特征及其对应的距离标签，将此作为声源距离排序模型的输入，通过前向传播计算这组语音特征的总交叉熵损失，并利用反向传播(backpropagation,BP)算法更新声源距离排序模型的参数；

(3)判断当前是否满足训练终止条件，如果满足终止条件，则保存声源距离排序模型，否则重复步骤(2)。

本申请实施例的声源距离排序模型的训练方法利用分类的思想来解决排序问题，在不降低训练效果的前提下可以显著降低训练的数据计算量，提高了训练速度。每次以一组语音信号的语音特征作为输入，训练时一组语音特征两两配对组成一个训练样本，利用构建的损失函数对模型参数进行更新优化。相较于基于能量、信噪比、语音质量等单一特征的方法，本申请实施例采用多种语音特征的组合训练声源距离排序模型，该模型受环境声场特性、随机噪声的影响小，泛化能力强，适用于多种场景和分布式异构设备。

请参阅图5，图5是本申请实施例提供的一种多设备唤醒方法的流程示意图。该方法应用于图2所示的设备唤醒系统，该设备唤醒系统包括仲裁端以及与所述仲裁端通信连接的至少两个终端设备，所述至少两个终端设备开启语音唤醒功能。如图5所示，该方法可以包括如下步骤。

501，仲裁端接收n个设备在同一时间段内分别采集的n条语音信号，对n条语音信号进行语音特征提取，得到n条语音信号对应的n条语音特征；或者用于仲裁端接收n个设备在同一时间段内分别采集的n条语音信号对应的n条语音特征。

502，仲裁端将n条语音特征输入声源距离排序模型，通过声源距离排序模型计算n条语音信号的距离得分，根据n条语音信号的距离得分确定n个设备的声源距离排序关系。

503，仲裁端根据n个设备的声源距离排序关系确定n个设备中的待唤醒设备，向待唤醒设备发送唤醒指令，以唤醒待唤醒设备。

上述步骤501至步骤503的具体实施可以参见图2所示的设备唤醒系统的具体实施以及上述图3至图4的具体实施，此处不再赘述。仲裁端可以参见图2所示的设备唤醒系统。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，终端设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对终端设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

与上述一致的，请参阅图6，图6是本申请实施例提供的一种声源距离排序装置的结构示意图，该声源距离排序装置600应用于终端设备，该声源距离排序装置600可以包括获取单元601、特征提取单元602和排序单元603，其中：

获取单元601，用于获取所述n个设备在同一时间段内分别采集的n条语音信号；

特征提取单元602，用于对所述n条语音信号进行语音特征提取，得到所述n条语音信号对应的n条语音特征；

排序单元603，用于将所述n条语音特征输入声源距离排序模型，通过所述声源距离排序模型计算所述n条语音信号的距离得分，根据所述n条语音信号的距离得分确定所述n个设备的声源距离排序关系，所述声源距离排序关系用于为唤醒服务提供参考。

可选的，所述排序单元603通过所述声源距离排序模型计算所述n条语音信号的距离得分，包括：

通过如下公式计算所述n条语音信号的距离得分：

s_i＝f(x_i；w)，i∈[1,n]；

其中，s_i表示所述n条语音信号中第i条语音信号的距离得分，f(x；w)表示打分函数，x_i表示所述n条语音信号中第i条语音信号对应的语音特征，w表示所述声源距离排序模型的模型参数。

可选的，所述声源距离排序装置600还可以包括：

唤醒单元604，用于在排序单元603根据所述n条语音信号的距离得分确定所述n个设备的声源距离排序关系之后，根据所述n个设备的声源距离排序关系执行唤醒服务。

可选的，所述声源距离排序装置600还可以包括：

训练单元605，用于排序单元603将所述n条语音特征输入声源距离排序模型之前，获取语音训练数据集，所述训练数据集包括k组训练语音样本，每组训练语音样本包括所述n个设备在同一时间段从同一声源采集到的n条训练语音信号对应的n条训练语音特征以及所述n个设备与所述同一声源的n个距离标签，k为正整数；将所述n条训练语音特征两两组合形成m条语音特征对，将所述n个距离标签两两组合形成m条距离标签对，所述m条语音特征对与所述m条距离标签对一一对应，形成m条训练样本，每条训练样本包含一条语音特征对以及对应的一条距离标签对；将第一训练样本输入声源距离排序模型，得到第一语音特征的训练距离得分和第二语音特征的训练距离得分，所述第一训练样本是所述m条训练样本中的任一条，所述第一语音特征和所述第二语音特征是所述第一训练样本包含的一条语音特征对；根据所述第一语音特征的训练距离得分和所述第二语音特征的训练距离得分计算所述第一语音特征对应的设备与所述同一声源的距离小于所述第二语音特征对应的设备与所述同一声源的距离的预测概率；将所述第一训练样本包含的距离标签对映射到真实概率空间，得到第一训练样本的真实概率，根据所述预测概率和所述真实概率计算所述第一训练样本的训练损失；根据m条训练样本的训练损失计算一组训练语音样本的总训练损失，根据所述总训练损失对所述声源距离排序模型的模型参数进行更新；在满足训练终止条件时，确定所述声源距离排序模型为训练好的模型。

可选的，所述训练单元605根据所述第一语音特征的训练距离得分和所述第二语音特征的训练距离得分计算所述第一语音特征对应的设备与所述同一声源的距离小于所述第二语音特征对应的设备与所述同一声源的距离的预测概率，包括：通过如下公式计算所述第一语音特征对应的设备与所述同一声源的距离小于所述第二语音特征对应的设备与所述同一声源的距离的预测概率：

表示所述第i′个设备与所述同一声源的距离小于所述第j′个设备与所述同一声源的距离的预测概率，s_i′表示所述第i′个设备采集到的第i′条训练语音信号的距离得分，s_j′表示所述第j′个设备采集到的第j′条训练语音信号的距离得分。

可选的，所述训练单元605将所述第一训练样本包含的距离标签对映射到真实概率空间，得到第一训练样本的真实概率，包括：将所述第一训练样本包含的距离标签对映射到真实类别标签，将所述真实类别标签映射到真实概率空间，得到第一训练样本的真实概率。

可选的，所述训练终止条件包括：所述声源距离排序模型的预测准确率大于第一阈值，或者所述声源距离排序模型完成训练的训练语音样本的组数达到第二阈值。

可选的，所述语音特征包括矢量频谱特征和标量语音特征。

其中，本申请实施例中的特征提取单元602、排序单元603、唤醒单元604、训练单元605可以是终端设备中的处理器。获取单元601可以是终端设备中的通信模块。

本申请实施例中，可以通过声源距离排序模型对n个设备的声源距离进行排序，得到n个设备的声源距离排序关系，由于声源距离排序关系反映了n个设备距离声源的远近关系，可以为满足各种唤醒服务(不仅仅包括就近唤醒服务)需求，为各种不同的唤醒服务提供精准的参考，准确实现唤醒服务。

请参阅图7，图7是本申请实施例提供的一种终端设备的结构示意图，如图7所示，该终端设备700包括处理器701和存储器702，处理器701、存储器702可以通过通信总线703相互连接。通信总线703可以是外设部件互连标准(Peripheral Component Interconnect，简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，简称EISA)总线等。通信总线703可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。存储器702用于存储计算机程序，计算机程序包括程序指令，处理器701被配置用于调用程序指令，上述程序包括用于执行图3～5所示的方法中的部分或全部步骤。

处理器701可以是通用中央处理器(CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制以上方案程序执行的集成电路。

存储器702可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

此外，该终端设备700还可以包括通信模块704、采集语音信号的麦克风、播放语音信号的扬声器等。其中通信模块704可以包括射频收发器、射频前端设备、天线等通用部件，在此不再详述。

图6和图7的终端设备可以是图1所示场景或图2所示的设备唤醒系统中的任意一种设备，也可以是图1所示场景或图2所示的设备唤醒系统中的仲裁端。

本申请实施例还提供一种计算机可读存储介质，其中，该计算机可读存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任何一种声源距离排序方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在申请明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器、随机存取器、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种声源距离排序方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过所述声源距离排序模型计算所述n条语音信号的距离得分，包括：

通过如下公式计算所述n条语音信号的距离得分：

s_i＝f(x_i；w)，i∈[1,n]；

3.根据权利要求1所述的方法，其特征在于，所述根据所述n条语音信号的距离得分确定所述n个设备的声源距离排序关系之后，所述方法还包括：

根据所述n个设备的声源距离排序关系执行唤醒服务。

4.根据权利要求1所述的方法，其特征在于，所述将所述n条语音特征输入声源距离排序模型之前，所述方法还包括：

获取语音训练数据集，所述训练数据集包括k组训练语音样本，每组训练语音样本包括所述n个设备在同一时间段从同一声源采集到的n条训练语音信号对应的n条训练语音特征以及所述n个设备与所述同一声源的n个距离标签，k为正整数；

将所述n条训练语音特征两两组合形成m条语音特征对，将所述n个距离标签两两组合形成m条距离标签对，所述m条语音特征对与所述m条距离标签对一一对应，形成m条训练样本，每条训练样本包含一条语音特征对以及对应的一条距离标签对；

将第一训练样本输入声源距离排序模型，得到第一语音特征的训练距离得分和第二语音特征的训练距离得分，所述第一训练样本是所述m条训练样本中的任一条，所述第一语音特征和所述第二语音特征是所述第一训练样本包含的一条语音特征对；

根据所述第一语音特征的训练距离得分和所述第二语音特征的训练距离得分计算所述第一语音特征对应的设备与所述同一声源的距离小于所述第二语音特征对应的设备与所述同一声源的距离的预测概率；

将所述第一训练样本包含的距离标签对映射到真实概率空间，得到第一训练样本的真实概率，根据所述预测概率和所述真实概率计算所述第一训练样本的训练损失；

根据m条训练样本的训练损失计算一组训练语音样本的总训练损失，根据所述总训练损失对所述声源距离排序模型的模型参数进行更新；

在满足训练终止条件时，确定所述声源距离排序模型为训练好的模型。

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一语音特征的训练距离得分和所述第二语音特征的训练距离得分计算所述第一语音特征对应的设备与所述同一声源的距离小于所述第二语音特征对应的设备与所述同一声源的距离的预测概率，包括：

6.根据权利要求4所述的方法，其特征在于，所述将所述第一训练样本包含的距离标签对映射到真实概率空间，得到第一训练样本的真实概率，包括：

将所述第一训练样本包含的距离标签对映射到真实类别标签，将所述真实类别标签映射到真实概率空间，得到第一训练样本的真实概率。

7.根据权利要求4所述的方法，其特征在于，所述训练终止条件包括：所述声源距离排序模型的预测准确率大于第一阈值，或者所述声源距离排序模型完成训练的训练语音样本的组数达到第二阈值。

8.根据权利要求1～6任一项所述的方法，其特征在于，所述语音特征包括矢量频谱特征和标量语音特征。

9.一种设备唤醒系统，其特征在于，包括仲裁端以及与所述仲裁端通信连接的n个设备，所述n个设备开启语音唤醒功能，n为大于或等于2的整数，其中：

10.一种声源距离排序装置，其特征在于，包括：

11.一种终端设备，其特征在于，包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1～8任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1～8任一项所述的方法。