CN113674761B

CN113674761B - 设备确定方法及设备确定系统

Info

Publication number: CN113674761B
Application number: CN202110845692.XA
Authority: CN
Inventors: 郝斌
Original assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2023-07-21
Anticipated expiration: 2041-07-26
Also published as: CN113674761A; WO2023005409A1

Abstract

本发明公开了一种设备确定方法及设备确定系统。其中，该方法包括：获取多个第一音频设备接收到的目标音频信号的直混比，得到多个直混比，直混比为每个音频设备接收到的目标音频信号中的直达音频和混响音频的能量比；从多个直混比中选择目标直混比；从多个第一音频设备中确定与目标直混比对应的音频设备，并确定与目标直混比对应的音频设备为目标音频设备。本发明解决了由于各个设备的传感器灵敏度不一致造成的依据能量均值判断各设备距离目标音源的远近精确度低的技术问题。

Description

设备确定方法及设备确定系统

技术领域

本发明涉及智能家居领域，具体而言，涉及一种设备确定方法及设备确定系统。

背景技术

语音交互的应用经过多年的发展，历经市场变动，目前单个设备的交互已经不再满足需求，同一场景下多个设备的协同唤醒已经逐渐成为主流应用场景。在该应用场景中，由于各个设备的相对位置无法预知，因此只靠DOA估计无法判断声源的具体位置，即利用声波的相位信息只能判断声源的方位，无法得知各个设备与音源的距离；声波在空间传播，幅值逐渐衰减，因此，能量信息是能够表征距离变化的指标。

在现有技术中，同一场景下，当唤醒词指令发出时，各个设备自配的语音交互模块判断唤醒后，每个设备对自己接收的语音信号进行简单的处理：AEC、降噪、去混响等，目的是更准确估计出接收信号中声源信号的能量均值，由于各个设备的麦克风传感器灵敏度不一定一致，大多数解决方案都需要额外做能量校准，即选取某个设备作为参考，在消声室中，声源到被校准设备和参考设备的距离一致时，计算被校准设备的能量与参考设备的比值。在分布式唤醒模块判别时，除参考设备外其他设备所计算的能量值都要乘以对应的比值。

可以看出，依靠能量均值判断设备距离音源的远近，需要额外的能量校准的工作，不仅工作量提升，而且能量校准的精度必须较高；此外，能量均值，还特别容易被混响因素所影响，即当前帧的接收信号包括目标语音信号和历史语音信号，此时计算的均值不能很准确表征距离信息。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种设备确定方法及设备确定系统，以至少解决由于各个设备的传感器灵敏度不一致造成的依据能量均值判断各设备距离目标音源的远近精确度低的技术问题。

根据本发明实施例的一个方面，提供了一种设备确定方法，包括：获取多个第一音频设备接收到的目标音频信号的直混比，直混比为多个音频设备中的每个音频设备接收到的目标音频信号中的直达音频和混响音频的能量比；从多个直混比中确定目标直混比；从多个第一音频设备中确定与目标直混比对应的目标音频设备。

可选地，每个第一音频设备包括多个音频采集模块，获取多个第一音频设备接收到的目标音频信号的直混比，包括：确定每个第一音频设备的多个音频采集模块接收到的目标音频信号对应的目标频域信号；确定多个音频采集模块中任意两个音频采集模块对应的频域信号之间的线性相关程度；确定每个第一音频设备对应的散射噪声场；依据线性相关程度和散射噪声场，确定每个第一音频设备接收到的目标音频信号的直混比。

可选地，确定多个音频采集模块中任意两个音频采集模块对应的频域信号之间的线性相关程度，包括：确定多个音频采集模块中任意两个音频采集模块对应的频域信号之间的互功率谱密度；确定每个音频采集模块对应的频域信号的的自功率谱密度；根据互功率密度谱和各音频采集模块对应的自功率密度谱，确定音频设备中任意两个音频采集模块对应的频域信号之间的线性相关程度。

可选地，获取多个第一音频设备接收到的目标音频信号的直混比，包括：从每个第一音频设备接收到的原始音频信号中提取多帧音频信号，得到目标音频信号；分别计算目标音频信号中的多帧音频信号各自对应的直混比；根据多帧音频信号各自对应的直混比，计算多帧音频信号的直混比的平均值，并将平均值作为每个第一音频接收设备接收到的目标音频信号的直混比。

可选地，当多个第一音频设备中的第二音频设备为带有自播模块的音频设备时，其中，自播模块用于播放音频，方法还包括：对第二音频设备接收到的目标音频信号中的各帧音频信号进行检测，判断目标音频信号中是否包含自播模块播放音频的回音信号；当目标音频信号中的目标帧音频信号包含回音信号时，计算目标帧音频信号中包含回音信号的音频信号比例；根据音频信号比例和预设阈值，对目标帧音频信号进行处理；根据处理后的目标帧音频信号确定目标音频信号；其中，对目标帧音频信号进行处理包括：消除目标帧音频信号中的回音信号或消除目标帧音频信号。

可选地，确定目标音频设备之后，方法还包括：控制目标音频设备进入唤醒模式，其中，目标音频设备在唤醒模式中用于接收指示信息并执行与指示信息对应的动作。

根据本发明实施例的另一方面，还提供了一种设备确定方法，包括：接收目标音频信号，并计算接收到的目标音频信号的直混比，直混比为第一音频设备接收到的目标音频信号中的直达音频和混响音频的能量比；发送直混比至服务器；接收服务器发送的判断指令，依据判断指令确定第一音频设备是否为目标音频设备，目标音频设备为待唤醒的音频设备，判断指令根据多个第一音频设备发送的直混比生成。

根据本发明实施例的另一方面，还提供了一种音频处理设备，音频处理设备至少包括通信模块，处理器和音频采集模块，其中：音频采集模块，用于接收目标音频信号；处理器，用于计算接收到的目标音频信号的直混比，直混比为音频设备接收到的目标音频信号中的直达音频和混响音频的能量比；以及依据通信模块接收的判断指令确定音频处理设备是否为目标音频设备，目标音频设备为待唤醒的音频设备，其中，判断指令根据多个音频处理设备发送的直混比生成；通信模块，用于将直混比发送至服务器，并接收服务器发送的判断指令。

根据本发明实施例的另一方面，还提供了一种设备确定系统，其特征在于，包括多个音频处理设备和服务器，其中：多个音频处理设备中的每个音频处理设备，用于接收由目标音源发出的目标音频，以及用于计算接收到的目标音频的直混比，其中，直混比为每个音频处理设备接收到的直达音频和混响音频的能量比；服务器，用于获取多个音频处理设备接收到的目标音频信号的直混比，得到多个直混比；从多个直混比中选择目标直混比；从多个音频处理设备中确定与目标直混比对应的目标音频设备。

根据本发明实施例的另一方面，还提供了一种非易失性存储介质，非易失性存储介质包括存储的程序，在程序运行时控制非易失性存储介质所在设备执行设备选择方法。

根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行设备选择方法。

在本发明实施例中，采用获取多个第一音频设备接收到的目标音频信号的直混比，得到多个直混比，直混比为每个音频设备接收到的目标音频信号中的直达音频和混响音频的能量比；从多个直混比中选择目标直混比；从多个第一音频设备中确定与目标直混比对应的音频设备，并确定与目标直混比对应的音频设备为目标音频设备的方式，通过使用直混比来衡量音频设备距离目标音源的远近，达到了消除音频设备的麦克风传感器灵敏度对距离判断准确度的影响的目的，从而实现了准确判断应当唤醒的音频设备的技术效果，进而解决了由于各个设备的传感器灵敏度不一致造成的依据能量均值判断各设备距离目标音源的远近精确度低技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本申请实施例的一种设备确定方法的流程示意图；

图2是根据本申请实施例的一种设备定位方法的流程示意图；

图3是根据本申请实施例的一种设备确定系统的结构示意图；

图4是根据本申请实施例的另一种设备确定系统的结构示意图；

图5a是根据本申请实施例的一种设备定位方法的流程示意图；

图5b是根据本申请实施例的一种音频处理设备的结构示意图；

图6是根据本申请实施例的一种服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种设备确定方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的设备确定方法，如图1所示，该方法包括如下步骤：

步骤S102，获取多个第一音频设备接收到的目标音频信号的直混比，得到多个直混比，所述直混比为所述每个第一音频设备接收到的所述目标音频信号中的直达音频和混响音频的能量比；

在本申请的一些实施例中，上述直达音频为由目标音源发出的音频信号中直接被各个音频设备接收到的音频信号，上述混响音频中包括混响和多径反射，为目标音源发出的音频信号经过反射后被音频设备接收的音频信号，可以用噪声场来衡量。

在本申请的一些实施例中，当多个第一音频设备中的第二音频设备为带有自播模块的音频设备时，其中，自播模块用于播放音频，第二音频设备还需要对接收到的信号进行双讲检测。具体地，第二音频设备会对第二音频设备接收到的目标音频信号中的各帧音频信号进行检测，判断目标音频信号中是否包含自播模块播放音频的回音信号；当目标音频信号中的目标帧音频信号包含回音信号时，计算目标帧音频信号中包含回音信号的音频信号比例；根据音频信号比例和预设阈值，对目标帧音频信号进行处理；根据处理后的目标帧音频信号确定目标音频信号；其中，对目标帧音频信号进行处理包括：消除目标帧音频信号中的回音信号或消除目标帧音频信号。

具体地，第一音频设备会检测每一帧音频信号中是否包含自播模块播放音频的回音信号，并统计每一帧音频信号中包含回音信号的音频信号比例，并比较比例和预设阈值；在比例不小于预设阈值的情况下，消除包含回音信号的音频信号中的回音信号；而在比例小于预设阈值的情况下，消除包含回音信号的音频信号。需要说明的是，上述预设阈值可由目标用户自行设定。

在本申请的一些实施例中，上述第一音频设备或第二音频设备可以是集成了音频采集模块的冰箱，洗衣机，洗碗机或者机器人，移动终端等家电或智能设备。

在本申请的一些实施例中，上述目标音频可以为由目标音源在一个确定的时间点发出的带有唤醒词指令的音频，其中目标音源可以为用户。

需要说明的是，上述自播模块为用于播放音频的模块。具体地，上述自播模块可以为音响等，上述带有自播模块的音频设备可以是智能电视，智能音箱，手机等。

在本申请的一些实施例中，由于用户对唤醒词指令不熟悉，或被其他事情打断等，导致目标音频中可能存在没有音频数据的空白部分，因此，多个第一音频设备接收由目标音源发出的目标音频后，还需要消除目标音频中的空白部分，并将消除空白部分后的目标音频作为新的目标音频，其中，空白部分为目标音频中无音频信息的部分。

在本申请的一些实施例中，确定每个第一音频设备接收到的目标音频的直混比需要完成以下步骤：确定每个第一音频设备的多个音频采集模块接收到的目标音频信号对应的目标频域信号；确定所述多个音频采集模块中任意两个音频采集模块对应的频域信号之间的线性相关程度；确定每个第一音频设备对应的散射噪声场；依据所述线性相关程度和所述散射噪声场，确定每个第一音频设备接收到的所述目标音频信号的直混比。

在本申请的一些实施例中，上述音频采集模块可以为麦克风。

在本申请的一些实施例中，依据线性相关程度和散射噪声场，获取多个第一音频设备接收到的目标音频信号的直混比的具体方式为：从每个第一音频设备接收到的原始音频信号中提取多帧音频信号，得到目标音频信号；分别计算目标音频信号中的多帧音频信号各自对应的直混比；根据多帧音频信号各自对应的直混比，计算多帧音频信号的直混比的平均值，并将平均值作为每个第一音频接收设备接收到的目标音频信号的直混比。

在本申请的一些实施例中，确定多个音频采集模块中任意两个音频采集模块对应的频域信号之间的线性相关程度的方法为：确定多个音频采集模块中任意两个音频采集模块对应的频域信号之间的互功率谱密度；确定每个音频采集模块对应的频域信号的的自功率谱密度；根据互功率密度谱和各音频采集模块对应的自功率密度谱，确定音频设备中任意两个音频采集模块对应的频域信号之间的线性相关程度。

具体地，当音频设备中音频采集模块的数量为两个时，确定每个音频设备中的音频采集模块的线性相关程度，包括：确定第一音频采集模块和第二音频采集模块之间的互功率谱密度；确定第一音频采集模块的自功率谱密度，以及第二音频采集模块的自功率谱密度；依据互谱，第一音频采集模块的自谱，以及第二音频采集模块的自谱确定第一音频采集模块和第二音频采集模块接收到的目标音频之间的频率上的线性相关程度。

在本申请的一些实施例中，上述线性相关程度可以用相干函数来衡量。

需要说明的是，上述互功率谱密度用于两个频域函数之间的功率谱密度。其实部为共谱密度(简称“共谱”)，虚部为正交谱密度，上述自功率谱密度用于反映相关函数在时域内表达随机信号自身与其他信号在不同时刻的内在联系，上述第一音频采集模块和第二音频采集模块接收到的目标音频之间的频率上的线性相关程度可以使用相干函数来衡量，其中，相干函数指两过程在各频率上分量间的线性相关程度。

具体地，第一音频采集模块和第二音频采集模块之间的互功率谱密度的表达式如下：

P_xy(l，f)＝αP_xy(l，f)+(1-α)X(l，f)Y^*(l，f)

其中，x和y分别表示第一音频采集模块和第二音频采集模块，α为平滑因子。l表示接收到的音频数据的时间信息，f为接收到的音频数据的频率信息，X(l，f)表示第一音频采集模块接收到的目标音频的频域数据，Y^*(l，f)表示第二音频采集模块接收到的目标音频的频域数据的共轭数据。

在本申请的一些实施例中，为了体现直混比变化的瞬时性，α的取值可以大一些，例如，可以取0.5。

第一音频采集模块接收到的目标音频的的自功率谱密度的表达式如下：

P_x(l，f)＝αP_x(l，f)+(1-α)X(l，f)X^*(l，f)

其中，x表示第一音频采集模块，α为平滑因子。l表示接收到的音频数据的时间信息，f为接收到的音频数据的频率信息，X(l，f)表示第一音频采集模块接收到的目标音频的频域数据，X^*(l，f)表示第一音频采集模块接收到的目标音频的频域数据的共轭数据。

第二音频采集模块接收到的目标音频的的自功率谱密度的表达式如下：

P_y(l，f)＝αP_y(l，f)+(1-α)Y(l，f)Y^*(l，f)

其中，y表示第二音频采集模块，α为平滑因子。l表示接收到的音频数据的时间信息，f为接收到的音频数据的频率信息，Y(l，f)表示第二音频采集模块接收到的目标音频的频域数据，Y^*(l，f)表示第二音频采集模块接收到的目标音频的频域数据的共轭数据。

依据上述互功率谱密度和自功率谱密度，可得第一音频采集模块和第二音频采集模块之间的相干函数的表达式如下：

从上述表达式中可以看出，当第一音频采集模块和第二音频采集模块对接收到的目标音频放大或缩小相同的倍数时，相干函数的值不会发生改变。而由于第一音频采集模块和第二音频采集模块是同一音频设备上的音频采集模块，因此两个音频采集模块的传感器的灵敏度可认为相同，即第一音频采集模块和第二音频采集模块对接收到的目标音频数据的放大或缩小倍数也一定相同。

在本申请的一些实施例中，确定每个音频设备对应的散射噪声场的方法为：确定第一音频采集模块和第二音频采集模块之间的距离，以及目标音频数据的音速；依据距离和音速，确定散射噪声场。

具体地，散射噪声场表达式如下：

R_n(f)＝sinc(2πfd/c)

上式中，sinc为sinc函数，f为目标音频的频率信息，d为两个音频采集模块之间的距离，c为声速。

在本申请的一些实施例中，本申请中所述的全部音频设备各自的音频采集模块之间的距离可以为相同的值，这样可以进一步降低不同设备自身对计算接收到的目标音频的直混比的影响。

在本申请的一些实施例中，不同的音频设备各自的音频采集模块之间的距离也可以为不同值。当不同的音频模块之间的距离为不同值时，从上述散射噪声场的计算公式中可以看出，对任意两个音频采集模块而言，当音频采集模块之间的距离不同时，散射噪声场的值不同。但由于不同音频采集模块之间的距离取值差异较小，因此可以忽略由于上述距离值不同对计算结果的影响。

在得到了相干函数和散射噪声场的表达式后，可以进一步得到相干相对扩散比CDR的表达式：

其中，上式中的Re{}和含义为取实部进行下一步的计算。

在本申请的一些实施例中，相干相对扩散比可以认为是目标音频在某个频率上的分量的直混比。可以理解的，在每个时间点上，目标音频的频率都是一段连续的取值范围，为了便于计算，需要从这一段连续的频率取值范围中确定多个频率，并用所述多个频率来替代原来的目标音频数据。

进一步地，可得当前帧的直混比其中，fl和fh分别表示在这一帧的目标音频数据采样后的最小的频率和最大的频率。

可以理解地，目标音频在时域上也是一段连续的数据，为了便于计算，同样需要将目标音频数据在时域上由一段连续的时间变为多个时间点，其中，每个时间点可以用一帧来代指。

综上所述，可得目标音频设备接收到的目标音频的直混比为：

其中，其中，VAD(l)的取值范围为0和1，用于表示当前帧是否为空白帧，并在判定当前帧为空白帧时取值0，判定当前帧为非空白帧时取值为1；DTD(l)的取值范围为0和1，用于表示当前帧中是否存在回声，当存在回声时，取值为0，当不存在回声时，取值为1；A表示目标音频的总帧数，lb和lt分别表示目标音频的第一帧和最后一帧。

在本申请的一些实施例中，当音频设备中音频采集模块的数量大于两个时，确定每个音频设备接收到的目标音频的直混比的方法为：分别计算多个音频采集模块中，任意两个音频采集模块接收到的目标音频之间的频率上的线性相关程度，并依据相干函数和散射噪声场，确定多个初级直混比；对多个初级直混比取平均值，获取平均直混比，并将平均直混比作为音频设备接收到的目标音频设备的直混比。

步骤S104，从多个直混比中选择目标直混比；

具体地，直混比的比值最大的直混比即为目标直混比。

步骤S106，从多个第一音频设备中确定与目标直混比对应的音频设备，并与目标直混比对应的音频设备作为目标音频设备。

在本申请的一些实施例中，与目标直混比对应的音频设备即为距离用户(也就是目标音源)最近的音频设备。

在本申请的一些实施例中，在确定了目标音频设备后，目标音频设备会被唤醒，并在接收到指示信息后执行与指示信息对应的动作。例如，当目标音频设备为洗衣机时，在接收到指示清洗衣物的指示指令后，洗衣机会按照指示指令中的要求开始清洗衣物。

在本申请的一些实施例中，上述多个第一音频设备之间是可以互相通信的。这样可以随机或按照预设规则的从所述多个第一音频设备中选择某个音频设备作为收集并比较各个直混比的设备，并选择出目标直混比，以及与目标直混比对应的目标音频设备。

通过上述步骤，可以实现准确判断应当唤醒的音频设备的技术效果，进而解决了由于各个设备的传感器灵敏度不一致造成的依据能量均值判断各设备距离目标音源的远近精确度低技术问题。

另外，本申请实施例中用散射噪声场来替代混响场，保证分布式唤醒中各个设备的参考一致，求得的相干相对扩散比率CDR，可以表征声源信号相对混响的比例；混响场一致，因此各个设备的直混比DRR的参考是一致的，因此无需再做能量校准便可直接表示与声源的距离。同时，避免直接求解能量均值，还减弱了噪声、混响的因素影响。

实施例2

根据本发明实施例，提供了一种设备定位方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图2是根据本发明实施例的设备定位方法，如图2所示，该方法包括如下步骤：

步骤S202，接收由目标音源发出的目标音频，其中，目标音频中包括唤醒指令；

在本申请的一些实施例中，上述目标音源可以是用户，目标音频可以为用户发出的唤醒指令。

在本申请的一些实施例中，当音频设备为带有自播模块的音频设备时，音频设备接收由目标音源发出的目标音频后，在计算接收到的目标音频的直混比之前，还需要进行以下操作：音频设备在接收目标音频时，进行双讲检测，得到检测结果，其中，双讲检测用于检测音频设备在接收目标音频时是否同时接收了自播模块播放音频的回音；当检测结果为音频设备仅接收了目标音频时，计算音频设备的直混比；当检测结果为音频设备接收了目标音频时，同时接收了回音，不计算音频设备的直混比。

需要说明的是，上述自播模块为用于播放音频的模块。具体地，上述自播模块可以为音响等，上述带有自播模块的音频设备可以是智能电视，智能音箱等。

步骤S204，确定接收到目标音频的多个第一音频设备中各个音频设备的直混比，其中，直混比为音频设备接收到的直达音频和混响音频的能量比；

在本申请的一些实施例中，确定每个音频设备接收到的目标音频的直混比需要完成以下步骤：确定每个音频设备中的音频采集模块接收到的目标音频之间的频率上的线性相关程度；确定每个音频设备对应的散射噪声场；依据相干函数和散射噪声场，确定每个音频设备接收到的目标音频的直混比。

在本申请的一些实施例中，当音频设备中音频采集模块的数量为两个时，确定每个音频设备中的音频采集模块的相干函数，包括：确定第一音频采集模块和第二音频采集模块之间的互功率谱密度；确定第一音频采集模块的自功率谱密度，以及第二音频采集模块的自功率谱密度；依据互谱，第一音频采集模块的自谱，以及第二音频采集模块的自谱确定第一音频采集模块和第二音频采集模块接收到的目标音频之间的频率上的线性相关程度。

P_xy(l，f)＝αP_xy(l，f)+(1-α)X(l，f)Y^*(l，f)

P_x(l，f)＝αP_x(l，f)+(1-α)X(l，f)X^*(l，f)

P_y(l，f)＝αP_y(l，f)+(1-α)Y(l，f)Y^*(l，f)

具体地，散射噪声场表达式如下：

R_n(f)＝sinc(2πfd/c)

其中，上式中的Re{}和含义为取实部进行下一步的计算。

步骤S206，从多个直混比中选择目标直混比；

具体地，直混比的比值最大的直混比即为目标直混比。

步骤S208，从多个第一音频设备中确定与目标直混比对应的音频设备，并将与目标直混比对应的音频设备作为目标音频设备。

在本申请的一些实施例中，与目标直混比对应的音频设备即为距离用户，也就是目标音源，最近的音频设备。

实施例3

根据本发明实施例，提供了一种设备确定系统，如图3所示，该设备确定系统包括：多个音频处理设备30和服务器32，其中：多个音频处理设备30中的每个音频处理设备30，用于接收由目标音源发出的目标音频，以及用于计算接收到的目标音频的直混比，其中，直混比为音频设备接收到的直达音频和混响音频的能量比；服务器32，用于获取多个音频处理设备30接收到的目标音频信号的直混比，得到多个直混比；从多个直混比中选择目标直混比；从多个音频处理设备30中确定与目标直混比对应的音频处理设备30，并确定与目标直混比对应的音频处理设备30为目标音频设备。

需要说明的是，上述音频处理设备30也就是其他实施例中的第一音频设备。

可选地，如图3所示，服务器32可以安装在多个音频处理设备30中的某个音频处理设备30中。

在本申请的一些实施例中，还提供了一种如图5b所示的音频处理设备，其中，该音频处理设备30即为第一音频处理设备，包括多个音频采集模块302，处理器304，以及通信模块306，其中：

音频采集模块302，用于接收目标音频信号；处理器304，用于计算接收到的目标音频信号的直混比，直混比为音频处理设备30接收到的目标音频信号中的直达音频和混响音频的能量比；以及依据通信模块306接收的判断指令确定音频处理设备30是否为目标音频设备，并在确定音频处理设备30为目标音频设备的情况下，唤醒音频处理设备30，其中，判断指令用于指示音频处理设备30是否为目标音频设备；通信模块，用于将直混比发送至服务器32，并接收服务器依据直混比生成的判断指令。

在本申请的一些实施例中，上述音频处理设备30可以执行如图5a所示的设备确定方法。如图5a所示，该方法包括：

步骤S502，接收目标音频信号，并计算接收到的目标音频信号的直混比，直混比为每个音频处理设备接收到的目标音频信号中的直达音频和混响音频的能量比；

步骤S504，发送直混比至服务器；

步骤S506，接收服务器发送的判断指令，依据判断指令确定音频处理设备是否为目标音频设备，其中，目标音频设备为待唤醒的音频设备，判断指令根据多个音频处理设备发送的直混比生成。

在本申请的一些实施例中，如图4所示，上述设备确定系统的服务器32可以为一个额外的设备，如手机等硬件设备，也可以为云端服务器。所述服务器32用于从多个直混比中选择目标直混比，以及从多个音频处理设备30中确定与目标直混比对应的音频处理设备30，并与目标直混比对应的音频处理设备30作为目标音频设备，其中，目标音频设备在唤醒指令的触发下进入唤醒模式。

在本申请的一些实施例中，上述服务器32如图6所示，除处理器320外，还包括用于接收各个音频设备发来的直混比的通讯模块326，以及用于输入控制指令的输入模块322，和用于展示各个音频设备的设备信息的展示模块324。

根据本发明实施例，还提供了一种非易失性存储介质，非易失性存储介质包括存储的程序，在程序运行时控制非易失性存储介质所在设备执行下述设备确定方法：获取多个第一音频设备接收到的目标音频信号的直混比，得到多个直混比，直混比为每个音频设备接收到的目标音频信号中的直达音频和混响音频的能量比；从多个直混比中选择目标直混比；从多个第一音频设备中确定与目标直混比对应的音频设备，并确定与目标直混比对应的音频设备为目标音频设备。

根据本发明实施例，还提供了一种处理器，处理器用于运行程序，在程序运行时执行下述设备确定方法：获取多个第一音频设备接收到的目标音频信号的直混比，得到多个直混比，直混比为每个音频设备接收到的目标音频信号中的直达音频和混响音频的能量比；从多个直混比中选择目标直混比；从多个第一音频设备中确定与目标直混比对应的音频设备，并确定与目标直混比对应的音频设备为目标音频设备。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种设备确定方法，其特征在于，包括：

获取多个第一音频设备接收到的目标音频信号的直混比，所述直混比为所述多个第一音频设备中的每个第一音频设备接收到的所述目标音频信号中的直达音频和混响音频的能量比；

从所述多个直混比中确定目标直混比；

从所述多个第一音频设备中确定与所述目标直混比对应的目标音频设备；

其中，每个第一音频设备包括多个音频采集模块，所述获取多个第一音频设备接收到的目标音频信号的直混比，包括：确定每个第一音频设备的多个音频采集模块接收到的目标音频信号对应的目标频域信号；确定所述多个音频采集模块中任意两个音频采集模块对应的频域信号之间的线性相关程度；确定每个第一音频设备对应的散射噪声场；依据所述线性相关程度和所述散射噪声场，确定每个第一音频设备接收到的所述目标音频信号的直混比；

其中，确定每个第一音频设备对应的散射噪声场，包括：确定每个第一音频设备的第一音频采集模块和每个第一音频设备的第二音频采集模块之间的距离，以及目标音频数据的音速；依据距离和音速，确定每个第一音频设备对应的散射噪声场。

2.根据权利要求1所述的方法，其特征在于，所述确定所述多个音频采集模块中任意两个音频采集模块对应的频域信号之间的线性相关程度，包括：

确定所述多个音频采集模块中任意两个音频采集模块对应的频域信号之间的互功率谱密度；

确定每个音频采集模块对应的频域信号的自功率谱密度；

根据所述互功率谱密度和各音频采集模块对应的自功率谱密度，确定所述音频设备中所述任意两个音频采集模块对应的频域信号之间的线性相关程度。

3.根据权利要求1-2任一项所述的方法，其特征在于，所述获取多个第一音频设备接收到的目标音频信号的直混比，包括：

从每个第一音频设备接收到的原始音频信号中提取多帧音频信号，得到目标音频信号；

分别计算所述目标音频信号中的多帧音频信号各自对应的直混比；

根据所述多帧音频信号各自对应的直混比，计算所述多帧音频信号的直混比的平均值，并将所述平均值作为每个第一音频接收设备接收到的所述目标音频信号的直混比。

4.根据权利要求1-2任一项所述的方法，其特征在于，当所述多个第一音频设备中的第二音频设备为带有自播模块的音频设备时，其中，所述自播模块用于播放音频，所述方法还包括：

对所述第二音频设备接收到的所述目标音频信号中的各帧音频信号进行检测，判断所述目标音频信号中是否包含所述自播模块播放音频的回音信号；

当所述目标音频信号中的目标帧音频信号包含所述回音信号时，计算所述目标帧音频信号中包含所述回音信号的音频信号比例；

根据所述音频信号比例和预设阈值，对所述目标帧音频信号进行处理；

根据处理后的目标帧音频信号确定所述目标音频信号；

其中，对所述目标帧音频信号进行处理包括：消除所述目标帧音频信号中的回音信号或消除所述目标帧音频信号。

5.根据权利要求1-2任一项所述的方法，其特征在于，确定所述目标音频设备之后，所述方法还包括：

控制所述目标音频设备进入唤醒模式，其中，所述目标音频设备在唤醒模式中用于接收指示信息并执行与所述指示信息对应的动作。

6.一种设备确定方法，其特征在于，包括：

接收目标音频信号，并计算接收到的所述目标音频信号的直混比，所述直混比为第一音频设备接收到的所述目标音频信号中的直达音频和混响音频的能量比；

发送所述直混比至服务器；

接收服务器发送的判断指令，依据所述判断指令确定所述第一音频设备是否为目标音频设备，所述目标音频设备为待唤醒的音频设备，所述判断指令根据多个第一音频设备发送的所述直混比生成；

其中，第一音频设备包括多个音频采集模块，计算接收到的所述目标音频信号的直混比，包括：确定第一音频设备的多个音频采集模块接收到的目标音频信号对应的目标频域信号；确定所述多个音频采集模块中任意两个音频采集模块对应的频域信号之间的线性相关程度；确定第一音频设备对应的散射噪声场；依据所述线性相关程度和所述散射噪声场，确定第一音频设备接收到的所述目标音频信号的直混比；

其中，确定第一音频设备对应的散射噪声场，包括：确定第一音频设备的第一音频采集模块和第一音频设备的第二音频采集模块之间的距离，以及目标音频数据的音速；依据距离和音速，确定第一音频设备对应的散射噪声场。

7.一种音频处理设备，其特征在于，所述音频处理设备至少包括通信模块，处理器和音频采集模块，其中：

所述音频采集模块，用于接收目标音频信号；

所述处理器，用于计算接收到的所述目标音频信号的直混比，所述直混比为所述音频处理设设备接收到的所述目标音频信号中的直达音频和混响音频的能量比；以及依据所述通信模块接收的判断指令确定所述音频处理设备是否为目标音频设备，所述目标音频设备为待唤醒的音频设备，其中，所述判断指令根据多个音频处理设备发送的所述直混比生成；

所述通信模块，用于将所述直混比发送至服务器，并接收所述服务器发送的所述判断指令；

其中，在第一音频设备包括多个音频采集模块的情况下，所述处理器，用于确定第一音频设备的多个音频采集模块接收到的目标音频信号对应的目标频域信号；确定所述多个音频采集模块中任意两个音频采集模块对应的频域信号之间的线性相关程度；确定第一音频设备对应的散射噪声场；依据所述线性相关程度和所述散射噪声场，确定第一音频设备接收到的所述目标音频信号的直混比；

其中，所述处理器，还用于确定第一音频设备的第一音频采集模块和第一音频设备的第二音频采集模块之间的距离，以及目标音频数据的音速；依据距离和音速，确定第一音频设备对应的散射噪声场。

8.一种设备确定系统，其特征在于，包括多个音频处理设备和服务器，其中：

多个音频处理设备中的每个音频处理设备，用于接收由目标音源发出的目标音频，以及用于计算接收到的所述目标音频的直混比，其中，所述直混比为每个音频处理设备接收到的直达音频和混响音频的能量比；

服务器，用于获取多个音频处理设备接收到的目标音频信号的直混比，得到多个直混比；从所述多个直混比中选择目标直混比；从所述多个音频处理设备中确定与所述目标直混比对应的目标音频设备；

其中，在每个音频处理设备包括多个音频采集模块的情况下，所述每个音频处理设备，用于确定每个音频处理设备的多个音频采集模块接收到的目标音频信号对应的目标频域信号；确定所述多个音频采集模块中任意两个音频采集模块对应的频域信号之间的线性相关程度；确定每个音频处理设备对应的散射噪声场；依据所述线性相关程度和所述散射噪声场，确定每个音频处理设备接收到的所述目标音频信号的直混比；

其中，所述每个音频处理设备，还用于确定每个音频处理设备的第一音频采集模块和每个音频处理设备的第二音频采集模块之间的距离，以及目标音频数据的音速；依据距离和音速，确定每个音频处理设备对应的散射噪声场。

9.一种非易失性存储介质，其特征在于，所述非易失性存储介质包括存储的程序，其中，在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至5中任意一项所述设备确定方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至5中任意一项所述设备确定方法。