CN116953604A

CN116953604A - 声源方向估计方法、头戴式设备及存储介质

Info

Publication number: CN116953604A
Application number: CN202310912775.5A
Authority: CN
Inventors: 李晶晶; 陈国明; 蒋超; 李建华; 吴劼
Original assignee: Goertek Techology Co Ltd
Current assignee: Goertek Techology Co Ltd
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-10-27

Abstract

本发明公开了一种声源方向估计方法、头戴式设备及计算机可读存储介质，方法包括：获取头戴式设备中各麦克风通道采集的声音信号；根据各个频点的幅值计算各个第一子频带分别对应的频带幅值，各个第一子频带为按照梅尔刻度对预设频率范围划分得到的子频带；根据各个频点的相位值计算各个第二子频带分别对应的频带相位值，各个第二子频带为按照梅尔刻度对预设频率范围划分得到的子频带；将各个通道的声音信号所对应的各个频带幅值和各个频带相位值进行拼接，得到第一信号特征；采用预设的声源方向估计模型基于第一信号特征进行估计得到声源方向估计结果。本发明实现在头戴式设备芯片端能够完成高精度、低功耗的语音声源方向估计任务。

Description

声源方向估计方法、头戴式设备及存储介质

技术领域

本发明涉及声学技术领域，尤其涉及一种声源方向估计方法、头戴式设备及计算机可读存储介质。

背景技术

深度学习算法由于其高复杂度的计算很难在低计算资源的芯片端进行部署，所以仅可以运行极小规模的算法模型，但算法模型的规模会直接影响算法的精度，即算法模型的规模越大，理论上来说，对复杂数据的拟合能力越强，算法模型的推理计算效果越好。为了将深度学习算法模型部署入头戴式设备芯片端，例如AR眼镜芯片端，并确保能够实时处理麦克风数据，通常以牺牲算法模型的效果为代价，精简算法模型的计算量；此外，深度学习算法对数据量的需求也非常大，这都为头戴式设备芯片端研发高精度的语音声源方向估计算法带来困难。

发明内容

本发明的主要目的在于提供一种声源方向估计方法、头戴式设备及计算机可读存储介质，旨在提出一种应用于头戴式设备的声源方向估计方案，以实现在头戴式设备芯片端能够完成高精度、低功耗的语音声源方向估计任务。

为实现上述目的，本发明提供一种声源方向估计方法，所述声源方向估计方法应用于头戴式设备，所述声源方向估计方法包括：

获取所述头戴式设备中各麦克风通道采集的声音信号，对每个通道的所述声音信号进行时频转换得到预设频率范围内各个频点的复数值；

根据所述复数值计算所述各个频点的幅值，并根据所述各个频点的幅值计算各个第一子频带分别对应的频带幅值，其中，各个所述第一子频带为按照梅尔刻度对所述预设频率范围划分得到的第一预设数量的子频带；

根据所述复数值计算所述各个频点的相位值，并根据所述各个频点的相位值计算各个第二子频带分别对应的频带相位值，其中，各个所述第二子频带为按照梅尔刻度对所述预设频率范围划分得到的第二预设数量的子频带；

将各个通道的所述声音信号所对应的各个所述频带幅值和各个所述频带相位值进行拼接，得到第一信号特征；

采用预设的声源方向估计模型基于所述第一信号特征进行估计得到声源方向估计结果。

可选地，所述根据所述各个频点的幅值计算各个第一子频带分别对应的频带幅值的步骤包括：

对于各个所述第一子频带中的任意一个第一目标子频带，根据所述第一目标子频带内频点的幅值，计算所述第一目标子频带内频点的功率后采用与所述第一目标子频带对应预设的梅尔滤波器进行滤波，并计算滤波后信号能量的对数得到第一初始结果；

将所述第一初始结果约束在第一预设阈值范围内并进行归一化处理，得到所述第一目标子频带对应的频带幅值。

可选地，所述根据所述各个频点的相位值计算各个第二子频带分别对应的频带相位值的步骤包括：

对于各个所述第二子频带中的任意一个第二目标子频带，将所述第二目标子频带内频点的相位值采用所述频点对应预设的权重值进行加权求和，得到第二初始结果；

将所述第二初始结果约束在第二预设阈值范围内并进行归一化处理，得到所述第二目标子频带对应的频带相位值。

可选地，所述根据所述复数值计算所述各个频点的幅值，并根据所述各个频点的幅值计算各个第一子频带分别对应的频带幅值的步骤之后，还包括：

将各个通道的所述声音信号所对应的各个所述频带幅值进行拼接得到第二信号特征；

采用预设的语音端点检测模型基于所述第二信号特征进行检测得到语音端点检测结果；

若所述语音端点检测结果表征各个通道的所述声音信号中存在人声，则执行所述根据所述复数值计算所述各个频点的相位值的步骤；

若所述语音端点检测结果表征各个通道的所述声音信号中不存在人声，则返回执行所述获取所述头戴式设备中各麦克风通道采集的声音信号的步骤。

可选地，所述采用预设的语音端点检测模型基于所述第二信号特征进行检测得到语音端点检测结果的步骤之后，还包括：

若所述语音端点检测结果表征各个通道的所述声音信号中不存在人声，则将上传标志更新为第一预设值；

所述采用预设的声源方向估计模型基于所述第一信号特征进行估计得到声源方向估计结果的步骤之后，还包括：

在获得所述声源方向估计结果后，将所述上传标志更新为第二预设值，并在第一预设时长后返回执行所述获取所述头戴式设备中各麦克风通道采集的声音信号的步骤；

所述声源方向估计方法还包括：

在检测到当前的所述上传标志为所述第二预设值时，根据最新获得的所述声源方向估计结果对最近第二预设时长内各麦克风通道采集的声音信号提取声源方向信号，将所述声源方向信号上传服务器，以供所述服务器基于所述声源方向信号执行预设语音任务。

可选地，所述语音端点检测模型包括串联连接的时间卷积层、最大池化层、全连接层和激活层。

可选地，所述声源方向估计模型包括串联连接的预设数量的卷积块，以及包括并联连接在最后一个所述卷积块之后的语音声源判断网络和声源角度估计网络；每个所述卷积块分别包括卷积层、批量归一化层、激活层和最大值池化层，第一个所述卷积块中的卷积核尺寸为1*1。

可选地，所述声源方向估计结果包括表征各个通道的所述声音信号中声源个数的第一结果和表征各个声源的角度值的第二结果；所述语音声源判断网络包括串联连接的时间卷积层、全连接层和激活层，所述语音声源判断网络用于输出所述第一结果；所述声源角度估计网络包括串联连接的时间卷积层、全连接层和激活层，所述声源角度估计网络用于输出所述第二结果。

为实现上述目的，本发明还提供一种头戴式设备，头戴式设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的声源方向估计程序，声源方向估计程序被处理器执行时实现如上的声源方向估计方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，计算机可读存储介质上存储有声源方向估计程序，声源方向估计程序被处理器执行时实现如上的声源方向估计方法的步骤。

本发明实施例提供了一种应用于头戴式设备的声源方向估计方案，包括：获取头戴式设备中各麦克风通道采集的声音信号，对每个通道的声音信号进行时频转换得到预设频率范围内各个频点的复数值；根据复数值计算各个频点的幅值，并根据各个频点的幅值计算各个第一子频带分别对应的频带幅值，其中，各个第一子频带为按照梅尔刻度对所述预设频率范围划分得到的第一预设数量的子频带；根据复数值计算所述各个频点的相位值，并根据各个频点的相位值计算各个第二子频带分别对应的频带相位值，其中，各个第二子频带为按照梅尔刻度对预设频率范围划分得到的第二预设数量的子频带；将各个通道的声音信号所对应的各个频带幅值和各个频带相位值进行拼接，得到第一信号特征；采用预设的声源方向估计模型基于第一信号特征进行估计得到声源方向估计结果。

上述声源方向估计方案中，由于声源方向估计模型的输入数据是经过压缩后的频带幅值和频带相位值所拼接得到的信号特征，所以声源方向估计模型所需要处理的数据量得到极大的压缩，从而使得采用复杂度较低的结构来实现声源方向估计模型，也能够实现较精确的声源方向估计，从而使得在算力受限的头戴式设备中也能够部署该声源方向估计模型，以实现低功耗的语音声源方向估计任务；并且，结合了声音信号的幅值和相位两种特征来进行声源方向估计，以及频带的划分采用更接近人耳听觉的梅尔刻度，从而使得压缩得到的低维的第一信号特征也能够很好地表征声音信号中的语音特征，从而能够利于声源方向估计模型准确地估计出声音信号中的声源方向。因此，在本实施例中，实现了一种应用于头戴式设备的声源方向估计方案，以使得在头戴式设备芯片端能够完成高精度、低功耗的语音声源方向估计任务。

附图说明

图1为本发明声源方向估计方法第一实施例的流程示意图；

图2为本发明实施例涉及的一种声源方向估计流程示意图；

图3为本发明实施例涉及的一种数据上传流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明声源方向估计方法第一实施例的流程示意图。

本发明实施例提供了声源方向估计方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。本发明实施例声源方向估计方法应用于头戴式设备，头戴式设备是佩戴在用户头部的电子设备，配备有麦克风，用于采集声音信号，以实现相应的功能，在本实施例中并不限制应用于哪一类型的头戴式设备，例如可以是AR眼镜、VR眼镜等。可以理解的是，头戴式设备由于佩戴在用户头部，其体积受到限制，因此所配置的芯片的算力也收到限制，如何在低算力的芯片端实现高精度和低功耗的声源方向估计任务是本实施例方案所要解决的问题。本实施例中，声源方向估计方法包括：

步骤S10，获取所述头戴式设备中各麦克风通道采集的声音信号，对每个通道的所述声音信号进行时频转换得到预设频率范围内各个频点的复数值。

头戴式设备中设置有至少一个麦克风，以下以多个麦克风为例进行说明。在进行声源方向估计时，头戴式设备可以获取各个麦克风通道采集的声音信号，也即获得多个通道的声音信号。对每个通道的声音信号进行时频转换的方式在本实施例中并不做限制，例如可以采用快速傅里叶变换方法进行时频转换，也即从时域的声音信号转化为频域的信号，得到预设频率范围内各个频点的复数值。预设频率范围是预先根据需要设置的频率范围，在本实施例中并不做限制，例如可以设置预设频率范围的最小频率为0，最大频率为奈奎斯特频率。

在一可行实施方式中，头戴式设备可以在进行声源方向估计时，通过各个麦克风实时采集声音信号，头戴式设备对采集的各通道的声音信号进行分帧并缓存，按照一定的频率从缓存内获取最近的一帧或多帧数据进行时频转换，并进行后续的各处理步骤。

步骤S20，根据所述复数值计算所述各个频点的幅值，并根据所述各个频点的幅值计算各个第一子频带分别对应的频带幅值，其中，各个所述第一子频带为按照梅尔刻度对所述预设频率范围划分得到的第一预设数量的子频带。

根据时频转换得到的各个频点的复数值，可以计算得到各个频点的幅值，计算方式在本实施例中并不做限制。在本实施例中，将预设频率范围进行划分，得到多个子频带(以下称为第一子频带以示区分)，划分第一子频带的方式是按照梅尔刻度进行划分，划分的第一子频带的数量为第一预设数量。第一预设数量可以根据需要预先设置，在此并不做限制，例如可以设置为6个。在一可行实施方式中，按照梅尔刻度对预设频率范围进行划分的方式可以是：将预设频率范围的最大频率f1和最小频率f2分别转换为对应的梅尔刻度m1和m2，在两个梅尔刻度形成的区间均匀地取第一预设数量的点，得到包括首尾两个梅尔刻度在内的梅尔刻度序列，将梅尔刻度序列中的各个梅尔刻度分别对应转换为频率(也即赫兹)，得到频率序列，该频率序列中每相邻的两个频率(频点)所限定的频带即一个第一子频带。

第一子频带的划分结果可以是预先配置在头戴式设备中的，也可以是由头戴式设备根据第一预设数量对预设频率范围进行划分得到的，在本实施例中并不做限制。

头戴式设备可以根据预设频率范围内各个频点的幅值，计算得到各个第一子频带分别对应的频带幅值。也即，对于每个第一子频带而言，可以根据该第一子频带内的各个频点的幅值计算得到该第一子频带对应的频带幅值，具体计算方式有很多种，在本实施例中并不做限制。

需要说明的是，由于预设频率范围内的频点数量大于第一预设数量(也即第一子频带的数量)，所以计算得到各个第一子频带分别对应的频带幅值，相比于预设频率范围内各个频点的幅值，数据量得到压缩；并且，由于按照梅尔刻度对预设频率范围进行划分得到各个第一子频带，频带的划分采用更接近人耳听觉的梅尔刻度，从而使得压缩得到的低维的频带幅值也能够很好地表征声音信号中的语音特征，从而能够利于声源方向估计模型准确地估计出声音信号中的声源方向。

在本实施例中，提出一种计算频带幅值的可行实施方式。在本实施方式中，所述步骤S20中根据所述各个频点的幅值计算各个第一子频带分别对应的频带幅值的步骤包括：

步骤S201，对于各个所述第一子频带中的任意一个第一目标子频带，根据所述第一目标子频带内频点的幅值，计算所述第一目标子频带内频点的功率后采用与所述第一目标子频带对应预设的梅尔滤波器进行滤波，并计算滤波后信号能量的对数得到第一初始结果。

计算各个第一子频带的频带幅值的方法是相同的，以各个第一子频带中的任意一个第一子频带为例进行说明，并将该第一子频带称为第一目标子频带以示区分。并且以一个通道的声音信号为例进行说明。在计算得到预设频率范围内各个频点的幅值后，可以从中提取到第一目标子频带内各个频点的幅值。根据第一目标子频带内各个频点的幅值，计算第一目标子频带内各个频点的功率，然后再采用与该第一目标子频带对应预设的梅尔滤波器进行滤波，滤波后得到第一目标子频带内的信号能量，计算该信号能量的对数，得到的结果称为第一初始结果以示区分。各个第一子频带分别对应设置梅尔滤波器，梅尔滤波器中包括各个频点对应的滤波器系数，可以在划分第一子频带时根据梅尔滤波器系数的计算方式计算得到。

步骤S202，将所述第一初始结果约束在第一预设阈值范围内并进行归一化处理，得到所述第一目标子频带对应的频带幅值。

第一预设阈值范围可以根据需要设置，例如设置为(-8,8)。在计算得到第一初始结果后，可以将第一初始结果约束在第一预设阈值范围，以去除明显不是语音特征的数据，再进行归一化处理，以将频带幅值和频带相位值约束在统一的数量级下，利于后续声源方向估计模型做出准确的估计结果。

在一可行实施方式中，可以按照如下方式计算频带幅值：

其中，ampⁿ(i)表示第n通道第i号第一子频带的频带幅值，M表示第i号第一子频带中频点的总个数，为第n通道中第m个频点的幅值，thra为约束的阈值(可以为8)，w_i(m)表示三角带通滤波器(梅尔滤波器)中与第m个频点对应的系数。

步骤S30，根据所述复数值计算所述各个频点的相位值，并根据所述各个频点的相位值计算各个第二子频带分别对应的频带相位值，其中，各个所述第二子频带为按照梅尔刻度对所述预设频率范围划分得到的第二预设数量的子频带。

根据时频转换得到的各个频点的复数值，可以计算得到各个频点的相位值，计算方式在本实施例中并不做限制。在本实施例中，将预设频率范围进行划分，得到多个子频带(以下称为第二子频带以示区分)，划分第二子频带的方式是按照梅尔刻度进行划分，划分的第二子频带的数量为第二预设数量。第二预设数量可以根据需要预先设置，在此并不做限制，例如可以设置为13个。在一可行实施方式中，按照梅尔刻度对预设频率范围进行划分的方式可以是：将预设频率范围的最大频率f1和最小频率f2分别转换为对应的梅尔刻度m1和m2，在两个梅尔刻度形成的区间均匀地取第二预设数量的点，得到包括首尾两个梅尔刻度在内的梅尔刻度序列，将梅尔刻度序列中的各个梅尔刻度分别对应转换为频率(也即赫兹)，得到频率序列，该频率序列中每相邻的两个频率(频点)所限定的频带即一个第二子频带。

第二子频带的划分结果可以是预先配置在头戴式设备中的，也可以是由头戴式设备根据第二预设数量对预设频率范围进行划分得到的，在本实施例中并不做限制。

头戴式设备可以根据预设频率范围内各个频点的相位值，计算得到各个第二子频带分别对应的频带相位值。也即，对于每个第二子频带而言，可以根据该第二子频带内的各个频点的相位值计算得到该第二子频带对应的频带相位值，具体计算方式有很多种，在本实施例中并不做限制。

需要说明的是，由于预设频率范围内的频点数量大于第二预设数量(也即第二子频带的数量)，所以计算得到各个第二子频带分别对应的频带相位值，相比于预设频率范围内各个频点的相位值，数据量得到压缩；并且，由于按照梅尔刻度对预设频率范围进行划分得到各个第二子频带，频带的划分采用更接近人耳听觉的梅尔刻度，从而使得压缩得到的低维的频带相位值也能够很好地表征声音信号中的语音特征，从而能够利于声源方向估计模型准确地估计出声音信号中的声源方向。

在本实施例中，提出一种计算频带相位值的可行实施方式。在本实施方式中，所述步骤S30中根据所述各个频点的相位值计算各个第二子频带分别对应的频带相位值的步骤包括：

步骤S301，对于各个所述第二子频带中的任意一个第二目标子频带，将所述第二目标子频带内频点的相位值采用所述频点对应预设的权重值进行加权求和，得到第二初始结果。

计算各个第二子频带的频带相位值的方法是相同的，以各个第二子频带中的任意一个第二子频带为例进行说明，并将该第二子频带称为第二目标子频带以示区分。并且以一个通道的声音信号为例进行说明。在计算得到预设频率范围内各个频点的相位值后，可以从中提取到第二目标子频带内各个频点的相位值。将第二目标子频带内各个频点的相位值采用各个频点对应预设的权重值进行加权求和，得到的结果称为第二初始结果以示区分。各个第二子频带内的各个频点分别设置对应的权重，可以根据经验预先设置，对于人类语音所在频段内的各个频点可以设置较大的权重。

步骤S302，将所述第二初始结果约束在第二预设阈值范围内并进行归一化处理，得到所述第二目标子频带对应的频带相位值。

第二预设阈值范围可以根据需要设置，例如设置为(-180,180)。在计算得到第二初始结果后，可以将第二初始结果约束在第二预设阈值范围，以去除明显不是语音特征的数据，再进行归一化处理，以将频带幅值和频带相位值约束在统一的数量级下，利于后续声源方向估计模型做出准确的估计结果。

在一可行实施方式中，可以按照如下方式计算相位幅值：

Phaⁿ(j)表示第n通道第j号第二子频带的频带相位值，D表示第j号第二子频带中频点的总个数，为第n通道中第d个频点的相位值，thrp为约束的阈值(可以为180)；w_j(d)表示j号第二子频带中第d个频点相位值所对应的重要度(权重)，为预先根据经验设置的超参数，可根据经验适量增加人类语音所在频段的w_j(d)。

步骤S40，将各个通道的所述声音信号所对应的各个所述频带幅值和各个所述频带相位值进行拼接，得到第一信号特征。

每个通道的声音信号分别进行频带幅值和频带相位值的计算，可以得到各个通道的声音信号分别对应的各个频带幅值和各个频带相位值，进行拼接，得到的结果称为第一信号特征以示区分。

例如，假设有N个通道，每个通道中一帧声音信号有480个采样点，进行时频转换，得到预设频率范围内241个频点分别对应的幅值和相位值，数据量为N*241*2；假设第一预设数量为6，第二预设数量为13，计算各个通道的声音信号对应的各个频带幅值和各个频带相位值，数据量为N*(6+13)，相比于N*241*2，数据量得到大幅度的压缩。

步骤S50，采用预设的声源方向估计模型基于所述第一信号特征进行估计得到声源方向估计结果。

声源方向估计模型可以是预先根据需要设置的用于估计声源方向的模型，在本实施例中，并不限制实现声源方向估计模型所采用的具体模型结构，可以采用深度学习模型来实现；声源方向估计模型输出的结果可以根据需要预先配置，例如，可以是配置为输出表征是否存在声源以及表征声源方向的结果，也即，采用预设的声源方向估计模型基于第一信号特征进行估计得到的声源方向估计结果，可以包括表征是否存在声源以及表征声源方向的结果。声源方向估计模型可以预先采用样本数据训练得到，在训练声源方向估计模型时，输入模型的数据可以是将样本数据中的声音信号按照步骤S10～S40计算得到的信号特征；对声源方向估计模型的训练方法并不做限制；训练过程可以是在头戴式设备中完成，也可以是在其他设备中训练后将模型部署在头戴式设备中。

在本实施例中，并不限制估计得到的声源方向估计结果的用途，例如可以用于语音识别、语音翻译等语音任务。

由多个通道麦克风捕获的时序采样点的数据量非常大，如果直接输入深度学习模型进行计算，那么将为芯片平台端的内存容量、低功耗等带来很大的挑战，所以本实施例中采用多个通道频域中频带信息取代直接捕获的时序采样点作为深度学习模型的输入。

由于声源方向估计模型的输入数据是经过压缩后的频带幅值和频带相位值所拼接得到的信号特征，所以声源方向估计模型所需要处理的数据量得到极大的压缩，从而使得采用复杂度较低的结构来实现声源方向估计模型，也能够实现较精确的声源方向估计，从而使得在算力受限的头戴式设备中也能够部署该声源方向估计模型，以实现低功耗的语音声源方向估计任务；并且，结合了声音信号的幅值和相位两种特征来进行声源方向估计，以及频带的划分采用更接近人耳听觉的梅尔刻度，从而使得压缩得到的低维的第一信号特征也能够很好地表征声音信号中的语音特征，从而能够利于声源方向估计模型准确地估计出声音信号中的声源方向。因此，在本实施例中，实现了一种应用于头戴式设备的声源方向估计方案，以使得在头戴式设备芯片端能够完成高精度、低功耗的语音声源方向估计任务。

基于上述第一实施例，提出本发明声源方向估计方法第二实施例。在本实施例中，所述步骤S20之后，还包括：

步骤S60，将各个通道的所述声音信号所对应的各个所述频带幅值进行拼接得到第二信号特征。

在本实施例中，提出先对声音信号进行是否存在人声的检测，在检测存在人声的情况下，才执行声源方向估计，从而避免声源方向估计算法一直运行，从而进一步降低头戴式设备的功耗。

在计算得到各个第一子频带分别对应的频带幅值后，可以将各个通道的声音信号所对应的各个频带幅值进行进行拼接，得到的结果称为第二信号特征以示区分。例如，假设有N个通道，每个通道中一帧声音信号有480个采样点，进行时频转换，得到预设频率范围内241个频点分别对应的幅值，数据量为N*241*2；假设第一预设数量为6，计算各个通道的声音信号对应的各个频带幅值，进行拼接得到第二信号特征，数据量为N*6。

步骤S70，采用预设的语音端点检测模型基于所述第二信号特征进行检测得到语音端点检测结果。

语音端点检测模型可以是预先根据需要设置的用于进行语音端点检测的模型，也即检测声音信号中是否存在人声，在本实施例中，并不限制实现语音端点检测模型所采用的具体模型结构；语音端点检测模型输出的结果可以根据需要预先配置，在本实施例中并不做限制。语音端点检测模型可以预先采用样本数据训练得到，在训练语音端点检测模型时，输入模型的数据可以是将样本数据中的声音信号按照步骤S10、S20和S60计算得到的信号特征；对声源方向估计模型的训练方法并不做限制；训练过程可以是在头戴式设备中完成，也可以是在其他设备中训练后将模型部署在头戴式设备中。

若所述语音端点检测结果表征各个通道的所述声音信号中存在人声，则执行所述步骤S30。

语音端点检测结果是表征各个通道的声音信号中是否存在人声的检测结果。若根据语音端点检测结果确定各个通道的声音信号中存在人声，说明需要进行声源方向估计，此时，可以执行步骤S30及之后的步骤，也即，基于各个频点的复数值计算各个第二子频带的频带相位值，进而对频带幅值和频带相位值进行拼接得到第一信号特征，基于第一信号特征进行声源方向估计。

若所述语音端点检测结果表征各个通道的所述声音信号中不存在人声，则返回执行所述步骤S10。

若根据语音端点检测结果确定各个通道的声音信号中不存在人声，则此时不需要进行声源方向估计，可以返回执行步骤S10，也即，再获取各麦克风通道新采集的声音信号，基于新的声音信号再进行时频转换，频带幅值计算，人声检测等。例如，在一可行实施方式中，头戴式设备可以在进行声源方向估计时，通过各个麦克风实时采集声音信号，头戴式设备对采集的各通道的声音信号进行分帧并缓存；头戴式设备可以在检测到当前处理的一帧或多帧声音信号中不存在人声时，将当前处理的一帧或多帧声音信号从缓存中删除，再从缓存中获取最近的一帧或多帧数据进行时频转换，并进行后续的各处理步骤。

需要说明的是，在通过语音端点检测模型检测到声音信号中存在人声时才进行声源方向估计，避免了不必要的计算量，降低了头戴式设备的功耗。并且，将采用语音端点检测模型进行人声检测时使用的频带幅值，与频带相位值进行拼接后提供给声源方向估计模型，规避了在进行声源方向估计时对所有麦克风通道数据帧频带幅值信息的二次计算，从而进一步降低了头戴式设备的功耗；同时也提供幅值信息给声源方向估计模型，使得在声源方向估计模型中对不同声源方向由于头部遮挡而导致不同麦克风位置处的幅值衰减进行了分析，从而获得更加准确的声源方向估计结果。

在本实施例中，提出一种进一步降低头戴式设备的功耗的可行实施方式。在本实施方式中，所述步骤S70之后，还包括：

步骤A10，若所述语音端点检测结果表征各个通道的所述声音信号中不存在人声，则将上传标志更新为第一预设值。

头戴式设备在根据语音端点检测结果确定各通道的声音信号中不存在人声时，一方面可以返回执行步骤S10，另一方面可以将上传标志更新为第一预设值。上传标志是预先设置的一个用于指示是否向服务器上传数据的标志。第一预设值用于表征不需要要服务器上传数据，第一预设值的具体取值可以根据需要预先设置，例如可以设置为false。该服务器是预先配置的用于基于头戴式设备上传的声音信号数据执行语音任务的服务器，并可将执行结果反馈给头戴式设备；该服务器中可以配置复杂的算法来执行该语音任务，以实现更优的任务执行结果；头戴式设备中由于只需要上传声音信号数据，无需配置用于执行语音任务的复杂算法，所以可以降低头戴式设备的功耗，使得低功耗或低算力的头戴式设备也能够为用户提供语音任务相应的功能和服务。语音任务可以是预先根据需要配置的，例如可以是语音识别和语音翻译等，在本实施例中并不做限制。

在语音端点检测结果表征各个通道的声音信号中不存在人声的情况下，不需要进行声源方向估计，进而也不需要将声音信号数据上传服务器来执行语音任务，通过将上传标志更新为第一预设值，避免了不必要的数据上传，从而进一步地降低了头戴式设备的功耗。

所述步骤S50之后，还包括：

步骤A20，在获得所述声源方向估计结果后，将所述上传标志更新为第二预设值，并在第一预设时长后返回执行所述步骤S10。

头戴式设备在获得声源方向估计结果后，可以将上传标志更新为第二预设值。第二预设值用于表征需要要服务器上传数据，第二预设值的具体取值可以根据需要预先设置，例如可以设置为true。在获得声音方向估计结果，通过将上传标志设置为第二预设值，使得可以及时上传声音信号数据到服务器执行语音任务，保障语音任务的正常执行。

在本实施方式中，头戴式设备可以在获得声源方向估计结果后开始计时，在第一预设时长后，返回执行步骤S10，也即，再获取新的声音信号进行时频转换、幅值计算、人声检测等。第一预设时长可以根据需要预先设置，例如可以设置为3秒，表示在第一预设时长内默认声源未进行快速移动，以保证执行语音任务的稳定性。

所述声源方向估计方法还包括：

步骤A30，在检测到当前的所述上传标志为所述第二预设值时，根据最新获得的所述声源方向估计结果对最近第二预设时长内各麦克风通道采集的声音信号提取声源方向信号，将所述声源方向信号上传服务器，以供所述服务器基于所述声源方向信号执行预设语音任务。

头戴式设备可以按照一定的频率检测上传标志的值，若检测到当前的上传标志为第二预设值，则可以根据最新获得的声源方向估计结果从最近第二预设时长内各个麦克风通道采集的声音信号中提取声源方向信号。其中，第二预设时长可以根据需要预先设置，可以是声源方向估计结果所对应的声音信号的时长。根据声源方向估计结果从各麦克风通道采集的声音信号中提取声源方向信号，是指提取出语音声源方向的信号，也即，麦克风通道采集的是来自与四面八方的信号，而为执行语音任务，重要的数据是语音信号，因此，可以从麦克风采集的声音信号中，提取来自语音声源方向的声音信号，将这些重要的数据上传服务器，减少上传的数据量，从而降低头戴式设备的功耗。在本实施方式中，并不限制根据声源方向估计结果对麦克风通道采集的声音信号提取声源方向信号的具体方法，可以根据需要预先设置，例如可以采用波束形成的方法。

在一可行实施方式中，可以按照图2的流程进行人声检测和声源方向估计，其中，虚线部分的流程是在人声检测结果为存在人声的情况下才执行。图3中，DOA(Direction OfArrival，波达方向)网络即本发明实施例中的声源方向估计模型，VAD(Voice activitydetection，语音活性检测)网络即本发明实施例中的语音端点检测模型。可以按照图3的流程进行声音信号的处理和上传。图2和图3可以在两个线程中分别被执行，当上传标志为true时，基于估计的角度值处理缓存内数据后上传至服务器，否则等待上传标志再次为true。

基于上述第二实施例，提出本发明声源估计方法第三实施例。在本实施例中，提出一种语音端点检测模型的可行实现结构。语音端点检测模型可以包括串联连接的时间卷积层、最大池化层、全连接层和激活层。其中，激活层可以但不限于采用hard-sigmod激活层。相较于声源方向估计模型，语音端点检测模型的使用频率更高且任务更为简单，所以可以仅选取少量频带上的幅值做为语音端点检测模型的输入，也即，第一预设数量可以小于第二预设数量，使得可在一定程度上减少语音端点检测模型的尺寸(可减少部分下采样的计算)。语音端点检测模型输出的结果可以根据需要预先配置，例如，可以是配置为输出0～1范围内的概率值，大于0.5表示存在人声，小于或等于0.5表示不存在人声。在训练语音端点检测模型之前，可以收集不同种类噪声下头戴式设备的各通道麦克风采集的声音信号，以及安静环境下存在语音声源时头戴式设备的各通道麦克风采集的声音信号，基于随机的信噪比将所有通道的噪声数据添加入其对应通道的安静人声数据中，作为语音端点检测模型的训练数据，采用训练数据对语音端点检测模型进行训练。训练语音端点检测模型时，采用的标签值可以为0或者1：当输入的频带幅度特征(将训练数据按照步骤S10、S20和S60的方法进行处理得到的信号特征)中保存的为环境音时，语音端点检测网络的标签值为0；当输入的频带幅度特征中保存的为带噪语音或纯净语音时，语音端点检测网络的标签值为1。所采用的损失函数如下：

/>

其中N表示训练样本批处理的个数；α为解决语音类别与环境音类别之间数据量不平衡问题的权重因子，α∈[0,1]，当输入的频带幅值特征中保存的为带噪语音或纯净语音时，a_n＝α，当输入的频带幅值特征中保存的为环境音时，a_n＝1-α；p_n为语音端点检测模型前向计算的输出值。

当语音端点检测模型进行预测时，如果输出概率值大于0.5，则判别各通道麦克风采集的声音信号中存在人声；否则，判别各通道麦克风采集的声音信号中不存在人声。通过语音端点检测模型预测的结果决定是否继续进行语音声源方向估计的计算，由于真实应用场景中包含了大量与人类语音无关的背景音，仅通过语音端点检测模型的计算就可以将大量高噪或低噪中的背景音过滤，而语音端点检测模型的规模极小，从而在一定程度上降低了头戴式设备的功耗(也即，多数情况下只需要运行语音端点检测模型)。

基于上述第二和/或第三实施例，提出本发明声源估计方法第四实施例。在本实施例中，提出一种声源方向估计模型的可行实现结构。声源方向估计模型可以包括串联连接的预设数量的卷积块，以及包括并联连接在最后一个卷积块之后的语音声源判断网络和声源角度估计网络，其中语音声源判断网络和声源角度估计网络的具体结构在本实施例中并不做限制，可以根据需要设置；语音声源判断网络可以用于输出表征是否存在声源的结果，声源角度估计网络可以用于输出表征声源方向的结果。每个卷积块分别可以包括卷积层、批量归一化层、激活层和最大值池化层，其中，激活层可以但不限于采用PreLU激活层。第一个卷积块中的卷积核尺寸可以为1*1。对于除第一个卷积块以外的各个卷积块，其卷积核的尺寸可以采用3*3，以便于调用芯片平台端硬件计算加速的相关库函数。每个卷积块中卷积层之后接入一个批量归一化层，可以在不增加芯片端计算成本的前提下降低声源方向估计模型训练的难度，即在每次卷积计算后都添加一层批量归一化，以约束输出特征的值域范围。在具体应场景中，头戴式设备中设置的麦克风阵列通常是非线性的，且存在头部遮挡声源的情况，本实施例提供的该声源方向估计模型的结构，实现了非线性分布麦克风阵列在遮挡情况下语音声源方向定位的方法，以用于满足头戴式设备在低功耗与低信噪比下语音声源方向精准估计的需求。

在一可行实施方式中，声源方向估计结果可以包括表征各个通道的声音信号中声源个数的第一结果和表征各个声源的角度值(也即方向)的第二结果。语音声源判断网络可以包括串联连接的时间卷积层、全连接层和激活层。其中，激活层可以采用但不限于采用hard-sigmod激活层。语音声源判断网络用于输出第一结果，第一结果的具体数值形式在本实施方式中并不做限制。例如，可以预先设置可识别的声源的最大个数，例如C个，第一结果可以是包括C个概率值，每个概率值对应一个语音声源，若概率值大于设定的阈值(例如0.5)，表示存在该语音声源，否则表示不存在该语音声源；例如，C设置为3个，输出的第一结果为0.6,0.8,0.1，表示存在两个声源。语音声源判断网络的训练标签与其输出结果对应设置，也即训练标签一共有C位数值，当仅存在一个语音声源时，只有第1位数值为1、其余各位数值为0，当仅存在两个语音声源时，只有第1位和第2位数值为1、其余各位数值为0，以此类推。

声源角度估计网络可以包括串联连接的时间卷积层、全连接层和激活层，其中，激活层可以采用但不限于采用softmax激活层。声源角度估计网络用于输出第二结果，第二结果的具体数值形式在本实施方式中并不做限制。例如，可以预先将声源可能的角度值划分为预设数量的角度类别，例如从0度开始至360度，每隔15度设置一个角度类别，共24类，分别表示0度、15度、30度、…、345度；第二结果可以包括C组概率值，一组概率值包括预设数量的概率值，对应预设数量的角度类别；在第一结果中第i(i＝1,2，…，C)位数值大于设定的阈值时，说明存在一个语音声源，进一步获取第二结果中第i组概率值，从其中选取最大的概率值，若大于设定的阈值(例如0.5)，则将该最大的概率值所对应的角度类别作为该语音声源的角度值；在第一结果中第i位数值小于或等于设定的阈值时，说明不存在该语音声源，此时可以无需再获取第二结果中第i组概率值来解析角度值。声源角度估计网络的训练标签与其输出结果对应设置，也即训练标签一共有C组数值，每组数值包括预设数量的数值，对应预设数量的类别；当存在N个语音声源时，根据语音声源的角度值所处的类别，设置C组数值中前N组数值中相应类别的数值为1，其余为0，其余各组数值中各个类别的数值均为0，也即采用one-hot的方式表示各个类别的标签值。

声源方向估计模型在训练的过程中，可以基于训练数据进行前向推理计算输出结果与真实标签值之间的误差，反向传播至模型中的各个层中以完成对模型权值参数的更新，从而实现了对声源方向估计模型的训练。可以采用如下的损失函数：

其中L_DOA为声源方向估计模型的损失，它是由语音声源判断网络的损失与声源角度估计网络的损失/>的积决定，其中N表示批处理样本的个数，C为预设的可识别的声源的最大个数；语音声源判断网络输出的p为一个0到1范围内的小数，y为其对应的标签值(0或者1)，声源角度估计网络输出的p_k为分别第k个角度类别的概率值，是0到1范围内的小数(K是划分的角度类别的个数)，y_k为其对应的标签值(one-hot向量)。

在本实施例中，声源方向估计模型中通过设置时间卷积层，利用了时间卷积层分析频带中相位、幅值在不同麦克风通道之间的关系，相较于传统声源定位算法，深度学习模型可以很容易构建不同声源方向传播至不同麦克风处时延、不同声源方向由于头部遮挡导致不同麦克风处幅值衰减等复杂问题的数学模型，最终输出不同语音声源方向估计的正确角度值。

本发明实施例中头戴式设备可以包括结构壳体、通信模块、主控模块(例如微控制单元MCU)、扬声器、麦克风、存储器等组成。主控模块可包含微处理器、音频解码单元、电源及电源管理单元、系统所需的传感器和其他有源或无源器件等(可以根据实际功能进行更换、删减或增加)，实现无线音频的接收与播放功能。耳机的存储器中可以存储有声源方向估计程序，微处理器可以用于调用存储器中存储的声源方向估计程序，并执行以下操作：

在一可行实施方式中，所述根据所述各个频点的幅值计算各个第一子频带分别对应的频带幅值的操作包括：

在一可行实施方式中，所述根据所述各个频点的相位值计算各个第二子频带分别对应的频带相位值的操作包括：

在一可行实施方式中，所述根据所述复数值计算所述各个频点的幅值，并根据所述各个频点的幅值计算各个第一子频带分别对应的频带幅值的操作之后，微处理器还可以用于调用存储器中存储的声源方向估计程序，执行以下操作：

若所述语音端点检测结果表征各个通道的所述声音信号中存在人声，则执行所述根据所述复数值计算所述各个频点的相位值的操作；

若所述语音端点检测结果表征各个通道的所述声音信号中不存在人声，则返回执行所述获取所述头戴式设备中各麦克风通道采集的声音信号的操作。

在一可行实施方式中，所述采用预设的语音端点检测模型基于所述第二信号特征进行检测得到语音端点检测结果的操作之后，微处理器还可以用于调用存储器中存储的声源方向估计程序，执行以下操作：

所述采用预设的声源方向估计模型基于所述第一信号特征进行估计得到声源方向估计结果的操作之后，微处理器还可以用于调用存储器中存储的声源方向估计程序，执行以下操作：

在获得所述声源方向估计结果后，将所述上传标志更新为第二预设值，并在第一预设时长后返回执行所述获取所述头戴式设备中各麦克风通道采集的声音信号的操作；

微处理器还可以用于调用存储器中存储的声源方向估计程序，执行以下操作：

在一可行实施方式中，所述语音端点检测模型包括串联连接的时间卷积层、最大池化层、全连接层和激活层。

在一可行实施方式中，所述声源方向估计模型包括串联连接的预设数量的卷积块，以及包括并联连接在最后一个所述卷积块之后的语音声源判断网络和声源角度估计网络；每个所述卷积块分别包括卷积层、批量归一化层、激活层和最大值池化层，第一个所述卷积块中的卷积核尺寸为1*1。

在一可行实施方式中，所述声源方向估计结果包括表征各个通道的所述声音信号中声源个数的第一结果和表征各个声源的角度值的第二结果；所述语音声源判断网络包括串联连接的时间卷积层、全连接层和激活层，所述语音声源判断网络用于输出所述第一结果；所述声源角度估计网络包括串联连接的时间卷积层、全连接层和激活层，所述声源角度估计网络用于输出所述第二结果。

本发明头戴式设备和计算机可读存储介质的各实施例，均可参照本发明声源方向估计方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种声源方向估计方法，其特征在于，所述声源方向估计方法应用于头戴式设备，所述声源方向估计方法包括：

2.如权利要求1所述的声源方向估计方法，其特征在于，所述根据所述各个频点的幅值计算各个第一子频带分别对应的频带幅值的步骤包括：

3.如权利要求1所述的声源方向估计方法，其特征在于，所述根据所述各个频点的相位值计算各个第二子频带分别对应的频带相位值的步骤包括：

4.如权利要求1所述的声源方向估计方法，其特征在于，所述根据所述复数值计算所述各个频点的幅值，并根据所述各个频点的幅值计算各个第一子频带分别对应的频带幅值的步骤之后，还包括：

5.如权利要求4所述的声源方向估计方法，其特征在于，所述采用预设的语音端点检测模型基于所述第二信号特征进行检测得到语音端点检测结果的步骤之后，还包括：

所述声源方向估计方法还包括：

6.如权利要求4所述的声源方向估计方法，其特征在于，所述语音端点检测模型包括串联连接的时间卷积层、最大池化层、全连接层和激活层。

7.如权利要求1至6任一项所述的声源方向估计方法，其特征在于，所述声源方向估计模型包括串联连接的预设数量的卷积块，以及包括并联连接在最后一个所述卷积块之后的语音声源判断网络和声源角度估计网络；每个所述卷积块分别包括卷积层、批量归一化层、激活层和最大值池化层，第一个所述卷积块中的卷积核尺寸为1*1。

8.如权利要求7所述的声源方向估计方法，其特征在于，所述声源方向估计结果包括表征各个通道的所述声音信号中声源个数的第一结果和表征各个声源的角度值的第二结果；所述语音声源判断网络包括串联连接的时间卷积层、全连接层和激活层，所述语音声源判断网络用于输出所述第一结果；所述声源角度估计网络包括串联连接的时间卷积层、全连接层和激活层，所述声源角度估计网络用于输出所述第二结果。

9.一种头戴式设备，其特征在于，所述头戴式设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的声源方向估计程序，所述声源方向估计程序被所述处理器执行时实现如权利要求1至8中任一项所述的声源方向估计方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有声源方向估计程序，所述声源方向估计程序被处理器执行时实现如权利要求1至8中任一项所述的声源方向估计方法的步骤。