CN115620727B

CN115620727B - 音频处理方法、装置、存储介质及智能眼镜

Info

Publication number: CN115620727B
Application number: CN202211417560.8A
Authority: CN
Inventors: 李逸洋; 张新科; 崔潇潇; 鲁勇
Original assignee: Beijing Intengine Technology Co Ltd
Current assignee: Beijing Intengine Technology Co Ltd
Priority date: 2022-11-14
Filing date: 2022-11-14
Publication date: 2023-03-17
Anticipated expiration: 2042-11-14
Also published as: CN115620727A

Abstract

本申请实施例公开了一种音频处理方法、装置、存储介质及智能眼镜。该方法包括：获取空导麦克风阵列接收到针对多个方向的多通道时域信号，对多通道时域信号进行处理，以转换为频域信号，获取当前用户的聚焦方向并以聚焦方向确定声源搜索范围，基于频域信号在声源搜索范围内进行声源定位，以确定目标声源方向，针对目标声源方向进行自适应波束形成，以生成目标音频信号。本申请实施例通过声源定位确定目标声源的方向，从而生成更具有针对性的音频信号，可以提升音频数据的准确性，以及听障人士的沟通效率。

Description

音频处理方法、装置、存储介质及智能眼镜

技术领域

本申请涉及数据处理技术领域，具体涉及一种音频处理方法、装置、存储介质及智能眼镜。

背景技术

当前，我国听障人群规模已达到近三千万，大多数听障人士需要借助助听器才能与健全人进行一定程度的交流。然而，对于听障人士的不同情况，助听器的效果无法得到保障，许多听障人士使用助听器的效果并不理想，并且长时间佩戴助听器还有可能引发耳部疾病。随着科技进步和社会发展，可穿戴设备逐渐走入人们的日常生活，智能眼镜为用户的生活带来了便利，也为听障人士提供一种与健全人交流的工具。现有通过智能眼镜辅助听障人士交流的方案主要集中在语音识别、脑电波识别和手语识别等。

申请人发现，在现有技术中，脑电波识别方案通过智能眼镜上的脑电波接收器获取并处理用户的脑电波信号，将脑电波信号转换为图文信息显示在眼镜外侧供健全人与用户交流，但实现较复杂；手语识别方案通过智能眼镜上的雷达或摄像头，将健全人的手语信息转换为语音或文字，通过播放或近眼显示供用户与健全人交流，但并不是所有健全人都会使用手语，手语识别方案也较难普及；而语音识别方案则存在噪声环境下识别准确率不高、用户体验不佳等问题。

发明内容

本申请实施例提供一种音频处理方法、装置、存储介质及智能眼镜，可以通过声源定位确定目标声源的方向，从而生成更具有针对性的音频信号，以提升音频数据的准确性，以及听障人士的沟通效率。

本申请实施例提供了一种音频处理方法，应用于智能眼镜，所述智能眼镜包括空导麦克风阵列，包括：

获取空导麦克风阵列接收到针对多个方向的多通道时域信号；

对所述多通道时域信号进行处理，以转换为频域信号；

获取当前用户的聚焦方向并以所述聚焦方向确定声源搜索范围，基于所述频域信号在所述声源搜索范围内进行声源定位，以确定目标声源方向；

针对所述目标声源方向进行自适应波束形成，以生成目标音频信号。

在一实施例中，所述智能眼镜还包括骨传导麦克风，在所述获取空导麦克风阵列接收到针对多个方向的多通道时域信号之后，所述方法还包括：

获取所述骨传导麦克风接收到的用户音频信号；

确定所述用户音频信号的起止时间，并根据所述用户音频信号在所述起止时间内对所述多通道时域信号进行降噪处理，以消除所述多通道时域信号中用户自身发出的音频成分。

在一实施例中，所述对所述多通道时域信号进行处理，以转换为频域信号，包括：

对所述多通道时域信号进行分帧以及加窗处理，其中窗函数为汉明窗或汉宁窗；

将所述分帧以及加窗处理后的信号进行傅里叶变换，以转换为频域信号。

在一实施例中，所述获取当前用户的聚焦方向并以所述聚焦方向确定声源搜索范围，包括：

确定所述当前用户的聚焦方向所对应的方位角信息和俯仰角信息；

根据所述方位角信息和邻域范围计算方位角搜索范围以及方位角搜索间隔；

根据所述俯仰角信息和邻域范围计算俯仰角搜索范围以及俯仰角搜索间隔。

在一实施例中，所述基于所述频域信号在所述声源搜索范围内进行声源定位，以确定目标声源方向，包括：

基于所述频域信号在所述声源搜索范围内计算麦克风阵列的角度谱函数；

遍历所述角度谱函数，若所述角度谱函数中的局部峰值数量为1，则确定所述局部峰值对应的方向为所述目标声源方向；

若所述局部峰值数量大于1，则将所述多个局部峰值分别对应的声源方向在所述智能眼镜上进行提示，并接收用户指令以从所述多个声源方向中确认目标声源方向。

在一实施例中，在所述生成目标音频信号之后，所述方法还包括：

对所述目标音频信号进行增强；

将增强后的音频信号转换为文字信息，并将所述文字信息显示至所述智能眼镜上。

在一实施例中，所述对所述目标音频信号进行增强，包括：

将所述目标音频信号输入至预设降噪网络，得到网络预测的时频掩模；

将所述时频掩模作用在所述目标音频信号上，以得到增强后的单通道频域信号。

本申请实施例还提供一种音频处理装置，应用于智能眼镜，所述智能眼镜包括空导麦克风阵列，包括：

获取模块，用于获取空导麦克风阵列接收到针对多个方向的多通道时域信号；

处理模块，用于对所述多通道时域信号进行处理，以转换为频域信号；

定位模块，用于获取当前用户的聚焦方向并以所述聚焦方向确定声源搜索范围，基于所述频域信号在所述声源搜索范围内进行声源定位，以确定目标声源方向；

生成模块，用于针对所述目标声源方向进行自适应波束形成，以生成目标音频信号。

本申请实施例还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如上任一实施例所述的音频处理方法中的步骤。

本申请实施例还提供一种智能眼镜，所述智能眼镜包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，执行如上任一实施例所述的音频处理方法中的步骤。

本申请实施例提供的音频处理方法、装置、存储介质及智能眼镜，可以获取空导麦克风阵列接收到针对多个方向的多通道时域信号，对多通道时域信号进行处理，以转换为频域信号，获取当前用户的聚焦方向并以聚焦方向确定声源搜索范围，基于频域信号在声源搜索范围内进行声源定位，以确定目标声源方向，针对目标声源方向进行自适应波束形成，以生成目标音频信号。本申请实施例通过声源定位确定目标声源的方向，从而生成更具有针对性的音频信号，可以提升音频数据的准确性，以及听障人士的沟通效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的音频处理装置的一种系统示意图。

图2为本申请实施例提供的音频处理方法的一种流程示意图。

图3为本申请实施例提供的空导麦克风阵列音频采集的场景示意图。

图4为本申请实施例提供的音频处理方法的另一种流程示意图。

图5为本申请实施例提供的音频处理装置的一种结构示意图。

图6为本申请实施例提供的音频处理装置的另一结构示意图。

图7为本申请实施例提供的智能眼镜的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种音频处理方法、装置、存储介质及智能眼镜。具体地，本申请实施例的音频处理方法可以由电子设备执行，其中，该电子设备可以为智能眼镜，且该智能眼镜中包含空导麦克风和骨传导麦克风，上述空导麦克风用于获取其他人的语音信号，而骨传导麦克风则只能够获取当前使用智能眼镜的用户本人所发出的语音信号。

例如，当该音频处理方法运行于智能眼镜上时，获取空导麦克风阵列接收到针对多个方向的多通道时域信号，对多通道时域信号进行处理，以转换为频域信号，获取当前用户的聚焦方向并以聚焦方向确定声源搜索范围，基于频域信号在声源搜索范围内进行声源定位，以确定目标声源方向，针对目标声源方向进行自适应波束形成，以生成目标音频信号。其中智能眼镜可以通过图形用户界面与用户进行交互。该智能眼镜将图形用户界面提供给用户的方式可以包括多种，例如，可以渲染显示在智能眼镜镜片上的显示屏上，或者，通过全息投影在在智能眼镜镜片上以呈现图形用户界面。例如，智能眼镜可以包括显示屏和处理器，该显示屏用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。

请参阅图1，图1为本申请实施例提供的音频处理装置的系统示意图。该系统可以包括智能眼镜1000，至少一个服务器或个人电脑2000。用户持有的智能眼镜1000可以通过网络连接到服务器或个人电脑。智能眼镜1000可以是具有计算硬件的终端设备，该计算硬件能够支持和执行与多媒体对应的软件产品，例如能够支持语音识别。另外，智能眼镜1000还可以具有用于显示文字的显示屏或投影装置。另外，智能眼镜1000可以通过网络与服务器或个人电脑2000相互连接。网络可以是无线网络或者有线网络，比如无线网络为无线局域网(WLAN)、局域网(LAN)、蜂窝网络、2G网络、3G网络、4G网络、5G网络等。另外，不同的智能眼镜1000之间也可以使用自身的蓝牙网络或者热点网络连接到其他智能眼镜或者连接到服务器以及个人电脑等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例提供了一种音频处理方法，该方法可以由智能眼镜或服务器执行。本申请实施例以音频处理方法由智能眼镜执行为例来进行说明。其中，该智能眼镜包括显示屏和处理器，该处理器被配置为获取空导麦克风阵列接收到针对多个方向的多通道时域信号，对多通道时域信号进行处理，以转换为频域信号，获取当前用户的聚焦方向并以聚焦方向确定声源搜索范围，基于频域信号在声源搜索范围内进行声源定位，以确定目标声源方向，针对目标声源方向进行自适应波束形成，以生成目标音频信号。

请参阅图2，该方法的具体流程可以如下：

步骤101，获取空导麦克风阵列接收到针对多个方向的多通道时域信号。

在本申请实施例中，智能眼镜的麦克风可以包括空导麦克风阵列，上述空导麦克风阵列是用来接收来自外界环境通过空气传导而来的信号，比如环境声以及其他人的说话声等。空导麦克风阵列的麦克风通道数至少为两个，且阵列构型和麦克风间距均已知，可以是线阵、面阵等规则阵列，也可以是不规则阵列。

举例来说，请参阅图3，在多个说话人(对于麦克风阵列来说是多个声源，图3中示为Q个)在空导麦克风阵列(图3中示为由6个麦克风以圆形阵列均匀分布)的探测范围内发出声音时，其声音可由空导麦克风阵列进行采集，从而通过空导麦克风阵列的多个通道获取多通道时域信号。

接下来将所获取的多通道时域信号传送至音频信号处理端，以根据具体需求应用于各种处理任务，包括但不限于频域转换、声源定位、语音增强、语音识别等等。该音频信号处理端可以是如下文所述的根据本公开的实施例的音频处理装置，也可以是用于实现其他目的的处理装置。

步骤102，对多通道时域信号进行处理，以转换为频域信号。

本申请实施例提供的音频处理方法需要最终基于波束形成来生成目标音频信号，其中，波束形成的任务是从多通道音频信号中提取目标信号，即对麦克风阵列信号进行合并处理，抑制非目标方向的干扰信号，并增强目标方向的声音信号。波束成形方法可在频域和时域中执行，因此可根据处理域而将其分为频域波束成形方法和时域波束成形方法。由于一般的波束成形方法难以满足实时性和多源跟踪的需求，近年来随着一些新兴学科的不断发展，波束成形方法也向这些热门方向迅速延伸，其中包括但不限于神经网络方法、遗传方法和高阶统计量方法等。

其中，对基于神经网络的波束成形方法(即，神经网络波束成形方法)的研究极大地推进了多通道语音增强和分离系统的发展水平。神经网络波束成形方法通常首先应用神经网络来从多通道混合信号中提取目标信号，然后应用传统的波束成形技术来执行空间滤波以增强该目标信号。由于麦克风阵列和目标源特征都可以在频域中以更容易的方式进行估计，大多神经网络波束成形方法通常基于信号的频域特征进行处理，例如使用诸如多通道维纳滤波(MCWF)和最小方差无失真响应(MVDR)波束成形等方法进行空间滤波。也即在频域中可以更容易地估计麦克风阵列和目标源特征，大多数波束成形方法和神经网络波束成形方法都基于信号的频域特征进行处理。因此本实施例也需要对多通道时域信号进行处理，以转换为频域信号。

具体的，若智能眼镜的空导麦克风阵列共有

个麦克风，可以对处理后的设备麦克风阵列接收到的

个通道时域信号分别进行分帧、加窗和傅里叶变换，将接收到的

个通道时域信号转换至频域：

Y(t,f)=[Y₁(t,f),Y₂(t,f),…Y_M(t,f)]^T

其中，Y_M(t,f)(m=1,2,…,M)表示麦克风阵列第m个麦克风通道在第t帧、第f个时频点的频域信号；若采样率为f_s，帧长为N，帧移为N/2，窗长为N，傅里叶变换点数为N，那么对应的频域信号共有个频点N/2+1，频率间隔为f_s/N，(.)^T表示转置操作；窗函数可选汉明窗、汉宁窗等窗函数。也即对多通道时域信号进行处理，以转换为频域信号的步骤可以包括：对多通道时域信号进行分帧以及加窗处理，其中窗函数为汉明窗或汉宁窗，将分帧以及加窗处理后的信号进行傅里叶变换，以转换为频域信号。

步骤103，获取当前用户的聚焦方向并以聚焦方向确定声源搜索范围，基于频域信号在声源搜索范围内进行声源定位，以确定目标声源方向。

在一实施例中，当智能眼镜开启文字转换模式之后，可以通过眼球追踪技术确定当前用户视线的聚焦方向，该聚焦方向作为先验信息，由于眼睛本身存在固有的眨动及抖动，在交流中用户或交互对象也有可能走动，因此上述用户视线的聚焦方向并不精确，若直接以该聚焦方向进行自适应波束形成，会由于定位不准确导致后续的语音增强性能较差以及语音识别结果不准确，影响用户体验。另一方面，若没有用户视线聚焦方向的先验信息，则空导麦克风阵列就需要在全空域搜索定位，运算复杂度非常高，搜索间隔也不能划分过细，声源定位的准确程度仍然不高，同样会影响波束形成的语音增强性能。因此在本实施例中，在通过眼球追踪等技术得到用户视线的聚焦方向这一先验信息后，便可以以该先验信息为中心划定一定邻域范围的搜索区间，并在该区间内进一步进行声源定位，以确定最终的目标声源以及目标声源方向。

在一实施例中，可以通过智能眼镜上的摄像头对当前用户的眼部进行拍摄，以得到眼部图像，然后基于图像通过眼球追踪技术来确定聚焦方向。具体可以通过眼球和眼球周边的特征变化进行跟踪，或根据虹膜角度变化来进行跟踪，再或者主动投射红外线等光束到虹膜来提取特征，然后根据该特征来进行跟踪。本实施例对此不作进一步限定。

在一实施例中，获取当前用户的聚焦方向并以聚焦方向确定声源搜索范围的步骤可以包括：确定当前用户的聚焦方向所对应的方位角信息和俯仰角信息，根据方位角信息和邻域范围计算方位角搜索范围以及方位角搜索间隔，根据俯仰角信息和邻域范围计算俯仰角搜索范围以及俯仰角搜索间隔。举例来说，智能眼镜通过眼动跟踪得到用户视线关注点方向的先验信息(θ₀,ϕ₀)，其中θ₀表示用户视线关注点的方位角，ϕ₀表示用户视线关注点的俯仰角。然后，以用户视线关注点方向的先验信息(θ₀,ϕ₀)为中心划定声源定位搜索范围，其中方位角搜索范围为[θ₀-3σ,θ₀+3σ]，方位角的搜索间隔为Δθ，俯仰角搜索范围为[ϕ₀-3σ,ϕ₀+3σ]，俯仰角的搜索间隔为Δϕ，其中σ表示角度估计的标准差，3σ表示搜索区间的邻域范围，该区间置信度为99.74%，即声源定位真实值落在用户视线关注点3σ邻域范围内的概率为99.74%，角度估计的标准差σ与麦克风阵列的波束宽度和接收信号信噪比有关。

进一步的，在确定声源搜索范围后，便可以在该搜索范围内进行声源定位。首先，对空导麦克风阵列进行无重复麦克风配对，以麦克风m1与麦克风m2的配对组合为例进行说明，计算该配对组合的广义互相关函数为：

R_m1m2(t,f)= Ψ_m1m2(f)Y_m1(t,f)Y_m2 ^*(t,f)

其中，R_m1m2(t,f)表示麦克风m1与麦克风m2在第t帧、第f个时频点的广义互相关函数，Ψ_m1m2(f)表示麦克风m1与麦克风m2在第f个时频点的加权函数，可使用相位变换、平滑相干变换等加权函数，(.)^*表示共轭操作。

进而计算该配对组合广义互相关函数的逆傅里叶变换，得到该配对组合的角度谱函数P_m1m2(θ,ϕ)。遍历所有麦克风配对组合重复上述步骤，将所有麦克风配对组合的角度谱函数累加，得到麦克风阵列的角度谱函数P(θ,ϕ)。

最后，遍历角度谱函数P(θ,ϕ)，若角度谱函数P(θ,ϕ)只有一个局部极大值，则表明该搜索范围内只包含一个声源，则将该局部最大值对应的方位角及俯仰角组合

作为交互对象的方向估计值，其中

表示交互对象方位角的估计值，

表示交互对象俯仰角的估计值；若角度谱函数P(θ,ϕ)包含多个局部极大值，则表明该搜索范围内除了交互对象外还有其他声源，则通过近眼显示提示用户指定某一声源方向，将用户指定的方向

作为交互对象的方向估计值。也即基于频域信号在声源搜索范围内进行声源定位，以确定目标声源方向的步骤可以包括：基于频域信号在声源搜索范围内计算麦克风阵列的角度谱函数，遍历角度谱函数，若角度谱函数中的局部峰值数量为1，则确定局部峰值对应的方向为目标声源方向，若局部峰值数量大于1，则将多个局部峰值分别对应的声源方向在智能眼镜上进行提示，并接收用户指令以从多个声源方向中确认目标声源方向。

步骤104，针对目标声源方向进行自适应波束形成，以生成目标音频信号。

在确定目标声源以及对应的目标声源方向之后，便可以通过自适应波束形成以得到目标音频信号，具体可以为一个单通道频域波束形成信号。在一实施例中，上述目标声源方向可以通过声源方向估计值进行表示，该声源方向估计值较精确，利用该估计值进行自适应波束形成，可以定向增强交互对象所在方向的语音信号，保证了自适应波束形成的音频信号的性能。虽然进行自适应波束形成可以定向增强方向性语音，但自适应波束形成后信号仍包含一定程度的环境噪声，再次进行单通道语音增强可以进一步提高输出信噪比，从而得到较准确的语音识别结果，改善用户体验。

其中，自适应波束形成方法包括但不限于最小方差无畸变响应、广义旁瓣相消等算法等。自适应波束形成中的噪声估计方法包括但不限于最小值跟踪、递归最小二乘等传统算法，还包括以卷积神经网络或循环神经网络等结构实现的深度学习算法。单通道语音增强方法包括但不限于维纳滤波、最小均方误差估计等传统算法，还包括以卷积神经网络或循环神经网络等结构实现的深度学习算法。

由上可知，本申请实施例提供的音频处理方法可以获取空导麦克风阵列接收到针对多个方向的多通道时域信号，对多通道时域信号进行处理，以转换为频域信号，获取当前用户的聚焦方向并以聚焦方向确定声源搜索范围，基于频域信号在声源搜索范围内进行声源定位，以确定目标声源方向，针对目标声源方向进行自适应波束形成，以生成目标音频信号。本申请实施例通过声源定位确定目标声源的方向，从而生成更具有针对性的音频信号，可以提升音频数据的准确性，以及听障人士的沟通效率。

请参阅图4，为本申请实施例提供的音频处理方法的另一流程示意图。该方法的具体流程可以如下：

步骤201，获取空导麦克风阵列接收到针对多个方向的多通道时域信号。

步骤202，获取骨传导麦克风接收到的用户音频信号。

在本申请实施例中，智能眼镜的麦克风可以包括两种，分别是空导麦克风阵列和骨传导麦克风，其中空导麦克风阵列是用来接收来自外界环境通过空气传导而来的信号，比如环境声以及其他人的说话声等。空导麦克风阵列的麦克风通道数至少为两个。骨传导麦克风是用来监测和接收来自佩戴智能眼镜的用户自身通过骨传导而来的信号，比如用户自身的说话声，麦克风通道数至少为一个。

在一实施例中，由于用户在与他人交流时，空导麦克风阵列的接收信号主要接收来自交流对象的信号，但仍会接收到用户自身的信号，而骨传导麦克风的接收信号绝大部分为用户自身信号，因此可以利用骨传导麦克风的接收信号对空导麦克风阵列的接收信号进行降噪处理，可以消除麦克风阵列接收信号中当前用户自身发出的音频成分，可以提升后续语音识别及转换的准确性。

步骤203，确定用户音频信号的起止时间，并根据用户音频信号在起止时间内对多通道时域信号进行降噪处理，以消除多通道时域信号中用户自身发出的音频成分。

具体的，当用户发声时，骨传导麦克风可以接收用户音频信号并记录用户发声的起止时间，并将空导麦克风阵列的多通道时域信号在该段时间内的语音活动检测标签置零，即在对空导麦克风阵列接收到的多通道时域信号进行处理时，不处理语音活动检测标签为零的信号段，去除空导麦克风阵列接收信号中用户的语音成分。

步骤204，对多通道时域信号进行处理，以转换为频域信号。

在一实施例中，若智能眼镜的空导麦克风阵列共有M个麦克风，可以对处理后的设备麦克风阵列接收到的M个通道时域信号分别进行分帧、加窗和傅里叶变换，将接收到的M个通道时域信号转换至频域。

步骤205，获取当前用户的聚焦方向并以聚焦方向确定声源搜索范围，基于频域信号在声源搜索范围内进行声源定位，以确定目标声源方向。

在一实施例中，可以通过智能眼镜上的摄像头对当前用户的眼部进行拍摄，以得到眼部图像，然后基于图像中的眼球特征信息确定当前用户的聚焦方向。然后通过预设方法在聚焦方向的邻域范围内进行声源定位，其中，预设方法包括互相关或超分辨算法，也包括以卷积神经网络或循环神经网络等结构实现的深度学习算法等。

步骤206，针对目标声源方向进行自适应波束形成，以生成目标音频信号。

在确定目标声源以及对应的目标声源方向之后，便可以通过自适应波束形成以得到目标音频信号，具体可以为一个单通道频域波束形成信号。

步骤207，对目标音频信号进行增强。

在一实施例中，虽然进行自适应波束形成可以定向增强方向性语音，但自适应波束形成后信号仍包含一定程度的环境噪声，因此再次进行单通道语音增强可以进一步提高输出信噪比，从而得到较准确的语音识别结果，改善用户体验。具体的，对目标音频信号进行增强的步骤可以包括：将目标音频信号输入至预设降噪网络，得到网络预测的时频掩模，将时频掩模作用在目标音频信号上，以得到增强后的单通道频域信号。

在一实施例中，上述预设降噪网络的训练过程可以包括；利用噪声音频以及干净语音音频生成带噪音频，对带噪音频进行分帧、加窗和傅里叶变换，以提取带噪音频的频域特征，采用编码器-解码器结构搭建降噪网络，将带噪音频的频域特征输入降噪网络，计算模型预测的第一时频掩模与干净语音音频的第二时频掩模的之间损失函数，基于损失函数通过反向传播法和梯度下降算法，对降噪网络进行训练。

步骤208，将增强后的音频信号转换为文字信息，并将文字信息显示至智能眼镜上。

在一实施例中，在对目标音频信号进行增强后，还可以进一步将其转换为文字信息显示至智能眼镜上，以便于听障人士进行沟通。其中，上述智能眼镜的文字转换模式可以通过用户操作来手动开启，比如用户通过点击智能眼镜上的按键或通过预设手势进行开启。在另一实施例中，上述智能眼镜的文字转换模式还可以在满足触发条件时自动开启，比如当空导麦克风接收到包含预设关键字的第一语音信号或骨传导麦克风接收到第二语音信号时，自动开启智能眼镜的文字转换模式。

上述所有的技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

由上可知，本申请实施例提供的音频处理方法可以获取空导麦克风阵列接收到针对多个方向的多通道时域信号，获取骨传导麦克风接收到的用户音频信号，确定用户音频信号的起止时间，并根据用户音频信号在起止时间内对多通道时域信号进行降噪处理，以消除多通道时域信号中用户自身发出的音频成分，对多通道时域信号进行处理，以转换为频域信号，获取当前用户的聚焦方向并以聚焦方向确定声源搜索范围，基于频域信号在声源搜索范围内进行声源定位，以确定目标声源方向，针对目标声源方向进行自适应波束形成，以生成目标音频信号，对目标音频信号进行增强，将增强后的音频信号转换为文字信息，并将文字信息显示至智能眼镜上。本申请实施例通过声源定位确定目标声源的方向，从而生成更具有针对性的音频信号，可以提升音频数据的准确性，以及听障人士的沟通效率。

为便于更好的实施本申请实施例的音频处理方法，本申请实施例还提供一种音频处理装置。请参阅图5，图5为本申请实施例提供的音频处理装置的一种结构示意图。该音频处理装置可以包括：

获取模块301，用于获取空导麦克风阵列接收到针对多个方向的多通道时域信号；

处理模块302，用于对所述多通道时域信号进行处理，以转换为频域信号；

定位模块303，用于获取当前用户的聚焦方向并以所述聚焦方向确定声源搜索范围，基于所述频域信号在所述声源搜索范围内进行声源定位，以确定目标声源方向；

生成模块304，用于针对所述目标声源方向进行自适应波束形成，以生成目标音频信号。

在一实施例中，请进一步参阅图6，图6为本申请实施例提供的音频处理装置的另一种结构示意图。其中，处理模块302可以包括：

第一处理子模块3021，用于对所述多通道时域信号进行分帧以及加窗处理，其中窗函数为汉明窗或汉宁窗；

第二处理子模块3022，用于将所述分帧以及加窗处理后的信号进行傅里叶变换，以转换为频域信号。

在一实施例中，定位模块303可以包括：

确定子模块3031，用于确定所述当前用户的聚焦方向所对应的方位角信息和俯仰角信息；

第一计算子模块3032，用于根据所述方位角信息和邻域范围计算方位角搜索范围以及方位角搜索间隔；

第二计算子模块3033，用于根据所述俯仰角信息和邻域范围计算俯仰角搜索范围以及俯仰角搜索间隔。

由上可知，本申请实施例提供的音频处理装置，通过获取模块301获取空导麦克风阵列接收到针对多个方向的多通道时域信号，处理模块302对多通道时域信号进行处理，以转换为频域信号，定位模块303获取当前用户的聚焦方向并以聚焦方向确定声源搜索范围，基于频域信号在声源搜索范围内进行声源定位，以确定目标声源方向，生成模块304针对目标声源方向进行自适应波束形成，以生成目标音频信号。本申请实施例通过声源定位确定目标声源的方向，从而生成更具有针对性的音频信号，可以提升音频数据的准确性，以及听障人士的沟通效率。

相应的，本申请实施例还提供一种智能眼镜，该智能眼镜可以为终端或者服务器，该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机（PC，Personal Computer）、个人数字助理(Personal Digital Assistant，PDA)等终端设备。如图7所示，图7为本申请实施例提供的智能眼镜的结构示意图。该智能眼镜400包括有一个或者一个以上处理核心的处理器401、有一个或一个以上存储介质的存储器402及存储在存储器402上并可在处理器上运行的计算机程序。其中，处理器401与存储器402电性连接。本领域技术人员可以理解，图中示出的智能眼镜结构并不构成对智能眼镜的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器401是智能眼镜400的控制中心，利用各种接口和线路连接整个智能眼镜400的各个部分，通过运行或加载存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行智能眼镜400的各种功能和处理数据，从而对智能眼镜400进行整体监控。

在本申请实施例中，智能眼镜400中的处理器401会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能：

对所述多通道时域信号进行处理，以转换为频域信号；

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

可选的，如图7所示，智能眼镜400还包括：触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407。其中，处理器401分别与触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407电性连接。本领域技术人员可以理解，图7中示出的智能眼镜结构并不构成对智能眼镜的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

触控显示屏403可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏403可以包括显示面板和触控面板。其中，显示面板可用于显示由用户输入的信息或提供给用户的信息以及智能眼镜的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的，可以采用液晶显示器（LCD，Liquid Crystal Display）、有机发光二极管（OLED，Organic Light-Emitting Diode）等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作），并生成相应的操作指令，且操作指令执行对应程序。可选的，触控面板可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器401，并能接收处理器401发来的命令并加以执行。触控面板可覆盖显示面板，当触控面板检测到在其上或附近的触摸操作后，传送给处理器401以确定触摸事件的类型，随后处理器401根据触摸事件的类型在显示面板上提供相应的视觉输出。在本申请实施例中，可以将触控面板与显示面板集成到触控显示屏403而实现输入和输出功能。但是在某些实施例中，触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏403也可以作为输入单元406的一部分实现输入功能。

在本申请实施例中，通过处理器401执行应用程序在触控显示屏403上生成图形用户界面。该触控显示屏403用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。

射频电路404可用于收发射频信号，以通过无线通信与网络设备或其他智能眼镜建立无线通讯，与网络设备或其他电子设备之间收发信号。

音频电路405可以用于通过扬声器、传声器提供用户与智能眼镜之间的音频接口。音频电路405可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路405接收后转换为音频数据，再将音频数据输出处理器401处理后，经射频电路404以发送给比如另一电子设备，或者将音频数据输出至存储器402以便进一步处理。音频电路405还可能包括耳塞插孔，以提供外设耳机与电子设备的通信。

输入单元406可用于接收输入的数字、字符信息或用户特征信息（例如指纹、虹膜、面部信息等），以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

电源407用于给智能眼镜400的各个部件供电。可选的，电源407可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源407还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管图7中未示出，智能眼镜400还可以包括摄像头、传感器、无线保真模块、蓝牙模块等，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

由上可知，本实施例提供的智能眼镜，可以获取空导麦克风阵列接收到针对多个方向的多通道时域信号，对多通道时域信号进行处理，以转换为频域信号，获取当前用户的聚焦方向并以聚焦方向确定声源搜索范围，基于频域信号在声源搜索范围内进行声源定位，以确定目标声源方向，针对目标声源方向进行自适应波束形成，以生成目标音频信号。本申请实施例通过声源定位确定目标声源的方向，从而生成更具有针对性的音频信号，可以提升音频数据的准确性，以及听障人士的沟通效率。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种音频处理方法中的步骤。例如，该计算机程序可以执行如下步骤：

对所述多通道时域信号进行处理，以转换为频域信号；

其中，该存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取记忆体（RAM，Random Access Memory）、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种音频处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种音频处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种音频处理方法、装置、存储介质及智能眼镜进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频处理方法，应用于智能眼镜，所述智能眼镜包括空导麦克风阵列，其特征在于，包括以下步骤：

对所述多通道时域信号进行处理，以转换为频域信号；

获取当前用户的聚焦方向并根据所述聚焦方向确定声源搜索范围，基于所述频域信号在所述声源搜索范围内计算麦克风阵列的角度谱函数；

遍历所述角度谱函数，若所述角度谱函数中的局部峰值数量为1，则确定所述局部峰值对应的方向为目标声源方向；

若所述局部峰值数量大于1，则将所述多个局部峰值分别对应的声源方向在所述智能眼镜上进行提示，并接收用户指令以从所述多个声源方向中确认目标声源方向；

2.如权利要求1所述的音频处理方法，其特征在于，所述智能眼镜还包括骨传导麦克风，在所述获取空导麦克风阵列接收到针对多个方向的多通道时域信号之后，所述方法还包括：

获取所述骨传导麦克风接收到的用户音频信号；

3.如权利要求1所述的音频处理方法，其特征在于，所述对所述多通道时域信号进行处理，以转换为频域信号，包括：

将所述分帧以及加窗处理后的信号进行傅里叶变换，以转换为所述频域信号。

4.如权利要求1所述的音频处理方法，其特征在于，所述获取当前用户的聚焦方向并以所述聚焦方向确定声源搜索范围，包括：

5.如权利要求1所述的音频处理方法，其特征在于，在所述生成目标音频信号之后，所述方法还包括：

对所述目标音频信号进行增强；

6.如权利要求5所述的音频处理方法，其特征在于，所述对所述目标音频信号进行增强，包括：

7.一种音频处理装置，应用于智能眼镜，所述智能眼镜包括空导麦克风阵列，其特征在于，包括：

定位模块，用于获取当前用户的聚焦方向并根据所述聚焦方向确定声源搜索范围，基于所述频域信号在所述声源搜索范围内计算麦克风阵列的角度谱函数，遍历所述角度谱函数，若所述角度谱函数中的局部峰值数量为1，则确定所述局部峰值对应的方向为目标声源方向，若所述局部峰值数量大于1，则将所述多个局部峰值分别对应的声源方向在所述智能眼镜上进行提示，并接收用户指令以从所述多个声源方向中确认目标声源方向；

8.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求1-6任一项所述的音频处理方法中的步骤。

9.一种智能眼镜，其特征在于，所述智能眼镜包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，执行如权利要求1-6任一项所述的音频处理方法中的步骤。