CN115662436B

CN115662436B - 音频处理方法、装置、存储介质及智能眼镜

Info

Publication number: CN115662436B
Application number: CN202211417476.6A
Authority: CN
Inventors: 李逸洋; 张新科; 崔潇潇; 鲁勇
Original assignee: Beijing Intengine Technology Co Ltd
Current assignee: Beijing Intengine Technology Co Ltd
Priority date: 2022-11-14
Filing date: 2022-11-14
Publication date: 2023-04-14
Anticipated expiration: 2042-11-14
Also published as: CN115662436A

Abstract

本申请实施例公开了一种音频处理方法、装置、存储介质及智能眼镜。该方法包括：通过空导麦克风接收第一语音信号，对第一语音信号进行关键字检测，通过骨传导麦克风接收第二语音信号，对第二语音信号进行声纹检测，根据关键字检测结果或声纹检测结果开启智能眼镜的文字转换模式，通过空导麦克风获取针对目标声源方向的音频信号，并将音频信号转换为文字信息，以显示至智能眼镜上。本申请实施例可以分别根据空导麦克风和骨传导麦克以不同的方式自动开启文字转换模式，并将语音转换为文字在智能眼镜上进行显示，提升了语音转换的效率以及准确性。

Description

音频处理方法、装置、存储介质及智能眼镜

技术领域

本申请涉及数据处理技术领域，具体涉及一种音频处理方法、装置、存储介质及智能眼镜。

背景技术

当前，我国听障人群规模已达到近三千万，大多数听障人士需要借助助听器才能与健全人进行一定程度的交流。然而，对于听障人士的不同情况，助听器的效果无法得到保障，许多听障人士使用助听器的效果并不理想，并且长时间佩戴助听器还有可能引发耳部疾病。随着科技进步和社会发展，可穿戴设备逐渐走入人们的日常生活，智能眼镜为用户的生活带来了便利，也为听障人士提供一种与健全人交流的工具。现有通过智能眼镜辅助听障人士交流的方案主要集中在语音识别、脑电波识别和手语识别等。

申请人发现，在现有技术中，脑电波识别方案通过智能眼镜上的脑电波接收器获取并处理用户的脑电波信号，将脑电波信号转换为图文信息显示在眼镜外侧供健全人与用户交流，但实现较复杂；手语识别方案通过智能眼镜上的雷达或摄像头，将健全人的手语信息转换为语音或文字，通过播放或近眼显示供用户与健全人交流，但并不是所有健全人都会使用手语，手语识别方案也较难普及；而语音识别方案则存在转换效率低以及在噪声环境下识别准确率不高、用户体验不佳等问题。

发明内容

本申请实施例提供一种音频处理方法、装置、存储介质及智能眼镜，可以自动开启智能眼镜的文字转换模式，并且将语音转换为文字进行显示，提升了语音转换的效率以及准确性。

本申请实施例提供了一种音频处理方法，应用于智能眼镜，所述智能眼镜包括空导麦克风和骨传导麦克风，包括以下步骤：

若所述空导麦克风接收到第一语音信号，则对所述第一语音信号进行关键字检测；

若所述骨传导麦克风接收到第二语音信号，则对所述第二语音信号进行声纹检测；

根据关键字检测结果或声纹检测结果开启所述智能眼镜的文字转换模式；

通过所述空导麦克风获取针对目标声源方向的音频信号，并将所述音频信号转换为文字信息，以显示至所述智能眼镜上。

在一实施例中，所述对所述第一语音信号进行关键字检测，包括：

判断所述第一语音信号中是否包含与用户标识对应的音频信号相似度超过预设相似度的音频段；

若存在，则确认所述第一语音信号中包含所述关键字。

在一实施例中，所述对所述第二语音信号进行声纹检测，包括：

计算所述第二语音信号的强度值；

当所述强度值超过预设强度值时，提取所述第二语音信号的声纹信息并判断是否与预先存储的用户声纹相同；

若相同，则确认所述第二语音信号为注册用户所产生。

在一实施例中，所述根据关键字检测结果或声纹检测结果开启所述智能眼镜的文字转换模式，包括：

若确认所述第一语音信号中包含所述关键字，则在所述智能眼镜上显示被叫提示方式并开启所述智能眼镜的文字转换模式；

若确认所述第二语音信号为注册用户所产生，则在所述智能眼镜上显示主叫提示方式并开启所述智能眼镜的文字转换模式。

在一实施例中，所述通过所述空导麦克风获取针对目标声源方向的音频信号，包括：

确定当前用户的聚焦方向；

在所述聚焦方向的邻域范围内进行声源定位，以确定目标声源方向；

通过所述空导麦克风获取针对目标声源方向的音频信号。

在一实施例中，所述在所述聚焦方向的邻域范围内进行声源定位，以确定目标声源方向，包括：

通过预设方法在所述聚焦方向的邻域范围内进行声源定位；

获取在所述邻域范围内进行声源定位时的局部峰值数量；

若所述局部峰值数量为1，则确定所述局部峰值对应的方向为所述目标声源方向；

若所述局部峰值数量大于1，则将所述多个局部峰值分别对应的声源方向在所述智能眼镜上进行提示，并接收用户指令以从所述多个声源方向中确认目标声源方向。

通过所述空导麦克风获取针对所述目标声源方向进行自适应波束形成得到的初始音频信号；

获取所述骨传导麦克风在所述初始音频信号的起止时间段内检测到的第二音频信号；

根据所述第二音频信号对所述初始音频信号进行降噪处理，以消除所述当前用户自身发出的音频成分。

本申请实施例还提供一种音频处理装置，应用于智能眼镜，所述智能眼镜包括空导麦克风和骨传导麦克风，包括：

第一检测模块，用于当所述空导麦克风接收到第一语音信号时，对所述第一语音信号进行关键字检测；

第二检测模块，用于当所述骨传导麦克风接收到第二语音信号时，对所述第二语音信号进行声纹检测；

开启模块，用于根据关键字检测结果或声纹检测结果开启所述智能眼镜的文字转换模式；

转换模块，用于通过所述空导麦克风获取针对目标声源方向的音频信号，并将所述音频信号转换为文字信息，以显示至所述智能眼镜上。

本申请实施例还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如上任一实施例所述的音频处理方法中的步骤。

本申请实施例还提供一种智能眼镜，所述智能眼镜包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，执行如上任一实施例所述的音频处理方法中的步骤。

本申请实施例提供的音频处理方法、装置、存储介质及智能眼镜，可以通过空导麦克风接收第一语音信号，对第一语音信号进行关键字检测，通过骨传导麦克风接收第二语音信号，对第二语音信号进行声纹检测，根据关键字检测结果或声纹检测结果开启智能眼镜的文字转换模式，通过空导麦克风获取针对目标声源方向的音频信号，并将音频信号转换为文字信息，以显示至智能眼镜上。本申请实施例可以分别根据空导麦克风和骨传导麦克以不同的方式自动开启文字转换模式，并将语音转换为文字在智能眼镜上进行显示，提升了语音转换的效率以及准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的音频处理装置的一种系统示意图。

图2为本申请实施例提供的音频处理方法的一种流程示意图。

图3为本申请实施例提供的音频处理方法的另一种流程示意图。

图4为本申请实施例提供的音频处理装置的一种结构示意图。

图5为本申请实施例提供的音频处理装置的另一结构示意图。

图6为本申请实施例提供的智能眼镜的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种音频处理方法、装置、存储介质及智能眼镜。具体地，本申请实施例的音频处理方法可以由电子设备执行，其中，该电子设备可以为智能眼镜，且该智能眼镜中包含空导麦克风和骨传导麦克风，上述空导麦克风用于获取其他人的语音信号，而骨传导麦克风则只能够获取当前使用智能眼镜的用户本人所发出的语音信号。

例如，当该音频处理方法运行于智能眼镜上时，对空导麦克风和骨传导麦克风进行监测，若空导麦克风接收到第一语音信号，则对第一语音信号进行关键字检测，若骨传导麦克风接收到第二语音信号，则对第二语音信号进行声纹检测，根据关键字检测结果或声纹检测结果开启智能眼镜的文字转换模式，通过空导麦克风获取针对目标声源方向的音频信号，并将音频信号转换为文字信息，以显示至智能眼镜上。其中智能眼镜可以通过图形用户界面显示文字信息以及与用户进行交互。该智能眼镜将图形用户界面提供给用户的方式可以包括多种，例如，可以渲染显示在智能眼镜镜片上的显示屏上，或者，通过全息投影在在智能眼镜镜片上以呈现图形用户界面。例如，智能眼镜可以包括显示屏和处理器，该显示屏用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。

请参阅图1，图1为本申请实施例提供的音频处理装置的系统示意图。该系统可以包括智能眼镜1000，至少一个服务器或个人电脑2000。用户持有的智能眼镜1000可以通过网络连接到服务器或个人电脑。智能眼镜1000可以是具有计算硬件的终端设备，该计算硬件能够支持和执行与多媒体对应的软件产品，例如能够支持语音识别以及文字转换。另外，智能眼镜1000还可以具有用于显示文字的显示屏或投影装置。另外，智能眼镜1000可以通过网络与服务器或个人电脑2000相互连接。网络可以是无线网络或者有线网络，比如无线网络为无线局域网(WLAN)、局域网(LAN)、蜂窝网络、2G网络、3G网络、4G网络、5G网络等。另外，不同的智能眼镜1000之间也可以使用自身的蓝牙网络或者热点网络连接到其他智能眼镜或者连接到服务器以及个人电脑等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例提供了一种音频处理方法，该方法可以由智能眼镜或服务器执行。本申请实施例以音频处理方法由智能眼镜执行为例来进行说明。其中，该智能眼镜包括显示屏和处理器，该处理器被配置为通过空导麦克风接收第一语音信号，对第一语音信号进行关键字检测，通过骨传导麦克风接收第二语音信号，对第二语音信号进行声纹检测，根据关键字检测结果或声纹检测结果开启智能眼镜的文字转换模式，通过空导麦克风获取针对目标声源方向的音频信号，并将音频信号转换为文字信息，以显示至智能眼镜上。

请参阅图2，该方法的具体流程可以如下：

步骤101，若空导麦克风接收到第一语音信号，则对第一语音信号进行关键字检测。

在本申请实施例中，智能眼镜的麦克风可以包括两种，分别是空导麦克风阵列和骨传导麦克风，其中空导麦克风阵列是用来接收来自外界环境通过空气传导而来的信号，比如环境声以及其他人的说话声等。空导麦克风阵列的麦克风通道数至少为两个，且阵列构型和麦克风间距均已知，可以是线阵、面阵等规则阵列，也可以是不规则阵列。

在一实施例中，开启上述空导麦克风阵列中的全部麦克风，接收来自于各个方向的语音信号，以得到第一语音信号，然后可以进一步检测该第一语音信号当中是否包含关键字。上述关键字可以为当前佩戴智能眼镜的用户预先设置的，比如可以为用户的名字、或者诸如“你好”、“hello”等常见的打招呼用语等等。

具体的，上述关键字检测的过程具体可以包括：先对第一语音信号进行预处理，该预处理可以包括采样、量化、分帧加窗、预加重等处理，然后对经过预处理后的语音信号进行特征提取，并判断提取到的特征参数中是否存在上述关键字所对应的特征参数，若存在，则确定第一语音信号包含关键字。其中，上述特征参数可以包括谱特征、韵律特征、音素特征等中的至少一种。在其他实施例中，还可以通过基于模糊理论的关键字识算法来进行关键字检测。

步骤102，若骨传导麦克风接收到第二语音信号，则对第二语音信号进行声纹检测。

在本申请实施例中，骨传导麦克风是用来监测和接收来自佩戴智能眼镜的用户自身通过骨传导而来的信号，比如用户自身的说话声，麦克风通道数至少为一个。当通过骨传导麦克风接收到第二语音信号时，可以进一步对第二语音信号进行声纹检测，以判断是否与当前用户所对应的声纹特征相同，从而确定该第二语音信号是否由当前用户所发出。

在一实施例中，智能眼镜中可以预先存储当前用户的标准语音，当通过骨传导麦克风获取到第二语音信号后，通过与标准语音的声纹对比，例如，进行相似度计算，确认当前是否为用户本人，可以有效防止误操作。如果声纹检测验证通过，确认是用户本人，则继续执行步骤S103。

在一实施例中，上述第二语音信号是利用骨传导麦克风采集得到的，但是第二语音信号中可能存在环境噪声。如果不采取降噪的手段，直接利用第二语音信号进行声纹检测，有可能影响判断结果，使判断结果的准确性降低。因此本申请实施例还可以采用软件滤波降噪的步骤，利用软件滤波降噪处理第二语音信号后得到降噪语音数据。随后，将降噪语音数据中高于预设振幅范围的音频数据去除，只保留降噪语音数据中的预设振幅范围内的音频数据，然后再进一步进行声纹检测。

例如，设定采集的第二语音信号的格式为pcm16，但是在采集时有可能采集到大于预设振幅范围的音频数据，这样就有可能影响最终声纹检测的结果。所以本申请实施例将预设振幅范围内的音频数据保留，这样可以进一步对第二语音信号进行降噪，提升声纹检测的准确性。

步骤103，根据关键字检测结果或声纹检测结果开启智能眼镜的文字转换模式。

在一实施例中，上述智能眼镜的文字转换模式可以在满足触发条件时自动开启，比如当确认空导麦克风接收到的第一语音信号中包含预设关键字或骨传导麦克风接收到第二语音信号的声纹特征与当前用户一致，自动开启智能眼镜的文字转换模式。

举例来说，当他人想与当前用户进行交流时，会叫到用户提前设定好的关键词，该关键词可以设定为用户的名字或昵称，则智能眼镜通过麦克风阵列接收到的信号，识别到该关键词后自动开启文字转换模式。当用户想与他人进行交流时，开口说话时发出的语音信号就会被骨传导麦克风接收到，在确定该语音信号声纹特征与当前用户的注册声纹特征一致时，智能眼镜就可以自动开启文字转换模式辅助用户与他人进行交流。

在另一实施例中，上述智能眼镜的文字转换模式还可以通过用户操作来手动开启，比如用户通过点击智能眼镜上的按键或通过预设手势进行开启。

步骤104，通过空导麦克风获取针对目标声源方向的音频信号，并将音频信号转换为文字信息，以显示至智能眼镜上。

在一实施例中，当智能眼镜开启文字转换模式之后，可以通过眼球追踪技术确定当前用户视线的聚焦方向，该聚焦方向作为先验信息，由于眼睛本身存在固有的眨动及抖动，在交流中用户或交互对象也有可能走动，因此上述用户视线的聚焦方向并不精确，若直接以该聚焦方向进行自适应波束形成，会由于定位不准确导致后续的语音增强性能较差以及语音识别结果不准确，影响用户体验。另一方面，若没有用户视线聚焦方向的先验信息，则空导麦克风阵列就需要在全空域搜索定位，运算复杂度非常高，搜索间隔也不能划分过细，声源定位的准确程度仍然不高，同样会影响波束形成的语音增强性能。因此在本实施例中，在通过眼球追踪等技术得到用户视线的聚焦方向这一先验信息后，便可以以该先验信息为中心划定一定邻域范围的搜索区间，并在该区间内进一步进行声源定位，以确定最终的目标声源以及目标声源方向。

在确定目标声源方向之后，就可以通过空导麦克风获取针对目标声源方向的音频信号，上述音频信号可以为一个单通道频域信号，将该单通道频域信号进行特征提取，并将提取到的特征参数输入至预先训练好的识别网络以得到识别结果，之中再将识别结果显示在智能眼镜镜片中的显示屏当中或者直接通过投影的方式投影在智能眼镜的镜片上。

其中，上述提取特征指的是从音频信号中提取一组能够描述音频信号或数据特征的参数以便进行语音识别，识别网络指的是通过使用增广后的语音训练得到的多级神经网络，并通过解码器识别到文字、意图等信息。比如，可以对得到的单通道频域信号的功率谱提取Fbank（Filter bank，滤波器组）特征参数，然后将特征参数送入预先训练好的识别网络中进行语音识别得到识别结果，最后将识别结果也即对应的文字信息显示在智能眼镜镜片上辅助用户进行交流。

由上可知，本申请实施例提供的音频处理方法可以通过空导麦克风接收第一语音信号，对第一语音信号进行关键字检测，通过骨传导麦克风接收第二语音信号，对第二语音信号进行声纹检测，根据关键字检测结果或声纹检测结果开启智能眼镜的文字转换模式，通过空导麦克风获取针对目标声源方向的音频信号，并将音频信号转换为文字信息，以显示至智能眼镜上。本申请实施例可以分别根据空导麦克风和骨传导麦克以不同的方式自动开启文字转换模式，并将语音转换为文字在智能眼镜上进行显示，提升了语音转换的效率以及准确性。

请参阅图3，为本申请实施例提供的音频处理方法的另一流程示意图。该方法的具体流程可以如下：

步骤201，通过空导麦克风接收第一语音信号，对第一语音信号进行关键字检测。

在一实施例中，开启空导麦克风阵列中的全部麦克风，接收来自于各个方向的语音信号，以得到第一语音信号，然后可以进一步检测该第一语音信号当中是否包含关键字，具体可以判断第一语音信号中是否包含与用户标识对应的音频信号相似度超过预设相似度的音频段，若存在，则确认第一语音信号中包含关键字。上述用户标识可以为预先设置的当前用户的名字或昵称等。

步骤202，通过骨传导麦克风接收第二语音信号，对第二语音信号进行声纹检测。

在一实施例中，当通过骨传导麦克风接收到第二语音信号时，可以进一步对第二语音信号进行声纹检测，以判断是否与当前用户所对应的声纹特征相同，从而确定该第二语音信号是否由当前用户所发出。考虑到在用户未说话时，骨传导麦克风还可能接收到用户自身发出的其他噪声，因此还可以在检测到的语音信号强度比较高时，再进一步进行声纹检测。也即对第二语音信号进行声纹检测的步骤可以包括：计算第二语音信号的强度值，当强度值超过预设强度值时，提取第二语音信号的声纹信息并判断是否与预先存储的用户声纹相同，若相同，则确认第二语音信号为注册用户所产生。

步骤203，若确认第一语音信号中包含关键字，则在智能眼镜上显示被叫提示方式并开启智能眼镜的文字转换模式。

步骤204，若确认第二语音信号为注册用户所产生，则在智能眼镜上显示主叫提示方式并开启智能眼镜的文字转换模式。

举例来说，当他人想与当前用户进行交流时，会叫到用户提前设定好的关键词，该关键词可以设定为用户的名字或昵称，则智能眼镜通过麦克风阵列接收到的信号，识别到该关键词后通过近眼显示等方式在智能眼镜镜片上给出用户“被叫提示”，并自动开启文字转换模式。当用户想与他人进行交流时，开口说话时发出的语音信号就会被骨传导麦克风接收到，在确定该语音信号声纹特征与当前用户的注册声纹特征一致时，智能眼镜就可以通过近眼显示等方式在智能眼镜镜片上给出用户“主叫提示”，并自动开启文字转换模式辅助用户与他人进行交流。

在一实施例中，智能眼镜工作在文字转换模式时，主要对麦克风阵列的接收信号，即正在与用户交互的对象，进行语音增强和语音识别来辅助用户交流，骨传导麦克风则通过监测和接收用户发声来判断交流是否进行并对麦克风阵列的接收信号进行预处理，若在一定时间内用户不发声且声源定位不满足门限时，则智能眼镜可以退出文字转换模式。

步骤205，确定当前用户的聚焦方向，在聚焦方向的邻域范围内进行声源定位，以确定目标声源方向。

在一实施例中，可以通过智能眼镜上的摄像头对当前用户的眼部进行拍摄，以得到眼部图像，然后基于图像中的眼球特征信息确定当前用户的聚焦方向。具体可以通过眼球和眼球周边的特征变化进行跟踪，或根据虹膜角度变化来进行跟踪，再或者主动投射红外线等光束到虹膜来提取特征，然后根据该特征来进行跟踪。本实施例对此不作进一步限定。

在一实施例中，在进行上述声源定位时，可通过空导麦克风阵列进行，其中该空导麦克风阵列包含多个麦克风并按照规则排列组成。多个麦克风同步采集声音信号，利用多个麦克风之间的信号相位差，从而求得声源信号的发出位置。

在另一实施例中，还可以通过预设方法在聚焦方向的邻域范围内进行声源定位，其中，预设方法包括互相关或超分辨算法，也包括以卷积神经网络或循环神经网络等结构实现的深度学习算法等。进一步的在声源定位过程中可以获取在邻域范围内进行声源定位时的局部峰值数量，若局部峰值数量为1，则确定局部峰值对应的方向为目标声源方向；若局部峰值数量大于1，则将多个局部峰值分别对应的声源方向在智能眼镜上进行提示，并接收用户指令以从多个声源方向中确认目标声源方向。

举例来说，若当前用户对面有多个说话人，在根据目标聚焦方向的邻域范围内划定搜索区间后仍有极大概率在该区间内搜索到多个局部峰值，则智能眼镜可以通过近眼显示等方式提示用户有多个声源并由用户指定任一声源，在用户确认声源方向后，便可以确定为目标声源方向，并定向增强该说话人的语音辅助用户进行交流。

步骤206，通过空导麦克风获取针对目标声源方向的音频信号。

在一实施例中，由于用户在与他人交流时，空导麦克风阵列的接收信号主要接收来自交流对象的信号，但仍会接收到用户自身的信号，而骨传导麦克风的接收信号绝大部分为用户自身信号，因此利用骨传导麦克风的接收信号对空导麦克风阵列的接收信号进行降噪处理，可以消除麦克风阵列接收信号中当前用户自身发出的音频成分，可以提升后续语音识别及转换的准确性

具体的，通过空导麦克风获取针对目标声源方向的音频信号的步骤可以包括：通过空导麦克风获取针对目标声源方向进行自适应波束形成得到的初始音频信号，获取骨传导麦克风在初始音频信号的起止时间段内检测到的第二音频信号，根据第二音频信号对初始音频信号进行降噪处理，以消除当前用户自身发出的音频成分。

步骤207，将音频信号转换为文字信息，以显示至智能眼镜上。

在一实施例中，该音频信号可以为一个单通道频域信号，将该单通道频域信号进行特征提取，并将提取到的特征参数输入至预先训练好的识别网络以得到识别结果，之中再将识别结果显示在智能眼镜镜片中的显示屏当中或者直接通过投影的方式投影在智能眼镜的镜片上。

上述所有的技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

由上可知，本申请实施例提供的音频处理方法可以通过空导麦克风接收第一语音信号，对第一语音信号进行关键字检测，通过骨传导麦克风接收第二语音信号，对第二语音信号进行声纹检测，若确认第一语音信号中包含关键字，则在智能眼镜上显示被叫提示方式并开启智能眼镜的文字转换模式，若确认第二语音信号为注册用户所产生，则在智能眼镜上显示主叫提示方式并开启智能眼镜的文字转换模式，确定当前用户的聚焦方向，在聚焦方向的邻域范围内进行声源定位，以确定目标声源方向，通过空导麦克风获取针对目标声源方向的音频信号，将音频信号转换为文字信息，以显示至智能眼镜上。本申请实施例可以分别根据空导麦克风和骨传导麦克以不同的方式自动开启文字转换模式，并将语音转换为文字在智能眼镜上进行显示，提升了语音转换的效率以及准确性。

为便于更好的实施本申请实施例的音频处理方法，本申请实施例还提供一种音频处理装置。请参阅图4，图4为本申请实施例提供的音频处理装置的一种结构示意图。该音频处理装置可以包括：

第一检测模块301，用于当所述空导麦克风接收到第一语音信号时，对所述第一语音信号进行关键字检测；

第二检测模块302，用于当所述骨传导麦克风接收到第二语音信号时，对所述第二语音信号进行声纹检测；

开启模块303，用于根据关键字检测结果或声纹检测结果开启所述智能眼镜的文字转换模式；

转换模块304，用于通过所述空导麦克风获取针对目标声源方向的音频信号，并将所述音频信号转换为文字信息，以显示至所述智能眼镜上。

在一实施例中，请进一步参阅图5，图5为本申请实施例提供的音频处理装置的另一种结构示意图。其中，第一检测模块301可以包括：

第一判断子模块3011，用于判断所述第一语音信号中是否包含与用户标识对应的音频信号相似度超过预设相似度的音频段；

第一确定子模块3012，用于当所述第一判断子模块3011判断为是时，确认所述第一语音信号中包含所述关键字。

在一实施例中，第二检测模块302可以包括：

计算子模块3021，用于计算所述第二语音信号的强度值；

第二判断子模块3022，用于当所述强度值超过预设强度值时，提取所述第二语音信号的声纹信息并判断是否与预先存储的用户声纹相同；

第二确定子模块3023，用于当第二判断子模块3022判断为是时，确认所述第二语音信号为注册用户所产生。

由上可知，本申请实施例提供的音频处理装置，通过第一检测模块301在空导麦克风接收第一语音信号时，对第一语音信号进行关键字检测，通过第二检测模块302在骨传导麦克风接收第二语音信号时，对第二语音信号进行声纹检测，开启模块303根据关键字检测结果或声纹检测结果开启智能眼镜的文字转换模式，转换模块304通过空导麦克风获取针对目标声源方向的音频信号，并将音频信号转换为文字信息，以显示至智能眼镜上。本申请实施例可以分别根据空导麦克风和骨传导麦克以不同的方式自动开启文字转换模式，并将语音转换为文字在智能眼镜上进行显示，提升了语音转换的效率以及准确性。

相应的，本申请实施例还提供一种智能眼镜，该智能眼镜可以为终端或者服务器，该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机（PC，Personal Computer）、个人数字助理(Personal Digital Assistant，PDA)等终端设备。如图6所示，图6为本申请实施例提供的智能眼镜的结构示意图。该智能眼镜400包括有一个或者一个以上处理核心的处理器401、有一个或一个以上存储介质的存储器402及存储在存储器402上并可在处理器上运行的计算机程序。其中，处理器401与存储器402电性连接。本领域技术人员可以理解，图中示出的智能眼镜结构并不构成对智能眼镜的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器401是智能眼镜400的控制中心，利用各种接口和线路连接整个智能眼镜400的各个部分，通过运行或加载存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行智能眼镜400的各种功能和处理数据，从而对智能眼镜400进行整体监控。

在本申请实施例中，智能眼镜400中的处理器401会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

可选的，如图6所示，智能眼镜400还包括：触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407。其中，处理器401分别与触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407电性连接。本领域技术人员可以理解，图6中示出的智能眼镜结构并不构成对智能眼镜的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

触控显示屏403可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏403可以包括显示面板和触控面板。其中，显示面板可用于显示由用户输入的信息或提供给用户的信息以及智能眼镜的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的，可以采用液晶显示器（LCD，Liquid Crystal Display）、有机发光二极管（OLED，Organic Light-Emitting Diode）等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作），并生成相应的操作指令，且操作指令执行对应程序。可选的，触控面板可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器401，并能接收处理器401发来的命令并加以执行。触控面板可覆盖显示面板，当触控面板检测到在其上或附近的触摸操作后，传送给处理器401以确定触摸事件的类型，随后处理器401根据触摸事件的类型在显示面板上提供相应的视觉输出。在本申请实施例中，可以将触控面板与显示面板集成到触控显示屏403而实现输入和输出功能。但是在某些实施例中，触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏403也可以作为输入单元406的一部分实现输入功能。

在本申请实施例中，通过处理器401执行应用程序在触控显示屏403上生成图形用户界面。该触控显示屏403用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。

射频电路404可用于收发射频信号，以通过无线通信与网络设备或其他智能眼镜建立无线通讯，与网络设备或其他电子设备之间收发信号。

音频电路405可以用于通过扬声器、传声器提供用户与智能眼镜之间的音频接口。音频电路405可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路405接收后转换为音频数据，再将音频数据输出处理器401处理后，经射频电路404以发送给比如另一电子设备，或者将音频数据输出至存储器402以便进一步处理。音频电路405还可能包括耳塞插孔，以提供外设耳机与电子设备的通信。

输入单元406可用于接收输入的数字、字符信息或用户特征信息（例如指纹、虹膜、面部信息等），以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

电源407用于给智能眼镜400的各个部件供电。可选的，电源407可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源407还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管图6中未示出，智能眼镜400还可以包括摄像头、传感器、无线保真模块、蓝牙模块等，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

由上可知，本实施例提供的智能眼镜可以通过空导麦克风接收第一语音信号，对第一语音信号进行关键字检测，通过骨传导麦克风接收第二语音信号，对第二语音信号进行声纹检测，根据关键字检测结果或声纹检测结果开启智能眼镜的文字转换模式，通过空导麦克风获取针对目标声源方向的音频信号，并将音频信号转换为文字信息，以显示至智能眼镜上。本申请实施例可以分别根据空导麦克风和骨传导麦克以不同的方式自动开启文字转换模式，并将语音转换为文字在智能眼镜上进行显示，提升了语音转换的效率以及准确性。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种音频处理方法中的步骤。例如，该计算机程序可以执行如下步骤：

其中，该存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取记忆体（RAM，Random Access Memory）、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种音频处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种音频处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种音频处理方法、装置、存储介质及智能眼镜进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频处理方法，应用于智能眼镜，所述智能眼镜包括空导麦克风和骨传导麦克风，其特征在于，包括以下步骤：

根据关键字检测结果和声纹检测结果中的至少一种检测结果开启所述智能眼镜的文字转换模式；

通过预设方法进行声源定位，获取进行声源定位时的局部峰值数量，若所述局部峰值数量为1，则确定所述局部峰值对应的方向为目标声源方向，若所述局部峰值数量大于1，则将所述多个局部峰值分别对应的声源方向在所述智能眼镜上进行提示，并接收用户指令以从所述多个声源方向中确认目标声源方向；

2.如权利要求1所述的音频处理方法，其特征在于，所述对所述第一语音信号进行关键字检测，包括：

若存在，则确认所述第一语音信号中包含所述关键字。

3.如权利要求1所述的音频处理方法，其特征在于，所述对所述第二语音信号进行声纹检测，包括：

计算所述第二语音信号的强度值；

若相同，则确认所述第二语音信号为注册用户所产生。

4.如权利要求2或3所述的音频处理方法，其特征在于，所述根据关键字检测结果或声纹检测结果开启所述智能眼镜的文字转换模式，包括：

5.如权利要求1所述的音频处理方法，其特征在于，所述通过预设方法进行声源定位，包括：

确定当前用户的聚焦方向；

在所述聚焦方向的邻域范围内进行声源定位。

6.如权利要求1所述的音频处理方法，其特征在于，所述通过所述空导麦克风获取针对目标声源方向的音频信号，包括：

根据所述第二音频信号对所述初始音频信号进行降噪处理，以消除当前用户自身发出的音频成分。

7.一种音频处理装置，应用于智能眼镜，所述智能眼镜包括空导麦克风和骨传导麦克风，其特征在于，包括：

开启模块，用于根据关键字检测结果和声纹检测结果中的至少一种检测结果开启所述智能眼镜的文字转换模式；

转换模块，用于通过预设方法进行声源定位，获取进行声源定位时的局部峰值数量，若所述局部峰值数量为1，则确定所述局部峰值对应的方向为目标声源方向，若所述局部峰值数量大于1，则将所述多个局部峰值分别对应的声源方向在所述智能眼镜上进行提示，并接收用户指令以从所述多个声源方向中确认目标声源方向，通过所述空导麦克风获取针对目标声源方向的音频信号，并将所述音频信号转换为文字信息，以显示至所述智能眼镜上。

8.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求1-6任一项所述的音频处理方法中的步骤。

9.一种智能眼镜，其特征在于，所述智能眼镜包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，执行如权利要求1-6任一项所述的音频处理方法中的步骤。