CN113741703A

CN113741703A - 一种非接触式智能耳机或眼镜交互方法

Info

Publication number: CN113741703A
Application number: CN202111310662.5A
Authority: CN
Inventors: 张博; 杨军红
Original assignee: Guangdong Guangdong Hong Kong Macao Dawan District Hard Science And Technology Innovation Research Institute
Current assignee: Guangdong Guangdong Hong Kong Macao Dawan District Hard Science And Technology Innovation Research Institute
Priority date: 2021-11-08
Filing date: 2021-11-08
Publication date: 2021-12-03

Abstract

一种非接触式智能耳机或眼镜交互方法，具体过程是：传感器接收通过人体组织传来的震动信号，计算单元根据智能分析算法分析判断所述震动信号是否是操作指令而执行进一步的操作或继续保持现有状态；所述传感器与所述计算单元相连接。所述传感器通过震动信号的强度及震动特征信息来判断所述震动信号是否来自头部指令区域；所述头部指令区域包括耳后区域和耳前区域；所述智能分析算法顺序包括数据预处理模块、频谱图处理模块和识别模块，还包括用于优化所述识别模块的训练模块。本发明具有私密性好、操作区域大和舒适随意的有益技术效果，是一种很有趣的、有高科技感的新的智能耳机或眼镜交互方式。

Description

一种非接触式智能耳机或眼镜交互方法

技术领域

本发明涉及智能穿戴设备，特别涉及一种非接触式智能耳机或眼镜交互方法。

背景技术

目前真无线智能耳机（TWS）或智能眼镜等智能穿戴设备人机交互存在语音、触摸和敲击等方式，语音交互方式由于需要发出语音因而缺乏私密性，同时在教室、图书馆、办公室、咖啡厅或餐厅等场所也不宜使用语音交互方式；在智能穿戴设备上的感应区面积非常有限，因而触摸和敲击方式操作上也容易发生误操作或操作不灵敏的问题，同时敲击方式的震动传导还会造成耳朵不适或疼痛。

综上所述，现有技术存在如下问题：

1.语音交互不具有私密性；

2.触摸和敲击方式的感应区域面积太小，操作不理想；

3.敲击方式的震动传导会刺激耳膜造成不适。

发明内容

本发明的目的是为无线智能耳机或智能眼镜提供一种私密性好、操作区域大和舒适随意的人机交互方法。

为了解决上述问题，本发明提出一种非接触式智能耳机或眼镜交互方法，具体过程是：传感器接收通过人体组织传导来的震动信号，计算单元根据智能分析算法分析判断所述震动信号是否是操作指令而执行进一步的操作或继续保持现有状态。所述计算单元判断所述震动信号是操作指令后进而判断其指令的内容以执行进一步的操作，所述传感器与所述计算单元相连接；所述智能分析算法顺序包括数据预处理模块、频谱图处理模块和识别模块，还包括用于优化所述识别模块的训练模块。

所述交互方法还设置有头部指令区域，所述传感器通过震动信号的强度及震动特征信息来判断所述震动信号是否来自头部指令区域。

所述震动信号产生自头部指令区域内使用操作动作敲击或者意外触碰。

所述头部指令区域包括耳后区域和耳前区域。

所述操作动作包括单次敲击、双次连击、三次连击及三次以上的多次连击，进一步地还包括单次敲击、双次连击、三次连击及三次以上的多次连击之间的组合，例如：先单次连接，停顿1-3秒后再双次连击。通过不同的操作动作或者操作动作的组合以实现不同指令的人机交互。

所述人体组织包括骨头和软组织，但震动的传导主要依靠骨传导，使用者佩戴的智能耳机或者智能眼镜中的传感器收集到从人体组织传导来的震动信号，与传感器相连接的计算单元对所述震动信号进行判断识别，如果不是指令信号就保持现有状态，如果是指令信号就执行指令信号的内容。

所述传感器包括震动传感器、加速度传感器或六轴传感器，通过所述传感器将震动信号转换成所述计算单元能识别的电信号，以进行下一步的识别。

所述计算单元设置于所述智能耳机或者智能眼镜内部或者外部；例如，所述计算单元设置于所述智能耳机的充电仓内，由于充电仓内空间和电源更加充分，从而可以具有更强大的计算能力以提供更好的识别准确度和快速的反应。

所述数据预处理模块用于将六轴传感器到的数据，通过一个低通滤波器，消除掉高频的噪声部分，只留下包括由人体运动引起的短时间脉冲。然后计算经过净化的信号的幅度（绝对值），并使用两轮移动平均值对获得的幅度序列进行平滑处理。接下来，找到平滑幅度序列的最大值Mmax和最小值Mmin。

所述频谱图处理模块首先将信号分成固定重叠的多个短段。段的长度和重叠的长度分别设置为128。然后，用汉明窗口对每个片段进行窗口化，并通过STFT计算其频谱，STFT为每个片段生成一系列复数系数。现在，沿每个轴的信号被转换成STFT矩阵，该矩阵记录了每个时间和频率的幅度和相位。

所述识别模块通过上述两步处理操作，可以将调整后的加速度频谱图图像输入到各种标准的神经网络中，例如VGG，ResNet ，Wide-ResNet和DenseNet。通常选择DenseNet作为所有识别任务的基础网络。

所述训练模块在训练阶段，使用交叉熵作为训练损失，并通过分段动量优化器优化模型权重，以学习更多可概括的特征并促进收敛，以增强震动信号判断识别的准确性和对不同使用者的通用性。

综上所述，本发明具有私密性好、操作区域大和舒适随意的有益技术效果，是一种很有趣的、有高科技感的新的智能耳机或眼镜交互方式。

附图说明

图1为本发明实施例1的工作示意图；

图2为本发明实施例1的密集块网络结构示意图；

图3为本发明实施例1整体网络结构示意图；

图4为本发明实施例3的示意图；

图中：1.耳后区域；2.耳前区域；3.智能耳机；4.智能眼镜；5.六轴传感器；6.计算单元。

具体实施方式

下面结合附图1-4和具体实施例对技术方案做进一步说明，以助于理解本发明的内容。

实施例1：

如图1所示，一种非接触式智能耳机交互方法，具体过程是：使用操作动作敲击头部的耳后区域1或耳前区域2，通过人体组织将敲击产生的震动信号传导到所述智能耳机3内的六轴传感器5，通过内置智能控制软件的计算单元6根据智能分析算法分析判断所述震动信号是否是操作指令而执行进一步的操作或继续保持现有状态。所述六轴传感器5与所述计算单元6相连接。耳机中电池等其它相关部件未在图中画出。

所述智能分析算法顺序包括数据预处理模块、频谱图处理模块和识别模块，还包括用于优化所述识别模块的训练模块。

所述数据预处理模块用于将六轴传感器到的数据，通过一个低通滤波器，消除掉高频的噪声部分，只留下包括由人体运动引起的短时间脉冲。然后计算经过净化的信号的幅度（绝对值），并使用两轮移动平均值对获得的幅度序列进行平滑处理。接下来，找到平滑幅度序列的最大值Mmax和最小值Mmin。在此过程中，第一个和最后一个100个幅度值将被丢弃，因为它们没有足够的相邻样本进行平均。所获得的最小值大约是噪声信号的大小。之后遍历平滑的幅度序列，并找到幅度大于0.8Mmin + 0.2Mmax阈值的所有区域。每个定位的区域检测敲击信号的存在。每个定位区域的起点和终点分别向前和向后移动100和200个样本。最后，将滤波后的加速度信号分段为多个短信号，每个信号对应相应的测试状态。

所述频谱图处理模块首先将信号分成固定重叠的多个短段。段的长度和重叠的长度分别设置为128。然后，用汉明窗口对每个片段进行窗口化，并通过STFT计算其频谱，STFT为每个片段生成一系列复数系数。现在，沿每个轴的信号被转换成STFT矩阵，该矩阵记录了每个时间和频率的幅度和相位。如下所示：

其中x(n)和|STFT{x（n)}(m，w)|分别表示单轴加速度信号及其对应的STFT矩阵的大小。因为沿三个轴都有加速度信号，所以每个单字信号可以获得三个频谱图。进一步将信号的三个二维频谱图转换为一个PNG格式的RGB图像。为此首先将三个m×n频谱图拟合为一个m×n×3张量。然后取张量中所有元素的平方根，并将获得的值映射到0到255之间的整数。取平方根的原因是原始二维频谱图中的大多数元素都非常接近零。将这些元素直接映射到0到255之间的整数将导致相当多的信息丢失。最后将m×n×3张量导出为PNG格式的图像。

所述识别模块通过上述两步处理操作，可以将调整后的加速度频谱图图像输入到各种标准的神经网络中，例如VGG，ResNet ，Wide-ResNet和DenseNet。通常选择DenseNet作为所有识别任务的基础网络。与VGG和ResNet等传统深度网络相比，DenseNet在每层与其之前的所有层之间引入了连接，即L层网络中总共（L + 1）L/2个连接。例如，如DenseNet中的公共方框图所示（如图2所示），第一到第四层都直接链接到第五层。换句话说，第l个将从第0层（输入图像）到第（l-1）层的特征图的级联作为输入，这可以用数学方式表示为：

H1和x1分别表示第l层的功能和特征图。 [x0，x1，…，xl-1]表示第0层到第1-1层的特征图的并置。这些直接连接使所有层都可以接收和重用其先前层中的功能，因此，DenseNet不必使用某些冗余参数或节点来维护来自先前层的信息。因此，DenseNet可以使用更少的节点（参数）来实现与VGG和ResNet相当的性能。此外，整个网络中改进的信息流和梯度流也减轻了梯度消失的趋势，并使DenseNet易于训练。根据经验发现在识别任务中DenseNet确实以更少的参数和更少的计算成本（与VGG和ResNet相比）实现了最佳的准确性。如图3展示了利用的整体网络结构，它由图2所示的多个密集块组成。

所述训练模块在训练阶段，使用交叉熵作为训练损失，并通过分段动量优化器优化模型权重，以学习更多可概括的特征并促进收敛。具体地，自适应动量优化过程首先以较大的步长（例如0.1）执行以学习可概括的特征，然后通过较小的步长进行微调以促进收敛。还将体重下降添加到训练损失中，并将辍学率设置为0.3，以增强通用性。

实施例2：

仍如图1所示，一种非接触式智能耳机交互方法，具体过程是：使用操作动作敲击头部的耳后区域1或耳前区域2，通过人体组织将敲击产生的震动信号传导到所述智能耳机3内的六轴传感器5，通过外置智能控制软件的计算单元6根据智能分析算法分析判断所述震动信号是否是操作指令而执行进一步的操作或继续保持现有状态。所述六轴传感器5与所述计算单元6相连接。耳机中电池等其它相关部件未在图中画出。

其具体工作方式和算法与实施例1相同，故不再赘述。

实施例3：

如图4所示，一种非接触式智能眼镜交互方法，具体过程是：使用操作动作敲击头部的耳后区域1或耳前区域2，通过人体组织将敲击产生的震动信号传导到所述智能眼镜4内的六轴传感器5，通过内置智能控制软件的计算单元6根据智能分析算法分析判断所述震动信号是否是操作指令而执行进一步的操作或继续保持现有状态。所述六轴传感器5与所述计算单元6相连接。智能眼镜中的电池等其它相关部件未在图中画出。

其具体工作方式和算法与实施例1相同，故不再赘述。

以上所述，只是本发明的较优实例，不能以此限定本发明的范围，凡依此发明专利申请范围及说明内容所做的简单的等效变化与修饰，皆属于本发明专利涵盖的范围。

Claims

1.一种非接触式智能耳机或眼镜交互方法，其特征在于：传感器接收通过人体组织传导来的震动信号，计算单元根据智能分析算法分析判断所述震动信号是否是操作指令而执行进一步的操作或继续保持现有状态；所述传感器与所述计算单元相连接；所述智能分析算法顺序包括数据预处理模块、频谱图处理模块和识别模块，还包括用于优化所述识别模块的训练模块。

2.如权利要求1所述的非接触式智能耳机或眼镜交互方法，其特征在于：还设置有头部指令区域，所述传感器通过震动信号的强度及震动特征信息来判断所述震动信号是否来自头部指令区域。

3.如权利要求1所述的非接触式智能耳机或眼镜交互方法，其特征在于：所述震动信号产生自使用操作动作敲击头部指令区域或者意外触碰。

4.如权利要求2所述的非接触式智能耳机或眼镜交互方法，其特征在于：所述头部指令区域包括耳后区域和耳前区域。

5.如权利要求3所述的非接触式智能耳机或眼镜交互方法，其特征在于：所述操作动作包括单次敲击、双次连击、三次连击或三次以上的多次连击。

6.如权利要求3所述的非接触式智能耳机或眼镜交互方法，其特征在于：所述操作动作包括单次敲击、双次连击、三次连击或三次以上的多次连击之间的组合。

7.如权利要求1所述的非接触式智能耳机或眼镜交互方法，其特征在于：所述传感器为震动传感器、加速度传感器或六轴传感器。

8.如权利要求1所述的非接触式智能耳机或眼镜交互方法，其特征在于：所述计算单元设置于所述智能耳机或者智能眼镜的内部或者外部。

9.如权利要求1所述的非接触式智能耳机或眼镜交互方法，其特征在于：所述计算单元内置具有所述智能分析算法的智能控制软件。