CN117908678B

CN117908678B - 一种耳机及其充电盒显示屏的手势识别控制系统

Info

Publication number: CN117908678B
Application number: CN202410083533.4A
Authority: CN
Inventors: 刘梓荧; 徐伟军; 梁楚琪
Original assignee: Guangzhou Weiqi Communication Technology Co ltd
Current assignee: Guangzhou Weiqi Communication Technology Co ltd
Priority date: 2024-01-19
Filing date: 2024-01-19
Publication date: 2024-07-16
Anticipated expiration: 2044-01-19
Also published as: CN117908678A

Abstract

本发明涉及一种耳机及其充电盒显示屏的手势识别控制系统，属于耳机充电领域，所述系统包括：智能识别机构，用于采用AI智能模型智能识别距离标识、完整标识以及手势动作控制类型；动态控制机构，用于在距离标识标志前景子画面中的最近人体手部较近且完整标识标志前景子画面中的最近人体手部完整时，基于手势动作控制类型执行对耳机充电盒的充电控制。通过本发明，针对现有技术中满足多样性控制需求的控制模式过于繁琐的技术问题，引用定制结构设计的单一检测模型替换包括多项不同类型识别操作的繁琐的多向分析模式，完成对实时场景中的基于手势识别结果的动态充电控制，从而降低了识别控制模式的复杂度，提升了识别控制模式的智能化水准。

Description

一种耳机及其充电盒显示屏的手势识别控制系统

技术领域

本发明涉及耳机充电领域，尤其涉及一种耳机及其充电盒显示屏的手势识别控制系统。

背景技术

耳机充电盒是一种可以方便无线耳机用户充电的产品，他可以让用户的耳机一直保持一个最佳状态，是一种方便设计，可以在家里或外出使用。耳机充电盒中常用的有各种接口，可以根据耳机的不同类型来设置，这种设计显示出保护耳机的目的，使其充电时不受外界的影响。耳机充电盒能够节省空间，让用户的空间更有条理，使用方便，容易充电，非常轻巧，手持舒适，可以携带出门，时刻准备着接受充电，并且还具有智能保护功能，能够实现安全快速充电，避免充电过热和过充，可以预防电路损坏，延长耳机使用寿命。

示例地，中国实用新型专利公开文本CN211209901U提出了一种手势开盖的TWS耳机充电盒，所述耳机充电盒包括上盖、下盖、弹片、活动铁质扣位、接近传感器LED和电磁铁，所述下盖的内部底端设置有PCBA板，所述PCBA板的上端设置有电池，所述下盖的上端设置有上盖，所述上盖与下盖连接处设置有转轴，所述上盖与下盖连接处的转轴侧边设置有弹片，本实用新型通过手指往上滑动，接近传感器LED，三颗LED先后接收到信号后给PCBA板进行处理识别为开盖信号时，PCBA板的一个IO口输出0.5秒时长的使能信号产生12V电压驱动电磁铁产生磁吸力，将活动铁质扣位往右移动，活动铁质扣位与上盖卡扣脱离后在弹片的作用下迅速开盖动作，带来智能开盖的新体验，方便使用。

示例地，中国实用新型专利公开文本CN217388978U提出了一种手势开盖的TWS耳机充电盒，所述耳机充电盒包括盖子、盒子，所述盒子的内部安装有姿态传感器，所述姿态传感器的信号输出端上连接有信号线一，所述信号线一的一端连接有NPU，所述NPU的信号输出端上连接有信号线二，所述信号线二的一端连接有CPU，所述CPU的信号输出端上连接有信号线三，所述信号线三的一端连接有定子，定子的一侧外壁安装在盒子的内部，所述定子的内部设置有转子，所述转子的外部安装有转动杆，通过设置姿态传感器、信号线一、NPU、信号线二、CPU、信号线三、定子、转子、转动杆、滑动块、绳子，通过姿态传感器对使用者的手势进行感应，然后即可根据手势对盖子进行开启或关闭，简单便捷易于操作。

显然，上述现有技术中的耳机充电盒的手势识别控制主要表现在对充电盒的盖子进行基于手势识别的开关控制，这种简单的控制模式无法满足人们对耳机充电盒的多样性控制需求。然而这种多样性控制的实施必然需要对人体手势进行更精细、繁琐的多向识别处理，以基于多向识别处理分别对应的多种识别结果协同执行对耳机充电盒的多样性控制，导致耳机充电盒的基于手势识别的控制机制运算量较大且控制模式复杂，进而带来软件和硬件的复杂化。

发明内容

为了解决现有技术中的技术问题，本发明提供了一种耳机及其充电盒显示屏的手势识别控制系统，能够采用定制结构设计的AI智能模型这一单一检测模型即可完成针对带有显示屏的耳机充电盒充电控制策略的手势识别以及相应的动态充电控制，从而不需要对实时场景进行包括最近人体手部的检测、最近人体手部的实时距离检测、最近人体手部的完整检测以及最近人体手部对应的手势动作识别等多项不同类型识别操作的繁琐的多向分析，以简单的识别模式以及少量的软硬件资源实现耳机充电盒显示屏的前端的实时场景中用于控制耳机充电策略的手势动作的智能识别和多样性控制。

具体地，在实时场景中的最近人体手部较近且完整的情况下，方判定手势动作有效，进而采用手势动作对应的控制类型执行对耳机充电盒的相应充电控制策略。

本发明的关键点在于：不需要进行包括最近人体手部的检测、最近人体手部的实时距离检测、最近人体手部的完整检测以及最近人体手部对应的手势动作识别等多项不同类型识别操作的繁琐的多向分析，采用定制结构设计的AI智能模型这一单一检测模型即可完成针对耳机充电盒充电控制策略的手势识别以及相应的动态充电控制。

根据本发明的第一方面，提供了一种耳机及其充电盒显示屏的手势识别控制系统，所述系统包括：

影像捕获机构，设置在耳机充电盒显示屏的前端，用于对所述显示屏的前端场景执行影像捕获动作，以获得相应的即时捕获画面，并在所述即时捕获画面的信噪比超过设定信噪比阈值且所述即时捕获画面中的噪声类型数量小于设定数量限量时，将所述即时捕获画面作为有效捕获画面输出，所述显示屏设置在耳机充电盒的盒体侧面；

信息存储机构，设置在耳机充电盒显示屏内，用于预先存储标准人体手部图案的二进制表示数值，所述标准人体手部图案仅包括单个张开状态的标准人体手部且为JPEG格式,以及所述标准人体手部为手面张开状态而非手掌张开状态；

内容分析机构，与所述影像捕获机构连接，用于对接收到的有效捕获画面进行前景和背景的分离操作，以获得所述有效捕获画面对应的前景子画面，并获得所述前景子画面的各个像素点分别对应的各份水平坐标数值、各份垂直坐标数值、各份灰度数值以及各份成像景深数值；

智能识别机构，分别与所述影像捕获机构、所述信息存储机构以及所述内容分析机构连接，用于采用AI智能模型基于所述影像捕获机构的水平解析度、所述影像捕获机构的垂直解析度、所述标准人体手部图案的二进制表示数值、所述前景子画面的各个像素点分别对应的各份水平坐标数值、各份垂直坐标数值、各份灰度数值以及各份成像景深数值智能识别距离标识、完整标识以及手势动作控制类型；

动态控制机构，与所述智能识别机构连接，用于在接收到的距离标识标志所述前景子画面中的最近人体手部未距离所述影像捕获机构过远且接收到的完整标识标志所述前景子画面中的最近人体手部为完整人体手部时，基于所述手势动作控制类型执行对耳机充电盒的充电控制；

其中，所述AI智能模型为完成设定数量的多次学习后的深度神经网络，所述距离标识用于标志所述前景子画面中的最近人体手部是否距离所述影像捕获机构过远，所述完整标识用于标志所述前景子画面中的最近人体手部是否为完整人体手部，所述手势动作控制类型为所述前景子画面中的最近人体手部对应的几何轮廓表示的、对耳机充电盒的操作动作类型且为仅对左耳听筒充电、仅对右耳听筒充电、双听筒同时充电、停止充电、快速充电以及慢速充电各种控制类型中的一种；

其中，所述距离标识、所述完整标识、所述手势动作控制类型、所述影像捕获机构的水平解析度、所述影像捕获机构的垂直解析度、所述前景子画面的各个像素点分别对应的各份水平坐标数值、各份垂直坐标数值、各份灰度数值以及各份成像景深数值均为二进制表示模式。

根据本发明的第二方面，提供了一种耳机及其充电盒显示屏的手势识别控制系统，所述系统包括影像捕获机构、信息存储机构、存储器以及一个或多个处理器，所述影像捕获机构设置在耳机充电盒显示屏的前端，用于对所述显示屏的前端场景执行影像捕获动作，以获得相应的即时捕获画面，所述显示屏设置在耳机充电盒的盒体侧面，所述信息存储机构设置在耳机充电盒显示屏内，用于预先存储标准人体手部图案的二进制表示数值，所述存储器存储有计算机程序，所述计算机程序被配置成由所述一个或多个处理器执行以完成以下步骤：

在所述即时捕获画面的信噪比超过设定信噪比阈值且所述即时捕获画面中的噪声类型数量小于设定数量限量时，将所述即时捕获画面作为有效捕获画面；

对有效捕获画面进行前景和背景的分离操作，以获得所述有效捕获画面对应的前景子画面，并获得所述前景子画面的各个像素点分别对应的各份水平坐标数值、各份垂直坐标数值、各份灰度数值以及各份成像景深数值；

采用AI智能模型基于所述影像捕获机构的水平解析度、所述影像捕获机构的垂直解析度、所述标准人体手部图案的二进制表示数值、所述前景子画面的各个像素点分别对应的各份水平坐标数值、各份垂直坐标数值、各份灰度数值以及各份成像景深数值智能识别距离标识、完整标识以及手势动作控制类型；

在智能识别获得的距离标识标志所述前景子画面中的最近人体手部未距离所述影像捕获机构过远且智能识别获得的完整标识标志所述前景子画面中的最近人体手部为完整人体手部，基于所述手势动作控制类型执行对耳机充电盒的充电控制；

其中，所述标准人体手部图案仅包括单个张开状态的标准人体手部且为JPEG格式,以及所述标准人体手部为手面张开状态而非手掌张开状态。

由此可见，本发明至少具备以下四处突出的实质性特点：

实质性特点一：采用简单的处理机制完成以外复杂的处理过程，通过在耳机充电盒显示屏的前端采集可靠实时画面的前景子画面的针对性筛选的多项图像数据，基于所述多项图像数据、标准人体手部图案的二进制表示数值以及影像捕获机构的水平解析度和垂直解析度智能识别耳机充电盒显示屏前端的实时场景中的最近人体手部是否过远、是否完整以及手势动作对应的控制类型，并在实时场景中的最近人体手部较近且完整的情况下，方判定手势动作有效，进而采用手势动作对应的控制类型执行对耳机充电盒的相应充电控制策略，从而不需要进行包括最近人体手部的检测、最近人体手部的实时距离检测、最近人体手部的完整检测以及最近人体手部对应的手势动作识别等多项不同类型识别操作的繁琐的多向分析，实现了采用单一检测模型即可完成针对耳机充电盒充电控制策略的手势识别以及相应的动态充电控制；

实质性特点二：可靠实时画面的前景子画面的针对性筛选的多项图像数据为所述前景子画面的各个像素点分别对应的各份水平坐标数值、各份垂直坐标数值、各份灰度数值以及各份成像景深数值，从而保证了最近人体手部各项智能识别结果的可靠性和有效性；

实质性特点三：设计定制结构的AI智能模型执行智能识别处理，所述AI智能模型为完成设定数量的多次学习后的深度神经网络，所述设定数量的取值与影像捕获机构的水平解析度的取值正向关联的同时与所述影像捕获机构的垂直解析度的取值正向关联，以及所述深度神经网络的隐藏层的数量与所述影像捕获机构的动态范围的区间长度成正比，从而实现了不同影像捕获机构的不同AI智能模型的定制结构设计，保证了AI智能模型智能识别结果的可靠性和稳定性；

实质性特点四：针对性设计对深度神经网络的学习过程，其中多次学习分别对应多次手势动作检测实验，在每一次手势动作检测实验中，影像捕获一次可靠实时画面，验证可靠实时画面被执行影像捕获时显示屏的前端场景中最近人体手部到所述影像捕获机构的距离、完整度以及手势动作控制类型，以获得所述可靠实时画面对应的、已知状态的距离标识、完整标识以及手势动作控制类型，将已知状态的距离标识、完整标识以及手势动作控制类型作为所述深度神经网络的多项输出信息，将所述影像捕获机构的水平解析度、所述影像捕获机构的垂直解析度、所述标准人体手部图案的二进制表示数值、所述可靠实时画面的前景子画面的各个像素点分别对应的各份水平坐标数值、各份垂直坐标数值、各份灰度数值以及各份成像景深数值作为所述深度神经网络的多项输入信息，完成所述手势动作检测实验对应的单次学习，从而保证了对深度神经网络每一次学习操作的学习效果。

附图说明

以下将结合附图对本发明的实施例进行描述，其中：

图1为根据本发明的耳机及其充电盒显示屏的手势识别控制系统的技术流程图。

图2为根据本发明的实施例一示出的耳机及其充电盒显示屏的手势识别控制系统的结构示意图。

图3为根据本发明的实施例二示出的耳机及其充电盒显示屏的手势识别控制系统的结构示意图。

图4为根据本发明的实施例三示出的耳机及其充电盒显示屏的手势识别控制系统的结构示意图。

图5为根据本发明的实施例四示出的耳机及其充电盒显示屏的手势识别控制系统的结构示意图。

图6为根据本发明的实施例五示出的耳机及其充电盒显示屏的手势识别控制系统的结构示意图。

图7为根据本发明的实施例六示出的耳机及其充电盒显示屏的手势识别控制系统的结构示意图。

具体实施方式

如图1所示，给出了根据本发明示出的耳机及其充电盒显示屏的手势识别控制系统的技术流程图。

如图1所示，为实现耳机充电盒显示屏的前端的实时场景中用于控制耳机充电策略的手势动作的智能识别，本发明的具体的技术流程如下：

第一步：为设置在耳机充电盒显示屏的前端的影像捕获机构设置对应的定制结构的AI智能模型，如图1所示，以保证不同的影像捕获机构使用不同结构的AI智能模型，从而提升智能检查结果的可靠性和稳定性；

在图1中，1为显示屏，2为影像捕获机构，3为手动控制开关，4为左耳听筒，5为右耳听筒，以及在图1中，所述AI智能模型包括单个输入层、单个输出层以及介于单个输入层和单个输出层之间的N个隐藏层，N为大于2的自然数；

具体地，所述AI智能模型的结构定制表现在学习模式的定制设计以及本身结构的定制设计；

在所述AI智能模型的学习模式的定制设计中，所述AI智能模型为完成设定数量的多次学习后的深度神经网络，所述设定数量的取值与影像捕获机构的水平解析度的取值正向关联的同时与所述影像捕获机构的垂直解析度的取值正向关联；

在所述AI智能模型的本身结构的定制设计中，所述深度神经网络的隐藏层的数量与所述影像捕获机构的动态范围的区间长度成正比，所述影像捕获机构的动态范围的区间长度为所述影像捕获机构能够显示的最亮灰度数值和所述影像捕获机构能够显示的最暗灰度数值之间的差值；

第二步，为手势动作的智能识别筛选多项针对性的基础数据，以保证智能识别结果的可靠性和有效性；

具体地，所述多项针对性的基础数据包括信噪比超过设定信噪比阈值且噪声类型数量小于设定数量限量的捕获画面的前景子图像的各项图像数据、影像捕获机构的水平解析度、影像捕获机构的垂直解析度以及标准人体手部图案的二进制表示数值，所述前景子图像的各项图像数据为所述前景子画面的各个像素点分别对应的各份水平坐标数值、各份垂直坐标数值、各份灰度数值以及各份成像景深数值；

第三步，采用第一步定制结构设计的AI智能模型基于第二步筛选的多项针对性的基础数据智能识别耳机充电盒显示屏的前端的实时场景中用于控制耳机充电策略的手势的多项信息，所述多项信息包括所述实时场景中最近人体手部是否过远、是否完整以及手势动作对应的控制类型；

第四步，基于智能识别结果确定耳机充电的动态充电控制策略，如图1所示，采用所述耳机充电的动态充电控制策略执行对耳机充电的动态充电控制，从而实现了采用单一检测模型即可完成针对耳机充电盒充电控制策略的手势识别；

下面，将对本发明的耳机及其充电盒显示屏的手势识别控制系统以实施例的方式进行具体说明。

实施例一

如图2所示，所述耳机及其充电盒显示屏的手势识别控制系统包括以下部件：

示例地，影像捕获机构，设置在耳机充电盒显示屏的前端，用于对所述显示屏的前端场景执行影像捕获动作，以获得相应的即时捕获画面，并在所述即时捕获画面的信噪比超过设定信噪比阈值且所述即时捕获画面中的噪声类型数量小于设定数量限量时，将所述即时捕获画面作为有效捕获画面输出，所述显示屏设置在耳机充电盒的盒体侧面包括：所述影像捕获结构包括光电成像器件，所述光电成像器件由像素阵列构成，所述像素阵列包括水平方向的多个像素结构和垂直方向的多个像素结构；

具体地，可以选择采用FLASH闪存、TF存储器件、MMC存储器件或者CF存储器件来实现所述信息存储机构；

具体地，内容分析机构，与所述影像捕获机构连接，用于对接收到的有效捕获画面进行前景和背景的分离操作，以获得所述有效捕获画面对应的前景子画面，并获得所述前景子画面的各个像素点分别对应的各份水平坐标数值、各份垂直坐标数值、各份灰度数值以及各份成像景深数值包括：每一个像素点对应的单份灰度数值的取值在0-255之间；

其中，所述距离标识、所述完整标识、所述手势动作控制类型、所述影像捕获机构的水平解析度、所述影像捕获机构的垂直解析度、所述前景子画面的各个像素点分别对应的各份水平坐标数值、各份垂直坐标数值、各份灰度数值以及各份成像景深数值均为二进制表示模式；

其中，采用AI智能模型基于所述影像捕获机构的水平解析度、所述影像捕获机构的垂直解析度、所述标准人体手部图案的二进制表示数值、所述前景子画面的各个像素点分别对应的各份水平坐标数值、各份垂直坐标数值、各份灰度数值以及各份成像景深数值智能识别距离标识、完整标识以及手势动作控制类型，所述AI智能模型为完成设定数量的多次学习后的深度神经网络包括：所述设定数量的取值与所述影像捕获机构的水平解析度的取值正向关联的同时与所述影像捕获机构的垂直解析度的取值正向关联；

示例地，所述设定数量的取值与所述影像捕获机构的水平解析度的取值正向关联的同时与所述影像捕获机构的垂直解析度的取值正向关联包括：在所述影像捕获机构的水平解析度的取值为1024，所述影像捕获机构的垂直解析度的取值为768时，所述设定数量的取值为100，在所述影像捕获机构的水平解析度的取值为1280，所述影像捕获机构的垂直解析度的取值为1024时，所述设定数量的取值为150，在所述影像捕获机构的水平解析度的取值为1600，所述影像捕获机构的垂直解析度的取值为1280时，所述设定数量的取值为175，以及在所述影像捕获机构的水平解析度的取值为2560，所述影像捕获机构的垂直解析度的取值为1440时，所述设定数量的取值为200，等等；

其中，采用AI智能模型基于所述影像捕获机构的水平解析度、所述影像捕获机构的垂直解析度、所述标准人体手部图案的二进制表示数值、所述前景子画面的各个像素点分别对应的各份水平坐标数值、各份垂直坐标数值、各份灰度数值以及各份成像景深数值智能识别距离标识、完整标识以及手势动作控制类型，所述AI智能模型为完成设定数量的多次学习后的深度神经网络还包括：所述深度神经网络包括多个隐藏层且隐藏层的数量与所述影像捕获机构的动态范围的区间长度成正比，所述影像捕获机构的动态范围的区间长度为所述影像捕获机构能够显示的最亮灰度数值和所述影像捕获机构能够显示的最暗灰度数值之间的差值；

示例地，所述深度神经网络包括多个隐藏层且隐藏层的数量与所述影像捕获机构的动态范围的区间长度成正比，所述影像捕获机构的动态范围的区间长度为所述影像捕获机构能够显示的最亮灰度数值和所述影像捕获机构能够显示的最暗灰度数值之间的差值包括：在所述影像捕获机构的动态范围的区间长度为100时，所述深度神经网络的隐藏层的数量为5，在所述影像捕获机构的动态范围的区间长度为125时，所述深度神经网络的隐藏层的数量为6，以及在所述影像捕获机构的动态范围的区间长度为150时，所述深度神经网络的隐藏层的数量为7，等等。

其中，所述AI智能模型包括多头注意力模块和多条件输入对抗网络模块，所述AI智能模型的损失函数为：

其中，L为模型的总损失；i为训练样本的索引，n为训练样本的数量；P(i|y,x)为当输入标签为y、输入向量为x时，样本i的类别预测概率；logP(i|y,x)为样本i的分类损失；D(x)为对抗网络中判别器的输出，表示输入向量x为真实样本的概率；G(z)为对抗网络中生成器生成的假样本；E[logD(x)]为真实样本的对抗损失；E[log(1-D(G(z)))]为假样本的对抗损失；f(x；c)为模型对输入向量x的条件表示；g(z；c)为生成器对假样本z的条件表示；为多条件输入损失，c为上下文信息。

本实施例中，将影像捕获机构的水平解析度、所述影像捕获机构的垂直解析度、所述标准人体手部图案的二进制表示数值、所述前景子画面的各个像素点分别对应的各份水平坐标数值、各份垂直坐标数值、各份灰度数值以及各份成像景深数值等特征向量输入到多头注意力模块中，通过多头注意力机制学习输入数据的不同表示，在训练过程中通过分类损失和自注意力机制损失优化模型参数。其中，分类损失用于使模型更好地学习数据的分类信息，自注意力机制损失用于使模型更好地捕捉输入数据的依赖关系。然后，将多头注意力模块的输出作为输入传递给多条件输入对抗网络模块，通过对抗损失和条件损失进一步优化模型参数。其中，对抗损失用于使模型生成与真实数据分布相似的假样本，条件损失用于确保模型的条件表示与生成器产生的假样本的表示相似。最后，集成多头注意力模块和多条件输入对抗网络模块，并使用总损失函数进行联合优化，可以同时最小化分类损失、自注意力机制损失、对抗损失和条件损失，以提升模型的收敛速度和预测精度。

具体地，所述AI智能模型的损失函数为：

其中，L为模型的总损失，用于衡量模型的预测结果与真实结果之间的差距，通过最小化损失函数，可以提高模型的准确性和收敛速度；i为训练样本的索引，在训练集中，每个样本对应唯一的索引，以标识该样本；n为训练样本的数量；P(i|y,x)为当输入标签为y、输入向量为x时，样本i的类别预测概率，即模型预测样本i属于某个类别的概率；logP(i|y,x)为样本i的分类损失，衡量模型预测类别与真实类别之间差距；D(x)为对抗网络中判别器的输出，表示输入向量x为真实样本的概率，在生成对抗网络中，判别器用于区分真实样本和假样本，其输出表示输入向量属于真实样本的概率；G(z)为对抗网络中生成器生成的假样本，生成器负责生成假样本，与真实样本类似但并非真实数据；E[logD(x)]为真实样本的对抗损失，衡量真实样本被判别器错误分类为假样本的概率，通过期望函数E(.)表示；E[log(1-D(G(z)))]为假样本的对抗损失,衡量假样本被判别器错误分类为真实样本的概率；f(x；c)为模型对输入向量x的条件表示,条件表示是指在给定上下文信息c的情况下，模型对输入x的表示方式；g(z；c)为生成器对假样本z的条件表示,为在给定上下文信息c的情况下，生成器对假样本z的表示方式；为多条件输入损失，为模型对真实样本的条件表示与生成器对假样本的条件表示之间的差距，通过L₂范数衡量，c为上下文信息，用于捕获输入序列中的语义信息，理解序列中的依赖关系，在多头注意力机制中，其影响模型对输入数据的解释和表示方式。

例如，假设有n个训练样本，每个样本都有一个标签y和向量x表示其特征，目标是预测每个样本属于某个类别的概率。

对于每个样本i，期望模型预测的类别概率P(i|y,x)与真实标签相符，如果预测正确，分类损失logP(i|y,x)很小；如果预测错误，这个损失会很大。因此，期望最小化所有样本的分类损失之和，即总损失L。

在生成对抗网络中，包括判别器D和生成器G，判别器的任务是判断输入的样本是真实的还是生成的。对于真实样本x，判别器认为是真实的，即D(x)接近1；对于生成样本G(z)，判别器则期望其是假的，即G(G(z))接近0。因此，真实样本的对抗损失是E[logD(x)]，而假样本的对抗损失是E[log(1-D(G(z)))]。本实施例中，通过最小化这两个损失，可以提高判别器的准确性，并使生成器生成的假样本更难以被判别器识别。

f(x；c)和g(z；c)表示模型和生成器在给定上下文信息c时对输入x和z的表示。使得模型能够更好地理解输入数据的语义信息和依赖关系。

多条件输入损失衡量模型对真实样本的条件表示与生成器对假样本的条件表示之间的差距。通过最小化该损失，可以确保模型在给定相同上下文信息的情况下，对真实样本和假样本产生相似的表示，有助于提高模型的鲁棒性和泛化能力。

通过结合上述损失项，即，得到多头注意力机制和多条件对抗网络模型的总损失函数。在训练过程中，通过优化算法(如adam等梯度函数)最小化总损失函数，可以学习到更好的模型参数，进一步提高了分类准确率、生成假样本的质量以及条件表示的准确性。

实施例二

如图3所示，与图2中的实施例不同，所述耳机及其充电盒显示屏的手势识别控制系统还包括以下组件：

多次学习机构，与所述智能识别机构连接，用于对深度神经网络执行设定数量的多次学习，以获得完成设定数量的多次学习后的深度神经网络并发送给所述智能识别机构；

示例地，可以选择采用数值仿真模式实现对深度神经网络执行设定数量的多次学习的模拟和仿真操作；

其中，对深度神经网络执行设定数量的多次学习，以获得完成设定数量的多次学习后的深度神经网络并发送给所述智能识别机构包括：所述多次学习分别对应多次手势动作检测实验，在每一次手势动作检测实验中，影像捕获一次有效捕获画面，验证所述有效捕获画面被执行影像捕获时所述显示屏的前端场景中最近人体手部到所述影像捕获机构的距离、完整度以及手势动作控制类型，以获得所述有效捕获画面对应的、已知状态的距离标识、完整标识以及手势动作控制类型，将已知状态的距离标识、完整标识以及手势动作控制类型作为所述深度神经网络的多项输出信息，将所述影像捕获机构的水平解析度、所述影像捕获机构的垂直解析度、所述标准人体手部图案的二进制表示数值、所述有效捕获画面的前景子画面的各个像素点分别对应的各份水平坐标数值、各份垂直坐标数值、各份灰度数值以及各份成像景深数值作为所述深度神经网络的多项输入信息，完成所述手势动作检测实验对应的单次学习。

实施例三

如图4所示，与图3中的实施例不同，所述耳机及其充电盒显示屏的手势识别控制系统还包括以下组件：

液晶显示面板，设置在耳机充电盒显示屏内且与所述智能识别机构连接，用于接收并显示距离标识、完整标识以及手势动作控制类型；

示例地，可以选择采用LED显示阵列或者LCD显示阵列来替换所述液晶显示面板，用于接收并显示距离标识、完整标识以及手势动作控制类型；

其中，所述液晶显示面板还与所述耳机充电盒内的电量测量机构连接，用于接收并显示所述电量测量机构输出的右耳听筒实时电量以及左耳听筒实时电量。

实施例四

如图5所示，与图3中的实施例不同，所述耳机及其充电盒显示屏的手势识别控制系统还包括以下组件：

故障自检机构，设置在耳机充电盒显示屏内，用于对耳机充电盒显示屏的各种组件执行故障自检操作；

示例地，可以选择采用FPGA器件或者CPLD器件来实现所述故障自检机构，设置在耳机充电盒显示屏内，用于对耳机充电盒显示屏的各种组件执行故障自检操作；

其中，对耳机充电盒显示屏的各种组件执行故障自检操作包括：所述故障自检操作对应的检测结果为当前故障类型标识。

实施例五

如图6所示，与图3中的实施例不同，所述耳机及其充电盒显示屏的手势识别控制系统还包括以下组件：

无线传输机构，设置在耳机充电盒显示屏内且与所述智能识别机构连接，用于接收并无线传输距离标识、完整标识以及手势动作控制类型；

具体地，所述无线传输机构基于频分双工通信模式或者时分双工通信模式，设置在耳机充电盒显示屏内且与所述智能识别机构连接，用于接收并无线传输距离标识、完整标识以及手势动作控制类型；

其中，接收并无线传输距离标识、完整标识以及手势动作控制类型包括：将接收到的距离标识、完整标识以及手势动作控制类型无线传输到远端的充电控制服务器；

其中，接收并无线传输距离标识、完整标识以及手势动作控制类型还包括：所述充电控制服务器为大数据服务节点、云计算服务节点或者区块链服务节点。

接着，继续对本发明的各个实施例进行详细的描述。

在根据本发明各个实施例的耳机及其充电盒显示屏的手势识别控制系统中：

采用AI智能模型基于所述影像捕获机构的水平解析度、所述影像捕获机构的垂直解析度、所述标准人体手部图案的二进制表示数值、所述前景子画面的各个像素点分别对应的各份水平坐标数值、各份垂直坐标数值、各份灰度数值以及各份成像景深数值智能识别距离标识、完整标识以及手势动作控制类型，所述AI智能模型为完成设定数量的多次学习后的深度神经网络还包括：所述影像捕获机构的垂直解析度为所述影像捕获机构的像素阵列在垂直方向的分布数量，所述影像捕获机构的垂直解析度为所述影像捕获机构的像素阵列在水平方向的分布数量；

示例地，在所述影像捕获机构的水平解析度的取值为2560，所述影像捕获机构的垂直解析度的取值为1440时，表示所述影像捕获机构的像素阵列在水平方向的分布数量为2560，以及所述影像捕获机构的像素阵列在垂直方向的分布数量为1440。

以及在根据本发明各个实施例的耳机及其充电盒显示屏的手势识别控制系统中：

采用AI智能模型基于所述影像捕获机构的水平解析度、所述影像捕获机构的垂直解析度、所述标准人体手部图案的二进制表示数值、所述前景子画面的各个像素点分别对应的各份水平坐标数值、各份垂直坐标数值、各份灰度数值以及各份成像景深数值智能识别距离标识、完整标识以及手势动作控制类型还包括：将所述影像捕获机构的水平解析度、所述影像捕获机构的垂直解析度、所述标准人体手部图案的二进制表示数值、所述前景子画面的各个像素点分别对应的各份水平坐标数值、各份垂直坐标数值、各份灰度数值以及各份成像景深数值作为所述AI智能模型的多项输入信息；

其中，采用AI智能模型基于所述影像捕获机构的水平解析度、所述影像捕获机构的垂直解析度、所述标准人体手部图案的二进制表示数值、所述前景子画面的各个像素点分别对应的各份水平坐标数值、各份垂直坐标数值、各份灰度数值以及各份成像景深数值智能识别距离标识、完整标识以及手势动作控制类型还包括：运行所述AI智能模型以获得所述AI智能模型输出的距离标识、完整标识以及手势动作控制类型。

实施例六

如图7所示，根据本发明的实施例六示出的耳机及其充电盒显示屏的手势识别控制系统具体包括影像捕获机构、信息存储机构、存储器以及一个或多个处理器，如图7所示，示例性地，给出了M个处理器，其中，M为大于等于1的自然数，所述影像捕获机构设置在耳机充电盒显示屏的前端，用于对所述显示屏的前端场景执行影像捕获动作，以获得相应的即时捕获画面，所述显示屏设置在耳机充电盒的盒体侧面，所述信息存储机构设置在耳机充电盒显示屏内，用于预先存储标准人体手部图案的二进制表示数值，所述存储器存储有计算机程序，所述计算机程序被配置成由所述一个或多个处理器执行以完成以下步骤：

示例地，所述影像捕获机构包括光电成像器件，所述光电成像器件由像素阵列构成，所述像素阵列包括水平方向的多个像素结构和垂直方向的多个像素结构；

以及具体地，可以选择采用FLASH闪存、TF存储器件、MMC存储器件或者CF存储器件来实现所述信息存储机构；

具体地，对有效捕获画面进行前景和背景的分离操作，以获得所述有效捕获画面对应的前景子画面，并获得所述前景子画面的各个像素点分别对应的各份水平坐标数值、各份垂直坐标数值、各份灰度数值以及各份成像景深数值包括：每一个像素点对应的单份灰度数值的取值在0-255之间；

其中，所述标准人体手部图案仅包括单个张开状态的标准人体手部且为JPEG格式,以及所述标准人体手部为手面张开状态而非手掌张开状态；

另外，本发明还可以引用以下几处技术内容以进一步显现本发明的突出的实质性特点：

所述深度神经网络包括多个隐藏层且隐藏层的数量与所述影像捕获机构的动态范围的区间长度成正比，所述影像捕获机构的动态范围的区间长度为所述影像捕获机构能够显示的最亮灰度数值和所述影像捕获机构能够显示的最暗灰度数值之间的差值包括：所述深度神经网络还包括单个输入层和单个输出层，所述多个隐藏层位于所述单个输入层和所述单个输出层之间；

具体地，所述深度神经网络还包括单个输入层和单个输出层，所述多个隐藏层位于所述单个输入层和所述单个输出层之间包括：所述单个输入层用于接收所述深度神经网络的多项输入信息，所述单个输出层用于输出所述深度神经网络的多项输出信息；

其中，采用AI智能模型基于所述影像捕获机构的水平解析度、所述影像捕获机构的垂直解析度、所述标准人体手部图案的二进制表示数值、所述前景子画面的各个像素点分别对应的各份水平坐标数值、各份垂直坐标数值、各份灰度数值以及各份成像景深数值智能识别距离标识、完整标识以及手势动作控制类型还包括：采用MATLAB工具箱来模拟实现采用AI智能模型基于所述影像捕获机构的水平解析度、所述影像捕获机构的垂直解析度、所述标准人体手部图案的二进制表示数值、所述前景子画面的各个像素点分别对应的各份水平坐标数值、各份垂直坐标数值、各份灰度数值以及各份成像景深数值智能识别距离标识、完整标识以及手势动作控制类型的数据处理过程。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种耳机及其充电盒显示屏的手势识别控制系统，其特征在于，所述系统包括：

所述AI智能模型包括多头注意力模块和多条件输入对抗网络模块，所述AI智能模型的损失函数为：

其中，L为模型的总损失；i为训练样本的索引，n为训练样本的数量；P(i|y,x)为当输入标签为y、输入向量为x时，样本i的类别预测概率；log P(i|y,x)为样本i的分类损失；D(x)为对抗网络中判别器的输出，表示输入向量x为真实样本的概率；G(z)为对抗网络中生成器生成的假样本；E[log D(x)]为真实样本的对抗损失；E[log(1-D(G(z)))]为假样本的对抗损失；f(x；c)为模型对输入向量x的条件表示；g(z；c)为生成器对假样本z的条件表示；为多条件输入损失，c为上下文信息。

2.如权利要求1所述的一种耳机及其充电盒显示屏的手势识别控制系统，其特征在于，所述系统还包括：

3.如权利要求2所述的一种耳机及其充电盒显示屏的手势识别控制系统，其特征在于，所述系统还包括：

4.如权利要求2所述的一种耳机及其充电盒显示屏的手势识别控制系统，其特征在于，所述系统还包括：

5.如权利要求2所述的一种耳机及其充电盒显示屏的手势识别控制系统，其特征在于，所述系统还包括：

6.如权利要求2-5任一所述的一种耳机及其充电盒显示屏的手势识别控制系统，其特征在于：

采用AI智能模型基于所述影像捕获机构的水平解析度、所述影像捕获机构的垂直解析度、所述标准人体手部图案的二进制表示数值、所述前景子画面的各个像素点分别对应的各份水平坐标数值、各份垂直坐标数值、各份灰度数值以及各份成像景深数值智能识别距离标识、完整标识以及手势动作控制类型，所述AI智能模型为完成设定数量的多次学习后的深度神经网络还包括：所述影像捕获机构的垂直解析度为所述影像捕获机构的像素阵列在垂直方向的分布数量，所述影像捕获机构的垂直解析度为所述影像捕获机构的像素阵列在水平方向的分布数量。

7.如权利要求2-5任一所述的一种耳机及其充电盒显示屏的手势识别控制系统，其特征在于：

采用AI智能模型基于所述影像捕获机构的水平解析度、所述影像捕获机构的垂直解析度、所述标准人体手部图案的二进制表示数值、所述前景子画面的各个像素点分别对应的各份水平坐标数值、各份垂直坐标数值、各份灰度数值以及各份成像景深数值智能识别距离标识、完整标识以及手势动作控制类型还包括：将所述影像捕获机构的水平解析度、所述影像捕获机构的垂直解析度、所述标准人体手部图案的二进制表示数值、所述前景子画面的各个像素点分别对应的各份水平坐标数值、各份垂直坐标数值、各份灰度数值以及各份成像景深数值作为所述AI智能模型的多项输入信息。

8.如权利要求7所述的一种耳机及其充电盒显示屏的手势识别控制系统，其特征在于：

采用AI智能模型基于所述影像捕获机构的水平解析度、所述影像捕获机构的垂直解析度、所述标准人体手部图案的二进制表示数值、所述前景子画面的各个像素点分别对应的各份水平坐标数值、各份垂直坐标数值、各份灰度数值以及各份成像景深数值智能识别距离标识、完整标识以及手势动作控制类型还包括：运行所述AI智能模型以获得所述AI智能模型输出的距离标识、完整标识以及手势动作控制类型。

9.一种耳机及其充电盒显示屏的手势识别控制系统，其特征在于，所述系统包括影像捕获机构、信息存储机构、存储器以及一个或多个处理器，所述影像捕获机构设置在耳机充电盒显示屏的前端，用于对所述显示屏的前端场景执行影像捕获动作，以获得相应的即时捕获画面，所述显示屏设置在耳机充电盒的盒体侧面，所述信息存储机构设置在耳机充电盒显示屏内，用于预先存储标准人体手部图案的二进制表示数值，所述存储器存储有计算机程序，所述计算机程序被配置成由所述一个或多个处理器执行以完成以下步骤：