CN114546110A

CN114546110A - 手势操作方法、装置、耳机设备及存储介质

Info

Publication number: CN114546110A
Application number: CN202210111912.0A
Authority: CN
Inventors: 邢磊
Original assignee: Goertek Techology Co Ltd
Current assignee: Goertek Techology Co Ltd
Priority date: 2022-01-29
Filing date: 2022-01-29
Publication date: 2022-05-27
Anticipated expiration: 2042-01-29
Also published as: CN114546110B

Abstract

本发明公开了一种手势操作方法、装置、耳机设备及存储介质，所述方法包括：当检测到手势识别指令时，通过2D摄像头获取第一2D图像，将第一2D图像与耳机设备中各种入库手势对应的第二2D图像分别进行比对，以检测第一2D图像中是否存在入库手势；若检测到第一2D图像中不存在入库手势，则通过3D摄像头获取第一3D图像，将第一3D图像与各种入库手势分别对应的第二3D图像分别进行比对，以检测第一3D图像中是否存在入库手势；若检测到第一3D图像中存在一种入库手势，则执行与第一3D图像中的入库手势对应的控制操作。本发明实现在保证耳机设备手势识别准确率的情况下尽量降低耳机设备的功耗。

Description

手势操作方法、装置、耳机设备及存储介质

技术领域

本发明涉及耳机技术领域，尤其涉及一种手势操作方法、装置、耳机设备及存储介质。

背景技术

目前，当我们的手不方便或者无法通过按压或者触摸耳机来进行一些操作，如暂停接听时，可以通过手势来触发相应的操作，例如，用户通过比一个ok的手势，触发接通电话的操作。但是，目前的手势操作方法为提高识别准确度，采用复杂的识别算法，导致耳机设备的功耗较高。

发明内容

本发明的主要目的在于提供一种手势操作方法、装置、耳机设备及存储介质，旨在降低耳机设备进行手势操作时的功耗。

为实现上述目的，本发明提供一种手势操作方法，所述方法应用于耳机设备，所述耳机设备中设置用于拍摄用户手势的2D摄像头和3D摄像头，所述方法包括以下步骤：

当检测到手势识别指令时，通过所述2D摄像头获取第一2D图像，将所述第一2D图像与所述耳机设备中各种入库手势对应的第二2D图像分别进行比对，以检测所述第一2D图像中是否存在入库手势；

若检测到所述第一2D图像中不存在入库手势，则通过所述3D摄像头获取第一3D图像，将所述第一3D图像与各种入库手势分别对应的第二3D图像分别进行比对，以检测所述第一3D图像中是否存在入库手势；

若检测到所述第一3D图像中存在一种入库手势，则执行与所述第一3D图像中的入库手势对应的控制操作。

可选地，所述当检测到手势识别指令时，通过所述2D摄像头获取第一2D图像的步骤之前，还包括：

通过所述2D摄像头按照第一预设频率进行拍摄，并检测连续第一预设时长内拍摄的各帧第三2D图像中是否均包含同一手势；

若检测到连续的所述第一预设时长内拍摄的各帧第三2D图像中均包含同一手势，则触发手势识别指令。

可选地，将所述第一3D图像与一种入库手势对应的第二3D图像进行比对，以检测所述第一3D图像中是否存在所述入库手势的步骤包括：

将所述第一3D图像和一种入库手势对应的第二3D图像输入图像一致性判别模型进行一致性判别得到判别结果，其中，所述图像一致性判别模型预先采用多组3D图像训练得到，各组3D图像中分别包括两张存在相同手势的3D图像或两张存在不同手势的3D图像；

当所述判别结果表征所述第一3D图像与所述入库手势对应的第二3D图像存在相同手势时，确定所述第一3D图像中存在所述入库手势；

当所述判别结果表征所述第二3D图像与所述入库手势对应的第二3D图像不存在相同手势时，确定所述第一3D图像中不存在所述入库手势。

可选地，所述将所述第一3D图像和一种入库手势对应的第二3D图像输入图像一致性判别模型进行一致性判别得到判别结果的步骤之前，还包括：

获取训练样本集，所述训练样本集中包括多组3D图像和各组3D图像分别对应的判别标签，所述判别标签表征对应的一组3D图像中两张3D图像包含的手势是否相同；

将各组3D图像分别输入预设的待训练模型进行一致性判别，得到各组3D图像对应的预测结果；

根据各所述预测结果和各所述判别标签计算所述待训练模型的损失函数；

根据所述损失函数检测所述待训练模型是否收敛；

若收敛，则将所述待训练模型作为训练得到的所述图像一致性判别模型；

若未收敛，则根据所述损失函数对所述待训练模型中的各个模型参数进行更新，基于更新后的待训练模型再返回执行所述将各组3D图像分别输入预设的待训练模型进行一致性判别，得到各组3D图像对应的预测结果的步骤。

可选地，所述通过所述2D摄像头获取第一2D图像，将所述第一2D图像与所述耳机设备中各种入库手势对应的第二2D图像分别进行比对，以检测所述第一2D图像中是否存在入库手势的步骤之前，还包括：

当检测到针对目标控制操作的手势录入指令时，通过所述2D摄像头和所述3D摄像头分别拍摄得到第四2D图像和第三3D图像；

将所述第四2D图像中的2D图像数据与所述第三3D图像中的2D图像数据进行比对，以检测所述第四2D图像与所述第三3D图像中是否存在同一手势；

若检测到所述第四2D图像与所述第三3D图像中存在同一手势，则新增一种入库手势，将新增的入库手势作为所述目标控制操作对应的手势，并将第四2D图像和所述第三3D图像与新增的入库手势关联存储。

可选地，所述新增一种入库手势的步骤之前，还包括：

若检测到所述第四2D图像与所述第三3D图像中存在同一手势，则将所述第四2D图像与各种入库手势对应的所述第二2D图像分别进行比对，以检测所述第四2D图像中的手势是否与各种入库手势相同，以及将所述第三3D图像与各种入库手势对应的所述第二3D图像分别进行比对，以检测所述第三3D图像中的手势是否与各种入库手势相同；

若检测到所述第四2D图像中的手势与各种入库手势均不同，且所述第三3D图像中的手势与各种入库手势均不同，则执行所述新增一种入库手势的步骤。

可选地，所述耳机设备中还设置用于检测耳机设备与用户手臂之间距离的距离传感器，所述当检测到手势识别指令时，通过所述2D摄像头获取第一2D图像的步骤之前，还包括：

通过所述距离传感器按照第二预设频率采集距离值，并检测连续第二预设时长内采集到的各个距离值之间是否符合预设变化规律，其中，预设变化规律是由至少多次由远到近的变化趋势和至少多次由近到远的变化趋势按照预设顺序组合的规律；

若检测到连续的所述第二预设时长内采集到的各个距离值之间符合所述预设变化规律，则触发手势识别指令。

为实现上述目的，本发明还提供一种手势操作装置，所述装置部署于耳机设备，所述耳机设备中设置用于拍摄用户手势的2D摄像头和3D摄像头，所述装置包括：

第一检测模块，用于当检测到手势识别指令时，通过所述2D摄像头获取第一2D图像，将所述第一2D图像与所述耳机设备中各种入库手势对应的第二2D图像分别进行比对，以检测所述第一2D图像中是否存在入库手势；

第二检测模块，用于若检测到所述第一2D图像中不存在入库手势，则通过所述3D摄像头获取第一3D图像，将所述第一3D图像与各种入库手势分别对应的第二3D图像分别进行比对，以检测所述第一3D图像中是否存在入库手势；

执行模块，用于若检测到所述第一3D图像中存在一种入库手势，则执行与所述第一3D图像中的入库手势对应的控制操作。

为实现上述目的，本发明还提供一种耳机设备，所述耳机设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的手势操作程序，所述手势操作程序被所述处理器执行时实现如上所述的手势操作方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有手势操作程序，所述手势操作程序被处理器执行时实现如上所述的手势操作方法的步骤。

本发明中，耳机设备先通过2D摄像头拍摄2D图像，基于2D图像与入库手势的2D图像进行比对进行手势识别，对于一些用户给出的较标准(与入库手势相似度高)的手势，能够准确识别的前提下，降低耳机设备的功耗；在基于2D图像未识别成功时，再通过3D摄像头拍摄3D图像，基于3D图像与入库手势的3D图像进行比对进行手势识别，实现对于一些用户给出的不够标准的手势也能够准确识别，提高手势识别准确率。

附图说明

图1为本发明手势操作方法第一实施例的流程示意图；

图2为本发明实施例涉及的一种耳机设备摄像头设置位置示意图；

图3为本发明手势操作装置较佳实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明手势操作方法第一实施例的流程示意图。

本发明实施例提供了手势操作方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。本发明实施例手势操作方法应用于耳机设备，所述耳机设备中设置用于拍摄用户手势的2D摄像头和3D摄像头。本实施例中，所述手势操作方法包括：

步骤S10，当检测到手势识别指令时，通过所述2D摄像头获取第一2D图像，将所述第一2D图像与所述耳机设备中各种入库手势对应的第二2D图像分别进行比对，以检测所述第一2D图像中是否存在入库手势；

耳机设备设置2D摄像头和3D摄像头的具体位置在本实施例中并不做限制，但是该设置位置使得用户佩戴耳机设备时，两个摄像头能够拍摄到用户作出的手势，且两个摄像头的位置相近。例如，当耳机设备是无线蓝牙耳机时，摄像头的设置位置可如图2所示。

2D摄像头即普通摄像头，所拍摄的图像是平面图像，不包括图像中每个点在三维空间中的尺寸和距离等几何信息，对应地，3D摄像头所拍摄的图像是在平面图像的基础上，还包括图像中每个点在三维空间中的坐标信息，以下将2D摄像头所拍摄的图像称为2D图像，将3D摄像头拍摄的图像称为3D图像以示区分。

耳机设备可以在检测到手势识别指令时，先通过2D摄像头来拍摄2D图像(以下为示区别称为第一2D图像)，基于第一2D图像进行识别手势。耳机设备中预先存储了至少一种入库手势的2D图像(以下为示区别称为第二2D图像)，入库手势可以是用户根据需要录入的手势，该手势在耳机设备中关联一种控制操作，用于当耳机设备检测到用户给出该手势时，执行该控制操作。例如，控制操作可以是挂断电话、接听电话、播放音乐等操作。

耳机设备将第一2D图像与各种入库手势的第二2D图像分别进行比对，通过比对，来检测第一2D图像中是否存在入库手势，也即检测第一2D图像中是否存在各种入库手势中的至少一种入库手势。其中，若第一2D图像与一种入库手势的第二2D图像比对结果为包含同一手势，则确定该第一2D图像中存在该入库手势。在一实施方式中，耳机设备可以将第一2D图像与各种入库手势的第二2D图像依次进行比对，一旦检测到第一2D图像中存在一种入库手势，即不再继续比对，以节省耳机设备手势识别的时间。

耳机设备将第一2D图像与一种入库手势的第二2D图像进行比对以确定第一2D图像中是否存在该入库手势的具体方式在本实施例中并不做限制。例如，在一实施方式中，可以采用图像特征提取算法提取两张2D图像的特征信息，再将两个特征信息进行比对，以确定两张2D图像的相似度是否大于一定阈值，若大于则确定两张2D图像包含同一手势。

手势识别指令的触发方法在本实施例中并不做限制，例如可以定期触发，也可以在检测到一个手势保持一定时长后触发等。

步骤S20，若检测到所述第一2D图像中不存在入库手势，则通过所述3D摄像头获取第一3D图像，将所述第一3D图像与各种入库手势分别对应的第二3D图像分别进行比对，以检测所述第一3D图像中是否存在入库手势；

若将第一2D图像与各种入库手势的第二2D图像进行比对后，确定第一2D图像中不存在任意一种入库手势，则耳机设备可以进一步通过3D摄像头获取3D图像(以下称为第一3D图像以示区别)，基于第一3D图像进行识别手势。耳机设备中预先还存储了各种入库手势的3D图像(以下为示区别称为第二3D图像)。

耳机设备将第一3D图像与各种入库手势的第二3D图像分别进行比对，通过比对，来检测第一3D图像中是否存在入库手势，也即检测第一3D图像中是否存在各种入库手势中的至少一种入库手势。其中，若第一3D图像与一种入库手势的第二3D图像比对结果为包含同一手势，则确定该第一3D图像中存在该入库手势。在一实施方式中，耳机设备可以将第一3D图像与各种入库手势的第二3D图像依次进行比对，一旦检测到第一3D图像中存在一种入库手势，即不再继续比对，以节省耳机设备手势识别的时间。

耳机设备将第一3D图像与一种入库手势的第二3D图像进行比对以确定第一3D图像中是否存在该入库手势的具体方式在本实施例中并不做限制。例如，在一实施方式中，可以采用图像特征提取算法提取两张3D图像的特征信息，再将两个特征信息进行比对，以确定两张3D图像的相似度是否大于一定阈值，若大于则确定两张3D图像包含同一手势。

耳机设备中入库手势的第二2D图像和第二3D图像可以由耳机设备提前录入，也可由用户终端录入后，在与耳机设备建立通信连接时发送给耳机设备，也即，耳机设备中入库手势的图像录入方法在本实施例中并不做限制。

在一实施方式中，若将第一2D图像与各种入库手势的第二2D图像进行比对后，确定第一2D图像中存在一种入库手势，则耳机设备可以执行该入库手势对应的控制操作，以达到用户基于手势控制耳机设备的目的。

步骤S30，若检测到所述第一3D图像中存在一种入库手势，则执行与所述第一3D图像中的入库手势对应的控制操作。

若将第一3D图像与各种入库手势的第二3D图像进行比对后，确定第一3D图像中存在一种入库手势，则耳机设备可以执行该第一3D图像中入库手势对应的控制操作。也即，耳机设备检测到第一3D图像与一张第二3D图像包含同一手势时，确定第一3D图像中存在该第二3D图像对应的入库手势，执行该入库手势对应的控制操作。

需要说明的是，当用户给出的手势确实是一种入库手势时，由于3D图像的数据相比于2D图像，包含了更丰富的三维空间信息，所以基于该用户手势的3D图像与入库手势的3D图像进行比对以确定该用户手势确实是该入库手势的成功率，要高于基于该用户手势的2D图像与入库手势的2D图像进行比对以确定该用户手势确实是该入库手势的成功率。但是，基于2D摄像头拍摄用户手势的2D图像以及对2D图像进行比对所需的功耗，要低于基于3D摄像头拍摄用户手势的3D图像以及对3D图像进行比对所需的功耗。

在本实施例中，耳机设备先通过2D摄像头拍摄2D图像，基于2D图像与入库手势的2D图像进行比对进行手势识别，对于一些用户给出的较标准(与入库手势相似度高)的手势，能够准确识别的前提下，降低耳机设备的功耗；在基于2D图像未识别成功时，再通过3D摄像头拍摄3D图像，基于3D图像与入库手势的3D图像进行比对进行手势识别，实现对于一些用户给出的不够标准的手势也能够准确识别，提高手势识别准确率。

进一步地，基于上述第一实施例，提出本发明手势操作方法的第二实施例，在本实施例中，所述步骤S10之前，还包括：

步骤S40，通过所述2D摄像头按照第一预设频率进行拍摄，并检测连续第一预设时长内拍摄的各帧第三2D图像中是否均包含同一手势；

为避免用户的非手势动作误触发耳机设备进行手势识别，在本实施例中，可以先通过2D摄像头来进行误触判别，在不是误触时触发手势识别指令，准确进入手势识别流程，避免误触引发的手势识别流程，进一步降低耳机设备功耗。

具体地，可以通过2D摄像头按照第一预设频率进行拍摄，为示区别，将按照该第一预设频率拍摄的各帧2D图像称为第三2D图像。第一预设频率可以预先根据需要进行设置，例如设置为每秒10次。

耳机设备对2D摄像头拍摄的各帧第三2D图像进行检测，检测连续第一预设时长内拍摄的各帧第三2D图像中是否均包含同一手势，也即，检测是否存在连续第一预设时长内拍摄的各帧第三2D图像中均存在同一手势的情况。第一预设时长可根据需要进行设置，例如设置为3秒，也即，当用户并不是想触发手势操作时，其非手势动作鲜少有持续较长时间的，而当用户想要触发手势操作时，可以刻意将做出的手势保持较长时间，从而达到触发相应控制操作的目的。

其中，具体检测方法在本实施例中并不做限制。例如，在一实施方式中，耳机设备可以每次将相邻两帧第三2D图像进行比对，一旦有两帧第三2D图像确定包含同一手势，则开始对包含同一手势的第三2D图像的数量进行计数，若连续计数达到一定数量(第一预设时长除以第一预设频率得到的结果)，则确定检测到连续的第一预设时长内拍摄的各帧第三2D图像中均包含同一手势，若中间检测到两帧第三2D图像不包含同一手势，则将计数重置为0。

步骤S50，若检测到连续的所述第一预设时长内拍摄的各帧第三2D图像中均包含同一手势，则触发手势识别指令。

若耳机设备检测到连续的第一预设时长内拍摄的各帧第三2D图像中均包含同一手势，则可以触发手势识别指令，进而基于该手势识别指令通过2D摄像头拍摄第一2D图像，基于第一2D图像进行手势识别。需要说明的是，由于从2D摄像头按照第一预设频率拍摄第三2D图像，对第三2D图像进行检测，转换到由2D摄像头拍摄一张第一2D图像，基于第一2D图像进行手势识别并不涉及摄像头的转换，所以，延时较低，手势识别速度较高。又由于先通过2D摄像头来拍摄第三2D图像进行避免误触发的检测，相比于基于3D摄像头进行检测，所需的功耗更低，从而进一步降低了耳机设备的功耗。

进一步地，在一实施方式中，提出另一种误触发的方法。具体地，耳机设备中还设置用于检测耳机设备与用户手臂之间距离的距离传感器，所述步骤S10之前，还包括：

步骤S60，通过所述距离传感器按照第二预设频率采集距离值，并检测连续第二预设时长内采集到的各个距离值之间是否符合预设变化规律，其中，预设变化规律是由至少多次由远到近的变化趋势和至少多次由近到远的变化趋势按照预设顺序组合的规律；

距离传感器的具体位置在本实施例中并不做限制，但是该设置位置使得用户佩戴耳机设备时，距离传感器能够测得用户的手臂与耳机设备之间的距离。也即，当用户需要唤醒手势识别时，可以通过在距离传感器面前进行挥臂来唤醒手势识别。

耳机设备中可以预先设置一种用于触发手势识别的距离值的变化规律，该变化规律是由至少多次距离值由远到近的变化趋势和至少多次距离值由近到远的变化趋势按照预设顺序组合的规律，预设顺序可以根据需要进行定义，例如，一种可行的变化规律可以是：由远到近、由近到远、由远到近和由近到远，也即，用户在耳机设备的距离传感器面前将手臂从远到近挥动两次时，距离值即可满足该变化规律。

耳机设备可通过距离传感器按照第二预设频率采集距离值，第二预设频率可以预先根据需要进行设置，例如设置为每秒30次。

耳机设备对距离传感器采集的距离值进行检测，检测连续第二预设时长内采集到的各个距离值之间是否符合预设变化规律，也即，检测是否存在连续的第二预设时长内检测的各个距离值之间符合预设变化规律的情况。第二预设时长可以根据需要进行设置，例如，可以设置为2秒，也即，当用户并不是要触发手势操作时，其非手势动作鲜少有在较短时间内符合一定规律的情况，而当用户想要触发手势操作时，可以刻意在较短时间内作出符合一定规律的手势动作，从而达到触发相应控制操作的目的。

其中，具体检测方法在本实施例中并不做限制。例如，在一实施方式中，耳机设备可以每次将相邻两个距离值进行比对，一旦检测到该两个距离值之间的变化趋势符合预设变化规律中的第一组变化趋势，即开始进行检测后续的距离值的变化趋势是否与预设变化规律中的各组变化趋势依次匹配；若达到第二预设时长后，预设变化规律中的部分变化趋势还没有被匹配到，那么重新进行检测，或者，在第二预设时长内检测到变化趋势与预设变化规律中的变化趋势的走向不同，则重新进行检测；若达到第二预设时长后，预设变化规律中的各组变化趋势都被匹配到，则确定检测到连续的第二预设时长内采集到的各个距离值之间符合预设变化规律。

步骤S70，若检测到连续的所述第二预设时长内采集到的各个距离值之间符合所述预设变化规律，则触发手势识别指令。

若耳机设备检测到连续的第二预设时长内采集到的各个距离值之间符合预设变化规律，则可以触发手势识别指令，进而基于该手势识别指令通过2D摄像头拍摄第一2D图像，基于第一2D图像进行手势识别。需要说明的是，通过距离传感器进行距离值采集以及基于距离值进行避免误触发的检测，其功耗要低于基于摄像头进行避免误触发的检测的功耗。故，在本实施方式中，先通过距离传感器进行距离值采集以及基于距离值进行避免误触发的检测，相比于基于摄像头进行检测，所需的功耗更低，从而进一步降低了耳机设备的功耗。

进一步地，基于上述第一和/或第二实施例，提出本发明手势操作方法的第三实施例，在本实施例中，所述步骤S20中将所述第一3D图像与一种入库手势对应的第二3D图像进行比对，以检测所述第一3D图像中是否存在所述入库手势的步骤包括：

步骤S201，将所述第一3D图像和一种入库手势对应的第二3D图像输入图像一致性判别模型进行一致性判别得到判别结果，其中，所述图像一致性判别模型预先采用多组3D图像训练得到，各组3D图像中分别包括两张存在相同手势的3D图像或两张存在不同手势的3D图像；

在本实施例中，提出一种将第一3D图像与一种入库手势的第二3D图像进行比对，以检测该第一3D图像中存在该入库手势的具体实施方式。具体地，预先可以采用多组3D图像训练得到一个用于判断两张3D图像中是否存在相同手势的图像一致性判别模型。各组3D图像中可以分别包括两张3D图像，部分组的3D图像包含的两张3D图像中存在相同手势，作为正样本，部分组的3D图像包含的两张3D图像中存在不同手势，作为负样本。该图像一致性判别模型可以采用CNN、DNN模型来实现，在本实施例中并不做限制。

耳机设备将第一3D图像与一种入库手势对应的第二3D图像输入训练好的图像一致性判别模型进行一致性判别，得到判别结果，该判别结果用于表征两张3D图像中是否存在相同手势。

步骤S202，当所述判别结果表征所述第一3D图像与所述入库手势对应的第二3D图像存在相同手势时，确定所述第一3D图像中存在所述入库手势；

步骤S203，当所述判别结果表征所述第二3D图像与所述入库手势对应的第二3D图像不存在相同手势时，确定所述第一3D图像中不存在所述入库手势。

根据判别结果，可以确定第一3D图像中是否存在该入库手势。也即，当判别结果表征第一3D图像与该入库手势对应的第二3D图像存在相同手势时，确定第一3D图像中存在该入库手势，当判别结果表征第一3D图像与该入库手势对应的第二3D图像不存在相同手势时，确定第一3D图像中不存在该入库手势。

进一步地，在一实施方式中，所述方法还包括：

步骤A10，获取训练样本集，所述训练样本集中包括多组3D图像和各组3D图像分别对应的判别标签，所述判别标签表征对应的一组3D图像中两张3D图像包含的手势是否相同；

在本实施方式中，提出一种在耳机设备中的图像一致性判别模型的训练方法。具体地，耳机设备可获取训练样本集，训练样本集中包括多组3D图像和各组3D图像分别对应的判别标签，该判别标签用于表征对应的一组3D图像中两张3D图像包含的手势是否相同。例如，判别标签可以是0或1，采用1表示对应的一组3D图像中两张3D图像包含的手势相同，采用0表示对应的一组3D图像中两张3D图像包含的手势不相同。

步骤A20，将各组3D图像分别输入预设的待训练模型进行一致性判别，得到各组3D图像对应的预测结果；

将待训练的图像一致性判别模型称为待训练模型，在训练开始之前，待训练模型中的模型参数可以是根据经验初始化的，在训练过程中对模型参数经过至少一轮的迭代更新。

在一轮迭代更新开始后，耳机设备先将训练样本集中的各组3D图像分别输入待训练模型进行一致性判别，得到各组3D图像分别对应的预测结果。可以理解的是，一组3D图像输入待训练模型进行一致性判别，可以得到该组3D图像的预测结果，该预测结果表征本轮迭代更新时，待训练模型预测得到的该组3D图像中两张3D图像是否包含相同手势。

步骤A30，根据各所述预测结果和各所述判别标签计算所述待训练模型的损失函数；

在得到各组3D图像对应的预测结果后，可以根据各个预测结果和各个判别标签计算得到待训练模型的损失函数。其中，根据所选用的模型种类不同，损失函数的计算方法可以不同，在本实施例中并不做限制。

步骤A40，根据所述损失函数检测所述待训练模型是否收敛；

在计算得到损失函数后，可以根据损失函数检测待训练模型是否收敛。具体地，可以通过检测损失函数的损失值是否小于预先设置的阈值来确定是否收敛，也可以通过检测损失函数的损失值与上一轮迭代更新时计算得到的损失值相差是否小于预先设置的阈值来确定是否收敛，也即，在本实施例中对待训练模型的收敛判断规则并不做限制。

步骤A50，若收敛，则将所述待训练模型作为训练得到的所述图像一致性判别模型；

若确定待训练模型收敛，则耳机设备可以确定训练结束，将当前的待训练模型作为训练得到的图像一致性判别模型。

步骤A60，若未收敛，则根据所述损失函数对所述待训练模型中的各个模型参数进行更新，基于更新后的待训练模型再返回执行所述步骤A20。

若确定待训练模型未收敛，则耳机设备可以先根据损失函数对待训练模型中的各个模型参数进行更新，再对更新后的待训练模型进行下一轮迭代更新，也即，基于更新后的待训练模型再返回执行步骤A20，以进行循环迭代。其中，根据损失函数对待训练模型中的各个模型参数进行更新具体可以采用梯度下降算法，也即，计算损失函数相对于待训练模型中各个模型参数的梯度值，再根据梯度值更新各个模型参数。

基于上述第一、第二和/或第三实施例，提出本发明手势操作方法的第四实施例，在本实施例中，所述步骤S10之前，还包括：

步骤B10，当检测到针对目标控制操作的手势录入指令时，通过所述2D摄像头和所述3D摄像头分别拍摄得到第四2D图像和第三3D图像；

用户可以根据需要在耳机设备中自定义手势，以将自定义的手势关联一种或多种控制操作，进而实现根据该手势触发关联的控制操作。

具体地，当耳机设备检测到针对一控制操作(以下称为目标控制操作)的手势录入指令时，可以通过2D摄像头拍摄的至少一张2D图像(以下称为第四2D图像)，通过3D摄像头拍摄得到至少一张3D图像(以下称为第三3D图像)。其中，手势录入指令可以是用户通过触摸耳机设备的按键触发的或通过语音触发的。在一实施方式中，耳机设备可以在进入手势录入模式后，按顺序语音播放各种控制操作的名称，每播放一个控制操作的名称等待一定时长，在这个等待时长内若检测到用户触摸按键或语音回复，即触发针对该控制操作的手势录入指令。

也即，用户触发手势录入指令后，即在摄像头面前摆出想要录入的手势，以供摄像头拍摄到该手势。

步骤B20，将所述第四2D图像中的2D图像数据与所述第三3D图像中的2D图像数据进行比对，以检测所述第四2D图像与所述第三3D图像中是否存在同一手势；

耳机设备将第四2D图像中的2D图像数据与第三3D图像中的2D图像数据进行比对，以检测第四2D图像与第三3D图像是否存在同一手势。其中，第三3D图像中包括平面图像(2D图像)也包括平面图像中各点在三维坐标系中的坐标信息，在此为与第四2D图像进行比较，仅提取第三3D图像中的2D图像数据与第四2D图像的2D图像数据进行比对，比对方式与将两张2D图像进行比对的方式相同，在此并不做限制。

步骤B30，若检测到所述第四2D图像与所述第三3D图像中存在同一手势，则新增一种入库手势，将新增的入库手势作为所述目标控制操作对应的手势，并将第四2D图像和所述第三3D图像与新增的入库手势关联存储。

若耳机设备检测到第四2D图像与第三3D图像中存在同一手势，则可以在手势库中新增一种入库手势，具体可以生成一种新的编号来表示该新增入库手势；进一步地，将新增的入库手势作为与目标控制操作对应的手势，将第四2D图像和第三3D图像与新增的入库手势关联存储，也即，将新增入库手势的编号与目标控制操作的编号关联存储，将第四2D图像和第三3D图像与新增的入库手势的编号关联存储，后续通过入库手势的编号来查找该手势对应的图像和控制操作。

若检测到第四2D图像与第三3D图像中不存在同一手势，则可以输出提示语音提示用户重新摆出手势，并在接收到用户反馈后，重新采用2D摄像头和3D摄像头进行拍摄。

进一步地，在一实施方式中，所述步骤B30中新增一种入库手势的步骤之前，还包括：

步骤B40，若检测到所述第四2D图像与所述第三3D图像中存在同一手势，则将所述第四2D图像与各种入库手势对应的所述第二2D图像分别进行比对，以检测所述第四2D图像中的手势是否与各种入库手势相同，以及将所述第三3D图像与各种入库手势对应的所述第二3D图像分别进行比对，以检测所述第三3D图像中的手势是否与各种入库手势相同；

步骤B50，若检测到所述第四2D图像中的手势与各种入库手势均不同，且所述第三3D图像中的手势与各种入库手势均不同，则执行所述新增一种入库手势的步骤。

当耳机设备中允许录入的手势有多个时，耳机设备可以在检测到第四2D图像与第三3D图像中存在同一手势时，进一步地检测第四2D图像和第三3D图像中的手势是否与已入库的各个入库手势重复。

具体地，可以将第四2D图像与各种入库手势对应的第二2D图像分别进行比对，以检测第四2D图像中的手势是否与各种入库手势相同，以及将第三3D图像与各种入库手势对应的第三3D图像分别进行比对，以检测第三3D图像是否与各种入库手势相同。若检测到第四2D图像中的手势与各种入库手势均不相同，且第三3D图像中的手势与各种入库手势均不相同，则说明用户新定义的手势与已入库的手势不重复，此时，可以执行新增一种入库手势的操作。

进一步地，若耳机设备检测到第四2D图像中的手势与至少一种入库手势相同，或者第三3D图像中的手势与至少一种入库手势相同，则说明用户新定义的手势与已入库的手势重复，此时，可以输出提示语音提示用户重新摆出手势，并在接收到用户反馈后，重新采用2D摄像头和3D摄像头进行拍摄。

在本实施例中，通过将新录入的手势的2D图像和3D图像分别与已入库的手势的2D图像和3D图像进行比对，提高了识别重复手势入库的精确度，从而提高了手势操作的准确度。

此外，本发明实施例还提出一种手势操作装置，所述装置部署于耳机设备，所述耳机设备中设置用于拍摄用户手势的2D摄像头和3D摄像头，参照图3，所述装置包括：

第一检测模块10，用于当检测到手势识别指令时，通过所述2D摄像头获取第一2D图像，将所述第一2D图像与所述耳机设备中各种入库手势对应的第二2D图像分别进行比对，以检测所述第一2D图像中是否存在入库手势；

第二检测模块20，用于若检测到所述第一2D图像中不存在入库手势，则通过所述3D摄像头获取第一3D图像，将所述第一3D图像与各种入库手势分别对应的第二3D图像分别进行比对，以检测所述第一3D图像中是否存在入库手势；

执行模块30，用于若检测到所述第一3D图像中存在一种入库手势，则执行与所述第一3D图像中的入库手势对应的控制操作。

进一步地，所述装置还包括：

第三检测模块30，用于通过所述2D摄像头按照第一预设频率进行拍摄，并检测连续第一预设时长内拍摄的各帧第三2D图像中是否均包含同一手势；

第一触发模块，用于若检测到连续的所述第一预设时长内拍摄的各帧第三2D图像中均包含同一手势，则触发手势识别指令。

进一步地，所述第二检测模块20还用于：

进一步地，所述装置还包括：

获取模块，用于获取训练样本集，所述训练样本集中包括多组3D图像和各组3D图像分别对应的判别标签，所述判别标签表征对应的一组3D图像中两张3D图像包含的手势是否相同；

输入模块，用于将各组3D图像分别输入预设的待训练模型进行一致性判别，得到各组3D图像对应的预测结果；

计算模块，用于根据各所述预测结果和各所述判别标签计算所述待训练模型的损失函数；

第四检测模块，用于根据所述损失函数检测所述待训练模型是否收敛；

确定模块，用于若收敛，则将所述待训练模型作为训练得到的所述图像一致性判别模型；

所述输入模块还用于若未收敛，则根据所述损失函数对所述待训练模型中的各个模型参数进行更新，基于更新后的待训练模型再返回执行所述将各组3D图像分别输入预设的待训练模型进行一致性判别，得到各组3D图像对应的预测结果的操作。

进一步地，所述装置还包括：

采集模块，用于当检测到针对目标控制操作的手势录入指令时，通过所述2D摄像头和所述3D摄像头分别拍摄得到第四2D图像和第三3D图像；

第五检测模块，用于将所述第四2D图像中的2D图像数据与所述第三3D图像中的2D图像数据进行比对，以检测所述第四2D图像与所述第三3D图像中是否存在同一手势；

存储模块，用于若检测到所述第四2D图像与所述第三3D图像中存在同一手势，则新增一种入库手势，将新增的入库手势作为所述目标控制操作对应的手势，并将第四2D图像和所述第三3D图像与新增的入库手势关联存储。

进一步地，所述装置还包括：

第六检测模块，用于若检测到所述第四2D图像与所述第三3D图像中存在同一手势，则将所述第四2D图像与各种入库手势对应的所述第二2D图像分别进行比对，以检测所述第四2D图像中的手势是否与各种入库手势相同，以及将所述第三3D图像与各种入库手势对应的所述第二3D图像分别进行比对，以检测所述第三3D图像中的手势是否与各种入库手势相同；

所述存储模块还用于若检测到所述第四2D图像中的手势与各种入库手势均不同，且所述第三3D图像中的手势与各种入库手势均不同，则执行所述新增一种入库手势的操作。

进一步地，所述耳机设备中还设置用于检测耳机设备与用户手臂之间距离的距离传感器，所述装置还包括：

第七检测模块，用于通过所述距离传感器按照第二预设频率采集距离值，并检测连续第二预设时长内采集到的各个距离值之间是否符合预设变化规律，其中，预设变化规律是由至少多次由远到近的变化趋势和至少多次由近到远的变化趋势按照预设顺序组合的规律；

第二触发模块，用于若检测到连续的所述第二预设时长内采集到的各个距离值之间符合所述预设变化规律，则触发手势识别指令。

本发明手势操作装置的具体实施方式的拓展内容与上述手势操作方法各实施例基本相同，在此不做赘述。

本发明耳机设备包括结构壳体、通信模块、主控模块(例如微控制单元MCU)、扬声器、麦克风、存储器等组成。所述耳机设备中设置用于拍摄用户手势的2D摄像头和3D摄像头。主控模块可包含微处理器、音频解码单元、电源及电源管理单元、系统所需的传感器和其他有源或无源器件等(可以根据实际功能进行更换、删减或增加)，实现无线音频的接收与播放功能。耳机设备可以通过通信模块与用户终端建立通信连接。耳机的存储器中可以存储有手势操作程序，微处理器可以用于调用存储器中存储的手势操作程序，并执行以下操作：

进一步地，所述当检测到手势识别指令时，通过所述2D摄像头获取第一2D图像的操作之前，微处理器还可以用于调用存储器中存储的手势操作程序，执行以下操作：

进一步地，将所述第一3D图像与一种入库手势对应的第二3D图像进行比对，以检测所述第一3D图像中是否存在所述入库手势的操作包括：

进一步地，所述将所述第一3D图像和一种入库手势对应的第二3D图像输入图像一致性判别模型进行一致性判别得到判别结果的操作之前，微处理器还可以用于调用存储器中存储的手势操作程序，执行以下操作：

根据所述损失函数检测所述待训练模型是否收敛；

若未收敛，则根据所述损失函数对所述待训练模型中的各个模型参数进行更新，基于更新后的待训练模型再返回执行所述将各组3D图像分别输入预设的待训练模型进行一致性判别，得到各组3D图像对应的预测结果的操作。

进一步地，所述通过所述2D摄像头获取第一2D图像，将所述第一2D图像与所述耳机设备中各种入库手势对应的第二2D图像分别进行比对，以检测所述第一2D图像中是否存在入库手势的操作之前，微处理器还可以用于调用存储器中存储的手势操作程序，执行以下操作：

进一步地，所述新增一种入库手势的操作之前，微处理器还可以用于调用存储器中存储的手势操作程序，执行以下操作：

若检测到所述第四2D图像中的手势与各种入库手势均不同，且所述第三3D图像中的手势与各种入库手势均不同，则执行所述新增一种入库手势的操作。

进一步地，所述耳机设备中还设置用于检测耳机设备与用户手臂之间距离的距离传感器，所述当检测到手势识别指令时，通过所述2D摄像头获取第一2D图像的操作之前，微处理器还可以用于调用存储器中存储的手势操作程序，执行以下操作：

本发明耳机设备和计算机可读存储介质的各实施例，均可参照本发明手势操作方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种手势操作方法，其特征在于，所述方法应用于耳机设备，所述耳机设备中设置用于拍摄用户手势的2D摄像头和3D摄像头，所述方法包括以下步骤：

2.如权利要求1所述的手势操作方法，其特征在于，所述当检测到手势识别指令时，通过所述2D摄像头获取第一2D图像的步骤之前，还包括：

3.如权利要求1所述的手势操作方法，其特征在于，将所述第一3D图像与一种入库手势对应的第二3D图像进行比对，以检测所述第一3D图像中是否存在所述入库手势的步骤包括：

4.如权利要求3所述的手势操作方法，其特征在于，所述将所述第一3D图像和一种入库手势对应的第二3D图像输入图像一致性判别模型进行一致性判别得到判别结果的步骤之前，还包括：

根据所述损失函数检测所述待训练模型是否收敛；

5.如权利要求1至4任一项所述的手势操作方法，其特征在于，所述通过所述2D摄像头获取第一2D图像，将所述第一2D图像与所述耳机设备中各种入库手势对应的第二2D图像分别进行比对，以检测所述第一2D图像中是否存在入库手势的步骤之前，还包括：

6.如权利要求5所述的手势操作方法，其特征在于，所述新增一种入库手势的步骤之前，还包括：

7.如权利要求1、3-4任一项所述的手势操作方法，其特征在于，所述耳机设备中还设置用于检测耳机设备与用户手臂之间距离的距离传感器，所述当检测到手势识别指令时，通过所述2D摄像头获取第一2D图像的步骤之前，还包括：

8.一种手势操作装置，其特征在于，所述装置部署于耳机设备，所述耳机设备中设置用于拍摄用户手势的2D摄像头和3D摄像头，所述装置包括：

9.一种耳机设备，其特征在于，所述耳机设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的手势操作程序，所述手势操作程序被所述处理器执行时实现如权利要求1至7中任一项所述的手势操作方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有手势操作程序，所述手势操作程序被处理器执行时实现如权利要求1至7中任一项所述的手势操作方法的步骤。