CN111124108A

CN111124108A - 模型训练方法、手势控制方法、装置、介质及电子设备

Info

Publication number: CN111124108A
Application number: CN201911152977.4A
Authority: CN
Inventors: 陈喆
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2020-05-08
Anticipated expiration: 2039-11-22
Also published as: CN111124108B

Abstract

本申请实施例公开了一种模型训练方法、手势控制方法、装置、介质及电子设备，其中，当接收到目标描述信息时，利用多个音频输出组件向外发射不同频率的超声波信号，并利用对应的多个音频采集组件采集反射回的相应超声波信号，得到多个反射超声波信号；然后分别获取各反射超声波信号的语谱图，根据获取到多个语谱图生成样本图像，最后利用该样本图像进行模型训练，得到用于手势识别的手势识别模型。由此，通过复用电子设备普遍配置的音频输出组件和音频采集组件向外发射超声波信号和接收反射回的超声波信号，以训练得到手势识别模型实现手势的识别，从而无需在电子设备额外配置用于实现手势识别的手势识别传感器，能够降低电子设备实现手势识别的成本。

Description

模型训练方法、手势控制方法、装置、介质及电子设备

技术领域

本申请涉及音频识别技术领域，具体涉及一种模型训练方法、手势控制方法、装置、介质及电子设备。

背景技术

目前，人们的生活已离不开智能手机、平板电脑等电子设备，通过这些电子设备所提供的各种各样丰富的功能，使得人们能够随时随地的娱乐、办公等。在相关技术中，用户可以通过手势的方式实现与电子设备间的人机交互，获得电子设备提供的服务。相较于传统的控制方式，手势在使用上更加自由，也更加灵活、直观。然而，电子设备需要增加额外的手势传感器来实现对手势的识别，存在较高的硬件成本。

发明内容

本申请实施例提供了一种模型训练方法、手势控制方法、装置、存储介质及电子设备，能够降低电子设备实现手势识别的成本。

本申请实施例提供的模型训练方法，应用于电子设备，该电子设备包括多个音频输出组件以及对应的多个音频采集组件，该模型训练方法包括：

当接收到目标描述信息时，通过每一音频输出组件向外发射不同频率的超声波信号，所述目标描述信息用于描述当前存在已知手势；

通过每一音频采集组件采集反射回的相应超声波信号，得到多个反射超声波信号；

获取每一反射超声波信号的语谱图，得到多个语谱图；

根据所述多个语谱图生成样本图像，并根据所述样本图像进行模型训练，得到用于手势识别的手势识别模型。

本申请实施例提供的手势控制方法，应用于电子设备，该电子设备包括多个音频输出组件以及对应的多个音频采集组件，该手势控制方法包括：

通过每一音频输出组件向外发射不同频率的超声波信号；

获取每一反射超声波信号的语谱图，得到多个语谱图；

拼接所述多个语谱图得到待识别图像，并将所述待识别图像输入预先训练的手势识别模型进行手势分类预测，得到对应的预测手势；

其中，所述手势识别模型采用权利要求1-5任一项所述的模型训练方法训练得到。

本申请实施例提供的模型训练装置，应用于电子设备，所述电子设备包括多个音频输出组件以及对应的多个音频采集组件，该模型训练装置包括：

发射模块，用于当接收到目标描述信息时，通过每一音频输出组件向外发射不同频率的超声波信号，所述目标描述信息用于描述当前存在已知手势；

接收模块，用于通过每一音频采集组件采集反射回的相应超声波信号，得到多个反射超声波信号；

获取模块，用于获取每一反射超声波信号的语谱图，得到多个语谱图；

训练模块，用于根据所述多个语谱图生成样本图像，并根据所述样本图像进行模型训练，得到用于手势识别的手势识别模型。

本申请实施例提供的手势控制装置，应用于电子设备，所述电子设备包括多个音频输出组件以及对应的多个音频采集组件，该手势控制装置包括：

发射模块，用于通过每一音频输出组件向外发射不同频率的超声波信号；

识别模块，用于拼接所述多个语谱图得到待识别图像，并将所述待识别图像输入预先训练的手势识别模型进行手势分类预测，得到对应的预测手势；

控制模块，用于确定对应所述预测手势的目标操作，并执行所述目标操作；

其中，所述手势识别模型采用本申请实施例提供的型训练方法训练得到。

本申请实施例提供的存储介质，其上存储有计算机程序，当所述计算机程序被处理器加载时执行如本申请提供的模型训练方法，或者执行本申请提供的手势控制方法。

本申请实施例提供的电子设备，包括处理器和存储器，所述存储器存有计算机程序，所述处理器通过加载所述计算机程序，用于执行本申请提供的模型训练方法，或者执行本申请提供的手势控制方法。

本申请通过复用电子设备普遍配置的音频输出组件和音频采集组件向外发射超声波信号和接收反射回的超声波信号，以训练得到手势识别模型实现手势的识别，从而无需在电子设备额外配置用于实现手势识别的手势识别传感器，能够降低电子设备实现手势识别的成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的模型训练方法的流程示意图。

图2是本申请实施例中电子设备的听筒、扬声器和麦克风的设置位置示意图。

图3是本申请实施例中对反射超声波信号进行分帧处理的示意图。

图4是本申请实施例中生成的语谱图的示意图。

图5是本申请实施例中拼接语谱图得到样本图像的示例图。

图6是本申请实施例中训练得到手势识别模型的示意图。

图7是本申请实施例提供的手势控制方法的流程示意图。

图8是本申请实施例提供的模型训练装置的结构示意图。

图9是本申请实施例提供的手势控制装置的结构示意图。

图10是本申请实施例提供的电子设备的一结构示意图。

图11是本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是通过所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

本申请实施例提供的方案涉及人工智能的机器学习技术，具体通过如下实施例进行说明:

本申请实施例提供一种模型训练方法、手势控制方法、模型训练装置、手势控制装置、存储介质以及电子设备，其中，该模型训练方法的执行主体可以是本申请实施例中提供的模型训练装置，或者集成了该模型训练装置的电子设备，其中该模型训练装置可以采用硬件或软件的方式实现；该手势控制方法的执行主体可以是本申请实施例中提供的手势控制装置，或者集成了该手势控制装置的电子设备，其中该手势控制装置可以采用硬件或软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等配置有处理器(包括但不限于通用处理器、定制化处理器等)而具有处理能力的设备。

请参照图1，图1为本申请实施例提供的模型训练方法的流程示意图，该模型训练方法应用于包括多个音频输出组件以及对应的多个音频采集组件的电子设备，该模型训练方法的流程可以如下：

在101中，当接收到目标描述信息时，通过每一音频输出组件向外发射不同频率的超声波信号，目标描述信息用于描述当前存在已知手势。

应当说明的是，在本申请实施例中，通过复用电子设备普遍配置的音频输出组件和音频采集组件实现超声波传感器的功能，其中，音频输出组件比如电子设备设置的听筒和扬声器等，音频采集组件比如电子设备设置的麦克风。

本申请实施例中，电子设备包括多个音频输出组件以及对应的多个音频采集组件。

示例性的，请参照图2，电子设备上部设置有听筒，缺省用于手持通话，还设置有麦克风1，缺省用于采集环境声实现降噪，电子设备下部设置有扬声器，缺省用于免提通话，还设置有麦克风2，缺省用于采集用户的通话语音。由此，通过复用电子设备的听筒和麦克风1来作为一个超声波传感器，复用电子设备的扬声器和麦克风2来作为另一个超声波传感器，使得电子设备具备两个模拟的超声波传感器。

如上所述，基于模拟的多个超声波传感器，电子设备首先接收目标描述信息，该目标描述信息用于描述当前存在已知手势。应当说明的是，已知手势为预先定义的手势，可由本领域普通技术人员根据实际需要灵活设置，比如，相对于电子设备向上挥手、向下挥手、向左挥手、向右挥手、左右摇手等。

当接收到目标描述信息时，电子设备通过每一音频输出组件向外发射不同频率的超声波信号。其中，电子设备首先获取多个不同频率的超声波信号，然后通过功放组件对原始的超声波信号进行放大，将放大后的多个不同频率的超声波信号的分别传输给对应的音频输出组件，由音频输出组件向外发射放大后的超声波信号。

比如，请参照图2，电子设备包括两个音频输出组件，分别为听筒和扬声器，电子设备首先获取到预存的频率分别为f₁和f₂的超声波信号，并分别传输给功放组件进行放大，然后将放大后频率为f₁的超声波信号通过听筒向外发射，以及将放大后频率为f₂的超声波信号通过扬声器向外发射。

可以理解的是，超声波信号的频率位于人耳感知范围之外，当电子设备通过音频输出组件向外发射超声波信号时，并不会对用户造成影响。其中，对于超声波信号频率的选取，可由本领域普通技术人员根据实际需要灵活选取，比如，假设电子设备包括两个音频输出组件以及对应的两个音频采集组件，可以采用频率为20KHz的超声波信号以及频率为21KHz的超声波信号。

在102中，通过每一音频采集组件采集反射回的相应超声波信号，得到多个反射超声波信号。

可以理解的是，根据超声波信号直线传播的特性，当发射出的超声波信号被人体阻挡时，将产生反射现象。基于此，在本申请实施例中，在通过每一音频输出组件向外发射不同频率的超声波信号之后，电子设备还相应通过每一音频采集组件采集反射回的相应超声波信号，记为反射超声波信号，由此采集得到多个反射超声波信号。

比如，请参照图2，电子设备包括两个音频输出组件，分别为听筒和扬声器，以及对应的听筒的音频采集组件“麦克风1”，对应扬声器的音频采集组件“麦克风2”，相应的，若电子设备通过听筒向外发射频率为f₁的超声波信号，以及通过扬声器向外发射频率为f₂的超声波信号，则电子设备将相应通过麦克风1采集到反射回的频率为f₁的超声波信号，相应通过麦克风2采集到反射回的频率为f₂的超声波信号。

应当说明的是，以上采集的多个反射超声波信号的时长相同。

在103中，获取每一反射超声波信号的语谱图，得到多个语谱图。

比如，请参照图3对于采集到的某反射超声波信号x(n)，电子设备按照预设帧长(比如4096个采样点)，重叠128，采用汉明窗对该反射超声波信号x(n)进行分帧加窗处理，得到m个音频帧，表示为x_m(n)。

然后，对音频帧x_m(n)进行傅里叶变换(比如短时傅里叶变换)，并根据傅里叶变换的结果计算能量密度，生成灰度的语谱图，比如，请参照图4，其中横轴表示时间，纵轴表示频率，灰度值表示能量值。

如上，按照相同的语谱图获取方式，对于采集得到多个频率不同的反射超声波信号，电子设备可以获取到每一反射超声波信号的语谱图，从而得到多个语谱图。

在104中，根据多个语谱图生成样本图像，并根据样本图像进行模型训练，得到用于手势识别的手势识别模型。

本申请实施例中，对于一已知手势，电子设备在按照以上方式获取到其对应的多个语谱图之后，根据这多个语谱图生成对应该已知手势的样本图像，该样本图像即表征了该已知手势。

如上所述，对于不同的已知手势，电子设备可以获取到对应不同已知手势的样本图像。比如，假设预先定义有已知手势1、已知手势2、已知手势3、已知手势4以及已知手势5，则对于每一已知手势，电子设备可以获取对应预设数量的不同用户执行该已知手势的样本图像，这样，对于每一已知手势，电子设备将最终获取到预设数量的样本图像。应当说明的是，本申请实施例中对于预设数量的取值不做具体限制，可由本领域普通技术人员根据实际需要进行设置。

在获取到对应不同已知手势的样本图像之后，电子设备即根据获取到的这些样本图像进行模型训练，以得到用于手势识别的手势识别模型。

比如，可以预先由本领域普通技术人员根据实际需要配置电子设备进行模型训练的基础模型，然后由电子设备基于该基础模型，根据获取到的对应不同已知手势的样本图像进行有监督的模型训练，将训练完成的基础模型作为用于手势识别的手势识别模型。

由上可知，本申请通过在接收到目标描述信息时，利用多个音频输出组件向外发射不同频率的超声波信号，并利用对应的多个音频采集组件采集反射回的相应超声波信号，得到多个反射超声波信号；然后分别获取各反射超声波信号的语谱图，根据获取到多个语谱图生成样本图像，最后利用该样本图像进行模型训练，得到用于手势识别的手势识别模型。由此，通过复用电子设备普遍配置的音频输出组件和音频采集组件向外发射超声波信号和接收反射回的超声波信号，以训练得到手势识别模型实现手势的识别，从而无需在电子设备额外配置用于实现手势识别的手势识别传感器，能够降低电子设备实现手势识别的成本。

在一实施例中，根据多个语谱图生成样本图像，包括：

对多个语谱图进行拼接，并将拼接得到的拼接图像作为样本图像。

本申请实施例中，电子设备在根据多个语谱图生成样本图像时，可以直接对读个语谱图进行拼接，并将拼接得到的拼接图像作为用于模型训练的语谱图。其中，本申请实施例中对语谱图之间的拼接方式不做具体限制，可由本领域普通技术人员根据实际需要进行设置。

比如，请参照图5，对于一已知手势，电子设备获取到对应该已知手势的两个语谱图，分别为语谱图1和语谱图2，然后电子设备沿时间方向对语谱图1和语谱图2进行拼接，将拼接得到拼接图像作为对应该已知手势的样本图像。

在其它实施例中，电子设备在根据多个语谱图时，还可以将多个语谱图按通道进行叠合，得到一个叠合图像，将该叠合图像作为样本图像。此外，本领域普通技术人员还可以根据实际需要选取其它图像融合方式，本申请实施例中对此不做具体限制。

在一实施例中，根据样本图像进行模型训练，得到用于手势识别的手势识别模型，包括：

(1)构建卷积神经网络，并根据样本图像对卷积神经网络进行训练，直至满足预设结束训练条件；

(2)将满足预设结束训练条件的卷积神经网络作为手势识别模型。

本申请实施例中，电子设备在根据样本图像进行模型训练时，首先构建卷积神经网络，作为模型训练的基础模型，然后根据样本图像对构建的该卷积神经网络进行训练，直至满足预设结束训练条件，将满足预设结束训练条件的卷积神经网络作为手势识别模型。

应当说明的是，本申请实施例中对构建的卷积神经网络的内部结构不做具体限制，可由本领域普通技术人员根据实际需要选取。

比如，本申请实施例中，电子设备构建轻量化的卷积神经网络，包括但不限于SqueezeNet、MobileNet、ShuffleNet以及Xception等。

示例性的，电子设备可以构建基于ShuffleNet v2单元的卷积神经网络，作为模型训练的基础模型。其中，Shufflenet V2网络结构借鉴了Xception网络结构的深度可分离卷积操作(先进行通道的空间卷积，再进行1*1卷积)，在原来的基础上修改了深度可分离卷积，提出使用逐点分组卷积来的代替原来的结构，然后再进行通道混合。比如，电子设备构建采用了16个ShuffleNet v2单元的卷积神经网络。

其中，根据样本图像对卷积神经网络进行训练，包括：

(1)将样本图像输入卷积神经网络进行手势分类预测，得到对应样本图像的预测手势；

(2)根据样本图像的预测手势与其对应的已知手势之间的差异，对卷积神经网络的参数进行调整。

其中，电子设备在构建得到卷积神经网络之后，将样本图像输入构建的卷积神经网络进行手势分类预测，得到对应样本图像的预测手势。

比如，电子设备构建的卷积神经网络采用了16个ShuffleNet v2单元，且采用Softmax分类器作为输出层，样本图像在输入卷积神经网络后，卷积神经网络首先对样本图像进行卷积运算，提取图像特征，形成特征图。之后再通过Shufflenet V2单元特有的逐点分组卷积运算和通道混合操作向后传播，经过若干卷积层和池化层后，使得Softmax分类器逼近到网络从而得到预测手势。

应当说明的是，电子设备在构建卷积神经网络的同时，还构建对应该卷积神经网络的损失函数，具体可由本领域普通技术人员根据实际需要预先设置电子设备构建损失函数的类型，比如，本申请实施例中采用交叉熵损失函数。

相应的，电子设备在得到样本图像的预测手势之后，将预测手势以及样本图像对应的已知手势带入损失函数计算得到损失值，作为预测手势与已知手势之间的差异。

在得到样本图像的预测手势与其已知手势之间的差异之后，电子设备即可根据该差异对卷积神经网络的参数进行调整，也即是求解损失函数的最小值。其中，电子设备利用梯度下降算法来迭代卷积神经网络的参数，从而得到最小化的损失值和对应的模型参数值。

其中，对于采用何种梯度下降算法，本申请实施例中不做具体限制，可由本领域普通技术人员根据实际需要选择。示例性的，本申请实施例中采用Adam梯度下降算法来求解损失函数，相应的，还预先设置对应的批次大小，该批次大小用于描述迭代一次参数所需的样本图像的数量，可由本领域普通技术人员根据实际需要进行设置，比如，本申请实施例中设置批次大小为64。

应当说明的是，预设结束训练条件用于描述在何时停止对构建的卷积神经网络的训练，可由本领域普通技术人员根据实际需要进行设置。比如，可以设置预设结束训练条件为：对构建的卷积神经网络参数的迭代次数达到预设迭代次数(可由本领域普通技术人员根据实际需要取经验值，比如90)；还可以设置预设结束训练条件为：样本图像的损失值小于预设损失值(可由本领域普通技术人员根据实际需要取经验值)。

相应的，电子设备在每次调整卷积神经网络的参数后，即判断是否满足预设结束训练条件，若不满足则继续将样本图像输入卷积神经网络中进行训练，直至满足预设结束训练条件。

在构建的卷积神经网络满足预设结束训练条件时，电子设备判定此时的卷积神经网络能够准确的进行手势识别，将满足预设结束训练条件的卷积神经网络作为用于手势识别的手势识别模型。之后，电子设备即可在需要进行手势识别时，利用该手势识别模型进行手势识别。

在一实施例中，将样本图像输入卷积神经网络进行手势分类预测之前，还包括：

(1)将样本图像划分为训练样本图像和测试样本图像；

将样本图像输入卷积神经网络进行手势分类预测，包括：

(2)将训练样本图像输入卷积神经网络进行手势分类预测；

将满足预设结束训练条件的卷积神经网络作为手势识别模型，包括：

(3)将测试样本图像输入满足预设结束训练条件的卷积神经网络进行手势分类预测，得到对应测试样本图像的预测手势；

(4)当测试样本图像的预测手势与其对应的已知手势不一致时，根据测试样本图像的预测手势与其对应的已知手势之间的差异再次对卷积神经网络的参数进行调整；

(5)将参数调整后的卷积神经网络作为用于手势识别的手势识别模型。

请参照图6，本申请实施例中，对构建的卷积神经网络进行训练时，并不利用所有获取到的样本图像来对构建的卷积神经网络进行训练。

其中，电子设备首先按照预设划分比例将获取到的样本图像划分为两部分，一部分用于对构建的卷积神经网络进行训练，记为训练样本图像，另一部分用于对满足预设结束训练条件的卷积神经网络进行测试，记为测试样本图像。其中，预设划分比例可由本领域普通技术人员根据实际需要进行设置，比如，本申请实施例中将预设划分比例配置为8:2，即将所有的样本图像中的80％作为训练样本图像，将另外20％作为测试样本图像。

在完成训练样本图像和测试样本图像的划分之后，电子设备将训练样本图像输入构建的卷积神经网络进行手势分类预测，对该卷积神经网络进行训练，直至满足预设结束训练条件，具体可参照以上实施例中的相关描述，此处不再赘述。

在利用训练样本图像训练得到满足预设训练条件的卷积神经网络后，电子设备将测试样本图像输入满足预设结束训练条件的卷积神经网络进行手势分类预测，得到对应测试样本图像的预测手势；当测试样本图像的预测手势与其对应的已知手势不一致时，根据测试样本图像的预测手势与其对应的已知手势之间的差异再次对卷积神经网络的参数进行调整，直至满足预设调整停止条件。其中，对于如何根据测试样本图像的预测手势与其对应的已知手势之间的差异再次对卷积神经网络的参数进行调整，具体可参照以上训练过程中的参数调整方式相应实施，此处不再赘述。

其中，预设调整停止条件可由本领域普通技术人员根据实际需要进行设置，比如，可以设置预设调整停止条件为：对满足预设结束训练条件的卷积神经网络的参数调整次数达到预设次数(可由本领域普通技术人员根据实际需要进行取经验值，比如取值为10)；还可以设置预设调整停止条件为：满足预设结束训练条件的卷积神经网络的预测准确率达到预设准确率(可由本领域普通技术人员根据实际需要进行取经验值，比如取值为90％)。

在满足预设调整停止条件时，将满足预设调整停止条件的卷积神经网络作为用于手势识别的手势识别模型。

请参照图7，图7为本申请实施例提供的手势控制方法的流程示意图，该手势控制方法应用于包括多个音频输出组件以及对应的多个音频采集组件的电子设备，该手势控制方法的流程可以如下：

在201中，通过每一音频输出组件向外发射不同频率的超声波信号。

应当说明的是，在本申请实施例中，通过复用电子设备普遍配置的音频输出组件和音频采集组件实现超声波传感器的功能，其中，音频输出组件比如电子设备设置的听筒和扬声器等，音频输出组件比如电子设备设置的麦克风。

此外，还应当说明的是，电子设备还包括专用语音识别芯片和处理器，其中，处理器为适于通用处理任务的处理器，比如ARM架构的处理器。

专用语音识别芯片是以语音识别为目的而设计的专用芯片，比如以语音识别为目的而设计的数字信号处理芯片，以语音识别为目的而设计的专用集成电路芯片等，其相较于通用的处理器，具有更低的功耗，适于语音识别任务的处理。其中，专用语音识别芯片和处理器之间通过通信总线(比如I2C总线)建立通信连接，实现数据的交互。

其中，处理器通过多个音频输出组件向外发射不同频率的超声波信号，以探测可能存在的用户手势。

比如，电子设备包括两个音频输出组件，分别为听筒和扬声器，处理器首先获取到预存的频率分别为f₁和f₂的超声波信号，并分别传输给功放组件进行放大，然后将放大后频率为f₁的超声波信号通过听筒向外发射，以及将放大后频率为f₂的超声波信号通过扬声器向外发射。

可以理解的是，超声波信号的频率位于人耳感知范围之外，当处理器通过音频输出组件向外发射超声波信号时，并不会对用户造成影响。其中，对于超声波信号频率的选取，可由本领域普通技术人员根据实际需要灵活选取，比如，假设电子设备包括两个音频输出组件以及对应的两个音频采集组件，可以采用频率为20KHz的超声波信号以及频率为21KHz的超声波信号。

在202中，通过每一音频采集组件采集反射回的相应超声波信号，得到多个反射超声波信号。

在203中，获取每一反射超声波信号的语谱图，得到多个语谱图。

在204中，拼接多个语谱图得到待识别图像，并将待识别图像输入预先训练的手势识别模型进行手势分类预测，得到对应的预测手势。

应当说明的是，本申请实施例预先采用以上实施例提供的模型训练方法训练有手势识别模型。

此外，处理器在通过多个音频采集组件采集得到多个反射超声波信号之后，指示专用语音识别芯片调用预先训练的手势识别模型，并将采集的多个反射超声波信号提供给专用语音识别芯片，由专用语音识别芯片分别获取每一反射超声波信号的语谱图，由此得到多个语谱图。其中，对于如何获取语谱图量，可以参照以上模型训练方法实施例中的获取方式相应实施，此处不再赘述。

在获取得到多个语谱图之后，专用语音识别芯片进一步对多个语谱图进行拼接，将拼接得到的拼接图像作为待识别图像。然后，将该待识别图像输入预先训练的手势识别模型进行手势分类预测，得到对应的预测手势。

专用语音识别芯片预测得到对应的预测手势之后，将该预测手势以中断信号的方式传输给处理器。

在205中，确定对应预测手势的目标操作，并执行目标操作。

应当说明的是，在本申请实施例中，预先建立有不同手势与可执行操作之间的对应关系。其中，对于该手势与可执行操作之间的对应关系，可由本领域普通技术人员根据实际需要进行设置，本申请实施例中对此不作具体限制。

相应的，处理器在接收到专用语音识别芯片传输的指示预测手势的中断信号之后，进一步根据预先建立的手势与可执行操作之间的对应关系，确定出对应预测手势的可执行操作，记为目标操作，然后执行该目标操作。

比如，手势“向下挥手”对应的可执行操作为向下滚动显示界面，处理器可以在预测手势为“向下挥手”时，将电子设备的显示界面向下滚动；又比如，手势“左右摇手三下”对应的可执行操作为前台运行地铁乘车应用，则当用户需要使用地铁乘车应用扫码乘车时，即可执行手势“左右摇手三下”，由处理器前台运行地铁乘车应用，供用户扫码乘车，其中，若地铁乘车应用已在后台运行，则处理器直接将地铁乘车应用切换至前台运行，若地铁乘车应用尚未运行，则处理器直接启动地铁乘车应用，并在前台运行。

在一实施例中，还提供了一种模型训练装置。请参照图8，图8为本申请实施例提供的模型训练装置的结构示意图。其中该模型训练装置应用于电子设备，该电子设备包括音频输出组件和音频采集组件，该模型训练装置包括发射模块301、接收模块302、获取模块303以及训练模块304，如下：

发射模块301，用于接收到目标描述信息时，通过每一音频输出组件向外发射不同频率的超声波信号，目标描述信息用于描述当前存在已知手势；

接收模块302，用于通过每一音频采集组件采集反射回的相应超声波信号，得到多个反射超声波信号；

获取模块303，用于获取每一反射超声波信号的语谱图，得到多个语谱图；

训练模块304，用于根据多个语谱图生成样本图像，并根据样本图像进行模型训练，得到用于手势识别的手势识别模型。

在一实施例中，在根据样本图像进行模型训练，得到用于手势识别的手势识别模型时，训练模块304用于：

构建卷积神经网络，并根据样本图像对卷积神经网络进行训练，直至满足预设结束训练条件；

将满足预设结束训练条件的卷积神经网络作为手势识别模型。

在一实施例中，在根据样本图像对卷积神经网络进行训练时，训练模块304用于：

将样本图像输入卷积神经网络进行手势分类预测，得到对应样本图像的预测手势；

根据样本图像的预测手势与其对应的已知手势之间的差异，对卷积神经网络的参数进行调整。

在一实施例中，在将样本图像输入卷积神经网络进行手势分类预测之前，训练模块304还用于：

将样本图像划分为训练样本图像和测试样本图像；

在将样本图像输入卷积神经网络进行手势分类预测时，训练模块304用于：

将训练样本图像输入卷积神经网络进行手势分类预测；

在将满足预设结束训练条件的卷积神经网络作为手势识别模型时，训练模块304用于：

将测试样本图像输入满足预设结束训练条件的卷积神经网络进行手势分类预测，得到对应测试样本图像的预测手势；

当测试样本图像的预测手势与其对应的已知手势不一致时，根据测试样本图像的预测手势与其对应的已知手势之间的差异再次对卷积神经网络的参数进行调整；

将参数调整后的卷积神经网络作为用于手势识别的手势识别模型。

在一实施例中，在根据多个语谱图生成样本图像时，训练模块304用于：

在一实施例中，还提供了一种手势控制装置。请参照图9，图9为本申请实施例提供的手势控制装置的结构示意图。其中该模型训练装置应用于电子设备，该电子设备包括音频输出组件和音频采集组件，该手势控制装置包括发射模块401、接收模块402、获取模块403、识别模块404以及控制模块405，如下：

发射模块401，用于通过每一音频输出组件向外发射不同频率的超声波信号；

接收模块402，用于通过每一音频采集组件采集反射回的相应超声波信号，得到多个反射超声波信号；

获取模块403，用于获取每一反射超声波信号的语谱图，得到多个语谱图；

识别模块404，用于拼接多个语谱图得到待识别图像，并将待识别图像输入预先训练的手势识别模型进行手势分类预测，得到对应的预测手势；

控制模块405，用于确定对应预测手势的目标操作，并执行目标操作；

其中，手势识别模型采用本申请实施例提供的模型训练方法训练得到。

应当说明的是，本申请实施例提供的手势控制装置与上文实施例中的手势控制方法属于同一构思，在手势控制装置上可以运行手势控制方法实施例中提供的任一方法，其具体实现过程详见以上实施例，此处不再赘述。

在一实施例中，还提供一种电子设备，请参照图10，电子设备包括处理器501、存储器502、多个音频输出组件503和多个音频采集组件504。

本申请实施例中的处理器501是通用处理器，比如ARM架构的处理器。

存储器502中存储有计算机程序，其可以为高速随机存取存储器，还可以为非易失性存储器，比如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。

其中，音频输出组件比如听筒和扬声器等，音频采集组件比如电子设备设置的麦克风。

相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502中计算机程序的访问，执行以上实施例提供的模型训练方法，比如：

接收到目标描述信息时，通过每一音频输出组件向外发射不同频率的超声波信号，目标描述信息用于描述当前存在已知手势；

获取每一反射超声波信号的语谱图，得到多个语谱图；

根据多个语谱图生成样本图像，并根据样本图像进行模型训练，得到用于手势识别的手势识别模型。

或者，执行以上实施例提供的手势控制方法，比如：

通过每一音频输出组件向外发射不同频率的超声波信号；

获取每一反射超声波信号的语谱图，得到多个语谱图；

拼接多个语谱图得到待识别图像，并将待识别图像输入预先训练的手势识别模型进行手势分类预测，得到对应的预测手势；

确定对应预测手势的目标操作，并执行目标操作；

请参照图11，图11为本申请实施例提供的电子设备的另一结构示意图，与图10所示电子设备的区别在于，电子设备还包括专用语音识别芯片505。

其中，专用语音识别芯片505是以语音识别为目的而设计的专用芯片，比如以语音识别为目的而设计的数字信号处理芯片，以语音识别为目的而设计的专用集成电路芯片等，其相较于通用的处理器，具有更低的功耗，适于语音识别任务的处理。其中，专用语音识别芯片505和处理器501之间通过通信总线(比如I2C总线)建立通信连接，实现数据的交互。

在本申请实施例中，电子设备中的处理器501和专用语音识别芯片505通过对存储器502中计算机程序的访问，实现如下功能：

处理器501通过每一音频输出组件503向外发射不同频率的超声波信号；

处理器501通过每一音频采集组件504采集反射回的相应超声波信号，得到多个反射超声波信号；

专用语音识别芯片505获取每一反射超声波信号的语谱图，得到多个语谱图；以及拼接多个语谱图得到待识别图像，并将待识别图像输入预先训练的手势识别模型进行手势分类预测，得到对应的预测手势；

处理器501确定对应预测手势的目标操作，并执行目标操作；

应当说明的是，本申请实施例提供的电子设备与上文实施例中的模型训练方法/手势控制方法属于同一构思，在电子设备上可以运行模型训练方法/手势控制方法实施例中提供的任一方法，其具体实现过程详见模型训练方法/手势控制方法实施例，此处不再赘述。

需要说明的是，对本申请实施例的模型训练方法/手势控制方法而言，本领域普通技术人员可以理解实现本申请实施例的模型训练方法/手势控制方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的处理器和/或专用语音识别芯片执行，在执行过程中可包括如模型训练方法/手势控制方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

以上对本申请实施例所提供的一种模型训练方法、手势控制方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种模型训练方法，应用于电子设备，所述电子设备包括多个音频输出组件以及对应的多个音频采集组件，其特征在于，所述模型训练方法包括：

获取每一反射超声波信号的语谱图，得到多个语谱图；

2.根据权利要求1所述的模型训练方法，其特征在于，所述根据所述样本图像进行模型训练，得到用于手势识别的手势识别模型，包括：

构建卷积神经网络，并根据所述样本图像对所述卷积神经网络进行训练，直至满足预设结束训练条件；

将满足所述预设结束训练条件的卷积神经网络作为所述手势识别模型。

3.根据权利要求2所述的模型训练方法，其特征在于，所述根据所述样本图像对所述卷积神经网络进行训练，包括：

将所述样本图像输入所述卷积神经网络进行手势分类预测，得到对应所述样本图像的预测手势；

根据所述样本图像的预测手势与其对应的已知手势之间的差异，对所述卷积神经网络的参数进行调整。

4.根据权利要求3所述的模型训练方法，其特征在于，所述将所述样本图像输入所述卷积神经网络进行手势分类预测之前，还包括：

将所述样本图像划分为训练样本图像和测试样本图像；

所述将所述样本图像输入所述卷积神经网络进行手势分类预测，包括：

将所述训练样本图像输入所述卷积神经网络进行手势分类预测；

所述将满足所述预设结束训练条件的卷积神经网络作为所述手势识别模型，包括：

将所述测试样本图像输入满足所述预设结束训练条件的卷积神经网络进行手势分类预测，得到对应所述测试样本图像的预测手势；

当所述测试样本图像的预测手势与其对应的已知手势不一致时，根据所述测试样本图像的预测手势与其对应的已知手势之间的差异再次对所述卷积神经网络的参数进行调整；

5.根据权利要求1所述的手势控制方法，其特征在于，所述根据所述多个语谱图生成样本图像，包括：

对所述多个语谱图进行拼接，并将拼接得到的拼接图像作为所述样本图像。

6.一种手势控制方法，应用于电子设备，所述电子设备包括多个音频输出组件以及对应的多个音频采集组件，其特征在于，所述手势控制方法包括：

通过每一音频输出组件向外发射不同频率的超声波信号；

获取每一反射超声波信号的语谱图，得到多个语谱图；

确定对应所述预测手势的目标操作，并执行所述目标操作；

7.一种模型训练装置，应用于电子设备，所述电子设备包括音频输出组件和音频采集组件，其特征在于，包括：

8.一种手势控制装置，应用于电子设备，所述电子设备包括音频输出组件和音频采集组件，其特征在于，包括：

9.一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序被处理器加载时执行如权利要求1至5任一项所述的模型训练方法，或者执行如权利要求6所述的手势控制方法。

10.一种电子设备，包括处理器和存储器，所述存储器储存有计算机程序，其特征在于，所述处理器通过加载所述计算机程序，用于执行如权利要求1至5任一项所述的模型训练方法，或者执行如权利要求6所述的手势控制方法。