CN110780741B

CN110780741B - 模型训练方法、应用运行方法、装置、介质及电子设备

Info

Publication number: CN110780741B
Application number: CN201911032584.XA
Authority: CN
Inventors: 陈喆
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2022-03-01
Anticipated expiration: 2039-10-28
Also published as: CN110780741A

Abstract

本申请实施例公开了一种模型训练方法、应用运行方法、装置、介质及电子设备，其中，当接收到目标描述信息时，通过音频输出组件向外发射超声波信号，目标描述信息用于描述当前存在已知手势；通过音频采集组件采集包括反射回的超声波信号的音频信号；从音频信号中提取反射回的超声波信号的特征向量，并根据特征向量构建样本集；根据样本集进行模型训练，得到基于超声波信号的手势识别模型。由此，即可复用电子设备普遍配置的音频输出组件和音频采集组件向外发射超声波信号和接收反射回的超声波信号，并利用训练得到的手势识别模型实现手势的识别，从而无需在电子设备额外配置用于实现手势识别的手势识别传感器，达到降低电子设备实现手势识别的成本的目的。

Description

模型训练方法、应用运行方法、装置、介质及电子设备

技术领域

本申请涉及音频识别技术领域，具体涉及一种模型训练方法、应用运行方法、装置、介质及电子设备。

背景技术

目前，人们的生活已离不开智能手机、平板电脑等电子设备，通过这些电子设备所提供的各种各样丰富的功能，使得人们能够随时随地的娱乐、办公等。在相关技术中，用户可以通过手势的方式实现与电子设备间的人机交互，获得电子设备提供的服务。相较于传统的控制方式，手势在使用上更加自由，也更加灵活、直观。然而，电子设备需要增加额外的手势传感器来实现对手势的识别，存在较高的硬件成本。

发明内容

本申请实施例提供了一种模型训练方法、应用运行方法、装置、存储介质及电子设备，能够降低电子设备实现手势识别的成本。

本申请实施例提供的模型训练方法，应用于电子设备，该电子设备包括音频输出组件和音频采集组件，该模型训练方法包括：

当接收到目标描述信息时，通过所述音频输出组件向外发射超声波信号，所述目标描述信息用于描述当前存在已知手势；

通过所述音频采集组件采集包括反射回的超声波信号的音频信号；

从所述音频信号中提取所述反射回的超声波信号的特征向量，并根据所述特征向量构建样本集；

根据所述样本集进行模型训练，得到基于所述超声波信号的手势识别模型。

本申请实施例提供的应用运行方法，应用于电子设备，该电子设备包括音频输出组件和音频采集组件，该应用运行方法包括：

通过所述音频输出组件向外发射超声波信号；

通过所述音频采集组件采集包括反射回的超声波信号的待识别音频信号；

调用预先训练的手势识别模型，并从所述待识别音频信号中提取所述反射回的超声波信号的特征向量；

将所述特征向量输入所述手势识别模型进行手势识别，得到对应的第一手势；

确定对应所述第一手势的目标应用，并前台运行所述目标应用；

其中，所述手势识别模型采用权利要求1-3任一项所述的模型训练方法训练得到。

本申请实施例提供的模型训练装置，应用于电子设备，所述电子设备包括音频输出组件和音频采集组件，该模型训练装置包括：

发射模块，用于当接收到目标描述信息时，通过所述音频输出组件向外发射超声波信号，所述目标描述信息用于描述当前存在已知手势；

接收模块，用于通过所述音频采集组件采集包括反射回的超声波信号的音频信号；

提取模块，用于从所述音频信号中提取所述反射回的超声波信号的特征向量，并根据所述特征向量构建样本集；

训练模块，用于根据所述样本集进行模型训练，得到基于所述超声波信号的手势识别模型。

本申请实施例提供的应用运行装置，应用于电子设备，所述电子设备包括音频输出组件和音频采集组件，该应用运行装置包括：

发射模块，用于通过所述音频输出组件向外发射超声波信号；

接收模块，用于通过所述音频采集组件采集包括反射回的超声波信号的待识别音频信号；

提取模块，用于调用预先训练的手势识别模型，并从所述待识别音频信号中提取所述反射回的超声波信号的特征向量；

识别模块，用于将所述特征向量输入所述手势识别模型进行手势识别，得到对应的第一手势；

控制模块，用于确定对应所述第一手势的目标应用，并前台运行所述目标应用；

其中，所述手势识别模型采用本申请实施例提供的型训练方法训练得到。

本申请实施例提供的存储介质，其上存储有计算机程序，当所述计算机程序被处理器加载时执行如本申请提供的模型训练方法，或者执行本申请提供的应用运行方法。

本申请实施例提供的电子设备，包括处理器和存储器，所述存储器存有计算机程序，所述处理器通过加载所述计算机程序，用于执行本申请提供的模型训练方法，或者执行本申请提供的应用运行方法。

本申请通过复用电子设备普遍配置的音频输出组件和音频采集组件向外发射超声波信号和接收反射回的超声波信号，并利用训练得到的手势识别模型实现手势的识别，从而无需在电子设备额外配置用于实现手势识别的手势识别传感器，达到降低电子设备实现手势识别的成本的目的。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的模型训练方法的流程示意图。

图2是本申请实施例中电子设备的听筒和麦克风的设置位置示意图。

图3是本申请实施例中对音频信号进行分帧处理的示意图。

图4是本申请实施例提供的应用运行方法的流程示意图。

图5是本申请实施例提供的模型训练装置的结构示意图。

图6是本申请实施例提供的应用运行装置的结构示意图。

图7是本申请实施例提供的电子设备的一结构示意图。

图8是本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是通过所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的方案涉及人工智能的机器学习技术，具体通过如下实施例进行说明:

本申请实施例提供一种模型训练方法、应用运行方法、模型训练装置、应用运行装置、存储介质以及电子设备，其中，该模型训练方法的执行主体可以是本申请实施例中提供的模型训练装置，或者集成了该模型训练装置的电子设备，其中该模型训练装置可以采用硬件或软件的方式实现；该应用运行方法的执行主体可以是本申请实施例中提供的应用运行装置，或者集成了该应用运行装置的电子设备，其中该应用运行装置可以采用硬件或软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等配置有处理器(包括但不限于通用处理器、定制化处理器等)而具有处理能力的设备。

请参照图1，图1为本申请实施例提供的模型训练方法的流程示意图，本申请实施例提供的模型训练方法的流程可以如下：

在101中，当接收到目标描述信息时，通过音频输出组件向外发射超声波信号，目标描述信息用于描述当前存在已知手势。

应当说明的是，在本申请实施例中，通过复用电子设备普遍配置的音频输出组件和音频采集组件实现超声波传感器的功能，其中，音频输出组件比如电子设备设置的听筒和扬声器等，音频输出组件比如电子设备设置的麦克风。

示例性的，请参照图2，电子设备上部设置有听筒，缺省用于语音通话，还设置有麦克风，缺省用于采集环境声实现降噪，相应的，本申请实施例中，可以复用电子设备的听筒和麦克风来实现超声波传感器的功能。

其中，电子设备首先接收目标描述信息，该目标描述信息用于描述当前存在已知手势。应当说明的是，已知手势为预先定义的手势，可由本领域普通技术人员根据实际需要灵活设置，比如左右挥动电子设备、上下挥动电子设备等。

当接收到目标描述信息时，电子设备通过设置音频输出组件向外发射超声波信号。比如，电子设备在接收到目标描述信息，首先通过功放组件对原始的超声波信号进行放大，然后将放大后的超声波信号传输给听筒(即音频输出组件)，由听筒向外发射超声波信号。

可以理解的是，超声波信号的频率位于人耳感知范围之外，当电子设备通过音频输出组件向外发射超声波信号时，并不会对用户造成影响。其中，对于超声波信号频率的选取，可由本领域普通技术人员根据实际需要灵活选取，比如，本申请实施例中采用频率为21KHz的超声波信号。

在102中，通过音频采集组件采集包括反射回的超声波信号的音频信号。

可以理解的是，根据超声波信号直线传播的特性，当发射出的超声波信号被人体阻挡时，将产生反射现象。基于此，在本申请实施例中，电子设备还相应通过设置的音频采集组件进行音频采集，可以理解的是，由于音频采集组件为通用的音频采集组件，电子设备通过音频采集组件采集的音频信号中除了包括反射回的超声波信号之外，还将包括除超声波信号之外的噪声成分，比如环境音。

示例性的，以麦克风为例，假设麦克风为模拟麦克风，那么将采集到模拟的音频信号，此时需要将模拟的音频信号进行模数转换，得到数字化的音频信号，用于后续处理。比如，可以在通过麦克风采集到包括反射回的超声波信号的模拟音频信号后，以48KHz的采样频率对该模拟音频信号进行采样，得到数字化的音频信号。

此外，若麦克风为数字麦克风，那么将直接采集到数字化的音频信号，无需再进行模数转换。

在103中，从音频信号中提取反射回的超声波信号的特征向量，并根据特征向量构建样本集。

在采集到包括反射回的超声波信号的音频信号之后，电子设备进一步按照预设的特征提取策略从采集到的音频信号中提取反射回的超声波信号的特征向量，该特征向量即表征了前述已知手势。

如上所述，对应不同的已知手势，电子设备可以获取到对应不同已知手势的特征向量。比如，假设预先定义有已知手势1、已知手势2、已知手势3、已知手势4、已知手势5以及已知手势6，对于每一已知手势，可以获取对应预设数量的不同用户执行已知手势的特征向量，这样，对于每一已知手势，将最终获取到预设数量的特征向量。

本申请实施例中，在获取到对应不同已知手势的特征向量之后，将已知手势作为标签构建样本集。

在104中，根据样本集进行模型训练，得到基于超声波信号的手势识别模型。

本申请实施例中，在完成样本集的构建之后，电子设备即可根据该样本集进行模型训练，以得到基于超声波信号的手势识别模型。

比如，预先由本领域普通技术人员根据实际需要配置进行模型训练的基础模型，然后基于该基础模型，根据构建的样本集进行有监督的模型训练，将训练完成的基础模型作为手势识别模型。

由上可知，本申请通过当接收到目标描述信息时，通过音频输出组件向外发射超声波信号，目标描述信息用于描述当前存在已知手势；通过音频采集组件采集包括反射回的超声波信号的音频信号；从音频信号中提取反射回的超声波信号的特征向量，并根据特征向量构建样本集；根据样本集进行模型训练，得到基于超声波信号的手势识别模型。由此，即可复用电子设备普遍配置的音频输出组件和音频采集组件向外发射超声波信号和接收反射回的超声波信号，并利用训练得到的手势识别模型实现手势的识别，从而无需在电子设备额外配置用于实现手势识别的手势识别传感器，达到降低电子设备实现手势识别的成本的目的。

在一实施例中，从音频信号中提取反射回的超声波信号的特征向量，包括：

(1)对音频信号进行分帧处理，得到多个音频帧；

(2)从多个音频帧中确定对应已知手势的目标音频帧；

(3)对目标音频帧进行傅里叶变换，并根据傅里叶变换结果获取超声波信号对应的频率成分的第一幅值，以及获取与频率成分相邻的预设个数的其它频率成分的第二幅值；

(4)根据第一幅值以及第二幅值构建特征向量。

本申请实施例中，电子设备可以按照如下方式从采集到的音频信号中提取反射回的超声波信号的特征向量。

其中，电子设备首先对采集到的音频信号进行分帧处理，由此得到多个音频帧。

比如，请参照图3，对采集到的音频信号x(n)进行分帧处理，其中每帧长度为N(可由本领域普通技术人员根据实际需要灵活取值，比如，本申请实施例中N取值为4096)，共分帧得到m个音频帧，每个音频帧可以表示为x_m(n)。

可以理解的是，已知手势在音频信号的采集过程中并不是从头到尾均存在的，因此，在对采集到的音频信号进行分帧处理，得到多个音频帧之后，电子设备进一步从分帧得到的多个音频帧中确定出对应已知手势的目标音频帧。

比如，电子设备可以首先获取到已知手势在执行的起始时刻以及结束时刻，如根据前述起始时刻和结束时刻从分帧得到的多个音频帧中确定出对应已知手势的目标音频帧，假设音频信号的采样频率为48KHZ，已知手势的长度为1秒，若分帧得到音频帧的长度为4096，则电子设备将从分帧得到的多个音频帧中确定出12个目标音频帧。

在从分帧得到的多个音频帧中确定出对应已知手势的目标音频帧之后，电子设备对目标音频帧进行傅里叶变换，并根据傅里叶变换结果获取超声波信号对应的频率成分的第一幅值，以及获取与频率成分相邻的预设个数的其它频率成分的第二幅值，再根据第一幅值以及第二幅值构建特征向量。

比如，对音频帧x_m(n)进行快速傅里叶变换，得到傅里叶变换结果X_m(k)＝FFT[x_m(n)]，其中，k为频点，幅值为A_m(k)＝|X_m(k)|，假设超声波信号的频率为f₀，则A_m(k)在f₀处幅值最大，取A_m(k)在f₀处的幅值为第一幅值，取f₀的前30点和后30点频率成分的幅值为第二幅值，对于每一目标音频帧，构成特征向量v_m＝[A_m(f₀-30),A_m(f₀-29)...A_m(f₀-1),A_m(f₀+1)...A_m(f₀+29),A_m(f₀+30)]。

如上所述，对于一音频信号，将从其中提取出多个特征向量。

相应的，在构建样本集时，可以将对应同一音频信号的多个特征向量组合为向量矩阵，将该向量矩阵作为一个样本用于构建样本集。

比如，假设确定的目标音频帧为12个，则构建的向量矩阵V＝[v₁,v₂,...v₁₂]，其中v₁,v₂,...v₁₂分别表示从12个目标音频帧中提取出的特征向量。

在一实施例中，根据样本集进行模型训练，得到基于超声波信号的手势识别模型，包括：

(1)将样本集划分为训练集和测试集；

(2)构建支持向量机模型，并根据训练集对支持向量机模型进行训练，直至支持向量机模型收敛；

(3)根据测试集对收敛的支持向量机模型进行校验；

(4)当校验通过时，将收敛的支持向量机模型作为手势识别模型。

本申请实施例中，电子设备可以按照如下方式训练得到手势识别模型。

电子设备首先按照预设的划分比例将构建的样本集划分为训练集和测试集。其中，划分比例可由本领域普通技术人员根据实际需要进行划分，比如，本申请实施例中划分比例配置为8:2。

此外，为降低实现手势识别对计算资源的消耗，本申请实施例中采用支持向量即模型作为模型训练的基础模型，然后，电子设备根据划分得到的训练集，采用有监督的模型训练方式对支持向量模型进行训练，直至支持向量机模型收敛。

当支持向量机模型收敛时，电子设备进一步根据测试集对收敛的支持向量机模型的分类准确度进行校验，也即是校验收敛的支持向量机模型的分类准确度是否达到预设准确度，当收敛的支持向量机模型的分类准确度达到预设准确度时，即将该收敛的支持向量机模型作为手势识别模型。

请参照图4，图4为本申请实施例提供的应用运行方法的流程示意图，本申请实施例提供的应用运行方法的流程可以如下：

在201中，通过音频输出组件向外发射超声波信号。

此外，还应当说明的是，电子设备还包括专用语音识别芯片和处理器，其中，处理器为适于通用处理任务的处理器，比如ARM架构的处理器。

专用语音识别芯片是以语音识别为目的而设计的专用芯片，比如以语音识别为目的而设计的数字信号处理芯片，以语音识别为目的而设计的专用集成电路芯片等，其相较于通用的处理器，具有更低的功耗，适于语音识别任务的处理。其中，专用语音识别芯片和处理器之间通过通信总线(比如I2C总线)建立通信连接，实现数据的交互。

其中，处理器通过音频输出组件向外发射超声波信号，以探测可能存在的用户手势。

比如，处理器首先通过功放组件对原始的超声波信号进行放大，然后将放大后的超声波信号传输给听筒(即音频输出组件)，由听筒向外发射超声波信号。

可以理解的是，超声波信号的频率位于人耳感知范围之外，当处理器通过音频输出组件向外发射超声波信号时，并不会对用户造成影响。其中，对于超声波信号频率的选取，可由本领域普通技术人员根据实际需要灵活选取，比如，本申请实施例中采用频率为21KHz的超声波信号。

在202中，通过音频采集组件采集包括反射回的超声波信号的待识别音频信号。

可以理解的是，根据超声波信号直线传播的特性，当发射出的超声波信号被人体阻挡时，将产生反射现象。基于此，在本申请实施例中，处理器还相应通过设置的音频采集组件进行音频采集，可以理解的是，由于音频采集组件为通用的音频采集组件，处理器通过音频采集组件采集的待识别音频信号中除了包括反射回的超声波信号之外，还将包括除超声波信号之外的噪声成分，比如环境音。

示例性的，以麦克风为例，假设麦克风为模拟麦克风，那么将采集到模拟的待识别音频信号，此时需要将模拟的待识别音频信号进行模数转换，得到数字化的待识别音频信号，用于后续处理。比如，可以在通过麦克风采集到包括反射回的超声波信号的模拟的待识别音频信号后，以48KHz的采样频率对该模拟音频信号进行采样，得到数字化的待识别音频信号。

此外，若麦克风为数字麦克风，那么将直接采集到数字化的待识别音频信号，无需再进行模数转换。

在203中，调用预先训练的手势识别模型，并从待识别音频信号中提取反射回的超声波信号的特征向量。

应当说明的是，本申请实施例预先采用以上实施例提供的模型训练方法训练有手势识别模型。

此外，处理器在采集得到待识别音频信号之后，指示专用语音识别芯片调用预先训练的手势识别模型，并将采集的待识别信号提供给专用语音识别芯片，由专用语音识别芯片从待识别音频信号中提取反射回的超声波信号的特征向量。其中，对于如何提取特征向量，可以参照以上模型训练方法实施例中的提取方式相应实施，此处不再赘述。

在204中，将特征向量输入手势识别模型进行手势识别，得到对应的第一手势。

在从待识别音频信号中提取到反射回的超声波信号的特征向量之后，专用语音识别芯片将提取到的特征向量输入手势识别模型进行手势识别，得到对应特征向量的用户手势，记为第一手势。之后，专用语音识别芯片将确定出的第一手势以中断信号的方式传输给处理器。

在205中，确定对应第一手势的目标应用，并前台运行目标应用。

应当说明的是，在本申请实施例中，为了实现应用的快速启动，预先建立用不同手势与应用之间的对应关系。

相应的，处理器在接收到专用语音识别芯片传输的指示第一手势的中断信号之后，进一步根据预先建立的手势和应用之间的对应关系，确定出对应第一手势的目标应用，然后前台运行目标应用。

比如，第一手势为用户挥动手机三下，对应的目标应用为地铁乘车应用，当用户需要使用地铁乘车应用扫码乘车时，即可执行第一手势，由处理器前台运行地铁乘车应用，供用户扫码乘车，其中，若地铁乘车应用已在后台运行，则处理器直接将地铁乘车应用切换至前台运行，若地铁乘车应用尚未运行，则处理器直接启动地铁乘车应用，并在前台运行。

在一实施例中，确定对应第一手势的目标应用，并前台运行目标应用之前，还包括：

(1)获取在音频采集组件采集待识别音频信号期间的加速度数据；

(2)识别对应加速度数据的第二手势；

(3)判断第二手势与第一手势是否一致；

(4)当第二手势与第一手势一致时，确定对应第一手势的目标应用，并前台运行目标应用。

为了确保手势识别的准确性，本申请实施例中，再利用预先训练的手势识别模型识别出第一手势之后，处理器进一步获取在音频采集组件采集待识别音频信号期间的加速度数据。比如，处理器可以实时记录电子设备中普遍设置的加速度传感器所采集的加速度数据，从而可以从记录的加速度数据中获取到在音频采集组件采集待识别音频信号期间的加速度数据。

在获取到前述加速度数据之后，处理器根据预先配置的基于加速度数据的手势识别算法，识别出对应前述加速度数据的第二手势。然后，处理器进一步第二手势与第一手势是否一致，其中，在且仅在第二手势与第一手势一致时，处理器才确定对应第一手势的目标应用，并前台运行该目标应用，具体可参照以上实施例中的相关描述，此处不再赘述。

如上，通过采用两种不同的手势识别方式进行手势识别，以此来确保手势识别的准确性。

在一实施例中，在前台运行目标应用之前，还包括：

(1)根据待识别音频信号识别电子设备的当前所处场景；

(2)判断当前所处场景是否与目标应用适于运行的目标场景一致；

(3)在当前所处场景与目标场景一致时，前台运行目标应用。

应当说明的是，本申请实施例中预先将电子设备的使用场景进行分类，包括但不限于公交车场景、地铁场景、餐厅场景以及办公室场景等。

本申请实施例中，处理器在第二手势与第一手势一致，并确定对应第一手势的目标应用之后，并不立即前台运行确定出的目标应用，而是先根据音频信号识别电子设备的当前所处场景。

比如，处理器可以调用预先训练的基于音频信号的场景识别模型，从而可以将待识别音频信号输入场景识别模型中进行场景识别，识别出电子设备的当前所处场景。

又比如，处理器可以将待识别音频信号与关联已知使用场景的样本音频信号进行比对，当存在已知使用场景的样本音频信号与待识别音频信号的相似度达到预设相似度(可由本领域普通技术人员根据实际需要灵活设置)时，将该已知使用场景作为电子设备的当前所处场景。

此外，还需要说明的时，不同类型的应用通常适于在不同的使用场景下运行，比如适于在地铁场景下运行的地铁乘车应用、适于在公交车场景下运行的公交乘车应用、适于在餐厅场景下运行的点餐应用以及适于在办公室场景下运行办公应用等。

相应的，处理器在根据待识别音频信号识别出电子设备的当前所处场景之后，进一步判断识别出的当前所处场景是否与目标应用所适于运行的目标场景一致，其中，在且仅在识别出的当前所处场景与目标应用所适于运行的目标场景一致时，处理器才前台运行该目标应用，具体可参照以上实施例中的相关描述，此处不再赘述。

在一实施例中，还提供了一种模型训练装置。请参照图5，图5为本申请实施例提供的模型训练装置的结构示意图。其中该模型训练装置应用于电子设备，该电子设备包括音频输出组件和音频采集组件，该模型训练装置包括发射模块301、接收模块302、提取模块303以及训练模块304，如下：

发射模块301，用于当接收到目标描述信息时，通过音频输出组件向外发射超声波信号，目标描述信息用于描述当前存在已知手势；

接收模块302，用于通过音频采集组件采集包括反射回的超声波信号的音频信号；

提取模块303，用于从音频信号中提取反射回的超声波信号的特征向量，并根据特征向量构建样本集；

训练模块304，用于根据样本集进行模型训练，得到基于超声波信号的手势识别模型。

在一实施例中，在从音频信号中提取反射回的超声波信号的特征向量时，提取模块303用于：

对音频信号进行分帧处理，得到多个音频帧；

从多个音频帧中确定对应已知手势的目标音频帧；

对目标音频帧进行傅里叶变换，并根据傅里叶变换结果获取超声波信号对应的频率成分的第一幅值，以及获取与频率成分相邻的预设个数的其它频率成分的第二幅值；

根据第一幅值以及第二幅值构建特征向量。

在一实施例中，在根据样本集进行模型训练，得到基于超声波信号的手势识别模型时，训练模块304用于：

将样本集划分为训练集和测试集；

构建支持向量机模型，并根据训练集对支持向量机模型进行训练，直至支持向量机模型收敛；

根据测试集对收敛的支持向量机模型进行校验；

当校验通过时，将收敛的支持向量机模型作为手势识别模型。

应当说明的是，本申请实施例提供的模型训练装置与上文实施例中的模型训练方法属于同一构思，在模型训练装置上可以运行模型训练方法实施例中提供的任一方法，其具体实现过程详见以上实施例，此处不再赘述。

在一实施例中，还提供了一种应用运行装置。请参照图6，图6为本申请实施例提供的应用运行装置的结构示意图。其中该模型训练装置应用于电子设备，该电子设备包括音频输出组件和音频采集组件，该模型训练装置包括发射模块401、接收模块402、提取模块403、识别模块404以及控制模块405，如下：

发射模块401，用于通过音频输出组件向外发射超声波信号；

接收模块402，用于通过音频采集组件采集包括反射回的超声波信号的待识别音频信号；

提取模块403，用于调用预先训练的手势识别模型，并从待识别音频信号中提取反射回的超声波信号的特征向量；

识别模块404，用于将特征向量输入手势识别模型进行手势识别，得到对应的第一手势；

控制模块405，用于确定对应第一手势的目标应用，并前台运行目标应用；

其中，手势识别模型采用本申请实施例提供的模型训练方法训练得到。

在一实施例中，确定对应第一手势的目标应用，并前台运行目标应用之前时，控制模块405还用于：

获取在音频采集组件采集待识别音频信号期间的加速度数据；

识别对应加速度数据的第二手势；

判断第二手势与第一手势是否一致；

当第二手势与第一手势一致时，确定对应第一手势的目标应用，并前台运行目标应用。

在一实施例中，在前台运行目标应用之前，控制模块405还用于：

根据待识别音频信号识别电子设备的当前所处场景；

判断当前所处场景是否与目标应用适于运行的目标场景一致；

在当前所处场景与目标场景一致时，前台运行目标应用。

应当说明的是，本申请实施例提供的应用运行装置与上文实施例中的应用运行方法属于同一构思，在应用运行装置上可以运行应用运行方法实施例中提供的任一方法，其具体实现过程详见以上实施例，此处不再赘述。

在一实施例中，还提供一种电子设备，请参照图7，电子设备包括处理器501、存储器502、音频输出组件503和音频采集组件504。

本申请实施例中的处理器501是通用处理器，比如ARM架构的处理器。

存储器502中存储有计算机程序，其可以为高速随机存取存储器，还可以为非易失性存储器，比如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。

相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502中计算机程序的访问，执行以上实施例提供的模型训练方法，比如：

当接收到目标描述信息时，通过音频输出组件503向外发射超声波信号，目标描述信息用于描述当前存在已知手势；

通过音频采集组件504采集包括反射回的超声波信号的音频信号；

从音频信号中提取反射回的超声波信号的特征向量，并根据特征向量构建样本集；

根据样本集进行模型训练，得到基于超声波信号的手势识别模型。

或者，执行以上实施例提供的应用运行方法，比如：

通过音频输出组件503向外发射超声波信号；

通过音频采集组件504采集包括反射回的超声波信号的待识别音频信号；

调用预先训练的手势识别模型，并从待识别音频信号中提取反射回的超声波信号的特征向量；

将特征向量输入手势识别模型进行手势识别，得到对应的第一手势；

确定对应第一手势的目标应用，并前台运行目标应用；

请参照图8，图8为本申请实施例提供的电子设备的另一结构示意图，与图7所示电子设备的区别在于，电子设备还包括专用语音识别芯片506。

其中，专用语音识别芯片506是以语音识别为目的而设计的专用芯片，比如以语音识别为目的而设计的数字信号处理芯片，以语音识别为目的而设计的专用集成电路芯片等，其相较于通用的处理器，具有更低的功耗，适于语音识别任务的处理。其中，专用语音识别芯片506和处理器501之间通过通信总线(比如I2C总线)建立通信连接，实现数据的交互。

在本申请实施例中，电子设备中的处理器501和专用语音识别芯片505通过对存储器502中计算机程序的范围，实现如下功能：

处理器501通过音频输出组件503向外发射超声波信号；

处理器501通过音频采集组件504采集包括反射回的超声波信号的待识别音频信号；

专用语音识别芯片505调用预先训练的手势识别模型，并从待识别音频信号中提取反射回的超声波信号的特征向量；

专用语音识别芯片505将特征向量输入手势识别模型进行手势识别，得到对应的第一手势；

处理器501确定对应第一手势的目标应用，并前台运行目标应用；

在一实施例中，在确定对应第一手势的目标应用，并前台运行目标应用之前，处理器501还可以执行：

识别对应加速度数据的第二手势；

判断第二手势与第一手势是否一致；

在一实施例中，在在前台运行目标应用之前，处理器501还可以执行：

根据待识别音频信号识别电子设备的当前所处场景；

(3)在当前所处场景与目标场景一致时，前台运行目标应用。

应当说明的是，本申请实施例提供的电子设备与上文实施例中的模型训练方法/应用运行方法属于同一构思，在电子设备上可以运行模型训练方法/应用运行方法实施例中提供的任一方法，其具体实现过程详见模型训练方法/应用运行方法实施例，此处不再赘述。

需要说明的是，对本申请实施例的模型训练方法/应用运行方法而言，本领域普通技术人员可以理解实现本申请实施例的模型训练方法/应用运行方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的处理器和/或专用语音识别芯片执行，在执行过程中可包括如模型训练方法/应用运行方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

以上对本申请实施例所提供的一种模型训练方法、应用运行方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种模型训练方法，应用于电子设备，所述电子设备包括音频输出组件和音频采集组件，其特征在于，包括：

对所述音频信号进行分帧处理，得到多个音频帧，从所述多个音频帧中确定对应所述已知手势的目标音频帧，对所述目标音频帧进行傅里叶变换，并根据傅里叶变换结果获取所述超声波信号对应的频率成分的第一幅值，以及获取与所述频率成分相邻的预设个数的其它频率成分的第二幅值，根据所述第一幅值以及所述第二幅值构建所述反射回的超声波信号的特征向量，并根据所述特征向量构建样本集；

2.根据权利要求1所述的模型训练方法，其特征在于，所述根据所述样本集进行模型训练，得到基于所述超声波信号的手势识别模型，包括：

将所述样本集划分为训练集和测试集；

构建支持向量机模型，并根据所述训练集对所述支持向量机模型进行训练，直至所述支持向量机模型收敛；

根据所述测试集对收敛的支持向量机模型进行校验；

当校验通过时，将所述收敛的支持向量机模型作为所述手势识别模型。

3.一种应用运行方法，应用于电子设备，所述电子设备包括音频输出组件和音频采集组件，其特征在于，包括：

通过所述音频输出组件向外发射超声波信号；

其中，所述手势识别模型采用权利要求1或2所述的模型训练方法训练得到。

4.根据权利要求3所述的应用运行方法，其特征在于，所述确定对应所述第一手势的目标应用，并前台运行所述目标应用之前，还包括：

获取在所述音频采集组件采集所述待识别音频信号期间的加速度数据；

识别对应所述加速度数据的第二手势；

判断所述第二手势与所述第一手势是否一致；

当所述第二手势与所述第一手势一致时，确定对应所述第一手势的目标应用，并前台运行所述目标应用。

5.根据权利要求4所述的应用运行方法，其特征在于，所述前台运行所述目标应用之前，还包括：

根据所述待识别音频信号识别所述电子设备的当前所处场景；

判断所述当前所处场景是否与所述目标应用适于运行的目标场景一致；

在所述当前所处场景与所述目标场景一致时，前台运行所述目标应用。

6.一种模型训练装置，应用于电子设备，所述电子设备包括音频输出组件和音频采集组件，其特征在于，包括：

提取模块，用于对所述音频信号进行分帧处理，得到多个音频帧，从所述多个音频帧中确定对应所述已知手势的目标音频帧，对所述目标音频帧进行傅里叶变换，并根据傅里叶变换结果获取所述超声波信号对应的频率成分的第一幅值，以及获取与所述频率成分相邻的预设个数的其它频率成分的第二幅值，根据所述第一幅值以及所述第二幅值构建所述反射回的超声波信号的特征向量，并根据所述特征向量构建样本集；

7.一种应用运行装置，应用于电子设备，所述电子设备包括音频输出组件和音频采集组件，其特征在于，包括：

8.一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序被处理器加载时执行如权利要求1或2所述的模型训练方法，或者执行如权利要求3至5所述的应用运行方法。

9.一种电子设备，包括处理器和存储器，所述存储器储存有计算机程序，其特征在于，所述处理器通过加载所述计算机程序，用于执行如权利要求1或2所述的模型训练方法，或者执行如权利要求3至5所述的应用运行方法。