CN111323783A

CN111323783A - 场景识别方法、装置、存储介质及电子设备

Info

Publication number: CN111323783A
Application number: CN202010125949.XA
Authority: CN
Inventors: 陈喆
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2020-06-23

Abstract

本申请实施例公开了一种场景识别方法、装置、存储介质及电子设备，其中，通过音频输出组件向外发射超声波信号；通过音频采集组件采集包括反射回的超声波信号的音频信号；从音频信号中过滤出反射回的超声波信号，并提取反射回的超声波信号的特征向量；调用预训练的场景识别模型对特征向量进行识别，得到场景识别结果。由此，通过复用电子设备普遍配置的音频输出组件和音频采集组件向外发射超声波信号和接收反射回的超声波信号，并利用预先训练得到的场景识别模型实现对电子设备当前所处场景的识别，由于无需利用卫星定位技术即可实现场景识别，相较于相关技术能够更稳定的进行场景识别。

Description

场景识别方法、装置、存储介质及电子设备

技术领域

本申请涉及音频识别技术领域，具体涉及一种场景识别方法、装置、存储介质及电子设备。

背景技术

目前，人们的生活已离不开智能手机、平板电脑等电子设备，通过这些电子设备所提供的各种各样丰富的功能，使得人们能够随时随地的娱乐、办公等。在相关技术中，电子设备可以利用卫星定位技术识别当前所处环境场景，并据此提供基于环境场景的服务。然而，由于各种因素的干扰，使得卫星信号并不稳定，导致电子设备进行场景识别的稳定性较差。

发明内容

本申请实施例提供了一种场景识别方法、装置、存储介质及电子设备，能够提升电子设备进行场景识别的稳定性。

本申请实施例提供的场景识别方法，应用于电子设备，该电子设备包括音频输出组件和音频采集组件，该场景识别方法包括：

通过所述音频输出组件向外发射超声波信号；

通过所述音频采集组件采集包括反射回的超声波信号的音频信号；

从所述音频信号中过滤出所述反射回的超声波信号，并提取所述反射回的超声波信号的特征向量；

调用预训练的场景识别模型对所述特征向量进行识别，得到场景识别结果。

本申请实施例提供的场景识别装置，应用于电子设备，所述电子设备包括音频输出组件和音频采集组件，该场景识别装置包括：

发射模块，用于通过所述音频输出组件向外发射超声波信号；

接收模块，用于通过所述音频采集组件采集包括反射回的超声波信号的音频信号；

提取模块，用于从所述音频信号中过滤出所述反射回的超声波信号，并提取所述反射回的超声波信号的特征向量；

识别模块，用于调用预训练的场景识别模型对所述特征向量进行识别，得到场景识别结果。

本申请实施例提供的电子设备，包括处理器和存储器，所述存储器存有计算机程序，所述处理器通过加载所述计算机程序，用于执行本申请提供的场景识别方法。

本申请通过复用电子设备普遍配置的音频输出组件和音频采集组件向外发射超声波信号和接收反射回的超声波信号，并利用预先训练得到的场景识别模型实现对电子设备当前所处场景的识别，由于无需利用卫星定位技术即可实现场景识别，相较于相关技术能够更稳定的进行场景识别。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的场景识别方法的流程示意图。

图2是本申请实施例中电子设备的听筒和麦克风的设置位置示意图。

图3是本申请实施例中对音频信号进行分帧处理的示意图。

图4是本申请实施例提供的场景识别方法的流程示意图。

图5是本申请实施例提供的场景识别装置的结构示意图。

图6是本申请实施例提供的电子设备的一结构示意图。

图7是本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是通过所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

本申请实施例提供的方案涉及人工智能的机器学习技术，具体通过如下实施例进行说明:

本申请实施例提供一种场景识别方法、场景识别装置、存储介质以及电子设备，其中，该场景识别方法的执行主体可以是本申请实施例中提供的场景识别装置，或者集成了该场景识别装置的电子设备，其中该场景识别装置可以采用硬件或软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等配置有处理器(包括但不限于通用处理器、定制化处理器等)而具有处理能力的设备。

请参照图1，图1为本申请实施例提供的场景识别方法的流程示意图，本申请实施例提供的场景识别方法的流程可以如下：

在101中，通过音频输出组件向外发射超声波信号。

应当说明的是，在本申请实施例中，通过复用电子设备普遍配置的音频输出组件和音频采集组件实现超声波传感器的功能，其中，音频输出组件比如电子设备设置的听筒和扬声器等，音频输出组件比如电子设备设置的麦克风。

示例性的，请参照图2，电子设备上部设置有听筒，缺省用于语音通话，还设置有麦克风，缺省用于采集环境声实现降噪，相应的，本申请实施例中，可以复用电子设备的听筒和麦克风来实现超声波传感器的功能。

其中，电子设备通过音频输出组件向外发射超声波信号。比如，电子设备首先通过功放组件对原始的超声波信号进行放大，然后将放大后的超声波信号传输给扬声器(即音频输出组件)，由扬声器向外发射超声波信号。

可以理解的是，超声波信号的频率位于人耳感知范围之外，当电子设备通过音频输出组件向外发射超声波信号时，并不会对用户造成影响。其中，对于超声波信号频率的选取，可由本领域普通技术人员根据实际需要灵活选取。

在102中，通过音频采集组件采集包括反射回的超声波信号的音频信号。

应当说明的是，根据超声波信号直线传播的特性，当发射出的超声波信号被物体阻挡时，将产生反射现象。基于此，在本申请实施例中，电子设备还相应通过设置的音频采集组件进行音频采集，得到包括反射回的超声波信号的音频信号。可以理解的是，由于音频采集组件为通用的音频采集组件，电子设备通过音频采集组件采集的音频信号中除了包括反射回的超声波信号之外，还将包括除超声波信号之外的噪声成分，比如环境音。

示例性的，以麦克风为例，假设麦克风为模拟麦克风，那么将采集到模拟的音频信号，此时需要将模拟的音频信号进行模数转换，得到数字化的音频信号，用于后续处理。比如，可以在通过麦克风采集到包括反射回的超声波信号的模拟音频信号后，以48KHz的采样频率对该模拟音频信号进行采样，得到数字化的音频信号。

此外，若麦克风为数字麦克风，那么将直接采集到数字化的音频信号，无需再进行模数转换。

在103中，从音频信号中过滤出反射回的超声波信号，并提取反射回的超声波信号的特征向量。

在采集到包括反射回的超声波信号的音频信号之后，电子设备进一步从采集到的音频信号中过滤出反射回的超声波信号，然后，按照预设的特征提取策略提取反射回的超声波信号的特征向量。应当说明的是，不同的环境场景中往往存在着不同的物体，而每一类环境场景中的物体通常存在一定的共性，由于超声波信号的反射受到环境场景中物体的影响，那么反射回的超声波信号的特征向量即在一定程度上表征了电子设备所处环境场景，从而可以利用提取到的反射回的超声波的特征向量来对场景识别结果进行识别。

在104中，调用预训练的场景识别模型对特征向量进行识别，得到场景识别结果。

应当说明的是，本申请实施例中预先采用机器学习方法训练有场景识别模型，该场景识别模型被配置为以超声波信号的特征向量为输入，以对应的场景识别结果为输出。

相应的，电子设备在从音频信号中提取到反射回的超声波信号的特征向量之后，即可调用预训练的场景识别模型对该特征向量进行识别，从而得到场景识别结果，该场景识别结果即描述了电子设备的当前所处场景。

由上可知，本申请通过复用电子设备普遍配置的音频输出组件和音频采集组件向外发射超声波信号和接收反射回的超声波信号，并利用预先训练得到的场景识别模型实现对电子设备当前所处场景的识别，由于无需利用卫星定位技术即可实现场景识别，相较于相关技术能够更稳定的进行场景识别。

在一实施例中，超声波信号包括扫频超声波信号，提取反射回的超声波信号的特征向量，包括：

(1)对反射回的扫频超声波信号进行分帧处理，并筛选出第一预设数量的音频帧；

(2)对音频帧进行傅里叶变换，并根据傅里叶变换结果获取扫频超声波信号起止频率之间第二预设数量频点的数据值；

(3)根据获取到的数据值构建前述特征向量。

为了能够更准确的进行场景识别，本申请中采用扫频超声波信号，可以表示为：

其中，s(t)表示扫频超声波信号，T表示扫频超声波信号的时长，f₁表示扫频超声波信号的起始频率，f₂表示扫频超声波信号的终止频率，f_s表示采样频率，A₁表示幅值。相应的，在过滤该扫频超声波信号时，可以配置一个起始频率为f₁，截止频率为f₂的带通滤波器，从而利用该带通滤波器从采集到的音频信号中过滤出反射回的扫频超声波信号。

应当说明的是，本申请实施例对扫频超声波信号的参数配置不做具体限制，可由本领域普通技术人员根据实际需要进行配置。

本申请实施例中，电子设备可以按照如下方式提取反射回的扫频超声波信号的特征向量。

其中，电子设备首先对反射回的扫频超声波信号进行分帧处理，如图3所示，共分帧得到m个音频帧x_m(n)，其中每帧长度为N(可由本领域普通技术人员根据实际需要灵活取值，比如，本申请实施例中N取值为4096)，n∈[1,N]。

然后，电子设备对音频帧x_m(n)进行傅里叶变换，得到X_m(k)＝FFT[x_m(n)]，其中k为频点

由于扫频超声波信号的起始频率为f₁，截止频率为f₂，电子设备可以直接取f₁和f₂之间第二预设数量频点的数据值来构成扫频超声波信号的特征向量，表示为：

v_m＝[X_m(f₁),X_m(f₁+1)...X_m(f₁+P/2),X_m(f₂-P/2)...X_m(f₂-1),X_m(f₂)]；

其中，P表示第二预设数量，可由本领域普通技术人员根据实际需要进行取值，本申请对此不作具体限制。

如上所述，对于每一音频帧可以提取得到一特征向量，为了降低数据处理量，可以提取第一预设数量的音频帧的特征向量，其中，本申请对该第一预设数量的取值不做具体限制，可由本领域普通技术人员根据实际需要进行取值。

比如，可以提取Q帧音频帧的特征向量，相应的，将共提取到Q组特征向量，之后，可以将这Q组特征向量组合为扫频超声波信号的特征向量，表示为：

V＝[v₁,v₂,...v_Q]；

其中，V表示扫频超声波信号的特征向量。

在一实施例中，调用预训练的场景识别模型对特征向量进行识别，得到场景识别结果之后，还包括：

获取对应前述场景识别结果的配置参数，并根据配置参数对电子设备进行配置。

应当说明的是，本申请实施例中还针对不同的场景，预先设置有对应的配置参数，用于对电子设备的相关功能进行配置，以使得电子设备能够提供最佳的服务效果。

相应的，当得到场景识别结果之后，电子设备进一步获取到对应该场景识别结果的配置参数，，并根据获取到的配置参数对电子设备的相关功能进行配置，其中，相关功能包括但不限于音视频输出功能、通话功能、语音交互功能等。

比如，当场景识别结果描述电子设备的当前所处场景为室内场景时，电子设备获取到的对应室内场景的通话功能配置参数，并根据该通话功能配置参数对通话功能进行配置。

在一实施例中，配置参数包括降噪参数，根据配置参数对电子设备进行配置，包括：

根据降噪参数对电子设备的降噪模式进行配置，使得电子设备的降噪模式与场景识别结果匹配。

本申请实施例中，配置参数包括用于对电子设备降噪功能进行配置的降噪参数。相应的，本申请实施例中预先针对不同的场景，分别设置有对应的降噪参数。

因此，在根据配置参数对电子设备进行配置时，可以根据降噪参数对电子设备的降噪模式进行配置，使得电子设备的降噪模式与场景识别结果匹配，以更好的进行降噪。

示例性的，以室内场景为例，在场景识别结果描述电子设备的当前所处场景为室内场景时，电子设备相应获取到对应室内场景的降噪参数，并根据获取到的该降噪参数对电子设备的降噪模式进行配置，使得电子设备的降噪模式与室内场景匹配。由此，在使能电子设备的降噪功能时，能够获得室内场景下最佳的降噪效果。比如，可以在电子设备进行语音通话时使能降噪功能，从而使得电子设备能够为用户提供更为清晰的语音通话服务。

在一实施例中，配置参数包括唤醒参数，根据配置参数对电子设备进行配置，还包括：

根据唤醒参数对电子设备的唤醒策略进行配置，使得电子设备的唤醒策略与场景识别结果匹配。

本申请实施例中，配置参数包括用于对电子设备语音交互功能进行配置的唤醒参数。相应的，本申请实施例中预先针对不同的场景，分别设置有对应的唤醒参数。应当说明的是，使能电子设备语音交互功能的前提是唤醒电子设备，唤醒参数可用于对唤醒电子设备的唤醒策略进行配置。

因此，在根据配置参数对电子设备进行配置时，可以根据唤醒参数对电子设备的唤醒策略进行配置，使得电子设备的唤醒策略与场景识别结果匹配，以更好的进行唤醒。比如，电子设备通过安装的语音交互应用提供语音交互功能，唤醒电子设备也即是唤醒电子设备安装的语音交互应用，从而使得电子设备能够通过语音交互应用与用户进行语音交互。

示例性的，以室外场景为例，在场景识别结果描述电子设备的当前所处场景为室外场景时，电子设备相应获取到对应室外场景的唤醒参数，并根据获取到的该唤醒参数对电子设备的唤醒策略进行配置，使得电子设备的唤醒策略与室外场景匹配。由此，在对电子设备进行唤醒时，能够更为准确的对电子设备进行唤醒。比如，在完成唤醒策略的配置后，电子设备实时采集外部的音频数据作为待校验音频数据，并根据唤醒策略对待校验音频数据进行校验，当校验通过时即唤醒语音交互应用。

在一实施例中，通过音频输出组件向外发射超声波信号之前，还包括：

(1)获取对应不同已知场景的样本特征向量，并根据获取到的样本特征向量构建样本集；

(2)根据样本集进行模型训练，得到场景识别模型。

示例性的，以某已知场景为例，可以将电子设备放置在该已知场景中，然后由电子设备按照如下方式获取该已知场景的样本特征向量。

电子设备通过音频输出组件向外发射超声波信号，并通过音频采集组件采集包括反射回的超声波信号的音频信号，然后从该音频信号中过滤出反射回的超声波信号，并提取反射回的超声波信号的特征向量，作为该已知场景的样本特征向量。其中具体可参照以上关于特征向量相关描述，此处不再赘述。

如上所述，对于不同的已知场景，电子设备可以获取到对应不同已知场景的样本特征向量。比如，假设预先定义有室内场景和室外场景，对于室内场景和室外场景，电子设备可以分别获取第三预设数量的样本特征向量。

在获取到对应不同已知场景的样本特征向量之后，电子设备将每一样本特征向量对应的已知场景作为标签构建样本集。

在完成样本集的构建之后，电子设备即可根据该样本集进行模型训练，从而得到基于超声波信号的场景识别模型。

比如，预先由本领域普通技术人员根据实际需要配置进行模型训练的基础模型，然后由电子设备基于该基础模型，根据构建的样本集进行有监督的模型训练，将训练完成的基础模型作为场景识别模型。

在一实施例中，根据样本集进行模型训练，得到场景识别模型，包括：

(1)将样本集划分为训练集和测试集；

(2)构建支持向量机模型，并根据训练集对支持向量机模型进行训练，直至支持向量机模型收敛；

(3)根据测试集对收敛的支持向量机模型进行校验；

(4)当校验通过时，将收敛的支持向量机模型作为场景识别模型。

本申请实施例中，电子设备可以按照如下方式训练得到场景识别模型。

电子设备首先按照预设的划分比例将构建的样本集划分为训练集和测试集。其中，划分比例可由本领域普通技术人员根据实际需要进行划分，比如，本申请实施例中划分比例配置为7:3。

此外，为降低实现场景识别对计算资源的消耗，本申请实施例中采用支持向量机模型作为模型训练的基础模型，然后，电子设备根据划分得到的训练集，采用有监督的模型训练方式对支持向量模型进行训练，直至支持向量机模型收敛。

当支持向量机模型收敛时，电子设备进一步根据测试集对收敛的支持向量机模型的分类准确度进行校验，也即是校验收敛的支持向量机模型的分类准确度是否达到预设准确度，当收敛的支持向量机模型的分类准确度达到预设准确度时，即将该收敛的支持向量机模型作为场景识别模型。

请参照图4，图4为本申请实施例提供的场景识别方法的另一流程示意图，本申请实施例提供的场景识别方法的流程可以如下：

在201中，电子设备通过扬声器向外发射扫频超声波信号。

应当说明的是，电子设备通常配置有音频输出组件和音频采集组件，其中，音频输出组件比如电子设备设置的听筒和扬声器等，音频输出组件比如电子设备设置的麦克风。本申请实施例中，通过复用电子设备的扬声器和麦克风实现超声波传感器的功能。

其中，电子设备通过扬声器向外发射扫频超声波信号。比如，电子设备首先通过功放组件对原始的扫频超声波信号进行放大，然后将放大后的扫频超声波信号传输给即扬声器，由扬声器向外发射。

可以理解的是，超声波信号的频率位于人耳感知范围之外，当电子设备通过扬声器向外发射扫频超声波信号时，并不会对用户造成影响。

在202中，电子设备通过麦克风采集包括反射回的扫频超声波信号的音频信号。

在203中，电子设备从音频信号中过滤出反射回的扫频超声波信号。

应当说明的是，根据超声波信号直线传播的特性，当发射出的超声波信号被物体阻挡时，将产生反射现象。基于此，在本申请实施例中，电子设备还相应通过设置的麦克风进行音频采集，得到包括反射回的扫频超声波信号的音频信号。可以理解的是，电子设备通过麦克风采集的音频信号中除了包括反射回的扫频超声波信号之外，还将包括除扫频超声波信号之外的噪声成分，比如环境音。

本申请实施例中，扫频超声波信号可以表示为：

在204中，电子设备对反射回的扫频超声波信号进行分帧处理，并筛选出第一预设数量的音频帧。

在205中，电子设备对音频帧进行傅里叶变换，并根据傅里叶变换结果获取扫频超声波信号起止频率之间第二预设数量频点的数据值。

在206中，电子设备根据获取到的数据值构建特征向量。

其中，电子设备对反射回的扫频超声波信号进行分帧处理，如图3所示，共分帧得到m个音频帧x_m(n)，其中每帧长度为N(可由本领域普通技术人员根据实际需要灵活取值，比如，本申请实施例中N取值为4096)，n∈[1,N]。

电子设备对音频帧x_m(n)进行傅里叶变换，得到X_m(k)＝FFT[x_m(n)]，其中k为频点

V＝[v₁,v₂,...v_Q]；

其中，V表示扫频超声波信号的特征向量。

在207中，电子设备调用预训练的场景识别模型对特征向量进行识别，得到场景识别结果。

相应的，电子设备在提取到反射回的扫频超声波信号的特征向量之后，即可调用预训练的场景识别模型对该特征向量进行识别，从而得到场景识别结果，该场景识别结果即描述了电子设备的当前所处场景。

在208中，电子设备获取对应场景识别结果的配置参数，并根据配置参数对电子设备进行配置。

在一实施例中，还提供了一种场景识别装置。请参照图5，图5为本申请实施例提供的场景识别装置的结构示意图。其中该场景识别装置应用于电子设备，该电子设备包括音频输出组件和音频采集组件，该场景识别装置包括发射模块301、接收模块302、提取模块303以及训练模块304，如下：

发射模块301，用于通过音频输出组件向外发射超声波信号；

接收模块302，用于通过音频采集组件采集包括反射回的超声波信号的音频信号；

提取模块303，用于从音频信号中过滤出反射回的超声波信号，并提取反射回的超声波信号的特征向量；

训练模块304，用于调用预训练的场景识别模型对特征向量进行识别，得到场景识别结果。

在一实施例中，超声波信号包括扫频超声波信号，在提取反射回的超声波信号的特征向量时，提取模块303用于：

对反射回的扫频超声波信号进行分帧处理，并筛选出第一预设数量的音频帧；

对音频帧进行傅里叶变换，并根据傅里叶变换结果获取扫频超声波信号起止频率之间第二预设数量频点的数据值；

根据获取到的数据值构建前述特征向量。

在一实施例中，本申请提供的场景识别装置还包括配置模块，在调用预训练的场景识别模型对特征向量进行识别，得到场景识别结果之后，用于：

在一实施例中，配置参数包括降噪参数，在根据配置参数对电子设备进行配置时，配置模块用于：

在一实施例中，配置参数包括唤醒参数，在根据配置参数对电子设备进行配置时，配置模块还用于：

在一实施例中，本申请提供的场景识别装置还包括训练模块，在通过音频输出组件向外发射超声波信号之前，用于：

获取对应不同已知场景的样本特征向量，并根据获取到的样本特征向量构建样本集；

根据样本集进行模型训练，得到场景识别模型。

在一实施例中，在根据样本集进行模型训练，得到场景识别模型时，训练模块用于：

将样本集划分为训练集和测试集；

构建支持向量机模型，并根据训练集对支持向量机模型进行训练，直至支持向量机模型收敛；

根据测试集对收敛的支持向量机模型进行校验；

当校验通过时，将收敛的支持向量机模型作为场景识别模型。

应当说明的是，本申请实施例提供的场景识别装置与上文实施例中的场景识别方法属于同一构思，在场景识别装置上可以运行场景识别方法实施例中提供的任一方法，其具体实现过程详见以上实施例，此处不再赘述。

在一实施例中，还提供一种电子设备，请参照图6，电子设备包括处理器501、存储器502、音频输出组件503和音频采集组件504。

本申请实施例中的处理器501是通用处理器，比如ARM架构的处理器。

存储器502中存储有计算机程序，其可以为高速随机存取存储器，还可以为非易失性存储器，比如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。

相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502中计算机程序的访问，执行以上实施例提供的场景识别方法，比如：

通过音频输出组件503向外发射超声波信号；

通过音频采集组件504采集包括反射回的超声波信号的音频信号；

从音频信号中过滤出反射回的超声波信号，并提取反射回的超声波信号的特征向量；

调用预训练的场景识别模型对特征向量进行识别，得到场景识别结果。

请参照图7，图7为本申请实施例提供的电子设备的另一结构示意图，与图6所示电子设备的区别在于，电子设备还包括专用语音识别芯片505。

其中，专用语音识别芯片505是以语音识别为目的而设计的专用芯片，比如以语音识别为目的而设计的数字信号处理芯片，以语音识别为目的而设计的专用集成电路芯片等，其相较于通用的处理器，具有更低的功耗，适于语音识别任务的处理。其中，专用语音识别芯片505和处理器501之间通过通信总线(比如I2C总线)建立通信连接，实现数据的交互。

在本申请实施例中，电子设备中的处理器501和专用语音识别芯片505通过对存储器502中计算机程序的调用，实现如下功能：

处理器501通过音频输出组件503向外发射超声波信号；

处理器501通过音频采集组件504采集包括反射回的超声波信号的音频信号；

专用语音识别芯片505从音频信号中过滤出反射回的超声波信号，并提取反射回的超声波信号的特征向量；以及

在一实施例中，超声波信号包括扫频超声波信号，在提取反射回的超声波信号的特征向量时，专用语音识别芯片505用于：

根据获取到的数据值构建前述特征向量。

在一实施例中，在专用语音识别芯片505调用预训练的场景识别模型对特征向量进行识别，得到场景识别结果之后，处理器501还用于：

在一实施例中，配置参数包括降噪参数，在根据配置参数对电子设备进行配置时，处理器501用于：

在一实施例中，配置参数包括唤醒参数，在根据配置参数对电子设备进行配置时，处理器501还用于：

在一实施例中，在通过音频输出组件向外发射超声波信号之前，处理器501还用于：

根据样本集进行模型训练，得到场景识别模型。

在一实施例中，在根据样本集进行模型训练，得到场景识别模型时，处理器501用于：

将样本集划分为训练集和测试集；

根据测试集对收敛的支持向量机模型进行校验；

应当说明的是，本申请实施例提供的电子设备与上文实施例中的场景识别方法属于同一构思，在电子设备上可以运行场景识别方法实施例中提供的任一方法，其具体实现过程详见场景识别方法实施例，此处不再赘述。

需要说明的是，对本申请实施例的场景识别方法而言，本领域普通技术人员可以理解实现本申请实施例的场景识别方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的处理器和/或专用语音识别芯片执行，在执行过程中可包括如场景识别方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

以上对本申请实施例所提供的一种场景识别方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种场景识别方法，应用于电子设备，所述电子设备包括音频输出组件和音频采集组件，其特征在于，包括：

通过所述音频输出组件向外发射超声波信号；

2.根据权利要求1所述的场景识别方法，其特征在于，所述超声波信号包括扫频超声波信号，所述提取所述反射回的超声波信号的特征向量，包括：

对所述扫频超声波信号进行分帧处理，并筛选出第一预设数量的音频帧；

对所述音频帧进行傅里叶变换，并根据傅里叶变换结果获取所述扫频超声波信号起止频率之间第二预设数量频点的数据值；

根据获取到的所述数据值构建所述特征向量。

3.根据权利要求1所述的场景识别方法，其特征在于，所述调用预训练的场景识别模型对所述特征向量进行识别，得到场景识别结果之后，还包括：

获取对应所述场景识别结果的配置参数，并根据所述配置参数对所述电子设备进行配置。

4.根据权利要求3所述的场景识别方法，其特征在于，所述配置参数包括降噪参数，所述根据所述配置参数对所述电子设备进行配置，包括：

根据所述降噪参数对电子设备的降噪模式进行配置，使得所述电子设备的降噪模式与所述场景识别结果匹配。

5.根据权利要求3所述的场景识别方法，其特征在于，所述配置参数包括唤醒参数，所述根据所述配置参数对电子设备进行配置，还包括：

根据所述唤醒参数对电子设备的唤醒策略进行配置，使得所述电子设备的唤醒策略与所述场景识别结果匹配。

6.根据权利要求1-5任一项所述的场景识别方法，其特征在于，所述通过所述音频输出组件向外发射超声波信号之前，还包括：

根据所述样本集进行模型训练，得到所述场景识别模型。

7.根据权利要求6所述的场景识别方法，其特征在于，所述根据所述样本集进行模型训练，得到所述场景识别模型，包括：

将所述样本集划分为训练集和测试集；

构建支持向量机模型，并根据所述训练集对所述支持向量机模型进行训练，直至所述支持向量机模型收敛；

根据所述测试集对收敛的支持向量机模型进行校验；

当校验通过时，将所述收敛的支持向量机模型作为所述场景识别模型。

8.一种场景识别装置，应用于电子设备，所述电子设备包括音频输出组件和音频采集组件，其特征在于，包括：

9.一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序被处理器加载时执行如权利要求1至7所述的场景识别方法。

10.一种电子设备，包括处理器和存储器，所述存储器储存有计算机程序，其特征在于，所述处理器通过加载所述计算机程序，用于执行如权利要求1至7所述的场景识别方法。