CN110473568B

CN110473568B - 场景识别方法、装置、存储介质及电子设备

Info

Publication number: CN110473568B
Application number: CN201910731749.6A
Authority: CN
Inventors: 宋天龙
Original assignee: Shanghai Jinsheng Communication Technology Co ltd; Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Shanghai Jinsheng Communication Technology Co ltd; Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2022-01-07
Anticipated expiration: 2039-08-08
Also published as: CN110473568A

Abstract

本申请实施例公开了一种场景识别方法、装置、存储介质及电子设备，其中，本申请实施例首先采集得到待识别场景的双通道音频信号，然后通过基于双通道音频信号的预测方案1以及基于双通道音频信号合成得到的单通道音频信号的预测方案2，获取得到待识别场景的两个候选场景分类结果，再融合两个候选场景分类结果得到待识别场景的目标场景分类结果。由此，无需结合定位技术来实现对电子设备所处场景的识别，也就对电子设备所处的环境无任何限制，相较于相关技术，本申请能够更灵活准确的对电子设备所处的待识别场景进行识别。

Description

场景识别方法、装置、存储介质及电子设备

技术领域

本申请涉及场景识别技术领域，具体涉及一种场景识别方法、装置、存储介质及电子设备。

背景技术

目前，如平板电脑、手机等电子设备可以通过分析用户所处的场景，根据分析结果进行对应的处理操作，由此来提升用户体验。相关技术中，电子设备在分析用户所处的场景时，通常利用GPS定位来实现，即通过GPS定位获得当前的位置信息，根据该位置信息来确定电子设备所处的场景，也即是用户所处的场景。然而，对于室内，或者较多遮蔽物的环境中，相关技术难以实现GPS定位，也就无法对电子设备所处的环境场景进行识别。

发明内容

本申请实施例提供了一种场景识别方法、装置、存储介质及电子设备，能够对电子设备所处的环境场景进行识别。

第一方面，本申请实施例了提供了的一种场景识别方法，应用于电子设备，该电子设备包括两个麦克风，该场景识别方法包括：

通过所述两个麦克风对待识别场景进行音频采集，得到双通道音频信号；

按照第一预设特征提取策略提取所述双通道音频信号的第一声学特征，并调用预先训练的第一场景分类模型基于所述第一声学特征进行场景分类，得到第一候选场景分类结果；

对所述双通道音频信号进行音频合成处理，得到单通道音频信号；

按照第二预设特征提取策略提取所述单通道音频信号的第二声学特征，并调用预先训练的第二场景分类模型基于所述第二声学特征进行场景分类，得到第二候选场景分类结果；

根据所述第一候选场景分类结果以及所述第二候选场景分类结果，获取所述待识别场景的目标场景分类结果。

第二方面，本申请实施例了提供了的一种场景识别装置，应用于电子设备，该电子设备包括两个麦克风，该场景识别装置包括：

音频采集模块，用于通过所述两个麦克风对待识别场景进行音频采集，得到双通道音频信号；

第一分类模块，用于按照第一预设特征提取策略提取所述双通道音频信号的第一声学特征，并调用预先训练的第一场景分类模型基于所述第一声学特征进行场景分类，得到第一候选场景分类结果；

音频合成模块，用于对所述双通道音频信号进行音频合成处理，得到单通道音频信号；

第二分类模块，用于按照第二预设特征提取策略提取所述单通道音频信号的第二声学特征，并调用预先训练的第二场景分类模型基于所述第二声学特征进行场景分类，得到第二候选场景分类结果；

分类整合模块，用于根据所述第一候选场景分类结果以及所述第二候选场景分类结果，获取所述待识别场景的目标场景分类结果。

第三方面，本申请实施例提供的存储介质，其上存储有计算机程序，当所述计算机程序被处理器调用时执行如本申请任一实施例提供的场景识别方法。

第四方面，本申请实施例提供的电子设备，包括处理器和存储器，所述存储器有计算机程序，所述处理器通过调用所述计算机程序，用于执行如本申请任一实施例提供的场景识别方法。

本申请实施例首先采集得到待识别场景的双通道音频信号，然后通过基于双通道音频信号的预测方案1以及基于双通道音频信号合成得到的单通道音频信号的预测方案2，获取得到待识别场景的两个候选场景分类结果，再融合两个候选场景分类结果得到待识别场景的目标场景分类结果。由此，无需结合定位技术来实现对电子设备所处场景的识别，也就对电子设备所处的环境无任何限制，相较于相关技术，本申请能够更灵活准确的对电子设备所处的待识别场景进行识别。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的场景识别方法的一流程示意图。

图2是本申请实施例中电子设备两个麦克风的设置示意图。

图3是本申请实施例中根据待识别场景的双通道音频信号预测得到目标候选场景分类结果的示意图。

图4是本申请实施例中提供的场景类型信息输入界面的示例图。

图5是本申请实施例中提取梅尔频率倒谱系数的示意图。

图6是本申请实施例中提取各通道能量正则化特征的示意图。

图7是本申请实施例提供的场景识别方法的另一流程示意图。

图8是本申请实施例提供的场景识别装置的一结构示意图。

图9是本申请实施例提供的电子设备的一结构示意图。

图10是本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是通过所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

本申请实施例提供一种场景识别方法，该场景识别方法的执行主体可以是本申请实施例提供的场景识别装置，或者集成了该场景识别装置的电子设备，其中该场景识别装置可以采用硬件或者软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。

请参照图1，图1为本申请实施例提供的场景识别方法的流程示意图，本申请实施例提供的场景识别方法的具体流程可以如下：

在101中，通过两个麦克风对待识别场景进行音频采集，得到双通道音频信号。

其中，待识别场景可以为电子设备当前所处的场景。

应当说明的是，电子设备包括两个麦克风，其中，电子设备所包括的两个麦克风可以是内置的麦克风，也可以是外置的麦克风(可以是有线的麦克风，也可以是无线的麦克风)，本申请实施例对此不做具体限制。比如，请参照图2，电子设备包括两个背靠背设置的麦克风，分别为设置在电子设备下侧边的麦克风1和设置在电子设备上侧边的麦克风2，其中，麦克风1的拾音孔朝下，麦克风2的拾音孔朝上。此外，电子设备所设置的两个麦克风可以为无指向性麦克风(或者说，全指向性麦克风)。

本申请实施例中，电子设备首先通过两个麦克风对待识别场景进行音频采集，比如，在将当前所处的场景设为待识别场景时，电子设备可以通过两个麦克风同步对当前所处的场景进行音频采集，得到时长相同的双通道音频信号。

应当说明的是，假设电子设备所包括的麦克风为模拟麦克风，那么将采集到模拟的音频信号，此时需要将模拟的音频信号进行模数转换，得到数字化的音频信号，用于后续处理。比如，电子设备可以在通过两个麦克风采集到待识别采集的两路模拟音频信号后，以16KHz的采样频率分别对两路模拟音频信号进行采样，得到两路数字化的音频信号。

本领域普通技术人员可以理解的是，若电子设备所包括的麦克风为数字麦克风，那么将直接采集到数字化的音频信号，无需再进行模数转换。

在102中，按照第一预设特征提取策略提取双通道音频信号的第一声学特征，并调用预先训练的第一场景分类模型基于第一声学特征进行场景分类，得到第一候选场景分类结果。

应当说明的是，本申请实施例中预先训练有第一场景分类模型和第二场景分类模型，其中第一场景分类模型和第二场景分类模型的类型不同，且第一场景分类模型以双通道的声学特征为输入，第二场景分类模型以单通道的声学特征输入，二者基于输入的声学特征所预测得到的场景分类结果为输出。

相应的，电子设备在采集得到待识别场景的双通道音频信号之后，按照第一预设特征提取策略提取得到双通道音频信号的第一声学特征，为双通道的声学特征。之后，电子设备将提取到第一声学特征输入到预先训练的第一场景分类模型中，由第一场景分类模型基于输入的第一声学特征对待识别场景的场景类型进行预测。之后，电子设备将第一场景分类模型预测输出的场景分类结果作为待识别场景的第一候选场景分类结果。

在103中，对双通道音频信号进行音频合成处理，得到单通道音频信号。

本申请实施例中，电子设备还对双通道音频信号进行音频合成处理，将双通道音频信号合成为单通道音频信号。比如，可以取双通道音频信号的平均值，得到单通道音频信号。

应当说明的是，102和103的执行顺序不受序号大小的影响，可以是在执行完成102后再执行103，也可以是在执行完成103和104后再执行102，也可以是102和103同时执行等。

在104中，按照第二预设特征提取策略提取单通道音频信号的第二声学特征，并调用预先训练的第二场景分类模型基于第二声学特征进行场景分类，得到第二候选场景分类结果。

如上所述，本申请实施例中还训练有第二场景分类模型，该第二场景分类模型以单通道的音频特征为输入。

相应的，电子设备在根据采集的双通道音频信号合成得到单通道音频信号之后，按照第二预设特征提取策略提取合成得到的单通道音频信号的第二声学特征，为单通道的声学特征。之后，电子设备将提取到第二声学特征输入到预先训练的第二场景分类模型中，由第二场景分类模型基于输入的第二声学特征对待识别场景的场景类型进行预测。之后，电子设备将第二场景分类模型预测输出的场景分类结果作为待识别场景的第二候选场景分类结果。

在105中，根据第一候选场景分类结果以及第二候选场景分类结果，获取待识别场景的目标场景分类结果。

本申请实施例中，电子设备在获取得到待识别场景的第一候选场景分类结果以及第二候选场景分类结果之后，即可根据第一候选场景分类结果以及第二候选场景分类结果，获取得到待识别场景的目标场景分类结果。比如，电子设备可以第一候选场景分类结果和第二候选场景分类结果对应的概率值较高的候选场景分类结果设为对待识别场景的目标场景分类结果。

此外，电子设备在获取得到待识别场景的目标场景分类结果之后，还可以执行对应该目标场景分类结果的预设操作，比如，在获取到待识别场景的目标场景分类结果为“地铁场景”时，电子设备可以将音频输出参数配置为预先设置的对应地铁场景的音频输出参数。

如图3所示，本申请实施例中，首先采集得到待识别场景的双通道音频信号，然后通过基于双通道音频信号的预测方案1以及基于双通道音频信号合成得到的单通道音频信号的预测方案2，获取得到待识别场景的两个候选场景分类结果，再融合两个候选场景分类结果得到待识别场景的目标场景分类结果。由此，无需结合定位技术来实现对电子设备所处场景的识别，也就对电子设备所处的环境无任何限制，相较于相关技术，本申请能够更灵活准确的对电子设备所处的待识别场景进行识别。

在一实施例中，“对双通道音频信号进行音频合成处理，得到单通道音频信号”，包括：

按照预设波束形成算法将双通道音频信号合成得到单通道音频信号。

本申请实施例中，可以采用波束形成的方式来将双通道音频信号合成维度的单通道音频信号。其中，电子设备可以按照预设波束形成算法对采集得到待识别场景的双通道音频信号进行波束形成，得到增强后的单通道音频信号，由此，得到的增强后的单通道音频信号中保留原始的双通道音频信号中来自特定方向的声音，能够更准确的表征待识别场景。

应当说明的是，对于采用何种波束形成算法进行波束形成处理，本申请实施例中不做具体限制，可由本领域普通技术人员根据实际需要进行选取，比如，本申请实施例中采用广义旁瓣相消算法进行波束形成处理。

在一实施例中，“根据第一候选场景分类结果以及第二候选场景分类结果，获取待识别场景的目标场景分类结果”，包括：

(1)判断第一候选场景分类结果和第二候选场景分类是否为相同的场景分类结果；

(2)若是，则将相同的场景分类结果设为目标场景分类结果。

本申请实施例中，在根据第一候选场景分类结果以及第二候选场景分类结果，获取待识别场景的目标场景分类结果，可以取第一候选场景分类结果和第二候选场景分类结果的同或值来融合得到待识别场景的目标场景分类结果。

其中，电子设备首先判断第一候选场景分类结果和第二候选场景分类是否为相同的场景分类结果，若第一候选场景分类结果和第二候选场景分类为相同的场景分类结果，则电子设备将该相同的场景分类结果设为待识别场景的目标场景分类结果。此外，若第一候选场景分类结果和第二候选场景分类为相同的场景分类结果，电子设备判断当次对待识别场景的识别操作失败，重新获取到待识别场景的双通道音频信号进行识别。

比如，第一候选分类结果为“地铁场景”，第二候选分类结果也为“地铁场景”，电子设备即将“地铁场景”作为待识别场景的目标场景分类结果。

在一实施例中，“通过两个麦克风对待识别场景进行音频采集”之前，还包括：

(1)通过两个麦克风获取多个不同类型已知场景的双通道音频信号；

(2)提取各类型已知场景的双通道音频信号的梅尔频率倒谱系数，构建对应多个不同类型已知场景的第一样本集；

(3)构建残差卷积神经网络模型，并根据第一样本集对残差卷积神经网络模型进行训练，将训练后的残差卷积神经网络模型设为第一场景分类模型。

本申请实施例进一步提供训练得到第一场景分类模型的方案，如下：

电子设备首先获取通过两个麦克风获取多个不同类型已知场景的双通道音频信号。其中，在获取多个不同类型已知场景的双通道音频信号时，一方面，电子设备可由相关技术人员携带至多个不同类型的已知场景中，并在各个已知类型的场景中，触发电子设备进行音频信号的获取。另一方面，电子设备在触发获取音频信号时，通过两个麦克风采集第一预设时长(可由本领域技术人员根据实际需要配置合适时长，比如，可以配置为5分钟)的双通道音频信号；请参照图4，在采集到第一预设时长的双通道音频信号之后，提供场景类型信息输入界面，并通过该场景类型信息输入界面接收输入的场景类型信息(该场景类型信息由相关技术人员输入，比如，在相关技术人员将电子设备携带在地铁车厢内进行音频信号采集时，则可以输入场景类型信息为地铁车厢场景)；在接收到输入的场景类型信息之后，电子设备将采集到的双通道音频信号与接收到的场景类型信息关联。

由此，电子设备可以获取到对应不同类型已知场景的双通道音频信号，比如，餐厅场景、地铁车厢场景、公交车场景、办公室场景以及街道场景等不同类型已知场景的音频信号。

此外，在获取不同类型已知场景的双通道音频信号时，对于同一类型场景，可以获取该类型场景预设数量的(可由本领域技术人员根据实际需要配置合适数量，比如，可以配置为50)双通道音频信号，比如，对于公交车场景，可以获取同一辆公交车在不同时段的双通道音频信号，共获取到该公交车50条双通道音频信号，还可以获取不同公交车的双通道音频信号，共获取到50辆公交车的双通道音频信号等。

需要说明的是，在获取同一类型场景的多条双通道音频信号时，可以创建以接收到的场景类型信息命名的文件夹，将获取到的同一类型的多条双通道音频信号存入同一文件夹中。

本申请实施例中，电子设备在获取到多个不同类型已知场景的双通道音频信号之后，进一步提取各类型已知场景的双通道音频信号的梅尔频率倒谱系数，用以构建对应多个不同类型已知场景的第一样本集。

比如，请参照图5，以双通道音频信号中的一路音频信号为例，电子设备首先对该路音频信号进行预处理，比如，对该路音频信号进行高通滤波，数学表达式为：H(z)＝1-az^-1，其中H(z)表示滤波后的前述音频信号，z表示滤波前的前述音频信号，a是修正系数，一般取0.95-0.97；然后对滤波后的音频信号进行分帧加窗处理，以平滑前述音频信号分帧得到的音频帧的边缘，比如采用汉明窗的形式加窗

然后，对加窗后的音频帧进行傅里叶变换，比如快速傅里叶变换，再进行梅尔频率倒谱系数的提取，其中，通过梅尔滤波器组对傅里叶变换结果进行滤波，得到符合人耳听觉习惯的梅尔频率，然后取对数将单位转换为分别，数学表达式为

其中F_mel(f)表示获取到的梅尔频率，f为傅里叶变换后的频点。然后，电子设备对获取到梅尔频率进行离散余弦变换，得到梅尔频率倒谱系数。相应的，对于任一双通道音频信号，电子设备将提取到双通道的梅尔频率倒谱系数。

在提取得到各类型已知场景的双通道音频信号的梅尔频率倒谱系数之后，电子设备即将各双通道的梅尔频率倒谱系数与其对应的场景类型信息关联，以构建对应多个不同类型已知场景的第一样本集。

在构建得到第一样本集之后，电子设备进一步构建初始化的残差卷积神经网络模型，并基于第一样本集对构建的残差卷积神经网络模型进行有监督的训练，得到训练后的残差卷积神经网络模型，作为第一场景分类模型。

比如，电子设备Resnet-50为主体结构，将其输入向量维度与数据的输入维度保持相同，对最后的分类层的节点进行修改使之等同于所有类别数量，由此得到初始化的残差卷积神经网络。

在一实施例中，“按照第一预设特征提取策略提取双通道音频信号的第一声学特征，并调用预先训练的第一场景分类模型基于第一声学特征进行场景分类，得到第一候选场景分类结果”，包括：

(1)提取双通道音频信号的梅尔频率倒谱系数，设为第一声学特征；

(2)将提取到的双通道音频信号的梅尔频率倒谱系数输入训练后的残差卷积神经网络模型，得到训练后的残差卷积神经网络模型输出的多个场景分类结果及其对应的概率值；

(3)当训练后的残差卷积神经网络模型输出的最大概率值达到预设概率值时，将训练后的残差卷积神经网络模型输出的最大概率值对应的场景分类结果设为第一候选场景分类结果。

如上所述，由于第一场景分类模型基于双通道的梅尔频率倒谱系数训练得到，相应的，电子设备在通过第一场景分类模型对待识别场景进行识别时，首先提取双通道音频信号的梅尔频率倒谱系数，设为第一声学特征，其中，对于如何提取得到梅尔频率倒谱系数，具体可参照以上实施例的相关描述，此处不再赘述。

电子设备提取得到待识别场景的双通道音频信号的梅尔频率倒谱系数，并将其设为第一声学特征之后，即可将提取到的双通道音频信号的梅尔频率倒谱系数输入训练后的残差卷积神经网络模型进行预测。其中，训练后的残差卷积神经网络将输出多个可能的场景分类结果，以及这些可能的场景分类结果的概率值。相应的，电子设备将获取到训练后的残差卷积神经网络模型输出的多个场景分类结果及其对应的概率值。

应当说明的是，本申请实施例中设置有筛选场景分类结果的预设概率值(具体可由本领域普通技术人员根据实际需要取经验值，比如，本申请实施例中取值为0.76)，电子设备可以判断训练后的残差卷积神经网络模型输出的最大概率值是否达到预设概率值，若达到，则电子设备将训练后的残差卷积神经网络模型输出的最大概率值对应的场景分类结果设为第一候选场景分类结果。

在一实施例中，“通过两个麦克风获取多个不同类型已知场景的双通道音频信号”之后，还包括：

(1)分别将多个不同类型已知场景的双通道音频信号合成为单通道音频信号；

(2)提取各类型已知场景合成得到的单通道音频信号的各通道能量正则化特征，构建对应多个不同类型已知场景的第二样本集；

(3)构建轻量化卷积神经网络模型，并对轻量化卷积神经网络模型进行优化处理，得到优化后的轻量化卷积神经网络模型；

(4)根据第二样本集对优化后的轻量化卷积神经网络模型进行训练，将训练后的轻量化卷积神经网络模型设为第二场景分类模型。

本申请实施例还提供训练得到第二场景分类模型的方案，如下：

其中，电子设备在通过两个麦克风获取多个不同类型已知场景的双通道音频信号之后，还分别将多个不同类型已知场景的双通道音频信号合成为单通道音频信号，从而得到多个不同类型已知场景的单通道音频信号。

然后，电子设备在合成得到各类型已知场景的单通道音频信号之后，进一步提取各类型已知场景的单通道音频信号的各通道能量正则化特征，用以构建对应多个不同类型已知场景的第二样本集。

比如，请参照图6，以某单通道音频信号为例，电子设备首先对单通道音频信号进行预处理，比如，对该路音频信号进行高通滤波，数学表达式为：H(z)＝1-az^-1，其中H(z)表示滤波后的前述音频信号，z表示滤波前的前述音频信号，a是修正系数，一般取0.95-0.97；然后对滤波后的音频信号进行分帧加窗处理，以平滑前述音频信号分帧得到的音频帧的边缘，比如采用汉明窗的形式加窗

其中F_mel(f)表示获取到的梅尔频率，f为傅里叶变换后的频点。然后，电子设备对获取到梅尔频率进行平滑处理，数学表达式为M(t,f)＝(1-s)M(t-1,f)+sE(t,f)，M(t,f)表示平滑结果，其通过时序上各音频帧的权重s来进行调整合成得到，其中t,f分别表示时间和频率。最后，电子设备对平滑结果进行各通道能量正则化特征的提取，数学表达式为

μ是正数极小值以免除数为0，参数

是可学习的动态参量。

在提取得到各类型已知场景的单通道音频信号的各通道能量正则化特征之后，电子设备即将提取到的各通道能量正则化特征与其对应的场景类型信息关联，以构建对应多个不同类型已知场景的第二样本集。

在构建得到第二样本集之后，电子设备进一步构建初始化的轻量化卷积神经网络模型，并对构建的轻量化卷积神经网络模型进行优化处理，得到优化后的轻量化卷积神经网络模型，再基于第二样本集对优化后的轻量化卷积神经网络模型进行有监督的训练，得到训练后的轻量化卷积神经网络模型，作为第二场景分类模型。

比如，电子设备以Xception网络为主体结构，对其进行优化处理，使得其通过分离卷积在36个卷积层上的进行学习，并在第32层、34层及36层进行全体池化操作，并将三种特征进行特征合成进行最后的分类。此外，还可以采用Focalloss对分类效果不佳的场景(如公园等场景)进行补偿式训练。最后在深度学习框架tensorflow内进行模型训练和收敛，并在训练结束后进行精度测试并进行量化压缩，得到第二场景分类模型。

在一实施例中，“按照第二预设特征提取策略提取单通道音频信号的第二声学特征，并调用预先训练的第二场景分类模型基于第二声学特征进行场景分类，得到第二候选场景分类结果”，包括：

(1)提取单通道音频信号的各通道能量正则化特征，将单通道音频信号的各通道能量正则化特征设为第二声学特征；

(2)将单通道音频信号的各通道能量正则化特征输入训练后的轻量化卷积神经网络模型，得到训练后的轻量化卷积神经网络输出的多个场景分类结果及其对应的概率值；

(3)当训练后的轻量化卷积神经网络模型输出的最大概率值达到预设概率值时，将训练后的轻量化卷积神经网络模型输出的最大概率值对应的场景分类结果设为第二候选场景分类结果。

如上所述，由于第二场景分类模型基于各通道能量正则化特征训练得到，相应的，电子设备在通过第二场景分类模型对待识别场景进行识别时，首先提取单通道音频信号的各通道能量正则化特征，设为第二声学特征，其中，对于如何提取得到各通道能量正则化特征，具体可参照以上实施例的相关描述，此处不再赘述。

电子设备提取得到待识别场景的单通道音频信号的各通道能量正则化特征，并将其设为第二声学特征之后，即可将提取到的单通道音频信号的各通道能量正则化特征输入训练后的轻量化卷积神经网络模型进行预测。其中，训练后的轻量化卷积神经网络模型将输出多个可能的场景分类结果，以及这些可能的场景分类结果的概率值。相应的，电子设备将获取到训练后的轻量化卷积神经网络模型输出的多个场景分类结果及其对应的概率值。

应当说明的是，本申请实施例中设置有筛选场景分类结果的预设概率值(具体可由本领域普通技术人员根据实际需要取经验值，比如，本申请实施例中取值为0.76)，电子设备可以判断训练后的轻量化卷积神经网络模型输出的最大概率值是否达到预设概率值，若达到，则电子设备将训练后的轻量化卷积神经网络模型输出的最大概率值对应的场景分类结果设为第二候选场景分类结果。

下面将在上述实施例描述的方法基础上，对本申请的场景识别方法做进一步介绍。请参照图7，该场景识别方法可以包括：

在201中，电子设备通过两个麦克风获取多个不同类型已知场景的双通道音频信号，并根据多个不同类型已知场景的双通道音频信号训练得到残差卷积神经网络模型。

其中，电子设备首先获取通过两个麦克风获取多个不同类型已知场景的双通道音频信号。其中，在获取多个不同类型已知场景的双通道音频信号时，一方面，电子设备可由相关技术人员携带至多个不同类型的已知场景中，并在各个已知类型的场景中，触发电子设备进行音频信号的获取。另一方面，电子设备在触发获取音频信号时，通过两个麦克风采集第一预设时长(可由本领域技术人员根据实际需要配置合适时长，比如，可以配置为5分钟)的双通道音频信号；请参照图4，在采集到第一预设时长的双通道音频信号之后，提供场景类型信息输入界面，并通过该场景类型信息输入界面接收输入的场景类型信息(该场景类型信息由相关技术人员输入，比如，在相关技术人员将电子设备携带在地铁车厢内进行音频信号采集时，则可以输入场景类型信息为地铁车厢场景)；在接收到输入的场景类型信息之后，电子设备将采集到的双通道音频信号与接收到的场景类型信息关联。

在构建得到第一样本集之后，电子设备进一步构建初始化的残差卷积神经网络模型，并基于第一样本集对构建的残差卷积神经网络模型进行有监督的训练，得到训练后的残差卷积神经网络模型。

在202中，电子设备分别将多个不同类型已知场景的双通道音频信号合成为单通道音频信号，并根据多个不同类型已知场景的单通道音频信号训练得到轻量化卷积神经网络模型。

μ是正数极小值以免除数为0，参数

是可学习的动态参量。

在构建得到第二样本集之后，电子设备进一步构建初始化的轻量化卷积神经网络模型，并对构建的轻量化卷积神经网络模型进行优化处理，得到优化后的轻量化卷积神经网络模型，再基于第二样本集对优化后的轻量化卷积神经网络模型进行有监督的训练，得到训练后的轻量化卷积神经网络模型。

比如，电子设备以Xception网络为主体结构，对其进行优化处理，使得其通过分离卷积在36个卷积层上的进行学习，并在第32层、34层及36层进行全体池化操作，并将三种特征进行特征合成进行最后的分类。此外，还可以采用Focalloss对分类效果不佳的场景(如公园等场景)进行补偿式训练。最后在深度学习框架tensorflow内进行模型训练和收敛，并在训练结束后进行精度测试并进行量化压缩。

在203中，电子设备通过两个麦克风对待识别场景进行音频采集，得到双通道音频信号。

其中，待识别场景可以为电子设备当前所处的场景。电子设备首先通过两个麦克风对待识别场景进行音频采集，比如，在将当前所处的场景设为待识别场景时，电子设备可以通过两个麦克风同步对当前所处的场景进行音频采集，得到时长相同的双通道音频信号。

在204中，电子设备调用训练后残差卷积神经网络模型，基于待识别场景的双通道音频信号得到待识别场景的第一场景分类结果。

电子设备在采集得到待识别场景的双通道音频信号之后，进一步提取双通道音频信号的梅尔频率倒谱系数，以及将提取到的双通道音频信号的梅尔频率倒谱系数输入训练后的残差卷积神经网络模型，得到训练后的残差卷积神经网络模型输出的多个场景分类结果及其对应的概率值；当训练后的残差卷积神经网络模型输出的最大概率值达到预设概率值时，电子设备将训练后的残差卷积神经网络模型输出的最大概率值对应的场景分类结果设为第一候选场景分类结果。

在205中，电子设备将待识别场景的双通道音频信号合成为单通道音频信号，并调用训练后的轻量化卷积神经网络模型，基于待识别场景的单通道音频信号得到待识别场景的第二场景分类结果。

此外，电子设备还将待识别场景的双通道音频信号合成为单通道音频信号，并提取单通道音频信号的各通道能量正则化特征，将单通道音频信号的各通道能量正则化特征设输入训练后的轻量化卷积神经网络模型，得到训练后的轻量化卷积神经网络输出的多个场景分类结果及其对应的概率值；当训练后的轻量化卷积神经网络模型输出的最大概率值达到预设概率值时，将训练后的轻量化卷积神经网络模型输出的最大概率值对应的场景分类结果设为第二候选场景分类结果。

在206中，电子设备判断第一候选场景分类结果和第二候选场景分类是否为相同的场景分类结果，是则将相同的场景分类结果设为目标场景分类结果。

其中，电子设备判断第一候选场景分类结果和第二候选场景分类是否为相同的场景分类结果，若第一候选场景分类结果和第二候选场景分类为相同的场景分类结果，则电子设备将该相同的场景分类结果设为待识别场景的目标场景分类结果。此外，若第一候选场景分类结果和第二候选场景分类为相同的场景分类结果，电子设备判断当次对待识别场景的识别操作失败，重新获取到待识别场景的双通道音频信号进行识别。

在一实施例中，还提供了一种场景识别装置。请参照图8，图8为本申请实施例提供的场景识别装置的结构示意图。其中该场景识别装置应用于电子设备，该电子设备包括两个麦克风，该场景识别装置包括音频采集模块301、第一分类模块302、音频合成模块303、第二分类模块304以及分类整合模块305，其中，如下：

音频采集模块301，用于通过两个麦克风对待识别场景进行音频采集，得到双通道音频信号；

第一分类模块302，用于按照第一预设特征提取策略提取双通道音频信号的第一声学特征，并调用预先训练的第一场景分类模型基于第一声学特征进行场景分类，得到第一候选场景分类结果；

音频合成模块303，用于对双通道音频信号进行音频合成处理，得到单通道音频信号；

第二分类模块304，用于按照第二预设特征提取策略提取单通道音频信号的第二声学特征，并调用预先训练的第二场景分类模型基于第二声学特征进行场景分类，得到第二候选场景分类结果；

分类整合模块305，用于根据第一候选场景分类结果以及第二候选场景分类结果，获取待识别场景的目标场景分类结果。

在一实施例中，在对双通道音频信号进行音频合成处理，得到单通道音频信号时，音频合成模块303用于：

在一实施例中，在根据第一候选场景分类结果以及第二候选场景分类结果，获取待识别场景的目标场景分类结果时，分类整合模块305用于：

判断第一候选场景分类结果和第二候选场景分类是否为相同的场景分类结果；

若是，则将相同的场景分类结果设为目标场景分类结果。

在一实施例中，场景识别装置还包括模型训练模块，在通过两个麦克风对待识别场景进行音频采集之前，用于：

通过两个麦克风获取多个不同类型已知场景的双通道音频信号；

提取各类型已知场景的双通道音频信号的梅尔频率倒谱系数，构建对应多个不同类型已知场景的第一样本集；

构建残差卷积神经网络模型，并根据第一样本集对残差卷积神经网络模型进行训练，将训练后的残差卷积神经网络模型设为第一场景分类模型。

在一实施例中，在按照第一预设特征提取策略提取双通道音频信号的第一声学特征，并调用预先训练的第一场景分类模型基于第一声学特征进行场景分类，得到第一候选场景分类结果时，第一分类模块302用于：

提取双通道音频信号的梅尔频率倒谱系数，设为第一声学特征；

将提取到的双通道音频信号的梅尔频率倒谱系数输入训练后的残差卷积神经网络模型，得到训练后的残差卷积神经网络模型输出的多个场景分类结果及其对应的概率值；

当训练后的残差卷积神经网络模型输出的最大概率值达到预设概率值时，将训练后的残差卷积神经网络模型输出的最大概率值对应的场景分类结果设为第一候选场景分类结果。

在一实施例中，在通过两个麦克风获取多个不同类型已知场景的双通道音频信号之后，模型训练模块还用于：

分别将多个不同类型已知场景的双通道音频信号合成为单通道音频信号；

提取各类型已知场景合成得到的单通道音频信号的各通道能量正则化特征，构建对应多个不同类型已知场景的第二样本集；

构建轻量化卷积神经网络模型，并对轻量化卷积神经网络模型进行优化处理，得到优化后的轻量化卷积神经网络模型；

根据第二样本集对优化后的轻量化卷积神经网络模型进行训练，将训练后的轻量化卷积神经网络模型设为第二场景分类模型。

在一实施例中，在按照第二预设特征提取策略提取单通道音频信号的第二声学特征，并调用预先训练的第二场景分类模型基于第二声学特征进行场景分类，得到第二候选场景分类结果时，第二分类模块303用于：

提取单通道音频信号的各通道能量正则化特征，将单通道音频信号的各通道能量正则化特征设为第二声学特征；

将单通道音频信号的各通道能量正则化特征输入训练后的轻量化卷积神经网络模型，得到训练后的轻量化卷积神经网络输出的多个场景分类结果及其对应的概率值；

当训练后的轻量化卷积神经网络模型输出的最大概率值达到预设概率值时，将训练后的轻量化卷积神经网络模型输出的最大概率值对应的场景分类结果设为第二候选场景分类结果。

应当说明的是，本申请实施例提供的场景识别装置与上文实施例中的音频校验方法属于同一构思，在音频处理装置上可以运行音频校验方法实施例中提供的任一方法，其具体实现过程详见特征获取方法实施例，此处不再赘述。

在一实施例中，还提供一种电子设备。请参照图9，电子设备包括处理器401、存储器402和两个麦克风403。

本申请实施例中的处理器401是通用处理器，比如ARM架构的处理器。

存储器402中存储有计算机程序，其可以为高速随机存取存储器，还可以为非易失性存储器，比如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402中计算机程序的访问，实现如下功能：

通过两个麦克风对待识别场景进行音频采集，得到双通道音频信号；

按照第一预设特征提取策略提取双通道音频信号的第一声学特征，并调用预先训练的第一场景分类模型基于第一声学特征进行场景分类，得到第一候选场景分类结果；

对双通道音频信号进行音频合成处理，得到单通道音频信号；

按照第二预设特征提取策略提取单通道音频信号的第二声学特征，并调用预先训练的第二场景分类模型基于第二声学特征进行场景分类，得到第二候选场景分类结果；

根据第一候选场景分类结果以及第二候选场景分类结果，获取待识别场景的目标场景分类结果。

请参照图10，图10为本申请实施例提供的电子设备的另一结构示意图，与图6所示电子设备的区别在于，电子设备还包括输入单元404和输出单元405等组件。

其中，输入单元404可用于接收输入的数字、字符信息或用户特征信息(比如指纹)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入等。

输出单元405可用于显示由用户输入的信息或提供给用户的信息，如屏幕。

在本申请实施例中，电子设备中的处理器401会按照如下的步骤，将一个或一个以上的计算机程序的进程对应的指令加载到存储器402中，并由处理器501运行存储在存储器402中的计算机程序，从而实现各种功能，如下：

在一实施例中，在对双通道音频信号进行音频合成处理，得到单通道音频信号时，处理器501可以执行：

在一实施例中，在根据第一候选场景分类结果以及第二候选场景分类结果，获取待识别场景的目标场景分类结果时，处理器501可以执行：

若是，则将相同的场景分类结果设为目标场景分类结果。

在一实施例中，在通过两个麦克风对待识别场景进行音频采集之前，处理器501可以执行：

在一实施例中，在按照第一预设特征提取策略提取双通道音频信号的第一声学特征，并调用预先训练的第一场景分类模型基于第一声学特征进行场景分类，得到第一候选场景分类结果时，处理器501还可以执行：

在一实施例中，在通过两个麦克风获取多个不同类型已知场景的双通道音频信号之后，处理器501还可以执行：

在一实施例中，在按照第二预设特征提取策略提取单通道音频信号的第二声学特征，并调用预先训练的第二场景分类模型基于第二声学特征进行场景分类，得到第二候选场景分类结果时，处理器501可以执行：

应当说明的是，本申请实施例提供的电子设备与上文实施例中的场景识别方法属于同一构思，在电子设备上可以运行场景识别方法实施例中提供的任一方法，其具体实现过程详见特征提取方法实施例，此处不再赘述。

需要说明的是，对本申请实施例的场景识别方法而言，本领域普通测试人员可以理解实现本申请实施例的场景识别方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的处理器和专用语音识别芯片执行，在执行过程中可包括如场景识别方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

以上对本申请实施例所提供的一种场景识别方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种场景识别方法，应用于电子设备，其特征在于，所述电子设备包括两个麦克风，所述场景识别方法包括：

通过所述两个麦克风获取多个不同类型已知场景的双通道音频信号；

提取各类型已知场景的双通道音频信号的梅尔频率倒谱系数，构建对应所述多个不同类型已知场景的第一样本集，构建残差卷积神经网络模型，并根据所述第一样本集对所述残差卷积神经网络模型进行训练，得到第一场景分类模型；

分别将所述多个不同类型已知场景的双通道音频信号合成为单通道音频信号，提取各类型已知场景合成得到的单通道音频信号的各通道能量正则化特征，构建对应所述多个不同类型已知场景的第二样本集，构建轻量化卷积神经网络模型，并对所述轻量化卷积神经网络模型进行优化处理，得到优化后的轻量化卷积神经网络模型，根据所述第二样本集对所述优化后的轻量化卷积神经网络模型进行训练，得到第二场景分类模型；

通过所述两个麦克风对待识别场景进行音频采集，得到所述待识别场景的双通道音频信号；

按照第一预设特征提取策略提取所述待识别场景的双通道音频信号的第一声学特征，并调用所述第一场景分类模型基于所述第一声学特征进行场景分类，得到第一候选场景分类结果；

对所述待识别场景的双通道音频信号进行音频合成处理，得到所述待识别场景的单通道音频信号；

按照第二预设特征提取策略提取所述待识别场景的单通道音频信号的第二声学特征，并调用所述第二场景分类模型基于所述第二声学特征进行场景分类，得到第二候选场景分类结果；

2.根据权利要求1所述的场景识别方法，其特征在于，所述对所述待识别场景的双通道音频信号进行音频合成处理，得到单通道音频信号，包括：

按照预设波束形成算法将所述待识别场景的双通道音频信号合成得到单通道音频信号。

3.根据权利要求1所述的场景识别方法，其特征在于，所述根据所述第一候选场景分类结果以及所述第二候选场景分类结果，获取所述待识别场景的目标场景分类结果，包括：

判断所述第一候选场景分类结果和所述第二候选场景分类是否为相同的场景分类结果；

若是，则将所述相同的场景分类结果设为所述目标场景分类结果。

4.根据权利要求1所述的场景识别方法，其特征在于，所述按照第一预设特征提取策略提取所述待识别场景的双通道音频信号的第一声学特征，并调用预先训练的第一场景分类模型基于所述第一声学特征进行场景分类，得到第一候选场景分类结果，包括：

提取所述待识别场景的双通道音频信号的梅尔频率倒谱系数，设为所述第一声学特征；

将提取到的所述待识别场景的双通道音频信号的梅尔频率倒谱系数输入所述第一场景分类模型，得到所述第一场景分类模型输出的多个场景分类结果及其对应的概率值；

当所述第一场景分类模型输出的最大概率值达到预设概率值时，将所述第一场景分类模型输出的最大概率值对应的场景分类结果设为第一候选场景分类结果。

5.根据权利要求1所述的场景识别方法，其特征在于，按照第二预设特征提取策略提取所述待识别场景的单通道音频信号的第二声学特征，并调用预先训练的第二场景分类模型基于所述第二声学特征进行场景分类，得到第二候选场景分类结果，包括：

提取所述待识别场景的单通道音频信号的各通道能量正则化特征，将所述待识别场景的单通道音频信号的各通道能量正则化特征设为所述第二声学特征；

将所述单通道音频信号的各通道能量正则化特征输入所述第二场景分类模型，得到所述第二场景分类模型输出的多个场景分类结果及其对应的概率值；

当所述第二场景分类模型输出的最大概率值达到预设概率值时，将所述第二场景分类模型输出的最大概率值对应的场景分类结果设为所述第二候选场景分类结果。

6.一种场景识别装置，应用于电子设备，其特征在于，所述电子设备包括两个麦克风，所述场景识别装置包括：

模型训练模块，用于通过所述两个麦克风获取多个不同类型已知场景的双通道音频信号；以及提取各类型已知场景的双通道音频信号的梅尔频率倒谱系数，构建对应所述多个不同类型已知场景的第一样本集，构建残差卷积神经网络模型，并根据所述第一样本集对所述残差卷积神经网络模型进行训练，得到第一场景分类模型；以及分别将所述多个不同类型已知场景的双通道音频信号合成为单通道音频信号，提取各类型已知场景合成得到的单通道音频信号的各通道能量正则化特征，构建对应所述多个不同类型已知场景的第二样本集，构建轻量化卷积神经网络模型，并对所述轻量化卷积神经网络模型进行优化处理，得到优化后的轻量化卷积神经网络模型，根据所述第二样本集对所述优化后的轻量化卷积神经网络模型进行训练，得到第二场景分类模型；

音频采集模块，用于通过所述两个麦克风对待识别场景进行音频采集，得到所述待识别场景的双通道音频信号；

第一分类模块，用于按照第一预设特征提取策略提取所述待识别场景的双通道音频信号的第一声学特征，并调用预先训练的第一场景分类模型基于所述第一声学特征进行场景分类，得到第一候选场景分类结果；

音频合成模块，用于对所述待识别场景的双通道音频信号进行音频合成处理，得到单通道音频信号；

第二分类模块，用于按照第二预设特征提取策略提取所述待识别场景的单通道音频信号的第二声学特征，并调用预先训练的第二场景分类模型基于所述第二声学特征进行场景分类，得到第二候选场景分类结果；

7.一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序被处理器调用时执行如权利要求1至5任一项所述的场景识别方法。

8.一种电子设备，包括处理器和存储器，所述存储器储存有计算机程序，其特征在于，所述处理器通过调用所述计算机程序，用于执行如权利要求1至5任一项所述的场景识别方法。