CN112750448A

CN112750448A - 声音场景的识别方法、装置、设备及存储介质

Info

Publication number: CN112750448A
Application number: CN202010787183.1A
Authority: CN
Inventors: 李娟娟; 夏咸军; 朱鸿宁; 王燕南; 黄�俊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2021-05-04
Anticipated expiration: 2040-08-07
Also published as: CN112750448B

Abstract

本申请公开了一种声音场景的识别方法、装置、设备及存储介质，涉及音频技术领域。该方法包括：获取音频信号；对音频信号进行特征提取，得到音频特征；根据音频特征对音频信号进行至少两级场景识别，得到至少两级场景识别结果，场景识别结果中包含不同场景类别对应的场景概率；基于至少两级场景识别结果，确定音频信号对应的目标场景类别；其中，不同级别场景识别结果中包含的场景类别不同，且对于第i级场景识别结果中的任意场景类别，第i+1级场景识别结果中存在与场景类别对应的父类场景类别。采用本申请实施例提供的方案有助于提高声音场景的识别准确率。

Description

声音场景的识别方法、装置、设备及存储介质

技术领域

本申请实施例涉及音频技术领域，特别涉及一种声音场景的识别方法、装置、设备及存储介质。

背景技术

声音场景识别作为音频技术领域的一个重要分支，被广泛应用于音视频通话、降噪优化等场景。

相关技术中，主要从音频信号处理和机器学习两个方面来提高声音场景识别的准确性。其中，音频信号处理的重点在于提高音频信号的声学特征提取质量，以此提高后续基于声学特征进行声音场景识别的准确性，而机器学习的重点在于利用大量音频信号样本训练高质量音频识别模型，以此提高模型基于音频信号进行声音场景识别的准确性。

然而，采用相关技术提供的方案进行声音场景识别时，都是基于单一维度对音频信号进行场景识别，场景识别的准确率无法得到进一步提高。

发明内容

本申请实施例提供了一种声音场景的识别方法、装置、设备及存储介质，可以提高对音频信号进行声音场景识别时的准确率。所述技术方案如下：

一方面，本申请实施例提供了一种声音场景的识别方法，所述方法包括：

获取音频信号；

对所述音频信号进行特征提取，得到音频特征；

根据所述音频特征对所述音频信号进行至少两级场景识别，得到至少两级场景识别结果，所述场景识别结果中包含不同场景类别对应的场景概率；

基于至少两级所述场景识别结果，确定所述音频信号对应的目标场景类别；

其中，不同级别场景识别结果中包含的场景类别不同，且对于第i级场景识别结果中的任意场景类别，第i+1级场景识别结果中存在与所述场景类别对应的父类场景类别，i为正整数。

另一方面，本申请实施例提供了一种声音场景的识别装置，所述装置包括：

获取模块，用于获取音频信号；

特征提取模块，用于对所述音频信号进行特征提取，得到音频特征；

场景识别模块，用于根据所述音频特征对所述音频信号进行至少两级场景识别，得到至少两级场景识别结果，所述场景识别结果中包含不同场景类别对应的场景概率；

第一场景确定模块，用于基于至少两级所述场景识别结果，确定所述音频信号对应的目标场景类别；

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的声音场景的识别方法。

另一方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的声音场景的识别方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面提供的声音场景的识别方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例中，对于从音频信号中提取到的音频特征，通过对音频特征进行至少两级场景识别，得到不同场景分类标准下的至少两级场景识别结果，实现对同一音频信号的多维度场景识别；并且由于不同级别场景识别结果中的场景类别之间存在父类和子类关系，因此对至少两级场景识别结果进行融合得到的场景识别结果的准确度高于单一维度的场景识别结果，进而基于融合后场景识别结果确定出的目标场景类别的准确率更高，提高了声音场景的识别准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的声音场景的识别方法的原理示意图；

图2示出了本申请一个示例性实施例提供的实施环境的示意图；

图3示出了本申请一个示例性实施例提供的声音场景的识别方法的流程图；

图4示出了本申请另一个示例性实施例提供的声音场景的识别方法的流程图；

图5是本申请一个示例性实施例提供的声音场景识别过程的实施示意图；

图6是本申请一个示例性实施例提供的场景识别模型的结构图；

图7示出了本申请另一个示例性实施例提供的声音场景的识别方法的流程图；

图8是本申请另一个示例性实施例提供的声音场景识别过程的实施示意图；

图9是本申请一个示例性实施例提供的声音场景的识别装置的结构框图；

图10示出了本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1，其示出了本申请实施例提供的声音场景的识别方法的原理示意图。如图1所示，获取到待识别的音频信号11后，计算机设备首先对该音频信号进行特征提取，得到音频特征12。计算机设备通过n(n≥2)级场景识别算法分别对音频特征12进行场景识别，得到不同场景分类标准下的场景识别结果13，并进一步对n级场景识别结果13进行融合，得到场景识别融合结果14，进而基于场景识别融合结果14确定出音频信号11对应的目标场景类别15。

由于不同场景下采集到的音频可能存在相似之处，而该相似之处可能会影响最终的场景识别结果，因此利用遵循不同场景分类标准的多级场景识别算法对同一音频信号进行场景识别，得到多维度的场景识别结果，并对多维度的场景识别结果进行融合时，能够修正单一维度场景识别结果中的错误结果，即融合得到的场景识别结果的准确性高于单一维度场景识别结果。

比如，待识别的音频是在公园内采集得到，且该音频中包含大量人声。当利用单一维度的场景识别算法对该音频进行场景识别时，得到的场景识别结果中购物中心对应的场景概率可能略高于公园对应的场景概率(因为在购物中心采集到的音频中同样包含大量人声)，相应的，基于单一维度场景识别结果确定出的目标场景类别为购物中心，导致场景识别错误。

而采用本申请实施例提供的方案进行场景识别时，除了通过上述维度的场景识别算法进行场景识别外，还通过另一维度的场景识别算法识别室内场景或室外场景。由于待识别的音频存在明显的室外音频特征，因此该维度下场景识别结果中室外场景的概率将远高于室内场景，相应的，对两个维度的场景识别结果进行融合时，室外场景对应的场景概率修正公园对应的场景概率，室内场景对应的场景概率修正购物中心对应的场景概率，最终得到公园对应的场景概率高于购物中心对应的场景概率。

显然，通过上述原理描述以及相关示例可以看出，基于不同场景分类标准(不同分类标准之间存在父类和子类关系)对音频信号进行多级场景识别，并对多级场景识别结果进行融合，最终确定目标场景类别，能够降低不同场景之间相似性对单一维度场景识别结果的影响，进一步提高了声音场景识别的准确度。

本申请实施例提供的声音场景的识别方法，可以应用于语音通话场景。在一种可能的应用场景下，本申请实施例提供的方法可以应用于云会议，以提高云会议过程中参会方的语音收听以及语音传输质量。

云会议是基于云计算技术的一种高效、便捷、低成本的会议形式。使用者只需要通过互联网界面，进行简单易用的操作，便可快速高效地与全球各地团队及客户同步分享语音、数据文件及视频，而会议中数据的传输、处理等复杂技术由云会议服务商帮助使用者进行操作。

目前国内云会议主要集中在以软件即服务(Software as a Service，SaaS)模式为主体的服务内容，包括电话、网络、视频等服务形式，基于云计算的视频会议就叫云会议。

在云会议时代，数据的传输、处理、存储全部由视频会议厂家的计算机资源处理，用户完全无需再购置昂贵的硬件和安装繁琐的软件，只需打开浏览器，登录相应界面，就能进行高效的远程会议。

云会议系统支持多服务器动态集群部署，并提供多台高性能服务器，大大提升了会议稳定性、安全性、可用性。近年来，视频会议因能大幅提高沟通效率，持续降低沟通成本，带来内部管理水平升级，而获得众多用户欢迎，已广泛应用在政府、军队、交通、运输、金融、运营商、教育、企业等各个领域。毫无疑问，视频会议运用云计算以后，在方便性、快捷性、易用性上具有更强的吸引力，必将激发视频会议应用新高潮的到来。

请参考图2，其示出了本申请一个示例性实施例提供的实施环境的示意图。本实施例以声音场景的识别方法应用于云会议为例进行说明，该实施环境中包括至少两个终端210和服务器220。其中，各个终端210与服务器220之间通过通信网络进行数据通信，可选地，通信网络可以是有线网络也可以是无线网络，且该通信网络可以是局域网、城域网以及广域网中的至少一种。

终端210是具有云会议接入功能的电子设备。该电子设备可以是智能手机、平板电脑、膝上便携式笔记本电脑等移动终端，也可以是台式电脑、投影式电脑等终端，本申请实施例对此不做限定。

并且，该云会议接入功能可以通过终端210安装并运行的云会议应用程序实现，或者，通过终端210访问的云会议网页实现，本实施例对此不作限定。

如图2所示，用户“张三”和“李四”使用智能手机接入云会议，用户“王五”使用台式电脑接入云会议。

服务器220可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。本申请实施例中，服务器220为提供云会议服务器的服务器，比如云会议应用程序的后台服务器。

云会议过程中，各个终端210加入服务器220创建的云会议室，其中，服务器220可以同时创建多个云会议室，且不同云会议室对应不同的云会议标识(和密码)，终端210即通过云会议室标识(和密码)加入相应的云会议室。

如图2所示，云会议过程中，终端210将本端音频传输至服务器220，并接收服务器220传输的对端音频。比如，图2中，用户“王五”使用的终端210接收到的对端音频包括“张三”所使用的智能手机采集到的音频，以及“李四”所使用的智能手机采集到的音频。

需要说明的是，用户可以通过静音功能触发终端210停止向服务器220传输本端音频，从而实现会议过程中的部分终端静音。

在一种可能的实施方式中，对于采集到的本端音频或接收到的对端音频，终端210通过云会议应用程序提供的场景识别功能，对各路音频对应的采集场景进行场景识别，并在云会议界面中对各个参会方所处的场景进行标注。

示意性的，如图2所示，用户“王五”使用终端210进行云会议时，云会议界面211中显示有各个参会用户所处场景的场景标识212。

进一步的，终端210可以根据场景识别结果，对本端音频或者对端音频进行优化，比如对本端音频进行降噪、背景音过滤、人声增强处理、回声消除处理等等；或者，当某一终端所处的场景过于嘈杂时，会议组织方可以通过终端向服务器220发送静音指令，指示服务器220对指定终端进行静音。

在其他可能的实施方式中，上述声音场景的识别过程也可以由服务器220，并由服务器220将各路音频对应的场景类别反馈给各个终端210，以便终端210对各路音频进行相应处理，本实施例对此不作限定。

为了方便表述，下述各个实施例以声音场景的识别方法由计算机设备执行为例进行说明。

当然，上述仅以云会议这一应用场景为例进行说明，本申请实施例提供的方法可以应用于其他需要对音频采集场景进行识别的场景，本申请实施例并不对具体应用场景构成限定。

请参考图3，其示出了本申请一个示例性实施例提供的声音场景的识别方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤301，获取音频信号。

其中，该音频信号可以是从音频文件中截取的一段音频数据对应的音频信号，或者，可以是从实时接收或采集到的音频流中截取的一段音频数据的音频信号，本申请实施例并不对音频信号的获取方式以及长度进行限定。

步骤302，对音频信号进行特征提取，得到音频特征。

为了便于后续进行场景识别，计算机设备首先需要通过数学方式对音频信号进行特征提取，得到采用数学方式表示的音频特征。

可选的，提取到的音频特征可以包括如下至少一种：对数梅尔谱、梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)、翻转梅尔频率倒谱系数(InvertedMFCC，IMFCC)、伽马通滤波倒谱系数(Gammatone Frequency Cepstrum Coefficient，GFCC)、线性倒谱频率系数(LinearFrequency Cepstrum Coefficient，LFCC)、标准化能量系数(Power-Normalized Coefficients，PNCC)和感知线性预测系数(Perceptual LinearPredictive，PLP)。本申请实施例并不对音频特征的具体形式进行限定。

在一个示意性的例子中，当音频特征为对数梅尔谱时，计算机设备首先对音频信号进行分帧和加窗处理，并提取幅度谱特征X(p,m)，其中，p为频点标识，m为帧标识。然后，计算机设备对幅度谱特征进行取模开平方运算得到能量谱，并对能量谱进行梅尔滤波，得到梅尔谱Y(p,q)。进一步的，计算机设备对梅尔谱进行对数运算并进行规整，最终得到规整后的对数梅尔谱。

步骤303，根据音频特征对音频信号进行至少两级场景识别，得到至少两级场景识别结果，场景识别结果中包含不同场景类别对应的场景概率，其中，不同级别场景识别结果中包含的场景类别不同，且对于第i级场景识别结果中的任意场景类别，第i+1级场景识别结果中存在与场景类别对应的父类场景类别，i为正整数。

不同于相关技术中，计算机设备仅对音频信号进行单一维度的场景识别，得到单一维度场景识别结果，本申请实施例中计算机设备从至少两个维度对音频信号进行场景识别，即对同一音频信号进行至少两级场景识别，得到至少两个维度的场景识别结果。

可选的，各级别的场景识别结果中包含至少两个场景类别对应的场景概率，且不同场景类别对应场景概率之和为1。

本申请实施例中，不同级别的场景识别方式对应不同的场景分类标准，相应的，采用不同场景识别方式对同一音频信号进行场景识别所得到的场景识别结果中包含不同的场景类别。

此外，本申请实施例中，不同级别场景识别结果中包含的场景类别存在关联性。在一些实施例中，对于第i级场景识别结果中的任意场景类别，第i+1级场景识别结果中存在与该场景类别对应的父类场景类别，换而言之，对于第i+1级场景识别结果中的任意场景类别，第i级场景识别结果中存在至少一个与该场景类别对应的子类场景类别。

在一种可能的实施方式中，第i级场景识别结果中场景类别的划分粒度小于第i+1级场景识别结果中场景类别的划分粒度，第i级场景识别结果中的场景类别是对第i+1级场景识别结果中的场景类别进行细粒度划分(或举例)得到，相应的，第i级场景识别结果中包含的场景类别的数量≤第i+1级场景识别结果。

在一个示意性的例子中，第i+1级场景识别结果中包含的场景类别包括室内、室外和交通，第i场景识别结果中包含的场景类别包括办公室、购物中心、机场、步行街、公共广场、公园、公共汽车、地铁和电车，其中，室内为办公室、购物中心和机场对应的父类场景类别，室外为步行街、公共广场和公园对应的父类场景类别，交通为公共汽车、地铁和电车对应的父类场景类别。

相应的，第i场景识别结果中包含办公室、购物中心、机场、步行街、公共广场、公园、公共汽车、地铁和电车各自对应的场景概率，分别为0.001、0.002、0.001、0.40、0.001、0.005、0.11、0.36、0.12；第i+1场景识别结果中包含室内、室外和交通各自对应的场景概率，分别为0.001、0.10、0.899。

当然，上述场景识别结果仅用于示例性说明，还可以按照其他场景分类标准以及粒度进行场景划分，本申请实施例并不对此构成限定。

步骤304，基于至少两级场景识别结果，确定音频信号对应的目标场景类别。

进一步的，计算机设备对至少两级场景识别结果进行融合，得到场景识别融合结果，从而基于场景识别融合结果确定音频信号对应的目标场景类别。

可选的，场景识别融合结果中包含第一级场景识别结果中各个场景类别对应的融合场景概率，相应的，确定出的目标场景类别属于第一级场景识别结果中包含的场景类别，即通过上述声音场景的识别方法实现最细粒度的场景识别。

在一种可能的实施方式，计算机设备还具有对音频信号的优化功能，确定出目标场景类别后，计算机设备即根据目标场景类别对应的音频优化策略，对音频信号进行优化处理。其中，优化处理方式包括指定类型噪音消除、回声消除、人生增强等等，本申请实施例对此不作限定。

在一些实施例中，当目标场景类别属于嘈杂的交通场景时，计算机设备通过算法对风声以及交通噪音进行降噪处理；当目标场景类别属于安静的室内场景时，计算机设备通过回声消除算法对音频中的回声进行消除。

可选的，当音频信号是语音通话过程中，获取到的本端麦克风采集到的音频信号时，计算机设备对采集到的音频信号进行优化处理后，通过服务器向对端发送优化后的音频信号；当音频信号是语音通话过程中，获取到的通话对端传输的音频信号时，计算机设备对接收到的音频信号进行优化处理后，通过本端扬声器进行音频播放。

综上所述，本申请实施例中，对于从音频信号中提取到的音频特征，通过对音频特征进行至少两级场景识别，得到不同场景分类标准下的至少两级场景识别结果，实现对同一音频信号的多维度场景识别；并且由于不同级别场景识别结果中的场景类别之间存在父类和子类关系，因此对至少两级场景识别结果进行融合得到的场景识别结果的准确度高于单一维度的场景识别结果，进而基于融合后场景识别结果确定出的目标场景类别的准确率更高，提高了声音场景的识别准确率。

在一种可能的实施方式中，计算机设备中设置有基于样本音频信号预训练的至少两级场景识别模型，场景识别过程中，计算机设备即利用场景识别模型对音频信号进行场景识别，下面采用示意性的实施例进行说明。

请参考图4，其示出了本申请另一个示例性实施例提供的声音场景的识别方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤401，获取音频信号。

本步骤的实施方式可以参考上述步骤301，本实施例在此不再赘述。

步骤402，对音频信号进行特征提取，得到音频特征。

在一种可能的实施方式中，当不同级别的场景识别模型基于同一类型的音频特征进行场景识别时，计算机设备即对音频信号进行单次特征提取，并将提取到的音频特征作为各级别场景识别模型的输入数据；当不同级别的场景识别模型基于不同类型的音频特征进行场景识别时，计算机设备即对音频信号进行多次特征提取(比如分别进行MFCC特征提取和GFCC特征提取)，并将提取到的音频特征作为相应场景识别模型的输入数据。本申请实施例以各级别场景识别模型对应相同输入数据为例进行说明。

步骤403，将音频特征输入至少两级场景识别模型，得到至少两级场景识别模型输出的场景识别结果。

在一种可能的实施方式中，计算机设备将音频特征同步输入至少两级场景识别模型，由至少两级场景识别模型根据音频特征同步进行场景识别；或者，计算机设备将音频特征逐级输入各级场景识别模型，由至少两级场景识别模型根据音频特征依次进行场景识别。

比如，当设置有n级场景识别模型时，计算机设备将音频特征同时输入k级场景识别模型，或者，计算机设备依次将音频特征输入第n至第一级场景识别模型。

将音频特征输入第i级场景识别模型后，即可得到第i级场景识别模型输出的第i级场景识别结果。

在一种可能的实施方式中，本申请实施例中的场景识别模型是根据样本音频信号(包含场景类别标签)训练得到的神经网络模型，其中，同一样本音频信号对应至少两级场景类别标签，且同一样本音频信号对应的各级场景类别标签之间存在父类和子类关系。

可选的，当需要训练n级场景识别模型时，样本音频信号包含n级场景类别标签，其中，第i级场景类别标签为第i+1级场景类别标签的子类标签，第i级场景类别标签用于训练第i级场景识别模型，且第i级场景识别结果中的场景类别包含第i级场景类别标签。

训练各级场景识别模型的过程中，即将样本音频信号对应的样本音频特征输入待训练的场景识别模型，得到场景识别模型输出的样本场景识别结果，从而以样本场景标签作为样本场景识别结果的监督，通过梯度下降或反向传播等算法对场景识别模型的各层网络权值进行调整，直至样本场景识别结果与样本场景标签之间的差值满足收敛条件。

在一个示意性的例子中，如图5所示，包含两级场景识别模型，其中，第一级场景识别模型51用于根据音频特征识别办公室、购物中心、机场、步行街、公共广场、公园、公共汽车、地铁和电车这9种细分场景，第二级场景识别模型52用于根据音频特征识别室内、室外和交通这3种粗分场景。相应的，用于训练场景识别模型的样本音频信号即包含两级场景类别标签，其中，第一级场景类别标签属于上述细分场景，而第二级场景类别标签属于上述粗分场景。比如，一段样本音频信号对应的第一级场景类别标签为公园，对应的第二级场景类别标签为室外；，一段样本音频信号对应的第一级场景类别标签为公共汽车，对应的第二级场景类别标签为交通。

场景识别过程中，计算机设备将音频信号53中提取到的音频特征54分别输入第一级场景识别模型51和第二级场景识别模型52，分别得到第一级场景识别结果55和第一级场景识别结果56，其中，第一级场景识别结果55中包含各个细分场景对应的场景概率，第二级场景识别结果56中包含各个粗分场景对应的场景概率。

关于场景识别模型的具体模型结构，在一个示意性的例子中，如图6所示，场景识别模型61的神经网络结构为全卷积神经网络(Fully ConvolutionalNeural Networks，FCNN)。其中，不同场景识别模型的网络结构和输入参数的维度相同，且输出参数的维度不同。

场景识别模型61中包含多个堆叠的卷积层62，且每个卷积层62之后连接一个批处理和激活函数层63。为了缓解过拟合问题，部分层中添加了丢弃(dropout)层65；为了降低计算量和复杂度，部分层中还添加了池化(pooling)层64。场景识别模型61以全局平均和softmax函数67作为输出层，输出最终的场景识别结果。

需要说明的是，上述实施例仅为场景识别模型的示意性说明，场景识别模型还可以采用其他神经网络结构，或者，采用过多或更少的网络层数，本申请并不对场景识别模型的结构进行限定。

步骤404，获取第一级场景识别结果中候选场景类别对应的子类场景概率。

在一种可能的实施方式中，当最终确定的目标场景类别属于第一级场景识别结果中的场景类别时，获取到各级场景识别结果后，对于第一级场景识别结果中的各个候选场景类别，计算机设备通过下述步骤404至406确定候选场景类别对应的融合场景概率。

示意性的，如图5所示，计算机设备从第一级场景识别结果55中，获取办公室这一候选场景类别对应的子类场景概率为0.001。

当然，在其他可能的实施方式中，当最终确定的目标场景类别属于其它级别场景识别结果中的场景类别时，计算机设备从其它级别场景识别结果中选取候选场景类别，并获取对应的场景概率。比如，当最终确定的目标场景类别属于第二级别场景识别结果中的场景类别时，计算机设备即从第二级场景识别结果56中选取候选场景类别(即为室内、室外、交通中的某一场景)。

步骤405，从第一级场景识别结果以外的场景识别结果中，获取候选场景类别对应的至少一级父类场景类别的父类场景概率。

进一步的，计算机设备从其它级别的场景识别结果中，逐级确定候选场景类别对应的父类场景类别，并获取父类场景类别对应的场景概率。

在一种可能的实施方式中，计算机设备确定第二级场景识别结果中候选场景类别对应的第一级父类场景类别，并获取第一级父类场景类别对应的父类场景概率。

计算机设备确定第j级场景识别结果中的第j-1级父类场景类别，并获取第j-1级父类场景类别对应的父类场景概率，第j-1级父类场景类别为第j-2级父类场景类别对应的父类场景类别，j为大于等于2的整数。

比如，当存在两级场景识别模型时，计算机设备从第一级场景识别结果中获取候选场景类别，从第二级场景识别结果中获取候选场景类别对应的父类场景类别，并获取候选场景类别以及父类场景类别各自对应的场景概率。

当存在三级场景识别模型时，计算机设备从第一级场景识别结果中获取候选场景类别，根据候选场景类别从第二级场景识别结果中获取候选场景类别对应的第一级父类场景类别，根据第一级父类场景类别从第三级场景识别结果中获取候选场景类别对应的第二级父类场景类别(第二级父类场景类别对应的父类场景类别)。

可选的，计算机设备中存储有不同场景分类标准下场景类别之间的父子关系，示意性的，该父子关系如表一所示(以包含一级父子关系为例进行)。

表一

第一级场景分类标准	第二级场景分类标准
		室内	办公室、购物中心、机场
室外	步行街、公共广场、公园
		交通	公共汽车、地铁、电车

相应的，计算机设备基于该父子关系，确定场景类别对应的父类场景类别。

在一个示意性的例子中，如图5所示，计算机设备获取到第一级场景识别结果55中“办公室”对应的子类场景概率为0.001，并从第二级场景识别结果56中，获取“办公室”对应父类“室内”对应的父类场景概率为0.001。

计算机设备获取到第一级场景识别结果55中“公共汽车”对应的子类场景概率为0.11，并从第二级场景识别结果56中，获取“公共汽车”对应父类“交通”的父类场景概率为0.899。

步骤406，根据子类场景概率和父类场景概率，确定候选场景类别对应的融合场景概率。

进一步的，计算机设备根据获取到的各个子类场景概率和父类场景概率，确定各个候选场景类别对应的融合场景概率。

针对融合场景概率的确定方式，在一种可能的实施方式中，计算机设备计算子类场景概率与父类场景概率的概率乘积，并将概率乘积确定为候选场景类别对应的融合场景概率。

可选的，当得到k级场景识别结果时，计算机设备将子类场景概率×第一级父类场景概率×…×第(k-1)级父类场景概率确定为候选场景类别的融合场景概率。

示意性的，如图5所示，计算机设备根据第一级场景识别结果55中9个场景类别各自对应的场景概率，以及第二级场景识别结果56中3个场景类别各自对应的场景概率，生成场景识别融合结果57，场景识别融合结果57中包含第一级场景识别结果55中各个场景类别各自对应的融合场景概率。其中，“办公室”对应的融合场景概率为0.000001，“购物中心”对应的融合场景概率为0.000002，“机场”对应的融合场景概率为0.000001，“步行街”对应的融合场景概率为0.040，“公共广场”对应的融合场景概率为0.0001，“公园”对应的融合场景概率为0.0005，“公共汽车”对应的融合场景概率为0.09889，“地铁”对应的融合场景概率为0.32364，“电车”对应的融合场景概率为0.10788。

在其他可能的实施方式中，计算机设备还可以根据子类场景概率、子类场景概率对应的权重、父类场景概率以及父类场景概率对应的权重，确定融合场景概率。比如，融合场景概率＝子类场景概率×子类场景概率对应的权重+父类场景概率×父类场景概率对应的权重。

步骤407，基于各个候选场景类别的融合场景概率，从候选场景类别中确定目标场景类别。

在一种可能的实施方式中，确定出各个候选场景类别的融合场景概率后，计算机设备将最大融合场景概率对应的候选场景类别确定为目标场景类别。

可选的，当存在两级场景识别结果时，目标场景类别的确定过程可以用如下公式表示：

其中，class(x)为目标场景类别，C¹为第一级场景识别结果中场景类别构成的集合，C²为第二级场景识别结果中场景类别构成的集合，p为候选场景类别，q为候选场景类别p对应的父类场景类别，

表示第一级场景识别结果中候选场景类别p的场景概率，

表示第二级场景识别结果中父类场景类别q的场景概率。

示意性的，如图5所示，场景识别融合结果57中最高融合场景概率对应的场景类别为“地铁”，因此计算机设备确定音频信号53对应的目标场景类别为“地铁”。

通过图5所示的例子可以明显看出，若仅基于第一级场景识别结果55确定目标场景类别，由于“步行街”对应的场景概率高于“地铁”对应的场景概率，因此计算机设备将“步行街”确定为目标场景类别；而基于第一级场景识别结果55和第二级场景识别结果56融合得到的场景识别融合结果57确定目标场景类别时，“步行街”对应的场景概率经过“室外”对应场景概率修正，“地铁”对应的场景概率经过“交通”对应场景概率修正后，计算机设备最终将“地铁”确定为目标场景类别。

本实施例中，利用同一样本音频信号对应的多级场景类别标签，训练多级场景识别模型，从而在进行场景识别时，利用多级场景识别模型对音频信号进行多级场景识别，进而基于多级场景识别结果确定出目标场景类别，提高了场景识别的准确度。

上述实施例中，以通过至少两级场景识别模型进行声音场景识别为例进行说明。然而，在实际应用过程中发现，在一些情况下，当第一级场景识别模型输出的第一级场景识别结果的置信度较高时，利用其它级别场景识别模型输出的场景识别结果对第一级场景识别结果进行修正后，对场景识别准确率的影响较小，反而额外的神经网络推理过程会在成不必要的计算资源浪费。为了在保证场景识别准确率的同时，降低场景识别时的计算量，在图4的基础上，如图7所示，上述步骤403可以包括步骤403A和403B，且步骤403A之后还包括步骤。

步骤403A，将音频特征输入第一级场景识别模型，得到第一级场景识别模型输出的第一级场景识别结果。

本实施例中，计算机设备并非直接将音频特征输入各级场景识别模型，而是首先将音频特征输入第一级场景识别模型，并基于输出的第一级场景识别结果，确定是否需要通过其他级别的场景识别模型进行场景识别。

示意性的，如图8所示，计算机设备对音频信号81进行特征提取得到音频特征82后，首先将音频特征82输入第一级场景识别模型83，得到第一级场景识别结果84。

在一种可能的实施方式中，计算机设备检测第一级场景识别结果是否满足结果输出条件，若满足，则执行步骤408，若不满足，则执行步骤403B。

可选的，结果输出条件包括如下至少一种：

第一级场景识别结果中的最高场景概率高于第一概率阈值；

第一级场景识别结果中前k个场景类别对应同一父类场景类别，其中，第一级场景识别结果中的场景类别根据场景概率的降序排序，k为大于等于2的整数。

其中，当第一级场景识别结果中的最高场景概率高于第一概率阈值(比如75％)时，表明最高场景概率对应的候选场景类别为实际场景类别的置信度较高，因此计算机设备无需利用其它级别的场景识别模型进行场景识别；当第一级场景识别结果中前k个场景类别对应同一父类场景类别时，通常情况下，利用第二级场景识别模型进行场景识别得到的第二级场景识别结果中，该父类场景类别的场景概率也通常最高，因此计算机设备无需利用其它级别的场景识别模型进行场景识别。

步骤403B，响应于第一级场景识别结果不满足结果输出条件，将音频特征输入第一级场景识别模型以外的其它场景识别模型，得到其它场景识别模型输出的场景识别结果。

当不满足结果输出条件时，为了提高场景识别的准确率，计算机设备进一步将音频特征输入其他级别的场景识别模型，得到其他级别的场景识别结果，进而通过步骤404至407确定出目标场景类别。

示意性的，如图5所示，结果输出条件为：第一级场景识别结果中的最高场景概率高于75％，或，第一级场景识别结果中前3个场景类别对应同一父类场景类别。由于当前第一级场景识别结果55中的最高场景概率(0.40)低于75％，且当前第一级场景识别结果55中前3个场景类别(分别对应室外和交通)对应不同父类场景类别，因此计算机设备确定不满足结果输出条件，进而将音频特征54输入第二级场景识别模型52中，得到第二级场景识别结果56。

步骤408，响应于第一级场景识别结果满足结果输出条件，将第一级场景识别结果中最高场景概率对应的场景类别确定为目标场景类别。

当满足结果输出条件时，为了避免额外的网络推理在成计算资源浪费，计算机设备将第一级场景识别结果中最高场景概率对应的场景类别确定为目标场景类别。

示意性的，如图8所示，结果输出条件为：第一级场景识别结果中的最高场景概率高于75％，或，第一级场景识别结果中前3个场景类别对应同一父类场景类别。确定第一级场景识别结果84是否满足结果输出条件时，由于第一级场景识别结果84中的最高场景概率76％高于75％，因此，计算机设备将最高场景概率对应的候选场景类别“地铁”确定为目标场景类别85，而不再需要将音频特征82输入第二级场景识别模型86。

本实施例中，计算机设备基于第一级场景识别结果，确定是否需要通过其他级别的场景识别模型进行场景识别，在保证场景识别准确率的前提下，能够避免无效场景识别造成的计算资源浪费。

图9是本申请一个示例性实施例提供的声音场景的识别装置的结构框图，如图9所示，该装置包括：

获取模块901，用于获取音频信号；

特征提取模块902，用于对所述音频信号进行特征提取，得到音频特征；

场景识别模块903，用于根据所述音频特征对所述音频信号进行至少两级场景识别，得到至少两级场景识别结果，所述场景识别结果中包含不同场景类别对应的场景概率；

第一场景确定模块904，用于基于至少两级所述场景识别结果，确定所述音频信号对应的目标场景类别；

可选的，第一场景确定模块904，包括：

第一概率获取单元，用于获取第一级场景识别结果中候选场景类别对应的子类场景概率；

第二概率获取单元，用于从所述第一级场景识别结果以外的场景识别结果中，获取所述候选场景类别对应的至少一级父类场景类别的父类场景概率；

概率融合单元，用于根据所述子类场景概率和所述父类场景概率，确定所述候选场景类别对应的融合场景概率；

场景确定单元，用于基于各个所述候选场景类别的所述融合场景概率，从所述候选场景类别中确定所述目标场景类别。

可选的，所述第二概率获取单元，用于：

确定第二级场景识别结果中所述候选场景类别对应的第一级父类场景类别，并获取所述第一级父类场景类别对应的所述父类场景概率；

确定第j级场景识别结果中的第j-1级父类场景类别，并获取所述第j-1级父类场景类别对应的所述父类场景概率，所述第j-1级父类场景类别为第j-2级父类场景类别对应的父类场景类别，j为大于等于2的整数。

可选的，所述概率融合单元，用于：

计算所述子类场景概率与所述父类场景概率的概率乘积；

将所述概率乘积确定为所述候选场景类别对应的所述融合场景概率；

所述场景确定单元，用于：

将最大融合场景概率对应的所述候选场景类别确定为所述目标场景类别。

可选的，场景识别模块903，用于：

将所述音频特征输入至少两级场景识别模型，得到至少两级所述场景识别模型输出的所述场景识别结果，其中，第i级场景识别模型用于根据所述音频特征输入所述第i级场景识别结果，所述场景识别模型是根据包含场景类别标签的样本音频信号训练得到的神经网络模型，且同一样本音频信号对应至少两级所述场景类别标签。

可选的，场景识别模块903，包括：

第一识别单元，用于将所述音频特征输入第一级场景识别模型，得到所述第一级场景识别模型输出的第一级场景识别结果；

第二识别单元，用于响应于所述第一级场景识别结果不满足结果输出条件，将所述音频特征输入所述第一级场景识别模型以外的其它场景识别模型，得到其它场景识别模型输出的场景识别结果。

可选的，所述结果输出条件包括如下至少一种：

所述第一级场景识别结果中的最高场景概率高于第一概率阈值；

所述第一级场景识别结果中前k个场景类别对应同一父类场景类别，其中，所述第一级场景识别结果中的场景类别根据所述场景概率的降序排序，k为大于等于2的整数。

可选的，所述装置还包括：

第二场景确定模块，用于响应于所述第一级场景识别结果满足所述结果输出条件，将所述第一级场景识别结果中最高场景概率对应的场景类别确定为所述目标场景类别。

可选的，获取模块901，用于：

语音通话过程中，获取本端麦克风采集到的所述音频信号，或，获取通话对端传输的所述音频信号；

所述装置还包括：

优化模块，用于根据所述目标场景类别对应的音频优化策略，对所述音频信号进行优化处理。

可选的，所述音频特征包括至少一种：对数梅尔谱、MFCC、IMFCC、GFCC、LFCC、PNCC和PLP。

需要说明的是：上述实施例提供的声音场景的识别装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的声音场景的识别装置与声音场景的识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图10，其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲：所述计算机设备1000包括中央处理单元(Central Processing Unit，CPU)1001、包括随机存取存储器1002和只读存储器1003的系统存储器1004，以及连接系统存储器1004和中央处理单元1001的系统总线1005。所述计算机设备1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output，I/O系统)1006，和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。

所述基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中所述显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。所述基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。所述大容量存储设备1007及其相关联的计算机可读介质为计算机设备1000提供非易失性存储。也就是说，所述大容量存储设备1007可以包括诸如硬盘或者驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取记忆体(RAM，Random Access Memory)、只读存储器(ROM，Read Only Memory)、闪存或其他固态存储其技术，只读光盘(Compact Disc Read-Only Memory，CD-ROM)、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1001执行，一个或多个程序包含用于实现上述方法的指令，中央处理单元1001执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例，所述计算机设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1000可以通过连接在所述系统总线1005上的网络接口单元1011连接到网络1012，或者说，也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述任一实施例所述的声音场景的识别方法。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面提供的声音场景的识别方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述任一方法实施例所述的声音场景的识别方法。

可选地，该计算机可读存储介质可以包括：ROM、RAM、固态硬盘(SSD，Solid StateDrives)或光盘等。其中，RAM可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种声音场景的识别方法，其特征在于，所述方法包括：

获取音频信号；

对所述音频信号进行特征提取，得到音频特征；

2.根据权利要求1所述的方法，其特征在于，所述基于至少两级所述场景识别结果，确定所述音频信号对应的目标场景类别，包括：

获取第一级场景识别结果中候选场景类别对应的子类场景概率；

从所述第一级场景识别结果以外的场景识别结果中，获取所述候选场景类别对应的至少一级父类场景类别的父类场景概率；

根据所述子类场景概率和所述父类场景概率，确定所述候选场景类别对应的融合场景概率；

基于各个所述候选场景类别的所述融合场景概率，从所述候选场景类别中确定所述目标场景类别。

3.根据权利要求2所述的方法，其特征在于，所述从所述第一级场景识别结果以外的场景识别结果中，获取所述候选场景类别对应的至少一级父类场景类别的父类场景概率，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述子类场景概率和所述父类场景概率，确定所述候选场景类别对应的融合场景概率，包括：

计算所述子类场景概率与所述父类场景概率的概率乘积；

所述基于各个所述候选场景类别的所述融合场景概率，从所述候选场景类别中确定所述目标场景类别，包括：

5.根据权利要求1至4任一所述的方法，其特征在于，所述根据所述音频特征对所述音频信号进行至少两级场景识别，得到至少两级场景识别结果，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述音频特征输入至少两级场景识别模型，得到至少两级所述场景识别模型输出的所述场景识别结果，包括：

将所述音频特征输入第一级场景识别模型，得到所述第一级场景识别模型输出的第一级场景识别结果；

响应于所述第一级场景识别结果不满足结果输出条件，将所述音频特征输入所述第一级场景识别模型以外的其它场景识别模型，得到其它场景识别模型输出的场景识别结果。

7.根据权利要求6所述的方法，其特征在于，所述结果输出条件包括如下至少一种：

8.根据权利要求6所述的方法，其特征在于，所述将所述音频特征输入第一级场景识别模型，得到所述第一级场景识别模型输出的第一级场景识别结果之后，所述方法还包括：

响应于所述第一级场景识别结果满足所述结果输出条件，将所述第一级场景识别结果中最高场景概率对应的场景类别确定为所述目标场景类别。

9.根据权利要求1至4任一所述的方法，其特征在于，所述获取音频信号，包括：

所述确定所述音频信号对应的目标场景类别之后，所述方法还包括：

根据所述目标场景类别对应的音频优化策略，对所述音频信号进行优化处理。

10.根据权利要求1至4任一所述的方法，其特征在于，所述音频特征包括至少一种：对数梅尔谱、梅尔频率倒谱系数MFCC、翻转梅尔频率倒谱系数IMFCC、伽马通滤波倒谱系数GFCC、线性倒谱频率系数LFCC、标准化能量系数PNCC和感知线性预测系数PLP。

11.一种声音场景的识别装置，其特征在于，所述装置包括：

获取模块，用于获取音频信号；

12.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至10任一所述的声音场景的识别方法。

13.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至10任一所述的声音场景的识别方法。