CN113450823A

CN113450823A - 基于音频的场景识别方法、装置、设备及存储介质

Info

Publication number: CN113450823A
Application number: CN202010215261.0A
Authority: CN
Inventors: 邢文峰
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2021-09-28
Anticipated expiration: 2040-03-24
Also published as: CN113450823B

Abstract

本申请公开了一种基于音频的场景识别方法、装置、设备及存储介质，属于音频处理技术领域。所述方法包括：确定音频的当前音频帧包括的第一音源和第二音源，第一音源为带谐波的音源，第二音源为不带谐波的音源。统计第一音源数量和第二音源数量，第一音源数量是指所述当前音频帧包括的第一音源的数量，第二音源数量是指所述当前音频帧包括的第二音源的数量。根据第一音源数量和第二音源数量，确定当前音频帧所对应的场景。如此，可以将当前音频帧中的多种音源进行分类，然后根据每种音源的数量确定当前音频帧所对应的场景，避免出现将包括多种音源的同一个场景识别为多个场景的情况，提高了基于音频的场景识别的准确率。

Description

基于音频的场景识别方法、装置、设备及存储介质

技术领域

本申请涉及音频处理技术领域，特别涉及一种基于音频的场景识别方法、装置、设备及存储介质。

背景技术

基于音频的场景识别是通过对音频进行处理来确定音频所处的场景。通常情况下，可以先将音频从时域转换到频域，然后通过MFCC(Mel Frequency CepstrumCoefficient，梅尔频率倒谱系数)技术，根据音频的频率特性对音频进行分类，将频率特性相同的音频确定为属于同一种类型的音频，将属于同一种类型的音频确定为对应同一场景。但在实际生活中，由于同一场景中可能包括不同类型的音频，且不同类型的音频的频率特性相差较大，因此音频的频率特性变化较大，使用MFCC技术可能会将同一场景判断成不同的场景，导致场景识别出现错误。

发明内容

本申请提供了一种基于音频的场景识别方法、装置、设备及存储介质，可以解决相关技术中场景识别出现错误的问题。所述技术方案如下：

一方面，提供了一种基于音频的场景识别方法，所述方法包括：

确定音频的当前音频帧包括的第一音源和第二音源，所述第一音源为带谐波的音源，所述第二音源为不带谐波的音源；

统计第一音源数量和第二音源数量，所述第一音源数量是指所述当前音频帧包括的第一音源的数量，所述第二音源数量是指所述当前音频帧包括的第二音源的数量；

根据所述第一音源数量和所述第二音源数量，确定所述当前音频帧所对应的场景。

在本申请一种可能的实现方式中，所述确定音频的当前音频帧包括的第一音源和第二音源，包括：

根据所述当前音频帧，确定所述当前音频帧的共振峰记录表，所述共振峰记录表包括所述当前音频帧的多个共振峰的三元组，所述三元组包括对应的共振峰的频率、幅度和带宽；

根据所述多个共振峰的三元组，确定所述当前音频帧包括的第一音源和第二音源。

在本申请一种可能的实现方式中，所述根据所述当前音频帧，确定所述当前音频帧的共振峰记录表，包括：

将所述当前音频帧由时域转换到频域，得到所述当前音频帧的频谱图；

基于所述频谱图，确定所述当前音频帧的多个共振峰；

以三元组的形式记录所述多个共振峰中每个共振峰的频率、幅度和带宽，得到多个三元组；

将所述多个三元组进行组合，得到所述当前音频帧的共振峰记录表。

在本申请一种可能的实现方式中，所述根据所述多个共振峰的三元组，确定所述当前音频帧包括的第一音源和第二音源，包括：

将所述共振峰记录表确定为目标共振峰记录表；

从所述目标共振峰记录表中确定频率最高的共振峰，得到第一共振峰；

若所述目标共振峰记录表中存在与所述第一共振峰对应同一音源的共振峰，将所述第一共振峰对应的音源确定为一个第一音源，若所述目标共振峰记录表中不存在与所述第一共振峰对应同一音源的共振峰，将所述第一共振峰对应的音源确定为一个第二音源；

从所述目标共振峰记录表中删除与所确定的音源对应的所有共振峰的三元组；

将执行删除操作后的共振峰记录表确定为目标共振峰记录表，返回所述从所述目标共振峰记录表中确定频率最高的共振峰的步骤，直到所述共振峰记录表中不存在三元组为止。

在本申请一种可能的实现方式中，所述目标共振峰记录表中存在与所述第一共振峰对应同一音源的共振峰，包括：

若所述目标共振峰记录表中存在第二共振峰，基于所述第一共振峰的频率和所述第二共振峰的频率，从所述多个共振峰中确定至少一个第三共振峰，其中，所述第二共振峰是所述多个共振峰中带宽大于或等于所述第一共振峰的带宽、幅度大于或等于所述第一共振峰的幅度，且频率低于所述第一共振峰的频率的共振峰，每个第三共振峰的频率小于所述第二共振峰的频率；

若所述至少一个第三共振峰中存在目标第三共振峰，则确定所述目标共振峰记录表中存在与所述第一共振峰对应同一音源的共振峰，所述目标第三共振峰是指带宽大于或等于所述第二共振峰的带宽、且幅度大于或等于所述第二共振峰的幅度的第三共振峰。

在本申请一种可能的实现方式中，所述至少一个第三共振峰的数量为多个，所述至少一个第三共振峰中存在目标第三共振峰，包括：

按照频率从大到小的顺序，对所述多个第三共振峰进行排序；

按照排序后的多个第三共振峰从前往后的顺序，从所述多个第三共振峰中选择一个第三共振峰；

每选择一个第三共振峰，将当前选择的第三共振峰的带宽和幅度与所述第二共振峰的带宽和幅度进行对比；

若当前选择的第三共振峰的带宽大于或等于所述第二共振峰的带宽、且幅度大于或等于所述第二共振峰的幅度，则将当前选择的第三共振峰确定为所述目标共振峰，终止选择操作。

在本申请一种可能的实现方式中，所述目标共振峰记录表中不存在与所述第一共振峰对应同一音源的共振峰，包括：

若所述目标共振峰记录表中不存在第二共振峰，确定所述目标共振峰记录表中不存在与所述第一共振峰对应同一音源的共振峰，所述第二共振峰是所述多个共振峰中带宽大于或等于所述第一共振峰的带宽、幅度大于或等于所述第一共振峰的幅度，且频率低于所述第一共振峰的频率的共振峰；或者，

若所述目标共振峰记录表中存在所述第二共振峰，基于所述第一共振峰的频率和所述第二共振峰的频率，从所述多个共振峰中确定至少一个第三共振峰，若所述至少一个第三共振峰中不存在目标第三共振峰，确定目标共振峰记录表中不存在与所述第一共振峰对应同一音源的共振峰，其中，所述目标第三共振峰是指带宽大于或等于所述第二共振峰的带宽、且幅度大于或等于所述第二共振峰的幅度的第三共振峰，每个第三共振峰的频率小于所述第二共振峰的频率。

在本申请一种可能的实现方式中，所述根据所述第一音源数量和所述第二音源数量，确定所述当前音频帧所对应的场景，包括：

若所述当前音频帧为非静音音频帧，确定所述第一音源数量和所述第二音源数量之和，得到所述当前音频帧的音源总数量；

若所述音源总数量小于或等于所述第一参考阈值，获取静音时长，其中，在所述当前音频帧之前包括非静音音频帧的情况下，所述静音时长是指当前音频帧与前一个非静音音频帧之间包括的静音音频帧的总时长，或者，在所述当前音频帧之前不包括非静音音频帧的情况下，所述静音时长是指当前音频帧之前的所有静音音频帧的总时长；

响应于所述静音时长大于第二参考阈值，确定所述当前音频帧所对应的场景为人声场景。

在本申请一种可能的实现方式中，所述方法还包括：

响应于所述静音时长小于或等于所述第二参考阈值，若所述第一音源数量大于或等于第三参考阈值，确定所述当前音频帧所对应的场景为综艺场景；或者，

响应于所述静音时长小于或等于所述第二参考阈值，若所述第一音源数量小于所述第三参考阈值，确定所述当前音频帧所对应的场景为单乐器演奏场景。

统计每个第一音源的谐波数量；

获取所述当前音频帧的能量总值、第一能量值和第二能量值，所述第一能量值为所述当前音频帧中频率高于噪声频率阈值的音频频段的能量值，所述第二能量值为所述当前音频帧中频率低于参考频率阈值的音频频段的能量值；

根据所述第一音源数量、所述第二音源数量、每个第一音源的谐波数量、所述当前音频帧的能量总值、所述第一能量值和所述第二能量值，确定所述当前音频帧所对应的场景。

在本申请一种可能的实现方式中，所述根据所述第一音源数量、所述第二音源数量、每个第一音源的谐波数量、所述当前音频帧的能量总值、所述第一能量值和所述第二能量值，确定所述当前音频帧所对应的场景，包括：

基于所述第一音源数量与所述第二音源数量，确定所述当前音频帧中的第二音源的音源比例；

基于每个第一音源的谐波数量、所述第一音源数量和参考谐波数量阈值，确定所述当前音频帧的谐波数量比例；

基于所述第一能量值与所述能量总值，确定所述当前音频帧的噪声比例；

基于所述第二能量值与所述能量总值，确定所述当前音频帧中的指定音频的音频比例；

基于所述音源比例、所述谐波数量比例、所述噪声比例、所述音频比例，确定所述当前音频帧所对应的场景。

在本申请一种可能的实现方式中，所述基于所述音源比例、所述谐波数量比例、所述噪声比例、所述音频比例，确定所述当前音频帧所对应的场景，包括：

获取多组加权系数，每组加权系数对应一种场景，且每组加权系数包括所述音源比例的加权系数、所述谐波数量比例的加权系数、所述噪声比例的加权系数以及所述音频比例的加权系数；

分别基于所述音源比例、所述谐波数量比例、所述噪声比例、所述音频比例和每组加权系数，确定每组加权系数对应的概率，得到所述多个场景的概率；

将得到的多个概率中最大概率对应的场景确定为所述当前音频帧所对应的场景。

另一方面，提供了一种基于音频的场景识别装置，所述装置包括：

第一确定模块，用于确定音频的当前音频帧包括的第一音源和第二音源，所述第一音源为带谐波的音源，所述第二音源为不带谐波的音源；

统计模块，用于统计第一音源数量和第二音源数量，所述第一音源数量是指所述当前音频帧包括的第一音源的数量，所述第二音源数量是指所述当前音频帧包括的第二音源的数量；

第二确定模块，用于根据所述第一音源数量和所述第二音源数量，确定所述当前音频帧所对应的场景。

在本申请一种可能的实现方式中，所述第一确定模块用于：

基于所述频谱图，确定所述当前音频帧的多个共振峰；

在本申请一种可能的实现方式中，所述第一确定模块用于：

将所述共振峰记录表确定为目标共振峰记录表；

在本申请一种可能的实现方式中，所述第一确定模块用于：

所述至少一个第三共振峰的数量为多个，按照频率从大到小的顺序，对所述多个第三共振峰进行排序；

在本申请一种可能的实现方式中，所述第一确定模块用于：

在本申请一种可能的实现方式中，所述第二确定模块用于：

在本申请一种可能的实现方式中，所述第二确定模块还用于：

在本申请一种可能的实现方式中，所述第二确定模块用于：

统计每个第一音源的谐波数量；

在本申请一种可能的实现方式中，所述第二确定模块用于：

另一方面，提供了一种设备，所述设备包括存储器和处理器，所述存储器用于存放计算机程序，所述处理器用于执行所述存储器上所存放的计算机程序，以实现上述所述的基于音频的场景识别方法的步骤。

另一方面，提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的基于音频的场景识别方法的步骤。

另一方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述所述的基于音频的场景识别方法的步骤。

本申请提供的技术方案至少可以带来以下有益效果：

确定音频的当前音频帧包括的带谐波的第一音源和不带谐波的第二音源，可以将当前音频帧包括的多种音源区分开来。然后统计当前音频帧中包括的第一音源的数量和第二音源的数量，得到第一音源数量和第二音源数量。由于不同场景中包括的第一音源数量和第二音源数量可能是不同的，因此可以根据第一音源数量和第二音源数量，确定当前音频帧所对应的场景。如此，可以将当前音频帧中的多种音源进行分类，然后根据每种音源的数量确定当前音频帧所对应的场景，避免出现将包括多种音源的同一个场景识别为多个场景的情况，提高了基于音频的场景识别的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种基于音频的场景识别方法的流程图；

图2是根据一示例性实施例示出的一种确定共振峰记录表的流程图；

图3是根据一示例性实施例示出的一种音频帧的频谱图；

图4是根据一示例性实施例示出的一种基于滤波器得到的波形的示意图；

图5是根据一示例性实施例示出的一种确定音频帧中第一音源和第二音源的流程图；

图6是根据一示例性实施例示出的一种确定音频帧所对应的场景的方法的流程图；

图7是根据一示例性实施例示出的一种场景切换的流程图；

图8是根据一示例性实施例示出的一种基于音频的场景识别装置的结构示意图；

图9是根据一示例性实施例示出的一种设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例提供的基于音频的场景识别方法进行详细的解释说明之前，先对本申请实施例提供的执行主体进行介绍。

本申请实施例提供的基于音频的场景识别方法的执行主体为设备，该设备中可以存储有音频，并且该设备可以对音频进行处理，以确定音频所对应的场景。

作为一种示例，该设备可以为终端。该终端可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如PC(Personal Computer，个人计算机)、手机、智能手机、PDA(Personal DigitalAssistant，个人数字助手)、掌上电脑PPC(Pocket PC)、平板电脑、智能车机、智能电视、智能音箱等。

作为另一种示例，该设备可以为服务器。该服务器可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。

本领域技术人员应能理解上述设备仅为举例，其他现有的或今后可能出现的设备如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

介绍完本申请实施例提供的基于音频的场景识别方法的执行主体之后，接下来对本申请实施例提供的基于音频的场景识别方法进行详细的解释说明。

图1是根据一示例性实施例示出的一种基于音频的场景识别方法的流程图，该方法应用于上述设备中。请参考图1，该方法可以包括如下步骤：

步骤101：确定音频的当前音频帧包括的第一音源和第二音源，第一音源为带谐波的音源，第二音源为不带谐波的音源。

在实施中，参见图2，设备可以先对输入或存储的音频进行分帧，通常在48KHz的采样率下，可以将音频的256个样点分为一帧，如此可以得到包括256个样点的当前音频帧。由于当前音频帧可能是由多种音源发出的音频形成的，因此需要先区分当前音频帧包括的带谐波的第一音源和不带谐波的第二音源。

在实施中，确定音频的当前音频帧包括的第一音源和第二音源的具体实现可以包括：根据当前音频帧，确定当前音频帧的共振峰记录表，共振峰记录表包括当前音频帧的多个共振峰的三元组，三元组包括对应的共振峰的频率、幅度和带宽。根据多个共振峰的三元组，确定当前音频帧包括的第一音源和第二音源。

也就是说，可以先根据当前音频帧，确定当前音频帧的多个共振峰以及每个共振峰的频率、幅度和带宽，然后根据多个共振峰的频率、幅度和带宽确定当前音频帧包括的第一音源和第二音源。

在一种可能的实现方式中，根据当前音频帧，确定当前音频帧的共振峰记录表的具体实现可以包括：将当前音频帧由时域转换到频域，得到当前音频帧的频谱图。基于频谱图，确定当前音频帧的多个共振峰。以三元组的形式记录多个共振峰中每个共振峰的幅度、频率和带宽，得到多个三元组。将多个三元组进行组合，得到当前音频帧的共振峰记录表。

作为一种示例，参见图2，可以对当前音频帧进行余弦变换或FFT(Fast FourierTransformation，快速傅里叶变换)，将当前音频帧从时域转换到频域，得到当前音频帧的频谱图。然后在该频谱图中确定多个共振峰以及每个共振峰的频率、幅度和带宽，对于任一共振峰，可以以三元组的形式记录该共振峰的频率、幅度和带宽，得到一个共振峰的三元组。对于当前音频帧中的多个共振峰均进行上述操作后，可以得到多个共振峰的三元组，然后将多个共振峰的三元组进行组合，可以得到当前音频帧的共振峰记录表。

示例性地，参见图3，图3是根据一示例性实施例示出的一种音频帧的频谱图。确定当前音频帧的共振峰就是记录图3中所有的小峰，假设图3中第一个共振峰的频率为100Hz，幅度为-1dB，带宽为120Hz，则第一个共振峰的三元组可以记为(10，-1，120)。

进一步地，由于有些频率是人耳无法听到的，对于本方案的实现没有帮助，因此在基于频谱图确定共振峰的过程中，可以限定共振峰的频率，即在指定频段内确定多个共振峰，例如，在10Hz-10000Hz的频段内确定多个共振峰，并记录每个共振峰的频率、幅度和带宽。如此，可以减少数据量，降低设备的存储压力和计算压力。

进一步地，由于当前音频帧中的共振峰的数量可能会很多，且一些共振峰不仅对本方案的实现没有帮助，而且会增加运算量。因此，在确定当前音频帧的共振峰记录表之前，参见图2，还可以将当前音频帧输入低通滤波器中进行滤波，然后根据滤波后的当前音频帧确定共振峰记录表，如此，可以降低当前音频帧中共振峰的数量，进而减少运算量，降低设备的存储压力和计算压力。

需要说明的是，可以根据大数据或经验来设置低通滤波器的带宽，也可以在使用低通滤波器的过程中逐渐减少带宽，例如，以pai/8为例，带宽每次减少pai/8，并且在多种带宽情况下分别确定当前音频帧的共振峰的数量，直到共振峰的数量满足需求。

需要说明的是，参见图3，还可以通过直接连接频谱图中峰值的方法来降低共振峰的数量，即仅记录连接后的曲线上的共振峰的频率、峰值和带宽。

在另一种可能的实现方式中，根据当前音频帧，确定当前音频帧的共振峰记录表的具体实现可以包括：参见图2，将当前音频帧输入多通道滤波器中，计算每个通道的能量值，得到当前音频帧经过滤波的波形，然后基于该波形确定当前音频帧的多个共振峰的频率、幅度和带宽，以三元组的形式记录每个共振峰的频率、幅度和带宽，可以得到多个共振峰的三元组，将多个三元组进行组合进而得到当前音频帧的共振峰记录表。示例性地，参见图4，图4是根据一示例性实施例示出的一种基于滤波器得到的波形的示意图。

在实施中，根据多个共振峰的三元组，确定当前音频帧包括的第一音源和第二音源的具体实现可以包括：将共振峰记录表确定为目标共振峰记录表，从目标共振峰记录表中确定频率最高的共振峰，得到第一共振峰。若目标共振峰记录表中存在与第一共振峰对应同一音源的共振峰，将第一共振峰对应的音源确定为一个第一音源，若目标共振峰记录表中不存在与第一共振峰对应同一音源的共振峰，将第一共振峰对应的音源确定为一个第二音源。从目标共振峰记录表中删除与所确定的音源对应的所有共振峰的三元组。将执行删除操作后的共振峰记录表确定为目标共振峰记录表，返回从目标共振峰记录表中确定频率最高的共振峰的步骤，直到共振峰记录表中不存在三元组为止。

也就是说，参见图5，可以先将共振峰记录表确定为目标共振峰记录表，然后从目标共振峰记录表中确定频率最高的第一共振峰，再确定目标共振峰记录表中是否存在与第一共振峰对应同一音源的共振峰。若存在，将第一共振峰对应的音源确定为一个第一音源，若不存在，将第一共振峰对应的音源确定为一个第二音源。然后从目标共振峰记录表中删除所确定的音源对应的所有共振峰的三元组，再将执行删除操作后的共振峰记录表确定为目标共振峰记录表。继续执行从目标共振峰记录表中确定频率最高的第一共振峰的操作，直到共振峰记录表中不包括共振峰的三元组，即共振峰记录表中的每个共振峰都确定了对应的音源为止。

在实施中，目标共振峰记录表中存在与第一共振峰对应同一音源的共振峰的具体实现可以包括：若目标共振峰记录表中存在第二共振峰，基于第一共振峰的频率和第二共振峰的频率，从多个共振峰中确定至少一个第三共振峰，其中，第二共振峰是多个共振峰中带宽大于或等于第一共振峰的带宽、幅度大于或等于第一共振峰的幅度，且频率低于第一共振峰的频率的共振峰，每个第三共振峰的频率小于第二共振峰的频率。若至少一个第三共振峰中存在目标第三共振峰，则确定目标共振峰记录表中存在与第一共振峰对应同一音源的共振峰，目标第三共振峰是指带宽大于或等于第二共振峰的带宽、且幅度大于或等于第二共振峰的幅度的第三共振峰。

也就是说，在目标共振峰记录表中存在第二共振峰的情况下，可以基于第一共振峰的频率和第二共振峰的频率，从多个共振峰中确定至少一个第三共振峰，若至少一个第三共振峰中存在目标第三共振峰，可以认为目标共振峰、第二共振峰和第一共振峰对应同一音源，进而确定目标共振峰记录表中存在与第一共振峰对应同一音源的共振峰。

在一些实施例中，目标共振峰记录表中存在第二共振峰的具体实现可以包括：在目标共振峰记录表中，可以从频率低于第一共振峰的频率的共振峰中，确定幅度大于或等于第一共振峰的幅度、且带宽大于或等于第一共振峰的带宽的共振峰。若所确定的共振峰的数量为多个，说明目标共振峰记录表中存在第二共振峰，且可以将所确定的共振峰中频率最高的共振峰确定为第二共振峰。

在一些实施例中，基于第一共振峰的频率和第二共振峰的频率，从多个共振峰中确定至少一个第三共振峰的具体实现可以包括：先通过第一共振峰的频率和第二共振峰的频率，确定多个频率点，然后根据多个频率点从多个共振峰中确定至少一个第三共振峰。

示例性地，可以基于第一共振峰的频率和第二共振峰的频率，通过如下公式(1)确定多个频率点：

f＝f₁-n*(f₀-f₁) (1)

其中，f为确定的频率点，f₀为第一共振峰的频率，f₁为第二共振峰的频率，n为变量，且n可以从1开始，以步长为1取值，直到f小于或等于0。

通过上述公式(1)，在n取不同值的情况下可以确定多个频率点f，然后在目标共振峰记录表中查询该多个频率点是否存在共振峰，将该多个频率点中存在的共振峰确定为至少一个第三共振峰。

需要说明的是，上述公式(1)仅是一种示例，在另一些实施例中，受当前音频帧中其他音源的影响，共振峰的位置可能会有偏差，因此还可以确定多个频率点附近，与f的差值为(f₀-f₁)*0.1Hz的频率点中是否存在共振峰。

作为一种示例，若至少一个第三共振峰的数量为多个，至少一个第三共振峰中存在目标第三共振峰的具体实现可以包括：按照频率从大到小的顺序，对多个第三共振峰进行排序。按照排序后的多个第三共振峰从前往后的顺序，从多个第三共振峰中选择一个第三共振峰，每选择一个第三共振峰，将当前选择的第三共振峰的带宽和幅度与第二共振峰的带宽和幅度进行对比。若当前选择的第三共振峰的带宽大于或等于第二共振峰的带宽、且幅度大于或等于第二共振峰的幅度，则将当前选择的第三共振峰确定为目标共振峰，终止选择操作。

也就是说，可以先将多个第三共振峰按照频率从大到小的顺序进行排序。然后从多个第三共振峰中选择排序第一的第三共振峰，将排序第一的第三共振峰的带宽和幅度与第二共振峰的带宽和幅度进行对比。若排序第一的第三共振峰的带宽大于或等于第二共振峰的带宽、且幅度大于或等于第二共振峰的幅度，可以将排序第一的第三共振峰确定为目标共振峰，且确定至少一个第三共振峰中存在目标第三共振峰。若排序第一的第三共振峰的带宽小于第二共振峰的带宽、和/或幅度小于第二共振峰的幅度，从多个第三共振峰中选择排序第二的第三共振峰，将排序第二的第三共振峰的带宽和幅度与第二共振峰的带宽和幅度进行对比。若排序第二的第三共振峰的带宽大于或等于第二共振峰的带宽、且幅度大于或等于第二共振峰的幅度，可以将排序第二的第三共振峰确定为目标共振峰，且确定至少一个第三共振峰中存在目标第三共振峰。若排序第二的第三共振峰的带宽小于第二共振峰的带宽、和/或幅度小于第二共振峰的幅度，从多个第三共振峰中选择排序第三的第三共振峰，将排序第三的第三共振峰的带宽和幅度与第二共振峰的带宽和幅度进行对比，以此类推，直到当前选择的第三共振峰的带宽大于或等于第二共振峰的带宽、且幅度大于或等于第二共振峰的幅度，则将当前选择的第三共振峰确定为目标共振峰，终止选择操作。

不难理解，如果直到选择结束，仍不存在带宽大于或等于第二共振峰的带宽、且幅度大于或等于第二共振峰的幅度的第三共振峰，则确定该至少一个第三共振峰中不存在目标共振峰。

作为另一种示例，若至少一个第三共振峰的数量为一个，至少一个第三共振峰中存在目标第三共振峰的具体实现可以包括：将该一个共振峰的幅度和带宽与第二共振峰的幅度和带宽进行对比，在确定该一个第三共振峰的幅度大于或等于第二共振峰的幅度、且带宽大于或等于第二共振峰的带宽的情况下，确定该第一第三共振峰为目标共振峰，即确定至少一个第三共振峰中存在目标第三共振峰。

在一些实施例中，若目标共振峰记录表中存在与第一共振峰对应同一音源的共振峰，可以确定与第一共振峰对应同一音源的所有共振峰，并将第一共振峰对应的音源确定为一个第一音源，然后将所确定的一个第一音源对应的所有共振峰的三元组都从目标共振峰记录表中删除。

其中，一个第一音源对应的所有共振峰包括第一共振峰、以及与第一共振峰对应同一音源的所有共振峰。

也就是说，若目标共振峰记录表中存在与第一共振峰对应同一音源的共振峰，可以将与第一共振峰对应同一音源的所有共振峰都确定出来，然后从目标共振峰记录表中将第一共振峰的三元组、以及与第一共振峰对应同一音源的所有共振峰的三元组全部删除。

在实施中，确定与第一共振峰对应同一音源的所有共振峰的具体实现可以包括：先确定第二共振峰，其中，第二共振峰是多个共振峰中带宽大于或等于第一共振峰的带宽、幅度大于或等于第一共振峰的幅度，且频率低于第一共振峰的频率的共振峰。然后基于第一共振峰的频率和第二共振峰的频率确定多个第三共振峰，再从多个第三共振峰中确定与第一共振峰对应同一音源的目标共振峰，将第二共振峰和目标共振峰确定为与第一共振峰对应同一音源的所有共振峰。

作为一种示例，从多个第三共振峰中确定与第一共振峰对应同一音源的目标共振峰的过程中，可以先将多个第三共振峰按照频率从大到小的顺序进行排序。然后从多个第三共振峰中选择排序第一的第三共振峰，将排序第一的第三共振峰的带宽和幅度与第二共振峰的带宽和幅度进行对比。若排序第一的第三共振峰的带宽大于或等于第二共振峰的带宽、且幅度大于或等于第二共振峰的幅度，可以将排序第一的第三共振峰确定为第一个目标共振峰。然后将排序第二的第三共振峰的带宽和幅度与排序第一的第三共振峰的带宽和幅度进行对比，若排序第二的第三共振峰的带宽大于或等于排序第一的第三共振峰的带宽、且幅度大于或等于排序第一的第三共振峰的幅度，可以将排序第二的第三共振峰确定为第二个目标共振峰。若排序第一的第三共振峰的带宽小于第二共振峰的带宽、和/或幅度小于第二共振峰的幅度，可以将排序第二的第三共振峰的带宽和幅度与第二共振峰的带宽和幅度进行对比，若排序第二的第三共振峰的带宽大于或等于第二共振峰的带宽、且幅度大于或等于第二共振峰的幅度，可以将排序第二的第三共振峰确定为第一个目标共振峰。以此类推，将下一个第三共振峰的幅度和带宽与其前一个目标共振峰的幅度和带宽进行对比，确定下一个第三共振峰是否为目标共振峰，直到将排序最后一个的第三共振峰与其前一个目标共振峰的幅度和带宽进行对比，确定该最后一个第三共振峰是否为目标共振峰为止。

在实施中，目标共振峰记录表中不存在与第一共振峰对应同一音源的共振峰的可以包括如下两种情况：

第一种情况：若目标共振峰记录表中不存在第二共振峰，确定目标共振峰记录表中不存在与第一共振峰对应同一音源的共振峰，第二共振峰是多个共振峰中带宽大于或等于第一共振峰的带宽、幅度大于或等于第一共振峰的幅度，且频率低于第一共振峰的频率的共振峰。

在实施中，在目标共振峰记录表中，可以从频率低于第一共振峰的频率的共振峰中，确定幅度大于或等于第一共振峰的幅度、且带宽大于或等于第一共振峰的带宽的共振峰。若目标共振峰记录表中不存在满足上述条件的共振峰，说明目标共振峰记录表中不存在第二共振峰，进而可以确定目标共振峰记录表中不存在与第一共振峰对应同一音源的共振峰。

第二种情况：若目标共振峰记录表中存在第二共振峰，基于第一共振峰的频率和第二共振峰的频率，从多个共振峰中确定至少一个第三共振峰，若至少一个第三共振峰中不存在目标第三共振峰，确定目标共振峰记录表中不存在与第一共振峰对应同一音源的共振峰，其中，目标第三共振峰是指带宽大于或等于第二共振峰的带宽、且幅度大于或等于第二共振峰的幅度的第三共振峰，每个第三共振峰的频率小于第二共振峰的频率。

在实施中，在目标共振峰记录表中，可以从频率低于第一共振峰的频率的共振峰中，确定幅度大于或等于第一共振峰的幅度、且带宽大于或等于第一共振峰的带宽的共振峰。若目标共振峰记录表中存在满足上述条件的共振峰，说明目标共振峰记录表中存在第二共振峰。然后可以基于第一共振峰的频率和第二共振峰的频率，确定多个频率点，并基于多个频率点，从多个共振峰中确定至少一个第三共振峰。再根据至少一个第三共振峰中每个第三共振峰的带宽和幅度，以及第二共振峰的带宽和幅度，确定至少一个第三共振峰中是否存在目标第三共振峰，若否，说明目标共振峰记录表中不存在与第一共振峰对应同一音源的共振峰。

需要说明的是，基于第一共振峰的频率和第二共振峰的频率，从多个共振峰中确定至少一个第三共振峰的操作与上述实施例中的操作类似，具体可参见上述实施例的相关描述，本实施例在此不再赘述。

作为一种示例，若至少一个第三共振峰的数量为多个，至少一个第三共振峰中不存在目标第三共振峰的具体实现可以包括：将多个第三共振峰中的每个第三共振峰的幅度和频率与第二共振峰的幅度和频率进行对比，若多个第三共振峰中不存在带宽大于或等于第二共振峰的带宽、且幅度大于或等于第二共振峰的幅度的第三共振峰，可以认为至少一个第三共振峰中不存在目标第三共振峰。

作为另一种示例，若至少一个第三共振峰的数量为一个，至少一个第三共振峰中不存在目标第三共振峰的具体实现可以包括：将该一个第三共振峰的幅度和频率与第二共振峰的幅度和频率进行对比，若该一个第三共振峰的带宽小于第二共振峰的带宽、和/或幅度小于第二共振峰的幅度，可以认为该一个第三共振峰不是目标共振峰，进而确定至少一个第三共振峰中不存在目标第三共振峰。

步骤102：统计第一音源数量和第二音源数量，第一音源数量是指当前音频帧包括的第一音源的数量，第二音源数量是指当前音频帧包括的第二音源的数量。

通过上一个步骤已经对目标共振峰记录表中的多个共振峰进行了分类，确定了每个共振峰对应的音源，并且确定了对应同一音源的共振峰。在实施中，可以将当前音频帧中对应同一音源的共振峰分为一组，如此，可以得到至少一个共振峰组，然后统计至少一个共振峰组的数量，可以直接将统计的数量确定为第一音源数量。统计当前音频帧中与第二音源对应的共振峰的数量，可以得到第二音源数量。

步骤103：根据第一音源数量和第二音源数量，确定当前音频帧所对应的场景。

由于在不同场景中，第一音源数量与第二音源数量可能是不同的，因此，可以根据第一音源数量和第二音源数量确定当前音频帧所对应的场景。

在实施中，根据第一音源数量和第二音源数量，确定当前音频帧所对应的场景可以包括如下两种实现方式：

第一种实现方式：若当前音频帧为非静音音频帧，确定第一音源数量和第二音源数量之和，得到当前音频帧的音源总数量。若音源总数量小于或等于第一参考阈值，获取静音时长，其中，在当前音频帧之前包括非静音音频帧的情况下，静音时长是指当前音频帧与前一个非静音音频帧之间包括的静音音频帧的总时长，或者，在当前音频帧之前不包括非静音音频帧的情况下，静音时长是指当前音频帧之前的所有静音音频帧的总时长。响应于静音时长大于第二参考阈值，确定当前音频帧所对应的场景为人声场景。

需要说明的是，第一参考阈值可以由用户根据实际需求进行设置，也可以由设备默认设置，本申请实施例对此不做限定。例如，第一参考阈值可以为3。

需要说明的是，第二参考阈值可以由用户根据实际需求进行设置，也可以由设备默认设置，本申请实施例对此不做限定。例如，第二参考阈值可以为0.1s。

其中，人声场景可以是以人声为主的场景，可以包括新闻场景、电影对白场景等。

作为一种示例，假设当前音频帧为第10个音频帧，当前音频帧之前包括非静音音频帧，且当前音频帧的前一个非静音音频帧为第6个音频帧，可以认为第7个音频帧、第8个音频帧和第9个音频帧均为静音音频帧，确定静音时长为第7个音频帧的时长、第8个音频帧的时长和第9个音频帧的时长之和。假设当前音频帧之前不包括非静音音频帧，即当前音频帧之前的9个音频帧均为静音音频帧，则确定静音时长为当前音频帧之前的9个音频帧的时长之和。

也就是说，参见图6，可以判断当前音频帧是否为静音音频帧，如果当前音频帧是非静音音频帧，可以将第一音源数量和第二音源数量之和确定为当前音频帧的音源总数量。若音源总数量小于或等于第一参考阈值，说明当前音频帧中音源总数量较少，可能是比较安静简单的场景，因此获取静音时长，若静音时长大于第二参考阈值，可以认为当前音频帧的所对应的场景为人声场景。

在实施中，响应于静音时长小于或等于第二参考阈值，若第一音源数量大于或等于第三参考阈值，确定当前音频帧所对应的场景为综艺场景；或者。响应于静音时长小于或等于第二参考阈值，若第一音源数量小于第三参考阈值，确定当前音频帧所对应的场景为单乐器演奏场景。

需要说明的是，第三参考阈值可以由用户根据实际需求进行设置，也可以由设备默认设置，本申请实施例对此不做限定。例如，第一参考阈值可以为1。

其中，综艺场景可以包括音乐和人声，且可以是以人声为主，带少量背景音乐。

其中，单乐器演奏场景可以包括一种乐器的演奏声音。

也就是说，参见图6，若静音时长不大于第二参考阈值，可以继续判断第一音源数量与第三参考阈值的大小关系。若第一音源数量大于或等于第三参考阈值，可以认为当前音频帧对应的场景中带谐波的音源可能较多，因此可以确定当前音频帧所对应的场景为综艺场景。若第一音源数量小于第三参考阈值，可以认为当前音频帧对应的场景中带谐波的音源可能较少，因此可以确定当前音频帧所对应的场景为单乐器演奏场景。

在一些实施例中，若音源总数量大于第一参考阈值，可以判断第一音源数量和第二音源数量的大小关系。若第二音源数量大于第一音源数量，统计每个第一音源的谐波数量，基于每个第一音源的谐波数量和第一音源数量，确定当前音频帧的谐波数量均值。响应于谐波数量均值大于第四参考阈值，确定当前音频帧所对应的场景为歌曲场景。响应于谐波数量均值小于或等于第四参考阈值，确定当前音频帧所对应的场景为体育场景。

需要说明的是，第四参考阈值可以由用户根据实际需求进行设置，也可以由设备默认设置，本申请实施例对此不做限定。例如，第四参考阈值可以为5。

其中，歌曲场景可以包括人声和音乐，且人声和音乐在音频帧中所占的比例差别不大。

其中，体育场景可以包括人声和噪声，且是以噪声为主，带少量人声。

在实施中，可以根据共振峰组中共振峰的数量确定第一音源的谐波数量。由于同一音源的多个共振峰中通常有一个共振峰是由基音产生的，其他的共振峰是由谐波产生的，因此，可以将一个共振峰组中共振峰的数量减去1的值确定为该共振峰组对应的第一音源的谐波数量。如此，可以确定每个第一音源的谐波数量。然后确定当前音频帧中多个第一音源的谐波总数量，将谐波总数量与第一音源数量的商确定为当前音频帧的谐波数量均值。

在实施中，参见图6，若音源总数量大于第一参考阈值，且第二音源数量大于第一音源数量，说明当前音频帧中不带谐波的音源较多，若谐波数量均值大于第四参考阈值，可以认为当前音频帧中谐波数量也比较多，可能是既有人声又有音乐的复杂场景，因此可以确定当前音频帧所对应的场景为歌曲场景。若谐波数量均值小于或等于第四参考阈值，可以认为当前音频帧中谐波数量较少，可以确定当前音频帧所对应的场景为体育场景。

作为一种示例，若第二音源数量小于或等于第一音源数量，响应于谐波数量均值大于第四参考阈值，确定当前音频帧所对应的场景为复杂音乐场景。响应于谐波数量均值小于或等于第四参考阈值，确定当前音频帧所对应的场景为电影场景。

其中，复杂音乐场景可以包括多种音源。例如，复杂音乐场景可以为交响乐演奏场景。

其中，电影场景可以包括人声和各种特效声音，且特效声音较多。

也就是说，参见图6，若第二音源数量小于或等于第一音源数量，说明当前音频帧中带谐波的音源较多。若谐波数量均值大于第四参考阈值，可以认为当前音频帧中谐波数量也比较多，可能包括多种音乐的复杂场景，因此可以确定当前音频帧所对应的场景为复杂音乐场景。若谐波数量均值小于或等于第四参考阈值，可以认为当前音频帧中谐波数量较少，可以确定当前音频帧所对应的场景为电影场景。

进一步地，确定当前音频帧所对应的场景后，可以将静音时长清零。另外，参见图6，若当前音频帧为静音音频帧，可以记录当前音频帧的静音时长。

第二种实现方式：统计每个第一音源的谐波数量。获取当前音频帧的能量总值、第一能量值和第二能量值，第一能量值为当前音频帧中频率高于噪声频率阈值的音频频段的能量值，第二能量值为当前音频帧中频率低于参考频率阈值的音频频段的能量值。根据第一音源数量、第二音源数量、每个第一音源的谐波数量、当前音频帧的能量总值、第一能量值和第二能量值，确定当前音频帧所对应的场景。

需要说明的是，噪声频率阈值可以由用户根据实际需求进行设置，也可以由设备默认设置，本申请实施例对此不做限定。由于人声的基频一般为100-200Hz，谐波频率可以到5kHz，大多数音乐的频率也集中在100-5000Hz，超过5000Hz主要是以噪声为主。因此，可以将噪声频率阈值设置为5000Hz。

需要说明的是，参考频率阈值可以由用户根据实际需求进行设置，也可以由设备默认设置，本申请实施例对此不做限定。由于低于100Hz的音源主要是爆炸声、马蹄声、打鼓声或者低频的噪声等，这些声音一般都是特效声音。为了将这些特效声音区分出来，可以将参考频率阈值设置为100Hz。

在一些实施例中，统计每个第一音源的谐波数量的具体实现可以为：根据共振峰组中共振峰的数量确定第一音源的谐波数量。由于同一音源的多个共振峰中通常有一个共振峰是由基音产生的，其他的共振峰是由谐波产生的，因此，可以将一个共振峰组中共振峰的数量减去1的值确定为该共振峰组对应的第一音源的谐波数量。如此，可以确定每个第一音源的谐波数量。

在一些实施例中，获取当前音频帧的能量总值、第一能量值和第二能量值的具体实现可以包括：可以根据当前音频帧在时域的波形图，确定时域的波形图中每个样点的值的平方，然后对多个样点的值的平方求和，得到当前音频帧的能量总值。确定时域的波形图中频率高于噪声频率阈值的音频频段，确定该音频频段中每个样点的值的平方，然后对该音频频段中多个样点的值的平方求和，得到当前音频帧的第一能量值。同理，确定时域的波形图中频率低于参考频率阈值的音频频段，确定该音频频段中每个样点的值的平方，然后对该音频频段中多个样点的值的平方求和，得到当前音频帧的第二能量值。

在实施中，根据第一音源数量、第二音源数量、每个第一音源的谐波数量、当前音频帧的能量总值、第一能量值和第二能量值，确定当前音频帧所对应的场景的具体实现可以包括：基于第一音源数量与第二音源数量，确定当前音频帧中的第二音源的音源比例。基于每个第一音源的谐波数量、第一音源数量和参考谐波数量阈值，确定当前音频帧的谐波数量比例。基于第一能量值与能量总值，确定当前音频帧的噪声比例。基于第二能量值与能量总值，确定当前音频帧中的指定音频的音频比例。基于音源比例、谐波数量比例、噪声比例、音频比例，确定当前音频帧所对应的场景。

需要说明的是，参考谐波数量阈值可以由用户根据实际需求进行设置，也可以由设备默认设置，本申请实施例对此不做限定。例如，参考谐波数量阈值可以为10。

作为一种示例，基于第一音源数量与第二音源数量，可以通过如下公式(2)确定当前音频帧中的第二音源的音源比例。

p₁＝Nis/(Nhar+Nis) (2)

其中，p₁为第二音源的音源比例，Nis为第二音源数量，Nhar为第一音源数量。

作为一种示例，基于每个第一音源的谐波数量、第一音源数量和参考谐波数量阈值，可以通过如下公式(3)确定当前音频帧的谐波数量比例。

其中，p₂为谐波数量比例，Nn_count为第n个第一音源的谐波数量，Nmax为参考谐波数量阈值。

作为一种示例，基于第一能量值与能量总值，可以通过如下公式(4)确定当前音频帧的噪声比例。

P₃＝Ehigh/Etotal (4)

其中，P₃为噪声比例，Ehigh为第一能量值，Etotal为能量总值。

作为一种示例，基于第二能量值与能量总值，可以通过如下公式(5)确定当前音频帧中的指定音频的音频比例。

P₄＝Elow/Etotal (5)

其中，P₄为指定音频的音频比例，Elow为第二能量值。

在实施中，基于音源比例、谐波数量比例、噪声比例、音频比例，确定当前音频帧所对应的场景的具体实现可以包括：获取多组加权系数，每组加权系数对应一种场景，且每组加权系数包括音源比例的加权系数、谐波数量比例的加权系数、噪声比例的加权系数以及音频比例的加权系数。分别基于音源比例、谐波数量比例、噪声比例、音频比例和每组加权系数，确定每组加权系数对应的概率，得到多个场景的概率。将得到的多个概率中最大概率对应的场景确定为当前音频帧所对应的场景。

需要说明的是，音源比例的加权系数、谐波数量比例的加权系数、噪声比例的加权系数以及音频比例的加权系数均可以由用户进行设置，也可以由设备默认设置，本申请实施例对此不做限定。作为一种示例，多组加权系数可以预先存储在设备中。

示例性地，假设多个场景包括人声场景、音乐场景和噪声场景，且每个场景对应一组加权系数。参见表1，表1包括人声场景对应的一组加权系数中每个加权系数、音乐场景对应的一组加权系数中每个加权系数和噪声场景对应的一组加权系数中每个加权系数。

表1

	人声场景	音乐场景	噪声场景
				W<sub>1</sub>	0.5	0.2	0.1
W<sub>2</sub>	0.3	0.5	0.1
				W<sub>3</sub>	0.1	0.2	0.4
W<sub>4</sub>	0.1	0.1	0.4

其中，人声场景是以人声为主的场景，音乐场景是以音乐为主的场景，噪声场景是以噪声为主的场景。W₁为音源比例的加权系数，W₂为谐波数量比例的加权系数，W₃为噪声比例的加权系数，W₄为音频比例的加权系数。

作为一种示例，可以获取与场景对应的多组加权系数，每组加权系数包括音源比例的加权系数、谐波数量比例的加权系数、噪声比例的加权系数以及音频比例的加权系数。对于任一个场景来说，将音源比例、谐波数量比例、噪声比例和音频比例分别与该组加权系数中对应的加权系数相乘，得到四个数值，然后将该四个数值之和确定为当前音频帧为该任一场景的概率。如此，可以确定当前音频帧为多个场景的概率。然后在得到的多个场景的概率中选择最大概率，将最大概率对应的场景确定为当前音频帧所对应的场景。

需要说明的是，若(

则谐波数量比例等于谐波数量比例的加权系数，可以不需要按照公式(3)来计算。

示例性地，假设当前音频帧的音源比例为0.4，谐波数量比例为0.8，噪声比例为0.2，音频比例为0.1。基于上述表1，可以确定当前音频帧为人声场景的概率为0.47，当前音频帧为音乐场景的概率为0.53，当前音频帧为噪声场景的概率为0.24。如此可以确定当前音频帧为音乐场景的概率最大，进而可以确定当前音频帧所对应的场景为音乐场景。

进一步地，参见图7，确定当前音频帧所对应的场景后，可以根据当前音频帧所对应的场景和当前音频帧之前的多个音频帧对应的场景，进一步确定音频当前的场景。还可以记录当前的场景的持续时长，判断是否满足切换条件，若当前的场景的持续时长大于时长阈值，并且当前音频帧之后的连续N个音频帧中有M个音频帧所对应的场景与当前音频帧所对应的场景不同，可以认为满足切换条件，可以根据M个音频帧所对应的场景重新确定音频当前的场景。并且可以根据音频当前的场景，调整音频的音效，基于调整后的音效对音频进行播放。

需要说明的是，时长阈值可以由用户进行设置，也可以由设备默认设置，本申请实施例对此不做限定。例如，时长阈值可以为4s。

需要说明的是，M和N可以由用户进行设置，也可以由设备默认设置，且N大于或等于M，本申请实施例对此不做限定。例如，N可以为10，M可以为6。

作为一种示例，参见表2，可以根据表2中复合场景的组成元素确定音频的当前场景。

表2

示例性地，若之前的多个音频帧所对应的场景均为人声场景，当前音频帧对应的场景为噪声场景，可以确定音频当前的场景为新闻场景。若根据之前的多个音频帧确定音频的当前场景为新闻场景，可以记录确定为新闻场景的持续时长，若持续时长超过时长阈值，且当前音频帧之后的连续N个音频帧中有M个音频帧所对应的场景为综艺场景，可以确定音频的当前场景为综艺场景。基于新闻场景的新闻音效参数，确定新闻场景的新闻音效值，基于综艺场景的综艺音效参数，确定综艺场景的综艺音效值，然后基于新闻音效值和综艺音效值对音频进行播放。

在本申请实施例中，确定音频的当前音频帧包括的带谐波的第一音源和不带谐波的第二音源，可以将当前音频帧包括的多种音源区分开来。然后统计当前音频帧中包括的第一音源的数量和第二音源的数量，得到第一音源数量和第二音源数量。由于不同场景中包括的第一音源数量和第二音源数量可能是不同的，因此可以根据第一音源数量和第二音源数量，确定当前音频帧所对应的场景。如此，可以将当前音频帧中的多种音源进行分类，然后根据每种音源的数量确定当前音频帧所对应的场景，避免出现将包括多种音源的同一个场景识别为多个场景的情况，提高了基于音频的场景识别的准确率。

图8是根据一示例性实施例示出的一种基于音频的场景识别装置的结构示意图，该基于音频的场景识别装置可以由软件、硬件或者两者的结合实现成为设备的部分或者全部。请参考图8，该装置包括：第一确定模块801、统计模块802和第二确定模块803。

第一确定模块801，用于确定音频的当前音频帧包括的第一音源和第二音源，第一音源为带谐波的音源，第二音源为不带谐波的音源；

统计模块802，用于统计第一音源数量和第二音源数量，第一音源数量是指当前音频帧包括的第一音源的数量，第二音源数量是指当前音频帧包括的第二音源的数量；

第二确定模块803，用于根据第一音源数量和第二音源数量，确定当前音频帧所对应的场景。

在本申请一种可能的实现方式中，第一确定模块801用于：

根据当前音频帧，确定当前音频帧的共振峰记录表，共振峰记录表包括当前音频帧的多个共振峰的三元组，三元组包括对应的共振峰的频率、幅度和带宽；

根据多个共振峰的三元组，确定当前音频帧包括的第一音源和第二音源。

在本申请一种可能的实现方式中，第一确定模块801用于：

将当前音频帧由时域转换到频域，得到当前音频帧的频谱图；

基于频谱图，确定当前音频帧的多个共振峰；

以三元组的形式记录多个共振峰中每个共振峰的频率、幅度和带宽，得到多个三元组；

将多个三元组进行组合，得到当前音频帧的共振峰记录表。

在本申请一种可能的实现方式中，第一确定模块801用于：

将共振峰记录表确定为目标共振峰记录表；

从目标共振峰记录表中确定频率最高的共振峰，得到第一共振峰；

若目标共振峰记录表中存在与第一共振峰对应同一音源的共振峰，将第一共振峰对应的音源确定为一个第一音源，若目标共振峰记录表中不存在与第一共振峰对应同一音源的共振峰，将第一共振峰对应的音源确定为一个第二音源；

从目标共振峰记录表中删除与所确定的音源对应的所有共振峰的三元组；

将执行删除操作后的共振峰记录表确定为目标共振峰记录表，返回从目标共振峰记录表中确定频率最高的共振峰的步骤，直到共振峰记录表中不存在三元组为止。

在本申请一种可能的实现方式中，第一确定模块801用于：

若目标共振峰记录表中存在第二共振峰，基于第一共振峰的频率和第二共振峰的频率，从多个共振峰中确定至少一个第三共振峰，其中，第二共振峰是多个共振峰中带宽大于或等于第一共振峰的带宽、幅度大于或等于第一共振峰的幅度，且频率低于第一共振峰的频率的共振峰，每个第三共振峰的频率小于第二共振峰的频率；

若至少一个第三共振峰中存在目标第三共振峰，则确定目标共振峰记录表中存在与第一共振峰对应同一音源的共振峰，目标第三共振峰是指带宽大于或等于第二共振峰的带宽、且幅度大于或等于第二共振峰的幅度的第三共振峰。

在本申请一种可能的实现方式中，第一确定模块801用于：

至少一个第三共振峰的数量为多个，按照频率从大到小的顺序，对多个第三共振峰进行排序；

按照排序后的多个第三共振峰从前往后的顺序，从多个第三共振峰中选择一个第三共振峰；

每选择一个第三共振峰，将当前选择的第三共振峰的带宽和幅度与第二共振峰的带宽和幅度进行对比；

若当前选择的第三共振峰的带宽大于或等于第二共振峰的带宽、且幅度大于或等于第二共振峰的幅度，则将当前选择的第三共振峰确定为目标共振峰，终止选择操作。

在本申请一种可能的实现方式中，第一确定模块801用于：

若目标共振峰记录表中不存在第二共振峰，确定目标共振峰记录表中不存在与第一共振峰对应同一音源的共振峰，第二共振峰是多个共振峰中带宽大于或等于第一共振峰的带宽、幅度大于或等于第一共振峰的幅度，且频率低于第一共振峰的频率的共振峰；或者，

若目标共振峰记录表中存在第二共振峰，基于第一共振峰的频率和第二共振峰的频率，从多个共振峰中确定至少一个第三共振峰，若至少一个第三共振峰中不存在目标第三共振峰，确定目标共振峰记录表中不存在与第一共振峰对应同一音源的共振峰，其中，目标第三共振峰是指带宽大于或等于第二共振峰的带宽、且幅度大于或等于第二共振峰的幅度的第三共振峰，每个第三共振峰的频率小于第二共振峰的频率。

在本申请一种可能的实现方式中，第二确定模块803用于：

若当前音频帧为非静音音频帧，确定第一音源数量和第二音源数量之和，得到当前音频帧的音源总数量；

若音源总数量小于或等于第一参考阈值，获取静音时长，其中，在当前音频帧之前包括非静音音频帧的情况下，静音时长是指当前音频帧与前一个非静音音频帧之间包括的静音音频帧的总时长，或者，在当前音频帧之前不包括非静音音频帧的情况下，静音时长是指当前音频帧之前的所有静音音频帧的总时长；

响应于静音时长大于第二参考阈值，确定当前音频帧所对应的场景为人声场景。

在本申请一种可能的实现方式中，第二确定模块803还用于：

响应于静音时长小于或等于第二参考阈值，若第一音源数量大于或等于第三参考阈值，确定当前音频帧所对应的场景为综艺场景；或者，

响应于静音时长小于或等于第二参考阈值，若第一音源数量小于第三参考阈值，确定当前音频帧所对应的场景为单乐器演奏场景。

在本申请一种可能的实现方式中，第二确定模块803用于：

统计每个第一音源的谐波数量；

获取当前音频帧的能量总值、第一能量值和第二能量值，第一能量值为当前音频帧中频率高于噪声频率阈值的音频频段的能量值，第二能量值为当前音频帧中频率低于参考频率阈值的音频频段的能量值；

根据第一音源数量、第二音源数量、每个第一音源的谐波数量、当前音频帧的能量总值、第一能量值和第二能量值，确定当前音频帧所对应的场景。

在本申请一种可能的实现方式中，第二确定模块803用于：

基于第一音源数量与第二音源数量，确定当前音频帧中的第二音源的音源比例；

基于每个第一音源的谐波数量、第一音源数量和参考谐波数量阈值，确定当前音频帧的谐波数量比例；

基于第一能量值与能量总值，确定当前音频帧的噪声比例；

基于第二能量值与能量总值，确定当前音频帧中的指定音频的音频比例；

基于音源比例、谐波数量比例、噪声比例、音频比例，确定当前音频帧所对应的场景。

在本申请一种可能的实现方式中，第二确定模块803用于：

获取多组加权系数，每组加权系数对应一种场景，且每组加权系数包括音源比例的加权系数、谐波数量比例的加权系数、噪声比例的加权系数以及音频比例的加权系数；

分别基于音源比例、谐波数量比例、噪声比例、音频比例和每组加权系数，确定每组加权系数对应的概率，得到多个场景的概率；

将得到的多个概率中最大概率对应的场景确定为当前音频帧所对应的场景。

需要说明的是：上述实施例提供的基于音频的场景识别装置在基于音频进行场景识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于音频的场景识别装置与基于音频的场景识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9是本申请实施例提供的一种设备900的结构框图。该设备900可以为终端，也可以为服务器。该设备900可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。设备900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，设备900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本申请中方法实施例提供的基于音频的场景识别方法。

在一些实施例中，设备900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：射频电路904、触摸显示屏905、摄像头906、音频电路907、定位组件908和电源909中的至少一种。

外围设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它设备进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏905用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置设备900的前面板；在另一些实施例中，显示屏905可以为至少两个，分别设置在设备900的不同表面或呈折叠设计；在再一些实施例中，显示屏905可以是柔性显示屏，设置在设备900的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头设置在设备的前面板，后置摄像头设置在设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在设备900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。

定位组件908用于定位设备900的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源909用于为设备900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，设备900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。

加速度传感器911可以检测以设备900建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制触摸显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器912可以检测设备900的机体方向及转动角度，陀螺仪传感器912可以与加速度传感器911协同采集用户对设备900的3D动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在设备900的侧边框和/或触摸显示屏905的下层。当压力传感器913设置在设备900的侧边框时，可以检测用户对设备900的握持信号，由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在触摸显示屏905的下层时，由处理器901根据用户对触摸显示屏905的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器914用于采集用户的指纹，由处理器901根据指纹传感器914采集到的指纹识别用户的身份，或者，由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器901授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置设备900的正面、背面或侧面。当设备900上设置有物理按键或厂商Logo时，指纹传感器914可以与物理按键或厂商Logo集成在一起。

光学传感器915用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器915采集的环境光强度，控制触摸显示屏905的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏905的显示亮度；当环境光强度较低时，调低触摸显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器915采集的环境光强度，动态调整摄像头组件906的拍摄参数。

接近传感器916，也称距离传感器，通常设置在设备900的前面板。接近传感器916用于采集用户与设备900的正面之间的距离。在一个实施例中，当接近传感器916检测到用户与设备900的正面之间的距离逐渐变小时，由处理器901控制触摸显示屏905从亮屏状态切换为息屏状态；当接近传感器916检测到用户与设备900的正面之间的距离逐渐变大时，由处理器901控制触摸显示屏905从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图9中示出的结构并不构成对设备900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在一些实施例中，还提供了一种计算机可读存储介质，该存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中基于音频的场景识别方法的步骤。例如，所述计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

值得注意的是，本申请提到的计算机可读存储介质可以为非易失性存储介质，换句话说，可以是非瞬时性存储介质。

应当理解的是，实现上述实施例的全部或部分步骤可以通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。所述计算机指令可以存储在上述计算机可读存储介质中。

也即是，在一些实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述所述的基于音频的场景识别方法的步骤。

以上所述为本申请提供的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于音频的场景识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述确定音频的当前音频帧包括的第一音源和第二音源，包括：

3.如权利要求2所述的方法，其特征在于，所述根据所述当前音频帧，确定所述当前音频帧的共振峰记录表，包括：

基于所述频谱图，确定所述当前音频帧的多个共振峰；

4.如权利要求2所述的方法，其特征在于，所述根据所述多个共振峰的三元组，确定所述当前音频帧包括的第一音源和第二音源，包括：

将所述共振峰记录表确定为目标共振峰记录表；

5.如权利要求4所述的方法，其特征在于，所述目标共振峰记录表中存在与所述第一共振峰对应同一音源的共振峰，包括：

6.如权利要求5所述的方法，其特征在于，所述至少一个第三共振峰的数量为多个，所述至少一个第三共振峰中存在目标第三共振峰，包括：

7.如权利要求4所述的方法，其特征在于，所述目标共振峰记录表中不存在与所述第一共振峰对应同一音源的共振峰，包括：

8.如权利要求1所述的方法，其特征在于，所述根据所述第一音源数量和所述第二音源数量，确定所述当前音频帧所对应的场景，包括：

9.如权利要求8所述的方法，其特征在于，所述方法还包括：

10.如权利要求1所述的方法，其特征在于，所述根据所述第一音源数量和所述第二音源数量，确定所述当前音频帧所对应的场景，包括：

统计每个第一音源的谐波数量；

11.如权利要求10所述的方法，其特征在于，所述根据所述第一音源数量、所述第二音源数量、每个第一音源的谐波数量、所述当前音频帧的能量总值、所述第一能量值和所述第二能量值，确定所述当前音频帧所对应的场景，包括：

12.如权利要求11所述的方法，其特征在于，所述基于所述音源比例、所述谐波数量比例、所述噪声比例、所述音频比例，确定所述当前音频帧所对应的场景，包括：

13.一种基于音频的场景识别装置，其特征在于，所述装置包括：

14.如权利要求13所述的装置，其特征在于，所述第一确定模块用于：

15.如权利要求14所述的装置，其特征在于，所述第一确定模块用于：

基于所述频谱图，确定所述当前音频帧的多个共振峰；

16.如权利要求14所述的装置，其特征在于，所述第一确定模块用于：

将所述共振峰记录表确定为目标共振峰记录表；

17.如权利要求16所述的装置，其特征在于，所述第一确定模块用于：

18.如权利要求17所述的装置，其特征在于，所述第一确定模块用于：

19.如权利要求16所述的装置，其特征在于，所述第一确定模块用于：

20.如权利要求13所述的装置，其特征在于，所述第二确定模块用于：

21.如权利要求20所述的装置，其特征在于，所述第二确定模块还用于：

22.如权利要求13所述的装置，其特征在于，所述第二确定模块用于：

统计每个第一音源的谐波数量；

23.如权利要求22所述的装置，其特征在于，所述第二确定模块用于：

24.如权利要求23所述的装置，其特征在于，所述第二确定模块用于：

25.一种设备，其特征在于，所述设备包括存储器和处理器，所述存储器用于存放计算机程序，所述处理器用于执行所述存储器上所存放的计算机程序，以实现上述权利要求1-12任一所述方法的步骤。

26.一种计算机可读存储介质，其特征在于，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-12任一所述的方法的步骤。