CN111370025A

CN111370025A - 音频识别方法、装置及计算机存储介质

Info

Publication number: CN111370025A
Application number: CN202010116192.8A
Authority: CN
Inventors: 黄中一
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2020-07-03

Abstract

本申请公开了一种音频识别方法、装置及计算机存储介质，属于多媒体技术领域。所述方法包括：通过确定目标音频的融合特征数据，以及确定目标音频和多个音频类别中每个音频类别之间的匹配度，再根据目标音频和多个音频类别中每个音频类别之间的匹配度，确定目标音频所属的音频类别。由于多个音频类别用于指示不同类型的人声音频值，因此确定出的目标音频的音频类别的划分粒度更细。也即是，在本申请中，可以根据目标音频识别出不同类型的人声音频，提高了识别出的音频类别的多元性。从而避免相关技术中只能识别人声音频和非人声音频。

Description

音频识别方法、装置及计算机存储介质

技术领域

本申请涉及多媒体技术领域，特别涉及一种音频识别方法、装置及计算机存储介质。

背景技术

随着人工智能技术的发展，通常需要对采集到的音频进行识别，以根据识别的音频对音频的发出者进行分析。比如，在安防工作领域，可以对嫌疑人发出的音频进行识别，以判断嫌疑人是否为危害性案件的参与者。

相关技术中，针对待识别的音频，提取该音频中的MFCC(Mel Frequency CepstralCoefficents，梅尔倒谱系数)，将MFCC输入预先创建的分离模型中，该分离模型便可以输出该音频中的人声音频和非人声音频，也即是，识别出该音频中的人声音频和非人声音频。但是这种音频识别方法只能识别出人声音频和非人声音频，导致前述音频识别方法识别出的音频类别比较单一。

发明内容

本申请实施例提供了一种音频识别方法、装置及计算机存储介质，可以识别出不同类型的人声音频，以提高识别出的音频类别的多元性。所述技术方案如下：

一方面，提供了一种音频识别方法，所述方法包括：

确定待识别的目标音频的融合特征数据，所述融合特征数据包括所述目标音频在一个或多个属性中每个属性上的属性值；

根据所述融合特征数据，确定所述目标音频和多个音频类别中每个音频类别之间的匹配度，所述匹配度用于指示所述目标音频属于相应音频类别的概率，所述多个音频类别用于指示不同类型的人声音频；

根据所述目标音频和所述多个音频类别中每个音频类别之间的匹配度，确定所述目标音频所属的音频类别。

可选的，所述方法还包括：

显示所述目标音频所属的音频类别；

显示所述一个或多个属性中每个属性上的属性值。

可选的，所述一个或多个属性包括所述目标音频的频域属性、所述目标音频的能量属性、所述目标音频的发出者的音色属性中的一个或多个。

可选的，所述根据所述融合特征数据，确定所述目标音频和多个音频类别中每个音频类别之间的匹配度，包括：

通过音频分类模型对所述融合特征数据进行处理，得到所述目标音频和多个音频类别中每个音频类别之间的匹配度；

其中，所述音频分类模型用于基于融合特征数据识别音频所属的音频类别。

可选的，所述方法还包括：

获取与多个音频样本一一对应的多个融合特征数据；

确定所述多个音频样本中的每个音频样本所属的音频类别；

根据所述多个融合特征数据、以及每个音频样本所属的音频类别，对初始化的神经模型进行训练，得到所述音频分类模型。

另一方面，提供了一种音频识别装置，所述装置包括：

第一确定模块，用于确定待识别的目标音频的融合特征数据，所述融合特征数据包括所述目标音频在一个或多个属性中每个属性上的属性值；

第二确定模块，用于根据所述融合特征数据，确定所述目标音频和多个音频类别中每个音频类别之间的匹配度，所述匹配度用于指示所述目标音频属于相应音频类别的概率，所述多个音频类别用于指示不同类型的人声音频；

第三确定模块，用于根据所述目标音频和所述多个音频类别中每个音频类别之间的匹配度，确定所述目标音频所属的音频类别。

可选的，所述装置还包括：

第一显示模块，用于显示所述目标音频所属的音频类别；

第二显示模块，用于显示所述一个或多个属性中每个属性上的属性值。

可选的，所述第二确定模块包括：

处理子模块，用于通过音频分类模型对所述融合特征数据进行处理，得到所述目标音频和多个音频类别中每个音频类别之间的匹配度；

可选的，所述装置还包括：

获取模块，用于获取与多个音频样本一一对应的多个融合特征数据；

第四确定模块，用于确定所述多个音频样本中的每个音频样本所属的音频类别；

训练模块，用于根据所述多个融合特征数据、以及每个音频样本所属的音频类别，对初始化的神经模型进行训练，得到所述音频分类模型。

另一方面，提供了一种音频识别装置，所述音频识别装置包括处理器、通信接口、存储器和通信总线；

其中，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信；

所述存储器用于存放计算机程序；

所述处理器用于执行所述存储器上所存放的程序，以实现前述提供音频识别方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现前述提供的音频识别方法的步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

当需要对目标音频进行音频识别时，可以通过确定目标音频的融合特征数据，以及确定目标音频和多个音频类别中每个音频类别之间的匹配度，再根据目标音频和多个音频类别中每个音频类别之间的匹配度，确定目标音频所属的音频类别。由于多个音频类别用于指示不同类型的人声音频值，因此确定出的目标音频的音频类别的划分粒度更细。也即是，在本申请中，可以根据目标音频识别出不同类型的人声音频，提高了识别出的音频类别的多元性。从而避免相关技术中只能识别人声音频和非人声音频。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种音频识别系统的架构图；

图2是本申请实施例提供的一种音频识别方法的流程图；

图3是本申请实施例提供的用户端的显示界面的示意图；

图4是本申请实施例提供的另一种音频识别方法的流程图；

图5是本申请实施例提供的一种音频识别装置的结构示意图；

图6是本申请实施例提供的一种用户端的结构框图；

图7是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例提供的音频识别方法进行详细的解释说明之前，先对本申请实施例涉及的系统架构予以介绍。

图1是本申请实施例提供的一种音频识别系统架构的示意图。如图1所示，该音频识别系统100包括一个用户端101和一个服务器102。其中，用户端101和服务器102之间可以通过无线或者有线方式连接以进行通信。

用户端101上通常安装有声音识别程序，服务器102可以是该声音识别程序对应的服务器。用户端101可以是手机或者电脑等终端设备。

其中，用户端101可以通过互联网收集一段或者多段音频。用户端101可以将收集的音频发送至服务器102，服务器102接收到该音频后，确定该音频的音频类别。并将该音频的音频类别发送至用户端102。用户端101接收到该音频的音频类别时，可以将该音频类别展示在用户端101的显示界面上。

在本申请可选实施例中，图1中仅是以用户端101的数量为1个、服务器102的数量为1个进行举例说明，但是，这并不构成对音频识别系统中的用户端和服务器数量的限制。

接下来对本申请实施例提供的音频识别方法进行详细的解释说明。

需要说明的是，本申请实施例是以服务器执行本申请实施例提供的音频识别方法为例进行说明。可选地，本申请实施例提供的音频识别方法也可以应用于用户端，本申请实施例对此不做具体限定。

图2是本申请实施例提供的一种音频识别方法的流程图，该方法应用于服务器。请参考图2，该方法包括如下步骤。

步骤201：服务器确定待识别的目标音频的融合特征数据。

需要说明的是，融合特征数据包括目标音频的一个或多个属性中每个属性上的属性值。其中，该一个或多个属性可以是基础类属性和/或声纹类属性。

该基础类属性用于指示目标音频的频域属性和/或能量属性，比如用于指示频域属性的基础类属性可以是：音高(Pitch)、LPC(linear predictive coding，线性预测编码)、过零率、梅尔频谱系数等。用于指示能量属性的基础类属性可以是：声音能量。其中，音高用于指示音频的音调的高低，跟音频的频率有关。梅尔频谱系数用于模拟人耳的听觉系统所感受到的音频的频率变化。LPC是一种对音频波形的编码方法。过零率用于指示单位时间内信号通过零值的次数，可以作为音频信号的“频率”的一种简单度量。

声纹类属性用于指示目标音频的发出者的音色属性。比如该声纹类属性可以是：x向量(i-vector)特征、i向量(i-vector)特征以及d向量(d-vector)特征。x向量(i-vector)特征、i向量(i-vector)特征以及d向量(d-vector)特征均是用于音色属性的一些参数，在此不再详细说明。

本申请实施例中，对目标音频进行识别也即是识别出该目标音频所属的类别。进一步地，为了确定该目标音频所属的类别，首先需要确定该目标音频的融合特征数据，并基于该目标音频的融合特征数据，执行后续步骤202～步骤203以确定出该目标音频的音频类别。

由于该一个或多个属性可以是基础类属性和/或声纹类属性，因此目标音频的融合特征数据可以是只通过基础类的属性确定的，也可以是只通过声纹类属性确定的，也可以通过基础类属性和声纹类属性共同确定的。

在一种可能的实现方式中，步骤201可能的实现方式为：提取目标音频的多个基础类属性的属性值，再将这多个基础类属性的属性值进行拼接以形成融合特征数据。也即是，只通过执行一些较简单的操作，获取到目标音频的基础类属性，便可大致的确定出目标音频的融合特征数据。

比如，提取目标音频的多个基础类属性的属性值，假设该多个基础类属性分被是梅尔倒谱系数、音高、过零率。梅尔倒谱系数的属性值为【0.9,0.8,0.99】，音高的属性值为【0,100,200】，过零率的属性值为【11.1,12.2,13.3】。则将该多个基础类属性进行首尾拼接以形成融合特征数据为【0.9，0.8，0.99，0，100，200，11.1，12.2，13.3】

在另一种可能的实现方式中，步骤201可能的实现过程为：提取目标音频的多个声纹类属性的属性值。再将这多个声纹类属性的属性值进行拼接以形成融合特征数据。通过声纹类属性，可以使得确定出的目标音频的融合特征数据能够更加符合目标音频的自身特性。

比如，提取多个声纹类属性的属性值，假设该多个声纹类属性分别是x向量(i-vector)特征和d向量(d-vector)特征。该x向量(i-vector)特征的属性值【20.3，40.5，60.5】，该d向量(d-vector)特征的属性值【21.2，45.6】。则将该多个声纹类属性进行首尾拼接以形成融合特征数据为【20.3，40.5，60.5，21.2，45.6】

在另一种可能的实现方式中，步骤201可能的实现过程为：提取目标音频的多个基础类属性的属性值以及多个声纹类属性的属性值。再将这多个基础类属性的属性值与多个声纹类属性的属性值进行拼接以形成融合特征数据。也即是，通过过执行一些较复杂的操作，获取到目标音频的基础类属性和声纹类属性，便可以精确的确定出目标音频的融合特征数据。

比如，提取目标音频的多个基础类属性的属性值以及多个声纹类属性的属性值，假设该多个基础类属性分别是梅尔倒谱系数、音高、过零率。声纹类属性分别是x向量(i-vector)特征和d向量(d-vector)特征。梅尔倒谱系数的属性值为【0.9，0.8，0.99】，音高的属性值为【0，100，200】，过零率的属性值为【11.1，12.2，13.3】。x向量(i-vector)特征的属性值【20.3，40.5，60.5】，d向量(d-vector)特征的属性值【21.2，45.6】。则将该多个基础类属性进行首尾拼接以形成融合特征数据为【0.9，0.8，0.99，0，100，200，11.1，12.2，13.3，20.3，40.5，60.5，21.2，45.6】。

需要说明的是，声纹类属性可以是从深度学习系统提取出的。也可以是利用非深度学习的音频处理系统提取出的。本申请实施例对此不做具体限定。

基础类属性同样可以利用非深度学习的音频处理系统进行提取出的，也可以通过其他方式进行提取。其具体的提取过程不做限定。

值得注意的是，用于确定目标音频的融合特征数据的一个或多个属性并不局限于上述基础类属性以及声纹类属性，可以根据除了基础类属性以及声纹类属性以外的其他属性确定出目标音频的融合特征数据。其具体的实现过程可以参考上述三种可选的实现方式的实现过程，在此不在一一赘述。

步骤202：服务器根据融合特征数据，确定目标音频和多个音频类别中每个音频类别之间的匹配度，匹配度用于指示目标音频属于相应音频类别的概率，多个音频类别用于指示不同类型的人声音频。

需要说明的是，为了确定目标音频的音频类别，需要预先设置多个音频类别，比如，该多个音频类别可以为“年轻女性”、“成熟女性”、“年轻男性”、“成熟男性”。进而根据目标音频与当前设置的多个音频类别之间的匹配度确定目标音频所属的音频类别，从而可以区分出不同类型的人声音频，提高了识别出的音频类别的多元性。

在一种可能的实现方式中，为了便于确定目标音频和多个音频类别中每个音频类别之间的匹配度，可以根据多个音频类别与该多个音频类别一一对应的融合特征数据预先训练出一个音频分类模型，并根据该音频分类模型确定该目标音频所属的音频类别。因此，步骤202可能的实现方式为：通过音频分类模型对融合特征数据进行处理，得到目标音频和多个音频类别中每个音频类别之间的匹配度。其中，音频分类模型用于基于融合特征数据识别音频所属的音频类别。

比如，根据音频分类模型对上述步骤201确定的目标音频的融合特征数据【0.9，0.8，0.99，0，100，200，11.1，12.2，13.3】进行处理，得到目标音频和多个音频类别中每个音频类别之间的匹配度。假设目标音频与多个音频类别的匹配度分别为：与“年轻女性”的匹配度为80％、与“成熟女性”的匹配度为20％、与“年轻男性”的匹配度为0％、与“成熟男性”的匹配度为80％。

在本申请实施例中，由于音频分类模型是服务器根据音频类别与融合特征数据之间的对应关系训练得到的，因此服务器在确定目标音频的音频类别之前，还需对该音频类别与融合特征数据之间的对应关系进行训练，以确定该音频分类模型。

在一种可能的实现方式中，音频分类模型可能的确定过程为：获取与多个音频样本一一对应的多个融合特征数据；确定多个音频样本中的每个音频样本所属的音频类别；根据多个融合特征数据、以及每个音频样本所属的音频类别，对初始化的神经模型进行训练，得到音频分类模型。

其中，多段音频的获取途径可以是通过互联网收集，也可以是通过一个或者多个拾音器获取。

此外，本申请实施例中，通过使用神经网络模型作为初始化的深度学习模型进行训练得到音频分类模型，进而根据音频分类模型确定目标音频的音频类别。这种可选的确定目标音频的音频类别的实现方式只是为了达到最好的效果可以采取的一种可能的实现方式，除此之外还可以利用非深度学习的函数模型确定目标音频的音频类别。比如，采用高斯混合模型(GMM)或者隐马尔可夫模型(HMM)等目标音频和多个音频类别中每个音频类别之间的匹配度，进而确定出目标音频的音频类别，在此不再详细说明。

步骤203：服务器根据目标音频和多个音频类别中每个音频类别之间的匹配度，确定目标音频所属的音频类别。

在一种可能的实现方式中，步骤203可能的实现过程为：服务器确定出目标音频和多个音频类别中每个音频类别之间的匹配度，并将匹配度最高的音频类别作为目标音频所属的音频类别。

比如，可以将通过上述步骤202确定出的匹配度最高的音频类别为“年轻女性”，则将“年轻女性”作为目标音频所属的音频类别。

在另一种可能的实现方式中，步骤203可能的实现过程为：服务器确定出目标音频和多个音频类别中每个音频类别之间的匹配度，并将匹配度大于参考概率的音频类别作为目标音频所属的音频类别。该参考概率可以是任意一个概率值，比如该概率值可以是80％。

比如，可以将通过上述步骤202确定出的匹配度大于80％的音频类别为“年轻女性”，则将“年轻女性”作为目标音频所属的音频类别。

此外，为了便于用户能够获知服务器识别该目标音频的音频类别的原因，服务器在通过上述步骤201～步骤203确定出目标音频的音频类别之后，还可以将该音频类别以及目标音频包括的一个或者多个属性值发送至用户端。用户端的用户界面还可以显示目标音频所属的音频类别以及显示一个或多个属性中每个属性上的属性值。

如图3所示，用户端的显示界面包括一个识别结果窗口以及音频属性窗口。该识别结果窗口用于展示目标频的音频类别为“年轻女性”。该音频属性窗口用于展示该目标音频包括的多个音频属性的柱状图以及多个音频属性的属性值，比如该目标音频的音高对应的属性值为80，声纹对应的属性值为40。该音频属性的柱状图可以直观的体现出每个属性上的属性值的大小。

通过显示一个或多个属性中每个属性上的属性值，使得用户不仅直观的获知目标音频的音频类别，同时获知服务器识别该目标音频的音频类别的原因。也可以使相关人员对分类结果和各个属性值之间的关联进行分析。比如该音频的音频类别为“年轻女性”的时候，其音高的数值较高，表明音频的音频类别为“年轻女性”是由于该音频的音高的数值较高。

可选的，用户可以对该音频的分类结果进行校正。比如，用户通过触发识别结果窗口中的校正选项，可是使得服务器再次重新确定该音频的音频类别，防止由于当前网络环境不好导致的音频的分类结果有误。

上述步骤201至步骤203还可以通过图4所示的过程来说明。如图4所示，对目标音频进行识别可以通过以下几个步骤来完成：

步骤401：收集一段或者多段待识别的目标音频。步骤402：训练音频分类模型。也即是，根据多个融合特征数据、以及每个音频样本所属的音频类别，对初始化的网络模型进行训练，得到所述音频分类模型。步骤403：确定目标音频的融合特征数据。步骤404：对目标音频进行分类。也即是根据该待识别的目标音频的融合特征数据以及音频分类模型对目标音频进行分类，进而确定目标音频的音频类别。步骤405：解释分类结果。也即是，用户界面显示目标音频所属的音频类别以及显示一个或多个属性中每个属性上的属性值，使相关人员对分类结果和各个属性值之间的关联进行分析。

在本申请实施例中，当需要对目标音频进行音频识别时，可以通过确定目标音频的融合特征数据，以及确定目标音频和多个音频类别中每个音频类别之间的匹配度，再根据目标音频和多个音频类别中每个音频类别之间的匹配度，确定目标音频所属的音频类别。由于多个音频类别用于指示不同类型的人声音频值，因此确定出的目标音频的音频类别的划分粒度更细。也即是，在本申请中，可以根据目标音频识别出不同类型的人声音频，提高了识别出的音频类别的多元性。从而避免相关技术中只能识别人声音频和非人声音频。

上述所有可选技术方案，均可按照任意结合形成本申请的可选实施例，本申请实施例对此不再一一赘述。

图5是本申请实施例提供的一种音频识别装置的结构示意图，该音频识别装置可以由软件、硬件或者两者的结合实现。该音频识别装置可以包括：

第一确定模块501，用于确定待识别的目标音频的融合特征数据，融合特征数据包括目标音频在一个或多个属性中每个属性上的属性值；

第二确定模块502，用于根据融合特征数据，确定目标音频和多个音频类别中每个音频类别之间的匹配度，匹配度用于指示目标音频属于相应音频类别的概率，多个音频类别用于指示不同类型的人声音频；

第三确定模块503，用于根据目标音频和多个音频类别中每个音频类别之间的匹配度，确定目标音频所属的音频类别。

可选的，该装置还包括：

第一显示模块，用于显示目标音频所属的音频类别；

第二显示模块，用于显示一个或多个属性中每个属性上的属性值。

可选的，一个或多个属性包括目标音频的频域属性、目标音频的能量属性、目标音频的发出者的音色属性中的一个或多个。

可选的，第二确定模块包括：

处理子模块，用于通过音频分类模型对融合特征数据进行处理，得到目标音频和多个音频类别中每个音频类别之间的匹配度；

其中，音频分类模型用于基于融合特征数据识别音频所属的音频类别。

可选的，该装置还包括：

第四确定模块，用于确定多个音频样本中的每个音频样本所属的音频类别；

训练模块，用于根据多个融合特征数据、以及每个音频样本所属的音频类别，对初始化的神经模型进行训练，得到音频分类模型。

需要说明的是：上述实施例提供的音频识别装置在音频识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频识别装置与音频识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图6是本申请实施例提供的一种用户端600的结构框图。该用户端600可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，用户端600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的音频识别方法。

在一些实施例中，用户端600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、触摸显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置用户端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在用户端600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在用户端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在用户端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位用户端600的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源609用于为用户端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，用户端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以用户端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测用户端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对用户端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在用户端600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在用户端600的侧边框时，可以检测用户对用户端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时，由处理器601根据用户对触摸显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置用户端600的正面、背面或侧面。当用户端600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制触摸显示屏605的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏605的显示亮度；当环境光强度较低时，调低触摸显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在用户端600的前面板。接近传感器616用于采集用户与用户端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与用户端600的正面之间的距离逐渐变小时，由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与用户端600的正面之间的距离逐渐变大时，由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对用户端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得用户端能够执行上实施例提供的音频识别方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在用户端上运行时，使得用户端执行上述实施例提供的音频识别方法。

图7是本申请实施例提供的一种服务器的结构示意图。该服务器可以是后台服务器集群中的服务器。具体来讲：

服务器700包括中央处理单元(CPU)701、包括随机存取存储器(RAM)702和只读存储器(ROM)703的系统存储器704，以及连接系统存储器704和中央处理单元701的系统总线705。服务器700还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)706，和用于存储操作系统713、应用程序714和其他程序模块715的大容量存储设备707。

基本输入/输出系统706包括有用于显示信息的显示器708和用于用户输入信息的诸如鼠标、键盘之类的输入设备709。其中显示器708和输入设备709都通过连接到系统总线705的输入输出控制器710连接到中央处理单元701。基本输入/输出系统706还可以包括输入输出控制器710以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器710还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备707通过连接到系统总线705的大容量存储控制器(未示出)连接到中央处理单元701。大容量存储设备707及其相关联的计算机可读介质为服务器700提供非易失性存储。也就是说，大容量存储设备707可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器704和大容量存储设备707可以统称为存储器。

根据本申请的各种实施例，服务器700还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器700可以通过连接在系统总线705上的网络接口单元711连接到网络712，或者说，也可以使用网络接口单元711来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。所述一个或者一个以上程序包含用于进行本申请实施例提供的如下所述的音频识别方法的指令。

本申请实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行上述实施例提供的音频识别方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在服务器上运行时，使得服务器执行上述实施例提供的音频识别方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

显示所述目标音频所属的音频类别；

显示所述一个或多个属性中每个属性上的属性值。

3.如权利要求1所述的方法，其特征在于，所述一个或多个属性包括所述目标音频的频域属性、所述目标音频的能量属性、所述目标音频的发出者的音色属性中的一个或多个。

4.如权利要求1至3任一所述的方法，其特征在于，所述根据所述融合特征数据，确定所述目标音频和多个音频类别中每个音频类别之间的匹配度，包括：

5.如权利要求4所述的方法，其特征在于，所述方法还包括：

获取与多个音频样本一一对应的多个融合特征数据；

确定所述多个音频样本中的每个音频样本所属的音频类别；

6.一种音频识别装置，其特征在于，所述装置包括：

7.如权利要求6所述的装置，其特征在于，所述装置还包括：

第一显示模块，用于显示所述目标音频所属的音频类别；

8.如权利要求6所述的装置，其特征在于，所述一个或多个属性包括所述目标音频的频域属性、所述目标音频的能量属性、所述目标音频的发出者的音色属性中的一个或多个。

9.一种音频识别的装置，其特征在于，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述权利要求1至权利要求5中的任一项权利要求所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述权利要求1至权利要求5中的任一项权利要求所述的方法的步骤。