CN113761269B

CN113761269B - 音频识别方法、装置和计算机可读存储介质

Info

Publication number: CN113761269B
Application number: CN202110558140.0A
Authority: CN
Inventors: 张义飞; 康斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2023-10-10
Anticipated expiration: 2041-05-21
Also published as: CN113761269A

Abstract

提供了音频识别方法、装置和计算机可读存储介质。方法可以由包括云服务器的计算机设备执行，并且包括：提取待识别音频文件的音频特征；待识别音频文件进行分段，得到多个音频时间片，并基于每个音频时间片内的音频的事件类别以及所述事件类别与预设目标事件的相关性，确定与音频时间片关联的音频特征的权重；基于待识别音频文件的音频特征得到多个音频特征分段，其中每个音频特征分段对应至少一个时间片；将每个音频特征分段与音频特征组合库进行特征匹配，并基于至少一个音频时间片中的音频特征以及与其关联的权重，得到所述音频特征分段的匹配音频文件集；以及基于每个音频特征分段的匹配音频文件集，得到所述待识别音频文件的识别结果。

Description

音频识别方法、装置和计算机可读存储介质

技术领域

本公开涉及计算机技术领域，更具体地，涉及一种音频识别方法、装置和计算机可读存储介质。

背景技术

目前，很多场景都需要对音频内容进行识别，以确定该音频内容的具体的详细信息。该音频内容可以是视频中的背景音乐或者是一段纯音频中包括的各种类型的声音(例如，语音、笑声、哭声、欢呼声)，等等。

例如，近年来的短视频以及直播视频的业务也迅速发展，用户可以将自己拍摄的视频及时和实时地上传到例如云端与他人分享，也可以观看他人的视频。在各种类型的用户生成的视频中，人们通常在这些视频中添加背景音乐，以使得这些视频更生动或更能反映视频创建者的想法。

此外，另一方面，对于视频运营商来说，可能希望在云端服务器侧通过对背景音乐的识别来进行视频分类推荐，以便向用户多推荐有其感兴趣的背景音乐的视频，避免向用户推送有其不感兴趣的背景音乐的视频，从而增加流量。同时，视频运营商还需要对这些视频进行审核，可以通过对背景音乐的识别而判断其是否是违规音乐，从而可以及时地直接拦截或提醒审核人员重点处理。

因此，需要一种能够较好地识别视频中的背景音乐或纯音频中的各种类型的声音的音频识别方法。

发明内容

根据本公开的一方面，提供了一种音频识别方法。所述音频识别方法，包括：获取待识别音频文件，并提取所述待识别音频文件的音频特征；将所述待识别音频文件按照第一时间间隔进行分段，得到多个音频时间片，并基于每个音频时间片内的音频的事件类别以及所述事件类别与预设目标事件的相关性，确定与所述音频时间片相关联的权重；将所述待识别音频文件的音频特征按照第二时间间隔进行分段，得到多个音频特征分段，其中每个音频特征分段包括至少一个音频时间片中的音频特征；针对每个音频特征分段，将所述音频特征分段与音频特征组合库进行特征匹配，并基于所述至少一个音频时间片中的音频特征以及与所述至少一个音频时间片相关联的权重，得到所述音频特征分段的匹配音频文件集；以及基于所述多个音频特征分段中的每个音频特征分段的匹配音频文件集，得到所述待识别音频文件的识别结果。

根据本公开的另一方面，还提供了一种音频识别装置。所述音频识别装置包括：获取模块，用于获取待识别音频文件，并提取所述待识别音频文件的音频特征；权重确定模块，用于将所述待识别音频文件按照第一时间间隔进行分段，得到多个音频时间片，并基于每个音频时间片内的音频的事件类别以及所述事件类别与预设目标事件的相关性，确定与所述音频时间片相关联的权重；音频特征分段模块，用于将所述待识别音频文件的音频特征按照第二时间间隔进行分段，得到多个音频特征分段，其中每个音频特征分段包括至少一个音频时间片中的音频特征；匹配模块，用于针对每个音频特征分段，将所述音频特征分段与音频特征组合库进行特征匹配，并基于所述至少一个音频时间片中的音频特征以及与所述至少一个音频时间片相关联的权重，得到所述音频特征分段的匹配音频文件集；以及识别模块，用于基于所述多个音频特征分段中的每个音频特征分段的匹配音频文件集，得到所述待识别音频文件的识别结果。

根据本公开的另一方面，还提供了一种计算机设备，包括：处理器；和存储器，其上存储有指令，所述指令在由所述处理器执行时，使得所述处理器执行如上所述的方法的各个步骤。

根据本公开的另一方面，还提供了一种计算机存储介质，其上存储有指令，所述指令在由所述处理器执行时，使得所述处理器执行如上所述的方法的各个步骤。

根据本公开的再一方面，还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现如上所述的方法的各个步骤。

通过本公开实施例的音频识别方案，由于考虑了在各个时间点处的音频特征基于事件类别的权重，对于可能被匹配的、与预设目标事件相关性不强的音频特征可以赋予较低权重以避免输出错误的最终的识别结果。并且由于音频特征与时间点相关联的，在特征匹配过程中可以通过设置时间范围进行筛选，可以很好地识别正常速度的音频文件并且在一定程度上识别被加速和减速了的音频文件，因此可以有效提升音频识别的准确率和召回率。

附图说明

图1A示出了根据本公开实施例的音频识别系统的结构示意图。

图1B示出了根据本公开实施例的音频时间片和音频特征分段的示意图。

图2示出了根据本公开实施例的音频识别方法的流程示意图。

图3示出了图2中的步骤S220的各子步骤的流程示意图。

图4-5示出了图2中的步骤S240的各子步骤的流程示意图。

图6-7示出了图2中的步骤S250的各子步骤的流程示意图。

图8示出了根据本公开实施例的音频识别处理过程的示意图。

图9示出了根据本公开实施例的音频识别装置的结构框图。

图10示出了根据本公开实施例的计算机设备的结构框图。

具体实施方式

为了使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开作进一步地详细描述，所描述的实施例不应视为对本公开的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

如果申请文件中出现“第一/第二”的类似描述则增加以下的说明，在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本公开实施例能够以除了在这里图示或描述的以外的顺序实施。

在进行对本公开的各个实施例的具体描述之前，首先对本公开可能用到的各个术语进行简单解释。

音频特征：能够反映音频与时间信息相关联的某方面的属性，例如，可以包括音频指纹特征、过零率、短时能量、短时平均幅度差、频谱图、短时功率谱密度、谱熵、基频、共振峰、梅尔倒谱系数等。

准确率：针对预测结果而言，它表示的是预测为正的样本中有多少是真正的正样本。

召回率：针对原来的样本集而言，它表示的是样本中的正的样本有多少被预测正确了。

相似特征向量对：满足预设相似条件的一对特征向量，预设相似条件可以是两个特征向量的向量距离小于等于预设阈值。一个特征向量在本公开中表示在一个时间点处的音频特征。例如，可以根据音频指纹提取算法(如echoprint、landmark、chromaprint算法)，从音频文件中提取音频指纹特征和其对应的时间点信息。

如前面所述，在各种类型的用户生成的视频中，人们通常在这些视频中添加背景音乐，以使得这些视频更生动或更能反映创造者的想法。在一些实施方式中，可以利用音频指纹技术来对背景音乐进行识别，例如上述的echoprint、landmark、chromaprint算法对纯背景音乐可以有比较良好的识别结果。

此外，对于视频，除了背景音乐外，人们还可能会叠加混合有很多语音、歌唱声或者环境声，而且很多短视频还会对背景音乐适当加减速以匹配视频画面时长，并且可能需要对一段音频中的各种声音进行识别，此时，音频指纹技术在这些情况下的识别准确率较低。

因此，本公开的实施例提供了一种方法，其通过对待识别音频文件基于时间片进行事件检测，并基于该事件检测而确定该时间片相关联的权重，以对该时间片内的音频特征赋予权重，从而对该待识别音频文件在各个时间片内的音频特征赋予权重，并且在进行事件检测的同时还可以对该待识别音频文件的音频特征进行提取并分段，得到多个音频特征分段，将各个音频特征分段的音频特征和音频特征的权重与预先创建的音频特征组合库(基于各个音频文件生成，每个音频文件的音频特征被提取，并且在每个时间片内的音频特征的权重已知)进行特征匹配，识别待识别音频文件是否是音频文件库中的一个或多个音频文件。

通过本公开实施例的这种方法，由于考虑了在各个时间片内的音频特征基于事件类别的权重，对于可能被匹配的、与预设目标事件相关性不强的音频特征可以赋予较低权重以避免输出错误的最终的识别结果。并且由于音频特征是与时间点相关联的，在特征匹配过程中可以通过设置时间范围进行筛选，可以很好地识别正常速度的音频文件并且在一定程度上识别被加速和减速了的音频文件，因此可以有效提升音频识别的准确率和召回率。

在本公开的实施例中，音频特征可以为音频指纹特征，也可以是其他类型的音频特征，例如音频幅度的最大值、平均值或过零率、短时能量、短时平均幅度差、频谱图、短时功率谱密度、谱熵、基频、共振峰、梅尔倒谱系数等音频特征中的一种或多种。

音频文件的音频特征在本公开的实施例中可以被理解为多个特征向量和与所述多个特征向量分别对应的多个时间点。并且，每个时间点可能与两个以上的特征向量对应，即每个时间点处可能存在多个特征向量。

图1A示出了根据本公开实施例的音频识别系统的结构示意图。图1B示出了根据本公开实施例的音频时间片和音频特征分段的示意图。

如图1A所示，图1A为本公开实施例多媒体数据处理方法的网络架构示意图，如图1A所示，在该网络架构中至少包括用户终端100、服务器200和网络300。为实现支撑一个示例性应用，用户终端100分别通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

用户终端100可以将音频文件发送至服务器200，其中，可以通过发送视频文件的方式而发送音频文件(从视频文件中分离)，该视频文件可以是从由用户终端100录制的视频，还可以是用户终端100从网络中下载的视频。服务器200在接收到或处理得到音频文件之后，会对音频文件的各个时间片的音频的事件进行检测以便于对各个时间片内的音频特征进行权重赋予，并获取音频文件的音频特征，并将音频文件的音频特征切分成多个音频特征片段，并基于音频特征片段和其音频特征的权重根据如将在后文描述的音频识别方法来进行该音频文件的识别，其中音频时间片和音频特征片段可以如图1B中所示，一般来说音频特征片段的时长会大于音频时间片的时长。服务器可以基于识别结果对音频文件进行审核、和推荐等，当用户想要获取从网上下载的音频的信息时，可以基于音频文件的识别结果确定出类似的音频文件(或具有类似音频的视频文件)信息发送给用户终端100。

在下文的描述中，为了描述方便，将上述各种可能方式的服务器都统称为服务器，因此服务器200不应简单理解为一个或一类服务器，而是根据上述的示例，在实际应用中为了支撑直播服务而部署的各种可能形式的服务器，例如，可以为云服务器。

以下结合图2-图8对本公开实施例的音频识别方案进行详细介绍。

图2示出了根据本公开实施例的音频识别方法20的流程示意图。

如图2所示，在步骤S210中，获取待识别音频文件，并提取所述待识别音频文件的音频特征。

例如，该待识别音频文件可以是视频的背景音乐，并且通过抽帧而从视频文件中分离出该背景音乐。

例如，音频特征可以是音频指纹特征。可以根据音频指纹提取算法，从待识别音频文件中提取音频指纹和其对应的时间点信息，作为音频指纹特征。音频指纹提取可以使用常用的方法，如echoprint、landmark、chromaprint算法。

在步骤S220中，将所述待识别音频文件按照第一时间间隔进行分段，得到多个音频时间片，并基于每个音频时间片内的音频的事件类别以及所述事件类别与预设目标事件的相关性，确定与所述音频时间片相关联的权重。

例如，事件类别可以包括语音、歌唱、音乐、无声、噪音、机器声、环境音等类别。

例如，可以通过训练分类模型来对待识别音频文件在不同时间片内的音频的事件进行分类。

步骤S220的更多细节将在后文参考图3进行详细描述。

在步骤S230中，将所述待识别音频文件的音频特征按照第二时间间隔进行分段，得到多个音频特征分段，其中每个音频特征分段包括至少一个音频时间片中的音频特征。

应了解，根据本公开实施例，与音频时间片相关联的权重同时也表示与该音频时间片中的音频特征相关联的权重。

例如，可以将待识别音频文件的音频特征按照预设的m秒(m为大于等于1的整数)而分成多个音频特征分段。每个音频特征分段的时长可以长于音频时间片的时长，即每个音频特征分段包括的音频特征分布在至少一个时间片中。

即，第一时间间隔可以与第二时间间隔相等或不等，例如第一时间间隔可以为1s。例如，音频特征分段对应的时间段可能跨至少两个音频时间片，也可能仅在一个音频时间片内。例如，一个音频特征分段可能是第11-15s之间的音频特征的片段，而音频时间片可能是按照2s划分的，因此，该音频特征分段可能跨3个音频时间片；或者，如果音频时间片可能按照5s划分，那么该音频特征分段可能仅包括一个音频时间片。

在步骤S240中，针对每个音频特征分段，将所述音频特征分段与音频特征组合库进行特征匹配，并基于所述至少一个音频时间片中的音频特征以及与所述至少一个音频时间片相关联的权重，得到所述音频特征分段的匹配音频文件集。

例如，将每个音频特征分段分别地与音频特征组合库进行特征匹配，例如，第1个音频特征分段与音频特征组合库匹配，并基于第1个音频特征分段包括的音频特征的权重得到可能的至少一个匹配音频文件(可能的一个匹配音频文件集)，第2个音频特征分段再与音频特征组合库匹配，并基于第2个音频特征分段包括的音频特征的权重得到可能的至少一个匹配音频文件(可能的另一个匹配音频文件集)，依次类推，直到所有音频特征分段都与音频特征组合库进行了特征匹配。这样，得到多个匹配音频文件集。

例如，音频特征组合库可以包括多个参考音频文件的音频特征，并且每个参考音频文件的音频特征也具有对应的时间点，同时每个参考音频文件的音频标识(例如，音乐的歌名、专辑等等)也是已知的。每个参考音频文件的音频特征(例如，如果音频文件共4分钟，则音频特征的持续时间也是4分钟)在各个音频时间片内的权重也是已知的(采用与参考图3描述的步骤S220中的方法相同的方法)。在此情况下，可选的，可以将多个参考音频文件包括在参考音频文件集中。

再例如，音频特征组合库可以包括多个参考音频文件，并且将每个参考音频文件与其对应的音频特征及时间点信息相关联。同时每个参考音频文件的音频标识(例如，音乐的歌名、专辑等等)也是已知的。每个参考音频文件的音频特征在各个音频时间片内的权重也是已知的(采用与参考图3描述的步骤S220中的方法相同的方法)。

步骤S240的更多细节将参考图4-图5进行详细描述。

在步骤S250中，基于所述多个音频特征分段中的每个音频特征分段的匹配音频文件集，得到所述待识别音频文件的识别结果。

在步骤S240中得到了针对多个音频特征分段的多个匹配音频文件集，因此在步骤S250中需要对这些匹配音频文件集进行综合分析，从而确定最终的识别结果。例如，确定待识别音频文件是否是这些匹配音频文件中的一个或多个。

步骤S250的更多细节将参考图6进行详细描述。

通过参考图2描述的音频识别方法，由于考虑了在各个时间片内的音频特征基于事件类别的权重，对于可能被匹配的、与预设目标事件相关性不强的音频特征可以赋予较低权重以避免输出错误的最终的识别结果。并且由于音频特征是与时间点相关联的，在特征匹配过程中可以通过设置时间范围进行筛选，可以很好地识别正常速度的音频文件并且在一定程度上识别被加速和减速了的音频文件，因此可以有效提升音频识别的准确率和召回率。

以下结合图3对图2中的步骤S220进行详细描述。

图3示出了图2中的步骤S220的流程示意图，其示出了如何确定与音频时间片相关联的权重。以下步骤针对每个音频时间片执行。显然，会针对每个音频时间片相同地进行下述步骤。

在步骤S2201中，对所述音频时间片内的音频进行事件分类，得到所述音频时间片内的音频属于预设事件类别集中的每个事件类别的概率集。

例如，每个时间片内的音频的事件类别标签可以为语音、歌唱、音乐、无声、噪音、机器声、环境音等类别中的一种或多种，对于所述音频时间片，可以通过训练好的分类模型来得到所述音频时间片内的音频为各种事件类别的概率。例如，针对所述音频时间片内的音频的事件类别的概率集可以为[0.65,0.93,0.95,0.05,…]，这表示所述音频时间片内的音频的事件类别为语音的概率为0.65，为歌唱的概率为0.93，为音乐的概率为0.95，为无声的概率为0.05…。此外，为了便于计算，可选地，也可以根据概率集而对应地进行评分，即根据概率所分布的区间而设定不同的分数，例如如果概率为0.9-1之间，则设定分数为1；如果概率为0-0.1之间，则设定分数为0，其他区间也可以类似的进行分数设定。

可选地，可以通过训练集对分类模型进行训练，例如，将训练集中的每个音频文件样本转换为二维声音mel频谱图，通过vggish深度神经网络提取对应图像特征向量，然后基于图像特征向量以及对应的标签等参数训练分类神经网络模型，从而可以用于进行音频事件分类。

在步骤S2202中，基于所述概率集确定所述音频时间片内的音频的至少一个事件类别。

例如，在得到所述音频时间片内的音频属于预设事件类别集中的各个事件类别的概率集之后，可以确定该音频时间片的音频的事件类别，例如，是否包括歌唱/音乐等等。

在步骤2203中，基于所述至少一个事件类别与所述预设目标事件的相关性，确定与所述音频时间片相关联的权重。

例如，每种事件类别关于对于识别目标的预设目标事件具有不同的相关性，因此可以基于该相关性而对该与音频时间片相关联的音频特征赋予权重。例如，如果识别目标为背景音乐，而存在歌唱与该识别目标最相关，存在音乐与该识别目标的相关性相对而言要弱一些，因此可以将预设目标事件设置为歌唱。如果在操作ii)中确定所述音频时间片的音频的事件类别不包括歌唱和音乐，则对该音频时间片的音频特征赋予0的权重，当确定所述音频时间片的音频的事件类别存在歌唱时，对该与音频时间片相关联的音频特征赋予值为1*步骤i)中歌唱对应的概率(或分数)的乘积的权重，当确定所述音频时间片的音频的事件类别只存在音乐时，对该与音频时间片相关联的音频特征赋予值为0.5与步骤i)中音乐对应的概率(或分数)的乘积的权重，并且当确定所述音频时间片的音频的事件类别存在语音时(语音类别评分较高)或者其他非音乐/歌唱时，说明此时有除了音乐/歌唱之外的其他事件的音频，可以赋予更低的权重。再例如，如果识别目标为欢呼声(也得到了音频时间片的音频为各种事件类别(包括欢呼声)的概率)，可以将预设目标事件设置为欢呼声。如果在操作ii)中确定所述音频时间片的音频的事件类别不包括欢呼声，则对该音频时间片的音频特征赋予0的权重，当确定所述音频时间片的音频的事件类别存在欢呼声时，对该与音频时间片相关联的音频特征赋予值为1*步骤i)中欢呼声对应的概率(或分数)的乘积的权重，当确定所述音频时间片的音频的事件类别存在语音时，对该与音频时间片相关联的音频特征赋予值为0.5与步骤i)中语音对应的概率(或分数)的乘积的权重，并且当确定所述音频时间片的音频的事件类别存在其他非欢呼声时，可以类似地赋予更低的权重。

例如，如果某个音频特征分段的时长为3s，而音频时间片的时长为1s，通过上述的音频事件检测和权重赋予过程可以得到在这3s内的三个与音频时间片相关联的音频特征的权重分别为1,1,0.5，即可以确定在0-1s内音频特征分段的音频特征的权重为1，在1s-2s内音频特征分段的音频特征的权重为1，在2s-3s内音频特征分段的音频特征的权重为0.5。

通过参考图3所描述的方法，通过基于音频时间片的音频事件检测，可以确定在不同的时间片内所述待识别音频文件的音频特征的权重，从而为后续的音频特征的匹配提供了基础。

此外，以上针对各个音频时间片的权重(各个音频时间片音频特征的权重)赋予进行了详细介绍。上述得到各个时间点处的音频特征的权重的方式还可以用到生成音频特征组合库的过程中。可以通过以下方式来生成本公开的各个实施例中要用到的音频特征组合库。

首先，获取多个参考音频文件，并提取每个参考音频文件的音频特征，每个参考音频文件的音频特征包括多个特征向量和与所述多个特征向量分别对应的多个时间点，且每个参考音频文件的标识是已知的。

然后，针对每个参考音频文件的音频特征，将所述参考音频文件的音频按照第一时间间隔进行分段，得到多个音频时间片。

接着，针对每个音频时间片，对所述音频时间片内的音频进行事件分类，得到所述音频时间片包括的音频属于预设事件类别集中的各个事件类别的概率集，并且基于所述概率集确定与所述音频时间片相关联的音频特征的权重。

最后，针对每个参考音频文件，将所述参考音频文件的标识、所述参考音频文件的音频特征、以及所述参考音频文件的音频特征在所述多个时间点处权重(通过音频时间片得到，每个与音频时间片相关联的音频特征的权重相同，不同与音频时间片相关联的音频特征的权重可能相同或不相同)共同存储，以基于多个参考音频文件构建音频特征组合库。

下表表1示出了音频特征组合库的一个示例。在表1中，参考音频文件集包括多个参考音频文件，分别具有标识ID1、ID2、ID3…。针对每个参考音频文件，提取该参考音频文件的音频特征(多个特征向量和提取该多个特征向量的多个时间点)，得到该参考音频文件的多个音频特征组合，每个音频特征组合包括音频特征的一个特征向量(F)、该特征向量对应的时间点(t)、该时间点处的音频特征的权重(w)以及该参考音频文件的标识(ID)。

【表1】

通过上述方法可以构建出用于与待识别音频文件进行特征匹配的音频特征组合库。

以下结合图4-5对图2中的步骤S240进行详细描述。

图4-5示出了图2中的步骤S240的流程示意图，其示出了如何将待识别音频文件的音频特征与音频特征组合库进行特征匹配的操作。以下操作针对一个音频时间分段。显然，会针对每个音频时间分段相同地进行下述操作。

如图4所示，在步骤S2401中，将所述音频特征分段的音频特征与所述音频特征组合库进行匹配，得到所述音频特征分段的音频特征对应的相似特征向量对集、时间对集和音频文件标识集。

其中，所述相似特征向量对集包括多个相似特征向量对，所述时间对集包括多个时间对，所述音频文件标识集包括多个音频文件标识，并且所述每个相似特征向量对具有与其对应的时间对和音频文件标识，每个相似特征向量对包括所述音频特征分段的音频特征包括的第一特征向量和音频特征组合库中的音频特征包括的第二特征向量，每个时间对包括所述第一特征向量对应的第一时间点和所述第二特征向量对应的第二时间点，与所述相似特征向量和所述时间对相对应的音频文件标识为所述音频特征组合库中包括所述第二特征向量的音频特征所属的参考音频文件的标识。

例如，假设待识别音频文件A的音频特征Af包括多个特征向量(v1,v2,…,vn1)和对应的多个时间点(t1,t2,…,tn2)，n1和n2为大于等于1的整数且可以不相等，并且被划分为多个音频特征分段(A1,A2，…Am)，m为大于等于1的整数，针对每个音频分段Ai(i大于等于1小于等于m)，得到所述音频分段Ai的音频特征Afi，音频特征Afi包括的特征向量和时间点信息可以如下表2所示。

【表2】

将所述音频分段Ai的音频特征Afi与前面构建的所述音频特征组合库进行特征匹配，得到所述音频特征分段Ai的音频特征Afi经与音频特征组合库进行特征匹配后对应的相似特征向量对集Sp(例如，(V11,F21)；(V12,F22)；(V13,F23)；(V11,F32)；(V12,F33)；(V13,F34))、时间对集tp((ts11,t21)；(ts12,t22)；(ts13,t23)；(ts11,t32)；(ts12,t33)；(ts13,t34))和音频文件标识集(ID2；ID3)，其中，一个相似特征向量对、一个时间对、和一个参考音频文件标识是相互对应的，每个相似特征向量对包括所述音频特征分段的音频特征包括的一个第一特征向量(例如，V11)和音频特征组合库中的一个第二特征向量(F21)，每个时间对包括所述第一特征向量对应的第一时间点(例如，ts11)和所述第二特征向量对应的第二时间点(例如，t21)，并且具有该第二特征向量(F21)的音频特征所属的参考音频文件的标识(例如，ID2)也对应地被确定。

在步骤S2401中得到的音频文件标识集中可能包括重复的标识，因此可能对应参考音频文件集中的实际的一个或多个参考音频文件，这些参考音频文件称为备选音频文件。所述音频特征分段的备选音频文件仅仅是初步匹配结果，所述音频特征分段可能与其他很不相关的备选音频文件也存在少量的相似特征向量对，因此需要将这种备选音频文件舍去；并且如前面所述，还可以考虑各个时间点处的音频特征的权重来避免音频特征片段内的与预设目标事件无关的音频(例如，欢呼声、笑声音频等等)的音频特征影响最终的匹配结果。

因此，在步骤S2402中，基于所述多个相似特征向量对、所述音频特征分段的每个第一时间点处的音频特征的第一权重、所述音频特征组合库中每个第二时间点处的音频特征的第二权重、以及所述音频文件标识集，确定所述音频特征分段的匹配音频文件集，其中所述匹配音频文件集包括至少一个匹配音频文件。该步骤相当于是针对所述音频特征片段的二次匹配。

具体地，参考图5，在步骤S2402-1中，基于所述音频文件标识集包括的多个音频文件标识，确定用于所述音频特征分段的至少一个备选音频文件，其中每个备选音频文件与所述多个音频文件标识中的至少一个标识相对应。

音频文件标识集中可能包括重复的标识，因此一个备选音频文件可能对应所述多个音频文件标识中的一个或多个标识。

在步骤S2402-2中，对于每个备选音频文件，确定所述备选音频文件对应的相似特征向量对子集。

例如，假设音频特征分段内的音频特征包括300个特征向量和小于等于300个时间点(一个时间点可能对应多个特征向量)，其可能与备选音频文件1(ID1)匹配后存在200个相似特征向量对和200个时间对、与备选音频文件2(ID2)匹配后存在120个特征对和120个时间对、与备选音频文件3(ID3)匹配后存在20个特征对和20个时间对等等。也就是说，备选音频文件1对应的第一相似特征向量对子集包括200个相似特征向量对，备选音频文件2对应的第二相似特征向量对子集包括120个相似特征向量对，备选音频文件3对应的第三相似特征向量对子集包括20个相似特征向量对。

在步骤S2402-3中，基于每个备选音频文件对应的相似特征向量对子集中的相似特征向量对的数量，从所述至少一个备选音频文件中确定第一备选音频文件集合。

例如，对于每个备选音频文件，确定其对应的相似特征向量对子集中的相似特征向量对的数量是否满足第一阈值条件；以及将满足第一阈值条件的至少一个备选音频文件作为第一备选音频文件集合。

例如，在上述示例中，假设第一阈值条件为所述数量大于等于100，备选音频文件1(ID1)和备选音频文件2(ID2)对应的相似特征向量对子集包括的相似特征向量对的数量均大于100，但是备选音频文件3(ID3)对应的相似特征向量对子集包括的相似特征向量对的数量小于100，因此将备选音频文件1(ID1)和备选音频文件2(ID2)作为第一备选音频文件集合。

或者，还可以通过以下方式来确定第一备选音频文件集合：基于每个相似特征向量对子集中的各个相似特征向量对对应的各个时间对中包括的第一时间点处的音频特征(待识别音频文件的音频特征)的第一权重和第二时间点处的音频特征(音频特征组合库中的音频特征)的第二权重，得到每个相似特征向量对的等效权重值；从每个相似特征向量对子集中滤除满足第三阈值条件的等效权重值的相似特征向量对，得到有效相似特征向量对；以及基于各个相似特征向量对子集中的所述有效相似特征向量对的数量，从所述至少一个备选音频文件中确定第一备选音频文件集合。

例如，第三阈值条件为小于等于第三阈值。针对每个相似特征向量对子集，对于每个相似特征向量对对应的时间对，可将第一权重乘以50％的积与第二权重乘以50％的积相加，得到所述相似特征向量对的等效权重值。然而，也可以采用其他比例，例如30％和70％等等，本公开对此不做限制。如果某个相似特征向量对的等效权重值比较小，则说明该相似特征向量对对应的时间对中的时间点处的音频特征的权重相对较低，该相似特征向量对相对不可靠，为无效的相似特征向量对，因此可以从所述相似特征向量对子集中将该相似特征向量对滤除，从而得到所述相似特征向量对子集中的有效相似特征向量对。通过此方式，可以基于各个相似特征向量对子集中的所述有效相似特征向量对的数量，从所述各个备选音频文件中确定第一备选音频文件集合，例如，同样地判断所述数量是否满足第一阈值条件，并且将满足第一阈值条件的至少一个相似特征向量对子集相对应的备选音频文件确定为第一备选音频文件集合。

在步骤S2402-4中，针对所述第一备选音频文件集合中的每个备选音频文件，确定所述备选音频文件是否为音频特征分段的匹配音频文件。

具体可以进行以下操作：操作i)，计算所述备选音频文件对应的相似特征向量对子集中每个相似特征向量对对应的时间对中的第一时间点和第二时间点之间的时间差值；操作ii),确定出现次数最多的时间差值，作为第一基准时间差值；操作iii),基于所述第一基准时间差值和第一时间差阈值从所述备选音频文件对应的相似特征向量对子集中筛选出至少一个相似特征向量对；操作iv)，基于所述至少一个相似特征向量对中的每个相似特征向量对对应的时间对包括的第一时间点处的音频特征的第一权重和第二时间点处的音频特征的第二权重，确定所述备选音频文件是否为音频特征分段的匹配音频文件。

对于操作i)，例如，针对备选音频文件1(ID1)，对上述的200个相似特征向量对中的每个相似特征向量对对应的时间对中的第一时间点和第二时间点之间的时间差值进行计算，得到了200个时间差值。可选地，如果计算得到的时间差值t_delta不为整数，则选择最接近的一个整数作为所述时间差值t_delta(例如，通过四舍五入、或者向下取整或向上取整)。

对于操作ii),确定出现次数最多的时间差值，作为第一基准时间差值t_delta_max。此外，在一些情形中，如果存在两个以上相同最多出现次数的时间差值，则将这些时间差值的平均值、中值或者这些时间差值中除了最大和最小的时间差值之外的时间差值作为所述第一基准时间差值。

对于操作iii)，可选地，可以从所述备选音频文件对应的相似特征向量对子集中筛选出其对应的时间对满足t_delta>t_delta_max-t_delta_threshold且t_delta<t_delta_max+t_delta_threshold的相似特征向量对，这样，可以滤除一些不相关或不是实际匹配的相似特征向量对。这里，t_delta_threshold为第一时间差阈值，可以用于滤除一些不相关的无效相似特征向量对同时保留大部分相关的相似特征向量对，并且在待识别音频文件被加快或减慢的情况下也能对该待识别音频文件进行识别。

例如，如果针对某个备选音频文件对应的相似特征向量对子集，其包括的各个相似特征向量对对应的时间对的实际时间差值为0.5s,1.5s,1.5s,1.5s…，则经过取整后可以为(四舍五入)0s,2s,2s,2s…，因此可以将第一基准时间差值设置为2s，并且根据经验可以通过预先设置合适的第一时间差阈值，例如，1s，则可以筛选出对应的时间对的实际时间差值在1s和3s之间的所述至少一个相似特征向量对，而滤除了实际时间差值为0.5s的相似特征向量对。

又例如，在待识别音频文件被加速或减速的情况下，基于该第一时间差阈值也能较好的筛选出那些相似特征向量对。应注意，考虑到大众普遍能接受的最大加速/减速倍数(使得音频听起来是正常的)不超过2倍，因此一般大众仅会对原始音频文件进行不超过2倍的加速或加速，因此该方法可以基于该2倍来设置第一时间差阈值，因此可以针对被加速/减速小于等于2倍的倍数的音频文件进行有效识别。

具体地，在待识别音频文件相对于原音频文件是被加速/减速的情况下(服务器不可知)，所述备选音频文件对应的相似特征向量对子集中的相似特征向量对对应的时间对的时间差值将不再相同。例如，以减速1.2倍为例，如果第二时间间隔(音频特征分段的时长)为5s，假设待识别音频文件的音频特征在11s,12s,13s,14s,15s处的多个第一特征向量(一个时间点可能存在多个特征向量)分别与该备选音频文件的音频特征在13.2s,14.4s,15.6s,16.8s和18s处的多个第二特征向量相似，因此实际时间差值分别为2.2s,2.4s,2.6s,2.8s和3s，经过四舍五入，可以得到2s,2s,3s,3s,3s的时间差值，因此将出现3次的3s设置为第一基准时间差值；假设待识别音频文件的音频特征在51s,52s,53s,54s,55s处的多个第一特征向量(一个时间点可能存在多个特征向量)分别与该备选音频文件的音频特征在61.2s,62.4s,63.6s,64.8s和66s处的多个第二特征向量相似，因此实际时间差值分别为10.2s,10.4s,10.6s,10.8s和11s，经过四舍五入，可以得到10s,10s,11s,11s,11s的时间差值，因此将11s设置为第一基准时间差值。

此外，对于第一时间差阈值，可以根据音频特征分段的时长以及对于音频使得其能够被普遍接受的最大加/减倍数(本公开中以2倍为例)来决定，例如，当第二时间间隔为5s，则待识别音频文件的该5s音频特征分段所匹配的原音频文件中的某一段音频特征的时长可能被拉长到10s或被缩短到约2.5s，则可以将第一时间差阈值设置为例如5s。当然，为了避免过大的第一时间差阈值，从而筛选到不相关的相似特征向量对，因此根据经验值一般第一时间差阈值为1-2s最佳。即，第一时间差阈值可以凭经验并且根据音频特征分段的时长确定，例如还可以将音频特征分段的时长与第一时间差阈值之间的映射关系预先保存，从而当确定待识别音频的音频时长后，自动地获取第一时间差阈值(例如，图1A中的服务器的操作)。

然后，可以基于该第一基准时间差值与第一时间差阈值得到合适的时间差值范围，从而可以筛选出在该时间差值范围内的相似特征向量对，即由于设置了第一时间差阈值t_delta_threshold，对于加快或减慢后的待识别音频文件的音频特征的音频特征分段，仍然可以筛选出在t_delta>t_delta_max-t_delta_threshold且t_delta<t_delta_max+t_delta_threshold内的所述至少一个相似特征向量对。例如，如上面所述的情况，当第一基准时间差值为11s，且第一时间差阈值为2s时，可以从备选音频文件对应的相似特征向量对子集中筛选出在9s和13s之间的所述至少一个相似特征向量对。

对于操作iv)，具体地，针对每个相似特征向量对，对所述相似特征向量对对应的时间对包括的第一时间点处的音频特征的第一权重和第二时间点处的音频特征的第二权重进行加权运算，得到所述相似特征向量对的等效权重值；将所述至少一个相似特征向量对中的各个相似特征向量对的等效权重值进行相加，得到总权重值；以及在所述总权重值满足第二阈值条件的情况下，确定所述备选音频文件为所述音频特征分段的匹配音频文件。

例如，第二阈值条件为大于等于第二阈值。针对每个相似特征向量对对应的时间对，可将第一权重乘以50％的积与第二权重乘以50％的积相加，得到等效权重值。然而，也可以采用其他比例，例如30％和70％等等，本公开对此不做限制。然后，将所述备选音频文件下筛选出的所述至少一个相似特征向量对中的各个相似特征向量对的等效权重值进行相加，得到总权重值，在总权重值大于第二阈值时，说明该备选音频文件对于所述音频特征分段的匹配是足够可靠的，因此将其确定为所述音频特征分段的匹配音频文件，即该音频特征分段与该匹配音频文件内的某一段音频特征基本相同(相似度高)。

通过参考图5所述的方法的各步骤针对每个备选音频文件执行上述判断过程，可以确定所述音频特征分段的匹配音频文件集。

在确定了各个音频特征分段的各个匹配音频文件集之后，如图2中的步骤S250所述的，可以对各个匹配音频文件进行综合分析，以确定该待识别音频文件究竟与音频文件集中的哪个或哪些音频文件是相匹配的。

以下参考图6-7来对步骤S250进行详细描述。

图6和图7示出了图2中的步骤S250的两种实施方式的流程示意图，其示出了如何基于所述多个音频特征分段中的每个音频特征分段的匹配音频文件集，得到所述待识别音频文件的识别结果。

一种实施方式如图6所示，以下操作针对每个匹配音频文件集中的每个匹配音频文件而进行。此外，由于每个匹配音频文件集相互之间可能存在重复的匹配音频文件，因此也可以先将这些匹配音频文件集所涉及的所有匹配音频文件进行组合，相应地得到去重后的匹配音频文件。例如，第一个音频特征分段的匹配音频文件集涉及具有ID1和ID2的音频文件，第二个音频特征分段的匹配音频文件集涉及具有ID1和ID4的音频文件，因此将具有ID1、ID2和ID4的音频文件作为这两个匹配音频文件集涉及的匹配音频文件，而分别针对ID1、ID2和ID4执行下述操作。

在步骤S2501中，确定与所述匹配音频文件匹配的音频特征分段的数量。

也就是说，确定该匹配音频文件作为了哪些以及多少音频特征分段的匹配音频文件。

例如，对于具有ID1的音频文件，与该音频文件匹配的音频特征分段包括第一个、第二个、第五个、第六个、第八个等等20个音频特征分段。对于具有ID3的音频文件，与该音频文件匹配的音频特征分段包括第二个、第五个、第六个等等5个音频特征分段。对于具有ID20的音频文件，与该音频文件匹配的音频特征分段包括第一个、第三个、第四个、第六个、第十个等等15个音频特征分段。

在步骤S2502中，在所述数量满足第四阈值条件时，确定所述匹配音频文件为所述待识别音频文件的识别结果。

例如，当第四阈值条件为所述数量大于等于10时，则上述的具有ID1的音频文件以及具有ID20的音频文件被确定为所述待识别音频文件的识别结果，而具有ID3的音频文件不被确定为所述待识别音频文件的识别结果，即所述待识别音频文件与该具有ID1的音频文件和具有ID20的音频文件相匹配。

通过参考图6描述的实施方式，可以确定每个匹配音频文件所匹配的待识别音频文件的音频特征的音频特征分段的数量，从而当数量足够多时，可以将认为该待识别音频文件与所述匹配音频文件足够相似。

另一种实施方式如图7所示，以下操作也针对每个匹配音频文件集中的每个匹配音频文件而进行。

在步骤S2501’中，确定与所述匹配音频文件匹配的各个音频特征分段各自的代表相似特征向量对。

例如，每个音频特征分段的代表相似特征向量对是关于所述音频特征分段在所述匹配音频文件对应的相似特征向量对子集中筛选出(基于第一基准时间差值和第一时间差阈值)的至少一个相似特征向量对中的一个。

例如，与所述匹配音频文件匹配的音频特征分段可以为多个，例如，待识别音频文件的音频特征中与该音频文件匹配的音频特征分段包括第一个、第三个、第四个、第六个、第十个音频特征分段。然后，所述音频特征分段的代表相似特征向量对为对应的时间对中的第一时间点和第二时间点的时间差值等于第一基准时间差值的第一个相似特征向量对或最接近第一基准时间差值的第一个相似特征向量对。

在步骤S2502’中，计算各个代表相似特征向量对各自对应的各个时间对中的第一时间点和第二时间点之间的时间差值。

例如，计算得到上述与该音频文件匹配的音频特征分段包括的第一个、第三个、第四个、第六个、第十个音频特征分段各自的代表相似特征向量对的五个时间差值。可选地，如果计算得到的时间差值不为整数，则选择最接近的一个整数作为所述时间差值，例如，通过四舍五入、或者向下取整或向上取整。

在步骤S2503’中，确定出现次数最多的时间差值，作为第二基准时间差值。

此外，如果存在两个以上相同最多出现次数的时间差值，则将这些时间差值的平均值、中值或者这些时间差值中除了最大和最小的时间差值之外的时间差值作为所述第二基准时间差值。

在步骤S2504’中，基于所述第二基准时间差值和第二时间差阈值从各个代表相似特征向量对筛选出至少一个代表相似特征向量对，并且确定所述至少一个代表相似特征向量对的数量。

例如，可以与上述基于第一基准时间差值的筛选过程类似地基于第二基准时间差值进行筛选。可选地，从各个代表相似特征向量对中筛选出其对应的时间对满足t_delta>t_delta_max-t_delta_threshold1且t_delta<t_delta_max+t_delta_threshold1的相似特征向量对。这里，t_delta_threshold1为第二时间差阈值，同样的也是可以用于排除一些比较不相关的代表相似特征向量对，以进一步地提高识别的准确性。第二时间差阈值可以凭经验并且根据待识别音频文件的音频时长(因为每个音频特征分段仅提供一个代表相似特征向量对，共包括多个音频特征分段)确定。例如，可以将音频时长与第二时间差阈值之间的映射关系预先保存，从而当识别出待识别音频文件的音频时长后，自动地获取第二时间差阈值(例如，图1A中的服务器的操作)。

例如，可以基于第二基准时间差值和第二时间差阈值而从与该音频文件匹配的20个音频特征分段的20个代表相似特征向量对中筛选出12个代表相似特征向量对。

在步骤S2505’中，在所述数量满足第五阈值条件时，确定所述匹配音频文件为所述待识别音频文件的识别结果。

例如，当第五阈值条件为所述数量大于等于第五阈值(例如，10)时，则上述的匹配音频文件被确定为所述待识别音频文件的识别结果，即所述待识别音频文件与该匹配音频文件高度相似。

图8示出了根据本公开实施例的音频识别方法的另一流程示意图。

如图8所示，首先从待识别其背景音乐的视频(目标视频)进行音频抽取，得到待识别音频文件。然后，分两路对该待识别音频文件进行处理操作。第一路可以包括音频事件检测，其与步骤S230对应，即基于对多个音频时间片内的音频事件进行检测，以确定在每个与音频时间片相关联的音频特征的权重(包括计算音频事件概率和赋予权重)。第二路可以包括音频特征提取，并将提取的音频特征与音频特征组合库进行初步匹配，并基于匹配结果得到多个相似特征向量对(以及对应的时间对)，基于该多个相似向量对并额外考虑对应的时间对中的时间点处的音频特征的权重来进行二次匹配，以得到最终的识别结果，这对应于步骤S240-250。

其中，需要预先生成音频特征组合库，例如可以基于参考音频文件集，通过提取每个参考音频文件的音频特征(多个特征向量和多个时间点)、以及对该参考音频文件按照划分的音频时间片进行事件检测从而得到在各个与音频时间片相关联的音频特征的权重，并将音频特征、对应的权重和参考音频文件的标识共同存储，生成音频特征组合库。

根据本公开的另一方面，还公开了一种音频识别装置。

图9示出了根据本公开实施例的一种音频识别装置900的示意性框图。

如图9所示，所述音频识别装置900包括：

获取模块910，用于获取待识别音频文件，并提取所述待识别音频文件的音频特征。

权重确定模块920，用于将所述待识别音频文件按照第一时间间隔进行分段，得到多个音频时间片，并基于每个音频时间片内的音频的事件类别以及所述事件类别与预设目标事件的相关性，确定与所述音频时间片相关联的权重。

音频特征分段模块930，用于将所述待识别音频文件的音频特征按照第二时间间隔进行分段，得到多个音频特征分段，其中每个音频特征分段包括至少一个音频时间片中的音频特征。

匹配模块940，用于针对每个音频特征分段，将所述音频特征分段与音频特征组合库进行特征匹配，并基于所述至少一个音频时间片中的音频特征以及与所述至少一个音频时间片相关联的权重，得到所述音频特征分段的匹配音频文件集。

识别模块950，用于基于所述多个音频特征分段中的每个音频特征分段的匹配音频文件集，得到所述待识别音频文件的识别结果。

更具体地，首先，权重确定模块920被配置为执行如前面参考图3描述的各个操作。

权重确定模块920包括概率确定子模块、事件类别确定子模块以及权重确定子模块。

概率确定子模块用于对所述音频时间片内的音频进行事件分类，得到所述音频时间片内的音频属于预设事件类别集中的每个事件类别的概率集。

事件类别确定子模块用于基于所述概率集确定所述音频时间片内的音频的至少一个事件类别。

权重确定子模块用于基于所述至少一个事件类别与所述预设目标事件的相关性，确定与所述音频时间片相关联的音频特征的权重。

匹配模块940包括特征匹配子模块和文件确定子模块。匹配模块940被配置为执行如参考图4-5描述的各个操作。

特征匹配子模块用于：将所述音频特征分段的音频特征与所述音频特征组合库进行特征匹配，得到所述音频特征分段的音频特征对应的相似特征向量对集、时间对集和音频文件标识集，其中，所述相似特征向量对集包括多个相似特征向量对，所述时间对集包括多个时间对，所述音频文件标识集包括多个音频文件标识，并且所述每个相似特征向量对具有与其对应的时间对和音频文件标识，每个相似特征向量对包括所述音频特征分段的音频特征包括的第一特征向量和音频特征组合库中的音频特征包括的第二特征向量，每个时间对包括所述第一特征向量对应的第一时间点和所述第二特征向量对应的第二时间点，与所述相似特征向量和所述时间对相对应的音频文件标识为所述音频特征组合库中包括所述第二特征向量的音频特征所属的参考音频文件的标识。

文件确定子模块用于：基于所述多个相似特征向量对、所述音频特征分段的每个第一时间点处的音频特征的第一权重、所述音频特征组合库中每个第二时间点处的音频特征的第二权重、以及所述音频文件标识集，确定所述音频特征分段的匹配音频文件集，其中所述匹配音频文件集包括至少一个匹配音频文件。

文件确定子模块的更多细节与前面参考图4-5描述的内容相同，因此这里不再重复描述。

接着，在一些实施方式中，识别模块950可以包括数量确定子模块和识别结果确定子模块，并且针对每个匹配音频文件进行操作。

数量确定子模块用于确定与所述匹配音频文件匹配的音频特征分段的数量。

识别结果确定子模块用于在所述数量满足第四阈值条件时，确定所述匹配音频文件为所述待识别音频文件的识别结果。

或者，在另一些实施方式中，识别模块950可以包括代表选择子模块、计算子模块、时间差值处理子模块、和识别结果确定子模块，并且针对每个匹配音频文件进行操作。

代表选择子模块用于确定与所述匹配音频文件匹配的每个音频特征分段各自的代表相似特征向量对。

计算子模块用于计算每个代表相似特征向量对各自对应的时间对中的第一时间点和第二时间点之间的时间差值。

时间差值处理子模块用于确定出现次数最多的时间差值，作为第二基准时间差值，并且基于所述第二基准时间差值和第二时间差阈值从每个代表相似特征向量对筛选出至少一个代表相似特征向量对，并且确定所述至少一个代表相似特征向量对的数量。

识别结果确定子模块用于在所述数量满足第五阈值条件时，确定所述匹配音频文件为所述待识别音频文件的识别结果。

此外，所述音频识别装置900还可以包括生成模块(未示出)，用于生成所述音频特征组合库。

所述生成模块用于执行以下操作：获取多个参考音频文件，并提取每个参考音频文件的音频特征，每个参考音频文件的音频特征包括多个特征向量和与所述多个特征向量分别对应的多个时间点；针对每个参考音频文件，将所述参考音频文件按照第一时间间隔进行分段，得到多个音频时间片；针对每个音频时间片，对所述音频时间片内的音频进行事件分类，得到所述音频时间片包括的音频属于预设事件类别集中的每个事件类别的概率集，并且基于所述概率集，确定与所述音频时间片相关联的音频特征的权重；以及针对每个参考音频文件，将所述参考音频文件的标识、所述参考音频文件的音频特征、以及所述参考音频文件的音频特征在每个时间点处的权重共同存储，以构建音频特征组合库。

通过本公开实施例的音频识别装置，由于考虑了在各个时间片内的音频特征基于事件类别的权重，对于可能被匹配的、与预设目标事件相关性不强的音频特征可以赋予较低权重以避免输出错误的最终的识别结果。并且由于音频特征是与时间点相关联的，在特征匹配过程中可以通过设置时间范围进行筛选，可以很好地识别正常速度的音频文件并且在一定程度上识别被加速和减速了的音频文件，因此可以有效提升音频识别的准确率和召回率。

根据本公开的又一方面，还公开了一种计算机设备。

图10示出了根据本公开实施例的计算机设备1000的示意性框图。该计算机设备1000可以为图1A中的服务器。

如图10所示，计算机设备1000包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该终端的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现如前面参考图2-8描述的音频识别方法的各步骤中描述的各种操作。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行同样的音频识别方法的各步骤中描述的各种操作。

例如，这些操作可以包括：获取待识别音频文件，并提取所述待识别音频文件的音频特征；将所述待识别音频文件按照第一时间间隔进行分段，得到多个音频时间片，并基于每个音频时间片内的音频的事件类别以及所述事件类别与预设目标事件的相关性，确定与所述音频时间片相关联的音频特征的权重；将所述待识别音频文件的音频特征按照第二时间间隔进行分段，得到多个音频特征分段，其中每个音频特征分段包括至少一个音频时间片中的音频特征；针对每个音频特征分段，将所述音频特征分段与音频特征组合库进行特征匹配，并基于所述至少一个音频时间片中的音频特征以及与所述至少一个音频时间片相关联的权重，得到所述音频特征分段的匹配音频文件集；以及基于所述多个音频特征分段中的每个音频特征分段的匹配音频文件集，得到所述待识别音频文件的识别结果。每个步骤的更多细节已经在前文参考图2-8进行了详细描述，因此这里不再重复。

处理器可以是一种集成电路芯片，具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开的实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，可以是X84架构或ARM架构的。

非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。应注意，本公开描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是终端外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

通过本公开实施例的计算机设备，由于考虑了在各个时间点处的音频特征基于事件类别的权重，对于可能被匹配的、与预设目标事件相关性不强的音频特征可以赋予较低权重以避免输出错误的最终的识别结果。并且由于音频特征与时间点相关联的，在特征匹配过程中可以通过设置时间范围进行筛选(如将参考图4-图5描述的)，可以很好地识别正常速度的音频文件并且在一定程度上识别被加速和减速了的音频文件，因此可以有效提升音频识别的准确率和召回率。

根据本公开的另一方面，还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行如前面的音频识别方法的各步骤。

根据本公开的又一方面，还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现如前面的音频识别方法的各步骤。

需要说明的是，附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，模块、程序段、或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

一般而言，本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。

在上面详细描述的本公开的示例实施例仅仅是说明性的，而不是限制性的。本领域技术人员应该理解，在不脱离本公开的原理和精神的情况下，可对这些实施例或其特征进行各种修改和组合，这样的修改应落入本公开的范围内。

Claims

1.一种音频识别方法，包括：

获取待识别音频文件，并提取所述待识别音频文件的音频特征；

将所述待识别音频文件按照第一时间间隔进行分段，得到多个音频时间片，并基于每个音频时间片内的音频的事件类别以及所述事件类别与预设目标事件的相关性，确定与所述音频时间片相关联的权重；

将所述待识别音频文件的音频特征按照第二时间间隔进行分段，得到多个音频特征分段，其中每个音频特征分段包括至少一个音频时间片中的音频特征；

针对每个音频特征分段，将所述音频特征分段与音频特征组合库进行特征匹配，并基于匹配结果以及所述至少一个音频时间片中的音频特征以及与所述至少一个音频时间片相关联的权重，得到所述音频特征分段的匹配音频文件集；以及

基于所述多个音频特征分段中的每个音频特征分段的匹配音频文件集，得到所述待识别音频文件的识别结果。

2.根据权利要求1所述的方法，其中，基于每个音频时间片内的音频的事件类别以及所述事件类别与预设目标事件的相关性，确定与所述音频时间片相关联的权重，包括：

对所述音频时间片内的音频进行事件分类，得到所述音频时间片内的音频属于预设事件类别集中的每个事件类别的概率集；

基于所述概率集确定所述音频时间片内的音频的至少一个事件类别；以及

基于所述至少一个事件类别与所述预设目标事件的相关性，确定与所述音频时间片相关联的权重。

3.根据权利要求1所述的方法，其中，所述待识别音频文件的音频特征包括多个特征向量和与所述多个特征向量分别对应的多个时间点，

其中，将所述音频特征分段与音频特征组合库进行特征匹配，并基于匹配结果以及所述至少一个音频时间片中的音频特征以及与所述至少一个音频时间片相关联的权重，得到所述音频特征分段的匹配音频文件集，包括：

将所述音频特征分段的音频特征与所述音频特征组合库进行特征匹配，得到所述音频特征分段的音频特征对应的相似特征向量对集、时间对集和音频文件标识集，其中，所述相似特征向量对集包括多个相似特征向量对，所述时间对集包括多个时间对，所述音频文件标识集包括多个音频文件标识，并且所述每个相似特征向量对具有与其对应的时间对和音频文件标识，每个相似特征向量对包括所述音频特征分段的音频特征包括的第一特征向量和音频特征组合库中的音频特征包括的第二特征向量，每个时间对包括所述第一特征向量对应的第一时间点和所述第二特征向量对应的第二时间点，与所述相似特征向量对和所述时间对相对应的音频文件标识为所述音频特征组合库中包括所述第二特征向量的音频特征所属的参考音频文件的标识；

基于所述多个相似特征向量对、所述音频特征分段在每个第一时间点处的音频特征的第一权重、所述音频特征组合库中在每个第二时间点处的音频特征的第二权重、以及所述音频文件标识集，确定所述音频特征分段的匹配音频文件集，其中所述匹配音频文件集包括至少一个匹配音频文件。

4.根据权利要求3所述的方法，其中，基于所述多个相似特征向量对、所述音频特征分段在每个第一时间点处的音频特征的第一权重、所述音频特征组合库中在每个第二时间点处的音频特征的第二权重、以及音频文件标识集，确定所述音频特征分段的匹配音频文件集，包括：

基于所述音频文件标识集包括的多个音频文件标识，确定用于所述音频特征分段的至少一个备选音频文件，其中每个备选音频文件与所述多个音频文件标识中的至少一个音频文件标识相对应；

对于每个备选音频文件，确定所述备选音频文件对应的相似特征向量对子集；

基于每个备选音频文件对应的相似特征向量对子集中的相似特征向量对的数量，从所述至少一个备选音频文件中确定第一备选音频文件集合；

针对所述第一备选音频文件集合中的每个备选音频文件，确定所述备选音频文件是否为所述音频特征分段的匹配音频文件。

5.根据权利要求4所述的方法，其中，基于每个备选音频文件对应的相似特征向量对子集中的相似特征向量对的数量，从所述至少一个备选音频文件中确定第一备选音频文件集合，包括：

对于每个备选音频文件，确定其对应的相似特征向量对子集中的相似特征向量对的数量是否满足第一阈值条件；以及

将满足阈值条件的备选音频文件作为第一备选音频文件集合。

6.根据权利要求4所述的方法，其中，针对所述第一备选音频文件集合中的每个备选音频文件，确定所述备选音频文件是否为所述音频特征分段的匹配音频文件，包括：

计算所述备选音频文件对应的相似特征向量对子集中每个相似特征向量对对应的时间对中的第一时间点和第二时间点之间的时间差值；

确定出现次数最多的时间差值，作为第一基准时间差值；以及

基于所述第一基准时间差值和第一时间差阈值从所述备选音频文件对应的相似特征向量对子集中筛选出至少一个相似特征向量对；以及

基于所述至少一个相似特征向量对中的每个相似特征向量对对应的时间对包括的第一时间点处的音频特征的第一权重和第二时间点处的音频特征的第二权重，确定所述备选音频文件是否为所述音频特征分段的匹配音频文件。

7.根据权利要求6所述的方法，其中，基于所述至少一个相似特征向量对中的每个相似特征向量对对应的时间对包括的第一时间点处的音频特征的第一权重和第二时间点处的音频特征的第二权重，确定所述备选音频文件是否为所述音频特征分段的匹配音频文件，包括：

针对每个相似特征向量对，对其对应的时间对包括的第一时间点处的音频特征的第一权重和第二时间点处的音频特征的第二权重进行加权运算，得到所述相似特征向量对的等效权重值；

将筛选出的所述至少一个相似特征向量对中的每个相似特征向量对的等效权重值进行相加，得到总权重值；以及

在所述总权重值满足第二阈值条件的情况下，确定所述备选音频文件为所述音频特征分段的匹配音频文件。

8.根据权利要求4所述的方法，其中，基于每个备选音频文件对应的相似特征向量对子集中的相似特征向量对的数量，从所述至少一个备选音频文件中确定第一备选音频文件集合，包括：

基于每个相似特征向量对子集中的每个相似特征向量对对应的时间对包括的第一时间点处的音频特征的第一权重和第二时间点处的音频特征的第二权重，得到每个相似特征向量对的等效权重值；

从每个相似特征向量对子集中滤除具有满足第三阈值条件的等效权重值的相似特征向量对，得到有效相似特征向量对；以及

基于每个相似特征向量对子集中的所述有效相似特征向量对的数量，从所述至少一个备选音频文件中确定第一备选音频文件集合。

9.根据权利要求1-8任一项所述的方法，其中，基于所述多个音频特征分段中的每个音频特征分段的匹配音频文件集，得到所述待识别音频文件的识别结果，包括：针对每个匹配音频文件，

确定与所述匹配音频文件匹配的音频特征分段的数量；以及

在所述数量满足第四阈值条件时，确定所述匹配音频文件为所述待识别音频文件的识别结果。

10.根据权利要求6-8任一项所述的方法，基于所述多个音频特征分段中的每个音频特征分段的匹配音频文件集，得到所述待识别音频文件的识别结果，包括：针对每个匹配音频文件，

确定与所述匹配音频文件匹配的每个音频特征分段各自的代表相似特征向量对；

计算每个代表相似特征向量对各自对应的时间对中的第一时间点和第二时间点之间的时间差值；

确定出现次数最多的时间差值，作为第二基准时间差值；

基于所述第二基准时间差值和第二时间差阈值从每个代表相似特征向量对筛选出至少一个代表相似特征向量对，并且确定所述至少一个代表相似特征向量对的数量；以及

在所述数量满足第五阈值条件时，确定所述匹配音频文件为所述待识别音频文件的识别结果。

11.根据权利要求1-8任一项所述的方法，其中，所述音频特征组合库是通过如下方式生成的：

获取多个参考音频文件，并提取每个参考音频文件的音频特征，每个参考音频文件的音频特征包括多个特征向量和与所述多个特征向量分别对应的多个时间点；

针对每个参考音频文件，将所述参考音频文件按照第一时间间隔进行分段，得到多个音频时间片；

针对每个音频时间片，对所述音频时间片内的音频进行事件分类，得到所述音频时间片包括的音频属于预设事件类别集中的每个事件类别的概率集，并且基于所述概率集，确定与所述音频时间片相关联的音频特征的权重；以及

针对每个参考音频文件，将所述参考音频文件的标识、所述参考音频文件的音频特征、以及所述参考音频文件的音频特征在每个时间点处的权重共同存储，以构建音频特征组合库。

12.根据权利要求2所述的方法，其中，对所述音频时间片内的音频进行事件分类，包括：

通过训练好的分类模型来对所述音频时间片内的音频进行事件分类。

13.一种音频识别装置，包括：

获取模块，用于获取待识别音频文件，并提取所述待识别音频文件的音频特征；

权重确定模块，用于将所述待识别音频文件按照第一时间间隔进行分段，得到多个音频时间片，并基于每个音频时间片内的音频的事件类别以及所述事件类别与预设目标事件的相关性，确定与所述音频时间片相关联的权重；

音频特征分段模块，用于将所述待识别音频文件的音频特征按照第二时间间隔进行分段，得到多个音频特征分段，其中每个音频特征分段包括至少一个音频时间片中的音频特征；

匹配模块，用于针对每个音频特征分段，将所述音频特征分段与音频特征组合库进行特征匹配，并基于匹配结果以及所述至少一个音频时间片中的音频特征以及与所述至少一个音频时间片相关联的权重，得到所述音频特征分段的匹配音频文件集；以及

识别模块，用于基于所述多个音频特征分段中的每个音频特征分段的匹配音频文件集，得到所述待识别音频文件的识别结果。

14.一种计算机设备，包括：

处理器；和

存储器，其上存储有指令，所述指令在由所述处理器执行时，使得所述处理器执行如权利要求1-12任一项所述的方法的各个步骤。

15.一种计算机存储介质，其上存储有指令，所述指令在由处理器执行时，使得所述处理器执行如权利要求1-12任一项所述的方法的各个步骤。