CN109493881A

CN109493881A - 一种音频的标签化处理方法、装置和计算设备

Info

Publication number: CN109493881A
Application number: CN201811400838.4A
Authority: CN
Inventors: 罗玄; 张好; 黄君实; 陈强
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2019-03-19
Anticipated expiration: 2038-11-22
Also published as: CN109493881B

Abstract

本发明提供了一种音频的标签化处理方法和装置。该方法包括：获取原始音频信号；对所述原始音频信号进行离散化，得到目标音频；通过时序卷积神经网络CNN提取所述目标音频的特征，得到所述目标音频的特征向量；对所述特征向量进行聚类分析，得到所述特征向量对应的原始音频的不同分类；针对所述特征向量对应的原始音频的不同分类，提取同一类中的原始音频对应的标题中的关键字，并根据预定规则从所述关键字中选取一个或多个关键字作为该类别的音频标签。本发明提供的方案实现了高效、准确的音频分类，并实现了高准确度和全面性的音频标签化，从而能够提高音频的搜索命中率和推荐准确率。

Description

一种音频的标签化处理方法、装置和计算设备

技术领域

本发明涉及音频处理技术领域，特别是一种音频的标签化处理方法、音频的标签化处理装置、计算机存储介质以及计算设备。

背景技术

随着网络技术的发展和普及，出现了大量聚合类音频的分发平台，能够为网络用户提供个性化的音频服务，包括上传、搜索、推荐、播放、下载等服务。为了便于用户搜索和使用音频，并贴合用户的兴趣和需求进行音频的推荐，需要对平台上的海量音频进行准确的分类并为每个音频分配全面、合理的标签。现有的音频标签化方法通常通过人工标注，或仅简单地通过单个音频的标题和说明文字提取关键字作为标签，操作效率低、准确度低、标签涵盖面小。因此，亟需一种高效率、高准确度和全面性的音频标签化处理技术。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的音频的标签化处理方法、音频的标签化处理装置、计算机存储介质以及计算设备。

根据本发明实施例的一方面，提供了一种音频的标签化处理方法，包括：

获取原始音频信号；

对所述原始音频信号进行离散化，得到目标音频；

通过时序卷积神经网络CNN提取所述目标音频的特征，得到所述目标音频的特征向量；

对所述特征向量进行聚类分析，得到所述特征向量对应的原始音频的不同分类；

针对所述特征向量对应的原始音频的不同分类，提取同一类中的原始音频对应的标题中的关键字，并根据预定规则从所述关键字中选取一个或多个关键字作为该类别的音频标签。

可选地，对所述原始音频信号进行离散化，包括：

按指定采样频率对所述原始音频信号进行采样，对采样值幅度进行量化，并编码为脉冲编码调制PCM信号。

可选地，通过时序卷积神经网络CNN提取所述目标音频的特征，得到所述目标音频的特征向量，包括：

对所述目标音频按时间窗口进行分帧，得到n个音频帧；

通过时序CNN提取每个音频帧的特征，得到每个音频帧对应的m维特征向量；

将n个所述m维特征向量按时间顺序连接，得到一n×m维特征向量；

对所述n×m维特征向量进行降维分析，得到所述目标音频的最终的指定维数的特征向量，其中，n和m为大于1的自然数。

可选地，通过时序CNN提取每个音频帧的特征，得到每个音频帧对应的m维特征向量，包括：

对每个音频帧进行短时傅里叶变换STFT，得到该音频帧的频谱图；

对每个音频帧的所述频谱图进行对数-梅尔log-mel变换，得到该音频帧的log-mel声谱图；

将每个音频帧的所述log-mel声谱图输入时序CNN进行特征提取，得到每个音频帧对应的m维特征向量。

可选地，对所述n×m维特征向量进行降维分析，包括：

对所述n×m维特征向量进行平均池化average pooling。

可选地，所述聚类分析包括K-means聚类。

可选地，提取同一类中的原始音频对应的标题中的关键字，包括：

对同一类中的每个原始音频对应的标题进行分词，得到多个分词；

根据预定筛选策略从所述多个分词中选择一个或多个分词作为该原始音频的关键字。

可选地，根据预定规则从所述关键字中选取一个或多个关键字作为该类别的音频标签，包括：

统计每一所述关键字的出现次数；

选取出现次数大于或等于预定阈值的关键字作为该类别的音频标签。

统计每一所述关键字的出现次数；

根据出现次数对所述关键字进行排序；

选取排序在前的指定数量个关键字作为该类别的音频标签。

可选地，获取原始音频信号，包括：

从视频中提取所述原始音频信号。

根据本发明实施例的另一方面，还提供了一种音频的标签化处理装置，包括：

音频获取模块，适于获取原始音频信号；

离散化模块，适于对所述原始音频信号进行离散化，得到目标音频；

特征提取模块，适于通过时序卷积神经网络CNN提取所述目标音频的特征，得到所述目标音频的特征向量；

聚类分析模块，适于对所述特征向量进行聚类分析，得到所述特征向量对应的原始音频的不同分类；以及

标签化模块，适于针对所述特征向量对应的原始音频的不同分类，提取同一类中的原始音频对应的标题中的关键字，并根据预定规则从所述关键字中选取一个或多个关键字作为该类别的音频标签。

可选地，所述离散化模块还适于：

可选地，所述特征提取模块还适于：

对所述目标音频按时间窗口进行分帧，得到n个音频帧；

可选地，所述特征提取模块还适于：

对所述n×m维特征向量进行平均池化average pooling以实现降维。

可选地，所述聚类分析包括K-means聚类。

可选地，所述标签化模块还适于：

统计每一所述关键字的出现次数；

可选地，所述标签化模块还适于：

统计每一所述关键字的出现次数；

根据出现次数对所述关键字进行排序；

选取排序在前的指定数量个关键字作为该类别的音频标签。

可选地，所述音频获取模块还适于：

从视频中提取所述原始音频信号。

根据本发明实施例的再一方面，还提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序代码，当所述计算机程序代码在计算设备上运行时，导致所述计算设备执行根据上文中任一项所述的音频的标签化处理方法。

根据本发明实施例的又一方面，还提供了一种计算设备，包括：

处理器；以及

存储有计算机程序代码的存储器；

当所述计算机程序代码被所述处理器运行时，导致所述计算设备执行根据上文中任一项所述的音频的标签化处理方法。

本发明实施例提出的音频的标签化处理方法和装置，对所获取的原始音频信号进行离散化得到目标音频后，先通过时序卷积神经网络抽取出目标音频的特征向量，然后对特征向量进行聚类分析，得到特征向量对应的原始音频的不同分类，进而针对原始音频的不同分类，根据预定规则从同一类中的原始音频对应的标题中的关键字中选取一个或多个关键字作为该类别的音频标签。通过采用时序CNN特征提取网络抽取音频的特征向量并对特征向量进行聚类分析，实现了高效、准确的音频分类。进而，通过根据预定规则从同一类的所有音频的标题包含的关键字中筛选出一个或多个关键字作为该类音频标签，与人工标注和单个音频标签化方式相比，实现了高准确度和全面性的音频标签化，从而能够提高音频的搜索命中率和推荐准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一实施例的音频的标签化处理方法的流程图；

图2示出了根据本发明一实施例的聚类算法的流程图；以及

图3示出了根据本发明一实施例的音频的标签化处理装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

发明人发现，对于音频分发平台(例如，快视频、音乐应用APP、音乐网站等)，用户的使用体验很大程度上取决于音频的搜索命中率和推荐准确率。为保证搜索命中率和推荐准确率，需要对平台上的海量音频进行准确的分类并为每个音频分配全面、合理的标签。现有的音频标签化方法通常通过人工标注，或仅简单地通过单个音频的标题和说明文字提取关键字作为标签，操作效率低、准确度低、标签涵盖面小。

为解决上述技术问题，本发明实施例提出一种音频的标签化处理方法。图1示出了根据本发明一实施例的音频的标签化处理方法的流程图。参见图1，该方法至少可以包括以下步骤S102至步骤S110。

步骤S102，获取原始音频信号。

步骤S104，对原始音频信号进行离散化，得到目标音频。

步骤S106，通过时序卷积神经网络CNN提取目标音频的特征，得到目标音频的特征向量。

步骤S108，对特征向量进行聚类分析，得到特征向量对应的原始音频的不同分类。

步骤S110，针对特征向量对应的原始音频的不同分类，提取同一类中的原始音频对应的标题中的关键字，并根据预定规则从提取的关键字中选取一个或多个关键字作为该类别的音频标签。

本发明实施例提出的音频的标签化处理方法，对所获取的原始音频信号进行离散化得到目标音频后，先通过时序卷积神经网络抽取出目标音频的特征向量，然后对特征向量进行聚类分析，得到特征向量对应的原始音频的不同分类，进而针对原始音频的不同分类，根据预定规则从同一类中的原始音频对应的标题中的关键字中选取一个或多个关键字作为该类别的音频标签。通过采用时序CNN特征提取网络抽取音频的特征向量并对特征向量进行聚类分析，实现了高效、准确的音频分类。进而，通过根据预定规则从同一类的所有音频的标题包含的关键字中筛选出一个或多个关键字作为该类音频标签，与人工标注和单个音频标签化方式相比，实现了高准确度和全面性的音频标签化，从而能够提高音频的搜索命中率和推荐准确率。

上文步骤S102中，可以通过多种方式获取原始音频信号，例如，可以通过直接获取用户上传的音频、通过录音设备录制音频等，本发明对此不作限制。

在一个可选的实施例中，可以从视频中提取原始音频信号。

视频通常包括画面和对应的声音，在一些情况下，视频的声音内容能够表征出视频画面所不能表征的特征，因此，通过从视频中分离音频信号进行分析，能够进一步得到视频的特征信息。

上文步骤S104中提及的离散化是指对模拟音频信号进行采样和量化，即，对声音在时间轴和幅度两个方面进行离散化，从而转换为数字信号。采样频率通常不低于声音信号最高频率的两倍，以实现无损数字化。量化指采样过程中对每一个采样点的幅度值用数字量来表示。如果幅度的划分是等间隔的，称为线性量化，否则为非线性量化。量化等级数越多，则所能表示的声波幅度的动态范围越大，量化噪声越小。

在一个可选的实施例中，对原始音频信号进行离散化可以进一步实施为：

按指定采样频率对原始音频信号进行采样，对采样值幅度进行量化，并编码为脉冲编码调制(Pulse Coding Modulation，PCM)信号。

在一个具体的实施例中，以16kHz的采样频率对原始音频信号进行采样，并对采样值幅度进行量化后，采用脉冲编码调制PCM法对量化值进行编码，得到单通道、采样率为16kHz的PCM标准格式的目标音频。

上文步骤S106中，将目标音频输入时序卷积神经网络(Convolutional NeuralNetworks，CNN)进行特征提取，得到目标音频的特征向量。

在进行特征抽取时，时序CNN的卷积核(Convolutional Kernel)可以在特征维度与抽取的特征保持一致，仅在时间维度进行移动，以达到时序卷积的目的。由于音频具有时序性，通过采用时序CNN网络，抽取特征时按时间窗口进行抽取，然后使用神经网络作一维卷积，就可以得到音频表征，从而提高了音频特征提取的效率和准确性。

所提取的音频特征例如可以包括基频、共振峰、梅尔倒谱系数(Mel FrequencyCepstral Coefficients，MFCC)、短时功率谱密度等。

在一个优选的实施例中，步骤S106可以进一步实施为以下步骤：

第一步，对目标音频按时间窗口进行分帧，得到n个音频帧。

具体地，例如可以每隔10ms取一个长度为25ms的音频片段，即以帧长25ms、帧移10ms进行分帧，从而得到帧长为25ms、每相邻两帧之间有15ms交叠的n个音频帧。

第二步，通过时序CNN提取每个音频帧的特征，得到每个音频帧对应的m维特征向量。

具体地，所提取的特征可以表征每个音频帧(音频片段)的语音特征，比如人声、乐器声、车辆发动机声、动物声等。

m维特征向量例如可以表示为V_i＝{T1,T2,…,Tm}，其中，i表示n个音频帧中的第i个音频帧，T1,T2,…,Tm分别表示从第i个音频帧所提取的m个特征。

第三步，将n个上述m维特征向量按时间顺序连接，得到一n×m维特征向量。

具体地，n×m维特征向量例如可以表示为{V₁,V₂,…,V_i,…,V_n}。

第四步，对该n×m维特征向量进行降维分析，得到目标音频的最终的指定维数的特征向量，其中，n和m为大于1的自然数。

降维算法可以采用例如主成分分析(Principal Component Analysis，PCA)等算法。目标音频的最终特征向量的指定维数，可以根据实际应用场合通过实验验证得到。在一个具体实施例中，目标音频的最终特征向量的指定维数可以为640维，既保证对音频特征的充分表征，又减少了后续处理的计算量。

更进一步地，通过时序CNN提取每个音频帧的特征，得到每个音频帧对应的m维特征向量的步骤可以进一步通过以下方式实施：

首先，对每个音频帧进行短时傅里叶变换(Short-Term Fourier Transform，STFT)，将音频帧信号从时域变换到频域，得到该音频帧的频谱图。

然后，对每个音频帧的频谱图进行对数-梅尔log-mel变换，得到该音频帧的log-mel声谱图。

具体地，可以让每个音频帧的频谱图通过梅尔标度滤波器组(Mel-Scale FilterBanks)实现log-mel变换，得到相应的log-mel声谱图(也称梅尔频谱)。梅尔标度描述了人耳对频率的非线性特性。将普通的频率标度转化为梅尔频率标度的映射关系为：mel(f)＝1595*log₁₀(1+f/700)，其中，f表示普通频率。通过如此变换，人耳对频率的感知度就成了线性关系。

最后，将每个音频帧的log-mel声谱图输入时序CNN进行特征提取，得到每个音频帧对应的m维特征向量。

更进一步地，还可以通过对n×m维特征向量进行平均池化(Average Pooling)来实现对该n×m维特征向量的降维。

Average Pooling是对邻域内特征点求平均，目的在于整合特征，减少参数并保持平移不变性。Average Pooling能减小邻域大小受限造成的估计值方差增大造成的误差，更强调对整体特征信息进行一层下采样，对减少参数维度的贡献更大。

上文步骤S108中，通过对从音频抽取的特征向量进行聚类分析，实现了高效、准确的音频分类。聚类分析算法可以采用K-means聚类、层次聚类等。优选采用K-means聚类算法。

由于传统的聚类方法在数据的聚类过程中会存在一些问题，一个是数据的更新问题，另一个是聚类的中心点不可控，当其在聚类过程中迭代到一定程度时，最后的聚类结果是否符合要求、中心点是否准确均无法判断，因此，也会影响最终的聚类结果的准确性。因此，面对这些问题本发明实施例在聚类的过程中引入了纯度计算，以对聚类结果进行监督，从而在优化待处理数据聚类过程的同时，可以提升聚类结果的准确性。参见图2，本发明方案的聚类算法可以包括如下步骤S1-S4。

步骤S1，获取包括多个聚类对象的待处理数据以及上述待处理数据的指定目标类别数。

在该步骤中，聚类对象为多个原始音频，而聚类对象的待处理数据为原始音频经转换处理后抽取的特征向量。

步骤S2，依据各聚类对象的类别属性将待处理数据中的各聚类对象进行分类，获得指定目标类别数的聚类类别。

在该步骤中，可优先采用K-means聚类算法对各聚类对象进行分类。具体过程包括步骤S2-1至步骤S2-5。

S2-1，基于指定目标类别数随机初始化待处理数据的各聚类中心。

S2-2，计算上述待处理数据中每个聚类对象到各聚类中心的距离，并以最小距离将各聚类对象分类到对应的聚类中心所在的聚类类别。

对于待处理数据中的各聚类对象来讲，可以看做是一个多维空间中的多个数据点，在初始聚类时，由于已经获知指定目标类别数如k(k可以为自然数，根据不同需求进行设置)，即待处理数据需要分为k类，因此，可先基于该指定目标类别数随机初始化待处理数据的各聚类中心，选取k个聚类对象作为初始聚类中心，再对于其他的聚类对象计算到每个所选取聚类中心的距离，进而将各聚类对象分类到与其距离最近的聚类中心。

一般情况下，对多个聚类对象进行聚类时，需要进行多次迭代处理才能达到最优效果，因此，在上述步骤S2-2之后，还可以包括：

S2-3，计算各聚类类别的新聚类中心；

S2-4，获取每个聚类对象到新聚类中心的距离，并以最小距离将各聚类对象分类到对应的新聚类中心所属的聚类类别；

S2-5，迭代计算各聚类类别的新聚类中心指定次数，直至各聚类类别的新聚类中心的变化距离在预设范围内。

在上述步骤S2-3计算各聚类类别的新聚类中心时，由于在上述步骤S2-2已经对各聚类对象聚类以获得指定目标类别数的聚类类别，因此，在对任一聚类类别时，可计算该聚类类别的均值，即计算与各聚类对象向量长度相同的聚类对象作为该新聚类中心，其他聚类类别做同样的数据处理。

在确认出指定目标类别数的新聚类中心之后，再计算各聚类对象到新聚类中心的距离，以最小距离将各聚类对象分类到对应的新聚类中心所属聚类类别。重复上述步骤S2-3～S2-4，迭代计算各聚类类别的新聚类中心指定次数，直至各聚类类别的新聚类中心的变化距离在预设范围内，该预设距离可根据不同的应用需求进行设置，本发明不做限定。

在本发明实施例中，执行完一次新聚类中心的选取时，即可对新的聚类类别的纯度进行计算，或是在聚类指定次数之后计算聚类类别的纯度。

步骤S3，计算各聚类类别的纯度。

在该步骤中，计算各聚类类别的纯度的过程中，对于任一聚类类别，可以先基于该聚类类别的所有聚类对象筛选出指定比例的第一聚类对象。然后，分别获取与各第一聚类对象相邻的预设数量的第二聚类对象。最后，基于第二聚类对象的类别属性计算聚类类别的纯度。

在实际计算各聚类类别的纯度时还可以结合KNN(k-Nearest Neighbor，邻近算法)方法通过以下公式计算各聚类类别的纯度：

该公式中，purity_i表示聚类类别i的纯度；class_i表示聚类类别i；knn_y表示样本y的k近邻；NUM(x)表示在聚类类别i中所有聚类对象取k近邻的聚类对象总数；NUM(x∈class_i)表示聚类对象总数中属于聚类类别i的聚类对象数。

步骤S4，结合各聚类类别的纯度确认待处理数据的最终聚类类别。

该步骤中，可以结合各聚类类别的纯度确认待处理数据的最终聚类类别，并输出各最终聚类类别的聚类中心，在本发明优选实施例中，步骤S4可以具体包括以下步骤：

S4-1，判断各聚类类别的新聚类中心的迭代计算次数是否达到最大迭代次数；

S4-2，若各聚类类别的新聚类中心的迭代计算次数没有达到最大迭代次数，则筛选出纯度大于预设的初始筛选纯度的第一聚类类别；

S4-3，保存并输述第一聚类类别的聚类中心。

本发明实施例的聚类算法用于处理音频数据时，基于抽取的音频的特征在同一多维向量空间中相应的数据坐标点进行聚类，实现了高效、准确的音频分类。

上文步骤S110中针对特征向量对应的原始音频的不同分类，提取每一类的原始音频的标题关键字，并从中选取关键字作为该类别的音频标签。

在一个可选的实施例中，提取同一类中的原始音频对应的标题中的关键字的步骤可以实施为：

对同一类中的每个原始音频对应的标题进行分词，得到多个分词；然后，根据预定筛选策略从多个分词中选择一个或多个分词作为该原始音频的关键字。

在一实施例中，可以根据每个分词的分类特征(例如，名词、热度词)等进行选择，从而选择性地提取出音频标题中与音频特征有关的一个或多个关键字。

需要说明的是，由于一些词语，如介词、连词、助词、语气词等虚词本身没有实在的意义，因此，在分词处理后可以将这些词语去除。

在本发明实施例中，在提取了同一类中的原始音频对应的标题中的关键字之后，还会根据预定规则从提取出的关键字中选取一个或多个关键字作为该类别的音频标签，以实现对音频的标签化。对作为音频标签的关键字进行选取可以包括以下两种方式。

方式一

对于聚类出的每一类原始音频，首先，可以统计从该类原始音频的标题中提取的每一关键字的出现次数。然后，选取出现次数大于或等于预定阈值的关键字作为该类别的音频标签。此处提及的预定阈值可以根据应用场合实际需求进行设定。

方式二

对于聚类出的每一类原始音频，首先，可以统计从该类原始音频的标题中提取的每一关键字的出现次数。然后，根据统计出的关键字的出现次数对关键字进行排序。最后，选取排序在前的指定数量个关键字作为该类别的音频标签。例如，可以选取排序在前的10个关键字(即排名位于前10的关键字)作为该类别的音频标签。

通过从同一类的所有音频的标题包含的关键字中筛选出出现频次较高的一个或多个关键字作为该类音频标签，与人工标注和单个音频标签化方式相比，实现了高准确度和全面性的音频标签化，从而能够提高音频的搜索命中率和推荐准确率。

基于同一发明构思，本发明实施例还提供了一种音频的标签化处理装置，用于支持上述任意一个实施例或其组合所提供的音频的标签化处理方法。图3示出了根据本发明一实施例的音频的标签化处理装置的结构示意图。参见图3，该装置至少可以包括：音频获取模块310、离散化模块320、特征提取模块330、聚类分析模块340、以及标签化模块350。

现介绍本发明实施例的音频的标签化处理装置的各组成或器件的功能以及各部分间的连接关系：

音频获取模块310，适于获取原始音频信号。

离散化模块320，与音频获取模块310连接，适于对原始音频信号进行离散化，得到目标音频。

特征提取模块330，与离散化模块320连接，适于通过时序卷积神经网络CNN提取目标音频的特征，得到目标音频的特征向量。

聚类分析模块340，与特征提取模块330连接，适于对特征向量进行聚类分析，得到特征向量对应的原始音频的不同分类。

标签化模块350，与聚类分析模块340相连接，适于针对特征向量对应的原始音频的不同分类，提取同一类中的原始音频对应的标题中的关键字，并根据预定规则从所提取的关键字中选取一个或多个关键字作为该类别的音频标签。

在一个可选的实施例中，离散化模块320还适于：

按指定采样频率对原始音频信号进行采样，对采样值幅度进行量化，并编码为脉冲编码调制PCM信号。

在一个可选的实施例中，特征提取模块330还适于：

对目标音频按时间窗口进行分帧，得到n个音频帧；

将n个m维特征向量按时间顺序连接，得到一n×m维特征向量；

对n×m维特征向量进行降维分析，得到目标音频的最终的指定维数的特征向量，其中，n和m为大于1的自然数。

进一步地，特征提取模块330还适于：

对每个音频帧的频谱图进行对数-梅尔log-mel变换，得到该音频帧的log-mel声谱图；

将每个音频帧的log-mel声谱图输入时序CNN进行特征提取，得到每个音频帧对应的m维特征向量。

进一步地，特征提取模块330还适于：

对该n×m维特征向量进行平均池化average pooling以实现降维。

在一个可选的实施例中，聚类分析可以包括K-means聚类。

在一个可选的实施例中，标签化模块350还适于：

根据预定筛选策略从多个分词中选择一个或多个分词作为该原始音频的关键字。

在一个可选的实施例中，标签化模块350还适于：

针对从同一类原始音频的标题中提取的关键字，统计每一关键字的出现次数；

在一个可选的实施例中，标签化模块350还适于：

根据出现次数对关键字进行排序；

选取排序在前的指定数量个关键字作为该类别的音频标签。

在一个可选的实施例中，音频获取模块310还适于：

从视频中提取原始音频信号。

基于同一发明构思，本发明实施例还提供了一种计算机存储介质。该计算机存储介质存储有计算机程序代码，当该计算机程序代码在计算设备上运行时，导致计算设备执行根据上述任意一个实施例或其组合所述的音频的标签化处理方法。

基于同一发明构思，本发明实施例还提供了一种计算设备。该计算设备可以包括：

处理器；以及

存储有计算机程序代码的存储器；

当该计算机程序代码被处理器运行时，导致该计算设备执行根据上述任意一个实施例或其组合所述的音频的标签化处理方法。

根据上述任意一个可选实施例或多个可选实施例的组合，本发明实施例能够达到如下有益效果：

所属领域的技术人员可以清楚地了解到，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，为简洁起见，在此不另赘述。

另外，在本发明各个实施例中的各功能单元可以物理上相互独立，也可以两个或两个以上功能单元集成在一起，还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现，也可以采用软件或者固件的形式实现。

本领域普通技术人员可以理解：所述集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，其包括若干指令，用以使得一台计算设备(例如个人计算机，服务器，或者网络设备等)在运行所述指令时执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)，磁碟或者光盘等各种可以存储程序代码的介质。

或者，实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机，服务器，或者网络设备等的计算设备)来完成，所述程序指令可以存储于一计算机可读取存储介质中，当所述程序指令被计算设备的处理器执行时，所述计算设备执行本发明各实施例所述方法的全部或部分步骤。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：在本发明的精神和原则之内，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案脱离本发明的保护范围。

根据本发明实施例的一方面，提供了A1.一种音频的标签化处理方法，包括：

获取原始音频信号；

对所述原始音频信号进行离散化，得到目标音频；

A2.根据A1所述的方法，其中，对所述原始音频信号进行离散化，包括：

A3.根据A1所述的方法，其中，通过时序卷积神经网络CNN提取所述目标音频的特征，得到所述目标音频的特征向量，包括：

对所述目标音频按时间窗口进行分帧，得到n个音频帧；

A4.根据A3所述的方法，其中，通过时序CNN提取每个音频帧的特征，得到每个音频帧对应的m维特征向量，包括：

A5.根据A3所述的方法，其中，对所述n×m维特征向量进行降维分析，包括：

对所述n×m维特征向量进行平均池化average pooling。

A6.根据A1所述的方法，其中，所述聚类分析包括K-means聚类。

A7.根据A1所述的方法，其中，提取同一类中的原始音频对应的标题中的关键字，包括：

A8.根据A1所述的方法，其中，根据预定规则从所述关键字中选取一个或多个关键字作为该类别的音频标签，包括：

统计每一所述关键字的出现次数；

A9.根据A1所述的方法，其中，根据预定规则从所述关键字中选取一个或多个关键字作为该类别的音频标签，包括：

统计每一所述关键字的出现次数；

根据出现次数对所述关键字进行排序；

选取排序在前的指定数量个关键字作为该类别的音频标签。

A10.根据A1-A9中任一项所述的方法，其中，获取原始音频信号，包括：

从视频中提取所述原始音频信号。

根据本发明实施例的另一方面，还提供了B11.一种音频的标签化处理装置，包括：

音频获取模块，适于获取原始音频信号；

B12.根据B11所述的装置，其中，所述离散化模块还适于：

B13.根据B11所述的装置，其中，所述特征提取模块还适于：

对所述目标音频按时间窗口进行分帧，得到n个音频帧；

B14.根据B13所述的装置，其中，所述特征提取模块还适于：

B15.根据B13所述的装置，其中，所述特征提取模块还适于：

对所述n×m维特征向量进行平均池化average pooling以实现降维。

B16.根据B11所述的装置，其中，所述聚类分析包括K-means聚类。

B17.根据B11所述的装置，其中，所述标签化模块还适于：

B18.根据B11所述的装置，其中，所述标签化模块还适于：

统计每一所述关键字的出现次数；

B19.根据B11所述的装置，其中，所述标签化模块还适于：

统计每一所述关键字的出现次数；

根据出现次数对所述关键字进行排序；

选取排序在前的指定数量个关键字作为该类别的音频标签。

B20.根据B11-B19中任一项所述的装置，其中，所述音频获取模块还适于：

从视频中提取所述原始音频信号。

根据本发明实施例的再一方面，还提供了C21.一种计算机存储介质，所述计算机存储介质存储有计算机程序代码，当所述计算机程序代码在计算设备上运行时，导致所述计算设备执行根据A1-A10中任一项所述的音频的标签化处理方法。

根据本发明实施例的又一方面，还提供了D22.一种计算设备，包括：

处理器；以及

存储有计算机程序代码的存储器；

当所述计算机程序代码被所述处理器运行时，导致所述计算设备执行根据A1-A10中任一项所述的音频的标签化处理方法。

Claims

1.一种音频的标签化处理方法，包括：

获取原始音频信号；

对所述原始音频信号进行离散化，得到目标音频；

2.根据权利要求1所述的方法，其中，对所述原始音频信号进行离散化，包括：

3.根据权利要求1所述的方法，其中，通过时序卷积神经网络CNN提取所述目标音频的特征，得到所述目标音频的特征向量，包括：

对所述目标音频按时间窗口进行分帧，得到n个音频帧；

4.根据权利要求3所述的方法，其中，通过时序CNN提取每个音频帧的特征，得到每个音频帧对应的m维特征向量，包括：

5.根据权利要求3所述的方法，其中，对所述n×m维特征向量进行降维分析，包括：

对所述n×m维特征向量进行平均池化average pooling。

6.根据权利要求1所述的方法，其中，所述聚类分析包括K-means聚类。

7.根据权利要求1所述的方法，其中，提取同一类中的原始音频对应的标题中的关键字，包括：

8.一种音频的标签化处理装置，包括：

音频获取模块，适于获取原始音频信号；

9.一种计算机存储介质，所述计算机存储介质存储有计算机程序代码，当所述计算机程序代码在计算设备上运行时，导致所述计算设备执行根据权利要求1-7中任一项所述的音频的标签化处理方法。

10.一种计算设备，包括：

处理器；以及

存储有计算机程序代码的存储器；

当所述计算机程序代码被所述处理器运行时，导致所述计算设备执行根据权利要求1-7中任一项所述的音频的标签化处理方法。