CN109684506A

CN109684506A - 一种视频的标签化处理方法、装置和计算设备

Info

Publication number: CN109684506A
Application number: CN201811400848.8A
Authority: CN
Inventors: 罗玄; 张好; 黄君实; 陈强
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: 3600 Technology Group Co ltd
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2019-04-26
Anticipated expiration: 2038-11-22
Also published as: CN109684506B

Abstract

本发明提供了一种视频的标签化处理方法和装置。该方法包括：获取原始视频数据；将所述原始视频数据输入特征提取网络进行图像特征提取，得到所述原始视频的第一预设维度的图像特征向量；对所述图像特征向量进行聚类分析，得到所述图像特征向量对应的原始视频的不同分类；针对所述图像特征向量对应的原始视频的不同分类，提取同一类中的原始视频对应的标题中的关键字，并根据第一预定规则从所述关键字中选取一个或多个关键字作为该类别的原始视频的标签。本发明实施例的方案实现了高效、准确的视频分类，并实现了高准确度和全面性的视频标签化，从而能够提高视频的搜索命中率和推荐准确率。

Description

一种视频的标签化处理方法、装置和计算设备

技术领域

本发明涉及视频处理技术领域，特别是一种视频的标签化处理方法、视频的标签化处理装置、计算机存储介质以及计算设备。

背景技术

随着网络技术的发展和普及，出现了大量聚合类视频的分发平台，能够为网络用户提供个性化的视频服务，包括上传、搜索、推荐、播放、下载等服务。为了便于用户搜索和使用视频，并贴合用户的兴趣和需求进行视频的推荐，需要对平台上的海量视频进行准确的分类并为每个视频分配全面、合理的标签。现有的视频标签化方法通常通过人工标注，或仅简单地通过单个视频的标题和说明文字提取关键字作为标签，操作效率低、准确度低、标签涵盖面小。因此，亟需一种高效率、高准确度和全面性的视频标签化处理技术。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的视频的标签化处理方法、视频的标签化处理装置、计算机存储介质以及计算设备。

根据本发明实施例的一方面，提供了一种视频的标签化处理方法，包括：

获取原始视频数据；

将所述原始视频数据输入特征提取网络进行图像特征提取，得到所述原始视频的第一预设维度的图像特征向量；

对所述图像特征向量进行聚类分析，得到所述图像特征向量对应的原始视频的不同分类；

针对所述图像特征向量对应的原始视频的不同分类，提取同一类中的原始视频对应的标题中的关键字，并根据第一预定规则从所述关键字中选取一个或多个关键字作为该类别的原始视频的标签。

可选地，将所述原始视频数据输入特征提取网络进行图像特征提取，得到所述原始视频的第一预设维度的图像特征向量，包括：

对所述原始视频数据进行解码，得到多个视频帧；

将所述多个视频帧中的每一视频帧输入卷积神经网络CNN进行图像特征提取，得到每一视频帧的第二预设维度的图像特征向量；

利用预设算法对所述多个视频帧的图像特征向量进行运算处理，得到所述原始视频的第一预设维度的图像特征向量。

可选地，在对所述原始视频数据进行解码，得到多个视频帧之后，还包括：

按照预定时间间隔从所述多个视频帧中抽取n个视频帧；

将所述多个视频帧中的每一视频帧输入卷积神经网络CNN进行图像特征提取，得到每一视频帧的第二预设维度的图像特征向量，包括：

将所述n个视频帧中的每一视频帧输入CNN进行图像特征提取，得到每一视频帧对应的m维图像特征向量；

利用预设算法对所述多个视频帧的图像特征向量进行运算处理，得到所述原始视频的第一预设维度的图像特征向量，包括：

将n个所述m维图像特征向量按时间顺序连接，得到一n×m维图像特征向量；

对所述n×m维图像特征向量进行降维分析，得到所述原始视频的最终的第一预设维数的图像特征向量，其中，n和m为大于1的自然数。

可选地，对所述n×m维图像特征向量进行降维分析，包括：

对所述n×m维图像特征向量进行平均池化average pooling。

可选地，所述聚类分析包括K-means聚类。

可选地，提取同一类中的原始视频对应的标题中的关键字，包括：

对同一类中的每个原始视频对应的标题进行分词，得到多个分词；

根据预定筛选策略从所述多个分词中选择一个或多个分词作为该原始视频的关键字。

可选地，根据第一预定规则从所述关键字中选取一个或多个关键字作为该类别的原始视频的标签，包括：

统计每一所述关键字的出现次数；

选取出现次数大于或等于预定阈值的关键字作为该类别的原始视频的标签。

统计每一所述关键字的出现次数；

根据出现次数对所述关键字进行排序；

选取排序在前的指定数量个关键字作为该类别的原始视频的标签。

可选地，在获取原始视频数据之后，所述方法还包括：

从所述原始视频数据中分离音频信号；

对所述音频信号进行聚类分析，得到所述音频信号的不同分类；

针对所述音频信号的不同分类，提取同一类中的音频信号所对应的原始视频的标题中的关键字，并根据第二预定规则从所述关键字中选取一个或多个关键字作为该类别的音频信号所对应的原始视频的标签。

可选地，对所述音频信号进行聚类分析，得到所述音频信号的不同分类，包括：

对所述音频信号进行离散化，得到目标音频；

通过时序卷积神经网络CNN提取所述目标音频的特征，得到所述目标音频的语音特征向量；

对所述语音特征向量进行聚类分析，得到所述语音特征向量对应的音频信号的不同分类。

根据本发明实施例的另一方面，还提供了一种视频的标签化处理装置，包括：

视频数据获取模块，适于获取原始视频数据；

图像特征提取模块，适于将所述原始视频数据输入特征提取网络进行图像特征提取，得到所述原始视频的第一预设维度的图像特征向量；

第一聚类分析模块，适于对所述图像特征向量进行聚类分析，得到所述图像特征向量对应的原始视频的不同分类；以及

第一标签化模块，适于针对所述图像特征向量对应的原始视频的不同分类，提取同一类中的原始视频对应的标题中的关键字，并根据第一预定规则从所述关键字中选取一个或多个关键字作为该类别的原始视频的标签。

可选地，所述图像特征提取模块还适于：

对所述原始视频数据进行解码，得到多个视频帧；

可选地，所述图像特征提取模块还适于：

在对所述原始视频数据进行解码，得到多个视频帧之后，按照预定时间间隔从所述多个视频帧中抽取n个视频帧；

可选地，所述图像特征提取模块还适于：

对所述n×m维图像特征向量进行平均池化average pooling以实现降维。

可选地，所述聚类分析包括K-means聚类。

可选地，所述第一标签化模块还适于：

统计每一所述关键字的出现次数；

可选地，所述第一标签化模块还适于：

统计每一所述关键字的出现次数；

根据出现次数对所述关键字进行排序；

可选地，所述装置还包括：

音频信号分离模块，适于从所述原始视频数据中分离音频信号；

第二聚类分析模块，适于对所述音频信号进行聚类分析，得到所述音频信号的不同分类；以及

第二标签化模块，适于针对所述音频信号的不同分类，提取同一类中的音频信号所对应的原始视频的标题中的关键字，并根据第二预定规则从所述关键字中选取一个或多个关键字作为该类别的音频信号所对应的原始视频的标签。

可选地，所述第二聚类分析模块包括：

音频离散化单元，适于对所述音频信号进行离散化，得到目标音频；

语音特征提取单元，适于通过时序卷积神经网络CNN提取所述目标音频的特征，得到所述目标音频的语音特征向量；

音频聚类分析单元，适于对所述语音特征向量进行聚类分析，得到所述语音特征向量对应的音频信号的不同分类。

根据本发明实施例的再一方面，还提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序代码，当所述计算机程序代码在计算设备上运行时，导致所述计算设备执行根据上文中任一项所述的视频的标签化处理方法。

根据本发明实施例的又一方面，还提供了一种计算设备，包括：

处理器；以及

存储有计算机程序代码的存储器；

当所述计算机程序代码被所述处理器运行时，导致所述计算设备执行根据上文中任一项所述的视频的标签化处理方法。

本发明实施例提出的视频的标签化处理方法和装置，在获取原始视频数据后，先通过特征提取网络抽取出原始视频的图像特征向量，然后对图像特征向量进行聚类分析，得到图像特征向量对应的原始视频的不同分类，进而针对原始视频的不同分类，根据预定规则从同一类中的原始视频对应的标题的关键字中选取一个或多个关键字作为该类别的原始视频的标签。通过采用特征提取网络抽取视频的图像特征向量并对图像特征向量进行聚类分析，实现了高效、准确的视频分类。进而，通过根据预定规则从同一类的所有视频的标题包含的关键字中筛选出一个或多个关键字作为该类视频标签，与人工标注和单个视频标签化方式相比，实现了高准确度和全面性的视频标签化，从而能够提高视频的搜索命中率和推荐准确率。

进一步地，在获取原始视频数据后，还可以从原始视频数据中分离音频信号，然后对所分离出的音频信号进行聚类分析，得到音频信号的不同分类，进而针对音频信号的不同分类，根据预定规则从同一类中的音频信号所对应的原始视频的标题的关键字中选取一个或多个关键字作为该类别的音频信号所对应的原始视频的标签。通过进一步获取与视频的语音特征相关的标签，进一步提高了最终生成的视频标签的准确性和全面性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一实施例的视频的标签化处理方法的流程图；

图2示出了根据本发明一实施例的聚类算法的流程图；

图3示出了根据本发明另一实施例的视频的标签化处理方法的流程图；

图4示出了根据本发明一实施例的视频的标签化处理装置的结构示意图；以及

图5示出了根据本发明另一实施例的视频的标签化处理装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

发明人发现，对于视频分发平台(例如，快视频、抖音短视频APP、优酷视频网等)，用户的使用体验很大程度上取决于视频的搜索命中率和推荐准确率。为保证搜索命中率和推荐准确率，需要对平台上的海量视频进行准确的分类并为每个视频分配全面、合理的标签。现有的视频标签化方法通常通过人工标注，或仅简单地通过单个视频的标题和说明文字提取关键字作为标签，操作效率低、准确度低、标签涵盖面小。

为解决上述技术问题，本发明实施例提出一种视频的标签化处理方法。图1示出了根据本发明一实施例的视频的标签化处理方法的流程图。参见图1，该方法至少可以包括以下步骤S102至步骤S108。

步骤S102，获取原始视频数据。

步骤S104，将原始视频数据输入特征提取网络进行图像特征提取，得到原始视频的第一预设维度的图像特征向量。

步骤S106，对图像特征向量进行聚类分析，得到图像特征向量对应的原始视频的不同分类。

步骤S108，针对图像特征向量对应的原始视频的不同分类，提取同一类中的原始视频对应的标题中的关键字，并根据第一预定规则从该关键字中选取一个或多个关键字作为该类别的原始视频的标签。

本发明实施例提出的视频的标签化处理方法，在获取原始视频数据后，先通过特征提取网络抽取出原始视频的图像特征向量，然后对图像特征向量进行聚类分析，得到图像特征向量对应的原始视频的不同分类，进而针对原始视频的不同分类，根据预定规则从同一类中的原始视频对应的标题的关键字中选取一个或多个关键字作为该类别的原始视频的标签。通过采用特征提取网络抽取视频的图像特征向量并对图像特征向量进行聚类分析，实现了高效、准确的视频分类。进而，通过根据预定规则从同一类的所有视频的标题包含的关键字中筛选出一个或多个关键字作为该类视频标签，与人工标注和单个视频标签化方式相比，实现了高准确度和全面性的视频标签化，从而能够提高视频的搜索命中率和推荐准确率。

上文步骤S102中，可以通过多种方式获取原始视频数据，例如，可以通过直接获取用户上传的视频、通过摄像设备录制视频等，本发明对此不作限制。

上文步骤S104中，通过特征提取网络抽取出原始视频的第一预设维度的图像特征向量。

此处提及的特征提取网络可以采用深度学习的人工神经网络，例如CNN(Convolutional Neural Networks，卷积神经网络)神经网络、BP(Back Propagation)神经网络、LVQ(Learning Vector Quantization)神经网络等。优选CNN神经网络。CNN是一种有监督的机器学习模型，是深度学习的代表方法之一，能够实现对图像特征的自动提取。

通过特征提取网络提取的图像特征主要可以包括颜色特征、纹理特征、形状特征、空间关系特征等。

第一预设维度的数值，可以根据实际应用场合通过实验验证得到。在一个具体实施例中，第一预设维度的数值可以为1024维，也就是说，通过特征提取网络可以抽取得到1024维的图像特征向量，该1024维的图像特征向量能够较为全面地体现原始视频的内容信息等。

在一个可选的实施例中，步骤S104可以实施为以下步骤：

第一步骤，对原始视频数据进行解码，得到多个视频帧。

视频数据是由一帧一帧的视频帧组成的，为了能够准确地提取出视频数据的图像特征，在抽取原始视频数据的图像特征之前，需要对原始视频数据进行解码处理，得到多个视频帧。

第二步骤，将该多个视频帧中的每一视频帧输入卷积神经网络CNN进行图像特征提取，得到每一视频帧的第二预设维度的图像特征向量。

在此步骤中，第二预设维度可与第一预设维度相同或不同。

第三步骤，利用预设算法对多个视频帧的图像特征向量进行运算处理，得到原始视频的第一预设维度的图像特征向量。

当第二预设维度与第一预设维度相同时，例如，第二预设维度和第一预设维度均为1024维时，可以对多个视频帧的图像特征向量分别在各维特征上求平均，从而将由该多个视频帧的图像特征向量组成的原始视频表征直接降维简化为第一预设维度的图像特征向量。

当第二预设维度与第一预设维度不同时，可以通过对由该多个视频帧的图像特征向量组成的原始视频表征进行降维分析运算，得到原始视频的第一预设维度的图像特征向量。降维算法可以采用例如主成分分析(Principal Component Analysis，PCA)等算法。

进一步地，在上述第一步骤中对原始视频数据进行解码，得到多个视频帧之后，还包括以下步骤：

按照预定时间间隔从该多个视频帧中抽取n个视频帧。

该预定时间间隔可根据实际需求进行设定，例如可以设定为2s。

此时，上述第二步骤还可以实施为：

将该n个视频帧中的每一视频帧输入CNN进行图像特征提取，得到每一视频帧对应的m维图像特征向量。

此处的m维即指上文提及的第二预设维度。m维图像特征向量例如可以表示为V_i＝{T1,T2,…,Tm}，其中，i表示n个视频帧中的第i个视频帧，T1,T2,…,Tm分别表示从第i个视频帧所提取的m个图像特征。

同时，上述第三步骤还可以实施为：

首先，将n个m维图像特征向量按时间顺序连接，得到一n×m维图像特征向量。具体地，n×m维图像特征向量例如可以表示为{V₁,V₂,…,V_i,…,V_n}。

然后，对该n×m维图像特征向量进行降维分析，得到原始视频的最终的第一预设维数的图像特征向量。上文提及的n和m均为大于1的自然数。

更进一步地，还可以通过对n×m维图像特征向量进行平均池化(AveragePooling)来实现对该n×m维图像特征向量的降维。

Average Pooling是对邻域内特征点求平均，目的在于整合特征，减少参数并保持平移不变性。Average Pooling能减小邻域大小受限造成的估计值方差增大造成的误差，更强调对整体特征信息进行一层下采样，对减少参数维度的贡献更大。

上文步骤S106中，通过对从原始视频抽取的图像特征向量进行聚类分析，实现了高效、准确的视频分类。聚类分析算法可以采用K-means聚类、层次聚类等。优选采用K-means聚类算法。

由于传统的聚类方法在数据的聚类过程中会存在一些问题，一个是数据的更新问题，另一个是聚类的中心点不可控，当其在聚类过程中迭代到一定程度时，最后的聚类结果是否符合要求、中心点是否准确均无法判断，因此，也会影响最终的聚类结果的准确性。因此，面对这些问题本发明实施例在聚类的过程中引入了纯度计算，以对聚类结果进行监督，从而在优化待处理数据聚类过程的同时，可以提升聚类结果的准确性。参见图2，本发明方案的聚类算法可以包括如下步骤S1-S4。

步骤S1，获取包括多个聚类对象的待处理数据以及上述待处理数据的指定目标类别数。

在该步骤中，聚类对象为多个原始视频，而聚类对象的待处理数据为从原始视频数据抽取的图像特征向量。

步骤S2，依据各聚类对象的类别属性将待处理数据中的各聚类对象进行分类，获得指定目标类别数的聚类类别。

在该步骤中，可优先采用K-means聚类算法对各聚类对象进行分类。具体过程包括步骤S2-1至步骤S2-5。

S2-1，基于指定目标类别数随机初始化待处理数据的各聚类中心。

S2-2，计算上述待处理数据中每个聚类对象到各聚类中心的距离，并以最小距离将各聚类对象分类到对应的聚类中心所在的聚类类别。

对于待处理数据中的各聚类对象来讲，可以看做是一个多维空间中的多个数据点，在初始聚类时，由于已经获知指定目标类别数如k(k可以为自然数，根据不同需求进行设置)，即待处理数据需要分为k类，因此，可先基于该指定目标类别数随机初始化待处理数据的各聚类中心，选取k个聚类对象作为初始聚类中心，再对于其他的聚类对象计算到每个所选取聚类中心的距离，进而将各聚类对象分类到与其距离最近的聚类中心。

一般情况下，对多个聚类对象进行聚类时，需要进行多次迭代处理才能达到最优效果，因此，在上述步骤S2-2之后，还可以包括：

S2-3，计算各聚类类别的新聚类中心；

S2-4，获取每个聚类对象到新聚类中心的距离，并以最小距离将各聚类对象分类到对应的新聚类中心所属的聚类类别；

S2-5，迭代计算各聚类类别的新聚类中心指定次数，直至各聚类类别的新聚类中心的变化距离在预设范围内。

在上述步骤S2-3计算各聚类类别的新聚类中心时，由于在上述步骤S2-2已经对各聚类对象聚类以获得指定目标类别数的聚类类别，因此，在对任一聚类类别时，可计算该聚类类别的均值，即计算与各聚类对象向量长度相同的聚类对象作为该新聚类中心，其他聚类类别做同样的数据处理。

在确认出指定目标类别数的新聚类中心之后，再计算各聚类对象到新聚类中心的距离，以最小距离将各聚类对象分类到对应的新聚类中心所属聚类类别。重复上述步骤S2-3～S2-4，迭代计算各聚类类别的新聚类中心指定次数，直至各聚类类别的新聚类中心的变化距离在预设范围内，该预设距离可根据不同的应用需求进行设置，本发明不做限定。

在本发明实施例中，执行完一次新聚类中心的选取时，即可对新的聚类类别的纯度进行计算，或是在聚类指定次数之后计算聚类类别的纯度。

步骤S3，计算各聚类类别的纯度。

在该步骤中，计算各聚类类别的纯度的过程中，对于任一聚类类别，可以先基于该聚类类别的所有聚类对象筛选出指定比例的第一聚类对象。然后，分别获取与各第一聚类对象相邻的预设数量的第二聚类对象。最后，基于第二聚类对象的类别属性计算聚类类别的纯度。

在实际计算各聚类类别的纯度时还可以结合KNN(k-Nearest Neighbor，邻近算法)方法通过以下公式计算各聚类类别的纯度：

该公式中，purity_i表示聚类类别i的纯度；class_i表示聚类类别i；knn_y表示样本y的k近邻；NUM(x)表示在聚类类别i中所有聚类对象取k近邻的聚类对象总数；NUM(x∈class_i)表示聚类对象总数中属于聚类类别i的聚类对象数。

步骤S4，结合各聚类类别的纯度确认待处理数据的最终聚类类别。

该步骤中，可以结合各聚类类别的纯度确认待处理数据的最终聚类类别，并输出各最终聚类类别的聚类中心，在本发明优选实施例中，步骤S4可以具体包括以下步骤：

S4-1，判断各聚类类别的新聚类中心的迭代计算次数是否达到最大迭代次数；

S4-2，若各聚类类别的新聚类中心的迭代计算次数没有达到最大迭代次数，则筛选出纯度大于预设的初始筛选纯度的第一聚类类别；

S4-3，保存并输述第一聚类类别的聚类中心。

本发明实施例的聚类算法用于处理视频数据时，基于抽取的视频的图像特征在同一多维向量空间中相应的数据坐标点进行聚类，实现了高效、准确的视频分类。

上文步骤S108中针对图像特征向量对应的原始视频的不同分类，提取每一类的原始视频的标题关键字，并从中选取关键字作为该类别的原始视频的标签。

在一个可选的实施例中，提取同一类中的原始视频对应的标题中的关键字可以实施为：

对同一类中的每个原始视频对应的标题进行分词，得到多个分词；然后，根据预定筛选策略从多个分词中选择一个或多个分词作为该原始视频的关键字。

在一实施例中，可以根据每个分词的分类特征(例如，名词、热度词)等进行选择，从而选择性地提取出视频标题中与视频的特征较相关的一个或多个关键字。

需要说明的是，由于一些词语，如介词、连词、助词、语气词等虚词本身没有实在的意义，因此，在分词处理后可以将这些词语去除。

在本发明实施例中，在提取了同一类中的原始视频对应的标题中的关键字之后，还会根据第一预定规则从提取出的关键字中选取一个或多个关键字作为该类别的原始视频的标签，以实现对视频的标签化。对作为视频标签的关键字进行选取可以包括以下两种方式。

方式一

对于聚类出的每一类原始视频，首先，可以统计从该类原始视频的标题中提取的每一关键字的出现次数。然后，选取出现次数大于或等于预定阈值的关键字作为该类别的原始视频的标签。此处提及的预定阈值可以根据应用场合实际需求进行设定。

方式二

对于聚类出的每一类原始视频，首先，可以统计从该类原始视频的标题中提取的每一关键字的出现次数。然后，根据统计出的关键字的出现次数对关键字进行排序。最后，选取排序在前的指定数量个关键字作为该类别的原始视频的标签。例如，可以选取排序在前的10个关键字(即排名位于前10的关键字)作为该类别的原始视频的标签。

通过从同一类的所有视频的标题包含的关键字中筛选出出现频次较高的一个或多个关键字作为该类视频的标签，与人工标注和单个视频标签化方式相比，实现了高准确度和全面性的视频标签化，从而能够提高视频的搜索命中率和推荐准确率。

视频通常包括画面(即图像)和对应的声音，在一些情况下，视频的声音内容能够表征出视频画面所不能表征的特征，因此，通过从视频中分离音频信号进行分析，能够进一步得到视频的特征信息。

在一个优选的实施例中，如图3所示，除了上述步骤S102至步骤S108之外，在进行步骤S102获取原始视频数据之后，该视频的标签化处理方法还可以包括以下步骤S110至步骤S114。

步骤S110，从原始视频数据中分离音频信号。

步骤S112，对分离出的音频信号进行聚类分析，得到音频信号的不同分类。

步骤S114，针对音频信号的不同分类，提取同一类中的音频信号所对应的原始视频的标题中的关键字，并根据第二预定规则从该关键字中选取一个或多个关键字作为该类别的音频信号所对应的原始视频的标签。

通过在获取与视频的图像特征相关的标签的基础上进一步获取与视频的语音特征相关的标签，进一步提高了最终生成的视频标签的准确性和全面性。

在一个更优选的实施例中，上文步骤S112可以进一步实施为以下步骤：

首先，对分离出的音频信号进行离散化，得到目标音频。

此处提及的离散化是指对模拟音频信号进行采样和量化，即，对声音在时间轴和幅度两个方面进行离散化，从而转换为数字信号。采样频率通常不低于声音信号最高频率的两倍，以实现无损数字化。量化指采样过程中对每一个采样点的幅度值用数字量来表示。如果幅度的划分是等间隔的，称为线性量化，否则为非线性量化。量化等级数越多，则所能表示的声波幅度的动态范围越大，量化噪声越小。

可选地，对分离出的音频信号进行离散化可以更进一步实施为：

按指定采样频率对音频信号进行采样，对采样值幅度进行量化，并编码为脉冲编码调制(Pulse Coding Modulation，PCM)信号。

然后，通过时序卷积神经网络CNN提取目标音频的特征，得到目标音频的语音特征向量。

在进行特征抽取时，时序CNN的卷积核(Convolutional Kernel)可以在特征维度与抽取的特征保持一致，仅在时间维度进行移动，以达到时序卷积的目的。由于音频具有时序性，通过采用时序CNN网络，抽取特征时按时间窗口进行抽取，然后使用神经网络作一维卷积，就可以得到音频表征，从而提高了音频特征提取的效率和准确性。

所提取的音频特征例如可以包括基频、共振峰、梅尔倒谱系数(Mel FrequencyCepstral Coefficients，MFCC)、短时功率谱密度等。

最后，对语音特征向量进行聚类分析，得到语音特征向量对应的音频信号的不同分类。聚类分析所采用的聚类算法可与对从原始视频数据抽取的图像特征向量进行聚类分析所采用的聚类算法类似。此时，聚类对象为从原始视频数据分离出的多个音频信号，而聚类对象的待处理数据为分离出的音频信号经转换处理后抽取的语音特征向量。

在一种具体的实施方式中，通过时序卷积神经网络CNN提取目标音频的特征，得到目标音频的语音特征向量的步骤可以具体实施为以下方式：

(1)对目标音频按时间窗口进行分帧，得到p个音频帧。

具体地，例如可以每隔10ms取一个长度为25ms的音频片段，即以帧长25ms、帧移10ms进行分帧，从而得到帧长为25ms、每相邻两帧之间有15ms交叠的p个音频帧。

(2)对每个音频帧进行短时傅里叶变换(Short-Term Fourier Transform，STFT)，将音频帧信号从时域变换到频域，得到该音频帧的频谱图。

(3)对每个音频帧的频谱图进行对数-梅尔log-mel变换，得到该音频帧的log-mel声谱图。

具体地，可以让每个音频帧的频谱图通过梅尔标度滤波器组(Mel-Scale FilterBanks)实现log-mel变换，得到相应的log-mel声谱图(也称梅尔频谱)。log-mel变换遵循以下映射关系：mel(f)＝1595*log₁₀(1+f/700)，其中，f表示普通频率。

(4)将每个音频帧的log-mel声谱图输入时序CNN进行特征提取，得到每个音频帧对应的q维语音特征向量。

具体地，所提取的特征可以表征每个音频帧(音频片段)的语音特征，比如人声、乐器声、车辆发动机声、动物声等。

q维语音特征向量例如可以表示为A_i＝{C1,C2,…,Cq}，其中，i表示p个音频帧中的第i个音频帧，C1,C2,…,Cq分别表示从第i个音频帧所提取的q个特征。

(5)将p个上述q维语音特征向量按时间顺序连接，得到一p×q维语音特征向量。

具体地，p×q维语音特征向量例如可以表示为{A₁,A₂,…,A_i,…,A_p}。

(6)对该p×q维语音特征向量进行降维分析，得到目标音频的最终的指定维数的语音特征向量。其中，上文提及的p和q为大于1的自然数。

降维算法可以采用例如主成分分析(Principal Component Analysis，PCA)等算法。目标音频的最终语音特征向量的指定维数，可以根据实际应用场合通过实验验证得到。在一个具体实施例中，目标音频的最终语音特征向量的指定维数可以为640维，既保证对音频特征的充分表征，又减少了后续处理的计算量。

更优选地，还可以通过对p×q维语音特征向量进行平均池化(Average Pooling)来实现对该p×q维语音特征向量的降维。

上文步骤S114中提取标题中关键字以及关键字的选取方式可采用与步骤S108类似或相同的方式。此时，针对的不同类别为从原始视频数据中分离出的音频信号的类别。

通过分别获取与视频的图像特征和语音特征相关的标签共同作为视频的最终标签，使得最终生成的视频标签涵盖更全面、更广泛的信息，从而进一步提高视频的搜索命中率和推荐准确率。

基于同一发明构思，本发明实施例还提供了一种视频的标签化处理装置，用于支持上述任意一个实施例或其组合所提供的视频的标签化处理方法。图4示出了根据本发明一实施例的视频的标签化处理装置的结构示意图。参见图4，该装置至少可以包括：视频数据获取模块410、图像特征提取模块420、第一聚类分析模块430以及第一标签化模块440。

现介绍本发明实施例的视频的标签化处理装置的各组成或器件的功能以及各部分间的连接关系：

视频数据获取模块410，适于获取原始视频数据。

图像特征提取模块420，与视频数据获取模块410连接，适于将原始视频数据输入特征提取网络进行图像特征提取，得到原始视频的第一预设维度的图像特征向量。

第一聚类分析模块430，与图像特征提取模块420连接，适于对图像特征向量进行聚类分析，得到图像特征向量对应的原始视频的不同分类。

第一标签化模块440，与第一聚类分析模块430连接，适于针对图像特征向量对应的原始视频的不同分类，提取同一类中的原始视频对应的标题中的关键字，并根据第一预定规则从提取的关键字中选取一个或多个关键字作为该类别的原始视频的标签。

在一个可选的实施例中，图像特征提取模块420还适于：

对原始视频数据进行解码，得到多个视频帧；

将多个视频帧中的每一视频帧输入卷积神经网络CNN进行图像特征提取，得到每一视频帧的第二预设维度的图像特征向量；

利用预设算法对多个视频帧的图像特征向量进行运算处理，得到原始视频的第一预设维度的图像特征向量。

进一步地，图像特征提取模块420还适于：

在对原始视频数据进行解码，得到多个视频帧之后，按照预定时间间隔从多个视频帧中抽取n个视频帧；

将n个视频帧中的每一视频帧输入CNN进行图像特征提取，得到每一视频帧对应的m维图像特征向量；

将n个m维图像特征向量按时间顺序连接，得到一n×m维图像特征向量；

对n×m维图像特征向量进行降维分析，得到原始视频的最终的第一预设维数的图像特征向量，其中，n和m为大于1的自然数。

更进一步地，图像特征提取模块420还适于：

对该n×m维图像特征向量进行平均池化average pooling以实现降维。

在一个可选的实施例中，聚类分析可以包括K-means聚类。

在一个可选的实施例中，第一标签化模块440还适于：

根据预定筛选策略从多个分词中选择一个或多个分词作为该原始视频的关键字。

在一个可选的实施例中，第一标签化模块440还适于：

针对从同一类的原始视频的标题中提取的关键字，统计每一关键字的出现次数；

在一个可选的实施例中，第一标签化模块440还适于：

根据出现次数对关键字进行排序；

在一个可选的实施例中，如图5所示，该视频的标签化处理装置还可以包括音频信号分离模块450、第二聚类分析模块460和第二标签化模块470。

音频信号分离模块450与视频数据获取模块410连接，适于在视频数据获取模块410获取原始视频数据之后，从该原始视频数据中分离音频信号。

第二聚类分析模块460与音频信号分离模块450连接，适于对分离出的音频信号进行聚类分析，得到音频信号的不同分类。

第二标签化模块470与第二聚类分析模块460连接，适于针对音频信号的不同分类，提取同一类中的音频信号所对应的原始视频的标题中的关键字，并根据第二预定规则从提取的关键字中选取一个或多个关键字作为该类别的音频信号所对应的原始视频的标签。

进一步地，参照图5所示，第二聚类分析模块460可以包括以下单元：

音频离散化单元461，适于对音频信号进行离散化，得到目标音频；

语音特征提取单元462，适于通过时序CNN提取目标音频的特征，得到目标音频的语音特征向量；以及

音频聚类分析单元463，适于对该语音特征向量进行聚类分析，得到该语音特征向量对应的音频信号的不同分类。

基于同一发明构思，本发明实施例还提供了一种计算机存储介质。该计算机存储介质存储有计算机程序代码，当该计算机程序代码在计算设备上运行时，导致计算设备执行根据上述任意一个实施例或其组合所述的视频的标签化处理方法。

基于同一发明构思，本发明实施例还提供了一种计算设备。该计算设备可以包括：

处理器；以及

存储有计算机程序代码的存储器；

当该计算机程序代码被处理器运行时，导致该计算设备执行根据上述任意一个实施例或其组合所述的视频的标签化处理方法。

根据上述任意一个可选实施例或多个可选实施例的组合，本发明实施例能够达到如下有益效果：

所属领域的技术人员可以清楚地了解到，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，为简洁起见，在此不另赘述。

另外，在本发明各个实施例中的各功能单元可以物理上相互独立，也可以两个或两个以上功能单元集成在一起，还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现，也可以采用软件或者固件的形式实现。

本领域普通技术人员可以理解：所述集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，其包括若干指令，用以使得一台计算设备(例如个人计算机，服务器，或者网络设备等)在运行所述指令时执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)，磁碟或者光盘等各种可以存储程序代码的介质。

或者，实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机，服务器，或者网络设备等的计算设备)来完成，所述程序指令可以存储于一计算机可读取存储介质中，当所述程序指令被计算设备的处理器执行时，所述计算设备执行本发明各实施例所述方法的全部或部分步骤。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：在本发明的精神和原则之内，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案脱离本发明的保护范围。

根据本发明实施例的一方面，提供了A1.一种视频的标签化处理方法，包括：

获取原始视频数据；

A2.根据A1所述的方法，其中，将所述原始视频数据输入特征提取网络进行图像特征提取，得到所述原始视频的第一预设维度的图像特征向量，包括：

对所述原始视频数据进行解码，得到多个视频帧；

A3.根据A2所述的方法，其中，在对所述原始视频数据进行解码，得到多个视频帧之后，还包括：

按照预定时间间隔从所述多个视频帧中抽取n个视频帧；

A4.根据A3所述的方法，其中，对所述n×m维图像特征向量进行降维分析，包括：

对所述n×m维图像特征向量进行平均池化average pooling。

A5.根据A1所述的方法，其中，所述聚类分析包括K-means聚类。

A6.根据A1所述的方法，其中，提取同一类中的原始视频对应的标题中的关键字，包括：

A7.根据A1所述的方法，其中，根据第一预定规则从所述关键字中选取一个或多个关键字作为该类别的原始视频的标签，包括：

统计每一所述关键字的出现次数；

A8.根据A1所述的方法，其中，根据第一预定规则从所述关键字中选取一个或多个关键字作为该类别的原始视频的标签，包括：

统计每一所述关键字的出现次数；

根据出现次数对所述关键字进行排序；

A9.根据A1-A8中任一项所述的方法，其中，在获取原始视频数据之后，还包括：

从所述原始视频数据中分离音频信号；

A10.根据A9所述的方法，其中，对所述音频信号进行聚类分析，得到所述音频信号的不同分类，包括：

对所述音频信号进行离散化，得到目标音频；

根据本发明实施例的另一方面，还提供了B11.一种视频的标签化处理装置，包括：

视频数据获取模块，适于获取原始视频数据；

B12.根据B11所述的装置，其中，所述图像特征提取模块还适于：

对所述原始视频数据进行解码，得到多个视频帧；

B13.根据B12所述的装置，其中，所述图像特征提取模块还适于：

B14.根据B13所述的装置，其中，所述图像特征提取模块还适于：

B15.根据B11所述的装置，其中，所述聚类分析包括K-means聚类。

B16.根据B11所述的装置，其中，所述第一标签化模块还适于：

B17.根据B11所述的装置，其中，所述第一标签化模块还适于：

统计每一所述关键字的出现次数；

B18.根据B11所述的装置，其中，所述第一标签化模块还适于：

统计每一所述关键字的出现次数；

根据出现次数对所述关键字进行排序；

B19.根据B11-B18中任一项所述的装置，其中，还包括：

B20.根据B19所述的装置，其中，所述第二聚类分析模块包括：

根据本发明实施例的再一方面，还提供了C21.一种计算机存储介质，所述计算机存储介质存储有计算机程序代码，当所述计算机程序代码在计算设备上运行时，导致所述计算设备执行根据A1-A10中任一项所述的视频的标签化处理方法。

根据本发明实施例的又一方面，还提供了D22.一种计算设备，包括：

处理器；以及

存储有计算机程序代码的存储器；

当所述计算机程序代码被所述处理器运行时，导致所述计算设备执行根据A1-A10中任一项所述的视频的标签化处理方法。

Claims

1.一种视频的标签化处理方法，包括：

获取原始视频数据；

2.根据权利要求1所述的方法，其中，将所述原始视频数据输入特征提取网络进行图像特征提取，得到所述原始视频的第一预设维度的图像特征向量，包括：

对所述原始视频数据进行解码，得到多个视频帧；

3.根据权利要求2所述的方法，其中，在对所述原始视频数据进行解码，得到多个视频帧之后，还包括：

按照预定时间间隔从所述多个视频帧中抽取n个视频帧；

4.根据权利要求3所述的方法，其中，对所述n×m维图像特征向量进行降维分析，包括：

对所述n×m维图像特征向量进行平均池化average pooling。

5.根据权利要求1所述的方法，其中，所述聚类分析包括K-means聚类。

6.根据权利要求1所述的方法，其中，提取同一类中的原始视频对应的标题中的关键字，包括：

7.根据权利要求1所述的方法，其中，根据第一预定规则从所述关键字中选取一个或多个关键字作为该类别的原始视频的标签，包括：

统计每一所述关键字的出现次数；

8.一种视频的标签化处理装置，包括：

视频数据获取模块，适于获取原始视频数据；

9.一种计算机存储介质，所述计算机存储介质存储有计算机程序代码，当所述计算机程序代码在计算设备上运行时，导致所述计算设备执行根据权利要求1-7中任一项所述的视频的标签化处理方法。

10.一种计算设备，包括：

处理器；以及

存储有计算机程序代码的存储器；

当所述计算机程序代码被所述处理器运行时，导致所述计算设备执行根据权利要求1-7中任一项所述的视频的标签化处理方法。