CN111538859A

CN111538859A - 一种动态更新视频标签的方法、装置及电子设备

Info

Publication number: CN111538859A
Application number: CN202010329061.8A
Authority: CN
Inventors: 张志伟; 王希爱; 李焱; 郑仲奇
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2020-08-14
Anticipated expiration: 2040-04-23
Also published as: CN111538859B

Abstract

本发明提供一种动态更新视频标签的方法、装置及电子设备，该方法包括：接收平台账户上传的待标注视频数据，从平台账户之前上传的视频数据中，获取标签视频数据集合外的缓冲视频数据，标签视频数据集合包括至少一个标注视频标签的标签视频数据；采用分类算法对待标注视频数据及缓冲视频数据进行分类，根据分类结果确定触发视频标签更新时，确定各分类相对标签视频数据集合的变化率；确定变化率大于设定阈值的分类对应的新视频标签，利用新视频标签更新标注的视频标签，利用该分类中的视频数据更新标签视频数据。本发明提供的动态更新视频标签的方法、装置及电子设备，解决了现有确定视频标签的方法对平台账户的代表性数据感知和更新不及时的问题。

Description

一种动态更新视频标签的方法、装置及电子设备

技术领域

本发明涉及短视频数据应用领域，特别涉及一种动态更新视频标签的方法、装置及电子设备。

背景技术

随着UGC(User Generated Content，用户生成内容)平台的发展，短视频APP的应用迅速增加，使服务端面临大量的数据上传。在大数据时代背景下，大量的短视频信息充斥在视频网站或短视频软件中，如何对这些上传短视频数据的平台账户进行精准画像成为短视频业务推荐的重要需求。短视频标签即用户画像，是将平台账户的代表性短视频抽象成标签，利用这些标签将平台账户形象具体化，从而为平台账户提供有针对性的服务。

一般情况下，短视频标签是根据平台账户上传短视频数据的内容来确定的，并且在确定了短视频标签之后，还可以对平台账户上传的短视频数据添加标签。目前常用的确定短视频标签的方法主要是阶段性的对平台账户进行短视频标签的标注更新，该方法在平台账户数量过多时存在标注成本高及效率低的问题，并且，在确定短视频标签的过程中，平台账户上传的视频数据内容可能随着时间的变化而变化。例如，一个经常上传游戏相关视频的平台账户，可能一段时间之后改为上传美食的相关视频，因此在平台账户的代表性视频数据发生变化时，会出现感知和更新不及时的问题。此外，某一次平台账户上传的视频数据发生改变，不能代表该平台账户的短视频标签就需要改变，例如经常上传游戏视频的平台账户，其上传的视频数据大多数与游戏相关，但是不避免某个时间该平台账户上传一个其他类型的视频数据。因此，需要提出更及时和更高效准确的更新平台账户的代表性数据的方法。

综上，现有的更新视频标签的方法存在对平台账户的代表性数据感知和更新不及时的问题。

发明内容

本发明提供了一种动态更新视频标签的方法、装置及电子设备，用以解决现有确定视频标签的方法存在的对平台账户的代表性数据感知和更新不及时的问题。

根据本发明实施例的第一方面，提供一种动态更新视频标签的方法，该方法包括：

接收平台账户上传的待标注视频数据，并从所述平台账户之前上传的视频数据中，获取标签视频数据集合外的缓冲视频数据，所述标签视频数据集合包括至少一个标注视频标签的标签视频数据；

采用分类算法对所述待标注视频数据及缓冲视频数据进行分类，根据分类结果确定触发视频标签更新时，确定各分类相对标签视频数据集合的变化率；

确定变化率大于设定阈值的分类对应的新视频标签，利用所述新视频标签更新标注的视频标签，利用该分类中的视频数据更新标签视频数据。

根据本发明实施例的第二方面，提供一种动态更新视频标签的装置，包括：

数据获取模块，用于接收平台账户上传的待标注视频数据，并从所述平台账户之前上传的视频数据中，获取标签视频数据集合外的缓冲视频数据，所述标签视频数据集合包括至少一个标注视频标签的标签视频数据；

分类模块，用于采用分类算法对所述待标注视频数据及缓冲视频数据进行分类，根据分类结果确定触发视频标签更新时，确定各分类相对标签视频数据集合的变化率；

更新模块，用于确定变化率大于设定阈值的分类对应的新视频标签，利用所述新视频标签更新标注的视频标签，利用该分类中的视频数据更新标签视频数据。

可选地，所述分类模块采用分类算法对所述待标注视频数据及缓冲视频数据进行分类，包括：

将所述待标注视频数据及缓冲视频数据输入特征数据提取模型，对所述待标注视频数据及缓冲视频数据分别进行特征数据提取；

将提取的特征数据作为样本集，采用聚类方法对所述提取的特征数据进行聚类。

可选地，所述分类模块根据分类结果确定触发视频标签更新，包括：

根据各分类中视频数据的数量与视频数据总数量的比例，确定是否触发视频标签更新，所述各分类中视频数据为待标注视频数据及缓冲视频数据中的至少一种，所述视频数据总数量为待标注视频数据和缓冲视频数据的总数量。

可选地，所述分类模块根据各分类中视频数据的数量与视频数据总数量的比例，确定是否触发视频标签更新，包括：

将所述待标注视频数据所在分类中视频数据的数量与视频数据总数量的比例作为触发视频标签更新的概率，按照所述概率触发视频标签更新；或者

若所述待标注视频数据所在分类中视频数据的数量与视频数据总数量的比例超过设定阈值时，触发视频标签更新。

可选地，所述数据获取模块具体用于：

若所述平台账户之前上传的视频数据中，不存在标签视频数据集合，发送标注提示信息，并接收反馈的视频标签及对应的标签视频数据集合，或者

若所述平台账户之前上传的视频数据中，不存在标签视频数据集合且视频数据的数量超过设定数量时，对所述上传的视频数据进行分类，根据分类结果进行视频标签标注及确定对应的标签视频数据。

可选地，所述数据获取模块从所述平台账户之前上传的视频数据中，获取标签视频数据集合外的缓冲视频数据，包括：

根据所述平台账户之前上传视频数据的时间与当前时间的间隔，按照所述间隔从小到大的顺序，获取标签视频数据集合外的缓冲视频数据。

可选地，所述分类模块确定触发视频标签更新时，具体用于：

将所述待标注视频数据标注为缓冲视频数据；

删除缓冲视频数据中与当前时间的间隔最大的缓冲视频数据。

可选地，所述分类模块确定触发视频标签更新时，确定各分类相对标签视频数据集合的变化率，包括：

选取分类中视频数据数量最大的一个分类，并确定该分类相对于标签视频数据集合的变化率；或者

按照分类中视频数据数量从多到少的顺序选取N个分类，并确定各分类相对于标签视频数据集合的变化率，所述N为大于1的正整数。

可选地，所述分类模块确定各分类相对标签视频数据集合的变化率，包括：

按照分类中各视频数据到对应的分类中心的距离从小到大的顺序，选取M个视频数据，M为预设的大于1的正整数；

去除所述M个视频数据中，与标签视频数据集合属于同一视频标签的视频数据，得到新的集合；

将所述新的集合中视频数据数量除以标签视频数据集合中标签视频数据的，得到该分类相对于标签视频数据集合的变化率。

可选地，所述分类模块按照分类中各视频数据到对应的分类中心的距离从小到大的顺序，选取M个视频数据，包括：

对所述分类中视频数据对应的特征数据取平均值得到分类中心；

确定分类中各视频数据对应的特征数据到所述分类中心的余弦距离，按照所述余弦距离从小到大的顺序，从所述分类中选取M个视频数据。

可选地，所述分类模块若选取分类中视频数据数量最大的一个分类，根据变化率大于设定阈值的分类中的视频数据确定对应的新视频标签，包括：

若所述分类相对于标签视频数据集合的变化率大于设定阈值，根据所述分类中的视频数据确定对应的新视频标签；

利用所述新视频标签更新标注的视频标签，从所述分类中选取M个视频数据更新标签视频数据。

可选地，所述分类模块若按照分类中视频数据数量从多到少的顺序选取N个分类，根据变化率大于设定阈值的分类中的视频数据确定对应的新视频标签，包括：

筛选出所述N个分类中变化率大于设定阈值的分类；

根据筛选出的分类中变化率最大的分类中的视频数据，确定对应的新视频标签；

利用所述新视频标签更新标注的视频标签，从所述变化率最大的分类中选取M个视频数据更新标签视频数据。

根据本发明实施例的第三方面，提供一种动态更新视频标签的电子设备，包括：存储器和处理器；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

可选地，所述处理器采用分类算法对所述待标注视频数据及缓冲视频数据进行分类，包括：

可选地，所述处理器根据分类结果确定触发视频标签更新，包括：

可选地，所述处理器根据各分类中视频数据的数量与视频数据总数量的比例，确定是否触发视频标签更新，包括：

可选地，所述处理器具体用于：

可选地，所述处理器从所述平台账户之前上传的视频数据中，获取标签视频数据集合外的缓冲视频数据，包括：

可选地，所述处理器确定触发视频标签更新时，具体用于：

将所述待标注视频数据标注为缓冲视频数据；

可选地，所述处理器确定触发视频标签更新时，确定各分类相对标签视频数据集合的变化率，包括：

可选地，所述处理器确定各分类相对标签视频数据集合的变化率，包括：

可选地，所述处理器按照分类中各视频数据到对应的分类中心的距离从小到大的顺序，选取M个视频数据，包括：

可选地，所述处理器若选取分类中视频数据数量最大的一个分类，根据变化率大于设定阈值的分类中的视频数据确定对应的新视频标签，包括：

可选地，所述处理器若按照分类中视频数据数量从多到少的顺序选取N个分类，根据变化率大于设定阈值的分类中的视频数据确定对应的新视频标签，包括：

筛选出所述N个分类中变化率大于设定阈值的分类；

根据本发明实施例的第四方面，提供一种芯片，所述芯片与电子设备中的存储器耦合，使得所述芯片在运行时调用所述存储器中存储的程序指令，实现本申请实施例上述各个方面以及各个方面涉及的任一可能设计的方法。

根据本发明实施例的第五方面，提供一种计算机可读存储介质，该计算机存储介质存储有程序指令，当其在计算机上运行时，使得计算机执行本发明实施例上述各个方面以及各个方面涉及的任一可能设计的方法。

根据本发明实施例的第六方面，提供一种计算机程序产品，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行实现本申请实施例上述各个方面以及各个方面涉及的任一可能设计的方法。

利用本发明提供的动态更新视频标签的方法、装置及电子设备，具有以下有益效果：

本发明提供的动态更新视频标签的方法、装置及电子设备，利用分类方法对平台账户新上传的待标注视频数据和之前上传的缓冲视频数据进行分类，根据分类结果确定各分类相对于标签视频数据集的变化率，在变化率达到一定值时，对标签视频数据集合进行更新，解决了现有确定视频标签的方法存在的对平台账户的代表性数据感知和更新不及时的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中提供的一种动态更新视频标签的方法示意图；

图2为本发明实施例中提供的一种动态更新视频标签的方法流程示意图；

图3为本发明实施例中提供的一种动态更新视频标签的装置示意图；

图4为本发明实施例中提供的一种动态更新视频标签的电子设备结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本发明实施例提供播放语音消息的方法应用了人工智能技术，为了方便理解，下面对本发明实施例中涉及的名词进行解释：

1)机器学习(Machine Learning,ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能；机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域；机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术；

2)UGC(User Generated Content，用户生成内容)：指用户原创内容，即用户将原创的内容通过互联网平台进行展示或者提供给其他用户；UGC并不是某一种具体的业务，而是一种用户使用互联网的新方式，即由原来的以下载为主变成下载和上传并重，随着互联网应用的发展，网络用户的交互作用得以体现，用户既是网络内容的浏览者，也是网络内容的创造者；

3)用户画像：是一种勾画目标平台账户、联系平台账户诉求与设计方向的有效工具，用户画像是真实平台账户的虚拟代表，通过将平台账户的每个具体信息抽象成标签，利用这些标签将平台账户形象具体化，从而为平台账户提供有针对性的服务；

4)聚类：聚类是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程；由聚类所生成的是一组数据对象的集合，这些对象与同一个聚类中的对象彼此相似，与其他聚类中的对象相异；常用的聚类方法有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等，常用的聚类算法有K均值聚类算法、均值偏移聚类算法、DBSCAN聚类算法、使用高斯混合模型的期望最大化聚类算法、层次聚类算法等；

5)DBSCAN聚类算法(Density-Based Spatial Clustering of Applicationswith Noise，基于密度的噪声应用空间聚类)：是一种基于密度的聚类算法，该算法将聚类定义为密度相连的点的最大集合，能够把足够高密度的区域划分为聚类，并可在噪声的空间数据库中发现任意形状的聚类。

实施例1

本发明实施例提供一种动态更新视频标签的方法，如图1所示，包括：

步骤S101，接收平台账户上传的待标注视频数据，并从所述平台账户之前上传的视频数据中，获取标签视频数据集合外的缓冲视频数据，所述标签视频数据集合包括至少一个标注视频标签的标签视频数据；

在接收到平台账户新上传的待标注视频数据时，确定该平台账户是否已标注视频标签及对应的标签视频数据集合，其中，在标注视频标签时，会标注对应的所有的标签视频数据，标签视频数据集合中视频数据是标签视频数据的代表。

作为一种可选的实施方式，所述标签视频数据集合可以是平台账户已标注视频标签的所有标签视频数据。

作为另一种可选的实施方式，所述标签视频数据集合中可以是部分标签视频数据，具体可以是从标注视频标签的所有标签视频数据中，按照标签视频数据的上传时间与当前时间的间隔从小到大的顺序选取的预设数量个标签视频数据。

上述缓冲视频数据为从所述平台账户之前上传的视频数据中，标签视频数据集合外的视频数据，可能全部为非标签视频数据，也可能部分为标签视频数据，部分为非标签视频数据。

作为一种可选的实施方式，可以将所述平台账户之前上传的视频数据中，标签视频数据集合外的所有视频数据作为缓冲视频数据。

作为另一种可选的实施方式，可以先确定所述平台账户之前上传的视频数据中，标签视频数据集合外的所有视频数据，从确定的所有视频数据中，获取部分视频数据为缓冲视频数据。实施中，可以根据平台账户之前上传视频数据的时间与当前时间的间隔，按照间隔从小到大的顺序，从确定的所有视频数据中，获取标签数据集合外预设数量个缓冲视频数据。

需要说明的是，本实施例上述的平台账户之前上传的视频数据，可以为平台账户之前上传的所有视频数据，也可以是平台账户之前预设时间内上传的视频数据。

本实施例中是根据平台账户之前上传的视频数据确定平台账户的视频标签的，由此可知，获取到的平台账户的视频数据的上传时间与当前时间越接近，确定的视频标签就越准确。因此，本实施例中根据上传时间获取平台账户最近上传的视频数据，能够得到更准确的视频数据，从而确定更准确的视频标签。

步骤S102，采用分类算法对所述待标注视频数据及缓冲视频数据进行分类，根据分类结果确定触发视频标签更新时，确定各分类相对标签视频数据集合的变化率；

本实施例中的分类算法采用聚类算法。实施中，首先对所述待标注视频数据及缓冲视频数据分别进行特征数据提取，将提取的特征数据作为样本集，采用密度聚类方法对所述提取的特征数据进行聚类。

作为一种可选的实施方式，将上述待标注视频数据和缓冲视频数据输入到已训练的特征数据提取模型中，得到待标注视频数据及缓冲视频数据对应的特征数据。

聚类结束后，得到将待标注视频数据及缓冲视频数据对应的特征数据聚为不同分类的结果，根据分类结果确定上述待标注视频数据所在的分类中的视频数据数量，即该分类中特征数据对应的视频数据的数量。

上述特征数据提取模型可以采用现有模型，也可以采用对现有模型进行训练得到的模型，例如可以采用Image Net数据集上训练出来的模型，本实施例中不做具体限定。上述聚类方法可以采用现有的密度聚类方法，优选为DBSCAN聚类算法，这里不再详述。

本实施例中采用特征数据提取模型提取待标注视频数据及缓冲视频数据的特征数据，能够获取到最能表征待标注视频数据及缓冲视频数据的特征的数据，以便于对待标注视频数据及缓冲视频数据重新进行分类。通过采用聚类方法对待标注视频数据及缓冲视频数据对应的特征数据进行聚类，能够实现根据待标注视频数据及缓冲视频数据的类型对平台账户的待标注视频数据及缓冲视频数据进行准确的分类，从而在后续步骤根据该分类结果确定是否更新平台账户的视频标签。

通过上述方法进行聚类后，根据得到的各分类中视频数据的数量与视频数据总数量的比例，确定是否触发视频标签更新，所述各分类中视频数据为待标注视频数据及缓冲视频数据中的至少一种，所述视频数据总数量为待标注视频数据和缓冲视频数据的总数量。

根据得到的各分类中视频数据的数量与视频数据总数量的比例，确定触发视频标签更新时，确定各分类相对标签视频数据集合的变化率。

样本集中样本总数为待标注视频数据对应的特征数据和缓冲视频数据对应的特征数据的总数量。待标注视频数据所在的分类中视频数据数量与视频数据总数量的比例越大，说明待标注视频数据对应的同标签类型的视频数据越多，则待标注视频数据对应的标签取代已标注视频数据对应的视频标签的可能性越大，因此本实施例将该比例作为是否触发视频标签更新的参数。

作为一种可选的实施方式，可以设定相应的比例阈值，如果得到的比例超过该设定阈值，则触发视频标签更新，否则不触发视频标签更新，或者，可以在确定所述视频数据数量超过设定值时，确定触发视频标签更新。

作为另一种可选的实施方式，本实施例中将上述待标注视频数据所在的分类中的视频数据数量与视频数据总数量的比例作为触发视频标签更新的概率，按照所述概率触发视频标签更新，即上述比例值越大，代表触发视频标签更新的概率越大，上述比例值越小，代表触发视频标签更新的概率越小。

具体地，采用如下方式实现按照所述概率触发视频标签更新：得到所述待标注视频数据所在的分类中的视频数据数量与视频数据总数量的比例后，随机产生不大于1的正数值，可以是0到1之间的一随机数，将所述随机产生的正数值与上述比例进行比较，确定正数值不大于该比例时，确定触发视频标签更新，否则确定不触发视频标签更新。

当然，还可以对上述方案作出变型，如可以在确定所述待标注视频数据所在的分类中的视频数据数量超过设定值时，确定触发视频标签更新。

平台账户每次上传的待标注视频数据可以是任意类型的，其中某些待标注视频数据可能是不关键的、不具代表性的视频数据，这些视频数据不适合用来确定平台账户的视频标签，因此没有必要每接收一个视频数据就触发视频标签更新，本实施中上述按照概率触发视频标签更新的方法使待标注视频数据按照一定的概率触发视频标签更新，当随着时间的推移，平台账户新上传的同一类型的视频数据的数量不断积累，由不稳定状态变成稳定状态后，待标注视频数据触发视频标签更新的概率也不断往上叠加，从而能够触发视频标签更新。因此，本实施例提供的上述方法保证了随着时间的推移，在平台账户上传的同一类型的待标注视频数据数量较少时，不会触发视频标签更新，因此不会改变平台账户的视频标签，在平台账户上传的同一类型的待标注视频数据的数量累积到一定程度，需要更改平台账户的视频标签时，又能够及时触发视频标签更新，从而实现平台账户的视频标签的自动更新。

通过上述步骤确定触发视频标签更新时，将上述待标注视频数据标注为缓冲视频数据，并删除缓冲视频数据中与当前时间的间隔最大的缓冲视频数据。在上述步骤确定触发视频标签更新时，所述缓冲视频数据用来更新所述标签视频数据，因此缓冲视频数据也需要根据接收的待标注视频数据进行更新。缓冲视频数据更新时，将待标注视频数据标记为缓冲视频数据的同时删除集合中与当前时间的间隔最大的一个缓冲视频数据，保证了当前的缓冲视频数据是用于更新标签视频数据的最新的视频数据，从而在触发视频标签更新时能够得到最新最准确的视频标签。

实施中，可以根据分类的结果，确定所有分类中各个分类相对于标签视频数据集合的变化率，也可确定部分分类中各个分类相对于标签视频数据集合的变化率。在确定变化率时，将选取的各分类中视频数据与标签视频数据集合中的标签视频数据进行对比，确定各分类相对于标签视频数据集合的变化率。变化率代表各分类中视频数据相对标签视频数据集合的变化程度，将各分类中视频数据与标签视频数据进行对比，确定各分类中与标签视频数据集合不同标签的视频数据的数量。在进行对比时，可以将分类中的每个视频数据依次与标签视频数据集合中的标签视频数据进行对比，确定两个视频数据的特征确定是否属于同一视频标签，若不是，则将分类中参与对比的视频数据计入不同的视频数据中，若对比的两个视频数据属于同一视频标签，则不将分类中参与对比的视频数据计入不同的视频数据中。对比结束后，将确定的不同的视频数据的数量与标签视频数据总数量的比例，确定为各分类相对于标签视频数据集合的变化率。在标签视频数据集合中仅包括标注视频标签的部分标签视频数据时，按照与当前时间的间隔从小到大的顺序选取预设数量个缓冲视频数据时，得到的缓冲视频数据可能包括与标签视频集合属于同一标签的视频数据，因此，通过上述对比的方法可以去除此类视频数据，可以保证在这种情况下也能准确进行标签视频数据的更新，避免了由于数据重复造成的不必要的更新。

作为一种可选的实施方式，根据各分类中的视频数据数量选取至少一个分类时，可以选取分类中视频数据数量最大的一个分类，并确定该分类相对于标签视频数据集合的变化率，根据该变化率确定是否更新标签视频数据。

作为另一种可选的实施方式，根据各分类中的视频数据数量选取至少一个分类时，可以选取分类中视频数据数量最大的多个分类，根据多个分类确定的变化率确定是否更新标签视频数据。具体实施时，按照分类中视频数据数量从多到少的顺序选取N个分类，并确定各分类相对标签视频数据集合的变化率，所述N为大于1的正整数。

上述通过密度聚类方法对数据进行聚类，聚类后得到的每个分类都对应一种类型的数据，其中，分类中视频数据数量最多的一个或多个分类是最有可能使平台账户的视频标签发生变化的，因此可以用来更新标签视频数据。上述选取分类的方法保证了能够选取到最佳的用来更新标签视频数据的分类，利用该分类中的视频数据更新标签视频数据，从而进一步更新平台账户的视频标签。

将选取的各分类中视频数据与标签视频数据进行对比，确定各分类相对于标签视频数据的变化率时，按照分类中各视频数据到对应的分类中心的距离从小到大的顺序，选取M个视频数据，M为预设的大于1的正整数。去除M个视频数据中，与标签视频数据集合属于同一视频标签的视频数据，即，去除与标签视频数据重复的视频数据，得到新的集合；将所述新的集合中视频数据数量除以标签视频数据集合中标签视频数据的数量，得到该分类相对于标签视频数据集合的变化率。选取各分类中距离分类中心最近的M个视频数据时，对所述分类中视频数据对应的特征数据取平均值得到分类中心；确定分类中各视频数据对应的特征数据到所述分类中心的余弦距离，按照所述余弦距离从小到大的顺序，从所述分类中选取M个视频数据。其中，M为预设的正整数。

余弦距离即余弦相似度，是用向量空间中两个向量夹角的余弦值来衡量两个数据间差异的大小，余弦距离越小，数据间的差异越小，相似度越高。本实施例上述分类中，分类中心代表该分类对应的类型或标签，距离分类中心的距离越近，越能代表该分类的类型或标签。因此，本实施例中上述选取视频数据的方法能够得到最具代表性的用来更新标签视频数据的数据，在进行视频标签更新时能够得到更准确的更新结果。并且，平台账户上传的视频数据类型是不稳定的，在选取分类更新标签视频数据时，可能存在某一个分类的视频数据数量最大但是得到的变化率相对较低的情况，因此本实施例中在选取分类时，可以按照分类中视频数据数量从多到少的顺序选取多个分类，确定其中变化率最高的分类用来更新标签视频数据，保证了不会漏掉需要更新视频标签的情况。

步骤S103，确定变化率大于设定阈值的分类对应的新视频标签，利用所述新视频标签更新标注的视频标签，利用该分类中的视频数据更新标签视频数据。

上述步骤根据各分类中的视频数据数量选取分类的过程中，在选取分类中视频数据数量最大的一个分类时，若确定的该分类相对于标签视频数据集合的变化率大于设定阈值，则根据所述分类中的视频数据确定对应的新视频标签，或者确定该分类对应的标签为新视频标签，利用所述新视频标签更新标注的视频标签，从该分类中选取M个视频数据更新标签视频数据，得到新的标签视频数据集合。

上述步骤根据各分类中的视频数据数量选取分类的过程中，若按照分类中视频数据数量从多到少的顺序选取N个分类，则筛选出所述N个分类中变化率大于设定阈值的分类；根据筛选出的分类中变化率最大的分类中的视频数据，确定对应的新视频标签；利用所述新视频标签更新标注的视频标签，从所述变化率最大的分类中选取M个视频数据更新标签视频数据，得到新的标签视频数据集合。

通过上述方法，在平台账户上传待标注视频数据，并确定进行视频标签更新时，利用确定的新视频标签更新已标注的视频标签，利用选取的视频数据更新标签视频数据，能够得到最新的视频标签及对应的标签视频数据。本实施例中在平台账户每次上传待标注视频数据时都确定并进行视频标签更新，因此，能够及时感知并更新平台账户的视频标签。

本实施例上述获取缓冲视频数据时，若平台账户之前上传的视频数据中，不存在标签视频数据集合，则首先确定该平台账户的视频标签及对应的标签视频数据集合，再执行上述的各步骤进行视频标签更新。

作为一种可选的实施方式，发送标注提示信息，并接收反馈的视频标签及对应标签视频数据集合。具体实施时，通过用户界面发送对该平台账户进行标签标注的提示信息，并接收反馈的标签信息，根据该标签信息确定平台账户的视频标签及对应的标签视频数据集合。

作为另一种可选的实施方式，若平台账户之前上传的视频数据中，不存在标签视频数据集合，且视频数据的数量超过设定数量时，对所述上传的视频数据进行分类，根据分类结果进行视频标签标注及确定对应的标签视频数据集合。具体的，以上传的视频数据的特征数据为样本集进行聚类得到不同分类，根据分类结果进行视频标签标注及确定对应的标签视频数据。具体可以从视频数据数量最多的分类中选取视频数据，根据选取的视频数据确定对应的视频标签及标签视频数据集合，或者，根据分类结果中视频数据数量最多的分类对应的标签确定视频标签，将该分类中视频数据作为标签视频数据，标签视频数据具有相同的标签。

若平台账户之前上传的视频数据中，存在标签视频数据集合，则采用上述步骤的方法，从之前上传的视频数据中，获取除该视频数据集合外的视频数据作为缓冲视频数据。

本实施例中在平台账户未标注视频标签及对应的标签视频数据时，首先对平台账户的视频标签及对应的标签视频数据进行标注，然后采用上述方法获取缓冲视频数据。因此也能够对未标注标签的平台账户的视频标签进行更新。

本实施例提供的方法可应用于对各种类型数据的视频标签进行更新，例如视频数据、图片数据等。

通过上述实施例提供的动态更新视频标签的方法，利用分类方法对平台账户上传的待标注视频数据和之前上传的缓冲视频数据进行分类，从而对缓冲视频数据进行更新，在缓冲视频数据中某一分类相对标签视频数据的变化率达到一定值时，对标签视频数据进行更新，解决了现有确定视频标签的方法存在的对平台账户的代表性数据感知和更新不及时的问题。

实施例2

参照图2，为本发明实施例提供的一种动态更新视频标签的方法流程示意图，本实施例以短视频应用中的平台账户为例进行说明，平台账户上传的数据以视频数据为例进行说明，该方法包括：

步骤S201，接收平台账户上传的待标注视频数据，并从平台账户之前上传的视频数据中，获取标签视频数据集合N和除标签视频数据集合N外的缓冲数据集合M；

其中，上述标签视频数据集合N包括标注视频标签的标签视频数据中的有代表性的视频数据。

假设某一平台账户已标注视频标签及对应标签视频数据集合时，在对该账户上传的视频数据进行管理时，预设三个视频数据管理集合，分别为视频数据集合K，缓冲视频数据集合M和标签视频数据集合N。视频数据集合K中包括该平台账户之前上传的视频数据，具体可以为该平台账户之前上传的所有视频数据，也可以是平台账户之前预设时间内上传的视频数据，该集合中的视频数据按照上传时间进行管理。缓冲视频数据集合M包括平台账户之前上传的视频数据中除标签视频数据集合N外的视频数据，用来管理平台账户的代表性数据与上传数据中间的缓冲数据。标签视频数据集合N即标签视频数据集，包括平台账户之前上传的视频数据中的代表性视频数据即部分标签视频数据，标签视频数据集合N中的视频数据用于确定该平台账户对应的视频标签，同时这个集合中的视频数据具有同一个标签，为根据代表性视频数据确定的视频标签。

上述缓冲视频数据集合M和标签视频数据集合N中的数据可以是同各国平台账户标注的方式确定，也可以通过上述实施例中的分类算法得到。本实施例中假设初始时缓冲数据集合M和代表性数据集合N中的视频数据为预设好的视频数据。

在收到平台账户上传的新视频数据即待标注视频数据时，从平台账户之前上传的视频数据中获取缓冲数据集合M及其中的非标签视频数据，并获取代表性数据集合N及其中的代表性数据。

步骤S202，利用已训练的特征数据提取模型提取待标注视频数据和缓冲视频数据集合M中的非代表性视频数据的特征数据；

利用上述的特征数据提取模型对平台账户新上传的新视频数据进行特征提取，得到待标注视频数据的特征数据，同时对缓冲视频数据集合M中的非代表性视频数据进行特征提取得到非代表性视频数据的特征数据，本实施例中，假设缓冲视频数据集合M中视频数据的数量为M，M为正整数。

步骤S203，采用分类算法对待标注视频数据的特征数据和缓冲视频数据的特征数据进行分类；

本实施例中采用的分类算法为聚类方法，具体的，以待标注视频数据的特征数据和缓冲视频数据的特征数据共M+1个特征数据为样本集进行密度聚类，例如DBSCAN聚类，得到若干个分类及每个分类中的视频数据个数，每个视频数据都可以形成(P，num_P)的标记对，其中，P为该视频数据所在分类的分类标记或分类类型，num_P为该分类中视频数据对应的特征数据的数量。

步骤S204，确定触发缓冲视频数据集合更新的概率，并根据该概率将待标注视频数据加入缓冲数据集合M；

根据上述分类结果确定待标注视频数据所在的分类中视频数据数量num，根据如下公式确定触发代表性数据集合N更新的概率p：

p＝num/(M+1)

将待标注视频数据按照该概率p加入到缓冲视频数据集合M中，并替换缓冲视频数据集合M中与当前时间的间隔最大的一个视频数据，具体实施时，可以随机产生0-1之间的一个随机数，在该随机数不大于概率p时，将待标注视频数据加入缓冲视频数据集合M中，并替换缓冲视频数据集合M中与当前时间的间隔最远的一个视频数据，得到更新后的缓冲视频数据集合M；否则，不将待标注视频数据加入缓冲视频数据集合M中，缓冲视频数据集合M中视频数据不更新。例如，分类后待标注视频数据所在的分类有10个视频数据，缓冲视频数据集合M中有100个视频数据即M＝100，计算得到概率p＝10/101，因此，待标注视频数据有10/101的概率进入缓冲视频数据集合M，有91/101的概率不进入缓冲视频数据集合M，即待标注视频数据是否加入缓冲视频数据集合M为随机事件。具体实施时，可以随机产生0-1之间的一个随机数，例如产生的随机数为5/100时，5/100小于概率p，则将待标注视频数据加入缓冲视频数据集合M中，并替换缓冲视频数据集合M中与当前时间的间隔最远的一个视频数据，得到更新的缓冲视频数据集合M。

步骤S205，确定待标注视频数据是否加入缓冲视频数据集合M，若是，执行步骤S206，否则执行步骤S201；

确定待标注视频数据加入缓冲视频数据集合M时，确定对缓冲视频数据集合M进行更新，执行步骤S206，否则，确定不对缓冲视频数据集合M进行更新，不执行后续步骤，等待接收平台账户再次上传的待标注数据，执行步骤S201。

步骤S206，选取分类结果中视频数据数量最大的一个分类，从该分类中选取距离分类中心最近的N个视频数据组成新的集合；

选取分类结果中视频数据数量最大的一个分类，根据如下公式计算该分类中视频数据对应的特征数据的平均数据：

其中，avg_feature为平均特征数据，k为该分类中视频数据对应的特征数据的数量，k为大于1的正整数，feature_i为该分类中第i个视频数据对应的特征数据，i为不大于k的正整数。

将计算得到的平均特征数据确定为分类中心，计算每个特征数据与该分类中心的余弦距离，将计算得到的余弦距离按照从小到大的顺序选择N个特征数据，将N个特征数据对应的视频数据组成新的集合N_new。

步骤S207，确定新的集合相对标注视频数据集合N的数据变化率；

根据如下公式确定新的集合N_new相对标注视频数据集合N的数据变化率ratio：

其中，N1为上述的新的集合N_new中出现的与标签视频数据集合属于同一视频标签的视频数据的集合，n为标签视频数据集合N中的视频数据数量，#(N_new-N)为取新的集合N_new与集合N1的差集中的视频数据数量的运算。

步骤S208，确定数据变化率ratio是否大于设定阈值，若是，执行步骤S209，否则执行步骤S201；

确定数据变化率ratio大于设定阈值时，确定对代表性数据进行更新，执行步骤S209，否则，确定不对代表性数据进行更新，不执行后续步骤，等待接收平台账户再次上传的新数据，执行步骤S201。

步骤S209，利用新的集合中的视频数据更新标签视频数据集合N，并根据更新的标签视频数据集合N确定更新的视频标签；

将新的集合N_new中的视频数据作为新的标签视频数据更新标签视频数据集合N，并根据新的标签视频数据确定更新后的视频标签。

上述步骤S206中仅选取了分类结果中视频数据数量最大的一个分类，具体实施时还可以选取分类结果中视频数据数量最大的多个分类，根据选取的各分类中视频数据对应的特征数据确定各分类对应的新的集合N_new，并计算各分类对应的新的集合N_new相对于标签视频数据集合N的数据变化率，选取其中大于设定阈值的变化率中，最大的变化率对应的新的集合N_new来更新标签视频数据集合N。

本实施例中提供的上述代表性数据更新的方法，在每一次平台账户上传新视频数据时进行上述的各步骤，确定是否对代表性数据集合进行更新，能够及时感知平台账户的代表性数据，并在平台账户的代表性数据发生相对剧烈的变化时及时更新平台账户的代表性数据，以及时确定平台账户的标签，解决了现有确定短视频标签的方法存在的对平台账户的代表性视频数据感知和更新不及时的问题。

实施例3

以上对本发明中一种动态更新视频标签的方法进行说明，以下对执行上述动态更新视频标签方法的装置进行说明。

请参阅图3，本发明实施例提供一种动态更新视频标签的装置，包括：

数据获取模块301，用于接收平台账户上传的待标注视频数据，并从所述平台账户之前上传的视频数据中，获取标签视频数据集合外的缓冲视频数据，所述标签视频数据集合包括至少一个标注视频标签的标签视频数据；

分类模块302，用于采用分类算法对所述待标注视频数据及缓冲视频数据进行分类，根据分类结果确定触发视频标签更新时，确定各分类相对标签视频数据集合的变化率；

更新模块303，用于确定变化率大于设定阈值的分类对应的新视频标签，利用所述新视频标签更新标注的视频标签，利用该分类中的视频数据更新标签视频数据。

可选地，所述数据获取模块具体用于：

将所述待标注视频数据标注为缓冲视频数据；

筛选出所述N个分类中变化率大于设定阈值的分类；

上面从模块化功能实体的角度对本申请实施例中的动态更新视频标签的装置进行了描述，下面从硬件处理的角度对本申请实施例中的动态更新视频标签的电子设备进行描述。

请参阅图4，本申请实施例中动态更新视频标签的电子设备的另一个实施例包括：

处理器401、存储器402、收发器409以及总线系统411；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

图4是本发明实施例提供的一种动态更新视频标签的电子设备结构示意图，该电子设备400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(英文全称：central processing units，英文简称：CPU)401(例如，一个或一个以上处理器)和存储器402，一个或一个以上存储应用程序404或数据406的存储介质403(例如一个或一个以上海量存储设备)。其中，存储器402和存储介质403可以是短暂存储或持久存储。存储在存储介质403的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对信息处理装置中的一系列指令操作。更进一步地，处理器401可以设置为与存储介质403通信，在电子设备400上执行存储介质403中的一系列指令操作。

电子设备400还可以包括一个或一个以上电源410，一个或一个以上有线或无线网络接口407，一个或一个以上输入输出接口408，和/或，一个或一个以上操作系统405，例如Windows Server，Mac OS X，Unix，Linux，FreeBSD等。

可选地，所述处理器具体用于：

可选地，所述处理器确定触发视频标签更新时，具体用于：

将所述待标注视频数据标注为缓冲视频数据；

筛选出所述N个分类中变化率大于设定阈值的分类；

本发明实施例还提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述实施例提供的动态更新视频标签的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

以上对本申请所提供的技术方案进行了详细介绍，本申请中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种动态更新视频标签的方法，其特征在于，包括：

采用分类算法对所述待标注视频数据及缓冲视频数据进行分类，根据分类结果确定触发视频标签更新时，确定各分类相对标签视频数据集合的变化率；确定变化率大于设定阈值的分类对应的新视频标签，利用所述新视频标签更新标注的视频标签，利用该分类中的视频数据更新标签视频数据。

2.根据权利要求1所述的方法，其特征在于，所述采用分类算法对所述待标注视频数据及缓冲视频数据进行分类，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据分类结果确定触发视频标签更新，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据各分类中视频数据的数量与视频数据总数量的比例，确定是否触发视频标签更新，包括：

5.根据权利要求1所述的方法，其特征在于，从所述平台账户之前上传的视频数据中，获取标签视频数据集合外的缓冲视频数据，包括：

6.根据权利要求1所述的方法，其特征在于，确定触发视频标签更新时，还包括：

将所述待标注视频数据标注为缓冲视频数据；

7.根据权利要求1所述的方法，其特征在于，确定触发视频标签更新时，确定各分类相对标签视频数据集合的变化率，包括：

8.一种动态更新视频标签的装置，其特征在于，包括：

9.一种动态更新视频标签的电子设备，其特征在于，包括：存储器和处理器；

其中，所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器中的程序，实现如权利要求1～7任一所述方法的步骤。

10.一种计算机程序介质，其特征在于，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～7任一所述方法的步骤。