CN110795598A

CN110795598A - 基于vca视频标签分析的智能栏目生成方法

Info

Publication number: CN110795598A
Application number: CN201911036098.5A
Authority: CN
Inventors: 杨云龙; 向宇; 李飞
Original assignee: Qingdao Poly Cloud Technology Co Ltd
Current assignee: Qingdao Poly Cloud Technology Co Ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2020-02-14

Abstract

本申请公开了一种基于VCA视频标签分析的智能栏目生成方法，所述方法包括：利用视频内容分析VCA对媒资视频进行标签分析，获得媒资视频的标签信息；对获得的全部标签信息进行梳理和审核，更新媒资视频的标签信息；根据更新后的标签信息生成媒资视频对应的智能栏目。本申请提供的智能栏目生成方法利用VCA技术对媒资视频进行标签分析，再利用标签信息生成智能栏目，实现了从VCA视频标签分析、栏目生成到最后运营上线全流程自动化，有效减少了人工干预的时间成本，且有效减少了栏目之间视频的重复度，生成个性化的栏目，有效提升了用户的实际体验。

Description

基于VCA视频标签分析的智能栏目生成方法

技术领域

本申请涉及视频技术领域，尤其涉及一种基于VCA视频标签分析的智能栏目生成方法。

背景技术

随着互联网技术的不断发展，网络视频日益丰富，用户观看视频不再局限于电视，还可以通过互联网搜索感兴趣的视频观看，不再受限电视的播放时限。除此以外，互联网视频还可以根据视频内容生成视频栏目，方便用户观看视频栏目中感兴趣的视频，方便用户选择。

当需要从大量视频中找到期望的视频或视频片段时，视频或视频片段的标签识别技术就越发重要。而且，视频片段的标签对于提升视频片段的推荐分发效果、自动精准广告投放、建立视频片段的内容检索能力、生成特定内容的视频集锦等方法，都具有重要作用。

但是，目前视频标签匮乏，尤其是短视频类视频基本没有标签，甚至是标签不准确等问题，造成用户搜索视频或视频片段时，无法找到期望的视频，或者找到错误的视频，影响用户的实际体验。

发明内容

本申请提供了一种基于VCA视频标签分析的智能栏目生成方法，以解决目前视频标签匮乏，用户较难搜索到期望的视频，影响用户实际体验的问题。

为了解决上述技术问题，本申请实施例公开了如下技术方案：

本申请实施例公开了一种基于VCA视频标签分析的智能栏目生成方法，所述方法包括：

利用视频内容分析VCA对媒资视频进行标签分析，获得所述媒资视频的标签信息；

对获得的全部标签信息进行梳理和审核，更新所述媒资视频的标签信息；

根据更新后的标签信息生成媒资视频对应的智能栏目。

与现有技术相比，本申请的有益效果为：

本申请提供的基于VCA视频标签分析的智能栏目生成方法包括：利用视频内容分析VCA对媒资视频进行标签分析，获得媒资视频的标签信息，如媒资视频的场景、人物、地点、实体等关键词的标签信息；对获得的全部标签信息进行梳理和审核，更新媒资视频的标签信息，去除部分相似或相近的标签，对媒资视频进行筛选；根据更新后的标签信息生成媒资视频对应的智能栏目，即利用更新后的标签信息生成个性化的栏目，提高栏目推荐效果，实现从VCA视频标签分析、栏目生成到最后运营上线全流程自动化，能有效减少人工干预的时间成本并提供高质量的栏目，有效提升用户的实际体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于VCA视频标签分析的智能栏目生成方法的流程图；

图2本申请实施例提供的基于VCA视频标签分析的智能栏目生成方法中S100的详细流程图；

图3为示例性的VCA调度系统结构图；

图4本申请实施例提供的基于VCA视频标签分析的智能栏目生成方法中S200的详细流程图；

图5本申请实施例提供的基于VCA视频标签分析的智能栏目生成方法中S300的详细流程图；

图6本申请实施例提供的基于VCA视频标签分析的智能栏目生成方法中S300的另一详细流程图；

图7为示例性的Kmeans算法完成聚类的流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

为了生成智能栏目，用于聚好看视频智能栏目池，本申请实施例提供了一种基于VCA视频标签分析的智能栏目生成方法。

如图1所示，本申请实施例提供的基于VCA视频标签分析的智能栏目生成方法包括：

S100：利用视频内容分析VCA对媒资视频进行标签分析，获得媒资视频的标签信息。

首先根据VCA调度系统，将媒资的视频按照指定格式导入到数据库中，用于VCA技术进形标签识别。如图2、图3所示，利用VCA对媒资视频进行标签分析的具体方法为：

S101：获取当前可以录屏的媒资信息，根据媒资信息对媒资进行录屏。

S102：返回录屏成功的媒资对应的FTP地址。

S103：对FTP地址进行识别和分析，判断FTP地址对应的录屏媒资是否完成了VCA识别。

S104：若FTP地址对应的录屏媒资完成了VCA识别，则获取完成VCA识别的录屏媒资的标签信息。

通过媒资运营系统获取短视频媒资的ID，上传候选的媒资ID列表到调度系统中，VCA调度系统可根据媒资ID列表获取对应的短视频媒资，方便查找短视频媒资。VCA调度系统将允许录屏的媒资信息输出到相应的录屏设备，并对这些允许录屏的媒资进行录制，获得指定格式的视频，以避免短视频格式不同，影响VCA系统识别。

录屏设备录制完成后，将录制成功的媒资对应的FTP地址输入到调度系统中，VCA调度系统对这些FTP地址进行识别和分析，FTP地址是用于判断当前录屏的媒资是否已完成VCA识别，若FTP地址对应的录屏媒资完成了VCA识别，则直接获取FTP地址对应录屏媒资的标签信息，如媒资视频的场景、人物、地点、实体等关键词的标签信息。

S105：若FTP地址对应的录屏媒资未完成VCA识别，则根据FTP地址获取录屏媒资对应的URL地址。

S106：通过VCA识别系统的http接口对URL地址对应的录屏媒资进行视频分析，获得录屏媒资的关键词标签信息。

VCA调度系统对FTP地址进行识别和分析时，有些FTP地址可能无法识别，造成部分媒资未完成VCA识别，因此根据媒资是否完成VCA识别进行分类，并将未完成VCA识别的媒资的FTP地址输入给分布式存储存储系统。分布式存储系统上存储了媒资的URL地址，通过媒资的FTP地址，存储系统将返回对应的URL地址给VCA调度系统，并用于进一步调用VCA识别服务。即VCA系统从VCA调度系统中获取对应媒资的URL地址，调用VCA识别服务的http接口对这些媒资进行VCA视频分析，获得媒资的关键词标签信息。

通过URL地址调用VCA识别服务的接口对这些未完成VCA识别的媒资进行VCA分析，并将分析得到的结果写回到数据库。分布式存储系统上的数据进一步通过整合、处理，落盘到Hive仓库，用于下一步标签梳理和审核。

S200：对获得的全部标签信息进行梳理和审核，更新媒资视频的标签信息。

通过上述的VCA技术，可以对媒资视频进行标签的标注，这些标注的标签需进一步通过人工加机器的审核才能进行使用。审核的具体方法以机器审核为主，人工辅助审核相结合的方法进行，其具体审核方法如图4所述：

S201：统计获得VCA分析得到的全部标签信息。

通过机器统计的方式，统计出VCA分析获得的全部标签信息，首先将在所有媒资中出现次数占比超过80％以上的标签去除，主要原因在于这些标签出现次数较高，没有区分度，无法做到个性化推荐。其次，出现次数低于5次的标签也应该去除，主要是由于这些标签出现次数较少，即使生成了该标签对应的栏目，栏目内的媒资数据也很少，实际意义不大。

S202：计算全部标签信息的相似度。

采用余弦距离计算所有标签的相似度，余弦相似度算法：一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小，余弦值接近1，夹角趋于0，表明两个向量越相似；余弦值接近于0，夹角趋于90度，表明两个向量越不相似。余弦距离计算步骤为：将数据映射为高维空间中的点(向量)，计算向量间的余弦值，取值范围[-1，+1]，越趋近于1代表越相似，越趋近于-1代表方向相反，0代表正交。

计算标签信息的相似度时，需要提取标签信息的文本词特征，即将标签信息映射为词向量，而词向量一般包括一个词一列向量与一个词一个值，其中，一个词一列向量可采用Hash算法、word2vec获得，Hash算法把词打散成(01010101110)的数值，word2vec则打散同时定义成向量；而一个词一个值可采用bow算法+词权重、LDA主题-词语矩阵获得。

S203：将相似度高于预设值的标签信息进行合并。

采用余弦距离计算出所有标签的相似度后，将相似度高于预设值的标签信息进行合并。可选的，预设值可为0.95，即将相似度高于0.95的标签进行合并。

S204：将标签黑名单范围内的标签进行屏蔽。

标签审核还需要提供标签黑名单，例如有一些恐怖片是需要分级才能展示给特定用户，有一些违规的标签也必须进行屏蔽。通过使用网络常用屏蔽词词典、恐怖片常见标签等信息制定标签黑名单并提供给运营人员审核。人工审核主要是将机器筛选之后的标签列表提供给运营人员，运营人员进行分析、梳理，生成一份标签黑名单，过滤掉一些不合法、违规、以及没有实际意义的标签，同时将语义上相似或相近的标签进行合并。

S205：对合并和屏蔽后的标签信息进行更新，获得更新后的标签列表。

S206：根据更新后的标签列表对标签对应的媒资视频进行整合，得到更新后的媒资视频。

过滤掉一些不合法、违规、没有实际意义的标签，同时将语义上相似或相近的标签进行合并后，得到新的标签列表。人工审核完成之后，对更新后的标签列表对应的媒资视频进行进一步标注和整合，获得最终媒资视频。

同时，机器会每天计算和更新标签列表并和以前的列表进行对比，一旦出现新的标签则提供给运营人员进行审核，这样能减少运营人员单独审核标签的时间，极大提高运营效率。

S300：根据更新后的标签信息生成媒资视频对应的智能栏目。

通过标签梳理和审核之后的媒资将用于生成智能栏目，本申请实施例提出了两种不同的智能栏目生成方法，一种是基于标签和层次聚类的智能栏目，另一种是基于Kmeans聚类的方法生成智能栏目。

如图5所示，基于标签和层次聚类生成智能栏目的方法包括：

S301：根据标签信息，将具有同样标签信息的媒资视频放置在一起，形成初始栏目池。

根据媒资的标签信息，将具有同样标签信息的视频抽取并放置在一起，形成初始的栏目池，如果一个视频有多个标签，则它会出现在多个栏目内。

S302：计算初始栏目池中两两栏目间的重复度。

若初始的栏目池中两两栏目之间的重复度较高，需要进行层次聚类，减少栏目之间的重复度，合并相似的栏目。两个栏目的重复度采用如下公式进行计算：

其中，X和Y分别表示两个栏目内视频的数量，X∩Y表示两个栏目内相同的视频数量。

S303：判断两两栏目间的重复度是否超过第一预设阈值。

S304：若两两栏目间的重复度超过第一预设阈值，则将两个栏目进行合并。

S305：将标签数量少的栏目对应的标签作为合并后栏目的标签。

当初始栏目池中两两栏目间的重复度大于第一预设阈值时，将两个栏目进行合并，合并后的标签取两个栏目内数量少的栏目对应的标签。其主要原因在于，有的标签泛化性较强，例如剧情、言情这种标签，媒资库中很大一部分媒资都会有这个标签，体现不出媒资的特点。而相对数量较少的标签，例如武侠、枪战片等能更好的体现栏目内媒资的特点，因此选择粒度较为细致的标签作为合并后整个栏目的标签。

栏目生成后需要对栏目内的媒资进行排序并展示给用户，考虑到时效性、新颖度、流行性等特点对栏目内媒资进行排序，主要使用的排序特征有媒资的点击率、第三方评分、发行时间、豆瓣评分等，不同特征之间采用权重线性相加的操作作为最终得分，用于媒资排序。

由于栏目众多，需要选择用户感兴趣的栏目进行展示，因此在栏目排序完成后，推荐引擎会根据用户的画像信息(日志、浏览行为等)获取用户权重最大的5个标签进行匹配相应的栏目池，然后按照权重从大到小的顺序展示栏目。

基于Kmeans聚类的方法需要生成对应聚类对象的特征，然后根据这些特征将聚类对象划分到不同的簇中，确保每个簇中的对象拥有相近的特征，而不同簇中的对象差异较大。Kmeans方法属于硬聚类方法，即每一个对象只能划分到唯一的簇中，因此可以保证该方法生成的多个栏目之间不包含相同的媒资。如图6所示，基于Kmeans聚类的方法生成智能栏目的方法包括：

S311：生成每个词对应的向量。

机器学习方法需要将词在计算机中进行表示，即转换为计算机可以识别的数字，然后才能进行模型的学习和训练。本方法采用Google的word2vec方法将词转换为稠密、低维的向量表示，然后生成媒资的特征用于聚类。首先，采用爬虫爬取了时光网和豆瓣网的用户评论数据作为初始语料，然后将分词之后的数据输入到word2vec模型中进行训练，对每一个词获得相应的向量。

S312：抽取媒资视频的媒资特征，对媒资特征进行分词。

S313：将媒资特征的各个词分别与词对应的向量进行相乘，将媒资特征映射为特征向量。

本申请抽取如下特征用于Kmeans聚类：视频的标题、VCA识别得到的标签信息、第三方同步的媒资标签信息、是否付费、是否支持4k、是否是3d影片、豆瓣评分等特征。以视频的标题为例，视频的标题需要进行分词，分词之后计算每个词的tf*idf值作为权重并和对应词的词向量相乘获得加权之后的词向量。所有词向量取平均之后，作为最终的视频标题特征用于聚类(未查找到词向量的将使用全0的向量作为默认值处理)。同理，标签信息也需要映射为词向量；是否付费这种特征则映射为0、1的数字，0表示免费，1表示付费。最终所有的特征向量将首尾拼接为一个高维的特征向量用于Kmeans聚类。

S314：对特征向量进行Kmeans聚类。

Kmeans聚类会根据样本之间的相似性，将样本划分到不同的类别，一般常用的相似度计算方法为欧式距离法。详细的Kmeans算法的流程如下所示：

1)指定需要划分的簇的个数k值和最大的迭代次数n。

2)随机地选择k个出书数据对象点作为初始的聚类中心。

3)计算其余的各个数据对象到这k个初始聚类中心的距离，吧数据划归到距离它最近的那个聚类中心所在的簇类中。

4)取每次簇中对象的均值作为新的聚类中心。

5)判断是否达到收敛(聚类中心不再发生变化)，或者达到最大迭代次数。如果未收敛，则重复3)、4)步重新划归数据和计算聚类中心；如果达到收敛、或是达到最大迭代次数，则结束算法。

6)输出最终聚类结果。

如图7所示，为Kmeans算法完成聚类的流程示意图，其中k的取值为2。

S315：根据Kmeans聚类的结果生成相应的栏目。

得到Kmeans聚类的结果后，判断各簇内是否存在特征向量低于第二预设阈值的簇，若存在特征向量低于第二预设阈值的簇，则滤除该簇，更新簇的数量，然后根据更新后的簇生成对应的栏目。本申请将过滤掉簇类数量低于第二预设阈值的栏目，保证栏目内媒资的丰富程度。

根据Kmenans聚类结果生成相应的栏目后，采用基于标签和层次聚类的智能栏目的步骤3的方法对栏目内的媒资进行排序，即对栏目内的媒资进行排序并展示给用户，考虑到时效性、新颖度、流行性等特点对栏目内媒资进行排序，主要使用的排序特征有媒资的点击率、第三方评分、发行时间、豆瓣评分，不同特征之间采用权重线性相加的操作作为最终得分用于媒资排序。

对生成的栏目内的媒资进行排序后，统计每一个栏目内的标签个数，选择top5的关键标签作为该栏目的关键词用于展示。

本申请实施例提供的基于VCA视频标签分析的智能栏目生成方法利用VCA技术，搭建了从媒资识别录屏到VCA标签分析全流程的VCA调度系统，针对媒资视频进行标签分析，获取媒资视频的场景、人物、地点、实体等关键词的标签信息，极大提高了工作效率和识别速度；然后通过机器审核和人工辅助审核得到的标签信息，节省了大量的人力成本；然后利用更新后的标签信息采用层次聚类和Kmeans聚类的方法自动生成栏目，节省了人工编排栏目的时间成本。本申请提供的基于VCA视频标签分析的智能栏目生成方法主要解决的技术问题有：1)针对媒资视频标签匮乏，尤其是短视频类媒资基本没有标签、标签不准确等问题，利用VCA技术进行标签分析，并及时审核新增标签，提高了高质量的视频标签；2)针对目前栏目池的栏目重复度高、个性化差异不明显的问题，采用层次聚类和Kmeans聚类的方法自动生成栏目有效减少了栏目之间视频的重复度，生成个性化的栏目，有效提升了用户的实际体验。本申请基于VCA技术的智能栏目生成方法，实现了从VCA视频标签分析、栏目生成到最后运营上线全流程自动化，有效减少了人工干预的时间成本，并提供了高质量的栏目。

需要说明的是，在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的电路结构、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种电路结构、物品或者设备所固有的要素。在没有更多限制的情况下，有语句“包括一个……”限定的要素，并不排除在包括所述要素的电路结构、物品或者设备中还存在另外的相同要素。

本领域技术人员在考虑说明书及实践这里发明的公开后，将容易想到本申请的其他实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求的内容指出。

以上所述的本申请实施方式并不构成对本申请保护范围的限定。

Claims

1.一种基于VCA视频标签分析的智能栏目生成方法，其特征在于，所述方法包括：

根据更新后的标签信息生成媒资视频对应的智能栏目。

2.根据权利要求1所述的方法，其特征在于，利用视频内容分析VCA对媒资视频进行标签分析，获得所述媒资视频的标签信息,包括：

获取当前可以录屏的媒资信息，根据所述媒资信息对媒资进行录屏；

返回录屏成功的媒资对应的FTP地址；

对所述FTP地址进行识别和分析，判断所述FTP地址对应的录屏媒资是否完成了VCA识别；

若所述FTP地址对应的录屏媒资完成了VCA识别，则获取完成VCA识别的录屏媒资的标签信息。

3.根据权利要求2所述的方法，其特征在于，利用视频内容分析VCA对媒资视频进行标签分析，获得所述媒资视频的标签信息,还包括：

若所述FTP地址对应的录屏媒资未完成VCA识别，则根据所述FTP地址获取所述录屏媒资对应的URL地址；

通过VCA识别系统的http接口对所述URL地址对应的录屏媒资进行视频分析，获得所述录屏媒资的关键词标签信息。

4.根据权利要求1所述的方法，其特征在于，对获得的全部标签信息进行梳理和审核，更新所述媒资视频的标签信息，包括：

统计获得VCA分析得到的全部标签信息；

计算全部标签信息的相似度；

将所述相似度高于预设值的标签信息进行合并；

将标签黑名单范围内的标签进行屏蔽；

对合并与屏蔽后的标签信息进行更新，获得更新后的标签列表；

根据更新后的标签列表对所述标签对应的媒资视频进行整合，得到更新后的媒资视频。

5.根据权利要求4所述的方法，其特征在于，对获得的全部标签信息进行梳理和审核，更新所述媒资视频的标签信息，还包括：

判断更新后的标签列表中是否出现新的标签信息；

若更新后的标签列表中出现新的标签信息，则将所述新的标签信息提供给运营人员进行审核。

6.根据权利要求1所述的方法，其特征在于，根据更新后的标签信息生成媒资视频对应的智能栏目，包括：

根据所述标签信息，将具有同样标签信息的媒资视频放置在一起，形成初始栏目池；

计算初始栏目池中两两栏目间的重复度；

判断两两栏目间的重复度是否超过第一预设阈值；

若两两栏目间的重复度超过第一预设阈值，则将两个栏目进行合并；

将标签数量少的栏目对应的标签作为合并后栏目的标签。

7.根据权利要求6所述的方法，其特征在于，根据更新后的标签信息生成媒资视频对应的智能栏目，还包括：

栏目生成后对所述栏目内的媒资视频进行排序；

根据用户的画像信息对所述栏目分配权重；

按照权重大小对所述栏目进行排序。

8.根据权利要求1所述的方法，其特征在于，根据更新后的标签信息生成媒资视频对应的智能栏目，包括：

生成每个词对应的向量；

抽取所述媒资视频的媒资特征，对所述媒资特征进行分词；

将所述媒资特征的各个词分别与词对应的向量进行相乘，将所述媒资特征映射为特征向量；

对所述特征向量进行Kmeans聚类；

根据所述Kmeans聚类的结果生成相应的栏目。

9.根据权利要求8所述的方法，其特征在于，对所述特征向量进行Kmeans聚类，包括：

设置划分簇的个数k值与最大迭代次数n；

随机选择k个特征向量对象点作为初始的聚类中心；

计算其余特征向量到k个聚类中心的距离，将所述特征向量划分到距离其最近的聚类中心所在的簇类中；

取每个簇中特征向量的均值作为新的聚类中心；

判断是否达到收敛，或是达到最大迭代次数；

若未达到收敛，或是达到最大迭代次数，则重新划归各簇内的特征向量，并计算新的聚类中心；

若达到收敛，或是达到最大迭代次数，则输出聚类结果。

10.根据权利要求9所述的方法，其特征在于，根据所述Kmeans聚类的结果生成相应的栏目，包括：

判断k个簇内是否存在特征向量低于第二预设阈值的簇；

若k个簇内存在特征向量低于第二预设阈值的簇，则滤除所述簇，更新簇的数量；

根据更新后的簇生成对应的栏目。