CN110851621A

CN110851621A - 基于知识图谱预测视频精彩级别的方法、装置及存储介质

Info

Publication number: CN110851621A
Application number: CN201911055049.6A
Authority: CN
Inventors: 杨小汕; 亓帆; 徐常胜; 高孟平; 王巨宏
Original assignee: Institute of Automation of Chinese Academy of Science; Tencent Cyber Tianjin Co Ltd
Current assignee: Institute of Automation of Chinese Academy of Science; Tencent Cyber Tianjin Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-02-28
Anticipated expiration: 2039-10-31
Also published as: CN110851621B

Abstract

本申请实施例涉及视频中精彩片段检测场景，提供一种基于知识图谱预测视频精彩级别的方法、装置及存储介质，方法包括：识别各视频分片中存在的多个语义概念以及获取各语义概念的概率分布特征；根据预设的先验概念和多个语义概念，确定各语义概念对应先验情感的情感特征，以及各语义概念和先验情感之间的关联关系；根据各语义概念和先验情感之间的关联关系得到图结构；根据各语义概念的概率分布特征、情感特征、词向量，得到图特征；根据所述图结构和所述图特征预测各视频分片对应的精彩级别。本方案能够提高检测精彩视频分片的准确率和效率，以及适用多种场景的视频。

Description

基于知识图谱预测视频精彩级别的方法、装置及存储介质

技术领域

本申请实施例涉及视频检测技术领域，尤其涉及一种基于知识图谱预测视频精彩级别的方法、装置及存储介质。

背景技术

在检测视频中精彩片段的任务中，一般基于视频特征，视频特征通常为视频中视频分片本身的空间特征，而在分析视频分片本身的空间特征时，是基于卷积神经网络从视频分片中提取深度卷积特征，然后对提取的各视频分片的深度卷积特征进行排序约束。

在对现有技术的研究和实践过程中，本申请实施例的发明人发现，现有机制仅在基于排序约束检测精彩片段时，仅考虑视频分片的空间特征，并不会考虑视频的高级语义特征，且检测视频分片本身的空间特征时，需要基于视频分片中体现出的人的主观情感的信息，例如基于视频中的弹幕信息。但是，对于没有弹幕或者弹幕数量较少的视频而言，这种基于视频分片本身的空间特征去分析视频中的精彩片段时，准确率较低且存在一定的技术局限性，甚至无法检测出视频中的精彩片段。

发明内容

本申请实施例提供了一种基于知识图谱预测视频精彩级别的方法、装置及存储介质，能够提高检测精彩视频分片的准确率和效率，以及适用多种场景的视频。

第一方面中，本申请实施例提供一种基于知识图谱预测视频精彩级别的方法，所述方法包括：

从待处理的多个视频分片中，识别各视频分片中存在的多个语义概念以及获取各语义概念的概率分布特征；

根据预设的先验概念和所述多个语义概念，确定各语义概念对应先验情感的情感特征，以及各语义概念和先验情感之间的关联关系；其中，每个先验概念对应至少一种先验情感；

根据各语义概念和先验情感之间的关联关系得到图结构；

根据各语义概念的概率分布特征、以及各语义概念对应的情感特征，得到图特征，得到图特征；

根据所述图结构和所述图特征预测各视频分片对应的精彩级别。

一种可能的设计中，所述根据预设的先验概念和所述多个语义概念，确定各语义概念对应先验情感的情感特征，以及各语义概念和先验情感之间的关联关系，包括：

将所述先验概念和所述多个语义概念匹配，得到目标语义概念；

根据所述先验概念与所述目标语义概念的匹配度，确定所述目标语义概念对应先验情感的情感特征、所述目标语义概念与先验情感的关联关系、以及各目标语义概念之间的关联关系；所述情感特征包括对应先验情感的情感极性值以及多个维度的先验情感对应的情感名称。

一种可能的设计中，所述根据各语义概念和先验情感之间的关联关系得到图结构，包括：

分别将每个所述目标语义概念分别作为情感知识图谱中的一个概念图节点，以及将所述情感特征中对应先验情感的情感极性值概念以及每个维度的先验情感对应的情感名称分别作为情感知识图谱中的一个情感图节点；

将各概念图节点与情感图节点之间的概念关联权重设置为1，以及确定所述情感知识图谱中各概念图节点之间的关联关系；

根据各概念图节点与情感图节点之间的概念关联权重、以及各概念图节点之间的关联关系得到所述图结构。

一种可能的设计中，所述将所述先验概念和所述多个语义概念匹配，得到目标语义概念，包括：

将所述多个语义概念分别与多个预设的先验概念进行相似度匹配，得到多个候选语义概念，所述候选概念与所述先验概念的相似度高于预设相似度；

获取各候选语义概念在所述多个视频分片中出现的频次；

根据各候选语义概念在所述多个视频分片中出现的频次，从所述多个候选语义概念中选择所述目标语义概念，所述目标语义概念是指在所述多个视频分片中出现频次高于预设频次的语义概念。

一种可能的设计中，所述视频分片为第一类视频分片或者第二类视频分片；所述根据所述图结构和所述图特征得到各视频分片对应的精彩级别，包括：

将所述图结构和所述图特征输入卷积神经网络，得到第一卷积情感特征或第二卷积情感特征；所述第一卷积情感特征是指所述第一类视频分片对应的图卷积特征，所述第二卷积情感特征是指所述第二类视频分片对应的图卷积特征；

将所述第一卷积情感特征或所述第二卷积情感特征映射到所述情感空间，得到各视频分片对应的精彩级别；

按照精彩级别从大至小的顺序，输出各视频分片对应的精彩级别。

一种可能的设计中，所述根据所述图结构和所述图特征得到各视频分片对应的精彩级别之后，所述方法还包括：

按照精彩级别的大小和视频分片对应的先验情感类型，分别对各目标视频分片进行标记；所述标记用于指示视频分片的精彩级别和先验情感类型；所述目标视频分片是指精彩级别高于预设阈值的视频分片；

将各目标视频分片生成视频缩影。

一种可能的设计中，所述根据各视频分片对应的精彩级别和约束条件对所述多个视频分片进行排序之后，所述方法还包括：

根据所述多个视频分片、比较结果和所述多个视频分片的个数，计算所述第一类视频分片的精彩级别的准确率；所述比较结果是指在当前时刻的第一类视频分片的精彩级别高于在当前时刻的第二类视频分片的精彩级别的大小比较结果；

当所述准确率高于预设准确率时，确定当前时刻的第一类视频分片符合预设视频分片的条件；

对所述当前时刻的第一类视频分片设置特定标签，所述特定标签用于指示视频分片为预设情感类型的视频分片。

第二方面中，本申请实施例提供一种用于预测视频精彩级别的装置，具有实现对应于上述第一方面提供的基于知识图谱预测视频精彩级别的方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。

一种可能的设计中，所述装置包括：

检测模块，用于从待处理的多个视频分片中，识别各视频分片中存在的多个语义概念以及获取各语义概念的概率分布特征；

处理模块，用于根据预设的先验概念和所述多个语义概念，确定各语义概念对应先验情感的情感特征，以及各语义概念和先验情感之间的关联关系；其中，每个先验概念对应至少一种先验情感；根据各语义概念和先验情感之间的关联关系得到图结构；根据各语义概念的概率分布特征、以及各语义概念对应的情感特征，得到图特征；

所述处理模块还用于根据所述图结构和所述图特征预测各视频分片对应的精彩级别。

一种可能的设计中，所述处理模块具体用于：

获取各候选语义概念在所述多个视频分片中出现的频次；

一种可能的设计中，所述视频分片为第一类视频分片或者第二类视频分片；所述处理模块具体用于：

通过所述输出模块将所述图结构和所述图特征输入卷积神经网络，得到第一卷积情感特征或第二卷积情感特征；所述第一卷积情感特征是指所述第一类视频分片对应的图卷积特征，所述第二卷积情感特征是指所述第二类视频分片对应的图卷积特征；

通过所述输出模块将所述第一卷积情感特征或所述第二卷积情感特征映射到所述情感空间，得到各视频分片对应的精彩级别；

一种可能的设计中，所述处理模块在根据所述图结构和所述图特征得到各视频分片对应的精彩级别之后，还用于：

将各目标视频分片生成视频缩影。

一种可能的设计中，所述处理模块在根据各视频分片对应的精彩级别和约束条件对所述多个视频分片进行排序之后，还用于：

本申请实施例又一方面提供了一种用于预测视频精彩级别的装置，其包括至少一个连接的处理器、存储器和收发器，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述存储器中的计算机程序来执行上述第一方面所述的方法。

本申请实施例又一方面提供了一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

相较于现有机制，本申请实施例提供的方案中，根据预设的先验概念和多个语义概念确定各语义概念对应先验情感的情感特征，以及各语义概念和先验情感之间的关联关系；根据各语义概念和先验情感之间的关联关系得到图结构；根据各语义概念的概率分布特征、各语义概念对应的情感特征、以及各语义概念对应的词向量得到图特征；根据所述图结构和所述图特征预测各视频分片对应的精彩级别。由于图结构和图特征依据先验概念且考虑了各语义概念和先验情感之间的关联关系，以及各语义概念的概率分布特征，所以，即使视频是刚上线或者刚上线不久，视频的播放量或者评论量或者弹幕数较少，或者没有弹幕，采用本申请实施例的方案后，没有视频的精彩集锦或者弹幕，也依然能够基于先验概念和视频分片本身具备的语义概念，从这几类视频中识别出精彩视频分片，并且对这些精彩视频分片进行排序，能够预测用户观看到各视频分片时可能认为的精彩级别，因此，本方案能够准确的向用户推荐视频中存在的精彩视频分片，以及引导用户快速的观看视频，进而节省用户的观看时间。

附图说明

图1a为本申请实施例中评估视频分片的情感的一种检测框架示意图；

图1b为本申请实施例中先验知识图谱的一种示意图；

图1c为本申请实施例中图结构的一种示意图；

图1d为本申请实施例中评估视频分片的情感的一种检测框架示意图；

图2为本申请实施例中基于知识图谱预测视频精彩级别的方法的一种流程示意图；

图3为本申请实施例中现有方案与本方案计算精彩级别的准确率的对比示意图；

图4为本申请实施例中现有方案与本方案计算精彩级别的准确率的对比示意图；

图5是本申请实施例中分布式系统的一种结构示意图；

图6是本申请实施例中用于预测视频精彩级别的装置的一种结构示意图；

图7是本申请实施例中执行基于知识图谱预测视频精彩级别的方法的计算机设备的一种结构示意图；

图8是本申请实施例中执行基于知识图谱预测视频精彩级别的方法的服务器的结构示意图。

具体实施方式

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请实施例中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本申请实施例中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。

本申请实施例供了一种基于知识图谱预测视频精彩级别的方法、装置及存储介质，该方案可用于服务器侧或者终端设备侧，服务器侧可用于检测视频的精彩级别、生成视频缩影等操作。本申请实施例仅以服务器为例，服务器侧部署了用于预测视频精彩级别的装置，本申请实施例中用于预测视频精彩级别的装置可以是区块链系统中的节点。一些实施方式中，如图1a为本申请实施例用于预测视频精彩级别的一种检测框架示意图。图1a中所示的检测框架主要包括分类网络、图卷积网络、先验知识图谱这几个功能部分以下进行详细说明。

分类网络：用于对视频分片所属的类别进行分类检测，可采用googlenet 12988类的分类网络。

图卷积网络：是指基于卷积神经网络处理图结构数据的半监督学习算法。图卷积网络包括无向图，无向图包括多个图节点和多条边。图卷积网络包括卷积层和全连接网络，全连接网络用于将卷积层的输出映射到情感空间，以得到视频分片对应的精彩级别。

先验知识图谱：是指第三方情感知识库，先验知识图谱中包括多个预设的先验概念和情感特征，所述情感特征包括情感极性值以及多个先验情感的参数值(也可称为情感值)，可选的，情感特征可用情感分值体现。这些先验概念在语义、情感和极性上存在关联关系。先验知识图谱是指描述存在的各种语义概念及语义概念之间的关联关系,并以语义概念为节点，关联关系或者语义概念的属性为边所构成的一张的语义网络图。后续构建的情感知识图谱同理，不作赘述。一些实施方式中，先验知识图谱的一种示意图如图1b所示，对于与大海相关的视频(例如图1b中的海浪)而言，情感特征可以包括愉快 (Pleasantness),注意(Attention)，灵敏(Sensitivity)以及天赋(Aptitude) 这4个维度的先验情感的情感名称，其中，情感极性值的取值范围可以为[-1， +1]，其中，情感极性值为-1时，表示极度负向，情感极性值为+1时，则表示极度正向。对于与冲浪相关的视频同理，不作赘述。先验知识图谱可以是基于语义的匹配模型，具体不作限定。

例如，对于概念surfboard，surfboard对应的情感标签为：sadness，fear；surfboard对应的4个先验情感为:

pleasantness:-0.18，attention:0，sensitivity:-0.14，aptitude:-0.11；

surfboard对应的语义为:fly kite，walk dog，ride roller coaster，rake leave，jump up down；

surfboard对应的极性为：value：negative，intensity：-0.14。

本申请实施例中基于上述图1a所示的检测框架，主要提供以下技术方案：

将切分好的t个视频分片经过预训练好的分类网络,得到每帧对应的类别概率分布特征，选取t个视频对应的最常见的n个类别概念，用这n+5个概念来构建情感图谱，得到情感知识图谱以及图特征，将图特征和情感知识图谱的图结构(例如图1c所示的图特征)输入图卷积网络，最后将图卷积网络的输出经过全连接网络的映射到情感空间，得到精彩级别。

本申请的一些实施例中，还可以采用如图1d所示的检测框架检测视频分片的精彩级别，将如图1a所示的检测框架和基于深度学习特征的框架结合来预测精彩片段，将先验情感和视频本身的特征相互辅助结合，从而达到更好的预测结果。

参照图2，以下介绍本申请实施例所提供的一种基于知识图谱预测视频精彩级别的方法，本申请实施例包括：

201、从待处理的多个视频分片中，识别各视频分片中存在的多个语义概念以及获取各语义概念的概率分布特征。

其中，视频分片包括至少一个视频帧，也可将视频分片称为视频分片，本申请实施例不对此作限定。

语义概念是指具有同种特性的实体构成的集合，如国家、民族、书籍、电脑等。概念主要指集合、类别、对象类型、事物的种类，例如人物、地理等。语义概念也可称为语义类。

概率分布特征是指各语义概念在不同视频分片中出现的频次的分布状态。

一些实施方式中，所述从待处理的多个视频分片中，识别各视频分片中存在的多个语义概念，包括：

对所述多个视频分片进行分类，得到分类结果；

根据所述分类结果确定各视频分片对应的类别概率分布特征；

根据各视频分片对应的类别概率分布特征，从各视频分片中识别视频分片中存在的多个语义概念。

其中，可将所述多个视频分片输入分类神经网络中，例如输入googlenet 12988类的分类神经网络，即可得到视频帧属于各类别的概率，由于视频分片的视频帧中可能包括多种语义概念，而每个语义概念可能属于不同类别，例如一张视频帧中同时出现树、球员、狗、球和足球场等常见的类别的语义概念，那么可以分别计算出该视频分片属于风景、动物、赛场等类别的概率。可将概率最大的类别作为视频帧对应的类别。将各视频分片中各视频帧的类别的概率值形成概率分布特征。概率分布特征能够呈现各个视频帧所属类别的概率分布。

202、根据预设的先验概念和所述多个语义概念，确定各语义概念对应先验情感的情感特征，以及各语义概念和先验情感之间的关联关系。

其中，每个先验概念对应至少一种先验情感，先验情感用于表征先验概念的情感类别。本申请实施例中的先验情感能够反映视频分片中语义概念的情感色彩，即反映用户观看到该视频分片时可能出现的情感变化。

所述先验概念为先验知识图谱中的先验概念(也可称为自然语言概念)。先验情感则是先验概念反映出的情感，例如，对于先验概念为冲浪而言，冲浪对应的先验情感可包括兴奋、眩晕等。

其中，语义是指与输入先验知识图谱的概念在语义上最相关的概念，比如，与输入先验知识图谱的概念共享最多语义特征的5个概念)。

所述情感特征包括情感极性值以及多个先验情感的参数值。一些实施方式中，所述情感特征可用情感矩阵表示，例如，用H表示情感矩阵，H∈R^t×k，其中，R是实数集，t是待处理的视频分片的个数，k是指先验知识图谱中预设的先验情感个数。

一些实施方式中，所述根据预设的先验概念和所述多个语义概念，确定各语义概念对应先验情感的情感特征，以及各语义概念和先验情感之间的关联关系，包括：

(1)将所述先验概念和所述多个语义概念匹配，得到目标语义概念。

其中，所述先验概念为先验知识图谱中的先验概念。

一些实施方式中，所述将所述先验概念和所述多个语义概念匹配，得到目标语义概念，包括：

获取各候选语义概念在所述多个视频分片中出现的频次；

此外，在将所述多个语义概念分别与多个预设的先验概念进行相似度匹配(可以称为模糊匹配)时，若匹配得到的候选语义概念数量不足以构建情感知识图谱，则可以根据视频分片所反映出场景，从先验概念中选择一些候选语义概念中没有的先验概念，然后将这些先验概念补充到目标语义概念中；或者，将相似度较低的语义概念替换为语义相近的先验概念。

(2)根据所述先验概念与所述目标语义概念的匹配度，确定所述目标语义概念对应先验情感的情感特征、所述目标语义概念与先验情感的关联关系、以及各目标语义概念之间的关联关系。

203、根据各语义概念和先验情感之间的关联关系得到图结构。

其中，关联关系是指语义概念之间在语义上存在的相似关系，以及语义概念与先验情感在语义上存在的相似关系。例如，从视频分片中识别出语义概念有足球和守门员，根据足球和守门员之间的关联关系，可以推断出：当人们看到守门员在守门的时候，可能伴随着一个很漂亮的射门动作，人们看到射门动作的时候，一般心情较为激动，所以，可以推断出当视频分片中出现足球和守门员的时候，可能伴随着“射门”的动作。相应的，与足球和守门员对应的先验情感可能包括射门、漂亮等类别的情感。那么，即本申请实施例中的先验情感能够反映视频分片中语义概念的情感色彩，即反映用户观看到该视频分片时可能出现的情感变化，例如看到射门很激动。

图结构是指情感知识图谱的结构信息，图结构能够反映各个语义概念之间的关联关系，以及反映语义概念与先验情感之间的关联关系。

一些实施方式中，所述根据各语义概念和先验情感之间的关联关系得到图结构，包括：

例如，选取n个完全一致或者最相关的目标语义概念(即常见概念)，抽取n个目标语义概念对应的4个情感维度值和一个情感极值H(H∈R^t×l)。分别以n个目标语义概念、以及5种先验情感的情感名称为情感知识图谱中的一个图节点(即目标语义概念分别作为情感知识图谱中的一个概念图节点，情感极性值概念以及每个维度的先验情感对应的情感名称分别作为一个情感图节点)，这样情感知识图谱中共有n+5个图节点。然后将n个概念图节点与5 个情感图节点之间的概念关联权重设置为1，以加强概念图节点和情感图节点的关联。根据各概念图节点与情感图节点之间的概念关联权重、以及各概念图节点之间的关联关系(也可简称为这n+5个图节点之间的关联关系)构建一个邻接矩阵A，邻接矩阵A储存了情感知识图谱的结构信息，可将邻接矩阵A称为所述图结构，

204、根据各语义概念的概率分布特征、以及各语义概念对应的情感特征，得到图特征。

一些实施方式中，在得到图特征时还可以引入各语义概念对应的词向量，即根据各语义概念的概率分布特征、各语义概念对应的情感特征、以及各语义概念对应的词向量，得到所述图特征。例如，对n+5个概念进行embedded 向量化处理，得到n+5个目标语义概念的词嵌入向量，将n+5个目标语义概念的词嵌入向量用X表示，X∈R^(n+5)*d，那么，图特征其中，

为矩阵乘法，[P，H]为矩阵P和矩阵H二者相联，R是实数，d是词嵌入向量的维度(例如d＝300/d＝500)，P是各语义概念对应的概率分布特征，H是情感特征，X是词嵌向量。

205、根据所述图结构和所述图特征预测各视频分片对应的精彩级别。

其中，精彩级别是指视频中可能引起用户观看时产生兴趣的视频分片(例如称为精彩视频分片或用户兴趣分片)的精彩级别，本申请实施例不对视频中包含引起用户兴趣的视频个数作限定。精彩级别可称为精彩程度。例如，精彩级别可以是用户观看到包含足球射门的视频分片时，对观看的用户产生的一种视觉冲击程度，例如认为非常帅或者非常精彩。本申请实施例不对此作限定。

根据多个视频分片对应的视频的精彩级别即可从中确定能够引起用户兴趣的视频分片。

一些实施方式中，视频分片的精彩级别可通过神经网络实现。例如，将所述图结构和所述图特征输入神经网络，并在神经网络中将所述图结构和所述图特征映射到情感空间，得到各视频分片对应的精彩级别。

一些实施方式中，所述视频分片为第一类视频分片或者第二类视频分片；所述根据所述图结构和所述图特征预测各视频分片对应的精彩级别，包括：

一些实施方式中，根据所述图结构和所述图特征得到各视频分片对应的精彩级别之后，所述方法还包括：

将各目标视频分片生成视频缩影。

可见，通过去检测用户在观看视频时对视频中不同物体的情感变化，在海量长视频中筛选出最值得观看的部分，能够节约用户时间。例如在时间较长的足球比赛中，用户普遍对射门，铲球，头球等视频分片的情绪波动较大，故这些片段可以通过将这些包括射门，铲球，头球的视频分片形成视频缩影 (也可称为精彩视频集锦)，用户通过观看视频缩影即可大概了解视频的内容，一方面节省用户的观看时间，另一方面视频缩影也增加视频的吸引力。

与现有机制相比，本申请实施例中，根据预设的先验概念和多个语义概念确定各语义概念对应先验情感的情感特征，以及各语义概念和先验情感之间的关联关系；根据各语义概念和先验情感之间的关联关系得到图结构；根据各语义概念的概率分布特征、各语义概念对应的情感特征、以及各语义概念对应的词向量得到图特征；根据所述图结构和所述图特征预测各视频分片对应的精彩级别。由于图结构和图特征依据先验概念且考虑了各语义概念和先验情感之间的关联关系，以及各语义概念的概率分布特征，所以，即使视频是刚上线或者刚上线不久，视频的播放量或者评论量或者弹幕数较少，或者没有弹幕，采用本申请实施例的方案后，没有视频的精彩集锦或者弹幕，也依然能够基于先验概念和视频分片本身具备的语义概念，从这几类视频中识别出精彩视频分片，并且对这些精彩视频分片进行排序，能够准确的向用户推荐视频中存在的精彩视频分片，以及引导用户快速的观看视频，进而节省用户的观看时间。

此外，相较于现有机制中需要先将视频分片分解到视觉特征网络和光流特征网络中，计算各视频分片在视觉特征网络和光流特征网络中的精彩级别，然后融合各视频分片在视觉特征网络和光流特征网络中的精彩级别，最终才得到各视频分片的精彩级别。本申请实施例中，在得到图结构和图特征后就可以直接输入全连接网络，经过映射到情感空间，即可得到视频分片的精彩级别。一方面中，能够简化视频分片的精彩级别的计算过程。另一方面中，本申请实施例是基于图结构和图特征计算视频分片的精彩级别，所以最终得到的视频分片的精彩级别准确度更高，更能够真实的反映出视频分片的真实精彩程度。

可选的，在本申请实施例的一些实施例中，为了保证第一类视频分片的精彩级别高于所述第二类视频分片的精彩级别(即保证精彩视频分片的精彩级别高于非精彩视频分片)，在得到各视频分片对应的精彩级别之后，还可根据各视频分片对应的精彩级别和约束条件对所述多个视频分片进行约束排序，以使所述第一类视频分片的精彩级别高于所述第二类视频分片的精彩级别。

一些实施方式中，可采用下述约束方程实现约束排序：

其中，

为第一类视频分片的精彩级别，为第一类视频分片的精彩级别，

ε为0-1之间的可变参数，|Q|为一个训练集合的大小。θ为训练参数，λ为正则项参数。采用上述约束方程后，能够使得

由于本申请实施例的参与排序约束的精彩级别是基于视频的高级语义特征和先验知识图谱中的先验概念、先验情感得到的，从多个维度综合考虑视频的精彩级别的评估，所以在使用排序约束的时候，能够更全面、更准确的保证排序约束效果，使得视频分片的排序结果更合理。

一些实施方式中，为检验各视频分片的排序是否合理，对所述多个视频分片进行排序之后，还可以计算第一类视频分片的精彩级别的准确率，具体来说，包括以下步骤：

对所述当前时刻的第一类视频分片设置特定标签，所述特定标签用于指示视频分片为预设情感类型的视频分片。例如，特定标签为“爬山行动陷入困境”、“三人乔装入酒会”等，那么用户在播放该视频时，可以通过将鼠标移动至进度条中的特定标签查看特定标签指示的情感类型，这样用户就可以直接根据特定标签选择播放该特定标签对应的视频分片了。

为便于理解，下面以第一类视频分片(即精彩视频分片)集合的计算过程为例，对本申请实施例中的基于知识图谱预测视频精彩级别的方法进行说明。summe数据集包括t个精彩视频分片和t个非精彩视频分片，以t个精彩视频分片为例。将t个精彩视频分片输入预训练好的googlenet，得到t个精彩视频分片中每个视频帧对应的概率分布特征。可统计每个视频分片中最常见的5个语义概念，然后根据概率分布特征从t个精彩视频分片中选取最常见的 916个目标语义概念，分别将916个目标语义概念作为一个概念图节点，以及将5种先验情感的情感名称分别作为一个情感图节点，共921个图节点。分别将每个概念图节点与各情感图节点之间的概念关联权重设置为1。

基于先验知识图谱抽取916个概念图节点之间的关联关系，根据916概念图节点之间的关联关系，以及每个概念图节点与各情感图节点之间的概念关联权重构建一个邻接矩阵A，

将A看作情感知识图谱的图结构。

将这921个图节点(即916个目标语义概念和5个情感名称)输入skip-gram 网络进行向量化处理，得到词嵌入向量，将921个图节点的词嵌入向量表示为

将图特征和图结构(即A)输入卷积神经网络，得到卷积特征(即卷积情感特征)，将卷积特征输入全连接网络，得到t个精彩视频分片对应的精彩分值

本申请实施例中，图卷积网络可设置为两层，全连接网络设定为3层(例如F256-F128-F1)。summe视频中的t个非精彩视频分片对应的精彩分值可参考t个精彩视频分片对应的精彩分值

的计算过程，不作赘述。

例如，以YouTube视频和summe视频为例，采用本申请实施例中的技术方案计算出

和

后，采用下述判断公式计算

的准确率：

同时也采用上述判断公式计算采用A方案和B方案计算

的准确率，结果对比可参考图2和图4。其中，A方案是提取视频小片段的空间特征分值和光流特征分值，后期融合两种分值后通过一个深度排序模型来学习精彩片段和非精彩片段之间的关系，综合每个片段得到的精彩程度分数来得到精彩视频内容，最后生成视频缩影呈现给用户。B方案是使用多目标跟踪算法对每一帧的候选运动目标跟踪，使用卷积神经网络训练目标分类器以确认真实运动目标，使用分类器对目标类别进行判定；将所有真实运动目标和相关信息贴合在少量图像上，形成视频快照显示给用户。

图3为针对同一份YouTube视频采用本方案、A方案和B方案计算的准确率的对比结果，图4为针对同一份summe视频采用本方案、A方案和B方案计算

的准确率的对比结果。

从图3可看出，本方案在体育、跑酷、溜冰、滑雪、冲浪、飞盘这些类型的视频上，计算出的和的准确率更高，进而能够提高精彩分片的检测概率。

从图4可看出，本方案在空中压力、汽车与铁路交轨、煮饭和解救大象这些类型的视频上，计算出的

和的准确率更高，进而能够提高精彩分片的检测概率。

可见，本申请实施例在在某些类别的视频情感检测中引入先验知识图谱作为辅助后，能够有效提高精彩分片的检测效率、检测概率和准确率。

本申请实施例中，上述图结构、图特征、各视频分片对应的精彩级别均可保存在区块链中。其中，区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

本申请实施例中执行基于知识图谱预测视频精彩级别的方法的用于预测视频精彩级别的装置(也可称作服务器)可以是区块链系统中的节点。本申请实施例中的用于预测视频精彩级别的装置可以是如图5所示的一种区块链系统中的节点。

图1a至图4中任一项所对应的实施例中所提及的任一技术特征也同样适用于本申请实施例中的图6至图8所对应的实施例，后续类似之处不再赘述。

以上对本申请实施例中一种基于知识图谱预测视频精彩级别的方法进行说明，以下对执行上述基于知识图谱预测视频精彩级别的方法的装置、计算机设备和服务器进行介绍。

上面对本申请实施例中的一种基于知识图谱预测视频精彩级别的方法进行了描述，下面对本申请实施例中的用于预测视频精彩级别的装置进行描述。

参阅图6，如图6所示的一种用于预测视频精彩级别的装置的结构示意图，其可应用于视频检测领域，具体用于检测视频的精彩级别、生成视频缩影等操作。本申请实施例中的用于预测视频精彩级别的装置能够实现对应于上述图1a所对应的实施例中所执行的基于知识图谱预测视频精彩级别的方法的步骤。用于预测视频精彩级别的装置实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。所述用于预测视频精彩级别的装置可包括处理模块601、检测模块602和输入输出模块603，所述处理模块601、所述检测模块602和所述输入输出模块603的功能实现可参考图1a所对应的实施例中所执行的操作，此处不作赘述。例如，所述处理模块可用于控制所述输入输出模块的输出精彩级别的操作，以及控制所述检测模块的检测语义概念、获取概率分布特征等操作。

一些实施方式中，所述检测模块602用于从待处理的多个视频分片中，识别各视频分片中存在的多个语义概念以及获取各语义概念的概率分布特征；

所述处理模块601用于根据预设的先验概念和所述多个语义概念，确定各语义概念对应先验情感的情感特征，以及各语义概念和先验情感之间的关联关系；其中，每个先验概念对应至少一种先验情感；根据各语义概念和先验情感之间的关联关系得到图结构；根据各语义概念的概率分布特征、以及各语义概念对应的情感特征，得到图特征；

所述处理模块601还用于根据所述图结构和所述图特征预测各视频分片对应的精彩级别；

一些实施方式中，所述输入输出模块603可用于输出所述处理模块601 预测得到的各视频分片对应的视频的精彩级别。

本申请实施例中，处理模块601根据预设的先验概念和多个语义概念确定各语义概念对应先验情感的情感特征，以及各语义概念和先验情感之间的关联关系；根据各语义概念和先验情感之间的关联关系得到图结构；根据各语义概念的概率分布特征、各语义概念对应的情感特征、以及各语义概念对应的词向量得到图特征；根据所述图结构和所述图特征预测各视频分片对应的精彩级别。由于图结构和图特征依据先验概念且考虑了各语义概念和先验情感之间的关联关系，以及各语义概念的概率分布特征，所以，即使视频是刚上线或者刚上线不久，视频的播放量或者评论量或者弹幕数较少，或者没有弹幕，采用本申请实施例的方案后，没有视频的精彩集锦或者弹幕，也依然能够基于先验概念和视频分片本身具备的语义概念，从这几类视频中识别出精彩视频分片，并且对这些精彩视频分片进行排序，能够准确的向用户推荐视频中存在的精彩视频分片，以及引导用户快速的观看视频，进而节省用户的观看时间。

一些实施方式中，所述处理模块601具体用于：

根据所述先验概念与所述目标语义概念的匹配度，确定所述目标语义概念对应先验情感的情感特征、所述目标语义概念与先验情感的关联关系、以及各目标语义概念之间的关联关系；所述情感特征包括情感极性值以及多个先验情感对应的情感名称。

一些实施方式中，所述处理模块601具体用于：

获取各候选语义概念在所述多个视频分片中出现的频次；

一些实施方式中，所述视频分片为第一类视频分片或者第二类视频分片；所述处理模块601具体用于：

通过所述输入输出模块603将所述图结构和所述图特征输入卷积神经网络，得到第一卷积情感特征或第二卷积情感特征；所述第一卷积情感特征是指所述第一类视频分片对应的图卷积特征，所述第二卷积情感特征是指所述第二类视频分片对应的图卷积特征；

通过所述输入输出模块603将所述第一卷积情感特征或所述第二卷积情感特征映射到所述情感空间，得到各视频分片对应的精彩级别；

一些实施方式中，所述处理模块601在根据所述图结构和所述图特征得到各视频分片对应的精彩级别之后，还用于：

将各目标视频分片生成视频缩影。

一些实施方式中，所述处理模块601在根据各视频分片对应的精彩级别和约束条件对所述多个视频分片进行排序之后，还用于：

上面从模块化功能实体的角度对本申请实施例中的用于预测视频精彩级别的装置进行了描述，下面从硬件处理的角度分别对本申请实施例中的执行基于知识图谱预测视频精彩级别的方法的服务器进行描述。需要说明的是，在本申请实施例图6所示的实施例中的输入输出模块603对应的实体设备可以为输入/输出单元、收发器、射频电路、通信模块和输出接口等，检测模块 602和处理模块601对应的实体设备可以为处理器。图6所示的装置60可以具有如图7所示的结构，当图6所示的装置60具有如图7所示的结构时，图 8中的处理器和输入输出单元能够实现前述对应该装置的装置实施例提供的处理模块601、检测模块602和输入输出模块603相同或相似的功能，图7中的存储器存储处理器执行上述基于知识图谱预测视频精彩级别的方法时需要调用的计算机程序。

图8是本申请实施例提供的一种服务器结构示意图，该服务器820可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(英文全称：centralprocessing units，英文简称：CPU)822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质 830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在服务器 820上执行存储介质830中的一系列指令操作。

服务器820还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，和/或，一个或一个以上操作系统841，例如Windows Server，Mac OS X，Unix,Linux，FreeBSD等等。

上述实施例中由服务器所执行的步骤可以基于该图8所示的服务器820的结构。例如，例如上述实施例中由图8所示的装置60所执行的步骤可以基于该图8所示的服务器结构。例如，所述处理器822通过调用存储器832中的指令，执行以下操作：

根据预设的先验概念和所述多个语义概念，确定各语义概念对应先验情感的情感特征，以及各语义概念和先验情感之间的关联关系；其中，每个先验概念对应至少一种先验情感；根据各语义概念和先验情感之间的关联关系得到图结构；根据各语义概念的概率分布特征、以及各语义概念对应的情感特征，得到图特征；

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等) 方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

以上对本申请实施例所提供的技术方案进行了详细介绍，本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请实施例的限制。

Claims

1.一种基于知识图谱预测视频精彩级别的方法，其特征在于，所述方法包括：

根据各语义概念和先验情感之间的关联关系得到图结构；

根据各语义概念的概率分布特征、以及各语义概念对应的情感特征，得到图特征；

2.根据权利要求1所述的方法，其特征在于，所述根据预设的先验概念和所述多个语义概念，确定各语义概念对应先验情感的情感特征，以及各语义概念和先验情感之间的关联关系，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据各语义概念和先验情感之间的关联关系得到图结构，包括：

4.根据权利要求2所述的方法，其特征在于，所述将所述先验概念和所述多个语义概念匹配，得到目标语义概念，包括：

获取各候选语义概念在所述多个视频分片中出现的频次；

5.根据权利要求1所述的方法，其特征在于，所述视频分片为第一类视频分片或者第二类视频分片；所述根据所述图结构和所述图特征得到各视频分片对应的精彩级别，包括：

6.根据权利要求1或2所述的方法，其特征在于，所述根据所述图结构和所述图特征得到各视频分片对应的精彩级别之后，所述方法还包括：

将各目标视频分片生成视频缩影。

7.根据权利要求5所述的方法，其特征在于，所述识别各视频分片中存在的多个语义概念以及获取各语义概念的概率分布特征之前，所述方法还包括：

根据各视频分片对应的精彩级别对所述多个视频分片进行分类，得到第一类视频分片和第二类视频分片，所述第一类视频分片是指精彩级别高于预设阈值的视频分片，所述第二类视频分片是指精彩级别低于所述预设阈值的视频分片；

所述得到各视频分片对应的精彩级别之后，所述方法还包括：

根据各视频分片对应的精彩级别和约束条件对所述多个视频分片进行约束排序，以使所述第一类视频分片的精彩级别高于所述第二类视频分片的精彩级别。

8.根据权利要求5或7所述的方法，其特征在于，所述根据各视频分片对应的精彩级别和约束条件对所述多个视频分片进行排序之后，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述从待处理的多个视频分片中，识别各视频分片中存在的多个语义概念，包括：

对所述多个视频分片进行分类，得到分类结果；

10.根据权利要求1所述的方法，其特征在于，所述各视频分片对应的精彩级别保存在区块链节点上。

11.一种用于预测视频精彩级别的装置，其特征在于，所述装置包括：

12.一种计算机设备，其特征在于，所述计算机设备包括：

至少一个处理器、存储器和收发器；

其中，所述存储器用于存储计算机程序，所述处理器用于调用所述存储器中存储的计算机程序来执行如权利要求1-10中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，其包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-10中任一项所述的方法。