CN109871464B

CN109871464B - 一种基于ucl语义标引的视频推荐方法与装置

Info

Publication number: CN109871464B
Application number: CN201910042426.6A
Authority: CN
Inventors: 杨鹏; 张晓刚; 李幼平; 万兵
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2020-12-25
Anticipated expiration: 2039-01-17
Also published as: CN109871464A

Abstract

本发明公开了一种基于UCL语义标引的视频推荐方法与装置。首先，本发明基于SSD神经网络模型，过滤最后一层生成的无用提案框，并且拼接中间层生成的人脸特征，对视频进行目标检测与人脸识别，提高视频信息提取的速度与精度。接着，采用UCL国家标准对视频进行语义标引，并基于检测目标的重合度，对视频进行自动分段，实现视频的规范化、细粒度标引。最后，构建知识库存储UCL之间的关系，并基于知识库提出两阶段智能化个性化推荐策略，解决传统推荐冷启动、运算复杂等问题，提高推荐系统的性能。本发明既能提高视频信息抽取的速度和精度，又能灵活、准确地进行视频个性化推荐。

Description

一种基于UCL语义标引的视频推荐方法与装置

技术领域

本发明涉及一种基于UCL语义标引的视频推荐方法与装置，该方法利用神经网络对视频信息进行提取，基于UCL国家标准GB/T 35304-2017对视频语义信息进行标引和对用户进行个性化推荐，属于互联网技术领域。

背景技术

随着电子技术、计算机技术、互联网络技术等方面科学技术的不断发展与进步，人们越来越倾向于通过观看视频获取知识及放松娱乐。各大视频门户网站为增加视频点击量及商业收益，会在视频网站中投放广告信息，向用户进行视频个性化推荐，或者根据视频特定帧的内容，手动嵌入推荐信息超链接与用户进行交互等。但是，当前的视频网站推荐系统通常还存在以下问题：首先，视频网站推荐的相关视频过于单一，只针对整个视频内容进行推荐；其次，需要视频编辑者手动地将超链接加入到视频中，费时费力，并且一旦信息被嵌入视频，不易更改，时效性、灵活度较低；最后，视频网站推送的广告内容与视频相关性不大，难以激发视频观看者的点击兴趣。

在技术方面，目前国内外关于视频信息提取、视频标引以及智能化推荐的研究已经取得了丰富的成果，对本发明的研究工作具有借鉴意义，但将它们应用到实际场景中还存在一些需要解决的问题。首先，基于神经网络模型的图像目标识别及人脸识别算法，虽然能够得到较高的精度与速度，但如果在视频中没有考虑“上下文信息”，会导致时间资源浪费。另外，当前视频标引多为手动粗粒度的标引，并且标引的格式不够规范，会出现大量冗余信息或缺失必要的语义信息。其次，传统的推荐算法存在冷启动问题，当被推荐信息种类过多时，运算复杂，推荐精度低。利用XGboost等多分类模型虽然能同时分析多个种类特征，但由于输出类比固定，不适直接用于类别数量日益增多的推荐系统。

由国家标准《统一内容标签格式规范》(GB/T 35304-2017)所定义的统一内容标签UCL(Uniform Content Label)，是一种可对内容资源的丰富语义进行标引的内容元数据，它能够对传媒、互联网及相关行业中的内容进行规范化标引。UCL具有结构灵活、简洁高效等特点，可以按照具体应用需求进行自由扩展和裁剪。本发明对视频进行UCL语义标引，将UCL存储在知识库中，并采用两阶段推荐方法按照用户兴趣向用户推荐相关信息。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提出了一种基于UCL语义标引的视频推荐方法与装置，能够加快与提高视频信息提取速度与精度，实现视频的规范化、细粒度标引，同时能够解决传统推荐冷启动问题，提高视频推荐系统的性能。

技术方案：为实现上述发明目的，本发明所述的一种基于UCL语义标引的视频推荐方法，首先利用神经网络对视频进行信息提取，然后将这些信息进行UCL标引并存储在知识库中，最后分两个阶段实现灵活、精确地推荐。该方法主要包括四个步骤，具体如下：

(1)利用SSD神经网络模型对视频中的各帧图片进行物体类别识别，并从SSD神经网络模型中提取人脸特征送入卷积神经网络进一步确定人的身份信息；在进行物体类别识别时，利用同一场景的连续帧之间的目标候选框位置接近的特性，对SSD神经网络模型生成的提案框进行过滤；

(2)采用基于目标重合度的视频自动分段算法对视频进行自动分段，对每个视频段进行UCL语义标引；所标引的内容包括步骤(1)中提取的视频中目标信息、视频对应的文本信息、提取的视频的关键词及关键词对应的重要程度得分；其中目标信息包括目标数量、目标类别及目标位置框；

(3)利用知识库存储视频UCL和UCL之间的关系；所述知识库以实体库为基础，将视频UCL连接在实体库中的实体节点上，并基于UCL中的关键词与实体的匹配程度，计算UCL与实体之间的关联权重；

(4)两阶段视频推荐，包括：

第一阶段利用多分类模型粗粒度地估计待推荐的信息类别；所述多分类模型以用户特征和视频特征作为输入，将至少两个分类模型的单独预测概率进行加权融合以确定待推荐的信息类别；

第二阶段利用UCL知识库计算视频间的相关性并于粗粒度的信息类别推荐结果进行筛选，以精确定位待推荐的信息。

作为优选，所述SSD神经网络模型中设有省时模块，所述省时模块将SSD网络中特征提取层每一层中有目标的网格所对应的所有提案框去除，仅保留目标所对应的提案框；所述步骤(1)中包括：

(1-1)利用具有省时模块的SSD神经网络对视频进行物体类别识别；

(1-2)计算当前帧图片与上一帧图片中物体类别的重合度，若重合度小于设定的阈值则利用不具有省时模块的SSD神经网络对当前帧图片所有提案框再进行物体类别识别；

(1-3)在SSD神经网络模型中各个特征层提取出的人脸特征池化后，拼接在一起，再送入到另外的卷积神经网络，进行人脸特征提取；基于生成的特征向量与数据库中人脸特征向量之间的距离确定身份信息。

作为优选，所述步骤(1-2)中根据如下公式计算视频相邻两帧图片中物体类别的重合度：

其中，

A＝{a₁,a₂,a₃,…,a_n}为前一帧的识别的目标集合，D＝{d₁,d₂,d₃,…,d_n}为通过前一帧目标提案框生成的目标集合。

作为优选，所述步骤(2)中根据如下公式计算视频相邻两帧中的目标重合度：

其中，C＝{c₁,c₂,c₃,…,c_m}为本视频帧的目标信息集合，B＝{b₁,b₂,b₃,…,b_n}为上一帧图片所在的视频片段的目标信息集合，α为调和系数，||代表集合的元素个数；如果重合度大于设定的阈值，则将此帧列入上一视频片段中，否则以此帧为新的视频段的起始帧。

作为优选，所述步骤(2)中将提取的视频的每一帧信息存储在UCL中时，只记录第一帧出现的物体类别信息，后续帧只记录相对于上一帧的变换，当变换程度大于设定的阈值时，重新记录新的一帧信息。

作为优选，所述步骤(2)中根据如下方法确定视频的关键词及关键词对应的重要程度得分：首先根据视频段中目标出现次数的多少为目标赋予重要程度得分；然后提取视频对应文本信息中的关键词集合，利用关键词提取中的置信度为集合中每个目标赋予重要程度得分；最后从目标集合与关键词集合的并集中选取得分最高的若干个关键词作为此视频的关键词，如果存在相同项则作为一个关键词，并将重要得分累加。

作为优选，所述步骤(3)中利用知识库存储视频UCL和UCL之间的关系包括如下步骤：

(3-1)提取UCL中的关键词，在实体中找到相应的关键词，将UCL连接到知识库中，并根据关键词的总要程度得分，赋予边权重；

(3-2)利用如下公式计算UCL之间的相关性：

sim(UCLa,UCLb)＝∑_i∈Io_i×s_ib

其中，UCLa和UCLb表示两个不同的UCL，集合W＝{w₁,w₂,w₃,…,w_n}表示提取的UCLa中的关键词，o_i为关键词w_i在UCLa中的重要程度得分，I表示集合W中与UCLb相连的关键词的下标集合，s_ib表示关键词w_i与UCLb相连的权重。

作为优选，所述步骤(4)中第一阶段利用多分类模型粗粒度地估计待推荐的信息类别，具体包括：首先提取用户特征，包括用户的年龄、性别、观看视频的历史记录、点击视频的记录、推送信息的点击频率及具体类别，进行降维并归一化，得到用户特征向量；然后读取视频对应的UCL信息，获取关键词并进行词嵌入，然后进行降维，形成视频特征向量；将用户特征向量与视频特征向量拼接在一起，形成一个整体的特征向量；最后分别用XGboost模型与深度神经网络模型单独预测出属于第i个推荐类别的概率分别为xg_i和np_i，并根据如下公式确定第i个推荐类别的概率：

p_i＝α×xg_i+β×np_i

其中，α和β为自定义的权值。

作为优选，所述步骤(4)中第二阶段利用UCL知识库精确定位待推荐的信息，具体包括：首先提取UCLVideo中的关键词构成关键词集合，并在UCL知识库中找到每个关键词所对应的UCL集合，将这些集合取并集，得到与UCLVideo相关的UCL集合UCL_Video_SET；其中UCLVideo为用户正在观看的视频所对应的UCL；然后计算UCL_Video_SET中每一个UCLi与UCLVideo的相关性，并选出相关性最高的若干个UCL构成UCLCadidateSET；最后基于粗粒度信息类别推荐结果，筛选出UCLCadidateSET中与粗粒度推荐结果相匹配的UCL，生成最终UCLReecommendSET，并输出。

基于相同的发明构思，本发明所述的一种基于UCL语义标引的视频推荐装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的基于UCL语义标引的视频推荐方法。

有益效果：与现有技术相比，本发明具体如下优点：

1.本发明在对视频指定帧进行目标检测时考虑了与前面帧目标相近的特性，过滤SSD神经网络模型最后一层生成的无用提案框，并且拼接中间层生成的人脸特征，对视频进行目标检测与人脸识别，能够有效提高视频信息的提取速度与精度。

2.本发明基于UCL国家标准对视频进行语义标引，并且根据目标重合度对视频进行自动分段，实现视频的规范化、细粒度标引。

3.本发明利用知识库存储视频对应的UCL及它们之间的关系，籍此分两个阶段向用户推荐相关信息，可以缓解传统推荐方法的冷启动、运算复杂等问题，提高视频推荐系统的性能。

附图说明

图1为本发明实施例的方法流程图。

图2为本发明实施例涉及的视频中目标检测流程图。

图3为本发明实施例涉及的SSD网络模型结构图。

图4为本发明实施例涉及的SSD网络模型中feature map与boxes的示意图。

图5为本发明实施例涉及的对视频中一帧图片的信息标引流程图。

图6为本发明实施例涉及的计算待推荐类别的原理示意图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明实施例公开的一种基于UCL语义标引的视频推荐方法，具体实施步骤如下：

步骤1，视频信息提取。利用SSD神经网络模型对视频中的各帧图片进行物体类别识别，并从SSD神经网络模型中提取人脸特征送入卷积神经网络进一步确定人的身份信息。

SSD模型会在不同feature map层的每个网格中生成k个固定大小的boxes做预测。但是对于视频而言，同一场景的连续的帧之间的目标候选框相差甚微。如果能够借助上一层目标区域预测本帧图片，略去其它不必要的候选框，则会减少预测时间和增加预测精度。故如图2所示，本发明利用提案框过滤算法，过滤SSD神经网络模型生成的提案框，对视频中物体进行检测。同时为了加快人脸识别的速度，本发明共享目标检测与人脸识别的卷积层，对视频中人脸进行识别，具体实施过程分为3个子步骤：

子步骤1-1，在图3中所示的SSD网络结构图中，Extra feature layers中的每一层都会对应多个boxes，本发明构建“省时模块”，将每一层中有目标的网格所对应的所有boxes去除，仅保留目标所对应的box。如图4所示的c图，如果图片中仅粗线的box检测到了对象，本发明会去除图中虚线的boxes，保留加粗的box及其它网格中的boxes。然后利用保留的boxes进行目标检测，生成的目标集合为C＝{c₁,c₂,c₃,…,c_m}。

子步骤1-2，首先确定物体类别的重合度，假设前一帧的识别的目标集合为A＝{a₁,a₂,a₃,…,a_n}，对应feature map层的boxes所组成集合为B＝{b₁,b₂,b₃,…,b_n}。在本帧目标集合C中，选取出通过前一帧目标提案框B生成的目标，构成集合为D＝{d₁,d₂,d₃,…,d_n}。然后利用公式(1)计算物体类别重合比例为P，如果P小于阈值，则利用所有boxes再一次进行检测。

其中

子步骤1-3，在训练阶段，标注大量人脸的区域，利用上一节SSD的模型，实现人脸位置的确定。本发明提出基于人脸特征拼接的检测算法，将SSD模型各个中间层产生的人脸特征平均池化为一维的特征，并拼接这些特征，再送入到另外的卷积神经网络，进行人脸特征提取。最后利用生成的特征向量x，遍历数据库中的人脸特征向量集合Face＝{f₁,f₂,f₃,…,f_m}，利用公式(5)计算距离d，如果距离d小于一定阈值τ，则能够确定身份信息。其中

x＝(x⁽¹⁾,x⁽²⁾,x⁽³⁾,…,x⁽ⁿ⁾)^T (3)

f_i＝(f_i ⁽¹⁾,f_i ⁽²⁾,f_i ⁽³⁾,…,f_i ⁽ⁿ⁾)^T (4)

步骤2，视频规范化语义标引。首先采用基于目标重合度的视频自动分段算法对视频进行自动分段，然后利用UCL国家标准《统一内容标签格式规范》(GB/T35304-2017)对每个视频段进行UCL语义标引，具体实施过程分为3个子步骤：

子步骤2-1，一个视频片段中，出现的目标会有很高的重叠度。故本发明提出基于目标重合度的视频自动分段算法，此算法采用贪心策略，首先计算本视频帧的目标信息集合C＝{c₁,c₂,c₃,…,c_m}、上一帧图片所在的视频片段的目标信息集合B＝{b₁,b₂,b₃,…,b_n}，然后利用公式(6)计算集合C与集合B的重合度coin与设定的阈值关系。其中α为调和系数，|X|代表集合X的元素个数。如果重合度大于阈值，则认为此视频帧属于最近的视频片段，将此帧列入上一视频片段中。反之，如果重合度小于阈值，则证明此帧图片不属于上一视频段，并以此帧为新的视频段落的起始帧，同时上一视频段可以利用UCL进行标引。

子步骤2-2，获取该视频的摘要、标题、版权信息、视频发送者、发送时间等文本信息，规范地存储在UCL中。

子步骤2-3，将步骤1提取出的每一帧信息存储在UCL中。由于许多视频帧中的内容一致，如果对每一帧出现的物体都进行标识，一定会产生很多空间冗余。本发明设计一种机制，在指定场景中，只记录第一帧出现的物体类别信息，后续帧只记录相对上一帧的变换，当变化程度大于一定阈值时，重新记录新的一帧所有信息。某一帧图像在UCL中的格式如图5所示。

子步骤2-4，提取视频关键词及重要程度得分。本发明综合利用视频中出现目标信息及视频对应的文本信息，提取视频的关键词及计算关键词对应的重要程度得分，最终存储在UCL中。具体策略为：首先，计算此段出现次数最多的前n个(本文采用n、m、num等表示数量，具体数值可由根据各个步骤处理需要进行系统设定或是网络自动识别的数值结果)目标所组成的集合KeyWordsByPicture＝{p₁,p₂,p₃,…,p_n}，根据出现次数的多少为集合中每个目标赋予重要程度得分FinalByPicture＝{f₁,f₂,f₃,…,f_n}。其中f_i为目标p_i的重要程度得分o_i所构成的元组，即f_i＝(p_i,o_i)。然后，提取视频摘要、标题等其他文本信息中的关键词集合KeyWordsByText＝{t₁,t₂,t₃,…,t_m}，利用关键词提取中的置信度为集合中每个目标赋予重要程度得分FinalByText＝{f₁,f₂,f₃,…,f_m}。最后计算Final＝FinalByPicture∪FinalByText，选取Final中得分最高的num个关键词作为此视频的关键词，其中在计算Final时，如果视频关键词与文本一致，则作为一个关键词，并将重要得分累加。

步骤3，利用知识库，存储视频UCL和这些UCL之间的关系。本发明以实体库为基础，将视频UCL连接在实体库的实体节点上，并且基于UCL中关键词与实体的匹配程度，计算UCL与实体之间的关联权重。该过程的实施过程主要分为2个子步骤：

子步骤3-1，知识库以实体库为基础，UCL连接在知识库中的实体节点上。提取UCL中的关键词Words＝{w₁,w₂,w₃,…,w_n}，在实体中找到关键词w_i，将UCL连接到知识库中。并根据关键词的总要程度得分，赋予边权值。

子步骤3-2，可利用UCL知识库计算视频与其它信息的相关性。分析视频UCL(不失一般性，设为UCLa)与其他信息如新闻、广告所对应的UCL(不失一般性，设为UCLb)的相关性，具体步骤如下：首先，分析UCLa，提取UCLa中的关键词，构成集合W＝{w₁,w₂,w₃,…,w_n}以及关键词对应的重要程度得分O＝{o₁,o₂,o₃,…,o_n}，其中o_i为关键词w_i在UCLa中的重要程度得分。然后，遍历W，如果w_i与UCLb相连，则将i加入关键词下标集合I，获取其权重s_ib。利用公式(7)计算UCLa与UCLb的相关性。

sim(UCLa,UCLb)＝∑_i∈Io_i×s_ib (7)

步骤4，两阶段视频推荐。针对传统推荐系统中的不足，本发明提出两阶段智能推荐策略，实现灵活、精确地向用户推送信息。第一阶段利用多分类模型粗粒度地估计待推荐的信息类别，第二阶段利用UCL知识库精确定位待推荐信息。该过程实施过程分为2个子步骤：

步骤4-1，将用户特征和视频特征拼接在一起，分别利用XGboost和深度神经网络进行预测，最后得到粗粒度的信息类别结果，具体步骤如下：

1)提取用户特征，包括用户的年龄、性别、观看视频的历史记录、点击视频的记录、推送信息的点击频率及具体类别等，利用PCA降维并归一化，得到用户特征向量user＝(u⁽¹⁾,u⁽²⁾,u⁽³⁾,…,u^(m))^T。

2)读取视频对应的UCL信息，获取关键词并进行word embeddings，然后进行PCA降维，形成视频特征向量video＝(v⁽¹⁾,v⁽²⁾,v⁽³⁾,…,v⁽ⁿ⁾)^T。最后将用户特征向量与视频特征向量拼接在一起，形成一个整体的特征向量total＝(t⁽¹⁾,t⁽²⁾,t⁽³⁾,…,t^(m+n))^T

3)假设要推荐的备选信息有k类，分别用XGboost模型与深度神经网络模型单独预测出属于第i个推荐类别的概率分别为xg_i和np_i，则根据模型融合，第i个推荐类别的概率如公式(8)所示：

p_i＝α×xg_i+β×np_i (8)

其中α和β为自定义的权值。生成的推荐类别包括但不限于：励志电影、爱情电影、悬疑电影、明星出演电影、明星纪念品、明星代言商品、明星周边新闻、社会类新闻、时政类新闻、轻松类广告、暗黑系广告等。图6展示了类别预测的模型的细节。

子步骤4-2，为实现精确定位要推荐的信息，本发明利用UCL知识库首先提取用户正在观看的视频所对应的UCL(即UCLVideo)相关性很高的UCL，并将这些UCL组成推荐信息候选集UCLCadidateSET，最后利用粗粒度的信息类别进行筛选，生成要推荐的信息UCL集合UCLReecommendSET，具体步骤如下：

1)提取UCLVideo中的关键词，构成关键词集合W＝{w₁,w₂,w₃,…,w_n}。

2)在UCL知识库中找到每个关键词w_i所对应的UCL集合Word_i_UCLSET＝{UCLa,UCLb,UCLc,…,UCLx}。

3)将这些集合取并集，得到与UCLVideo相关的UCL集合UCL_Video_SET。

4)根据公式(7)计算UCL_Video_SET中每一个UCLi与UCLVideo的相关性sim(UCLVideo,UCLi)。

5)将UCL_Video_SET中与UCLVideo相关性最高的num个UCL构成UCLCadidateSET。

6)基于粗粒度信息类别推荐结果，筛选出UCLCadidateSET中与粗粒度推荐结果想匹配的UCL，生成最终UCLReecommendSET，并输出。

基于相同的发明构思，本发明另一实施例公开的一种基于UCL语义标引的视频推荐装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的基于UCL语义标引的视频推荐方法。

Claims

1.一种基于UCL语义标引的视频推荐方法，其特征在于，包括如下步骤：

(4)两阶段视频推荐，包括：

2.根据权利要求1所述的基于UCL语义标引的视频推荐方法，其特征在于，所述SSD神经网络模型中设有省时模块，所述省时模块将SSD网络中特征提取层每一层中有目标的网格所对应的所有提案框去除，仅保留目标所对应的提案框；所述步骤(1)中包括：

(1-3)将SSD神经网络模型中各个特征层提取出的人脸特征池化后，拼接在一起，再送入到另外的卷积神经网络，进行人脸特征提取；基于生成的特征向量与数据库中人脸特征向量之间的距离确定身份信息。

3.根据权利要求2所述的基于UCL语义标引的视频推荐方法，其特征在于，所述步骤(1-2)中根据如下公式计算视频相邻两帧图片中物体类别的重合度：

其中，

A＝{a₁，a₂，a₃，...，a_n}为前一帧的识别的目标集合，D＝{d₁，d₂，d₃，...，d_n}为通过前一帧目标提案框生成的目标集合。

4.根据权利要求1所述的基于UCL语义标引的视频推荐方法，其特征在于，所述步骤(2)中根据如下公式计算视频相邻两帧中的目标重合度：

其中，C＝{c₁，c₂，c₃，...，c_m}为本视频帧的目标信息集合，B＝{b₁，b₂，b₃，...，b_n}为上一帧图片所在的视频片段的目标信息集合，α为调和系数，| |代表集合的元素个数；如果重合度大于设定的阈值，则将此帧列入上一视频片段中，否则以此帧为新的视频段的起始帧。

5.根据权利要求1所述的基于UCL语义标引的视频推荐方法，其特征在于，所述步骤(2)中将提取的视频的每一帧信息存储在UCL中时，只记录第一帧出现的物体类别信息，后续帧只记录相对于上一帧的变换，当变换程度大于设定的阈值时，重新记录新的一帧信息。

6.根据权利要求1所述的基于UCL语义标引的视频推荐方法，其特征在于，所述步骤(2)中根据如下方法确定视频的关键词及关键词对应的重要程度得分：

首先，根据视频段中目标出现次数的多少为目标赋予重要程度得分；

然后，提取视频对应文本信息中的关键词集合，利用关键词提取中的置信度为集合中每个目标赋予重要程度得分；

最后，从目标集合与关键词集合的并集中选取得分最高的若干个关键词作为此视频的关键词，如果存在相同项则作为一个关键词，并将重要得分累加。

7.根据权利要求1所述的基于UCL语义标引的视频推荐方法，其特征在于，所述步骤(3)中利用知识库存储视频UCL和UCL之间的关系包括如下步骤：

(3-2)利用如下公式计算UCL之间的相关性：

其中，UCLa和UCLb表示两个不同的UCL，集合W＝{w₁，w₂，w₃，...，w_n}表示提取的UCLa中的关键词，o_i为关键词w_i在UCLa中的重要程度得分，I表示集合W中与UCLb相连的关键词的下标集合，s_ib表示关键词w_i与UCLb相连的权重。

8.根据权利要求1所述的基于UCL语义标引的视频推荐方法，其特征在于，所述步骤(4)中第一阶段利用多分类模型粗粒度地估计待推荐的信息类别，具体包括：

首先，提取用户特征，包括用户的年龄、性别、观看视频的历史记录、点击视频的记录、推送信息的点击频率及具体类别，进行降维并归一化，得到用户特征向量；

然后，读取视频对应的UCL信息，获取关键词并进行词嵌入，然后进行降维，形成视频特征向量；将用户特征向量与视频特征向量拼接在一起，形成一个整体的特征向量；

最后，分别用XGboost模型与深度神经网络模型单独预测出属于第i个推荐类别的概率分别为xg_i和np_i，并根据如下公式确定第i个推荐类别的概率：

p_i＝α×xg_i+β×np_i

其中，α和β为自定义的权值。

9.根据权利要求1所述的基于UCL语义标引的视频推荐方法，其特征在于，所述步骤(4)中第二阶段利用UCL知识库精确定位待推荐的信息，具体包括：

首先，提取UCLVideo中的关键词构成关键词集合，并在UCL知识库中找到每个关键词所对应的UCL集合，将这些集合取并集，得到与UCLVideo相关的UCL集合UCL_Video_SET；其中UCLVideo为用户正在观看的视频所对应的UCL；

然后，计算UCL_Video_SET中每一个UCLi与UCLVideo的相关性，并选出相关性最高的若干个UCL构成UCLCadidateSET；

最后，基于粗粒度信息类别推荐结果，筛选出UCLCadidateSET中与粗粒度推荐结果相匹配的UCL，生成最终UCLReecommendSET，并输出。

10.一种基于UCL语义标引的视频推荐装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-9任一项所述的基于UCL语义标引的视频推荐方法。