CN109729426B

CN109729426B - 一种视频封面图像的生成方法及装置

Info

Publication number: CN109729426B
Application number: CN201711022762.1A
Authority: CN
Inventors: 王往
Original assignee: Youku Network Technology Beijing Co Ltd
Current assignee: Youku Network Technology Beijing Co Ltd
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2022-03-01
Anticipated expiration: 2037-10-27
Also published as: CN109729426A

Abstract

本申请实施方式公开了一种视频封面图像的生成方法及装置，其中，所述方法包括：获取用户的行为数据，所述行为数据用于表征所述用户偏好的视频内容；从目标视频中提取与所述用户的行为数据相匹配的画面帧；基于所述提取的所述画面帧，生成所述目标视频的封面图像，并向所述用户展示所述封面图像。本申请提供的技术方案，能够提高视频封面图像的生成效率以及提高封面图像对于视频的宣传效果。

Description

一种视频封面图像的生成方法及装置

技术领域

本申请涉及互联网技术领域，特别涉及一种视频封面图像的生成方法及装置。

背景技术

随着互联网技术的不断发展，涌现出越来越多的视频播放平台。由于视频播放平台中的视频数量通常较大，为了方便用户查找感兴趣的视频，目前的视频播放平台通常会对热门视频制作封面图像。该封面图像可以是从视频中截取的一帧画面，也可以是将多帧画面的内容进行整合得到的。

目前，在制作视频的封面图像时，通常可以由视频播放网站的工作人员快速浏览视频的具体内容，然后从视频中挑选出用户可能感兴趣的视频画面，然后将挑选出的视频画面整合为视频的封面图像。然而，这种通过人工制作封面图像的方式，不仅会浪费较多的人力资源，使得封面图像生成的效率较低，此外，由于各人感兴趣的内容可能不太一样，由工作人员制作的封面图像可能并不会引起用户的兴趣，从而使得封面图像对于视频的宣传效果也较低。

发明内容

本申请实施方式的目的是提供一种视频封面图像的生成方法及装置，能够提高视频封面图像的生成效率以及提高封面图像对于视频的宣传效果。

为实现上述目的，本申请实施方式提供一种视频封面图像的生成方法，所述方法包括：获取用户的行为数据，所述行为数据用于表征所述用户偏好的视频内容；从目标视频中提取与所述用户的行为数据相匹配的画面帧；基于所述提取的所述画面帧，生成所述目标视频的封面图像，并向所述用户展示所述封面图像。

为实现上述目的，本申请实施方式还提供一种视频封面图像的生成装置，所述装置包括存储器、显示器和处理器，所述存储器中存储计算机程序，所述计算机程序被所述处理器执行时，实现以下步骤：获取用户的行为数据，所述行为数据用于表征所述用户偏好的视频内容；从目标视频中提取与所述用户的行为数据相匹配的画面帧；基于所述提取的所述画面帧，生成所述目标视频的封面图像，并通过所述显示器向所述用户展示所述封面图像。

由上可见，本申请提供的技术方案，可以预先获取用户的行为数据，该行为数据可以是根据用户在视频播放平台中的观看记录统计得到的，该行为数据可以表征用户偏好的视频内容。这样，在制作目标视频的封面图像时，可以从目标视频中提取与所述用户的行为数据相匹配的画面帧。这样，提取出的所述画面帧中的内容便可以时用户感兴趣的内容。然后，基于所述提取的所述画面帧，生成所述目标视频的封面图像，从而可以向所述用户展示其感兴趣的封面图像。由上可见，本申请通过对用户的行为数据进行分析，并自动提取出相适配的画面帧以及自动生成用户感兴趣的封面图像，不仅能够提高视频封面图像的生成效率，还能够提高封面图像对于视频的宣传效果。

附图说明

为了更清楚地说明本申请实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施方式中视频封面图像的生成方法流程图；

图2为本申请实施方式中人物面容的转动角度示意图；

图3为本申请实施方式中视觉特征剪裁拼接的示意图；

图4为本申请实施方式中画面装饰图案的添加示意图；

图5为本申请实施方式中视频封面图像的生成装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都应当属于本申请保护的范围。

本申请提供一种视频封面图像的生成方法，所述方法可以应用于视频播放平台的业务服务器中，所述服务器可以是独立的服务器，也可以是由多个服务器构成的服务器集群。

请参阅图1，本申请提供的视频封面图像的生成方法，可以包括以下步骤。

S1：获取用户的行为数据，所述行为数据用于表征所述用户偏好的视频内容。

在本实施方式中，用户在视频播放平台中进行的操作记录以及观看的视频均可以被视频播放平台的服务器记录。其中，所述操作记录可以包括用户在视频播放平台中输入的关键词，也可以是用户在视频播放平台中点击的视频链接等。用户在观看视频时，服务器可以记录用户观看的视频的类型，也可以记录用户反复观看的视频片段。在服务器中记录的与所述用户相关联的上述数据均可以作为该用户的行为数据。

在本实施方式中，通过对记录的该用户的行为数据进行分析，可以得到用户偏好的视频内容。具体地，可以采用当前成熟的深度学习算法以及聚类算法对用户的行为数据进行处理，从而可以得到用户偏好的视频内容。

在本实施方式中，所述用户偏好的视频内容中可以包括视觉特征。所述视觉特征可以用于表征用户感兴趣的视频内容中出现的目标对象。例如，所述视觉特征可以是人物面容、人物动作、面容情绪、服饰以及环境等。其中，人物面容可以体现用户关注的演员、人物动作可以体现用户关注的人物姿态(跳舞、打斗等)，面容情绪可以体现用户关注的演员演技(愤怒、惊恐、开心等)，服饰和环境可以体现用户关注的场景质量。例如，某个用户在近一周的时间内，经常观看娱乐综艺节目，并且在娱乐综艺节目中，比较爱看明星张三的跳舞表演。这样，通过对这段时间内用户行为数据进行分析后，可以得到类似“张三+舞蹈”这样的视觉特征。

S2：从目标视频中提取与所述用户的行为数据相匹配的画面帧。

在本实施方式中，为了能够制作出符合用户需求的封面图像，可以从目标视频中提取与所述用户的行为数据相匹配的画面帧。其中，与所述用户的行为数据相匹配的画面帧可以指提取的画面帧中包含所述用户感兴趣的内容。具体地，所述用户偏好的视频内容中可以包括视觉特征，这样，与所述用户的行为数据相匹配的画面帧可以指当前画面中包含所述视觉特征的画面帧。例如，用户偏好的视觉特征为“张三+舞蹈”，那么便可以从目标视频中提取出包含张三在跳舞的场景的画面帧。

在本实施方式中，由于包含所述视觉特征的画面帧的数量可能较多，那么在提取出画面帧之后，可以进一步地对画面帧进行筛选。筛选的原则可以是将包含的视觉特征比较清晰、比较完备的画面帧筛选出来。具体地，各个视觉特征可以与各自的判定策略相关联。所述判定策略用于限定所述视觉特征在画面中呈现的形态。例如，针对人物面容而言，画面中出现的人物面容可能有多种形态。例如，人物面容可能是正面朝向观众，也可能是侧面朝向观众。为了使得最终封面图像中的人物面容具备较高的辨识度，所述判定策略可以限定人物面容对应的有效转动范围，所述有效转动范围中可以包括多个转动角度。该转动角度可以是方位角和俯仰角的组合。举例来说，以人物面容正面朝向观众为基准，在该基准情况下，人物面容对应的转动角度为俯仰角0°、方位角0°，那么判定策略限定的有效转动范围可以是俯仰角在+45°和-45°之间，并且方位角也在+45°和-45°之间。这样，可以得到如图2所示的人物面容的有效转动范围。在图2中包含了5个色块，每个色块对应一部分的人物面容，这些色块可以是按照人物面容的转动角度进行划分的。其中，标号为1和2的色块中所展示的人物面容的转动角度可以是所述判定策略限定的转动角度，其它色块中的转动角度则不符合所述判定策略。

在实际应用场景中，针对不同的视觉特征，对应的判定策略也会不同。在本实施方式中可以预先归类得到多个视觉特征，并同时设定各个视觉特征关联的判定策略。所述视觉特征和关联的判定策略的信息可以存储于服务器中，后续如果需要使用这些信息时，服务器可以从本地读取。

在本实施方式中，在从所述目标视频中提取出画面帧之后，可以对所述画面帧的内容进行判定，并从所述画面帧中确定内容符合所述判定策略的目标画面帧。具体地，所述视觉特征可以包括人物面容，如上所述，与所述人物面容相关联的判定策略可以用于限定人物面容对应的有效转动范围；其中，所述有效转动范围中包括多个转动角度。在本实施方式中，所述转动角度可以与面容模板相关联。所述面容模板可以是简化的脸谱，在所述面容模板中，可以突出五官的轮廓，而忽略其它细节。所述面容模板可以用于判定人脸的朝向。这样，在从所述画面帧中确定内容符合所述判定策略的目标画面帧时，可以检测所述画面帧中所展示的人物面容。具体地，可以通过成熟的人脸识别算法，识别出画面帧中的人物面容，然后可以计算所述画面帧中的人物面容与所述面容模板之间的相似度。在本实施方式中，识别出的人物面容以及面容模板均可以通过数字化的特征向量来表示。所述特征向量可以是基于人脸画面中像素点的像素值进行构建的。所述像素值可以是处于指定区间内的数值。例如，所述像素值可以是0至255中的任意一个数值。数值的大小可以表示色彩的深浅。在本实施方式中，可以获取人脸图像中各个像素点的像素值，并通过获取的像素值构成该人脸图像的特征向量。例如，对于具备9*9＝81个像素点的人脸图像而言，可以依次获取其中像素点的像素值，然后根据从左向右从上至下的顺序，将获取的像素值依次排列，从而构成81维的向量。该81维的向量便可以作为所述人脸图像的特征向量。在本实施方式中，所述特征向量还可以是基于人脸图像的CNN(Convolutional Neural Network，卷积神经网络)特征进行构建的。具体地，可以将所述人脸图像输入卷积神经网络中，然后该卷积神经网络便可以输出所述人脸图像对应的特征向量。

在本实施方式中，通过计算两个特征向量之间的向量夹角或者Pearson相关系数来得到识别出的人物面容和面容模板之间的相似度。具体地，可以将识别得到的人物面容依次与各个面容模板计算相似度，从而可以得到多个相似度。相似度越大，表明人物面容与面容模板越相似。这样，当计算得到的相似度中存在大于或者等于指定阈值的相似度时，表明识别得到的人物面容与其中一个或者多个面容模板相似，那么可以将包含该人物面容的画面帧作为符合所述判定策略的目标画面帧。

在本实施方式中，与所述人物面容相关联的判定策略也可以是多样化的，除了限定人物面容的朝向，还可以限定人物面容在当前画面中所占的最低比例。相应地，从所述画面帧中确定内容符合所述判定策略的目标画面帧时，可以通过人脸识别技术，检测所述画面帧中所展示的人物面容，并计算所述画面帧中的人物面容在所述画面帧中所占的比例。比例越高，表明人物面容在当前画面帧中越有可能是主要因素。因此，当计算得到的比例大于或者等于所述最低比例时，表明人脸面容在当前画面中所占的面积已经足够大，那么可以将所述画面帧作为符合所述判定策略的目标画面帧。

在本实施方式中，所述视觉特征还可以包括面容情绪，所述面容情绪可以是人物所能表现出的愤怒、惊讶、痛苦、开心等情绪。为了在视频描述内容中能够体现出人物复杂的内心活动，可以从画面帧中选用能够呈现人物复杂情绪的画面帧。具体地，与所述面容情绪相关联的判定策略可以用于限定面容情绪的类型。限定的面容情绪的类型可以明显地反映出人物当前的心理活动，对于没有反映情绪的画面帧，则不会选用为视频的描述内容。

在本实施方式中，所述面容情绪的类型可以与表情模板相关联。所述表情模板中主要突出人脸五官以及面部肌肉的变化。这样，在从所述画面帧中确定内容符合所述判定策略的目标画面帧时，可以通过人脸识别技术检测所述画面帧中所展示的面容表情，并计算所述面容表情与表情模板之间的相似度。具体地，所述面容表情以及表情模板也可以通过上述的特征向量进行表示，这样，同样可以通过计算向量夹角或者Pearson相关系数的方式来计算出两个特征向量之间的相似度。同样地，当计算得到的相似度中存在大于或者等于指定阈值的相似度时，表明从当前画面帧中识别的面容表情与一个或者多个表情模板足够相似，从而可以将该画面帧作为符合所述判定策略的目标画面帧。

在本实施方式中，所述视觉特征还可以包括人物动作，所述人物动作主要体现于人物的头部和四肢的摆放位置。具体地，与所述人物动作相关联的判定策略可以用于限定人物所展示的动作模板。所述动作模板可以反映人物当前所从事的活动。例如，所述动作模板可以是跳舞、格斗或者是某些固定姿势的简化图。在所述动作模板中，可以忽略人物的面容，而主要体现人物的头部以及四肢和躯干的位置。这样，从所述画面帧中确定内容符合所述判定策略的目标画面帧时，可以识别所述画面帧中人物所展示的动作。具体地，可以通过当前成熟的人物捕捉技术，从画面帧中将人物整体识别出来。这样，识别得到的图像中便可以包含人物的动作。在识别出人物动作之后，可以判断识别的所述动作是否包含于所述动作模板中，若是，则表明识别出的动作为用户感兴趣的动作，从而可以将所述画面帧作为符合所述判定策略的目标画面帧。具体地，在判断识别的所述动作是否包含于所述动作模板中时，可以预先将动作模板进行数字化。例如，可以将动作模板中划分为头部、躯干、四肢，其中，四肢中的每一肢又可以划分为上半肢和下半肢，这样便可以生成10个维度的信息。基于每个人体机构所处的位置，可以对这10个维度设置相应的值，从而可以得到维度为10的向量。这样，针对识别出的动作或者预先设置的动作模板，都可以生成对应的维度为10的向量。后续可以通过计算向量夹角或者Pearson相关系数来判断识别出的动作是否与动作模板相似，从而可以判断识别出的动作是否包含于所述动作模板中。

由上可见，针对不同的视觉特征，可以按照不同的判定策略从画面帧中筛选得到目标画面帧。

S3：基于所述提取的所述画面帧，生成所述目标视频的封面图像，并向所述用户展示所述封面图像。

在本实施方式中，在提取出所述画面帧之后，可以基于提取的画面帧，生成所述目标视频的封面图像。具体地，若提取的画面帧的数量为一帧，那么可以直接将该帧画面作为目标视频的封面图像。若提取的画面帧的数量为至少两帧，那么可以从各个所述画面帧中裁剪出包含视觉特征的区域图像，并将裁剪得到的多个区域图像整合为一帧画面。例如，当前提取出两帧画面，其中一帧包含了张三跳舞的场景，另一帧中包含了李四唱歌的场景。此时，可以分别从这两帧画面中将张三跳舞的区域图像和李四唱歌的区域图像分别裁剪出来，然后将裁剪出的两个区域图像拼接为一帧画面。这样，最终可以将整合得到的所述一帧画面作为所述目标视频的封面图像。

在实际应用场景中，为了进一步提高封面图像的辨识度以及让封面图像包含的信息更加直观，可以在制作封面图像的过程中，通过添加文字信息的方式，生成最终的封面图像。具体地，若提取的所述画面帧中包括目标人物，则可以从所述目标视频的语音信息中，通过语音识别技术识别所述目标人物的发声信息。在识别得到所述目标人物的发声信息后，可以从所述发声信息中提取至少一个关键词。具体地，在语音识别过程中，可以针对所述目标视频的类型，构建相匹配的关键词库。所述关键词库中可以包括所述目标视频中可能涉及的词汇。例如，所述目标视频的类型为综艺类视频，那么可以对大量的综艺类视频中嘉宾的谈话内容进行分析，并得到综艺类视频中经常涉及的一些词汇，并将这些词汇加入关键词库中。这样，在识别出发声信息后，可以将发声信息与关键词库中的词汇进行匹配，并将匹配得到的关键词作为从发声信息中提取的关键词。该提取的关键词通常可以表征发声者的发声内容。例如，一个育儿专家在谈论婴儿如何更换尿不湿，那么在其谈话过程中，可以提取“尿不湿”、“婴儿”、“更换”等关键词，基于这些关键词，便可以得到该育儿专家的发声内容为“更换婴儿尿不湿”。

在本实施方式中，在提取到所述关键词之后，便可以将提取的所述关键词作为文本信息添加于所述画面帧中，以生成所述目标视频的封面图像。例如，在所述封面图像中，可以展示育儿专家的人脸图像，然后在该人脸图像旁边，可以添加“育儿专家教你如何更换婴儿尿不湿”这样的文字。

在本实施方式中，如果用户的行为数据表征该用户偏好的视频内容中包括多个视觉特征，那么可以针对这多个视觉特征，从目标视频中分别提取对应的画面帧，最终可以将各个画面帧中的视觉特征裁剪出来后，拼接为所述目标视频的封面图像。例如，请参阅图3，某个用户偏好的视频内容中，可以包括张三跳舞的视觉特征，还可以包括李四唱歌的视觉特征。这样，针对每个视觉特征，均可以从目标视频中提取出相应的画面帧。然后，可以从各自的画面帧中剪裁出包含视觉特征的区域图像，然后可以将剪裁出的多个区域图像合并为一帧画面，并将该帧画面作为所述目标视频的封面图像。

在一个实施方式中，还可以在最终的封面图像中，添加用于展示人物表情或者动作的卡通图案。具体地，用户偏好的视频内容中的视觉特征可以与画面装饰图案相关联。所述画面装饰图案可以是根据视觉特征的类型，预先为视觉特征分配的自定义图案。例如，针对害羞的面容情绪，相关联的画面装饰图案可以是脸颊上的两朵红晕。又例如，针对尴尬的面容情绪，相关联的画面装饰图案可以是脑袋上平行的几条黑线。在为各个视觉特征配置了相关联的画面装饰图案之后，可以将这些画面装饰图案以及视觉特征与画面装饰图案的关联关系存储于服务器中。

在本实施方式中，在制作目标视频的封面图像时，可以获取与所述画面帧中包含的视觉特征相关联的画面装饰图案，并将获取的所述画面装饰图案添加至所述画面帧中包含的视觉特征上，以生成所述目标视频的封面图像。例如，请参阅图4，从目标视频中提取的两帧画面中，分别包含了一个人物害羞的表情以及另一个人物尴尬的表情。那么在制作封面图像时，可以从服务器本地读取与害羞的表情相关联的卡通图案，然后可以将该卡通图案中表征害羞的两朵红晕添加至提取的画面帧中。同样地，针对尴尬的表情，也可以通过相似的处理方式。最终，可以分别将添加了画面装饰图案的两个视觉特征从各自的画面帧中剪裁出来，并拼接为一帧画面，该帧画面从而可以作为所述目标视频的封面图像。

需要说明的是，由于不同的用户的行为数据可能不同，那么视频播放平台在接收到不同用户发来的页面加载请求后，处理得到的各个视频的封面图像也可能不同。因此，针对用户行为数据不同的用户A和用户B，在当前页面中看到的同一个视频的封面图像可能会不同。这样，本申请提供的技术方案，能够为不同的用户提供不同的封面图像，从而可以针对当前登陆的用户的身份不同，而对封面图像进行动态地调整。

请参阅图5，本申请还提供一种视频封面图像的生成装置，所述装置包括存储器、显示器和处理器，所述存储器中存储计算机程序，所述计算机程序被所述处理器执行时，实现以下步骤：

S1：获取用户的行为数据，所述行为数据用于表征所述用户偏好的视频内容；

S3：从目标视频中提取与所述用户的行为数据相匹配的画面帧；

S5：基于所述提取的所述画面帧，生成所述目标视频的封面图像，并通过所述显示器向所述用户展示所述封面图像。

在一个实施方式中，所述用户偏好的视频内容中包括视觉特征；相应地，与所述用户的行为数据相匹配的画面帧包括：当前画面中包含所述视觉特征的画面帧。

在一个实施方式中，所述视觉特征与画面装饰图案相关联，所述画面装饰图案用于表征人物表情或者人物动作；

相应地，所述计算机程序被所述处理器执行时，还实现以下步骤：

获取与所述画面帧中包含的视觉特征相关联的画面装饰图案，并将获取的所述画面装饰图案添加至所述画面帧中包含的视觉特征上，以生成所述目标视频的封面图像。

在一个实施方式中，若提取的所述画面帧的数量为至少两个，所述计算机程序被所述处理器执行时，还实现以下步骤：

从各个所述画面帧中裁剪包含视觉特征的区域图像，并将裁剪得到的多个区域图像整合为一帧画面；

将整合得到的所述一帧画面作为所述目标视频的封面图像。

在一个实施方式中，所述计算机程序被所述处理器执行时，还实现以下步骤：

若所述画面帧中包括目标人物，从所述目标视频的语音信息中识别所述目标人物的发声信息，并从所述发声信息中提取至少一个关键词；

将提取的所述关键词作为文本信息添加于所述画面帧中，以生成所述目标视频的封面图像。

在本实施方式中，所述存储器可以包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方法的媒体加以存储。本实施方式所述的存储器又可以包括：利用电能方式存储信息的装置，如RAM、ROM等；利用磁能方式存储信息的装置，如硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘；利用光学方式存储信息的装置，如CD或DVD。当然，还有其他方式的存储器，例如量子存储器、石墨烯存储器等等。

在本实施方式中，所述显示器可以是将一定的电子文件通过特定的传输设备显示到屏幕上再反射到人眼的显示工具。所述显示器可以包括液晶LCD显示屏、阴极射线管CRT显示屏、发光二极管LED显示屏等。

在本实施方式中，所述处理器可以按任何适当的方式实现。例如，所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。

本说明书实施方式提供的视频封面图像的生成装置，其存储器、显示器和处理器实现的具体功能，可以与本说明书中的前述实施方式相对照解释，并能够达到前述实施方式的技术效果，这里便不再赘述。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现视频封面图像的生成装置以外，完全可以通过将方法步骤进行逻辑编程来使得视频封面图像的生成装置以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种视频封面图像的生成装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。

本说明书中的各个实施方式均采用递进的方式描述，各个实施方式之间相同相似的部分互相参见即可，每个实施方式重点说明的都是与其他实施方式的不同之处。尤其，针对视频封面图像的生成装置的实施方式来说，均可以参照前述方法的实施方式的介绍对照解释。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

虽然通过实施方式描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

1.一种视频封面图像的生成方法，其特征在于，所述方法包括：

获取用户的行为数据，所述行为数据用于表征所述用户偏好的视频内容；

从目标视频中提取与所述用户的行为数据相匹配的画面帧；

基于所述提取的所述画面帧，生成所述目标视频的封面图像，并向所述用户展示所述封面图像；

其中，所述用户偏好的视频内容中包括视觉特征，所述视觉特征用于表征用户感兴趣的视频内容中出现的目标对象；相应地，与所述用户的行为数据相匹配的画面帧包括：当前画面中包含所述视觉特征的画面帧。

2.根据权利要求1所述的方法，其特征在于，所述视觉特征还与判定策略相关联；相应地，在从目标视频中提取与所述用户的行为数据相匹配的画面帧之后，所述方法还包括：

对所述画面帧的内容进行判定，并从所述画面帧中确定内容符合所述判定策略的目标画面帧；

基于所述目标画面帧，生成所述目标视频的封面图像。

3.根据权利要求2所述的方法，其特征在于，所述视觉特征包括人物面容；相应地，与所述人物面容相关联的判定策略用于限定人物面容对应的有效转动范围；其中，所述有效转动范围中包括多个转动角度，所述转动角度与面容模板相关联。

4.根据权利要求3所述的方法，其特征在于，从所述画面帧中确定内容符合所述判定策略的目标画面帧包括：

检测所述画面帧中所展示的人物面容，并计算所述画面帧中的人物面容与所述面容模板之间的相似度；

当计算得到的相似度中存在大于或者等于指定阈值的相似度时，将所述画面帧作为符合所述判定策略的目标画面帧。

5.根据权利要求2所述的方法，其特征在于，所述视觉特征包括人物面容，与所述人物面容相关联的判定策略用于限定人物面容在当前画面中所占的最低比例；相应地，从所述画面帧中确定内容符合所述判定策略的目标画面帧包括：

检测所述画面帧中所展示的人物面容，并计算所述画面帧中的人物面容在所述画面帧中所占的比例；

当计算得到的比例大于或者等于所述最低比例时，将所述画面帧作为符合所述判定策略的目标画面帧。

6.根据权利要求2所述的方法，其特征在于，所述视觉特征包括面容情绪，与所述面容情绪相关联的判定策略用于限定面容情绪的类型，所述面容情绪的类型与表情模板相关联；

相应地，从所述画面帧中确定内容符合所述判定策略的目标画面帧包括：

检测所述画面帧中所展示的面容表情，并计算所述面容表情与表情模板之间的相似度；

7.根据权利要求2所述的方法，其特征在于，所述视觉特征包括人物动作，与所述人物动作相关联的判定策略用于限定人物所展示的动作模板；

识别所述画面帧中人物所展示的动作，并判断识别的所述动作是否包含于所述动作模板中，若是，将所述画面帧作为符合所述判定策略的目标画面帧。

8.根据权利要求1所述的方法，其特征在于，所述视觉特征与画面装饰图案相关联，所述画面装饰图案用于表征人物表情或者人物动作；

相应地，基于所述提取的所述画面帧，生成所述目标视频的封面图像包括：

9.根据权利要求1所述的方法，其特征在于，若提取的所述画面帧的数量为至少两个，基于所述提取的所述画面帧，生成所述目标视频的封面图像包括：

将整合得到的所述一帧画面作为所述目标视频的封面图像。

10.根据权利要求1所述的方法，其特征在于，在从目标视频中提取与所述用户的行为数据相匹配的画面帧之后，所述方法还包括：

11.一种视频封面图像的生成装置，其特征在于，所述装置包括存储器、显示器和处理器，所述存储器中存储计算机程序，所述计算机程序被所述处理器执行时，实现以下步骤：

从目标视频中提取与所述用户的行为数据相匹配的画面帧；

基于所述提取的所述画面帧，生成所述目标视频的封面图像，并通过所述显示器向所述用户展示所述封面图像；

12.根据权利要求11所述的装置，其特征在于，所述视觉特征与画面装饰图案相关联，所述画面装饰图案用于表征人物表情或者人物动作；

13.根据权利要求11所述的装置，其特征在于，若提取的所述画面帧的数量为至少两个，所述计算机程序被所述处理器执行时，还实现以下步骤：

将整合得到的所述一帧画面作为所述目标视频的封面图像。

14.根据权利要求11所述的装置，其特征在于，所述计算机程序被所述处理器执行时，还实现以下步骤：