CN114625918A

CN114625918A - 视频推荐方法、装置、设备、存储介质及程序产品

Info

Publication number: CN114625918A
Application number: CN202210275615.XA
Authority: CN
Inventors: 谢韬
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2022-06-14

Abstract

本申请的实施例揭示了一种视频推荐方法、装置、设备、存储介质及程序产品。该方法包括：获取视频中关键帧图像的图像特征；对图像特征和包含已知类别的预设图像特征进行特征匹配处理，并根据得到的匹配结果获取视频的第一类别结果；获取视频中的文本信息，并对文本信息进行文本分类，得到视频的第二类别结果；汇总第一类别结果和第二类别结果得到目标类别结果，目标类别结果用于对视频进行推荐。本申请揭示的视频推荐方法相较于现有技术中仅根据上传者对视频的文字描述确定推荐视频来说，基于视频中的关键帧图像和文本信息的类别识别结果确定目标类别结果，实现基于视频内容识别得到用于精确进行视频推荐的目标类别结果，提高了视频推荐的精准性。

Description

视频推荐方法、装置、设备、存储介质及程序产品

技术领域

本申请涉及视频处理技术领域，具体涉及一种视频推荐方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

随着视频采集设备和宽带网络的发展，网络的快速发展和视频信息成为主要载体，且视频规模呈现爆炸式的增长。例如，截止到2019年6月30日，我国网络视频用户总数达到7.58亿，其中长视频的用户规模约为6.39亿，短视频用户规模约为6.47亿。在线视频行业在2019年1－11月的平均月活跃用户人数MAU(Monthly Active User)接近10亿，在所有移动互联细分行业中排名第二，渗透率超过80％，而短视频行业在2019年同期平均MAU接近8亿，在细分行业中排名第四，渗透率约为70％。

进一步的，爆炸式的视频规模增长也增加了用户对视频的检索难度。目前，通常采用用户输入的关键词与视频上传者确定的视频描述相匹配的方式推送相关视频内容，上述方式一方面存在由于视频上传者主观对视频描述的错误，导致所推送的相关视频内容与用户实际想要获取的视频相差甚远的问题；另一方面存在推送的相关视频繁多，用户无法在较短时间内精准定位想要获取的视频的问题。

发明内容

为解决上述技术问题，本申请的实施例提供了一种视频推荐方法、装置、电子设备、计算机存储介质及计算机程序产品。

根据本申请实施例的一个方面，提供了一种视频推荐方法，所述视频推荐方法包括：获取视频中关键帧图像的图像特征；对所述图像特征和包含已知类别的预设图像特征进行特征匹配处理，并根据得到的匹配结果获取所述视频的第一类别结果，其中，所述已知类别的预设图像特征包括预设的样本数据库中所包含样本的样本特征，所述样本数据库中包含的样本包括图像样本和文本样本中的至少一种；获取所述视频中的文本信息，并对所述文本信息进行文本分类，得到所述视频的第二类别结果；汇总所述第一类别结果和所述第二类别结果得到目标类别结果，所述目标类别结果用于对所述视频进行推荐。

根据本申请实施例的一个方面，提供了一种视频推荐装置，所述装置包括：获取模块，配置为获取视频中各图像帧的图像特征；图像分类模块，配置为对所述图像特征与包含已知类别的预设图像特征进行特征匹配处理，并根据得到的匹配结果获取所述视频的第一类别结果，其中，所述已知类别的预设图像特征包括预设的样本数据库中所包含样本的样本特征，所述样本数据库中包含的样本包括图像样本和文本样本中的至少一种；文本分类模块，配置为获取所述视频中的文本信息，并对所述文本信息进行文本分类，得到所述视频的第二类别结果；汇总模块，配置为汇总所述第一类别结果和所述第二类别结果得到目标类别结果，所述目标类别结果用于对所述视频进行推荐。

根据本申请实施例的一个方面，提供了一种电子设备，包括：存储器，存储有计算机可读指令；处理器，读取存储器存储的计算机可读指令，以执行上述任一项的视频推荐方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行如上所述的视频推荐方法。

根据本申请实施例的一个方面，还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上所述的视频推荐方法中的步骤。

在本申请的实施例提供的技术方案中，根据视频中关键帧图像的图像特征与包含已知类别的预设图像特征之间的匹配结果获取的第一类别结果和根据视频中的文本信息获取的第二类别结果确定目标类别结果，进而根据目标类别结果进行视频推荐，可以看出相较于本申请仅根据视频上传者对视频的文字描述确定推荐视频来说，本申请是基于视频中的关键帧图像的图像特征获取的第一类别结果和基于文本信息获取的第二类别结果确定目标类别结果，并根据目标类别结果推荐视频，实现基于视频内容识别得到用于更精确进行视频推荐的目标类别结果，提高了视频推荐的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术者来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是现有技术中一示例性的视频推荐效果示意图；

图2是现有技术中另一示例性的视频推荐效果示意图；

图3是本申请涉及的一种实施环境的示意图；

图4是本申请的一示例性实施例示出的视频推荐方法的流程图；

图5是图4所示实施例中提及的关键帧图像的示例性效果示意图；

图6是图4所示实施例中提及的音转文内容的示例性效果示意图；

图7是图4所示实施例中提及的包含文本信息的图像帧转文后的示例性效果示意图；

图8是图4所示实施例中提及的识别结果的示例性效果示意图；

图9是图4所示实施例中的步骤S410在一示例性实施例中的流程图；

图10是图9所示实施例中的步骤S411在一示例性实施例中的流程图；

图11是图10所示实施例中的步骤S4111在一示例性实施例中的流程图；

图12是图9所示实施例中的步骤S4112在一示例性实施例中的流程图；

图13是图4所示实施例中的步骤S420在一示例性实施例中的流程图；

图14是图4所示实施例中的步骤S430在一示例性实施例中的流程图；

图15是图14所示实施例中的步骤S433在一示例性实施例中的流程图；

图16是图14所示实施例中的步骤S4333在又一示例性实施例中的流程图；

图17是图14所示实施例中的步骤S433在再一示例性实施例中的流程图；

图18是一示例性应用场景示出的获取视频的目标类别结果的流程示意图；

图19是图4所示实施例中基于目标类别结果进行视频推荐的效果示意图；

图20是本申请的一示例性实施例示出的视频推荐装置的框图；

图21示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

首先说明的是，在互联网时代，视频规模呈现爆发式增长。视频推荐是一种根据用户需求推荐用户想要获取视频的方式，而本申请的视频推荐方式是指通过识别视频内容确定内容识别结果，进而在用户需要搜索该视频时能够根据内容识别结果进行精准推荐。在更广泛的意思上，基于视频内容识别的视频推荐方式存在于生活的方方面面，可涉及应用基于视频内容识别的视频推荐的任何技术领域。

现有技术中，通常是根据用户输入的关键词与视频上传者确定的视频描述相匹配的方式推送相关视频内容，但上述方式：一方面，存在由于视频上传者主观对视频描述的错误，导致所推送的相关视频内容与用户实际想要获取的视频相差甚远；另一方面，存在推送的相关视频繁多，用户无法在较短时间内精准定位想要获取的视频。

例如，以基于用户输入的关键词“风景”进行视频推荐为例，对现有技术中的视频推荐方式进行说明。如图1所示，图1中示出了各视频的上传者及上传者对视频的描述，用户输入关键词“风景”时，根据关键词“风景”与相关视频描述之间的匹配所推送的视频包括“某综艺沿途风景”视频、“VR绝美风景短片”视频、“某地区第一大湖泊风景”视频等一系列视频，存在所推荐视频与用户实际想获取的风景视频相差甚远。

例如，以基于用户输入的关键词“篮球明星A”进行视频推荐为例，对现有技术中的视频推荐方式进行说明。如图2所示，图2中示出了各视频的上传者及上传者对视频的描述，用户输入“篮球明星A”时，根据关键词“篮球明星A”与相关视频描述之间的匹配所推送的视频包括“篮球明星A的比赛视频”视频、“篮球明星A的采访”视频、“篮球明星A的生活”视频等一系列视频，存在所推荐视频与用户实际想获取的篮球明星A的比赛视频相差甚远。

由此可知，利用关键词与视频上传者对视频描述之间的匹配虽能实现视频推荐，但所推荐的视频与用户实际想要获得的视频相差甚远，并且存在所推荐的相关视频过多，用户无法短时间内确定想要获取的视频，导致推荐视频准确性低。基于此，为了能够进行准确的视频推荐，本申请的实施例涉及：获取视频中关键帧图像的图像特征，并对关键帧图像的图像特征和包含已知类别的预设图像特征进行匹配处理，进而根据得到的匹配结果获取视频的第一类别结果；获取视频包含的文本信息，并对文本信息进行文本分类，得到视频的第二类别结果；汇总第一类别结果和第二类别结果得到目标类别结果，目标类别结果用于对视频进行推荐，实现基于视频内容识别进行视频推荐。可以看出，本申请基于对视频进行图像、文字等多方面的类别识别处理，确定目标类别结果，进而根据目标类别结果进行针对性的视频推荐，提高了视频推荐的准确性，避免仅根据视频上传者对视频的文字描述确定推荐视频而带来的视频推荐不准确问题。

图3是本申请涉及的一种实施环境的示意图。该实施环境包括智能终端310和服务端320，智能终端310与服务端320预先建立有线或者无线的网络连接。

如图3所示，智能终端310获取视频上传者上传的视频，并将该视频发送至服务端320。服务端320获取视频中关键帧图像的图像特征，并根据关键帧图像的图像特征和包含已知类别的预设图像特征之间的匹配结果获取视频的第一类别结果，然后确定视频包含的文本信息，并对文本信息进行类别识别处理，得到视频的第二类别结果，然后汇总第一类别结果和第二类别结果得到目标类别结果，目标类别结果用于对视频进行推荐。

其中，图3所示的智能终端310可以是智能手机、车载电脑、平板电脑、笔记本电脑或者可穿戴设备等任意支持视频推荐的终端设备，但并不限于此。图3所示的服务端320是服务器，例如可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器，在此也不进行限制。智能终端310可以通过3G(第三代的移动信息技术)、4G(第四代的移动信息技术)、5G(第五代的移动信息技术)等无线网络与服务端320进行通信，本处也不对此进行限制。

请参阅图4，图4是本申请的一示例性实施例示出的视频推荐方法的流程图。该视频推荐方法可以应用于图3所示的实施环境，并由该实施环境中的服务端320具体执行。应理解的是，该方法也可以适用于其它的示例性实施环境，并由其它实施环境中的设备具体执行，本实施例不对该方法所适用的实施环境进行限制。

下面以服务器作为具体的执行主体来对本申请实施例提出的视频推荐方法进行详细介绍。

如图4所示，在一示例性的实施例中，本申请提出的视频推荐方法至少包括步骤S410至步骤S440，详细介绍如下：

步骤S410，获取视频中关键帧图像的图像特征。

首先需要说明的是，关键帧图像是指视频中能够进行识别处理的图像。需要说明的是，为了提高识别效率，关键帧图像可以为视频中进行筛选或去重过后的图像。

关键帧图像的图像特征是指基于对关键帧图像进行特征提取得到。

服务器对视频进行处理，确定视频中的关键帧图像，并对关键帧图像进行特征提取，得到关键帧图像的图像特征。示例性的，服务器可利用神经网络模型获取关键帧图像的图像特征。

步骤S420，对图像特征和包含已知类别的预设图像特征进行特征匹配处理，并根据得到的匹配结果获取视频的第一类别结果。

包含已知类别的预设图像特征是指预先设置图像的图像特征，并且该预设图像特征存在与其对应的类别结果。示例性的，可以是预先设置的样本数据库中样本的样本特征。需要说明的是，样本数据库中不仅包括图像样本的样本特征，也包括文本样本的样本特征。另外需要说明的是，为了维护样本数据库中的样本，服务器可定期更新样本数据库中的图像样本或文字样本。进一步需要说明的是，服务器还可将提取的关键帧图像的图像特征保存至样本数据库，也可将文本信息的文本特征保存至样本数据库，以实现持续更新样本数据库。

匹配结果可以是指关键帧图像的图像特征与预设图像的图像特征之间的相似程度。示例性的，若关键帧图像的图像特征与预设图像的图像特征之间较为相似，例如，可以是关键帧图像的图像特征与预设图像的图像特征之间的相似度大于预设相似度阈值时，关键帧图像与预设图像匹配；若关键帧图像的图像特征与预设图像的图像特征之间不相似，例如，可以是关键帧图像的图像特征与预设图像的图像特征之间的相似度小于或等于预设相似度阈值时，关键帧图像与预设图像不匹配。

第一类别结果是指根据关键帧图像的图像特征确定的类别结果，例如，关键帧图像中包括名胜古迹，则可确定该关键帧图像的第一类别结果为旅游、旅行或国家地理等类别结果。又例如，关键帧图像中包括明星A，则可确定该关键帧图像的第一类别结果为明星A或明星A所演电视剧名称等。

服务器对视频中的关键帧图像和包含已知类别的预设图像进行匹配处理，进而根据得到的匹配结果获取视频的第一类别结果。详情可参阅图5，图5中示出一示例的关键帧图像。需要说明的是，关键帧图像的获取方式可以为基于视频的视频序列间隔预设时间确定一关键帧图像，例如，间隔一秒抽取一帧图像作为关键帧图像；也可以为通过对视频进行分段，在各段中确定清晰度较好的图像为关键帧图像，例如，将一段视频中拍摄相同内容的图像序列确定为一段，比如视频中前半段图像序列内容是某人，后半段图像序列内容是某处风景，即可将该视频划分为两段，并在前半段图像序列和后半段图像序列中各确定至少一帧较清晰图像为关键帧图像。

步骤S430，获取视频中的文本信息，并对文本信息进行文本分类，得到视频的第二类别结果。

文本信息可以基于视频中的音频信息确定，示例性的，对视频中的音频进行转文字处理，得到文本信息，例如，服务器对电视剧A中的音频信息进行音转文处理，得到如图6所示的文本信息。文本信息还可以是基于视频中包含文字信息的图像帧确定，示例性的，对视频中包含文字信息的图像帧进行文字识别处理，得到文本信息，例如，服务器对电视剧A中的包含文字信息的图像帧进行识别处理，得到如图7所示的文本信息。需要说明的是，服务器可利用视频OCR技术对视频中包含文字信息的图像帧进行文字识别处理。另外需要说明的是，本申请实施例的文本信息可以基于视频中的音频信息确定，还可以基于视频中包括文字信息的图像帧确定，或者，基于视频中的音频信息和包括文字信息的图像帧共同确定。本申请实施例对此不进行限定。

第二类别结果是指基于视频中文本信息的具体内容确定的类别结果，例如，基于图6中的文本信息确定的类别结果可以为小说、聊天、书信或台词等，又例如，基于图7中的文本信息确定的类别结果可以为影评、书评或新闻等。

服务器通过对视频中包含的文本信息进行类别识别处理，得到视频的第二类别结果。示例性的，一方面，服务器通过对视频中的音转文信息进行类别识别处理，得到第二类别结果；另一方面，服务器还可通过对视频中的包括文字信息的图像帧进行转文处理后，再进行类别识别处理，得到第二类别结果。需要说明的是，服务器可对同一视频进行上述两方面处理，以确定第二类别结果。

步骤S440，汇总第一类别结果和第二类别结果得到目标类别结果，目标类别结果用于对视频进行推荐。

目标类别结果是基于对第一类别结果和第二类别结果进行汇总确定的。示例性的，一方面，目标类别结果可以是删除第一类别结果和第二类别结果中重复类别结果后的类别结果，例如，第一类别结果中有A、B、C类别结果，第二类别结果中有C、D、E类别结果，则目标类别结果为A、B、C、D、E；另一方面，目标类别结果还可以是对第一类别结果和第二类别结果中类别相似的类别结果整合后的类别结果，例如，第一类别结果中有A、B、C类别结果，第二类别结果中有C’、D、E类别结果，则目标类别结果为A、B、C(C’)、D、E。

服务器汇总第一类别结果和第二类别结果，得到目标类别结果，进而使得用户能在搜索视频时基于目标类别结果快速搜索到需要观看的视频。示例性的，可参阅图8，基于图5中示例的关键帧图像、图6中示例二的类别结果以及图7中示例二的视频OCR内容，服务器对图5中示例的关键帧图像对应的第一类别结果、图6中示例二的第二类别结果以及图7中示例二的视频OCR内容对应的第二类别结果进行汇总处理，得到图8中的汇总结果，并基于图8中的汇总结果得到目标类别结果。其中，目标类别结果至少包括旅游、景点推荐以及国家地理等。

需要说明的是，考虑到视频上传者上传的视频种类繁多，为了能够提高视频推荐效率，服务器在确定视频目标类别结果后，可基于各视频的目标类别结果进行聚类，以实现更有效的视频推荐。例如，视频1的目标类别结果是A，视频2的目标类别结果是B，视频3的目标类别结果是A，视频4的目标类别结果是B，视频5的目标类别结果是A，则可将目标类别结果是A的视频1、3、5进行聚类，并将目标类别结果是B的视频2、4进行聚类，以方便在匹配到目标类别结果A时能够推荐对应的视频1、3、5。

可以看出，本申请实施例的视频推荐方法通过获取视频中的关键帧图像的图像特征与包含已知类别的预设图像特征之间的匹配结果获取的第一类别结果和根据视频中的文本信息获取的第二类别结果确定目标类别结果，进而根据目标类别结果进行视频推荐。由此可知，相较于本申请仅根据视频上传者对视频的文字描述确定推荐视频来说，本申请是基于视频中的关键帧图像的图像特征获取的第一类别结果和基于文本信息获取的第二类别结果确定目标类别结果，并根据目标类别结果推荐视频，实现基于视频内容识别得到用于更精确进行视频推荐的目标类别结果，提高了视频推荐的准确性。

图9是根据另一示例性实施例示出的一种视频推荐方法的流程图。在图9所示的实施例中，视频的关键帧图像具体是从视频包含的图像帧中筛选得到的，获取用于进行视频推荐的目标类别结果的其他步骤请参阅前述实施例中描述的内容，本处不进行赘述。

如图9所示，在一示例性实施例中，步骤S410获取视频中的关键帧图像的过程至少还包括步骤S411至步骤S412，详细介绍如下：

步骤S411，对视频包含的图像帧进行筛选处理，得到视频的关键帧图像。

服务器获取视频中的各图像帧，并从各图像帧中筛选得到视频的关键帧图像。需要说明的是，关键帧图像的获取方式可以是基于视频的视频序列间隔预设时间确定一关键帧图像，例如，间隔一秒抽取一帧图像作为关键帧图像。

步骤S412，对关键帧图像进行图像特征提取，得到关键帧图像的图像特征。

关键帧图像的图像特征是基于对关键帧图像进行特征提取得到。

服务器提取关键帧图像中的图像特征，得到关键帧图像的图像特征。需要说明的是，服务器可利用深度神经网络模型对关键帧图像进行多方面的特征提取，例如，形状、结构或其他等方面，并综合多方面的特征得到关键帧图像的特征信息。

可以看出，本申请实施例的视频推荐方法通过提取确定的关键帧图像的图像特征，得到关键帧图像的图像特征，进而根据关键帧图像的图像特征获取视频的第一类别结果，相较于根据视频中的所有图像帧进行分类处理来说，本申请基于确定的关键帧图像的图像特征进行分类处理避免了计算冗余，提高了视频推荐的效率。

图10是根据另一示例性实施例示出的一种视频推荐方法的流程图。在图10所示的实施例中，通过获取视频选出视频中的候选帧图像序列，并对候选帧图像序列进行去重处理以确定关键帧图像。

如图10所示，在一示例性实施例中，步骤S411中对视频进行筛选处理，得到视频的关键帧图像的过程，可以包括如下步骤：

步骤S4111，从视频包含的图像帧中选出候选帧图像序列。

候选帧图像序列是指视频中的能够用于识别确定关键帧图像的图像序列。需要说明的是，候选帧图像序列中的图像可以是视频中清晰度较高的图像，也可以是视频中间隔预设时间获取的图像。本申请实施例对此不进行限定。

服务器从视频包含的图像帧中选出候选帧图像序列。示例性的，服务器可间隔预设时间从视频中获取一图像，并依据获取顺序确定候选帧图像序列。

步骤S4112，对候选帧图像序列进行去重处理，将去重处理后的候选帧图像序列中包含的图像帧作为关键帧图像。

考虑到获取的候选帧图像序列中可能存在相同或相似图像，为避免利用相同或相似图像进行识别处理而造成运算冗余，本申请实施例对候选帧图像序列中的相同或相似图像进行去重处理，得到去重处理后的候选帧图像序列，也即包含关键帧图像的图像序列。

可以看出，本申请实施例的视频推荐方法通过从视频的各图像帧中选出候选帧图像序列；并对候选帧图像序列进行去重处理，得到去重处理后的候选帧图像序列，也即包含关键帧图像的图像序列。由此可知，基于候选帧图像序列获取关键帧图像的系列操作避免了利用相同或相似图像进行识别处理而造成运算冗余，提高了图像识别效率。

在另外的实施例中，如图11所示，还可以根据如下步骤确定候选帧图像序列，详情如下：

步骤S41111，对视频进行抽帧处理，得到图像帧序列。

抽帧处理是指从视频中抽取图像的处理方式。示例性的，服务器可间隔预设时间从视频中抽取图像，也可随机从视频中抽取图像。本申请实施例对此不进行限定。

服务器对视频进行抽帧处理，得到多帧图像，并基于多帧图像的抽取顺序确定图像帧序列。例如，服务器可间隔0.5秒抽取视频中的图像，得到图像帧序列。

步骤S41112，确定图像帧序列中相邻图像帧之间的色差程度。

色差程度是指图像帧之间颜色上的差异。

服务器基于图像帧序列确定相邻图像帧之间的色差程度，也即确定相邻图像帧之间的颜色差异。

步骤S41113，若色差程度大于预设色差阈值，则删除相邻图像帧中的任一图像帧，得到候选帧图像序列。

预设色差阈值是指用于确定两图像之间色差程度大小的数值。示例性的，该数值可以是人为设定。

服务器在基于确定的相邻图像帧之间的色差程度，判断色差程度是否大于预设色差阈值，若是，则删除相邻图像帧中的任一图像帧，并将删除图像帧后的剩余图像帧确定为候选帧图像，并基于得到的候选帧图像的获取顺序确定候选帧图像序列。

可以看出，本申请实施例的视频推荐方法通过对视频进行抽帧处理，确定图像帧序列，在基于图像帧序列中相邻图像帧之间的色差程度确定候选帧图像序列，由此可知，本申请确定候选帧图像序列的一系列操作避免了运算冗余，提高了图像识别效率。

在另外的实施例中，如图12所示，还可以根据如下步骤确定关键帧图像的图像特征，详情包括步骤S41121至步骤S41122，详细介绍如下：

步骤S41121，提取候选帧图像序列中各候选帧图像的图像特征，并计算候选帧图像序列中任两候选帧图像之间的第一图像特征相似度。

图像特征是指基于对候选帧图像进行特征提取得到。

第一图像特征相似度是指两候选帧图像之间的特征相似程度。

服务器对候选帧图像序列中各候选帧图像进行特征提取，得到各候选帧图像的图像特征，并计算候选帧图像序列中任两候选帧图像之间的第一图像特征相似度。示例性的，服务器可利用深度神经网络模型对候选帧图像序列中各候选帧图像进行特征提取，得到各候选帧图像的图像特征。

步骤S41122，若第一图像特征相似度小于第一相似度阈值，则删除两候选帧图像中的任一帧图像，得到关键帧图像。

第一相似度阈值是用于确定两候选帧图像是否相似的数值。需要说明的是，该数值可以人为设定。

服务器基于确定的任两候选帧图像之间的第一图像特征相似度，判断候选帧图像序列中任两候选帧图像之间的第一图像特征相似度是否小于第一相似度阈值，若是，则删除两候选帧图像中的任一帧图像，并确定剩余候选帧图像为关键帧图像，若否，则确定两候选帧图像为关键帧图像。

可以看出，本实施例的视频推荐方法通过确定候选帧图像序列中各候选帧图像的图像特征，并确定候选帧图像序列中任两候选帧图像之间的第一图像特征相似度；若第一图像特征相似度小于第一相似度阈值，则删除两候选帧图像中的任一帧图像，得到关键帧图像。由此可知，本申请通过候选帧图像之间的相似度删除候选帧图像序列中相同或相似的图像，避免了运算冗余，提高了图像识别效率。

图13是根据另一示例性实施例示出的一种视频推荐方法的流程图。在图13所示的实施例中，视频的第一类别结果具体是根据关键帧图像的图像特征与包含已知类别的预设图像特征之间的特征相似度得到，获取用于进行视频推荐的目标类别结果的其他步骤请参阅前述实施例中描述的内容，本处不进行赘述。

如图13所示，在一示例性实施例中，步骤S420对所述图像特征和包含已知类别的预设图像特征进行特征匹配处理，并根据得到的匹配结果获取所述视频的第一类别结果的过程至少还包括步骤S421至步骤S422，详细介绍如下：

步骤S421，计算关键帧图像的图像特征与包含已知类别的预设图像特征之间的第二图像特征相似度。

预设图像特征是指预先设置图像的图像特征。示例性的，可以是预先设置的样本数据库中样本的样本特征。需要说明的是，样本数据库中不仅包括图像样本的样本特征，也包括文本样本的样本特征。另外需要说明的是，为了维护样本数据库中的样本，服务器可定期更新样本数据库中的图像或文字样本。进一步需要说明的是，服务器还可将提取的关键帧图像的图像特征保存至样本数据库，也可将文本信息的文本特征保存至样本数据库，以实现持续更新样本数据库。

第二图像特征相似度可以是用于表示关键帧图像与预设图像之间的图像特征相似程度的数值。示例性的，可以是关键帧图像与预设图像在形状特征上的相似度数值，也可以是关键帧图像与预设图像在结构特征上的相似度数值。本申请实施例对此不进行限定。

服务器计算关键帧图像的图像特征与预设图像的图像特征之间的第二图像特征相似度。示例性的，服务器计算关键帧图像的形状特征与预设图像的形状特征之间的形状特征相似度，服务器还可计算关键帧图像的结构特征与预设图像的结构特征之间的结构特征相似度。

步骤S422，若第二图像特征相似度大于第二相似度阈值，则生成视频的第一类别结果。

第二相似度阈值用于确定关键帧图像与预设图像之间是否相似的数值。需要说明的是，该数值可以人为设定。

服务器基于确定的关键帧图像的图像特征与预设图像特征之间的第二图像特征相似度，判断第二图像特征相似度是否大于第二相似度阈值，若是，则生成关键帧图像的第一类别结果，若否，则表明关键帧图像与预设图像之间不相似。

另外需要说明的是，服务器可基于深度神经网络对关键帧图像进行特征提取，得到关键帧图像的特征信息。进一步需要说明的是，服务器可基于深度神经网络对关键帧图像进行形状、结构或其他等多方面的特征提取，并利用关键帧图像在形状、解构或其他上的特征匹配预设样本数据库中的特征样本，得到关键帧图像的第一类别结果。

可以看出，本实施例的视频推荐方法通过对关键帧图像进行图像特征提取，得到关键帧图像的图像特征；计算关键帧图像的图像特征与预设图像特征之间的第二图像特征相似度；若第二图像特征相似度大于第二相似度阈值，则生成关键帧图像的第一类别结果。由此可知，本申请利用关键帧图像与预设图像之间的图像特征相似度确定视频的第一类别结果的方式，有利于识别的准确性。

图14是根据另一示例性实施例示出的一种视频推荐方法的流程图。在图14所示的实施例中，视频的第二类别结果具体是根据视频中的音频信息确定的第一子文本信息和视频中包含文字信息的图像帧确定的第二子文本信息分类得到，获取用于进行视频推荐的目标类别结果的其他步骤请参阅前述实施例中描述的内容，本处不进行赘述。

如图14所示，在一示例性实施例中，步骤S430中获取视频中的文本信息，并对文本信息进行文本分类，得到视频的第二类别结果的过程至少还包括步骤S431至步骤S433，详细介绍如下：

步骤S431,获取视频中的音频信息，并对音频信息进行转文处理，得到第一子文本信息。

音频信息是指视频中包含的声音信息。示例性的，采访视频A中采访者和被采访者的声音信息。

转文处理是指将视频中的音频信息转化为文字信息。

第一子文本信息是指基于音频信息进行转文处理得到的文字信息。示例性的，采访者视频A中的音频信息转文处理后的文字信息为“加油”。

服务器提取视频中的音频信息，并对音频信息进行文字识别处理，获取第一子文本信息。

步骤S432，获取视频中包含文字信息的图像帧，并对包含文字信息的图像帧进行转文处理，得到第二子文本信息。

包含文字信息的图像帧是指显示有文字信息的图像帧。示例性的，某电视剧片段上显示的台词。

第二子文本信息是指基于图像帧进行转文处理得到的文字信息。示例性的，将某电视剧片段上显示的台词转化为文字信息。

考虑到视频中的图像帧中可能存在文字信息，为了提高视频推荐准确性，本申请实施例的服务器对包含文字信息的图像帧进行转文处理，得到第二子文本信息。需要说明的是，服务器可利用视频OCR技术对视频中包含文字信息的图像进行文字识别处理，得到第二子文本信息。

步骤S433，基于第一子文本信息和第二子文本信息进行文本分类，得到视频的第二类别结果。

文本分类是指基于文本信息进行类别识别处理。

服务器通过对第一子文本信息和第二子文本信息进行类别识别处理，得到视频的第二类别结果。示例性的，服务器可通过对文本信息进行分词处理，进而根据分词处理后的关键词与样本数据库中对应类别的预设关键词之间的匹配程度，获取视频的第二类别结果。

可以看出，本申请实施例的视频推荐方法基于视频中的音频信息转文处理确定的第一子文本信息和视频中的包含文本信息的图像帧转文处理确定的第二子文本信息进行文本分类处理，进而获取视频的第二类别结果，由此可知，基于视频中的音频信息和图像帧中的文本信息共同确定的第二类别结果提高了类别识别的准确性。

由于文本信息识别的方式多样化，本申请实施例采用多种识别方式对包含第一子文本信息和第二子文本信息的文本信息进行类别识别处理。示例性的，服务器可通过文本信息与包含已知类别的预设文本信息之间的文本特征相似度确定文本信息的第二类别结果；服务器还可以通过文本信息中的关键信息进行检索，以确定文本信息的第二类别结果；或者，服务器还可对文本信息进行分词识别处理，确定文本信息的第二类别结果。需要说明的是，服务器可利用上述任一种确定文本信息的第二类别结果；还可结合上述三种方式中的任二种确定文本信息的第二类别结果；或者，服务器利用上述三种方式综合确定文本信息的第二类别结果。详情参阅以下解决方案。

在另外的实施例中，如图15所示，基于第一子文本信息和第二子文本信息进行文本分类，得到视频的第二类别结果的过程至少还包括步骤S4331至步骤S4332，详细介绍如下：

步骤S4331，分别对第一子文本信息和第二子文本信息进行文本特征提取处理，得到第一子文本信息的文本特征和第二子文本信息的文本特征。

第一子文本信息的文本特征是指基于对第一子文本信息进行文本特征提取得到。

第二子文本信息的文本特征是指基于对第二子文本信息进行文本特征提取得到。

服务器对音转文或包含文字信息的图像帧转文的文本信息进行特征提取，获取第一子文本信息的文本特征和第二子文本信息的文本特征。示例性的，服务器可利用深度神经网络模型分别对第一子文本信息和第二子文本信息进行特征提取。

步骤S4332，计算文本特征与包含已知类别的预设文本特征之间的文本特征相似度。

预设文本特征是预先设置文本的的特征信息。示例性的，可以是预先设置的样本数据库中样本的样本特征。需要说明的是，样本数据库中不仅包括图像样本的样本特征，也包括文本样本的样本特征。

服务器计算文本特征与预设文本特征之间的文本特征相似度，也即服务器计算文本特征与预设样本数据库中样本的文本特征之间的相似度。

步骤S4333，若文本特征相似度大于第三相似度阈值，则生成视频的第二类别结果。

第三相似度阈值是用于确定第一子文本信息的文本特征和第二子文本信息的文本特征是否相似于预设文本特征的数值。需要说明的是，该数值可以人为设定。

服务器基于确定的第一子文本信息的文本特征和第二子文本信息的文本特征与预设文本特征之间的文本特征相似度，判断文本特征相似度是否大于第三相似度阈值，若是，则生成视频的第二类别结果，若否，则表明第一子文本信息的文本特征和第二子文本信息的文本特征与预设文本特征之间不相似。

可以看出，本实施例的视频推荐方法通过第一子文本信息和第二子文本信息与预设文本信息之间的文本特征相似度获取视频的第二类别结果，也即根据第一子文本信息的文本特征和第二子文本信息的文本特征与预设样本数据库中样本的文本特征之间的文本特征相似度获取视频的第二类别结果，有利于第一子文本信息和第二子文本信息类别识别的准确性。

在另外的实施例中，如图16所示，基于第一子文本信息和第二子文本信息进行文本分类，得到视频的第二类别结果的过程至少还包括步骤S4334至步骤S4335，详细介绍如下：

步骤S4334，对第一子文本信息和第二子文本信息进行预处理，得到预处理后的第一子文本信息和预处理后的第二子文本信息。

预处理是指对第一子文本信息和第二子文本信息进行分词处理。例如，文本信息为ABCDE，预处理即将文本信息分为AB、C、DE。

服务器对第一子文本信息和第二子文本信息进行分词处理，方便根据预处理后的第一子文本信息和预处理后的第二子文本信息进行类别识别，进而提高文本信息识别效率。

步骤S4335，对预处理后的第一子文本信息和预处理后的第二子文本信息文本信息进行识别处理，得到视频的第二类别结果。

服务器对预处理后的第一子文本信息和预处理后的第二子文本信息进行识别处理，也即对分词处理后的第一子文本信息和分词处理后的第二子文本信息进行识别处理，得到视频的第二类别结果。例如，继续以步骤S4333中的例子为例，服务器利用分词处理后的AB、C、DE进行识别处理，即可以利用AB进行类别识别处理，也可以利用DE进行识别处理，利于得到第二类别结果。

可以看出，本实施例的视频推荐方法通过对第一子文本信息和第二子文本信息进行分词处理，进而对分词处理后的第一子文本信息和分词处理后的第二子文本信息进行文本识别，相较于将第一子文本信息和第二子文本信息进行整体识别来说，分词识别有利于确定视频的第二类别结果，进而提高识别效率及准确性。

在另外的实施例中，如图17所示，基于第一子文本信息和第二子文本信息进行文本分类，得到视频的第二类别结果的过程至少还包括步骤S4336至步骤S4337，详细介绍如下：

步骤S4336，对第一子文本信息和第二子文本信息进行关键信息识别，得到第一子文本信息和第二子文本信息中分别包含的关键信息。

关键信息是指第一子文本信息和第二子文本信息中的关键词信息。例如，文本信息为ABCDE，关键信息为BC。

服务器分别对第一子文本信息和第二子文本信息进行关键词识别，得到第一子文本信息中的关键信息和第二子文本信息中的关键信息，进而方便利用第一子文本信息中的关键信息和第二子文本信息中的关键信息进行检索处理。

步骤S4337，利用关键信息进行检索处理，并根据得到的检索结果生成第二类别结果。

检索结果可以是指第一子文本信息中的关键信息和第二子文本信息中的关键信息与预设样本数据库中的样本文本信息匹配的文本信息。

服务器基于第一子文本信息中的关键信息和第二子文本信息中的关键信息在预设数据库中确定与之匹配的样本文本信息，并基于样本数据库中匹配的样本文本信息的所属类别确定视频的第二类别结果。

可以看出，本实施例的视频推荐方法通过对第一子文本信息和第二子文本信息进行关键信息识别处理，并对第一子文本信息中的关键信息和第二子文本信息中的关键信息进行检索处理，得到视频的第二类别结果，也即，服务器利用第一子文本信息中的关键信息和第二子文本信息中的关键信息与样本数据库中的样本文本信息进行匹配处理，得到能够用于确定文本信息的样本信息，相较于利用整个文本信息于样本数据库中进行匹配检索来说，关键信息检索有利于提高识别效率及准确性。

为了清楚描述以上实施例，以下基于图18中的具体流程图对上述实施例进行说明。如图18所示，服务器获取视频，并将视频内容拆解为图像、音频、文字信息等数据，并根据图像、音频、文字信息等数据与样本数据库中对应样本之间的匹配进行分类，进而基于图像、音频、文字信息的类别识别结果进行相关类别的可能性判断，尽可能剥离用户在搜索视频时可能出现的无关视频内容，进而减少用户的搜索时间，降低时间成本，提高使用体验感。

一方面，服务器对视频中的图像进行抽帧处理，得到图像帧序列，并比对图像帧序列中的相邻图像帧之间的色差程度，进而得到候选帧图像序列，而后对候选帧图像序列中的相同或相似图像进行去重处理，得到关键帧图像，再尔对关键帧图像从形状、解构以及复杂特征等多方面进行特征点提取，并计算关键帧图像的图像特征与包含已知类别的预设图像特征之间的第二图像特征相似度，若第二图像特征相似度大于第二相似度阈值，获取第一类别结果。

另一方面，服务器对音频信息进行音转文处理，得到第一子文本信息，并对包含文字信息的图像进行转文处理，得到第二子文本信息，并根据包含第一子文本信息和第二子文本信息的文本信息与包含已知类别的预设文本特征之间的文本特征相似度确定视频的第二类别结果。或者，对包含第一子文本信息和第二子文本信息的文本进行预处理，得到预处理后的第一子文本信息和预处理后的第二子文本信息，并对预处理后的第一子文本信息和预处理后的第二子文本信息进行识别处理，得到视频的第二类别结果。再或者，对包含第一子文本信息和第二子文本信息的文本信息进行关键信息识别，得到第一子文本信息和第二子文本信息中分别包含的关键信息；利用关键信息进行检索处理，并根据得到的检索结果生成第二类别结果。

服务器汇总第一类别结果和第二类别结果，得到用于视频推荐的目标类别结果。详情可参阅图19，图19中示出了基于目标类别结果进行视频推荐的效果示意图。其中，推荐内容下的“你是我的荣耀”等即为上述的目标类别结果。

需要说明的是，根据文本信息确定第二类别结果的方式如下：服务器根据文本信息与预设文本信息之间的文本特征相似度确定文本信息的第二类别结果；或者，服务器通过文本信息中的关键信息进行检索，以确定文本信息的第二类别结果；以及，服务器对文本信息进行分词识别处理，确定文本信息的第二类别结果。

图20是本申请的一示例性实施例示出的视频推荐装置的框图。该视频推荐装置可以应用于图3所示的实施环境。该视频推荐装置也可以适用于其它的示例性实施环境，本实施例不对该基于视频内容识别的推荐装置所适用的实施环境进行限制。

如图20所示，该示例性的视频推荐装置2000包括获取模块2010、图像分类模块2020、文本分类模块2030以及汇总模块2040，具体地：

获取模块2010，配置为获取视频中各图像帧的图像特征。

图像分类模块2020，配置为对图像特征与预设图像特征进行特征匹配处理，并根据得到的匹配结果获取视频的第一类别结果。

文本分类模块2030，配置为获取视频中的文本信息，并对文本信息进行文本分类，得到视频的第二类别结果。

汇总模块2040，配置为汇总第一类别结果和第二类别结果得到目标类别结果，目标类别结果用于对视频进行推荐。

在该示例性的视频推荐装置中，根据视频中关键帧图像的图像特征与包含已知类别的预设图像特征之间的匹配结果获取的第一类别结果和根据视频中的文本信息获取的第二类别结果确定目标类别结果，进而根据目标类别结果进行视频推荐，可以看出相较于本申请仅根据视频上传者对视频的文字描述确定推荐视频来说，本申请是基于视频中的关键帧图像和文本信息两者的类别识别结果确定目标类别结果，并根据目标类别结果推荐视频，实现基于视频内容识别得到用于更精确进行视频推荐的目标类别结果，提高了视频推荐的准确性。

在上述示例性的实施例基础上，获取模块2010还包括筛选模块和特征提取模块。具体的：

筛选模块，配置为对视频包含的图像帧进行筛选处理，得到视频的关键帧图像。

去重模块模块，配置为对关键帧图像进行图像特征提取，得到关键帧图像的图像特征。

在该示例性的视频推荐装置中，通过提取确定的关键帧图像的图像特征，得到关键帧图像的图像特征，进而根据关键帧图像的图像特征获取视频的第一类别结果，相较于根据视频中的所有图像帧进行分类处理来说，本申请基于确定的关键帧图像的图像特征进行分类处理避免了计算冗余，提高了视频推荐的效率。

在上述示例性的实施例基础上，筛选模块包括选出模块和去重处理模块。具体的：

选出模块，配置为从视频包含的图像帧中选出候选帧图像序列。

去重处理模块，配置为对候选帧图像序列进行去重处理，将去重处理后的候选帧图像序列中包含的图像帧作为关键帧图像。

在该示例性的视频推荐装置中，通过从视频的各图像帧中选出候选帧图像序列；并对候选帧图像序列进行去重处理，得到去重处理后的候选帧图像序列，也即包含关键帧图像的图像序列。由此可知，基于候选帧图像序列获取关键帧图像的系列操作避免了利用相同或相似图像进行识别处理而造成运算冗余，提高了图像识别效率。

在上述示例性的实施例基础上，选出模块包括抽帧模块、色差确定模块和删除模块。具体的：

抽帧模块，配置为对视频进行抽帧处理，得到图像帧序列。

色差确定模块，配置为确定图像帧序列中相邻图像帧之间的色差程度。

删除模块，配置为若色差程度大于预设色差阈值，则删除相邻图像帧中的任一图像帧，得到候选帧图像序列。

在该示例性的视频推荐装置中，通过对视频进行抽帧处理，确定图像帧序列，在基于图像帧序列中相邻图像帧之间的色差程度确定候选帧图像序列，由此可知，本申请确定候选帧图像序列的一系列操作避免了运算冗余，提高了图像识别效率。

在上述示例性的实施例基础上，去重处理模块包括计算模块和判断删除模块。具体的：

计算模块，配置为提取候选帧图像序列中各候选帧图像的图像特征，并计算候选帧图像序列中任两个候选帧图像之间的第一图像特征相似度。

判断删除模块，配置为若第一图像特征相似度小于第一相似度阈值，则删除两候选帧图像中的任一帧图像，得到关键帧图像。

在该示例性的视频推荐装置中，通过确定候选帧图像序列中各候选帧图像的图像特征，并确定候选帧图像序列中任两候选帧图像之间的第一图像特征相似度；若第一图像特征相似度小于第一相似度阈值，则删除两候选帧图像中的任一帧图像，得到关键帧图像。由此可知，本申请通过候选帧图像之间的相似度删除候选帧图像序列中相同或相似的图像，避免了运算冗余，提高了图像识别效率。

在上述示例性的实施例基础上，图像分类模块2020包括第二图像特征相似度计算模块和第二图像特征相似度判断模块。具体的：

第二图像特征相似度计算模块，配置为计算图像特征与包含已知类别的预设图像特征之间的第二图像特征相似度。

第二图像特征相似度判断模块，配置为若第二图像特征相似度大于第二相似度阈值，则生成关键帧图像的第一类别结果。

在该示例性的视频推荐装置中，通过对关键帧图像进行图像特征提取，得到关键帧图像的图像特征；计算关键帧图像的图像特征与预设图像特征之间的第二图像特征相似度；若第二图像特征相似度大于第二相似度阈值，则生成关键帧图像的第一类别结果。由此可知，本申请利用关键帧图像与预设图像之间的图像特征相似度确定视频的第一类别结果的方式，有利于识别的准确性。

在上述示例性的实施例基础上，文本分类模块2030包括第一子文本信息获取模块、第二子文本信息获取模块和第二分类结果确定模块。具体的：

第一子文本信息获取模块，配置为获取视频中的音频信息，并对音频信息进行转文处理，得到第一子文本信息。

第二子文本信息获取模块，配置为获取视频中包含文字信息的图像帧，并对包含文字信息的图像帧进行转文处理，得到第二子文本信息。

第二分类结果确定模块，配置为基于第一子文本信息和第二子文本信息进行文本分类，得到视频的第二类别结果。

在该示例性的视频推荐装置中，基于视频中的音频信息转文处理确定的第一子文本信息和视频中的包含文本信息的图像帧转文处理确定的第二子文本信息进行文本分类处理，进而获取视频的第二类别结果，提高了基于视频中的音频信息和图像帧中的文本信息共同确定的第二类别结果的准确性。

在上述示例性的实施例基础上，第二分类结果确定模块包括文本特征提取模块、文本特征相似度计算模块和文本特征相似度判断模块。具体的：

文本特征提取模块，配置为分别对第一子文本信息和第二子文本信息进行文本特征提取处理，得到第一子文本信息的文本特征和第二子文本信息的文本特征。

文本特征相似度计算模块，配置为计算文本特征与包含已知类别的预设文本特征之间的文本特征相似度。

文本特征相似度判断，配置为若文本特征相似度大于第三相似度阈值，则生成视频的第二类别结果。

在该示例性的视频推荐装置中，通过第一子文本信息和第二子文本信息与预设文本信息之间的文本特征相似度获取视频的第二类别结果，也即第一子文本信息的文本特征和第二子文本信息的文本特征与预设样本数据库中样本的文本特征之间的文本特征相似度获取视频的第二类别结果，有利于第一子文本信息和第二子文本信息类别识别的准确性。

在上述示例性的实施例基础上，第二分类结果确定模块包括文本预处理模块和预处理后的识别模块。具体的：

文本预处理模块，配置为对第一子文本信息和第二子文本信息进行预处理，得到预处理后的第一子文本信息和预处理后的第二子文本信息，预处理包括分词处理。

预处理后的识别模块，配置为对预处理后的第一子文本信息和预处理后的第二子文本信息进行识别处理，得到视频的第二类别结果。

在该示例性的视频推荐装置中，通过对第一子文本信息和第二子文本信息进行分词处理，进而对分词处理后的第一子文本信息和分词处理后的第二子文本信息进行文本识别，相较于将第一子文本信息和第二子文本信息进行整体识别来说，分词识别有利于确定视频的第二类别结果，进而提高识别效率及准确性。

在上述示例性的实施例基础上，第二分类结果确定模块包括关键信息识别模块和检索模块。具体的：

关键信息识别模块，配置为对第一子文本信息和第二子文本信息进行关键信息识别，得到第一子文本信息和第二子文本信息中分别包含的关键信息。

检索模块，配置为利用关键信息进行检索处理，并根据得到的检索结果生成第二类别结果。

在该示例性的视频推荐装置中，通过对第一子文本信息和第二子文本信息进行关键信息识别处理，并对第一子文本信息中的关键信息和第二子文本信息中的关键信息进行检索处理，得到视频的第二类别结果，也即，服务器利用第一子文本信息中的关键信息和第二子文本信息中的关键信息与样本数据库中的样本文本信息进行匹配处理，得到能够用于确定文本信息的样本信息，相较于利用整个文本信息于样本数据库中进行匹配检索来说，关键信息检索有利于提高识别效率及准确性。

需要说明的是，上述实施例所提供的视频荐装置与上述实施例所提供的视频推荐方法属于同一构思，其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。上述实施例所提供的视频推荐装置在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能，本处也不对此进行限制。

本申请的实施例还提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现上述各个实施例中提供的视频推荐方法。

图21示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。需要说明的是，图21示出的电子设备的计算机系统2100仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图21所示，计算机系统2100包括中央处理单元(Central Processing Unit，CPU)2101，其可以根据存储在只读存储器(Read-Only Memory，ROM)2102中的程序或者从储存部分2108加载到随机访问存储器(Random Access Memory，RAM)2103中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 2103中，还存储有系统操作所需的各种程序和数据。CPU 2101、ROM 2102以及RAM 2103通过总线2104彼此相连。输入/输出(Input/Output，I/O)接口2105也连接至总线2104。

以下部件连接至I/O接口2105：包括键盘、鼠标等的输入部分2106；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分2107；包括硬盘等的储存部分2108；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分2109。通信部分2109经由诸如因特网的网络执行通信处理。驱动器2110也根据需要连接至I/O接口2105。可拆卸介质2111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器2110上，以便于从其上读出的计算机程序根据需要被安装入储存部分2108。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分2109从网络上被下载和安装，和/或从可拆卸介质2111被安装。在该计算机程序被中央处理单元(CPU)2101执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

本申请的另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前所述的视频推荐方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的，也可以是单独存在，而未装配入该电子设备中。

本申请的另一方面还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个实施例中提供的视频推荐方法。

上述内容，仅为本申请的较佳示例性实施例，并非用于限制本申请的实施方案，本领域普通技术人员根据本申请的主要构思和精神，可以十分方便地进行相应的变通或修改，故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种视频推荐方法，其特征在于，所述方法包括：

获取视频中关键帧图像的图像特征；

对所述图像特征和包含已知类别的预设图像特征进行特征匹配处理，并根据得到的匹配结果获取所述视频的第一类别结果，其中，所述已知类别的预设图像特征包括预设的样本数据库中所包含样本的样本特征，所述样本数据库中包含的样本包括图像样本和文本样本中的至少一种；

获取所述视频中的文本信息，并对所述文本信息进行文本分类，得到所述视频的第二类别结果；

汇总所述第一类别结果和所述第二类别结果得到目标类别结果，所述目标类别结果用于对所述视频进行推荐。

2.根据权利要求1所述的方法，其特征在于，所述获取视频中关键帧图像的图像特征的步骤，包括：

对所述视频包含的图像帧进行筛选处理，得到所述视频的关键帧图像；

对所述关键帧图像进行图像特征提取，得到所述关键帧图像的图像特征。

3.根据权利要求2所述的方法，其特征在于，所述对所述视频进行筛选处理，得到所述视频的关键帧图像的步骤，包括：

从所述视频包含的图像帧中选出候选帧图像序列；

对所述候选帧图像序列进行去重处理，将去重处理后的候选帧图像序列中包含的图像帧作为所述关键帧图像。

4.根据权利要求3所述的方法，其特征在于，所述从所述视频包含的图像帧中选出候选帧图像序列的步骤，包括：

对所述视频进行抽帧处理，得到图像帧序列；

确定所述图像帧序列中相邻图像帧之间的色差程度；

若所述色差程度大于预设色差阈值，则删除所述相邻图像帧中的任一图像帧，得到所述候选帧图像序列。

5.根据权利要求3所述的方法，其特征在于，所述对所述候选帧图像序列进行去重处理，将去重后的候选帧图像序列中包含的图像帧作为所述关键帧图像的步骤，包括:

提取所述候选帧图像序列中各候选帧图像的图像特征，并计算所述候选帧图像序列中任两个候选帧图像之间的第一图像特征相似度；

若所述第一图像特征相似度小于第一相似度阈值，则删除所述两候选帧图像中的任一帧图像，得到所述关键帧图像。

6.根据权利要求1所述的方法，其特征在于，所述对所述图像特征和包含已知类别的预设图像特征进行特征匹配处理，并根据得到的匹配结果获取所述视频的第一类别结果的步骤，包括：

计算所述图像特征与所述包含已知类别的预设图像特征之间的第二图像特征相似度；

若所述第二图像特征相似度大于第二相似度阈值，则生成所述关键帧图像的第一类别结果。

7.根据权利要求1所述的方法，其特征在于，所述获取视频中的文本信息，并对所述文本信息进行文本分类，得到所述视频的第二类别结果的步骤，包括：

获取所述视频中的音频信息，并对所述音频信息进行转文处理，得到第一子文本信息；

获取所述视频中包含文字信息的图像帧，并对所述包含文字信息的图像帧进行转文处理，得到第二子文本信息；

基于所述第一子文本信息和所述第二子文本信息进行文本分类，得到所述视频的第二类别结果。

8.根据权利要求7所述的方法，其特征在于，所述基于所述第一子文本信息和所述第二子文本信息进行文本分类，得到所述视频的第二类别结果的步骤，包括：

分别对所述第一子文本信息和所述第二子文本信息进行文本特征提取处理，得到所述第一子文本信息的文本特征和所述第二子文本信息的文本特征；

计算所述文本特征与包含已知类别的预设文本特征之间的文本特征相似度；

若所述文本特征相似度大于第三相似度阈值，则生成所述视频的第二类别结果。

9.根据权利要求7所述的方法，其特征在于，所述基于所述第一子文本信息和所述第二子文本信息进行文本分类，得到所述视频的第二类别结果的步骤，包括：

对所述第一子文本信息和所述第二子文本信息进行预处理，得到预处理后的第一子文本信息和预处理后的第二子文本信息，所述预处理包括分词处理；

对所述预处理后的第一子文本信息和所述预处理后的第二子文本信息进行识别处理，得到所述视频的第二类别结果。

10.根据权利要求1所述的方法，其特征在于，所述基于所述第一子文本信息和所述第二子文本信息进行文本分类，得到所述视频的第二类别结果的步骤，包括：

对所述第一子文本信息和所述第二子文本信息进行关键信息识别，得到所述第一子文本信息和所述第二子文本信息中分别包含的关键信息；

利用所述关键信息进行检索处理，并根据得到的检索结果生成所述第二类别结果。

11.一种视频推荐装置，其特征在于，所述装置包括：

获取模块，配置为获取视频中各图像帧的图像特征；

图像分类模块，配置为对所述图像特征与包含已知类别的预设图像特征进行特征匹配处理，并根据得到的匹配结果获取所述视频的第一类别结果，其中，所述已知类别的预设图像特征包括预设的样本数据库中所包含样本的样本特征，所述样本数据库中包含的样本包括图像样本和文本样本中的至少一种；

文本分类模块，配置为获取所述视频中的文本信息，并对所述文本信息进行文本分类，得到所述视频的第二类别结果；

汇总模块，配置为汇总所述第一类别结果和所述第二类别结果得到目标类别结果，所述目标类别结果用于对所述视频进行推荐。

12.一种电子设备，其特征在于，包括：

存储器，存储有计算机可读指令；

处理器，读取存储器存储的计算机可读指令，以执行权利要求1-10中的任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1-10中的任一项所述的方法。

14.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法。