CN110149558A

CN110149558A - 一种基于内容识别的视频播放实时推荐方法及系统

Info

Publication number: CN110149558A
Application number: CN201810871605.6A
Authority: CN
Inventors: 熊玉辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-08-02
Filing date: 2018-08-02
Publication date: 2019-08-20
Anticipated expiration: 2038-08-02
Also published as: CN110149558B

Abstract

本发明提出了一种基于内容识别的视频播放实时推荐方法和装置及系统。其中，方法包括：获取播放信息，所述播放信息包括播放视频的识别标识和当前播放进度的信息；将所述播放信息上传到内容推荐服务器；接收所述内容推荐服务器返回的推荐信息，所述推荐信息与所述播放视频的当前播放进度的内容具有共同的视频特征；根据所述推荐信息在播放界面进行实时推荐。据此，可以边播边推荐，在视频播放过程中为用户提供更多的推荐视频信息，并且推荐视频的内容与正在播放的内容强相关。

Description

一种基于内容识别的视频播放实时推荐方法及系统

技术领域

本发明涉及视频信息处理技术领域，尤其涉及一种基于内容识别的视频播放实时推荐方法及系统。

背景技术

当前在长视频类应用中，向用户进行相关片源的个性化推荐有两种场景：一是在非播放页面中的一些固定位置进行推荐，当用户进入这些页面时拉取推荐的影片进行展示。在长视频产品形态下，用户需要退出播放，回到专门的运营或者推荐页面才能看到，存在操作路径长、推荐曝光率低、点击率低等问题。第二种在播放场景下的推荐是在用户选定的影片内容开始前或结束后进行推荐，此类型推荐的视频大都是产品运营人员根据广告需求和当前热门视频等配置的，与当前播放视频内容本身不一定有关联。

参见图1，其中示出了现有的推荐位视频被用户播放的过程。在用户触发推荐播放的流程中，从当前播放到推荐内容播放至少需要四步——查找推荐位、观察推荐位展示、点击播放和退出播放。并且，受限于页面的尺寸，当前页面推荐的内容个数有限，用户需要更多的点击和翻页操作才能看到更多推荐内容。以腾讯视频TV版为例，用户进入视频详情页后需点击6次，才能看到为其推荐的内容，而每个页面每次展示内容仅为7个视频，需用户手动翻页才能看到更多。这种推荐方式的下，页面可推荐的影片总数量少，推荐影片曝光率低，并且推荐转化成播放行为的概率低。当用户观影目的很明确的时候，这些问题尤其突出。

而在影片播放前后，由视频网站的运营商配置固定的推荐片源的场景下，由于推荐内容与当前播放的影片关联性不大，且对所有用户推荐的内容都是一样的。并且，推荐过程会延迟用户观看目的影片的时间，或者间断跳转下一个视频观看的过程，很类似广告，用户体验差。且一次用户播放行为最多在播放前后两处进行推荐，可推荐的内容有限。

发明内容

本发明旨在至少在一定程度上解决上述相关技术中的技术问题之一。提供一种操作路径短，且推荐内容与播放内容强相关的，基于内容识别的视频播放实时推荐方法及装置。

为了达到上述目的，根据本发明第一方面的实施例提出了一种基于内容识别的视频播放实时推荐方法。所述方法在播放客户端侧和内容推荐服务器侧分别执行相应的操作。

其中，所述基于内容识别的视频播放实时推荐方法的播放客户端侧的方法包括：获取播放信息，所述播放信息包括播放视频的识别标识和当前播放进度的信息；将所述播放信息上传到内容推荐服务器；接收所述内容推荐服务器返回的推荐信息，所述推荐信息与所述播放视频的当前播放进度的内容具有共同的视频特征；根据所述推荐信息在播放界面进行实时推荐。

在一些实施例中，所述播放视频按照预定义规则划分为多个时间分片；所述获取播放信息，所述播放信息包括播放视频的识别标识和当前播放进度的信息，其中，当前播放进度的信息包括：当前播放时间点所在的当前时间分片的标识以及当前播放进度包含的待播放的时间分片数N，N为正整数；所述接收所述内容推荐服务器返回的推荐信息，包括：接收所述内容推荐服务器返回的，与所述待播放的N个时间分片对应的分片推荐信息，其中，每个时间分片对应的分片推荐信息包括与所述时间分片的内容具有共同的视频特征的至少一条推荐视频的信息；所述根据所述推荐信息在播放界面进行实时推荐，包括：从当前播放时间点所在的时间分片对应的分片推荐信息中随机选择一条推荐视频的信息进行展示。

在一些实施例中，所述获取播放信息，所述播放信息包括播放视频的识别标识和当前播放进度的信息，还包括：获取当前进行视频播放的终端的登录账号；接收所述内容推荐服务器返回的推荐信息，包括：接收所述内容推荐服务器返回的，与所述播放视频的当前播放进度的内容具有共同的视频特征的，且与所述终端的登录账号对应的用户画像相匹配的推荐信息。

在一些实施例中，所述根据所述推荐信息在播放界面进行实时推荐，包括：根据所述推荐信息确定当前播放时间点对应显示的推荐提示文本；显示所述提示文本，并在所述提示文本上设置超级链接，所述超级链接被点击后，跳转到所述推荐视频的片源播放页面。

所述基于内容识别的视频播放实时推荐方法的播放客户端侧的方法包括：接收播放客户端上传的播放信息，所述播放信息包括播放视频的识别标识和当前播放进度的信息；根据所述播放信息生成对应的推荐信息，所述推荐信息与所述播放视频的当前播放进度的内容具有共同的视频特征；将所述推荐信息发送到播放客户端。

在一些实施例中，所述播放视频按照预定义规则划分为多个时间分片；所述接收播放客户端上传的播放信息，所述播放信息包括播放视频的识别标识和当前播放进度的信息，其中，当前播放进度的信息包括：当前播放时间点所在的时间分片的标识以及待播放的时间分片数 N，N为正整数；所述根据所述播放信息生成对应的推荐信息，包括：生成与所述待播放的 N个时间分片对应的分片推荐信息，其中，每个时间分片对应的分片推荐信息包括与所述时间分片的内容具有共同的视频特征的至少一条推荐视频的信息；根据所述分片推荐信息生成与所述播放信息对应的推荐信息。

在一些实施例中，所述接收播放客户端上传的播放信息，所述播放信息包括播放视频的识别标识和当前播放进度的信息，还包括：接收当前进行视频播放的终端的登录账号；所述根据所述播放信息生成对应的推荐信息，包括：生成与所述播放视频的当前播放进度的内容具有共同的视频特征的备选推荐信息；根据所述终端的登录账号，获取与所述登录账号对应的用户画像；选择与所述用户画像匹配的备选推荐信息作为所述播放信息对应的推荐信息。

在一些实施例中，所述生成与所述待播放的N个时间分片对应的分片推荐信息，其中，生成与每个时间分片对应的分片推荐信息包括：根据所述播放视频的识别标识和所述时间分片的识别标识从预先建立的视频特征库中查找与所述播放视频的所述时间分片对应的分片视频特征，将所述分片视频特征作为第一特征；在所述视频特征库中查找视频的整体特征与所述第一特征相匹配的目标视频；将所述目标视频作为推荐视频，并根据所述推荐视频生成分片推荐信息；其中，所述视频特征库中存储有视频的识别标识和视频的整体特征以及视频中各个时间分片的标识和时间分片对应的分片视频特征。

在一些实施例中，所述视频特征库中存储有视频的识别标识和视频的整体特征以及视频中各个时间分片的标识和时间分片对应的分片视频特征，其中，所述时间分片对应的分片视频特征包括按照如下方法获得的分片视频特征：根据视频的识别标识以及时间分片标识获取对应的视频片段；对所述视频片段进行拆帧，获得所述视频片段包含的图片帧的集合；获取所述视频片段的对应的音频信息；根据所述图片帧的集合和所述音频信息进行语义分析，提取所述视频片段对应的分片视频特征。

在一些实施例中，所述根据所述图片帧的集合和所述音频信息进行语义分析，提取所述视频片段对应的分片视频特征，包括：对所述图片帧集合中的各个图片帧进行图像识别，并基于时间轴，对图像识别的结果进行提取，得到所述图片帧集合的文本描述；对所述音频信息进行语音识别，得到所述音频信息对应的音频文本；对所述图片帧集合的文本描述和所述音频文本进行语义分析，提取出其中的视频特征作为分片视频特征。

在一些实施例中，所述对所述图片帧集合中的各个图片帧进行图像识别，并基于时间轴，对图像识别的结果进行提取，得到所述图片帧集合的文本描述，包括：通过深度神经网络对各个图片帧进行人物的人脸识别、服饰特点识别，以及图片中的文字识别、场景识别和自然环境识别中的任意一项或一项以上操作；得到所述图片帧集合的文本描述包括：与演员名称、角色名称、年代特征、地点特征、剧种类型、剧情特征中的任意一项或一项以上相关的文本描述。

在一些实施例中，所述对所述图片帧集合的文本描述和所述音频文本进行语义分析，提取出其中的视频特征作为分片视频特征，包括：对所述音频文本进行命名实体识别得到目标命名实体集合，所述目标命名实体集合包括与角色名称、影片名称、年代特征、地点特征、剧种类型和剧情特征中的任意一项或一项以上相关的命名实体；根据所述目标命名实体集合和所述图片帧集合的文本描述进行语义分析，提取出其中的视频特征作为分片视频特征。

在一些实施例中，对所述音频文本进行命名实体识别得到目标命名实体集合之前，还包括：对所述图片帧集合中的各个图片帧，进行单帧字幕识别；对单帧字幕识别的结果进行去重操作，得到字幕文本；将所述字幕文本和所述音频文本进行比较，根据比较的结果对所述音频文本进行校正。

使用本发明基于内容识别的视频播放实时推荐方法，通过边播放边推荐，和基于时间分片的特征匹配，可以为用户提供与正在观看的内容强相关的推荐视频，并且，在整个视频的播放过程中，能够为用户提供数量更多的推荐视频，拓宽用户视野，为用户提供更丰富的观影体验。同时，用户可通过点击播放页面的推荐展示信息，直接跳转到推荐视频播放界面，缩短了操作路径，简化了操作。通过推荐更多的和更具相关度的视频，以及通过缩短观影操作路径减少漏斗效应，能够增加用户点击推荐影片的概率，最终加大从推荐到播放行为的转化率。从而，增加用户对视频播放平台的使用，有利于视频平台增加用户粘度。

为了更好地实现本发明，根据本发明第二方面的实施例提供了一种基于内容识别的视频播放实时推荐装置和系统。其中所述基于内容识别的视频播放实时推荐装置用于播放客户端，所述一种基于内容识别的视频播放实时推荐系统，用于内容推荐服务器端。

根据本发明的基于内容识别的视频播放实时推荐装置，包括：播放信息获取模块，用于获取播放信息，所述播放信息包括播放视频的识别标识和当前播放进度的信息；播放信息上传模块，用于将所述播放信息上传到内容推荐服务器；推荐信息接收模块，用于接收所述内容推荐服务器返回的推荐信息，所述推荐信息与所述播放视频的当前播放进度的内容具有共同的视频特征；推荐信息展示模块，用于根据所述推荐信息在播放界面进行实时推荐。

根据本发明的基于内容识别的视频播放实时推荐系统，包括：播放信息接收模块，用于接收播放客户端上传的播放信息，所述播放信息包括播放视频的识别标识和当前播放进度的信息；推荐信息生成模块，用于根据所述播放信息生成对应的推荐信息，所述推荐信息与所述播放视频的当前播放进度的内容具有共同的视频特征；推荐信息发送模块，用于将所述推荐信息发送到播放客户端；以及视频特征库，所述视频特征库中存储有视频的识别标识和视频的整体特征以及视频中各个时间分片的标识和时间分片对应的分片视频特征。

使用本发明基于内容识别的视频播放实时推荐装置和系统，通过边播放边推荐，和基于时间分片的特征匹配，可以为用户提供与正在观看的内容强相关的推荐视频，并且，在整个视频的播放过程中，能够为用户提供数量更多的推荐视频，拓宽用户视野，为用户提供更丰富的观影体验。同时，用户可通过点击播放页面的推荐展示信息，直接跳转到推荐视频播放界面，缩短了操作路径，简化了操作。通过推荐更多的和更具相关度的视频，以及通过缩短观影操作路径减少漏斗效应，能够增加用户点击推荐影片的概率，最终加大从推荐到播放行为的转化率。从而，增加用户对视频播放平台的使用，有利于视频平台增加用户粘度。

为了实现上述目的，本发明第三方面实施例提供了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本发明第一方面所述的基于内容识别的视频播放实时推荐方法的播放客户端的方法。

本发明第三方面的实施例还提供了另一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本发明第一方面所述的基于内容识别的视频播放实时推荐方法的内容推荐服务器端的方法。

根据本发明第三的非临时性计算机可读存储介质具有与根据本发明第一和第二方面的基于内容识别的视频播放实时推荐方法和装置类似的有益效果，在此不再赘述。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是现有推荐方法中用户观看推荐视频的操作流程示意图；

图2是本发明的基于内容识别的视频播放系统的架构示意图；

图3是根据本发明实施例的基于内容识别的视频播放实时推荐的工作原理示意图；

图4是根据本发明实施例的基于内容识别的视频播放实时推荐方法的客户端方法的流程示意图；

图5示出了根据本发明实施例的基于内容识别的视频播放实时推荐的场景一；

图6示出了根据本发明实施例的基于内容识别的视频播放实时推荐的场景二；

图7是根据本发明实施例的基于内容识别的视频播放实时推荐方法的服务器端方法的流程示意图；

图8是根据本发明实施例的生成分片推荐信息的流程示意图；

图9是根据本发明实施例的分片视频特征提取方法的流程示意图；

图10是根据本发明实施例的分片视频特征提取过程中的数据处理过程示意图；

图11是分片视频特征、视频整体特征和视频组合整体特征之间的关系示意图；

图12是根据本发明实施例的基于内容识别的视频播放实时推荐装置的结构框图；

图13是根据本发明实施例的基于内容识别的视频播放实时推荐系统的结构框图；

图14是根据本发明实施例的计算设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

由于受限于页面展示空间，现有推荐方式下，当前播放页面只能推荐有限的几个或者十几个视频，更多的视频需要深层的点击操作来获取，推荐视频的播放路径较长，至少需要4 次点击操作，所需的平均点击更是远多于4次。在多次点击实现目标操作的过程中，用户最终完成目标操作的概率随点击的步骤数呈几何级数下降，这种现象可以形象的称为“漏斗效应”。在用户观看推荐视频的场景中，即存在着明显的漏斗效应。那些需要多次点击才能播放的视频，例如，未出现在推荐位首页，而是需要翻页或者拖动才能被看到的视频，其被用户播放的概率将随着操作路径的加深而急剧减小。

如此，从观众用户角度，在播放某一感兴趣的视频时，同时获得相关视频的信息量相对较少，想获得更多推荐需要多次点击，非常不便；从视频运营商角度，由于推荐内容的相关度有限，数量也较少，因此用户在播放当前视频之外，播放其它推荐视频的概率小，无法吸引用户在平台驻留和更多的观影。

针对现有的视频推荐方法的不足之处，本发明提出了一种在视频播放的同时，根据当前播放的内容推荐与之相关的视频，并在播放页面进行实时推荐和提供推荐视频链接的视频推荐方法。从而，一方面通过识别当前播放内容实时调整推荐的内容，使推荐内容与视频内容本身强相关；另一方面用户边播边推荐，同时提供跳转推荐影片观看的入口，缩短用户操作路径，提升用户体验和推荐转化率。

下面参考附图对本发明实施例的基于内容识别的视频播放实时推荐方法和系统进行详细的说明。

在线视频播放系统一般可包括播放客户端和服务器端，二者通过互联网通信，共同配合实现在线视频播放。客户端可为PC上的播放器软件，移动端的应用程序APP、或者是视频网站的播放页面等，用于在终端上播放视频。而服务器端则包括片源数据库以及用于提供用户账户管理、推荐服务等的相关播放服务。

在本发明的实施例中，按照功能的逻辑划分，可将视频播放系统分为应用层、业务层和底层服务与数据层。参见图2，图2是本发明的基于内容识别的视频播放系统的架构示意图。

应用层1用于直接面向用户，根据业务层提供的数据为用户提供播放服务。可以实现为各种播放客户端，例如移动端的应用程序APP、PC上的播放器软件客户端或者是是视频网站的播放页面等各种形式。

业务层2和底层服务与数据层3则可在服务器端实现。其中，业务层2用于提供推荐服务和视频的其它后台服务。底层服务与数据层3包括视频资源库、视频特征库，以及内容识别装置。内容识别装置用于视频资源库中的视频进行内容识别，得到与视频内容对应的视频特征，从而建立和更新视频特征库。

图3是根据本发明实施例的基于内容识别的视频播放实时推荐的工作原理示意图。用户可以通过应用层的各种播放客户端进行视频播放，方框B1中的操作。播放客户端在接受用户指令播放视频时，可将播放视频的视频识别标识和和播放进度信息上传到内容推荐服务器，由内容推荐服务器生成相应的推荐内容，方框B2中的操作。

首先，内容推荐服务器根据播放的视频以及播放进度信息进行视频特征检索。

对于长视频，在不同的播放时段，视频内容可能会差别很大，相应的具有各自不同的特征，统一的概括将不能区分特征的细节。因此，本发明提出，根据预定义规则，对视频按照时间轴进行分片得到多个时间分片。例如，最简捷实现形式的划分可按照时长等分，每个时间分片包含预定义长度的内容。即，所述预定义规则是每个时间分片对应相同的视频时长。或者随着视频语意分析和理解技术的进步，可以按照场景或者镜头转换等，通过机器学习或者基于内容划分时间分片。使每个时间分片中的各个视频帧之间共享较多的视频特征。例如，可以识别每个视频帧图片的背景和前景主体，例如剧情中出现的人物。将背景一致性较高的连续视频内容划分为一个时间分片，因为同一个场景下，视频内容比较接近，具有类似的视频特征，作为后续对视频内容进行特征提取的单位，可以一次性获得相应的推荐内容。又或者。考虑到人物的互动是推动情节发展和内容转变的动因，可将前景的主体人物接近的连续视频内容划分为一个时间分片。从而使同一个时间分片中的语义分析更容易得到有意义的结果，且人物接近的各个视频帧之间更高的概率共享相同的主演演员等视频特征。

在视频特征库的建立过程中，以每个时间分片为粒度，进行视频特征的提取和存储。建立视频的识别标识、时间分片标识和时间分片内容对应的分片视频特征的关系数据库，并将之加入视频特征库。同时，视频特征库中还包括视频的识别标识以及视频的整体特征之间的关系数据库。

根据播放进度的信息，可以确定播放客户端本次请求需要哪些时间分片内容对应的推荐信息。从而，可根据视频的识别标识和时间分片标识在视频特征库中进行视频特征检索，并获得目标时间分片的分片视频特征。为了便于说明，将检索到的目标时间分片的分片视频特征称为第一特征。

接下来，可以将时间分片标识和第一特征传递到关联视频检索和推荐信息生成部分。根据所述第一特征，可以从视频特征库中查找整体特征与第一特征相匹配的目标视频。查找的目标视频由于与时间分片的内容强相关，可以作为向用户推荐的视频。

之后，根据目标视频的识别标识，在视频资源库中进行查找，获取其基础播放信息，例如，播放页面的链接，或者指向视频片源数据的链接(对于APP或者播放器软件形式的播放客户端)。根据得到的基础播放信息和推荐视频的识别标识可以生成与所述时间分片相应的推荐信息，并反馈到播放客户端。

播放客户端接收到与所述时间分片相应的推荐信息后，可在播放每个时间分片的视频内容时，实时展示相应的推荐信息，并在展示的同时提供指向推荐视频的链接。并在接收到用户点击推荐信息的操作后，跳转到推荐视频的播放页面，对相应的推荐视频进行播放。让用户可以实现对推荐视频的一步观看。

下面对本发明的基于内容识别的视频播放实时推荐方法在播放客户端和服务器端的具体实现方法、装置和系统分别进行详细的说明。

参见图4，其中示出了根据本发明实施例的基于内容识别的视频播放实时推荐方法的客户端方法的流程示意图。基于内容识别的视频播放实时推荐方法包括步骤S110到S140。

S110，获取播放信息，所述播放信息包括播放视频的识别标识和当前播放进度的信息。

在视频的播放过程中，播放客户端可以按照一定频率请求推荐，每隔第一时间间隔获取一次播放信息，并上传到内容推荐服务器。所述第一时间间隔可以根据视频时间片划分中每个时间片的时长、网络通信状态、缓存时长设置、对用户播放行为的预期等多种因素综合考虑来确定。所述当前播放进度的内容，可以指所述第一时间间隔内的视频内容。而当前播放进度的信息将被内容服务器用来确定当前播放进度的时间范围，即确定需要针对播放视频的哪些时间分片提供推荐信息。

当前的在线播放技术中，对于播放视频内容的缓存一般也是分段进行的，在播放的同时缓存若干时长的待播放内容。播放缓存的时长一般是数分钟或者10分钟的数量级。而本申请中，用于推荐的时间分片的划分一般会具有更细的粒度，例如，可以是10秒到几分钟这样的数量级，以提供更精确的推荐，和展示更多地推荐视频。

第一时间是间隔可以是固定的，也可以在播放客户端根据需要灵活调整。例如，当播放客户端设置有下载，或者是离线播放功能时，可以在用户选择了离线播放或者下载之后，播放客户端可以在下载视频文件的同时，向内容推荐服务器请求视频中所有的时间分片对应的推荐信息。下载后存储在本地，供播放客户端在播放下载的视频文件时调用。

当前播放进度的信息可以仅包含当前播放的时间点。此时，播放客户端的计算量极小。但需要服务器端在接收播放时间点信息后，根据自身存储的播放视频的时间分片划分数据，来确定所述播放时间点所在的时间分片。并且，要求推内容荐服务器和播放客户端关于第一时间间隔进行事先约定，从而可以据此确定需要提供推荐信息的时间分片数。这种形式给内容荐服务器带来了很多额外的工作，造成对服务器资源的占用。比较适用于需要节约播放客户端运算能力的运行场景。

随着终端软、硬件技术的不断发展，目前在大多数情况下，终端的运算能力对于播放视频的同时进行简单运算和查询等操作均是绰绰有余的。因此，在一些实施例中，播放进度的信息可以包括前播放时间点所在的当前时间分片的标识以及当前播放进度包含的待播放的时间分片数N。即，由播放客户端来获取播放视频的识别标识和当前播放时间点所在的当前时间分片的标识以及待播放的时间分片数N，N为正整数。其中，“待播放的时间分片数N”指的是从本次请求推荐内容到下次请求推荐内容的第一时间间隔内所包含的时间分片数量。

记视频的识别标识为vid，时间分片的标识为timeid，则获取的播放信息可以是例如：

vid：1234567S1P1

timeid：002

N：2

其中，时间分片的标识为timeid直接以数字表示，上述描述的意义是，当前时间分片是第002个。可确定请求推荐内容的时间分片为timeid+1到timeid+N，即，请求从002+1到002+2时间分片对应的推荐内容。

S120，将所述播放信息上传到内容推荐服务器。

根据播放客户端的与内容推荐服务器之间通信形式的不同，可以通过移动互联网、固定互联网等形式，将播放信息传送到内容推荐服务器。

S130，接收所述内容推荐服务器返回的推荐信息，所述推荐信息与所述播放视频的当前播放进度的内容具有共同的视频特征。

所述具有共同的视频特征，意味着当前播放视频和推荐信息中的推荐视频之间具有某些“共性”，以使得对当前播放视频感兴趣的用户，有较大概率对推荐视频也是感兴趣的。例如，由相同的演员的主演、反映相同的历史事件、属于相似的剧情种类等等。在技术实现上，则可体现为由内容推荐服务器根据视频特征，设定与视频特征的相同或相似有关的预设关联条件，并进行相关推荐。例如，推荐视频和当前播放进度的内容的视频特征中，至少有一项是相同的，则可称为具有共同的视频特征。其具体细节将在下文结合服务器侧的方法进行详细说明。

数据层面，接收所述内容推荐服务器返回的推荐信息可包括：接收所述内容推荐服务器返回的，与所述待播放的N个时间分片对应的分片推荐信息。其中，每个时间分片对应的分片推荐信息可包括与所述时间分片的内容具有共同的视频特征的至少一条推荐视频的信息。

实践中，每个时间分片的内容往往可提取出不止一种特征，而对应每个特征，也往往存在很多关联视频，因此，符合条件的推荐视频通常会有多条。此时，可在内容推荐服务器端进行筛选，选择其中关联度最高的一条或多条推荐视频的信息发送到播放客户端。返回的推荐信息中，针对每个时间分片的推荐信息可以包括：视频的识别标识、时间分片标识、该时间分片的分片视频特征、对应的推荐视频，以及该时间分片内要向用户展示的推荐提示等。

对于每个时间分片对应的多个关联视频，可以根据用户的观影习惯和偏好等进一步筛选，以对推荐视频进行优化，获得更精准的推荐结果。

在一些实施例中，步骤S110中获取播放信息时，除了获取播放视频的识别标识和当前播放进度的信息之外，还可以获取当前进行视频播放的终端的登录账号。

从而内容推荐服务器可以根据终端登录账号获取账号对应的用户画像，并根据用户画像选择匹配的推荐视频。

而步骤S130中，接收所述内容推荐服务器返回的推荐信息，则包括：接收所述内容推荐服务器返回的，与所述播放视频的当前播放进度的内容具有共同的视频特征的，且与所述终端的登录账号对应的用户画像相匹配的推荐信息。

S140，根据所述推荐信息在播放界面进行实时推荐。

可以在播放界面设置浮层，并在所述浮层上进行实时推荐。这里所述播放界面可以是指 APP或者播放器的程序窗口中的播放界面，也可以是网页中的视频播放界面。浮层可以设置在显示视频画面的固定位置，也可以设置在显示视频画面的周边。为了尽量减小对欣赏视频的影响，浮层也可以设置为可拖动的，在被鼠标拖曳时，可以移动到播放界面的任何指定位置。

每次请求推荐信息的第一时间间隔内，通常包括多个时间分片。从而，在播放视频时，当前的时间分片和推荐请求发出时的时间分片是不同的。因此，根据所述推荐信息在播放界面进行实时推荐时，首先要确定播放视频的当前播放时间点，以及播放时间点所在的时间分片。再根据所述推荐信息，确定当前播放时间点所在的时间分片对应显示的推荐提示文本。显示所述提示文本，并且在所述文本上设置超级链接，所述超级链接被点击后，跳转到所述推荐视频的片源播放页面。

当对应每个时间分片的推荐视频有多条时，可以从当前播放时间点所在的时间分片对应的分片推荐信息中随机选择一条推荐视频的信息进行展示。其中，内容推荐服务器可以仅返回推荐视频的名称，由播放客户端根据预定义的语法规则生成推荐提示。例如，推荐视频名称为XXXX，则显示，点击跳转到《XXXX》。或者是，也可以由内容推荐服务器直接返回完整的推荐提示文本，播放客户端据此显示即可。

此外，根据时间分片的长度，可以在同一时间分片内推荐一条或多条视频。例如，当时间分片比较短，例如数十秒，则一个时间分片推荐一次可能比较符合用户的观看习惯。而如果时间分片设置的比较长，例如大于1分钟，则可以在一个时间分片内，分时展示不同的推荐视频。例如，前30秒展示第一推荐视频，后30秒，从当前时间分片对应的推荐信息中选择第二推荐视频进行展示。

参见图5和图6，其中示出了两个根据本发明实施例的基于内容识别的视频播放实时推荐的场景。

图5中的播放场景，播放界面100中正在播放帧图像110，人物张三101和李四102以埃菲尔铁塔为背景进行对话。李四说：“也是有意思，铁塔非要建华盛顿纪念碑的两个高”。其中，李四的扮演者是演员AA。此时，内容推荐服务器可识别出演员AA，从服务器返回的推荐视频可能包括AA主演的其它影片，例如《XXXX》。从而，可能会在播放界面100 的浮窗120中，提示“点击跳转AA主演的《XXXX》”。

图6的播放场景中，张三对李四说：“自从看了YYYYY，才知道YY不光浪漫还这么可爱”(参见字幕130)。对话中，提及了影片“YYYYY”。此时，本时间分片的视频对应的片段视频特征可能包括影片名“YYYYY”，亦即，在内容推荐服务器返回的推荐视频中可包括影片“YYYYY”。那么，可在播放界面100的浮窗120中，提示“点击跳转到《YYYYY》”。

下面结合本发明基于内容识别的视频播放实时推荐方法的服务器侧的方法，对推荐信息的生成进行进一步详细说明。

参见图7，图7是根据本发明实施例的基于内容识别的视频播放实时推荐方法的服务器端方法的流程示意图。服务器端方法可包括步骤S210到步骤S230。

S210，接收播放客户端上传的播放信息，所述播放信息包括播放视频的识别标识和当前播放进度的信息。

播放视频按照预定义规则划分为多个时间分片。播放客户端上传的当前播放进度的信息可以是只包含当前的播放时间点。此时，需要内容推荐服务器根据播放时间点确定当前的时间分片，并按照预先定义的第一时间间隔，获取当前播放进度中待播放的时间分片。

或者是，当前播放进度的信可息包括：当前播放时间点所在的时间分片的标识以及待播放的时间分片数N，N为正整数。从而直接利用播放客户端上传的信息，而无需查找和确定时间分片的过程。

关于客户端的播放信息的更多细节，可参见上述播放客户端方法中的步骤S110的描述，这里不再赘述。

S220，根据所述播放信息生成对应的推荐信息，所述推荐信息与所述播放视频的当前播放进度的内容具有共同的视频特征。

首先，需要确定待提供推荐信息的时间分片。播放客户端上传的当前播放进度的信息只包含当前的播放时间点时，需要根据时间点确定其所在的时间分片，并根据预定义的第一是时间间隔，计算当前播放进度包含的时间分片数，例如，用第一时间间隔除以每个时间分片的时长，得到时间分片数量。当播放客户端上传的当前播放进度的信息已经包含当前时间分片和播放进度包含的时间分片数时，则直接提取应用。

所述根据所述播放信息生成对应的推荐信息，可包括：生成与所述待播放的N个时间分片对应的分片推荐信息，其中，每个时间分片对应的分片推荐信息包括与所述时间分片的内容具有共同的视频特征的至少一条推荐视频的信息；根据所述分片推荐信息生成与所述播放信息对应的推荐信息。

或者是，所述播放信息除了包括播放视频的识别标识和当前播放进度的信息之外还包括：接收当前进行视频播放的终端的登录账号。此时，所述生成与所述播放信息对应的推荐信息，可包括：生成与所述播放视频的当前播放进度的内容具有共同的视频特征的备选推荐信息；根据所述终端的登录账号，获取与所述登录账号对应的用户画像；选择与所述用户画像匹配的备选推荐信息作为所述播放信息对应的推荐信息。

下面对如何生成指定目标分片的分片推荐信息进行进一步说明。参见图8，图8是根据本发明实施例的生成分片推荐信息的流程示意图。其中，生成分片推荐信息可包括步骤S221 到S223。

S221，根据所述播放视频的识别标识和所述时间分片的识别标识从预先建立的视频特征库中查找与所述播放视频的所述时间分片对应的分片视频特征，将所述分片视频特征作为第一特征。

其中，所述视频特征库中存储有视频的识别标识和视频的整体特征以及视频中各个时间分片的标识和时间分片对应的分片视频特征。关于视频特征库的细节和建立过程将在后文结合图9进行详细说明。

例如，接收的播放信息是：

vid：1234567S1P1

timeid：002

N：2

此时，查找与所述播放视频的所述时间分片对应的分片视频特征的命令可以类似于：

其中，request是请求视频特征的函数，其中参数vid和timeidlist，表示视频的视频标识和时间分片列表。这段程序是请求查找标识为vid的视频中，timeidlist的时间分片的分片视频特征，函数返回值即为视频特征列表。vid：1234567S1P1是电视剧类，特别是美剧视频非常常用的表示形式，1234567是电视剧名的代号，S1P1表示第1季第1集。timeidlist是需要提供推荐内容的时间分片列表，即当前播放进度包含的时间分片。由于N＝1，需要查询第002+1＝003和002+004个时间分片的分片特征。

而特征返回的信息可以是类似于如下形式，其中find表示查找到的结果，其数据结构包括了时间分片标识timeid，以及timeid对应的视频特征列表taglist。

其中，返回的分片视频特征，可以有多项，以特征标签列表taglist表示。Starid为本时间分片中的演员标识，以数字代码标识。Catelogid表示剧情种类标识，同样是以数字形式的类别标识。当然也可以用字母等其它形式的代码标识，只要能够起到区分作用即可。此外，还可以包含其它形式的视频特征，以省略号表示。更多的视频特征将在后文结合特征库进行介绍。

S222，在所述视频特征库中查找视频的整体特征与所述第一特征相匹配的目标视频。

第一特征可以是多个视频特征的集合。在查询时，可以根据第一特征中的每个视频特征，分别查询具有该特征的目标视频。也可以根据第一特征中的多个特征的组合，查询具有多个特征的目标视频。显然，与第一特征中的视频特征匹配越多的目标视频，将和本时间分片的内容相关度越高。以针对第一特征中的每个视频特征(即taglist中的每个特征)分别查询为例，匹配的目标视频信息可以是例如如下形式。其中response表示查找到的结果，其数据结构按照查找的时间分片rid划分，每个时间分片的查询结果又包括，时间分片标识timeid和对应timeid的匹配结果列表matchilist。匹配结果列表matchilist进一步包括，针对timeid的各个不同的视频特征的各自的匹配结果，例如，针对演员starid的匹配结果和针对剧情种类 catelogid的匹配结果。

其中，rid_003表示与时间分片003第一特征相匹配的目标视频查询结果。Matchlist为匹配视频列表。与演员标识603424匹配的目标视频，其视频识别标识为abcdefgS6P11和 abcdefgS6P10。与剧情种类标识“11”匹配的目标视频，其视频识别标识为bacdefgS1P1和 abcdefgS6P11。则以上查询结果的视频均可作为推荐视频。本例中，视频识别标识为 abcdefgS6P11的视频，同时与第一特征中的两个视频特征演员和剧情种类匹配，属于匹配度较高的目标视频，在向用户推荐时，可以为这种同时匹配多个视频特征的目标视频设置更高的推荐优先级。

当然，通常的查询结果会远多于2个，特别是根据剧情种类进行查询时，结果会较多，此时，可以预定义返回的目标视频的数量，例如设为几个或几十个的数量级，而不必返回所有匹配的结果。上述实施例仅仅是为了说明本发明的原理，而其中查询结果的数量不应作为本发明的限制。

S223，将所述目标视频作为推荐视频，并根据所述推荐视频生成分片推荐信息。

生成的推荐信息可以仅包括时间分片标识和该时间分片对应的推荐视频的名称，由播放客户端根据预定义的语法规则生成推荐提示。例如，推荐视频名称为XXXX，则显示，点击跳转到《XXXX》。或者是，推荐信息也可以包括完整的推荐提示文本，播放客户端据此显示即可。

比较完整的推荐信息则可以包括，包括时间分片标识、推荐视频的视频标识、第一特征中的各项视频特征，以及要向用户展示的推荐提示文本等中的一项或多项。例如，可以是如下形式：

其中，针对每个时间分片，推荐数据recommenddata可包括视频特征和相应的推荐数据，推荐数据可包括特征相关的数据和视频相关的数据。例如，对应视频特征演员的starid，推荐数据可以包括演员的名字starname，该演员主演的视频的识别标识vid，视频名称vidtitle 等。

参见以图5，例如，图5是时间分片003中的一帧画面，从中识别出李四的演员为starid:[603424]的演员AA，推荐视频为AA主演的另外一部电视剧XXXX，当然也可以是电影等。

其中，可以将每个时间分片对应的多条推荐视频均放入推荐信息中，发送到播放客户端，由播放客户端进行选择一条播放，例如播放客户端随机选择一条。也可以将在从多个推荐视频中选择一条推荐视频的步骤在推荐服务器实现，将选则出的最优推荐视频作为推荐信息，发送到播放客户端。

在播放客户端选择可以降低内容推荐服务器的工作量，减少服务器负担。而在内容推荐服务器端对推荐视频进行选择，则除了随机择一之外，还可以有更丰富的形式。例如，目前的在线视频系统一般都会根据用户的播放历史，生成用户画像，用户画像可以描述用户的使用偏好和观影偏好。观影偏好可以包括用户对具有哪些视频特征的影片(本公开中，影片泛指各种视频，而非狭义的电影种类，例如影片可包括电影、电视剧集、综艺节目、纪录片等等)比较喜欢，对哪些视频特征比较不喜欢等等。

例如，用户画像可以包括一个用户偏好的视频特征的列表，可将每个时间分片对应的多条推荐视频与所述用户偏好的视频特征的列表进行比较，从中选择符合用户偏好的视频进行推荐。

再例如，在同一视频中，往往存在多个时间分片都具有相同视频特征的情况，此时，在不同的时间分片中，可以选择不同的推荐视频进行展示。例如，主演演员的出现频率会很高。此时，在多个含有主演演员的时间分片的推荐视频的选择中，就可以根据记录，在不同的时间分片中推荐该主演的演员参与的不同影视作品。这种选择可以在推荐服务器端做出，也可以在播放客户端实现。

S230，将所述推荐信息发送到播放客户端。根据播放客户端的与内容推荐服务器之间通信形式的不同，可以通过移动互联网、固定互联网等形式，将播放信息传送到内容推荐服务器。

下面详细介绍特征数据库的构成和建立方法。为了实现本发明的方法，一般来说，视频特征库中可存储有视频的识别标识和视频的整体特征以及视频中各个时间分片的标识和时间分片对应的分片视频特征。可通过图像处理、语音处理技术以及图像语意识别和自然语言理解等技术，把隐藏在视频中的知识结构、场景关系、语义网络等更深层次的内容提取出来，据以确定分片视频特征。

参见图9和图10，其中，图9是根据本发明实施例的分片视频特征提取方法的流程示意图，图10是根据本发明实施例的分片视频特征提取过程中的数据处理过程示意图。

提取时间分片对应的分片视频特征可包括步骤S410到S440。其中步骤S420和S430的顺序可以互换或者同时进行。

S410，根据视频的识别标识以及时间分片标识获取对应的视频片段。

根据视频的识别标识以及时间分片标识从视频库中获取目标视频中的目标时间分片对应的视频数据。以时间分片对应的片段视频数据作为分析对象。

S420，对所述视频片段进行拆帧，获得所述视频片段包含的图片帧的集合。视频处理是以图片为单位，通过深度学习进行图像识别，并根据各个图片帧的识别结果进行综合分析来实现的。

S430，获取所述视频片段的对应的音频信息。从视频中提取音频流信息相关技术中有各种非常成熟的手段，其均可应用于此，本发明对音频流的提取没有特殊要求。

S440，根据所述图片帧的集合和所述音频信息进行语义分析，提取所述视频片段对应的分片视频特征。

具体而言，所述根据所述图片帧的集合和所述音频信息进行语义分析，提取所述视频片段对应的分片视频特征，可包括步骤S441到S443。

S441，对所述图片帧集合中的各个图片帧进行图像识别，并基于时间轴，对图像识别的结果进行提取，得到所述图片帧集合的文本描述。

可通过深度神经网络对各个图片帧进行人物的人脸识别、服饰特点识别，以及图片中的文字识别、场景识别和自然环境识别等各种操作中的任意一项或一项以上。通常，是各种操作联合执行，以获得更多信息。

得到所述图片帧集合的文本描述则可以包括：与演员名称、角色名称、年代特征、地点特征、剧种类型、剧情特征中的任意一项或一项以上相关的文本描述。

S442，对所述音频信息进行语音识别，得到所述音频信息对应的音频文本。例如，可将音频流进行音频切片，并执行语音识别，将语音信息转为文字信息。各种现有的语言识别方法均可应用于此。

S443，对所述图片帧集合的文本描述和所述音频文本进行语义分析，提取出其中的视频特征作为分片视频特征。

例如，可对所述音频文本进行命名实体识别得到目标命名实体集合，所述目标命名实体集合包括与角色名称、影片名称、年代特征、地点特征、剧种类型和剧情特征中的任意一项或一项以上相关的命名实体。

根据所述目标命名实体集合和所述图片帧集合的文本描述进行语义分析，提取出其中的视频特征作为分片视频特征。可取图片的文本描述中的特征和音频语义分析出的特征中，二者的交集或者并集作为分片视频特征。

例如，图5的图片帧中，视频识别可能会得到地点特征——埃菲尔铁塔，而音频和字幕识别中包括“铁塔”、“YY”等，二者综合，可以得出当前场景的地点特征YY的埃菲尔铁塔。

由于很多视频自身是带有字幕的，而字幕往往是经过人工配置和校对的精确文本，可以与语音识别得到的文本互为参考。因此，一些实施例中，对所述音频文本进行命名实体识别得到目标命名实体集合之前，还可包括：对所述图片帧集合中的各个图片帧，进行单帧字幕识别；对单帧字幕识别的结果进行去重操作，得到字幕文本；将所述字幕文本和所述音频文本进行比较，根据比较的结果对所述音频文本进行校正。

例如，图6的图片帧中，可以从字幕130中，提取影片名“YYYYY”作为分片视频特征之一。

其中，校正过程，根据字幕语言和语音语言是否为同一种语言，可以有不同的策略。

首先，可判断所述字幕文本与所述音频文本是否属于同一种语言。

当所述字幕文本与音频文本属于同一种语言时，以所述字幕文本作为校正后的音频文本。因为，同种语言的字幕往往是视频制作同时由制作方提供，内容精确度高于语音识别的结果。

当所述字幕文本与音频文本不属于同一种语言时，获取所述字幕文本语言到音频文本语言的机器翻译文本，根据所述机器翻译文本和音频文本确定校正后的音频文本。而翻译的字幕，由于译者的语言能力差异，其准确性并不稳定，有的翻译的很好，有的则准确性稍差。而随着自然语言处理技术的进步，目前机器翻译的准确率在日益增强，已经基本达到人工翻译的平均水平，可以作为字幕文本的参考。

例如，就目前效果相对最好的编码器-解码器机器翻译模型而言，相比于高级的人工翻译，机器翻译对于目标语言的句子合成可能稍逊，但对于命名实体类的识别和翻译，准确度已经非常之高，甚至在人工之上。对于特征提取类的语义分析可以取得良好的效果。

通常，所述视频特征库中存储有视频的识别标识和视频的整体特征以及视频中各个时间分片的标识和时间分片对应的分片视频特征，还可以存储有视频组合的识别标识和视频组合的整体特征。参见图11，其中示出了分片视频特征、视频的整体特征和视频组合的整体特征之间的关系。

对于每个视频时间分片，例如识别标识分别为timeid1，timeid2，直至timeidN。每个timeid 可以与多个特征相关联，换言之，每个分片视频特征集合可以包括多个特征。而每个视频的标识，可以用vid1、vid2，vid3等表示，每个视频vid的整体特征，同样可以是以特征集合表示，整体特征取决于各个时间分片的分片视频特征。而相互关联的多个视频可构成视频组合，例如一部电视剧的中的各个剧集可以构成视频组合，或者是多部头的电影，系列的综艺等。

可按照如下方法获得的视频的整体特征：根据视频包含的各个时间分片对应的片段视频特征，确定视频的整体提取特征；根据所述整体提取特征和视频的预设标注特征确定所述视频的视频特征集合；根据所述视频的视频特征集合确定所述视频的整体特征。

相关技术中，通常在视频播放网站会为每个视频手动标注一些特征，这些特征称为预设标注特征，预设标注特征一般与视频的整体相关，例如年代、演员、导演等，但是缺乏与具体时间段相关的特征。通过将标注特征和提取特征相结合，可以对视频做出更准确的描述。

按照如下方法获得的视频组合的整体特征：根据视频组合中的多个视频的视频特征集合，确定所述视频组合的视频特征集合；根据所述视频组合的视频特征集合，确定所述视频组合的整体特征。

为了实现上述第一方面实施例中的方法，本发明第二方面的实施例提出了一种基于内容识别的视频播放实时推荐装置和系统。

所述系统/装置的实现可包括一个或多个计算设备，所述计算设备包括处理器和存储器，所述存储器上存储有包括可在所述处理器上运行的计算机程序指令的应用程序。所述应用程序可以划分为多个程序模块，用于系统各个组成部分的相应功能。其中，程序的模块的划分是逻辑上的而非物理上的，每个程序模块可以运行在一个或多个计算设备上，一个计算设备上也可以运行一个或一个以上的程序模块。以下对本发明的系统/装置按照程序模块的功能逻辑划分进行详细说明。

图12是根据本发明实施例的基于内容识别的视频播放实时推荐装置结构框图。根据本发明的装置300可以包括播放信息获取模块310、播放信息上传模块320、推荐信息接收模块330和推荐信息展示模块340。

其中，所述基于内容识别的视频播放实时推荐装置300可以采用包括处理器和存储器的计算设备实现，所述存储器中存储有可被所述处理器执行的程序模块，各个程序模块被执行时，控制所述计算设备实现相应的功能。例如，播放信息获取模块310、播放信息上传模块 320、推荐信息接收模块330和推荐信息展示模块340可以实现为这样的程序模块。

播放信息获取模块310，用于获取播放信息，所述播放信息包括播放视频的识别标识和当前播放进度的信息。

播放信息上传模块320，用于将所述播放信息上传到内容推荐服务器。

推荐信息接收模块330，用于接收所述内容推荐服务器返回的推荐信息，所述推荐信息与所述播放视频的当前播放进度的内容具有共同的视频特征。

推荐信息展示模块340，用于根据所述推荐信息在播放界面进行实时推荐。

例如，可以根据所述推荐信息确定当前播放时间点对应显示的推荐提示文本；显示所述提示文本，并在所述提示文本上设置超级链接，所述超级链接被点击后，跳转到所述推荐视频的片源播放页面。

所述推荐信息展示模块340可在播放界面设置浮层，并在所述浮层上进行实时推荐。

在一些实施例中，所述播放视频按照预定义规则划分为多个时间分片。所述播放信息获取模块310获取播放信息，其中，当前播放进度的信息包括：当前播放时间点所在的当前时间分片的标识以及当前播放进度包含的待播放的时间分片数N，N为正整数。

所述推荐信息接收模块320接收所述内容推荐服务器返回的推荐信息，包括：接收所述内容推荐服务器返回的，与所述待播放的N个时间分片对应的分片推荐信息，其中，每个时间分片对应的分片推荐信息包括与所述时间分片的内容具有共同的视频特征的至少一条推荐视频的信息。

所述推荐信息展示模块330根据所述推荐信息在播放界面进行实时推荐，包括：从当前播放时间点所在的时间分片对应的分片推荐信息中随机选择一条推荐视频的信息进行展示。

此外，所述播放信息获取模块320获取播放信息，还可包括：当前进行视频播放的终端的登录账号；所述推荐信息接收模块330接收所述内容推荐服务器返回的推荐信息，包括：接收所述内容推荐服务器返回的，与所述播放视频的当前播放进度的内容具有共同的视频特征的，且与所述终端的登录账号对应的用户画像相匹配的推荐信息。

图13是根据本发明实施例的基于内容识别的视频播放实时推荐系统的结构框图。根据本发明的系统100可以包括播放信息接收模块410，推荐信息生成模块420，推荐信息发送模块430和视频特征库440。

其中，所述基于内容识别的视频播放实时推荐系统400可以采用包括处理器和存储器的计算设备实现，所述存储器中存储有可被所述处理器执行的程序模块，各个程序模块被执行时，控制所述计算设备实现相应的功能。例如，播放信息接收模块410，推荐信息生成模块 420，推荐信息发送模块430和视频特征库440可以实现为这样的程序模块。

播放信息接收模块410，用于接收播放客户端上传的播放信息，所述播放信息包括播放视频的识别标识和当前播放进度的信息。

推荐信息生成模块420，用于根据所述播放信息生成对应的推荐信息，所述推荐信息与所述播放视频的当前播放进度的内容具有共同的视频特征。

推荐信息发送模块430，用于将所述推荐信息发送到播放客户端。

视频特征库440，所述视频特征库中存储有视频的识别标识和视频的整体特征以及视频中各个时间分片的标识和时间分片对应的分片视频特征。

在一些实施例中，播放视频可按照预定义规则划分为多个时间分片；所述播放信息接收模块410接收播放客户端上传的播放信息，其中，当前播放进度的信息包括：当前播放时间点所在的时间分片的标识以及待播放的时间分片数N，N为正整数。

所述推荐信息生成模块420根据所述播放信息生成对应的推荐信息，包括：生成与所述待播放的N个时间分片对应的分片推荐信息，其中，每个时间分片对应的分片推荐信息包括与所述时间分片的内容具有共同的视频特征的至少一条推荐视频的信息；根据所述分片推荐信息生成与所述播放信息对应的推荐信息。

具体地，所述推荐信息生成模块420可包括：

分片视频特征检索单元，用于根据所述播放视频的识别标识和所述时间分片的识别标识从所述视频特征库中查找播放视频的所述时间分片对应的分片视频特征，将所述分片视频特征作为第一特征；

推荐视频检索单元，用于在所述视频特征库中查找视频的整体特征与所述第一特征相匹配的目标视频；

推荐信息生成单元，用于将所述目标视频作为推荐视频，并根据所述推荐视频生成推荐信息。

在一些实施例中，所述播放信息接收模块接收播放客户端上传的播放信息，还包括：接收播放客户端上传的当前进行视频播放的终端的登录账号。所述推荐信息生成模块还包括：用户画像获取单元，用于根据所述终端的登录账号，获取与所述登录账号对应的用户画像；推荐视频筛选单元，根据所述用户画像，从所述推荐视频检索单元输出的目标视频中选择与所述用户画像匹配的视频作为推荐视频；所述推荐信息生成单元还用于，接收所述推荐视频筛选单元输出的推荐视频，并根据所述推荐视频生成推荐信息。

所述的基于内容识别的视频播放实时推荐系统，还可包括：内容识别装置，用于确定视频的各个时间分片对应的分片视频特征。

所述内容识别装置包括：视频分片模块，用于获取视频的识别标识以及时间分片标识对应的视频片段；视频拆帧模块，对所述视频片段进行拆帧，获得其中的图片帧的集合；音频提取模块，用于获取所述视频片段的对应的音频信息；片段特征提取模块，用于根据所述图片帧的集合和所述音频信息进行语义分析，提取所述视频片段对应的分片视频特征。

在一些实施例中，所述片段征提取模块根据所述图片帧的集合和所述音频信息进行语义分析，提取所述视频片段对应的分片视频特征，包括以下主要步骤。

对所述图片帧集合中的各个图片帧进行图像识别，并基于时间轴，对图像识别的结果进行提取，得到图片帧集合的文本描述。例如，可通过深度神经网络对各个图片帧进行人物的人脸识别、服饰特点识别，以及图片中的文字识别、场景识别和自然环境识别中的任意一项或一项以上操作；得到的所述图片帧集合的文本描述包括：与演员名称、角色名称、年代特征、地点特征、剧种类型、剧情特征中的任意一项或一项以上相关的文本描述。

对所述音频信息进行语音识别，得到所述音频信息对应的音频文本。

对所述图片帧集合的文本描述和所述音频文本进行语义分析，提取出其中的视频特征作为分片视频特征。

例如，可对所述音频文本进行命名实体识别得到目标命名实体集合，所述目标命名实体集合包括与角色名称、影片名称、年代特征、地点特征、剧种类型和剧情特征中的任意一项或一项以上相关的命名实体；根据所述目标命名实体集合和所述图片帧集合的文本描述进行语义分析，提取出其中的视频特征作为分片视频特征。

其中，对所述音频文本进行命名实体识别得到目标命名实体集合之前，还可包括：对所述图片帧集合中的各个图片帧，进行单帧字幕识别；对单帧字幕识别的结果进行去重操作，得到字幕文本；将所述字幕文本和所述音频文本进行比较，根据比较的结果对所述音频文本进行校正。

判断所述字幕文本与所述音频文本是否属于同一种语言；当所述字幕文本与音频文本属于同一种语言时，以所述字幕文本作为校正后的音频文本；当所述字幕文本与音频文本不属于同一种语言时，获取所述字幕文本语言到音频文本语言的机器翻译文本，根据所述机器翻译文本和音频文本确定校正后的音频文本。

在一些实施例中，所述内容识别装置还包括视频整体特征确定模块，其用于：根据视频包含的各个时间分片对应的片段视频特征，确定视频的整体提取特征；根据所述整体提取特征和视频的预设标注特征确定所述视频的视频特征集合；根据所述视频的视频特征集合确定所述视频的整体特征。

在一些实施例中，所述内容识别装置还包括：视频组合整体特征确定模块，其用于：将相互关联的多个视频构成视频组合；根据视频组合中的多个视频的视频特征集合，确定所述视频组合的视频特征集合；根据所述视频组合的视频特征集合，确定所述视频组合的整体特征。

本发明基于内容识别的视频播放实时推荐装置和系统中的各个模块的功能和作用的实现过程具体详情可参见上述客户端的方法和内容推荐服务器端的方法中对应步骤的实现过程。对于装置和系统的实施例而言，由于其基本对应于方法实施例，前述对本发明的方法实施例的解释说明也适用于本发明的装置实施例。为避免冗余，在装置实施例中将不会对所有细节进行重复，相关未尽之处可参见上述结合图1到图11对本发明基于内容识别的视频播放实时推荐方法实施例的相关描述。

本发明第三方面的实施例提出了一种非临时性计算机可读存储介质，其上存储有可执行指令，所述可执行指令在处理器上运行时，实现如本发明第一方面实施例所述的基于内容识别的视频播放实时推荐方法的播放客户端的方法。

本发明第三方面的实施例提出了另一种非临时性计算机可读存储介质，其上存储有可执行指令，所述可执行指令在处理器上运行时，实现如本发明第一方面实施例所述的基于内容识别的视频播放实时推荐方法的内容推荐服务器端的方法。

用于实现本发明方法的计算机指令的可以采用一个或多个计算机可读的介质的任意组合来承载。所谓非临时性计算机可读介质可以包括任何计算机可读介质，除了临时性地传播中的信号本身。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

本发明第四方面的实施例提供了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，实现根据本发明第一方面实施例所述的基于内容识别的视频播放实时推荐方法的播放客户端的方法。

本发明第四方面的实施例还提供了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，实现根据本发明第一方面实施例所述的基于内容识别的视频播放实时推荐方法的内容推荐服务器端的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++、pathon，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本发明第五方面实施例提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现根据本发明第一方面所述的基于内容识别的视频播放实时推荐方法。

图14示出了适于用来实现本公开实施方式的示例性计算设备的框图。图14显示的计算设备12仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图14所示，计算设备12可以通用计算设备的形式实现。计算设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA) 局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器 (Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性的计算机可读存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图中未显示，通常称为“硬盘驱动器”)。尽管图14中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本公开各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本公开所描述的实施例中的功能和/或方法。

计算设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算设备 12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算设备12的其它模块通信。要说明的是，尽管图中未示出，可以结合计算设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

根据本发明第三到五方面的非临时性计算机可读存储介质，计算机程序产品和计算设备，可以参照根据本发明第一方面实施例具体描述的内容实现，并具有与根据本发明第一方面的基于内容识别的视频播放实时推荐方法类似的有益效果，在此不再赘述。

需要说明的是，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，例如两个，三个等，除非另有明确具体的限定。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于内容识别的视频播放实时推荐方法，其特征在于，包括：

获取播放信息，所述播放信息包括播放视频的识别标识和当前播放进度的信息；

将所述播放信息上传到内容推荐服务器；

接收所述内容推荐服务器返回的推荐信息，所述推荐信息与所述播放视频的当前播放进度的内容具有共同的视频特征；

根据所述推荐信息在播放界面进行实时推荐。

2.根据权利要求1所述的基于内容识别的视频播放实时推荐方法，其特征在于，

播放视频按照预定义规则划分为多个时间分片；

所述获取播放信息，所述播放信息包括播放视频的识别标识和当前播放进度的信息，其中，当前播放进度的信息包括：当前播放时间点所在的当前时间分片的标识以及当前播放进度包含的待播放的时间分片数N，N为正整数；

所述接收所述内容推荐服务器返回的推荐信息，包括：接收所述内容推荐服务器返回的，与所述待播放的N个时间分片对应的分片推荐信息，其中，每个时间分片对应的分片推荐信息包括与所述时间分片的内容满足预设关联条件的至少一条推荐视频的信息；

所述根据所述推荐信息在播放界面进行实时推荐，包括：从当前播放时间点所在的时间分片对应的分片推荐信息中随机选择一条推荐视频的信息进行展示。

3.根据权利要求1或2所述的基于内容识别的视频播放实时推荐方法，其特征在于，

所述获取播放信息，所述播放信息包括播放视频的识别标识和当前播放进度的信息，还包括：获取当前进行视频播放的终端的登录账号；

接收所述内容推荐服务器返回的推荐信息，包括：接收所述内容推荐服务器返回的，与所述播放视频的当前播放进度的内容具有共同的视频特征的，且与所述终端的登录账号对应的用户画像相匹配的推荐信息。

4.根据权利要求1或2中任意一项所述的基于内容识别的视频播放实时推荐方法，其特征在于，所述根据所述推荐信息在播放界面进行实时推荐，包括：

根据所述推荐信息确定当前播放时间点对应显示的推荐提示文本；

显示所述提示文本，并在所述提示文本上设置超级链接，所述超级链接被点击后，跳转到所述推荐视频的片源播放页面。

5.一种基于内容识别的视频播放实时推荐方法，其特征在于，包括：

接收播放客户端上传的播放信息，所述播放信息包括播放视频的识别标识和当前播放进度的信息；

根据所述播放信息生成对应的推荐信息，所述推荐信息与所述播放视频的当前播放进度的内容具有共同的视频特征；

将所述推荐信息发送到播放客户端。

6.根据权利要求5所述的基于内容识别的视频播放实时推荐方法，其特征在于，

播放视频按照预定义规则划分为多个时间分片；

所述接收播放客户端上传的播放信息，所述播放信息包括播放视频的识别标识和当前播放进度的信息，其中，当前播放进度的信息包括：当前播放时间点所在的时间分片的标识以及待播放的时间分片数N，N为正整数；

所述根据所述播放信息生成对应的推荐信息，包括：

生成与所述待播放的N个时间分片对应的分片推荐信息，其中，每个时间分片对应的分片推荐信息包括与所述时间分片的内容具有共同的视频特征的至少一条推荐视频的信息；

根据所述分片推荐信息生成与所述播放信息对应的推荐信息。

7.根据权利要求5所述的基于内容识别的视频播放实时推荐方法，其特征在于，

所述接收播放客户端上传的播放信息，所述播放信息包括播放视频的识别标识和当前播放进度的信息，还包括：接收当前进行视频播放的终端的登录账号；

所述根据所述播放信息生成对应的推荐信息，包括：

生成与所述播放视频的当前播放进度的内容具有共同的视频特征的备选推荐信息；

根据所述终端的登录账号，获取与所述登录账号对应的用户画像；

选择与所述用户画像匹配的备选推荐信息作为所述播放信息对应的推荐信息。

8.根据权利要求6所述的基于内容识别的视频播放实时推荐方法，其特征在于，所述生成与所述待播放的N个时间分片对应的分片推荐信息，其中，生成与每个时间分片对应的分片推荐信息包括：

根据所述播放视频的识别标识和所述时间分片的识别标识从预先建立的视频特征库中查找与所述播放视频的所述时间分片对应的分片视频特征，将所述分片视频特征作为第一特征；

在所述视频特征库中查找视频的整体特征与所述第一特征相匹配的目标视频；

将所述目标视频作为推荐视频，并根据所述推荐视频生成分片推荐信息；

其中，所述视频特征库中存储有视频的识别标识和视频的整体特征以及视频中各个时间分片的标识和时间分片对应的分片视频特征。

9.根据权利要求8所述的基于内容识别的视频播放实时推荐方法，其特征在于，所述视频特征库中存储有视频的识别标识和视频的整体特征以及视频中各个时间分片的标识和时间分片对应的分片视频特征，其中，所述时间分片对应的分片视频特征包括按照如下方法获得的分片视频特征：

根据视频的识别标识以及时间分片标识获取对应的视频片段；

对所述视频片段进行拆帧，获得所述视频片段包含的图片帧的集合；

获取所述视频片段的对应的音频信息；

根据所述图片帧的集合和所述音频信息进行语义分析，提取所述视频片段对应的分片视频特征。

10.根据权利要求9所述的基于内容识别的视频播放实时推荐方法，其特征在于，所述根据所述图片帧的集合和所述音频信息进行语义分析，提取所述视频片段对应的分片视频特征，包括：

对所述图片帧集合中的各个图片帧进行图像识别，并基于时间轴，对图像识别的结果进行提取，得到所述图片帧集合的文本描述；

对所述音频信息进行语音识别，得到所述音频信息对应的音频文本；

11.根据权利要求10所述的基于内容识别的视频播放实时推荐方法，其特征在于，

所述对所述图片帧集合中的各个图片帧进行图像识别，并基于时间轴，对图像识别的结果进行提取，得到所述图片帧集合的文本描述，包括：

通过深度神经网络对各个图片帧进行人物的人脸识别、服饰特点识别，以及图片中的文字识别、场景识别和自然环境识别中的任意一项或一项以上操作；得到所述图片帧集合的文本描述包括：与演员名称、角色名称、年代特征、地点特征、剧种类型、剧情特征中的任意一项或一项以上相关的文本描述；

所述对所述图片帧集合的文本描述和所述音频文本进行语义分析，提取出其中的视频特征作为分片视频特征，包括：

对所述音频文本进行命名实体识别得到目标命名实体集合，所述目标命名实体集合包括与角色名称、影片名称、年代特征、地点特征、剧种类型和剧情特征中的任意一项或一项以上相关的命名实体；根据所述目标命名实体集合和所述图片帧集合的文本描述进行语义分析，提取出其中的视频特征作为分片视频特征。

12.根据权利要求11所述的基于内容识别的视频播放实时推荐方法，其特征在于，对所述音频文本进行命名实体识别得到目标命名实体集合之前，还包括：

对所述图片帧集合中的各个图片帧，进行单帧字幕识别；

对单帧字幕识别的结果进行去重操作，得到字幕文本；

将所述字幕文本和所述音频文本进行比较，根据比较的结果对所述音频文本进行校正。

13.一种基于内容识别的视频播放实时推荐装置，其特征在于，包括：

播放信息获取模块，用于获取播放信息，所述播放信息包括播放视频的识别标识和当前播放进度的信息；

播放信息上传模块，用于将所述播放信息上传到内容推荐服务器；

推荐信息接收模块，用于接收所述内容推荐服务器返回的推荐信息，所述推荐信息与所述播放视频的当前播放进度的内容具有共同的视频特征；

推荐信息展示模块，用于根据所述推荐信息在播放界面进行实时推荐。

14.一种基于内容识别的视频播放实时推荐系统，其特征在于，包括：

播放信息接收模块，用于接收播放客户端上传的播放信息，所述播放信息包括播放视频的识别标识和当前播放进度的信息；

推荐信息生成模块，用于根据所述播放信息生成对应的推荐信息，所述推荐信息与所述播放视频的当前播放进度的内容具有共同的视频特征；

推荐信息发送模块，用于将所述推荐信息发送到播放客户端；以及

视频特征库，所述视频特征库中存储有视频的识别标识和视频的整体特征以及视频中各个时间分片的标识和时间分片对应的分片视频特征。

15.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现根据权利要求1-4中任一项所述的基于内容识别的视频播放实时推荐方法；或者

该程序被处理器执行时，实现根据权利要求5-12中任一项所述的基于内容识别的视频播放实时推荐方法。