CN109743617B

CN109743617B - 一种视频播放的跳转导航方法和设备

Info

Publication number: CN109743617B
Application number: CN201811466336.1A
Authority: CN
Inventors: 张菡; 孙茂松; 唐杰
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2020-11-24
Anticipated expiration: 2038-12-03
Also published as: CN109743617A

Abstract

本发明实施例提供一种视频播放的跳转导航方法和设备，包括：根据视频文本将视频划分为多个视频子段；确定当前播放时间点所属的视频子段，提取当前播放时间点所属的视频子段的视频文本特征向量，提取当前播放时间点所属的视频子段的视频图像特征向量；将当前用户信息、当前播放时间点所属的视频子段的视频文本特征向量和视频图像特征向量输入到已训练的神经网络，输出每一视频子段作为跳转目标视频子段的概率值，以供当前用户根据每一概率值选择对应的视频子段进行跳转。本方法和设备能依据用户的不同实现动态跳转导航，并且在视频制作时无需给每个视频插入静态的导航点，减少了视频制作的工作量。

Description

一种视频播放的跳转导航方法和设备

技术领域

本发明实施例涉及视频播放技术领域，更具体地，涉及一种视频播放的跳转导航方法和设备。

背景技术

由于视频中往往存在用户不感兴趣的内容，在视频播放过程中，用户在观看视频时经常发生来回跳转行为。统计显示，用户平均需要跳转2.2次才能找到期望的跳转目标位置，这意味着用户经常跳往错误的位置，然后通过多次跳转调整来找到期望的跳转目标位置。

目前已有的视频播放中的导航方法都是静态的视频导航，例如在视频中固定的时刻点插入导航点，这种静态的视频导航方法具有明显的缺陷：(1)有大量的用户观看同一个视频，用户之间的兴趣点各不相同，这种静态的视频导航方法不能依据用户的不同实现动态跳转导航；(2)视频的数量众多，给每个视频插入静态的导航点，增加了视频制作的工作量。

发明内容

为了克服上述问题或者至少部分地解决上述问题，本发明实施例提供一种视频播放的跳转导航方法和设备。

本发明实施例提供一种视频播放的跳转导航方法，包括：根据视频文本将视频划分为多个视频子段；确定当前播放时间点所属的视频子段，提取当前播放时间点所属的视频子段的视频文本特征向量，提取当前播放时间点所属的视频子段的视频图像特征向量；将当前用户信息、当前播放时间点所属的视频子段的视频文本特征向量和视频图像特征向量输入到已训练的神经网络，输出每一视频子段作为跳转目标视频子段的概率值，以供当前用户根据每一概率值选择对应的视频子段进行跳转。

其中，根据视频文本将视频划分为多个视频子段，包括：根据视频文本提取每一视频字幕的起始时刻和终止时刻；确定任意相邻的两个视频字幕中前一视频字幕的终止时刻和后一视频字幕的起始时刻之间的间隔时段；将所有间隔时段中间隔时段的时长大于目标时间阈值的间隔时段作为目标间隔时段；在每一目标间隔时段中添加一个划分点，根据每一划分点将视频划分为多个视频子段。

其中，将所有间隔时段中间隔时段的时长大于目标时间阈值的间隔时段作为目标间隔时段之前，还包括：根据用户行为日志获取视频中的有效跳转事件，每一有效跳转事件包括一个有效跳转起点和一个有效跳转终点；根据时间阈值在所有间隔时段中确定预划分间隔时段，每一预划分间隔时段的时长大于时间阈值；在每一预划分间隔时段中添加一个预划分点，根据每一预划分点将视频预划分为多个视频子段；确定所有预划分的视频子段中的非空视频子段和有效跳转数量，非空视频子段中包括至少一个有效跳转起点和/或至少一个有效跳转终点，有效跳转数量为视频中的有效跳转事件的数量；确定第一比例和第二比例，第一比例为非空视频子段的数量与所有预划分的视频子段的总数量的比值，第二比例为有效跳转数量与视频中所有跳转事件的总数量的比值；获取第一比例与第二比例的乘积值以及第一比例与第一比例的和值，将乘积值与和值的比值取最大值时对应的时间阈值作为目标时间阈值。

其中，根据用户行为日志获取视频中的有效跳转事件，包括：根据用户行为日志提取视频中的跳转事件，每一跳转事件包括一个跳转起点和一个跳转终点；将所有跳转事件按时间先后进行排序，获得跳转事件序列；对跳转事件序列中的跳转事件进行合并，获得有效跳转事件序列，其中有效跳转事件序列中任意相邻的两个跳转事件的前一跳转事件的跳转终端与后一跳转事件的跳转起点的时间间隔大于预设时长，将有效跳转事件序列中每一跳转事件作为视频中的一个有效跳转事件。

其中，对跳转事件序列中的跳转事件进行合并，包括：对于跳转事件序列中任意相邻的两个跳转事件，若确定任意相邻的两个跳转事件中前一跳转事件的跳转终端与后一跳转事件的跳转起点的时间间隔不超过预设时长，则将任意相邻的两个跳转事件合并成一个新的跳转事件，新的跳转事件的跳转起点为任意相邻的两个跳转事件中前一跳转事件的跳转起点，新的跳转事件的跳转终点为任意相邻的两个跳转事件中后一跳转事件的跳转终点。

其中，提取当前播放时间点所属的视频子段的视频文本特征向量，包括：提取当前播放时间点所属的视频子段对应的视频文本中每一词的词向量；对当前播放时间点所属的视频子段对应的视频文本中每一词的词向量加权求和，以获取当前播放时间点所属的视频子段的视频文本特征向量。

其中，提取当前播放时间点所属的视频子段的视频图像特征向量，包括：提取当前播放时间点所属的视频子段的每一帧图像的图像特征向量；对当前播放时间点所属的视频子段的每一帧图像的图像特征向量加权求和，以获取当前播放时间点所属的视频子段的视频图像特征向量。

其中，神经网络的训练步骤包括：根据已播放的视频获取样本集，样本集中每一样本包括播放每一视频的用户信息、对应的视频中有效跳转事件的有效跳转起点所属的视频子段的视频文本特征向量和视频图像特征向量以及对应的视频中有效跳转事件的有效跳转终点所属的视频子段的视频文本特征向量和视频图像特征向量；根据样本集对神经网络进行训练。

本发明实施例提供一种视频播放的跳转导航设备，包括：至少一个处理器、至少一个存储器和数据总线；其中：处理器与存储器通过数据总线完成相互间的通信；存储器存储有可被处理器执行的程序指令，处理器调用程序指令以执行上述方法。

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机程序，该计算机程序使计算机执行上述的方法。

本发明实施例提供的一种视频播放的跳转导航方法和设备，包括：根据视频文本将视频划分为多个视频子段；确定当前播放时间点所属的视频子段，提取当前播放时间点所属的视频子段的视频文本特征向量，提取当前播放时间点所属的视频子段的视频图像特征向量；将当前用户信息、当前播放时间点所属的视频子段的视频文本特征向量和视频图像特征向量输入到已训练的神经网络，输出每一视频子段作为跳转目标视频子段的概率值，以供当前用户根据每一概率值选择对应的视频子段进行跳转。本方法和设备将当前用户信息、当前播放时间点所属的视频子段的视频文本特征向量和视频图像特征向量作为神经网络的输入，根据神经网络得到每一视频子段作为跳转目标视频子段的概率值，当前用户可根据每一概率值选择对应的视频子段进行跳转，能依据用户的不同实现动态跳转导航，并且在视频制作时无需给每个视频插入静态的导航点，减少了视频制作的工作量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的视频播放的跳转导航方法的流程图；

图2为根据本发明实施例的视频播放的跳转导航设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种视频播放的跳转导航方法，参考图1，包括：S11，根据视频文本将视频划分为多个视频子段；S12，确定当前播放时间点所属的视频子段，提取当前播放时间点所属的视频子段的视频文本特征向量，提取当前播放时间点所属的视频子段的视频图像特征向量；S13，将当前用户信息、当前播放时间点所属的视频子段的视频文本特征向量和视频图像特征向量输入到已训练的神经网络，输出每一视频子段作为跳转目标视频子段的概率值，以供当前用户根据每一概率值选择对应的视频子段进行跳转。

具体地，视频文本包含了很多信息，特别是视频中字幕对应的文字信息，这些文字信息在视频播放过程中被加载到视频中，通过字幕的方式与视频中的语音同步播放，因此视频文本与视频的字幕相关联，视频的字幕是用户在视频播放过程中的一个重要的关注点，特别是对于教学视频，例如MOOCs视频等等，用户进行视频跳转的目的就是为了跳转到所关注的语音段(即对应的字幕段)。

本实施例中，根据视频文本将视频划分为多个视频子段，通过对视频进行划分，可以将用户对视频中的感兴趣的内容分别分布至不同的视频子段中，以便于根据不同的视频子段中包含的内容对用户进行跳转导航。本实施例基于机器学习的方法，通过神经网络学习历史的视频播放过程中的跳转事件，来获得对用户的跳转导航。

视频中的每一跳转事件包括一个跳转起点和一个跳转终点，用户在播放视频时，如果在当前时刻作跳转，则当前播放时间点则是在当前时刻进行跳转所产生的跳转事件的跳转起点，由于跳转起点对应于一个时间点，仅以跳转起点(当前播放时间点)对应的视频的信息有限，难以通过机器学习的方法实现对用户的跳转导航，本实施例选用当前播放时间点所属的视频子段对应的信息作为神经网络的输入，视频子段包含有足够的视频信息，视频子段包含的视频信息主要有两个方面，一个是视频文本信息，一个是视频图像信息，为了便于进行数据处理，本实施例将当前播放时间点所属的视频子段的视频文本信息和视频图像信息分别向量化，分别获得视频文本特征向量和视频图像特征向量；并且，为了体现用户之间差别，同时获取当前用户信息，当前用户信息为当前播放视频的用户的用户信息。将当前用户信息、当前播放时间点所属的视频子段的视频文本特征向量和视频图像特征向量输入到已训练的神经网络，输出每一视频子段作为跳转目标视频子段的概率值，以供当前用户根据每一概率值选择对应的视频子段进行跳转，当前用户为正在播放视频的用户。

本实施例的视频播放的跳转导航方法将当前用户信息、当前播放时间点所属的视频子段的视频文本特征向量和视频图像特征向量作为神经网络的输入，根据神经网络得到每一视频子段作为跳转目标视频子段的概率值，当前用户可根据每一概率值选择对应的视频子段进行跳转，能依据用户的不同实现动态跳转导航，并且在视频制作时无需给每个视频插入静态的导航点，减少了视频制作的工作量。

基于以上实施例，根据视频文本将视频划分为多个视频子段，包括：根据视频文本提取每一视频字幕的起始时刻和终止时刻；确定任意相邻的两个视频字幕中前一视频字幕的终止时刻和后一视频字幕的起始时刻之间的间隔时段；将所有间隔时段中间隔时段的时长大于目标时间阈值的间隔时段作为目标间隔时段；在每一目标间隔时段中添加一个划分点，根据每一划分点将视频划分为多个视频子段。

具体地，视频中，特别是教学视频中，语音段(即对应的字幕段)包含了语义信息，因此，对视频的划分可根据字幕段所处的时间段来划分，以保证每一视频子段中有较为完整的语义信息，并且，对于时间间隔较小的字幕段，为了保证语义上的连贯性，也可以放到一个视频子段中。本实施例中，根据视频文本提取每一视频字幕的起始时刻和终止时刻，确定任意相邻的两个视频字幕中前一视频字幕的终止时刻和后一视频字幕的起始时刻之间的间隔时段，将所有间隔时段中间隔时段的时长大于目标时间阈值的间隔时段作为目标间隔时段，在每一目标间隔时段中添加一个作为对视频进行划分的划分点，以此将视频划分为多个视频子段。

基于以上实施例，将所有间隔时段中间隔时段的时长大于目标时间阈值的间隔时段作为目标间隔时段之前，还包括：根据用户行为日志获取视频中的有效跳转事件，每一有效跳转事件包括一个有效跳转起点和一个有效跳转终点；根据时间阈值在所有间隔时段中确定预划分间隔时段，每一预划分间隔时段的时长大于时间阈值；在每一预划分间隔时段中添加一个预划分点，根据每一预划分点将视频预划分为多个视频子段；确定所有预划分的视频子段中的非空视频子段和有效跳转数量，非空视频子段中包括至少一个有效跳转起点和/或至少一个有效跳转终点，有效跳转数量为视频中的有效跳转事件的数量；确定第一比例和第二比例，第一比例为非空视频子段的数量与所有预划分的视频子段的总数量的比值，第二比例为有效跳转数量与视频中所有跳转事件的总数量的比值；获取第一比例与第二比例的乘积值以及第一比例与第一比例的和值，将乘积值与和值的比值取最大值时对应的时间阈值作为目标时间阈值。

具体地，对于目标时间阈值，可结合视频中的有效跳转事件来确定，有效跳转事件是指用户在播放视频过程中从当前播放位置跳转到期望的跳转目标位置的事件，每一有效跳转事件包括一个有效跳转起点和一个有效跳转终点，有效跳转事件可以从用户行为日志中获取，将时间阈值作为一个变量，对于任意相邻的两个视频字幕中前一视频字幕的终止时刻和后一视频字幕的起始时刻之间的间隔时段，将间隔时段的时长大于时间阈值的间隔时段作为预划分间隔时段，在每一预划分间隔时段中添加一个预划分点对视频进行预划分，确定所有预划分的视频子段中的非空视频子段和有效跳转数量，非空视频子段中包括至少一个有效跳转起点和/或至少一个有效跳转终点，有效跳转数量为视频中的有效跳转事件的数量，确定第一比例和第二比例，第一比例为非空视频子段的数量与所有预划分的视频子段的总数量的比值，第二比例为有效跳转数量与视频中所有跳转事件的总数量的比值；获取第一比例与第二比例的乘积值以及第一比例与第一比例的和值，将乘积值与和值的比值取最大值时对应的时间阈值作为目标时间阈值。确定目标时间阈值的目标函数可表示为：

其中，R_{eff_jump}为第一比例，R_{non_seg}为第二比例，Δt为时间阈值。

基于以上实施例，根据用户行为日志获取视频中的有效跳转事件，包括：根据用户行为日志提取视频中的跳转事件，每一跳转事件包括一个跳转起点和一个跳转终点；将所有跳转事件按时间先后进行排序，获得跳转事件序列；对跳转事件序列中的跳转事件进行合并，获得有效跳转事件序列，其中有效跳转事件序列中任意相邻的两个跳转事件的前一跳转事件的跳转终端与后一跳转事件的跳转起点的时间间隔大于预设时长，将有效跳转事件序列中每一跳转事件作为视频中的一个有效跳转事件。

具体地，用户行为日记录了用户在播放视频过程中的所有跳转事件，但是其中有很大一部分是无效跳转事件，即用户跳转的终点不是用户期望跳转到的位置；在一般情况下，用户在作无效跳转后，会在短时间内再次作出跳转，直到跳转到所期望的播放位置，用户跳转到所期望的播放位置后，会保持较长的时间不作跳转以观看视频，基于此，本实施例对跳转事件进行合并，以尽量消除无效跳转事件。首先根据用户行为日志提取视频中的跳转事件，每一跳转事件包括一个跳转起点和一个跳转终点；将所有跳转事件按时间先后进行排序，获得跳转事件序列；对跳转事件序列中的跳转事件进行合并，获得有效跳转事件序列，其中有效跳转事件序列中任意相邻的两个跳转事件的前一跳转事件的跳转终端与后一跳转事件的跳转起点的时间间隔大于预设时长，预设时长可根据用户的一般行为规则来确定，例如5秒，将有效跳转事件序列中每一跳转事件作为视频中的一个有效跳转事件。

基于以上实施例，对跳转事件序列中的跳转事件进行合并，包括：对于跳转事件序列中任意相邻的两个跳转事件，若确定任意相邻的两个跳转事件中前一跳转事件的跳转终端与后一跳转事件的跳转起点的时间间隔不超过预设时长，则将任意相邻的两个跳转事件合并成一个新的跳转事件，新的跳转事件的跳转起点为任意相邻的两个跳转事件中前一跳转事件的跳转起点，新的跳转事件的跳转终点为任意相邻的两个跳转事件中后一跳转事件的跳转终点。

具体地，对于跳转事件序列中的跳转事件的合并，在确定相邻的两个跳转事件需要进行合并的情况下，即相邻的两个跳转事件中前一跳转事件的跳转终端与后一跳转事件的跳转起点的时间间隔不超过预设时长时，将相邻的两个跳转事件合并成一个新的跳转事件，且新的跳转事件的跳转起点为相邻的两个跳转事件中前一跳转事件的跳转起点，新的跳转事件的跳转终点为相邻的两个跳转事件中后一跳转事件的跳转终点，通过以上合并方法，对跳转事件序列中任意相邻的两个跳转事件进行合并，已获得有效跳转事件序列。

基于以上实施例，提取当前播放时间点所属的视频子段的视频文本特征向量，包括：提取当前播放时间点所属的视频子段对应的视频文本中每一词的词向量；对当前播放时间点所属的视频子段对应的视频文本中每一词的词向量加权求和，以获取当前播放时间点所属的视频子段的视频文本特征向量。

具体地，对于用户信息，可以通过用户特征向量来表示，并作为神经网络的输入，用户特征向量可表示为：

u＝u^d+u^h；

其中，u^d为用户的人口统计学信息的独热编码表示，u^h为用户隐变量，+为连接操作。

对于当前播放时间点所属的视频子段的视频文本特征向量，可根据当前播放时间点所属的视频子段对应的视频文本，首先对当前播放时间点所属的视频子段对应的视频文本进行分词操作，然后用基于Skip-gram方法的Word2Vec模型得到每个词的词向量表示，记为

其中N为当前播放时间点所属的视频子段对应的视频文本中词向量的长度；基于用户注意力机制获得每个词向量的权重α_i，α_i的计算如下：

其中，

为用户特征向量，d_u为用户特征向量的长度。p(·,·)为每个词重要程度的得分函数，定义如下：

其中，

为当前播放时间点所属的视频子段对应的视频文本中第i个词的词向量，

为用户特征向量，A为

的权重矩阵，B为u的权重矩阵，c^t为权重向量的转置，b为偏置向量。

最后，当前播放时间点所属的视频子段的视频文本特征向量可根据下式获取：

其中，

为当前播放时间点所属的视频子段对应的视频文本中第i个词的词向量，α_i为

的权重，N为当前播放时间点所属的视频子段对应的视频文本中词向量的长度。

基于以上实施例，提取当前播放时间点所属的视频子段的视频图像特征向量，包括：提取当前播放时间点所属的视频子段的每一帧图像的图像特征向量；对当前播放时间点所属的视频子段的每一帧图像的图像特征向量加权求和，以获取当前播放时间点所属的视频子段的视频图像特征向量。

具体地，对于当前播放时间点所属的视频子段的视频图像特征向量，可根据当前播放时间点所属的视频子段对应的视频图像，首先对当前播放时间点所属的视频子段对应的视频图像进行图像提取操作，然后用基于ImageNet图片集上训练过的ResNet模型提取每一帧图像的图像特征向量，记为

其中M为当前播放时间点所属的视频子段对应的视频图像中图像特征向量的长度(即数量)；基于用户注意力机制获得每一图像特征向量的权重β_i，β_i的计算如下：

其中，

为用户特征向量，d_u为用户特征向量的长度。p′(·,·)为每一帧图像重要程度的得分函数，定义如下：

其中，

为当前播放时间点所属的视频子段对应的视频文本中第i帧图像的图像特征向量，

为用户特征向量，A′为

的权重矩阵，B′为u的权重矩阵，c′^t为权重向量的转置，b′为偏置向量。

最后，当前播放时间点所属的视频子段的视频图像特征向量可根据下式获取：

其中，

为当前播放时间点所属的视频子段对应的视频文本中第i帧图像的图像特征向量，β_i为

的权重，M为当前播放时间点所属的视频子段对应的视频文本中图像特征向量的长度。

基于以上实施例，神经网络的训练步骤包括：根据已播放的视频获取样本集，样本集中每一样本包括播放每一视频的用户信息、对应的视频中有效跳转事件的有效跳转起点所属的视频子段的视频文本特征向量和视频图像特征向量以及对应的视频中有效跳转事件的有效跳转终点所属的视频子段的视频文本特征向量和视频图像特征向量；根据样本集对神经网络进行训练。

具体地，根据上述实施例中的方法，根据以播放的各种视频获取样本集，其中，样本集中每一样本包括播放每一视频的用户信息、对应的视频中有效跳转事件的有效跳转起点所属的视频子段的视频文本特征向量和视频图像特征向量以及同一视频中同一有效跳转事件的有效跳转终点所属的视频子段的视频文本特征向量和视频图像特征向量；神经网络训练过程中的输入为u+s_i+s_j，其中u为用户特征向量，s_i＝t_i+v_i为有效跳转事件的有效跳转起点所属的视频子段的视频文本特征向量和视频图像特征向量的连接向量，s_j＝t_j+v_j为有效跳转事件的有效跳转终点所属的视频子段的视频文本特征向量和视频图像特征向量的连接向量，+为连接操作。以上是正例样本的获取方法，还可以将u+s_i+s_k(k≠j)作为反例样本，通过正例样本和反例样本结合的方式对神经网络进行训练，可提高神经网络的训练效果。

神经网络输入的映射函数定义如下：

φ₁(s_i,s_j,u)＝u+s_i+s_j；

网络层定义如下：

z₁＝φ₁(s_i,s_j,u)，

z₂＝tanh(A₂z₁+b₂)，

……

z_l＝tanh(A_lz_l-1+b_l)；

其中，A_i、b_i(i＝1,2,......,l)分别为各层对应的权重矩阵和偏置向量。

输出层的定义如下：

其中，y_l∈[0,1]为用户跳转到各视频子段的预测概率值，z_l为网络层最后一层的输出。

本发明实施例还提供一种视频播放的跳转导航设备，参考图2，包括：至少一个处理器21、至少一个存储器22和数据总线23；其中：处理器21与存储器22通过数据总线23完成相互间的通信；存储器22存储有可被处理器21执行的程序指令，处理器21调用程序指令以执行上述各方法实施例所提供的方法，例如包括：根据视频文本将视频划分为多个视频子段；确定当前播放时间点所属的视频子段，提取当前播放时间点所属的视频子段的视频文本特征向量，提取当前播放时间点所属的视频子段的视频图像特征向量；将当前用户信息、当前播放时间点所属的视频子段的视频文本特征向量和视频图像特征向量输入到已训练的神经网络，输出每一视频子段作为跳转目标视频子段的概率值，以供当前用户根据每一概率值选择对应的视频子段进行跳转。

本发明实施例还提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机程序，该计算机程序使该计算机执行上述各方法实施例所提供的方法，例如包括：根据视频文本将视频划分为多个视频子段；确定当前播放时间点所属的视频子段，提取当前播放时间点所属的视频子段的视频文本特征向量，提取当前播放时间点所属的视频子段的视频图像特征向量；将当前用户信息、当前播放时间点所属的视频子段的视频文本特征向量和视频图像特征向量输入到已训练的神经网络，输出每一视频子段作为跳转目标视频子段的概率值，以供当前用户根据每一概率值选择对应的视频子段进行跳转。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过计算机程序指令相关的硬件来完成，前述的计算机程序可以存储于一计算机可读取存储介质中，该计算机程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频播放的跳转导航方法，其特征在于，包括：

根据视频文本将视频划分为多个视频子段；

确定当前播放时间点所属的视频子段，提取当前播放时间点所属的视频子段的视频文本特征向量，提取当前播放时间点所属的视频子段的视频图像特征向量；

将当前用户信息、当前播放时间点所属的视频子段的视频文本特征向量和视频图像特征向量输入到已训练的神经网络，输出每一视频子段作为跳转目标视频子段的概率值，以供当前用户根据每一概率值选择对应的视频子段进行跳转；

其中，所述根据视频文本将视频划分为多个视频子段，包括：

根据所述视频文本提取每一视频字幕的起始时刻和终止时刻；

确定任意相邻的两个视频字幕中前一视频字幕的终止时刻和后一视频字幕的起始时刻之间的间隔时段；

将所有间隔时段中间隔时段的时长大于目标时间阈值的间隔时段作为目标间隔时段；

在每一目标间隔时段中添加一个划分点，根据每一划分点将所述视频划分为多个视频子段；

所述将所有间隔时段中间隔时段的时长大于目标时间阈值的间隔时段作为目标间隔时段之前，还包括：

根据用户行为日志获取所述视频中的有效跳转事件，每一有效跳转事件包括一个有效跳转起点和一个有效跳转终点；

根据时间阈值在所有间隔时段中确定预划分间隔时段，每一预划分间隔时段的时长大于所述时间阈值；

在每一预划分间隔时段中添加一个预划分点，根据每一预划分点将所述视频预划分为多个视频子段；

确定所有预划分的视频子段中的非空视频子段和有效跳转数量，所述非空视频子段中包括至少一个有效跳转起点和/或至少一个有效跳转终点，所述有效跳转数量为所述视频中的有效跳转事件的数量；

确定第一比例和第二比例，所述第一比例为所述非空视频子段的数量与所有预划分的视频子段的总数量的比值，所述第二比例为所述有效跳转数量与视频中所有跳转事件的总数量的比值；

获取所述第一比例与所述第二比例的乘积值以及所述第一比例与所述第一比例的和值，将所述乘积值与所述和值的比值取最大值时对应的时间阈值作为所述目标时间阈值。

2.根据权利要求1所述的方法，其特征在于，所述根据用户行为日志获取所述视频中的有效跳转事件，包括：

根据所述用户行为日志提取所述视频中的跳转事件，每一跳转事件包括一个跳转起点和一个跳转终点；

将所有跳转事件按时间先后进行排序，获得跳转事件序列；

对所述跳转事件序列中的跳转事件进行合并，获得有效跳转事件序列，其中所述有效跳转事件序列中任意相邻的两个跳转事件的前一跳转事件的跳转终端与后一跳转事件的跳转起点的时间间隔大于预设时长，将所述有效跳转事件序列中每一跳转事件作为所述视频中的一个有效跳转事件。

3.根据权利要求2所述的方法，其特征在于，所述对所述跳转事件序列中的跳转事件进行合并，包括：

对于所述跳转事件序列中任意相邻的两个跳转事件，若确定所述任意相邻的两个跳转事件中前一跳转事件的跳转终端与后一跳转事件的跳转起点的时间间隔不超过所述预设时长，则将所述任意相邻的两个跳转事件合并成一个新的跳转事件，所述新的跳转事件的跳转起点为所述任意相邻的两个跳转事件中前一跳转事件的跳转起点，所述新的跳转事件的跳转终点为所述任意相邻的两个跳转事件中后一跳转事件的跳转终点。

4.根据权利要求1所述的方法，其特征在于，所述提取当前播放时间点所属的视频子段的视频文本特征向量，包括：

提取当前播放时间点所属的视频子段对应的视频文本中每一词的词向量；

对当前播放时间点所属的视频子段对应的视频文本中每一词的词向量加权求和，以获取当前播放时间点所属的视频子段的视频文本特征向量。

5.根据权利要求1所述的方法，其特征在于，所述提取当前播放时间点所属的视频子段的视频图像特征向量，包括：

提取当前播放时间点所属的视频子段的每一帧图像的图像特征向量；

对当前播放时间点所属的视频子段的每一帧图像的图像特征向量加权求和，以获取当前播放时间点所属的视频子段的视频图像特征向量。

6.根据权利要求2所述的方法，其特征在于，所述神经网络的训练步骤包括：

根据已播放的视频获取样本集，所述样本集中每一样本包括播放每一视频的用户信息、对应的视频中有效跳转事件的有效跳转起点所属的视频子段的视频文本特征向量和视频图像特征向量以及对应的视频中有效跳转事件的有效跳转终点所属的视频子段的视频文本特征向量和视频图像特征向量；

根据所述样本集对所述神经网络进行训练。

7.一种视频播放的跳转导航设备，其特征在于，包括：

至少一个处理器、至少一个存储器和数据总线；其中：

所述处理器与所述存储器通过所述数据总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令以执行如权利要求1至6任一所述的方法。

8.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行如权利要求1至6任一所述的方法。