CN111988663A

CN111988663A - 视频播放节点的定位方法、装置、设备以及存储介质

Info

Publication number: CN111988663A
Application number: CN202010891723.0A
Authority: CN
Inventors: 李卫国
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2020-11-24
Anticipated expiration: 2040-08-28
Also published as: US11581021B2; CN111988663B; EP3855753A2; JP7201729B2; KR102436734B1; EP3855753A3; EP3855753B1; KR20210042852A; US20210233571A1; JP2021103896A

Abstract

本申请公开了视频播放节点的定位方法，涉及大数据和视频处理领域。具体实现方案包括：从多个视频中筛选出目标视频；以及，将目标视频、以及该目标视频的多个字幕文本片段和该多个字幕文本片段各自的起始时间信息发送至客户端，以由客户端展示多个字幕文本片段，并响应于针对多个字幕文本片段中的任一字幕文本片段的触发操作，基于该任一字幕文本片段的起始时间信息确定该目标视频的起始播放节点。本申请还公开了一种视频播放节点的定位装置、电子设备和存储介质。

Description

视频播放节点的定位方法、装置、设备以及存储介质

技术领域

本申请涉及计算机技术领域，具体涉及大数据和视频处理技术。更具体地，本申请提供了一种视频播放节点的定位方法、装置、设备以及存储介质。

背景技术

随着互联网技术的不断发展，各种视频播放平台得到广泛发展。视频作为一种信息传播载体，因其具有能够更加直观、丰富、明了地表达信息的特点而被广泛传播和应用。用户在观看视频时，例如在观看一些内容较为丰富、需要反复观看的视频时，通常希望视频可以跳转至特定内容的播放节点开始播放。

发明内容

提供了一种视频播放节点的定位方法、装置、设备以及存储介质。

根据第一方面，提供了一种视频播放节点的定位方法，该方法包括：从多个视频中筛选出目标视频；以及，将目标视频、以及该目标视频的多个字幕文本片段和该多个字幕文本片段各自的起始时间信息发送至客户端，以由客户端展示多个字幕文本片段，并响应于针对多个字幕文本片段中的任一字幕文本片段的触发操作，基于该任一字幕文本片段的起始时间信息确定该目标视频的起始播放节点。

根据第二方面，提供了一种视频播放节点的定位方法，其特征在于，所述方法包括：

获取目标视频、以及所述目标视频的多个字幕文本片段和所述多个字幕文本片段各自的起始时间信息，所述目标视频是从多个视频中筛选得到的；

展示所述多个字幕文本片段；

响应于针对所述多个字幕文本片段中的任一字幕文本片段的触发操作，基于所述任一字幕文本片段的起始时间信息确定所述目标视频的起始播放节点。

根据第三方面，提供了一种视频播放节点的定位装置，该装置包括：筛选模块和播放节点管理模块。筛选模块用于从多个视频中筛选出目标视频。播放节点管理模块用于将目标视频、以及该目标视频的多个字幕文本片段和该多个字幕文本片段各自的起始时间信息发送至客户端，以由客户端展示该多个字幕文本片段，并响应于针对该多个字幕文本片段中的任一字幕文本片段的触发操作，基于该任一字幕文本片段的起始时间信息确定该目标视频的起始播放节点。

根据第四方面，提供了一种视频播放节点的定位装置，该装置包括：获取模块、展示模块和播放节点定位模块。获取模块用于获取目标视频、以及该目标视频的多个字幕文本片段和该多个字幕文本片段各自的起始时间信息，所述目标视频是从多个视频中筛选得到的。展示模块用于展示所述多个字幕文本片段。播放节点定位模块用于响应于针对所述多个字幕文本片段中的任一字幕文本片段的触发操作，基于所述任一字幕文本片段的起始时间信息确定所述目标视频的起始播放节点。

根据第五方面，提供了一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器。其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器能够执行根据本申请提供的兴趣点信息处理方法。

根据第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行根据本申请提供的兴趣点信息处理方法。

根据本申请的技术方案，从大量视频中筛选出的具有播放节点定位价值的目标视频，在需要针对目标视频进行播放的情况下，向用户展示目标视频的多个字幕文本片段。并可以基于用户指定的字幕文本片段的起始时间信息来确定该目标视频的起始播放节点。上述过程中，仅针对目标视频的播放节点定位处理可节省大量计算资源、提高服务器和客户端之间的交互效率，多个字幕文本片段的共同展示可使得用户在短时间内确定希望观看的内容节点，并且，基于用户指定的字幕文本片段的起始时间信息可以精准地确定当前视频的起始播放节点。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请一个实施例的应用视频播放节点的定位方法和装置的示例性系统架构；

图2A是根据本申请一个实施例的视频播放节点的定位方法的流程图；

图2B是根据本申请另一个实施例的视频播放节点的定位方法的流程图；

图3是根据本申请一个实施例的视频筛选过程的流程图；

图4是根据本申请另一个实施例的视频筛选过程的流程图；

图5是根据本申请一个实施例的视频播放节点的定位过程的示意图；

图6是根据本申请一个实施例的视频播放界面的示意图；

图7是根据本申请一个实施例的视频播放节点的定位装置的框图；

图8是根据本申请另一个实施例的视频播放节点的定位装置的框图；以及

图9是根据本申请一个实施例的视频播放节点的定位方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

随着互联网技术的不断发展，各种视频播放平台得到广泛发展。视频作为一种信息传播载体，因其具有能够更加直观、丰富、明了地表达信息的特点而被广泛传播和应用。用户在观看视频时，例如在观看一些内容较为丰富、需要反复观看的视频(例如知识类视频、科普类视频)、需要回顾视频中的一些特定情节时，通常希望视频可以跳转至特定内容的播放节点开始播放。

在此场景下，例如通过倍速、快进等功能对视频进行快速播放以使用户找到符合观看需求的播放节点，或者通过在拖动进度条时支持视频预览当前帧画面的方式来使用户找到符合观看需求的播放节点。以上方式均需要用户花费较长时间来寻找希望观看的内容，并且播放节点的定位也不够精准。

图1是根据本申请一个实施例的可以应用视频播放节点的定位方法和装置的示例性系统架构100。需要注意的是，图1所示仅为可以应用本申请实施例的系统架构的示例，以帮助本领域技术人员理解本申请的技术内容，但并不意味着本申请实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括多个终端设备110、网络120和服务器130。其中，终端设备110可以是各种可以各种支持视频播放的电子设备，例如智能手机、平板电脑、笔记本电脑、台式计算机等，在此不做限制。服务器130可以是各种具有一定计算能力的电子设备，在此不做限制。下面举例说明终端设备110和服务器130之间经由网络120进行交互的过程。示例性地，终端设备110可以安装有视频播放类应用客户端，终端设备110通过该客户端从服务器130请求视频数据，并基于视频数据进行解码并播放。

根据本申请实施例，提供了一种视频播放节点的定位方法。下面通过图例对该方法进行示例性说明。应注意，以下方法中各个操作的序号仅作为该操作的表示以便描述，而不应被看作表示该各个操作的执行顺序。除非明确指出，否则该方法不需要完全按照所示顺序来执行。

图2A是根据本申请一个实施例的视频播放节点的定位方法的流程图。示例性地，图2A所示的视频播放节点的定位方法可以由服务器执行。

如图2A所示，该视频播放节点的定位方法200可以包括操作S210～操作S220。

在操作S210，从多个视频中筛选出目标视频。

示例性地，目标视频可以是内容价值较高、包含信息较为丰富的视频，例如xx知识点讲解视频、xx科普视频等。用户在观看此类视频时通常需要针对特定内容进行重复观看，对此类视频具有视频播放节点定位的需求。根据本公开实施例，可以基于视频的一个或多个维度的信息来对视频价值进行衡量，从而根据衡量结果来进行视频的筛选。视频播放平台的服务器侧通常具有大量视频资源，本操作S210可以从大量视频中筛选出具有播放节点定位价值的目标视频，为后续视频处理过程节省计算资源。

在操作S220，将目标视频、该目标视频的多个字幕文本片段以及该多个字幕文本片段各自的起始时间信息发送至客户端，以由客户端展示多个字幕文本片段，并响应于针对多个字幕文本片段中的任一字幕文本片段的触发操作，基于该任一字幕文本片段的起始时间信息确定该目标视频的起始播放节点。

示例性地，针对任一目标视频A，其具有m个字幕文本片段以及与m个字幕文本片段一一对应的m个起始时间信息。m为大于1的整数。每个字幕文本片段的起始时间信息可以表征该字幕文本片段在相应视频中的起始时间。根据本公开的实施例，例如可以通过对目标视频A中所包含的语音进行识别以得到上述m个字幕文本片段。

示例性地，服务器可以响应于客户端的针对目标视频A的请求消息，将目标视频A的视频数据、m个字幕文本片段和m个起始时间信息进行预定格式的编码后，按照预定通信规则将编码得到的数据包发送至客户端。客户端对数据包进行解码后可以得到目标视频A的视频数据、m个字幕文本片段和相应的m个起始时间信息。针对非目标视频，服务器响应于客户端的请求消息，可以仅将视频数据发送至客户端，以节省带宽。

上述实施例从服务器的角度出发对根据本公开实施例的视频播放节点的定位方法进行说明，下面从客户端的角度出发对根据本公开实施例的视频播放节点的定位方法进行示例性说明。

图2B是根据本申请另一个实施例的视频播放节点的定位方法的流程图。示例性地，图2B所示的视频播放节点的定位方法可以由客户端所在终端设备执行。

如图2B所示，该视频播放节点的定位方法200’可以包括操作S210’～操作S230’。

在操作S210’，获取目标视频、该目标视频的多个字幕文本片段和该多个字幕文本片段各自的起始时间信息。

示例性地，该目标视频可以由服务器从多个视频中筛选得到。筛选过程在上文已有说明，重复的部分不再赘述。

在操作S220’，展示多个字幕文本片段。

示例性地，客户端在接收到上述目标视频A的视频数据、m个字幕文本片段和m个起始时间信息后，可以向用户展示该m个字幕文本片段。通常情况下，由于不同字幕文本片段可以与目标视频中不同时间点的内容相对应，客户端所展示的m个字幕文本片段实质上为用户提供了关于目标视频A的内容提要，使得用户可以据此快速获知或回想目标视频A的内容分布情况。在用户希望观看该其中一个字幕文本片段所对应的视频内容时，可以针对该字幕文本片段进行触发操作。

在操作S230’，响应于针对多个字幕文本片段中的任一字幕文本片段的触发操作，基于所该任一字幕文本片段的起始时间信息确定目标视频的起始播放节点。

示例性地，客户端响应于用于针对某个字幕文本片段的触发操作，可以基于该字幕文本片段的起始时间信息来确定优先视频A当前的起始播放节点，从而可以跳转至该起始播放节点对目标视频A进行播放。

本领域技术人员可以理解，根据本公开实施例的视频播放节点的定位方法从大量视频中筛选出的具有播放节点定位价值的目标视频，在需要针对目标视频进行播放的情况下，向用户展示目标视频的多个字幕文本片段。并可以基于用户指定的字幕文本片段的起始时间信息来确定该目标视频的起始播放节点。上述过程中，仅针对目标视频的播放节点定位处理可节省大量计算资源、提高服务器和客户端之间的交互效率，多个字幕文本片段的共同展示可使得用户在短时间内确定希望观看的内容节点，并且，基于用户指定的字幕文本片段的起始时间信息可以精准地确定当前视频的起始播放节点。

图3是根据本申请一个实施例的视频筛选过程的流程图，用于对上述从多个视频中筛选出目标视频的实施方式进行示例性说明。

如图3所示，该视频筛选过程可以包括操作S311～操作S312。

在操作S311，针对多个视频中的每个视频，基于该视频的用户交互数据，计算该视频的价值评分。

根据本公开的实施例，通过大数据分析来计算视频的价值评分。示例性地，任一视频B的用户交互数据例如可以包括如下至少一项：观看该视频B的次数超过预定阈值的用户数量相对于观看该视频B的总用户数量的占比x₁、针对该视频B的评论数量x₂、针对该视频B的收藏数量x₃以及针对该视频B的点赞数量x₄等。其中，例如预定阈值为1，占比x1表示在观看视频B的全体用户中，重复观看视频B的用户的数量比例，该占比x1越高，表明用户对于该视频B的重复观看需求程度越高。评论数量x₂、收藏数量x₃和点赞数量x₄中的每个均可以表示用户针对视频B的喜爱程度和关注程度。在其他实施例中，也可以通过大数据分析选取其他能够表示用户对视频的重复观看需求程度、喜爱程度、关注程度等特点的用户交互数据，在此不做限制。

例如，在选取以上占比x₁、评论数量x₂、收藏数量x₃以及点赞数量x₄作为用户交互数据的情况下，可以根据公式(1)计算视频B的价值评分S。

S＝α×x₁+β×x₂+γ×x₃+δ×x₄

公式(1)

其中，α、β、γ和δ为预先设置的第一权重、第二权重、第三权重和第四权重。上述过程利用预先设置的第一权重、第二权重、第三权重和第四权重，对占比x₁、评论数量x₂、收藏数量x₃以及点赞数量x₄进行加权求和，以计算得到视频B的价值评分。类似地，可以计算得到服务器侧各个视频的价值评分。由于该价值评分基于用户针对视频的真实交互数据得到，能够较为客观地反映视频的价值高低。此外，通过针对视频的各用户交互数据的权重的设置，来调整各用户交互数据对价值评分的贡献，提高价值评分的准确性。在其他例子中，可以利用各种融合算法对用户交互数据进行整合，以得到各个视频的价值评分。

在操作S312，从多个视频中筛选出价值评分高于第一阈值的视频，以作为第一组视频。

可以将图3所示的筛选过程称为第一阶段筛选。该第一阶段筛选可以将低价值视频大幅度筛除。筛选得到的第一组视频可以包括一个或多个视频。

在一些实施方式中，本操作S312筛选得到的第一组视频可以直接作为目标视频，此时，可以针对第一组视频进行字幕文本片段的生成过程。在另一些实施方式中，本操作S312筛选得到的第一组视频还可接着进行第二阶段筛选，以得到更为精细、准确的筛选结果。

图4是根据本申请另一个实施例的视频筛选过程的流程图，用于对上述从多个视频中筛选出目标视频的实施方式进行示例性说明。

如图4所示，该视频筛选过程在经过如上文所述实施例的第一筛选阶段之后，还可以包括操作S413～操作S414。

在操作S413，针对第一组视频中的每个视频，利用预先训练的分类器对该视频进行分类，以确定该视频所属的类别。

其中，第一组视频的示例性筛选过程上文中已说明，在此不再赘述。示例性地，预先可以基于机器学习算法构建关于多个已知类别的分类器。获取大量视频样本并为各视频样本标注类别标签，利用带有类别标签的视频样本对分类器进行训练，以获得针对视频具有优良分类能力的分类器。多个已知类别的分类标准和分类粒度可以根据需要进行设置，例如可以包括知识类、科普类、影视类、音乐类、美食类、游戏类、等等，在此不做限制。其中根据大数据统计结果，例如知识类、科普类等类别视频对于用户来说具有更高的重复观看价值，可将这些类别设置为预定类别。

在操作S414，从第一组视频中筛选出属于预定类别的视频，以作为第二组视频。

在第一阶段筛选结果的基础上，第二阶段筛选从视频内容的分类角度着手，进一步筛选出更具播放节点定位价值的第二组视频。第二组视频包括一个或多个视频。其中，分类器基于大量已知类别视频样本训练得到，分类结果较为准确。用户针对不同类别的视频的观看习惯差异较大，基于类别筛选得到的第二组视频更为合理和准确。

在一些实施方式中，本操作S414筛选得到的第二组视频可以直接作为目标视频。在另一些实施方式中，本操作S414筛选得到的第二组视频还可再接着进行第三阶段筛选，以得到更为精细、准确的筛选结果。

在第三阶段筛选中，在上述得到的第二组视频的基础上，可以先生成各个视频的字幕文本片段以及字幕文本片段的相关信息。再基于字幕文本片段的相关信息来从第二组视频中筛选出最终的目标视频。

示例性地，针对第二组视频中的每个视频，提取该视频的音频数据。然后对所提取的音频数据进行语音识别(Automatic Speech Recognition，ASR)，以得到识别结果。其中识别结果可以包括：该视频的多个字幕文本片段、该多个字幕文本片段各自的起始时间信息和终止时间信息。例如，从一个视频中提取出持续时长为t的音频数据。在对该音频数据进行语音识别的过程中，可以通过音频中停顿时长超过预定时长(例如停顿超过3秒)为片段划分标准，识别出多个文本片段，以作为多个字幕文本片段。此外，还记录每个文本片段在上述时长t中的起始时间信息和终止时间信息。

在本公开的一个实施例中，针对第二组视频中的每个视频，可以基于该视频的多个字幕文本片段各自的起始时间信息和终止时间信息，确定该视频的多个字幕文本片段的总时长相对于该视频的总时长的占比y。接着从第二组视频中筛选出占比y高于第二阈值的视频，以作为经第三阶段筛选后得到的目标视频。服务器对目标视频的上述识别结果进行存储，以保留目标视频的字幕文本片段以及相关时间信息。

可以理解，通常情况下，视频的字幕文本片段的时长占比越大，该视频的信息量越丰富，需要用户反复回看，具有更高的视频播放节点的定位价值。因此，本实施例的第三阶段筛选从视频中字幕文本片段的时长占比着手，将该时长占比较大的视频从第二组视频筛选出来，从而进一步将信息含量丰富的目标视频筛选出来。

在本公开的另一个实施例中，针对第二组视频中的每个视频，可以对该视频的多个字幕文本片段进行语义分析(Semantic Analysis)，以得到针对该视频的多个字幕文本片段的逻辑分数。该逻辑分数用于表征多个字幕文本片段所包含的语义逻辑程度的高低，语义逻辑程度越高，所包含的语义越完整、越有意义。接着，从第二组视频中筛选出逻辑分数高于第三阈值的视频，以作为经第三阶段筛选后得到的目标视频。

可以理解，通常情况下，视频的字幕文本片段所包含的语义越完整明确，说明该视频所包含的信息越有价值，需要用户反复回看，具有更高的视频播放节点的定位价值。因此，本实施例的第三阶段筛选从视频的字幕文本片段所包含的语义逻辑着手，将包含完整、有意义的语义的视频从第二组视频筛选出来，以作为最终的目标视频。

图5是根据本申请一个实施例的视频播放节点的定位过程的示意图，用于示例性地说明客户端510和服务器530之间的交互过程。

如图5所示，服务器530对M个视频501依次进行第一阶段筛选S5101、第二阶段筛选S5102和第三阶段筛选S5103，得到N个目标视频502。M和N均为正整数，M大于N。其中，第一阶段筛选、第二阶段筛选和第三阶段筛选在上文中已分别进行示例性说明，在此不再赘述。服务器530存储各个目标视频的预定数据集合503，每个目标视频的预定数据集合503可以包括：该目标视频的视频数据、该目标视频的多个字幕文本片段、以及该多个字幕文本片段各自的起始时间信息(例如起始时间戳信息)和终止时间信息(例如终止时间戳信息)。

客户端510接收用户针对某个视频(例如视频C)的选择操作，可以将针对视频C的请求消息504发送至服务器530。服务器530可以判断视频C是否属于上述N个目标视频502。在其他示例中，该判断过程也可以在客户端执行。在视频C不属于目标视频的情况下，则直接将视频C的视频数据发送至客户端510。在视频C属于目标视频的情况下，服务器530将视频C的预定数据集合503发送至客户端510。客户端530向用户展示视频C的n个字幕文本片段5031，n为大于1的整数。

客户端530响应于用户针对n个字幕文本片段中的第i个字幕文本片段的触发操作，基于第i个字幕文本片段的起始时间信息确定视频C的起始播放节点。i为大于等于1且小于等于n的整数。示例性地，根据第i个字幕文本片段的起始时间信息，确定所述任一字幕文本片段在视频C中的起始时刻(例如8分20秒)。将该起始时刻作为本次视频C的起始播放节点，在根据视频C的视频数据加载播放视频C时，直接从该起始播放节点开始播放视频C。

根据本公开的实施例，还可以根据第i个字幕文本片段的的终止时间信息，确定第i个字幕文本片段的在视频C中的终止时刻(例如15分32秒)。将该起始时刻作为本次视频C的终止播放节点，在根据视频C的视频数据加载播放视频C的过程中，在视频C播放至终止播放节点时，停止播放视频C。在上文例子中，根据用户针对字幕文本片段的触发操作，可以将视频C从8分20秒播放至15分32秒，该部分视频内容为用户当前感兴趣的、需要观看的内容。该过程在极大简化用户操作的前提下，便于用户查找或回忆当前感兴趣内容，并可以精准地定位至用户感兴趣的播放节点，符合用户需求。

图6是根据本申请一个实施例的视频播放界面的示意图，用于示例性地说明客户端的视频播放过程。

如图6所示，在视频播放界面600可以包括视频播放区域601、字幕展示区域602和搜索区域603。例如一个目标视频包括以下多个字幕文本片段：“第一题......”、“第二题的第一种解法......”、“第二题的第二种解法”和“第三题......”等。客户端可以在字幕展示区域602展示该多个字幕文本片段。在展示不完全的情况下，用户可以通过滑动、拖拽等操作对该多个字幕文本片段进行查看。在用户希望观看视频中的某段内容时，可以针对相应的字幕文本片段进行例如点击的触发操作。客户端响应于用户针对某个字幕文本片段(例如“第二题的第一种解法......”)的触发操作，将该字幕文本片段在视频中的起始时间作为视频的起始播放节点，直接跳转至该起始播放节点开始播放视频。

进一步地，如图6所示，根据本公开实施例的视频播放方案还可以支持针对字幕文本片段的搜索功能。示例性地，搜索区域603包括搜索控件，例如搜索框、搜索按钮等。在视频的字幕文本片段过多的情况下，用户可以在搜索区域603输入搜索词，并执行触发操作(例如点击触发按钮等)。响应于用户的触发操作，获取搜索词。从当前视频的多个字幕文本片段中确定针对搜索词的匹配字幕文本片段。例如在上文的例子中，搜索词为“第三”，则通过匹配过程得到的匹配字幕文本片段为“第三题......”。在该匹配字幕文本片段的展示位置，展示预定标识以醒目地标示该匹配字幕文本片段，从而提示用户注意该匹配字幕文本片段。用户可直接触发该匹配字幕文本片段以实现视频的播放节点的定位和跳转。

图7是根据本申请一个实施例的视频播放节点的定位装置的框图。

如图7所示，视频播放节点的定位装置700可以应用于服务器，视频播放节点的定位装置700可以包括：筛选模块710和播放节点管理模块720。

筛选模块710用于从多个视频中筛选出目标视频。

播放节点管理模块720用于将目标视频、以及该目标视频的多个字幕文本片段和该多个字幕文本片段各自的起始时间信息发送至客户端，以由客户端展示该多个字幕文本片段，并响应于针对该多个字幕文本片段中的任一字幕文本片段的触发操作，基于该任一字幕文本片段的起始时间信息确定该目标视频的起始播放节点。

根据本申请的实施例，筛选模块710可以包括评分子模块和第一筛选子模块。评分子模块用于针对多个视频中的每个视频，基于视频的用户交互数据，计算视频的价值评分。第一筛选子模块用于从多个视频中筛选出价值评分高于第一阈值的视频，以作为第一组视频。基于所述第二组视频获得目标视频。

根据本申请的实施例，筛选模块710还可以包括分类子模块和第二筛选子模块。分类子模块用于针对所述第一组视频中的每个视频，利用预先训练的分类器对视频进行分类，以确定视频所属的类别。第二筛选子模块用于从所述第一组视频中筛选出属于预定类别的视频，以作为第二组视频。基于第二组视频获得目标视频。

示例性地，筛选模块710还可以包括第一分析子模块和第三筛选子模块。第一分析子模块用于针对所述第二组视频中的每个视频，提取所述视频的音频数据；对所述音频数据进行语音识别，以得到识别结果。所述识别结果包括：所述视频的多个字幕文本片段、以及所述视频的多个字幕文本片段各自的起始时间信息和终止时间信息；基于所述视频的多个字幕文本片段各自的起始时间信息和终止时间信息，确定所述视频的多个字幕文本片段的总时长相对于所述视频的总时长的第一占比。第三筛选子模块用于从所述第二组视频中筛选出所述第一占比高于第二阈值的视频，以作为所述目标视频。

示例性地，筛选模块710还可以包括第二分析子模块和第四筛选子模块。第二分析子模块用于针对第二组视频中的每个视频，在视频属于预定类别的情况下，提取视频的音频数据；对音频数据进行语音识别，以得到识别结果。识别结果包括：视频的多个字幕文本片段、以及所述视频的多个字幕文本片段各自的起始时间信息和终止时间信息；对视频的多个字幕文本片段进行语义分析，以得到针对视频的多个字幕文本片段的逻辑分数。第四筛选子模块用于从所述第二组视频中筛选出所述逻辑分数高于第三阈值的视频，以作为所述目标视频。

根据本申请的实施例，播放节点管理模块720还用于：将目标视频的多个字幕文本片段各自的终止时间信息发送至所述客户端，以由客户端响应于针对所述多个字幕文本片段中的任一字幕文本片段的触发操作，基于该任一字幕文本片段的终止时间信息确定目标视频的终止播放节点。

示例性地，用户交互数据包括如下至少一项：观看视频的次数超过第四阈值的用户数量相对于观看视频的总用户数量的第二占比；针对视频的评论数量；针对视频的收藏数量；以及，针对视频的点赞数量。

例如，评分子模决用于利用预先设置的第一权重、第二权重、第三权重和第四权重，对所述第二占比、所述评论数量、所述收藏数量和所述点赞数量进行加权求和，以计算得到所述价值评分。

图8是根据本申请另一个实施例的视频播放节点的定位装置的框图。

如图8所示，视频播放节点的定位装置800可以应用于客户端，视频播放节点的定位装置800可以包括：获取模块810、展示模块820和播放节点定位模块830。

获取模块810用于获取目标视频、以及该目标视频的多个字幕文本片段和该多个字幕文本片段各自的起始时间信息，其中目标视频是从多个视频中筛选得到的。

展示模块820用于展示多个字幕文本片段。

播放节点定位模块830用于响应于针对所述多个字幕文本片段中的任一字幕文本片段的触发操作，基于该任一字幕文本片段的起始时间信息确定所述目标视频的起始播放节点。

根据本申请的实施例，播放节点定位模块830包括：第一确定子模块用于根据该任一字幕文本片段的起始时间信息，确定该任一字幕文本片段在目标视频中的起始时刻；以及，第一定位子模块用于将该起始时刻作为目标视频的起始播放节点，以从该起始播放节点开始播放所述目标视频。

根据本申请的实施例，该装置800还包括搜索处理模块，用于展示搜索控件；响应于针对所述搜索控件的触发操作，获取搜索词；从所述多个字幕文本片段中确定针对所述搜索词的匹配字幕文本片段；以及，在所述匹配字幕文本片段的展示位置，展示预定标识。

根据本申请的实施例，获取模块810还用于获取多个字幕文本片段各自的终止时间信息。播放节点定位模块830还包括第二确定子模块和第二定位子模块。第二确定子模块用于根据任一字幕文本片段的终止时间信息，确定该任一字幕文本片段在所述目标视频中的终止时刻。第二定位子模块用于将该终止时刻作为所述目标视频的终止播放节点，以在目标视频播放至所述终止播放节点时，停止播放目标视频。

需要说明的是，装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似，在此不再赘述。

根据本申请的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本申请实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本申请实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本申请实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图9所示，是根据本申请实施例的视频播放节点的定位方法的电子设备的框图。该电子设备可以为执行上述视频播放节点的定位方法的服务器，也可以为执行上述视频播放节点的定位方法的客户端所在设备。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备900包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。

存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的视频播放节点的定位方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的视频播放节点的定位方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的视频播放节点的定位方法对应的程序指令/模块。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的视频播放节点的定位方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

视频播放节点的定位方法的电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线905或者其他方式连接，图9中以通过总线905连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与视频播放节点的定位方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，从大量视频中筛选出的具有播放节点定位价值的目标视频，在需要针对目标视频进行播放的情况下，向用户展示目标视频的多个字幕文本片段。并可以基于用户指定的字幕文本片段的起始时间信息来确定该目标视频的起始播放节点。上述过程中，仅针对目标视频的播放节点定位处理可节省大量计算资源、提高服务器和客户端之间的交互效率，多个字幕文本片段的共同展示可使得用户在短时间内确定希望观看的内容节点，并且，基于用户指定的字幕文本片段的起始时间信息可以精准地确定当前视频的起始播放节点。根据本公开实施例的视频播放节点的定位方法、装置、设备以及存储介质涉及例如云计算、大数据、视频处理等多种技术。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种视频播放节点的定位方法，其特征在于，所述方法包括：

从多个视频中筛选出目标视频；以及

将所述目标视频、以及所述目标视频的多个字幕文本片段和所述多个字幕文本片段各自的起始时间信息发送至客户端，以由所述客户端展示所述多个字幕文本片段，并响应于针对所述多个字幕文本片段中的任一字幕文本片段的触发操作，基于所述任一字幕文本片段的起始时间信息确定所述目标视频的起始播放节点。

2.根据权利要求1所述的方法，其特征在于，所述从多个视频中筛选出目标视频包括：

针对所述多个视频中的每个视频，基于所述视频的用户交互数据，计算所述视频的价值评分；

从所述多个视频中筛选出所述价值评分高于第一阈值的视频以作为第一组视频；以及

基于所述第一组视频获得所述目标视频。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一组视频获得所述目标视频包括：

针对所述第一组视频中的每个视频，利用预先训练的分类器对所述视频进行分类，以确定所述视频所属的类别；

从所述第一组视频中筛选出属于预定类别的视频以作为第二组视频；以及

基于所述第二组视频获得所述目标视频。

4.根据权利要求3所述的方法，其特征在于，所述基于所述第二组视频获得所述目标视频包括：

针对所述第二组视频中的每个视频，

提取所述视频的音频数据；

对所述音频数据进行语音识别，以得到识别结果，所述识别结果包括：所述视频的多个字幕文本片段、以及所述视频的多个字幕文本片段各自的起始时间信息和终止时间信息；

基于所述视频的多个字幕文本片段各自的起始时间信息和终止时间信息，确定所述视频的多个字幕文本片段的总时长相对于所述视频的总时长的第一占比；以及

从所述第二组视频中筛选出所述第一占比高于第二阈值的视频，以作为所述目标视频。

5.根据权利要求3所述的方法，其特征在于，所述基于所述第二组视频获得所述目标视频包括：

针对所述第二组视频中的每个视频，

在所述视频属于预定类别的情况下，提取所述视频的音频数据；

对所述视频的多个字幕文本片段进行语义分析，以得到针对所述视频的多个字幕文本片段的逻辑分数；以及

从所述第二组视频中筛选出所述逻辑分数高于第三阈值的视频，以作为所述目标视频。

6.根据权利要求4或5所述的方法，其特征在于，所述方法还包括：

将所述目标视频的多个字幕文本片段各自的终止时间信息发送至所述客户端，以由所述客户端响应于针对所述多个字幕文本片段中的任一字幕文本片段的触发操作，基于所述任一字幕文本片段的终止时间信息确定所述目标视频的终止播放节点。

7.根据权利要求2所述的方法，其特征在于，所述用户交互数据包括如下至少一项：

观看所述视频的次数超过第四阈值的用户数量相对于观看所述视频的总用户数量的第二占比；

针对所述视频的评论数量；

针对所述视频的收藏数量；以及

针对所述视频的点赞数量。

8.根据权利要求7所述的方法，其特征在于，所述基于所述用户交互数据，计算所述视频的价值评分包括：

利用预先设置的第一权重、第二权重、第三权重和第四权重，对所述第二占比、所述评论数量、所述收藏数量和所述点赞数量进行加权求和，以计算得到所述价值评分。

9.一种视频播放节点的定位方法，其特征在于，所述方法包括：

展示所述多个字幕文本片段；

10.根据权利要求9所述的方法，其特征在于，所述基于所述任一字幕文本片段的起始时间信息确定所述目标视频的起始播放节点包括：

根据所述任一字幕文本片段的起始时间信息，确定所述任一字幕文本片段在所述目标视频中的起始时刻；以及

将所述起始时刻作为所述目标视频的起始播放节点，以从所述起始播放节点开始播放所述目标视频。

11.根据权利要求9所述的方法，其特征在于，所述方法还包括：

展示搜索控件；

响应于针对所述搜索控件的触发操作，获取搜索词；

从所述多个字幕文本片段中确定针对所述搜索词的匹配字幕文本片段；以及

在所述匹配字幕文本片段的展示位置，展示预定标识。

12.根据权利要求10所述的方法，其特征在于，所述方法还包括：

获取所述多个字幕文本片段各自的终止时间信息；

根据所述任一字幕文本片段的终止时间信息，确定所述任一字幕文本片段在所述目标视频中的终止时刻；以及

将所述终止时刻作为所述目标视频的终止播放节点，以在所述目标视频播放至所述终止播放节点时，停止播放所述目标视频。

13.一种视频播放节点的定位装置，其特征在于，所述装置包括：

筛选模块，用于从多个视频中筛选出目标视频；以及

播放节点管理模块，用于将所述目标视频、以及所述目标视频的多个字幕文本片段和所述多个字幕文本片段各自的起始时间信息发送至客户端，以由所述客户端展示所述多个字幕文本片段，并响应于针对所述多个字幕文本片段中的任一字幕文本片段的触发操作，基于所述任一字幕文本片段的起始时间信息确定所述目标视频的起始播放节点。

14.一种视频播放节点的定位装置，其特征在于，所述装置包括：

获取模块，用于获取目标视频、以及所述目标视频的多个字幕文本片段和所述多个字幕文本片段各自的起始时间信息，所述目标视频是从多个视频中筛选得到的；

展示模块，用于展示所述多个字幕文本片段；

播放节点定位模块，用于响应于针对所述多个字幕文本片段中的任一字幕文本片段的触发操作，基于所述任一字幕文本片段的起始时间信息确定所述目标视频的起始播放节点。

15.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

16.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求9-12中任一项所述的方法。

17.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求9-12中任一项所述的方法。