CN111355999B

CN111355999B - 视频播放的方法、装置、终端设备及服务器

Info

Publication number: CN111355999B
Application number: CN202010181013.9A
Authority: CN
Inventors: 李岩; 张水发; 苏眉
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2022-07-01
Anticipated expiration: 2040-03-16
Also published as: CN111355999A

Abstract

本公开关于一种视频播放的方法、装置、终端设备及服务器，该方法包括：响应用户账号的视频播放操作，获取用户账号在候选视频中选定的目标视频的视频标识；向服务器发送视频播放请求，视频播放请求中携带有目标视频的视频标识；接收服务器发送的视频播放响应，视频播放响应中携带有目标视频的视频数据和目标视频包含的对象中与搜索词相匹配的目标对象的目标索引，目标索引包含目标对象所属的视频帧和目标对象的位置信息；播放目标视频，并在目标视频播放至目标对象所属的视频帧时，根据目标对象的位置信息，在目标对象所属的视频帧中对目标对象进行标记显示。采用本公开可以在视频中快速定位到与搜索词相匹配的图像。

Description

视频播放的方法、装置、终端设备及服务器

技术领域

本公开涉及计算机技术领域，尤其涉及一种视频播放的方法、装置、终端设备及服务器。

背景技术

随着多媒体业务的不断发展，越来越多的人选择通过网络搜索的方式获取想要观看的视频。因此，视频搜索也成了获取视频的一个关键环节。目前，传统的视频搜索方式是用户在视频搜索引擎的搜索框中输入搜索词，视频搜索引擎则会返回与该搜索词相关的视频。例如，用户在视频搜索引擎的搜索框中输入“足球”，视频搜索引擎则会返回与“足球”相关的视频。

然而，基于传统的视频搜索方式，用户虽然可以搜索到感兴趣的视频，但无法在视频中快速定位到与搜索词相匹配的图像。

发明内容

本公开提供一种视频播放的方法、装置、终端设备及服务器，以至少解决相关技术中无法在视频中快速定位到与搜索词相匹配的图像的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频播放的方法，所述方法应用于终端设备，所述方法包括：

响应用户账号的视频播放操作，获取所述用户账号在候选视频中选定的目标视频的视频标识，所述候选视频为服务器发送的与所述用户账号输入的搜索词相匹配的视频；

向所述服务器发送视频播放请求，所述视频播放请求中携带有所述目标视频的视频标识；

接收所述服务器发送的视频播放响应，所述视频播放响应中携带有所述目标视频的视频数据和所述目标视频包含的对象中与所述搜索词相匹配的目标对象的目标索引，所述目标索引包含所述目标对象所属的视频帧和所述目标对象的位置信息；

播放所述目标视频，并在所述目标视频播放至所述目标对象所属的视频帧时，根据所述目标对象的位置信息，在所述目标对象所属的视频帧中对所述目标对象进行标记显示。

在一示例性实施例中，所述响应所述用户账号的视频播放操作之前，所述方法还包括：

响应所述用户账号的视频搜索操作，获取所述用户账号输入的搜索词；

向所述服务器发送视频搜索请求，所述视频搜索请求中携带有所述搜索词；

接收所述服务器发送的视频搜索响应，所述视频搜索响应中携带有与所述搜索词相匹配的候选视频的视频标识。

根据本公开实施例的第二方面，提供一种视频播放的方法，所述方法应用于服务器，所述方法包括：

接收终端设备发送的视频播放请求，所述视频播放请求中携带有目标视频的视频标识，所述目标视频为用户账号在服务器发送的与所述用户账号输入的搜索词相匹配的候选视频中选定的视频；

向所述终端设备发送视频播放响应，所述视频播放响应中携带有所述目标视频的视频数据和所述目标视频包含的对象中与所述搜索词相匹配的目标对象的目标索引，所述目标索引包含所述目标对象所属的视频帧和所述目标对象的位置信息，以使所述终端设备播放所述目标视频，并在所述目标视频播放至所述目标对象所属的视频帧时，根据所述目标对象的位置信息，在所述目标对象所属的视频帧中对所述目标对象进行标记显示。

在一示例性实施例中，所述方法还包括：

获取待识别视频的视频数据；

针对所述待识别视频包含的每个视频帧，将所述视频帧输入至对象识别模型中，输出所述视频帧包含的各对象的类别和位置信息，所述类别包括非文字类别和文字类别；

针对所述各对象中类别为非文字类别的第一对象，建立所述第一对象对应的第一索引，所述第一索引包括所述第一对象所属的视频帧、以及所述第一对象对应的类别和位置信息；

针对所述各对象中类别为文字类别的第二对象，在所述视频帧中，根据所述第二对象的位置信息，提取所述第二对象对应的图像；

将所述第二对象对应的图像输入至文字识别模型，输出所述第二对象对应的文本信息，并建立所述第二对象对应的第二索引，所述第二索引包括所述第二对象所属的视频帧、以及所述第二对象对应的文本信息和位置信息。

在一示例性实施例中，所述接收终端设备发送的视频播放请求之前，所述方法还包括：

接收所述终端设备发送的视频搜索请求，所述视频搜索请求中携带有所述用户账号输入的所述搜索词；

根据所述搜索词，在视频库中，确定包含的对象中存在索引与所述搜索词相匹配的对象的候选视频，并将索引与所述搜索词相匹配的对象，确定为目标对象；

向所述终端设备发送视频搜索响应，所述视频搜索响应中携带有所述候选视频的视频标识。

在一示例性实施例中，所述根据所述搜索词，在视频库中，确定包含的对象中存在索引与所述搜索词相匹配的对象的候选视频，并将索引与所述搜索词相匹配的对象，确定为目标对象，包括：

根据所述搜索词和预设的分词算法，确定所述搜索词对应的搜索分词；

针对视频库中的每个视频，如果所述视频包含的第一对象的索引中存在类别与所述搜索分词相匹配的第一对象，则确定所述视频为候选视频，并确定类别与所述搜索分词相匹配的第一对象为所述目标对象；

如果所述视频包含的第二对象的索引中存在文本信息与所述搜索分词相匹配的第二对象，则确定所述视频为候选视频，并确定文本信息与所述搜索分词相匹配的第二对象为所述目标对象。

根据本公开实施例的第三方面，提供一种视频播放的装置，所述装置应用于终端设备，所述装置包括：

第一获取模块，被配置为响应用户账号的视频播放操作，获取所述用户账号在候选视频中选定的目标视频的视频标识，所述候选视频为服务器发送的与所述用户账号输入的搜索词相匹配的视频；

第一发送模块，被配置为向所述服务器发送视频播放请求，所述视频播放请求中携带有所述目标视频的视频标识；

第一接收模块，被配置为接收所述服务器发送的视频播放响应，所述视频播放响应中携带有所述目标视频的视频数据和所述目标视频包含的对象中与所述搜索词相匹配的目标对象的目标索引，所述目标索引包含所述目标对象所属的视频帧和所述目标对象的位置信息；

播放模块，被配置为播放所述目标视频，并在所述目标视频播放至所述目标对象所属的视频帧时，根据所述目标对象的位置信息，在所述目标对象所属的视频帧中对所述目标对象进行标记显示。

作为一种可选的实施方式，所述装置还包括：

第二获取模块，被配置为响应所述用户账号的视频搜索操作，获取所述用户账号输入的搜索词；

第二发送模块，被配置为向所述服务器发送视频搜索请求，所述视频搜索请求中携带有所述搜索词；

第二接收模块，被配置为接收所述服务器发送的视频搜索响应，所述视频搜索响应中携带有与所述搜索词相匹配的候选视频的视频标识。

根据本公开实施例的第四方面，提供一种视频播放的装置，所述装置应用于服务器，所述装置包括：

第一接收模块，被配置为接收终端设备发送的视频播放请求，所述视频播放请求中携带有目标视频的视频标识，所述目标视频为用户账号在服务器发送的与所述用户账号输入的搜索词相匹配的候选视频中选定的视频；

第一发送模块，被配置为向所述终端设备发送视频播放响应，所述视频播放响应中携带有所述目标视频的视频数据和所述目标视频包含的对象中与所述搜索词相匹配的目标对象的目标索引，所述目标索引包含所述目标对象所属的视频帧和所述目标对象的位置信息，以使所述终端设备播放所述目标视频，并在所述目标视频播放至所述目标对象所属的视频帧时，根据所述目标对象的位置信息，在所述目标对象所属的视频帧中对所述目标对象进行标记显示。

作为一种可选的实施方式，所述装置还包括：

获取模块，被配置为获取待识别视频的视频数据；

输出模块，被配置为针对所述待识别视频包含的每个视频帧，将所述视频帧输入至对象识别模型中，输出所述视频帧包含的各对象的类别和位置信息，所述类别包括非文字类别和文字类别；

第一建立模块，被配置为针对所述各对象中类别为非文字类别的第一对象，建立所述第一对象对应的第一索引，所述第一索引包括所述第一对象所属的视频帧、以及所述第一对象对应的类别和位置信息；

提取模块，被配置为针对所述各对象中类别为文字类别的第二对象，在所述视频帧中，根据所述第二对象的位置信息，提取所述第二对象对应的图像；

第二建立模块，被配置为将所述第二对象对应的图像输入至文字识别模型，输出所述第二对象对应的文本信息，并建立所述第二对象对应的第二索引，所述第二索引包括所述第二对象所属的视频帧、以及所述第二对象对应的文本信息和位置信息。

作为一种可选的实施方式，所述装置还包括：

第二接收模块，被配置为接收所述终端设备发送的视频搜索请求，所述视频搜索请求中携带有所述用户账号输入的所述搜索词；

确定模块，被配置为根据所述搜索词，在视频库中，确定包含的对象中存在索引与所述搜索词相匹配的对象的候选视频，并将索引与所述搜索词相匹配的对象，确定为目标对象；

第二发送模块，被配置为向所述终端设备发送视频搜索响应，所述视频搜索响应中携带有所述候选视频的视频标识。

作为一种可选的实施方式，所述确定模块，具体用于：

根据本公开实施例的第五方面，提供一种终端设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现第一方面中任一项所述的视频播放的方法。

根据本公开实施例的第六方面，提供一种存储介质，当所述存储介质中的指令由终端设备的处理器执行时，使得终端设备能够执行第一方面中任一项所述的视频播放的方法。

根据本公开实施例的第七方面，提供一种服务器，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现第二方面中任一项所述的视频播放的方法。

根据本公开实施例的第八方面，提供一种存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行第二方面中任一项所述的视频播放的方法。

根据本公开实施例的第九方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第一方面的任一项实施例中所述的视频播放的方法。

根据本公开实施例的第十方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第二方面的任一项实施例中所述的视频播放的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开提供了一种视频播放的方法，终端设备接收服务器发送的视频播放响应。其中，视频播放响应中携带有目标视频的视频数据和目标视频包含的对象中与搜索词相匹配的目标对象的目标索引，目标索引包含目标对象所属的视频帧和目标对象的位置信息。然后，终端设备播放目标视频，并在目标视频播放至目标对象所属的视频帧时，根据目标对象的位置信息，在目标对象所属的视频帧中对目标对象进行标记显示。这样，用户可以在视频中快速定位到与搜索词相匹配的对象，从而提高用户的体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频播放的方法的应用环境图；

图2是根据一示例性实施例示出的一种视频播放的方法的流程图；

图3是根据一示例性实施例示出的一种视频播放的方法的流程图；

图4是根据一示例性实施例示出的一种视频播放的方法的流程图；

图5是根据一示例性实施例示出的一种视频播放的方法的流程图；

图6是根据一示例性实施例示出的一种视频播放的方法的流程图；

图7是根据一示例性实施例示出的一种视频播放的方法的流程图；

图8是根据一示例性实施例示出的一种视频播放的装置的框图；

图9是根据一示例性实施例示出的一种视频播放的装置的框图；

图10是根据一示例性实施例示出的一种终端设备的内部结构图；

图11是根据一示例性实施例示出的一种终端设备的内部结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所提供的视频播放的方法，可以应用于如图1所示的应用环境中。如图1所示，该应用环境包括终端设备102和服务器104。其中，终端设备102响应用户账号的视频搜索操作，获取用户账号输入的搜索词。然后，终端设备102向服务器发送视频搜索请求。其中，视频搜索请求中携带有搜索词。服务器104接收终端设备发送的视频搜索请求。其中，视频搜索请求中携带有用户账号输入的搜索词。然后，服务器104根据搜索词，在视频库中，确定包含的对象中存在索引与搜索词相匹配的对象的候选视频，并将索引与搜索词相匹配的对象，确定为目标对象。之后，服务器104向终端设备发送视频搜索响应。其中，视频搜索响应中携带有候选视频的视频标识。终端设备102接收服务器发送的视频搜索响应。其中，视频搜索响应中携带有与搜索词相匹配的候选视频的视频标识。然后，终端设备102响应用户账号的视频播放操作，获取用户账号在候选视频中选定的目标视频的视频标识。其中，候选视频为服务器发送的与用户账号输入的搜索词相匹配的视频。之后，终端设备102向服务器发送视频播放请求。其中，视频播放请求中携带有目标视频的视频标识。服务器104接收终端设备发送的视频播放请求。其中，视频播放请求中携带有目标视频的视频标识，目标视频为用户账号在服务器发送的与用户账号输入的搜索词相匹配的候选视频中选定的视频。然后，服务器104向终端设备发送视频播放响应。其中，视频播放响应中携带有目标视频的视频数据和目标视频包含的对象中与搜索词相匹配的目标对象的目标索引，目标索引包含目标对象所属的视频帧和目标对象的位置信息。终端设备102接收服务器发送的视频播放响应。其中，视频播放响应中携带有目标视频的视频数据和目标视频包含的对象中与搜索词相匹配的目标对象的目标索引，目标索引包含目标对象所属的视频帧和目标对象的位置信息。然后，终端设备102播放目标视频，并在目标视频播放至目标对象所属的视频帧时，根据目标对象的位置信息，在目标对象所属的视频帧中对目标对象进行标记显示。

图2是根据一示例性实施例示出的一种视频播放的方法的流程图，如图2所示，该方法应用于终端设备，包括以下步骤。

在步骤S210中，响应用户账号的视频播放操作，获取用户账号在候选视频中选定的目标视频的视频标识。其中，候选视频为服务器发送的与用户账号输入的搜索词相匹配的视频。

在实施中，终端设备向服务器发送携带有用户账号输入的搜索词的视频搜索请求。服务器根据搜索词，在视频库中确定与该搜索词相匹配的候选视频，并向终端设备发送携带有候选视频的视频标识的视频搜索响应。终端设备在应用程序中显示候选视频列表。当用户账号需要播放某一候选视频(也即目标视频)时，用户账号可以在应用程序中显示的候选视频列表中点击该目标视频，或者点击该目标视频对应的播放按钮。相应的，终端设备则会响应用户账号的视频播放操作，获取用户账号在候选视频中选定的目标视频的视频标识。其中，候选视频为服务器发送的与用户账号输入的搜索词相匹配的视频。

在步骤S220中，向服务器发送视频播放请求。其中，视频播放请求中携带有目标视频的视频标识。

在实施中，终端设备获取到目标视频的视频标识后，可以向服务器发送视频播放请求。其中，视频播放请求中携带有目标视频的视频标识。

在步骤S230中，接收服务器发送的视频播放响应。其中，视频播放响应中携带有目标视频的视频数据和目标视频包含的对象中与搜索词相匹配的目标对象的目标索引，目标索引包含目标对象所属的视频帧和目标对象的位置信息。

在实施中，终端设备接收到服务器发送的视频播放响应后，可以对视频播放响应进行解析，得到视频播放响应中携带的目标视频的视频数据和目标视频包含的对象中与搜索词相匹配的目标对象的目标索引。其中，目标索引包含目标对象所属的视频帧和目标对象的位置信息。

在步骤S240中，播放目标视频，并在目标视频播放至目标对象所属的视频帧时，根据目标对象的位置信息，在目标对象所属的视频帧中对目标对象进行标记显示。

在实施中，终端设备得到目标视频的视频数据和目标对象的目标索引后，可以在应用程序中播放该目标视频。针对每个目标对象，当应用程序在目标视频播放至该目标对象所属的视频帧时，可以进一步根据该目标对象的位置信息，在目标对象所属的视频帧中确定该目标对象对应的图像区域。然后，应用程序可以对该目标对象对应的图像区域进行标记显示。其中，标记显示可以为高亮显示，也可以为其他类型的标记显示，本公开不作限定。

可选的，当用户账号在视频帧中点击该目标对象时，终端设备可以响应用户账号的点击操作，根据该目标对象对应的各位置信息，生成该目标对象的运动轨迹。然后，终端设备可以根据该运动轨迹，在该视频帧中显示该目标对象的运动轨迹。

在一示例性实施例中，如图3所示，终端设备响应用户账号的视频播放操作之前，该方法还包括如下步骤：

在步骤S310中，响应用户账号的视频搜索操作，获取用户账号输入的搜索词。

在实施中，当用户账号需要搜索感兴趣的视频时，用户账号可以在终端设备上安装的应用程序的搜索框中输入搜索词，并点击搜索按钮。相应的，终端设备则会响应用户账号的视频搜索操作，获取用户账号在搜索框中输入的搜索词。

在步骤S320中，向服务器发送视频搜索请求。其中，视频搜索请求中携带有搜索词。

在实施中，终端设备获取到用户账号输入的搜索词后，可以向服务器发送视频搜索请求。其中，视频搜索请求中携带都有搜索词。

在步骤S330中，接收服务器发送的视频搜索响应。其中，视频搜索响应中携带有与搜索词相匹配的候选视频的视频标识。

在实施中，服务器接收到终端设备发送的视频搜索响应后，可以在视频库中确定与该搜索词相匹配的候选视频。然后，服务器可以向终端设备发送视频搜索响应。其中，视频搜索响应中携带有与搜索词相匹配的候选视频的视频标识。终端设备接收到服务器发送的视频搜索响应后，可以对视频搜索响应进行解析，得到视频搜索响应中携带的候选视频的视频标识。相应的，终端设备可以在应用程序中显示候选视频列表。

图4是根据一示例性实施例示出的一种视频播放的方法的流程图，如图4所示，该方法应用于服务器，包括以下步骤。

在步骤S410中，接收终端设备发送的视频播放请求。其中，视频播放请求中携带有目标视频的视频标识，目标视频为用户账号在服务器发送的与用户账号输入的搜索词相匹配的候选视频中选定的视频；

在实施中，当用户账号需要播放某一候选视频(也即目标视频)时，用户账号可以在应用程序中显示的与用户账号输入的搜索词相匹配的候选视频列表中点击该目标视频，或者点击该目标视频对应的播放按钮。相应的，终端设备则会响应用户账号的视频播放操作，获取用户账号在候选视频中选定的目标视频的视频标识。然后，终端设备可以向服务器发送视频播放请求。其中，视频播放请求中携带有目标视频的视频标识。服务器接收到视频播放请求后，可以进一步对视频播放请求进行解析，得到视频播放请求中携带的目标视频的视频标识。

在步骤S420中，向终端设备发送视频播放响应。其中，视频播放响应中携带有目标视频的视频数据和目标视频包含的对象中与搜索词相匹配的目标对象的目标索引，目标索引包含目标对象所属的视频帧和目标对象的位置信息，以使终端设备播放目标视频，并在目标视频播放至目标对象所属的视频帧时，根据目标对象的位置信息，在目标对象所属的视频帧中对目标对象进行标记显示。

在实施中，服务器获取到目标视频的视频数据和目标视频包含的目标对象的目标索引后，可以向终端设备发送视频播放响应。其中，视频播放响应中携带有目标视频的视频数据和目标视频包含的目标对象的目标索引，目标索引包含目标对象所属的视频帧和目标对象的位置信息。这样，终端设备接收到视频播放响应后，可以播放目标视频，并在目标视频播放至目标对象所属的视频帧时，根据目标对象的位置信息，在目标对象所属的视频帧中对目标对象进行标记显示。

在一示例性实施例中，如图5所示，服务器还可以识别视频包含的对象，并建立对象的索引，该处理过程包括如下步骤：

在步骤S510中，获取待识别视频的视频数据。

在实施中，当服务器需要识别某一视频(即待识别视频)包含的对象时，服务器可以获取该待识别视频的视频数据。

在步骤S520中，针对待识别视频包含的每个视频帧，将视频帧输入至对象识别模型中，输出视频帧包含的各对象的类别和位置信息。其中，类别包括非文字类别和文字类别。

在实施中，服务器获取到待识别视频的视频数据后，针对待识别视频包含的每个视频帧，服务器可以将该视频帧输入至对象识别模型中。相应的，对象识别模型则会输出该视频帧包含的各对象的类别和位置信息。其中，类别包括非文字类别和文字类别(比如猫、狗、人、足球、篮球、羽毛球、网球、桌子、椅子、电脑、手机、易拉罐、摄像头等)。

可选的，对象识别模型可以为yolo、SSD、faster rcnn、rfcn、FCOS、mask rcnn等对象识别模型，也可以为其他类型的对象识别模型，本公开不作限定。另外，服务器还可以根据训练样本集合对待训练的对象识别模型进行训练，得到训练后的对象识别模型。其中，训练样本集合包括多个样本图像以及该样本图像对应的类别(比如文字和非文字类别)。

在步骤S530中，针对各对象中类别为非文字类别的第一对象，建立第一对象对应的第一索引。其中，第一索引包括第一对象所属的视频帧、以及第一对象对应的类别和位置信息。

在实施中，针对各对象中类别为非文字类别的第一对象，服务器可以直接建立第一对象对应的第一索引。其中，第一索引包括第一对象所属的视频帧、以及第一对象对应的类别和位置信息。例如，第一对象对应的第一索引为{视频帧7、足球、(左顶点：20,55；大小：20*30)}。

在步骤S540中，针对各对象中类别为文字类别的第二对象，在视频帧中，根据第二对象的位置信息，提取第二对象对应的图像。

在实施中，针对各对象中类别为文字类别的第二对象，服务器可以在视频帧中，根据第二对象的位置信息，提取第二对象对应的图像。

在步骤S550中，将第二对象对应的图像输入至文字识别模型，输出第二对象对应的文本信息，并建立第二对象对应的第二索引。其中，第二索引包括第二对象所属的视频帧、以及第二对象对应的文本信息和位置信息。

在实施中，服务器提取到第二对象对应的图像后，可以将第二对象对应的图像输入至文字识别模型中。相应的，文字识别模型则会输出第二对象对应的文本信息。其中，文字识别模型可以为OCR(Optical Character Recognition，光学字符识别)模型，也可以为其他类型的文字识别模型，本公开不作限定。然后，服务器可以建立第二对象对应的第二索引。其中，第二索引包括第二对象所属的视频帧、以及第二对象对应的文本信息和位置信息。例如，第二对象对应的第二索引为{视频帧7、“2020年欧洲足球锦标赛”、(左顶点：100,200；大小：50*200)}。可选的，服务器得到第二对象对应的文本信息后，可以根据预设的分词算法对该文本信息进行拆分，得到多个分词。相应的，第二对象对应的第二索引中的文本信息为由分词组成的文本信息。例如，文本信息为“2020年欧洲足球锦标赛”，拆分后的文本信息为“2020年”、“欧洲”、“足球”和“锦标赛”。这样，可以根据视频中的视频内容(即对象)与搜索词进行匹配，从而提高视频搜索的精度。

可选的，为了进一步提高对象识别的准确率和效率。服务器可以利用视频帧间的信息，对检测到的对象进行跟踪。也即为第一视频帧中检测到的对象初始化一个跟踪器，基于TLD(Track Learning Detection，轨迹学习检测)框架进行跟踪。TLD框架包括跟踪器、检测器和学习器三部分。其中，跟踪器可以采用KCF(Kernel Correlation Filter，核相关滤波)跟踪器，用于在视频帧之间跟踪目标对象的动向；检测器可以采用步骤520中的对象识别模型，用于在视频帧中确定目标对象的位置；学习器，用于根据跟踪器的跟踪结果对检测器的错误进行评估，生成训练样本来对检测器进行更新，避免出现类似错误。服务器还可以基于检测器检测到的对象的位置信息纠正跟踪器跟踪的对象的位置信息，并且使用跟踪轨迹的历史信息，对检测器检测到的对象的类别等信息进行纠正。

在一示例性实施例中，如图6所示，服务器接收终端设备发送的视频播放请求之前，该方法还包括如下步骤：

在步骤S610中，接收终端设备发送的视频搜索请求。其中，视频搜索请求中携带有用户账号输入的搜索词。

在实施中，当用户账号需要搜索感兴趣的视频时，用户账号可以在终端设备上安装的应用程序的搜索框中输入搜索词，并点击搜索按钮。终端设备则会响应用户账号的视频搜索操作，获取用户账号在搜索框中输入的搜索词，并向服务器发送视频搜索请求。其中，视频搜索请求中携带都有搜索词。相应的，服务器则会接收到终端设备发送的视频搜索请求。然后，服务器可以对视频搜索请求进行解析，得到视频搜索请求中携带的搜索词。

在步骤S620中，根据搜索词，在视频库中，确定包含的对象中存在索引与搜索词相匹配的对象的候选视频，并将索引与搜索词相匹配的对象，确定为目标对象。

在实施中，服务器得到搜索词后，可以进一步在视频库中，确定包含的对象中存在索引与搜索词相匹配的对象的候选视频，并将索引与搜索词相匹配的对象，确定为目标对象。

在一示例性实施例中，如图7所示，步骤620中服务器根据搜索词，在视频库中，确定包含的对象中存在索引与搜索词相匹配的对象的候选视频，并将索引与搜索词相匹配的对象，确定为目标对象的处理过程，包括如下步骤：

在步骤S621中，根据搜索词和预设的分词算法，确定搜索词对应的搜索分词。

在实施中，服务器得到搜索词后，可以根据预设的分词算法，对搜索词进行拆分，得到该搜索词对应的搜索分词。其中，预设的分词算法可以由技术人员进行设置，对搜索词进行拆分可以选择粗粒度的拆分，也可以选择细粒度拆分，本公开不作限定。例如，搜索词为“中国足球”，则搜索分词可以为“中国”和“足球”。

在步骤S622中，针对视频库中的每个视频，如果视频包含的第一对象的索引中存在类别与搜索分词相匹配的第一对象，则确定视频为候选视频，并确定类别与搜索分词相匹配的第一对象为目标对象。

在实施中，服务器得到搜索分词后，针对视频库中的每个视频对应的每个第一对象(即类别为非文字类别的对象)，服务器可以获取该第一对象的索引中包含的第一对象的类别。然后，服务器可以判断该第一对象的类别与搜索分词是否相匹配。如果该第一对象的类别与搜索分词相匹配，则说明该视频为用户账号搜索的候选视频，且该第一对象为目标对象。如果该第一对象的类别与搜索分词不匹配，则该第一对象不是目标对象。

在步骤S623中，如果视频包含的第二对象的索引中存在文本信息与搜索分词相匹配的第二对象，则确定视频为候选视频，并确定文本信息与搜索分词相匹配的第二对象为目标对象。

在实施中，服务器得到搜索分词后，针对视频库中的每个视频对应的每个第二对象(即类别为文字类别的对象)，服务器可以获取该第二对象的索引中包含的第二对象的文本信息。然后，服务器可以判断该第二对象的文本信息与搜索分词是否相匹配。如果该第二对象的文本信息与搜索分词相匹配，则说明该视频为用户账号搜索的候选视频，且该第二对象为目标对象。如果该第二对象的文本信息与搜索分词不匹配，则该第二对象不是目标对象。

需要说明的是，如果某一视频的所有第一对象的类别与搜索分词均不匹配，且所有第二对象的文本信息也均与搜索分词均不匹配，则该视频不是候选视频。这样，可以根据视频中的视频内容与搜索词进行匹配，从而提高视频搜索的精度。

在步骤S630中，向终端设备发送视频搜索响应。其中，视频搜索响应中携带有候选视频的视频标识。

在实施中，服务器确定出候选视频后，可以向终端设备发送视频搜索响应。其中，视频搜索响应中携带有候选视频的视频标识。

应该理解的是，虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-7中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图8是根据一示例性实施例示出的一种视频播放的装置的框图。参照图8，该装置应用于终端设备，该装置包括：

第一获取模块810，被配置为响应用户账号的视频播放操作，获取所述用户账号在候选视频中选定的目标视频的视频标识，所述候选视频为服务器发送的与所述用户账号输入的搜索词相匹配的视频；

第一发送模块820，被配置为向所述服务器发送视频播放请求，所述视频播放请求中携带有所述目标视频的视频标识；

第一接收模块830，被配置为接收所述服务器发送的视频播放响应，所述视频播放响应中携带有所述目标视频的视频数据和所述目标视频包含的对象中与所述搜索词相匹配的目标对象的目标索引，所述目标索引包含所述目标对象所属的视频帧和所述目标对象的位置信息；

播放模块840，被配置为播放所述目标视频，并在所述目标视频播放至所述目标对象所属的视频帧时，根据所述目标对象的位置信息，在所述目标对象所属的视频帧中对所述目标对象进行标记显示。

在一示例性实施例中，该装置还包括：

图9是根据一示例性实施例示出的一种视频播放的装置框图。参照图9，该装置应用于服务器，该装置包括：

第一接收模块910，被配置为接收终端设备发送的视频播放请求，所述视频播放请求中携带有目标视频的视频标识，所述目标视频为用户账号在服务器发送的与所述用户账号输入的搜索词相匹配的候选视频中选定的视频；

第一发送模块920，被配置为向所述终端设备发送视频播放响应，所述视频播放响应中携带有所述目标视频的视频数据和所述目标视频包含的对象中与所述搜索词相匹配的目标对象的目标索引，所述目标索引包含所述目标对象所属的视频帧和所述目标对象的位置信息，以使所述终端设备播放所述目标视频，并在所述目标视频播放至所述目标对象所属的视频帧时，根据所述目标对象的位置信息，在所述目标对象所属的视频帧中对所述目标对象进行标记显示。

在一示例性实施例中，该装置还包括：

获取模块，被配置为获取待识别视频的视频数据；

在一示例性实施例中，该装置还包括：

在一示例性实施例中，所述确定模块，具体用于：

本公开提供了一种视频播放的装置，终端设备接收服务器发送的视频播放响应。其中，视频播放响应中携带有目标视频的视频数据和目标视频包含的对象中与搜索词相匹配的目标对象的目标索引，目标索引包含目标对象所属的视频帧和目标对象的位置信息。然后，终端设备播放目标视频，并在目标视频播放至目标对象所属的视频帧时，根据目标对象的位置信息，在目标对象所属的视频帧中对目标对象进行标记显示。这样，用户可以在视频中快速定位到与搜索词相匹配的对象，从而提高用户的体验。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图10是根据一示例性实施例示出的一种终端设备1000的框图。例如，终端设备1000可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图10，终端设备1000可以包括以下一个或多个组件：处理组件1002，存储器1004，电力组件1006，多媒体组件1008，音频组件1010，输入/输出(I/O)的接口1012，传感器组件1014，以及通信组件1016。

处理组件1002通常控制终端设备1000的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1002可以包括一个或多个处理器1020来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1002可以包括一个或多个模块，便于处理组件1002和其他组件之间的交互。例如，处理组件1002可以包括多媒体模块，以方便多媒体组件1008和处理组件1002之间的交互。

存储器1004被配置为存储各种类型的数据以支持在终端设备1000的操作。这些数据的示例包括用于在终端设备1000上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1004可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1006为终端设备1000的各种组件提供电力。电源组件1006可以包括电源管理系统，一个或多个电源，及其他与为终端设备1000生成、管理和分配电力相关联的组件。

多媒体组件1008包括在所述终端设备1000和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1008包括一个前置摄像头和/或后置摄像头。当终端设备1000处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1010被配置为输出和/或输入音频信号。例如，音频组件1010包括一个麦克风(MIC)，当终端设备1000处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1004或经由通信组件1016发送。在一些实施例中，音频组件1010还包括一个扬声器，用于输出音频信号。

I/O接口1012为处理组件1002和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1014包括一个或多个传感器，用于为终端设备1000提供各个方面的状态评估。例如，传感器组件1014可以检测到终端设备1000的打开/关闭状态，组件的相对定位，例如所述组件为终端设备1000的显示器和小键盘，传感器组件1014还可以检测终端设备1000或终端设备1000一个组件的位置改变，用户与终端设备1000接触的存在或不存在，终端设备1000方位或加速/减速和终端设备1000的温度变化。传感器组件1014可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1014还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1014还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1016被配置为便于终端设备1000和其他设备之间有线或无线方式的通信。终端设备1000可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件1016经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1016还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，终端设备1000可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1004，上述指令可由终端设备1000的处理器1020执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图11是根据一示例性实施例示出的一种服务器1100的框图。例如，服务器1100可以为一服务器。参照图11，服务器1100包括处理组件1122，其进一步包括一个或多个处理器，以及由存储器1132所代表的存储器资源，用于存储可由处理组件1122的执行的指令，例如应用程序。存储器1132中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1122被配置为执行指令，以执行上述音频定位的方法。

服务器1100还可以包括一个电源组件1126被配置为执行服务器1100的电源管理，一个有线或无线网络接口1150被配置为将服务器1100连接到网络，和一个输入输出(I/O)接口1158。服务器1100可以操作基于存储在存储器1132的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器1004，上述指令可由设备1000的处理器执行以完成上述方法。存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频播放的方法，其特征在于，所述方法应用于终端设备，所述方法包括：

播放所述目标视频，并在所述目标视频播放至所述目标对象所属的视频帧时，根据所述目标对象的位置信息，在所述目标对象所属的视频帧中对所述目标对象进行标记显示；

响应所述用户账号对所述目标对象的点击操作，根据所述目标对象对应的各位置信息，生成所述目标对象的运动轨迹，并显示所述目标对象的运动轨迹；

其中，所述对象的识别过程包括：获取待识别视频的视频数据；针对所述待识别视频包含的每个视频帧，将所述视频帧输入至对象识别模型中，输出所述视频帧包含的各对象的类别和位置信息，并为检测到的对象初始化跟踪器，所述跟踪器用于利用视频帧间的信息跟踪目标对象的动向；根据所述跟踪器的跟踪结果对所述对象识别模型的错误进行评估，生成训练样本来对所述对象识别模型进行更新；基于所述对象识别模型检测到的对象的位置信息纠正所述跟踪器跟踪的对象的位置信息，并且使用跟踪轨迹的历史信息，对所述对象识别模型检测到的对象的类别进行纠正。

2.根据权利要求1所述的方法，其特征在于，所述响应所述用户账号的视频播放操作之前，所述方法还包括：

3.一种视频播放的方法，其特征在于，所述方法应用于服务器，所述方法包括：

向所述终端设备发送视频播放响应，所述视频播放响应中携带有所述目标视频的视频数据和所述目标视频包含的对象中与所述搜索词相匹配的目标对象的目标索引，所述目标索引包含所述目标对象所属的视频帧和所述目标对象的位置信息，所述目标对象的位置信息用于生成所述目标对象的运动轨迹，以使所述终端设备播放所述目标视频，并在所述目标视频播放至所述目标对象所属的视频帧时，根据所述目标对象的位置信息，在所述目标对象所属的视频帧中对所述目标对象进行标记显示，响应所述用户账号对所述目标对象的点击操作，根据所述目标对象对应的各位置信息，生成所述目标对象的运动轨迹，并显示所述目标对象的运动轨迹；

4.根据权利要求3所述的方法，其特征在于，所述类别包括非文字类别和文字类别；所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述接收终端设备发送的视频播放请求之前，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述搜索词，在视频库中，确定包含的对象中存在索引与所述搜索词相匹配的对象的候选视频，并将索引与所述搜索词相匹配的对象，确定为目标对象，包括：

7.一种视频播放的装置，其特征在于，所述装置应用于终端设备，所述装置包括：

播放模块，被配置为播放所述目标视频，并在所述目标视频播放至所述目标对象所属的视频帧时，根据所述目标对象的位置信息，在所述目标对象所属的视频帧中对所述目标对象进行标记显示；

所述播放模块，还被配置为响应所述用户账号对所述目标对象的点击操作，根据所述目标对象对应的各位置信息，生成所述目标对象的运动轨迹，并显示所述目标对象的运动轨迹；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.一种视频播放的装置，其特征在于，所述装置应用于服务器，所述装置包括：

第一发送模块，被配置为向所述终端设备发送视频播放响应，所述视频播放响应中携带有所述目标视频的视频数据和所述目标视频包含的对象中与所述搜索词相匹配的目标对象的目标索引，所述目标索引包含所述目标对象所属的视频帧和所述目标对象的位置信息，所述目标对象的位置信息用于生成所述目标对象的运动轨迹，以使所述终端设备播放所述目标视频，并在所述目标视频播放至所述目标对象所属的视频帧时，根据所述目标对象的位置信息，在所述目标对象所属的视频帧中对所述目标对象进行标记显示，响应所述用户账号对所述目标对象的点击操作，根据所述目标对象对应的各位置信息，生成所述目标对象的运动轨迹，并显示所述目标对象的运动轨迹；

获取模块，被配置为获取待识别视频的视频数据；

输出模块，被配置针对所述待识别视频包含的每个视频帧，将所述视频帧输入至对象识别模型中，输出所述视频帧包含的各对象的类别和位置信息，并为检测到的对象初始化跟踪器，所述跟踪器用于利用视频帧间的信息跟踪目标对象的动向；根据所述跟踪器的跟踪结果对所述对象识别模型的错误进行评估，生成训练样本来对所述对象识别模型进行更新；基于所述对象识别模型检测到的对象的位置信息纠正所述跟踪器跟踪的对象的位置信息，并且使用跟踪轨迹的历史信息，对所述对象识别模型检测到的对象的类别进行纠正。

10.根据权利要求9所述的装置，其特征在于，所述类别包括非文字类别和文字类别；所述装置还包括：

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

12.根据权利要求11所述的装置，其特征在于，所述确定模块，具体用于：

13.一种终端设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至2中任一项所述的视频播放的方法。

14.一种存储介质，其特征在于，当所述存储介质中的指令由终端设备的处理器执行时，使得所述终端设备能够执行如权利要求1至2中任一项所述的视频播放的方法。

15.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求3至6中任一项所述的视频播放的方法。

16.一种存储介质，其特征在于，当所述存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行如权利要求3至6中任一项所述的视频播放的方法。