CN111382306B

CN111382306B - 查询视频帧的方法和装置

Info

Publication number: CN111382306B
Application number: CN201811623093.8A
Authority: CN
Inventors: 余翔
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2023-12-01
Anticipated expiration: 2038-12-28
Also published as: CN111382306A

Abstract

本申请公开了一种查询视频帧的方法和装置，属于多媒体技术领域。所述方法包括：获取待检索的动作类型；从预先存储的目标视频中确定所述动作类型对应的至少一个视频帧。采用本申请，可以提高查询的效率。

Description

查询视频帧的方法和装置

技术领域

本申请涉及多媒体技术领域，特别涉及一种查询视频帧的方法和装置。

背景技术

随着道路交通的快速发展，道路交通事故已成为当今重要的问题，而这其中，有许多交通事故是由于行人不遵守交通规则造成的，如随意翻越交通护栏、边看手机边走路、在行车道上随意跑跳等，这些行为都属于危险行为，引发交通事故的可能性较大。

当发生交通事故时，警方可能需要判断事故的责任方，监控视频是较为有力的佐证，如果警方在监控视频中查找这段视频时，只能按照猜测的大概时间在大量的监控视频中查找，导致查找的效率较低。

发明内容

为了解决相关技术的问题，本申请实施例提供了一种查询视频帧的方法和装置。所述技术方案如下：

第一方面，提供了一种查询视频帧的方法，所述方法包括：

获取待检索的动作类型；

从预先存储的目标视频中确定所述动作类型对应的至少一个视频帧。

可选地，所述获取待检索的动作类型，包括：

获取携带有待检索的动作类型的视频查询请求，或者，获取携带有包含至少一个动作类型的视频帧的视频查询请求。

可选地，所述从预先存储的目标视频中确定所述动作类型对应的至少一个视频帧，包括：

获取目标视频的每个视频帧的扩展字段，其中，所述目标视频的每个视频帧的扩展字段中存储有所述视频帧对应的至少一个动作类型；

将扩展字段中包括所述待检索的动作类型的视频帧，确定为所述待检索的动作类型对应的至少一个视频帧。

可选地，所述从预先存储的目标视频中确定所述动作类型对应的至少一个视频帧之后，还包括：

输出所述待检索的动作类型对应的视频帧所对应的至少一个视频段。

可选地，所述获取待检索的动作类型之前，还包括：

获取所述目标视频的视频帧；

将所述目标视频的每个视频帧分别输入骨架识别模型，得到所述每个视频帧对应的至少一个骨架数据；

根据每个视频帧对应的至少一个骨架数据和预先存储的动作类型和基准骨架数据的对应关系，确定所述目标视频的每个视频帧对应的至少一个动作类型。

可选地，所述根据每个视频帧对应的至少一个骨架数据和预先存储的动作类型和基准骨架数据的对应关系，确定所述目标视频的每个视频帧对应的至少一个动作类型，包括：

确定每个视频帧对应的至少一个骨架数据分别与预先存储的每个基准骨架数据的相似度，确定每个骨架数据对应的相似度最高的基准骨架数据；

根据预先存储的动作类型和基准骨架数据的对应关系，以及所述每个骨架数据对应的相似度最高的基准骨架数据，确定每个骨架数据对应的动作类型，得到每个视频帧对应的至少一个动作类型。

可选地，所述获取待检索的动作类型，包括：

获取携带有目标图像的视频查询请求；

将所述目标图像输入所述骨架识别模型，得到所述目标图像对应的至少一个目标骨架数据；

根据所述至少一个目标骨架数据以及预先存储的动作类型与基准骨架数据的对应关系，确定所述目标图像对应的至少一个待检索的动作类型。

第二方面，提供了一种查询视频帧的装置，所述装置包括：

获取模块，用于获取待检索的动作类型；

确定模块，用于从预先存储的目标视频中确定所述动作类型对应的至少一个视频帧。

可选地，所述获取模块，用于：

可选地，所述确定模块，用于：

可选地，所述装置还包括：

输出模块，用于从预先存储的目标视频中确定所述动作类型对应的至少一个视频帧之后，输出所述待检索的动作类型对应的视频帧所对应的至少一个视频段。

可选地，

所述获取模块，还用于获取待检索的动作类型之前，获取所述目标视频的视频帧；

所述确定模块，还用于将所述目标视频的每个视频帧分别输入骨架识别模型，得到所述每个视频帧对应的至少一个骨架数据；

所述确定模块，还用于根据每个视频帧对应的至少一个骨架数据和预先存储的动作类型和基准骨架数据的对应关系，确定所述目标视频的每个视频帧对应的至少一个动作类型。

可选地，所述确定模块，用于：

可选地，所述获取模块，用于：

获取携带有目标图像的视频查询请求；

第三方面，提供了一种计算机设备，所述计算机设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序，实现如上述第一方面所述的查询视频帧的方法。

第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上述第一方面所述的查询视频帧的方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例中，先获取待检索的动作类型，然后在预先存储的目标视频中，查询待检索的动作类型对应的至少一个视频帧。这样，无需用户采用人工的方式在视频中查找，节省了人力物力，减少了查找时间，进而，提高了查找效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种查询视频帧的方法的流程图；

图2是本申请实施例提供的一种查询视频帧的方法的流程图；

图3是本申请实施例提供的一种查询视频帧的方法的流程图；

图4是本申请实施例提供的一种查询视频帧的方法的场景示意图；

图5是本申请实施例提供的一种查询视频帧的装置的结构示意图；

图6是本申请实施例提供的一种查询视频帧的装置的结构示意图；

图7是本申请实施例提供的一种终端结构示意图；

图8是本申请实施例提供的一种服务器结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种查询视频帧的方法，该方法可以由计算机设备实现。其中，计算机设备可以是终端，也可以是服务器，本申请对此不作限定。

如图1所示，该方法的处理流程可以包括如下的步骤：

在步骤101中，计算机设备获取待检索的动作类型。

在一种可能的实施方式中，当用户想要对某个视频(即目标视频)进行检索时，计算机设备根据用户的输入信息获取待检索的动作类型。

可选地，计算机设备获取待检索的动作类型的方式可以有多种方式，以下例举几种可行的获取方式。

方式一、计算机设备获取携带有待检索的动作类型的视频查询请求。用户可以在计算机设备中输入动作类型(即待检索的动作类型)，计算机设备接收到待检索的动作类型后，根据待检索的动作类型生成视频查询请求。例如，计算机设备可以显示动作类型的选择框，用户可以选择想要查找的动作类型，计算机设备接收到待检索的动作类型，并生成视频查询请求。

方式二、计算机设备获取携带有包含至少一个动作类型的视频帧的视频查询请求。用户可以在计算机设备中输入待检索的视频帧，该视频帧中包含至少一个动作类型对应的图像，计算机设备获取到该视频帧后，根据该视频帧生成视频查询请求。

方式三、用户可以在计算机设备中输入查询条件，计算机设备接收到查询条件后，根据预设的转换方式，将接收到的查询条件转换为动作类型(即为待检索的动作类型)，计算机设备根据待检索的动作类型生成视频查询请求。例如，用户想要查找跑步的人的视频，用户可以输入文字“跑步”，计算机设备根据预设的字符串与动作类型的对应关系表，将用户输入的文字转换成字符串，并在字符串与动作类型的对应关系表中查询该字符串对应的动作类型，将该动作类型确定为待检索的动作类型。需要说明的是，如果用户输入的是文字，则计算机设备可以根据预先存储的语义模糊检索算法，在字符串与动作类型的对应关系表中，根据用户输入的文字查找对应的字符串，并确定该字符串对应的动作类型，确定为待检索的动作类型。

在步骤102中，计算机设备从预先存储的目标视频中确定动作类型对应的至少一个视频帧。

在一种可能的实施方式中，通过上述步骤计算机设备获取到待检索的动作类型后，在预先存储的目标视频中，查询包含动作类型对应的图像的至少一个视频帧，将其确定为动作类型对应的视频帧。

可选地，计算机设备可以有多种在目标视频中确定动作类型对应的视频帧的方式，以下例举几种可行的存储方式对应的查询方式。

方式一、计算机设备可以预先确定目标视频中每个视频帧对应的至少一个动作类型，然后确定每个视频帧中的至少一个动作类型与视频帧的对应关系，将每个动作类型以及对应的视频帧的帧标识存储在预设的对应关系表中。当计算机获取到待检索的动作类型时，计算机设备在该对应关系表中，查找待检索的动作类型对应的至少一个视频帧的帧标识，根据至少一个帧标识确定待检索的动作类型对应的至少一个视频帧。

方式二、计算机设备获取目标视频的每个视频帧的扩展字段；将扩展字段中包括待检索的动作类型的视频帧，确定为待检索的动作类型对应的至少一个视频帧。

其中，目标视频的每个视频帧的扩展字段中存储有视频帧对应的至少一个动作类型。

在一种可能的实施方式中，如果计算机设备将每个视频帧对应的至少一个动作类型存储至该视频帧的扩展字段中，则当接收到携带有待检索的动作类型的视频查询请求时，流程大致如图2所示，计算机设备获取待检索的动作类型，然后，从目标视频的第一个视频帧开始，查询视频帧的扩展字段中是否包括待检索的动作类型，如果该视频帧的扩展字段中包括待检索的动作类型，说明该视频帧是用户想要查找的视频帧，计算机设备将该视频帧确定待检索的动作类型对应的视频帧；如果该视频帧的扩展字段中不包括待检索的动作类型，说明该视频帧不是用户想要查找的视频帧，继续进行下一个视频帧的查找。计算机判断是否还有下一个视频帧，如果有，则按照上述判断方式判断该视频帧是否为待检索的动作类型对应的视频帧，如果没有下一个视频帧，则查找的步骤结束。

需要说明的是，除了上述例举的几种方式之外，还可以采用其他方式在目标视频中确定动作类型对应的视频帧，例如实时确定目标视频的每个视频帧对应的动作类型，并判断确定出的每个视频帧对应的动作类型是否包括待检索的动作类型，本申请对此不作限定。

可选地，从预先存储的目标视频中确定动作类型对应的至少一个视频帧之后，可以向用户展示查找到的视频帧，相应的处理步骤可以是：计算机设备输出待检索的动作类型对应的视频帧所对应的至少一个视频段。

在一种可能的实施方式中，为了便于用户查看检索结果，计算机设备确定出待检索的动作类型对应的至少一个视频帧后，可以根据每组视频帧确定并输出其对应的视频段，根据每组视频帧确定并输出其对应的视频段的方法有多种，此处例举几种可行的方式，本申请不限制具体实施时采用哪种方式。

方式一、在计算机设备确定出待检索的动作类型对应的视频帧后，选取确定出的视频帧，将视频帧按照时间戳进行排序，生成一个视频段，作为待检索的动作类型对应的视频帧所对应的视频段，输出该视频段。

方式二、在计算机设备确定出待检索的动作类型对应的视频帧后，选取确定出的视频帧中，相邻两帧的帧间隔等于选取视频帧时用到的预设帧间隔的视频帧，将这些视频帧形成一个视频帧集合，这样，将确定出的视频帧分为至少一个视频帧集合，然后，对于每个视频帧集合，将每个视频帧集合中的视频帧组合成视频段，将其确定为待检索的动作类型对应的视频帧所对应的视频段，输出这些视频段。

方式三、在计算机设备确定出待检索的动作类型对应的视频帧后，选取确定出的视频帧中，相邻两帧的帧间隔等于选取帧间隔的视频帧，将这些视频帧形成一个视频帧集合，这样，将确定出的视频帧分为至少一个视频帧集合，然后，对于每个视频帧集合，确定视频帧集合的起始帧的时间戳以及终止帧的时间戳。获取预先存储的调整值，其中，调整值为非负数。计算起始帧的时间戳与调整值的差值，确定为该视频帧集合对应的视频段的起始时间，计算终止帧的时间戳与调整值的和值，确定为该视频帧集合对应的视频段的终止时间。然后，根据该视频帧集合对应的视频段的起始时间以及终止时间，在目标视频中获取视频段，该视频段即为该视频帧集合对应的视频段。按照上述步骤获取每个视频帧集合对应的视频段，输出视频段。

可选地，在生成视频段时，可以将每组视频帧的第一个视频帧作为视频的封面，如果某组视频帧的个数少于预设个数，则无需生成视频。最终，计算机终端输出生成的视频以及视频帧。这样，用户既可以查看单独的视频帧，也可以查看视频，更能满足用户的查看需求。

需要说明的是，如果计算机设备是配置有显示设备的终端，则计算机设备输出待检索的动作类型对应的视频帧所对应的至少一个视频段这个步骤，可以是计算机设备在显示设备上显示待检索的动作类型对应的视频帧所对应的至少一个视频段，便于用户查看。如果计算机设备是服务器，则计算机设备输出待检索的动作类型对应的视频帧所对应的至少一个视频段这个步骤，可以是计算机设备将待检索的动作类型对应的视频帧所对应的至少一个视频段发送至用户使用的终端中，使得终端向用户显示视频帧所对应的至少一个视频段。

可选地，在执行上述步骤101之前，计算机设备可以提前确定目标视频的每个视频帧对应的动作类型，以便后续对目标视频进行查询，如图3所示，相应的处理步骤可以包括下属步骤1021-1023：

在步骤1021中，计算机设备获取目标视频的视频帧。

在一种可能的实施方式中，当用户想要对目标视频进行检索时，可以先将目标视频输入计算机设备，计算机设备获取目标视频后，将目标视频拆分成视频帧。在选取视频帧时，用户可以设置计算机设备选取拆分出的每一个视频帧，这样可以提高检索的准确度。用户也可以设置计算机设备按照预设的选取方式，选取一部分视频帧，如每个预设间隔选取一个视频帧，这样可以减少计算量，提高检索的效率。选取视频帧的方式可以根据用户的需求进行设定，本申请对此不做限定。

需要说明的是，目标视频可以是完整的一段视频，也可以是正在录制的视频，用户可以设置采集的视频帧自动输入计算机设备，计算机根据接收到的视频帧选取出视频帧，本申请对此不作限定。

在步骤1022中，计算机设备将目标视频的每个视频帧分别输入骨架识别模型，得到每个视频帧对应的至少一个骨架数据。

其中，动作类型是某一类动作的类别标识。

在一种可能的实施方式中，得到目标视频的视频帧后，以一个视频帧为例，计算机设备获取预先存储的骨架识别模型，将该视频帧输入该骨架识别模型中，该骨架识别模型输出该视频帧对应的骨架数据，骨架数据可以是一个，也可以是多个。

骨架数据可以是多种形式，取决于骨架识别模型设定的输出形式。可选的一种形式是二维的骨架关键关节点图像，如图4所示，这种情况下，得到的每个骨架数据的图像尺寸相同。

上述骨架识别模型可以是基于LSTM(Long Short-Term Memory，长短期记忆网络)等循环神经网络的模型、卷积神经网络模型等，只要能实现骨架数据识别的功能即可，本申请对此不做限定。

在步骤1023中，计算机设备根据每个视频帧对应的至少一个骨架数据和预先存储的动作类型和基准骨架数据的对应关系，确定目标视频的每个视频帧对应的至少一个动作类型。

在一种可能的实施方式中，得到每个视频帧对应的至少一个骨架数据后，以其中一个视频帧为例，计算机设备确定该视频帧包含至少一个骨架数据后，计算机设备可以获取预先存储动作类型和基准骨架数据的对应关系，该对应关系可以按照对应关系表的形式存储在计算机设备中，也可以存储于目标视频的码流中，这样该目标视频在不同的计算机设备上均可以进行检索。然后，确定与该视频帧中每个骨架数据分别对应的基准骨架数据，并分别确定每个基准骨架数据对应的动作类型，将其确定为该视频帧对应的至少一个动作类型。

可选地，在确定每个视频帧对应的至少一个动作类型时，可以基于技术人员预先确定的基准骨架数据来确定每个视频帧中对应的动作类型，相应的处理步骤可以如下：计算机设备确定每个视频帧对应的至少一个骨架数据分别与预先存储的每个基准骨架数据的相似度，确定每个骨架数据对应的相似度最高的基准骨架数据；计算机设备根据预先存储的动作类型和基准骨架数据的对应关系，以及每个骨架数据对应的相似度最高的基准骨架数据，确定每个骨架数据对应的动作类型，得到每个视频帧对应的至少一个动作类型。

在一种可能的实施方式中，得到每个视频帧对应的至少一个骨架数据后，对于每个视频帧对应的每个骨架数据，以一个视频帧的一个骨架数据为例，计算机设备获取预先存储的基准骨架数据，根据预先存储的相似度确定算法，将该骨架数据与每个基准骨架数据分别计算相似度。可选地，该骨架数据以及基准骨架数据可以是图像的形式，这种情况下，骨架数据与基准骨架数据的图像尺寸相同，如果图像尺寸不相同，则对骨架数据进行缩放，使其图像尺寸与基准骨架数据的图像尺寸相同。计算骨架数据与每个基准骨架数据计算相似度时，采用的相似度确定算法可以是图像相似度确定算法，例如内容特征法、感知哈希算法等，本申请对此不作限定。

计算出该骨架数据与每个基准骨架数据的相似度后，对计算出的多个相似度进行比较，选取出其中最高的相似度，并确定最高的相似度对应的基准骨架数据。该骨架数据与相似度最高的基准骨架数据的相似度最高，说明该骨架数据与基准骨架数据最相似，因此，基准骨架数据的动作类型可以作为骨架数据的动作类型。然后根据预先存储的动作类型和基准骨架数据的对应关系，查询相似度最高的基准骨架数据对应的动作类型，将其确定为该骨架数据对应的动作类型。

对于每一个视频帧的每个骨架数据，均按照上述步骤进行处理，本申请对此不做赘述。

可选地，根据上述步骤得到每个视频帧对应的至少一个动作类型之后，可以存储得到的动作类型，便于后续的检索处理，相应的处理步骤可以如下：计算机设备将每个视频帧对应的至少一个动作类型存储至视频帧的扩展字段中。

其中，视频帧的扩展字段是基于标准框架下的附加信息，是标准码流格式的扩展，其中可以包括用户自定义的信息，如音视频编码参数、图像播放的系统时间、智能应用信息等，用于实现信息远程定义、智能应用等功能。

一个可能的实施例中，得到每个视频帧对应的至少一个动作类型之后，以一个视频帧为例，计算机设备根据视频帧的帧标识查找到该视频帧的扩展字段，然后，将该视频帧对应的至少一个动作类型均存储在视频帧的扩展字段中，然后以私有帧的形式封装进目标视频的码流中，跟随该视频帧进行存储。其中，视频帧标识用于标识唯一的视频帧，视频帧标识可以是视频帧在视频中的排列序号，也可以是时间戳等。

上述仅是提供的一种可行的存储方式，除此之外，存储的方式还可以是将每个动作类型以及对应的视频帧的帧标识存储在预设的对应关系表中等方式，本申请对此不做限定。这样预先存储目标视频的每个视频帧对应的动作类型，当计算机设备查询用户想要查询的待检索的动作类型对应的视频帧时，无需每次查询都确定一遍目标视频的每个视频帧对应的动作类型，减少了查询时间，进而提高了查询效率。

可选地，基于上述步骤中的骨架识别模型，用户向计算机设备输入包含至少一个动作类型的视频帧(可称为目标图像)进行视频帧查询时，计算机设备的相应处理可以如下：获取携带有目标图像的视频查询请求；将目标图像输入骨架识别模型，得到目标图像对应的至少一个目标骨架数据；根据至少一个目标骨架数据以及预先存储的动作类型与基准骨架数据的对应关系，确定目标图像对应的至少一个待检索的动作类型。

在一种可能的实施方式中，用户向计算机设备输入包含至少一个动作类型的视频帧时，计算机设备获取到携带有目标图像的视频查询请求，计算机设备获取到目标图像，然后，将目标图像输入到上述骨架识别模型中，骨架识别模型可以输出目标图像对应的至少一个目标骨架数据。然后，参考上述步骤计算每个目标骨架数据与每个基准骨架数据的相似度，对于每个目标骨架数据，将对应的相似度最高的基准骨架数据对应的动作类型确定为该目标骨架数据的动作类型。

可选地，如果是实时检索的使用场景，在确定视频帧对应的至少一个动作类型后，可以不用存储确定出的动作类型，而是直接将确定出的动作类型与预设动作类型进行比较，相应的处理步骤可以如下：确定每个视频帧对应的至少一个动作类型之后，计算机设备获取预设动作类型，如果至少一个动作类型中包括预设的待检索的动作类型，则输出提示信息。

一个可能的实施例中，计算机设备获取预先存储的预设动作类型，将该视频帧对应的至少一个动作类型进行比较，如果至少一个动作类型中包括预设动作类型，说明预设动作类型对应的动作已经发生，计算机设备可以输出提示信息。其中，如果计算机设备是配置有显示屏的终端，则计算机设备输出提示信息这个步骤可以是计算机设备显示文字提示信息、图片提示信息等，如果计算机设备是配置有音频播放设备的终端，则计算机设备输出提示信息这个步骤可以是计算机设备播放音频提示信息，如果计算机设备是服务器，则计算机设备输出提示信息这个步骤可以是计算机设备将文字提示信息、图片提示信息、音频提示信息等发送至用户使用的终端，本申请对此不做限定。

例如，使用上述方法监控考场中考生抄袭的行为，则预设动作类型可以是转身、回头等动作类型，监控设备每采集一个视频帧，将该视频帧按照上述步骤进行处理，得到该视频帧中每个考生对应的动作类型，如果动作类型中包括预设动作类型，说明该考场中有考生产生涉嫌抄袭的动作，计算机设备向查看监控视频的监考人员发出提示信息，以便监考人员进一步确认是否真的抄袭。这样，可以减轻监考人员的监察负担。

可选地，为了便于用户查看，使得用户的体验感更好，可以将用户查找的动作类型对应的物体使用预设的标注方式标注出来，相应的处理步骤可以如下：在上述步骤根据骨架识别模型得到每个视频帧对应的至少一个骨架数据时，还可以得到每个骨架数据在视频帧中的坐标信息；在步骤确定每个骨架数据对应的动作类型，并确定每个视频帧对应的至少一个动作类型时，确定并存储每个视频帧对应的至少一个动作类型中，每个动作类型对应的骨架数据的坐标信息；当计算机设备根据待检索的动作类型确定出对应的视频帧时，同时确定待检索的动作类型对应的物体在视频帧中的坐标信息，并使用预设的标注方式，根据坐标信息对物体进行标注，例如使用矩形框标注出来等。将标注过的视频帧按照上述步骤的处理方式输出，这样，用户就可以在查看检索出的视频帧或视频时，根据标注直接查看想要查找的物体，使得用户的查看体验提高。

基于相同的技术构思，本申请实施例还提供了一种查询视频帧的装置，该装置可以为上述实施例中的计算机设备，如图5所示，该装置包括：获取模块510和确定模型520。

获取模块510，被配置为获取待检索的动作类型；

确定模块520，被配置为从预先存储的目标视频中确定所述动作类型对应的至少一个视频帧。

可选地，所述获取模块510，被配置为：

可选地，所述确定模块520，被配置为：

可选地，如图6所示，所述装置还包括：

输出模块530，被配置为从预先存储的目标视频中确定所述动作类型对应的至少一个视频帧之后，输出所述待检索的动作类型对应的视频帧所对应的至少一个视频段。

可选地，所述获取模块510，还被配置为获取待检索的动作类型之前，获取所述目标视频的视频帧；

所述确定模块520，还被配置为将所述目标视频的每个视频帧分别输入骨架识别模型，得到所述每个视频帧对应的至少一个骨架数据；

所述确定模块520，还被配置为根据每个视频帧对应的至少一个骨架数据和预先存储的动作类型和基准骨架数据的对应关系，确定所述目标视频的每个视频帧对应的至少一个动作类型。

可选地，所述确定模块520，被配置为：

可选地，所述获取模块510，被配置为：

获取携带有目标图像的视频查询请求；

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

需要说明的是：上述实施例提供的查询视频帧的装置在查询视频帧时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的查询视频帧的装置与查询视频帧的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，存储介质中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述实施例中的识别动作类别的方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图7是本申请实施例提供的一种终端的结构示意图，该终端可以是上述实施例中的计算机设备。该终端700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)701和一个或一个以上的存储器702，其中，所述存储器702中存储有至少一条指令，所述至少一条指令由所述处理器701加载并执行以实现上述查询视频帧的方法步骤。

图8是本申请实施例提供的一种服务器的结构示意图，该服务器可以是上述实施例中的计算机设备。该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)801和一个或一个以上的存储器802，其中，所述存储器802中存储有至少一条指令，所述至少一条指令由所述处理器801加载并执行以实现上述查询视频帧的方法步骤。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种查询视频帧的方法，其特征在于，所述方法包括：

获取预先存储的目标视频，并按照预设间隔，从所述目标视频中选出多个视频帧；

根据每个视频帧对应的至少一个骨架数据和预先存储的动作类型和基准骨架数据的对应关系，确定所述目标视频的每个视频帧对应的至少一个动作类型，其中，所述对应关系存储在所述目标视频的码流中；

根据每个视频帧的帧标识，查找所述视频帧的扩展字段，并将所述视频帧对应的至少一个动作类型，存储至所述视频帧的扩展字段中，并以私有帧的形式封装进所述目标视频的码流中，跟随所述视频帧进行存储，其中，所述帧标识用于识别唯一的视频帧；

获取待检索的动作类型；

获取所述目标视频的每个视频帧的扩展字段；

将扩展字段中包括所述待检索的动作类型的视频帧，确定为所述待检索的动作类型对应的至少一个视频帧；

2.根据权利要求1所述的方法，其特征在于，所述获取待检索的动作类型，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据每个视频帧对应的至少一个骨架数据和预先存储的动作类型和基准骨架数据的对应关系，确定所述目标视频的每个视频帧对应的至少一个动作类型，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取待检索的动作类型，包括：

获取携带有目标图像的视频查询请求；

5.一种查询视频帧的装置，其特征在于，所述装置包括：

获取模块，用于获取预先存储的目标视频，并按照预设间隔，从所述目标视频中选出多个视频帧；

确定模块，用于将所述目标视频的每个视频帧分别输入骨架识别模型，得到所述每个视频帧对应的至少一个骨架数据，并根据每个视频帧对应的至少一个骨架数据和预先存储的动作类型和基准骨架数据的对应关系，确定所述目标视频的每个视频帧对应的至少一个动作类型，其中，所述对应关系存储在所述目标视频的码流中；

所述获取模块，还用于获取待检索的动作类型，以及获取所述目标视频的每个视频帧的扩展字段；

所述确定模块，还用于将扩展字段中包括所述待检索的动作类型的视频帧，确定为所述待检索的动作类型对应的至少一个视频帧；

输出模块，用于输出所述待检索的动作类型对应的视频帧所对应的至少一个视频段。

6.根据权利要求5所述的装置，其特征在于，所述获取模块，用于：

7.根据权利要求5所述的装置，其特征在于，所述确定模块，用于：

8.根据权利要求5所述的装置，其特征在于，所述获取模块，用于：

获取携带有目标图像的视频查询请求；