CN112597341A

CN112597341A - 视频检索方法及视频检索映射关系生成方法、装置

Info

Publication number: CN112597341A
Application number: CN202011567126.9A
Authority: CN
Inventors: 不公告发明人
Original assignee: Cambricon Technologies Corp Ltd
Current assignee: Cambricon Technologies Corp Ltd
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2021-04-02
Also published as: CN110598048B; CN110598048A

Abstract

本申请涉及一种视频检索方法及视频检索映射关系生成方法、装置。本申请提供的视频检索方法包括：获取检索指令，检索指令中携带检索信息；获取检索信息对应的目标章以及目标章中的目标节；根据目标节对应的文字描述序列以及基于章节属性的映射关系，得到目标帧图片。本申请提供的视频检索映射关系生成方法包括：采用特征提取模型对视频流中的各个帧图片进行特征提取操作，得到每个帧图片对应的关键特征序列；将关键特征序列输入至文字序列提取模型，得到每个帧图片对应的文字描述序列；根据每个帧图片对应的文字描述序列，构建映射关系。采用上述视频检索方法及视频检索映射关系生成方法，能够提高视频检索的效率，并且人机交互更智能。

Description

视频检索方法及视频检索映射关系生成方法、装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种视频检索方法及视频检索映射关系生成方法、装置。

背景技术

随着技术的不断进步，现在视频越来越普及，现在的视频不仅用于电视系统、电影系统中，还用于监控系统中。但是，电视中或者电影中的视频时长最少几个小时，而监控系统中的视频则少则存储几天的视频，长则几个月甚至几年的视频。则在现在信息化时代中产生了海量的视频信息，在海量的视频中查找自己所需要的镜头，无疑是大海捞针。

以电视剧为例，目前，当用户需要在海量电视剧视频中查找自己所需要的某一特定镜头时，往往是通过将视频快进的方式，对整个视频进行遍历，直到发现待查找的镜头。

但是，上述用户手动对视频进行快进并遍历的检索方法，其效率较低，且在快进视频的过程用户容易错过待查找的镜头，导致人机交互不够智能。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高智能性的视频检索方法及视频检索映射关系生成方法、装置、视频检索设备、存储介质。

第一方面，本申请实施例提供一种视频检索方法，包括：

获取检索指令，检索指令中携带用于检索目标帧图片的检索信息；

获取检索信息对应的目标章以及目标章中的目标节；

根据目标节对应的文字描述序列以及基于章节属性的映射关系，得到目标帧图片；其中，映射关系包括不同的文字描述序列与帧图片之间的对应关系，文字描述序列为能够描述帧图片的内容的文字构成的序列。

第二方面，本申请实施例提供一种视频检索映射关系生成方法，包括：

采用特征提取模型对视频流中的各个帧图片进行特征提取操作，得到每个帧图片对应的关键特征序列；其中，关键特征序列包括帧图片中的至少一个关键特征；

将每个帧图片对应的关键特征序列输入至文字序列提取模型中进行处理，得到每个帧图片对应的文字描述序列；其中，文字描述序列为能够描述帧图片的内容的文字构成的序列；

根据每个帧图片对应的文字描述序列，构建映射关系；其中，映射关系包括不同的文字描述序列与帧图片之间的对应关系。

第三方面，本申请实施例提供一种视频检索映射关系生成装置，包括：

提取模块，用于采用特征提取模型对视频流中的各个帧图片进行特征提取操作，得到每个帧图片对应的关键特征序列；其中，关键特征序列包括帧图片中的至少一个关键特征；

第一处理模块，用于将每个帧图片对应的关键特征序列输入至文字序列提取模型中进行处理，得到每个帧图片对应的文字描述序列；其中，文字描述序列为能够描述帧图片的内容的文字构成的序列；

构建模块，用于根据每个帧图片对应的文字描述序列，构建映射关系；其中，映射关系包括不同的文字描述序列与帧图片之间的对应关系。

第四方面，本申请实施例提供一种视频检索设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

获取检索信息对应的目标章以及目标章中的目标节；

第五方面，本申请实施例提供的一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取检索信息对应的目标章以及目标章中的目标节；

本申请提供的视频检索方法及视频检索映射关系生成方法、装置、终端、视频检索设备、存储介质，由于终端进行检索时只需要获取到目标帧图片的检索信息就可以得到用户所要检索的目标帧图片，而无需像传统技术中用户手动对视频进行快进而完成遍历检索，即采用本实施例提供的视频检索方法及视频检索映射关系生成方法，使得视频检索效率高；而且采用本实施例提供的视频检索方法及视频检索映射关系生成方法，也不会出现传统技术中手动快进遍历时用户容易错过待查找镜头的情况，即本实施例提供的视频检索方法及视频检索映射关系生成方法，使得人机交互智能化较高。

附图说明

图1a为一个实施例提供的一种终端的内部结构示意图；

图1为一个实施例提供的视频检索方法的流程示意图；

图2为另一个实施例提供的视频检索方法的流程示意图；

图3为另一个实施例提供的视频检索方法的流程示意图；

图4为另一个实施例提供的视频检索方法的流程示意图；

图5为另一个实施例提供的视频检索方法的流程示意图；

图6为一个实施例提供的树状目录结构的结构示意图；

图7为另一个实施例提供的视频检索方法的流程示意图；

图8为又一个实施例提供的视频检索方法的流程示意图；

图9为一个实施例提供的视频检索映射关系生成方法的流程示意图；

图10为另一个实施例提供的视频检索映射关系生成方法的流程示意图；

图11为又一个实施例提供的视频检索映射关系生成方法的流程示意图；

图12为一个实施例提供的视频检索装置的结构示意图；

图13为一个实施例提供的视频检索映射关系生成装置的结构示意图；

图14为另一个实施例提供的视频检索映射关系生成装置的结构示意图；

图15为另一个实施例提供的视频检索映射关系生成装置的结构示意图；

图16为又一个实施例提供的视频检索映射关系生成装置的结构示意图；

图17为又一个实施例提供的视频检索映射关系生成装置的结构示意图；

图18为又一个实施例提供的视频检索映射关系生成装置的结构示意图；

图19为又一个实施例提供的视频检索映射关系生成装置的结构示意图；

图20为又一个实施例提供的视频检索映射关系生成装置的结构示意图。

具体实施方式

本申请实施例提供的视频检索方法，可以适用于如图1a所示的终端。该终端包括通过系统总线连接的处理器、存储器，该存储器中存储有计算机程序，处理器执行该计算机程序时可以执行下述方法实施例的步骤。可选的，该终端还可以包括网络接口、显示屏和输入装置。其中，该终端的处理器用于提供计算和控制能力。该终端的存储器包括非易失性存储介质、内存储器，该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该终端的网络接口用于与外部的终端通过网络连接通信。可选的，终端可以为移动终端、便携式设备等具有数据处理功能、且可以与外部设备或者用户交互的电子设备，如电视机、数字放映机、平板电脑、手机、个人计算机、数字化视频光盘(Digital Video Disc，DVD)播放器等。本申请实施例对终端的具体形式并不做限定。该终端的输入装置可以是显示屏上覆盖的触摸层，也可以是终端外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板、遥控器或鼠标等。

随着社会的发展，人们的生活中越来越离不开视频，从之前的在电视、电影荧幕上看视频，到现在的还可以在终端(终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、电视、电视机顶盒)上看视频。最初期的视频只能一帧图片一帧图片的进行观看，而无法快进，而现在，无论是在电视上进行观看还是在终端上进行观看都可以快进，把自己不喜欢的镜头直接跳过。即传统技术中，如果用户想要看某一个特定镜头时，需要通过将视频进行快进的方式对整个视频进行遍历，但是，通过传统技术中用户手动快进视频遍历的方法，效率较低，并且在快进视频时容易错过待查找的镜头，导致人机交互智能性低。本申请提供的视频检索方法及视频检索映射关系生成方法、装置、视频检索设备、存储介质旨在解决传统技术的如上技术问题。

需要说明的是，下述方法实施例的执行主体可以是视频检索装置，该装置可以通过软件、硬件或者软硬件结合的方式实现成为上述终端的部分或者全部。下述方法实施例以执行主体是终端为例来进行说明。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例提供的视频检索方法的流程示意图。本实施例涉及的是终端根据检索指令中的检索信息及预设的映射关系得到目标帧图片的具体过程。如图1所示，该方法包括：

S101、获取检索指令，其中，检索指令中携带用于检索目标帧图片的检索信息。

具体的，检索指令可以为终端通过语音识别传感器获取到的语音信号，其中，语音信号中可以包括目标帧图片的描述信息；检索指令也可以为终端通过视觉传感器获取到的体感信号，其中，体感信号中可以包括目标帧图片中人物的姿势信息；检索指令还可以为终端通过人机交互界面(如手机的触摸屏等)获取到的文字信号或图片信号等，其中，文字信号中可以包括目标帧图片的描述信息，图片信号中可以包括目标帧图片中的人物、动物、景色等。

当检索指令为通过语音识别传感器获取到的语音信号时，将获取到的语音信号识别为文字，文字中包括至少一个用于检索目标帧图片的检索信息。当检索指令为通过视觉传感器获取到的体感信号时，将获取到的体感信号识别为文字，文字中包括至少一个用于检索目标帧图片的检索信息。当检索指令为通过人机交互界面获取到的文字信号或图片信号等时，将获取到的文字信号或图片信号识别为文字，文字中包括至少一个用于检索目标帧图片的检索信息。

需要说明的是，检索指令还可以为终端获取到的其他信号，只要携带用于检索目标帧图片的检索信息即可，例如，检索指令还可以为至少上述两种获取检索指令方式的组合，本实施例中对检索指令的获取方式不做限定。

S102、根据检索信息和预设的映射关系，得到目标帧图片；其中，映射关系包括不同的文字描述序列与帧图片之间的对应关系，文字描述序列为能够描述帧图片的内容的文字构成的序列。

具体的，上述文字描述序列为可以描述帧图片的内容的文字构成的序列。可选的，文字描述序列可以包括能够描述帧图片的至少一个文字描述句，其中，文字描述句中可以包括多个能够描述帧图片的内容的文字，当然，文字描述序列还可以为其他形式的序列。可选的，文字描述句中可以包括人物文字描述、时间文字描述、地点文字描述、事件文字描述中的至少一种文字。

可选的，人物文字描述可以为帧图片中所包括的人物的个数、性别、身份和/或角色。时间文字描述可以为帧图片中的季节、昼夜和/或时代，其中，季节可以为春夏秋冬，时代可以为古代、近代。地点文字描述可以为帧图片中的地理条件、地貌条件、特殊场景的至少一种，其中，地理条件如可以包括城市、乡镇、农村等，地貌条件如可以包括草原、平原、高原、雪地等，特殊场景如可以包括住宅、写字楼、工厂、商场等。事件文字描述可以为帧图片中的整体环境，如可以包括战争、体育比赛等。

具体的，上述目标帧图片包括从视频流的所有帧图片中检索出的与检索信息所对应的帧图片。

需要说明的是，上述的映射关系可以以表格的形式体现，当然也可以以列表的形式体现，对此本实施例不做限定。另外，映射关系可以通过下述实施例来构建，映射关系也可以通过从视频中获取先验知识，并根据获取到的先验知识和检索信息(例如检索关键字)结合构成词向量的方式进行构建，还可以预先设置好。需要说明的是，本实施例不对如何得到映射关系进行限定。

在具体实现上述S102时，终端根据获取到的用于检索目标帧图片的检索信息，将检索信息在文字描述序列进行检索。在检索到与S101中获取到的检索指令中的检索信息对应的文字描述序列后，根据映射关系确定出该文字描述序列对应的帧图片，即得到目标帧图片。需要说明的是，如果检索指令较明确时，所检索出的帧图片可能为一帧，如果检索出的帧图片为一帧时，该帧图片即为目标帧图片。但是，如果检索指令较模糊时，所检索出的帧图片可能为多帧，如果多个帧图片所表示的场景很相近，相近场景的帧图片对应的文字描述序列也比较相近，那么所检索出的帧图片也可能为多帧，当检索出的帧图片为多帧时，将检索出的多帧帧图片可以同时展示在终端的显示界面中，供用户从中进行挑选；也可以按照多帧帧图片在视频中出现的顺序在显示界面中一帧一帧的依次展示，供用户从中挑选。挑选时，用户可以通过按键选择下一页/上一页进行选择，还可以通过用手势或者身体姿势表示进行下一页/上一页等方式进行选择，需要说明的是，本实施例中对如何操作使得帧图片进行下一页/上一页不做限定。另外，本实施例中对检索出的帧图片为多个帧图片时，如何在显示界面中进行展示也不做限定。

本实施例提供的视频检索方法，终端根据获取到的检索指令中携带的用于检索目标帧图片的检索信息和预设的映射关系，就可以得到用户所要检索的目标帧图片。由于终端进行检索时只需要获取到目标帧图片的检索信息就可以得到用户所要检索的目标帧图片，而无需像传统技术中用户手动对视频进行快进而完成遍历检索，即本实施例提供的视频检索方法效率高；而且本实施例提供的视频检索方法也不会出现传统技术中手动快进遍历时用户容易错过待查找镜头的情况，即本实施例提供的视频检索方法人机交互智能化较高。

图2为另一个实施例提供的视频检索方法的流程示意图，本实施例涉及的是终端如何构建文字描述序列与帧图片之间的映射关系的具体过程。在上述实施例的基础上，获取检索指令之前，该方法还包括：

S201、对视频流进行采样，得到视频流所包含的多个帧图片。

可选的，终端对视频流进行采样时，可以选择采样频率为1帧/秒，也可以选择采样频率为2帧/秒，但是，本实施例对采样频率并不做限定。

上述对视频流进行采样得到视频流所包含的多个帧图片，这样下述步骤对采样后得到的视频流中的帧图片进行处理时，可以降低运算复杂度。当然，也可以不对视频流进行采样，下述步骤直接对视频流中的帧图片进行处理。

S202、采用特征提取模型对每个帧图片进行特征提取操作，得到每个帧图片对应的关键特征序列；其中，关键特征序列包括帧图片中的至少一个关键特征。

具体的，特征提取模型可以采用神经网络模型，可选的，可以选择卷积神经网络模型。例如，采用卷积神经网络模型对每个帧图片进行特征提取操作，将该帧图片输入卷积神经网络模型，该卷积神经网络模型的输出为该帧图片所对应的关键特征，并且每个帧图片对应至少一个关键特征，至少一个关键特征可以组成每个帧图片对应的关键特征序列。需要说明的是，本实施例中对特征提取模型不做限定，只需要能实现输入一帧帧图片时输出该帧图片的关键特征即可。

S203、将每个帧图片对应的关键特征序列输入至文字序列提取模型中进行处理，得到每个帧图片对应的文字描述序列。

具体的，文字序列提取模型可以采用神经网络模型，可选的，可以选择序列到序列的网络模型。例如，采用序列到序列的网络模型对关键特征序列进行处理，对该序列到序列的网络模型输入帧图片对应的关键特征序列时，该序列到序列的网络模型将输出该帧图片所对应的文字描述序列。需要说明的是，本实施例中对文字序列提取模型不做限定，只需要能实现输入帧图片对应的关键特征序列时输出该帧图片对应的文字描述序列即可。

S204、根据每个帧图片对应的文字描述序列，构建映射关系。

具体的，根据上述S201～S203，可以得到每个帧图片对应的文字描述序列，根据帧图片与文字描述序列之间的对应关系，构建帧图片-文字描述序列的映射关系。

可选的，在一种实施例中，上述采用特征提取模型对每个帧图片进行特征提取操作，得到每个帧图片对应的关键特征序列之后，即上述S202后该方法还包括：

计算前一个帧图片集合对应的关键特征序列以及后一个帧图片集合对应的关键特征序列之间的第一关联度。

具体的，通过上述S202得到每个帧图片对应的关键特征序列，可以通过欧氏距离或者曼哈顿距离或者夹角余弦等方法，计算前一个帧图片集合对应的关键特征序列与后一个帧图片集合对应的关键特征序列之间的第一关联度。可选的，上述帧图片集合可以包括一帧帧图片，也可以包括多帧帧图片，本实施例中对此不做限定。上述第一关联度用于表征前一个帧图片集合对应的关键特征序列与后一个帧图片集合对应的关键特征序列之间的相似度，前一个帧图片集合对应的关键特征序列与后一个帧图片集合对应的关键特征序列越相似，第一关联度越大，反之，第一关联度越小。

需要说明的是，上述的欧氏距离、曼哈顿距离、夹角余弦等均属于传统的计算两个向量之间的关联度的方法，对此本实施例不再赘述。另外，计算两个向量之间的关联度的方法除上述举例的3种方法之外，还有其他方法，本实施例中不再一一列举。

本实施例提供的视频检索方法，终端通过特征提取模型对视频流中采样到的帧图片进行特征提取操作，得到每个帧图片对应的关键特征序列，然后关键特征序列通过文字序列提取模型处理后得到每个帧图片对应的文字描述序列，从而构建了帧图片与文字描述序列之间的映射关系。通过本实施例构建的帧图片与文字描述序列之间的映射关系，在检索时根据检索信息和该映射关系就可以得到用户所要检索的目标帧图片，并且得到的目标帧图片更加精确，从而达到更高的效率，且人机交互智能化更高。

图3为另一个实施例提供的视频检索方法的流程示意图。本实施例涉及的是如何构建文字描述序列与帧图片基于章节属性的映射关系的具体过程。在上述实施例的基础上，上述S204根据每个帧图片对应的文字描述序列，构建映射关系，包括：

S301、计算所有文字描述序列中前一个帧图片集合对应的文字描述序列以及后一个帧图片集合对应的文字描述序列之间的第二关联度。

具体的，通过上述S203得到每个帧图片对应的文字描述序列，可以通过欧氏距离或者曼哈顿距离或者夹角余弦等方法计算前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列之间的第二关联度。第二关联度用于表征前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列的相似度。

可选的，作为计算前一个帧图片集合对应的文字描述序列以及后一个帧图片集合对应的文字描述序列之间的第二关联度的一种可能的实施方式，还可以对文字描述序列中的文字描述句进行分词，根据前一个帧图片集合与后一个帧图片集合的分词结果确定第二关联度的具体过程，可以参见图4，即上述S301可以包括如下步骤：

S401、对每个文字描述序列中的文字描述句执行分词操作，得到每个文字描述序列对应的分词结果；其中，分词结果包括多个分词。

具体的，终端对上述每个文字描述序列中的文字描述句执行分词操作时，可以采用基于字符串匹配的分词方法或基于理解的分词方法或基于统计的分词方法等方法。对文字描述句执行分词操作后，可以将每个文字描述句分为多个单独的分词，即为文字描述序列对应的分词结果。例如，文字描述句执行分词操作之后可以分为人物、时间、地点、事件类型的分词。需要说明的是，本实施例对分词操作的方法不做限制。

S402、根据每个文字描述序列对应的分词结果、预设的标签和分词之间的映射关系，确定每个文字描述序列的分词结果所对应的标签；其中，标签包括人物标签、时间标签、地点标签、事件标签。

具体的，标签包括人物标签、时间标签、地点标签、事件标签，当通过S401对文字描述句执行分词操作之后，将文字描述句分为人物、时间、地点、事件类型的分词，按照预设标签和分词之间的映射关系，将分词结果与标签进行对应。例如，分词结果为人名时与人物标签进行对应，分词结果为高原时与地点标签进行对应，以此类推。

S403、判断同一标签下，前一个帧图片集合对应的文字描述序列的分词结果与后一个帧图片集合对应的文字描述序列的分词结果是否相同，并根据判断结果确定前一个帧图片集合对应的文字描述序列以及后一个帧图片集合对应的文字描述序列之间的第二关联度。

具体的，当根据S402将文字描述序列的分词结果与标签进行对应之后，每个分词分别对应到相应的标签下，对于前一个帧图片集合与后一个帧图片集合，当两个帧图片集合的文字描述序列的每个分词结果分别在对应的同一标签下时，分别判断两个帧图片集合对应的文字描述序列的分词结果是否相同，例如，可以根据相同分词结果的数量与不同分词结果的数量之间的比例得到相邻的两个帧图片集合对应的文字描述序列之间的第二关联度。即第二关联度用于表征前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列的相似度，如果相邻两个帧图片集合的分词结果相同的概率越多，第二关联度越大，反之，第二关联度越小。

综上S401-S403的描述，得到每个文字描述序列对应的分词结果。之后，执行下述S302的步骤。

S302、根据第二关联度与预设的第一阈值以及第二阈值的大小，确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列之间的章节属性。

具体的，根据上述S301得到的所有文字描述序列中前一个帧图片集合对应的文字描述序列以及后一个帧图片集合对应的文字描述序列之间的第二关联度，每个第二关联度分别与第一阈值、第二阈值进行比较，根据第二关联度与第一阈值、第二阈值的比较结果，确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列之间的章节属性。该S302可以通过下述两种可能的实施方式来实现：

第一种可能的实施方式：可以参见图5，即上述S302可以包括如下步骤：

S501、若第二关联度大于或者等于第一阈值，则确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列属于树状目录结构中的同一节。

S502、若第二关联度大于第二阈值且小于第一阈值，则确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列属于树状目录结构中的同一章中的不同节。

具体的，上述第一阈值为确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列属于树状目录结构中同一节时，第二关联度所能取的最小值，且为确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列属于树状目录结构中同一章中不同节时，第二关联度所能取的最大值。而上述第二阈值为确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列属于树状目录结构中同一章中不同节时，第二关联度所能取的最小值。

基于上述描述可以理解为，树状目录结构中同一节为相邻的两个帧图片集合的场景变化不大，树状目录结构中同一章为相邻的两个帧图片集合的场景变化比属于树状目录结构中同一节时大，但是场景没有完全变化，而当相邻的两个帧图片集合的场景完全变化时属于树状目录结构中的不同章，即树状目录结构中的章节用于表征相邻的两个帧图片集合的场景变化程度。

可选的，在确定完所有帧图片的前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列之间的章节属性之后，所有帧图片对应的文字描述序列的章节构成的结构即为树状目录结构，如图6所示。

第二种可能的实施方式：可以参见图7，即上述S302还可以包括如下步骤：

S601、对第一关联度和第二关联度执行加权操作，确定加权关联度。

具体的，如上述第一关联度用于表征前一个图片集合对应的关键特征序列与后一个帧图片集合对应的关键特征序列的相似度，第二关联度则为用于表征前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列的相似度，根据第一关联度与第二关联度的权重，对第一关联度和第二关联度执行加权求和操作，加权求和的结果确定为加权关联度。其中，第一关联度与第二关联度的权重可以根据经验进行设置，也可以先给定初始值，然后进行迭代运算直至迭代结果收敛时分别对应的权重，需要说明的是，本实施例对第一关联度和第二关联度的权重获取方式不做限定。

S602、若加权关联度大于或者等于第一阈值，则确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列属于树状目录结构中的同一节。

S603、若加权关联度大于第二阈值且小于第一阈值，则确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列属于树状目录结构中的同一章中的不同节。

具体的，与上述根据第二关联度与第一阈值、第二阈值确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列之间的章节属性类似，上述第一阈值为确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列属于树状目录结构中同一节时，加权关联度所能取的最小值，且为确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列属于树状目录结构中同一章中不同节时，第二关联度所能取的最大值。而上述第二阈值为确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列属于树状目录结构中同一章中不同节时，第二关联度所能取的最小值。

该实施方式中，终端将第一关联度和第二关联度执行加权操作，确定加权关联度，根据第一关联度和第二关联度确定的加权关联度，确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列是属于树状目录结构中的同一节，还是属于树状目录结构中的同一章，这样通过第一关联度和第二关联度，共同划分帧图片对应的文字描述序列的树状目录结构的章节属性，可以得到更鲁棒的帧图片对应的文字描述序列划分。

综上图5和图7的描述，可以确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列之间的章节属性。之后，执行S303-S304。

S303、根据所有文字描述序列中前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列之间的章节属性，将所有文字描述序列划分为树状目录结构。

具体的，参照图6所示，树状目录结构的具体划分过程，上述已经详述，这里不再赘述。

S304、根据树状目录结构以及每个帧图片对应的文字描述序列，构建基于章节属性的映射关系。

具体的，基于上述描述，树状目录结构是基于所有文字描述序列中的前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列之间的章节属性而划分得到的，树状目录结构中的节包括至少相邻两个帧图片集合对应的文字描述序列，树状目录结构中的章包括至少两个树状目录结构中的节。

本实施例提供的视频检索方法，终端通过计算所有文字描述序列中前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列之间的第二关联度，然后将第二关联度与预设的第一阈值和第二阈值进行比较，确定出前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列之间的章节属性，然后根据确定的前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列之间的章节属性，将所有文字描述序列划分为树状目录结构，构建树状目录结构与每个帧图片对应的文字描述序列基于章节属性的映射关系。本实施例提供的视频检索方法，终端通过构建树状目录结构与每个帧图片对应的文字描述序列基于章节属性的映射关系，使得检索时，检索信息可以先确定检索信息所对应的树状目录结构中的章，然后再在树状目录结构的章中继续确定检索信息所对应的树状目录结构中的节，从而根据树状目录结构与文字描述序列的映射关系确定检索信息所对应的文字描述序列，进而确定出目标帧图片，这样提高了检索速度，即提高了检索效率，且人机交互智能化也更高。

图8为又一个实施例提供的视频检索方法的流程示意图，本实施例涉及的是如何根据检索信息和预设的映射关系，得到目标帧图片的具体过程。在上述实施例的基础上，上述S102根据检索信息和预设的映射关系，得到目标帧图片，包括：

S701、获取检索信息中的第一级别检索信息和第二级别检索信息。

具体的，在上述描述中，检索信息可以根据用户的语音信号解析得到，也可以根据用户的体感信号解析得到，还可以通过人机交互界面得到，根据获取到的检索信息的网络权重将检索信息划分为具有等级的检索信息。其中，第一级别检索信息为对相邻的两帧帧图片的关联度影响不是最大的检索信息，第二级别检索信息为对相邻的两帧帧图片的关联度影响最大的检索信息，当然，第一级别检索信息与第二级别检索信息并不是绝对的，因此，本实施例对第一级别检索信息和第二级别检索信息并不做限定。

需要说明的是，本实施例中对如何将检索信息划分等级不做限定。

S702、根据第一级别检索信息，检索基于章节属性的映射关系中所包含的树状目录结构，确定检索信息对应的目标章。

具体的，上述S701中将检索信息划分为第一级别检索信息和第二级别检索信息，根据上述第一级别检索信息以及上述确定的包含章节属性的树状目录结构，将第一级别检索信息在树状目录结构中进行检索，检索出第一级别检索信息所对应的树状目录结构中的章，即为检索信息对应的目标章。其中，检索可以从所有帧图片的第一帧帧图片开始进行一一遍历，也可以从某一特定帧图片开始进行遍历，本实施例对检索方式不做限定。

S703、根据第二级别检索信息，从目标章中确定目标节。

具体的，根据上述第一级别检索信息确定出检索信息对应的目标章，然后根据第二级别检索信息在上述目标章中进行检索，检索出第二级别检索信息所对应的树状目录结构中的节，即为检索信息对应的目标节，根据第一级别检索信息和第二级别检索信息检索之后，可能会得到检索信息对应多个目标节。

S704、根据目标节对应的文字描述序列以及基于章节属性的映射关系，得到目标帧图片。

具体的，根据上述S703得到检索信息所对应的目标节，而根据基于章节属性的映射关系，可以得到目标节所对应的文字描述序列，再根据目标节所对应的文字描述序列对应的帧图片即得到目标帧图片。若检索信息对应多个目标节时，即对应多个文字描述序列，亦则对应多个帧图片，此时，可以将多个帧图片同时显示供用户挑选目标帧图片。

本实施例提供的视频检索方法，终端根据获取到的检索信息中的第一级别检索信息，检索基于章节属性的映射关系中所包含的树状目录结构，确定出检索信息对应的目标章，然后根据获取到的检索信息中的第二级别检索信息，从目标章中确定目标节，最后根据目标节对应的文字描述序列及基于章节属性的映射关系得到目标帧图片。本实施例提供的视频检索方法，终端获取到的检索信息中的第一级别检索信息在树状目录结构进行检索，由于检索时确定了检索信息所对应的树状目录结构中的章，然后再在树状目录结构的章中继续确定检索信息中第二级别检索信息所对应的树状目录结构中的节，从而根据树状目录结构与文字描述序列的映射关系确定检索信息所对应的文字描述序列，进而确定出目标帧图片，这样提高了检索速度，即提高了检索效率，且人机交互智能化也更高。

图9为一个实施例提供的视频检索映射关系生成方法的流程示意图。需要说明的是，下述方法实施例的执行主体可以与上述方法实施例的执行主体相同，即视频检索方法和视频检索映射关系生成方法均在同一个执行主体上执行。下述方法实施例的执行主体也可以与上述方法实施例的执行主体不同，即视频检索方法和视频检索映射关系生成方法在不同的执行主体上执行，两个执行主体协同完成视频检索过程和映射关系生成过程。例如，下述方法实施例的执行主体以与上述方法实施例的执行主体不同为例，即下述方法实施例以执行主体是服务器端为例来进行说明。

本实施例涉及的是服务器端如何构建文字描述序列与帧图片之间的映射关系的具体过程。如图9所示，该方法包括：

S801、采用特征提取模型对视频流中的各个帧图片进行特征提取操作，得到每个帧图片对应的关键特征序列；其中，关键特征序列包括帧图片中的至少一个关键特征。

可选的，服务器端在采用特征提取模型对视频流中的各个帧图片进行特征提取操作前，还可以先对视频流进行采样，得到视频流所包含的多个帧图片。在对视频流中的各个帧图片进行特征提取操作前，先对视频流进行采样，可以降低运算复杂度。

另外，服务器端采用特征提取模型对视频流中的各个帧图片进行特征提取操作，得到每个帧图片对应的关键特征序列的具体过程，与在终端进行操作时相应的过程类似，可以参见上述图2对应的实施例，这里不再赘述。

当然，在采用特征提取模型对视频流中的各个帧图片进行特征提取操作之前，还需要对特征提取模型进行训练，对特征提取模型进行训练时，可以达到预设的训练次数时，停止调整特征提取模型中的权重和偏置；具体的训练过程也可以参见下述实施例。

S802、将每个帧图片对应的关键特征序列输入至文字序列提取模型中进行处理，得到每个帧图片对应的文字描述序列；其中，文字描述序列为能够描述帧图片的内容的文字构成的序列。

具体的，服务器端将每个帧图片对应的关键特征序列输入至文字序列提取模型中进行处理，得到每个帧图片对应的文字描述序列的具体过程，与在终端进行操作时相应的过程类似，可以参见上述图2对应的实施例，这里不再赘述。其中，文字描述序列可参见上述图1对应的实施例，这里不再赘述。

当然，在将每个帧图片对应的关键特征序列输入至文字序列提取模型中进行处理之前，还需要对文字序列提取模型进行训练，对文字序列提取模型进行训练时，可以达到预设的训练次数时，停止调整文字序列提取模型中的权重和偏置；具体的训练过程也可以参见下述实施例。

S803、根据每个帧图片对应的文字描述序列，构建映射关系；其中，映射关系包括不同的文字描述序列与帧图片之间的对应关系。

具体的，服务器端根据上述S801～S802，可以得到每个帧图片对应的文字描述序列，根据帧图片与文字描述序列之间的对应关系，构建帧图片-文字描述序列的映射关系。

本实施例提供的视频检索映射关系生成方法，服务器端采用特征提取模型对视频流中的各个帧图片进行特征提取操作，得到每个帧图片对应的关键特征序列，然后将得到的每个帧图片对应的关键特征序列输入至文字序列提取模型中进行处理，得到每个帧图片对应的文字描述序列，最后根据每个帧图片对应的文字描述序列，构建映射关系，即构建了帧图片-文字描述序列的映射关系。通过本实施例提供的视频检索映射关系生成方法构建的映射关系，用户在终端进行视频检索时，只需要输入目标帧图片的检索信息，就可以得到想要检索的目标帧图片，而无需像传统技术中用户手动对视频进行快进而完成遍历检索，即采用本实施例提供的视频检索映射关系生成方法构建的映射关系，可以为用户提高视频检索的效率；并且采用本实施例提供的视频检索映射关系生成方法构建的映射关系，用户进行视频检索时也不会错过待查找镜头，可以提高人机交互智能化。

图10为另一个实施例提供的视频检索映射关系生成方法的流程示意图，本实施例涉及的是如何得到特征提取模型的具体过程。在上述实施例的基础上，采用特征提取模型对视频流中的各个帧图片进行特征提取操作，得到每个帧图片对应的关键特征序列之前，如图10所示，该方法还包括：

S901、将第一训练数据集中的第一训练输入数据输入至第一初始神经网络模型，得到第一正向输出数据；其中，第一训练数据集包括第一训练输入数据以及第一训练输出数据，第一训练输入数据包括训练帧图片，第一训练输出数据包括与训练帧图片对应的关键特征序列。

可选的，在将第一训练数据集中的第一训练输入数据输入至第一初始神经网络模型之前，还可以先获取第一训练数据集，可选的，第一训练数据集可以通过从服务器端存储的音频或视频获取得到，也可以通过其他外部设备获取得到，对此，本实施例中不做限定。其中，第一训练数据集包括第一训练输入数据及第一训练输出数据，第一训练输入数据包括训练帧图片，可选的，第一训练输入数据可以为训练帧图片，第一训练输入数据还可以为训练帧图片和训练声音，对此，本实施例中不做限定。第一训练输出数据包括与训练帧图片对应的关键特征序列，相应的，可选的，第一训练输出数据可以为与训练帧图片对应的关键特征序列，第一训练输出数据还可以为与训练帧图片和训练声音对应的关键特征序列。本实施例以第一训练输入数据为训练帧图片为例，相应的，以第一训练输出数据为与训练帧图片对应的关键特征序列为例。

具体的，第一初始神经网络模型包括多个神经元函数，第一训练输入数据输入至第一初始神经网络模型，第一训练输入数据通过多个神经元函数的正向运算后，第一初始神经网络模型输出第一正向输出数据。

S902、根据第一正向输出数据和第一训练输入数据对应的第一训练输出数据之间的误差，调整第一初始神经网络模型中的权重和偏置，直至第一正向输出数据与第一训练输出数据之间的误差小于或者等于第一阈值为止，得到第一调整神经网络模型。

S903、将第一调整神经网络模型确定为特征提取模型。

具体的，第一正向输出数据和第一训练输入数据对应的第一训练输出数据，根据第一初始神经网络模型的误差损失函数，确定出第一正向输出数据和第一训练输入数据对应的第一训练输出数据之间的误差，若上述得到的误差大于第一阈值，则根据误差调整第一初始神经网络模型中的权重和偏置，直至第一正向输出数据与第一训练输出数据之间的误差小于或者等于第一阈值为止，得到第一调整神经网络模型；将上述得到的第一调整神经网络模型确定为特征提取模型，特征提取模型即为训练好的第一初始神经网络模型。

本实施例提供的视频检索映射关系生成方法，将训练帧图片作为输入，输入至第一初始神经网络模型，得到第一正向输出数据，然后根据第一正向输出数据和第一训练输出数据之间的误差，调整第一初始神经网络模型中的权重和偏置，进而确定特征提取模型。采用本实施例提供的视频检索映射关系生成方法中将训练帧图片作为输入得到的特征提取模型，构建的帧图片-文字描述序列的映射关系，可以使得用户在终端进行视频检索时，检索结果更精确。

图11为又一个实施例提供的视频检索映射关系生成方法的流程示意图，本实施例涉及的是如何得到文字序列提取模型的具体过程。在上述实施例的基础上，将每个帧图片对应的关键特征序列输入至文字序列提取模型中进行处理，得到每个帧图片对应的文字描述序列之前，如图11所示，该方法还包括：

S1001、将第二训练数据集中的第二输入数据输入至第二初始神经网络模型，得到第二正向输出数据；其中，第二训练数据集包括第二训练输入数据以及第二训练输出数据，第二训练输入数据包括训练关键特征序列，第二训练输出数据包括与训练关键特征序列对应的训练文字描述序列。

可选的，在将第二训练数据集中的第二输入数据输入至第二初始神经网络模型之前，还可以先获取第二训练数据集，可选的，第二训练数据集可以通过服务器端获取上述特征提取模型输出的第一训练输出数据得到，也可以通过其他外部设备获取得到，对此，本实施例中不做限定。其中，第二训练数据集包括第二训练输入数据及第二训练输出数据，第二训练输入数据包括训练关键特征序列。第二训练输出数据包括与训练关键特征序列对应的训练文字描述序列。

具体的，第二初始神经网络模型包括多个神经元函数，第二训练输入数据输入至第二初始神经网络模型，第二训练输入数据通过多个神经元函数的正向运算后，第二初始神经网络模型输出第二正向输出数据。

S1002、根据第二正向输出数据和第二训练输入数据对应的第二训练输出数据之间的误差，调整第二初始神经网络模型中的权重和偏置，直至第二正向输出数据与第二训练输出数据之间的误差小于或者等于第二阈值为止，得到第二调整神经网络模型。

S1003、将第二调整神经网络模型确定为文字序列提取模型。

具体的，第二正向输出数据和第二训练输入数据对应的第二训练输出数据，根据第二初始神经网络模型的误差损失函数，确定出第二正向输出数据和第二训练输入数据对应的第二训练输出数据之间的误差，若上述得到的误差大于第二阈值，则根据误差调整第二初始神经网络模型中的权重和偏置，直至第二正向输出数据与第二训练输出数据之间的误差小于或者等于第二阈值为止，得到第二调整神经网络模型；将上述得到的第二调整神经网络模型确定为文字序列提取模型，文字序列提取模型即为训练好的第二初始神经网络模型。

本实施例提供的视频检索映射关系生成方法，将训练关键特征序列作为输入，输入至第二初始神经网络模型，得到第二正向输出数据，然后根据第二正向输出数据和第二训练输出数据之间的误差，调整第二初始神经网络模型中的权重和偏置，进而得到文字序列提取模型。采用本实施例提供的视频检索映射关系生成方法中将训练关键特征序列作为输入得到的文字序列提取特征，构建的帧图片-文字描述序列的映射关系，可以使得用户在终端进行视频检索时，检索结果更精确。

可选的，文字描述序列包括能够描述帧图片的至少一个文字描述句，文字描述句中包括多个能够描述帧图片的内容的文字。该文字描述序列的具体解释说明与视频检索方法中的解释说明相同，这里不再赘述。

可选的，文字描述句中包括人物文字描述、时间文字描述、地点文字描述、事件文字描述中的至少一种文字。该文字描述句的具体解释说明与视频检索方法中的解释说明相同，这里不再赘述。

可选的，采用特征提取模型对每个帧图片进行特征提取操作，得到每个帧图片对应的关键特征序列之后，该方法还包括：计算前一个帧图片集合对应的关键特征序列以及后一个帧图片集合对应的关键特征序列之间的第一关联度。该计算第一关联度的方法与视频检索方法中的计算方法相同，这里不再赘述。

可选的，根据每个帧图片对应的文字描述序列，构建映射关系，包括：计算所有文字描述序列中前一个帧图片集合对应的文字描述序列以及后一个帧图片集合对应的文字描述序列之间的第二关联度；根据第二关联度与预设的第一阈值以及第二阈值的大小，确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列之间的章节属性；根据所有文字描述序列中前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列之间的章节属性，将所有文字描述序列划分为树状目录结构；根据树状目录结构以及每个帧图片对应的文字描述序列，构建基于章节属性的映射关系。该构建基于章节属性的映射关系参见前述图3对应实施例的过程，这里不再赘述。

可选的，计算所有文字描述序列中前一个帧图片集合对应的文字描述序列以及后一个帧图片集合对应的文字描述序列之间的第二关联度，包括：对每个文字描述序列中的文字描述句执行分词操作，得到每个文字描述序列对应的分词结果；其中，分词结果包括多个分词；根据每个文字描述序列对应的分词结果、预设的标签和分词之间的映射关系，确定每个文字描述序列的分词结果所对应的标签；其中，标签包括人物标签、时间标签、地点标签、事件标签；判断同一标签下，前一个帧图片集合对应的文字描述序列的分词结果与后一个帧图片集合对应的文字描述序列的分词结果是否相同，并根据判断结果确定前一个帧图片集合对应的文字描述序列以及后一个帧图片集合对应的文字描述序列之间的第二关联度。该计算所有文字描述序列中前一个帧图片集合对应的文字描述序列以及后一个帧图片集合对应的文字描述序列之间的第二关联度参见前述图4对应实施例的过程，这里不再赘述。

可选的，根据第二关联度与预设的第一阈值以及第二阈值的大小，确定前一个帧图片集合与后一个帧图片集合之间的章节属性，包括：若第二关联度大于或者等于第一阈值，则确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列属于树状目录结构中的同一节；若第二关联度大于第二阈值且小于第一阈值，则确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列属于树状目录结构中的同一章中的不同节。该确定前一个帧图片集合与后一个帧图片集合之间的章节属性参见前述图5对应实施例的过程，这里不再赘述。

可选的，根据第二关联度与预设的第一阈值以及第二阈值的大小，确定前一个帧图片集合与后一个帧图片集合之间的章节属性，包括：对第一关联度和第二关联度执行加权操作，确定加权关联度；若加权关联度大于或者等于第一阈值，则确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列属于树状目录结构中的同一节；若加权关联度大于第二阈值且小于第一阈值，则确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列属于树状目录结构中的同一章中的不同节。该根据第二关联度与预设的第一阈值以及第二阈值的大小，确定前一个帧图片集合与后一个帧图片集合之间的章节属性参见前述图7对应实施例的过程，这里不再赘述。

应该理解的是，虽然图1-5、7、8-11的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-5、7、8-11中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图12所示，提供了一种视频检索装置，该装置包括：获取模块10、映射模块11，其中：

获取模块10，用于获取检索指令，检索指令中携带用于检索目标帧图片的检索信息；

映射模块11，用于根据检索信息和预设的映射关系，得到目标帧图片；其中，映射关系包括不同的文字描述序列与帧图片之间的对应关系，文字描述序列为能够描述帧图片的内容的文字构成的序列。

本实施例提供的视频检索装置，可以执行上述方法的实施例，其实现原理和技术效果类似，在此不再赘述。

在一个实施例中，在上述实施例的基础上，视频检索装置还包括：

采样模块，用于对视频流进行采样，得到所述视频流所包含的多个帧图片；

提取模块A，用于采用特征提取模型对每个帧图片进行特征提取操作，得到每个帧图片对应的关键特征序列；其中，所述关键特征序列包括所述帧图片中的至少一个关键特征；

第一处理模块A，用于将每个帧图片对应的关键特征序列输入至文字序列提取模型中进行处理，得到每个帧图片对应的文字描述序列；

构建模块A，用于根据每个帧图片对应的文字描述序列，构建所述映射关系。

可选的，文字描述序列包括能够描述帧图片的至少一个文字描述句，文字描述句中包括多个能够描述帧图片的内容的文字；其中，文字描述句中包括人物文字描述、时间文字描述、地点文字描述、事件文字描述中的至少一种文字。

在一种实施例中，在上述实施例的基础上，视频检索装置还包括：

第二处理模块B，用于提取模块A采用特征提取模型对每个帧图片进行特征提取操作，得到每个帧图片对应的关键特征序列之后，计算前一个帧图片集合对应的关键特征序列以及后一个帧图片集合对应的关键特征序列之间的第一关联度。

在一种实施例中，在上述实施例的基础上，上述构建模块A还用于：计算所有文字描述序列中前一个帧图片集合对应的文字描述序列以及后一个帧图片集合对应的文字描述序列之间的第二关联度；根据所述第二关联度与预设的第一阈值以及第二阈值的大小，确定所述前一个帧图片集合对应的文字描述序列与所述后一个帧图片集合对应的文字描述序列之间的章节属性；根据所有文字描述序列中所述前一个帧图片集合对应的文字描述序列与所述后一个帧图片集合对应的文字描述序列之间的章节属性，将所有文字描述序列划分为树状目录结构；根据所述树状目录结构以及每个帧图片集合对应的文字描述序列，构建基于所述章节属性的映射关系。

在一种实施例中，在上述实施例的基础上，上述构建模块A还用于：对每个文字描述序列中的文字描述句执行分词操作，得到每个所述文字描述序列对应的分词结果；其中，所述分词结果包括多个分词；根据每个所述文字描述序列对应的分词结果、预设的标签和分词之间的映射关系，确定每个所述文字描述序列的分词结果所对应的标签；其中，所述标签包括人物标签、时间标签、地点标签、事件标签；判断同一标签下，所述前一个帧图片集合对应的文字描述序列的分词结果与所述后一个帧图片集合对应的文字描述序列的分词结果是否相同，并根据判断结果确定所述前一个帧图片集合对应的文字描述序列以及所述后一个帧图片集合对应的文字描述序列之间的第二关联度。

在一种实施例中，在上述实施例的基础上，上述构建模块A还用于：当第二关联度大于或者等于第一阈值时，确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列属于树状目录结构中的同一节；当第二关联度大于第二阈值且小于第一阈值时，确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列属于树状目录结构中的同一章中的不同节。

在一种实施例中，在上述实施例的基础上，上述构建模块A还用于：对所述第一关联度和所述第二关联度执行加权操作，确定加权关联度；若所述加权关联度大于或者等于所述第一阈值，则确定所述前一个帧图片集合对应的文字描述序列与所述后一个帧图片集合对应的文字描述序列属于树状目录结构中的同一节；若所述加权关联度大于所述第二阈值且小于所述第一阈值，则确定所述前一个帧图片集合对应的文字描述序列与所述后一个帧图片集合对应的文字描述序列属于树状目录结构中的同一章中的不同节。

在一种实施例中，在上述实施例的基础上，上述映射模块11还用于：获取所述检索信息中的第一级别检索信息和第二级别检索信息；根据所述第一级别检索信息，检索所述基于章节属性的映射关系中所包含的树状目录结构，确定所述检索信息对应的目标章；根据所述第二级别检索信息，从所述目标章中确定目标节；根据所述目标节对应的文字描述序列以及所述基于章节属性的映射关系，得到所述目标帧图片。

在一个实施例中，如图13所示，提供了一种视频检索映射关系生成装置，该装置包括：提取模块12、第一处理模块13、构建模块14，其中：

提取模块12，用于采用特征提取模型对视频流中的各个帧图片进行特征提取操作，得到每个帧图片对应的关键特征序列；其中，所述关键特征序列包括所述帧图片中的至少一个关键特征；

第一处理模块13，用于将每个帧图片对应的关键特征序列输入至文字序列提取模型中进行处理，得到每个帧图片对应的文字描述序列；其中，所述文字描述序列为能够描述所述帧图片的内容的文字构成的序列；

构建模块14，用于根据每个帧图片对应的文字描述序列，构建映射关系；其中，所述映射关系包括不同的文字描述序列与帧图片之间的对应关系。

本实施例提供的视频检索映射关系生成装置，可以执行上述方法的实施例，其实现原理和技术效果类似，在此不再赘述。

在一种实施例中，在上述图13所示实施例的基础上，如图14所示，上述的视频检索映射关系生成装置还包括：第二处理模块15、第三处理模块16、第一确定模块17，其中：

第二处理模块15，用于将第一训练数据集中的第一训练输入数据输入至第一初始神经网络模型，得到第一正向输出数据；其中，所述第一训练数据集包括第一训练输入数据以及第一训练输出数据，所述第一训练输入数据包括训练帧图片，所述第一训练输出数据包括与所述训练帧图片对应的关键特征序列；

第三处理模块16，用于根据所述第一正向输出数据和所述第一训练输入数据对应的第一训练输出数据之间的误差，调整所述第一初始神经网络模型中的权重和偏置，直至所述第一正向输出数据与所述第一训练输出数据之间的误差小于或者等于第一阈值为止，得到第一调整神经网络模型；

第一确定模块17，用于将所述第一调整神经网络模型确定为所述特征提取模型。

在一种实施例中，在上述图14所示实施例的基础上，如图15所示，上述的视频检索映射关系生成装置还包括：第四处理模块18、第五处理模块19、第二确定模块20，其中：

第四处理模块18，用于将第二训练数据集中的第二输入数据输入至第二初始神经网络模型，得到第二正向输出数据；其中，所述第二训练数据集包括第二训练输入数据以及第二训练输出数据，所述第二训练输入数据包括训练关键特征序列，所述第二训练输出数据包括与所述训练关键特征序列对应的训练文字描述序列；

第五处理模块19，用于根据所述第二正向输出数据和所述第二训练输入数据对应的第二训练输出数据之间的误差，调整所述第二初始神经网络模型中的权重和偏置，直至所述第二正向输出数据与所述第二训练输出数据之间的误差小于或者等于第二阈值为止，得到第二调整神经网络模型；

第二确定模块20，用于将所述第二调整神经网络模型确定为所述文字序列提取模型。

可选的，文字描述序列包括能够描述帧图片的至少一个文字描述句，文字描述句中包括多个能够描述帧图片的内容的文字。

可选的，文字描述句中包括人物文字描述、时间文字描述、地点文字描述、事件文字描述中的至少一种文字。

在一种实施例中，在上述图13所示实施例的基础上，如图16所示，上述视频检索映射关系生成装置还包括：第六处理模块21。

具体的，第六处理模块21，用于提取模块12采用特征提取模型对每个帧图片进行特征提取操作，得到每个帧图片对应的关键特征序列之后，计算前一个帧图片集合对应的关键特征序列以及后一个帧图片集合对应的关键特征序列之间的第一关联度。

在一种实施例中，在上述图13所示实施例的基础上，如图17所示，上述构建模块14包括：第一处理单元141、判断单元142、划分单元143、映射单元144。

具体的，第一处理单元141，用于计算所有文字描述序列中前一个帧图片集合对应的文字描述序列以及后一个帧图片集合对应的文字描述序列之间的第二关联度；

判断单元142，用于根据第二关联度与预设的第一阈值以及第二阈值的大小，确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列之间的章节属性；

划分单元143，用于根据所有文字描述序列中前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列之间的章节属性，将所有文字描述序列划分为树状目录结构；

映射单元144，用于根据树状目录结构以及每个帧图片对应的文字描述序列，构建基于章节属性的映射关系。

在一种实施例中，在上述图17所示实施例的基础上，如图18所示，上述第一处理单元141包括：分词子单元1411、处理子单元1412、判断子单元1413。

具体的，分词子单元1411，用于对每个文字描述序列中的文字描述句执行分词操作，得到每个文字描述序列对应的分词结果；其中，分词结果包括多个分词；

处理子单元1412，用于根据每个文字描述序列对应的分词结果、预设的标签和分词之间的映射关系，确定每个文字描述序列的分词结果所对应的标签；其中，标签包括人物标签、时间标签、地点标签、事件标签；

判断子单元1413，用于判断同一标签下，前一个帧图片集合对应的文字描述序列的分词结果与后一个帧图片集合对应的文字描述序列的分词结果是否相同，并根据判断结果确定前一个帧图片集合对应的文字描述序列以及后一个帧图片集合对应的文字描述序列之间的第二关联度。

在一种实施例中，在上述图17所示实施例的基础上，如图19所示，上述判断单元142可以包括：第一判断子单元1421、第二判断子单元1422。

具体的，第一判断子单元1421，用于当第二关联度大于或者等于第一阈值时，确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列属于树状目录结构中的同一节；

第二判断子单元1422，用于当第二关联度大于第二阈值且小于第一阈值时，确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列属于树状目录结构中的同一章中的不同节。

在一种实施例中，在上述图17所示实施例的基础上，如图20所示，上述判断单元142还可以包括：加权子单元1423、第三判断子单元1424、第四判断子单元1425。

具体的，加权子单元1423，用于对第一关联度和第二关联度执行加权操作，确定加权关联度；

第三判断子单元1424，用于当加权关联度大于或者等于第一阈值时，则确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列属于树状目录结构中的同一节；

第四判断子单元1425，用于当加权关联度大于第二阈值且小于第一阈值，则确定前一个帧图片集合对应的文字描述序列与后一个帧图片集合对应的文字描述序列属于树状目录结构中的同一章中的不同节。

上述图1a为一实施例提供的一种终端的内部结构示意图。如图1a所示，该终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该终端的处理器用于提供计算和控制能力。该终端的存储器包括非易失性存储介质、内存储器，该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频检索方法。该终端的显示屏可以是液晶显示屏或者电子墨水显示屏，该终端的输入装置可以是显示屏上覆盖的触摸层，也可以是终端外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板、遥控器或鼠标等。

本领域技术人员可以理解，图1a中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的终端的限定，具体的终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种视频检索设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取检索指令，检索指令中携带用于检索目标帧图片的检索信息；根据检索信息和预设的映射关系，得到目标帧图片；其中，映射关系包括不同的文字描述序列与帧图片之间的对应关系，文字描述序列为能够描述帧图片的内容的文字构成的序列。

在一个实施例中，提供了一种视频检索设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：采用特征提取模型对视频流中的各个帧图片进行特征提取操作，得到每个帧图片对应的关键特征序列；其中，所述关键特征序列包括所述帧图片中的至少一个关键特征；将每个帧图片对应的关键特征序列输入至文字序列提取模型中进行处理，得到每个帧图片对应的文字描述序列；其中，所述文字描述序列为能够描述所述帧图片的内容的文字构成的序列；根据每个帧图片对应的文字描述序列，构建映射关系；其中，所述映射关系包括不同的文字描述序列与帧图片之间的对应关系。

在一个实施例中，提供了一种视频检索设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取检索指令，检索指令中携带用于检索目标帧图片的检索信息；根据检索信息和预设的映射关系，得到目标帧图片；其中，映射关系包括不同的文字描述序列与帧图片之间的对应关系，文字描述序列为能够描述帧图片的内容的文字构成的序列。采用特征提取模型对视频流中的各个帧图片进行特征提取操作，得到每个帧图片对应的关键特征序列；其中，所述关键特征序列包括所述帧图片中的至少一个关键特征；将每个帧图片对应的关键特征序列输入至文字序列提取模型中进行处理，得到每个帧图片对应的文字描述序列；其中，所述文字描述序列为能够描述所述帧图片的内容的文字构成的序列；根据每个帧图片对应的文字描述序列，构建映射关系；其中，所述映射关系包括不同的文字描述序列与帧图片之间的对应关系。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取检索指令，检索指令中携带用于检索目标帧图片的检索信息；根据检索信息和预设的映射关系，得到目标帧图片；其中，映射关系包括不同的文字描述序列与帧图片之间的对应关系，文字描述序列为能够描述帧图片的内容的文字构成的序列。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：采用特征提取模型对视频流中的各个帧图片进行特征提取操作，得到每个帧图片对应的关键特征序列；其中，所述关键特征序列包括所述帧图片中的至少一个关键特征；将每个帧图片对应的关键特征序列输入至文字序列提取模型中进行处理，得到每个帧图片对应的文字描述序列；其中，所述文字描述序列为能够描述所述帧图片的内容的文字构成的序列；根据每个帧图片对应的文字描述序列，构建映射关系；其中，所述映射关系包括不同的文字描述序列与帧图片之间的对应关系。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取检索指令，检索指令中携带用于检索目标帧图片的检索信息；根据检索信息和预设的映射关系，得到目标帧图片；其中，映射关系包括不同的文字描述序列与帧图片之间的对应关系，文字描述序列为能够描述帧图片的内容的文字构成的序列。采用特征提取模型对视频流中的各个帧图片进行特征提取操作，得到每个帧图片对应的关键特征序列；其中，所述关键特征序列包括所述帧图片中的至少一个关键特征；将每个帧图片对应的关键特征序列输入至文字序列提取模型中进行处理，得到每个帧图片对应的文字描述序列；其中，所述文字描述序列为能够描述所述帧图片的内容的文字构成的序列；根据每个帧图片对应的文字描述序列，构建映射关系；其中，所述映射关系包括不同的文字描述序列与帧图片之间的对应关系。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频检索方法，其特征在于，所述方法包括：

获取检索指令，所述检索指令中携带用于检索目标帧图片的检索信息；

获取所述检索信息对应的目标章以及所述目标章中的目标节；

根据所述目标节对应的文字描述序列以及基于章节属性的映射关系，得到目标帧图片；其中，所述映射关系包括不同的文字描述序列与帧图片之间的对应关系，所述文字描述序列为能够描述所述帧图片的内容的文字构成的序列。

2.根据权利要求1所述的方法，其特征在于，所述获取检索指令之前，所述方法还包括：

对视频流进行采样，得到所述视频流所包含的多个帧图片；

采用特征提取模型对每个帧图片进行特征提取操作，得到每个帧图片对应的关键特征序列；其中，所述关键特征序列包括所述帧图片中的至少一个关键特征；

将每个帧图片对应的关键特征序列输入至文字序列提取模型中进行处理，得到每个帧图片对应的文字描述序列；

根据每个帧图片对应的文字描述序列，构建所述映射关系。

3.根据权利要求2所述的方法，其特征在于，所述文字描述序列包括能够描述所述帧图片的至少一个文字描述句，所述文字描述句中包括多个能够描述所述帧图片的内容的文字；其中，所述文字描述句中包括人物文字描述、时间文字描述、地点文字描述、事件文字描述中的至少一种文字。

4.根据权利要求2或3所述的方法，其特征在于，所述采用特征提取模型对每个帧图片进行特征提取操作，得到每个帧图片对应的关键特征序列之后，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据每个帧图片对应的文字描述序列，构建所述映射关系，包括：

计算所有文字描述序列中前一个帧图片集合对应的文字描述序列以及后一个帧图片集合对应的文字描述序列之间的第二关联度；

根据所述第二关联度与预设的第一阈值以及第二阈值的大小，确定所述前一个帧图片集合对应的文字描述序列与所述后一个帧图片集合对应的文字描述序列之间的章节属性；

根据所有文字描述序列中所述前一个帧图片集合对应的文字描述序列与所述后一个帧图片集合对应的文字描述序列之间的章节属性，将所有文字描述序列划分为树状目录结构；

根据所述树状目录结构以及每个帧图片集合对应的文字描述序列，构建基于所述章节属性的映射关系。

6.根据权利要求5所述的方法，其特征在于，所述计算所有文字描述序列中前一个帧图片集合对应的文字描述序列以及后一个帧图片集合对应的文字描述序列之间的第二关联度，包括：

对每个文字描述序列中的文字描述句执行分词操作，得到每个所述文字描述序列对应的分词结果；其中，所述分词结果包括多个分词；

根据每个所述文字描述序列对应的分词结果、预设的标签和分词之间的映射关系，确定每个所述文字描述序列的分词结果所对应的标签；其中，所述标签包括人物标签、时间标签、地点标签、事件标签；

判断同一标签下，所述前一个帧图片集合对应的文字描述序列的分词结果与所述后一个帧图片集合对应的文字描述序列的分词结果是否相同，并根据判断结果确定所述前一个帧图片集合对应的文字描述序列以及所述后一个帧图片集合对应的文字描述序列之间的第二关联度。

7.根据权利要求5所述的方法，其特征在于，所述根据所述第二关联度与预设的第一阈值以及第二阈值的大小，确定所述前一个帧图片集合与所述后一个帧图片集合之间的章节属性，包括：

若所述第二关联度大于或者等于所述第一阈值，则确定所述前一个帧图片集合对应的文字描述序列与所述后一个帧图片集合对应的文字描述序列属于树状目录结构中的同一节；

若所述第二关联度大于所述第二阈值且小于所述第一阈值，则确定所述前一个帧图片集合对应的文字描述序列与所述后一个帧图片集合对应的文字描述序列属于树状目录结构中的同一章中的不同节。

8.根据权利要求5所述的方法，其特征在于，所述根据所述第二关联度与预设的第一阈值以及第二阈值的大小，确定所述前一个帧图片集合与所述后一个帧图片集合之间的章节属性，包括：

对所述第一关联度和所述第二关联度执行加权操作，确定加权关联度；

若所述加权关联度大于或者等于所述第一阈值，则确定所述前一个帧图片集合对应的文字描述序列与所述后一个帧图片集合对应的文字描述序列属于树状目录结构中的同一节；

若所述加权关联度大于所述第二阈值且小于所述第一阈值，则确定所述前一个帧图片集合对应的文字描述序列与所述后一个帧图片集合对应的文字描述序列属于树状目录结构中的同一章中的不同节。

9.根据权利要求7或8所述的方法，其特征在于，所述获取所述检索信息对应的目标章以及所述目标章中的目标节，包括：

获取所述检索信息中的第一级别检索信息和第二级别检索信息；

根据所述第一级别检索信息，检索所述基于章节属性的映射关系中所包含的树状目录结构，确定所述检索信息对应的目标章；

根据所述第二级别检索信息，从所述目标章中确定目标节。

10.一种视频检索映射关系生成方法，其特征在于，包括：

采用特征提取模型对视频流中的各个帧图片进行特征提取操作，得到每个帧图片对应的关键特征序列；其中，所述关键特征序列包括所述帧图片中的至少一个关键特征；

将每个帧图片对应的关键特征序列输入至文字序列提取模型中进行处理，得到每个帧图片对应的文字描述序列；其中，所述文字描述序列为能够描述所述帧图片的内容的文字构成的序列；

根据每个帧图片对应的文字描述序列，构建映射关系；其中，所述映射关系包括不同的文字描述序列与帧图片之间的对应关系。

11.根据权利要求10所述的方法，其特征在于，所述采用特征提取模型对视频流中的各个帧图片进行特征提取操作，得到每个帧图片对应的关键特征序列之前，还包括：

将第一训练数据集中的第一训练输入数据输入至第一初始神经网络模型，得到第一正向输出数据；其中，所述第一训练数据集包括第一训练输入数据以及第一训练输出数据，所述第一训练输入数据包括训练帧图片，所述第一训练输出数据包括与所述训练帧图片对应的关键特征序列；

根据所述第一正向输出数据和所述第一训练输入数据对应的第一训练输出数据之间的误差，调整所述第一初始神经网络模型中的权重和偏置，直至所述第一正向输出数据与所述第一训练输出数据之间的误差小于或者等于第一阈值为止，得到第一调整神经网络模型；

将所述第一调整神经网络模型确定为所述特征提取模型。

12.根据权利要求10所述的方法，其特征在于，所述将每个帧图片对应的关键特征序列输入至文字序列提取模型中进行处理，得到每个帧图片对应的文字描述序列之前，所述方法还包括：

将第二训练数据集中的第二输入数据输入至第二初始神经网络模型，得到第二正向输出数据；其中，所述第二训练数据集包括第二训练输入数据以及第二训练输出数据，所述第二训练输入数据包括训练关键特征序列，所述第二训练输出数据包括与所述训练关键特征序列对应的训练文字描述序列；

根据所述第二正向输出数据和所述第二训练输入数据对应的第二训练输出数据之间的误差，调整所述第二初始神经网络模型中的权重和偏置，直至所述第二正向输出数据与所述第二训练输出数据之间的误差小于或者等于第二阈值为止，得到第二调整神经网络模型；

将所述第二调整神经网络模型确定为所述文字序列提取模型。

13.一种视频检索映射关系生成装置，其特征在于，包括：

提取模块，用于采用特征提取模型对视频流中的各个帧图片进行特征提取操作，得到每个帧图片对应的关键特征序列；其中，所述关键特征序列包括所述帧图片中的至少一个关键特征；

第一处理模块，用于将每个帧图片对应的关键特征序列输入至文字序列提取模型中进行处理，得到每个帧图片对应的文字描述序列；其中，所述文字描述序列为能够描述所述帧图片的内容的文字构成的序列；

构建模块，用于根据每个帧图片对应的文字描述序列，构建映射关系；其中，所述映射关系包括不同的文字描述序列与帧图片之间的对应关系。

14.一种视频检索设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。