CN115774797A

CN115774797A - 视频内容检索方法、装置、设备和计算机可读存储介质

Info

Publication number: CN115774797A
Application number: CN202111051264.6A
Authority: CN
Inventors: 王鹏
Original assignee: TCL Technology Group Co Ltd
Current assignee: TCL Technology Group Co Ltd
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2023-03-10

Abstract

本申请提供一种视频内容检索方法、装置、设备和计算机可读存储介质。方法包括：获取目标视频对应的目标检索信息；确定与目标检索信息关联的检索信息序列；根据检索信息序列对目标视频进行提取处理，得到目标检索信息对应的检索视频流。本申请提供的视频内容检索方法，在获取目标检索信息后，先获取到可用于描述视频中与目标检索信息关联的事件流程的检索信息序列，从而使得后续利用该检索信息序列所得到的检索视频流，是描述了与目标检索信息关联的完整事件流程，便于用户通过目标检索信息检索出完整事件流程。

Description

视频内容检索方法、装置、设备和计算机可读存储介质

技术领域

本申请实施例涉及视频检索技术领域，具体涉及一种视频内容检索方法、装置、设备和计算机可读存储介质。

背景技术

视频内容检索是指根据用户输入的检索关键词从视频当中筛选出相关的视频帧，并播放给用户。

通常情况下，视频中除了主线故事的发展外，还会共存有多条支线故事的发展。而在现有的视频内容检索过程中，根据用户输入的检索关键词所筛选出的视频帧是由各故事中与检索关键词相关的片段混合而成，也就是说，用户所检索出来的视频帧所描述的内容比较散乱，往往无法串成完整的故事，导致用户难以得知完整的故事发展脉络。

发明内容

本申请实施例提供一种视频内容检索方法、装置、设备和计算机可读存储介质，旨在解决现有的视频内容检索过程中，用户难以通过检索得到的视频帧准确得知完整的故事发展脉络的技术问题。

一方面，本申请实施例提供一种视频内容检索方法，包括：

获取目标视频对应的目标检索信息；

确定与目标检索信息关联的检索信息序列；

根据检索信息序列对目标视频进行提取处理，得到目标检索信息对应的检索视频流。

另一方面，本申请实施例还提供一种视频内容检索装置，包括：

获取模块，用于获取目标视频对应的目标检索信息；

确定模块，用于确定与目标检索信息关联的检索信息序列；

提取模块，用于根据检索信息序列对目标视频进行提取处理，得到目标检索信息对应的检索视频流。

另一方面，本申请实施例还提供一种视频内容检索设备，视频内容检索设备包括处理器、存储器以及存储于存储器中并可在处理器上运行的视频内容检索程序，处理器执行视频内容检索程序以实现上述视频内容检索方法中的步骤。

另一方面，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有视频内容检索程序，视频内容检索程序被处理器执行以实现上述视频内容检索方法中的步骤。

本申请实施例提出的技术方案，在获取目标检索信息后，先获取到可用于描述视频中与目标检索信息关联的事件流程的检索信息序列，从而根据该检索信息序列所提取得到的检索视频流描述了与目标检索信息关联的事件的完整流程，用户可以根据检索得到检索视频流知晓与目标检索信息关联的完整事件流程。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的视频内容检索方法的场景示意图；

图2是本申请实施例中提供的视频内容检索方法的第一实施例流程示意图；

图3是本申请实施例中提供的视频内容检索方法的第二实施例流程示意图；

图4是本申请实施例中提供的视频内容检索方法的第三实施例流程示意图；

图5是本申请实施例中提供的视频内容检索方法的第四实施例流程示意图；

图6是本申请实施例中提供的视频内容检索方法的第五实施例流程示意图；

图7是本申请实施例中提供的视频内容检索方法中第六实施例流程示意图；

图8是本申请实施例中提供的视频内容检索方法中第七实施例流程示意图；

图9是本申请实施例中提供的视频内容检索装置的一个实施例结构示意图；

图10是本申请实施例中提供的视频内容检索设备的一个实施例结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明包含的范围。

在本申请实施例中，“示例性”一词用来表示“用作例子、例证或说明”。本申请实施例中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本发明。在其它实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本发明的描述变得晦涩。因此，本发明并非旨在限于所示的实施例，而是与符合本申请实施例所公开的原理和特征的最广范围相一致。

本申请实施例中提供一种视频内容检索方法、装置、设备和计算机可读存储介质，以下分别进行详细说明。

本发明实施例中的视频内容检索方法应用于视频内容检索设备上，视频内容检索设备包括处理器、存储器以及存储于存储器中并可在处理器上运行的视频内容检索程序，处理器执行视频内容检索程序以实现视频内容检索方法中的步骤；视频内容检索设备可以是终端，例如，手机或平板电脑，视频内容检索设备还可以是一台服务器，或者多台服务器组成的服务集群。

如图1所示，图1为本申请实施例视频内容检索的场景示意图，本发明实施例中视频内容检索场景中包括视频内容检索设备100，视频内容检索设备100中运行视频内容检索方法对应的计算机可读存储介质，以执行视频内容检索方法中的步骤。

可以理解的是，图1所示视频内容检索的场景中的视频内容检索设备，或者视频内容检索设备中包含的装置并不构成对本发明实施例的限制，即，视频内容检索的场景中包含的设备数量、设备种类，或者各个设备中包含的装置数量、装置种类不影响本发明实施例中技术方案整体实现，均可以算作本发明实施例要求保护技术方案的等效替换或衍生。

本发明实施例中视频内容检索设备100主要用于：获取目标视频对应的目标检索信息；确定与目标检索信息关联的检索信息序列；根据检索信息序列对目标视频进行提取处理，得到目标检索信息对应的检索视频流。

本发明实施例中该视频内容检索设备100可以是独立的视频内容检索设备，也可以是视频内容检索设备组成的视频内容检索设备网络或视频内容检索集群，例如，本发明实施例中所描述的视频内容检索设备100，其包括但不限于计算机、网络主机、单个视频内容检索设备、多个视频内容检索设备集或多个视频内容检索设备构成的云视频内容检索设备。其中，云视频内容检索设备由基于云计算(Cloud Computing)的大量计算机或网络视频内容检索设备构成。

本领域技术人员可以理解，图1中示出的应用环境，仅仅是与本申请实施例方案一种应用场景，并不构成对本申请实施例方案应用场景的限定，其他的应用环境还可以包括比图1中所示更多或更少的视频内容检索设备，或者视频内容检索设备网络连接关系，例如图1中仅示出1个视频内容检索设备，可以理解的，该视频内容检索的场景还可以包括一个或多个其他视频内容检索设备，具体此处不作限定；该视频内容检索设备100中还可以包括存储器。

此外，本申请实施例视频内容检索的场景中视频内容检索设备100可以设置显示装置，或者视频内容检索设备100中不设置显示装置与外接的显示装置200通讯连接，显示装置200用于输出视频内容检索设备中视频内容检索方法执行的结果。视频内容检索设备100可以访问后台数据库300，后台数据库可以是视频内容检索设备的本地存储器中，后台数据库也可以设置在云端，后台数据库300中保存有视频内容检索相关的信息，例如本申请实施例中需要用到的目标视频信息以及与视频信息关联存储的知识图谱等等。

需要说明的是，图1所示的视频内容检索的场景示意图仅仅是一个示例，本发明实施例描述的视频内容检索的场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定。

如图2所示，图2为本申请实施例中提供的视频内容检索方法的第一实施例流程示意图，本实施例中视频内容检索方法包括步骤201-203：

201，获取目标视频对应的目标检索信息。

结合前述提供的视频内容检索设备的场景示意图可知，视频会存储在视频内容检索设备的后台数据库中，通常情况下，视频内容检索设备需要先根据用户预先输入的视频选择指令来将后台数据库中的某一视频确定为目标视频。具体的，视频内容检索设备会通过显示装置输出用于用户选定目标视频的人机交互界面，从而便于根据用户在人机交互界面上所选定的视频信息确定目标视频。

视频内容检索设备所获取的目标检索信息通常也是根据用户在视频内容检索设备通过显示装置所展示人机交互界面上的输入指令所确定的，例如可以是用户在搜索栏中输入的信息，也可以是用户在检索信息界面中所选定的检索信息。具体的，目标检索信息可以是一个关键词，也可以是由多个关键词组合的关键词组。

202，确定与目标检索信息关联的检索信息序列。

具体的，与目标检索信息关联的检索信息序列中是包含了目标视频中与目标检索信息相关的完整事件流程一系列相关的标准检索信息，也就是说标准检索信息序列中的每一个检索信息都是分别与目标视频中和目标检索信息相关的完整事件流程中的一段流程相关。同样的，检索信息序列中的每一个检索信息可以是一个关键词，也可以是由多个关键词组合的关键词组，但在大多数情况下，检索信息都是由多个关键词组合的关键词组。

为了便于理解本申请中提出的检索信息序列，以物品a为例，假设目标视频中与物品a相关的一个完整事件流程为：人物B从人物A处购买了物品a，人物B将物品a赠送给人物C，人物D从人物C处偷窃得到物品a……，则该目标视频中与物品a关联的检索信息序列即为(A，B，购买)、(B，C，赠送)、(C，D，偷窃)……，其中，(A，B，购买)、(B，C，赠送)、(C，D，偷窃)即分别为检索信息序列中的各个标准检索信息。

作为本申请的一种可选实施例，具体是根据预先设定的目标视频的知识图谱来确定目标检索信息关联的检索信息序列，通常情况下，目标视频的知识图谱也是存储在视频内容检索设备的后台数据库中。具体的，目标视频的知识图谱中存储了与各个检索信息关联的检索信息序列，从而视频内容检索设备可以根据目标视频的知识图，确定与目标检索信息关联的检索信息序列。

需要说明的一点是，目标视频的知识图谱是预先通过对目标视频进行分析所自动生成，具体生成目标视频的知识图谱的方法可以参阅后续图4及其解释说明的内容。

203，根据检索信息序列对目标视频进行提取处理，得到目标检索信息对应的检索视频流。

由于检索信息序列中各标准检索信息的顺序对应了一个完整事件的流程，因此，根据检索信息序列中各标准检索信息从目标视频中提取对应的视频流描述了目标视频中与目标检索信息相关的一个完整事件流程，基于该检索视频流，用户可以准确的得到与目标检索信息相关的完整的故事发展脉络。具体的，根据检索信息序列对目标视频进行提取处理，得到检索视频流的实现方式可以参阅后续图3及其解释说明的内容。

考虑到根据检索信息序列中各标准检索信息所提取出的视频帧可能与目标检索信息不相关联，因此，为保证检索视频流与目标检索信息相关性，可以进一步的对检索视频流进行整合处理，具体的整合过程可以参阅后续图8及其解释说明的内容。

需要说明的一点是，针对于某个目标检索信息，尤其是目标检索信息中包含的关键词较少时，可能存在多个不同的检索信息序列。此时，不同的检索信息序列，会分别对应目标视频中和目标检索信息相关的多个不同事件流程。但不管知识图谱中与目标检索信息关联的检索信息序列有多少，都不会影响到本申请技术方案的实现。在输出检索视频流时，可以按照预设的顺序，将各检索信息序列对应的检索视频流依次输出，从而便于用户准确得到与目标检索信息相关的各个不同的故事发展脉络。

本申请实施例提出的视频内容检索方法，在获取目标检索信息后，先获取到可用于描述视频中与目标检索信息关联的事件流程的检索信息序列，从而根据该检索信息序列所提取得到的检索视频流，描述了与目标检索信息关联的事件的完整流程，用户可以根据检索得到检索视频流知晓与目标检索信息关联的完整事件流程。

如图3所示，图3为本申请实施例中提供的视频内容检索方法的第二实施例流程示意图。

本申请实施例中，提供了一种根据检索信息序列对目标视频进行提取处理，得到目标检索信息对应的检索视频流的具体实现方式，具体包括步骤301～302：

301，针对检索信息序列中的每一标准检索信息，从目标视频中提取与其对应的视频帧。

本申请实施例中，相比于直接从目标视频中提取与目标检索信息对应的视频帧，本申请是从目标视频中提取与检索信息序列中的每一标准检索信息分别对应的视频帧。

需要说明的一点是，通常情况下，目标视频中与标准检索信息对应的视频帧都会有多张，也就是说与标准检索信息对应的，通常是由多张连续视频帧组成的视频片段。

为便于理解本申请技术方案所提取的视频帧相对于现有技术所提取出的视频帧的区别，同样以前述提供的物品a为例，此时，针对于检索信息序列中的各个标准检索信息，也就是(A，B，购买)、(B，C，赠送)、(C，D，偷窃)，可以分别检索到人物B从人物A处购买物品a的视频帧，人物B将物品a赠送给人物C的视频帧以及人物D从人物C处偷窃的视频帧，而并非是提取视频中所有出现过物品a的视频帧。

本申请实施例中，从目标视频中提取与标准检索信息对应的视频帧的具体实现方式有很多种，例如可以是通过预设的关联关系数据库得到，也就是在视频内容检索设备的后台数据库中预先存储有各标准检索信息与各视频帧之间的对应关系。当然，也可以是基于训练得到的神经网络模型进行提取。

作为可选方案，考虑到通过预设的关联关系数据库提取与标准检索信息对应的视频帧，需要占用大量的内存，尤其是后台数据库内存储的视频数量较多的情况下，往往难以直接存储各标准检索信息与各视频帧之间的对应关系。因此，优选选用基于训练得到的神经网络模型进行提取。具体的实现方式，可以参阅后续图7及其解释说明的内容。

302，根据各标准检索信息对应的序列信息对各标准检索信息对应的视频帧进行排列处理，得到目标检索信息对应的检索视频流。

本申请实施例中，在检索信息序列中，每一标准检索信息都对应有各自的序列信息，按照该序列信息将各标准检索信息对应的视频帧顺序排列，就可以得到检索视频流。

本申请提供的技术方案，通过提取与检索信息序列中的每一标准检索信息对应的视频帧，将按照各检索信息的序列对提取得到的视频帧进行排序，就可以得到检索视频流，并且检索视频流中每一视频帧是按照与目标检索信息相关的检索信息提取得到，即得到了与目标检索信息关联的完整事件流程。

如图4所示，图4为本申请实施例中提供的视频内容检索方法的第三实施例流程示意图。

为提高视频内容检索的实时性，通常情况下，会预先生成目标视频的知识图谱，并预存在数据库内，从而在得到目标检索信息后，就可以直接通过知识图谱得到与该目标检索信息关联的检索信息序列，以便于后续的视频帧提取。本申请实施例提出了一种预先生成目标视频的知识图谱的可行方法，具体包括步骤401～403：

401，对目标视频对应的文字描述信息进行识别处理，得到命名实体信息。

目标视频对应的文字描述信息是指用于描述目标视频中各事件流程的文本信息。目标视频对应的文字描述信息有多种可行的获取方式，例如可以是通过用户的输入信息得到，也可以是基于人工智能对视频内容进行分析得到，当然，也可以直接将已有的关于目标视频的内容简介作为目标视频的文字描述信息，本发明对于获取目标视频对应的文字描述信息不做限制。

命名实体信息通常是指文字描述信息中具有特定意义的实体，主要包括人名、地名、机构名、专有名词。通常情况下，命名实体信息可以通过对文字描述信息进行命名实体识别(NER，Named Entity Recognition)处理得到。而考虑到命名实体识别属于自然语言处理(NLP，Natural Language Processing)的一种现有技术，本发明对于命名实体识别的具体过程不做具体阐述。

通常情况下，对文字描述信息进行命名实体识别会得到多个命名实体结果，但本申请仅以其中的某个命名实体结果，也就是命名实体信息为例进行说明，针对于其余的命名实体结果，可以采用相同的步骤构建知识图谱。

402，从文字描述信息中提取与命名实体信息关联的检索信息序列。

通常情况下，文字描述信息中出现的命名实体信息会有多处，针对于每一处命名实体信息，得到与该命名实体信息关联的其他命名实体信息，然后结合各处命名实体信息的时间节点信息，就可以得到与命名实体信息关联的检索信息序列。其中，从文字描述信息中提取与命名实体信息关联的检索信息序列的具体流程，请参阅图5及其解释说明的内容。

403，根据命名实体信息以及与命名实体信息关联的检索信息序列，生成目标视频的知识图谱。

本申请实施例中，针对于文字描述信息中的每一个命名实体信息，将该命名实体信息和与其关联的检索信息序列关联存储，就可以得到目标视频的知识图谱。

本申请实施例中，通过对目标视频的文字描述信息进行识别处理得到命名实体信息，并根据各命名实体信息及其对应的从文字描述信息中所提取出的检索信息序列，生成目标视频的知识图谱，后续在视频内容检索过程中，就可以直接根据该知识图谱得到与目标检索信息关联的检索信息序列。

如图5所示，图5为本申请实施例中提供的视频内容检索方法的第四实施例流程示意图。

本申请实施例中，提出了从文字描述信息中提取与命名实体信息关联的检索信息序列的一种实现方法，具体包括步骤501～502：

501，提取文字描述信息中各命名实体信息关联的特征信息。

通常情况下，在描述目标视频中某个事件流程的文字描述信息中，各命名实体信息都会出现多次。其中，每次出现的命名实体信息都可以理解为该事件流程中与该命名实体信息相关的一部分节选流程，因此，当提取文字描述信息中各命名实体信息关联的特征信息时，每一特征信息都可以理解成与该事件流程中与该命名实体信息相关的一部分节选流程中所提取出的特征信息。

具体的，特征信息通常是对文字描述信息进行语义识别所提取得到的，相较于命名实体信息仅仅只是特定意义的实体，特征信息还可以包括动作在内的虚词。

502，根据各命名实体信息对应的时间节点信息，对各命名实体信息关联的特征信息进行排列处理，得到与命名实体信息关联的检索信息序列。

通常情况下，时间节点信息可以简单理解为文字描述信息中各命名实体信息出现的顺序，当然，若文字描述信息中存在于时间节点相关的字眼，则可以通过对文字描述信息进行语义识别，以得到各命名实体信息对应的时间节点信息。

本申请实施例中，根据文字描述信息中各命名实体信息对应的时间节点信息，将各命名实体信息关联的特征信息排列，此时就可以得到某个事件流程与命名实体信息相关的完整发展脉络，也就是与命名实体信息关联的检索信息序列。

本申请实施例中，通过提取文字描述信息中各命名实体信息关联的特征信息，得到该事件流程中与该命名实体信息相关的节选流程，然后利用文字描述信息中各命名实体信息对应的时间节点信息，将各命名实体信息关联的特征信息排列，就可以得到与命名实体信息关联的检索信息序列，该检索信息序列即描述了事件流程与命名实体信息相关的完整发展脉络。

如图6所示，图6为本申请实施例中提供的视频内容检索方法的第五实施例流程示意图。

考虑到在构建知识图谱时，是基于从文字描述信息中所提取得到的命名实体信息进行构建的，而用户在进行视频内容检索时，所使用的目标检索信息并不能保证和命名实体信息完全相同。因此，可以将一些与命名实体信息具有相同或者相近意义的检索信息和命名实体信息关联存储，当采用这些检索信息进行检索时，也可以得到与命名实体信息同样的检索结果，以提高检索的效果，具体包括步骤601～603：

601，判断目标视频的知识图谱中是否包含目标检索信息。若是，则执行步骤602；若否，则执行步骤603。

本申请实施例中，需要先判断目标视频的知识图谱中是否包含目标检索信息，当目标视频的知识图谱中包含目标检索信息时，也就是知识图谱中同时包含与目标检索信息关联的检索信息序列时，此时，可以直接利用该知识图谱得到与目标检索信息关联的检索信息序列。若目标视频的知识图谱中不包含目标检索信息时，则需要利用与目标检索信息关联的相似检索信息得到检索信息序列。

602，获取知识图谱中与目标检索信息关联的检索信息序列。

本申请实施例中，当知识图谱中包含标检索信息时，此时，可以直接获取知识图谱中该目标检索信息关联的检索信息序列。

603，分别计算知识图谱中各检索信息与目标检索信息之间的相似度，并将与目标检索信息之间的相似度最大的检索信息设定为相似检索信息，获取与相似检索信息关联的检索信息序列。

本申请实施例中，当知识图谱中不包含目标检索信息时，可以先计算知识图谱中各检索信息和目标检索信息之间的相似度，并将最大相似度对应的检索信息确定为相似检索信息，该相似检索信息与目标检索信息之间的关联度最大，然后获取知识图谱中相似检索信息所关联的检索信息序列即可。例如，知识图谱中会存储有与某个人物角色关联的检索序列信息，而当用户输入的目标检索信息是该人物角色的饰演演员或者绰号时，此时将无法直接通过知识图谱得到与该饰演演员或者绰号相关的检索序列信息，但可以先通过视频内容检索设备的后台数据库中所预存的关联关系，确定知识图谱中某个人物角色是与用户所输入的饰演演员或者绰号之间的相似度最大，此时，该人物角色所关联的检索信息序列即为用户所输入的饰演演员或者绰号所对应的检索信息序列。

本申请提供的技术方案，将一些与命名实体信息具有相同或者相近意义的检索信息和命名实体信息关联存储，当用户输入的目标检索信息不是直接对应目标视频中的命名实体信息时，仍可以得到相对应的检索信息序列，拓宽的检索的范围，提高了检索效果。

如图7所示，图7为本申请实施例中提供的视频内容检索方法的第六实施例流程示意图。

本申请实施例中，提出了一种利用神经网络模型从目标视频中提取与其对应的视频帧的实现过程，具体包括步骤701～703：

701，将标准检索信息对应的特征向量分别与目标视频帧中的每一视频帧对应的特征向量融合，得到融合特征向量。

为了从目标视频中确定出与标准检索信息对应的视频帧，本申请提出了多模态融合训练模型的方法。具体的，针对于目标视频中的每一视频帧，需要将每一视频帧对应的特征向量和标准检索信息对应的特征向量进行融合，得到融合特征向量，并利用融合特征向量计算出该融合特征向量中标准检索信息和视频帧的关联关系。

本申请实施例中，将标准检索信息对应的特征向量与视频帧对应的特征向量融合通常是将图像特征向量接在文本特征向量之后。具体的，若文本特征向量是16维的特征向量，图像特征向量是32维的特征向量，则融合特征向量是48维的特征向量。

本申请实施例中，标准检索信息对应的特征向量是将标准检索信息输入预设的中文预训练模型进行处理得到的，例如最常用的，可以是中文预训练bert模型，而视频帧对应的特征向量是将视频帧输入预设的卷积神经网络模型进行处理得到，其中，具体的卷积神经网络可以是与后续的互信息模型一并训练得到的。

702，将融合特征向量输入预设的关联度计算模型进行处理，分别输出各视频帧与标准检索信息之间的关联系数。

关联度计算模型是指可用于计算融合特征向量和互信息关联系数之间关联度的函数关系。其中，关联度计算模型需要预先通过训练样本进行训练得到。训练样本包括由各标准检索信息对应的文本特征向量和各视频帧对应的图像特征向量所组成的训练融合特征向量，以及训练融合特征向量的标签，也就是训练融合特征向量中标准检索信息和视频帧之间的关联度，通常情况下，可以由0和1表示，即训练融合特征向量的标签是0时，表示该训练融合特征向量中标准检索信息和视频帧不关联，而训练融合特征向量的标签是1时，表示该训练融合特征向量中标准检索信息和视频帧相关联。

本申请实施例中，以训练融合特征向量作为训练输出，训练融合特征向量的标签作为目标输出，所训练得到的关联度计算模型可以学习到标准检索信息和视频帧之间的关联度计算关系。此时，将融合特征向量输入该关联度计算模型中时，所得到关联系数即描述了视频帧和标准检索信息之间的关联程度。

703，根据各视频帧与标准检索信息之间的关联系数，确定与标准检索信息对应的视频帧。

本申请实施例中，若以0和1作为训练融合特征向量的标签进行训练时，此时，将融合特征向量输入该关联度计算模型所得到的关联系数位于0～1之间，可用于表示标准检索信息和视频帧之间的关联概率。作为可选的方案，可以选择0.5作为阈值，若关联系数大于0.5，则表明该融合特征向量中标准检索信息和视频帧有较高可能性相关联，此时，可以将该融合特征向量中的视频帧确定为与该标准检索信息关联的视频帧。

本申请实施例中，通过预先利用多模态融合训练得到关联度计算模型，后续当需要从目标视频中提取与标准检索信息对应的视频帧时，可以将目标视频中各视频帧和标准检索信息融合，然后利用关联度计算模型计算标准检索信息和各视频帧的关联系数，从而准确的从目标视频中筛选出与标准检索信息关联的视频帧。

如图8所示，图8为本申请实施例中提供的视频内容检索方法的第七实施例流程示意图。

考虑到根据检索信息序列中各标准检索信息所提取出的视频帧可能与目标检索信息不相关联，本申请提出了一种对各标准检索信息对应的视频帧进行整合，得到目标检索信息对应的检索视频流的实现方式，具体包括步骤801～802：

801，将检索视频流输入预设的视频整合模型进行处理，得到检索视频流中的独立视频帧。

本申请实施例中，视频整合模型采用ResNet网络结构，可以用于判断视频流中各视频帧的关联度，即将检索视频流输入预设的视频整合模型进行处理，可以确定出检索视频流中的独立视频帧，也就是与其他视频帧无关的视频帧。具体的，视频整合模型也可以预先通过大量的视频训练样本进行训练。具体的训练过程，本发明在此不做赘述。

802，删除检索视频流中的独立视频帧，得到修正后的检索视频流。

本申请实施例中，视频内容检索设备会将检索视频流中的独立视频帧，也就是检索视频流中与其他视频帧无关的视频帧删去，而仅保留和目标检索信息相关的视频帧，作为修正后的检索视频流进行输出。

本申请实施例，通过利用视频整合模型对各标准检索信息对应的视频帧进行处理，筛选并去除掉与目标检索信息无关的独立视频帧，进一步提高了检索得到的检索视频流的准确性。

如图9所示，图9是本申请实施例中视频内容检索装置的一个实施例结构示意图。

为了更好实施本申请实施例中视频内容检索方法，在视频内容检索方法基础之上，本申请实施例中还提供一种视频内容检索装置，视频内容检索装置包括：

获取模块901，用于获取目标视频对应的目标检索信息；

确定模块902，用于确定与目标检索信息关联的检索信息序列；

提取模块903，用于根据检索信息序列对目标视频进行提取处理，得到目标检索信息对应的检索视频流。

在本申请一些实施例中，上述提取模块包括：

视频帧提取次模块，用于针对检索信息序列中的每一标准检索信息，从目标视频中提取与其对应的视频帧；

排列次模块，用于根据各标准检索信息对应的序列信息对各标准检索信息对应的视频帧进行排列处理，得到目标检索信息对应的检索视频流。

在本申请一些实施例中，上述视频内容检索装置还包括知识图谱生成模块，知识图谱生成模块包括命名实体识别次模块、检索信息序列提取次模块、知识图谱生成次模块，其中：

命名实体识别次模块，用于对目标视频对应的文字描述信息进行识别处理，得到命名实体信息；

检索信息序列提取次模块，用于从文字描述信息中提取与命名实体信息关联的检索信息序列；

知识图谱生成次模块，用于根据命名实体信息以及与命名实体信息关联的检索信息序列，生成目标视频的知识图谱。

在本申请一些实施例中，上述检索信息序列提取次模块包括特征信息提取单元以及第一排序单元，其中：

特征信息提取单元，用于提取文字描述信息中各命名实体信息关联的特征信息；

第一排序单元，用于根据各命名实体信息对应的时间节点信息，对各命名实体信息关联的特征信息进行排列处理，得到与命名实体信息关联的检索信息序列。

在本申请一些实施例中，上述确定模块包括第一检索信息序列确定单元或者第二检索信息序列确定单元，其中：

第一检索信息序列确定单元，用于若目标视频的知识图谱中包含目标检索信息，则获取知识图谱中与目标检索信息关联的检索信息序列；

第二检索信息序列确定单元，若目标视频的知识图谱中不包含目标检索信息，则分别计算知识图谱中各检索信息与目标检索信息之间的相似度，并将与目标检索信息之间的相似度最大的检索信息设定为相似检索信息，获取与相似检索信息关联的检索信息序列。

在本申请一些实施例中，上述提取模块包括特征向量融合单元、互信息关联系数计算单元以及视频帧提取单元，其中：

特征向量融合单元，用于将标准检索信息对应的特征向量分别与目标视频帧中的每一视频帧对应的特征向量融合，得到融合特征向量；

关联系数计算单元，用于将融合特征向量输入预设的关联度计算模型进行处理，分别输出各视频帧与标准检索信息之间的关联系数；

视频帧提取单元，用于根据各视频帧与标准检索信息之间的关联系数，确定与标准检索信息对应的视频帧。

在本申请一些实施例中，上述视频内容检索装置还包括知识图谱生成模块，知识图谱生成模块包括筛选次模块以及删除次模块，其中：

筛选次模块，用于将检索视频流输入预设的视频整合模型进行处理，得到检索视频流中的独立视频帧；

删除次模块，用于删除检索视频流中的独立视频帧，得到修正后的检索视频流。

本发明实施例还提供一种视频内容检索设备，如图10所示，图10是本申请实施例中提供的视频内容检索设备的一个实施例结构示意图。

视频内容检索设备包括存储器、处理器以及存储于存储器中，并可在处理器上运行的视频内容检索程序，处理器执行视频内容检索程序时实现上述任一实施例中的视频内容检索方法中的步骤。

具体来讲：视频内容检索设备可以包括一个或者一个以上处理核心的处理器1001、一个或一个以上存储介质的存储器1002、电源1003和输入单元1004等部件。本领域技术人员可以理解，图10中示出的视频内容检索设备结构并不构成对视频内容检索设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器1001是该视频内容检索设备的控制中心，利用各种接口和线路连接整个视频内容检索设备的各个部分，通过运行或执行存储在存储器1002内的软件程序和/或模块，以及调用存储在存储器1002内的数据，执行视频内容检索设备的各种功能和处理数据，从而对视频内容检索设备进行整体监控。可选的，处理器1001可包括一个或多个处理核心；优选的，处理器1001可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1001中。

存储器1002可用于存储软件程序以及模块，处理器1001通过运行存储在存储器1002的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1002可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据视频内容检索设备的使用所创建的数据等。此外，存储器1002可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1002还可以包括存储器控制器，以提供处理器1001对存储器1002的访问。

视频内容检索设备还包括给各个部件供电的电源1003，优选的，电源1003可以通过电源管理系统与处理器1001逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1003还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该视频内容检索设备还可包括输入单元1004，该输入单元1004可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，拍视频内容检索设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，视频内容检索设备中的处理器1001会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器1002中，并由处理器1001来运行存储在存储器1002中的应用程序，从而实现本申请实施例所提供的任一种视频内容检索方法中的步骤。

为此，本发明实施例提供一种计算机可读存储介质，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random AccessMemory)、磁盘或光盘等。计算机可读存储介质上存储有计算机程序，视频内容检索程序被处理器执行时实现本申请实施例所提供的任一种视频内容检索方法中的步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对其他实施例的详细描述，此处不再赘述。

具体实施时，以上各个单元或结构可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元或结构的具体实施可参见前面的方法实施例，在此不再赘述。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种图像虚化方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频内容检索方法，其特征在于，包括：

获取目标视频对应的目标检索信息；

确定与所述目标检索信息关联的检索信息序列；

根据所述检索信息序列对所述目标视频进行提取处理，得到所述目标检索信息对应的检索视频流。

2.根据权利要求1所述的方法，其特征在于，所述根据所述检索信息序列对所述目标视频进行提取处理，得到所述目标检索信息对应的检索视频流，包括：

针对所述检索信息序列中的每一标准检索信息，从所述目标视频中提取与其对应的视频帧；

根据各所述标准检索信息对应的序列信息对各所述标准检索信息对应的视频帧进行排列处理，得到所述目标检索信息对应的检索视频流。

3.根据权利要求2所述的方法，其特征在于，所述确定与所述目标检索信息关联的检索信息序列之前，所述方法还包括：

对所述目标视频对应的文字描述信息进行识别处理，得到命名实体信息；

从所述文字描述信息中提取与所述命名实体信息关联的检索信息序列；

根据所述命名实体信息以及与所述命名实体信息关联的检索信息序列，生成所述目标视频的知识图谱；

所述确定与所述目标检索信息关联的检索信息序列，包括：

根据所述目标视频的知识图谱，确定与所述目标检索信息关联的检索信息序列。

4.根据权利要求3所述的方法，其特征在于，所述从所述文字描述信息中提取与所述命名实体信息关联的检索信息序列，包括：

提取所述文字描述信息中各所述命名实体信息关联的特征信息；

根据各所述命名实体信息对应的时间节点信息，对各所述命名实体信息关联的特征信息进行排列处理，得到与所述命名实体信息关联的检索信息序列。

5.根据权利要求4所述的方法，其特征在于，所述根据所述目标视频的知识图谱，确定与所述目标检索信息关联的检索信息序列，包括：

若所述目标视频的知识图谱中包含所述目标检索信息，则获取所述知识图谱中与所述目标检索信息关联的检索信息序列；或者，

若所述目标视频的知识图谱中不包含所述目标检索信息，则分别计算所述知识图谱中各检索信息与所述目标检索信息之间的相似度，并将与所述目标检索信息之间的相似度最大的检索信息设定为相似检索信息，获取与所述相似检索信息关联的检索信息序列。

6.根据权利要求5所述的方法，其特征在于，所述从所述目标视频中提取与其对应的视频帧，包括：

将所述标准检索信息对应的特征向量分别与所述目标视频帧中的每一视频帧对应的特征向量融合，得到融合特征向量；

将所述融合特征向量输入预设的关联度计算模型进行处理，分别输出各所述视频帧与所述标准检索信息之间的关联系数；

根据各所述视频帧与所述标准检索信息之间的关联系数，确定与所述标准检索信息对应的视频帧。

7.根据权利要求6所述的方法，其特征在于，所述标准检索信息对应的特征向量是将所述标准检索信息输入预设的中文预训练模型进行处理得到的，所述视频帧对应的特征向量是将所述视频帧输入预设的卷积神经网络模型进行处理得到的。

8.根据权利要求1～7任一所述的方法，其特征在于，所述根据所述检索信息序列对所述目标视频进行提取处理，得到所述目标检索信息对应的检索视频流之后，所述方法还包括：

将所述检索视频流输入预设的视频整合模型进行处理，得到所述检索视频流中的独立视频帧；

删除所述检索视频流中的独立视频帧，得到修正后的检索视频流。

9.一种视频内容检索装置，其特征在于，包括：

获取模块，用于获取目标视频对应的目标检索信息；

确定模块，用于确定与所述目标检索信息关联的检索信息序列；

提取模块，用于根据所述检索信息序列对所述目标视频进行提取处理，得到所述目标检索信息对应的检索视频流。

10.一种视频内容检索设备，其特征在于，所述视频内容检索设备包括处理器、存储器以及存储于所述存储器中并可在所述处理器上运行的视频内容检索程序，所述处理器执行所述视频内容检索程序以实现权利要求1至8任一项所述的视频内容检索方法中的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有视频内容检索程序，所述视频内容检索程序被处理器执行以实现权利要求1至8任一项所述的视频内容检索方法中的步骤。