CN114443904B

CN114443904B - 视频查询方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: CN114443904B
Application number: CN202210068131.8A
Authority: CN
Inventors: 高黎明; 廖东亮; 黎功福; 徐进
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2024-02-02
Anticipated expiration: 2042-01-20
Also published as: CN114443904A

Abstract

本申请公开了一种视频查询方法、装置、计算机设备及计算机可读存储介质，方法通过获取查询文本，并对查询文本进行语义特征提取，得到查询语义特征；对候选视频库中的每一候选视频进行语义特征提取，得到每一候选视频的视频语义特征；基于预设的图神经网络模型对查询文本以及每一候选视频进行图特征提取，得到查询图特征以及每一候选视频的视频图特征；融合查询语义特征与查询图特征得到查询特征，以及融合每一候选视频的视频语义特征与视频图特征得到每一候选视频的视频特征；根据每一候选视频的视频特征与查询特征计算每一候选视频的评分，并基于每一候选视频的评分确定查询文本对应的目标视频。该方法可以有效提升视频查询的效率。

Description

视频查询方法、装置、计算机设备及计算机可读存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种视频查询方法、装置、计算机设备及计算机可读存储介质。

背景技术

随着移动终端技术的发展以及流量成本的降低，视频以其具有的多维度、大数据量的信息提供能力逐渐成为人们获取信息的主要形式。

由于各类视频制作应用的出现，视频制作的门槛逐渐降低，使得视频制作和发布不再是专业视频制作人员的专属能力，每个用户都可以使用视频制作应用简单快速地制作个性化的视频并在各大视频网站或视频应用中进行发布。如此也导致了视频网站和视频应用中数据爆炸的情况，如何准确找到自己想要查看的视频成为目前急需解决的问题。

目前，各大视频应用都会提供视频查询的功能，用户在查询栏中输入查询数据后，视频应用便会根据查询数据在视频库中查询到相应的视频并展示给用户，但目前视频应用根据查询数据查询对应视频的准确性不高。

发明内容

本申请实施例提供一种视频查询方法、装置、计算机设备及计算机可读存储介质，该方法可以有效提升视频查询的准确性。

本申请第一方面提供一种视频查询方法，方法包括：

获取查询文本，并对所述查询文本进行语义特征提取，得到查询语义特征；

对候选视频库中的每一候选视频进行语义特征提取，得到每一候选视频的视频语义特征；

基于预设的图神经网络模型对所述查询文本以及每一候选视频进行图特征提取，得到查询图特征以及每一候选视频的视频图特征；

融合所述查询语义特征与所述查询图特征得到查询特征，以及融合每一候选视频的视频语义特征与视频图特征得到每一候选视频的视频特征；

根据每一候选视频的视频特征与所述查询特征计算每一候选视频的评分，并基于每一候选视频的评分确定所述查询文本对应的目标视频。

相应的，本申请第二方面提供一种视频查询装置，装置包括：

获取单元，用于获取查询文本，并对所述查询文本进行语义特征提取，得到查询语义特征；

第一提取单元，用于对候选视频库中的每一候选视频进行语义特征提取，得到每一候选视频的视频语义特征；

第二提取单元，用于基于预设的图神经网络模型对所述查询文本以及每一候选视频进行图特征提取，得到查询图特征以及每一候选视频的视频图特征；

融合单元，用于融合所述查询语义特征与所述查询图特征得到查询特征，以及融合每一候选视频的视频语义特征与视频图特征得到每一候选视频的视频特征；

确定单元，用于根据每一候选视频的视频特征与所述查询特征计算每一候选视频的评分，并基于每一候选视频的评分确定所述查询文本对应的目标视频。

在一些实施例中，所述第二提取单元，包括：

第一确定子单元，用于确定预设异构图中每一节点的第一节点特征，所述预设异构图包含视频节点、标签节点以及查询节点；

学习子单元，用于将所述预设异构图以及所述预设异构图中每一节点的第一节点特征输入至预设的图神经网络模型中，学习得到所述预设异构图中每一节点的第二节点特征；

第二确定子单元，用于根据所述预设异构图中视频节点对应的第二节点特征确定每一候选视频的视频图特征；

第一获取子单元，用于获取与所述查询文本关联的预设数量个第一标签数据；

第三确定子单元，用于根据所述预设异构图中与所述第一标签数据对应的标签节点的第二节点特征确定所述查询文本对应的查询图特征。

在一些实施例中，本申请提供的视频查询装置还包括：

第二获取子单元，用于获取历史查询数据，所述历史查询数据包括历史查询文本和与所述历史查询文本对应的视频数据；

第三获取子单元，用于获取每一视频数据的标签数据，得到标签数据库；

构建子单元，用于基于所述历史查询文本、所述候选视频库以及所述标签数据库构建异构图，得到预设异构图；

训练子单元，用于基于所述预设异构图训练神经网络模型，得到预设的图神经网络模型。

在一些实施例中，所述构建子单元，包括：

第一确定模块，用于在所述标签数据库中确定与每一历史查询文本关联的第二标签数据，并根据所述第二标签数据确定每一历史查询文本与标签数据之间的关联关系；

构建模块，用于以每一历史查询数据、每一标签数据以及每一视频数据为节点，以历史查询数据与标签数据之间的关联关系、历史查询数据与视频数据之间的关联关系以及视频数据与标签数据之间的关联关系为边构建异构图。

在一些实施例中，所述第一获取子单元，包括：

第一处理模块，用于对所述查询文本进行词嵌入处理，得到所述查询文本对应的文本特征；

计算模块，用于计算所述文本特征与所述预设异构图中每一标签节点的第一节点特征之间的相似度；

第二确定模块，用于根据所述相似度确定与所述查询文本关联的第一标签数据。

在一些实施例中，所述获取单元，包括：

接收子单元，用于接收查询数据；

清洗子单元，用于对所述查询数据进行文本清洗，得到查询文本；

提取子单元，用于采用语言表征模型对所述查询文本进行语义特征提取，得到查询语义特征。

在一些实施例中，所述第一提取单元，包括：

采样子单元，用于对候选视频库中每一候选视频进行帧采样，得到每一候选视频对应的帧序列；

编码子单元，用于对所述帧序列中的每一帧图像进行图像编码，得到每一候选视频对应的图像特征序列；

第一处理子单元，用于对每一候选视频的标签数据进行词嵌入处理，得到每一候选视频的标签特征；

融合子单元，用于对每一候选视频的图像特征序列和标签特征进行融合处理，得到每一候选视频的视频语义特征。

在一些实施例中，所述融合单元，包括：

第四获取子单元，用于获取所述查询语义特征对应的第一权重以及所述查询图特征对应的第二权重；

第二处理子单元，用于根据所述第一权重以及所述第二权重对所述查询语义特征和所述查询图特征进行加权处理，得到查询特征；

第五获取子单元，用于获取每一候选视频的视频语义特征对应的第三权重以及每一候选视频的视频图特征对应的第四权重；

第三处理子单元，用于根据所述第三权重和所述第四权重对每一候选视频的视频语义特征和视频图特征进行加权处理，得到每一候选视频的视频特征。

在一些实施例中，所述第四获取子单元，包括：

第一拼接模块，用于将所述查询语义特征和所述查询图特征进行拼接，得到第一拼接特征；

第二处理模块，用于采用预设的前馈神经网络对所述第一拼接特征进行处理，得到第一权重特征；

第三确定模块，用于根据所述第一权重特征确定所述查询语义特征对应的第一权重以及所述查询图特征对应的第二权重。

在一些实施例中，所述第五获取子单元，包括：

第二拼接模块，用于将每一候选视频的视频语义特征和视频图特征进行拼接，得到每一候选视频的第二拼接特征；

第三处理模块，用于采用所述预设的前馈神经网络对所述第二拼接特征进行处理，得到每一候选视频的第二权重特征；

第四确定模块，用于根据所述第二权重特征确定每一候选视频的视频语义特征对应的第三权重以及每一候选视频的视频图特征对应的第四权重。

在一些实施例中，所述确定单元，包括：

计算子单元，用于计算每一候选视频的视频特征与所述查询特征的相似度，得到每一候选视频的评分；

第四确定子单元，用于基于评分由高至低的顺序对候选视频进行排序，并确定排序在前的预设数量个视频为所述查询文本对应的目标视频。

本申请第三方面还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请第一方面所提供的视频查询方法中的步骤。

本申请第四方面提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请第一方面所提供的视频查询方法中的步骤。

本申请第五方面提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现第一方面所提供的视频查询方法中的步骤。

本申请实施例提供的视频查询方法，通过获取查询文本，并对查询文本进行语义特征提取，得到查询语义特征；对候选视频库中的每一候选视频进行语义特征提取，得到每一候选视频的视频语义特征；基于预设的图神经网络模型对查询文本以及每一候选视频进行图特征提取，得到查询图特征以及每一候选视频的视频图特征；融合查询语义特征与查询图特征得到查询特征，以及融合每一候选视频的视频语义特征与视频图特征得到每一候选视频的视频特征；根据每一候选视频的视频特征与查询特征计算每一候选视频的评分，并基于每一候选视频的评分确定查询文本对应的目标视频。

以此，本申请提供的视频查询方法，通过分别提取查询文本的语义特征和图特征以及提取每一候选视频的语义特征和图特征，再分别融合得到查询文本的查询特征以及每一候选视频的视频特征，然后基于融合后的查询特征和视频特征进行视频查询。如此可以融合语义分析和图神经网络的预测优势，提升视频查询的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请中视频查询的一个场景示意图；

图2是本申请提供的视频查询方法的流程示意图；

图3是本申请提供的视频查询方法的另一流程示意图：

图4是本申请中提供的相似度评估模型的模型结构示意；

图5是本申请提供的视频语义特征提取子模块的结构示意图；

图6是本申请提供的特征融合模块的结构示意图；

图7是本申请提供的视频查询装置的结构示意图；

图8是本申请提供的计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种视频查询方法、装置、计算机设备及计算机可读存储介质。其中，该视频查询方法可以使用于视频查询装置中。该视频查询装置可以集成在计算机设备中，该计算机设备可以是终端也可以是服务器。其中，终端可以为手机、平板电脑、笔记本电脑、智能电视、穿戴式智能设备、个人计算机(PC，Personal Computer)以及车载终端等设备。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。其中，服务器可以为区块链中的节点。

请参阅图1，为本申请提供的视频查询方法的一场景示意图。如图所示，服务器A接收终端B发送的查询文本，服务器A对对查询文本进行语义特征提取，得到查询语义特征；对候选视频库中的每一候选视频进行语义特征提取，得到每一候选视频的视频语义特征；基于预设的图神经网络模型对查询文本以及每一候选视频进行图特征提取，得到查询图特征以及每一候选视频的视频图特征；融合查询语义特征与查询图特征得到查询特征，以及融合每一候选视频的视频语义特征与视频图特征得到每一候选视频的视频特征；根据每一候选视频的视频特征与查询特征计算每一候选视频的评分，并基于每一候选视频的评分确定查询文本对应的目标视频。进一步地，服务器A将确定的目标视频发送给终端B。

需要说明的是，图1所示的视频查询场景示意图仅仅是一个示例，本申请实施例描述的视频查询场景是为了更加清楚地说明本申请的技术方案，并不构成对于本申请提供的技术方案的限定。本领域普通技术人员可知，随着视频查询场景演变和新业务场景的出现，本申请提供的技术方案对于类似的技术问题，同样适用。

基于上述实施场景以下分别进行详细说明。

在相关技术中，当视频应用接收到用户输入的查询数据时，一般会采用语义匹配模型提取出查询数据的语义特征以及每一候选视频的语义特征，然后再将查询语句的语义特征和每一候选视频的语义特征进行匹配，根据匹配结果来确定召回的视频。然而，当查询数据较短时，语义分析模型很难捕获到短查询的语义，而且对于相似视频之间的细微语义差别，语义分析模型也较难作出区分，如此导致视频查询的准确率不高。因此，本申请提供了一种视频查询方法，以期能够在一定程度上提升视频查询的准确性。

本申请实施例将从视频查询装置的角度进行描述，该视频查询装置可以集成在计算机设备中。其中，计算机设备可以是终端也可以是服务器。其中，终端可以为手机、平板电脑、笔记本电脑、智能电视、穿戴式智能设备、个人计算机(PC，Personal Computer)以及车载终端等设备。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。如图2所示，为本申请提供的视频查询方法的流程示意图，该方法包括：

步骤101，获取查询文本，并对查询文本进行语义特征提取，得到查询语义特征。

其中，查询文本可以为根据查询数据生成的查询文本，查询数据可以为文本格式的查询数据、可以为音频格式的查询数据还可以为图像格式的查询数据。当查询数据为文本格式的查询数据时，可以对该查询数据进行数据清洗，得到查询文本；当查询数据为音频格式的查询数据时，可以对该查询数据进行语音识别，得到查询文本；当查询数据为图像格式的查询数据时，可以采用图像文字识别技术识别出查询数据中的文字，得到查询文本。

在获取到查询文本后，可以进一步采用语义分析模型对查询文本进行语义特征提取，以得到查询文本对应的查询语义特征。其中，此处对查询文本进行语义特征提取的语义分析模型可以为BERT模型，其中BERT的全称为Bidirectional Encoder Representationfrom Transformers，也就是一个基于Transformer的双向编码的一个预训练模型。其中，Transformer是一个基于注意力的双向编码模型。在使用BERT模型对查询文本进行语义特征提取时，可以先将查询文本进行分字，然后获取每个字在BERT此表中的字身份标识(Identity Document，ID)并将每个字的字ID输入到BERT模型中，得到BERT模型输出的特征向量，该特征向量便为查询语义特征。

其中，在本申请中，BERT模型只是对查询文本进行语义提取的一个示例的模型，在实际使用中还可以采用其他的语义分析模型对查询文本进行语义提取，得到查询语义特征。

在一些实施例中，获取查询文本，并对查询文本进行语义特征提取，得到查询语义特征，包括：

1、接收查询数据；

2、对查询数据进行文本清洗，得到查询文本；

3、采用语言表征模型对查询文本进行语义特征提取，得到查询语义特征。

其中，在本申请实施例中，当接收到的查询数据为文本形式的查询数据时，可以在接收到查询数据后，先对查询数据进行文本清洗，即对查询数据进行预处理，得到查询文本。然后再用语言表征模型，即前述BERT模型对查询文本进行语义特征提取，得到查询语义特征。

具体地，对查询数据进行文本清洗，可以为识别查询数据中的无效文本，例如特殊字符等，然后将该无效文本进行删除。也可以为识别查询数据中的错别字，然后将该错别字进行修正等。在采用语言表征模型对查询数据进行语义特征提取之前，先对查询数据进行文本清洗，可以提升提取得到的查询语义特征的准确性，进而可以提升视频查询的准确性。

步骤102，对候选视频库中的每一候选视频进行语义特征提取，得到每一候选视频的视频语义特征。

其中，候选视频库可以为预设的视频库。一般情况下，当在某一视频应用中进行视频查询时，查询任务对应的视频库包含了该视频应用中的所有视频，即此处预设的视频库包含了视频应用服务器中的所有视频。当然，在一些特殊的视频查询任务中，也可以先对大量的视频进行初步的筛选，得到候选视频库，该候选视频库中包含的某一类具体的视频，然后可以再基于该候选视频库进行进一步的精确查询。

在确定了候选视频库后，可以对候选视频库中的每一候选视频进行语义特征提取，得到每一候选视频的视频语义特征。

其中，在一些实施例中，对候选视频库中的每一候选视频进行语义特征提取，得到每一候选视频的视频语义特征，包括：

1、对候选视频库中每一候选视频进行帧采样，得到每一候选视频对应的帧序列；

2、对帧序列中的每一帧图像进行图像编码，得到每一候选视频对应的图像特征序列；

3、对每一候选视频的标签数据进行词嵌入处理，得到每一候选视频的标签特征；

4、对每一候选视频的图像特征序列和标签特征进行融合处理，得到每一候选视频的视频语义特征。

其中，在本申请实施例中，在对每一候选视频进行视频语义特征提取时，融合了该视频的标签对应的特征，从而得到了每一候选视频更为准确的视频语义特征。

其中，具体地，可以先对每一候选视频进行帧采样，对于不同的候选视频可以采用相同的采样频率进行帧采样。例如，可以采用1帧/秒的采样频率来对每一候选视频进行帧采样，得到每一候选视频对应的帧序列。

然后，对于每一候选视频对应的帧序列中的每一帧图像，可以进一步进行图像编码处理，得到每一帧图像对应的图像特征，进而可以得到每一候选视频对应的图像特征序列。其中，在本申请中，可以采用图像编码器对每一帧图像进行图像编码，具体地，此处的图像编码器可以为CLIP模型中的图像编码器。CLIP模型为一种基于文本的图像处理模型，或者可以称为基于大规模图像文本对训练数据的预训练模型。

其中，在本申请实施例中，每一候选视频都具有其对应的一个或多个视频标签，这些视频标签可以称为每一候选视频的标签数据。每一候选视频的标签数据，可以由人工进行标注得到，也可以为利用模型进行提取得到。对于一些用户自行上传的原创视频，用户在将视频上传到视频应用的服务器中时，也可以自行输入标签来生成该视频的标签数据。本实施例中可以对每一候选视频的每一视频标签进行分词，然后再对每个视频标签对应的多个分词进行词嵌入处理，得到每个分词的词特征。其中，此处词嵌入处理可以采用Word2vec模型来处理，Word2vec模型是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。

在得到每一视频标签的多个分词对应的词特征后，可以对这些词特征进行平均池化，得到每一视频标签对应的标签特征。当候选视频具有多个视频标签时，也就可以得到该候选视频对应的多个标签特征。

如此，在提取得到每一候选视频的图像特征序列以及标签特征后，便可以对每一候选视频的图像特征序列和标签特征进行融合处理，得到每一候选视频对应的视频语义特征。其中，此处对每一候选视频的图像特征序列和标签特征进行融合处理，具体可以为将每一候选视频的图像特征序列和标签特征输入到Transformer结构中，通过该结构中的注意力机制融合候选视频的图像特征和标签特征，最终得到每一候选视频的视频语义特征。

步骤103，基于预设的图神经网络模型对查询文本以及每一候选视频进行图特征提取，得到查询图特征以及每一候选视频的视频图特征。

其中，在本申请实施例中，在提取得到查询文本的查询语义特征以及每一候选视频的视频语义特征后，可以进一步采用预设的图神经网络模型对查询文本和每一候选视频进行图特征的提取，得到查询文本对应的查询图特征以及每一候选视频对应的视频图特征。此处的图神经网络模型可以为基于异构图训练得到的图神经网络模型，该异构图中包含了视频节点、查询节点以及标签节点。通过该图神经网络模型提取得到的查询图特征以及每一候选视频的视频图特征，不仅包含了节点本身的内容描述，还包括了节点之间关系的描述，可以对每一查询节点或视频节点进行更准确的表征。

在一些实施例中，基于预设的图神经网络模型对查询文本以及每一候选视频进行图特征提取，得到查询图特征以及每一候选视频的视频图特征，包括：

1、确定预设异构图中每一节点的第一节点特征，预设异构图包含视频节点、标签节点以及查询节点；

2、将预设异构图以及预设异构图中每一节点的第一节点特征输入至预设的图神经网络模型中，学习得到预设异构图中每一节点的第二节点特征；

3、根据预设异构图中视频节点对应的第二节点特征确定每一候选视频的视频图特征；

4、获取与查询文本关联的预设数量个第一标签数据；

5、根据预设异构图中与第一标签数据对应的标签节点的第二节点特征确定查询文本对应的查询图特征。

其中，在本申请实施例中，对于异构图中的每一查询节点或者候选视频节点的图特征的提取，可以先确定节点本身的向量表征，然后再基于图神经网络模型学习每一查询节点或候选视频节点在异构图中的向量表征，从而得到每一查询节点或者候选视频节点对应的视频图特征。

具体地，由于异构图中包含了每一候选视频对应的节点、历史查询文本对应的节点以及视频标签对应的节点。可以先分别确定每一节点本身的向量表征。对于历史查询文本对应的节点，可以对历史查询文本进行分词，然后对每个分词进行词嵌入处理，得到每个分词的词向量，再采用该历史查询文本的所有分词的词向量的均值作为该历史查询文本的节点本身的向量表征。对于视频标签对应的节点，可以对视频标签进行分词，再将分词进行词嵌入得到每个分词的词向量，再进一步确定所有分词词向量的均值为视频标签节点本身的向量表征。对于每一候选视频节点，可以获取候选视频节点关联的关联视频标签，然后根据这些关联视频标签节点本身向量的均值来确定候选视频节点本身的向量表征。至此，异构图中每一节点本身的节点特征已经确定，此处可以将每一节点本身的节点特征确定为每一节点的第一节点特征。

其中，异构图中的节点包含了候选视频对应的视频节点、所有视频标签对应的标签节点以及历史查询文本对应的查询节点。那么前述每一节点的第一节点特征就包含了视频节点的本身的节点特征、标签节点的本身的节点特征以及历史查询节点的本身的节点特征。

然后我们将异构图以及异构图中每个节点的第一节点特征输入至图神经网络模型中进行学习，得到异构图中每一节点的图特征，此处可以称之为每一节点的第二节点特征。第二节点特征中包含了节点本身特征的表征，也包含了节点之间关系的表征，从而可以对每个节点进行更为准确的表征。

至此，由于已经学习到了异构图中每个节点的图特征，那么提取出异构图中视频节点的图特征，便可以得到每一候选视频的视频图特征。

对于查询文本对应的查询图特征，可以根据与查询文本关联的预设数量个标签节点的节点图特征来表征。例如，在异构图中与查询文本关联的标签节点有5个，那么便可以根据这5个标签节点的标签图特征的均值来作为查询文本的查询图特征。

其中，在一些实施例中，获取与查询文本关联的预设数量个第一标签数据，包括：

4.1、对查询文本进行词嵌入处理，得到查询文本对应的文本特征；

4.2、计算文本特征与预设异构图中每一标签节点的第一节点特征之间的相似度；

4.3、根据相似度确定与查询文本关联的第一标签数据。

其中，在本申请实施例中，可以根据查询文本和标签数据的相似度来确定与查询文本关联的标签数据。

具体地，可以先对查询文本进行分词并进行词嵌入处理，得到每个分词的词向量。然后计算词向量的均值，得到查询文本的文本特征。然后，可以获取前述异构图中每个标签节点的第一节点特征，再计算文本特征和每一标签节点的第一节点特征之间的相似度。具体地，可以采用余弦相似度的方法来计算，即计算文本特征对应的特征向量与每一标签节点的第一节点特征对应的特征向量之间的乘积，得到文本特征与每一标签节点的第一节点特征之间的相似度。

然后，按照相似度从高至低的顺序对标签数据进行排序，确定排序靠前的预设数量个标签数据为与查询文本关联的第一标签数据。

在一些实施例中，将预设异构图以及预设异构图中每一节点的第一节点特征输入至预设的图神经网络模型中，学习得到预设异构图中每一节点的第二节点特征之前，还包括：

A、获取历史查询数据，历史查询数据包括历史查询文本和与历史查询文本对应的视频数据；

B、获取每一视频数据的标签数据，得到标签数据库；

C、基于历史查询文本、候选视频库以及标签数据库构建异构图，得到预设异构图；

D、基于预设异构图训练神经网络模型，得到预设的图神经网络模型。

其中，在本申请实施例中，可以理解的是，在根据获取到的查询文本进行视频查询之前，需要先根据已有数据进行异构图的构建以及图神经网络模型的训练。

具体地，可以先获取历史查询数据，其中历史查询数据包含了历史查询文本以及与历史查询文本对应的视频数据。此处与历史查询文本对应的视频数据可以为在基于历史查询文本进行推荐的视频中，用户有点击行为的视频数据。在一些实施例中，此处的视频数据也可以为候选视频库中的所有视频数据。

然后，对每一视频数据，可以获取该视频数据的标签数据，这些标签数据构成了标签数据库。

在获取到历史查询文本、视频数据库以及标签数据库后，便可以据此构建异构图，然后再基于该异构图来训练图神经网络模型。

在一些实施例中，基于历史查询文本、候选视频库以及标签数据库构建异构图，包括：

C1、在标签数据库中确定与每一历史查询文本关联的第二标签数据，并根据第二标签数据确定每一历史查询文本与标签数据之间的关联关系；

C2、以每一历史查询数据、每一标签数据以及每一视频数据为节点，以历史查询数据与标签数据之间的关联关系、历史查询数据与视频数据之间的关联关系以及视频数据与标签数据之间的关联关系为边构建异构图。

其中，可以理解的是，构建图网络，需要确定图网络中包含的节点以及节点之间的连接关系。

在本申请实施例中，可以根据候选视频库中的视频数据为视频节点、标签数据库中的标签数据为标签节点以及以历史查询数据为查询节点作为异构网络的节点，以各节点之间的关系作为边来构建异构图。

其中，如前所述查询节点和视频节点之间的连接关系可以根据前述用户点击行为来确定，视频节点和标签节点之间的连接关系可以根据每一视频包含的标签数据来确定，如此需要再进一步确定每一查询节点和标签节点之间的连接关系。在本申请实施例中，可以计算每一历史查询文本对应的文本特征与标签数据对应的文本特征之间的相似度来确定与每一历史查询文本关联的第二标签数据，然后据此确定查询节点和标签节点之间的关联关系。

步骤104，融合查询语义特征与查询图特征得到查询特征，以及融合每一候选视频的视频语义特征与视频图特征得到每一候选视频的视频特征。

其中，当确定了查询文本的查询语义特征和查询图特征，以及确定了每一候选视频的视频语义特征与视频图特征后，便可以对查询文本或者候选视频的两个特征进行融合。即将查询文本对应的查询语义特征与查询图特征进行融合，得到查询文本对应的查询特征。以及将每一候选视频的视频语义特征与视频图特征进行融合得到每一候选视频的视频特征。

在一些实施例中，融合查询语义特征与查询图特征得到查询特征，以及融合每一候选视频的视频语义特征与视频图特征得到每一候选视频的视频特征，包括：

1、获取查询语义特征对应的第一权重以及查询图特征对应的第二权重；

2、根据第一权重以及第二权重对查询语义特征和查询图特征进行加权处理，得到查询特征；

3、获取每一候选视频的视频语义特征对应的第三权重以及每一候选视频的视频图特征对应的第四权重；

4、根据第三权重和第四权重对每一候选视频的视频语义特征和视频图特征进行加权处理，得到每一候选视频的视频特征。

其中，在本申请实施例中，对查询文本的查询语义特征和查询图特征进行融合，以及对每一候选视频的视频语义特征和视频图特征进行融合的过程，可以进行差别融合。即先确定查询文本和每一候选视频对应的两个特征的权重，以不同的权重来区别不同特征的重要性。然后再基于不同的权重对这两个特征进行加权处理，得到更为准确的特征。

即先获取查询语义特征对应的第一权重以及查询图特征对应的第二权重，然后根据第一权重以及第二权重对查询语义特征和查询图特征进行加权处理得到查询特征。以及获取每一候选视频的视频语义特征对应的第三权重以及每一候选视频的视频图特征对应的第四权重，然后根据第三权重和第四权重对每一候选视频的视频语义特征和视频图特征进行加权处理，得到每一候选视频的视频特征。

其中，对于每一特征的权重的获取，可以为获取每一特征预设的权重，也可以为对不同特征之间进行注意力处理得到的权重，还可以采用门机制来确定不同特征对应的权重。

在一些实施例中，获取查询语义特征对应的第一权重以及查询图特征对应的第二权重，包括：

1.1、将查询语义特征和查询图特征进行拼接，得到第一拼接特征；

1.2、采用预设的前馈神经网络对第一拼接特征进行处理，得到第一权重特征；

1.3、根据第一权重特征确定查询语义特征对应的第一权重以及查询图特征对应的第二权重。

其中，在本申请实施例中，可以采用门机制来确定查询文本对应的查询语义特征与查询图特征的权重。

具体地，可以先将查询语义特征和查询图特征进行拼接，得到拼接特征，为与下文拼接特征作区分，此处可以称为第一拼接特征。然后，将该第一拼接特征输入至预设的前馈神经网络中进行处理，得到第一权重特征，此处可以称之为门特征。然后可以进一步根据该门特征来确定查询语义特征对应的第一权重以及查询图特征对应的第二权重。

在一些实施例中，获取每一候选视频的视频语义特征对应的第三权重以及每一候选视频的视频图特征对应的第四权重，包括：

3.1、将每一候选视频的视频语义特征和视频图特征进行拼接，得到每一候选视频的第二拼接特征；

3.2、采用预设的前馈神经网络对第二拼接特征进行处理，得到每一候选视频的第二权重特征；

3.3、根据第二权重特征确定每一候选视频的视频语义特征对应的第三权重以及每一候选视频的视频图特征对应的第四权重。

在本申请实施例中，同样可以采用门机制来确定每一候选视频对应的视频语义特征和视频图特征对应的权重。具体计算方法与前述确定查询文本对应的查询语义特征与查询图特征的权重的思路一致，此处不再予以赘述。

步骤105，根据每一候选视频的视频特征与查询特征计算每一候选视频的评分，并基于每一候选视频的评分确定查询文本对应的目标视频。

其中，在确定了查询文本对应的查询特征以及每一候选视频对应的视频特征后，可以进一步根据查询文本对应的查询特征和每一候选视频的视频特征计算查询文本和每一候选视频之间的匹配程度，该匹配程度可以以每一视频的评分值来进行表征。然后，便可以进一步根据评分值的高低确定与查询文本对应的一个或多个目标视频，并向用户推荐这些目标视频。

在一些实施例中，根据每一候选视频的视频特征与查询特征计算每一候选视频的评分，并基于每一候选视频的评分确定查询文本对应的目标视频，包括：

1、计算每一候选视频的视频特征与查询特征的相似度，得到每一候选视频的评分；

2、基于评分由高至低的顺序对候选视频进行排序，并确定排序在前的预设数量个视频为查询文本对应的目标视频。

在本申请实施例中，可以计算查询特征对应的特征向量和每一候选视频的视频特征对应的特征向量之间的余弦相似度，并将该余弦相似度的值确定为基于该查询文本对每一候选视频的评分。

在确定了每一候选视频的评分后，可以按照评分由高至低的顺序对候选视频进行排序。然后确定排序靠前的若干个候选视频为查询文本对应的目标视频。

在确定了目标视频后，可以进一步向用户推荐这些目标视频。

根据上述描述可知，本申请实施例提供的视频查询方法，通过获取查询文本，并对查询文本进行语义特征提取，得到查询语义特征；对候选视频库中的每一候选视频进行语义特征提取，得到每一候选视频的视频语义特征；基于预设的图神经网络模型对查询文本以及每一候选视频进行图特征提取，得到查询图特征以及每一候选视频的视频图特征；融合查询语义特征与查询图特征得到查询特征，以及融合每一候选视频的视频语义特征与视频图特征得到每一候选视频的视频特征；根据每一候选视频的视频特征与查询特征计算每一候选视频的评分，并基于每一候选视频的评分确定查询文本对应的目标视频。

本申请还提供了一种视频查询方法，该方法可以使用于计算机设备中，该计算机设备可以为终端。如图3所示，为本申请提供的视频查询方法的另一流程示意图，方法具体包括：

步骤201，计算机设备获取历史查询文本、候选视频信息以及视频标签信息。

其中，在相关技术中，在根据用户输入的查询数据查询对应的视频时，有如下几种方案进行视频查询：基于神经网络的语义匹配方法、基于概念的匹配方法以及基于用户历史点击行为的匹配方法。这几种匹配方法分别对应的语义匹配模型、基于概念的匹配模型以及点击模型。基于神经网络的语义匹配模型通常利用神经网络技术端到端的建模视频召回问题，这些模型利用卷积神经网络、循环神经网络、Transformer等网络结构提取查询和视频的语义信息进行相似度匹配，基于语义匹配的方法泛化性能较好。基于概念的匹配模型主要设计概念提取器从视频和查询中抽取相关的概念，然后通过匹配概念的方法召回相关的视频，基于概念的匹配方法具有准确率高的优点。基于点击关系的匹配方法主要是构建查询和视频的二部图，然后通过图学习的方法学习查询和视频之间的关系计算视频和查询的相关性。图学习的方法包括：图卷积神经网络、图注意力网络等等。

然而，基于神经网络的语义匹配模型在短查询的场景中往往不能准确到捕捉到查询的语义信息。且语义匹配模型很难区别相似的视频画面的细微语义区别。基于概念的匹配模型的泛化性能差，通常我们只能设计有限的概念提取器来提取视频中的概念信息，造成概念提取器中无法识别的概念信息就无法召回相关的视频。基于点击图的匹配模型存在点击关系稀疏，图模型无法处理没有见过的查询的情况。即现有的匹配方案都存在一定的缺陷，本申请提供了一种视频查询方法，可以综合各类方法的优势，进而可以提升视频查询的准确性。下面对该方法进行详细描述。

首先，计算机设备可以获取视频查询任务对应的候选视频库，即查询任务可以基于该候选视频库进行查询，候选视频库中包括了多个候选视频信息。其中，每个候选视频信息都具有一个或多个视频标签信息，这些视频标签信息构成了视频标签库。进一步地，计算机设备还可以获取历史查询数据，这些历史查询数据可以从视频应用的查询日志中获取得到，历史查询数据中包含了历史查询文本。具体地，计算机设备可以对历史查询数据进行预处理，识别出其中的文本数据并进行清洗，得到历史查询文本。

步骤202，计算机设备确定历史查询文本、候选视频信息以及视频标签信息之间的关联关系。

其中，计算机设备在获取到历史查询文本、候选视频信息以及视频标签信息后，可以进一步确定历史查询文本、候选视频信息以及视频标签信息之间的关联关系。

具体地，历史查询文本和候选视频信息之间的关联关系，可以根据用户的历史查询与对应点击的视频信息之间的点击关系来确定。例如对于某一目标历史查询文本，在查询日志中获取该目标历史查询文本对应的历史查询数据，然后查询在接收到该历史查询数据并展示相关视频后用户点击的视频信息，那么该用户点击的视频信息便为与目标历史查询文本关联的视频信息。

历史查询文本和视频标签信息之间的关联关系，可以根据历史查询文本和视频标签信息的文本特征之间的相似度来确定。具体地，可以对每一历史查询文本进行分词，然后对每一分词进行词嵌入处理得到每一分词对应的词向量，然后确定词向量的均值为历史查询文本对应的查询文本向量。同样地，对于每一视频标签信息，也对每一视频标签信息进行分词，然后对每一分词进行词嵌入处理得到每一分词对应的词向量，在进一步确定词向量的均值为每一视频标签信息对应的视频标签向量。其中，词嵌入处理具体可以采用Word2vec模型来进行处理，得到词向量。然后，计算每一历史查询文本向量与每一视频标签向量的余弦相似度，并基于余弦相似度的值确定历史查询文本和视频标签信息之间的关联关系。

候选视频信息和视频标签信息之间的关联关系，可以简单地根据每一候选视频具有的视频标签来进行确定。每一候选视频具有的视频标签，可以为根据视频内容进行人工标注得到的视频标签，也可以为利用视频标签提取模型进行提取得到的视频标签。

步骤203，计算机设备基于历史查询文本、候选视频信息以及视频标签信息以及关联关系构建异构图。

其中，在获取到历史查询文本、候选视频信息、视频标签信息以及三者之间的关联关系后，便可以根据这些信息构建异构图。

具体地，可以以每一个历史查询文本、每一个候选视频以及每一个视频标签为一个节点，以历史查询文本、候选视频信息以及视频标签信息之间的关联关系为边来构建异构图。也就是先构建元路径：查询-点击-视频、查询-标签-查询以及视频-标签-视频这样的类元路径，然后根据这几类元路径构建异构图。

步骤204，计算机设备获取训练样本数据，并基于训练样本数据和异构图训练相似度评估模型。

其中，在本申请实施例中，提供了一种相似度评估模型，用于评估查询数据对应的查询文本与每一候选视频之间的相似度。该相似度评估模型为融合语义提取模型和图神经网络模型得到的模型。

如图4所示，为本申请提供的相似度评估模型的模型结构示意图。如图所示，该相似度评估模型包括了语义特征提取模块10、图特征提取模块20、特征融合模块30以及相似度计算模块40。

其中，语义特征提取模块10包含了两个子模块，分别为视频语义特征提取子模块11以及查询语义特征提取子模块12。具体地，如图5所示，为本申请提供的视频语义特征提取子模块11的结构示意图。如图所示，视频语义特征提取子模块11包含了图像编码器111、Word2vec模型112以及一个Transformer模型113。其中，图像编码器111用于将从候选视频中采样得到的图像帧进行图像编码，得到候选视频对应的帧向量。Word2vec模型112用于将候选视频的标签数据进行词嵌入处理，得到标签数据对应的词向量。Transformer模型113用于将候选视频的帧向量和词向量进行融合，得到候选视频对应的视频语义特征，即视频语义向量。图像编码器111具体可以为CLIP模型中的图像编码器。查询语义特征提取子模块12具体可以为一个BERT模型，该BERT模型具体可以由12层Transformer编码器构成，该BERT模型用于将查询文本映射为一个向量表示，即提取出查询文本中的查询语义特征或者查询语义向量。即向语义特征提取模块10中输入候选视频的采样图像帧序列、候选视频的标签信息以及查询文本，输出候选视频的视频语义特征以及查询文本的查询语义特征。

其中，图特征提取模块20中具体可以包含了一个图特征提取模型，该图特征提取模型具体可以为异构图的图注意力神经网络模型也可以为异构图图卷积神经网络模型。向图特征提取模块20中输入前述构建的异构图以及查询文本对应的标签数据，便可以输出异构图中每一候选视频节点的图特征以及查询文本对应的图特征。其中，由于在异构图中不一定包含用户输入的查询文本对应的查询节点，此时可以根据查询文本的词向量与异构图中标签节点的词向量之间的相似度关系确定预设数量个与用户输入的查询文本关联的标签节点。如此，查询文本对应的图特征可以根据与查询文本关联标签节点的图特征进行融合得到。具体融合过程可以为求多个标签节点的图特征向量的平均值。

在一些实施例中，在将查询文本关联的多个标签节点的图特征进行融合得到查询文本对应的图特征时，可以采用参数共享的方式将异构图中的注意力向量作为特征融合阶段的注意力向量，如此可以将不同标签节点的特征对查询文本的特征的影响进行区别化，从而可以融合得到更为准确的查询文本对应的图特征向量，进而可以提升相似度评估模型的评估精度。

其中，如图6所示，为本申请提供的特征融合模块30结构示意图。如图所示，特征融合模块30包括特征拼接子模块31、前馈神经网络32以及特征融合子模块33。其中，将候选视频的视频语义特征和图特征输入到特征融合模块30中，得到特征融合模块输出的视频特征。具体地，特征拼接子模块31可以先对候选视频的视频语义特征和图特征进行拼接，得到拼接特征。然后，将拼接特征输入到前馈神经网络32中，得到前馈神经网络32输出的门向量，然后特征融合子模块33根据门向量对候选视频的视频语义特征以及图特征进行融合，得到候选视频的视频特征。

同样地，将查询文本的查询语义特征和图特征输入至特征融合模块30中，也可以得到特征融合模块30输出的查询文本的查询特征。

进一步地，特征融合模块30输出的候选视频的视频特征以及查询文本的查询特征可以输入到相似度计算模块中，对两个特征对应的特征向量进行余弦相似度计算，得到候选视频与查询文本的相似度。

在构建了上述结构的相似度评估模型后，可以获取训练样本对该相似度评估模型进行训练。具体地，本申请可以采用有监督的学习方式训练该相似度评估模型。本申请将具有点击关系的查询-视频对作为正样本。随机构造没有点击信息的查询-视频对作为负样本来训练该相似度评估模型直至模型收敛。

其中，在一些实施例中，在对相似度评估模型中的图特征提取模块20进行训练时，可以采用稀疏采样的策略来采样训练样本。稀疏采样即为随机的离散采样，可以获取到离散的样本，通过稀疏采样随机过滤置信度低的边。具体地，可以对不同的元路径的边进行随机采样，然后通过设置阈值来控制采样边的比例。如此可以缓解异构图中查询-标签之间边的置信度低的问题，从而可以提升图特征提取模块20对查询文本以及候选视频的图特征提取的准确性，进而也可以提升相似度评估模型的评估精度。

步骤205，计算机设备获取查询数据，并从查询数据中提取出查询文本。

其中，当训练好上述相似度评估模型后，可以将该模型部署到视频应用中。当检测到用户输入查询数据后，获取该查询数据，并对查询数据进行文本提取，得到查询文本。

步骤206，计算机设备确定与查询文本关联的目标标签数据。

其中，计算机设备在获取到查询文本后，可以进一步在前述标签数据库中确定与查询文本关联的目标标签数据。具体地，可以对查询文本进行词嵌入处理，得到查询文本对应的词向量。然后计算该词向量与每一标签数据词向量之间的相似度，并确定其中相似度最高的预设数量个标签数据为与查询文本关联的目标标签数据。

步骤207，计算机设备将查询文本、目标标签数据以及每一候选视频输入至相似度评估模型，得到查询数据和每一候选视频之间的相似度。

在获取到查询文本关联的目标标签数据后，可以进一步将查询文本、目标标签数据以及每一候选视频信息输入至相似度评估模型中进行相似度评估，得到模型输出的每一候选视频与查询文本的相似度。

步骤208，计算机设备根据查询数据和每一候选视频之间的相似度确定与查询数据对应的目标视频。

其中，在得到相似度评估模型输出的每一候选视频与查询数据之间的相似度后，可以根据每一候选视频对应的相似度由高至低的顺序对候选视频库中的每一候选视频进行排序。然后，可以确定排序靠前的预设数量的候选视频作为与查询文本关联的目标视频。然后，计算机设备可以将这些目标视频按照相似度由高至低的顺序推荐给客户，完成视频查询任务。

根据上述描述可知，本申请提供的视频查询方法，通过获取查询文本，并对查询文本进行语义特征提取，得到查询语义特征；对候选视频库中的每一候选视频进行语义特征提取，得到每一候选视频的视频语义特征；基于预设的图神经网络模型对查询文本以及每一候选视频进行图特征提取，得到查询图特征以及每一候选视频的视频图特征；融合查询语义特征与查询图特征得到查询特征，以及融合每一候选视频的视频语义特征与视频图特征得到每一候选视频的视频特征；根据每一候选视频的视频特征与查询特征计算每一候选视频的评分，并基于每一候选视频的评分确定查询文本对应的目标视频。

为了更好地实施以上视频查询方法，本申请实施例还提供一种视频查询装置，该视频查询装置可以集成在终端或服务器中。

例如，如图5所示，为本申请实施例提供的视频查询装置的结构示意图，该视频查询装置可以包括获取单元301、第一提取单元302、第二提取单元303、融合单元304以及确定单元305，如下：

获取单元301，用于获取查询文本，并对查询文本进行语义特征提取，得到查询语义特征；

第一提取单元302，用于对候选视频库中的每一候选视频进行语义特征提取，得到每一候选视频的视频语义特征；

第二提取单元303，用于基于预设的图神经网络模型对查询文本以及每一候选视频进行图特征提取，得到查询图特征以及每一候选视频的视频图特征；

融合单元304，用于融合查询语义特征与查询图特征得到查询特征，以及融合每一候选视频的视频语义特征与视频图特征得到每一候选视频的视频特征；

确定单元305，用于根据每一候选视频的视频特征与查询特征计算每一候选视频的评分，并基于每一候选视频的评分确定查询文本对应的目标视频。

在一些实施例中，第二提取单元，包括：

第一确定子单元，用于确定预设异构图中每一节点的第一节点特征，预设异构图包含视频节点、标签节点以及查询节点；

学习子单元，用于将预设异构图以及预设异构图中每一节点的第一节点特征输入至预设的图神经网络模型中，学习得到预设异构图中每一节点的第二节点特征；

第二确定子单元，用于根据预设异构图中视频节点对应的第二节点特征确定每一候选视频的视频图特征；

第一获取子单元，用于获取与查询文本关联的预设数量个第一标签数据；

第三确定子单元，用于根据预设异构图中与第一标签数据对应的标签节点的第二节点特征确定查询文本对应的查询图特征。

在一些实施例中，本申请提供的视频查询装置还包括：

第二获取子单元，用于获取历史查询数据，历史查询数据包括历史查询文本和与历史查询文本对应的视频数据；

构建子单元，用于基于历史查询文本、候选视频库以及标签数据库构建异构图，得到预设异构图；

训练子单元，用于基于预设异构图训练神经网络模型，得到预设的图神经网络模型。

在一些实施例中，构建子单元，包括：

第一确定模块，用于在标签数据库中确定与每一历史查询文本关联的第二标签数据，并根据第二标签数据确定每一历史查询文本与标签数据之间的关联关系；

在一些实施例中，第一获取子单元，包括：

第一处理模块，用于对查询文本进行词嵌入处理，得到查询文本对应的文本特征；

计算模块，用于计算文本特征与预设异构图中每一标签节点的第一节点特征之间的相似度；

第二确定模块，用于根据相似度确定与查询文本关联的第一标签数据。

在一些实施例中，获取单元，包括：

接收子单元，用于接收查询数据；

清洗子单元，用于对查询数据进行文本清洗，得到查询文本；

提取子单元，用于采用语言表征模型对查询文本进行语义特征提取，得到查询语义特征。

在一些实施例中，第一提取单元，包括：

编码子单元，用于对帧序列中的每一帧图像进行图像编码，得到每一候选视频对应的图像特征序列；

在一些实施例中，融合单元，包括：

第四获取子单元，用于获取查询语义特征对应的第一权重以及查询图特征对应的第二权重；

第二处理子单元，用于根据第一权重以及第二权重对查询语义特征和查询图特征进行加权处理，得到查询特征；

第三处理子单元，用于根据第三权重和第四权重对每一候选视频的视频语义特征和视频图特征进行加权处理，得到每一候选视频的视频特征。

在一些实施例中，第四获取子单元，包括：

第一拼接模块，用于将查询语义特征和查询图特征进行拼接，得到第一拼接特征；

第二处理模块，用于采用预设的前馈神经网络对第一拼接特征进行处理，得到第一权重特征；

第三确定模块，用于根据第一权重特征确定查询语义特征对应的第一权重以及查询图特征对应的第二权重。

在一些实施例中，第五获取子单元，包括：

第三处理模块，用于采用预设的前馈神经网络对第二拼接特征进行处理，得到每一候选视频的第二权重特征；

第四确定模块，用于根据第二权重特征确定每一候选视频的视频语义特征对应的第三权重以及每一候选视频的视频图特征对应的第四权重。

在一些实施例中，确定单元，包括：

计算子单元，用于计算每一候选视频的视频特征与查询特征的相似度，得到每一候选视频的评分；

第四确定子单元，用于基于评分由高至低的顺序对候选视频进行排序，并确定排序在前的预设数量个视频为查询文本对应的目标视频。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

根据上述描述可知，本申请实施例提供的视频查询装置，通过获取单元301获取查询文本，并对查询文本进行语义特征提取，得到查询语义特征；第一提取单元302对候选视频库中的每一候选视频进行语义特征提取，得到每一候选视频的视频语义特征；第二提取单元303基于预设的图神经网络模型对查询文本以及每一候选视频进行图特征提取，得到查询图特征以及每一候选视频的视频图特征；融合单元304融合查询语义特征与查询图特征得到查询特征，以及融合每一候选视频的视频语义特征与视频图特征得到每一候选视频的视频特征；确定单元305根据每一候选视频的视频特征与查询特征计算每一候选视频的评分，并基于每一候选视频的评分确定查询文本对应的目标视频。

本申请实施例还提供一种计算机设备，该计算机设备可以为终端或服务器，如图8所示，为本申请提供的计算机设备的结构示意图。具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理单元401、一个或一个以上存储介质的存储单元402、电源模块403和输入模块404等部件。本领域技术人员可以理解，图7中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理单元401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储单元402内的软件程序和/或模块，以及调用存储在存储单元402内的数据，执行计算机设备的各种功能和处理数据。可选的，处理单元401可包括一个或多个处理核心；优选的，处理单元401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理单元401中。

存储单元402可用于存储软件程序以及模块，处理单元401通过运行存储在存储单元402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储单元402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能以及网页访问等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储单元402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储单元402还可以包括存储器控制器，以提供处理单元401对存储单元402的访问。

计算机设备还包括给各个部件供电的电源模块403，优选的，电源模块403可以通过电源管理系统与处理单元401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源模块403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入模块404，该输入模块404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理单元401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储单元402中，并由处理单元401来运行存储在存储单元402中的应用程序，从而实现各种功能，如下：

获取查询文本，并对查询文本进行语义特征提取，得到查询语义特征；对候选视频库中的每一候选视频进行语义特征提取，得到每一候选视频的视频语义特征；基于预设的图神经网络模型对查询文本以及每一候选视频进行图特征提取，得到查询图特征以及每一候选视频的视频图特征；融合查询语义特征与查询图特征得到查询特征，以及融合每一候选视频的视频语义特征与视频图特征得到每一候选视频的视频特征；根据每一候选视频的视频特征与查询特征计算每一候选视频的评分，并基于每一候选视频的评分确定查询文本对应的目标视频。

应当说明的是，本申请实施例提供的计算机设备与上文实施例中的方法属于同一构思，以上各个操作的具体实施可参见前面的实施例，在此不作赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，RanDOM Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本发明实施例所提供的任一种方法中的步骤，因此，可以实现本发明实施例所提供的任一种方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

其中，根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频查询方法中各种可选实现方式中提供的方法。

以上对本发明实施例所提供的视频查询方法、装置、计算机设备及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频查询方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于预设的图神经网络模型对所述查询文本以及每一候选视频进行图特征提取，得到查询图特征以及每一候选视频的视频图特征，包括：

确定预设异构图中每一节点的第一节点特征，所述预设异构图包含视频节点、标签节点以及查询节点；

将所述预设异构图以及所述预设异构图中每一节点的第一节点特征输入至预设的图神经网络模型中，学习得到所述预设异构图中每一节点的第二节点特征；

根据所述预设异构图中视频节点对应的第二节点特征确定每一候选视频的视频图特征；

获取与所述查询文本关联的预设数量个第一标签数据；

根据所述预设异构图中与所述第一标签数据对应的标签节点的第二节点特征确定所述查询文本对应的查询图特征。

3.根据权利要求2所述的方法，其特征在于，所述将所述预设异构图以及所述预设异构图中每一节点的第一节点特征输入至预设的图神经网络模型中，学习得到所述预设异构图中每一节点的第二节点特征之前，还包括：

获取历史查询数据，所述历史查询数据包括历史查询文本和与所述历史查询文本对应的视频数据；

获取每一视频数据的标签数据，得到标签数据库；

基于所述历史查询文本、所述候选视频库以及所述标签数据库构建异构图，得到预设异构图；

基于所述预设异构图训练神经网络模型，得到预设的图神经网络模型。

4.根据权利要求3所述的方法，其特征在于，所述基于所述历史查询文本、所述候选视频库以及所述标签数据库构建异构图，包括：

在所述标签数据库中确定与每一历史查询文本关联的第二标签数据，并根据所述第二标签数据确定每一历史查询文本与标签数据之间的关联关系；

以每一历史查询数据、每一标签数据以及每一视频数据为节点，以历史查询数据与标签数据之间的关联关系、历史查询数据与视频数据之间的关联关系以及视频数据与标签数据之间的关联关系为边构建异构图。

5.根据权利要求2所述的方法，其特征在于，所述获取与所述查询文本关联的预设数量个第一标签数据，包括：

对所述查询文本进行词嵌入处理，得到所述查询文本对应的文本特征；

计算所述文本特征与所述预设异构图中每一标签节点的第一节点特征之间的相似度；

根据所述相似度确定与所述查询文本关联的第一标签数据。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述获取查询文本，并对所述查询文本进行语义特征提取，得到查询语义特征，包括：

接收查询数据；

对所述查询数据进行文本清洗，得到查询文本；

采用语言表征模型对所述查询文本进行语义特征提取，得到查询语义特征。

7.根据权利要求1至5中任一项所述的方法，其特征在于，所述对候选视频库中的每一候选视频进行语义特征提取，得到每一候选视频的视频语义特征，包括：

对候选视频库中每一候选视频进行帧采样，得到每一候选视频对应的帧序列；

对所述帧序列中的每一帧图像进行图像编码，得到每一候选视频对应的图像特征序列；

对每一候选视频的标签数据进行词嵌入处理，得到每一候选视频的标签特征；

对每一候选视频的图像特征序列和标签特征进行融合处理，得到每一候选视频的视频语义特征。

8.根据权利要求1至5中任一项所述的方法，其特征在于，所述融合所述查询语义特征与所述查询图特征得到查询特征，以及融合每一候选视频的视频语义特征与视频图特征得到每一候选视频的视频特征，包括：

获取所述查询语义特征对应的第一权重以及所述查询图特征对应的第二权重；

根据所述第一权重以及所述第二权重对所述查询语义特征和所述查询图特征进行加权处理，得到查询特征；

获取每一候选视频的视频语义特征对应的第三权重以及每一候选视频的视频图特征对应的第四权重；

根据所述第三权重和所述第四权重对每一候选视频的视频语义特征和视频图特征进行加权处理，得到每一候选视频的视频特征。

9.根据权利要求8所述的方法，其特征在于，所述获取所述查询语义特征对应的第一权重以及所述查询图特征对应的第二权重，包括：

将所述查询语义特征和所述查询图特征进行拼接，得到第一拼接特征；

采用预设的前馈神经网络对所述第一拼接特征进行处理，得到第一权重特征；

根据所述第一权重特征确定所述查询语义特征对应的第一权重以及所述查询图特征对应的第二权重。

10.根据权利要求9所述的方法，其特征在于，所述获取每一候选视频的视频语义特征对应的第三权重以及每一候选视频的视频图特征对应的第四权重，包括：

将每一候选视频的视频语义特征和视频图特征进行拼接，得到每一候选视频的第二拼接特征；

采用所述预设的前馈神经网络对所述第二拼接特征进行处理，得到每一候选视频的第二权重特征；

根据所述第二权重特征确定每一候选视频的视频语义特征对应的第三权重以及每一候选视频的视频图特征对应的第四权重。

11.根据权利要求1所述的方法，其特征在于，所述根据每一候选视频的视频特征与所述查询特征计算每一候选视频的评分，并基于每一候选视频的评分确定所述查询文本对应的目标视频，包括：

计算每一候选视频的视频特征与所述查询特征的相似度，得到每一候选视频的评分；

基于评分由高至低的顺序对候选视频进行排序，并确定排序在前的预设数量个视频为所述查询文本对应的目标视频。

12.一种视频查询装置，其特征在于，所述装置包括：

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至11中任一项所述的视频查询方法中的步骤。

14.一种计算机设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的视频查询方法中的步骤。