CN114880517A

CN114880517A - 用于视频检索的方法及装置

Info

Publication number: CN114880517A
Application number: CN202210592045.7A
Authority: CN
Inventors: 暨凯祥; 冯力国; 王剑; 陈景东; 刘家佳; 孙丝雨; 洪炜翔; 胡圻圻; 乔智; 曾小英
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-08-09
Also published as: US20230385336A1

Abstract

本说明书实施例提供了用于视频检索的方法及装置。在该方法中，获取待匹配视频中的视频帧图像；从视频帧图像中提取图像特征以及文本特征；根据用于表征聚类中心的中心变量对图像特征和所述文本特征进行特征融合，以得到融合特征，其中，中心变量用于将属于同一视频的不同模态的特征进行关联；以及根据融合特征在视频数据库中进行视频检索，以确定出视频数据库中与待匹配视频相匹配的视频，其中，视频数据库中存储有多个视频以及每个视频对应的视频特征。

Description

用于视频检索的方法及装置

技术领域

本说明书实施例涉及人工智能技术领域，具体地，涉及用于视频检索的方法及装置。

背景技术

视频由多帧图像所构成，每帧图像中都可以包含多种信息，比如，图像信息、文字信息等。在很多应用场景中，都有存储视频的需求，比如，在针对商户的业务推广作业场景中，在业务推广过程中需要对商户场景进行拍摄，以便于通过所拍摄的视频来对作业过程进行还原，并以此来判断作业的真实性。在存储的视频数量较多的情况下，难免会存在重复的视频，因此，需要对数据库中的视频进行检索，以确认是否存在重复的视频。

目前，广泛应用的一种视频检索方法是从视频中提取视频帧图像，利用视频帧图像中的图像信息在数据库存储的视频中进行检索，若数据库中的视频包含的图像信息与所提取的图像信息相匹配，则可以认为该两个视频是重复视频。比如，待存储的视频中的商户门头与已存储的一个视频中的商户门头相匹配，则可以认为该两个视频都是针对该商户的视频，从而该两个视频是重复视频。

发明内容

鉴于上述，本说明书实施例提供了用于视频检索的方法及装置。通过本说明书实施例，能够利用两种不同模态的特征来进行视频检索，提高了视频检索的准确率。此外，通过中心变量将属于同一视频的不同模态的图像特征和文本特征进行关联，增强了图像特征与文本特征之间的关联性，使得融合特征能够体现出图像特征与文本特征之间的关联性特征，从而基于融合特征所体现出的图像特征、文本特征以及两者之间的关联性特征来进行视频检索，能够提高视频检索的准确率。

根据本说明书实施例的一个方面，提供了一种用于视频检索的方法，包括：获取待匹配视频中的视频帧图像；从所述视频帧图像中提取图像特征以及文本特征；根据用于表征聚类中心的中心变量对所述图像特征和所述文本特征进行特征融合，以得到融合特征，其中，所述中心变量用于将属于同一视频的不同模态的特征进行关联；以及根据所述融合特征在视频数据库中进行视频检索，以确定出所述视频数据库中与所述待匹配视频相匹配的视频，其中，所述视频数据库中存储有多个视频以及每个视频对应的视频特征。

根据本说明书实施例的另一方面，还提供一种用于视频检索的装置，包括：图像获取单元，获取待匹配视频中的视频帧图像；特征提取单元，从所述视频帧图像中提取图像特征以及文本特征；特征融合单元，根据用于表征聚类中心的中心变量对所述图像特征和所述文本特征进行特征融合，以得到融合特征，其中，所述中心变量用于将属于同一视频的不同模态的特征进行关联；以及视频检索单元，根据所述融合特征在视频数据库中进行视频检索，以确定出所述视频数据库中与所述待匹配视频相匹配的视频，其中，所述视频数据库中存储有多个视频以及每个视频对应的视频特征。

根据本说明书实施例的另一方面，还提供一种电子设备，包括：至少一个处理器，与所述至少一个处理器耦合的存储器，以及存储在所述存储器上的计算机程序，所述至少一个处理器执行所述计算机程序来实现如上述任一所述的用于视频检索的方法。

根据本说明书实施例的另一方面，还提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的用于视频检索的方法。

根据本说明书实施例的另一方面，还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上任一所述的用于视频检索的方法。

附图说明

通过参照下面的附图，可以实现对于本说明书实施例内容的本质和优点的进一步理解。在附图中，类似组件或特征可以具有相同的附图标记。

图1示出了根据本说明书实施例提供的用于视频检索的方法的一个示例的流程图。

图2示出了根据本说明书实施例的特征融合的一个示例的流程图。

图3示出了根据本说明书实施例的对图像特征和文本特征进行特征对齐的一个示例的流程图。

图4示出了根据本说明书实施例的根据中心变量对图像特征和文本特征进行特征融合的过程的示意图。

图5示出了根据本说明书实施例提供的视频检索装置的一个示例的方框图。

图6示出了本说明书实施例的用于实现视频检索方法的电子设备的方框图。

具体实施方式

以下将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书实施例内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。另外，相对一些示例所描述的特征在其它例子中也可以进行组合。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义，无论是明确的还是隐含的。除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

然而，目前所使用的视频检索方法中仅使用一种模态(即，图像特征)来进行视频检索，一种模态所体现出的信息量有限，利用有限的信息量进行视频检索时会导致检索结果的准确度不高。

鉴于上述，本说明书实施例提供了用于视频检索的方法及装置。在该方法中，获取待匹配视频中的视频帧图像；从视频帧图像中提取图像特征以及文本特征；根据用于表征聚类中心的中心变量对图像特征和文本特征进行特征融合，以得到融合特征，其中，中心变量用于将属于同一视频的不同模态的特征进行关联；以及根据融合特征在视频数据库中进行视频检索，以确定出视频数据库中与待匹配视频相匹配的视频，其中，视频数据库中存储有多个视频以及每个视频对应的视频特征。通过本说明书实施例，能够利用两种不同模态的特征来进行视频检索，提高了视频检索的准确率。此外，通过中心变量将属于同一视频的不同模态的图像特征和文本特征进行关联，增强了图像特征与文本特征之间的关联性，使得融合特征能够体现出图像特征与文本特征之间的关联性特征，从而基于融合特征所体现出的图像特征、文本特征以及两者之间的关联性特征来进行视频检索，能够提高视频检索的准确率。

下面结合附图对本说明书实施例提供的用于视频检索的方法及装置进行详细说明。

图1示出了根据本说明书实施例提供的用于视频检索的方法的一个示例100的流程图。

如图1所示，在110，可以获取待匹配视频中的视频帧图像。

在本说明书实施例中，待匹配视频是被用来与视频数据库中的视频进行匹配的视频。在一个示例中，待匹配视频可以是待存储至视频数据库中的视频，在存储之前，可以根据该待匹配视频对视频数据库中的视频进行检索，以确定视频数据库中是否存在与待匹配视频相同或相似的视频。若不存在，则可以将该待匹配视频存储至视频数据库中；若存在，则不能将该待匹配视频存储至视频数据库中。

在一个示例中，待匹配视频可以是新采集的视频，通过本说明书实施例提供的方案，以确定新采集的待匹配视频与视频数据库中的视频是否匹配。在匹配的情况下，可以确定该待匹配视频是重复视频，则可以将该待匹配视频舍弃；在不匹配的情况下，可以将该待匹配视频存储至视频数据库中。

在一种应用场景中，针对业务推广作业，为了便于对作业过程还原以及证明作业的真实性，可以对作业过程进行拍摄，以生成作业场景视频。在一个示例中，待匹配视频是业务推广作业时的商户场景视频。当待匹配视频与视频数据库中的视频匹配时，则可以确定该待匹配视频与相匹配的视频均是针对同一商户的作业场景视频。

在一个示例中，所推广的业务是码业务，包括支付码、红包码等。业务推广人向商户推广码业务，在推广成功后可以给予该业务推广人返利。为了避免业务推广造假，需要通过视频对业务推广过程进行认证。所生成的视频即为本说明书中的待匹配视频，当所生成的视频与视频数据库中的视频匹配时，可以确定该两个视频是针对同一商户进行码业务推广的视频，从而，进一步地可以确定生成的视频所反映的码业务推广作业存在重复或造假的可能性，因此无需对此次的码业务推广作业进行返利。

在本说明书实施例中，所获取的视频帧图像可以是待匹配视频中的每个视频帧图像，即，可以对待匹配视频中的每个视频帧图像按照本说明书实施例的方法进行处理，从而可以根据待匹配视频中的每个视频帧图像进行视频检索。

在一个示例中，可以对待匹配视频包括的多个视频帧图像进行采样，将采样得到的视频帧图像作为所获取的视频帧图像。在该示例中，采样的方式可以包括随机采样、间隔指定数量的视频帧图像采样等。通过采样处理，仅需对待匹配视频中的部分视频帧图像进行处理，减少了针对待匹配视频的处理量。

在120，可以从视频帧图像中提取图像特征以及文本特征。

在本说明书实施例中，提取的图像特征和文本特征属于同一视频帧图像。在一个示例中，可以通过训练机器学习模型，以使得该机器学习模型可以对输入的图像同时提取该图像中的图像特征以及文本特征。从而，可以使用该机器学习模型来对视频帧图像进行图像特征以及文本特征提取。机器学习模型可以是深度学习模型。

在另一个示例中，可以使用两个不同的模型来分别提取图像特征和文本特征。比如，可以使用图像编码器对视频帧图像进行图像特征提取，以得到该视频帧图像的图像特征；可以使用文本编码器对视频帧图像进行文本特征提取，以得到该视频帧图像中的文本特征。图像编码器被训练用于提取图像特征，文本编码器被训练用于提取文本特征。图像编码器可以采用ResNet、VGG、DenseNet等基于卷积的图像分类网络，还可以采用ViT、T2T-ViT等基于Transformer的图像分类网络。文本编码器可以采用Bert、RoBERTa等基于Transformer的网络，还可以采用LSTM、Bi-LSTM等基于RNN的网络。

在一个示例中，针对文本特征提取，在使用文本编码器对视频帧图像进行文本特征提取前，可以对视频帧图像进行预处理，以得到视频帧图像中的文本信息，然后，再使用文本编码器对所得到的文本信息进行文本特征提取。在预处理的一个示例中，可以对视频帧图像进行文本检测，以得到视频帧图像中包含的文本信息，所得到的文本信息可以包括视频帧图像中所呈现出的中文、英文等文字信息。在该示例中，文本检测的方式可以包括机器学习模型的方式，即，经过训练的机器学习模型可以对输入的图像进行检测和识别，并输出所识别出的文本信息。

在该示例中，在文本特征提取之前，从视频帧图像中获取文本信息，这样文本编码器仅需对输入的文本信息进行文本特征提取，提高了文本特征的提取效率。并且，针对文本编码器，相对于从输入的图像中提取文本特征，从输入的文本信息中提取文本特征在确保文本特征的提取精度的前提下，所需的网络结构更简单，从而在文本编码器的训练阶段训练效率更高。

在一个示例中，待匹配视频可以是针对商户场景的视频，商户场景中可以包括商户的门头，门头可以包括商户的招牌。在该示例中，可以对视频帧图像中包括的招牌进行文本检测，以得到招牌中的文本信息。

在上述示例中，通过对招牌进行识别，以确定待匹配视频所针对的商户。在进行视频检索时，若检索出针对同一商户的多个视频时，则可以确定该多个视频重复，从而可以确定存在针对同一商户进行多次业务推广的问题。

在一个示例中，可以使用招牌检测模型对视频帧图像中包括的招牌进行定位检测，以得到招牌显示区域。招牌检测模型可以被训练用于对图像中的招牌进行定位检测，以确定招牌在图像中的位置。招牌检测模型的输入可以包括图像，相应的输出可以是招牌在输入图像中的显示区域。

在得到招牌显示区域后，可以对招牌显示区域进行文本识别，以得到文本信息。在一个示例中，可以通过OCR(optical character recognition)文字识别的方式对招牌显示区域进行文本识别。在另一个示例中，可以使用文字识别模型对招牌显示区域进行文本识别，文字识别模型被训练用于对中文、英文等各种类型的文字进行识别。

在上述示例中，通过对视频帧图像中的招牌定位以得到招牌显示区域，这样仅需对招牌显示区域进行文本识别，无需再对视频帧图像中除招牌显示区域以外的其他区域进行文本识别，减少了文本识别的数据量，提高了文本识别的效率。

在130，根据中心变量对图像特征和文本特征进行特征融合，以得到融合特征。

在本说明书实施例中，所根据的中心变量的数量可以包括多个，比如，中心变量的数量可以是八个。每个中心变量用于表征对应的一个聚类中心，不同中心变量所表征的聚类中心不同。聚类可以通过数据训练得到，每个聚类对应有一个聚类中心，从而对应的中心变量可以通过数据训练得到。每个聚类的聚类中心可以用来表示该聚类所表征的类型特征。

在高维空间中，每个特征可以用一个空间点来表征，属于同一类型的多个特征对应的多个空间点可以形成一个聚类，可以将该聚类的中心作为聚类中心，该聚类中心所在的空间位置即为对应的中心变量所表征的空间位置。在一个示例中，聚类中心对应的中心变量可以通过对聚类包括的各个特征点对应的空间点进行平均得到。

图像特征和文本特征属于不同模态的特征。在高维空间中，不同模态的特征对应的空间点距离较远，空间点之间的距离可以表示对应的特征之间的相关性，距离越近，相关度越高；距离越远，相关度越低。

用于表征聚类中心的中心变量可以用于将属于同一视频的不同模态的特征进行关联，在一个示例中，中心变量可以用于将属于同一视频帧图像中的不同模态的特征进行关联。比如，属于同一视频帧图像的图像特征和文本特征之间具有相关性，则通过中心变量可以将同一视频帧图像的图像特征和文本特征进行关联，从而得到针对该视频帧图像的图像特征和文本特征之间的相关性特征。

图2示出了根据本说明书实施例的特征融合的一个示例200的流程图。

如图2所示，在131，通过中心变量可以对图像特征和文本特征进行特征对齐，以得到特征对齐后的图像特征和文本特征。

在该示例中，可以使用中心变量分别对图像特征和文本特征进行特征对齐，即，将图像特征与中心变量所表征的聚类中心进行特征对齐，将文本特征与中心变量所表征的聚类中心进行特征对齐。这样，图像特征和文本特征均与中心变量所表征的聚类中心对齐，从而实现图像特征与文本特征之间的特征对齐。

图3示出了根据本说明书实施例的对图像特征和文本特征进行特征对齐的一个示例300的流程图。

如图3所示，在131-1，可以使用图像解码器将图像特征以中心变量所表征的聚类中心为基准进行特征对齐，以得到特征对齐后的图像特征。

图像解码器可以由注意力机制网络和前馈神经网络构成，图像解码器中包括的注意力机制网络可以包括一个或多个。例如，每个图像解码器可以包括两个注意力机制网络，其中一个是掩码自注意力机制网络，另一个是自注意力机制网络。

在该示例中，可以将图像特征和中心变量输入至图像解码器中，图像解码器输出与中心变量所表征的聚类中心对齐的图像特征。

在一个示例中，在将图像特征和中心变量输入至图像解码器后，在图像解码器中，可以计算图像特征对应的图像特征向量映射到中心变量所表征的聚类中心的第一距离。当中心变量有多个时，可以分别计算图像特征向量映射到每个中心变量所表征的聚类中心的第一距离，图像特征向量映射到不同聚类中心上的第一距离可以不同。

然后，根据每个第一距离确定图像特征权重，每个第一距离可以对应确定一个图像特征权重。针对每个图像特征，可以得到与中心变量的数量N相同的第一距离，从而可以相应地得到N个图像特征权重。在计算图像特征权重时，可以对所得到的图像特征权重进行归一化处理，以使得所得到的各个图像特征权重之和等于1。

接着，根据所得到的图像特征权重和图像特征得到特征对齐后的图像特征。具体地，可以将图像特征权重乘以图像特征对应的图像特征向量，所得到的图像特征向量所表示的图像特征是特征对齐后的图像特征。

例如，可以通过以下公式来表示图像特征的特征对齐过程：

其中，Z_C表示特征对齐后的图像特征，Q_C表示输入图像解码器的中心变量，E表示输入图像解码器的图像特征，W_Q、W_K和W_V表示图像解码器中的参数，W_Q、W_K和W_V是矩阵，

表示常数，softmax用于对图像特征向量进行归一化处理。

在131-3，可以使用文本解码器将文本特征以中心变量所表征的聚类中心为基准进行特征对齐，以得到特征对齐后的文本特征。

文本解码器可以由注意力机制网络和前馈神经网络构成，文本解码器中包括的注意力机制网络可以包括一个或多个。例如，每个文本解码器可以包括两个注意力机制网络，其中一个是掩码自注意力机制网络，另一个是自注意力机制网络。

在该示例中，可以将文本特征和中心变量输入至文本解码器中，文本解码器输出与中心变量所表征的聚类中心对齐的文本特征。文本解码器可以与图像解码器之间参数共享。在一个示例中，文本解码器与图像解码器可以是两个独立的解码器，还可以是同一个解码器。

在一个示例中，在将文本特征和中心变量输入至文本解码器后，在文本解码器中，可以计算文本特征对应的文本特征向量映射到中心变量所表征的聚类中心的第二距离。当中心变量有多个时，可以分别计算文本特征向量映射到每个中心变量所表征的聚类中心的第二距离，文本特征向量映射到不同聚类中心上的第二距离可以不同。

然后，根据每个第二距离确定文本特征权重，每个第二距离可以对应确定一个文本特征权重。针对每个文本特征，可以得到与中心变量的数量N相同的第二距离，从而可以相应地得到N个文本特征权重。在计算文本特征权重时，可以对所得到的文本特征权重进行归一化处理，以使得所得到的各个文本特征权重之和等于1。

接着，根据所得到的文本特征权重和文本特征得到特征对齐后的文本特征。具体地，可以将文本特征权重乘以文本特征对应的文本特征向量，所得到的文本特征向量所表示的文本特征是特征对齐后的文本特征。

例如，可以通过上述公式来表示文本特征的特征对齐过程，此时，上述公式中的Z_C表示特征对齐后的文本特征，Qc表示输入文本解码器的中心变量，E表示输入文本解码器的文本特征，W_Q、W_K和W_V表示文本解码器中的参数，W_Q、W_K和W_V是矩阵，

表示常数，softmax用于对文本特征向量进行归一化处理。

需要说明的是，可以不限定131-1和131-3的操作执行顺序。可以如图3所示先执行131-1的操作，再执行131-3的操作；还可以先执行131-3的操作，再执行131-1的操作；还可以同时执行131-1和131-3的操作。

回到图2，在133，可以将特征对齐后的图像特征和文本特征进行特征融合，以得到融合特征。

在经过特征对齐后的图像特征和文本特征之间具有关联性，从而在将图像特征和文本特征进行特征融合后，所得到融合特征，不仅包括图像特征和文本特征，还包括图像特征和文本特征之间的关联性特征。

图4示出了根据本说明书实施例的根据中心变量对图像特征和文本特征进行特征融合的过程的示意图。如图4所示，图像编码器和文本编码器分别输出针对视频帧图像的图像特征和文本特征。图像特征和中心变量一起输入给图像解码器，以对图像特征进行特征对齐处理，图像解码器得到特征对齐后的图像特征。文本特征和中心变量一起输入给文本解码器，以对文本特征进行特征对齐处理，文本解码器得到特征对齐后的文本特征。然后，经过特征对齐后的图像特征和文本特征输入至特征融合装置，特征融合装置用于将输入的特征进行特征融合处理，特征融合装置输出包括图像特征、文本特征以及图像特征与文本特征之间的关联性特征的融合特征。

回到图1，在140，根据融合特征在视频数据库中进行视频检索，以确定出视频数据库中与待匹配视频相匹配的视频。

在本说明书实施例中，视频数据库中存储有多个视频以及每个视频对应的视频特征。在商户场景视频的应用场景中，视频数据库中存储各个商户场景视频，不同视频所针对的商户不同。在该示例中，相匹配的两个视频可以认为是针对同一商户的视频，不匹配的两个视频则可以认为是针对不同商户的两个视频。

可以将待匹配视频的融合特征分别与视频数据库中各个视频对应的视频特征进行比较，以确定特征之间的相似度。当相似度较高时，比如，相似度大于相似度阈值时，可以认为所比较的两个视频相匹配。当相似度较低时，比如，相似度不大于相似度阈值时，可以认为所比较的两个视频不匹配。

在本说明书实施例中，两个特征之间的相似度可以用夹角余弦、皮尔逊相关系数、特征向量之间的距离等方式来表示，其中，特征向量之间的距离可以包括明氏距离、欧式距离、马氏距离、汉明距离、切比雪夫距离等。

在一个示例中，待匹配视频是业务推广作业时的商户场景视频，视频数据库中存储已完成业务推广的各个商户的视频。在该示例中，在从视频数据库中确定出与待匹配视频相匹配的视频时，可以确定待匹配视频中的商户是已完成业务推广的商户，从而不会将该待匹配视频存储至视频数据库中。在根据业务推广进行返利的应用场景中，可以确定该待匹配视频中的业务推广作业涉嫌造假或者重复作业，从而不会为该次业务推广作业进行返利。

图5示出了根据本说明书实施例提供的视频检索装置500的一个示例的方框图。

如图5所示，视频检索装置500包括：图像获取单元510、特征提取单元520、特征融合单元530以及视频检索单元540。

图像获取单元510，可以被配置为获取待匹配视频中的视频帧图像。

特征提取单元520，可以被配置为从视频帧图像中提取图像特征以及文本特征。

在一个示例中，特征提取单元520包括图像编码器、文本检测模块以及文本编码器。

图像编码器可以被配置为：对视频帧图像进行图像特征提取，以得到视频帧图像的图像特征。文本检测模块可以被配置为：对视频帧图像进行文本检测，以得到视频帧图像中包含的文本信息。文本编码器可以被配置为：对文本信息进行文本特征提取，以得到文本信息对应的文本特征。

在一个示例中，文本检测模块可以被配置为：对视频帧图像中包括的招牌进行文本检测，以得到招牌中的文本信息。

在一个示例中，文本检测模块可以被配置为：使用招牌检测模型对视频帧图像中包括的招牌进行定位检测，以得到招牌显示区域；以及对招牌显示区域进行文本识别，以得到文本信息。

特征融合单元530，可以被配置为根据用于表征聚类中心的中心变量对图像特征和文本特征进行特征融合，以得到融合特征，其中，中心变量用于将属于同一视频的不同模态的特征进行关联。

在一个示例中，特征融合单元530可以包括：特征对齐模块和特征融合模块。

特征对齐模块可以被配置为：通过中心变量对图像特征和文本特征进行特征对齐，以得到特征对齐后的图像特征和文本特征。特征融合模块可以被配置为：将特征对齐后的图像特征和文本特征进行特征融合，以得到融合特征。

在一个示例中，特征对齐模块包括图像解码器和文本解码器。图像解码器可以被配置为：将图像特征以中心变量所表征的聚类中心为基准进行特征对齐，以得到特征对齐后的图像特征。文本解码器可以被配置为：将文本特征以中心变量所表征的聚类中心为基准进行特征对齐，以得到特征对齐后的文本特征，其中，文本解码器与图像解码器之间参数共享。

在一个示例中，图像解码器还可以被配置为：使用图像解码器计算图像特征对应的图像特征向量映射到中心变量所表征的聚类中心的第一距离；根据第一距离确定图像特征权重；以及根据图像特征权重和图像特征得到特征对齐后的图像特征。

在一个示例中，文本解码器还可以被配置为：使用文本解码器计算文本特征对应的文本特征向量映射到中心变量所表征的聚类中心的第二距离；根据第二距离确定文本特征权重；以及根据文本特征权重和文本特征得到特征对齐后的文本特征。

视频检索单元540，可以被配置为根据融合特征在视频数据库中进行视频检索，以确定出视频数据库中与待匹配视频相匹配的视频，其中，视频数据库中存储有多个视频以及每个视频对应的视频特征。

以上参照图1到图5，对根据本说明书实施例的用于视频检索的方法及装置的实施例进行了描述。

本说明书实施例的用于视频检索的装置可以采用硬件实现，也可以采用软件或者硬件和软件的组合来实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在设备的处理器将存储器中对应的计算机程序指令读取到内存中运行形成的。在本说明书实施例中，用于视频检索的装置例如可以利用电子设备实现。

图6示出了本说明书实施例的用于实现视频检索方法的电子设备600的方框图。

如图6所示，电子设备600可以包括至少一个处理器610、存储器(例如，非易失性存储器)620、内存630和通信接口640，并且至少一个处理器610、存储器620、内存630和通信接口640经由总线650连接在一起。至少一个处理器610执行在存储器中存储或编码的至少一个计算机可读指令(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器中存储计算机可执行指令，其当执行时使得至少一个处理器610：获取待匹配视频中的视频帧图像；从视频帧图像中提取图像特征以及文本特征；根据用于表征聚类中心的中心变量对图像特征和文本特征进行特征融合，以得到融合特征，其中，中心变量用于将属于同一视频的不同模态的特征进行关联；以及根据融合特征在视频数据库中进行视频检索，以确定出视频数据库中与待匹配视频相匹配的视频，其中，视频数据库中存储有多个视频以及每个视频对应的视频特征。

应该理解，在存储器中存储的计算机可执行指令当执行时使得至少一个处理器610进行本说明书的各个实施例中以上结合图1-5描述的各种操作和功能。

根据一个实施例，提供了一种例如机器可读介质的程序产品。机器可读介质可以具有指令(即，上述以软件形式实现的元素)，该指令当被机器执行时，使得机器执行本说明书的各个实施例中以上结合图1-5描述的各种操作和功能。

具体地，可以提供配有可读存储介质的系统或者装置，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。

本说明书各部分操作所需的计算机程序代码可以用任意一种或多种程序语言编写，包括面向对象编程语言，如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB、NET以及Python等，常规程序化编程语言如C语言、Visual Basic 2003、Perl、COBOL 2002、PHP以及ABAP，动态编程语言如Python、Ruby和Groovy，或者其他编程语言等。该程序编码可以在用户计算机上运行，或者作为独立的软件包在用户计算机上运行，或者部分在用户计算机上运行另一部分在远程计算机运行，或者全部在远程计算机或服务器上运行。在后一种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或者在云计算环境中，或者作为服务使用，比如软件即服务(SaaS)。

可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上或云上下载程序代码。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

上述各流程和各系统结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的，可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理实体实现，或者，有些单元可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

以上结合附图详细描述了本说明书的实施例的可选实施方式，但是，本说明书的实施例并不限于上述实施方式中的具体细节，在本说明书的实施例的技术构思范围内，可以对本说明书的实施例的技术方案进行多种简单变型，这些简单变型均属于本说明书的实施例的保护范围。

本说明书内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本说明书内容。对于本领域普通技术人员来说，对本说明书内容进行的各种修改是显而易见的，并且，也可以在不脱离本说明书内容的保护范围的情况下，将本文所定义的一般性原理应用于其它变型。因此，本说明书内容并不限于本文所描述的示例和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种用于视频检索的方法，包括：

获取待匹配视频中的视频帧图像；

从所述视频帧图像中提取图像特征以及文本特征；

根据用于表征聚类中心的中心变量对所述图像特征和所述文本特征进行特征融合，以得到融合特征，其中，所述中心变量用于将属于同一视频的不同模态的特征进行关联；以及

根据所述融合特征在视频数据库中进行视频检索，以确定出所述视频数据库中与所述待匹配视频相匹配的视频，其中，所述视频数据库中存储有多个视频以及每个视频对应的视频特征。

2.如权利要求1所述的方法，其中，根据用于表征聚类中心的中心变量对所述图像特征和所述文本特征进行特征融合，以得到融合特征包括：

通过所述中心变量对所述图像特征和所述文本特征进行特征对齐，以得到特征对齐后的图像特征和文本特征；以及

将特征对齐后的图像特征和文本特征进行特征融合，以得到融合特征。

3.如权利要求2所述的方法，其中，通过所述中心变量对所述图像特征和所述文本特征进行特征对齐处理，以得到特征对齐后的图像特征和文本特征包括：

使用图像解码器将所述图像特征以所述中心变量所表征的聚类中心为基准进行特征对齐，以得到特征对齐后的图像特征；以及

使用文本解码器将所述文本特征以所述中心变量所表征的聚类中心为基准进行特征对齐，以得到特征对齐后的文本特征，其中，所述文本解码器与所述图像解码器之间参数共享。

4.如权利要求3所述的方法，其中，使用图像解码器将所述图像特征以所述中心变量所表征的聚类中心为基准进行特征对齐处理，以得到特征对齐后的图像特征包括：

使用图像解码器计算所述图像特征对应的图像特征向量映射到所述中心变量所表征的聚类中心的第一距离；

根据所述第一距离确定图像特征权重；以及

根据所述图像特征权重和所述图像特征得到特征对齐后的图像特征。

5.如权利要求3所述的方法，其中，使用文本解码器将所述文本特征以所述中心变量所表征的聚类中心为基准进行特征对齐处理，以得到特征对齐后的文本特征包括：

使用文本解码器计算所述文本特征对应的文本特征向量映射到所述中心变量所表征的聚类中心的第二距离；

根据所述第二距离确定文本特征权重；以及

根据所述文本特征权重和所述文本特征得到特征对齐后的文本特征。

6.如权利要求1所述的方法，其中，从所述视频帧图像中提取图像特征以及文本特征包括：

使用图像编码器对所述视频帧图像进行图像特征提取，以得到所述视频帧图像的图像特征；

对所述视频帧图像进行文本检测，以得到所述视频帧图像中包含的文本信息；以及

使用文本编码器对所述文本信息进行文本特征提取，以得到所述文本信息对应的文本特征。

7.如权利要求6所述的方法，其中，对所述视频帧图像进行文本检测，以得到所述视频帧图像中包含的文本信息包括：

对所述视频帧图像中包括的招牌进行文本检测，以得到所述招牌中的文本信息。

8.如权利要求7所述的方法，其中，对所述视频帧图像中包括的招牌进行文本检测，以得到所述招牌中的文本信息包括：

使用招牌检测模型对所述视频帧图像中包括的招牌进行定位检测，以得到招牌显示区域；以及

对所述招牌显示区域进行文本识别，以得到文本信息。

9.如权利要求1所述的方法，其中，所述待匹配视频是业务推广作业时的商户场景视频，

所述方法还包括：

在从所述视频数据库中确定出与所述待匹配视频相匹配的视频时，确定所述待匹配视频中的商户是已完成业务推广的商户。

10.一种用于视频检索的装置，包括：

图像获取单元，获取待匹配视频中的视频帧图像；

特征提取单元，从所述视频帧图像中提取图像特征以及文本特征；

特征融合单元，根据用于表征聚类中心的中心变量对所述图像特征和所述文本特征进行特征融合，以得到融合特征，其中，所述中心变量用于将属于同一视频的不同模态的特征进行关联；以及

视频检索单元，根据所述融合特征在视频数据库中进行视频检索，以确定出所述视频数据库中与所述待匹配视频相匹配的视频，其中，所述视频数据库中存储有多个视频以及每个视频对应的视频特征。

11.一种电子设备，包括：至少一个处理器，与所述至少一个处理器耦合的存储器，以及存储在所述存储器上的计算机程序，所述至少一个处理器执行所述计算机程序来实现如权利要求1-9中任一所述的方法。

12.一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-9中任一所述的方法。

13.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1-9中任一所述的方法。