CN116595220A

CN116595220A - 一种图像提取模型构建、图像查询和视频生成方法、装置

Info

Publication number: CN116595220A
Application number: CN202310468982.6A
Authority: CN
Inventors: 林弋刚; 黄崇鹏; 彭小刚
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2023-04-19
Filing date: 2023-04-19
Publication date: 2023-08-15

Abstract

本发明公开了一种图像提取模型构建、图像查询和视频生成方法、装置，所述方法包括获取视频库中的所有视频帧图像；对所有视频帧图像中的每一个视频帧图像进行编码处理，得到第一视频帧图像编码样本集；将所有视频帧图像中的每一个视频帧图像进行数据增强处理，并将增强后的图像进行编码得到第二视频帧图像编码样本集；将第一视频帧图像编码样本集、第二视频帧图像编码样本集输入到预训练的图像提取模型中进行训练，使得图像提取模型可以准确地提取视频帧的特征，提高视频帧图像匹配的准确率。

Description

一种图像提取模型构建、图像查询和视频生成方法、装置

技术领域

本发明涉及视频检索技术领域，具体涉及一种图像提取模型构建、图像查询和视频生成方法、装置。

背景技术

随着计算机技术的发展，大数据的相关技术取得了长足的进步，在信息过载的今天，人们有着各种搜索需求，其中搜索视频片段也成为了一种更迫切的需求，用户经常通过截图来进行视频搜索，但在搜索过程中，若用户输入的截图为剪裁过的视频帧，可能同一像素点被分割到与完整视频帧不同的块中，导致图像块错位，无法提取出正确的特征。故亟待提出一种图像提取模型构建方法，使得图像提取模型可以准确地提取视频帧的特征，提高视频帧图像匹配的准确率。

发明内容

因此，本发明要解决的技术问题在于克服现有无法正确提取视频帧的特征，导致视频帧图像匹配的准确率较低的缺陷，从而提供一种图像提取模型构建、图像查询和视频生成方法、装置。

根据第一方面，本发明实施例公开了一种图像提取模型构建方法，所述方法包括：获取视频库中的所有视频帧图像；对所有视频帧图像中的每一个视频帧图像进行编码处理，得到第一视频帧图像编码样本集；将所有视频帧图像中的每一个视频帧图像进行数据增强处理，并将增强后的图像进行编码得到第二视频帧图像编码样本集；将所述第一视频帧图像编码样本集、第二视频帧图像编码样本集输入到预训练的图像提取模型中进行训练，使得所述第一视频帧图像编码样本集中的每一个目标视频帧图像编码样本与所述第二视频帧图像编码样本集中对应的样本之间的相似度大于所述目标视频帧图像编码样本与所述第二视频帧图像编码样本集中其他样本的相似度。

根据第二方面，本发明实施例还公开了一种图像查询方法，所述方法包括：当接收到用户输入的目标查询图像，将所述目标查询图像进行编码；利用图像提取模型将编码后的目标查询图像数据与预设视频库中的所有视频帧图像数据进行匹配，其中所述图像提取模型为利用第一方面实施例所述的图像提取模型构建方法构建得到的；根据匹配结果确定所述预设数据库中满足要求的视频帧图像。

根据第三方面，本发明实施例还公开了一种视频生成方法，所述方法包括：当接收到用户输入的目标查询图像中包含文本信息，将所述目标查询图像中包含的文本信息与视频库中包含的文本信息进行匹配得到满足要求的多个目标文本信息；将所述多个目标文本信息对应的时间戳与多个目标视频帧图像对应的时间戳进行时间一致性比对，其中所述多个目标视频帧图像为利用第二方面实施例所述的图像查询方法查询得到；将满足时间一致性要求的目标文本信息与对应的目标视频帧图像进行组合，并生成视频反馈至用户端。

可选地，所述视频库中包含的文本信息通过下述步骤得到：分离出视频库中的所有视频的音轨信息；对所述音轨信息进行语音识别提取文本信息。

根据第四方面，本发明实施例还公开了一种图像提取模型构建装置，视频帧图像获取模块，用于获取视频库中的所有视频帧图像；第一图像编码模块，用于对所有视频帧图像中的每一个视频帧图像进行编码处理，得到第一视频帧图像编码样本集；第二图像编码模块，用于将所有视频帧图像中的每一个视频帧图像进行数据增强处理，并将增强后的图像进行编码得到第二视频帧图像编码样本集；模型训练模块，用于将所述第一视频帧图像编码样本集、第二视频帧图像编码样本集输入到预训练的图像提取模型中进行训练，使得所述第一视频帧图像编码样本集中的每一个目标视频帧图像编码样本与所述第二视频帧图像编码样本集中对应的样本之间的相似度大于所述目标视频帧图像编码样本与所述第二视频帧图像编码样本集中其他样本的相似度。

根据第五方面，本发明实施例还公开了一种图像查询装置，所述装置包括：查询图像编码模块，用于当接收到用户输入的目标查询图像，将所述目标查询图像进行编码；数据匹配模块，用于利用图像提取模型将编码后的目标查询图像数据与预设视频库中的所有视频帧图像数据进行匹配，其中所述图像提取模型为利用上述第一方面实施例的图像提取模型构建方法构建得到的；视频帧图像确定模块，用于根据匹配结果确定所述预设数据库中满足要求的视频帧图像。

根据第六方面，本发明实施例还公开了一种视频生成装置，所述装置包括：文本信息匹配模块，用于当接收到用户输入的目标查询图像中包含文本信息，将所述目标查询图像中包含的文本信息与视频库中包含的文本信息进行匹配得到满足要求的多个目标文本信息；时间比对模块，用于将所述多个目标文本信息对应的时间戳与多个目标视频帧图像对应的时间戳进行时间一致性比对，其中所述多个目标视频帧图像为利用上述第二方面实施例所述的图像查询方法查询得到；视频生成模块，用于将满足时间一致性要求的目标文本信息与对应的目标视频帧图像进行组合，并生成视频反馈至用户端。

根据第七方面，本发明实施例还公开了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如第一方面所述的图像提取模型构建方法的步骤或第二方面所述的图像查询方法的步骤或第三方面或第三方面任一可选实施方式所述的视频生成方法的步骤。

根据第八方面，本发明实施方式还公开了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的图像提取模型构建方法的步骤或第二方面所述的图像查询方法的步骤或第三方面或第三方面任一可选实施方式所述的视频生成方法的步骤。

本发明技术方案，具有如下优点：

本发明提供的图像提取模型构建方法，通过将每一个视频帧图像进行编码处理得到第一视频帧图像编码样本集，将每一个视频帧图像进行数据增强处理后进行编码得到第二视频帧图像编码样本集，将第一视频帧图像编码样本集和第二视频帧图像编码样本集输入到图像提取模型中进行训练，使得所述第一视频帧图像编码样本集中的每一个目标视频帧图像编码样本与所述第二视频帧图像编码样本集中对应的样本之间的相似度大于所述目标视频帧图像编码样本与所述第二视频帧图像编码样本集中其他样本的相似度，使得构建得到的图像提取模型可以准确地提取视频帧的特征，继而可以提高视频帧图像匹配的准确率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中图像提取模型构建方法的一个具体示例的流程图；

图2为本发明实施例中图像查询方法的一个具体示例的流程图；

图3为本发明实施例中视频生成方法的一个具体示例的流程图；

图4为本发明实施例中图像提取模型构建装置的一个具体示例的原理框图；

图5为本发明实施例中图像查询装置的一个具体示例的原理框图；

图6为本发明实施例中视频生成装置的一个具体示例的原理框图；

图7为本发明实施例中电子设备的一个具体示例图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明实施例公开了一种图像提取模型构建方法，如图1所示，该方法包括如下步骤：

步骤S101，获取视频库中的所有视频帧图像；示例性地，视频库可以是包含待检索场景下所有类型的视频，本申请实施例中使用FFmpeg计算机程序的视频截图功能将视频库中的视频生成一系列的视频帧图像，仅作为举例。

步骤S102，对所有视频帧图像中的每一个视频帧图像进行编码处理，得到第一视频帧图像编码样本集；

示例性地，本申请实施例对步骤S101获取的所有视频帧图像进行编码处理，得到第一视频帧图像编码样本集，本申请实施例对编码处理方式不作限定，本领域技术人员可以根据实际需要确定。具体实施例中，构造查询编码器，对于所有视频帧图像中的任一视频帧图像A，将其作为样本，将该样本进行编码后得到query(A)，仅作为举例。

步骤S103，将所有视频帧图像中的每一个视频帧图像进行数据增强处理，并将增强后的图像进行编码得到第二视频帧图像编码样本集；

示例性地，本申请实施例中将步骤S101获取的所有视频帧图像进行数据增强处理，比如可以包括对图像进行裁剪、模糊和旋转等操作，仅作为举例，保证即使接收到用户输入的视频帧图像清晰度不高或图像不完整也能够准确地进行图像匹配。将增强后的所有视频帧图像进行编码得到第二视频帧图像编码样本集，具体实施例中将任一视频图像A进行数据增强处理得到样本A′，将剩下的其他样本集合A作为负样本，构造关键字编码器，对A′进行编码得到key(A′)，对负样本A进行编码得到key(A)，仅作为举例。

步骤S104，将所述第一视频帧图像编码样本集、第二视频帧图像编码样本集输入到预训练的图像提取模型中进行训练，使得所述第一视频帧图像编码样本集中的每一个目标视频帧图像编码样本与所述第二视频帧图像编码样本集中对应的样本之间的相似度大于所述目标视频帧图像编码样本与所述第二视频帧图像编码样本集中其他样本的相似度。

示例性地，本申请实施例中将已有的ResNet残差神经网络模型作为预训练的图像提取模型，利用上述步骤得到的第一视频帧图像编码样本集和第二视频帧图像编码样本集，基于MoCo对比学习的方法进行自监督训练，使得第一视频帧图像编码样本集中的每一个目标视频帧图像编码样本与在第二视频帧图像编码样本集中的对应的数据增强后的样本之间的相似度大于所述目标视频帧图像编码样本与所述第二视频帧图像编码样本集中其他样本的相似度，本申请实施例中残差神经网络模型仅作为举例，还可以采用AlexNet模型、VGG模型和Vision Transformer模型等，只要能实现图像提取功能即可，也可以使用SimCLR代替MoCo对图像提取模型进行训练。

具体实施例中，将上述步骤得到的query(A)、key(A)和key(A′)输入到预训练的图像提取模型中进行训练，通过自动更新神经网络模型的参数使得query(A)在向量空间中与key(A′)的欧氏距离尽可能的近，与key(A)的欧式距离尽可能的远，提高图像提取模型的图像提取能力，其中，具体实施例中用欧氏距离来代表目标视频帧图像编码样本与其他样本的相似度，仅作为举例，也可以采用余弦相似度、曼哈顿距离等。

本发明提供的图像提取模型构建方法，通过将每一个视频帧图像进行编码处理得到第一视频帧图像编码样本集，将每一个视频帧图像进行数据增强处理后进行编码得到第二视频帧图像编码样本集，将第一视频帧图像编码样本集和第二视频帧图像编码样本集输入到图像提取模型中进行训练，使得所述第一视频帧图像编码样本集中的每一个目标视频帧图像编码样本与所述第二视频帧图像编码样本集中对应的样本之间的相似度大于所述目标视频帧图像编码样本与所述第二视频帧图像编码样本集中其他样本的相似度。使得构建得到的图像提取模型可以准确地提取视频帧的特征，继而可以提高视频帧图像匹配的准确率。

本发明实施例还公开了一种图像查询方法，如图2所示，该方法包括如下步骤：

步骤S201，当接收到用户输入的目标查询图像，将所述目标查询图像进行编码；示例性地，当接收到用户输入的目标查询图像后，可以利用训练好的图像提取模型或集成的其他编码功能模块对目标查询图像进行特征提取和编码，得到目标查询向量。

步骤S202，利用图像提取模型将编码后的目标查询图像数据与预设视频库中的所有视频帧图像数据进行匹配，其中所述图像提取模型为利用上述实施例所述的图像提取模型构建方法构建得到的；示例性地，本申请实施例可以利用预训练的图像提取模型或其他编码功能模块对视频库中所有的视频帧图像进行特征提取和编码得到每一个视频帧图像对应的特征向量，将生成的所有特征向量存入到向量数据库中，其中向量数据库可以是Qdrant数据库，仅作为举例。利用上述图像提取模型构建得到的图像提取模型将上述步骤S201得到的目标查询向量与向量数据库中的所有特征向量进行匹配，其中，在将生成的所有特征向量存入到向量数据库中时需要保留特征向量到视频信息的映射，可以保证在向量数据库确定的满足要求的视频帧图像可以得到其对应的视频信息，比如视频帧对应的时间戳等。

步骤203，根据匹配结果确定所述预设数据库中满足要求的视频帧图像。示例性地，本申请实施例可以采用图像提取模型快速匹配出向量数据库与目标查询向量最相邻的N1个特征向量，即匹配得到与用户输入的目标查询图像最相邻的视频帧图像，且每一个视频帧图像都有其对应的与目标查询图像相邻评分，比如可以按10分、9分、8分等等依次打分，仅作为举例，其中，本申请实施例中也可以将匹配得到的与用户输入的目标查询图像最相邻的视频帧图像直接输入到视频生成模块，根据视频帧图像对应的时间戳生成视频片段反馈至用户端供用户阅览。

本发明提供的图像查询方法，通过将接收到用户输入的目标查询图像进行编码后利用图像提取模型与视频库中的所有视频帧图像进行匹配，根据匹配结果确定视频库中满足要求的视频帧图像，可以更准确、完整地检索到与目标查询图像最相似的视频帧图像。

本发明实施例还公开了一种视频生成方法，可以应用于视频查询系统，该视频查询系统集成了搜索服务模块，通过该搜索服务模块可以接收用户的视频查询操作，并将查询结果通过用户界面进行显示。如图3所示，该方法包括如下步骤：

步骤S301，当接收到用户输入的目标查询图像中包含文本信息，将所述目标查询图像中包含的文本信息与视频库中包含的文本信息进行匹配得到满足要求的多个目标文本信息；

示例性地，本申请实施例中用户输入的可以是目标查询图像中包括文本信息，需要对目标查询图像中的文本信息进行识别得到文本信息，也可以是用户直接输入与需要查询的目标查询图像对应的文本信息，与视频库中包含的文本信息进行匹配，其中视频库中的文本信息包括台词的字幕文本以及对应的时间戳，将视频库中提取出的文本信息预先存储到台词存储与匹配模块，当接收到用户需要查询的文本信息，基于ElasticSearch倒排索引搜索引擎在台词存储与匹配模块中与视频库中的文本信息进行关键字匹配得到与需要查询的文本信息最相似的N2句文本信息，可以通过设置相似度阈值的方式来获取与需要查询的文本信息最相似的N2句文本信息，匹配得到的N2句文本信息可以根据其与查询文本信息之间的相似度进行排序打分，比如10分、9分、8分等依次打分，仅作为举例。

步骤S302，将所述多个目标文本信息对应的时间戳与多个目标视频帧图像对应的时间戳进行时间一致性比对，其中所述多个目标视频帧图像为利用上述实施例所述的图像查询方法查询得到；示例性地，本申请实施例中将通过上述图像查询方法得到的与目标查询图像最相邻的N1个视频帧图像对应的视频时间戳与上述步骤301得到的N2句文本信息对应的视频时间戳进行时间一致性的比对。其中与目标查询图像最相邻的N1个视频帧图像同样可以通过预设相似度阈值的方式来获取。

步骤S303，将满足时间一致性要求的目标文本信息与对应的目标视频帧图像进行组合，并生成视频反馈至用户端。

示例性地，本申请实施例中若某一视频帧图像对应的视频时间戳与某一文本信息对应的视频时间戳基本一致，将其进行组合。采用加权评分排序的方式，根据视频帧图像和文本信息分别对应的权重进行评分，取前N个组合结果，比如视频帧图像对应的权重为0.5，文本信息对应的权重为0.5，将文本信息和视频帧图像根据时间戳进行组合后得到的组合为某一视频帧图像(评分为8分)和某一文本信息(评分为8分)，可以得到该组合的评分为0.5×8+0.5×8＝8，依次得到所有组合的评分，并根据评分进行排序，将前N个组合结果输入到视频生成模块中，利用FFmpeg计算机程序根据对应的视频时间戳，生成对应的视频片段，并将生成的视频片段反馈至用户端供用户预览。

本发明提供的视频生成方法，通过将接收到的用户输入的文本信息与预先保存的视频库中的文本信息进行匹配得到满足要求的多个目标文本信息，并将目标文本信息对应的时间戳与多个目标视频帧图像对应的时间戳进行时间一致性比对，将满足时间一致性要求的目标文本信息与对应的目标视频帧图像进行组合并生成视频反馈至用户端，结合图像和文本两种方法进行视频片段的检索，能够更好地进行视频检索。

作为本发明一个可选实施方式，所述视频库中包含的文本信息通过下述步骤得到：分离出视频库中的所有视频的音轨信息；对所述音轨信息进行语音识别提取文本信息。示例性地，本申请实施例中使用Python中的moviepy分离出视频库中所有视频的音轨信息，再利用ApiSpeech用语音识别的方式提取音轨信息中的文本信息，并将提取的文本信息存储到台词存储于匹配模块中，可以不再依赖于图像识别或互联网获取文本信息，保证了可以更高效、全覆盖地获取视频库中所有视频对应的文本信息，适用性更广，仅作为举例。

本发明实施例还公开了一种图像提取模型构建装置，如图4所示，该装置包括：视频帧图像获取模块401，用于获取视频库中的所有视频帧图像；第一图像编码模块402，用于对所有视频帧图像中的每一个视频帧图像进行编码处理，得到第一视频帧图像编码样本集；第二图像编码模块403，用于将所有视频帧图像中的每一个视频帧图像进行数据增强处理，并将增强后的图像进行编码得到第二视频帧图像编码样本集；模型训练模块404，用于将所述第一视频帧图像编码样本集、第二视频帧图像编码样本集输入到预训练的图像提取模型中进行训练，使得所述第一视频帧图像编码样本集中的每一个目标视频帧图像编码样本与所述第二视频帧图像编码样本集中对应的样本之间的相似度大于所述目标视频帧图像编码样本与所述第二视频帧图像编码样本集中其他样本的相似度。

本发明提供的图像提取模型构建装置，通过将每一个视频帧图像进行编码处理得到第一视频帧图像编码样本集，将每一个视频帧图像进行数据增强处理后进行编码得到第二视频帧图像编码样本集，将第一视频帧图像编码样本集和第二视频帧图像编码样本集输入到图像提取模型中进行训练，使得所述第一视频帧图像编码样本集中的每一个目标视频帧图像编码样本与所述第二视频帧图像编码样本集中对应的样本之间的相似度大于所述目标视频帧图像编码样本与所述第二视频帧图像编码样本集中其他样本的相似度。使得构建得到的图像提取模型可以准确地提取视频帧的特征，继而可以提高视频帧图像匹配的准确率。

本发明实施例还公开了一种图像查询装置，如图5所示，该装置包括：查询图像编码模块501，用于当接收到用户输入的目标查询图像，将所述目标查询图像进行编码；数据匹配模块502，用于利用图像提取模型将编码后的目标查询图像数据与预设视频库中的所有视频帧图像数据进行匹配，其中所述图像提取模型为利用上述实施例所述的图像提取模型构建方法构建得到的；视频帧图像确定模块503，用于根据匹配结果确定所述预设数据库中满足要求的视频帧图像。

本发明提供的图像查询装置，通过将接收到用户输入的目标查询图像进行编码后利用图像提取模型与视频库中的所有视频帧图像进行匹配，根据匹配结果确定视频库中满足要求的视频帧图像，可以更准确、完整地检索到与目标查询图像最相似的视频帧图像。

本发明实施例还公开了一种视频生成装置，如图6所示，该装置包括：文本信息匹配模块601，用于当接收到用户输入的目标查询图像中包含文本信息，将所述目标查询图像中包含的文本信息与视频库中包含的文本信息进行匹配得到满足要求的多个目标文本信息；时间比对模块602，用于将所述多个目标文本信息对应的时间戳与多个目标视频帧图像对应的时间戳进行时间一致性比对，其中所述多个目标视频帧图像为利用上述实施例所述的图像查询方法查询得到；视频生成模块603，用于将满足时间一致性要求的目标文本信息与对应的目标视频帧图像进行组合，并生成视频反馈至用户端。

本发明提供的视频生成装置，通过将接收到的用户输入的文本信息与预先保存的视频库中的文本信息进行匹配得到满足要求的多个目标文本信息，并将目标文本信息对应的时间戳与多个目标视频帧图像对应的时间戳进行时间一致性比对，将满足时间一致性要求的目标文本信息与对应的目标视频帧图像进行组合并生成视频反馈至用户端，结合图像和文本两种方法进行视频片段的检索，能够更好地进行视频检索。

作为本发明一个可选实施方式，文本信息匹配模块，包括：音轨信息分离子模块，用于分离出视频库中的所有视频的音轨信息；文本信息识别子模块，用于将所述音轨信息进行语音识别提取文本信息。

本发明实施例还提供了一种电子设备，如图7所示，该电子设备可以包括处理器701和存储器702，其中处理器701和存储器702可以通过总线或者其他方式连接，图7中以通过总线连接为例。

处理器701可以为中央处理器(Central Processing Unit，CPU)。处理器701还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器702作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的违法行为检测方法对应的程序指令/模块。处理器701通过运行存储在存储器702中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的图像提取模型构建方法或图像查询方法或视频生成方法。

存储器702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器701所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器702可选包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至处理器701。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器702中，当被所述处理器701执行时，执行如图1所示实施例中的图像提取模型构建方法或图2所示实施例中的图像查询方法或如图3所示实施例中的视频生成方法。

上述电子设备具体细节可以对应参阅图1或图2或图3所示的实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random AccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入所限定的范围之内。

Claims

1.一种图像提取模型构建方法，其特征在于，所述方法包括：

获取视频库中的所有视频帧图像；

对所有视频帧图像中的每一个视频帧图像进行编码处理，得到第一视频帧图像编码样本集；

将所有视频帧图像中的每一个视频帧图像进行数据增强处理，并将增强后的图像进行编码得到第二视频帧图像编码样本集；

将所述第一视频帧图像编码样本集、第二视频帧图像编码样本集输入到预训练的图像提取模型中进行训练，使得所述第一视频帧图像编码样本集中的每一个目标视频帧图像编码样本与所述第二视频帧图像编码样本集中对应的样本之间的相似度大于所述目标视频帧图像编码样本与所述第二视频帧图像编码样本集中其他样本的相似度。

2.一种图像查询方法，其特征在于，所述方法包括：

当接收到用户输入的目标查询图像，将所述目标查询图像进行编码；

利用图像提取模型将编码后的目标查询图像数据与预设视频库中的所有视频帧图像数据进行匹配，其中所述图像提取模型为利用权利要求1所述的图像提取模型构建方法构建得到的；

根据匹配结果确定所述预设数据库中满足要求的视频帧图像。

3.一种视频生成方法，其特征在于，所述方法包括：

当接收到用户输入的目标查询图像中包含文本信息，将所述目标查询图像中包含的文本信息与视频库中包含的文本信息进行匹配得到满足要求的多个目标文本信息；

将所述多个目标文本信息对应的时间戳与多个目标视频帧图像对应的时间戳进行时间一致性比对，其中所述多个目标视频帧图像为利用权利要求2所述的图像查询方法查询得到；

将满足时间一致性要求的目标文本信息与对应的目标视频帧图像进行组合，并生成视频反馈至用户端。

4.根据权利要求3所述的视频生成方法，其特征在于，所述视频库中包含的文本信息通过下述步骤得到：

分离出视频库中的所有视频的音轨信息；

对所述音轨信息进行语音识别提取文本信息。

5.一种图像提取模型构建装置，其特征在于，所述装置包括：

视频帧图像获取模块，用于获取视频库中的所有视频帧图像；

第一图像编码模块，用于对所有视频帧图像中的每一个视频帧图像进行编码处理，得到第一视频帧图像编码样本集；

第二图像编码模块，用于将所有视频帧图像中的每一个视频帧图像进行数据增强处理，并将增强后的图像进行编码得到第二视频帧图像编码样本集；

模型训练模块，用于将所述第一视频帧图像编码样本集、第二视频帧图像编码样本集输入到预训练的图像提取模型中进行训练，将所述第一视频帧图像编码样本集、第二视频帧图像编码样本集输入到预训练的图像提取模型中进行训练，使得所述第一视频帧图像编码样本集中的每一个目标视频帧图像编码样本与所述第二视频帧图像编码样本集中对应的样本之间的相似度大于所述目标视频帧图像编码样本与所述第二视频帧图像编码样本集中其他样本的相似度。

6.一种图像查询装置，其特征在于，所述装置包括：

查询图像编码模块，用于当接收到用户输入的目标查询图像，将所述目标查询图像进行编码；

数据匹配模块，用于利用图像提取模型将编码后的目标查询图像数据与预设视频库中的所有视频帧图像数据进行匹配，其中所述图像提取模型为利用权利要求1所述的图像提取模型构建方法构建得到的；

视频帧图像确定模块，用于根据匹配结果确定所述预设数据库中满足要求的视频帧图像。

7.一种视频生成装置，其特征在于，所述装置包括：

文本信息匹配模块，用于当接收到用户输入的目标查询图像中包含文本信息，将所述目标查询图像中包含的文本信息与视频库中包含的文本信息进行匹配得到满足要求的多个目标文本信息；

时间比对模块，用于将所述多个目标文本信息对应的时间戳与多个目标视频帧图像对应的时间戳进行时间一致性比对，其中所述多个目标视频帧图像为利用权利要求2所述的图像查询方法查询得到；

视频生成模块，用于将满足时间一致性要求的目标文本信息与对应的目标视频帧图像进行组合，并生成视频反馈至用户端。

8.根据权利要求7所述的装置，其特征在于，文本信息匹配模块，包括：

音轨信息分离子模块，用于分离出视频库中的所有视频的音轨信息；

文本信息识别子模块，用于将所述音轨信息进行语音识别提取文本信息。

9.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1所述的图像提取模型构建方法的步骤或权利要求2所述的图像查询方法的步骤或权利要求3-4中任一所述的视频生成方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行如权利要求1所述的图像提取模型构建方法的步骤或权利要求2所述的图像查询方法的步骤或权利要求3-4中任一所述的视频生成方法的步骤。