CN113590854B

CN113590854B - 一种数据处理方法、设备以及计算机可读存储介质

Info

Publication number: CN113590854B
Application number: CN202111147545.1A
Authority: CN
Inventors: 胡风; 康秋生; 罗雨; 唐振江; 马晋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2021-12-31
Anticipated expiration: 2041-09-29
Also published as: CN114329013A; CN113590854A

Abstract

本申请实施例公开基于人工智能的一种数据处理方法、设备以及计算机可读存储介质，其中，方法包括：获取与查询文本相关联的第一素材；获取查询图像风格向量，获取与查询图像语义向量相关联的第二素材；将第一素材以及第二素材确定为候选素材，获取目标素材图像风格向量、目标素材图像语义向量以及目标素材文本；基于查询文本、查询图像语义向量、查询图像风格向量、目标素材文本、目标素材图像语义向量，以及目标素材图像风格向量，对候选素材进行排序处理，从排序处理后的候选素材中确定推荐素材。采用本申请，可以提高检索目的的描述准确性，进而可以提高推荐素材的准确性。本申请实施例可应用于云技术、人工智能、智慧交通、区块链等各种场景。

Description

一种数据处理方法、设备以及计算机可读存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种数据处理方法、设备以及计算机可读存储介质。

背景技术

随着多媒体技术的普及以及计算机互联网的发展，图像数据以惊人的规模飞速增长。用户提交检索要求，素材数据库返回满足要求的图像素材或视频素材，这一过程可以被称为素材检索。

如何在海量素材数据库中寻找心仪的素材，已经成为计算机视觉领域的一大研究热点。当前，素材检索网站都使用文本进行素材检索，即使用文字进行图像、视频的素材检索；对于图像素材而言，不仅包含主体以及场景等信息，还包含主体属性、多主体之间的关系等复杂的信息；视频内容包含更为丰富的动作信息以及交互信息，所以仅靠查询文本很难准确描述检索目的，在检索目的描述不准确的情况下，素材检索网站可能推送不准确的图像素材以及视频素材。

发明内容

本申请实施例提供一种数据处理方法、设备以及计算机可读存储介质，可以提高检索目的的描述准确性，进而可以提高推荐素材的准确性。

本申请实施例一方面提供了一种数据处理方法，包括：

获取包含查询文本以及查询图像的查询信息，从素材数据库中获取与查询文本相关联的第一素材；

获取查询图像对应的查询图像风格向量，以及查询图像对应的查询图像语义向量，从素材数据库中获取与查询图像语义向量相关联的第二素材；

将第一素材以及第二素材确定为候选素材，获取候选素材对应的目标素材图像风格向量、候选素材对应的目标素材图像语义向量以及候选素材对应的目标素材文本；

基于查询文本、查询图像语义向量、查询图像风格向量、目标素材文本、目标素材图像语义向量，以及目标素材图像风格向量，确定候选素材与查询信息之间的素材相似度，根据素材相似度对候选素材进行排序处理，从排序处理后的候选素材中确定推荐素材。

本申请实施例一方面提供了一种数据处理装置，包括：

第一获取模块，用于获取包含查询文本以及查询图像的查询信息，从素材数据库中获取与查询文本相关联的第一素材；

第二获取模块，用于获取查询图像对应的查询图像风格向量，以及查询图像对应的查询图像语义向量，从素材数据库中获取与查询图像语义向量相关联的第二素材；

第一确定模块，用于将第一素材以及第二素材确定为候选素材，获取候选素材对应的目标素材图像风格向量、候选素材对应的目标素材图像语义向量以及候选素材对应的目标素材文本；

第二确定模块，用于基于查询文本、查询图像语义向量、查询图像风格向量、目标素材文本、目标素材图像语义向量，以及目标素材图像风格向量，确定候选素材与查询信息之间的素材相似度，根据素材相似度对候选素材进行排序处理，从排序处理后的候选素材中确定推荐素材。

其中，第一获取模块，包括：

第一处理单元，用于对查询文本进行切分处理，得到查询文本对应的查询分词；

第一获取单元，用于在素材数据库中获取索引属性为分词属性的索引键值对；索引键值对包括以素材标识所生成的索引键以及以素材分词所生成的索引值；

第一确定单元，用于将包含查询分词的索引值所对应的索引键确定为目标索引键，在素材数据库中获取目标索引键对应的第一素材。

其中，第一获取模块，包括：

第一输入单元，用于将查询文本输入至文本编码模型，通过文本编码模型得到查询文本对应的查询文本语义向量；

第二获取单元，用于在素材数据库中获取索引属性为文本语义属性的索引键值对；索引键值对包括以素材标识所生成的索引键，以及以素材文本语义向量所生成的索引值；

第三获取单元，用于获取查询文本语义向量与索引值之间的相似度，将相似度大于相似度阈值的索引值确定为目标索引值；

第二确定单元，用于将目标索引值对应的索引键确定为目标索引键，在素材数据库中获取目标索引键对应的第一素材。

其中，第二获取模块，包括：

第二输入单元，用于将查询图像输入至图像分类模型，通过图像分类模型得到查询图像的图像分类信息；

第四获取单元，用于获取与图像分类信息相关联的图像语义提取模型，以及与图像分类信息相关联的图像风格提取模型；

第三输入单元，用于将查询图像输入至图像语义提取模型，通过图像语义提取模型得到查询图像对应的查询图像语义向量；

第三输入单元，还用于将查询图像输入至图像风格提取模型，通过图像风格提取模型，提取查询图像的图像颜色特征以及查询图像的图像形状特征，对查询图像的图像颜色特征以及查询图像的图像形状特征进行特征聚合处理，得到查询图像对应的查询图像风格向量。

其中，图像语义提取模型包括图像主体提取模型、图像局部提取模型以及图像整体提取模型；

第三输入单元，包括：

第一提取子单元，用于将查询图像输入至图像主体提取模型，通过图像主体提取模型提取查询图像的主体语义特征，得到查询主体语义向量；

第二提取子单元，用于将查询图像输入至图像局部提取模型，通过图像局部提取模型提取查询图像的局部语义特征，得到查询局部语义向量；

第三提取子单元，用于将查询图像输入至图像整体提取模型，通过图像整体提取模型提取查询图像的整体语义特征，得到查询整体语义向量；

第一确定子单元，用于将查询主体语义向量、查询整体语义向量以及查询局部语义向量，确定为查询图像语义向量。

其中，第二获取模块，包括：

第五获取单元，用于在素材数据库中获取索引属性为图像语义属性的索引键值对；索引键值对包括以素材标识所生成的索引键，以及以素材图像语义向量所生成的索引值；

第六获取单元，用于根据查询图像语义向量以及索引键值对，从素材数据库中获取与查询图像语义向量相关联的第二素材。

其中，查询图像语义向量包括查询主体语义向量、查询整体语义向量以及查询局部语义向量；素材图像语义向量包括素材主体语义向量、素材整体语义向量以及素材局部语义向量；索引键值对包括索引主体键值对、索引整体键值对以及索引局部键值对；索引主体键值对包括以素材标识所生成的索引主体键，以及以素材主体语义向量所生成的索引主体值；索引局部键值对包括以素材标识所生成的索引局部键，以及以素材局部语义向量所生成的索引局部值；索引整体键值对包括以素材标识所生成的索引整体键，以及以素材整体语义向量所生成的索引整体值；

第六获取单元，包括：

第一获取子单元，用于获取查询主体语义向量以及索引主体值之间的第一相似度，将第一相似度大于第一相似度阈值的索引主体值确定为目标索引主体值，将目标索引主体值对应的索引主体键确定为目标索引主体键，在素材数据库中获取目标索引主体键对应的主体素材；

第二获取子单元，用于获取查询整体语义向量以及索引整体值之间的第二相似度，将第二相似度大于第二相似度阈值的索引整体值确定为目标索引整体值，将目标索引整体值对应的索引整体键确定为目标索引整体键，在素材数据库中获取目标索引整体键对应的整体素材；

第三获取子单元，用于获取查询局部语义向量以及索引局部值之间的第三相似度，将第三相似度大于第三相似度阈值的索引局部值确定为目标索引局部值，将目标索引局部值对应的索引局部键确定为目标索引局部键，在素材数据库中获取目标索引局部键对应的局部素材；

第二确定子单元，用于将主体素材、局部素材以及整体素材确定为第二素材。

其中，第一确定模块，包括：

第三确定单元，用于将候选素材对应的素材标识确定为候选素材标识；

第七获取单元，用于在素材数据库中，获取与候选素材标识关联存储的目标素材图像风格向量、与候选素材标识关联存储的目标素材主体语义向量、与候选素材标识关联存储的目标素材整体语义向量、与候选素材标识关联存储的目标素材局部语义向量，以及与候选素材标识关联存储的目标素材文本；

第四确定单元，用于将目标素材主体语义向量、目标素材整体语义向量以及目标素材局部语义向量，确定为目标素材图像语义向量。

其中，候选素材的总数量为至少两个，至少两个候选素材包括候选素材C_d，d为正整数，且d小于或等于至少两个候选素材的总数量；目标素材文本包括候选素材C_d对应的目标素材文本E_d；目标素材图像语义向量包括候选素材C_d对应的目标素材图像语义向量F_d；目标素材图像风格向量包括候选素材C_d对应的目标素材图像风格向量G_d；

第二确定模块，包括：

第五确定单元，用于获取查询文本以及目标素材文本E_d之间的相似度，将获取到的相似度确定为候选素材C_d对应的文本相似度；

第五确定单元，还用于获取查询图像语义向量以及目标素材图像语义向量F_d之间的相似度，将获取到的相似度确定为候选素材C_d对应的语义相似度；

第五确定单元，还用于获取查询图像风格向量以及目标素材图像风格向量G_d之间的相似度，将获取到的相似度确定为候选素材C_d对应的风格相似度；

第二处理单元，用于对文本相似度、语义相似度以及风格相似度进行加权求和处理，得到候选素材C_d与查询信息之间的素材相似度；

第三处理单元，用于根据每个候选素材分别对应的素材相似度，对至少两个候选素材进行排序处理。

其中，查询图像语义向量包括查询主体语义向量、查询整体语义向量以及查询局部语义向量；目标素材图像语义向量F_d包括目标素材主体语义向量H_d、目标素材整体语义向量I_d以及目标素材局部语义向量J_d；

第五确定单元，包括：

第四获取子单元，用于获取查询主体语义向量以及目标素材主体语义向量H_d之间的相似度，将获取到的相似度确定为候选素材C_d对应的主体语义相似度；

第五获取子单元，用于获取查询整体语义向量以及目标素材整体语义向量I_d之间的相似度，将获取到的相似度确定为候选素材C_d对应的整体语义相似度；

第六获取子单元，用于获取查询局部语义向量以及目标素材局部语义向量J_d之间的相似度，将获取到的相似度确定为候选素材C_d对应的局部语义相似度；

第三确定子单元，用于将主体语义相似度、整体语义相似度以及局部语义相似度确定为语义相似度。

其中，数据处理装置，还包括：

第三获取模块，用于获取视频素材，提取视频素材中的至少两帧视频帧，对至少两帧视频帧分别进行图像预处理，得到目标视频帧；

第三获取模块，还用于获取目标视频帧对应的视频帧标识，将视频帧标识作为素材标识；

第一存储模块，用于获取目标视频帧对应的视频帧文本，将视频帧文本作为素材文本，根据素材标识以及素材文本构建索引属性为文本属性的索引键值对，将索引属性为文本属性的索引键值对存储于素材数据库；

第四获取模块，用于获取目标视频帧对应的素材图像语义向量，以及目标视频帧对应的素材图像风格向量；

第二存储模块，用于将素材标识作为索引值，将素材图像语义向量作为索引键，构建索引属性为图像语义属性的索引键值对，将索引属性为图像语义属性的索引键值对存储于素材数据库；

第三存储模块，用于将素材图像风格向量以及素材标识关联存储于素材数据库。

其中，至少两帧视频帧包括视频帧A_b，b为正整数，且b小于或等于至少两帧视频帧的总数量；

第三获取模块，包括：

第八获取单元，用于获取视频帧A_b以及剩余视频帧之间的相似度；剩余视频帧包括至少两帧视频帧中除了视频帧A_b之外的视频帧；

第六确定单元，用于若相似度等于或大于相似度阈值，则将视频帧A_b确定为重复视频帧，从至少两帧视频帧中删除重复视频帧，得到待剪裁视频帧；

第四处理单元，用于对待剪裁视频帧进行区域识别处理，得到待剪裁视频帧的待剪裁区域，对待剪裁视频帧中的待剪裁区域进行剪裁处理，得到目标视频帧。

其中，第一存储模块，包括：

第七确定单元，用于获取视频素材携带的视频描述文本，将获取到的视频描述文本确定为第一视频帧文本；

第五处理单元，用于对目标视频帧中的场景信息进行识别处理，得到场景识别文本，将场景识别文本确定为第二视频帧文本；

第一提取单元，用于提取目标视频帧中的文本信息，将提取到的文本信息确定为第三视频帧文本；

第八确定单元，用于将第一视频帧文本、第二视频帧文本以及第三视频帧文本确定为视频帧文本。

其中，文本属性包括分词属性以及文本语义属性；

第一存储模块，包括：

第一构建单元，用于对素材文本进行切分处理，得到素材文本对应的素材分词，将素材标识作为索引键，将素材分词作为索引值，构建索引属性为分词属性的索引键值对；

第二构建单元，用于获取素材文本对应的素材文本语义向量，将素材标识作为索引键，将素材文本语义向量作为索引值，构建索引属性为文本语义属性的索引键值对。

其中，素材图像语义向量包括素材主体语义向量、素材整体语义向量以及素材局部语义向量；

第四获取模块，包括：

第四输入单元，用于将目标视频帧输入至图像分类模型，通过图像分类模型得到目标视频帧的素材分类信息；

第二提取单元，用于将目标视频帧输入至与素材分类信息相关联的素材主体提取模型，通过素材主体提取模型提取目标视频帧的主体语义特征，得到素材主体语义向量；

第三提取单元，用于将目标视频帧输入至与素材分类信息相关联的素材局部提取模型，通过素材局部提取模型提取目标视频帧的局部语义特征，得到素材局部语义向量；

第四提取单元，用于将目标视频帧输入至与素材分类信息相关联的素材整体提取模型，通过素材整体提取模型提取目标视频帧的整体语义特征，得到素材整体语义向量；

第五提取单元，用于将目标视频帧输入至与素材分类信息相关联的素材风格提取模型，通过素材风格提取模型，提取目标视频帧的图像颜色特征以及目标视频帧的图像形状特征，对目标视频帧的图像颜色特征以及目标视频帧的图像形状特征进行特征聚合处理，得到素材图像风格向量。

本申请一方面提供了一种计算机设备，包括：处理器、存储器、网络接口；

上述处理器与上述存储器、上述网络接口相连，其中，上述网络接口用于提供数据通信功能，上述存储器用于存储计算机程序，上述处理器用于调用上述计算机程序，以使得计算机设备执行本申请实施例中的方法。

本申请实施例一方面提供了一种计算机可读存储介质，上述计算机可读存储介质中存储有计算机程序，上述计算机程序适于由处理器加载并执行本申请实施例中的方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中；计算机设备的处理器从计算机可读存储介质中读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例中的方法。

在本申请实施例中提出一种文本和图像联合查询的素材检索方法，首先从素材数据库中获取与查询文本相关联的第一素材，以及获取与查询图像语义向量相关联的第二素材，可知，本申请实施例可以基于多个维度信息（包括文本维度以及图像维度）获取候选素材（包括上述的第一素材以及第二素材）；进一步地，基于目标素材图像风格向量、目标素材图像语义向量、目标素材文本、查询文本、查询图像语义向量以及查询图像风格向量，确定候选素材与查询信息之间的素材相似度，可知，本申请实施例中的素材相似度是基于多个维度信息（包括文本维度、图像语义维度以及图像风格维度）生成的；进一步地，根据素材相似度对候选素材进行排序处理，从排序处理后的候选素材中确定推荐素材，可知，推荐素材与查询信息之间不仅可以具有语义相关性，而且可以具有风格相关性。综上所述，本申请通过查询文本以及查询图像的联合输入，可以提高检索目的的描述准确性，进而可以提高推荐素材的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种系统架构示意图；

图2是本申请实施例提供的一种数据处理的场景示意图；

图3是本申请实施例提供的一种数据处理方法的流程示意图；

图4是本申请实施例提供的一种数据处理的场景示意图；

图5是本申请实施例提供的一种数据处理的场景示意图；

图6是本申请实施例提供的一种数据处理方法的流程示意图；

图7是本申请实施例提供的一种数据处理的场景示意图；

图8是本申请实施例提供的一种数据处理的场景示意图；

图9是本申请实施例提供的一种数据处理装置的结构示意图；

图10是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，首先对部分名词进行以下简单解释：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的方案涉及人工智能的计算机视觉技术以及深度学习等技术，具体通过如下实施例进行说明。

请参见图1，图1是本申请实施例提供的一种系统架构示意图。如图1所示，该系统可以包括服务器1000a以及用户终端集群，用户终端集群可以包括：用户终端100a、用户终端100b、用户终端100c、...、用户终端100n，可以理解的是，上述系统可以包括一个或者多个用户终端，这里将不对用户终端的数量进行限制。

其中，用户终端集群之间可以存在通信连接，例如用户终端100b与用户终端100c之间存在通信连接，用户终端100b与用户终端100n之间存在通信连接。同时，用户终端集群中的任一用户终端可以与服务器1000a存在通信连接，例如用户终端100b与服务器1000a之间存在通信连接，用户终端100c与服务器1000a之间存在通信连接。上述的通信连接不限定连接方式，可以通过有线通信方式进行直接或间接地连接，也可以通过无线通信方式进行直接或间接地连接，还可以通过其他方式，本申请在此不做限制。

应当理解，如图1所示的用户终端集群中的每个用户终端均可以安装有应用客户端，当该应用客户端运行于各用户终端中时，可以分别与上述图1所示的服务器1000a之间进行数据交互，即上述的通信连接。其中，该应用客户端可以为社交客户端、多媒体客户端（例如视频客户端）、娱乐客户端（例如游戏客户端）、教育客户端、直播客户端等具有加载图像功能的应用客户端。其中，该应用客户端可以为独立的客户端，也可以为集成在某客户端（例如，社交客户端、教育客户端以及多媒体客户端等）中的嵌入式子客户端，在此不做限定。

服务器1000a通过通信连接功能为用户终端集群提供服务，当用户终端（可以是用户终端100b、用户终端100c或用户终端100n）获取到用户输入的查询文本以及查询图像，并接收到用户触发的素材检索指令时，用户终端可以将查询信息（包括上述的查询文本以及查询图像）发送至服务器1000a。服务器1000a接收到用户终端发送的查询信息后，从素材数据库中获取与查询文本相关联的第一素材，可以理解的是，素材数据库包括图像素材、与图像素材相关联的数据（例如图像素材对应的索引键值对以及素材标识等数据）、视频素材，以及与视频素材相关联的数据（例如视频素材对应的索引键值对以及素材标识等数据），本申请实施例不对素材数据库中的数据内容进行限定，可以根据实际应用场景对数据内容进行设定。其中，该第一素材可以包括图像素材、视频素材、图像素材或视频素材。

服务器1000a基于提前训练好的图像分类模型，对查询图像进行图像分类处理，得到查询图像对应的图像分类信息，图像分类信息可以表征查询图像的图像类别，例如人脸图像、动物图像以及植物图像等。服务器1000a将查询图像输入至与图像分类信息相关联的图像语义提取模型，通过图像语义提取模型对查询图像中的语义特征进行提取处理，得到查询图像语义向量，即查询图像对应的图像语义向量。服务器1000a将查询图像输入至与图像分类信息相关联的图像风格提取模型，通过图像风格提取模型对查询图像中的风格特征进行提取处理，得到查询图像风格向量，即查询图像对应的图像风格向量。

服务器1000a从素材数据库中获取与查询图像语义向量相关联的第二素材，同理，该第一素材可以包括图像素材、视频素材、图像素材或视频素材。可以理解的是，第一素材是基于查询文本所确定的素材，服务器1000a暂未确定第一素材与查询图像之间的关联关系，第二素材是基于查询图像语义向量所确定的素材，服务器1000a暂未确定查询文本、查询图像风格向量与第二素材分别对应的关联关系，故服务器1000a将第一素材以及第二素材确定为候选素材，然后获取候选素材对应的目标素材图像风格向量、候选素材对应的目标素材图像语义向量以及候选素材对应的目标素材文本，其中，目标素材图像风格向量用于表征候选素材对应的图像风格向量，目标素材图像语义向量用于表征候选素材对应的图像语义向量，目标素材文本用于表征候选素材对应的文本。

进一步地，服务器1000a 基于查询文本、查询图像语义向量、查询图像风格向量、目标素材文本、目标素材图像语义向量，以及目标素材图像风格向量，确定候选素材与查询信息之间的素材相似度，根据素材相似度对候选素材进行排序处理，具体可以为按照素材相似度从高至低的顺序，对候选素材进行排序，最后从排序处理后的候选素材中确定推荐素材，即将素材相似度高的候选素材确定为推荐素材。后续，服务器1000a可以将推荐素材发送至用户终端。该推荐素材可以包括图像素材、视频素材、图像素材或视频素材。

用户终端接收到服务器1000a发送的推荐素材后，可以在其对应的屏幕上显示该推荐素材。可选的，若用户终端的本地存储了上述图像分类模型、图像语义提取模型以及图像风格提取模型，可以在用户终端本地识别查询信息，其识别过程与服务器1000a识别查询信息的过程一致。此时，用户终端可以将查询信息对应的识别信息（可以包括查询图像风格向量、查询图像语义向量、查询文本对应的查询分词，或者查询文本对应的文本语义向量），发送至服务器1000a，服务器1000a的后续处理过程与上述描述的过程一致，故此处不进行赘述。

其中，由于训练图像分类模型、图像语义提取模型以及图像风格提取模型均涉及到大量的离线计算，因此用户终端本地的图像分类模型、图像语义提取模型以及图像风格提取模型可以是由服务器1000a训练完成后发送至用户终端。

其中，图1中的服务器1000a、用户终端100a、用户终端100b、用户终端100c、...、用户终端100n均可以包括手机、电脑、智能语音交互设备、智能家电、车载终端等等。

需要说明的是，上述服务器1000a、用户终端100a、用户终端100b、用户终端100c、...、用户终端100n均可以为区块链网络中的区块链节点，全文叙述的数据（例如上述的目标素材文本、目标素材图像语义向量，以及目标素材图像风格向量），可以进行存储，存储方式可以是区块链节点根据数据生成区块，并将区块添加至区块链中进行存储的方式。

区块链是一种分布式数据存储、点对点传输、共识机制以及加密算法等计算机技术的新型应用模式，主要用于对数据按时间顺序进行整理，并加密成账本，使其不可被篡改和伪造，同时可进行数据的验证、存储和更新。区块链本质上是一个去中心化的数据库，该数据库中的每个节点均存储一条相同的区块链，区块链网络可以将节点区分为核心节点、数据节点以及轻节点。核心节点、数据节点以及轻节点共同组成区块链节点。其中核心节点负责区块链全网的共识，也就是说核心节点为区块链网络中的共识节点。对于区块链网络中的交易数据被写入账本的流程可以为，区块链网络中的数据节点或轻节点获取到交易数据，将交易数据在区块链网络中传递（也就是节点以接力棒的方式进行传递），直到共识节点收到该交易数据，共识节点再将该交易数据打包进区块，对该区块执行共识，待共识完成后将该交易数据写入账本。此处以目标素材文本、目标素材图像语义向量，以及目标素材图像风格向量示例交易数据，服务器1000a（区块链节点）在通过对交易数据的共识后，根据交易数据生成区块，将区块存储至区块链网络中；而对于交易数据（即目标素材文本、目标素材图像语义向量，以及目标素材图像风格向量）的读取，则可以由区块链节点在区块链网络中，获取到包含该交易数据的区块，进一步，在区块中获取交易数据。

可以理解的是，本申请实施例所提供的数据处理方法可以由计算机设备执行，计算机设备包括但不限于用户终端或服务器。上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。上述用户终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视等，但并不局限于此。用户终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

进一步地，请参见图2，图2是本申请实施例提供的一种数据处理的场景示意图。其中，图2中的用户终端20a可以为图1中的用户终端集群中的任意一个用户终端，服务器20b等同于图1中的服务器1000a。如图2所示，用户201a可以通过用户终端20a向服务器20b发送查询信息，在本申请实施例中，查询信息包括查询图像202a以及查询文本203a，即图2中的文本“杯子蛋糕”。服务器20b获取到用户终端20a发送的查询文本203a以及查询图像202a之后，将查询文本203a输入至文本编码模型201c，通过文本编码模型201c对查询文本203a进行文本编码处理，得到查询文本203a对应的编码语义向量，即图2中的查询文本语义向量201e。在本申请实施例中，不对文本编码模型201c的模型类型进行限定，可以由任意一种或多种文本编码网络组成，如词袋模型（Bag of Word，BOW）、向量空间模型（Vector SpaceModel，VSM）、词嵌入（word embedding）等。

服务器20b在素材数据库20i中获取索引属性为文本语义属性的索引键值对201d，可以理解的是，索引键值对201d包括索引键以及索引值，其中，索引键为素材标识，索引值为素材文本语义向量（即素材对应的编码语义向量）。服务器20b获取每个索引值（即每个素材文本语义向量）以及查询文本语义向量201e之间分别对应的相似度，并将每个索引值分别对应的相似度与预设的文本相似度阈值进行对比，进一步地，服务器20b将相似度大于文本相似度阈值的索引值确定为目标索引值，将目标索引值对应的索引键（即素材标识）确定为目标索引键，服务器20b可以在素材数据库20i中获取目标索引键对应的素材，并将其确定为第一素材，如图2所示例的视频素材2001a、…、图像素材2001n。

本申请实施例中的索引数据库20i可视为电子化的文件柜——存储电子文件（本申请可包括多种索引属性分别对应的索引键值对、海量素材等）的处所，服务器20b可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

请再参见图2，服务器20b先获取查询图像202a的图像分类信息，以确定查询图像202a属于何种类型的图像，例如人物类型、动物类型以及植物类型等。进一步地，服务器20b将查询图像202a分别输入至与图像分类信息相关联的图像语义提取模型202c以及图像风格提取模型203c，如图2所示，通过图像语义提取模型202c，提取对查询图像202a的语义特征，得到查询图像202a对应的图像语义向量，即图2中的查询图像语义向量202e；通过图像风格提取模型203c，提取对查询图像202a的风格特征，得到查询图像202a对应的图像风格向量，即图2中的查询图像风格向量203e。

在本申请实施例中，不对图像语义提取模型202c的模型类型进行限定，可以由任意一种或多种神经网络模型组成，如条件随机场(Conditional Random Fields，CRFs)、卷积神经网络（Convolutional Neural Networks，CNN）、全卷积网络（Fully ConvolutionalNetworks，FCNs）等。同理，本申请实施例不对图像风格提取模型203c的模型类型进行限定，可以根据实际应用场景设定模型类型。

本申请除了根据查询文本203a在素材数据库20i中获取第一素材之外，还联合查询图像202a获取第二素材，具体过程可以为：服务器20b在素材数据库20i中获取索引属性为图像语义属性的索引键值对202d，可以理解的是，索引键值对202d包括索引键以及索引值，其中，索引键为素材标识，索引值为素材图像语义向量（即素材图像对应的图像语义向量或素材视频对应的图像语义向量）。服务器20b获取每个索引值以及查询图像语义向量202e 之间分别对应的相似度，并将每个索引值分别对应的相似度与预设的相似度阈值（应当理解，此处的相似度阈值与上文的文本相似度阈值是两个不同的相似度阈值）进行对比，进一步地，服务器20b将相似度大于相似度阈值的索引值确定为目标索引值，将目标索引值对应的索引键确定为目标索引键，服务器20b可以在素材数据库20i中获取目标索引键对应的素材，并将其确定为第二素材，如图2所示例的图像素材2002a、…、图像素材2002n。可以理解的是，实际应用中，第一素材与第二素材之间可以存在相同的素材，但该相同的素材是基于不同的索引键分别确定的，因为第一素材是与查询文本203a相关联，第二素材是与查询图像202a相关联。

为了给用户201a推送高准确度的素材，本申请综合考虑查询信息对应的语义特征以及查询图像202a对应的图像风格，服务器20b将第一素材以及第二素材确定为候选素材20f，如图2所示，候选素材20f包括图像素材2002a、…、图像素材2002n、视频素材2001a、…、图像素材2001n。进一步地，服务器20b获取每个候选素材分别对应的文本语义向量（如图2所示例的图像素材2002a对应的文本语义向量，即图2中的目标素材文本语义向量201g），每个候选素材分别对应的图像语义向量（如图2所示例的图像素材2002a对应的图像语义向量，即图2中的目标素材图像语义向量202g），每个候选素材分别对应的图像风格向量（如图2所示例的图像素材2002a对应的图像风格向量，即图2中的目标素材图像风格向量203g）。

请再参见图2，服务器20b根据查询文本语义向量201e、查询图像语义向量202e、查询图像风格向量203e、目标素材文本语义向量201g、目标素材图像语义向量202g，以及目标素材图像风格向量203g，确定图像素材2002a与查询信息之间的素材相似度；可以理解的是，确定其他候选素材（例如图2中所示例的图像素材2002n、视频素材2001a以及图像素材2001n）与查询信息之间分别对应的素材相似度，与确定图像素材2002a与查询信息之间的素材相似度的过程一致，故此处不进行赘述，可以参照上文理解。此外，确定候选素材与查询信息之间的素材相似度的具体过程，可以参见下文图3所对应的实施例中步骤S104中的描述，此处暂不展开描述。

服务器20b确定每个候选素材分别对应的素材相似度后，根据素材相似度对候选素材20f进行排序处理，具体可以为按照素材相似度从高至低的顺序，对候选素材20f进行排序，假设图像素材2002a对应的素材相似度为0.98，…，图像素材2002n对应的素材相似度为0.8，视频素材2001a对应的素材相似度为0.95，…、图像素材2001n对应的素材相似度为0.9，则如图2所示，服务器20b对候选素材20f的排序为图像素材2002a、视频素材2001a、…、图像素材2001n、图像素材2002n。最后，服务器20b从排序处理后的候选素材中确定推荐素材20h，如图2所示，推荐素材20h可以包括图像素材2002a、…、视频素材2001a。

综上所述，本申请实施例的输入数据包括查询图像和查询文本，输出数据是和语义（包括文本语义和图像语义）匹配，且和查询图像风格一致的视频素材或图像素材。用户的一次查询包括查询信息输入，候选素材召回，候选素材排序三个阶段，候选素材召回阶段包括基于查询文本的第一素材召回和基于查询图像的第二素材召回；候选素材排序阶段对召回的候选素材进行排序，将和查询图像风格近似以及语义相近的候选图像排在前面，返回给用户终端，实现返回和输入图像风格一致，且和输入的语义匹配的推荐素材（图像素材或视频素材）。

本申请实施例提出一种素材检索方法，通过文本和图像的联合搜索，可以搜索语义相近的图像素材或视频素材，并可使检索到的素材风格保持一致，该方法可服务于视频制作、广告创意制作、搜索引擎和素材检索，还可服务于与视频等多媒体相关的车联网的场景或智慧交通方面的应用。可以理解的是，用户通过图像和文本共同搜索，可以更好表征检索目的，进而可以准确获取推荐素材；通过风格一致性，用户可以制作质量更高、效果更佳的视频、广告作品。

进一步地，请参见图3，图3是本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法可以由计算机设备执行，该计算机设备可以包括图1中的用户终端以及服务器。如图3所示，该数据处理过程可以包括如下步骤。

步骤S101，获取包含查询文本以及查询图像的查询信息，从素材数据库中获取与查询文本相关联的第一素材。

具体的，将查询文本输入至文本编码模型，通过文本编码模型得到查询文本对应的查询文本语义向量；在素材数据库中获取索引属性为文本语义属性的索引键值对；索引键值对包括以素材标识所生成的索引键，以及以素材文本语义向量所生成的索引值；获取查询文本语义向量与索引值之间的相似度，将相似度大于相似度阈值的索引值确定为目标索引值；将目标索引值对应的索引键确定为目标索引键，在素材数据库中获取目标索引键对应的第一素材。

可选的，对查询文本进行切分处理，得到查询文本对应的查询分词；在素材数据库中获取索引属性为分词属性的索引键值对；索引键值对包括以素材标识所生成的索引键以及以素材分词所生成的索引值；将包含查询分词的索引值所对应的索引键确定为目标索引键，在素材数据库中获取目标索引键对应的第一素材。

计算机设备获取查询信息，其中，查询信息包括查询文本以及查询图像，计算机设备通过查询文本以及查询图像独立获取候选素材，其中，从素材数据库中获取与查询文本相关联的第一素材的方式可以包括两种方式，第一种是基于查询文本对应的查询文本语义向量获取第一素材，其获取的具体过程请参见上文图2所对应的实施例中的描述，此处不进行赘述。第二种方式是基于文本核心词匹配相关性的计算方法，具体可以为：对查询文本进行切分处理，得到查询文本对应的查询分词，例如：将查询文本“营销企业如何解决企业与用户的沟通”划分为“营销”、“企业”、“如何”、“解决”、“与”、“用户”、“的”、“沟通”8个分词，其中，上述查询文本中有两个“企业”分词，故有8个不同的分词；进一步地，计算机设备可以对上述8个分词进行过滤，得到查询分词，例如对上述示例的分词“的”进行过滤，将剩下的分词作为查询分词。

分词级别可以为词语级别，例如上述的词语“沟通”，可以为字符级别，例如将词语“沟通”进一步切分为“沟”以及“通”，还可以为亚词级别，例如将“advertising”，切分为“ad”、“ver”、“tis”“ing”，本申请实施例不对分词级别进行限定，可以根据实际应用场景进行设定。

本申请实施例不对分词算法进行限定，可以包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等。

计算机设备在素材数据库中获取索引属性为分词属性的索引键值对，该索引键值对包括以素材标识所生成的索引键以及以素材分词所生成的索引值；进一步地，计算机设备将查询分词与索引键值对中的索引值进行匹配，将包含查询分词的索引值确定为目标索引值，可以理解的是，包含查询分词的索引值是指素材分词包括查询分词，或素材分词存在与查询分词高度相似的分词，例如素材分词包括“美丽、姑娘”，查询分词包括“漂亮、女孩”，虽然素材分词与查询分词不相同，但两者语义高度相似，故可以将其确定为目标素材分词，即目标索引值。计算机设备将目标索引值对应的索引键确定为目标索引键，可以理解的是，素材标识可以表征素材，故可以在素材数据库中获取目标索引键对应的第一素材。

步骤S102，获取查询图像对应的查询图像风格向量，以及查询图像对应的查询图像语义向量，从素材数据库中获取与查询图像语义向量相关联的第二素材。

具体的，将查询图像输入至图像分类模型，通过图像分类模型得到查询图像的图像分类信息；获取与图像分类信息相关联的图像语义提取模型，以及与图像分类信息相关联的图像风格提取模型；将查询图像输入至图像语义提取模型，通过图像语义提取模型得到查询图像对应的查询图像语义向量；将查询图像输入至图像风格提取模型，通过图像风格提取模型，提取查询图像的图像颜色特征以及查询图像的图像形状特征，对查询图像的图像颜色特征以及查询图像的图像形状特征进行特征聚合处理，得到查询图像对应的查询图像风格向量。

具体的，在素材数据库中获取索引属性为图像语义属性的索引键值对；索引键值对包括以素材标识所生成的索引键，以及以素材图像语义向量所生成的索引值；根据查询图像语义向量以及索引键值对，从素材数据库中获取与查询图像语义向量相关联的第二素材。

对于图像素材而言，不仅包含主体、场景等信息，即图像中“有什么”，还包含主体属性、多主体之间的关系等复杂的信息；对于视频素材而言，其包含更为丰富的动作信息以及交互信息，所以仅靠文字信息很难准确描述素材。在实际应用中，当创作者想将检索到的视频片段拼接在一起时，一般会希望多个视频片段分别对应的风格是一致或高度相似，故在本申请实施例中，计算机设备通过图像语义向量扩充素材召回能力，且保持查询图像风格向量以及素材图像风格向量之间相似或一致。

可选的，为了准确获取查询图像风格向量以及查询图像语义向量，计算机设备先对获取到的图像进行预处理，预处理环节包括对图像中的无关信息进行裁剪，例如对图像的黑边、白边、花边等进行裁剪处理，将裁剪处理后的图像确定为查询图像。请一并参见图4，图4是本申请实施例提供的一种数据处理的场景示意图。如图4所示，计算机设备40a获取图像40b，明显地，图像40b包含白边401b，此时，计算机设备40a先对图像40b进行区域识别处理，得到图像40b的待剪裁区域，即图4中的白边401b，对图像40b中的待剪裁区域进行剪裁处理，得到查询图像402b。

可以理解的是，不同类型的图像适用于不同的特征提取模型，比如人脸、动物、植物等细分类别，因此计算机设备需要先对查询图像进行图像分类处理。如图4所示，计算机设备40a将查询图像402b输入至图像分类模型40c，通过图像分类模型40c提取图像类别特征，得到查询图像402b对应的图像分类信息，如图4中的人物类别。在确定查询图像402b对应的图像分类信息后，计算机设备40a获取与图像分类信息相关联的图像语义提取模型，以及与图像分类信息相关联的图像风格提取模型。其中，计算机设备通过图像语义提取模型获取查询图像语义向量的过程，可以参见上文图2所对应的实施例中的描述。

针对同一张查询图像可以使用不同的深度卷积神经网络来计算不同特性的语义向量，例如突出局部语义的查询局部语义向量，突出主体语义的查询主体语义向量，突出整体语义的查询整体语义向量，以增强语义向量（embedding）多层次的表示能力，提高召回和检索效果，满足多种检索需求。此处暂不展开描述多种语义向量，请参见下文图6所对应的实施例中步骤S208的描述。

计算机设备在素材数据库中获取索引属性为图像语义属性的索引键值对，根据查询图像语义向量以及索引属性为图像语义属性的索引键值对，从素材数据库中获取与查询图像语义向量相关联的第二素材的具体过程，请参见上文图2中的描述，此处不进行赘述。

可以理解的是，图像风格可以分为颜色以及形状2个层次，请再参见图4，图像风格提取模型可以包括卷积层以及池化层，本申请不对卷积层中的卷积核的尺寸进行限定，可以根据实际应用场景进行设定，本申请不对池化层的池化方式进行限定，可以为最大池化、平均池化等。计算机设备40a将查询图像402b输入至图像风格提取模型，通过低层特征提取层（包括卷积层以及池化层），提取查询图像402b的低维特征，低维特征偏向颜色风格，故获取的是图像颜色特征，通过将低维特征输入至高层特征提取层（包括卷积层以及池化层），提取查询图像402b的高维特征，高维特征偏向形状（包括图案和纹理）风格，故获取的是图像形状特征。本申请实施例可以对查询图像402b的图像颜色特征以及查询图像的图像形状特征进行特征聚合处理，得到查询图像402b对应的查询图像风格向量。

可选的，实际应用时，计算机设备40a可以根据中层特征提取层所输出的中维特征生成查询图像风格向量。可选的，计算机设备40a可以根据低维特征生成查询图像风格向量，即根据颜色特征生成查询图像风格向量；可选的，计算机设备40a可以根据高维特征生成查询图像风格向量，即根据形状特征生成查询图像风格向量。

可以理解的是，本申请实施例中的低层特征提取层、中层特征提取层以及高层特征提取层应根据实际应用场景设定。

可选的，在本申请实施例中，对于图像图案的风格表征，也可使用尺度不变特征变换（Scale-invariant feature transform，SIFT）、Oriented FAST and Rotated BRIEF（ORB，一种快速特征点提取和描述的算法）等传统特征点检测方法提取风格特征。

步骤S103，将第一素材以及第二素材确定为候选素材，获取候选素材对应的目标素材图像风格向量、候选素材对应的目标素材图像语义向量以及候选素材对应的目标素材文本。

具体的，将候选素材对应的素材标识确定为候选素材标识；在素材数据库中，获取与候选素材标识关联存储的目标素材图像风格向量、与候选素材标识关联存储的目标素材主体语义向量、与候选素材标识关联存储的目标素材整体语义向量、与候选素材标识关联存储的目标素材局部语义向量，以及与候选素材标识关联存储的目标素材文本；将目标素材主体语义向量、目标素材整体语义向量以及目标素材局部语义向量，确定为目标素材图像语义向量。

可以理解的是，无论索引键值对的索引属性是哪种，每个索引键值对中的索引键均为素材标识。

与查询文本相关联的第一素材，以及与查询图像语义向量相关联的第二素材均可能与查询图像的图像风格存在差异，为了获取符合用户的推荐素材，本申请实施例将第一素材以及第二素材确定为候选素材，为了便于理解以及叙述，本申请实施例仅以图2中的图像素材2002a示例本步骤的内容，候选素材中的其他候选素材的处理过程，可以参照本步骤以及步骤S104中针对图像素材2002a的描述。请一并参见图5，图5是本申请实施例提供的一种数据处理的场景示意图。如图5所示，计算机设备获取图像素材2002a对应的素材标识，将其确定为候选素材标识，如图5中示例的标识1，可以理解的是，素材标识可以是任意一种能够用于标识该素材的信息，例如计算机设备通过哈希算法对素材名称进行哈希运算所生成的哈希值。

如图5所示，素材数据库40f存储有关联存储的素材标识以及素材对应的多种向量，该多种向量可以包括素材对应的素材图像风格向量、素材对应的素材图像语义向量以及素材对应的素材文本语义向量，例如标识1与素材图像风格向量203g、素材图像语义向量202g以及素材文本语义向量201g关联存储，标识2与素材图像风格向量403e、素材图像语义向量402e以及素材文本语义向量401e关联存储，…，标识z与素材图像风格向量403z、素材图像语义向量402z以及素材文本语义向量401z关联存储。

计算机设备将图像素材2002a对应的素材标识（即标识1），与素材数据库40f中的素材标识进行匹配，则可以确定素材图像风格向量203g为目标素材图像风格向量，可以确定素材图像语义向量202g为目标素材图像语义向量，可以确定素材文本语义向量201g为目标素材文本语义向量。

可选的，当素材标识以及素材分词关联存储于素材数据库时，计算机设备可以获取候选素材标识对应的素材分词，进一步地，确定候选素材标识对应的素材分词与查询分词之间的文本相似度。

步骤S104，基于查询文本、查询图像语义向量、查询图像风格向量、目标素材文本、目标素材图像语义向量，以及目标素材图像风格向量，确定候选素材与查询信息之间的素材相似度，根据素材相似度对候选素材进行排序处理，从排序处理后的候选素材中确定推荐素材。

具体的，候选素材的总数量为至少两个，至少两个候选素材包括候选素材C_d，d为正整数，且d小于或等于至少两个候选素材的总数量；目标素材文本包括候选素材C_d对应的目标素材文本E_d；目标素材图像语义向量包括候选素材C_d对应的目标素材图像语义向量F_d；目标素材图像风格向量包括候选素材C_d对应的目标素材图像风格向量G_d。获取查询文本以及目标素材文本E_d之间的相似度，将获取到的相似度确定为候选素材C_d对应的文本相似度；获取查询图像语义向量以及目标素材图像语义向量F_d之间的相似度，将获取到的相似度确定为候选素材C_d对应的语义相似度；获取查询图像风格向量以及目标素材图像风格向量G_d之间的相似度，将获取到的相似度确定为候选素材C_d对应的风格相似度；对文本相似度、语义相似度以及风格相似度进行加权求和处理，得到候选素材C_d与查询信息之间的素材相似度；根据每个候选素材分别对应的素材相似度，对至少两个候选素材进行排序处理。

其中，查询图像语义向量包括查询主体语义向量、查询整体语义向量以及查询局部语义向量；目标素材图像语义向量F_d包括目标素材主体语义向量H_d、目标素材整体语义向量I_d以及目标素材局部语义向量J_d。确定候选素材C_d对应的语义相似度的具体过程可以包括：获取查询主体语义向量以及目标素材主体语义向量H_d之间的相似度，将获取到的相似度确定为候选素材C_d对应的主体语义相似度；获取查询整体语义向量以及目标素材整体语义向量I_d之间的相似度，将获取到的相似度确定为候选素材C_d对应的整体语义相似度；获取查询局部语义向量以及目标素材局部语义向量J_d之间的相似度，将获取到的相似度确定为候选素材C_d对应的局部语义相似度；将主体语义相似度、整体语义相似度以及局部语义相似度确定为语义相似度。

计算机设备基于文字和基于图像的检索可获得成千上万个相关结果，故需要按风格以及语义进行排序，以获得风格和语义都相近的优质结果，将优质结果作为推荐素材。请再参见图5，计算机设备获取图像素材2002a对应的目标素材图像风格向量，即图5中的素材图像风格向量203g，获取图像素材2002a对应的目标素材图像语义向量，即图5中的素材图像语义向量202g，获取图像素材2002a对应的目标素材文本语义向量，即素材文本语义向量201g。计算机设备对素材图像风格向量203g以及查询图像风格向量203e进行相似度计算，得到图像素材2002a对应的风格相似度1，对素材图像语义向量202g以及查询图像语义向量202e进行相似度计算，得到图像素材2002a对应的语义相似度1，对素材文本语义向量201g以及查询文本语义向量201e进行相似度计算，得到图像素材2002a对应的文本相似度1。本申请实施例不对相似度算法进行限定，可以根据实际应用场景进行设定，包括但不限于余弦相似度、欧几里得距离、杰卡德相似度。

本申请实施例中文本相似度的获取方式还包括上文步骤S103中所述的方法，即通过查询分词以及素材分词之间的重合度确定文本相似度。

请再参见图5，计算机设备对文本相似度1、语义相似度1以及风格相似度1进行加权求和处理，得到图像素材2002a与查询信息之间的素材相似度1。

在获取到每个候选素材分别对应的素材相似度后，基于素材相似度对候选素材进行排序，例如按照素材相似度从大至小的顺序，对候选素材进行排序，可以将素材相似度大于预设的素材相似度阈值的候选素材确定为推荐素材，也可以将排序后的候选素材中的属于预设数量内的候选素材确定为推荐素材，例如共1000个候选素材，将排序后的候选素材中的前20个候选素材确定为推荐素材。

通过综合语义相关性和风格相关性对候选素材进行排序，本申请可以将语义相近且风格相近的素材确定为推荐素材，此外，通过图像辅助文字输入，可以更准确地表达图像难以描述的语义信息；另外，通过建立图像的语义向量索引，本申请可根据图像语义进行检索，召回能力更强，召回结果更丰富。

本申请可以解决以下问题：

1、图像风格和部分语义难以用文字描述。很多艺术素材图像的风格难以用文字准确描述，则不方便检索，进而导致很多素材难以用文字检索到，采用本申请，可使用输入的图像作为辅助进行检索。

2. 单纯以图搜图，难以确定搜索意图。一图胜千言，图像包含丰富的信息，诸如衣服纹理、图案等信息，例如输入一张人像图像用于图像检索，此时无法确定是检索目标是相同人物的图像，还是相同形状的衣服，或是相同纹理、相同颜色的图像；采用本申请，通过图像和文字的联合输入，有助于更准确的描述检索目的。

3. 如何使检索到的视频、图像与输入图像风格一致。例如在给定小说情节描述，检索生成对应视频创意用于广告投放的过程中，对于“1.和仇敌恶战，2.走上绝路被逼跳崖，3.意外获得武功，4.与仇敌决斗，5.迎娶千金”这样的描述，将检索到的5段不同的素材拼接在一起时，创作者更希望5段素材之间风格一致。采用本申请，可以将上一段视频素材作为检索下一段视频的输入，则可以保持不同素材之间风格一致，故将不同素材拼接在一起后，可以产生更好的观看体验，进而提高视频的质量。

进一步地，请参见图6，图6是本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法可以由计算机设备执行，该计算机设备可以包括图1中的用户终端以及服务器。如图6所示，该数据处理过程可以包括如下步骤。

步骤S201，获取视频素材，提取视频素材中的至少两帧视频帧，对至少两帧视频帧分别进行图像预处理，得到目标视频帧。

具体的，至少两帧视频帧包括视频帧A_b，b为正整数，且b小于或等于至少两帧视频帧的总数量；获取视频帧A_b以及剩余视频帧之间的相似度；剩余视频帧包括至少两帧视频帧中除了视频帧A_b之外的视频帧；若相似度等于或大于相似度阈值，则将视频帧A_b确定为重复视频帧，从至少两帧视频帧中删除重复视频帧，得到待剪裁视频帧；对待剪裁视频帧进行区域识别处理，得到待剪裁视频帧的待剪裁区域，对待剪裁视频帧中的待剪裁区域进行剪裁处理，得到目标视频帧。

请一并参见图7，图7是本申请实施例提供的一种数据处理的场景示意图。如图7所示，计算机设备获取素材60a，素材60a可以包括图像素材，如图7示例的图像素材601a，以及视频素材，如图7示例的视频素材602a。计算机设备先对素材60a进行预处理，预处理环节包括视频分段和取帧，本申请不对视频分段方式进行限定，可以通过视频分段应用软件实现，取帧主要是过滤掉相似视频帧，保留相似度低的视频帧。

可以理解的是，视频素材比图像素材多了视频分段和取帧处理，待剪裁视频帧与图像素材分别对应的处理过程是一致的，故在本申请中仅以待剪裁视频帧为例，叙述构建素材对应的索引键值对的过程，若为图像素材构建索引键值对，可以参见下文的描述。

计算机设备对待剪裁视频帧进行区域识别处理，主要是识别待剪裁视频帧的黑边、白边、花边等无关信息，以及标志区域（例如水印），得到待剪裁区域，对待剪裁视频帧中的待剪裁区域进行剪裁处理，得到目标视频帧。

步骤S202，获取目标视频帧对应的视频帧标识，将视频帧标识作为素材标识。

具体的，本申请实施例可以通过哈希算法，对目标视频帧的名称或存储地址等信息进行哈希计算，得到唯一的哈希值，将该哈希值作为视频帧标识，然后将视频帧标识作为素材标识。

步骤S203，获取目标视频帧对应的视频帧文本，将视频帧文本作为素材文本，根据素材标识以及素材文本构建索引属性为文本属性的索引键值对，将索引属性为文本属性的索引键值对存储于素材数据库。

具体的，获取视频素材携带的视频描述文本，将获取到的视频描述文本确定为第一视频帧文本；对目标视频帧中的场景信息进行识别处理，得到场景识别文本，将场景识别文本确定为第二视频帧文本；提取目标视频帧中的文本信息，将提取到的文本信息确定为第三视频帧文本；将第一视频帧文本、第二视频帧文本以及第三视频帧文本确定为视频帧文本。

具体的，文本属性包括分词属性以及文本语义属性；对素材文本进行切分处理，得到素材文本对应的素材分词，将素材标识作为索引键，将素材分词作为索引值，构建索引属性为分词属性的索引键值对；获取素材文本对应的素材文本语义向量，将素材标识作为索引键，将素材文本语义向量作为索引值，构建索引属性为文本语义属性的索引键值对。

请一并参见图8，图8是本申请实施例提供的一种数据处理的场景示意图。如图8所示，建立索引库时，计算机设备可以获取视频素材602a本身携带的标签和描述，即视频描述文本；可以使用深度神经网络对目标视频帧80a中的场景信息进行识别处理，得到场景识别文本；对于本身包含文字的素材，可以使用光学字符识别（Optical CharacterRecognition，OCR）技术提取图像中的文字，例如可以提取目标视频帧80a中的文本信息“小卖部”，将提取到的文本信息确定为第三视频帧文本。可以理解的是，实际应用时，可以从第一视频帧文本、第二视频帧文本以及第三视频帧文本中获取任意一个或多个文本作为视频帧文本。

计算机设备将视频帧文本确定为素材文本，为素材文本建立索引对时，存在两种方式，如图8所示，可以对素材文本进行切分处理，得到素材文本对应的素材分词，将素材标识作为索引键，将素材分词作为索引值，构建索引属性为分词属性的索引键值对；可以获取素材文本对应的素材文本语义向量，将素材标识作为索引键，将素材文本语义向量作为索引值，构建索引属性为文本语义属性的索引键值对。可以理解的是，实际应用时，可以选择上述两种方法中的一种或两种构建索引键值对，本申请实施例对此不作限定。

步骤S204，获取目标视频帧对应的素材图像语义向量，以及目标视频帧对应的素材图像风格向量。

具体的，素材图像语义向量包括素材主体语义向量、素材整体语义向量以及素材局部语义向量；将目标视频帧输入至图像分类模型，通过图像分类模型得到目标视频帧的素材分类信息；将目标视频帧输入至与素材分类信息相关联的素材主体提取模型，通过素材主体提取模型提取目标视频帧的主体语义特征，得到素材主体语义向量；将目标视频帧输入至与素材分类信息相关联的素材局部提取模型，通过素材局部提取模型提取目标视频帧的局部语义特征，得到素材局部语义向量；将目标视频帧输入至与素材分类信息相关联的素材整体提取模型，通过素材整体提取模型提取目标视频帧的整体语义特征，得到素材整体语义向量；将目标视频帧输入至与素材分类信息相关联的素材风格提取模型，通过素材风格提取模型，提取目标视频帧的图像颜色特征以及目标视频帧的图像形状特征，对目标视频帧的图像颜色特征以及目标视频帧的图像形状特征进行特征聚合处理，得到素材图像风格向量。

图像本身也包含着丰富的语义信息，使用图像的场景识别信息可能不够完善，或存在错误的概率，导致分类不准，且离散的素材文本召回的结果与检索目的容易存在较大差距，因此，通过图像素材或目标视频帧对应的素材图像语义向量，可以补充文字召回的结果。

可以理解的是，素材图像语义向量可以包括至少一种特性向量，本申请实施例以素材主体语义向量、素材整体语义向量以及素材局部语义向量示例，实际应用时，还可以为其他特性的语义向量。请再参见图7，计算机设备将目标视频帧输入至图像分类模型，通过图像分类模型得到目标视频帧的素材分类信息；将目标视频帧输入至与素材分类信息相关联的素材主体提取模型601b，通过素材主体提取模型601b提取目标视频帧的主体语义特征，得到素材主体语义向量601c；计算机设备将目标视频帧输入至与素材分类信息相关联的素材局部提取模型602b，通过素材局部提取模型602b提取目标视频帧的局部语义特征，得到素材局部语义向量602c；将目标视频帧输入至与素材分类信息相关联的素材整体提取模型603b，通过素材整体提取模型603b提取目标视频帧的整体语义特征，得到素材整体语义向量603c；其中，素材图像风格向量的生成过程，可以参见上文图3所对应的实施例中步骤S102中查询图像风格向量的生成过程，此处不再进行赘述。

其中，素材主体提取模型可以与下文叙述的查询主体提取模型相同，素材整体提取模型可以与下文叙述的查询整体提取模型相同，素材局部提取模型可以与下文叙述的查询局部提取模型相同，素材风格提取模型可以与下文叙述的图像风格提取模型相同。

可以理解的是，本申请通过使用多种特性的素材语义向量（例如素材主体语义向量、素材整体语义向量以及素材局部语义向量），可以保障多种多样的检索需求。

步骤S205，将素材标识作为索引值，将素材图像语义向量作为索引键，构建索引属性为图像语义属性的索引键值对，将索引属性为图像语义属性的索引键值对存储于素材数据库。

具体的，每个特征提取模型的输出均是多维向量，可以理解的是，素材主体语义向量对应的向量维度、素材整体语义向量对应的向量维度以及素材局部语义向量对应的向量维度可以相同，也可以不相同。

请再参见图7，在本申请实施例中，计算机设备可以将素材主体语义向量601c作为索引主体值，将素材标识作为索引主体键，构建索引属性为图像主体语义属性的索引主体键值对；可以将素材局部语义向量602c作为索引局部值，将素材标识作为索引局部键，构建索引属性为图像局部语义属性的索引局部键值对；可以将素材整体语义向量603c作为索引整体值，将素材标识作为索引整体键，构建索引属性为图像整体语义属性的索引整体键值对。

通常情况下，素材主体语义向量601c、素材局部语义向量602c以及素材整体语义向量603c均为高维向量，大规模的高维向量存储和构建索引键值对会占用大量空间，查询检索也会消耗更多时间，增加成本。故可选的，计算机设备对素材主体语义向量601c、素材局部语义向量602c以及素材整体语义向量603c分别进行向量压缩处理。如图7所示，计算机设备通过压缩方法对素材主体语义向量601c进行向量压缩处理，例如将1024维的素材主体语义向量601c降维为128维的素材主体语义向量601d，同理，对素材局部语义向量602c进行向量压缩处理，得到素材局部语义向量602d，对素材整体语义向量603c进行向量压缩处理，得到素材整体语义向量603d。

本申请实施例不对压缩方法进行限定，可以根据实际应用场景进行设定，包括但不限与PCA降维（Principal Component Analysis，一种数据分析方式，用于高维数据的降维）、向量的01量化、乘积量化（Product Quantization，PQ）。可以理解的是，向量压缩后可极大节省向量的存储空间。

可选的，计算机设备可以将素材主体语义向量601d作为索引主体值，将素材标识作为索引主体键，构建索引属性为图像主体语义属性的索引主体键值对；可以将素材局部语义向量602d作为索引局部值，将素材标识作为索引局部键，构建索引属性为图像局部语义属性的索引局部键值对；可以将素材整体语义向量603d作为索引整体值，将素材标识作为索引整体键，构建索引属性为图像整体语义属性的索引整体键值对。

可以理解的是，高维语义向量经过向量压缩后，会使向量的检索效果变差，因此需要进行后处理，以使向量压缩后，检索效果不发生明显的下降。本申请使用k近邻检索（k-reciprocal）方法对降维后的语义向量（包括图7中的素材主体语义向量601d、素材局部语义向量602d，以及素材整体语义向量603d）进行后处理，即使用k近邻检索结果的语义向量对计算的语义向量进行重新编码，如图7所示，对素材主体语义向量601d重新编码，得到素材主体语义向量601e，对素材局部语义向量602d重新编码，得到素材局部语义向量602e，对素材整体语义向量603d重新编码，得到素材整体语义向量603e，重新编码后的语义向量可以增强检索能力。

可选的，计算机设备可以将素材主体语义向量601e作为索引主体值，将素材标识作为索引主体键，构建索引属性为图像主体语义属性的索引主体键值对；可以将素材局部语义向量602e作为索引局部值，将素材标识作为索引局部键，构建索引属性为图像局部语义属性的索引局部键值对；可以将素材整体语义向量603e作为索引整体值，将素材标识作为索引整体键，构建索引属性为图像整体语义属性的索引整体键值对。

步骤S206，将素材图像风格向量以及素材标识关联存储于素材数据库。

具体的，计算机设备还可以将素材主体语义向量以及素材标识关联存储于素材数据库，将素材局部语义向量以及素材标识关联存储于素材数据库，将素材整体语义向量以及素材标识关联存储于素材数据库。

步骤S207，获取包含查询文本以及查询图像的查询信息，从素材数据库中获取与查询文本相关联的第一素材。

具体的，步骤S206-步骤S207的具体过程，可以参见上文图3所对应的实施例中的描述，此处不再进行赘述。

步骤S208，获取查询图像对应的查询图像风格向量，以及查询图像对应的查询图像语义向量，从素材数据库中获取与查询图像语义向量相关联的第二素材。

具体的，图像语义提取模型包括图像主体提取模型、图像局部提取模型以及图像整体提取模型。将查询图像输入至图像主体提取模型，通过图像主体提取模型提取查询图像的主体语义特征，得到查询主体语义向量；将查询图像输入至图像局部提取模型，通过图像局部提取模型提取查询图像的局部语义特征，得到查询局部语义向量；将查询图像输入至图像整体提取模型，通过图像整体提取模型提取查询图像的整体语义特征，得到查询整体语义向量；将查询主体语义向量、查询整体语义向量以及查询局部语义向量，确定为查询图像语义向量。

具体的，查询图像语义向量包括查询主体语义向量、查询整体语义向量以及查询局部语义向量；素材图像语义向量包括素材主体语义向量、素材整体语义向量以及素材局部语义向量；索引键值对包括索引主体键值对、索引整体键值对以及索引局部键值对；索引主体键值对包括以素材标识所生成的索引主体键，以及以素材主体语义向量所生成的索引主体值；索引局部键值对包括以素材标识所生成的索引局部键，以及以素材局部语义向量所生成的索引局部值；索引整体键值对包括以素材标识所生成的索引整体键，以及以素材整体语义向量所生成的索引整体值。获取查询主体语义向量以及索引主体值之间的第一相似度，将第一相似度大于第一相似度阈值的索引主体值确定为目标索引主体值，将目标索引主体值对应的索引主体键确定为目标索引主体键，在素材数据库中获取目标索引主体键对应的主体素材；获取查询整体语义向量以及索引整体值之间的第二相似度，将第二相似度大于第二相似度阈值的索引整体值确定为目标索引整体值，将目标索引整体值对应的索引整体键确定为目标索引整体键，在素材数据库中获取目标索引整体键对应的整体素材；获取查询局部语义向量以及索引局部值之间的第三相似度，将第三相似度大于第三相似度阈值的索引局部值确定为目标索引局部值，将目标索引局部值对应的索引局部键确定为目标索引局部键，在素材数据库中获取目标索引局部键对应的局部素材；将主体素材、局部素材以及整体素材确定为第二素材。

本申请实施例使用不同图像语义向量，如偏向整体特性的语义向量（即查询整体语义向量）、偏向局部特性的语义向量（即查询局部语义向量）、偏向主体特性的语义向量（即查询主体语义向量）等进行召回，提高查询图像的表达能力和召回结果多样性，并可提供多种选择。

可以理解的是，计算机设备获取查询图像对应的查询整体语义向量的过程，与获取图像素材对应的素材整体语义向量的过程是一致的，故请参见上文步骤S204中的叙述，此处不进行赘述。同理，查询图像对应的查询局部语义向量的获取过程，以及查询图像对应的查询主体语义向量的获取过程，均请参见上文步骤S204中的叙述，此处不进行赘述。

可以理解的是，查询整体语义向量、查询局部语义向量以及即查询主体语义向量分别对应的向量维度可以相同，也可以不相同；查询整体语义向量对应的向量维度等同于素材整体语义向量对应的向量维度，查询局部语义向量对应的向量维度等同于素材局部语义向量对应的向量维度，查询主体语义向量对应的向量维度等同于素材主体语义向量对应的向量维度。

步骤S209，将第一素材以及第二素材确定为候选素材，获取候选素材对应的目标素材图像风格向量、候选素材对应的目标素材图像语义向量以及候选素材对应的目标素材文本。

步骤S210，基于查询文本、查询图像语义向量、查询图像风格向量、目标素材文本、目标素材图像语义向量，以及目标素材图像风格向量，确定候选素材与查询信息之间的素材相似度，根据素材相似度对候选素材进行排序处理，从排序处理后的候选素材中确定推荐素材。

具体的，步骤S209-步骤S210的具体过程，可以参见上文图3所对应的实施例中的描述，此处不再进行赘述。

进一步地，请参见图9，图9是本申请实施例提供的一种数据处理装置的结构示意图。上述数据处理装置可以是运行于计算机设备中的一个计算机程序（包括程序代码），例如该数据处理装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图9所示，该数据处理装置1可以包括：第一获取模块11、第二获取模块12、第一确定模块13以及第二确定模块14。

第一获取模块11，用于获取包含查询文本以及查询图像的查询信息，从素材数据库中获取与查询文本相关联的第一素材；

第二获取模块12，用于获取查询图像对应的查询图像风格向量，以及查询图像对应的查询图像语义向量，从素材数据库中获取与查询图像语义向量相关联的第二素材；

第一确定模块13，用于将第一素材以及第二素材确定为候选素材，获取候选素材对应的目标素材图像风格向量、候选素材对应的目标素材图像语义向量以及候选素材对应的目标素材文本；

第二确定模块14，用于基于查询文本、查询图像语义向量、查询图像风格向量、目标素材文本、目标素材图像语义向量，以及目标素材图像风格向量，确定候选素材与查询信息之间的素材相似度，根据素材相似度对候选素材进行排序处理，从排序处理后的候选素材中确定推荐素材。

其中，第一获取模块11、第二获取模块12、第一确定模块13以及第二确定模块14的具体功能实现方式可以参见上述图3对应实施例中的步骤S101-步骤S104，这里不再进行赘述。

再请参见图9，第一获取模块11可以包括：第一处理单元111、第一获取单元112以及第一确定单元113。

第一处理单元111，用于对查询文本进行切分处理，得到查询文本对应的查询分词；

第一获取单元112，用于在素材数据库中获取索引属性为分词属性的索引键值对；索引键值对包括以素材标识所生成的索引键以及以素材分词所生成的索引值；

第一确定单元113，用于将包含查询分词的索引值所对应的索引键确定为目标索引键，在素材数据库中获取目标索引键对应的第一素材。

其中，第一处理单元111、第一获取单元112以及第一确定单元113的具体功能实现方式可以参见上述图3对应实施例中的步骤S101，这里不再进行赘述。

再请参见图9，第一获取模块11可以包括：第一输入单元114、第二获取单元115、第三获取单元116以及第二确定单元117。

第一输入单元114，用于将查询文本输入至文本编码模型，通过文本编码模型得到查询文本对应的查询文本语义向量；

第二获取单元115，用于在素材数据库中获取索引属性为文本语义属性的索引键值对；索引键值对包括以素材标识所生成的索引键，以及以素材文本语义向量所生成的索引值；

第三获取单元116，用于获取查询文本语义向量与索引值之间的相似度，将相似度大于相似度阈值的索引值确定为目标索引值；

第二确定单元117，用于将目标索引值对应的索引键确定为目标索引键，在素材数据库中获取目标索引键对应的第一素材。

其中，第一输入单元114、第二获取单元115、第三获取单元116以及第二确定单元117的具体功能实现方式可以参见上述图3对应实施例中的步骤S101，这里不再进行赘述。

再请参见图9，第二获取模块12可以包括：第二输入单元121、第四获取单元122以及第三输入单元123。

第二输入单元121，用于将查询图像输入至图像分类模型，通过图像分类模型得到查询图像的图像分类信息；

第四获取单元122，用于获取与图像分类信息相关联的图像语义提取模型，以及与图像分类信息相关联的图像风格提取模型；

第三输入单元123，用于将查询图像输入至图像语义提取模型，通过图像语义提取模型得到查询图像对应的查询图像语义向量；

第三输入单元123，还用于将查询图像输入至图像风格提取模型，通过图像风格提取模型，提取查询图像的图像颜色特征以及查询图像的图像形状特征，对查询图像的图像颜色特征以及查询图像的图像形状特征进行特征聚合处理，得到查询图像对应的查询图像风格向量。

其中，第二输入单元121、第四获取单元122以及第三输入单元123的具体功能实现方式可以参见上述图3对应实施例中的步骤S102，这里不再进行赘述。

再请参见图9，图像语义提取模型包括图像主体提取模型、图像局部提取模型以及图像整体提取模型；

第三输入单元123可以包括：第一提取子单元1231、第二提取子单元1232、第三提取子单元1233以及第一确定子单元1234。

第一提取子单元1231，用于将查询图像输入至图像主体提取模型，通过图像主体提取模型提取查询图像的主体语义特征，得到查询主体语义向量；

第二提取子单元1232，用于将查询图像输入至图像局部提取模型，通过图像局部提取模型提取查询图像的局部语义特征，得到查询局部语义向量；

第三提取子单元1233，用于将查询图像输入至图像整体提取模型，通过图像整体提取模型提取查询图像的整体语义特征，得到查询整体语义向量；

第一确定子单元1234，用于将查询主体语义向量、查询整体语义向量以及查询局部语义向量，确定为查询图像语义向量。

其中，第一提取子单元1231、第二提取子单元1232、第三提取子单元1233以及第一确定子单元1234的具体功能实现方式可以参见上述图6对应实施例中的步骤S208，这里不再进行赘述。

再请参见图9，第二获取模块12可以包括：第五获取单元124以及第六获取单元125。

第五获取单元124，用于在素材数据库中获取索引属性为图像语义属性的索引键值对；索引键值对包括以素材标识所生成的索引键，以及以素材图像语义向量所生成的索引值；

第六获取单元125，用于根据查询图像语义向量以及索引键值对，从素材数据库中获取与查询图像语义向量相关联的第二素材。

其中，第五获取单元124以及第六获取单元125的具体功能实现方式可以参见上述图3对应实施例中的步骤S102，这里不再进行赘述。

再请参见图9，查询图像语义向量包括查询主体语义向量、查询整体语义向量以及查询局部语义向量；素材图像语义向量包括素材主体语义向量、素材整体语义向量以及素材局部语义向量；索引键值对包括索引主体键值对、索引整体键值对以及索引局部键值对；索引主体键值对包括以素材标识所生成的索引主体键，以及以素材主体语义向量所生成的索引主体值；索引局部键值对包括以素材标识所生成的索引局部键，以及以素材局部语义向量所生成的索引局部值；索引整体键值对包括以素材标识所生成的索引整体键，以及以素材整体语义向量所生成的索引整体值；

第六获取单元125可以包括：第一获取子单元1251、第二获取子单元1252、第三获取子单元1253以及第二确定子单元1254。

第一获取子单元1251，用于获取查询主体语义向量以及索引主体值之间的第一相似度，将第一相似度大于第一相似度阈值的索引主体值确定为目标索引主体值，将目标索引主体值对应的索引主体键确定为目标索引主体键，在素材数据库中获取目标索引主体键对应的主体素材；

第二获取子单元1252，用于获取查询整体语义向量以及索引整体值之间的第二相似度，将第二相似度大于第二相似度阈值的索引整体值确定为目标索引整体值，将目标索引整体值对应的索引整体键确定为目标索引整体键，在素材数据库中获取目标索引整体键对应的整体素材；

第三获取子单元1253，用于获取查询局部语义向量以及索引局部值之间的第三相似度，将第三相似度大于第三相似度阈值的索引局部值确定为目标索引局部值，将目标索引局部值对应的索引局部键确定为目标索引局部键，在素材数据库中获取目标索引局部键对应的局部素材；

第二确定子单元1254，用于将主体素材、局部素材以及整体素材确定为第二素材。

其中，第一获取子单元1251、第二获取子单元1252、第三获取子单元1253以及第二确定子单元1254的具体功能实现方式可以参见上述图6对应实施例中的步骤S208，这里不再进行赘述。

再请参见图9，第一确定模块13可以包括：第三确定单元131、第七获取单元132以及第四确定单元133。

第三确定单元131，用于将候选素材对应的素材标识确定为候选素材标识；

第七获取单元132，用于在素材数据库中，获取与候选素材标识关联存储的目标素材图像风格向量、与候选素材标识关联存储的目标素材主体语义向量、与候选素材标识关联存储的目标素材整体语义向量、与候选素材标识关联存储的目标素材局部语义向量，以及与候选素材标识关联存储的目标素材文本；

第四确定单元133，用于将目标素材主体语义向量、目标素材整体语义向量以及目标素材局部语义向量，确定为目标素材图像语义向量。

其中，第三确定单元131、第七获取单元132以及第四确定单元133的具体功能实现方式可以参见上述图3对应实施例中的步骤S103，这里不再进行赘述。

再请参见图9，候选素材的总数量为至少两个，至少两个候选素材包括候选素材C_d，d为正整数，且d小于或等于至少两个候选素材的总数量；目标素材文本包括候选素材C_d对应的目标素材文本E_d；目标素材图像语义向量包括候选素材C_d对应的目标素材图像语义向量F_d；目标素材图像风格向量包括候选素材C_d对应的目标素材图像风格向量G_d；

第二确定模块14可以包括：第五确定单元141、第二处理单元142以及第三处理单元143。

第五确定单元141，用于获取查询文本以及目标素材文本E_d之间的相似度，将获取到的相似度确定为候选素材C_d对应的文本相似度；

第五确定单元141，还用于获取查询图像语义向量以及目标素材图像语义向量F_d之间的相似度，将获取到的相似度确定为候选素材C_d对应的语义相似度；

第五确定单元141，还用于获取查询图像风格向量以及目标素材图像风格向量G_d之间的相似度，将获取到的相似度确定为候选素材C_d对应的风格相似度；

第二处理单元142，用于对文本相似度、语义相似度以及风格相似度进行加权求和处理，得到候选素材C_d与查询信息之间的素材相似度；

第三处理单元143，用于根据每个候选素材分别对应的素材相似度，对至少两个候选素材进行排序处理。

其中，第五确定单元141、第二处理单元142以及第三处理单元143的具体功能实现方式可以参见上述图3对应实施例中的步骤S104，这里不再进行赘述。

再请参见图9，查询图像语义向量包括查询主体语义向量、查询整体语义向量以及查询局部语义向量；目标素材图像语义向量F_d包括目标素材主体语义向量H_d、目标素材整体语义向量I_d以及目标素材局部语义向量J_d；

第五确定单元141可以包括：第四获取子单元1411、第五获取子单元1412、第六获取子单元1413以及第三确定子单元1414。

第四获取子单元1411，用于获取查询主体语义向量以及目标素材主体语义向量H_d之间的相似度，将获取到的相似度确定为候选素材C_d对应的主体语义相似度；

第五获取子单元1412，用于获取查询整体语义向量以及目标素材整体语义向量I_d之间的相似度，将获取到的相似度确定为候选素材C_d对应的整体语义相似度；

第六获取子单元1413，用于获取查询局部语义向量以及目标素材局部语义向量J_d之间的相似度，将获取到的相似度确定为候选素材C_d对应的局部语义相似度；

第三确定子单元1414，用于将主体语义相似度、整体语义相似度以及局部语义相似度确定为语义相似度。

其中，第四获取子单元1411、第五获取子单元1412、第六获取子单元1413以及第三确定子单元1414的具体功能实现方式可以参见上述图3对应实施例中的步骤S104，这里不再进行赘述。

再请参见图9，数据处理装置13还可以包括：第三获取模块15、第一存储模块16、第四获取模块17、第二存储模块18以及第三存储模块19。

第三获取模块15，用于获取视频素材，提取视频素材中的至少两帧视频帧，对至少两帧视频帧分别进行图像预处理，得到目标视频帧；

第三获取模块15，还用于获取目标视频帧对应的视频帧标识，将视频帧标识作为素材标识；

第一存储模块16，用于获取目标视频帧对应的视频帧文本，将视频帧文本作为素材文本，根据素材标识以及素材文本构建索引属性为文本属性的索引键值对，将索引属性为文本属性的索引键值对存储于素材数据库；

第四获取模块17，用于获取目标视频帧对应的素材图像语义向量，以及目标视频帧对应的素材图像风格向量；

第二存储模块18，用于将素材标识作为索引值，将素材图像语义向量作为索引键，构建索引属性为图像语义属性的索引键值对，将索引属性为图像语义属性的索引键值对存储于素材数据库；

第三存储模块19，用于将素材图像风格向量以及素材标识关联存储于素材数据库。

其中，第三获取模块15、第一存储模块16、第四获取模块17、第二存储模块18以及第三存储模块19的具体功能实现方式可以参见上述图6对应实施例中的步骤S201-步骤S205，这里不再进行赘述。

再请参见图9，至少两帧视频帧包括视频帧A_b，b为正整数，且b小于或等于至少两帧视频帧的总数量；

第三获取模块15可以包括：第八获取单元151、第六确定单元152以及第四处理单元153。

第八获取单元151，用于获取视频帧A_b以及剩余视频帧之间的相似度；剩余视频帧包括至少两帧视频帧中除了视频帧A_b之外的视频帧；

第六确定单元152，用于若相似度等于或大于相似度阈值，则将视频帧A_b确定为重复视频帧，从至少两帧视频帧中删除重复视频帧，得到待剪裁视频帧；

第四处理单元153，用于对待剪裁视频帧进行区域识别处理，得到待剪裁视频帧的待剪裁区域，对待剪裁视频帧中的待剪裁区域进行剪裁处理，得到目标视频帧。

其中，第八获取单元151、第六确定单元152以及第四处理单元153的具体功能实现方式可以参见上述图6对应实施例中的步骤S201，这里不再进行赘述。

再请参见图9，第一存储模块16可以包括：第七确定单元161、第五处理单元162、第一提取单元163以及第八确定单元164。

第七确定单元161，用于获取视频素材携带的视频描述文本，将获取到的视频描述文本确定为第一视频帧文本；

第五处理单元162，用于对目标视频帧中的场景信息进行识别处理，得到场景识别文本，将场景识别文本确定为第二视频帧文本；

第一提取单元163，用于提取目标视频帧中的文本信息，将提取到的文本信息确定为第三视频帧文本；

第八确定单元164，用于将第一视频帧文本、第二视频帧文本以及第三视频帧文本确定为视频帧文本。

其中，第七确定单元161、第五处理单元162、第一提取单元163以及第八确定单元164的具体功能实现方式可以参见上述图6对应实施例中的步骤S203，这里不再进行赘述。

再请参见图9，文本属性包括分词属性以及文本语义属性；

第一存储模块16可以包括：第一构建单元165以及第二构建单元166。

第一构建单元165，用于对素材文本进行切分处理，得到素材文本对应的素材分词，将素材标识作为索引键，将素材分词作为索引值，构建索引属性为分词属性的索引键值对；

第二构建单元166，用于获取素材文本对应的素材文本语义向量，将素材标识作为索引键，将素材文本语义向量作为索引值，构建索引属性为文本语义属性的索引键值对。

其中，第一构建单元165以及第二构建单元166的具体功能实现方式可以参见上述图6对应实施例中的步骤S203，这里不再进行赘述。

再请参见图9，素材图像语义向量包括素材主体语义向量、素材整体语义向量以及素材局部语义向量；

第四获取模块17可以包括：第四输入单元171、第二提取单元172、第三提取单元173、第四提取单元174以及第五提取单元175。

第四输入单元171，用于将目标视频帧输入至图像分类模型，通过图像分类模型得到目标视频帧的素材分类信息；

第二提取单元172，用于将目标视频帧输入至与素材分类信息相关联的素材主体提取模型，通过素材主体提取模型提取目标视频帧的主体语义特征，得到素材主体语义向量；

第三提取单元173，用于将目标视频帧输入至与素材分类信息相关联的素材局部提取模型，通过素材局部提取模型提取目标视频帧的局部语义特征，得到素材局部语义向量；

第四提取单元174，用于将目标视频帧输入至与素材分类信息相关联的素材整体提取模型，通过素材整体提取模型提取目标视频帧的整体语义特征，得到素材整体语义向量；

第五提取单元175，用于将目标视频帧输入至与素材分类信息相关联的素材风格提取模型，通过素材风格提取模型，提取目标视频帧的图像颜色特征以及目标视频帧的图像形状特征，对目标视频帧的图像颜色特征以及目标视频帧的图像形状特征进行特征聚合处理，得到素材图像风格向量。

其中，第四输入单元171、第二提取单元172、第三提取单元173、第四提取单元174以及第五提取单元175的具体功能实现方式可以参见上述图6对应实施例中的步骤S208，这里不再进行赘述。

进一步地，请参见图10，图10是本申请实施例提供的一种计算机设备的结构示意图。如图10所示，该计算机设备1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏（Display）、键盘（Keyboard），网络接口1004可选地可以包括标准的有线接口、无线接口（如WI-FI接口）。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。存储器1005可选地还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示，作为一种计算机存储介质的存储器1005可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图10所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3以及图6所分别对应的实施例中对数据处理方法的描述，也可执行前文图9所对应实施例中对数据处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时实现图3以及图6中各个步骤所提供的数据处理方法，具体可参见上述图3以及图6各个步骤所提供的实现方式，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡（smart media card，SMC），安全数字（secure digital，SD）卡，闪存卡（flash card）等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备可执行前文图3以及图6所分别对应的实施例中对数据处理方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

获取包含查询文本以及查询图像的查询信息，从素材数据库中获取与所述查询文本相关联的第一素材；

获取所述查询图像对应的查询图像风格向量，以及所述查询图像对应的查询图像语义向量；所述查询图像语义向量包括查询主体语义向量、查询整体语义向量以及查询局部语义向量；

在所述素材数据库中获取索引主体键值对、索引整体键值对以及索引局部键值对；所述索引主体键值对包括以素材标识所生成的索引主体键，以及以素材主体语义向量所生成的索引主体值；所述索引局部键值对包括以所述素材标识所生成的索引局部键，以及以素材局部语义向量所生成的索引局部值；所述索引整体键值对包括以所述素材标识所生成的索引整体键，以及以素材整体语义向量所生成的索引整体值；

获取所述查询主体语义向量以及所述索引主体值之间的第一相似度，将第一相似度大于第一相似度阈值的索引主体值确定为目标索引主体值，将所述目标索引主体值对应的索引主体键确定为目标索引主体键，在所述素材数据库中获取所述目标索引主体键对应的主体素材；

获取所述查询整体语义向量以及所述索引整体值之间的第二相似度，将第二相似度大于第二相似度阈值的索引整体值确定为目标索引整体值，将所述目标索引整体值对应的索引整体键确定为目标索引整体键，在所述素材数据库中获取所述目标索引整体键对应的整体素材；

获取所述查询局部语义向量以及所述索引局部值之间的第三相似度，将第三相似度大于第三相似度阈值的索引局部值确定为目标索引局部值，将所述目标索引局部值对应的索引局部键确定为目标索引局部键，在所述素材数据库中获取所述目标索引局部键对应的局部素材；

将所述主体素材、所述局部素材以及所述整体素材确定为第二素材；

将所述第一素材以及所述第二素材确定为候选素材，获取所述候选素材对应的目标素材图像风格向量、所述候选素材对应的目标素材图像语义向量以及所述候选素材对应的目标素材文本；

基于所述查询文本、所述查询图像语义向量、所述查询图像风格向量、所述目标素材文本、所述目标素材图像语义向量，以及所述目标素材图像风格向量，确定所述候选素材与所述查询信息之间的素材相似度，根据所述素材相似度对所述候选素材进行排序处理，从排序处理后的候选素材中确定推荐素材。

2.根据权利要求1所述的方法，其特征在于，所述从素材数据库中获取与所述查询文本相关联的第一素材，包括：

对所述查询文本进行切分处理，得到所述查询文本对应的查询分词；

在所述素材数据库中获取索引属性为分词属性的索引键值对；所述索引键值对包括以所述素材标识所生成的索引键以及以素材分词所生成的索引值；

将包含所述查询分词的索引值所对应的索引键确定为目标索引键，在所述素材数据库中获取所述目标索引键对应的所述第一素材。

3.根据权利要求1所述的方法，其特征在于，所述从素材数据库中获取与所述查询文本相关联的第一素材，包括：

将所述查询文本输入至文本编码模型，通过所述文本编码模型得到所述查询文本对应的查询文本语义向量；

在所述素材数据库中获取索引属性为文本语义属性的索引键值对；所述索引键值对包括以所述素材标识所生成的索引键，以及以素材文本语义向量所生成的索引值；

获取所述查询文本语义向量与所述索引值之间的相似度，将相似度大于相似度阈值的索引值确定为目标索引值；

将所述目标索引值对应的索引键确定为目标索引键，在所述素材数据库中获取所述目标索引键对应的所述第一素材。

4.根据权利要求1所述的方法，其特征在于，所述获取所述查询图像对应的查询图像风格向量，以及所述查询图像对应的查询图像语义向量，包括：

将所述查询图像输入至图像分类模型，通过所述图像分类模型得到所述查询图像的图像分类信息；

获取与所述图像分类信息相关联的图像语义提取模型，以及与所述图像分类信息相关联的图像风格提取模型；

将所述查询图像输入至所述图像语义提取模型，通过所述图像语义提取模型得到所述查询图像对应的所述查询图像语义向量；

将所述查询图像输入至所述图像风格提取模型，通过所述图像风格提取模型，提取所述查询图像的图像颜色特征以及所述查询图像的图像形状特征，对所述查询图像的图像颜色特征以及所述查询图像的图像形状特征进行特征聚合处理，得到所述查询图像对应的所述查询图像风格向量。

5.根据权利要求4所述的方法，其特征在于，所述图像语义提取模型包括图像主体提取模型、图像局部提取模型以及图像整体提取模型；

所述将所述查询图像输入至所述图像语义提取模型，通过所述图像语义提取模型得到所述查询图像对应的所述查询图像语义向量，包括：

将所述查询图像输入至所述图像主体提取模型，通过所述图像主体提取模型提取所述查询图像的主体语义特征，得到所述查询主体语义向量；

将所述查询图像输入至所述图像局部提取模型，通过所述图像局部提取模型提取所述查询图像的局部语义特征，得到所述查询局部语义向量；

将所述查询图像输入至所述图像整体提取模型，通过所述图像整体提取模型提取所述查询图像的整体语义特征，得到所述查询整体语义向量；

将所述查询主体语义向量、所述查询整体语义向量以及所述查询局部语义向量，确定为所述查询图像语义向量。

6.根据权利要求1所述的方法，其特征在于，所述获取所述候选素材对应的目标素材图像风格向量、所述候选素材对应的目标素材图像语义向量以及所述候选素材对应的目标素材文本，包括：

将所述候选素材对应的素材标识确定为候选素材标识；

在所述素材数据库中，获取与所述候选素材标识关联存储的所述目标素材图像风格向量、与所述候选素材标识关联存储的目标素材主体语义向量、与所述候选素材标识关联存储的目标素材整体语义向量、与所述候选素材标识关联存储的目标素材局部语义向量，以及与所述候选素材标识关联存储的所述目标素材文本；

将所述目标素材主体语义向量、所述目标素材整体语义向量以及所述目标素材局部语义向量，确定为所述目标素材图像语义向量。

7.根据权利要求1所述的方法，其特征在于，所述候选素材的总数量为至少两个，至少两个候选素材包括候选素材C_d，d为正整数，且d小于或等于所述至少两个候选素材的总数量；所述目标素材文本包括所述候选素材C_d对应的目标素材文本E_d；所述目标素材图像语义向量包括所述候选素材C_d对应的目标素材图像语义向量F_d；所述目标素材图像风格向量包括所述候选素材C_d对应的目标素材图像风格向量G_d；

所述基于所述查询文本、所述查询图像语义向量、所述查询图像风格向量、所述目标素材文本、所述目标素材图像语义向量，以及所述目标素材图像风格向量，确定所述候选素材与所述查询信息之间的素材相似度，根据所述素材相似度对所述候选素材进行排序处理，包括：

获取所述查询文本以及所述目标素材文本E_d之间的相似度，将获取到的相似度确定为所述候选素材C_d对应的文本相似度；

获取所述查询图像语义向量以及所述目标素材图像语义向量F_d之间的相似度，将获取到的相似度确定为所述候选素材C_d对应的语义相似度；

获取所述查询图像风格向量以及所述目标素材图像风格向量G_d之间的相似度，将获取到的相似度确定为所述候选素材C_d对应的风格相似度；

对所述文本相似度、所述语义相似度以及所述风格相似度进行加权求和处理，得到所述候选素材C_d与所述查询信息之间的素材相似度；

根据每个候选素材分别对应的素材相似度，对所述至少两个候选素材进行排序处理。

8.根据权利要求7所述的方法，其特征在于，所述目标素材图像语义向量F_d包括目标素材主体语义向量H_d、目标素材整体语义向量I_d以及目标素材局部语义向量J_d；

所述获取所述查询图像语义向量以及所述目标素材图像语义向量F_d之间的相似度，将获取到的相似度确定为所述候选素材C_d对应的语义相似度，包括：

获取所述查询主体语义向量以及所述目标素材主体语义向量H_d之间的相似度，将获取到的相似度确定为所述候选素材C_d对应的主体语义相似度；

获取所述查询整体语义向量以及所述目标素材整体语义向量I_d之间的相似度，将获取到的相似度确定为所述候选素材C_d对应的整体语义相似度；

获取所述查询局部语义向量以及所述目标素材局部语义向量J_d之间的相似度，将获取到的相似度确定为所述候选素材C_d对应的局部语义相似度；

将所述主体语义相似度、所述整体语义相似度以及所述局部语义相似度确定为所述语义相似度。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取视频素材，提取所述视频素材中的至少两帧视频帧，对所述至少两帧视频帧分别进行图像预处理，得到目标视频帧；

获取所述目标视频帧对应的视频帧标识，将所述视频帧标识作为素材标识；

获取所述目标视频帧对应的视频帧文本，将所述视频帧文本作为素材文本，根据所述素材标识以及所述素材文本构建索引属性为文本属性的索引键值对，将索引属性为文本属性的索引键值对存储于所述素材数据库；

获取所述目标视频帧对应的素材图像语义向量，以及所述目标视频帧对应的素材图像风格向量；

将所述素材标识作为索引值，将所述素材图像语义向量作为索引键，构建索引属性为图像语义属性的索引键值对，将索引属性为图像语义属性的索引键值对存储于所述素材数据库；

将所述素材图像风格向量以及所述素材标识关联存储于所述素材数据库。

10.根据权利要求9所述的方法，其特征在于，所述至少两帧视频帧包括视频帧A_b，b为正整数，且b小于或等于所述至少两帧视频帧的总数量；

所述对所述至少两帧视频帧分别进行图像预处理，得到目标视频帧，包括：

获取所述视频帧A_b以及剩余视频帧之间的相似度；所述剩余视频帧包括所述至少两帧视频帧中除了所述视频帧A_b之外的视频帧；

若所述相似度等于或大于相似度阈值，则将所述视频帧A_b确定为重复视频帧，从所述至少两帧视频帧中删除所述重复视频帧，得到待剪裁视频帧；

对所述待剪裁视频帧进行区域识别处理，得到所述待剪裁视频帧的待剪裁区域，对所述待剪裁视频帧中的所述待剪裁区域进行剪裁处理，得到所述目标视频帧。

11.根据权利要求9所述的方法，其特征在于，所述获取所述目标视频帧对应的视频帧文本，包括：

获取所述视频素材携带的视频描述文本，将获取到的视频描述文本确定为第一视频帧文本；

对所述目标视频帧中的场景信息进行识别处理，得到场景识别文本，将所述场景识别文本确定为第二视频帧文本；

提取所述目标视频帧中的文本信息，将提取到的文本信息确定为第三视频帧文本；

将所述第一视频帧文本、所述第二视频帧文本以及所述第三视频帧文本确定为所述视频帧文本。

12.根据权利要求9所述的方法，其特征在于，所述文本属性包括分词属性以及文本语义属性；

所述根据所述素材标识以及所述素材文本构建索引属性为文本属性的索引键值对，包括：

对所述素材文本进行切分处理，得到所述素材文本对应的素材分词，将所述素材标识作为索引键，将所述素材分词作为索引值，构建索引属性为所述分词属性的索引键值对；

获取所述素材文本对应的素材文本语义向量，将所述素材标识作为索引键，将所述素材文本语义向量作为索引值，构建索引属性为所述文本语义属性的索引键值对。

13.根据权利要求9所述的方法，其特征在于，所述素材图像语义向量包括素材主体语义向量、素材整体语义向量以及素材局部语义向量；

所述获取所述目标视频帧对应的素材图像语义向量，以及所述目标视频帧对应的素材图像风格向量，包括：

将所述目标视频帧输入至图像分类模型，通过所述图像分类模型得到所述目标视频帧的素材分类信息；

将所述目标视频帧输入至与所述素材分类信息相关联的素材主体提取模型，通过所述素材主体提取模型提取所述目标视频帧的主体语义特征，得到所述素材主体语义向量；

将所述目标视频帧输入至与所述素材分类信息相关联的素材局部提取模型，通过所述素材局部提取模型提取所述目标视频帧的局部语义特征，得到所述素材局部语义向量；

将所述目标视频帧输入至与所述素材分类信息相关联的素材整体提取模型，通过所述素材整体提取模型提取所述目标视频帧的整体语义特征，得到所述素材整体语义向量；

将所述目标视频帧输入至与所述素材分类信息相关联的素材风格提取模型，通过所述素材风格提取模型，提取所述目标视频帧的图像颜色特征以及所述目标视频帧的图像形状特征，对所述目标视频帧的图像颜色特征以及所述目标视频帧的图像形状特征进行特征聚合处理，得到所述素材图像风格向量。

14.一种计算机设备，其特征在于，包括：处理器、存储器以及网络接口；

所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供数据通信功能，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以使得所述计算机设备执行权利要求1至13任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1-13任一项所述的方法。