CN114329004A

CN114329004A - 数字指纹生成、数据推送方法、装置和存储介质

Info

Publication number: CN114329004A
Application number: CN202111127690.3A
Authority: CN
Inventors: 王星; 王方广; 张望成
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2022-04-12

Abstract

本申请涉及一种数字指纹生成方法、装置、计算机设备和存储介质。该方法包括：获取待推送数据和对应的相似级别信息；基于相似级别信息从各个预设特征提取配置信息中查找对应的目标特征提取配置信息；从目标特征提取配置信息中获取到相似级别信息对应的特征提取模型，将待推送数据输入到相似级别信息对应的特征提取模型中进行特征提取，得到待推送数据特征；获取各个已生成数字指纹的历史推送数据特征，计算待推送数据特征和历史推送数据特征的相似程度并确定目标历史推送数据特征；当目标历史推送数据特征符合预设指纹赋予条件时，将目标历史推送数据特征对应的数字指纹作为待推送数据对应的数字指纹。采用本方法能够提高数字指纹生成的准确性。

Description

数字指纹生成、数据推送方法、装置和存储介质

技术领域

本申请涉及互联网技术领域，特别是涉及一种数字指纹生成、数据推送方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的发展，出现了数字指纹技术，数字指纹是一种安全措施,用于保护多媒体文件和信息。在向用户进行数据推送时，通常需要对数据推送是否重复进行检测。当未推送过重复的数据时，才进行推送。其中，在进行重复检测时，可以使用数字指纹进行检测。然而，目前通常使用哈希算法来生成数字指纹容易使相似的数据生成不同的数字指纹，导致数字指纹生成的准确性较低，从而使数据重复检测的准确性降低，导致数据推送不够准确。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高数字指纹生成准确性、进而提高数据推送准确性的数字指纹生成、数据推送方法、装置、计算机设备和存储介质。

一种数字指纹生成方法，所述方法包括：

获取待推送数据和对应的相似级别信息；

基于相似级别信息从各个预设特征提取配置信息中查找对应的目标特征提取配置信息，预设特征提取配置信息中包括预设相似级别信息对应的特征提取模型；

从目标特征提取配置信息中获取到相似级别信息对应的特征提取模型，将待推送数据输入到相似级别信息对应的特征提取模型中进行特征提取，得到待推送数据特征；

获取各个已生成数字指纹的历史推送数据特征，计算待推送数据特征和历史推送数据特征的相似程度，基于相似程度从各个已生成数字指纹的历史推送数据特征中确定候选历史推送数据特征集，从候选历史推送数据特征集中筛选目标历史推送数据特征；

当目标历史推送数据特征符合预设指纹赋予条件时，获取目标历史推送数据特征对应的数字指纹，将目标历史推送数据特征对应的数字指纹作为待推送数据对应的数字指纹，待推送数据对应的数字指纹用于检索与待推送数据具有相同相似级别信息的推送数据。

在其中一个实施例中，所述待推送数据特征包括视频数据特征；

所述获取各个已生成数字指纹的历史推送数据特征，计算所述待推送数据特征和所述历史推送数据特征的相似程度，基于所述相似程度从所述各个已生成数字指纹的历史推送数据特征中确定候选历史推送数据特征集，包括：

将所述视频数据特征发送到至少两个节点服务器中，所述节点服务器包括各个历史视频数据中心特征和关联的历史视频数据特征集；所述至少两个节点服务器获取到所述视频数据特征，计算所述视频数据特征与各个历史视频数据中心特征的视频中心相似度，基于所述视频中心相似度从所述各个历史视频数据中心特征中选取第一视频数量的历史视频数据中心特征，计算所述视频数据特征与所述第一视频数量的历史视频数据中心特征关联的历史视频数据特征集中历史视频数据特征的视频相似度，基于所述视频相似度从所述第一视频数量的历史视频数据中心特征关联的历史视频数据特征集中选取第二视频数量的历史视频数据特征，得到节点历史视频数据特征集，将所述节点历史视频数据特征集和对应的视频相似度关联返回；

获取到所述至少两个节点服务器返回的至少两个节点历史视频数据特征集和对应的视频相似度，基于所述视频相似度从所述至少两个节点历史视频数据特征集中筛选得到候选视频数量的历史视频数据特征，得到候选历史视频数据特征集。

在其中一个实施例中，所述待推送数据特征包括文本数据特征；

将所述文本数据特征发送到至少两个节点服务器中，所述节点服务器包括各个历史文本数据中心特征和关联的历史文本数据特征集；所述至少两个节点服务器获取到所述文本数据特征，计算所述文本数据特征与各个历史文本数据中心特征的文本中心相似度，基于所述文本中心相似度从所述各个历史文本数据中心特征中选取第一文本数量的历史文本数据中心特征，计算所述文本数据特征与所述第一文本数量的历史文本数据中心特征关联的历史文本数据特征集中历史文本数据特征的文本相似度，基于所述文本相似度从所述第一文本数量的历史文本数据中心特征关联的历史文本数据特征集中选取第二文本数量的历史文本数据特征，得到节点历史文本数据特征集，将所述节点历史文本数据特征集和对应的文本相似度关联返回；

获取到所述至少两个节点服务器返回的至少两个节点历史文本数据特征集和对应的文本相似度，基于所述文本相似度从所述至少两个节点历史文本数据特征集中筛选得到候选文本数量的历史文本数据特征，得到候选历史文本数据特征集。

一种数字指纹生成装置，所述装置包括：

获取模块，用于获取待推送数据和对应的相似级别信息；

配置查找模块，用于基于相似级别信息从各个预设特征提取配置信息中查找对应的目标特征提取配置信息，预设特征提取配置信息中包括预设相似级别信息对应的特征提取模型；

特征提取模块，用于从目标特征提取配置信息中获取到相似级别信息对应的特征提取模型，将待推送数据输入到相似级别信息对应的特征提取模型中进行特征提取，得到待推送数据特征；

特征筛选模块，用于获取各个已生成数字指纹的历史推送数据特征，计算待推送数据特征和历史推送数据特征的相似程度，基于相似程度从各个已生成数字指纹的历史推送数据特征中确定候选历史推送数据特征集，从候选历史推送数据特征集中筛选目标历史推送数据特征；

指纹得到模块，用于当目标历史推送数据特征符合预设指纹赋予条件时，获取目标历史推送数据特征对应的数字指纹，将目标历史推送数据特征对应的数字指纹作为待推送数据对应的数字指纹，待推送数据对应的数字指纹用于检索与待推送数据具有相同相似级别信息的推送数据。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待推送数据和对应的相似级别信息；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待推送数据和对应的相似级别信息；

上述数字指纹生成方法、装置、计算机设备和存储介质，通过获取到待推送数据对应的相似级别信息，基于相似级别信息从各个预设特征提取配置信息中查找对应的目标特征提取配置信息，然后使用目标特征提取配置信息中相似级别信息对应的特征提取模型对待推送数据进行特征提取，得到待推送数据特征，提高了得到待推送数据特征的准确性，然后使用待推送数据特征计算与各个历史推送数据特征的相似程度，通过相似程度从各个历史推送数据特征中筛选得到目标历史推送数据特征，提高了得到的目标历史推送数据特征的准确性，然后当目标历史推送数据特征符合预设指纹赋予条件时，将目标历史推送数据特征对应的数字指纹作为待推送数据对应的数字指纹，提高了待推送数据对应的数字指纹的准确性，即将相同相似级别信息的推送数据赋予同一数字指纹，从而提高了检索与待推送数据具有相同相似级别信息的推送数据的准确性。

一种数据推送方法，所述方法包括：

获取数据推送请求，数据推送请求中携带有待推送数据标识和目标推送方；

基于待推送数据标识获取对应的待推送数据和对应的待推送数字指纹，待推送数字指纹是通过获取待推送数据对应的相似级别信息，基于相似级别信息从各个预设特征提取配置信息中查找对应的目标特征提取配置信息；从目标特征提取配置信息中获取到相似级别信息对应的特征提取模型，将待推送数据输入到相似级别信息对应的特征提取模型中进行特征提取，得到待推送数据特征，获取各个已生成数字指纹的历史推送数据特征，计算待推送数据特征和历史推送数据特征的相似程度，基于相似程度从各个已生成数字指纹的历史推送数据特征中确定候选历史推送数据特征集，从候选历史推送数据特征集中筛选目标历史推送数据特征；当目标历史推送数据特征符合预设指纹赋予条件时，获取目标历史推送数据特征对应的数字指纹得到的；

基于待推送数据数字指纹在目标推送方对应的推送数据数字指纹库中查找匹配的数字指纹，当未查找到匹配的数字指纹时，将待推送数据向目标推送方进行推送。

一种数据推送生成装置，所述装置包括：

请求获取模块，用于获取数据推送请求，数据推送请求中携带有待推送数据标识和目标推送方；

指纹获取模块，用于基于待推送数据标识获取对应的待推送数据和对应的待推送数字指纹，待推送数字指纹是通过获取待推送数据对应的相似级别信息，基于相似级别信息从各个预设特征提取配置信息中查找对应的目标特征提取配置信息；从目标特征提取配置信息中获取到相似级别信息对应的特征提取模型，将待推送数据输入到相似级别信息对应的特征提取模型中进行特征提取，得到待推送数据特征，获取各个已生成数字指纹的历史推送数据特征，计算待推送数据特征和历史推送数据特征的相似程度，基于相似程度从各个已生成数字指纹的历史推送数据特征中确定候选历史推送数据特征集，从候选历史推送数据特征集中筛选目标历史推送数据特征；当目标历史推送数据特征符合预设指纹赋予条件时，获取目标历史推送数据特征对应的数字指纹得到的；

推送模块，用于基于待推送数据数字指纹在目标推送方对应的推送数据数字指纹库中查找匹配的数字指纹，当未查找到匹配的数字指纹时，将待推送数据向目标推送方进行推送。

上述数据推送方法、装置、计算机设备和存储介质，通过使用待推送数据对应的数字指纹在目标推送方对应的推送数据数字指纹库中查找匹配的数字指纹，当未查找到匹配的数字指纹时，将待推送数据向目标推送方进行推送，其中，当目标历史推送数据特征符合预设指纹赋予条件时，将目标历史推送数据特征对应的数字指纹作为待推送数据对应的数字指纹。并且目标历史推送数据特征是通过待推送数据的相似级别信息对应的特征提取模型进行特征提取，得到待推送数据特征，使用待推送数据特征从各个已生成数字指纹的历史推送数据特征中进行相似程度筛选得到的，从而提高了得到的数字指纹的准确性，进而提高了匹配的准确性，使得数据推送提高了准确性。

附图说明

图1为一个实施例中数字指纹生成方法的应用环境图；

图2为一个实施例中数字指纹生成方法的流程示意图；

图3为一个具体实施例中指纹生成服务加载的框架示意图；

图4为一个具体实施例中配置文件生成的示意图；

图5为一个实施例中特征提取的流程示意图；

图6为一个实施例中图像特征提取模型训练的流程示意图；

图7为一个具体实施例中图像特征提取模型训练的框架示意图；

图8为一个实施例中视频特征提取模型训练的流程示意图；

图9为一个具体实施例中视频类别预测模型训练的框架示意图；

图10为一个实施例中文本特征提取模型训练的流程示意图；

图11为一个具体实施例中文本特征提取模型训练的框架示意图；

图12为一个实施例中得到数字指纹的流程示意图；

图13为一个具体实施例中相似检索的示意图；

图14为一个具体实施例中数字指纹离线生成的框架示意图；

图15为一个实施例中候选图像得到的流程示意图；

图16为一个实施例中候选视频得到的流程示意图；

图17为一个实施例中候选文本得到的流程示意图；

图18为另一个实施例中得到数字指纹的流程示意图；

图19为一个具体实施例中检索召回的框架示意图；

图20为一个实施例中得到各个数字指纹的流程示意图；

图21为一个实施例中数据推送的流程示意图；

图22为一个具体实施例中广告相似检索系统的架构示意图；

图23为一个实施例中数字指纹生成装置的结构框图；

图24为一个实施例中数据推送装置的结构框图；

图25为一个实施例中计算机设备的内部结构图；

图26为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例提供的方案涉及人工智能的图像处理、视频处理、文本处理等技术，具体通过如下实施例进行说明:

本申请提供的数字指纹方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。服务器104接收到终端102发送的指纹生成指令，根据指令生成指纹获取待推送数据和对应的相似级别信息；服务器104基于相似级别信息从各个预设特征提取配置信息中查找对应的目标特征提取配置信息，预设特征提取配置信息中包括预设相似级别信息对应的特征提取模型；服务器104从目标特征提取配置信息中获取到相似级别信息对应的特征提取模型，将待推送数据输入到相似级别信息对应的特征提取模型中进行特征提取，得到待推送数据特征；服务器104从数据库106中获取各个已生成数字指纹的历史推送数据特征，计算待推送数据特征和历史推送数据特征的相似程度，基于相似程度从各个已生成数字指纹的历史推送数据特征中确定候选历史推送数据特征集，从候选历史推送数据特征集中筛选目标历史推送数据特征；服务器104当目标历史推送数据特征符合预设指纹赋予条件时，获取目标历史推送数据特征对应的数字指纹，将目标历史推送数据特征对应的数字指纹作为待推送数据对应的数字指纹，待推送数据对应的数字指纹用于检索与待推送数据具有相同相似级别信息的推送数据。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种数字指纹生成方法，以该方法应用于图1中的服务器为例进行说明，可以理解的是，该方法也可以应用在终端中，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。在本实施例中，包括以下步骤：

步骤202，获取待推送数据和对应的相似级别信息。

其中，待推送数据是指需要进行数字指纹生成的推送数据，该推送数据可以是单模态数据，也可以是多模态数据，也可以是跨模态数据，即该待推送数据中可以包括图像数据、文本数据和视频数据中的至少一种。推送数据是指能够向用户推送的数据，比如，该推送数据可以是广告、商品、新闻等等，则待推送数据就可以是需要进行数字指纹生成的广告、商品、新闻等等。相似级别信息用于表征待推送数据对应的相似级别，不同的相似级别用于表征不同的相似程度。相似级别可以包括完全相同、视觉相同、视觉相似和语义相似等等。其中，完全相同是指推送数据的MD5(信息摘要算法，Message-Digest Algorithm，一种被广泛使用的密码散列函数，可以产生出一个128位(16字节)的散列值(hash value)，用于确保信息传输完整一致)一致，即为相同的数据。视觉相同是指推送数据从视觉上看起来极度接近，只有轻微差异，比如，字幕/徽标等轻微差异、边框/遮挡/裁剪等轻微差异。视觉相似是指推送数据从视觉上看起来比较接近，比如、排版/特效/背景色等较大差异，边框/遮挡/裁剪等较大差异。语义相似是指仅推送数据中核心内容一致。比如，同款商品等。

具体地，服务器可以直接从数据库中获取到待推送数据和对应的相似级别信息，该相似级别信息可以预先设置好的。其中，待推送数据中不同模态的数据可以有不同的相似级别。服务器也可以从业务方获取到待推送数据和对应的相似级别信息。服务器也可以获取到用户通过终端上的待推送数据和对应的相似级别信息。

步骤204，基于相似级别信息从各个预设特征提取配置信息中查找对应的目标特征提取配置信息，预设特征提取配置信息中包括预设相似级别信息对应的特征提取模型。

其中，预设特征提取配置信息是指预先配置好的用于进行特征提取的信息。不同的预设特征提取配置信息中配置有不同的相似级别信息对应的特征提取模型。预设相似级别信息是指预设特征提取配置信息中配置好的特征提取模型关联的相似级别信息。不同的相似级别信息对应的待推送数据使用不同的特征提取模型进行特征提取。特征提取模型是指对待推送数据进行特征提取的人工智能模型，是预先训练好的。不同模态的数据可以对应不同特征提取模型。

具体地，服务器从各个预设特征提取配置信息中查找与待推送数据对应的相似级别信息一致的预设特征提取配置信息，将具有相同相似级别信息预设特征提取配置信息作为目标特征提取配置信息，预设特征提取配置信息中包括预设相似级别信息对应的特征提取模型。

步骤206，从目标特征提取配置信息中获取到相似级别信息对应的特征提取模型，将待推送数据输入到相似级别信息对应的特征提取模型中进行特征提取，得到待推送数据特征。

其中，待推送数据特征用于表征待推送数据提取得到的特征，可以用向量进行表示。

具体地，服务器从目标特征提取配置信息中获取到相似级别信息对应的特征提取模型，在一个实施例中，目标特征提取配置信息中配置有特征提取模型的调用信息，可以通过调用信息来调用特征提取模型的。在一个实施例目标特征提取配置信息中配置有第三方服务信息，通过第三方服务信息来获取特征提取服务，通过特征提取服务获取到特征提取模型。然后将待推送数据输入到相似级别信息对应的特征提取模型中进行特征提取，得到输出的待推送数据特征。其中，当待推送数据中包括不同模态的数据时，可以并行将不同模块的数据输入到对应的特征提取模型中进行特征提取，得到输出的待推送数据特征。

步骤208，获取各个已生成数字指纹的历史推送数据特征，计算待推送数据特征和历史推送数据特征的相似程度，基于相似程度从各个已生成数字指纹的历史推送数据特征中确定候选历史推送数据特征集，从候选历史推送数据特征集中筛选目标历史推送数据特征。

其中，历史推送数据特征是指历史已经生成数字指纹的推送数据对应的特征。相似程度用于表征待推送数据与历史推送数据之间的相似度，该相似程度越高，表明待推送数据与历史推送数据越相似。候选历史推送数据特征集是指根据相似程度筛选得到的，并且需要进一步进行筛选的历史推送数据特征的集合。

具体地，服务器可以从数据库中直接获取各个已生成数字指纹的历史推送数据特征，该历史推送数据特征是历史推送数据在生成数值指纹时进行特征提取得到并保存的。服务器使用相似度算法计算待推送数据特征和历史推送数据特征的相似程度，相似度算法可以是距离相似算法、余弦相似算法等等。然后根据相似程度的大小从各个已生成数字指纹的历史推送数据特征中进行筛选，得到候选历史推送数据特征集，然后再从候选历史推送数据特征集中筛选目标历史推送数据特征。

步骤210，当目标历史推送数据特征符合预设指纹赋予条件时，获取目标历史推送数据特征对应的数字指纹，将目标历史推送数据特征对应的数字指纹作为待推送数据对应的数字指纹，待推送数据对应的数字指纹用于检索与待推送数据具有相同相似级别信息的推送数据。

其中，预设指纹赋予条件是指预先设置好的指纹赋予的条件，可以包括目标历史推送数据特征对应的相似阈值超过预设阈值。

具体地，服务器判断当目标历史推送数据特征符合预设指纹赋予条件时，说明此时待推送数据和目标历史推送数据特征对应的历史推送数据属于同一相似级别，此时服务器获取目标历史推送数据特征对应的数字指纹，将目标历史推送数据特征对应的数字指纹作为待推送数据对应的数字指纹。待推送数据对应的数字指纹用于检索与待推送数据具有相同相似级别信息的推送数据，然后可以将检索到的相同相似级别信息的推送数据发送至检索方。在一个实施例中，服务器可以使用待推送数据对应的数字指纹检索与待推送数据具有相同相似级别信息的推送数据，然后再进行推送数据新鲜度的计算，从而判断是否将待推送数据进行推送。

上述数字指纹生成方法，通过获取到待推送数据对应的相似级别信息，基于相似级别信息从各个预设特征提取配置信息中查找对应的目标特征提取配置信息，然后使用目标特征提取配置信息中相似级别信息对应的特征提取模型对待推送数据进行特征提取，得到待推送数据特征，提高了得到待推送数据特征的准确性，然后使用待推送数据特征计算与各个历史推送数据特征的相似程度，通过相似程度从各个历史推送数据特征中筛选得到目标历史推送数据特征，提高了得到的目标历史推送数据特征的准确性，然后当目标历史推送数据特征符合预设指纹赋予条件时，将目标历史推送数据特征对应的数字指纹作为待推送数据对应的数字指纹，提高了待推送数据对应的数字指纹的准确性，即将相同相似级别信息的推送数据赋予同一数字指纹，从而提高了检索与待推送数据具有相同相似级别信息的推送数据的准确性。

在一个实施例中，获取待推送数据和对应的相似级别信息，包括：

获取指纹生成服务镜像地址，基于指纹生成服务镜像地址加载指纹生成服务，指纹生成服务中包括各个预设特征提取配置信息，通过预设脚本文件启动指纹生成服务，通过指纹生成服务获取待推送数据和对应的相似级别信息。

其中，指纹生成服务镜像地址是指存储指纹生成服务镜像的地址。指纹生成服务是指用于进行指纹生成时使用的服务。预设脚本文件是指预先设置好的用于进行服务启动的脚本。

具体地，业务方可以先将各个预设特征提取配置信息和指纹生成服务合并成指纹生成服务镜像，将指纹生成服务镜像推送到云平台中进行存储，并保存指纹生成服务镜像地址。然后需要使用时服务器获取指纹生成服务镜像地址，从指纹生成服务镜像地址中拉取指纹生成服务并加载指纹生成服务，指纹生成服务中包括各个预设特征提取配置信息通过预设脚本文件启动指纹生成服务对应的进程，通过指纹生成服务进程获取待推送数据和对应的相似级别信息，从而进行指纹生成。

在一个具体的实施例中，如图3所示，为指纹生成服务加载的框架示意图。其中，业务方提供各种指纹生成方案，通过多种指纹生成方案和配置信息模块以及DAG(DirectedAcyclic Graph，有向无环图)的推理生成各种特征提取配置信息，该特征提取配置信息可以是schema(xml格式文件)配置，如图4所示，为N种schema配置文件生成的示意图。其中，L0表示完全相同、L1表示视觉相同、L2表示视觉相似和L3表示语义相似。图像、视频和文本可以有对应的相似级别和特征提取模型。然后将配置好的特征提取配置信息推送到配置中心，运营方从配置中心拉取到schema配置及各种服务，合并打包成docker(是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中，然后发布到任何流行的Linux或Windows机器上，也可以实现虚拟化)镜像并推送到云平台。服务器中装有docker客户端可以从云平台实时拉取特征提取配置信息和指纹生成服务并进行加载。然后通过脚本在docker运行环境中启动指纹生成服务进程。也可以来气到相似检索服务并进行加载，通过脚本在docker运行环境中启动相似检索服务进程。

在一个实施例中，获取待推送数据和对应的相似级别信息，包括步骤：

获取到待推送数据检索请求，待推送数据检索请求携带有待推送数据标识；基于待推送数据标识在预设指纹缓存中查找对应的数字指纹，当未查找到待推送数据标识对应的数字指纹时，基于待推送数据标识获取待推送数据和对应的相似级别信息。

其中，待推送数据检索请求是指对待推送数据进行相似推送数据检索的请求。待推送数据标识用于唯一标识待推送数据。预设指纹缓存中保存有各个已生成的数字指纹和对应的待推送数据标识，可以是分布式缓存。在一个具体的实施例中，该分布式缓存即分布式K-V数据存储引擎，通过表名+key(键)即可返回唯一对应的值，值不存在时则返回null(空)值，本文表名通过schema配置文件加载获取，key即为广告唯一标识字段——待推送数据标识，value是包含待推送数据标识对应的数字指纹。

具体地，服务器获取到用户终端发送的待推送数据检索请求，该待推送数据检索请求携带有待推送数据标识，服务器解析该待推送数据检索请求，得到待推送数据标识，然后使用待推送数据标识在预设指纹缓存中查找对应的数字指纹，当查找到对应的数字指纹，说明待推送数据的数字指纹已生成不需要重复生成，此时服务器响应待推送数据检索请求进行相似检索。当未查找到待推送数据标识对应的数字指纹时，说明待推送数据的数字指纹未生成，此时需要先生成数字指纹然后才能进行相似检索。此时服务器通过可以待推送数据标识获取待推送数据和对应的相似级别信息。通过分布式缓存来判断数字指纹是否生成，从而避免对已生成数字指纹的推送数据进行数字指纹生成，节省了服务器资源。

在一个实施例中，待推送数据包括图像数据、视频数据和文本数据中的至少一种，相似级别信息包括图像相似级别、视频相似级别和文本相似级别中的至少一种；

步骤204，即基于相似级别信息从各个预设特征提取配置信息中查找对应的目标特征提取配置信息，包括步骤：

基于图像相似级别、视频相似级别和文本相似级别中的至少一种从各个预设特征提取配置信息中的预设相似级别信息中查找相同相似级别信息，将相同相似级别信息对应的预设特征提取配置信息作为目标特征提取配置信息，目标特征提取配置信息中包括图像相似级别、视频相似级别和文本相似级别中的至少一种对应的特征提取模型。

其中，图像数据是指图像类型的数据。视频数据是指视频类型的数据，文本数据是指文本类型的数据。图像相似级别是指图像数据对应的相似级别。视频相似级别是指视频数据对应的相似级别。文本相似级别是指文本数据对应的相似级别。图像相似级别、视频相似级别和文本相似级别分别对应有特征提取模型。

具体地，当待推送数据为单模态数据时，比如为图像数据，通过图像相似级别从各个预设特征提取配置信息中的预设相似级别信息中查找有且仅有该图像相似级别的预设相似级别信息，即得到的目标特征提取配置信息中包括图像相似级别和对应的图像特征提取模型。当待推送数据为多模态数据时，比如，待推送数据包括图像数据和视频数据，则通过图像数据对应的图像相似级别和视频数据对应的视频相似级别从各个预设特征提取配置信息中的预设相似级别信息中查找有且仅有该图像相似级别和视频相似级别的预设相似级别信息，得到目标特征提取配置信息，即得到目标特征提取配置信息包括图像相似级别和对应的图像特征提取模型以及视频相似级别和对应的视频特征提取模型。当待推送数据包括图像数据、视频数据以及文本数据时，则通过图像数据对应的图像相似级别、视频数据对应的视频相似级别和文本数据对应的文本相似级别从各个预设特征提取配置信息中的预设相似级别信息中查找包括有图像相似级别、视频相似级别和文本相似级别的预设相似级别信息，得到目标特征提取配置信息，即得到目标特征提取配置信息包括图像相似级别和对应的图像特征提取模型、视频相似级别和对应的视频特征提取模型以及文本相似级别和对应的文本特征提取模型。

在上述实施例中，通过包括有不同模态数据的待推送数据从各个预设特征提取配置信息查找到目标特征提取配置信息，该目标特征提取配置信息中包括有每个模态数据对应的特征提取模型，然后使用每个模态数据对应的特征提取模型进行特征提取，从而可以使提取得到的特征更加准确。

在一个实施例中，如图5所示，步骤202，即从目标特征提取配置信息中获取到相似级别信息对应的特征提取模型，将待推送数据输入到相似级别信息对应的特征提取模型中进行特征提取，得到待推送数据特征，包括：

步骤502，从目标特征提取配置信息中获取到图像相似级别、视频相似级别和文本相似级别中的至少一种对应的特征提取模型。

其中，待推送数据中不同模态的数据可以有不同的相似级别，也可以是相同的相似级别。

具体地，服务器中目标特征提取配置信息获取到进行特征提取时要使用的特征提取模型。当待推送数据为图像数据时，则从目标特征提取配置信息获取到的是图像相似级别对应的图像特征提取模型，用于对图像数据进行特征提取。当待推送数据包括图像数据和文本数据时，则从目标特征提取配置信息获取到的是图像相似级别对应的图像特征提取模型以及文本相似级别对应的文本特征提取模型，用于分别对图像数据和文本数据进行特征提取。当待推送数据包括图像数据、视频数据和文本数据时，则从目标特征提取配置信息获取到的是图像相似级别对应的图像特征提取模型、视频相似级别对应的视频特征提取模型和文本相似级别对应的文本特征提取模型，用于分别对图像数据、视频数据和文本数据进行特征提取。

步骤504，将图像数据输入到图像相似级别对应的特征提取模型中进行图像特征提取，得到图像特征；和/或

其中，图像特征用于表征待推送数据中图像数据对应的特征。

具体地，服务器可以并行进行特征提取。即同时将待推送数据中不同的数据输入到对应的特征提取模型中进行特征提取。比如，可以将图像数据输入到图像相似级别对应的特征提取模型中进行图像特征提取，得到图像特征。

步骤506，将视频数据输入到视频相似级别对应的特征提取模型中进行视频特征提取，得到视频特征；和/或

步骤508，将文本数据输入到文本相似级别对应的特征提取模型中进行文本特征提取，得到文本特征。

其中，视频特征用于表征待推送数据中视频数据对应的特征。图像特征用于表征待推送数据中图像数据对应的特征。文本特征用于表征待推送数据中文本数据对应的特征。

具体地，服务器可以并行进行特征提取。即同时将待推送数据中不同的数据输入到对应的特征提取模型中进行特征提取。比如，当待推送数据中包括图像数据、视频数据和文本数据时，可以将图像数据输入到图像相似级别对应的特征提取模型中进行图像特征提取，得到输出的图像特征。同时将视频数据输入到视频相似级别对应的特征提取模型中进行视频特征提取，得到输出的视频特征。同时将文本数据输入到文本相似级别对应的特征提取模型中进行文本特征提取，得到输出的文本特征。

在上述实施例中，通过将待推送数据中不同模态的数据输入到相同相似级别的特征提取模型进行特征提取，从而使提取得到的特征更加准确。

在一个实施例中，如图6所示，图像相似级别对应的特征提取模型的生成包括以下步骤：

步骤602，获取训练图像集，训练图像集包括训练图像和对应的图像类别标签，训练图像集中训练图像具有相同的图像相似级别。

其中，训练图像是指训练图像特征提取模型时使用的图像。图像类别标签用于表征图像中内容的真实类别。比如，图像中的猫、车等类别。训练图像集中的训练图像都是同一相似级别的图像，比如，训练图像集中的图像都是语义相似的图像，也可以是视觉相同的图像，也可以是完全相同的图像，也可以是视觉相似的图像。

具体地，服务器可以从数据库中获取到训练图像集，也可以从提供数据服务的第三方获取到训练图像集，也可以从业务方获取到训练图像集，还可以从互联网中采集到训练图像集。

步骤604，从训练图像集中确定当前训练图像，将当前训练图像输入到初始图像类别预测模型中，初始图像类别预测模型通过图像特征提取网络输出初始图像表征，基于初始图像表征进行图像类别预测，得到初始图像类别。

其中，当前训练图像是指当前进行训练时使用的图像。初始图像类别预测模型是模型参数初始化的图像类别预测模型，图像类别预测模型是用于进行图像中内容类别预测的模型，是通过神经网络算法建立的，比如可以是使用CNN(Convolutional NeuralNetworks，卷积神经网络)建立的。图像特征提取网络是进行图像特征提取的神经网络，是图像类别预测模型中在进行分类之前的网络。初始图像表征是指初始图像分类网络输出的图像特征。初始图像类别是指初始图像类别预测模型输出的图像类别。

具体地，服务器依次从训练图像集中的每个训练图像作为当前训练图像，并将当前训练图像输入到初始图像类别预测模型中，初始图像类别预测模型通过图像特征提取网络输出初始图像表征，基于初始图像表征进行图像类别预测，得到初始图像类别。

步骤606，计算初始图像类别与图像类别标签的误差，基于误差更新初始图像类别预测模型，并返回将当前训练图像输入到初始图像类别预测模型中的步骤执行，直到达到图像训练完成条件时，得到图像相似级别对应的图像类别预测模型。

具体地，服务器使用分类损失函数计算初始图像类别与图像类别标签的误差，其中，分类损失函数可以使用交叉熵损失函数。然后使用梯度下降算法反向更新初始图像类别预测模型中的参数，并返回将当前训练图像输入到初始图像类别预测模型中的步骤执行，直到达到图像训练完成条件时，得到图像相似级别对应的图像类别预测模型。图像训练完成条件包括训练达到最大迭代次数、训练得到的误差小于预设阈值、模型参数不再发生变化等等。

步骤608，基于图像类别预测模型中的图像特征提取网络得到图像相似级别对应的图像特征提取模型。

具体地，服务器将训练好的图像类别预测模型中的图像特征提取网络作为该图像相似级别对应的图像特征提取模型。然后通过使用不同图像相似级别的训练图像来训练得到不同图像相似级别对应的图像类别预测模型，进而得到不同图像相似级别对应的图像特征提取模型，然后再进行后续的使用。

在上述实施例中，通过使用相同图像相似级别对应的训练图像来训练得到该图像相似级别对应的特征提取模型，从而使得到的特征提取模型对该图像相似级别的图像进行特征提取时提高准确性。

在一个具体的实施例中，如图7所示，为图像特征提取模型训练的框架示意图。其中图像分类预测模型包括预处理层、卷积层、池化层、全连接层和归一化层。在训练时，获取到训练图像，该训练图像对应的图像类别标签为狗，将训练图像输入到预处理层中进行边缘检测，得到边缘检测图，将边缘检测图俗人到卷积层中进行特征检测，其中，可以通过狗的耳朵、鼻头和后背三个特征检测符进行特征提取检测，得到三张特征图，将三张特征图输入到池化层进行特征压缩，将特征压缩结果输入到全连接层进行特征求和汇总，得到特征向量，然后将特征向量输入到一化层进行分类预测，得到训练结果，然后通过训练结果和训练标签进行损失计算，并反向更新模型参数，直到训练完成时，得到图像分类预测模型，然后将图像分类预测模型中的预处理层、卷积层、池化层、全连接层作为图像特征提取模型进行后续的使用。

在一个实施例中，如图8所示，视频相似级别对应的特征提取模型的生成包括以下步骤：

步骤802，获取训练视频集，训练视频集包括训练视频和对应的视频类别标签，训练视频集中训练视频具有相同的视频相似级别。

其中，训练视频像是指训练视频特征提取模型时使用的视频。视频类别标签用于表征视频中内容的真实类别。比如，视频中的猫、车、狗、人等类别。训练视频集中的训练视频都是同一视频相似级别的视频，比如，训练视频集中的视频都是语义相似的视频，也可以是视觉相同的视频，也可以是完全相同的视频，也可以是视觉相似的视频。

具体地，服务器可以从数据库中获取到训练视频集，也可以从提供数据服务的第三方获取到训练视频集，也可以从业务方获取到训练视频集，还可以从互联网中采集到训练视频集。

步骤804，从训练视频集中确定当前训练视频，按照预设时间间隔从当前训练视频中抽取视频帧，得到视频帧序列。

其中，当前训练视频是指当前进行训练时使用的视频。视频帧序列是指由视频帧组成的序列。

具体地，服务器依次将训练视频集中每个训练视频作为当前视频。按照预设时间间隔从当前训练视频中抽取视频帧，并将抽取得到的视频帧组成视频帧序列。其中，服务器可以将抽取得到的视频帧进行分组，将每组中的视频帧分区，得到每个视频帧区域，从而得到视频帧区域序列。

步骤806，将视频帧序列输入到初始视频类别预测模型中，初始视频类别预测模型通过初始映射网络将视频帧序列进行映射，得到初始映射特征，将映射特征输入到初始注意力编码网络进行注意力编码，得到初始视频特征，将初始视频特征输入到初始分类网络中进行分类，得到初始视频类别。

其中，初始视频类别预测模型是模型参数初始化的视频类别预测模型，视频类别预测模型是用于进行视频中内容类别预测的模型，可以进行空间以及时序特征提取。初始映射网络是指初始化的映射网络，映射网络用于将视频帧映射为位置嵌入。初始映射特征是指通过初始映射网络映射后得到的特征。初始视频特征是指通过初始注意力编码网络进行注意力编码后得到的视频特征。初始视频类别是指通过初始分类网络进行分类后得到的视频类别。

具体地，服务器将视频帧序列输入到初始视频类别预测模型中，该初始视频类别预测模型中包括初始映射网络、初始注意力编码网络和初始分类网络。从而得到输出的初始视频类别。其中，通过注意力编码网络可以进行空间以及时序特征的提取。

步骤808，计算初始视频类别与视频类别标签的误差，基于误差更新初始视频类别预测模型，并返回将从训练视频集中确定当前训练视频的步骤执行，直到达到视频训练完成条件时，得到视频相似级别对应的视频类别预测模型。

具体地，服务器使用分类损失函数计算初始视频类别与视频类别标签的误差，然后使用梯度下降算法反向更新初始视频类别预测模型中的参数，得到更新后的视频类别预测模型，然后将更新后的视频类别预测模型作为初始视频类别预测模型，并返回从训练视频集中确定当前训练视频的步骤执行，直到达到视频训练完成条件时，得到视频相似级别对应的视频类别预测模型。该视频训练完成条件可以是训练达到最大迭代次数、训练误差小于预设阈值以及模型参数不再发生误差等等。

步骤810，基于视频类别预测模型中的映射网络和注意力编码网络得到视频相似级别对应的特征提取模型。

具体地，服务器将视频类别预测模型中的映射网络和注意力编码网络作为视频相似级别对应的特征提取模型。然后通过使用不同视频相似级别的训练视频来训练得到不同视频相似级别对应的视频类别预测模型，进而得到不同视频相似级别对应的视频特征提取模型，然后再进行后续的使用。

在上述实施例中，通过使用相同视频相似级别对应的训练视频来训练得到该视频相似级别对应的特征提取模型，从而使得到的特征提取模型对该视频相似级别的视频进行特征提取时提高准确性。

在一个具体的实施例中，如图9所示，为视频类别预测模型训练的框架示意图，其中，通过对训练视频每隔N分钟抽一帧，然后对视频帧进行分组，每组中的视频帧分区，每组视频帧对应区域映射成一个张量，该张量是指位置+token Embedding(位置+标记嵌入)，然后再经过Transformer(计算机视觉中的编码器和解码器架构模型)中的多次注意力合并，最后将输出通过MLP网络转换为预测各个视频类别的概率，得到输出的视频类别，然后将输出的视频类别和训练视频的类别标签进行误差计算，并根据误差反向更新视频类别预测模型，直到训练完成时，将训练完成的视频类别预测模型中的映射网络和Transformer网络作为视频特征提取模型。

在一个实施例中，如图10所示，文本相似级别对应的特征提取模型的生成包括以下步骤：

步骤1002，获取训练文本集，训练文本集包括文本三元组，文本三元组包括目标文本、正文本和负文本；文本三元组中目标文本和正文本具有相同的文本相似级别。

其中，文本三元组是指训练文本特征提取模型时使用的文本。文本三元组中目标文本和正文本是同一相似级别的文本，即时同一类文本，负文本是与目标文本或者正文本不同类的文本，即负文本与目标文本或者正文本是不相似的文本。训练文本集中各个文本三元组中的目标文本和正文本都是同一相似级别的文本。

具体地，服务器可以从数据库中获取到训练文本集，也可从提供数据服务的第三方获取训练文本集，也可以从业务方获取到训练文本集，还可以从互联网中采集到训练文本集。在一个实施例中，服务器可以通过已有检索系统得到的检索召回数据集来建立文本三元组，得到训练文本集。

步骤1004，将文本三元组输入到初始文本特征提取模型中进行特征提取，得到目标文本特征、正文本特征和负文本特征。

其中，初始文本特征提取模型是指模型参数初始化的文本特征提取模型，文本特征提取模型用于对文本进行特征提取，是通过文本向量化网络得到的，比如，可以是使用BERT(Bidirectional Encoder Representations from Transformers，基于转换器的双向编码表征)算法建立初始文本特征提取模型。目标文本特征是指通过初始文本特征提取模型提取得到的特征。正文本特征是通过初始文本特征提取模型提取得到的特征。负文本特征是通过初始文本特征提取模型提取得到的特征。

具体地，服务器依次将训练文本集中的文本三元组输入到初始文本特征提取模型中进行特征提取，得到输出的目标文本特征、正文本特征和负文本特征。

步骤1006，获取文本三元组对应的正检索相似度和负检索相似度。

具体地，正检索相似度是指通过已有检索系统进行相似检索时得到的目标文本与正文本之间的相似度。负检索相似度是指通过已有检索系统进行相似检索时得到的目标文本与负文本之间的相似度。其中，已有检索系统可以是ElasticSearch(是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎)检索系统，将ElasticSearch对应的召回分数作为对应的检索相似度。其中，可以使用ElasticSearch的评分公式计算目标文本与正文本的召回分数作为正检索相似度，并计算目标文本与负文本的召回分数作为负检索相似度。ElasticSearch的评分公式可以如下公式(1)所示；

其中，score(q，d)表示两个文本之间的召回分数，即相似程度。coord(q,d)表示协调因子。queryNorm(q)表示查询范数，tf表示词频，idf表示逆文档频率，boost表示词项权重，norm表示长度范数。在一个实施例中，也可以将ElasticSearch对应的召回分数归一化后的值作为对应的检索相似度。可以使用如下公式(2)得到检索相似度。

其中，Es_normed表示归一化得到检索相似度。ES表示召回分数，max_score表示文本与自身匹配时得到的召回分数。

步骤1008，计算目标文本特征与正文本特征的相似距离，得到正距离相似度，并计算目标文本特征与正文本特征的相似距离，得到负距离相似度。

具体地，服务器使用距离相似算法计算目标文本特征与正文本特征之间的相似度，得到正距离相似度，正距离相似度用于表示目标文本与正文本的相似程度，同时使用距离相似算法计算目标文本特征与正文本特征的相似距离，得到负距离相似度，负距离相似度用于表示目标文本与负文本的相似程度。其中，距离相似算法可以使用L2范数算法。

步骤1010，基于正检索相似度、负检索相似度、正距离相似度和负距离相似度进行三元组损失计算，得到文本三元组对应的初始损失信息。

具体地，服务器计算正检索相似度与正距离相似度的误差，并计算负检索相似度与负距离相似度的误差，然后计算误差的总和，得到文本三元组对应的初始损失信息。

步骤1012，基于初始损失信息更新初始文本特征提取模型，并返回获取文本三元组的步骤迭代执行，直到达到文本训练完成条件时，得到文本相似级别对应的文本特征提取模型。

具体地，服务器使用初始损失信息按照梯度下降算法反向更新初始文本特征提取模型，得到更新后的文本特征提取模型，并将更新后的文本特征提取模型作为初始文本特征提取模型并返回获取文本三元组的步骤迭代执行，直到达到文本训练完成条件时，得到文本相似级别对应的文本特征提取模型。然后通过使用不同相似级别的训练文本集来训练得到不同文本相似级别对应的文本类别预测模型，进而得到不同文本相似级别对应的文本特征提取模型，然后再进行后续的使用。

在上述实施例中，通过使用相同相似级别对应的训练文本集来训练得到该相似级别对应的文本特征提取模型，从而使得到的文本特征提取模型对该相似级别的文本进行特征提取时提高了准确性。

在一个实施例中，也可以使用文本特征提取模型的训练步骤训练图像特征提取模型和视频特征提取模型。比如获取训练图像集，训练图像集包括各个图像三元组，图像三元组包括目标图像、正图像和负图像；图像三元组中目标图像和正图像具有相同的文本相似级别。将图像三元组输入到初始图像特征提取模型中进行特征提取，得到目标图像特征、正图像特征和负图像特征。获取图像三元组对应的正检索相似度和负检索相似度。计算目标图像特征与正图像特征的相似距离，得到正距离相似度，并计算目标图像特征与正图像特征的相似距离，得到负距离相似度。基于正检索相似度、负检索相似度、正距离相似度和负距离相似度进行图像三元组损失计算，得到图像三元组对应的初始损失信息。基于初始损失信息更新初始图像特征提取模型，并返回获取图像三元组的步骤迭代执行，直到达到图像训练完成条件时，得到图像相似级别对应的图像特征提取模型。在一个实施例中，也可以使用图像特征提取模型的训练步骤训练文本特征提取模型。

在一个具体的实施例中，如图11所示，为文本特征提取模型训练的框架示意图。其中，将目标文本、正文本和负文本输入到初始文本特征提取模型中先对文本通过BERT即向量化网络进行向量化，然后再通过pooling池化层进行池化，得到输出的特征向量，然后根据特征向量进行损失计算，根据初始损失信息更新初始文本特征提取模型，当训练完成时，基于向量化网络和池化层得到文本特征提取模型。

在一个实施例中，步骤1010，即基于正检索相似度、负检索相似度、正距离相似度和负距离相似度进行三元组损失计算，得到文本三元组对应的初始损失信息，包括：

计算正检索相似度与正距离相似度之间的误差，得到正误差信息，并计算负检索相似度与负距离相似度的负误差信息；计算正误差信息和负误差信息的信息和，得到文本三元组对应的初始损失信息。

具体地，正误差信息用于表征正检索相似度与正距离相似度之间的误差，负误差信息用于负检索相似度与负距离相似度的误差。在一个具体的实施例中，可以使用如下所示的公式(3)计算得到。

其中，a表示目标文本，p表示正文本，n表示负文本。ES(a,p)表示正检索相似度，ES(a,n)表示负检索相似度，d(a,p)表示正距离相似度，d(a,n)表示负距离相似度。

在上述实施例中，通过计算正误差信息和负误差信息，从而得到文本三元组对应的初始损失信息，即在训练过程使得训练结果向着检索结果逼近，从而使训练得到的文本特征提取模型更加的准确。

在一个实施例中，各个已生成数字指纹的历史推送数据特征中包括至少两个历史推送数据中心特征；

如图12所示，步骤208，计算待推送数据特征和历史推送数据特征的相似程度，基于相似程度从各个已生成数字指纹的历史推送数据特征中确定候选历史推送数据特征集，从候选历史推送数据特征集中筛选目标历史推送数据特征，包括：

步骤1202，计算待推送数据特征与至少两个历史推送数据中心特征的中心相似程度，基于中心相似程度从至少两个历史推送数据中心特征中选取第一目标数量的历史推送数据中心特征。

其中，历史推送数据中心特征是指历史推送数据类别中心对应的特征。该历史推送数据中心特征是将各个已生成数字指纹的历史推送数据特征进行聚类后得到的，然后将历史推送数据中心特征作为索引进行相似检索。每个历史推送数据中心特征用于代表同一类的历史推送数据特征。

具体地，服务器使用相似度算法计算待推送数据特征与每个历史推送数据中心特征对应的相似度，从而得到中心相似程度。然后按照中心相似程度依次从大到小将每个历史推送数据中心特征进行排序，然后从大到小依次选取第一目标数量的历史推送数据中心特征。该第一目标数量是指要选取的历史推送数据中心特征的数量，是预先设置好的。比如，可以选top5数量的历史推送数据中心特征。

步骤1204，获取第一目标数量的历史推送数据中心特征关联的历史推送数据特征集，计算待推送数据特征与历史推送数据特征集中历史推送数据特征的特征相似程度，基于特征相似程度从历史推送数据特征集中选取第二目标数量的历史推送数据特征，得到候选历史推送数据特征集。

其中，历史推送数据特征集是指所有第一目标数量的历史推送数据中心特征对应的历史推送数据特征的集合。每个历史推送数据中心特征都对应有同一类历史推送数据特征的集合。

具体地，服务器获取到选取的第一目标数量的历史推送数据中心特征关联的历史推送数据特征集，即选取的每个历史推送数据中心特征都获取到对应的同类的历史推送数据特征集。然后计算待推送数据特征与每个历史推送数据特征集中每个历史推送数据特征的特征相似程度，然后使用特征相似程度将每个历史推送数据特征依次从大到小进行排序，并从每个历史推送数据特征集中从大到小依次选取第二目标数量的历史推送数据特征，将所有选取得到的第二目标数量的历史推送数据特征合并得到候选历史推送数据特征集。第二目标数量是指要从历史推送数据特征集中选取的候选历史推送数据特征的数量。

步骤1206，基于特征相似度从候选历史推送数据特征集中确定最大特征相似度对应的历史推送数据特征，将最大特征相似度对应的历史推送数据特征作为目标历史推送数据特征。

具体地，服务器基于待推送数据特征与候选历史推送数据特征集中每个候选历史推送数据特征之间的特征相似度选取最大特征相似度对应的历史推送数据特征作为目标历史推送数据特征。

步骤210，当目标历史推送数据特征符合预设指纹赋予条件时，获取目标历史推送数据特征对应的数字指纹，将目标历史推送数据特征对应的数字指纹作为待推送数据对应的数字指纹，包括：

步骤1208，当最大特征相似度超过预设相似度阈值时，获取目标历史推送数据特征对应的数字指纹，将目标历史推送数据特征对应的数字指纹作为待推送数据对应的数字指纹。

具体地，服务器判断最大特征相似度是否超过预先设置好的相似度阈值，该预设相似度阈值是用于判断是否进行指纹赋予的条件。当最大特征相似度超过预设相似度阈值时，获取目标历史推送数据特征对应的数字指纹，将目标历史推送数据特征对应的数字指纹作为待推送数据对应的数字指纹。

在一个具体的实施例中，如图13所示，为进行相似检索的示意图。其中，计算查询向量即待推送特征与每个历史推送数据中心特征的相似距离，其中历史推送数据中心特征，即中心1的相似距离为0.1，为最小，此时说明该待推送特征与中心1最相似，然后再计算待推送特征与中心1中历史推送数据特征的相似度，然后根据该相似度选取最大相似度对应的历史推送数据特征作为目标历史推送数据特征。

在上述实施例中，通过计算历史推送数据中心特征的相似程度，并选取第一目标数量的历史推送数据中心特征，然后再计算与第一目标数量的历史推送数据中心特征关联的历史推送数据特征集中历史推送数据特征的相似程度，进而选取得到目标历史推送数据特征，从而避免遍历计算，减少了计算量，提高了效率。

在一个实施例中，步骤210，当目标历史推送数据特征符合预设指纹赋予条件时，获取目标历史推送数据特征对应的数字指纹，将目标历史推送数据特征对应的数字指纹作为待推送数据对应的数字指纹，包括：

当目标历史推送数据特征未符合预设指纹赋予条件时，将待推送数据存储至目标消息队列中；检测达到预设指纹生成条件时，从目标消息队列中获取到各个待推送数据，将各个待推送数据进行相似聚类，得到各个待推送数据集；生成各个待推送数据集对应的数字指纹，得到各个待推送数据集中待推送数据对应的数字指纹。

其中，目标消息队列用于存储未符合预设指纹赋予条件的待推送数据的消息队列。预设指纹生成条件是指进行指纹生成的条件，可以包括目标消息队列中的待推送数据数量达到预设数量上限或者达到预先设置好的时间窗。待推送数据集是指同类待推送数据的集合。

具体地，当目标历史推送数据特征未符合预设指纹赋予条件时，说明此时历史推送数据特征中未存在与待推送数据数字指纹相同的历史推送数据特征。此时服务器将待推送数据存储至目标消息队列中，通过离线聚类进行数字指纹的生成。即服务器检测达到预设指纹生成条件时，从目标消息队列中获取到各个待推送数据，通过聚类算法将各个待推送数据进行相似聚类，得到各个待推送数据集，其中，聚类算法可以使用DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)聚类算法等等。此时，服务器对每个待推送数据集生成对应的数字指纹，即待推送数据集中待推送数据具有相同的数字指纹。

在上述实施例中，通过将未符合预设指纹赋予条件的待推送数据通过进行相似聚类，将得到的各个待推送数据集生成对应的数字指纹，从而使生成的数字指纹更加准确，避免遗漏。

在一个具体的实施例中，如图14所示，为对广告离线聚类生成数字指纹的框架示意图，具体来说：获取到广告流水，从广告流水中提取到广告素材，然后需要对广告使用数字指纹进行相似检索，此时，先在缓存中进行数字指纹检索，当检索到已有数字指纹时，在向量库中查找相同数字指纹对应的广告。当缓存中未存在数字指纹时，进行指纹生成，通过倒排索引从各个已生成数字指纹的广告素材中筛选得到topk相似的广告素材。并且当最大相似度超过预设相似度阈值时，说明找到已有的相同数字指纹，此时将最大相似度对应的数字指纹作为广告的数字指纹。当最大相似度小于预设相似度阈值时，即说明未查找到相同的已有数字指纹，此时，将待推送数据存储到消息队列中，并且在积累一定数量或时间段后进行近实时时间窗/批量聚类。即针对一个时间窗使用DBSCAN聚类分组，对每个分组分配一个新指数字纹。比如，窗口2中即0：10到0：20时间段中消息队列中存储的待推送数据集进行聚类分组，得到聚类簇1、聚类簇2和聚类簇3，然后分别对每个聚类簇生成一个对应的数字指纹。

在一个实施例中，待推送数据特征包括图像数据特征；

如图15所示，步骤208，即获取各个已生成数字指纹的历史推送数据特征，计算待推送数据特征和历史推送数据特征的相似程度，基于相似程度从各个已生成数字指纹的历史推送数据特征中确定候选历史推送数据特征集，包括：

步骤1502，将图像数据特征发送到至少两个节点服务器中，节点服务器包括各个历史图像数据中心特征和关联的历史图像数据特征集；至少两个节点服务器获取到图像数据特征，计算图像数据特征与各个历史图像数据中心特征的图像中心相似度，基于图像中心相似度从各个历史图像数据中心特征中选取第一图像数量的历史图像数据中心特征，计算图像数据特征与第一图像数量的历史图像数据中心特征关联的历史图像数据特征集中历史图像数据特征的图像相似度，基于图像相似度从第一图像数量的历史图像数据中心特征关联的历史图像数据特征集中选取第二图像数量的历史图像数据特征，得到节点历史图像数据特征集，将节点历史图像数据特征集和对应的图像相似度关联返回。

其中，节点服务器中存储每个历史图像数据中心特征关联的部分历史图像数据特征集。基于节点服务器的数量来确定节点服务器中存储每个历史图像数据中心特征关联的历史图像数据特征的数量。比如，节点服务器为3时，可以存储每个历史图像数据中心特征关联的历史图像数据特征数量的三分之一。第一图像数量是指预先设置好的要选取历史图像数据中心特征的数量。第二图像数量是指预先设置好的在选取的历史图像数据特征的数量。

具体地，服务器在进行相似检索时，可以将图像数据特征发送到至少两个节点服务器中，然后节点服务器进行内部检索，即节点服务器在自身存储的部分历史图像数据特征集中进行倒排索引检索，得到节点历史图像数据特征集，则节点历史图像数据特征集中历史图像数据特征的数量为第二图像数量和第一图像数量的乘积。在一个实施例中，节点服务器将节点历史图像数据特征集中历史图像数据特征按照图像相似度的大小依次排序，并选取第二目标数量的历史图像数据特征，得到最终确定的历史图像数据特征集。

步骤1504，获取到至少两个节点服务器返回的至少两个节点历史图像数据特征集和对应的图像相似度，基于图像相似度从至少两个节点历史图像数据特征集中筛选得到候选图像数量的历史图像数据特征，得到候选历史图像数据特征集。

具体地，服务器获取的至少两个节点服务器返回的至少两个节点历史图像数据特征集和对应的图像相似度。再按照图像相似度的大小对返回的历史图像数据特征进行排序，然后排序结果依次从大到小选取候选图像数量的历史图像数据特征，得到候选历史图像数据特征集。

在一个实施例中，待推送数据特征包括视频数据特征；

如图16所示，步骤208，即获取各个已生成数字指纹的历史推送数据特征，计算待推送数据特征和历史推送数据特征的相似程度，基于相似程度从各个已生成数字指纹的历史推送数据特征中确定候选历史推送数据特征集，包括：

步骤1602，将视频数据特征发送到至少两个节点服务器中，节点服务器包括各个历史视频数据中心特征和关联的历史视频数据特征集；至少两个节点服务器获取到视频数据特征，计算视频数据特征与各个历史视频数据中心特征的视频中心相似度，基于视频中心相似度从各个历史视频数据中心特征中选取第一视频数量的历史视频数据中心特征，计算视频数据特征与第一视频数量的历史视频数据中心特征关联的历史视频数据特征集中历史视频数据特征的视频相似度，基于视频相似度从第一视频数量的历史视频数据中心特征关联的历史视频数据特征集中选取第二视频数量的历史视频数据特征，得到节点历史视频数据特征集，将节点历史视频数据特征集和对应的视频相似度关联返回。

其中，节点服务器中存储每个历史视频数据中心特征关联的部分历史视频数据特征集。基于节点服务器的数量来确定节点服务器中存储每个历史视频数据中心特征关联的历史视频数据特征的数量。比如，节点服务器为3时，可以存储每个历史视频数据中心特征关联的历史视频数据特征数量的三分之一。第一视频数量是指预先设置好的要选取历史视频数据中心特征的数量。第二视频数量是指预先设置好的在选取的历史视频数据特征的数量。

具体地，服务器在进行相似检索时，可以将视频数据特征发送到至少两个节点服务器中，然后节点服务器进行内部检索，即节点服务器在自身存储的部分历史视频数据特征集中进行倒排索引检索，得到节点历史视频数据特征集，则节点历史视频数据特征集中历史视频数据特征的数量为第二视频数量和第一视频数量的乘积。在一个实施例中，节点服务器将节点历史视频数据特征集中历史视频数据特征按照视频相似度的大小依次排序，并选取第二目标数量的历史视频数据特征，得到最终确定的历史视频数据特征集。将该最终确定的历史视频数据特征集和对应的视频相似度返回服务器。

步骤1604，获取到至少两个节点服务器返回的至少两个节点历史视频数据特征集和对应的视频相似度，基于视频相似度从至少两个节点历史视频数据特征集中筛选得到候选视频数量的历史视频数据特征，得到候选历史视频数据特征集。

具体地，服务器获取的至少两个节点服务器返回的至少两个节点历史视频数据特征集和对应的视频相似度。再按照视频相似度的大小对返回的历史视频数据特征进行排序，然后排序结果依次从大到小选取候选视频数量的历史视频数据特征，得到候选历史视频数据特征集。

在一个实施例中，待推送数据特征包括文本数据特征；

如图17所示，步骤208，即获取各个已生成数字指纹的历史推送数据特征，计算待推送数据特征和历史推送数据特征的相似程度，基于相似程度从各个已生成数字指纹的历史推送数据特征中确定候选历史推送数据特征集，包括：

步骤1702，将文本数据特征发送到至少两个节点服务器中，节点服务器包括各个历史文本数据中心特征和关联的历史文本数据特征集；至少两个节点服务器获取到文本数据特征，计算文本数据特征与各个历史文本数据中心特征的文本中心相似度，基于文本中心相似度从各个历史文本数据中心特征中选取第一文本数量的历史文本数据中心特征，计算文本数据特征与第一文本数量的历史文本数据中心特征关联的历史文本数据特征集中历史文本数据特征的文本相似度，基于文本相似度从第一文本数量的历史文本数据中心特征关联的历史文本数据特征集中选取第二文本数量的历史文本数据特征，得到节点历史文本数据特征集，将节点历史文本数据特征集和对应的文本相似度关联返回。

其中，节点服务器中存储每个历史文本数据中心特征关联的部分历史文本数据特征集。基于节点服务器的数量来确定节点服务器中存储每个历史文本数据中心特征关联的历史文本数据特征的数量。比如，节点服务器为3时，可以存储每个历史文本数据中心特征关联的历史文本数据特征数量的三分之一。第一文本数量是指预先设置好的要选取历史文本数据中心特征的数量。第二文本数量是指预先设置好的在选取的历史文本数据特征的数量。

具体地，服务器在进行相似检索时，可以将文本数据特征发送到至少两个节点服务器中，然后节点服务器进行内部检索，即节点服务器在自身存储的部分历史文本数据特征集中进行倒排索引检索，得到节点历史文本数据特征集，则节点历史文本数据特征集中历史文本数据特征的数量为第二文本数量和第一文本数量的乘积。在一个实施例中，节点服务器进一步将节点历史文本数据特征集中历史文本数据特征按照文本相似度的大小依次排序，并选取第二目标数量的历史文本数据特征，得到最终确定的历史文本数据特征集。

步骤1704，获取到至少两个节点服务器返回的至少两个节点历史文本数据特征集和对应的文本相似度，基于文本相似度从至少两个节点历史文本数据特征集中筛选得到候选文本数量的历史文本数据特征，得到候选历史文本数据特征集。

具体地，服务器获取的至少两个节点服务器返回的至少两个节点历史文本数据特征集和对应的文本相似度。再按照文本相似度的大小对返回的历史文本数据特征进行排序，然后排序结果依次从大到小选取候选文本数量的历史文本数据特征，得到候选历史文本数据特征集。在一个实施例中，可以通过ElasticFaiss搜索召回固定数量的文本数据特征，将该固定数量的文本数据特征和候选历史文本数据特征集合并作为最终的候选历史文本数据特征集。

在一个实施例中，候选历史推送数据特征集包括候选历史图像数据特征集、候选历史视频数据特征集和候选历史文本数据特征集；

如图18所示，步骤208，从候选历史推送数据特征集中筛选目标历史推送数据特征，包括：

步骤1802，获取候选历史图像数据特征集对应的第一候选历史推送数据集、候选历史视频数据特征集对应的第二候选历史推送数据集和候选历史文本数据特征集对应的第三候选历史推送数据集，基于第一候选历史推送数据集、第二候选历史推送数据集和第三候选历史推送数据集得到目标候选历史推送数据集。

其中，当待推送数据为多模态数据时，包括图像数据、文本数据和视频数据时，得到的候选历史推送数据特征集就包括候选历史图像数据特征集、候选历史视频数据特征集和候选历史文本数据特征集。

具体地，服务器根据候选历史图像数据特征集中每个历史图像数据特征获取到对应的历史推送数据，得到第一候选历史推送数据集，该第一候选历史推送数据集是根据待推送数据中图像数据召回的历史推送数据的集合。再根据候选历史视频数据特征集中每个历史视频数据特征获取到对应的历史推送数据，得到第二候选历史推送数据集，该第二候选历史推送数据集是根据待推送数据中视频数据召回的历史推送数据的集合，再根据候选历史文本数据特征集中每个历史文本数据特征获取到对应的历史推送数据，得到第三候选历史推送数据集，该第三候选历史推送数据集是根据待推送数据中文本数据召回的历史推送数据的集合。然后将第一候选历史推送数据集、第二候选历史推送数据集和第三候选历史推送数据集进行合并，得到目标候选历史推送数据集。

步骤1804，获取候选历史图像数据特征集中候选历史图像数据特征对应的图像相似度，获取候选历史视频数据特征集中候选历史视频数据特征对应的视频相似度，并获取候选历史文本特征集中候选历史文本特征对应的文本相似度。

步骤1806，基于图像相似度、视频相似度、文本相似度计算目标候选历史推送数据集中各个目标候选历史推送数据与待推送数据的相似程度，得到各个目标候选相似度，基于各个目标候选相似度从各个目标候选历史推送数据中确定目标历史推送数据。

其中，图像相似度是指待推送数据中图像数据与候选历史图像数据特征集中历史图像数据特征之间的相似度。视频相似度是指待推送数据中视频数据与候选历史视频数据特征集中历史视频像数据特征之间的相似度，文本相似度是指待推送数据中文本数据与候选历史文本数据特征集中历史文本像数据特征之间的相似度。

具体地，服务器获取到各个图像相似度、各个视频相似度和各个文本相似度，然后计算目标候选历史推送数据集中各个目标候选历史推送数据与待推送数据的相似程度，得到各个目标候选相似度，从各个目标候选历史推送数据中选取目标候选相似度最大的目标候选历史推送数据作为目标历史推送数据。

在一个具体的实施例中，可以使用如下所示的公式(4)计算得到目标候选相似度。

其中，X1表示目标候选历史推送数据，X2表示待推送数据，L(X1，X2)是指目标候选相似度。W1表示图像加权值，W2表示视频加权值，W3表示文本加权值，是根据经验设置好的。

步骤210，即当目标历史推送数据特征符合预设指纹赋予条件时，获取目标历史推送数据特征对应的数字指纹，将目标历史推送数据特征对应的数字指纹作为待推送数据对应的数字指纹，包括：

步骤1808，当目标历史推送数据符合预设指纹赋予条件时，获取目标历史推送数据对应的数字指纹，将目标历史推送数据对应的数字指纹作为待推送数据对应的数字指纹。

具体地，服务器判断当目标历史推送数据对应的目标候选相似度超过预设相似阈值时，服务器获取到目标历史推送数据对应的数字指纹，将目标历史推送数据对应的数字指纹作为待推送数据对应的数字指纹。

在上述实施例中，通过对不同模态数据召回不同的历史推送数据，最后再通过计算目标候选相似度，进而选取得到目标历史推送数据，提高了得到的目标历史推送数据的准确性，然后当目标历史推送数据符合预设指纹赋予条件时，将目标历史推送数据对应的数字指纹作为待推送数据对应的数字指纹，提高了得到的数字指纹的准确性。

在一个具体的实施例中，如图19所示，为检索召回的框架示意图。其中，通过ElasticFaiss(一个构建于faiss库之上的向量相似性搜索集群，ElasticFaiss的架构，接口方式类似于流行的文本搜索服务ElasticSearch，可以方便的帮助用户搭建一个通用的在线相似性搜索服务，适用于很多搜索服务场景)进行相似性搜索服务，包括粗排和精排两个部分。该包括三个主分片，每个主分片都为一个节点服务器，每个副分片中数据都是主分片的备份。在进行实时检索时，当待推送数据特征为单模态数据时，主分片获取到待推送数据特征，在自身保存的三分之一的历史推送数据特征聚类簇中先进行粗排召回，即计算待推送数据特征与历史推送数据中心特征的相似程度，根据相似程度召回topK(正整数)个历史推送数据中心特征，即簇中心，然后在topK个历史推送数据中心特征对应的簇中，即历史推送数据特征集中进行相似召回，即计算待推送数据特征与筛选的历史推送数据特征集中历史推送数据特征的相似程度，根据相似程度选取N(正整数)个历史推送数据特征，即得到候选历史推送数据特征集，该候选历史推送数据特征集中有K*N个历史推送数据特征。然后在根据相似程度进行排序，从候选历史推送数据特征集中选取N个历史推送数据特征，将N个历史推送数据特征返回服务请求。服务器获取到三个主分片返回的3*N个历史推送数据特征，再按照相似程度进行排序，从3*N个历史推送数据特征选取N个历史推送数据特征，然后根据N个历史推送数据特征获取到对应的M(正整数)个历史推送数据，M大于等于N。其中，当待推送数据为多模态数据时，比如包括图像、文本和视频时，召回得到3*M个历史推送数据。然后再通过ElastocSeach搜索召回100个历史文本推送数据。最终得到3*M+100个历史推送数据，作为候选历史推送数据集。然后进行精排，即计算待推送数据与候选历史推送数据集中3*M+100个历史推送数据的相似程度，选取最大相似程度对应的历史推送数据，并且当最大相似程度超过预设相似阈值时，将最大相似程度对应的历史推送数据对应的数字指纹作为该待推送数据对应的数字指纹。其中，通过对数据库中存储的全量推送数据进行数字指纹生成并保存到主分片中，并建立数字指纹全量索引用于进行数字指纹的检索。

在一个实施例中，如图20所示，数字指纹生成方法还包括：

步骤2002，获取待推送数据，获取每个预设特征提取配置信息中预设相似级别信息对应的特征提取模型。

步骤2004，将待推送数据输入到每个预设相似级别信息对应的特征提取模型进行特征提取，得到每个预设相似级别信息对应的待推送数据特征。

步骤2006，基于每个预设相似级别信息对应的待推送数据特征从各个已生成数字指纹的历史推送数据特征中确定每个预设相似级别信息对应的目标历史推送数据特征。

步骤2008，当每个预设相似级别信息对应的目标历史推送数据特征符合预设指纹赋予条件时，将每个预设相似级别信息对应的目标历史推送数据特征对应的数字指纹作为待推送数据对应的数字指纹。

具体地，当服务器只获取到待推送数据，未获取到待推送数据对应的相似等级信息时，此时服务器可以生成每个预设相似级别信息对应的数字指纹，即通过每个预设相似级别信息对应的特征提取模型进行特征提取，并从各个已生成数字指纹的历史推送数据特征中确定每个预设相似级别信息对应的目标历史推送数据特征，并且当每个预设相似级别信息对应的目标历史推送数据特征符合预设指纹赋予条件时，将每个预设相似级别信息对应的目标历史推送数据特征对应的数字指纹作为待推送数据对应的数字指纹。然后将每个预设相似级别信息对应的数字指纹进行保存。进一步，服务器可以发送通知消息到用户终端，该通知信息是已生成每个预设相似级别信息对应的数字指纹的提示信息，然后服务器获取到用户终端选取的相似级别信息对应的数字指纹，并保存该用户终端、待推送数据和选取的相似级别信息对应的数字指纹的关联关系。当接收到用户终端的对待推送数据的相似检索请求时，根据关联关系获取到选取的相似级别信息对应的数字指纹，使用该数字指纹进行相似推送数据检索。

在一个实施例中，如图21所示，提供了一种数据推送方法，以该方法应用于图1中的服务器为例进行说明，可以理解的是，该方法也可以应用在终端中，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。

在本实施例中，包括以下步骤：

步骤2102，获取数据推送请求，数据推送请求中携带有待推送数据标识和目标推送方。

其中，待推送数据标识用于唯一标识待推送数据。目标推送方是指要将待推送数据推送的用户终端。

具体地，服务器获取到业务终端发送的数据推送请求，解析该数据推送请求得到待推送数据标识和目标推送方。服务器也可以直接从数据库中获取到待推送数据标识和目标推送方。

步骤2104，基于待推送数据标识获取对应的待推送数据和对应的待推送数字指纹，待推送数字指纹是通过获取待推送数据对应的相似级别信息，基于相似级别信息从各个预设特征提取配置信息中查找对应的目标特征提取配置信息；从目标特征提取配置信息中获取到相似级别信息对应的特征提取模型，将待推送数据输入到相似级别信息对应的特征提取模型中进行特征提取，得到待推送数据特征，获取各个已生成数字指纹的历史推送数据特征，计算待推送数据特征和历史推送数据特征的相似程度，基于相似程度从各个已生成数字指纹的历史推送数据特征中确定候选历史推送数据特征集，从候选历史推送数据特征集中筛选目标历史推送数据特征；当目标历史推送数据特征符合预设指纹赋予条件时，获取目标历史推送数据特征对应的数字指纹得到的。

具体地，服务器根据待推送数据标识获取对应的待推送数据，然后在数字指纹数据库中查找到待推送数据对应的数字指纹，即得到待推送数字指纹，该待推送数据数字指纹可以是使用上述数字指纹生成方法中任一实施例得到的，比如，通过获取待推送数据对应的相似级别信息，基于相似级别信息从各个预设特征提取配置信息中查找对应的目标特征提取配置信息；从目标特征提取配置信息中获取到相似级别信息对应的特征提取模型，将待推送数据输入到相似级别信息对应的特征提取模型中进行特征提取，得到待推送数据特征，获取各个已生成数字指纹的历史推送数据特征，计算待推送数据特征和历史推送数据特征的相似程度，基于相似程度从各个已生成数字指纹的历史推送数据特征中确定候选历史推送数据特征集，从候选历史推送数据特征集中筛选目标历史推送数据特征；当目标历史推送数据特征符合预设指纹赋予条件时，将目标历史推送数据特征对应的数字指纹作为待推送数字指纹。

步骤2106，基于待推送数据数字指纹在目标推送方对应的推送数据数字指纹库中查找匹配的数字指纹，当未查找到匹配的数字指纹时，将待推送数据向目标推送方进行推送。

具体地，目标推送方对应的推送数据数字指纹库存储有已经向目标推送方推送过的推送数据的数字指纹。服务器当在目标推送方对应的推送数据数字指纹库中查找到该待推送数据数字指纹时，说明该待推送数据已经向目标推送方推送过，则待推送数据是可以不向目标推送方进行推送的，也可以进一步获取到已推送相同数字指纹的推送数据数量等其他信息来计算待推送数据的新鲜度，比如，已推送数据数量越大时，新鲜度越低，当新鲜度小于一定阈值时就不再进行推送，避免相似广告泛滥。当未查找到匹配的数字指纹时，说明还未向目标推送方推送过具有相同数字指纹的推送数据，此时服务器可以将待推送数据向目标推送方进行推送。在一个实施例中，也可以获取到和待推送数据的数字指纹相同的不同推送数据，然后从所有相同数字指纹对应的推送数据和待推送数据中选取最优的推送数据进行推送，其中，可以通过预估所有的推送数据和待推送数据的推送效果来选取最优的推送数据，从而使推送数据达到最大化的推送效果。

在一个实施例中，服务器也可以获取用户终端发送的数据相似搜索请求，数据相似搜索请求中携带有待搜索数据。获取待搜索数据对应的数字指纹，该待搜索数据对应的数字指纹可以是通过上述数字指纹生成方法中任一实施例得到的。使用待搜索数据对应的数字指纹在数字指纹数据库中匹配相同的数字指纹，当匹配到相同的数字指纹时，获取到相同数字指纹对应的相似数据，将相似数据作为搜索结果返回给用户终端。比如，用户可以通过搜索应用中的搜索页面进行数据搜索。

本申请还提供一种应用场景，该应用场景应用上述的数字指纹生成方法。在方法应用到广告相似检索系统中，具体来说，如图22所示，为广告相似检索系统的架构示意图。其中，通过将配置信息即预先设置好的特征提取配置信息推送到配置中心，并合并成服务镜像。当需要对全量广告素材进行指纹生成时，从配置中心中拉取服务镜像，并加载服务实例进程。在服务实例进程中通过多模型特征提取相应相似级别和模态数据的特征，比如，通过相同相似级别的文本特征提取模型对待生成广告素材中的文本进行特征提取，通过相同相似级别的视频特征提取模型对待生成广告素材中的视频进行特征提取，通过相同相似级别的图像特征提取模型对待生成广告素材中的图像进行特征提取，得到提取到的待生成广告素材的特征。然后将提取到的待生成广告素材的特征在向量相似性搜索集群(ElasticFaiss)以及分布式检索引擎(ElasticSearch)中进行单/多/跨模态相似召回并排序，其中，通过在相似性搜索集群中进行粗排，并在分布式检索引擎中进行固定数量的相似召回，得到粗排结果，即召回与待生成广告素材相似的250个已有数字指纹的广告素材。然后进行精排，即通过计算已有数字指纹的广告素材的特征与待生成广告素材之间的距离相似度，按照距离相似度从大到小依次排序，选取排序前30的已有数字指纹的广告素材，并且当排序前30的广告素材对应的聚类相似度超过预设相似阈值时，从排序前30的广告素材对应的数字指纹中选取出现次数最多的数字指纹作为待生成广告素材的数字指纹。依次生成全量广告素材对应的数字指纹并保存到指纹数据库中。然后可以进行后续的指纹生成和订阅，其中，指纹生成是指对新的广告素材从已有数字指纹的广告素材中进行广告素材召回，即通过已有数字指纹的广告素材对新的广告素材通过粗排以及精排，从而得到新的广告素材对应的指纹。其中，可以生成新的广告素材在不同相似级别下对应的数字指纹。然后通过进行对比实验，从不同相似级别对应的数字指纹中确定最优选的相似级别对应的数字指纹作为该新的广告素材对应的唯一数字指纹。也可以使用已有数字指纹的广告素材进行后续的业务使用，比如，进行广告审核，进行广告搜索服务、进行广告推荐等等。

在一个具体的实施例中，可以通过广告生成端对广告库中的广告使用上述数字指纹生成方法的任意一实施例来生成对应的数字指纹，并保存到广告数字指纹库。然后通过广告推荐端进行广告，即获取到要推荐的广告，查找到要推荐广告的广告指纹，并在广告数字指纹库中查找到相同的数字指纹，并获取到相同数字指纹的各个广告，然后从相同数字指纹的各个广告按照业务设定的推荐策略来选取最优的广告，然后将最后的广告进行广告投放。应该理解的是，虽然图2-21中的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-21中流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图23所示，提供了一种数字指纹生成装置2300，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块2302、配置查找模块2304、特征提取模块2306、特征筛选模块2308和指纹得到模块2310，其中：

获取模块2302，用于获取待推送数据和对应的相似级别信息；

配置查找模块2304，用于基于相似级别信息从各个预设特征提取配置信息中查找对应的目标特征提取配置信息，预设特征提取配置信息中包括预设相似级别信息对应的特征提取模型；

特征提取模块2306，用于从目标特征提取配置信息中获取到相似级别信息对应的特征提取模型，将待推送数据输入到相似级别信息对应的特征提取模型中进行特征提取，得到待推送数据特征；

特征筛选模块2308，用于获取各个已生成数字指纹的历史推送数据特征，计算待推送数据特征和历史推送数据特征的相似程度，基于相似程度从各个已生成数字指纹的历史推送数据特征中确定候选历史推送数据特征集，从候选历史推送数据特征集中筛选目标历史推送数据特征；

指纹得到模块2310，用于当目标历史推送数据特征符合预设指纹赋予条件时，获取目标历史推送数据特征对应的数字指纹，将目标历史推送数据特征对应的数字指纹作为待推送数据对应的数字指纹，待推送数据对应的数字指纹用于检索与待推送数据具有相同相似级别信息的推送数据。

在一个实施例中，获取模块2302还用于获取指纹生成服务镜像地址，基于指纹生成服务镜像地址加载指纹生成服务，指纹生成服务中包括各个预设特征提取配置信息通过预设脚本文件启动指纹生成服务，通过指纹生成服务获取待推送数据和对应的相似级别信息。

在一个实施例中，获取模块2302还用于获取到待推送数据检索请求，待推送数据检索请求携带有待推送数据标识；基于待推送数据标识在预设指纹缓存中查找对应的数字指纹，当未查找到待推送数据标识对应的数字指纹时，基于待推送数据标识获取待推送数据和对应的相似级别信息。

配置查找模块2304还用于基于图像相似级别、视频相似级别和文本相似级别中的至少一种从各个预设特征提取配置信息中的预设相似级别信息中查找相同相似级别信息，将相同相似级别信息对应的预设特征提取配置信息作为目标特征提取配置信息，目标特征提取配置信息中包括图像相似级别、视频相似级别和文本相似级别中的至少一种对应的特征提取模型。

在一个实施例中，特征提取模块2306还用于从目标特征提取配置信息中获取到图像相似级别、视频相似级别和文本相似级别中的至少一种对应的特征提取模型；将图像数据输入到图像相似级别对应的特征提取模型中进行图像特征提取，得到图像特征；和/或将视频数据输入到视频相似级别对应的特征提取模型中进行视频特征提取，得到视频特征；和/或将文本数据输入到文本相似级别对应的特征提取模型中进行文本特征提取，得到文本特征。

在一个实施例中，数字指纹生成装置2300，还包括：

图像模型训练模块，用于获取训练图像集，训练图像集包括训练图像和对应的图像类别标签，训练图像集中训练图像具有相同的图像相似级别；从训练图像集中确定当前训练图像，将当前训练图像输入到初始图像类别预测模型中，初始图像类别预测模型通过图像特征提取网络输出初始图像表征，基于初始图像表征进行图像类别预测，得到初始图像类别；计算初始图像类别与图像类别标签的误差，基于误差更新初始图像类别预测模型，并返回将当前训练图像输入到初始图像类别预测模型中的步骤执行，直到达到图像训练完成条件时，得到图像相似级别对应的图像类别预测模型；基于图像类别预测模型中的图像特征提取网络得到图像相似级别对应的图像特征提取模型。

在一个实施例中，数字指纹生成装置2300，还包括：

视频模型训练模块，用于获取训练视频集，训练视频集包括训练视频和对应的视频类别标签，训练视频集中训练视频具有相同的视频相似级别；从训练视频集中确定当前训练视频，按照预设时间间隔从当前训练视频中抽取视频帧，得到视频帧序列；将视频帧序列输入到初始视频类别预测模型中，初始视频类别预测模型通过初始映射网络将视频帧序列进行映射，得到初始映射特征，将映射特征输入到初始注意力编码网络进行注意力编码，得到初始视频特征，将初始视频特征输入到初始分类网络中进行分类，得到初始视频类别；计算初始视频类别与视频类别标签的误差，基于误差更新初始视频类别预测模型，并返回将从训练视频集中确定当前训练视频的步骤执行，直到达到视频训练完成条件时，得到视频相似级别对应的视频类别预测模型；基于视频类别预测模型中的映射网络和注意力编码网络得到视频相似级别对应的特征提取模型。

在一个实施例中，数字指纹生成装置2300，还包括：

文本模型训练模块，用于获取训练文本集，训练文本集包括文本三元组，文本三元组包括目标文本、正文本和负文本；文本三元组中目标文本和正文本具有相同的文本相似级别；将文本三元组输入到初始文本特征提取模型中进行特征提取，得到目标文本特征、正文本特征和负文本特征；获取文本三元组对应的正检索相似度和负检索相似度；计算目标文本特征与正文本特征的相似距离，得到正距离相似度，并计算目标文本特征与正文本特征的相似距离，得到负距离相似度；基于正检索相似度、负检索相似度、正距离相似度和负距离相似度进行三元组损失计算，得到文本三元组对应的初始损失信息；基于初始损失信息更新初始文本特征提取模型，并返回获取文本三元组的步骤迭代执行，直到达到文本训练完成条件时，得到文本相似级别对应的文本特征提取模型。

在一个实施例中，文本模型训练模块还用于计算正检索相似度与正距离相似度之间的误差，得到正误差信息，并计算负检索相似度与负距离相似度的负误差信息；计算正误差信息和负误差信息的信息和，得到文本三元组对应的初始损失信息。

特征筛选模块2308还用于计算待推送数据特征与至少两个历史推送数据中心特征的中心相似程度，基于中心相似程度从至少两个历史推送数据中心特征中选取第一目标数量的历史推送数据中心特征；获取第一目标数量的历史推送数据中心特征关联的历史推送数据特征集，计算待推送数据特征与历史推送数据特征集中历史推送数据特征的特征相似程度，基于特征相似程度从历史推送数据特征集中选取第二目标数量的历史推送数据特征，得到候选历史推送数据特征集；基于特征相似度从候选历史推送数据特征集中确定最大特征相似度对应的历史推送数据特征，将最大特征相似度对应的历史推送数据特征作为目标历史推送数据特征；

指纹得到模块2310还用于当最大特征相似度超过预设相似度阈值时，获取目标历史推送数据特征对应的数字指纹，将目标历史推送数据特征对应的数字指纹作为待推送数据对应的数字指纹。

在一个实施例中，指纹得到模块2310还用于当目标历史推送数据特征未符合预设指纹赋予条件时，将待推送数据存储至目标消息队列中；检测达到预设指纹生成条件时，从目标消息队列中获取到各个待推送数据，将各个待推送数据进行相似聚类，得到各个待推送数据集；生成各个待推送数据集对应的数字指纹，得到各个待推送数据集中待推送数据对应的数字指纹。

在一个实施例中，待推送数据特征包括图像数据特征；

特征筛选模块2308还用于将图像数据特征发送到至少两个节点服务器中，节点服务器包括各个历史图像数据中心特征和关联的历史图像数据特征集；至少两个节点服务器获取到图像数据特征，计算图像数据特征与各个历史图像数据中心特征的图像中心相似度，基于图像中心相似度从各个历史图像数据中心特征中选取第一图像数量的历史图像数据中心特征，计算图像数据特征与第一图像数量的历史图像数据中心特征关联的历史图像数据特征集中历史图像数据特征的图像相似度，基于图像相似度从第一图像数量的历史图像数据中心特征关联的历史图像数据特征集中选取第二图像数量的历史图像数据特征，得到节点历史图像数据特征集，将节点历史图像数据特征集和对应的图像相似度关联返回；获取到至少两个节点服务器返回的至少两个节点历史图像数据特征集和对应的图像相似度，基于图像相似度从至少两个节点历史图像数据特征集中筛选得到候选图像数量的历史图像数据特征，得到候选历史图像数据特征集。

在一个实施例中，待推送数据特征包括视频数据特征；

特征筛选模块2308还用于将视频数据特征发送到至少两个节点服务器中，节点服务器包括各个历史视频数据中心特征和关联的历史视频数据特征集；至少两个节点服务器获取到视频数据特征，计算视频数据特征与各个历史视频数据中心特征的视频中心相似度，基于视频中心相似度从各个历史视频数据中心特征中选取第一视频数量的历史视频数据中心特征，计算视频数据特征与第一视频数量的历史视频数据中心特征关联的历史视频数据特征集中历史视频数据特征的视频相似度，基于视频相似度从第一视频数量的历史视频数据中心特征关联的历史视频数据特征集中选取第二视频数量的历史视频数据特征，得到节点历史视频数据特征集，将节点历史视频数据特征集和对应的视频相似度关联返回；获取到至少两个节点服务器返回的至少两个节点历史视频数据特征集和对应的视频相似度，基于视频相似度从至少两个节点历史视频数据特征集中筛选得到候选视频数量的历史视频数据特征，得到候选历史视频数据特征集。

在一个实施例中，待推送数据特征包括文本数据特征；

特征筛选模块2308还用于将文本数据特征发送到至少两个节点服务器中，节点服务器包括各个历史文本数据中心特征和关联的历史文本数据特征集；至少两个节点服务器获取到文本数据特征，计算文本数据特征与各个历史文本数据中心特征的文本中心相似度，基于文本中心相似度从各个历史文本数据中心特征中选取第一文本数量的历史文本数据中心特征，计算文本数据特征与第一文本数量的历史文本数据中心特征关联的历史文本数据特征集中历史文本数据特征的文本相似度，基于文本相似度从第一文本数量的历史文本数据中心特征关联的历史文本数据特征集中选取第二文本数量的历史文本数据特征，得到节点历史文本数据特征集，将节点历史文本数据特征集和对应的文本相似度关联返回；获取到至少两个节点服务器返回的至少两个节点历史文本数据特征集和对应的文本相似度，基于文本相似度从至少两个节点历史文本数据特征集中筛选得到候选文本数量的历史文本数据特征，得到候选历史文本数据特征集。

特征筛选模块2308还用于获取候选历史图像数据特征集对应的第一候选历史推送数据集、候选历史视频数据特征集对应的第二候选历史推送数据集和候选历史文本数据特征集对应的第三候选历史推送数据集，基于第一候选历史推送数据集、第二候选历史推送数据集和第三候选历史推送数据集得到目标候选历史推送数据集；获取候选历史图像数据特征集中候选历史图像数据特征对应的图像相似度，获取候选历史视频数据特征集中候选历史视频数据特征对应的视频相似度，并获取候选历史文本特征集中候选历史文本特征对应的文本相似度；基于图像相似度、视频相似度、文本相似度计算目标候选历史推送数据集中各个目标候选历史推送数据与待推送数据的相似程度，得到各个目标候选相似度，基于各个目标候选相似度从各个目标候选历史推送数据中确定目标历史推送数据；

指纹得到模块2310还用于当目标历史推送数据符合预设指纹赋予条件时，获取目标历史推送数据对应的数字指纹，将目标历史推送数据对应的数字指纹作为待推送数据对应的数字指纹。

在一个实施例中，数字指纹生成装置2300还包括：

多指纹生成模块，用于获取待推送数据，获取每个预设特征提取配置信息中预设相似级别信息对应的特征提取模型；将待推送数据输入到每个预设相似级别信息对应的特征提取模型进行特征提取，得到每个预设相似级别信息对应的待推送数据特征；基于每个预设相似级别信息对应的待推送数据特征从各个已生成数字指纹的历史推送数据特征中确定每个预设相似级别信息对应的目标历史推送数据特征；当每个预设相似级别信息对应的目标历史推送数据特征符合预设指纹赋予条件时，将每个预设相似级别信息对应的目标历史推送数据特征对应的数字指纹作为待推送数据对应的数字指纹。

在一个实施例中，如图24所示，提供了一种数据推送装置2400，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括请求获取模块2402、指纹获取模块2404和推送模块2406，其中：

请求获取模块2402，用于获取数据推送请求，数据推送请求中携带有待推送数据标识和目标推送方；

指纹获取模块2404，用于基于待推送数据标识获取对应的待推送数据和对应的待推送数字指纹，待推送数字指纹是通过获取待推送数据对应的相似级别信息，基于相似级别信息从各个预设特征提取配置信息中查找对应的目标特征提取配置信息；从目标特征提取配置信息中获取到相似级别信息对应的特征提取模型，将待推送数据输入到相似级别信息对应的特征提取模型中进行特征提取，得到待推送数据特征，获取各个已生成数字指纹的历史推送数据特征，计算待推送数据特征和历史推送数据特征的相似程度，基于相似程度从各个已生成数字指纹的历史推送数据特征中确定候选历史推送数据特征集，从候选历史推送数据特征集中筛选目标历史推送数据特征；当目标历史推送数据特征符合预设指纹赋予条件时，获取目标历史推送数据特征对应的数字指纹得到的；

推送模块2406，用于基于待推送数据数字指纹在目标推送方对应的推送数据数字指纹库中查找匹配的数字指纹，当未查找到匹配的数字指纹时，将待推送数据向目标推送方进行推送。

关于数字指纹生成装置以及数据推送装置的具体限定可以参见上文中对于数字指纹生成方法以及数据推送方法的限定，在此不再赘述。上述数字指纹生成装置以及数据推送装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图25所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储已生成数字指纹的历史推送数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数字指纹生成方法或者数据推送方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图26所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数字指纹生成方法或者数据推送方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图25和26中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种数字指纹生成方法，其特征在于，所述方法包括：

获取待推送数据和对应的相似级别信息；

基于所述相似级别信息从各个预设特征提取配置信息中查找对应的目标特征提取配置信息，所述预设特征提取配置信息中包括预设相似级别信息对应的特征提取模型；

从所述目标特征提取配置信息中获取到所述相似级别信息对应的特征提取模型，将所述待推送数据输入到所述相似级别信息对应的特征提取模型中进行特征提取，得到待推送数据特征；

获取各个已生成数字指纹的历史推送数据特征，计算所述待推送数据特征和所述历史推送数据特征的相似程度，基于所述相似程度从所述各个已生成数字指纹的历史推送数据特征中确定候选历史推送数据特征集，从所述候选历史推送数据特征集中筛选目标历史推送数据特征；

当所述目标历史推送数据特征符合预设指纹赋予条件时，获取所述目标历史推送数据特征对应的数字指纹，将所述目标历史推送数据特征对应的数字指纹作为所述待推送数据对应的数字指纹，所述待推送数据对应的数字指纹用于检索与所述待推送数据具有相同相似级别信息的推送数据。

2.根据权利要求1所述的方法，其特征在于，所述获取待推送数据和对应的相似级别信息，包括：

获取指纹生成服务镜像地址，基于指纹生成服务镜像地址加载指纹生成服务，所述指纹生成服务中包括各个预设特征提取配置信息

通过预设脚本文件启动指纹生成服务，通过所述指纹生成服务获取待推送数据和对应的相似级别信息。

3.根据权利要求1所述的方法，其特征在于，所述获取待推送数据和对应的相似级别信息，包括：

获取到待推送数据检索请求，所述待推送数据检索请求携带有待推送数据标识；

基于所述待推送数据标识在预设指纹缓存中查找对应的数字指纹，当未查找到所述待推送数据标识对应的数字指纹时，基于所述待推送数据标识获取待推送数据和对应的相似级别信息。

4.根据权利要求1所述的方法，其特征在于，所述待推送数据包括图像数据、视频数据和文本数据中的至少一种，所述相似级别信息包括图像相似级别、视频相似级别和文本相似级别中的至少一种；

所述基于所述相似级别信息从各个预设特征提取配置信息中查找对应的目标特征提取配置信息，包括：

基于所述图像相似级别、视频相似级别和文本相似级别中的至少一种从所述各个预设特征提取配置信息中的预设相似级别信息中查找相同相似级别信息，将相同相似级别信息对应的预设特征提取配置信息作为目标特征提取配置信息，所述目标特征提取配置信息中包括图像相似级别、视频相似级别和文本相似级别中的至少一种对应的特征提取模型。

5.根据权利要求4所述的方法，其特征在于，从所述目标特征提取配置信息中获取到所述相似级别信息对应的特征提取模型，将所述待推送数据输入到所述相似级别信息对应的特征提取模型中进行特征提取，得到待推送数据特征，包括：

从所述目标特征提取配置信息中获取到所述图像相似级别、视频相似级别和文本相似级别中的至少一种对应的特征提取模型；

将所述图像数据输入到所述图像相似级别对应的特征提取模型中进行图像特征提取，得到图像特征；和/或

将所述视频数据输入到所述视频相似级别对应的特征提取模型中进行视频特征提取，得到视频特征；和/或

将所述文本数据输入到所述文本相似级别对应的特征提取模型中进行文本特征提取，得到文本特征。

6.根据权利要求5所述的方法，其特征在于，所述图像相似级别对应的特征提取模型的生成包括以下步骤：

获取训练图像集，所述训练图像集包括训练图像和对应的图像类别标签，所述训练图像集中训练图像具有相同的所述图像相似级别；

从训练图像集中确定当前训练图像，将所述当前训练图像输入到初始图像类别预测模型中，所述初始图像类别预测模型通过图像特征提取网络输出初始图像表征，基于所述初始图像表征进行图像类别预测，得到初始图像类别；

计算所述初始图像类别与所述图像类别标签的误差，基于所述误差更新所述初始图像类别预测模型，并返回将所述当前训练图像输入到初始图像类别预测模型中的步骤执行，直到达到图像训练完成条件时，得到所述图像相似级别对应的图像类别预测模型；

基于所述图像类别预测模型中的图像特征提取网络得到所述图像相似级别对应的图像特征提取模型。

7.根据权利要求5所述的方法，其特征在于，所述视频相似级别对应的特征提取模型的生成包括以下步骤：

获取训练视频集，所述训练视频集包括训练视频和对应的视频类别标签，所述训练视频集中训练视频具有相同的所述视频相似级别；

从训练视频集中确定当前训练视频，按照预设时间间隔从所述当前训练视频中抽取视频帧，得到视频帧序列；

将所述视频帧序列输入到初始视频类别预测模型中，所述初始视频类别预测模型通过初始映射网络将所述视频帧序列进行映射，得到初始映射特征，将映射特征输入到初始注意力编码网络进行注意力编码，得到初始视频特征，将初始视频特征输入到初始分类网络中进行分类，得到初始视频类别；

计算初始视频类别与所述视频类别标签的误差，基于所述误差更新所述初始视频类别预测模型，并返回将所述从训练视频集中确定当前训练视频的步骤执行，直到达到视频训练完成条件时，得到所述视频相似级别对应的视频类别预测模型；

基于所述视频类别预测模型中的映射网络和注意力编码网络得到所述视频相似级别对应的特征提取模型。

8.根据权利要求5所述的方法，其特征在于，所述文本相似级别对应的特征提取模型的生成包括以下步骤：

获取训练文本集，所述训练文本集包括文本三元组，所述文本三元组包括目标文本、正文本和负文本；所述文本三元组中目标文本和正文本具有相同的所述文本相似级别；

将所述文本三元组输入到初始文本特征提取模型中进行特征提取，得到目标文本特征、正文本特征和负文本特征；

获取所述文本三元组对应的正检索相似度和负检索相似度；

计算所述目标文本特征与正文本特征的相似距离，得到正距离相似度，并计算所述目标文本特征与正文本特征的相似距离，得到负距离相似度；

基于所述正检索相似度、负检索相似度、正距离相似度和负距离相似度进行三元组损失计算，得到所述文本三元组对应的初始损失信息；

基于所述初始损失信息更新所述初始文本特征提取模型，并返回获取文本三元组的步骤迭代执行，直到达到文本训练完成条件时，得到所述文本相似级别对应的文本特征提取模型。

9.根据权利要求8所述的方法，其特征在于，基于所述正检索相似度、负检索相似度、正距离相似度和负距离相似度进行三元组损失计算，得到所述文本三元组对应的初始损失信息，包括：

计算所述正检索相似度与所述正距离相似度之间的误差，得到正误差信息，并计算所述负检索相似度与所述负距离相似度的负误差信息；

计算所述正误差信息和所述负误差信息的信息和，得到所述文本三元组对应的初始损失信息。

10.根据权利要求1所述的方法，其特征在于，所述各个已生成数字指纹的历史推送数据特征中包括至少两个历史推送数据中心特征；

所述计算所述待推送数据特征和所述历史推送数据特征的相似程度，基于所述相似程度从所述各个已生成数字指纹的历史推送数据特征中确定候选历史推送数据特征集，从所述候选历史推送数据特征集中筛选目标历史推送数据特征，包括：

计算所述待推送数据特征与所述至少两个历史推送数据中心特征的中心相似程度，基于所述中心相似程度从所述至少两个历史推送数据中心特征中选取第一目标数量的历史推送数据中心特征；

获取所述第一目标数量的历史推送数据中心特征关联的历史推送数据特征集，计算所述待推送数据特征与所述历史推送数据特征集中历史推送数据特征的特征相似程度，基于所述特征相似程度从所述历史推送数据特征集中选取第二目标数量的历史推送数据特征，得到候选历史推送数据特征集；

基于所述特征相似度从所述候选历史推送数据特征集中确定最大特征相似度对应的历史推送数据特征，将所述最大特征相似度对应的历史推送数据特征作为所述目标历史推送数据特征；

所述当所述目标历史推送数据特征符合预设指纹赋予条件时，获取所述目标历史推送数据特征对应的数字指纹，将所述目标历史推送数据特征对应的数字指纹作为所述待推送数据对应的数字指纹，包括：

当所述最大特征相似度超过预设相似度阈值时，获取所述目标历史推送数据特征对应的数字指纹，将所述目标历史推送数据特征对应的数字指纹作为所述待推送数据对应的数字指纹。

11.根据权利要求1所述的方法，其特征在于，所述当所述目标历史推送数据特征符合预设指纹赋予条件时，获取所述目标历史推送数据特征对应的数字指纹，将所述目标历史推送数据特征对应的数字指纹作为所述待推送数据对应的数字指纹，包括：

当所述目标历史推送数据特征未符合预设指纹赋予条件时，将所述待推送数据存储至目标消息队列中；

检测达到预设指纹生成条件时，从所述目标消息队列中获取到各个待推送数据，将所述各个待推送数据进行相似聚类，得到各个待推送数据集；

生成所述各个待推送数据集对应的数字指纹，得到所述各个待推送数据集中待推送数据对应的数字指纹。

12.根据权利要求1所述的方法，其特征在于，所述待推送数据特征包括图像数据特征；

将所述图像数据特征发送到至少两个节点服务器中，所述节点服务器包括各个历史图像数据中心特征和关联的历史图像数据特征集；所述至少两个节点服务器获取到所述图像数据特征，计算所述图像数据特征与各个历史图像数据中心特征的图像中心相似度，基于所述图像中心相似度从所述各个历史图像数据中心特征中选取第一图像数量的历史图像数据中心特征，计算所述图像数据特征与所述第一图像数量的历史图像数据中心特征关联的历史图像数据特征集中历史图像数据特征的图像相似度，基于所述图像相似度从所述第一图像数量的历史图像数据中心特征关联的历史图像数据特征集中选取第二图像数量的历史图像数据特征，得到节点历史图像数据特征集，将所述节点历史图像数据特征集和对应的图像相似度关联返回；

获取到所述至少两个节点服务器返回的至少两个节点历史图像数据特征集和对应的图像相似度，基于所述图像相似度从所述至少两个节点历史图像数据特征集中筛选得到候选图像数量的历史图像数据特征，得到候选历史图像数据特征集。

13.根据权利要求1所述的方法，其特征在于，所述候选历史推送数据特征集包括候选历史图像数据特征集、候选历史视频数据特征集和候选历史文本数据特征集；

所述从所述候选历史推送数据特征集中筛选目标历史推送数据特征，包括：

获取所述候选历史图像数据特征集对应的第一候选历史推送数据集、所述候选历史视频数据特征集对应的第二候选历史推送数据集和所述候选历史文本数据特征集对应的第三候选历史推送数据集，基于所述第一候选历史推送数据集、所述第二候选历史推送数据集和所述第三候选历史推送数据集得到目标候选历史推送数据集；

获取所述候选历史图像数据特征集中候选历史图像数据特征对应的图像相似度，获取所述候选历史视频数据特征集中候选历史视频数据特征对应的视频相似度，并获取所述候选历史文本特征集中候选历史文本特征对应的文本相似度；

基于所述图像相似度、所述视频相似度、所述文本相似度计算所述目标候选历史推送数据集中各个目标候选历史推送数据与所述待推送数据的相似程度，得到各个目标候选相似度，基于所述各个目标候选相似度从所述各个目标候选历史推送数据中确定目标历史推送数据；

当所述目标历史推送数据符合预设指纹赋予条件时，获取所述目标历史推送数据对应的数字指纹，将所述目标历史推送数据对应的数字指纹作为所述待推送数据对应的数字指纹。

14.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取待推送数据，获取每个预设特征提取配置信息中预设相似级别信息对应的特征提取模型；

将所述待推送数据输入到每个预设相似级别信息对应的特征提取模型进行特征提取，得到每个预设相似级别信息对应的待推送数据特征；

基于所述每个预设相似级别信息对应的待推送数据特征从所述各个已生成数字指纹的历史推送数据特征中确定所述每个预设相似级别信息对应的目标历史推送数据特征；

当所述每个预设相似级别信息对应的目标历史推送数据特征符合预设指纹赋予条件时，将所述每个预设相似级别信息对应的目标历史推送数据特征对应的数字指纹作为所述待推送数据对应的数字指纹。

15.一种数据推送方法，其特征在于，所述方法包括：

获取数据推送请求，所述数据推送请求中携带有待推送数据标识和目标推送方；

基于所述待推送数据标识获取对应的待推送数据和对应的待推送数字指纹，所述待推送数字指纹是通过获取待推送数据对应的相似级别信息，基于所述相似级别信息从各个预设特征提取配置信息中查找对应的目标特征提取配置信息；从所述目标特征提取配置信息中获取到所述相似级别信息对应的特征提取模型，将所述待推送数据输入到所述相似级别信息对应的特征提取模型中进行特征提取，得到待推送数据特征，获取各个已生成数字指纹的历史推送数据特征，计算所述待推送数据特征和所述历史推送数据特征的相似程度，基于所述相似程度从所述各个已生成数字指纹的历史推送数据特征中确定候选历史推送数据特征集，从所述候选历史推送数据特征集中筛选目标历史推送数据特征；当所述目标历史推送数据特征符合预设指纹赋予条件时，获取所述目标历史推送数据特征对应的数字指纹得到的；

基于所述待推送数据数字指纹在所述目标推送方对应的推送数据数字指纹库中查找匹配的数字指纹，当未查找到匹配的数字指纹时，将所述待推送数据向所述目标推送方进行推送。

16.一种数字指纹生成装置，其特征在于，所述装置包括：

获取模块，用于获取待推送数据和对应的相似级别信息；

配置查找模块，用于基于所述相似级别信息从各个预设特征提取配置信息中查找对应的目标特征提取配置信息，所述预设特征提取配置信息中包括预设相似级别信息对应的特征提取模型；

特征提取模块，用于从所述目标特征提取配置信息中获取到所述相似级别信息对应的特征提取模型，将所述待推送数据输入到所述相似级别信息对应的特征提取模型中进行特征提取，得到待推送数据特征；

特征筛选模块，用于获取各个已生成数字指纹的历史推送数据特征，计算所述待推送数据特征和所述历史推送数据特征的相似程度，基于所述相似程度从所述各个已生成数字指纹的历史推送数据特征中确定候选历史推送数据特征集，从所述候选历史推送数据特征集中筛选目标历史推送数据特征；

指纹得到模块，用于当所述目标历史推送数据特征符合预设指纹赋予条件时，获取所述目标历史推送数据特征对应的数字指纹，将所述目标历史推送数据特征对应的数字指纹作为所述待推送数据对应的数字指纹，所述待推送数据对应的数字指纹用于检索与所述待推送数据具有相同相似级别信息的推送数据。

17.一种数据推送装置，其特征在于，所述装置包括：

请求获取模块，用于获取数据推送请求，所述数据推送请求中携带有待推送数据标识和目标推送方；

指纹获取模块，用于基于所述待推送数据标识获取对应的待推送数据和对应的待推送数字指纹，所述待推送数字指纹是通过获取待推送数据对应的相似级别信息，基于所述相似级别信息从各个预设特征提取配置信息中查找对应的目标特征提取配置信息；从所述目标特征提取配置信息中获取到所述相似级别信息对应的特征提取模型，将所述待推送数据输入到所述相似级别信息对应的特征提取模型中进行特征提取，得到待推送数据特征，获取各个已生成数字指纹的历史推送数据特征，计算所述待推送数据特征和所述历史推送数据特征的相似程度，基于所述相似程度从所述各个已生成数字指纹的历史推送数据特征中确定候选历史推送数据特征集，从所述候选历史推送数据特征集中筛选目标历史推送数据特征；当所述目标历史推送数据特征符合预设指纹赋予条件时，获取所述目标历史推送数据特征对应的数字指纹得到的；

推送模块，用于基于所述待推送数据数字指纹在所述目标推送方对应的推送数据数字指纹库中查找匹配的数字指纹，当未查找到匹配的数字指纹时，将所述待推送数据向所述目标推送方进行推送。

18.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至15中任一项所述的方法的步骤。

19.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至15中任一项所述的方法的步骤。

20.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至15任一项所述方法的步骤。