CN117952095A

CN117952095A - 广告素材召回模型的训练方法、装置、设备以及存储介质

Info

Publication number: CN117952095A
Application number: CN202211347757.9A
Authority: CN
Inventors: 周彬
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2024-04-30

Abstract

本申请公开了一种广告素材召回模型的训练方法、装置、设备以及存储介质，属于计算机技术领域。通过本申请实施例提供的技术方案，能够通过广告素材召回模型来提取样本账号、样本广告文本以及样本广告图像的账号特征、文本特征以及图像特征。基于账号特征与文本特征之间的第一差异信息，以及账号特征与图像特征之间的第二差异信息，对该广告素材召回模型进行训练，从而实现账号特征、文本特征以及图像特征三种类型特征的对齐，使得广告素材召回模型具有基于账号来召回广告素材的能力。

Description

广告素材召回模型的训练方法、装置、设备以及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种广告素材召回模型的训练方法、装置、设备以及存储介质。

背景技术

随着计算机技术的发展，广告素材的数量越来越多，广告素材具有多种类型，包括广告文本、广告视频以及广告图像等。

相关技术中，存在各种类型的广告素材召回模型，比如，存在基于广告文本来召回广告图像的文图召回模型，也存在基于广告图像来召回广告文本的图文召回模型。

但是，各种类型的广告素材召回模型仅仅能够实现不同类型的广告素材之间的相互召回，召回手段较为单一。

发明内容

本申请实施例提供了一种广告素材召回模型的训练方法、装置、设备以及存储介质，可以训练基于账号召回广告素材的广告素材召回模型，丰富召回手段，所述技术方案如下：

一方面，提供了一种广告素材召回模型的训练方法，所述方法包括：

将样本账号、样本广告文本以及样本广告图像输入广告素材召回模型，所述广告素材召回模型用于基于账号召回广告文本和广告图像中的至少一项；

通过所述广告素材召回模型，分别对所述样本账号、所述样本广告文本以及所述样本广告图像进行特征提取，得到所述样本账号的账号特征、所述样本广告文本的文本特征以及所述样本广告图像的图像特征；

基于所述样本账号与所述样本广告文本以及所述样本广告图像之间的关联关系、第一差异信息和第二差异信息，对所述广告素材召回模型进行训练，所述第一差异信息为所述样本账号的账号特征与所述样本广告文本的文本特征之间的差异信息，所述第二差异信息为所述样本账号的账号特征与所述样本广告图像的图像特征之间的第二差异信息。

一方面，提供了一种广告素材召回模型的训练装置，所述装置包括：

输入模块，用于将样本账号、样本广告文本以及样本广告图像输入广告素材召回模型，所述广告素材召回模型用于基于账号召回广告文本和广告图像中的至少一项；

特征提取模块，用于通过所述广告素材召回模型，分别对所述样本账号、所述样本广告文本以及所述样本广告图像进行特征提取，得到所述样本账号的账号特征、所述样本广告文本的文本特征以及所述样本广告图像的图像特征；

训练模块，基于所述样本账号与所述样本广告文本以及所述样本广告图像之间的关联关系、第一差异信息和第二差异信息，对所述广告素材召回模型进行训练，所述第一差异信息为所述样本账号的账号特征与所述样本广告文本的文本特征之间的差异信息，所述第二差异信息为所述样本账号的账号特征与所述样本广告图像的图像特征之间的第二差异信息。方面，提供了一种计算机设备，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述计算机程序由所述一个或多个处理器加载并执行以实现所述广告素材召回模型的训练方法。

在一种可能的实施方式中，所述特征提取模块，用于通过所述广告素材召回模型，对所述样本账号进行嵌入编码，得到所述样本账号的账号特征；通过所述广告素材召回模型，对所述样本广告文本进行分词，得到所述样本广告文本中的多个词汇；基于注意力机制对所述多个词汇以及各个所述词汇的位置进行编码，得到各个所述词汇的词汇特征；将所述多个词汇的词汇特征进行融合，得到所述样本广告文本的文本特征；通过所述广告素材召回模型，将所述广告图像拆分为多个图像块；基于注意力机制对所述多个图像块以及各个所述图像块的位置进行编码，得到各个所述图像块的图像块特征；将所述多个图像块的图像块特征进行融合，得到所述广告图像的图像特征。

在一种可能的实施方式中，所述特征提取模块，用于对所述多个词汇以及各个所述词汇的位置进行嵌入编码，得到各个所述词汇的第一融合特征，所述第一融合特征包括对应词汇的词汇嵌入特征和位置嵌入特征；将各个所述词汇的第一融合特征输入所述广告素材召回模型的文本编码单元，通过所述文本编码单元，基于各个所述词汇的第一融合特征确定所述多个词汇中每两个词汇之间的注意力权重；通过所述文本编码单元，基于所述多个词汇中每两个词汇之间的注意力权重以及各个所述词汇的第一融合特征，输出各个所述词汇的词汇特征。

在一种可能的实施方式中，所述特征提取模块，用于对所述多个图像块以及各个所述图像块的位置进行嵌入编码，得到各个所述图像块的第二融合特征，所述第二融合特征包括对应图像块的图像块嵌入特征和位置嵌入特征；将各个所述图像块的第二融合特征输入所述广告素材召回模型的图像编码单元，通过所述图像编码单元，基于各个所述图像块的第二融合特征确定所述多个图像块中每两个图像块之间的注意力权重；通过所述图像编码单元，基于所述多个图像块中每两个图像块之间的注意力权重以及各个所述图像块的第二融合特征，输出各个所述图像块的图像块特征。

在一种可能的实施方式中，所述训练模块，用于基于所述第一差异信息和所述第二差异信息构建联合损失函数；基于所述样本账号与所述样本广告文本以及所述样本广告图像之间的关联关系和所述联合损失函数，对所述广告素材召回模型进行训练。

在一种可能的实施方式中，所述装置还包括：

维度调整模块，用于将所述样本账号的账号特征、所述样本广告文本的文本特征以及所述样本广告图像的图像特征调整为相同维度。

在一种可能的实施方式中，所述装置还包括：

召回模块，用于将目标账号输入训练完成的所述广告素材召回模型；通过所述广告素材召回模型对所述目标账号进行特征提取，得到所述目标账号的账号特征；通过所述广告素材召回模型，基于所述目标账号的账号特征进行召回，得到目标广告素材，所述目标广告素材包括广告文本以及广告图像中的至少一项，所述目标广告素材与所述目标账号匹配。

在一种可能的实施方式中，所述召回模块用于通过所述广告素材召回模型，确定所述目标账号的账号特征与多个候选广告素材的索引之间的相似度，所述多个候选广告素材包括候选广告文本和候选广告图像中的至少一项；将所述多个候选广告素材中索引与所述目标账号的账号特征之间的相似度符合相似度条件候选广告素材，确定为所述目标广告素材。

在一种可能的实施方式中，所述装置还包括：

索引确定模块，用于将所述多个候选广告素材输入所述广告素材召回模型；通过所述广告素材召回模型对所述多个候选广告素材进行特征提取，得到各个所述候选广告素材的素材特征；将各个所述候选广告素材的素材特征拆分为多个子特征；基于各个所述候选广告素材的多个子特征，确定各个所述候选广告素材的索引。

在一种可能的实施方式中，所述索引确定模块，用于对所述多个候选广告素材的多个子特征进行聚类，得到各个所述候选广告素材的索引。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现所述广告素材召回模型的训练方法。

一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序代码，该程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，使得该计算机设备执行上述广告素材召回模型的训练方法。

通过本申请实施例提供的技术方案，能够通过广告素材召回模型来提取样本账号、样本广告文本以及样本广告图像的账号特征、文本特征以及图像特征。基于账号特征与文本特征之间的第一差异信息，以及账号特征与图像特征之间的第二差异信息，对该广告素材召回模型进行训练，从而实现账号特征、文本特征以及图像特征三种类型特征的对齐，使得广告素材召回模型具有基于账号来召回广告素材的能力。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种广告素材召回模型的训练方法的实施环境的示意图；

图2是本申请实施例提供的一种广告素材召回模型的训练方法的流程图；

图3是本申请实施例提供的另一种广告素材召回模型的训练方法的流程图；

图4是本申请实施例提供的一种广告素材召回模型的训练方法的架构图；

图5是本申请实施例提供的一种召回广告素材的流程图；

图6是本申请实施例提供的一种确定索引的流程图；

图7是本申请实施例提供的另一种召回广告素材的流程图；

图8是本申请实施例提供的一种广告素材召回模型的训练装置的结构示意图；

图9是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式做进一步的详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识子模型使之不断改善自身的性能。

语义特征：用于表示广告文本所表达语义的特征，不同的广告文本可以对应于相同的语义特征，例如广告文本“今天天气怎么样”和广告文本“今天天气如何”可以对应于同一个语义特征。计算机设备可以将广告文本中的字符映射为字符向量，根据字符之间的关系，对字符向量进行组合和运算，得到广告文本的语义特征。例如计算机设备可以采用编解码器的双向编码器表示(Bidirectional Encoder Representations from Transformers，BERT)。

掩码(Mask)：掩码是一串二进制代码对目标字段进行乘积运算，屏蔽或显示目标字段中的某个字符。例如，目标字段为(1，1，0，1)，掩码为(1，0，1，0)，目标字段和掩码进行乘积运算后得到(1，0，0，0)，也就是说目标字段中的第一个字符和第三个字符得以保留，第二个字符和第四个字符被“掩盖”变为0，通过掩码可以得知目标字段中被保留和被“掩盖”的字符。

归一化：将取值范围不同的数列映射到(0，1)区间上，便于数据的处理。在一些情况下，归一化后的数值可以直接被实现为概率。

随机失活(Dropout)：是对具有深度结构的人工神经网络进行优化的方法，在学习过程中通过将隐含层的部分权重或输出随机归零，降低节点间的互相依赖性从而实现神经网络的正则化，降低其结构风险。例如在模型训练过程中，存在一个向量(1，2，3，4)，将该向量输入随机失活层后，随机失活层可以随机将向量(1，2，3，4)中的一个数字转化为0，比如将2转化为0，那么向量就变成了(1，0，3，4)。

嵌入编码(Embedded Coding)：嵌入编码在数学上表示一个对应关系，即通过一个函数F将X空间上的数据映射到Y空间上，其中该函数F是单射函数，映射的结果是结构保存，单射函数表示映射后的数据与映射前的数据唯一对应，结构保存表示映射前数据的大小关系后映射后数据的大小关系相同，例如映射前存在数据X₁以及X₂，映射后得到X₁对应的Y₁以及X₂对应的Y₂。若映射前的数据X₁＞X₂，那么相应地，映射后的数据Y₁大于Y₂。对于词语来说，就是将词语映射到另外一个空间，便于后续的机器学习和处理。

注意力权重：可以表示训练或预测过程中某个数据的重要性，重要性表示输入的数据对输出数据影响的大小。重要性高的数据其对应的注意力权重的值较高，重要性低的数据其对应的注意力权重的值较低。在不同的场景下，数据的重要性并不相同，模型的训练注意力权重的过程也即是确定数据重要性的过程。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

图1是本申请实施例提供的一种广告素材召回模型的训练方法的实施环境示意图，参见图1，该实施环境中可以包括终端110和服务器140。

终端110通过无线网络或有线网络与服务器140相连。可选地，终端110是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端110安装和运行有支持广告素材查询的应用程序，在一些实施例中，该应用程序为向广告主提供的应用程序，广告主能够通过该应用程序来召回广告素材，从而完成广告创意。

服务器140是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式系统，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。该服务器140为终端110上运行的应用程序提供后台服务，也即是提供模型训练服务和使用模型进行广告素材召回的服务。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述实施环境中还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。

介绍完本申请实施例的实施环境之后，下面将结合上述实施环境，对本申请实施例的应用场景进行介绍，在下述说明过程中，终端也即是上述实施环境中的终端110，服务器也即是上述实施环境中的服务器140。

本申请实施例提供的技术方案能够应用在召回广告素材的场景下，采用本申请实施例提供技术方案之后，能够训练一个基于账号来召回广告素材的广告素材召回模型。使用该广告素材召回模型能够基于账号来实现广告素材的召回，提供了更加丰富的广告召回途径。

在介绍完本申请实施例的实施环境和应用场景之后，下面对本申请实施例提供的广告素材召回模型的训练方法进行介绍。参见图2，以执行主体为服务器为例，方法包括下述步骤。

201、服务器将样本账号、样本广告文本以及样本广告图像输入广告素材召回模型，该广告素材召回模型用于基于账号召回广告文本和广告图像中的至少一项。

其中，样本账号、样本广告文本以及样本广告图像均为该广告素材召回模型的训练样本，样本广告文本既可以是与该样本账号相关联的广告文本，也可以是与该样本账号不相关的广告文本，其中，与该样本账号相关联的广告文本是指该样本账号经过交互的广告文本，比如为该样本账号发布、收藏、浏览、使用或者点赞过的广告文本，相应地，与该样本账号不相关的广告文本是指该样本账号未经过交互的广告文本。该样本账号相关联的广告图像是指该样本账号经过交互的广告图像，比如为该样本账号发布、收藏、浏览、使用或者点赞过的广告图像，相应地，与该样本账号不相关的广告图像是指该样本账号未经过交互的广告图像。

202、服务器通过该广告素材召回模型，分别对该样本账号、该样本广告文本以及该样本广告图像进行特征提取，得到该样本账号的账号特征、该样本广告文本的文本特征以及该样本广告图像的图像特征。

其中，对样本账号、样本广告文本以及样本广告图像进行特征提取的过程是对样本账号、样本广告文本以及样本广告图像进行抽象表达，得到该样本账号的账号特征、该样本广告文本的文本特征以及该样本广告图像的图像特征能够代表样本账号、样本广告文本以及样本广告图像，后续对样本账号、样本广告文本以及样本广告图像进行处理时对该样本账号的账号特征、该样本广告文本的文本特征以及该样本广告图像的图像特征进行处理即可，提高处理的效率。

203、服务器基于该样本账号与该样本广告文本以及该样本广告图像之间的关联关系、第一差异信息和第二差异信息，对该广告素材召回模型进行训练，该第一差异信息为该样本账号的账号特征与该样本广告文本的文本特征之间的差异信息，该第二差异信息为该样本账号的账号特征与该样本广告图像的图像特征之间的第二差异信息。

其中，样本账号与该样本广告文本以及该样本广告图像之间的关联关系包括该样本账号与该样本广告文本之间的关联关系以及该样本账号与该样本广告图像之间的关联关系。基于第一差异信息和第二差异信息对该广告素材召回模型进行训练的目的是：使得该样本账号的账号特征与相关联的样本广告文本的文本特征之间尽可能接近，与不相关联的样本广告文本的文本特征之间尽可能远离；该样本账号的账号特征与相关联的样本广告图像的图像特征之间尽可能接近，与不相关联的样本广告图像的图像特征之间尽可能远离。实现账号特征、文本特征以及图像特征三种类型特征的对齐。

上述步骤201-203是对本申请实施例提供的技术方案的简单介绍，下面将结合一些例子，对本申请实施例提供的技术方案进行更加清楚地说明，参见图3，以执行主体为服务器为例，方法包括下述步骤。

301、服务器获取样本账号、样本广告文本以及样本广告图像。

在一种可能的实施方式中，服务器获取样本账号集合、样本广告文本集合以及样本广告图像集合。服务器从该样本账号集合中获取该样本账号，从该样本广告文本集合中获取该样本广告文本，从该样本广告图像集合中获取该样本广告图像。该样本账号为样本账号集合中的任一账号，该样本广告文本为该样本广告文本集合中的任一广告文本，该样本广告图像为该样本广告图像集合中的任一广告图像。

其中，该样本账号集合、样本广告文本集合以及样本广告图像集合统称为广告素材召回模型的训练样本。训练该广告素材召回模型包括多个迭代过程，该样本账号、该样本广告文本以及该样本广告图像是一次训练迭代过程中使用的训练样本。

需要说明的是，样本账号集合中的样本账号均是经过充分授权后获取的。

在这种实施方式下，服务器能够从样本账号集合、样本广告文本集合以及样本广告图像集合进行采样，得到该样本账号、该样本广告文本以及该样本广告图像，训练样本的获取效率较高。

举例来说，服务器从对应维护的账号数据库中获取该样本账号集合，从对应维护的广告文本数据库中获取该样本广告文本集合，从对应维护的广告图像数据库中获取样本广告图像集合。服务器从该样本账号集合中获取该样本账号，从该样本广告文本集合中获取该样本广告文本，从该样本广告图像集合中获取该样本广告图像。

302、服务器将样本账号、样本广告文本以及样本广告图像输入广告素材召回模型，该广告素材召回模型用于基于账号召回广告文本和广告图像中的至少一项。

其中，召回广告文本和广告图像中的至少一项包括召回广告文本、召回广告图像以及召回广告文本和广告图像三种情况。

在一些实施例中，该广告素材召回模型包括账号特征提取单元、文本特征提取单元、图像特征提取单元以及召回单元，其中，账号特征提取单元用于对输入的账号进行特征提取，文本特征提取单元用于对输入的广告文本进行特征提取，图像特征提取单元用于对输入的广告图像进行特征提取，召回单元用于基于提取到的特征进行广告素材的召回。

相应地，服务器将样本账号、样本广告文本以及样本广告图像输入广告素材召回模型是指服务器将样本账号输入该账号特征提取单元，将该样本广告文本输入该文本特征提取单元，将该样本广告图像输入该图像特征提取单元。

在一些实施例中，该文本特征提取单元和该图像特征提取单元是训练完成的，也即是通过该广告素材召回模型提取的文本特征和图像特征是经过对齐的，训练该广告素材召回模型是指对该广告素材召回模型的账号特征提取单元进行训练。在对该账号特征提取单元进行训练时，会采用一个样本账号和多个样本广告文本和多个样本广告图像的方式来进行。

303、服务器通过该广告素材召回模型，分别对该样本账号、该样本广告文本以及该样本广告图像进行特征提取，得到该样本账号的账号特征、该样本广告文本的文本特征以及该样本广告图像的图像特征。

在一种可能的实施方式中，服务器通过该广告素材召回模型，对该样本账号进行嵌入编码，得到该样本账号的账号特征。服务器通过该广告素材召回模型，对该样本广告文本进行分词，得到该样本广告文本中的多个词汇。基于注意力机制对该多个词汇以及各个词汇的位置进行编码，得到各个词汇的词汇特征。将该多个词汇的词汇特征进行融合，得到该样本广告文本的文本特征。服务器通过该广告素材召回模型，将该样本广告图像拆分为多个图像块。基于注意力机制对该多个图像块以及各个图像块的位置进行编码，得到各个图像块的图像块特征。将该多个图像块的图像块特征进行融合，得到该样本广告图像的图像特征。

其中，各个词汇的位置是指各个词汇在该广告素材中的位置，各个图像块的位置是指各个图像块在该广告素材中的位置。

在这种实施方式下，服务器能够通过该广告素材召回模型使用不同的方式对样本账号、广告文本以及广告图像进行特征提取，得到该样本账号的账号特征、广告文本的文本特征以及广告图像的图像特征，从而准确且高效地实现特征提取。

为了对上述实施方式进行更加清楚地说明，下面将分为三个部分对上述实施方式进行说明。

第一部分、服务器通过该广告素材召回模型，对该样本账号进行嵌入编码，得到该样本账号的账号特征。

在一种可能的实施方式中，服务器通过该广告素材召回模型的账号特征提取单元，对该样本账号进行嵌入编码，得到该样本账号的账号特征。

第二部分、服务器通过该广告素材召回模型，对该样本广告文本进行分词，得到该样本广告文本中的多个词汇。基于注意力机制对该多个词汇以及各个词汇的位置进行编码，得到各个词汇的词汇特征。将该多个词汇的词汇特征进行融合，得到该样本广告文本的文本特征。

在一种可能的实施方式中，服务器对该样本广告文本进行分词，得到该样本广告文本中的多个词汇。服务器对该多个词汇以及各个词汇的位置进行嵌入编码，得到各个词汇的第一融合特征，该第一融合特征包括对应词汇的词汇嵌入特征和位置嵌入特征。服务器将各个词汇的第一融合特征输入广告素材召回模型的文本特征提取单元，通过该文本特征提取单元，基于各个词汇的第一融合特征确定该多个词汇中每两个词汇之间的注意力权重。服务器通过该文本特征提取单元，基于该多个词汇中每两个词汇之间的注意力权重以及各个词汇的第一融合特征，输出各个词汇的词汇特征。服务器将该多个词汇的词汇特征进行融合，得到该样本广告文本的文本特征。

其中，文本特征提取单元为一个语义特征提取模型，该语义特征提取模型是基于注意力机制来对广告文本进行特征提取，从而得到输入广告文本的语义特征的。在一些实施例中，该文本特征提取单元为BERT(Bidirectional Encoder Representations fromTransformers，来自变换器的双向编码器表征量)模型的编码器，或者为其他基于BERT模型的变形模型，比如为Roberta(A Robustly Optimized BERT Pretraining Approach，一个强力优化的BERT预训练方法)模型、AlBERT(A Lite BERT，一种轻量级BERT)模型或者TinyBERT(小型BERT)模型等。当然，随着科学技术的发展也可以采用其他结构的文本特征提取单元，本申请实施例对此不作限定。

在这种实施方式下，能够将该样本广告文本进行分词，得到该样本广告文本中的多个词汇。基于注意力机制对该多个词汇以及各个词汇的位置进行编码，得到各个词汇的词汇特征，由于利用注意力机制进行编码时利用了多个词汇的信息，得到的词汇特征能够反映对应词汇的语义。基于多个词汇的词汇特征得到的素材特征也就能够表示该样本广告文本的语义。

比如，服务器对该样本广告文本进行分词，得到该样本广告文本中的多个词汇。服务器对该多个词汇以及各个词汇的位置进行嵌入编码，得到各个词汇的第一融合特征，该第一融合特征包括对应词汇的词汇嵌入特征和位置嵌入特征。服务器将各个词汇的第一融合特征输入文本特征提取单元，通过该文本特征提取单元的第一变换矩阵、第二变换矩阵以及第三变换矩阵，对各个词汇的第一融合特征进行线性变换，得到各个词汇的查询矩阵、键矩阵和值矩阵。服务器通过该文本特征提取单元，基于各个词汇的查询矩阵和键矩阵，确定该多个词汇中每两个词汇之间的注意力权重。服务器通过该文本特征提取单元，将该多个词汇中每两个词汇之间的注意力权重与各个词汇的值矩阵相乘，输出各个词汇的词汇特征，各个词汇的词汇特征用于表示对应词汇的语义。服务器将该多个词汇的词汇特征进行相加或拼接，得到该样本广告文本的文本特征。

第三部分、服务器通过该广告素材召回模型，将该样本广告图像拆分为多个图像块。基于注意力机制对该多个图像块以及各个图像块的位置进行编码，得到各个图像块的图像块特征。将该多个图像块的图像块特征进行融合，得到该样本广告图像的图像特征。

在一种可能的实施方式中，服务器将该样本广告图像拆分为多个图像块。对该多个图像块以及各个图像块的位置进行嵌入编码，得到各个图像块的第二融合特征，该第二融合特征包括对应图像块的图像块嵌入特征和位置嵌入特征。服务器将各个图像块的第二融合特征输入图像特征提取单元，通过该图像特征提取单元，基于各个图像块的第二融合特征确定该多个图像块中每两个图像块之间的注意力权重。服务器通过该图像特征提取单元，基于该多个图像块中每两个图像块之间的注意力权重以及各个图像块的第二融合特征，输出各个图像块的图像块特征。服务器将该多个图像块的图像块特征进行融合，得到该样本广告图像的图像特征。

其中，图像特征提取单元为一个语义特征提取模型，该语义特征提取模型是基于注意力机制来对广告图像进行特征提取，从而得到输入广告图像的语义特征的。在一些实施例中，该图像特征提取单元为BERT模型的编码器，或者为其他基于BERT模型的变形模型，比如为VIT(Vision Transformer，视觉Transformer)模型、AlBERT模型或者TinyBERT模型等。当然，随着科学技术的发展也可以采用其他结构的图像特征提取单元，比如VGG(VisualGeometry Group，视觉几何)或者MobileNet等，本申请实施例对此不作限定。

比如，服务器将该样本广告图像拆分为多个图像块，得到该样本广告图像中的多个图像块。服务器对该多个图像块以及各个图像块的位置进行嵌入编码，得到各个图像块的第一融合特征，该第一融合特征包括对应图像块的图像块嵌入特征和位置嵌入特征。服务器将各个图像块的第一融合特征输入图像特征提取单元，通过该图像特征提取单元的第一变换矩阵、第二变换矩阵以及第三变换矩阵，对各个图像块的第一融合特征进行线性变换，得到各个图像块的查询矩阵、键矩阵和值矩阵。服务器通过该图像特征提取单元，基于各个图像块的查询矩阵和键矩阵，确定该多个图像块中每两个图像块之间的注意力权重。服务器通过该图像特征提取单元，将该多个图像块中每两个图像块之间的注意力权重与各个图像块的值矩阵相乘，输出各个图像块的图像块特征，各个图像块的图像块特征用于表示对应图像块的语义。服务器将该多个图像块的图像块特征进行相加或拼接，得到该样本广告图像的图像特征。

304、服务器基于该样本账号与该样本广告文本以及该样本广告图像之间的关联关系、第一差异信息和第二差异信息，对该广告素材召回模型进行训练，该第一差异信息为该样本账号的账号特征与该样本广告文本的文本特征之间的差异信息，该第二差异信息为该样本账号的账号特征与该样本广告图像的图像特征之间的第二差异信息。

在一种可能的实施方式中，服务器基于该第一差异信息和该第二差异信息构建联合损失函数。服务器基于该样本账号与该样本广告文本以及该样本广告图像之间的关联关系和该联合损失函数，对该广告素材召回模型进行训练。

其中，样本账号与该样本广告文本以及该样本广告图像之间的关联关系包括该样本账号与该样本广告文本之间的关联关系以及该样本账号与该样本广告图像之间的关联关系。基于第一差异信息和第二差异信息对该广告素材召回模型进行训练的目的是：使得该样本账号的账号特征与相关联的样本广告文本的文本特征之间尽可能接近，与不相关联的样本广告文本的文本特征之间尽可能远离；该样本账号的账号特征与相关联的样本广告图像的图像特征之间尽可能接近，与不相关联的样本广告图像的图像特征之间尽可能远离。实现账号特征、文本特征以及图像特征三种类型特征的对齐。与样本账号相关联的样本广告文本也被称为正样本广告文本，与样本账号不相关联的样本广告也被称为负样本广告文本。相应地，与样本账号相关联的样本广告图像也被称为正样本广告图像，与样本账号不相关联的样本广告也被称为负样本广告图像。该联合损失函数包括第一差异信息对应的对比损失函数以及第二差异信息对应的对比损失函数。

在这种实施方式下，服务器能够基于第一差异信息和第二差异信息来对广告素材召回模型进行训练，使得该广告素材召回模型提取的账号特征、文本特征以及图像特征之间实现对其，从而为广告素材召回模型提供基于账号来召回广告文本或者广告图像的功能。

可选地，在步骤304之前，服务器还能够通过下述方式来调整账号特征、广告特征以及图像特征的维度，以便于基于维度调整后的账号特征、广告特征以及图像特征来对广告素材召回模型进行训练。

在一种可能的实施方式中，服务器将该样本账号的账号特征、该样本广告文本的文本特征以及该样本广告图像的图像特征调整为相同维度。

在这种实施方式下，将账号特征、广告特征以及图像特征调整为相同维度之后，使得服务器能够直接确定第一差异信息和第二差异信息，提高基于第一差异信息和第二差异信息来训练该广告素材召回模型的效率。

举例来说，服务器将该样本账号的账号特征输入广告素材召回模型的第一线性层，通过该第一线性层将该账号特征的维度调整为目标维度。服务器将该样本广告文本的文本特征输入广告素材召回模型的第二线性层，通过该第二线性层将该文本特征的维度调整为目标维度。服务器将该样本广告图像的图像特征输入广告素材召回模型的第三线性层，通过该第三线性层将该图像特征的维度调整为目标维度。其中，目标维度由技术人员根据实际情况进行设置，比如设置为312维度等，本申请实施例对此不作限定。

下面将结合图4对上述步骤303和304进行说明。

参见图4，服务器将样本账号、样本广告文本以及样本广告图像输入广告素材召回模型。服务器通过广告素材召回模型的账号特征提取单元401对该样本账号进行特征提取，得到该样本账号的账号特征。服务器通过该广告素材召回模型的第一线性层402，将该账号特征的维度调整为目标维度。服务器通过广告素材召回模型的文本特征提取单元403对该样本广告文本进行特征提取，得到该样本广告文本的文本特征。服务器通过该广告素材召回模型的第二线性层404，将该文本特征的维度调整为目标维度。服务器通过广告素材召回模型的图像特征提取单元405对该样本广告图像进行特征提取，得到该样本广告图像的图像特征。服务器通过该广告素材召回模型的第三线性层406，将该图像特征的维度调整为目标维度。服务器将目标维度的账号特征和文本特征带入第一对比损失函数，将该目标维度的账号特征和图像特征带入第二对比损失函数，通过第一对比损失函数和第二对比损失函数组成的联合损失函数对该广告素材召回模型进行训练，也即是对该广告素材召回模型的账号特征提取单元430进行训练。

需要说明的是，上述是以服务器对该广告素材召回模型进行一轮迭代训练为例进行说明的，服务器在其他迭代训练时的方法与该轮迭代训练的方法属于同一发明构思，实现过程不再赘述。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

下面对采用上述步骤301-304训练得到的广告素材召回模型的使用方法进行说明，参见图5，以执行主体为服务器为例，方法包括下述步骤。

501、服务器将目标账号输入训练完成的广告素材召回模型。

其中，目标账号是想要进行广告素材召回的账号。

502、服务器通过该广告素材召回模型对该目标账号进行特征提取，得到该目标账号的账号特征。

其中，服务器通过该广告素材召回模型对目标账号进行特征提取的过程与上述步骤303的描述属于同一发明构思，实现过程参见上述步骤303的描述，在此不再赘述。

503、服务器通过该广告素材召回模型，基于该目标账号的账号特征进行召回，得到目标广告素材，该目标广告素材包括广告文本以及广告图像中的至少一项，该目标广告素材与该目标账号匹配。

在一种可能的实施方式中，服务器通过该广告素材召回模型，确定该目标账号的账号特征与多个候选广告素材的索引之间的相似度，该多个候选广告素材包括候选广告文本和候选广告图像中的至少一项。服务器将该多个候选广告素材中索引与该目标账号的账号特征之间的相似度符合相似度条件候选广告素材，确定为该目标广告素材。

其中，候选广告素材的索引用于表示对应的候选广告素材，候选广告素材的索引用于在进行广告素材召回时快速进行召回。在一些实施例中，候选广告素材的索引是基于候选广告素材的素材特征确定的。在一些实施例中，相似度符合相似度条件是指相似度为多个候选广告素材中的前N个(Top N)，或者相似度大于或等于相似度阈值，N为正整数，相似度阈值由技术人员根据实际情况进行设置。目标广告素材也即是召回的广告素材。

在这种实施方式下，服务器能够通过候选广告素材的索引来实现对广告的快速召回，召回的效率较高。

举例来说，服务器通过该广告素材召回模型将该目标账号的账号特征拆分为多个子特征。对于该多个候选广告素材中的任一候选广告素材，服务器确定该目标账号的多个子特征与该候选广告素材的索引之间的相似度。在该候选广告素材的索引与该目标账号的多个子特征之间的相似度符合该相似度条件的情况下，服务器将该候选广告素材确定为目标广告素材。

比如，候选广告素材的索引包括多个子索引，服务器将该目标账号的账号特征拆分为多个子特征。对于该多个候选广告素材中的任一候选广告素材，服务器确定该目标账号的多个子特征与该候选广告素材的多个子索引之间的多个参考相似度。服务器将该多个参考相似度进行融合，得到该目标账号的多个子特征与该候选广告素材的索引之间的相似度。

其中，多个子索引和多个子特征的数量是相同的，子特征与子索引之间存在对应关系，对应关系通过在账号特征和索引中的相对位置来体现，比如，账号特征中的第一个子特征与索引中的第一个子索引之间存在对应关系。

比如，候选广告素材的索引包括多个子索引，服务器将该目标账号的账号特征拆分为多个子特征。对于该多个候选广告素材中的任一候选广告素材，服务器确定该目标账号的各个子特征与该候选广告素材的多个子索引中对应子索引之间的多个参考相似度，一个参考相似度为一个子特征与一个子索引之间的相似度。服务器将该多个参考相似度相加，得到该目标账号的多个子特征与该候选广告素材的索引之间的相似度，也即是该目标账号与该候选广告素材之间的相似度。

其中，该候选广告素材的每个子索引均是通过聚类得到的，一个子索引可能对应于多个候选广告素材，比如，一个候选广告素材的索引为ABCD，包括A、B、C和D四个子索引，子索引A可以对应于除该候选广告素材之外的其他候选广告素材，通过多个候选广告素材对应于一个子索引的方式，能够降低运算量，提高运算效率。

为了对上述实施方式进行更加清楚地说明，下面对确定该多个候选广告素材的索引的方法进行说明。

在一种可能的实施方式中，服务器对该多个候选广告素材进行特征提取，得到各个候选广告素材的素材特征。服务器将各个候选广告素材的素材特征拆分为多个子特征。服务器基于各个候选广告素材的多个子特征，确定各个候选广告素材的索引。

需要说明的是，服务器确定该多个候选广告素材的索引的方法在步骤501之前，也即是在使用广告素材召回模型之前该多个候选广告素材的索引已经确定，在步骤503中直接使用即可，这个确定索引的过程可以被称为离线流程。

在这种实施方式下，服务器将候选广告素材的素材特征拆分为多个子特征，基于多个子特征来确定候选广告素材的索引，实现对了素材特征的降维，基于索引进行查询具有较快的速度。

举例来说，服务器对该多个候选广告素材进行特征提取，得到各个候选广告素材的素材特征，其中，服务器对该多个候选广告素材进行特征提取的方法与上述步骤303属于同一发明构思，实现过程参见上述步骤303的描述，在此不再赘述。服务器将各个候选广告素材的素材特征拆分为多个子特征。服务器对该多个候选广告素材的多个子特征进行聚类，得到各个候选广告素材的索引。

下面对服务器对该多个候选广告素材的多个子特征进行聚类的方法进行说明。

对于该多个候选广告素材的第一个子特征，服务器对该多个候选广告素材的第一个子特征进行聚类，得到多个第一聚类中心。服务器采用各个候选广告素材的第一子特征对应的第一聚类中心确定为各个候选广告素材的第一子索引。以此类推，得到各个候选广告素材的多个子索引，该多个子索引构成各个候选广告素材的索引。

比如，以候选广告素材的索引为faiss(Facebook AI Similarity Search，Facebook AI相似性搜索)索引为例进行说明。参见图6，服务器将候选广告文本输入广告素材召回模型的文本特征提取单元，得到该候选广告文本的候选广告文本特征，该文本特征提取单元用于将输入的候选广告文本编码成312维的特征向量，该候选广告文本特征也即是候选广告素材的素材特征。服务器基于该候选广告文本的候选广告文本特征，生成该候选广告文本的索引(TEXT faiss)。服务器将候选广告图像输入广告素材召回模型的图像特征提取单元，得到该候选广告图像的候选广告图像特征，该图像特征提取单元用于将输入的候选广告图像编码成312维的特征向量，该候选广告图像特征也即是候选广告素材的素材特征。服务器基于该候选广告图像的候选广告图像特征，生成该候选广告图像的索引(IMAGE faiss)。

下面将结合图7对上述步骤501-503进行说明。

参见图7，服务器将目标账号输入广告素材召回模型，通过该广告素材召回模型对该目标账号进行特征提取，得到该目标账号的账号特征。服务器通过该广告素材召回模型，基于该目标账号的账号特征和多个候选广告图像的索引以及多个候选广告文本的索引，从该多个候选广告图像中确定索引与账号特征相似度最高的N个目标广告图像，从该多个候选广告文本中确定索引与账号特征相似度最高的N个目标广告文本。

图8是本申请实施例提供的一种广告素材召回模型的训练装置的结构示意图，参见图8，装置包括：输入模块801、特征提取模块802以及训练模块803。

输入模块801，用于将样本账号、样本广告文本以及样本广告图像输入广告素材召回模型，该广告素材召回模型用于基于账号召回广告文本和广告图像中的至少一项。

特征提取模块802，用于通过该广告素材召回模型，分别对该样本账号、该样本广告文本以及该样本广告图像进行特征提取，得到该样本账号的账号特征、该样本广告文本的文本特征以及该样本广告图像的图像特征。

训练模块803，基于该样本账号与该样本广告文本以及该样本广告图像之间的关联关系、第一差异信息和第二差异信息，对该广告素材召回模型进行训练，该第一差异信息为该样本账号的账号特征与该样本广告文本的文本特征之间的差异信息，该第二差异信息为该样本账号的账号特征与该样本广告图像的图像特征之间的第二差异信息。方面，提供了一种计算机设备，该计算机设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条计算机程序，该计算机程序由该一个或多个处理器加载并执行以实现该广告素材召回模型的训练方法。

在一种可能的实施方式中，该特征提取模块802，用于通过该广告素材召回模型，对该样本账号进行嵌入编码，得到该样本账号的账号特征。通过该广告素材召回模型，对该样本广告文本进行分词，得到该样本广告文本中的多个词汇。基于注意力机制对该多个词汇以及各个词汇的位置进行编码，得到各个词汇的词汇特征。将该多个词汇的词汇特征进行融合，得到该样本广告文本的文本特征。通过该广告素材召回模型，将该广告图像拆分为多个图像块。基于注意力机制对该多个图像块以及各个图像块的位置进行编码，得到各个图像块的图像块特征。将该多个图像块的图像块特征进行融合，得到该广告图像的图像特征。

在一种可能的实施方式中，该特征提取模块802，用于对该多个词汇以及各个词汇的位置进行嵌入编码，得到各个词汇的第一融合特征，该第一融合特征包括对应词汇的词汇嵌入特征和位置嵌入特征。将各个词汇的第一融合特征输入该广告素材召回模型的文本编码单元，通过该文本编码单元，基于各个词汇的第一融合特征确定该多个词汇中每两个词汇之间的注意力权重。通过该文本编码单元，基于该多个词汇中每两个词汇之间的注意力权重以及各个词汇的第一融合特征，输出各个词汇的词汇特征。

在一种可能的实施方式中，该特征提取模块802，用于对该多个图像块以及各个图像块的位置进行嵌入编码，得到各个图像块的第二融合特征，该第二融合特征包括对应图像块的图像块嵌入特征和位置嵌入特征。将各个图像块的第二融合特征输入该广告素材召回模型的图像编码单元，通过该图像编码单元，基于各个图像块的第二融合特征确定该多个图像块中每两个图像块之间的注意力权重。通过该图像编码单元，基于该多个图像块中每两个图像块之间的注意力权重以及各个图像块的第二融合特征，输出各个图像块的图像块特征。

在一种可能的实施方式中，该训练模块803，用于基于该第一差异信息和该第二差异信息构建联合损失函数。基于该样本账号与该样本广告文本以及该样本广告图像之间的关联关系和该联合损失函数，对该广告素材召回模型进行训练。

在一种可能的实施方式中，该装置还包括：

维度调整模块，用于将该样本账号的账号特征、该样本广告文本的文本特征以及该样本广告图像的图像特征调整为相同维度。

在一种可能的实施方式中，该装置还包括：

召回模块，用于将目标账号输入训练完成的该广告素材召回模型。通过该广告素材召回模型对该目标账号进行特征提取，得到该目标账号的账号特征。通过该广告素材召回模型，基于该目标账号的账号特征进行召回，得到目标广告素材，该目标广告素材包括广告文本以及广告图像中的至少一项，该目标广告素材与该目标账号匹配。

在一种可能的实施方式中，该召回模块用于通过该广告素材召回模型，确定该目标账号的账号特征与多个候选广告素材的索引之间的相似度，该多个候选广告素材包括候选广告文本和候选广告图像中的至少一项。将该多个候选广告素材中索引与该目标账号的账号特征之间的相似度符合相似度条件候选广告素材，确定为该目标广告素材。

在一种可能的实施方式中，该装置还包括：

索引确定模块，用于将该多个候选广告素材输入该广告素材召回模型。通过该广告素材召回模型对该多个候选广告素材进行特征提取，得到各个候选广告素材的素材特征。将各个候选广告素材的素材特征拆分为多个子特征。基于各个候选广告素材的多个子特征，确定各个候选广告素材的索引。

在一种可能的实施方式中，该索引确定模块，用于对该多个候选广告素材的多个子特征进行聚类，得到各个候选广告素材的索引。

需要说明的是：上述实施例提供的广告素材召回模型的训练装置在训练广告素材召回模型时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的广告素材召回模型的训练装置与广告素材召回模型的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述计算机设备可以实现为服务器，下面对服务器的结构进行介绍：

图9是本申请实施例提供的一种服务器的结构示意图，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)901和一个或多个的存储器902，其中，所述一个或多个存储器902中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器901加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器900还可以具有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器900还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括计算机程序的存储器，上述计算机程序可由处理器执行以完成上述实施例中的广告素材召回模型的训练方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序代码，该程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，使得该计算机设备执行上述广告素材召回模型的训练方法。

在一些实施例中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种广告素材召回模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述通过所述广告素材召回模型，分别对所述样本账号、所述样本广告文本以及所述样本广告图像进行特征提取，得到所述样本账号的账号特征、所述样本广告文本的文本特征以及所述样本广告图像的图像特征包括：

通过所述广告素材召回模型，对所述样本账号进行嵌入编码，得到所述样本账号的账号特征；

通过所述广告素材召回模型，对所述样本广告文本进行分词，得到所述样本广告文本中的多个词汇；基于注意力机制对所述多个词汇以及各个所述词汇的位置进行编码，得到各个所述词汇的词汇特征；将所述多个词汇的词汇特征进行融合，得到所述样本广告文本的文本特征；

通过所述广告素材召回模型，将所述广告图像拆分为多个图像块；基于注意力机制对所述多个图像块以及各个所述图像块的位置进行编码，得到各个所述图像块的图像块特征；将所述多个图像块的图像块特征进行融合，得到所述广告图像的图像特征。

3.根据权利要求2所述的方法，其特征在于，所述基于注意力机制对所述多个词汇以及各个所述词汇的位置进行编码，得到各个所述词汇的词汇特征包括：

对所述多个词汇以及各个所述词汇的位置进行嵌入编码，得到各个所述词汇的第一融合特征，所述第一融合特征包括对应词汇的词汇嵌入特征和位置嵌入特征；

将各个所述词汇的第一融合特征输入所述广告素材召回模型的文本编码单元，通过所述文本编码单元，基于各个所述词汇的第一融合特征确定所述多个词汇中每两个词汇之间的注意力权重；

通过所述文本编码单元，基于所述多个词汇中每两个词汇之间的注意力权重以及各个所述词汇的第一融合特征，输出各个所述词汇的词汇特征。

4.根据权利要求2所述的方法，其特征在于，所述基于注意力机制对所述多个图像块以及各个所述图像块的位置进行编码，得到各个所述图像块的图像块特征包括：

对所述多个图像块以及各个所述图像块的位置进行嵌入编码，得到各个所述图像块的第二融合特征，所述第二融合特征包括对应图像块的图像块嵌入特征和位置嵌入特征；

将各个所述图像块的第二融合特征输入所述广告素材召回模型的图像编码单元，通过所述图像编码单元，基于各个所述图像块的第二融合特征确定所述多个图像块中每两个图像块之间的注意力权重；

通过所述图像编码单元，基于所述多个图像块中每两个图像块之间的注意力权重以及各个所述图像块的第二融合特征，输出各个所述图像块的图像块特征。

5.根据权利要求1所述的方法，其特征在于，所述基于所述样本账号与所述样本广告文本以及所述样本广告图像之间的关联关系、第一差异信息和第二差异信息，对所述广告素材召回模型进行训练包括：

基于所述第一差异信息和所述第二差异信息构建联合损失函数；

基于所述样本账号与所述样本广告文本以及所述样本广告图像之间的关联关系和所述联合损失函数，对所述广告素材召回模型进行训练。

6.根据权利要求1所述的方法，其特征在于，所述基于第一差异信息和第二差异信息对所述广告素材召回模型进行训练之前，所述方法还包括：

将所述样本账号的账号特征、所述样本广告文本的文本特征以及所述样本广告图像的图像特征调整为相同维度。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将目标账号输入训练完成的所述广告素材召回模型；

通过所述广告素材召回模型对所述目标账号进行特征提取，得到所述目标账号的账号特征；

通过所述广告素材召回模型，基于所述目标账号的账号特征进行召回，得到目标广告素材，所述目标广告素材包括广告文本以及广告图像中的至少一项，所述目标广告素材与所述目标账号匹配。

8.一种广告素材召回模型的训练装置，其特征在于，所述装置包括：

训练模块，用于基于所述样本账号与所述样本广告文本以及所述样本广告图像之间的关联关系、第一差异信息和第二差异信息，对所述广告素材召回模型进行训练，所述第一差异信息为所述样本账号的账号特征与所述样本广告文本的文本特征之间的差异信息，所述第二差异信息为所述样本账号的账号特征与所述样本广告图像的图像特征之间的第二差异信息。

9.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的广告素材召回模型的训练方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的广告素材召回模型的训练方法。