CN116521990A

CN116521990A - 物料处理的方法、装置、电子设备和计算机可读介质

Info

Publication number: CN116521990A
Application number: CN202310417856.8A
Authority: CN
Inventors: 李杨
Original assignee: Weimeng Chuangke Network Technology China Co Ltd
Current assignee: Weimeng Chuangke Network Technology China Co Ltd
Priority date: 2023-04-18
Filing date: 2023-04-18
Publication date: 2023-08-01

Abstract

本申请实施例提供了一种物料处理的方法、装置、电子设备和计算机可读介质,涉及物料召回技术领域。物料处理的方法，包括：获取待处理的物料，所述物料包括至少一种模态的内容；确定与所述至少一种模态的内容相对应的至少一个文本，其中每种模态的内容对应一个文本；根据所述至少一个文本，确定用于表征所述物料的特征信息。

Description

物料处理的方法、装置、电子设备和计算机可读介质

技术领域

本申请涉及物料召回技术领域，尤其涉及一种物料处理的方法、装置、电子设备和计算机可读介质。

背景技术

物料召回是推荐算法的第一个环节，旨在从待推荐物料库中初步筛选出用户可能感兴趣的内容传递给后续环节。例如，作为物料召回的一种方式，向量召回包括将物料特征和用户特征进行向量表征，之后进行向量检索。目前，对包括不同模态内容的物料进行向量召回时，通常使用物料消费特征作为物料侧特征，或者将不同模态的内容映射到多个或一个特征空间以得到拼接起来的特征向量。

然而，由于忽略了物料自身的内容特征，或者不同模态特征空间差异过大不易融合，在物料召回过程中，利用上述方式难以准确提取同一物料包含的不同模态的内容信息，进而影响了物料召回的准确性。

发明内容

本申请实施例的目的是提供一种物料处理的方法、装置、电子设备和计算机可读介质，能够准确提取物料不同模态的内容信息，提升物料召回的准确性。

为解决上述技术问题，本申请实施例是通过以下各方面实现的。

第一方面，本申请实施例提供了一种物料处理的方法，包括：获取待处理的物料，所述物料包括至少一种模态的内容；确定与所述至少一种模态的内容相对应的至少一个文本，其中，每种模态的内容对应一个文本；根据所述至少一个文本，确定用于表征所述物料的特征信息。

第二方面，本申请实施例提供了一种物料处理的装置，包括：获取模块，用于获取待处理的物料，所述物料包括至少一种模态的内容；第一确定模块，用于确定与所述至少一种模态的内容相对应的至少一个文本，其中，每种模态的内容对应一个文本；第二确定模块，用于根据所述至少一个文本，确定用于表征所述物料的特征信息。

第三方面，本申请实施例提供了一种电子设备，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机可执行指令，所述计算机可执行指令被所述处理器执行时实现上述第一方面所述的物料处理的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机可执行指令，所述计算机可执行指令被处理器执行时实现上述第一方面所述的物料处理的方法。

在本申请实施例中，通过获取待处理的物料，所述物料包括至少一种模态的内容；确定与所述至少一种模态的内容相对应的至少一个文本，其中，每种模态的内容对应一个文本；根据所述至少一个文本，确定用于表征所述物料的特征信息，能够将同一物料内不同模态的内容信息统一为文本形式，基于文本进行后续物料处理，因此，能够准确提取物料包括的不同模态的内容信息，提升物料召回的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出本申请实施例提供的一种物料处理的方法的一种流程示意图；

图2a示出本申请实施例提供的一种物料处理的方法的另一种流程示意图；

图2b示出本申请实施例提供的一种物料处理的方法的多模态特征提取模型的原理图；

图2c示出本申请实施例提供的一种物料处理的方法的多模态特征提取模型的示意图；

图2d示出本申请实施例提供的一种物料处理的方法的另一种示意图；

图3示出本申请实施例提供的一种物料处理的方法的另一种流程示意图；

图4示出本申请实施例提供的一种物料处理的装置的结构示意图；

图5为执行本申请实施例提供的一种物料处理的方法的电子设备的硬件结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

如前所述，作为物料召回的一种方式，向量召回包括将物料特征和用户特征进行向量表征，之后进行向量检索。目前，对包括不同模态内容的物料进行向量召回时，通常使用物料消费特征作为物料侧特征，或者将不同模态的内容映射到多个或一个特征空间以得到拼接起来的特征向量。

采用向量召回但不考虑物料内容特征的方法，包括首先使用模型对视频物料的观看行为特征和用户行为特征进行向量嵌入，其次拼接用户的年龄性别等画像特征，通过深度网络进行排序预测，以得到召回环节的结果作为后续推荐环节的物料池。然而，一方面，对于新加入的物料，在开始阶段还没有丰富的曝光和消费行为，导致特征覆盖度低，模型打分偏低，无法获得有效推荐；其次，对于高热物料和高活跃度的物料，可能会导致过度曝光，影响了推荐系统的丰富度呈现。

采用向量召回且考虑物料文本内容特征的方法，包括：参考一般的词嵌入方法或者采用类似bert的预训练模型来提取物料文本内容特征，物料文本内容特征拼接物料消费特征、用户行为特征、用户画像特征等，使用模型进行预测排序，得到物料池。然而，这种方法不适用于没有文本内容的物料。

采用向量召回且利用物料的多模态特征的方法，包括：将不同模态数据映射到不同特征空间，然后通过隐层交互这些特征学习到一个不可解释的距离函数；或将不同模态数据映射到同一特征空间，从而计算不同模态数据之间的相似度。这种方法一定程度上利用到了多模态物料的丰富度，但是文字、图片和视频的提取分别在不同模态的特征空间进行,将不同模态数据映射到不同特征空间或者将不同模态数据映射到同一特征空间，得到一个拼接起来的嵌入特征向量。然而由于不同模态空间的信息量差异巨大，在相近长度的特征向量维度下很难进行有效的融合。

基于此，本申请提出一种物料处理的方法、装置、电子设备和计算机可读介质，用以准确提取物料不同模态的内容信息。图1示出本申请实施例提供的一种物料处理的方法的一种流程示意图，该方法可以由电子设备执行，例如终端设备或服务端设备。换言之，所述方法可以由安装在终端设备或服务端设备的软件或硬件来执行。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。如图所示，该方法可以包括以下步骤。

步骤S110：获取待处理的物料。

所述物料包括至少一种模态的内容。

可选的，待处理物料包括网页、博文、微博、视频等，其包含多种不同模态的内容。不同模态的内容在数据来源、数据形成方式和数据内部结构等方面存在较大差别，例如图像是自然界存在的连续空间，文本是依赖人类知识、语法规则组织的离散空间。

可选的，使用向量召回的方式对物料包含的不同模态内容进行处理。向量召回用于将物料内容特征、物料消费特征、用户画像特征、用户行为特征分别进行向量表征，物料可以构造索引供向量进行检索，用于在数据库中检索和其最接近的物料。

步骤S120:确定与至少一种模态的内容相对应的至少一个文本。

其中，每种模态的内容对应一个文本。

可选的，各模态内容与文本具有对应关系。例如，第一模态的内容对应第一文本，第二模态的内容对应第二文本，不同模态的内容的数量可以为一个或者多个。

通过将物料中不同模态的内容统一表征为文本形式，能够有效抽取物料不同模态的内容得到物料的文字描述，以对包括不同模态内容的物料进行统一、有效地内容特征表示。

步骤S130:确定用于表征所述物料的特征信息。

根据所述至少一个文本，确定用于表征所述物料的特征信息。

在相同的形式基础上，即文本基础上，得到物料的特征信息，能够避免不同模态的特征空间由于信息量差异大难以有效融合的情形。可选的，物料的特征信息用于表征物料内容相关的特征。

例如，根据第一文本和第二文本，确定物料的特征信息。可以理解的是，由于第一文本和第二文本统一为文本描述，对其进行融合、拼接时，能够避免直接拼接不同模态特征时，特征难以融合的情形。

在本申请实施例中，通过获取待处理的物料，所述物料包括至少一种模态的内容；确定与至少一种模态的内容相对应的至少一个文本，其中每种模态的内容对应一个文本；根据所述至少一个文本，确定用于表征所述物料的特征信息，能够将同一物料内不同模态的内容信息统一为文本形式，基于文本进行后续物料处理，因此，能够准确提取物料包括的不同模态的内容信息，提升物料召回的准确性。

图2a示出本申请实施例提供的一种物料处理的方法的另一种流程示意图。如图所示，该方法可以包括以下步骤。

步骤S210：获取待处理的物料。

步骤S221:基于物料内容，确定所述物料对应的模态类型。

所述模态类型包括文本、图像、视频、字符表情中的至少一种。

步骤S222:根据所述物料对应的每一种模态类型，分别确定与相应模态的内容相对应的文本。

步骤S230:确定用于表征所述物料的特征信息。

步骤S210、S230可以采用上一实施例对应步骤的描述，对于可重复的部分，在此不再赘述。

可选的，在所述物料对应的模态类型包括图像的情况下,步骤S222包括：

步骤S222-1:将图像模态的内容输入特征提取模型进行特征提取，输出与所述图像模态的内容相对应的图像和文本多模态混合特征。

可选的，所述特征提取模型为多模态特征提取模型。图2b示出该模型的工作原理图。

结合图2c，特征提取模型201用于提取图像模态的内容对应的特征。可选的，利用open AI公司提出的基于图片文本对的对比学习模型(Contrastive Language-ImagePretraining，CLIP)，采取无监督方法训练得到多模态特征提取模型。用于图片文本对学习的CLIP模型包括文本编码器及图像编码器。以物料中图像模态的第一内容为例，通过多模态特征提取模型201能够得到第一内容的图像和文本多模态混合特征。

步骤S222-2:将所述图像和文本多模态混合特征输入映射网络进行图像到文本特征空间的特征处理，输出与所述图像和文本多模态混合特征相对应的文本特征。

在确定第一内容的图像和文本多模态混合特征后，可以利用映射网络202，实现图像到文本特征空间的进一步特征处理。

步骤S222-3：根据所述文本特征，确定与所述图像模态的内容相对应的文本。

在一种可能的实现方式中，在所述物料对应的模态类型包括视频模态的情况下，在所述视频模态的内容包含的多帧图像中，确定目标图像；将所述目标图像输入特征提取模型进行特征提取，输出与所述视频模态的内容相对应的图像特征；根据图像特征与文本特征的对应关系，确定与所述图像特征相对应的文本特征；根据所述文本特征，确定与所述视频模态的内容相对应的文本。

可以理解的是，一条视频通常包含了多帧图像，因此确定视频内容对应文本的方式与确定图像内容对应文本的方式类似。考虑到运算资源有限和实效性要求，处理视频包含的全部图像的耗时过长，无法有效应用于召回环节。因此本方案通过抽取视频中的特征帧图像的方法，将视频特征提取的问题转换为图像特征提取的问题。

具体的，参见图2d，判断作为视频模态内容的视频博文是否包含视频封面，在所述视频包含封面图像的情况下，确定所述视频封面为目标图像；在所述视频不包含封面图像的情况下，抽取视频的关键帧图像作为目标图像。可选的所述关键帧图像可以包括尽可能多的视频特征。

确定了视频模态的内容的目标图像之后，后续步骤与图像模态的内容处理方式相同。

在一种可能的实现方式中，所述根据所述文本特征，确定与所述图像模态或视频模态的内容相对应的文本包括：将所述文本特征输入文字预测模型进行特征转换，输出用于对所述文本特征进行文字描述的文本。

参见图2c，在映射网络通过前缀嵌入完成图文映射之后，将文本特征输入到文字预测模型203，例如生成预训练模型(Generative Pre-Training-2，GPT-2)，通过GPT2可以得到对应的文字描述，例如“小猫正睡在床上的毛毯上”。相比常用的序列到序列(Sequenceto Sequence,Seq2Seq)模型和循环神经网络(Recurrent Neural Network，RNN)方法，本方案组合了对比学习的CLIP算法与文本生成模型(Bidirectional Encoder Representationfrom Transformers，bert)，即GPT-2模型，能够获取更好的文字生成效果。

在一种可能的实现方式中，在所述物料对应的模态类型包括文本模态的情况下，根据文本模态的内容提取相应的第一文本；将所述第一文本作为与所述文本模态的内容相对应的文本。

可选的，第一文本能够表征文本模态的内容，例如第一文本为标题文本、关键词文本等。在一种可能的实现方式中，在所述物料对应的模态类型包括字符表情模态的情况下，对所述字符表情模态的内容进行翻译，基于翻译结果得到与所述字符表情模态的内容相对应的文本。

可选的，所述字符表情为颜文字，相对应的文本用于对所述颜文字进行文字描述。

在本申请实施例中，通过确定模态类型，并获取与模态类型对应的文本，能够准确表征物料内包含的图像模态内容、视频模态内容、文本模态内容以及字符表情模态内容，降低了数据维度，有利于特征信息的提取。

图3示出本申请实施例提供的一种物料处理的方法的另一种流程示意图。

在一种可能的实现方式中，所述根据与至少一种模态的内容相对应的至少一个文本，确定用于表征所述物料的特征信息包括：基于所述至少一个文本，确定与所述物料内容相对应的第二文本，所述第二文本用于描述所述物料包括的全部模态的内容；对所述第二文本进行向量嵌入，获取用于表征物料内容的第一物料特征；将所述第一物料特征和第二物料特征进行向量拼接，得到物料特征，所述第二物料特征用于表征所述物料被访问的信息。

可选的，第一物料特征为物料内容特征，即物料画像特征；第二物料特征为物料消费特征。可选的，将至少一个文本进行拼接得到第二文本。

例如，博文物料包含不同模态的内容，例如文本、视频、图像和字符表情的内容，经过内容理解环节，得到物料的文本表示，用于以文本形式描述博文的整体内容信息。文本表示例如包括标题文字、图像描述、视频描述以及表情描述。也就是说，博文物料的视频、图像和文字信息都统一到文字内容描述，类似建立了一个内容文字描述公共层。在选用向量召回方式的情况下，对物料文本进行向量嵌入，以得到向量形式的物料内容特征。可选的，物料文本为基于至少一个文本得到的综合文本。可选的，物料消费特征均以向量形式表征，用于表示物料的使用情况，例如物料所对应博文的点击量、观看量、转发量、点赞量等。通过向量拼接得到的物料特征，用于表示物料的特征，包括物料的内容信息特征和消费信息特征。

在一种可能的实现方式中，在所述得到物料特征之后，还包括：基于所述物料特征和与所述物料相关的用户特征，进行物料召回；和/或基于所述第二文本与预定内容的相似度，进行物料召回。

可选的，用户特征包括用户行为特征和用户画像特征。用户画像特征用于表征用户的个人信息，例如用户的年龄、性别等；用户行为信息用于表征用户对不同物料的偏好信息，例如用户预先添加的感兴趣领域、用户关注的博主、用户历史博文浏览情况等。通过向量拼接得到的用户特征，用于表示用户的特征，包括用户的个人信息特征和行为信息特征。

可选的，将所述物料特征和用户特征输入排序模型，例如深度语义匹配模型(DeepStructured Semantic Models，DSSM)，计算得分，进行排序，能够确定用于召回的目标物料。所述目标物料的数量可以为一条或多条。可选的，在确定目标物料前，可以确定用于物料召回的目标模型。由于避免了物料和用户特征的信息模态差异，能够提高相关信息匹配模型的学习效率。

可选的，由于可以从综合文本抽取物料的话题和概要可以选用非向量方式对物料进行召回，例如兴趣召回和话题召回。

具体的，可以通过对内容理解产生的第二文本进行实体标签抽取和聚合，得到目标标签与用户侧的偏好标签做相似度计算，之后进行排序，得到相应的召回博文。或者，可以根据物料的内容描述来生成话题，在用户关注的话题下进行相似度计算，根据排序结果召回相应的博文。

此外，可以根据运营方或者产品的要求，在特定规则下做匹配，召回符合要求的博文。可选的，可以结合兴趣召回和规则召回。

在本申请实施例中，由于获取到的物料文本时可以人工理解和可解释的，所述物料文本可以用于包括向量召回、兴趣召回、话题召回的多路召回，提高了物料召回的灵活性。

图4示出本申请实施例提供的一种物料处理的装置的结构示意图，该装置400包括：获取模块410、第一确定模块420和第二确定模块430。

第一确定模块410，用于获取待处理的物料，所述物料包括至少一种模态的内容；第一确定模块420，用于确定与至少一种模态的内容相对应的至少一个文本，其中，每种模态的内容对应一个文本；第二确定模块430，用于根据所述至少一个文本，确定用于表征所述物料的特征信息。

在一种可能的实现方式中，第一确定模块420包括类型确定子模块，用于基于物料内容，确定所述物料对应的模态类型，所述模态类型包括文本、图像、视频、字符表情中的至少一种；文本确定子模块用于根据所述物料对应的每一种模态类型，分别确定与相应模态的内容相对应的文本。

在一种可能的实现方式中，文本确定子模块具体用于在所述物料对应的模态类型包括文本的情况下，根据文本模态的内容提取相应的第一文本；将所述第一文本作为与所述文本模态的内容相对应的文本。

在一种可能的实现方式中，文本确定子模块具体用于在所述物料对应的模态类型包括图像的情况下，将图像模态的内容输入特征提取模型进行特征提取，输出与所述图像模态的内容相对应的图像和文本多模态混合特征；将所述图像和文本多模态混合特征输入映射网络进行图像到文本特征空间的特征处理，输出与所述图像和文本多模态混合特征相对应的文本特征；根据所述文本特征，确定与所述图像模态的内容相对应的文本。

在一种可能的实现方式中，文本确定子模块具体用于在所述物料对应的模态类型包括视频的情况下，在所述视频模态的内容包含的连续多帧图像中，确定能够代表视频模态的内容的目标图像；将所述目标图像输入特征提取模型进行特征提取，输出与所述视频模态的内容相对应的图像和文本多模态混合特征；将所述图像和文本多模态混合特征输入映射网络进行图像到文本特征空间的特征处理，输出与所述图像和文本多模态混合特征相对应的文本特征；根据所述文本特征，确定与所述视频模态的内容相对应的文本。

在一种可能的实现方式中，文本确定子模块具体用于在视频模态的内容包括封面图像的情况下，确定所述封面图像为所述目标图像；在视频模态的内容不包括封面图像的情况下，确定所述连续多帧图像中的关键帧图像为所述目标图像。

在一种可能的实现方式中，文本确定子模块具体用于将所述文本特征输入文字预测模型进行特征转换，输出用于对所述文本特征进行文字描述的文本。

在一种可能的实现方式中，文本确定子模块具体用于在所述物料对应的模态类型包括字符表情的情况下，对所述字符表情模态的内容进行翻译，基于翻译结果得到与所述字符表情模态的内容相对应的文本。

在一种可能的实现方式中，第二确定模块具体用于基于所述至少一个文本，确定与所述物料内容相对应的第二文本，所述第二文本用于描述所述物料包括的全部模态的内容；对所述第二文本进行向量嵌入，获取用于表征物料内容的第一物料特征；将所述第一物料特征和第二物料特征进行向量拼接，得到物料特征，所述第二物料特征用于表征所述物料被访问的信息。

在一种可能的实现方式中，所述装置还包括物料召回模块，用于基于所述物料特征和与所述物料相关的用户特征，进行物料召回；和/或基于所述第二文本与预定内容的相似度，进行物料召回。

本申请实施例提供的该装置400，可执行前文方法实施例中所述的各方法，并实现前文方法实施例中所述的各方法的功能和有益效果，在此不再赘述。

图5示出执行本申请实施例提供的一种物料处理的方法的电子设备的硬件结构示意图，参考该图，在硬件层面，电子设备包括处理器510，可选地，包括内部总线520、网络接口530、存储器。其中，存储器可能包含内存540，例如高速随机存取存储器(Random-AccessMemory，RAM)，也可能还包括非易失性存储器(non-volatile memory)550，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器510、网络接口530和存储器可以通过内部总线520相互连接，该内部总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture，EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存540和非易失性存储器550，并向处理器510提供指令和数据。

处理器510从非易失性存储器550中读取对应的计算机程序到内存540中然后运行，在逻辑层面上形成定位目标用户的装置。处理器510，执行存储器所存放的程序，并具体用于执行图1至图3实施例所述的方法，并实现相同或相应的技术效果。

上述如本申请图1至图3所示实施例揭示的方法可以应用于处理器中，或者由处理器510实现。处理器510可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器510中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器510可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器510读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行前文方法实施例中所述的各方法，并实现前文方法实施例中所述的各方法的功能和有益效果，在此不再赘述。

当然，除了软件实现方式之外，本申请的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本申请实施例还提出了一种计算机可读存储介质，所述计算机可读介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行图1至图3实施例所述的方法，并实现相同或相应的技术效果。

其中，所述的计算机可读存储介质包括只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，实现图1至图3实施例所述的方法，并实现相同或相应的技术效果。

总之，以上所述仅为本申请的较佳实施例，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种物料处理的方法，其特征在于，包括：

获取待处理的物料，所述物料包括至少一种模态的内容；

确定与所述至少一种模态的内容相对应的至少一个文本，其中，每种模态的内容对应一个文本；

2.根据权利要求1所述的方法，其中，所述确定与所述至少一种模态的内容相对应的至少一个文本，包括：

基于物料内容，确定所述物料对应的模态类型，所述模态类型包括文本、图像、视频、字符表情中的至少一种；

根据所述物料对应的每一种模态类型，分别确定与相应模态的内容相对应的文本。

3.根据权利要求2所述的方法，其中，所述根据所述物料对应的每一种模态类型，分别确定与相应模态的内容相对应的文本，包括：

在所述物料对应的模态类型包括文本的情况下，根据文本模态的内容提取相应的第一文本；

将所述第一文本作为与所述文本模态的内容相对应的文本。

4.根据权利要求2所述的方法，所述根据所述物料对应的每一种模态类型，分别确定与相应模态的内容相对应的文本，包括：

在所述物料对应的模态类型包括图像的情况下，将图像模态的内容输入特征提取模型进行特征提取，输出与所述图像模态的内容相对应的图像和文本多模态混合特征；

将所述图像和文本多模态混合特征输入映射网络进行图像到文本特征空间的特征处理，输出与所述图像和文本多模态混合特征相对应的文本特征；

根据所述文本特征，确定与所述图像模态的内容相对应的文本。

5.根据权利要求2所述的方法，其中，所述根据所述物料对应的每一种模态类型，分别确定与相应模态的内容相对应的文本，包括：

在所述物料对应的模态类型包括视频的情况下，在视频模态的内容包含的连续多帧图像中，确定能够代表视频模态的内容的目标图像；

将所述目标图像输入特征提取模型进行特征提取，输出与所述视频模态的内容相对应的图像和文本多模态混合特征；

根据所述文本特征，确定与所述视频模态的内容相对应的文本。

6.根据权利要求5所述的方法，其中，所述在视频模态的内容包含的连续多帧图像中，确定能够代表视频模态的内容的目标图像，包括：

在视频模态的内容包括封面图像的情况下，确定所述封面图像为所述目标图像；

在视频模态的内容不包括封面图像的情况下，确定所述连续多帧图像中的关键帧图像为所述目标图像。

7.根据权利要求4或5所述的方法，所述根据所述文本特征，确定与所述图像模态或视频模态的内容相对应的文本，包括：

将所述文本特征输入文字预测模型进行特征转换，输出用于对所述文本特征进行文字描述的文本。

8.根据权利要求2所述的方法，其中，所述根据所述物料对应的每一种模态类型，分别确定与相应模态的内容相对应的文本，包括：

在所述物料对应的模态类型包括字符表情的情况下，对字符表情模态的内容进行翻译，基于翻译结果得到与所述字符表情模态的内容相对应的文本。

9.根据权利要求1所述的方法，其中，所述根据与至少一种模态的内容相对应的至少一个文本，确定用于表征所述物料的特征信息，包括：

基于所述至少一个文本，确定与所述物料内容相对应的第二文本，所述第二文本用于描述所述物料包括的全部模态的内容；

对所述第二文本进行向量嵌入，获取用于表征物料内容的第一物料特征；

将所述第一物料特征和第二物料特征进行向量拼接，得到物料特征，所述第二物料特征用于表征所述物料被访问的信息。

10.根据权利要求9所述的方法，其中，在所述得到物料特征之后，还包括：

基于所述物料特征和与所述物料相关的用户特征，进行物料召回；

和/或，

基于所述第二文本与预定内容的相似度，进行物料召回。

11.一种物料处理的装置，其特征在于，包括：

获取模块，用于获取待处理的物料，所述物料包括至少一种模态的内容；

第一确定模块，用于确定与至少一种模态的内容相对应的至少一个文本，其中每种模态的内容对应一个文本；

第二确定模块，用于根据所述至少一个文本，确定用于表征所述物料的特征信息。

12.一种电子设备，其特征在于，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使用所述处理器执行权利要求1-10中任一项所述的物料处理的方法。

13.一种计算机可读介质，所述计算机可读介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下权利要求1-10中任一项所述的物料处理的方法。