CN117725236A

CN117725236A - 多媒体内容的处理方法、装置、设备及介质

Info

Publication number: CN117725236A
Application number: CN202310457715.9A
Authority: CN
Inventors: 王昊臣; 蒋小龙; 汤旭
Original assignee: Xiaohongshu Technology Co ltd
Current assignee: Xiaohongshu Technology Co ltd
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2024-03-19

Abstract

本申请实施例公开了一种多媒体内容的处理方法、装置、设备及介质，应用于数据处理技术领域。其中方法包括：获取多媒体内容关联的多媒体信息，提取第一多媒体信息的图像模态特征，并提取第二多媒体信息的文本模态特征，对图像模态特征和文本模态特征进行特征融合处理，得到多媒体内容的多模态特征，对多模态特征进行特征处理，得到多媒体内容在推荐参数下的初始参数值，并根据初始参数值确定多媒体内容在推荐参数下的参数值处于N个参数区间的参数分布概率，通过N个参数区间对应的参数分布概率确定多媒体内容在推荐参数下的目标参数值。采用本申请实施例，可以提高针对推荐参数的预测准确性。

Description

多媒体内容的处理方法、装置、设备及介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种多媒体内容的处理方法、装置、设备及介质。

背景技术

在多媒体推荐任务中，主要目的旨在预测出用户感兴趣的多媒体内容并推荐至用户终端。例如，通过推荐参数(比如点击率)预测用户可能感兴趣的笔记并对该笔记进行推荐。因此，如何确定准确的推荐参数是一个重要任务。现有确定方式通常是，构建二分类模型来对多媒体内容的多媒体特征进行预测，确定该多媒体内容的推荐参数为哪个参数分类(比如多媒体内容的点击率为高点击率还是低点击率)。然而，该方式无法确定推荐参数具体的参数值，此外，针对参数分类的划分阈值会对模型的训练造成影响，使得针对推荐参数的预测准确性低。

发明内容

本申请实施例提供了一种多媒体内容的处理方法、装置、设备及介质，可以提高针对推荐参数的预测准确性。

一方面，本申请实施例提供了一种多媒体内容的处理方法，该方法包括：

获取多媒体内容关联的多媒体信息；媒体信息包括多媒体内容在图像模态的第一多媒体信息和在文本模态的第二多媒体信息；

提取第一多媒体信息的图像模态特征，并提取第二多媒体信息的文本模态特征，对图像模态特征和文本模态特征进行特征融合处理，得到多媒体内容的多模态特征；

对多模态特征进行特征处理，得到多媒体内容在推荐参数下的初始参数值，并根据初始参数值确定多媒体内容在推荐参数下的参数值处于N个参数区间的参数分布概率；一个参数区间对应一个参数分布概率；N为大于1的正整数；

通过N个参数区间对应的参数分布概率确定多媒体内容在推荐参数下的目标参数值。

一方面，本申请实施例提供了一种多媒体内容的处理装置，该装置包括：

获取模块，用于获取多媒体内容关联的多媒体信息；媒体信息包括多媒体内容在图像模态的第一多媒体信息和在文本模态的第二多媒体信息；

处理模块，用于提取第一多媒体信息的图像模态特征，并提取第二多媒体信息的文本模态特征，对图像模态特征和文本模态特征进行特征融合处理，得到多媒体内容的多模态特征；

处理模块，还用于对多模态特征进行特征处理，得到多媒体内容在推荐参数下的初始参数值，并根据初始参数值确定多媒体内容在推荐参数下的参数值处于N个参数区间的参数分布概率；一个参数区间对应一个参数分布概率；N为大于1的正整数；

处理模块，还用于通过N个参数区间对应的参数分布概率确定多媒体内容在推荐参数下的目标参数值。

一方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，其中，存储器用于存储计算机程序，该计算机程序包括程序指令，处理器被配置用于调用该程序指令，执行上述方法中的部分或全部步骤。

一方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时，用于执行上述方法中的部分或全部步骤。

相应地，根据本申请的一个方面，提供了一种计算机程序产品或者计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令被处理器执行时可实现上述方法中的部分或全部步骤。

本申请实施例中，可以获取多媒体内容关联的多媒体信息；提取第一多媒体信息的图像模态特征，并提取第二多媒体信息的文本模态特征，对图像模态特征和文本模态特征进行特征融合处理，得到多媒体内容的多模态特征；对多模态特征进行特征处理，得到多媒体内容在推荐参数下的初始参数值；初始参数值可以理解为是通过回归方式确定的一个中间参数值；根据初始参数值确定多媒体内容在推荐参数下的参数值处于N个参数区间的参数分布概率；可以理解为是通过分类方式确定推荐参数的概率分布，也就是将作为中间参数值的初始参数值转换为在N个参数区间的分布概率；通过N个参数区间对应的参数分布概率确定多媒体内容在推荐参数下的目标参数值；目标参数值用于确定针对多媒体内容的推荐策略；因此可以通过先确定初始参数值，并转换为参数概率分布，再确定目标参数值的方式来确定出具体的推荐参数，同时结合了回归和分类方式来确定推荐参数，可以更准确的拟合多媒体内容的多模态特征与推荐参数之间的关联关系，从而可以提高推荐参数的确定准确性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种数据处理场景的示意图；

图2为本申请实施例提供的一种多媒体内容的处理方法的流程示意图一；

图3为本申请实施例提供的一种多媒体内容的处理方法的流程示意图二；

图4为本申请实施例提供的一种确定目标参数值的过程示意图；

图5为本申请实施例提供的一种多媒体内容的处理装置的结构示意图；

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提出的多媒体内容的处理方法实现于电子设备，该电子设备可以是服务器，也可以是终端。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云计算、云函数、云存储、网络服务、云通信、中间件服务、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。

基于该多媒体内容的处理方法提出的一种数据处理场景的示意图可如图1所示，图1提出一种网络架构，该网络架构可以包括业务服务器以及用户终端集群，其中，用户终端集群可以包括一个或多个用户终端，这里将不对用户终端集群中的用户终端的数量进行限定。用户终端集群中的用户终端之间可以存在通信连接。同时，用户终端集群中的任一用户终端可以与业务服务器存在通信连接，以便于用户终端集群中的每个用户终端均可以通过该通信连接与业务服务器进行数据交互。其中，上述通信连接不限定连接方式，可以通过有线通信方式进行直接或间接地连接，也可以通过无线通信方式进行直接或间接地连接，还可以通过其它方式，本申请在此不做限制。此外，可以理解的是，本申请实施例所涉及的电子设备可以是图1所示的业务服务器，也可以是图1所示的用户终端集群中的任意一个用户终端。

例如，在本申请实施例中，服务器可以获取任一多媒体内容关联的多媒体信息，并通过本申请所提出的多媒体内容的处理方法基于多媒体信息实现对多媒体内容的推荐参数的确定。比如，服务器可以在获取多媒体内容10时，获取该多媒体内容10关联的多媒体信息11，该多媒体信息11包括多媒体内容在图像模态下的第一多媒体信息12和在文本模态下的第二多媒体信息13，根据第一多媒体信息12和第二多媒体信息13确定多媒体内容10的多模态特征14，比如可以是提取第一多媒体信息12的图像模态信息15，并提取第二多媒体信息13的文本模态特征16，对图像模态特征15和文本模态特征16进行特征融合处理，得到多媒体内容10的多模态特征14；对多模态特征14进行特征处理，得到多媒体内容10在推荐参数下的初始参数值17，并根据初始参数值17确定多媒体内容10在推荐参数下的参数值处于N个参数区间的参数分布概率18，一个参数区间对应一个参数分布概率，比如参数区间1对应一个参数分布概率、参数区间2对应一个参数分布概率、参数区间3对应一个参数分布概率；通过N个参数区间对应的参数分布概率18确定多媒体内容10在推荐参数下的目标参数值19，该目标参数值19用于确定针对多媒体内容的推荐策略。

可选的，在一些实施例中，电子设备可根据实际的业务需求，执行该多媒体内容的处理方法以实现高效的对象分割。本申请技术方案可以应用于任意多媒体内容的推荐参数预测场景中。例如，该多媒体内容可以是社交场景下的多媒体内容，比如为图片内容、视频内容等等(比如具体可以是用户发表的笔记)。又如，该多媒体内容可以是电商场景下的多媒体内容，比如为商品信息内容等等。在此对多媒体内容的类型不做限定。电子设备可以通过本方案技术方案确定多媒体内容在推荐参数下的目标参数值，比如确定多媒体内容的点击率，以对多媒体内容进行相关推荐。

可选的，本申请涉及的数据如多媒体内容关联的多媒体信息、多媒体内容在推荐参数下的目标参数值等，可以存储于数据库中，或者可以存储于区块链中，如通过区块链分布式系统存储，本申请不做限定。

需要说明的是，在本申请的具体实施方式中，涉及到获取用户信息等相关数据的场景时，如获取用户上传的多媒体内容等，需要获得用户许可或者同意。即在本申请实施例运用到具体产品或技术中时，相关用户数据的收集、使用和处理遵守相关国家和地区的相关法律法规和标准。例如可以通过交互界面的形式发出提示信息以用于提示具体会收集或者获取哪些数据，具体可以通过列表等方式将这些数据的类型、内容等提示给用户，只有在交互界面上接收到允许收集数据的确认操作或者指令之后，才会进一步进行相关数据的收集、处理等。

可以理解，上述场景仅是作为示例，并不构成对于本申请实施例提供的技术方案的应用场景的限定，本申请的技术方案还可应用于其他场景。例如，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

基于上述的描述，本申请实施例提出了一种多媒体内容的处理方法，该方法可以由上述提及的电子设备来执行。请参见图2，图2为本申请实施例提供的一种多媒体内容的处理方法的流程示意图。如图2所示，本申请实施例的多媒体内容的处理方法的流程可以包括如下：

S101、获取多媒体内容关联的多媒体信息。

在一些实施例中，多媒体内容可以任意类型的多媒体内容。比如可以是图片内容、视频内容等等，例如具体可以是社交平台上用户发表的笔记。在此不做限定。本申请不对多媒体内容的来源进行限定，例如，该多媒体内容可以是用户上传的多媒体内容；或者是在网站上扒取到的线上多媒体内容；或者是从相关数据库获取到的内容文档，比如商品数据库中获取到的多媒体内容等等。此外，多媒体内容为待推荐的多媒体内容。且该多媒体内容关联的多媒体信息可以是多种多媒体模态的信息。比如，多媒体内容关联的多媒体信息可以包括多媒体内容在图像模态下的第一多媒体信息以及多媒体内容在文本模态下的第二多媒体信息。本申请并不对多媒体信息的多媒体模态进行限定。

可以理解，第一多媒体信息为从多媒体内容中提取到的图像信息，比如多媒体内容为笔记，该图像信息可以是笔记中包含的图片，或者笔记中包含的视频帧。第二多媒体信息为从多媒体内容中提取到文本信息，该文本信息可以为图像信息的描述信息。比如多媒体内容为图片，该文本可以是图片的描述文本，比如图片标题等等。也就是说，该第一多媒体信息和第二多媒体信息的具体内容根据多媒体内容的具体类型确定。可以理解的是，对于同一个多媒体内容中的第一多媒体信息和第二多媒体信息为相互匹配的多媒体信息。

S102、提取第一多媒体信息的图像模态特征，并提取第二多媒体信息的文本模态特征，对图像模态特征和文本模态特征进行特征融合处理，得到多媒体内容的多模态特征。

其中，图像模态特征可以通过图像提取模型对第一多媒体信息进行特征提取得到，文本模态特征可以通过文本提取模型对第二多媒体信息进行特征提取得到。该第一多媒体信息和第二多媒体信息的具体提取方式可以参见下述实施例的相关描述。

其中，特征融合处理的方式可以是，对图像模态特征和文本模态特征进行特征求和，将特征求和结果作为多模态特征。该多模态特征既表征了第一多媒体信息中的特征信息又表征了第二多媒体信息中的特征信息。

此外，特征融合处理的方式还可以是，对图像模态特征和文本模态特征进行特征拼接，将特征拼接结果作为多模态特征。

可以理解，图像提取模型和文本提取模型可以是特征提取模型中的子模型，特征提取模型还可以包括特征融合层，通过该特征融合层对图像模态特征和文本模态特征进行特征融合处理。在此对特征融合处理不做限定。

其中，具体可以是，在特征融合层中，将图像模态特征和文本模态特征作为特征集合，并对特征集合中两两特征进行特征交叉(即两两向量进行内积)，得到交叉特征，将图像模态特征和文本模态特征进行拼接，得到拼接特征，根据交叉特征和拼接特征得到多模态特征。其中，根据交叉特征和拼接特征得到多模态特征可以是将交叉特征和拼接特征的每个元素依序平铺组成目标向量，并将该目标向量作为多模态特征。

此外，将两两特征进行特征交叉引用了因子分解机的(Factorization Machine，FM)思想，即：

其中，<>表示向量内积，V_i,V_j表示特征集合中任意两个特征，N表示特征集合中的特征数量。

可以理解的是，该多模态特征包含了由图像模态特征内部之间、文本模态特征内部之间、图像模态特征和文本模态特征之间的特征的关联信息，体现了多种特征之间的进行显性交互而得到特征之间的关系，进而使得多模态特征中可以结合两两特征之间的关系，可以使得多模态特征可以具备丰富的特征信息。

S103、对多模态特征进行特征处理，得到多媒体内容在推荐参数下的初始参数值，并根据初始参数值确定多媒体内容在推荐参数下的参数值处于N个参数区间的参数分布概率。

其中，推荐参数可以是任意推荐场景下的参数，比如点击率、转化率等等。可以通过多模态特征得到多媒体内容在推荐参数下的具体的参数值，也就是初始参数值。比如，通过训练完成的参数处理模型中的参数预测网络(如全连接层)对多模态特征进行特征处理，得到初始参数值。

其中，可以通过参数处理模型中的参数处理网络对初始参数值进行参数处理，以根据初始参数值确定多媒体内容在推荐参数下的参数值处于N个参数区间的参数分布概率，也就是多媒体内容的推荐参数的参数分布概率。其中，通过参数处理网络确定参数分布概率的具体方式可以参见下述实施例的相关描述。

其中，N个参数区间为基于推荐参数的预设参数值范围所划分的连续区间。比如，推荐参数的参数值范围为0-1或者为0.4～1等，在此不做限定。可以通过N-1个参数切分点对参数值范围进行切分，比如均等切分，得到N个参数区间。N为大于1的正整数。N可以根据实际场景设置。比如，N为10，则划分出的参数区间依次为0～0.1、0.1～0.2、...、0.9～1。在此对参数区间的划分方式不做限定。

可以理解的是，本申请实施例采用有序回归的方式确定多媒体内容的推荐参数。也就是通过回归的方式确定初始参数值(中间值)，再通过分类的方式基于初始参数值确定多媒体内容的推荐参数的参数分布概率。该可以将点击率预测问题转换为点击率的序数回归问题，也就是将点击率的回归问题转换为区间分类问题。一个多媒体内容对应的初始参数值不同，所对应的参数分布概率不同。以及最后通过参数分布概率来得到推荐参数最终的预测值，从而避免了直接对一个参数值进行拟合，而是对参数概率分布进行拟合。因此可以同时保留了分类和回归算法的优点。相比于仅使用分类算法或回归算法，本方案可以很大程度上保留了分类算法和回归算法的优势，具有对尺度不敏感，优化快等优点，从而可以提升推荐参数的确定准确性。

S104、通过N个参数区间对应的参数分布概率确定多媒体内容在推荐参数下的目标参数值。

其中，可以获取每个参数区间的参数区间值，通过N个参数区间对应的参数分布概率对N个参数区间的参考区间值进行加权求和，得到目标参数值。可以理解，该参数区间值为每个参数区间的中间值。比如，推荐参数为点击率，N个参数区间分别为：参数区间1:0～0.25、参数区间2:0.25～0.5、参数区间3:0.5～0.75、参数区间4:0.75～1；参数区间1的参数区间值为0.125，参数区间2的参数区间值为0.325，参数区间3的参数区间值为0.625、参数区间4的参数区间值为0.825；若参数区间1对应的参数分布概率为0.3、参数区间2对应的参数分布概率为0.4、参数区间3对应的参数分布概率为0.5、参数区间4对应的参数分布概率为0.7；目标参数值为0.125*0.3+0.325*0.4+0.625*0.5+0.825*0.7＝0.847，则多媒体内容的点击率为0.847。

可以理解，该目标参数值可以用于确定针对多媒体内容的推荐策略。比如，将目标参数值大于参数值阈值的多媒体内容推荐给目标对象。

请参见图3，图3为本申请实施例提供的一种多媒体内容的处理方法的流程示意图，该方法可以由上述提及的电子设备执行。如图3所示，本申请实施例中多媒体内容的处理方法的流程可以包括如下：

S201、获取多媒体内容关联的多媒体信息。其中，步骤S201的具体实施方式可以参见上述实施例相关描述，在此不再赘述。

S202、通过图像提取模型提取第一多媒体信息的图像模态特征，并通过文本提取模型提取第二多媒体信息的文本模态特征，对图像模态特征和文本模态特征进行特征融合处理，得到多媒体内容的多模态特征。

其中，通过图像提取模型提取图像模态特征可以是，对第一多媒体信息进行图像划分处理，得到第一多媒体信息对应的多个子图像，分别获取多个子图像的图像编码特征(即图像编码向量)，并将多个子图像的图像编码特征依次输入图像提取模型，由图像提取模型对多个子图像的图像编码特征进行特征提取处理，得到每个子图像的图像提取特征(即图像提取向量)，根据每个子图像的图像提取特征确定第一多媒体信息的图像模态特征。其中，可以将每个子图像的图像提取特征均作为图像提取特征。也可以将每个子图像的图像提取特征之和作为图像提取特征。

其中，对第一多媒体信息的图像划分处理可以是按照图像像素粒度对第一多媒体信息进行图像划分处理，也可以是对第一多媒体信息进行图像划分处理得到目标数量的划分图像，将该目标数量的划分图像作为多个子图像。也可以是对第一多媒体信息进行图像划分处理得到多个目标尺寸的划分图像，将该多个目标尺寸的划分图像作为多个子图像。在此不做限定。

其中，通过文本提取模型提取文本模态特征可以是，对第二多媒体信息进行文本划分处理，得到第二多媒体信息对应的多个子文本，分别获取多个子文本的文本编码特征(即文本编码向量)，并将多个子文本的文本编码特征依次输入文本提取模型，由文本提取模型对多个子文本的文本编码特征进行特征提取处理，得到每个子文本的文本提取特征(即文本编码向量)，根据每个子文本的文本提取特征确定第二多媒体信息的文本模态特征。其中，可以将每个子文本的文本提取特征均作为文本提取特征。也可以将每个子文本的文本提取特征之和作为文本提取特征。

其中，对第二多媒体信息的文本划分处理可以是对第二多媒体信息进行分词处理，得到多个文本分词，将多个文本分词作为多个子文本。

此外，图像提取模型和文本提取模型可以是分别训练的独立模型，也可以是同时训练的特征提取模型中的子模型。比如，图像提取模型可以是Vi s ion Transformer(一种用于提取视觉特征的神经网络模型)中的编码器，文本提取模型可以是Text Transformer(一种用于提取文本特征的神经网络模型)中的编码器。

其中，同时训练图像提取模型和文本提取模型的方式可以是，获取多个样本多媒体内容关联的样本多媒体信息；任一个样本多媒体内容关联的样本多媒体信息包括任一个样本多媒体内容在图像模态的第一样本多媒体信息和在文本模态的第二样本多媒体信息；调用初始图像提取模型分别提取每个样本多媒体内容关联的第一样本多媒体信息的样本图像模态特征，以及调用初始文本提取模型分别提取每个样本多媒体内容关联的第二样本多媒体信息的样本图像模态特征；通过每个样本多媒体内容对应的样本图像模态特征以及对应的样本文本模态特征构建正样本模态特征对和负样本模态特征对；正样本模态特征对包含一个样本图像模态特征以及一个样本文本模态特征，且正样本模态特征对所包含的样本图像模态特征关联的样本多媒体内容与正样本模态特征对所包含的样本文本模态特征关联的样本多媒体内容相同；负样本模态特征对包括一个样本图像模态特征以及一个样本文本模态特征，且负样本模态特征对所包含的样本图像模态特征关联的样本多媒体内容与正样本模态特征对所包含的样本文本模态特征关联的样本多媒体内容不同；确定正样本模态特征对所包含的样本图像模态特征及样本文本模态特征之间的正样本特征相似度，以及确定负样本模态特征对所包含的样本图像模态特征及样本文本模态特征之间的负样本特征相似度；通过正样本特征相似度和负样本特征相似度训练初始图像提取模型和初始文本提取模型，得到训练完成的图像提取模型和文本提取模型。

可以理解的是，一个多媒体内容中的第一多媒体信息和第二多媒体信息是相互匹配的媒体信息。因此在模型训练过程中，可以基于对比学习的方式对文本特征和图像特征进行对齐，其使得文本特征和视觉特征在特征空间有很高的匹配性，从而可以使得最终确定出的多模态特征可以更好的表征多种模态的多媒体信息中的特征信息。

可以理解，正样本模态特征是通过同一个样本多媒体内容关联的样本多媒体信息所构建的，负样本模态特征是通过不同样本多媒体内容关联的样本多媒体信息所构建的。比如，样本多媒体内容为内容1-3，多媒体内容1关联的样本多媒体信息1包括第一样本多媒体信息1和第二样本多媒体信息1，多媒体内容2关联的样本多媒体信息2包括第一样本多媒体信息2和第二样本多媒体信息2，多媒体内容3关联的样本多媒体信息3包括第一样本多媒体信息3和第二样本多媒体信息3，正样本模态特征对可以如下：特征对1包括：第一样本多媒体信息1对应的样本图像模态特征和第二样本多媒体信息1对应的样本文本模态特征、第一样本多媒体信息2对应的样本图像模态特征和第二样本多媒体信息2对应的样本文本模态特征、第一样本多媒体信息3对应的样本图像模态特征和第二样本多媒体信息3对应的样本文本模态特征；负样本模态特征对可以如下：特征对1包括：第一样本多媒体信息1对应的样本图像模态特征和第二样本多媒体信息2对应的样本文本模态特征、第一样本多媒体信息1对应的样本图像模态特征和第二样本多媒体信息3对应的样本文本模态特征、第一样本多媒体信息2对应的样本图像模态特征和第二样本多媒体信息1对应的样本文本模态特征、第一样本多媒体信息2对应的样本图像模态特征和第二样本多媒体信息3对应的样本文本模态特征、第一样本多媒体信息3对应的样本图像模态特征和第二样本多媒体信息1对应的样本文本模态特征、第一样本多媒体信息3对应的样本图像模态特征和第二样本多媒体信息2对应的样本文本模态特征。

可以理解，对初始图像提取模型和初始文本提取模型的训练可以是，向着增大正样本特征相似度的方向，以及减少负样本特征相似度的方向迭代训练初始图像提取模型和初始文本提取模型，以得到图像提取模型和文本提取模型。

其中，对图像模态特征和文本模态特征进行特征融合处理的具体方式可以参见上述实施例相关描述。

S203、通过参数处理模型对多模态特征进行特征处理，得到多媒体内容在推荐参数下的初始参数值。其中，步骤S203的具体实施方式可以参见上述实施例的相关描述，在此不再赘述。

S204、根据初始参数值以及N个参数区间关联的分布影响度确定多媒体内容在推荐参数下的参数值处于N个参数区间的参数分布概率。

其中，确定参数分布概率的方式可以是，获取目标参数区间对应的区间起始位置和区间终止位置；目标参数区间为N个参数区间中的任一个；获取区间起始位置关联的第一分布影响度以及区间终止位置关联的第二分布影响度；根据初始参数值以及第一分布影响度确定在推荐参数下的参数值处于区间起始位置的关联区间的参数分布概率，以及根据初始参数值以及第二分布影响度确定在推荐参数下的参数值处于区间终止位置的关联区域的参数分布概率；通过区间起始位置的关联区间对应的参数分布概率和区间终止位置的关联区域对应的参数分布概率确定目标参数区间对应的参数分布概率。

可以理解，每个参数区间对应的区间起始位置均关联一个第一分布影响度以及对应的区间终止位置均关联一个第二分布影响度。该第一分布影响度和第二分布影响度为参数处理模型中的模型参数，用于拟合推荐参数在不同初始参数值下的参数分布概率。

其中，根据初始参数值、第一分布影响度和第二分布影响度确定参数分布概率可以参见如下公式：

P(Y_i＜x＜Y_j)＝P(θ_j-x)-P(θ_i-x)＝σ(θ_j-x)-σ(θ_i-x)

其中，Yi表示参数区间对应的区间起始位置，Yj表示参数区间对应的区间终止位置；θ_i表示区间起始位置关联的第一分布影响度、θ_j表示区间终止位置关联的第二分布影响度；σ(z)表示sigmoid函数(一种归一化激活函数)。

比如，参数区间对应的区间起始位置为0.1，参数区间对应的区间终止位置为0.3，区间起始位置关联的第一分布影响度为3，区间终止位置关联的第二分布影响度为6，则该参数区间0.1～0.3的参数分布概率为：σ(0.3-6)-σ(0.1-3)。

可以理解，本申请实施例将参数处理模型输出的参数值实数变成了属于每个参数区间的参数分布概率，可以通过初始参数值确定推荐参数的实际参数值在每个参数区间的参数分布概率，进而可以确定最终的目标参数值。可以理解为是，通过初始参数值确定与初始参数值相关联的参数分布概率，并通过参数分布概率对初始参数值进行调整，得到最终的目标参数值。其中，上述σ(θ_j-x)表示目标参数区间的区间终止位置的关联区间对应的参数分布概率，区间终止位置的关联区间为N个参数区间中位于区间终止位置之前的参数区间所组成的区间和。σ(θ_i-x)表示目标参数区间的区间起始位置的关联区间对应的参数分布概率。区间起始位置的关联区间为N个参数区间中位于区间起始位置之前的参数区间所组成的区间和。

例如，N个参数区间依次为0-0.1、0.1-0.2、...、0.8-0.9、0.9-1；区间终止位置为0.9、区间起始位置为0.8；因此区间终止位置的关联区间为N个参数区间中位于0.9之前的参数区间所组成的区间和，即为0-0.9，因此区间终止位置的关联区间对应的参数分布概率即为推荐参数的参数值落在区间0-0.9的参数分布概率；因此区间起始位置的关联区间为N个参数区间中位于0.8之前的参数区间所组成的区间和，即为0-0.8，因此区间起始位置的关联区间对应的参数分布概率即为推荐参数的参数值落在区间0-0.8的参数分布概率。

也就是说，可以根据推荐参数的参数值落在区间终止位置的关联区间的参数分布概率和推荐参数的参数值落在区间起止位置的关联区间的参数分布概率确定推荐参数的参数值落在目标参数区间的概率。可以理解，区间终止位置的关联区间与区间起止位置的关联区间之差为目标参数区间，因此落在区间终止位置的关联区间的参数分布概率与落在区间起止位置的关联区间的参数分布概率之差为落在目标参数区间的概率。

因此，推荐参数的参数值落在一个参数区间(Y_i＜x＜Y_j)内的概率可以表示为P(Y_i＜x＜Y_j)。假设P为累积分布函数，采用sigmoid函数作为累积分布函数，每个区间的概率可写做σ(θ_j-x)-σ(θ_i-x)，进而可以使用负对数似然损失函数来优化这个参数处理模型。这样做的好处是，正常的分类任务中，不同类别用热独编码，任意两类别的距离是相同的，这会导致模型预测的类别不管与真实值偏差多少，都会得到一样的损失。而在有序回归中，不用类别之间距离会受其类别间关系影响，因而预测值与实际值偏差越大，损失函数就越大，更有利于训练优化。

因此，参数处理模型可以用于根据多模态特征确定初始参数值，并根据初始参数值确定推荐参数的参数分布概率，进而确定目标参数值。训练过程可以是：获取初始参数处理模型；初始参数处理模型的模型参数包括每个参数区间对应的区间起始位置所关联的第一初始分布影响度以及对应的区间终止位置所关联的第二初始分布影响度；获取样本多模态特征；样本多模态特征携带标签参数值；将样本多模态特征输入初始参数处理模型，得到样本多模态特征在推荐参数下的样本初始参数值，并根据样本初始参数值、每个参数区间对应的第一初始分布影响度以及对应的第二初始分布影响度确定样本多模态特征在推荐参数下的样本目标参数值；通过标签参数值和样本目标参数值训练初始参数处理模型，得到训练完成的参数处理模型；参数处理模型用于确定多媒体内容在推荐参数下的目标参数值；参数处理模型的模型参数包括每个参数区间对应的区间起始位置所关联的第一分布影响度以及对应的区间终止位置所关联的第二分布影响度。

其中，可以通过初始参数处理模型中的初始参数预测网络确定样本初始参数值，通过初始参数处理模型中的初始参数处理网络确定参数分布概率，即初始参数处理网络包括各个初始分布影响度，可以通过训练初始参数处理网络得到各个分布影响度。也就是说，在初始参数处理网络中，基于样本初始参数值、每个参数区间对应的第一初始分布影响度以及对应的第二初始分布影响度确定每个参数区间对应的样本参数分布概率，再根据每个参数区间对应的样本参数分布概率确定在推荐参数下的样本目标参数值。该确定样本参数分布概率的原理和过程可以参见上述相关描述。

可以理解，参数处理模型和特征提取模型可以分别独立训练，也可以同时训练。此外，对参数处理模型的训练可以是：向着减小标签参数值与样本目标参数值之间的差异的方向，迭代训练初始参数处理模型，以得到参数处理模型。

S205、通过N个参数区间对应的参数分布概率确定多媒体内容在推荐参数下的目标参数值。

其中，目标参数值用于确定针对多媒体内容的推荐策略，可以在训练完成的参数处理模型中确定多媒体内容的目标参数值，比如由参数处理模型根据每个参数区间对应的区间起始位置所关联的第一分布影响度以及对应的区间终止位置所关联的第二分布影响度，和初始参数值确定参数分布概率，在根据参数分布概率确定目标参数值。确定目标参数值的具体方式可以参见上述实施例的相关描述。

例如，如图4所示，图4为本申请实施例提供的一种确定目标参数值的过程示意图；其中，获取多媒体内容40关联的多媒体信息41，该多媒体信息包括在图像模态的第一多媒体信息41a和在文本模态的第二多媒体信息41b，将第一多媒体信息41a和第二多媒体信息41b输入特征提取模型42，由特征提取模型42中的图像提取模型43a提取第一多媒体信息41a的图像模态特征44a，由特征提取模型42中的文本提取模型43b提取第二多媒体信息41b的文本模态特征44b，并由特征融合层45对图像模态特征44a和文本模态特征44b进行特征融合处理，得到多媒体内容40的多模态特征46，将多模态特征46输入参数处理模型47，由参数处理模型47中的参数预测网络48a对多模态特征46进行特征处理，得到初始参数值49，并由参数处理模型47中的参数处理网络48b基于相关分布影响度410对初始参数值49进行参数处理，以根据初始参数值49确定多媒体内容40在推荐参数下的参数值处于N个参数区间的参数分布概率411，进而通过该N个参数区间的参数分布概率411确定多媒体内容40在推荐参数下的目标参数值412。

请参见图5，图5为本申请提供的一种多媒体内容的处理装置的结构示意图。需要说明的是，图5所示的多媒体内容的处理装置，用于执行本申请图2和图3所示实施例的方法，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示，经参照本申请图2和图3所示的实施例。该多媒体内容的处理装置500可包括：获取模块501、处理模块502。其中：

获取模块501，用于获取多媒体内容关联的多媒体信息；媒体信息包括多媒体内容在图像模态的第一多媒体信息和在文本模态的第二多媒体信息；

处理模块502，用于提取第一多媒体信息的图像模态特征，并提取第二多媒体信息的文本模态特征，对图像模态特征和文本模态特征进行特征融合处理，得到多媒体内容的多模态特征；

处理模块502，还用于对多模态特征进行特征处理，得到多媒体内容在推荐参数下的初始参数值，并根据初始参数值确定多媒体内容在推荐参数下的参数值处于N个参数区间的参数分布概率；一个参数区间对应一个参数分布概率；N为大于1的正整数；

处理模块502，还用于通过N个参数区间对应的参数分布概率确定多媒体内容在推荐参数下的目标参数值。

其中，处理模块502在用于提取第一多媒体信息的图像模态特征时，具体用于：

对第一多媒体信息进行图像划分处理，得到第一多媒体信息对应的多个子图像；

分别获取多个子图像的图像编码特征，并将多个子图像的图像编码特征依次输入图像提取模型，由图像提取模型对多个子图像的图像编码特征进行特征提取处理，得到每个子图像的图像提取特征；

根据每个子图像的图像提取特征确定第一多媒体信息的图像模态特征。

其中，处理模块502在用于提取第二多媒体信息的文本模态特征时，具体用于：

对第二多媒体信息进行文本划分处理，得到第二多媒体信息对应的多个子文本；

分别获取多个子文本的文本编码特征，并将多个子文本的文本编码特征依次输入文本提取模型，由文本提取模型对多个子文本的文本编码特征进行特征提取处理，得到每个子文本的文本提取特征；

根据每个子文本的文本提取特征确定第二多媒体信息的文本模态特征。

其中，处理模块502还用于：

获取多个样本多媒体内容关联的样本多媒体信息；任一个样本多媒体内容关联的样本多媒体信息包括任一个样本多媒体内容在图像模态的第一样本多媒体信息和在文本模态的第二样本多媒体信息；

调用初始图像提取模型分别提取每个样本多媒体内容关联的第一样本多媒体信息的样本图像模态特征，以及调用初始文本提取模型分别提取每个样本多媒体内容关联的第二样本多媒体信息的样本图像模态特征；

通过每个样本多媒体内容对应的样本图像模态特征以及对应的样本文本模态特征构建正样本模态特征对和负样本模态特征对；正样本模态特征对包含一个样本图像模态特征以及一个样本文本模态特征，且正样本模态特征对所包含的样本图像模态特征关联的样本多媒体内容与正样本模态特征对所包含的样本文本模态特征关联的样本多媒体内容相同；负样本模态特征对包括一个样本图像模态特征以及一个样本文本模态特征，且负样本模态特征对所包含的样本图像模态特征关联的样本多媒体内容与正样本模态特征对所包含的样本文本模态特征关联的样本多媒体内容不同；

确定正样本模态特征对所包含的样本图像模态特征及样本文本模态特征之间的正样本特征相似度，以及确定负样本模态特征对所包含的样本图像模态特征及样本文本模态特征之间的负样本特征相似度；

通过正样本特征相似度和负样本特征相似度训练初始图像提取模型和初始文本提取模型，得到训练完成的图像提取模型和文本提取模型。

其中，处理模块502在用于根据初始参数值确定多媒体内容在推荐参数下的参数值处于N个参数区间的参数分布概率时，具体用于：

获取目标参数区间对应的区间起始位置和区间终止位置；目标参数区间为N个参数区间中的任一个；

获取区间起始位置关联的第一分布影响度以及区间终止位置关联的第二分布影响度；

根据初始参数值以及第一分布影响度确定在推荐参数下的参数值处于区间起始位置的关联区间的参数分布概率，以及根据初始参数值以及第二分布影响度确定在推荐参数下的参数值处于区间终止位置的关联区域的参数分布概率；

通过区间起始位置的关联区间对应的参数分布概率和区间终止位置的关联区域对应的参数分布概率确定目标参数区间对应的参数分布概率。

其中，处理模块502还用于：

获取初始参数处理模型；初始参数处理模型的模型参数包括每个参数区间对应的区间起始位置所关联的第一初始分布影响度以及对应的区间终止位置所关联的第二初始分布影响度；

获取样本多模态特征；样本多模态特征携带标签参数值；

将样本多模态特征输入初始参数处理模型，得到样本多模态特征在推荐参数下的样本初始参数值，并根据样本初始参数值、每个参数区间对应的第一初始分布影响度以及对应的第二初始分布影响度确定样本多模态特征在推荐参数下的样本目标参数值；

通过标签参数值和样本目标参数值训练初始参数处理模型，得到训练完成的参数处理模型；参数处理模型用于确定多媒体内容在推荐参数下的目标参数值；参数处理模型的模型参数包括每个参数区间对应的区间起始位置所关联的第一分布影响度以及对应的区间终止位置所关联的第二分布影响度。

其中，处理模块502在用于通过N个参数区间对应的参数分布概率确定多媒体内容在推荐参数下的目标参数值时，具体用于：

获取每个参数区间的参考区间值；

通过N个参数区间对应的参数分布概率对N个参考区间的参考区间值进行加权求和，得到目标参数值。

其中，获取模块和处理模块的具体实现方式，可以参见上述实施例的描述，这里将不再继续进行赘述。应当理解，对采用相同方法所得到的有益效果描述，也不再进行赘述。

请参见图6，图6为本申请实施例提供的一种电子设备的结构示意图。如图6所示，该电子设备600包括：至少一个处理器601、存储器602。可选的，该电子设备还可包括网络接口。其中，处理器601、存储器602以及网络接口之间可以交互数据，网络接口受处理器601的控制用于收发消息，存储器602用于存储计算机程序，计算机程序包括程序指令，处理器601用于执行存储器602存储的程序指令。其中，处理器601被配置用于调用程序指令执行上述方法。

存储器602可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器602也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，固态硬盘(solid-state drive，SSD)等；存储器602还可以包括上述种类的存储器的组合。

处理器601可以是中央处理器(central processing unit，CPU)。在一个实施例中，处理器601还可以是图形处理器(Graphics Processing Unit，GPU)。处理器601也可以是由CPU和GPU的组合。

在一个可能的实施方式中，存储器602用于存储程序指令，处理器601可以调用程序指令，执行以下步骤：

其中，处理器601在用于提取第一多媒体信息的图像模态特征时，具体用于：

其中，处理器601在用于提取第二多媒体信息的文本模态特征时，具体用于：

其中，处理器601还用于：

其中，处理器601在用于根据初始参数值确定多媒体内容在推荐参数下的参数值处于N个参数区间的参数分布概率时，具体用于：

其中，处理器601还用于：

获取样本多模态特征；样本多模态特征携带标签参数值；

其中，处理器601在用于通过N个参数区间对应的参数分布概率确定多媒体内容在推荐参数下的目标参数值时，具体用于：

获取每个参数区间的参考区间值；

具体实现中，本申请实施例中所描述的装置、处理器、存储器等可执行上述方法实施例所描述的实现方式，也可执行本申请实施例所描述的实现方式，在此不再赘述。

本申请实施例中还提供一种计算机(可读)存储介质，计算机存储介质存储有计算机程序，计算机程序包括程序指令，程序指令被处理器执行时，使处理器可执行上述方法实施例中所执行的部分或全部步骤。可选的，该计算机存储介质可以是易失性的，也可以是非易失性的。该计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本申请实施例提供了一种计算机程序产品，该计算机程序产品可包括计算机程序，计算机程序被处理器执行时可实现上述方法中的部分或全部步骤，此处不赘述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于计算机存储介质中，该计算机存储介质可以为计算机可读存储介质，该程序在执行时，可包括如上述各方法的实施例的流程。其中，该存储介质可为磁碟、光盘、只读存储记忆体(Read-On ly Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本申请的部分实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于本申请所涵盖的范围。

Claims

1.一种多媒体内容的处理方法，其特征在于，所述方法包括：

获取多媒体内容关联的多媒体信息；所述多媒体信息包括所述多媒体内容在图像模态的第一多媒体信息和在文本模态的第二多媒体信息；

提取所述第一多媒体信息的图像模态特征，并提取所述第二多媒体信息的文本模态特征，对所述图像模态特征和所述文本模态特征进行特征融合处理，得到所述多媒体内容的多模态特征；

对所述多模态特征进行特征处理，得到所述多媒体内容在推荐参数下的初始参数值，并根据所述初始参数值确定所述多媒体内容在所述推荐参数下的参数值处于N个参数区间的参数分布概率；一个参数区间对应一个参数分布概率；N为大于1的正整数；

通过所述N个参数区间对应的参数分布概率确定所述多媒体内容在所述推荐参数下的目标参数值。

2.根据权利要求1所述的方法，其特征在于，所述提取所述第一多媒体信息的图像模态特征，包括：

对所述第一多媒体信息进行图像划分处理，得到所述第一多媒体信息对应的多个子图像；

分别获取所述多个子图像的图像编码特征，并将所述多个子图像的图像编码特征依次输入图像提取模型，由所述图像提取模型对所述多个子图像的图像编码特征进行特征提取处理，得到每个子图像的图像提取特征；

根据所述每个子图像的图像提取特征确定所述第一多媒体信息的图像模态特征。

3.根据权利要求2所述的方法，其特征在于，所述提取所述第二多媒体信息的文本模态特征，包括：

对所述第二多媒体信息进行文本划分处理，得到所述第二多媒体信息对应的多个子文本；

分别获取所述多个子文本的文本编码特征，并将所述多个子文本的文本编码特征依次输入文本提取模型，由所述文本提取模型对所述多个子文本的文本编码特征进行特征提取处理，得到所述每个子文本的文本提取特征；

根据所述每个子文本的文本提取特征确定所述第二多媒体信息的文本模态特征。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取多个样本多媒体内容关联的样本多媒体信息；任一个样本多媒体内容关联的样本多媒体信息包括所述任一个样本多媒体内容在所述图像模态的第一样本多媒体信息和在所述文本模态的第二样本多媒体信息；

调用初始图像提取模型分别提取每个样本多媒体内容关联的第一样本多媒体信息的样本图像模态特征，以及调用初始文本提取模型分别提取所述每个样本多媒体内容关联的第二样本多媒体信息的样本图像模态特征；

通过所述每个样本多媒体内容对应的样本图像模态特征以及对应的样本文本模态特征构建正样本模态特征对和负样本模态特征对；所述正样本模态特征对包含一个样本图像模态特征以及一个样本文本模态特征，且所述正样本模态特征对所包含的样本图像模态特征关联的样本多媒体内容与所述正样本模态特征对所包含的样本文本模态特征关联的样本多媒体内容相同；所述负样本模态特征对包括一个样本图像模态特征以及一个样本文本模态特征，且所述负样本模态特征对所包含的样本图像模态特征关联的样本多媒体内容与所述正样本模态特征对所包含的样本文本模态特征关联的样本多媒体内容不同；

确定所述正样本模态特征对所包含的样本图像模态特征及样本文本模态特征之间的正样本特征相似度，以及确定所述负样本模态特征对所包含的样本图像模态特征及样本文本模态特征之间的负样本特征相似度；

通过所述正样本特征相似度和所述负样本特征相似度训练所述初始图像提取模型和所述初始文本提取模型，得到训练完成的所述图像提取模型和所述文本提取模型。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述初始参数值确定所述多媒体内容在所述推荐参数下的参数值处于N个参数区间的参数分布概率，包括：

获取目标参数区间对应的区间起始位置和区间终止位置；所述目标参数区间为所述N个参数区间中的任一个；

获取所述区间起始位置关联的第一分布影响度以及所述区间终止位置关联的第二分布影响度；

根据所述初始参数值以及所述第一分布影响度确定在所述推荐参数下的参数值处于所述区间起始位置的关联区间的参数分布概率，以及根据所述初始参数值以及所述第二分布影响度确定在所述推荐参数下的参数值处于所述区间终止位置的关联区域的参数分布概率；

通过所述区间起始位置的关联区间对应的参数分布概率和所述区间终止位置的关联区域对应的参数分布概率确定所述目标参数区间对应的参数分布概率。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取初始参数处理模型；所述初始参数处理模型的模型参数包括每个参数区间对应的区间起始位置所关联的第一初始分布影响度以及对应的区间终止位置所关联的第二初始分布影响度；

获取样本多模态特征；所述样本多模态特征携带标签参数值；

将所述样本多模态特征输入所述初始参数处理模型，得到所述样本多模态特征在所述推荐参数下的样本初始参数值，并根据所述样本初始参数值、所述每个参数区间对应的第一初始分布影响度以及对应的第二初始分布影响度确定所述样本多模态特征在所述推荐参数下的样本目标参数值；

通过所述标签参数值和所述样本目标参数值训练所述初始参数处理模型，得到训练完成的参数处理模型；所述参数处理模型用于确定所述多媒体内容在所述推荐参数下的目标参数值；所述参数处理模型的模型参数包括所述每个参数区间对应的区间起始位置所关联的第一分布影响度以及对应的区间终止位置所关联的第二分布影响度。

7.根据权利要求1-4任一项所述的方法，其特征在于，所述通过所述N个参数区间对应的参数分布概率确定所述多媒体内容在所述推荐参数下的目标参数值，包括：

获取每个参数区间的参考区间值；

通过所述N个参数区间对应的参数分布概率对所述N个参考区间的参考区间值进行加权求和，得到所述目标参数值。

8.一种多媒体内容的处理装置，其特征在于，所述装置包括：

获取模块，用于获取多媒体内容关联的多媒体信息；所述多媒体信息包括所述多媒体内容在图像模态的第一多媒体信息和在文本模态的第二多媒体信息；

处理模块，用于提取所述第一多媒体信息的图像模态特征，并提取所述第二多媒体信息的文本模态特征，对所述图像模态特征和所述文本模态特征进行特征融合处理，得到所述多媒体内容的多模态特征；

所述处理模块，还用于对所述多模态特征进行特征处理，得到所述多媒体内容在推荐参数下的初始参数值，并根据所述初始参数值确定所述多媒体内容在所述推荐参数下的参数值处于N个参数区间的参数分布概率；一个参数区间对应一个参数分布概率；N为大于1的正整数；

所述处理模块，还用于通过所述N个参数区间对应的参数分布概率确定所述多媒体内容在所述推荐参数下的目标参数值。

9.一种电子设备，其特征在于，包括处理器和存储器，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。