CN117786556A

CN117786556A - 用户画像的构建方法、用户画像模型的训练方法及装置

Info

Publication number: CN117786556A
Application number: CN202311811262.1A
Authority: CN
Inventors: 李治军; 朱宗奎; 何正球; 李�杰
Original assignee: Suzhou University; Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Suzhou University; Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2023-12-26
Filing date: 2023-12-26
Publication date: 2024-03-29

Abstract

本申请公开了一种用户画像的构建方法、用户画像模型的训练方法及装置，涉及用户画像构建领域。该方法包括：获取目标用户对应的目标多模态数据，其中，目标多模态数据由至少两个目标单模态数据组成，分别对至少两个目标单模态数据进行特征抽取，获得至少两个目标单模态数据各自对应得到目标私有特征，将至少两个目标单模态数据各自对应的目标私有特征进行融合，获得目标多模态数据对应的目标共性特征，基于目标共性特征，构建目标用户对应的目标用户画像。本申请针对多模态数据，对各模态进行特征抽取，并对模态间的特征进行融合以构建用户画像，可以提升所构建的用户画像的准确性。

Description

用户画像的构建方法、用户画像模型的训练方法及装置

技术领域

本申请涉及用户画像构建技术领域，更具体地，涉及一种用户画像的构建方法、用户画像模型的训练方法及装置。

背景技术

用户画像作为大数据技术的重要应用，其目的是在多维度上建立用户的属性标签，以根据属性标签勾勒用户特征，使得后续可以根据用户特征分析用户偏好，从而为用户提供更高效、更有针对性的信息推送或者更贴近个人习惯的用户体验。因此，如何准确地进行用户画像的构建，是亟待解决的技术问题。

发明内容

鉴于上述问题，本申请提出了一种用户画像的构建方法、用户画像模型的训练方法及装置，以解决上述问题。

第一方面，本申请实施例提供了一种用户画像的构建方法，所述方法包括：获取目标用户对应的目标多模态数据，其中，所述目标多模态数据由至少两个目标单模态数据组成；分别对所述至少两个目标单模态数据进行特征抽取，获得所述至少两个目标单模态数据各自对应的目标私有特征；将所述至少两个目标单模态数据各自对应的目标私有特征进行融合，获得所述目标多模态数据对应的目标共性特征；基于所述目标共性特征，构建所述目标用户对应的目标用户画像。

第二方面，本申请实施例提供了一种用户画像模型的训练方法，所述方法包括：获取训练用户对应的训练数据集，所述训练数据集包括训练多模态数据和针对所述训练多模态数据的标注用户画像，其中，所述训练多模态数据由至少两个训练单模态数据组成；通过神经网络对所述至少两个训练单模态数据进行特征抽取，获得所述至少两个训练单模态数据各自对应的训练私有特征；通过所述神经网络将所述至少两个训练单模态数据各自对应的训练私有特征进行融合，获得所述训练多模态数据对应的训练共性特征；通过所述神经网络基于所述训练共性特征，构建所述训练用户对应的训练用户画像，并确定所述训练用户画像和所述标注用户画像的相关性，基于所述相关性对所述神经网络进行迭代训练，获得用户画像模型。

第三方面本申请实施例提供的一种用户画像的构建装置，所述装置包括：目标多模态数据获取模块，用于获取目标用户对应的目标多模态数据，其中，所述目标多模态数据由至少两个目标单模态数据组成；目标私有特征获得模块，用于分别对所述至少两个目标单模态数据进行特征抽取，获得所述至少两个目标单模态数据各自对应的目标私有特征；目标共性特征获得模块，用于将所述至少两个目标单模态数据各自对应的目标私有特征进行融合，获得所述目标多模态数据对应的目标共性特征；用户画像构建模块，用于基于所述目标共性特征，构建所述目标用户对应的目标用户画像。

第四方面，本申请实施例提供了一种用户画像模型的训练装置，所述装置包括：训练数据集获取模块，用于获取训练用户对应的训练数据集，所述训练数据集包括训练多模态数据和针对所述训练多模态数据的标注用户画像，其中，所述训练多模态数据由至少两个训练单模态数据组成；训练私有特征获得模块，用于通过神经网络对所述至少两个训练单模态数据进行特征抽取，获得所述至少两个训练单模态数据各自对应的训练私有特征；训练共性特征获得模块，用于通过所述神经网络将所述至少两个训练单模态数据各自对应的训练私有特征进行融合，获得所述训练多模态数据对应的训练共性特征；用户画像模型获得模块，用于通过所述神经网络基于所述训练共性特征，构建所述训练用户对应的训练用户画像，并确定所述训练用户画像和所述标注用户画像的相关性，基于所述相关性对所述神经网络进行迭代训练，获得用户画像模型。

第五方面，本申请实施例提供了一种电子设备，包括存储器和处理器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时所述处理器执行上述方法。

第六方面，本申请实施例提供了一种计算机可读取存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述方法。

本申请实施例提供的用户画像的构建方法、用户画像模型的训练方法及装置，获取目标用户对应的目标多模态数据，其中，目标多模态数据由至少两个目标单模态数据组成，分别对至少两个目标单模态数据进行特征抽取，获得至少两个目标单模态数据各自对应得到目标私有特征，将至少两个目标单模态数据各自对应的目标私有特征进行融合，获得目标多模态数据对应的目标共性特征，基于目标共性特征，构建目标用户对应的目标用户画像，从而针对多模态数据，对各模态进行特征抽取，并对模态间的特征进行融合以构建用户画像，可以提升所构建的用户画像的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了本申请一实施例提供的用户画像的构建方法的流程示意图；

图2示出了本申请一实施例提供的用户画像的构建方法的流程示意图；

图3示出了本申请一实施例提供的用户画像的构建方法的流程示意图；

图4示出了本申请一实施例提供的用户画像的构建方法的流程示意图；

图5示出了本申请一实施例提供的用户画像模型的训练方法的流程示意图；

图6示出了本申请实施例提供的用户画像模型的模型框架图；

图7示出了本申请一实施例提供的用户画像模型的训练方法的流程示意图；

图8示出了本申请一实施例提供的用户画像模型的训练方法的流程示意图；

图9示出了本申请实施例提供的用户画像模型的模型压缩示意图；

图10示出了本申请一实施例提供的用户画像模型的训练方法的流程示意图；

图11示出了本申请实施例提供的用户画像模型构建的整体框图；

图12示出了本申请一实施例提供的用户画像的构建装置的模块框图；

图13示出了本申请一实施例提供的用户画像模型的训练装置的模块框图；

图14示出了本申请实施例用于执行根据本申请实施例的开机异常处理方法的电子设备的框图；

图15示出了本申请实施例的用于保存或者携带实现根据本申请实施例的开机异常处理方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

其中，用户画像构建的基础是数据，目前进行用户画像构建时偏向于特定领域，不具有通用性，数据也较难获取。

目前社交媒体盛行，媒介形式趋向于多元化，用户的多模态数据主要以文字、图像、视频为主，目前的用户画像构建技术中涉及这三种模态的相对较少，且多个技术实际只包含了一种模态，并非多模态，未能从多模态的角度构建用户画像。

目前的用户画像构建技术主要偏向是以文字为主，其他模态为辅，间接通过模态转换或者图文转换技术得到文字信息，并没有充分利用图像、视频等模态里面所包含的语义信息，而且缺少模态之间的信息融合。

现阶段人工智能技术已经取得了飞速的发展，预训练模型、多模态技术也一直是业界研究的热点，目前多模态用户画像构建技术均未采用比较先进的单模态或者多模态预训练模型的方法，技术比较落后。

目前的用户画像技术主要应用于搜索、广告、推荐等业务，其他层面的应用服务较少。

针对上述问题，发明人经过研究发现，并提出了本申请实施例提供的用户画像的构建方法、用户画像模型的训练方法及装置，通过针对多模态数据，对各模态进行特征抽取，并对模态间的特征进行融合以构建用户画像，可以提升所构建的用户画像的准确性。其中，具体的用户画像的构建方法和用户画像模型的训练方法在后续的实施例中进行详细的说明。

请参阅图1，图1示出了本申请一实施例提供的用户画像的构建方法的流程示意图。该方法用于针对多模态数据，对各模态进行特征抽取，并对模态间的特征进行融合以构建用户画像，可以提升所构建的用户画像的准确性。其中，具体的用户画像的构建方法应用于如图12所示的用户画像的构建装置200以及配置有用户画像的构建装置200的电子设备100(图14)。下面将以电子设备为例，说明本实施例的具体流程，当然，可以理解的是，本实施例所应用的电子设备可以包括智能手机、平板电脑、穿戴式电子设备等，在此不做限定。下面将针对图1所示的流程进行详细的阐述，所述用户画像的构建方法具体可以包括以下步骤：

步骤S110：获取目标用户对应的目标多模态数据，其中，所述目标多模态数据由至少两个目标单模态数据组成。

可选地，目标用户可以是需要进行用户画像构建的用户。作为示例，目标用户可以为电子设备对应的用户，例如，目标用户可以为电子设备所登录的账号对应的用户，可以为电子设备所采集到的生物信息(人脸信息、指纹信息等)对应的用户等，在此不做限定。其中，目标用户的数量可以为一个或多个。

在本实施例中，可以获取目标用户对应的目标多模态数据，其中，该目标多模态数据由至少两个目标单模态数据组成。可选地，该目标多模态数据可以由两个目标单模态数据组成、可以由三个目标单模态数据组成、可以由四个目标单模态数据组成等，在此不做限定。其中，目标单模态数据可以包括文字、图片、音频、视频等，在此不做限定。

作为一种可实施的方式，目标多模态数据可以为目标用户对应的某个照片，其中，该照片中包括某个图片和某个文字，则该某个图片可以认为是一个单模态数据，该某个文字可以认为是另一个单模态数据。目标多模态数据可以为目标用户对应的某个标签，其中，该标签中可以包括某个图像和某个文字，则该某个图片可以认为是一个单模态数据，该某个文字可以认为是另一个单模态数据。

在一些实施方式中，电子设备可以预先设置并存储有多模态数据的获取条件作为预设获取条件。基于此，可以检测电子设备对应的参数信息，并将参数信息与预设获取条件进行对比，以判断参数信息是否满足预设获取条件。若确定参数信息满足预设获取条件，则可以获取目标用户对应的目标多模态数据；若确定参数信息不满足预设获取条件，则可以不获取目标用户对应的目标多模态数据。可选地，预设获取条件可以包括：预设时间、预设地点、运行预设应用等，在此不做限定。

在一些实施方式中，电子设备可以检测是否接收到用于指示构建用户画像的指令信息。其中，若确定接收到用于指示构建用户画像的指令信息，则可以获取目标用户对应的目标多模态数据；若确定未接收到用于指示构建用户画像的指令信息，则可以不获取目标用户对应的目标多模态数据。可选地，指令可以包括：基于语音的指令信息、基于触控操作的指令信息、基于晃动操作的指令信息等，在此不做限定。

步骤S120：分别对所述至少两个目标单模态数据进行特征抽取，获得所述至少两个目标单模态数据各自对应的目标私有特征。

在本实施例中，在获得目标多模态数据(至少两个目标单模态数据)的情况下，可以分别对至少两个单模态数据进行特征抽取，获得该至少两个单模态数据各自对应的目标私有特征。例如，假设至少两个目标单模态数据包括目标文字和目标图片，则可以分别对目标文字和目标图片进行特征抽取，获得目标文字对应的目标私有特征和目标图片对应的目标私有特征。

在一些实施方式中，在获得目标多模态数据的情况下，可以对目标多模态数据进行模态数据的提取，以获得至少两个目标单模态数据，然后，分别对至少两个单模态数据进行特征抽取，获得该至少两个单模态数据各自对应的目标私有特征。例如，假设目标多模态数据为照片，则可以从照片中提取文字和图片(两个目标单模态数据)，然后，分别对目标文字和目标图片进行特征抽取，获得目标文字对应的目标私有特征和目标图片对应的目标私有特征。

作为一种可实施的方式，对至少两个单模态数据进行特征抽取可以包括：基于统计的方式对至少两个单模态数据进行特征抽取；基于深度学习的方式对至少两个单模态数据进行特征抽取；基于传统图像处理的方式对至少两个单模态数据进行特征抽取；基于特征融合的方式对至少两个单模态数据进行特征抽取等，在此不做限定。

其中，基于统计的方式对至少两个单模态数据进行特征抽取可以包括：基于特征词频统计的方式对至少两个单模态数据进行特征抽取；基于N-gram模型对至少两个单模态数据进行特征抽取；基于词袋模型对至少两个单模态数据进行特征抽取等，在此不做限定。

其中，基于深度学习的方式对至少两个单模态数据进行特征抽取可以包括：基于卷积神经网络(CNN)对至少两个单模态数据进行特征抽取；基于循环神经网络(RNN)对至少两个单模态数据进行特征抽取；基于长短时记忆网络(LSTM)对至少两个单模态数据进行特征抽取等，在此不做限定。

其中，基于传统图像处理的方式对至少两个单模态数据进行特征抽取可以包括：基于边缘检测的方式对至少两个单模态数据进行特征抽取；基于Sobel滤波器的方式对至少两个单模态数据进行特征抽取；基于Laplacian的算子的方式对至少两个单模态数据进行特征抽取等，在此不做限定。

其中，基于特征融合的方式对至少两个单模态数据进行特征抽取可以包括：将深度学习方法和传统图像处理方法相结合，对至少两个单模态数据进行特征抽取。

作为一种可以实施的方式，在获得至少两个单模态数据的情况下，可以对至少两个单模态数据对应的数据类型进行检测，并根据单模态数据对应的数据类型确定特征抽取方式，基于所确定的特征抽取方式对单模态数据进行特征抽取。作为示例，若确定单模态数据对应的数据类型为文字类型，则可以基于统计的方式或者深度学习的方式对至少两个单模态数据进行特征抽取；若确定单模态数据对应的数据类型为图片类型，则可以基于深度学习的方式、传统图像处理的方式或者特征融合的方式对至少两个单模态数据进行特征抽取。

步骤S130：将所述至少两个目标单模态数据各自对应的目标私有特征进行融合，获得所述目标多模态数据对应的目标共性特征。

在本实施例中，在获得至少两个目标单模态数据各自对应的目标私有特征的情况下，可以将至少两个目标单模态数据各自对应的目标私有特征进行融合，获得目标多模态数据(至少两个单模态数据)对应的目标共性特征。

在一些实施方式中，在获得至少两个目标单模态数据各自对应的目标私有特征的情况下，可以将至少两个目标单模态数据各自对应的目标私有特征映射到同一个语义空间，缩小特征表示差距，并在后续进行模态间的信息交互和融合，即，需要模态间的共性特征，以获得目标多模态数据对应的目标共性特征。

作为一种可实施的方式，在获得至少两个目标单模态数据各自对应的目标私有特征的情况下，可以通过特征级融合的方式(将不同模态的特征连接成单个高维特征向量)将至少两个目标单模态数据各自对应的目标私有特征进行融合；可以通过决策级融合的方式(将不同模态的分类结果进行融合)将至少两个目标单模态数据各自对应的目标私有特征进行融合；可以通过混合级融合的方式(结合特征级融合和决策级融合)将至少两个目标单模态数据各自对应的目标私有特征进行融合等，在此不做限定。

步骤S140：基于所述目标共性特征，构建所述目标用户对应的目标用户画像。

在本实施例中，在获得目标共性特征的情况下，可以基于目标共性特征，构建目标用户对应的目标用户画像。可以理解的是，本实施例所构建的目标用户画像，利用了模态间的共性特征，从而可以使得所构建的用户画像更加准确。

可选地，在获得目标共性特征的情况下，可以采用分类、聚类、决策树等算法，将目标用户划分为不同的群体或标签，并利用标签化的信息构建目标用户对应的目标用户画像。

本申请一实施例提供的用户画像的构建方法，获取目标用户对应的目标多模态数据，其中，目标多模态数据由至少两个目标单模态数据组成，分别对至少两个目标单模态数据进行特征抽取，获得至少两个目标单模态数据各自对应得到目标私有特征，将至少两个目标单模态数据各自对应的目标私有特征进行融合，获得目标多模态数据对应的目标共性特征，基于目标共性特征，构建目标用户对应的目标用户画像，从而针对多模态数据，对各模态进行特征抽取，并对模态间的特征进行融合以构建用户画像，可以提升所构建的用户画像的准确性。

请参阅图2，图2示出了本申请一实施例提供的用户画像的构建方法的流程示意图。下面将针对图2所示的流程进行详细的阐述，所述用户画像的构建方法具体可以包括以下步骤：

步骤S210：获取目标用户对应的目标多模态数据，其中，所述目标多模态数据由至少两个目标单模态数据组成。

步骤S220：分别对所述至少两个目标单模态数据进行特征抽取，获得所述至少两个目标单模态数据各自对应的目标私有特征。

步骤S230：将所述至少两个目标单模态数据各自对应的目标私有特征进行融合，获得所述目标多模态数据对应的目标共性特征。

其中，步骤S210-步骤S230的具体描述请参阅步骤S110-步骤S130，在此不再赘述。

步骤S240：基于所述目标共性特征，构建所述目标用户对应的第一用户画像。

在一些实施方式中，在获得目标共性特征的情况下，可以基于目标共性特征，构建目标用户对应的第一用户画像。可选地，在获得目标共性特征的情况下，可以采用分类、聚类、决策树等算法，将目标用户划分为不同的群体或标签，并利用标签化的信息构建目标用户对应的第一用户画像。

步骤S250：基于所述至少两个目标单模态数据各自对应的目标私有特征，构建所述目标用户对应的至少两个第二用户画像。

在一些实施方式中，在获得至少两个目标单模态数据各自对应的目标私有特征的情况下，可以基于至少两个目标单模态数据各自对应的目标私有特征，构建目标用户对应的至少两个第二用户画像，其中，该至少两个第二用户画像与至少两个目标单模态数据一一对应。可选地，在获得至少两个目标单模态数据各自对应的目标私有特征的情况下，可以采用分类、聚类、决策树等算法，将目标用户划分为不同的群体或标签，并利用标签化的信息构建目标用户对应的至少两个第二用户画像。

作为一种示例，假设至少两个目标单模态数据包括第一目标单模态数据和第二目标单模态数据，则可以基于第一目标单模态数据构建目标用户对应的一个第二用户画像，以及基于第二目标单模态数据构建目标用户对应的另一个第二用户画像。

步骤S260：基于所述第一用户画像和所述至少两个第二用户画像，构建所述目标用户画像。

在本实施例中，在获得第一用户画像和至少两个第二用户画像的情况下，可以基于第一用户画像和至少两个第二用户画像，构建目标用户画像。可以理解的是，本实施例所构建的目标用户画像，利用了模态间的共性特征以及各模态的私有特征，从而可以使得所构建的用户画像更加多样。

作为一种可实施的方式，在获得第一用户画像和至少两个第二用户画像的情况下，可以将第一用户画像和至少两个第二用户画像进行融合处理，获得目标用户画像。

作为又一种可实施的方式，在获得第一用户画像和至少两个第二用户画像的情况下，可以基于至少两个第二用户画像微调第一用户画像，获得目标用户画像。

作为再一种可实施的方式，在获得第一用户画像和至少两个第二用户画像的情况下，可以将第一用户画像和至少两个第二用户画像，共同确定为目标用户画像。

在一些实施方式中，基于第一用户画像和至少两个第二用户画像，构建目标用户画像可以包括：确定目标多模态数据对应的第一权重，并确定至少两个目标单模态数据各自对应的第二权重，基于第一用户画像、至少两个第二用户画像、第一权重以及至少两个单模态数据各自对应的第二权重，构建目标用户画像。

作为一种可实施的方式，电子设备可以预先设置不同的模态数据对应不同的权重，且多模态数据对应的权重大于单模态数据对应的权重，不同的单模态数据对应的权重可以相同，也可以不相同，在此不做限定。例如，图片和文字组成的多模态数据对应的权重为80％，图片类的单模态数据对应的权重为5％，文字类的单模态数据对应的权重为15％。

作为一种可实施的方式，基于第一用户画像、至少两个第二用户画像、第一权重以及至少两个单模态数据各自对应的第二权重，构建目标用户画像包括：计算第一用户画像(如第一用户画像的评分)和第一权重的乘积，获得第一乘积，分别计算至少两个第二用户画像(如第二用户画像的评分)和至少两个单模态数据各自对应的第二权重中对应的第二权重的乘积，获得至少两个第二乘积，计算第一乘积和第二乘积的和获得目标乘积，基于目标乘积构建目标用户画像。

本申请一实施例提供的用户画像的构建方法，相较于图1所示的用户画像的构建方法，本实施例还基于目标共性特征，构建目标用户对应的第一用户画像，基于至少两个目标单模态数据各自对应的目标私有特征，构建目标用户对应的至少两个第二用户画像，基于第一用户画像和至少两个第二用户画像，构建目标用户画像，从而增加单模态的私有特征参与用户画像的确定，并基于私有特征确定的用户画像和共性特征确定的用户画像，共同确定最终的用户画像，可以提升所确定的用户画像的准确性。

请参阅图3，图3示出了本申请一实施例提供的用户画像的构建方法的流程示意图。在本实施例中，目标多模态数据包括与目标用户对应的电子设备的相册中的参考照片，下面将针对图3所示的流程进行详细的阐述，所述用户画像的构建方法具体可以包括以下步骤：

步骤S310：获取目标用户对应的目标多模态数据，其中，所述目标多模态数据由至少两个目标单模态数据组成。

其中，步骤S310的具体描述请参阅步骤S110，在此不再赘述。

步骤S320：确定所述参考照片对应的参考图片，并对所述参考照片进行文本提取获得参考文本。

其中，可以将基于多模态数据的用户画像的构建应用于电子设备的相册功能，如“精彩回忆”功能。在启动相册功能的情况下，可以对电子设备的相册的每一张照片进行扫描，基于扫描到的照片预测该目标用户的用户画像，然后从相册中挑选与用户画像相关的照片生成视频，如“精彩回忆”短视频，并配有与用户画像相关的背景音乐。

可选地，目标多模态数据包括与目标用户对应的电子设备的相册中的参考照片。其中，该参考照片的数量可以为一个或多个。

在一些实施方式中，可以确定电子设备是否启动相册功能(精彩回忆功能)，若确定电子设备启动相册功能，则可以扫描相册中的参考照片作为与目标用户对应的目标多模态数据；若确定电子设备未启动相册功能，则可以不扫描相册中的照片。

在本实施例中，在获得参考照片的情况下，可以确定参考照片对应的参考图片，并对参考照片进行文本提取获得参考文本。作为一种可实施的方式，确定参考照片对应的参考图片可以包括：对参考照片进行图像提取获得参考照片对应的参考图片。作为一种可实施的方式，对参考照片进行文本提取获得参考文本可以包括：通过Caption或者OCR对参考照片进行文本提取获得参考文本。

步骤S330：分别对所述参考图片和所述参考文本进行特征抽取，获得所述参考图片对应的目标私有特征和所述参考文本对应的目标私有特征。

在本实施例中，在获得参考图片的情况下，可以对参考图片进行特征抽取，获得参考图片对应的目标私有特征；在获得参考文本的情况下，可以对参考文本进行特征抽取，获得参考文本对应的目标私有特征。

步骤S340：将所述至少两个目标单模态数据各自对应的目标私有特征进行融合，获得所述目标多模态数据对应的目标共性特征。

步骤S350：基于所述目标共性特征，构建所述目标用户对应的目标用户画像。

其中，步骤S340-步骤S350的具体描述请参阅步骤S130-步骤S140，在此不再赘述。

步骤S360：基于所述目标用户画像，从所述相册中筛选出与所述目标用户画像相关的目标照片。

在本实施例中，在获得目标用户画像的情况下，可以从电子设备的相册中筛选出与目标用户画像相关的照片作为目标照片。

在一些实施方式中，在获得目标用户画像的情况下，可以遍历电子设备的相册中的照片，以从电子设备的相册中筛选出与目标用户画像相关的照片作为目标照片。

作为一种可实施的方式，在获得目标用户画像的情况下，可以正序遍历电子设备的相册中的照片，以从电子设备的相册中筛选出与目标用户画像相关的照片作为目标照片；或者，可以倒序遍历电子设备的相册中的照片，以从电子设备的相册中筛选出与目标用户画像相关的照片作为目标照片；或者，可以遍历电子设备的相册中的预设时间段内照片，以从电子设备的相册中筛选出与目标用户画像相关的照片作为目标照片等，在此不做限定。

作为一种示例，假设目标用户画像为“运动”，则可以从电子设备的相册中筛选出与“运动”相关的照片作为目标照片。

步骤S370：确定与所述目标用户画像相关的目标音频。

在本实施例中，在获得目标用户画像的情况下，可以确定与目标用户画像相关的目标音频。

在一些实施方式中，电子设备可以预先设置并存储有多个备选音频，在获得目标用户画像的情况下，可以从多个备选音频中确定与目标用户画像相关的备选音频作为目标音频。

作为一种示例，假设目标用户画像为“运动”，则可以从多个备选音频中确定与“运动”相关的备选音频作为目标音频。

步骤S380：基于所述目标照片和所述目标音频生成目标视频。

在本实施例中，在获得目标照片和目标音频的情况下，可以基于目标照片和目标音频生成目标视频。可以理解的是，通过本实施例，可以使得电子设备的相册与用户画像相结合，应用场景更多样，可以提升用户针对相册的使用体验。

在一些实施方式中，在获得目标照片和目标音频的情况下，可以将目标照片和目标音频进行合成处理，生成目标视频。

本申请一实施例提供的用户画像的构建方法，相较于图1所示的用户画像的构建方法，本实施例还从目标用户对应的电子设备的相册中获取参考照片，确定参考照片对应的参考图片，并对参考照片进行文本提取获得参考文本，利用参考图片和参考文本构建目标用户画像，后续，基于目标用户画像从相册中筛选出与目标用户画像相关的目标照片，确定与目标用户画像相关的目标音频，基于目标照片和目标音频生成目标视频，从而将用户画像的构建与电子设备的相册相结合，提升相册的应用场景和使用体验。

请参阅图4，图4示出了本申请一实施例提供的用户画像的构建方法的流程示意图。下面将针对图4所示的流程进行详细的阐述，所述用户画像的构建方法具体可以包括以下步骤：

步骤S410：获取目标用户对应的目标多模态数据，其中，所述目标多模态数据由至少两个目标单模态数据组成。

其中，步骤S410的具体描述请参阅步骤S110，在此不再赘述。

步骤S420：将所述目标多模态数据输入用户画像模型。

可选地，在获得目标用户对应的目标多模态数据的情况下，可以将该目标多模态数据输入用户画像模型，其中，该用户画像模型是通过机器学习获得的，具体地，首先采集训练数据集，其中，训练数据集中的一类数据的属性或特征区别于另一类数据，然后通过将采集的训练数据集按照预设的算法对神经网络进行训练建模，从而基于该训练数据集总结出规律，得到用户画像模型。在本实施例中，训练数据集例如可以是多个训练多模态数据和多个训练多模态数据各自对应的标注用户画像。

可以理解的，该用户画像模型可以预先训练完成后存储在电子设备本地。基于此，电子设备在获得目标多模态数据后，可以直接在本地调用该用户画像模型，例如，可以直接发送指令至用户画像模型，以指示该用户画像模型在目标存储区域读取该目标多模态数据，或者，电子设备可以直接将该目标多模态数据输入存储在本地的用户画像模型，从而有效避免由于网络因素的影响降低目标多模态数据输入用户画像模型的速度，以提升用户画像模型获取目标多模态数据的速度，提升用户体验。

另外，该用户画像模型也可以预先训练完成后存储在与电子设备通信连接的服务器。基于此，电子设备在获得目标多模态数据后，可以通过网络发送指令至存储在服务器的用户画像模型，以指示该用户画像模型通过网络读取电子设备获取的目标多模态数据，或者，电子设备可以通过网络将目标多模态数据发送至存储在服务器的用户画像模型，从而通过将用户画像模型存储在服务器的方式，减少对电子设备的存储空间的占用，降低对电子设备正常运行的影响。

在本实施例中，在获得目标多模态数据的情况下，可以将目标多模态数据输入用户画像模型，由用户画像模型基于目标多模态数据进行用户画像预测，获得并输出目标用户对应的目标用户画像。具体地，在获得目标多模态数据的情况下，可以将目标多模态数据输入用户画像模型，通过用户画像模型分别对至少两个目标单模态数据进行特征抽取，获得至少两个目标单模态数据各自对应的目标私有特征，将至少两个目标单模态数据各自对应的目标私有特征进行融合，获得目标多模态数据对应的目标共性特征，基于目标共性特征，构建目标用户对应的目标用户画像。

步骤S430：通过所述用户画像模型的编码层分别对所述至少两个目标单模态数据进行特征抽取，获得至少两个目标单模态数据各自对应的目标私有特征。

可选地，用户画像模型可以包括编码层(单模态编码层)、注意力层以及任务层。

在本实施例中，在获得目标多模态数据(至少两个目标单模态数据)的情况下，可以将目标多模态数据输入用户画像模型的编码层(Encoder)，通过编码层分别对至少两个目标单模态数据进行特征抽取，获得至少两个目标单模态数据各自对应的目标私有特征。其中，编码层主要对目标单模态数据的语义特征进行抽取，例如，可以采用多模态预训练模型CLIP模型提取图文数据的特征，将原始高维的稀疏向量转换为低维稠密的向量。

作为一种可实施的方式，用户画像模型的编码层的数量可以为一个，基于此，至少两个目标单模态数据可以对应同一个编码层，那么，可以将至少两个目标多模态数据输入同一个编码层，通过该编码层分别对至少两个目标单模态数据进行特征抽取，获得至少两个目标单模态数据各自对应的目标私有特征。

作为又一种可实施的方式，用户画像模型的编码层的数量可以为至少两个，基于此，至少两个目标单模态数据可以各自对应一个编码层，那么，可以将至少两个目标单模态数据输入各自对应的编码层，通过各自对应的编码层对至少两个目标单模态数据进行特征抽取，获得至少两个目标单模态数据各自对应的目标私有特征。

步骤S440：通过所述用户画像模型的注意力层将所述至少两个目标单模态数据各自对应的目标私有特征进行融合，获得所述目标多模态数据对应的目标共性特征。

在本实施例中，在获得编码层输出的至少两个目标单模态数据各自对应的目标私有特征的情况下，可以将至少两个目标单模态数据各自对应的目标私有特征输入用户画像模型的注意力层，通过注意力层将至少两个目标单模态数据各自对应的目标私有特征进行特征融合，获得目标多模态数据对应的目标共性特征。

在一些实施方式中，注意力层可以包括自注意力层(Self-Attention)和交叉注意力层(Cross-Attention)。通过注意力层将至少两个目标单模态数据各自对应的目标私有特征进行融合，获得目标多模态数据对应的目标共性特征可以包括：通过自注意力层将至少两个目标单模态数据各自对应的目标私有特征映射到相同的语义空间，获得处于相同的语义空间的目标私有特征，通过交叉注意力层对处于相同的语义空间的目标私有特征进行融合，获得目标多模态数据对应的目标共性特征。其中，自注意层主要用于将不同模态的特征表示映射到同一个语义空间，缩小特征表示差距，方便后续的特征融合。其中，交叉注意力层主要用于将多个模态在相同语义空间的特征进行模态间的信息交互和融合，即学习不同模态间的共性特征。

作为一种可实施的方式，自注意层可以包括一个共享参数的自注意层和至少两个不共享参数的自注意力层，其中，共享参数的自注意力层主要用于将不同模态的特征表示映射到同一个语义空间，缩小特征表示差距，方便后续的特征融合。不共享参数的自注意层主要用于获取不同模态各自的独有信息，即学习不同模态各自的私有特征。

步骤S450：通过所述用户画像模型的任务层基于所述目标共性特征，构建所述目标用户对应的目标用户画像。

在本实施例中，在获得注意力层输出的目标多模态数据对应的目标共性特征的情况下，可以将目标共性特征输入用户画像模型的任务层，通过任务层基于目标共性特征，构建目标用户对应的目标用户画像。其中，任务层(Task)主要用于基于目标共性特征进行多任务学习，最终得到目标用户对应的目标用户画像。

作为一种可实施的方式，任务层的数量可以为多个，多个任务层中的一个任务层与一个共享参数的自注意层(以及后续的交叉注意力层)连接，用于对融合了目标单模态数据的目标私有特征和目标多模态数据的目标共性特征的信息进行多任务学习，最终得到目标用户对应的目标用户画像；多任务层中的至少两个任务层分别与至少两个不共享参数的自注意力层连接，用于对目标单模态数据的目标私有特征进行学习，分别基于单模态数据预测目标用户对应的用户画像。

本申请一实施例提供的用户画像的构建方法，相较于图1所示的用户画像的构建方法，本实施例还通过用户画像模型的编码层分别对至少两个目标单模态数据进行特征抽取，获得至少两个目标单模态数据各自对应的目标私有特征，通过用户画像模型的注意力层将至少两个目标单模态数据各自对应的目标私有特征进行融合，获得目标多模态数据对应的目标共性特征，通过用户画像模型的任务层基于目标共性特征，构建目标用户对应的目标用户画像，从而通过所训练的用户画像模型进行用户画像的构建，可以提升所构建的用户画像的效率和准确率。

请参阅图5，图5示出了本申请一实施例提供的用户画像模型的训练方法的流程示意图。该方法用于针对多模态数据，训练用户画像模型对各模态进行特征抽取，并对模态间的特征进行融合以构建用户画像，可以提升后续通过用户画像模型所构建的用户画像的准确性。其中，具体的用户画像模型的训练方法应用于如图13所示的用户画像模型的训练装置300以及配置有用户画像模型的训练装置300的电子设备100(图14)。下面将以电子设备为例，说明本实施例的具体流程，当然，可以理解的是，本实施例所应用的电子设备可以包括智能手机、平板电脑、穿戴式电子设备等，在此不做限定。下面将针对图5所示的流程进行详细的阐述，所述用户画像模型的训练方法具体可以包括以下步骤：

步骤S510：获取训练用户对应的训练数据集，所述训练数据集包括训练多模态数据和针对所述训练多模态数据的标注用户画像，其中，所述训练多模态数据由至少两个训练单模态数据组成。

其中，本实施例的核心思想在于训练一个高效的用户画像模型来编码单模态数据和融合多模态特征，进一步通过显性的标签信息来学习单模态的私有特征和多模态融合后的共性特征，最后将多种特征分别输入到预测模块进行多任务学习以得到最终的用户画像的预测。

可选地，训练用户可以是进行用户画像模型训练的参考用户。作为示例，训练用户可以为方便进行用户数据收集的参考用户，例如，训练用户可以为多媒体平台的用户。其中，训练用户的数量可以为多个，其具体数量可以根据训练要求确定，在此不做限定。

在本实施例中，可以获取训练用户对应的训练数据集，其中，该训练数据集包括训练多模态数据和针对训练多模态数据标注用户画像，训练多模态数据由至少两个训练单模态数据组成。可选地，该训练多模态数据可以由两个训练单模态数据组成、可以由三个训练单模态数据组成、可以由四个训练单模态数据组成等，在此不做限定。其中，训练单模态数据可以包括文字、图片、音频、视频等，在此不做限定。

作为一种可实施的方式，在确定训练用户的情况下，可以收集该训练用户对应的训练多模态数据，然后，通过人工标注的方式对训练多模态数据进行标注，获得训练多模态数据的标注用户画像，从而生成训练用户对应的训练数据集。

作为又一种可实施的方式，在确定训练用户的情况下，可以收集该训练用户对应的训练多模态数据，然后，通过预设算法对训练多模态数据进行识别，获得识别用户画像，并将识别用户画像确定为训练多模态数据的标注用户画像，从而生成训练用户对应的训练数据集。

作为一种示例，如图6所示，训练多模态数据可以包括一段文本text和多张图片images。文本可以由n个token组成，表示为(token1、token2、token3……tokenn)，图片可以由m张图片组成。

步骤S520：通过神经网络对所述至少两个训练单模态数据进行特征抽取，获得所述至少两个训练单模态数据各自对应的训练私有特征。

在本实施例中，在获得训练数据集的情况下，可以通过神经网络对至少两个训练单模态数据进行特征抽取，获得至少两个训练单模态数据各自对应的训练私有特征。

可选地，神经网络可以包括编码层(单模态编码层)、注意力层以及任务层。

在本实施例中，在获得训练多模态数据(至少两个训练单模态数据)的情况下，可以将训练多模态数据输入神经网络的编码层(Encoder)，通过编码层分别对至少两个训练单模态数据进行特征抽取，获得至少两个训练单模态数据各自对应的训练私有特征。其中，编码层主要对训练单模态数据的语义特征进行抽取，例如，可以采用多模态预训练模型CLIP模型提取图文数据的特征，将原始高维的稀疏向量转换为低维稠密的向量，分别得到X1、X2。

作为一种可实施的方式，用户画像模型的编码层的数量可以为一个，基于此，至少两个训练单模态数据可以对应同一个编码层，那么，可以将至少两个训练多模态数据输入同一个编码层，通过该编码层分别对至少两个训练单模态数据进行特征抽取，获得至少两个训练单模态数据各自对应的训练私有特征。

作为又一种可实施的方式，神经网络的编码层的数量可以为至少两个，基于此，至少两个训练单模态数据可以各自对应一个编码层，那么，可以将至少两个训练单模态数据输入各自对应的编码层，通过各自对应的编码层对至少两个训练单模态数据进行特征抽取，获得至少两个训练单模态数据各自对应的训练私有特征。

在一些实施方式中，在通过编码层对至少两个训练单模态数据进行特征抽取时，可以根据所应用的场景的需要进行神经网络大小的任意扩展或缩放，并且可以叠加多个预训练模型的融合表示，对神经网络进行改进。

步骤S530：通过所述神经网络将所述至少两个训练单模态数据各自对应的训练私有特征进行融合，获得所述训练多模态数据对应的训练共性特征。

在本实施例中，在获得至少两个训练单模态数据各自对应的训练私有特征的情况下，可以通过神经网络将至少两个训练单模态数据各自对应的训练私有特征进行融合，获得训练多模态数据对应的训练共性特征。

在一些实施方式中，在获得编码层输出的至少两个训练单模态数据各自对应的训练私有特征的情况下，可以将至少两个训练单模态数据各自对应的训练私有特征输入神经网络的注意力层，通过注意力层将至少两个训练单模态数据各自对应的训练私有特征进行特征融合，获得训练多模态数据对应的训练共性特征。

在一些实施方式中，注意力层可以包括自注意力层(Self-Attention)和交叉注意力层(Cross-Attention)。通过注意力层将至少两个训练单模态数据各自对应的训练私有特征进行融合，获得训练多模态数据对应的训练共性特征可以包括：通过自注意力层将至少两个训练单模态数据各自对应的训练私有特征映射到相同的语义空间，获得处于相同的语义空间的训练私有特征，通过交叉注意力层对处于相同的语义空间的训练私有特征进行融合，获得训练多模态数据对应的训练共性特征。其中，自注意层主要用于将不同模态的特征表示映射到同一个语义空间，缩小特征表示差距，方便后续的特征融合。其中，交叉注意力层主要用于将多个模态在相同语义空间的特征进行模态间的信息交互和融合，即学习不同模态间的共性特征。

步骤S540：通过所述神经网络基于所述训练共性特征，构建所述训练用户对应的训练用户画像，并确定所述训练用户画像和所述标注用户画像的相关性，基于所述相关性对所述神经网络进行迭代训练，获得用户画像模型。

在本实施例中，在获得训练共性特征的情况下，可以通过神经网络基于训练共性特征，构建训练用户对应的训练用户画像，并确定训练用户画像和标注用户画像的相关性，基于相关性对神经网络进行迭代训练，获得用户画像模型。

在本实施例中，在获得注意力层输出的训练多模态数据对应的训练共性特征的情况下，可以将训练共性特征输入神经网络的任务层，通过任务层基于训练共性特征，构建训练用户对应的训练用户画像，并确定训练用户画像和标注用户画像的相关性，以根据相关性对神经网络进行迭代训练(参数优化)，获得用户画像模型。其中，任务层(Task)主要用于基于训练共性特征进行多任务学习，最终得到训练用户对应的训练用户画像，以及对提取的特征通过多层感知网络与标注用户画像进行相关性评估。

作为一种可实施的方式，任务层的数量可以为多个，多个任务层中的一个任务层与一个共享参数的自注意层(以及后续的交叉注意力层)连接，用于对融合了训练单模态数据的训练私有特征和训练多模态数据的训练共性特征的信息进行多任务学习，最终得到训练用户对应的训练用户画像；多任务层中的至少两个任务层分别与至少两个不共享参数的自注意力层连接，用于对训练单模态数据的训练私有特征进行学习，分别基于单模态数据预测训练用户对应的用户画像。

在一些实施方式中，在获得用户画像模型的情况下，还可以对用户画像模型针对用户画像的构建的准确率进行评估。其中，评估指标可以选用准确率Accuracy，计算方式是所有样本的平均准确率，对于每个样本来说，准确率指构建正确的标签数在整个构建为正确或真实为正确标签数中的占比。可以理解的是，通过共性特征所构建的用户画像的准率高于通过私有特征所构建的用户画像的准确率。

本申请一实施例提供的用户画像模型的训练方法，获取训练用户对应的训练数据集，该训练数据集包括训练多模态数据和针对训练多模态数据的标注用户画像，其中，训练多模态数据由至少两个训练单模态数据组成，通过神经网络对至少两个训练单模态数据进行特征抽取，获得至少两个单模态数据各自对应的训练私有特征，通过神经网络将至少两个训练单模态数据各自对应的训练私有特征进行融合，获得训练多模态数据对应的训练共性特征，通过神经网络模型基于训练共性特征，构建训练用户对应的训练用户画像，并确定训练用户画像和标注用户画像的相关性，基于相关性对神经网络模型进行迭代训练，获得用户画像模型，从而针对多模态数据，训练用户画像模型对各模态进行特征抽取，并对模态间的特征进行融合以构建用户画像，可以提升后续通过用户画像模型所构建的用户画像的准确性。

请参阅图7，图7示出了本申请一实施例提供的用户画像模型的训练方法的流程示意图。下面将针对图7所示的流程进行详细的阐述，所述用户画像模型的训练方法具体可以包括以下步骤：

步骤S610：获取训练用户对应的训练数据集，所述训练数据集包括训练多模态数据和针对所述训练多模态数据的标注用户画像，其中，所述训练多模态数据由至少两个训练单模态数据组成。

步骤S620：通过神经网络对所述至少两个训练单模态数据进行特征抽取，获得所述至少两个训练单模态数据各自对应的训练私有特征。

步骤S630：通过所述神经网络将所述至少两个训练单模态数据各自对应的训练私有特征进行融合，获得所述训练多模态数据对应的训练共性特征。

其中，步骤S610-步骤S630的具体描述请参阅步骤S6510-步骤S530，在此不再赘述。

步骤S640：通过所述神经网络基于所述训练共性特征，构建所述训练用户对应的第一训练用户画像。

在一些实施方式中，在获得训练共性特征的情况下，可以通过神经网络基于训练共性特征，构建训练用户对应的第一训练用户画像。可选地，在获得训练共性特征的情况下，可以通过神经网络的任务层构建训用户对应的第一训用户画像。其中，该任务层可以为与一个共享参数的自注意层(以及后续的交叉注意力层)连接的任务层。

步骤S650：通过所述神经网络基于所述至少两个训练单模态数据各自对应的训练私有特征，构建所述训练用户对应的至少两个第二训练用户画像。

在一些实施方式中，在获得至少两个训练单模态数据各自对应的训练私有特征的情况下，可以基于至少两个训练单模态数据各自对应的训练私有特征，构建训练用户对应的至少两个第二训练用户画像，其中，该至少两个第二训练用户画像与至少两个训练单模态数据一一对应。可选地，在获得至少两个训练单模态数据各自对应的训练私有特征的情况下，可以通过神经网络的至少两个任务层分别构建训练用户对应的至少两个第二训练用户画像。其中，该至少两个任务层为分别与至少两个不共享参数的自注意力层连接的任务层。

步骤S660：确定所述第一训练用户画像和所述标注用户画像的第一相关性，并确定所述至少两个第二训练用户画像各自和所述标注用户画像的第二相关性。

在本实施例中，在确定第一训练用户画像和第二训练用户画像的情况下，可以确定第一训练用户画像和标注用户画像的相关性作为第一相关性，并确定第二训练用户画像和标注用户画像的相关性作为第二相关性。

可选地，在获得第一训练用户画像的情况下，可以通过神经网络的任务层确定第一训练用户画像与标注用户画像的第一相关性。其中，该任务层可以为与一个共享参数的自注意层(以及后续的交叉注意力层)连接的任务层。

可选地，在获得第二训练用户画像的情况下，可以通过神经网络的至少两个任务层分别确定第二训练用户画像与标注用户画像的第二相关性。其中，该至少两个任务层为分别与至少两个不共享参数的自注意力层连接的任务层。

步骤S670：基于所述第一相关性和所述第二相关性对所述神经网络进行迭代训练，获得所述用户画像模型。

在本实施例中，在确定第一相关性和第二相关性的情况下，可以基于第一相关性和第二相关性对神经网络进行迭代训练，获得用户画像模型。可以理解的是，通过本实施例所训练的用户画像模型，可以实现基于多模态数据进行用户画像的构建，也可以实现基于单模态数据进行用户画像的构建，可以提升用户画像模型的适用场景。

在一些实施方式中，在确定第一相关性和第二相关性的情况下，可以基于第一相关性和第二相关性对神经网络进行参数优化，获得用户画像模型。

本申请一实施例提供的用户画像模型的训练方法，相较于图5所示的用户画像模型的训练方法，本实施例还通过神经网络基于训练共性特征，构建训练用户对应的第一训练用户画像，通过神经网络基于至少两个训练单模态数据各自对应的训练私有特征，构建训练用户对应的至少两个第二训练用户画像，确定第一训练用户画像和标注用户画像的第一相关性，并确定至少两个第二训练用户画像各自和标注用户画像的第二相关性，基于第一相关性和第二相关性对所述神经网络进行迭代训练，获得用户画像模型，从而使得用户画像模型可以同时基于多模态数据进行用户画像的构建，以及基于单模态数据进行用户画像的构建，增强用户画像模型的适用性。

请参阅图8，图8示出了本申请一实施例提供的用户画像模型的训练方法的流程示意图。下面将针对图8所示的流程进行详细的阐述，所述用户画像模型的训练方法具体可以包括以下步骤：

步骤S710：获取训练用户对应的训练数据集，所述训练数据集包括训练多模态数据和针对所述训练多模态数据的标注用户画像，其中，所述训练多模态数据由至少两个训练单模态数据组成。

步骤S720：通过神经网络对所述至少两个训练单模态数据进行特征抽取，获得所述至少两个训练单模态数据各自对应的训练私有特征。

步骤S730：通过所述神经网络将所述至少两个训练单模态数据各自对应的训练私有特征进行融合，获得所述训练多模态数据对应的训练共性特征。

步骤S740：通过所述神经网络基于所述训练共性特征，构建所述训练用户对应的训练用户画像，并确定所述训练用户画像和所述标注用户画像的相关性，基于所述相关性对所述神经网络进行迭代训练，获得用户画像模型。

其中，步骤S710-步骤S740的具体描述请参阅步骤S510-步骤S540，在此不再赘述。

步骤S750：对所述用户画像模型进行模型压缩处理，获得压缩后的用户画像模型。

在本实施例中，在获得用户画像模型的情况下，可以对用户画像模型进行模型压缩处理，获得压缩后的用户画像模型，从而可以有效降低用户画像模型的参数量，以缓解存储压力。

在一些实施方式中，如图9所示，可以基于Base模型的知识蒸馏方式对用户画像模型进行模型压缩。具体而言，可以将用户画像模型的编码层进行替换，实现Base模型参数量的压缩，Base模型的预测概率分别作为任务层中多模态预测的学习标签，并重复模型训练的过程，即可以完成知识蒸馏，其参数量可以压缩到90％以上，以达到对用户画像模型的模型压缩的效果。

本申请一实施例提供的用户画像模型的训练方法，相较于图1所示的用户画像模型的训练方法，本实施例还在获得用户画像模型后，对用户画像模型进行模型压缩处理，获得压缩后的用户画像模型，从而在不影响用户画像模型的性能的情况下降低参数量，以缓解存储压力。

请参阅图10，图10示出了本申请一实施例提供的用户画像模型的训练方法的流程示意图。下面将针对图10所示的流程进行详细的阐述，所述用户画像模型的训练方法具体可以包括以下步骤：

步骤S810：确定数据源平台。

在本实施例中，可以确定数据源平台。可以理解的是，用户数据的主要产生地为社交媒体平台，因此，可以将社交媒体平台确定为数据源平台。其中，社交媒体平台例如可以包括微博、抖音、小红书、知乎、豆瓣等，在此不做限定。

在一些实施方式中，不同社交媒体平台的产品定位、数据形式和质量存在一定的差异，本实施例从用户性别分布、数据抓取难易程序、数据模态多样性、画像标签相关性等多个角度进行评估和对比，可以将微博平台确定为数据源平台。

步骤S820：从所述数据源平台中确定所述训练用户，并获取所述训练用户对应的训练多模态数据。

在本实施例中，在确定数据源平台的情况下，可以从数据源平台中确定训练用户，并获取训练用户对应的训练多模态数据。

在一些实施方式中，在确定数据源平台的情况下，可以在数据源平台中确定候选画像标签，并在该候选画像标签下确定训练用户，并获取训练用户对应的训练多模态数据。作为示例，假设数据源平台为微博平台，其中，在微博热门话题中含有诸多兴趣爱好标签，则可以从诸多兴趣爱好标签中确定候选画像标签。

作为一种可实施的方式，假设数据源平台为微博平台，那么，从数据源平台中确定训练用户，并获取训练用户对应的训练多模态数据可以包括：在微博平台的目标话题下寻找话题博主，并将话题博主和/或话题博主的关注者确定为训练用户，获取训练用户发表的预设数量的原创微博，作为训练用户对应的训练多模态数据。作为一种具体的实施方式，可以通过微博热门话题寻找话题博主，然后查询每个话题博主的关注者作为训练用户，或者，通过微博搜索页面，通过输入话题关键词搜索话题博文，话题博文对应的博主作为训练用户。针对训练用户，可以收集训练用户在最近发表的预设数量(如50)的原创微博。

在一些实施方式中，从多个数据源平台中确定训练用户，并获取训练用户对应的训练多模态数据可以包括：从数据源品平台中确定初始用户，对初始用户进行数据清洗，从初始用户中确定训练用户，并获取训练用户对应的训练多模态数据。其中，可以理解的是，初始用户可能会发表与其自身兴趣标签不相关的博文信息，为了避免后续的无效标注，可以对初始用户进行数据清洗或筛选获得训练用户，可选地，可以通过初筛和精筛的方式对初始用户进行过滤和清洗，其中，初筛主要通过用户昵称、信用度、认证信息、粉丝量等方式；精筛主要通过设置领域关键、确定用户发表过相关博文等方式。

在一些实施方式中，训练多模态数据的收集可以采用弱监督的方式，如微博的热门话题标题或者用户注册微博时的自定义个性标签可以作为其标注用户画像，无需后续的人工标注。

在一些实施方式中，训练多模态数据可以包括文本和图片，其中，文本和图片的数可以为一对多(如一篇微博由一段文本和多张图片组成)，对于很长的文本段落，可以先对文本进行分段处理，而后进行全局自注意力机制，这样可以扩展文本和图片数量实现一对一、多对一、多对多的情况。

步骤S830：对所述训练多模态数据进行语义标注，获得针对所述训练多模态数据的标注用户画像。

在本实施例中，在获得训练多模态数据的情况下，可以对训练多模态数据进行语义标注，获得针对多模态数据的标注用户画像，从而获得训练用户对应的训练数据集。

步骤S840：通过神经网络对所述至少两个训练单模态数据进行特征抽取，获得所述至少两个训练单模态数据各自对应的训练私有特征。

步骤S850：通过所述神经网络将所述至少两个训练单模态数据各自对应的训练私有特征进行融合，获得所述训练多模态数据对应的训练共性特征。

步骤S860：通过所述神经网络基于所述训练共性特征，构建所述训练用户对应的训练用户画像，并确定所述训练用户画像和所述标注用户画像的相关性，基于所述相关性对所述神经网络进行迭代训练，获得用户画像模型。

其中，步骤S540-步骤S560的具体描述请参阅步骤S520-步骤S540，在此不再赘述。

本申请一实施例提供的用户画像模型的训练方法，相较于图1所示的用户画像模型的训练方法，本实施例还确定数据源平台，从数据源平台中确定训练用户，并获取训练用户对应的训练多模态数据，对训练多模态数据进行语义标注，获得针对训练多模态数据的标注用户画像，从而可以使得训练数据集的获取更丰富多样，且更容易获取，具有通用性。

其中，针对用户画像模型的构建，其整体框图可以如图11所示，上层应用可以是电子设备的相册，基于下层的用户画像模型构建用户画像。其中，用户画像模型的构建包括数据集的构建和模型设计，数据集构建主要包含数据源的选择、候选画像标签的选型、用户信息收集、数据清洗和标注；模型设计主要包含公开数据选型、基准模型选型、初步实验、模型优化和压缩。

请参阅图12，图12示出了本申请一实施例提供的用户画像的构建装置的模块框图。下面将针对图12所示的框图进行阐述，所述用户画像的构建装置200包括：目标多模态数据获取模块210、目标私有特征获得模块220、目标共性特征获得模块230以及用户画像构建模块240，其中：

目标多模态数据获取模块210，用于获取目标用户对应的目标多模态数据，其中，所述目标多模态数据由至少两个目标单模态数据组成。

目标私有特征获得模块220，用于分别对所述至少两个目标单模态数据进行特征抽取，获得所述至少两个目标单模态数据各自对应的目标私有特征。

进一步地，所述目标私有特征获得模块220包括：参考文本提取子模块和目标私有特征获得子模块，其中：

参考文本提取子模块，用于确定所述参考照片对应的参考图片，并对所述参考照片进行文本提取获得参考文本。

目标私有特征获得子模块，用于分别对所述参考图片和所述参考文本进行特征抽取，获得所述参考图片对应的目标私有特征和所述参考文本对应的目标私有特征。

目标共性特征获得模块230，用于将所述至少两个目标单模态数据各自对应的目标私有特征进行融合，获得所述目标多模态数据对应的目标共性特征。

用户画像构建模块240，用于基于所述目标共性特征，构建所述目标用户对应的目标用户画像。

进一步地，所述用户画像构建模块240包括：第一用户画像构建子模块、第二用户画像构建子模块以及第一目标用户画像构建子模块，其中：

第一用户画像构建子模块，用于基于所述目标共性特征，构建所述目标用户对应的第一用户画像。

第二用户画像构建子模块，用于基于所述至少两个目标单模态数据各自对应的目标私有特征，构建所述目标用户对应的至少两个第二用户画像。

第一目标用户画像构建子模块，用于基于所述第一用户画像和所述至少两个第二用户画像，构建所述目标用户画像。

进一步地，所述第一目标用户画像构建子模块包括：权重确定单元和第一目标用户画像构建单元，其中：

权重确定单元，用于确定所述目标多模态数据对应的第一权重，并确定所述至少两个目标单模态数据各自对应的第二权重。

第一目标用户画像构建单元，用于基于所述第一用户画像、所述至少两个第二用户画像、所述第一权重以及所述至少两个目标单模态数据各自对应的第二权重，构建所述目标用户画像。

进一步地，所述用户画像构建模块240包括：目标多模态数据输入子模块和第二用户画像构建子模块，其中：

目标多模态数据输入子模块，用于将所述目标多模态数据输入用户画像模型。

第二用户画像构建子模块，用于通过所述用户画像模型分别对所述至少两个目标单模态数据进行特征抽取，获得所述至少两个目标单模态数据各自对应的目标私有特征，将所述至少两个目标单模态数据各自对应的目标私有特征进行融合，获得所述目标多模态数据对应的目标共性特征，基于所述目标共性特征，构建所述目标用户对应的目标用户画像。

进一步地，所述用户画像模型包括编码层、注意力层以及任务层，所述第二用户画像构建子模块包括：目标私有特征获得单元、目标共性特征获得单元以及第二目标用户画像构建单元，其中：

目标私有特征获得单元，用于通过所述编码层分别对所述至少两个目标单模态数据进行特征抽取，获得至少两个目标单模态数据各自对应的目标私有特征。

目标共性特征获得单元，用于通过所述注意力层将所述至少两个目标单模态数据各自对应的目标私有特征进行融合，获得所述目标多模态数据对应的目标共性特征。

进一步地，所述注意力层包括自注意力层和交叉注意力层，所述目标共性特征获得单元包括：目标私有特征映射子单元和目标共性特征获得子模块，其中：

目标私有特征映射子单元，用于通过所述自注意力层将所述至少两个目标单模态数据各自对应的目标私有特征映射到相同的语义空间，获得处于相同的语义空间的目标私有特征。

目标共性特征获得子单元，用于通过所述交叉注意力层对所述处于相同的语义空间的目标私有特征进行融合，获得所述目标多模态数据对应的目标共性特征。

第二目标用户画像构建单元，用于通过所述任务层基于所述目标共性特征，构建所述目标用户对应的目标用户画像。

进一步地，所述目标多模态数据包括与所述目标用户对应的电子设备的相册中的参考照片；所述用户画像构建装置200还包括：目标照片确定子模块、目标音频确定子模块以及目标视频生成子模块，其中：

目标照片确定子模块，用于基于所述目标用户画像，从所述相册中筛选出与所述目标用户画像相关的目标照片。

目标音频确定子模块，用于确定与所述目标用户画像相关的目标音频。

目标视频生成子模块，用于基于所述目标照片和所述目标音频生成目标视频。

请参阅图13，图13示出了本申请一实施例提供的用户画像模型的训练装置的模块框图。下面将针对图13所示的框图进行阐述，所述用户画像模型的训练装置300包括：训练数据集获取模块310、训练私有特征获得模块320、训练共性特征获得模块330以及用户画像模型获得模块340，其中：

训练数据集获取模块310，用于获取训练用户对应的训练数据集，所述训练数据集包括训练多模态数据和针对所述训练多模态数据的标注用户画像，其中，所述训练多模态数据由至少两个训练单模态数据组成。

进一步地，所述训练数据集获取模块310包括：数据源平台确定子模块、训练多模态数据获取子模块以及标注用户画像获得子模块，其中：

数据源平台确定子模块，用于确定数据源平台。

训练多模态数据获取子模块，用于从所述数据源平台中确定所述训练用户，并获取所述训练用户对应的训练多模态数据。

进一步地，所述数据源平台包括微博平台，所述训练多模态数据获取子模块包括：训练用户确定单元和第二训练多模态数据获取单元，其中：

训练用户确定单元，用于在所述微博平台的目标话题下寻找话题博主，并将所述话题博主和/或所述话题博主的关注者确定为所述训练用户。

第一训练多模态数据获取单元，用于获取所述训练用户发表的预设数量的原创微博，作为所述训练用户对应的训练多模态数据。

进一步地，所述训练多模态数据获取子模块包括：初始用户确定单元和第二训练多模态数据获取单元，其中：

初始用户确定单元，英语从所述数据源平台中确定初始用户。

第二训练多模态数据获取单元，用于对所述初始用户进行数据清洗，从所述初始用户中确定所述训练用户，并获取所述训练用户对应的训练多模态数据。

标注用户画像获得子模块，用于对所述训练多模态数据进行语义标注，获得针对所述训练多模态数据的标注用户画像。

训练私有特征获得模块320，用于通过神经网络对所述至少两个训练单模态数据进行特征抽取，获得所述至少两个训练单模态数据各自对应的训练私有特征。

训练共性特征获得模块330，用于通过所述神经网络将所述至少两个训练单模态数据各自对应的训练私有特征进行融合，获得所述训练多模态数据对应的训练共性特征。

用户画像模型获得模块340，用于通过所述神经网络基于所述训练共性特征，构建所述训练用户对应的训练用户画像，并确定所述训练用户画像和所述标注用户画像的相关性，基于所述相关性对所述神经网络进行迭代训练，获得用户画像模型。

进一步地，所述用户画像模型获得模块340包括：第一训练用户画像构建子模块、第二训练用户画像构建子模块、相关性确定子模块以及用户画像模型获得子模块，其中：

通过所述神经网络基于所述训练共性特征，构建所述训练用户对应的第一训练用户画像。

通过所述神经网络基于所述至少两个训练单模态数据各自对应的训练私有特征，构建所述训练用户对应的至少两个第二训练用户画像。

确定所述第一训练用户画像和所述标注用户画像的第一相关性，并确定所述至少两个第二训练用户画像各自和所述标注用户画像的第二相关性。

基于所述第一相关性和所述第二相关性对所述神经网络进行迭代训练，获得所述用户画像模型。

进一步地，所述用户画像模型的训练装置300还包括：用户画像模型压缩模块，其中：

用户画像模型压缩模块，用于对所述用户画像模型进行模型压缩处理，获得压缩后的用户画像模型。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图14，其示出了本申请实施例提供的一种电子设备100的结构框图。该电子设备100可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本申请中的电子设备100可以包括一个或多个如下部件：处理器110、存储器120以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

其中，处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit，CPU)、图形处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责待显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参阅图15，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质400中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质400可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质400包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质400具有执行上述方法中的任何方法步骤的程序代码410的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码410可以例如以适当形式进行压缩。

综上所述，本申请实施例提供的用户画像的构建方法、用户画像模型的训练方法及装置，获取目标用户对应的目标多模态数据，其中，目标多模态数据由至少两个目标单模态数据组成，分别对至少两个目标单模态数据进行特征抽取，获得至少两个目标单模态数据各自对应得到目标私有特征，将至少两个目标单模态数据各自对应的目标私有特征进行融合，获得目标多模态数据对应的目标共性特征，基于目标共性特征，构建目标用户对应的目标用户画像，从而针对多模态数据，对各模态进行特征抽取，并对模态间的特征进行融合以构建用户画像，可以提升所构建的用户画像的准确性。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种用户画像的构建方法，其特征在于，所述方法包括：

获取目标用户对应的目标多模态数据，其中，所述目标多模态数据由至少两个目标单模态数据组成；

分别对所述至少两个目标单模态数据进行特征抽取，获得所述至少两个目标单模态数据各自对应的目标私有特征；

将所述至少两个目标单模态数据各自对应的目标私有特征进行融合，获得所述目标多模态数据对应的目标共性特征；

基于所述目标共性特征，构建所述目标用户对应的目标用户画像。

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标共性特征，构建所述目标用户对应的目标用户画像，包括：

基于所述目标共性特征，构建所述目标用户对应的第一用户画像；

基于所述至少两个目标单模态数据各自对应的目标私有特征，构建所述目标用户对应的至少两个第二用户画像；

基于所述第一用户画像和所述至少两个第二用户画像，构建所述目标用户画像。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一用户画像和所述至少两个第二用户画像，构建所述目标用户画像，包括：

确定所述目标多模态数据对应的第一权重，并确定所述至少两个目标单模态数据各自对应的第二权重；

基于所述第一用户画像、所述至少两个第二用户画像、所述第一权重以及所述至少两个目标单模态数据各自对应的第二权重，构建所述目标用户画像。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述目标多模态数据包括与所述目标用户对应的电子设备的相册中的参考照片；在所述基于所述目标共性特征，构建所述目标用户对应的目标用户画像之后，还包括：

基于所述目标用户画像，从所述相册中筛选出与所述目标用户画像相关的目标照片；

确定与所述目标用户画像相关的目标音频；

基于所述目标照片和所述目标音频生成目标视频。

5.根据权利要求4所述的方法，其特征在于，所述分别对所述至少两个目标单模态数据进行特征抽取，获得所述至少两个目标单模态数据各自对应的目标私有特征，包括：

确定所述参考照片对应的参考图片，并对所述参考照片进行文本提取获得参考文本；

分别对所述参考图片和所述参考文本进行特征抽取，获得所述参考图片对应的目标私有特征和所述参考文本对应的目标私有特征。

6.根据权利要求1-3任一项所述的方法，其特征在于，所述分别对所述至少两个目标单模态数据进行特征抽取，获得所述至少两个目标单模态数据各自对应的目标私有特征；将所述至少两个目标单模态数据各自对应的目标私有特征进行融合，获得所述目标多模态数据对应的目标共性特征；基于所述目标共性特征，构建所述目标用户对应的目标用户画像，包括：

将所述目标多模态数据输入用户画像模型；

通过所述用户画像模型分别对所述至少两个目标单模态数据进行特征抽取，获得所述至少两个目标单模态数据各自对应的目标私有特征，将所述至少两个目标单模态数据各自对应的目标私有特征进行融合，获得所述目标多模态数据对应的目标共性特征，基于所述目标共性特征，构建所述目标用户对应的目标用户画像。

7.根据权利要求6所述的方法，其特征在于，所述用户画像模型包括编码层、注意力层以及任务层，所述通过所述用户画像模型分别对所述至少两个目标单模态数据进行特征抽取，获得所述至少两个目标单模态数据各自对应的目标私有特征，将所述至少两个目标单模态数据各自对应的目标私有特征进行融合，获得所述目标多模态数据对应的目标共性特征，基于所述目标共性特征，构建所述目标用户对应的目标用户画像，包括：

通过所述编码层分别对所述至少两个目标单模态数据进行特征抽取，获得至少两个目标单模态数据各自对应的目标私有特征；

通过所述注意力层将所述至少两个目标单模态数据各自对应的目标私有特征进行融合，获得所述目标多模态数据对应的目标共性特征；

通过所述任务层基于所述目标共性特征，构建所述目标用户对应的目标用户画像。

8.根据权利要求7所述的方法，其特征在于，所述注意力层包括自注意力层和交叉注意力层，所述通过所述注意力层将所述至少两个目标单模态数据各自对应的目标私有特征进行融合，获得所述目标多模态数据对应的目标共性特征，包括：

通过所述自注意力层将所述至少两个目标单模态数据各自对应的目标私有特征映射到相同的语义空间，获得处于相同的语义空间的目标私有特征；

通过所述交叉注意力层对所述处于相同的语义空间的目标私有特征进行融合，获得所述目标多模态数据对应的目标共性特征。

9.一种用户画像模型的训练方法，其特征在于，所述方法包括：

获取训练用户对应的训练数据集，所述训练数据集包括训练多模态数据和针对所述训练多模态数据的标注用户画像，其中，所述训练多模态数据由至少两个训练单模态数据组成；

通过神经网络对所述至少两个训练单模态数据进行特征抽取，获得所述至少两个训练单模态数据各自对应的训练私有特征；

通过所述神经网络将所述至少两个训练单模态数据各自对应的训练私有特征进行融合，获得所述训练多模态数据对应的训练共性特征；

通过所述神经网络基于所述训练共性特征，构建所述训练用户对应的训练用户画像，并确定所述训练用户画像和所述标注用户画像的相关性，基于所述相关性对所述神经网络进行迭代训练，获得用户画像模型。

10.根据权利要求9所述的方法，其特征在于，所述神经网络包括编码层、注意力层以及任务层，其中：

所述编码层用于对所述至少两个训练单模态数据进行特征抽取，获得所述至少两个训练单模态数据各自对应的训练私有特征；

所述注意力层用于将所述至少两个训练单模态数据各自对应的训练私有特征进行融合，获得所述训练多模态数据对应的训练共性特征；

所述任务层用于基于所述训练共性特征，构建所述训练用户对应的训练用户画像，并确定所述训练用户画像和所述标注用户画像的相关性，基于所述相关性对所述神经网络进行迭代训练，获得用户画像模型。

11.根据权利要求10所述的方法，其特征在于，所述注意力层包括自注意力层和交叉注意力层，其中：

所述自注意力层用于将所述至少两个训练单模态数据各自对应的训练私有特征映射到相同的语义空间，获得处于相同的语义空间的训练私有特征；

所述交叉注意力层用于对所述处于相同的语义空间的训练私有特征进行融合，获得所述训练多模态数据对应的训练共性特征。

12.根据权利要求9所述的方法，其特征在于，所述通过所述神经网络基于所述训练共性特征，构建所述训练用户对应的训练用户画像，并确定所述训练用户画像和所述标注用户画像的相关性，基于所述相关性对所述神经网络进行迭代训练，获得用户画像模型，包括：

通过所述神经网络基于所述训练共性特征，构建所述训练用户对应的第一训练用户画像；

通过所述神经网络基于所述至少两个训练单模态数据各自对应的训练私有特征，构建所述训练用户对应的至少两个第二训练用户画像；

确定所述第一训练用户画像和所述标注用户画像的第一相关性，并确定所述至少两个第二训练用户画像各自和所述标注用户画像的第二相关性；

13.根据权利要求9-12任一项所述的方法，其特征在于，在所述获得用户画像模型之后，还包括：

对所述用户画像模型进行模型压缩处理，获得压缩后的用户画像模型。

14.根据权利要求9-12任一项所述的方法，其特征在于，所述获取训练用户对应的训练数据集，包括：

确定数据源平台；

从所述数据源平台中确定所述训练用户，并获取所述训练用户对应的训练多模态数据；

对所述训练多模态数据进行语义标注，获得针对所述训练多模态数据的标注用户画像。

15.根据权利要求14所述的方法，其特征在于，所述数据源平台包括微博平台，所述从所述数据源平台中确定所述训练用户，并获取所述训练用户对应的训练多模态数据，包括：

在所述微博平台的目标话题下寻找话题博主，并将所述话题博主和/或所述话题博主的关注者确定为所述训练用户；

获取所述训练用户发表的预设数量的原创微博，作为所述训练用户对应的训练多模态数据。

16.根据权利要求14所述的方法，其特征在于，所述从所述数据源平台中确定所述训练用户，并获取所述训练用户对应的训练多模态数据，包括：

从所述数据源平台中确定初始用户；

对所述初始用户进行数据清洗，从所述初始用户中确定所述训练用户，并获取所述训练用户对应的训练多模态数据。

17.一种用户画像的构建装置，其特征在于，所述装置包括：

目标多模态数据获取模块，用于获取目标用户对应的目标多模态数据，其中，所述目标多模态数据由至少两个目标单模态数据组成；

目标私有特征获得模块，用于分别对所述至少两个目标单模态数据进行特征抽取，获得所述至少两个目标单模态数据各自对应的目标私有特征；

目标共性特征获得模块，用于将所述至少两个目标单模态数据各自对应的目标私有特征进行融合，获得所述目标多模态数据对应的目标共性特征；

用户画像构建模块，用于基于所述目标共性特征，构建所述目标用户对应的目标用户画像。

18.一种用户画像模型的训练装置，其特征在于，所述装置包括：

训练数据集获取模块，用于获取训练用户对应的训练数据集，所述训练数据集包括训练多模态数据和针对所述训练多模态数据的标注用户画像，其中，所述训练多模态数据由至少两个训练单模态数据组成；

训练私有特征获得模块，用于通过神经网络对所述至少两个训练单模态数据进行特征抽取，获得所述至少两个训练单模态数据各自对应的训练私有特征；

训练共性特征获得模块，用于通过所述神经网络将所述至少两个训练单模态数据各自对应的训练私有特征进行融合，获得所述训练多模态数据对应的训练共性特征；

用户画像模型获得模块，用于通过所述神经网络基于所述训练共性特征，构建所述训练用户对应的训练用户画像，并确定所述训练用户画像和所述标注用户画像的相关性，基于所述相关性对所述神经网络进行迭代训练，获得用户画像模型。

19.一种电子设备，其特征在于，包括存储器和处理器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时所述处理器执行如权利要求1-8任一项或者9-16任一项所述的方法。

20.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-8任一项或者9-16任一项所述的方法。