CN114372573B

CN114372573B - 用户画像信息识别方法、装置、计算机设备和存储介质

Info

Publication number: CN114372573B
Application number: CN202210018513.XA
Authority: CN
Inventors: 赵涛; 严少洁; 邓劲生; 宋省身; 乔凤才; 尹晓晴
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-01-07
Filing date: 2022-01-07
Publication date: 2022-09-16
Anticipated expiration: 2042-01-07
Also published as: CN114372573A

Abstract

本申请涉及一种用户画像信息识别方法、装置、计算机设备和存储介质。所述方法包括：以商品为项目、以商品单词为属性，建立用户、项目、属性为节点的异质图，并基于元路径感知算法，在异质图中进行抽样，得到节点交互数据，结合历史点击购买日志数据，对任一用户构建超图，得到超图关联矩阵；根据训练集中每个用户的节点交互数据、超图关联矩阵，以及用户的真实标签信息，输入到用户画像信息识别模型中，通过超图卷积神经网络层以用户表征向量为节点初始特征，根据超图关联矩阵挖掘用户之间的高阶关系，通过训练集对模型进行训练，将训练好的用户画像信息识别模型对无标签的测试集进行用户画像信息识别。本发明提高了用户画像信息识别准确度。

Description

用户画像信息识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及数据处理技术领域，特别是涉及一种用户画像信息识别方法、装置、计算机设备和存储介质。

背景技术

随着互联网和移动手机的普及，社交网络平台、电子商务平台等互联网应用蓬勃发展。用户在使用互联网应用时产生海量的数据，这些用户生成数据能够体现用户多方面的信息。利用这些用户生成数据进行用户画像信息识别能够在真实世界的应用中提供个性化的服务，例如在社交网络平台或者电商平台上进行商品推荐、广告定制等，具有非常重要的商业价值。目前基于用户生成数据的用户画像信息识别工作大多是基于用户个人数据，识别准确率有限。因此，现有技术存在准确率不高、适应性不佳的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高用户画像信息识别准确率的用户画像信息识别方法、装置、计算机设备和存储介质。

一种用户画像信息识别方法，所述方法包括：

从电商平台获取原始的商品文本数据、用户文本数据以及用户在所述电商平台的历史点击购买日志数据，并对所述商品文本数据进行预处理，得到商品的单词语料库，并进一步得到属性表征向量；

根据所述用户文本数据、所述历史点击购买日志数据以及预处理后的商品文本数据，以商品为项目、以商品单词为属性，建立用户、项目、属性为节点的异质图，并基于元路径感知算法，在所述异质图中进行抽样，得到节点交互数据；

根据所述历史点击购买日志数据和所述节点交互数据，对任一用户，以其k跳邻居集合的用户集合为顶点集，以任意多个顶点用户共同点击购买过的所有商品为超边集，根据所述顶点集、所述超边集以及所述超边集中每条超边的权重，构建所述用户的迷你图超图，并进一步得到超图关联矩阵；

获取训练集，并得到所述训练集中每个用户的节点交互数据、所述用户的超图关联矩阵，以及所述用户的真实标签信息；

将所述用户的所述节点交互数据和所述超图关联矩阵输入到用户画像信息识别模型中；所述用户画像信息识别模型包括依次连接的输入嵌入层、异质图注意力层、超图卷积神经网络层和输出层；所述输入嵌入层用于根据所述节点交互数据确定所述用户的属性表征向量；所述异质图注意力层用于根据所述属性表征向量通过图注意力机制得到商品的项目表征向量，并进一步得到所述用户的用户表征向量；所述超图卷积神经网络层用于以所述用户表征向量为节点初始特征，根据所述用户的超图关联矩阵挖掘用户之间的高阶关系；所述输出层用于输出所述用户的标签类别预测结果；

根据所述用户的真实标签信息、所述标签类别预测结果，以及预设的损失函数对所述用户画像信息识别模型进行训练，得到训练好的用户画像信息识别模型；

通过所述训练好的用户画像信息识别模型对无标签的测试集进行用户画像信息识别。

在其中一个实施例中，还包括：获取商品文本数据，并进行清洗；

利用中文分词工具，对清洗后的每条商品文本数据进行分词，并去除停用词，得到商品单词的单词语料库；

利用开源的词向量计算和文本分类工具计算所述单词语料库文本的向量表征，得到所述单词语料库对应的属性表征向量；

根据所述属性表征向量，过滤掉属性表征向量词频过低的商品，得到预处理后的商品文本数据。

在其中一个实施例中，还包括：根据所述历史点击购买日志数据得到所有用户关联的商品表和项目到用户的倒排表；

根据所述历史点击购买日志数据得到所有用户的邻居表；

根据所述邻居表从所述异质图中抽样得到所述用户的k跳邻居集合，组成用户-用户迷你图，并根据所述用户-用户迷你图得到用户-用户顶点矩阵；

对所述用户-用户迷你图中的用户，从所述用户关联的商品表中采样抽取多个相关联的项目，得到用户-项目迷你图，并根据所述用户-项目迷你图得到用户-项目交互矩阵；

对所述用户-项目迷你图中的项目，对每个项目采样抽取多个关联的属性，得到项目-属性交互矩阵；

由所述用户-用户顶点矩阵、用户-项目交互矩阵和所述项目-属性交互矩阵构成节点交互数据。

在其中一个实施例中，还包括：对任一用户，根据所述节点交互数据中的用户-用户顶点矩阵，以所述用户的k跳邻居集合的用户集合为顶点集V，以任意多个顶点用户共同点击购买过的所有商品为超边集E；

通过遍历所述顶点集V和所述项目到用户的倒排表的所有交集，得到所有超边的节点；

根据所述顶点集V、所述超边集E以及所述超边集中每条超边的权重W，构建所述用户的迷你图超图G＝(V,E,W)；

将所述迷你图超图G用超图关联矩阵H表示，定义为：

其中，超图关联矩阵H的行代表不同的超图节点，即用户，列代表不同的超边，即用户在电商平台上点击或者购买过的项目，当节点v在超边e上时，元素(v,e)为1。

在其中一个实施例中，还包括：根据所述用户-项目交互矩阵，确定所述用户关联的商品；

根据所述用户关联的商品和所述项目-属性交互矩阵，确定所述用户关联的商品单词；

根据所述商品单词确定所述用户对应的属性表征向量。

在其中一个实施例中，还包括：根据异质图注意力层中的学习参数、权重矩阵和偏置向量以及所述属性表征向量，计算属性对项目的第一注意力系数；

根据所述第一注意力系数得到属性对项目的第一注意力分数；

根据项目的关联属性和对应的第一注意力分数对属性加权得到项目的项目表征向量；

根据异质图注意力层中的学习参数、权重矩阵和偏置向量以及所述项目表征向量，计算项目对用户的第二注意力系数；

根据所述第二注意力系数得到项目对用户的第二注意力分数；

根据用户的关联属性和对应的第二注意力分数对项目加权得到用户的用户表征向量X＝[x₁,,x₂,,…x_|V|]。

在其中一个实施例中，还包括：所述超图卷积神经网络层的第l层定义为：

其中，

为用户超图关联矩阵，

和

分别是超图的节点度矩阵和超边度矩阵，

表示第l层的超图信号即节点表征向量矩阵，

表示第l层的可学习参数，σ表示非线性激活函数。

一种用户画像信息识别装置，所述装置包括：

数据获取及预处理模块，用于从电商平台获取原始的商品文本数据、用户文本数据以及用户在所述电商平台的历史点击购买日志数据，并对所述商品文本数据进行预处理，得到商品的单词语料库，并进一步得到属性表征向量；

节点交互数据获取模块，用于根据所述用户文本数据、所述历史点击购买日志数据以及预处理后的商品文本数据，以商品为项目、以商品单词为属性，建立用户、项目、属性为节点的异质图，并基于元路径感知算法，在所述异质图中进行抽样，得到节点交互数据；

超图构建模块，用于根据所述历史点击购买日志数据和所述节点交互数据，对任一用户，以其k跳邻居集合的用户集合为顶点集，以任意多个顶点用户共同点击购买过的所有商品为超边集，根据所述顶点集、所述超边集以及所述超边集中每条超边的权重，构建所述用户的迷你图超图，并进一步得到超图关联矩阵；

训练集获取模块，用于获取训练集，并得到所述训练集中每个用户的节点交互数据、所述用户的超图关联矩阵，以及所述用户的真实标签信息；

模型数据输入模块，用于将所述用户的所述节点交互数据和所述超图关联矩阵输入到用户画像信息识别模型中；所述用户画像信息识别模型包括依次连接的输入嵌入层、异质图注意力层、超图卷积神经网络层和输出层；所述输入嵌入层用于根据所述节点交互数据确定所述用户的属性表征向量；所述异质图注意力层用于根据所述属性表征向量通过图注意力机制得到商品的项目表征向量，并进一步得到所述用户的用户表征向量；所述超图卷积神经网络层用于以所述用户表征向量为节点初始特征，根据所述用户的超图关联矩阵挖掘用户之间的高阶关系；所述输出层用于输出所述用户的标签类别预测结果；

模型训练模块，用于根据所述用户的真实标签信息、所述标签类别预测结果，以及预设的损失函数对所述用户画像信息识别模型进行训练，得到训练好的用户画像信息识别模型；

模型使用模块，用于通过所述训练好的用户画像信息识别模型对无标签的测试集进行用户画像信息识别。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述用户画像信息识别方法、装置、计算机设备和存储介质，通过以商品为项目、以商品单词为属性，建立用户、项目、属性为节点的异质图，并基于元路径感知算法，在异质图中进行抽样，得到节点交互数据；根据历史点击购买日志数据和节点交互数据，对任一用户构建超图，并进一步得到超图关联矩阵；根据训练集中每个用户的节点交互数据、用户的超图关联矩阵，以及用户的真实标签信息，输入到用户画像信息识别模型中，通过超图卷积神经网络层以用户表征向量为节点初始特征，根据用户的超图关联矩阵挖掘用户之间的高阶关系，通过训练集对模型进行训练，得到训练好的用户画像信息识别模型；通过训练好的用户画像信息识别模型对无标签的测试集进行用户画像信息识别。本发明融合异质图和超图的各自优势并应用于电子商务用户画像识别工作中。利用异质图集成多种网络信息，基于用户的行为信息和关联的多种数据信息挖掘潜在语义信息从而提取用户的表征，针对超图数据结构挖掘用户之间的高阶复杂关系，提高了用户画像信息识别准确度。

附图说明

图1为一个实施例中用户画像信息识别方法的流程示意图；

图2为一个实施例中用户画像信息识别模型示意图；

图3为另一个实施例中用户画像信息识别步骤的流程示意图；

图4为一个实施例中用户画像信息识别装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种用户画像信息识别方法，包括以下步骤：

步骤102，从电商平台获取原始的商品文本数据、用户文本数据以及用户在电商平台的历史点击购买日志数据，并对商品文本数据进行预处理，得到商品的单词语料库，并进一步得到属性表征向量。

在电商平台收集获取原始商品文本信息，包括商品名称、商品所属三级类别、商标代码、商品价格等，文本表示为I＝{i₁,,i₂,,…i_|I_|}；产生历史行为信息的若干原始用户信息文本数据，包括用户的年龄和性别等，表示为U＝{u₁,,u₂,,…u_|V_|}；用户在电商平台的历史点击购买日志，包括用户ID和用户点击或者购买的商品ID以及行为时间戳等。

步骤104，根据用户文本数据、历史点击购买日志数据以及预处理后的商品文本数据，以商品为项目、以商品单词为属性，建立用户、项目、属性为节点的异质图，并基于元路径感知算法，在异质图中进行抽样，得到节点交互数据。

常见的信息异质网络中节点由三种类型构成：用户、项目、属性，考虑到电子商务中的多种类型数据输入问题，本实施例中将电子商务网络表示为异质图。用户即消费者，项目即商品，属性可以是商品标题中的单词。边有三种类型：用户-用户边，反映用户之间的共同点击购买关系；项目-用户边，表示用户和项目之间的交互，每个用户可能会购买一些商品；属性-项目边，描述项目的属性信息，每个项目都有一些属性(如单词)。

步骤106，根据历史点击购买日志数据和节点交互数据，对任一用户，以其k跳邻居集合的用户集合为顶点集，以任意多个顶点用户共同点击购买过的所有商品为超边集，根据顶点集、超边集以及超边集中每条超边的权重，构建用户的迷你图超图，并进一步得到超图关联矩阵。

在数学上，图是表示对象与对象之间关系的一种方式。普通图一般用于描述存在二元关系的一组对象，它的一个边只能和两个顶点连接；而对于超图来讲，人们定义它的边，即超边，可以和任意个数的顶点连接。

对于给定的一个数据集X而言，可以通过一个超图来描述数据集中样本之间的属性关系。属性即是用来描述每个样本所具有的特性的关键词，对本发明，属性为用户对应的商品单词。在超图中，每个样本对应超图中的顶点。对于超图的超边的构建，将具有同一个属性的样本归到同一条超边里。因为每个样本具有若干个属性，所以一个顶点可以属于多条超边，如果在该数据集中有个属性，那么超图就具有条超边。因为我们通过该超图来描述数据之间的属性关系，该超图又称为属性超图。

步骤108，获取训练集，并得到训练集中每个用户的节点交互数据、用户的超图关联矩阵，以及用户的真实标签信息。

模型训练过程为基于超图的半监督学习，使用用户和项目之间的交互和项目的属性信息作为大规模非监督信息，某些用户的标签作为监督信息，构建异质图注意力网络层获得节点初始特征。

构建节点超图后计算超图拉普拉斯矩阵，以节点初始特征和关联矩阵作为超图卷积神经网络输入，挖掘用户之间的高阶关系以及修正信息损失问题，训练得到用户的最终表征，由此可以提高用户画像如性别或者年龄的预测准确率。

步骤110，将用户的节点交互数据和超图关联矩阵输入到用户画像信息识别模型中。

用户画像信息识别模型包括依次连接的输入嵌入层、异质图注意力层、超图卷积神经网络层和输出层；输入嵌入层用于根据节点交互数据确定用户的属性表征向量；异质图注意力层用于根据属性表征向量通过图注意力机制得到商品的项目表征向量，并进一步得到用户的用户表征向量；超图卷积神经网络层用于以用户表征向量为节点初始特征，根据用户的超图关联矩阵挖掘用户之间的高阶关系；输出层用于输出用户的标签类别预测结果。

步骤112，根据用户的真实标签信息、标签类别预测结果，以及预设的损失函数对用户画像信息识别模型进行训练，得到训练好的用户画像信息识别模型。

基于训练用户的部分真实标签计算半监督分类的损失函数，这里使用交叉熵损失函数对损失进行计算。

其中，U_L表示所有有标签用户，F_Y表示标签个数，Y表示用户标签的真实概率分布，Z表示用户标签的预测概率分布。

采用累计梯度计算的方式更新模型参数。

步骤114，通过训练好的用户画像信息识别模型对无标签的测试集进行用户画像信息识别。

上述用户画像信息识别方法中，通过以商品为项目、以商品单词为属性，建立用户、项目、属性为节点的异质图，并基于元路径感知算法，在异质图中进行抽样，得到节点交互数据；根据历史点击购买日志数据和节点交互数据，对任一用户构建超图，并进一步得到超图关联矩阵；根据训练集中每个用户的节点交互数据、用户的超图关联矩阵，以及用户的真实标签信息，输入到用户画像信息识别模型中，通过超图卷积神经网络层以用户表征向量为节点初始特征，根据用户的超图关联矩阵挖掘用户之间的高阶关系，通过训练集对模型进行训练，得到训练好的用户画像信息识别模型；通过训练好的用户画像信息识别模型对无标签的测试集进行用户画像信息识别。本发明融合异质图和超图的各自优势并应用于电子商务用户画像识别工作中。利用异质图集成多种网络信息，基于用户的行为信息和关联的多种数据信息挖掘潜在语义信息从而提取用户的表征，针对超图数据结构挖掘用户之间的高阶复杂关系，提高了用户画像信息识别准确度。

在其中一个实施例中，还包括：获取商品文本数据，并进行清洗；利用中文分词工具，对清洗后的每条商品文本数据进行分词，并去除停用词，得到商品单词的单词语料库；利用开源的词向量计算和文本分类工具计算单词语料库文本的向量表征，得到单词语料库对应的属性表征向量；根据属性表征向量，过滤掉属性表征向量词频过低的商品，得到预处理后的商品文本数据。

具体地，使用简单高效、使用广泛的中文分词工具jieba对商品名称进行分词，用哈工大停用词表去除停用词。过滤掉商品单词即项目属性为空的商品，构建新的项目属性语料库。

针对分词后的项目属性语料库，利用开源的词向量计算和文本分类工具FastText，基于skip-gram实例计算所有属性的文本表征，从文本角度将每个单词转换成一个N维向量，优选N为300。

过滤词向量属性词频过低的商品，得到预处理后的商品文本数据。

在其中一个实施例中，还包括：根据历史点击购买日志数据得到所有用户关联的商品表和项目到用户的倒排表；根据历史点击购买日志数据得到所有用户的邻居表；根据邻居表从异质图中抽样得到用户的k跳邻居集合，组成用户-用户迷你图，并根据用户-用户迷你图得到用户-用户顶点矩阵；对用户-用户迷你图中的用户，从用户关联的商品表中采样抽取多个相关联的项目，得到用户-项目迷你图，并根据用户-项目迷你图得到用户-项目交互矩阵；对用户-项目迷你图中的项目，对每个项目采样抽取多个关联的属性，得到项目-属性交互矩阵；由用户-用户顶点矩阵、用户-项目交互矩阵和项目-属性交互矩阵构成节点交互数据。

具体地，根据所有用户的点击购买历史记录

生成所有用户关联的商品表即user2items表以及项目到用户的倒排表item2users，其中过滤没有关联词向量的商品。

由item2users遍历每个用户，得到所有用户的邻居表NT，即对于

u_i∈{u₁,,u₂,,…u_|V|},有

由于真实的电子商务信息网络中，节点和边即用户和商品以及其交互信息往往会有数百万或者数十亿，传统的图卷积网络需要将所有节点输入训练网络中，并不适用于实际应用中，因此本实施例中扩展了采样方法。

对于训练测试过程中的每个用户，需要从异质图中抽样出元路径对应的一些节点和边，构成用户-项目迷你图以及项目-属性迷你图。对于每个用户，采用k-hop的方式对其邻居进行采样。

用户-用户迷你图：对用户u∈{u₁,,u₂,,…u_|V|}，首先从其邻居即和u有共同点击购买行为的用户集合中抽样L_u1名用户，并将其表示为u_s1，对于u_s1中的每个用户，都采样L_u2个用户，迭代地执行k次，得到用户的k跳邻居集合，组成用户-用户迷你图，生成用户-用户顶点矩阵。

用户-项目迷你图：对得到的用户迷你图中的每个用户u_i,从user2items表中采样抽取L_i个相关联的项目，得到用户-项目交互矩阵。

项目-属性迷你图：对每个项目i_i采样抽取L_t个相关联的属性，得到项目-属性交互矩阵。

针对用户-用户顶点矩阵，将用户画像如性别、年龄等预测问题转化为分类问题，以年龄为例，具体类别标签和划分规则如表1所示：

表1

类别标签	0	1	2	3
					年龄	<26	26-35	36-55	>55

通过上述规则得到采样后的用户-用户矩阵对应的节点标签信息作为模型的监督信息。

在其中一个实施例中，还包括：对任一用户，根据节点交互数据中的用户-用户顶点矩阵，以用户的k跳邻居集合的用户集合为顶点集V，以任意多个顶点用户共同点击购买过的所有商品为超边集E；通过遍历顶点集V和项目到用户的倒排表的所有交集，得到所有超边的节点；根据顶点集V、超边集E以及超边集中每条超边的权重W，构建用户的迷你图超图G＝(V,E,W)；将迷你图超图G用超图关联矩阵H表示，定义为：

在超图中，顶点的度d(v)定义为包含该到的边的个数，表示为：

超边的度定义为超边上包含的顶点的数目，表示为：

用对角矩阵D_v和D_e来表示节点、超边的度矩阵，其中对角线上的元素就是每个节点/超边的度即d(v)/δ(e)。

在其中一个实施例中，还包括：根据用户-项目交互矩阵，确定用户关联的商品；根据用户关联的商品和项目-属性交互矩阵，确定用户关联的商品单词；根据商品单词确定用户对应的属性表征向量。根据异质图注意力层中的学习参数、权重矩阵和偏置向量以及属性表征向量，计算属性对项目的第一注意力系数；根据第一注意力系数得到属性对项目的第一注意力分数；根据项目的关联属性和对应的第一注意力分数对属性加权得到项目的项目表征向量；根据异质图注意力层中的学习参数、权重矩阵和偏置向量以及项目表征向量，计算项目对用户的第二注意力系数；根据第二注意力系数得到项目对用户的第二注意力分数；根据用户的关联属性和对应的第二注意力分数对项目加权得到用户的用户表征向量X＝[x₁,,x₂,,...x_|V|]。

具体地，如图2所示，用户画像信息识别模型包括输入嵌入层，属性项目层，项目用户层和超图卷积层。

首先，在输入嵌入层，根据用户-用户迷你图得到用户ID以及交互矩阵，进一步得到用户关联的预训练单词嵌入文件(属性表征向量文件)作为属性信息输入模型。

下一步，在属性项目层和项目用户层，在异质图注意力层中基于元路径感知算法和图注意力机制得到用户表征，得到用户表征矩阵

其中，F′为用户表征向量的维度。

以属性表征作为输入，基于图注意力机制如vanilla注意力更新项目表征，给定项目节点i，它的属性邻居集合为N_i，项目表征由x_i变换为x_i'。

先根据学习参数即上下文向量

权重矩阵

以及偏置向量

计算属性j对项目i的注意力系数e_ij，其中激活函数使用tanh：

e_ij＝c^Ttanh(Wx_j+b) (1)

根据注意力系数得到属性j对项目i的注意力分数α_ij如下式。

根据项目的邻居属性和对应的注意力分数对属性加权得到项目更新后特征矩阵x_i'。

由此，根据属性表征矩阵和项目-用户交互矩阵可以得到所有项目的表征。类似地，我们使用元路径感知的图注意力机制得到所有用户的初始表征，即信息通过图注意力模块从属性传播到项目，再从项目传播到相关联的用户。具体地讲，给定用户节点u，它的项目邻居集合为N_u，通过公式(1)(2)(3)类似地可以得到N_u中的所有项目对用户u的注意力系数，通过项目加权可以得到用户u表征。

通过上述步骤可以得到包含所有用户的表征向量矩阵X＝[x₁,,x₂,,…x_|V|]。

超图卷积神经网络层的第l层定义为：

其中，

为用户超图关联矩阵，

和

分别是超图的节点度矩阵和超边度矩阵，

表示第l层的超图信号即用户节点表征向量矩阵，

表示第l层的可学习参数，σ表示非线性激活函数。

本实施例中采用ReLU激活函数，l＝2。

超图卷积神经网络相较于传统图神经网络，不仅利用了图的拓扑结构和节点内容特征，而且实现了节点-超边-节点的信息转换，可以挖掘到数据之间的高阶关系。更具体地讲，初始X⁽¹⁾经过学习参数Θ⁽¹⁾实现线性变换，获得C1维特征。通过相乘

聚合超边上的节点信息得到所有超边的C2维特征向量，相乘H实现对所有节点聚合其相关联的超边特征信息的作用，由此实现了节点和超边之间的高阶关系的获取，得到输出C2维节点特征。其中D_v和D_e用于归一化。

当超边度为2的时候，超图拉普拉斯简化为简单图拉普拉斯矩阵。

下一步，定义输出层。选用Softmax函数对数据进行缩放，得到对每个用户的标签类别的预测结果。

在另一个实施例中，如图3所示，提供了一种用户画像信息识别方法，通过训练集对模型进行迭代训练以更新训练参数，直到达到完成迭代，将模型用于预测无标签的文本，并输出预测结果。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种用户画像信息识别装置，包括：数据获取及预处理模块402、节点交互数据获取模块404、超图构建模块406、训练集获取模块408、模型数据输入模块410、模型训练模块412和模型使用模块414，其中：

数据获取及预处理模块402，用于从电商平台获取原始的商品文本数据、用户文本数据以及用户在电商平台的历史点击购买日志数据，并对商品文本数据进行预处理，得到商品的单词语料库，并进一步得到属性表征向量；

节点交互数据获取模块404，用于根据用户文本数据、历史点击购买日志数据以及预处理后的商品文本数据，以商品为项目、以商品单词为属性，建立用户、项目、属性为节点的异质图，并基于元路径感知算法，在异质图中进行抽样，得到节点交互数据；

超图构建模块406，用于根据历史点击购买日志数据和节点交互数据，对任一用户，以其k跳邻居集合的用户集合为顶点集，以任意多个顶点用户共同点击购买过的所有商品为超边集，根据顶点集、超边集以及超边集中每条超边的权重，构建用户的迷你图超图，并进一步得到超图关联矩阵；

训练集获取模块408，用于获取训练集，并得到训练集中每个用户的节点交互数据、用户的超图关联矩阵，以及用户的真实标签信息；

模型数据输入模块410，用于将用户的节点交互数据和超图关联矩阵输入到用户画像信息识别模型中；用户画像信息识别模型包括依次连接的输入嵌入层、异质图注意力层、超图卷积神经网络层和输出层；输入嵌入层用于根据节点交互数据确定用户的属性表征向量；异质图注意力层用于根据属性表征向量通过图注意力机制得到商品的项目表征向量，并进一步得到用户的用户表征向量；超图卷积神经网络层用于以用户表征向量为节点初始特征，根据用户的超图关联矩阵挖掘用户之间的高阶关系；输出层用于输出用户的标签类别预测结果；

模型训练模块412，用于根据用户的真实标签信息、标签类别预测结果，以及预设的损失函数对用户画像信息识别模型进行训练，得到训练好的用户画像信息识别模型；

模型使用模块414，用于通过训练好的用户画像信息识别模型对无标签的测试集进行用户画像信息识别。

数据获取及预处理模块402还用于获取商品文本数据，并进行清洗；利用中文分词工具，对清洗后的每条商品文本数据进行分词，并去除停用词，得到商品单词的单词语料库；利用开源的词向量计算和文本分类工具计算单词语料库文本的向量表征，得到单词语料库对应的属性表征向量；根据属性表征向量，过滤掉属性表征向量词频过低的商品，得到预处理后的商品文本数据。

节点交互数据获取模块404还用于根据历史点击购买日志数据得到所有用户关联的商品表和项目到用户的倒排表；根据历史点击购买日志数据得到所有用户的邻居表；根据邻居表从异质图中抽样得到用户的k跳邻居集合，组成用户-用户迷你图，并根据用户-用户迷你图得到用户-用户顶点矩阵；对用户-用户迷你图中的用户，从用户关联的商品表中采样抽取多个相关联的项目，得到用户-项目迷你图，并根据用户-项目迷你图得到用户-项目交互矩阵；对用户-项目迷你图中的项目，对每个项目采样抽取多个关联的属性，得到项目-属性交互矩阵；由用户-用户顶点矩阵、用户-项目交互矩阵和项目-属性交互矩阵构成节点交互数据。

超图构建模块406还用于对任一用户，根据节点交互数据中的用户-用户顶点矩阵，以用户的k跳邻居集合的用户集合为顶点集V，以任意多个顶点用户共同点击购买过的所有商品为超边集E；

通过遍历顶点集V和项目到用户的倒排表的所有交集，得到所有超边的节点；

根据顶点集V、超边集E以及超边集中每条超边的权重W，构建用户的迷你图超图G＝(V,E,W)；

将迷你图超图G用超图关联矩阵H表示，定义为：

模型数据输入模块410还用于根据用户-项目交互矩阵，确定用户关联的商品；根据用户关联的商品和项目-属性交互矩阵，确定用户关联的商品单词；根据商品单词确定用户对应的属性表征向量。

模型数据输入模块410还用于根据异质图注意力层中的学习参数、权重矩阵和偏置向量以及属性表征向量，计算属性对项目的第一注意力系数；根据第一注意力系数得到属性对项目的第一注意力分数；根据项目的关联属性和对应的第一注意力分数对属性加权得到项目的项目表征向量；根据异质图注意力层中的学习参数、权重矩阵和偏置向量以及项目表征向量，计算项目对用户的第二注意力系数；根据第二注意力系数得到项目对用户的第二注意力分数；根据用户的关联属性和对应的第二注意力分数对项目加权得到用户的用户表征向量X＝[x₁,,x₂,,...x_|V|]。

关于用户画像信息识别装置的具体限定可以参见上文中对于用户画像信息识别方法的限定，在此不再赘述。上述用户画像信息识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户画像信息识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种用户画像信息识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，对所述商品文本数据进行预处理，得到商品的单词语料库，并进一步得到属性表征向量，包括：

获取商品文本数据，并进行清洗；

3.根据权利要求2所述的方法，其特征在于，基于元路径感知算法，在所述异质图中进行抽样，得到节点交互数据，包括：

根据所述历史点击购买日志数据得到所有用户关联的商品表和项目到用户的倒排表；

根据所述历史点击购买日志数据得到所有用户的邻居表；

4.根据权利要求3所述的方法，其特征在于，根据所述历史点击购买日志数据和所述节点交互数据，对任一用户，以其k跳邻居集合的用户集合为顶点集，以任意多个顶点用户共同点击购买过的所有商品为超边集，根据所述顶点集、所述超边集以及所述超边集中每条超边的权重，构建所述用户的迷你图超图，并进一步得到超图关联矩阵，包括：

对任一用户，根据所述节点交互数据中的用户-用户顶点矩阵，以所述用户的k跳邻居集合的用户集合为顶点集V，以任意多个顶点用户共同点击购买过的所有商品为超边集E；

将所述迷你图超图G用超图关联矩阵H表示，定义为：