CN116662556A

CN116662556A - 一种融合用户属性的文本数据处理方法

Info

Publication number: CN116662556A
Application number: CN202310964402.2A
Authority: CN
Inventors: 董啸天; 李健增; 冯源; 张晓凡; 张振伟; 孟祥飞; 孙娜
Original assignee: Tianhe Supercomputing Huaihai Sub Center
Current assignee: Tianhe Supercomputing Huaihai Sub Center
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2023-08-29
Anticipated expiration: 2043-08-02
Also published as: CN116662556B

Abstract

本申请涉及电数字数据处理技术领域，特别是涉及一种融合用户属性的文本数据处理方法。该方法包括以下步骤：获取目标用户的文本数据A；遍历A₁，获取a_n,1对应的主题情感向量B_n,1；根据B_n,1获取第n个目标用户对应的第一表征向量V_n,1；获取第n个目标用户对应的第二表征向量V_n,2；根据V_n,1、a_n,2和V_n,2获取第n个目标用户对应的目标表征向量V_n；根据每一V_n对N个目标用户进行聚类，得到聚类结果C；获取待匹配的非数值型文本数据A’；遍历C和A’，将与c_j对应的非数值型文本数据匹配的a’_l作为c_j的目标文本数据。本发明使得各目标用户都能够获得与其需求较为匹配的信息。

Description

一种融合用户属性的文本数据处理方法

技术领域

本发明涉及电数字数据处理技术领域，特别是涉及一种融合用户属性的文本数据处理方法。

背景技术

用户生成内容作为一种新兴的信息形式，在信息传播、参与互动、创作、知识共享以及社会影响等方面发挥着重要作用且具有多重价值，充分的挖掘其中潜在的信息能够有助于获取用户的需求。当前对用户生成的文本信息的分析主要是提取其中的关键信息，但是，单纯进行用户生成的文本信息的分析无法全面理解用户的需求，也无法针对性地为用户推荐与其需求匹配的信息。

发明内容

本发明目的在于，提供一种融合用户属性的文本数据处理方法，以为用户推荐更为匹配的信息。

根据本发明，提供了一种融合用户属性的文本数据处理方法，包括以下步骤：

S100，获取目标用户的文本数据A，A=(A₁,A₂)，A₁为目标用户的非数值型文本数据，A₁=(a_1,1,a_2,1,…,a_n,1,…,a_N,1)，a_n,1为第n个目标用户的非数值型文本数据，A₂为目标用户的数值型文本数据，A₂=(a_1,2,a_2,2,…,a_n,2,…,a_N,2)，a_n,2为第n个目标用户的数值型文本数据；n的取值范围为1到N，N为目标用户的数量；所述非数值型文本数据为不只包括数值的文本数据；所述数值型文本数据为只包括数值的文本数据。

S200，遍历A₁，获取a_n,1对应的主题情感向量B_n,1，B_n,1=(b¹ _n,1,b² _n,1,…,b^m _n,1,…,b^M _n,1)，b^m _n,1为a_n,1对应的第m个主题的情感值，m的取值范围为1到M，M为a_n,1对应的主题数量。

S300，根据B_n,1获取第n个目标用户对应的第一表征向量V_n,1。

S400，获取第n个目标用户对应的第二表征向量V_n,2，V_n,2=(s¹ _n,2,s² _n,2,…,sⁱ _n,2,…,s^u _n,2)，sⁱ _n,2为第n个用户的第i个预设属性对应的元素值，i的取值范围为1到u，u为预设属性的数量。

S500，根据V_n,1、a_n,2和V_n,2获取第n个目标用户对应的目标表征向量V_n。

S600，根据每一V_n对N个目标用户进行聚类，得到聚类结果C，C=(c₁,c₂,…,c_j,…,c_k)，c_j为聚类得到的第j个簇，j的取值范围为1到k，k为聚类得到的簇的数量；c_j=(c_j,1,c_j,2,…,c_j,e,…,c_j,E)，c_j,e为c_j包括的第e个目标用户，e的取值范围为1到E，E为c_j包括的目标用户的数量。

S700，获取待匹配的非数值型文本数据A’，A’=(a’₁,a’₂,…,a’_l,…,a’_L)，a’_l为第l个待匹配的非数值型文本数据，l的取值范围为1到L，L为待匹配的非数值型文本数据的数量。

S800，遍历C和A’，将与c_j对应的非数值型文本数据匹配的a’_l作为c_j的目标文本数据。

本发明与现有技术相比，其至少具有以下有益效果：

本发明获取了目标用户的非数值型文本数据和数值型文本数据，对于目标用户的非数值型文本数据，本发明得到了其对应的主题情感向量，并基于该主题情感向量得到了目标用户的第一表征向量；在目标用户的第一表征向量和目标用户的数值型文本数据的基础上，本发明还获取了与目标用户的属性相关的目标用户的第二表征向量，该第二表征向量用于表征对应目标用户的属性信息；本发明结合了第一表征向量、数值型文本数据和第二表征向量得到了目标用户对应的目标表征向量，该目标表征向量融合了目标用户的非数值型文本、数值型文本和目标用户的属性三方面的数据；本发明将各目标用户对应的目标表征向量作为对目标用户进行聚类的基础，由此得到的同一个簇中目标用户的属性和对应的文本的相似性较高，对应的需求差异较小；不同簇中目标用户的属性和对应的文本的相似性较低，对应的需求差异较大；对于同一簇中的目标用户，本发明将待匹配的非数值型文本数据中与该簇匹配的非数值型文本作为与该簇中各目标用户匹配的文本数据，使得各目标用户都能够获得与其较为匹配的文本数据，使得各目标用户都能够获得与其需求较为匹配的信息。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的融合用户属性的文本数据处理方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明，提供了一种融合用户属性的文本数据处理方法，包括以下步骤，如图1所示：

具体的，a_n,2=(a¹ _n,2,a² _n,2,…,a^t _n,2,…,a^T _n,2)，a^t _n,2为a_n,2包括的第t个数值型数据，t的取值为1到T，T为a_n,2包括的数值型数据的数量。本实施例中不同目标用户对应的数值型文本数据的序列长度相同，不同目标用户对应的数值型文本数据的序列中同一位置对应的元素之间具有对应关系，不同目标用户对应的数值型文本数据的序列中同一位置对应的元素大小可能存在差异。

作为一个具体实施方式，a_n,1和a_n,2通过对第n个目标用户进行问卷调查的方式得到，问卷中包括两种类型的题目，其中第一种类型的题目为问答题，a_n,1由第n个目标用户对第一种类型的答复结果得到；第二种类型的题目为选择题，a_n,2由第n个目标用户对第二种类型的答复结果得到，a^t _n,2也即第n个目标用户对第t个第二种类型的题目的答复结果，可选的，目标用户对第二种类型的题目的答复结果为1（对应第一个选项）、2（对应第二个选项）、3（对应第三个选项）或4（对应第四个选项），或者目标用户对第二种类型的题目的答复结果为第一个选项中的数值、第二个选项中的数值、第三个选项中的数值或第四个选项中的数值。目标用户对调查问卷的答复结果可以反应目标用户的需求，根据不同目标用户对同一目标问卷的答复结果可以用于判断哪些目标用户的需求较为相似。

优选的，A₁为经过数据清洗处理后的非数值型文本，所述数据清洗处理包括缺失值处理、异常值处理、重复值处理、相关领域停用词处理等。

具体的，S200包括：

S210，使用经训练的XLNet模型获取a_n,1对应的语义向量q_n,1；q_n,1由a_n,1包括的每一个词的词向量相加求平均得到。

本实施例使用经训练的XLNet模型获取a_n,1中每一个词的词向量，可选的，每一个词向量为768维的特征向量；通过将词向量相加取平均的方式，可以得到q_n,1。本领域技术人员知悉，现有技术中任何的使用XLNet模型实现文本向量化的方法均落入本发明的保护范围。

S220，使用经训练的BiLSTM模型获取q_n,1对应的隐层状态Q_n,1。

本实施例将q_n,1输入至经训练的BiLSTM模型，以由经训练的BiLSTM模型提取上下文相关特征，对a_n,1的深层语义进行分析和计算。本领域技术人员知悉，现有技术中任何的使用BiLSTM模型获取隐层状态的方法均落入本发明的保护范围。

S230，将Q_n,1和H_n,1作为自注意力机制的输入，得到自注意力机制的输出H’_n,1；H_n,1为a_n,1对应的主题词的词向量。

由于不同的特征对情感倾向的贡献度上是不同的，因此本实施例将H_n,1作为Q_n,1的约束，引入自注意力机制根据特征重要程度赋予不同权重；本领域技术人员知悉，现有技术中任何的使用自注意力机制获取文本数据中的重要特征信息的方法均落入本发明的保护范围。

具体的，H_n,1的获取过程包括以下步骤：

S231，将M和a_n,1输入至LDA主题模型，得到a_n,1对应的M个主题的主题词P_n；P_n=(P¹ _n,P² _n,…,P^m _n,…,P^M _n)，P^m _n为a_n,1对应的第m个主题的主题词，P^m _n=(p^m _n,1,p^m _n,2,…,p^m _n,r,…,p^m _n,R)，p^m _n,r为a_n,1对应的第m个主题的第r个主题词，r的取值范围为1到R，R为a_n,1对应的第m个主题的主题词数量。

优选的，M的获取过程包括：利用主题一致性分数、困惑度或主题间余弦相似度最小方法确定最优主题个数；利用轮廓系数、误差平方和（SSE）和Davies-Bouldin Index指数确定最佳聚类个数；如果最优主题个数与最佳聚类个数相等，则将最优主题个数的值赋予M；如果最优主题个数与最佳聚类个数不相等，则分别获取最优主题个数对应的综合指标值与最佳聚类个数对应的综合指标值，如果最优主题个数对应的综合指标值较优，则将最优主题个数的值赋予M；如果最佳聚类个数对应的综合指标值较优，则将最佳聚类个数的值赋予M；上述综合指标为主题一致性分数、困惑度、主题间余弦相似度、轮廓系数、误差平方和以及Davies-Bouldin Index指数，可通过为各指标赋予权重的方式来得到综合指标值。

S232，遍历P_n，使用经训练的XLNet模型获取p^m _n,r的词向量h^m _n,r，并将h^m _n,r追加至预设的a_n,1对应的第m个主题的词向量序列h^m _n，得到h^m _n=(h^m _n,1,h^m _n,2,…,h^m _n,r,…,h^m _n,R)；h^m _n的初始化为空值。

S233，获取H_n,1，H_n,1=(h¹ _n,h² _n,…,h^m _n,…,h^M _n)。

S240，使用softmax函数获取H’_n,1对应的各主题的情感值。

本领域技术人员知悉，现有技术中任何的使用softmax函数获得不同主题的情感值的方法均落入本发明的保护范围。

S300，根据B_n,1获取第n个目标用户对应的第一表征向量V_n,1。

优选的，S300包括：

S310，获取B_n,1中属于第一预设区间的主题情感值的数量λ₁；所述第一预设区间对应的主题情感值表征的是消极情感。

本实施例中情感值的取值范围为(0,1)。作为一种具体的实施方式，第一预设区间为[0,0.3]。

S320，获取B_n,1中属于第二预设区间的主题情感值的数量λ₂；所述第二预设区间对应的主题情感值表征的是积极情感。

作为一种具体的实施方式，第二预设区间为[0.7,1]。如果B_n,1中某主题情感值既不属于第一预设区间，也不属于第二预设区间，那么该主题情感值表征的是中立情感。

S330，获取第n个目标用户对应的情感倾向值λ₀，λ₀=(λ₁+λ₂)/M。

S340，获取a_n,1对应的第m个主题的主题词平均向量x_m；x_m由a_n,1对应的第m个主题的词向量相加求平均得到。

S350，获取a_n,1对应的主题平均向量y_n,1；y_n,1由a_n,1对应的M个主题的主题词平均向量相加求平均得到。

S360，获取第n个目标用户与其他目标用户的非数值型文本相似度sim_n，sim_n由第n个目标用户与任一其他目标用户的主题平均向量相似度相加求平均得到。

本领域技术人员知悉，现有技术中任何的获取两向量之间相似度的方法均落入本发明的保护范围。

S370，获取V_n,1，V_n,1=(λ₀,sim_n,M)或V_n,1=(λ₀,M,sim_n)或V_n,1=(sim_n,λ₀,M)或V_n,1=(sim_n,M,λ₀)或V_n,1=(M,sim_n,λ₀)或V_n,1=(M,λ₀,sim_n)。

根据S310-S370得到的V_n,1能够表征a_n,1包括的主题数量、第n个目标用户与其他目标用户的非数值型文本的相似度和第n个目标用户的情感倾向，反应的是目标用户的需求的多样性、普遍性和情感倾向；基于该V_n,1得到的目标表征向量V_n能够更准确地表征第n个目标用户，有利于提高第n个目标用户与后期为其匹配的目标文本数据之间的匹配度，能够更好地满足第n个目标用户的需求。

本实施例中不同目标用户对应的第二表征向量的长度相同，不同目标用户对应的第二表征向量中同一位置对应的元素之间具有对应关系，不同目标用户对应的第二表征向量中同一位置对应的元素大小可能存在差异。

作为一个具体实施方式，u=3，第一个预设属性为用户的企业的规模，第二个预设属性为用户的企业的类别，第三个预设属性为用户的企业的注册资金；不同规模对应的数值不同，不同类别对应的数值也不同，可以根据不同目标用户对应的第二表征向量之间的差异判断不同目标用户之间的属性差异。

具体的，S500包括：

S510，获取第n个目标用户对应的初始表征向量V’_n，V’_n=(V_n,1,a_n,2,V_n,2)或V’_n=(V_n,1,V_n,2,a_n,2)或V’_n=(a_n,2,V_n,2,V_n,1)或V’_n=(a_n,2,V_n,1,V_n,2)或V’_n=(V_n,2,a_n,2,V_n,1)或V’_n=(V_n,2,V_n,1,a_n,2)。

S520，对V’_n中每一元素进行归一化处理，得到V_n。

本领域技术人员知悉，现有技术中任何的归一化处理方法均落入本发明的保护范围。

优选的，先利用轮廓系数、误差平方和（SSE）和Davies-Bouldin Index指数确定最佳聚类个数k，然后再利用k-means聚类方法进行聚类，其中，将每一目标用户作为一个对象，任意两个目标用户之间的距离与该两个目标用户对应的目标表征向量之间的相似度负相关。

本实施例中A’为由拟向用户推荐的所有文本数据构成的序列。优选的，A’为经过数据清洗处理后的非数值型文本，所述数据清洗处理包括缺失值处理、异常值处理、重复值处理、相关领域停用词处理等。作为一个具体的实施方式，A’为包括针对性解决不同用户需求的策略在内的非数值型文本。

具体的，S800包括：

S810，获取c_j对应的非数值型文本数据G_j，G_j=(g_j,1,g_j,2,…,g_j,e,…,g_j,E)，g_j,e为A₁中c_j,e对应的非数值型文本数据。

应当理解的是，c_j中每一目标用户对应的非数值文本数据均出现在A₁中。

S820，遍历G_j，获取g_j,e对应的语义向量f_j,e。

本实施例使用经训练的XLNet模型获取g_j,e中每一个词的词向量，可选的，每一个词向量为768维的特征向量；通过将词向量相加取平均的方式，可以得到f_j,e。本领域技术人员知悉，现有技术中任何的使用XLNet模型实现文本向量化的方法均落入本发明的保护范围。

S830，遍历A’，获取a’_l对应的语义向量f’_l。

本实施例使用经训练的XLNet模型获取a’_l中每一个词的词向量，可选的，每一个词向量为768维的特征向量；通过将词向量相加取平均的方式，可以得到f’_l。本领域技术人员知悉，现有技术中任何的使用XLNet模型实现文本向量化的方法均落入本发明的保护范围。

S840，获取g_j,e与a’_l的语义相似度w^l _j,e。

本领域技术人员知悉，现有技术中任何获取两向量之间相似度的方法均落入本发明的保护范围。

S850，获取c_j与a’_l的语义相似度w^l，w^l=(∑^E _e=1w^l _j,e)/E。

本实施例中c_j与a’_l的语义相似度w^l为c_j包括的所有目标用户对应的非数值型文本数据与a’_l的语义相似度的平均值。

S860，获取c_j对应的语义相似度序列w，w=(w¹,w²,…,w^l,…,w^L)。

S870，将max(w)对应的A’中待匹配的非数值型文本数据判定为与c_j对应的非数值型文本数据匹配的a’_l，max( )为取最大值。

本实施例中max(w)为w中最大的语义相似度，与c_j对应的非数值型文本数据匹配的a’_l即向c_j中各目标用户推荐的目标文本数据。

本实施例获取了目标用户的非数值型文本数据和数值型文本数据，对于目标用户的非数值型文本数据，本实施例得到了其对应的主题情感向量，并基于该主题情感向量得到了目标用户的第一表征向量；在目标用户的第一表征向量和目标用户的数值型文本数据的基础上，本实施例还获取了与目标用户的属性相关的目标用户的第二表征向量，该第二表征向量用于表征对应目标用户的属性信息；本实施例结合了第一表征向量、数值型文本数据和第二表征向量得到了目标用户对应的目标表征向量，该目标表征向量融合了目标用户的非数值型文本、数值型文本和目标用户的属性三方面的数据；本实施例将各目标用户对应的目标表征向量作为对目标用户进行聚类的基础，由此得到的同一个簇中目标用户的属性和对应的文本的相似性较高，对应的需求差异较小；不同簇中目标用户的属性和对应的文本的相似性较低，对应的需求差异较大；对于同一簇中的目标用户，本实施例将待匹配的非数值型文本数据中与该簇匹配的非数值型文本作为与该簇中各目标用户匹配的文本数据，使得各目标用户都能够获得与其较为匹配的文本数据，使得各目标用户都能够获得与其需求较为匹配的信息。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明的范围由所附权利要求来限定。

Claims

1.一种融合用户属性的文本数据处理方法，其特征在于，包括以下步骤：

S100，获取目标用户的文本数据A，A=(A₁,A₂)，A₁为目标用户的非数值型文本数据，A₁=(a_1,1,a_2,1,…,a_n,1,…,a_N,1)，a_n,1为第n个目标用户的非数值型文本数据，A₂为目标用户的数值型文本数据，A₂=(a_1,2,a_2,2,…,a_n,2,…,a_N,2)，a_n,2为第n个目标用户的数值型文本数据；n的取值范围为1到N，N为目标用户的数量；所述非数值型文本数据为不只包括数值的文本数据；所述数值型文本数据为只包括数值的文本数据；

S200，遍历A₁，获取a_n,1对应的主题情感向量B_n,1，B_n,1=(b¹ _n,1,b² _n,1,…,b^m _n,1,…,b^M _n,1)，b^m _n,1为a_n,1对应的第m个主题的情感值，m的取值范围为1到M，M为a_n,1对应的主题数量；

S300，根据B_n,1获取第n个目标用户对应的第一表征向量V_n,1；

S400，获取第n个目标用户对应的第二表征向量V_n,2，V_n,2=(s¹ _n,2,s² _n,2,…,sⁱ _n,2,…,s^u _n,2)，sⁱ _n,2为第n个用户的第i个预设属性对应的元素值，i的取值范围为1到u，u为预设属性的数量；

S500，根据V_n,1、a_n,2和V_n,2获取第n个目标用户对应的目标表征向量V_n；

S600，根据每一V_n对N个目标用户进行聚类，得到聚类结果C，C=(c₁,c₂,…,c_j,…,c_k)，c_j为聚类得到的第j个簇，j的取值范围为1到k，k为聚类得到的簇的数量；c_j=(c_j,1,c_j,2,…,c_j,e,…,c_j,E)，c_j,e为c_j包括的第e个目标用户，e的取值范围为1到E，E为c_j包括的目标用户的数量；

S700，获取待匹配的非数值型文本数据A’，A’=(a’₁,a’₂,…,a’_l,…,a’_L)，a’_l为第l个待匹配的非数值型文本数据，l的取值范围为1到L，L为待匹配的非数值型文本数据的数量；

2.根据权利要求1所述的融合用户属性的文本数据处理方法，其特征在于，S800包括：

S810，获取c_j对应的非数值型文本数据G_j，G_j=(g_j,1,g_j,2,…,g_j,e,…,g_j,E)，g_j,e为A₁中c_j,e对应的非数值型文本数据；

S820，遍历G_j，获取g_j,e对应的语义向量f_j,e；

S830，遍历A’，获取a’_l对应的语义向量f’_l；

S840，获取g_j,e与a’_l的语义相似度w^l _j,e；

S850，获取c_j与a’_l的语义相似度w^l，w^l=(∑^E _e=1w^l _j,e)/E；

S860，获取c_j对应的语义相似度序列w，w=(w¹,w²,…,w^l,…,w^L)；

3.根据权利要求1所述的融合用户属性的文本数据处理方法，其特征在于，S200包括：

S210，使用经训练的XLNet模型获取a_n,1对应的语义向量q_n,1；q_n,1由a_n,1包括的每一个词的词向量相加求平均得到；

S220，使用经训练的BiLSTM模型获取q_n,1对应的隐层状态Q_n,1；

S230，将Q_n,1和H_n,1作为自注意力机制的输入，得到自注意力机制的输出H’_n,1；H_n,1为a_n,1对应的主题词的词向量；

S240，使用softmax函数获取H’_n,1对应的各主题的情感值。

4.根据权利要求3所述的融合用户属性的文本数据处理方法，其特征在于，H_n,1的获取过程包括以下步骤：

S231，将M和a_n,1输入至LDA主题模型，得到a_n,1对应的M个主题的主题词P_n；P_n=(P¹ _n,P² _n,…,P^m _n,…,P^M _n)，P^m _n为a_n,1对应的第m个主题的主题词，P^m _n=(p^m _n,1,p^m _n,2,…,p^m _n,r,…,p^m _n,R)，p^m _n,r为a_n,1对应的第m个主题的第r个主题词，r的取值范围为1到R，R为a_n,1对应的第m个主题的主题词数量；

S232，遍历P_n，使用经训练的XLNet模型获取p^m _n,r的词向量h^m _n,r，并将h^m _n,r追加至预设的a_n,1对应的第m个主题的词向量序列h^m _n，得到h^m _n=(h^m _n,1,h^m _n,2,…,h^m _n,r,…,h^m _n,R)；h^m _n的初始化为空值；

S233，获取H_n,1，H_n,1=(h¹ _n,h² _n,…,h^m _n,…,h^M _n)。

5.根据权利要求1所述的融合用户属性的文本数据处理方法，其特征在于，S300包括：

S310，获取B_n,1中属于第一预设区间的主题情感值的数量λ₁；所述第一预设区间对应的主题情感值表征的是消极情感；

S320，获取B_n,1中属于第二预设区间的主题情感值的数量λ₂；所述第二预设区间对应的主题情感值表征的是积极情感；

S330，获取第n个目标用户对应的情感倾向值λ₀，λ₀=(λ₁+λ₂)/M；

S340，获取a_n,1对应的第m个主题的主题词平均向量x_m；x_m由a_n,1对应的第m个主题的词向量相加求平均得到；

S350，获取a_n,1对应的主题平均向量y_n,1；y_n,1由a_n,1对应的M个主题的主题词平均向量相加求平均得到；

S360，获取第n个目标用户与其他目标用户的非数值型文本相似度sim_n，sim_n由第n个目标用户与任一其他目标用户的主题平均向量相似度相加求平均得到；

6.根据权利要求1所述的融合用户属性的文本数据处理方法，其特征在于，a_n,2=(a¹ _n,2,a² _n,2,…,a^t _n,2,…,a^T _n,2)，a^t _n,2为a_n,2包括的第t个数值型数据，t的取值为1到T，T为a_n,2包括的数值型数据的数量。

7.根据权利要求1所述的融合用户属性的文本数据处理方法，其特征在于，S500包括：

S510，获取第n个目标用户对应的初始表征向量V’_n，V’_n=(V_n,1,a_n,2,V_n,2)或V’_n=(V_n,1,V_n,2,a_n,2)或V’_n=(a_n,2,V_n,2,V_n,1)或V’_n=(a_n,2,V_n,1,V_n,2)或V’_n=(V_n,2,a_n,2,V_n,1)或V’_n=(V_n,2,V_n,1,a_n,2)；

S520，对V’_n中每一元素进行归一化处理，得到V_n。