CN115600945A

CN115600945A - 基于多粒度的冷链配载用户画像构建方法及装置

Info

Publication number: CN115600945A
Application number: CN202211092866.0A
Authority: CN
Inventors: 李翔; 张宁; 任柯; 孙纪舟; 肖绍章; 朱全银; 周泓; 谢乾; 陈帅; 徐伟; 杨秋实; 洪玉昆; 费晶茹; 张曼
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2022-09-07
Filing date: 2022-09-07
Publication date: 2023-01-13
Anticipated expiration: 2042-09-07
Also published as: CN115600945B

Abstract

本发明公开了一种基于多粒度的冷链配载用户画像构建方法及装置，先对原始的冷链配载数据集预处理；将预处理后的冷链配载数据集输入到FNet模型中，提取冷链配载数据特征；使用DTM模型、TMKGE模型提取冷链配载数据集中的主题词；对FNet模型提取的结果及DTM模型、TMKGE模型提取到的主题词使用WordNet进行标签相似度计算，根据相似度计算结果扩展补充FNet模型提取结果，完成冷链配载用户画像的标签提取；依据最终标签提取结果，获得模型的标签提取，进而构建冷链配载用户画像。本发明能够有效地提取数据的动态主题及共享信息，有效地扩展冷链配载数据的标签，解决冷链配载用户画像建模中标签特征不全面的问题。

Description

基于多粒度的冷链配载用户画像构建方法及装置

技术领域

本发明属于冷链配载用户画像和多粒度标签扩展技术领域，特别涉及一种基于多粒度的冷链配载用户画像构建方法及装置。

背景技术

近年来，画像已成为世界各国研究的特点，正日益引起业界、学术界的广泛关注，更重要的是，它还是众多应用的关键技术之一。

在现有的画像建模技术中，对如何构建基于多粒度的用户画像的研究相当有限，并且存在如下不足：1、随着冷链配载数据特征的复杂性激增，传统用户画像构建方法难以全面地刻画其特征；2、由于冷链数据的复杂多样性，仅仅依靠现有的词向量表征方法，很难对冷链领域中的专业术语以及其他冷链领域内相关字词的语义进行充分表征，并且存在较大噪声干扰；3、传统用户画像构建方法大部分为静态，忽略了数据为动态变化的特点，导致用户画像没有时效性。

针对这些问题，本发明中的多粒度用户画像构建方法对传统的用户画像构建方法有重要的作用和意义。

发明内容

发明目的：针对上述问题，本发明提供了一种基于多粒度的冷链配载用户画像构建方法及装置，能够有效地构建多粒度用户画像，解决用户画像建模中用户特征不全面的问题。

技术方案：本发明提出一种基于多粒度的冷链配载用户画像构建方法，包括如下步骤：

步骤1：输入原始的冷链配载数据集D1，对数据集进行去重、去空，清洗后得到样本集D2；

步骤2：使用FNet模型，将样本集D2作为模型的输入，提取冷链配载数据特征；

步骤3：使用DTM模型、TMKGE模型对样本集D2提取主题词；

步骤4：首先对FNet模型提取的结果及DTM模型、TMKGE模型提取到的主题词使用WordNet进行标签相似度计算；

步骤5：根据相似度计算结果扩展补充FNet模型提取结果，最后完成冷链配载用户画像的标签提取，获得模型的标签提取，进而构建冷链配载用户画像。

进一步地，所述步骤1的具体方法为：

步骤1.1：定义Data为单个待清洗数据，定义id，content分别为数据的序号和内容，并且满足关系Data＝{id，content}；

步骤1.2：定义D1为待清洗数据集，D1＝{Data₁，Data₂，...，Data_a，...，Data_len(D1)}，Data_a为D1中第a个待清洗信息数据，其中，len(D1)为D1中数据数量，变量a∈[1，len(D1)]；

步骤1.3：数据集D1中的数据进行去重和去空操作；

步骤1.4：得到清洗后的数据集D2＝{D₁，D₂，...，D_b，...，D_len(D2)}，D_b为D2中第b个待处理信息数据，其中，len(D2)为D2中数量，变量b∈[1，len(D2)]。

进一步地，所述步骤2的具体方法为：

步骤2.1：样本集D2＝{D₁，D₂，...，D_b，...，D_len(D2)}，将待处理文本内容D_b固定为统一长度L_max；

步骤2.2：定义循环变量i，且i赋初值为1；

步骤2.3：如果i≤len(D2)则跳转到步骤2.4，否则跳转到步骤2.10；

步骤2.4：定义len(D_i)为文本中第i个文本信息的长度，如果len(D_i)+2≤L_max则补0后跳转下一步，否则截取文本前L_max个单位，跳转下一步；

步骤2.5：建立预训练模型FNet，将样本集传入FNet模型中，该模型每层都由一个傅立叶混合子层和一个前馈子层组成；

步骤2.6：对输入的原有样本序列的全部信息进行傅里叶变换；

步骤2.7：将变换结果输入到前馈子层；

步骤2.8：获取文本的特征向量T1；

步骤2.9：i＝i+1，跳转到步骤2.3；

步骤2.10：结束循环，输出全部特征向量序列T1＝{T₁，T₂，...，T_c，...，T_len(T1)}。

进一步地，所述步骤3的具体方法为：

步骤3.1：样本集D2＝{D₁，D₂，...，D_b，...，D_len(D2)}，其中，D_b包含单词w和实体e，满足关系D_b＝{w，e}；

步骤3.2：对样本集D2中的冷链配载数据进行分词处理，得到样本集D3；

步骤3.3：使用DTM模型提取冷链配载样本集D3中的主题词，得到提取的主题词K1；

步骤3.4：使用TMKGE模型提取冷链配载样本集D3中的主题词，得到提取的主题词K2；

步骤3.5：融合DTM模型及TMKGE模型提取到的主题词K1、K2，得到主题词集合K3。

进一步地，所述步骤4的具体方法为：

步骤4.1：FNet模型提取到的特征向量序列T1＝{T₁，T₂，...，T_c，...，T_len(T1)}；

步骤4.2：DTM模型和TMKGE模型融合后的主题词集合K3＝{K₁，K₂，，...，K_d，...，K_len(K3)}；

步骤4.3：定义循环变量k，且k赋初值为0；

步骤4.4：如果k＜len(T1)，则跳转到下一步，否则跳转到步骤4.11；

步骤4.5：定义循环变量j，且j赋初值为0；

步骤4.6：如果j＜len(K3)，则跳转到下一步，否则跳转到步骤4.10；

步骤4.7：将主题词集合K_j与FNet模型提取到的特征向量序列T_k使用WordNet进行标签相似度计算；

步骤4.8：保留相似度最低的计算结果为R，依据此结果扩展标签集合，增加用户画像的粒度；

步骤4.9：j＝j+1，跳转到步骤4.6；

步骤4.10：k＝k+1，跳转到步骤4.4；

步骤4.11结束循环，最终依据标签相似度计算结果，得到R＝{R₁，R₂，...，R_e，...，R_len(R)}。

进一步地，所述步骤5的具体方法为：

步骤5.1：将标签相似度计算结果序列R补充到FNet模型提取到的特征向量序列T1中；

步骤5.2：得到最终补充过的冷链配载标签集S＝{S₁，S₂，...，S_f，...，S_len(S)}；

步骤5.3：依据最终获得的冷链配载标签集构建基于多粒度的冷链配载用户画像；

步骤5.4：使用词云图将构建出的冷链配载用户画像可视化；

步骤5.5：将模型保存封装，作为多粒度画像的构建方法。

本发明还公开一种基于多粒度的冷链配载用户画像构建装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时执行上述基于多粒度的冷链配载用户画像构建方法的步骤。。

有益效果：

1、本发明对于冷链配载用户画像，更关注于补充扩展冷链配载用户画像的标签，并且对新的数据具有良好的泛化能力。冷链配载数据集的特征具有多样性和复杂性，不同粒度的信息对其构建用户画像的结果也不完全相同，对提取到的特征进行标签扩展有助于多粒度化冷链配载用户画像。

2、本发明利用FNet模型提取冷链配载数据的特征，特别对于长文本的冷链配载数据，FNet模型不仅在确保了精度的前提下提高了训练速度，内存占有还小。对于固定的速度和精度预算，FNet模型更优。

3、本发明利用TMKGE允许在知识图和文档之间灵活地共享信息，这是一个重要的优势，因为在实践中只有部分关系信息可用，因此严格强制主题和实体混合共享组件可能会降低模型正确恢复数据潜在结构的能力。

4、本发明利用DTM模型提取冷链配载数据的动态主题，DTM模型引入了时间维度，不同主题会随着时间变动而变动，可以更好的建模主题在时间序列上的发展和演变。

5、本发明利用DTM模型和TMKGE模型提取冷链配载数据主题词，在实际应用中，包含的信息更丰富，尤其像冷链配载用户画像多粒度大型语料文本上，可以提取冷链配载领域见的动态信息和共享信息等，大大扩展了数据的标签。

附图说明

图1为本发明整体流程图；

图2为数据清洗流程图；

图3为使用FNet模型提取冷链配载数据特征向量流程图；

图4为使用DTM模型和TMKGE模型提取冷链配载数据主题词流程图；

图5为使用WordNet计算两种结果的相似度流程图；

图6为经过标签扩展后冷链配载用户画像构建流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明公开了一种基于多粒度的冷链配载用户画像构建方法及装置。适用于冷链配载用户画像构建问题。这种模型算法主要是先对原始的冷链配载数据集预处理；将预处理后的冷链配载数据集输入到FNet模型中，提取冷链配载数据特征；然后，使用DTM模型、TMKGE模型提取冷链配载数据集中的主题词；接着，对FNet模型提取的结果及DTM模型、TMKGE模型提取到的主题词使用WordNet进行标签相似度计算，根据相似度计算结果扩展补充FNet模型提取结果，完成冷链配载用户画像的标签提取；最后，依据最终标签提取结果，获得模型的标签提取，进而构建冷链配载用户画像。能够有效地提取数据的动态主题及共享信息，有效地扩展冷链配载数据的标签，解决冷链配载用户画像建模中标签特征不全面的问题。具体包括如下步骤：

步骤1：输入原始的冷链配载数据集D1，对数据集进行去重、去空，清洗后得到样本集D2，具体的如图2所示：

步骤1.1：定义Data为单个待清洗数据，定义id，content分别为数据的序号和内容，并且满足关系Data＝{id，content}。

步骤1.2：定义D1为待清洗数据集，D1＝{Data₁，Data₂，...，Data_a，...，Data_len(D1)}，Data_a为D1中第a个待清洗信息数据，其中，len(D1)为D1中数据数量，变量a∈[1，len(D1)]。

步骤1.3：数据集D1中的数据进行去重和去空操作。

步骤2：使用FNet模型，将样本集D2作为模型的输入，提取冷链配载数据特征，具体的如图3所示：

步骤2.1：定义样本集D2＝{D₁，D₂，...，D_b，...，D_len(D2)}，将待处理文本内容D_b固定为统一长度L_max。

步骤2.2：定义循环变量i，且i赋初值为1。

步骤2.3：如果i≤len(D2)则跳转到步骤2.4，否则跳转到步骤2.10。

步骤2.4：定义len(D_i)为文本中第i个文本信息的长度，如果len(D_i)+2≤L_max则补0后跳转下一步，否则截取文本前L_max个单位，跳转下一步。

步骤2.5：建立预训练模型FNet，将样本集传入FNet模型中，该模型每层都由一个傅立叶混合子层和一个前馈子层组成。

步骤2.6：对输入的原有样本序列的全部信息进行傅里叶变换。

步骤2.7：将变换结果输入到前馈子层。

步骤2.8：获取文本的特征向量T1。

步骤2.9：i＝i+1，跳转到步骤2.3。

步骤3：使用DTM模型、TMKGE模型对样本集D2提取主题词，具体的如图4所示：

步骤3.1：定义样本集D2＝{D₁，D₂，...，D_b，...，D_len(D2)}，其中，D_b包含单词w和实体e，满足关系D_b＝{w，e}。

步骤3.2：对样本集D2中的冷链配载数据进行分词处理，得到样本集D3。

步骤3.3：使用DTM模型提取冷链配载样本集D3中的主题词。

步骤3.4：使用TMKGE模型提取冷链配载样本集D3中的主题词。

步骤3.5：DTM模型得到提取的主题词K1。

步骤3.6：TMKGE模型得到提取的主题词K2。

步骤3.7：融合DTM模型及TMKGE模型提取到的主题词K1、K2，得到主题词集合K3。

步骤4：首先对FNet模型提取的结果及DTM模型、TMKGE模型提取到的主题词使用WordNet进行标签相似度计算，然后根据相似度计算结果扩展补充FNet模型提取结果，最后完成冷链配载用户画像的标签提取，具体的如图5所示：

步骤4.1：定义FNet模型提取到的特征向量序列T1＝{T₁，T₂，...，T_c，...，T_len(TI)}。

步骤4.2：定义DTM模型和TMKGE模型融合后的主题词集合K3＝{K₁，K₂，...，K_d，...，K_len(K3)}。

步骤4.3：定义循环变量k，且k赋初值为0。

步骤4.4：如果k＜len(T1)，则跳转到下一步，否则跳转到步骤4.11。

步骤4.5：定义循环变量j，且j赋初值为0。

步骤4.6：如果j＜len(K3)，则跳转到下一步，否则跳转到步骤4.10。

步骤4.7：将主题词集合K_j与FNet模型提取到的特征向量序列T_k使用WordNet进行标签相似度计算。

步骤4.8：相似度越高，代表标签语义越相似，相似度越低，代表标签语义越不同，保留相似度最低的计算结果为R，依据此结果扩展标签集合，增加用户画像的粒度。

步骤4.9：j＝j+1，跳转到步骤4.6。

步骤4.10：k＝k+1，跳转到步骤4.4。

步骤5：依据最终标签提取结果，获得模型的标签提取，进而构建冷链配载用户画像，具体的如图6所示：

步骤5.1：将标签相似度计算结果序列R补充到FNet模型提取到的特征向量序列T1中。

步骤5.2：得到最终补充过的冷链配载标签集S＝{S₁，S₂，...，S_f，...，S_1en(S)}。

步骤5.3：依据最终获得的冷链配载标签集构建基于多粒度的冷链配载用户画像。

步骤5.4：使用词云图将构建出的冷链配载用户画像可视化。

步骤5.5：将模型保存封装，作为多粒度画像的构建方法。

下表为本申请中的相关变量说明：

本发明可与计算机系统结合成为基于多粒度的冷链配载用户画像构建装置，装置包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，计算机程序被加载至处理器时实现上述基于多粒度的冷链配载用户画像构建方法。

上述实施方式只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于多粒度的冷链配载用户画像构建方法，其特征在于，包括如下步骤：

步骤3：使用DTM模型、TMKGE模型对样本集D2提取主题词；

2.根据权利要求1所述的基于多粒度的冷链配载用户画像构建方法，其特征在于，所述步骤1的具体方法为：

步骤1.3：数据集D1中的数据进行去重和去空操作；

3.根据权利要求1所述的基于多粒度的冷链配载用户画像构建方法，其特征在于，所述步骤2的具体方法为：

步骤2.2：定义循环变量i，且i赋初值为1；

步骤2.7：将变换结果输入到前馈子层；

步骤2.8：获取文本的特征向量T1；

步骤2.9：i＝i+1，跳转到步骤2.3；

4.根据权利要求1所述的基于多粒度的冷链配载用户画像构建方法，其特征在于，所述步骤3的具体方法为：

5.根据权利要求1所述的基于多粒度的冷链配载用户画像构建方法，其特征在于，所述步骤4的具体方法为：

步骤4.2：DTM模型和TMKGE模型融合后的主题词集合K3＝{K₁，K₂，...，K_d，...，K_len(x3)}；

步骤4.3：定义循环变量k，且k赋初值为0；

步骤4.5：定义循环变量j，且j赋初值为0；

步骤4.9：j＝j+1，跳转到步骤4.6；

步骤4.10：k＝k+1，跳转到步骤4.4；

6.根据权利要求1所述的基于多粒度的冷链配载用户画像构建方法，其特征在于，所述步骤5的具体方法为：

步骤5.4：使用词云图将构建出的冷链配载用户画像可视化；

步骤5.5：将模型保存封装，作为多粒度画像的构建方法。

7.一种基于多粒度的冷链配载用户画像构建装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时执行权利要求1-6任一项所述的基于多粒度的冷链配载用户画像构建方法的步骤。