CN114218380B

CN114218380B - 基于多模态的冷链配载用户画像标签抽取方法及装置

Info

Publication number: CN114218380B
Application number: CN202111471016.7A
Authority: CN
Inventors: 李翔; 张宁; 谢乾; 朱全银; 高尚兵; 马甲林; 王媛媛; 丁行硕; 束玮; 张豪杰; 丁婧娴; 张曼; 费晶茹; 洪玉昆; 杨秋实; 徐伟
Original assignee: Huaiyin Institute of Technology
Current assignee: Yami Technology Guangzhou Co ltd
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-07-29
Anticipated expiration: 2041-12-03
Also published as: CN114218380A

Abstract

本发明公开了一种基于多模态的冷链配载用户画像标签抽取方法及装置，将带标签的文本集作为BERT模型的输入，并利用长短期记忆网络进一步提取特征；使用YOLO提取图片特征，将提取的双模态特征使用激活函数tanh与其他模态嵌入的关联表示进行补充，并将补充过后的双模态特征向量进行拼接，将其与双模态条件向量进行矩阵相乘，结果作为Softmax函数输入得到双模态交互注意力矩阵；将双模态交互注意力矩阵与被补充过的双模态特征拼接，将其作为全连接层的输入得到模态间交互特征和模态内部特征，最后输入至Softmax进行分类。本发明利用多模态特征融合算法对不同模态的用户特征合并融合，建立起不同模态间的交互关系，减少了抽取的噪声。

Description

基于多模态的冷链配载用户画像标签抽取方法及装置

技术领域

本发明涉及用户画像和多模态融合技术领域，具体涉及一种基于多模态的冷链配载用户画像标签抽取方法及装置。

背景技术

近年来，用户画像已成为世界各国研究的特点，正日益引起业界、学术界的广泛关注，更重要的是，它还是众多应用的关键技术之一。

在现有的用户画像建模技术中，对如何融合多个数据源或模态，以便获得更精确的用户画像的研究相当有限，并且存在如下不足：1、部分用户画像研究工作仅就单一的模态进行研究，难以全面地刻画其特征；2、简单易行的整合方法是在信息输入时直接将多种模态特征向量进行拼接，但是这种方法忽略了不同模态特征的语义差异，没有建立起不同模态间的交互关系，并且存在较大噪声干扰。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于多模态的冷链配载用户画像标签抽取方法及装置，利用多模态特征融合算法对不同模态的用户特征合并融合，建立起不同模态间的交互关系，减少了用户画像标签抽取的噪声。

技术方案：本发明提供了一种基于多模态的冷链配载用户画像标签抽取方法，包括如下步骤：

步骤1：输入原始的冷链配载数据集D1，对数据集进行去重、去空，清洗后得到样本集D2；

步骤2：使用K-means对样本集D2进行聚类，得到N个聚类点簇，进而将聚类后的样本集D2打上标签；

步骤3：将带标签的文本样本集作为BERT模型的输入，得到特征向量T1，将得到的特征向量T1传入长短期记忆网络进一步提取特征，得到文本特征向量T2；

步骤4：使用YOLO提取冷链配载图的特征R1，并使用激活函数将其转为特征向量，将提取的双模态特征向量使用激活函数tanh与其他模态嵌入的关联表示进行补充，同时，将被补充过后的文本特征向量与图片特征向量进行拼接得到双模态特征向量，然后将补充后的双模态条件向量进行矩阵相乘，得到跨模态联合矩阵，最后使用Softmax函数得到双模态交互注意力矩阵Bim；

步骤5：将双模态交互注意力矩阵Bim与被补充过的双模态特征向量拼接，将其作为全连接层的输入得到双模态特征表示，最后输入至Softmax进行分类，最终获得模型的标签抽取。

进一步地，所述步骤3具体方法为：

步骤3.1：通过处理步骤2中打上标签的样本集D4，将待处理文本内容d_c固定为统一长度L_max；

步骤3.2：定义循环变量i，且i赋初值为1；

步骤3.3：如果i≤len(T)则跳转到步骤3.4，否则跳转到步骤3.7；

步骤3.4：定义len(T_i)为文本中第i个文本信息的长度，如果len(T_i)+2≤L_max则补0后跳转下一步，否则截取文本前L_max个单位，跳转下一步；

步骤3.5：建立预训练模型BERT，将样本集传入BERT模型中，获取文本的特征向量T1；

步骤3.6：i＝i+1，跳转到步骤3.3；

步骤3.7：结束循环，输出全部特征向量序列T1＝{T₁,T₂,...,T_d,…,T_len(T)}。

步骤3.8：构建长短期记忆网络，传入特征向量序列T1；

步骤3.9：定义循环变量j和最大时刻M，且j赋初值为1；

步骤3.10：如果j≤M则跳转到步骤3.11，否则跳转到步骤3.13；

步骤3.11：使用长短期记忆网络计算当前时刻的输出结果为h_t；

步骤3.12：j＝j+1，跳转到步骤3.10；

步骤3.13：结束循环，得到全部时刻的输出向量T2＝{h₁,h₂,...，h_t,...,h_M}。

进一步地，所述步骤4的具体方法为：

步骤4.1：将步骤2中经过预处理后的图片数据作为YOLO模型的输入；

步骤4.2：得到提取后的图片数据的特征R1；

步骤4.3：将得到的特征R1映射到其语义空间中，得到图片特征向量R2R2＝tanh(W_tR1+b_R1)，其中，W_t为激活函数tanh的权重，b_R1为激活函数tanh的偏置；

步骤4.4：将文本特征向量T2和图片特征向量R2交互，使用激活函数tanh进行转换表示补充；

步骤4.5：T2经R2补充过后得到T3，计算公式为T3＝tanh(U_T2T2+W_rtU_T2T2)，U_T2为隐藏文本对应的转换矩阵，W_rt为相应两模态的映射的权重矩阵；

步骤4.6：R2经T2补充过后得到R3，计算公式为R3＝tanh(U_R2R2+W_rtU_R2R2)，U_R2为隐藏关系对应的转换矩阵；

步骤4.7：将文本特征向量T3和图片特征向量R3进行拼接，并通过一个全连接层捕捉模态间交互特征F1，即

W₁为激活函数ReLU的权重，b₁为激活函数ReLU的偏置；

步骤4.8：将交互特征F1在激活函数Sigmoid的作用下生成条件向量S，计算公式为S＝Sigmoid(F1)；

步骤4.9：将条件向量S与交互后的T3结合得到文本条件向量N1，计算公式为N1＝T3⊙S；

步骤4.10：将条件向量S与交互后的R3结合得到图片条件向量N2，计算公式为N2＝R3⊙S；

步骤4.11：将两种模态的条件向量N1和N2进行矩阵乘法计算，得到跨模态联合矩阵O，计算公式为O＝N1·N2；

步骤4.12：如果循环变量k≤单模态特征维度u，跳转到下一步，否则跳转到步骤4.15；

步骤4.13：使用Softmax函数计算出跨模态联合矩阵的概率a，计算公式为

步骤4.14：k＝k+1，跳转到步骤4.12；

步骤4.15：将双模态交互特征F1乘概率a，得到双模态交互注意力矩阵Bim，计算公式为Bim＝a·F1。

进一步地，所述步骤5具体方法为：

步骤5.1：将得到的双模态交互注意力矩阵Bim与被补充过的文本特征T3和被补充过的图片特征R3拼接，即

步骤5.2：使用全连接层整合得到的双模态融合特征C1，计算公式为F2＝ReLU(W_RC1+b_R)，其中，F2∈R^u×d，F2为双模态特征表示，W_R为激活函数ReLU的权重，b_R为激活函数ReLU的偏置；

步骤5.3：将双模态特征表示F2输入至Softmax进行分类，得到最终分类结果C2；

步骤5.4：将分类结果C2作为最终标签抽取的结果，完成冷链配载用户画像的标签抽取。

进一步地，所述步骤1中的具体方法为：

步骤1.1：定义Data为单个待清洗数据，定义id，content分别为数据的序号和内容，并且满足关系Data＝{id，content}；

步骤1.2：定义D1为待清洗数据集，D1＝{Data₁，Data₂，...，Data_a，...，Data_len(D1)}，Data_a为D1中第a个待清洗信息数据，其中，len(D1)为D1中数据数量，变量a∈[1，len(D1)]；

步骤1.3：数据集D1中的数据进行去重和去空操作；

步骤1.4：得到清洗后的数据集D2＝{D₁，D₂，...，D_b，...，D_len(D2)}，D_b为D2中第b个待处理信息数据，其中，len(D2)为D2中数量，变量b∈[1，len(D2)]。

进一步地，所述步骤2中的具体方法为：

步骤2.1：定义D2＝{D₁,D₂,…,D_b,…,D_len(D2)}为待聚类冷链配载数据集，D_b为D2中第b个待处理信息数据；

步骤2.2：使用K-means对数据集D2进行聚类，得到N个聚类点簇；

步骤2.3：定义D3为聚类后的冷链配载数据集，D3＝{data₁,data₂,data₃,…,data_N}，其中data_N为第N个冷链配载点簇数据集；

步骤2.4：将数据集D3中的N个冷链配载点簇为冷链配载数据集打上标签得到样本集D4，D4＝{d₁,d₂,d₃,…,d_c,…,d_N}，其中d_c＝{label,data_c}。

本发明还公开一种基于多模态的冷链配载用户画像标签抽取装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现上述基于多模态的冷链配载用户画像标签抽取方法。

有益效果：

1、本发明将用户画像建模技术中仅对单一模态研究拓展到多模态特征融合，可以通过两种模态一起提取特征，挖掘不同模态样本之间的关系，分析和处理不同模态数据的模型来为用户画像提供更多的有效信息，以便更加全面地抽取用户特征，获得更精确的用户画像。

2、本发明前期在提取文本特征和图片特征时使用BERT模型及YOLO算法，可以做到准确且快速的提取文本与图片的特征向量；首先，在特征融合前，进行各模态之间第一次相互交互补充，分别补充与其他转换过的模态嵌入的关联表示，其中包含与其他模态对应的交互信息，使得不同模态的特征产生深入交互，交互后得到的特征表示不仅包含来自其他模态特征的融合信息，但每种表示仍然有独特的聚焦点。例如，T3主要是文本表示，同时包含附加的图片特征信息，有助于各模态融合彼此的互补信息。

3、本发明进行各模态之间第二次交互，使用条件向量约束每个模态内部的相似程度，将两种模态的条件向量进行矩阵乘法计算，得到跨模态联合矩阵，这种做法可以强化与模态间重要交互特征的关联，弱化与次要交互特征的关联，深度探索不同模态之间的交互性。

4、本发明采用一种全局自注意力机制对得到的双模态交互注意力矩阵的融合信息进行筛选，这种做法可以减少其特征维度，大大减少模型的空间复杂度，最后得到信息过滤后的双模态交互注意力矩阵。

附图说明

图1为本发明整体流程图；

图2为本发明BERT模型训练特征向量及LSTM进一步提取文本特征向量流程图；

图3为本发明多模态特征融合流程图；

图4为本发明融合后特征输入至Softmax分类流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明公开了一种基于多模态的冷链配载用户画像标签抽取方法及装置，该基于多模态的冷链配载用户画像标签抽取方法包括如下步骤：

步骤1：输入原始的冷链配载数据集D1，对数据集进行去重、去空，清洗后得到样本集D2：

步骤1.1：定义Data为单个待清洗数据，定义id,content分别为数据的序号和内容，并且满足关系Data＝{id,content}；

步骤1.2：定义D1为待清洗数据集，D1＝{Data₁,Data₂,…,Data_a,…,Data_len(D1)}，Data_a为D1中第a个待清洗信息数据，其中，len(D1)为D1中数据数量，变量a∈[1,len(D1)]；

步骤1.3：数据集D1中的数据进行去重和去空操作；

步骤1.4：得到清洗后的数据集D2＝{D₁,D₂,…,D_b,…,D_len(D2)}，D_b为D2中第b个待处理信息数据，其中，len(D2)为D2中数量，变量b∈[1,len(D2)]。

步骤2：使用K-means对样本集D2进行聚类，得到N个聚类点簇，进而将聚类后的样本集D2打上标签：

步骤2.1：使用K-means对数据集D2进行聚类，得到N个聚类点簇；

步骤2.2：定义D3为聚类后的冷链配载数据集，D3＝{data₁,data₂,data₃,…,data_N}，其中data_N为第N个冷链配载点簇数据集；

步骤2.3：将数据集D3中的N个冷链配载点簇为冷链配载数据集打上标签得到样本集D4，D4＝{d₁,d₂,d₃,…,d_c,…,d_N}，其中d_c＝{label,data_c}。

步骤3：将带标签的文本样本集D4作为BERT模型的输入，得到特征向量T1，将得到的特征向量传入长短期记忆网络进一步提取特征，具体的如图2所示：

步骤3.1：通过处理样本集D4，将待处理文本内容d_c固定为统一长度L_max；

步骤3.2：定义循环变量i，且i赋初值为1；

步骤3.3：如果i≤len(T)则跳转到步骤3.4，否则跳转到步骤3.7；

步骤3.6：i＝i+1，跳转到步骤3.3；

步骤3.7：结束循环，输出全部特征向量序列T1＝{T₁,T₂,...,T_d,…,T_len(T)}；

步骤3.8：构建长短期记忆网络，传入特征向量序列T1；

步骤3.9：定义循环变量j和最大时刻M，且j赋初值为1；

步骤3.10：如果j≤M则跳转到步骤3.11，否则跳转到步骤3.13；

步骤3.12：j＝j+1，跳转到步骤3.10；

步骤4：使用YOLO提取冷链配载图的特征R1，并使用激活函数将其转为特征向量，将提取的双模态特征向量使用激活函数tanh与其他模态嵌入的关联表示进行补充,同时，将被补充过后的文本特征向量与图片特征向量进行拼接得到双模态特征向量，然后将补充后的双模态条件向量进行矩阵相乘，得到跨模态联合矩阵，最后使用Softmax函数得到双模态交互注意力矩阵Bim，具体的如图3所示：

步骤4.1：将预处理后的图片数据作为YOLO模型的输入；

步骤4.2：得到提取后的图片数据的特征R1；

步骤4.3：将得到的特征R1映射到其语义空间中，得到图片的特征向量，计算公式为R2＝tanh(W_tR1+b_R1)，其中，W_t为激活函数tanh的权重，b_R1为激活函数tanh的偏置；

步骤4.7：将文本特征向量T3和图片特征向量R3进行拼接，并通过一个全连接层捕捉模态间交互特征F1，即F1＝ReLU(W₁(T3⊕R3)+b₁)，W₁为激活函数ReLU的权重，b₁为激活函数ReLU的偏置；

步骤4.8：将交互特征F1在激活函数Sigmoid的作用下生成条件向量S，用于约束每个模态内部的相似程度，计算公式为S＝Sigmoid(F1)；

步骤4.14：k＝k+1，跳转到步骤4.12；

步骤4.15：将双模态交互特征F1乘概率a，得到双模态交互注意力矩阵Bim，以提升权重方式来强化信息比重，计算公式为Bim＝a·F1。

步骤5：将双模态交互注意力矩阵Bim与被补充过的双模态特征拼接，将其作为全连接层的输入得到双模态特征表示，最后输入至Softmax进行分类，最终获得模型最终的标签抽取，具体的如图4所示：

步骤5.1：将得到的双模态交互注意力矩阵与被补充过的文本特征T3和图片特征R3拼接，即

步骤5.2：使用全连接层整合得到的双模态融合特征C1，计算公式为F2＝ReLU(W_RC1+b_R)，其中，F2∈R^u×d，F2为模态间交互特征，W_R为激活函数ReLU的权重，b_R为激活函数ReLU的偏置；

步骤5.3：将F2输入至Softmax进行分类，计算公式为C2＝Softmax(F2)；

步骤5.4：将分类结果作为最终标签抽取的结果，完成冷链配载用户画像的标签抽取；

步骤5.5：将模型保存封装，作为多模态用户画像的标签抽取方法。

上述实施方式只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于多模态的冷链配载用户画像标签抽取方法，其特征在于，包括如下步骤：

步骤4：获取双模态交互注意力矩阵Bim，具体步骤如下：

步骤4.2：得到提取后的图片数据的特征R1；

步骤4.3：将得到的特征R1映射到其语义空间中，得到图片特征向量R2＝tanh(W_tR1+b_R1)，其中，W_t为激活函数tanh的权重，b_R1为激活函数tanh的偏置；

步骤4.14：k＝k+1，跳转到步骤4.12；

步骤4.15：将双模态交互特征F1乘概率a，得到双模态交互注意力矩阵Bim，计算公式为Bim＝a·F1；

2.根据权利要求1所述的基于多模态的冷链配载用户画像标签抽取方法，其特征在于，所述步骤3具体方法为：

步骤3.2：定义循环变量i，且i赋初值为1；

步骤3.3：如果i≤len(T)则跳转到步骤3.4，否则跳转到步骤3.7；

步骤3.6：i＝i+1，跳转到步骤3.3；

步骤3.8：构建长短期记忆网络，传入特征向量序列T1；

步骤3.9：定义循环变量j和最大时刻M，且j赋初值为1；

步骤3.10：如果j≤M则跳转到步骤3.11，否则跳转到步骤3.13；

步骤3.12：j＝j+1，跳转到步骤3.10；

3.根据权利要求1所述的基于多模态的冷链配载用户画像标签抽取方法，其特征在于，所述步骤5具体方法为：

步骤5.1：将得到的双模态交互注意力矩阵Bim与被补充过的文本特征T3和被补充过的图片特征R3拼接，即C1＝Bim⊕T3⊕R3；

4.一种基于多模态的冷链配载用户画像标签抽取装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-3任一项所述的基于多模态的冷链配载用户画像标签抽取方法。