CN115761314A

CN115761314A - 一种基于提示学习的电商图文分类方法及系统

Info

Publication number: CN115761314A
Application number: CN202211383104.6A
Authority: CN
Inventors: 王进; 王利蕾; 邓龙行; 彭云曦; 刘彬; 朴昌浩; 杜雨露
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2023-03-07

Abstract

本发明属于计算机视觉和自然语言处理领域，具体涉及一种基于提示学习的电商图文分类方法及系统；该方法包括：获取电商图文信息并将其输入到预训练模型中，得到图像向量和文本向量；指定关键字，对关键字和图像向量进行处理，得到初始提示模板；根据图像向量，采用CLIP模型对初始提示模板进行训练，得到多个候选提示模板；随机选择两个候选提示模板和图像向量进行对比学习，得到图像特征向量；对文本向量进行处理，得到文本特征向量；对图像特征向量和文本特征向量进行对比学习，得到图文特征向量；将图文特征向量输入到融合层，得到图文融合特征；采用分类器对图文融合特征进行分类，得到电商图文分类结果；本发明分类结果精度高，实用性高。

Description

一种基于提示学习的电商图文分类方法及系统

技术领域

本发明属于计算机视觉领域和自然语言处理领域，具体涉及一种基于提示学习的电商图文分类方法及系统。

背景技术

随着大数据时代的发展，人们的生活方式产生了巨大的变化。大家足不出户就可以在电商平台上购物和消费。电商平台提供和商品的详细信息如商品图片等和客户是否产生消费欲望息息相关，使用前沿技术将海量的商品图片和商品标题利用起来，实现商品自动分类，可以大大减少电商平台的运营成本也能改善客户体验。

提示学习被广泛应用于自然语言处理领域中，提示学习指的是在下游任务中，增加关于任务的提示，让模型朝着下游任务的方向学习，更好地利用预训练模型，帮助机器更好地理解人类的问题，在标注数据较小的情况下也能达到很好的效果。由于需要向消费者展示产品，电商行业中的图像信息中有大量无用的背景信息，然而现有的图文分类方法中，没有考虑到电商图像信息的特点，并且在传统的多模态图文分类提示学习中，提示学习只被应用于文本侧，模板单一固定，无法根据数据特点学习。

发明内容

针对现有技术存在的不足，本发明提出了一种基于提示学习的电商图文分类方法及系统，该方法包括：

S1：获取电商图文信息并将其分别输入到图像和文本预训练模型中，得到图像向量和文本向量；

S2：指定关键字，对关键字和图像向量进行处理，得到初始提示模板；

S3：根据图像向量，采用CLIP模型对初始提示模板进行训练，得到多个候选提示模板；

S4：从多个候选提示模板中随机选择两个候选提示模板；对两个候选提示模板和图像向量进行对比学习，得到图像特征向量；

S5：采用双向长短时记忆网络和线性层对文本向量进行处理，得到文本特征向量；对图像特征向量和文本特征向量进行对比学习，得到图文特征向量；

S6：将图文特征向量输入到融合层，得到图文融合特征；采用分类器对图文融合特征进行分类，得到电商图文分类结果。

优选的，得到初始提示模板的过程包括：

S21：对关键字进行BERT-base编码，得到关键字文本向量；采用CLIP对关键字文本向量进行编码，得到关键字模板元素；

S22：将图像向量分割成多个patch即图像块，计算所有图像块之间的相似度；

S23：对一个图像块与其他图像块的相似度求和，其值作为该图像块的相对相似度；计算所有图像块的相对相似度，设置相似度阈值，将相对相似度小于相似度阈值的图像块作为集合A的元素；

S24：对集合A中的元素进行聚类，得到聚类结果；根据聚类结果计算图像模板初始化元素；

S25：将关键字模板元素与图像模板初始化元素进行拼接，得到初始提示模板。

进一步的，计算patch之间的相似度的公式为：

其中，similarity(x,y)表示图像块x和图像块y之间的相似度，μ_x表示图像块x的均值，μ_y表示图像块y的均值，σ_x表示图像块x的方差，σ_y表示图像块y的方差，σ_xy表示图像块x和图像块y的协方差，α表示学习系数，W₁表示第一常数，W₂表示第二常数。

进一步的，计算图像模板初始化元素的公式为：

其中，S表示图像模板初始化元素集合，s表示图像模板初始化元素，μ_a表示聚合的簇中元素a的均值，σ_a表示聚合的簇中元素a的方差，a表示聚合为第i个簇的集合中的元素，C_i表示聚合为第i个簇的集合，K表示聚类的簇数，A表示相对相似度小于相似度阈值的图像块集合，μ_x表示图像块x的均值，μ_Ci表示聚合为第i个簇的集合的均值，σ_x表示图像块x的方差，σ_Ci表示聚合为第i个簇的集合的方差。

优选的，得到多个候选提示模板的过程包括：

S31：将图像向量划分为训练集和验证集；

S32：拼接初始提示模板和训练集中的图像向量，使用MASK字符掩盖初始提示模板中的任一关键字，得到第一掩盖部分；

S33：计算图像向量中图像块的相对相似度，并使用MASK字符掩盖相对相似度最小的多个图像块，得到第二掩盖部分；

S34：将第一掩盖部分和第二掩盖部分输入到CLIP模型中进行训练，计算加权交叉熵损失函数；根据加权交叉熵损失函数调整初始提示模板的参数，返回步骤S32；

S35：设置验证步数m，每迭代m次，采用验证集中的图像向量进行验证，计算加权交叉熵损失函数并保存当前CLIP模型和提示模板，选择验证损失最低的n个模板作为候选提示模板。

优选的，计算加权交叉熵损失函数的公式为：

其中，Loss表示加权交叉熵损失，A表示初始提示模板向量集合，B表示图像向量集合，P(i)表示提示模板中第i个关键字的概率分布，x_i表示提示模板掩盖第i个关键字的预测，x^masked表示提示模板被掩盖部分，β表示加权系数，P(j)表示第j个图像向量的概率分布，y_j表示第j个图像向量中掩盖部分的预测，y^masked表示图像向量被掩盖的部分，q(x_i|x^maske)表示提示模板掩盖第i个关键字的预测概率分布，q(y_j|y^masked)表示第j个图像向量掩盖部分的预测概率分布。

优选的，对两个候选提示模板和图像向量进行对比学习的过程包括：

S41：将两个候选提示模板分别与同一个图像向量拼接，得到一对正例图像向量；

S42：将其中一个候选提示模板与剩余的图像向量拼接，得到多个反例图像向量；

S43：根据正例图像向量和反例图像向量进行对比学习，计算对比学习损失并根据对比学习损失得到图像特征向量。

优选的，计算对比学习损失的公式为：

其中，

表示第i个图像向量的对比损失，μ_i表示第i个图像向量的均值，μ_j表示第j个反例图像向量的均值，σ_i表示第i个图像向量的方差，σ_j表示第j个反例图像向量的方差，σ_ii+表示第i个图像向量和正例图像样本的协方差，σ_ij表示第i个图像向量和第j个反例图像向量的协方差，N表示同一批次的数据集大小，τ表示温度系数，W₁表示第一常数，W₂表示第二常数。

一种基于提示学习的电商图文分类系统，包括：图像文本编码模块、提示模板生成模块、图像特征提取模块和融合分类模块；

所述图像文本编码模块用于对电商图文信息编码，得到图像向量和文本向量；

所述提示模板生成模块用于根据图像向量生成候选提示模板；

所述图像特征提取模块用于根据候选提示模板和图像向量生成图像特征向量；

所述融合分类模块用于根据文本向量和图像特征向量进行电商图文分类，得到电商图文分类结果。

本发明的有益效果为：

1.本发明考虑电商图片特性，设计图像块相似度函数，根据相似度筛选出包含有效图像更多的图像块，实用价值高；

2.传统的提示学习方法只针对文本侧进行提示，本发明根据聚类方法，和人工关键字结合有效初始化图像提示模板，在训练过程中可最大限度发挥预训练模型的作用，达到高精度预测；

3.根据图像均值和方差设计图像对比学习损失，强化特征表达，优化分类结果。

4.设计图文记忆融合网络将图像特征和文本特征进行特征融合，可以减少训练时间和内存消耗。

附图说明

图1为本发明中一种基于提示学习的电商图文分类方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种基于提示学习的电商图文分类方法及系统，如图1所示，所述方法包括以下内容：

S1：获取电商图文信息并将其分别输入到图像和文本预训练模型中，得到图像向量和文本向量。

从电商平台中获取电商图文信息，电商图文信息包括如商品名称、规格、生产日期、类型等商品的基本文本信息和商品的配图；将电商图文信息输入到预训练模型中，可得到图像向量和文本向量；优选的，分别使用CLIP(Contrastive Language-Image Pre-Training，对比图文预训练模型)和BERT-base(Bidirectional Encoder Representationfrom Transformers，基于Transformers的双向编码表示模型)作为图像和文本的预训练模型。

S2：指定关键字，对关键字和图像向量进行处理，得到初始提示模板。

人工指定关键字，关键是与商品分类相关的词语，比如，类别、图像、物体、产品等关键字。

S21：对关键字进行BERT-base编码，得到关键字文本向量；采用CLIP对关键字文本向量进行编码，得到关键字模板元素。

在对关键字文本向量进行编码前，需要将关键字文本向量重构成CLIP可以编码的维度。

S22：将图像向量分割成多个patch即图像块，计算所有图像块之间的相似度。

优选的，将图像分割成8*8的patch即图像块，计算所有图像块之间的相似度，计算公式为：

其中，similarity(x,y)表示图像块x和图像块y之间的相似度，μ_x表示图像块x的均值，μ_y表示图像块y的均值，σ_x表示图像块x的方差，σ_y表示图像块y的方差，α表示学习系数，W₁表示第一常数，W₂表示第二常数。

公式利用图像块的均值和方差得到图像的亮度和对比度，使用亮度和对比度相乘得到图像相似度计算的第一部分，将传统的余弦相似度逐个像素点计算相似计算方法更改为使用图像块的均值和方差来计算，得到图像相似度计算的第二部分，这样计算可以提高效率，也能全面的评价两个图像块的相似性。

S23：对一个图像块与其他图像块的相似度求和，其值作为该图像块的相对相似度；计算所有图像块的相对相似度，设置相似度阈值，将相对相似度小于相似度阈值的图像块作为集合A的元素。

计算相对相似度的公式为：

其中，Relative-similarity_i表示第i个图像块的相对相似度，j表示除i以外的第j个图像块，N表示图像块总数。

集合A表示为：

A＝{x|x_similarity<α}

S24：对集合A中的元素进行聚类，得到聚类结果；根据聚类结果计算图像模板初始化元素。

根据集合A中的元素的距离进行聚类，根据聚类结果，取每簇元素的均值和方差的平均值作为图像模板初始化元素根据聚类结果计算图像模板初始化元素，公式为：

C_i满足

其中，S表示图像模板初始化元素集合，s表示图像模板初始化元素，μ_a表示聚合的簇中元素a的均值，σ_a表示聚合的簇中元素a的方差，a表示聚合为第i个簇的集合中的元素，C_i表示聚合为第i个簇的集合，K表示聚类的簇数，A表示相对相似度小于相似度阈值的图像块集合，μ_x表示图像块x的均值，

表示聚合为第i个簇的集合的均值，σ_x表示图像块x的方差，

表示聚合为第i个簇的集合的方差。

模板拼接格式为：

[e(x₁),e(x₂),…,e(关键字₁),…,e(关键字₂)]

[e(关键字₁),…,e(x_n),…,e(关键字₂),e(x_m)]

[e(x₁),…,e(关键字₁),…,e(x_n)…,e(关键字₂)]

其中，

表示模板初始化元素，关键字_i∈[1,2]指人工指定关键字，例如：类别、图像、物体、产品等。

本发明根据图像的方差和均值计算图像块之间的相似度以用来筛选掉无用背景图像块，有效初始化图像侧提示模板。

S3：根据图像向量，采用CLIP模型对初始提示模板进行训练，得到多个候选提示模板。

训练过程中冻结CLIP的参数，只优化模板组成元素。

S31：将图像向量划分为训练集和验证集。

优选的，将图像向量按8:2的比例划分为训练集和验证集。

S32：拼接初始提示模板和训练集中的图像向量，使用MASK字符掩盖初始提示模板中的任一关键字，得到第一掩盖部分。

S33：计算图像向量中图像块的相对相似度，并使用MASK字符掩盖相对相似度最小的多个图像块，得到第二掩盖部分。

计算图像向量中图像块的相对相似度的过程与步骤S2相同，优选的，掩盖相对相似度最小的多个图像块的数量可取图像向量的15％-30％。

S34：将第一掩盖部分和第二掩盖部分输入到CLIP模型中进行训练，计算加权交叉熵损失函数；根据加权交叉熵损失函数调整初始提示模板的参数，返回步骤S32。

计算加权交叉熵损失函数的公式为：

其中，Loss表示加权交叉熵损失，A表示初始提示模板向量集合，B表示图像向量集合，P(i)表示提示模板中第i个关键字的概率分布，x_i表示提示模板掩盖第i个关键字的预测，x^masked表示提示模板被掩盖部分，β表示加权系数，P(j)表示第j个图像向量的概率分布，y_j表示第j个图像向量中掩盖部分的预测，y^masked表示图像向量被掩盖的部分，q(x_i|x^masked)表示提示模板掩盖第i个关键字的预测概率分布，q(y_j|y^masked)表示第j个图像向量掩盖部分的预测概率分布，

表示求期望。

损失函数分为提示模板部分和图像向量部分，将图像向量部分乘以系数β，让模型更多的关注提示模板部分的训练和更新，以获得更加有效的提示模板。

根据加权交叉熵损失函数调整初始提示模板的参数，即优化模板组成元素，得到优化后的初始提示模板，返回步骤S31，拼接下一训练数据的图像向量。

S35：设置验证步数m，每迭代m次，采用验证集中的图像向量进行验证计算加权交叉熵损失函数并保存当前CLIP模型和提示模板，选择验证损失最低的n个模板作为候选提示模板；

S4：从多个候选提示模板中随机选择两个候选提示模板；对两个候选提示模板和图像向量进行对比学习，得到图像特征向量。

S41：将两个候选提示模板分别与同一个图像向量拼接，得到一对正例图像向量。

提示模板分别与同一个图像向量拼接时，不同批次的训练图像向量可以随机选取拼接头部或是拼接尾部。

S42：随机将其中一个候选提示模板与剩余的图像向量拼接，得到多个反例图像向量。

计算对比学习损失的公式为：

其中，

S5：采用双向长短时记忆网络和线性层对文本向量进行处理，得到文本特征向量；对图像特征向量和文本特征向量进行对比学习，得到图文特征向量。

文本特征向量和对应的图像特征向量组成一对对比学习向量，并对其进行对比学习。

进行对比学习时，根据对比学习损失不断拉近同一对图文特征，输出对比学习后的图像特征向量和文本特征向量即图文特征向量。

融合层运算步骤为：

f_t＝σ[W_f(p_t-1x_t ^T)x_t+C_f]

h_t＝tanh[W_h(p_t-1x_t ^T)x_t+C_h]

p_t＝f_t×(p_t-1+h_t)

feature＝f_t×tanh(p_t)

其中，σ表示sigmoid运算，W_f表示第一系数矩阵，p_t-1表示上一时刻的图像特征，x_t表示当前时刻的文本特征，C_f表示第一偏置项，W_h表示第二系数矩阵，C_h表示第二偏置项，f_t表示上一时刻图像和文本特征的遗忘结果，h_t表示上一刻图像和文本的保存结果，p_t表示当前时刻图像特征的更新结果，feature表示图像文本融合特征。

将图文融合特征送入线性层分类器中完成图文特征到分类类别的映射进行分类，得到电商图文分类结果。

本发明使用对比学习的方法将提示学习融入图像侧，可更好的利用电商领域中重要的图像部分。设计图文记忆融合网络完成图像文本特征融合，在降低运行时间的同时完成高质量图文分类，具有较高的实用性。

本发明还提出了一种基于提示学习的电商图文分类系统，该系统用于执行上述一种基于提示学习的电商图文分类方法，包括：图像文本编码模块、提示模板生成模块、图像特征提取模块和融合分类模块；

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于提示学习的电商图文分类方法，其特征在于，包括：

2.根据权利要求1所述的一种基于提示学习的电商图文分类方法，其特征在于，得到初始提示模板的过程包括：

3.根据权利要求2所述的一种基于提示学习的电商图文分类方法，其特征在于，计算patch之间的相似度的公式为：

4.根据权利要求2所述的一种基于提示学习的电商图文分类方法，其特征在于，计算图像模板初始化元素的公式为：

表示聚合为第i个簇的集合的均值，σ_x表示图像块x的方差，

表示聚合为第i个簇的集合的方差。

5.根据权利要求1所述的一种基于提示学习的电商图文分类方法，其特征在于，得到多个候选提示模板的过程包括：

S31：将图像向量划分为训练集和验证集；

6.根据权利要求1所述的一种基于提示学习的电商图文分类方法，其特征在于，计算加权交叉熵损失函数的公式为：

其中，Loss表示加权交叉熵损失，A表示初始提示模板向量集合，B表示图像向量集合，P(i)表示提示模板中第i个关键字的概率分布，x_i表示提示模板掩盖第i个关键字的预测，x^masked表示提示模板被掩盖部分，β表示加权系数，P(j)表示第j个图像向量的概率分布，y_j表示第j个图像向量中掩盖部分的预测，

y^masked表示图像向量被掩盖的部分，q(x_i|x^masked)表示提示模板掩盖第i个关键字的预测概率分布，q(y_j|y^masked)表示第j个图像向量掩盖部分的预测概率分布。

7.根据权利要求1所述的一种基于提示学习的电商图文分类方法，其特征在于，对两个候选提示模板和图像向量进行对比学习的过程包括：

8.根据权利要求1所述的一种基于提示学习的电商图文分类方法，其特征在于，计算对比学习损失的公式为：

其中，

表示第i个图像向量的对比损失，μ_i表示第i个图像向量的均值，μ_j表示第j个反例图像向量的均值，σ_i表示第i个图像向量的方差，σ_j表示第j个反例图像向量的方差，

表示第i个图像向量和正例图像样本的协方差，σ_ij表示第i个图像向量和第j个反例图像向量的协方差，N表示同一批次的数据集大小，τ表示温度系数，W₁表示第一常数，W₂表示第二常数。

9.一种基于提示学习的电商图文分类系统，其特征在于，包括：图像文本编码模块、提示模板生成模块、图像特征提取模块和融合分类模块；