CN113221513A

CN113221513A - 一种跨模态数据融合的个性化产品描述生成方法

Info

Publication number: CN113221513A
Application number: CN202110416512.6A
Authority: CN
Inventors: 郭斌; 郝少阳; 於志文; 梁韵基; 王柱
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2021-08-06
Anticipated expiration: 2041-04-19
Also published as: CN113221513B

Abstract

本发明公开了一种跨模态数据融合的个性化产品描述生成方法，首先需要采集电商网站中的产品描述数据集，包括了产品标题、描述、图像与产品属性对；其次对图像数据、文本数据进行格式化处理，对产品属性数据进行向量表征与聚类合并；然后预测图像的显示属性门控，再基于该门控机制提取图像中的显式属性，接下来识别产品图像中的显著性区域，再分别对不同的区域进行编码表示，最后使用提取出的视觉特征指导的产品描述生成。本发明能够通过产品标题与产品图像，依据用户历史行为自动批量生成个性化的产品描述，解决人工撰写产品描述费事费力的问题。

Description

一种跨模态数据融合的个性化产品描述生成方法

技术领域

本发明属于知识挖掘技术领域，具体涉及一种个性化产品描述生成方法。

背景技术

计算机与互联网技术极大的改变了人们的生活与行为方式，其中居民消费习惯的变化最为明显。依据商务部数据，2019年电子商务交易额已经达全年GDP的35.13％，可以看出，电子商务经济已经成为中国经济体系的重要组成部分。

与传统线下商店相不同，用户在网络空间中无法与产品实体进行交互，只能依靠产品描述进一步了解产品信息，从而做出购买决策。产品描述是用户获取产品信息的主要渠道，其目的是向顾客提供有关产品的特性和优点。传统的产品描述通常是由商家聘用“专家”，根据产品信息进行手工撰写。然而手工撰写商品描述效率低下且成本较高，对于公司推广产品来说是一个较大的负担。在互联网如此庞大的电商规模之下，传统的手工撰写产品描述的方式已无法满足新时代的需求。人类撰写的商品描述受限于撰写者的经验、知识和对于产品的了解程度，在这样大规模、高频率的产品更新的情况下，人类撰写者没有时间、也没有精力去了解每一个产品的详细情况，导致写出的商品描述质量难以保证。另一方面，人工撰写的产品描述难以满足个性化需求，大多是尽可能覆盖所有的产品卖点，不同用户看到的都是相同的产品描述，可能会导致用户无法瞬间抓取到自己感兴趣的信息，最终丧失了进一步了解产品的动力。

现有的关于商品描述和评论生成的方法，大多基于人工构建的规则或简单的生成模型，根据产品标题或结合外部知识库生成通用的产品描述，然而当产品标题与产品描述缺乏直接的实体联系时，此类方法将无法使用，但产品图像中往往包含这些信息，可以从产品图像中提取合适的视觉信息指导产品描述生成。

发明内容

为了克服现有技术的不足，本发明提供了一种跨模态数据融合的个性化产品描述生成方法，首先需要采集电商网站中的产品描述数据集，包括了产品标题、描述、图像与产品属性对；其次对图像数据、文本数据进行格式化处理，对产品属性数据进行向量表征与聚类合并；然后预测图像的显示属性门控，再基于该门控机制提取图像中的显式属性，接下来识别产品图像中的显著性区域，再分别对不同的区域进行编码表示，最后使用提取出的视觉特征指导的产品描述生成。本发明能够通过产品标题与产品图像，依据用户历史行为自动批量生成个性化的产品描述，解决人工撰写产品描述费事费力的问题。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：获取产品描述数据集；

采集互联网电商网站中的产品描述，定义数据格式为＜product_title，product_desc，product_image，product_{attr_dict}＞，其中product_title为产品标题；product_desc为产品描述；product_image为产品图像；product_{attr_dict}为产品属性的键值对，以字典形式存储；

步骤2：产品图像数据格式化；

对产品图像进行统一缩放处理，分辨率统一为R*R，分辨率不足的图像使用白色填充；

步骤3：文本数据格式化；

去除长度小于L₁的产品标题，对产品标题不足L₂的文本进行补全，超过L₂的进行截断处理；

去除长度小于L₃的产品描述，对产品描述不足L₄的文本进行补全，超过L₄的进行截断处理；

步骤4：产品属性格式化；

使用预训练的Word2Vec将产品属性值进行向量化表征；再通过K-Means++算法对每一类属性的值进行聚类分析，将产品属性值划分为含义相近的类簇，共有A种；

步骤5：显式属性值门控预测；

采用ResNet网络从产品图像v中提取显式属性，判定图像中是否存在该种属性；

门控分布为：

其中，v表示产品图像，avgPool(v)为ResNet网络中平均池化层的输出，W_a与b_a为可学习参数，i表示产品属性，i＝1，...，A；

使用属性门控g_ai表示产品是否具有第i个属性，g_ai的取值为0或1，表示为：

其中，maxid(.)表示输入向量最大值对应的索引；g_ai＝1表示产品具有第i个属性，g_ai＝0表示产品不具有第i个属性；

步骤6：显式属性值预测；

对每个产品属性构建属性分类器预测属性值，属性分类器均由一层全局平均池化和两层全连接神经网络构成；第i个属性分类器表示为Attr_i，Attr_i的全局平均池化层具有2048个7×7卷积核，第一层全连接神经网络具有2048个神经元，第二层全连接神经网络的神经元数量为t_i∈(t₁，t₂，...t_A)，其中t_i为第i类属性的能够取值的数量；

则对于第i个属性，显式属性值预测的分布为：

其中，W₁、W₂、b₁、b₂为可学习的网络参数；

对应的最大值下标即为预测出的具体的显式属性值；

步骤7：隐式视觉特征提取；

将产品图像v输入预训练的Faster R-CNN网络，把Faster R-CNN网络的RegionProposal模块中ROI池化层的输出作为隐式视觉特征，表示为

步骤8：视觉特征指导的产品描述生成；

步骤8-1：针对显式属性，将产品所具有的属性使用双向GRU编码，第i个属性的编码表示为

使用Attention机制计算显式属性的上下文向量表示

形式化表示为：

其中W_g为可学习的网络参数，

表示生成时GRU第t个时间步输出的隐层状态，m为可训练参数，用于调整

的输出维度；

步骤8-2：针对隐式编码，在生成第t个产品描述词汇时，从产品图像中计算出上下文向量

为：

其中，W_I、b_I表示可学习的网络参数；

步骤8-3：采用视觉门控机制g_I用于过滤视觉信息中的噪音，其计算方式为：

其中W^V、W_h与b_v为可学习的参数；

从图像中抽取得到的视觉信息

表示为：

步骤8-4：将

作为检索向量，使用Attention机制从产品标题中抽取到的上下文向量表示为

最终生成对产品描述词汇的概率分布为：

其中，W^img、b_w为可学习的网络参数，w表示产品描述词汇。

优选地，所述R＝800，L₁＝7，L₂＝30，L₃＝10，L₄＝50。

本发明的有益效果如下：

本发明能够通过产品标题与产品图像，依据用户历史行为自动批量生成个性化的产品描述，解决人工撰写产品描述费事费力的问题，一定程度上降低中小企业运营成本。传统方法一般通过产品标题从知识库中进行检索，但当标题与知识库缺乏实体联系时这种方法很难奏效，本发明通过产品图像重新建立起了该联系，一定程度上解决了该问题。

附图说明

图1为本发明方法产品描述生成框架。

图2为本发明方法显式属性提取框架。

图3为本发明实施例产品属性值合并归类结果。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明利用以下原理：图像中往往包含产品标题实体中不存在的信息，可以用来指导产品描述生成。提取图像中的显式语义能够明确的提取出图像中的微观视觉信息。采用事先定义的属性设置，构建一个图像的属性集合，再使用分类器检测图像中所具有的属性以及对应的值，并提出一种特殊的属性门控机制，用来过滤图像中不存在的属性。另一方面，提取图像隐式向量编码以提高对视觉信息的利用率，最终使用两种不同层次、不同粒度的视觉特征指导产品描述生成。

一种跨模态数据融合的个性化产品描述生成方法，包括以下步骤：

步骤1：获取产品描述数据集；

步骤2：产品图像数据格式化；

由于直接采集到的图像的分辨率与比例大小各异，不利于进一步的特征提取与训练。因而对图像进行统一的缩放处理，分辨率统一为800*800，尺寸不足的图像使用白色填充(图像矩阵中填充255)；

步骤3：文本数据格式化；

去除长度小于7的产品标题，对产品标题不足30的文本进行补全，超过30的进行截断处理。去除长度小于10的产品描述，对产品描述不足50的文本进行补全，超过50的进行截断处理；

步骤4：产品属性格式化；

整个产品数据集存在几十种属性，上千种值，这对于模型生成是必要且冗余的；使用预训练的Word2Vec将产品属性值进行向量化表征；再通过K-Means++算法对每一类属性的值进行聚类分析，将产品属性值划分为含义相近的类簇，共有11种；

步骤5：显式属性值门控预测；

由于预定义出的属性集由全部产品得来，并非每一个产品都具有全部属性，因而需要判断其是否存在该属性。

门控分布为：

步骤6：显式属性值预测；

对于聚合出的11种属性，每一种属性都使用单独的属性分类器预测属性的值，属性分类器均由一层全局平均池化和两层全连接神经网络构成；第i个属性分类器表示为Attr_i，Attr_i的全局平均池化层具有2048个7×7卷积核，第一层全连接神经网络具有2048个神经元，第二层全连接神经网络的神经元数量为t_i∈(t₁，t₂，...t_A)，其中t_i为第i类属性的能够取值的数量；

则对于第i个属性，显式属性值预测的分布为：

其中，W₁、W₂、b₁、b₂为可学习的网络参数；

步骤7：隐式视觉特征提取；

步骤8：视觉特征指导的产品描述生成；

使用Attention机制计算显式属性的上下文向量表示

形式化表示为：

其中W_g为可学习的网络参数，

的输出维度；

为：

其中，W_I、b_I表示可学习的网络参数；

其中W^V、W_h与b_v为可学习的参数；

从图像中抽取得到的视觉信启

表示为：

步骤8-4：将

最终生成对产品描述词汇的概率分布为：

其中，W^img、b_w为可学习的网络参数，w表示产品描述词汇。

Claims

1.一种跨模态数据融合的个性化产品描述生成方法，其特征在于，包括以下步骤：

步骤1：获取产品描述数据集；

采集互联网电商网站中的产品描述，定义数据格式为<product_title,product_desc,product_image,product_{attr_dict}>，其中product_title为产品标题；product_desc为产品描述；product_image为产品图像；product_{attr_dict}为产品属性的键值对，以字典形式存储；

步骤2：产品图像数据格式化；

步骤3：文本数据格式化；

步骤4：产品属性格式化；

步骤5：显式属性值门控预测；

门控分布为：

其中，v表示产品图像，avgPool(v)为ResNet网络中平均池化层的输出，W_a与b_a为可学习参数，i表示产品属性，i＝1,…,A；

步骤6：显式属性值预测；

对每个产品属性构建属性分类器预测属性值，属性分类器均由一层全局平均池化和两层全连接神经网络构成；第i个属性分类器表示为Attr_i，Attr_i的全局平均池化层具有2048个7×7卷积核，第一层全连接神经网络具有2048个神经元，第二层全连接神经网络的神经元数量为t_i∈(t₁,t₂,…t_A)，其中t_i为第i类属性的能够取值的数量；

则对于第i个属性，显式属性值预测的分布为：