CN111651597A

CN111651597A - 一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法

Info

Publication number: CN111651597A
Application number: CN202010463517.XA
Authority: CN
Inventors: 黄茉; 黄新恩; 翁增仁; 胡锦锋
Original assignee: Fujian Boss Software Co ltd
Current assignee: Fujian Boss Software Co ltd
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-09-11

Abstract

本发明涉及一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法，包括如下步骤：接入训练数据，所述训练数据为已有分类信息的多源异构商品信息；对所述训练数据进行清洗，针对每个商品生成一份文本数据；对所述文本数据进行预处理；分别构建PV‑DBOW模型和PV‑DM模型；分别输入预处理后的文本数据至所述的两个模型，各自训练得到文本特征矩阵；融合上述训练所得的两个文本特征矩阵，得到融合文本特征矩阵；构建并训练卷积神经网络，所述卷积神经网络用于商品信息分类；上传待分类的商品数据，进行所述预处理，并根据所述文本特征矩阵抽取出其对应的词向量，输入至已训练的卷积神经网络，得到预测的商品分类，并根据所述商品预测分类对商品进行分类。

Description

一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法

技术领域

本发明涉及一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法，属于文本分类领域。

背景技术

目前电子商务信息处理中的商品分类方式，一方面是传统的人工查找方法，在筛选商品关键词后，需要人工进行商品所属类别的划分，种类繁多且容易混淆，人工选择工作量较大且容易出错；另一方面目前的自动分类系统，多采用非智能的方案，主要是根据大量的商品关键词建立关键词与商品分类的一一对应关系，并存储在数据库中。首先仍然需要人工筛选商品关键词提供给商品分类系统，系统在数据库中根据关键词进行查找，输出相应的一级类目、二级类目等，若没有匹配的结果将没有输出。该方案存在的主要缺点是需要事先人工筛选商品关键词，而目前实际的商品标题花样繁多，为了提高商品的检索量添加了大量的修饰词语，在人工筛选关键词这一步仍然存在不少工作量，不能做到完全的自动化处理。

同时，自然语言处理中，文本的向量表示方式大部分无法同时考虑到词间语义关系、词间的顺序以及维数灾难问题，从而导致误判率较高。

发明内容

为了解决上述现有技术中存在的问题，本发明提供一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法，本发明的技术方案如下：

技术方案一：

一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法，包括如下步骤：

接入训练数据，所述训练数据为已有分类信息的多源异构商品信息；

对所述训练数据进行清洗，针对每个商品生成一份文本数据，所述文本数据包含多个特征字段；

对所述文本数据进行预处理，将所述特征字段划分为多个独立的词并去除停用词；

分别构建Doc2Vec中基于Hierarchical Softmax的PV-DBOW模型和Doc2Vec中基于负采样算法的PV-DM模型；分别输入预处理后的文本数据至所述的两个模型，各自训练得到文本特征矩阵；

融合上述训练所得的两个文本特征矩阵，得到融合文本特征矩阵；

构建并训练卷积神经网络，所述卷积神经网络用于商品信息分类；

上传待分类的商品数据，进行所述预处理，并根据所述文本特征矩阵抽取出其对应的词向量，输入至已训练的卷积神经网络，得到预测的商品分类，并根据所述商品预测分类对商品进行分类。

进一步地，所述清洗步骤如下：

遍历训练数据中的数据项，若数据项包含层级嵌套结构，则将数据项展平，使数据结构深度为1；

移除与商品实体无关或无法直接表征其特征的数据项；

在移除与商品实体无关或无法直接表征其特征的数据项之后，筛除空字段和错误字段；筛除空字段和错误字段之后剩余的字段即为特征字段，将各所特征字段拼接成长文本，得到所述文本数据；文本数据中的每个特征字段都视作独立。

进一步地，所述预处理的步骤如下：

通过文本分词法对所述文本数据中的每个特征字段进行分词，将特征字段中连续的字序列重新组合成词序列；

构造停用词库，根据停用词库去除所述词序列中的停用词。

进一步地，构建并训练基于Hierarchical Softmax的PV-DBOW模型的步骤如下：

构建第一样本集，所述第一样本集包括多个所述预处理过的文本数据；

搭建PV-DBOW模型的网络结构，含当前词词向量的输入层、恒等投影层和Hierarchical Softmax输出层；构建目标函数，目标为所有当前词正确预测其上下文词汇及所在字段标识的总体概率最大；

输入第一样本集；通过随机赋值法确定参数的初始值；使用随机梯度上升法进行迭代训练，对目标函数进行最大化优化，对词向量和参数进行迭代更新；迭代结束后，对所有更新后的词向量进行拼接，得到第一文本特征矩阵。

进一步地，构建并训练基于负采样算法的PV-DM模型的步骤如下：

搭建模型的网络结构，包括含有当前词上下文词汇及字段标识向量的输入层、求和累加投影层和基于负采样的输出层；构建目标函数，目标为所有上下文词汇及其字段标识正确预测当前词的总体概率最大；

输入第一样本集；通过随机赋值法确定参数的初始值；使用随机梯度上升法进行迭代训练，对目标函数进行最大化优化，对词向量和参数进行迭代更新；迭代结束后，对所有更新后的词向量进行拼接，得到第二文本特征矩阵。

进一步地，使用线性加权融合法进行文本特征矩阵的融合，得到融合文本特征矩阵，步骤如下：

将所述两个模型得到第一文本特征矩阵和第二文本特征矩阵赋予各自的权值，使得权值之和为1；按对应的词进行线性加权求和运算，得到融合文本特征矩阵。

进一步地，所述第一文本特征矩阵和第二文本特征矩阵各自的权值可以使用线性回归模型得到。

进一步地，构建并训练卷积神经网络的步骤如下：

根据所述融合特征文本矩阵，将第一训练样本集转换为词向量构成的第二训练训练样本集；

构建卷积神经网络，所述卷积神经网络由文本向量层、卷积层、池化层、全连接层组成，所述全连接层采用Softmax函数作为激活函数；

利用第二训练样本集对卷积神经网络进行迭代训练，计算出预测值与标签之间的误差，再按极小化误差的方法反向传播调整权重矩阵。

本发明具有如下有益效果：

1、本发明能自动根据未分类的商品信息预测出商品分类，特别是对于大数据环境下复杂的多源异构商品分类任务仍能适用。无需人工进行商品信息分类或进行商品关键字筛选，减少了人力资源的浪费，避免了人为因素导致的误分类，大幅度地提高了商品分类的效率。

2、本发明通过使用线性加权融合法将PV-DBOW模型和PV-DM模型的融合，结合了两种模型的长处，考虑到词间语义关系、词间的顺序以及维数灾难问题，能更好地表现文本特征，提升了使用效果。

3、本发明使用线性回归模型求解线性加权融合法中的权值，与使用固定的权值相比，更加灵活，也能提升融合表示模型的效果。

附图说明

图1为一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法流程图；

图2为商品信息中的部分数据项；

图3为将图2中的数据项展开后的状态。

具体实施方式

下面结合附图和具体实施例来对本发明进行详细的说明。

实施例一

对所述训练数据进行清洗，针对每个商品生成一份文本数据，所述文本数据包含多个特征字段；例如，可参见图3，某品牌的电脑生成的文本数据中的第一个字段为"titile"，"titile"的值为"惠普(hp)590-P013ccn台式机电脑主机(Cel G4900 4GB+1TB)"；第二个字段为"price"，"price"的值为"2199.00"等；

对所述文本数据进行预处理，将所述特征字段划分为多个独立的词并去除停用词；例如，"惠普(hp)590-P013ccn台式机电脑主机(Cel G4900 4GB+1TB)"可以被划分为"惠普/(/hp/)/590-P013ccn/台式机/电脑/主机/(/Cel G4900 4GB+1TB/)"；

进一步地，清洗步骤如下：

遍历训练数据中的数据项，若数据项包含层级嵌套结构，则将数据项展平，使数据结构深度为1；在本实施例中，可参见图2，数据项"params"包含层级嵌套结构；展平后的结果参见图3。

移除与商品实体无关或无法直接表征其特征的数据项；例如：与商品实体无关的数据项包括：爬虫时爬取到的标识信息、商品页面url地址等；无法直接表征其特征的数据项包括：如商品图片地址等。

在移除与商品实体无关或无法直接表征其特征的数据项之后，筛除空字段和错误字段；筛除空字段和错误字段之后剩余的字段即为特征字段，将各所特征字段拼接成长文本，得到所述文本数据；文本数据中的每个特征字段都视作独立。例如，字段拼接前由换行符分开，拼接后的字段之间可以规定一个分割符号比如\n来标识字段。

进一步地，预处理的步骤如下：

构造停用词库，根据停用词库去除所述词序列中的停用词。例如，“的”、“再”、“连”等无实意的词。

实施例二

搭建PV-DBOW模型的网络结构，含当前词词向量的输入层、恒等投影层和Hierarchical Softmax输出层；所述输出层本质上是一棵Huffman树。以文本数据中出现过的词当叶子结点,以各词在文本数据中出现的次数当权值构造出来的Huffman树，保证了高频词接近根节点，这样高频词相对低频词计算少。

考虑Huffman树中的某个叶子结点,假设它对应的词为w,记

p^w：从根结点出发到达w对应叶子结点的路径

l^w：路径p^w中包含结点的个数

表示路径p^w中第j个结点对应的编码，取值为0或1(根结点不对应编码)。

共同构成了词w的Huffman编码，共l^w-1位。

构造目标函数，转化为最大化优化问题，目标为所有当前词正确预测其上下文词汇及所在字段标识的总体概率最大：

已知当前词w，记其上下文及字段标识为Context(w)，因此对于全集C，目标函数形如

其中

其中

其中

其中

输入第一样本集；通过随机赋值法确定参数的初始值；使用随机梯度上升法进行迭代训练，对目标函数进行最大化优化，对词向量和参数进行迭代更新，步骤如下：

设定学习速率η，即上升速度。

对目标参数

与v(w)沿着目标函数梯度上升的方向进行如下迭代，直到

小于设定的阈值。

的迭代更新公式为

v(w)的迭代更新公式为

迭代结束后，v(w)即是对应词w的词向量。所有v(w)构成的矩阵即为文本特征矩阵。

搭建PV-DM模型的网络结构，包括:包括含有当前词上下文词汇及字段标识向量的输入层、求和累加投影层和基于负采样的输出层。假设目标词为w，目标词的上下文及字段标识记为Context(w)，上下文由目标词前后c个词构成。

输入层包含Context(w)中2c个词的词向量v(Context(w)₁),v(Context(w)₂),…,v(Context(w)_2c)及字段标识v(Context(w)_2c+1)；投影层将输入层的2c个向量做求和累加，即

输出层为基于负采样的sigmoid层。

构造目标函数，转化为最大化优化问题，目标为所有上下文词汇及其字段标识正确预测当前词的总体概率最大：

记关于w的负样本集为NEG(w)。

目标函数为

其中

其中

其中

设定学习速率η，即上升速度。

对目标参数θ^u与

沿着目标函数梯度上升的方向进行如下迭代，直到

小于设定的阈值。

θ^u的迭代更新公式为

的迭代更新公式为

迭代结束后，

即是对应词

的词向量。所有

构成的矩阵即为文本特征矩阵。

实施例三

进一步地，所述第一文本特征矩阵和第二文本特征矩阵各自的权值可以使用线性回归模型得到。在本实施例中，训练所述卷积神经网络的过程中，加入上述两个权值一并学习。

本实施例的进步之处在于使用线性加权融合法结合了两种模型的长处，考虑到词间语义关系、词间的顺序以及维数灾难问题，能更好地表现文本特征，大幅度提升了使用效果；同时使用线性回归模型求解权值，与使用固定的权值相比，更加灵活，也能大幅度的提升融合表示模型的效果。