CN110287329A

CN110287329A - 一种基于商品文本分类的电商类目属性挖掘方法

Info

Publication number: CN110287329A
Application number: CN201910599049.6A
Authority: CN
Inventors: 刘凡; 张伟娟; 刘森斌
Original assignee: 刘凡
Current assignee: Hohai University HHU
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2019-09-27
Anticipated expiration: 2039-07-04
Also published as: CN110287329B

Abstract

本发明公开了一种基于商品文本分类的电商类目属性挖掘方法，属于电商类目属性挖掘技术领域。该方法使用文本分类模型，根据商品文本信息对商品进行分类；基于一级类目商品分类模型与对应目标端一级类目数据建立映射；基于叶子类目商品分类模型与对应目标端叶子类目数据建立映射；基于源端类目体系和目标类目体系的映射，预测源端类目属性和目标端类目属性的相似度，建立类目属性映射，挖掘源端类目下未建立映射的属性作为目标类目的推荐属性；挖掘源端类目属性下未建立映射的属性作为目标类目的推荐属性。本发明在大规模数据集上展现出了优异的分类效果和良好的分类性能。

Description

一种基于商品文本分类的电商类目属性挖掘方法

技术领域

本发明一种基于商品文本分类的电商类目属性挖掘方法涉及电商类目属性挖掘方法，具体涉及每个电商平台的类目属性属性值挖掘方法，属于电商类目属性挖掘技术领域。

背景技术

类目体系建设方法目前总体来说共有三种方法，分别是运营人工构建，商家共建，基于大数据挖掘的方法，下面分别论述。

运营人工构建主要应用于电子商务平台发展初期，此时商品数目少，商品分类规模小，用户需求单一，市场覆盖范围小，运营人工构建不仅简单而且可以满足需求，淘宝，京东等电子商务平台初期均是应用此方法来建设类目体系。但是随着电子商务平台的发展进入大数据时期，电子商务平台的商品数以亿计，分类规模已达数万，用户需求多样，覆盖的市场范围极大，此时再用运营人工构建的方法去建设类目体系不仅要耗费大量的人力，而且往往建设往往无法再有效的跟随市场的发展，即运营无法及时的敏锐的感知到市场需求的变化。

在这种情况下，商家共建的方法被提出。作为电子商务平台上的卖家，商家对于市场需求的变化是最为及时的，商家对于电子商务平台的类目建设的完备性的需求也是最为迫切的，因此开放一个平台让商家参与到类目建设中来是一个有效的方案，然而此种方法依然没有解决大数据时代下依靠人工建设的巨大成本以及时效性问题。总之，完全基于人工构建类目体系的方法在大数据时代下已无法满足成熟的电子商务平台的需要。

在电子商务进入大数据时代后，电子商务平台积累了大量的商品数据，评价数据，类目数据等等。如何基于这些数据有效的挖掘出信息成为了一个研究方向，如蒋建洪等（蒋建洪, 罗玫. 在线商品的潜在语义信息提取及分类研究[J]. 计算机与数字工程, 2014(1):112-116.）利用电子商务平台的大量交易数据，商品数据，使用潜在语义分析方法，实现了一个商品类别分类算法，该算法可以应用于类目建设中以挖掘出新的类目。电子商务评价数据也大量的在大数据挖掘中被采用，陈江涛等（陈江涛, 张金隆, 张亚军. 在线商品评论有用性影响因素研究：基于文本语义视角[J]. 图书情报工作, 2012, 56(10).）利用亚马逊在线评论数据，挖掘类目下消费者感兴趣的关键信息，崔永生（崔永生. 在线评论文本挖掘对电商的影响研究[J]. 中国商论, 2018, 772(33):23-29.）基于对在线评论文本的挖掘，设计了一种基于语义词典的评论商品属性<特征词，观点词>对抽取方法，这些基于评论数据挖掘得到的信息可以作为属性，属性值等被应用到电子商务平台的类目体系建设中。

随着电子商务平台的蓬勃发展，基于大数据挖掘的类目体系建设方法以其快速，高效，自动化，成本低等优势将逐渐替代基于人工建设的方法。

发明内容

本发明所要解决的技术问题是：提供一种基于商品文本分类的电商类目属性挖掘方法，采用更加快速的、架构简单的、计算效率更高的编码方法解决电商类目属性挖掘问题。

本发明是采用以下技术方案实现的：

一种基于商品文本分类的电商类目属性挖掘方法，包括如下步骤：

步骤1，创建源端商品标题文本数据集为，其中表示源端第i个一级类目所包含的文本数据集合，其中 ,M为源端一级类目的个数，M的取值范围是正整数，表示源端第i个一级类目的第p个叶子类目所包含的文本数据集合，其中，S表示源端一级类目下叶子类目的总数，S的取值范围是正整数；

创建目标端商品标题文本数据集,其中表示目标端第j个一级类目所包含的文本数据集合，其中，N为目标端一级类目的个数，表示目标端第j个一级类目的第q个叶子类目所包含的文本数据集合，其中，T表示目标端一级类目下叶子类目的总数，T的取值范围是正整数；

步骤2，对源端商品标题文本数据集和目标端商品标题文本数据集进行文本预处理，所述文本预处理包括文本清洗，文本分词和文本表示等步骤；

将经过文本清洗和文本分词步骤处理过的商品标题用词袋模型进行文本表示，得到源端数据集为，其中表示源端数据经文本表示得到的数据集中第i个一级类目所包含的数据集合，其中，M为源端一级类目的个数，M的取值范围是正整数，表示源端第i个一级类目的第p个叶子类目所包含的数据集合，其中，S表示源端一级类目下叶子类目的总数，S的取值范围是正整数；

经过文本表示后目标端数据集为，其中表示目标端数据经文本表示得到的数据集中第j个一级类目所包含的数据集合，其中，N为目标端一级类目的个数, 表示目标端第j个一级类目的第q个叶子类目所包含的数据集合，其中，T表示目标端一级类目下叶子类目的总数，T的取值范围是正整数；

步骤3，使用数据集训练具有N个一级类目分类结果的fastText线性文本分类器，得到目标端基于fastText的一级类目商品文本分类模型M-root；对于一级类目j所有对应的数据集训练具有T个叶子类目分类结果的fastText线性文本分类器，得到目标端一级类目j下的叶子类目商品文本分类模型M-leaf [j]；

步骤4，使用步骤3训练好的模型M-root预测源端一级类目的文本数据集中的每一条数据，得到每一条数据在目标端对应的一级类目，然后选取出现次数最多的一级类目j作为映射结果；

步骤5，基于步骤4的一级类目映射结果，即源端一级类目与目标端一级类目形成映射，使用步骤3训练好的叶子类目分类模型M-leaf [j]预测源端类目i对应的文本数据集合中的每一条文本数据，其中，S表示源端一级类目下叶子类目的总数，S的取值范围是正整数，得到每条文本数据在目标端一级类目j下对应的叶子类目，然后选取出现次数最多的叶子类目q作为映射结果；

步骤6，基于步骤5的叶子类目映射结果，假设源端一级类目i下的叶子类目p映射到目标端一级类目j的叶子类目q上，则源端一级类目i下的叶子类目p的属性集合与目标端一级类目j下的叶子类目q的属性集合形成映射，其中为源端叶子类目的第a个叶子类目属性，，K表示叶子类目p的属性总数，K的取值范围是正整数，为目标端叶子类目q的第b个叶子类目属性，，L表示叶子类目q的属性总数，L是正整数，设属性映射的文本相似度阈值为Ta；

使用基于LCS算法的属性文本相似度模型M-LCS，计算与中每个属性的文本相似度，若文本相似度均低于阈值Ta，说明叶子类目q没有此属性，则将放入集合Att-c，否则取中文本相似度最高的属性（若有多个，则随机取一个）建立映射；产生的集合Att-c即为从源端类目下挖掘的属性，集合Att-c中的属性即为目标端对应叶子类目下的推荐属性；

步骤7，基于步骤6的叶子类目属性映射结果，假设源端叶子类目属性与目标端叶子类目属性形成映射，其中为的第u个属性值，其中，G表示叶子类目的属性的属性值总数，G的取值范围是正整数，为的第w个叶子类目属性属性值，，H表示叶子类目属性的属性值总数，H的取值范围是正整数，设属性值映射的文本相似度阈值为Tv；

使用基于LCS算法的属性文本相似度模型M-LCS，计算与中每个属性值的文本相似度，若文本相似度均低于阈值Tv，说明目标端类目属性没有此属性，则将放入集合Vul-c；产生的集合Vul-c即为从源端类目下挖掘的属性值，集合Vul-c中的属性即为目标端对应叶子类目属性下的推荐属性值。

作为本发明的一种优选方案，步骤2所述文本预处理过程包括文本清洗、文本分词、文本表示三个步骤，具体过程如下：

2-1）对商品标题字段进行清洗处理，将传入的源端商品标题数据集和目标端商品标题数据集中符合正则表达式“[^\\x{4e00}-\\x{9fa5}0-9a-zA-Z]”的部分全部替换为替换字符串，其中“^\\x{4e00}-\\x{9fa5}”表示中文字符，“0-9”表示数字字符，“a-z”表示小写英文字母字符，“A-Z”表示大写英文字母字符；

2-2）基于步骤（2-1）文本清洗的结果，再使用分词组件分别对源端商品标题数据集和目标端商品标题数据集进行分词；根据分词结果统计源端和目标端商品标题数据集中每个词出现的频数，为目标端商品标题文本数据生成对应的词查找表；

2-3）基于步骤（2-2）文本分词的结果，使用词袋模型进行文本表示，并且采用文本的n-grams作为额外特征来获取文本局部顺序的部分信息，用以弥补使用词袋模型的文本表示带来的语义损失，得到源端数据集为，其中表示源端数据经文本表示得到的数据集中第i个一级类目所包含的数据集合，，M为源端一级类目的个数，M的取值范围是正整数，表示源端第i个一级类目的第p个叶子类目所包含的数据集合，，S表示源端一级类目下叶子类目的总数，S的取值范围是正整数；

文本表示后目标端数据集为，其中表示目标端数据经文本表示得到的数据集中第j个一级类目所包含的数据集合，，N为目标端一级类目的个数，表示目标端第j个一级类目的第q个叶子类目所包含的数据集合，，T表示目标端一级类目下叶子类目的总数，T的取值范围是正整数。

作为本发明的一种优选方案，步骤3所述使用fastText线性文本分类器对一级类目和所属叶子类目的商品标题文本进行分类，具体过程如下：

3-1）以文本的词查找表作为权重矩阵A输入fastText文本分类器，隐藏层对权重矩阵A做简单的叠加然后求平均向量，该平均向量作为词表示的文本表示送入输出层；

3-2）其中输出层使用基于哈夫曼编码树的分层softmax，在这个哈夫曼编码树中，每一个节点代表一个分类标签；以每个分类标签出现的次数为权重来构建该哈夫曼编码树，分类标签出现的次数越多，该分类标签在哈夫曼编码树中的路径就越短；

设该哈夫曼编码树的每个节点都有一个从根节点到该节点的路径概率，如果一个节点的深度为，它的父节点为，那么它的概率为：

；

其中表示该节点到根结点的路径长度，的取值范围是正整数；

3-3）fastText模型代价函数为：

；

其中N为输入文本的个数，是第n个文本的标准化向量，是第n个输入文本的对应标签，B和A是模型的权重矩阵。

作为本发明的一种优选方案，步骤6所述基于LCS算法的属性文本相似度，计算公式如下：

；

其中Ts为文本相似度，为源端属性文本的长度，为目标端属性文本的长度，为使用Needleman—Wunsch算法得到的LCS字符串的长度。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、本发明由于引入了fastText文本分类模型，一定程度上简化了类目属性属性值挖掘过程中商品标题文本分类的模型架构，大大减少了商品分类过程中的训练时间，在大规模数据集上也展现出了优异的分类效果和非常快的训练速度以及分类性能。

2、本发明采用了更高效的基于哈夫曼编码树的分层softmax，简单易行，计算效率更高。

3、本发明采用了基于LCS算法的文本相似度计算，计算属性属性值之间的相似度，大大节省了属性属性值建立映射的时间，高效而又快速。

附图说明

以下将结合附图对本发明作进一步说明：

图1是本发明基于商品分类模型实现的类目属性属性值映射原理图；

图2是本发明基于fastText的商品文本分类方法的模型图；

图3是本发明基于fastText的商品文本分类模型与常用的文本分类模型TextCNN、TextRNN、TextRCNN进行实验的准确率对比图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

电商类目属性挖掘问题的难点在于解决大规模的商品分类问题和类目属性属性值映射问题，一个完备的类目体系能适应不同用户的不同需求，从而提升整个电子商务平台的交易量。基于这一需求，本发明提出一种基于商品文本分类的电商类目属性挖掘方法。

如图1所示，本发明一种基于商品文本分类的电商类目属性挖掘方法，包括以下步骤：

1、首先创建源端商品标题文本数据集为，其中表示源端第i个一级类目所包含的文本数据集合，，M为源端一级类目的个数，M的取值范围是正整数，表示源端第i个一级类目的第p个叶子类目所包含的文本数据集合，，S表示源端一级类目下叶子类目的总数，S的取值范围是正整数；

创建目标端商品标题文本数据集，其中表示目标端第j个一级类目所包含的文本数据集合，，N为目标端一级类目的个数，表示目标端第j个一级类目的第q个叶子类目所包含的文本数据集合，，T表示目标端一级类目下叶子类目的总数，T的取值范围是正整数。

2、对源端商品标题文本数据集和目标端商品标题文本数据集进行文本预处理，包括文本清洗，文本分词和文本表示等步骤；

将文本清洗和文本分词步骤处理过的商品标题用词袋模型进行文本表示，得到源端数据集为，其中表示源端数据经文本表示得到的数据集中第i个一级类目所包含的数据集合，M为源端一级类目的个数，M的取值范围是正整数，表示源端第i个一级类目的第p个叶子类目所包含的数据集合，，S表示源端一级类目下叶子类目的总数，S的取值范围是正整数；

文本表示后目标端数据集为，其中表示目标端数据经文本表示得到的数据集中第j个一级类目所包含的数据集合，，N为目标端一级类目的个数，表示目标端第j个一级类目的第q个叶子类目所包含的数据集合，，T表示目标端一级类目下叶子类目的总数，T的取值范围是正整数；

步骤2的具体过程如下：

(2-1)对商品标题字段进行清洗处理，将传入的源端商品标题数据集和目标端商品标题数据集中符合正则表达式“[^\\x{4e00}-\\x{9fa5}0-9a-zA-Z]”的部分全部替换为替换字符串，其中“^\\x{4e00}-\\x{9fa5}”表示是中文字符，“0-9”表示数字字符，“a-z”表示小写英文字母字符，“A-Z”表示大写英文字母字符；

(2-2)基于步骤(2-1)文本清洗的结果，再使用分词组件分别对源端商品标题数据集和目标端商品标题数据集进行分词；根据分词结果统计源端和目标端商品标题数据集中每个词出现的频数，为目标端商品标题文本数据生成对应的词查找表；

(2-3)基于(2-2)文本分词的结果，使用词袋模型进行文本表示，并且采用文本的n-grams作为额外特征来获取文本局部顺序的部分信息，用以弥补使用词袋模型的文本表示带来的语义损失，得到源端数据集为，其中表示源端数据经文本表示得到的数据集中第i个一级类目所包含的数据集合，，M为源端一级类目的个数，M的取值范围是正整数，表示源端第i个一级类目的第p个叶子类目所包含的数据集合，，S表示源端一级类目下叶子类目的总数，S的取值范围是正整数；

3、使用数据集训练具有N个一级类目分类结果的fastText线性文本分类器，得到目标端基于fastText的一级类目商品文本分类模型M-root；对于一级类目j所有对应的数据集训练具有T个叶子类目分类结果的fastText线性文本分类器，得到目标端一级类目j下的叶子类目商品文本分类模型M-leaf[j]。

步骤3的具体过程如下：

(3-1)如图2，以文本的词查找表作为权重矩阵A输入fastText文本分类器，隐藏层对权重矩阵A做简单的叠加然后求平均向量，该平均向量作为词表示的文本表示送入输出层；

(3-2)其中输出层使用基于哈夫曼编码树的分层softmax，在这个哈夫曼编码树中，每一个节点代表一个分类标签；

以每个分类标签出现的次数为权重来构建该哈夫曼编码树，分类标签出现的次数越多，该分类标签在哈夫曼编码树中的路径就越短；

；

(3-3)fastText模型代价函数为：

；

4、使用步骤3训练好的模型M-root预测源端一级类目，得到其在目标端对应的一级类目，然后选取出现次数最多的一级类目作为映射结果。

5、基于步骤4的一级类目映射结果，即源端一级类目与目标端一级类目形成映射，使用步骤3训练好的叶子类目分类模型M-leaf[j]预测源端类目i对应的文本数据集合中的每一条文本数据，，得到每条文本数据在目标端一级类目j下对应的叶子类目，然后选取出现次数最多的叶子类目q作为映射结果。

6、基于步骤5的叶子类目映射结果，假设源端一级类目i下的叶子类目p映射到目标端一级类目j的叶子类目q上，则源端一级类目i下的叶子类目p的属性集合与目标端一级类目j下的叶子类目q的属性集合形成映射，其中为源端叶子类目的第a个叶子类目属性，，为目标端叶子类目q的第b个叶子类目属性，，设属性映射的文本相似度阈值为Ta。使用基于LCS算法的属性文本相似度模型M-LCS，计算与中每个属性的文本相似度，若文本相似度均低于阈值Ta，说明叶子类目q没有此属性，则将放入集合Att-c，否则取中文本相似度最高的属性（若有多个，则随机取一个）建立映射。产生的集合Att-c即为从源端类目下挖掘的属性，集合Att-c中的属性即为目标端对应叶子类目下的推荐属性。

其中基于LCS算法的属性文本相似度，计算公式如下：

；

7、基于步骤6的叶子类目属性映射结果，假设源端叶子类目属性与目标端叶子类目属性形成映射，其中为的第u个属性值，，为的第w个叶子类目属性属性值，，设属性值映射的文本相似度阈值为Tv。使用基于LCS算法的属性文本相似度模型M-LCS，计算与中每个属性值的文本相似度，若文本相似度均低于阈值Tv，说明目标端类目属性没有此属性，则将放入集合Vul-c。产生的集合Vul-c即为从源端类目下挖掘的属性值，集合Vul-c中的属性即为目标端对应叶子类目属性下的推荐属性值。

本发明公开一种基于商品文本分类的电商类目属性挖掘方法，可以根据商品标题对商品进行分类，根据分类结果建立类目属性属性值之间的映射，有效解决电商平台商品分类混乱，用户难以找到自己想要的商品，电子商务平台提供的基于商品分类的搜索和导购功能的准确率低的问题。其中fastText文本分类模型，以其模型架构简单、分类快速高效的优点，在大规模数据集上也展现出了优异的分类效果和良好的分类性能以及非常快的训练速度。如图3所示，从50万的数据集中随机选取 80%作为训练集、10%作为验证集、10%作为测试集，结果显示fastText商品文本分类模型的准确率比TextCNN、TextRNN、TextRCNN文本分类模型的准确率高出很多，并且在训练速度上fastText商品文本分类模型还高出几个数量级。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于商品文本分类的电商类目属性挖掘方法，其特征在于，包括如下步骤：

创建源端商品标题文本数据集为，其中表示源端第i个一级类目所包含的文本数据集合，其中，M为源端一级类目的个数，M的取值范围是正整数，表示源端第i个一级类目的第p个叶子类目所包含的文本数据集合，其中，S表示源端一级类目下叶子类目的总数，S的取值范围是正整数；

创建目标端商品标题文本数据集，其中表示目标端第j个一级类目所包含的文本数据集合，其中，N为目标端一级类目的个数，表示目标端第j个一级类目的第q个叶子类目所包含的文本数据集合，其中，T表示目标端一级类目下叶子类目的总数，T的取值范围是正整数；

经过文本表示后目标端数据集为，其中表示目标端数据经文本表示得到的数据集中第j个一级类目所包含的数据集合，其中，N为目标端一级类目的个数表示目标端第j个一级类目的第q个叶子类目所包含的数据集合，其中，T表示目标端一级类目下叶子类目的总数，T的取值范围是正整数；

步骤5，基于步骤4的一级类目映射结果，即源端一级类目与目标端一级类目形成映射，使用步骤3训练好的叶子类目分类模型M-leaf [j]预测源端类目i对应的文本数据中的每一条文本数据，其中，S表示源端一级类目下叶子类目的总数，S的取值范围是正整数，得到每条文本数据在目标端一级类目j下对应的叶子类目，然后选取出现次数最多的叶子类目q作为映射结果；

步骤7，基于步骤6的叶子类目属性映射结果，假设源端叶子类目属性与目标端叶子类目属性形成映射，其中为的第u个属性值，其中，G表示叶子类目属性的属性值总数，G的取值范围是正整数，为的第w个叶子类目属性属性值，，H表示叶子类目属性的属性值总数，H的取值范围是正整数，设属性值映射的文本相似度阈值为Tv；

2.根据权利要求1所述基于商品文本分类的电商类目属性挖掘方法，其特征在于，步骤2所述文本预处理过程包括文本清洗、文本分词、文本表示三个步骤，具体过程如下：

文本表示后目标端数据集为，其中表示目标端数据经文本表示得到的数据集中第j个一级类目所包含的数据集合，，N为目标端一级类目的个数表示目标端第j个一级类目的第q个叶子类目所包含的数据集合，，T表示目标端一级类目下叶子类目的总数，T的取值范围是正整数。

3.根据权利要求1所述基于商品文本分类的电商类目属性挖掘方法，其特征在于，步骤3所述使用fastText线性文本分类器对一级类目和所属叶子类目的商品标题文本进行分类，具体过程如下：

设该哈夫曼编码树的每个节点都有一个从根节点到该节点的路径概率，如果一个节点的深度为 +1，它的父节点为,...,，那么它的概率为：

；

3-3）fastText模型代价函数为：

；

4.根据权利要求1所述基于商品文本分类的电商类目属性挖掘方法，其特征在于，步骤6所述基于LCS算法的属性文本相似度，计算公式如下：

；