CN110245800A

CN110245800A - 一种基于优化向量空间模型定制商品信息分类标识的方法

Info

Publication number: CN110245800A
Application number: CN201910530023.6A
Authority: CN
Inventors: 戴瑾; 王辰光; 王闯
Original assignee: NANJING UNIVERSITY JINGLING COLLEGE
Current assignee: NANJING UNIVERSITY JINGLING COLLEGE
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2019-09-17

Abstract

本发明公开了一种基于优化向量空间模型定制商品信息分类标识的方法，包括以下步骤：采集电子商务网站上的商品信息和所属分类标识，进行数据集成，生成数据集；根据所述数据集中的不同商品信息类别提取特征信息，构建属性词典；依据所述属性词典对商品信息进行向量化预处理，构成矩阵；利用优化的SVM模型训练出分类器；提供基于Web的商品预测服务。本发明支持在海量商品信息中训练出高效模型对商品进行快速准确的分类，实现对商品标签的合理判定。

Description

一种基于优化向量空间模型定制商品信息分类标识的方法

技术领域

本发明涉及商品信息分类领域，尤其涉及一种基于优化向量空间模型定制商品信息分类标识的方法。

背景技术

随着互联网科技和电子商务的迅猛发展，网上购物对企业的发展和人们的日常生活产生了深刻的影响。在电子商务的虚拟环境下，商家可以在网上提供的商品数量和种类非常庞大。在面对海量商品信息的情况下，对商品制定分类，有利于用户寻找自己所需的商品。分类一直也是数据科学界研究的重点问题。针对现在每天都会产生的大量商品名称，目前大多采用人工分类的方法，不仅工作量巨大、速度慢，而且也容易出现分类错误的情况。

发明内容

发明目的：针对上述现有技术存在的问题和不足，本发明的目的是提供一种基于优化向量空间模型定制商品信息分类标识的方法，支持在海量商品信息中训练出高效模型对商品进行快速准确的分类，实现对商品标签的合理判定。

技术方案：为实现上述发明目的，本发明采用的技术方案为一种基于优化向量空间模型定制商品信息分类标识的方法，包括以下步骤：

1)采集电子商务网站上的商品信息和所属分类标识，进行数据集成，生成数据集；

2)根据所述数据集中的不同商品信息类别提取特征信息，构建属性词典；

3)依据所述属性词典对商品信息进行向量化预处理，构成矩阵；

4)利用优化的SVM模型训练出分类器；

5)提供基于Web的商品预测服务。

进一步地，所述步骤1)包括以下步骤：

11)通过爬虫模块抓取指定电子商务网站上的商品信息和所属分类标识，过滤出格式化的数据；或由电子商务网站提供格式化的数据集；

12)所述数据集为包含商品信息和所属分类标识，保存为csv或tsv格式的文件。

进一步地，所述步骤2)包括以下步骤：

21)通过中文分词工具对商品信息进行分词，在自定义词库user-dict中更新可能出现的新词和未识别词，停用无用词；

22)对所述数据集中的样本按类别分组；

23)每组样本逐条将商品信息叠加成一个长文本；

24)对每类所述长文本使用词频-逆文档频率(TF-IDF，Term Frequency-InverseDocument Frequency)算法，按权重从大到小筛选出具有商品类别特征的16个中文关键词；

25)将所有分组产生的中文关键词汇总，清除重复的中文关键词，构建属性词典。

进一步地，所述步骤3)包括以下步骤：

31)利用属性词典中的每个词条构造样本的属性列；

32)对每个样本中的商品信息进行分词；

33)判断所述分词是否具有相互重合的属性列，如有则标识为0，如无则标识为1；

34)循环执行32)和33)步骤，直至所有样本处理完，产生一个以样本记录条数为行，属性为列的0、1元素的矩阵，其中每一行就是一个样本的特征向量，从而将文本数据转换成计算机能够直接处理的结构化数据；

35)将对应的分类标签添加作为所述矩阵的最后一列。

进一步地，所述步骤4)包括以下步骤：

41)选用优化的SVM算法LinearSVM，设定惩罚系数c＝1.0；linearSVM可以解决任意类的多分类问题，其特征在于可以高效处理超大数据集，可处理稀疏或密集格式的高维数据，无需昂贵的计算机资源；

42)当数据集超过10万条的情况下，按百分比在每分类随机选取数据子集，按6：2：2的比例拆分为训练集，测试集，验证集；并按照所述步骤3)分别构成训练集矩阵，测试集矩阵，验证集矩阵；

43)LinearSVM分类器输入所述训练集矩阵，训练出模型；

44)用所述模型对验证集进行测试：将所述验证集矩阵输入模型进行预测，得到正确率并将未能正确分类的样本加入训练集，重新构建训练集矩阵，训练出模型；

45)重复步骤43)和44)，直到所述正确率稳定不变；

46)用所述测试集的数据对所述模型的参数c进行调整，所述参数c的取值范围是0.1-10；将所述测试集矩阵输入模型进行预测，得到正确率，调整参数c的值；再次测试正确率，比较上一次模型在测试集上的正确率和在训练集上的正确率，当测试集的正确率不再上升，训练集的正确率不再下降时停止训练，最终确定参数c；

47)输出模型.M文件。

进一步地，所述步骤5)包括以下步骤：

51)搭建Web服务器和网页；

51)部署模型文件到所述Web服务器上；

52)通过浏览器访问网页，并输入商品名称，可逐条输入或批量输入；

53)所述Web服务器接收商品名称，调用模型得出预测结果并将预测结果返回；

54)所述浏览器显示出预测结果。

有益效果：本发明通过采集电子商务网站上的商品信息和所属分类标识，生成数据集，提供通过利用提取特征信息构建属性词典，对海量商品信息进行向量化预处理的方法，提供优化的模型方法，从海量数据中选出具有代表性的样本构建出小规模训练集，在较低计算能力的环境下快速高效生成分类器。本发明提供的是一种拥有处理超大数据集能力，生成高置信度商品信息分类模型构建方法，并提供逐条或批量实现商品信息分类标识的Web服务。

附图说明

图1为本发明提供的商品信息分类标识方法的的系统场景结构图；

图2为本发明提供的一种用于定制商品信息分类标识模型训练的处理流程图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明适用于针对海量数据信息进行分类标识的应用场景，实现基于linearSVM模型算法进行优化处理的机器学习模型训练和分类系统，通过分词工具和构建的词典，可以将文本数据标准化处理，并封装成矩阵直接输入模型进行训练。设计出优化的训练方法和训练模型，达到在较低计算能力的环境下快速高效生成分类器的目标。

应用场景：

现已采集到500万条商品信息(商品信息为文本数据)的样本。其中50万条是带有商品标签的样本，另外450万条是不带商品标签的待分类样本。我们在python3.0的集成环境中运行脚本。

1.首先通过pandas.read_csv方法读取50万条数据。通过排序方法将数据按类排序，再通过循环方法将每一类样本描述信息拼接成长文本，将长文本输入基于TF_IDF的特征值提取方法jieba.analyse.extract_tags()，将得到的特征值放入空的特征值数组attribute[]中，并且每次将特征值追加到数组时都循环遍历数组，如果已存在则不进行追加。最终得到长度为9066的attribute[],将atribute[]作为属性词典，以csv格式输出到文件dict.csv中保存。

2.用pandas读取50万条数据(当数据量为10万条以下时可直接按6:2:2划分数据为训练集、验证集、测试集)，按分类和每一类范围内的随机下标随机取80％的样本作为验证集，20％作为测试集。在训练集中取80％的数据作为验证集，剩余的20％用pandas输出作为训练集train.csv。同时输出验证集varify.csv和测试集test.csv。

3.分别读取train.csv、varify.csv、test.csv和dict.csv。将train中的每个样本用jieba分词，判断其分词是否在词典中存在，存在标记为1，不存在标记为0。以词典为列、样本个数为行创建一个dataframe，将每条样本的标记按行写入。用Dataframe.to_csv()输出训练集向量化结果train_attr.csv。同样的操作可获得varify_attr.csv和test_attr.csv。

4.读取train.csv的商品标签train_label，以dataframe格式读取train_attr.csv到train。通过sklearn包的LinearSvc()方法创建空的模型model，设置参数为默认值，调用fit()方法输入train和train_label。从验证集中随机提出25％的数据样本，同样读取验证集标签varify_label和varify，通过输入varify到model的predict()方法的到预测标签predict，比较predict和varify_label，得到预测准确率，将分类不正确的样本取出加入训练集，再将训练集重新向量化。反复进行这一步骤，直到预测准确趋于正确率稳定不变，确定该训练集为可信度高的较好的训练集，输出训练集train2.csv，train2_attr.csv。

5.读取train2.csv和train2_attr.csv，获得train2和train2_label，用其训练模型model，用model.socre()获得模型训练集上正确率socre1。读取tset.csv和test_attr.csv，同样通过model的predict()预测得到模型在测试集上的准确率socre2。初始c＝1.0,将c以0.1为步长减小，发现在c<0.9后socre1开始大幅度减小在0.5时为80％，将c＝1.0以0.1为步长增大，发现socre1趋向于95％以上，但socre2降低至74％-70％左右。因此判定c的范围在0.9到1.1之间，在c＝0.9是按0.01为步长逐步增大，比较获取socre1和socre2，最终选定c值为0.98。

6.通过sklearn包中的joblib.dump方法将model输出为model.M文件。

7.引入python的wsgiref.simple_server包，使用make_server方法建立服务器；

8.将模型文件部署服务器，使用joblib.load()方法调用模型，predict()方法预测结果；

9.网页采用query()方法向服务器发送请求，使用ajax技术以json格式传递商品信息；

10.Web服务器(简称服务器)以httpd.handle_request()和httpd.server_forever()方法处理请求，application函数接收保存参数和商品信息数据，引用morning函数调用application商品数据和predict()方法得到预测结果，以json格式将预测结果传递给application函数，服务器将结果通过application回应给网页。

11.网页query()方法接收预测结果，并将结果赋予text控件result显示在浏览器。

本发明使用的Python是一种解释型脚本开发语言，因此所有函数实现都是基于Python库构建。下面介绍的是优化的训练方法、模型选取以及相关工具的使用。

1.本发明选择jieba这个最好的Python中文分词组件中文分词工具，并添加了根据经验选用的和商品信息相关的新词以及设置停用词的方法，从而获得更优的符合实际业务处理的分词结果。同时我们主要使用pandas快速高效的存取数据，通过DataFrame数据格式，加载、保存csv数据源，处理数组进行去重、统计。

2.采用TF-IDF算法进行特征值提取，首先计算词频(TF＝词的出现次数/总词数)，其次计算逆文档频率(IDF＝log(语料库文档总数/包含该词的文档数+1))，最后计算TF-IDF(TF*IDF)，将所有词的TF-IDF值降序排列取前16个作为特征值。并且采用按类提取特征值的方法，对每一类的所有样本分别进行TF-IDf特征值提取，最终收集不同分类的所有特征值，整合重复项构建出属性词典。

3.选择更适合，具有海量文本信息分类的linearSVM模型，该模型算法不同于传统二分类的SVM模型，可支持处理种类多而分类复杂的超高维数据的输入。同时linearSVM在大数据的处理速度和效率上比SVM更好，是更适合商品类信息的处理模型算法。

4.本系统设计优化的训练算法。对于采集到的50万条商品分类的样本，首先将样本按分类排序，得到有序的1252个分类的数据块，然后划分训练集时采用按类提取的方法，每一类数据选择70％作为训练样本30％作为测试样本，如果数据不足10条则选取50％作为训练集50％测试集，保证每类数据都能取到。同时从训练集中取80％数据设置一个验证池，每次从验证池中随机取25％的数据，用训练的模型测试验证数据，将未正确分类的数据加入训练集重新训练，将验证池中该部分数据删除，尽可能减少随机采样的不稳定性，反复训练直到模型准确率趋于稳定。

5.对于拥有高维特征的数据，在对文本数据向量化时，如果一次性载入数据量过大可能会导致内存崩溃。因此本系统将数据分批导入，进行向量化处理之后，再将向量化的数据与商品标识整合，构建预处理数据矩阵。少量数据时处理速度稳定，当处理数据数量过多时效率还是会有所下降。

本发明具体应用途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进，这些改进也应视为本发明的保护范围。

Claims

1.一种基于优化向量空间模型定制商品信息分类标识的方法，其特征在于，包括以下步骤：

4)利用优化的SVM模型训练出分类器；

5)提供基于Web的商品预测服务。

2.根据权利要求1所述一种基于优化向量空间模型定制商品信息分类标识的方法，其特征在于：所述步骤1)包括以下步骤：

3.根据权利要求1所述一种基于优化向量空间模型定制商品信息分类标识的方法，其特征在于：所述步骤2)包括以下步骤：

22)对所述数据集中的样本按类别分组；

23)每组样本逐条将商品信息叠加成一个长文本；

24)对每类所述长文本使用词频-逆文档频率算法，按权重从大到小筛选出具有商品类别特征的16个中文关键词；

4.根据权利要求1所述一种基于优化向量空间模型定制商品信息分类标识的方法，其特征在于：所述步骤3)包括以下步骤：

31)利用属性词典中的每个词条构造样本的属性列；

32)对每个样本中的商品信息进行分词；

35)将对应的分类标签添加作为所述矩阵的最后一列。

5.根据权利要求1所述一种基于优化向量空间模型定制商品信息分类标识的方法，其特征在于：所述步骤4)包括以下步骤：

41)选用优化的SVM算法LinearSVM，设定惩罚系数c＝1.0；