CN109783636A

CN109783636A - 一种基于分类器链的汽车评论主题提取方法

Info

Publication number: CN109783636A
Application number: CN201811517941.7A
Authority: CN
Inventors: 王进; 杨阳; 李林洁; 杨俏; 孙开伟; 邓欣; 陈乔松
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Shanghai Bizite Information Technology Co ltd
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2019-05-21
Anticipated expiration: 2038-12-12
Also published as: CN109783636B

Abstract

本发明请求保护一种基于分类器链的汽车评论主题提取方法，包括：101汽车评论文本数据预处理，对汽车论坛用户历史评论数据进行预处理操作；102评论文本向量化，使用加权TF‑IDF方法对数据预处理后的每条文本进行向量化从而提取文本特征；103评论主题聚类划分，使用k‑means算法对文本主题聚类划分，得到现有主题类别的一个划分；104局部多标签分类器链主题提取算法设计：将一条完整的分类器链转化为多条局部分类器链，同时每条局部分类器链采用距离类簇中心点由远到近的原则构建链，最后多条局部分类器链集成得到最终预测结果。本发明基于汽车论坛的用户历史评论数据，提取文本特征，设计改进的局部分类器算法，建立预测模型，从而预测每条评论属于哪些主题。

Description

一种基于分类器链的汽车评论主题提取方法

技术领域

本发明属于机器学习、文本分类、多标签分类等领域，尤其涉及到文本分类中文本预处理、文本向量化，多标签分类中标签空间划分、多标签分类器链算法等技术。

背景技术

随着信息技术的进步，每天都有海量的数据产生，数据量与资源呈现海量增长的特征。如何有效的管理并利用这些数据成为了一个备受关注的领域。在数据量不断增大的同时，数据的标记结构复杂度也逐步增加，从传统的二分类问题到多分类问题，再到多标签问题。在多标签问题中一个样本关联的标签可能有多个，随着分类任务的复杂性增加，多标签数据分析的重要性也逐渐凸显，多标签分类算法在文本分类、分子结构识别、图像与视频的语言标注等领域的应用越来越广泛。多标签分类问题已经成为了当前研究的一个热点。现有的多标签分类算法可根据解决问题的角度分为问题转换法(Problem Transfusion)和算法适应法(Algorithm Adaptation)[17]。问题转化的方法是转化问题数据，使之适用现有算法；算法适应的方法是指针对某一特定的算法进行扩展，从而能够直接处理多标记数据。基于这两种思想，目前已经有多种相对成熟的算法被提出如二元关系法(BinaryRelevance,BR)，其假设每个标签彼此独立，为每个标签训练一个单独的二分类器。BR算法最大的缺点是完全没有考虑标签之间的关联性，无法挖掘标签关联信息来提高分类精度。分类器链(Classifier Chains,CC)[27]，其把原问题分解成有先后顺序的一系列二分类问题，然后前一个分类器的输出作为下一个分类器的输入。其具备结构简单，基分类器选择灵活，有效利用标签关联性等优点。

不同语言模型的区别，也就是对文本提取特征的不同。常用的模型有：

1.Bag-of-words：最原始的特征集，一个单词/分词就是一个特征。往往一个数据集就会有上万个特征；有一些简单的指标可以帮助筛选掉一些对分类没帮助的词语，例如去停词，计算互信息熵等等，但不管怎么训练，特征维度都很大，每个特征的信息量太小；

2.统计特征：包括Term frequency(TF),Inverse document frequency(IDF),以及合并起来的TF-IDF。这种语言模型主要是用词汇的统计特征来作为特征集，每个特征都能够说得出物理意义，看起来会比bag-of-words效果好，但实际效果也差不多；

3.NGram：一种考虑了词汇顺序的模型，就是N阶Markov链，每个样本转移成了转移概率矩阵。

传统多标签链文本分类方法效果受初始标签链序影响较大，且对于标签关联性的挖掘局限在随机生成的标签序列上，分类效果不稳定。本文提出了一种基于分类器链的汽车评论主题提取方法。首先提出了一种基于余弦相似度的标签相关性聚类方法，使用改进后的余弦相似度公式度量标签向量间距离，同时考虑了标签向量间的正负关联性，通过较少的计算将彼此相关性较强的标签向量划分到同一个类簇中。在此基础上利用挖掘得到的标签关联性类簇，将一条完整的分类器链转化为多条局部分类器链。本文提出的方法克服了传统算法的缺点，且时间复杂度没有显著增长。相较于现有改进算法，基于分类器链的汽车评论主题提取方法分类效果也具有优势，且效率上优势明显。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于分类器链的汽车评论主题提取方法。本发明的技术方案如下：

一种基于分类器链的汽车评论主题提取方法，其包括以下步骤：

101、对汽车论坛用户历史评论数据进行去除评论文本中的异常字符、基于滑动窗口的切词和多标签分类数据集格式转化等预处理操作；

102、评论文本向量化：使用加权TF-IDF方法对经过步骤101数据预处理后的每条文本进行向量化从而提取文本特征；

103、评论主题聚类划分：经过步骤102得到机器学习算法可理解的多标签数据集后，使用k-means算法对文本主题聚类划分，得到现有主题类别的一个划分；

104、设计局部多标签分类器链主题提取算法，具体包括：将一条完整的分类器链转化为多条局部分类器链，同时每条局部分类器链采用距离类簇中心点由远到近的原则构建链，最后多条局部分类器链集成得到最终预测结果。

进一步的，所述步骤101对汽车论坛用户历史评论数据进行去除评论文本中的异常字符、基于滑动窗口的切词和多标签分类数据集格式转化等预处理操作，具体包括：

S1011、通过汽车论坛获取用户历史评论文本原始数据，原始数据包括用户基本信息数据、评论文本、评论所属主题；

S1012、去除评论文本中的异常字符，原始评论文本中包含表情、终结字符集、前端标签在内的异常字符；在评论数据预处理阶段，利用中文、英文、标点符号字符的Unicode编码对原始评论文本过滤，只保留中文，英文，数字，中英文标点符号这四种字符；

S1013、评论文本切词，采用基于滑动窗口的切词方案，分别按照不同长度的窗口在原句上滑动，提取不同长度的切词；基于滑动窗口的切词方案提取出汽车评论文本中的汽车相关专业词汇，处理结束后的文本转化为一个词语的列表；

S1014、对原始数据按照content_id,subject为关键字构建多标签分类数据集，爬取数据中每行评论的subject为10个主题中的一个或几个，将原始数据转化为多标签数据集，及每条评论文本的主题标签为一个标签集合。

进一步的，所述用户基本数据包括user_id、age、sex、user_lv_cd字段；评论文本包括content_id评论编号、content评论文本；subject评论所属主题，每条评论的subject必须为训练集中给出的10类之中，即：动力、价格、内饰、配置、安全性、外观、操控、油耗、空间、舒适性中的一个或几个。

进一步的，所述步骤102评论文本向量化，具体包括步骤：

S1021、针对S1013切词后的评论文本，采用加权TF-IDF统计方法将词语列表转化为向量，首先过滤在整个文档中出现次数小于10次的词语；其次利用google word2vec得到每个词语的50维向量并计算该向量与每个主题词汇50维向量的欧式距离；随后对每个词语与相关主题的欧式距离乘以其TF-IDF值得到和主题数目一致的向量；最后将一条评论中的每个词语的10维向量拼接得到该评论的向量。

进一步的，所述步骤103评论主题聚类划分，具体包括步骤：

S1031、提出一种通过聚类划分评论主题的算法：算法主要思想为将S1014得到的多标签数据集中的标签作为样本，然后在标签空间执行聚类操作，使用k-means算法对文本主题聚类划分，得到现有主题类别的一个划分，原始的10个主题通过聚类划分为[“动力”，“配置”，“油耗”]、[“安全性”，“操控”，“空间”]、[“价格”，“舒适性”]，[“外观”，“内饰”]四个类别。

进一步的，所述步骤104设计局部多标签分类器链主题提取算法，具体包括：

S1041、通过S1031聚类划分评论主题的算法，具有相关关系的主题向量被划分到了同一个类簇中，即原始的10个主题划分为[“动力”，“配置”，“油耗”]、[“安全性”，“操控”，“空间”]、[“价格”，“舒适性”]，[“外观”，“内饰”]四个类别，在多标签分类器链算法中标签集合Y的条件概率乘法规则约束下，即位于位置k的标签只和前k-1个标签相关联，提出一种基于自定义相关性的标签链序列构建算法，从每个类簇中生成一条局部标签链，只包含类簇内的标签，首先选取距离簇中心最远的标签作为序列的第一个标签，此时k＝1则剩下标签的相关性之和越小越好，显然距离类簇中心最远的标签满足该条件；

S1402、通过S1041得到标签链的第一个标签，接下来按照距离类簇中心从远到近的顺序确定标签链序，这样做是因为越靠近蔟边界的样本和该蔟关联性越小越满足公式Cor(l_i,l_k)表示标签l_i、l_k之间的皮尔逊相关系数，i表示第i个标签向量，j表示第j个标签向量，q表示总的标签数量。基于以上策略得到的标签链序列为满足多标签分类器链算法条件的一个近似最优解；

S1403、通过S1402生成每个类簇的标签链序列后，为每个生成的标签链训练一个局部多标签分类器链模型，首先把原问题分解成有先后顺序的一系列二分类问题，然后前一个分类器的输出作为下一个分类器的输入，根据S1402确定的标签链序列构建一条分类器链；

S1404、通过S1403得到每条标签链序列的模型序列，预测时所有的局部多标签分类器链模型都被激活，按照标签链顺序将前一个分类器的输出作为下一个分类器的输入分别预测其对应的那部分标签，最后所有预测结果汇总即可得到样本的整个预测标签输出。

本发明的优点及有益效果如下：

针对传统标签链文本分类算法算法的缺点，本文提出了一种基于分类器链的汽车评论主题提取方法。首先步骤二提出了一种加权TF-IDF统计方法将词语列表转化为向量，通过对每个词语与相关主题的欧式距离乘以其TF-IDF值得到和主题数目一致的向量，最后将一条评论中的每个词语的10维向量拼接得到该评论的向量，相较与传统TF-IDF算法可同时考虑到句子中不同词语组成与各个主题的相关性。

随后步骤三提出了一种基于余弦相似度的标签相关性聚类方法，使用改进后的余弦相似度公式度量标签向量间距离，同时考虑了标签向量间的正负关联性，通过较少的计算将彼此相关性较强的标签向量划分到同一个类簇中。在此基础上利用挖掘得到的标签关联性类簇，将一条完整的分类器链转化为多条局部分类器链。本文提出的方法克服了传统算法的缺点，且时间复杂度没有显著增长。相较于现有改进算法，基于分类器链的汽车评论主题提取方法分类效果也具有优势，且效率上优势明显。

附图说明

图1是本发明提供优选实施例的总体流程图；

图2为本发明提供优选实施例的聚类划分示意图；

图3为本发明提供优选实施例的局部标签构建示意图；

图4为本发明提供优选实施例的测试与评估示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

随着政府对新能源汽车的大力扶植以及智能联网汽车兴起都预示着未来几年汽车行业的多元化发展及转变。汽车厂商需要了解自身产品是否能够满足消费者的需求，但传统的调研手段因为样本量小、效率低等缺陷已经无法满足当前快速发展的市场环境。因此，汽车厂商需要一种快速、准确的方式来了解消费者需求。本发明爬取一部分网络中公开的用户对汽车的相关内容文本数据作为训练集，训练集数据已由人工进行分类并进行标记。实例中定义如下的符号：

content_id：数据ID；

content：文本内容；

subject：提取或依据上下文归纳出来的主题集合；

1)概述

训练集数据中主题被分为10类，包括：动力、价格、内饰、配置、安全性、外观、操控、油耗、空间、舒适性。content_id与content一一对应，但同一条content中可能会包含多个主题。本发明包括：一种基于分类器链的汽车评论主题提取方法，其包括：

101汽车评论文本数据预处理：通过分析汽车论坛的用户历史评论文本数据，对上述文本数据进行预处理操作；

102评论文本向量化：利用TF-IDF方法将每条评论文本向量化，提取评论特征，从而将每条评论文本转化为算法可处理的向量；

103评论主题聚类划分：使用k-means算法对文本主题聚类划分，得到；现有主题类别的一个划分，从而将主题空间划分为多个子空间；

104局部多标签分类器链主题提取算法设计：首先本发明将一条完整的分类器链转化为多条局部分类器链，同时每条局部分类器链采用距离类簇中心点由远到近的原则构建链，最后多条局部分类器链集成得到最终预测结果。

优选的，所述101汽车评论文本数据预处理模块包括包括：

S1011、通过汽车论坛获取用户历史评论文本数据。原始数据包括用户基本信息数据、评论文本、评论所属主题。用户基本数据包括user_id(用户ID)、age(年龄，-1表示未知)、sex(性别，0表示男，1表示女，2表示保密)、user_lv_cd(用户等级，有顺序的级别枚举，越高级别数字越大)等字段；评论文本包括content_id(评论编号)、content(评论文本)；subject(评论所属主题，1.动力；2.价格；3.内饰；4.配置；5.安全性；6.外观；7.操控；8.油耗；9.空间；10.舒适性)。每条评论的subject必须为训练集中给出的10类之中，即：动力、价格、内饰、配置、安全性、外观、操控、油耗、空间、舒适性中的一个或几个。

S1012、去除评论文本中的异常字符，原始评论文本中包含表情，终结字符集，前端标签等异常字符。本发明在评论数据预处理阶段，利用中文，英文，标点符号等字符的Unicode编码对原始评论文本过滤，只保留中文，英文，数字，中英文标点符号这四种字符。

S1013、评论文本切词，为了能将原始评论文本转化为机器学习算法能处理的向量，本发明提出一种基于滑动窗口的切词方案。分别按照不同长度的窗口在原句上滑动，提取不同长度的切词。在此以“2.4T南昌优惠多少”为例，分别以1为步长可切为[“2”，“.”，“T”，“南”，“昌”，“优”，“惠”，“多”，“少”]，以2为步长可切为[“2.”,“.4”,“4T”,“T优”，“优惠”，“惠多”，“多少”]。基于滑动窗口的切词方案可以提取出汽车评论文本中的汽车相关专业词汇，如“2.4T”,“ESP”等。处理结束后的文本转化为一个词语的列表。

S1014、对原始数据按照content_id,subject为关键字构建多标签分类数据集，爬取数据中每行评论的subject为10个主题之一，当时其存在同一条评论内容对应多个主题情况，这是一个典型的多标签分类问题，不同于单标签分类每个样本只与某个标签关联，在多标签分类任务中，每个样本可同时与多个标签关联。本发明将原始数据转化为了多标签数据集，既每条评论文本的主题标签为一个标签集合。

优选的，所述步骤102评论文本向量化模块，具体为：

S1021、针对S1013切词后的评论文本，本发明采用加权TF-IDF统计方法将词语列表转化为向量。原始TF-IDF文本向量化方案仅考虑词频(term frequency，TF)与逆向文件频率(inverse document frequency，IDF)，此方案导致向量化后的文本向量过于稀疏。本发明提出的加权TF-IDF向量化方案首先过滤在整个文档中出现次数小于10次的词语(仅实验证明，过滤掉小于10次的词语不仅能有效的减小向量长度，还能提升分类精度)；其次利用google word2vec得到每个词语的50维向量并计算该向量与每个主题词汇50维向量的欧式距离；随后对每个词语与相关主题的欧式距离乘以其TF-IDF值得到10维(和主题数目一致)的向量；最后将一条评论中的每个词语的10维向量拼接得到该评论的向量。

优选的，所述步骤103评论主题聚类划分模块，具体为：

S1031、本发明提出一种通过聚类划分评论主题的算法，算法主要思想为将S1014得到的多标签数据集中的标签作为样本，然后在标签空间执行聚类操作，使用k-means算法对文本主题聚类划分，得到现有主题类别的一个划分。例如，原始的10个主题可以通过聚类划分为[“动力”，“配置”，“油耗”]、[“安全性”，“操控”，“空间”]、[“价格”，“舒适性”]，[“外观”，“内饰”]等四个类别。

优选的，所述步骤104局部多标签分类器链主题提取算法设计与实现模块，

具体为：

S1041、通过S1031聚类划分评论主题的算法，具有相关关系的主题向量被划分到了同一个类簇中，即原始的10个主题可划分为[“动力”，“配置”，“油耗”]、[“安全性”，“操控”，“空间”]、[“价格”，“舒适性”]，[“外观”，“内饰”]等四个类别。在多标签分类器链算法中标签集合Y的条件概率乘法规则约束下，即位于位置k的标签只和前k-1个标签相关联。本发明提出一种基于自定义相关性的标签链序列构建算法，从每个类簇中生成一条局部标签链，只包含类簇内的标签。首先选取距离簇中心最远的标签作为序列的第一个标签，此时k＝1则剩下标签的相关性之和越小越好，显然距离类簇中心最远的标签满足该条件。

S1402、通过S1001得到标签链的第一个标签，接下来按照距离类簇中心从远到近的顺序确定标签链序，这样做是因为越靠近蔟边界的样本和该蔟关联性越小越满足公式基于以上策略得到的标签链序列为满足多标签分类器链算法条件的一个近似最优解。在此以[“安全性”，“操控”，“空间”]为例，按照每个词语到类簇中心的距离由远到近排序可得到其局部标签链序列为“空间”->“安全性”->“操控”。

S1403、通过S1402生成每个类簇的标签链序列后，为每个生成的标签链训练一个局部多标签分类器链模型。首先把原问题分解成有先后顺序的一系列二分类问题，然后前一个分类器的输出作为下一个分类器的输入，根据S1402确定的标签链序列构建一条分类器链。

S1404、通过S1403可得到每条标签链序列的模型序列，预测时所有的局部多标签分类器链模型都被激活，按照标签链顺序将前一个分类器的输出作为下一个分类器的输入分别预测其对应的那部分标签，最后所有预测结果汇总即可得到样本的整个预测标签输出。

本发明基于汽车论坛的用户历史评论数据，提取文本特征，设计改进的局部分类器算法，建立预测模型，从而预测每条评论属于哪些主题。

2)数据处理

通过汽车论坛获取用户历史评论文本数据。去除评论文本中的异常字符，原始评论文本中包含表情，终结字符集，前端标签等异常字符。本发明在评论数据预处理阶段，利用中文，英文，标点符号等字符的Unicode编码对原始评论文本过滤，只保留中文，英文，数字，中英文标点符号这四种字符。评论文本切词，为了能将原始评论文本转化为机器学习算法能处理的向量，本发明在数据预处理阶段利用jieba中文切词工具对原始评论文本进行了切词处理。处理结束后的文本转化为一个词语的列表。对原始数据按照content_id,subject为关键字构建多标签分类数据集，爬取数据中每行评论的subject为10个主题之一，当时其存在同一条评论内容对应多个主题情况，这是一个典型的多标签分类问题，不同于单标签分类每个样本只与某个标签关联，在多标签分类任务中，每个样本可同时与多个标签关联。本发明将原始数据转化为了多标签数据集，既每条评论文本的主题标签为一个标签集合。

3)评论文本向量化

本发明采用加权TF-IDF统计方法将词语列表转化为向量。原始TF-IDF文本向量化方案仅考虑词频(term frequency，TF)与逆向文件频率(inverse document frequency，IDF)，此方案导致向量化后的文本向量过于稀疏。本发明提出的加权TF-IDF向量化方案首先过滤在整个文档中出现次数小于10次的词语(仅实验证明，过滤掉小于10次的词语不仅能有效的减小向量长度，还能提升分类精度)；其次利用google word2vec得到每个词语的50维向量并计算该向量与每个主题词汇50维向量的欧式距离；随后对每个词语与相关主题的欧式距离乘以其TF-IDF值得到10维(和主题数目一致)的向量；最后将一条评论中的每个词语的10维向量拼接得到该评论的向量。

4)评论主题聚类划分

本发明提出一种通过聚类划分评论主题的算法，算法主要思想为将S1014得到的多标签数据集中的标签作为样本，然后在标签空间执行聚类操作，使用k-means算法对文本主题聚类划分，得到现有主题类别的一个划分。例如，原始的10个主题可以通过聚类划分为[“动力”，“配置”，“油耗”]、[“安全性”，“操控”，“空间”]、[“价格”，“舒适性”]，[“外观”，“内饰”]等四个类别。

5)局部多标签分类器链主题提取算法设计与实现

通过S1031聚类划分评论主题的算法，具有相关关系的主题向量被划分到了同一个类簇中，即原始的10个主题可划分为[“动力”，“配置”，“油耗”]、[“安全性”，“操控”，“空间”]、[“价格”，“舒适性”]，[“外观”，“内饰”]等四个类别。接下来便是局部标签分类器链的构建，在多标签分类器链算法中标签集合Y的条件概率乘法规则约束下，即位于位置k的标签只和前k-1个标签相关联。本发明提出一种基于自定义相关性的标签链序列构建算法，从每个类簇中生成一条局部标签链，只包含类簇内的标签。首先选取距离簇中心最远的标签作为序列的第一个标签，此时k＝1则剩下标签的相关性之和越小越好，显然距离类簇中心最远的标签满足该条件；接下来按照距离类簇中心从远到近的顺序确定标签链序，基于以上策略得到的标签链序列为满足多标签分类器链算法条件的一个近似最优解。生成每个类簇的标签链序列后，为每个生成的标签链训练一个局部多标签分类器链模型。预测时，所有的局部多标签分类器链模型都被激活，分别预测其对应的那部分标签，最后所有预测结果汇总即可得到样本的整个预测标签输出。下面以[“动力”，“配置”，“油耗”]为例，首先得到三个主题距离类簇中心点的距离分别为[“动力”:78，“配置”:92，“油耗”:63]，则可构建一条距离类簇中心点距离由远到近的标签链：“配置”->“动力”->“油耗”，随后按照该链训练一个多标签链式分类器训练并得到预测结果。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于分类器链的汽车评论主题提取方法，其特征在于，包括以下步骤：

101、对汽车论坛用户历史评论数据进行去除评论文本中的异常字符、基于滑动窗口的切词和多标签分类数据集格式转化在内的预处理操作；

2.根据权利要求1所述的一种基于分类器链的汽车评论主题提取方法，其特征在于，所述步骤101对汽车论坛用户历史评论数据去除评论文本中的异常字符、基于滑动窗口的切词和多标签分类数据集格式转化等预处理操作，具体包括：

3.根据权利要求2所述的一种基于分类器链的汽车评论主题提取方法，其特征在于，所述用户基本数据包括user_id、age、sex、user_lv_cd字段；评论文本包括content_id评论编号、content评论文本；subject评论所属主题，每条评论的subject必须为训练集中给出的10类之中，即：动力、价格、内饰、配置、安全性、外观、操控、油耗、空间、舒适性中的一个或几个。

4.根据权利要求2所述的一种基于分类器链的汽车评论主题提取方法，其特征在于，所述步骤102评论文本向量化，具体包括步骤：

5.根据权利要求2所述的一种基于分类器链的汽车评论主题提取方法，其特征在于，所述步骤103评论主题聚类划分，具体包括步骤：

6.根据权利要求5所述的一种基于分类器链的汽车评论主题提取方法，其特征在于，所述步骤104设计局部多标签分类器链主题提取算法，具体包括：

S1402、通过S1041得到标签链的第一个标签，接下来按照距离类簇中心从远到近的顺序确定标签链序，这样做是因为越靠近蔟边界的样本和该蔟关联性越小越满足公式Cor(l_i,l_k)表示标签l_i、l_k之间的皮尔逊相关系数，i表示第i个标签向量，j表示第j个标签向量，q表示总的标签数量，基于以上策略得到的标签链序列为满足多标签分类器链算法条件的一个近似最优解；