CN111274402B - 一种基于无监督分类器的电商评论情感分析方法 - Google Patents
一种基于无监督分类器的电商评论情感分析方法 Download PDFInfo
- Publication number
- CN111274402B CN111274402B CN202010082170.4A CN202010082170A CN111274402B CN 111274402 B CN111274402 B CN 111274402B CN 202010082170 A CN202010082170 A CN 202010082170A CN 111274402 B CN111274402 B CN 111274402B
- Authority
- CN
- China
- Prior art keywords
- emotion
- word
- corpus
- centroid
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于无监督分类器的电商评论情感分析方法,首先,需要获取电商的评论数据,对数据进行预处理;然后,构建情感词网络并基于文本统计和词嵌入模型建立两类特征向量空间;接着,根据情感词网络生成k‑means初始质心,使用极值点进行基于文本统计的聚类,记录聚类结果和质心,并通过k‑medoids算法进行对筛选特征集的聚类,记录质心及其对应语料;之后,使用word2vec构建基于词嵌入模型的特征向量,结合前一步骤记录的语料对应的特征向量为初始质心再次进行k‑means分类,得出结果;最后,结合情感词典分类的结果进行投票得出最终结果。本发明降低了人工标注语料的成本投入和领域依赖性,结合集成学习模型提高了无监督电商评论情感分析的准确率。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于无监督分类器的电商评论情感分析方法。
背景技术
互联网的迅猛发展使电子商务迅速崛起,在几乎全民网上购物的时代使得各大电商之间、同样平台的不同商家之间的竞争日益激烈。用户在线评论除了是对商品信息的反馈和与店家的沟通,更重要的是为新的购买用户提供重要的参考、和商家后续改进服务及商品的重要参考。商品的评论中包含了许多有价值的信息,一方面消费者可以通过商品评论来了解商品的口碑,进而作出相应的购买决策;另一方面生产厂家可以通过评论来发现商品存在的问题,进而改善产品质量。如今面临海量数据,需要有一套科学的方案辅助进行数据分析,挖掘数据中所隐藏的价值,因此,在电商领域针对评论的情感分析成为自然语言处理最为活跃的领域之一。
情感分析又称为观点挖掘、情绪分析、情感倾向分析,属于自然语言处理的具体应用,是借助数据挖掘、机器学习等技术对含有感情色彩的主观性文本进行抽取、组织、分析的过程。情感分析分为多个分析等级,可分为词语级、句子级、篇章级和Aspect级。情感分析的方式可以分为3种途径:(1)基于机器学习,(3)基于词典,(4)混合方式。基于词典的系统仅仅是基于文本短语在辞典中的表现,所以被认为是一种标记途径。通常,这些系统通过计算情感的得分来分类文本。情感词典的形成也有人工生成和普通自动生成两种方式,人工标记或得分计算基于注解者在词与词之间的判断。然而,基于词典的方法准确性不高,因为当词语出现在不用的上下文时它们的情感强度不同。
为了控制自然语言的复杂度,大量的监督算法被提出,这些算法往往是混合了几个分类器和向量空间的模型,提高算法的精度。但是,监督学习算法往往会有较高的领域依赖问题,并且无法有效处理未知数据。除此以外,需要人工干预,提供昂贵且耗时的数据标注成本。为了解决这个问题,无监督学习成为一种解决领域依赖和高人工干预度问题的理想方式。
集成学习通过构建并结合多个学习器来完成学习任务,常可获得比单一学习器更加显著的泛化性能。这对“弱学习器”尤为明显。因此集成学习的理论研究都是针对弱学习器进行的,而基学习器有时也被直接称为弱学习器。但需注意的是,虽然从理论上说使用弱学习器集成足以获得很好的性能,但在实践中出于种种考虑,人们往往会使用比较强的学习器。集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。
发明内容
发明目的:为了克服现有技术的不足,本发明提供一种基于无监督分类器的电商评论情感分析方法,该方法可以解决现有集成学习方法中对语料人工标注的高成本和无监督情感分析的准确率不足与稳定性欠缺的问题。
技术方案:本发明所述的基于无监督分类器的电商评论情感分析方法,该方法包括:
采集待处理电商评论语料数据,并对所述待处理电商评论文档数据进行预处理,得到只有形容词、副词和标点符号的情感词集;
利用开源情感词典,构建情感词网络,并得到所述开源情感词典中的情感词的情感分数;
将所述开源情感词典中没有涉及的情感词,采用情感词计算公式进行情感分数的计算,并加入到所述情感词网络中;
构建副词权重并添加到所述情感词网络中,进而计算各个电商评论语料的得分,以及确定电商评论语料的分类;
采用K-Means方法对进一步处理的电商评论语料根据M类特征集进行聚类,构建M个基础学习器,并记录各个基础机器学习器的结果;
根据所述M个基础学习器得到多组新特征集,对生成的所述新特征集分别进行基于K-Medoids聚类,获取最终的聚类质心,记录该质心对应的电商评论语料;
对所述质心对应的电商评论语料进行二分聚类,构建N个基础学习器,记录各学习器的结果集;
对M+N个基础学习器对应的结果集进行投票,决定语料的标注。
进一步地,包括:
所述对所述待处理电商评论文档数据进行预处理,包括:
去除待处理电商评论语料数据中的非文本数据和特殊符号,并将语料中的英文识别并翻译成中文;
使用结巴分词再次进行语料数据的分词和词性标注,生成各句词集,引用开源停用词表,过滤常用停用词,保留标点符号;
对词集中的词语进行词性分析,只选择形容词和副词,完成情感词集的生成。
进一步地,包括:
所述开源情感词典中的情感词分为积极情感词和消极情感词,所述积极情感词的情感分数为1,消极情感词的情感分数为-1,不在所述开源情感词典中的情感词则为0。
进一步地,包括:
对所述开源情感词典中没有涉及的情感词,采用情感词计算公式进行情感分数的计算,所述情感词计算公式为:
其中,w为开源情感词典中没有涉及的情感词,m为在情感词网络中查询到与该情感词同义的情感分数不为0的词集个数,syn[i]为该情感词的同义词集,Score(syn[i])为该情感词的同义词集的情感分数。
进一步地,包括:
所述确定电商评论语料的分类,包括:
设定阈值,若该电商评论语料的得分大于该阈值,则为积极语料,否则,为消极语料。
进一步地,包括:
所述进一步处理的电商评论语料,包括:将所述只有形容词、副词和标点符号的情感词集中标点符号去除,只保留形容词和副词的词集,构建词袋模型,建立存在特征向量。
进一步地,包括:
所述采用K-Means方法对进一步处理的电商评论语料聚类,包括:
将积极情感词与权重大于等于0.5的副词作为第一积极情感类初始质心,记为p1,将消极情感词与权重小于0.5的副词作为第一消极情感类初始质心,记为n1;
以积极情感类质心作为特征值采用权频反序频方法得到各个积极情感词以及权重大于等于0.5的副词的权频逆文档概率,并将其作为第二积极情感类初始质心,记为p2,以消极情感类质心作为特征值采用权频反序频方法得到各个消极情感词以及权重小于0.5的副词的权频逆文档概率,并将其作为第二消极情感类初始质心,记为n2,
以积极情感类质心作为特征值采用反序频方法得到各个积极情感词以及权重大于等于0.5的副词的逆文档概率,并将其作为第三积极情感类初始质心,记为p3,以消极情感类质心作为特征值采用反序频方法得到各个消极情感词以及权重小于0.5的副词的逆文档概率,并将其作为第三消极情感类初始质心,记为n3,进而形成初始积极情感类质心集合{n1,n2,n3}和消极情感类质心集合{p1,p2,p3};
构建基于k-means的M个基础机器学习器,所述M=3,将上述三类特征质心对应的评论语料进行聚类,得到的结果和最终质心记录,最终质心以{Cenp1,Icenp2,Wcenp3}和{Cenn1,Icenn2,Wcenn3}表示。
进一步地,包括:
根据所述M个基础机器学习器得到多组新特征集,具体包括:
根据所述基础机器学习器所生成的三个聚类结果集分别与记录的最终质心进行距离计算,并分别选取距离各质心最近的2α个特征向量,以及剩余特征向量中的随机α个特征向量组成数量为3α的特征集,若类别中特征向量数量小于等于3α,则使用该类全部特征向量集成为新的特征集,α的值根据电商评论语料的数据的不同适当进行调整。
进一步地,包括:
所述对所述质心对应的电商评论语料进行二分聚类,构建N个基础学习器,记录各学习器的结果集,具体包括:
对所述情感词集进行word2vec训练,获得分词词向量,获得最终保留的特征向量集;
根据词集和对应的词向量,针对语料求和平均构建基于词嵌入模型的特征向量,生成针对语料的特征向量集;
根据最终的聚类质心对应的电商评论语料,将其对应的特征向量{mp1,mp2,mp3}和{mn1,mn2,mn3}作为新的k-means初始质心,利用所述特征向量集分别对mpi/mni进行二分聚类,基于k-means和三类初始质心构建N个基础学习器,记录各学习器结果,其中,m为设定阈值,1≤i≤3,N=3。
进一步地,包括:
所述对M+N个基础学习器对应的结果集进行投票,决定语料的标注,包括:
若决策出投票多数,则将该结果集作为语料的标注;若未决策出投票多数,则计算该语句对应的情感得分,以情感得分的结果作为该语料的标注。
有益效果:本发明与现有技术相比,其显著优点是:1、本发明采用集成学习提高无监督学习的稳定性和泛化性,采用改进的情感词网络构建和基于情感词网络的非随机初始化质心的方式提高无监督学习的准确度;2、本发明具有低成本和高准确率的特性,不仅能够帮助电商平台进行高效的情感极性分析,也能够为企业缩减不必要的成本;3、本发明通过基于情感词网络的k-means初始质心的产生方式提高了基于K-means基础学习器的聚类精度;4、本发明通过非情感词网络词的同义词集进行情感分数的计算和增加程度副词权重的定义提高了语料情感分数统计的准确性并扩展了情感词网络的覆盖率;5、通过k-mediods进行已分类情感语的筛选并聚类,得出基于word2vec词嵌入向量初始质心,提高了基于词嵌入模型的聚类精度;6、通过集成学习,综合情感词典、文本统计和词嵌入模型三类情感分析模块的结果和投票机制,提高了基于中文电商的无监督聚类的精度和泛化程度。
附图说明
图1是本发明所述的方法的总体流程示意图;
图2是本发明所述的情感词典统计的流程图;
图3是本发明所述的文本统计流程图;
图4是本发明所述的词嵌入方法流程图。
具体实施方式
如图1所示,本发明所述的基于无监督分类器的电商评论情感分析方法,该方法包括以下步骤:
S1文本数据预处理:采集待处理电商评论语料数据,并对所述待处理电商评论文档数据进行预处理,得到只有形容词、副词和标点符号的情感词集;
S11去除待处理电商评论语料数据中的非文本数据和特殊符号,并将语料中的英文识别并翻译成中文;
S12使用结巴分词再次进行语料数据的分词和词性标注,生成各句词集,引用开源停用词表,过滤常用停用词,保留标点符号;
S13根据句式对词集进行编辑,如果是对比句式则只保留强调的句式中的词,对词集中的词语进行词性分析,只选择形容词和副词,完成情感词集的生成。
S2情感词典统计:利用开源情感词典,构建情感词网络,并得到开源情感词典中的情感词的情感分数,将开源情感词典中没有涉及的情感词,采用情感词计算公式进行情感分数的计算,并加入到情感词网络中;构建副词权重并添加到情感词网络中,进而计算各个电商评论语料的得分,以及确定电商评论语料的分类;
S21构建情感词网络,结合多个开源情感词典,如:知网情感分析用语词集,褒贬义词典(清华大学李军),组成情感词网络进行词语的情感极性分析。本方法将积极情感词标记为‘+1’,将消极情感词标记为‘-1’,有多个情感极性的情感词以多数极性为准,不被情感词网络包含则标记为‘0’。
开源情感词典中的情感词分为积极情感词和消极情感词,积极情感词的情感分数为1,消极情感词的情感分数为-1,不在开源情感词典中的情感词则为0。
S22由于中文词语的多样性和不同领域情感词典的差异性,导致大量单词不被现有的开源情感词典包含,无法得出其情感分数。为了解决该问题,本方法使用了一种同义词分析方法用来解决该问题:通过开源的Synonyms工具包获取未知情感极性词的相似性较高的前10个同义词构成同义词集,获取同义词情感极性,根据如下公式获取情感分数,并将相关词加入情感词网络中:
其中,w为开源情感词典中没有涉及的情感词,m为在情感词网络中查询到与该情感词同义的情感分数不为0的词集个数,syn[i]为该情感词的同义词集,Score(syn[i])为该情感词的同义词集的情感分数。
S23本方法只取语料中的形容词、副词和标点符号作为词性分析资料,将形容词根据步骤S21和S22得出相应情感分数,同时根据形容词前后的副词和标点符号作为标记对情感分数进行修改。本实施例中,本方法可将程度副词和标点分为0.25、0.5、0.75、1.25、1.5、2六个部分,例如将“很”赋予情感分数1.5,将“非常”和“!”赋予2,将“些微”赋予0.75,“这个耳机的音质非常出色!”语句的分数为2*1=2,当标点与程度副词同时出现,取权重最高值。针对否定副词,例如对于“并非”、“不是”之类的否定词,权重取-1,将否定词与后一个标点之间的情感词的情感分数取反。
S24至此,经过以上步骤得到的总分便可以计算该语料的情感分数,本方法的实施例中将0设置为阈值,大于该阈值表示该语料为积极,小于该阈值表示该语料为消极,该步骤在投票机制决策后决定是否执行。
本发明通过非情感词网络词的同义词集进行情感分数的计算和增加程度副词权重的定义提高了语料情感分数统计的准确性并扩展了情感词网络的覆盖率。
S3文本统计:采用K-Means方法对进一步处理的电商评论语料根据M类特征集进行聚类,构建M个基础学习器,并记录各个基础机器学习器的结果;
S31清洗根据步骤S13所构建的分词数据,消除标点符号,构建词袋模型,建立存在特征向量,以0/1表示语料中词所在特征值的存在与否,具体的,将只有形容词、副词和标点符号的情感词集中标点符号去除,只保留形容词和副词的词集,构建词袋模型,建立存在特征向量。
S32构建语料特征向量。使用Weight frequency inverse document frequency(WFIDF)和Inverse document frequency(IDF)方法获取文本统计量,将经过步骤S31得到的特征向量基于定义式进行加权:
其中,tfi,j表示词i在文本中出现的词频,idfi表示词i的逆文档频率,N为语料数量,dfi为词所出现的语料的数量。
S33、生成k-means初始质心。由于本方法使用k-means进行二分聚类,为了提高k-means聚类的准确度,本方法使用基于非随机初始化方式来确保准确率。本模块使用S2模块中生成的情感词网络作为生成特征向量的方式,以词作为特征向量。通过情感词网络,将各词的极性进行统计。其中,对副词的统计将根据情感词网络中的程度词集进行区分,仅统计在步骤S23中权重大于等于0.5的副词进行统计。将积极情感词与+1的程度副词作为积极情感类质心,结合步骤S32种WFIDF和IDF加权生成{p1,p2,p3}。将消极情感词与程度副词作为消极情感类质心,结合步骤S32中WFIDF和IDF加权生成{n1,n2,n3}。
具体的,将积极情感词与权重大于等于0.5的副词作为第一积极情感类初始质心,记为p1,将消极情感词与权重小于0.5的副词作为第一消极情感类初始质心,记为n1;
以积极情感类质心作为特征值采用权频反序频方法得到各个积极情感词以及权重大于等于0.5的副词的权频逆文档概率,并将其作为第二积极情感类初始质心,记为p2,以消极情感类质心作为特征值采用权频反序频方法得到各个消极情感词以及权重小于0.5的副词的权频逆文档概率,并将其作为第二消极情感类初始质心,记为n2,
以积极情感类质心作为特征值采用反序频方法得到各个积极情感词以及权重大于等于0.5的副词的逆文档概率,并将其作为第三积极情感类初始质心,记为p3,以消极情感类质心作为特征值采用反序频方法得到各个消极情感词以及权重小于0.5的副词的逆文档概率,并将其作为第三消极情感类初始质心,记为n3,进而形成初始积极情感类质心集合{n1,n2,n3}和消极情感类质心集合{p1,p2,p3}。
本发明通过基于情感词网络的k-means初始质心的产生方式提高了基于K-means基础学习器的聚类精度。
S34、构建基于k-means构建三个基础机器学习器,其中,M=3,将三类特征向量表示的语料进行聚类,将得到的结果和最终质心记录,最终质心以{Cenp1,Icenp2,Wcenp3}和{Cenn1,Icenn2,Wcenn3}进行表示。
S35、具体的,根据基础机器学习器所生成的三个聚类结果集分别与记录的最终质心进行距离计算,并分别选取距离各质心最近的2α个特征向量,以及剩余特征向量中的随机α个特征向量组成数量为3α的特征集,若类别中特征向量数量小于等于3α,则使用该类全部特征向量集成为新的特征集。本方法中α取500,该值可适当调整。
S36、根据M个基础学习器得到多组新特征集,对生成的所述新特征集分别进行基于K-Medoids聚类,获取最终的聚类质心,记录该质心对应的电商评论语料。
通过k-mediods进行已分类情感语的筛选并聚类,得出基于word2vec词嵌入向量初始质心,提高了基于词嵌入模型的聚类精度。
S4对质心对应的电商评论语料进行二分聚类,构建N个基础学习器,记录各学习器的结果集。
S41、由步骤S13所生成分词数据的情感词集进行word2vec训练,获得分词词向量。再进行步骤S13,获得最终保留的特征向量集;
S42、针对上一步骤获得的词集和对应的词向量,针对语料求和平均构建基于词嵌入模型的特征向量,生成针对语料的特征向量集;
S43、根据步骤S36所记录的语料,将其对应的特征向量{mp1,mp2,mp3}和{mn1,mn2,mn3}作为新的k-means初始质心,分别对mpi/mni进行二分聚类,基于k-means和三类初始质心构建N个基础学习器,记录各学习器结果,其中,m为设定阈值,1≤i≤3,N=3。
S5对M+N个基础学习器对应的结果集进行投票,决定语料的标注,本实施例中,M=N=3。
S51、根据步骤S34和步骤S43所生成的6个结果集进行投票。若决策出投票多数,则将该结果作为语料的标注;若未决策出投票多数,则执行下一步骤。
S52、如投票未决策出多数,则使用S2模块中的步骤S24进行该语句的情感得分的计算,以情感得分的结果作为该语料的标注。
本发明通过集成学习,综合情感词典、文本统计和词嵌入模型三类情感分析模块的结果和投票机制,提高了基于中文电商的无监督聚类的精度和泛化程度。
为了更加详细的描述本发明的技术方案,下面提供一个具体实施例。
结合图1,本文提出一种基于集成学习的无监督中文电商评论情感分析方法,包括如下具体步骤:
步骤S1文本数据预处理,具体包括以下步骤:
S11、输入电商评论数据,去除评论文档中的非文本数据和特殊符号,同时将文本中的英文识别并翻译为简体中文。
S12、使用结巴分词进行评论数据的分词和词性标注,生成各句词集;引用开源停用词表,过滤常用停用词,但保留标点符号。
S13、根据句式对词集进行处理,如果是对比句式则只保留强调的句式中的词,如:“这个电吹风的加热效果还行,但是风力效果不好。”一句中只保留“但是”、“风力”、“效果”“不”“好”。之后进行词性分析,只选择形容词和副词,完成词集的生成。
请参照图2,图2为情感词典统计的流程示意图。步骤S2具体包括以下步骤:
S21、构建情感词网络,结合多个开源情感词典,如:知网情感分析用语词集,褒贬义词典(清华大学李军)等,组成情感词网络进行词语的情感极性分析。本方法将积极词标记为‘+1’,将消极词标记为‘-1’(有多个情感极性的情感词以多数极性为准)不被情感词网络包含则标记为‘0’。
S22、由于中文词语的多样性和不同领域情感词典的差异性,导致大量单词不被现有的开源情感词典包含,无法得出其情感分数。为了解决该问题,本方法使用了一种同义词分析方法用来解决该问题:通过开源的Synonyms工具包获取未知情感极性词的相似性较高的前10个同义词构成同义词集,获取同义词情感极性,根据如下公式获取情感分数,并将相关词加入情感词网络中:
其中,m为在情感词网络中查询到情感分数不为0的个数,syn[i]为该词的同义词集。通过该公式将客观表现不被情感词网络所包含的词的情感极性。例如:“利索”的同义词集打分为{+1,0,+1,+1,+1,0,-1,0,0},则最后的打分为0.6。通过该方法可以较客观并且不会太过影响文本极性的方式得出未知情感词情感分数,优化情感分数的计算。
S23、本方法只取语料中的形容词、副词和标点符号作为词性分析资料,将形容词根据步骤S21和S22得出相应情感分数,同时根据形容词前后的副词和标点符号作为标记对情感分数进行修改。本方法将程度副词和标点分为0.25、0.5、0.75、1.25、1.5、2六个部分,例如将“很”赋予情感分数1.5,将“非常”和“!”赋予2,将“些微”赋予0.75,“这个耳机的音质非常出色!”语句的分数为2*1=2,当标点与程度副词同时出现,取权重最高值。针对否定副词,例如对于“并非”、“不是”之类的否定词,权重取-1,将否定词与后一个标点之间的情感词的情感分数取反。
S24、至此,经过以上步骤得到的总分便可以计算该语料的情感分数,本方法将0设置为阈值,大于该阈值表示该语料为积极,小于该阈值表示该语料为消极,该步骤在投票机制决策后决定是否执行。例如:样例为“东西很好,跟图片看着差别不大,装修师傅干活也利索。”一句打分规则是“1.5*(+1)+(0.5)*(-1)+0.6=1.6”,情感得分大于0,则表示该语句表示积极含义;“大小不均匀,不是很甜”一句打分规则是“(-1)*(+1)+(-1)*1.5*(+1)=-2.5”,情感得分小于0,则表示该语句表示消极含义。
请参照图3,图3为文本统计的流程示意图。步骤S3具体包括以下步骤:
S31、清洗根据步骤S13所构建的分词数据,消除标点符号,只保留形容词和副词,构建词袋模型,建立存在特征向量,以0/1表示语料中词所在特征值的存在与否。例如:词袋模型为“{差,甜,一般,坏,好吃,喜欢,不够}”,则每个语料将以词袋的数量为维度,以0/1特征进行表示[1 0 1 1 0 0 1]、[0 1 0 0 0 1 0]、[0 0 1 1 0 0 1]......。
S32、构建语料特征向量。使用Weight frequency inverse document frequency(WFIDF)和Inverse document frequency(IDF)方法获取文本统计量,将经过步骤S31得到的特征向量基于定义式进行加权:
其中,tfi,j表示词i在文本中出现的词频,idfi表示词i的逆文档频率,N为语料数量,dfi为词所出现的语料的数量。通过加权加强特征的区别性,以提高在聚类时的准确度。
S33、生成k-means初始质心。由于本方法使用k-means进行二分聚类,为了提高k-means聚类的准确度,本方法使用基于非随机初始化方式来确保准确率。本模块使用S2模块中生成的情感词网络作为生成特征向量的方式,以词作为特征向量。通过情感词网络,将各词的极性进行统计。其中,对副词的统计将根据情感词网络中的程度词集进行区分,仅统计在步骤S23中权重大于等于0.5的副词进行统计。将积极情感词与+1的程度副词作为积极情感类质心,结合步骤S32种WFIDF和IDF加权生成{p1,p2,p3}。将消极情感词与程度副词作为消极情感类质心,结合步骤S32中WFIDF和IDF加权生成{n1,n2,n3}。例如:积极词为{甜,好吃,喜欢},消极词为{差,坏},不够的程度副词为0.5,则初始质心为[0 1 0 0 1 1 1]和[10 0 1 0 0 1],通过IDF和WFIDF加权获得另外两类特征集的初始质心。
S34、构建基于k-means的三个基础机器学习器,分别记作k-means1、k-means2和k-means3,将三类特征向量表示的语料进行聚类,将得到的结果和最终质心记录,最终质心以{Cenp1,Icenp2,Wcenp3}和{Cenn1,Icenn2,Wcenn3}进行表示。
S35、根据上一步基础机器学习器所生成的三个聚类结果集分别与记录的最终质心进行距离计算,并分别选取距离各质心最近的2α特征向量和剩余特征向量中的随机α个特征向量组成数量为3α的特征集。若类别中特征向量数量小于等于3α,则使用该类全部特征向量集成为新的特征集。本方法中α取500,该值可适当调整。该方法是为了解决k-medoids聚类算法的复杂度过高的问题,并确保所生成的新质心依旧具有优秀的类别代表性。
S36、根据上一步所生成的新的特征集分别进行基于k-medoids聚类,获取最终的聚类质心,记录该质心的对应的语料。
请参照图4,图4为词嵌入的流程示意图。步骤S4具体包括以下步骤:
S41、由步骤S13所生成的分词数据进行word2vec训练,获得分词词向量。再进行步骤S13,获得最终保留的特征向量集。
S42、针对上一步骤获得的词集和对应的词向量,针对语料求和平均构建基于词嵌入模型的特征向量,生成针对语料的特征向量集。
S43、根据步骤S36所记录的语料,将其对应的特征向量{mp1,mp2,mp3}和{mn1,mn2,mn3}作为新的k-means初始质心,分别对mpi/mni进行二分聚类,分别记为k-means4,k-means5和k-means6。基于k-means和三类初始质心构建三个基础学习器,记录各学习器结果。
步骤S5具体包括以下步骤:
S51、根据步骤S34和步骤S43所生成的6个结果集进行投票。若决策出投票多数,则将该结果作为语料的标注;若未决策出投票多数,则执行下一步骤。
S52、如投票未决策出多数,则使用S2模块中的步骤S24进行该语句的情感得分的计算,以情感得分的结果作为该语料的标注。
综上所述,本发明实施例通过上述计算步骤与方法对本发明提出的一种基于集成学习的无监督中文电商评论情感分析方法的技术思想的具体支持,不能以此限定本发明的保护范围,凡是按照本发明提出的原理和技术思想,在本技术方案基础上所做的任何等同变化或等效的改动,均应包含在本发明技术方案保护的范围。
对于系统/装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者一个操作与另一个实体或者另一个操作区分开来,而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全应用实施例、或结合应用和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (6)
1.一种基于无监督分类器的电商评论情感分析方法,其特征在于,该方法包括:
采集待处理电商评论语料数据,并对所述待处理电商评论文档数据进行预处理,得到只有形容词、副词和标点符号的情感词集;
利用开源情感词典,构建情感词网络,并得到所述开源情感词典中的情感词的情感分数;
将所述开源情感词典中没有涉及的情感词,采用情感词计算公式进行情感分数的计算,并加入到所述情感词网络中;
构建副词权重并添加到所述情感词网络中,进而计算各个电商评论语料的得分,以及确定电商评论语料的分类;
采用K-Means方法对进一步处理的电商评论语料根据M类特征集进行聚类,构建M个基础学习器,并记录各个基础机器学习器的结果;
根据所述M个基础学习器得到多组新特征集,对生成的所述新特征集分别进行基于K-Medoids聚类,获取最终的聚类质心,记录该质心对应的电商评论语料;
对所述质心对应的电商评论语料进行二分聚类,构建N个基础学习器,记录各学习器的结果集;
对M+N个基础学习器对应的结果集进行投票,决定语料的标注;
对所述开源情感词典中没有涉及的情感词,采用情感词计算公式进行情感分数的计算,所述情感词计算公式为:
其中,w为开源情感词典中没有涉及的情感词,m为在情感词网络中查询到与该情感词同义的情感分数不为0的词集个数,syn[i]为该情感词的同义词集,Score(syn[i])为该情感词的同义词集的情感分数;
所述采用K-Means方法对进一步处理的电商评论语料聚类,包括:
第一类:将积极情感词与权重大于等于0.5的副词作为第一积极情感类初始质心,记为p1,将消极情感词与权重小于0.5的副词作为第一消极情感类初始质心,记为n1;
第二类:以积极情感类质心作为特征值采用权频反序频方法得到各个积极情感词以及权重大于等于0.5的副词的权频逆文档概率,并将其作为第二积极情感类初始质心,记为p2,以消极情感类质心作为特征值采用权频反序频方法得到各个消极情感词以及权重小于0.5的副词的权频逆文档概率,并将其作为第二消极情感类初始质心,记为n2,
第三类:以积极情感类质心作为特征值采用反序频方法得到各个积极情感词以及权重大于等于0.5的副词的逆文档概率,并将其作为第三积极情感类初始质心,记为p3,以消极情感类质心作为特征值采用反序频方法得到各个消极情感词以及权重小于0.5的副词的逆文档概率,并将其作为第三消极情感类初始质心,记为n3,进而形成初始积极情感类质心集合{n1,n2,n3}和消极情感类质心集合{p1,p2,p3};
构建基于k-means的M个基础机器学习器,所述M=3,将上述三类特征质心对应的评论语料进行聚类,得到的结果和最终质心记录,最终质心以{Cenp1,Icenp2,Wcenp3}和{Cenn1,Icenn2,Wcenn3}表示;
根据所述M个基础机器学习器得到多组新特征集,具体包括:
根据所述基础机器学习器所生成的三个聚类结果集分别与记录的最终质心进行距离计算,并分别选取距离各质心最近的2α个特征向量,以及剩余特征向量中的随机α个特征向量组成数量为3α的特征集,若类别中特征向量数量小于等于3α,则使用该类别中的全部特征向量集成为新的特征集,α的值根据电商评论语料的数据的不同适当进行调整;
所述对所述质心对应的电商评论语料进行二分聚类,构建N个基础学习器,记录各学习器的结果集,具体包括:
对所述情感词集进行word2vec训练,获得分词词向量,获得最终保留的特征向量集;
根据词集和对应的词向量,针对语料求和平均构建基于词嵌入模型的特征向量,生成针对语料的特征向量集;
根据最终的聚类质心对应的电商评论语料,将其对应的特征向量{mp1,mp2,mp3}和{mn1,mn2,mn3}作为新的k-means初始质心,利用所述特征向量集分别对mpi/mni进行二分聚类,基于k-means和三类初始质心构建N个基础学习器,记录各学习器结果,其中,m为设定阈值,1≤i≤3,N=3。
2.根据权利要求1所述的基于无监督分类器的电商评论情感分析方法,其特征在于,所述对所述待处理电商评论文档数据进行预处理,包括:
去除待处理电商评论语料数据中的非文本数据和特殊符号,并将语料中的英文识别并翻译成中文;
使用结巴分词再次进行语料数据的分词和词性标注,生成各句词集,引用开源停用词表,过滤常用停用词,保留标点符号;
对词集中的词语进行词性分析,只选择形容词和副词,完成情感词集的生成。
3.根据权利要求1所述的基于无监督分类器的电商评论情感分析方法,其特征在于,所述开源情感词典中的情感词分为积极情感词和消极情感词,所述积极情感词的情感分数为1,消极情感词的情感分数为-1,不在所述开源情感词典中的情感词则为0。
4.根据权利要求1所述的基于无监督分类器的电商评论情感分析方法,其特征在于,所述确定电商评论语料的分类,包括:
设定阈值,若该电商评论语料的得分大于该阈值,则为积极语料,否则,为消极语料。
5.根据权利要求3所述的基于无监督分类器的电商评论情感分析方法,其特征在于,所述进一步处理的电商评论语料,包括:将所述只有形容词、副词和标点符号的情感词集中标点符号去除,只保留形容词和副词的词集,构建词袋模型,建立存在特征向量。
6.根据权利要求1所述的基于无监督分类器的电商评论情感分析方法,其特征在于,所述对M+N个基础学习器对应的结果集进行投票,决定语料的标注,包括:
若决策出投票多数,则将该结果集作为语料的标注;若未决策出投票多数,则计算结果集中语料对应的情感得分,以情感得分的结果作为该语料的标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010082170.4A CN111274402B (zh) | 2020-02-07 | 2020-02-07 | 一种基于无监督分类器的电商评论情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010082170.4A CN111274402B (zh) | 2020-02-07 | 2020-02-07 | 一种基于无监督分类器的电商评论情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111274402A CN111274402A (zh) | 2020-06-12 |
CN111274402B true CN111274402B (zh) | 2022-09-23 |
Family
ID=71003540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010082170.4A Active CN111274402B (zh) | 2020-02-07 | 2020-02-07 | 一种基于无监督分类器的电商评论情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111274402B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI761090B (zh) * | 2021-02-25 | 2022-04-11 | 中華電信股份有限公司 | 對話資料處理系統、其方法及電腦可讀媒介 |
CN114065742B (zh) * | 2021-11-19 | 2023-08-25 | 马上消费金融股份有限公司 | 一种文本检测方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268470A (zh) * | 2016-12-30 | 2018-07-10 | 广东精点数据科技股份有限公司 | 一种基于演化聚类的评论文本分类提取方法 |
CN108388660A (zh) * | 2018-03-08 | 2018-08-10 | 中国计量大学 | 一种改进的电商产品痛点分析方法 |
CN108984523A (zh) * | 2018-06-29 | 2018-12-11 | 重庆邮电大学 | 一种基于深度学习模型的商品评论情感分析方法 |
-
2020
- 2020-02-07 CN CN202010082170.4A patent/CN111274402B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268470A (zh) * | 2016-12-30 | 2018-07-10 | 广东精点数据科技股份有限公司 | 一种基于演化聚类的评论文本分类提取方法 |
CN108388660A (zh) * | 2018-03-08 | 2018-08-10 | 中国计量大学 | 一种改进的电商产品痛点分析方法 |
CN108984523A (zh) * | 2018-06-29 | 2018-12-11 | 重庆邮电大学 | 一种基于深度学习模型的商品评论情感分析方法 |
Non-Patent Citations (1)
Title |
---|
Sentiment analysis: An automatic contextual analysis and ensemble clustering approach and comparison;Murtadha Talib AL-Sharuee 等;《Elsevier》;20180407;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111274402A (zh) | 2020-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108446271B (zh) | 基于汉字部件特征的卷积神经网络的文本情感分析方法 | |
CN108763326B (zh) | 一种基于特征多样化的卷积神经网络的情感分析模型构建方法 | |
CN107256494B (zh) | 一种物品推荐方法及装置 | |
CN112861541B (zh) | 一种基于多特征融合的商品评论情感分析方法 | |
US20100185569A1 (en) | Smart Attribute Classification (SAC) for Online Reviews | |
Valakunde et al. | Multi-aspect and multi-class based document sentiment analysis of educational data catering accreditation process | |
CN111767403A (zh) | 一种文本分类方法和装置 | |
Raychev et al. | Language-independent sentiment analysis using subjectivity and positional information | |
US11669740B2 (en) | Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition | |
CN111538828A (zh) | 文本情感分析方法、装置、计算机装置及可读存储介质 | |
CN111274402B (zh) | 一种基于无监督分类器的电商评论情感分析方法 | |
CN103020167A (zh) | 一种计算机中文文本分类方法 | |
CN108733652B (zh) | 基于机器学习的影评情感倾向性分析的测试方法 | |
CN112905736A (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
Ashna et al. | Lexicon based sentiment analysis system for malayalam language | |
CN114722176A (zh) | 一种智能答疑的方法、装置、介质及电子设备 | |
Cahyani et al. | Relevance classification of trending topic and twitter content using support vector machine | |
CN108491375B (zh) | 基于CN-DBpedia的实体识别与链接系统和方法 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
Bhattacharya et al. | A multimodal approach towards emotion recognition of music using audio and lyrical content | |
CN108804416B (zh) | 基于机器学习的影评情感倾向性分析的训练方法 | |
CN115688768A (zh) | 一种基于对抗数据增强的医疗文本专业分类方法 | |
Wu et al. | A self-relevant cnn-svm model for problem classification in k-12 question-driven learning | |
CN115659961A (zh) | 用于提取文本观点的方法、装置以及计算机存储介质 | |
CN114912446A (zh) | 一种关键词抽取方法、装置及储存介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 210003 Gulou District, Jiangsu, Nanjing new model road, No. 66 Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS Address before: Yuen Road Qixia District of Nanjing City, Jiangsu Province, No. 9 210000 Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |