CN113609293B - 一种电商评论分类方法及装置 - Google Patents
一种电商评论分类方法及装置 Download PDFInfo
- Publication number
- CN113609293B CN113609293B CN202110909203.2A CN202110909203A CN113609293B CN 113609293 B CN113609293 B CN 113609293B CN 202110909203 A CN202110909203 A CN 202110909203A CN 113609293 B CN113609293 B CN 113609293B
- Authority
- CN
- China
- Prior art keywords
- classified
- comment
- comment text
- result
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000008451 emotion Effects 0.000 claims abstract description 94
- 238000013145 classification model Methods 0.000 claims abstract description 21
- 238000011156 evaluation Methods 0.000 claims description 27
- 238000012986 modification Methods 0.000 claims description 19
- 230000004048 modification Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 239000003607 modifier Substances 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 230000000717 retained effect Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种电商评论分类方法及装置,包括:根据预设的字符匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否属于不相关评论;若是,则直接将所述待分类的评论文本归类为不相关评论;若否,通过训练后的分类模型对所述待分类的评论文本进行分类,得到模型分类结果;对所述待分类的评论文本进行文本情感分析,得到情感分析结果;以所述情感分析结果对所述模型分类结果进行修正,得到修正后的分类结果,并以所述修正后的分类结果作为所述待分类的评论文本的分类结果。整个分类过程并非单纯地依赖分类模型来进行分类,避免了决策角度的单一性,并提升了评论分类的准确性。
Description
技术领域
本申请涉及互联网信息分类技术领域,更具体地说,是涉及一种电商评论分类方法及装置。
背景技术
在电商应用中,用户会对购买的商品进行评论,评论会展示在商品页面的前端,为其他准备购买该类商品的用户提供参考信息。通常电商平台需要对评论进行分类,将评论划分为好评、差评等类别,并将不同类别的评论分别进行展示,以帮助用户快速获取其想要获取的信息,提高用户的选购效率。
目前的评论分类方法中,最简单的是直接依靠用户输出评论时所提供的打分结果来进行划分。但是可能会存在这种情况:用户在评论框里写了好评内容,在打分处却给出低的分数;或者,用户在评论框里写了差评的内容,在打分处却给出高的分数。因此,仅通过打分结果来对用户评论进行归类是不可靠的。
此外,目前存在有大量的用户,为了博取评论内容激励,或者是进行广告宣传,在对商品进行评论时,输入与商品无关的、无意义的内容。将这些无关的评论也纳入到好评或差评中,会导致评论分类结果不够准确。
发明内容
有鉴于此,本申请提供了一种电商评论分类方法及装置,以实现对电商评论进行有效分类。
为实现上述目的,本申请第一方面提供了一种电商评论分类方法,包括:
根据预设的字符匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否属于不相关评论;
若是,则直接将所述待分类的评论文本归类为不相关评论;
若否,通过训练后的分类模型对所述待分类的评论文本进行分类,得到模型分类结果;
对所述待分类的评论文本进行文本情感分析,得到情感分析结果;
以所述情感分析结果对所述模型分类结果进行修正,得到修正后的分类结果,并以所述修正后的分类结果作为所述待分类的评论文本的分类结果。
优选地,所述根据预设的字符匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否属于不相关评论的过程,包括:
根据预设的广告词匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否包含广告词;
根据预设的无效评论匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否为无效评论;
其中,被判定为包含广告词或无效评论的待分类的评论文本,被归类为不相关评论。
优选地,所述根据预设的广告词匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否包含广告词的过程,包括:
对所述待分类的评论文本进行扫描,得到扫描结果;
根据所述扫描结果判断所述待分类的评论文本是否匹配预设的广告词词典中的词语;
若是,则判定所述待分类的评论文本包含广告词。
优选地,所述根据预设的无效评论匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否为无效评论的过程,包括:
判断所述待分类的评论文本是否为空字符串;
判断所述待分类的评论文本是否仅包含标点符号或数字;
判断所述待分类的评论文本是否包含连续N1个字母或N2个数字,其中,N1、N2为独立预设的数目;
和/或,
判断所述待分类的评论文本是否不包含中文字符;
若上述任一判断的判断结果为是,则判定所述待分类的评论文本为无效评论。
优选地,在通过训练后的分类模型对所述待分类的评论文本进行分类之前,还包括:
对所述待分类的评论文本的内容进行去重处理;
所述对待分类的评论文本的内容进行去重处理的过程,包括:
将待分类的评论文本进行分句,得到至少一个子句,若出现连续重复的子句,则对于所述连续重复的子句,仅保留一个子句;
和/或,
以预设的规则去除待分类的评论文本中重复出现的字符或字符串。
优选地,所述对所述待分类的评论文本进行文本情感分析的过程,包括:
对所述待分类的评论文本进行扫描,根据扫描结果判断所述待分类的评论文本是否包含预设的预警短语;
若是,则确定情感分析结果为强负面;
若否,则根据预设的实词词典和副词词典,对所述待分类的评论文本进行情感分析。
优选地,所述根据预设的实词词典和副词词典,对所述待分类的评论文本进行情感分析的过程,包括:
将所述待分类的评论文本拆分成多个词语,得到词语列表;
对于所述词语列表中的每个词语,根据预设的实词词典,判断所述词语是否为预设类型的实词;
若是,判断所述词语是否存在对应的修饰副词;
若是,则根据预设的副词词典,确定所述修饰副词的类型;
根据所述词语的实词类型、是否存在对应的修饰副词、以及当存在对应的修饰副词时,所述修饰副词的类型,确定所述词语的情感因素类型;
对所述待分类的评论文本的各个实词词语的情感因素类型进行统计。
优选地,所述情感因素类型包括轻度负因素、正因素和重度负因素;
对所述待分类的评论文本的各个实词词语的情感因素类型进行统计的过程,包括:
分别对所述待分类的评论文本的各个实词词语的轻度负因素、正因素和重度负因素进行统计,得到轻度负因素值、正因素值和重度负因素值。
优选地,所述以所述情感分析结果对所述模型分类结果进行修正,得到所述待分类的评论文本的修正后的分类结果的过程,包括:
若情感分析结果为强负面,则确定所述待分类的评论文本的修正后的分类结果为差评;
若所述模型分类结果为中评,正因素值不小于K1,且轻度负因素值小于K2,则确定所述待分类的评论文本的修正后的分类结果为好评;
若所述模型分类结果为中评,重度负因素值不小于K3,则确定所述待分类的评论文本的修正后的分类结果为差评;
若所述模型分类结果为差评,正因素值不小于K4,则确定所述待分类的评论文本的修正后的分类结果为中评;
其中,K1、K2、K3以及K4为独立预设的阈值。
本申请第二方面提供了一种电商评论分类装置,包括:
前置过滤单元,用于根据预设的字符匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否属于不相关评论;若是,则直接将所述待分类的评论文本归类为不相关评论;
模型分类单元,用于通过训练后的分类模型对所述待分类的评论文本进行分类,得到模型分类结果;
情感分析单元,用于对所述待分类的评论文本进行文本情感分析,得到情感分析结果;
结果修正单元,用于以所述情感分析结果对所述模型分类结果进行修正,得到修正后的分类结果,并以所述修正后的分类结果作为所述待分类的评论文本的分类结果。
经由上述的技术方案可知,本申请根据预设的字符匹配规则对待分类的评论文本进行匹配识别,判断所述待分类的评论文本是否属于不相关评论;若是,则直接将所述待分类的评论文本归类为不相关评论。该步骤可以剔除不相关评论,避免其对分类结果造成负面影响。
若否,则通过训练后的分类模型对所述待分类的评论文本进行分类,得到模型分类结果;此外,还对所述待分类的评论文本进行文本情感分析,得到情感分析结果;以所述情感分析结果对所述模型分类结果进行修正,得到所述待分类的评论文本的修正后的分类结果,并以所述修正后的分类结果作为所述待分类的评论文本的分类结果。整个分类过程并非单纯地依赖分类模型来进行分类,避免了决策角度的单一性,并提升了评论分类的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的电商评论分类的示意图;
图2为本申请实施例公开的电商评论分类装置的示意图;
图3为本申请实施例公开的电商评论分类设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,本申请实施例提供的电商评论分类方法,可以包括如下步骤:
步骤S100,根据预设的字符匹配规则对待分类的评论文本进行匹配。
本步骤主要通过字符匹配来筛选出不相关评论。不相关评论是指跟产品本身不相关的一些评论,例如广告宣传、为达到字数要求而输入的无意义的标点文字等。
这些评论一般都具有明显的组成模式,或者包括常用的特定用语等,可以通过字符匹配规则来进行过滤。
步骤S200,根据匹配结果判断待分类的评论文本是否属于不相关评论。
如果根据匹配结果判断出待分类的评论文本属于不相关评论,则直接将待分类的评论文本归类为不相关评论;否则,进入步骤S300。
步骤S300,通过分类模型对待分类的评论文本进行分类。
具体地,通过训练后的分类模型对所述待分类的评论文本进行分类,得到模型分类结果。
其中,可以采用现有的预训练深度学习技术对评论文本进行分类,例如,采用在中文领域适配性较强的ERNIE模型来对评论文本进行分类。
具体的分类标签可以包括好评、中评、差评和不相关评论。
步骤S400,对待分类的评论文本进行文本情感分析。
具体地,对所述待分类的评论文本进行文本情感分析,得到情感分析结果。在步骤S300中通过深度学习模型输出的分类结果存在一定的错误率,并且模型的预测过程是难以解释的。而文本情感分析则可以通过相对可控、可解释的分析,对模型结果加以修正,以得到更为合理的分类结果。
其中,文本情感分析又称为意见挖掘、倾向性分析等,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。具体地,可以通过情感知识库来匹配评论文本中所出现的情感因素,然后对匹配结果进行分析,得到情感分析结果。
步骤S500,结合情感分析结果对模型分类结果进行修正。
具体地,以该情感分析结果对该模型分类结果进行修正,得到修正后的分类结果,并以该修正后的分类结果作为所述待分类的评论文本的分类结果。
本申请根据预设的字符匹配规则对待分类的评论文本进行匹配识别,判断所述待分类的评论文本是否属于不相关评论;若是,则直接将所述待分类的评论文本归类为不相关评论。该步骤可以剔除不相关评论,避免其对分类结果造成负面影响。
若否,则通过训练后的分类模型对所述待分类的评论文本进行分类,得到模型分类结果;此外,还对所述待分类的评论文本进行文本情感分析,得到情感分析结果;以所述情感分析结果对所述模型分类结果进行修正,得到所述待分类的评论文本的修正后的分类结果,并以所述修正后的分类结果作为所述待分类的评论文本的分类结果。整个分类过程并非单纯地依赖分类模型来进行分类,避免了决策角度的单一性,并提升了评论分类的准确性。
在本申请的一些实施例中,上述步骤S100、步骤S200根据预设的字符匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否属于不相关评论的过程,可以包括:
A1,根据预设的广告词匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否包含广告词;
A2,根据预设的无效评论匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否为无效评论。
其中,被判定为包含广告词或无效评论的待分类的评论文本,被归类为不相关评论。
在本申请的一些实施例中,上述A1根据预设的广告词匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否包含广告词的过程,可以包括:
B1,对所述待分类的评论文本进行扫描,得到扫描结果;
B2,根据所述扫描结果判断所述待分类的评论文本是否匹配预设的广告词词典中的词语;若是,则判定所述待分类的评论文本包含广告词。
具体地,广告词词典中囊括了广告评论中经常出现的词汇,如“加V”,“复制粘贴”等等,一旦评论文本中出现了广告词词典中的任意一个词汇,可以直接将其划分为不相关评论。
在本申请的一些实施例中,上述A2根据预设的无效评论匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否为无效评论的过程,可以包括以下至少一项:
C1,判断所述待分类的评论文本是否为空字符串;
C2,判断所述待分类的评论文本是否仅包含标点符号或数字;
C3,判断所述待分类的评论文本是否包含连续N1个字母或N2个数字,其中,N1、N2为独立预设的数目;
C4,判断所述待分类的评论文本是否不包含中文字符。
若上述任一判断的判断结果为是,则判定所述待分类的评论文本为无效评论。
在一个可选的实施例中,N1可以设置为8,N2可以设置为20。
符合上述C2、C3、C4描述的评论文本通常是用户为了凑字数而胡乱输入的内容,一般是键盘上随便敲的字母、标点、数字或其他特殊字符,这样的评论对于其他用户显然没有参考价值,因此将其纳入不相关评论。
在本申请的一些实施例中,在上述步骤S300中通过训练后的分类模型对待分类的评论文本进行分类之前,还可以包括:
对待分类的评论文本的内容进行去重处理。
电商网站通常会在商品的评论区设置评论激励,以促使用户对自己购买的产品进行尽量详细的评论。部分用户为了达到优质评论中的字数要求,会重复输入相同的内容来凑字数,而重复的内容对其他用户而言没有任何参考价值,因此需要针对评论文本进行去重处理。
其中,在对待分类的评论文本的内容进行去重处理之前,还可以先对评论文本进行必要的预处理,例如,将待分类的评论文本中的换行符、表情符号、未知字符替换为空格。
对待分类的评论文本的内容进行去重处理的过程,可以包括以下至少一种处理方式:
D1,将待分类的评论文本进行分句,得到至少一个子句,若出现连续重复的子句,则对于所述连续重复的子句,仅保留一个子句;
D2,以预设的规则去除待分类的评论文本中重复出现的字符或字符串。
例如,对于D1,可以采用标点对句子进行分句,任意标点之间都视为一个子句,如果有连续重复的子句,将多余的子句去除,仅保留第一个子句。
对于D2,该预设的规则可以包括以下至少一种规则:
对于整数位超过M1位的数字,或者小数位超过M2位的数字,直接将该数字删除;
对于连续M3个以上的英文字母,直接将该连续的英文字母删除;
对于连续M4个以上的汉字,仅保留1个汉字;
对于连续出现的字符串,仅保留1个字符串。
其中,M1、M2、M3和M4分别为独立预设的数目。在一个可选的实施例中,M1可以设置为8,M2可以设置为3,M3可以设置为4,M4可以设置为3。
上述D2中的字符串可以是两个以上的汉字组成的中文短语,也可以是两个以上字母组成的英文单词或中文拼音等字母组合。
对于上述中文短语的情况,如果同一个中文短语连续出现两次以上,则将重复出现的删掉,仅保留一个。例如,“很好很好很好”,删掉重复的“很好很好”,仅保留“很好”。
对于上述字母组合的情况,如果同一个字母组合连续出现两次以上,则将重复出现的删掉,仅保留一个。例如,“excellent excellent excellent”,删掉重复的“excellentexcellent”,仅保留“excellent”。
在本申请的一些实施例中,上述步骤S400对待分类的评论文本进行文本情感分析的过程,可以包括:
E1,对待分类的评论文本进行扫描,根据扫描结果判断待分类的评论文本是否包含预设的预警短语;
E2,如果待分类的评论文本包含预设的预警短语,则确定情感分析结果为强负面;
E3,如果待分类的评论文本不包含预设的预警短语,根据预设的实词词典和副词词典,对所述待分类的评论文本进行情感分析。
其中,预警短语为负面情感比较浓烈的短语,例如“失望透顶”、“差到极点”、“心都凉了”等短语。
在本申请的一些实施例中,上述E3根据预设的实词词典和副词词典,对所述待分类的评论文本进行情感分析的过程,可以包括:
F1,将待分类的评论文本拆分成多个词语,得到词语列表;
F2,对于所述词语列表中的每个词语,根据预设的实词词典,判断该词语是否为预设类型的实词;
F3,若是,判断该词语是否存在对应的修饰副词;
F4,若是,则根据预设的副词词典,确定该修饰副词的类型;
F5,根据该词语的实词类型、是否存在对应的修饰副词、以及当存在对应的修饰副词时,该修饰副词的类型,确定该词语的情感因素类型;
F6,对待分类的评论文本的各个实词词语的情感因素类型进行统计。
其中,在F2中的实词词典中,可以将实词划分成高负向词、中负向词、低负向词以及正向词。示例如,将:“骗人”、“发霉”、“寒心”等词语纳入高负向词;将“粗糙”、“死板”、“难吃”等纳入中负向词;将“褶皱”、“单薄”、“缩水”等纳入低负向词;将“亮丽”、“惊艳”、“神器”等纳入正向词。
在F4中的副词词典中,可以将副词划分成高程度副词、低程度副词和否定词。示例如,将“超级”、“极其”、“过于”等纳入高程度副词;将“有点”、“稍微”、“少许”等纳入低程度副词;将“不”、“无”、“不会”等纳入否定词。
在本申请的一些实施例中,上述F5中提及的情感因素类型可以包括轻度负因素、正因素和重度负因素。
上述F6对待分类的评论文本的各个实词词语的情感因素类型进行统计的过程,可以包括:
分别对待分类的评论文本的各个实词词语的轻度负因素、正因素和重度负因素进行统计,得到轻度负因素值、正因素值和重度负因素值。
在一个具体的实施例中,可以设计如表1所示的数据结构来记录上述E2中的强负面以及F5中的情感因素类型,并对各个实词词语的轻度负因素、正因素和重度负因素进行统计。
表1:对实词词语进行统计的数据结构
在一个具体的实施例中,可以依照表2中的对应关系将评论文本的各个实词词语归类为轻度负因素、正因素或重度负因素,然后再分别对评论文本的各个实词词语的轻度负因素、正因素和重度负因素进行统计,得到轻度负因素值、正因素值和重度负因素值。
表2:实词组合与情感因素的对应关系
示例如,根据表2,在评论文本T里,假如包含实词A、实词B和实词C。其中,实词A为低负向词,且存在一个相应的修饰副词,该修饰副词为否定词,那么实词A的情感因素类型为正因素;实词B为中负向词,且存在一个相应的修饰副词,该修饰副词为否定词,那么实词B的情感因素类型为正因素;实词C为高负向词,且存在一个相应的修饰副词,该修饰副词为否定词,那么实词C的情感因素类型为正因素。对评论文本T的各个实词词语的轻度负因素、正因素和重度负因素进行统计,则得到评论文本T的正因素值为3,轻度负因素值和重度负因素值均为0。
在本申请的一些实施例中,上述步骤S500以该情感分析统计结果对该模型分类结果进行修正,得到修正后的分类结果的过程,可以包括:
G1,若情感分析结果为强负面,则确定待分类的评论文本的修正后的分类结果为差评;
G2,若模型分类结果为中评,正因素值不小于K1,且轻度负因素值小于K2,则确定待分类的评论文本的修正后的分类结果为好评;
G3,若模型分类结果为中评,重度负因素值不小于K3,则确定待分类的评论文本的修正后的分类结果为差评;
G4,若模型分类结果为差评,正因素值不小于K4,则确定待分类的评论文本的修正后的分类结果为中评。
具体地,分类结果修正条件可以参见表3。其中,K1、K2、K3以及K4为独立预设的阈值。在实际应用中,可以根据经验调整这几个的阈值的具体数值,以使得修正结果更贴合于评论文本的内容。
表3:分类结果修正对照表
示例如,如果情感分析结果为强负面,则无论模型分类结果是什么,都将评论文本的分类结果修正为差评;模型分类结果为中评,如果正因素值大于等于3、轻度负因素值小于3,将评论文本的分类结果修正为好评;如果模型分类结果为中评,重度负因素值大于等于1,将评论文本的分类结果修正为差评;如果模型分类结果为差评,若正因素值大于等于3,将评论文本的分类结果修正为中评。
下面对本申请实施例提供的电商评论分类装置进行描述,下文描述的电商评论分类装置与上文描述的电商评论分类方法可相互对应参照。
请参见图2,本申请实施例提供的电商评论分类装置,可以包括:
前置过滤单元21,用于根据预设的字符匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否属于不相关评论;若是,则直接将所述待分类的评论文本归类为不相关评论;
模型分类单元22,用于通过训练后的分类模型对所述待分类的评论文本进行分类,得到模型分类结果;
情感分析单元23,用于对所述待分类的评论文本进行文本情感分析,得到情感分析结果;
结果修正单元24,用于以所述情感分析统计结果对所述模型分类结果进行修正,得到修正后的分类结果,并以所述修正后的分类结果作为所述待分类的评论文本的分类结果。
在本申请的一些实施例中,前置过滤单元21根据预设的字符匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否属于不相关评论的过程,可以包括:
根据预设的广告词匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否包含广告词;
根据预设的无效评论匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否为无效评论;
其中,被判定为包含广告词或无效评论的待分类的评论文本,被归类为不相关评论。
在本申请的一些实施例中,前置过滤单元21根据预设的广告词匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否包含广告词的过程,可以包括:
对所述待分类的评论文本进行扫描,得到扫描结果;
根据所述扫描结果判断所述待分类的评论文本是否匹配预设的广告词词典中的词语;
若是,则判定所述待分类的评论文本包含广告词。
在本申请的一些实施例中,前置过滤单元21根据预设的无效评论匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否为无效评论的过程,可以包括:
判断所述待分类的评论文本是否为空字符串;
判断所述待分类的评论文本是否仅包含标点符号或数字;
判断所述待分类的评论文本是否包含连续N1个字母或N2个数字,其中,N1、N2为独立预设的数目;
和/或,
判断所述待分类的评论文本是否不包含中文字符;
若上述任一判断的判断结果为是,则判定所述待分类的评论文本为无效评论。
在本申请的一些实施例中,在模型分类单元22通过训练后的分类模型对所述待分类的评论文本进行分类之前,还可以包括:
对所述待分类的评论文本的内容进行去重处理;
所述对待分类的评论文本的内容进行去重处理的过程,包括:
将待分类的评论文本进行分句,得到至少一个子句,若出现连续重复的子句,则对于所述连续重复的子句,仅保留一个子句;
和/或,
以预设的规则去除待分类的评论文本中重复出现的字符或字符串。
在本申请的一些实施例中,情感分析单元23对所述待分类的评论文本进行文本情感分析的过程,可以包括:
对所述待分类的评论文本进行扫描,根据扫描结果判断所述待分类的评论文本是否包含预设的预警短语;
若是,则确定情感分析结果为强负面;
若否,则根据预设的实词词典和副词词典,对所述待分类的评论文本进行情感分析。
在本申请的一些实施例中,情感分析单元23根据预设的实词词典和副词词典,对所述待分类的评论文本进行情感分析的过程,可以包括:
将所述待分类的评论文本拆分成多个词语,得到词语列表;
对于所述词语列表中的每个词语,根据预设的实词词典,判断所述词语是否为预设类型的实词;
若是,判断所述词语是否存在对应的修饰副词;
若是,则根据预设的副词词典,确定所述修饰副词的类型;
根据所述词语的实词类型、是否存在对应的修饰副词、以及当存在对应的修饰副词时,所述修饰副词的类型,确定所述词语的情感因素类型;
对所述待分类的评论文本的各个实词词语的情感因素类型进行统计。
在本申请的一些实施例中,所述情感因素类型可以包括轻度负因素、正因素和重度负因素;
情感分析单元23对所述待分类的评论文本的各个实词词语的情感因素类型进行统计的过程,可以包括:
分别对所述待分类的评论文本的各个实词词语的轻度负因素、正因素和重度负因素进行统计,得到轻度负因素值、正因素值和重度负因素值。
结果修正单元24以所述情感分析结果对所述模型分类结果进行修正,得到所述待分类的评论文本的修正后的分类结果的过程,可以包括:
若情感分析结果为强负面,则确定所述待分类的评论文本的修正后的分类结果为差评;
若所述模型分类结果为中评,正因素值不小于K1,且轻度负因素值小于K2,则确定所述待分类的评论文本的修正后的分类结果为好评;
若所述模型分类结果为中评,重度负因素值不小于K3,则确定所述待分类的评论文本的修正后的分类结果为差评;
若所述模型分类结果为差评,正因素值不小于K4,则确定所述待分类的评论文本的修正后的分类结果为中评;
其中,K1、K2、K3以及K4为独立预设的阈值。
本申请实施例提供的电商评论分类装置可应用于电商评论分类设备,如网站服务器等。可选的,图3示出了电商评论分类设备的硬件结构框图,参照图3,电商评论分类设备的硬件结构可以包括:至少一个处理器31,至少一个通信接口32,至少一个存储器33和至少一个通信总线34。
在本申请实施例中,处理器31、通信接口32、存储器33、通信总线34的数量为至少一个,且处理器31、通信接口32、存储器33通过通信总线34完成相互间的通信;
处理器31可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路等;
存储器32可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器33存储有程序,处理器31可调用存储器33存储的程序,所述程序用于:
根据预设的字符匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否属于不相关评论;
若是,则直接将所述待分类的评论文本归类为不相关评论;
若否,通过训练后的分类模型对所述待分类的评论文本进行分类,得到模型分类结果;
对所述待分类的评论文本进行文本情感分析,得到情感分析结果;
以所述情感分析统计结果对所述模型分类结果进行修正,得到修正后的分类结果,并以所述修正后的分类结果作为所述待分类的评论文本的分类结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
根据预设的字符匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否属于不相关评论;
若是,则直接将所述待分类的评论文本归类为不相关评论;
若否,通过训练后的分类模型对所述待分类的评论文本进行分类,得到模型分类结果;
对所述待分类的评论文本进行文本情感分析,得到情感分析结果;
以所述情感分析统计结果对所述模型分类结果进行修正,得到修正后的分类结果,并以所述修正后的分类结果作为所述待分类的评论文本的分类结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
综上所述,本申请根据预设的字符匹配规则对待分类的评论文本进行匹配识别,判断所述待分类的评论文本是否属于不相关评论;若是,则直接将所述待分类的评论文本归类为不相关评论。该步骤可以剔除不相关评论,避免其对分类结果造成负面影响。
若否,则通过训练后的分类模型对所述待分类的评论文本进行分类,得到模型分类结果;此外,还对所述待分类的评论文本进行文本情感分析,得到情感分析结果;以所述情感分析结果对所述模型分类结果进行修正,得到所述待分类的评论文本的修正后的分类结果,并以所述修正后的分类结果作为所述待分类的评论文本的分类结果。整个分类过程并非单纯地依赖分类模型来进行分类,避免了决策角度的单一性,并提升了评论分类的准确性。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种电商评论分类方法,其特征在于,包括:
根据预设的字符匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否属于不相关评论;
若是,则直接将所述待分类的评论文本归类为不相关评论;
若否,通过训练后的分类模型对所述待分类的评论文本进行分类,得到模型分类结果;
对所述待分类的评论文本进行文本情感分析,得到情感分析结果;
以所述情感分析结果对所述模型分类结果进行修正,得到修正后的分类结果,并以所述修正后的分类结果作为所述待分类的评论文本的分类结果;
以所述情感分析结果对所述模型分类结果进行修正,得到修正后的分类结果的过程,包括:
分别对所述待分类的评论文本的各个实词词语的轻度负因素、正因素和重度负因素进行统计,得到轻度负因素值、正因素值和重度负因素值;
若情感分析结果为强负面,则确定所述待分类的评论文本的修正后的分类结果为差评;
若所述模型分类结果为中评,正因素值不小于K1,且轻度负因素值小于K2,则确定所述待分类的评论文本的修正后的分类结果为好评;
若所述模型分类结果为中评,重度负因素值不小于K3,则确定所述待分类的评论文本的修正后的分类结果为差评;
若所述模型分类结果为差评,正因素值不小于K4,则确定所述待分类的评论文本的修正后的分类结果为中评;
其中,K1、K2、K3以及K4为独立预设的阈值。
2.根据权利要求1所述的方法,其特征在于,所述根据预设的字符匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否属于不相关评论的过程,包括:
根据预设的广告词匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否包含广告词;
根据预设的无效评论匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否为无效评论;
其中,被判定为包含广告词或无效评论的待分类的评论文本,被归类为不相关评论。
3.根据权利要求2所述的方法,其特征在于,所述根据预设的广告词匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否包含广告词的过程,包括:
对所述待分类的评论文本进行扫描,得到扫描结果;
根据所述扫描结果判断所述待分类的评论文本是否匹配预设的广告词词典中的词语;
若是,则判定所述待分类的评论文本包含广告词。
4.根据权利要求2所述的方法,其特征在于,所述根据预设的无效评论匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否为无效评论的过程,包括:
判断所述待分类的评论文本是否为空字符串;
判断所述待分类的评论文本是否仅包含标点符号或数字;
判断所述待分类的评论文本是否包含连续N1个字母或N2个数字,其中,N1、N2为独立预设的数目;
和/或,
判断所述待分类的评论文本是否不包含中文字符;
若上述任一判断的判断结果为是,则判定所述待分类的评论文本为无效评论。
5.根据权利要求1所述的方法,其特征在于,在通过训练后的分类模型对所述待分类的评论文本进行分类之前,还包括:
对所述待分类的评论文本的内容进行去重处理;
所述对待分类的评论文本的内容进行去重处理的过程,包括:
将待分类的评论文本进行分句,得到至少一个子句,若出现连续重复的子句,则对于所述连续重复的子句,仅保留一个子句;
和/或,
以预设的规则去除待分类的评论文本中重复出现的字符或字符串。
6.根据权利要求1~5任一项所述的方法,其特征在于,所述对所述待分类的评论文本进行文本情感分析的过程,包括:
对所述待分类的评论文本进行扫描,根据扫描结果判断所述待分类的评论文本是否包含预设的预警短语;
若是,则确定情感分析结果为强负面;
若否,则根据预设的实词词典和副词词典,对所述待分类的评论文本进行情感分析。
7.根据权利要求6所述的方法,其特征在于,所述根据预设的实词词典和副词词典,对所述待分类的评论文本进行情感分析的过程,包括:
将所述待分类的评论文本拆分成多个词语,得到词语列表;
对于所述词语列表中的每个词语,根据预设的实词词典,判断所述词语是否为预设类型的实词;
若是,判断所述词语是否存在对应的修饰副词;
若是,则根据预设的副词词典,确定所述修饰副词的类型;
根据所述词语的实词类型、是否存在对应的修饰副词、以及当存在对应的修饰副词时,所述修饰副词的类型,确定所述词语的情感因素类型;
对所述待分类的评论文本的各个实词词语的情感因素类型进行统计。
8.一种电商评论分类装置,其特征在于,包括:
前置过滤单元,用于根据预设的字符匹配规则对待分类的评论文本进行匹配,并根据匹配结果判断所述待分类的评论文本是否属于不相关评论;若是,则直接将所述待分类的评论文本归类为不相关评论;
模型分类单元,用于通过训练后的分类模型对所述待分类的评论文本进行分类,得到模型分类结果;
情感分析单元,用于对所述待分类的评论文本进行文本情感分析,得到情感分析结果;
结果修正单元,用于以所述情感分析结果对所述模型分类结果进行修正,得到修正后的分类结果,并以所述修正后的分类结果作为所述待分类的评论文本的分类结果;
以所述情感分析结果对所述模型分类结果进行修正,得到修正后的分类结果的过程,包括:
分别对所述待分类的评论文本的各个实词词语的轻度负因素、正因素和重度负因素进行统计,得到轻度负因素值、正因素值和重度负因素值;
若情感分析结果为强负面,则确定所述待分类的评论文本的修正后的分类结果为差评;
若所述模型分类结果为中评,正因素值不小于K1,且轻度负因素值小于K2,则确定所述待分类的评论文本的修正后的分类结果为好评;
若所述模型分类结果为中评,重度负因素值不小于K3,则确定所述待分类的评论文本的修正后的分类结果为差评;
若所述模型分类结果为差评,正因素值不小于K4,则确定所述待分类的评论文本的修正后的分类结果为中评;
其中,K1、K2、K3以及K4为独立预设的阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110909203.2A CN113609293B (zh) | 2021-08-09 | 2021-08-09 | 一种电商评论分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110909203.2A CN113609293B (zh) | 2021-08-09 | 2021-08-09 | 一种电商评论分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113609293A CN113609293A (zh) | 2021-11-05 |
CN113609293B true CN113609293B (zh) | 2024-01-30 |
Family
ID=78340027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110909203.2A Active CN113609293B (zh) | 2021-08-09 | 2021-08-09 | 一种电商评论分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113609293B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239512A (zh) * | 2017-05-18 | 2017-10-10 | 华中科技大学 | 一种结合评论关系网络图的微博垃圾评论识别方法 |
CN110362679A (zh) * | 2019-06-05 | 2019-10-22 | 北京大学(天津滨海)新一代信息技术研究院 | 一种基于情感词典的金融领域评论情感分类方法及系统 |
CN110489553A (zh) * | 2019-07-26 | 2019-11-22 | 湖南大学 | 一种基于多源信息融合的情感分类方法 |
CN110502744A (zh) * | 2019-07-15 | 2019-11-26 | 同济大学 | 一种针对历史公园评价的文本情感识别方法及装置 |
CN112183056A (zh) * | 2020-08-19 | 2021-01-05 | 合肥工业大学 | 基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法和系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180260860A1 (en) * | 2015-09-23 | 2018-09-13 | Giridhari Devanathan | A computer-implemented method and system for analyzing and evaluating user reviews |
CN111639247B (zh) * | 2019-03-01 | 2023-08-01 | 百度在线网络技术(北京)有限公司 | 用于评估评论的质量的方法、装置、设备以及计算机可读存储介质 |
-
2021
- 2021-08-09 CN CN202110909203.2A patent/CN113609293B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239512A (zh) * | 2017-05-18 | 2017-10-10 | 华中科技大学 | 一种结合评论关系网络图的微博垃圾评论识别方法 |
CN110362679A (zh) * | 2019-06-05 | 2019-10-22 | 北京大学(天津滨海)新一代信息技术研究院 | 一种基于情感词典的金融领域评论情感分类方法及系统 |
CN110502744A (zh) * | 2019-07-15 | 2019-11-26 | 同济大学 | 一种针对历史公园评价的文本情感识别方法及装置 |
CN110489553A (zh) * | 2019-07-26 | 2019-11-22 | 湖南大学 | 一种基于多源信息融合的情感分类方法 |
CN112183056A (zh) * | 2020-08-19 | 2021-01-05 | 合肥工业大学 | 基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法和系统 |
Non-Patent Citations (2)
Title |
---|
基于多部情感词典与SVM的电影评论情感分析;吴杰胜;陆奎;王诗兵;;阜阳师范学院学报(自然科学版)(第02期);72-76 * |
线上商品用户评论的情感分析系统研究与实现;接磊;中国优秀硕士学位论文全文数据库 信息科技辑(第01期);I138-2512 * |
Also Published As
Publication number | Publication date |
---|---|
CN113609293A (zh) | 2021-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hill et al. | Quantifying the impact of dirty OCR on historical text analysis: Eighteenth Century Collections Online as a case study | |
CN108491377B (zh) | 一种基于多维度信息融合的电商产品综合评分方法 | |
CN108388660B (zh) | 一种改进的电商产品痛点分析方法 | |
US10755045B2 (en) | Automatic human-emulative document analysis enhancements | |
Rain | Sentiment analysis in amazon reviews using probabilistic machine learning | |
CN105426360B (zh) | 一种关键词抽取方法及装置 | |
US20060200342A1 (en) | System for processing sentiment-bearing text | |
CN113837531A (zh) | 一种基于网络评论的产品质量问题发现及风险评估方法 | |
JPH07114572A (ja) | 文書分類装置 | |
Gharatkar et al. | Review preprocessing using data cleaning and stemming technique | |
CN111538828A (zh) | 文本情感分析方法、装置、计算机装置及可读存储介质 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
US11436278B2 (en) | Database creation apparatus and search system | |
CN110741376A (zh) | 用于不同自然语言的自动文档分析 | |
CN112016294A (zh) | 一种基于文本的新闻重要性评估方法、装置及电子设备 | |
CN110569495A (zh) | 一种基于用户评论的情感倾向分类方法、装置及存储介质 | |
CN111858942A (zh) | 一种文本抽取方法、装置、存储介质和电子设备 | |
Prabowo et al. | Instagram online shop's comment classification using statistical approach | |
CN109670183B (zh) | 一种文本重要性的计算方法、装置、设备和存储介质 | |
CN111241290A (zh) | 一种评论标签生成方法、装置和计算设备 | |
CN111339403B (zh) | 一种基于商品评论新词提取方法 | |
CN113609293B (zh) | 一种电商评论分类方法及装置 | |
US20180005300A1 (en) | Information presentation device, information presentation method, and computer program product | |
Dewi et al. | Comparative Sentiment Analysis of Delivery Service PT. POS Indonesia and J&T Express on Twitter Social Media Using The Support Verctor Machine Algorithm | |
Maesya et al. | Stemming Algorithm for the Indonesian Language: A Scientometric View |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |