CN111260437B - 一种基于商品方面级情感挖掘和模糊决策的产品推荐方法 - Google Patents
一种基于商品方面级情感挖掘和模糊决策的产品推荐方法 Download PDFInfo
- Publication number
- CN111260437B CN111260437B CN202010034420.7A CN202010034420A CN111260437B CN 111260437 B CN111260437 B CN 111260437B CN 202010034420 A CN202010034420 A CN 202010034420A CN 111260437 B CN111260437 B CN 111260437B
- Authority
- CN
- China
- Prior art keywords
- viewpoint
- word
- words
- commodity
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明涉及互联网技术领域,尤其涉及一种基于商品方面级情感挖掘和模糊决策的产品推荐方法、装置、计算机设备和存储介质,该方法包括:获取每个待排序商品的评论数据,从中提取各个属性对应的所有特征词‑观点词对;基于各个特征词‑观点词对的正、负情感倾向,计算每个商品每个属性上的区间型毕达哥拉斯模糊数,组成情感决策矩阵;利用Heronian算子,建立综合情感决策矩阵、用户对于各属性的偏好以及属性间相关性的评分模型;利用评分模型得到每个商品的评分结果,根据评分结果对商品进行排序。该方法能够通过分析在线商品评论,快速针对用户不同偏好自动生成产品排序,实现产品推荐。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种基于商品方面级情感挖掘和模糊决策的产品推荐方法、装置、计算机设备和存储介质。
背景技术
随着互联网和电子商务的快速发展,网上购物在当代社会成为了一种主流的消费方式。与传统线下购物方式不同,消费者无法通过直接观察或者亲身体验来评估在线商品的各个属性。这种情况下,在线商品评论就成了广大消费者评判商品的一种非常有效的信息源。通过分析其他已购买商品的消费者分享在电商网站上的评论,消费者可以了解到其他人对该商品的各个属性的满意程度,进而估计出该商品的各个属性能够多大程度满足自身需求,最后结合自己的实际需求来做出最终的购买决策。
然而,分析这些浩如烟海的商品评论通常十分耗时耗力,从中查找有效信息对于消费者来说十分不便,效率极低。如何快速智能地从大量商品评论中自动化总结出商品各个属性的性能,并依据消费者对不同属性的偏好给出相应的产品推荐,成为广大消费者和在线商家普遍关心的一个问题。
发明内容
本发明的目的是针对上述至少一部分问题,提供一种能够通过分析在线商品评论,基于商品方面级情感挖掘和模糊决策高效地自动生成产品排序的产品推荐方法、装置、计算机设备和存储介质。
为了实现上述目的,本发明提供了一种基于商品方面级情感挖掘和模糊决策的产品推荐方法,所述方法包括:
步骤1、获取每个待排序商品的评论数据,从中提取各个属性对应的所有特征词-观点词对;
步骤2、基于各个特征词-观点词对的正、负情感倾向,计算每个商品每个属性上的区间型毕达哥拉斯模糊数,组成情感决策矩阵;
步骤3、利用Heronian算子,建立综合情感决策矩阵、用户对于各属性的偏好以及属性间相关性的评分模型;
步骤4、利用评分模型得到每个商品的评分结果,根据评分结果对商品进行排序。
优选地,所述步骤1进一步包括:
步骤1-1、从评论数据中抽取特征词、观点词;
步骤1-2、将抽取得到的特征词、观点词进行匹配,得到特征词-观点词对;
步骤1-3、确定各个特征词-观点词对的情感倾向;
步骤1-4、根据对应的属性,将所有特征词-观点词对进行聚类。
优选地,所述步骤1-1进一步包括:
对于评论数据中缺少特征词、包含观点词的语句,将其作为第一类观点表达句,抽取其中的观点词;
对于评论数据中包含特征词及观点词的语句,将其作为第二类观点表达句,抽取其中的特征词、观点词;
对于评论数据中包含特征词、缺少观点词的语句,将其作为第三类观点表达句,抽取其中的特征词。
优选地,所述步骤1-2进一步包括:
对于第一类观点表达句中抽取得到的观点词,将其特征词设为空,构成特征词-观点词对;
对于第二类观点表达句中抽取得到的特征词、观点词,通过词对关系判别模型判断是否构成词对,若词对关系成立,构成特征词-观点词对;
对于第三类观点表达句中抽取得到的特征词,将特征词与其所在子句匹配,构成特征词-观点词对。
优选地,所述步骤1-3进一步包括:
对于第一类观点表达句及第二类观点表达句中的观点词进行统计,过滤其中出现频次低于设定阈值的观点词;对过滤后的观点词进行词性分析,确定观点词中相应的情感倾向;
对于第三类观点表达句中的子句,调用情感分析接口确定子句中相应的情感倾向。
优选地,所述步骤2进一步包括:
步骤2-1、计算每个商品每个属性的正、负情感倾向占比模糊数;
步骤2-2、根据正、负情感倾向占比模糊数,计算每个属性的隶属度区间与非隶属度区间;
步骤2-3、计算每个商品每个属性上的区间型毕达哥拉斯模糊数,组成情感决策矩阵。
优选地,所述步骤3中,评分模型的表达式为:
其中,IVPFHMWA(A1,A2,…,Am)表示集结商品各个属性上的模糊信息的结果,m表示属性总数,Ai表示商品的第i个属性计算出来的毕达哥拉斯模糊数,Aj表示商品的第j个属性计算出来的毕达哥拉斯模糊数,wi和wj分别表示用户在第i个属性和第j个属性上的偏好权重,p和q分别表示属性间的相关性参数。
本发明还提供了一种基于商品方面级情感挖掘和模糊决策的产品推荐装置,所述装置包括:
提取模块,用于获取每个待排序商品的评论数据,从中提取各个属性对应的所有特征词-观点词对;
属性级情感模块,用于基于各个特征词-观点词对的正、负情感倾向,计算每个商品每个属性上的区间型毕达哥拉斯模糊数,组成情感决策矩阵;
综合情感模块,用于利用Heronian算子,建立综合情感决策矩阵、用户对于各属性的偏好以及属性间相关性的评分模型;
排序模块,用于利用评分模型得到每个商品的评分结果,根据评分结果对商品进行排序。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本发明的上述技术方案具有如下优点:本发明提供的基于商品方面级情感挖掘和模糊决策的产品推荐方法、装置、计算机设备和存储介质,通过从在线评论中提取出关于商品属性评价的特征词-观点词对并确定其情感倾向,然后统计各个属性下的情感分布,最后利用Heronian算子结合毕达哥拉斯模糊数对商品的各个属性的情感信息进行集结,结合用户对于不同属性的偏好权重,自动生成商品排序结果,针对用户完成相关产品推荐。本发明能够快速、准确地提取在线商品评论中包含商品属性评价的有效信息,并针对不同用户的偏好给出相应的产品推荐,大大节省用户浏览评价获取信息的时间,且计算速度快,产品推荐针对性、准确性较高。
附图说明
图1是本发明实施例一提供的产品推荐方法步骤示意图;
图2是本发明实施例二中基于BiLSTM+Attention的词对关系判别模型结构示意图;
图3是本发明实施例三中提供的产品推荐装置结构示意图。
图中:100:提取模块;200:属性级情感模块;300:综合情感模块;400:排序模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如图1所示,本发明实施例提供了一种基于商品方面级情感挖掘和模糊决策的产品推荐方法,该方法包括:
步骤1、获取每个待排序商品的评论数据,从中提取各个属性对应的所有特征词-观点词对。
其中,特征词是包含属性特征的词汇,与商品属性细粒度的特征相对应(同一个属性可能对应多个特征词),观点词是包含消费者主观情感的评价性词语(或短句),表达了消费者对于商品属性某一特征的主观情感评价,特征词-观点词对具有情感倾向,情感倾向包括正、中、负。
具体地,此步骤1将所有待排序商品评论中,关于商品细粒度的属性级评价内容以特征词-观点词对的形式提取出来,利用情感分析技术,识别词对中观点词的情感倾向是正向、中向、还是负向,并利用基于词向量的聚类方法,将所有的特征词-观点词对聚类,使得每一类中的观点词都是描述商品同一属性的词(或短句)。
优选地,步骤1还包括:在提取特征词-观点词对前,对评论数据进行预处理。预处理包括去除评论数据文本中表情、链接、乱码等噪声信息。消费者在互联网上发表的内容存在高度口语化的特点,许多评论中带有重复性高的语气词,如“好好好好好好!!!!!!”,这类信息会给后续分析带来影响,对于这种情况,进一步地,可采用正则表达式来进行数据清洗。
进一步地,步骤1包括:
步骤1-1、从评论数据中抽取特征词、观点词。
为了从评论中高效、准确且全面地筛选众多语言习惯不同的消费者对于一个商品某一属性的评价信息,本发明对中文评论中的观点表达形式进行了分析和总结,并确定了以下三类主要的观点表达形式。
以一条针对手机的中文评论观点表达为例,评论文本为:“很满意,外观好看,功能方便快捷,面部解锁非常爽,可惜价格没有赶上最低的时候”。
第一类观点表达形式:<none,观点词>
如例中的“很满意”语段。此类观点表达中缺少观点描述的手机属性特征对象,但是用户的情感可以通过分析观点词的情感极性得出。由于用户评论高度口语化的特点,这类观点表达在商品评论中存在非常普遍。
第二类观点表达形式:<特征词,观点词>
如例中的“外观好看,功能方便快捷,面部解锁非常爽”语段。此类观点表达中清晰存在对应属性特征的特征词和对应情感的观点词。如“外观”、“功能”、“面部解锁”等都属于对应手机的商品属性特征的特征词,而“好看”、“方便快捷”、“非常爽”等观点词都带有特别强烈的情感倾向。
第三类观点表达形式:<特征词,情感句>
如例中的“可惜价格没有赶上最低的时候”语段。此类观点中手机的特征词显式存在(对应属性特征的特征词:“价格”),但是消费者的观点却蕴含在整个子句当中,只有通过对子句进行情感分析才能得到消费者的情感倾向。
上述归纳的三类观点表达形式,可以覆盖大多数消费者评论,针对以上对评论文本的分析,为了更加高效、准确地抽取消费者的细粒度特征词-观点词对信息,优选地,步骤1-1进一步包括:
a、对于评论数据中缺少特征词、包含观点词的语句,将其作为第一类观点表达句,抽取其中的观点词。
b、对于评论数据中包含特征词及观点词的语句,将其作为第二类观点表达句,抽取其中的观点词、特征词。
c、对于评论数据中包含特征词、缺少观点词的语句,将其作为第三类观点表达,抽取其中的特征词。
步骤1-2、将抽取得到的特征词、观点词进行匹配,得到特征词-观点词对。
进一步地,步骤1-2包括:
a、对于第一类观点表达句中抽取得到的观点词,将其特征词设为空(none),构成特征词-观点词对。
b、对于第二类观点表达句中抽取得到的特征词、观点词,通过词对关系判别模型判断一组特征词、观点词是否构成词对,若词对关系成立,实现匹配,构成特征词-观点词对。
c、对于第三类观点表达句中抽取得到的特征词,将特征词与其所在子句匹配,构成特征词-观点词对,即将特征词所在的子句作为“观点词”,以便后续对整个子句进行情感倾向分析,从而确定特征词-观点词对的情感倾向。
特别地,本发明首先将特征词、观点词抽取出来,将这个任务建模成序列标注任务,采用BiLSTM+CRF的模型结构进行信息抽取,然后将对应的特征词、观点词配对问题转化成分类问题。为此,需要进行数据标注。由上可知,需要两种标注数据:
(1)特征词、观点词标注
对于第一类观点表达句,只抽取观点词。对于第二类观点表达句,抽取特征词和观点词。对于第三类观点表达句,只抽取特征词,情感句可直接定位为特征词所在的子句。因此,只需要定义四类实体。
优选地,该方法采用BIOS的标注架构。标注标签Ye={BO1,IO1,EO1,SO1,BF2,IF2,EF2,SF2,BO2,IO2,EO2,SO2,BO3,IO3,EO3,SO3,OTHER}。其中,B*#表示第#类观点表达的*项(O:观点词,F:特征词)的开头,即B表示标注的字处于一个词汇的开头,同理,I表示标注的字处于词汇的中间,E表示标注的字处于词的结尾,S表示标注的字单个字就能组成词,OTHER表示其他词。
(2)特征词-观点词对关系匹配标注
特别地,该方法将特征词-观点词对匹配建模成分类任务,给定一个特征词-观点词对,构建一个基于BiLSTM+Attention的分类网络(即词对关系判别模型)对词对关系进行判断。由于第一类观点表达句和第三类观点表达句都不需要通过词对关系判别模型匹配,只有第二类观点表达句会利用分类网络进行匹配判断。
以一条针对手机的中文评论观点表达为例,评论文本为:“怎么那么难抢,抢了好几次才抢到,裸下的还好抢,用券的真心难抢,包装很精致”。
相应的,特征词、观点词,以及词对关系匹配标注格式示例为:
[{“end”:33,“start”:31,“value”:“包装”,“type”:“pair-feature”},
{“end”:36,“start”:33,“value”:“很精致”,“type”:“pair-perspective”}]
[{“end”:“1”,“start”:“0”,“value”:“包装_很精致”,“rel_type”:“available”}]
标注中示例中包含两个列表,前一个是实体列表,后一个是实体关系列表。其中,实体列表中start表示实体起始位置,end表示实体在文本中的结束位置,type表示实体类型,pair-feature表示一个词对中的特征词,pair-perspective表示一个词对中的观点词,value表示具体实体。在实体关系列表中,start表示词对关系中的特征词实体在实体列表中的下标索引,end表示观点词在实体列表中的下标索引,rel_type表示词对关系,avaliable表示词对关系成立,none表示词对关系不成立。上例中,特征词为“包装”,观点词为“精致”。该方法标注了每个实体的位置,以及词对关系的起始实体、结束实体和词对关系。本例中的“包装很精致”的起始实体在实体列表中的下标索引start为0,特征词是句子中的第一个实体也就是“包装”。结束实体为“很精致”是第二个实体,在实体列表中的下标索引end为1,它们的词对关系(rel_type)是“available”,也就是能构成特征词-观点词对。反例的词对关系标注为“none”,即不能构成特征词-观点词对。
步骤1-3、确定各个特征词-观点词对的情感倾向。
优选地,步骤1-3进一步包括:
a、对于第一类观点表达句及第二类观点表达句中取得的观点词进行统计,过滤其中出现频次低于设定阈值的观点词。设定阈值的大小可根据实际需要调整,例如可设为10,即过滤出现频度低于10词的观点词,减少复杂语料给模型带来的影响。
对过滤后的观点词进行词性分析,确定观点词中相应的情感倾向。通过词性分析,可根据观点词的词性组成规则和词素级的情感词典,确定观点词的情感倾向为正、中或负。
b、对于第三类观点表达句中取得的子句,调用情感分析接口确定子句中相应的情感倾向。由于第三类观点表达句中的情感倾向需要通过分析整个子句来确定,因此不能简单地提取词语进行判别。
步骤1-4、根据对应的属性,将所有特征词-观点词对进行聚类。
由于消费者会使用多个不同的词汇来描述手机的同一属性,例如“外观”、“颜值”、“外表”等词均对应手机的外观属性,为了集结这些同一属性的情感信息,需要将描述商品相同属性的特征词-观点词对聚类在一起。
优选地,步骤1-4包括:
a、填补第一类观点表达句对应的特征词-观点词对中缺失的特征词。
由于第一类观点表达句中抽取得到的特征词为“none”,因此需要补上缺失的特征词。
进一步地,填补缺失的特征词的具体步骤包括:
(a)确定取自第一类观点表达句的特征词-观点词对中的观点词;
(b)在所有取自第二类观点表达句的特征词-观点词对中,统计该观点词修饰每个特征词的频率;
(c)将频率最高的特征词作为该观点词匹配的特征词,填补至相应的特征词-观点词对中。实现对所有特征词-观点词对中缺失项的补全。
b、舍弃出现频次低于预定阈值的特征词,将其余特征词加入jieba分词的自定义字典。
例如,预定阈值可定为20,即将出现次数低于20次的特征词丢弃,只考虑高频的商品属性特征。将剩下的高频特征词加入jieba分词的自定义字典来确保分词时特征词不会被切开。
c、对所有评论语料进行分词后,训练一个word2vec语言模型,获取各个特征词的分布式向量表示。
d、将获取的分布式向量用kmeans的聚类方法进行聚类。
此步骤1-4通过深度学习的方式,对消费者评论中涉及的各种商品属性特征点进行聚类,将同一属性对应的观点分至同一类下,得到每个属性对应的所有特征词-观点词,以便后续利用模糊决策的思想,通过总结评论数据中细粒度情感观点,提炼消费者对于某一商品某一属性的情感信息。
步骤2、基于各个特征词-观点词对的正、负情感倾向,计算每个商品每个属性上的区间型毕达哥拉斯模糊数,组成情感决策矩阵。情感决策矩阵中的元素分别为不同商品不同属性上的区间型毕达哥拉斯模糊数。
为了利用模糊决策提取消费者的情感信息,首先需要确定属性级情感信息表示,即确定某一商品、某一属性对应的情感信息。
优选地,步骤2进一步包括:
步骤2-1、计算每个商品每个属性的正、负情感倾向占比模糊数。
优选地,计算一款商品一个属性的正、负情感倾向占比模糊数,可采用如下公式:
其中,μij表示正情感倾向占比模糊数,vij表示负情感倾向占比模糊数,表示正情感倾向特征词-观点词对数目,/>表示表示负情感倾向特征词-观点词对数目,/>表示中情感倾向特征词-观点词对数目,i表示商品序号,j表示属性序号。
步骤2-2、根据正、负情感倾向占比模糊数,计算每个属性的隶属度区间与非隶属度区间。
优选地,计算每个属性的隶属度区间与非隶属度区间,即计算隶属度上下界与非隶属度上下界,可采用如下公式:
步骤2-3、计算每个商品每个属性上的区间型毕达哥拉斯模糊数,组成情感决策矩阵。
优选地,根据区间型毕达哥拉斯模糊数(Interval-Valued Pythagorean FuzzyNumber,IVPFN)的概念,每款商品每个属性上的区间型毕达哥拉斯模糊数Aij可表示为:
进而得到情感决策矩阵D的表达式为:
D=(Aij)n×m
步骤3、利用Heronian算子,建立综合情感决策矩阵、用户对于各属性的偏好以及属性间相关性的评分模型。
商品的不同属性之间往往并不是绝对独立的,而是存在一定的相关性,即属性级信息彼此之间存在关联。而不同用户对于商品各个属性的偏好程度直接决定用户对于商品本身的喜好程度。因此,为实现更加高效、准确地向用户提供其更偏爱的产品,有必要综合考虑各商品各属性评论中情感倾向、属性间相关性以及用户自身的偏好。
为了集结每个商品的属性级信息,本发明在IVPFN上引入Heronian平均加权平均算子IVPFHMWA(Interval-Valued Pythagorean Fuzzy Heronian Mean WeightedAverage),建立了能够综合各属性区间型毕达哥拉斯模糊数、用户对于各属性的偏好以及属性间相关性的评分模型。
优选地,步骤3建立评分模型的表达式包括:
其中,IVPFHMWA(A1,A2,…,Am)表示集结商品各个属性上的模糊信息的结果,i、j=1、2、…m,m表示属性总数,Ai表示商品的第i个属性计算出来的毕达哥拉斯模糊数,Aj表示商品的第j个属性计算出来的毕达哥拉斯模糊数,wi和wj分别表示用户在第i个属性和第j个属性上的偏好权重,p和q分别表示属性间的相关性参数。
步骤4、利用评分模型得到每个商品的评分结果,根据评分结果对商品进行排序,实现产品推荐。
具体地,本发明中,评分模型对每一个商品计算出一个得分,得分计算基于IVPFN模糊数的得分函数和准确率函数,这两个函数的计算公式是基于IVPFN模糊数的隶属度与非隶属度上下界。
进一步地,商品的评分模型IVPFHMWA(A1,A2,…,Am)可表示为:
这里的评分模型是对单个商品进行评分,其中,和/>分别表示该商品的第i个属性和第j个属性的隶属度下界,/>和/>分别表示该商品的第i个属性和第j个属性的隶属度上界,/>和/>分别表示该商品的第i个属性和第j个属性的非隶属度下界,/>和/>分别表示该商品的第i个属性和第j个属性的非隶属度上界。上述公式结果依然为一个IVPFN参量,其中的四项依然是相应的隶属度与非隶属度的上下界。
根据IVPFN的运算规则,评分模型IVPFHMWA的计算结果仍满足IPVFN的形式。因此,可通过IPVFN的评分运算规则来计算评分模型IVPFHMWA(A1,A2,…,An),以得到集结完属性级信息后的商品评分的相对大小。
具体地,IPVFN的评分运算规则包括:
其准确率函数表达式为:
其中,S(A)表示参量A的得分函数,H(A)表示参量A的准确率函数,相应的,表示集结信息后的隶属度下界,同理,/>表示集结信息后的隶属度上界,/>表示集结信息后的非隶属度上界,/>表示集结信息后的非隶属度下界。
进行评分时,IPVFN形式的参量A得到的评分结果包括得分函数S(A)和准确率函数H(A)。
进一步地,对于IPVFN形式的参量,根据评分结果进行排序的规则包括:
对于任意两个IPVFN形式的参量A1和A2,如果S(A1)>S(A2),则有A1>A2,即A1排在A2前面。
如果S(A1)=S(A2),若H(A1)>H(A2),则A1>A2;若H(A1)=H(A2),则A1=A2。
步骤4中,基于上述评分运算规则以及根据评分结果进行排序的规则,利用评分模型IVPFHMWA(A1,A2,…,Am)得到每个商品的评分结果,根据评分结果对商品进行排序,将更贴合用户需求的商品排列在前,将不符合用户需求的商品排列在后,即可实现产品推荐。
本发明提供的产品推荐方法基于在线评论提取消费者情感倾向,根据情感倾向完成商品排序,实现产品推荐,该方法总结商品的细粒度的属性级的情感信息,并给出了基于属性级情感信息集结的排序算子。在电子商务互联网环境中,商品评论往往文本数量巨大,且文本口语化程度很高。这使得传统的基于词典、词性、句法分析寻找关联的特征词-观点词对的方法耗时费力,并且由于词典和规则的限制可能带来较大的错误率和信息损失率。本发明提供了在线评论的三种常见表达形式以及如何全面、准确提取评论中信息,并基于深度学习的自然语言处理方法实现了对于多个特征的研究,同时,本发明还考虑到了评论文本中不同特征观点之间的相互影响以及消费者自身对商品各个属性的喜好不同的需求,能够更为高效、准确地完成产品推荐。
实施例二
本实施例二与实施例一基本相同,相同之处不再赘述,不同之处在于:
在本实施例的步骤1中,通过在淘宝和京东上爬取,获得2018年同期上市的八款手机的评论数据,手机型号分别是:iPhone XR、Huawei Mate20、Meizu 16、Vivo Z3、Oneplus6T、Xiaomi9、OPPO R17、Galaxy Note 9。具体的数据情况如表1所示:
表1八款待排序手机的评论数据
特别地,步骤1-1中,采用BiLSTM+CRF的经典序列标注模型进行特征词和观点词的识别,实现抽取特征词、观点词。特征选取为随机初始化的100维的字向量和20维的切词向量,切词向量首先使用jieba分词对语料进行切词。对于每个字,它可能属于一个词语的开头、中间、结尾或者单词。切词向量为4*20的随机初始化向量。模型的输入特征为字向量和切词向量的拼接。采用Adam优化方法进行模型更新,训练100轮后得到最优模型。模型的最终对特征词、观点词的识别效果如表2所示:
表2特征词、观点词抽取效果
抽取特征词、观点词,得到第一、二、三类观点表达句中抽取的特征词、观点词标注数据集,其规模如下表3所示:
表3特征词、观点词标注数据集
特别地,步骤1-2中,如图2所示,构建了基于BiLSTM+Attention的分类网络进行词对匹配,输入层特征为100维的随机初始化的字向量,和每个字相对于特征,观点词实体的相对位置的20维的向量。相对位置d∈[-60,60]。相对位置向量矩阵为随机初始化的120*20矩阵。双向LSTM输出端的输出向量做基于Attention的加权平均后与跨句特征进行拼接。跨句特征为4*20的矩阵。对于两个实体他们之间是否存在“,”或者“。”。如果不存在则为0,存在1个“,”为1,两个以上“,”为2,存在句号为“3”。最终的二分类准确率为86.5%。
进一步地,步骤1-2整体的特征词-观点词对挖掘流程具体如下方法1所示:
将抽取得到的特征词、观点词进行匹配,得到特征词-观点词对关系标注数据集如下表4所示:
表4特征词-观点词对关系标注数据集
特别地,步骤1-3中,对过滤后的观点词进行词性分析时,可利用standford-core-nlp进行part-of-speech词性分析。
进一步地,首先对观点词的词性组成规则进行分析,部分观点词词性规则如表5所示:
表5观点词词性规则
本实施例最终保留前十二条规则,然后通过根据大连理工情感词典和领域词典扩展情感词典,为每种词素维护一个词典。
最后根据观点词的词性组成规则和词素级的情感词典确定观点词的情感倾向。
对于情感句,本实施例调用百度的情感分析接口确定观点的情感倾向。
步骤1-4中,本实施例针对手机的属性特征,发现当簇的个数定为6的时候聚类效果最佳。最终得到6个属性的细粒度的情感观点集合,对应6个属性分别为:外观、系统、指纹解锁、服务、拍照、价格。表6为半年内消费者对各款手机的各个属性的喜好情况。接下来将利用消费者对不同手机的不同属性的情感信息来为生成手机商品排序结果。
表6各款手机半年内消费者的细粒度情感倾向
步骤2-1中,各属性下的正负情感占比模糊数如表7所示:
表7手机商品各属性正负情感占比模糊数
步骤2-2中,本实施例选取的置信水平zθ/2为0.95,得到每个属性下的隶属度上下界与非隶属度上下界,计算结果如表8所示:
表8各款手机各属性下的隶属度上下界与非隶属度上下界
特别地,步骤3中利用Heronian算子,建立综合情感决策矩阵、用户对于各属性的偏好以及属性间相关性的评分模型,假设p=q=2,用户对各个属性的偏好权重一致,得到各个商品基于IVPFHMWA算子集结属性级信息后的IVPFN形式如表9所示。
表9各手机结合用户属性权重基于IVPFHMWA集结属性情感信息的结果
表9中示出了各个商品基于IVPFHMWA集结属性情感信息后对应的结果,相应的,μL表示隶属度下界,μU表示隶属度上界,νL表示非隶属度下界,νU表示非隶属度上界。
进一步地,步骤4中,根据IPVFN形式的参量评分运算规则,利用得分函数和准确率函数的计算公式,基于评分模型计算每个商品的得分和准确率,得到八款手机的评分如下:
S(A1)=-0.0526,S(A2)=-0.1268,S(A3)=-0.1108,S(A4)=-0.1267,
S(A5)=-0.1358,S(A6)=-0.1522,S(A7)=-0.073,S(A8)=-0.1162
其中,A1、A2、A3、…、A8分别代表VIVO Z3、Galaxy note 9、Huawei mate 20、iPhoneXR、meizu16、oneplus 6T、OPPO R17、xiaomi9八部手机商品。
因此,八款手机的相对推荐顺序为:A1>A7>A3>A8>A4>A2>A5>A6。
进一步地,当用户的属性偏好权重不为均等,假设用户对手机的外观属性特别看重时,即赋予属性一(外观)最高的权重,设w={0.75,0.05,0.05,0.05,0.05,0.05}T时,相对排序为A7>A6>A8>A1>A3>A4>A2>A5。
而当用户对手机的系统和指纹解锁属性比较看重时,即赋予更大的权重给属性二(系统)和属性三(指纹解锁),此时设w={0.05,0.35,0.45,0.05,0.05,0.05}T,相对排序为A1>A7>A3>A8>A4>A2>A5>A6。本实施例可灵活地根据用户的个性化需求,给出更加准确灵活的产品推荐方案。
实施例三
如图3所示,本发明还提供了一种基于商品方面级情感挖掘和模糊决策的产品推荐装置,所述装置包括提取模块100、属性级情感模块200、综合情感模块300和排序模块400,其中:
提取模块100用于获取每个待排序商品的评论数据,从中提取各个属性对应的所有特征词-观点词对。
属性级情感模块200用于基于各个特征词-观点词对的正、负情感倾向,计算每个商品每个属性上的区间型毕达哥拉斯模糊数,组成情感决策矩阵。
综合情感模块300用于利用Heronian算子,建立综合情感决策矩阵、用户对于各属性的偏好以及属性间相关性的评分模型。
排序模块400用于利用评分模型得到每个商品的评分结果,根据评分结果对商品进行排序。
实施例四
在本发明一些优选的实施方式中,还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施方式中所述的产品推荐方法的步骤。
特别地,在本发明另一些优选的实施方式中,还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施方式中所述的产品推荐方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程,在此不再重复说明。
综上所述,本发明通过对在线商城上的电子商品评论进行基于深度学习的细粒度情感挖掘分析和基于毕达哥拉斯模糊算子的商品排序,对用户的个性化商品推荐方案进行了探索,结果表明,本发明可以灵活地根据用户本身对商品的属性偏好和其他已购买商品消费者的情感信息做出相关产品推荐。这说明了基于在线评论文本的细粒度情感挖掘技术在推荐系统中的具有重要的使用价值,同时也说明了基于毕达哥拉斯的信息集结方法对于决策支持的重要性。
此外,本发明还发现了用户自身的属性偏好对于商品排序推荐十分的重要,不同的偏好决定不同的推荐结果。这说明商品推荐系统应充分考虑到消费者的个人喜好。本发明可以结合用户根据自身的偏好情况合理地做出最佳购买决策。网络商家也可以用该方法来为用户优化商品展示页面,进而促进交易成功的几率,对电商行业的发展有非常积极的作用。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种基于商品方面级情感挖掘和模糊决策的产品推荐方法,其特征在于,所述方法包括:
步骤1、获取每个待排序商品的评论数据,从中提取各个属性对应的所有特征词-观点词对;
步骤2、基于各个特征词-观点词对的正、负情感倾向,计算每个商品每个属性上的区间型毕达哥拉斯模糊数,组成情感决策矩阵;
步骤3、利用Heronian算子,建立综合情感决策矩阵、用户对于各属性的偏好以及属性间相关性的评分模型;
步骤4、利用评分模型得到每个商品的评分结果,根据评分结果对商品进行排序;
所述步骤1包括:
步骤1-1、从评论数据中抽取特征词、观点词;
步骤1-2、将抽取得到的特征词、观点词进行匹配,得到特征词-观点词对;
步骤1-3、确定各个特征词-观点词对的情感倾向;
步骤1-4、根据对应的属性,将所有特征词-观点词对进行聚类;
所述步骤1-1包括:
对于评论数据中缺少特征词、包含观点词的语句,将其作为第一类观点表达句,抽取其中的观点词;
对于评论数据中包含特征词及观点词的语句,将其作为第二类观点表达句,抽取其中的特征词、观点词;
对于评论数据中包含特征词、缺少观点词的语句,将其作为第三类观点表达句,抽取其中的特征词;
所述步骤1-2包括:
对于第一类观点表达句中抽取得到的观点词,将其特征词设为空,构成特征词-观点词对;
对于第二类观点表达句中抽取得到的特征词、观点词,通过词对关系判别模型判断是否构成词对,若词对关系成立,构成特征词-观点词对;
对于第三类观点表达句中抽取得到的特征词,将特征词与其所在子句匹配,构成特征词-观点词对;
所述步骤1-3包括:
对于第一类观点表达句及第二类观点表达句中的观点词进行统计,过滤其中出现频次低于设定阈值的观点词;对过滤后的观点词进行词性分析,确定观点词中相应的情感倾向;
对于第三类观点表达句中的子句,调用情感分析接口确定子句中相应的情感倾向;
所述步骤1-4包括:
a、填补第一类观点表达句对应的特征词-观点词对中缺失的特征词,包括:
确定取自第一类观点表达句的特征词-观点词对中的观点词;
在所有取自第二类观点表达句的特征词-观点词对中,统计该观点词修饰每个特征词的频率;
将频率最高的特征词作为该观点词匹配的特征词,填补至相应的特征词-观点词对中,实现对所有特征词-观点词对中缺失项的补全;
b、舍弃出现频次低于预定阈值的特征词,将其余特征词加入jieba分词的自定义字典;
c、对所有评论语料进行分词后,训练一个word2vec语言模型,获取各个特征词的分布式向量表示;
d、将获取的分布式向量用kmeans的聚类方法进行聚类。
2.根据权利要求1所述的方法,其特征在于,所述步骤2进一步包括:
步骤2-1、计算每个商品每个属性的正、负情感倾向占比模糊数;
步骤2-2、根据正、负情感倾向占比模糊数,计算每个属性的隶属度区间与非隶属度区间;
步骤2-3、计算每个商品每个属性上的区间型毕达哥拉斯模糊数,组成情感决策矩阵。
4.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述方法的步骤。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010034420.7A CN111260437B (zh) | 2020-01-14 | 2020-01-14 | 一种基于商品方面级情感挖掘和模糊决策的产品推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010034420.7A CN111260437B (zh) | 2020-01-14 | 2020-01-14 | 一种基于商品方面级情感挖掘和模糊决策的产品推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111260437A CN111260437A (zh) | 2020-06-09 |
CN111260437B true CN111260437B (zh) | 2023-07-11 |
Family
ID=70950534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010034420.7A Active CN111260437B (zh) | 2020-01-14 | 2020-01-14 | 一种基于商品方面级情感挖掘和模糊决策的产品推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111260437B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348392B (zh) * | 2020-11-19 | 2022-04-08 | 西南交通大学 | 一种基于毕达哥拉斯模糊集的可持续供应链设计特征排序方法 |
CN112668551B (zh) * | 2021-01-18 | 2023-09-22 | 上海对外经贸大学 | 基于遗传算法的表情分类方法 |
CN113153229B (zh) * | 2021-04-23 | 2022-10-21 | 河北工业大学 | 一种页岩气绿色开发方案的筛选方法及装置 |
CN113377908B (zh) * | 2021-06-08 | 2022-06-28 | 四川大学 | 基于可学习多单词对打分器的方面级情感三元组抽取方法 |
CN113420122A (zh) * | 2021-06-24 | 2021-09-21 | 平安科技(深圳)有限公司 | 分析文本的方法、装置、设备及存储介质 |
CN113837846B (zh) * | 2021-10-27 | 2023-09-22 | 武汉卓尔数字传媒科技有限公司 | 商品推荐方法、装置、计算机设备和存储介质 |
CN114169966B (zh) * | 2021-12-08 | 2022-08-05 | 海南港航控股有限公司 | 一种用张量提取货物订单元数据的方法及系统 |
CN114529340A (zh) * | 2022-02-18 | 2022-05-24 | 浪潮卓数大数据产业发展有限公司 | 一种店铺推荐方法、装置及计算机介质 |
CN116739656B (zh) * | 2023-08-14 | 2023-10-20 | 北京数字一百信息技术有限公司 | 一种客户体验管理方法和系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016197577A1 (zh) * | 2015-06-12 | 2016-12-15 | 百度在线网络技术(北京)有限公司 | 评论信息的标注方法、装置和计算机设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017013667A1 (en) * | 2015-07-17 | 2017-01-26 | Giridhari Devanathan | Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof |
CN106572513A (zh) * | 2016-10-17 | 2017-04-19 | 宁波深路信息科技有限公司 | 基于模糊多属性决策的无线传感器路由算法 |
CN110060132B (zh) * | 2019-04-24 | 2021-09-24 | 吉林大学 | 基于细粒度数据的可解释商品推荐方法 |
CN110555109A (zh) * | 2019-06-28 | 2019-12-10 | 西安理工大学 | 基于个人计算机电商评论的多粒度观点挖掘方法 |
-
2020
- 2020-01-14 CN CN202010034420.7A patent/CN111260437B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016197577A1 (zh) * | 2015-06-12 | 2016-12-15 | 百度在线网络技术(北京)有限公司 | 评论信息的标注方法、装置和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111260437A (zh) | 2020-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111260437B (zh) | 一种基于商品方面级情感挖掘和模糊决策的产品推荐方法 | |
US20190318407A1 (en) | Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof | |
CN111767741A (zh) | 一种基于深度学习和tfidf算法的文本情感分析方法 | |
CN111104526A (zh) | 一种基于关键词语义的金融标签提取方法及系统 | |
CN107797982A (zh) | 用于识别文本类型的方法、装置和设备 | |
CN111080055A (zh) | 酒店评分方法、酒店推荐方法、电子装置和存储介质 | |
Zhang et al. | A multiclassification model of sentiment for E-commerce reviews | |
CN111177538A (zh) | 一种基于无监督权值计算的用户兴趣标签构建方法 | |
CN107832338A (zh) | 一种识别核心产品词的方法和系统 | |
CN111667337A (zh) | 一种商品评价的排序方法和系统 | |
Kiran et al. | User specific product recommendation and rating system by performing sentiment analysis on product reviews | |
CN114971730A (zh) | 文案素材提取方法及其装置、设备、介质、产品 | |
Rani et al. | Study and comparision of vectorization techniques used in text classification | |
Sangeetha et al. | Aspects based opinion mining from online reviews for product recommendation | |
CN115659961A (zh) | 用于提取文本观点的方法、装置以及计算机存储介质 | |
Kumar | A Machine Learning-based Automated Approach for Mining Customer Opinion | |
CN113761349A (zh) | 一种推荐信息的挖掘方法和装置 | |
Irawaty et al. | Development of Youtube Sentiment Analysis Application using K-Nearest Neighbors (Nokia Case Study) | |
Ferdous et al. | Assortment of bangladeshi e-commerce site reviews using machine learning approaches | |
Zhang | A personalized recommendation algorithm based on text mining | |
CN111797622A (zh) | 用于生成属性信息的方法和装置 | |
CN111126033A (zh) | 文章的回应预测装置及方法 | |
KR102538774B1 (ko) | 인공지능 기반 리뷰 분석을 활용하는 방법 및 장치 | |
Abighail et al. | Sentiment Analysis E-commerce Review | |
Devaki et al. | Sentiment Analysis and Recommendation of Book Reviews |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |