CN114519091B - 一种基于购物评论的人格特质分析方法及系统 - Google Patents

一种基于购物评论的人格特质分析方法及系统 Download PDF

Info

Publication number
CN114519091B
CN114519091B CN202210146150.8A CN202210146150A CN114519091B CN 114519091 B CN114519091 B CN 114519091B CN 202210146150 A CN202210146150 A CN 202210146150A CN 114519091 B CN114519091 B CN 114519091B
Authority
CN
China
Prior art keywords
emotion
personality
model
comment
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210146150.8A
Other languages
English (en)
Other versions
CN114519091A (zh
Inventor
何泾沙
洪睿
朱娜斐
魏巍
陈燕博
宋国正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202210146150.8A priority Critical patent/CN114519091B/zh
Publication of CN114519091A publication Critical patent/CN114519091A/zh
Application granted granted Critical
Publication of CN114519091B publication Critical patent/CN114519091B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于购物评论的人格特质分析方法及系统,方法包括:获取评论数据构建评论样本数据集,并进行分词及标注,得到实验数据集;将实验数据集向量化后输入LSTM网络模型,得到情感倾向;通过SC‑LIWC词典提取的关键词计算与每个人格维度的皮尔逊相关系数;将实验数据集的特征结合皮尔逊相关系数和情感倾向,输入以KNN、NB和SVM共同构建的人格特质分析融合模型进行训练;针对所需分析的评论数据进行文本特征及情感特征提取,通过LSTM网络模型得到情感倾向量化值,并输入人格特质分析融合模型,输出多标签的人格特质属性。通过本发明的技术方案,实现了对评论数据的情感倾向量化及人格特质分类,为个性推荐提供支持。

Description

一种基于购物评论的人格特质分析方法及系统
技术领域
本发明涉及用户画像技术领域,尤其涉及一种基于购物评论的人格特质分析方法以及一种基于购物评论的人格特质分析系统。
背景技术
近年来,随着我国经济的快速发展,人们的生活节奏日益加快,电子商务的迅速发展使人们逐渐改变了传统的生活模式。其中最典型的就是人们购物方式的改变,从之前的线下实体店购买到线上的购物商城的挑选。之所以有越来越多的用户优先选择在网上商城进行购物,其原因主要有以下几点:其一是因为网上购物更加高效便捷。其二是因为网上购物不用受到时间和地理位置的限制。也就是说,与实体店购物相比,网上购物在时间和空间上的买卖分离是独一无二的。其三是因为网上购物能够提供用户更好的服务质量,但是与店内购物相比,消费者在网上购物时要面临更高程度的不确定性和风险。然而网上购物的迅速发展,不仅仅是为用户带来了更加便捷的购物体验,也为销售人员的就业提供了新的方案,还为商家添加了新的销售渠道,间接性地催动科技的发展。
然而,由于消费者无法感受到实物,消费者在购物前只能通过评论了解商品的质量和性能等特点。其他消费者的购物体验将对他们的购买决策产生重要影响。尤其地,用户对在线评论的情感取向会对潜在用户的消费心理和购买决策产生更大的影响。而网上评论对消费者购买意愿的影响研究主要涉及影响因素、影响机制和影响力。
分析购物评论的情感倾向及文本蕴含的信息,有助于消费者提前了解商品,也有助于商家对自家的商品有个更为清晰的认知。但是由于评论者来自全国各地,不仅会有地区习俗之间的差异,还会有知识认知层面的不同,甚至是个体之间性格的差别。因此对于同一件商品,不同的人由于对自身的定位不同,往往会有不同、甚至是相反的评价。而往往这些差别都能够在人们个体的人格特质方面体现出来。
人格是一种心理结构,旨在从一些稳定和可以衡量的个体特征方面解释各种各样的人类行为。而在个性化推荐背景下,相似人格特质的人喜爱的产品也会高度相似,那么对于同一件产品评论的情感倾向也会较为相似。在心理学领域,用来衡量一个人人格的最主流的模型是大五人格模型。大五模型从开放性(openness)、责任心(conscientiousness)、外向性(extraversion)、宜人性(agreeableness)及神经质性(neuroticism)五个维度来分析和描述一个人的人格特质。基于以大五模型为核心实现并应用于用户画像分析系统,旨在为每位评论的消费者在人格特质层面上贴上相应的标签,购买用户就能够基于评论的内容与评论用户的特质,迅速得出一个较为清晰的购买意愿,评论用户也可基于此标签,对潜在的自我有一个更清晰的认知。而商家也可基于此推荐更加个性化的产品服务并为之后的推荐系统提供可靠的支持。
而在现有的技术方案中,没有相应的技术通过对购物评论数据的分析来表现用户的情感倾向,进而分析评论用户的人格特征,也就无法丰富后续的任务画像刻画,无法为商品推荐等功能提供理论基础与推荐依据。
在这种情况下,电商平台虽然拥有大量的数据,但并不能依据这些数据进行有效的分析和处理,为后续的各种功能提供科学、正确、坚实的理论基础,无法有效应对数据“爆炸式增长”的时代发展。
发明内容
针对上述问题,本发明提供了一种基于购物评论的人格特质分析方法及系统,通过对评论数据的预处理,利用LSTM网络模型来判断评论文本的情感倾向,利用评价对象-评价词语二元组构建专属的商品级别情感词典,利用SC-LIWC词典来提取评论文本关键词,得到与每个人格维度的皮尔逊相关系数,利用word2vec来对评论文本中可用信息的向量化形成矩阵,最终通过大五人格对应5个维度的5个二分类模型进行K-折交叉验证训练得到人格特质分析融合模型,最终可以得到多标签的人格特质结果,实现对购物评论数据的情感倾向的量化,通过分类模型实现评论用户的人格特质分类,一方面可以区别出不同人格的用户的评论,方便购买用户来进行一定的辨别并为其购买商品与否额外提供一种参考方式,另一方面,产生的人格特质标签也可以丰富后续的人物画像刻画,并且为商品推荐等功能提供理论基础与推荐依据。
为实现上述目的,本发明提供了一种基于购物评论的人格特质分析方法,包括:
获取电商平台的购物评论数据进行预处理,构建评论样本数据集;
针对所述评论样本数据集进行分词处理及词性标注,得到实验数据集;
对所述实验数据集进行句子级别和文本级别的向量化处理,并将向量化矩阵输入LSTM网络模型,并经过softmax层得到评价对象所属句子的情感倾向;
通过SC-LIWC词典对所述实验数据集进行关键词提取,并计算每个关键词与大五人格的每个人格维度的皮尔逊相关系数;
对所述实验数据集进行特征提取,并结合所述皮尔逊相关系数和评价对象所属句子的情感倾向,构成输入矩阵;
基于大五人格的每个维度,以K-近邻模型、朴素贝叶斯模型和支持向量机模型共同构建二分类的人格特质分析融合模型;
将所述输入矩阵输入所述人格特质分析融合模型,并通过K-折交叉验证方法对所述人格特质分析融合模型进行训练;
针对所需分析的有效评论数据进行文本特征提取,并采用预构建的商品级别情感词库进行情感特征提取;
对提取得到的所述文本特征进行向量化并作为LSTM网络模型的输入,利用softmax层得到情感倾向量化值;
将所述文本特征、所述情感特征和所述情感倾向量化值进行结合,并进行向量化后输入训练完成的所述人格特质分析融合模型,以输出结果作为多标签的人格特质属性。
在上述技术方案中,优选地,所述商品级别情感词库的构建方法包括:
根据所述评论样本数据集提取得到商品属性特征,并通过余弦相似度获取评价对象,构建评价对象库;
根据所述评价对象库对所述实验数据集进行关键词提取,获取评价对象;
以所述评价对象为主关联点,基于位置特征提取所述评价对象的评价词语,构建评价对象-评价词语二元组;
将评价对象所属句子的情感倾向与所述评价对象-评价词语二元组相结合,判断相对应的情感倾向,综合得到商品级别情感词库。
在上述技术方案中,优选地,所述将所述输入矩阵输入所述人格特质分析融合模型并通过K-折交叉验证方法对所述人格特质分析融合模型进行训练的具体过程包括:
将所述输入矩阵分别输入针对大五人格五个维度的所述K-近邻模型、所述朴素贝叶斯模型和所述支持向量机模型,并分别通过K-折交叉验证方法分别对各模型进行训练。
在上述技术方案中,优选地,所述对提取得到的所述文本特征进行向量化并作为LSTM网络模型的输入,利用softmax层得到情感倾向量化值的具体过程包括:
利用word2vec对所述文本特征进行句子级别和文本级别的向量化处理,并将向量化的矩阵作为所述LSTM网络模型的输入;
所述LSTM网络模型对所述文本特征对应的每个句子进行训练与预测,所述softmax层的softmax激活函数将所述LSTM网络模型的预测结果转化为0-1之间的得分数值,作为所述情感倾向量化值。
在上述技术方案中,优选地,所述获取电商平台的购物评论数据进行预处理的具体过程包括:
通过爬虫技术爬取不同电商平台的购物评论数据;
针对每一类商品的购物评论数据进行去重处理;
对去重处理后的购物评论数据进行预处理,筛选出具有明显特征的数据集。
本发明还提出一种基于购物评论的人格特质分析系统,应用如上述技术方案中任一项公开的基于购物评论的人格特质分析方法,包括:
样本数据构建模块,用于获取电商平台的购物评论数据进行预处理,构建评论样本数据集;
实验数据获取模块,用于针对所述评论样本数据集进行分词处理及词性标注,得到实验数据集;
情感倾向确定模块,用于对所述实验数据集进行句子级别和文本级别的向量化处理,并将向量化矩阵输入LSTM网络模型,并经过softmax层得到评价对象所属句子的情感倾向;
人格维度关联模块,用于通过SC-LIWC词典对所述实验数据集进行关键词提取,并计算每个关键词与大五人格的每个人格维度的皮尔逊相关系数;
输入数据整合模块,用于对所述实验数据集进行特征提取,并结合所述皮尔逊相关系数和评价对象所属句子的情感倾向,构成输入矩阵;
融合模型构建模块,用于基于大五人格的每个维度,以K-近邻模型、朴素贝叶斯模型和支持向量机模型共同构建二分类的人格特质分析融合模型;
融合模型训练模块,用于将所述输入矩阵输入所述人格特质分析融合模型,并通过K-折交叉验证方法对所述人格特质分析融合模型进行训练;
评论特征提取模块,用于针对所需分析的有效评论数据进行文本特征提取,并采用预构建的商品级别情感词库进行情感特征提取;
评论情感量化模块,用于对提取得到的所述文本特征进行向量化并作为LSTM网络模型的输入,利用softmax层得到情感倾向量化值;
评论人格分类模块,用于将所述文本特征、所述情感特征和所述情感倾向量化值进行结合,并进行向量化后输入训练完成的所述人格特质分析融合模型,以输出结果作为多标签的人格特质属性。
在上述技术方案中,优选地,基于购物评论的人格特质分析系统还包括情感词库构建模块,具体用于:
根据所述评论样本数据集提取得到商品属性特征,并通过余弦相似度获取评价对象,构建评价对象库;
根据所述评价对象库对所述实验数据集进行关键词提取,获取评价对象;
以所述评价对象为主关联点,基于位置特征提取所述评价对象的评价词语,构建评价对象-评价词语二元组;
将评价对象所属句子的情感倾向与所述评价对象-评价词语二元组相结合,判断相对应的情感倾向,综合得到商品级别情感词库。
在上述技术方案中,优选地,所述融合模型训练模块具体用于:
将所述输入矩阵分别输入针对大五人格五个维度的所述K-近邻模型、所述朴素贝叶斯模型和所述支持向量机模型,并分别通过K-折交叉验证方法分别对各模型进行训练。
在上述技术方案中,优选地,所述评论情感量化模块具体用于:
利用word2vec对所述文本特征进行句子级别和文本级别的向量化处理,并将向量化的矩阵作为所述LSTM网络模型的输入;
所述LSTM网络模型对所述文本特征对应的每个句子进行训练与预测,所述softmax层的softmax激活函数将所述LSTM网络模型的预测结果转化为0-1之间的得分数值,作为所述情感倾向量化值。
在上述技术方案中,优选地,所述样本数据构建模块具体用于:
通过爬虫技术爬取不同电商平台的购物评论数据;
针对每一类商品的购物评论数据进行去重处理;
对去重处理后的购物评论数据进行预处理,筛选出具有明显特征的数据集。
与现有技术相比,本发明的有益效果为:通过对评论数据的预处理,利用LSTM网络模型来判断评论文本的情感倾向,利用评价对象-评价词语二元组构建专属的商品级别情感词典,利用SC-LIWC词典来提取评论文本关键词,得到与每个人格维度的皮尔逊相关系数,利用word2vec来对评论文本中可用信息的向量化形成矩阵,最终通过大五人格对应5个维度的5个二分类模型进行K-折交叉验证训练得到人格特质分析融合模型,最终可以得到多标签的人格特质结果,实现对购物评论数据的情感倾向的量化,通过分类模型实现评论用户的人格特质分类,一方面可以区别出不同人格的用户的评论,方便购买用户来进行一定的辨别并为其购买商品与否额外提供一种参考方式,另一方面,产生的人格特质标签也可以丰富后续的人物画像刻画,并且为商品推荐等功能提供理论基础与推荐依据。
附图说明
图1为本发明一种实施例公开的基于购物评论的人格特质分析方法的流程示意图;
图2为本发明一种实施例公开的运用人格特质分析融合模型进行人格特质分析的流程示意图;
图3为本发明一种实施例公开的情感词典和人格特质分析融合模型的训练流程示意图;
图4为本发明一种实施例公开的基于购物评论的人格特质分析系统的模块示意图。
图中,各组件与附图标记之间的对应关系为:
11.样本数据构建模块,12.实验数据获取模块,13.情感倾向确定模块,14.人格维度关联模块,15.输入数据整合模块,16.融合模型构建模块,17.融合模型训练模块,18.评论特征提取模块,19.评论情感量化模块,20.评论人格分类模块,21.情感词库构建模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1和图2所示,根据本发明提供的一种基于购物评论的人格特质分析方法,包括:
获取电商平台的购物评论数据进行预处理,构建评论样本数据集;
针对评论样本数据集进行分词处理及词性标注,得到实验数据集;
对实验数据集进行句子级别和文本级别的向量化处理,并将向量化矩阵输入LSTM网络模型,并经过softmax层得到评价对象所属句子的情感倾向;
通过SC-LIWC词典对实验数据集进行关键词提取,并计算每个关键词与大五人格的每个人格维度的皮尔逊相关系数;
对实验数据集进行特征提取,并结合皮尔逊相关系数和评价对象所属句子的情感倾向,构成输入矩阵;
基于大五人格的每个维度,以K-近邻模型、朴素贝叶斯模型和支持向量机模型共同构建二分类的人格特质分析融合模型;
将输入矩阵输入人格特质分析融合模型,并通过K-折交叉验证方法对人格特质分析融合模型进行训练;
针对所需分析的有效评论数据进行文本特征提取,并采用预构建的商品级别情感词库进行情感特征提取;
对提取得到的文本特征进行向量化并作为LSTM网络模型的输入,利用softmax层得到情感倾向量化值;
将文本特征、情感特征和情感倾向量化值进行结合,并进行向量化后输入训练完成的人格特质分析融合模型,以输出结果作为多标签的人格特质属性。
在该实施方式中,通过对评论数据的预处理,利用LSTM网络模型来判断评论文本的情感倾向,利用评价对象-评价词语二元组构建专属的商品级别情感词典,利用SC-LIWC词典来提取评论文本关键词,得到与每个人格维度的皮尔逊相关系数,利用word2vec来对评论文本中可用信息的向量化形成矩阵,最终通过大五人格对应5个维度的5个二分类模型进行K-折交叉验证训练得到人格特质分析融合模型,最终可以得到多标签的人格特质结果,实现对购物评论数据的情感倾向的量化,通过分类模型实现评论用户的人格特质分类,一方面可以区别出不同人格的用户的评论,方便购买用户来进行一定的辨别并为其购买商品与否额外提供一种参考方式,另一方面,产生的人格特质标签也可以丰富后续的人物画像刻画,并且为商品推荐等功能提供理论基础与推荐依据。
其中,在购物领域的基础上结合了心理学中非常流行的大五人格,以此基础上构建出了大五模型来对购物评论文本进行标签化预测。通过利用自然语言处理技术和心理学知识基础的优越性,对购物领域中的商品评论文本数据进行特征提取和人格特质标签预测。而模型预测结果可以为分析系统做数据可视化分析展示、丰富用户画像刻画和个性化商品推荐提供了科学、正确、坚实的理论基础。
如图3所示,具体地,首先通过爬虫技术,以京东的分类为标准,获取京东、淘宝等平台下每个类别商品评论。针对每一类商品,选出评论数最多的top-N的商品,获取该商品下相应的商品评论,包括商品评论评分值、商品标题名称、商品属性等信息数据。优选地,获取电商平台的购物评论数据进行预处理的具体过程包括:针对爬虫技术爬取到的购物评论数据,对每一类商品的购物评论数据进行去重处理;通过去重等方式去除掉完全一致的重复评论数据,同时去除掉类似‘此用户未填写评价内容’,‘此用户没有填写评论!’这类的默认好评,同时将没有明显特征的数据抛弃,对去重处理后的购物评论数据进行预处理,筛选出具有明显特征的数据集。
然后根据自建扩展的停用词库结合结巴分词技术对中文的商品文本信息进行分词处理得到商品评论的数据集并且得到经过词性标注的实验数据集。以商品属性作为商品评论中的基础评价对象,通过word2vec来对每个类别商品中的商品属性进行向量化,并且通过余弦相似度来度量出与基础评价对象最为相似的top-N的词汇,将其加入该商品的评价对象库中。
在上述实施方式中,优选地,商品级别情感词库的构建方法包括:
根据评论样本数据集提取得到商品属性特征,并通过余弦相似度度量出与基础评价对象最为相似的top-N的词汇,从而获取评价对象,构建评价对象库;
根据评价对象库对实验数据集进行关键词提取,获取评价对象;
以评价对象为主关联点,基于位置特征提取范围内的评价对象的形容词、副词以及程度词等评价词语,构建评价对象-评价词语二元组;
将评价对象所属句子的情感倾向与评价对象-评价词语二元组相结合,判断相对应的情感倾向,综合得到商品级别情感词库。
在上述实施方式中,优选地,对提取得到的文本特征进行向量化并作为LSTM网络模型的输入,利用softmax层得到情感倾向量化值的具体过程包括:
利用word2vec对文本特征进行句子级别和文本级别的向量化处理,并将向量化的矩阵作为LSTM网络模型的输入;
LSTM网络模型对文本特征对应的每个句子进行训练与预测,softmax层的softmax激活函数将LSTM网络模型的预测结果转化为0-1之间的得分数值,作为情感倾向量化值。
具体地,使用word2vec对上述获取的商品评论打分值、文本评论字数、文本评论中逗号和句号的使用次数、上述的0-1的情感倾向值进行向量化、SC-LIWC中提取的关键词占总词汇的百分比、积极情感词的使用个数、消极情感词的使用个数等等特征数据进行向量化,形成一个矩阵。softmax激活函数的输出极性是0(消极)或1(积极)的概率,将概率转化为极性对应的得分,输出为0-1之间的数值,当数值大于一个阈值δ时认为是积极情感,当数值小于阈值δ时认为是消极情感,从而完成情感分类工作。在上述将句子分词向量化后输入LSTM的同时,也利用LSTM对整个评论文本进行预测,将得到的0-1之间的值进行存储。
在上述实施方式中,优选地,将输入矩阵输入人格特质分析融合模型并通过K-折交叉验证方法对人格特质分析融合模型进行训练的具体过程包括:
将输入矩阵分别输入针对大五人格五个维度的K-近邻模型、朴素贝叶斯模型和支持向量机模型,并分别通过K-折交叉验证方法分别对各模型进行训练。
具体地,将上一实施方式中得到的矩阵作为每个维度的分类模型的输入进行K-折交叉验证训练。对于每个模型的结果中,‘1’表示有这个维度的人格体现,‘0’表示没有这个维度的人格体现,通过这些模型的训练,可以得到一系列可执行的分类模型,称为人格特质分析融合模型。
基于该人格特质分析融合模型,当一条符合要求的评论数据获取的时候,对其进行文本评论相关特征提取,例如文本评论字数、文本评论中逗号和句号的使用次数等等。再使用上述实验产生的商品级别情感词库提取相关的特征。之后,利用word2vec对其进行向量化作为LSTM网络模型的输入,利用softmax层得到情感量化值。再将这三类特征进行结合并统一向量化输入到训练完成的人格特质分析模型中,通过最终的结果,可以为每个评论都添上评论用户的人格标签。
如图4所示,本发明还提出一种基于购物评论的人格特质分析系统,应用如上述实施方式中任一项公开的基于购物评论的人格特质分析方法,包括:
样本数据构建模块11,用于获取电商平台的购物评论数据进行预处理,构建评论样本数据集;
实验数据获取模块12,用于针对评论样本数据集进行分词处理及词性标注,得到实验数据集;
情感倾向确定模块13,用于对实验数据集进行句子级别和文本级别的向量化处理,并将向量化矩阵输入LSTM网络模型,并经过softmax层得到评价对象所属句子的情感倾向;
人格维度关联模块14,用于通过SC-LIWC词典对实验数据集进行关键词提取,并计算每个关键词与大五人格的每个人格维度的皮尔逊相关系数;
输入数据整合模块15,用于对实验数据集进行特征提取,并结合皮尔逊相关系数和评价对象所属句子的情感倾向,构成输入矩阵;
融合模型构建模块16,用于基于大五人格的每个维度,以K-近邻模型、朴素贝叶斯模型和支持向量机模型共同构建二分类的人格特质分析融合模型;
融合模型训练模块17,用于将输入矩阵输入人格特质分析融合模型,并通过K-折交叉验证方法对人格特质分析融合模型进行训练;
评论特征提取模块18,用于针对所需分析的有效评论数据进行文本特征提取,并采用预构建的商品级别情感词库进行情感特征提取;
评论情感量化模块19,用于对提取得到的文本特征进行向量化并作为LSTM网络模型的输入,利用softmax层得到情感倾向量化值;
评论人格分类模块20,用于将文本特征、情感特征和情感倾向量化值进行结合,并进行向量化后输入训练完成的人格特质分析融合模型,以输出结果作为多标签的人格特质属性。
在该实施方式中,通过对评论数据的预处理,利用LSTM网络模型来判断评论文本的情感倾向,利用评价对象-评价词语二元组构建专属的商品级别情感词典,利用SC-LIWC词典来提取评论文本关键词,得到与每个人格维度的皮尔逊相关系数,利用word2vec来对评论文本中可用信息的向量化形成矩阵,最终通过大五人格对应5个维度的5个二分类模型进行K-折交叉验证训练得到人格特质分析融合模型,最终可以得到多标签的人格特质结果,实现对购物评论数据的情感倾向的量化,通过分类模型实现评论用户的人格特质分类,一方面可以区别出不同人格的用户的评论,方便购买用户来进行一定的辨别并为其购买商品与否额外提供一种参考方式,另一方面,产生的人格特质标签也可以丰富后续的人物画像刻画,并且为商品推荐等功能提供理论基础与推荐依据。
在上述实施方式中,优选地,基于购物评论的人格特质分析系统还包括情感词库构建模块21,具体用于:
根据评论样本数据集提取得到商品属性特征,并通过余弦相似度获取评价对象,构建评价对象库;
根据评价对象库对实验数据集进行关键词提取,获取评价对象;
以评价对象为主关联点,基于位置特征提取评价对象的评价词语,构建评价对象-评价词语二元组;
将评价对象所属句子的情感倾向与评价对象-评价词语二元组相结合,判断相对应的情感倾向,综合得到商品级别情感词库。
在上述实施方式中,优选地,融合模型训练模块17具体用于:
将输入矩阵分别输入针对大五人格五个维度的K-近邻模型、朴素贝叶斯模型和支持向量机模型,并分别通过K-折交叉验证方法分别对各模型进行训练。
在上述实施方式中,优选地,评论情感量化模块19具体用于:
利用word2vec对文本特征进行句子级别和文本级别的向量化处理,并将向量化的矩阵作为LSTM网络模型的输入;
LSTM网络模型对文本特征对应的每个句子进行训练与预测,softmax层的softmax激活函数将LSTM网络模型的预测结果转化为0-1之间的得分数值,作为情感倾向量化值。
在上述实施方式中,优选地,样本数据构建模块11具体用于:
通过爬虫技术爬取不同电商平台的购物评论数据;
针对每一类商品的购物评论数据进行去重处理;
对去重处理后的购物评论数据进行预处理,筛选出具有明显特征的数据集。
根据上述实施方式公开的基于购物评论的人格特质分析方法及系统,在具体实施过程中,具体包括以下步骤:
S1,构建多类目下的中文商品信息评论文本数据集;
S2,提取各类商品的商品属性特征;
S3,利用word2vec对S2中的商品属性进行向量化;
S4,利用S3的结果,通过余弦相似度获取前top-N的评价对象,构建评价对象库;
S5,对S1的评论数据集进行预处理,选择具有明显特征的数据集;
S6,在S5的基础上进行分词并进行词性标注,得到实验数据集;
S7,通过SC-LIWC词典对数据集中的关键词进行提取,计算出每个词和每个人格维度的皮尔逊相关系数,将其作为实验数据集的预测值;
S8,利用S4的商品评价对象库来对S6评论数据进行关键词提取,获取评价对象;
S9,以S8的评价对象为主关联点,通过位置特征获取范围内的形容词、副词以及程度词,构建出评价对象-评价词语二元组;
S10,通过S6的实验数据集利用word2vec进行句子级别和文本级别的向量化;
S11,将S10的数据得到的矩阵当作LSTM网络模型的输入,使用LSTM网络模型来对该评论文本中的每个句子进行训练与预测;
S12,S11结果经过softmax层,输出softmax激活函数的值,得到评价对象所属句子情感倾向;
S13,将S9的评价对象-评价词语二元组与S12的值相结合,判断出评价对象-评价词语二元组的情感倾向,加入到商品级别情感词库;
S14,对S6的数据进行特征获取,提取文本评论字数、文本评论中逗号和句号的使用次数等等之类的文本特征;
S15,将S7的皮尔逊相关系数、S12的情感量化值将S14的特征数据进行结合,构成输入矩阵训练;
S15,将S14所得矩阵作为基于大五人格中的人格维度的SVM、KNN、NB模型的输入;
S16,将S15的输入,利用融合模型策略,通过K-折交叉验证的方法,对模型进行训练并保留模型的预测结果;
S17,当获取到一条有效评论数据时,对其进行文本评论相关特征提取,例如文本评论字数、文本评论中逗号和句号的使用次数等等;
S18,S17中的评论数据,再使用S13产生的商品级别情感词库提取相关的特征;
S19,利用word2vec对其S17获取的数据进行向量化并作为LSTM网络模型的输入,利用softmax层得到情感量化值;
S20,将S17、S18、S19这三类特征进行结合并统一向量化,输入到S16训练完成的人格特质分析模型中,可以得到多标签的人格特质属性。
通过该基于购物评论的人格特质分析方法及系统,针对购物评论文本的人格特质分析方法,在分析情感倾向模块中构建出了针对商品级别的情感词典,对于识别购物领域中一次多义的情感词汇的准确率有了较好的效果。不仅如此,针对购物评论中购买用户想要着重关注的商品属性点有着一个良好的提取,即为上述的评价对象库。同时利用多种分类方法进行融合模型的构建,以大五人格为理论基础,构建出大五模型,这是目前市面网站还未有的针对商品评论数据来对用户人格特质分析的模型。本发明专利提供了一种从用户评论中分析出用户的人格特质特征的方法,该方法不仅可以使得商家和用户区别出不同人格的用户的评论,方便购买用户来进行一定的辨别并为其购买商品与否额外提供一种参考方式,并且产生的人格特质标签也可以丰富后续的人物画像刻画,并且为商品推荐等功能提供理论基础与推荐依据。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于购物评论的人格特质分析方法,其特征在于,包括:
获取电商平台的购物评论数据进行预处理,构建评论样本数据集;
针对所述评论样本数据集进行分词处理及词性标注,得到实验数据集;
对所述实验数据集进行句子级别和文本级别的向量化处理,并将向量化矩阵输入LSTM网络模型,并经过softmax层得到评价对象所属句子的情感倾向;
通过SC-LIWC词典对所述实验数据集进行关键词提取,并计算每个关键词与大五人格的每个人格维度的皮尔逊相关系数;
对所述实验数据集进行特征提取,并结合所述皮尔逊相关系数和评价对象所属句子的情感倾向,构成输入矩阵;
基于大五人格的每个维度,以K-近邻模型、朴素贝叶斯模型和支持向量机模型共同构建二分类的人格特质分析融合模型;
将所述输入矩阵输入所述人格特质分析融合模型,并通过K-折交叉验证方法对所述人格特质分析融合模型进行训练;
针对所需分析的有效评论数据进行文本特征提取,并采用预构建的商品级别情感词库进行情感特征提取;
对提取得到的所述文本特征进行向量化并作为LSTM网络模型的输入,利用softmax层得到情感倾向量化值;
将所述文本特征、所述情感特征和所述情感倾向量化值进行结合,并进行向量化后输入训练完成的所述人格特质分析融合模型,以输出结果作为多标签的人格特质属性;
所述商品级别情感词库的构建方法包括:
根据所述评论样本数据集提取得到商品属性特征,并通过余弦相似度获取评价对象,构建评价对象库;
根据所述评价对象库对所述实验数据集进行关键词提取,获取评价对象;
以所述评价对象为主关联点,基于位置特征提取所述评价对象的评价词语,构建评价对象-评价词语二元组;
将评价对象所属句子的情感倾向与所述评价对象-评价词语二元组相结合,判断相对应的情感倾向,综合得到商品级别情感词库;
所述将所述输入矩阵输入所述人格特质分析融合模型并通过K-折交叉验证方法对所述人格特质分析融合模型进行训练的具体过程包括:
将所述输入矩阵分别输入针对大五人格五个维度的所述K-近邻模型、所述朴素贝叶斯模型和所述支持向量机模型,并分别通过K-折交叉验证方法分别对各模型进行训练;
所述对提取得到的所述文本特征进行向量化并作为LSTM网络模型的输入,利用softmax层得到情感倾向量化值的具体过程包括:
利用word2vec对所述文本特征进行句子级别和文本级别的向量化处理,并将向量化的矩阵作为所述LSTM网络模型的输入;
所述LSTM网络模型对所述文本特征对应的每个句子进行训练与预测,所述softmax层的softmax激活函数将所述LSTM网络模型的预测结果转化为0-1之间的得分数值,作为所述情感倾向量化值。
2.根据权利要求1所述的基于购物评论的人格特质分析方法,其特征在于,所述获取电商平台的购物评论数据进行预处理的具体过程包括:
通过爬虫技术爬取不同电商平台的购物评论数据;
针对每一类商品的购物评论数据进行去重处理;
对去重处理后的购物评论数据进行预处理,筛选出具有明显特征的数据集。
3.一种基于购物评论的人格特质分析系统,其特征在于,应用如权利要求1或2所述的基于购物评论的人格特质分析方法,包括:
样本数据构建模块,用于获取电商平台的购物评论数据进行预处理,构建评论样本数据集;
实验数据获取模块,用于针对所述评论样本数据集进行分词处理及词性标注,得到实验数据集;
情感倾向确定模块,用于对所述实验数据集进行句子级别和文本级别的向量化处理,并将向量化矩阵输入LSTM网络模型,并经过softmax层得到评价对象所属句子的情感倾向;
人格维度关联模块,用于通过SC-LIWC词典对所述实验数据集进行关键词提取,并计算每个关键词与大五人格的每个人格维度的皮尔逊相关系数;
输入数据整合模块,用于对所述实验数据集进行特征提取,并结合所述皮尔逊相关系数和评价对象所属句子的情感倾向,构成输入矩阵;
融合模型构建模块,用于基于大五人格的每个维度,以K-近邻模型、朴素贝叶斯模型和支持向量机模型共同构建二分类的人格特质分析融合模型;
融合模型训练模块,用于将所述输入矩阵输入所述人格特质分析融合模型,并通过K-折交叉验证方法对所述人格特质分析融合模型进行训练;
评论特征提取模块,用于针对所需分析的有效评论数据进行文本特征提取,并采用预构建的商品级别情感词库进行情感特征提取;
评论情感量化模块,用于对提取得到的所述文本特征进行向量化并作为LSTM网络模型的输入,利用softmax层得到情感倾向量化值;
评论人格分类模块,用于将所述文本特征、所述情感特征和所述情感倾向量化值进行结合,并进行向量化后输入训练完成的所述人格特质分析融合模型,以输出结果作为多标签的人格特质属性;
情感词库构建模块,具体用于:
根据所述评论样本数据集提取得到商品属性特征,并通过余弦相似度获取评价对象,构建评价对象库;
根据所述评价对象库对所述实验数据集进行关键词提取,获取评价对象;
以所述评价对象为主关联点,基于位置特征提取所述评价对象的评价词语,构建评价对象-评价词语二元组;
将评价对象所属句子的情感倾向与所述评价对象-评价词语二元组相结合,判断相对应的情感倾向,综合得到商品级别情感词库;
所述融合模型训练模块具体用于:
将所述输入矩阵分别输入针对大五人格五个维度的所述K-近邻模型、所述朴素贝叶斯模型和所述支持向量机模型,并分别通过K-折交叉验证方法分别对各模型进行训练;
所述评论情感量化模块具体用于:
利用word2vec对所述文本特征进行句子级别和文本级别的向量化处理,并将向量化的矩阵作为所述LSTM网络模型的输入;
所述LSTM网络模型对所述文本特征对应的每个句子进行训练与预测,所述softmax层的softmax激活函数将所述LSTM网络模型的预测结果转化为0-1之间的得分数值,作为所述情感倾向量化值。
4.根据权利要求3所述的基于购物评论的人格特质分析系统,其特征在于,所述样本数据构建模块具体用于:
通过爬虫技术爬取不同电商平台的购物评论数据;
针对每一类商品的购物评论数据进行去重处理;
对去重处理后的购物评论数据进行预处理,筛选出具有明显特征的数据集。
CN202210146150.8A 2022-02-17 2022-02-17 一种基于购物评论的人格特质分析方法及系统 Active CN114519091B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210146150.8A CN114519091B (zh) 2022-02-17 2022-02-17 一种基于购物评论的人格特质分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210146150.8A CN114519091B (zh) 2022-02-17 2022-02-17 一种基于购物评论的人格特质分析方法及系统

Publications (2)

Publication Number Publication Date
CN114519091A CN114519091A (zh) 2022-05-20
CN114519091B true CN114519091B (zh) 2024-04-30

Family

ID=81599617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210146150.8A Active CN114519091B (zh) 2022-02-17 2022-02-17 一种基于购物评论的人格特质分析方法及系统

Country Status (1)

Country Link
CN (1) CN114519091B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111352972A (zh) * 2020-02-28 2020-06-30 厦门医学院 一种基于行为大数据的统计学人格计算方法
CN111914096A (zh) * 2020-07-06 2020-11-10 同济大学 基于舆情知识图谱的公共交通乘客满意度评价方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111352972A (zh) * 2020-02-28 2020-06-30 厦门医学院 一种基于行为大数据的统计学人格计算方法
CN111914096A (zh) * 2020-07-06 2020-11-10 同济大学 基于舆情知识图谱的公共交通乘客满意度评价方法及系统

Also Published As

Publication number Publication date
CN114519091A (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
CN107633007B (zh) 一种基于层次化ap聚类的商品评论数据标签化系统和方法
CN107944911B (zh) 一种基于文本分析的推荐系统的推荐方法
Fiarni et al. Sentiment analysis system for Indonesia online retail shop review using hierarchy Naive Bayes technique
CN108388660B (zh) 一种改进的电商产品痛点分析方法
Sadhasivam et al. Sentiment analysis of Amazon products using ensemble machine learning algorithm
CN111309936A (zh) 一种电影用户画像的构建方法
CN112991017A (zh) 基于用户评论解析的标签体系精准推荐方法
Gandhi et al. Scalable detection of offensive and non-compliant content/logo in product images
CN112905739A (zh) 虚假评论检测模型训练方法、检测方法及电子设备
KR20220000485A (ko) 온라인 쇼핑몰 후기 데이터를 이용한 사용자 추론 및 감성 분석 시스템 및 방법
CN112989053A (zh) 一种期刊推荐方法及装置
CN112862569A (zh) 基于图像和文本多模态数据的产品外观风格评价方法和系统
CN116703506A (zh) 一种基于多特征融合的电商商品推荐方法及系统
CN114519091B (zh) 一种基于购物评论的人格特质分析方法及系统
US20240062264A1 (en) Ai- backed e-commerce for all the top rated products on a single platform
Maurya et al. Sentiment analysis on amazon product reviews
Fiarni et al. Implementing rule-based and naive bayes algorithm on incremental sentiment analysis system for Indonesian online transportation services review
CN114239569A (zh) 评估文本的分析方法及其装置、计算机可读存储介质
Kumar A Machine Learning-based Automated Approach for Mining Customer Opinion
Ali et al. Online reviews & ratings inter-contradiction based product’s quality-prediction through hybrid neural network
CN112463966A (zh) 虚假评论检测模型训练方法、检测方法及装置
CN112434130A (zh) 一种多任务标签嵌入的情感分析神经网络模型构建方法
Chenna et al. Emotion And Sentiment Analysis From Twitter Text
Urkude et al. Comparative analysis on machine learning techniques: a case study on Amazon product
Choeh et al. A personalized approach for recommending useful product reviews based on information gain.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant