CN107908753B - 基于社交媒体评论数据的客户需求挖掘方法及装置 - Google Patents

基于社交媒体评论数据的客户需求挖掘方法及装置 Download PDF

Info

Publication number
CN107908753B
CN107908753B CN201711157334.XA CN201711157334A CN107908753B CN 107908753 B CN107908753 B CN 107908753B CN 201711157334 A CN201711157334 A CN 201711157334A CN 107908753 B CN107908753 B CN 107908753B
Authority
CN
China
Prior art keywords
product
key
emotion
features
potential
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711157334.XA
Other languages
English (en)
Other versions
CN107908753A (zh
Inventor
张强
王安宁
杨善林
彭张林
陆效农
方钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201711157334.XA priority Critical patent/CN107908753B/zh
Publication of CN107908753A publication Critical patent/CN107908753A/zh
Application granted granted Critical
Publication of CN107908753B publication Critical patent/CN107908753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于社交媒体评论数据的客户需求挖掘方法及装置,包括:根据目标产品的在线评论文本获取在线评论文本的多个关键产品特征;获取多个关键产品特征中每个关键产品特征的正面情感和负面情感;根据正面情感和负面情感出现的次数计算关键产品特征的正面情感得分和负面情感得分;根据目标产品的产品参数和正面情感得分和负面情感得分计算所述产品参数和所述关键产品特征对目标产品销量排名的影响系数;基于影响系数,确定客户对关键产品特征的需求类型。可见本实施例有助于提高企业的开发效率,使目标产品更符合用户的需求,提高用户的购物体验,并且本实施例还可以提高目标产品的销量,提高企业的利润。

Description

基于社交媒体评论数据的客户需求挖掘方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于社交媒体评论数据的客户需求挖掘方法及装置。
背景技术
随着社交媒体的快速发展,越来越多用户选择在微博、论坛等社交网站上分享自己的购物体验以及对产品的评价。然而,目前其他用户或者企业仅将上述在线评论作为一种辅助的参考信息,忽略了这些在线评论的积极作用,导致企业无法对其作更深层次的分析,从而无法帮助企业了解客户对产品特征的需求以及驱动企业的产品营销与产品设计。
发明内容
针对现有技术中的缺陷,本发明提供了一种基于社交媒体评论数据的客户需求挖掘方法及装置,用于解决相关技术中在线评论仅作为辅助参数信息而无法直接应用到企业的产品营销和设计的问题。
第一方面,本发明实施例提供了一种基于社交媒体评论数据的客户需求挖掘方法,所述方法包括:
根据目标产品的在线评论文本获取在线评论文本的多个关键产品特征;
获取所述多个关键产品特征中每个关键产品特征的情感极性,所述情感极性包括正面情感和负面情感;
基于所述多个关键产品特征中每个关键产品特征,根据所述关键产品特征的正面情感和负面情感出现的次数计算所述关键产品特征的正面情感得分和负面情感得分;
根据所述目标产品的产品参数和所述多个关键产品特征中每个关键产品特征的正面情感得分和负面情感得分计算所述产品参数和所述关键产品特征对所述目标产品销量排名的影响系数;
基于所述影响系数,确定客户对所述关键产品特征的需求类型,所述需求类型包括:基本型需求、期望型需求、魅力型需求和无差异型需求。
可选地,根据在线评论文本获取在线评论文本的关键产品特征包括:
获取目标产品的第一数量的在线评论文本;
根据词性分析算法识别所述第一数量的在线评论文本中的名词,并统计所述名词的数量;
将所述数量超过第二数量的名词确定为所述目标产品的潜在产品特征,得到第三数量的潜在产品特征;
基于专家数据库,剔除所述第三数量的潜在产品特征中未出现在所述专家数据库中的潜在产品特征,得到第四数量的潜在产品特征;
合并所述第四数量的潜在产品特征中同义的潜在产品特征,得到第五数量的潜在产品特征;
基于所述第五数量的潜在产品特征中每个潜在产品特征,统计所述潜在产品特征被讨论的次数;
当所述次数超过预设次数阈值时,确定所述潜在产品特征为关键产品特征。
可选地,获取所述多个关键产品特征中每个关键产品特征的情感极性包括:
将所述目标产品的在线评论文本分割为多个句子;
基于所述多个句子中的每个句子,确定所述句子中的关键产品特征;
若所述句子包含至少一个关键产品特征,基于所述至少一个关键产品特征中每个关键产品特征,根据所述关键产品特征对应的情感词确定所述关键产品特征的情感极性,所述情感极性包括正面情感和负面情感。
可选地,根据所述关键产品特征对应的情感词确定所述关键产品特征的情感极性包括:
若所述情感词对应上下文的预设范围内包括至少一个否定词,则对所述关键产品特征的情感极性取至少一次反值,得到所述关键产品特征的最终情感极性。
可选地,根据所述目标产品的产品参数和所述多个关键产品特征中每个关键产品特征的正面情感得分和负面情感得分计算所述产品参数和所述关键产品特征对所述目标产品销量排名的影响系数包括:
获取所述目标产品的产品参数;
将所述目标产品的产品参数、所述多个关键产品特征中每个关键产品特征的正面情感得分和负面情感得分作为计量经济模型的自变量,以及将所述目标产品销量排名作为所述计量经济模型的因变量,构建关键产品特征对产品销量排名的计量经济模型;
可选地,基于所述影响系数,确定客户对所述关键产品特征的需求类型包括:
根据关键产品特征f的正负面情感影响,依据Kano模型将客户对产品特征的需求分为:基本型需求,期望型需求,魅力型需求和无差异型需求;
基本型需求:β(f,neg)显著,β(f,pos)不显著;
期望型需求:β(f,neg)显著,β(f,pos)显著;
魅力型需求:β(f,neg)不显著,β(f,pos)显著;
无差异型需求:β(f,neg)不显著,β(f,pos)不显著;
其中,相关系数β(f,pos)越小,说明关键产品特征f的正面效应越大,对产品销量排名影响越大;β(f,neg)越大,说明关键产品特征f的负面效应越大,对产品销量影响销量排名越大。第二方面,本发明实施例提供了一种基于社交媒体评论数据的客户需求挖掘装置,所述装置包括:
产品特征获取模块,用于根据目标产品的在线评论文本获取在线评论文本的多个关键产品特征;
情感极性获取模块,用于获取所述多个关键产品特征中每个关键产品特征的情感极性,所述情感极性包括正面情感和负面情感;
情感得分获取模块,用于基于所述多个关键产品特征中每个关键产品特征,根据所述关键产品特征的正面情感和负面情感出现的次数计算所述关键产品特征的正面情感得分和负面情感得分;
影响系数计算模块,用于根据所述目标产品的产品参数和所述多个关键产品特征中每个关键产品特征的正面情感得分和负面情感得分计算所述产品参数和所述关键产品特征对所述目标产品销量排名的影响系数;
用户需求确定模块,用于基于所述影响系数,确定客户对所述关键产品特征的需求类型,所述需求类型包括:基本型需求、期望型需求、魅力型需求和无差异型需求。
可选地,所述产品特征获取模块包括:
评论文本获取单元,用于获取目标产品的第一数量的在线评论文本;
名词数量统计单元,用于根据词性分析算法识别所述第一数量的在线评论文本中的名词,并统计所述名词的数量;
潜在特征确定单元,用于将所述数量超过第二数量的名词确定为所述目标产品的潜在产品特征,得到第三数量的潜在产品特征;
潜在特征剔除单元,用于基于专家数据库,剔除未出现在所述专家数据库中的潜在产品特征,得到第四数量的潜在产品特征;
潜在特征合并单元,用于合并所述第四数量的潜在产品特征中同义的潜在产品特征,得到第五数量的潜在产品特征;
讨论次数统计单元,用于基于所述第五数量的潜在产品特征中每个潜在产品特征,统计所述潜在产品特征被讨论的次数;
关键特征确定单元,用于在所述次数超过预设次数阈值时,确定所述潜在产品特征为关键产品特征。
可选地,所述情感极性获取模块包括:
评论文本分割单元,用于将所述目标产品的在线评论文本分割为多个句子;
句子特征确定单元,用于基于所述多个句子中的每个句子,确定所述句子中的关键产品特征;
情感极性确定单元,用于在所述句子包含至少一个关键产品特征时,基于所述至少一个关键产品特征中每个关键产品特征,根据所述关键产品特征对应的情感词确定所述关键产品特征的情感极性,所述情感极性包括正面情感和负面情感。
可选地,所述影响系数计算模块包括:
产品参数获取单元,用于获取所述目标产品的产品参数;
计量经济模型构建单元,用于将所述目标产品的产品参数、所述多个关键产品特征中每个关键产品特征的正面情感得分和负面情感得分作为计量经济模型的自变量,以及将所述目标产品销量排名作为所述计量经济模型的因变量,构建关键产品特征对产品销量排名的计量经济模型;
影响系数确定单元,用于基于所述计量经济模型确定所述计量经济模型中自变量对所述因变量的影响系数。
由上述技术方案可知,本发明实施例通过对目标产品的在线评论文本进行处理,得到在线评论文本的多个关键产品特征,然后基于关键产品特征得到对应的正面情感及其得分和负面情感及其得分;之后,根据上述正面情感得分和负面情感得分以及产品参数确定各关键产品特征对目标产品销量排名的影响系数;最终,根据影响系数,确定客户对所述关键产品特征的需求类型。这样,企业就可以根据在线评论文本得到目标产品的需求类型,根据该需求类型对目标产品作相应的改进,可见本实施例有助于提高企业的开发效率,使目标产品更符合用户的需求,提高用户的购物体验,并且本实施例还可以提高目标产品的销量,提高企业的利润。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为本发明一实施例提供的基于社交媒体评论数据的客户需求挖掘方法的方法流程示意图;
图2为本发明另一实施例提供的基于社交媒体评论数据的客户需求挖掘方法的方法流程示意图;
图3为本发明又一实施例提供的基于社交媒体评论数据的客户需求挖掘方法的方法流程示意图;
图4为本发明再一实施例提供的基于社交媒体评论数据的客户需求挖掘方法的方法流程示意图;
图5为本发明一实施例提供的基于社交媒体评论数据的客户需求挖掘装置的框图;
图6为本发明另一实施例提供的基于社交媒体评论数据的客户需求挖掘装置的框图;
图7为本发明又一实施例提供的基于社交媒体评论数据的客户需求挖掘装置的框图;
图8为本发明再一实施例提供的基于社交媒体评论数据的客户需求挖掘装置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一实施例提供的基于社交媒体评论数据的客户需求挖掘方法的方法流程示意图。参见图1,该方法包括:
101,根据目标产品的在线评论文本获取在线评论文本的多个关键产品特征。
社交媒体可以包括微博、论坛、微信或购物网站等,在此不作限定。
评述数据为各用户在社交媒体的在线评论信息。为方便处理,本实施例中将上述在线评论信息整理为在线评论文本。
可理解的是,本实施例中还可以从社交媒体获取目标产品的产品价格和产品参数。其中,产品参数为目标产品的性能参数,可以从目标产品的使用说明中获取。
关键产品特征是指能够表现目标产品特点的特征,每个目标产品包括若干个关键产品特征。可理解的是,随着用户需求的改变,每个目标产品的关键产品特征也会发生改变。在一实施例中,获取目标产品的关键产品特征可以从目标产品的若干个潜在产品特征筛选,然后根据筛选的潜在产品特征的被讨论的次数确定关键产品特征,具体处理过程后续介绍,在此不再详细说明。
102,获取所述多个关键产品特征中每个关键产品特征的情感极性,所述情感极性包括正面情感和负面情感。
本实施例根据目标产品的在线评论文本分割为多个句子。针对每个句子,判定该句子中是否包含至少一个关键产品特征。若该句子中包含至少一个关键产品特征,基于依据至少一个关键产品特征中每个关键产品特征,根据至少一个关键产品特征对应的情感词确定该关键产品特征的情感极性。可理解的是,该情感极性包括正面情感和负面情感。
103,基于所述多个关键产品特征中每个关键产品特征,根据所述关键产品特征的正面情感和负面情感出现的次数计算所述关键产品特征的正面情感得分和负面情感得分。
本实施例中统计关键产品特征的正面情感出现的次数及其负面情感出现的次数,然后根据正面情感和负面情感出现的次数计算关键产品特征的正面情感得分和负面情感得分。
104,根据所述目标产品的产品参数和所述多个关键产品特征中每个关键产品特征的正面情感得分和负面情感得分计算所述产品参数和所述关键产品特征对所述目标产品销量排名的影响系数。
本实施例中,将产品销量排名作为计量经济模型的因变量,将目标产品的产品参数、正面情感得分和负面情感得分作为计量经济模型的自变量,然后利用计量经济模型计算自变量对因变量的影响系数。
影响系数如何定义
105,基于所述影响系数,确定客户对所述关键产品特征的需求类型,所述需求类型包括:基本型需求、期望型需求、魅力型需求和无差异型需求。
本实施例中,基于影响系数,根据卡诺Kano模型分析出关键产品特征的正面情感和负面情感对产品销量排名的影响。
在一实施例中,目标产品的需求类型分为:基本型需求,期望型需求,魅力型需求和无差异型需求。
由上述技术方案可知,本发明实施例可以根据在线评论文本得到目标产品的需求类型,根据该需求类型对目标产品作相应的改进,可见本实施例有助于提高企业的开发效率,使目标产品更符合用户的需求,提高用户的购物体验,并且本实施例还可以提高目标产品的销量,提高企业的利润。
下面结合附图和实施例对本发明实施例提供的矩阵博弈方法各步骤作详细描述。
首先,介绍101,根据目标产品的在线评论文本获取在线评论文本的多个关键产品特征的步骤。
参见图2,本实施例中获取目标产品的第一数量的在线评论文本(对应步骤201)。其中,第一数量可以根据具体场景进行选择,例如第一数量为1000条、10000条,甚至更多,在此不作限定。
然后,本实施例中根据词性分析算法识别第一数量的在线评论文本中的名词,并统计各个名词的出现的数量(对应步骤202)。其中词性分析算法可以包括基于隐马尔科夫模型的词性分析方法或者基于转换的错误驱动词性分析方法。当然该词性分析算法还可以识别出在线评论文本中的形容词、数词以及否定词等,可以根据具体场景进行选择相应的词语,在此不作限定。
本实施例中判定各个名词的数量是否超过(大于或者等于)第二数量,若超过第二数量则确定该名词为目标产品的潜在产品特征(对应步骤203)。其中,第二数量可以根据具体场景进行设置,例如数十次、数百次,甚至更多,在此不作限定。这样可以得到第三数量的潜在产品特征。可理解的是,第三数量小于或者等于第二数量。
本实施例中还根据目标产品所在领域的专家形成专家数据库,这样专家数据库中包括若干个对应目标产品的产品特征。这样,本实施例中基于专家数据库,剔除第三数量的潜在产品特征中未出现在上述专家数据库中的潜在产品特征,得到第四数量的潜在产品特征(对应步骤204)。可理解的是,第四数量小于或者等于第三数量。
之后,本实施例中将第四数量的潜在产品特征中同义的潜在产品特征进行合并,这样可以得到第五数量的潜在产品特征(对应步骤205)。可理解的是,第五数量小于或者等于第四数量。
最后,本实施例中基于第五数量的潜在产品特征中每个潜在产品特征,统计每个潜在产品特征被讨论的次数(对应步骤206),在该次数超过预设次数阈值时,将该潜在产品特征确定为目标产品的关键产品特征(对应步骤207)。
其次,介绍102,获取所述多个关键产品特征中每个关键产品特征的情感极性,所述情感极性包括正面情感和负面情感的步骤。
参见图3,本实施例中将目标产品的在线评论文本分割为多个句子(对应步骤301)。然后基于每个句子,确定句子中的关键产品特征(对应步骤302)。若该句子不包含关键产品特征,则剔除。若句子包含至少一个关键产品特征,则基于至少一个关键产品特征中每个关键产品特征,根据该关键产品特征对应的情感词确定关键产品特征的情感极性。其中情感极性包括正面情感和负面情感(对应步骤303)。
可理解的是,该情感词出现在该关键产品特征对应名词的附近,其中附近可以理解为与该名词相差几个字的上下文的预设范围,例如,名词与情感词之间相差0、1、2等几个字,具体数字可以根据场景进行设置。
可理解的是,情感词的上下文中会出现否定词,例如不、否等,该否定词往往后改变该关键产品特征的以情感极性。在一实施例中,设置一个大小为5(可以调整)的监测窗口,若在监测窗口内出现否定词,则对该关键产品特征的情感极性取反值。当然,若出现多个否定词,则需要取反值多次,可以根据具体场景进行调整。
再次,介绍103,基于所述多个关键产品特征中每个关键产品特征,根据所述关键产品特征的正面情感和负面情感出现的次数计算所述关键产品特征的正面情感得分和负面情感得分的步骤。
本实施例统计每个关键产品特征的正面情感和负面情感出现的次数,然后根据次数计算关键产品特征的正面情感得分和负面情感得分,公式如下:
Figure BDA0001474650000000131
Figure BDA0001474650000000132
其中,Score(j,f,pos)和Score(j,f,neg)分别表示目标产品j的关键产品特征f的正面情感得分和负面情感得分;N(j,f,pos)和N(j,f,neg)分别表示目标产品j的关键产品特征f的正面情感次数和负面情感次数;而N(j)表示目标产品j的在线评论总数。
第四,介绍104,根据所述目标产品的产品参数和所述多个关键产品特征中每个关键产品特征的正面情感得分和负面情感得分计算所述产品参数和所述关键产品特征对所述目标产品销量排名的影响系数的步骤。
参见图4,本实施例中获取所述目标产品的产品参数(对应步骤401),然后将目标产品的产品参数、每个关键产品特征的正面情感得分和负面情感得分作为计量经济模型的自变量,以及将目标产品销量排名作为计量经济模型的因变量,构建关键产品特征对产品销量排名的计量经济模型(对应步骤402);最后基于计量经济模型确定计量经济模型中自变量对所述因变量的影响系数(对应步骤403)。
其中,计量经济模型采用以下公式表示:
Figure BDA0001474650000000141
式中,sjt表示目标产品j在t时刻的产品销量排名,dt表示t时刻的市场销量排名的综合影响因素,pjt表示目标产品j在t时刻的产品价格,Scoret-1(j,f,pos)和Scoret-1(j,f,neg)分别表示在线评论文本中目标产品j的关键产品特征f在t-1时刻的正面情感得分和负面情感得分,β(f,pos)和β(f,neg)表示关键产品特征f的正负面情感得分对产品销量排名的影响程度,计算时可以根据最小二乘法拟合得到,Score(j,a)表示产品参数a,βa表示产品参数a对产品销量排名的影响程度。
最后,介绍105,基于所述影响系数,确定客户对所述关键产品特征的需求类型,所述需求类型包括:基本型需求、期望型需求、魅力型需求和无差异型需求的步骤。
本实施例中针对自变量中关键产品特征对产品销量排名的影响系数,分析关键产品特征的正面情感和负面情感对产品销量排名的影响。
本实施例中,相关系数β(f,pos)(负值)越小,说明产品特征f的正面效应越大,对产品销量排名影响越大;β(f,neg)(正值)越大,说明产品特征f的负面效应越大,对产品销量影响销量排名越大。
根据关键产品特征f的正负面情感影响,依据Kano模型将客户对产品特征的需求分为:基本型需求,期望型需求,魅力型需求和无差异型需求。
基本型需求:β(f,neg)显著,β(f,pos)不显著。
期望型需求:β(f,neg)显著,β(f,pos)显著。
魅力型需求:β(f,neg)不显著,β(f,pos)显著。
无差异型需求:β(f,neg)不显著,β(f,pos)不显著。
本发明一实施例提供的基于社交媒体评论数据的客户需求挖掘方法应用于汽车产品领域。本实施例中收集汽车之家网站(http://www.autohome.com.cn)的39款SUV车辆的在线评论文本、产品价格和产品参数。然后确定SUV车辆的关键产品特征包括:外观、空间、配置、油耗、动力、系统、内饰、座椅、天窗、操控、安全、后备箱、隔音、底盘、做工、发动机、空调和导航。
例如,句子“奔驰GLA的动力强劲,而且有一个炫酷的外观”。该句子中“动力”被视为一个产品特征,“强劲”是本句子中离“动力”最近的情感词,“强劲”在专家数据库的积极情感词库中,因此“动力”的情感极性是正面情感极性。同样,“外观”作为产品特征,“炫酷”是离“外观”最近的情感词,“炫酷”在上述积极情感词库中,因此“外观”的情感极性也是正面情感极性。
计算关键产品特征的正面情感得分和负面情感得分:以奔驰GLA为例,参与评价人数为1983人,有438人评价了“动力”特征,其中正面评论368人,负面评论70人。则:
Figure BDA0001474650000000151
Figure BDA0001474650000000152
在一实施例中,根据β(f,neg)进行检验时得到模型的检验值P小于0.05时为较为显著,若检测值P小于0.01则比较显著,若小于0.001则非常显著。
继续以“动力”特征为例,其正面情感得分的影响系数β(f,pos)为-0.388。可理解的是,由于因变量是产品销量排名,不是产品销量,系数为负数且检测值P小于0.001则β(f,pos)表示对产品销量排名增加有积极影响,且具有显著性。
由于“动力”特征的负面情感得分的影响系数β(f,neg)等于0.015,但检测值P大于0.05,不具有显著性。
最后,根据“动力”特征的正面情感和负面情感对产品销量排名的影响系数,“动力”特征的正面情感效应对产品销量排名具有显著影响,负面情感效应不具有显著影响,既β(f,neg)不显著,β(f,pos)显著,属于魅力型需求。
本发明实施例还提供了一种基于社交媒体评论数据的客户需求挖掘装置,如图5所示,所述装置包括:
产品特征获取模块501,用于根据目标产品的在线评论文本获取在线评论文本的多个关键产品特征;
情感极性获取模块502,用于获取所述多个关键产品特征中每个关键产品特征的情感极性,所述情感极性包括正面情感和负面情感;
情感得分获取模块503,用于基于所述多个关键产品特征中每个关键产品特征,根据所述关键产品特征的正面情感和负面情感出现的次数计算所述关键产品特征的正面情感得分和负面情感得分;
影响系数计算模块504,用于根据所述目标产品的产品参数和所述多个关键产品特征中每个关键产品特征的正面情感得分和负面情感得分计算所述产品参数和所述关键产品特征对所述目标产品销量排名的影响系数;
用户需求确定模块505,用于基于所述影响系数,确定客户对所述关键产品特征的需求类型,所述需求类型包括:基本型需求、期望型需求、魅力型需求和无差异型需求。
在一实施例中,参见图6,所述产品特征获取模块501包括:
评论文本获取单元601,用于获取目标产品的第一数量的在线评论文本;
名词数量统计单元602,用于根据词性分析算法识别所述第一数量的在线评论文本中的名词,并统计所述名词的数量;
潜在特征确定单元603,用于将所述数量超过第二数量的名词确定为所述目标产品的潜在产品特征,得到第三数量的潜在产品特征;
潜在特征剔除单元604,用于基于专家数据库,剔除未出现在所述专家数据库中的潜在产品特征,得到第四数量的潜在产品特征;
潜在特征合并单元605,用于合并所述第四数量的潜在产品特征中同义的潜在产品特征,得到第五数量的潜在产品特征;
讨论次数统计单元606,用于基于所述第五数量的潜在产品特征中每个潜在产品特征,统计所述潜在产品特征被讨论的次数;
关键特征确定单元607,用于在所述次数超过预设次数阈值时,确定所述潜在产品特征为关键产品特征。
在一实施例中,参见图7,所述情感极性获取模块502包括:
评论文本分割单元701,用于将所述目标产品的在线评论文本分割为多个句子;
句子特征确定单元702,用于基于所述多个句子中的每个句子,确定所述句子中的关键产品特征;
情感极性确定单元703,用于在所述句子包含至少一个关键产品特征时,基于所述至少一个关键产品特征中每个关键产品特征,根据所述关键产品特征对应的情感词确定所述关键产品特征的情感极性,所述情感极性包括正面情感和负面情感。
在一实施例中,所述情感得分获取模块还用于在所述情感词对应上下文的预设范围内包括至少一个否定词时,对所述关键产品特征的情感极性取至少一次反值,得到所述关键产品特征的最终情感极性。
在一实施例中,参见图8,所述影响系数计算模块504包括:
产品参数获取单元801,用于获取所述目标产品的产品参数;
计量经济模型构建单元802,用于将所述目标产品的产品参数、所述多个关键产品特征中每个关键产品特征的正面情感得分和负面情感得分作为计量经济模型的自变量,以及将所述目标产品销量排名作为所述计量经济模型的因变量,构建关键产品特征对产品销量排名的计量经济模型;
影响系数确定单元803,用于基于所述计量经济模型确定所述计量经济模型中自变量对所述因变量的影响系数。
需要说明的是,本发明实施例提供的基于社交媒体评论数据的客户需求挖掘装置与上述方法是一一对应的关系,上述方法的实施细节同样适用于上述装置,本发明实施例不再对上述系统进行详细说明。
本发明的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (8)

1.一种基于社交媒体评论数据的客户需求挖掘方法,其特征在于,所述方法包括:
根据目标产品的在线评论文本获取在线评论文本的多个关键产品特征;
获取所述多个关键产品特征中每个关键产品特征的情感极性,所述情感极性包括正面情感和负面情感;
基于所述多个关键产品特征中每个关键产品特征,根据所述关键产品特征的正面情感和负面情感出现的次数计算所述关键产品特征的正面情感得分和负面情感得分;
根据所述目标产品的产品参数和所述多个关键产品特征中每个关键产品特征的正面情感得分和负面情感得分计算所述产品参数和所述关键产品特征对所述目标产品销量排名的影响系数;
基于所述影响系数,确定客户对所述关键产品特征的需求类型,所述需求类型包括:基本型需求、期望型需求、魅力型需求和无差异型需求;
其中,所述根据在线评论文本获取在线评论文本的关键产品特征,包括:
获取目标产品的第一数量的在线评论文本;
根据词性分析算法识别所述第一数量的在线评论文本中的名词,并统计所述名词的数量;
将所述数量超过第二数量的名词确定为所述目标产品的潜在产品特征,得到第三数量的潜在产品特征;
基于专家数据库,剔除所述第三数量的潜在产品特征中未出现在所述专家数据库中的潜在产品特征,得到第四数量的潜在产品特征;
合并所述第四数量的潜在产品特征中同义的潜在产品特征,得到第五数量的潜在产品特征;
基于所述第五数量的潜在产品特征中每个潜在产品特征,统计所述潜在产品特征被讨论的次数;
当所述次数超过预设次数阈值时,确定所述潜在产品特征为关键产品特征。
2.根据权利要求1所述的客户需求挖掘方法,其特征在于,获取所述多个关键产品特征中每个关键产品特征的情感极性包括:
将所述目标产品的在线评论文本分割为多个句子;
基于所述多个句子中的每个句子,确定所述句子中的关键产品特征;
若所述句子包含至少一个关键产品特征,基于所述至少一个关键产品特征中每个关键产品特征,根据所述关键产品特征对应的情感词确定所述关键产品特征的情感极性,所述情感极性包括正面情感和负面情感。
3.根据权利要求2所述的客户需求挖掘方法,其特征在于,根据所述关键产品特征对应的情感词确定所述关键产品特征的情感极性包括:
若所述情感词对应上下文的预设范围内包括至少一个否定词,则对所述关键产品特征的情感极性取至少一次反值,得到所述关键产品特征的最终情感极性。
4.根据权利要求1所述的客户需求挖掘方法,其特征在于,根据所述目标产品的产品参数和所述多个关键产品特征中每个关键产品特征的正面情感得分和负面情感得分计算所述产品参数和所述关键产品特征对所述目标产品销量排名的影响系数包括:
获取所述目标产品的产品参数;
将所述目标产品的产品参数、所述多个关键产品特征中每个关键产品特征的正面情感得分和负面情感得分作为计量经济模型的自变量,以及将所述目标产品销量排名作为所述计量经济模型的因变量,构建关键产品特征对产品销量排名的计量经济模型。
5.根据权利要求1所述的客户需求挖掘方法,其特征在于,基于所述影响系数,确定客户对所述关键产品特征的需求类型包括:
根据关键产品特征f的正负面情感影响,依据Kano模型将客户对产品特征的需求分为:基本型需求,期望型需求,魅力型需求和无差异型需求;
基本型需求:β(f,neg)显著,β(f,pos)不显著;
期望型需求:β(f,neg)显著,β(f,pos)显著;
魅力型需求:β(f,neg)不显著,β(f,pos)显著;
无差异型需求:β(f,neg)不显著,β(f,pos)不显著;
其中,相关系数β(f,pos)越小,说明关键产品特征f的正面效应越大,对产品销量排名影响越大;β(f,neg)越大,说明关键产品特征f的负面效应越大,对产品销量影响销量排名越大。
6.一种基于社交媒体评论数据的客户需求挖掘装置,其特征在于,所述装置包括:
产品特征获取模块,用于根据目标产品的在线评论文本获取在线评论文本的多个关键产品特征;
情感极性获取模块,用于获取所述多个关键产品特征中每个关键产品特征的情感极性,所述情感极性包括正面情感和负面情感;
情感得分获取模块,用于基于所述多个关键产品特征中每个关键产品特征,根据所述关键产品特征的正面情感和负面情感出现的次数计算所述关键产品特征的正面情感得分和负面情感得分;
影响系数计算模块,用于根据所述目标产品的产品参数和所述多个关键产品特征中每个关键产品特征的正面情感得分和负面情感得分计算所述产品参数和所述关键产品特征对所述目标产品销量排名的影响系数;
用户需求确定模块,用于基于所述影响系数,确定客户对所述关键产品特征的需求类型,所述需求类型包括:基本型需求、期望型需求、魅力型需求和无差异型需求;
其中,所述产品特征获取模块包括:
评论文本获取单元,用于获取目标产品的第一数量的在线评论文本;
名词数量统计单元,用于根据词性分析算法识别所述第一数量的在线评论文本中的名词,并统计所述名词的数量;
潜在特征确定单元,用于将所述数量超过第二数量的名词确定为所述目标产品的潜在产品特征,得到第三数量的潜在产品特征;
潜在特征剔除单元,用于基于专家数据库,剔除未出现在所述专家数据库中的潜在产品特征,得到第四数量的潜在产品特征;
潜在特征合并单元,用于合并所述第四数量的潜在产品特征中同义的潜在产品特征,得到第五数量的潜在产品特征;
讨论次数统计单元,用于基于所述第五数量的潜在产品特征中每个潜在产品特征,统计所述潜在产品特征被讨论的次数;
关键特征确定单元,用于在所述次数超过预设次数阈值时,确定所述潜在产品特征为关键产品特征。
7.根据权利要求6所述的客户需求挖掘装置,其特征在于,所述情感极性获取模块包括:
评论文本分割单元,用于将所述目标产品的在线评论文本分割为多个句子;
句子特征确定单元,用于基于所述多个句子中的每个句子,确定所述句子中的关键产品特征;
情感极性确定单元,用于在所述句子包含至少一个关键产品特征时,基于所述至少一个关键产品特征中每个关键产品特征,根据所述关键产品特征对应的情感词确定所述关键产品特征的情感极性,所述情感极性包括正面情感和负面情感。
8.根据权利要求6所述的客户需求挖掘装置,其特征在于,所述影响系数计算模块包括:
产品参数获取单元,用于获取所述目标产品的产品参数;
计量经济模型构建单元,用于将所述目标产品的产品参数、所述多个关键产品特征中每个关键产品特征的正面情感得分和负面情感得分作为计量经济模型的自变量,以及将所述目标产品销量排名作为所述计量经济模型的因变量,构建关键产品特征对产品销量排名的计量经济模型;
影响系数确定单元,用于基于所述计量经济模型确定所述计量经济模型中自变量对所述因变量的影响系数。
CN201711157334.XA 2017-11-20 2017-11-20 基于社交媒体评论数据的客户需求挖掘方法及装置 Active CN107908753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711157334.XA CN107908753B (zh) 2017-11-20 2017-11-20 基于社交媒体评论数据的客户需求挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711157334.XA CN107908753B (zh) 2017-11-20 2017-11-20 基于社交媒体评论数据的客户需求挖掘方法及装置

Publications (2)

Publication Number Publication Date
CN107908753A CN107908753A (zh) 2018-04-13
CN107908753B true CN107908753B (zh) 2020-04-21

Family

ID=61846352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711157334.XA Active CN107908753B (zh) 2017-11-20 2017-11-20 基于社交媒体评论数据的客户需求挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN107908753B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874874A (zh) * 2018-04-27 2018-11-23 合肥工业大学 产品市场定位方法和系统、存储介质
CN108665306B (zh) * 2018-05-04 2021-05-25 合肥工业大学 核心竞争产品识别方法和系统、存储介质
CN109284373A (zh) * 2018-09-06 2019-01-29 合肥工业大学 基于文本挖掘驱动的产品升级策略的获取方法及装置
CN109460474B (zh) * 2018-11-22 2021-11-23 合肥工业大学 用户偏好趋势挖掘方法
CN110347828B (zh) * 2019-06-26 2022-03-15 西南交通大学 一种地铁乘客需求动态获取方法及其获取系统
CN110490663A (zh) * 2019-08-23 2019-11-22 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN110490667B (zh) * 2019-08-26 2023-07-21 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN111126070A (zh) * 2019-11-08 2020-05-08 广东电网有限责任公司 一种基于机器学习的电力领域的语意分析方法
CN112015994B (zh) * 2020-09-09 2023-09-15 平安科技(深圳)有限公司 药物推荐方法、装置、设备及介质
CN114881677A (zh) * 2021-02-05 2022-08-09 漳州立达信光电子科技有限公司 一种用户需求分析方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106384245A (zh) * 2016-09-06 2017-02-08 合肥工业大学 产品特征分析方法和系统
CN106875213A (zh) * 2017-01-12 2017-06-20 合肥工业大学 产品的偏好区域识别方法和装置
CN107133214A (zh) * 2017-05-05 2017-09-05 中国计量大学 一种基于评论信息的产品需求偏好特征挖掘及其质量评估方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070150281A1 (en) * 2005-12-22 2007-06-28 Hoff Todd M Method and system for utilizing emotion to search content

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106384245A (zh) * 2016-09-06 2017-02-08 合肥工业大学 产品特征分析方法和系统
CN106875213A (zh) * 2017-01-12 2017-06-20 合肥工业大学 产品的偏好区域识别方法和装置
CN107133214A (zh) * 2017-05-05 2017-09-05 中国计量大学 一种基于评论信息的产品需求偏好特征挖掘及其质量评估方法

Also Published As

Publication number Publication date
CN107908753A (zh) 2018-04-13

Similar Documents

Publication Publication Date Title
CN107908753B (zh) 基于社交媒体评论数据的客户需求挖掘方法及装置
US20190354997A1 (en) Brand Personality Comparison Engine
US11315149B2 (en) Brand personality inference and recommendation system
CN108364199B (zh) 一种基于互联网用户评论的数据分析方法及系统
CN108491377A (zh) 一种基于多维度信息融合的电商产品综合评分方法
CN108363790A (zh) 用于对评论进行评估的方法、装置、设备和存储介质
Xu et al. Predicting perceived brand personality with social media
US10395258B2 (en) Brand personality perception gap identification and gap closing recommendation generation
CN110457711B (zh) 一种基于主题词的社交媒体事件主题识别方法
CN105654198B (zh) 具有最优阈值筛选的品牌广告效果优化的方法
CN107103093B (zh) 一种基于用户行为和情感分析的短文本推荐方法及装置
CN111026868B (zh) 一种多维度舆情危机预测方法、终端设备及存储介质
CN110210244B (zh) 检测社交媒体用户隐私泄露的方法和系统
CN104850617A (zh) 短文本处理方法及装置
CN110706028A (zh) 基于属性特征的商品评价情感分析系统
CN116244513B (zh) 随机群组poi推荐方法、系统、设备及存储介质
Zhang et al. Measuring brand favorability using large-scale social media data
CN112149003A (zh) 商品社群推荐方法、装置和计算机设备
CN110502639B (zh) 基于问题贡献度的信息推荐方法、装置、及计算机设备
KR20130103249A (ko) 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
CN113886697A (zh) 基于聚类算法的活动推荐方法、装置、设备及存储介质
CN116501840B (zh) 一种用于获客营销的nlp智能分析方法
Garimella et al. Factors in recommending contrarian content on social media
Jeong et al. Development of a new sound quality metric for evaluation of the interior noise in a passenger car using the logarithmic Mahalanobis distance
CN111210274A (zh) 一种广告推荐方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant