CN106682929B - 信息分析方法和装置 - Google Patents

信息分析方法和装置 Download PDF

Info

Publication number
CN106682929B
CN106682929B CN201510765484.3A CN201510765484A CN106682929B CN 106682929 B CN106682929 B CN 106682929B CN 201510765484 A CN201510765484 A CN 201510765484A CN 106682929 B CN106682929 B CN 106682929B
Authority
CN
China
Prior art keywords
information
keyword
group
users
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510765484.3A
Other languages
English (en)
Other versions
CN106682929A (zh
Inventor
钦滨杰
聂梦瑶
陈晓敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510765484.3A priority Critical patent/CN106682929B/zh
Publication of CN106682929A publication Critical patent/CN106682929A/zh
Application granted granted Critical
Publication of CN106682929B publication Critical patent/CN106682929B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种信息分析方法和装置。其中,该方法包括:获取多个用户的信息;将多个用户进行分组,得到m组用户,其中,m为大于1的自然数;计算Li组用户的信息中每类关键词占Li组用户的信息中全部关键词的比重,其中,i依次取1至m,Li组用户的信息中不同类关键词为表示Li组用户不同情绪的关键词;以及根据Li组用户的信息中每类关键词占Li组用户的信息中全部关键词的比重,确定Li组用户的情感倾向。本申请解决了现有技术中不能分析用户的反馈信息的差异性的技术问题。

Description

信息分析方法和装置
技术领域
本申请涉及数据处理领域,具体而言,涉及一种信息分析方法和装置。
背景技术
商家在销售出产品之后,需要知道用户的反馈(例如评价信息)是好是坏,是积极正面的反馈多,还是消极负面的反馈多,通过分析用户的反馈信息,可以知道产品在消费者中的口碑好坏,也可以根据用户的反馈有针对性地改进产品。目前,在对用户的反馈信息进行分析时,将所有用户的反馈信息视为一个整体,通过统计反馈信息中能够表明情感的关键词出现的频率,来判断用户对该产品的评价是好还是坏。
然而,不同类别的用户对同一产品的评价和好感度往往相差很大,将所有用户的反馈信息视为一个整体进行分析计算,只能笼统地反映出用户的整体情况,掩盖了不同类别用户的反馈信息的差异性。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种信息分析方法和装置,以至少解决现有技术中不能分析用户的反馈信息的差异性的技术问题。
根据本申请实施例的一个方面,提供了一种信息分析方法,包括:获取多个用户的信息;将所述多个用户进行分组,得到m组用户,其中,m为大于1的自然数;计算Li组用户的信息中每类关键词占所述Li组用户的信息中全部关键词的比重,其中,i依次取1至m,所述Li组用户的信息中不同类关键词为表示所述Li组用户不同情绪的关键词;以及根据所述Li组用户的信息中每类关键词占所述Li组用户的信息中全部关键词的比重,确定所述Li组用户的情感倾向。
进一步地,每组用户的信息中均包括S类关键词,计算Li组用户的信息中每类关键词占所述Li组用户的信息中全部关键词的比重包括:计算所述Li组用户的信息中关键词类Zij的数值,其中,j依次取1至S,S为正整数;计算关键词类Zi1的数值至关键词类ZiS的数值之和,得到所述Li组用户的信息中全部关键词的数值;以及计算所述关键词类Zij的数值与所述Li组用户的信息中全部关键词的数值的比值,得到所述关键词类Zij占所述Li组用户的信息中全部关键词的比重。
进一步地,计算所述Li组用户的信息中关键词类Zij的数值包括:查找所述关键词类Zij中每个关键词在所述Li组用户的信息中出现的次数;在预设数据库中查询所述关键词类Zij中每个关键词的权重;以及根据所述关键词类Zij中每个关键词的次数和所述关键词类Zij中每个关键词的权重,计算所述Li组用户的信息中关键词类Zij的数值。
进一步地,根据所述关键词类Zij中每个关键词的次数和所述关键词类Zij中每个关键词的权重,计算所述Li组用户的信息中关键词类Zij的数值包括:根据
Figure BDA0000843563940000021
计算所述Li组用户的信息中所述关键词类Zij的数值N(Zij),其中,nij表示所述Li组用户的信息中所述关键词类Zij中的关键词个数,tij(k)表示所述关键词类Zij中第k个关键词出现的次数,wij(k)表示所述关键词类Zij中所述第k个关键词的权重。
进一步地,根据所述Li组用户的信息中每类关键词占所述Li组用户的信息中全部关键词的比重,确定所述Li组用户的情感倾向包括:为所述Li组用户设置第i阈值;将所述Li组用户的信息中Zi1类关键词占所述Li组用户的信息中全部关键词的比重与所述第i阈值进行比较;在所述Li组用户的信息中Zi1类关键词占所述Li组用户的信息中全部关键词的比重大于或等于所述第i阈值的情况下,确定所述Li组用户的情感倾向为积极,其中,i依次取1至m。
根据本申请实施例的一个方面,提供了一种信息分析装置,包括:获取单元,用于获取多个用户的信息;分组单元,用于将所述多个用户进行分组,得到m组用户,其中,m为大于1的自然数;计算单元,用于计算Li组用户的信息中每类关键词占所述Li组用户的信息中全部关键词的比重,其中,i依次取1至m,所述Li组用户的信息中不同类关键词为表示所述Li组用户不同情绪的关键词;以及确定单元,用于根据所述Li组用户的信息中每类关键词占所述Li组用户的信息中全部关键词的比重,确定所述Li组用户的情感倾向。
进一步地,每组用户的信息中均包括S类关键词,所述计算单元包括:第一计算子单元,用于计算所述Li组用户的信息中关键词类Zij的数值,其中,j依次取1至S,S为正整数;第二计算子单元,用于计算关键词类Zi1的数值至关键词类ZiS的数值之和,得到所述Li组用户的信息中全部关键词的数值;以及第三计算子单元,用于计算所述关键词类Zij的数值与所述Li组用户的信息中全部关键词的数值的比值,得到所述关键词类Zij占所述Li组用户的信息中全部关键词的比重。
进一步地,所述第一计算子单元包括:查找模块,用于查找所述关键词类Zij中每个关键词在所述Li组用户的信息中出现的次数;查询模块,用于在预设数据库中查询所述关键词类Zij中每个关键词的权重;以及计算模块,用于根据所述关键词类Zij中每个关键词的次数和所述关键词类Zij中每个关键词的权重,计算所述Li组用户的信息中关键词类Zij的数值。
进一步地,所述计算模块包括:计算子模块,用于根据
Figure BDA0000843563940000031
计算所述Li组用户的信息中所述关键词类Zij的数值N(Zij),其中,nij表示所述Li组用户的信息中所述关键词类Zij中的关键词个数,tij(k)表示所述关键词类Zij中第k个关键词出现的次数,wij(k)表示所述关键词类Zij中所述第k个关键词的权重。
进一步地,所述确定单元包括:设置子单元,用于为所述Li组用户设置第i阈值;比较子单元,用于将所述Li组用户的信息中Zi1类关键词占所述Li组用户的信息中全部关键词的比重与所述第i阈值进行比较;确定子单元,用于在所述Li组用户的信息中Zi1类关键词占所述Li组用户的信息中全部关键词的比重大于或等于所述第i阈值的情况下,确定所述Li组用户的情感倾向为积极,其中,i依次取1至m。
在本申请实施例中,采用获取多个用户的信息,将多个用户进行分组,得到m组用户,其中,m为大于1的自然数,计算Li组用户的信息中每类关键词占Li组用户的信息中全部关键词的比重,其中,i依次取1至m,Li组用户的信息中不同类关键词为表示Li组用户不同情绪的关键词,根据Li组用户的信息中每类关键词占Li组用户的信息中全部关键词的比重,确定Li组用户的情感倾向。通过将用户进行分组,分别计算每一组用户的评价中每类表示情绪的关键词占所有表示情绪的关键词的比重,通过计算出的比重,确定每一组用户的情感倾向是正面的,还是负面的,实现了分析不同类别的用户的反馈信息的技术效果,进而解决了现有技术中不能分析用户的反馈信息的差异性的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的信息分析方法的流程图;以及
图2是根据本申请实施例的信息分析装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种信息分析方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的信息分析方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取多个用户的信息。
步骤S104,将多个用户进行分组,得到m组用户,其中,m为大于1的自然数。
步骤S106,计算Li组用户的信息中每类关键词占Li组用户的信息中全部关键词的比重,其中,i依次取1至m,Li组用户的信息中不同类关键词为表示Li组用户不同情绪的关键词。
步骤S108,根据Li组用户的信息中每类关键词占Li组用户的信息中全部关键词的比重,确定Li组用户的情感倾向。
其中,对用户进行分组可以有多种方法。可以根据获取的用户的信息中包含的级别、经验值、活跃度等对用户进行分组。也可以根据用户的消费额对用户进行分组,按照消费额从高到低对用户进行分组,例如,将消费额占前5%的用户分为资深用户组,将消费额占前5%至前20%的用户分为高级用户组,将其余用户分为普通用户组。
用户在使用或购买了某种产品后会有反馈信息,也就是评论或评价。例如,在淘宝网,用户在购买产品可以对购买的产品进行评价。这些评价中,既有正面评价的,例如“东西很好”、“棒”、“还行”、“质量不错”,也有负面评价,例如“不好”、“坏”、“太烂了”,也有中性评价,例如“凑合”“一般”。
不同用户组的用户对统一产品的关注点不同,从而对产品的评价好坏和评价用语也有很大的差异。例如,上述资深用户组的评价可能为“很时尚”、“款式好”、“新潮”,普通用户组的评价可能为“贵”、“不实惠”。将用户按照一定特征分组后,根据每组用户的评价中正面关键词在全部关键词中所占的比重,判断每一组用户对产品的评价,从而能够得知产品在每一组用户中的口碑好坏,从而可以针对特定组的用户对产品进行改进或者营销。
通过将用户分组,并分别计算每一组用户的评价中每类表示情绪的关键词占所有表示情绪的关键词的比重,通过计算出的比重,确定每一组用户的情感倾向是正面的,还是负面的,实现了分析不同类别的用户的反馈信息的技术效果,进而解决了现有技术中不能分析用户的反馈信息的差异性的技术问题。
可选地,每组用户的信息中均包括S类关键词,计算Li组用户的信息中每类关键词占Li组用户的信息中全部关键词的比重包括:计算Li组用户的信息中关键词类Zij的数值,其中,j依次取1至S,S为正整数;计算关键词类Zi1的数值至关键词类ZiS的数值之和,得到Li组用户的信息中全部关键词的数值;以及计算关键词类Zij的数值与Li组用户的信息中全部关键词的数值的比值,得到关键词类Zij占Li组用户的信息中全部关键词的比重。
每一组用户的评论中都包含S类关键词,以S=3为例进行说明,即用户的评论中有表达正面、积极的情感的一类关键词,表达负面、消极的情感的一类关键词,表达既不积极,也不消极的中性的情感的一类关键词,那么关键词类Zi1即为Li组用户表达正面、积极的情感的一类关键词,关键词类Zi2即为Li组用户表达负面、消极的情感的一类关键词,关键词类Zi3即为Li组用户表达既不积极,也不消极的中性的情感的一类关键词。计算出关键词类Zi1的数值、关键词类Zi2的数值、关键词类Zi3的数值,将关键词类Zi1的数值、关键词类Zi2的数值、关键词类Zi3的数值这三者相加得到Li组用户的信息中全部关键词的数值,将关键词类Zi1的数值与Li组用户的信息中全部关键词的数值相除,得到Li组用户表示正面情感的关键词在表示情感的全部关键词中的比重。需要注意的是,S=3仅仅为S的一种取值。对于S取其他值的情况,计算关键词类Zij与Li组用户的信息中全部关键词的数值的比值的方法以此类推,不再赘述。
可选地,计算Li组用户的信息中关键词类Zij的数值包括:查找关键词类Zij中每个关键词在Li组用户的信息中出现的次数;在预设数据库中查询关键词类Zij中每个关键词的权重;以及根据关键词类Zij中每个关键词的次数和关键词类Zij中每个关键词的权重,计算Li组用户的信息中关键词类Zij的数值。
可选地,根据关键词类Zij中每个关键词的次数和关键词类Zij中每个关键词的权重,计算Li组用户的信息中关键词类Zij的数值包括:根据
Figure BDA0000843563940000061
计算Li组用户的信息中关键词类Zij的数值N(Zij),其中,nij表示Li组用户的信息中关键词类Zij中的关键词个数,tij(k)表示关键词类Zij中第k个关键词出现的次数,wij(k)表示关键词类Zij中第k个关键词的权重。
每个关键词类Zij包括若干个关键词,这些关键词的权重不同,通过预先设置的数据库可以查询出这些关键词的权重。同样是正面评价,“特别好”和“不错”所传达的情感的强烈程度是不同的,评论“不错”的用户对产品或服务是基本满意的,而评论“特别好”的用户对产品或服务是非常满意的。同样是负面评价,“不太好”和“太差了”所传达的情感的强烈程度也是不同,评论“不太好”的用户对产品或服务不满意,评论“太差了”的用户对产品或服务非常不满意。基于表示情感的关键词所传达的情感的强烈程度,预先对这些表示情感的关键词设置了权重。关键词的权重与关键词所传达的感情的强烈程度呈正相关。
例如,用户组为一组的用户中,一共有21条评论,分别为“很好”、“产品很好”、“质量不好”、“东西特别好”、“还凑合吧”、“什么烂玩意”、“差”、“对这次购物特别满意”、“好”、“挺实惠的”、“质量一般”、“促销的时候买的,挺划算的”、“快递给力”、“快递挺快的”、“好”、“质量一般”、“凑合”、“东西很好”、“产品特别好”、“特别满意”、“快递给力”,提取出这些评论中表示情感/情绪的关键词,有“很好”、“不好”、“特别好”、“凑合”、“烂”、“差”、“特别满意”、“好”、“实惠”、“一般”、“划算”、“给力”、“挺快”。
提取出评论中表示正面情感的关键词,有“很好”、“特别好”、“特别满意”、“好”、“实惠”、“划算”、“给力”、“挺快”。其中,“很好”出现了3次,“特别好”出现了2次,“好”出现了2次,“特别满意”出现了2次,“给力”出现了2次,其余关键词各出现1次。
提取出评论中表示负面情感的关键词,有“不好”、“烂”、“差”。其中,“不好”、“烂”、“差”均出现了1次。
提取出评论中表示中性情感的关键词,有“凑合”、“一般”。其中,“凑合”、“一般”各出现了2次。
表1
Figure BDA0000843563940000071
表2
Figure BDA0000843563940000072
Figure BDA0000843563940000081
表3
Figure BDA0000843563940000082
表1是表示正面情感的关键词的与其权重的对应关系,表2是表示负面情感的关键词的与其权重的对应关系,表3是表示中性情感的关键词的与其权重的对应关系,由于篇幅关系,表1、表2和表3均只列出一部分关键词与其权重的对应关系。
将表示正面情感的8个关键词“很好”、“特别好”、“特别满意”、“好”、“实惠”、“划算”、“给力”、“挺快”每个关键词出现的次数与该关键词的权重相乘,将求得的结果相加,就得到了表示正面情感的关键词类的数值,为67。
将表示负面情感的3个关键词“不好”、“烂”、“差”每个词出现的次数与该关键词的权重相乘,将求得的结果相加,就得到了表示负面情感的关键词类的数值,为12。
将表示中性情感的2个关键词“凑合”、“一般”每个词出现的次数与该关键词的权重相乘,将求得的结果相加,就得到了表示中性情感的关键词类的数值,为8。
每个关键词的权重为预先设置,权重代表各个关键词所传达情感信息的强弱的相对值,故权重的取值可以为自然数,也可以为(0,1)之间的小数,等等,只需要所有关键词使用同一度量方法即可。
需要说明的是,在本申请实施例中,不仅同一组用户内各个关键词的权重不同,而且同一个关键词在不同组用户中所占的权重也可以不相同。
可选地,根据Li组用户的信息中每类关键词占Li组用户的信息中全部关键词的比重,确定Li组用户的情感倾向包括:为Li组用户设置第i阈值;将Li组用户的信息中Zi1类关键词占Li组用户的信息中全部关键词的比重与第i阈值进行比较;在Li组用户的信息中Zi1类关键词占Li组用户的信息中全部关键词的比重大于或等于第i阈值的情况下,确定Li组用户的情感倾向为积极,其中,i依次取1至m。
即,为每一个用户组设置一个阈值,计算每一组用户的第1类关键词的数值与该组所有关键词的比值,将每一组的比值与该组的阈值相比,如果比值大于或等于阈值,则确定该组用户的情感倾向为积极的。
例如,第一组用户的评论中,表示正面情感的关键词类的数值为67,表示负面情感的关键词类的数值为12,表示中性情感的关键词类的数值为8。表示情感的全部关键词的数值为87(即,67+12+8=87)。为第一组用户设置第1阈值为0.6,即当表示正面情感的关键词类的数值与表示情感的全部关键词的数值之比只要大于或等于0.6,即认为该产品或服务在第一组用户中得到了积极的评价。经过计算,得到表示正面情感的关键词类的数值与表示情感的全部关键词的数值之比为0.77,大于第1阈值0.6,因此,可以认为该产品或服务在第一组用户中得到了积极的评价。
根据本发明实施例,还提供了一种信息分析装置。该信息分析装置可以执行上述信息分析方法,上述信息分析方法也可以通过该信息分析装置实施。
图2是根据本申请实施例的信息分析装置的示意图。如图2所示,该信息分析装置主要包括获取单元10、分组单元20、计算单元30和确定单元40,其中:
获取单元10用于获取多个用户的信息。
分组单元20用于将多个用户进行分组,得到m组用户,其中,m为大于1的自然数。
计算单元30用于计算Li组用户的信息中每类关键词占Li组用户的信息中全部关键词的比重,其中,i依次取1至m,Li组用户的信息中不同类关键词为表示Li组用户不同情绪的关键词。
确定单元40用于根据Li组用户的信息中每类关键词占Li组用户的信息中全部关键词的比重,确定Li组用户的情感倾向。
其中,对用户进行分组可以有多种方法。可以根据获取的用户的信息中包含的级别、经验值、活跃度等对用户进行分组。也可以根据用户的消费额对用户进行分组,按照消费额从高到低对用户进行分组,例如,将消费额占前5%的用户分为资深用户组,将消费额占前5%至前20%的用户分为高级用户组,将其余用户分为普通用户组。
用户在使用或购买了某种产品后会有反馈信息,也就是评论或评价。例如,在淘宝网,用户在购买产品可以对购买的产品进行评价。这些评价中,既有正面评价的,例如“东西很好”、“棒”、“还行”、“质量不错”,也有负面评价,例如“不好”、“坏”、“太烂了”,也有中性评价,例如“凑合”“一般”。
不同用户组的用户对统一产品的关注点不同,从而对产品的评价好坏和评价用语也有很大的差异。例如,上述资深用户组的评价可能为“很时尚”、“款式好”、“新潮”,普通用户组的评价可能为“贵”、“不实惠”。将用户按照一定特征分组后,根据每组用户的评价中正面关键词在全部关键词中所占的比重,判断每一组用户对产品的评价,从而能够得知产品在每一组用户中的口碑好坏,从而可以针对特定组的用户对产品进行改进或者营销。
通过将用户分组,并分别计算每一组用户的评价中每类表示情绪的关键词占所有表示情绪的关键词的比重,通过计算出的比重,确定每一组用户的情感倾向是正面的,还是负面的,实现了分析不同类别的用户的反馈信息的技术效果,进而解决了现有技术中不能分析用户的反馈信息的差异性的技术问题。
可选地,每组用户的信息中均包括S类关键词,计算单元30主要包括第一计算子单元、第二计算子单元和第三计算子单元,其中,第一计算子单元用于计算Li组用户的信息中关键词类Zij的数值,其中,j依次取1至S,S为正整数;第二计算子单元用于计算关键词类Zi1的数值至关键词类ZiS的数值之和,得到Li组用户的信息中全部关键词的数值;第三计算子单元用于计算关键词类Zij的数值与Li组用户的信息中全部关键词的数值的比值,得到关键词类Zij占Li组用户的信息中全部关键词的比重。
每一组用户的评论中都包含S类关键词,以S=3为例进行说明,即用户的评论中有表达正面、积极的情感的一类关键词,表达负面、消极的情感的一类关键词,表达既不积极,也不消极的中性的情感的一类关键词,那么关键词类Zi1即为Li组用户表达正面、积极的情感的一类关键词,关键词类Zi2即为Li组用户表达负面、消极的情感的一类关键词,关键词类Zi3即为Li组用户表达既不积极,也不消极的中性的情感的一类关键词。计算出关键词类Zi1的数值、关键词类Zi2的数值、关键词类Zi3的数值,将关键词类Zi1的数值、关键词类Zi2的数值、关键词类Zi3的数值这三者相加得到Li组用户的信息中全部关键词的数值,将关键词类Zi1的数值与Li组用户的信息中全部关键词的数值相除,得到Li组用户表示正面情感的关键词在表示情感的全部关键词中的比重。需要注意的是,S=3仅仅为S的一种取值。对于S取其他值的情况,计算关键词类Zij与Li组用户的信息中全部关键词的数值的比值的方法以此类推,不再赘述。
可选地,第一计算子单元包括查找模块、查询模块和计算模块,其中,查找模块用于查找关键词类Zij中每个关键词在Li组用户的信息中出现的次数;查询模块用于在预设数据库中查询关键词类Zij中每个关键词的权重;计算模块用于根据关键词类Zij中每个关键词的次数和关键词类Zij中每个关键词的权重,计算Li组用户的信息中关键词类Zij的数值。
可选地,计算模块包括计算子模块,该计算子模块用于按照公式
Figure BDA0000843563940000111
计算Li组用户的信息中关键词类Zij的数值N(Zij),其中,nij表示Li组用户的信息中关键词类Zij中的关键词个数,tij(k)表示关键词类Zij中第k个关键词出现的次数,wij(k)表示关键词类Zij中第k个关键词的权重。
每个关键词类Zij包括若干个关键词,这些关键词的权重不同,通过预先设置的数据库可以查询出这些关键词的权重。同样是正面评价,“特别好”和“不错”所传达的情感的强烈程度是不同的,评论“不错”的用户对产品或服务是基本满意的,而评论“特别好”的用户对产品或服务是非常满意的。同样是负面评价,“不太好”和“太差了”所传达的情感的强烈程度也是不同,评论“不太好”的用户对产品或服务不满意,评论“太差了”的用户对产品或服务非常不满意。基于表示情感的关键词所传达的情感的强烈程度,预先对这些表示情感的关键词设置了权重。关键词的权重与关键词所传达的感情的强烈程度呈正相关。
例如,用户组为一组的用户中,一共有21条评论,分别为“很好”、“产品很好”、“质量不好”、“东西特别好”、“还凑合吧”、“什么烂玩意”、“差”、“对这次购物特别满意”、“好”、“挺实惠的”、“质量一般”、“促销的时候买的,挺划算的”、“快递给力”、“快递挺快的”、“好”、“质量一般”、“凑合”、“东西很好”、“产品特别好”、“特别满意”、“快递给力”,提取出这些评论中表示情感/情绪的关键词,有“很好”、“不好”、“特别好”、“凑合”、“烂”、“差”、“特别满意”、“好”、“实惠”、“一般”、“划算”、“给力”、“挺快”。
提取出评论中表示正面情感的关键词,有“很好”、“特别好”、“特别满意”、“好”、“实惠”、“划算”、“给力”、“挺快”。其中,“很好”出现了3次,“特别好”出现了2次,“好”出现了2次,“特别满意”出现了2次,“给力”出现了2次,其余关键词各出现1次。
提取出评论中表示负面情感的关键词,有“不好”、“烂”、“差”。其中,“不好”、“烂”、“差”均出现了1次。
提取出评论中表示中性情感的关键词,有“凑合”、“一般”。其中,“凑合”、“一般”各出现了2次。
上表1是表示正面情感的关键词的与其权重的对应关系,上表2是表示负面情感的关键词的与其权重的对应关系,上表3是表示中性情感的关键词的与其权重的对应关系,由于篇幅关系,表1、表2和表3均只列出一部分关键词与其权重的对应关系。
将表示正面情感的8个关键词“很好”、“特别好”、“特别满意”、“好”、“实惠”、“划算”、“给力”、“挺快”每个关键词出现的次数与该关键词的权重相乘,将求得的结果相加,就得到了表示正面情感的关键词类的数值,为67。
将表示负面情感的3个关键词“不好”、“烂”、“差”每个词出现的次数与该关键词的权重相乘,将求得的结果相加,就得到了表示负面情感的关键词类的数值,为12。
将表示中性情感的2个关键词“凑合”、“一般”每个词出现的次数与该关键词的权重相乘,将求得的结果相加,就得到了表示中性情感的关键词类的数值,为8。
每个关键词的权重为预先设置,权重代表各个关键词所传达情感信息的强弱的相对值,故权重的取值可以为自然数,也可以为(0,1)之间的小数,等等,只需要所有关键词使用同一度量方法即可。
可选地,确定单元40主要包括设置子单元、比较子单元和确定子单元,其中,设置子单元用于为Li组用户设置第i阈值;比较子单元用于将Li组用户的信息中Zi1类关键词占Li组用户的信息中全部关键词的比重与第i阈值进行比较;确定子单元用于在Li组用户的信息中Zi1类关键词占Li组用户的信息中全部关键词的比重大于或等于第i阈值的情况下,确定Li组用户的情感倾向为积极,其中,i依次取1至m。
即,为每一个用户组设置一个阈值,计算每一组用户的第1类关键词的数值与该组所有关键词的比值,将每一组的比值与该组的阈值相比,如果比值大于或等于阈值,则确定该组用户的情感倾向为积极的。
例如,第一组用户的评论中,表示正面情感的关键词类的数值为67,表示负面情感的关键词类的数值为12,表示中性情感的关键词类的数值为8。表示情感的全部关键词的数值为87(即,67+12+8=87)。为第一组用户设置第1阈值为0.6,即当表示正面情感的关键词类的数值与表示情感的全部关键词的数值之比只要大于或等于0.6,即认为该产品或服务在第一组用户中得到了积极的评价。经过计算,得到表示正面情感的关键词类的数值与表示情感的全部关键词的数值之比为0.77,大于第1阈值0.6,因此,可以认为该产品或服务在第一组用户中得到了积极的评价。
所述信息分析装置包括处理器和存储器,上述获取单元10、分组单元20、计算单元30和确定单元40等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来分析不同类别的用户的反馈信息。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取多个用户的信息。将多个用户进行分组,得到m组用户,其中,m为大于1的自然数。计算Li组用户的信息中每类关键词占Li组用户的信息中全部关键词的比重,其中,i依次取1至m,Li组用户的信息中不同类关键词为表示Li组用户不同情绪的关键词。根据Li组用户的信息中每类关键词占Li组用户的信息中全部关键词的比重,确定Li组用户的情感倾向。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (6)

1.一种信息分析方法,其特征在于,包括:
获取多个用户的信息;
将所述多个用户进行分组,得到m组用户,其中,m为大于1的自然数;
计算Li组用户的信息中每类关键词占所述Li组用户的信息中全部关键词的比重,其中,i依次取1至m,所述Li组用户的信息中不同类关键词为表示所述Li组用户不同情绪的关键词;以及
根据所述Li组用户的信息中每类关键词占所述Li组用户的信息中全部关键词的比重,确定所述Li组用户的情感倾向;
其中,每组用户的信息中均包括S类关键词,计算Li组用户的信息中每类关键词占所述Li组用户的信息中全部关键词的比重包括:计算所述Li组用户的信息中关键词类Zij的数值,其中,j依次取1至S,S为正整数;计算关键词类Zi1的数值至关键词类ZiS的数值之和,得到所述Li组用户的信息中全部关键词的数值;以及计算所述关键词类Zij的数值与所述Li组用户的信息中全部关键词的数值的比值,得到所述关键词类Zij占所述Li组用户的信息中全部关键词的比重;
其中,根据所述Li组用户的信息中每类关键词占所述Li组用户的信息中全部关键词的比重,确定所述Li组用户的情感倾向包括:
为所述Li组用户设置第i阈值;
将所述Li组用户的信息中Zi1类关键词占所述Li组用户的信息中全部关键词的比重与所述第i阈值进行比较;
在所述Li组用户的信息中Zi1类关键词占所述Li组用户的信息中全部关键词的比重大于或等于所述第i阈值的情况下,确定所述Li组用户的情感倾向为积极,其中,i依次取1至m。
2.根据权利要求1所述的方法,其特征在于,计算所述Li组用户的信息中关键词类Zij的数值包括:
查找所述关键词类Zij中每个关键词在所述Li组用户的信息中出现的次数;
在预设数据库中查询所述关键词类Zij中每个关键词的权重;以及
根据所述关键词类Zij中每个关键词的次数和所述关键词类Zij中每个关键词的权重,计算所述Li组用户的信息中关键词类Zij的数值。
3.根据权利要求2所述的方法,其特征在于,根据所述关键词类Zij中每个关键词的次数和所述关键词类Zij中每个关键词的权重,计算所述Li组用户的信息中关键词类Zij的数值包括:
根据
Figure FDA0002653062650000021
计算所述Li组用户的信息中所述关键词类Zij的数值N(Zij),
其中,nij表示所述Li组用户的信息中所述关键词类Zij中的关键词个数,tij(k)表示所述关键词类Zij中第k个关键词出现的次数,wij(k)表示所述关键词类Zij中所述第k个关键词的权重。
4.一种信息分析装置,其特征在于,包括:
获取单元,用于获取多个用户的信息;
分组单元,用于将所述多个用户进行分组,得到m组用户,其中,m为大于1的自然数;
计算单元,用于计算Li组用户的信息中每类关键词占所述Li组用户的信息中全部关键词的比重,其中,i依次取1至m,所述Li组用户的信息中不同类关键词为表示所述Li组用户不同情绪的关键词;以及
确定单元,用于根据所述Li组用户的信息中每类关键词占所述Li组用户的信息中全部关键词的比重,确定所述Li组用户的情感倾向;
其中,每组用户的信息中均包括S类关键词,所述计算单元包括:第一计算子单元,用于计算所述Li组用户的信息中关键词类Zij的数值,其中,j依次取1至S,S为正整数;第二计算子单元,用于计算关键词类Zi1的数值至关键词类ZiS的数值之和,得到所述Li组用户的信息中全部关键词的数值;以及第三计算子单元,用于计算所述关键词类Zij的数值与所述Li组用户的信息中全部关键词的数值的比值,得到所述关键词类Zij占所述Li组用户的信息中全部关键词的比重;
其中,所述确定单元包括:
设置子单元,用于为所述Li组用户设置第i阈值;
比较子单元,用于将所述Li组用户的信息中Zi1类关键词占所述Li组用户的信息中全部关键词的比重与所述第i阈值进行比较;
确定子单元,用于在所述Li组用户的信息中Zi1类关键词占所述Li组用户的信息中全部关键词的比重大于或等于所述第i阈值的情况下,确定所述Li组用户的情感倾向为积极,其中,i依次取1至m。
5.根据权利要求4所述的装置,其特征在于,所述第一计算子单元包括:
查找模块,用于查找所述关键词类Zij中每个关键词在所述Li组用户的信息中出现的次数;
查询模块,用于在预设数据库中查询所述关键词类Zij中每个关键词的权重;以及
计算模块,用于根据所述关键词类Zij中每个关键词的次数和所述关键词类Zij中每个关键词的权重,计算所述Li组用户的信息中关键词类Zij的数值。
6.根据权利要求5所述的装置,其特征在于,所述计算模块包括:
计算子模块,用于根据
Figure FDA0002653062650000031
计算所述Li组用户的信息中所述关键词类Zij的数值N(Zij),
其中,nij表示所述Li组用户的信息中所述关键词类Zij中的关键词个数,tij(k)表示所述关键词类Zij中第k个关键词出现的次数,wij(k)表示所述关键词类Zij中所述第k个关键词的权重。
CN201510765484.3A 2015-11-10 2015-11-10 信息分析方法和装置 Active CN106682929B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510765484.3A CN106682929B (zh) 2015-11-10 2015-11-10 信息分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510765484.3A CN106682929B (zh) 2015-11-10 2015-11-10 信息分析方法和装置

Publications (2)

Publication Number Publication Date
CN106682929A CN106682929A (zh) 2017-05-17
CN106682929B true CN106682929B (zh) 2021-01-22

Family

ID=58865326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510765484.3A Active CN106682929B (zh) 2015-11-10 2015-11-10 信息分析方法和装置

Country Status (1)

Country Link
CN (1) CN106682929B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107835231B (zh) * 2017-10-19 2020-01-03 平安科技(深圳)有限公司 反馈信息的处理方法及终端设备
CN110245236B (zh) * 2019-06-25 2021-07-20 北京向上一心科技有限公司 信息呈现方法、装置和电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102385579A (zh) * 2010-08-30 2012-03-21 腾讯科技(深圳)有限公司 互联网信息分类方法和系统
CN102651025A (zh) * 2012-04-01 2012-08-29 百度在线网络技术(北京)有限公司 一种用于在网络社区中对发布信息进行定位的方法与设备
US20140067814A1 (en) * 2012-09-04 2014-03-06 salesforces.com, Inc. Computer implemented methods and apparatus for identifying a topic for a text
CN103810150A (zh) * 2012-11-09 2014-05-21 中国银联股份有限公司 关系可嵌套的问卷自动生成方法和装置
CN103886081A (zh) * 2014-03-26 2014-06-25 海信集团有限公司 一种信息发送方法及系统
CN104820739A (zh) * 2015-04-23 2015-08-05 浙江大学 基于persona研究消费者对于SUV外形设计偏好的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102385579A (zh) * 2010-08-30 2012-03-21 腾讯科技(深圳)有限公司 互联网信息分类方法和系统
CN102651025A (zh) * 2012-04-01 2012-08-29 百度在线网络技术(北京)有限公司 一种用于在网络社区中对发布信息进行定位的方法与设备
US20140067814A1 (en) * 2012-09-04 2014-03-06 salesforces.com, Inc. Computer implemented methods and apparatus for identifying a topic for a text
CN103810150A (zh) * 2012-11-09 2014-05-21 中国银联股份有限公司 关系可嵌套的问卷自动生成方法和装置
CN103886081A (zh) * 2014-03-26 2014-06-25 海信集团有限公司 一种信息发送方法及系统
CN104820739A (zh) * 2015-04-23 2015-08-05 浙江大学 基于persona研究消费者对于SUV外形设计偏好的方法

Also Published As

Publication number Publication date
CN106682929A (zh) 2017-05-17

Similar Documents

Publication Publication Date Title
CN106919611B (zh) 产品信息推送方法和装置
CN105183731B (zh) 推荐信息生成方法、装置及系统
WO2020048084A1 (zh) 资源推荐方法、装置、计算机设备及计算机可读存储介质
JP6109290B2 (ja) 分類された誤配置の識別
CN104102648B (zh) 基于用户行为数据的兴趣推荐方法及装置
Tewari Generating items recommendations by fusing content and user-item based collaborative filtering
CN109559208A (zh) 一种信息推荐方法、服务器及计算机可读介质
CN106997358A (zh) 信息推荐方法及装置
CN110473040B (zh) 一种产品推荐方法及装置,电子设备
CN109636494A (zh) 药品推荐方法及系统
CN103246980A (zh) 信息输出方法及服务器
CN109697454B (zh) 一种基于隐私保护的跨设备个体识别方法及装置
CN110674391B (zh) 基于大数据的产品数据推送方法、系统和计算机设备
CN110334356A (zh) 文章质量的确定方法、文章筛选方法、以及相应的装置
CN109919737B (zh) 一种生产销售商品的推荐方法及系统
CN110134783A (zh) 个性化推荐的方法、装置、设备和介质
CN106920119A (zh) 一种用户价值的评价方法及装置
CN110825977A (zh) 一种数据推荐方法及相关设备
CN106844402B (zh) 数据处理方法及装置
CN106682929B (zh) 信息分析方法和装置
CN114666670A (zh) 数据监控方法、装置、设备及计算机可读介质
CN107133811A (zh) 一种目标用户的识别方法和装置
Gholamian et al. Improving electronic customers' profile in recommender systems using data mining techniques
KR101645554B1 (ko) 소비자 프로파일링을 통한 맞춤형 쇼핑정보 제공 시스템 및 방법
CN110968670B (zh) 一种流行商品的属性获取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant