CN106033586A

CN106033586A - 基于社交平台的分组方法和装置

Info

Publication number: CN106033586A
Application number: CN201510117161.3A
Authority: CN
Inventors: 陈俊宏; 余德乐; 杨韬; 赵冬玲
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2015-03-17
Filing date: 2015-03-17
Publication date: 2016-10-19
Anticipated expiration: 2035-03-17
Also published as: CN106033586B

Abstract

本发明公开了一种基于社交平台的分组方法和装置。其中，该基于社交平台的分组方法包括：爬取社交平台的用户资料数据和用户发布的言论数据；根据用户资料数据进行计算得到第一分值，并根据言论数据进行计算得到第二分值，其中，第二分值根据言论数据中的预设词汇的提及量、与预设词汇关联的需求词汇和与预设词汇关联的情绪词汇计算得到；将第一分值和第二分值之和作为用户的总分；根据转化漏斗模型将总分对应到转化漏斗模型的相应阶段；以及将用户对应的阶段作为用户所处的分组。通过本发明，解决了现有技术中无法对用户进行精准分组的问题，达到了提高对用户分组的准确性的效果。

Description

基于社交平台的分组方法和装置

技术领域

本发明涉及互联网领域，具体而言，涉及一种基于社交平台的分组方法和装置。

背景技术

企业对于用户在社交平台(例如微博)上的关注一直是营销的重要话题，通过分析用户在社交平台上与产品的关联能够精准的在社交媒体上挖掘潜在用户。由于每一个潜在用户可能处在购买产品之前的各种阶段(如需求了解、产生兴趣、需求确定、转化行为)，如果不能监控到每一个潜在用户所处的购买阶段，就不能针对不同的用户提供相应的服务以促进转化行为的发生。

现有技术大多是通过预设抓取微博人物信息中的性别地域兴趣标签等静态信息来为微博用户进行营销分组，例如：女性，年龄为25～30，在北京，标签为喜欢美食和母婴用品的人群就被认为是奶粉品牌进行营销的很好对象。但是，并不是每个这样的人群都需要买奶粉，只能说买奶粉的可能性较其他用户群体要大一些，但即使在这群人群中有买奶粉需求的人，也没法分辨出这些人处于奶粉购买的什么阶段，比如有的人就认定了A品牌的奶粉，关注了很久，就等打折的时候去购买，而有的人却仅仅是刚怀上小孩，正在关注各种奶粉以备后用，这两种人就分别处于需求确定和需求了解两个不同的阶段。也就是说，上述这种粗狂的分组方法并不能精准确定用户的需要，也无法确定用户处于哪个购物阶段，也就不能提供与购物阶段相对应的服务促进转化行为的发生。

针对现有技术中无法对用户进行精准分组的问题，目前尚未提出有效的解决方案。

发明内容

本发明的主要目的在于提供一种基于社交平台的分组方法和装置，以解决无法对用户进行精准分组的问题。

为了实现上述目的，根据本发明实施例的一个方面，提供了一种基于社交平台的分组方法。根据本发明的基于社交平台的分组方法包括：爬取社交平台的用户资料数据和用户发布的言论数据；根据所述用户资料数据进行计算得到第一分值，并根据所述言论数据进行计算得到第二分值；其中，所述第二分值根据所述言论数据中的预设词汇的提及量、与所述预设词汇关联的需求词汇和与所述预设词汇关联的情绪词汇计算得到；将所述第一分值和所述第二分值之和作为用户的总分；根据转化漏斗模型将所述总分对应到所述转化漏斗模型的相应阶段；以及将所述用户对应的阶段作为所述用户所处的分组。

进一步地，根据所述言论数据进行计算得到第二分值包括：根据所述预设词汇的提及量计算所述用户对所述预设词汇所指示的产品的关注度；根据所述需求词汇和所述需求词汇对应的第一权重计算所述用户对所述产品的需求度；根据所述情绪词汇和所述情绪词汇对应的第二权重计算所述用户对所述产品的好感度；以及根据所述关注度及对应的关注权重、所述需求度及对应的需求权重和所述好感度及对应的好感权重进行计算，得到所述第二分值。

进一步地，根据所述预设词汇的提及量计算所述用户对所述预设词汇所指示的产品的关注度包括：获取一段时间内所述言论数据中所述预设词汇的提及量；分析所述提及量的变化趋势；在预设变化趋势与关注度的对应关系中查找所述提及量的变化趋势所对应的关注度。

进一步地，根据所述需求词汇和所述需求词汇对应的第一权重计算所述用户对所述产品的需求度包括：提取所述言论数据中的需求词汇；从预设需求词汇与所述第一权重的对应表中查找各个提取的需求词汇所对应的第一权重P_i；根据各个所述提取的需求词汇的出现次数Q_i和查找的第一权重P_i计算所述需求度，其中，所述 n为所述需求词汇的个数。

进一步地，根据所述情绪词汇和所述情绪词汇对应的第二权重计算所述用户对所述产品的好感度包括：从所述言论数据中提取情绪词汇，其中，所述情绪词汇包括正面词汇和负面词汇；获取各个所述正面词汇所对应的第三权重和所述负面词汇所对应的第四权重；根据各个所述正面词汇的出现次数A_g及对应的第三权重X_g、所述负面词汇出现次数B_h及对应的第四权重Y_h计算所述好感度，其中，所述其中，l为所述正面词汇的个数，s为所述负面词汇的个数。

进一步地，根据所述用户资料数据进行计算得到第一分值包括：从所述用户资料数据中提取信息种类，其中，所述信息种类包括下述一个或多个：年龄、性别、学历、职业和兴趣；根据每个所述信息种类与产品的匹配结果R_j和所述信息种类的权重T_j进行计算，得到所述第一分值，其中，所述m为所述信息种类的个数。

为了实现上述目的，根据本发明实施例的另一方面，提供了一种基于社交平台的分组装置。根据本发明的基于社交平台的分组装置包括：爬取单元，用于爬取社交平台的用户资料数据和用户发布的言论数据；计算单元，用于根据所述用户资料数据进行计算得到第一分值，并根据所述言论数据进行计算得到第二分值，其中，所述第二分值根据所述言论数据中的预设词汇的提及量、与所述预设词汇关联的需求词汇和与所述预设词汇关联的情绪词汇计算得到；汇总单元，用于将所述第一分值和所述第二分值之和作为用户的总分；对应单元，用于根据转化漏斗模型将所述总分对应到所述转化漏斗模型的相应阶段；以及确定单元，用于将所述用户对应的阶段作为所述用户所处的分组。

进一步地，所述计算单元包括：第一计算模块，用于根据所述预设词汇的提及量计算所述用户对所述预设词汇所指示的产品的关注度；第二计算模块，用于根据所述需求词汇和所述需求词汇对应的第一权重计算所述用户对所述产品的需求度；第三计算模块，用于根据所述情绪词汇和所述情绪词汇对应的第二权重计算所述用户对所述产品的好感度；以及第四计算模块，用于根据所述关注度及对应的关注权重、所述需求度及对应的需求权重和所述好感度及对应的好感权重进行计算，得到所述第二分值。

进一步地，所述第一计算模块包括：第一获取子模块，用于获取一段时间内所述言论数据中所述预设词汇的提及量；分析子模块，用于分析所述提及量的变化趋势；第一查找子模块，用于在预设变化趋势与关注度的对应关系中查找所述提及量的变化趋势所对应的关注度。

进一步地，所述第二计算模块包括：第一提取子模块，用于提取所述言论数据中的需求词汇；第二查找子模块，用于从预设需求词汇与所述第一权重的对应表中查找各个提取的需求词汇所对应的第一权重P_i；第一计算子模块，用于根据各个所述提取的需求词汇的出现次数Q_i和查找的第一权重P_i计算所述需求度，其中，所述 n为所述需求词汇的个数。

进一步地，所述第三计算模块包括：第二提取子模块，用于从所述言论数据中提取情绪词汇，其中，所述情绪词汇包括正面词汇和负面词汇；第二获取子模块，用于获取各个所述正面词汇和所述负面词汇所对应权重；第二计算子模块，用于根据各个所述正面词汇的出现次数A_g及对应的第三权重X_g、所述负面词汇出现次数B_h及对应的第四权重Y_h计算所述好感度，其中，所述其中，l为所述正面词汇的个数，s为所述负面词汇的个数。

进一步地，所述计算单元包括：提取模块，用于从所述用户资料数据中提取信息种类，其中，所述信息种类包括下述一个或多个：年龄、性别、学历、职业和兴趣；第五计算模块，用于根据每个所述信息种类与产品的匹配结果R_j和所述信息种类的权重T_j进行计算，得到所述第一分值，其中，所述m为所述信息种类的个数。

根据发明实施例，爬取社交平台的用户资料数据和用户发布的言论数据；根据用户资料数据进行计算得到第一分值，并根据言论数据进行计算得到第二分值，其中，第二分值根据言论数据中的预设词汇的提及量、与预设词汇关联的需求词汇和与预设词汇关联的情绪词汇计算得到；将第一分值和第二分值之和作为用户的总分；根据转化漏斗模型将总分对应到转化漏斗模型的相应阶段；以及将用户对应的阶段作为用户所处的分组，结合用户的动态数据和静态数据来计算确定用户所处的转化漏斗模型的一个阶段，从而完成了对用户的分组，由于动态数据体现了用户对于某个产品的兴趣、态度和需求程度，因此，结合动态数据能够更准确的对用户进行分组，解决了现有技术中无法对用户进行精准分组的问题，达到了提高对用户分组的准确性的效果。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的基于社交平台的分组方法的流程图；

图2是根据本发明实施例的转化漏斗模型的示意图；以及

图3是根据本发明实施例的基于社交平台的分组装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

名词解释：

转化漏斗模型：即销售漏斗模型，通过直观的图形方式，指出公司的客户资源从潜在客户阶段，发展到意向客户阶段、谈判阶段和成交阶段的比例关系，或者说是转换率。

本发明实施例提供了一种基于社交平台的分组方法。可选地，该基于社交平台的分组方法是结合了社交平台中用户的动态言论数据和用户资料等静态数据进行分析，根据用户的动态言论数据分析出用户对某个品牌、某类产品的关注度、好感度和需求度等，并将三者的分值之和对应到转化漏斗模型中，从而确定当前用户处于转化漏斗模型的哪个阶段。由于该分组的过程是动态数据和静态数据相结合得到的，并且通过三个维度来确定用户对应的转化漏斗模型中的分组，因此提高了对用户分组的精确性。根据该分组结果，商家对处于不同阶段的用户提供不同的服务，以促进用户进行购买行为的转换。

图1是根据本发明实施例的基于社交平台的分组方法的流程图。如图1所示，该基于社交平台的分组方法包括步骤如下：

步骤S102，爬取社交平台的用户资料数据和用户发布的言论数据。社交平台包括微博、微信和朋友圈等，用户通过这些社交平台进行社交活动，社交平台中的言论涉及用户所感兴趣的产品，并且用户资料数据能够体现用户当前阶段的需求，结合用户资料数据和用户发布的言论的数据可以确定当前用户在当前阶段的产品需求。商家根据分析出的用户需求对用户提供相应的服务，以促进用户将需求转化为购买行为。通常，用户发布的言论数据包括用户发布的信息、转发的信息，与品牌官方账号的互动等，用户资料数据包括用户的性别、年龄、职业和兴趣爱好等。在爬取到用户资料数据和言论数据之后，用户发布的言论数据可以与用户资料数据中的用户ID相关联。

步骤S104，根据用户资料数据进行计算得到第一分值并根据言论数据进行计算得到第二分值。其中，第二分值根据言论数据中的预设词汇的提及量、与预设词汇关联的需求词汇和与预设词汇关联的情绪词汇计算得到。第一分值为用户的静态数据得分。第二分值为用户的动态数据得分，预设词汇可以是产品名称、品牌名称等。由于用户对哪些产品感兴趣并有意向购买这些产品会从用户的日常言论中体现，提及量为用户言论数据中提到预设品牌名称的次数，需求词汇为用户对预设品牌的产品所表现出的需求程度，情绪词汇为对预设品牌所表现出的好恶，因此，通过上述三个维度分析言论数据得到第二分值能够准确体现用户对产品的需求程度，并用来进一步分析用户具体处于转化漏斗模型的哪个阶段。

步骤S106，将第一分值和第二分值之和作为用户的总分。将动态数据和静态数据计算得到分值之和作为衡量用户处于转化漏斗模型的哪个阶段的依据，结合了用户通过动态的言论数据所表现出的对产品的真实想法，能够更准确的确定用户所处的阶段。

步骤S108，根据转化漏斗模型将总分对应到转化漏斗模型的相应阶段。如图2所示，转化漏斗模型即营销漏斗模型，从漏斗的入口至漏斗的出口依次为需求了解阶段、产生兴趣阶段、需求确定阶段、转化行为发生阶段。每个阶段都有对应的一段分值，将计算出的总分对应到转化漏斗模型的相应阶段，从而确定用户处于转化漏斗模型的哪个阶段。

步骤S110，将用户对应的阶段作为用户所处的分组。确定了用户对应的阶段也就确定了用户所处的分组。商家根据用户所处的分组制定相应的推广宣传计划，以促进用户发生转化行为。

通过上述实施例，结合用户的动态数据和静态数据来计算确定用户所处的转化漏斗模型的一个阶段，从而完成了对用户的分组，由于动态数据体现了用户对于某个产品的兴趣、态度和需求程度，因此，结合动态数据能够更准确的对用户进行分组，解决了现有技术中无法对用户进行精准分组的问题。另外，由于用户发布的言论数据处于公开状态，第三方商家可以方便的爬取这些数据，不会发生数据的遗漏，能够进一步保证分组的准确性。

优选地，根据言论数据进行计算，得到第二分值包括：根据预设词汇的提及量计算用户对预设词汇所指示的产品的关注度；根据需求词汇和需求词汇对应的第一权重计算用户对产品的需求度；根据情绪词汇和情绪词汇对应的第二权重计算用户对产品的好感度；以及根据关注度及对应的关注权重、需求度及对应的需求权重和好感度及对应的好感权重进行计算，得到第二分值。

提及量为用户提及预定词汇的次数，用户对预定词汇关注度较高，则在言论数据中提及的次数也较多，否则提及次数较少，因此根据预设词汇的提及量体现用户对产品的关注度；需求词汇可以是“想买”、“哪里买”等表现出用户对产品的需求程度的词汇，因此可以计算用户对产品的需求度。情绪词汇为“喜欢”、“质量好”、“服务差”等体现对某个产品的好恶的词汇。爬取到言论数据之后，对言论数据中的语句进行分词操作，将语句分解成多个词汇从而计算出关注度、需求度和好感度。关注度、需求度和好感度都有其对应的权重，结合其各自的权重能计算得到第二分值，即第二分值能够体现三个维度的综合衡量结果。

以下分别对关注度、需求度和好感度进行说明。

(1)根据预设词汇的提及量计算用户对预设词汇所指示的产品的关注度包括：

获取一段时间内言论数据中预设词汇的提及量；分析提及量的变化趋势；在预设变化趋势与关注度的对应关系中查找提及量的变化趋势所对应的关注度。

用户言论数据中出现预设词汇有偶然性也有规律性，规律性能够体现用户对预设词汇的真实感受，而偶然性会影响关注度计算的准确度，对预设词汇的单一提及次数无法准确体现用户对产品的关注度，因此分析一段时间内言论数据中预设词汇的提及量的变化趋势可以准确的确定用户对预设词汇所指示产品关注度。

以奶粉为例，用户对N奶粉的提及量呈上升趋势，从间隔一段时间提交到每天提交，提及N奶粉越来越频繁，从预设变化趋势与关注度的对应中查找该频率所对应的关注度为4，则得到用户对N奶粉的关注度为4。

(2)根据需求词汇和需求词汇对应的第一权重计算用户对产品的需求度包括：

提取言论数据中的需求词汇；从预设需求词汇与第一权重的对应表中查找各个提取的需求词汇所对应的第一权重P_i；根据各个提取的需求词汇出现的次数Q_i和查找的权重P_i计算需求度，其中，n为需求词汇的个数。

提取与产品相关的需求词汇，并与表1中的需求词汇相匹配，从而确定了需求词汇所对应的权重。需求度是根据言论中的所有需求词汇的出现的次数与相应的第一权重计算得到。如用户的发布言论数据中出现：哪家好？想买N奶粉等。参照表1可知，“想买”的权重为5，“哪家好”的权重为3，其中“想买”出现2次，“哪家好”出现1次，则需求度＝2*5+1*3＝13。

表1 需求词汇与第一权重的对应表

需求词汇	权重
		想买	5
哪里买	5

哪家好	3
		谁用过	1

(3)根据情绪词汇和情绪词汇对应的第二权重计算用户对产品的好感度包括：

从言论数据中提取情绪词汇，其中，情绪词汇包括正面词汇和负面词汇；获取各个正面词汇所对应的第三权重和负面词汇所对应的第四权重；根据正面词汇A_g及对应的第三权重X_g、负面词汇B_h及对应的第四权重Y_h计算好感度，其中，其中，l为正面词汇的个数，s为负面词汇的个数。

用户在衡量是否要购买产品时往往会考虑产品多个方面，而产品本身可能并不是多个方面都满足用户的要求，用户可能对产品的某些方面满意，某些方面不满意，只有综合考虑用户对产品的满意度才能准确确定用户对产品的好感度。情绪词汇中有表达用户喜爱的正面词汇，也有表达用户厌恶的负面词汇，正面词汇和负面词汇往往会评价同一产品的不同方面，结合正面词汇和负面词汇来进行计算能够立体全面的体现用户对产品的好感度。

提取言论数据中与产品相关的情绪词汇，同样以奶粉为例。在言论数据中提取到“N奶粉的质量好，但是包装不好，虽然服务态度好，但是发货太慢了”，其中，“质量好”“态度好”为正面词汇，“不好”“太慢了”为负面词汇，从预设词库表中查找这些词汇对应的权重依次为+5、+3、-5、-4。每个词汇均出现1次，则好感度＝1*5+1*3+1*(-5)+1*(-4)＝-1。

各个情绪词汇对应的权重可以预先设置好，也可以根据数据变化和/或应用需要等进行动态调整，本申请对此不做限定。

在计算关注度、好感度和需求度时所采用的词汇是与N奶粉相关的词汇，可以利用分词技术获得，计算得到关注度、好感度和需求度之后得到第二分值，即第二分值＝4*a+13*b-1*c，其中，a、b、c分别为关注度对应的权重、需求度对应的权重和好感度对应的权重。关注度对应的权重、需求度对应的权重和好感度对应的权重可以预先设置好，也可以根据数据变化和/或应用需要等进行动态调整，本申请对此不做限定。

静态数据的计算是根据用户的基本资料进行计算的，即根据用户资料数据进行计算，得到第一分值包括：从用户资料数据中提取信息种类，其中，信息种类包括年龄、性别、学历、职业和兴趣；根据每个信息种类与产品的匹配结果R_j和信息种类的权重T_j进行计算，得到第一分值，其中，m为信息种类的个数。各个信息种类的权重可以预先设置好，也可以根据数据变化和/或应用需要等进行动态调整，本申请对此不做限定。

第一分值是根据用户资料数据来判断该用户是否与产品匹配。当用户资料数据与产品匹配时匹配结果为1，不匹配时匹配结果为0。在判断用户资料数据是否与产品匹配时，采用用户资料数据中每项数据与产品进行匹配，并得到每项数据的匹配结果。同样以N奶粉为例，用户资料显示：女性，年龄为25～30，在北京，职业为白领，学历为学士，标签为喜欢美食和母婴用品，则初步确定该用户与N奶粉匹配。而如果用户资料显示：男性，年龄15-18，在北京，标签为旅游和汽车，那么该用户就不能被认为与奶粉匹配。具体地，N奶粉与女性和年龄均匹配，性别和年龄的权重分别为d和e，用户的学历、职业和兴趣也都与N奶粉匹配，权重依次为u、v和w，则第一分值＝1*d+1*e+1*u+1*v+1*w。

综合上述实施例，第一分值为1*d+1*e+1*u+1*v+1*w，第二分值为4*a+13*b-1*c，则总分为4*a+13*b-1*c+1*d+1*e+1*u+1*v+1*w，对照图2所示的转化漏斗模型及转化漏斗模型中每个阶段的阈值，即0～20对应需求了解阶段，21～40为产生兴趣阶段，41～60为需求确定阶段，61以上为转化行为发生阶段。在上述奶粉的例子中，用户的总分为58分，与转化漏斗模型匹配确定该用户处于需求确定阶段，即用户需要买奶粉。此时，N奶粉的商家向用户推荐N奶粉，或者提供优惠政策来促进用户转化行为的发生。

通过上述实施例，结合用户的动态数据和静态数据来计算确定用户所处的转化漏斗模型的一个阶段，从而完成了对用户的分组，由于动态数据体现了用户对于某个产品的兴趣、态度和需求程度，因此，通过提取言论数据中的相关词汇计算关注、需求度和好感度，并通过用户资料数据计算用户与产品的匹配度，将二者结合的计算结果映射到转化漏斗模型中，从而完成了对用户进行分组。由于分组时采用的数据能够反映用户对产品的真实态度，因此可以提高分组的准确性，从而解决了现有技术中无法精准对用户进行分组的问题，达到了对用户精准分组的效果。

本发明实施例还提供了一种基于社交平台的分组装置。该装置可以通过计算机实现其功能。需要说明的是，本发明实施例的基于社交平台的分组装置可以用于执行本发明实施例所提供的基于社交平台的分组方法，本发明实施例的基于社交平台的分组方法也可以通过本发明实施例所提供的基于社交平台的分组装置来执行。

图3是根据本发明实施例的基于社交平台的分组装置的示意图。如图3所示，该基于社交平台的分组装置包括：爬取单元10、计算单元30、汇总单元50、对应单元70和确定单元90。其中：

爬取单元10用于爬取社交平台的用户资料数据和用户发布的言论数据。社交平台包括微博、微信和朋友圈等，用户通过这些社交平台进行社交活动，社交平台中的言论涉及用户所感兴趣的产品，并且用户资料数据能够体现用户当前阶段的需求，结合用户资料数据和用户发布的言论的数据可以确定当前用户在当前阶段的产品需求。商家根据分析出的用户需求对用户提供相应的服务，以促进用户将需求转化为购买行为。通常，用户发布的言论数据包括用户发布的信息、转发的信息，与品牌官方账号的互动等，用户资料数据包括用户的性别、年龄、职业和兴趣爱好等。在爬取到用户资料数据和言论数据之后，用户发布的言论数据可以与用户资料数据中的用户ID相关联。

计算单元30用于根据用户资料数据进行计算得到第一分值，并且根据言论数据进行计算得到第二分值，其中，第二分值根据言论数据中的预设词汇的提及量、与预设词汇关联的需求词汇和与预设词汇关联的情绪词汇计算得到。第一分值为用户的静态数据得分。第二分值为用户的动态数据得分，预设词汇可以是产品名称、品牌名称等。由于用户对哪些产品感兴趣并有意向购买这些产品会从用户的日常言论中体现，提及量为用户言论数据中提到预设品牌名称的次数，需求词汇为用户对预设品牌的产品所表现出的需求程度，情绪词汇为对预设品牌所表现出的好恶，因此，通过上述三个维度分析言论数据得到第二分值能够准确体现用户对产品的需求程度，并用来进一步分析用户具体处于转化漏斗模型的哪个阶段。

汇总单元50用于将第一分值和第二分值之和作为用户的总分。将动态数据和静态数据计算得到分值之和作为衡量用户处于转化漏斗模型的哪个阶段的依据，结合了用户通过动态的言论数据所表现出的对产品的真实想法，能够更准确的确定用户所处的阶段。

对应单元70用于根据转化漏斗模型将总分对应到转化漏斗模型的相应阶段。

如图2所示，转化漏斗模型即营销漏斗模型，从漏斗的入口至漏斗的出口依次为需求了解阶段、产生兴趣阶段、需求确定阶段、转化行为发生阶段。每个阶段都有对应的一段分值，将计算出的总分对应到转化漏斗模型的相应阶段，从而确定用户处于转化漏斗模型的哪个阶段。

确定单元90用于将用户对应的阶段作为用户所处的分组。确定了用户对应的阶段也就确定了用户所处的分组。商家根据用户所处的分组制定相应的推广宣传计划，以促进用户发生转化行为。

优选地，计算单元30包括：第一计算模块，用于根据预设词汇的提及量计算用户对预设词汇所指示的产品的关注度；第二计算模块，用于根据需求词汇和需求词汇对应的第一权重计算用户对产品的需求度；第三计算模块，用于根据情绪词汇和情绪词汇对应的第二权重计算用户对产品的好感度；以及第四计算模块，用于根据关注度及对应的关注权重、需求度及对应的需求权重和好感度及对应的好感权重进行计算，得到第二分值。

提及量为用户提及预定词汇的次数，用户对预定词汇关注度较高，则在言论数据中提及的次数也较多，否则提及次数较少，因此根据预设词汇的提及量体现用户对产品的关注度；需求词汇可以是“想买”、“哪里买”等表现出用户对产品的需求程度的词汇，因此可以计算用户对产品的需求度。情绪词汇为“喜欢”、“质量好”、“服务差”等体现对某个产品的好恶的词汇。爬取到言论数据之后，对言论数据中的语句进行分词操作，将语句分解成多个词汇从而计算出关注度、需求度和好感度。关注度、需求度和好感度都有其对应的权重，结合其权重能计算得到第二分值，即第二分值能够体现三个维度的综合衡量结果。

以下分别对关注度、需求度和好感度进行说明。

1)根据预设词汇的提及量计算用户对预设词汇所指示的产品的关注度，即第一计算模块包括：第一获取子模块，用于获取一段时间内言论数据中预设词汇的提及量；分析子模块，用于分析提及量的变化趋势；第一查找子模块，用于在预设变化趋势与关注度的对应关系中查找提及量的变化趋势所对应的关注度。

(2)根据需求词汇和需求词汇对应的权重计算用户对产品的需求度，即第二计算模块包括：第一提取子模块，用于提取言论数据中的需求词汇；第二查找子模块，用于从预设需求词汇与第一权重的对应表中查找各个提取的需求词汇所对应的第一权重P_i；第一计算子模块，用于根据各个提取的需求词汇的出现次数Q_i和查找的第一权重P_i计算需求度，其中，n为需求词汇的个数。

提取言论数据中的需求词汇；从预设需求词汇与权重对应表中查找提取的需求词汇所对应的权重P_i；根据提取的需求词汇出现的次数Q_i和查找的权重P_i计算需求度，其中，n为需求词汇的个数。

提取与产品相关的需求词汇，并与表1中的需求词汇相匹配，从而确定了需求词汇所对应的权重。需求度是言论中的所有需求词汇的出现的次数与相应的权重计算得到。如用户的发布言论数据中出现：哪家好？想买N奶粉等。参照表1可知，“想买”的权重为5，“哪家好”的权重为3，其中“想买”出现2次，“哪家好”出现1次，则需求度＝2*5+1*3＝13。

(3)根据情绪词汇和情绪词汇对应的权重计算用户对产品的好感度，即第三计算模块包括：第二提取子模块，用于从言论数据中提取情绪词汇，其中，情绪词汇包括正面词汇和负面词汇；第二获取子模块，用于获取正面词汇所对应的第三权重和负面词汇所对应的第四权重；第二计算子模块，用于根据正面词汇的出现次数A_g及对应的第三权重X_g、负面词汇出现次数B_h及对应的第四权重Y_h计算好感度，其中，其中，l为正面词汇的个数，s为负面词汇的个数。

在计算关注度、好感度和需求度时所采用的词汇是与N奶粉相关的词汇，可以利用分词技术获得，计算得到关注度、好感度和需求度之后得到第二分值，即第二分值＝4*a+13*b-1*c，其中，a、b、c分别为关注度、需求度和好感度的权重。

静态数据的计算是根据用户的基本资料进行计算的，即第一计算单元包括：提取模块，用于从用户资料数据中提取信息种类，其中，信息种类下述一个或多个：年龄、性别、学历、职业和兴趣；第五计算模块，用于根据每个信息种类与产品的匹配结果R_j和信息种类的权重T_j进行计算，得到第一分值，其中，m为信息种类的个数。

第一分值是根据用户资料数据来判断该用户是否与产品匹配。当用户资料数据与产品匹配时匹配结果为1，不匹配时匹配结果为0。在判断用户资料数据是否与产品匹配时，采用用户资料数据中每项数据与产品进行匹配，并得到每项数据的匹配结果。同样以N奶粉为例，用户资料显示：女性，年龄为25～30，在北京，职业为白领，学历为学士，标签为喜欢美食和母婴用品，则初步确定该用户与N奶粉匹配。而如果用户资料显示：男性，年龄15-18，在北京，标签为旅游和汽车，那么该用户就不能被认为与奶粉匹配。具体地，N奶粉与女性和年龄均匹配，性别和年龄的权重分别为d和e，用户的学历、职业和兴趣也都与N奶粉匹配，权重依次为u、v和w，则第一分值＝1*d+1*e+1*u+1*v+1*w

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、移动终端、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于社交平台的分组方法，其特征在于，包括：

爬取社交平台的用户资料数据和用户发布的言论数据；

根据所述用户资料数据进行计算得到第一分值，并根据所述言论数据进行计算得到第二分值；其中，所述第二分值根据所述言论数据中的预设词汇的提及量、与所述预设词汇关联的需求词汇和与所述预设词汇关联的情绪词汇计算得到；

将所述第一分值和所述第二分值之和作为用户的总分；

根据转化漏斗模型将所述总分对应到所述转化漏斗模型的相应阶段；以及

将所述用户对应的阶段作为所述用户所处的分组。

2.根据权利要求1所述的分组方法，其特征在于，根据所述言论数据进行计算得到第二分值包括：

根据所述预设词汇的提及量计算所述用户对所述预设词汇所指示的产品的关注度；

根据所述需求词汇和所述需求词汇对应的第一权重计算所述用户对所述产品的需求度；

根据所述情绪词汇和所述情绪词汇对应的第二权重计算所述用户对所述产品的好感度；以及

根据所述关注度及对应的关注权重、所述需求度及对应的需求权重和所述好感度及对应的好感权重进行计算，得到所述第二分值。

3.根据权利要求2所述的分组方法，其特征在于，根据所述预设词汇的提及量计算所述用户对所述预设词汇所指示的产品的关注度包括：

获取一段时间内所述言论数据中所述预设词汇的提及量；

分析所述提及量的变化趋势；

在预设变化趋势与关注度的对应关系中查找所述提及量的变化趋势所对应的关注度。

4.根据权利要求2所述的分组方法，其特征在于，根据所述需求词汇和所述需求词汇对应的第一权重计算所述用户对所述产品的需求度包括：

提取所述言论数据中的需求词汇；

从预设需求词汇与第一权重的对应表中查找各个提取的需求词汇所对应的第一权重P_i；

根据各个所述提取的需求词汇的出现次数Q_i和查找的第一权重P_i计算所述需求度，其中，所述n为所述需求词汇的个数。

5.根据权利要求2所述的分组方法，其特征在于，根据所述情绪词汇和所述情绪词汇对应的第二权重计算所述用户对所述产品的好感度包括：

从所述言论数据中提取情绪词汇，其中，所述情绪词汇包括正面词汇和负面词汇；

获取各个所述正面词汇所对应的第三权重和所述负面词汇所对应的第四权重；

根据各个所述正面词汇的出现次数A_g及对应的第三权重X_g、所述负面词汇出现次数B_h及对应的第四权重Y_h计算所述好感度，其中，所述其中，l为所述正面词汇的个数，s为所述负面词汇的个数。

6.根据权利要求1所述的分组方法，其特征在于，根据所述用户资料数据进行计算得到第一分值包括：

从所述用户资料数据中提取信息种类，其中，所述信息种类包括下述一个或多个：年龄、性别、学历、职业和兴趣；

根据每个所述信息种类与产品的匹配结果R_j和所述信息种类的权重T_j进行计算，得到所述第一分值，其中，所述m为所述信息种类的个数。

7.一种基于社交平台的分组装置，其特征在于，包括：

爬取单元，用于爬取社交平台的用户资料数据和用户发布的言论数据；

计算单元，用于根据所述用户资料数据进行计算得到第一分值，并根据所述言论数据进行计算得到第二分值，其中，所述第二分值根据所述言论数据中的预设词汇的提及量、与所述预设词汇关联的需求词汇和与所述预设词汇关联的情绪词汇计算得到；

汇总单元，用于将所述第一分值和所述第二分值之和作为用户的总分；

对应单元，用于根据转化漏斗模型将所述总分对应到所述转化漏斗模型的相应阶段；以及

确定单元，用于将所述用户对应的阶段作为所述用户所处的分组。

8.根据权利要求7所述的分组装置，其特征在于，所述计算单元包括：

第一计算模块，用于根据所述预设词汇的提及量计算所述用户对所述预设词汇所指示的产品的关注度；

第二计算模块，用于根据所述需求词汇和所述需求词汇对应的第一权重计算所述用户对所述产品的需求度；

第三计算模块，用于根据所述情绪词汇和所述情绪词汇对应的第二权重计算所述用户对所述产品的好感度；以及

第四计算模块，用于根据所述关注度及对应的关注权重、所述需求度及对应的需求权重和所述好感度及对应的好感权重进行计算，得到所述第二分值。

9.根据权利要求8所述的分组装置，其特征在于，所述第一计算模块包括：

第一获取子模块，用于获取一段时间内所述言论数据中所述预设词汇的提及量；

分析子模块，用于分析所述提及量的变化趋势；

第一查找子模块，用于在预设变化趋势与关注度的对应关系中查找所述提及量的变化趋势所对应的关注度。

10.根据权利要求8所述的分组装置，其特征在于，所述第二计算模块包括：

第一提取子模块，用于提取所述言论数据中的需求词汇；

第二查找子模块，用于从预设需求词汇与第一权重的对应表中查找各个提取的需求词汇所对应的第一权重P_i；

第一计算子模块，用于根据各个所述提取的需求词汇的出现次数Q_i和查找的第一权重P_i计算所述需求度，其中，所述n为所述需求词汇的个数。

11.根据权利要求8所述的分组装置，其特征在于，所述第三计算模块包括：

第二提取子模块，用于从所述言论数据中提取情绪词汇，其中，所述情绪词汇包括正面词汇和负面词汇；

第二获取子模块，用于获取各个所述正面词汇和所述负面词汇所对应权重；

第二计算子模块，用于根据各个所述正面词汇的出现次数A_g及对应的第三权重X_g、所述负面词汇出现次数B_h及对应的第四权重Y_h计算所述好感度，其中，所述其中，l为所述正面词汇的个数，s为所述负面词汇的个数。

12.根据权利要求7所述的分组装置，其特征在于，所述计算单元包括：

提取模块，用于从所述用户资料数据中提取信息种类，其中，所述信息种类包括下述一个或多个：年龄、性别、学历、职业和兴趣；

第五计算模块，用于根据每个所述信息种类与产品的匹配结果R_j和所述信息种类的权重T_j进行计算，得到所述第一分值，其中，所述m为所述信息种类的个数。