CN106339948A - 一种基于社交网络的关联用户的挖掘方法及装置 - Google Patents
一种基于社交网络的关联用户的挖掘方法及装置 Download PDFInfo
- Publication number
- CN106339948A CN106339948A CN201610736539.2A CN201610736539A CN106339948A CN 106339948 A CN106339948 A CN 106339948A CN 201610736539 A CN201610736539 A CN 201610736539A CN 106339948 A CN106339948 A CN 106339948A
- Authority
- CN
- China
- Prior art keywords
- user
- association
- intimate
- subject
- vermicelli
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Abstract
本发明实施例提供一种基于社交网络的关联用户的挖掘方法及装置,所述方法包括:根据用户的正向亲密度信息和一级能力标签信息,构建能力用户的亲密度基础数据;基于能力用户的亲密度基础数据,得到主体用户与关联用户的对应关系数据;根据主体用户与关联用户的对应关系数据,选取具有至少一个相同的能力标签的主体用户及其关联用户;基于选取出的主体用户及其关联用户,确定主体用户与该主体用户的每一个关联用户共同的亲密粉丝用户数量,再结合主体用户的亲密粉丝用户数量,确定主体用户的各关联用户的权重值,基于权重值挖掘出主体用户的有效关联用户。本技术方案能有效地进行全方位的关联关系的覆盖,而且降低了计算量,提高了挖掘效率。
Description
技术领域
本发明涉及互联网数据挖掘技术领域,尤其涉及一种基于社交网络的关联用户的挖掘方法及装置。
背景技术
在微博等社交网络中,存在着在某些维度上具备相同属性的用户,比如同为互联网领域专家、同为港台明星、同为某一团体成员等,本发明实施例中将该类用户称为关联用户。在推荐场景中,当粉丝关注了用户A之后,可以向粉丝推荐用户A的关联用户。当前社交网络中关联用户的挖掘都是基于用户自然属性进行挖掘,当用户的属性覆盖到某一维度时,才能发现该维度下的关联用户。比如只有挖掘出用户的地域属性后,才能发现地域维度上的关联用户。
现有技术存在如下的技术缺点:1.关联用户的覆盖率不足,同时不能及时发现最新的关联用户关系;2.挖掘代价高,计算量大。
发明内容
本发明实施例提供一种基于社交网络的关联用户的挖掘方法及装置,以便能有效地进行全方位的关联关系的覆盖。
一方面,本发明实施例提供了一种基于社交网络的关联用户的挖掘方法,所述方法包括:
根据用户的正向亲密度信息和一级能力标签信息,构建能力用户的亲密度基础数据,所述能力用户是指一级能力标签信息中能力权重大于设定的第一权重阈值的博主用户,所述能力用户的亲密度基础数据包括能力用户的亲密粉丝用户数量、亲密粉丝用户标识以及对应的正向亲密度权重,所述亲密粉丝用户是指正向亲密度信息中正向亲密度权重大于设定的第二权重阈值的粉丝用户;
基于能力用户的亲密度基础数据,针对每一个能力用户,将当前能力用户作为主体用户,与当前能力用户之间具有相同亲密粉丝用户的数量大于设定的第三数量阈值的其他能力用户作为该主体用户的关联用户,得到主体用户与关联用户的对应关系数据;
根据主体用户与关联用户的对应关系数据,选取具有至少一个相同的能力标签的主体用户及其关联用户;
基于选取出的主体用户及其关联用户,确定主体用户与该主体用户的每一个关联用户共同的亲密粉丝用户数量,再结合主体用户的亲密粉丝用户数量,确定主体用户的各关联用户的权重值,基于权重值挖掘出主体用户的有效关联用户。
另一方面,本发明实施例提供了一种基于社交网络的关联用户的挖掘装置,所述装置包括:
亲密度基础数据构建单元,用于根据用户的正向亲密度信息和一级能力标签信息,构建能力用户的亲密度基础数据,所述能力用户是指一级能力标签信息中能力权重大于设定的第一权重阈值的博主用户,所述能力用户的亲密度基础数据包括能力用户的亲密粉丝用户数量、亲密粉丝用户标识以及对应的正向亲密度权重,所述亲密粉丝用户是指正向亲密度信息中正向亲密度权重大于设定的第二权重阈值的粉丝用户;
关联用户基础数据获取单元,用于基于能力用户的亲密度基础数据,针对每一个能力用户,将当前能力用户作为主体用户,与当前能力用户之间具有相同亲密粉丝用户的数量大于设定的第三数量阈值的其他能力用户作为该主体用户的关联用户,得到主体用户与关联用户的对应关系数据;
关联用户选取单元,用于根据主体用户与关联用户的对应关系数据,选取具有至少一个相同的能力标签的主体用户及其关联用户;
有效关联用户挖掘单元,用于基于选取出的主体用户及其关联用户,确定主体用户与该主体用户的每一个关联用户共同的亲密粉丝用户数量,再结合主体用户的亲密粉丝用户数量,确定主体用户的各关联用户的权重值,基于权重值挖掘出主体用户的有效关联用户。
上述技术方案具有如下有益效果:与传统方法相比,在微博等社交网络中,对用户的正向亲密度高的粉丝(即用户的铁杆粉丝)的关注关系能够从多个维度体现出用户之间的关联关系,相比于之前挖掘完一个用户属性,才能发现该属性下的关联关系,本技术方案能有效地进行全方位的关联关系的覆盖,而且通过粉丝的亲密关系的变化,能够及时有效地发现新的关联关系,同时降低了计算量,提高了挖掘效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种基于社交网络的关联用户的挖掘方法流程示意图;
图2为本发明实施例一种基于社交网络的关联用户的挖掘装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明实施例一种基于社交网络的关联用户的挖掘方法流程示意图,所述方法包括:
101、根据用户的正向亲密度信息和一级能力标签信息,构建能力用户的亲密度基础数据,所述能力用户是指一级能力标签信息中能力权重大于设定的第一权重阈值的博主用户,所述能力用户的亲密度基础数据包括能力用户的亲密粉丝用户数量、亲密粉丝用户标识以及对应的正向亲密度权重,所述亲密粉丝用户是指正向亲密度信息中正向亲密度权重大于设定的第二权重阈值的粉丝用户;
102、基于能力用户的亲密度基础数据,针对每一个能力用户,将当前能力用户作为主体用户,与当前能力用户之间具有相同亲密粉丝用户的数量大于设定的第三数量阈值的其他能力用户作为该主体用户的关联用户,得到主体用户与关联用户的对应关系数据;
103、根据主体用户与关联用户的对应关系数据,选取具有至少一个相同的能力标签的主体用户及其关联用户;
104、基于选取出的主体用户及其关联用户,确定主体用户与该主体用户的每一个关联用户共同的亲密粉丝用户数量,再结合主体用户的亲密粉丝用户数量,确定主体用户的各关联用户的权重值,基于权重值挖掘出主体用户的有效关联用户。
优选地,针对能力用户的亲密粉丝用户数量设置至少一级数量阈值,并为各级数量阈值对应设置权重阈值,其中,各级数量阈值以及各级权重阈值依次增大,最低级权重阈值大于所述第二权重阈值;以及根据用户的正向亲密度(正向亲密度描述用户在社交网络中对他所关注的人的亲密程度,反之,反向亲密度描述用户在社交网络中对他的粉丝的亲密程度)信息和一级能力标签信息,构建能力用户的亲密度基础数据之后,还包括:判断能力用户的亲密粉丝用户数量是否小于等于最低级数量阈值;如果是,保持所述能力用户的亲密度基础数据不变;如果否,确定所述能力用户的亲密粉丝用户数量所对应的数量阈值等级、以及权重阈值等级,并根据确定出的权重阈值等级更新所述能力用户的亲密度基础数据。
优选地,所述确定所述能力用户的亲密粉丝用户数量所对应的数量阈值等级、以及权重阈值等级,具体包括:如果所述能力用户的亲密粉丝用户数量大于设定的第N级数量阈值且小于等于设定的第N+1级数量阈值,则确定所述能力用户的亲密粉丝用户数量所对应的数量阈值等级、以及权重阈值等级为N;以及所述根据确定出的权重阈值等级更新所述能力用户的亲密度基础数据,具体包括:根据确定出的第N级权重阈值更新所述能力用户的亲密度基础数据,更新后的亲密粉丝用户是指正向亲密度信息中正向亲密度权重大于设定的第N级权重阈值的粉丝用户。
优选地,所述选取具有至少一个相同的能力标签的主体用户及其关联用户,具体包括:如果主体用户及其关联用户的能力标签数量均为1并且相同,或者在有多个能力标签的情况下主体用户及其关联用户的能力标签存在包含关系,则选取当前的主体用户及其关联用户为具有至少一个相同的能力标签的主体用户及其关联用户。
优选地,所述基于选取出的主体用户及其关联用户,确定主体用户与该主体用户的每一个关联用户共同的亲密粉丝用户数量,再结合主体用户的亲密粉丝用户数量,确定主体用户的各关联用户的权重值,基于权重值挖掘出主体用户的有效关联用户,包括:基于选取出的主体用户及其关联用户,确定主体用户与该主体用户的每一个关联用户共同的亲密粉丝用户数量,按照共同的亲密粉丝用户数量对各关联用户进行降序排序,针对任一关联用户,通过与主体用户共同的亲密粉丝用户数量与主体用户的亲密粉丝用户数量计算主体用户的当前关联用户的权重值,计算公式如下:
weight=round(interact_count/valid_fans_count*100,2),
其中,interact_count是当前关联用户与主体用户共同的亲密粉丝用户数量,valid_fans_count是主体用户的亲密粉丝用户数量;round()是按照四舍五入的原则保留小数点后两位有效数据的函数;
利用逻辑回归算法中的sigmoid函数对主体用户的各关联用户的权重值进行归一化处理,所述sigmoid函数的计算公式如下:
基于归一化处理后的权重值,利用预设的关联用户输出约束条件得到主体用户的有效关联用户。
对应于上述方法实施例,如图2所示,为本发明实施例一种基于社交网络的关联用户的挖掘装置结构示意图,所述装置包括:
亲密度基础数据构建单元21,用于根据用户的正向亲密度信息和一级能力标签信息,构建能力用户的亲密度基础数据,所述能力用户是指一级能力标签信息中能力权重大于设定的第一权重阈值的博主用户,所述能力用户的亲密度基础数据包括能力用户的亲密粉丝用户数量、亲密粉丝用户标识以及对应的正向亲密度权重,所述亲密粉丝用户是指正向亲密度信息中正向亲密度权重大于设定的第二权重阈值的粉丝用户;
关联用户基础数据获取单元22,用于基于能力用户的亲密度基础数据,针对每一个能力用户,将当前能力用户作为主体用户,与当前能力用户之间具有相同亲密粉丝用户的数量大于设定的第三数量阈值的其他能力用户作为该主体用户的关联用户,得到主体用户与关联用户的对应关系数据;
关联用户选取单元23,用于根据主体用户与关联用户的对应关系数据,选取具有至少一个相同的能力标签的主体用户及其关联用户;
有效关联用户挖掘单元24,用于基于选取出的主体用户及其关联用户,确定主体用户与该主体用户的每一个关联用户共同的亲密粉丝用户数量,再结合主体用户的亲密粉丝用户数量,确定主体用户的各关联用户的权重值,基于权重值挖掘出主体用户的有效关联用户。
优选地,所述装置还包括:设置单元25,用于针对能力用户的亲密粉丝用户数量设置至少一级数量阈值,并为各级数量阈值对应设置权重阈值,其中,各级数量阈值以及各级权重阈值依次增大,最低级权重阈值大于所述第二权重阈值;亲密度基础数据更新单元20,用于在所述亲密度基础数据构建单元根据用户的正向亲密度信息和一级能力标签信息,构建能力用户的亲密度基础数据之后,判断能力用户的亲密粉丝用户数量是否小于等于最低级数量阈值;如果是,保持所述能力用户的亲密度基础数据不变;如果否,确定所述能力用户的亲密粉丝用户数量所对应的数量阈值等级、以及权重阈值等级,并根据确定出的权重阈值等级更新所述能力用户的亲密度基础数据。
优选地,所述亲密度基础数据更新单元20,具体用于如果所述能力用户的亲密粉丝用户数量大于设定的第N级数量阈值且小于等于设定的第N+1级数量阈值,则确定所述能力用户的亲密粉丝用户数量所对应的数量阈值等级、以及权重阈值等级为N;以及根据确定出的第N级权重阈值更新所述能力用户的亲密度基础数据,更新后的亲密粉丝用户是指正向亲密度信息中正向亲密度权重大于设定的第N级权重阈值的粉丝用户。
优选地,所述关联用户选取单元23,具体用于如果主体用户及其关联用户的能力标签数量均为1并且相同,或者在有多个能力标签的情况下主体用户及其关联用户的能力标签存在包含关系,则选取当前的主体用户及其关联用户为具有至少一个相同的能力标签的主体用户及其关联用户。
优选地,所述有效关联用户挖掘单元24,具体用于基于选取出的主体用户及其关联用户,确定主体用户与该主体用户的每一个关联用户共同的亲密粉丝用户数量,按照共同的亲密粉丝用户数量对各关联用户进行降序排序,针对任一关联用户,通过与主体用户共同的亲密粉丝用户数量与主体用户的亲密粉丝用户数量计算主体用户的当前关联用户的权重值,计算公式如下:
weight=round(interact_count/valid_fans_count*100,2),
其中,interact_count是当前关联用户与主体用户共同的亲密粉丝用户数量,valid_fans_count是主体用户的亲密粉丝用户数量;round()是按照四舍五入的原则保留小数点后两位有效数据的函数;
利用逻辑回归算法中的sigmoid函数对主体用户的各关联用户的权重值进行归一化处理,所述sigmoid函数的计算公式如下:
基于归一化处理后的权重值,利用预设的关联用户输出约束条件得到主体用户的有效关联用户。
本发明实施例上述技术方案具有如下有益效果:与传统方法相比,在微博等社交网络中,对用户的正向亲密度高的粉丝(即用户的铁杆粉丝)的关注关系能够从多个维度体现出用户之间的关联关系,相比于之前挖掘完一个用户属性,才能发现该属性下的关联关系,本技术方案能有效地进行全方位的关联关系的覆盖,而且通过粉丝的亲密关系的变化,能够及时有效地发现新的关联关系,同时降低了计算量,提高了挖掘效率。
以下结合微博等社交网络应用实例,对本发明实施例上述技术方案进行详细说明:
1.对用户的能力标签(描述用户在社交网络中通过自填信息、发表的博文等信息所呈现出的能力特征的标签)、用户的亲密度信息(描述用户在社交网络中互动的亲密程度)等相关数据信息进行深入分析的基础之上,确定了从下述两个维度来挖掘关联用户:一是计算博主用户的正向亲密度,确定符合条件的粉丝用户,形成了用户的亲密度基础数据;二是计算用户近期的一级能力标签,确定能力权重大于某一阈值的用户作为基础研究用户。最终将用户的正向亲密度和用户的能力标签结合起来,通过设定的数量和权重规则,达到一定阈值的用户将输出与其相关的关联用户。需要说明的是,用户的反向亲密度用于描述社交网络中该用户对粉丝的亲密程度;用户的正向亲密度用于描述社交网络中粉丝对该用户的亲密程度。
具体步骤如下:
1.构建能力用户的亲密度基础数据:以用户的正向亲密度信息和用户的一级能力标签信息为语料,计算能力用户的亲密粉丝用户数量,构建出能力用户的亲密度基础数据。
2.基于能力用户的亲密粉丝用户数量和正向亲密度信息,计算能力用户有效的亲密度基础数据:根据亲密粉丝用户数量和正向亲密度权重是否达到设定的阈值,筛选能力用户有效的亲密度基础数据。
3.分析用户的正向亲密度信息,结合第二步的计算结果,计算用户的亲密粉丝用户互动的其他能力用户。即计算主体用户的关联用户。
4.分析用户的一级能力标签,计算主体用户的一级能力标签和关联用户的一级能力标签,如果主体用户和关联用户的能力相同,则输出。
5.结合上述的输出结果,计算主体用户和关联用户相同的亲密粉丝用户数量,根据主体用户的亲密粉丝用户数量设定关联用户的数量,利用逻辑回归算法的sigmoid函数计算关联用户的权重值,并最终输出结果。
一、构建能力用户的亲密度基础数据
首先,根据用户的正向亲密度信息选取正向亲密度权重大于0.80的粉丝用户,形成基本的用户的亲密度基础数据。下表列出了经过筛选的用户的亲密度基础数据表示例:
表1:经过筛选用户的亲密度基础数据表
其次,根据用户的一级能力标签信息,选取用户的能力权重大于80分以上的用户,作为研究计算关联用户的基础用户,本发明实施例中称为能力用户,对于其他用户不考虑。选取的能力用户如表2所示:
能力用户昵称 | 能力权重 | 标签所属领域 |
邓超 | 84.64 | tagCategory:娱乐明星 |
研究者July | 98.44 | tagCategory:IT技术 |
微博搞笑排行榜 | 99.87 | tagCategory:搞笑幽默 |
表2:能力用户基础表
对于用户的亲密度基础数据表和能力用户基础表,通过粉丝关注的用户uid和能力用户uid结合,如果相等,就输出一条记录,遍历全部数据,计算出能力用户的亲密度基础数据表。
最终形成的能力用户的亲密度基础数据表为:
粉丝用户昵称 | 被关注用户昵称 | 亲密度权重 |
细雨和风0926 | 邓超 | 0.99966 |
willingyeah | 邓超 | 0.99953 |
魏大晨 | 邓超 | 0.99955 |
七月算法 | 研究者July | 0.99547 |
有一只南球 | 微博搞笑排行榜 | 0.99519 |
小蛋黄筒子 | 微博搞笑排行榜 | 0.99449 |
表3:能力用户的亲密度基础数据表
二、筛选能力用户有效的亲密度基础数据
在微博等社交网络中,当一个用户的粉丝数特别大或者是网红明星等等,他的亲密粉丝用户数量就会很多。因为用户的亲密粉丝用户数量是最终评价和计算一个用户的关联用户的一个维度,因此,根据对上一步能力用户的亲密度基础数据表的结果的分析,进一步筛选有效的能力用户及其亲密粉丝用户,其亲密粉丝用户数量反映了能力用户的影响力。本步骤为优选步骤。
举例说明具体的能力用户的亲密粉丝用户筛选规则:首先,如果用户的亲密粉丝用户数量小于等于1000,则直接使用上一步的计算结果;其次,如果用户的亲密粉丝用户数量大于1000则将粉丝对用户的正向亲密度权重阈值提升为0.9;再次,如果用户的亲密粉丝用户数量大于100000,则进一步将粉丝对用户的正向亲密度权重阈值提升为0.95;最后,依据上述规则,将筛选出来的有效数据按照粉丝的正向亲密度权重从高到低输出。
最终形成的能力用户有效的亲密度基础数据表如下表所示:
粉丝昵称 | 被关注用户昵称 | 亲密度有效的粉丝数 | 亲密度权重 |
细雨和风0926 | 邓超 | 7020372 | 0.9995 |
Yx希望 | 来去之间 | 14430 | 0.9567 |
机器学习_兴隆 | 研究者July | 1377 | 0.9456 |
表4:能力用户有效的亲密度基础数据表
三、计算能力用户的关联用户基础数据
在微博等社交网络中,存在大量的用户,他们各自的亲密度基础数据表中,拥有一批相同的高互动的粉丝,那么,他们可能是关联用户。例如:用户A和B,他们各自的亲密度基础数据表中都有一个正向亲密度权重大于0.8粉丝,那么,A和B有可能就是相互关联的用户。因此,可以通过上一步计算结果和用户的亲密度基础数据表结合,利用粉丝计算主体用户的关联用户。
具体的关联用户计算规则:如果用户粉丝相同并且粉丝对他们的正向亲密度权重大于0.8,那么就输出结果。主体用户与关联用户的对应关系数据表如下表5所示:
表5:主体用户与关联用户的对应关系数据表
四、分别计算主体用户和关联用户的能力标签
对于主体用户与关联用户的对应关系表中的主体用户和关联用户,分别计算他们近期的一级能力标签。如果主体用户和关联用户的能力标签数量均为1并且相等,则输出,或者在有多个标签的情况下二者的能力标签存在包含关系,则输出记录。
能力相同的关联用户表如下表6示例所示:
表6:具有相同能力标签的关联用户
五、输出关联用户
根据上一步中计算的具有相同能力标签的关联用户基础数据,从而计算主体用户和关联用户相互关联的亲密粉丝用户数量,按照相互关联的亲密粉丝用户数量进行降序排序,并通过相互关联的亲密粉丝用户数量与主体用户的亲密粉丝用户数量计算主体用户的关联用户的权重值,其中当主体用户的亲密粉丝用户数量大于100000时统一按照100000计算。最后,利用逻辑回归算法中的sigmoid函数对关联用户之间的权重值进行归一化处理,最后根据关联用户输出约束条件输出关联用户。如下表7所示。
权重值计算公式1:
weight=round(interact_count/valid_fans_count*100,2), (公式1)
其中,interact_count是当前关联用户与主体用户共同的亲密粉丝用户数量,valid_fans_count是主体用户的亲密粉丝用户数量;round()是按照四舍五入的原则保留小数点后两位有效数据的函数;
利用逻辑回归算法中的sigmoid函数对主体用户的各关联用户的权重值进行归一化处理,所述sigmoid函数的计算公式如下:
基于归一化处理后的权重值,利用预设的关联用户输出约束条件得到主体用户的有效关联用户。
表7:关联用户输出约束条件表
根剧关联用户输出约束条件最终输出主体用户的关联用户。例如,演员邓超的有效的亲密粉丝数据大于100000,则最多输出10条关联用户记录,关联用户如下表8所示。
表8:关联用户表
与传统方法相比,在微博等社交网络中,对用户的正向亲密度高的粉丝(即用户的铁杆粉丝)的关注关系能够从多个维度体现出用户之间的关联关系,相比于之前挖掘完一个用户属性,才能发现该属性下的关联关系,本算法能有效地进行全方位的关联关系的覆盖,而且通过粉丝的亲密关系的变化,能够及时有效地发现新的关联关系,同时降低了计算量,提高了挖掘效率。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于社交网络的关联用户的挖掘方法,其特征在于,所述方法包括:
根据用户的正向亲密度信息和一级能力标签信息,构建能力用户的亲密度基础数据,所述能力用户是指一级能力标签信息中能力权重大于设定的第一权重阈值的博主用户,所述能力用户的亲密度基础数据包括能力用户的亲密粉丝用户数量、亲密粉丝用户标识以及对应的正向亲密度权重,所述亲密粉丝用户是指正向亲密度信息中正向亲密度权重大于设定的第二权重阈值的粉丝用户;
基于能力用户的亲密度基础数据,针对每一个能力用户,将当前能力用户作为主体用户,与当前能力用户之间具有相同亲密粉丝用户的数量大于设定的第三数量阈值的其他能力用户作为该主体用户的关联用户,得到主体用户与关联用户的对应关系数据;
根据主体用户与关联用户的对应关系数据,选取具有至少一个相同的能力标签的主体用户及其关联用户;
基于选取出的主体用户及其关联用户,确定主体用户与该主体用户的每一个关联用户共同的亲密粉丝用户数量,再结合主体用户的亲密粉丝用户数量,确定主体用户的各关联用户的权重值,基于权重值挖掘出主体用户的有效关联用户。
2.如权利要求1所述基于社交网络的关联用户的挖掘方法,其特征在于,针对能力用户的亲密粉丝用户数量设置至少一级数量阈值,并为各级数量阈值对应设置权重阈值,其中,各级数量阈值以及各级权重阈值依次增大,最低级权重阈值大于所述第二权重阈值;以及
根据用户的正向亲密度信息和一级能力标签信息,构建能力用户的亲密度基础数据之后,还包括:
判断能力用户的亲密粉丝用户数量是否小于等于最低级数量阈值;
如果是,保持所述能力用户的亲密度基础数据不变;
如果否,确定所述能力用户的亲密粉丝用户数量所对应的数量阈值等级、以及权重阈值等级,并根据确定出的权重阈值等级更新所述能力用户的亲密度基础数据。
3.如权利要求2所述基于社交网络的关联用户的挖掘方法,其特征在于,所述确定所述能力用户的亲密粉丝用户数量所对应的数量阈值等级、以及权重阈值等级,具体包括:
如果所述能力用户的亲密粉丝用户数量大于设定的第N级数量阈值且小于等于设定的第N+1级数量阈值,则确定所述能力用户的亲密粉丝用户数量所对应的数量阈值等级、以及权重阈值等级为N;以及
所述根据确定出的权重阈值等级更新所述能力用户的亲密度基础数据,具体包括:
根据确定出的第N级权重阈值更新所述能力用户的亲密度基础数据,更新后的亲密粉丝用户是指正向亲密度信息中正向亲密度权重大于设定的第N级权重阈值的粉丝用户。
4.如权利要求1所述基于社交网络的关联用户的挖掘方法,其特征在于,所述选取具有至少一个相同的能力标签的主体用户及其关联用户,具体包括:
如果主体用户及其关联用户的能力标签数量均为1并且相同,或者在有多个能力标签的情况下主体用户及其关联用户的能力标签存在包含关系,则选取当前的主体用户及其关联用户为具有至少一个相同的能力标签的主体用户及其关联用户。
5.如权利要求1所述基于社交网络的关联用户的挖掘方法,其特征在于,所述基于选取出的主体用户及其关联用户,确定主体用户与该主体用户的每一个关联用户共同的亲密粉丝用户数量,再结合主体用户的亲密粉丝用户数量,确定主体用户的各关联用户的权重值,基于权重值挖掘出主体用户的有效关联用户,包括:
基于选取出的主体用户及其关联用户,确定主体用户与该主体用户的每一个关联用户共同的亲密粉丝用户数量,按照共同的亲密粉丝用户数量对各关联用户进行降序排序,针对任一关联用户,通过与主体用户共同的亲密粉丝用户数量与主体用户的亲密粉丝用户数量计算主体用户的当前关联用户的权重值,计算公式如下:
weight=round(interact_count/valid_fans_count*100,2),
其中,interact_count是当前关联用户与主体用户共同的亲密粉丝用户数量,valid_fans_count是主体用户的亲密粉丝用户数量;round()是按照四舍五入的原则保留小数点后两位有效数据的函数;
利用逻辑回归算法中的sigmoid函数对主体用户的各关联用户的权重值进行归一化处理,所述sigmoid函数的计算公式如下:
基于归一化处理后的权重值,利用预设的关联用户输出约束条件得到主体用户的有效关联用户。
6.一种基于社交网络的关联用户的挖掘装置,其特征在于,所述装置包括:
亲密度基础数据构建单元,用于根据用户的正向亲密度信息和一级能力标签信息,构建能力用户的亲密度基础数据,所述能力用户是指一级能力标签信息中能力权重大于设定的第一权重阈值的博主用户,所述能力用户的亲密度基础数据包括能力用户的亲密粉丝用户数量、亲密粉丝用户标识以及对应的正向亲密度权重,所述亲密粉丝用户是指正向亲密度信息中正向亲密度权重大于设定的第二权重阈值的粉丝用户;
关联用户基础数据获取单元,用于基于能力用户的亲密度基础数据,针对每一个能力用户,将当前能力用户作为主体用户,与当前能力用户之间具有相同亲密粉丝用户的数量大于设定的第三数量阈值的其他能力用户作为该主体用户的关联用户,得到主体用户与关联用户的对应关系数据;
关联用户选取单元,用于根据主体用户与关联用户的对应关系数据,选取具有至少一个相同的能力标签的主体用户及其关联用户;
有效关联用户挖掘单元,用于基于选取出的主体用户及其关联用户,确定主体用户与该主体用户的每一个关联用户共同的亲密粉丝用户数量,再结合主体用户的亲密粉丝用户数量,确定主体用户的各关联用户的权重值,基于权重值挖掘出主体用户的有效关联用户。
7.如权利要求6所述基于社交网络的关联用户的挖掘装置,其特征在于,所述装置还包括:
设置单元,用于针对能力用户的亲密粉丝用户数量设置至少一级数量阈值,并为各级数量阈值对应设置权重阈值,其中,各级数量阈值以及各级权重阈值依次增大,最低级权重阈值大于所述第二权重阈值;
亲密度基础数据更新单元,用于在所述亲密度基础数据构建单元根据用户的正向亲密度信息和一级能力标签信息,构建能力用户的亲密度基础数据之后,判断能力用户的亲密粉丝用户数量是否小于等于最低级数量阈值;如果是,保持所述能力用户的亲密度基础数据不变;如果否,确定所述能力用户的亲密粉丝用户数量所对应的数量阈值等级、以及权重阈值等级,并根据确定出的权重阈值等级更新所述能力用户的亲密度基础数据。
8.如权利要求7所述基于社交网络的关联用户的挖掘装置,其特征在于,
所述亲密度基础数据更新单元,具体用于如果所述能力用户的亲密粉丝用户数量大于设定的第N级数量阈值且小于等于设定的第N+1级数量阈值,则确定所述能力用户的亲密粉丝用户数量所对应的数量阈值等级、以及权重阈值等级为N;以及根据确定出的第N级权重阈值更新所述能力用户的亲密度基础数据,更新后的亲密粉丝用户是指正向亲密度信息中正向亲密度权重大于设定的第N级权重阈值的粉丝用户。
9.如权利要求6所述基于社交网络的关联用户的挖掘装置,其特征在于,
所述关联用户选取单元,具体用于如果主体用户及其关联用户的能力标签数量均为1并且相同,或者在有多个能力标签的情况下主体用户及其关联用户的能力标签存在包含关系,则选取当前的主体用户及其关联用户为具有至少一个相同的能力标签的主体用户及其关联用户。
10.如权利要求6所述基于社交网络的关联用户的挖掘装置,其特征在于,
所述有效关联用户挖掘单元,具体用于基于选取出的主体用户及其关联用户,确定主体用户与该主体用户的每一个关联用户共同的亲密粉丝用户数量,按照共同的亲密粉丝用户数量对各关联用户进行降序排序,针对任一关联用户,通过与主体用户共同的亲密粉丝用户数量与主体用户的亲密粉丝用户数量计算主体用户的当前关联用户的权重值,计算公式如下:
weight=round(interact_count/valid_fans_count*100,2),
其中,interact_count是当前关联用户与主体用户共同的亲密粉丝用户数量,valid_fans_count是主体用户的亲密粉丝用户数量;round()是按照四舍五入的原则保留小数点后两位有效数据的函数;
利用逻辑回归算法中的sigmoid函数对主体用户的各关联用户的权重值进行归一化处理,所述sigmoid函数的计算公式如下:
基于归一化处理后的权重值,利用预设的关联用户输出约束条件得到主体用户的有效关联用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610736539.2A CN106339948A (zh) | 2016-08-26 | 2016-08-26 | 一种基于社交网络的关联用户的挖掘方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610736539.2A CN106339948A (zh) | 2016-08-26 | 2016-08-26 | 一种基于社交网络的关联用户的挖掘方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106339948A true CN106339948A (zh) | 2017-01-18 |
Family
ID=57823142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610736539.2A Pending CN106339948A (zh) | 2016-08-26 | 2016-08-26 | 一种基于社交网络的关联用户的挖掘方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106339948A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609469A (zh) * | 2017-07-28 | 2018-01-19 | 北京建筑大学 | 社会网络关联用户挖掘方法及系统 |
CN107798125A (zh) * | 2017-11-10 | 2018-03-13 | 携程旅游网络技术(上海)有限公司 | 基于亲密度模型的准入判定方法、系统、设备及存储介质 |
CN108876644A (zh) * | 2018-05-24 | 2018-11-23 | 微梦创科网络科技(中国)有限公司 | 一种基于社交网络的相似账号计算方法及装置 |
CN109218776A (zh) * | 2017-06-30 | 2019-01-15 | 武汉斗鱼网络科技有限公司 | 一种提高主播知名度的方法、装置及计算机设备 |
CN109669956A (zh) * | 2018-12-22 | 2019-04-23 | 江西微应科技有限公司 | 存储器、用户关系确定方法、装置和设备 |
CN109829089A (zh) * | 2018-12-12 | 2019-05-31 | 中国科学院计算技术研究所 | 基于关联图谱的社交网络用户异常检测方法和系统 |
CN110019547A (zh) * | 2017-11-10 | 2019-07-16 | 平安普惠企业管理有限公司 | 获取客户间的关联关系的方法、装置、设备及介质 |
CN110555172A (zh) * | 2019-08-30 | 2019-12-10 | 京东数字科技控股有限公司 | 用户关系挖掘方法及装置、电子设备和存储介质 |
CN111368131A (zh) * | 2020-03-06 | 2020-07-03 | 咪咕音乐有限公司 | 用户关系识别方法、装置、电子设备及存储介质 |
CN111667200A (zh) * | 2020-07-09 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 一种权威度确定方法、装置、设备及存储介质 |
CN111858709A (zh) * | 2020-07-14 | 2020-10-30 | 中国建设银行股份有限公司 | 关联关系挖掘方法及装置 |
CN113127762A (zh) * | 2021-04-21 | 2021-07-16 | 北京字节跳动网络技术有限公司 | 一种信息展示方法、信息处理方法及装置 |
CN114817225A (zh) * | 2022-05-25 | 2022-07-29 | 广西润嘉互联网科技有限公司 | 基于大数据电商优化的用户行为数据处理方法及系统 |
-
2016
- 2016-08-26 CN CN201610736539.2A patent/CN106339948A/zh active Pending
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109218776A (zh) * | 2017-06-30 | 2019-01-15 | 武汉斗鱼网络科技有限公司 | 一种提高主播知名度的方法、装置及计算机设备 |
CN109218776B (zh) * | 2017-06-30 | 2022-04-12 | 武汉斗鱼网络科技有限公司 | 一种提高主播知名度的方法、装置及计算机设备 |
CN107609469A (zh) * | 2017-07-28 | 2018-01-19 | 北京建筑大学 | 社会网络关联用户挖掘方法及系统 |
CN107798125B (zh) * | 2017-11-10 | 2021-03-16 | 携程旅游网络技术(上海)有限公司 | 基于亲密度模型的准入判定方法、系统、设备及存储介质 |
CN107798125A (zh) * | 2017-11-10 | 2018-03-13 | 携程旅游网络技术(上海)有限公司 | 基于亲密度模型的准入判定方法、系统、设备及存储介质 |
CN110019547A (zh) * | 2017-11-10 | 2019-07-16 | 平安普惠企业管理有限公司 | 获取客户间的关联关系的方法、装置、设备及介质 |
CN108876644A (zh) * | 2018-05-24 | 2018-11-23 | 微梦创科网络科技(中国)有限公司 | 一种基于社交网络的相似账号计算方法及装置 |
CN108876644B (zh) * | 2018-05-24 | 2022-02-22 | 微梦创科网络科技(中国)有限公司 | 一种基于社交网络的相似账号计算方法及装置 |
CN109829089A (zh) * | 2018-12-12 | 2019-05-31 | 中国科学院计算技术研究所 | 基于关联图谱的社交网络用户异常检测方法和系统 |
CN109829089B (zh) * | 2018-12-12 | 2021-03-05 | 中国科学院计算技术研究所 | 基于关联图谱的社交网络用户异常检测方法和系统 |
CN109669956A (zh) * | 2018-12-22 | 2019-04-23 | 江西微应科技有限公司 | 存储器、用户关系确定方法、装置和设备 |
CN110555172A (zh) * | 2019-08-30 | 2019-12-10 | 京东数字科技控股有限公司 | 用户关系挖掘方法及装置、电子设备和存储介质 |
CN110555172B (zh) * | 2019-08-30 | 2023-04-07 | 京东科技控股股份有限公司 | 用户关系挖掘方法及装置、电子设备和存储介质 |
CN111368131A (zh) * | 2020-03-06 | 2020-07-03 | 咪咕音乐有限公司 | 用户关系识别方法、装置、电子设备及存储介质 |
CN111368131B (zh) * | 2020-03-06 | 2023-08-18 | 咪咕音乐有限公司 | 用户关系识别方法、装置、电子设备及存储介质 |
CN111667200A (zh) * | 2020-07-09 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 一种权威度确定方法、装置、设备及存储介质 |
CN111667200B (zh) * | 2020-07-09 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 一种权威度确定方法、装置、设备及存储介质 |
CN111858709A (zh) * | 2020-07-14 | 2020-10-30 | 中国建设银行股份有限公司 | 关联关系挖掘方法及装置 |
CN113127762A (zh) * | 2021-04-21 | 2021-07-16 | 北京字节跳动网络技术有限公司 | 一种信息展示方法、信息处理方法及装置 |
CN114817225A (zh) * | 2022-05-25 | 2022-07-29 | 广西润嘉互联网科技有限公司 | 基于大数据电商优化的用户行为数据处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106339948A (zh) | 一种基于社交网络的关联用户的挖掘方法及装置 | |
White et al. | Modeling cities and regions as complex systems: From theory to planning applications | |
Feuillette et al. | SINUSE: a multi-agent model to negotiate water demand management on a free access water table | |
Baycan-Levent et al. | Planning and management of urban green spaces in Europe: Comparative analysis | |
Petrov et al. | Urban land use scenarios for a tourist region in Europe: Applying the MOLAND model to Algarve, Portugal | |
Raguragavan et al. | Economic valuation of recreational fishing in W estern A ustralia: statewide random utility modelling of fishing site choice behaviour | |
CN107291815A (zh) | 基于跨平台标签融合的问答社区推荐方法 | |
CN103678436B (zh) | 信息处理系统和信息处理方法 | |
CN108022303A (zh) | 一种虚拟丝路博物馆导览系统和方法 | |
Pooyandeh et al. | A spatial web/agent-based model to support stakeholders' negotiation regarding land development | |
CN110489655A (zh) | 热门内容确定、推荐方法、装置、设备及可读存储介质 | |
Jervis | A patchwork of people, pots and places: Material engagements and the construction of ‘the social’in Hamwic (Anglo-Saxon Southampton), UK | |
CN107392307A (zh) | 并行化时序数据的预测方法 | |
Carmona et al. | Object-Oriented Bayesian networks for participatory water management: two case studies in Spain | |
Chen et al. | Defining agents' behaviour based on urban economic theory to simulate complex urban residential dynamics | |
Hurford et al. | Efficient and robust hydropower system design under uncertainty-A demonstration in Nepal | |
Rathnayake | ‘Turtle watching’: A strategy for endangered marine turtle conservation through community participation in Sri Lanka | |
CN108062385A (zh) | 用户兴趣挖掘的方法及系统 | |
Puška et al. | An assessment of improving the sustainable agro-touristic offer in an emerging country using the integrative approach based on fuzzy logic | |
Zhang et al. | Inference method for cultural diffusion patterns using a field model | |
Jonsson et al. | How participatory can participatory modeling be? Degrees of influence of stakeholder and expert perspectives in six dimensions of participatory modeling | |
Vincent et al. | Gendered vulnerability to climate change in Limpopo province, South Africa | |
CN109583494A (zh) | 基于结构子图特征的动态网络链接的特征提取及预测方法 | |
CN111310985B (zh) | 一种行程规划方法及系统 | |
CN107423811A (zh) | 基于bp人工神经网络和情景模拟组合的径流变化归因识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170118 |
|
RJ01 | Rejection of invention patent application after publication |