CN106126740A - 一种事件传播过程中的用户挖掘方法和装置 - Google Patents

一种事件传播过程中的用户挖掘方法和装置 Download PDF

Info

Publication number
CN106126740A
CN106126740A CN201610524632.7A CN201610524632A CN106126740A CN 106126740 A CN106126740 A CN 106126740A CN 201610524632 A CN201610524632 A CN 201610524632A CN 106126740 A CN106126740 A CN 106126740A
Authority
CN
China
Prior art keywords
node
information
forwarding
crawled
data base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610524632.7A
Other languages
English (en)
Inventor
张子柯
詹秀秀
周楠
马强
刘闯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Normal University
Original Assignee
Hangzhou Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Normal University filed Critical Hangzhou Normal University
Priority to CN201610524632.7A priority Critical patent/CN106126740A/zh
Publication of CN106126740A publication Critical patent/CN106126740A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种事件传播过程中的用户挖掘方法和装置,用于挖掘出在热点事件传播过程中的重要用户。本发明的方法中先配置针对的热点事件,然后根据该热点事件建立与热点事件相关的关键词,根据关键词从网页信息数据库中爬取到包括关键词的信息数据,将爬取到的信息数据保存到热点事件对应的本地数据库,因此本发明实施例中可以针对热点事件从网页信息数据库中构建出本地数据库,该本地数据库可以构建有向转发网络,再通过网络的无向化处理可以得到无向转发网络,构建出的无向转发网络也是针对某个热点事件而选取的,从而通过节点的重要性排序,可以确定出热点事件传播的重要用户。

Description

一种事件传播过程中的用户挖掘方法和装置
技术领域
本发明涉及计算机技术领域,具体涉及一种事件传播过程中的用户挖掘方法和装置。
背景技术
社交网络的发展对人类生活有着极大影响,无论是交友,工作还是购物,人们已经习惯依赖社交网络来获取信息。具有高影响力的用户在社交网络中可以作为信息传播源头,促进社交网络上有效信息的传播。为了让信息在网络中传播得更快,范围更广,关键就在于寻找到具有传播影响力的节点。由于网络中总用户数量巨大,网络结构复杂,网络中大部分节点的传播能力极为有限,寻找有高传播影响力的用户一直是一大挑战。
随着社交媒体平台的迅猛发展,信息传播已不再局限于传统的传播方式,信息传播的速度和规模也发生了质的变化。研究社交网络上的信息传播,挖掘信息传播过程中具有关键作用的节点(也称为重要节点),对于加速正面信息的传播以及控制负面消息(例如谣言)的传播具有重要作用。
现有的重要节点挖掘方法都是寻找用户关注的网络中有影响力的用户,而在某个具体传播的热点事件中,对于该热点事件的传播起较大推动作用的重要节点并不一定就是那些在关注网络上影响力较大的用户,现有的重要节点挖掘方法是基于整个网络结构挖掘出有影响力的用户,而并不是针对某个具体事件,现有的重要节点挖掘方法只能宏观的寻找到关注网络中的有影响力节点,无法寻找到在某一具体事件传播过程中的重要节点。例如,假设在网络中有个重要节点是某个大V微博账户,它虽然是影响力很大的用户,但可能对于某个具体的事件A,若该大V微博账户并没有参与事件A的发布或者转发,那么在事件A的传播过程中,该大V微博账户并不是重要节点,从而无法确定出在事件A的传播过程中的重要节点。
发明内容
本发明的目的在于提供一种事件传播过程中的用户挖掘方法和装置,用于挖掘出在热点事件传播过程中的重要用户。
为了达到上述目的,本发明采用这样的如下技术方案:
一方面,本发明提供一种事件传播过程中的用户挖掘方法,包括:
根据预先配置的热点事件获取与所述热点事件相关的关键词;
根据所述关键词从网页信息数据库中爬取到包括所述关键词的信息数据,将爬取到的信息数据保存到所述热点事件对应的本地数据库,每一条所述信息数据对应有一个用户标识,所述爬取到的信息数据包括:发布信息和转发信息,所述发布信息和所述转发信息之间存在转发关系;
根据所述本地数据库中保存的信息数据构建有向转发网络,所述有向转发网络包括:N个节点和所述N个节点之间连接两个节点的有向连边,所述有向转发网络中包括的每一个节点唯一地对应于从所述本地数据库中提取到的一个用户标识,所述有向转发网络中存在转发关系的两个用户标识对应的节点之间通过一条有向连边相连接,所述N为非零的自然数;
将所述有向转发网络中的每条有向连边转换为无向连边,并对转换后的所有无向连边中相同两个节点之间重复的无向连边进行删除,得到无向转发网络;
对所述无向转发网络中N个节点的重要性进行排序,按照重要性排序结果从排序后的N个节点中确定出针对所述热点事件的重要节点,将针对所述热点事件的重要节点对应的用户作为所述热点事件传播的重要用户。
另一方面,本发明提供一种事件传播过程中的用户挖掘装置,包括:
关键词获取模块,用于根据预先配置的热点事件获取与所述热点事件相关的关键词;
数据库构建模块,用于根据所述关键词从网页信息数据库中爬取到包括所述关键词的信息数据,将爬取到的信息数据保存到所述热点事件对应的本地数据库,每一条所述信息数据对应有一个用户标识,所述爬取到的信息数据包括:发布信息和转发信息,所述发布信息和所述转发信息之间存在转发关系;
有向转发网络构建模块,用于根据所述本地数据库中保存的信息数据构建有向转发网络,所述有向转发网络包括:N个节点和所述N个节点之间连接两个节点的有向连边,所述有向转发网络中包括的每一个节点唯一地对应于从所述本地数据库中提取到的一个用户标识,所述有向转发网络中存在转发关系的两个用户标识对应的节点之间通过一条有向连边相连接,所述N为非零的自然数;
无向转发网络构建模块,用于将所述有向转发网络中的每条有向连边转换为无向连边,并对转换后的所有无向连边中相同两个节点之间重复的无向连边进行删除,得到无向转发网络;
重要用户挖掘模块,用于对所述无向转发网络中N个节点的重要性进行排序,按照重要性排序结果从排序后的N个节点中确定出针对所述热点事件的重要节点,将针对所述热点事件的重要节点对应的用户作为所述热点事件传播的重要用户。
采用上述技术方案后,本发明提供的技术方案将有如下优点:
在本发明实施例中先配置针对的热点事件,然后根据该热点事件建立与热点事件相关的关键词,根据关键词从网页信息数据库中爬取到包括关键词的信息数据,将爬取到的信息数据保存到热点事件对应的本地数据库,因此本发明实施例中可以针对热点事件从网页信息数据库中构建出本地数据库,该本地数据库可以构建有向转发网络,再通过网络的无向化处理可以得到无向转发网络,因此构建出的无向转发网络也是针对某个热点事件而选取的,从而通过节点的重要性排序,可以确定出热点事件传播的重要用户。由于本发明实施例中并不是直接通过网页信息数据库来构建转发网络,所采用的本地数据库也是包括通过具体的关键词爬取才能构建出,本发明实施例中挖掘出的重要用户是特指热点事件传播中的重要用户,解决现有技术中无法针对特定事件来挖掘重要用户的问题。
附图说明
图1为本发明实施例提供一种事件传播过程中的用户挖掘方法的流程方框示意图;
图2为本发明实施例提供的网络爬虫技术爬取网页信息数据库的实现场景示意图;
图3为本发明实施例提供的API爬取技术爬取网页信息数据库的实现场景示意图;
图4-a为本发明实施例提供的一种事件传播过程中的用户挖掘装置的组成结构示意图;
图4-b为本发明实施例提供的一种数据库构建模块的组成结构示意图;
图4-c为本发明实施例提供的另一种数据库构建模块的组成结构示意图;
图4-d为本发明实施例提供的一种有向转发网络构建模块的组成结构示意图;
图4-e为本发明实施例提供的另一种事件传播过程中的用户挖掘装置的组成结构示意图;
图4-f为本发明实施例提供的另一种事件传播过程中的用户挖掘装置的组成结构示意图;
图4-g为本发明实施例提供的另一种事件传播过程中的用户挖掘装置的组成结构示意图。
具体实施方式
本发明实施例提供了一种事件传播过程中的用户挖掘方法和装置,用于挖掘出在热点事件传播过程中的重要用户。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域的技术人员所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本发明的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
以下分别进行详细说明。本发明实施例提供的方法可以寻找到针对某个热点事件传播过程中起作用的重要节点。例如可以是社交工具传播的热点事件,例如可以是微博上传播的热点事件,也可以是通过其它社交工具,例如网络游戏的游戏圈中传播的英雄事件等。接下来详细说明本发明实施例提供的事件传播过程中的用户挖掘方法,请参阅图1所示,本发明实施例提供的事件传播过程中的用户挖掘方法,可以包括如下步骤:
101、根据预先配置的热点事件获取与热点事件相关的关键词。
在本发明实施例中,需要挖掘某个热点事件的信息传播过程中具有关键作用的节点(即重要节点),对于加速正面信息的传播以及控制负面消息的传播具有重要作用。本发明实施例中热点事件也可以由系统来预先配置,例如某个谣言(即一种热点事件)被大量传播,这就需要挖掘出在该谣言传播过程中的重要用户。当获取到热点事件后,可以自动的从该热点事件中提取出关键词,也可以直接配置与该热点事件有关联的关键词,对于关键词的选择,应尽可能多的去覆盖与待爬取事件相关的网页信息。
本发明实施例中,用户可以输入待爬取的热点事件即可,本发明实施例中会根据该热点事件进行分词处理、选词处理。因此对于用户而言,可以极大的方便用户使用,而无需用户做过多准备,节省用户的时间和精力,可以简化用户提取关键词的处理难度。例如用户输入的热点事件进行分词处理,将一个完整的热点事件拆分为独立的多个关键词。另外,本发明实施例中还可以根据热点事件检索数据仓库,从数据仓库中获取到关键词,本发明实施例中,可以在系统中存在一个数据仓库,该数据仓库里面存储着大量的关于不同热点事件的关键词,以及这些关键词所对应的属性信息。举例说明如下,需要爬取的热点事件是一个婴幼儿产品的热卖广告,此时提取到的关键词可以是产品的名称、商家地址、产品功能、主要转发该事件的用户区域等,具体可以结合应用场景配置某个热点事件相关联的关键词。
102、根据关键词从网页信息数据库中爬取到包括关键词的信息数据,将爬取到的信息数据保存到热点事件对应的本地数据库。
其中,每一条信息数据对应有一个用户标识,爬取到的信息数据包括:发布信息和转发信息,发布信息和转发信息之间存在转发关系。
在本发明实施例中,获取到与热点事件相关的关键词之后,可以在网页信息数据库中爬取包括有上述关键词的信息数据,在网页信息数据库中保存有大量的信息数据,每一条信息数据都是一个独立的数据单元,每一条信息数据对应有一个用户标识,该信息数据可以是发布信息和转发信息,发布信息和转发信息之间存在转发关系,其中,发布信息是指发布了包括某个关键词的信息内容,转发信息是指对存在转发关系的发布信息的转发内容。举例说明如下,在微博网络上,用户A发布了包括关键词a的微博信息,用户B对该微博信息进行了转发,则用户B的转发信息中包括该微博信息。
需要说明的是,本发明实施例中,本地数据库在初始建立为空,但随着对网页信息数据库的不断爬取,本地数据库中保存的包括某个或某些关键词的信息数据不断增加,可以对本地数据库能够容纳的信息数据的数据量进行配置,当爬取到的信息数据达到规格要求时不再爬取,或者为了提高用户挖掘的时效,可以配置需要爬取的信息数据的数据生成时间,例如只爬取包括某个关键词的最近一天的信息数据,对于超过一天时效的信息数据不再爬取。
本发明实施例中建立的本地数据库是后续分析用户重要性的依据,该本地数据库是针对需要爬取的热点事件来保存信息数据的,因此通过该本地数据库进行的用户重要性分析是针对上述热点事件的,从而本发明实施例中通过步骤101和步骤102记载的数据库构建方式能够用于针对某个热点事件的用户挖掘。
在本发明的一些实施例中,步骤102根据关键词从网页信息数据库中爬取到包括关键词的信息数据,将爬取到的信息数据保存到热点事件对应的本地数据库,具体可以包括如下步骤:
A1、通过网络爬虫技术在网页信息数据库中爬取包括关键词的发布信息,发布信息包括:信息发布用户标识、信息发布内容标识、信息发布时间和信息转发列表;
A2、判断热点事件对应的本地数据库中是否包括发布信息,若不包括,将发布信息保存到本地数据库中;
A3、从信息转发列表中获取转发发布信息的转发信息,通过发布信息和转发信息构成信息数据,转发信息包括:信息转发用户标识、信息转发内容标识、信息转发时间和转发的信息发布内容标识;
A4、判断本地数据库中是否包括转发信息,若不包括,将转发信息保存到本地数据库中。
其中,通过网络爬虫技术可以爬取网页信息数据库,从该网页信息数据库中爬取出包括某个或某些关键词的发布信息,则每个发布信息中包括有信息发布用户标识、信息发布内容标识、信息发布时间和信息转发列表,发布信息包括的上述信息都需要从网页信息数据库中爬取到,其中,信息发布时间是用户发布某个信息的时间点,信息转发列表中包括有转发该发布信息的其他用户。举例说明如下,使用网络爬虫爬取微博网页,可以得到包括关键词的微博发布信息messageA,该微博发布信息messageA由用户A发布,在微博转发列表中包括有用户B和用户C转发了该发布信息。通过信息转发列表之后,该列表中的转发用户获取到对应的转发信息,转发信息中包括有所转发的信息发布内容标识,则转发用户和发布用户可以通过信息转发列表确定出转发关系。通过步骤A2和步骤A4的不断维护,本地数据库中包括的发布信息和转发信息不断增加,若本地数据库中已经包括有某个信息数据,则不再重复加入到本地数据库中,而可以继续通过网络爬虫技术爬取网页信息数据库。
进一步的,在本发明的一些实施例中,步骤102根据关键词从网页信息数据库中爬取到包括关键词的信息数据,将爬取到的信息数据保存到热点事件对应的本地数据库,除了包括前述的步骤A1至步骤A4之外,该步骤102还可以进一步的包括如下步骤:
A5、将转发信息保存到本地数据库中之后,根据本地数据库中保存的所有用户标识构建用户搜索列表;
A6、通过网页信息数据库提供的应用程序编程接口(Application ProgrammingInterface,API)获取用户搜索列表中每个用户标识对应的关注列表和粉丝列表;
A7、对用户搜索列表、关注列表和粉丝列表进行合并处理以及去除重复用户标识处理,得到信息待爬取列表;
A8、遍历信息待爬取列表中的每个待爬取用户标识,通过网页信息数据库提供的API获取每个待爬取用户标识对应的信息数据;
A9、判断每个待爬取用户标识对应的信息数据是发布信息还是转发信息;
A10、若待爬取用户标识对应的信息数据是发布信息,则判断待爬取用户标识对应的发布信息中是否包括关键词,当待爬取用户标识对应的发布信息中包括关键词时,判断本地数据库中是否包括待爬取用户标识对应的发布信息,若没有,将待爬取用户标识对应的发布信息保存到本地数据库中;
A11、若待爬取用户标识对应的信息数据是转发信息,则判断待爬取用户标识对应的转发信息所转发的发布信息中是否包括关键词,当待爬取用户标识对应的转发信息所转发的发布信息中包括关键词时,判断本地数据库中是否包括待爬取用户标识对应的转发信息所转发的发布信息,若没有,将待爬取用户标识对应的转发信息所转发的发布信息保存到本地数据库中。
其中,前述步骤A1至步骤A4中描述了网络爬虫技术构建了本地数据库,为了提供更强大的本地数据库,以提供针对热点事件的重要用户挖掘的准确性,还可以通过网页信息数据库提供的API接口进行爬取,从而能够从网页信息数据库中爬取到更多的信息数据。首先可以通过步骤A6获取到用户搜索列表中每个用户标识对应的关注列表和粉丝列表,以用户标识A为例,用户A所关注的其他用户(例如用户B和用户C)通过关注列表来描述,其他用户(例如用户D和用户E)关注了用户A,用户D和用户E记载在粉丝列表中。在不同的实际场景下,例如实际场景可以是社交工具和媒体网页,虽然用户标识对应的关注列表和粉丝列表的列表描述方式不同,但是对应于用户标识所采用的关联列表的方式都是相类似的,不再逐一说明。
为了能够从网页信息数据库中爬取到更多的信息数据,除了需要网页信息数据库向本地数据库开发API接口实现数据爬取之外,还需要构建更全面的信息待爬取列表(后续简称为待爬取列表),例如可以通过步骤A7来构建待爬取列表,接下来通过步骤A8中API接口来爬取网页信息数据库,然后执行步骤A9的判断,然后分别执行步骤A10和A11,通过步骤A10和步骤A11的不断维护,本地数据库中包括的发布信息和转发信息不断增加,若本地数据库中已经包括有某个信息数据,则不再重复加入到本地数据库中,而可以继续通过API接口爬取网页信息数据库。
103、根据本地数据库中保存的信息数据构建有向转发网络,有向转发网络包括:N个节点和N个节点之间连接两个节点的有向连边。
其中,有向转发网络中包括的每一个节点唯一地对应于从本地数据库中提取到的一个用户标识,有向转发网络中存在转发关系的两个用户标识对应的节点之间通过一条有向连边相连接,N为非零的自然数。
在本发明实施例中,本地数据库中保存有多个用户标识之间的转发关系,例如本地数据库中保存有多个用户,本地数据库中的所有用户之间有的用户两两之间存在转发关系,本地数据库中的用户可以通过身份识别码(ID,Identity)来标识,用户之间的转发关系可以用于构建有向转发网络,例如可以构建疾病传播网络、社交网络、媒体资讯网络等。本地数据库中的一个用户标识可以对应一个节点,以本地数据库中共有N个用户标识为例,则可以建立N个节点,有向转发网络中存在转发关系的两个用户标识对应的节点之间通过一条有向连边相连接,有向连边从源端指向目的端,则表示了一个从源端被终端所转发的转发关系。
在本发明的一些实施例中,步骤103根据本地数据库中保存的信息数据构建有向转发网络,具体可以包括如下步骤:
B1、从本地数据库中保存的信息数据提取出多条转发路径,转发路径包括:转发信息的用户标识、被转发信息的用户标识和转发信息时间;
B2、遍历所有转发路径,获取所有的用户标识作为节点列表,节点列表中包括有N个节点;
B3、把所有转发路径分别转换为带有时间属性的有向连边;
B4、通过节点列表中的N个节点以及带有时间属性的有向连边组合在一起,得到有向转发网络。
其中,获取到本地数据库之后,对于本地数据库中保存的每一条信息数据都可以提取出一条转发路径,则遍历完本地数据库中保存的所有信息数据,可以提取到多条转发路径,在每一条转发路径中都包括有转发信息时间,从而可以通过转发路径建立携带有时间属性的有向连边,通过节点列表和有向连边的组合可以构成有向转发网络。
进一步的,在本发明的一些实施例中,步骤103通过节点列表中的N个节点以及带有时间属性的有向连边构建有向转发网络之后,本发明实施例提供的方法除了执行后续步骤104和步骤105之外,还可以执行如下步骤:
C1、从有向转发网络中查找出有向转发网络的邻接矩阵中对角线元素不为零的节点,将有向转发网络的邻接矩阵中对角线元素不为零的节点确定为异常用户;和/或,
C2、从有向转发网络中查找出转发路径形成闭环的节点,将有向转发网络中转发路径形成闭环的节点确定为异常用户。
其中,构建出有向转发网路之后,可以通过对有向转发网络中的节点属性的具体分析,从中找到异常节点,这些异常节点对应的用户标识指示了异常用户。例如,步骤C1中,邻接矩阵中对角线元素不为零的节点表示该节点自己转发自己的发布信息,则可以认为该节点为重复转发节点。另外,步骤C2中还描述了构成闭环的多个节点,从而这些节点对应的用户标识指示了异常用户。通过输出异常用户可以分析出在热点事件的传播过程中不正常的用户,有利于锁定某些热点事件的幕后传播者。
在目前的信息溯源方法中,采用的基本思路是先计算多条信息之间的文本相似性、中心度、时序性等指标,然后将各个指标进行相乘,得到的乘积结果作为信息的初始值。例如将文本相似性、中心度、时序性这三者相乘的结果作为微博信息的初始值,再通过多次的迭代过程完成对信息初始值的更新,存在计算复杂度高的问题,需要计算一条信息与其他所有信息之间的相似性,并且还要经过多次的迭代计算后才能使得最终的计算结果收敛。
本发明实施例为了进一步的解决信息溯源的问题,在本发明的一些实施例中,步骤103通过节点列表中的N个节点以及带有时间属性的有向连边构建有向转发网络之后,本发明实施例提供的方法除了执行后续步骤104和步骤105之外,还可以执行如下步骤:
D1、根据节点之间的有向连边从有向转发网络中搜索发布信息的用户标识,并将搜索到的发布信息的用户标识按照发布时间的先后进行排序,将发布时间早于预置时间点的用户标识确定为热点事件传播的源节点。
其中,本发明实施例中还可以根据本地数据库创建的有向转发网络进行溯源,查找出针对热点事件的源节点,在有向转发网络中的有向连边中携带有时间属性,可以按照该有向转发网络中连边之间的转发关系查找出源节点,对有向转发网络中的所有节点按照发布时间的先后进行排序,将发布时间早于预置时间点的用户标识确定为热点事件传播的源节点,该热点事件传播的源节点输出后可以用于分析某个热点事件传播的源头。
进一步的,在本发明的一些实施例中,步骤D1将发布时间早于预置时间点的用户标识确定为热点事件传播的源节点之后,本发明实施例提供的方法还可以包括如下步骤:
E1、从热点事件传播的源节点中查找出其对应的发布信息被转发过的源节点,得到非孤立源节点;
E2、从有向转发网络中查找出转发非孤立源节点对应的发布信息、且自身转发量大于预置的异常参数的用户标识,得到一阶重要邻居节点;
E3、从有向转发网络中查找出转发一阶重要邻居节点对应的发布信息、且自身转发量大于异常参数的用户标识,得到二阶重要邻居节点;
E4、从有向转发网络中查找出转发二阶重要邻居节点对应的发布信息、且自身转发量大于异常参数的用户标识,得到三阶重要邻居节点;
E5、若有向转发网络中存在具有一阶重要邻居节点、二阶重要邻居节点、三阶重要邻居节点的非孤立源节点,则确定具有一阶重要邻居节点、二阶重要邻居节点、三阶重要邻居节点的非孤立源节点为异常用户。
其中,步骤E1中的非孤立源节点指的是该源节点发布的信息被转发过,然后依次执行步骤E2至E4,需要说明的是,在步骤E2至E4的执行过程中,若步骤E2中不存在转发量大于预置的异常参数的用户标识时,则无需再执行步骤E3和E4,重新选择下一个非孤立源节点来执行步骤E2至E4,同理的,在步骤E2至E4的执行过程中,若步骤E3中不存在转发量大于预置的异常参数的用户标识时,则无需再执行步骤E4,重新选择下一个非孤立源节点来执行步骤E2至E4。直至对于某一个非孤立源节点,上述步骤E2至E4都执行成功时,可以执行步骤E5,输出具有一阶重要邻居节点、二阶重要邻居节点、三阶重要邻居节点的非孤立源节点为异常用户,需要说明的是,上述异常参数可以用k来表示,k的取值主要与事件本身的性质有关,取决于事件受关注的程度。如果事件比较受关注,那么k相应取大一些,如果事件不大受关注,那么k取小一些。
104、将有向转发网络中的每条有向连边转换为无向连边,并对转换后的所有无向连边中相同两个节点之间重复的无向连边进行删除,得到无向转发网络。
在本发明实施例中,通过本地数据库中构建有向转发网络之后,可以对有向转发网络进行无向化处理,从而生成无向转发网络,例如在有向转发网络中,节点A的发布信息被节点B所转发,则从节点A到节点B建立了一条转发关系,同时节点B的发布信息被节点A所转发,则从节点B到节点A又建立了一条转发关系,当有向连边边去掉方向后成为无向连边后,节点A和节点B之间就存在了两个无向连边,因此需要将相同的无向连边进行去重,从而有向转发网络就可以转换为无向转发网络。
105、对无向转发网络中N个节点的重要性进行排序,按照重要性排序结果从排序后的N个节点中确定出针对热点事件的重要节点,将针对热点事件的重要节点对应的用户作为热点事件传播的重要用户。
在本发明实施例中,通过前述的本地数据库建立有向转发网络后,该有向转发网络可以进一步的被转换为无向转发网络,在无向转发网络中的N个节点之间可以按照复杂网络中的节点重要性的方法进行重要性排序,在生成重要性排序结果之后,可以进一步的从排序后的N个节点中确定出针对热点事件的重要节点,针对热点事件的重要节点是重要性排序结果中靠前的L个节点,该L的具体取值可以由应用场景来确定,例如L可以是和热点事件本身的性质有关,取决于热点事件的影响程度,如果事件的影响很大,那么L可以相应取大一些,从而确定出多一些的重要节点,如果事件的影响不大,那么L可以取值小一些,只需要确定出最重要的节点即可。通过重要性分析方法确定出L个节点作为重要节点之后,L个针对热点事件的重要节点对应的用户作为热点事件传播的L个重要用户。
在本发明的一些实施例中,步骤105对无向转发网络中N个节点的重要性进行排序,具体可以包括如下步骤:
F1、按照度中心性指标计算无向转发网络中每个节点的度值,并按照度值大小对N个节点进行重要性排序,得到度中心性排序结果;和/或,
F2、按照特征向量中心性指标计算无向转发网络中每个节点的特征向量中心性,并按照特征向量中心性大小对N个节点进行重要性排序,得到特征向量中心性排序结果;和/或,
F3、按照K壳中心性指标计算无向转发网络中每个节点的K壳值,并按照K壳值大小对N个节点进行重要性排序,得到K壳中心性排序结果。
其中,本发明实施例中计算节点的重要性指标可以有多种方法,例如,本发明实施例可以通过F1、F2、F3中记载的至少一种方法计算出N个节点的重要性排序结果。例如度中心性指标、特征向量中心性和K壳中心性指标中的至少一种。接下来以K壳中心性进行举例说明。
节点在网络中的位置可以用节点的核数(用符号ci表示)来刻画。本发明实施例中计算节点的核数可以使用K-壳分解(英文名称:K-shell Decomposition)法,将外围的节点层层剥去,最后得到处于内层的节点,则这些节点拥有较高的影响力。具体分解过程如下:网络中如果存在度值为1的节点,从度中心性的角度看它们就是最不重要的节点。如果把这些度值为1的节点及其所连接的边都去掉,那么剩下的网络中会新出现一些度值为1的节点,再将这些度值为1的节点去掉,以此进行循环操作,直到所剩的网络中没有度值为1的节点为止。此时,所有被去掉的节点组成一个层,称为1-壳(英文名称:1-shell)。对于一个节点来说,剥掉一层之后在剩下的网络中节点的度值就称为该节点的剩余度。按上述方法继续剥壳,去掉网络中剩余度为2的节点……重复这些操作,直到网络中没有节点为止,定义初始度为0的孤立节点属于0-壳。网络中的每一个节点属于唯一的一个层,显然任一节点i均满足ki≥ci,其中ki是节点i的度,ci就是节点i的核数。所有核数大于等于ci的节点构成ci-核。
在本发明的一些实施例中,进一步的,为了提供对N个节点的重要性排序结果的准确程度,可以使用上述三种方法综合评测节点的重要性。例如重要性排序结果,包括:度中心性排序结果、特征向量中心性排序结果和K壳中心性排序结果。在这种实现场景下,步骤105按照重要性排序结果从排序后的N个节点中确定出针对热点事件的重要节点,具体可以包括如下步骤:
F4、根据度中心性排序结果中度值从大到小排列的N个节点确定第一节点选择集合,第一节点选择集合包括:从N个节点中选择的度值从大到小排序的前L个节点,L为预置的且小于N的自然数;
F5、根据特征向量中心性排序结果中特征向量中心性从大到小排列的N个节点确定第二节点选择集合,第二节点选择集合包括:从N个节点中选择的特征向量中心性从大到小排序的前L个节点;
F6、根据K壳中心性排序结果中K壳值从大到小排列的N个节点确定第三节点选择集合,第三节点选择集合包括:从N个节点中选择的K壳值从大到小排序的前L个节点;
F7、从第一节点选择集合、第二节点选择集合和第三节点选择集合中选择三个集合的交集所包括的节点作为针对热点事件的重要节点。
其中,在步骤F1执行之后可以执行步骤F4,在步骤F2执行之后可以执行步骤F5,在步骤F3执行之后可以执行步骤F6,也可以在步骤F1至步骤F3都执行之后再执行步骤F4至F7,通过上述三种重要性指标都可以获取到在三个集合中的前L个节点,则三个集合的交集可以是针对热点事件的重要节点,通过这种方法确定出的针对热点事件的重要节点具有更高的可信度。不限定的是,在步骤F7中描述了三个集合的交集确定针对热点事件的重要节点,另外,当三个集合之间没有交集时可以采用第一节点选择集合、第二节点选择集合和第三节点选择集合中任意两个集合之间的交集来确定热点事件的重要节点。另外,当第一节点选择集合、第二节点选择集合和第三节点选择集合中任意两个集合之间的交集都不存在时,可以采用某两个集合的并集或者三个集合的并集来确定热点事件的重要节点,具体实现方式不做限定。
通过前述实施例对本发明的举例说明可知,在本发明实施例中先配置针对的热点事件,然后根据该热点事件建立与热点事件相关的关键词,根据关键词从网页信息数据库中爬取到包括关键词的信息数据,将爬取到的信息数据保存到热点事件对应的本地数据库,因此本发明实施例中可以针对热点事件从网页信息数据库中构建出本地数据库,该本地数据库可以构建有向转发网络,再通过网络的无向化处理可以得到无向转发网络,因此构建出的无向转发网络也是针对某个热点事件而选取的,从而通过节点的重要性排序,可以确定出热点事件传播的重要用户。由于本发明实施例中并不是直接通过网页信息数据库来构建转发网络,所采用的本地数据库也是包括通过具体的关键词爬取才能构建出,因此本发明实施例中挖掘出的重要用户是特指热点事件传播中的重要用户,解决现有技术中无法针对特定事件来挖掘重要用户的问题。
为便于更好的理解和实施本发明实施例的上述方案,下面举例相应的应用场景来进行具体说明。
现有技术中存在的重要节点挖掘方法,对于新出现的、集中爆发的热点事件处理能力不足,没有考虑到识别对传播有很大推动作用的重要节点。目前的方法没有考虑到时效性的问题,这里时效性是指信息仅在一定时间段内对决策具有价值的属性。假设某事件短时间内在社交网络上广泛传播,造成巨大影响,需要尽快确定传播源及传播推手。目前的方案并不能解决这个时效性问题,本发明实施例中通过前述的方法描述去掉了那些对信息溯源的结果的准确性贡献不大的指标,只保留了时序性指标,极大提高了运算效率。接下来以微博上重要节点的挖掘为例进行说明,本发明实施例在技术上实现了信息溯源的问题,解决了现有方法时效性弱、计算效率低下的问题。增加了挖掘传播过程中的重要节点的功能,能够快速准确的找到对于信息传播有重要推动作用的节点。
首先请参阅图2和图3所示,本发明实施例中可以通过数据爬取模块使用网络爬虫、微博API收集相关热点事件的信息。具体实现步骤如下:
1、网络爬取过程。选取W组与待爬取热点事件相关的关键词,其中,对于关键词的选择,应尽可能多的去覆盖与待爬取事件相关的微博信息,对于W的选择,达到覆盖热点事件相关微博信息的最小集合,以减少爬取数据的冗余性。通过网络爬虫技术获取发布具有这组关键词的微博信息,每条的微博信息可以包含:微博发布用户ID、微博MicroBlog ID(后续简称为MID)、微博发布内容、微博发布时间、微博发布时间戳和转发列表。转发列表中包括每一条的转发微博信息,在微博信息的爬取过程中,先爬取到微博MID做判断,如果该微博信息已被爬取过,则跳过,去爬取下一个微博信息。判断本地数据库中是否存在这条微博信息,如果没有,则保存在本地数据库中。进一步获取转发列表中每一条转发的微博信息,每条转发微博信息包括:微博转发用户ID、微博MID、微博发布内容、微博发布时间、微博发布时间戳、转发的原微博MID。判断本地数据库中是否存在该条转发微博信息,如果没有,则保存在本地数据库中,网络爬虫技术的实现流程如图2所示。本发明实施例中先判断微博信息是否重复,如果不重复,把微博信息存储在微博信息库表weibo.db中,然后爬取转发列表中的每条转发微博信息,判断是否重复,如果不重复,存储到转发微博信息库表weibo_repost.db中,则微博信息库表weibo.db和转发微博信息库表weibo_repost.db可以构成本地数据库。
2、API爬取过程。考虑到微博网页中微博信息爬取的全面性,为了提高获取信息的完整性,还可以通过微博网页数据库提供的API接口获取更多的信息来完善数据。首先利用本地数据库中的微博用户ID构建搜索列表,搜索列表包含的信息有微博用户ID,通过微博网页数据库提供的API接口获取该搜索列表中所有微博用户的关注列表和粉丝列表,本地数据库中微博信息库表weibo.db中所有的微博ID,所有的关注列表和粉丝列表加上搜索列表合并去重,构建待爬取列表。遍历待爬取列表中的每一个微博用户ID,通过API接口获取该微博用户发布的微博列表。对于微博列表中的每一条微博信息,对该微博信息进行分类处理,分为转发微博和非转发微博。如果是转发微博,判断该微博转发的原微博中是否存在关键词,如果是非转发微博,判断该微博中是否存在关键词。如果这条微博信息中存在上述关键词,判断本地数据库中是否存在该微博MID,如果没有,则保存在本地数据库中,API爬取的流程如图3所示。
通过前述过程构建本地数据库之后,接下来进行网络构建的过程,根据数据爬取所获取到的数据构建信息传播网络。具体步骤如下:
首先提取转发路径,取出本地数据库中的每一条转发微博信息,利用正则表达式,例如“//@微博用户昵称:”提取转发内容中的前一个转发用户,然后把转发用户repost_user_id,被转发用户from_user_id,转发时间repost_time存储在本地数据库中。
接下来进行有向转发网络的构建。遍历本地数据库中的所有转发路径,获取所有的用户ID作为整个转发网络的节点列表node_list,然后循环把每一条转发路径转换成带有时间属性的有向边directed_edge,从而构成有向转发网络。构建出的有向转发网络包含:N个节点和所有N个节点之间的有向连边,即如果用户i转发了用户j的一条微博信息,那么这两个用户之间会存在一条由i指向j的有向边。构造带有时间属性的有向转发网络,这样可以直观地看出信息传播过程。
构建出有向转发网络之后,接下来进行网络的无向化处理,将重构的有向网络转化为无向转发网络,对有向转发网络的处理包括:将有向转发网络中的每条有向边转化为无向边,不考虑重边,因为在寻找微博源头时,需要根据信息流动方向来识别源头,所以需要先构建有向转发网络。然后可以进行信息溯源,在寻找信息传播可能的传播源时,可以将发布的微博信息中包含关键词的用户ID按时间排序,发布时间较早的用户为可能的传播源节点。
输出无向转发网络之后,接下来进行网络分析过程,可以用复杂网络中相关的节点重要性方法进行传播源识别以及重要节点挖掘。重要节点挖掘过程中需要挖掘出对传播具有重要贡献的节点。具体可以采用如下的节点重要性计算方法,按照预置的重复次数t计算无向转发网络中每个节点的重要性,本发明实施例中使用了三种节点重要性指标,其中每一次的节点重要性计算方法包括:
度中心性:计算与一个节点相连的节点个数,记为该节点的度。将节点按照度值大小进行排序,度值越大,即为该节点重要性更强。
特征向量中心性:记xi为节点Vi的基于特征向量中心性的重要性的度量,则所有节点的重要性可以表示为列向量X=[x1,x2,x3,….xn]T,对向量X赋予初值X(0),则迭代算法为:X(t)=cAX(t-1),矩阵A为网络的邻接矩阵,常数c为矩阵A的最大特征值。
K壳中心性:在第t步时去掉度为t的节点及其连边,对处理后的网络剩余部分继续去掉度为t的节点及其连边(如果存在的话),直到网络中没有度为t的节点为止,这些在第t步去掉的节点处于网络的第K壳位置。节点按照K壳排序,K壳值越大的节点,重要性越高。
在完成重要性指标计算之后,接下来进行重要节点排序,对无向图进行t次节点重要性计算处理之后,将所有节点的重要性值按降序排列,分别取所述三种方法计算出的前L个节点,三种方式选出的前L个节点的交集作为对传播过程起较大推动作用的节点。如果三个种方式没有共同交集就选取两种方式组合的交集,如果三种结果没有互不相交就选取它们的并集作为较大推动作用节点。
在本发明的一些实施例中,针对热点事件的重要节点确定之后,接下来可以基于重要节点排序所计算出的重要节点生成这些节点转发路径的可视化图,重要节点作为源头的转发路径可视化图是显示信息在这些节点间传播的有向图,从而可以直观的分析针对热点事件的某些重要节点。
在本发明的一些实施例中,还可以进行异常用户的识别,判断社交平台上某信息在传播过程中行为模式异常的用户。其中,首先进行关键邻居识别,需要识别传播源节点中邻居转发量较大的用户。主要可以包括如下步骤:
1)、非孤立的信息传播源节点的挖掘,寻找在社交网络上传播信息的源节点,并且该源节点发布的信息被转发过。
2)、信息传播源节点的一阶重要邻居的挖掘,寻找转发了上述非孤立源节点发布的信息,且它自身转发量大于预置常数k的节点,k的取值主要与热点事件本身的性质有关,取决于事件受关注的程度。如果事件比较受关注,那么k相应取大一些,如果事件不大受关注,那么k取小一些。
3)、信息传播源节点的二阶重要邻居的挖掘,寻找转发了上述一阶重要节点发布的信息,且它自身转发量大于预置常数k的节点。
4)、信息传播源节点的三阶重要邻居的挖掘,寻找转发了上述二阶重要节点发布的信息,且它自身转发量大于预置常数k的节点。
则通过前述几个步骤的重要邻居挖掘之后,源节点的一二三阶邻居转发量大于k的节点对应的用户为异常用户。
在本发明的另一些实施例中,还可以识别不断重复转发自身或者别人关于该热点事件的用户,即计算转发网络的邻接矩阵中对角线元素不为零的用户,以及转发路径形成闭环的用户。例如,形成闭环是指B转发了A的微博,C转发了B的微博,A又转发了C的微博,形成一条闭合回路,这条回路可以有两个节点,也可以三个节点以及更多。
本发明实施例中,由于采取了数据爬取构建本地数据库,所以能高效、全面的搜寻到相关数据,然后构建出爬取的基于用户的信息传播网络,极大方便了信息传播过程的分析。在网络分析过程中,基于信息传播理论计算挖掘出传播过程中的重要节点、识别信息传播的源头以及判别具有明显异常行为的用户,对于推动社交媒体平台上正面信息传播和控制负面信息传播,具有重要的指导意义。
前述实施例介绍了本发明实施例提供的事件传播过程中的用户挖掘装置,接下来请参阅图4-a所示,事件传播过程中的用户挖掘装置400,包括:
关键词获取模块401,用于根据预先配置的热点事件获取与所述热点事件相关的关键词;
数据库构建模块402,用于根据所述关键词从网页信息数据库中爬取到包括所述关键词的信息数据,将爬取到的信息数据保存到所述热点事件对应的本地数据库,每一条所述信息数据对应有一个用户标识,所述爬取到的信息数据包括:发布信息和转发信息,所述发布信息和所述转发信息之间存在转发关系;
有向转发网络构建模块403,用于根据所述本地数据库中保存的信息数据构建有向转发网络,所述有向转发网络包括:N个节点和所述N个节点之间连接两个节点的有向连边,所述有向转发网络中包括的每一个节点唯一地对应于从所述本地数据库中提取到的一个用户标识,所述有向转发网络中存在转发关系的两个用户标识对应的节点之间通过一条有向连边相连接,所述N为非零的自然数;
无向转发网络构建模块404,用于将所述有向转发网络中的每条有向连边转换为无向连边,并对转换后的所有无向连边中相同两个节点之间重复的无向连边进行删除,得到无向转发网络;
重要用户挖掘模块405,用于对所述无向转发网络中N个节点的重要性进行排序,按照重要性排序结果从排序后的N个节点中确定出针对所述热点事件的重要节点,将针对所述热点事件的重要节点对应的用户作为所述热点事件传播的重要用户。
在本发明的一些实施例中,请参阅图4-b所示,所述数据库构建模块402,包括:
网络爬取模块4021,用于通过网络爬虫技术在网页信息数据库中爬取包括所述关键词的发布信息,所述发布信息包括:信息发布用户标识、信息发布内容标识、信息发布时间和信息转发列表;
存储模块4022,用于判断所述热点事件对应的本地数据库中是否包括所述发布信息,若不包括,将所述发布信息保存到所述本地数据库中;
转发信息获取模块4023,用于从所述信息转发列表中获取转发所述发布信息的转发信息,通过所述发布信息和所述转发信息构成信息数据,所述转发信息包括:信息转发用户标识、信息转发内容标识、信息转发时间和转发的所述信息发布内容标识;
所述存储模块4022,还用于判断所述本地数据库中是否包括所述转发信息,若不包括,将所述转发信息保存到所述本地数据库中。
在本发明的一些实施例中,请参阅图4-c所示,进一步的,所述数据库构建模块402,还包括:
搜索模块4024,用于所述存储模块4022将所述转发信息保存到所述本地数据库中之后,根据所述本地数据库中保存的所有用户标识构建用户搜索列表;
API爬取模块4025,用于通过所述网页信息数据库提供的应用程序编程接口API获取所述用户搜索列表中每个用户标识对应的关注列表和粉丝列表;
列表合并模块4026,用于对所述用户搜索列表、所述关注列表和所述粉丝列表进行合并处理以及去除重复用户标识处理,得到信息待爬取列表;
所述API爬取模块4025,还用于遍历所述信息待爬取列表中的每个待爬取用户标识,通过所述网页信息数据库提供的API获取所述每个待爬取用户标识对应的信息数据;
判断模块4027,用于判断所述每个待爬取用户标识对应的信息数据是发布信息还是转发信息;
所述存储模块4022,还用于若待爬取用户标识对应的信息数据是发布信息,则判断待爬取用户标识对应的发布信息中是否包括所述关键词,当待爬取用户标识对应的发布信息中包括所述关键词时,判断所述本地数据库中是否包括待爬取用户标识对应的发布信息,若没有,将待爬取用户标识对应的发布信息保存到所述本地数据库中;
所述存储模块4023,还用于若待爬取用户标识对应的信息数据是转发信息,则判断待爬取用户标识对应的转发信息所转发的发布信息中是否包括所述关键词,当待爬取用户标识对应的转发信息所转发的发布信息中包括所述关键词时,判断所述本地数据库中是否包括待爬取用户标识对应的转发信息所转发的发布信息,若没有,将待爬取用户标识对应的转发信息所转发的发布信息保存到所述本地数据库中。
在本发明的一些实施例中,请参阅图4-d所示,所述有向转发网络构建模块403,包括:
转发路径提取模块4031,用于从所述本地数据库中保存的信息数据提取出多条转发路径,所述转发路径包括:转发信息的用户标识、被转发信息的用户标识和转发信息时间;
节点搜索模块4032,用于遍历所有转发路径,获取所有的用户标识作为节点列表,所述节点列表中包括有N个节点;
有向连边创建模块4033,用于把所述所有转发路径分别转换为带有时间属性的有向连边;
组合模块4034,用于通过所述节点列表中的N个节点以及所述带有时间属性的有向连边组合在一起,得到有向转发网络。
在本发明的一些实施例中,请参阅图4-e所示,所述事件传播过程中的用户挖掘装置400还包括:异常用户识别模块406,用于所述组合模块通过所述节点列表中的N个节点以及所述带有时间属性的有向连边构建有向转发网络之后,从所述有向转发网络中查找出所述有向转发网络的邻接矩阵中对角线元素不为零的节点,将所述有向转发网络的邻接矩阵中对角线元素不为零的节点确定为异常用户;和/或,从所述有向转发网络中查找出转发路径形成闭环的节点,将所述有向转发网络中转发路径形成闭环的节点确定为异常用户。
在本发明的一些实施例中,所述重要用户挖掘模块405,具体用于按照度中心性指标计算所述无向转发网络中每个节点的度值,并按照度值大小对所述N个节点进行重要性排序,得到度中心性排序结果;和/或,按照特征向量中心性指标计算所述无向转发网络中每个节点的特征向量中心性,并按照特征向量中心性大小对所述N个节点进行重要性排序,得到特征向量中心性排序结果;和/或,按照K壳中心性指标计算所述无向转发网络中每个节点的K壳值,并按照K壳值大小对所述N个节点进行重要性排序,得到K壳中心性排序结果。
在本发明的一些实施例中,所述重要性排序结果,包括:度中心性排序结果、特征向量中心性排序结果和K壳中心性排序结果;
所述重要用户挖掘模块405,具体用于根据所述度中心性排序结果中度值从大到小排列的N个节点确定第一节点选择集合,所述第一节点选择集合包括:从N个节点中选择的度值从大到小排序的前L个节点,所述L为预置的且小于所述N的自然数;根据所述特征向量中心性排序结果中特征向量中心性从大到小排列的N个节点确定第二节点选择集合,所述第二节点选择集合包括:从N个节点中选择的特征向量中心性从大到小排序的前L个节点;根据所述K壳中心性排序结果中K壳值从大到小排列的N个节点确定第三节点选择集合,所述第三节点选择集合包括:从N个节点中选择的K壳值从大到小排序的前L个节点;从所述第一节点选择集合、所述第二节点选择集合和所述第三节点选择集合中选择三个集合的交集所包括的节点作为针对所述热点事件的重要节点。
在本发明的一些实施例中,请参阅图4-f所示,所述事件传播过程中的用户挖掘装置,还包括:节点溯源模块407,用于所述有向转发网络构建模块根据所述本地数据库中保存的信息数据构建有向转发网络之后,根据节点之间的有向连边从所述有向转发网络中搜索发布信息的用户标识,并将搜索到的发布信息的用户标识按照发布时间的先后进行排序,将发布时间早于预置时间点的用户标识确定为热点事件传播的源节点。
在本发明的一些实施例中,请参阅图4-g所示,所述事件传播过程中的用户挖掘装置,还包括:关键邻居识别模块408和异常用户识别模块406,其中,
所述关键邻居识别模块408,用于所述节点溯源模块将发布时间早于预置时间点的用户标识确定为热点事件传播的源节点之后,从所述热点事件传播的源节点中查找出其对应的发布信息被转发过的源节点,得到非孤立源节点;从所述有向转发网络中查找出转发所述非孤立源节点对应的发布信息、且自身转发量大于预置的异常参数的用户标识,得到一阶重要邻居节点;从所述有向转发网络中查找出转发所述一阶重要邻居节点对应的发布信息、且自身转发量大于所述异常参数的用户标识,得到二阶重要邻居节点;从所述有向转发网络中查找出转发所述二阶重要邻居节点对应的发布信息、且自身转发量大于所述异常参数的用户标识,得到三阶重要邻居节点;
所述异常用户识别模块406,用于若所述有向转发网络中存在具有一阶重要邻居节点、二阶重要邻居节点、三阶重要邻居节点的所述非孤立源节点,则确定具有一阶重要邻居节点、二阶重要邻居节点、三阶重要邻居节点的非孤立源节点为异常用户。
通过前述实施例对本发明的举例说明可知,在本发明实施例中先配置针对的热点事件,然后根据该热点事件建立与热点事件相关的关键词,根据关键词从网页信息数据库中爬取到包括关键词的信息数据,将爬取到的信息数据保存到热点事件对应的本地数据库,因此本发明实施例中可以针对热点事件从网页信息数据库中构建出本地数据库,该本地数据库可以构建有向转发网络,再通过网络的无向化处理可以得到无向转发网络,因此构建出的无向转发网络也是针对某个热点事件而选取的,从而通过节点的重要性排序,可以确定出热点事件传播的重要用户。由于本发明实施例中并不是直接通过网页信息数据库来构建转发网络,所采用的本地数据库也是包括通过具体的关键词爬取才能构建出,因此本发明实施例中挖掘出的重要用户是特指热点事件传播中的重要用户,解决现有技术中无法针对特定事件来挖掘重要用户的问题。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
综上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照上述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对上述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种事件传播过程中的用户挖掘方法,其特征在于,包括:
根据预先配置的热点事件获取与所述热点事件相关的关键词;
根据所述关键词从网页信息数据库中爬取到包括所述关键词的信息数据,将爬取到的信息数据保存到所述热点事件对应的本地数据库,每一条所述信息数据对应有一个用户标识,所述爬取到的信息数据包括:发布信息和转发信息,所述发布信息和所述转发信息之间存在转发关系;
根据所述本地数据库中保存的信息数据构建有向转发网络,所述有向转发网络包括:N个节点和所述N个节点之间连接两个节点的有向连边,所述有向转发网络中包括的每一个节点唯一地对应于从所述本地数据库中提取到的一个用户标识,所述有向转发网络中存在转发关系的两个用户标识对应的节点之间通过一条有向连边相连接,所述N为非零的自然数;
将所述有向转发网络中的每条有向连边转换为无向连边,并对转换后的所有无向连边中相同两个节点之间重复的无向连边进行删除,得到无向转发网络;
对所述无向转发网络中N个节点的重要性进行排序,按照重要性排序结果从排序后的N个节点中确定出针对所述热点事件的重要节点,将针对所述热点事件的重要节点对应的用户作为所述热点事件传播的重要用户。
2.根据权利要求1所述的方法,其特征在于,所述根据所述关键词从网页信息数据库中爬取到包括所述关键词的信息数据,将爬取到的信息数据保存到所述热点事件对应的本地数据库,包括:
通过网络爬虫技术在网页信息数据库中爬取包括所述关键词的发布信息,所述发布信息包括:信息发布用户标识、信息发布内容标识、信息发布时间和信息转发列表;
判断所述热点事件对应的本地数据库中是否包括所述发布信息,若不包括,将所述发布信息保存到所述本地数据库中;
从所述信息转发列表中获取转发所述发布信息的转发信息,通过所述发布信息和所述转发信息构成信息数据,所述转发信息包括:信息转发用户标识、信息转发内容标识、信息转发时间和转发的所述信息发布内容标识;
判断所述本地数据库中是否包括所述转发信息,若不包括,将所述转发信息保存到所述本地数据库中。
3.根据权利要求2所述的方法,其特征在于,所述根据所述关键词从网页信息数据库中爬取到包括所述关键词的信息数据,将爬取到的信息数据保存到所述热点事件对应的本地数据库,还包括:
将所述转发信息保存到所述本地数据库中之后,根据所述本地数据库中保存的所有用户标识构建用户搜索列表;
通过所述网页信息数据库提供的应用程序编程接口API获取所述用户搜索列表中每个用户标识对应的关注列表和粉丝列表;
对所述用户搜索列表、所述关注列表和所述粉丝列表进行合并处理以及去除重复用户标识处理,得到信息待爬取列表;
遍历所述信息待爬取列表中的每个待爬取用户标识,通过所述网页信息数据库提供的API获取所述每个待爬取用户标识对应的信息数据;
判断所述每个待爬取用户标识对应的信息数据是发布信息还是转发信息;
若待爬取用户标识对应的信息数据是发布信息,则判断待爬取用户标识对应的发布信息中是否包括所述关键词,当待爬取用户标识对应的发布信息中包括所述关键词时,判断所述本地数据库中是否包括待爬取用户标识对应的发布信息,若没有,将待爬取用户标识对应的发布信息保存到所述本地数据库中;
若待爬取用户标识对应的信息数据是转发信息,则判断待爬取用户标识对应的转发信息所转发的发布信息中是否包括所述关键词,当待爬取用户标识对应的转发信息所转发的发布信息中包括所述关键词时,判断所述本地数据库中是否包括待爬取用户标识对应的转发信息所转发的发布信息,若没有,将待爬取用户标识对应的转发信息所转发的发布信息保存到所述本地数据库中。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述对所述无向转发网络中N个节点的重要性进行排序,包括:
按照度中心性指标计算所述无向转发网络中每个节点的度值,并按照度值大小对所述N个节点进行重要性排序,得到度中心性排序结果;和/或,
按照特征向量中心性指标计算所述无向转发网络中每个节点的特征向量中心性,并按照特征向量中心性大小对所述N个节点进行重要性排序,得到特征向量中心性排序结果;和/或,
按照K壳中心性指标计算所述无向转发网络中每个节点的K壳值,并按照K壳值大小对所述N个节点进行重要性排序,得到K壳中心性排序结果。
5.根据权利要求4所述的方法,其特征在于,所述重要性排序结果,包括:度中心性排序结果、特征向量中心性排序结果和K壳中心性排序结果;
所述按照重要性排序结果从排序后的N个节点中确定出针对所述热点事件的重要节点,包括:
根据所述度中心性排序结果中度值从大到小排列的N个节点确定第一节点选择集合,所述第一节点选择集合包括:从N个节点中选择的度值从大到小排序的前L个节点,所述L为预置的且小于所述N的自然数;
根据所述特征向量中心性排序结果中特征向量中心性从大到小排列的N个节点确定第二节点选择集合,所述第二节点选择集合包括:从N个节点中选择的特征向量中心性从大到小排序的前L个节点;
根据所述K壳中心性排序结果中K壳值从大到小排列的N个节点确定第三节点选择集合,所述第三节点选择集合包括:从N个节点中选择的K壳值从大到小排序的前L个节点;
从所述第一节点选择集合、所述第二节点选择集合和所述第三节点选择集合中选择三个集合的交集所包括的节点作为针对所述热点事件的重要节点。
6.根据权利要求1至3中任一项所述的方法,其特征在于,所述根据所述本地数据库中保存的信息数据构建有向转发网络之后,所述方法还包括:
根据节点之间的有向连边从所述有向转发网络中搜索发布信息的用户标识,并将搜索到的发布信息的用户标识按照发布时间的先后进行排序,将发布时间早于预置时间点的用户标识确定为热点事件传播的源节点。
7.根据权利要求6所述的方法,其特征在于,所述将发布时间早于预置时间点的用户标识确定为热点事件传播的源节点之后,所述方法还包括:
从所述热点事件传播的源节点中查找出其对应的发布信息被转发过的源节点,得到非孤立源节点;
从所述有向转发网络中查找出转发所述非孤立源节点对应的发布信息、且自身转发量大于预置的异常参数的用户标识,得到一阶重要邻居节点;
从所述有向转发网络中查找出转发所述一阶重要邻居节点对应的发布信息、且自身转发量大于所述异常参数的用户标识,得到二阶重要邻居节点;
从所述有向转发网络中查找出转发所述二阶重要邻居节点对应的发布信息、且自身转发量大于所述异常参数的用户标识,得到三阶重要邻居节点;
若所述有向转发网络中存在具有一阶重要邻居节点、二阶重要邻居节点、三阶重要邻居节点的所述非孤立源节点,则确定具有一阶重要邻居节点、二阶重要邻居节点、三阶重要邻居节点的非孤立源节点为异常用户。
8.一种事件传播过程中的用户挖掘装置,其特征在于,包括:
关键词获取模块,用于根据预先配置的热点事件获取与所述热点事件相关的关键词;
数据库构建模块,用于根据所述关键词从网页信息数据库中爬取到包括所述关键词的信息数据,将爬取到的信息数据保存到所述热点事件对应的本地数据库,每一条所述信息数据对应有一个用户标识,所述爬取到的信息数据包括:发布信息和转发信息,所述发布信息和所述转发信息之间存在转发关系;
有向转发网络构建模块,用于根据所述本地数据库中保存的信息数据构建有向转发网络,所述有向转发网络包括:N个节点和所述N个节点之间连接两个节点的有向连边,所述有向转发网络中包括的每一个节点唯一地对应于从所述本地数据库中提取到的一个用户标识,所述有向转发网络中存在转发关系的两个用户标识对应的节点之间通过一条有向连边相连接,所述N为非零的自然数;
无向转发网络构建模块,用于将所述有向转发网络中的每条有向连边转换为无向连边,并对转换后的所有无向连边中相同两个节点之间重复的无向连边进行删除,得到无向转发网络;
重要用户挖掘模块,用于对所述无向转发网络中N个节点的重要性进行排序,按照重要性排序结果从排序后的N个节点中确定出针对所述热点事件的重要节点,将针对所述热点事件的重要节点对应的用户作为所述热点事件传播的重要用户。
9.根据权利要求8所述的装置,其特征在于,所述数据库构建模块,包括:
网络爬取模块,用于通过网络爬虫技术在网页信息数据库中爬取包括所述关键词的发布信息,所述发布信息包括:信息发布用户标识、信息发布内容标识、信息发布时间和信息转发列表;
存储模块,用于判断所述热点事件对应的本地数据库中是否包括所述发布信息,若不包括,将所述发布信息保存到所述本地数据库中;
转发信息获取模块,用于从所述信息转发列表中获取转发所述发布信息的转发信息,通过所述发布信息和所述转发信息构成信息数据,所述转发信息包括:信息转发用户标识、信息转发内容标识、信息转发时间和转发的所述信息发布内容标识;
所述存储模块,还用于判断所述本地数据库中是否包括所述转发信息,若不包括,将所述转发信息保存到所述本地数据库中。
10.根据权利要求9所述的装置,其特征在于,所述数据库构建模块,还包括:
搜索模块,用于所述存储模块将所述转发信息保存到所述本地数据库中之后,根据所述本地数据库中保存的所有用户标识构建用户搜索列表;
API爬取模块,用于通过所述网页信息数据库提供的应用程序编程接口API获取所述用户搜索列表中每个用户标识对应的关注列表和粉丝列表;
列表合并模块,用于对所述用户搜索列表、所述关注列表和所述粉丝列表进行合并处理以及去除重复用户标识处理,得到信息待爬取列表;
所述API爬取模块,还用于遍历所述信息待爬取列表中的每个待爬取用户标识,通过所述网页信息数据库提供的API获取所述每个待爬取用户标识对应的信息数据;
判断模块,用于判断所述每个待爬取用户标识对应的信息数据是发布信息还是转发信息;
所述存储模块,还用于若待爬取用户标识对应的信息数据是发布信息,则判断待爬取用户标识对应的发布信息中是否包括所述关键词,当待爬取用户标识对应的发布信息中包括所述关键词时,判断所述本地数据库中是否包括待爬取用户标识对应的发布信息,若没有,将待爬取用户标识对应的发布信息保存到所述本地数据库中;
所述存储模块,还用于若待爬取用户标识对应的信息数据是转发信息,则判断待爬取用户标识对应的转发信息所转发的发布信息中是否包括所述关键词,当待爬取用户标识对应的转发信息所转发的发布信息中包括所述关键词时,判断所述本地数据库中是否包括待爬取用户标识对应的转发信息所转发的发布信息,若没有,将待爬取用户标识对应的转发信息所转发的发布信息保存到所述本地数据库中。
CN201610524632.7A 2016-06-30 2016-06-30 一种事件传播过程中的用户挖掘方法和装置 Pending CN106126740A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610524632.7A CN106126740A (zh) 2016-06-30 2016-06-30 一种事件传播过程中的用户挖掘方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610524632.7A CN106126740A (zh) 2016-06-30 2016-06-30 一种事件传播过程中的用户挖掘方法和装置

Publications (1)

Publication Number Publication Date
CN106126740A true CN106126740A (zh) 2016-11-16

Family

ID=57468643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610524632.7A Pending CN106126740A (zh) 2016-06-30 2016-06-30 一种事件传播过程中的用户挖掘方法和装置

Country Status (1)

Country Link
CN (1) CN106126740A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107135153A (zh) * 2017-04-28 2017-09-05 常州工学院 基于传播路径逆向追溯的信源和影响力节点定位方法
CN111324789A (zh) * 2020-02-13 2020-06-23 创新奇智(上海)科技有限公司 一种网络信息数据热度的计算方法
CN112071435A (zh) * 2020-09-09 2020-12-11 北京百度网讯科技有限公司 无向关系至有向关系转换方法、装置、设备以及存储介质
CN112612944A (zh) * 2020-12-07 2021-04-06 深圳价值在线信息科技股份有限公司 一种案例信息管理方法、终端设备及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090300150A1 (en) * 2008-05-27 2009-12-03 Raymond Harry Putra Rudy Information processing system, method and program for classifying network nodes
CN103345535A (zh) * 2013-07-26 2013-10-09 人民搜索网络股份公司 一种微博用户挖掘方法及装置
CN104866586A (zh) * 2015-05-28 2015-08-26 中国科学院计算技术研究所 用于计算社会媒体中信息传播节点重要性的方法及系统
CN104954236A (zh) * 2015-06-19 2015-09-30 百度在线网络技术(北京)有限公司 为主题事件生成传播路径的信息的方法和装置
CN105243122A (zh) * 2015-09-29 2016-01-13 浪潮电子信息产业股份有限公司 一种基于社交软件的数据获取方法及装置
CN105723402A (zh) * 2013-10-25 2016-06-29 西斯摩斯公司 用于确定社交数据网络中的影响者的系统和方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090300150A1 (en) * 2008-05-27 2009-12-03 Raymond Harry Putra Rudy Information processing system, method and program for classifying network nodes
CN103345535A (zh) * 2013-07-26 2013-10-09 人民搜索网络股份公司 一种微博用户挖掘方法及装置
CN105723402A (zh) * 2013-10-25 2016-06-29 西斯摩斯公司 用于确定社交数据网络中的影响者的系统和方法
CN104866586A (zh) * 2015-05-28 2015-08-26 中国科学院计算技术研究所 用于计算社会媒体中信息传播节点重要性的方法及系统
CN104954236A (zh) * 2015-06-19 2015-09-30 百度在线网络技术(北京)有限公司 为主题事件生成传播路径的信息的方法和装置
CN105243122A (zh) * 2015-09-29 2016-01-13 浪潮电子信息产业股份有限公司 一种基于社交软件的数据获取方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨雄等: "探测和评估复杂网络影响力节点的路径多样性核度中心方法", 《高技术通讯》 *
纪雪梅: "特定事件情境下中文微博用户情感挖掘与传播研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107135153A (zh) * 2017-04-28 2017-09-05 常州工学院 基于传播路径逆向追溯的信源和影响力节点定位方法
CN111324789A (zh) * 2020-02-13 2020-06-23 创新奇智(上海)科技有限公司 一种网络信息数据热度的计算方法
CN112071435A (zh) * 2020-09-09 2020-12-11 北京百度网讯科技有限公司 无向关系至有向关系转换方法、装置、设备以及存储介质
CN112071435B (zh) * 2020-09-09 2023-07-18 北京百度网讯科技有限公司 无向关系至有向关系转换方法、装置、设备以及存储介质
CN112612944A (zh) * 2020-12-07 2021-04-06 深圳价值在线信息科技股份有限公司 一种案例信息管理方法、终端设备及系统
CN112612944B (zh) * 2020-12-07 2024-05-31 深圳价值在线信息科技股份有限公司 一种案例信息管理方法、终端设备及系统

Similar Documents

Publication Publication Date Title
Kong et al. k-core: Theories and applications
CN106126740A (zh) 一种事件传播过程中的用户挖掘方法和装置
CN103324796B (zh) 一种大规模集成电路设计中的绕障直角斯坦纳树构造方法
CN105721279B (zh) 一种电信网络用户的交往圈挖掘方法及系统
CN103678436B (zh) 信息处理系统和信息处理方法
Yue et al. Recent activities in Earth data science [technical committees]
CN105869053A (zh) 基于两阶段memetic的社交网络影响最大化方法
Gao et al. An improved clonal selection algorithm and its application to traveling salesman problems
CN106022568A (zh) 一种工作流的处理方法和装置
CN107895038A (zh) 一种链路预测关系推荐方法及装置
CN110825948A (zh) 基于促谣-辟谣消息和表示学习的谣言传播控制方法
CN104765729A (zh) 一种跨平台微博社区账户匹配方法
CN105528407A (zh) 一种获取l个具有最佳传播影响力用户的方法和装置
Miller et al. Tradeoffs between cost and information for rendezvous and treasure hunt
CN104361462B (zh) 基于文化基因算法的社交网络影响最大化方法
Sun et al. An artificial bee colony algorithm with random location updating
CN107123055A (zh) 一种基于PageRank的社交大数据信息最大化方法
CN109388751A (zh) 一种智能情报收集推送系统、模块及方法
Yousuf et al. Guided sampling for large graphs
CN105069003B (zh) 一种基于转发链相似度的用户关注对象推荐计算方法
CN103559318A (zh) 对异质信息网络包含的对象进行排序的方法
CN103051476B (zh) 基于拓扑分析的网络社区发现方法
Nia et al. Leveraging social interactions to suggest friends
CN107977726B (zh) 用户关系预测模型的建立及用户动态关系的预测方法
CN113806642A (zh) 一种社交网络快速最大团和极大团搜索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161116

RJ01 Rejection of invention patent application after publication