CN110489658A - 基于双图模型的在线社交网络意见领袖挖掘方法 - Google Patents

基于双图模型的在线社交网络意见领袖挖掘方法 Download PDF

Info

Publication number
CN110489658A
CN110489658A CN201910631934.8A CN201910631934A CN110489658A CN 110489658 A CN110489658 A CN 110489658A CN 201910631934 A CN201910631934 A CN 201910631934A CN 110489658 A CN110489658 A CN 110489658A
Authority
CN
China
Prior art keywords
user
microblogging
opinion
leader
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910631934.8A
Other languages
English (en)
Inventor
薛哲
杜军平
袁训普
崔婉秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910631934.8A priority Critical patent/CN110489658A/zh
Publication of CN110489658A publication Critical patent/CN110489658A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Software Systems (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种基于双图模型的在线社交网络意见领袖挖掘方法。算法包括三个部分:基于用户关注关系的用户图模型构建、基于微博相似性的微博图模型构建和基于双图模型融合的意见领袖挖掘。理论系统完备,创新性突出,主要用于在线社交网路中的意见领袖挖掘。该发明对意见领袖进行实时监控和跟踪,维护国民安全,具有重要的实用价值。

Description

基于双图模型的在线社交网络意见领袖挖掘方法
技术领域
本发明属于社交网络文本处理技术领域,具体涉及集成多种技术,如微博相似性计算、传播计算等,实现基于双图模型的在线社交网络意见领袖挖掘方法。
背景技术
意见领袖会主导着话题言论的发展方向,引导着话题发展方向,如果意见领袖在社交网络平台上以特殊的政治目的传播或发布一些虚幻、虚假的信息,诱使不明真相的用户转发和传播,会严重危害国民安全。因此对在线社交网络意见领袖进行挖掘,并对意见领袖进行实时监控和跟踪,维护国民安全,具有重要的研究意义。国内外的研究现状表明,现有的方法大都是局限于用户,仅考虑用户间的关系,而忽视了微博内容之间的相关性。
本发明提出了基于双图模型的在线社交网络意见领袖挖掘方法,全面考虑用户间关系,微博间的关系以及用户与微博间的关系,并从三个方面进行研究。在用户图模型构建中,根据用户自身属性和用户间的关注关系,构建出用户图模型;在微博图模型构建中,利用微博间的相似度,构建出微博图模型;基于用户图模型和微博图模型,并结合用户与微博的关系,将两模型融合成统一的双图模型,然后根据权值传播算法计算,挖掘出意见领袖。发明的意见领袖挖掘算法在意见领袖挖掘上表现出更好的效果。
发明内容
本发明所提出的基于双图模型的在线社交网络意见领袖挖掘方法,利用用户粉丝数、微博数、关注数计算得到用户自身属性,并将其当作用户节点初始权值,再根据用户间的关注关系,构建出用户图模型;采用共现关系计算出微博间的相似度,当相似度超过指定阈值,则将两微博连接,构建出微博图模型;结合用户与微博的关系,用微博之间的相关性来补充用户之间关系,形成统一的双图模型,然后根据权值传播算法计算,得出用户节点的影响得分,并进行排名,根据排名挖掘出意见领袖。
为达到上述目的,如图1所示,本发明的技术方案划分为三个部分:
1.基于用户关注关系的用户图模型构建;
2.基于微博相似性的微博图模型构建;
3.基于双图模型融合的意见领袖挖掘;
本发明有以下一些技术特征:
(1)基于用户关注关系的用户图模型构建,在用户属性计算上进行了优化,用户属性选取的是用户的粉丝数、微博数、关注数。考虑到用户的这些属性都具有很大的值,比如有些用户的粉丝基数少只有几十个,而有的用户粉丝数可以达到几千万,这其中的跨度太大。对粉丝数、微博数、关注数等进行差距缩小,并赋予相应的权值具有更好的效果。
(2)提出的基于微博相似性的微博图模型构建,计算出微博间的相似度,确定微博间的关系,提高算法准确度。
(3)提出基于双图模型融合的意见领袖挖掘,不仅考虑用户间的关系,还加上了用户所发的微博间的关系,用微博之间的相关性来补充用户之间关系,形成统一的双图模型,提高意见领袖识别的有效性和准确性。
本发明提出了一种基于双图模型的在线社交网络意见领袖挖掘方法,理论系统完备,创新性突出,主要用于社交网络意见领袖挖掘中。本发明应用在文本处理领域,对意见领袖进行实时监控和跟踪,维护国民安全,具有重要的实用价值。
附图说明
图1为基于双图模型的意见领袖挖掘算法整体结构图;
图2为基于用户关注关系的用户图模型构建算法图;
图3为基于微博相似性的微博图模型构建算法图;
图4为基于双图模型融合的意见领袖挖掘算法图;
具体实施方式
为使本发明的目的、算法计算及优点更加清楚明白,以下参照附图对本发明做进一步详细地说明。本发明算法的具体实现分为以下几步:
1.基于用户关注关系的用户图模型构建
以LeaderRank模型为原型,构建用户图模型。用户图模型是由节点和有向边两种元素构成,节点是指用户节点,有向边表示用户之间有关系,比如用户A关注用户B,则就有一有向边从节点A指向节点B。而节点用V表示,边用E表示。最后增加一个全局节点将所有用户节点连接,这样可得到一个全连通图,即保证最后用户节点排序只有一个。用户属性选取的是用户的粉丝数、微博数、关注数。考虑到用户的这些属性都具有很大的值,比如有些用户的粉丝基数少,只有几十个,而有的用户粉丝数可以达到几千万,这其中的跨度太大。经过实验,对粉丝数、微博数、关注数等进行差距缩小,并赋予相应的权值具有更好的效果。具体计算公式如式(1):
Wi=α1 log10 N12 log10 N23 log10 N3 (1)
其中Wi代表用户i的属性权值,N1代表粉丝数,N2代表微博数,N2代表关注数,α代表相应的权值分别取0.5,0.3,0.2,是考虑到粉丝数、微博数、关注数等重要程度逐渐降低。并用log来降低差距,以达到更好的实验效果。算法具体实现步骤:
步骤1:读取用户粉丝数、微博数、关注数,然后计算出用户i的属性权值Wi
步骤2:读取用户列表,并结合用户权值,构建只含用户节点V的图G
步骤3:读取用户关注关系,如果用户节点V1关注用户节点V2,则加上V1指向V2的一条边
步骤4:加上一个全局节点g,让所有用户节点指向节点g,最后得到用户图模型
基于用户关注关系的用户图模型构建算法如图2所示。
2.基于微博相似性的微博图模型构建
基于微博相似度构建微博图模型。微博之间相似度计算是采用共现关系,它们对应的词汇在长度为K的窗口中共现个数,K表示窗口大小,即最多共现K个单词。具体公式如式(2):
Mi和Mj代表两条微博,w代表其中词语,分子部分的意思是同时出现在两条微博中的同一个词的数量,分母是对句子中词的个数求对数后求和,这样设计可以遏制较长的微博在相似度计算上的优势。根据公式可计算出微博间相似度,再结合相似度阈值可构建微博图模型。算法具体实现步骤如下:
步骤1:读取微博集合
步骤2:对微博进行分词,并过滤掉停用词
步骤3:采用共现关系计算微博间相似度
步骤4:微博为节点,微博相似度为边,两个节点之间存在边仅当两点间相似度大于阈值
步骤5:最后得到微博图模型
基于微博相似性的微博图模型构建算法如图3所示。
3.基于双图模型融合的意见领袖挖掘
结合用户与微博间的关系将用户图模型和微博图模型进行融合,形成统一的双图模型。如果用户节点V1发的微博与用户节点V2发的微博之间存在边,则认为V1和V2之间有关系,并且会互相影响,所以在用户图模型中增加V1指向V2的边和V2指向V1的边。最终将两个图模型进行融合得到统一的双图模型。用户初始节点权值是用户自身属性,再利用公式(3)进行权值传播计算:
Wi代表用户的权值,ε代表阻尼系数,取值0.85,Vj代表第j个用户节点,O(Vj)代表用户节点Vj的出链数,即权值平分给其他用户节点。最后得到用户节点最终权值并进行排序,可得到用户权值排名。可认为排名靠前的就是意见领袖。算法具体实现步骤如下:
步骤1:读取微博图模型G1,用户图模型G2
步骤2:读取G1中的每一条边Ei,将Ei中微博节点对应的用户节点相连
步骤3:在融合的模型中增加一个全局节点Vg,使所有节点都指向Vg,从而构建成一个全连通的双图模型
步骤4:采用公式进行权值传播计算,迭代100次或者节点权值变化小于1时结束迭代。
步骤5:将Vg的权值平分给所有节点,得到最终的节点权值
步骤6:将节点根据权值进行排序,得到意见领袖排名
基于双图模型的在线社交网络意见领袖挖掘方法如图4所示。

Claims (4)

1.基于双图模型的在线社交网络意见领袖挖掘方法,其特征在于,该方法包括:
基于用户关注关系的用户图模型构建;
基于微博相似性的微博图模型构建;
基于双图模型融合的意见领袖挖掘。
2.根据权利要求1所述的方法,其特征在于,结合用户自身属性以及用户间的关注关系进行用户图模型构建。
3.根据权利要求1所述的方法,其特征在于,通过对微博进行处理并进行微博间的相似度计算,构建微博图模型。
4.根据权利要求1所述的方法,其特征在于,不仅考虑用户间的关系,还利用了微博间的关系、以及用户和微博之间的相关性,形成统一的双图模型,然后结合权值传播算法,提高意见领袖识别的有效性和准确性。
CN201910631934.8A 2019-07-12 2019-07-12 基于双图模型的在线社交网络意见领袖挖掘方法 Pending CN110489658A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910631934.8A CN110489658A (zh) 2019-07-12 2019-07-12 基于双图模型的在线社交网络意见领袖挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910631934.8A CN110489658A (zh) 2019-07-12 2019-07-12 基于双图模型的在线社交网络意见领袖挖掘方法

Publications (1)

Publication Number Publication Date
CN110489658A true CN110489658A (zh) 2019-11-22

Family

ID=68546067

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910631934.8A Pending CN110489658A (zh) 2019-07-12 2019-07-12 基于双图模型的在线社交网络意见领袖挖掘方法

Country Status (1)

Country Link
CN (1) CN110489658A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460317A (zh) * 2020-03-30 2020-07-28 北京百分点信息科技有限公司 一种意见领袖的识别方法、装置和设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102890702A (zh) * 2012-07-19 2013-01-23 中国人民解放军国防科学技术大学 一种面向网络论坛的意见领袖挖掘方法
CN103150333A (zh) * 2013-01-26 2013-06-12 安徽博约信息科技有限责任公司 微博媒体中的意见领袖识别方法
CN103279484A (zh) * 2013-04-23 2013-09-04 中国科学院计算技术研究所 一种面向微博客系统中未来意见领袖的创建方法及系统
WO2014123929A1 (en) * 2013-02-05 2014-08-14 Morningside Analytics, Llc System and method for classifying a contagious phenomenon propagating on a network
CN107305545A (zh) * 2016-04-18 2017-10-31 南京理工大学 一种基于文本倾向性分析的网络意见领袖的识别方法
CN107633260A (zh) * 2017-08-23 2018-01-26 上海师范大学 一种基于聚类的社交网络意见领袖挖掘方法
CN107729455A (zh) * 2017-09-25 2018-02-23 山东科技大学 一种基于多维特征分析的社交网络意见领袖排序算法
WO2018146637A1 (en) * 2017-02-13 2018-08-16 Moi Media Ltd. A system and method for matching opinion leaders with advertisers over social networks
CN108509551A (zh) * 2018-03-19 2018-09-07 西北大学 一种基于Spark环境下的微博网络关键用户挖掘系统及方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102890702A (zh) * 2012-07-19 2013-01-23 中国人民解放军国防科学技术大学 一种面向网络论坛的意见领袖挖掘方法
CN103150333A (zh) * 2013-01-26 2013-06-12 安徽博约信息科技有限责任公司 微博媒体中的意见领袖识别方法
WO2014123929A1 (en) * 2013-02-05 2014-08-14 Morningside Analytics, Llc System and method for classifying a contagious phenomenon propagating on a network
CN103279484A (zh) * 2013-04-23 2013-09-04 中国科学院计算技术研究所 一种面向微博客系统中未来意见领袖的创建方法及系统
CN107305545A (zh) * 2016-04-18 2017-10-31 南京理工大学 一种基于文本倾向性分析的网络意见领袖的识别方法
WO2018146637A1 (en) * 2017-02-13 2018-08-16 Moi Media Ltd. A system and method for matching opinion leaders with advertisers over social networks
CN107633260A (zh) * 2017-08-23 2018-01-26 上海师范大学 一种基于聚类的社交网络意见领袖挖掘方法
CN107729455A (zh) * 2017-09-25 2018-02-23 山东科技大学 一种基于多维特征分析的社交网络意见领袖排序算法
CN108509551A (zh) * 2018-03-19 2018-09-07 西北大学 一种基于Spark环境下的微博网络关键用户挖掘系统及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460317A (zh) * 2020-03-30 2020-07-28 北京百分点信息科技有限公司 一种意见领袖的识别方法、装置和设备

Similar Documents

Publication Publication Date Title
Li et al. A unified MRC framework for named entity recognition
De Cao et al. Autoregressive entity retrieval
Zhang et al. Expert finding in a social network
CN112560501B (zh) 语义特征的生成方法、模型训练方法、装置、设备及介质
Sun et al. Summarization of scientific paper through reinforcement ranking on semantic link network
Clarke Context-theoretic semantics for natural language: an overview
Dutta et al. A graph based clustering technique for tweet summarization
Weir et al. Aligning packed dependency trees: a theory of composition for distributional semantics
CN106126605A (zh) 一种基于用户画像的短文本分类方法
Özsert et al. Word polarity detection using a multilingual approach
Huang et al. Enriching cold start personalized language model using social network information
CN114281965A (zh) 信息检索方法、装置、电子设备和存储介质
Jain et al. Renewable energy sources for clean environment: opinion mining
CN103106264B (zh) 一种地名匹配方法及装置
El Vaigh et al. Using knowledge base semantics in context-aware entity linking
CN110489658A (zh) 基于双图模型的在线社交网络意见领袖挖掘方法
Huang et al. DEER: Descriptive knowledge graph for explaining entity relationships
Cao et al. Automatic evaluation of summary on fidelity, conciseness and coherence for text summarization based on semantic link network
Yan et al. Sentence similarity calculation based on probabilistic tolerance rough sets
Garrouch et al. Bayesian network based information retrieval model
Faber et al. Linking a domain-specific ontology to a general ontology
Saha et al. Regularized and retrofitted models for learning sentence representation with context
CN110083835A (zh) 一种基于图和词句协同的关键词提取方法及装置
Ying et al. Review of text analysis based on deep learning
CN110019708A (zh) 聊天机器人的语料生成方法及装置、存储介质、服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191122

WD01 Invention patent application deemed withdrawn after publication