CN110489658A - 基于双图模型的在线社交网络意见领袖挖掘方法 - Google Patents
基于双图模型的在线社交网络意见领袖挖掘方法 Download PDFInfo
- Publication number
- CN110489658A CN110489658A CN201910631934.8A CN201910631934A CN110489658A CN 110489658 A CN110489658 A CN 110489658A CN 201910631934 A CN201910631934 A CN 201910631934A CN 110489658 A CN110489658 A CN 110489658A
- Authority
- CN
- China
- Prior art keywords
- user
- microblogging
- opinion
- leader
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 15
- 230000004927 fusion Effects 0.000 claims abstract description 7
- 230000000694 effects Effects 0.000 description 4
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 3
- 244000046052 Phaseolus vulgaris Species 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种基于双图模型的在线社交网络意见领袖挖掘方法。算法包括三个部分:基于用户关注关系的用户图模型构建、基于微博相似性的微博图模型构建和基于双图模型融合的意见领袖挖掘。理论系统完备,创新性突出,主要用于在线社交网路中的意见领袖挖掘。该发明对意见领袖进行实时监控和跟踪,维护国民安全,具有重要的实用价值。
Description
技术领域
本发明属于社交网络文本处理技术领域,具体涉及集成多种技术,如微博相似性计算、传播计算等,实现基于双图模型的在线社交网络意见领袖挖掘方法。
背景技术
意见领袖会主导着话题言论的发展方向,引导着话题发展方向,如果意见领袖在社交网络平台上以特殊的政治目的传播或发布一些虚幻、虚假的信息,诱使不明真相的用户转发和传播,会严重危害国民安全。因此对在线社交网络意见领袖进行挖掘,并对意见领袖进行实时监控和跟踪,维护国民安全,具有重要的研究意义。国内外的研究现状表明,现有的方法大都是局限于用户,仅考虑用户间的关系,而忽视了微博内容之间的相关性。
本发明提出了基于双图模型的在线社交网络意见领袖挖掘方法,全面考虑用户间关系,微博间的关系以及用户与微博间的关系,并从三个方面进行研究。在用户图模型构建中,根据用户自身属性和用户间的关注关系,构建出用户图模型;在微博图模型构建中,利用微博间的相似度,构建出微博图模型;基于用户图模型和微博图模型,并结合用户与微博的关系,将两模型融合成统一的双图模型,然后根据权值传播算法计算,挖掘出意见领袖。发明的意见领袖挖掘算法在意见领袖挖掘上表现出更好的效果。
发明内容
本发明所提出的基于双图模型的在线社交网络意见领袖挖掘方法,利用用户粉丝数、微博数、关注数计算得到用户自身属性,并将其当作用户节点初始权值,再根据用户间的关注关系,构建出用户图模型;采用共现关系计算出微博间的相似度,当相似度超过指定阈值,则将两微博连接,构建出微博图模型;结合用户与微博的关系,用微博之间的相关性来补充用户之间关系,形成统一的双图模型,然后根据权值传播算法计算,得出用户节点的影响得分,并进行排名,根据排名挖掘出意见领袖。
为达到上述目的,如图1所示,本发明的技术方案划分为三个部分:
1.基于用户关注关系的用户图模型构建;
2.基于微博相似性的微博图模型构建;
3.基于双图模型融合的意见领袖挖掘;
本发明有以下一些技术特征:
(1)基于用户关注关系的用户图模型构建,在用户属性计算上进行了优化,用户属性选取的是用户的粉丝数、微博数、关注数。考虑到用户的这些属性都具有很大的值,比如有些用户的粉丝基数少只有几十个,而有的用户粉丝数可以达到几千万,这其中的跨度太大。对粉丝数、微博数、关注数等进行差距缩小,并赋予相应的权值具有更好的效果。
(2)提出的基于微博相似性的微博图模型构建,计算出微博间的相似度,确定微博间的关系,提高算法准确度。
(3)提出基于双图模型融合的意见领袖挖掘,不仅考虑用户间的关系,还加上了用户所发的微博间的关系,用微博之间的相关性来补充用户之间关系,形成统一的双图模型,提高意见领袖识别的有效性和准确性。
本发明提出了一种基于双图模型的在线社交网络意见领袖挖掘方法,理论系统完备,创新性突出,主要用于社交网络意见领袖挖掘中。本发明应用在文本处理领域,对意见领袖进行实时监控和跟踪,维护国民安全,具有重要的实用价值。
附图说明
图1为基于双图模型的意见领袖挖掘算法整体结构图;
图2为基于用户关注关系的用户图模型构建算法图;
图3为基于微博相似性的微博图模型构建算法图;
图4为基于双图模型融合的意见领袖挖掘算法图;
具体实施方式
为使本发明的目的、算法计算及优点更加清楚明白,以下参照附图对本发明做进一步详细地说明。本发明算法的具体实现分为以下几步:
1.基于用户关注关系的用户图模型构建
以LeaderRank模型为原型,构建用户图模型。用户图模型是由节点和有向边两种元素构成,节点是指用户节点,有向边表示用户之间有关系,比如用户A关注用户B,则就有一有向边从节点A指向节点B。而节点用V表示,边用E表示。最后增加一个全局节点将所有用户节点连接,这样可得到一个全连通图,即保证最后用户节点排序只有一个。用户属性选取的是用户的粉丝数、微博数、关注数。考虑到用户的这些属性都具有很大的值,比如有些用户的粉丝基数少,只有几十个,而有的用户粉丝数可以达到几千万,这其中的跨度太大。经过实验,对粉丝数、微博数、关注数等进行差距缩小,并赋予相应的权值具有更好的效果。具体计算公式如式(1):
Wi=α1 log10 N1+α2 log10 N2+α3 log10 N3 (1)
其中Wi代表用户i的属性权值,N1代表粉丝数,N2代表微博数,N2代表关注数,α代表相应的权值分别取0.5,0.3,0.2,是考虑到粉丝数、微博数、关注数等重要程度逐渐降低。并用log来降低差距,以达到更好的实验效果。算法具体实现步骤:
步骤1:读取用户粉丝数、微博数、关注数,然后计算出用户i的属性权值Wi
步骤2:读取用户列表,并结合用户权值,构建只含用户节点V的图G
步骤3:读取用户关注关系,如果用户节点V1关注用户节点V2,则加上V1指向V2的一条边
步骤4:加上一个全局节点g,让所有用户节点指向节点g,最后得到用户图模型
基于用户关注关系的用户图模型构建算法如图2所示。
2.基于微博相似性的微博图模型构建
基于微博相似度构建微博图模型。微博之间相似度计算是采用共现关系,它们对应的词汇在长度为K的窗口中共现个数,K表示窗口大小,即最多共现K个单词。具体公式如式(2):
Mi和Mj代表两条微博,w代表其中词语,分子部分的意思是同时出现在两条微博中的同一个词的数量,分母是对句子中词的个数求对数后求和,这样设计可以遏制较长的微博在相似度计算上的优势。根据公式可计算出微博间相似度,再结合相似度阈值可构建微博图模型。算法具体实现步骤如下:
步骤1:读取微博集合
步骤2:对微博进行分词,并过滤掉停用词
步骤3:采用共现关系计算微博间相似度
步骤4:微博为节点,微博相似度为边,两个节点之间存在边仅当两点间相似度大于阈值
步骤5:最后得到微博图模型
基于微博相似性的微博图模型构建算法如图3所示。
3.基于双图模型融合的意见领袖挖掘
结合用户与微博间的关系将用户图模型和微博图模型进行融合,形成统一的双图模型。如果用户节点V1发的微博与用户节点V2发的微博之间存在边,则认为V1和V2之间有关系,并且会互相影响,所以在用户图模型中增加V1指向V2的边和V2指向V1的边。最终将两个图模型进行融合得到统一的双图模型。用户初始节点权值是用户自身属性,再利用公式(3)进行权值传播计算:
Wi代表用户的权值,ε代表阻尼系数,取值0.85,Vj代表第j个用户节点,O(Vj)代表用户节点Vj的出链数,即权值平分给其他用户节点。最后得到用户节点最终权值并进行排序,可得到用户权值排名。可认为排名靠前的就是意见领袖。算法具体实现步骤如下:
步骤1:读取微博图模型G1,用户图模型G2
步骤2:读取G1中的每一条边Ei,将Ei中微博节点对应的用户节点相连
步骤3:在融合的模型中增加一个全局节点Vg,使所有节点都指向Vg,从而构建成一个全连通的双图模型
步骤4:采用公式进行权值传播计算,迭代100次或者节点权值变化小于1时结束迭代。
步骤5:将Vg的权值平分给所有节点,得到最终的节点权值
步骤6:将节点根据权值进行排序,得到意见领袖排名
基于双图模型的在线社交网络意见领袖挖掘方法如图4所示。
Claims (4)
1.基于双图模型的在线社交网络意见领袖挖掘方法,其特征在于,该方法包括:
基于用户关注关系的用户图模型构建;
基于微博相似性的微博图模型构建;
基于双图模型融合的意见领袖挖掘。
2.根据权利要求1所述的方法,其特征在于,结合用户自身属性以及用户间的关注关系进行用户图模型构建。
3.根据权利要求1所述的方法,其特征在于,通过对微博进行处理并进行微博间的相似度计算,构建微博图模型。
4.根据权利要求1所述的方法,其特征在于,不仅考虑用户间的关系,还利用了微博间的关系、以及用户和微博之间的相关性,形成统一的双图模型,然后结合权值传播算法,提高意见领袖识别的有效性和准确性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910631934.8A CN110489658A (zh) | 2019-07-12 | 2019-07-12 | 基于双图模型的在线社交网络意见领袖挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910631934.8A CN110489658A (zh) | 2019-07-12 | 2019-07-12 | 基于双图模型的在线社交网络意见领袖挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110489658A true CN110489658A (zh) | 2019-11-22 |
Family
ID=68546067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910631934.8A Pending CN110489658A (zh) | 2019-07-12 | 2019-07-12 | 基于双图模型的在线社交网络意见领袖挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110489658A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460317A (zh) * | 2020-03-30 | 2020-07-28 | 北京百分点信息科技有限公司 | 一种意见领袖的识别方法、装置和设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890702A (zh) * | 2012-07-19 | 2013-01-23 | 中国人民解放军国防科学技术大学 | 一种面向网络论坛的意见领袖挖掘方法 |
CN103150333A (zh) * | 2013-01-26 | 2013-06-12 | 安徽博约信息科技有限责任公司 | 微博媒体中的意见领袖识别方法 |
CN103279484A (zh) * | 2013-04-23 | 2013-09-04 | 中国科学院计算技术研究所 | 一种面向微博客系统中未来意见领袖的创建方法及系统 |
WO2014123929A1 (en) * | 2013-02-05 | 2014-08-14 | Morningside Analytics, Llc | System and method for classifying a contagious phenomenon propagating on a network |
CN107305545A (zh) * | 2016-04-18 | 2017-10-31 | 南京理工大学 | 一种基于文本倾向性分析的网络意见领袖的识别方法 |
CN107633260A (zh) * | 2017-08-23 | 2018-01-26 | 上海师范大学 | 一种基于聚类的社交网络意见领袖挖掘方法 |
CN107729455A (zh) * | 2017-09-25 | 2018-02-23 | 山东科技大学 | 一种基于多维特征分析的社交网络意见领袖排序算法 |
WO2018146637A1 (en) * | 2017-02-13 | 2018-08-16 | Moi Media Ltd. | A system and method for matching opinion leaders with advertisers over social networks |
CN108509551A (zh) * | 2018-03-19 | 2018-09-07 | 西北大学 | 一种基于Spark环境下的微博网络关键用户挖掘系统及方法 |
-
2019
- 2019-07-12 CN CN201910631934.8A patent/CN110489658A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890702A (zh) * | 2012-07-19 | 2013-01-23 | 中国人民解放军国防科学技术大学 | 一种面向网络论坛的意见领袖挖掘方法 |
CN103150333A (zh) * | 2013-01-26 | 2013-06-12 | 安徽博约信息科技有限责任公司 | 微博媒体中的意见领袖识别方法 |
WO2014123929A1 (en) * | 2013-02-05 | 2014-08-14 | Morningside Analytics, Llc | System and method for classifying a contagious phenomenon propagating on a network |
CN103279484A (zh) * | 2013-04-23 | 2013-09-04 | 中国科学院计算技术研究所 | 一种面向微博客系统中未来意见领袖的创建方法及系统 |
CN107305545A (zh) * | 2016-04-18 | 2017-10-31 | 南京理工大学 | 一种基于文本倾向性分析的网络意见领袖的识别方法 |
WO2018146637A1 (en) * | 2017-02-13 | 2018-08-16 | Moi Media Ltd. | A system and method for matching opinion leaders with advertisers over social networks |
CN107633260A (zh) * | 2017-08-23 | 2018-01-26 | 上海师范大学 | 一种基于聚类的社交网络意见领袖挖掘方法 |
CN107729455A (zh) * | 2017-09-25 | 2018-02-23 | 山东科技大学 | 一种基于多维特征分析的社交网络意见领袖排序算法 |
CN108509551A (zh) * | 2018-03-19 | 2018-09-07 | 西北大学 | 一种基于Spark环境下的微博网络关键用户挖掘系统及方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460317A (zh) * | 2020-03-30 | 2020-07-28 | 北京百分点信息科技有限公司 | 一种意见领袖的识别方法、装置和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | A unified MRC framework for named entity recognition | |
De Cao et al. | Autoregressive entity retrieval | |
Zhang et al. | Expert finding in a social network | |
CN112560501B (zh) | 语义特征的生成方法、模型训练方法、装置、设备及介质 | |
Sun et al. | Summarization of scientific paper through reinforcement ranking on semantic link network | |
Clarke | Context-theoretic semantics for natural language: an overview | |
Dutta et al. | A graph based clustering technique for tweet summarization | |
Weir et al. | Aligning packed dependency trees: a theory of composition for distributional semantics | |
CN106126605A (zh) | 一种基于用户画像的短文本分类方法 | |
Özsert et al. | Word polarity detection using a multilingual approach | |
Huang et al. | Enriching cold start personalized language model using social network information | |
CN114281965A (zh) | 信息检索方法、装置、电子设备和存储介质 | |
Jain et al. | Renewable energy sources for clean environment: opinion mining | |
CN103106264B (zh) | 一种地名匹配方法及装置 | |
El Vaigh et al. | Using knowledge base semantics in context-aware entity linking | |
CN110489658A (zh) | 基于双图模型的在线社交网络意见领袖挖掘方法 | |
Huang et al. | DEER: Descriptive knowledge graph for explaining entity relationships | |
Cao et al. | Automatic evaluation of summary on fidelity, conciseness and coherence for text summarization based on semantic link network | |
Yan et al. | Sentence similarity calculation based on probabilistic tolerance rough sets | |
Garrouch et al. | Bayesian network based information retrieval model | |
Faber et al. | Linking a domain-specific ontology to a general ontology | |
Saha et al. | Regularized and retrofitted models for learning sentence representation with context | |
CN110083835A (zh) | 一种基于图和词句协同的关键词提取方法及装置 | |
Ying et al. | Review of text analysis based on deep learning | |
CN110019708A (zh) | 聊天机器人的语料生成方法及装置、存储介质、服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191122 |
|
WD01 | Invention patent application deemed withdrawn after publication |