CN111552856B - 一种微博舆情传播路径分析方法 - Google Patents
一种微博舆情传播路径分析方法 Download PDFInfo
- Publication number
- CN111552856B CN111552856B CN202010365524.6A CN202010365524A CN111552856B CN 111552856 B CN111552856 B CN 111552856B CN 202010365524 A CN202010365524 A CN 202010365524A CN 111552856 B CN111552856 B CN 111552856B
- Authority
- CN
- China
- Prior art keywords
- microblog
- similar
- information
- propagation path
- isolated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种微博舆情传播路径分析方法,首先,构建微博信息SolrCloud集群,从SolrCloud集群中获取与用户查询数据内容相似的相似微博集合;然后,在相似微博集合的基础上,基于一键转发关系初步形成传播路径;最后,对相似微博集合中剩余的孤立节点,通过查询该孤立节点的博主关注的微博账号发表的微博信息与该孤立节点的相似度,以及其他孤立节点对该孤立节点的影响力,完善传播路径。本发明不仅便于查找一键转发的微博信息的传播路径,还能够很大程度上追踪到二次发表的微博信息的传播路径,使得传播路径分析更加精准,更能反映传播路径的趋势。
Description
技术领域
本发明涉及舆情分析技术领域,具体是一种基于SolrCloud相似组件MoreThisLike的微博舆情传播路径分析方法。
背景技术
现有的微博传播路径分析,一般以微博真实转发关系为依据。通过微博自带的转发功能(简称一键转发)发表的微博信息自动携带被转发微博的信息特征,例如包含被转发微博的URL,从而根据这些信息特征判断某一内容在微博上的传播路径。
然而,部分用户转发微博信息并不通过一键转发,而是复制粘贴后重新发表(简称二次发表),虽然微博信息相同或相似,但是不携带被转发微博的信息特征。对于通过这类方式转发的微博信息,以微博真实转发关系为依据的微博传播路径分析存在遗漏问题,大大影响了微博传播路径分析的精准度。
发明内容
针对现有技术存在的缺陷,本发明所要解决的技术问题是减小二次发表给微博传播路径分析精准度带来的影响。
为解决上述技术问题,本发明公开一种微博舆情传播路径分析方法,首先,构建微博信息SolrCloud集群,从SolrCloud集群中获取与用户查询数据内容相似的相似微博集合;然后,在相似微博集合的基础上,基于一键转发关系初步形成传播路径;最后,对相似微博集合中剩余的孤立节点,通过查询该孤立节点的博主关注的微博账号发表的微博信息与该孤立节点的相似度,以及其他孤立节点对该孤立节点的影响力,完善传播路径。
进一步的,具体包括以下步骤:
步骤1,构建微博信息SolrCloud集群;
步骤2,基于用户输入的查询数据,从SolrCloud集群中获取与用户查询数据内容相似的相似微博集合;
步骤3,通过一键转发自动携带的被转发微博的信息特征,从相似微博集合中找寻关于用户查询数据的转发关系,初步形成传播路径树;
步骤4,相似微博集合中剩余的未连接到传播路径树的微博信息称之为孤立节点,对所有孤立节点进行如下处理:
步骤4.1,确定发表该孤立节点的博主关注的微博账号;
步骤4.2,在其关注的微博账号发表的微博信息中查找与该孤立节点相似的微博信息;
步骤4.3,若存在相似微博信息,排除晚于该孤立节点发表的相似微博信息后,计算剩余的相似微博信息与该孤立节点的文本相似度,取相似度排名在前x位的相似微博信息,判定为该孤立节点的转发来源;
步骤4.4,若不存在相似微博信息,则计算其他孤立节点对该孤立节点的影响力指数,取影响力指数排名在前y位的其他孤立节点,判定为该孤立节点的转发来源,其中影响力指数通过其他孤立节点的评论数、转发数、点赞数综合计算得出。
步骤5,所有孤立节点处理完毕后,舍弃仍然未连接到传播路径树的孤立节点,形成最终的传播路径树。
进一步的,所述步骤1的具体操作为,利用网络爬虫对微博整站信息进行爬取,将爬取到的微博信息经过清洗、处理、转换格式后,存放到SolrCloud集群中备用,每条微博信息至少包含以下信息:微博正文、发表时间、作者、URL、被转发微博的URL、评论数、转发数、点赞数、关注的微博账号。
进一步的,所述步骤2中,用户输入的查询数据为微博链接或主题文本;
当用户输入的查询数据为微博链接,则在直接利用该微博链接从SolrCloud集群中查找该微博链接对应的微博信息,若SolrCloud集群中没有该微博链接,则通过网络爬虫该微博链接对应的微博信息进行爬取,并将爬取到的微博信息索引进SolrCloud集群;将该微博链接对应的微博信息,去除语气助词后,形成标准输入文本;
当用户输入的查询数据为主题文本时,将主题文本去除语气助词后,形成标准输入文本;
利用SolrCloud相似组件MoreThisLike将标准输入文本作为输入,从SolrCloud集群中获取所有与标准输入文本相似的微博信息,得到一个相似微博集合。
进一步的,所述步骤3中,若用户输入的查询数据为微博链接,并且该微博链接对应的微博信息是一键转发的,则利用一键转发自动携带的被转发微博的信息特征,查找该微博信息的转发关系,形成传播路径树;若用户输入的查询数据为微博链接,但微博链接对应的微博信息不是一键转发而来,或者用户输入的查询数据为主题文本,则将相似微博集合中的最早发表的微博信息,根据其链接查询转发它的微博信息,形成传播路径树。
进一步的,所述步骤4.4中,影响力指数=评论数*a+转发数*b+点赞数*c,其中a、b、c分别为评论数、转发数、点赞数在影响力指数中的权重。
本发明不仅便于查找一键转发的微博信息的传播路径,还能够很大程度上追踪到二次发表的微博信息的传播路径,使得传播路径分析更加精准,更能反映传播路径的趋势。
附图说明
图1为微博舆情传播路径分析方法中的一键转发的微博信息处理流程;
图2为微博舆情传播路径分析方法中的孤立节点处理流程。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
实施例1
一种微博舆情传播路径分析方法,结合图1、图2,从以下几方面进行阐述。
一、构建微博信息SolrCloud集群
利用网络爬虫对微博整站信息进行爬取,将爬取到的微博信息经过清洗、处理、转换格式后,存放到SolrCloud集群中备用。每条微博信息包含但不限于以下信息:微博正文、发表时间、作者、URL、被转发微博的URL、评论数、转发数、点赞数、关注的微博账号。
二、用户输入数据处理
1、当用户输入微博链接时,直接利用该微博链接从SolrCloud集群中查找该微博链接对应的微博信息,若SolrCloud集群中没有该微博链接,则通过网络爬虫对该微博链接对应的微博信息进行爬取,并将爬取到的微博信息索引进SolrCloud集群;将该微博链接对应的微博信息,去除语气助词后,形成标准输入文本。
2、当用户输入主题文本时,将主题文本去除语气助词后,形成标准输入文本。
三、转发关系分析
利用SolrCloud相似组件MoreThisLike将标准输入文本作为输入,从SolrCloud集群中获取所有与标准输入文本相似的微博信息,得到一个相似微博集合。
1、一键转发的微博信息处理
⑴用户通过输入主题文本查询
将相似微博集合中的最早发表的微博信息,根据其链接查询转发它的微博信息,初步形成传播路径树。
⑵用户通过输入微博链接查询
若微博链接对应的微博信息不是一键转发而来,则将该微博信息的正文当作主题文本,处理方式同⑴。
若该微博链接对应的微博信息是一键转发的,则到相似微博集合中查找被转发微博的URL。若相似微博集合中没有该URL,则到SolrCloud集群中查找,若SolrCloud集群中还是没有,则通过网络爬虫爬取该URL对应的微博信息,将爬取到的微博信息索引进SolrCloud集群;将根据被转发微博的URL查找到的微博信息作为节点进行处理,查找其来源,依次递归处理,直到找到所有被转发的节点。通过链接查询SolrCloud集群中所有的转发节点,从转发节点依次递归去查找转发子节点,直到所有节点查找完毕,初步形成传播路径树。
2、剩余相似微博信息处理
经过上述处理,相似微博集合中还存在大量没有连接到传播路径树中的孤立节点,对所有孤立节点进行如下处理:
⑴确定发表该孤立节点的博主关注的微博账号,在其关注的微博账号发表的微博信息中查找与该孤立节点相似的微博信息。
若存在相似微博信息,首先排除晚于该孤立节点发表的相似微博信息,排除后若仅有一个关注的微博账号存在相似微博信息,则判定其为该孤立节点的转发来源,若多个关注的微博账号存在相似微博信息,计算这些相似微博信息与该孤立节点的文本相似度,取相似度排名在前x位的相似微博信息,判定为该孤立节点的转发来源。x的具体取值根据实际需要设定,可以选择1,2,3等。
若不存在相似微博信息,则该孤立节点很大可能来自微博推荐的信息,因为博主查询到的信息一般来自关注的微博账号发表的信息,还有一种就是热门推送的信息。既然是热门推送的信息,那么其评论数、转发数和点赞数通常是远高于常规信息的。由此,通过这三项数据来分析其他孤立节点对该孤立节点的影响力指数,具体为评论数*a+转发数*b+点赞数*c,其中a、b、c分别为评论数、转发数、点赞数在影响力指数中的权重,例如a取50%、b取30%、c取20%。在转发时间顺序的前提下,影响力指数越大的节点,越有可能是转发来源。取影响力指数排名在前y位的其他孤立节点,判定为该孤立节点的转发来源,y的具体取值根据实际需要设定,可以选择1,2,3等。
将所有孤立节点遍历一遍,剩余的孤立节点予以舍弃,形成一棵最终的传播路径树。
显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
Claims (6)
1.一种微博舆情传播路径分析方法,其特征在于,首先,构建微博信息SolrCl oud集群,从SolrCloud集群中获取与用户查询数据内容相似的相似微博集合;然后,在相似微博集合的基础上,基于一键转发关系初步形成传播路径;最后,对相似微博集合中剩余的孤立节点,通过查询该孤立节点的博主关注的微博账号发表的微博信息与该孤立节点的相似度,以及其他孤立节点对该孤立节点的影响力,完善传播路径,具体包括以下步骤:
步骤1,构建微博信息SolrCloud集群;
步骤2,基于用户输入的查询数据,从SolrCloud集群中获取与用户查询数据内容相似的相似微博集合;
步骤3,通过一键转发自动携带的被转发微博的信息特征,从相似微博集合中找寻关于用户查询数据的转发关系,初步形成传播路径树;
步骤4,相似微博集合中剩余的未连接到传播路径树的微博信息称之为孤立节点,对所有孤立节点进行如下处理:
步骤4.1,确定发表该孤立节点的博主关注的微博账号;
步骤4.2,在其关注的微博账号发表的微博信息中查找与该孤立节点相似的微博信息;
步骤4.3,若存在相似微博信息,排除晚于该孤立节点发表的相似微博信息后,计算剩余的相似微博信息与该孤立节点的文本相似度,取相似度排名在前x位的相似微博信息,判定为该孤立节点的转发来源;
步骤4.4,若不存在相似微博信息,则计算其他孤立节点对该孤立节点的影响力指数,取影响力指数排名在前y位的其他孤立节点,判定为该孤立节点的转发来源,其中影响力指数通过其他孤立节点的评论数、转发数、点赞数综合计算得出;
步骤5,所有孤立节点处理完毕后,舍弃仍然未连接到传播路径树的孤立节点,形成最终的传播路径树。
2.根据权利要求1所述的微博舆情传播路径分析方法,其特征在于,所述步骤1的具体操作为,利用网络爬虫对微博整站信息进行爬取,将爬取到的微博信息经过清洗、处理、转换格式后,存放到SolrCloud集群中备用,每条微博信息至少包含以下信息:微博正文、发表时间、作者、URL、被转发微博的URL、评论数、转发数、点赞数、关注的微博账号。
3.根据权利要求1所述的微博舆情传播路径分析方法,其特征在于,所述步骤2中,用户输入的查询数据为微博链接或主题文本;
当用户输入的查询数据为微博链接,则在直接利用该微博链接从SolrCloud集群中查找该微博链接对应的微博信息,若SolrCloud集群中没有该微博链接,则通过网络爬虫该微博链接对应的微博信息进行爬取,并将爬取到的微博信息索引进SolrCloud集群;将该微博链接对应的微博信息,去除语气助词后,形成标准输入文本;
当用户输入的查询数据为主题文本时,将主题文本去除语气助词后,形成标准输入文本;
利用SolrCloud相似组件MoreThisLike将标准输入文本作为输入,从SolrClo ud集群中获取所有与标准输入文本相似的微博信息,得到一个相似微博集合。
4.根据权利要求3所述的微博舆情传播路径分析方法,其特征在于,所述步骤3中,若用户输入的查询数据为微博链接,并且该微博链接对应的微博信息是一键转发的,则利用一键转发自动携带的被转发微博的信息特征,查找该微博信息的转发关系,形成传播路径树。
5.根据权利要求3所述的微博舆情传播路径分析方法,其特征在于,所述步骤3中,若用户输入的查询数据为微博链接,但微博链接对应的微博信息不是一键转发而来,或者用户输入的查询数据为主题文本,则将相似微博集合中的最早发表的微博信息,根据其链接查询转发它的微博信息,形成传播路径树。
6.根据权利要求1所述的微博舆情传播路径分析方法,其特征在于,所述步骤4.4中,影响力指数=评论数*a+转发数*b+点赞数*c,其中a、b、c分别为评论数、转发数、点赞数在影响力指数中的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010365524.6A CN111552856B (zh) | 2020-04-30 | 2020-04-30 | 一种微博舆情传播路径分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010365524.6A CN111552856B (zh) | 2020-04-30 | 2020-04-30 | 一种微博舆情传播路径分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111552856A CN111552856A (zh) | 2020-08-18 |
CN111552856B true CN111552856B (zh) | 2023-06-20 |
Family
ID=72004237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010365524.6A Active CN111552856B (zh) | 2020-04-30 | 2020-04-30 | 一种微博舆情传播路径分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111552856B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117150104B (zh) * | 2023-10-23 | 2024-01-26 | 西安康奈网络科技有限公司 | 一种基于互联网的多路径舆情话题溯源追踪系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503230A (zh) * | 2016-11-07 | 2017-03-15 | 贾志娟 | 一种基于复杂网络的微博传播溯源方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8751511B2 (en) * | 2010-03-30 | 2014-06-10 | Yahoo! Inc. | Ranking of search results based on microblog data |
-
2020
- 2020-04-30 CN CN202010365524.6A patent/CN111552856B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503230A (zh) * | 2016-11-07 | 2017-03-15 | 贾志娟 | 一种基于复杂网络的微博传播溯源方法 |
Non-Patent Citations (2)
Title |
---|
周红福 ; 贾璐 ; 张婷婷 ; 李剑 ; .微博舆情分析中信息转发路径提取方法研究.信息网络安全.2016,(04),全文. * |
王振飞 ; 朱静阳 ; 郑志蕴 ; 宋玉 ; .基于R-C模型的微博社区用户影响力分析.计算机科学.2017,(03),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111552856A (zh) | 2020-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101131706B (zh) | 一种查询修正方法及系统 | |
CN107391677B (zh) | 携带实体关系属性的中文通用知识图谱的生成方法及装置 | |
JP4644420B2 (ja) | ネットワークを介してデータを検索及び提示する方法及びマシン可読記憶装置 | |
CN101169780A (zh) | 一种基于语义本体的检索系统和方法 | |
CN102411580B (zh) | 可扩展标记语言文档的检索方法及装置 | |
WO2008043645B1 (en) | Establishing document relevance by semantic network density | |
WO2008014702A1 (fr) | Procédé et système d'extraction de mots nouveaux | |
CN101110812A (zh) | 文本命令解析处理方法 | |
CN102156740A (zh) | Sql语句的处理方法及系统 | |
CN101339560B (zh) | 一种搜索系列性数据的方法、装置及一种搜索引擎系统 | |
JP2018501540A (ja) | ストップワード識別方法および装置 | |
Carta et al. | Iterative zero-shot llm prompting for knowledge graph construction | |
CN111859065A (zh) | 一种基于大数据的舆情聆听系统 | |
CN111552856B (zh) | 一种微博舆情传播路径分析方法 | |
CN104636386A (zh) | 信息监控方法及装置 | |
CN112148359B (zh) | 一种基于子块过滤的分布式代码克隆检测与搜索方法、系统及介质 | |
CN106933844B (zh) | 面向大规模rdf数据的可达性查询索引的构建方法 | |
Cortez et al. | A flexible approach for extracting metadata from bibliographic citations | |
CN107657067B (zh) | 一种基于余弦距离的前沿科技信息快速推送方法及系统 | |
CN101977251A (zh) | 服务器端网址资源优化装置及其优化方法 | |
CN113420219A (zh) | 用于查询信息纠错的方法、装置、电子设备及可读存储介质 | |
CN113609296B (zh) | 用于舆情数据识别的数据处理方法和装置 | |
CN110569061A (zh) | 一种基于大数据的软件工程知识库的自动化构建系统 | |
CN112307746B (zh) | 基于用户聚合主题模型的社交网络用户搜索意图处理系统 | |
CN116738065B (zh) | 一种企业搜索方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |