CN109829112B - 基于大数据的裂变话题跟踪方法、装置和计算机设备 - Google Patents
基于大数据的裂变话题跟踪方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN109829112B CN109829112B CN201910100385.1A CN201910100385A CN109829112B CN 109829112 B CN109829112 B CN 109829112B CN 201910100385 A CN201910100385 A CN 201910100385A CN 109829112 B CN109829112 B CN 109829112B
- Authority
- CN
- China
- Prior art keywords
- topic
- topics
- fission
- whole
- specified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 230000004992 fission Effects 0.000 claims abstract description 135
- 238000012216 screening Methods 0.000 claims abstract description 54
- 230000005540 biological transmission Effects 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 21
- 230000008859 change Effects 0.000 claims description 71
- 230000006870 function Effects 0.000 claims description 38
- 238000004590 computer program Methods 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 abstract description 16
- 238000009792 diffusion process Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种基于大数据的裂变话题跟踪方法、装置和计算机设备,方法包括:S1、根据话题的传播路径,获取与话题对应的关注用户;S2、根据话题相似性,在关注用户发布的指定话题中,筛选得到与话题相同的裂变话题;S3、循环执行步骤S1和S2,直至在关注用户发布的指定话题中,筛选不到与话题相同的裂变话题,其中,在循环过程中,以当前次产生的裂变话题作为下一次循环的话题。本申请通过对话题的传播路径进行监控,从而得到话题的关注用户,再根据话题相似性从关注用户的公开话题中筛选话题对应的裂变话题。通过迭代循环监控获取和筛选动作,得到话题的所有裂变话题,不需要人工介入,有效提高了裂变话题跟踪的完整性和跟踪效率。
Description
技术领域
本申请涉及数据分析技术领域,特别涉及一种基于大数据的裂变话题跟踪方法、装置和计算机设备。
背景技术
近年来,随着移动互联网在世界范围内的迅速普及和蓬勃发展,实时的互联网络在人们的日常生活中越来越普遍。作为一种新兴的社交网络媒体,微博客(简称微博),正逐渐取代博客,成为人们分享、传播和获取信息的新平台,典型的代表有美国著名微博客Twitter和国内的新浪微博。
作为一种互动性和传播性极强的社交网络,当一个事件发生时,微博会在极短的时间里产生海量的数据信息。在这种实时快速更新的宏大信息流中,用户想了解自己所感兴趣的事件的进展情况,希望系统能够对于话题的动态进行实时跟踪。而微博的实时性、社会化以及碎片化特征给微博环境下的话题追踪带来了巨大的挑战。其中最大的挑战之一就是随着时间而产生的话题漂移。话题漂移现象是指,初始话题随着事件的发展会产生事件的子话题,即裂变话题,话题的相关内容变得越来越丰富,用户关注话题的不同方面。而现有的裂变话题跟踪方法,初始话题与裂变话题之间的关联需要人工选择,效率低下,且完整性不高。
发明内容
本申请的主要目的为提供一种基于大数据的裂变话题跟踪方法、装置和计算机设备,旨在解决现有裂变话题跟踪方法需要人工介入,筛选效率低下,且完整性不高的弊端。
为实现上述目的,本申请提供了一种基于大数据的裂变话题跟踪方法,包括:
S1、根据话题的传播路径,获取与所述话题对应的关注用户;
S2、根据话题相似性,在所述关注用户发布的指定话题中,筛选得到与所述话题相同的裂变话题,所述指定话题为所述关注用户在特定时间段内发布的公开话题,所述特定时间段为所述话题的发布时间到当前时间之间的时间段;
S3、循环执行所述步骤S1和S2,直至在所述关注用户发布的指定话题中,筛选不到与所述话题相同的裂变话题,从而得到所述话题的所有裂变话题形成的裂变话题集,其中,在循环过程中,以当前次产生的裂变话题作为下一次循环的所述话题。
进一步的,所述根据话题相似性,在所述关注用户发布的指定话题中,筛选得到与所述话题相同的裂变话题的步骤,包括:
从所述关注用户的所有公开话题中筛选得到所述指定话题;
分别对所述话题和所述指定话题进行分词,得到所述话题对应的初始话题关键词,以及所述指定话题对应的指定话题关键词;
进一步的,所述循环执行所述步骤S1和S2,直至在所述关注用户发布的指定话题中,筛选不到与所述话题相同的裂变话题的步骤之后,包括:
根据所述话题和全部的裂变话题的所有传播路径,生成话题热度信息;
按照话题的传播时间顺序解析所述话题热度信息,得到整体话题的热度变化趋势,所述整体话题由所述话题和全部的裂变话题组成。
进一步的,所述传播路径包括阅读、关注、转发以及评论四种类型,所述根据所述话题和全部的裂变话题的所有传播路径,生成话题热度信息的步骤,包括:
将所述所有传播路径按照所述类型进行分组,得到各组传播子路径;
分别将各所述传播子路径对应的用户数量和用户地区按照所述话题的传播时间顺序排列,得到所述话题热度信息。
进一步的,所述按照话题的传播时间顺序解析所述话题热度信息,得到整体话题的热度变化趋势的步骤之后,包括:
判断所述热度变化趋势是否满足触发标记功能的条件;
若满足触发标记功能的条件,则将所述初始话题作为第一标记话题,并将所述第一标记话题录入标记话题库,所述标记话题库由多组标记话题组成,所述标记话题携带话题关键词。
进一步的,所述按照话题的传播时间顺序解析所述话题热度信息,得到整体话题的热度变化趋势的步骤之后,包括:
判断所述热度变化趋势是否满足触发推送功能的条件;
若满足触发推送功能的条件,则按照预设规则生成推送信息;
将所述推送信息发送到预设终端。
进一步的,所述按照预设规则生成推送信息的步骤,包括:
根据话题相似性,判断是否从所述标记话题库中筛选得到与所述整体话题相似的至少一个第二标记话题;
若从所述标记话题库中筛选得到与所述整体话题相似的至少一个第二标记话题,则根据所述第二标记话题和所述整体话题的指定信息,生成所述推送信息,所述指定信息为距离当前时间最短的公开时间对应的所述整体话题的公开信息。
本申请还提供了一种基于大数据的裂变话题跟踪装置,包括:
第一获取模块,用于根据话题的传播路径,获取与所述话题对应的关注用户;
筛选模块,用于根据话题相似性,在所述关注用户发布的指定话题中,筛选得到与所述话题相同的裂变话题;
循环模块,用于循环执行所述第一获取模块和所述筛选模块中的动作,直至在所述关注用户发布的指定话题中,筛选不到与所述话题相同的裂变话题,从而得到所述话题的所有裂变话题形成的裂变话题集,其中,在循环过程中,以当前次产生的裂变话题作为下一次循环的所述话题。
进一步的,所述筛选模块包括:
第一筛选单元,用于从所述关注用户的所有公开话题中筛选得到所述指定话题;
分词单元,用于分别对所述初始话题和所述指定话题进行分词,得到所述初始话题对应的初始话题关键词,以及所述指定话题对应的指定话题关键词;
第二筛选单元,用于筛选与所述初始话题关键词一致的指定话题关键词对应的指定话题作为所述裂变话题。
进一步的,所述裂变话题跟踪装置,还包括:
第一生成模块,用于根据所述话题和全部的裂变话题的所有传播路径,生成话题热度信息;
解析模块,用于按照话题的传播时间顺序解析所述话题热度信息,得到整体话题的热度变化趋势。
进一步的,所述传播路径包括阅读、关注、转发以及评论四种类型,所述第一生成模块包括:
分组单元,用于将所述所有传播路径按照所述类型进行分组,得到各组传播子路径;
排列单元,用于分别将各所述传播子路径对应的用户数量和用户地区按照所述话题的传播时间顺序排列,得到所述话题热度信息。
进一步的,所述裂变话题跟踪装置,还包括:
第二判断模块,用于判断所述热度变化趋势是否满足触发标记功能的条件;
标记模块,用于将所述话题作为第一标记话题,并将所述第一标记话题录入标记话题库。
进一步的,所述裂变话题跟踪装置,还包括:
第三判断模块,用于判断所述热度变化趋势是否满足触发推送功能的条件;
第二生成模块,用于按照预设规则生成推送信息;
发送模块,用于将所述推送信息发送到预设终端。
进一步的,所述第二生成模块,包括:
第二判断单元,用于根据话题相似性,判断是否从所述标记话题库中筛选得到与所述整体话题相似的至少一个第二标记话题;
生成单元,用于根据所述第二标记话题和所述整体话题的指定信息,生成所述推送信息。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请中提供的一种基于大数据的裂变话题跟踪方法、装置和计算机设备,通过对话题的传播路径进行监控,从而得到话题的关注用户,再根据话题相似性从关注用户的公开话题中筛选话题对应的裂变话题。通过迭代循环监控获取和筛选动作,得到话题的所有裂变话题,不需要人工介入,有效提高了裂变话题跟踪的完整性和跟踪效率。
附图说明
图1是本申请一实施例中基于大数据的裂变话题跟踪方法方法步骤示意图;
图2是本申请一实施例中基于大数据的裂变话题跟踪方法装置整体结构框图;
图3是本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例中提供了一种基于大数据的裂变话题跟踪方法,包括:
S1:根据初始话题的传播路径,获取与所述话题对应的关注用户;
S2:根据话题相似性,在所述关注用户发布的指定话题中,筛选得到与所述话题相同的裂变话题,所述指定话题为所述关注用户在特定时间段内发布的公开话题,所述特定时间段为所述话题的发布时间到当前时间之间的时间段;
S3:循环执行所述步骤S1和S2,直至在所述关注用户发布的指定话题中,筛选不到与所述话题相同的裂变话题,从而得到所述话题的所有裂变话题形成的裂变话题集,其中,在循环过程中,以当前次产生的裂变话题作为下一次循环的所述话题。
本实施例中,话题跟踪系统预先跟第三方网络平台进行关联,以便从第三方网络平台获取相应的公开信息。其中,第三方网络平台可以查询到公开信息的传播路径,比如新浪微博、推特,可以查询到用户发布的信息的转发、评论等传播路径。话题跟踪系统将原始的话题设定为初始话题,然后根据初始话题的传播路径进行追踪,查询到直接在初始话题中进行阅读、评论或转发的第一批关注用户,即获取初始与该初始话题对应的关注用户,并将这些关注用户设定为初始用户。其中,话题跟踪系统获取的初始话题包括该初始话题的公开时间。话题跟踪系统根据初始话题的公开时间,确定需要从初始关注用户筛选的指定话题对应的特定时间段,即特定时间段为从初始话题的公开时间到当前时间的时间段。话题跟踪系统根据话题相似性,判断是否可以从初始关注用户在特定时间段内的指定话题中,筛选得到和初始话题相同的裂变话题。其中,话题相似性的筛选方法具体为:话题跟踪系统从初始关注用户的所有公开话题中筛选在特定时间段内的至少一个指定话题,并根据词性对各个指定话题进行分词,得到各个指定话题的主语和谓语,综合生成与各个指定话题一一对应的指定话题关键词。话题跟踪系统同时根据相同的分词方法,从初始话题中筛选得到初始话题关键词。话题跟踪系统分别将各个指定话题对应的指定话题关键词与初始话题关键词一一对应比对,判断两者的关键词是否相同。若指定话题关键词与初始话题关键词一致,则判定该指定话题关键词对应的指定话题与初始话题相同,从而根据话题相似性从所有指定话题中筛选出裂变话题。话题跟踪系统如果可以从初始关注用户的指定话题中筛选到与初始话题对应的裂变话题,则获取裂变话题的传播路径,并根据裂变话题的传播路径进行监控,得到阅读、收藏、转发或评论该裂变话题的所有二次关注用户。然后,话题跟踪系统再次根据话题相似性,从二次关注用户预设时间段内的指定话题中筛选到与话题相同的裂变话题。话题跟踪系统持续循环上述监控获取和筛选动作,直至在某一次筛选过程中,没有从关注用户发布的指定话题中得到与初始话题相同的裂变话题,则判定已完成对初始话题的所有裂变话题的跟踪,系统停止对初始话题的跟踪动作,并根据所有的裂变话题生成裂变话题集。其中,在循环过程中,以当前次产生的裂变话题作为下一次循环的话题;裂变话题集为所有裂变话题组成的集合,集合中的各个裂变话题分别按照话题的公开时间进行顺序排列。
进一步的,所述根据话题相似性,在所述关注用户发布的指定话题中,筛选得到与所述话题相同的裂变话题的步骤,包括:
S201:从所述关注用户的所有公开话题中筛选得到所述指定话题;
S202:分别对所述话题和所述指定话题进行分词,得到所述话题对应的初始话题关键词,以及所述指定话题对应的指定话题关键词;
S203:筛选与所述初始话题关键词一致的指定话题关键词对应的指定话题作为所述裂变话题。
本实施例中,话题跟踪系统获取的话题包括该话题的公开时间。话题跟踪系统首先根据话题的公开时间,确定需要从关注用户筛选的指定话题对应的特定时间段,即特定时间段为从话题的公开时间到当前时间的时间段。比如,话题的公开时间为10月1号,当前时间为10月3号,则特定时间段为10月1号到10月3号。话题跟踪系统从关注用户的所有公开话题中筛选特定时间段内的至少一个指定话题,并根据词性对各个指定话题进行分词,得到各个指定话题的主语和谓语,综合生成与各个指定话题对应的指定话题关键词。同时,话题跟踪系统根据相同的分词方法从话题中筛选得到初始话题关键词。比如,话题为“张三为何逃税”中,主语为“张三”,谓语为“逃税”,主语和谓语组合形成初始话题关键词。话题跟踪系统分别将各个指定话题对应的指定话题关键词与初始话题关键词一一对应比对,即指定话题关键词中的主语与初始话题关键词中的主语比对,指定话题关键词中的谓语与初始话题关键词中的谓语比对,从而判断两个话题的关键词是否相同。若指定话题关键词与初始话题关键词一致,即指定话题关键词中的主语与初始话题关键词中的主语一致,同时指定话题关键词中的谓语与初始话题关键词中的谓语一致,则说明该指定话题关键词对应的指定话题与初始话题相同,话题跟踪系统判定可以从关注用户在特定时间段内的指定话题中筛选到与初始话题相同的裂变话题,并将与初始话题关键词一致的指定话题关键词对应过的指定话题作为裂变话题。
进一步的,所述根据话题的传播路径,获取与所述话题对应的关注用户的步骤之前,包括:
S4:实时监控预设第三方网络平台中,热门话题榜上各热门话题的上榜时间;
S5:调用预设时间长度阈值,并分别将各所述上榜时间一一与所述预设时间进行比较,选择大于所述预设时间长度阈值的上榜时间对应的热门话题作为所述初始话题;
S6:从所述预设第三方网络平台中,获取所述话题及所述话题的传播路径。
本实施例中,话题跟踪系统根据开发人员的设定,跟预设第三方网络平台进行关联。其中,预设第三方网络平台为设置有类似热门话题榜功能的网络平台,比如新浪微博,推特,均设置有热门话题榜。话题跟踪系统实时监控预设第三方网络平台中,热门话题榜上各热门话题的上榜时间,并调取预设时间长度阈值与各热门话题的上榜时间进行比对。如果上榜时间大于预设时间长度阈值,则话题跟踪系统判定该上榜时间对应的热门话题具备热度分析的价值,将其设定为需要进行裂变话题跟踪的话题,并从预设第三方网络平台上获取该话题以及该话题对应的所有传播路径。
进一步的,话题也可以由系统使用人员自主选择后手动设定,在设定后,话题跟踪系统从预设第三方网络平台上获取该话题以及该话题对应的所有传播路径。
进一步的,话题跟踪系统可以跟预设第三方搜索网站进行关联,比如百度,搜狗搜索,并根据预设频率从预设第三方搜索网站的数据库中获取搜索记录。其中,搜索记录包括搜索话题和该搜索话题对应的在单位时间内的搜索次数。如果某个搜索话题在单位时间内的搜索次数大于预设次数,比如1小时内搜索次数大于10万次,则自动将该搜索话题作为推荐话题输出在显示界面,以便系统使用人员进行选择是否需要对推荐话题进行裂变话题的跟踪。
进一步的,所述循环执行所述步骤S1和S2,直至在所述关注用户发布的指定话题中,筛选不到与所述话题相同的裂变话题的步骤之后,包括:
S7:根据所述话题和全部的裂变话题的所有传播路径,生成话题热度信息;
S8:按照话题的传播时间顺序解析所述话题热度信息,得到整体话题的热度变化趋势,所述整体话题由所述话题和全部的裂变话题组成。
本实施例中,话题跟踪系统在完成对话题的所有裂变话题的跟踪后,将话题以及所有的裂变话题对应的所有传播路径汇总后,生成热度信息。其中,热度信息包括话题和全部的裂变话题随着传播时间增长的关注用户量、阅读量、转发量以及评论量等信息。话题和全部的裂变话题整合形成整体话题。话题跟踪系统以话题的公开时间为起点,按照整体话题的传播时间顺序对热度信息进行解析,从而得到整体话题的热度变化趋势。以转发量为例,从公开时间到结束话题跟踪的结束时间内,话题跟踪系统将各时刻对应的转发量绘制成变化曲线图,则可以从变化曲线图中曲线的变化趋势得到整体话题的变化趋势。如果曲线在单位时间内的上升斜率越大,则说明转发量在对应的单位时间内的热度变化越大。同时,根据最后总的转发量可以得到整体话题的热度。比如话题A总的转发量为400万,话题B总的转发量为500万,明显可以比对出话题B的热度比话题A的热度大。
进一步的,话题跟踪系统可以根据关注用户的位置信息确定整体话题在地域上的扩散,并根据地域扩散的范围确定整体话题的热度变化。比如,话题A的所有关注用户分布在全国10个省,话题B的所有关注用户分布在全国15个省,则可以明显看出话题B的热度大于话题A的热度。同样的,话题跟踪系统也可以根据单位时间内整体话题在地域上的扩散,解析得到整体话题的热度变化趋势,其解析方法跟上述方法相同。
进一步的,所述传播路径包括阅读、关注、转发以及评论四种类型,所述根据所述话题和全部的裂变话题的所有传播路径,生成话题热度信息的步骤,包括:
S701:将所述所有传播路径按照所述类型进行分组,得到各组传播子路径;
S702:分别将各所述传播子路径对应的用户数量和用户地区按照所述话题的传播时间顺序排列,得到所述话题热度信息。
本实施例中,话题跟踪系统得到的初始话题以及初始话题对应的全部的裂变话题的传播路径包括阅读、关注、转发以及评论四种类型。在形成话题热度信息的过程中,话题跟踪系统首先需要将所有传播路径按照类型的不同进行,分别得到阅读、关注、转发以及评论对应的传播子路径。在各组传播子路径中,分别包含了对应的用户数量以及用户位置,比如阅读用户数量,评论用户数量,阅读用户的地区信息,评论用户的地区信息等。话题跟踪系统分别将各组传播子路径对应的用户数量和用户位置分别按照话题的传播时间顺序排列,从而得到话题热度信息。比如,2018年9月15日12:00的阅读用户数量为1万,阅读用户地区为广东、上海、福建;2018年9月15日12:15的阅读用户数量为1.5万,阅读用户地区为广东、上海、福建、湖南、广西。在后续对热度话题信息进行解析时,可以将各组传播子路径对应的信息统合分析,也可以单独对其中一种类型的传播子路径对应的信息进行分析,从而得到更准确的分析结果。
进一步的,所述按照话题的传播时间顺序解析所述话题热度信息,得到整体话题的热度变化趋势的步骤之后,包括:
S9:判断所述热度变化趋势是否满足触发标记功能的条件;
S10:若满足触发标记功能的条件,则将所述话题作为第一标记话题,并将所述第一标记话题录入标记话题库,所述标记话题库由多组标记话题组成,所述标记话题携带话题关键词。
本实施例中,话题跟踪系统中预先构建有标记话题库,该标记话题库用于存储热度变化趋势达到预设条件的标记话题,由多组标记话题组成。话题跟踪系统在根据整体话题的热度信息进行解析,得到对应的热度变化趋势后,调取第一预设条件,并将热度变化趋势与第一预设条件进行比对,从而判断整体话题的热度变化趋势是否满足触发标记功能的条件。其中,第一预设条件为话题的单位时间内的热度变化或话题的总热度。比如,第一预设条件为1小时内话题的评论量为100万,或者话题的总评论量为1000万。如果整体话题1小时内的评论量为110万或最终的总评论量为2000万,则话题跟踪系统判定整体话题的热度变化趋势满足出发标记功能的条件,将话题进行标记作为第一标记话题,并录入标记话题库中。其中,话题携带初始话题关键词,即标记话题库中的标记话题均对应有话题关键词。标记话题库中的标记话题可以在以后的话题跟踪中,作为历史话题进行综合分析,在生成相应的推送信息时提高分析的完整性。
进一步的,所述按照话题的传播时间顺序解析所述话题热度信息,得到整体话题的热度变化趋势的步骤之后,包括:
S11:判断所述热度变化趋势是否满足触发推送功能的条件;
S12:若满足触发推送功能的条件,则按照预设规则生成推送信息;
S13:将所述推送信息发送到预设终端。
本实施例中,话题跟踪系统在根据整体话题的热度信息进行解析,得到对应的热度变化趋势后,调取第二预设条件,并将热度变化趋势与第二预设条件进行比对,从而判断整体话题的热度变化趋势是否满足触发推送功能的条件。其中,第二预设条件为话题的单位时间内的热度变化或话题的总热度。比如,第二预设条件为1小时内话题的评论量为50万,或者话题的总评论量为500万。如果整体话题1小时内的评论量为60万或最终的总评论量为600万,则话题跟踪系统判定整体话题的热度变化趋势满足触发推送功能的条件。话题跟踪系统根据预设规则生成推送信息,并将推送信息发送到预设终端。其中,预设规则具体为:基于话题相似性,判断是否可以从标记话题库中筛选到和整体话题相似的标记话题。标记话题为以前的裂变话题跟踪中,满足标记功能的历史话题。如果可以,话题跟踪系统将该标记话题结合整体话题的最新公开信息生成推送信息,以便预设终端的用户可以综合整体话题相似的历史话题和当前最新公开信息,对整体话题有更全面、更清晰的了解。预设终端可以是用户终端,也可以是网络平台,比如新浪微博,推特。
进一步的,所述按照预设规则生成推送信息的步骤,包括:
S1201:根据话题相似性,判断是否从所述标记话题库中筛选得到与所述整体话题相似的至少一个第二标记话题;
S1202:若从所述标记话题库中筛选得到与所述整体话题相似的至少一个第二标记话题,则根据所述第二标记话题和所述整体话题的指定信息,生成所述推送信息,所述指定信息为距离当前时间最短的公开时间对应的所述整体话题的公开信息。
本实施例中,话题跟踪系统根据话题相似性,判断是否可以从标记话题库中筛选到与整体话题相似的至少一个标记话题。其中,标记话题库中所录入的标记话题均对应有标记话题关键词,具体的筛选过程为:在上述步骤中已经得到整体话题中各话题对应的整体话题关键词,即话题对应初始话题关键词,裂变话题对应裂变话题关键词,两者的话题关键词相同。话题跟踪系统分别将整体话题中各话题对应的整体话题关键词与各标记话题对应的标记话题关键词一一比对,即整体话题关键词中的主语与标记话题关键词的主语比对,整体话题关键词中的谓语与标记话题关键词的谓语比较,如果两者均相同,则认为是相似话题。如果话题跟踪系统可以从标记话题库中筛选到与整体话题相似的至少一个标记话题,则将标记话题结合整体话题的最新公开信息生成推送信息。其中,整体话题的最新公开信息可以从预设第三方网络平台获得,其公开时间距离当前时间最短;推送信息可以携带最新公开信息的链接地址。如果话题跟踪系统不可以从标记话题库中筛选到与整体话题相似的至少一个标记话题,则单纯根据整体话题的最新公开信息生成推送信息。话题跟踪系统将推送信息发送到预设终端,以便预设终端的用户及时了解整体话题。
本实施例提供的一种基于大数据的裂变话题跟踪方法,通过对话题的传播路径进行监控,从而得到话题的关注用户,再根据话题相似性从关注用户的公开话题中筛选初始话题对应的裂变话题。通过迭代循环监控获取和筛选动作,得到话题的所有裂变话题,不需要人工介入,有效提高了裂变话题跟踪的完整性和跟踪效率。
参照图2,本申请一实施例中还提供了一种基于大数据的裂变话题跟踪装置,包括:
第一获取模块1,用于根据话题的传播路径,获取与所述话题对应的关注用户;
筛选模块2,用于根据话题相似性,在所述关注用户发布的指定话题中,筛选得到与所述话题相同的裂变话题;
循环模块3,用于循环执行所述第一获取模块和所述筛选模块中的动作,直至在所述关注用户发布的指定话题中,筛选不到与所述话题相同的裂变话题,从而得到所述话题的所有裂变话题形成的裂变话题集,其中,在循环过程中,以当前次产生的裂变话题作为下一次循环的所述话题。
本实施例中,话题跟踪系统预先跟第三方网络平台进行关联,以便从第三方网络平台获取相应的公开信息。其中,第三方网络平台可以查询到公开信息的传播路径,比如新浪微博、推特,可以查询到用户发布的信息的转发、评论等传播路径。话题跟踪系统将原始的话题设定为初始话题,然后根据初始话题的传播路径进行追踪,查询到直接在初始话题中进行阅读、评论或转发的第一批关注用户,即获取初始与该初始话题对应的关注用户,并将这些关注用户设定为初始用户。其中,话题跟踪系统获取的初始话题包括该初始话题的公开时间。话题跟踪系统根据初始话题的公开时间,确定需要从初始关注用户筛选的指定话题对应的特定时间段,即特定时间段为从初始话题的公开时间到当前时间的时间段。话题跟踪系统根据话题相似性,判断是否可以从初始关注用户在特定时间段内的指定话题中,筛选得到和初始话题相同的裂变话题。其中,话题相似性的筛选方法具体为:话题跟踪系统从初始关注用户的所有公开话题中筛选在特定时间段内的至少一个指定话题,并根据词性对各个指定话题进行分词,得到各个指定话题的主语和谓语,综合生成与各个指定话题一一对应的指定话题关键词。话题跟踪系统同时根据相同的分词方法,从初始话题中筛选得到初始话题关键词。话题跟踪系统分别将各个指定话题对应的指定话题关键词与初始话题关键词一一对应比对,判断两者的关键词是否相同。若指定话题关键词与初始话题关键词一致,则判定该指定话题关键词对应的指定话题与初始话题相同,从而根据话题相似性从所有指定话题中筛选出裂变话题。话题跟踪系统如果可以从初始关注用户的指定话题中筛选到与初始话题对应的裂变话题,则获取裂变话题的传播路径,并根据裂变话题的传播路径进行监控,得到阅读、收藏、转发或评论该裂变话题的所有二次关注用户。然后,话题跟踪系统再次根据话题相似性,从二次关注用户预设时间段内的指定话题中筛选到与话题相同的裂变话题。话题跟踪系统持续循环上述监控获取和筛选动作,直至在某一次筛选过程中,没有从关注用户发布的指定话题中得到与初始话题相同的裂变话题,则判定已完成对初始话题的所有裂变话题的跟踪,系统停止对初始话题的跟踪动作,并根据所有的裂变话题生成裂变话题集。其中,在循环过程中,以当前次产生的裂变话题作为下一次循环的话题;裂变话题集为所有裂变话题组成的集合,集合中的各个裂变话题分别按照话题的公开时间进行顺序排列。
第一筛选单元,用于从所述关注用户的所有公开话题中筛选得到所述指定话题;
分词单元,用于分别对所述初始话题和所述指定话题进行分词,得到所述初始话题对应的初始话题关键词,以及所述指定话题对应的指定话题关键词;
第二筛选单元,用于筛选与所述初始话题关键词一致的指定话题关键词对应的指定话题作为所述裂变话题。
本实施例中,话题跟踪系统获取的话题包括该话题的公开时间。话题跟踪系统首先根据话题的公开时间,确定需要从关注用户筛选的指定话题对应的特定时间段,即特定时间段为从话题的公开时间到当前时间的时间段。比如,话题的公开时间为10月1号,当前时间为10月3号,则特定时间段为10月1号到10月3号。话题跟踪系统从关注用户的所有公开话题中筛选特定时间段内的至少一个指定话题,并根据词性对各个指定话题进行分词,得到各个指定话题的主语和谓语,综合生成与各个指定话题对应的指定话题关键词。同时,话题跟踪系统根据相同的分词方法从话题中筛选得到初始话题关键词。比如,话题为“张三为何逃税”中,主语为“张三”,谓语为“逃税”,主语和谓语组合形成初始话题关键词。话题跟踪系统分别将各个指定话题对应的指定话题关键词与初始话题关键词一一对应比对,即指定话题关键词中的主语与初始话题关键词中的主语比对,指定话题关键词中的谓语与初始话题关键词中的谓语比对,从而判断两个话题的关键词是否相同。若指定话题关键词与初始话题关键词一致,即指定话题关键词中的主语与初始话题关键词中的主语一致,同时指定话题关键词中的谓语与初始话题关键词中的谓语一致,则说明该指定话题关键词对应的指定话题与初始话题相同,话题跟踪系统判定可以从关注用户在特定时间段内的指定话题中筛选到与初始话题相同的裂变话题,并将与初始话题关键词一致的指定话题关键词对应过的指定话题作为裂变话题。
进一步的,所述裂变话题跟踪装置,还包括:
监控模块4,用于实时监控预设第三方网络平台中,热门话题榜上各热门话题的上榜时间;
选择模块5,用于调用预设时间长度阈值,并分别将各所述上榜时间一一与所述预设时间进行比较,选择大于所述预设时间长度阈值的上榜时间对应的热门话题作为所述话题;
第二获取模块6,用于从所述预设第三方网络平台中,获取所述话题及所述话题的传播路径。
本实施例中,话题跟踪系统根据开发人员的设定,跟预设第三方网络平台进行关联。其中,预设第三方网络平台为设置有类似热门话题榜功能的网络平台,比如新浪微博,推特,均设置有热门话题榜。话题跟踪系统实时监控预设第三方网络平台中,热门话题榜上各热门话题的上榜时间,并调取预设时间与各热门话题的上榜时间进行比对。如果上榜时间大于预设时间,则话题跟踪系统判定该上榜时间对应的热门话题具备热度分析的价值,将其设定为需要进行裂变话题跟踪的话题,并从预设第三方网络平台上获取该话题以及该话题对应的所有传播路径。
进一步的,话题也可以由系统使用人员自主选择后手动设定,在设定后,话题跟踪系统从预设第三方网络平台上获取该话题以及该话题对应的所有传播路径。
进一步的,话题跟踪系统可以跟预设第三方搜索网站进行关联,比如百度,搜狗搜索,并根据预设频率从预设第三方搜索网站的数据库中获取搜索记录。其中,搜索记录包括搜索话题和该搜索话题对应的在单位时间内的搜索次数。如果某个搜索话题在单位时间内的搜索次数大于预设次数,比如1小时内搜索次数大于10万次,则自动将该搜索话题作为推荐话题输出在显示界面,以便系统使用人员进行选择是否需要对推荐话题进行裂变话题的跟踪。
进一步的,所述裂变话题跟踪装置,还包括:
第一生成模块7,用于根据所述话题和全部的裂变话题的所有传播路径,生成话题热度信息;
解析模块8,用于按照话题的传播时间顺序解析所述话题热度信息,得到整体话题的热度变化趋势。
本实施例中,话题跟踪系统在完成对话题的所有裂变话题的跟踪后,将话题以及所有的裂变话题对应的所有传播路径汇总后,生成热度信息。其中,热度信息包括话题和全部的裂变话题随着传播时间增长的关注用户量、阅读量、转发量以及评论量等信息。话题和全部的裂变话题整合形成整体话题。话题跟踪系统以话题的公开时间为起点,按照整体话题的传播时间顺序对热度信息进行解析,从而得到整体话题的热度变化趋势。以转发量为例,从公开时间到结束话题跟踪的结束时间内,话题跟踪系统将各时刻对应的转发量绘制成变化曲线图,则可以从变化曲线图中曲线的变化趋势得到整体话题的变化趋势。如果曲线在单位时间内的上升斜率越大,则说明转发量在对应的单位时间内的热度变化越大。同时,根据最后总的转发量可以得到整体话题的热度。比如话题A总的转发量为400万,话题B总的转发量为500万,明显可以比对出话题B的热度比话题A的热度大。
进一步的,话题跟踪系统可以根据关注用户的位置信息确定整体话题在地域上的扩散,并根据地域扩散的范围确定整体话题的热度变化。比如,话题A的所有关注用户分布在全国10个省,话题B的所有关注用户分布在全国15个省,则可以明显看出话题B的热度大于话题A的热度。同样的,话题跟踪系统也可以根据单位时间内整体话题在地域上的扩散,解析得到整体话题的热度变化趋势,其解析方法跟上述方法相同。
进一步的,所述所述传播路径包括阅读、关注、转发以及评论四种类型,所述第一生成模块包括:
分组单元,用于将所述所有传播路径按照所述类型进行分组,得到各组传播子路径;
排列单元,用于分别将各所述传播子路径对应的用户数量和用户地区按照所述话题的传播时间顺序排列,得到所述话题热度信息。
本实施例中,话题跟踪系统得到的初始话题以及初始话题对应的全部的裂变话题的传播路径包括阅读、关注、转发以及评论四种类型。在形成话题热度信息的过程中,话题跟踪系统首先需要将所有传播路径按照类型的不同进行,分别得到阅读、关注、转发以及评论对应的传播子路径。在各组传播子路径中,分别包含了对应的用户数量以及用户位置,比如阅读用户数量,评论用户数量,阅读用户的地区信息,评论用户的地区信息等。话题跟踪系统分别将各组传播子路径对应的用户数量和用户位置分别按照话题的传播时间顺序排列,从而得到话题热度信息。比如,2018年9月15日12:00的阅读用户数量为1万,阅读用户地区为广东、上海、福建;2018年9月15日12:15的阅读用户数量为1.5万,阅读用户地区为广东、上海、福建、湖南、广西。在后续对热度话题信息进行解析时,可以将各组传播子路径对应的信息统合分析,也可以单独对其中一种类型的传播子路径对应的信息进行分析,从而得到更准确的分析结果。
进一步的,所述裂变话题跟踪装置,还包括:
第二判断模块9,用于判断所述热度变化趋势是否满足触发标记功能的条件;
标记模块10,用于将所述话题作为第一标记话题,并将所述第一标记话题录入标记话题库。
本实施例中,话题跟踪系统中预先构建有标记话题库,该标记话题库用于存储热度变化趋势达到预设条件的标记话题,由多组标记话题组成。话题跟踪系统在根据整体话题的热度信息进行解析,得到对应的热度变化趋势后,调取第一预设条件,并将热度变化趋势与第一预设条件进行比对,从而判断整体话题的热度变化趋势是否满足触发标记功能的条件。其中,第一预设条件为话题的单位时间内的热度变化或话题的总热度。比如,第一预设条件为1小时内话题的评论量为100万,或者话题的总评论量为1000万。如果整体话题1小时内的评论量为110万或最终的总评论量为2000万,则话题跟踪系统判定整体话题的热度变化趋势满足出发标记功能的条件,将话题进行标记作为第一标记话题,并录入标记话题库中。其中,话题携带初始话题关键词,即标记话题库中的标记话题均对应有话题关键词。标记话题库中的标记话题可以在以后的话题跟踪中,作为历史话题进行综合分析,在生成相应的推送信息时提高分析的完整性。
进一步的,所述裂变话题跟踪装置,还包括:
第三判断模块11,用于判断所述热度变化趋势是否满足触发推送功能的条件;
第二生成模块12,用于按照预设规则生成推送信息;
发送模块13,用于将所述推送信息发送到预设终端。
本实施例中,话题跟踪系统在根据整体话题的热度信息进行解析,得到对应的热度变化趋势后,调取第二预设条件,并将热度变化趋势与第二预设条件进行比对,从而判断整体话题的热度变化趋势是否满足触发推送功能的条件。其中,第二预设条件为话题的单位时间内的热度变化或话题的总热度。比如,第二预设条件为1小时内话题的评论量为50万,或者话题的总评论量为500万。如果整体话题1小时内的评论量为60万或最终的总评论量为600万,则话题跟踪系统判定整体话题的热度变化趋势满足触发推送功能的条件。话题跟踪系统根据预设规则生成推送信息,并将推送信息发送到预设终端。其中,预设规则具体为:基于话题相似性,判断是否可以从标记话题库中筛选到和整体话题相似的标记话题。标记话题为以前的裂变话题跟踪中,满足标记功能的历史话题。如果可以,话题跟踪系统将该标记话题结合整体话题的最新公开信息生成推送信息,以便预设终端的用户可以综合整体话题相似的历史话题和当前最新公开信息,对整体话题有更全面、更清晰的了解。预设终端可以是用户终端,也可以是网络平台,比如新浪微博,推特。
进一步的,所述第二生成模块12,包括:
第二判断单元,用于根据话题相似性,判断是否从所述标记话题库中筛选得到与所述整体话题相似的至少一个第二标记话题;
生成单元,用于根据所述第二标记话题和所述整体话题的指定信息,生成所述推送信息。
本实施例中,话题跟踪系统根据话题相似性,判断是否可以从标记话题库中筛选到与整体话题相似的至少一个标记话题。其中,标记话题库中所录入的标记话题均对应有标记话题关键词,具体的筛选过程为:在上述步骤中已经得到整体话题中各话题对应的整体话题关键词,即话题对应初始话题关键词,裂变话题对应裂变话题关键词,两者的话题关键词相同。话题跟踪系统分别将整体话题中各话题对应的整体话题关键词与各标记话题对应的标记话题关键词一一比对,即整体话题关键词中的主语与标记话题关键词的主语比对,整体话题关键词中的谓语与标记话题关键词的谓语比较,如果两者均相同,则认为是相似话题。如果话题跟踪系统可以从标记话题库中筛选到与整体话题相似的至少一个标记话题,则将标记话题结合整体话题的最新公开信息生成推送信息。其中,整体话题的最新公开信息可以从预设第三方网络平台获得,其公开时间距离当前时间最短;推送信息可以携带最新公开信息的链接地址。如果话题跟踪系统不可以从标记话题库中筛选到与整体话题相似的至少一个标记话题,则单纯根据整体话题的最新公开信息生成推送信息。话题跟踪系统将推送信息发送到预设终端,以便预设终端的用户及时了解整体话题。
本实施例提供的一种基于大数据的裂变话题跟踪装置,通过对话题的传播路径进行监控,从而得到话题的关注用户,再根据话题相似性从关注用户的公开话题中筛选话题对应的裂变话题。通过迭代循环监控获取和筛选动作,得到话题的所有裂变话题,不需要人工介入,有效提高了裂变话题跟踪的完整性和跟踪效率。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储标记话题库等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于大数据的裂变话题跟踪方法方法。
上述处理器执行上述基于大数据的裂变话题跟踪方法的步骤:
S1:根据初始话题的传播路径,获取与所述话题对应的关注用户;
S2:根据话题相似性,在所述关注用户发布的指定话题中,筛选得到与所述话题相同的裂变话题,所述指定话题为所述关注用户在特定时间段内发布的公开话题,所述特定时间段为所述话题的发布时间到当前时间之间的时间段;
S3:循环执行所述步骤S1和S2,直至在所述关注用户发布的指定话题中,筛选不到与所述话题相同的裂变话题,从而得到所述话题的所有裂变话题形成的裂变话题集,其中,在循环过程中,以当前次产生的裂变话题作为下一次循环的所述话题。
进一步的,所述根据话题相似性,在所述关注用户发布的指定话题中,筛选得到与所述话题相同的裂变话题的步骤,包括:
S201:从所述关注用户的所有公开话题中筛选得到所述指定话题;
S202:分别对所述话题和所述指定话题进行分词,得到所述话题对应的初始话题关键词,以及所述指定话题对应的指定话题关键词;
S203:筛选与所述初始话题关键词一致的指定话题关键词对应的指定话题作为所述裂变话题。
进一步的,所述根据话题的传播路径,获取与所述话题对应的关注用户的步骤之前,包括:
S4:实时监控预设第三方网络平台中,热门话题榜上各热门话题的上榜时间;
S5:调用预设时间长度阈值,并分别将各所述上榜时间一一与所述预设时间进行比较,选择大于所述预设时间长度阈值的上榜时间对应的热门话题作为所述话题;
S6:从所述预设第三方网络平台中,获取所述话题及所述话题的传播路径。
进一步的,所述循环执行所述步骤S1和S2,直至在所述关注用户发布的指定话题中,筛选不到与所述话题相同的裂变话题的步骤之后,包括:
S7:根据所述话题和全部的裂变话题的所有传播路径,生成话题热度信息;
S8:按照话题的传播时间顺序解析所述话题热度信息,得到整体话题的热度变化趋势,所述整体话题由所述话题和全部的裂变话题组成。
进一步的,所述传播路径包括阅读、关注、转发以及评论四种类型,所述根据所述话题和全部的裂变话题的所有传播路径,生成话题热度信息的步骤,包括:
S701:将所述所有传播路径按照所述类型进行分组,得到各组传播子路径;
S702:分别将各所述传播子路径对应的用户数量和用户地区按照所述话题的传播时间顺序排列,得到所述话题热度信息。
进一步的,所述按照话题的传播时间顺序解析所述话题热度信息,得到整体话题的热度变化趋势的步骤之后,包括:
S9:判断所述热度变化趋势是否满足触发标记功能的条件;
S10:若满足触发标记功能的条件,则将所述话题作为第一标记话题,并将所述第一标记话题录入标记话题库,所述标记话题库由多组标记话题组成,所述标记话题携带话题关键词。
进一步的,所述按照话题的传播时间顺序解析所述话题热度信息,得到整体话题的热度变化趋势的步骤之后,包括:
S11:判断所述热度变化趋势是否满足触发推送功能的条件;
S12:若满足触发推送功能的条件,则按照预设规则生成推送信息;
S13:将所述推送信息发送到预设终端。
进一步的,所述按照预设规则生成推送信息的步骤,包括:
S1201:根据话题相似性,判断是否从所述标记话题库中筛选得到与所述整体话题相似的至少一个第二标记话题;
S1202:若从所述标记话题库中筛选得到与所述整体话题相似的至少一个第二标记话题,则根据所述第二标记话题和所述整体话题的指定信息,生成所述推送信息,所述指定信息为距离当前时间最短的公开时间对应的所述整体话题的公开信息。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种基于大数据的裂变话题跟踪方法,具体为:
S1:根据初始话题的传播路径,获取与所述话题对应的关注用户;
S2:根据话题相似性,在所述关注用户发布的指定话题中,筛选得到与所述话题相同的裂变话题,所述指定话题为所述关注用户在特定时间段内发布的公开话题,所述特定时间段为所述话题的发布时间到当前时间之间的时间段;
S3:循环执行所述步骤S1和S2,直至在所述关注用户发布的指定话题中,筛选不到与所述话题相同的裂变话题,从而得到所述话题的所有裂变话题形成的裂变话题集,其中,在循环过程中,以当前次产生的裂变话题作为下一次循环的所述话题。
进一步的,所述根据话题相似性,在所述关注用户发布的指定话题中,筛选得到与所述话题相同的裂变话题的步骤,包括:
S201:从所述关注用户的所有公开话题中筛选得到所述指定话题;
S202:分别对所述话题和所述指定话题进行分词,得到所述话题对应的初始话题关键词,以及所述指定话题对应的指定话题关键词;
S203:筛选与所述初始话题关键词一致的指定话题关键词对应的指定话题作为所述裂变话题。
进一步的,所述根据话题的传播路径,获取与所述话题对应的关注用户的步骤之前,包括:
S4:实时监控预设第三方网络平台中,热门话题榜上各热门话题的上榜时间;
S5:调用预设时间长度阈值,并分别将各所述上榜时间一一与所述预设时间进行比较,选择大于所述预设时间长度阈值的上榜时间对应的热门话题作为所述话题;
S6:从所述预设第三方网络平台中,获取所述话题及所述话题的传播路径。
进一步的,所述循环执行所述步骤S1和S2,直至在所述关注用户发布的指定话题中,筛选不到与所述话题相同的裂变话题的步骤之后,包括:
S7:根据所述话题和全部的裂变话题的所有传播路径,生成话题热度信息;
S8:按照话题的传播时间顺序解析所述话题热度信息,得到整体话题的热度变化趋势,所述整体话题由所述话题和全部的裂变话题组成。
进一步的,所述传播路径包括阅读、关注、转发以及评论四种类型,所述根据所述话题和全部的裂变话题的所有传播路径,生成话题热度信息的步骤,包括:
S701:将所述所有传播路径按照所述类型进行分组,得到各组传播子路径;
S702:分别将各所述传播子路径对应的用户数量和用户地区按照所述话题的传播时间顺序排列,得到所述话题热度信息。
进一步的,所述按照话题的传播时间顺序解析所述话题热度信息,得到整体话题的热度变化趋势的步骤之后,包括:
S9:判断所述热度变化趋势是否满足触发标记功能的条件;
S10:若满足触发标记功能的条件,则将所述话题作为第一标记话题,并将所述第一标记话题录入标记话题库,所述标记话题库由多组标记话题组成,所述标记话题携带话题关键词。
进一步的,所述按照话题的传播时间顺序解析所述话题热度信息,得到整体话题的热度变化趋势的步骤之后,包括:
S11:判断所述热度变化趋势是否满足触发推送功能的条件;
S12:若满足触发推送功能的条件,则按照预设规则生成推送信息;
S13:将所述推送信息发送到预设终端。
进一步的,所述按照预设规则生成推送信息的步骤,包括:
S1201:根据话题相似性,判断是否从所述标记话题库中筛选得到与所述整体话题相似的至少一个第二标记话题;
S1202:若从所述标记话题库中筛选得到与所述整体话题相似的至少一个第二标记话题,则根据所述第二标记话题和所述整体话题的指定信息,生成所述推送信息,所述指定信息为距离当前时间最短的公开时间对应的所述整体话题的公开信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (6)
1.一种基于大数据的裂变话题跟踪方法,其特征在于,包括:
S1、根据话题的传播路径,获取与所述话题对应的关注用户;
S2、根据话题相似性,在所述关注用户发布的指定话题中,筛选得到与所述话题相同的裂变话题,所述指定话题为所述关注用户在特定时间段内发布的公开话题,所述特定时间段为所述话题的发布时间到当前时间之间的时间段;
S3、循环执行所述步骤S1和S2,直至在所述关注用户发布的指定话题中,筛选不到与所述话题相同的裂变话题,从而得到所述话题的所有裂变话题形成的裂变话题集,其中,在循环过程中,以当前次产生的裂变话题作为下一次循环的所述话题;
所述循环执行所述步骤S1和S2,直至在所述关注用户发布的指定话题中,筛选不到与所述话题相同的裂变话题的步骤之后,包括:
根据所述话题和全部的裂变话题的所有传播路径,生成话题热度信息;
按照话题的传播时间顺序解析所述话题热度信息,得到整体话题的热度变化趋势,所述整体话题由所述话题和全部的裂变话题组成;
所述传播路径包括阅读、关注、转发以及评论四种类型,所述根据所述话题和全部的裂变话题的所有传播路径,生成话题热度信息的步骤,包括:
将所述所有传播路径按照所述类型进行分组,得到各组传播子路径;
分别将各所述传播子路径对应的用户数量和用户地区按照所述话题的传播时间顺序排列,得到所述话题热度信息;
所述按照话题的传播时间顺序解析所述话题热度信息,得到整体话题的热度变化趋势的步骤之后,包括:
判断所述热度变化趋势是否满足触发推送功能的条件;
若满足触发推送功能的条件,则按照预设规则生成推送信息;
将所述推送信息发送到预设终端;
所述按照预设规则生成推送信息的步骤,包括:
根据话题相似性,判断是否从标记话题库中筛选得到与所述整体话题相似的至少一个第二标记话题;
若从所述标记话题库中筛选得到与所述整体话题相似的至少一个第二标记话题,则根据所述第二标记话题和所述整体话题的指定信息,生成所述推送信息,所述指定信息为距离当前时间最短的公开时间对应的所述整体话题的公开信息。
2.根据权利要求1所述的基于大数据的裂变话题跟踪方法,其特征在于,所述根据话题相似性,在所述关注用户发布的指定话题中,筛选得到与所述话题相同的裂变话题的步骤,包括:
从所述关注用户的所有公开话题中筛选得到所述指定话题;
分别对所述话题和所述指定话题进行分词,得到所述话题对应的初始话题关键词,以及所述指定话题对应的指定话题关键词;
筛选与所述初始话题关键词一致的指定话题关键词对应的指定话题作为所述裂变话题。
3.根据权利要求1所述的基于大数据的裂变话题跟踪方法,其特征在于,所述按照话题的传播时间顺序解析所述话题热度信息,得到整体话题的热度变化趋势的步骤之后,包括:
判断所述热度变化趋势是否满足触发标记功能的条件;
若满足触发标记功能的条件,则将所述话题作为第一标记话题,并将所述第一标记话题录入标记话题库,所述标记话题库由多组标记话题组成,所述标记话题携带话题关键词。
4.一种基于大数据的裂变话题跟踪装置,其特征在于,包括:
第一获取模块,用于根据话题的传播路径,获取与所述话题对应的关注用户;
筛选模块,用于根据话题相似性,在所述关注用户发布的指定话题中,筛选得到与所述话题相同的裂变话题;
循环模块,用于循环执行所述第一获取模块和所述筛选模块中的动作,直至在所述关注用户发布的指定话题中,筛选不到与所述话题相同的裂变话题,从而得到所述话题的所有裂变话题形成的裂变话题集,其中,在循环过程中,以当前次产生的裂变话题作为下一次循环的所述话题;
第一生成模块,用于根据所述话题和全部的裂变话题的所有传播路径,生成话题热度信息;
解析模块,用于按照话题的传播时间顺序解析所述话题热度信息,得到整体话题的热度变化趋势;所述整体话题由所述话题和全部的裂变话题组成;
所述传播路径包括阅读、关注、转发以及评论四种类型,所述第一生成模块,包括:
分组单元,用于将所述所有传播路径按照所述类型进行分组,得到各组传播子路径;
排列单元,用于分别将各所述传播子路径对应的用户数量和用户地区按照所述话题的传播时间顺序排列,得到所述话题热度信息;
第三判断模块,用于判断所述热度变化趋势是否满足触发推送功能的条件;
第二生成模块,用于若满足触发推送功能的条件,则按照预设规则生成推送信息;
发送模块,用于将所述推送信息发送到预设终端;
第二判断单元,用于根据话题相似性,判断是否从标记话题库中筛选得到与所述整体话题相似的至少一个第二标记话题;
生成单元,用于若从所述标记话题库中筛选得到与所述整体话题相似的至少一个第二标记话题,则根据所述第二标记话题和所述整体话题的指定信息,生成所述推送信息。
5.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述方法的步骤。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910100385.1A CN109829112B (zh) | 2019-01-31 | 2019-01-31 | 基于大数据的裂变话题跟踪方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910100385.1A CN109829112B (zh) | 2019-01-31 | 2019-01-31 | 基于大数据的裂变话题跟踪方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109829112A CN109829112A (zh) | 2019-05-31 |
CN109829112B true CN109829112B (zh) | 2023-11-14 |
Family
ID=66862123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910100385.1A Active CN109829112B (zh) | 2019-01-31 | 2019-01-31 | 基于大数据的裂变话题跟踪方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109829112B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112235179B (zh) * | 2020-08-29 | 2022-01-28 | 上海量明科技发展有限公司 | 即时通信中话题的处理方法、装置及即时通信工具 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102651719A (zh) * | 2011-02-28 | 2012-08-29 | 国际商业机器公司 | 用于在消息交互环境中跟踪消息话题的方法和设备 |
CN106294405A (zh) * | 2015-05-22 | 2017-01-04 | 国家计算机网络与信息安全管理中心 | 一种微博子话题演化分析方法及装置 |
WO2017035922A1 (zh) * | 2015-09-02 | 2017-03-09 | 杨鹏 | 一种基于改进lda模型的互联网话题在线挖掘方法 |
CN106649726A (zh) * | 2016-12-23 | 2017-05-10 | 中山大学 | 一种社交网络中社团话题演化挖掘方法 |
CN107203513A (zh) * | 2017-06-06 | 2017-09-26 | 中国人民解放军国防科学技术大学 | 基于概率模型的微博文本数据细粒度话题演化分析方法 |
CN108304521A (zh) * | 2018-01-25 | 2018-07-20 | 重庆邮电大学 | 基于演化博弈的微博谣言传播的分析方法与系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170206258A1 (en) * | 2016-01-19 | 2017-07-20 | International Business Machines Corporation | Method for visualizing topic evolution based on time and geography |
-
2019
- 2019-01-31 CN CN201910100385.1A patent/CN109829112B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102651719A (zh) * | 2011-02-28 | 2012-08-29 | 国际商业机器公司 | 用于在消息交互环境中跟踪消息话题的方法和设备 |
CN106294405A (zh) * | 2015-05-22 | 2017-01-04 | 国家计算机网络与信息安全管理中心 | 一种微博子话题演化分析方法及装置 |
WO2017035922A1 (zh) * | 2015-09-02 | 2017-03-09 | 杨鹏 | 一种基于改进lda模型的互联网话题在线挖掘方法 |
CN106649726A (zh) * | 2016-12-23 | 2017-05-10 | 中山大学 | 一种社交网络中社团话题演化挖掘方法 |
CN107203513A (zh) * | 2017-06-06 | 2017-09-26 | 中国人民解放军国防科学技术大学 | 基于概率模型的微博文本数据细粒度话题演化分析方法 |
CN108304521A (zh) * | 2018-01-25 | 2018-07-20 | 重庆邮电大学 | 基于演化博弈的微博谣言传播的分析方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109829112A (zh) | 2019-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11681654B2 (en) | Context-based file selection | |
US10289618B2 (en) | Third party search applications for a search system | |
US20210103837A1 (en) | Systems and methods for guided user actions | |
US9519408B2 (en) | Systems and methods for guided user actions | |
US8751511B2 (en) | Ranking of search results based on microblog data | |
US20220365939A1 (en) | Methods and systems for client side search ranking improvements | |
US10032465B2 (en) | Systems and methods for manipulating electronic content based on speech recognition | |
US9060029B2 (en) | System and method for target profiling using social network analysis | |
KR20230025714A (ko) | 문서 처리 및 응답 생성 시스템 | |
RU2692045C1 (ru) | Способ и система для рекомендации свежих саджестов поисковых запросов в поисковой системе | |
CN103678668A (zh) | 相关搜索结果的提示方法、服务器及系统 | |
US20110208715A1 (en) | Automatically mining intents of a group of queries | |
US11249993B2 (en) | Answer facts from structured content | |
US20230205824A1 (en) | Contextual Clarification and Disambiguation for Question Answering Processes | |
US20240086479A1 (en) | Identification and Issuance of Repeatable Queries | |
KR101682659B1 (ko) | 키워드 기반 맞춤 뉴스 알림 방법 및 그를 위한 뉴스 검색 관리 서버 | |
Autelitano et al. | Spatio-temporal mining of keywords for social media cross-social crawling of emergency events | |
CN109933709B (zh) | 视频文本组合数据的舆情跟踪方法、装置和计算机设备 | |
CN109829112B (zh) | 基于大数据的裂变话题跟踪方法、装置和计算机设备 | |
JP6829740B2 (ja) | データ検索方法及びそのデータ検索システム | |
CN110149810B (zh) | 限制在网络环境中操纵内容的传输系统和方法及数字助理装置 | |
Sajedi‐Badashian et al. | Investigating the information value of different sources of evidence of developers’ expertise for bug assignment in open‐source projects | |
US11709994B1 (en) | Contextual answer generation in spreadsheets | |
CN113542203B (zh) | 一种视频业务dpi识别方法及服务器 | |
KR101836420B1 (ko) | 히스토리 탐색을 위한 인덱싱 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |