CN110472013B - 一种热门话题更新方法、装置和计算机存储介质 - Google Patents

一种热门话题更新方法、装置和计算机存储介质 Download PDF

Info

Publication number
CN110472013B
CN110472013B CN201910722947.6A CN201910722947A CN110472013B CN 110472013 B CN110472013 B CN 110472013B CN 201910722947 A CN201910722947 A CN 201910722947A CN 110472013 B CN110472013 B CN 110472013B
Authority
CN
China
Prior art keywords
topic
topics
hot
time window
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910722947.6A
Other languages
English (en)
Other versions
CN110472013A (zh
Inventor
罗佳
王晓斌
杜蕾
黄三伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Eefung Software Co ltd
Original Assignee
Hunan Eefung Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Eefung Software Co ltd filed Critical Hunan Eefung Software Co ltd
Priority to CN201910722947.6A priority Critical patent/CN110472013B/zh
Publication of CN110472013A publication Critical patent/CN110472013A/zh
Application granted granted Critical
Publication of CN110472013B publication Critical patent/CN110472013B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种热门话题更新方法,所述方法包括:采集流量数据,并确定与所采集的流量数据对应的时间窗口;从所述时间窗口的流量数据中提取多个候选话题;计算所述多个候选话题标签的相似性,并根据相似性对所述多个候选话题标签进行合并;根据合并后候选话题标签和流量数据,获得与所述时间窗口对应的热门话题和热门话题排行。本发明还同时公开了热门话题更新装置和计算机存储介质。

Description

一种热门话题更新方法、装置和计算机存储介质
技术领域
本发明涉及热门话题的更新领域,尤其涉及一种热门话题更新方法、装置和计算机存储介质。
背景技术
随着互联网尤其是移动互联网的飞速发展,人们可以随时随地在互联网上发表自己的见闻和看法,互联网信息量巨大。
目前,对热门话题发现、热门话题提取的相关研究和技术方法已经很多(例如:CN103678670B,CN104008106B等),基本是基于分词和文本聚类的方法实现,这些方法存在较多问题。而实际情况中,对于话题标签,即话题的描述语句,大多通过词的组合或文章的标题来表示,词的组合方法所构成的话题标签往往不够通顺,而用文章的标题的方法。
因此,现有技术中对于没有标题或者标题与文章内容不符的情况则无法进行处理,且这些方法大多仅能够离线进行分析,对于海量数据而言,分析时间较长,无法满足实时性的要求。
发明内容
有鉴于此,本发明的主要目的在于提供一种热门话题更新方法、装置和计算机存储介质,旨在解决现有技术中热门话题更新不够实时和准确的问题。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种热门话题更新方法,所述方法包括:采集流量数据,并确定与所采集的流量数据对应的时间窗口;从所述时间窗口的流量数据中提取多个候选话题;计算所述多个候选话题标签的相似性,并根据相似性对所述多个候选话题标签进行合并;根据合并后候选话题标签和流量数据,获得与所述时间窗口对应的热门话题和热门话题排行。
上述方案中,,采集预设时间窗口的实时数据流量;
判断预设时间窗口内所采集的数据量是否不大于预设量值;
如果是,则将该预设时间窗口确定为时间窗口;
否则,获取数据量达到预设量值的时间,并将所获取的时间作为作为终止时间,获得时间窗口
上述方案中,还包括:根据历史时间窗口内的热门话题排名列表和所述热门话题排行,合并不同时间窗口间的相似话题并更新话题的热度值;根据热度值更新,并得到预设时间范围内的热门话题排名列表。
上述方案中,所述从所述时间窗口的流量数据中提取多个候选话题的步骤,包括:
根据所述流量数据的对应的统一资源定位符,删除统一资源定位符相同的重复数据,得到去重数据;计算数据内容的相似性,根据所计算的相似性获取并归并所述去重数据中的相似数据;基于自然语言处理技术,从合并后的相似数据中提取多个短句作为候选话题标签。
上述方案中,所述计算所述多个候选话题标签的相似性,并根据相似性对所述多个候选话题标签进行合并的步骤,包括:计算所述多个候选话题标签的相似度值;获取大于预设阈值的候选话题标签;对所获取的候选话题标签进行合并。
上述方案中,所述采集流量数据,并确定与所采集的流量数据对应的时间窗口的步骤,包括:采集预设时间窗口的实时数据流量;判断预设时间窗口内所采集的数据量是否不大于预设量值;如果是,则将该预设时间窗口确定为时间窗口;否则,获取数据量达到预设量值的时间,并将所获取的时间作为作为终止时间,获得时间窗口。
上述方案中,所述根据合并后候选话题标签和流量数据,获得与所述时间窗口对应的热门话题和热门话题排行的步骤,包括:获取每一个热门话题所对应的预设传播途径和传播途径对应的传播数量,其中,传播途径包括不限于:热门话题对应的文章、热门话题转发、热门话题评论和热门话题点赞,传播数量为:热门话题对应的文章数量、热门话题评论数量、热门话题评论数量、热门话题点赞数量;根据传播途径和传播途径对应的传播数量,获得与所述时间窗口对应的热门话题和热门话题排行。
上述方案中,所述根据传播途径和传播途径对应的传播数量,获得与所述时间窗口对应的热门话题和热门话题排行的步骤,包括:获取每一个传播途径对应的加权参数;针对每一个热门话题,计算每一个加权参数与对应传播数量的乘积和;对所计算的乘积和按照降序排序,并根据预设数量获得与所述时间窗口对应的热门话题和热门话题排行。
上述方案中,所述根据历史时间窗口内的热门话题排名列表和所述热门话题排行,合并不同时间窗口间的相似话题并更新话题的热度值的步骤,包括:获取历史时间窗口内的热门话题排名列表;通过相似性分析,合并不同时间窗口间的相似话题并更新话题的热度值;根据热度值,得到该时间范围内总的热门话题排名列表,并更新当前热门话题排行。
为实现上述目的,本发明还提供了一种热门话题更新装置,所述装置包括处理器、以及通过通信总线与所述处理器连接的存储器;其中,
所述存储器,用于存储热门话题更新程序;
所述处理器,用于执行所述热门话题更新程序,
采集流量数据,并确定与所采集的流量数据对应的时间窗口;
从所述时间窗口的流量数据中提取多个候选话题;
计算所述多个候选话题标签的相似性,并根据相似性对所述多个候选话题标签进行合并;
根据合并后候选话题标签和流量数据,获得与所述时间窗口对应的热门话题和热门话题排行;
以及任一项所述的热门话题更新步骤。
为实现上述目的,本发明还提供了一种计算机存储介质,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以使所述一个或者多个处理器执行上述任一方案所述的热门话题更新步骤。
本发明所提供的一种热门话题更新方法,通过采集流量数据,并确定与所采集的流量数据对应的时间窗口;从所述时间窗口的流量数据中提取多个候选话题;计算所述多个候选话题标签的相似性,并根据相似性对所述多个候选话题标签进行合并;根据合并后候选话题标签和流量数据,获得与所述时间窗口对应的热门话题和热门话题排行。。通过时间窗口的选择能够提高数据数据处理的及时性,以及通过基于句法分析等自然语言处理技术,能够提取出较为通顺且符合文章内容的话题标签;同时,多个候选话题标签的相似性进行候选话题标签合并后,计算出话题的热度,从而能够对热门话题按热度进行排名。
附图说明
图1为本发明一可选实施例中热门话题更新方法流程示意图;
图2为本发明一可选实施例中热门话题更新方法流程示意图;
图3为本发明一可选实施例中热门话题更新方法流程示意图;
图4为本发明一可选实施例中热门话题更新方法流程示意图;
图5为本发明一可选实施例中热门话题更新方法流程示意图
图6为本发明一可选实施例中热门话题更新装置的组成结构示意图;
图7为本发明一可选实施例中热门话题更新系统的组成结构示意图;
图8为本发明一可选实施例中热门话题更新系统的组成结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明再作进一步详细的说明。
图1为本发明实施例中热门话题更新方法流程示意图,请参阅图1,本发明实施例提供了一种热门话题更新方法,所述方法包括:
步骤S101:采集流量数据,并确定与所采集的流量数据对应的时间窗口。
可以理解的是,网络数据是在不断增加的,当数据流量过大时,则影响数据分析的速度,如果数据过小,则不能有效反映一段时间内的话题热度。
本发明实施例中,可以根据当前时间互联网数据的实时采集量情况,确定话题分析的时间窗口,若采集量较大,则选取较短的时间窗口,否则选取较大的时间窗口。
具体实现为:对当前时间互联网数据的实时采集,采集预设时间窗口的实时数据流量;判断预设时间窗口内所采集的数据量是否不大于预设量值;如果是,则将该预设时间窗口确定为时间窗口;否则,获取数据量达到预设量值的时间,并将所获取的时间作为作为终止时间,获得时间窗口。
预设数据量可以为1G、2G、500M、800M等等,该数据大小的选择可以依据现有的数据处理设备的处理能力进行设定,也可以进行动态调整,本发明实施例不做具体限定。
可以理解的是,数据采集的过程是基于时间的先后顺序进行的,所以根据一端的数据量,可以根据数据的开始采集时间和结束采集时间,确定这部分数据对应的时间窗口。
示例性的,所采集的数据流量为1G,其中,最早采集的数据时间为2019年2月9日17时10分,最晚采集的数据时间为2019年2月9日17时15分,则起始时间为2019年2月9日17时10分、数据采集的终止时间为2019年2月9日17时15分,数据时间窗口为2019年2月9日17时的10分至15分。
步骤S102:从所述时间窗口的流量数据中提取多个候选话题。
热门话题是指一定时间、一定范围内,公众最为关心的热点问题。如当前社会的热门话题应该就是人民群众最关心、最直接、最现实的教育、社保、医疗、楼市、股市、劳动就业问题等等。由于网络的开放性,很多话题在经过多次的转发和关注以后都可能形成热门话题,本发明提供的一种具体的多个候选话题标签提取方式如图2所示。
步骤S201:根据所述流量数据的对应的统一资源定位符,删除统一资源定位符相同的重复数据,得到去重数据,由于网站之间的数据互相引用等,采集到的数据就会造成重复,所以首先需要对采集到的流量数据进行去重。
可以理解的是,统一资源定位符(Uniform Resource Locator,URL)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
因此,通过对流量数据的URL地址进行分析,删除URL相同的流量数据,则可以实现删除重复采集的数据。
步骤S202:计算数据内容的相似性,根据所计算的相似性获取并归并所述去重数据中的相似数据。
本发明的具体实现中,通过基于simhash算法判断数据内容的相似性,对相似内容的数据进行归并。simHash算法的主要思想是降维,将高维的特征向量映射成一个f-bit的指纹(fingerprint),通过比较两篇文章的f-bit指纹的汉明距离Hamming Distance来确定文章是否重复或者高度近似。
当计算出来相似度为1则表示是重复的文章,否则当相似度值越高则表示两篇文章的相似度越高,实现了去重以后数据的相似度计算。
步骤S203:基于自然语言处理技术,从合并后的相似数据中提取多个短句作为候选话题标签。
可以理解的是,标签是社交媒体用户使用关键字标记他们帖子的方式,而这反过来使得社交网络更具有组织性和便于用户搜索。每当用户向他们的帖子添加标签时,该标签就会立即被社交网络收录以被其他用户搜索到。一旦有人点击了该话题标签,他们将被带到一个社媒页面,该页面会实时汇集所有包含相同话题标签的帖子。
因此,获得话题标签就相当于获取了热门话题对应的内容,所以当进行去重处理以后流量数据需要进一步获得这些数据对应的话题标签。
话题标签可以是通过简短的语句来表达,因此,对去重归并后的数据,基于依存句法分析等自然语言处理技术,提取出符合“主谓宾”等句法结构的短句作为候选的话题标签。
需要说明的是,依存句法是将句子分析成一棵依存句法树,描述出各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。例如句子“会议宣布了首批资深院士名单。通过动词“宣布”支配“会议”、“了”和“名单”,故可以将这些支配词作为“宣布”的搭配词。具体的,自然语言处理为现有技术,本发明实施例在此不做朱似乎。
步骤S103:计算所述多个候选话题标签的相似性,并根据相似性对所述多个候选话题标签进行合并。
由于不同的新闻媒体报道采用的文字描述不同,所以提取出来的候选话题标签也不相同,但是有可能是在描述同一个热门话题。例如,其中一个候选热门话题为:中国发射了全球第一颗量子卫星,另一候选热门话题为:全世界第一颗量子卫星在中国发射,再一候选热门话题为:中国发射了人类历史上第一个量子科学实验卫星墨子号。这几个热门话题都是在描述:(世界上)第一颗量子卫星(墨子号)在中国发射的事实,只是采用了不同的文字和表述。
因此,接下来对不同的候选话题标签进行合并分类,具体采用计算相似性,将相似性较高的多个候选话题标签进行合并处理,具体实施例如图3所示。
步骤S301:计算所述多个候选话题标签的相似度值。
可以理解的是,在自然语言处理(NLP)相关任务中,要将自然语言交给机器学习中的算法来处理,通常需要首先将语言数学化,因为机器不是人,机器只认数学符号。向量是人把自然界的东西抽象出来交给机器处理的东西,基本上可以说向量是人对机器输入的主要方式了。
具体的,可以采用基于词向量等技术进行相似性比较,词向量(word2vec)是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。
示例性的,针对三个候选话题标签对应的词向量分别为A1、A2、A3,首先计算A1、A2相似度值为B1;A1、A3的相似度为B2。
步骤S302:获取大于预设阈值的候选话题标签。
如果B1和B2均大于预设阈值B3,则表示A1、A2、A3所对应的三个候选话题标签的相似度较高。
步骤S303:对所获取的候选话题标签进行合并。
则对A1、A2、A3三个候选话题标签进行合并,具体的合并后的三个候选话题标签可以采用其中的一个任意标签进行表达,例如可以采用A1这个候选话题标签作为合并后的候选话题标签。
步骤S104:根据合并后候选话题标签和流量数据,获得与所述时间窗口对应的热门话题和热门话题排行。
可以理解的是,热门话题对应的流量数据越多,则表示其传播越快,影响力越大,热门话题传播的途径可以是转发、点赞、评论等多种经过用户浏览和用户获取咨询的方式。
步骤S303中对对话题进行合并以后就知道获得哪些流量数据对应该合并后的热门话题候选标签,例如A1、A2、A3所对应的三个候选话题标签进行合并后,该三个候选话题标签分别对应有其流量数据,那么根据流量数据在进行热门话题的排行计算。
本发明实施例中,如图4所示,根据合并后候选话题标签和流量数据,获得与所述时间窗口对应的热门话题和热门话题排行的步骤,包括:
步骤S401:获取每一个热门话题所对应的预设传播途径和传播途径对应的传播数量。
具体的,传播途径包括不限于:热门话题对应的文章、热门话题转发、热门话题评论和热门话题点赞,传播数量为:热门话题对应的文章数量、热门话题评论数量、热门话题评论数量、热门话题点赞数量。
可以理解的是,可以获得热门话题对应的传播途径,例如用户点赞和评论等方式均为热门话题的传播方式,表示用户对该热门话题进行过了解。但是每一种传播方式所引起的用户关注度是有差异的。例如,用户进行评论则比用户进行浏览的关注度高,热门话题转发又比用户评论的参与度和关注度高。
所以,可以设置与每一个传播途径对应的加权参数,以表示用户对该中传播途径的关注程度。
另外,当传播途径对应的数量越多也表示受关注的程度越高,例如,转发1000次,比转发100次引起的关注度要高,所以传播途径和其对应的传播数量也是作为热门话题排行的依据。
步骤S402:根据传播途径和传播途径对应的传播数量,获得与所述时间窗口对应的热门话题和热门话题排行。
具体为:获取每一个传播途径对应的加权参数;针对每一个热门话题,计算每一个加权参数与对应传播数量的乘积和;对所计算的乘积和按照降序排序,并根据预设数量获得与所述时间窗口对应的热门话题和热门话题排行。
具体为,依据热门话题所对应文章的文章数、转发量、评论量、点赞数等指标,加权求和得到每个话题的热度值,最后依据热度值对话题进行排序,得到当前时间窗口内的热门话题排名列表。
示例性的,热门话题C对应的文章数为100、转发量为1000、评论量为2000、点赞数为5000,文章数、转发量、评论量、点赞数对应的加权参数分别为:0.4、0.3、0.2、0.1。每一个加权参数与对应传播数量的乘积和为:100*0.4+1000*0.3+2000*0.2+5000*0.1=1240,那么将不同的后门候选话题标签分别进行计算,并将计算结果按照降序进行排列,然后按照顺序,比如获取排列在前20的结果,则将这20个结果对应的候选话题标签作为热门话题排行。
本发明所提供的热门话题更新方法,通过采集流量数据,并确定与所采集的流量数据对应的时间窗口;从所述时间窗口的流量数据中提取多个候选话题;计算所述多个候选话题标签的相似性,并根据相似性对所述多个候选话题标签进行合并;根据合并后候选话题标签和流量数据,获得与所述时间窗口对应的热门话题和热门话题排行。通过基于句法分析等自然语言处理技术,能够提取出较为通顺且符合文章内容的话题标签;同时,多个候选话题标签的相似性进行候选话题标签合并后,计算出话题的热度,从而能够对热门话题按热度进行排名。
如果连续多个时间周期内,同一个话题的均在排行榜上(例如热搜前十的排行),那么表示该话题的受关注程度较高,因此,本发明实施例中通过将时间窗内抽取的热门话题同历史热门话题进行融合,计算出随时间动态更新、符合实际情况的热门话题排名,避免了因时间窗内数据量不充分而造成的话题抽取不准确的问题。
如图5所示,本发明实施例,提供一种根据历史时间窗口进行话题热度值的更新方案。
步骤S105:根据历史时间窗口内的热门话题排名列表和所述热门话题排行,合并不同时间窗口间的相似话题并更新话题的热度值。
实际操作中,可以根据用户需求,调取用户所关注时间范围内的所有历史时间窗口内的热门话题排名列表,通过相似性分析,合并不同时间窗口间的相似话题并更新话题的热度值,最终得到该时间范围内总的热门话题排名列表。
可以理解的是,如果在连续多个的时间窗口内均出现一个热门话题,那么表示该热门话题的受关注程度较高,可以提高该热门话题对应的热度值。从而提高该热门话题的排行名次。
示例性的,在连续10个时间周期内,以排名列表前10为例,如果上衣时间窗口内出现该热门话题,则对本时间窗口内的话题对应的热度值,加上一个固定的数值例如100,或者是在其自身的热度值上按照比例增加,例如增加10%的热度值。
步骤S106:根据热度值更新,并得到预设时间范围内的热门话题排名列表。
进而,对更新后的热度值在此进行排序。本发明实施例中更新话题的热度值是示例性的,也可以是其他的方式,本发明实施例在此不做具体限定。
为实现上述目的,本发明还提供了一种热门话题更新装置,请参阅图6,所述装置包括处理器501、以及通过通信总线502与所述处理器501连接的存储器503;其中,所述存储器503,用于存储热门话题更新程序;所述处理器501,用于执行所述热门话题更新程序,以实现上述任一方案所述的热门话题更新步骤:采集流量数据,并确定与所采集的流量数据对应的时间窗口;从所述时间窗口的流量数据中提取多个候选话题;计算所述多个候选话题标签的相似性,并根据相似性对所述多个候选话题标签进行合并;根据合并后候选话题标签和流量数据,获得与所述时间窗口对应的热门话题和热门话题排行。
这里,所述处理器501,用于执行所述热门话题更新程序,以实现如下热门话题更新步骤:根据历史时间窗口内的热门话题排名列表和所述热门话题排行,合并不同时间窗口间的相似话题并更新话题的热度值;
根据热度值更新,并得到预设时间范围内的热门话题排名列表。
这里,所述处理器501,用于执行所述热门话题更新程序,以实现如下热门话题更新步骤:根据所述流量数据的对应的统一资源定位符,删除统一资源定位符相同的重复数据,得到去重数据;
计算数据内容的相似性,根据所计算的相似性获取并归并所述去重数据中的相似数据;
基于自然语言处理技术,从合并后的相似数据中提取多个短句作为候选话题标签。
这里,所述处理器501,用于执行所述热门话题更新程序,以实现如下热门话题更新步骤:计算所述多个候选话题标签的相似度值;
获取大于预设阈值的候选话题标签;
对所获取的候选话题标签进行合并。
这里,所述处理器501,用于执行所述热门话题更新程序,以实现如下热门话题更新步骤:获取每一个热门话题所对应的预设传播途径和传播途径对应的传播数量,其中,传播途径包括不限于:热门话题对应的文章、热门话题转发、热门话题评论和热门话题点赞,传播数量为:热门话题对应的文章数量、热门话题评论数量、热门话题评论数量、热门话题点赞数量;
根据传播途径和传播途径对应的传播数量,获得与所述时间窗口对应的热门话题和热门话题排行。
这里,所述处理器501,用于执行所述热门话题更新程序,以实现如下热门话题更新步骤:获取每一个传播途径对应的加权参数;
针对每一个热门话题,计算每一个加权参数与对应传播数量的乘积和;
对所计算的乘积和按照降序排序,并根据预设数量获得与所述时间窗口对应的热门话题和热门话题排行。
这里,所述处理器501,用于执行所述热门话题更新程序,以实现如下热门话题更新步骤:获取历史时间窗口内的热门话题排名列表;
通过相似性分析,合并不同时间窗口间的相似话题并更新话题的热度值,
根据热度值,得到该时间范围内总的热门话题排名列表,并更新当前热门话题排行。
这里,所述处理器501,用于执行所述热门话题更新程序,以实现如下热门话题更新步骤:对当前时间互联网数据的实时采集,并在所采集到的互联网数据不大于预设数据量时,确定为所采集的流量数据;
确定所采集的流量数据所对应的起始时间和终止时间;
根据起始时间和终止时间确定时间窗口。
可选的,所述处理器501可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。这里,所述处理器501执行的程序可以存储在与所述处理器501通过通信总线502连接的存储器503之中,所述存储器503可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-OnlyMemory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-OnlyMemory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-OnlyMemory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random AccessMemory)、同步连接动态随机存取存储器(SLDRAM,Sync Link Dynamic Random AccessMemory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器503旨在包括但不限于这些和任意其它适合类型的存储器503。本发明实施例中的存储器503用于存储各种类型的数据以支持所述处理器501的操作。这些数据的示例包括:供所述处理器501操作的任何计算机程序,如操作系统和应用程序;联系人数据;电话簿数据;消息;图片;视频等。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。
为实现上述目的,本发明还提供了一种计算机存储介质,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器501执行,以使所述一个或者多个处理器501执行上述任一方案所述的热门话题更新步骤:采集流量数据,并确定与所采集的流量数据对应的时间窗口;
从所述时间窗口的流量数据中提取多个候选话题;
计算所述多个候选话题标签的相似性,并根据相似性对所述多个候选话题标签进行合并;
根据合并后候选话题标签和流量数据,获得与所述时间窗口对应的热门话题和热门话题排行。
可选的,所述一个或者多个程序可被一个或者多个处理器501执行,以使所述一个或者多个处理器501执行以下热门话题更新步骤:根据历史时间窗口内的热门话题排名列表和所述热门话题排行,合并不同时间窗口间的相似话题并更新话题的热度值;
根据热度值更新,并得到预设时间范围内的热门话题排名列表。
可选的,所述一个或者多个程序可被一个或者多个处理器501执行,以使所述一个或者多个处理器501执行以下热门话题更新步骤:根据所述流量数据的对应的统一资源定位符,删除统一资源定位符相同的重复数据,得到去重数据;
计算数据内容的相似性,根据所计算的相似性获取并归并所述去重数据中的相似数据;
基于自然语言处理技术,从合并后的相似数据中提取多个短句作为候选话题标签。
可选的,所述一个或者多个程序可被一个或者多个处理器501执行,以使所述一个或者多个处理器501执行以下热门话题更新步骤:计算所述多个候选话题标签的相似度值;
获取大于预设阈值的候选话题标签;
对所获取的候选话题标签进行合并。
可选的,所述一个或者多个程序可被一个或者多个处理器501执行,以使所述一个或者多个处理器501执行以下热门话题更新步骤:获取每一个热门话题所对应的预设传播途径和传播途径对应的传播数量,其中,传播途径包括不限于:热门话题对应的文章、热门话题转发、热门话题评论和热门话题点赞,传播数量为:热门话题对应的文章数量、热门话题评论数量、热门话题评论数量、热门话题点赞数量;
根据传播途径和传播途径对应的传播数量,获得与所述时间窗口对应的热门话题和热门话题排行。
可选的,所述一个或者多个程序可被一个或者多个处理器501执行,以使所述一个或者多个处理器501执行以下热门话题更新步骤:获取每一个传播途径对应的加权参数;
针对每一个热门话题,计算每一个加权参数与对应传播数量的乘积和;
对所计算的乘积和按照降序排序,并根据预设数量获得与所述时间窗口对应的热门话题和热门话题排行。
可选的,所述一个或者多个程序可被一个或者多个处理器501执行,以使所述一个或者多个处理器501执行以下热门话题更新步骤:获取历史时间窗口内的热门话题排名列表;
通过相似性分析,合并不同时间窗口间的相似话题并更新话题的热度值,
根据热度值,得到该时间范围内总的热门话题排名列表,并更新当前热门话题排行。
可选的,所述一个或者多个程序可被一个或者多个处理器501执行,以使所述一个或者多个处理器501执行以下热门话题更新步骤:采集预设时间窗口的实时数据流量;判断预设时间窗口内所采集的数据量是否不大于预设量值;如果是,则将该预设时间窗口确定为时间窗口;否则,获取数据量达到预设量值的时间,并将所获取的时间作为作为终止时间,获得时间窗口。
可选的,所述计算机存储介质可以是易失性存储器,例如随机存取存储器;或者非易失性存储器,例如只读存储器,快闪存储器,硬盘或固态硬盘;也可以是包括上述存储器503之一或任意组合的各自设备,如移动电话、计算机、平板设备、个人数字助理等。
如图7所示,本发明实施例还提供了一种热门话题更新装置,包括:
采集模块701,用于采集流量数据,并确定与所采集的流量数据对应的时间窗口;
提取模块702,用于从所述时间窗口的流量数据中提取多个候选话题;
第一合并模块703,用于计算所述多个候选话题标签的相似性,并根据相似性对所述多个候选话题标签进行合并;
获得模块704,用于根据合并后候选话题标签和流量数据,获得与所述时间窗口对应的热门话题和热门话题排行。
以及,如图8所示,本发明实施例提供的热门话题更新装置还包括:
第二合并模块801,用于根据历史时间窗口内的热门话题排名列表和所述热门话题排行,合并不同时间窗口间的相似话题并更新话题的热度值;
更新模块802,用于根据热度值更新,并得到预设时间范围内的热门话题排名列表。
提取模块702具体用于:根据所述流量数据的对应的统一资源定位符,删除统一资源定位符相同的重复数据,得到去重数据;计算数据内容的相似性,根据所计算的相似性获取并归并所述去重数据中的相似数据;基于自然语言处理技术,从合并后的相似数据中提取多个短句作为候选话题标签。
第一合并模块703具体用于:计算所述多个候选话题标签的相似度值;获取大于预设阈值的候选话题标签;对所获取的候选话题标签进行合并。
获得模块704,具体用于:获取每一个热门话题所对应的预设传播途径和传播途径对应的传播数量,其中,传播途径包括不限于:热门话题对应的文章、热门话题转发、热门话题评论和热门话题点赞,传播数量为:热门话题对应的文章数量、热门话题评论数量、热门话题评论数量、热门话题点赞数量;根据传播途径和传播途径对应的传播数量,获得与所述时间窗口对应的热门话题和热门话题排行。
第二合并模块701,还用于:获取历史时间窗口内的热门话题排名列表;通过相似性分析,合并不同时间窗口间的相似话题并更新话题的热度值,根据热度值,得到该时间范围内总的热门话题排名列表,并更新当前热门话题排行。
采集模块701,具体用于:采集预设时间窗口的实时数据流量;判断预设时间窗口内所采集的数据量是否不大于预设量值;如果是,则将该预设时间窗口确定为时间窗口;否则,获取数据量达到预设量值的时间,并将所获取的时间作为作为终止时间,获得时间窗口。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (8)

1.一种热门话题更新方法,其特征在于,所述方法包括:
采集流量数据,并确定与所采集的流量数据对应的时间窗口;所述采集流量数据,并确定与所采集的流量数据对应的时间窗口的步骤,包括:采集预设时间窗口的实时数据流量;判断预设时间窗口内所采集的数据量是否不大于预设量值;如果是,则将该预设时间窗口确定为时间窗口;否则,获取数据量达到预设量值的时间,并将所获取的时间作为作为终止时间,获得时间窗口;
从所述时间窗口的流量数据中提取多个候选话题;
计算所述多个候选话题标签的相似性,并根据相似性对所述多个候选话题标签进行合并;
根据合并后候选话题标签和流量数据,获得与所述时间窗口对应的热门话题和热门话题排行;所述根据合并后候选话题标签和流量数据,获得与所述时间窗口对应的热门话题和热门话题排行的步骤,包括:获取每一个热门话题所对应的预设传播途径和传播途径对应的传播数量,其中,传播途径包括不限于:热门话题对应的文章、热门话题转发、热门话题评论和热门话题点赞,传播数量为:热门话题对应的文章数量、热门话题评论数量、热门话题转发数量、热门话题点赞数量;根据传播途径和传播途径对应的传播数量,获得与所述时间窗口对应的热门话题和热门话题排行。
2.根据权利要求1所述热门话题更新方法,其特征在于,所述方法还包括:
根据历史时间窗口内的热门话题排名列表和所述热门话题排行,合并不同时间窗口间的相似话题并更新话题的热度值;
根据热度值更新,并得到预设时间范围内的热门话题排名列表。
3.根据权利要求1-2任一项所述热门话题更新方法,其特征在于,所述从所述时间窗口的流量数据中提取多个候选话题的步骤,包括:
根据所述流量数据的对应的统一资源定位符,删除统一资源定位符相同的重复数据,得到去重数据;
计算数据内容的相似性,根据所计算的相似性获取并归并所述去重数据中的相似数据;
基于自然语言处理技术,从合并后的相似数据中提取多个短句作为候选话题标签。
4.根据权利要求1所述的热门话题更新方法,其特征在于,所述计算所述多个候选话题标签的相似性,并根据相似性对所述多个候选话题标签进行合并的步骤,包括:
计算所述多个候选话题标签的相似度值;
获取大于预设阈值的候选话题标签;
对所获取的候选话题标签进行合并。
5.根据权利要求1所述的热门话题更新方法,其特征在于,所述根据传播途径和传播途径对应的传播数量,获得与所述时间窗口对应的热门话题和热门话题排行的步骤,包括:
获取每一个传播途径对应的加权参数;
针对每一个热门话题,计算每一个加权参数与对应传播数量的乘积和;
对所计算的乘积和按照降序排序,并根据预设数量获得与所述时间窗口对应的热门话题和热门话题排行。
6.根据权利要求2所述的热门话题更新方法,其特征在于,所述根据历史时间窗口内的热门话题排名列表和所述热门话题排行,合并不同时间窗口间的相似话题并更新话题的热度值的步骤,包括:
获取历史时间窗口内的热门话题排名列表;
通过相似性分析,合并不同时间窗口间的相似话题并更新话题的热度值,
根据热度值,得到该时间范围内总的热门话题排名列表,并更新当前热门话题排行。
7.一种热门话题更新装置,其特征在于,所述装置包括处理器、以及通过通信总线与所述处理器连接的存储器;其中,
所述存储器,用于存储热门话题更新程序;
所述处理器,用于执行所述热门话题更新程序,以实现如权利要求1至6中任一项所述的热门话题更新方法。
8.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以使所述一个或者多个处理器执行如权利要求1至6中任一项所述的热门话题更新方法。
CN201910722947.6A 2019-08-06 2019-08-06 一种热门话题更新方法、装置和计算机存储介质 Active CN110472013B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910722947.6A CN110472013B (zh) 2019-08-06 2019-08-06 一种热门话题更新方法、装置和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910722947.6A CN110472013B (zh) 2019-08-06 2019-08-06 一种热门话题更新方法、装置和计算机存储介质

Publications (2)

Publication Number Publication Date
CN110472013A CN110472013A (zh) 2019-11-19
CN110472013B true CN110472013B (zh) 2023-03-24

Family

ID=68510384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910722947.6A Active CN110472013B (zh) 2019-08-06 2019-08-06 一种热门话题更新方法、装置和计算机存储介质

Country Status (1)

Country Link
CN (1) CN110472013B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111510371A (zh) * 2020-04-14 2020-08-07 华谊(深圳)知识产权咨询有限公司 一种基于时序的可进行事实真相追踪的通信系统
CN111767396B (zh) * 2020-05-18 2024-05-17 北京沃东天骏信息技术有限公司 数据处理方法、装置、设备及计算机可读存储介质
CN114996261B (zh) * 2022-08-05 2022-10-28 深圳市深蓝信息科技开发有限公司 基于ais数据的去重方法、装置、终端设备及存储介质
CN115062586B (zh) * 2022-08-08 2023-06-23 山东展望信息科技股份有限公司 一种基于大数据和人工智能的热点话题处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
WO2015027909A1 (en) * 2013-08-29 2015-03-05 Tencent Technology (Shenzhen) Company Limited Method and apparatus for obtaining hot-topic information
JP2016040660A (ja) * 2014-08-12 2016-03-24 日本電信電話株式会社 コンテンツ推薦装置、コンテンツ推薦方法及びコンテンツ推薦プログラム
CN108804432A (zh) * 2017-04-26 2018-11-13 慧科讯业有限公司 一种基于网络媒体数据流发现并跟踪热点话题的方法、系统和装置
CN109885656A (zh) * 2019-02-18 2019-06-14 国家计算机网络与信息安全管理中心 基于量化热度的微博转发预测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
WO2015027909A1 (en) * 2013-08-29 2015-03-05 Tencent Technology (Shenzhen) Company Limited Method and apparatus for obtaining hot-topic information
JP2016040660A (ja) * 2014-08-12 2016-03-24 日本電信電話株式会社 コンテンツ推薦装置、コンテンツ推薦方法及びコンテンツ推薦プログラム
CN108804432A (zh) * 2017-04-26 2018-11-13 慧科讯业有限公司 一种基于网络媒体数据流发现并跟踪热点话题的方法、系统和装置
CN109885656A (zh) * 2019-02-18 2019-06-14 国家计算机网络与信息安全管理中心 基于量化热度的微博转发预测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
新浪微博不同类别话题的用户特征研究;何跃等;《情报杂志》;20160718(第07期);全文 *

Also Published As

Publication number Publication date
CN110472013A (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
CN110472013B (zh) 一种热门话题更新方法、装置和计算机存储介质
CN109726274B (zh) 问题生成方法、装置及存储介质
CN109918555B (zh) 用于提供搜索建议的方法、装置、设备和介质
US11061980B2 (en) System and method for integrating content into webpages
CN102207936B (zh) 用于提示电子文档内容变更的方法和系统
KR101423549B1 (ko) 감상 기반 질의 처리 시스템 및 방법
Maier et al. Machine translation vs. multilingual dictionaries assessing two strategies for the topic modeling of multilingual text collections
US20130117716A1 (en) Function Extension for Browsers or Documents
Blatchford Searching for online news content: The challenges and decisions
CN101772766A (zh) 以用户为中心的信息搜索的方法和系统
KR101607468B1 (ko) 콘텐츠에 대한 키워드 태깅 방법 및 시스템
JP2023516209A (ja) コンテンツを検索する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
CN113360646A (zh) 基于动态权重的文本生成方法、设备及存储介质
Sivakumar Effectual web content mining using noise removal from web pages
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
US11275777B2 (en) Methods and systems for generating timelines for entities
Li Internet tourism resource retrieval using PageRank search ranking algorithm
CN103226601A (zh) 一种图片搜索的方法和装置
Chardonnens et al. Mining user queries with information extraction methods and linked data
CN110633375A (zh) 一种基于政务工作的媒体信息整合利用的系统
CN111859079A (zh) 信息搜索方法、装置、计算机设备及存储介质
CN113392195A (zh) 舆情监测方法及装置、电子设备及存储介质
US20230090601A1 (en) System and method for polarity analysis
CN113434789A (zh) 基于多维度文本特征的搜索排序方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant