CN109376231A - 一种媒体热点跟踪方法及系统 - Google Patents
一种媒体热点跟踪方法及系统 Download PDFInfo
- Publication number
- CN109376231A CN109376231A CN201811147262.5A CN201811147262A CN109376231A CN 109376231 A CN109376231 A CN 109376231A CN 201811147262 A CN201811147262 A CN 201811147262A CN 109376231 A CN109376231 A CN 109376231A
- Authority
- CN
- China
- Prior art keywords
- article
- collected
- similar
- media
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种媒体热点跟踪方法及系统,所述方法包括步骤:建立文章热度模型,对媒体的文章进行定向采集;将被采集的文章和数据库中第一预设时间段内的每篇文章进行相似度比较,若相似度大于第一预设阈值,则判定被比较的两篇文章相似;获取数据库中所有与被采集文章相似的文章的信息,所述信息包括文章的发布时间和文章所属媒体的权重;依据所述文章热度模型和数据库中所有相似文章的信息,获取被采集文章的热度值,若所述热度值大于第二预设阈值,则判定被采集文章为热点文章;所述方法及系统避免了通过网民的点击量来获取热点新闻带来的片面性,实现了对热点新闻进行全面及时地跟踪,保证了发布的热点新闻可以满足不同人群的阅读偏好。
Description
技术领域
本发明涉及互联网技术领域,更具体地,涉及一种媒体热点跟踪方法及系统。
背景技术
信息作为人们生活中不可或缺的关键部分,直接影响着人们的生活质量和精神状态。随着互联网的快速发展,信息已经越来越多样化,面对快速更新的海量信息,如何形成高效的新闻热点跟踪技术,对热点话题进行全面把握变得越来越重要。热点跟踪技术能够借助数据手段快速、高效地获取相应信息,对用户获取信息效益的提升具有至关重要的意义。
目前常见的媒体热点跟踪技术主要是基于网络用户在搜索引擎中输入的搜索关键词以及网络用户对新闻的点击量,获取热点新闻。然而许多用户在浏览或者搜索网络新闻时,会更偏向阅读娱乐性或者新奇性更强的新闻,这样就造成主流官方媒体在以此方法提取热点新闻时,错过了一些热点新闻事件,热点新闻提取过于片面化,覆盖面不够全面,不利于网民及时全面地获取社会热点信息。
发明内容
本发明的目的在于提供一种媒体热点跟踪方法及系统,解决现有的媒体热点跟踪技术出现的提取新闻热点不够全面的问题。
为实现上述目的,本发明提供了一种媒体热点跟踪方法,包括以下步骤:
建立文章热度模型,对媒体的文章进行定向采集;
将被采集的文章和数据库中第一预设时间段内的每篇文章进行相似度比较,若相似度大于第一预设阈值,则判定被比较的两篇文章相似;
获取数据库中所有与被采集文章相似的文章的信息,所述信息包括文章的发布时间和文章所属媒体的权重;
依据所述文章热度模型和数据库中所有相似文章的信息,获取被采集文章的热度值,若所述热度值大于第二预设阈值,则判定被采集文章为热点文章。
优选地,所述方法还包括步骤:在被采集文章被判定为热点文章之后,对所述被采集文章在第二预设时间段内的热度值进行监控,若所述被采集文章的热度值在第二预设时间段内一直低于第二预设阈值,则将被采集文章重新判定为非热点文章。
优选地,所述文章热度模型为其中s表示数据库中所有与被采集文章相似的文章所属媒体权重的和,t表示所有与被采集文章相似的文章中,第一篇进入数据库的相似文章已经发布的小时数,i表示时间增量,G表示时间因素的占比,i和G均为常数。
优选地,所述第一预设时间段为三天,所述第一预设阈值为80%。
优选地,所述第二预设阈值为18,所述第二预设时间段为一个小时。
为实现上述目的,本发明还提供了一种媒体热点跟踪系统,包括:
模型建立和文章采集模块,用于建立文章热度模型,对媒体的文章进行定向采集;
相似度比较模块,用于将被采集的文章和数据库中第一预设时间段内的每篇文章进行相似度比较,若相似度大于第一预设阈值,则判定被比较的两篇文章相似;
相似文章信息获取模块,用于获取数据库中所有与被采集文章相似的文章的信息,所述信息包括文章的发布时间和文章所属媒体的权重;
文章热度计算模块,用于依据所述文章热度模型和数据库中所有相似文章的信息,获取被采集文章的热度值,若所述热度值大于第二预设阈值,则判定被采集文章为热点文章。
优选地,所述系统还包括:
文章热度监控模块,用于在被采集文章被判定为热点文章之后,对所述被采集文章在第二预设时间段内的热度值进行监控,若所述被采集文章的热度值在第二预设时间段内一直低于第二预设阈值,则将被采集文章重新判定为非热点文章。
优选地,所述文章热度模型为其中s表示数据库中所有与被采集文章相似的文章所属媒体权重的和,t表示所有与被采集文章相似的文章中,第一篇进入数据库的相似文章已经发布的小时数,i表示时间增量,G表示时间因素的占比,i和G均为常数。
优选地,所述第一预设时间段为三天,所述第一预设阈值为80%。
优选地,所述第二预设阈值为18,所述第二预设时间段为一个小时。
本发明与现有技术相比,具有以下优点及突出性效果:
本发明提供的一种媒体热点跟踪方法及系统,通过定向采集主流媒体的文章,并和数据库中的文章进行相似度计算,在参考被采集文章所属媒体的权重的前提下,计算被采集文章的热度值,从而判断该文章是否为热点文章,同时对热点文章进行监控以及不断更新,实现了对热点新闻进行全面及时地跟踪,便于人们快速发现社会热点事件。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一公开的一种媒体热点跟踪方法的流程示意图;
图2为本发明实施例二公开的一种媒体热点跟踪系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一
如图1所示,本发明实施例一公开了一种媒体热点跟踪方法,包括以下步骤:
S101,建立文章热度模型,对媒体的文章进行定向采集。具体来说,首先依据影响文章热度的相关因素建立文章热度模型,这些因素包括文章的已发布时间、文章所属媒体的权重和时间因素占比,因为主流媒体发布的文章权威性较强,更具有传播影响力,传播范围更广,所以在设计文章热度模型时,对主流媒体给予更高的权重;而普通媒体发布的文章权威性不如主流媒体,新闻传播影响力更差,在设计文章热度模型时设置的权重也会更小。综合考虑影响文章热度的相关因素,本实施例设计的文章热度模型为其中s表示数据库中所有与被采集文章相似的文章所属媒体权重的和,t表示所有与被采集文章相似的文章中,第一篇进入数据库的相似文章已经发布的小时数,i表示时间增量,G表示时间因素的占比,i和G均为常数。本实施例中,i取的值为4,G取的值为1.4。
需要说明的是,在对新闻网站等媒体的不同类型的新闻数据进行采集之前,先对需要采集的数据进行分析,将新闻数据细化到最小单位,即表示为新闻网站-内容类型-具体分类的最小新闻列表,比如新华网-时政新闻-实时新闻,采集的新闻网站包括但不限于光明网、新华网和人民网等主流媒体,内容类型包括但不限于时政新闻、社会新闻和财经新闻;在对待采集新闻数据进行分析细化之后,再进行采集,这样可以保证新闻数据的纯净性和安全性,因为广告等垃圾信息被过滤掉了。
S102,将被采集的文章和数据库中第一预设时间段内的每篇文章进行相似度比较,若相似度大于第一预设阈值,则判定被比较的两篇文章相似。在对两篇文章比较相似度时,先利用ElasticSearch搜索引擎建立全文索引,同时采用中文分词库中的细颗粒度分词创建索引,以保证文档关键词的分解完整度,完成分词操作。分解完每篇文章的关键词,并统计每个词的词频之后,利用TF-IDF技术针对每个分词计算权重,提取核心关键词。由于本实施例采取的相似度算法是基于余弦相似度算法的,而余弦相似度算法不具备处理同类同义词汇的能力,所以本实施例采用Word2vec算法针对每篇文章进行语义分析,以去除后期统计分析中的语义干扰。然后将被采集文章和数据库中的文章简化为两个以关键词权重为分量的N维向量,然后利用向量模型进行余弦相似度计算。利用向量空间中两个向量夹角的余弦值作为两篇文章的相似度,那么余弦值越大说明两篇文章越相似,需要说明的是,在计算时需要考虑两个向量在方向上的差异。
本实施例中,将被采集的文章和数据库中三天内的每篇文章进行相似度比较,当被采集文章和数据库中的文章相似度大于80%时,判定两篇文章为相似文章。
S103,获取数据库中所有与被采集文章相似的文章的信息,该信息包括文章的发布时间和文章所属媒体的权重。具体来说,将数据库中的所有文章均与被采集文章进行相似度计算,这样可以获取数据库中所有与被采集文章相似的文章,同时需要获取这些相似文章的发布时间和所属媒体的权重,便于后续利用相似文章的信息计算被采集文章的热度值。
S104,依据文章热度模型和数据库中所有相似文章的信息,获取被采集文章的热度值,若热度值大于第二预设阈值,则判定被采集文章为热点文章。具体来说,通过利用上述文章热度模型,根据数据库中相似文章的相关信息,即可计算出被采集文章的热度值,本实施例中,当该热度值大于18时,则判定被采集文章为热点文章。具体实施时,每隔5分钟进行统计一次,这样可以保证被采集文章的时效性,同时热点文章列表也会不断地进行更新,便于网络用户快速发现社会热点事件。
S105,在被采集文章被判定为热点文章之后,对被采集文章在第二预设时间段内的热度值进行监控,若被采集文章的热度值在第二预设时间段内一直低于第二预设阈值,则将被采集文章重新判定为非热点文章。具体来说,被采集的文章被判定为热点文章之后,还需要对其进行第二预设时间段内的持续监控,本实施例中,对热点文章进行一个小时的连续监控,当热点文章的热度值在这一个小时内一直低于18分,则将文章重新判定为非热点文章。之后若该文章的热度值又大于18分,也将该文章重新判定为热点文章,显示在热点文章列表中。
实施例二
本实施例公开了一种媒体热点跟踪系统,包括:
模型建立和文章采集模块201,用于建立文章热度模型,对媒体的文章进行定向采集。具体来说,模型建立和文章采集模块201首先依据影响文章热度的相关因素建立文章热度模型,这些因素包括文章的已发布时间、文章所属媒体的权重和时间因素占比,因为主流媒体发布的文章权威性较强,更具有传播影响力,传播范围更广,所以在设计文章热度模型时,对主流媒体给予更高的权重;而普通媒体发布的文章权威性不如主流媒体,新闻传播影响力更差,在设计文章热度模型时设置的权重也会更小。综合考虑影响文章热度的相关因素,本实施例设计的文章热度模型为其中s表示数据库中所有与被采集文章相似的文章所属媒体权重的和,t表示所有与被采集文章相似的文章中,第一篇进入数据库的相似文章已经发布的小时数,i表示时间增量,G表示时间因素的占比,i和G均为常数。本实施例中,i取的值为4,G取的值为1.4。
相似度比较模块202,用于将被采集的文章和数据库中第一预设时间段内的每篇文章进行相似度比较,若相似度大于第一预设阈值,则判定被比较的两篇文章相似。相似度比较模块202在对两篇文章比较相似度时,先利用ElasticSearch搜索引擎建立全文索引,同时采用中文分词库中的细颗粒度分词创建索引,以保证文档关键词的分解完整度,完成分词操作。分解完每篇文章的关键词,并统计每个词的词频之后,利用TF-IDF技术针对每个分词计算权重,提取核心关键词。由于本实施例采取的相似度算法是基于余弦相似度算法的,而余弦相似度算法不具备处理同类同义词汇的能力,所以本实施例采用Word2vec算法针对每篇文章进行语义分析,以去除后期统计分析中的语义干扰。然后将被采集文章和数据库中的文章简化为两个以关键词权重为分量的N维向量,然后利用向量模型进行余弦相似度计算。利用向量空间中两个向量夹角的余弦值作为两篇文章的相似度,那么余弦值越大说明两篇文章越相似,需要说明的是,在计算时需要考虑两个向量在方向上的差异。本实施例中,相似度比较模块202将被采集的文章和数据库中三天内的每篇文章进行相似度比较,当被采集文章和数据库中的文章相似度大于80%时,判定两篇文章为相似文章。
相似文章信息获取模块203,用于获取数据库中所有与被采集文章相似的文章的信息,该信息包括文章的发布时间和文章所属媒体的权重;具体来说,相似文章信息获取模块203将数据库中的所有文章均与被采集文章进行相似度计算,这样可以获取数据库中所有与被采集文章相似的文章,同时需要获取这些相似文章的发布时间和所属媒体的权重,便于后续利用相似文章的信息计算被采集文章的热度值。
文章热度计算模块204,用于依据文章热度模型和数据库中所有相似文章的信息,获取被采集文章的热度值,若热度值大于第二预设阈值,则判定被采集文章为热点文章。具体来说,文章热度计算模块204通过利用上述文章热度模型,根据数据库中相似文章的相关信息,即可计算出被采集文章的热度值,本实施例中,当该热度值大于18时,则判定被采集文章为热点文章。具体实施时,每隔5分钟进行统计一次,这样可以保证被采集文章的时效性,同时热点文章列表也会不断地进行更新,便于网络用户快速发现社会热点事件。
文章热度监控模块205,用于在被采集文章被判定为热点文章之后,对被采集文章在第二预设时间段内的热度值进行监控,若被采集文章的热度值在第二预设时间段内一直低于第二预设阈值,则将被采集文章重新判定为非热点文章。具体来说,被采集的文章被判定为热点文章之后,文章热度监控模块205还需要对其进行第二预设时间段内的持续监控,本实施例中,文章热度监控模块205对热点文章进行一个小时的连续监控,当热点文章的热度值在这一个小时内一直低于18分,则将文章重新判定为非热点文章。之后若该文章的热度值又大于18分,也将该文章重新判定为热点文章,显示在热点文章列表中。
本发明实施例公开的一种媒体热点跟踪方法及系统,对主流媒体发布的新闻数据进行定向采集,保证了采集数据的纯净,然后利用相似度算法将被采集文章和数据库中的文章进行相似度比较,利用相似文章计算被采集文章的热度值,避免了通过网民的点击量来获取热点新闻带来的片面性,保证了发布的热点新闻可以满足不同人群的阅读偏好。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种媒体热点跟踪方法,其特征在于,包括以下步骤:
建立文章热度模型,对媒体的文章进行定向采集;
将被采集的文章和数据库中第一预设时间段内的每篇文章进行相似度比较,若相似度大于第一预设阈值,则判定被比较的两篇文章相似;
获取数据库中所有与被采集文章相似的文章的信息,所述信息包括文章的发布时间和文章所属媒体的权重;
依据所述文章热度模型和数据库中所有相似文章的信息,获取被采集文章的热度值,若所述热度值大于第二预设阈值,则判定被采集文章为热点文章。
2.如权利要求1所述的一种媒体热点跟踪方法,其特征在于,所述方法还包括步骤:在被采集文章被判定为热点文章之后,对所述被采集文章在第二预设时间段内的热度值进行监控,若所述被采集文章的热度值在第二预设时间段内一直低于第二预设阈值,则将被采集文章重新判定为非热点文章。
3.如权利要求1所述的一种媒体热点跟踪方法,其特征在于,所述文章热度模型为其中s表示数据库中所有与被采集文章相似的文章所属媒体权重的和,t表示所有与被采集文章相似的文章中,第一篇进入数据库的相似文章已经发布的小时数,i表示时间增量,G表示时间因素的占比,i和G均为常数。
4.如权利要求1所述的一种媒体热点跟踪方法,其特征在于,所述第一预设时间段为三天,所述第一预设阈值为80%。
5.如权利要求2所述的一种媒体热点跟踪方法,其特征在于,所述第二预设阈值为18,所述第二预设时间段为一个小时。
6.一种媒体热点跟踪系统,其特征在于,包括:
模型建立和文章采集模块,用于建立文章热度模型,对媒体的文章进行定向采集;
相似度比较模块,用于将被采集的文章和数据库中第一预设时间段内的每篇文章进行相似度比较,若相似度大于第一预设阈值,则判定被比较的两篇文章相似;
相似文章信息获取模块,用于获取数据库中所有与被采集文章相似的文章的信息,所述信息包括文章的发布时间和文章所属媒体的权重;
文章热度计算模块,用于依据所述文章热度模型和数据库中所有相似文章的信息,获取被采集文章的热度值,若所述热度值大于第二预设阈值,则判定被采集文章为热点文章。
7.如权利要求6所述的一种媒体热点跟踪系统,其特征在于,所述系统还包括:
文章热度监控模块,用于在被采集文章被判定为热点文章之后,对所述被采集文章在第二预设时间段内的热度值进行监控,若所述被采集文章的热度值在第二预设时间段内一直低于第二预设阈值,则将被采集文章重新判定为非热点文章。
8.如权利要求6所述的一种媒体热点跟踪系统,其特征在于,所述文章热度模型为其中s表示数据库中所有与被采集文章相似的文章所属媒体权重的和,t表示所有与被采集文章相似的文章中,第一篇进入数据库的相似文章已经发布的小时数,i表示时间增量,G表示时间因素的占比,i和G均为常数。
9.如权利要求6所述的一种媒体热点跟踪系统,其特征在于,所述第一预设时间段为三天,所述第一预设阈值为80%。
10.如权利要求7所述的一种媒体热点跟踪系统,其特征在于,所述第二预设阈值为18,所述第二预设时间段为一个小时。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811147262.5A CN109376231A (zh) | 2018-09-29 | 2018-09-29 | 一种媒体热点跟踪方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811147262.5A CN109376231A (zh) | 2018-09-29 | 2018-09-29 | 一种媒体热点跟踪方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109376231A true CN109376231A (zh) | 2019-02-22 |
Family
ID=65402985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811147262.5A Pending CN109376231A (zh) | 2018-09-29 | 2018-09-29 | 一种媒体热点跟踪方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109376231A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489525A (zh) * | 2019-08-09 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 搜索结果的获取方法和装置、存储介质及电子装置 |
CN110489741A (zh) * | 2019-07-12 | 2019-11-22 | 北京邮电大学 | 基于突发词检测和过滤的微博突发话题检测方法 |
CN111475706A (zh) * | 2020-03-30 | 2020-07-31 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 一种全天候自动检测重要消息的ai分析预警方法 |
CN111666749A (zh) * | 2020-06-03 | 2020-09-15 | 杭州凡闻科技有限公司 | 热点文章识别方法 |
CN111859230A (zh) * | 2019-04-30 | 2020-10-30 | 北京智慧星光信息技术有限公司 | 一种用于监控互联网信息的热点趋势的控制方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1822000A (zh) * | 2006-02-14 | 2006-08-23 | 北大方正集团有限公司 | 一种自动检测新闻事件的方法 |
CN101477556A (zh) * | 2009-01-22 | 2009-07-08 | 苏州智讯科技有限公司 | 一种从互联网海量信息中发现热点的方法 |
CN104077377A (zh) * | 2014-06-25 | 2014-10-01 | 红麦聚信(北京)软件技术有限公司 | 基于网络文章属性的网络舆情热点发现方法和装置 |
CN104598539A (zh) * | 2014-12-30 | 2015-05-06 | 中国联合网络通信有限公司广东省分公司 | 一种互联网事件热度计算方法及终端 |
CN105320646A (zh) * | 2015-11-17 | 2016-02-10 | 天津大学 | 一种基于增量聚类的新闻话题挖掘方法及其装置 |
CN105468668A (zh) * | 2015-10-13 | 2016-04-06 | 清华大学 | 一种官方媒体新闻中话题的推送方法及装置 |
CN106095737A (zh) * | 2016-06-07 | 2016-11-09 | 杭州凡闻科技有限公司 | 文档相似度计算方法及相似文档全网检索跟踪方法 |
CN107122481A (zh) * | 2017-05-04 | 2017-09-01 | 成都华栖云科技有限公司 | 新闻热度实时在线预测方法 |
CN107644089A (zh) * | 2017-09-26 | 2018-01-30 | 武大吉奥信息技术有限公司 | 一种基于网络媒体的热门事件提取方法 |
CN107784010A (zh) * | 2016-08-29 | 2018-03-09 | 上海掌门科技有限公司 | 一种用于确定新闻主题的热度信息的方法与设备 |
CN107885727A (zh) * | 2017-11-13 | 2018-04-06 | 成都蓝景信息技术有限公司 | 一种基于机器学习模型的社会热点发现方法 |
CN107944001A (zh) * | 2017-12-05 | 2018-04-20 | 北京金山安全软件有限公司 | 热点新闻的检测方法、装置及电子设备 |
-
2018
- 2018-09-29 CN CN201811147262.5A patent/CN109376231A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1822000A (zh) * | 2006-02-14 | 2006-08-23 | 北大方正集团有限公司 | 一种自动检测新闻事件的方法 |
CN101477556A (zh) * | 2009-01-22 | 2009-07-08 | 苏州智讯科技有限公司 | 一种从互联网海量信息中发现热点的方法 |
CN104077377A (zh) * | 2014-06-25 | 2014-10-01 | 红麦聚信(北京)软件技术有限公司 | 基于网络文章属性的网络舆情热点发现方法和装置 |
CN104598539A (zh) * | 2014-12-30 | 2015-05-06 | 中国联合网络通信有限公司广东省分公司 | 一种互联网事件热度计算方法及终端 |
CN105468668A (zh) * | 2015-10-13 | 2016-04-06 | 清华大学 | 一种官方媒体新闻中话题的推送方法及装置 |
CN105320646A (zh) * | 2015-11-17 | 2016-02-10 | 天津大学 | 一种基于增量聚类的新闻话题挖掘方法及其装置 |
CN106095737A (zh) * | 2016-06-07 | 2016-11-09 | 杭州凡闻科技有限公司 | 文档相似度计算方法及相似文档全网检索跟踪方法 |
CN107784010A (zh) * | 2016-08-29 | 2018-03-09 | 上海掌门科技有限公司 | 一种用于确定新闻主题的热度信息的方法与设备 |
CN107122481A (zh) * | 2017-05-04 | 2017-09-01 | 成都华栖云科技有限公司 | 新闻热度实时在线预测方法 |
CN107644089A (zh) * | 2017-09-26 | 2018-01-30 | 武大吉奥信息技术有限公司 | 一种基于网络媒体的热门事件提取方法 |
CN107885727A (zh) * | 2017-11-13 | 2018-04-06 | 成都蓝景信息技术有限公司 | 一种基于机器学习模型的社会热点发现方法 |
CN107944001A (zh) * | 2017-12-05 | 2018-04-20 | 北京金山安全软件有限公司 | 热点新闻的检测方法、装置及电子设备 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859230A (zh) * | 2019-04-30 | 2020-10-30 | 北京智慧星光信息技术有限公司 | 一种用于监控互联网信息的热点趋势的控制方法 |
CN111859230B (zh) * | 2019-04-30 | 2024-02-06 | 北京智慧星光信息技术有限公司 | 一种用于监控互联网信息的热点趋势的控制方法 |
CN110489741A (zh) * | 2019-07-12 | 2019-11-22 | 北京邮电大学 | 基于突发词检测和过滤的微博突发话题检测方法 |
CN110489741B (zh) * | 2019-07-12 | 2022-06-21 | 北京邮电大学 | 基于突发词检测和过滤的微博突发话题检测方法 |
CN110489525A (zh) * | 2019-08-09 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 搜索结果的获取方法和装置、存储介质及电子装置 |
CN111475706A (zh) * | 2020-03-30 | 2020-07-31 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 一种全天候自动检测重要消息的ai分析预警方法 |
CN111666749A (zh) * | 2020-06-03 | 2020-09-15 | 杭州凡闻科技有限公司 | 热点文章识别方法 |
CN111666749B (zh) * | 2020-06-03 | 2023-09-19 | 杭州凡闻科技有限公司 | 热点文章识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109376231A (zh) | 一种媒体热点跟踪方法及系统 | |
Ni et al. | Semantic documents relatedness using concept graph representation | |
Schubert et al. | Signitrend: scalable detection of emerging topics in textual streams by hashed significance thresholds | |
CN104899273B (zh) | 一种基于话题和相对熵的网页个性化推荐方法 | |
CN105183781B (zh) | 信息推荐方法及装置 | |
CN102831193A (zh) | 基于分布式多级聚类的话题检测装置及方法 | |
CN106383887A (zh) | 一种环保新闻数据采集和推荐展示的方法及系统 | |
WO2017084205A1 (zh) | 一种网络用户身份认证方法及系统 | |
Yang et al. | Crowdsourced time-sync video tagging using semantic association graph | |
Mikawa et al. | A proposal of extended cosine measure for distance metric learning in text classification | |
CN107832467A (zh) | 一种基于改进的Single‑pass聚类算法的微博话题检测方法 | |
Liu et al. | Event evolution model for cybersecurity event mining in tweet streams | |
Ke et al. | An unsupervised detection framework for Chinese jargons in the darknet | |
Yan et al. | Chinese microblog topic detection based on the latent semantic analysis and structural property | |
Huang et al. | Design a batched information retrieval system based on a concept-lattice-like structure | |
Xue et al. | Cross-media topic detection associated with hot search queries | |
Gao et al. | Topical pattern based document modelling and relevance ranking | |
Abulaish et al. | A layered approach for summarization and context learning from microblogging data | |
Cheng et al. | Fine-grained topic detection in news search results | |
Xia et al. | Searchgcn: Powering embedding retrieval by graph convolution networks for e-commerce search | |
Wang et al. | A Method of Hot Topic Detection in Blogs Using N-gram Model. | |
Yang et al. | A hot topic detection approach on Chinese microblogging | |
Setty | Distributed and dynamic clustering for news events | |
Hu et al. | o-hetm: An online hierarchical entity topic model for news streams | |
Nguyen et al. | Pagerank-based approach on ranking social events: a case study with flickr |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190222 |
|
RJ01 | Rejection of invention patent application after publication |