CN111797235B - 基于时间衰减因子的文本实时聚类方法 - Google Patents

基于时间衰减因子的文本实时聚类方法 Download PDF

Info

Publication number
CN111797235B
CN111797235B CN202010562915.7A CN202010562915A CN111797235B CN 111797235 B CN111797235 B CN 111797235B CN 202010562915 A CN202010562915 A CN 202010562915A CN 111797235 B CN111797235 B CN 111797235B
Authority
CN
China
Prior art keywords
clustering
time
text
real
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010562915.7A
Other languages
English (en)
Other versions
CN111797235A (zh
Inventor
张步良
刘袁静
张麒
魏选明
魏刚
蒲存伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Rongwei Software Service Co ltd
Original Assignee
Chengdu Rongwei Software Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Rongwei Software Service Co ltd filed Critical Chengdu Rongwei Software Service Co ltd
Priority to CN202010562915.7A priority Critical patent/CN111797235B/zh
Publication of CN111797235A publication Critical patent/CN111797235A/zh
Application granted granted Critical
Publication of CN111797235B publication Critical patent/CN111797235B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于时间衰减因子的文本实时聚类方法,依据文本的发布时间和发布平台确定文本的初始聚类热度,并根据时间的推移不断衰减,以此作为文本数据的聚类排序依据。充分体现了大数据领域中新闻话题类文本的热度价值与时效性的密切关系,使后续的新闻过滤、信息筛选更加方便,明显提高了聚类的性能;算法设计简单有效,特别适用于新闻类时效性强的海量流式文本的聚类处理。

Description

基于时间衰减因子的文本实时聚类方法
技术领域
本发明涉及大数据处理领域,特别涉及一种基于时间衰减的文本实时聚类方法。
背景技术
文本聚类是聚类分析在文本文档中的应用,依据特征词对文本进行分组,将特证词相近的文本分成一个簇,从而挖掘文本之中有效信息。它在新闻过滤、话题检测及跟踪、用户特征推荐、快速信息检索、文档分组等方面有着广泛的应用。
针对互联网媒体不断增加的新闻报道,以及网民的言论信息,这些文本数据具有维度高、数据量大等特点,运用早先的串行文本聚类分析,难以高效的对大规模文本数据进行实时处理,无法满足高性能、低成本的处理需求,所以目前更先进的做法是对这类文本进行分布式实时聚类。而新闻类文本信息的另一特点是随着时间的推移,新闻报道的频率减少,网民关注度降低。
发明内容
本公开提供一种基于时间衰减因子的文本实时聚类方法,其能够实现文本数据关注热度随时间不断衰减,特别适合新闻话题类时效性强的大规模流式文本数据的聚类分析。
本公开提供一种基于时间衰减因子的文本实时聚类方法,包括以下步骤:
对采集到的流式文本数据,按照设定的条件分发到不同的结点;
各个结点对到达的文本数据进行实时聚类;
根据文本的发布时间和发布平台等因素的权重值,计算每条文本的聚类热度初始值;
计算所述实时聚类得到的各个聚类类别的聚类热度总得分值;
每隔一段时间,对每条文本的聚类热度得分值及每个类别的总得分值进行时间衰减计算,并更新保存。
可选的,所述实时聚类采用singlepass单遍聚类方法。
可选的,所述聚类热度初始值计算方法为:S=w1*Ts+w2*Ps,其中,w1和w2分别表示发布时间和平台的影响权重值,Ts表示发布时间的得分值,Ps表示平台的得分值。
可选的,所述发布时间得分值Ts的其计算方法为
其中,Ti为设定的时间范围,t为当前时间,T为该条文本发布时间。
可选的,所述发布平台得分值Ps的计算方法为:
如果文本的发布平台是新闻媒体,其平台的得分值Ps计算方法为
其中,pn为评论、点赞、回复、转发数量,th为设定的评论等数量阈值,newsdefault为新闻平台类的默认分值;
如果文本的平台是社交媒体,其得分值计算方法为:
其中,social_default为社交平台类的默认分值。
可选的,所述各个聚类类别的聚类热度总得分值计算方法为:
Zs=S1+S2+...+Sn
其中,n为该聚类类别中文本信息的总数量,S1、S2、...、Sn分别为每条文本信息的初始得分值。
可选的,所述每隔一段时间,对每条文本的聚类热度得分值及每个类别的总得分值进行时间衰减计算的方法如下:
每隔一定的时间Tw,运行以下衰减算法,Tw单位:小时;
每篇文本衰减后的分值为S′i
其中,w1、w2为得分权重,Tz为聚类的时间,Tz单位:天;
每个类别总得分值衰减后分值为ZSj′:
其中,nj为当前第j个类别ZSj里文本的数量。
可选的,还包括根据每条文本的所述聚类热度得分值及每个类别的总得分值进行聚类排序,并随时间不断更新的步骤。
本公开提供的基于时间衰减因子的文本实时聚类方法,依据文本的发布时间和发布平台确定文本的初始聚类热度,并根据时间的推移不断衰减,以此作为文本数据的聚类排序依据与现有技术相比,本公开的有益效果是:充分体现了大数据领域中新闻话题类文本的热度价值与时效性的密切关系,使后续的新闻过滤、信息筛选更加方便,明显提高了聚类的性能;算法设计简单有效,特别适用于新闻类时效性强的海量流式文本的聚类处理。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例方式中,相同的参考标号通常代表相同部件。
图1显示根据示例性实施例的基于时间衰减因子的文本实时聚类方法流程图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
图1显示根据示例性实施例的基于时间衰减因子的文本实时聚类方法的流程图,包括以下步骤:
(1)步骤一:将采集到的流式文本数据,将其按照设定数据窗口Wsize、固定时间T或固定条数数据N等条件分发到不同的结点。
(2)步骤二,各个结点对到达的文本数据流进行实时聚类。
优选地,所述实时聚类采用singlepass单遍聚类方法。
通常的Kmeans,Dbscan等聚类算法,都是针对已有的一堆历史数据进行聚类,如果需要针对流式文本聚类,这些方法都不太适用了。因而示例性实施例采用了singlepass单遍聚类方法,利用文本向量的余弦距离计算文本间的相似度,对于依次到达的数据流,该方法按输入顺序每次处理一个数据,依据当前数据与已有类的相似度,将该数据判为已有类或者创建一个新的数据类,实现流式数据的增量和动态聚类。
实时聚类完成后,可以将聚类标签写入文本数据,或存入索引数据库或其他数据库中。
(3)步骤三,根据该条文本的发布时间和发布平台等因素的权重值,对每条文本的聚类热度初始值进行计算。
可选的,聚类热度初始值的计算方法为
SS=w1*Ts+w2*Ps
其中,w1和w2分别表示发布时间和平台的影响权重值。Ts表示发布时间的得分值,Ps表示平台的得分值。
聚类热度的初始值计算方法可以根据用户关注要素的不同而加以调整。
可选的,发布时间的得分值Ts的计算方法为:
其中,Ti为设定的时间范围,t为当前时间,T为该条文本发布时间。
可选的,发布平台的得分值Ps的计算方法为:
如果该条文本的平台是新闻媒体,其平台的得分值Ps计算方法为
其中,pn为评论、点赞、回复、转发数量,th为设定的评论等数量阈值,newsdefauft为新闻平台类的默认分值;
如果该条文本的平台是社交媒体,其得分值计算方法为:
其中,social_default为社交平台类的默认分值。
(4)步骤四,计算各个聚类类别的聚类热度总得分值,并每隔一段时间,对每篇文本的得分值和每个类别的总得分值按时间推移进行衰减计算,并保存更新。
可选地,所述各个聚类类别的聚类热度总得分值计算方法为:
Zs=S1+S2+...+Sn
其中,n为该聚类类别中文本信息的总数量,S1、S2、...、Sn分别为每条文本信息的初始得分值。
可选的,所述衰减计算的方法如下:
每隔一定的时间Tw(Tw单位为小时)运行衰减算法;
1)每篇文本衰减后的得分值为S′i
其中,w1、w2为得分权重。Tz为聚类的时间(单位为天),例如,聚类一周的数据Tz就为7。
2)对每个类别总得分值衰减后为ZSj′:
其中,nj为当前ZSj类别里文本的数量。由此可得出所有聚类类别的衰减得分值ZS′1、ZS′2、ZS′3…。
3)存储并更新衰减后的数据。
另外,作为优选方案,示例性实施例还包括:
根据每个文本的所述聚类热度得分值及每个类别的总得分值进行排序,并随时间不断更新的步骤。
排序包括:对每个聚类类别内的文本,按聚类热度分值进行纵向排序;也还可以包括在不同的类之间,按聚类热度的总分值进行横向排序。
后续,可以按照进一步需求,依据排序进行文本筛选和过滤等处理。
上述技术方案只是本发明的示例性实施例,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施例所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。

Claims (5)

1.一种基于时间衰减因子的文本实时聚类方法,包括以下步骤:
对采集到的流式文本数据,按照设定的条件分发到不同的结点;
各个结点对到达的文本数据进行实时聚类;
根据文本的发布时间和发布平台的权重值,计算每条文本的聚类热度初始值;
计算所述实时聚类得到的各个聚类类别的聚类热度总得分值;
每隔一段时间,对每条文本的聚类热度得分值及每个类别的总得分值进行时间衰减计算,并更新保存;
其中:
所述聚类热度初始值计算方法为:S=w1*Ts+w2*Ps,其中,w1和w2分别表示发布时间和平台的影响权重值,Ts表示发布时间的得分值,Ps表示平台的得分值;
所述发布平台得分值Ps的计算方法为:
如果文本的发布平台是新闻媒体,其平台的得分值Ps计算方法为
其中,pn为评论、点赞、回复或转发数量,th为设定的数量阈值,newsdefault为新闻平台类的默认分值;
如果文本的平台是社交媒体,其得分值计算方法为:
其中,social_default为社交平台类的默认分值。
2.根据权利要求1所述的文本实时聚类方法,其特征在于,所述实时聚类采用singlepass单遍聚类方法。
3.根据权利要求1所述的文本实时聚类方法,其特征在于,所述发布时间得分值Ts的其计算方法为
其中,Ti为设定的时间范围,t为当前时间,T为该条文本发布时间。
4.根据权利要求1所述的文本实时聚类方法,其特征在于,所述各个聚类类别的聚类热度总得分值计算方法为:
Zs=S1+S2+…+Sn
其中,n为该聚类类别中文本信息的总数量,S1、S2、…、Sn分别为每条文本信息的初始得分值。
5.根据权利要求1所述的文本实时聚类方法,其特征在于,还包括根据每条文本的所述聚类热度得分值及每个类别的总得分值进行聚类排序,并随时间不断更新的步骤。
CN202010562915.7A 2020-06-19 2020-06-19 基于时间衰减因子的文本实时聚类方法 Active CN111797235B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010562915.7A CN111797235B (zh) 2020-06-19 2020-06-19 基于时间衰减因子的文本实时聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010562915.7A CN111797235B (zh) 2020-06-19 2020-06-19 基于时间衰减因子的文本实时聚类方法

Publications (2)

Publication Number Publication Date
CN111797235A CN111797235A (zh) 2020-10-20
CN111797235B true CN111797235B (zh) 2024-01-26

Family

ID=72804192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010562915.7A Active CN111797235B (zh) 2020-06-19 2020-06-19 基于时间衰减因子的文本实时聚类方法

Country Status (1)

Country Link
CN (1) CN111797235B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966500B (zh) * 2021-02-15 2021-11-23 珠海市鸿瑞信息技术股份有限公司 基于人工智能组态的网络数据链安全监测平台

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549647A (zh) * 2018-01-17 2018-09-18 中移在线服务有限公司 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法
CN109275031A (zh) * 2018-09-25 2019-01-25 有米科技股份有限公司 一种视频的热度评估方法、装置及电子设备
CN109635192A (zh) * 2018-12-05 2019-04-16 宁波深擎信息科技有限公司 面向微服务的海量资讯热度排行更新方法及平台
CN110019802A (zh) * 2017-12-08 2019-07-16 北京京东尚科信息技术有限公司 一种文本聚类的方法和装置
CN110188265A (zh) * 2019-04-26 2019-08-30 中国科学院计算技术研究所 一种融合用户画像的网络舆情热点推荐方法及系统
CN110704603A (zh) * 2019-09-12 2020-01-17 武汉灯塔之光科技有限公司 一种通过资讯发掘当前热点事件的方法和装置
CN110909232A (zh) * 2019-11-12 2020-03-24 北京百分点信息科技有限公司 一种话题热度的确定方法和装置
CN111026997A (zh) * 2019-12-17 2020-04-17 上饶市中科院云计算中心大数据研究院 一种热点事件热度量化方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI393378B (zh) * 2009-04-07 2013-04-11 Inst Information Industry 熱點分析系統及方法,及其電腦程式產品

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019802A (zh) * 2017-12-08 2019-07-16 北京京东尚科信息技术有限公司 一种文本聚类的方法和装置
CN108549647A (zh) * 2018-01-17 2018-09-18 中移在线服务有限公司 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法
CN109275031A (zh) * 2018-09-25 2019-01-25 有米科技股份有限公司 一种视频的热度评估方法、装置及电子设备
CN109635192A (zh) * 2018-12-05 2019-04-16 宁波深擎信息科技有限公司 面向微服务的海量资讯热度排行更新方法及平台
CN110188265A (zh) * 2019-04-26 2019-08-30 中国科学院计算技术研究所 一种融合用户画像的网络舆情热点推荐方法及系统
CN110704603A (zh) * 2019-09-12 2020-01-17 武汉灯塔之光科技有限公司 一种通过资讯发掘当前热点事件的方法和装置
CN110909232A (zh) * 2019-11-12 2020-03-24 北京百分点信息科技有限公司 一种话题热度的确定方法和装置
CN111026997A (zh) * 2019-12-17 2020-04-17 上饶市中科院云计算中心大数据研究院 一种热点事件热度量化方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
The hot topics evaluation and key issues in online news about emergency events;Liping Chen 等;Proceedings of the 10th World Congress on Intelligent Control and Automation;407-412 *
基于多因素特征选择与AFOA/K-means的新闻热点发现方法;温廷新 等;数据分析与知识发现;第3卷(第04期);97-106 *
基于视频热度分析的广播通信混合架构;姚越越 等;信息技术(第06期);68-70 *
基于隐含语义分析的在线新闻话题发现方法;武高敏 等;计算机技术与发展;第26卷(第09期);1-7,第3节 *

Also Published As

Publication number Publication date
CN111797235A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
CN106980692B (zh) 一种基于微博特定事件的影响力计算方法
CN107633044B (zh) 一种基于热点事件的舆情知识图谱构建方法
CN104537097B (zh) 微博舆情监测系统
CN104008106B (zh) 一种获取热点话题的方法及装置
US9201880B2 (en) Processing a content item with regard to an event and a location
CN104298765B (zh) 一种互联网舆情话题的动态识别和追踪方法
CN103150333B (zh) 微博媒体中的意见领袖识别方法
CN102929861B (zh) 一种文本情感指数计算方法和系统
WO2020108430A1 (zh) 一种微博情感分析方法及系统
CN111950273A (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
TW201839628A (zh) 一種基於網路媒體資料流程發現並跟蹤熱點話題的方法、系統和裝置
CN106202294B (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
EP2596467A1 (en) Credit risk mining
CN104216964B (zh) 一种面向微博的非分词突发话题检测方法
KR20140012750A (ko) 마이크로 블로그 배열, 검색 및 표시 방법과 시스템
CN105022754A (zh) 基于社交网络的对象分类方法及装置
CN112000776B (zh) 基于语音语义的话题匹配方法、装置、设备及存储介质
CN103488637B (zh) 一种基于动态社区挖掘进行专家检索的方法
CN108287848B (zh) 用于语义解析的方法和系统
Rahman et al. Text classification using the concept of association rule of data mining
CN106126605A (zh) 一种基于用户画像的短文本分类方法
CN101923556A (zh) 根据句子序列号进行网页搜索的方法和装置
CN110609950B (zh) 一种舆情系统搜索词推荐方法及系统
CN102637179A (zh) 词项加权函数确定及基于该函数进行搜索的方法及装置
CN111797235B (zh) 基于时间衰减因子的文本实时聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant