CN111797235B - 基于时间衰减因子的文本实时聚类方法 - Google Patents
基于时间衰减因子的文本实时聚类方法 Download PDFInfo
- Publication number
- CN111797235B CN111797235B CN202010562915.7A CN202010562915A CN111797235B CN 111797235 B CN111797235 B CN 111797235B CN 202010562915 A CN202010562915 A CN 202010562915A CN 111797235 B CN111797235 B CN 111797235B
- Authority
- CN
- China
- Prior art keywords
- clustering
- time
- text
- real
- platform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 abstract description 6
- 238000001914 filtration Methods 0.000 abstract description 4
- 238000012216 screening Methods 0.000 abstract description 3
- 238000013461 design Methods 0.000 abstract description 2
- 230000002238 attenuated effect Effects 0.000 description 4
- 238000007621 cluster analysis Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 235000019633 pungent taste Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于时间衰减因子的文本实时聚类方法,依据文本的发布时间和发布平台确定文本的初始聚类热度,并根据时间的推移不断衰减,以此作为文本数据的聚类排序依据。充分体现了大数据领域中新闻话题类文本的热度价值与时效性的密切关系,使后续的新闻过滤、信息筛选更加方便,明显提高了聚类的性能;算法设计简单有效,特别适用于新闻类时效性强的海量流式文本的聚类处理。
Description
技术领域
本发明涉及大数据处理领域,特别涉及一种基于时间衰减的文本实时聚类方法。
背景技术
文本聚类是聚类分析在文本文档中的应用,依据特征词对文本进行分组,将特证词相近的文本分成一个簇,从而挖掘文本之中有效信息。它在新闻过滤、话题检测及跟踪、用户特征推荐、快速信息检索、文档分组等方面有着广泛的应用。
针对互联网媒体不断增加的新闻报道,以及网民的言论信息,这些文本数据具有维度高、数据量大等特点,运用早先的串行文本聚类分析,难以高效的对大规模文本数据进行实时处理,无法满足高性能、低成本的处理需求,所以目前更先进的做法是对这类文本进行分布式实时聚类。而新闻类文本信息的另一特点是随着时间的推移,新闻报道的频率减少,网民关注度降低。
发明内容
本公开提供一种基于时间衰减因子的文本实时聚类方法,其能够实现文本数据关注热度随时间不断衰减,特别适合新闻话题类时效性强的大规模流式文本数据的聚类分析。
本公开提供一种基于时间衰减因子的文本实时聚类方法,包括以下步骤:
对采集到的流式文本数据,按照设定的条件分发到不同的结点;
各个结点对到达的文本数据进行实时聚类;
根据文本的发布时间和发布平台等因素的权重值,计算每条文本的聚类热度初始值;
计算所述实时聚类得到的各个聚类类别的聚类热度总得分值;
每隔一段时间,对每条文本的聚类热度得分值及每个类别的总得分值进行时间衰减计算,并更新保存。
可选的,所述实时聚类采用singlepass单遍聚类方法。
可选的,所述聚类热度初始值计算方法为:S=w1*Ts+w2*Ps,其中,w1和w2分别表示发布时间和平台的影响权重值,Ts表示发布时间的得分值,Ps表示平台的得分值。
可选的,所述发布时间得分值Ts的其计算方法为
其中,Ti为设定的时间范围,t为当前时间,T为该条文本发布时间。
可选的,所述发布平台得分值Ps的计算方法为:
如果文本的发布平台是新闻媒体,其平台的得分值Ps计算方法为
其中,pn为评论、点赞、回复、转发数量,th为设定的评论等数量阈值,newsdefault为新闻平台类的默认分值;
如果文本的平台是社交媒体,其得分值计算方法为:
其中,social_default为社交平台类的默认分值。
可选的,所述各个聚类类别的聚类热度总得分值计算方法为:
Zs=S1+S2+...+Sn
其中,n为该聚类类别中文本信息的总数量,S1、S2、...、Sn分别为每条文本信息的初始得分值。
可选的,所述每隔一段时间,对每条文本的聚类热度得分值及每个类别的总得分值进行时间衰减计算的方法如下:
每隔一定的时间Tw,运行以下衰减算法,Tw单位:小时;
每篇文本衰减后的分值为S′i:
其中,w1、w2为得分权重,Tz为聚类的时间,Tz单位:天;
每个类别总得分值衰减后分值为ZSj′:
其中,nj为当前第j个类别ZSj里文本的数量。
可选的,还包括根据每条文本的所述聚类热度得分值及每个类别的总得分值进行聚类排序,并随时间不断更新的步骤。
本公开提供的基于时间衰减因子的文本实时聚类方法,依据文本的发布时间和发布平台确定文本的初始聚类热度,并根据时间的推移不断衰减,以此作为文本数据的聚类排序依据与现有技术相比,本公开的有益效果是:充分体现了大数据领域中新闻话题类文本的热度价值与时效性的密切关系,使后续的新闻过滤、信息筛选更加方便,明显提高了聚类的性能;算法设计简单有效,特别适用于新闻类时效性强的海量流式文本的聚类处理。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例方式中,相同的参考标号通常代表相同部件。
图1显示根据示例性实施例的基于时间衰减因子的文本实时聚类方法流程图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
图1显示根据示例性实施例的基于时间衰减因子的文本实时聚类方法的流程图,包括以下步骤:
(1)步骤一:将采集到的流式文本数据,将其按照设定数据窗口Wsize、固定时间T或固定条数数据N等条件分发到不同的结点。
(2)步骤二,各个结点对到达的文本数据流进行实时聚类。
优选地,所述实时聚类采用singlepass单遍聚类方法。
通常的Kmeans,Dbscan等聚类算法,都是针对已有的一堆历史数据进行聚类,如果需要针对流式文本聚类,这些方法都不太适用了。因而示例性实施例采用了singlepass单遍聚类方法,利用文本向量的余弦距离计算文本间的相似度,对于依次到达的数据流,该方法按输入顺序每次处理一个数据,依据当前数据与已有类的相似度,将该数据判为已有类或者创建一个新的数据类,实现流式数据的增量和动态聚类。
实时聚类完成后,可以将聚类标签写入文本数据,或存入索引数据库或其他数据库中。
(3)步骤三,根据该条文本的发布时间和发布平台等因素的权重值,对每条文本的聚类热度初始值进行计算。
可选的,聚类热度初始值的计算方法为
SS=w1*Ts+w2*Ps
其中,w1和w2分别表示发布时间和平台的影响权重值。Ts表示发布时间的得分值,Ps表示平台的得分值。
聚类热度的初始值计算方法可以根据用户关注要素的不同而加以调整。
可选的,发布时间的得分值Ts的计算方法为:
其中,Ti为设定的时间范围,t为当前时间,T为该条文本发布时间。
可选的,发布平台的得分值Ps的计算方法为:
如果该条文本的平台是新闻媒体,其平台的得分值Ps计算方法为
其中,pn为评论、点赞、回复、转发数量,th为设定的评论等数量阈值,newsdefauft为新闻平台类的默认分值;
如果该条文本的平台是社交媒体,其得分值计算方法为:
其中,social_default为社交平台类的默认分值。
(4)步骤四,计算各个聚类类别的聚类热度总得分值,并每隔一段时间,对每篇文本的得分值和每个类别的总得分值按时间推移进行衰减计算,并保存更新。
可选地,所述各个聚类类别的聚类热度总得分值计算方法为:
Zs=S1+S2+...+Sn
其中,n为该聚类类别中文本信息的总数量,S1、S2、...、Sn分别为每条文本信息的初始得分值。
可选的,所述衰减计算的方法如下:
每隔一定的时间Tw(Tw单位为小时)运行衰减算法;
1)每篇文本衰减后的得分值为S′i:
其中,w1、w2为得分权重。Tz为聚类的时间(单位为天),例如,聚类一周的数据Tz就为7。
2)对每个类别总得分值衰减后为ZSj′:
其中,nj为当前ZSj类别里文本的数量。由此可得出所有聚类类别的衰减得分值ZS′1、ZS′2、ZS′3…。
3)存储并更新衰减后的数据。
另外,作为优选方案,示例性实施例还包括:
根据每个文本的所述聚类热度得分值及每个类别的总得分值进行排序,并随时间不断更新的步骤。
排序包括:对每个聚类类别内的文本,按聚类热度分值进行纵向排序;也还可以包括在不同的类之间,按聚类热度的总分值进行横向排序。
后续,可以按照进一步需求,依据排序进行文本筛选和过滤等处理。
上述技术方案只是本发明的示例性实施例,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施例所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。
Claims (5)
1.一种基于时间衰减因子的文本实时聚类方法,包括以下步骤:
对采集到的流式文本数据,按照设定的条件分发到不同的结点;
各个结点对到达的文本数据进行实时聚类;
根据文本的发布时间和发布平台的权重值,计算每条文本的聚类热度初始值;
计算所述实时聚类得到的各个聚类类别的聚类热度总得分值;
每隔一段时间,对每条文本的聚类热度得分值及每个类别的总得分值进行时间衰减计算,并更新保存;
其中:
所述聚类热度初始值计算方法为:S=w1*Ts+w2*Ps,其中,w1和w2分别表示发布时间和平台的影响权重值,Ts表示发布时间的得分值,Ps表示平台的得分值;
所述发布平台得分值Ps的计算方法为:
如果文本的发布平台是新闻媒体,其平台的得分值Ps计算方法为
其中,pn为评论、点赞、回复或转发数量,th为设定的数量阈值,newsdefault为新闻平台类的默认分值;
如果文本的平台是社交媒体,其得分值计算方法为:
其中,social_default为社交平台类的默认分值。
2.根据权利要求1所述的文本实时聚类方法,其特征在于,所述实时聚类采用singlepass单遍聚类方法。
3.根据权利要求1所述的文本实时聚类方法,其特征在于,所述发布时间得分值Ts的其计算方法为
其中,Ti为设定的时间范围,t为当前时间,T为该条文本发布时间。
4.根据权利要求1所述的文本实时聚类方法,其特征在于,所述各个聚类类别的聚类热度总得分值计算方法为:
Zs=S1+S2+…+Sn
其中,n为该聚类类别中文本信息的总数量,S1、S2、…、Sn分别为每条文本信息的初始得分值。
5.根据权利要求1所述的文本实时聚类方法,其特征在于,还包括根据每条文本的所述聚类热度得分值及每个类别的总得分值进行聚类排序,并随时间不断更新的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010562915.7A CN111797235B (zh) | 2020-06-19 | 2020-06-19 | 基于时间衰减因子的文本实时聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010562915.7A CN111797235B (zh) | 2020-06-19 | 2020-06-19 | 基于时间衰减因子的文本实时聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111797235A CN111797235A (zh) | 2020-10-20 |
CN111797235B true CN111797235B (zh) | 2024-01-26 |
Family
ID=72804192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010562915.7A Active CN111797235B (zh) | 2020-06-19 | 2020-06-19 | 基于时间衰减因子的文本实时聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111797235B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966500B (zh) * | 2021-02-15 | 2021-11-23 | 珠海市鸿瑞信息技术股份有限公司 | 基于人工智能组态的网络数据链安全监测平台 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549647A (zh) * | 2018-01-17 | 2018-09-18 | 中移在线服务有限公司 | 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法 |
CN109275031A (zh) * | 2018-09-25 | 2019-01-25 | 有米科技股份有限公司 | 一种视频的热度评估方法、装置及电子设备 |
CN109635192A (zh) * | 2018-12-05 | 2019-04-16 | 宁波深擎信息科技有限公司 | 面向微服务的海量资讯热度排行更新方法及平台 |
CN110019802A (zh) * | 2017-12-08 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 一种文本聚类的方法和装置 |
CN110188265A (zh) * | 2019-04-26 | 2019-08-30 | 中国科学院计算技术研究所 | 一种融合用户画像的网络舆情热点推荐方法及系统 |
CN110704603A (zh) * | 2019-09-12 | 2020-01-17 | 武汉灯塔之光科技有限公司 | 一种通过资讯发掘当前热点事件的方法和装置 |
CN110909232A (zh) * | 2019-11-12 | 2020-03-24 | 北京百分点信息科技有限公司 | 一种话题热度的确定方法和装置 |
CN111026997A (zh) * | 2019-12-17 | 2020-04-17 | 上饶市中科院云计算中心大数据研究院 | 一种热点事件热度量化方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI393378B (zh) * | 2009-04-07 | 2013-04-11 | Inst Information Industry | 熱點分析系統及方法,及其電腦程式產品 |
-
2020
- 2020-06-19 CN CN202010562915.7A patent/CN111797235B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019802A (zh) * | 2017-12-08 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 一种文本聚类的方法和装置 |
CN108549647A (zh) * | 2018-01-17 | 2018-09-18 | 中移在线服务有限公司 | 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法 |
CN109275031A (zh) * | 2018-09-25 | 2019-01-25 | 有米科技股份有限公司 | 一种视频的热度评估方法、装置及电子设备 |
CN109635192A (zh) * | 2018-12-05 | 2019-04-16 | 宁波深擎信息科技有限公司 | 面向微服务的海量资讯热度排行更新方法及平台 |
CN110188265A (zh) * | 2019-04-26 | 2019-08-30 | 中国科学院计算技术研究所 | 一种融合用户画像的网络舆情热点推荐方法及系统 |
CN110704603A (zh) * | 2019-09-12 | 2020-01-17 | 武汉灯塔之光科技有限公司 | 一种通过资讯发掘当前热点事件的方法和装置 |
CN110909232A (zh) * | 2019-11-12 | 2020-03-24 | 北京百分点信息科技有限公司 | 一种话题热度的确定方法和装置 |
CN111026997A (zh) * | 2019-12-17 | 2020-04-17 | 上饶市中科院云计算中心大数据研究院 | 一种热点事件热度量化方法及装置 |
Non-Patent Citations (4)
Title |
---|
The hot topics evaluation and key issues in online news about emergency events;Liping Chen 等;Proceedings of the 10th World Congress on Intelligent Control and Automation;407-412 * |
基于多因素特征选择与AFOA/K-means的新闻热点发现方法;温廷新 等;数据分析与知识发现;第3卷(第04期);97-106 * |
基于视频热度分析的广播通信混合架构;姚越越 等;信息技术(第06期);68-70 * |
基于隐含语义分析的在线新闻话题发现方法;武高敏 等;计算机技术与发展;第26卷(第09期);1-7,第3节 * |
Also Published As
Publication number | Publication date |
---|---|
CN111797235A (zh) | 2020-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106980692B (zh) | 一种基于微博特定事件的影响力计算方法 | |
CN107633044B (zh) | 一种基于热点事件的舆情知识图谱构建方法 | |
CN104537097B (zh) | 微博舆情监测系统 | |
CN104008106B (zh) | 一种获取热点话题的方法及装置 | |
US9201880B2 (en) | Processing a content item with regard to an event and a location | |
CN104298765B (zh) | 一种互联网舆情话题的动态识别和追踪方法 | |
CN103150333B (zh) | 微博媒体中的意见领袖识别方法 | |
CN102929861B (zh) | 一种文本情感指数计算方法和系统 | |
WO2020108430A1 (zh) | 一种微博情感分析方法及系统 | |
CN111950273A (zh) | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 | |
TW201839628A (zh) | 一種基於網路媒體資料流程發現並跟蹤熱點話題的方法、系統和裝置 | |
CN106202294B (zh) | 基于关键词和主题模型融合的相关新闻计算方法及装置 | |
EP2596467A1 (en) | Credit risk mining | |
CN104216964B (zh) | 一种面向微博的非分词突发话题检测方法 | |
KR20140012750A (ko) | 마이크로 블로그 배열, 검색 및 표시 방법과 시스템 | |
CN105022754A (zh) | 基于社交网络的对象分类方法及装置 | |
CN112000776B (zh) | 基于语音语义的话题匹配方法、装置、设备及存储介质 | |
CN103488637B (zh) | 一种基于动态社区挖掘进行专家检索的方法 | |
CN108287848B (zh) | 用于语义解析的方法和系统 | |
Rahman et al. | Text classification using the concept of association rule of data mining | |
CN106126605A (zh) | 一种基于用户画像的短文本分类方法 | |
CN101923556A (zh) | 根据句子序列号进行网页搜索的方法和装置 | |
CN110609950B (zh) | 一种舆情系统搜索词推荐方法及系统 | |
CN102637179A (zh) | 词项加权函数确定及基于该函数进行搜索的方法及装置 | |
CN111797235B (zh) | 基于时间衰减因子的文本实时聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |