CN106156107A - 一种新闻热点的发现方法 - Google Patents

一种新闻热点的发现方法 Download PDF

Info

Publication number
CN106156107A
CN106156107A CN201510158272.9A CN201510158272A CN106156107A CN 106156107 A CN106156107 A CN 106156107A CN 201510158272 A CN201510158272 A CN 201510158272A CN 106156107 A CN106156107 A CN 106156107A
Authority
CN
China
Prior art keywords
data
model
mixing
iteration
utilize
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510158272.9A
Other languages
English (en)
Other versions
CN106156107B (zh
Inventor
刘岩松
谢菲
苏宇
徐信信
杨海霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201510158272.9A priority Critical patent/CN106156107B/zh
Publication of CN106156107A publication Critical patent/CN106156107A/zh
Application granted granted Critical
Publication of CN106156107B publication Critical patent/CN106156107B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本申请公开了一种新闻热点的发现方法,该方法基于海量新闻数据,通过多次迭代,确定出最优的热点发现模型,然后再利用该热点发现模型,从新采集的新闻数据中发现热点新闻。采用本发明,可以准确、高效地发现互联网上的热点新闻数据。

Description

一种新闻热点的发现方法
技术领域
本发明涉及大数据的数据建模和数据学习及挖掘技术,特别是涉及一种新闻热点的发现方法。
背景技术
随着互联网的蓬勃发展和新媒体的崛起,各种各样的新闻信息呈指数级爆发,新闻网站、博客、论坛等信息源,以及最近特别流行的微博、微信信息源,所爆发的信息量更是达到惊人的地步,那么如何才能从种类丰富、信息多元化和数据量庞大的新闻数据中,及时准确的发现热点新闻是一件极其复杂和富有挑战的事情。
目前国内大部分新闻媒体都采用基于专家经验等半人工方式的发现热点新闻的方法。即先通过对网络中的新闻数据进行可视化分析,然后由业内专家对其根据经验进行分析。
上述采用半人工方式实现的热点发现方法,存在投入资源较大,发现周期较长,发现的结果不准确的问题。
发明内容
有鉴于此,本发明的主要目的在于提供一种新闻热点的发现方法,该方法可以准确、高效地发现互联网上的热点新闻数据。
为了达到上述目的,本发明提出的技术方案为:
一种新闻热点的发现方法,包括:
a、采集互联网中与新闻相关且已知是否为热点的原始数据,所述原始数据的条数大于一百万,设置迭代次数n为1,对关键指标库进行初始化;
b、从所述原始数据中筛选出具有中立性且无偏向的数据;对所筛选出的数据进行结构化和去噪处理,并按照预设的分组比例对所述处理后的数据进行分组,得到一组样本数据和一组测试数据;
c、根据所述样本数据、所述关键指标库和第n-1次迭代时确定出的最优混合聚类模型,确定本次迭代的混合聚类模型并进行评分;
d、利用所述测试数据,对所述混合聚类模型进行验证,如果验证通过,则将所述混合聚类模型作为用于发现热点的混合聚类模型,否则,从前n次迭代中获得的所有混合聚类模型中选择出分值最高的模型,作为当前的最优混合聚类模型,利用在所述评分过程中确定出的热点数据的属性,更新当前的所述关键指标库;并将迭代次数n加1,执行步骤c;
e、采集新的新闻数据,并利用所述用于发现热点的混合聚类模型,从中识别出热点新闻数据。
综上所述,本发明提出的新闻热点的发现方法,基于海量新闻数据,通过多次迭代,确定出最优的热点发现模型,然后再利用该热点发现模型,从新采集的新闻数据中发现热点新闻。如此,可以准确、高效地发现互联网上的热点新闻数据。
附图说明
图1为本发明实施例一的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
本发明的核心思想是:基于海量新闻数据,建立关键指标库、热点发现模型,并对热点发现模型进行验证,并且通过多次迭代对关键指标库、热点发现模型进行优化,最终得到最优的热点发现模型,利用该最优的热点发现模型进行热点新闻的发现。如此,可以快速建立用于发现新闻热点的模型,并且可以确保识别的准确度,从而可以快速、准确、高效地发现互联网上的热点新闻数据。
图1为本发明实施例一的流程示意图,如图1所示,该实施例主要包括:
步骤101、采集互联网中与新闻相关且已知是否为热点的原始数据,所述原始数据的条数大于一百万,设置迭代次数n为1,对关键指标库进行初始化。
本步骤,需要采集海量新闻数据并且这些数据是否为热点新闻数据是已知的,这样,在此后的步骤里便可以利用这些数据及其是否为热点的特性,建立热点发现模型并进行评分,然后通过迭代的方式得到最优的热点发现模型,如此,可以确保热点发现的准确性和效率。
这里,原始数据的条数将至少大于一百万,以确保快速、准确地确定出最优的热点发现模型。
在实际应用中,可以从权威的媒体机构获得上述原始数据,以确保这些原始数据是否为热点的准确性。
较佳地,为了提高最优模型的确定效率,本步骤中可以根据预先获取的专家经验数据对关键指标库进行初始化,然后通过后续的迭代学习过程对该关键指标库进行更新,直到获得最优热点发现模型。
具体地,所述关键指标库中的信息将包括:热点指标以及每个热点指标的取值。
步骤102、从所述原始数据中筛选出具有中立性且无偏向的数据;对所筛选出的数据进行结构化和去噪处理,并按照预设的分组比例对所述处理后的数据进行分组,得到一组样本数据和一组测试数据。
本步骤,用于对原始数据中的数据进行筛选、并进行结构化和去噪处理,最后对其进行分组,其中,样本数据组将用于确定热点发现模型,测试数据将用于对热点发现模型进行验证。这里,为了确保热点发现模型的准确性,需要筛选出具有中立性且无偏向的数据用于模型的建立和验证,即用于建立和验证模型的数据不存在热点数据的数量与非热点数据的数量差异过大的问题,从而可以确保高效、准确地建立热点发现模型。
较佳地,可以采用下述方法进行所述筛选:
根据预设的属性对所述原始数据进行分类,将所述分类后的数据与预设的校对数据进行比较,确定出所述具有中立性且无偏向的数据。
这里所述预设的属性可由本领域技术人员根据实际需要进行指定,例如可以是访问热度、所属领域等属性,但不限于此。
较佳地,这里用于进行中立性无偏向判断的校对数据,可以由第三方权威媒体机构提供。
基于上述方法确定出具有中立性且无偏向数据的具体方法,为本领域技术人员所掌握,在此不再赘述。
较佳地,可以采用下述方法对所筛选出的数据进行结构化和去噪处理:
按照预设的聚合模型,对所述筛选出的数据进行清洗转换处理,得到相应的聚合数据;
对所述聚合数据进行去噪处理,并按照所述分组比例对所述去噪处理后的数据进行分组,得到所述样本数据组和测试数据组。
上述方法中,进行所述清洗转换处理、去噪处理的具体方法,为本领域技术人员所掌握,在此不再赘述。
本步骤中,所述分组比例具体可为样本数据与测试数据的比值,较佳地,该分组比例需要大于1,即样本数据需要多于测试数据,以确保本次迭代所得到的混合聚类模型的可靠性。
步骤103、根据所述样本数据、所述关键指标库和第n-1次迭代时确定出的最优混合聚类模型,确定本次迭代的混合聚类模型并进行评分。
本步骤,用于确定出第n次迭代的混合聚类模型并对其评分,以便确定出当前最优的混合聚类模型,以供第n+1次迭代时使用。
较佳地,具体可以采用下述方法实现本步骤:
步骤1031、根据所述关键指标库,对所述样本数据进行Canopy聚类,并对所述Canopy聚类结果进行K均值(KMeans)精细化聚类,得到相应的聚类模型。
本步骤中,Canopy聚类和KMeans精细化聚类的具体实现方法为本领域技术人员所掌握,在此不再赘述。
步骤1032、根据所述关键指标库,利用迭代二叉树3代(ID3)和决策树C4.5算法(C45)对所述样本数据进行处理,得到相应的预测模型。
本步骤中,利用ID3和C45决策树算法对所述样本数据进行处理,生成相应的预测模型的具体方法,为本领域技术人员所掌握,在此不再赘述。
步骤1033、根据所述关键指标库,对所述样本数据进行打标签和切词后,使用支持向量机(SVM)算法,生成相应的情感分析模型。
本步骤中,对所述样本数据进行打标签和切词、以及使用SVM相关算法生成相应的情感分析模型的具体方法,为本领域技术人员所掌握,在此不再赘述。
步骤1034、对于每个所述模型,利用所述样本数据对该模型进行验证,并根据该验证结果确定第n次迭代中该模型的混合得分值。
较佳地,本步骤中,对于每个所述模型(即上述步骤得到的聚类模型、预测模型以及情感分析模型),利用所述样本数据对该模型进行验证,并根据该验证结果确定第n次迭代中该模型的混合得分值,可以采用下述方法实现:
对于每个所述模型,利用该模型判断每条所述测试数据是否为热点新闻数据,并确定该判断的正确性,最后,根据该模型对所有所述测试数据进行判断的准确率,确定第n次迭代中该模型的混合得分值。
这里,确定模型对测试数据进行热点判断的准确性,其具体方法是将已知的该测试数据是否为热点的特性与模型的热点判断结果比较,如果一致,则确定该判断正确,否则为错误。
在确定第n次迭代中一个模型的混合得分值时,将按照进行判断的准确率越高,则其混合得分值越高的原则进行。
步骤1035、按照wn=xn·a+yn·b+zn·c,确定第n次迭代的混合聚类模型Wn和该混合聚类模型的得分值wn,其中,xn为所述聚类模型在第n次迭代的所述混合得分值,a为预设的聚类模型的混合权重,yn为所述预测模型在第n次迭代的所述混合得分值,b为预设的预测模型的混合权重,zn为所述情感分析模型在第n次迭代的所述混合得分值,c为预设的情感分析模型的混合权重,a+b+c=1。
在实际应用中,所述权重a、b、c可由本领域技术人员根据专家经验进行设置。
步骤104~105、利用所述测试数据,对所述混合聚类模型进行验证,如果验证通过,则将所述混合聚类模型作为用于发现热点的混合聚类模型,否则,从前n次迭代中获得的所有混合聚类模型中选择出分值最高的模型,作为当前的最优混合聚类模型,利用在所述评分过程中确定出的热点数据的属性,更新当前的所述关键指标库;并将迭代次数n加1,执行步骤103。
本步骤,用于验证本次迭代所获得的混合聚类模型是否可以用于进行热点新闻的发现,如果不可以则需要返加步骤103,执行下一次的迭代过程,在执行步骤103之前,需要确定出当前获得的最优混合聚类模型,并对关键指标库进行更新。
具体地,对关键指标库进行更新,即,将本次迭代验证出的热点数据的相应属性信息增加至关键指标库中。
较佳地,可以采用下述方法对所述混合聚类模型进行验证:
对于每条所述测试数据,利用本次迭代得到的所述混合聚类模型,判断该测试数据是否为热点新闻数据;并确定该判断结果是否正确;
如果所有所述测试数据对应的所述判断结果均正确,则确定所述验证通过,否则,确定所述验证不通过。
步骤106、采集新的新闻数据,并利用所述用于发现热点的混合聚类模型,从中识别出热点新闻数据。
本步骤中,由于所使用的是经过n次迭代得到的最优的热点发现模型,因此,可以确保热点新闻数据的准确度。
通过上述方案可以看出,本发明充分利用了基于海量数据的数据建模、数据处理和数据学习技术,因此,能够准确、高效的发现互联网上的热点新闻。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种新闻热点的发现方法,其特征在于,包括:
a、采集互联网中与新闻相关且已知是否为热点的原始数据,所述原始数据的条数大于一百万,设置迭代次数n为1,对关键指标库进行初始化;
b、从所述原始数据中筛选出具有中立性且无偏向的数据;对所筛选出的数据进行结构化和去噪处理,并按照预设的分组比例对所述处理后的数据进行分组,得到一组样本数据和一组测试数据;
c、根据所述样本数据、所述关键指标库和第n-1次迭代时确定出的最优混合聚类模型,确定本次迭代的混合聚类模型并进行评分;
d、利用所述测试数据,对所述混合聚类模型进行验证,如果验证通过,则将所述混合聚类模型作为用于发现热点的混合聚类模型,否则,从前n次迭代中获得的所有混合聚类模型中选择出分值最高的模型,作为当前的最优混合聚类模型,利用在所述评分过程中确定出的热点数据的属性,更新当前的所述关键指标库;并将迭代次数n加1,执行步骤c;
e、采集新的新闻数据,并利用所述用于发现热点的混合聚类模型,从中识别出热点新闻数据。
2.根据权利要求1所述的方法,其特征在于,步骤a中根据预先获取的专家经验数据对关键指标库进行初始化。
3.根据权利要求1所述的方法,其特征在于,步骤b中所述筛选包括:
根据预设的属性对所述原始数据进行分类,将所述分类后的数据与预设的校对数据进行比较,确定出所述具有中立性且无偏向的数据。
4.根据权利要求1所述的方法,其特征在于,步骤b中所述结构化和去噪处理包括:
按照预设的聚合模型,对所述筛选出的数据进行清洗转换处理,得到相应的聚合数据;
对所述聚合数据进行去噪处理,并按照所述分组比例对所述去噪处理后的数据进行分组,得到所述样本数据组和测试数据组。
5.根据权利要求1所述的方法,其特征在于,所述关键指标库中的信息包括:热点指标以及每个热点指标的取值。
6.根据权利要求1所述的方法,其特征在于,所述分组比例为样本数据与测试数据的比值,所述分组比例大于1。
7.根据权利要求1所述的方法,其特征在于,步骤c中所述确定本次迭代的混合聚类模型并进行评分包括:
根据所述关键指标库,对所述样本数据进行Canopy聚类,并对所述Canopy聚类结果进行K均值KMeans精细化聚类,得到相应的聚类模型;
根据所述关键指标库,利用迭代二叉树3代ID3算法和决策树C4.5算法C45对所述样本数据进行处理,得到相应的预测模型;
根据所述关键指标库,对所述样本数据进行打标签和切词后,利用支持向量机SVM算法,生成相应的情感分析模型;
对于每个所述模型,利用所述样本数据对该模型进行验证,并根据该验证结果确定第n次迭代中该模型的混合得分值;
按照wn=xn·a+yn·b+zn·c,确定第n次迭代的混合聚类模型Wn和该混合聚类模型的得分值wn,其中,xn为所述聚类模型在第n次迭代的所述混合得分值,a为预设的聚类模型的混合权重,yn为所述预测模型在第n次迭代的所述混合得分值,b为预设的预测模型的混合权重,zn为所述情感分析模型在第n次迭代的所述混合得分值,c为预设的情感分析模型的混合权重,a+b+c=1。
8.根据权利要求7所述的方法,其特征在于,步骤c中所述对于每个所述模型,利用所述样本数据对该模型进行验证,并根据该验证结果确定第n次迭代中该模型的混合得分值包括:
对于每个所述模型,利用该模型判断每条所述测试数据是否为热点数据,并确定该判断的正确性,根据该模型对所有所述测试数据进行判断的准确率,确定第n次迭代中该模型的混合得分值。
9.根据权利要求7所述的方法,其特征在于,步骤d中所述验证包括:
对于每条所述测试数据,利用本次迭代得到的所述混合聚类模型,判断该测试数据是否为热点数据;并确定该判断结果是否正确;
如果所有所述测试数据对应的所述判断结果均正确,则确定所述验证通过,否则,确定所述验证不通过。
CN201510158272.9A 2015-04-03 2015-04-03 一种新闻热点的发现方法 Active CN106156107B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510158272.9A CN106156107B (zh) 2015-04-03 2015-04-03 一种新闻热点的发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510158272.9A CN106156107B (zh) 2015-04-03 2015-04-03 一种新闻热点的发现方法

Publications (2)

Publication Number Publication Date
CN106156107A true CN106156107A (zh) 2016-11-23
CN106156107B CN106156107B (zh) 2019-12-13

Family

ID=57338172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510158272.9A Active CN106156107B (zh) 2015-04-03 2015-04-03 一种新闻热点的发现方法

Country Status (1)

Country Link
CN (1) CN106156107B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345670A (zh) * 2018-02-09 2018-07-31 国网江苏省电力有限公司电力科学研究院 一种用于95598电力工单的服务热点发现方法
CN108897834A (zh) * 2018-06-22 2018-11-27 招商信诺人寿保险有限公司 数据处理与挖掘方法
CN109509513A (zh) * 2018-12-25 2019-03-22 刘万里 基于分布聚类的胃食管反流疾病危险因素提取方法及系统
CN110061882A (zh) * 2019-04-26 2019-07-26 南京华苏科技有限公司 License动态调整的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012929A (zh) * 2010-11-26 2011-04-13 北京交通大学 网络舆情预测方法及系统
CN102508907A (zh) * 2011-11-11 2012-06-20 北京航空航天大学 一种基于训练集优化的推荐系统的动态推荐方法
CN103136337A (zh) * 2013-02-01 2013-06-05 北京邮电大学 用于复杂网络的分布式知识数据挖掘装置和挖掘方法
CN103425757A (zh) * 2013-07-31 2013-12-04 复旦大学 融合多模态信息的跨媒体人物新闻检索方法与系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012929A (zh) * 2010-11-26 2011-04-13 北京交通大学 网络舆情预测方法及系统
CN102508907A (zh) * 2011-11-11 2012-06-20 北京航空航天大学 一种基于训练集优化的推荐系统的动态推荐方法
CN102508907B (zh) * 2011-11-11 2013-11-20 北京航空航天大学 一种基于训练集优化的推荐系统的动态推荐方法
CN103136337A (zh) * 2013-02-01 2013-06-05 北京邮电大学 用于复杂网络的分布式知识数据挖掘装置和挖掘方法
CN103425757A (zh) * 2013-07-31 2013-12-04 复旦大学 融合多模态信息的跨媒体人物新闻检索方法与系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张立: "《基于新闻评论数据的K-means聚类算法的研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345670A (zh) * 2018-02-09 2018-07-31 国网江苏省电力有限公司电力科学研究院 一种用于95598电力工单的服务热点发现方法
CN108345670B (zh) * 2018-02-09 2021-11-30 国网江苏省电力有限公司电力科学研究院 一种用于95598电力工单的服务热点发现方法
CN108897834A (zh) * 2018-06-22 2018-11-27 招商信诺人寿保险有限公司 数据处理与挖掘方法
CN109509513A (zh) * 2018-12-25 2019-03-22 刘万里 基于分布聚类的胃食管反流疾病危险因素提取方法及系统
CN110061882A (zh) * 2019-04-26 2019-07-26 南京华苏科技有限公司 License动态调整的方法

Also Published As

Publication number Publication date
CN106156107B (zh) 2019-12-13

Similar Documents

Publication Publication Date Title
CN108563556A (zh) 基于差分演化算法的软件缺陷预测优化方法
CN103838744B (zh) 一种查询词需求分析的方法及装置
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN105930862A (zh) 一种基于密度自适应距离的密度峰聚类算法
CN106156107A (zh) 一种新闻热点的发现方法
CN109816043B (zh) 用户识别模型的确定方法、装置、电子设备及存储介质
CN106021361A (zh) 一种基于序列比对的自适应应用层网络协议报文聚类方法
CN104796300B (zh) 一种数据包特征提取方法及装置
CN105279397A (zh) 一种识别蛋白质相互作用网络中关键蛋白质的方法
CN103530347A (zh) 一种基于大数据挖掘的互联网资源质量评估方法及系统
CN105718368A (zh) 一种软件测试数据扩增方法
CN111695824B (zh) 风险尾端客户分析方法、装置、设备及计算机存储介质
CN106843941A (zh) 信息处理方法、装置和计算机设备
CN111476296A (zh) 样本生成方法、分类模型训练方法、识别方法及对应装置
CN107368526A (zh) 一种数据处理方法及装置
CN110544047A (zh) 一种不良数据辨识方法
CN104809104A (zh) 一种微博文本情绪识别方法及系统
CN106056164A (zh) 一种基于贝叶斯网络的分类预测方法
CN110647461B (zh) 多信息融合的回归测试用例排序方法及系统
CN108427643A (zh) 基于多种群遗传算法的二进制程序模糊测试方法
CN103324888A (zh) 基于家族样本的病毒特征自动提取方法及系统
CN103218419B (zh) 网络标签聚类方法和系统
CN111079175B (zh) 数据处理方法、装置、计算机可读存储介质和计算机设备
CN111753998A (zh) 多数据源的模型训练方法、装置、设备及存储介质
CN104699747B (zh) 一种基于高维数据过滤器的近似成员查询方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant