CN106156107A

CN106156107A - 一种新闻热点的发现方法

Info

Publication number: CN106156107A
Application number: CN201510158272.9A
Authority: CN
Inventors: 刘岩松; 谢菲; 苏宇; 徐信信; 杨海霞
Original assignee: Individual
Current assignee: Individual
Priority date: 2015-04-03
Filing date: 2015-04-03
Publication date: 2016-11-23
Anticipated expiration: 2035-04-03
Also published as: CN106156107B

Abstract

本申请公开了一种新闻热点的发现方法，该方法基于海量新闻数据，通过多次迭代，确定出最优的热点发现模型，然后再利用该热点发现模型，从新采集的新闻数据中发现热点新闻。采用本发明，可以准确、高效地发现互联网上的热点新闻数据。

Description

一种新闻热点的发现方法

技术领域

本发明涉及大数据的数据建模和数据学习及挖掘技术，特别是涉及一种新闻热点的发现方法。

背景技术

随着互联网的蓬勃发展和新媒体的崛起，各种各样的新闻信息呈指数级爆发，新闻网站、博客、论坛等信息源，以及最近特别流行的微博、微信信息源，所爆发的信息量更是达到惊人的地步，那么如何才能从种类丰富、信息多元化和数据量庞大的新闻数据中，及时准确的发现热点新闻是一件极其复杂和富有挑战的事情。

目前国内大部分新闻媒体都采用基于专家经验等半人工方式的发现热点新闻的方法。即先通过对网络中的新闻数据进行可视化分析，然后由业内专家对其根据经验进行分析。

上述采用半人工方式实现的热点发现方法，存在投入资源较大，发现周期较长，发现的结果不准确的问题。

发明内容

有鉴于此，本发明的主要目的在于提供一种新闻热点的发现方法，该方法可以准确、高效地发现互联网上的热点新闻数据。

为了达到上述目的，本发明提出的技术方案为：

一种新闻热点的发现方法，包括：

a、采集互联网中与新闻相关且已知是否为热点的原始数据，所述原始数据的条数大于一百万，设置迭代次数n为1，对关键指标库进行初始化；

b、从所述原始数据中筛选出具有中立性且无偏向的数据；对所筛选出的数据进行结构化和去噪处理，并按照预设的分组比例对所述处理后的数据进行分组，得到一组样本数据和一组测试数据；

c、根据所述样本数据、所述关键指标库和第n-1次迭代时确定出的最优混合聚类模型，确定本次迭代的混合聚类模型并进行评分；

d、利用所述测试数据，对所述混合聚类模型进行验证，如果验证通过，则将所述混合聚类模型作为用于发现热点的混合聚类模型，否则，从前n次迭代中获得的所有混合聚类模型中选择出分值最高的模型，作为当前的最优混合聚类模型，利用在所述评分过程中确定出的热点数据的属性，更新当前的所述关键指标库；并将迭代次数n加1，执行步骤c；

e、采集新的新闻数据，并利用所述用于发现热点的混合聚类模型，从中识别出热点新闻数据。

综上所述，本发明提出的新闻热点的发现方法，基于海量新闻数据，通过多次迭代，确定出最优的热点发现模型，然后再利用该热点发现模型，从新采集的新闻数据中发现热点新闻。如此，可以准确、高效地发现互联网上的热点新闻数据。

附图说明

图1为本发明实施例一的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。

本发明的核心思想是：基于海量新闻数据，建立关键指标库、热点发现模型，并对热点发现模型进行验证，并且通过多次迭代对关键指标库、热点发现模型进行优化，最终得到最优的热点发现模型，利用该最优的热点发现模型进行热点新闻的发现。如此，可以快速建立用于发现新闻热点的模型，并且可以确保识别的准确度，从而可以快速、准确、高效地发现互联网上的热点新闻数据。

图1为本发明实施例一的流程示意图，如图1所示，该实施例主要包括：

步骤101、采集互联网中与新闻相关且已知是否为热点的原始数据，所述原始数据的条数大于一百万，设置迭代次数n为1，对关键指标库进行初始化。

本步骤，需要采集海量新闻数据并且这些数据是否为热点新闻数据是已知的，这样，在此后的步骤里便可以利用这些数据及其是否为热点的特性，建立热点发现模型并进行评分，然后通过迭代的方式得到最优的热点发现模型，如此，可以确保热点发现的准确性和效率。

这里，原始数据的条数将至少大于一百万，以确保快速、准确地确定出最优的热点发现模型。

在实际应用中，可以从权威的媒体机构获得上述原始数据，以确保这些原始数据是否为热点的准确性。

较佳地，为了提高最优模型的确定效率，本步骤中可以根据预先获取的专家经验数据对关键指标库进行初始化，然后通过后续的迭代学习过程对该关键指标库进行更新，直到获得最优热点发现模型。

具体地，所述关键指标库中的信息将包括：热点指标以及每个热点指标的取值。

步骤102、从所述原始数据中筛选出具有中立性且无偏向的数据；对所筛选出的数据进行结构化和去噪处理，并按照预设的分组比例对所述处理后的数据进行分组，得到一组样本数据和一组测试数据。

本步骤，用于对原始数据中的数据进行筛选、并进行结构化和去噪处理，最后对其进行分组，其中，样本数据组将用于确定热点发现模型，测试数据将用于对热点发现模型进行验证。这里，为了确保热点发现模型的准确性，需要筛选出具有中立性且无偏向的数据用于模型的建立和验证，即用于建立和验证模型的数据不存在热点数据的数量与非热点数据的数量差异过大的问题，从而可以确保高效、准确地建立热点发现模型。

较佳地，可以采用下述方法进行所述筛选：

根据预设的属性对所述原始数据进行分类，将所述分类后的数据与预设的校对数据进行比较，确定出所述具有中立性且无偏向的数据。

这里所述预设的属性可由本领域技术人员根据实际需要进行指定，例如可以是访问热度、所属领域等属性，但不限于此。

较佳地，这里用于进行中立性无偏向判断的校对数据，可以由第三方权威媒体机构提供。

基于上述方法确定出具有中立性且无偏向数据的具体方法，为本领域技术人员所掌握，在此不再赘述。

较佳地，可以采用下述方法对所筛选出的数据进行结构化和去噪处理：

按照预设的聚合模型，对所述筛选出的数据进行清洗转换处理，得到相应的聚合数据；

对所述聚合数据进行去噪处理，并按照所述分组比例对所述去噪处理后的数据进行分组，得到所述样本数据组和测试数据组。

上述方法中，进行所述清洗转换处理、去噪处理的具体方法，为本领域技术人员所掌握，在此不再赘述。

本步骤中，所述分组比例具体可为样本数据与测试数据的比值，较佳地，该分组比例需要大于1，即样本数据需要多于测试数据，以确保本次迭代所得到的混合聚类模型的可靠性。

步骤103、根据所述样本数据、所述关键指标库和第n-1次迭代时确定出的最优混合聚类模型，确定本次迭代的混合聚类模型并进行评分。

本步骤，用于确定出第n次迭代的混合聚类模型并对其评分，以便确定出当前最优的混合聚类模型，以供第n+1次迭代时使用。

较佳地，具体可以采用下述方法实现本步骤：

步骤1031、根据所述关键指标库，对所述样本数据进行Canopy聚类，并对所述Canopy聚类结果进行K均值(KMeans)精细化聚类，得到相应的聚类模型。

本步骤中，Canopy聚类和KMeans精细化聚类的具体实现方法为本领域技术人员所掌握，在此不再赘述。

步骤1032、根据所述关键指标库，利用迭代二叉树3代(ID3)和决策树C4.5算法(C45)对所述样本数据进行处理，得到相应的预测模型。

本步骤中，利用ID3和C45决策树算法对所述样本数据进行处理，生成相应的预测模型的具体方法，为本领域技术人员所掌握，在此不再赘述。

步骤1033、根据所述关键指标库，对所述样本数据进行打标签和切词后，使用支持向量机(SVM)算法，生成相应的情感分析模型。

本步骤中，对所述样本数据进行打标签和切词、以及使用SVM相关算法生成相应的情感分析模型的具体方法，为本领域技术人员所掌握，在此不再赘述。

步骤1034、对于每个所述模型，利用所述样本数据对该模型进行验证，并根据该验证结果确定第n次迭代中该模型的混合得分值。

较佳地，本步骤中，对于每个所述模型(即上述步骤得到的聚类模型、预测模型以及情感分析模型)，利用所述样本数据对该模型进行验证，并根据该验证结果确定第n次迭代中该模型的混合得分值，可以采用下述方法实现：

对于每个所述模型，利用该模型判断每条所述测试数据是否为热点新闻数据，并确定该判断的正确性，最后，根据该模型对所有所述测试数据进行判断的准确率，确定第n次迭代中该模型的混合得分值。

这里，确定模型对测试数据进行热点判断的准确性，其具体方法是将已知的该测试数据是否为热点的特性与模型的热点判断结果比较，如果一致，则确定该判断正确，否则为错误。

在确定第n次迭代中一个模型的混合得分值时，将按照进行判断的准确率越高，则其混合得分值越高的原则进行。

步骤1035、按照w_n＝x_n·a+y_n·b+z_n·c，确定第n次迭代的混合聚类模型W_n和该混合聚类模型的得分值w_n，其中，x_n为所述聚类模型在第n次迭代的所述混合得分值，a为预设的聚类模型的混合权重，y_n为所述预测模型在第n次迭代的所述混合得分值，b为预设的预测模型的混合权重，z_n为所述情感分析模型在第n次迭代的所述混合得分值，c为预设的情感分析模型的混合权重，a+b+c＝1。

在实际应用中，所述权重a、b、c可由本领域技术人员根据专家经验进行设置。

步骤104～105、利用所述测试数据，对所述混合聚类模型进行验证，如果验证通过，则将所述混合聚类模型作为用于发现热点的混合聚类模型，否则，从前n次迭代中获得的所有混合聚类模型中选择出分值最高的模型，作为当前的最优混合聚类模型，利用在所述评分过程中确定出的热点数据的属性，更新当前的所述关键指标库；并将迭代次数n加1，执行步骤103。

本步骤，用于验证本次迭代所获得的混合聚类模型是否可以用于进行热点新闻的发现，如果不可以则需要返加步骤103，执行下一次的迭代过程，在执行步骤103之前，需要确定出当前获得的最优混合聚类模型，并对关键指标库进行更新。

具体地，对关键指标库进行更新，即，将本次迭代验证出的热点数据的相应属性信息增加至关键指标库中。

较佳地，可以采用下述方法对所述混合聚类模型进行验证：

对于每条所述测试数据，利用本次迭代得到的所述混合聚类模型，判断该测试数据是否为热点新闻数据；并确定该判断结果是否正确；

如果所有所述测试数据对应的所述判断结果均正确，则确定所述验证通过，否则，确定所述验证不通过。

步骤106、采集新的新闻数据，并利用所述用于发现热点的混合聚类模型，从中识别出热点新闻数据。

本步骤中，由于所使用的是经过n次迭代得到的最优的热点发现模型，因此，可以确保热点新闻数据的准确度。

通过上述方案可以看出，本发明充分利用了基于海量数据的数据建模、数据处理和数据学习技术，因此，能够准确、高效的发现互联网上的热点新闻。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种新闻热点的发现方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，步骤a中根据预先获取的专家经验数据对关键指标库进行初始化。

3.根据权利要求1所述的方法，其特征在于，步骤b中所述筛选包括：

4.根据权利要求1所述的方法，其特征在于，步骤b中所述结构化和去噪处理包括：

5.根据权利要求1所述的方法，其特征在于，所述关键指标库中的信息包括：热点指标以及每个热点指标的取值。

6.根据权利要求1所述的方法，其特征在于，所述分组比例为样本数据与测试数据的比值，所述分组比例大于1。

7.根据权利要求1所述的方法，其特征在于，步骤c中所述确定本次迭代的混合聚类模型并进行评分包括：

根据所述关键指标库，对所述样本数据进行Canopy聚类，并对所述Canopy聚类结果进行K均值KMeans精细化聚类，得到相应的聚类模型；

根据所述关键指标库，利用迭代二叉树3代ID3算法和决策树C4.5算法C45对所述样本数据进行处理，得到相应的预测模型；

根据所述关键指标库，对所述样本数据进行打标签和切词后，利用支持向量机SVM算法，生成相应的情感分析模型；

对于每个所述模型，利用所述样本数据对该模型进行验证，并根据该验证结果确定第n次迭代中该模型的混合得分值；

按照w_n＝x_n·a+y_n·b+z_n·c，确定第n次迭代的混合聚类模型W_n和该混合聚类模型的得分值w_n，其中，x_n为所述聚类模型在第n次迭代的所述混合得分值，a为预设的聚类模型的混合权重，y_n为所述预测模型在第n次迭代的所述混合得分值，b为预设的预测模型的混合权重，z_n为所述情感分析模型在第n次迭代的所述混合得分值，c为预设的情感分析模型的混合权重，a+b+c＝1。

8.根据权利要求7所述的方法，其特征在于，步骤c中所述对于每个所述模型，利用所述样本数据对该模型进行验证，并根据该验证结果确定第n次迭代中该模型的混合得分值包括：

对于每个所述模型，利用该模型判断每条所述测试数据是否为热点数据，并确定该判断的正确性，根据该模型对所有所述测试数据进行判断的准确率，确定第n次迭代中该模型的混合得分值。

9.根据权利要求7所述的方法，其特征在于，步骤d中所述验证包括：

对于每条所述测试数据，利用本次迭代得到的所述混合聚类模型，判断该测试数据是否为热点数据；并确定该判断结果是否正确；