CN111198946A

CN111198946A - 一种网络新闻热点挖掘方法及装置

Info

Publication number: CN111198946A
Application number: CN201911360354.6A
Authority: CN
Inventors: 关建峰; 刘杨; 许长桥; 石钰瑗; 李心舒; 张婉澂
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-26

Abstract

本发明实施例提供一种网络新闻热点挖掘方法及装置，该方法包括：对原始网络新闻数据进行预处理，得到网络新闻信息；通过双语LDA主题模型和双语LSA模型提取所述网络新闻信息中的文本特征向量；根据所述网络新闻信息中的文本特征向量，利用Single‑Pass聚类算法在Spark平台上并行化运算，得到新闻热点话题信息。通过双语LDA模型和双语LSA模型相结合的文本特征提取方法不仅在主题模型中包含了对各话题有较强区分度的实体信息，还考虑了文本上下文之间的语义联系，并利用基于Spark的并行化Single‑Pass聚类算法，加快聚类速度，更有效准确的实现网络新闻热点挖掘。

Description

一种网络新闻热点挖掘方法及装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种网络新闻热点挖掘方法及装置。

背景技术

新闻话题检测与追踪是TDT(Topic Detection and Tracking)技术的重要研究分支，TDT技术基于自然语言处理的最新研究成果，针对网络中的新闻数据流，根据新闻的主题和语义等特征，将它们自动划分至不同的话题中，并以清晰明了的可视化形式向用户展示，同时根据时间的变化，追踪话题的动态发展趋势。

但是现有技术中，对于网络新闻热点挖掘往往存在计算性能较差，准确率较低的问题，而随着网络信息量的快速增大，大众对于新闻信息的有效获取的需求越发强烈。

因此如何更有效更准确的进行网络新闻热点挖掘已经成为业界亟待解决的问题。

发明内容

本发明实施例提供一种网络新闻热点挖掘方法及装置，用以解决上述背景技术中提出的技术问题，或至少部分解决上述背景技术中提出的技术问题。

第一方面，本发明实施例提供一种网络新闻热点挖掘方法，包括：

对原始网络新闻数据进行预处理，得到网络新闻信息；

通过双语LDA主题模型和双语LSA模型提取所述网络新闻信息中的文本特征向量；

根据所述网络新闻信息中的文本特征向量，利用Single-Pass聚类算法在Spark平台上并行化运算，得到新闻热点话题信息。

更具体的，在所述对原始网络新闻数据进行预处理，得到网络新闻信息的步骤之前，所述方法还包括：

抓取多个网络新闻源的网络新闻信息，得到原始网络新闻数据；

对所述原始网络新闻数据进行分词、去停用词和词频统计，得到预处理后的网络新闻信息。

更具体的，在所述通过双语LDA主题模型和双语LSA模型提取所述网络新闻信息中的文本特征向量的步骤，具体包括：

将所述网络新闻信息输入双语LDA主题模型，得到新闻热点主题-文本信息；

将所述新闻热点主题-文本信息输入双语LSA模型，得到网络新闻信息中的文本特征向量。

更具体的，将所述网络新闻信息输入双语LDA主题模型，得到新闻热点主题-文本信息的步骤，具体包括：

获取网络新闻信息的多语言文本信息；

根据多语言文本信息的狄利克雷参数，分别得到第一语言文本和第二语言文本的主题-词分布和平行多语言文本的相同主题-文档分布

根据主题-文档分布分别从平行多语言文本中提取隐含主题，根据所述隐含主题和主题-词分布生成热点单词，对所述热点单词按照布格斯采样算法进行重新分析，当布格斯采样收敛时，得到新闻热点主题-文本信息。

更具体的，所述将所述新闻热点主题-文本信息输入双语LSA模型，得到网络新闻信息中的文本特征向量的步骤，具体包括：

分别计算第一语言文本网络新闻的第一方差信息和第二语言文本网络新闻的第二方差信息，并计算第一语言文本网络新闻与第二语言文本网络新闻的协方差信息；

根据所述第一方差信息、第二方差信息和协方差信息构建计算矩阵，通过奇异值分析对所述计算矩阵进行分解，相关性系数最大的潜在语义对，根据潜在语义对得到网络新闻信息中的文本特征向量。

更具体的，所述基于所述网络新闻信息中的文本特征向量，利用Single-Pass聚类算法在Spark平台上并行化运算，得到新闻热点话题信息的步骤，具体包括：

基于Spark将所述网络新闻信息中的文本特征向量按顺序进行编号，将带编号的所述网络新闻信息中的文本特征向量由Spark主节点发送到各个Spark子节点上；

在各个子节点上，遍历文本特征向量，计算每个文本特征向量与所述文本特征向量的编号之前的文本特征向量之间的相似度信息，形成余弦相似度候选集；

根据所述余弦相似度候选集得到目标文本特征向量，以键值对保存所述目标文本特征向量，不断合并编号相同的向量,直至满足预设条件，得到新闻热点话题信息。

更具体的，在所述得到新闻热点话题信息的步骤之后，所述方法还包括：

基于熵权法对所述新闻热点话题信息进行热度评估，得到各新闻热点话题信息的热度信息；

获取当前时间信息和用户位置信息，根据所述用户位置信息在预设兴趣点集中找到用户位置对应的语义信息；根据所述用户位置对应的语义信息、当前时间信息和各新闻热点话题信息的热度信息进行新闻推荐。

第二方面，本发明实施例提供一种网络新闻热点挖掘装置，包括：

预处理模块，用于对原始网络新闻数据进行预处理，得到网络新闻信息；

特征提取模块，用于通过双语LDA主题模型和双语LSA模型提取所述网络新闻信息中的文本特征向量；

热点挖掘模块，用于根据所述网络新闻信息中的文本特征向量，利用Single-Pass聚类算法在Spark平台上并行化运算，得到新闻热点话题信息。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述网络新闻热点挖掘方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述网络新闻热点挖掘方法的步骤。

本发明实施例提供的一种网络新闻热点挖掘方法及装置，通过双语LDA模型和双语LSA模型相结合的文本特征提取方法不仅在主题模型中包含了对各话题有较强区分度的实体信息，还考虑了文本上下文之间的语义联系，同时该方法训练生成的新的文本特征向量相比于LDA和LSA单独训练的结果更加稠密，在向量空间中包含了更多的主题和单词相关的信息，可以用于有效地区分不同的新闻，并利用基于Spark的并行化Single-Pass聚类算法，加快聚类速度，减少了人为干预对话题热度值的影响，更有效准确的实现网络新闻热点挖掘。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例中所描述的网络新闻热点挖掘方法流程示意图；

图2为本发明一实施例所描述的网络新闻热点挖掘装置结构示意图；

图3为本发明一实施例所描述的电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明一实施例中所描述的网络新闻热点挖掘方法流程示意图，如图1所示，包括：

步骤S1，对原始网络新闻数据进行预处理，得到网络新闻信息；

步骤S2，通过双语LDA主题模型和双语LSA模型提取所述网络新闻信息中的文本特征向量；

步骤S3，根据所述网络新闻信息中的文本特征向量，利用Single-Pass聚类算法在Spark平台上并行化运算，得到新闻热点话题信息。

具体的，本发明实施例中所描述的原始网络新闻数据可以是指通过利用网络爬虫等工具抓取多个新闻源的最新新闻，并将其存储起来。

本发明实施例中所描述的预处理是指对原始网络新闻数据进行分词、去停用词和词频统计。

本发明实施例中所描述的通过双语LDA主题模型是用于刻画文本的主题，且统一主题概念可以由不同语言的词项进行描述，且不同语言的同类文本有相同的主题分析，即主题与语言无关，所以主题与语言无关，则可以依据传统LDA模型拓展为两种语言的新闻热点主题-文本信息。

本发明实施例中所描述的双语LSA模型提取对于两种语言的新闻热点主题-文本信息，即平行中文新闻热点主题-文本集X和英文新闻热点主题-文本集Y，计算X的方差S_XX，Y的方差S_YY，X和Y的协方差S_XY，计算矩阵

使用奇异值分解对矩阵Z进行分解，将奇异值由大到小排列，得到前k个的奇异值，和对应的左右奇异向量u，v，计算X和Y的线性系数向量

和

从而得到网络新闻信息中的文本特征向量。

得到网络新闻信息中的文本特征向量后，基于Spark平台，将网络新闻信息中的文本特征向量按顺序进行编号，将带编号的所述网络新闻信息中的文本特征向量由Spark主节点发送到各个Spark子节点上进行两次聚类，第一次聚类是指完成基于潜在语义的新闻文本聚类，第二聚类是指实现基于主题向量的聚类；具体的，在各个子节点上，遍历文本特征向量，计算每个文本特征向量与所述文本特征向量的编号之前的文本特征向量之间的相似度信息，形成余弦相似度候选集；根据所述余弦相似度候选集得到目标文本特征向量，以键值对保存所述目标文本特征向量，不断合并编号相同的向量,直至满足预设条件，得到新闻热点话题信息。

本发明实施例通过双语LDA模型和双语LSA模型相结合的文本特征提取方法不仅在主题模型中包含了对各话题有较强区分度的实体信息，还考虑了文本上下文之间的语义联系，同时该方法训练生成的新的文本特征向量相比于LDA和LSA单独训练的结果更加稠密，在向量空间中包含了更多的主题和单词相关的信息，可以用于有效地区分不同的新闻，并利用基于Spark的并行化Single-Pass聚类算法，加快聚类速度，从而升了文本特征提取的质量，减少了人为干预对话题热度值的影响，更有效准确的实现网络新闻热点挖掘。

在上述实施例的基础上，在所述对原始网络新闻数据进行预处理，得到网络新闻信息的步骤之前，所述方法还包括：

具体的，本发明实施例中所描述的多个网络新闻源可以是指现有主流网络新闻媒体，例如网易新闻、新浪新闻、腾讯新闻等。

本发明实施例通过对于原始网络新闻数据进行预处理，便于后续新闻热点挖掘的进行。

在上述实施例的基础上，在所述通过双语LDA主题模型和双语LSA模型提取所述网络新闻信息中的文本特征向量的步骤，具体包括：

在上述实施例的基础上，将所述网络新闻信息输入双语LDA主题模型，得到新闻热点主题-文本信息的步骤，具体包括：

获取网络新闻信息的多语言文本信息；

根据多语言文本信息的狄利克雷参数，分别得到第一语言文本和第二语言文本的主题-词分布，和平行多语言文本的相同主题-文档分布

本发明实施例中所描述的多语言文本可以是指互为翻译的不同语言文本，此处所描述的第一语言文本和第二语言文本是指不同语言的文本，例如多语言文本为互为翻译的中英文文本，第一语言文本为中文文本，第二语言文本为英文文本。

本发明实施例中所描述的平行多语言文本是指，互为翻译的一对中英文文本。

具体的，对于双语LDA主题模型，同一主题概念可以由不同语言的词项进行描述，故可以根据双语LDA主题模型得到中英文本的狄利克雷参数，从而根据中英文本的狄利克雷参数分别得到中文文本和英文本文的主题-词分布，和平行中英文文本的相同主题-文档分布，根据主题-文档分布分别从平行中英文文本中提取隐含主题，根据所述隐含主题和主题-词分布生成热点单词，对所述热点单词按照布格斯采样算法进行重新采样主题，并更新主题，重复提取采样的过程，直至布格斯采样收敛时，得到新闻热点主题-文本信息。

在上述实施例的基础上，所述将所述新闻热点主题-文本信息输入双语LSA模型，得到网络新闻信息中的文本特征向量的步骤，具体包括：

具体的，本发明实施例中所描述的双语LSA模型提取对于两种语言的新闻热点主题-文本信息，即平行的中文新闻热点主题-文本集X和英文新闻热点主题-文本集Y，计算X的方差S_XX，Y的方差S_YY，X和Y的协方差S_XY，计算矩阵

和

从而得到网络新闻信息中的文本特征向量。

在上述实施例的基础上，所述基于所述网络新闻信息中的文本特征向量，利用Single-Pass聚类算法在Spark平台上并行化运算，得到新闻热点话题信息的步骤，具体包括：

具体的，基于Spark平台，将网络新闻信息中的文本特征向量按顺序进行编号，将带编号的所述网络新闻信息中的文本特征向量由Spark主节点发送到各个Spark子节点上进行两次聚类，第一次聚类是指完成基于关键词的新闻文本聚类，第二聚类是指实现基于文本特征向量的聚类。

第一次聚类，计算新闻热点主题-文本信息中主题词的权重，得到主题-文档矩阵，根据潜在语义对形成的对偶空间，将主题-文档矩阵映射到所述对偶空间中，以此获得相同潜在语义概念下的文档矩阵。然后，依次扫描其它文本矩阵，通过计算其它文本矩阵与已有主题的相似度，若其它文本矩阵与已有主题相似度大于预设阈值，则将将文本矩阵划分至主题，若认为该文本矩阵不属于现有任一主题，则将该文化划分为一个新的主题，并作为新主题的中心。

第二次聚类是指在新闻热点主题-文本信息内部，通过特征提取时得到的狄利克雷参数，对双语文本采用吉布斯采样估计，得到共同主题概念下的概率分布矩阵。然后，与第一次聚类的方法类似，使用Single-pass算法对主题概率矩阵进行相似度评估，相似度评估方法可以采用余弦相似度，从而实现基于主题向量的聚类。

在上述实施例的基础上，在所述得到新闻热点话题信息的步骤之后，所述方法还包括：

获取当前时间信息和用户位置信息，根据所述用户位置信息在预设兴趣点集中找到用户位置对应的语义信息；

根据所述用户位置对应的语义信息、当前时间信息和各新闻热点话题信息的热度信息进行新闻推荐。

具体的，本发明实施例中所描述的热度评估具体是指首先设定评估指标并进行标准化，然后根据指标数据来源信息熵、指标数据来源的客观权重求得指标综合值。同时，话题热度还要通过每篇新闻报道的发布时间来衡量。最终的话题热度由指标综合值与时间特性相乘得到。

本发明实施例中所描述的根据基于用户的多维度属性进行热点话题推荐。如根据用户的位置信息，如GPS数据和兴趣点信息相结合，获取用户位置的语义信息，并进行对应类别话题的推荐。如根据时段、用户的兴趣偏好、用户时空行为进行推荐，并依据各偏好类别进行排序推荐。

本发明实施例在引入熵权法，从时间、媒体和用户三个角度全面客观地评估话题的热度，完成对热点话题全生命周期的追踪。在此基础上，利用用户多维度属性信息进行热点话题推荐，提升了新闻热点的推荐准确度。

图2为本发明一实施例所描述的网络新闻热点挖掘装置结构示意图，如图2所示，包括：预处理模块210、特征提取模块220和热点挖掘模块230；其中，预处理模块210用于对原始网络新闻数据进行预处理，得到网络新闻信息；其中，特征提取模块220用于通过双语LDA主题模型和双语LSA模型提取所述网络新闻信息中的文本特征向量；其中，热点挖掘模块230用于根据所述网络新闻信息中的文本特征向量，利用Single-Pass聚类算法在Spark平台上并行化运算，得到新闻热点话题信息。

图3为本发明一实施例所描述的电子设备结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行如下方法：对原始网络新闻数据进行预处理，得到网络新闻信息；通过双语LDA主题模型和双语LSA模型提取所述网络新闻信息中的文本特征向量；根据所述网络新闻信息中的文本特征向量，利用Single-Pass聚类算法在Spark平台上并行化运算，得到新闻热点话题信息。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：对原始网络新闻数据进行预处理，得到网络新闻信息；通过双语LDA主题模型和双语LSA模型提取所述网络新闻信息中的文本特征向量；根据所述网络新闻信息中的文本特征向量，利用Single-Pass聚类算法在Spark平台上并行化运算，得到新闻热点话题信息。

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储服务器指令，该计算机指令使计算机执行上述各实施例提供的方法，例如包括：对原始网络新闻数据进行预处理，得到网络新闻信息；通过双语LDA主题模型和双语LSA模型提取所述网络新闻信息中的文本特征向量；根据所述网络新闻信息中的文本特征向量，利用Single-Pass聚类算法在Spark平台上并行化运算，得到新闻热点话题信息。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种网络新闻热点挖掘方法，其特征在于，包括：

对原始网络新闻数据进行预处理，得到网络新闻信息；

2.根据权利要求1所述网络新闻热点挖掘方法，其特征在于，在所述对原始网络新闻数据进行预处理，得到网络新闻信息的步骤之前，所述方法还包括：

3.根据权利要求1所述网络新闻热点挖掘方法，其特征在于，在所述通过双语LDA主题模型和双语LSA模型提取所述网络新闻信息中的文本特征向量的步骤，具体包括：

4.根据权利要求3所述网络新闻热点挖掘方法，其特征在于，将所述网络新闻信息输入双语LDA主题模型，得到新闻热点主题-文本信息的步骤，具体包括：

获取网络新闻信息的多语言文本信息；

根据多语言文本信息的狄利克雷参数，分别得到第一语言文本和第二语言文本的主题-词分布和平行多语言文本的相同主题-文档分布；

5.根据权利要求3所述网络新闻热点挖掘方法，其特征在于，所述将所述新闻热点主题-文本信息输入双语LSA模型，得到网络新闻信息中的文本特征向量的步骤，具体包括：

根据所述第一方差信息、第二方差信息和协方差信息构建计算矩阵，通过奇异值分析对所述计算矩阵进行分解，根据分解结果得到潜在语义对，根据潜在语义对得到网络新闻信息中的文本特征向量。

6.根据权利要求4所述网络新闻热点挖掘方法，其特征在于，所述根据所述网络新闻信息中的文本特征向量，利用Single-Pass聚类算法在Spark平台上并行化运算，得到新闻热点话题信息的步骤，具体包括：

7.根据权利要求1所述网络新闻热点挖掘方法，其特征在于，在所述得到新闻热点话题信息的步骤之后，所述方法还包括：

8.一种网络新闻热点挖掘装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述网络新闻热点挖掘方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述网络新闻热点挖掘方法的步骤。