CN108509517A

CN108509517A - 一种面向实时新闻内容的流式话题演化跟踪方法

Info

Publication number: CN108509517A
Application number: CN201810195967.8A
Authority: CN
Inventors: 杨鹏; 张成帅; 李幼平; 张长江
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2018-09-07
Anticipated expiration: 2038-03-09
Also published as: CN108509517B

Abstract

本发明公开了一种面向实时新闻内容的流式话题演化跟踪方法，首先把实时采集的新闻内容，按时间段进行分批，对每一批新闻内容采用LDA方法挖掘初步话题结果；接着，在这一批新闻内容内部进行命名实体识别，并计算话题与实体间关联，以此更新实体库中的实体链接关系；然后，通过话题内部词项聚类，得到话题‑话题内类簇对应关系，并将话题结果存入话题库；最后，计算话题及其内部类簇的热度信息，并根据热度信息对LDA话题挖掘参数进行动态更新，供下一批新闻内容的话题演化跟踪使用。本发明可挖掘实时新闻内容中的话题特征以及话题内词项的类簇特征，充分利用话题间以及话题内不同类簇间的差异性，对LDA话题挖掘参数进行动态更新。

Description

一种面向实时新闻内容的流式话题演化跟踪方法

技术领域

本发明涉及一种面向实时新闻内容的流式话题演化跟踪方法，该方法能够借助话题挖掘参数的动态更新，对从互联网实时采集的新闻内容进行逐时间段的、流式的话题挖掘及演化跟踪，属于互联网和自然语言处理技术领域。

背景技术

近年来，随着信息技术的蓬勃发展，互联网已成为人们获取信息、了解新闻资讯最便捷的渠道。然而，在互联网新闻信息资源极大丰富的同时，也带来了“信息过载”的巨大挑战，即海量新闻内容的不断涌现而使用户难以从中获取对自己有用的部分，进而影响到新闻内容的有效使用率。个性化推荐技术通过对用户兴趣进行建模，能够为用户提供个性化的推荐服务，是解决上述问题的有效途径。基于话题的个性化推荐方法是一种重要的个性化推荐技术实现方法，相比于传统基于内容的个性化推荐方法和协同过滤个性化推荐方法，基于话题的个性化推荐方法能够在话题维度对用户兴趣进行刻画，更加准确地反映用户在新闻话题方面的偏好。但是，新闻话题会随着时间的推移而不断变化，如何把握话题的变化规律，反映话题的演化趋势，是基于话题的个性化推荐算法亟待解决的难题。

LDA(Latent Dirichlet Allocation)和OLDA(Online LDA)是目前在文本话题挖掘领域应用比较广泛的两种方法，后者在前者的基础上针对话题持续演化性进行了改进。但是，传统LDA方法无法衡量前后话题挖掘结果之间关联，而OLDA方法在刻画前后话题挖掘结果之间的关联时，无法充分利用话题间以及话题在时间段间的差异性，因而在合理性和准确度方面均有所欠缺。为此，本发明提出一种面向实时新闻内容的流式话题演化跟踪方法，简称dELDA(ddCRP and Entity based LDA)方法，该方法采用ddCRP(distancedependent Chinese Restaurant Process)方法对传统LDA方法进行改进和创新。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提出一种面向实时新闻内容的流式话题演化跟踪方法，简称dELDA方法。该方法不仅可以挖掘实时新闻内容中的话题特征以及话题内词项的类簇特征，而且可以充分利用话题间以及话题内不同类簇间的差异性，对LDA话题挖掘参数进行动态更新，从而能够从内容和强度两个维度充分反映话题及其内部类簇的演化趋势。

技术方案：一种面向实时新闻内容的流式话题演化跟踪方法(简称dELDA方法)，对应于一个面向实时新闻内容的逐时间段的、流式的话题挖掘及演化跟踪过程。该方法不仅可以挖掘实时新闻内容中的话题特征以及话题内词项的类簇特征，而且可以充分利用话题间以及话题内不同类簇间的差异性，对LDA话题挖掘参数进行动态更新，从而能够从内容和强度两个维度充分反映话题及其内部类簇的演化趋势。其具体步骤如下：

步骤1，初步话题挖掘。对于从互联网实时采集到的新闻内容，先按时间段对其进行分批，然后逐批采用LDA方法初步挖掘出K(K为正整数)个话题。针对第t(t为正整数)批次采集的新闻内容D^t，首先确定这一批次dELDA方法中超参数的取值如果t为0(即为起始时间段)，则初始化为预设值和其中若t>1，则初始化为t-1时间段动态更新后的和为第t批次的新闻内容对应的参数。接着，以模型超参数和对新闻内容D^t进行LDA话题挖掘，生成话题集合并且得到D^t中每个文档(1≤u≤n)属于话题的概率。

步骤2，话题与实体关联。考虑到虽然话题在演化过程中词项分布不断变化，但相关命名实体总体稳定，并且传统LDA话题挖掘结果仅由词项构成，话题语义不明、难以理解。因此，本发明引入命名实体对LDA话题进行表征，不仅可以通过实体将多个时间段聚类的话题相串联，还更有利于话题语义的表达。该步骤具体又分为3个子步骤：

子步骤2-1，新闻命名实体识别。首先利用预先定义好的特征模板从文本中提取特征，通过和词典进行匹配，得到训练好的命名实体识别模型。然后在进行新闻命名实体识别时，使用相同的特征模板进行特征提取，并根据训练所得到命名实体识别模型进行命名实体的识别。

子步骤2-2，实体-话题关联度计算。考虑到命名实体识别需要借助文档作为语义环境，故本发明中实体-话题关联度的计算也在文档内进行。实体-话题关联度的计算方式主要考虑两个因素：文档在该话题上的分布概率和文档中实体词项的重要性。其中，文档m在话题k上的分布概率由LDA话题挖掘结果给出，而文档中实体词项的重要性由词频-逆向文件频率(TF-IDF)值衡量，文档m中命名实体i与话题k间关联度ξ_i,k的计算公式如公式(1)所示：

其中，tf_i表示实体i的词频(TF)值，idf_i表示实体i的逆向文件频率(IDF)值。

子步骤2-3，实体链接关系更新。通过子步骤2-2得到当前文档中实体-话题间关联关系后，若实体库中已存在该实体，只需以累加方式更新相应的实体-话题关联度；否则，需先插入该实体-话题关系，再更新相应的实体-话题关联。

步骤3，话题内词项聚类。考虑到传统LDA话题挖掘结果仅由词项构成，话题语义不明、难以理解，本发明结合命名实体，利用词项在文档中的共线性特征，实现了话题内词项聚类。话题内词项聚类采用层次聚类方式实现，具体又分为2个子步骤：

子步骤3-1，基于距离依赖的中餐馆就餐过程ddCRP算法的话题相关实体词项聚类。基于ddCRP算法的基本思想，本发明将每个实体词项看做一个customer，将由实体词项构成的类簇看做table，先考虑实体词项之间的关联，再将关联在一起的实体词项看做是一个类簇。假设α为标量参数，f为衰减函数，S为所有实体间的关联度计算矩阵，实体词项在类簇上服从G₀分布。则基于ddCRP的话题相关实体词项聚类算法的完整概率生成过程可描述为：

(1)对于每个实体i，i∈[1,N]，依据其与其他实体间的语义关联度，获得其customer分配结果c_i～ddCRP(S,α,f)；

(2)根据所有实体的customer分配结果，获得实体i的类簇分配结果z_i；

(3)对于每一个类簇k，k∈{1,...}，其包含的实体词项e^*～G₀；

(4)对于每一个实体i，i∈[1,N]，将其分配到最终的类簇。

子步骤3-2，基于K-Means算法的话题内词项聚类。该子步骤的主要作用是利用子步骤3-1得到的实体词项聚类结果，利用非实体词项与实体词项以及非实体词项间共现关系进行话题内词项的最终聚类。

步骤4，话题及其内部类簇热度信息提取。本发明中引入话题热度作为话题强度的量纲，并采用数据集内所有文档对该话题的贡献度来衡量话题热度。影响文档对话题贡献度的因素为文档的话题集中度和文档到达时间。话题内类簇的热度信息提取考虑两个因素：话题热度和话题内类簇词频之和与话题词频之和的比值。

文档的话题集中度可以采用信息熵的方式衡量，文档m信息熵的计算如公式(2)所示:

公式(2)中，表示文档m在话题k上的分布概率，K表示话题数。一般而言，entropy(d_m)越大，文档m中话题的集中度越低。文档m中话题的集中度越低具体计算如公式(3)所示：

文档的到达时间距离当前时间越久，其对当前话题的贡献度越小，呈现衰减态势，文档对当前话题的贡献度具体计算如公式(4)所示：

公式(4)中，t_m表示文档m的到达时间，t为当前时间，λ为衰减因子。综合考虑文档中话题的集中度和文档到达时间两个因素，文档m的话题贡献度计算如公式(5)所示：

W_m＝WE_m*WT_m (5)

综合上述分析，文档集中话题k及其内部类簇热度信息的提取分别如公式(6)、公式(7)所示：

在公式(6)和公式(7)中，其中表示话题k的词向量，TP(Z)表示各话题的热度值向量，表示所有文档对话题的贡献度向量，θ_m,k表示一个k行m列的二维矩阵，且(假设下标均从1开始)，表示第k个话题的第i个话题类簇的热度值，表示第k个话题的热度值，表示第k个话题的第i个话题内类簇的词频之和，表示第k个话题中词频之和。

步骤5，话题演化跟踪。传统LDA话题挖掘模型中，多次话题挖掘结果彼此独立，没有前后关联。而互联网中的话题在时间推移过程中实则具有延续性，当前时间片段的话题往往由上一时间段的话题演化而来。基于强度越高的话题(话题内类簇)越会保持其内容延续性的思想，本发明通过当前话题及其内部类簇的热度信息对下一时间片段LDA话题挖掘模型中求解话题在单词上概率分布的超参数进行调节，对LDA模型进行改进，实现了话题的有效跟踪。参数的调节方式如公式(8)、(9)、(10)所示：

其中，B^t-1为一个n*k的二维矩阵，表示t-1时刻各话题在各词语上的概率分布，表示t-1时刻第k个话题在第n个词语上的概率分布，K_TP(W)表示根据话题内类簇热度信息给出的n*n的二维词项权重矩阵，k_tp_i表示第i个词项所属的所有话题内类簇热度值之和。

有益效果：与现有技术相比，本发明提供的面向实时新闻内容的流式话题演化跟踪方法，具有如下优点：

(1)本发明不仅可以挖掘流式新闻内容中的话题特征，还能进一步挖掘话题内词项的类簇特征；

(2)对话题挖掘参数进行动态更新时，不仅考虑话题间差异性，还兼顾话题内不同类簇之间的差异性；

(3)引入话题热度作为话题强度的量纲，支持从内容和强度两个维度反映话题及其内部类簇的演化趋势。

附图说明

图1是面向实时新闻内容的流式话题演化跟踪方法的整体流程图；

图2是面向实时新闻内容的流式话题演化跟踪方法的概率图模型，描述了话题挖掘过程以及参数更新原理；

图3是面向实时新闻内容的流式话题演化跟踪方法的参数动态更新过程。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种面向实时新闻内容的流式话题演化跟踪方法(简称dELDA方法)在具体实施时，其整体工作流程如图1所示。该方法首先把从互联网实时采集的新闻内容，按时间段进行分批，对每一批新闻内容采用LDA方法挖掘初步话题结果；接着，在这一批新闻内容内部进行命名实体识别，并计算话题与实体间关联，以此更新实体库中的实体链接关系；然后，通过话题内部词项聚类，得到话题-话题内类簇对应关系，并将话题结果存入话题库；最后，计算话题及其内部类簇的热度信息，并根据热度信息对LDA话题挖掘参数进行动态更新，供下一批新闻内容的话题演化跟踪使用。具体实施步骤如下：

步骤(1)初步话题挖掘。dELDA方法首先把从互联网实时采集的新闻内容按时间段进行分批，然后逐批次采用LDA方法进行初步话题挖掘。不失一般性，假设第t(t为整数)时间段采集到1000条新闻内容，构成新闻文档集合若t＝0(即初始时间段)，超参数初始化为预设值和若t>0，超参数初始化为t-1时间段动态更新后的和采用模型参数和对D^t进行话题挖掘，并通过吉布斯采样计算得到20个话题，每个话题由100个词语组成。挖掘到的第3个话题(仅筛选30个词展示)形如{红黄蓝，幼儿园，新天地，北京，扎针，幼童，亲子园，携程，芥末，肺结核，北京，朝阳区，家长，幼师，分园，药片，罚站，针眼，园长，调查，伤害，疫情，复查，健康，复学，医院，媒体，幼教，上海，视频}。

步骤(2)话题与实体间关联。新闻文档集中某文档中挖掘到的8个命名实体为{携程，芥末，上海，红黄蓝，新天地，北京，园长，肺结核}，按照公式(1)分别计算其与第3个话题的话题关联度为{0.0088，0.0019，0.0026，0.0122，0.0091，0.0118，0.0034，0.0064}。计算实体与话题关联度后，若实体库中已存在该实体，需对相应的实体记录进行累加更新；否则，需先插入该话题-实体关系，再以本文档中计算得到的话题与实体关联度设置相应的命名实体记录。

步骤(3)话题内词项聚类。首先，计算话题内各词项间的关联度，并用二维矩阵S存储，S[i][j]＝r_entity_i,j；接着，基于ddCRP实现命名实体初步聚类，初步聚类结果存储于Map结构C中，C＝{0：{携程，芥末，上海}，1：{红黄蓝，新天地，北京，园长}，2：{肺结核}}；然后，以实体词项初步聚类结果设置聚类数目和初始类簇中心，基于K-Means实现话题内词项聚类，话题内词项的聚类结果存储于Map结构C_Kernal中，C_Kernal＝{0：{携程，芥末，上海，亲子园，幼教，家长，幼师}，1：{红黄蓝，新天地，北京，园长，幼儿园，扎针，幼童，朝阳区，家长，幼师，分园，药片，罚站，针眼，园长，调查，伤害}，2：{肺结核，疫情，复查，健康，复学，医院}}。

步骤(4)话题及其内部类簇热度信息提取。首先，依据公式(6)计算各话题的热度值，TP(■z)＝{tp(z₁)，tp(z₂)...tp(z₂₀)}＝{441，384，782，537，643，863，573，568，613，439，447，523，481，517，963，363，771，418，513，637}；然后，依据公式(7)计算各话题内各类簇的热度值，第3个话题内各类簇的热度信息为{TP(z_3,1)，TP(z_3,1)，TP(z_3,1)}＝{215，433，134}。

步骤(5)话题演化跟踪。基于强度越高的话题(话题内类簇)越会保持其内容延续性的思想，本发明提出基于当前t时间段的话题挖掘结果中各话题及其内部类簇的热度信息对下一时间段t+1的话题挖掘参数进行如图2、图3所示的动态更新，实现了话题的有效跟踪。具体的参数更新过程依据公式(8)、公式(9)、公式(10)计算。

上述实施示例表明，本发明提出的一种面向实时新闻内容的流式话题演化跟踪方法，不仅可以挖掘流式新闻内容中的话题特征，还能进一步挖掘话题内词项的类簇特征，同时充分利用话题间以及话题内不同类簇间的差异性对话题挖掘参数进行动态更新，支持从内容和强度两个维度反映话题及其内部类簇的演化趋势。应用该方法不仅可以方便地对新闻热点话题进行实时监控，还可以应用于基于话题的隐语义个性化推荐方式，帮助用户从海量的互联网信息资源中获取自己感兴趣的信息，缓解“信息过载”问题。

Claims

1.一种面向实时新闻内容的流式话题演化跟踪方法，其特征在于，包括如下步骤：

步骤1，初步话题挖掘：对于从互联网实时采集到的新闻内容，先按时间段对其进行分批，然后逐批采用LDA方法初步挖掘出K个话题，K为正整数；

步骤2，话题与实体关联：引入命名实体对LDA话题进行表征，通过实体将多个时间段聚类的话题相串联；

步骤3，话题内词项聚类：结合命名实体，利用词项在文档中的共现性特征，实现了话题内词项聚类；

步骤4，话题及其内部类簇热度信息提取：引入话题热度作为话题强度的量纲，并采用数据集内所有文档对该话题的贡献度来衡量话题热度；影响文档对话题贡献度的因素为文档的话题集中度和文档到达时间；话题内类簇的热度信息提取考虑两个因素：话题热度和话题内类簇词频之和与话题词频之和的比值；

步骤5，话题演化跟踪：通过当前话题及其内部类簇的热度信息对下一时间片段LDA话题挖掘模型中求解话题在单词上概率分布的超参数进行调节，实现了话题的有效跟踪。

2.如权利要求1所述的面向实时新闻内容的流式话题演化跟踪方法，其特征在于，所述步骤1中，针对第t批次采集的新闻内容D^t，首先确定这一批次dELDA方法中超参数的取值如果t为0，则初始化为预设值和其中若t>1，则初始化为t-1时间段动态更新后的和接着，以模型超参数和对新闻内容D^t进行LDA话题挖掘，生成话题集合并且得到D^t中每个文档属于话题的概率。

3.如权利要求1所述的面向实时新闻内容的流式话题演化跟踪方法，其特征在于，所述步骤2包括如下内容：

步骤2-1，新闻命名实体识别；首先利用预先定义好的特征模板从文本中提取特征，通过和词典进行匹配，得到训练好的命名实体识别模型；然后在进行新闻命名实体识别时，使用相同的特征模板进行特征提取，并根据训练所得到命名实体识别模型进行命名实体的识别；

步骤2-2，实体-话题关联度计算；实体-话题关联度的计算方式主要考虑两个因素：文档在该话题上的分布概率和文档中实体词项的重要性；其中，文档m在话题k上的分布概率由LDA话题挖掘结果给出，而文档中实体词项的重要性由词频-逆向文件频率(TF-IDF)值衡量，文档m中命名实体i与话题k间关联度ξ_i,k的计算公式如公式(1)所示：

步骤2-3，实体链接关系更新；通过步骤2-2得到当前文档中实体-话题间关联度后，若实体库中已存在该实体，只需以累加方式更新相应的实体-话题关联度；否则，需先插入该实体-话题关系，再更新相应的实体-话题关联。

4.如权利要求1所述的面向实时新闻内容的流式话题演化跟踪方法，其特征在于，步骤3中，话题内词项聚类采用层次聚类方式实现，具体又分为2个步骤：

步骤3-1，基于距离依赖的中餐馆就餐过程(ddCRP)算法的话题相关实体词项聚类；基于ddCRP算法的基本思想，将每个实体词项看做一个customer，将由实体词项构成的类簇看做table，先考虑实体词项之间的关联，再将关联在一起的实体词项看做是一个类簇；假设α为标量参数，f为衰减函数，S为所有实体间的关联度计算矩阵，实体词项在类簇上服从G₀分布；则基于ddCRP的话题相关实体词项聚类算法的完整概率生成过程可描述为：

(3)对于每一个类簇k，k∈{1,...}，其包含的实体词项e^*～G₀；

(4)对于每一个实体i，i∈[1,N]，将其分配到最终类簇。

步骤3-2，基于K-Means算法的话题内词项聚类；该步骤利用步骤3-1得到的实体词项聚类结果，利用非实体词项与实体词项以及非实体词项间共现关系进行话题内词项的最终聚类。

5.如权利要求1所述的面向实时新闻内容的流式话题演化跟踪方法，其特征在于，步骤4中，文档的话题集中度可以采用信息熵的方式衡量，文档m信息熵的计算如公式(2)所示:

公式(2)中，表示文档m在话题k上的分布概率，K表示话题数，文档m中话题的集中度计算如公式(3)所示：

公式(4)中t_m表示文档m的到达时间，t为当前时间，λ为衰减因子；综合考虑文档中话题的集中度和文档到达时间两个因素，文档m的话题贡献度计算如公式(5)所示：

W_m＝WE_m*WT_m (5)

文档集中话题k及其内部类簇热度信息提取如公式(6)、公式(7)所示：

在公式(6)和公式(7)中，其中表示话题k的词向量，TP(Z)表示各话题的热度值向量，表示所有文档对话题的贡献度向量，θ_m,k表示一个k行m列的二维矩阵，且表示第k个话题的第i个话题类簇的热度值，表示第k个话题的热度值，表示第k个话题的第i个话题内类簇的词频之和，表示第k个话题中词频之和。

6.如权利要求1所述的面向实时新闻内容的流式话题演化跟踪方法，其特征在于，步骤5中，参数的调节方式如公式(8)、(9)、(10)所示：