CN111444337B

CN111444337B - 一种基于改进kl散度的话题跟踪方法

Info

Publication number: CN111444337B
Application number: CN202010123108.5A
Authority: CN
Inventors: 谢武; 孔丽娜; 强保华; 刘满意; 杨鲜
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2022-07-19
Anticipated expiration: 2040-02-27
Also published as: CN111444337A

Abstract

本发明公开了一种基于改进KL散度的新闻话题跟踪方法。所述方法利用KL散度衡量分布差异的思想，构造出一种可以区分普通特征与话题特征的权重计算方法，以此来提升特征的话题辨别能力，提高话题跟踪的准确率；同时引入word2vec，将其与KL散度权重相结合，实现话题文本的向量化表示，降低数据维度，增强特征间的语义联系；同时，采用增量学习模式，利用新检测到的相关报道更新话题模型，解决话题漂移。

Description

一种基于改进KL散度的话题跟踪方法

技术领域

本发明涉及计算机技术领域，具体涉及一种基于改进KL散度的话题跟踪方法。

背景技术

话题跟踪(Topic Tracking Task，TT)是话题检测与跟踪(Topic Detection andTracking，TDT)中的一项子研究任务，主要用于跟踪已有话题的后续相关报道，即在给定待测话题的基础上，逐一判断新闻数据流中每篇报道与现有话题的相关度，并对其进行类别划分，从而实现话题跟踪功能。通过话题跟踪技术，可以把与话题相关的报道有效的组织起来，帮助了解事件发展过程和相关细节。

话题和报道的特征模型构造是话题跟踪任务的基础问题，一般来说，话题模型是由其相关报道模型的质心或集合构成，报道的表示方法包括向量模型和概率模型等。传统模型对话题特征的提取依赖于单一文档特征，例如TF-IDF,该模型提取的特征反应的是文档本身的特征，不能反映文档所在话题的话题特征，忽略了话题特征与单一文档特征的区别，使得提取出的特征话题辨识能力较低；同时，传统话题特征提取模型认为文档间相互独立，忽略了话题中各文档间的联系。

发明内容

针对现有技术的不足，本发明提供一种基于改进KL散度的新闻话题跟踪方法。所述方法利用KL散度衡量分布差异的思想，构造出一种可以区分普通特征与话题特征的权重计算方法，以此来提升特征的话题辨别能力，提高话题跟踪的准确率；同时引入word2vec，将其与KL散度权重相结合，实现话题文本的向量化表示，降低数据维度，增强特征间的语义联系；同时，采用增量学习模式，利用新检测到的相关报道更新话题模型，解决话题漂移。

本发明技术方案主要包括如下步骤：

(1)给定已分类话题数据和待跟踪新闻报道，对数据进行分词、去停用词等预处理。

(2)利用KL散度衡量分布差异的思想，构造出一种特征权重计算方法。由于KL散度本身衡量的是分布差异，对于那些分布差异大，但出现频率较低的特征会被定义为具有话题辨识能力的特征，为避免这一问题，本发明统计特征词在某一话题和全部话题中出现的频率，以特征出现频率分布来代替整体分布，为那些在某一个话题中出现占比较高而在其他话题中出现占比较低的特征赋予较大的权重，以此来提升特征的话题辨别能力。

(3)将word2vec与KL散度权重结合，实现已有话题中文本的向量化，构造各个话题对应的话题特征模型，降低数据维度，增强特征间的语义联系，各话题中所有的文档集共同构成该话题的话题模型。

(4)利用word2vec构造未检测报道的特征模型。

(5)引入Rocchio算法，利用步骤(3)中构造的话题模型计算每个话题对应的标准向量，计算待检测报道与各个话题标准向量的相似度，判断该报道所属话题类别，实现话题跟踪。

(6)将新检测到的相关报道放入其所在类别或独立构成新话题，更新话题模型，继续计算未测报道，若未测报道为空，则话题跟踪任务结束，输出话题跟踪结果。

附图说明

图1为本发明的整体流程图。

具体实施方式

参照图1，本发明给出的实施例包括如下步骤：

(2)利用KL散度衡量分布差异的思想，构造出一种特征权重计算方法，该方法中以特征出现频率分布来代替整体分布，去掉负样本对特征权重的影响，从而为那些在某一个话题中出现占比较高而在其他话题中出现占比较低的特征赋予较大的权重。同时利用平滑技术的思想，在某一话题与整体话题特征频率占比比值的基础上加1，避免了特征出现频率分布相同近而造成特征权重过小或为0的情况。改进后的KL散度权重计算方法如下所示：

其中：W_C(x)表示特征词x在话题C中的KL权重，P_C(x)表示一个话题类别C中包含特征词x的报道数d_Cx与话题C中所有报道数d_C的比值，Q(x)表示所有话题中包含特征词x的报道数d_tx与所有报道数d_t的比值。通过计算方法可以看出，W_C(x)与

成正比，W_C(x)值能够根据特征出现频率分布反映出特征的话题辨别能力，通过该方法能够提升特征的话题辨别能力。

(3)将word2vec与KL散度权重结合，实现话题文本的向量化，构造已有话题中各报道对应的话题特征模型。本发明采用的是利用word2vec求均值的方式，以此来降低数据维度，同时，通过word2vec保留词间相似性，增强特征间的语义联系，计算过程如下所示：

其中：L_C(D)表示话题C中报道D的特征向量化，V(x_i)是报道D中特征词x_i的word2vec向量化结果，n为报道D包含的词数。各话题中所有的文档集共同构成该话题的话题模型。

(4)利用word2vec构造未检测报道的特征模型，计算过程如下所示：

其中L_u(D_u)表示未检测报道D_u的特征向量化结果。

(5)引入Rocchio算法，利用步骤(3)中构造的话题模型计算每个话题对应的标准向量，计算待检测报道与各个话题标准向量的相似度，判断该报道所属话题类别，实现话题跟踪，话题的标准向量计算方法如下所示：

其中：E_C为话题C对应的标准向量，α和β是两个可变参数，用于调节正负样本对于计算结果的影响，O表示除话题C以外的其他话题集合。

(6)将新检测到的相关报道放入其所在类别，继续计算未测报道，若未检测报道不为空，则更新话题模型，解决话题漂移问题，返回(2)，继续后续操作，若未测报道为空，则话题跟踪任务结束。

本发明利用KL散度思想构造话题特征权重计算方法，提升了特征的话题辨识能力，提高了话题跟踪的准确率；引入word2vec文本向量化模型，解决了传统话题特征提取方法构造的特征维度高、数据稀疏的问题；同时，采用增量学习模式，解决新闻话题跟踪过程中话题漂移问题。

Claims

1.一种基于改进KL散度的话题跟踪方法，包括对话题数据进行分词、去停用词的预处理，其特征在于，所述方法还包括如下步骤：

(1)利用KL散度衡量分布差异构造出一种话题数据特征权重计算方法：统计特征词在某一话题和全部话题中出现的频率，以特征出现频率分布来代替整体分布，为那些在某一个话题中出现占比高而在其他话题中出现占比低的特征赋予大的权重，在某一话题与全部话题的特征频率占比比值的基础上加1；

(2)将word2vec与KL散度权重结合，实现话题文本的特征向量化，构造各个话题对应的话题特征向量，各个话题中所有的文档集共同构成该话题的话题特征模型；

(3)利用word2vec构造未检测报道的特征模型；

(4)引入Rocchio算法，利用步骤(2)中构造的话题特征模型计算每个话题对应的标准向量，计算待检测报道与各个话题标准向量的相似度，判断该报道所属话题类别，实现话题跟踪；

(5)将新检测到的相关报道放入其所在类别或独立构成新话题，更新话题模型，继续计算未检测报道，若未检测报道为空，则话题跟踪任务结束；

步骤(1)中所述的话题数据特征权重计算方法，其计算式如下所示：

其中：W_C(x)表示特征词x在话题C中的KL权重，P_C(x)表示一个话题类别C中包含特征词x的报道数d_Cx与话题C中所有报道数d_C的比值，Q(x)表示所有话题中包含特征词x的报道数d_tx与所有报道数d_t的比值。

2.根据权利要求1所述的方法，其中步骤(2)中所述的特征向量化计算过程如下所示：

其中：L_C(D)表示话题C中报道D的特征向量化，V(x_i)是报道D中特征词x_i的word2vec向量化结果，n为报道D包含的词数。