CN111444337B - 一种基于改进kl散度的话题跟踪方法 - Google Patents

一种基于改进kl散度的话题跟踪方法 Download PDF

Info

Publication number
CN111444337B
CN111444337B CN202010123108.5A CN202010123108A CN111444337B CN 111444337 B CN111444337 B CN 111444337B CN 202010123108 A CN202010123108 A CN 202010123108A CN 111444337 B CN111444337 B CN 111444337B
Authority
CN
China
Prior art keywords
topic
feature
reports
divergence
report
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010123108.5A
Other languages
English (en)
Other versions
CN111444337A (zh
Inventor
谢武
孔丽娜
强保华
刘满意
杨鲜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202010123108.5A priority Critical patent/CN111444337B/zh
Publication of CN111444337A publication Critical patent/CN111444337A/zh
Application granted granted Critical
Publication of CN111444337B publication Critical patent/CN111444337B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于改进KL散度的新闻话题跟踪方法。所述方法利用KL散度衡量分布差异的思想,构造出一种可以区分普通特征与话题特征的权重计算方法,以此来提升特征的话题辨别能力,提高话题跟踪的准确率;同时引入word2vec,将其与KL散度权重相结合,实现话题文本的向量化表示,降低数据维度,增强特征间的语义联系;同时,采用增量学习模式,利用新检测到的相关报道更新话题模型,解决话题漂移。

Description

一种基于改进KL散度的话题跟踪方法
技术领域
本发明涉及计算机技术领域,具体涉及一种基于改进KL散度的话题跟踪方法。
背景技术
话题跟踪(Topic Tracking Task,TT)是话题检测与跟踪(Topic Detection andTracking,TDT)中的一项子研究任务,主要用于跟踪已有话题的后续相关报道,即在给定待测话题的基础上,逐一判断新闻数据流中每篇报道与现有话题的相关度,并对其进行类别划分,从而实现话题跟踪功能。通过话题跟踪技术,可以把与话题相关的报道有效的组织起来,帮助了解事件发展过程和相关细节。
话题和报道的特征模型构造是话题跟踪任务的基础问题,一般来说,话题模型是由其相关报道模型的质心或集合构成,报道的表示方法包括向量模型和概率模型等。传统模型对话题特征的提取依赖于单一文档特征,例如TF-IDF,该模型提取的特征反应的是文档本身的特征,不能反映文档所在话题的话题特征,忽略了话题特征与单一文档特征的区别,使得提取出的特征话题辨识能力较低;同时,传统话题特征提取模型认为文档间相互独立,忽略了话题中各文档间的联系。
发明内容
针对现有技术的不足,本发明提供一种基于改进KL散度的新闻话题跟踪方法。所述方法利用KL散度衡量分布差异的思想,构造出一种可以区分普通特征与话题特征的权重计算方法,以此来提升特征的话题辨别能力,提高话题跟踪的准确率;同时引入word2vec,将其与KL散度权重相结合,实现话题文本的向量化表示,降低数据维度,增强特征间的语义联系;同时,采用增量学习模式,利用新检测到的相关报道更新话题模型,解决话题漂移。
本发明技术方案主要包括如下步骤:
(1)给定已分类话题数据和待跟踪新闻报道,对数据进行分词、去停用词等预处理。
(2)利用KL散度衡量分布差异的思想,构造出一种特征权重计算方法。由于KL散度本身衡量的是分布差异,对于那些分布差异大,但出现频率较低的特征会被定义为具有话题辨识能力的特征,为避免这一问题,本发明统计特征词在某一话题和全部话题中出现的频率,以特征出现频率分布来代替整体分布,为那些在某一个话题中出现占比较高而在其他话题中出现占比较低的特征赋予较大的权重,以此来提升特征的话题辨别能力。
(3)将word2vec与KL散度权重结合,实现已有话题中文本的向量化,构造各个话题对应的话题特征模型,降低数据维度,增强特征间的语义联系,各话题中所有的文档集共同构成该话题的话题模型。
(4)利用word2vec构造未检测报道的特征模型。
(5)引入Rocchio算法,利用步骤(3)中构造的话题模型计算每个话题对应的标准向量,计算待检测报道与各个话题标准向量的相似度,判断该报道所属话题类别,实现话题跟踪。
(6)将新检测到的相关报道放入其所在类别或独立构成新话题,更新话题模型,继续计算未测报道,若未测报道为空,则话题跟踪任务结束,输出话题跟踪结果。
附图说明
图1为本发明的整体流程图。
具体实施方式
参照图1,本发明给出的实施例包括如下步骤:
(1)给定已分类话题数据和待跟踪新闻报道,对数据进行分词、去停用词等预处理。
(2)利用KL散度衡量分布差异的思想,构造出一种特征权重计算方法,该方法中以特征出现频率分布来代替整体分布,去掉负样本对特征权重的影响,从而为那些在某一个话题中出现占比较高而在其他话题中出现占比较低的特征赋予较大的权重。同时利用平滑技术的思想,在某一话题与整体话题特征频率占比比值的基础上加1,避免了特征出现频率分布相同近而造成特征权重过小或为0的情况。改进后的KL散度权重计算方法如下所示:
Figure BDA0002393602270000021
Figure BDA0002393602270000022
Figure BDA0002393602270000031
其中:WC(x)表示特征词x在话题C中的KL权重,PC(x)表示一个话题类别C中包含特征词x的报道数dCx与话题C中所有报道数dC的比值,Q(x)表示所有话题中包含特征词x的报道数dtx与所有报道数dt的比值。通过计算方法可以看出,WC(x)与
Figure BDA0002393602270000032
成正比,WC(x)值能够根据特征出现频率分布反映出特征的话题辨别能力,通过该方法能够提升特征的话题辨别能力。
(3)将word2vec与KL散度权重结合,实现话题文本的向量化,构造已有话题中各报道对应的话题特征模型。本发明采用的是利用word2vec求均值的方式,以此来降低数据维度,同时,通过word2vec保留词间相似性,增强特征间的语义联系,计算过程如下所示:
Figure BDA0002393602270000033
其中:LC(D)表示话题C中报道D的特征向量化,V(xi)是报道D中特征词xi的word2vec向量化结果,n为报道D包含的词数。各话题中所有的文档集共同构成该话题的话题模型。
(4)利用word2vec构造未检测报道的特征模型,计算过程如下所示:
Figure BDA0002393602270000034
其中Lu(Du)表示未检测报道Du的特征向量化结果。
(5)引入Rocchio算法,利用步骤(3)中构造的话题模型计算每个话题对应的标准向量,计算待检测报道与各个话题标准向量的相似度,判断该报道所属话题类别,实现话题跟踪,话题的标准向量计算方法如下所示:
Figure BDA0002393602270000035
其中:EC为话题C对应的标准向量,α和β是两个可变参数,用于调节正负样本对于计算结果的影响,O表示除话题C以外的其他话题集合。
(6)将新检测到的相关报道放入其所在类别,继续计算未测报道,若未检测报道不为空,则更新话题模型,解决话题漂移问题,返回(2),继续后续操作,若未测报道为空,则话题跟踪任务结束。
本发明利用KL散度思想构造话题特征权重计算方法,提升了特征的话题辨识能力,提高了话题跟踪的准确率;引入word2vec文本向量化模型,解决了传统话题特征提取方法构造的特征维度高、数据稀疏的问题;同时,采用增量学习模式,解决新闻话题跟踪过程中话题漂移问题。

Claims (2)

1.一种基于改进KL散度的话题跟踪方法,包括对话题数据进行分词、去停用词的预处理,其特征在于,所述方法还包括如下步骤:
(1)利用KL散度衡量分布差异构造出一种话题数据特征权重计算方法:统计特征词在某一话题和全部话题中出现的频率,以特征出现频率分布来代替整体分布,为那些在某一个话题中出现占比高而在其他话题中出现占比低的特征赋予大的权重,在某一话题与全部话题的特征频率占比比值的基础上加1;
(2)将word2vec与KL散度权重结合,实现话题文本的特征向量化,构造各个话题对应的话题特征向量,各个话题中所有的文档集共同构成该话题的话题特征模型;
(3)利用word2vec构造未检测报道的特征模型;
(4)引入Rocchio算法,利用步骤(2)中构造的话题特征模型计算每个话题对应的标准向量,计算待检测报道与各个话题标准向量的相似度,判断该报道所属话题类别,实现话题跟踪;
(5)将新检测到的相关报道放入其所在类别或独立构成新话题,更新话题模型,继续计算未检测报道,若未检测报道为空,则话题跟踪任务结束;
步骤(1)中所述的话题数据特征权重计算方法,其计算式如下所示:
Figure FDA0003555522220000011
Figure FDA0003555522220000012
Figure FDA0003555522220000013
其中:WC(x)表示特征词x在话题C中的KL权重,PC(x)表示一个话题类别C中包含特征词x的报道数dCx与话题C中所有报道数dC的比值,Q(x)表示所有话题中包含特征词x的报道数dtx与所有报道数dt的比值。
2.根据权利要求1所述的方法,其中步骤(2)中所述的特征向量化计算过程如下所示:
Figure FDA0003555522220000014
其中:LC(D)表示话题C中报道D的特征向量化,V(xi)是报道D中特征词xi的word2vec向量化结果,n为报道D包含的词数。
CN202010123108.5A 2020-02-27 2020-02-27 一种基于改进kl散度的话题跟踪方法 Active CN111444337B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010123108.5A CN111444337B (zh) 2020-02-27 2020-02-27 一种基于改进kl散度的话题跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010123108.5A CN111444337B (zh) 2020-02-27 2020-02-27 一种基于改进kl散度的话题跟踪方法

Publications (2)

Publication Number Publication Date
CN111444337A CN111444337A (zh) 2020-07-24
CN111444337B true CN111444337B (zh) 2022-07-19

Family

ID=71627076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010123108.5A Active CN111444337B (zh) 2020-02-27 2020-02-27 一种基于改进kl散度的话题跟踪方法

Country Status (1)

Country Link
CN (1) CN111444337B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115840796A (zh) * 2021-09-18 2023-03-24 腾讯科技(深圳)有限公司 一种事件整合方法、装置、设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975499A (zh) * 2016-04-27 2016-09-28 深圳大学 一种文本主题检测方法及系统
CN107273348A (zh) * 2017-05-02 2017-10-20 深圳大学 一种文本的话题和情感联合检测方法及装置
CN108460019A (zh) * 2018-02-28 2018-08-28 福州大学 一种基于注意力机制的新兴热点话题检测系统
CN108874974A (zh) * 2018-06-08 2018-11-23 成都云数未来信息科学有限公司 基于频繁词集的并行化话题跟踪方法
CN110245355A (zh) * 2019-06-24 2019-09-17 深圳市腾讯网域计算机网络有限公司 文本话题检测方法、装置、服务器及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9977778B1 (en) * 2016-11-03 2018-05-22 Conduent Business Services, Llc Probabilistic matching for dialog state tracking with limited training data
US10535106B2 (en) * 2016-12-28 2020-01-14 Facebook, Inc. Selecting user posts related to trending topics on online social networks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975499A (zh) * 2016-04-27 2016-09-28 深圳大学 一种文本主题检测方法及系统
CN107273348A (zh) * 2017-05-02 2017-10-20 深圳大学 一种文本的话题和情感联合检测方法及装置
CN108460019A (zh) * 2018-02-28 2018-08-28 福州大学 一种基于注意力机制的新兴热点话题检测系统
CN108874974A (zh) * 2018-06-08 2018-11-23 成都云数未来信息科学有限公司 基于频繁词集的并行化话题跟踪方法
CN110245355A (zh) * 2019-06-24 2019-09-17 深圳市腾讯网域计算机网络有限公司 文本话题检测方法、装置、服务器及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
topic tracking based on keywords dependency profile;wei zheng等;《asia information retrieval symposium 》;20081231;129-140 *
基于层次聚类的子话题检测算法;代翔等;《华南理工大学学报(自然科学版)》;20190815;第47卷(第8期);84-95 *

Also Published As

Publication number Publication date
CN111444337A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN114610515B (zh) 基于日志全语义的多特征日志异常检测方法及系统
CN105808526B (zh) 商品短文本核心词提取方法和装置
CN107862070B (zh) 基于文本聚类的线上课堂讨论短文本即时分组方法及系统
CN101079025B (zh) 一种文档相关度计算系统和方法
CN104881458B (zh) 一种网页主题的标注方法和装置
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN102063424A (zh) 一种中文分词方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
WO2020232898A1 (zh) 文本分类方法、装置、电子设备及计算机非易失性可读存储介质
CN111310467B (zh) 一种在长文本中结合语义推断的主题提取方法及系统
CN110399603A (zh) 一种基于意群划分的文本处理技术方法和系统
CN112990035A (zh) 一种文本识别的方法、装置、设备以及存储介质
CN112632982A (zh) 一种能用于供应商评价的对话文本情感分析方法
CN115186654A (zh) 一种公文文本摘要生成方法
CN111062208B (zh) 一种文件审核的方法、装置、设备及存储介质
CN109783633A (zh) 数据分析服务流程模型推荐方法
CN115935412A (zh) 一种非结构化数据自动分类分级方法及系统
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN111444337B (zh) 一种基于改进kl散度的话题跟踪方法
CN110929509B (zh) 一种基于louvain社区发现算法的领域事件触发词聚类方法
CN112579783A (zh) 基于拉普拉斯图谱的短文本聚类方法
CN108628875B (zh) 一种文本标签的提取方法、装置及服务器
CN114511027B (zh) 通过大数据网络进行英语远程数据提取方法
CN111859032A (zh) 一种短信拆字敏感词的检测方法、装置及计算机存储介质
CN113158669B (zh) 一种用工平台正负面评论识别的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant