CN108509517B - 一种面向实时新闻内容的流式话题演化跟踪方法 - Google Patents

一种面向实时新闻内容的流式话题演化跟踪方法 Download PDF

Info

Publication number
CN108509517B
CN108509517B CN201810195967.8A CN201810195967A CN108509517B CN 108509517 B CN108509517 B CN 108509517B CN 201810195967 A CN201810195967 A CN 201810195967A CN 108509517 B CN108509517 B CN 108509517B
Authority
CN
China
Prior art keywords
topic
entity
topics
document
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810195967.8A
Other languages
English (en)
Other versions
CN108509517A (zh
Inventor
杨鹏
张成帅
李幼平
张长江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201810195967.8A priority Critical patent/CN108509517B/zh
Publication of CN108509517A publication Critical patent/CN108509517A/zh
Application granted granted Critical
Publication of CN108509517B publication Critical patent/CN108509517B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向实时新闻内容的流式话题演化跟踪方法,首先把实时采集的新闻内容,按时间段进行分批,对每一批新闻内容采用LDA方法挖掘初步话题结果;接着,在这一批新闻内容内部进行命名实体识别,并计算话题与实体间关联,以此更新实体库中的实体链接关系;然后,通过话题内部词项聚类,得到话题‑话题内类簇对应关系,并将话题结果存入话题库;最后,计算话题及其内部类簇的热度信息,并根据热度信息对LDA话题挖掘参数进行动态更新,供下一批新闻内容的话题演化跟踪使用。本发明可挖掘实时新闻内容中的话题特征以及话题内词项的类簇特征,充分利用话题间以及话题内不同类簇间的差异性,对LDA话题挖掘参数进行动态更新。

Description

一种面向实时新闻内容的流式话题演化跟踪方法
技术领域
本发明涉及一种面向实时新闻内容的流式话题演化跟踪方法,该方法能够借助话题挖掘参数的动态更新,对从互联网实时采集的新闻内容进行逐时间段的、流式的话题挖掘及演化跟踪,属于互联网和自然语言处理技术领域。
背景技术
近年来,随着信息技术的蓬勃发展,互联网已成为人们获取信息、了解新闻资讯最便捷的渠道。然而,在互联网新闻信息资源极大丰富的同时,也带来了“信息过载”的巨大挑战,即海量新闻内容的不断涌现而使用户难以从中获取对自己有用的部分,进而影响到新闻内容的有效使用率。个性化推荐技术通过对用户兴趣进行建模,能够为用户提供个性化的推荐服务,是解决上述问题的有效途径。基于话题的个性化推荐方法是一种重要的个性化推荐技术实现方法,相比于传统基于内容的个性化推荐方法和协同过滤个性化推荐方法,基于话题的个性化推荐方法能够在话题维度对用户兴趣进行刻画,更加准确地反映用户在新闻话题方面的偏好。但是,新闻话题会随着时间的推移而不断变化,如何把握话题的变化规律,反映话题的演化趋势,是基于话题的个性化推荐算法亟待解决的难题。
LDA(Latent Dirichlet Allocation)和OLDA(Online LDA)是目前在文本话题挖掘领域应用比较广泛的两种方法,后者在前者的基础上针对话题持续演化性进行了改进。但是,传统LDA方法无法衡量前后话题挖掘结果之间关联,而 OLDA方法在刻画前后话题挖掘结果之间的关联时,无法充分利用话题间以及话题在时间段间的差异性,因而在合理性和准确度方面均有所欠缺。为此,本发明提出一种面向实时新闻内容的流式话题演化跟踪方法,简称dELDA(ddCRP and Entity based LDA)方法,该方法采用ddCRP(distancedependent Chinese Restaurant Process)方法对传统LDA方法进行改进和创新。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提出一种面向实时新闻内容的流式话题演化跟踪方法,简称dELDA方法。该方法不仅可以挖掘实时新闻内容中的话题特征以及话题内词项的类簇特征,而且可以充分利用话题间以及话题内不同类簇间的差异性,对LDA话题挖掘参数进行动态更新,从而能够从内容和强度两个维度充分反映话题及其内部类簇的演化趋势。
技术方案:一种面向实时新闻内容的流式话题演化跟踪方法(简称dELDA 方法),对应于一个面向实时新闻内容的逐时间段的、流式的话题挖掘及演化跟踪过程。该方法不仅可以挖掘实时新闻内容中的话题特征以及话题内词项的类簇特征,而且可以充分利用话题间以及话题内不同类簇间的差异性,对LDA话题挖掘参数进行动态更新,从而能够从内容和强度两个维度充分反映话题及其内部类簇的演化趋势。其具体步骤如下:
步骤1,初步话题挖掘。对于从互联网实时采集到的新闻内容,先按时间段对其进行分批,然后逐批采用LDA方法初步挖掘出K(K为正整数)个话题。针对第t(t为正整数)批次采集的新闻内容Dt,首先确定这一批次dELDA方法中超参数
Figure BDA0001593108460000021
的取值
Figure BDA0001593108460000022
如果t为0(即为起始时间段),则初始化为预设值
Figure BDA0001593108460000023
Figure BDA0001593108460000024
其中
Figure BDA0001593108460000025
Figure BDA0001593108460000026
若t>1,则初始化为t-1时间段动态更新后的
Figure BDA0001593108460000027
Figure BDA0001593108460000028
为第t批次的新闻内容对应的
Figure BDA0001593108460000029
参数。接着,以模型超参数
Figure BDA00015931084600000210
Figure BDA00015931084600000211
对新闻内容Dt进行LDA话题挖掘,生成话题集合
Figure BDA00015931084600000212
并且得到Dt中每个文档
Figure BDA00015931084600000213
(1≤u≤n)属于话题
Figure BDA00015931084600000214
的概率。
步骤2,话题与实体关联。考虑到虽然话题在演化过程中词项分布不断变化,但相关命名实体总体稳定,并且传统LDA话题挖掘结果仅由词项构成,话题语义不明、难以理解。因此,本发明引入命名实体对LDA话题进行表征,不仅可以通过实体将多个时间段聚类的话题相串联,还更有利于话题语义的表达。该步骤具体又分为3个子步骤:
子步骤2-1,新闻命名实体识别。首先利用预先定义好的特征模板从文本中提取特征,通过和词典进行匹配,得到训练好的命名实体识别模型。然后在进行新闻命名实体识别时,使用相同的特征模板进行特征提取,并根据训练所得到命名实体识别模型进行命名实体的识别。
子步骤2-2,实体-话题关联度计算。考虑到命名实体识别需要借助文档作为语义环境,故本发明中实体-话题关联度的计算也在文档内进行。实体-话题关联度的计算方式主要考虑两个因素:文档在该话题上的分布概率和文档中实体词项的重要性。其中,文档m在话题k上的分布概率
Figure BDA0001593108460000031
由LDA话题挖掘结果给出,而文档中实体词项的重要性由词频-逆向文件频率(TF-IDF)值衡量,文档m中命名实体i与话题k间关联度ξi,k的计算公式如公式(1)所示:
Figure BDA0001593108460000032
其中,tfi表示实体i的词频(TF)值,idfi表示实体i的逆向文件频率(IDF) 值。
子步骤2-3,实体链接关系更新。通过子步骤2-2得到当前文档中实体-话题间关联关系后,若实体库中已存在该实体,只需以累加方式更新相应的实体-话题关联度;否则,需先插入该实体-话题关系,再更新相应的实体-话题关联。
步骤3,话题内词项聚类。考虑到传统LDA话题挖掘结果仅由词项构成,话题语义不明、难以理解,本发明结合命名实体,利用词项在文档中的共线性特征,实现了话题内词项聚类。话题内词项聚类采用层次聚类方式实现,具体又分为2个子步骤:
子步骤3-1,基于距离依赖的中餐馆就餐过程ddCRP算法的话题相关实体词项聚类。基于ddCRP算法的基本思想,本发明将每个实体词项看做一个customer,将由实体词项构成的类簇看做table,先考虑实体词项之间的关联,再将关联在一起的实体词项看做是一个类簇。假设α为标量参数,f为衰减函数,S为所有实体间的关联度计算矩阵,实体词项在类簇上服从G0分布。则基于ddCRP的话题相关实体词项聚类算法的完整概率生成过程可描述为:
(1)对于每个实体i,i∈[1,N],依据其与其他实体间的语义关联度,获得其customer分配结果ci~ddCRP(S,α,f);
(2)根据所有实体的customer分配结果,获得实体i的类簇分配结果zi
(3)对于每一个类簇k,k∈{1,...},其包含的实体词项e*~G0
(4)对于每一个实体i,i∈[1,N],将其分配到最终的类簇。
子步骤3-2,基于K-Means算法的话题内词项聚类。该子步骤的主要作用是利用子步骤3-1得到的实体词项聚类结果,利用非实体词项与实体词项以及非实体词项间共现关系进行话题内词项的最终聚类。
步骤4,话题及其内部类簇热度信息提取。本发明中引入话题热度作为话题强度的量纲,并采用数据集内所有文档对该话题的贡献度来衡量话题热度。影响文档对话题贡献度的因素为文档的话题集中度和文档到达时间。话题内类簇的热度信息提取考虑两个因素:话题热度和话题内类簇词频之和与话题词频之和的比值。
文档的话题集中度可以采用信息熵的方式衡量,文档m信息熵的计算如公式(2)所示:
Figure BDA0001593108460000041
公式(2)中,
Figure BDA0001593108460000042
表示文档m在话题k上的分布概率,K表示话题数。一般而言,entropy(dm)越大,文档m中话题的集中度越低。文档m中话题的集中度越低具体计算如公式(3)所示:
Figure BDA0001593108460000043
文档的到达时间距离当前时间越久,其对当前话题的贡献度越小,呈现衰减态势,文档对当前话题的贡献度具体计算如公式(4)所示:
Figure BDA0001593108460000044
公式(4)中,tm表示文档m的到达时间,t为当前时间,λ为衰减因子。综合考虑文档中话题的集中度和文档到达时间两个因素,文档m的话题贡献度计算如公式(5)所示:
Wm=WEm*WTm (5)
综合上述分析,文档集中话题k及其内部类簇热度信息的提取分别如公式 (6)、公式(7)所示:
Figure BDA0001593108460000045
Figure BDA0001593108460000051
在公式(6)和公式(7)中,
Figure BDA0001593108460000052
其中
Figure BDA0001593108460000053
表示话题k的词向量,TP(Z)表示各话题的热度值向量,
Figure BDA00015931084600000515
表示所有文档对话题的贡献度向量,θm,k表示一个k行m列的二维矩阵,且
Figure BDA0001593108460000054
(假设下标均从1开始),
Figure BDA0001593108460000055
表示第k个话题的第i个话题类簇的热度值,
Figure BDA0001593108460000056
表示第k个话题的热度值,
Figure BDA0001593108460000057
表示第k个话题的第i个话题内类簇的词频之和,
Figure BDA0001593108460000058
表示第k个话题中词频之和。
步骤5,话题演化跟踪。传统LDA话题挖掘模型中,多次话题挖掘结果彼此独立,没有前后关联。而互联网中的话题在时间推移过程中实则具有延续性,当前时间片段的话题往往由上一时间段的话题演化而来。基于强度越高的话题 (话题内类簇)越会保持其内容延续性的思想,本发明通过当前话题及其内部类簇的热度信息对下一时间片段LDA话题挖掘模型中求解话题在单词上概率分布的超参数
Figure BDA0001593108460000059
进行调节,对LDA模型进行改进,实现了话题的有效跟踪。
Figure BDA00015931084600000510
参数的调节方式如公式(8)、(9)、(10)所示:
Figure BDA00015931084600000511
Figure BDA00015931084600000512
Figure BDA00015931084600000513
其中,Bt-1为一个n*k的二维矩阵,表示t-1时刻各话题在各词语上的概率分布,
Figure BDA00015931084600000514
表示t-1时刻第k个话题在第n个词语上的概率分布,K_TP(W)表示根据话题内类簇热度信息给出的n*n的二维词项权重矩阵,k_tpi表示第i个词项所属的所有话题内类簇热度值之和。
有益效果:与现有技术相比,本发明提供的面向实时新闻内容的流式话题演化跟踪方法,具有如下优点:
(1)本发明不仅可以挖掘流式新闻内容中的话题特征,还能进一步挖掘话题内词项的类簇特征;
(2)对话题挖掘参数进行动态更新时,不仅考虑话题间差异性,还兼顾话题内不同类簇之间的差异性;
(3)引入话题热度作为话题强度的量纲,支持从内容和强度两个维度反映话题及其内部类簇的演化趋势。
附图说明
图1是面向实时新闻内容的流式话题演化跟踪方法的整体流程图;
图2是面向实时新闻内容的流式话题演化跟踪方法的概率图模型,描述了话题挖掘过程以及参数更新原理;
图3是面向实时新闻内容的流式话题演化跟踪方法的参数动态更新过程。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种面向实时新闻内容的流式话题演化跟踪方法(简称dELDA方法)在具体实施时,其整体工作流程如图1所示。该方法首先把从互联网实时采集的新闻内容,按时间段进行分批,对每一批新闻内容采用LDA方法挖掘初步话题结果;接着,在这一批新闻内容内部进行命名实体识别,并计算话题与实体间关联,以此更新实体库中的实体链接关系;然后,通过话题内部词项聚类,得到话题-话题内类簇对应关系,并将话题结果存入话题库;最后,计算话题及其内部类簇的热度信息,并根据热度信息对LDA话题挖掘参数进行动态更新,供下一批新闻内容的话题演化跟踪使用。具体实施步骤如下:
步骤(1)初步话题挖掘。dELDA方法首先把从互联网实时采集的新闻内容按时间段进行分批,然后逐批次采用LDA方法进行初步话题挖掘。不失一般性,假设第t(t为整数)时间段采集到1000条新闻内容,构成新闻文档集合
Figure BDA0001593108460000071
若t=0(即初始时间段),超参数
Figure BDA0001593108460000072
初始化为预设值
Figure BDA0001593108460000073
Figure BDA0001593108460000074
若t>0,超参数
Figure BDA0001593108460000075
初始化为t-1时间段动态更新后的
Figure BDA0001593108460000076
Figure BDA0001593108460000077
采用模型参数
Figure BDA0001593108460000078
Figure BDA0001593108460000079
对Dt进行话题挖掘,并通过吉布斯采样计算得到20个话题,每个话题由100个词语组成。挖掘到的第3个话题(仅筛选30个词展示) 形如{红黄蓝,幼儿园,新天地,北京,扎针,幼童,亲子园,携程,芥末,肺结核,北京,朝阳区,家长,幼师,分园,药片,罚站,针眼,园长,调查,伤害,疫情,复查,健康,复学,医院,媒体,幼教,上海,视频}。
步骤(2)话题与实体间关联。新闻文档集中某文档中挖掘到的8个命名实体为{携程,芥末,上海,红黄蓝,新天地,北京,园长,肺结核},按照公式(1) 分别计算其与第3个话题的话题关联度为{0.0088,0.0019,0.0026,0.0122,0.0091, 0.0118,0.0034,0.0064}。计算实体与话题关联度后,若实体库中已存在该实体,需对相应的实体记录进行累加更新;否则,需先插入该话题-实体关系,再以本文档中计算得到的话题与实体关联度设置相应的命名实体记录。
步骤(3)话题内词项聚类。首先,计算话题内各词项间的关联度,并用二维矩阵S存储,S[i][j]=r_entityi,j;接着,基于ddCRP实现命名实体初步聚类,初步聚类结果存储于Map结构C中,C={0:{携程,芥末,上海},1:{红黄蓝,新天地,北京,园长},2:{肺结核}};然后,以实体词项初步聚类结果设置聚类数目和初始类簇中心,基于K-Means实现话题内词项聚类,话题内词项的聚类结果存储于Map结构C_Kernal中,C_Kernal={0:{携程,芥末,上海,亲子园,幼教,家长,幼师},1:{红黄蓝,新天地,北京,园长,幼儿园,扎针,幼童,朝阳区,家长,幼师,分园,药片,罚站,针眼,园长,调查,伤害},2: {肺结核,疫情,复查,健康,复学,医院}}。
步骤(4)话题及其内部类簇热度信息提取。首先,依据公式(6)计算各话题的热度值,
Figure BDA00015931084600000710
Figure BDA00015931084600000711
Figure BDA00015931084600000712
然后,依据公式(7)计算各话题内各类簇的热度值,第3个话题内各类簇的热度信息为{TP(z3,1),TP(z3,1),TP(z3,1)}={215,433,134}。
步骤(5)话题演化跟踪。基于强度越高的话题(话题内类簇)越会保持其内容延续性的思想,本发明提出基于当前t时间段的话题挖掘结果中各话题及其内部类簇的热度信息对下一时间段t+1的话题挖掘参数
Figure BDA0001593108460000081
进行如图2、图3所示的动态更新,实现了话题的有效跟踪。具体的参数更新过程依据公式(8)、公式(9)、公式(10)计算。
上述实施示例表明,本发明提出的一种面向实时新闻内容的流式话题演化跟踪方法,不仅可以挖掘流式新闻内容中的话题特征,还能进一步挖掘话题内词项的类簇特征,同时充分利用话题间以及话题内不同类簇间的差异性对话题挖掘参数进行动态更新,支持从内容和强度两个维度反映话题及其内部类簇的演化趋势。应用该方法不仅可以方便地对新闻热点话题进行实时监控,还可以应用于基于话题的隐语义个性化推荐方式,帮助用户从海量的互联网信息资源中获取自己感兴趣的信息,缓解“信息过载”问题。

Claims (6)

1.一种面向实时新闻内容的流式话题演化跟踪方法,其特征在于,包括如下步骤:
步骤1,初步话题挖掘:对于从互联网实时采集到的新闻内容,先按时间段对其进行分批,然后逐批采用LDA方法初步挖掘出K个话题,K为正整数;
步骤2,话题与实体关联:引入命名实体对LDA话题进行表征,通过实体将多个时间段聚类的话题相串联;
步骤3,话题内词项聚类:结合命名实体,利用词项在文档中的共现性特征,实现了话题内词项聚类;
步骤4,话题及其内部类簇热度信息提取:引入话题热度作为话题强度的量纲,并采用数据集内所有文档对该话题的贡献度来衡量话题热度;影响文档对话题贡献度的因素为文档的话题集中度和文档到达时间;话题内类簇的热度信息提取考虑两个因素:话题热度和话题内类簇词频之和与话题词频之和的比值;
步骤5,话题演化跟踪:通过当前话题及其内部类簇的热度信息对下一时间片段LDA话题挖掘模型中求解话题在单词上概率分布的超参数
Figure FDA00029484256300000114
进行调节,实现了话题的有效跟踪。
2.如权利要求1所述的面向实时新闻内容的流式话题演化跟踪方法,其特征在于,所述步骤1中,针对第t批次采集的新闻内容Dt,首先确定这一批次面向实时新闻内容的流式话题演化跟踪方法中超参数
Figure FDA0002948425630000011
的取值
Figure FDA0002948425630000012
如果t为0,则初始化为预设值
Figure FDA0002948425630000013
Figure FDA0002948425630000014
其中
Figure FDA0002948425630000015
Figure FDA0002948425630000016
若t>1,则初始化为t-1时间段动态更新后的
Figure FDA0002948425630000017
Figure FDA0002948425630000018
接着,以模型超参数
Figure FDA0002948425630000019
Figure FDA00029484256300000110
对新闻内容Dt进行LDA话题挖掘,生成话题集合
Figure FDA00029484256300000111
并且得到Dt中每个文档
Figure FDA00029484256300000112
属于话题
Figure FDA00029484256300000113
的概率。
3.如权利要求1所述的面向实时新闻内容的流式话题演化跟踪方法,其特征在于,所述步骤2包括如下内容:
步骤2-1,新闻命名实体识别;首先利用预先定义好的特征模板从文本中提取特征,通过和词典进行匹配,得到训练好的命名实体识别模型;然后在进行新闻命名实体识别时,使用相同的特征模板进行特征提取,并根据训练所得到命名实体识别模型进行命名实体的识别;
步骤2-2,实体-话题关联度计算;实体-话题关联度的计算方式主要考虑两个因素:文档在该话题上的分布概率和文档中实体词项的重要性;其中,文档m在话题k上的分布概率
Figure FDA0002948425630000021
由LDA话题挖掘结果给出,而文档中实体词项的重要性由词频-逆向文件频率(TF-IDF)值衡量,文档m中命名实体i与话题k间关联度ξi,k的计算公式如公式(1)所示:
Figure FDA0002948425630000022
其中,tfi表示实体i的词频(TF)值,idfi表示实体i的逆向文件频率(IDF)值;
步骤2-3,实体链接关系更新;通过步骤2-2得到当前文档中实体-话题间关联度后,若实体库中已存在该实体,只需以累加方式更新相应的实体-话题关联度;否则,需先插入该实体-话题关系,再更新相应的实体-话题关联。
4.如权利要求1所述的面向实时新闻内容的流式话题演化跟踪方法,其特征在于,步骤3中,话题内词项聚类采用层次聚类方式实现,具体又分为2个步骤:
步骤3-1,基于距离依赖的中餐馆就餐过程ddCRP算法的话题相关实体词项聚类;基于ddCRP算法的基本思想,将每个实体词项看做一个customer,将由实体词项构成的类簇看做table,先考虑实体词项之间的关联,再将关联在一起的实体词项看做是一个类簇;假设α为标量参数,f为衰减函数,S为所有实体间的关联度计算矩阵,实体词项在类簇上服从G0分布;则基于ddCRP的话题相关实体词项聚类算法的完整概率生成过程可描述为:
(1)对于每个实体i,i∈[1,N],依据其与其他实体间的语义关联度,获得其customer分配结果ci~ddCRP(S,α,f);
(2)根据所有实体的customer分配结果,获得实体i的类簇分配结果zi
(3)对于每一个类簇k,k∈{1,...},其包含的实体词项e*~G0
(4)对于每一个实体i,i∈[1,N],将其分配到最终类簇;
步骤3-2,基于K-Means算法的话题内词项聚类;该步骤利用步骤3-1得到的实体词项聚类结果,利用非实体词项与实体词项以及非实体词项间共现关系进行话题内词项的最终聚类。
5.如权利要求1所述的面向实时新闻内容的流式话题演化跟踪方法,其特征在于,步骤4中,文档的话题集中度可以采用信息熵的方式衡量,文档m信息熵的计算如公式(2)所示:
Figure FDA0002948425630000031
公式(2)中,
Figure FDA0002948425630000032
表示文档m在话题k上的分布概率,K表示话题数,文档m中话题的集中度计算如公式(3)所示:
Figure FDA0002948425630000033
文档的到达时间距离当前时间越久,其对当前话题的贡献度越小,呈现衰减态势,文档对当前话题的贡献度具体计算如公式(4)所示:
Figure FDA0002948425630000034
公式(4)中tm表示文档m的到达时间,t为当前时间,λ为衰减因子;综合考虑文档中话题的集中度和文档到达时间两个因素,文档m的话题贡献度计算如公式(5)所示:
Wm=WEm*WTm (5)
文档集中话题k及其内部类簇热度信息提取如公式(6)、公式(7)所示:
Figure FDA0002948425630000035
Figure FDA0002948425630000036
在公式(6)和公式(7)中,
Figure FDA0002948425630000037
其中
Figure FDA0002948425630000038
表示话题k的词向量,TP(Z)表示各话题的热度值向量,
Figure FDA0002948425630000039
表示所有文档对话题的贡献度向量,θm,k表示一个k行m列的二维矩阵,且
Figure FDA00029484256300000310
Figure FDA00029484256300000311
表示第k个话题的第i个话题类簇的热度值,
Figure FDA0002948425630000041
表示第k个话题的热度值,
Figure FDA0002948425630000042
表示第k个话题的第i个话题内类簇的词频之和,
Figure FDA0002948425630000043
表示第k个话题中词频之和。
6.如权利要求1所述的面向实时新闻内容的流式话题演化跟踪方法,其特征在于,步骤5中,
Figure FDA0002948425630000044
参数的调节方式如公式(8)、(9)、(10)所示:
Figure FDA0002948425630000045
Figure FDA0002948425630000046
Figure FDA0002948425630000047
其中,Bt-1为一个n*k的二维矩阵,表示t-1时刻各话题在各词语上的概率分布,
Figure FDA0002948425630000048
表示t-1时刻第k个话题在第n个词语上的概率分布,K_TP(W)表示根据话题内类簇热度信息给出的n*n的二维词项权重矩阵,k_tpi表示第i个词项所属的所有话题内类簇热度值之和。
CN201810195967.8A 2018-03-09 2018-03-09 一种面向实时新闻内容的流式话题演化跟踪方法 Active CN108509517B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810195967.8A CN108509517B (zh) 2018-03-09 2018-03-09 一种面向实时新闻内容的流式话题演化跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810195967.8A CN108509517B (zh) 2018-03-09 2018-03-09 一种面向实时新闻内容的流式话题演化跟踪方法

Publications (2)

Publication Number Publication Date
CN108509517A CN108509517A (zh) 2018-09-07
CN108509517B true CN108509517B (zh) 2021-05-11

Family

ID=63377279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810195967.8A Active CN108509517B (zh) 2018-03-09 2018-03-09 一种面向实时新闻内容的流式话题演化跟踪方法

Country Status (1)

Country Link
CN (1) CN108509517B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684474B (zh) * 2018-11-19 2021-01-01 北京百度网讯科技有限公司 用于提供写作话题的方法、装置、设备和存储介质
CN109933785B (zh) * 2019-02-03 2023-06-20 北京百度网讯科技有限公司 用于实体关联的方法、装置、设备和介质
CN110147421B (zh) * 2019-05-10 2022-06-21 腾讯科技(深圳)有限公司 一种目标实体链接方法、装置、设备及存储介质
CN111651675B (zh) * 2020-06-09 2023-07-04 杨鹏 一种基于ucl的用户兴趣主题挖掘方法及装置
CN112580355B (zh) * 2020-12-30 2021-08-31 中科院计算技术研究所大数据研究院 一种新闻资讯话题检测及实时聚合方法
CN112989799A (zh) * 2021-04-26 2021-06-18 扆亮海 微博数据流演化主题建模文档聚类解析法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177024A (zh) * 2011-12-23 2013-06-26 微梦创科网络科技(中国)有限公司 一种话题信息展现方法和装置
CN104915447A (zh) * 2015-06-30 2015-09-16 北京奇艺世纪科技有限公司 一种热点话题追踪及关键词确定方法及装置
CN105138665A (zh) * 2015-09-02 2015-12-09 东南大学 一种基于改进lda模型的互联网话题在线挖掘方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7613690B2 (en) * 2005-10-21 2009-11-03 Aol Llc Real time query trends with multi-document summarization

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177024A (zh) * 2011-12-23 2013-06-26 微梦创科网络科技(中国)有限公司 一种话题信息展现方法和装置
CN104915447A (zh) * 2015-06-30 2015-09-16 北京奇艺世纪科技有限公司 一种热点话题追踪及关键词确定方法及装置
CN105138665A (zh) * 2015-09-02 2015-12-09 东南大学 一种基于改进lda模型的互联网话题在线挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Hot topic extraction based on Chinese Microblog"s Features topic model;Yongtao Ye;《2016 IEEE International Conference on Cloud Computing and Big Data Analysis》;20160804;全文 *
基于动态阈值和命名实体的双重过滤话题追踪;魏景璇;《计算机应用研究》;20150430;第32卷(第4期);第982-985页 *

Also Published As

Publication number Publication date
CN108509517A (zh) 2018-09-07

Similar Documents

Publication Publication Date Title
CN108509517B (zh) 一种面向实时新闻内容的流式话题演化跟踪方法
Nie et al. Data-driven answer selection in community QA systems
CN110929161B (zh) 一种面向大规模用户的个性化教学资源推荐方法
CN111460221B (zh) 评论信息处理方法、装置及电子设备
CN112966091B (zh) 一种融合实体信息与热度的知识图谱推荐系统
CN105975596A (zh) 一种搜索引擎查询扩展的方法及系统
CN102024056A (zh) 利用计算机的基于多媒体分析的新闻人物检索方法
CN109063147A (zh) 基于文本相似度的在线课程论坛内容推荐方法及系统
CN113239159B (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN110110225A (zh) 基于用户行为数据分析的在线教育推荐模型及构建方法
CN109871504A (zh) 一种基于异构信息网络与深度学习的课程推荐系统
Xue et al. Ontology alignment based on instance using NSGA-II
CN109828997A (zh) 一种大学生行为数据分析及学业预警方法
CN111460145A (zh) 一种学习资源推荐方法、设备及存储介质
Zhong et al. Design of a personalized recommendation system for learning resources based on collaborative filtering
CN112948710A (zh) 基于图神经网络的朋辈教育推荐方法、系统和存储介质
Zhou et al. Conversational music recommendation based on bandits
CN118069927A (zh) 基于知识感知和用户多兴趣特征表示的新闻推荐方法及系统
CN108932247A (zh) 一种优化文本搜索的方法及装置
CN110297939A (zh) 一种融合用户行为和文化元数据的音乐个性化系统
CN114357141A (zh) 一种基于时序知识图谱的人机对话兴趣感知方法
Wu Study on news recommendation of social media platform based on improved collaborative filtering
CN114925207A (zh) 一种面向知识感知推荐的知识图谱构建方法
Shi et al. Visual analysis of citation context-based article influence ranking
Hu et al. Prediction of the positive psychology of college students using LightGBM algorithm based on SMOTE and Bayesian optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant