CN103870474B - 一种新闻话题组织方法及装置 - Google Patents

一种新闻话题组织方法及装置 Download PDF

Info

Publication number
CN103870474B
CN103870474B CN201210534034.XA CN201210534034A CN103870474B CN 103870474 B CN103870474 B CN 103870474B CN 201210534034 A CN201210534034 A CN 201210534034A CN 103870474 B CN103870474 B CN 103870474B
Authority
CN
China
Prior art keywords
topic
news
cluster
content
newly
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210534034.XA
Other languages
English (en)
Other versions
CN103870474A (zh
Inventor
彭卫华
王亚伟
韩兴凯
陈洪亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210534034.XA priority Critical patent/CN103870474B/zh
Publication of CN103870474A publication Critical patent/CN103870474A/zh
Application granted granted Critical
Publication of CN103870474B publication Critical patent/CN103870474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种新闻话题组织方法及装置,一种新闻话题组织方法包括:获取距当前时刻TW1时段内所发布的新闻文档,根据文档内容对所获取的新闻文档进行聚类,生成若干类簇;获取已当前已创建、且在距当前时刻TW2时段内存在更新的新闻话题,判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值;如果是,则对新生成的类簇内容与相应的新闻话题内容进行合并;如果否,则针对新生成的类簇创建新的新闻话题。应用本发明方案,可以更好地满足用户阅读新闻时的时效性需求。

Description

一种新闻话题组织方法及装置
技术领域
本发明涉及互联网技术领域,特别是涉及一种新闻话题组织方法及装置。
背景技术
随着互联网的飞速发展,网络上的信息量也呈爆炸性增长。其中,在互联网阅读新闻已经成为人们获取信息的重要手段。面对海量的互联网新闻,如何令用户快速、准确地从中获取自身所关注的信息,特别是最近一段时间发生的热点或重大事件,已经成为当前一个重要的研究方向。
根据现有技术的实现方式,对于一定数量的新闻,可以采用特定的算法进行聚类,然后根据聚类结果辅以人工整理,得到若干新闻话题分类。这种方案可以在一定程度把内容相关联的新闻归为同类,以便用户有选择、有针对性地阅读。
然而,对于新闻消息而言,“时效性”是一个重要的特性,例如:如果一些新闻消息如果过去很久,有可能是事件已经停止了,用户的实际关注度也会降低;也可能是事情还在继续发展,但是用户具体关注的中心主题发生了偏移。现有技术仅仅是静态地对已有的新闻进行聚类,因此无法满足用户对新闻话题阅读的时效性要求。
发明内容
为解决上述技术问题,本发明实施例提供一种新闻话题组织方法及装置,技术方案如下:
本发明实施例提供一种新闻话题组织方法,该方法包括:
获取距当前时刻TW1时段内所发布的新闻文档,根据文档内容对所获取的新闻文档进行聚类,生成若干类簇;
获取已当前已创建、且在距当前时刻TW2时段内存在更新的新闻话题,判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值;
如果是,则对新生成的类簇内容与相应的新闻话题内容进行合并;
如果否,则针对新生成的类簇创建新的新闻话题;
其中,TW1和TW2均为预设的时间长度,TW1<TW2。
根据本发明的一种具体实施方式,所述对所获取的新闻文档进行聚类,具体实现为:
利用层次聚类算法,对所获取的新闻文档进行聚类。
根据本发明的一种具体实施方式,所述判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值,具体实现为:
利用单遍聚类算法,判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值。
根据本发明的一种具体实施方式,在对新生成的类簇内容与相应的新闻话题内容进行合并之后,还包括:
根据合并结果,计算该新闻话题的新聚类中心,所述聚类中心内容用于生成该新闻话题的子话题。
根据本发明的一种具体实施方式,所述根据合并结果,计算该新闻话题的新聚类中心,具体实现为:
判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第二阈值,如果是,则根据合并结果计算新的聚类中心;其中,所述第二阈值不小于所述第一阈值。
本发明实施例还提供一种新闻话题组织装置,该装置包括:第一聚类单元、第二聚类单元、话题合并单元和话题创建单元;
第一聚类单元,用于获取距当前时刻TW1时段内所发布的新闻文档,根据文档内容对所获取的新闻文档进行聚类,生成若干类簇;
第二聚类单元,用于获取已当前已创建、且在距当前时刻TW2时段内 存在更新的新闻话题,判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值;
如果是,则触发所述话题合并单元对新生成的类簇内容与相应的新闻话题内容进行合并;
如果否,则触发所述话题创建单元针对新生成的类簇创建新的新闻话题;
其中,TW1和TW2均为预设的时间长度,TW1<TW2。
根据本发明的一种具体实施方式,所述第一聚类单元,具体用于:
利用层次聚类算法,对所获取的新闻文档进行聚类。
根据本发明的一种具体实施方式,所述第二聚类单元,具体用于:
利用单遍聚类算法,对新生成的类簇内容与相应的新闻话题内容进行合并。
根据本发明的一种具体实施方式,所述话题合并单元,还用于:
在对新生成的类簇内容与相应的新闻话题内容进行合并之后,根据合并结果,计算该新闻话题的新聚类中心,所述聚类中心内容用于生成该新闻话题的子话题。
根据本发明的一种具体实施方式,所述话题合并单元,具体用于:
判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第二阈值,如果是,则根据合并结果计算新的聚类中心;其中,所述第二阈值不小于所述第一阈值。
本发明实施例提供了一种基于双时间窗和二次聚类的新闻话题组织方法。首先利用第一次聚类,针对最近一段时间内的新闻生成若干类簇,由于新闻流存在边缘效应,即相比其它发布时间间隔较远的消息,发布时间间隔较近的消息更有可能是讨论相关的话题,因此利用第一时间窗TW1限制第一次聚类的范围,可以更有效地生成潜在的新闻话题。进一步利用第二次聚类,判断最新生成的类簇是合并到之前创建的某个话题中,还是需要新创建一个话题,第二次聚类的范围利用第二时间窗TW2来限定,避免与很多已经结束的话题进行比较,不仅可以提高计算效率,而且最终组织出的话题结 果也能够更好地满足用户阅读新闻时的“时效性”需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例新闻话题组织方法的一种流程图;
图2为本发明实施例聚类算法的一种示意图;
图3为本发明实施例新闻话题组织装置的一种结构示意图。
具体实施方式
首先对本发明实施例所提供的一种新闻话题组织方法,该方法包括:
获取距当前时刻TW1时段内所发布的新闻文档,根据文档内容对所获取的新闻文档进行聚类,生成若干类簇;
获取已当前已创建、且在距当前时刻TW2时段内存在更新的新闻话题,判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值;
如果是,则对新生成的类簇内容与相应的新闻话题内容进行合并;
如果否,则针对新生成的类簇创建新的新闻话题。
上述方案提供了一种基于双时间窗和二次聚类的新闻话题组织方法。首先利用第一次聚类,针对最近一段时间内的新闻生成若干类簇,由于新闻流存在边缘效应,即相比其它发布时间间隔较远的消息,发布时间间隔较近的消息更有可能是讨论相关的话题,因此利用第一时间窗TW1限制第一次聚类的范围,可以更有效地生成潜在的新闻话题。进一步利用第二次聚类,判断最新生成的类簇是合并到之前创建的某个话题中,还是需要新创建一个话题,第二次聚类的范围利用第二时间窗TW2来限定,避免与很多已经结束的话题进行比较,不仅可以提高计算效率,而且最终组织出的话题结果也能 够更好地满足用户阅读新闻时的“时效性”需求。
为了使本领域技术人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明保护的范围。
图1所示,为本发明实施例所提供的一种新闻话题组织方法的流程示意图,该方法可以包括以下步骤:
S101,获取距当前时刻TW1时段内所发布的新闻文档,根据文档内容对所获取的新闻文档进行聚类,生成若干类簇;
根据新闻报导的一般特性,描述同一话题的新闻报道会集中在一段时间内发布的,为了对这一段的时间内的信息进行处理,本发明实施例所提供的方案是:在新进来的新闻报道流里加一个时间窗,在这个时间窗内等待或缓冲新闻流。等到这个时间窗到达结尾时,再对这个时间窗内的新闻报道进行局部聚类,形成一些候选的话题簇。每个候选话题簇既可能描述了一个新事件,也可能是某个旧话题中的相关事件。后续可以利用这些新生成的候选话题簇与之前的旧话题比较相似度,进行归并或生成新话题。
这里定义的时间窗(Time Window)是指某个时间段内的长度,可以以天数或小时为单位,本发明实施例共涉及两个时间窗,对于上述出现的第一个时间窗,记为TW1,TW1可以预先根据实际的话题更新需求进行设置,例如设置TW1=1天。
新出现的新闻报导,其涉及内容五花八门,为了实现更好的聚类效果,在本发明的一种优选实施方式中,在时间窗TW1内,可以使用HAC(凝聚式层次聚类)算法对最新的新闻文档进行聚类。这种算法相比基于划分的聚类算法(例如K-means)来说,不需要事先指定簇的数目,而且聚类准确率更高,因此更适用于内容存在较大不确定性的最新报道的处理。
在时间窗TW1内使用HAC算法是一个局部聚类的过程,其输入是TW1时 间窗内的文档集docSet,输出是TW1时间窗内的候选话题簇集合C,基本处理过程描述如下:
如果存在历史DF(文档频率)记录,则首先在内存中加载该记录,该记录的格式是“词条—文档ID列表”,如表1所示:
词条 文档ID
军令 8896,9418,9420,9519,9523
军区 9942,12454,13230,15440,15786
军医 40830,41068,45021,45542
军售 47205,49452,50109
军团 829,1939,1943,2241,2290,2294
......
表1
对TW1内的文档集docSet进行包括分词、去除停用词等预处理操作,生成词频向量;然后使用式(1)所示的增量IDF(逆文档频率)模型来对已有的文档频率进行更新;
其中dft(w)表示词条w在t时刻的文档频率,dft-1(w)表示词条w在时间t-1时刻(即前一次更新的时刻)的文档频率,dfCt(w)表示词条w在t时刻在候选话题簇集合C中(即Ct内包含词条w的文档数)的文档频率。
使用式(2)所示的加权公式对每篇文档Di(Di∈docSet(i=1,2,...,n)的特征项进行加权,n是docSet的文档数;
其中f(d,w)表示词条w在新闻报道d中的频率,Nt是时间t时刻的所有新闻报道的数目,而Zt(d)是一个归一化值,定义为:
将每篇文档Di初始化为一个类簇Ci,即令C1=D1,...,Cn=Dn(Ci∈C),Ci的聚类中心即为Di的带权值特征向量<ti,1:wi,1;ti,2:wi,2;...;ti,m:wi,m>;其中ti,1表示Ci中第一个词条ti,1,wi,1为对应的词条权重。
使用式(4)所示的公式计算两两类簇之间的相似度simt(Ci,Cj),依次插入到最大堆MaxHeap。
其中|diffDayd,q|表示报道d与q相隔的天数,MaxPeriod表示话题最长延续的天数,如果|diffDayd,q|大于MaxPeriod,则令|diffDayd,q|=MaxPeriod,0.01是预设的修正因子。
将MaxHeap堆顶元素的值与预设的阈值θtw1进行比较,根据比较结果输出聚类结果:
如果则计算结束,将最新的DF的信息保存到历史DF记录上,然后把集合C的所有类簇作为结果输出;
如果则把属于Cj的新闻报道元素归并到Ci中,重新计算Ci的聚类中心,以便将与其他成员过于分散的成员从类簇中去除,如图2所示。然后把权值低于某个阈值(比如0.01)的特征去掉,从而实现去除会影响聚类精度的噪声词条,并且降低聚类计算复杂度。把Cj从类簇集合C中移除,接着把与Ci、Cj计算过相似度的元素从MaxHeap移除,重新计算Ci与其他类簇的相似度,再压入MaxHeap中。
对时间窗TW1内的文档集docSet,利用上述算法进行计算后,最终输出为若干类簇:C1,C2,C3......其中每个类簇代表一个候选的话题,对于图2b所示的情况,每个离群点也分别会作为一个类簇输出,实际对应的是一些相关报道很少的冷门话题。
经过对时间窗TW1的新闻流进行局部聚类后形成了一系列的候选话题簇。这样做除了为后面与旧话题归并的过程带来了批处理的方便外,还充分考虑到了新闻流的“边缘效应(Side Effect)”特性,即在新闻流中,相比其它发布时间间隔较远的报道,发布时间间隔较近的报道更有可能是讨论相关的话题,因此利用第一时间窗TW1限制第一次聚类的范围,可以更有效地生成潜在的新闻话题。
S102,获取已当前已创建、且在距当前时刻TW2时段内存在更新的新闻话题,判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值;如果是,执行S103,否则执行S104;
S103,对新生成的类簇内容与相应的新闻话题内容进行合并;
S104,针对新生成的类簇创建新的新闻话题。
任何新闻话题都有其生命周期,如果直接使用在TW1内局部聚类生成候选话题簇与之前所有的旧话题计算相似度,会与很多已经结束的话题作无意义的比较,不仅计算量巨大,而且在计算过程中很多已经结束的话题需要占据着大量内存,严重影响计算性能。为解决该问题,本发明实施例使用了第二个时间窗TW2限制与TW1中生成的候选话题比较的旧话题的数量。TW2可以根据话题的一般生存期限进行设置,例如设置TW2=30天,可见,TW2一般应该明显大于TW1。
在本发明实施例中,对“旧话题”的定义是:当前已经创建的话题。如果某个旧话题在距当前时刻TW2时段内没有发生内容更新,说明该话题已经过于陈旧,不会用来与新的话题进行比较,反之,如果某个旧话题在距当前时刻TW2时段内发生过内容更新,则说明该话题对应的事件仍然处在发展进程中,需要与新的话题比较并且对话题内容进行更新。
将新话题与旧话题归并的过程和在TW1内的局部聚类不同,旧话题虽然有TW2时间窗的限制,但由于TW2事件跨度较大,所积累的话题数量还是非常庞大的。如果采用时间复杂度较高的聚类算法(例如HAC),会对处理性能造成一定影响。
在本发明的一种实施方式中,在时间窗TW2内,可以使用Single-Pass(单遍聚类)算法,对新生成的话题类簇与旧话题进行合并。单遍聚类的算法思想主要是:如果当前没有存在的类簇,则当前要处理的第一篇文档d1作为第一个类簇C1;如果已存在类簇集合C,则把d1与C中所有类簇计算相似度,取最大的相似度simmax,如果simmax大于预先给定的阈值θ,则把d1归并到与其相似度为simmax的类簇中;否则把d1作为新类簇生成;重复以上过程直到将所有需要处理的文档处理完毕。
单遍聚类算法属于非层次聚类,其聚类过程是一个迭代过程,算法效率较高,适合于处理数据规模较大的语料;另一方面,单遍聚类对处理的数据顺序很敏感,数据顺序不同,最后的聚类结果一般都不同,这一特性很适合新闻流对时间顺序的敏感性,能够更好地满足将“新话题”合并到“旧话题”的实际应用需求。
在时间窗TW2内使用单遍聚类算法,输入为TW2内的旧话题oldTopicsInTW2、TW1内的新话题集合新闻报道newTopicsInTW1,输出为更新后的话题集合T。
首先利用TW1内的的聚类结果构成候选话题簇candidateClusters,并对其按各候选话题簇中最新一篇报道的发布时间,按照从新到旧的顺序进行排列:Ccand1,Ccand2,...,Ccandm,其中m是candidateClusters类簇的数目;
先设一变量i(i∈[1,m]),初始化令i=1,对于任意的i值,可能出现以下几种分支情况:
分支a):如果oldTopicsInTW2为空,即n=0(n为oldTopicsInTW2中话题的数目),则把Ccandi作为一个新话题,加入到oldTopicsInTW2中;
分支b):如果oldTopicsInTW2不为空,则把Ccandi与oldTopicsInTW2里的所有话题使用公式(4)依次计算相似度,假设其中相似度的最大的两个类簇分别是Ccandi和Coldj(Coldj∈oldTopicsInTW2(j=1,2,...,n)),其中,相似度值为simt(Ccandi,Coldj);
分支b1):
如果simt(Ccandi,Coldj)大于或等于预先给定的阈值θtw2,则把Ccandi的成员归入Coldj的成员里。
分支b2):
如果simt(Ccandi,Coldj)小于预先给定的阈值θtw2,则把Ccandi当作一个新话题生成,并把Ccandi加入到oldTopicsInTW2;
对于任意的i值,完成上述分支后,令n←n+1,然后重复上述分支判断,直到i=m,即遍历所有的新话题后,算法结束。
可以理解的是,S102-S104都是第二次聚类算法的描述,上述的分支b1对应S103的情况,分支b2则对应S104的情况,分支a中由于不存在旧话题,因此相似度为0,也应视为S104的一种特殊情况。
对于一个较大的事件,随着时间的推移,可能事件关注的重点也会不断变化,例如“美国总统竞选”这一事件,可能会经历拉票→投票→结果宣布等过程,其中,每一个阶段都可以形成整个话题下的一个子话题。为了体现子话题随时间的变化特性,在本发明的一种优选实施方式中,在将新话题内容与旧话题内容合并后,由于该话题的聚类成员发生了变化,因此聚类中心也可能发生相应变化,通过重新计算聚类中心,可以挖据出新的新的子话题。
由于聚类本质上是一种近似计算,难免会在一个类簇中引入一些与主题相关性较小的文档,这种情况下,如果频繁对聚类更新并且更新子话题,可能会造成“话题偏移”现象,因此本发明的一种优选实施方式中,对子话题的更新频率进行控制:仅当新引入话题的内容与原话题的内容“非常相似”的情况下,才对聚类中心进行更新,从而避免话题偏移现象。具体而言,可以设置一个相似度阈值θup,并且设置θtw2<θup,仅当新生成的类簇内容与旧话题的相似度大于θup时,才执行聚类中心更新的计算操作。
假设需要更新的旧话题簇为originCluster,新生成的类簇为addInCluster,则聚类中心的具体更新过程如下所示:
首先设sizeo为originCluster的成员个数、sizea为addInCluster的成员个数;commonTermSet为originCluster和addInCluster公共的特征项,originTermSet为originCluster有而addInCluster没有的特征项,addInTermSet为addInCluster有而originCluster没有的特征项;
对于t∈commonTermSet,wo,t是originCluster中特征项t的权值,wa,t是addInCluster中特征项t的权值,更新为:wo,t←(wo,t·sizeo+wa,t·sizea)/(sizeo+sizea)
对于t∈originTermSet,更新为:wo,t←wo,t·sizeo/(sizeo+sizea);
对于t∈addInTermSet,令:wa,t←wa,t·sizea/(sizeo+sizea),然后把<t:wa,t>插入到originCluster的聚类中心向量中;
最后使用式(3)所示归一化因子对新的originCluster的聚类中心进行归一化。
根据本发明所提供的上述实施例,在第一个时间窗TW1内使用HAC聚类,可以获得很高的聚类准确度,同时还可以带来边缘效应的好处,进一步,在将候选话题簇生成新话题或者归并到旧话题时,采用对TW1内生成的候选话题簇与TW2内的旧话题使用单遍聚类算法,既能提高计算效率,又能够适应新闻流对时间顺序的敏感性需求。
当然,可以理解的是,本发明方案的基本思想在于基于双时间窗对新闻进行二次聚类,而以上具体聚类方法的选择仅是本发明的优选实施方式,并不应该理解为对本发明方案的限定,本领域技术人员可以根据实际需求,对具体聚类算法(例如公式的中涉及的权值、修正因子、判决阈值等等)进行调整,或者选用其他完全不同的聚类算法(比如k-means等),这些并不影响本发明的实现。
下面结合一个实际的例子,对本发明的实施方案做进一步的说明:
比如现在需要要处理最近24小时内新产生的新闻,即TW1=24小时。
首先对TW1时间窗内的新闻进行局部聚类,产生局部的候选话题簇集合C;比如聚类成了“钓鱼岛”、“罗姆尼”等专题。
然后把C与历史新闻专题O进行归并,由于历史新闻专题很多,因此只与在时间窗TW2(例如两个月之内)的历史专题进行相似度计算。假设当前O中 仅存在一个“罗姆尼”专题:
如果C与O相似度小于一个阈值θtw2,则相应创建新的专题,比如钓鱼岛专题。
如果C与O相似度大于一个阈值θtw2,则把C归入O,假设在历史专题O中,已经存在一个“罗姆尼”专题。则会把C中的罗姆尼专题归并到O中的罗姆尼专题中。进一步地,如果相似度大于阈值θup(θtw2<θup),还需要更新聚类中心。聚类中心可以看成是事件特征模板,比如罗姆尼历史专题O的事件特征模板是:<罗姆尼:0.5,美国:0.4,总统:0.3>,C中的罗姆尼专题事件特征模板是:<罗姆尼:0.3,美国:0.2>,则更新后的聚类中心是:<罗姆尼:0.4=(0.5+0.3)/2,美国:0.3=(0.4+0.2)/2,总统:0.15=0.3/2>。
相应于上面的方法实施例,本发明还提供一种新闻话题组织装置,参见图3所示,该装置可以包括:第一聚类单元110、第二聚类单元120、话题合并单元130和话题创建单元140;
第一聚类单元110,用于获取距当前时刻TW1时段内所发布的新闻文档,根据文档内容对所获取的新闻文档进行聚类,生成若干类簇;
其中。第一聚类单元110,具体可以利用层次聚类算法,对所获取的新闻文档进行聚类。
第二聚类单元120,用于获取已当前已创建、且在距当前时刻TW2时段内存在更新的新闻话题,判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的阈值θtw2;如果是,则触发所述话题合并单元130对新生成的类簇内容与相应的新闻话题内容进行合并;如果否,则触发所述话题创建单元140针对新生成的类簇创建新的新闻话题;
其中第二聚类单元120,具体可以利用单遍聚类算法,对新生成的类簇内容与相应的新闻话题内容进行合并。
话题合并单元130在对新生成的类簇内容与相应的新闻话题内容进行合 并之后,还可以根据合并结果,计算该新闻话题的新聚类中心,以便利用聚类中心生成该新闻话题的子话题。
进一步地,话题合并单元还可以对子话题的更新频率进行控制:仅当新引入话题的内容与原话题的内容“非常相似”的情况下,才对聚类中心进行更新,从而避免话题偏移现象。具体而言,可以设置一个相似度阈值θup,并且设置θtw2<θup,仅当新生成的类簇内容与旧话题的相似度大于θup时,才执行聚类中心更新的计算操作。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普 通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种新闻话题组织方法,其特征在于,该方法包括:
获取距当前时刻TW1时段内所发布的新闻文档,根据文档内容对所获取的新闻文档进行聚类,生成若干类簇;
获取当前已创建、且在距当前时刻TW2时段内存在更新的新闻话题,判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值;
如果是,则对新生成的类簇内容与相应的新闻话题内容进行合并;判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第二阈值,如果是,则根据合并结果计算新的聚类中心,所述聚类中心内容用于生成该新闻话题的子话题;其中,所述第二阈值不小于所述第一阈值;
如果否,则针对新生成的类簇创建新的新闻话题;
其中,TW1和TW2均为预设的时间长度,TW1<TW2。
2.根据权利要求1所述的方法,其特征在于,所述对所获取的新闻文档进行聚类,具体实现为:
利用层次聚类算法,对所获取的新闻文档进行聚类。
3.根据权利要求1所述的方法,其特征在于,所述判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值,具体实现为:
利用单遍聚类算法,判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值。
4.一种新闻话题组织装置,其特征在于,该装置包括:第一聚类单元、第二聚类单元、话题合并单元和话题创建单元;
第一聚类单元,用于获取距当前时刻TW1时段内所发布的新闻文档,根据文档内容对所获取的新闻文档进行聚类,生成若干类簇;
第二聚类单元,用于获取当前已创建、且在距当前时刻TW2时段内存在更新的新闻话题,判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值;
如果是,则触发所述话题合并单元对新生成的类簇内容与相应的新闻话题内容进行合并;判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第二阈值,如果是,则根据合并结果计算新的聚类中心,所述聚类中心内容用于生成该新闻话题的子话题;其中,所述第二阈值不小于所述第一阈值;
如果否,则触发所述话题创建单元针对新生成的类簇创建新的新闻话题;
其中,TW1和TW2均为预设的时间长度,TW1<TW2。
5.根据权利要求4所述的装置,其特征在于,所述第一聚类单元,具体用于:
利用层次聚类算法,对所获取的新闻文档进行聚类。
6.根据权利要求4所述的装置,其特征在于,所述第二聚类单元,具体用于:
利用单遍聚类算法,对新生成的类簇内容与相应的新闻话题内容进行合并。
CN201210534034.XA 2012-12-11 2012-12-11 一种新闻话题组织方法及装置 Active CN103870474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210534034.XA CN103870474B (zh) 2012-12-11 2012-12-11 一种新闻话题组织方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210534034.XA CN103870474B (zh) 2012-12-11 2012-12-11 一种新闻话题组织方法及装置

Publications (2)

Publication Number Publication Date
CN103870474A CN103870474A (zh) 2014-06-18
CN103870474B true CN103870474B (zh) 2018-06-08

Family

ID=50909018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210534034.XA Active CN103870474B (zh) 2012-12-11 2012-12-11 一种新闻话题组织方法及装置

Country Status (1)

Country Link
CN (1) CN103870474B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462253B (zh) * 2014-11-20 2018-05-18 武汉数为科技有限公司 一种面向网络文本大数据的话题检测或跟踪方法
CN106294405A (zh) * 2015-05-22 2017-01-04 国家计算机网络与信息安全管理中心 一种微博子话题演化分析方法及装置
CN106484724A (zh) * 2015-08-31 2017-03-08 富士通株式会社 信息处理装置和信息处理方法
CN105224604B (zh) * 2015-09-01 2019-01-29 天津大学 一种基于堆优化的微博突发事件检测方法及其检测装置
CN105320646A (zh) * 2015-11-17 2016-02-10 天津大学 一种基于增量聚类的新闻话题挖掘方法及其装置
CN107133238A (zh) * 2016-02-29 2017-09-05 阿里巴巴集团控股有限公司 一种文本信息聚类方法和文本信息聚类系统
CN106021526B (zh) * 2016-05-25 2019-09-27 东软集团股份有限公司 新闻分类方法及装置
CN106533899B (zh) * 2016-09-30 2019-12-10 宇龙计算机通信科技(深圳)有限公司 一种信息显示处理的方法、装置及系统
CN108197112A (zh) * 2018-01-19 2018-06-22 成都睿码科技有限责任公司 一种从新闻中提取事件的方法
CN110399478A (zh) * 2018-04-19 2019-11-01 清华大学 事件发现方法和装置
CN108763420B (zh) * 2018-05-24 2021-04-20 广州视源电子科技股份有限公司 数据对象的分类方法、装置、终端和计算机可读存储介质
CN109635174A (zh) * 2018-10-29 2019-04-16 珠海市君天电子科技有限公司 新闻信息流管理方法、装置、电子设备及存储介质
CN109376458B (zh) * 2018-11-13 2023-01-20 北京环境特性研究所 随机介质搭建、电磁散射场仿真方法和装置
CN109684474B (zh) * 2018-11-19 2021-01-01 北京百度网讯科技有限公司 用于提供写作话题的方法、装置、设备和存储介质
CN109857859B (zh) * 2018-12-24 2021-03-16 北京百度网讯科技有限公司 新闻信息的处理方法、装置、设备以及存储介质
CN110188092B (zh) * 2019-04-28 2021-08-03 浙江工业大学 一种挖掘人民调解中新型矛盾纠纷的系统及方法
CN110162796B (zh) * 2019-05-31 2023-07-18 创新先进技术有限公司 新闻专题创建方法和装置
JP7068404B2 (ja) * 2019-08-21 2022-05-16 ネイバー コーポレーション 長期間に関連のあるイシュー単位のクラスタを利用した文書タイムラインを提供する方法およびシステム
CN111209390B (zh) * 2020-01-06 2023-09-05 新方正控股发展有限责任公司 新闻展示方法和系统、计算机可读存储介质
CN111324801B (zh) * 2020-02-17 2022-06-21 昆明理工大学 基于热点词的司法领域热点事件发现方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101174273A (zh) * 2007-12-04 2008-05-07 清华大学 基于元数据分析的新闻事件检测方法
CN101853272A (zh) * 2010-04-30 2010-10-06 华北电力大学(保定) 基于相关反馈和聚类的搜索引擎技术
CN102779190A (zh) * 2012-07-03 2012-11-14 北京大学 一种时序海量网络新闻的热点事件快速检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101174273A (zh) * 2007-12-04 2008-05-07 清华大学 基于元数据分析的新闻事件检测方法
CN101853272A (zh) * 2010-04-30 2010-10-06 华北电力大学(保定) 基于相关反馈和聚类的搜索引擎技术
CN102779190A (zh) * 2012-07-03 2012-11-14 北京大学 一种时序海量网络新闻的热点事件快速检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
话题检测与跟踪算法的研究;张美珍;《中国优秀硕士学位论文全文数据库》;20101015(第2010年10期);全文 *
面向互联网新闻的在线话题检测算法;程葳,龙志祎;《计算机工程》;20090920(第2009年18期);正文第1页第1节、第2页2.3节、第3节 *

Also Published As

Publication number Publication date
CN103870474A (zh) 2014-06-18

Similar Documents

Publication Publication Date Title
CN103870474B (zh) 一种新闻话题组织方法及装置
Abualigah et al. Unsupervised feature selection technique based on genetic algorithm for improving the text clustering
CN109948036B (zh) 一种分词词项权重的计算方法和装置
Baingana et al. Tracking switched dynamic network topologies from information cascades
CN109002492B (zh) 一种基于LightGBM的绩点预测方法
CN109800350A (zh) 一种个性化新闻推荐方法及系统、存储介质
CN103123649A (zh) 一种基于微博平台的消息搜索方法及系统
Balakrishnan et al. Algorithms for sparse linear classifiers in the massive data setting
CN111967971B (zh) 银行客户数据处理方法及装置
CN104182388A (zh) 一种基于语义分析的文本聚类系统及方法
KR20190075962A (ko) 데이터 처리 방법과 데이터 처리 장치
CN113239268B (zh) 一种商品推荐方法、装置及系统
CN108228808A (zh) 确定热点事件的方法、装置和存储介质以及电子设备
CN111783873A (zh) 基于增量朴素贝叶斯模型的用户画像方法及装置
CN111931848A (zh) 数据的特征提取方法、装置、计算机设备及存储介质
Han et al. An improved fruit fly algorithm-unscented Kalman filter-echo state network method for time series prediction of the network traffic data with noises
CN113220929B (zh) 一种基于时间驻留与状态驻留混合模型的音乐推荐方法
Chong et al. Projection based method for sparse fuzzy system generation
CN116188120A (zh) 一种有声书的推荐方法、装置、系统及存储介质
Wei et al. Stock trend prediction using financial market news and BERT
CN113641654B (zh) 一种基于实时事件的营销处置规则引擎方法
CN114153965A (zh) 一种结合内容和图谱的舆情事件推荐方法、系统及终端
JP6865706B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
CN112231590A (zh) 内容推荐方法、系统、计算机设备及存储介质
Hasibuan et al. Comparison Fletcher-Reeves and Polak-Ribiere ANN Algorithm for Forecasting Analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant