CN101174273B - 基于元数据分析的新闻事件检测方法 - Google Patents

基于元数据分析的新闻事件检测方法 Download PDF

Info

Publication number
CN101174273B
CN101174273B CN2007101786878A CN200710178687A CN101174273B CN 101174273 B CN101174273 B CN 101174273B CN 2007101786878 A CN2007101786878 A CN 2007101786878A CN 200710178687 A CN200710178687 A CN 200710178687A CN 101174273 B CN101174273 B CN 101174273B
Authority
CN
China
Prior art keywords
news
similarity
documents
clustering cluster
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007101786878A
Other languages
English (en)
Other versions
CN101174273A (zh
Inventor
李涓子
常诚
张阔
李军
张鹏
唐杰
许斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN2007101786878A priority Critical patent/CN101174273B/zh
Publication of CN101174273A publication Critical patent/CN101174273A/zh
Application granted granted Critical
Publication of CN101174273B publication Critical patent/CN101174273B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

基于元数据分析的新闻事件检测方法属于数据挖掘领域。本发明特征在于,它是采用多维向量空间模型来表示新闻文档,在特征表示的权重计算时充分考虑的新闻的时间特性,并给出了改进的新闻特征词的IDF(逆文本频率指数)计算方式,并且在计算新闻之间相似度时综合考虑时间、类别和新闻的具体内容等信息,利用关键字抽取对新闻文档进行预处理,有效地降低了向量的维度。在此基础上,利用层次聚类方法将新闻报道进行聚类,通过对聚类结果树的动态划分,将由新闻报道聚类,并对应为相应的新闻事件。该方法与传统的事件检测方法相比F值(一种用来评估聚类品质好坏的标准)有较大的提高。

Description

基于元数据分析的新闻事件检测方法
技术领域
基于元数据分析的新闻事件检测方法属于数据挖掘领域
背景技术
新闻报道常常被看作人们最重要的信息来源,新闻信息具有数量大、增长快、时效强、关联性高等特性。人们越来越迫切的希望从海量新闻中快速准确地获得更多自己感兴趣的高层次新闻信息,虽然目前各大门户网站及主要的搜索引擎公司都提供了在线新闻阅读服务,Google和百度等网站还支持基本的新闻分类(如国内,国外,政治,体育等)浏览功能,用户可以通过这些服务浏览当日或者过去所发生的新闻。但是,由于新闻报道的更新频繁,及其庞大的数据量,使得用户常常有信息过量的感觉,他们很难快速准确的检索到高质量的新闻信息。除了简单的分类浏览以外,目前仍然没有进一步辅助用户阅读相对粒度更细的新闻事件的工具。
目前,新闻事件检测技术通过利用文本聚类等技术可以将新闻报道按照相关事件有机的进行组织,方便用户浏览和选择使用。新闻事件检测技术的应用主要体现在以海量文本处理为核心的内容管理系统中,利用新闻事件检测技术用户在检索新闻时可以更直观的浏览检索结果的概貌。对于各大新闻通讯社,事件检测技术还可以帮助记者和编辑更为方便的完成新闻报道的采写工作。
目前已知的新闻事件检测技术可以被归类为两种形式:也就是回溯事件检测和在线事件检测(或称为新事件检测)。前者是在历史新闻报道中发现尚未被确认的事件,后者则是实时的从新闻流中识别新事件的开始,即新事件的第一个新闻。这两种事件检测方法都不需要有关(新)事件的任何先验知识,但都需要访问未经标注的历史新闻报道作为分析之用。
现有的事件检测技术检测事件的精度不高,划分事件较宽泛,而且事件所包含的新闻在时间和内容上的内聚性不强,在新闻信息的建模和相似度计算中仍然没有较好的利用时间、地点等元数据信息,而描述某个新闻事件的新闻报道往往与事件所发生的时间和地点等信息强烈相关。基于元数据分析的事件检测方法则试图借助新闻报道中提取的时间、类别信息以及新闻的内容和标题,利用层次聚类的方式改进回溯事件检测的效果,更准确的识别出新闻报道所对应的新闻事件。
发明内容
本发明的目的在于提供一种基于元数据分析的新闻事件检测方法。
本发明的特征在于:采用多维向量空间模型来表示新闻文档,在特征表示的权重计算时充分考虑的新闻的时间特性,修改了新闻特征词的IDF(逆文本频率指数)计算方式,在计算新闻之间相似度时综合考虑时间、类别和新闻的具体内容等信息,并且利用关键字抽取对新闻文档进行预处理,有效地降低了向量的维度。并且在此基础上,利用层次聚类方法将新闻报道进行聚类,通过对聚类结果树的动态划分,使得由新闻报道所构成的聚类簇对应为相应的新闻事件。与现有的新闻事件检测技术相比,基于时间特性相似度计算的聚类方式可以更加有效的划分新闻事件。该方法是在计算机上依次按下列步骤实现的:
(1)预处理
将新闻报道全部输入计算机,首先进行预处理。这里新闻报道的具体表现形式是XML文档,目前世界上主要的新闻机构都采用XML文档来描述新闻稿件。本文中介绍的方法主要是对新闻XML文档进行预处理,进行预处理的过程包括利用XML解析器将新闻的元数据(包括新闻的内容和标题、时间和类别信息)从新闻文档中提取出来,并利用中文分词程序包(中科院计算所的ICTCLAS)对新闻的内容和标题分别进行分词,在计算词频(即词在文档中出现的次数)时,标题中词的词频给以3-5倍的加权。预处理的结果可表示为如下的集合S:
S={(di,ti)},i=1...|S|
其中S中的任一个元组(di,ti)表示集合S中第i个时间(本文中提到的时间皆为新闻文档中提取的时间信息即文档的撰写时间)为ti(形如YYYY/MM/DD hh:mm:ss)的文档。这里di表示第i个新闻文档,具体为由文档特征词构成的多维特征向量{w1,w2,...,wi,...,wn},wi则为每个特征词的权重,其值在预处理中先为词在文档中的词频,计算结束时为后面利用TF-IDF(单文本词汇频率/逆文本频率指数)公式计算的结果。本发明提出的方法同样可以应用于其他新闻数据,只要在新闻数据预处理时根据不同的新闻标准更换文档的解析器即可。
这一步后我们将使用关键词抽取的方式降低所选取的特征词的数量使其更具代表性,关键词抽取方式所抽取候选的关键词是通过评价函数来评价的,分数越高越可能是关键词,这个评价函数是在TF-IDF的基础上增加若干机制来设计,包括有单词的各种特征(长度、位置、词频等)。
(2)结合时间信息计算新闻信息的向量模型:
向量空间模型的基本思想是以向量来表示文本:(w1,w2,...,wi,...wn),其中wi为第i个特征项的权重,其计算方法采用TF-IDF公式,目前存在多种TF-IDF公式,我们采用了一种比较普遍的TF-IDF公式分别对标题和内容计算得到带有词元权重信息的向量空间模型。:
W ( c , d → ) = tf ( c , d → ) × IDF ( c ) Σ c ∈ d → [ tf ( c , d → ) × IDF ( c ) ] 2
其中,W
Figure G2007101786878D00032
为词c在新闻文档中的权重,而tf
Figure G2007101786878D00034
为词c在新闻文档中的词频,IDF(c)是特征词c考虑其倒排文档频率的计算公式,一般来讲特征词的倒排文档频率是指出现特征词的文档个数,分母为归一化因子,在本文的方法中除了考虑倒排文档频率以外我们还结合了时间信息。
这里我们需要对新闻文档按时间顺序进行升序排序,得到新闻序列:
(d1,d2,d3,...,dn-1,dn)
这里我们按照升序排列,即最近发生的新闻其序号n越大。排序后新闻文档所对应的序号表示其撰写时间,对某个特征词c,其IDF的计算方式为:
IDF ( c ) = log 2 ( N 1 + Σ j = 2 dc log 2 ( x j - x j - 1 + 1 ) )
其中,xj表示特征词c出现的文档所对应的发生时间(即排序后新闻文档所对应的序号),dc表示在新闻序列中出现特征词c的文档的个数,N是所有新闻文档的个数。
(3)计算相似度
在计算相似度时,本文提出的方法考虑了多个方面,包括新闻内容、新闻时间和新闻的分类,最后利用加权求和的方式得到最终的新闻相似度计算方式。
对于新闻内容的相似度计算,我们在关键词抽取的基础上采用传统的向量夹角的方式来计算:
Sim Content ( d i , d j ) = Σ k = 1 N W ik × W jk ( Σ k = 1 N W ik 2 ) ( Σ k = 1 N W jk 2 )
其中,di和dj为新闻文档i和j的特征向量,N为特征向量的维数,Wik为新闻文档i所对应的特征向量的第k维,其计算方式采用前面的步骤。其中,di和dj为由文档特征词构成的多维特征向量{w1,w2,...,win}和{w1,w2,...,wjn}
对于新闻分类间的相似度计算,按其在分类树中的距离进行计算。需要说明的是,这里的新闻分类指的新闻数据中的知识属性分类法对应的类别,其类别如表1所示。
表1知识属性分类法
  类别号   类别名
  01   政治、法律
  02   军事
  03   社会
  04   天气、环保、灾害和事故
  05   科学和技术
  06   教育
  07   宏观经济
  类别号   类别名
  08   行业经济
  09   市场信息
  10   文化、艺术及娱乐
  11   医药卫生
  12   体育
  13   其他
  14   突发事件
  15   素材资料
新闻文档,经过预处理可以得到类别信息是由类别号构成的字串,如“1114”,其所代表的类别是医药卫生领域的突发事件,即14是11的子类别。在计算分类的相似度时我们首先将字串切割为两位数字构成的序列,c1,c2,...,cn,ci为类别号,然后,依次从左至右判断类别号是否相等,若相等则将其相似度加上1/2的s次方,其中s指的是两个新闻其类别号中从左至右连续相同的个数,即c1,c2,...,cs-1都相等时cs也相等,当c1不相等时,s为0,类别间的相似度公式如下所示:
Sim Cat ( d i , d j ) = 1 2 + ( 1 2 ) 2 + . . . + ( 1 2 ) s , s ≥ 1 0 , s = 0
对于新闻报道的时间之间相似度,我们考虑采用指数衰减的方式来计算:
Sim Time ( d i , d j ) = e ( - θ | t i - t j | )
其中|ti-tj|是新闻撰写时间所相差的天数,θ根据实验结果设为0.15。
最后新闻间的相似度可由下面的公式得出:
Sim(di,dj)=αSimCat(di,dj)+βSimTime(di,dj)+γSimContent(di,dj)其中α,β,γ是由实验得出的参数,这里我们分别设为6、3和9,参数可以依据不同的数据集做略微的调整,α,β,γ对应的范围分别为[6,6.5]、[2.7,3.5]和[9,9.7]。
(4)聚类
输入:新闻间相似度构成的二维矩阵M[1..N][1…N],N即为所有新闻文档的个数
输出:聚类簇的集合
1.开始时将每一个新闻文档i都定义为一个聚类簇(即由新闻文档聚集而成的集合)
2.令为聚类簇的集合,其中每个聚类簇
Figure G2007101786878D00055
又可以是一颗由聚类簇结点构成的树状结构,从内容上是所有结点中聚类簇内新闻文档的集合
3.判断是否
Figure G2007101786878D00057
中非空的元素个数大于1,若是则继续执行第4到9步,否则退出程序
4.在相似度矩阵找到相似度最大(这里设为M)的一对聚类
Figure G2007101786878D00058
Figure G2007101786878D00059
5.建立一个新的子树
Figure G2007101786878D000510
用以表示聚类簇l,并将聚类簇
Figure G2007101786878D000511
Figure G2007101786878D000512
作为其孩子结点
6.对于所有的m(m≠i,j),m为新闻文档的编号,利用以下方式计算新得到的聚类簇l与其它聚类簇的相似度
Figure G2007101786878D000513
其中
Figure G2007101786878D000515
是合并成聚类簇l的孩子结点
7.从集合
Figure G2007101786878D000516
中删除聚类簇
Figure G2007101786878D000517
8.将
Figure G2007101786878D00061
赋值给
Figure G2007101786878D00062
9.当M小于阈值σ时,计算终止,跳出循环
在操作相似度矩阵时为了避免重复计算,我们使用了QuadTree(四叉树)算法对步骤6进行了优化,极大地提高了层次聚类的速度。
另外通过大量的实验表明,阈值σ设为0.11可以有效的将结果控制在10-15类,且对比实验的结果最好。
实验证明:实验结果表明本方法要好于传统的事件检测方法。
附图说明
图1方法流程框图
图2新闻检索系统的流程框图
具体实施方式
见图1。取若干新闻文档,步骤如下:
(1)进行预处理
对每篇新闻文档利用XML解析器(常用的如DOM4j)将新闻内容、标题、撰写时间、作者和类别信息提取出来,利用中文分词程序包ICTCLAS对新闻的内容和标题分别进行分词,同时计算词频,在计算词频时,标题中词的词频给以5倍的加权。将标题中的特征词与新闻内容的特征词合并,并利用关键词抽取技术将每篇文档的特征词限制在50个以内。
(2)计算向量模型
根据新闻的时间先后顺序对新闻进行升序排列,并标以相应的序号,按照本文修改过的IDF计算公式计算特征词的IDF。随后,与(1)中计算得到的词频计算出,每篇新闻文档中各特征词的权重。
(3)计算相似度
在新闻集合中,就新闻的特征词计算得到的向量、时间和类别按照前述的公式计算两两之间的相似度。
(4)聚类
利用聚类算法将新闻集合中相似度相近的新闻文档合并在一起,聚类算法中的阈值设为0.11,最终得到12类新闻。
为了评测我们发明的基于元数据分析的事件检测方法,我们设计了如下的实验:
实验条件:P4的PC,2G内存,JAVA语言实现程序
实验数据:基于新华社的新闻库中我们选取了2005年4月至2006年1月的27072篇新闻文档,并利用XML解析器从中抽取元数据信息在我们实现的新闻智能检索系统上进行实验,选取几组查询词的检索结果作为实验数据,对实验数据进行人工标注,按新闻事件进行分类,将基于元数据分析的事件检测方法与仅使用内容和标题的特征词向量进行聚类的事件检测算法在实验数据上得到的结果与人工标注的结果进行比较。在实验过程中,我们使用中科院计算所的中文分词程序包ICTCLAS对中文进行分词。
实验结果:我们采用应用广泛的F-measure算法来评价事件检测的结果:在已知文档分类的前提下,先计算查全率和查准率:
recall ( i , j ) = n ij e i
precision ( i , j ) = n ij n j
其中,nij为在聚类簇j中包含事件i的文档个数,nj为聚类簇j的文档个数,ei为事件i的文档数目。
聚类簇j和事件i的F-measure由下面的公式给出:
F ( i , j ) = 2 * recall ( i , j ) * precision ( i , j ) recall ( i , j ) + precision ( i , j )
最后,总的F-measure值为
F = Σ i n i n max { F ( i , j ) }
表2一组对比实验结果
Figure G2007101786878D00075
各符号的定义如下:
ei为事件i的文档总数;
nj为聚类簇j的文档总数;
max(nij)为事件i达到最大F-measure值时聚类簇j中包含事件i的文档个数;
max(F(i,j))为事件i和不同聚类簇j的F-measure值中最大的值;
表2是一组对比实验结果,从结果中可以看到,使用关键词抽取和层次聚类后对于聚类效果起了明显的增强作用。通过分析结果中各聚类簇的新闻文档,可以将这个增强作用总结成以下几点:
(1)关键词抽取使得描述新闻的向量空间维度更小,特征词更具代表性,过滤了许多与新闻关系不密切的词。
(2)充分利用了各个新闻要素进行相似度计算使得结果更为精确。
(3)利用层次聚类方法来控制结果粒度。
本项技术采用多维向量空间模型来表示新闻文档,在特征表示的权重计算时充分考虑的新闻的时间特性,修改了新闻特征词的IDF计算方式,在计算新闻之间相似度时综合考虑时间、类别和新闻的具体内容等新闻元数据信息。在新闻检索时利用该技术可以改进用户检索新闻时的用户体验,使得新闻事件与时间等元数据的关系更为紧密,便于用户从海量的新闻报道中筛选出自己感兴趣的新闻事件,从而增强对新闻资源的利用效率。

Claims (5)

1.一种基于元数据分析的新闻事件检测方法,其特征在于,包括步骤:
(1)预处理:
将新闻报道全部输入计算机,进行预处理,预处理的结果可表示为如下的集合S:
S={(di,ti)},i=1...|S|;
其中S中的任一个元组(di,ti)表示集合S中第i个时间为ti的文档;这里di表示第i个新闻文档,具体为由文档特征词构成的多维特征向量{w1,w2,...,wq,...,wn},wq则为每个特征词的权重,其值在预处理中先为词在文档中的词频,计算结束时为步骤(2)中利用TF-IDF单文本词汇频率/逆文本频率指数公式计算的结果;
使用关键词抽取的方式降低所选取的特征词的数量使其更具代表性;
(2)结合时间信息计算新闻信息的向量模型:
向量空间模型的基本思想是以向量来表示文本:(w1,w2,...,wi,...wn),其中wi为第i个特征词的权重,其计算方法采用TF-IDF公式,需要对新闻文档按时间顺序进行升序排序,得到新闻序列:
(d1,d2,d3,...,dn-1,dn);
按照升序排列,即最近发生的新闻其序号n越大;排序后新闻文档所对应的序号表示其撰写时间,对某个特征词c,其IDF的计算方式为:
IDF ( c ) = log 2 ( N 1 + Σ j = 2 dc log 2 ( x j - x j - 1 + 1 ) ) ;
其中,xj表示特征词c出现的文档所对应的发生时间,即排序后新闻文档所对应的序号,dc表示在新闻序列中出现特征词c的文档的个数,N是所有新闻文档的个数;
(3)计算相似度:
在计算相似度时,包括新闻内容、新闻时间和新闻的分类,最后利用加权求和的方式得到最终的新闻相似度计算方式;
新闻间的相似度可由下面的公式得出:
Sim(di,dj)=αSimCat(di,dj)+βSimTime(di,dj)+γSimContent(di,dj)
其中新闻内容的相似度为
SimContent(di,dj)
新闻报道的时间之间相似度为
SimTime(di,dj);
新闻分类间的相似度为
SimCat(di,dj)
α,β,γ是由实验得出的参数,α,β,γ对应的范围分别为[6,6.5]、[2.7,3.5]和[9,9.7];
(4)聚类:
输入:新闻间相似度构成的二维矩阵M[1..N][1…N],N即为所有新闻文档的个数;
输出:聚类簇的集合。
2.根据权利要求1所述的基于元数据分析的新闻事件检测方法,其特征在于,所述的步骤(1)中的预处理为利用解析器将新闻的元数据从新闻文档中提取出来,并利用中文分词程序包对新闻的内容和标题分别进行分词,在计算词频时,标题中词的词频给以3-5倍的加权。
3.根据权利要求1所述的基于元数据分析的新闻事件检测方法,其特征在于,所述的步骤(1)中的关键词抽取方式所抽取候选的关键词是通过评价函数来评价的,分数越高越可能是关键词。
4.根据权利要求1所述的基于元数据分析的新闻事件检测方法,其特征在于,所述的步骤(4)聚类包括以下步骤:
1).开始时将每一个新闻文档i都定义为一个聚类簇
Figure F2007101786878C00021
2).令
Figure F2007101786878C00022
为聚类簇的集合,其中每个聚类簇
Figure F2007101786878C00023
又可以是一颗由聚类簇结点构成的树状结构,
Figure F2007101786878C00024
从内容上是所有结点中聚类簇内新闻文档的集合;
3).判断是否
Figure F2007101786878C00025
中非空的元素个数大于1,若是则继续执行第4)到9)步,否则退出程序;
4).在相似度矩阵找到相似度最大,这里设为S,的一对聚类
Figure F2007101786878C00026
Figure F2007101786878C00027
5).建立一个新的子树
Figure F2007101786878C00028
用以表示聚类簇l,并将聚类簇
Figure F2007101786878C00029
Figure F2007101786878C000210
作为其孩子结点;
6).对于所有的m,m≠i,j,m为新闻文档的编号,利用以下方式计算新得到的聚类簇l与其它聚类簇的相似度
Figure F2007101786878C00031
其中
Figure F2007101786878C00032
是合并成聚类簇l的孩子结点;
7).从集合
Figure F2007101786878C00034
中删除聚类簇
Figure F2007101786878C00035
Figure F2007101786878C00036
8).将
Figure F2007101786878C00037
赋值给
Figure F2007101786878C00038
9).当S小于阈值σ时,计算终止,跳出循环,阈值σ设为0.11。
5.根据权利要求4所述的基于元数据分析的新闻事件检测方法,其特征在于,使用四叉树算法对步骤6)进行优化。
CN2007101786878A 2007-12-04 2007-12-04 基于元数据分析的新闻事件检测方法 Expired - Fee Related CN101174273B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007101786878A CN101174273B (zh) 2007-12-04 2007-12-04 基于元数据分析的新闻事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101786878A CN101174273B (zh) 2007-12-04 2007-12-04 基于元数据分析的新闻事件检测方法

Publications (2)

Publication Number Publication Date
CN101174273A CN101174273A (zh) 2008-05-07
CN101174273B true CN101174273B (zh) 2010-06-23

Family

ID=39422788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101786878A Expired - Fee Related CN101174273B (zh) 2007-12-04 2007-12-04 基于元数据分析的新闻事件检测方法

Country Status (1)

Country Link
CN (1) CN101174273B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014153317A1 (en) * 2013-03-18 2014-09-25 Zuse, Inc. Trend analysis using network-connected touch-screen generated signals
CN104144181A (zh) * 2013-05-08 2014-11-12 中国科学院声学研究所 一种网络视频终端聚合方法及系统

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937436B (zh) * 2009-06-29 2013-09-25 华为技术有限公司 一种文本分类方法及装置
CN101833582A (zh) * 2010-05-04 2010-09-15 吴毓杰 基于模板的词汇实体关联性挖掘方法与系统
CN102298576B (zh) * 2010-06-25 2014-07-02 株式会社理光 文档关键词生成方法和装置
US8990047B2 (en) * 2011-03-21 2015-03-24 Becton, Dickinson And Company Neighborhood thresholding in mixed model density gating
CN102750299B (zh) * 2011-11-30 2018-03-16 新奥特(北京)视频技术有限公司 一种网上信息汇聚的方法
US8914371B2 (en) * 2011-12-13 2014-12-16 International Business Machines Corporation Event mining in social networks
CN103164427B (zh) * 2011-12-13 2016-03-02 中国移动通信集团公司 新闻聚合方法及装置
CN103377245B (zh) * 2012-04-27 2018-09-11 深圳市世纪光速信息技术有限公司 一种自动问答方法及装置
CN102693279B (zh) * 2012-04-28 2014-09-03 合一网络技术(北京)有限公司 一种快速计算评论相似度的方法、装置及系统
WO2013179346A1 (ja) * 2012-05-31 2013-12-05 株式会社 東芝 知見抽出装置、知見更新装置、及びプログラム
CN102779190B (zh) * 2012-07-03 2014-12-03 北京大学 一种时序海量网络新闻的热点事件快速检测方法
CN102929928B (zh) * 2012-09-21 2015-04-22 北京格致璞科技有限公司 基于多维相似度的个性化新闻推荐方法
CN103020159A (zh) * 2012-11-26 2013-04-03 百度在线网络技术(北京)有限公司 一种面向事件的新闻展现方法和装置
CN102982163B (zh) * 2012-11-29 2015-06-03 淮海工学院 一种基于事件分析的Web新闻检索方法
CN103870474B (zh) * 2012-12-11 2018-06-08 北京百度网讯科技有限公司 一种新闻话题组织方法及装置
CN104346411B (zh) * 2013-08-09 2018-11-06 北大方正集团有限公司 对多个稿件进行聚类的方法和设备
CN104424281A (zh) * 2013-08-30 2015-03-18 宏碁股份有限公司 事件整合方法及系统
CN103577593B (zh) * 2013-11-14 2017-07-07 中国科学院声学研究所 一种基于微博热门话题的视频聚合方法及系统
CN103823792B (zh) * 2014-03-07 2017-01-11 网易(杭州)网络有限公司 从文本文档中检测热点事件的方法和设备
CN105095228A (zh) * 2014-04-28 2015-11-25 华为技术有限公司 一种社交消息的监测方法及装置
CN104573054B (zh) * 2015-01-21 2018-06-01 杭州朗和科技有限公司 一种信息推送方法和设备
CN106294356A (zh) * 2015-05-14 2017-01-04 北京大学 基于动态聚类的微博时间线生成方法及装置
CN105354186A (zh) * 2015-11-05 2016-02-24 同济大学 一种新闻事件抽取方法及系统
CN105512277B (zh) * 2015-12-04 2019-09-20 北京航空航天大学 一种面向图书市场书名的短文本聚类方法
CN105574165B (zh) * 2015-12-17 2019-11-26 国家电网公司 一种基于聚类的电网运行监控信息辨识分类方法
CN107016556B (zh) * 2016-01-27 2021-02-05 创新先进技术有限公司 数据处理方法及装置
CN105760526B (zh) * 2016-03-01 2019-05-07 网易(杭州)网络有限公司 一种新闻分类的方法和装置
CN105808726A (zh) * 2016-03-08 2016-07-27 浪潮软件股份有限公司 一种度量文档的相似度的方法及装置
CN105843863A (zh) * 2016-03-16 2016-08-10 广州索答信息科技有限公司 互联网新闻的去重方法和装置
CN106354799B (zh) * 2016-08-26 2020-01-14 河海大学 基于数据质量的主题数据集多层分面过滤方法与系统
CN106209605B (zh) * 2016-08-30 2019-12-06 西安航空学院 一种网络信息中附件的处理方法和设备
CN106372051B8 (zh) * 2016-10-20 2019-06-18 长城计算机软件与系统有限公司 一种专利地图的可视化方法和系统
CN106777053A (zh) * 2016-12-09 2017-05-31 国网北京市电力公司 媒体内容的分类方法和装置
CN107180075A (zh) * 2017-04-17 2017-09-19 浙江工商大学 文本分类集成层次聚类分析的标签自动生成方法
CN107203509B (zh) * 2017-04-20 2023-06-20 北京拓尔思信息技术股份有限公司 标题生成方法和装置
CN107679069A (zh) * 2017-08-18 2018-02-09 国家计算机网络与信息安全管理中心 基于新闻数据及相关评论信息的一种特定群体发现方法
CN107633068B (zh) * 2017-09-22 2020-04-07 深圳大学 滑动窗口下基于位置top-k关键词查询的快速索引方法及系统
CN108229910B (zh) * 2017-12-14 2022-01-11 四川虹信软件股份有限公司 一种居民上报事件的分类处理方法
CN108446296B (zh) * 2018-01-24 2021-10-15 北京奇艺世纪科技有限公司 一种信息处理方法及装置
CN110399478A (zh) * 2018-04-19 2019-11-01 清华大学 事件发现方法和装置
CN110750963B (zh) * 2018-07-02 2023-09-26 北京四维图新科技股份有限公司 一种新闻文档去重的方法、装置及存储介质
CN110889279A (zh) * 2018-08-15 2020-03-17 珠海金山办公软件有限公司 一种显示展示信息的方法及装置
CN109947935A (zh) * 2018-08-17 2019-06-28 麒麟合盛网络技术股份有限公司 新闻事件的生成方法及装置
CN109299266B (zh) * 2018-10-16 2019-11-12 中国搜索信息科技股份有限公司 一种用于中文新闻突发事件的文本分类与抽取方法
CN109635687B (zh) * 2018-11-30 2022-07-01 南京师范大学 基于时序点集计算的汉字文本行书写质量自动评价方法和系统
CN111415176B (zh) * 2018-12-19 2023-06-30 杭州海康威视数字技术股份有限公司 一种满意度评价方法、装置及电子设备
CN110232149B (zh) * 2019-05-09 2022-03-01 北京邮电大学 一种热点事件检测方法和系统
CN111143647B (zh) * 2019-11-28 2023-11-17 泰康保险集团股份有限公司 信息处理方法及装置、电子设备、存储介质
CN111125520B (zh) * 2019-12-11 2023-04-21 东南大学 一种面向新闻文本的基于深度聚类模型的事件线抽取方法
US11436287B2 (en) 2020-12-07 2022-09-06 International Business Machines Corporation Computerized grouping of news articles by activity and associated phase of focus
CN113204621A (zh) * 2021-05-12 2021-08-03 北京百度网讯科技有限公司 文档入库、文档检索方法,装置,设备以及存储介质
CN113468333B (zh) * 2021-09-02 2021-11-19 华东交通大学 一种融合层次类别信息的事件检测方法与系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5649193A (en) * 1993-03-12 1997-07-15 Kabushiki Kaisha Toshiba Document detection system using detection result presentation for facilitating user's comprehension
CN1389785A (zh) * 2001-05-31 2003-01-08 松下电器产业株式会社 用于内容分配的装置,方法,和程序
CN1781309A (zh) * 2003-04-28 2006-05-31 皇家飞利浦电子股份有限公司 用于自动搜索可通过网络访问的信息源以得到满足预定标准的内容的方法和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5649193A (en) * 1993-03-12 1997-07-15 Kabushiki Kaisha Toshiba Document detection system using detection result presentation for facilitating user's comprehension
CN1389785A (zh) * 2001-05-31 2003-01-08 松下电器产业株式会社 用于内容分配的装置,方法,和程序
CN1781309A (zh) * 2003-04-28 2006-05-31 皇家飞利浦电子股份有限公司 用于自动搜索可通过网络访问的信息源以得到满足预定标准的内容的方法和设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014153317A1 (en) * 2013-03-18 2014-09-25 Zuse, Inc. Trend analysis using network-connected touch-screen generated signals
CN104144181A (zh) * 2013-05-08 2014-11-12 中国科学院声学研究所 一种网络视频终端聚合方法及系统
CN104144181B (zh) * 2013-05-08 2017-12-29 中国科学院声学研究所 一种网络视频终端聚合方法及系统

Also Published As

Publication number Publication date
CN101174273A (zh) 2008-05-07

Similar Documents

Publication Publication Date Title
CN101174273B (zh) 基于元数据分析的新闻事件检测方法
CN101320375B (zh) 基于用户点击行为的数字图书搜索方法
Wang et al. Local probabilistic models for link prediction
CN101853272B (zh) 基于相关反馈和聚类的搜索引擎技术
CN103605658B (zh) 一种基于文本情感分析的搜索引擎系统
CN103559191B (zh) 基于隐空间学习和双向排序学习的跨媒体排序方法
CN105005590B (zh) 一种信息媒介的专题阶段性摘要的生成方法
CN103914478A (zh) 网页训练方法及系统、网页预测方法及系统
CN103246644B (zh) 一种网络舆情信息处理方法和装置
CN103020159A (zh) 一种面向事件的新闻展现方法和装置
CN104317834A (zh) 一种基于深度神经网络的跨媒体排序方法
CN102567494B (zh) 网站分类方法及装置
CN104008109A (zh) 基于用户兴趣的Web信息推送服务系统
CN104484343A (zh) 一种对微博进行主题发现与追踪的方法
CN104484431A (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
CN104484380A (zh) 个性化搜索方法及装置
CN103123653A (zh) 基于贝叶斯分类学习的搜索引擎检索排序方法
CN105426529A (zh) 基于用户搜索意图定位的图像检索方法及系统
CN103838798A (zh) 页面分类系统及页面分类方法
CN105512333A (zh) 基于情感倾向的产品评论主题搜索方法
CN106126605A (zh) 一种基于用户画像的短文本分类方法
CN103778206A (zh) 一种网络服务资源的提供方法
CN104572733A (zh) 用户兴趣标签分类的方法及装置
Wang et al. Improving short text classification through better feature space selection
CN103177126B (zh) 用于搜索引擎的色情用户查询识别方法及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100623

Termination date: 20101204