CN103020159A - 一种面向事件的新闻展现方法和装置 - Google Patents
一种面向事件的新闻展现方法和装置 Download PDFInfo
- Publication number
- CN103020159A CN103020159A CN201210487000XA CN201210487000A CN103020159A CN 103020159 A CN103020159 A CN 103020159A CN 201210487000X A CN201210487000X A CN 201210487000XA CN 201210487000 A CN201210487000 A CN 201210487000A CN 103020159 A CN103020159 A CN 103020159A
- Authority
- CN
- China
- Prior art keywords
- news
- media event
- polymerization
- event
- incidence relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种面向事件的新闻展现方法和装置,其中方法包括:从新闻源获取新闻数据;对获取到的新闻数据基于内容进行聚类,得到各新闻簇对应的新闻事件;判断新得到的新闻事件与已经存在的新闻事件在内容和时间上的聚合状况,确定在内容和时间上的聚合状况均满足聚合要求的新闻事件属于同一新闻事件,对属于同一新闻事件的新闻事件进行合并展现;确定在内容上的聚合状况满足聚合要求但时间上的聚合状况不满足聚合要求的新闻事件存在关联关系,在展现存在关联关系的新闻事件的同时展现新闻事件之间的关联关系。通过本发明能够在降低人工编辑成本的同时,体现新闻事件之间的关联关系。
Description
【技术领域】
本发明涉及计算机应用技术领域,特别涉及一种面向事件的新闻展现方法和装置。
【背景技术】
随着互联网技术的迅速发展和普及,越来越多的用户通过网络获取最新的咨询信息,新闻频道就是其中网站提供的一种供用户浏览和订阅新闻的比较方便的方式,通过新闻频道用户希望全面地了解新闻所报导的事件,甚至订阅该事件的后续事件报导。
现有新闻频道提供的新闻展现方式主要包括以下两种:
第一种方式:以网易、新浪为代表的传统门户网站,其普通新闻大多以人工编辑为主,以关键字关联相关新闻引导读者阅读,并供读者进行订阅。另外,其重大新闻事件会以人工专题的形式为用户提供事件的全景展现。
第二种方式:以谷歌新闻、百度新闻为代表的搜索引擎提供商,其使用搜索和新闻聚类技术搜集和整理互联网新闻,以主题展现相关新闻,并提供基于关键字的订阅服务。
虽然第一种方式中重大新闻事件以专题形式展现有很好的用户体验,但是人工编辑成本较高。
第二种方式虽然采用新闻聚类技术自动实现了新闻的搜集和整理,并自动提炼出主题,降低了人工编辑成本,但其采用的新闻聚合方式并没有体现新闻事件之间的关联关系,例如新闻事件的上下文、前因后果等信息。
【发明内容】
有鉴于此,本发明提供了一种面向事件的新闻展现方法和装置,以便于降低人工编辑成本的同时,体现新闻事件之间的关联关系。
具体技术方案如下:
一种面向事件的新闻展现方法,该方法包括:
S1、从新闻源获取新闻数据;
S2、对获取到的新闻数据基于内容进行聚类,得到各新闻簇对应的新闻事件;
S3、判断步骤S2得到的新闻事件与已经存在的新闻事件在内容和时间上的聚合状况,确定在内容和时间上的聚合状况均满足聚合要求的新闻事件属于同一新闻事件,对属于同一新闻事件的新闻事件进行合并展现;确定在内容上的聚合状况满足聚合要求但时间上的聚合状况不满足聚合要求的新闻事件存在关联关系,在展现存在关联关系的新闻事件的同时展现新闻事件之间的关联关系。
根据本发明一优选实施例,在所述步骤S3中还包括:确定在内容上和时间上均不满足聚合要求的新闻事件分别为独立的新闻事件,在展现时分别展现独立的新闻事件。
根据本发明一优选实施例,步骤S2中所述对获取到的新闻数据基于内容进行聚类具体包括:
从获取的新闻数据中各篇新闻的新闻摘要中提取关键词构成各篇新闻的特征向量;
将所述各篇新闻的特征向量组成一个特征向量矩阵后,采用奇异值分解算法对特征向量矩阵进行分解,得到各篇新闻的主题分类,将属于同一主题的新闻构成新闻簇。
根据本发明一优选实施例,所述得到各篇新闻的主题分类具体包括:
依据奇异值分解结果中的左奇异矩阵得到各篇新闻与各主题类之间的相关度,确定各篇新闻属于与其相关度最高的主题,将属于同一主题的新闻聚合成新闻簇。
根据本发明一优选实施例,所述新闻簇对应的新闻事件包括:新闻簇中各篇新闻的特征向量合并后得到的特征向量以及新闻簇中各新闻发生时间构成的时间戳。
根据本发明一优选实施例,在判断步骤S2得到的新闻事件与已经存在的新闻事件在内容上的聚合状况时,计算所述步骤S2得到的新闻事件对应的特征向量与已经存在的新闻事件对应的特征向量之间的相似度,确定相似度达到预设相似度阈值的新闻事件在内容上的聚合程度满足预设的聚合要求。
根据本发明一优选实施例,在判断步骤S2得到的新闻事件与已经存在的新闻事件在时间上的聚合状况时,采用k-means算法对所述步骤S2得到的新闻事件所对应的时间戳中心点与已经存在的新闻事件所对应的时间戳中心点进行k-means计算,得到k个聚类结果,k为正整数,确定属于同一聚类的新闻事件在时间上的聚合状况满足预设聚合要求。
根据本发明一优选实施例,在对新闻事件进行合并时,包括对特征向量的合并和对时间戳的合并。
根据本发明一优选实施例,所述关联关系的建立为:将数据库中存在关联关系的新闻事件的索引采用链表的方式建立关联关系;
所述关联关系的展现包括:采用文字、标识或特殊的排版方式体现新闻事件之间存在关联关系。
根据本发明一优选实施例,该方法还包括:
如果用户订阅的新闻事件发生合并,则将该新闻事件对应的新得到的新闻推送给用户;
如果出现与用户所订阅新闻事件存在关联关系的新的新闻事件,则将该新的新闻事件对应的新闻推送给用户。
一种面向事件的新闻展现装置,该装置包括:
新闻获取单元,用于从新闻源获取新闻数据;
新闻聚类单元,用于对获取到的新闻数据基于内容进行聚类,得到各新闻簇对应的新闻事件;
关系判定单元,用于判断所述新闻聚类单元得到的新闻事件与已经存在的新闻事件在内容和时间上的聚合状况,确定在内容和时间上的聚合状况均满足聚合要求的新闻事件属于同一新闻事件,确定在内容上的聚合状况满足聚合要求但时间上的聚合状况不满足聚合要求的新闻事件存在关联关系;
新闻展现单元,用于对属于同一新闻事件的新闻事件进行合并展现,在展现存在关联关系的新闻事件的同时展现新闻事件之间的关联关系。
根据本发明一优选实施例,所述关系判定单元,还用于确定在内容上和时间上均不满足聚合要求的新闻事件分别为独立的新闻事件;
所述新闻展现单元,还用于分别展现独立的新闻事件。
根据本发明一优选实施例,所述新闻聚类单元在对获取到的新闻数据基于内容进行聚类时,具体执行:
从获取的新闻数据中各篇新闻的新闻摘要中提取关键词构成各篇新闻的特征向量;
将所述各篇新闻的特征向量组成一个特征向量矩阵后,采用奇异值分解算法对特征向量矩阵进行分解,得到各篇新闻的主题分类,将属于同一主题的新闻构成新闻簇。
根据本发明一优选实施例,所述新闻聚类单元具体采用如下方式得到各篇新闻的主题分类:
依据奇异值分解结果中的左奇异矩阵得到各篇新闻与各主题类之间的相关度,确定各篇新闻属于与其相关度最高的主题,将属于同一主题的新闻聚合成新闻簇。
根据本发明一优选实施例,所述新闻簇对应的新闻事件包括:新闻簇中各篇新闻的特征向量合并后得到的特征向量以及新闻簇中各新闻发生时间构成的时间戳。
根据本发明一优选实施例,所述关系判定单元计算所述新闻聚类单元得到的新闻事件对应的特征向量与已经存在的新闻事件对应的特征向量之间的相似度,确定相似度达到预设相似度阈值的新闻事件在内容上的聚合程度满足预设的聚合要求。
根据本发明一优选实施例,所述关系判定单元采用k-means算法对所述新闻聚类单元得到的新闻事件所对应的时间戳中心点与已经存在的新闻事件所对应的时间戳中心点进行k-means计算,得到k个聚类结果,k为正整数,确定属于同一聚类的新闻事件在时间上的聚合状况满足预设聚合要求。
根据本发明一优选实施例,该装置还包括:事件合并单元,用于对属于同一新闻事件的新闻事件进行合并,包括对特征向量的合并和对时间戳的合并。
根据本发明一优选实施例,该装置还包括:关系建立单元,用于将数据库中存在关联关系的新闻事件的索引采用链表的方式建立关联关系;
所述新闻展现单元采用文字、标识或特殊的排版方式体现新闻事件之间存在关联关系。
根据本发明一优选实施例,该装置还包括:订阅推送单元,用于如果用户订阅的新闻事件发生合并,则将该新闻事件对应的新得到的新闻推送给用户;如果出现与用户所订阅新闻事件存在关联关系的新的新闻事件,则将该新的新闻事件对应的新闻推送给用户。
由以上技术方案可以看出,本发明对从新闻源获取的新闻数据进行基于内容的聚类后,得到各新闻簇对应的新闻事件,再依据新得到的新闻事件与已有的新闻事件在内容和时间上的聚合状况来判定是同一新闻事件还是存在关联关系的新闻事件。也就是说,提供了一种自动的新闻展现方法,降低了人工编辑的成本,且能够自动辨别且体现新闻事件之间的关联关系。
【附图说明】
图1为本发明实施例一提供的面向事件的新闻展现方法流程图;
图2为本发明实施例二提供的面向事件的新闻展现装置结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
实施例一、
图1为本发明实施例一提供的面向事件的新闻展现方法流程图,如图1所示,该方法包括以下步骤:
步骤101:从新闻源获取新闻数据。
在本步骤中可以使用新闻平台提供的接口,以一定的时间间隔获取新闻数据,这里的新闻平台可以是任意网站的新闻频道,也可以是搜索引擎新搜集的新闻数据。
步骤102:对获取到的新闻数据基于内容进行聚类,得到各新闻簇对应的新闻事件。
在本步骤采用的基于内容的聚类可以采用新闻-关键词矩阵的奇异值分解方法,具体的聚类过程可以包括:
首先对获取的新闻数据中的新闻摘要进行分词和去除停用词后,依据各词语的TF-IDF提取出关键词构成各篇新闻的特征向量,即提取出TF-IDF满足预设要求的关键词。这是一种优选的实施方式,当然也可以依据TF或者IDF提取关键词构成各篇新闻的特征向量。
然后将各篇新闻的特征向量组成一个特征向量矩阵后,采用奇异值分解算法对特征向量矩阵进行分解,得到新闻的主题分类和新闻中关键词的语义分类。在本发明实施例中在此仅利用新闻的主题分类。下面对采用奇异值分解算法对特征向量矩阵进行分解的过程进行简单描述:
假设获取的新闻数据中包含M篇新闻,每一篇新闻的特征向量长度为N,组成的特征向量矩阵AMN,对AMN进行奇异值分解使得AMN=XMM×BMN×YNN,由于分解后BMN矩阵为稀疏矩阵,可以进行相应的省略,最终得到XMO、BOO和YON三个矩阵,即AMN=XMO×BOO×YON,其中O会远远小于N,代表词的语义类数量和新闻的主题类数量。左奇异向量XMO的每一行代表一篇新闻,每一列代表一个主题相近的类,每个非零元素值越大代表这篇新闻和该类主题的相关度越大;右奇异向量YON的每一列代表一个词,每一行代表一个语义相近的类,每个非零元素值越大代表这个词和语义类的相关度越大;BOO代表词的语义类和文章的主题之间的相关度。举个例子来解释XMO矩阵:
XMO中有两个主题类,三篇新闻,其中:新闻1和主题1的相关度只有0.12,而和主题2相关度高达0.95,可见新闻1属于主题1。新闻2和主题1相关度为0.8,和主题2无关,因此新闻2属于主题1。新闻3和主题1和主题2相关度都很低,但是相对来说更接近主题1。
也就是说,依据奇异值分解结果中的左奇异矩阵可以得到各篇新闻与各主题类之间的相关度,依据相关度确定各篇新闻属于与其相关度最高的主题,然后将属于同一主题的新闻聚合成一个新闻簇。当然,上述奇异值分解算法仅是本发明提供的一优选实施方式,也可以采用其他基于内容的聚类方法,在此不再一一详述。
在确定新闻簇对应的新闻事件时,该新闻事件可以由特征向量、新闻摘要和时间戳构成,其中特征向量是对上述新闻簇中各篇新闻的特征向量进行合并后得到的特征向量,新闻摘要实际上是该新闻簇中各篇新闻的摘要构成的集合,时间戳是该新闻簇中各篇新闻发生时间构成的时间范围。
步骤103:判断步骤102得到的新闻事件与已经存在的新闻事件在内容和时间上的聚合状况,如果得到的新闻事件与某一已经存在的新闻事件在内容上的聚合状况满足预设内容聚合要求且在时间上的聚合状况满足预设时间聚合要求,则确定得到的新闻事件与该已经存在的新闻事件属于同一新闻事件,执行步骤104;如果得到的新闻事件与某一已经存在的新闻事件在内容上的聚合状况满足预设内容聚合要求但在时间上的聚合状况不满足预设时间聚合要求,则确定得到的新闻事件与该已经存在的新闻事件存在关联关系,执行步骤105;否则,确定得到的新闻事件是独立的新闻事件。
由于新闻事件对应有关键词构成的特征向量,在判断步骤102得到的新闻事件与已经存在的新闻事件在内容上的聚合状况时,可以通过计算步骤102得到的新闻事件对应的特征向量与已经存在的新闻事件对应的特征向量之间的相似度,该相似度可以采用诸如余弦相似度的计算方式,如果计算得到的余弦相似度达到预设的相似度阈值,则说明新得到的新闻事件与已经存在的新闻事件在内容上的聚合程度较高,满足预设的聚合要求,否则说明离散程度较高,不满足预设的聚合要求。
在判断步骤102得到的新闻事件与已经存在的新闻事件在时间上的聚合状况时,可以采用k-means算法对新得到的新闻事件所对应时间戳的中心点以及已经存在的新闻事件所对应时间戳的中心点进行k-means计算,能够得到k个聚类,k为正整数,属于同一聚类的新闻事件则在时间上的聚合状况满足预设聚合要求,不属于同一聚类的新闻事件则在时间上的聚合状况不满足预设聚合要求,呈离散状态。需要说明的是,可以将所有的新闻事件都参与k-means计算,也可以在确定出在内容上的聚合状况满足预设聚合要求的新闻事件后,仅这些新闻事件参与k-means计算。
步骤104:将属于同一新闻事件的新闻事件进行合并,在展现时将该新闻事件对应的新闻进行合并展现。
在对新闻事件进行合并时,包括对特征向量的合并,对新闻摘要的合并和时间戳的合并。
在进行具体展现时,合并后的各篇新闻可以依据发生时间的顺序从新到旧进行展现。如果用户订阅了该新闻事件,则系统可以通过诸如短信、邮件、RSS、网络服务(web Service)等多种方式将该新闻事件对应的新得到的新闻推送给用户。
步骤105:建立得到的新闻事件与该已经存在的新闻事件的关联关系,在展现时,同时展现建立的关联关系。
对于在内容上聚合但在时间上不聚合的新闻事件实际上是系列事件,说明它们之间在语义上存在前因后果的关系,建立关联关系的方式可以为将数据库中已经存在的新闻事件的索引和新得到的新闻事件的索引采用链表的方式建立关联关系。
这里关联关系的展现形式可以是采用文字或标识的方式体现新闻事件之间存在关联关系,例如在一新闻事件附近表明“相关事件为:”;也可以采用特殊的排版方式体现新闻事件之间存在关联关系,例如采用文本框嵌套的方式体现出是一系列新闻事件,或者采用链表的方式体现出是一系列新闻事件。
如果用户订阅了某一新闻事件,当出现与该新闻事件存在关联关系的新闻事件时,将该新的新闻事件对应的新闻推送给用户。
以上是对本发明所提供的方法进行的详细描述,下面通过实施例二对本发明提供的装置进行详细描述。
实施例二、
图2为本发明实施例二提供的面向事件的新闻展现装置结构图,如图2所示,该装置包括:新闻获取单元201、新闻聚类单元202、关系判定单元203和新闻展现单元204。
首先新闻获取单元201从新闻源获取新闻数据,具体可以使用新闻平台提供的接口,以一定的时间间隔获取新闻数据,这里的新闻平台可以是任意网站的新闻频道,也可以是搜索引擎新搜集的新闻数据。
新闻聚类单元202对获取到的新闻数据基于内容进行聚类,得到各新闻簇对应的新闻事件。具体执行:从获取的新闻数据中各篇新闻的新闻摘要中提取关键词构成各篇新闻的特征向量;将各篇新闻的特征向量组成一个特征向量矩阵后,采用奇异值分解算法对特征向量矩阵进行分解,得到各篇新闻的主题分类,将属于同一主题的新闻构成新闻簇。
其中提取关键词时可以首先对获取的新闻数据中的新闻摘要进行分词和去除停用词后,依据各词语的TF-IDF提取出关键词构成各篇新闻的特征向量,即提取出TF-IDF满足预设要求的关键词。
具体地,新闻聚类单元202可以采用如下方式得到各篇新闻的主题分类:依据奇异值分解结果中的左奇异矩阵得到各篇新闻与各主题类之间的相关度,确定各篇新闻属于与其相关度最高的主题,将属于同一主题的新闻聚合成新闻簇。
之后关系判定单元203判断新闻聚类单元202得到的新闻事件与已经存在的新闻事件在内容和时间上的聚合状况,确定在内容和时间上的聚合状况均满足聚合要求的新闻事件属于同一新闻事件,确定在内容上的聚合状况满足聚合要求但时间上的聚合状况不满足聚合要求的新闻事件存在关联关系。
由于新闻簇对应的新闻事件至少包括:新闻簇中各篇新闻的特征向量合并后得到的特征向量以及新闻簇中各新闻发生时间构成的时间戳。因此,关系判定单元203可以计算新闻聚类单元202得到的新闻事件对应的特征向量与已经存在的新闻事件对应的特征向量之间的相似度,确定相似度达到预设相似度阈值的新闻事件在内容上的聚合程度满足预设的聚合要求。其中相似度的计算方式可以采用余弦相似度。
关系判定单元203采用k-means算法对新闻聚类单元202得到的新闻事件所对应的时间戳中心点与已经存在的新闻事件所对应的时间戳中心点进行k-means计算,得到k个聚类结果,k为正整数,确定属于同一聚类的新闻事件在时间上的聚合状况满足预设聚合要求。
最后新闻展现单元204对属于同一新闻事件的新闻事件进行合并展现,在展现存在关联关系的新闻事件的同时展现新闻事件之间的关联关系。存在关联关系的新闻事件实际上是系列事件,其在语义上可能是存在前因后果的,在展现时具体可以采用文字、标识或特殊的排版方式等体现新闻事件之间存在关联关系,以让用户能够清楚地明白其是系列事件。
除此之外,需要实现对数据库中新闻事件关系的维护,此时该装置还包括:事件合并单元205,用于对属于同一新闻事件的新闻事件进行合并,包括对特征向量的合并和对时间戳的合并。
关系建立单元206,用于将数据库中存在关联关系的新闻事件的索引采用链表的方式建立关联关系。
新闻展现单元204可以依据事件合并单元205和关系建立单元206的处理进行新闻展现,图2中示出的是该种实现方式。
除了属于同一新闻事件和存在关联关系的新闻事件之外,还存在一种情况:关系判定单元203确定在内容上和时间上均不满足聚合要求的新闻事件分别为独立的新闻事件,相应地,新闻展现单元204在展现这类型新闻事件时分别展现独立的新闻事件。
对于订阅了新闻事件的用户,还需要实现新闻推送的功能,此时该装置还包括:订阅推送单元207,用于如果用户订阅的新闻事件发生合并,则将该新闻事件对应的新得到的新闻推送给用户;如果出现与用户所订阅新闻事件存在关联关系的新的新闻事件,则将该新的新闻事件对应的新闻推送给用户。推送方式可以采用但不限于短信、邮件、RSS、网络服务(web Service)等多种方式。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (20)
1.一种面向事件的新闻展现方法,其特征在于,该方法包括:
S1、从新闻源获取新闻数据;
S2、对获取到的新闻数据基于内容进行聚类,得到各新闻簇对应的新闻事件;
S3、判断步骤S2得到的新闻事件与已经存在的新闻事件在内容和时间上的聚合状况,确定在内容和时间上的聚合状况均满足聚合要求的新闻事件属于同一新闻事件,对属于同一新闻事件的新闻事件进行合并展现;确定在内容上的聚合状况满足聚合要求但时间上的聚合状况不满足聚合要求的新闻事件存在关联关系,在展现存在关联关系的新闻事件的同时展现新闻事件之间的关联关系。
2.根据权利要求1所述的方法,其特征在于,在所述步骤S3中还包括:确定在内容上和时间上均不满足聚合要求的新闻事件分别为独立的新闻事件,在展现时分别展现独立的新闻事件。
3.根据权利要求1所述的方法,其特征在于,步骤S2中所述对获取到的新闻数据基于内容进行聚类具体包括:
从获取的新闻数据中各篇新闻的新闻摘要中提取关键词构成各篇新闻的特征向量;
将所述各篇新闻的特征向量组成一个特征向量矩阵后,采用奇异值分解算法对特征向量矩阵进行分解,得到各篇新闻的主题分类,将属于同一主题的新闻构成新闻簇。
4.根据权利要求3所述的方法,其特征在于,所述得到各篇新闻的主题分类具体包括:
依据奇异值分解结果中的左奇异矩阵得到各篇新闻与各主题类之间的相关度,确定各篇新闻属于与其相关度最高的主题,将属于同一主题的新闻聚合成新闻簇。
5.根据权利要求1所述的方法,其特征在于,所述新闻簇对应的新闻事件包括:新闻簇中各篇新闻的特征向量合并后得到的特征向量以及新闻簇中各新闻发生时间构成的时间戳。
6.根据权利要求5所述的方法,其特征在于,在判断步骤S2得到的新闻事件与已经存在的新闻事件在内容上的聚合状况时,计算所述步骤S2得到的新闻事件对应的特征向量与已经存在的新闻事件对应的特征向量之间的相似度,确定相似度达到预设相似度阈值的新闻事件在内容上的聚合程度满足预设的聚合要求。
7.根据权利要求5所述的方法,其特征在于,在判断步骤S2得到的新闻事件与已经存在的新闻事件在时间上的聚合状况时,采用k-means算法对所述步骤S2得到的新闻事件所对应的时间戳中心点与已经存在的新闻事件所对应的时间戳中心点进行k-means计算,得到k个聚类结果,k为正整数,确定属于同一聚类的新闻事件在时间上的聚合状况满足预设聚合要求。
8.根据权利要求5所述的方法,其特征在于,在对新闻事件进行合并时,包括对特征向量的合并和对时间戳的合并。
9.根据权利要求1所述的方法,其特征在于,所述关联关系的建立为:将数据库中存在关联关系的新闻事件的索引采用链表的方式建立关联关系;
所述关联关系的展现包括:采用文字、标识或特殊的排版方式体现新闻事件之间存在关联关系。
10.根据权利要求1所述的方法,其特征在于,该方法还包括:
如果用户订阅的新闻事件发生合并,则将该新闻事件对应的新得到的新闻推送给用户;
如果出现与用户所订阅新闻事件存在关联关系的新的新闻事件,则将该新的新闻事件对应的新闻推送给用户。
11.一种面向事件的新闻展现装置,其特征在于,该装置包括:
新闻获取单元,用于从新闻源获取新闻数据;
新闻聚类单元,用于对获取到的新闻数据基于内容进行聚类,得到各新闻簇对应的新闻事件;
关系判定单元,用于判断所述新闻聚类单元得到的新闻事件与已经存在的新闻事件在内容和时间上的聚合状况,确定在内容和时间上的聚合状况均满足聚合要求的新闻事件属于同一新闻事件,确定在内容上的聚合状况满足聚合要求但时间上的聚合状况不满足聚合要求的新闻事件存在关联关系;
新闻展现单元,用于对属于同一新闻事件的新闻事件进行合并展现,在展现存在关联关系的新闻事件的同时展现新闻事件之间的关联关系。
12.根据权利要求11所述的装置,其特征在于,所述关系判定单元,还用于确定在内容上和时间上均不满足聚合要求的新闻事件分别为独立的新闻事件;
所述新闻展现单元,还用于分别展现独立的新闻事件。
13.根据权利要求11所述的装置,其特征在于,所述新闻聚类单元在对获取到的新闻数据基于内容进行聚类时,具体执行:
从获取的新闻数据中各篇新闻的新闻摘要中提取关键词构成各篇新闻的特征向量;
将所述各篇新闻的特征向量组成一个特征向量矩阵后,采用奇异值分解算法对特征向量矩阵进行分解,得到各篇新闻的主题分类,将属于同一主题的新闻构成新闻簇。
14.根据权利要求13所述的装置,其特征在于,所述新闻聚类单元具体采用如下方式得到各篇新闻的主题分类:
依据奇异值分解结果中的左奇异矩阵得到各篇新闻与各主题类之间的相关度,确定各篇新闻属于与其相关度最高的主题,将属于同一主题的新闻聚合成新闻簇。
15.根据权利要求11所述的装置,其特征在于,所述新闻簇对应的新闻事件包括:新闻簇中各篇新闻的特征向量合并后得到的特征向量以及新闻簇中各新闻发生时间构成的时间戳。
16.根据权利要求15所述的装置,其特征在于,所述关系判定单元计算所述新闻聚类单元得到的新闻事件对应的特征向量与已经存在的新闻事件对应的特征向量之间的相似度,确定相似度达到预设相似度阈值的新闻事件在内容上的聚合程度满足预设的聚合要求。
17.根据权利要求15所述的装置,其特征在于,所述关系判定单元采用k-means算法对所述新闻聚类单元得到的新闻事件所对应的时间戳中心点与已经存在的新闻事件所对应的时间戳中心点进行k-means计算,得到k个聚类结果,k为正整数,确定属于同一聚类的新闻事件在时间上的聚合状况满足预设聚合要求。
18.根据权利要求15所述的装置,其特征在于,该装置还包括:事件合并单元,用于对属于同一新闻事件的新闻事件进行合并,包括对特征向量的合并和对时间戳的合并。
19.根据权利要求11所述的装置,其特征在于,该装置还包括:关系建立单元,用于将数据库中存在关联关系的新闻事件的索引采用链表的方式建立关联关系;
所述新闻展现单元采用文字、标识或特殊的排版方式体现新闻事件之间存在关联关系。
20.根据权利要求11所述的装置,其特征在于,该装置还包括:订阅推送单元,用于如果用户订阅的新闻事件发生合并,则将该新闻事件对应的新得到的新闻推送给用户;如果出现与用户所订阅新闻事件存在关联关系的新的新闻事件,则将该新的新闻事件对应的新闻推送给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210487000XA CN103020159A (zh) | 2012-11-26 | 2012-11-26 | 一种面向事件的新闻展现方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210487000XA CN103020159A (zh) | 2012-11-26 | 2012-11-26 | 一种面向事件的新闻展现方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103020159A true CN103020159A (zh) | 2013-04-03 |
Family
ID=47968763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210487000XA Pending CN103020159A (zh) | 2012-11-26 | 2012-11-26 | 一种面向事件的新闻展现方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103020159A (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103412870A (zh) * | 2013-07-09 | 2013-11-27 | 北京深思洛克软件技术股份有限公司 | 一种移动终端设备新闻客户端软件的新闻推送方法 |
CN103678645A (zh) * | 2013-12-20 | 2014-03-26 | 中电长城网际系统应用有限公司 | 文档匹配方法和文档匹配装置 |
CN104424281A (zh) * | 2013-08-30 | 2015-03-18 | 宏碁股份有限公司 | 事件整合方法及系统 |
CN104572770A (zh) * | 2013-10-25 | 2015-04-29 | 华为技术有限公司 | 一种主题提取方法及装置 |
CN105354186A (zh) * | 2015-11-05 | 2016-02-24 | 同济大学 | 一种新闻事件抽取方法及系统 |
CN105677894A (zh) * | 2016-02-02 | 2016-06-15 | 清华大学 | 基于网络事件模型的新闻事件监测方法和装置 |
CN106021351A (zh) * | 2016-05-10 | 2016-10-12 | 深圳职业技术学院 | 针对新闻事件的聚合提取方法及装置 |
CN106202563A (zh) * | 2016-08-02 | 2016-12-07 | 西南石油大学 | 一种实时关联事件新闻推荐方法及系统 |
CN106446198A (zh) * | 2016-09-29 | 2017-02-22 | 北京百度网讯科技有限公司 | 基于人工智能的新闻推荐方法及装置 |
CN107590118A (zh) * | 2017-08-03 | 2018-01-16 | 天脉聚源(北京)传媒科技有限公司 | 一种新闻的智能排版的方法及装置 |
CN107688652A (zh) * | 2017-08-31 | 2018-02-13 | 苏州大学 | 面向互联网新闻事件的演化式摘要生成方法 |
CN108021596A (zh) * | 2016-11-04 | 2018-05-11 | 百度在线网络技术(北京)有限公司 | 新闻的展示方法和装置 |
CN108446964A (zh) * | 2018-03-30 | 2018-08-24 | 中南大学 | 一种基于移动流量dpi数据的用户推荐方法 |
CN108446296A (zh) * | 2018-01-24 | 2018-08-24 | 北京奇艺世纪科技有限公司 | 一种信息处理方法及装置 |
CN110019800A (zh) * | 2017-11-30 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 分发内容处理方法、装置、计算机设备和存储介质 |
US10467255B2 (en) | 2015-12-11 | 2019-11-05 | Industrial Technology Research Institute | Methods and systems for analyzing reading logs and documents thereof |
CN110717137A (zh) * | 2019-10-09 | 2020-01-21 | 北京明略软件系统有限公司 | 一种消息的分发处理方法及消息系统 |
CN111798879A (zh) * | 2019-04-08 | 2020-10-20 | 百度(美国)有限责任公司 | 用于生成视频的方法和装置 |
CN111866610A (zh) * | 2019-04-08 | 2020-10-30 | 百度时代网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN111859973A (zh) * | 2019-04-08 | 2020-10-30 | 百度时代网络技术(北京)有限公司 | 用于生成解说词的方法和装置 |
CN113268598A (zh) * | 2021-05-26 | 2021-08-17 | 平安科技(深圳)有限公司 | 事件脉络生成方法、装置、终端设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101174273A (zh) * | 2007-12-04 | 2008-05-07 | 清华大学 | 基于元数据分析的新闻事件检测方法 |
CN101231640A (zh) * | 2007-01-22 | 2008-07-30 | 北大方正集团有限公司 | 一种自动计算互联网上主题演化趋势的方法及系统 |
US20080250039A1 (en) * | 2007-04-04 | 2008-10-09 | Seeqpod, Inc. | Discovering and scoring relationships extracted from human generated lists |
CN102012917A (zh) * | 2010-11-26 | 2011-04-13 | 百度在线网络技术(北京)有限公司 | 信息处理装置以及处理方法 |
-
2012
- 2012-11-26 CN CN201210487000XA patent/CN103020159A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101231640A (zh) * | 2007-01-22 | 2008-07-30 | 北大方正集团有限公司 | 一种自动计算互联网上主题演化趋势的方法及系统 |
US20080250039A1 (en) * | 2007-04-04 | 2008-10-09 | Seeqpod, Inc. | Discovering and scoring relationships extracted from human generated lists |
CN101174273A (zh) * | 2007-12-04 | 2008-05-07 | 清华大学 | 基于元数据分析的新闻事件检测方法 |
CN102012917A (zh) * | 2010-11-26 | 2011-04-13 | 百度在线网络技术(北京)有限公司 | 信息处理装置以及处理方法 |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103412870A (zh) * | 2013-07-09 | 2013-11-27 | 北京深思洛克软件技术股份有限公司 | 一种移动终端设备新闻客户端软件的新闻推送方法 |
CN104424281A (zh) * | 2013-08-30 | 2015-03-18 | 宏碁股份有限公司 | 事件整合方法及系统 |
CN104572770A (zh) * | 2013-10-25 | 2015-04-29 | 华为技术有限公司 | 一种主题提取方法及装置 |
CN103678645A (zh) * | 2013-12-20 | 2014-03-26 | 中电长城网际系统应用有限公司 | 文档匹配方法和文档匹配装置 |
CN105354186A (zh) * | 2015-11-05 | 2016-02-24 | 同济大学 | 一种新闻事件抽取方法及系统 |
US10467255B2 (en) | 2015-12-11 | 2019-11-05 | Industrial Technology Research Institute | Methods and systems for analyzing reading logs and documents thereof |
CN105677894A (zh) * | 2016-02-02 | 2016-06-15 | 清华大学 | 基于网络事件模型的新闻事件监测方法和装置 |
CN106021351A (zh) * | 2016-05-10 | 2016-10-12 | 深圳职业技术学院 | 针对新闻事件的聚合提取方法及装置 |
CN106021351B (zh) * | 2016-05-10 | 2019-04-12 | 深圳职业技术学院 | 针对新闻事件的聚合提取方法及装置 |
CN106202563A (zh) * | 2016-08-02 | 2016-12-07 | 西南石油大学 | 一种实时关联事件新闻推荐方法及系统 |
CN106446198A (zh) * | 2016-09-29 | 2017-02-22 | 北京百度网讯科技有限公司 | 基于人工智能的新闻推荐方法及装置 |
CN108021596A (zh) * | 2016-11-04 | 2018-05-11 | 百度在线网络技术(北京)有限公司 | 新闻的展示方法和装置 |
CN108021596B (zh) * | 2016-11-04 | 2021-12-28 | 百度在线网络技术(北京)有限公司 | 新闻的展示方法和装置 |
CN107590118A (zh) * | 2017-08-03 | 2018-01-16 | 天脉聚源(北京)传媒科技有限公司 | 一种新闻的智能排版的方法及装置 |
CN107688652A (zh) * | 2017-08-31 | 2018-02-13 | 苏州大学 | 面向互联网新闻事件的演化式摘要生成方法 |
CN110019800A (zh) * | 2017-11-30 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 分发内容处理方法、装置、计算机设备和存储介质 |
CN108446296A (zh) * | 2018-01-24 | 2018-08-24 | 北京奇艺世纪科技有限公司 | 一种信息处理方法及装置 |
CN108446964A (zh) * | 2018-03-30 | 2018-08-24 | 中南大学 | 一种基于移动流量dpi数据的用户推荐方法 |
CN111798879A (zh) * | 2019-04-08 | 2020-10-20 | 百度(美国)有限责任公司 | 用于生成视频的方法和装置 |
CN111866610A (zh) * | 2019-04-08 | 2020-10-30 | 百度时代网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN111859973A (zh) * | 2019-04-08 | 2020-10-30 | 百度时代网络技术(北京)有限公司 | 用于生成解说词的方法和装置 |
CN114666663A (zh) * | 2019-04-08 | 2022-06-24 | 百度(美国)有限责任公司 | 用于生成视频的方法和装置 |
CN110717137A (zh) * | 2019-10-09 | 2020-01-21 | 北京明略软件系统有限公司 | 一种消息的分发处理方法及消息系统 |
CN110717137B (zh) * | 2019-10-09 | 2022-08-09 | 北京明略软件系统有限公司 | 一种消息的分发处理方法及消息系统 |
CN113268598A (zh) * | 2021-05-26 | 2021-08-17 | 平安科技(深圳)有限公司 | 事件脉络生成方法、装置、终端设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103020159A (zh) | 一种面向事件的新闻展现方法和装置 | |
US11580104B2 (en) | Method, apparatus, device, and storage medium for intention recommendation | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN106250513B (zh) | 一种基于事件建模的事件个性化分类方法及系统 | |
CN105022827B (zh) | 一种面向领域主题的Web新闻动态聚合方法 | |
Ionescu et al. | Retrieving Diverse Social Images at MediaEval 2014: Challenge, Dataset and Evaluation. | |
CN103544255B (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN101174273B (zh) | 基于元数据分析的新闻事件检测方法 | |
CN102208992B (zh) | 面向互联网的不良信息过滤系统及其方法 | |
CN103914478B (zh) | 网页训练方法及系统、网页预测方法及系统 | |
CN108776671A (zh) | 一种网络舆情监控系统及方法 | |
CN101751458A (zh) | 一种网络舆情监控系统及方法 | |
CN103605658B (zh) | 一种基于文本情感分析的搜索引擎系统 | |
CN104199972A (zh) | 一种基于深度学习的命名实体关系抽取与构建方法 | |
CN101127042A (zh) | 一种基于语言模型的情感分类方法 | |
CN105718587A (zh) | 一种网络内容资源评估方法及评估系统 | |
CN104536956A (zh) | 一种基于微博平台的事件可视化方法及系统 | |
CN106980651B (zh) | 一种基于知识图谱的爬取种子列表更新方法及装置 | |
CN107918644A (zh) | 声誉管理框架内的新闻议题分析方法和实施系统 | |
CN104504024A (zh) | 基于微博内容的关键词挖掘方法及系统 | |
CN105808722A (zh) | 一种信息判别方法和系统 | |
Ouyang et al. | Sentistory: multi-grained sentiment analysis and event summarization with crowdsourced social media data | |
Bhardwaj et al. | Web scraping using summarization and named entity recognition (ner) | |
Campbell et al. | Content+ context networks for user classification in twitter | |
CN109871429B (zh) | 融合Wikipedia分类及显式语义特征的短文本检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130403 |
|
RJ01 | Rejection of invention patent application after publication |