CN102012917B - 信息处理装置以及处理方法 - Google Patents

信息处理装置以及处理方法 Download PDF

Info

Publication number
CN102012917B
CN102012917B CN 201010560624 CN201010560624A CN102012917B CN 102012917 B CN102012917 B CN 102012917B CN 201010560624 CN201010560624 CN 201010560624 CN 201010560624 A CN201010560624 A CN 201010560624A CN 102012917 B CN102012917 B CN 102012917B
Authority
CN
China
Prior art keywords
news
train
thought
information
bunch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201010560624
Other languages
English (en)
Other versions
CN102012917A (zh
Inventor
彭学政
柳杨
王凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN 201010560624 priority Critical patent/CN102012917B/zh
Publication of CN102012917A publication Critical patent/CN102012917A/zh
Application granted granted Critical
Publication of CN102012917B publication Critical patent/CN102012917B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明关于处理需要产生脉络信息的新闻事件的一种信息处理装置以及处理方法。信息处理装置包括载入新闻簇信息的新闻簇信息载入模块、分析所述新闻簇信息并产生脉络信息的脉络分析模块及展示所述脉络信息的前端展示模块。本发明的信息处理装置以及处理方法工作量较小、时效性较强、清晰度较高的给出新闻事件的脉络信息。

Description

信息处理装置以及处理方法
【技术领域】
本发明涉及一种信息处理装置以及处理方法,尤其涉及一种用于时间脉络信息处理装置以及处理方法。
【背景技术】
某新闻发生后一段时间,各新闻站点会迅速发布出很多相关报道。当这种资源变化程度足够大时,我们称此新闻为事件或者突发事件。此时,用户在各大搜索引擎进行该事件的相关检索后,搜索引擎会在网页上展示出一系列与该事件相关的新闻。展示出的新闻会有不同的排序及排列方式,通常会按照时间顺序将该事件展示给用户。关于该事件或者突发事件的新闻通常很多,而且具有重复性,让用户眼花缭乱,对该事件没有一个清楚的了解。因此,需要提供事件的脉络信息提供给用户查询。然而,并不是所有的事件都需要提供脉络信息,因为并不是所有的事件都具有在一定时间内的持续性。需要对事件进行判定是否属于需要给出脉络信息的事件,而且如何实现脉络信息的分析与计算,都是需要解决的问题。
中国发明专利申请公开第CN101571853号揭示了通过多中心结构建立相应的话题模型,更为准确、全面的描述话题。通过话题多中心的建立和更新,展现话题内容的动态演化发展过程,即话题的产生、发展、高潮直至消亡的全过程。该发明专利申请公开采用向量空间模型形成新闻报道和话题模型;采用夹角余弦公式计算报道和话题的相似度;采用向量分解方法建立话题的多个侧面,并判断话题内容的演变。然而,该发明专利申请公开并未揭示其具体的分析与计算方法,且对于何种情形下需要给出事件的脉络信息也没有给出。另外,美国专利申请公开第2002/0152245A1号针对搜索的信息根据时间和标题进行串联,然后根据用户的查询条件展示给用户根据时间和标题串联的新闻。该美国专利申请公开针对新闻进行聚类,然后根据时间窗更新脉络信息。然而,该技术并未区分给出事件脉络信息的情形和条件。
然而上述两个现有技术,均是将收集到的新闻信息全部载入,然后根据时间和标题进行串联,工作量很大,影响脉络分析的时效性及脉络分析结果的清晰性。容易造成用户的困扰,并浪费用户的时间。
因此,需要针对以上技术缺陷给出解决方案。
【发明内容】
本发明的目的在于提供一种可以提供事件脉络信息的信息处理装置。
本发明的又一个目的在于提供一种提供事件脉络信息的信息处理方法。
为实现上述目的,本发明的一个方面是关于一种信息处理装置,其包括:
新闻簇信息载入模块:载入新闻簇信息;
脉络分析模块:分析所述新闻簇信息并产生脉络信息;
前端展示模块:展示所述脉络信息,所述脉络信息以专题新闻页展示给用户,所述专题新闻页具有以时间排序的最新报道列表及事件的脉络信息。
其中,所述脉络分析模块包括:
配置信息加载模块:载入新闻聚类后产生的焦点簇配置信息;
新闻数量分布计算模块:统计不同时间段内新闻的数量分布;
脉络需求判定模块:过滤不需要出脉络的新闻事件,并避免产生低质量的新闻簇产出脉络;
相似新闻去重模块:单遍聚类新闻簇内的高质量新闻,并归档相似度很高的新闻,以最早的那篇新闻为代表新闻,参加后一阶段的时间片聚类;
时间片聚类模块:将所有的新闻按照时间排列,每篇新闻作为一个独立的片段,每次合并距离最近的两个片段,直到片段的数量足够少或者片段之间的距离都大于一定的阈值时停止合并;
后处理模块:通过上述的时间片聚类算法,得到事件的若干个进展以后,从每个片段中,挑选出最具代表性的一篇新闻作为这个片段的代表新闻;
脉络数据生成模块:生成脉络信息并返回信息处理装置,以进行保存。
为实现上述目的,本发明又一个方面是关于一种信息处理方法,其包括步骤:
1)新闻簇信息载入步骤:载入新闻簇信息;
2)脉络分析步骤:分析所述新闻簇信息并产生脉络信息;
3)前端展示步骤:展示所述脉络信息,所述脉络信息以专题新闻页展示给用户,所述专题新闻页具有以时间排序的最新报道列表及事件的脉络信息。
其中,所述计算脉络信息的步骤包括:
1)加载配置信息步骤:载入新闻聚类后产生的焦点簇配置信息;
2)计算新闻数量分布步骤:统计不同时间段的新闻发布数量;
3)判定脉络需求步骤:过滤不需要出脉络的新闻事件,并避免产生低质量的新闻簇产出脉络;
4)相似新闻去重步骤:单遍聚类新闻簇内的高质量新闻,并归档相似度很高的新闻,以最早的那篇新闻为代表新闻,参加后一阶段的时间片聚类;
5)时间片聚类步骤:将所有的新闻按照时间排列,每篇新闻作为一个独立的片段,每次合并距离最近的两个片段,直到片段的数量足够少或者片段之间的距离都大于一定的阈值时停止合并;
6)后处理步骤:通过上述的时间片聚类算法,得到事件的若干个进展以后,从每个片段中,挑选出最具代表性的一篇新闻作为这个片段的代表新闻;
7)生成脉络数据步骤:生成脉络信息并返回信息处理装置,以进行保存。
本发明的有益效果是:工作量较小、时效性较强、清晰度较高的给出新闻事件的脉络信息。
【附图说明】
图1是根据本发明优选实施方式一的信息处理装置的示意框图;
图2是图1所示信息处理装置的处理流程示意图;
图3是根据本发明优选实施方式二的信息处理装置的示意框图;
图4是图3所示的信息处理装置的处理流程示意图;
图5是本发明信息处理装置的新闻簇信息载入模块的示意框图;
图6是图5所示的新闻簇信息载入模块的处理流程示意图;
图7是本发明信息处理装置中脉络分析模块的示意框图;
图8是本发明脉络分析模块的数据处理流程示意图;
图9是本发明新闻事件脉络需求判定流程示意图;
图10是本发明信息处理装置中事件脉络信息展示示意图片;
图11是本发明信息处理装置中又一事件脉络信息展示示意图片。
【具体实施方式】
持续一定时间的新闻事件会具有事件演化过程,脉络信息是将该演化过程按照时间序列呈现出来。理想情况下,用户对事件完全不了解的情况下,能够通过阅读给出的脉络信息,迅速了解整个事件的来龙去脉。
并不是每个新闻事件都需要给出脉络信息。只有特别的新闻簇,才具有出脉络的必要。新闻簇要满足一定的时间窗长度,以及话题本身具有阶段型的发展趋势才适合用脉络的形式来展现。时间窗长度可以配置,于本发明优选实施方式中,时间窗长度要求时间的相关报道持续一天以上。另外,在当前浏览端的架构下,还需要避免一些低质量的新闻簇出脉络信息。
因此,本发明信息处理装置及其处理方法的思路是:
首先,对于本发明信息处理装置产出的新闻簇,需要判定该新闻簇是否具有脉络需求,如果满足脉络需求,则进行脉络分析。
对于有脉络需求的新闻簇,需要利用机器挖掘算法,产出该新闻簇的脉络信息。具体的脉络信息及展现形式,请参阅图10,前端展示模块的左侧列出根据时间排序的新闻事件的一系列最新报道,右侧为该新闻事件的事件回顾,即脉络信息。该展示位置并不固定,可以根据需要调整脉络信息的显示位置。
请参阅图1,其示出了根据本发明优选实施方式一的信息处理装置的示意框图,其包括:
新闻簇信息载入模块:将焦点簇信息载入新闻处理装置;
脉络分析模块:以上述周期内产生的新闻簇为输入,产生脉络信息;
存储器:将上述脉络信息以通用数据的格式直接存储到指定目录;
前端展示模块:根据用户的搜索条件,展示事件的新闻列表及事件脉络信息。
请参阅图5,新闻簇信息载入模块包括:
数据加载模块:将一个周期内收集到的所有新闻数据加载至本发明信息处理装置,于本发明较佳实施方式中,该周期为4天至7天;
新闻聚类模块:将数据加载模块加载的一个周期内的新闻数据进行文本聚类,将周期内的新闻数据分别归类;
计算焦点簇信息模块:根据归类后的新闻,计算焦点簇,并产生出若干个新闻簇。
由于本发明的信息处理装置的脉络分析模块是内嵌到信息处理装置中,所以脉络分析用到的新闻事件的时间窗也受到新闻簇周期的限制,即为4天至7天。但是这样的优点是:能够自然的将脉络信息同新闻簇对应起来,因为二者的更新周期一致。
请参阅图2,其示出了根据图1的信息处理装置的处理流程示意图,其包括步骤:
S101:载入新闻簇信息;
S102:计算脉络信息:脉络分析模块以上述周期内产生的新闻簇为输入,产生脉络信息;
S103:保存数据:数据保存模块将上述脉络信息以通用数据的格式直接存储到指定目录;
S104:前端展示:由前端展示模块展示用户查询条件下的事件结果列表及脉络信息。
请参阅图3,其示出了根据本发明优选实施方式二的信息处理装置的示意框图,其包括:
新闻簇信息载入模块:将焦点簇信息载入新闻处理装置;
脉络分析模块:以上述周期内产生的新闻簇为输入,产生脉络信息;
前端展示模块:根据用户的搜索条件,展示事件的新闻列表及事件脉络信息。
其中,本发明信息处理装置实时运算,并由前端展示模块进行展示。
请参阅图4,其示出了根据图3的信息处理装置的处理流程示意图,其包括步骤:
S101:载入新闻簇信息;
S102:计算脉络信息:脉络分析模块以上述周期内产生的新闻簇为输入,产生脉络信息;
S104:前端展示:由前端展示模块展示用户查询条件下的事件结果列表及脉络信息。
与优选实施方式一比较,优选实施方式二采用实时运算的方式,缺省存取器。
图6为根据图5所示的新闻簇信息载入模块的示意框图的处理流程图,其步骤如下:
S1011:加载数据:利用数据加载模块将一个周期内收集到的所有新闻数据加载至信息处理装置。于本发明较佳实施方式中,该周期为4天至7天;
S1012:进行新闻聚类:新闻聚类模块将数据加载模块加载的一个周期内的新闻数据进行文本聚类,将周期内的新闻数据分别归类;
S1013:计算焦点簇信息:计算焦点簇信息模块根据归类后的新闻,计算焦点簇,并产生出若干个新闻簇。
请参阅图7,本发明信息处理装置中的脉络分析模块包括:
配置信息加载模块:配置信息为信息处理装置中新闻聚类后产生的焦点簇信息,配置信息加载模块将上述配置信息载入脉络分析模块;
新闻数量分布计算模块:一天有24个小时,各个小时的新闻发布数量是有很大差别的。通过统计,新闻发布的高峰主要有两个时间段,分别是在8:00~11:30,以及14:00~16:00。新闻数量分布计算模块统计不同时间段的新闻发布数量,对于后续的时间片聚类是有帮助的。
脉络需求判定模块:利用时间窗和新闻簇的分类来过滤,同时避免一些低质量的新闻簇产出脉络。
时间窗的大小和分类的过滤设置,都可以通过配置文件来设定,当前的时间窗为1天,即只有新闻簇的时间跨度大于24小时,才考虑出脉络信息。于本发明优选实施方式中,在分类方面,共有国际、国内、体育、娱乐、社会、财经和互联网等7个分类具有出脉络的需要。这7个需要出脉络信息的分类具有类别代号1,2,3,4,5,6,7。然而,其并不仅限于以上7个分类,其他分类同样适用本发明的信息处理方法出具脉络信息。
相似新闻去重模块:对新闻簇内的高质量新闻,进行一次单遍聚类,如果碰到相似度很高的新闻,则归档在一起,以最早的那篇新闻为代表新闻,参加后一阶段的时间片聚类。单遍聚类的合并阈值和质心调整阈值,可以通过配置文件来设定。
时间片聚类模块:将所有的新闻按照时间排列,初始时,每篇新闻作为一个独立的片段,每次合并距离最近的两个片段,直到片段的数量足够少或者片段之间的距离都大于一定的阈值时停止合并。于本发明的优选实施方式中,片段数量至少为3个时停止合并,片段之间的距离大于5个小时的情形下停止合并。然而,本发明并不仅限于片段数量为至少3个时停止合并,其还可以设置为其他片段数量,同样可以实现本发明的发明目的。同理,片段之间的距离也同样不仅限于距离大于5个小时的情形下停止合并,其还可以选择其他时间距离,同样可以实现本发明的发明目的。度量两个片段之间距离的方法是:计算两个片段中两两新闻对的时间距离,然后求平均值。
为了更符合新闻发布的时间规律,本发明信息处理方法采用“新闻时间”来代替“自然时间”计算时间距离。
后处理模块:通过上述的时间片聚类算法,得到事件的若干个进展以后,从每个片段中,挑选出最具代表性的一篇新闻作为这个片段的代表新闻。
在这个过程中,还会对时间片划分的结果进行一定的修正工作。如果有一个片段的新闻数量明显比相邻的片段要少很多,那么这个片段要作为噪音被删除掉。
同时,对于选择出来的内容或者标题非常相近的脉络新闻,也会进行去重,只保留时间更早的那篇新闻。
脉络数据生成模块:生成脉络信息并返回信息处理装置,进行保存。
具体来讲,脉络信息生成的数据处理流程如图8所示,其包括以下步骤:
S201:加载配置信息:配置信息为信息处理装置中新闻聚类后产生的焦点簇信息,配置信息加载模块将上述配置信息载入脉络分析模块。
S202:计算新闻数量在各个时间段的分布:一天有24个小时,各个小时的新闻发布数量是有很大差别的。通过统计,新闻发布的高峰主要有两个时间段,分别是在8:00~11:30,以及14:00~16:00。新闻数量分布计算模块统计不同时间段的新闻发布数量,对于后续的时间片聚类是有帮助的。
“新闻时间”是相对于“自然时间”来说的,一天24小时,每个小时的跨度是一样的。但是对于新闻来说,由于新闻发布并不是在24小时内均匀分布的,所以本发明信息处理方法中:在新闻发布高峰期间隔1个小时,要比在新闻发布的低谷期间隔一个小时,造成的时间跨度更长。
统计的方法是:新闻数量于各时间段分布计算模块按照每半小时为一个小时间片,统计每个时间段内的相同新闻簇的个数,求出各个时间段新闻数占所有时间片新闻数的比值,这个比值可以用来重新分配24小时的时间长度,作为“新闻时间”。最终的结果可以是:在0点至6点之间的1个小时,在“新闻时间”中只有半个小时,甚至更少,而在9:00~11:00期间的一个小时,相当于2~3个小时。
由于统计本身不怎么消耗资源,所以每个周期都会重新统计一次。
S203:脉络需求判定:并不是所有的新闻簇都适合出脉络。
影响新闻簇是否需要脉络的因素有:时间窗的大小以及话题是否具有阶段性的进展模式。
本发明信息处理方法是脉络需求判定模块利用时间窗和新闻簇的分类来过滤,同时避免一些低质量的新闻簇产出脉络。
时间窗的大小和分类的过滤设置,都可以通过配置文件来设定,当前的时间窗为1天,即只有新闻簇的时间跨度大于24小时,才考虑出脉络信息。分类方面,国际、国内、体育、娱乐、社会、财经和互联网共7个分类具有出脉络的需要,并分别具有脉络信息代号1-7。然而,其他分类同样适用于本发明信息处理方法实现脉络分析的需求。
请参阅图9,新闻事件的脉络需求判定流程为:
S301:发生事件A;
S302:时间跨度是否符合要求,如否,则判定为该事件A无脉络需求;
于本发明实施方式中,时间跨度需要满足大于24小时;
S303:如果时间跨度符合要求,则判断事件A是否有多个阶段,如果无,则判定无脉络需求;
S304:如果事件A有多个阶段,则判断各阶段之间是否有逻辑顺序,如果无,则判定为一般脉络需求,如体育赛事新闻、娱乐新闻等事件;
如是否有原因和结果、现象和本质、态度和行动,由浅至深、由主到次或者由此及彼等,都可以判断为各阶段之间具有逻辑顺序;
S305:如果事件A的各阶段之间具有逻辑顺序,则判定为强脉络需求。
强脉络需求事件包括持续性事件及突发性事件。持续性事件如兽兽门、局长日记门、喝开水死亡、躲猫猫、邓玉娇等。突发性事件如地震、事故、灾难等。
低质量新闻簇判定的方法是:
统计新闻簇中地区新闻的地域个数,如果地域分布比较散,那么判定为一个低质量的新闻簇。这类低质量新闻簇的代表就是一些讲各地抗旱,各地学习科学发展观等新闻簇。于本发明信息处理方法中,新闻簇内可以出现的最多地域数目为3个,高于该值则认为是低质量新闻簇。
对于无法通过地域来过滤的新闻簇,通过对新闻簇内新闻内容的凝聚度来打分,对于打分较低的新闻簇,也不给出新闻脉络。打分的方法是:在新闻簇内,挑选转载率最高的若干条新闻(最多抽N条,N可配置),计算N条新闻两两之间的文本距离,然后算平均值作为整个簇的内容质量得分。通过数据分析,这种方法对于过滤那些由于某个特征词而聚集在一起的大杂烩新闻簇,比如“奥巴马”等类型的新闻簇比较有效。其中转载率不低于3次。
S204:相似新闻去重:在新闻报道中,会有很多相似的新闻在描述同一事件的同一阶段,但是他们的时间间隔却可能较大,一个主要的原因是各方编辑的相应速度不一样,描述方式也不一样。
为了不让相似的新闻被划分到不同的时间片中,作为不同的事件阶段,需要把相似度较高的新闻合并起来,这样可以提升脉络分析的质量。
相似新闻去重的实现方法是:相似新闻去重模块对新闻簇内的高质量新闻,进行一次单遍聚类,如果碰到相似度很高的新闻,则归档在一起,以最早的那篇新闻为代表新闻,参加后一阶段的时间片聚类。单遍聚类的合并阈值和质心调整阈值,可以通过配置文件来设定。于本发明中,优选的实施方式为选取的高质量新闻不低于8条,合并阈值为0.55,质心调整阈值为0.75。
S205:时间片聚类:时间片聚类模块使用媒体报道新闻事件的趋势来拟合事件发展的趋势。
把每篇新闻都映射成在时间轴上的一个点,那么一个新闻簇的新闻集合,就是时间轴上的点的集合。如果新闻的发布时间同事件进展发生的时间一致的话,将这些点划分成若干个片段独立开来,每个独立的片段就可以看作是一个事件发展的阶段。
当然,这是一种理想的假设,实际的情况应该是:描述同一个事件阶段的新闻报道,某个网站的报道可能晚上11点钟就及时发出,而有一些站点,可能要等到第二天8点以后才能发出。而且不同的站点新闻滞后性都不一样,所以时间片聚类的效果打了折扣。但是通过观察,可以透过时间片划分的结果,提取出事件发展的重要的几个阶段。同时,还可以用相似新闻过滤的方法来削弱滞后性新闻带来的负面影响。
时间片聚类的算法是:将所有的新闻按照时间排列,初始时,每篇新闻作为一个独立的片段,每次合并距离最近的两个片段,直到片段的数量足够少或者片段之间的距离都大于一定的阈值时停止合并。度量两个片段之间距离的方法是:计算两个片段中两两新闻对的时间距离,然后求平均值。于本发明优选实施方式中,单遍聚类的合并阈值为0.55。于本发明的优选实施方式中,片段数量至少为3个时停止合并,片段之间的距离大于5个小时的情形下停止合并。
为了更符合新闻发布的时间规律,本发明采用“新闻时间”来代替“自然时间”计算时间距离。
S206:后处理:通过上述的时间片聚类算法,得到事件的若干个进展以后,后处理模块从每个片段中,挑选出最具代表性的一篇新闻作为这个片段的代表新闻。
在这个过程中,还会对时间片划分的结果进行一定的修正工作。如果有一个片段的新闻数量明显比相邻的片段要少很多,那么这个片段要作为噪音被删除掉。
同时,对于选择出来的内容或者标题非常相近的脉络新闻,也会进行去重,只保留时间更早的那篇新闻。计算该新闻相似度时,标题相似的权重为2。
S207:生成脉络数据:脉络数据生成模块生成脉络信息并返回信息处理装置,进行保存。
请参阅图10及图11,于本发明的最佳实施方式中,其示出了根据本发明信息处理方法得到的事件脉络信息,并以专题新闻页的方式展现。该专题新闻页包括位于左上方该事件的热门报道,位于热门报道下方的对该事件的各方评论及位于左侧最下方的带有图片的新闻。新闻页右侧下方即为该新闻的事件回顾,即脉络信息。该脉络信息展示位置可调整。同时,脉络信息的展示也并不限于图10及图11所呈现的展现形式,其具体的应用形式,可以有多种,比如展现成一个时间轴的样式,用户可以随意移到想看的时间点上,则展现这个时间点的进展情况。
特别需要指出的是,本发明具体实施方式中仅以信息处理装置以及处理方法作为示例,在实际应用中任何类型的信息处理装置以及处理方法均适用本发明揭示的原理。对于本领域的普通技术人员来说,在本发明的教导下所作的针对本发明的等效变化,仍应包含在本发明权利要求所主张的范围中。

Claims (23)

1.一种信息处理装置,其特征在于:其包括:
新闻簇信息载入模块:载入新闻簇信息;
脉络分析模块:分析所述新闻簇信息并产生脉络信息;
前端展示模块:展示所述脉络信息,所述脉络信息以专题新闻页展示给用户,所述专题新闻页具有以时间排序的最新报道列表及事件的脉络信息;
其中,所述脉络分析模块包括:
配置信息加载模块:载入新闻聚类后产生的焦点簇配置信息;
新闻数量分布计算模块:统计不同时间段内新闻的数量分布;
脉络需求判定模块:过滤不需要出脉络的新闻事件,并避免产生低质量的新闻簇产出脉络;
相似新闻去重模块:单遍聚类新闻簇内的高质量新闻,并归档相似度很高的新闻,以最早的那篇新闻为代表新闻,参加后一阶段的时间片聚类;
时间片聚类模块:将所有的新闻按照时间排列,每篇新闻作为一个独立的片段,每次合并距离最近的两个片段,直到片段的数量足够少或者片段之间的距离都大于一定的阈值时停止合并;
后处理模块:通过上述的时间片聚类算法,得到事件的若干个进展以后,从每个片段中,挑选出最具代表性的一篇新闻作为这个片段的代表新闻;
脉络数据生成模块:生成脉络信息并返回信息处理装置,以进行保存。
2.如权利要求1所述的信息处理装置,其特征在于,还具有存储模块,用于以通用数据的格式存储所述脉络信息。
3.如权利要求1所述的信息处理装置,其特征在于,所述新闻簇信息载入模块包括:
数据加载模块:加载一个周期内收集到的所有新闻数据;
新闻聚类模块:文本聚类所述一个周期内的新闻数据并分别归类;
计算焦点簇信息模块:计算焦点簇,并产生出若干个新闻簇。
4.如权利要求3所述的信息处理装置,其特征在于,所述数据加载模块的加载周期为4天至7天之间。
5.如权利要求1所述的信息处理装置,其特征在于,所述脉络需求判定模块过滤不需要出脉络的新闻事件,具体为:只有新闻簇的时间跨度大于24小时,才会出脉络信息。
6.如权利要求1所述的信息处理装置,其特征在于,所述最新报道列表位于专题新闻页的左侧,事件的脉络信息位于该专题新闻页的右侧。
7.如权利要求1所述的信息处理装置,其特征在于,所述脉络信息展示为时间轴。
8.一种信息处理方法,其包括步骤:
1)新闻簇信息载入步骤:载入新闻簇信息;
2)脉络分析步骤:分析所述新闻簇信息并产生脉络信息;
3)前端展示步骤:展示所述脉络信息,所述脉络信息以专题新闻页展示给用户,所述专题新闻页具有以时间排序的最新报道列表及事件的脉络信息;
其中,所述脉络分析步骤包括:
1)加载配置信息步骤:载入新闻聚类后产生的焦点簇配置信息;
2)计算新闻数量分布步骤:统计不同时间段的新闻发布数量;
3)判定脉络需求步骤:过滤不需要出脉络的新闻事件,并避免产生低质量的新闻簇产出脉络;
4)相似新闻去重步骤:单遍聚类新闻簇内的高质量新闻,并归档相似度很高的新闻,以最早的那篇新闻为代表新闻,参加后一阶段的时间片聚类;
5)时间片聚类步骤:将所有的新闻按照时间排列,每篇新闻作为一个独立的片段,每次合并距离最近的两个片段,直到片段的数量足够少或者片段之间的距离都大于一定的阈值时停止合并;
6)后处理步骤:通过上述的时间片聚类算法,得到事件的若干个进展以后,从每个片段中,挑选出最具代表性的一篇新闻作为这个片段的代表新闻;
7)生成脉络数据步骤:生成脉络信息并返回信息处理装置,以进行保存。
9.如权利要求8所述的信息处理方法,其特征在于,还包括步骤:以通用数据的格式存储所述脉络信息。
10.如权利要求8或9所述的信息处理方法,其特征在于,所述新闻簇信息载入步骤包括:
1)加载数据步骤:加载一个周期内收集到的所有新闻数据;
2)新闻聚类步骤:文本聚类所述一个周期内的新闻数据并分别归类;
3)计算焦点簇信息步骤:计算焦点簇,并产生出若干个新闻簇。
11.如权利要求10所述的信息处理方法,其特征在于,所述加载数据的周期为4天至7天之间。
12.如权利要求8所述的信息处理方法,其特征在于,所述判定脉络需求的步骤中,时间窗为1天,只有新闻簇的时间跨度大于24小时,才会出脉络信息。
13.如权利要求8所述的信息处理方法,其特征在于,所述时间片聚类步骤中,计算两个片段中两两新闻对的时间距离,然后求平均值以度量两个片段之间距离。
14.如权利要求8所述的信息处理方法,其特征在于,所述后处理步骤中,如果有一个片段的新闻数量明显比相邻的片段要少很多,那么这个片段要作为噪音被删除掉。
15.如权利要求8所述的信息处理方法,其特征在于,所述后处理步骤中,对于所挑选出的每个片段的代表新闻,如果内容或者标题非常相近,则进行去重,只保留时间更早的那篇新闻。
16.如权利要求8所述的信息处理方法,其特征在于,所述判定脉络需求步骤,其包括:
1)发生事件;
2)判断时间跨度是否符合要求,如否,则判定为该事件无脉络需求;
3)如果时间跨度符合要求,则判断事件是否有多个阶段,如果无,则判定无脉络需求;
4)如果事件有多个阶段,则判断各阶段之间是否有逻辑顺序,如果无,则判定为一般脉络需求;
5)如果事件的各阶段之间具有逻辑顺序,则判定为强脉络需求。
17.如权利要求16的信息处理方法,其特征在于,所述事件的逻辑顺序至少包括现象和本质、态度和行动,由浅至深、由主到次或者由此及彼之一。
18.如权利要求16的信息处理方法,其特征在于,所述强脉络需求事件包括持续性事件及突发性事件。
19.如权利要求16的信息处理方法,其特征在于,所述低质量新闻簇是通过统计新闻簇中地区新闻的地域个数,如果地域分布比较散,那么判定为一个低质量的新闻簇。
20.如权利要求16的信息处理方法,其特征在于,所述新闻簇内可以出现的最多地域数目为3个,高于该值则认为是低质量新闻簇。
21.如权利要求16的信息处理方法,其特征在于,对于无法通过地域来过滤的新闻簇,通过对新闻簇内新闻内容的凝聚度来打分,对于打分较低的新闻簇,判定为低质量新闻簇,不给出新闻脉络。
22.如权利要求8所述的信息处理方法,其特征在于,所述最新报道列表位于专题新闻页的左侧,事件的脉络信息位于该专题新闻页的右侧。
23.如权利要求8所述的信息处理方法,其特征在于,所述脉络信息的展示形式为时间轴。
CN 201010560624 2010-11-26 2010-11-26 信息处理装置以及处理方法 Active CN102012917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010560624 CN102012917B (zh) 2010-11-26 2010-11-26 信息处理装置以及处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010560624 CN102012917B (zh) 2010-11-26 2010-11-26 信息处理装置以及处理方法

Publications (2)

Publication Number Publication Date
CN102012917A CN102012917A (zh) 2011-04-13
CN102012917B true CN102012917B (zh) 2013-02-20

Family

ID=43843090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010560624 Active CN102012917B (zh) 2010-11-26 2010-11-26 信息处理装置以及处理方法

Country Status (1)

Country Link
CN (1) CN102012917B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103534700A (zh) * 2011-05-20 2014-01-22 惠普发展公司,有限责任合伙企业 用于配置策略提取的系统和方法
CN103164427B (zh) * 2011-12-13 2016-03-02 中国移动通信集团公司 新闻聚合方法及装置
CN103632302A (zh) * 2012-08-22 2014-03-12 三竹资讯股份有限公司 报价视图的动态通知信息列产生的装置与方法
CN103020159A (zh) * 2012-11-26 2013-04-03 百度在线网络技术(北京)有限公司 一种面向事件的新闻展现方法和装置
CN105653545B (zh) * 2014-11-10 2020-01-31 阿里巴巴集团控股有限公司 在页面中提供业务对象信息的方法及装置
CN104462282B (zh) * 2014-11-26 2018-05-08 百度在线网络技术(北京)有限公司 信息搜索方法和装置
CN104933129B (zh) * 2015-06-12 2019-04-30 百度在线网络技术(北京)有限公司 基于微博的事件脉络获取方法和系统
CN105447169B (zh) * 2015-12-07 2019-02-12 百度在线网络技术(北京)有限公司 文献归一方法、文献搜索方法及对应装置
CN105787095B (zh) * 2016-03-16 2019-09-27 广州索答信息科技有限公司 互联网新闻的自动生成方法和装置
CN107229645B (zh) * 2016-03-24 2020-12-04 腾讯科技(深圳)有限公司 信息处理方法、服务平台及客户端
CN106162093A (zh) * 2016-08-03 2016-11-23 天梯头条传媒(苏州)有限公司 现场实时采编系统
CN106844466A (zh) * 2016-12-21 2017-06-13 百度在线网络技术(北京)有限公司 事件脉络生成方法和装置
CN108170773A (zh) * 2017-12-26 2018-06-15 百度在线网络技术(北京)有限公司 新闻事件挖掘方法、装置、计算机设备和存储介质
CN108399194A (zh) * 2018-01-29 2018-08-14 中国科学院信息工程研究所 一种网络威胁情报生成方法及系统
CN109344316B (zh) * 2018-08-14 2022-04-29 阿里巴巴(中国)有限公司 新闻热度计算方法及装置
CN110232077B (zh) * 2019-06-19 2021-05-14 北京百度网讯科技有限公司 事件脉络生成方法及装置
CN111723262A (zh) * 2020-06-15 2020-09-29 武汉文慧谷信息技术有限公司 一种批量合并网络新闻标题、摘要、正文的系统和方法
CN112926298A (zh) * 2021-03-02 2021-06-08 北京百度网讯科技有限公司 新闻内容识别方法、相关装置及计算机程序产品
CN113204690B (zh) * 2021-05-28 2023-09-26 抖音视界有限公司 一种信息展示的方法、装置以及计算机存储介质
CN114491102B (zh) * 2022-04-14 2022-06-28 深圳格隆汇信息科技有限公司 一种基于大数据的数据库监控方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231640A (zh) * 2007-01-22 2008-07-30 北大方正集团有限公司 一种自动计算互联网上主题演化趋势的方法及系统
CN101571853A (zh) * 2009-05-22 2009-11-04 哈尔滨工程大学 网络话题内容演化分析装置及分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020152245A1 (en) * 2001-04-05 2002-10-17 Mccaskey Jeffrey Web publication of newspaper content

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231640A (zh) * 2007-01-22 2008-07-30 北大方正集团有限公司 一种自动计算互联网上主题演化趋势的方法及系统
CN101571853A (zh) * 2009-05-22 2009-11-04 哈尔滨工程大学 网络话题内容演化分析装置及分析方法

Also Published As

Publication number Publication date
CN102012917A (zh) 2011-04-13

Similar Documents

Publication Publication Date Title
CN102012917B (zh) 信息处理装置以及处理方法
Auffhammer et al. The decomposition and dynamics of industrial carbon dioxide emissions for 287 Chinese cities in 1998–2009
CN102831193A (zh) 基于分布式多级聚类的话题检测装置及方法
CN102915335B (zh) 基于用户操作记录和资源内容的信息关联方法
CN101477542B (zh) 一种抽样分析方法、系统和设备
CN105095368B (zh) 一种对新闻信息进行排序的方法及装置
CN103500213B (zh) 基于预读取的页面热点资源更新方法和装置
CN102194015B (zh) 根据检索信息热度统计实现检索的方法
CN102426590B (zh) 一种质量评价的方法和装置
CN105117501A (zh) 网络爬虫调度方法及应用其的网络爬虫系统
CN108304454B (zh) 基于大数据的发票数据实时聚合装置
CN102314491B (zh) 多核环境下基于海量日志的类似行为模式用户识别方法
CN102902775A (zh) 互联网实时计算的方法和系统
CN101477552A (zh) 网站用户等级划分方法
CN109992569A (zh) 集群日志特征提取方法、装置及存储介质
CN105677716A (zh) 一种计算机数据采集处理分析系统
CN104182482A (zh) 一种新闻列表页判断方法及筛选新闻列表页的方法
CN103440328B (zh) 一种基于鼠标行为的用户分类方法
CN106469176A (zh) 一种用于提取文本摘要的方法与设备
CN105677813A (zh) 一种信息展示方法及装置
CN104035969A (zh) 社交网络中的特征词库构建方法和系统
CN106156364A (zh) 一种基于时间流的计算新闻事件动态影响力的方法与系统
CN104731818A (zh) 关键词优化方法和装置
CN102567803B (zh) 基于赋优先级事件图的复杂事件调度系统及方法
CN109634903A (zh) 一种经济管理数据分析装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant