CN103336847A - 一种新闻热点标签的生成方法及系统 - Google Patents

一种新闻热点标签的生成方法及系统 Download PDF

Info

Publication number
CN103336847A
CN103336847A CN2013103084555A CN201310308455A CN103336847A CN 103336847 A CN103336847 A CN 103336847A CN 2013103084555 A CN2013103084555 A CN 2013103084555A CN 201310308455 A CN201310308455 A CN 201310308455A CN 103336847 A CN103336847 A CN 103336847A
Authority
CN
China
Prior art keywords
news
lemma
record
bunch
hot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013103084555A
Other languages
English (en)
Other versions
CN103336847B (zh
Inventor
伏峰
章正道
林胜通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN201310308455.5A priority Critical patent/CN103336847B/zh
Priority claimed from CN201310308455.5A external-priority patent/CN103336847B/zh
Publication of CN103336847A publication Critical patent/CN103336847A/zh
Application granted granted Critical
Publication of CN103336847B publication Critical patent/CN103336847B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种新闻热点标签的生成方法及系统。该方法包括:提取新闻数据集中的新闻簇,其中,新闻数据集由多个新闻记录组成,一个新闻簇包括至少两个新闻记录;确定提取出的多个新闻簇中的热点新闻簇;提取热点新闻簇中各新闻记录的关键字;生成由一个新闻记录的至少两个关键字组合的组合词,其中,一个新闻记录对应一个或多个组合词;以及根据组合词的热度值生成新闻热点标签。通过本发明,能够提高获取新闻热点标签的准确性。

Description

一种新闻热点标签的生成方法及系统
技术领域
本发明涉及信息处理技术领域,具体而言,特别涉及一种新闻热点标签的生成方法及系统。
背景技术
随着互联网的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”。由于网络媒体与传统媒体在传播载体和传播方式上的不同,将导致网络舆论热点、焦点层出不穷,而这些信息的产生将对社会产生巨大影响。因此,有必要对这些热点信息的正确性及传播范围进行有效处理。
目前,针对新闻信息的分析功能有:新闻分类和预警、新闻聚合、新闻智能关联、新闻转载追踪等,而新闻事件热点标签的生成是上述分析功能的基础工作之一,例如:利用新闻热点标签作为检索关键字从而发现热点新闻;或者利用新闻热点标签生成热点新闻摘要等。
目前,实用阶段的新闻事件热点标签生成技术主要有以下两类:
1)基于统计特征的方法,该方法主要是对词元的使用频率进行统计,虽然操作简单,但是会忽略出现频率不高但对于文档具有关键意义的词语,导致新闻热点标签生成的准确性低;
2)基于词语网络图的方法,该方法根据一定规则将文档映射为词语网络,利用词语网络图计算词语的关键度,在该方法中,目前主要是将高频词语以及它们在同一窗口(也即相互邻接、在相同的句子或段落等)的共现关系映射成词语网络,但该方法需要设定的参数过多,如顶点数、边数等,因而常造成边界上的取舍问题,如果边界取舍不当,则造成新闻热点标签生成的准确性低。
针对现有技术中新闻热点标签生成准确性低的问题,目前尚未提出有效的解决方法。
发明内容
本发明的主要目的在于提供一种新闻热点标签的生成方法及系统,以解决现有技术中新闻热点标签生成准确性低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种新闻热点标签的生成方法。
本发明的新闻热点标签的生成方法包括:提取新闻数据集中的新闻簇,其中,新闻数据集由多个新闻记录组成,一个新闻簇包括至少两个新闻记录;确定提取出的多个新闻簇中的热点新闻簇;提取热点新闻簇中各新闻记录的关键字;生成由一个新闻记录的至少两个关键字组合的组合词,其中,一个新闻记录对应一个或多个组合词;以及根据组合词的热度值生成新闻热点标签。
进一步地,提取新闻数据集中的新闻簇包括:计算新闻数据集中两个新闻记录之间的相似度;判断相似度是否大于第一预设阈值;以及若相似度大于第一预设阈值时,确定两个新闻记录属于同一新闻簇。
进一步地,计算两个新闻记录之间的相似度包括:将两个新闻记录分别进行特征化提取,得到一个新闻记录对应的第一向量和另一个新闻记录对应的第二向量;采用以下任意一个公式计算相似度:
Sim(X,Y)=(X*Y)/(||X||*||Y||),
Sim ( X , Y ) = Σ i = 1 n | x i - y i | , 或者
Sim ( X , Y ) = Σ i = 1 n ( x i - y i ) * ( x i - y i ) ,
其中,Sim(X,Y)为相似度,X为第一向量,Y为第二向量,X=(x1,x2,x3,...,xn),Y=(y1,y2,y3,...,yn),||X||和||Y||分别为X和Y的欧几里得范数。
进一步地,第一向量对应的新闻记录为第一新闻记录,将第一新闻记录进行特征化提取,得到第一向量包括:对第一新闻记录的标题和正文进行分词,得到由多个词元组成的第一词元集;根据词元在第一新闻记录中出现的次数计算第一词元集中词元对应的特征值;删除第一词元集中特征值小于第二预设阈值的词元;以及生成第一向量:X=(<w1,c1>,<w2,c2>,<w3,c3>,...,<wn,cn>),其中,w1,w2,w3,...,wn第一词元集中词元,c1,c2,c3,...,cn分别为词元对应的特征值,n为第一词元集中词元的个数。
进一步地,计算第一词元集中词元对应的特征值包括采用以下公式进行计算:ci=a1+a2*T+a3*P+a4*K,其中,ci为第一词元集中第i个词元对应的特征值,a1为该词元在第一新闻记录中出现的次数,a2为该词元在第一新闻记录的标题中出现的次数,a3为该词元在第一新闻记录的段首或段尾中出现的次数,a4为该词元在第一新闻记录的关键句中出现的次数,T、P、K均为无量纲参数。
进一步地,在得到第一词元集之后、计算第一词元集中词元对应的特征值之前,将第一新闻记录进行特征化提取还包括:去除第一词元集中的无效词。
进一步地,在计算第一词元集中词元对应的特征值之后、生成第一向量之前,将第一新闻记录进行特征化提取还包括:获取第一词元集中互为同义词的词元,得到同义词元组;将同义词元组对应的各特征值相加后作为最大词元对应的特征值,其中,最大词元为同义词元组中特征值最大的词元;在第一词元集中删除同义词元组中除最大词元之外的其他词元。
进一步地,提取热点新闻簇中的关键字包括:提取热点新闻簇中各新闻记录对应的向量中的词元作为关键字。
进一步地,根据组合词的热度值生成新闻热点标签包括:针对热点新闻簇的各新闻记录,计算每个新闻记录对应的组合词的特征值,其中,一个组合词的特征值为该组合词中各词元对应的特征值的和;采用以下公式计算组合词的热度值:
Term _ hot _ value = { [ &Sigma; j = 1 N ( Term _ Count ji / &Sigma; i = 1 M Term _ Count ji 2 ) ] / N } * e n / N
其中,Term_hot_value为第一组合词的热度值,第一组合词为任意一个组合词,N为热点新闻簇包括的新闻记录的个数,M为热点新闻簇中第j个新闻记录对应的组合词的个数,n为热点新闻簇中具有第一组合词的新闻记录个数,Term_Countji为第j个新闻记录对应的第i个组合词的特征值;以及确定热度值大于第三预设阈值的组合词为新闻热点标签。
进一步地,热点新闻簇包括第二新闻记录,提取第二新闻记录的关键字包括:对第二新闻记录的标题和正文进行分词,得到由多个词元组成的第二词元集;根据词元在第二新闻记录中出现的次数计算第二词元集中词元对应的特征值;删除第二词元集中特征值小于第四预设阈值的词元;确定第二词元集中的词元为第二新闻记录的关键字。
进一步地,根据组合词的热度值生成新闻热点标签包括:针对热点新闻簇的各新闻记录,计算每个新闻记录对应的组合词的特征值,其中,一个组合词的特征值为该组合词中各关键字在该新闻记录中出现次数的和;采用以下公式计算每个组合词的热度值:
Term _ hot _ value = { [ &Sigma; j = 1 N ( Term _ Count ji / &Sigma; i = 1 M Term _ Count ji 2 ) ] / N } * e n / N
其中,Term_hot_value为第二组合词的热度值,第二组合词为任意一个组合词,N为热点新闻簇包括的新闻记录的个数,M为热点新闻簇中第j个新闻记录对应的组合词的个数,n为热点新闻簇中具有第二组合词的新闻记录个数,Term_Countji为第j个新闻记录对应的第i个组合词的特征值;以及确定热度值大于第五预设阈值的组合词为新闻热点标签。
进一步地,确定提取出的多个新闻簇中的热点新闻簇包括采用以下公式计算各个新闻簇的热度值:
Cluster_Hot_Value=Site_Count*Site_Rate+Publish_Count*Publish_Rate
其中,Cluster_Hot_Value为一个新闻簇热度值,Site_Count为该新闻簇中包含的网站个数,Site_Rate为曝光率权重,Publish_Count为新闻的发布量,Publish_Rate为发布率权重,且Site_Rate+Publish_Rate=1;以及根据各个新闻簇的热度值确定热点新闻簇。
进一步地,在提取新闻数据集中的新闻簇之前,该方法还包括:对新闻数据集进行消噪处理。
进一步地,对新闻数据集进行消噪处理包括:将新闻数据集中的新闻记录的数据类型与预设的数据类型进行匹配;删除新闻数据集中数据类型与预设的数据类型不匹配的新闻记录,和/或判断新闻数据集中的新闻记录的标题与正文是否一致;删除新闻数据集中标题与正文不一致的新闻记录。
进一步地,第三新闻记录为新闻数据集中的任意一个新闻记录,判断第三新闻记录的标题与正文是否一致包括:对第三新闻记录的标题进行分词,得到由一个或多个词元组成的第三词元组;统计第三词元组中各词元在第三新闻记录的正文中出现次数的和;判断统计得到的和是否大于第六预设阈值;以及当统计得到的和大于第六预设阈值时,确定第三新闻记录的标题与正文一致。
为了实现上述目的,根据本发明的另一个方面,提供了一种新闻热点标签的生成系统。
本发明的新闻热点标签的生成系统包括:第一提取单元,用于提取新闻数据集中的新闻簇,其中,新闻数据集由多个新闻记录组成,一个新闻簇包括至少两个新闻记录;确定单元,用于确定提取出的多个新闻簇中的热点新闻簇;第二提取单元,用于提取热点新闻簇中各新闻记录的关键字;第一生成单元,用于生成由一个新闻记录的至少两个关键字组合的组合词,其中,一个新闻记录对应一个或多个组合词;以及第二生成单元,用于根据组合词的热度值生成新闻热点标签。
进一步地,第一提取单元包括:第一计算模块,用于计算新闻数据集中两个新闻记录之间的相似度;判断模块,用于判断相似度是否大于第一预设阈值;以及第一确定模块,用于当相似度大于第一预设阈值时,确定两个新闻记录属于同一新闻簇。
进一步地,第一计算模块包括:特征化子模块,用于将两个新闻记录分别进行特征化提取,得到一个新闻记录对应的第一向量和另一个新闻记录对应的第二向量;计算子模块,用于采用以下任意一个公式计算相似度:
Sim(X,Y)=(X*Y)/(||X||*||Y||),
Sim ( X , Y ) = &Sigma; i = 1 n | x i - y i | , 或者
Sim ( X , Y ) = &Sigma; i = 1 n ( x i - y i ) * ( x i - y i ) ,
其中,Sim(X,Y)为相似度,X为第一向量,Y为第二向量,X=(x1,x2,x3,...,xn),Y=(y1,y2,y3,...,yn),||X||和||Y||分别为X和Y的欧几里得范数。
进一步地,第一向量对应的新闻记录为第一新闻记录,特征化子模块采用以下步骤得到第一向量:对第一新闻记录的标题和正文进行分词,得到由多个词元组成的第一词元集;根据词元在第一新闻记录中出现的次数计算第一词元集中词元对应的特征值;删除第一词元集中特征值小于第二预设阈值的词元;以及生成第一向量:X=(<w1,c1>,<w2,c2>,<w3,c3>,...,<wn,cn>),其中,w1,w2,w3,...,wn第一词元集中词元,c1,c2,c3,...,cn分别为词元对应的特征值,n为第一词元集中词元的个数。
进一步地,特征化子模块采用以下公式计算第一词元集中词元对应的特征值:ci=a1+a2*T+a3*P+a4*K,其中,ci为第一词元集中第i个词元对应的特征值,a1为该词元在第一新闻记录中出现的次数,a2为该词元在第一新闻记录的标题中出现的次数,a3为该词元在第一新闻记录的段首或段尾中出现的次数,a4为该词元在第一新闻记录的关键句中出现的次数,T、P、K均为无量纲参数。
进一步地,第二提取单元提取热点新闻簇中各新闻记录对应的向量中的词元作为关键字。
进一步地,第二生成单元包括:第二计算模块,用于针对热点新闻簇的各新闻记录,计算每个新闻记录对应的组合词的特征值,其中,一个组合词的特征值为该组合词中各词元对应的特征值的和;第三计算模块,采用以下公式计算组合词的热度值:
Term _ hot _ value = { [ &Sigma; j = 1 N ( Term _ Count ji / &Sigma; i = 1 M Term _ Count ji 2 ) ] / N } * e n / N
其中,Term_hot_value为第一组合词的热度值,第一组合词为任意一个组合词,N为热点新闻簇包括的新闻记录的个数,M为热点新闻簇中第j个新闻记录对应的组合词的个数,n为热点新闻簇中具有第一组合词的新闻记录个数,Term_Countji为第j个新闻记录对应的第i个组合词的特征值;以及第二确定模块,用于确定热度值大于第三预设阈值的组合词为新闻热点标签。
进一步地,确定单元包括第四计算模块,用于采用以下公式计算各个新闻簇的热度值:
Cluster_Hot_Value=Site_Count*Site_Rate+Publish_Count*Publish_Rate
其中,Cluster_Hot_Value为一个新闻簇热度值,Site_Count为该新闻簇中包含的网站个数,Site_Rate为曝光率权重,Publish_Count为新闻的发布量,Publish_Rate为发布率权重,且Site_Rate+Publish_Rate=1;以及第三确定模块,用于根据各个新闻簇的热度值确定热点新闻簇。
通过本发明,在生成新闻热点标签时,首先新闻数据集中提取新闻簇,每一个新闻簇都是由一群内容相似的新闻记录组成,而不同的新闻簇之间的新闻高度相异,然后在提取出的多个新闻簇中确定热点新闻簇,再提取热点新闻簇中各新闻记录的关键字,并生成由一个新闻记录的至少两个关键字组合的组合词,最后根据组合词的热度值生成新闻热点标签,能够依据海量的新闻数据集生成新闻热点标签,解决了新闻热点标签生成准确性低问题,达到了提高新闻热点标签生成准确性的效果。
附图说明
图1是根据本发明第一实施例的新闻热点标签的生成方法的流程图;
图2是根据本发明第二实施例的新闻热点标签的生成方法的流程图;
图3是根据本发明第三实施例的新闻热点标签的生成方法的流程图;
图4是根据本发明第四实施例的新闻热点标签的生成系统的框图;
图5是根据本发明第五实施例的新闻热点标签的生成系统的框图;
图6是根据本发明第六实施例的新闻热点标签的生成系统的工作流程示意图;
图7至图10分别是根据本发明第六实施例的新闻热点标签的生成系统中各模块的工作流程示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步说明。需要指出的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
首先对本发明所提供的新闻热点标签的生成方法的实施例进行详细描述。
图1是根据本发明第一实施例的新闻热点标签的生成方法的流程图,如图1所示,该方法包括如下的步骤S102至步骤S110。
步骤S102:提取新闻数据集中的新闻簇。新闻数据集是由多个新闻记录组成的集合,该集合可从网站上获取,例如自动获取各大门户网站上新闻板块的新闻记录。新闻簇是由至少两个内容相似的新闻记录组成,属于不同新闻簇的新闻记录之间内容高度相异。该步骤可通过聚类方法,将新闻数据集中各新闻记录进行聚类,得到新闻簇。
步骤S104:确定提取出的多个新闻簇中的热点新闻簇。从提取出的多个新闻簇确定热点新闻簇时,可根据新闻簇中各新闻记录的曝光次数、转载次数、评论量、发布量以及来源网站个数等因素计算新闻簇热度值,然后根据新闻簇的热度值进行排序,提取排名靠前的新闻簇作为热点新闻事件,即热点新闻簇。
在该步骤中,根据实际需要,可能确定一个或多个热点新闻簇,当确定的热点新闻簇是多个时,分别对每个热点新闻簇执行步骤S106至步骤S110,以确定每个热点新闻簇的新闻热点标签。
步骤S106:提取热点新闻簇中各新闻记录的关键字。在提取关键字时,对热点新闻簇进行分析,通过多文档关键字抽取技术提炼出热点新闻簇中各新闻记录的关键字。这些关键字是指能够体现新闻记录的核心词,例如以位于新闻标题中的一些词作为关键字。
步骤S108:生成由一个新闻记录的至少两个关键字组合的组合词。由于单一关键字所表示的信息量有限,因此在该步骤中将一个新闻记录的至少两个关键字组合为关键词,优选地,以相邻的关键字结合起来形成组合词,从而起到了扩充信息量的作用。在进行关键字的组合时,可结合关键字的词性进行合理组合,组合后,一个新闻记录将对应一个或多个组合词。
步骤S110:根据组合词的热度值生成新闻热点标签。在生成新闻热点标签时,可根据组合词在新闻记录中出现的次数、位置、在整个热点新闻簇中出现的概率等因素计算该组合词的热度值,然后根据组合词热度值进行排序,提取排名靠前的组合词作为新闻热点标签。
采用该实施例提供的新闻热点标签的生成方法,从海量的新闻数据集中奖相似的新闻进行聚类得到新闻簇,并确定新闻簇中的热点新闻簇,然后在热点新闻簇的多个新闻记录中获取到由多个关键字组成组合词,最后根据组合词的热度值确定新闻热点标签,提高了获取新闻热点标签的准确性。
图2是根据本发明第二实施例的新闻热点标签的生成方法的流程图,如图2所示,该方法包括如下的步骤S202至步骤S214。
步骤S202:获取新闻数据集。在该步骤中,可定时或者在满足一定条件时,从预定的各大门户网站新闻板块自动获取多条新闻记录,该获取到的新闻记录采用统一格式存储,将每条新闻记录存储为由<新闻标题,新闻内容,发布网站,发布时间,新闻链接>五部分内容组成的数据。
步骤S204:对新闻数据集进行消噪处理。由于现实情况下数据是存在噪音的,因此该步骤的主要功能便是针对数据源中不合理数据进行数据清理,保留有效数据,过滤无效数据,以进一步提高获取新闻热点标签的准确性,同时,降低数据处理的复杂度。
优选地,在进行消噪处理时采用如下的一种和/或两种方法。
方法1:将新闻数据集中的新闻记录的数据类型与预设的数据类型进行匹配,从而筛选出有问题的数据,其中,预设的数据类型包括<新闻标题,新闻内容,发布网站,发布时间,新闻链接>五部分内容,并且任意一部分内容的数据格式均是标准数据格式。在匹配时,如一条新闻记录的某部分内容为空,或者该新闻记录的某部分内容的数据格式和标准数据格式不一致,确定该新闻纪录的数据类型与预设数据类型不匹配,将该新闻纪录从新闻数据集中删除。
方法2:判断新闻数据集中的新闻记录的标题与正文是否一致,当标题与正文不一致时,确定该新闻记录属于无效的新闻记录,从新闻数据集中删除。
为了准确的将无效的新闻记录从新闻数据集中删除,更优选地,在判断新闻记录的标题与正文是否一致时,首先对该新闻记录的标题进行分词,得到一个或多个词元,将该一个或多个词元组成一个词元组;然后统计该词元组中各词元在该新闻记录的正文中出现次数的和;再判断统计得到的和是否大于预设的阈值,当统计得到的和大于该阈值时,确定该新闻记录的标题与正文一致,否则确定为不一致。
步骤S206:提取消噪后的新闻数据集中的新闻簇。优选地,在提取新闻簇时,首先计算新闻数据集中各新闻记录之间的相似度,将相似度较高的新闻纪录构成新闻簇。
步骤S208:确定提取出的多个新闻簇中的热点新闻簇。在确定热点新闻簇时,首先计算各个新闻簇的热度值,然后根据计算得到的热度值确定热点新闻簇。优选地,在计算新闻簇的热度值时,采用以下的公进行计算:
Cluster_Hot_Value=Site_Count*Site_Rate+Publish_Count*Publish_Rate
其中,Cluster_Hot_Value为一个新闻簇热度值,Site_Count为该新闻簇中包含的网站个数,也即曝光度,是指该新闻簇中各新闻记录的不同源网站的个数,Site_Rate为曝光率权重,用来衡量曝光度Site_Count的重要程度,即在计算新闻簇热度值时Site_Count所占的比重;Publish_Count为新闻的发布量,是指在新闻簇中包含的所有新闻数;Publish_Rate为发布率权重,用来衡量新闻发布量Publish_Count的重要程度,即在计算新闻簇热度值时Publish_Count所占的比重,且Site_Rate+Publish_Rate=1。
对每个新闻簇进行计算,得到各新闻簇的热度值,然后将各个热度值进行由大到小的排序,根据实际需要选择热度值排名前几位的新闻簇作为热点新闻簇,或者将计算得到的热度值与预设值相比较,选择热度值大于预设值的新闻簇作为热点新闻簇。
步骤S210:提取热点新闻簇中各新闻记录的关键字。对于一个新闻纪录,在提取关键字时,首先对该新闻记录的标题和正文进行分词,得到由多个词元组成词元集;然后根据词元在该新闻记录中出现的次数计算词元集中每个词元对应的特征值,其中,针对词元在新闻记录中出现的位置给予不同程度的线性加权;然后将每个词元的特征值与预设阈值比较,找出特征值小于预设阈值的词元,并将这些词元从词元集中删除,该词元集中剩下的词元作为该新闻记录的关键字。将热点新闻簇中各新闻纪录按照上述方法确定关键字后,便可得到一个热点新闻簇对应的关键字。
步骤S212:生成由一个新闻记录的至少两个关键字组合的组合词。针对每个新闻纪录,在得到关键字后,根据该新闻纪录的关键字生成该新闻纪录对应的组合词。在生成组合词时,可将相邻的两个或多个关键字进行组合,具体地,可采用如下的组合方法。
对于两个关键字生成的组合词,若前面关键字的词性为形容词,则后面关键字只能是名词,即“形容词+名词”,其他的形式还有“动词+副词”,“动词+名词”,“名词+名词”,“名词+动词”五种形式;对于三个关键字生成的组合词,组合可以是下面的任意一种:“名词+名词+名词”,“名词+形容词+名词”,“动词+名词+名词”,“名词+名词+动词”,“名词+动词+名词”,“形容词+名词+动词”,“副词+形容词+名词”,此外用户还可以根据自己的业务需求扩充组合词形式。将关键字组合为组合词以后,扩充了新闻热点标签的信息量。
步骤S214:根据组合词的热度值生成新闻热点标签。
通过上述步骤S212,可以得到热点新闻簇中各新闻记录的组合词,在该步骤中,针对一个新闻纪录,首先计算各个组合词的特征值,一个组合词的特征值为该组合词中各关键字在该新闻记录中出现次数的和;然后分别根据每个组合词的特征值计算其热度值,具体地,可采用如下的公式计算:
Term _ hot _ value = { [ &Sigma; j = 1 N ( Term _ Count ji / &Sigma; i = 1 M Term _ Count ji 2 ) ] / N } * e n / N
其中,Term_hot_value为组合词的热度值,该组合词为某热点新闻簇中第j个新闻记录对应的组合词,N为该热点新闻簇包括的新闻记录的个数,M为该第j个新闻记录对应的组合词的个数,n为该热点新闻簇中具有该组合词的新闻记录个数,Term_Countji为该第j个新闻记录对应的第i个组合词的特征值。
采用上述公式,可确定每一个组合词的热度值,然后将每个热度值与预设阈值,也即预设的热度值进行比较,找出热度值大于该预设阈值的组合词,将这一部分组合词作为新闻热点标签。
采用该实施例提供的新闻热点标签的生成方法,获取到新闻数据集后,首先对其进行消噪处理,能够避免噪声数据对新闻热点标签准确性的影响,同时提高后续步骤中数据处理效率;在确定热点新闻簇时,考虑新闻记录来源网站个数、曝光率权重、新闻的发布量以及发布率权重因素,能够准确的从新闻数据集中提取热点新闻簇;在利用关键字生成组合词时,考虑了关键字的词性,使得新闻热点标签的提取结果更加准确。
图3是根据本发明第三实施例的新闻热点标签的生成方法的流程图,如图3所示,该方法包括如下的步骤S302至步骤S318。
步骤S302:获取新闻数据集。
步骤S304:对新闻数据集进行消噪处理。
上述的步骤S302与第二实施例中的步骤S202相同,上述的步骤S304与第二实施例中的步骤S204相同,此处不再赘述。
步骤S306:将消噪后的新闻数据集中的新闻纪录进行特征化提取,得到每个新闻纪录对应的向量。
优选地,针对一个新闻纪录A,计算该新闻纪录A对应的向量的方法具体包括如下的步骤S3060至步骤S3063。
步骤S3060:对该新闻记录A的标题和正文进行分词,得到由多个词元组成的词元集{w1,w2,w3,...,wn}。
步骤S3061:根据词元在该新闻记录A中出现的次数计算词元集中每个词元对应的特征值。
以词元集{w1,w2,w3,...,wn}中任意一个词元wi为例,可采用以下公式计算该词元wi对应的特征值ci:ci=(a1+a2*T+a3*P+a4*K),
其中,a1为该词元wi在新闻记录A中出现的次数,a2为该词元wi在新闻记录A的标题中出现的次数,a3为该词元wi在新闻记录A的段首或段尾中出现的次数,a4为该词元wi在新闻记录A的关键句中出现的次数,该处的关键句是指新闻纪录中的核心的和综述的句子,可采用预设词进行标定,例如将包括有“关键是”、“旨在”、“总之”等的句子标定为关键句,T、P、K均为大于零的无量纲参数。
步骤S3062:删除词元集{w1,w2,w3,...,wn}中特征值小于预设阈值的词元。
步骤S3063:根据删除后的词元及其对应的特征值生成新闻记录A对应的向量:X=(<w1,c1>,<w2,c2>,<w3,c3>,...,<wn,cn>),n为词元集中词元的个数。
更优选地,在步骤S3060与步骤S3061之间,设置步骤S3064:去除词元集{w1,w2,w3,...,wn}中的无效词。在该步骤S3064中,通过词性分型,确定词元集中的连词、方位词、区别词、叹词、拟声词、介词、量词、代词、助词、语气词、状态词等无效词,然后将词元集{w1,w2,w3,...,wn}中的无效词去除。通过该步骤S3064,在步骤S3061中,只需计算剩余词元的词元集,减少步骤S3061的计算量,提升数据处理效率。同时,步骤S3063中的n为原始词元集经过S3064去除和步骤S3062删除后剩余词元的个数。
为了进一步提升数据处理效率,并使新闻热点标签的准确度更高,进一步优选地,在步骤S3061与步骤S3062之间,设置步骤S3065至步骤S3067进行同义词元的处理,其中,对于经过的向量计算方法,在步骤S3063中,n为原始词元集经过S3064去除、步骤S3062删除和步骤S3067去除后剩余词元个数。
步骤S3065:获取去除无效词后的词元集中互为同义词的词元,得到同义词元组。
步骤S3066:将同义词元组对应的各特征值相加后作为最大词元对应的特征值,其中,最大词元为同义词元组中特征值最大的词元。
步骤S3067:在去除无效词后的词元集中删除同义词元组中除最大词元之外的其他词元。
步骤S308:根据两个新闻纪录对应向量计算两个新闻纪录之间的相似度。
优选地,可采用以下任意一种方法计算相似度。
余弦值相似度计算法:Sim(X,Y)=(X*Y)/(||X||*||Y||),X和Y分别为两个新闻纪录对应的向量,X*Y表示向量X和向量Y之间的向量积,||X||和||Y||分别为X和Y的欧几里得范数;
曼哈顿距离相似度计算法:
Figure BDA00003547276600131
X=(x1,x2,x3,...,xn),Y=(y1,y2,y3,...,yn),|xi-yi|为xi减去yi的绝对值。
欧几里得距离相似度计算法:
Figure BDA00003547276600132
(xi-yi)*(xi-yi)表示xi减去yi后差的平方。
步骤S310:根据两个新闻纪录之间的相似度确定其是否属于同一新闻簇。
在确定新闻簇时,判断两个新闻纪录的相似度Sim(X,Y)是否大于预设阈值,如果大于,则认为两个新闻纪录的内容是相似的,属于同一新闻簇,将其合并成簇;否则,继续计算两个新闻纪录中一个新闻纪录与下一个新闻纪录之间的相似度,其中,预设阈值可由用户根据实际需要定义。
步骤S312:确定提取出的多个新闻簇中的热点新闻簇。
步骤S314:提取热点新闻簇中各新闻记录对应的向量中的词元作关键字。
步骤S316:生成由一个新闻记录的至少两个关键字组合的组合词。
上述的步骤S312、步骤S314和步骤S316分别依次与上述第二实施例中的步骤S208、步骤S210和步骤S212相同,此处不再赘述。
步骤S318:根据组合词的热度值生成新闻热点标签。
在该步骤中,针对一个新闻纪录,首先计算各个组合词的特征值,一个组合词的特征值为该组合词中各关键字(也即各词元)对应的特征值的和,然后分别根据每个组合词的特征值计算其热度值,具体地,可采用如下的公式计算:
Term _ hot _ value = { [ &Sigma; j = 1 N ( Term _ Count ji / &Sigma; i = 1 M Term _ Count ji 2 ) ] / N } * e n / N
其中,Term_hot_value为组合词的热度值,该组合词为某热点新闻簇中第j个新闻记录对应的组合词,N为该热点新闻簇包括的新闻记录的个数,M为该第j个新闻记录对应的组合词的个数,n为该热点新闻簇中具有该组合词的新闻记录个数,Term_Countji为该第j个新闻记录对应的第i个组合词的特征值。
采用上述公式,可确定每一个组合词的热度值,然后将每个热度值与预设阈值,也即预设的热度值进行比较,找出热度值大于该预设阈值的组合词,将这一部分组合词作为新闻热点标签。优选地,可将每一个组合词的热度值进行归一化处理,将归一化处理后的值作为热度值。
采用该实施例提供的新闻热点标签的生成方法,在计算词元对应的特征值时,将词元所在的位置给予线性加权,从而避免漏掉出现次数少但重要的词元,提高获取新闻热点标签的准确性;在计算特征值之前,根据词元的词性将无效词去掉,提高方法的执行效率;在计算特征值之后,从语义出发,将同义的词元特征值进行合并处理,提升数据处理效率的同时进一步使得新闻热点标签的准确度更高;在计算热度值时,根据每个组合词的特征值进行计算,保证了新闻热点标签的准确性;在确定新闻簇时,计算新闻纪录的相似度进行确定,计算方法简单,准确性高。
以上是对本发明所提供的新闻热点标签的生成方法进行的描述。下面将对本发明提供的新闻热点标签的生成系统进行描述,需要说明的是,该系统可用于执行上述任意一种新闻热点标签的生成方法。
图4是根据本发明第四实施例的新闻热点标签的生成系统的框图,如图4所示,该系统包括第一提取单元10、确定单元20、第二提取单元30、第一生成单元40和第二生成单元50。
其中,第一提取单元10用于提取新闻数据集中的新闻簇。新闻数据集是由多个新闻记录组成的集合,该提取单元10首先从网站上获取各大门户网站上新闻板块的新闻记录,得到细纹数据集,然后通过聚类方法将新闻数据集中各新闻记录进行聚类,得到新闻簇,因而新闻簇至少由两个内容相似的新闻记录组成,属于不同新闻簇的新闻记录之间内容高度相异。
确定单元20用于确定提取出的多个新闻簇中的热点新闻簇,该确定单元20可根据新闻簇中各新闻记录的曝光次数、转载次数、评论量、发布量以及来源网站个数等因素计算新闻簇热度值,然后根据新闻簇的热度值进行排序,提取排名靠前的新闻簇作为热点新闻事件,也即热点新闻簇。
第二提取单元30用于提取热点新闻簇中各新闻记录的关键字,在提取关键字时,第二提取单元30对热点新闻簇进行分析,通过多文档关键字抽取技术提炼出热点新闻簇中各新闻记录的关键字。这些关键字是指能够体现新闻记录的核心词,例如以位于新闻标题中的一些词作为关键字。
第一生成单元40用于生成由一个新闻记录的至少两个关键字组合的组合词,由于单一关键字所表示的信息量有限,因此通过该单元将一个新闻记录的至少两个关键字组合为关键词,优选地,以相邻的关键字结合起来形成组合词,从而起到了扩充信息量的作用。在进行关键字的组合时,可结合关键字的词性进行合理组合,组合后,一个新闻记录将对应一个或多个组合词。
第二生成单元50用于根据组合词的热度值生成新闻热点标签,在生成新闻热点标签时,可根据组合词在新闻记录中出现的次数、位置、在整个热点新闻簇中出现的概率等因素计算该组合词的热度值,然后根据组合词热度值进行排序,提取排名靠前的组合词作为新闻热点标签。
采用该实施例提供的新闻热点标签的生成系统,从海量的新闻数据集中奖相似的新闻进行聚类得到新闻簇,并确定新闻簇中的热点新闻簇,然后在热点新闻簇的多个新闻记录中获取到由多个关键字组成组合词,最后根据组合词的热度值确定新闻热点标签,提高了获取新闻热点标签的准确性。
图5是根据本发明第五实施例的新闻热点标签的生成系统的框图,如图5所示,该系统包括获取单元60、消噪单元70、第一提取单元10、确定单元20、第二提取单元30、第一生成单元40和第二生成单元50,其中,消噪单元60包括第一消噪模块62和/或第二消噪模块64;第一提取单元10包括第一计算模块12、判断模块14、第一确定模块16;确定单元20包括第四计算模块22和第三确定模块24;第二生成单元50包括第二计算模块52、第三计算模块54和第二确定模块56。
获取单元60用于获取多个新闻纪录构成新闻数据集。该获取单元60可定时或者在满足一定条件时,从预定的各大门户网站新闻板块自动获取多条新闻记录,该获取到的新闻记录采用统一格式存储,将每条新闻记录存储为由<新闻标题,新闻内容,发布网站,发布时间,新闻链接>五部分内容组成的数据。
消噪单元70用于对新闻数据集中的数据进行消噪处理,过滤无效数据,以进一步提高获取新闻热点标签的准确性,同时,降低数据处理的复杂度。
具体地,第一消噪模块62用于将新闻数据集中的新闻记录的数据类型与预设的数据类型进行匹配,并所述新闻数据集中数据类型与预设的数据类型不匹配的新闻记录,该消噪模块62可用于执行上述第二实施例中的方法1,此处不再赘述。
第二消噪模块64用于判断新闻数据集中的新闻记录的标题与正文是否一致,并删除新闻数据集中标题与正文不一致的新闻记录,该消噪模块64在判断新闻纪录的标题与正文是否一致时,首先对新闻记录的标题进行分词,得到由一个或多个词元组成的词元组,然后统计该词元组中各词元在该新闻记录的正文中出现次数的和;再判断统计得到的和是否大于预设阈值,如果统计得到的和大于预设阈值时,确定该新闻记录的标题与正文一致。
第一提取单元10用于提取消噪后的新闻数据集中的新闻簇,该提取单元10在提取新闻簇时,首先计算新闻数据集中各新闻记录之间的相似度,将相似度较高的新闻纪录组成新闻簇。
第一计算模块12用于计算新闻数据集中两个新闻记录之间的相似度。具体地,第一计算模块包括特征化子模块和计算子模块。
特征化子模块用于将两个新闻记录分别进行特征化提取,得到每个新闻记录对应的向量。在对一个新闻纪录A进行特征化提取时,首先对该新闻记录A的标题和正文进行分词,得到由多个词元组成的词元集{w1,w2,w3,...,wn};然后根据词元在该新闻记录A中出现的次数计算该词元集中词元对应的特征值;再删除词元集中特征值小于预设阈值的词元;最后根据删除后的词元及其对应的特征值生成该新闻记录的向量:X=(<w1,c1>,<w2,c2>,<w3,c3>,...,<wn,cn>),其中,c1,c2,c3,...,cn分别为词元对应的特征值,n为词元集中词元的个数。
其中,特征化子模块在计算词元对应的特征值时,可采用如下的公式:
ci=a1+a2*T+a3*P+a4*K
其中,ci为词元集{w1,w2,w3,...,wn}中第i个词元wi对应的特征值,a1为该词元wi在该新闻记录A中出现的次数,a2为该词元wi在新闻记录A的标题中出现的次数,a3为该词元wi在新闻记录A的段首或段尾中出现的次数,a4为该词元wi在新闻记录A的关键句中出现的次数,T、P、K均为无量纲参数。
计算子模块用于采用上述的余弦值相似度计算法、曼哈顿距离相似度计算法或欧几里得距离相似度计算法计算两个新闻纪录之间的相似度,此处不再赘述。
判断模块14用于判断相似度是否大于一个预设阈值,当相似度大于该预设阈值时,第一确定模块16确定两个新闻记录属于同一新闻簇。
确定单元20用于确定热点新闻簇,具体地,第四计算模块22采用以下公式计算各个新闻簇的热度值:
Cluster_Hot_Value=Site_Count*Site_Rate+Publish_Count*Publish_Rate
其中,Cluster_Hot_Value为一个新闻簇热度值,Site_Count为该新闻簇中包含的网站个数,Site_Rate为曝光率权重,Publish_Count为新闻的发布量,Publish_Rate为发布率权重,且Site_Rate+Publish_Rate=1。
第三确定模块24用于根据各个新闻簇的热度值确定热点新闻簇。
第二提取单元30用于提取热点新闻簇中各新闻记录对应的向量中的词元作为关键字,第一生成单元40与上述第四实施例中的第一生成单元40相同,此处不再赘述。
第二生成单元50中的第二计算模块52用于针对热点新闻簇的各新闻记录,计算每个新闻记录对应的组合词的特征值,其中,一个组合词的特征值为该组合词中各词元对应的特征值的和。第三计算模块54用于采用以下公式计算某热点新闻簇中第j个新闻中的一个组合词的热度值:
Term _ hot _ value = { [ &Sigma; j = 1 N ( Term _ Count ji / &Sigma; i = 1 M Term _ Count ji 2 ) ] / N } * e n / N
其中,Term_hot_value为该组合词的热度值,N为该热点新闻簇包括的新闻记录的个数,M为该第j个新闻记录对应的组合词的个数,n为该热点新闻簇中具有该组合词的新闻记录个数,Term_Countji为第j个新闻记录对应的第i个组合词的特征值。
第二确定模块56用于确定热度值大于预设热度值的组合词为新闻热点标签。
图6是根据本发明第六实施例的新闻热点标签的生成系统的工作流程示意图,该系统最大的特点是对新闻纪录进行了结构化分析,针对词元在新闻纪录中出现的位置给予不同程度的线性加权;并且考虑了词元的基本语义信息,对词元的词性和同义词进行分析,从而使得新闻热点标签的提取结果更加准确;基于多文档的标签提取,与基于单一文档的标签提取方法相比,充分考虑了多个新闻纪录同时分析时对标签提取的影响。
具体地,如图6所示,该系统主要包含数据清理模块、特征化提取模块、热点新闻聚焦模块和热点标签发现模块四个模块。
其中,数据清理模块相当于上述各实施例中的消噪单元。由于现实情况下数据是存在噪音的,因此该模块的主要功能便是针对数据源中不合理数据进行数据清理,保留有效数据,过滤无效数据。
特征化提取模块是源数据的一般特性进行汇总,特征化后的数据既能清晰地代表源数据,又能在分析时对源数据进行有效降维,从而提高后续算法的执行效率,经过该特征化提取模块,可获得每个新闻纪录对应的向量。该特征化提取模块相当于上述各实施例中的特征化子模块。
热点新闻聚焦模块的主要功能是从海量的新闻数据集中提炼新闻簇,每一个新闻簇都是由一群内容相似的新闻组成,而不同的新闻簇之间的新闻高度相异。然后根据新闻簇的热度值进行排序,提取排名靠前的新闻簇作为热点新闻簇。
热点标签发现模块的主要功能即在上述各模块的基础上,对热点新闻簇进行分析,通过多文档关键字抽取技术提炼出这些热点新闻簇的各新闻纪录中的的关键字,然后根据关键字生成组合词,最后根据组合词热度值进行排序,提取排名靠前的组合词作为热点新闻标签。
具体地,如图7所示,数据清理模块的工作流程如下:
1)从数据源中获得新闻数据集,每条新闻记录由<新闻标题,新闻内容,发布网站,发布时间,新闻链接>五部分内容组成;
2)读取系统和用户定义的问题数据类型,将每条新闻记录进行匹配,从而筛选出有问题的数据。该系统默认提供缺失值和格式不一致两种问题数据类型。缺失值类型是指该条新闻记录某部分内容为空的情况;格式不一致类型是指新闻记录某部分内容的数据格式和标准数据格式不一致情况。
3)发现问题数据后,选择问题数据处理方式,本系统提供两种默认忽略元组处理法和默认缺失值处理法两种处理方式。在忽略元组处理法中,如果新闻记录的某部分内容为问题数据,则将整条新闻记录忽略不考虑;在默认缺失值处理法,如果新闻记录的某部分内容为问题数据,则将该部分内容用一个默认的常量代替。
4)将上述步骤处理后所得到的新闻纪录进行标题与正文一致性判断,其目的是清理掉那些标题与正文不符的无效新闻,具体的一致性判断方法上文已做详细描述,此处不再赘述。
5)将标题内容不一致的新闻记录采用上述的忽略元组法进行处理,最终完成数据清理流程。
如图8所示,征化提取模块为整个系统的数据预处理环节,特征化后的结果将为后续处理做数据准备,特征化提取模块的工作流程如下:
1)对新闻纪录的标题和正文进行分词,将新闻纪录转化为形如{w1,w2,w3,...,wn}的词元集;
2)分析词性,将词元集中的连词、方位词、区别词、叹词、拟声词、介词、量词、代词、助词、语气词、状态词等无效词性过滤;
3)扫描过滤后的词元集,并按下列方式进行词元统计,为每个词元设置一个相应的计数器,并初始化赋值为1,此后该词元每出现一次就在其相应的计数器中加1,以<w,c>形式保存,其中w表示词元,c表示计数器(计数器中的值为词元对应的特征值);如果词元在标题位置中出现,那么在相应的计数器中额外加整数T;如果词元在段首或段尾出现,那么在相应的计数器中额外加整数P;判断词元是否在“关键句”中出现,所谓“关键句”是指例如那些包含诸如“关键是…”、“旨在…”、“总之…”等的句子。对在“关键句”中出现的词元,再在相应的计数器中额外加整数K。
4)同义词处理,如果多个词元之间互为同义词,那么选择计数器的计分最高者,保留该词元和相应计数器,然后把其它同义词的计数器计分全部加入该计数器中;
5)归一化处理是将同义词处理后所有词元的计数器计分相加得到和S,然后每个计数器的计分除以S再放入计数器,此时每个计数器计分将是一个大于0小于1的值;
6)阈值判断先设定阈值λ,过滤计数器计分小于λ的词元,保留计数器积分大于或等于λ的词元,此时每条新闻记录可表示成向量:
X=(<w1,c1>,<w2,c2>,<w3,c3>,...,<wn,cn>),其中λ≤ci
热点新闻聚焦模块是在上述特征化提取模块的基础上,将内容相似的新闻聚集成簇,并计算新闻簇热度值,最后提取出热点新闻事件。如图9所示,热点新闻聚焦模块的工作流程如下:
1)新闻簇初始化:首先扫描所有的特征化后的新闻记录,并将每个新闻对象作为一个初始簇;
2)计算两个新闻纪录之间的相似度,可采用上述三种方法中的任一种。
3)判断相似度是否大于阈值,如果大于,则认为两篇新闻纪录的内容是相似的,将其合并成簇,否则继续计算与下一篇新闻之间的相似度;
4)计算新闻簇热度值,具体计算方法上文已做详细描述,此处不再赘述。
5)最后将所有的新闻簇按照热度值从高到低进行排序,抽取前几位的新闻簇作为热点新闻簇。
如图10所示,热点标签发现模块的工作流程如下:
1)读取热点新闻簇中的新闻记录,针对每篇新闻记录,进行分词、过滤无效词性、词元统计和同义词处理,其处理流程和特征化提取模块中对应的流程一致,在此不再重复;
2)组合词生成:由于单一词元所表示的信息量有限,因此需要将相邻的词元结合起来形成组合词,从而扩充其信息量。
3)计算所有组合词的热度值,具体计算方法上文已做详细描述,此处不再赘述。
4)最后将热点新闻簇中的所有组合词按照热度值从高到低进行排序,抽取前几位的即为新闻热点标签。
从以上的描述中,可以看出,本发明实施例实现了如下技术效果:提高了获取新闻热点标签的准确性。
以上,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (23)

1.一种新闻热点标签的生成方法,其特征在于,包括:
提取新闻数据集中的新闻簇,其中,所述新闻数据集由多个新闻记录组成,一个所述新闻簇包括至少两个所述新闻记录;
确定提取出的多个所述新闻簇中的热点新闻簇;
提取所述热点新闻簇中各新闻记录的关键字;
生成由一个新闻记录的至少两个所述关键字组合的组合词,其中,一个新闻记录对应一个或多个所述组合词;以及
根据所述组合词的热度值生成新闻热点标签。
2.根据权利要求1所述的方法,其特征在于,提取新闻数据集中的新闻簇包括:
计算所述新闻数据集中两个新闻记录之间的相似度;
判断所述相似度是否大于第一预设阈值;以及
若所述相似度大于所述第一预设阈值时,确定所述两个新闻记录属于同一新闻簇。
3.根据权利要求2所述的方法,其特征在于,计算两个新闻记录之间的相似度包括:
将所述两个新闻记录分别进行特征化提取,得到一个新闻记录对应的第一向量和另一个新闻记录对应的第二向量;
采用以下任意一个公式计算所述相似度:
Sim(X,Y)=(X*Y)/(||X||*||Y||),
Sim ( X , Y ) = &Sigma; i = 1 n | x i - y i | , 或者
Sim ( X , Y ) = &Sigma; i = 1 n ( x i - y i ) * ( x i - y i ) ,
其中,Sim(X,Y)为所述相似度,X为所述第一向量,Y为所述第二向量,X=(x1,x2,x3,...,xn),Y=(y1,y2,y3,...,yn),||X||和||Y||分别为X和Y的欧几里得范数。
4.根据权利要求3所述的方法,其特征在于,所述第一向量对应的新闻记录为第一新闻记录,将所述第一新闻记录进行特征化提取,得到所述第一向量包括:
对所述第一新闻记录的标题和正文进行分词,得到由多个词元组成的第一词元集;
根据词元在所述第一新闻记录中出现的次数计算所述第一词元集中词元对应的特征值;
删除所述第一词元集中特征值小于第二预设阈值的词元;以及
生成所述第一向量:
X=(<w1,c1>,<w2,c2>,<w3,c3>,...,<wn,cn>),
其中,w1,w2,w3,...,wn所述第一词元集中词元,c1,c2,c3,...,cn分别为词元对应的特征值,n为所述第一词元集中词元的个数。
5.根据权利要求4所述的方法,其特征在于,计算所述第一词元集中词元对应的特征值包括采用以下公式进行计算:
ci=a1+a2*T+a3*P+a4*K
其中,ci为所述第一词元集中第i个词元对应的特征值,a1为所述第i个词元在所述第一新闻记录中出现的次数,a2为所述第i个词元在所述第一新闻记录的标题中出现的次数,a3为所述第i个词元在所述第一新闻记录的段首或段尾中出现的次数,a4为所述第i个词元在所述第一新闻记录的关键句中出现的次数,T、P、K均为无量纲参数。
6.根据权利要求4所述的方法,其特征在于,在得到所述第一词元集之后、计算所述第一词元集中词元对应的特征值之前,将所述第一新闻记录进行特征化提取还包括:去除所述第一词元集中的无效词。
7.根据权利要求4所述的方法,其特征在于,在计算所述第一词元集中词元对应的特征值之后、生成所述第一向量之前,将所述第一新闻记录进行特征化提取还包括:
获取所述第一词元集中互为同义词的词元,得到同义词元组;
将所述同义词元组对应的各特征值相加后作为最大词元对应的特征值,其中,所述最大词元为所述同义词元组中特征值最大的词元;
在所述第一词元集中删除所述同义词元组中除所述最大词元之外的其他词元。
8.根据权利要求4所述的方法,其特征在于,提取所述热点新闻簇中的关键字包括:提取所述热点新闻簇中各新闻记录对应的向量中的词元作为所述关键字。
9.根据权利要求8所述的方法,其特征在于,根据所述组合词的热度值生成新闻热点标签包括:
针对所述热点新闻簇的各新闻记录,计算每个新闻记录对应的组合词的特征值,其中,一个组合词的特征值为该组合词中各词元对应的特征值的和;
采用以下公式计算所述组合词的热度值:
Term _ hot _ value = { [ &Sigma; j = 1 N ( Term _ Count ji / &Sigma; i = 1 M Term _ Count ji 2 ) ] / N } * e n / N
其中,Term_hot_value为第一组合词的热度值,所述第一组合词为任意一个所述组合词,N为所述热点新闻簇包括的新闻记录的个数,M为所述热点新闻簇中第j个新闻记录对应的组合词的个数,n为所述热点新闻簇中具有所述第一组合词的新闻记录个数,Term_Countji为所述第j个新闻记录对应的第i个组合词的特征值;以及
确定热度值大于第三预设阈值的组合词为所述新闻热点标签。
10.根据权利要求1所述的方法,其特征在于,所述热点新闻簇包括第二新闻记录,提取所述第二新闻记录的关键字包括:
对所述第二新闻记录的标题和正文进行分词,得到由多个词元组成的第二词元集;
根据词元在所述第二新闻记录中出现的次数计算所述第二词元集中词元对应的特征值;
删除所述第二词元集中特征值小于第四预设阈值的词元;
确定所述第二词元集中的词元为所述第二新闻记录的关键字。
11.根据权利要求1所述的方法,其特征在于,根据所述组合词的热度值生成新闻热点标签包括:
针对所述热点新闻簇的各新闻记录,计算每个新闻记录对应的组合词的特征值,其中,所述一个组合词的特征值为该组合词中各关键字在该新闻记录中出现次数的和;
采用以下公式计算每个所述组合词的热度值:
Term _ hot _ value = { [ &Sigma; j = 1 N ( Term _ Count ji / &Sigma; i = 1 M Term _ Count ji 2 ) ] / N } * e n / N
其中,Term_hot_value为第二组合词的热度值,所述第二组合词为任意一个所述组合词,N为所述热点新闻簇包括的新闻记录的个数,M为所述热点新闻簇中第j个新闻记录对应的组合词的个数,n为所述热点新闻簇中具有所述第二组合词的新闻记录个数,Term_Countji为所述第j个新闻记录对应的第i个组合词的特征值;以及
确定热度值大于第五预设阈值的组合词为所述新闻热点标签。
12.根据权利要求1至11中任一项所述的方法,其特征在于,确定提取出的多个所述新闻簇中的热点新闻簇包括:
采用以下公式计算各个新闻簇的热度值,
Cluster_Hot_Value=Site_Count*Site_Rate+Publish_Count*Publish_Rate
其中,Cluster_Hot_Value为一个新闻簇热度值,Site_Count为该新闻簇中包含的网站个数,Site_Rate为曝光率权重,Publish_Count为新闻的发布量,Publish_Rate为发布率权重,且Site_Rate+Publish_Rate=1;以及
根据所述各个新闻簇的热度值确定所述热点新闻簇。
13.根据权利要求1至11中任一项所述的方法,其特征在于,在提取新闻数据集中的新闻簇之前,所述方法还包括:对所述新闻数据集进行消噪处理。
14.根据权利要求13所述的方法,其特征在于,对所述新闻数据集进行消噪处理包括:
将所述新闻数据集中的新闻记录的数据类型与预设的数据类型进行匹配;
删除所述新闻数据集中数据类型与所述预设的数据类型不匹配的新闻记录,和/或
判断所述新闻数据集中的新闻记录的标题与正文是否一致;
删除所述新闻数据集中标题与正文不一致的新闻记录。
15.根据权利要求14所述的方法,其特征在于,第三新闻记录为所述新闻数据集中的任意一个新闻记录,判断所述第三新闻记录的标题与正文是否一致包括:
对所述第三新闻记录的标题进行分词,得到由一个或多个词元组成的第三词元组;
统计所述第三词元组中各词元在所述第三新闻记录的正文中出现次数的和;
判断统计得到的和是否大于第六预设阈值;以及
当所述统计得到的和大于所述第六预设阈值时,确定所述第三新闻记录的标题与正文一致。
16.一种新闻热点标签的生成系统,其特征在于,包括:
第一提取单元,用于提取新闻数据集中的新闻簇,其中,所述新闻数据集由多个新闻记录组成,一个所述新闻簇包括至少两个所述新闻记录;
确定单元,用于确定提取出的多个所述新闻簇中的热点新闻簇;
第二提取单元,用于提取所述热点新闻簇中各新闻记录的关键字;
第一生成单元,用于生成由一个新闻记录的至少两个所述关键字组合的组合词,其中,一个新闻记录对应一个或多个所述组合词;以及
第二生成单元,用于根据所述组合词的热度值生成新闻热点标签。
17.根据权利要求16所述的系统,其特征在于,所述第一提取单元包括:
第一计算模块,用于计算所述新闻数据集中两个新闻记录之间的相似度;
判断模块,用于判断所述相似度是否大于第一预设阈值;以及
第一确定模块,用于当所述相似度大于所述第一预设阈值时,确定所述两个新闻记录属于同一新闻簇。
18.根据权利要求17所述的系统,其特征在于,所述第一计算模块包括:
特征化子模块,用于将所述两个新闻记录分别进行特征化提取,得到一个新闻记录对应的第一向量和另一个新闻记录对应的第二向量;
计算子模块,用于采用以下任意一个公式计算所述相似度:
Sim(X,Y)=(X*Y)/(||X||*||Y||),
Sim ( X , Y ) = &Sigma; i = 1 n | x i - y i | , 或者
Sim ( X , Y ) = &Sigma; i = 1 n ( x i - y i ) * ( x i - y i ) ,
其中,Sim(X,Y)为所述相似度,X为所述第一向量,Y为所述第二向量,X=(x1,x2,x3,...,xn),Y=(y1,y2,y3,...,yn),||X||和||Y||分别为X和Y的欧几里得范数。
19.根据权利要求18所述的系统,其特征在于,所述第一向量对应的新闻记录为第一新闻记录,所述特征化子模块采用以下步骤得到所述第一向量:
对所述第一新闻记录的标题和正文进行分词,得到由多个词元组成的第一词元集;
根据词元在所述第一新闻记录中出现的次数计算所述第一词元集中词元对应的特征值;
删除所述第一词元集中特征值小于第二预设阈值的词元;以及
生成所述第一向量:
X=(<w1,c1>,<w2,c2>,<w3,c3>,...,<wn,cn>),
其中,w1,w2,w3,...,wn所述第一词元集中词元,c1,c2,c3,...,cn分别为词元对应的特征值,n为所述第一词元集中词元的个数。
20.根据权利要求19所述的系统,其特征在于,所述特征化子模块采用以下公式计算所述第一词元集中词元对应的特征值:
ci=a1+a2*T+a3*P+a4*K
其中,ci为所述第一词元集中第i个词元对应的特征值,a1为所述第i个词元在所述第一新闻记录中出现的次数,a2为所述第i个词元在所述第一新闻记录的标题中出现的次数,a3为所述第i个词元在所述第一新闻记录的段首或段尾中出现的次数,a4为所述第i个词元在所述第一新闻记录的关键句中出现的次数,T、P、K均为无量纲参数。
21.根据权利要求19所述的系统,其特征在于,所述第二提取单元提取所述热点新闻簇中各新闻记录对应的向量中的词元作为所述关键字。
22.根据权利要求21所述的系统,其特征在于,所述第二生成单元包括:
第二计算模块,用于针对所述热点新闻簇的各新闻记录,计算每个新闻记录对应的组合词的特征值,其中,一个组合词的特征值为该组合词中各词元对应的特征值的和;
第三计算模块,采用以下公式计算所述组合词的热度值:
Term _ hot _ value = { [ &Sigma; j = 1 N ( Term _ Count ji / &Sigma; i = 1 M Term _ Count ji 2 ) ] / N } * e n / N
其中,Term_hot_value为第一组合词的热度值,所述第一组合词为任意一个所述组合词,N为所述热点新闻簇包括的新闻记录的个数,M为所述热点新闻簇中第j个新闻记录对应的组合词的个数,n为所述热点新闻簇中具有所述第一组合词的新闻记录个数,Term_Countji为所述第j个新闻记录对应的第i个组合词的特征值;以及
第二确定模块,用于确定热度值大于第三预设阈值的组合词为所述新闻热点标签。
23.根据权利要求16至22中任一项所述的系统,其特征在于,所述确定单元包括:
第四计算模块,用于采用以下公式计算各个新闻簇的热度值,
Cluster_Hot_Value=Site_Count*Site_Rate+Publish_Count*Publish_Rate
其中,Cluster_Hot_Value为一个新闻簇热度值,Site_Count为该新闻簇中包含的网站个数,Site_Rate为曝光率权重,Publish_Count为新闻的发布量,Publish_Rate为发布率权重,且Site_Rate+Publish_Rate=1;以及
第三确定模块,用于根据所述各个新闻簇的热度值确定所述热点新闻簇。
CN201310308455.5A 2013-07-22 一种新闻热点标签的生成方法及系统 Active CN103336847B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310308455.5A CN103336847B (zh) 2013-07-22 一种新闻热点标签的生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310308455.5A CN103336847B (zh) 2013-07-22 一种新闻热点标签的生成方法及系统

Publications (2)

Publication Number Publication Date
CN103336847A true CN103336847A (zh) 2013-10-02
CN103336847B CN103336847B (zh) 2016-11-30

Family

ID=

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955547A (zh) * 2014-05-22 2014-07-30 厦门市美亚柏科信息股份有限公司 发现论坛热帖的方法和系统
CN105574184A (zh) * 2015-12-22 2016-05-11 北京奇虎科技有限公司 一种关联新闻的确定方法以及装置
CN105824803A (zh) * 2016-03-31 2016-08-03 北京奇艺世纪科技有限公司 一种热点事件名称的确定方法及装置
CN107066537A (zh) * 2017-03-06 2017-08-18 广州神马移动信息科技有限公司 热点新闻生成方法、设备、电子设备
CN107861948A (zh) * 2017-11-16 2018-03-30 百度在线网络技术(北京)有限公司 一种标签提取方法、装置、设备和介质
CN108345700A (zh) * 2018-03-29 2018-07-31 百度在线网络技术(北京)有限公司 文章代表图片的选取方法、装置和计算机设备
CN109857859A (zh) * 2018-12-24 2019-06-07 北京百度网讯科技有限公司 新闻信息的处理方法、装置、设备以及存储介质
CN110008401A (zh) * 2019-02-21 2019-07-12 北京达佳互联信息技术有限公司 关键词提取方法、关键词提取装置和计算机可读存储介质
CN110287284A (zh) * 2019-05-23 2019-09-27 北京百度网讯科技有限公司 语义匹配方法、装置及设备
CN111581359A (zh) * 2020-04-21 2020-08-25 北京龙云科技有限公司 一种新闻推荐方法及装置
CN112633394A (zh) * 2020-12-29 2021-04-09 厦门市美亚柏科信息股份有限公司 一种智能用户标签确定方法、终端设备及存储介质
CN113535956A (zh) * 2021-07-26 2021-10-22 北京清博智能科技有限公司 一种基于媒介贡献度的新闻热点预测方法
CN113836307A (zh) * 2021-10-15 2021-12-24 国网北京市电力公司 一种供电服务工单热点发现方法、系统、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488150A (zh) * 2009-03-04 2009-07-22 哈尔滨工程大学 一种实时多角度网络热点事件分析装置及分析方法
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN102004792A (zh) * 2010-12-07 2011-04-06 百度在线网络技术(北京)有限公司 一种热搜词生成方法及系统
CN102779190A (zh) * 2012-07-03 2012-11-14 北京大学 一种时序海量网络新闻的热点事件快速检测方法
CN103186675A (zh) * 2013-04-03 2013-07-03 南京安讯科技有限责任公司 一种基于网络热词识别的网页自动分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488150A (zh) * 2009-03-04 2009-07-22 哈尔滨工程大学 一种实时多角度网络热点事件分析装置及分析方法
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN102004792A (zh) * 2010-12-07 2011-04-06 百度在线网络技术(北京)有限公司 一种热搜词生成方法及系统
CN102779190A (zh) * 2012-07-03 2012-11-14 北京大学 一种时序海量网络新闻的热点事件快速检测方法
CN103186675A (zh) * 2013-04-03 2013-07-03 南京安讯科技有限责任公司 一种基于网络热词识别的网页自动分类方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955547B (zh) * 2014-05-22 2017-02-15 厦门市美亚柏科信息股份有限公司 发现论坛热帖的方法和系统
CN103955547A (zh) * 2014-05-22 2014-07-30 厦门市美亚柏科信息股份有限公司 发现论坛热帖的方法和系统
CN105574184A (zh) * 2015-12-22 2016-05-11 北京奇虎科技有限公司 一种关联新闻的确定方法以及装置
CN105574184B (zh) * 2015-12-22 2019-09-24 北京奇虎科技有限公司 一种关联新闻的确定方法以及装置
CN105824803B (zh) * 2016-03-31 2018-10-30 北京奇艺世纪科技有限公司 一种热点事件名称的确定方法及装置
CN105824803A (zh) * 2016-03-31 2016-08-03 北京奇艺世纪科技有限公司 一种热点事件名称的确定方法及装置
CN107066537A (zh) * 2017-03-06 2017-08-18 广州神马移动信息科技有限公司 热点新闻生成方法、设备、电子设备
CN107861948A (zh) * 2017-11-16 2018-03-30 百度在线网络技术(北京)有限公司 一种标签提取方法、装置、设备和介质
CN108345700A (zh) * 2018-03-29 2018-07-31 百度在线网络技术(北京)有限公司 文章代表图片的选取方法、装置和计算机设备
CN109857859A (zh) * 2018-12-24 2019-06-07 北京百度网讯科技有限公司 新闻信息的处理方法、装置、设备以及存储介质
CN109857859B (zh) * 2018-12-24 2021-03-16 北京百度网讯科技有限公司 新闻信息的处理方法、装置、设备以及存储介质
CN110008401A (zh) * 2019-02-21 2019-07-12 北京达佳互联信息技术有限公司 关键词提取方法、关键词提取装置和计算机可读存储介质
CN110008401B (zh) * 2019-02-21 2021-03-09 北京达佳互联信息技术有限公司 关键词提取方法、关键词提取装置和计算机可读存储介质
CN110287284A (zh) * 2019-05-23 2019-09-27 北京百度网讯科技有限公司 语义匹配方法、装置及设备
CN110287284B (zh) * 2019-05-23 2021-07-06 北京百度网讯科技有限公司 语义匹配方法、装置及设备
CN111581359A (zh) * 2020-04-21 2020-08-25 北京龙云科技有限公司 一种新闻推荐方法及装置
CN112633394A (zh) * 2020-12-29 2021-04-09 厦门市美亚柏科信息股份有限公司 一种智能用户标签确定方法、终端设备及存储介质
CN113535956A (zh) * 2021-07-26 2021-10-22 北京清博智能科技有限公司 一种基于媒介贡献度的新闻热点预测方法
CN113836307A (zh) * 2021-10-15 2021-12-24 国网北京市电力公司 一种供电服务工单热点发现方法、系统、装置及存储介质
CN113836307B (zh) * 2021-10-15 2024-02-20 国网北京市电力公司 一种供电服务工单热点发现方法、系统、装置及存储介质

Similar Documents

Publication Publication Date Title
Barrón-Cedeno et al. Proppy: A system to unmask propaganda in online news
CN103258000B (zh) 对网页中高频关键词进行聚类的方法及装置
CN103514183B (zh) 基于交互式文档聚类的信息检索方法及系统
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
JP3597697B2 (ja) 文書要約装置およびその方法
Kang et al. Modeling user interest in social media using news media and wikipedia
Kennedy et al. Automatic discovery of query-class-dependent models for multimodal search
CN111368038B (zh) 一种关键词的提取方法、装置、计算机设备和存储介质
Huang et al. Topic detection from large scale of microblog stream with high utility pattern clustering
US9251248B2 (en) Using context to extract entities from a document collection
Li et al. Topic extraction from microblog posts using conversation structures
US20100306214A1 (en) Identifying modifiers in web queries over structured data
CN111797239B (zh) 应用程序的分类方法、装置及终端设备
CN102428467A (zh) 用于分类的基于相似度的特征集补充
US20050050086A1 (en) Apparatus and method for multimedia object retrieval
KR101059557B1 (ko) 정보 검색 방법 및 이를 수행할 수 있는 프로그램이 수록된컴퓨터로 읽을 수 있는 기록 매체
Alassi et al. Effectiveness of template detection on noise reduction and websites summarization
CN104573057A (zh) 一种用于跨ugc网站平台的帐户关联方法
Bougiatiotis et al. Content representation and similarity of movies based on topic extraction from subtitles
CN111859070A (zh) 一种海量互联网新闻清洗系统
CN106649308B (zh) 一种分词词库更新方法及系统
Spitz et al. Exploring entity-centric networks in entangled news streams
Bing et al. Web page segmentation with structured prediction and its application in web page classification
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
Lioma et al. A study of factuality, objectivity and relevance: three desiderata in large-scale information retrieval?

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant