CN106446179A - 热点话题的生成方法及装置 - Google Patents
热点话题的生成方法及装置 Download PDFInfo
- Publication number
- CN106446179A CN106446179A CN201610859951.3A CN201610859951A CN106446179A CN 106446179 A CN106446179 A CN 106446179A CN 201610859951 A CN201610859951 A CN 201610859951A CN 106446179 A CN106446179 A CN 106446179A
- Authority
- CN
- China
- Prior art keywords
- topic
- news
- domestic
- similar
- domestic news
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种热点话题的生成方法及装置,涉及文本处理技术领域,主要用于解决热点话题发掘的效率及准确率较低的问题。本发明的方法包括:从新闻资讯中抽取话题;获取各话题的相似新闻数、相关新闻数、话题评论数;根据所述话题的相似新闻数、相关新闻数、话题评论数计算各话题的热点分值,所述热点分值用于评价话题的热点度;将所述热点分值大于预置阈值的话题确定为热点话题。本发明主要用于生成热点话题。
Description
技术领域
本发明涉及文本处理技术领域,特别是涉及一种热点话题的生成方法及装置。
背景技术
随着社交媒体的广泛应用,大众越来越习惯于在互联网上发表舆论意见。为了尽快的了解到哪些话题可能会成为热点话题,第一时间掌握并了解热点话题方向成了各个媒体平台之间有力的竞争点。其中,热点话题是指一定时间、一定范围内,公众最为关心的热点问题。如当前社会的热门话题应该就是人民群众最关心、最直接、最现实的教育、社保、医疗、楼市、股市、劳动就业问题等。
目前,收集突发的热点话题或用户参与度较高的话题,是通过人工查询的方式得到的。管理员通过查询各网站中的新闻的访问量,或查询社区中话题的访问量来确定热点话题,而通过人工方式确定的热点话题耗费人力资源较大并且对于热点话题挖掘的效率及准确率较低。
发明内容
有鉴于此,本发明提供一种热点话题的生成方法及装置,主要目的在于提高热点话题挖掘的效率及准确率。
依据本发明一个方面,提供了一种热点话题的生成方法,包括:
从新闻资讯中抽取话题;
获取各话题的相似新闻数、相关新闻数、话题评论数;
根据所述话题的相似新闻数、相关新闻数、话题评论数计算各话题的热点分值,所述热点分值用于评价话题的热点度;
将所述热点分值大于预置阈值的话题确定为热点话题。
具体的,所述根据所述话题的相似新闻数、相关新闻数、话题评论数计算各话题的热点分值包括:
根据所述相似新闻数及其对应的权重系数乘积确定所述话题的相似新闻分值;
根据所述相关新闻数及其对应的权重系数乘积确定所述话题的相关新闻分值;
根据所述话题评论数及其对应的权重系数乘积确定所述话题的话题评论分值;
对各话题分别对应的相似新闻分值、相似新闻分值、话题评论分值进行累加运算,得到所述话题的热点分值。
具体的,所述从新闻资讯中抽取话题包括:
对所述新闻资讯中相似的新闻资讯进行聚类;
根据所述聚类的相似新闻资讯抽取所述话题,所述话题作用于相似新闻资讯中所有的新闻资讯。
具体的,所述获取各话题的相关新闻数包括:
从各个新闻资讯对应的话题中抽取实体名词;
计算所述实体名词在所述新闻资讯中的权重;
根据所述权重大小筛选各新闻资讯的目标实体名词;
通过各新闻资讯中的实体名词或目标实体名词确定相关新闻数。
具体的,所述计算所述实体名词在对应的新闻资讯中的权重包括:
根据实体名词在新闻资讯中出现的词频,及实体名词在新闻资讯标题中出现的次数、新闻资讯正文中出现的次数计算所述实体名词的权重。
具体的,所述通过各新闻资讯中的实体名词或目标实体名词确定相关新闻数包括:
将新闻资讯中实体名词相同且权重比值大于预置数值的新闻资讯确定相关的新闻资讯;或
将新闻资讯中目标实体名词相同的新闻资讯确定相关的新闻资讯;
根据确定的相关新闻资讯计算相关新闻数。
具体的,所述获取各话题的话题评论数包括:
从所述相似的新闻资讯中获取各新闻资讯的评论数;
对个新闻资讯的评论数进行累加得到所述话题评论数。
依据本发明另一个方面,提供了一种热点话题的生成装置,包括:
抽取单元,用于从新闻资讯中抽取话题;
获取单元,用于获取各话题的相似新闻数、相关新闻数、话题评论数;
计算单元,用于根据所述话题的相似新闻数、相关新闻数、话题评论数计算各话题的热点分值,所述热点分值用于评价话题的热点度;
确定单元,用于将所述热点分值大于预置阈值的话题确定为热点话题。
具体的,所述计算单元包括:
确定模块,用于根据所述相似新闻数及其对应的权重系数乘积确定所述话题的相似新闻分值;
所述确定模块,还用于根据所述相关新闻数及其对应的权重系数乘积确定所述话题的相关新闻分值;
所述确定模块,还用于根据所述话题评论数及其对应的权重系数乘积确定所述话题的话题评论分值;
累加模块,用于对各话题分别对应的相似新闻分值、相似新闻分值、话题评论分值进行累加运算,得到所述话题的热点分值。
具体的,所述抽取单元包括:
聚类模块,用于对所述新闻资讯中相似的新闻资讯进行聚类;
抽取模块,用于根据所述聚类的相似新闻资讯抽取所述话题,所述话题作用于相似新闻资讯中所有的新闻资讯。
具体的,所述获取单元包括:
抽取模块,用于从各个新闻资讯对应的话题中抽取实体名词;
计算模块,用于计算所述实体名词在所述新闻资讯中的权重;
筛选模块,用于根据所述权重大小筛选各新闻资讯的目标实体名词;
确定模块,用于通过各新闻资讯中的实体名词或目标实体名词确定相关新闻数。
所述计算模块,用于根据实体名词在新闻资讯中出现的词频,及实体名词在新闻资讯标题中出现的次数、新闻资讯正文中出现的次数计算所述实体名词的权重。
所述确定模块,用于将新闻资讯中实体名词相同且权重比值大于预置数值的新闻资讯确定相关的新闻资讯;或将新闻资讯中目标实体名词相同的新闻资讯确定相关的新闻资讯;根据确定的相关新闻资讯计算相关新闻数。
具体的,所述获取单元包括:
获取模块,用于从所述相似的新闻资讯中获取各新闻资讯的评论数;
累加模块,用于对个新闻资讯的评论数进行累加得到所述话题评论数。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明实施例提供的一种热点话题的生成方法及装置,首先从新闻资讯中抽取话题,然后获取各话题的相似新闻数、相关新闻数、话题评论数,根据所述话题的相似新闻数、相关新闻数、话题评论数计算各话题的热点分值,最后将所述热点分值大于预置阈值的话题确定为热点话题。与目前通过人工查询方式获取热点话题相比,本发明实施例在抽取到话题后,获取各话题的相似新闻数、相关新闻数、话题评论数,然后根据话题的相似新闻数、相关新闻数、话题评论数确定热点话题,从而通过本发明实施例节省了人工确定热点话题所耗费的人力资源,提高了热点话题获取的效率及准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种热点话题的生成方法流程图;
图2示出了本发明实施例提供的另一种热点话题的生成方法流程图;
图3示出了本发明实施例提供的一种热点话题的生成装置的结构框图;
图4示出了本发明实施例提供的另一种热点话题的生成装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种热点话题的生成方法,如图1所示,该方法包括:
101、从新闻资讯中抽取话题。
在本发明实施例中,新闻资讯可从互联网上汇聚得到的,汇聚源包括新闻网站、微博、微信、论坛、贴吧等平台。其中,新闻网站具体可以为网易、搜狐、凤凰新闻、新华网、各地方网络报纸等,本发明实施例不做具体限定。具体的,本发明实施例可通过网络爬虫技术,第三方汇聚工具从互联网上汇聚新闻资讯,第三方汇聚攻击具体可以使火车采集器、八爪鱼等可视化工具。
对于本发明实施例,步骤101从新闻资讯中抽取话题的具体过程可以为:首先从互联网上汇聚新闻资讯,然后对所述新闻资讯中相似的新闻资讯进行聚类,通过对相似新闻资讯中每个新闻资讯分别进行分词,并去除分词结果中无实际意义词语,接着统计其余各个词语在相似新闻资讯中的出现频率,最后选择出现频率较高的部分词语作为相似新闻资讯的主题。
102、获取各话题的相似新闻数、相关新闻数、话题评论数。
其中,相似新闻数是话题对应的相似新闻个数,相关新闻数是话题对应的相关新闻个数,话题评论数是话题对应的评论数。例如,对新闻资讯中的相似新闻资讯进行聚类后得到2类相似新闻资讯,第一类相似新闻资讯内包含的新闻资讯个数为5、对应的话题为A;第二类相似新闻资讯内包含的新闻资讯个数为10、对应的话题为B。则话题A的相似新闻数为5,话题A评论数是话题A对应所有新闻资讯的评论数;话题B的相似新闻数为10,话题B评论数是话题B对应所有新闻资讯的评论数。需要说明的是,话题的相关新闻数具体可根据各新闻资讯话题中的实体名词确定,即根据实体名词的权重比确定相关新闻。
103、根据所述话题的相似新闻数、相关新闻数、话题评论数计算各话题的热点分值。
其中,所述热点分值用于评价话题的热点度,具体的可对相似新闻数、相关新闻数、话题评论数进行累加计算得到各话题的热点分值。例如,话题A的相似新闻数为10、相关新闻数5、话题评论数100,则话题A的热点分值为115。
104、将所述热点分值大于预置阈值的话题确定为热点话题。
其中,预置阈值可以根据实际需求进行设置,预置阈值的设置方法与监控领域的媒体报道情况有关,比如汽车行业的媒体报道要监控汽车行业的新闻和舆论。而互联网上监控了10个网站,这10个网站普通新闻的报道量每天是10篇相同话题,评论是200,预置阈值可以设置为10以上的值,或者参考之前的热点话题新闻的具体情况进行设置。
本发明实施例提供了一种热点话题的生成方法,首先从新闻资讯中抽取话题,然后获取各话题的相似新闻数、相关新闻数、话题评论数,并根据话题的相似新闻数、相关新闻数、话题评论数确定热点话题,从而通过本发明实施例节省了人工确定热点话题所耗费的人力资源,提高了热点话题获取的效率及准确率。
本发明实施例提供了另一种热点话题的生成方法,如图2所示,该方法包括:
201、对所述新闻资讯中相似的新闻资讯进行聚类。
其中,新闻资讯可从互联网上汇聚得到的,汇聚源包括新闻网站、微博、微信、论坛、贴吧等平台。其中,新闻网站具体可以为网易、搜狐、凤凰新闻、新华网、各地方网络报纸等,本发明实施例不做具体限定。
进一步地,为了保证新闻的连续性,从互联网上选择与待比较新闻资讯的时间差应该小于等于48小时,即话题中最近一篇新闻资讯的时间和待比较新闻资讯的时间差小于等于48小时。其中,48小时的选择标准由热点的连续性决定,48小时为推荐标准,不是官方指定的。
在本发明实施例中,计算相似的新闻资讯具体过程可以为:获取待识别的任两个新闻资讯,所述新闻资讯包括新闻标题;判断两个新闻标题的相似度是否满足第一预设条件;在所述两个新闻标题的相似度满足所述第一预设条件时,确定所述两个新闻资讯为相似的新闻资讯。具体的,当两个新闻标题满足一下条件至少之一时,即可判断两个新闻资讯的相似度满足第一预设条件:两个新闻标题相同;或者,其中一个新闻标题分词处理后的词汇集合是否包含另一个新闻标题分词处理后的词汇集合中的所有词语;或者,两个新闻标题中的词语及其依存文法关系的匹配度满足预设条件。
对于本发明实施例,通过获取任意两个待识别的新闻资讯,并在判断两个新闻资讯的新闻标题判断的相似度满足第一预设条件时,确定两个新闻资讯为相似的新闻资讯,能够准确、快速地从众多新闻资讯中识别出相似的新闻资讯。
在本发明实施例中,计算相似的新闻资讯具体过程还可以为:在新闻资讯中滚动预置长度的窗口,每滚动一次获取一个字符长度与窗口长度相同的窗口特征词向量;根据所述窗口特征词向量生成与所述新闻资讯对应的唯一标识数据;通过对不同新闻资讯的唯一标识数据的比较,确定不同新闻资讯之间的相似度结果。由于在新闻资讯中滚动窗口产生的特征词向量能够表示该新闻资讯内容,因此通过窗口特征词向量生成的唯一标识数据能够计算新闻资讯之间的相似度,从而通过本发明实施例省略了simhash算法对新闻资讯分词的步骤,减少了对新闻资讯分词所造成的时间,进而提高了计算文本相似度的效率。
其中,所述预置长度大于等于2,预置的长度具体可依据文本的长度而确定,在文本的长度较大时可将预置长度设置的大些;在文本的长度较小时可将预置长度设置的小些。对于同一文本,预置长度设置的越小,窗口特征词向量中包含的字符越少,后续步骤中计算的文本相似度准确率越高;预置长度设置的越大,窗口特征词向量中包含的字符越多,后续步骤中计算的新闻资讯相似度准确率越低。根据所述窗口特征词向量生成与所述文本对应的唯一标识数据具体过程为:首先生成与各窗口特征词向量分别对应哈希值,然后根据对生成的哈希值进行simhash(网页去重hash方法)运算,生成与文本对应的唯一标识数据。
202、根据所述聚类的相似新闻资讯抽取所述话题。
其中,所述话题作用于相似新闻资讯中所有的新闻资讯。对于本发明实施例,从聚类的相似新闻资讯抽取话题的具体过程为:首先通过对相似新闻资讯中每个新闻资讯分别进行分词,然后去除分词结果中无实际意义词语,接着统计其余各个词语在相似新闻资讯中的出现频率,最后选择出现频率较高的部分词语作为相似新闻资讯的主题。
203、获取各话题的相似新闻数、相关新闻数、话题评论数。
其中,话题的相似新闻数是通过执行步骤201对新闻资讯中相似的新闻资讯进行聚类得到的。在本发明实施例中,所述获取各话题的相关新闻数包括:从各个新闻资讯对应的话题中抽取实体名词;计算所述实体名词在所述新闻资讯中的权重;根据所述权重大小筛选各新闻资讯的目标实体名词;通过各新闻资讯中的实体名词或目标实体名词确定相关新闻数。需要说明的是,各新闻资讯对应的话题是通过步骤202得到的,即相似的新闻资讯内的所有新闻资讯对应的话题都是一样的。其中,实体名词可以为人名、地名、组织名、产品名等带有实体意义的名词,本发明实施例不做具体限定。目标实体名词是权重值最高的N个词,N的大小可以根据实际需求进行设置,如N具体可以为2、3、4等,本发明实施例不做具体限定。
具体的,所述计算所述实体名词在对应的新闻资讯中的权重包括:根据实体名词在新闻资讯中出现的词频,及实体名词在新闻资讯标题中出现的次数、新闻资讯正文中出现的次数计算所述实体名词的权重。即通过累加目标实体名词在新闻资讯中出现的词频、标题中出现的次数、正文中出现的次数得到实体名词的权重值。进一步地,还以根据设置实体名词对应系数的方式求得实体名词的权重值,实体名词的权重=标题*K4+正文*K5+词频*K6,其中,K4、K5、K6是预先设置的系数,“标题”表示的是目标实体名词在新闻资讯标题中出现的次数,“正文”表示的是目标实体名词在新闻资讯正文中出现的次数。
在本发明实施例中,所述通过各新闻资讯中的实体名词或目标实体名词确定相关新闻数包括:将新闻资讯中实体名词相同且权重比值大于预置数值的新闻资讯确定相关的新闻资讯;或将新闻资讯中目标实体名词相同的新闻资讯确定相关的新闻资讯;根据确定的相关新闻资讯计算相关新闻数。例如,将新闻资讯中包含相同的实体名词且实体名词的权重比大于75%的新闻资讯认为是相关的新闻资讯,则当新闻资讯A中包括实体名词南海、仲裁庭,新闻资讯B中包括实体名词南海、菲律宾,新闻资讯A中南海的权重值为20、仲裁庭的权重值为10,新闻资讯B中南海的权重值为20、菲律宾的权重值为15,由于新闻资讯A与新闻资讯B中都包含南海,且新闻资讯A与新闻资讯B的实体名词的权重比大于75%,即(20+10)/(20+10)大于75%,因此新闻资讯A与新闻资讯B为相关的新闻资讯。另外,本发明实施例也可以通过将不同新闻资讯中包含同一个目标实体名词的新闻资讯确定为相关的新闻资讯。
对于本发明实施例,所述获取各话题的话题评论数包括:从所述相似的新闻资讯中获取各新闻资讯的评论数;对个新闻资讯的评论数进行累加得到所述话题评论数。
204、根据所述话题的相似新闻数、相关新闻数、话题评论数计算各话题的热点分值。
其中,所述热点分值用于评价话题的热点度。所述步骤204包括:根据所述相似新闻数及其对应的权重系数乘积确定所述话题的相似新闻分值;根据所述相关新闻数及其对应的权重系数乘积确定所述话题的相关新闻分值;根据所述话题评论数及其对应的权重系数乘积确定所述话题的话题评论分值;对各话题分别对应的相似新闻分值、相似新闻分值、话题评论分值进行累加运算,得到所述话题的热点分值。即可通过公式Score=A*K1+B*K2+C*K3计算各话题的热点分值,其中A为相似新闻数,K1为相似新闻对应的权重系数;B为相关新闻数,K2为相关新闻对应的权重系数;C为话题评论数,K3为话题评论对应的权重系数。
205、将所述热点分值大于预置阈值的话题确定为热点话题。
其中,关于步骤205将所述热点分值大于预置阈值的话题确定为热点话题的详细描述,可参考图1中相应部分的描述,在此不再赘述。
进一步地,为了能够在一个话题在互联网上即将引爆成热点的时候立即报警,使话题关心者或监管部门第一时间掌握信息。当热点分值大于预置阈值时报警,报警可以是系统报警,也可以是外接设备,比如外接短信猫发送短信,外接第三方控件发送微信等,本发明实施例不做具体限定。
本发明实施例提供的另一种热点话题的生成方法,首先对所述新闻资讯中相似的新闻资讯进行聚类,然后根据所述聚类的相似新闻资讯抽取所述话题,获取各话题的相似新闻数、相关新闻数、话题评论数,并根据话题的相似新闻数、相关新闻数、话题评论数确定热点话题,从而通过本发明实施例节省了人工确定热点话题所耗费的人力资源,提高了热点话题获取的效率及准确率。
进一步地,本发明实施例提供一种热点话题的生成装置,如图3所示,所述装置包括:抽取单元31、获取单元32、计算单元33、确定单元34。
抽取单元31,用于从新闻资讯中抽取话题;
在本发明实施例中,新闻资讯可从互联网上汇聚得到的,汇聚源包括新闻网站、微博、微信、论坛、贴吧等平台。其中,新闻网站具体可以为网易、搜狐、凤凰新闻、新华网、各地方网络报纸等,本发明实施例不做具体限定。具体的,本发明实施例可通过网络爬虫技术,第三方汇聚工具从互联网上汇聚新闻资讯,第三方汇聚攻击具体可以使火车采集器、八爪鱼等可视化工具。
对于本发明实施例,从新闻资讯中抽取话题的具体过程可以为:首先从互联网上汇聚新闻资讯,然后对所述新闻资讯中相似的新闻资讯进行聚类,通过对相似新闻资讯中每个新闻资讯分别进行分词,并去除分词结果中无实际意义词语,接着统计其余各个词语在相似新闻资讯中的出现频率,最后选择出现频率较高的部分词语作为相似新闻资讯的主题。
获取单元32,用于获取各话题的相似新闻数、相关新闻数、话题评论数;
其中,相似新闻数是话题对应的相似新闻个数,相关新闻数是话题对应的相关新闻个数,话题评论数是话题对应的评论数。例如,对新闻资讯中的相似新闻资讯进行聚类后得到2类相似新闻资讯,第一类相似新闻资讯内包含的新闻资讯个数为5、对应的话题为A;第二类相似新闻资讯内包含的新闻资讯个数为10、对应的话题为B。则话题A的相似新闻数为5,话题A评论数是话题A对应所有新闻资讯的评论数;话题B的相似新闻数为10,话题B评论数是话题B对应所有新闻资讯的评论数。需要说明的是,话题的相关新闻数具体可根据各新闻资讯话题中的实体名词确定,即根据实体名词的权重比确定相关新闻。
计算单元33,用于根据所述话题的相似新闻数、相关新闻数、话题评论数计算各话题的热点分值,所述热点分值用于评价话题的热点度;
其中,所述热点分值用于评价话题的热点度,具体的可对相似新闻数、相关新闻数、话题评论数进行累加计算得到各话题的热点分值。例如,话题A的相似新闻数为10、相关新闻数5、话题评论数100,则话题A的热点分值为115。
确定单元34,用于将所述热点分值大于预置阈值的话题确定为热点话题。
其中,预置阈值可以根据实际需求进行设置,预置阈值的设置方法与监控领域的媒体报道情况有关,比如汽车行业的媒体报道要监控汽车行业的新闻和舆论。而互联网上监控了10个网站,这10个网站普通新闻的报道量每天是10篇相同话题,评论是200,预置阈值可以设置为10以上的值,或者参考之前的热点话题新闻的具体情况进行设置。
需要说明的是,本发明实施例提供的一种热点话题的生成装置所涉及各功能单元的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
本发明实施例提供了一种热点话题的生成装置,首先从新闻资讯中抽取话题,然后获取各话题的相似新闻数、相关新闻数、话题评论数,并根据话题的相似新闻数、相关新闻数、话题评论数确定热点话题,从而通过本发明实施例节省了人工确定热点话题所耗费的人力资源,提高了热点话题获取的效率及准确率。
进一步地,本发明实施例提供另一种热点话题的生成装置,如图4所示,所述装置包括:抽取单元41、获取单元42、计算单元43、确定单元44。
抽取单元41,用于从新闻资讯中抽取话题;
获取单元42,用于获取各话题的相似新闻数、相关新闻数、话题评论数;
计算单元43,用于根据所述话题的相似新闻数、相关新闻数、话题评论数计算各话题的热点分值,所述热点分值用于评价话题的热点度;
确定单元44,用于将所述热点分值大于预置阈值的话题确定为热点话题。
具体的,所述计算单元43包括:
确定模块431,用于根据所述相似新闻数及其对应的权重系数乘积确定所述话题的相似新闻分值;
所述确定模块431,还用于根据所述相关新闻数及其对应的权重系数乘积确定所述话题的相关新闻分值;
所述确定模块431,还用于根据所述话题评论数及其对应的权重系数乘积确定所述话题的话题评论分值;
累加模块432,用于对各话题分别对应的相似新闻分值、相似新闻分值、话题评论分值进行累加运算,得到所述话题的热点分值。
所述抽取单元41包括:
聚类模块411,用于对所述新闻资讯中相似的新闻资讯进行聚类;
其中,新闻资讯可从互联网上汇聚得到的,汇聚源包括新闻网站、微博、微信、论坛、贴吧等平台。其中,新闻网站具体可以为网易、搜狐、凤凰新闻、新华网、各地方网络报纸等,本发明实施例不做具体限定。
进一步地,为了保证新闻的连续性,从互联网上选择与待比较新闻资讯的时间差应该小于等于48小时,即话题中最近一篇新闻资讯的时间和待比较新闻资讯的时间差小于等于48小时。其中,48小时的选择标准由热点的连续性决定,48小时为推荐标准,不是官方指定的。
在本发明实施例中,计算相似的新闻资讯具体过程可以为:获取待识别的任两个新闻资讯,所述新闻资讯包括新闻标题;判断两个新闻标题的相似度是否满足第一预设条件;在所述两个新闻标题的相似度满足所述第一预设条件时,确定所述两个新闻资讯为相似的新闻资讯。具体的,当两个新闻标题满足一下条件至少之一时,即可判断两个新闻资讯的相似度满足第一预设条件:两个新闻标题相同;或者,其中一个新闻标题分词处理后的词汇集合是否包含另一个新闻标题分词处理后的词汇集合中的所有词语;或者,两个新闻标题中的词语及其依存文法关系的匹配度满足预设条件。
对于本发明实施例,通过获取任意两个待识别的新闻资讯,并在判断两个新闻资讯的新闻标题判断的相似度满足第一预设条件时,确定两个新闻资讯为相似的新闻资讯,能够准确、快速地从众多新闻资讯中识别出相似的新闻资讯。
在本发明实施例中,计算相似的新闻资讯具体过程还可以为:在新闻资讯中滚动预置长度的窗口,每滚动一次获取一个字符长度与窗口长度相同的窗口特征词向量;根据所述窗口特征词向量生成与所述新闻资讯对应的唯一标识数据;通过对不同新闻资讯的唯一标识数据的比较,确定不同新闻资讯之间的相似度结果。由于在新闻资讯中滚动窗口产生的特征词向量能够表示该新闻资讯内容,因此通过窗口特征词向量生成的唯一标识数据能够计算新闻资讯之间的相似度,从而通过本发明实施例省略了simhash算法对新闻资讯分词的步骤,减少了对新闻资讯分词所造成的时间,进而提高了计算文本相似度的效率。
抽取模块412,用于根据所述聚类的相似新闻资讯抽取所述话题,所述话题作用于相似新闻资讯中所有的新闻资讯。
其中,所述话题作用于相似新闻资讯中所有的新闻资讯。对于本发明实施例,从聚类的相似新闻资讯抽取话题的具体过程为:首先通过对相似新闻资讯中每个新闻资讯分别进行分词,然后去除分词结果中无实际意义词语,接着统计其余各个词语在相似新闻资讯中的出现频率,最后选择出现频率较高的部分词语作为相似新闻资讯的主题。
所述获取单元42包括:
抽取模块421,用于从各个新闻资讯对应的话题中抽取实体名词;
其中,实体名词可以为人名、地名、组织名、产品名等带有实体意义的名词,本发明实施例不做具体限定。目标实体名词是权重值最高的N个词,N的大小可以根据实际需求进行设置,如N具体可以为2、3、4等,本发明实施例不做具体限定。
计算模块422,用于计算所述实体名词在所述新闻资讯中的权重;
筛选模块423,用于根据所述权重大小筛选各新闻资讯的目标实体名词;
确定模块424,用于通过各新闻资讯中的实体名词或目标实体名词确定相关新闻数。
所述计算模块422,用于根据实体名词在新闻资讯中出现的词频,及实体名词在新闻资讯标题中出现的次数、新闻资讯正文中出现的次数计算所述实体名词的权重。进一步地,还以根据设置实体名词对应系数的方式求得实体名词的权重值,实体名词的权重=标题*K4+正文*K5+词频*K6,其中,K4、K5、K6是预先设置的系数,“标题”表示的是目标实体名词在新闻资讯标题中出现的次数,“正文”表示的是目标实体名词在新闻资讯正文中出现的次数。
所述确定模块424,用于将新闻资讯中实体名词相同且权重比值大于预置数值的新闻资讯确定相关的新闻资讯;或将新闻资讯中目标实体名词相同的新闻资讯确定相关的新闻资讯;根据确定的相关新闻资讯计算相关新闻数。
具体的,所述获取单元42包括:
获取模块425,用于从所述相似的新闻资讯中获取各新闻资讯的评论数;
累加模块426,用于对个新闻资讯的评论数进行累加得到所述话题评论数。
进一步地,为了能够在一个话题在互联网上即将引爆成热点的时候立即报警,使话题关心者或监管部门第一时间掌握信息。当热点分值大于预置阈值时报警,报警可以是系统报警,也可以是外接设备,比如外接短信猫发送短信,外接第三方控件发送微信等,本发明实施例不做具体限定。
本发明实施例提供的另一种热点话题的生成装置,首先对所述新闻资讯中相似的新闻资讯进行聚类,然后根据所述聚类的相似新闻资讯抽取所述话题,获取各话题的相似新闻数、相关新闻数、话题评论数,并根据话题的相似新闻数、相关新闻数、话题评论数确定热点话题,从而通过本发明实施例节省了人工确定热点话题所耗费的人力资源,提高了热点话题获取的效率及准确率。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的热点话题的生成方法及装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种热点话题的生成方法,其特征在于,包括:
从新闻资讯中抽取话题;
获取各话题的相似新闻数、相关新闻数、话题评论数;
根据所述话题的相似新闻数、相关新闻数、话题评论数计算各话题的热点分值,所述热点分值用于评价话题的热点度;
将所述热点分值大于预置阈值的话题确定为热点话题。
2.根据权利要求1所述的方法,其特征在于,所述根据所述话题的相似新闻数、相关新闻数、话题评论数计算各话题的热点分值包括:
根据所述相似新闻数及其对应的权重系数乘积确定所述话题的相似新闻分值;
根据所述相关新闻数及其对应的权重系数乘积确定所述话题的相关新闻分值;
根据所述话题评论数及其对应的权重系数乘积确定所述话题的话题评论分值;
对各话题分别对应的相似新闻分值、相似新闻分值、话题评论分值进行累加运算,得到所述话题的热点分值。
3.根据权利要求1或2所述的方法,其特征在于,所述从新闻资讯中抽取话题包括:
对所述新闻资讯中相似的新闻资讯进行聚类;
根据所述聚类的相似新闻资讯抽取所述话题,所述话题作用于相似新闻资讯中所有的新闻资讯。
4.根据权利要求3所述的方法,其特征在于,所述获取各话题的相关新闻数包括:
从各个新闻资讯对应的话题中抽取实体名词;
计算所述实体名词在所述新闻资讯中的权重;
根据所述权重大小筛选各新闻资讯的目标实体名词;
通过各新闻资讯中的实体名词或目标实体名词确定相关新闻数。
5.根据权利要求4所述的方法,其特征在于,所述计算所述实体名词在对应的新闻资讯中的权重包括:
根据实体名词在新闻资讯中出现的词频,及实体名词在新闻资讯标题中出现的次数、新闻资讯正文中出现的次数计算所述实体名词的权重。
6.根据权利要求4所述的方法,其特征在于,所述通过各新闻资讯中的实体名词或目标实体名词确定相关新闻数包括:
将新闻资讯中实体名词相同且权重比值大于预置数值的新闻资讯确定相关的新闻资讯;或
将新闻资讯中目标实体名词相同的新闻资讯确定相关的新闻资讯;
根据确定的相关新闻资讯计算相关新闻数。
7.根据权利要求3所述的方法,其特征在于,所述获取各话题的话题评论数包括:
从所述相似的新闻资讯中获取各新闻资讯的评论数;
对个新闻资讯的评论数进行累加得到所述话题评论数。
8.一种热点话题的生成装置,其特征在于,包括:
抽取单元,用于从新闻资讯中抽取话题;
获取单元,用于获取各话题的相似新闻数、相关新闻数、话题评论数;
计算单元,用于根据所述话题的相似新闻数、相关新闻数、话题评论数计算各话题的热点分值,所述热点分值用于评价话题的热点度;
确定单元,用于将所述热点分值大于预置阈值的话题确定为热点话题。
9.根据权利要求8所述的装置,其特征在于,所述计算单元包括:
确定模块,用于根据所述相似新闻数及其对应的权重系数乘积确定所述话题的相似新闻分值;
所述确定模块,还用于根据所述相关新闻数及其对应的权重系数乘积确定所述话题的相关新闻分值;
所述确定模块,还用于根据所述话题评论数及其对应的权重系数乘积确定所述话题的话题评论分值;
累加模块,用于对各话题分别对应的相似新闻分值、相似新闻分值、话题评论分值进行累加运算,得到所述话题的热点分值。
10.根据权利要求8或9所述的装置,其特征在于,所述抽取单元包括:
聚类模块,用于对所述新闻资讯中相似的新闻资讯进行聚类;
抽取模块,用于根据所述聚类的相似新闻资讯抽取所述话题,所述话题作用于相似新闻资讯中所有的新闻资讯。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610859951.3A CN106446179B (zh) | 2016-09-28 | 2016-09-28 | 热点话题的生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610859951.3A CN106446179B (zh) | 2016-09-28 | 2016-09-28 | 热点话题的生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106446179A true CN106446179A (zh) | 2017-02-22 |
CN106446179B CN106446179B (zh) | 2019-07-30 |
Family
ID=58171216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610859951.3A Active CN106446179B (zh) | 2016-09-28 | 2016-09-28 | 热点话题的生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106446179B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063015A (zh) * | 2018-07-11 | 2018-12-21 | 北京奇艺世纪科技有限公司 | 热点内容的提取方法、装置及设备 |
CN109766367A (zh) * | 2017-07-28 | 2019-05-17 | 腾讯科技(深圳)有限公司 | 热点事件确定方法及装置、计算机设备及存储介质 |
CN110489741A (zh) * | 2019-07-12 | 2019-11-22 | 北京邮电大学 | 基于突发词检测和过滤的微博突发话题检测方法 |
CN111460289A (zh) * | 2020-03-27 | 2020-07-28 | 北京百度网讯科技有限公司 | 新闻资讯的推送方法和装置 |
CN112667884A (zh) * | 2019-10-16 | 2021-04-16 | 财团法人工业技术研究院 | 企划书产生系统及其方法 |
TWI828928B (zh) * | 2019-09-11 | 2024-01-11 | 香港商慧科訊業有限公司 | 高擴展性、多標籤的文本分類方法和裝置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102346766A (zh) * | 2011-09-20 | 2012-02-08 | 北京邮电大学 | 基于极大团发现的网络热点话题检测方法及装置 |
CN102662965A (zh) * | 2012-03-07 | 2012-09-12 | 上海引跑信息科技有限公司 | 一种自动发现互联网热点新闻主题的方法及系统 |
CN102831128A (zh) * | 2011-06-15 | 2012-12-19 | 富士通株式会社 | 一种对互联网上的同名人物信息进行分类的方法及装置 |
CN102982157A (zh) * | 2012-12-03 | 2013-03-20 | 北京奇虎科技有限公司 | 用于挖掘微博热点话题的装置及方法 |
CN105354333A (zh) * | 2015-12-07 | 2016-02-24 | 天云融创数据科技(北京)有限公司 | 一种基于新闻文本的话题提取方法 |
-
2016
- 2016-09-28 CN CN201610859951.3A patent/CN106446179B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831128A (zh) * | 2011-06-15 | 2012-12-19 | 富士通株式会社 | 一种对互联网上的同名人物信息进行分类的方法及装置 |
CN102346766A (zh) * | 2011-09-20 | 2012-02-08 | 北京邮电大学 | 基于极大团发现的网络热点话题检测方法及装置 |
CN102662965A (zh) * | 2012-03-07 | 2012-09-12 | 上海引跑信息科技有限公司 | 一种自动发现互联网热点新闻主题的方法及系统 |
CN102982157A (zh) * | 2012-12-03 | 2013-03-20 | 北京奇虎科技有限公司 | 用于挖掘微博热点话题的装置及方法 |
CN105354333A (zh) * | 2015-12-07 | 2016-02-24 | 天云融创数据科技(北京)有限公司 | 一种基于新闻文本的话题提取方法 |
Non-Patent Citations (1)
Title |
---|
李永道: "微博热点话题发现方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109766367A (zh) * | 2017-07-28 | 2019-05-17 | 腾讯科技(深圳)有限公司 | 热点事件确定方法及装置、计算机设备及存储介质 |
CN109766367B (zh) * | 2017-07-28 | 2021-06-08 | 腾讯科技(深圳)有限公司 | 热点事件确定方法及装置、计算机设备及存储介质 |
CN109063015A (zh) * | 2018-07-11 | 2018-12-21 | 北京奇艺世纪科技有限公司 | 热点内容的提取方法、装置及设备 |
CN109063015B (zh) * | 2018-07-11 | 2021-01-22 | 北京奇艺世纪科技有限公司 | 热点内容的提取方法、装置及设备 |
CN110489741A (zh) * | 2019-07-12 | 2019-11-22 | 北京邮电大学 | 基于突发词检测和过滤的微博突发话题检测方法 |
CN110489741B (zh) * | 2019-07-12 | 2022-06-21 | 北京邮电大学 | 基于突发词检测和过滤的微博突发话题检测方法 |
TWI828928B (zh) * | 2019-09-11 | 2024-01-11 | 香港商慧科訊業有限公司 | 高擴展性、多標籤的文本分類方法和裝置 |
CN112667884A (zh) * | 2019-10-16 | 2021-04-16 | 财团法人工业技术研究院 | 企划书产生系统及其方法 |
CN112667884B (zh) * | 2019-10-16 | 2023-11-28 | 财团法人工业技术研究院 | 企划书产生系统及其方法 |
CN111460289A (zh) * | 2020-03-27 | 2020-07-28 | 北京百度网讯科技有限公司 | 新闻资讯的推送方法和装置 |
CN111460289B (zh) * | 2020-03-27 | 2024-03-29 | 北京百度网讯科技有限公司 | 新闻资讯的推送方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106446179B (zh) | 2019-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106446179A (zh) | 热点话题的生成方法及装置 | |
CN105574098B (zh) | 知识图谱的生成方法及装置、实体对比方法及装置 | |
CN105589948B (zh) | 一种文献引用网络可视化及文献推荐方法及系统 | |
JP6211605B2 (ja) | クリックスルー率に基づく検索結果の順位付け | |
CN102970289B (zh) | 基于Web用户行为模式的身份认证方法 | |
CN104579773B (zh) | 域名系统分析方法及装置 | |
CN105488023B (zh) | 一种文本相似度评估方法及装置 | |
CN109474483A (zh) | 一种设备异常情况的检测方法、检测装置及终端设备 | |
CN104899508B (zh) | 一种多阶段钓鱼网站检测方法与系统 | |
CN110704603B (zh) | 一种通过资讯发掘当前热点事件的方法和装置 | |
CN107705842A (zh) | 智能分诊系统及其工作方法 | |
CN106897931A (zh) | 一种异常交易数据的识别方法及装置 | |
CN103279879A (zh) | 一种在线二手汽车估价的方法 | |
CN105808541B (zh) | 一种信息匹配处理方法和装置 | |
CN106296286A (zh) | 广告点击率的预估方法和预估装置 | |
CN106528755A (zh) | 热点话题的生成方法及装置 | |
CN105574544A (zh) | 一种数据处理方法和装置 | |
CN105893362A (zh) | 获取知识点语义向量的方法、确定相关知识点的方法及系统 | |
CN106649334A (zh) | 关联词语集合的处理方法及装置 | |
CN107832444A (zh) | 基于搜索日志的事件发现方法及装置 | |
CN102063497B (zh) | 一种开放式知识共享平台及其词条处理方法 | |
CN113569162A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN108170691A (zh) | 关联文书的确定方法和装置 | |
CN104967698B (zh) | 一种爬取网络数据的方法和装置 | |
CN109064067B (zh) | 基于互联网的金融风险运营主体判定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |