CN111368070A - 热点事件的确定方法及装置 - Google Patents
热点事件的确定方法及装置 Download PDFInfo
- Publication number
- CN111368070A CN111368070A CN201811488170.3A CN201811488170A CN111368070A CN 111368070 A CN111368070 A CN 111368070A CN 201811488170 A CN201811488170 A CN 201811488170A CN 111368070 A CN111368070 A CN 111368070A
- Authority
- CN
- China
- Prior art keywords
- attention
- hot
- event
- determining
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000008451 emotion Effects 0.000 claims description 57
- 238000004458 analytical method Methods 0.000 claims description 46
- 230000009193 crawling Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种热点事件的确定方法及装置。其中,该方法包括:获取多方媒体中记载的多个关注热词;依据多个关注热词,确定与每个关注热词匹配的文章数量;依据与每个关注热词匹配的文章数量,确定热点事件。本发明解决了相关技术中通过聚类方式抓取热点事件导致热点事件的形式单一,无法全面的抓取热点事件的技术问题。
Description
技术领域
本发明涉及多媒体技术领域,具体而言,涉及一种热点事件的确定方法及装置。
背景技术
随着互联网技术的进步,很多媒体行业都开始关注或者报道互联网上的热点新闻或者热点事件,这时,就需要各个多媒体平台或者新闻应用将每天或者一段时间内的热点行为和热点事件分析出来,并及时进行报道,在当前分析热点新闻或者热点事件时,往往是通过大量人工力量从互联网上筛选出人们感兴趣的热点事件,或者是对海量的新闻或者事件进行抓取后,再对海量数据进行相似文章聚类,若某一个新闻的相似文章达到某一个阈值时,可以对文章进行抓取,从而确定出热点事件的名称,并且可以提取出热点事件的相关信息,从而实现对热点事件的抓取。但是这种抓取事件的方式往往是基于对海量数据进行抓取,这时就需要强大的数据抓取系统和数据分析系统,需要很高的设备成本,而且通过热点事件聚类的方式进行热点事件的抓取,往往不够全面,
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种热点事件的确定方法及装置,以至少解决相关技术中通过聚类方式抓取热点事件导致热点事件的形式单一,无法全面的抓取热点事件的技术问题。
根据本发明实施例的一个方面,提供了一种热点事件的确定方法,包括:获取多方媒体中记载的多个关注热词;依据所述多个关注热词,确定与每个所述关注热词匹配的文章数量;依据与每个所述关注热词匹配的文章数量,确定热点事件。
进一步地,获取多方媒体中记载的多个关注热词包括:获取所述多方媒体中每个媒体的用户输入的搜索关键词;统计每个所述搜索关键词的关注量;在所述关注量大于预设关注量时,确认所述搜索关键词为所述关注热词。
进一步地,依据所述多个关注热词,确定与每个所述关注热词匹配的文章数量包括:将所述关注热词作为关键词,匹配出与所述关注热词对应的文章;统计与每个所述关注热词对应的文章数量。
进一步地,所述多方媒体包括下述至少之一:热搜媒体、第三方论坛、新闻应用、即时通讯平台。
进一步地,上述热点事件的确定方法还包括:在获取多方媒体中记载的多个关注热词之前,按照预设间隔时间,爬取所述多方媒体中的每个媒体的目标数据,其中,所述目标数据包括下述至少之一:每个文章的关注量和评论量、每个文章中出现频率大于预设频率的词语、每个文章对应的媒体名称和媒体地址、多方媒体中重复出现的事件名称;获取多方媒体中记载的多个关注热词包括:选取关注量和评论量大于第一预设数值的文章,得到多个待分析文章;将所述待分析文章中出现频率大于预设频率的词语作为候选关注热词;依据所述多方媒体中重复出现的事件名称,判断每个所述候选关注热词是否为所述关注热词,以得到所述多个关注热词。
进一步地,依据与每个所述关注热词匹配的文章数量,确定热点事件包括:获取文章数量大于第二预设数值的目标关注热词;提取与所述目标关注热词对应的文章的文本内容;将所述文本内容所关注的事件作为所述热点事件。
进一步地,上述热点事件的确定方法还包括:在确定热点事件之后,获取与所述热点事件对应的每个文章的评论词;依据所述评论词,分析每个文章中与所述热点事件所对应的目标情绪,其中,所述目标情绪为下述之一:正面情绪、负面情绪、理性情绪。
进一步地,上述热点事件的确定方法还包括:在分析每个文章中与所述热点事件所对应的目标情绪之后,输出分析结果,其中,所述分析结果至少包括:所述热点事件的名称、所述热点事件所对应的媒体名称、所述热点事件所对应的目标情绪。
根据本发明实施例的另一方面,还提供了一种热点事件的确定装置,包括:获取单元,用于获取多方媒体中记载的多个关注热词;第一确定单元,用于依据所述多个关注热词,确定与每个所述关注热词匹配的文章数量;第二确定单元,用于依据与每个所述关注热词匹配的文章数量,确定热点事件。
进一步地,所述获取单元包括:第一获取模块,用于获取所述多方媒体中每个媒体的用户输入的搜索关键词;第一统计模块,用于统计每个所述搜索关键词的关注量;第一确定模块,用于在所述关注量大于预设关注量时,确认所述搜索关键词为所述关注热词。
进一步地,所述第一确定单元包括:第一匹配模块,用于将所述关注热词作为关键词,匹配出与所述关注热词对应的文章;第二统计模块,用于统计与每个所述关注热词对应的文章数量。
进一步地,所述多方媒体包括下述至少之一:热搜媒体、第三方论坛、新闻应用、即时通讯平台。
进一步地,所述热点事件的确定装置还包括:爬取单元,用于在获取多方媒体中记载的多个关注热词之前,按照预设间隔时间,爬取所述多方媒体中的每个媒体的目标数据,其中,所述目标数据包括下述至少之一:每个文章的关注量和评论量、每个文章中出现频率大于预设频率的词语、每个文章对应的媒体名称和媒体地址、多方媒体中重复出现的事件名称;所述获取单元包括:第一选取模块,用于选取关注量和评论量大于第一预设数值的文章,得到多个待分析文章;第二确定模块,用于将所述待分析文章中出现频率大于预设频率的词语作为候选关注热词;第三确定模块,用于依据所述多方媒体中重复出现的事件名称,判断每个所述候选关注热词是否为所述关注热词,以得到所述多个关注热词。
进一步地,所述第二确定单元包括:第二获取模块,用于获取文章数量大于第二预设数值的目标关注热词;提取模块,用于提取与所述目标关注热词对应的文章的文本内容;第四确定模块,用于将所述文本内容所关注的事件作为所述热点事件。
进一步地,上述热点事件的确定装置还包括:第二获取模块,用于在确定热点事件之后,获取与所述热点事件对应的每个文章的评论词;分析模块,用于依据所述评论词,分析每个文章中与所述热点事件所对应的目标情绪,其中,所述目标情绪为下述之一:正面情绪、负面情绪、理性情绪。
进一步地,上述热点事件的确定装置还包括:输出模块,用于在分析每个文章中与所述热点事件所对应的目标情绪之后,输出分析结果,其中,所述分析结果至少包括:所述热点事件的名称、所述热点事件所对应的媒体名称、所述热点事件所对应的目标情绪。
根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质用于存储程序,其中,所述程序在被处理器执行时控制所述存储介质所在设备执行上述任意一项所述的热点事件的确定方法。
根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的热点事件的确定方法。
在本发明实施例中,可以先获取到多方媒体中记载的多个关注热词,依据多个关注热词,确定与每个关注热词匹配的文章数量,最后可以依据与每个关注热词匹配的文章数量,确定热点事件。在该实施例中,可以通过对各社交媒体中用户的关注热词进行获取,对这些关注热词进行匹配,以确定出与每个关注热词对应的关注量,得到匹配出的文章数量,在确定热点事件时,不同的媒体获取的热点事件也不同,这样就可以获取全面准确的热点事件,并对这些热点事件的文章进行常规的情绪等分析,可以得出今日最热事件及事件的详细分析,从而解决相关技术中通过聚类方式抓取热点事件导致热点事件的形式单一,无法全面的抓取热点事件的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的热点事件的确定方法的流程图;
图2是根据本发明的另一种热点事件获取系统的示意图;
图3是根据本发明实施例的一种可选的热点事件的确定装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明下述实施例,可以应用于各种多媒体应用、新闻应用、浏览器或者各种网页中,对于当前在挖掘热点新闻或者热点事件时,需要热工帮助或者较高配置的服务器来挖掘热点事件,并且挖掘的热地事件不全面的情况,本发明下述实施例中可以同对多个热搜媒体、论坛等全方位进行热点事件采集,采集面更加广泛,采集到的热点事件也会更加的全面。由于每个用户喜欢关注的事件类型不同,本发明实施例中也可以针对用户的喜欢事件类型确定出可以推荐给用户的热点事件,在推荐时,可以依据各个热点事件的优先级进行推荐。
可选的,本发明下述实施例中可以应用于各种终端、移动设备上,而终端可以为手机或者电脑等设备,另外,用户可以终端设备直接浏览到当日、或者近一段时间内的热点事件,在浏览时,还可以通过热点事件的关键词标注信息确定出用户感兴趣的事件点。
另外,本发明下述实施例中提供爬取信息的来源,包括但不限于:百度热搜、微博热搜、其它第三方论坛热搜或者新闻应用等,从而全方位、多角度的获取到热点事件。下面通过各个实施例对本发明进行说明。
实施例一
根据本发明实施例,提供了一种热点事件的确定方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的热点事件的确定方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取多方媒体中记载的多个关注热词;
步骤S104,依据多个关注热词,确定与每个关注热词匹配的文章数量;
步骤S106,依据与每个关注热词匹配的文章数量,确定热点事件。
通过上述步骤,可以先获取到多方媒体中记载的多个关注热词,依据多个关注热词,确定与每个关注热词匹配的文章数量,最后可以依据与每个关注热词匹配的文章数量,确定热点事件。在该实施例中,可以通过对各社交媒体中用户的关注热词进行获取,对这些关注热词进行匹配,以确定出与每个关注热词对应的关注量,得到匹配出的文章数量,在确定热点事件时,不同的媒体获取的热点事件也不同,这样就可以获取全面准确的热点事件,并对这些热点事件的文章进行常规的情绪等分析,可以得出今日最热事件及事件的详细分析,从而解决相关技术中通过聚类方式抓取热点事件导致热点事件的形式单一,无法全面的抓取热点事件的技术问题。
下面对上述各个实施步骤进行说明。
步骤S102,获取多方媒体中记载的多个关注热词。
可选的,多方媒体包括下述至少之一:热搜媒体、第三方论坛、新闻应用、即时通讯平台。其中,热搜媒体可以是当前排名靠前的媒体,如百度热搜、网易热搜、腾讯热搜等,对于第三方论坛,可以是各个论坛网站或者论坛门户,如水木清华论坛,对于新闻应用,可以是当前的新闻应用软件,如“今日头条”,或者其它的运行于终端上的新闻应用,对于即时通讯平台,可以是当前较为流行和方便的通讯平台,如微信或者钉钉。这样就可以通过多方媒体获取到为用户所关注的关注热词。
作为本发明一可选的示例,获取多方媒体中记载的多个关注热词包括:获取多方媒体中每个媒体的用户输入的搜索关键词;统计每个搜索关键词的关注量;在关注量大于预设关注量时,确认搜索关键词为关注热词。
每个媒体端都会有一定的使用用户,使用用户会通过搜索框输入一定的搜索关键词,本申请可以通过对每个媒体端的使用用户输入的搜索关键词进行采集,并统计各个媒体端所有搜索关键词的关注量,若确定出其关注数量大于一定的数值,则可以定义该搜索关键词为关注热词。
其中,上述的预设关注量,可以是开发人员或者商家自行设置的,如20次。
一种可选的实施方式,上述热点事件的确定方法还包括:在获取多方媒体中记载的多个关注热词之前,按照预设间隔时间,爬取多方媒体中的每个媒体的目标数据,其中,目标数据包括下述至少之一:每个文章的关注量和评论量、每个文章中出现频率大于预设频率的词语、每个文章对应的媒体名称和媒体地址、多方媒体中重复出现的事件名称。
其中,预设间隔时间,可以是各个用户或者应用预先设置的时间,如1天或者3个小时,在达到预设间隔时间后,可以爬取每个媒体中的数据,包括爬取各个媒体中发布的文章和各个事件的文章,以及评论文章等。
可选的,上述媒体名称可以是指关注的媒体的名称,而媒体地址可以指示虚拟地址或者实际地址。
另外,对于上述的多方媒体中出现重复的事件名称指示了媒体关注的事件的重复,如对同一个事件,有多个媒体同时关注,这时就可以统计出关注的媒体的数量,然后就可以利用事件被媒体关注的数量确定出热点事件。
一种可选的实施方式,在得到上述的目标数据后,可以获取多方媒体中记载的多个关注热词,可选的,可以通过下述步骤得到关注热词:选取关注量和评论量大于第一预设数值的文章,得到多个待分析文章;将待分析文章中出现频率大于预设频率的词语作为候选关注热词;依据多方媒体中重复出现的事件名称,判断每个候选关注热词是否为关注热词,以得到多个关注热词。
通过上述实施方式,可以对获取到的数据进行分析,如分析文章的关注量和评论量,其中,评论量仅针对每个文章的评论文本的数量,每个评论文本中都会有多个评论词。利用文章的关注量和评论量,可以看到有哪些文章的关注度比较高,将这些关注度较高的文章提取出来,作为待分析的文章。
本申请中,会对文章的文本内容进行文章语义提取,以确定文章所描述的事件,得到事件名称。并且在对文本内容进行语义提取时,还可以确定文章中的各个词语出现的频率,若某一个词语出现频率较高,则可以将该词语定义为候选关注热词。
步骤S104,依据多个关注热词,确定与每个关注热词匹配的文章数量。
在本发明实施例中,依据多个关注热词,确定与每个关注热词匹配的文章数量包括:将关注热词作为关键词,匹配出与关注热词对应的文章;统计与每个关注热词对应的文章数量。即可以通过对关注热词的文章数量的获取操作,确定出每个关注热词的关注文章数量,进而确定出哪些关注热词的关注量更大,优先级更高,以推送给用户当前热点事件对应的文章。
可选的,在目标数据库中会预先存储已经统计出来的各个关键词所对应的文章数量,该文章是指已经发表,涉及到该关注热词的文章。例如,在多个热搜平台中都会报道同一个热点事件,只不过热点事件的内容不同,这时就需要全方位的进行关注热词的提取,和各个关注热词的文章数量匹配,从而确定出热点事件。
步骤S106,依据与每个关注热词匹配的文章数量,确定热点事件。
可选的,依据与每个关注热词匹配的文章数量,确定热点事件包括:获取文章数量大于第二预设数值的目标关注热词;提取与目标关注热词对应的文章的文本内容;将文本内容所关注的事件作为热点事件。
其中,第二预设数值可以是用户自行设置的数值,在本申请中不做具体限定。
另一种可选的实施方式,上述热点事件的确定方法还包括:在确定热点事件之后,获取与热点事件对应的每个文章的评论词;依据评论词,分析每个文章中与热点事件所对应的目标情绪,其中,目标情绪为下述之一:正面情绪、负面情绪、理性情绪。
即可以通过对热点事件进行分析确定出事件的情感、情绪,可选的,分析时,可以对文章中的词语进行情绪匹配,具体匹配时,可以是通过词语情感模型来匹配的,该词语情感模型可以是预先建立,通过多组数据进行训练,从而建立该词语情感模型,可选的,在训练时,每组数据中都可以包括一片文章以及提取出的多个词语,然后给出结果,结果中包含每个词语所对应的情感,从而训练得到模型。另外,在分析时,还可以是对文章中的语义进行分析或者进行句法分析,从而分析出获取到的数据中的关键词的情感、关注量等,进而完成对整个热点事件的分析。
在本发明实施例中,热点事件的确定方法还包括:对多个热点事件进行排名,排名时的依据包括但不限于:热点事件的关注情感倾向、热点事件的关注量、热点事件所涉及的领域、热点事件的文章内容。在对热点事件进行排名后,可以依据排名向用户推荐各个热点事件和热点事件的分析内容。
当然,在向用户推荐热点事件和热点事件的分析内容时,可以在一个页面中推荐不同质的热点事件,以避免热点事件领域重复过多,导致用户的阅读兴趣降低,即在一个推荐页面中,可以推荐多个领域的热点事件。
另外,上述热点事件的确定方法还包括:在分析每个文章中与热点事件所对应的目标情绪之后,输出分析结果,其中,分析结果至少包括:热点事件的名称、热点事件所对应的媒体名称、热点事件所对应的目标情绪。
通过本发明上述实施例,可以实现通过对百度热搜、微博热搜、其他第三方论坛热搜等进行实时爬取,获取各社交媒体端网民的关注热词,然后以这些热词为关键词,对数据库进行匹配,获取到这些热词在微博、微信、网媒、论坛的文章总数,从而获得真正的热点事件并对这些文章进行常规的情绪等分析,最后得出今日最热事件及各个热点事件的详细分析内容,为后续热点事件的推荐做准备,这样就可以让用户实时了解到最新的新闻信息,热点事件的获取范围更加广泛,用户阅读兴趣也会有相应的提高。
下面通过另一种可选的实施例对本发明进行说明。
图2是根据本发明的另一种热点事件获取系统的示意图,如图2所示,该获取系统包括:热搜模块21、媒体模块22、分析模块23、事件分析结果模块24。通过下述方式获取到热点事件以及热点事件分析内容。
21、第三方社交媒体热点关键词提取。
其中,在抓取时,可以是对微博热搜、百度热搜…网易热搜等热搜媒体进行关键词抓取,从而确定出多个热词。
22、关键词匹配。
其中,在进行关键词匹配时,可以是通过对网媒、微博、论坛等新闻媒体进行关键词匹配,从而确定出真正的热词。
23、确定出热点事件
24、对关键热词进行情感分析、语义分析和句法分析,从而确定每个关键词的关注量。
在本发明实施例中,还可以实现对各个关注热词的情感分析、语义分析、句法分析等内容的分析。其中,本发明实施例中在分析可以通过分析模型进行分析,如通过分词标注、句法分析、语义联想、信息抽取等操作分析各个关键热词和关注文章内容,从而为后续确定出热点事件做准备。
可选的,通过上述步骤,可以得到热点事件,并同时可以得到每个热点事件的分析内容,如图2中的事件分析一、事件分析二、事件分析三、事件分析四等。
25、根据分析得到热点事件的排名。
通过上述实施例,可以通过对各个媒体平台的数据进行爬取,确定出关键词,然后通过与数据库中记载的数据进行匹配,获取到真正关注的热词,得到热点事件,然后可以对热点事件进行语义分析、句法分析、语义联想、信息抽取等动作,从而确定出真正的热点事件内容,本发明可以打破传统的单一的热点聚类方式,可多角度获取到热点事件,数据更加精准而且全面,让用户也可以多方位获取到热点事件的详细内容。
下面通过另一种可选的实施例对本发明进行说明。
图3是根据本发明实施例的一种可选的热点事件的确定装置的示意图,如图3所示,该装置可以包括:获取单元31、第一确定单元33、第二确定单元35,其中
获取单元31,用于获取多方媒体中记载的多个关注热词;
第一确定单元33,用于依据多个关注热词,确定与每个关注热词匹配的文章数量;
第二确定单元35,用于依据与每个关注热词匹配的文章数量,确定热点事件。
上述热点事件的确定装置,可以通过获取单元31获取到多方媒体中记载的多个关注热词,通过第一确定单元33依据多个关注热词,确定与每个关注热词匹配的文章数量,最后可以通过第二确定单元35依据与每个关注热词匹配的文章数量,确定热点事件。在该实施例中,可以通过对各社交媒体中用户的关注热词进行获取,对这些关注热词进行匹配,以确定出与每个关注热词对应的关注量,得到匹配出的文章数量,在确定热点事件时,不同的媒体获取的热点事件也不同,这样就可以获取全面准确的热点事件,并对这些热点事件的文章进行常规的情绪等分析,可以得出今日最热事件及事件的详细分析,从而解决相关技术中通过聚类方式抓取热点事件导致热点事件的形式单一,无法全面的抓取热点事件的技术问题。
可选的,获取单元包括:第一获取模块,用于获取多方媒体中每个媒体的用户输入的搜索关键词;第一统计模块,用于统计每个搜索关键词的关注量;第一确定模块,用于在关注量大于预设关注量时,确认搜索关键词为关注热词。
另一种可选的,第一确定单元包括:第一匹配模块,用于将关注热词作为关键词,匹配出与关注热词对应的文章;第二统计模块,用于统计与每个关注热词对应的文章数量。
优选的,多方媒体包括下述至少之一:热搜媒体、第三方论坛、新闻应用、即时通讯平台。
可选的,上述的热点事件的确定装置还包括:爬取单元,用于在获取多方媒体中记载的多个关注热词之前,按照预设间隔时间,爬取多方媒体中的每个媒体的目标数据,其中,目标数据包括下述至少之一:每个文章的关注量和评论量、每个文章中出现频率大于预设频率的词语、每个文章对应的媒体名称和媒体地址、多方媒体中重复出现的事件名称;获取单元包括:第一选取模块,用于选取关注量和评论量大于第一预设数值的文章,得到多个待分析文章;第二确定模块,用于将待分析文章中出现频率大于预设频率的词语作为候选关注热词;第三确定模块,用于依据多方媒体中重复出现的事件名称,判断每个候选关注热词是否为关注热词,以得到多个关注热词。
另外,第二确定单元包括:第二获取模块,用于获取文章数量大于第二预设数值的目标关注热词;提取模块,用于提取与目标关注热词对应的文章的文本内容;第四确定模块,用于将文本内容所关注的事件作为热点事件。
可选的,上述热点事件的确定装置还包括:获取模块,用于在确定热点事件之后,获取与热点事件对应的每个文章的评论词;分析模块,用于依据所述评论词,分析每个文章中与所述热点事件所对应的目标情绪,其中,目标情绪为下述之一:正面情绪、负面情绪、理性情绪。
另一种可选的实施方式,上述热点事件的确定装置还包括:输出模块,用于在分析每个文章中与热点事件所对应的目标情绪之后,输出分析结果,其中,分析结果至少包括:热点事件的名称、热点事件所对应的媒体名称、热点事件所对应的目标情绪。
上述的热点事件的确定装置还可以包括处理器和存储器,上述获取单元31、第一确定单元33、第二确定单元35等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来依据与每个关注热词匹配的文章数量,确定热点事件。
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
根据本发明实施例的另一方面,还提供了一种存储介质,存储介质用于存储程序,其中,程序在被处理器执行时控制存储介质所在设备执行上述任意一项的热点事件的确定方法。
根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任意一项的热点事件的确定方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取多方媒体中记载的多个关注热词;依据多个关注热词,确定与每个关注热词匹配的文章数量;依据与每个关注热词匹配的文章数量,确定热点事件。
可选的,多方媒体包括下述至少之一:热搜媒体、第三方论坛、新闻应用、即时通讯平台。
可选的,上述的处理器执行程序时,还可以实现如下步骤:获取多方媒体中每个媒体的用户输入的搜索关键词;统计每个搜索关键词的关注量;在关注量大于预设关注量时,确认搜索关键词为关注热词。
可选的,上述的处理器执行程序时,还可以实现如下步骤:将关注热词作为关键词,匹配出与关注热词对应的文章;统计与每个关注热词对应的文章数量。
可选的,上述的处理器执行程序时,还可以实现如下步骤:在获取多方媒体中记载的多个关注热词之前,按照预设间隔时间,爬取多方媒体中的每个媒体的目标数据,其中,目标数据包括下述至少之一:每个文章的关注量和评论量、每个文章中出现频率大于预设频率的词语、每个文章对应的媒体名称和媒体地址、多方媒体中重复出现的事件名称。
可选的,上述的处理器执行程序时,还可以实现如下步骤:选取关注量和评论量大于第一预设数值的文章,得到多个待分析文章;将待分析文章中出现频率大于预设频率的词语作为候选关注热词;依据多方媒体中重复出现的事件名称,判断每个候选关注热词是否为关注热词,以得到多个关注热词。
可选的,上述的处理器执行程序时,还可以实现如下步骤:获取文章数量大于第二预设数值的目标关注热词;提取与目标关注热词对应的文章的文本内容;将文本内容所关注的事件作为热点事件。
可选的,上述的处理器执行程序时,还可以实现如下步骤:在确定热点事件之后,获取与热点事件对应的每个文章的评论词;依据所述评论词,分析每个文章中与所述热点事件所对应的目标情绪,其中,目标情绪为下述之一:正面情绪、负面情绪、理性情绪。
可选的,上述的处理器执行程序时,还可以实现如下步骤:在分析每个文章中与热点事件所对应的目标情绪之后,输出分析结果,其中,分析结果至少包括:所述热点事件的名称、所述热点事件所对应的媒体名称、所述热点事件所对应的目标情绪。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取多方媒体中记载的多个关注热词;依据多个关注热词,确定与每个关注热词匹配的文章数量;依据与每个关注热词匹配的文章数量,确定热点事件。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种热点事件的确定方法,其特征在于,包括:
获取多方媒体中记载的多个关注热词;
依据所述多个关注热词,确定与每个所述关注热词匹配的文章数量;
依据与每个所述关注热词匹配的文章数量,确定热点事件。
2.根据权利要求1所述的方法,其特征在于,获取多方媒体中记载的多个关注热词包括:
获取所述多方媒体中每个媒体的用户输入的搜索关键词;
统计每个所述搜索关键词的关注量;
在所述关注量大于预设关注量时,确认所述搜索关键词为所述关注热词。
3.根据权利要求1所述的方法,其特征在于,依据所述多个关注热词,确定与每个所述关注热词匹配的文章数量包括:
将所述关注热词作为关键词,匹配出与所述关注热词对应的文章;
统计与每个所述关注热词对应的文章数量。
4.根据权利要求1所述的方法,其特征在于,
在获取多方媒体中记载的多个关注热词之前,还包括:按照预设间隔时间,爬取所述多方媒体中的每个媒体的目标数据,其中,所述目标数据包括下述至少之一:每个文章的关注量和评论量、每个文章中出现频率大于预设频率的词语、每个文章对应的媒体名称和媒体地址、多方媒体中重复出现的事件名称;
获取多方媒体中记载的多个关注热词包括:选取关注量和评论量大于第一预设数值的文章,得到多个待分析文章;将所述待分析文章中出现频率大于预设频率的词语作为候选关注热词;依据所述多方媒体中重复出现的事件名称,判断每个所述候选关注热词是否为所述关注热词,以得到所述多个关注热词。
5.根据权利要求1所述的方法,其特征在于,依据与每个所述关注热词匹配的文章数量,确定热点事件包括:
获取文章数量大于第二预设数值的目标关注热词;
提取与所述目标关注热词对应的文章的文本内容;
将所述文本内容所关注的事件作为所述热点事件。
6.根据权利要求5所述的方法,其特征在于,在确定热点事件之后,还包括:
获取与所述热点事件对应的每个文章的评论词;
依据所述评论词,分析每个文章中与所述热点事件所对应的目标情绪,其中,所述目标情绪为下述之一:正面情绪、负面情绪、理性情绪。
7.根据权利要求6所述的方法,其特征在于,在分析每个文章中与所述热点事件所对应的目标情绪之后,还包括:
输出分析结果,其中,所述分析结果至少包括:所述热点事件的名称、所述热点事件所对应的媒体名称、所述热点事件所对应的目标情绪。
8.一种热点事件的确定装置,其特征在于,包括:
获取单元,用于获取多方媒体中记载的多个关注热词;
第一确定单元,用于依据所述多个关注热词,确定与每个所述关注热词匹配的文章数量;
第二确定单元,用于依据与每个所述关注热词匹配的文章数量,确定热点事件。
9.一种存储介质,其特征在于,所述存储介质用于存储程序,其中,所述程序在被处理器执行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述的热点事件的确定方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的热点事件的确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811488170.3A CN111368070B (zh) | 2018-12-06 | 2018-12-06 | 热点事件的确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811488170.3A CN111368070B (zh) | 2018-12-06 | 2018-12-06 | 热点事件的确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111368070A true CN111368070A (zh) | 2020-07-03 |
CN111368070B CN111368070B (zh) | 2024-06-21 |
Family
ID=71205901
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811488170.3A Active CN111368070B (zh) | 2018-12-06 | 2018-12-06 | 热点事件的确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111368070B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032680A (zh) * | 2021-04-19 | 2021-06-25 | 南京点橙互联网科技有限公司 | 基于用户订阅热词模式的推荐方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982157A (zh) * | 2012-12-03 | 2013-03-20 | 北京奇虎科技有限公司 | 用于挖掘微博热点话题的装置及方法 |
CN104615593A (zh) * | 2013-11-01 | 2015-05-13 | 北大方正集团有限公司 | 微博热点话题自动检测方法及装置 |
CN105677906A (zh) * | 2015-05-07 | 2016-06-15 | 浚鸿数据开发股份有限公司 | 网络事件自动搜集分析系统及方法 |
US20170139881A1 (en) * | 2015-11-12 | 2017-05-18 | Guangzhou Shenma Mobile Information Technology Co., Ltd. | System and method for displaying online comments |
CN107943905A (zh) * | 2017-11-17 | 2018-04-20 | 北京锐安科技有限公司 | 一种热点话题分析方法及系统 |
CN108153781A (zh) * | 2016-12-05 | 2018-06-12 | 北京国双科技有限公司 | 提取业务领域的关键词的方法和装置 |
CN108170692A (zh) * | 2016-12-07 | 2018-06-15 | 腾讯科技(深圳)有限公司 | 一种热点事件信息处理方法和装置 |
-
2018
- 2018-12-06 CN CN201811488170.3A patent/CN111368070B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982157A (zh) * | 2012-12-03 | 2013-03-20 | 北京奇虎科技有限公司 | 用于挖掘微博热点话题的装置及方法 |
CN104615593A (zh) * | 2013-11-01 | 2015-05-13 | 北大方正集团有限公司 | 微博热点话题自动检测方法及装置 |
CN105677906A (zh) * | 2015-05-07 | 2016-06-15 | 浚鸿数据开发股份有限公司 | 网络事件自动搜集分析系统及方法 |
US20170139881A1 (en) * | 2015-11-12 | 2017-05-18 | Guangzhou Shenma Mobile Information Technology Co., Ltd. | System and method for displaying online comments |
CN108153781A (zh) * | 2016-12-05 | 2018-06-12 | 北京国双科技有限公司 | 提取业务领域的关键词的方法和装置 |
CN108170692A (zh) * | 2016-12-07 | 2018-06-15 | 腾讯科技(深圳)有限公司 | 一种热点事件信息处理方法和装置 |
CN107943905A (zh) * | 2017-11-17 | 2018-04-20 | 北京锐安科技有限公司 | 一种热点话题分析方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032680A (zh) * | 2021-04-19 | 2021-06-25 | 南京点橙互联网科技有限公司 | 基于用户订阅热词模式的推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111368070B (zh) | 2024-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017096877A1 (zh) | 一种推荐方法和装置 | |
CN102693271B (zh) | 一种网络信息推荐方法及系统 | |
CN106919625B (zh) | 一种互联网用户属性识别方法和装置 | |
CN106033579B (zh) | 数据处理方法和装置 | |
WO2016000555A1 (zh) | 基于社交网络的内容、新闻推荐方法和系统 | |
US20120198056A1 (en) | Techniques for Analyzing Website Content | |
CN114448921B (zh) | 基于社交关系链的信息展示方法、装置及服务器 | |
CN108304422B (zh) | 一种媒体搜索词推送方法和装置 | |
CN104469508A (zh) | 基于弹幕信息内容进行视频定位的方法、服务器和系统 | |
CN106682925A (zh) | 广告内容的推荐方法及装置 | |
CN111008321A (zh) | 基于逻辑回归推荐方法、装置、计算设备、可读存储介质 | |
CN107977678B (zh) | 用于输出信息的方法和装置 | |
CN104462397A (zh) | 推广信息处理方法和装置 | |
CN104850546A (zh) | 移动媒介信息的展示方法和系统 | |
KR101682659B1 (ko) | 키워드 기반 맞춤 뉴스 알림 방법 및 그를 위한 뉴스 검색 관리 서버 | |
CN113407773A (zh) | 一种短视频智能推荐方法、系统、电子设备及存储介质 | |
CN110929058B (zh) | 商标图片的检索方法、装置、存储介质及电子装置 | |
US8171020B1 (en) | Spam detection for user-generated multimedia items based on appearance in popular queries | |
CN110245357B (zh) | 主实体识别方法和装置 | |
CN110750707A (zh) | 关键词推荐方法、装置和电子设备 | |
CN112000866B (zh) | 互联网数据分析方法、装置、电子装置及介质 | |
TWI575391B (zh) | 社群資料篩選系統、方法及其非揮發性電腦可讀取紀錄媒體 | |
CN110825954A (zh) | 关键词推荐方法、装置和电子设备 | |
CN107220262B (zh) | 信息处理方法和装置 | |
CN111368070B (zh) | 热点事件的确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |