发明内容
本发明的主要目的在于提供一种用于网络热词与对象的关联度的数据处理方法和装置,以解决相关技术中难以判断出高频词语与对象之间的真实关联度问题。
为了实现上述目的,根据本发明的一个方面,提供了一种用于网络热词与对象的关联度的数据处理方法。该方法可以包括:获取目标对象的对象信息;根据上述对象信息获取目标热词,上述目标热词为与上述对象信息的共现频率大于第一预设频率的词语,上述共现频率为上述目标热词为与上述对象信息同时出现的频率;从上述目标热词中滤除常规热词,得到过滤后的目标热词,上述常规热词为预先设定的词语;以及确定上述目标对象与上述过滤后的目标热词的关联度。
进一步地,从上述目标热词中滤除上述常规热词,得到过滤后的目标热词可以包括:获取上述常规热词;以及判断上述目标对象热词中是否存在上述常规热词,其中,如果判断出上述目标对象热词中存在上述常规热词,则从上述目标热词中滤除上述常规热词,得到上述过滤后的目标热词。
进一步地,可以通过以下方式确定上述常规热词:获取上述目标热词的独现频率,上述独现频率为上述目标热词独立出现的频率;判断上述目标热词的上述独现频率是否大于第二预设频率;以及如果判断出上述目标热词的上述独现频率大于上述第二预设频率,则将上述目标热词作为上述常规热词。
进一步地,上述对象信息可以包括上述目标对象的关键词,根据上述对象信息获取目标热词可以包括:获取预先设置的网络爬虫;利用上述预先设置的网络爬虫爬取目标网站上的文本信息;以及根据上述关键词从上述文本信息中获取上述目标热词。
进一步地,在从上述目标热词中滤除常规热词,得到过滤后的目标热词之后,上述数据处理方法还可以包括:确定上述过滤后的目标热词的情绪属性;以及根据上述共现频率显示上述过滤后的目标热词和上述对象信息,和/或根据上述关联度显示上述过滤后的目标热词和上述对象信息,和/或根据上述情绪属性显示上述过滤后的目标热词和上述对象信息。
为了实现上述目的,根据本发明的另一方面,提供了一种用于网络热词与对象的关联度的数据处理装置。该装置包括:第一获取单元,用于获取目标对象的对象信息;第二获取单元,用于根据上述对象信息获取目标热词,上述目标热词为与上述对象信息的共现频率大于第一预设频率的词语,上述共现频率为上述目标热词与上述对象信息同时出现的频率;过滤单元,用于从上述目标热词中滤除常规热词,得到过滤后的目标热词,上述常规热词为预先设定的词语;以及第一确定单元,用于确定上述目标对象与上述过滤后的目标热词的关联度。
进一步地,上述过滤单元包括:第一获取模块,用于获取上述常规热词;第一判断模块,用于判断上述目标热词中是否存在上述常规热词;以及过滤模块,用于在判断出上述目标热词中存在上述常规热词时,从上述目标热词中滤除上述常规热词,得到上述过滤后的目标热词。
进一步地,上述数据处理装置还包括第二确定单元,上述第二确定单元用于确定上述常规热词,其中,上述第二确定单元包括:第二获取模块,用于获取上述目标热词的独现频率,上述独现频率为上述目标热词独立出现的频率;第二判断模块,用于判断上述目标热词的上述独现频率是否大于第二预设频率;确定模块,用于在判断出上述目标热词的上述独现频率大于上述第二预设频率时,将上述目标热词作为上述常规热词。
进一步地,上述对象信息包括上述目标对象的关键词,上述第二获取单元包括:第三获取模块,用于获取预先设置的网络爬虫;爬取模块,用于利用上述预先设置的网络爬虫爬取目标网站上的文本信息;以及第四获取模块,用于根据上述关键词从上述文本信息中获取上述目标热词。
进一步地,上述数据处理还包括:第三获取单元,用于在从上述目标热词中滤除常规热词,得到过滤后的目标热词之后,确定上述过滤后的目标热词的情绪属性;以及显示单元,用于根据上述共现频率显示上述过滤后的目标热词和上述对象信息,和/或根据上述关联度显示上述过滤后的目标热词和上述对象信息,和/或根据上述情绪属性显示上述过滤后的目标热词和上述对象信息。
通过本发明,采用获取目标对象的对象信息;根据对象信息获取目标热词,目标热词为与对象信息的共现频率大于第一预设频率的词语,共现频率为目标热词为与对象信息同时出现的频率;从目标热词中滤除常规热词,得到过滤后的目标热词,常规热词为预先设定的词语;以及确定目标对象与过滤后的目标热词的关联度,解决了相关技术中难以判断出高频词语与对象之间的真实关联度的问题,进而达到了提高高频词语与对象之间的关联度的准确性效果。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明的实施例,提供了一种用于热词与对象的关联度的数据处理方法,该用于热词与对象的关联度的数据处理方法用于确定网页中热词与对象的关联度。该用于热词与对象的关联度的数据处理方法可以运行在计算机处理设备上。
图1是根据本发明第一实施例的用于网络热词与对象的关联度的数据处理方法的流程图。如图1所示,该方法可以包括步骤S102至步骤S108:
步骤S102,获取目标对象的对象信息。
目标对象也即待分析的对象,该目标对象的对象信息可以包括用于描述该目标对象的数据信息,例如,其可以为目标对象的关键词。
在实施时,可以预先通过多种途径获取目标对象的对象信息,例如,可以接收用户输入的目标对象的关键词,并将该关键词作为该目标对象的对象信息。以下以对象信息为关键词为例详细阐述本发明。
步骤S104,根据对象信息获取目标热词。
目标热词为与对象信息的共现频率大于第一预设频率的词语,共现频率为目标热词与对象信息同时出现的频率。
在执行步骤S104之前,可以预先通过搜索引擎,利用网络爬虫自动爬取目标网站上的文本信息,并将爬取到的文本信息存入数据库中,其中,该文本信息包含目标对象的关键词及与该关键词对应的全部热词。这样,在分析目标对象及其热词的关联度时,可以从数据库中查询目标热词(也即,与目标对象相关联的热词)。
例如,可以根据目标对象的关键词获取与该关键词相关联的目标热词,其中,目标热词为与该关键词的共现频率大于第一预设频率的词语,共现频率可以为目标热词与关键词同时出现的频率。具体地,可以从存储在上述数据库中的文本信息中筛选共现频率大于第一预设频率的目标热词。
步骤S106,从目标热词中滤除常规热词,得到过滤后的目标热词。
常规热词为预先设定的词语,例如,其可以包括“我”“的”“这”等。由于常规热词的出现频率并不完全依赖于目标对象的关键词,也即,不管目标对象是什么,这些常规热词的出现频率都可能保持大于第一预设频率的频率值。因此,在做关联度分析时,如果不对这些常规热词进行过滤处理,则会影响分析结果的准确度,进而影响用户的网络数据投放行为。因而,从目标热词中滤除常规热词,得到过滤后的目标热词,也即,得到真正的目标热词,这样,由于过滤后的目标热词可以真实的反映其与关键词的关联度,因而其可以对用户的网络数据投放行为起到准确的导向作用。
具体地,在从网路爬虫爬取的文本信息中获取目标热词之后,可以再从数据列表中获取预先设定的常规热词,然后,将所有的目标热词与所有的常规热词逐一对比,如果某个目标热词与某个常规热词一致,则将其滤除,否则,如果某个目标热词与任何一个常规热词都不一致,则保留该目标热词,其中,被保留下来的目标热词即为过滤后的目标热词。
步骤S108,确定目标对象与过滤后的目标热词的关联度。
也即,确定目标对象的关键词与过滤后的目标热词的关联度。其中,关联度=共现频率/独现频率,独现频率可以为过滤后的目标热词在文本信息中单独出现的频率。
例如,在实施时,假设目标对象为“可口可乐”,那么相应的“可口可乐”的对象信息可以为“可口可乐”这4个字,而与“可口可乐”关联的目标热词可以包括:“刘翔”、“姚明”、“百事可乐”、“巴菲特”、“果汁”、“雾霾”、“金秀贤”、“麦当劳”、“肯德基”以及“的”、“了”、“代言”、“明星”等等。显然,“的”、“了”、“代言”、“明星”并不是“可口可乐”的真正的目标热词,例如,即使目标对象换为“百事可乐”,“的”、“了”、“代言”、“明星”等的共现频率也会超出第一预设频率,也即,“的”、“了”、“代言”、“明星”是常规热词,因此,执行本发明的上述步骤,可以将“的”、“了”、“代言”、“明星”等常规热词滤除,从而可以确定“可口可乐”的真正的目标热词为“刘翔”、“姚明”、“百事可乐”、“巴菲特”、“果汁”、“雾霾”、“金秀贤”、“麦当劳”、“肯德基”,并得到“可口可乐”与这些真正的目标热词的关联度。
通过本发明实施例,由于从目标热词中滤除了常规热词,避免了常规热词的干扰,过滤后的目标热词能够更加准确地反映目标对象与过滤后的目标热词的关联度,达到了提高高频词语与对象之间的关联度的准确性效果。
图2是根据本发明第二实施例的用于网络热词与对象的关联度的数据处理方法的流程图。该实施例可以作为图1所示实施例的优选实施方式。该用于热词与对象的关联度的数据处理方法包括如下的步骤S202至步骤S212:
步骤S202和步骤S204,分别同图1所示实施例的步骤S102和步骤S104,在此不再赘述。
步骤S206,获取常规热词。
常规热词为预先设定的词语,无论对象是谁,这些常规热词的出现频率都会大于第一预设频率。具体地,可以从数据库列表中获取预先设定的常规热词。
步骤S208,判断目标热词中是否存在常规热词。
可以将所有的目标热词与所有的常规热词逐一对比,如果某个目标热词与某个常规热词一致,则判断出该目标热词是常规热词;否则,如果某个目标热词与任何一个常规热词都不一致,则判断出该目标热词不是常规热词。
步骤S210,如果判断出目标热词中存在常规热词,则从目标热词中滤除常规热词,得到过滤后的目标热词。
步骤S212,同图1所示实施例的步骤S104,在此不再赘述。
通过本发明实施例,由于预先建立了常规热词的词库,并将其存储在相应的数据库列表中,便于目标热词与该词库中的常规热词进行对比。
优选地,在本发明实施例中,可以通过以下方式确定常规热词:
S2,获取目标热词的独现频率,独现频率为目标热词独立出现的频率,也即,目标热词不依附于目标对象的关键词而单独出现的频率。
S4,判断目标热词的独现频率是否大于第二预设频率。第二预设频率可以与前述的第一预设频率相同。
S6,如果判断出目标热词的独现频率大于第二预设频率,则将目标热词作为常规热词。
优选地,根据本发明实施例,对象信息可以包括目标对象的关键词,根据对象信息获取目标热词可以包括:
S8,获取预先设置的网络爬虫。
该网络爬虫可以是定向抓取相关网页资源,自动下载网页程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。它将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
S10,利用预先设置的网络爬虫爬取目标网站上的文本信息。这里,网络爬虫爬取的信息可以为目标对象所在的文本信息。
S12,根据关键词从文本信息中获取目标热词。
通过本发明实施例,采用网络爬虫的手段,当确定一个对象的对象信息(如,关键词)时,可以从互联网的网页上爬取到与该关键词对应的所有的文本信息,其中,该文本信息由大量的词语构成,根据爬取的文本信息确定与该对象同时出现的目标热词。
优选地,在本发明实施例中,在从目标热词中滤除常规热词,得到过滤后的目标热词之后,该数据处理方法还可以包括:
S14,确定过滤后的目标热词的情绪属性。可以通过语义分析技术分析过滤后的目标热词的情绪属性,其中,情绪属性包含正、负情绪属性以及中性情绪属性。例如,在实施时,可以预先设定词语的情绪属性,并将这些词语存储在预先设定的情绪属性列表中,这样,在确定过滤后的目标热词的情绪属性时,可以将目标热词与情绪属性列表中的词语进行逐一匹配,如果匹配成功,则目标热词的情绪属性即为所匹配的词语的情绪属性。
S16,根据共现频率显示过滤后的目标热词和对象信息;和/或,根据关联度显示过滤后的目标热词和对象信息;和/或,根据情绪属性显示过滤后的目标热词和对象信息。
例如,在根据情绪属性显示过滤后的目标热词和对象信息(如,关键词)时,可以以气泡、词云等形式进行显示,使得目标热词与目标对象的关联度更直观、更形象。
例如,可以将目标热词的情绪属性展示在图形上,并通过左右分布来区分不同情绪的目标热词,以及通过目标热词与坐标原点的距离来表现关联度的大小。例如,正面情绪的目标热词可以以气泡的形式展现在示意图的右边,负面情绪的目标热词可以以气泡的形式展现在示意图的左边。气泡的大小表示目标热词的共现频率,气泡到坐标原点的距离表示关联度大小,其中,坐标原点即表示对象信息(如,关键词),距离坐标原点越近,目标热词与对象信息(如,关键词)的关联度越大;反之,距离坐标原点越远,目标热词与对象信息(如,关键词)的关联度越小。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明的实施例,提供了一种用于热词与对象的关联度的数据处理装置,该用于热词与对象的关联度的数据处理装置用于确定网页中热词与对象的关联度。需要说明的是,本发明实施例所提供的用于热词与对象的关联度的数据处理方法可以通过本发明实施例的用于热词与对象的关联度的数据处理装置来执行,本发明实施例的用于热词与对象的关联度的数据处理装置也可以用于执行本发明实施例的用于热词与对象的关联度的数据处理方法。
图3是根据本发明第一实施例的用于网络热词与对象的关联度的数据处理装置的示意图。如图3所示,该装置包括:第一获取单元10、第二获取单元20、过滤单元30和第一确定单元40。
第一获取单元10用于获取目标对象的对象信息。目标对象也即待分析的对象,该目标对象的对象信息可以包括用于描述该目标对象的数据信息,例如,其可以为目标对象的关键词。在实施时,可以预先通过多种途径获取目标对象的对象信息,例如,可以接收用户输入的目标对象的关键词,并将该关键词作为该目标对象的对象信息。以下对象信息为关键词为例详细阐述本发明。
第二获取单元20用于根据对象信息获取目标热词,目标热词为与对象信息的共现频率大于第一预设频率的词语,共现频率为目标热词与对象信息同时出现的频率。目标热词为与对象信息的共现频率大于第一预设频率的词语,共现频率为目标热词与对象信息同时出现的频率。
在执行第二获取单元20的功能之前,可以预先通过搜索引擎,利用网络爬虫自动爬取目标网站上的文本信息,并将爬取到的文本信息存入数据库中,其中,该文本信息包含目标对象的关键词及与该关键词对应的全部热词。这样,在分析目标对象及其热词的关联度时,可以从数据库中查询目标热词(也即,与目标对象相关联的热词)。
例如,可以根据目标对象的关键词获取与该关键词相关联的目标热词,其中,目标热词为与该关键词的共现频率大于第一预设频率的词语,共现频率可以为目标热词与关键词同时出现的频率。具体地,可以从存储在上述数据库中的文本信息中筛选共现频率大于第一预设频率的目标热词。
过滤单元30用于从目标热词中滤除常规热词,得到过滤后的目标热词,常规热词为预先设定的词语。常规热词为预先设定的词语,例如,其可以包括“我”“的”“这”等。由于常规热词的出现频率并不完全依赖与目标对象的关键词,也即,不管目标对象是什么,这些常规热词的出现频率都可能保持大于第一预设频率的频率值。因此,在做关联度分析时,如果不对这些常规热词进行过滤处理,则会影响分析结果的准确度,进而影响用户的网络数据投放行为。因而,从目标热词中滤除常规热词,得到过滤后的目标热词,也即,得到真正的目标热词,这样,由于过滤后的目标热词可以真实的反映其与关键词的关联度,因而其可以对用户的网络数据投放行为起到准确的导向作用。
具体地,在从网路爬虫爬取的文本信息中获取目标热词之后,可以再从数据列表中获取预先设定的常规热词,然后,将所有的目标热词与所有的常规热词逐一对比,如果某个目标热词与某个常规热词一致,则将其滤除,否则,如果某个目标热词与任何一个常规热词都不一致,则保留该目标热词,其中,被保留下来的目标热词即为过滤后的目标热词。
第一确定单元40用于确定目标对象与过滤后的目标热词的关联度。也即,确定目标对象的关键词与过滤后的目标热词的关联度。其中,关联度=共现频率/独现频率,独现频率可以为过滤后的目标热词在文本信息中单独出现的频率。
通过本发明实施例,由于从目标热词中滤除了常规热词,避免了常规热词的干扰,过滤后的目标热词能够更加真确地反映目标对象与过滤后的目标热词的关联度,达到了提高高频词语与对象之间的关联度的准确性效果。
图4是根据本发明第二实施例的用于网络热词与对象的关联度的数据处理装置的示意图。如图4所示,该装置包括:第一获取单元10、第二获取单元20、过滤单元30和第一确定单元40,其中,过滤单元30包括:第一获取模块301、第一判断模块302和过滤模块303。
第一获取单元10、第二获取单元20和第一确定单元40的作用与前述实施例中的相同,在此不再赘述。
第一获取模块301用于获取常规热词。常规热词为预先设定的词语,无论对象是谁,这些常规热词的出现频率都会大于第一预设频率。具体地,可以从数据库列表中获取预先设定的常规热词。
第一判断模块302用于判断目标热词中是否存在常规热词。可以将所有的目标热词与所有的常规热词逐一对比,如果某个目标热词与某个常规热词一致,则判断出该目标热词是常规热词;否则,如果某个目标热词与任何一个常规热词都不一致,则判断出该目标热词不是常规热词。
过滤模块303用于在判断出目标热词中存在常规热词时,从目标热词中滤除常规热词,得到过滤后的目标热词。
通过本发明实施例,由于预先建立了常规热词的词库,并将其存储在相应的数据库列表中,便于目标热词与该词库中的常规热词进行对比。
优选地,在本发明实施例中,该数据处理装置还可以包括:第二确定单元。第二确定单元用于确定常规热词,其中,第二确定单元可以包括:第二获取模块、第二判断模块和确定模块。第二获取模块用于获取目标热词的独现频率,独现频率为目标热词独立出现的频率,也即,目标热词不依附于目标对象的关键词而单独出现的频率。第二判断模块用于判断目标热词的独现频率是否大于第二预设频率。第二预设频率可以与前述的第一预设频率相同。确定模块用于在判断出目标热词的独现频率大于第二预设频率时,将目标热词作为常规热词。
优选地,根据本发明实施例,对象信息包括目标对象的关键词,第二获取单元可以包括:第三获取模块、爬取模块和第四获取模块。
第三获取模块用于获取预先设置的网络爬虫。该网络爬虫可以是定向抓取相关网页资源,自动下载网页程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。它将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。爬取模块用于利用预先设置的网络爬虫爬取目标网站上的文本信息。这里,网络爬虫爬取的信息可以为目标对象所在的文本信息。第四获取模块,用于根据关键词从文本信息中获取目标热词。
通过本发明实施例,采用网络爬虫的手段,当确定一个对象的对象信息(如,关键词)时,可以从互联网的网页上爬取到与该关键词对应的所有的文本信息,其中,该文本信息由大量的词语构成,根据爬取的文本信息确定与该对象同时出现的目标热词。
优选地,在本发明实施例中,该数据处理还可以包括:第三获取单元和显示单元。第三获取单元用于在从目标热词中滤除常规热词,得到过滤后的目标热词之后,确定过滤后的目标热词的情绪属性。可以通过语义分析技术分析过滤后的目标热词的情绪属性,其中,情绪属性包含正、负情绪属性以及中性情绪属性。例如,在实施时,可以预先设定词语的情绪属性,并将这些词语存储在预先设定的情绪属性列表中,这样,在确定过滤后的目标热词的情绪属性时,可以将目标热词与情绪属性列表中的词语进行逐一匹配,如果匹配成功,则目标热词的情绪属性即为所匹配的词语的情绪属性。
显示单元用于根据共现频率显示过滤后的目标热词和对象信息;和/或,根据关联度显示过滤后的目标热词和对象信息;和/或,根据情绪属性显示过滤后的目标热词和对象信息。例如,在根据情绪属性显示过滤后的目标热词和对象信息(如,关键词)时,可以以气泡、词云等形式进行显示,使得目标热词与目标对象的关联度更直观、更形象。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。