CN104408102B - 用于网络热词与对象的关联度的数据处理方法和装置 - Google Patents

用于网络热词与对象的关联度的数据处理方法和装置 Download PDF

Info

Publication number
CN104408102B
CN104408102B CN201410665109.7A CN201410665109A CN104408102B CN 104408102 B CN104408102 B CN 104408102B CN 201410665109 A CN201410665109 A CN 201410665109A CN 104408102 B CN104408102 B CN 104408102B
Authority
CN
China
Prior art keywords
hot word
target hot
word
frequency
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410665109.7A
Other languages
English (en)
Other versions
CN104408102A (zh
Inventor
陈俊宏
余德乐
杨韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201410665109.7A priority Critical patent/CN104408102B/zh
Publication of CN104408102A publication Critical patent/CN104408102A/zh
Application granted granted Critical
Publication of CN104408102B publication Critical patent/CN104408102B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于网络热词与对象的关联度的数据处理方法和装置。其中,该用于网络热词与对象的关联度的数据处理方法包括:获取目标对象的对象信息;根据对象信息获取目标热词,目标热词为与对象信息的共现频率大于第一预设频率的词语,共现频率为目标热词与对象信息同时出现的频率;从目标热词中滤除常规热词,得到过滤后的目标热词,常规热词为预先设定的词语;以及确定目标对象与过滤后的目标热词的关联度。通过本发明,解决了相关技术中难以判断出高频词语与对象之间的真实关联度的问题。

Description

用于网络热词与对象的关联度的数据处理方法和装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种用于网络热词与对象的关联度的数据处理方法和装置。
背景技术
目前,随着媒体营销渠道的社会化发展,各商家开始重视并分析网民在网络渠道上发出的声音,希望将其转化为自身的商业效益。
在相关技术中,为了分析网民在网络渠道上发出的声音:首先采用机器爬虫的方式来爬取互联网网页上的文本信息,对机器而言,这些文本信息是由大量的词语构成的;然后,当确定一个对象时,根据所爬取的文本信息可以统计出与该对象同时出现的高频词语,进而可以判断出这些高频词语与该对象之间的关联度。
然而,由于受“我”“的”“这”等常规高频词的影响,根据上述技术方案,难以判断出这些热词与该对象之间的真实关联度。
针对相关技术中难以判断出热词与对象之间的真实关联度的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种用于网络热词与对象的关联度的数据处理方法和装置,以解决相关技术中难以判断出高频词语与对象之间的真实关联度问题。
为了实现上述目的,根据本发明的一个方面,提供了一种用于网络热词与对象的关联度的数据处理方法。该方法可以包括:获取目标对象的对象信息;根据上述对象信息获取目标热词,上述目标热词为与上述对象信息的共现频率大于第一预设频率的词语,上述共现频率为上述目标热词为与上述对象信息同时出现的频率;从上述目标热词中滤除常规热词,得到过滤后的目标热词,上述常规热词为预先设定的词语;以及确定上述目标对象与上述过滤后的目标热词的关联度。
进一步地,从上述目标热词中滤除上述常规热词,得到过滤后的目标热词可以包括:获取上述常规热词;以及判断上述目标对象热词中是否存在上述常规热词,其中,如果判断出上述目标对象热词中存在上述常规热词,则从上述目标热词中滤除上述常规热词,得到上述过滤后的目标热词。
进一步地,可以通过以下方式确定上述常规热词:获取上述目标热词的独现频率,上述独现频率为上述目标热词独立出现的频率;判断上述目标热词的上述独现频率是否大于第二预设频率;以及如果判断出上述目标热词的上述独现频率大于上述第二预设频率,则将上述目标热词作为上述常规热词。
进一步地,上述对象信息可以包括上述目标对象的关键词,根据上述对象信息获取目标热词可以包括:获取预先设置的网络爬虫;利用上述预先设置的网络爬虫爬取目标网站上的文本信息;以及根据上述关键词从上述文本信息中获取上述目标热词。
进一步地,在从上述目标热词中滤除常规热词,得到过滤后的目标热词之后,上述数据处理方法还可以包括:确定上述过滤后的目标热词的情绪属性;以及根据上述共现频率显示上述过滤后的目标热词和上述对象信息,和/或根据上述关联度显示上述过滤后的目标热词和上述对象信息,和/或根据上述情绪属性显示上述过滤后的目标热词和上述对象信息。
为了实现上述目的,根据本发明的另一方面,提供了一种用于网络热词与对象的关联度的数据处理装置。该装置包括:第一获取单元,用于获取目标对象的对象信息;第二获取单元,用于根据上述对象信息获取目标热词,上述目标热词为与上述对象信息的共现频率大于第一预设频率的词语,上述共现频率为上述目标热词与上述对象信息同时出现的频率;过滤单元,用于从上述目标热词中滤除常规热词,得到过滤后的目标热词,上述常规热词为预先设定的词语;以及第一确定单元,用于确定上述目标对象与上述过滤后的目标热词的关联度。
进一步地,上述过滤单元包括:第一获取模块,用于获取上述常规热词;第一判断模块,用于判断上述目标热词中是否存在上述常规热词;以及过滤模块,用于在判断出上述目标热词中存在上述常规热词时,从上述目标热词中滤除上述常规热词,得到上述过滤后的目标热词。
进一步地,上述数据处理装置还包括第二确定单元,上述第二确定单元用于确定上述常规热词,其中,上述第二确定单元包括:第二获取模块,用于获取上述目标热词的独现频率,上述独现频率为上述目标热词独立出现的频率;第二判断模块,用于判断上述目标热词的上述独现频率是否大于第二预设频率;确定模块,用于在判断出上述目标热词的上述独现频率大于上述第二预设频率时,将上述目标热词作为上述常规热词。
进一步地,上述对象信息包括上述目标对象的关键词,上述第二获取单元包括:第三获取模块,用于获取预先设置的网络爬虫;爬取模块,用于利用上述预先设置的网络爬虫爬取目标网站上的文本信息;以及第四获取模块,用于根据上述关键词从上述文本信息中获取上述目标热词。
进一步地,上述数据处理还包括:第三获取单元,用于在从上述目标热词中滤除常规热词,得到过滤后的目标热词之后,确定上述过滤后的目标热词的情绪属性;以及显示单元,用于根据上述共现频率显示上述过滤后的目标热词和上述对象信息,和/或根据上述关联度显示上述过滤后的目标热词和上述对象信息,和/或根据上述情绪属性显示上述过滤后的目标热词和上述对象信息。
通过本发明,采用获取目标对象的对象信息;根据对象信息获取目标热词,目标热词为与对象信息的共现频率大于第一预设频率的词语,共现频率为目标热词为与对象信息同时出现的频率;从目标热词中滤除常规热词,得到过滤后的目标热词,常规热词为预先设定的词语;以及确定目标对象与过滤后的目标热词的关联度,解决了相关技术中难以判断出高频词语与对象之间的真实关联度的问题,进而达到了提高高频词语与对象之间的关联度的准确性效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明第一实施例的用于网络热词与对象的关联度的数据处理方法的流程图;
图2是根据本发明第二实施例的用于网络热词与对象的关联度的数据处理方法的流程图;
图3是根据本发明第一实施例的用于网络热词与对象的关联度的数据处理装置的示意图;以及
图4是根据本发明第二实施例的用于网络热词与对象的关联度的数据处理装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明的实施例,提供了一种用于热词与对象的关联度的数据处理方法,该用于热词与对象的关联度的数据处理方法用于确定网页中热词与对象的关联度。该用于热词与对象的关联度的数据处理方法可以运行在计算机处理设备上。
图1是根据本发明第一实施例的用于网络热词与对象的关联度的数据处理方法的流程图。如图1所示,该方法可以包括步骤S102至步骤S108:
步骤S102,获取目标对象的对象信息。
目标对象也即待分析的对象,该目标对象的对象信息可以包括用于描述该目标对象的数据信息,例如,其可以为目标对象的关键词。
在实施时,可以预先通过多种途径获取目标对象的对象信息,例如,可以接收用户输入的目标对象的关键词,并将该关键词作为该目标对象的对象信息。以下以对象信息为关键词为例详细阐述本发明。
步骤S104,根据对象信息获取目标热词。
目标热词为与对象信息的共现频率大于第一预设频率的词语,共现频率为目标热词与对象信息同时出现的频率。
在执行步骤S104之前,可以预先通过搜索引擎,利用网络爬虫自动爬取目标网站上的文本信息,并将爬取到的文本信息存入数据库中,其中,该文本信息包含目标对象的关键词及与该关键词对应的全部热词。这样,在分析目标对象及其热词的关联度时,可以从数据库中查询目标热词(也即,与目标对象相关联的热词)。
例如,可以根据目标对象的关键词获取与该关键词相关联的目标热词,其中,目标热词为与该关键词的共现频率大于第一预设频率的词语,共现频率可以为目标热词与关键词同时出现的频率。具体地,可以从存储在上述数据库中的文本信息中筛选共现频率大于第一预设频率的目标热词。
步骤S106,从目标热词中滤除常规热词,得到过滤后的目标热词。
常规热词为预先设定的词语,例如,其可以包括“我”“的”“这”等。由于常规热词的出现频率并不完全依赖于目标对象的关键词,也即,不管目标对象是什么,这些常规热词的出现频率都可能保持大于第一预设频率的频率值。因此,在做关联度分析时,如果不对这些常规热词进行过滤处理,则会影响分析结果的准确度,进而影响用户的网络数据投放行为。因而,从目标热词中滤除常规热词,得到过滤后的目标热词,也即,得到真正的目标热词,这样,由于过滤后的目标热词可以真实的反映其与关键词的关联度,因而其可以对用户的网络数据投放行为起到准确的导向作用。
具体地,在从网路爬虫爬取的文本信息中获取目标热词之后,可以再从数据列表中获取预先设定的常规热词,然后,将所有的目标热词与所有的常规热词逐一对比,如果某个目标热词与某个常规热词一致,则将其滤除,否则,如果某个目标热词与任何一个常规热词都不一致,则保留该目标热词,其中,被保留下来的目标热词即为过滤后的目标热词。
步骤S108,确定目标对象与过滤后的目标热词的关联度。
也即,确定目标对象的关键词与过滤后的目标热词的关联度。其中,关联度=共现频率/独现频率,独现频率可以为过滤后的目标热词在文本信息中单独出现的频率。
例如,在实施时,假设目标对象为“可口可乐”,那么相应的“可口可乐”的对象信息可以为“可口可乐”这4个字,而与“可口可乐”关联的目标热词可以包括:“刘翔”、“姚明”、“百事可乐”、“巴菲特”、“果汁”、“雾霾”、“金秀贤”、“麦当劳”、“肯德基”以及“的”、“了”、“代言”、“明星”等等。显然,“的”、“了”、“代言”、“明星”并不是“可口可乐”的真正的目标热词,例如,即使目标对象换为“百事可乐”,“的”、“了”、“代言”、“明星”等的共现频率也会超出第一预设频率,也即,“的”、“了”、“代言”、“明星”是常规热词,因此,执行本发明的上述步骤,可以将“的”、“了”、“代言”、“明星”等常规热词滤除,从而可以确定“可口可乐”的真正的目标热词为“刘翔”、“姚明”、“百事可乐”、“巴菲特”、“果汁”、“雾霾”、“金秀贤”、“麦当劳”、“肯德基”,并得到“可口可乐”与这些真正的目标热词的关联度。
通过本发明实施例,由于从目标热词中滤除了常规热词,避免了常规热词的干扰,过滤后的目标热词能够更加准确地反映目标对象与过滤后的目标热词的关联度,达到了提高高频词语与对象之间的关联度的准确性效果。
图2是根据本发明第二实施例的用于网络热词与对象的关联度的数据处理方法的流程图。该实施例可以作为图1所示实施例的优选实施方式。该用于热词与对象的关联度的数据处理方法包括如下的步骤S202至步骤S212:
步骤S202和步骤S204,分别同图1所示实施例的步骤S102和步骤S104,在此不再赘述。
步骤S206,获取常规热词。
常规热词为预先设定的词语,无论对象是谁,这些常规热词的出现频率都会大于第一预设频率。具体地,可以从数据库列表中获取预先设定的常规热词。
步骤S208,判断目标热词中是否存在常规热词。
可以将所有的目标热词与所有的常规热词逐一对比,如果某个目标热词与某个常规热词一致,则判断出该目标热词是常规热词;否则,如果某个目标热词与任何一个常规热词都不一致,则判断出该目标热词不是常规热词。
步骤S210,如果判断出目标热词中存在常规热词,则从目标热词中滤除常规热词,得到过滤后的目标热词。
步骤S212,同图1所示实施例的步骤S104,在此不再赘述。
通过本发明实施例,由于预先建立了常规热词的词库,并将其存储在相应的数据库列表中,便于目标热词与该词库中的常规热词进行对比。
优选地,在本发明实施例中,可以通过以下方式确定常规热词:
S2,获取目标热词的独现频率,独现频率为目标热词独立出现的频率,也即,目标热词不依附于目标对象的关键词而单独出现的频率。
S4,判断目标热词的独现频率是否大于第二预设频率。第二预设频率可以与前述的第一预设频率相同。
S6,如果判断出目标热词的独现频率大于第二预设频率,则将目标热词作为常规热词。
优选地,根据本发明实施例,对象信息可以包括目标对象的关键词,根据对象信息获取目标热词可以包括:
S8,获取预先设置的网络爬虫。
该网络爬虫可以是定向抓取相关网页资源,自动下载网页程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。它将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
S10,利用预先设置的网络爬虫爬取目标网站上的文本信息。这里,网络爬虫爬取的信息可以为目标对象所在的文本信息。
S12,根据关键词从文本信息中获取目标热词。
通过本发明实施例,采用网络爬虫的手段,当确定一个对象的对象信息(如,关键词)时,可以从互联网的网页上爬取到与该关键词对应的所有的文本信息,其中,该文本信息由大量的词语构成,根据爬取的文本信息确定与该对象同时出现的目标热词。
优选地,在本发明实施例中,在从目标热词中滤除常规热词,得到过滤后的目标热词之后,该数据处理方法还可以包括:
S14,确定过滤后的目标热词的情绪属性。可以通过语义分析技术分析过滤后的目标热词的情绪属性,其中,情绪属性包含正、负情绪属性以及中性情绪属性。例如,在实施时,可以预先设定词语的情绪属性,并将这些词语存储在预先设定的情绪属性列表中,这样,在确定过滤后的目标热词的情绪属性时,可以将目标热词与情绪属性列表中的词语进行逐一匹配,如果匹配成功,则目标热词的情绪属性即为所匹配的词语的情绪属性。
S16,根据共现频率显示过滤后的目标热词和对象信息;和/或,根据关联度显示过滤后的目标热词和对象信息;和/或,根据情绪属性显示过滤后的目标热词和对象信息。
例如,在根据情绪属性显示过滤后的目标热词和对象信息(如,关键词)时,可以以气泡、词云等形式进行显示,使得目标热词与目标对象的关联度更直观、更形象。
例如,可以将目标热词的情绪属性展示在图形上,并通过左右分布来区分不同情绪的目标热词,以及通过目标热词与坐标原点的距离来表现关联度的大小。例如,正面情绪的目标热词可以以气泡的形式展现在示意图的右边,负面情绪的目标热词可以以气泡的形式展现在示意图的左边。气泡的大小表示目标热词的共现频率,气泡到坐标原点的距离表示关联度大小,其中,坐标原点即表示对象信息(如,关键词),距离坐标原点越近,目标热词与对象信息(如,关键词)的关联度越大;反之,距离坐标原点越远,目标热词与对象信息(如,关键词)的关联度越小。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明的实施例,提供了一种用于热词与对象的关联度的数据处理装置,该用于热词与对象的关联度的数据处理装置用于确定网页中热词与对象的关联度。需要说明的是,本发明实施例所提供的用于热词与对象的关联度的数据处理方法可以通过本发明实施例的用于热词与对象的关联度的数据处理装置来执行,本发明实施例的用于热词与对象的关联度的数据处理装置也可以用于执行本发明实施例的用于热词与对象的关联度的数据处理方法。
图3是根据本发明第一实施例的用于网络热词与对象的关联度的数据处理装置的示意图。如图3所示,该装置包括:第一获取单元10、第二获取单元20、过滤单元30和第一确定单元40。
第一获取单元10用于获取目标对象的对象信息。目标对象也即待分析的对象,该目标对象的对象信息可以包括用于描述该目标对象的数据信息,例如,其可以为目标对象的关键词。在实施时,可以预先通过多种途径获取目标对象的对象信息,例如,可以接收用户输入的目标对象的关键词,并将该关键词作为该目标对象的对象信息。以下对象信息为关键词为例详细阐述本发明。
第二获取单元20用于根据对象信息获取目标热词,目标热词为与对象信息的共现频率大于第一预设频率的词语,共现频率为目标热词与对象信息同时出现的频率。目标热词为与对象信息的共现频率大于第一预设频率的词语,共现频率为目标热词与对象信息同时出现的频率。
在执行第二获取单元20的功能之前,可以预先通过搜索引擎,利用网络爬虫自动爬取目标网站上的文本信息,并将爬取到的文本信息存入数据库中,其中,该文本信息包含目标对象的关键词及与该关键词对应的全部热词。这样,在分析目标对象及其热词的关联度时,可以从数据库中查询目标热词(也即,与目标对象相关联的热词)。
例如,可以根据目标对象的关键词获取与该关键词相关联的目标热词,其中,目标热词为与该关键词的共现频率大于第一预设频率的词语,共现频率可以为目标热词与关键词同时出现的频率。具体地,可以从存储在上述数据库中的文本信息中筛选共现频率大于第一预设频率的目标热词。
过滤单元30用于从目标热词中滤除常规热词,得到过滤后的目标热词,常规热词为预先设定的词语。常规热词为预先设定的词语,例如,其可以包括“我”“的”“这”等。由于常规热词的出现频率并不完全依赖与目标对象的关键词,也即,不管目标对象是什么,这些常规热词的出现频率都可能保持大于第一预设频率的频率值。因此,在做关联度分析时,如果不对这些常规热词进行过滤处理,则会影响分析结果的准确度,进而影响用户的网络数据投放行为。因而,从目标热词中滤除常规热词,得到过滤后的目标热词,也即,得到真正的目标热词,这样,由于过滤后的目标热词可以真实的反映其与关键词的关联度,因而其可以对用户的网络数据投放行为起到准确的导向作用。
具体地,在从网路爬虫爬取的文本信息中获取目标热词之后,可以再从数据列表中获取预先设定的常规热词,然后,将所有的目标热词与所有的常规热词逐一对比,如果某个目标热词与某个常规热词一致,则将其滤除,否则,如果某个目标热词与任何一个常规热词都不一致,则保留该目标热词,其中,被保留下来的目标热词即为过滤后的目标热词。
第一确定单元40用于确定目标对象与过滤后的目标热词的关联度。也即,确定目标对象的关键词与过滤后的目标热词的关联度。其中,关联度=共现频率/独现频率,独现频率可以为过滤后的目标热词在文本信息中单独出现的频率。
通过本发明实施例,由于从目标热词中滤除了常规热词,避免了常规热词的干扰,过滤后的目标热词能够更加真确地反映目标对象与过滤后的目标热词的关联度,达到了提高高频词语与对象之间的关联度的准确性效果。
图4是根据本发明第二实施例的用于网络热词与对象的关联度的数据处理装置的示意图。如图4所示,该装置包括:第一获取单元10、第二获取单元20、过滤单元30和第一确定单元40,其中,过滤单元30包括:第一获取模块301、第一判断模块302和过滤模块303。
第一获取单元10、第二获取单元20和第一确定单元40的作用与前述实施例中的相同,在此不再赘述。
第一获取模块301用于获取常规热词。常规热词为预先设定的词语,无论对象是谁,这些常规热词的出现频率都会大于第一预设频率。具体地,可以从数据库列表中获取预先设定的常规热词。
第一判断模块302用于判断目标热词中是否存在常规热词。可以将所有的目标热词与所有的常规热词逐一对比,如果某个目标热词与某个常规热词一致,则判断出该目标热词是常规热词;否则,如果某个目标热词与任何一个常规热词都不一致,则判断出该目标热词不是常规热词。
过滤模块303用于在判断出目标热词中存在常规热词时,从目标热词中滤除常规热词,得到过滤后的目标热词。
通过本发明实施例,由于预先建立了常规热词的词库,并将其存储在相应的数据库列表中,便于目标热词与该词库中的常规热词进行对比。
优选地,在本发明实施例中,该数据处理装置还可以包括:第二确定单元。第二确定单元用于确定常规热词,其中,第二确定单元可以包括:第二获取模块、第二判断模块和确定模块。第二获取模块用于获取目标热词的独现频率,独现频率为目标热词独立出现的频率,也即,目标热词不依附于目标对象的关键词而单独出现的频率。第二判断模块用于判断目标热词的独现频率是否大于第二预设频率。第二预设频率可以与前述的第一预设频率相同。确定模块用于在判断出目标热词的独现频率大于第二预设频率时,将目标热词作为常规热词。
优选地,根据本发明实施例,对象信息包括目标对象的关键词,第二获取单元可以包括:第三获取模块、爬取模块和第四获取模块。
第三获取模块用于获取预先设置的网络爬虫。该网络爬虫可以是定向抓取相关网页资源,自动下载网页程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。它将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。爬取模块用于利用预先设置的网络爬虫爬取目标网站上的文本信息。这里,网络爬虫爬取的信息可以为目标对象所在的文本信息。第四获取模块,用于根据关键词从文本信息中获取目标热词。
通过本发明实施例,采用网络爬虫的手段,当确定一个对象的对象信息(如,关键词)时,可以从互联网的网页上爬取到与该关键词对应的所有的文本信息,其中,该文本信息由大量的词语构成,根据爬取的文本信息确定与该对象同时出现的目标热词。
优选地,在本发明实施例中,该数据处理还可以包括:第三获取单元和显示单元。第三获取单元用于在从目标热词中滤除常规热词,得到过滤后的目标热词之后,确定过滤后的目标热词的情绪属性。可以通过语义分析技术分析过滤后的目标热词的情绪属性,其中,情绪属性包含正、负情绪属性以及中性情绪属性。例如,在实施时,可以预先设定词语的情绪属性,并将这些词语存储在预先设定的情绪属性列表中,这样,在确定过滤后的目标热词的情绪属性时,可以将目标热词与情绪属性列表中的词语进行逐一匹配,如果匹配成功,则目标热词的情绪属性即为所匹配的词语的情绪属性。
显示单元用于根据共现频率显示过滤后的目标热词和对象信息;和/或,根据关联度显示过滤后的目标热词和对象信息;和/或,根据情绪属性显示过滤后的目标热词和对象信息。例如,在根据情绪属性显示过滤后的目标热词和对象信息(如,关键词)时,可以以气泡、词云等形式进行显示,使得目标热词与目标对象的关联度更直观、更形象。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于网络热词与对象的关联度的数据处理方法,其特征在于,包括:
获取目标对象的对象信息;
根据所述对象信息获取目标热词,所述目标热词为与所述对象信息的共现频率大于第一预设频率的词语,所述共现频率为所述目标热词与所述对象信息同时出现的频率;
从所述目标热词中滤除常规热词,得到过滤后的目标热词,所述常规热词为预先设定的词语;以及
确定所述目标对象与所述过滤后的目标热词的关联度,
其中,根据以下公式确定所述关联度:
关联度=共现频率/独现频率,所述独现频率为过滤后的目标热词在文本信息中单独出现的频率。
2.根据权利要求1所述的用于网络热词与对象的关联度的数据处理方法,其特征在于,从所述目标热词中滤除所述常规热词,得到过滤后的目标热词包括:
获取所述常规热词;以及
判断所述目标热词中是否存在所述常规热词;以及
如果判断出所述目标热词中存在所述常规热词,则从所述目标热词中滤除所述常规热词,得到所述过滤后的目标热词。
3.根据权利要求2所述的用于网络热词与对象的关联度的数据处理方法,其特征在于,通过以下方式确定所述常规热词:
获取所述目标热词的独现频率,所述独现频率为所述目标热词独立出现的频率;
判断所述目标热词的所述独现频率是否大于第二预设频率;以及
如果判断出所述目标热词的所述独现频率大于所述第二预设频率,则将所述目标热词作为所述常规热词。
4.根据权利要求1所述的用于网络热词与对象的关联度的数据处理方法,其特征在于,所述对象信息包括所述目标对象的关键词,根据所述对象信息获取目标热词包括:
获取预先设置的网络爬虫;
利用所述预先设置的网络爬虫爬取目标网站上的文本信息;以及
根据所述关键词从所述文本信息中获取所述目标热词。
5.根据权利要求1所述的用于网络热词与对象的关联度的数据处理方法,其特征在于,在从所述目标热词中滤除常规热词,得到过滤后的目标热词之后,所述数据处理方法还包括:
确定所述过滤后的目标热词的情绪属性;以及
根据所述共现频率显示所述过滤后的目标热词和所述对象信息,和/或根据所述关联度显示所述过滤后的目标热词和所述对象信息,和/或根据所述情绪属性显示所述过滤后的目标热词和所述对象信息。
6.一种用于网络热词与对象的关联度的数据处理装置,其特征在于,包括:
第一获取单元,用于获取目标对象的对象信息;
第二获取单元,用于根据所述对象信息获取目标热词,所述目标热词为与所述对象信息的共现频率大于第一预设频率的词语,所述共现频率为所述目标热词与所述对象信息同时出现的频率;
过滤单元,用于从所述目标热词中滤除常规热词,得到过滤后的目标热词,所述常规热词为预先设定的词语;以及
第一确定单元,用于确定所述目标对象与所述过滤后的目标热词的关联度,
其中,所述第一确定单元根据以下公式确定所述关联度:
关联度=共现频率/独现频率,所述独现频率为过滤后的目标热词在文本信息中单独出现的频率。
7.根据权利要求6所述的用于网络热词与对象的关联度的数据处理装置,所述过滤单元包括:
第一获取模块,用于获取所述常规热词;
第一判断模块,用于判断所述目标热词中是否存在所述常规热词;以及
过滤模块,用于在判断出所述目标热词中存在所述常规热词时,从所述目标热词中滤除所述常规热词,得到所述过滤后的目标热词。
8.根据权利要求7所述的用于网络热词与对象的关联度的数据处理装置,其特征在于,所述数据处理装置还包括第二确定单元,所述第二确定单元用于确定所述常规热词,其中,所述第二确定单元包括:
第二获取模块,用于获取所述目标热词的独现频率,所述独现频率为所述目标热词独立出现的频率;
第二判断模块,用于判断所述目标热词的所述独现频率是否大于第二预设频率;以及
确定模块,用于在判断出所述目标热词的所述独现频率大于所述第二预设频率时,将所述目标热词作为所述常规热词。
9.根据权利要求6所述的用于网络热词与对象的关联度的数据处理装置,其特征在于,所述对象信息包括所述目标对象的关键词,所述第二获取单元包括:
第三获取模块,用于获取预先设置的网络爬虫;
爬取模块,用于利用所述预先设置的网络爬虫爬取目标网站上的文本信息;
以及
第四获取模块,用于根据所述关键词从所述文本信息中获取所述目标热词。
10.根据权利要求6所述的用于网络热词与对象的关联度的数据处理装置,其特征在于,所述数据处理还包括:
第三获取单元,用于在从所述目标热词中滤除常规热词,得到过滤后的目标热词之后,确定所述过滤后的目标热词的情绪属性;以及
显示单元,用于根据所述共现频率显示所述过滤后的目标热词和所述对象信息,和/或根据所述关联度显示所述过滤后的目标热词和所述对象信息,和/或根据所述情绪属性显示所述过滤后的目标热词和所述对象信息。
CN201410665109.7A 2014-11-19 2014-11-19 用于网络热词与对象的关联度的数据处理方法和装置 Active CN104408102B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410665109.7A CN104408102B (zh) 2014-11-19 2014-11-19 用于网络热词与对象的关联度的数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410665109.7A CN104408102B (zh) 2014-11-19 2014-11-19 用于网络热词与对象的关联度的数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN104408102A CN104408102A (zh) 2015-03-11
CN104408102B true CN104408102B (zh) 2017-11-21

Family

ID=52645733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410665109.7A Active CN104408102B (zh) 2014-11-19 2014-11-19 用于网络热词与对象的关联度的数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN104408102B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326311B (zh) * 2015-07-03 2019-09-20 北京国双科技有限公司 数据信息处理的方法和装置
CN106919552A (zh) * 2015-12-28 2017-07-04 北京国双科技有限公司 热词的处理方法及装置
CN106919627A (zh) * 2015-12-28 2017-07-04 北京国双科技有限公司 热词的处理方法和装置
CN105718444B (zh) * 2016-01-26 2018-05-11 中国人民解放军国防科学技术大学 基于新闻语料的金融概念对应股票关联方法及其装置
CN106056406A (zh) * 2016-05-31 2016-10-26 无锡天脉聚源传媒科技有限公司 一种节目关键词的图谱生成方法及装置
CN106126500B (zh) * 2016-06-22 2019-02-22 广东亿迅科技有限公司 一种关联热词的统计方法
CN107608983B (zh) * 2016-07-11 2021-03-30 阿里巴巴集团控股有限公司 标题信息优化方法、装置、设备及系统
CN108170693B (zh) * 2016-12-07 2020-07-31 北京国双科技有限公司 推送热词的方法及装置
CN108132966A (zh) * 2017-11-28 2018-06-08 北京洪泰同创信息技术有限公司 知识图谱生成方法及装置
CN109451018B (zh) * 2018-11-07 2021-03-19 掌阅科技股份有限公司 信息对象的推送方法、计算设备及计算机存储介质
CN114547240A (zh) * 2022-01-28 2022-05-27 同济大学 一种基于pad的影像情感标注的方法
CN116029853B (zh) * 2023-02-15 2023-06-27 江西科技学院 一种会计数据处理方法、系统、计算机及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106227A (zh) * 2012-08-03 2013-05-15 人民搜索网络股份公司 一种基于网页文本的新词查找系统及方法
CN103186675A (zh) * 2013-04-03 2013-07-03 南京安讯科技有限责任公司 一种基于网络热词识别的网页自动分类方法
CN103853746A (zh) * 2012-12-01 2014-06-11 上海斐讯数据通信技术有限公司 词库生成方法及其系统、输入法及输入系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101196935B1 (ko) * 2010-07-05 2012-11-05 엔에이치엔(주) 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템
KR20120062982A (ko) * 2010-12-07 2012-06-15 삼성전자주식회사 디스플레이장치 및 컨텐츠 검색방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106227A (zh) * 2012-08-03 2013-05-15 人民搜索网络股份公司 一种基于网页文本的新词查找系统及方法
CN103853746A (zh) * 2012-12-01 2014-06-11 上海斐讯数据通信技术有限公司 词库生成方法及其系统、输入法及输入系统
CN103186675A (zh) * 2013-04-03 2013-07-03 南京安讯科技有限责任公司 一种基于网络热词识别的网页自动分类方法

Also Published As

Publication number Publication date
CN104408102A (zh) 2015-03-11

Similar Documents

Publication Publication Date Title
CN104408102B (zh) 用于网络热词与对象的关联度的数据处理方法和装置
US8463795B2 (en) Relevance-based aggregated social feeds
US20170293419A1 (en) Method and system for context based tab management
JP6744480B2 (ja) ネットワークベースの広告データトラフィックレイテンシ削減
CN104135507B (zh) 一种防盗链的方法和装置
CN103577595B (zh) 基于当前浏览页面的关键词推送方法及装置
CN103577596B (zh) 基于当前浏览页面的关键词搜索方法及装置
US20150278359A1 (en) Method and apparatus for generating a recommendation page
CN107908694A (zh) 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质
US20100121860A1 (en) Method and Apparatus of Generating Update Parameters and Displaying Correlated Keywords
CN103577392B (zh) 基于当前浏览页面的关键词推送方法及装置
JP7029003B2 (ja) パスワード保護質問設定方法及び装置
US11803557B2 (en) Social intelligence architecture using social media message queues
WO2014101783A1 (en) Method and server for performing cloud detection for malicious information
CN106446115A (zh) 移动上网用户分类方法及装置
CN106407371A (zh) 用户的评论数据展现方法、系统、服务器和客户端
CN104572757B (zh) 微博群体处理方法及装置
CN107547671A (zh) 一种url匹配方法及装置
CN105302815B (zh) 网页的统一资源定位符url的过滤方法和装置
CN105824949A (zh) 一种评论添加方法及装置
CN111104583A (zh) 一种直播间推荐方法、存储介质、电子设备及系统
CN107340954A (zh) 一种信息提取方法和装置
Gonzalez et al. Net2Vec: Deep learning for the network
CN101694656A (zh) 搜索请求方法、搜索方法、设备及系统
CN107766234A (zh) 一种基于移动设备的网页健康度的测评方法、装置及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Data processing method and device for association degree of network hot words and object

Effective date of registration: 20190531

Granted publication date: 20171121

Pledgee: Shenzhen Black Horse World Investment Consulting Co.,Ltd.

Pledgor: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Registration number: 2019990000503

PE01 Entry into force of the registration of the contract for pledge of patent right
CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Patentee before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

CP02 Change in the address of a patent holder
PP01 Preservation of patent right

Effective date of registration: 20240604

Granted publication date: 20171121

PP01 Preservation of patent right