发明内容
本发明的主要目的在于提供一种网络数据处理方法及装置,以解决相关技术中网络数据分析准确率低问题。
为了实现上述目的,根据本发明的一个方面,提供了一种网络数据处理方法。
根据本发明的网络数据处理方法包括:获取来自网络的图片;获取图片关联的文字;判断文字中是否包含预设关键词;以及如果判断出文字包含预设关键词,则关联图片与预设关键词。
进一步地,获取来自网络的图片包括:从第一预设数据库中获取图片,其中,在第一预设数据库中存储有预先从网络爬取的图片,获取图片关联的文字包括:从第一预设数据库中获取图片关联的文字,其中,在第一预设数据库中还存储有与图片关联的文字。
进一步地,预设关键词包括多个预设关键词,判断文字中是否包含预设关键词包括:遍历第二预设数据库,从第二预设数据库中依次取出多个预设关键词,其中,在第二预设数据库中存储有多个预设关键词;分别判断文字是否包含多个预设关键词;获取文字中所包含的预设关键词;以及将文字关联的图片与文字中所包含的预设关键词建立关联。
进一步地,在获取图片关联的文字之后,该方法还包括:确定图片关联的文字的特征属性;以及关联图片和特征属性。
进一步地,确定图片关联的文字的特征属性包括:遍历第三预设数据库,从第三预设数据库中依次取出多个预设特征关键词,其中,第三预设数据库种存储有多个预设特征关键词,预设特征关键词包括第一类特征关键词和第二类特征关键词;分别判断文字是否包含多个预设特征关键词;计算文字包含的第一类特征关键词的个数和文字包含的第二类特征关键词的个数;以及由第一类特征关键词的个数和第二类特征关键词的个数得到图片关联的文字的特征属性。
进一步地,在关联网络图片与预设关键词之后,该方法还包括:存储图片、图片与预设关键字的关联关系,以及图片和特征属性的关联关系。
为了实现上述目的,根据本发明的另一方面,提供了一种网络数据处理装置。
根据本发明的网络数据处理装置包括:第一获取单元,用于获取来自网络的图片;第二获取单元,用于获取图片关联的文字;判断单元,用于判断文字中是否包含预设关键词;以及第一关联单元,用于在判断出文字包含预设关键词时,关联图片与预设关键词。
进一步地,预设关键词包括多个预设关键词,判断单元包括:第一遍历模块,用于遍历第二预设数据库,从第二预设数据库中依次取出多个预设关键词,其中,在第二预设数据库中存储有多个预设关键词;第一判断模块,用于分别判断文字是否包含多个预设关键词;获取模块,用于获取文字中所包含的预设关键词;以及关联模块,用于将文字关联的图片与文字中所包含的预设关键词建立关联。
进一步地,该装置还包括:确定单元,用于确定图片关联的文字的特征属性;以及第二关联单元,用于关联图片和特征属性。
进一步地,确定单元包括:第二遍历模块,用于遍历第三预设数据库,从第三预设数据库中依次取出多个预设特征关键词,其中,第三预设数据库种存储有多个预设特征关键词,预设特征关键词包括第一类特征关键词和第二类特征关键词;第二判断模块,用于分别判断文字是否包含多个预设特征关键词;计算模块,用于计算文字包含的第一类特征关键词的个数和文字包含的第二类特征关键词的个数;以及确定模块,用于由第一类特征关键词的个数和第二类特征关键词的个数得到图片关联的文字的特征属性。
进一步地,该装置还包括:存储单元,用于存储图片、图片与预设关键字的关联关系,以及图片和特征属性的关联关系。
通过本发明,采用对图片和图片关联的文字进行分析,解决了网络数据分析准确率低的问题,进而达到了提高网络数据分析准确率的效果。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种网络数据处理方法。图1是根据本发明实施例的网络数据处理方法的流程图。
如图1所示,该方法包括如下的步骤S102至步骤S108:
步骤S102:获取来自网络的图片。
来自网络的图片十分多样,例如,微博博文上的图片、微信公众文章中附带的图片、一些图片分享网站的图片等。获取的来自网络的图片可以是一张,也可以是多张。随着各种社交网站的发展,图片的分享变得越来越便捷,同时也越来越受到用户的喜爱。用户通过图片可以鲜明直观的表达自己的看法,例如,某用户在微博上发布了一张某个餐厅的图片,同时附上文字“这家餐厅的菜味道很美味哦”。因此,通过网络上的图片可以分析某个品牌、某个产品的口碑,或是某个活动的用户参与度等。
步骤S104:获取图片关联的文字。
图片关联的文字是指与图片同时发布的一段文字。用户在发布图片时,往往会同时附上一段简略的文字,如上述用户在微博上发布某个餐厅的图片同时附上文字“这家餐厅的菜味道很美味哦”,通过这段文字可以了解用户对这家餐厅的看法。这些文字与图片相关联,通常分布在图片的周围,例如,前后位置,左右位置等。
具体地,可以通过网络爬虫从网络上爬取图片,同时爬取图片周围一定范围内的文字,例如,可以设置网络爬虫爬取图片前后指定字数的文字,例如,爬去图片前后30个字作为该图片关联的文字,也可以设置网络爬虫爬取前后指定距离范围内的文字,例如爬取与图片相距3厘米范围内的文字。为了提高图片爬取的效率和质量,可以设置网络爬虫爬取目标网站的图片和文字,该目标网站可以是多个。优选地,为了提高获取来自网络的图片和图片关联的文字的效率,获取来自网络的图片包括:从第一预设数据库中获取图片,其中,在第一预设数据库中存储有预先从网络爬取的图片,获取图片关联的文字包括:从第一预设数据库中获取图片关联的文字,其中,在第一预设数据库中还存储有与图片关联的文字。通过将从网络上爬取的图片和该图片关联的文字预先存储在数据库中,即第一预设数据库,并同时将图片和该图片关联的文字的对应关系存储在第一预设数据库,用户可以根据需要快速的从该第一预设数据库中获取图片和该图片关联的文字。
步骤S106:判断文字中是否包含预设关键词。
预设关键词可以根据用户的需求进行设定,可以是品牌名称,也可以是商品名称,也可以是某个活动名称等。预设关键词可以是一个,也可以是多个。在获取到图片关联的文字后,将该文字中的每个词与预设关键词进行比较,如果该文字中的词中存在与预设关键词相同的词,则判断该文字中包含预设关键词。如果预设关键词为多个,则分别判断该文字中是否包含多个预设关键词中的每一个。
步骤S108:如果判断出文字包含预设关键词,则关联图片与预设关键词。
在步骤S106判断出图片关联的文字中包含预设关键词后,关联该图片和该图片关联的文字中包含的预设关键词。可以通过建立该图片和预设关键词的对应关系关联该图片与预设关键词。
优选地,当预设关键词包括多个预设关键词时,判断文字中是否包含预设关键词包括:遍历第二预设数据库,从第二预设数据库中依次取出多个预设关键词,其中,在第二预设数据库中存储有多个预设关键词;分别判断文字是否包含多个预设关键词,关联图片与预设关键词包括:获取文字中所包含的预设关键词;以及将文字关联的图片与文字中所包含的预设关键词建立关联。将多个预设关键词预先存储在数据库中,即第二预设数据库,从而,通过遍历一次第二预设数据库,就可以获得该文字中包含的所有的预设关键词,并进一步将该文字关联的图片和该文字所包含的所有的预设关键词关联,从而实现同时对多个预设关键词进行分析,提高了分析效率。
本发明实施例通过获取图片关联的文字,判断文字中是否包含预设关键词,以及如果判断出文字包含预设关键词,则关联图片与预设关键词。通过对图片和图片关联的文字进行分析,相对于现有技术中仅对文字进行分析更加准确,解决了相关技术中网络数据分析准确率低问题,进而达到了提高网络数据分析准确率的效果。此外,图片相比于文字更加鲜明直观和具有视觉上的冲击性。
优选地,为了分析用户的观点态度,在获取图片关联的文字之后,该方法还包括:确定图片关联的文字的特征属性;以及关联图片和特征属性。
文字的特征属性是指该文字倾向性的态度,例如,可以是正面态度,可以是中立态度,或是负面态度。具体地,可以通过判断文字中所包含的词语来确定文字的倾向性的态度,例如,当文字中包含“喜欢”一词时,则认为该文字为正面的态度,当文字中包含“讨厌”一词时,则认为该文字为负面的态度。优选地,确定图片关联的文字的特征属性包括:遍历第三预设数据库,从第三预设数据库中依次取出多个预设特征关键词,其中,第三预设数据库中存储有多个预设特征关键词,预设特征关键词包括第一类特征关键词和第二类特征关键词;分别判断文字是否包含多个预设特征关键词;计算文字包含的第一类特征关键词的个数和文字包含的第二类特征关键词的个数;以及由第一类特征关键词的个数和第二类特征关键词的个数得到图片关联的文字的特征属性。
预设特征关键词为能够体现态度倾向的一些词,例如,赞扬,美好,美味,恶劣,伤心等词语。预设特征关键词可以包括两类,一类是正面态度词,例如,赞扬,美好,美味等,另一类是负面态度词,例如,恶劣,伤心等。第一类特征关键词与第二类特征关键词的态度倾向不同,当第一类特征关键词为正面态度词时,则第二类特征关键词则为负面态度词,当第一类特征关键词为负面态度词时,则第二类特征关键词则为正面态度词。通过将预先将一定数量的表示正面态度的词语和表示负面态度的词语存入数据库中,即第三预设数据库,依次取出第三预设数据库中的每一个词,并与图片关联的文字进行比较,同时统计文字中包含的正面态度词的个数和负面态度词的个数,如果正面态度词的个数大于负面态度词的个数,则该文字的态度倾向为正面态度,如果正面态度词的个数小于负面态度词的个数,则该文字的态度倾向为负面态度,其他情况该文字的态度倾向为中立态度。
在通过上述步骤得到图片关联的文字的特征属性后,将该特征属性和图片关联起来。
优选地,为了方便用户分析,在关联网络图片与预设关键词之后,该方法包括:存储图片、图片与预设关键字的关联关系,以及图片和特征属性的关联关系。
通过存储图片、图片与预设关键字的关联关系,以及图片和特征属性的关联关系,可以方便用户使用,例如,当用户需要分析某个品牌的口碑时,可以方便的获取到与该品牌关联的所用图片和与每张图片关联的态度倾向,从而用户可以快速的分析出该品牌在网络中的口碑。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例的另一方面,提供了一种网络数据处理装置,该网络数据处理装置可以用于执行本发明实施例的网络数据处理方法,本发明实施例的网络数据处理方法也可以通过本发明实施例的网络数据处理装置来执行。
图2是根据本发明实施例的网络数据处理装置的示意图。
如图2所示,该装置包括:第一获取单元10,第二获取单元20,判断单元30和第一关联单元40。
第一获取单元10,用于获取来自网络的图片。
第二获取单元20,用于获取图片关联的文字。
判断单元30,用于判断文字中是否包含预设关键词
第一关联单元40,用于在判断出文字包含预设关键词时,关联图片与预设关键词。
本发明实施例通过第一获取单元10获取来自网络的图片,第二获取单元20获取图片关联的文字,判断单元30判断文字中是否包含预设关键词,以及如果判断出文字包含预设关键词,第一关联单元40关联图片与预设关键词。通过对图片和图片关联的文字进行分析,相对于现有技术中仅对文字进行分析更加准确,解决了相关技术中网络数据分析准确率低问题,进而达到了提高网络数据分析准确率的效果。此外,图片相比于文字更加鲜明直观和具有视觉上的冲击性。
优选地,预设关键词包括多个预设关键词,判断单元包括:第一遍历模块,用于遍历第二预设数据库,从第二预设数据库中依次取出多个预设关键词,其中,在第二预设数据库中存储有多个预设关键词;第一判断模块,用于分别判断文字是否包含多个预设关键词;获取模块,用于获取文字中所包含的预设关键词;以及关联模块,用于将文字关联的图片与文字中所包含的预设关键词建立关联。
优选地,该装置还包括:确定单元,用于确定图片关联的文字的特征属性;以及第二关联单元,用于关联图片和特征属性。
文字的特征属性是指该文字倾向性的态度,例如,可以是正面态度,可以是中立态度,或是负面态度。
具体地,确定单元包括:第二遍历模块,用于遍历第三预设数据库,从第三预设数据库中依次取出多个预设特征关键词,其中,第三预设数据库种存储有多个预设特征关键词,预设特征关键词包括第一类特征关键词和第二类特征关键词;第二判断模块,用于分别判断文字是否包含多个预设特征关键词;计算模块,用于计算文字包含的第一类特征关键词的个数和文字包含的第二类特征关键词的个数;以及确定模块,用于由第一类特征关键词的个数和第二类特征关键词的个数得到图片关联的文字的特征属性。
预设特征关键词为能够体现态度倾向的一些词,例如,赞扬,美好,美味,恶劣,伤心等词语。预设特征关键词可以包括两类,一类是正面态度词,例如,赞扬,美好,美味等,另一类是负面态度词,例如,恶劣,伤心等。第一类特征关键词与第二类特征关键词的态度倾向不同,当第一类特征关键词为正面态度词时,则第二类特征关键词则为负面态度词,当第一类特征关键词为负面态度词时,则第二类特征关键词则为正面态度词。
优选地,该装置还包括:存储单元,用于存储图片、图片与预设关键字的关联关系,以及图片和特征属性的关联关系。
通过存储单元存储图片、图片与预设关键字的关联关系,以及图片和特征属性的关联关系,可以方便用户使用,例如,当用户需要分析某个品牌的口碑时,可以方便的获取到与该品牌关联的所用图片和与每张图片关联的态度倾向,从而用户可以快速的分析出品牌在网络中的口碑。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。