发明内容
有鉴于此,本发明的主要目的在于提供一种数据处理装置及方法,以解决数据推送中数据处理效率低、浪费人力物力、以及准确率不高的问题。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种数据处理装置,所述装置包括:
数据抓取模块,用于根据预先配置的抓取规则,进行数据抓取;
数据处理模块,用于根据预先配置的数据转换规则,对所述数据抓取模块所抓取的数据进行处理,得到符合所述数据转换规则的标准数据。
在上述方案中,所述数据抓取模块包括:配置单元和抓取单元,其中,
配置单元,用于配置包含有数据源信息和类型信息的抓取规则;
抓取单元,用于根据所述配置单元配置的数据源信息,找到数据源,并从所述数据源中抓取、类型信息与配置单元所配置的类型信息相一致的数据。
在上述方案中,所述配置单元包含有用于配置抓取规则的配置文件;
所述配置单元,具体用于通过在所述配置文件中写入需抓取数据的数据源信息和类型信息并保存,完成抓取规则的配置;
抓取单元,还用于读取所述配置单元中的配置文件,根据所述配置文件中数据源信息,找到数据源,从所述数据源中抓取类型信息与所述配置文件中的类型信息相一致的数据。
在上述方案中,所述数据源信息为数据源网站的URL;和/或,所述类型信息为数据的品类名称。
在上述方案中,所述配置文件为xml格式的文件。
在上述方案中,所述数据处理模块,还用于生成包含有所述标准数据的标准数据文本,并输出该标准数据文本。
在上述方案中,所述标准数据文本为TXT文本。
本发明还提供了一种数据处理方法,所述方法包括:
根据预先配置的抓取规则,进行数据抓取;
根据预先配置的数据转换规则,对所抓取的数据进行处理,得到符合所述数据转换规则的标准数据。
在上述方案中,在进行数据抓取之前,所述方法还包括:
配置包含有数据源信息和类型信息的抓取规则;
所述进行数据抓取,为:根据所配置的数据源信息,找到数据源,并从所述数据源中抓取类型信息与所配置的类型信息相一致的数据。
在上述方案中,配置包含有数据源信息和类型信息的抓取规则,包括:在用于配置抓取规则的配置文件中写入需抓取数据的数据源信息和需抓取数据的类型信息并保存;
所述进行数据抓取,为:读取所述配置文件,根据所述配置文件中数据源信息,找到数据源,从所述数据源中抓取类型信息与所述配置文件中的类型信息相一致的数据。
在上述方案中,所述得到符合所述数据转换规则的标准数据之后,所述方法还包括:生成包含有所述标准数据的标准数据文本,并输出该标准数据文本。
本发明提供的数据处理装置及方法,根据预先配置的抓取规则进行数据抓取,并对抓取的数据进行数据转换,得到标准数据,能够基于用户的需求进行数据的获取和处理,不需要人工进行数据筛选和处理,大大节省了人工筛选数据的时间成本,提高了工作效率,节省了人力物力,并且还提高了数据处理的准确率。
具体实施方式
本发明的基本思想是:提供一种数据处理装置及方法,能够自动获取特定的数据,并对数据进行处理,输出标准数据,如此,网站编辑人员便可以直接将所输出的标准数据编辑到相应的网页中,不仅节省了人力物力,并且提高了数据处理效率。
如图1所示,本发明的数据处理装置主要可以包括:数据抓取模块和数据处理模块,其中,
数据抓取模块,用于根据预先配置的抓取规则,进行数据抓取;
数据处理模块,用于根据预先配置的数据转换规则,对所述数据抓取模块所抓取的数据进行处理,得到符合所述数据转换规则的标准数据。
具体地,所述数据抓取模块包括:配置单元和抓取单元,其中,配置单元,用于配置包含有数据源信息和类型信息的抓取规则;抓取单元,用于根据所述配置单元配置的数据源信息,找到数据源,并从所述数据源中抓取、类型信息与配置单元所配置的类型信息相一致的数据。
这里,所述配置单元包含有用于配置抓取规则的配置文件;所述配置单元,具体用于通过在所述配置文件中写入需抓取数据的数据源信息和类型信息并保存,完成抓取规则的配置;抓取单元,还用于读取所述配置单元中的配置文件,根据配置文件中数据源信息,找到数据源,从所述数据源中抓取类型信息与所述配置文件中的类型信息相一致的数据。
这里,所述数据源信息可以为数据源网站的URL,所述类型信息可以为数据的品类名称。其中,品类名称可以包含如下信息的一种或多种:型号、品牌名称、性能参数名称等。
具体地,配置单元包含有xml格式的配置文件,通过在所述配置文件中写入需抓取数据的数据源网站URL和需抓取数据的品类名称并保存,完成抓取规则的配置;抓取单元,用于读取配置单元中的配置文件,根据配置文件中数据源网站的URL,访问数据源网站,从数据源网站推送的所有数据中抓取品类名称与配置文件中配置的品类名称相一致的数据。
其中,数据抓取模块基于多线程技术进行数据的抓取。其中,多线程技术是一种并发技术,基于同时运行多个任务的技术。基于多线程技术进行抓取具有如下任意一种或多种特征:
负载均衡:通过检测数据源网站的访问负载,调整线程分配,实现性能、效率的提升,并同时有利于减轻数据源网站访问压力,也能够防止数据源网站的访问频率限制;
多层过滤:根据链接深度、权重因子以及预设的域名黑白名单,限定抓取范围,防止海量信息抓取的无限膨胀;
抓取去重:实时分析历史抓取数据,并调整抓取频率,保证抓取数据的实时性、准确性,筛除重复抓取数据;
代理检测:通过检测局域网环境,通过使用代理IP访问具有限制的数据源网站,从而突破自身的网络限制,实现自由抓取;
离线抓取:通过已建立的云计算平台,实现数据的云抓取并同步到本地,实现无人值守的离线数据抓取;
敏感信息筛除:基于预设的敏感信息关键字,对所抓取到的数据进行敏感信息的过滤。
其中,所述数据处理模块,还用于生成包含有所述标准数据的标准数据文本,并输出该标准数据文本。这里,为便于网站编辑人员将标准数据编辑到网页中,所述标准数据文本可以为TXT文本。
相应的,本发明还提供了一种数据处理方法,参照图2所示,所述方法主要包括如下步骤:
步骤201,根据预先配置的抓取规则,进行数据抓取;
步骤202,根据预先配置的数据转换规则,对所抓取的数据进行处理,得到符合所述数据转换规则的标准数据。
其中,在进行数据抓取之前,所述方法还包括:配置包含有数据源信息和类型信息的抓取规则;所述进行数据抓取,可以为:根据所配置的数据源信息,找到数据源,并从所述数据源中抓取类型信息与所配置的类型信息相一致的数据。
具体地,配置包含有数据源信息和类型信息的抓取规则,可以包括:在用于配置抓取规则的配置文件中写入需抓取数据的数据源信息和需抓取数据的类型信息并保存;
相应的,所述进行数据抓取,可以为:读取所述配置文件,根据所述配置文件中数据源信息,找到数据源,从所述数据源中抓取类型信息与所述配置文件中的类型信息相一致的数据。
其中,在得到符合所述数据转换规则的标准数据之后,所述方法还可以包括:生成包含有所述标准数据的标准数据文本,并输出该标准数据文本。
实施例一
本实施例中,将对数据处理的具体实现过程做详细说明。
本实施例中,通过在计算机上运行一个数据处理软件,实现本发明所提供的数据处理装置,该数据处理软件包括数据抓取模块和数据处理模块。
如图3所示,本实施例中,进行数据处理的具体流程,可以包括如下步骤:
步骤301,在数据抓取模块配置数据源网站的URL,以及配置需抓取数据的品类,完成抓取规则的配置;
步骤302,在数据处理模块配置数据转换规则;
步骤303,数据抓取模块根据数据源网站的URL,访问数据源网站,并从数据源网站推送的所有数据中,抓取所配置品类的数据;
这里,该品类可以包含如下信息的一种或多种:型号、品牌、性能参数等。
步骤304,数据处理模块从数据抓取模块中获取抓取数据;
步骤305,数据处理模块根据步骤302所配置的数据转换规则,将获取的抓取数据转换为标准数据;
步骤306,数据处理模块生成包含有所述标准数据的标准数据文本并输出。
实际应用中,完成步骤301中抓取规则配置的具体实现过程如下:
步骤a1,进入数据处理软件;
步骤a2,如图4所示,点击数据处理软件的“设置”按钮,选择“个人设置”;
步骤a3,进入数据处理软件的配置文件robot.xml对话框,将包含数据源的网站的URL写入到配置文件的相应位置,并将需抓取数据的品类名称写入到配置文件中的相应位置,例如,图5所示;
步骤a4,保存配置文件robot.xml,完成数据抓取模块的抓取规则配置。
实际应用中,实现步骤302中配置数据转换规则的具体过程如下:
步骤b1,进入数据处理软件;
步骤b2,如图6所示,点击数据处理软件的“查看”按钮,选择“查看字典”;
步骤b3,找到文本文件attrName、和文本文件attrValue,分别打开,进行数据转换的字段名和字段值的设置,完成数据转换规则的配置。
例如,打开文本文件attrName,显示如图7所示的对话框,其中,“录入法”为抓取数据的字段名,“输入法”为标准数据的字段名,用户可以通过在相应的提示框中输入字段名,进行字段名转换的设置。
同理,打开文本文件attrValue后,所显示的对话框中也包含有“录入法”和“输入法”的提示框,分别表示为抓取数据的字段值和标准数据的字段值,用户可以通过在相应的提示框中输入字段值,进行字段值转换的设置。
在完成后数据转换规则配置,数据处理软件会弹出如图8所示的对话框,点击“开始”按钮,数据处理软件则开始执行步骤303的数据抓取。
在得到标准数据之后,在如图9所示的对话框中,点击数据处理软件的“操作”按钮,选择“导出”之后,数据处理软件会执行步骤306,生成包含有所得到标准数据的标准数据文本并输出,这里,标准数据文本是TXT文本。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。