CN103020088A - 一种数据处理装置及方法 - Google Patents

一种数据处理装置及方法 Download PDF

Info

Publication number
CN103020088A
CN103020088A CN2011102895205A CN201110289520A CN103020088A CN 103020088 A CN103020088 A CN 103020088A CN 2011102895205 A CN2011102895205 A CN 2011102895205A CN 201110289520 A CN201110289520 A CN 201110289520A CN 103020088 A CN103020088 A CN 103020088A
Authority
CN
China
Prior art keywords
data
crawl
type information
data source
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011102895205A
Other languages
English (en)
Inventor
谭耀华
阮威
邓教武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN2011102895205A priority Critical patent/CN103020088A/zh
Publication of CN103020088A publication Critical patent/CN103020088A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明公开了一种数据处理装置,所述装置包括:数据抓取模块,用于根据预先配置的抓取规则,进行数据抓取;数据处理模块,用于根据预先配置的数据转换规则,对所述数据抓取模块所抓取的数据进行处理,得到符合所述数据转换规则的标准数据。本发明还公开了一种数据处理方法,不需要人工进行数据筛选和处理,大大节省了人工筛选数据的时间成本,提高了工作效率,节省了人力物力,并且还能够提高数据处理的准确率。

Description

一种数据处理装置及方法
技术领域
本发明涉及数据处理技术,尤其涉及一种数据处理装置及方法。
背景技术
由于网络的广泛应用,常常需要通过网络向用户推送数据,尤其在电子商务网站。而通过网络向用户推送数据时,一般都是人工通过访问数据源网站,对数据源网站中推送的大量数据进行筛选、分类等处理之后,再将数据进行编辑后推送给用户,如此,不仅造成了人力物力的浪费,而且数据处理效率低下,且常会由于人为失误造成数据处理的准确率不高,从而导致数据推送的效率和准确率也受到影响,并降低了用户体验。
发明内容
有鉴于此,本发明的主要目的在于提供一种数据处理装置及方法,以解决数据推送中数据处理效率低、浪费人力物力、以及准确率不高的问题。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种数据处理装置,所述装置包括:
数据抓取模块,用于根据预先配置的抓取规则,进行数据抓取;
数据处理模块,用于根据预先配置的数据转换规则,对所述数据抓取模块所抓取的数据进行处理,得到符合所述数据转换规则的标准数据。
在上述方案中,所述数据抓取模块包括:配置单元和抓取单元,其中,
配置单元,用于配置包含有数据源信息和类型信息的抓取规则;
抓取单元,用于根据所述配置单元配置的数据源信息,找到数据源,并从所述数据源中抓取、类型信息与配置单元所配置的类型信息相一致的数据。
在上述方案中,所述配置单元包含有用于配置抓取规则的配置文件;
所述配置单元,具体用于通过在所述配置文件中写入需抓取数据的数据源信息和类型信息并保存,完成抓取规则的配置;
抓取单元,还用于读取所述配置单元中的配置文件,根据所述配置文件中数据源信息,找到数据源,从所述数据源中抓取类型信息与所述配置文件中的类型信息相一致的数据。
在上述方案中,所述数据源信息为数据源网站的URL;和/或,所述类型信息为数据的品类名称。
在上述方案中,所述配置文件为xml格式的文件。
在上述方案中,所述数据处理模块,还用于生成包含有所述标准数据的标准数据文本,并输出该标准数据文本。
在上述方案中,所述标准数据文本为TXT文本。
本发明还提供了一种数据处理方法,所述方法包括:
根据预先配置的抓取规则,进行数据抓取;
根据预先配置的数据转换规则,对所抓取的数据进行处理,得到符合所述数据转换规则的标准数据。
在上述方案中,在进行数据抓取之前,所述方法还包括:
配置包含有数据源信息和类型信息的抓取规则;
所述进行数据抓取,为:根据所配置的数据源信息,找到数据源,并从所述数据源中抓取类型信息与所配置的类型信息相一致的数据。
在上述方案中,配置包含有数据源信息和类型信息的抓取规则,包括:在用于配置抓取规则的配置文件中写入需抓取数据的数据源信息和需抓取数据的类型信息并保存;
所述进行数据抓取,为:读取所述配置文件,根据所述配置文件中数据源信息,找到数据源,从所述数据源中抓取类型信息与所述配置文件中的类型信息相一致的数据。
在上述方案中,所述得到符合所述数据转换规则的标准数据之后,所述方法还包括:生成包含有所述标准数据的标准数据文本,并输出该标准数据文本。
本发明提供的数据处理装置及方法,根据预先配置的抓取规则进行数据抓取,并对抓取的数据进行数据转换,得到标准数据,能够基于用户的需求进行数据的获取和处理,不需要人工进行数据筛选和处理,大大节省了人工筛选数据的时间成本,提高了工作效率,节省了人力物力,并且还提高了数据处理的准确率。
附图说明
图1为本发明数据处理装置的组成结构示意图;
图2为本发明数据处理方法的实现流程图;
图3为本发明实施例一中数据处理过程的流程示意图;
图4为本发明实施例一中数据处理软件“设置”对话框示意图;
图5为本发明实施例一配置文件对话框示意图;
图6为本发明实施例一中“查看”对话框示意图;
图7为本发明实施例一中进行字段名转换的设置对话框示意图;
图8为本发明实施例一中执行数据处理操作的对话框示意图;
图9为本发明实施例一中输出标准数据文本的导出对话框示意图。
具体实施方式
本发明的基本思想是:提供一种数据处理装置及方法,能够自动获取特定的数据,并对数据进行处理,输出标准数据,如此,网站编辑人员便可以直接将所输出的标准数据编辑到相应的网页中,不仅节省了人力物力,并且提高了数据处理效率。
如图1所示,本发明的数据处理装置主要可以包括:数据抓取模块和数据处理模块,其中,
数据抓取模块,用于根据预先配置的抓取规则,进行数据抓取;
数据处理模块,用于根据预先配置的数据转换规则,对所述数据抓取模块所抓取的数据进行处理,得到符合所述数据转换规则的标准数据。
具体地,所述数据抓取模块包括:配置单元和抓取单元,其中,配置单元,用于配置包含有数据源信息和类型信息的抓取规则;抓取单元,用于根据所述配置单元配置的数据源信息,找到数据源,并从所述数据源中抓取、类型信息与配置单元所配置的类型信息相一致的数据。
这里,所述配置单元包含有用于配置抓取规则的配置文件;所述配置单元,具体用于通过在所述配置文件中写入需抓取数据的数据源信息和类型信息并保存,完成抓取规则的配置;抓取单元,还用于读取所述配置单元中的配置文件,根据配置文件中数据源信息,找到数据源,从所述数据源中抓取类型信息与所述配置文件中的类型信息相一致的数据。
这里,所述数据源信息可以为数据源网站的URL,所述类型信息可以为数据的品类名称。其中,品类名称可以包含如下信息的一种或多种:型号、品牌名称、性能参数名称等。
具体地,配置单元包含有xml格式的配置文件,通过在所述配置文件中写入需抓取数据的数据源网站URL和需抓取数据的品类名称并保存,完成抓取规则的配置;抓取单元,用于读取配置单元中的配置文件,根据配置文件中数据源网站的URL,访问数据源网站,从数据源网站推送的所有数据中抓取品类名称与配置文件中配置的品类名称相一致的数据。
其中,数据抓取模块基于多线程技术进行数据的抓取。其中,多线程技术是一种并发技术,基于同时运行多个任务的技术。基于多线程技术进行抓取具有如下任意一种或多种特征:
负载均衡:通过检测数据源网站的访问负载,调整线程分配,实现性能、效率的提升,并同时有利于减轻数据源网站访问压力,也能够防止数据源网站的访问频率限制;
多层过滤:根据链接深度、权重因子以及预设的域名黑白名单,限定抓取范围,防止海量信息抓取的无限膨胀;
抓取去重:实时分析历史抓取数据,并调整抓取频率,保证抓取数据的实时性、准确性,筛除重复抓取数据;
代理检测:通过检测局域网环境,通过使用代理IP访问具有限制的数据源网站,从而突破自身的网络限制,实现自由抓取;
离线抓取:通过已建立的云计算平台,实现数据的云抓取并同步到本地,实现无人值守的离线数据抓取;
敏感信息筛除:基于预设的敏感信息关键字,对所抓取到的数据进行敏感信息的过滤。
其中,所述数据处理模块,还用于生成包含有所述标准数据的标准数据文本,并输出该标准数据文本。这里,为便于网站编辑人员将标准数据编辑到网页中,所述标准数据文本可以为TXT文本。
相应的,本发明还提供了一种数据处理方法,参照图2所示,所述方法主要包括如下步骤:
步骤201,根据预先配置的抓取规则,进行数据抓取;
步骤202,根据预先配置的数据转换规则,对所抓取的数据进行处理,得到符合所述数据转换规则的标准数据。
其中,在进行数据抓取之前,所述方法还包括:配置包含有数据源信息和类型信息的抓取规则;所述进行数据抓取,可以为:根据所配置的数据源信息,找到数据源,并从所述数据源中抓取类型信息与所配置的类型信息相一致的数据。
具体地,配置包含有数据源信息和类型信息的抓取规则,可以包括:在用于配置抓取规则的配置文件中写入需抓取数据的数据源信息和需抓取数据的类型信息并保存;
相应的,所述进行数据抓取,可以为:读取所述配置文件,根据所述配置文件中数据源信息,找到数据源,从所述数据源中抓取类型信息与所述配置文件中的类型信息相一致的数据。
其中,在得到符合所述数据转换规则的标准数据之后,所述方法还可以包括:生成包含有所述标准数据的标准数据文本,并输出该标准数据文本。
实施例一
本实施例中,将对数据处理的具体实现过程做详细说明。
本实施例中,通过在计算机上运行一个数据处理软件,实现本发明所提供的数据处理装置,该数据处理软件包括数据抓取模块和数据处理模块。
如图3所示,本实施例中,进行数据处理的具体流程,可以包括如下步骤:
步骤301,在数据抓取模块配置数据源网站的URL,以及配置需抓取数据的品类,完成抓取规则的配置;
步骤302,在数据处理模块配置数据转换规则;
步骤303,数据抓取模块根据数据源网站的URL,访问数据源网站,并从数据源网站推送的所有数据中,抓取所配置品类的数据;
这里,该品类可以包含如下信息的一种或多种:型号、品牌、性能参数等。
步骤304,数据处理模块从数据抓取模块中获取抓取数据;
步骤305,数据处理模块根据步骤302所配置的数据转换规则,将获取的抓取数据转换为标准数据;
步骤306,数据处理模块生成包含有所述标准数据的标准数据文本并输出。
实际应用中,完成步骤301中抓取规则配置的具体实现过程如下:
步骤a1,进入数据处理软件;
步骤a2,如图4所示,点击数据处理软件的“设置”按钮,选择“个人设置”;
步骤a3,进入数据处理软件的配置文件robot.xml对话框,将包含数据源的网站的URL写入到配置文件的相应位置,并将需抓取数据的品类名称写入到配置文件中的相应位置,例如,图5所示;
步骤a4,保存配置文件robot.xml,完成数据抓取模块的抓取规则配置。
实际应用中,实现步骤302中配置数据转换规则的具体过程如下:
步骤b1,进入数据处理软件;
步骤b2,如图6所示,点击数据处理软件的“查看”按钮,选择“查看字典”;
步骤b3,找到文本文件attrName、和文本文件attrValue,分别打开,进行数据转换的字段名和字段值的设置,完成数据转换规则的配置。
例如,打开文本文件attrName,显示如图7所示的对话框,其中,“录入法”为抓取数据的字段名,“输入法”为标准数据的字段名,用户可以通过在相应的提示框中输入字段名,进行字段名转换的设置。
同理,打开文本文件attrValue后,所显示的对话框中也包含有“录入法”和“输入法”的提示框,分别表示为抓取数据的字段值和标准数据的字段值,用户可以通过在相应的提示框中输入字段值,进行字段值转换的设置。
在完成后数据转换规则配置,数据处理软件会弹出如图8所示的对话框,点击“开始”按钮,数据处理软件则开始执行步骤303的数据抓取。
在得到标准数据之后,在如图9所示的对话框中,点击数据处理软件的“操作”按钮,选择“导出”之后,数据处理软件会执行步骤306,生成包含有所得到标准数据的标准数据文本并输出,这里,标准数据文本是TXT文本。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (11)

1.一种数据处理装置,其特征在于,所述装置包括:
数据抓取模块,用于根据预先配置的抓取规则,进行数据抓取;
数据处理模块,用于根据预先配置的数据转换规则,对所述数据抓取模块所抓取的数据进行处理,得到符合所述数据转换规则的标准数据。
2.根据权利要求1所述的数据处理装置,其特征在于,所述数据抓取模块包括:配置单元和抓取单元,其中,
配置单元,用于配置包含有数据源信息和类型信息的抓取规则;
抓取单元,用于根据所述配置单元配置的数据源信息,找到数据源,并从所述数据源中抓取、类型信息与配置单元所配置的类型信息相一致的数据。
3.根据权利要求2所述的数据处理装置,其特征在于,
所述配置单元包含有用于配置抓取规则的配置文件;
所述配置单元,具体用于通过在所述配置文件中写入需抓取数据的数据源信息和类型信息并保存,完成抓取规则的配置;
抓取单元,还用于读取所述配置单元中的配置文件,根据所述配置文件中数据源信息,找到数据源,从所述数据源中抓取类型信息与所述配置文件中的类型信息相一致的数据。
4.根据权利要求2或3所述的数据处理装置,其特征在于,所述数据源信息为数据源网站的URL;和/或,所述类型信息为数据的品类名称。
5.根据权利要求3所述的数据处理方法,其特征在于,所述配置文件为xml格式的文件。
6.根据权利要求1至3任一项所述的数据处理装置,其特征在于,
所述数据处理模块,还用于生成包含有所述标准数据的标准数据文本,并输出该标准数据文本。
7.根据权利要求6所述的数据处理装置,其特征在于,所述标准数据文本为TXT文本。
8.一种数据处理方法,其特征在于,所述方法包括:
根据预先配置的抓取规则,进行数据抓取;
根据预先配置的数据转换规则,对所抓取的数据进行处理,得到符合所述数据转换规则的标准数据。
9.根据权利要求8所述的数据处理方法,其特征在于,在进行数据抓取之前,所述方法还包括:
配置包含有数据源信息和类型信息的抓取规则;
所述进行数据抓取,为:根据所配置的数据源信息,找到数据源,并从所述数据源中抓取类型信息与所配置的类型信息相一致的数据。
10.根据权利要求9所述的数据处理方法,其特征在于,
配置包含有数据源信息和类型信息的抓取规则,包括:在用于配置抓取规则的配置文件中写入需抓取数据的数据源信息和需抓取数据的类型信息并保存;
所述进行数据抓取,为:读取所述配置文件,根据所述配置文件中数据源信息,找到数据源,从所述数据源中抓取类型信息与所述配置文件中的类型信息相一致的数据。
11.根据权利要求8至10任一项所述的数据处理方法,其特征在于,所述得到符合所述数据转换规则的标准数据之后,所述方法还包括:
生成包含有所述标准数据的标准数据文本,并输出该标准数据文本。
CN2011102895205A 2011-09-27 2011-09-27 一种数据处理装置及方法 Pending CN103020088A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011102895205A CN103020088A (zh) 2011-09-27 2011-09-27 一种数据处理装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102895205A CN103020088A (zh) 2011-09-27 2011-09-27 一种数据处理装置及方法

Publications (1)

Publication Number Publication Date
CN103020088A true CN103020088A (zh) 2013-04-03

Family

ID=47968702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102895205A Pending CN103020088A (zh) 2011-09-27 2011-09-27 一种数据处理装置及方法

Country Status (1)

Country Link
CN (1) CN103020088A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246709A (zh) * 2013-04-19 2013-08-14 浪潮集团山东通用软件有限公司 一种网页数据抓取的方法
CN105760545A (zh) * 2016-03-17 2016-07-13 湖南中周至尚信息技术有限公司 基于可配置规则的网站数据搜索方法
WO2016131295A1 (zh) * 2015-07-16 2016-08-25 中兴通讯股份有限公司 一种北向数据转换方法和装置
CN107092632A (zh) * 2017-02-09 2017-08-25 北京小度信息科技有限公司 数据处理方法及装置
CN107729508A (zh) * 2017-10-23 2018-02-23 北京京东金融科技控股有限公司 信息爬取方法与装置
CN107977351A (zh) * 2017-12-28 2018-05-01 平安科技(深圳)有限公司 电子报表生成方法、装置、计算机设备及存储介质
CN108255851A (zh) * 2016-12-29 2018-07-06 北京京东尚科信息技术有限公司 一种项目数据的梳理系统及方法
CN110365633A (zh) * 2019-05-23 2019-10-22 中国平安财产保险股份有限公司 通信流量控制方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1713574A (zh) * 2004-06-25 2005-12-28 深圳市傲天通信有限公司 互联网网页信息推送系统
CN1845098A (zh) * 2006-02-20 2006-10-11 南京工业大学 仿人工细粒度网页信息采集方法
CN101179558A (zh) * 2006-11-09 2008-05-14 中国电信股份有限公司 面向电视机显示的信息浏览业务提供系统和方法
US20080320498A1 (en) * 2007-06-23 2008-12-25 Microsoft Corporation High Performance Script Behavior Detection Through Browser Shimming
CN101917286A (zh) * 2010-07-30 2010-12-15 上海普元信息技术股份有限公司 互联网应用系统中实现跨浏览器的Web性能分析系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1713574A (zh) * 2004-06-25 2005-12-28 深圳市傲天通信有限公司 互联网网页信息推送系统
CN1845098A (zh) * 2006-02-20 2006-10-11 南京工业大学 仿人工细粒度网页信息采集方法
CN101179558A (zh) * 2006-11-09 2008-05-14 中国电信股份有限公司 面向电视机显示的信息浏览业务提供系统和方法
US20080320498A1 (en) * 2007-06-23 2008-12-25 Microsoft Corporation High Performance Script Behavior Detection Through Browser Shimming
CN101917286A (zh) * 2010-07-30 2010-12-15 上海普元信息技术股份有限公司 互联网应用系统中实现跨浏览器的Web性能分析系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
肖宏: "基于配置文件的可扩展数据采集方案", 《HTTP://WWW.PAPER.EDU.CN/HTML/RELEASEPAPER/2010/11/181/》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246709A (zh) * 2013-04-19 2013-08-14 浪潮集团山东通用软件有限公司 一种网页数据抓取的方法
WO2016131295A1 (zh) * 2015-07-16 2016-08-25 中兴通讯股份有限公司 一种北向数据转换方法和装置
CN105760545A (zh) * 2016-03-17 2016-07-13 湖南中周至尚信息技术有限公司 基于可配置规则的网站数据搜索方法
CN108255851A (zh) * 2016-12-29 2018-07-06 北京京东尚科信息技术有限公司 一种项目数据的梳理系统及方法
CN108255851B (zh) * 2016-12-29 2021-05-25 北京京东尚科信息技术有限公司 一种项目数据的梳理系统及方法
CN107092632A (zh) * 2017-02-09 2017-08-25 北京小度信息科技有限公司 数据处理方法及装置
CN107729508A (zh) * 2017-10-23 2018-02-23 北京京东金融科技控股有限公司 信息爬取方法与装置
CN107977351A (zh) * 2017-12-28 2018-05-01 平安科技(深圳)有限公司 电子报表生成方法、装置、计算机设备及存储介质
CN110365633A (zh) * 2019-05-23 2019-10-22 中国平安财产保险股份有限公司 通信流量控制方法、装置、计算机设备及存储介质
CN110365633B (zh) * 2019-05-23 2022-11-22 中国平安财产保险股份有限公司 通信流量控制方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN103020088A (zh) 一种数据处理装置及方法
CN103425572B (zh) 代码分析方法及代码分析系统
WO2003075178A3 (en) Method and system for recording user interaction with an application
WO2001045033A3 (de) Verfahren zur verarbeitung von datenstrukturen
CN103544213A (zh) 网站内容更新检测评价方法及系统
RU2013145945A (ru) Способ расширения функций, использующий данные печати, устройство расширения функций и носитель записи
CN103744787A (zh) 一种手机自动化测试方法
CN109254959B (zh) 一种数据评价方法、装置、终端设备及可读存储介质
US20130238980A1 (en) Method and Apparatus for Processing World Wide Web Page
CN102004695A (zh) 浏览器测试方法及系统
CN102867069A (zh) 一种基于sql的数据库脚本执行方法及系统
CN102521232A (zh) 一种互联网元数据的分布式采集处理系统及方法
CN101477490A (zh) 基于复杂网络面向对象集成测试的方法
CN104537148A (zh) Pdms模型中螺栓信息的统计方法
CN106649102A (zh) 基于钩子函数的图形界面程序测试日志记录及回放方法
CN103258021A (zh) 一种基于行为分析的字符终端特征数据提取方法
CN106708854A (zh) 数据导出方法和装置
CN107423105A (zh) 一种接口文档的自动生成方法
CN107643968A (zh) 崩溃日志处理方法及装置
CN102541818B (zh) 大版再编辑方法和装置
CN104216986A (zh) 以数据更新周期进行预操作提高数据查询效率的装置及方法
WO2009025039A1 (ja) システム分析プログラム、システム分析方法およびシステム分析装置
CN107894940A (zh) 一种日志分析装置及方法
CN104142885A (zh) 一种用于对被测程序进行异常测试的方法和装置
CN110309499A (zh) 用于生成审查报告的装置及在线生成审查报告的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: BEIJING JINGDONG SHANGKE INFORMATION TECHNOLOGY CO

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20140418

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518044 SHENZHEN, GUANGDONG PROVINCE TO: 100080 HAIDIAN, BEIJING

TA01 Transfer of patent application right

Effective date of registration: 20140418

Address after: 100080 Beijing, Suzhou Street, No. 20, building 2, floor 2,

Applicant after: Beijing Jingdong Shangke Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination