CN106649720A - 一种数据处理方法及服务器 - Google Patents
一种数据处理方法及服务器 Download PDFInfo
- Publication number
- CN106649720A CN106649720A CN201611196380.6A CN201611196380A CN106649720A CN 106649720 A CN106649720 A CN 106649720A CN 201611196380 A CN201611196380 A CN 201611196380A CN 106649720 A CN106649720 A CN 106649720A
- Authority
- CN
- China
- Prior art keywords
- data
- queue
- database
- type
- type data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/972—Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据处理方法及服务器,包括:从数据库中分别读取第一类型数据和第二类型数据;将所述第一类型数据插入第一队列中,将所述第二类型数据插入第二队列中;对所述第一队列进行下载处理时,从所述第一队列中获取第一类型数据,依据所述第一类型数据下载得到第二类型数据;将所述下载得到的第二类型数据存入所述数据库;对所述第二队列进行抽取处理时,从所述第二队列中获取第二类型数据,对所述第二类型数据进行解析,抽取得到对象数据;将所述对象存入所述数据库。
Description
技术领域
本发明涉及数据处理技术,尤其涉及一种数据处理方法及服务器。
背景技术
通过页面链接下载到页面数据后,还需要对页面数据进行抽取,得到最终的目标数据。这个过程中,需要调用下载功能和数据抽取功能,然而,目前的下载功能和数据抽取功能具有强耦合关系,即:下载功能执行后直接调用数据抽取功能进行数据抽取。这种方式下,要对不同的页面结构开发不同的数据抽取功能;或者,通过通用的数据抽取功能进行数据抽取,但是不能处理较复杂的页面结构。
可见,现有的下载功能和数据抽取功能耦合度较高,不易分布式部署网络数据;对复杂结构的页面数据抽取不够准确。
发明内容
为解决上述技术问题,本发明实施例提供了一种数据处理方法及服务器。
本发明实施例提供的数据处理方法,包括:
从数据库中分别读取第一类型数据和第二类型数据;
将所述第一类型数据插入第一队列中,将所述第二类型数据插入第二队列中;
对所述第一队列进行下载处理时,从所述第一队列中获取第一类型数据,依据所述第一类型数据下载得到第二类型数据;将所述下载得到的第二类型数据存入所述数据库;
对所述第二队列进行抽取处理时,从所述第二队列中获取第二类型数据,对所述第二类型数据进行解析,抽取得到对象数据;将所述对象存入所述数据库。
本发明实施例中,所述从数据库中读取第一类型数据,为:从数据库中读取链接类型数据。
本发明实施例中,所述对所述第二类型数据进行解析,抽取得到对象数据,包括:
对所述第二类型数据进行解析,抽取得到结构化数据和/或链接类型数据,其中,所述链接类型数据是指所述第一类型数据。
本发明实施例中,所述数据库对所述第一类型数据和所述第二类型数据进行分区域存储,其中,所述第一类型数据存储在数据库中的第一存储区域,所述第二类型数据存储在数据库中的第二存储区域;
所述从数据库中分别读取第一类型数据和第二类型数据,包括:
从所述第一存储区域中读取第一类型数据,从所述第二存储区域读取第二类型数据。
本发明实施例中,所述方法还包括:
循环执行所述下载处理和所述抽取处理,直至所述数据库中的第一类型数据和第二类型数据被处理完成为止。
本发明实施例提供的服务器,包括:
调度模块,用于从数据库中分别读取第一类型数据和第二类型数据;将所述第一类型数据插入第一队列中,将所述第二类型数据插入第二队列中;
队列模块,用于通过第一队列存储第一类型数据,通过第二队列存储第二类型数据;
下载模块,用于对所述第一队列进行下载处理时,从所述第一队列中获取第一类型数据,依据所述第一类型数据下载得到第二类型数据;将所述下载得到的第二类型数据存入所述数据库;
抽取模块,用于对所述第二队列进行抽取处理时,从所述第二队列中获取第二类型数据,对所述第二类型数据进行解析,抽取得到对象数据;将所述对象存入所述数据库。
本发明实施例中,所述调度模块,具体用于从数据库中读取链接类型数据。
本发明实施例中,所述抽取模块,具体用于对所述第二类型数据进行解析,抽取得到结构化数据和/或链接类型数据,其中,所述链接类型数据是指所述第一类型数据。
本发明实施例中,所述数据库对所述第一类型数据和所述第二类型数据进行分区域存储,其中,所述第一类型数据存储在数据库中的第一存储区域,所述第二类型数据存储在数据库中的第二存储区域;
所述调度模块,具体用于从所述第一存储区域中读取第一类型数据,从所述第二存储区域读取第二类型数据。
本发明实施例中,所述服务器中的各个模块循环执行所述下载处理和所述抽取处理,直至所述数据库中的第一类型数据和第二类型数据被处理完成为止。
本发明实施例的技术方案中,从数据库中分别读取第一类型数据和第二类型数据;将所述第一类型数据插入第一队列中,将所述第二类型数据插入第二队列中;对所述第一队列进行下载处理时,从所述第一队列中获取第一类型数据,依据所述第一类型数据下载得到第二类型数据;将所述下载得到的第二类型数据存入所述数据库;对所述第二队列进行抽取处理时,从所述第二队列中获取第二类型数据,对所述第二类型数据进行解析,抽取得到对象数据;将所述对象存入所述数据库。采用本发明实施例的技术方案,下载功能与数据抽取功能相分离,并以队列的方式进行数据的传递,使数据处理系统高度分离,易于扩展;此外,抽取功能使用预配置的模型进行数据抽取,使抽取得到的数据更准确,并提高系统的可用性。
附图说明
图1为本发明实施例的数据处理方法的流程示意图;
图2为本发明实施例的数据处理方法的循环框图;
图3为本发明实施例的服务器的结构组成示意图。
具体实施方式
为了能够更加详尽地了解本发明实施例的特点与技术内容,下面结合附图对本发明实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明实施例。
图1为本发明实施例的数据处理方法的流程示意图,如图1所示,所述数据处理方法包括以下步骤:
步骤101:从数据库中分别读取第一类型数据和第二类型数据。
本发明实施例中,第一类型数据是指链接类型数据,这里,链接类型数据是指可以用来进行下载操作的数据(以下简称为待下载数据),例如统一资源定位符(URL,UniformResoure Locator)。
本发明实施例中,第二类型数据是指待抽取数据。
基于此,所述从数据库中读取第一类型数据,为:从数据库中读取链接类型数据。
本发明实施例中,所述数据库对所述第一类型数据和所述第二类型数据进行分区域存储,其中,所述第一类型数据存储在数据库中的第一存储区域,所述第二类型数据存储在数据库中的第二存储区域。
具体实现时,第一存储区域和第二存储区域可以位于不同的磁盘空间中或者内存空间中。对不同类型的数据进行分区域存储可以使得后续的读取操作更加快速。
相应地,所述从数据库中分别读取第一类型数据和第二类型数据,包括:
从所述第一存储区域中读取第一类型数据,从所述第二存储区域读取第二类型数据。
步骤102:将所述第一类型数据插入第一队列中,将所述第二类型数据插入第二队列中。
本发明实施例提供了数据队列,具体地,提供了两个数据队列,分别为第一数据队列和第二数据队列。其中,将所述第一类型数据插入第一队列中,将所述第二类型数据插入第二队列中。
本发明实施例中,数据队列都有一定的容量,可以从数据库中将读取到的数据按照先入先出的原则进行处理。例如,首次从数据库中读取的数据量要小于或等于队列的容量。在后续将数据存入队列时,需要队列中有空闲的位置时,才可以将数据存入空闲的队列中,以避免数据露处理。
步骤103:对所述第一队列进行下载处理时,从所述第一队列中获取第一类型数据,依据所述第一类型数据下载得到第二类型数据;将所述下载得到的第二类型数据存入所述数据库。
本发明实施例中,依据所述第一类型数据下载得到第二类型数据具体为:依据链接型数据下载得到页面相关的数据。
步骤104:对所述第二队列进行抽取处理时,从所述第二队列中获取第二类型数据,对所述第二类型数据进行解析,抽取得到对象数据;将所述对象存入所述数据库。
本发明实施例中,对所述第二类型数据进行解析,抽取得到结构化数据和/或链接类型数据,其中,所述链接类型数据是指所述第一类型数据。这里,结构化数据是指最终的目标数据,无需再处理。
本发明实施例中,循环执行所述下载处理和所述抽取处理,直至所述数据库中的第一类型数据和第二类型数据被处理完成为止。
采用本发明实施例的技术方案,下载功能与数据抽取功能相分离,并以队列的方式进行数据的传递,使数据处理系统高度分离,易于扩展;此外,抽取功能使用预配置的模型进行数据抽取,使抽取得到的数据更准确,并提高系统的可用性。
图2为本发明实施例的数据处理方法的循环框图,如图2所示,所述方法包括:
1)调度模块负责将待处理数据(包括待下载数据和待抽取数据)插入队列中。
2)下载模块从队列中获取待下载数据进行下载,下载入库的数据就是新的待抽取数据。
3)抽取模块从队列中获取待抽取数据进行数据解析,解析结果为结构化数据或者链接型数据(也即待下载数据),将结构化数据存入数据库中的对象库;将链接型数据存入数据库中作为新的待下载数据。
由上述1)、2)和3)形成一个闭环,一直循环下去,直至数据处理结束。
图3为本发明实施例的服务器的结构组成示意图,如图3所示,所述服务器包括:
调度模块31,用于从数据库中分别读取第一类型数据和第二类型数据;将所述第一类型数据插入第一队列中,将所述第二类型数据插入第二队列中;
队列模块32,用于通过第一队列存储第一类型数据,通过第二队列存储第二类型数据;
下载模块33,用于对所述第一队列进行下载处理时,从所述第一队列中获取第一类型数据,依据所述第一类型数据下载得到第二类型数据;将所述下载得到的第二类型数据存入所述数据库;
抽取模块34,用于对所述第二队列进行抽取处理时,从所述第二队列中获取第二类型数据,对所述第二类型数据进行解析,抽取得到对象数据;将所述对象存入所述数据库。
本发明实施例中,所述调度模块31,具体用于从数据库中读取链接类型数据。
本发明实施例中,所述抽取模块34,具体用于对所述第二类型数据进行解析,抽取得到结构化数据和/或链接类型数据,其中,所述链接类型数据是指所述第一类型数据。
本发明实施例中,所述数据库对所述第一类型数据和所述第二类型数据进行分区域存储,其中,所述第一类型数据存储在数据库中的第一存储区域,所述第二类型数据存储在数据库中的第二存储区域;
所述调度模块31,具体用于从所述第一存储区域中读取第一类型数据,从所述第二存储区域读取第二类型数据。
本发明实施例中,所述服务器中的各个模块循环执行所述下载处理和所述抽取处理,直至所述数据库中的第一类型数据和第二类型数据被处理完成为止。
本领域技术人员应当理解,图3所示的服务器中的各单元的实现功能可参照前述数据处理方法的相关描述而理解。图3所示的服务器中的各单元的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
在本发明所提供的几个实施例中,应该理解到,所揭露的方法和智能设备,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个第二处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
从数据库中分别读取第一类型数据和第二类型数据;
将所述第一类型数据插入第一队列中,将所述第二类型数据插入第二队列中;
当对所述第一队列进行下载处理时,从所述第一队列中获取第一类型数据,依据所述第一类型数据下载到第二类型数据,将所述下载得到的第二类型数据存入所述数据库;
当对所述第二队列进行抽取处理时,从所述第二队列中获取第二类型数据,对所述第二类型数据进行抽取处理得到对象数据,将所述对象数据存入所述数据库。
2.根据权利要求1所述的数据处理方法,其特征在于,所述第一类型数据为链接类型数据,所述第二类型数据为页面相关的数据;
依据所述第一类型数据下载到第二类型数据包括:
依据链接型数据下载得到页面相关的数据。
3.根据权利要求2所述的数据处理方法,其特征在于,所述对第二类型数据进行抽取处理得到的对象数据为结构化数据和/或第一类型数据。
4.根据权利要求1至3任一所述的数据处理方法,其特征在于,所述第一类型数据和所述第二类型数据分区域存储在所述数据库,其中,所述第一类型数据存储在数据库中的第一存储区域,所述第二类型数据存储在数据库中的第二存储区域;
所述从数据库中分别读取第一类型数据和第二类型数据,包括:
从所述第一存储区域中读取第一类型数据,从所述第二存储区域读取第二类型数据。
5.根据权利要求1所述的数据处理方法,其特征在于,所述第一队列的下载处理和所述第二队列的抽取处理是循环执行的,直至所述数据库中的第一类型数据和第二类型数据被处理完成为止。
6.一种服务器,其特征在于,所述服务器包括:
调度模块,用于从数据库中分别读取第一类型数据和第二类型数据;将所述第一类型数据插入第一队列中,将所述第二类型数据插入第二队列中;
队列模块,用于通过第一队列存储第一类型数据,通过第二队列存储第二类型数据;
下载模块,用于对所述第一队列进行下载处理时,从所述第一队列中获取第一类型数据,依据所述第一类型数据下载得到第二类型数据;将所述下载得到的第二类型数据存入所述数据库;
抽取模块,用于对所述第二队列进行抽取处理时,从所述第二队列中获取第二类型数据,对所述第二类型数据进行解析,抽取得到对象数据;将所述对象存入所述数据库。
7.根据权利要求6所述的服务器,其特征在于,所述调度模块,具体用于从数据库中读取链接类型数据。
8.根据权利要求6所述的服务器,其特征在于,所述抽取模块,具体用于对所述第二类型数据进行解析,抽取得到结构化数据和/或链接类型数据,其中,所述链接类型数据是指所述第一类型数据。
9.根据权利要求6所述的服务器,其特征在于,所述数据库对所述第一类型数据和所述第二类型数据进行分区域存储,其中,所述第一类型数据存储在数据库中的第一存储区域,所述第二类型数据存储在数据库中的第二存储区域;
所述调度模块,具体用于从所述第一存储区域中读取第一类型数据,从所述第二存储区域读取第二类型数据。
10.根据权利要求6至9任一项所述的服务器,其特征在于,所述服务器中的各个模块循环执行所述下载处理和所述抽取处理,直至所述数据库中的第一类型数据和第二类型数据被处理完成为止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611196380.6A CN106649720B (zh) | 2016-12-22 | 2016-12-22 | 一种数据处理方法及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611196380.6A CN106649720B (zh) | 2016-12-22 | 2016-12-22 | 一种数据处理方法及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106649720A true CN106649720A (zh) | 2017-05-10 |
CN106649720B CN106649720B (zh) | 2020-10-13 |
Family
ID=58833598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611196380.6A Active CN106649720B (zh) | 2016-12-22 | 2016-12-22 | 一种数据处理方法及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106649720B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182233A (zh) * | 2017-12-27 | 2018-06-19 | 苏州麦迪斯顿医疗科技股份有限公司 | 一种分布式数据抽取方法、装置、计算机设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279507A (zh) * | 2013-05-16 | 2013-09-04 | 北京尚友通达信息技术有限公司 | 网页爬虫操作方法和系统 |
US20160203224A1 (en) * | 2015-01-09 | 2016-07-14 | Lg Cns Co., Ltd. | System for analyzing social media data and method of analyzing social media data using the same |
CN105930385A (zh) * | 2016-04-13 | 2016-09-07 | 珠海迈科智能科技股份有限公司 | 一种数据爬取方法及系统 |
CN106055722A (zh) * | 2016-07-26 | 2016-10-26 | 重庆兆光科技股份有限公司 | 网页爬虫抓取方法及系统 |
-
2016
- 2016-12-22 CN CN201611196380.6A patent/CN106649720B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279507A (zh) * | 2013-05-16 | 2013-09-04 | 北京尚友通达信息技术有限公司 | 网页爬虫操作方法和系统 |
US20160203224A1 (en) * | 2015-01-09 | 2016-07-14 | Lg Cns Co., Ltd. | System for analyzing social media data and method of analyzing social media data using the same |
CN105930385A (zh) * | 2016-04-13 | 2016-09-07 | 珠海迈科智能科技股份有限公司 | 一种数据爬取方法及系统 |
CN106055722A (zh) * | 2016-07-26 | 2016-10-26 | 重庆兆光科技股份有限公司 | 网页爬虫抓取方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182233A (zh) * | 2017-12-27 | 2018-06-19 | 苏州麦迪斯顿医疗科技股份有限公司 | 一种分布式数据抽取方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106649720B (zh) | 2020-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104866293B (zh) | 一种对Android应用程序扩展功能的方法及装置 | |
CN105760184B (zh) | 一种加载组件的方法和装置 | |
CN111367818B (zh) | 基于动态数据返回的系统组件测试方法及装置 | |
CN107977223A (zh) | 一种配置兼容性检查方法及装置 | |
CN105955992A (zh) | 图片处理方法及装置 | |
CN106250166A (zh) | 一种半虚拟化网卡内核加速模块升级方法和装置 | |
CN108509248A (zh) | 数据处理方法和装置、存储介质、处理器及终端 | |
CN108875853A (zh) | 数据标签打印的处理方法及装置 | |
CN111694640B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN108154468A (zh) | 肺结节探测方法、应用服务器及计算机可读存储介质 | |
CN106648568B (zh) | 在表格上添加复选框的方法和装置 | |
CN106649720A (zh) | 一种数据处理方法及服务器 | |
CN106294106B (zh) | Web应用系统的测试方法及装置 | |
CN110059479A (zh) | 风险信息识别方法及装置和电子设备 | |
CN104461938B (zh) | 数据读取方法和装置 | |
CN105204883B (zh) | 一种插件加载处理方法及装置 | |
CN105912596A (zh) | 一种操作数据库的方法和装置 | |
CN103176843B (zh) | MapReduce分布式系统的文件迁移方法及设备 | |
CN105335747A (zh) | 一种数据处理方法及电子设备 | |
CN111428886B (zh) | 一种故障诊断的深度学习模型自适应更新的方法及装置 | |
CN104750560B (zh) | 一种信息处理方法及电子设备 | |
CN111343110B (zh) | 报文处理方法、sdn交换机及计算机可读存储介质 | |
CN106557495B (zh) | 爬虫功能的扩展方法和装置 | |
CN111694596A (zh) | 一种webpack环境中的入口路径打包方法以及打包装置 | |
JP2007293761A (ja) | エージェントの配置プログラム、方法、および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |