CN113626513A - 文旅资源采集方法和系统 - Google Patents

文旅资源采集方法和系统 Download PDF

Info

Publication number
CN113626513A
CN113626513A CN202111021050.4A CN202111021050A CN113626513A CN 113626513 A CN113626513 A CN 113626513A CN 202111021050 A CN202111021050 A CN 202111021050A CN 113626513 A CN113626513 A CN 113626513A
Authority
CN
China
Prior art keywords
data
program
travel
acquisition
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111021050.4A
Other languages
English (en)
Inventor
赵进平
陈海江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lishi Technology Co Ltd
Original Assignee
Zhejiang Lishi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lishi Technology Co Ltd filed Critical Zhejiang Lishi Technology Co Ltd
Priority to CN202111021050.4A priority Critical patent/CN113626513A/zh
Publication of CN113626513A publication Critical patent/CN113626513A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种文旅资源采集方法和系统,一种文旅资源采集方法,包括以下步骤:数据采集,采集程序进行数据的采集将原始数据保存入库;数据抽取,抽取程序进行数据的聚合和分析,将原始数据经过抽取转化成业务需要的数据,并保存至中间临时数据表;数据交换,交换程序将抽取完成的业务数据交换至业务数据库,供业务系统使用。本发明的有益之处在于,通过将整个文旅数据采集过程分为3个步骤,每个步骤独立运行工作,处理各自的业务逻辑,抽取和交换程序出现问题不会影响采集程序的正常运行,不会造成数据丢失,同时加入监控程序,采集的每一个过程遇到问题都能实时预警和通知开发人员,方便排查问题。

Description

文旅资源采集方法和系统
技术领域
本发明涉及一种文旅资源采集方法和系统。
背景技术
文旅行业和用户息息相关,产生多种多样的数据格式不统一,目前基本使用接口对接的方式按需采集,即数据提供方提供采集接口,数据采集方调用采集接口获取数据,对数据进行加工存储,几乎每次采集都需要定制开发。
一方面,每次采集都需要定制开发,工作量庞大,数据加工存储的逻辑会非常多样,不利于后期维护;另一方面,数据质量和完整性无法保障,接口报错或数据格式有错误时不能及时预警,造成阶段性数据丢失。
发明内容
本发明的目的在于提供一种文旅资源采集方法和系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种文旅资源采集方法,包括以下步骤:
数据采集,采集程序进行数据的采集将原始数据保存入库;
数据抽取,抽取程序进行数据的聚合和分析,将原始数据经过抽取转化成业务需要的数据,并保存至中间临时数据表;
数据交换,交换程序将抽取完成的业务数据交换至业务数据库,供业务系统使用;
其中,数据采集、数据抽取和数据交换的过程中均进行实时控制和监控,出现异常时可以实时预警。
作为本发明的进一步方案:采集程序通过字段映射配置和任务调度的方法,将接口对接的数据全量存储入库。
作为本发明的进一步方案:数据采集,包括以下步骤:
第一步,建立符合采集数据标准的规约库;
第二步,配置采集字段和规约库的表字段的映射关系;
第三步,配置数据采集的接口请求参数和采集频率;
第四步,配置数据采集程序预警规则;
第五步,启用采集程序。
作为本发明的进一步方案:抽取程序根据文旅业务数据使用要求,将采集的全量数据聚合分析成有价值的业务数据并存储在中间临时数据表中。
作为本发明的进一步方案:数据抽取,包括以下步骤:
第一步,建立符合抽取标准的规约表;
第二步,配置抽取规则,即源数据字段聚合及计算规则;
第三步,将第二步结果映射至抽取表数据字段;
第四步,配置数据抽取程序预警规则;
第五步,启用抽取程序。
作为本发明的进一步方案:交换程序根据文旅业务数据要求,将抽取的结果数据转换至文旅业务数据库。
作为本发明的进一步方案:数据交换,包括以下步骤:
第一步,配置抽取程序规约库连接;
第二步,配置文旅业务数据库连接;
第三步,配置抽取程序规约库数据表和文旅业务数据库数据表的映射关系;
第四步,选择映射关系创建交换任务;
第五步,配置数据交换预警规则;
第六步,配置交换任务执行频率并启用任务。
一种文旅资源采集系统,包括:采集程序、抽取程序和交换程序;
采集程序进行数据的采集将原始数据保存入库;
抽取程序进行数据的聚合和分析,将原始数据经过抽取转化成业务需要的数据,并保存至中间临时数据表;
交换程序将抽取完成的业务数据交换至业务数据库,供业务系统使用;
其中,采集程序、抽取程序和交换程序局均设有实时控制和监控程序,进行实时控制和监控,出现异常时可以实时预警。
作为本发明的进一步方案:采集程序通过字段映射配置和任务调度的方法,将接口对接的数据全量存储入库。
作为本发明的进一步方案:抽取程序根据文旅业务数据使用要求,将采集的全量数据聚合分析成有价值的业务数据并存储在中间表中;
交换程序根据文旅业务数据要求,将抽取的结果数据转换至文旅业务数据库。
与现有技术相比,本发明的有益效果是:解决开发人员资源采集过程中数据丢失,标准不统一,开发重复工作量大,采集的资源质量差、不稳定的问题。
通过将采集过程分为3个步骤来保证采集数据的完整性,同时抽取程序放在中心端解决了和业务系统的耦合性。
通过将整个文旅数据采集过程分为3个步骤,每个步骤独立运行工作,处理各自的业务逻辑,抽取和交换程序出现问题不会影响采集程序的正常运行,不会造成数据丢失,同时加入监控程序,采集的每一个过程遇到问题都能实时预警和通知开发人员,方便排查问题。
附图说明
图1为本发明的一种文旅资源采集方法的流程图;
图2为本发明的一种文旅资源采集系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1和图2所示,本发明实施例中,一种文旅资源采集方法,包括以下步骤:
数据采集,采集程序进行数据的采集将原始数据保存入库;
数据抽取,抽取程序进行数据的聚合和分析,将原始数据经过抽取转化成业务需要的数据,并保存至中间临时数据表;
数据交换,交换程序将抽取完成的业务数据交换至业务数据库,供业务系统使用;
其中,数据采集、数据抽取和数据交换的过程中均进行实时控制和监控,出现异常时可以实时预警。当采集、抽取和交换任何一个环节出现问题时都能实时预警。
具体而言,数据经过采集程序-抽取程序-交换程序最终保存至业务数据库。采集程序主要处理数据的采集,可使用kettle工具在页面上配置采集,这个步骤不做数据处理,仅将所有原始数据保存入库。
以移动信令数据采集为例进行说明。移动信令包含城市、人数和时间的字段,准备一万条正常的数据和一万条异常的数据(异常数据人数值为空),分别采用本发明进行数据采集入库,观察采集的数据完整性和异常数据告警率。一万条正常数据通过采集程序将原始数据全部保存入库,抽取程序将预处理结果保存至临时表,交换程序顺利将预处理结果交换保存至业务数据库,采集数据完整性为100%;一万条异常数据通过采集程序同样将原始数据全部保存入库,抽取程序在处理原始数据时,因数据异常实时产生告警,告警数据一万条,异常数据告警率100%。
也就是说,无论数据正常与否,采集程序均可将原始数据100%入库,保证了数据的完整性,同时数据异常时抽取程序会实时产生告警,帮助开发人员发现和定位问题。
作为一种优选的实施方式,采集程序通过字段映射配置和任务调度的方法,将接口对接的数据全量存储入库。
具体而言,数据采集,包括以下步骤:
第一步,建立符合采集数据标准的规约库;
第二步,配置采集字段和规约库的表字段的映射关系;
第三步,配置数据采集的接口请求参数和采集频率;
第四步,配置数据采集程序预警规则;
第五步,启用采集程序。
作为一种优选的实施方式,抽取程序根据文旅业务数据使用要求,将采集的全量数据聚合分析成有价值的业务数据并存储在中间临时数据表中。
具体而言,数据抽取,包括以下步骤:
第一步,建立符合抽取标准的规约表;
第二步,配置抽取规则,即源数据字段聚合及计算规则;
第三步,将第二步结果映射至抽取表数据字段;
第四步,配置数据抽取程序预警规则;
第五步,启用抽取程序。
作为一种优选的实施方式,交换程序根据文旅业务数据要求,将抽取的结果数据转换至文旅业务数据库。
具体而言,数据交换,包括以下步骤:
第一步,配置抽取程序规约库连接;
第二步,配置文旅业务数据库连接;
第三步,配置抽取程序规约库数据表和文旅业务数据库数据表的映射关系;
第四步,选择映射关系创建交换任务;
第五步,配置数据交换预警规则;
第六步,配置交换任务执行频率并启用任务。
一种文旅资源采集系统,包括:采集程序、抽取程序和交换程序。采集程序进行数据的采集将原始数据保存入库。抽取程序进行数据的聚合和分析,将原始数据经过抽取转化成业务需要的数据,并保存至中间临时数据表。交换程序将抽取完成的业务数据交换至业务数据库,供业务系统使用。其中,采集程序、抽取程序和交换程序局均设有实时控制和监控程序,进行实时控制和监控,出现异常时可以实时预警。采集程序通过字段映射配置和任务调度的方法,将接口对接的数据全量存储入库。抽取程序根据文旅业务数据使用要求,将采集的全量数据聚合分析成有价值的业务数据并存储在中间表中。交换程序根据文旅业务数据要求,将抽取的结果数据转换至文旅业务数据库。
传统文旅数据采集是通过接口对接方式将数据实时传递过来,采集和处理数据合并在一起进行,满足了文旅业务平台对于实时性的要求。但是接口对接方式需花费大量人力和时间协调各个业务模块供应商做数据接口对接,如联通的客流数据,移动的信令数据等,同时其扩展性不高,比如:由于业务需要各供应商开发出新的业务模块,其和文旅业务平台之间的数据接口也需要做相应的修改和变动,甚至要推翻以前的所有数据接口编码,工作量很大且耗时长。
使用本发明中的数据采集三层架构,可以采用无代码的方式对接数据,只需建立源数据库和表字段,抽取数据表字段,通过配置映射关系和数据交换的方式将数据采集至文旅业务系统,不过多依靠开发人员人工开发,减少对开发人员的依赖,对于采集数据的扩展和后期维护较为便利。
同时,本发明可最大限度的保证原始数据的完整性,传统对接方式将3个步骤合在一起,即直接拉取数据、处理数据并将处理完的数据入库,在处理数据过程中如出错则数据无法入库,造成阶段性数据丢失。本发明在采集程序中已将数据入库,后续抽取程序和交换程序是将已入库的数据进行处理和存储,源数据优先保存,防止了在聚合处理数据时出错造成的数据丢失问题。
数据采集分为3个层级:采集层-抽取层-交换层,将数据通过kett l e工具采集到底层数据库,再将需要用到的数据抽取出来,然后通过数据交换工具将数据交换至业务数据库。对采集三个过程进行监控,实时发现和预警问题。
通过将整个文旅数据采集过程分为3个步骤,每个步骤独立运行工作,处理各自的业务逻辑,抽取和交换程序出现问题不会影响采集程序的正常运行,不会造成数据丢失,同时加入监控程序,采集的每一个过程遇到问题都能实时预警和通知开发人员,方便排查问题。通过将采集过程分为3个步骤来保证采集数据的完整性,同时抽取程序放在中心端解决了和业务系统的耦合性。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (10)

1.一种文旅资源采集方法,其特征在于,包括以下步骤:
数据采集,采集程序进行数据的采集将原始数据保存入库;
数据抽取,抽取程序进行数据的聚合和分析,将原始数据经过抽取转化成业务需要的数据,并保存至中间临时数据表;
数据交换,交换程序将抽取完成的业务数据交换至业务数据库,供业务系统使用;
其中,所述数据采集、所述数据抽取和所述数据交换的过程中均进行实时控制和监控,出现异常时可以实时预警。
2.根据权利要求1所述的文旅资源采集方法,其特征在于,
所述采集程序通过字段映射配置和任务调度的方法,将接口对接的数据全量存储入库。
3.根据权利要求2所述的文旅资源采集方法,其特征在于,
所述数据采集,包括以下步骤:
第一步,建立符合采集数据标准的规约库;
第二步,配置采集字段和规约库的表字段的映射关系;
第三步,配置数据采集的接口请求参数和采集频率;
第四步,配置数据采集程序预警规则;
第五步,启用采集程序。
4.根据权利要求1所述的文旅资源采集方法,其特征在于,
所述抽取程序根据文旅业务数据使用要求,将采集的全量数据聚合分析成有价值的业务数据并存储在中间临时数据表中。
5.根据权利要求4所述的文旅资源采集方法,其特征在于,
所述数据抽取,包括以下步骤:
第一步,建立符合抽取标准的规约表;
第二步,配置抽取规则,即源数据字段聚合及计算规则;
第三步,将第二步结果映射至抽取表数据字段;
第四步,配置数据抽取程序预警规则;
第五步,启用抽取程序。
6.根据权利要求1所述的文旅资源采集方法,其特征在于,
所述交换程序根据文旅业务数据要求,将抽取的结果数据转换至文旅业务数据库。
7.根据权利要求6所述的文旅资源采集方法,其特征在于,
所述数据交换,包括以下步骤:
第一步,配置抽取程序规约库连接;
第二步,配置文旅业务数据库连接;
第三步,配置抽取程序规约库数据表和文旅业务数据库数据表的映射关系;
第四步,选择映射关系创建交换任务;
第五步,配置数据交换预警规则;
第六步,配置交换任务执行频率并启用任务。
8.一种文旅资源采集系统,其特征在于,包括:采集程序、抽取程序和交换程序;
所述采集程序进行数据的采集将原始数据保存入库;
所述抽取程序进行数据的聚合和分析,将原始数据经过抽取转化成业务需要的数据,并保存至中间临时数据表;
所述交换程序将抽取完成的业务数据交换至业务数据库,供业务系统使用;
其中,所述采集程序、所述抽取程序和所述交换程序局均设有实时控制和监控程序,进行实时控制和监控,出现异常时可以实时预警。
9.根据权利要求8所述的文旅资源采集系统,其特征在于,
所述采集程序通过字段映射配置和任务调度的方法,将接口对接的数据全量存储入库。
10.根据权利要求8所述的文旅资源采集系统,其特征在于,
所述抽取程序根据文旅业务数据使用要求,将采集的全量数据聚合分析成有价值的业务数据并存储在中间表中;
所述交换程序根据文旅业务数据要求,将抽取的结果数据转换至文旅业务数据库。
CN202111021050.4A 2021-09-01 2021-09-01 文旅资源采集方法和系统 Pending CN113626513A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111021050.4A CN113626513A (zh) 2021-09-01 2021-09-01 文旅资源采集方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111021050.4A CN113626513A (zh) 2021-09-01 2021-09-01 文旅资源采集方法和系统

Publications (1)

Publication Number Publication Date
CN113626513A true CN113626513A (zh) 2021-11-09

Family

ID=78388775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111021050.4A Pending CN113626513A (zh) 2021-09-01 2021-09-01 文旅资源采集方法和系统

Country Status (1)

Country Link
CN (1) CN113626513A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495885A (zh) * 2011-12-08 2012-06-13 中国信息安全测评中心 一种基于库联网引擎的信息安全数据整合方法
CN103593422A (zh) * 2013-11-01 2014-02-19 国云科技股份有限公司 一种异构数据库的虚拟访问管理方法
CN105159951A (zh) * 2015-08-17 2015-12-16 成都中科大旗软件有限公司 一种开放式的旅游多源异构数据融合方法及系统
CN106126753A (zh) * 2016-08-23 2016-11-16 易联众信息技术股份有限公司 基于大数据的增量抽取的方法
CN109947746A (zh) * 2017-10-26 2019-06-28 亿阳信通股份有限公司 一种基于etl流程的数据质量管控方法和系统
CN111241055A (zh) * 2019-12-27 2020-06-05 冶金自动化研究设计院 一种钢铁企业数据中心异构数据的处理系统
CN112559615A (zh) * 2020-12-18 2021-03-26 安徽中杰信息科技有限公司 一种机房资产数据采集系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495885A (zh) * 2011-12-08 2012-06-13 中国信息安全测评中心 一种基于库联网引擎的信息安全数据整合方法
CN103593422A (zh) * 2013-11-01 2014-02-19 国云科技股份有限公司 一种异构数据库的虚拟访问管理方法
CN105159951A (zh) * 2015-08-17 2015-12-16 成都中科大旗软件有限公司 一种开放式的旅游多源异构数据融合方法及系统
CN106126753A (zh) * 2016-08-23 2016-11-16 易联众信息技术股份有限公司 基于大数据的增量抽取的方法
CN109947746A (zh) * 2017-10-26 2019-06-28 亿阳信通股份有限公司 一种基于etl流程的数据质量管控方法和系统
CN111241055A (zh) * 2019-12-27 2020-06-05 冶金自动化研究设计院 一种钢铁企业数据中心异构数据的处理系统
CN112559615A (zh) * 2020-12-18 2021-03-26 安徽中杰信息科技有限公司 一种机房资产数据采集系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
(美)PIROZ MOHSENI 等: "《Web数据库开发人员指南》", vol. 1, 31 October 1997, 机械工业出版社,西蒙与舒斯特国际出版公司, pages: 105 *
冰河: "《mysql技术大全 开发、优化与运维实战 视频教学版》", vol. 1, 31 January 2021, 机械工业出版社, pages: 515 *
朱传鹏 等: "一种综合数据平台在火力发电厂的应用", 《电工技术》, no. 11, pages 192 - 195 *

Similar Documents

Publication Publication Date Title
US5828842A (en) Method of creating information for executing network management operations from a simplified definition of an operation sequence and providing a network management operation sequence, used in the information
CN102750350B (zh) 监控系统及方法
CN111585344B (zh) 一种基于全站ied仿真的变电站智能校核方法及装置
CN107749811B (zh) 一种基于配电主站的配电终端接入自适应调试分析方法
CN104483842A (zh) 一种调控一体自动化主站比对方法
CN111654488B (zh) “三站合一”变电站及感知终端信息接入方法
CN112865311B (zh) 一种电力系统消息总线监视方法和装置
CN113419920B (zh) 物联管理平台仿真测试系统联调测试过程实时监控方法
CN113642299A (zh) 一种基于电网统计报表一键生成的方法
CN116738163A (zh) 基于规则引擎的能源消耗监控管理系统和方法
CN109561155B (zh) 一种变电站设备远程集中监视与运维方法
CN112711488B (zh) 基于微服务和消息队列的设备初始化方法和系统
Shuang et al. Intelligent mobile operation and maintenance technology and its application of for relay protection based on power wireless virtual private network
CN113626513A (zh) 文旅资源采集方法和系统
CN116246765A (zh) 一种医疗设备全生命周期智能维保管理方法及系统
CN103414595B (zh) 电力调度数据网链路监测系统拓扑图生成方法
CN112165167B (zh) 一种智能变电站继电保护检修辅助系统及方法
CN114820868A (zh) 一种配网线路智能成图的方法、装置和系统
CN110866614B (zh) 基于gsp的智能变电站自动化设备透明运维方法及系统
LU505378B1 (en) Safety management system for hydraulic engineering construction and emergency command method thereof
CN111784538A (zh) 一种智能电网大数据信息管理方法及系统
CN116466940B (zh) 一种煤矿灾害特征数据融合处理方法
CN113938370B (zh) 配电台区智能融合终端运维调试系统
CN214799590U (zh) 一种通讯终端在线调试系统
CN111831561B (zh) 一种插件式测试案例库系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination