CN112948480A - 数据抽取方法、装置、电子设备及存储介质 - Google Patents
数据抽取方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112948480A CN112948480A CN202110430991.7A CN202110430991A CN112948480A CN 112948480 A CN112948480 A CN 112948480A CN 202110430991 A CN202110430991 A CN 202110430991A CN 112948480 A CN112948480 A CN 112948480A
- Authority
- CN
- China
- Prior art keywords
- data
- text
- initial
- script
- jmeter script
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013075 data extraction Methods 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000001914 filtration Methods 0.000 claims abstract description 66
- 238000004140 cleaning Methods 0.000 claims abstract description 56
- 238000000605 extraction Methods 0.000 claims abstract description 37
- 238000000586 desensitisation Methods 0.000 claims description 36
- 238000012795 verification Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 5
- 238000004806 packaging method and process Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 9
- 238000007726 management method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000011056 performance test Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Stored Programmes (AREA)
Abstract
本发明涉及人工智能技术领域,提供一种数据抽取方法、装置、电子设备及存储介质,所述方法包括:创建Jmeter脚本,生成初始jmeter脚本;使用初始Jmeter脚本读取EXCEL表格得到第一文本;在数据运营层中使用初始Jmeter脚本对第一文本进行清洗过滤得到第二文本;在数据仓库层使用初始Jmeter脚本对第二文本进行脱敏得到第三文本;在数据服务层中使用初始Jmeter脚本对第三文本进行数据抽取得到目标文本。本发明通过使用初始Jmeter脚本自动抽取目标文本,形成完整的数据流转闭环,提高了数据仓库抽取数据的抽取效率。此外,本申请还涉及区块链技术领域,待抽取数据存储于区块链节点中。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种数据抽取方法、装置、电子设备及存储介质。
背景技术
传统的数据仓库ETL技术对数据抽取、清洗,都需要编写对应的配置文件,而数据仓库需要抽取所有业务库的数据,每个业务库的库表结构又有差异,现有技术无法满足全覆盖测试所有库表结构进行数据抽取的要求,无法形成完整的数据流转闭环进行数据仓库的数据抽取,抽取数据的效率低下。
此外,针对库表结构的性能测试,现有的手工抽表很难满足性能测试对并发量的要求,通常一张表已经抽完,下一张表的配置还没完成,导致数据仓库抽取数据的抽取效率低下。
发明内容
鉴于以上内容,有必要提出一种数据抽取方法、装置、电子设备及存储介质,通过使用初始Jmeter脚本对待抽取数据进行自动抽取得到的目标文本,形成了完整的数据流转闭环,提高了数据仓库抽取数据的抽取效率。
本发明的第一方面提供一种数据抽取方法,所述方法包括:
创建Jmeter脚本,生成初始jmeter脚本;
根据预设的配置文件从多个数据源中获取待抽取数据,提取所述待抽取数据中的表结构;
将根据所述表结构生成的EXCEL表格存储至CSV文件库中,并使用所述初始Jmeter脚本在所述CSV文件库中读取所述EXCEL表格得到第一文本;
将所述第一文本装载到数据仓库的数据运营层,在所述数据运营层中使用所述初始Jmeter脚本对所述第一文本进行清洗过滤得到第二文本;
将所述第二文本抽取到所述数据仓库的数据仓库层,在所述数据仓库层使用所述初始Jmeter脚本对所述第二文本进行脱敏得到第三文本;
将所述第三文本抽取到数据服务层,在所述数据服务层中使用所述初始Jmeter脚本对所述第三文本进行数据抽取,得到目标文本。
可选地,所述使用所述初始Jmeter脚本在所述CSV文件库中读取所述EXCEL表格得到第一文本包括:
将所述EXCEL表格保存为CSV格式文件;
新增配置元件至所述初始Jmeter脚本中,并使用所述初始Jmeter脚本中新增的配置文件在所述CSV文件库中读取所述CSV格式文件的文件名;
根据所述CSV格式文件的文件名确定目标CSV文件;
使用所述初始Jmeter读取所述目标CSV文件对应的EXCEL表格中的参数得到第一文本。
可选地,所述创建Jmeter脚本,生成初始jmeter脚本包括:
根据客户端的抽取需求封装Jmeter脚本关键字;
设置数据清洗规则和数据过滤规则;
从所述封装的Jmeter脚本关键字中选取第一关键字,根据所述数据清洗规则对所述第一关键字进行参数配置,及从所述封装的Jmeter脚本关键字中选取第二关键字,根据所述数据过滤规则对所述第二关键字进行参数配置;
按照预设的校验规则对所述第一关键字和所述第二关键字分别进行校验,得到校验结果;
从所述校验结果中选取校验通过的第一关键字和第二关键字,对所述校验通过的第一关键字和第二关键字按照所述Jmeter脚本生成规范生成初始jmeter脚本。
可选地,所述将所述第一文本装载到数据仓库的数据运营层包括:
解析所述第一文本获取所述待抽取数据的业务类型;
根据所述业务类型确定接口报文形式;
根据所述接口报文形式配置所述业务类型的接口报文模板;
根据所述业务类型的接口报文模板和所述业务类型调用所述待抽取数据的接口;
通过所述待抽取数据的接口调用配置的table_config,使用所述table_config从所述第一文本中获取多个字段;
根据所述多个字段确定位于所述接口报文模板对应的位置坐标,及将所述多个字段写入所述接口报文模板,得到目标接口报文模板,并将所述目标接口报文模板装载到数据仓库的数据运营层。
可选地,所述在所述数据运营层中使用所述初始Jmeter脚本对所述第一文本进行清洗过滤得到第二文本包括:
读取所述初始Jmeter脚本中的数据清洗规则;
按照所述数据清洗规则对所述第一文本进行清洗得到清洗后的第一文本;
读取所述初始Jmeter脚本中的数据过滤规则;
按照所述数据过滤规则对所述清洗后的第一文本进行过滤得到第二文本。
可选地,所述在所述数据仓库层使用所述初始Jmeter脚本对所述第二文本进行脱敏得到第三文本包括:
启动所述初始Jmeter脚本,通过所述初始Jmeter脚本调用所述第二文本对应的脱敏配置文件;
根据所述脱敏配置文件中的敏感字段名获取所述第二文本中的含敏感字段名数据,及根据所述脱敏配置文件中的非敏感字段特征值去除所述含敏感字段名数据中的非敏感数据,得到所述第二文本中的待脱敏数据;
根据所述脱敏配置文件中的敏感关键字对所述待脱敏数据执行所述初始Jmeter脚本中的敏感信息判断操作;
响应于判断结果为包含敏感信息,对所述第二文本中的待脱敏数据进行脱敏处理得到第三文本。
可选地,所述方法还包括:
获取所述待抽取数据的更新指令;
解析所述更新指令获取待更新数据的表结构;
根据所述待更新数据的表结构确定位于所述CSV文件库对应的EXCEL表格中的位置坐标,并对所述位置坐标对应的表结构进行更新得到更新后的EXCEL表格;
使用所述初始Jmeter脚本在所述CSV文件库中读取所述更新后的EXCEL表格得到第一文本,其中,所述待抽取数据存储于区块链节点中。
本发明的第二方面提供一种数据抽取装置,所述装置包括:
生成模块,用于创建Jmeter脚本,生成初始jmeter脚本;
提取模块,用于根据预设的配置文件从多个数据源中获取待抽取数据,提取所述待抽取数据中的表结构;
读取模块,用于将根据所述表结构生成的EXCEL表格存储至CSV文件库中,并使用所述初始Jmeter脚本在所述CSV文件库中读取所述EXCEL表格得到第一文本;
过滤模块,用于将所述第一文本装载到数据仓库的数据运营层,在所述数据运营层中使用所述初始Jmeter脚本对所述第一文本进行清洗过滤得到第二文本;
脱敏模块,用于将所述第二文本抽取到所述数据仓库的数据仓库层,在所述数据仓库层使用所述初始Jmeter脚本对所述第二文本进行脱敏得到第三文本;
抽取模块,用于将所述第三文本抽取到数据服务层,在所述数据服务层中使用所述初始Jmeter脚本对所述第三文本进行数据抽取,得到目标文本。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的数据抽取方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的数据抽取方法。
综上所述,本发明所述的数据抽取方法、装置、电子设备及存储介质,一方面,通过使用所述初始Jmeter脚本从所述待抽取数据经过数据仓库的数据运营层、数据仓库层及数据应用层自动抽取得到的目标文本,完整地模拟了生产真实数据的整体流向,形成了完整的数据流转闭环,提高了数据仓库抽取数据的抽取效率;另一方面,通过在数据运营层中直接读取所述初始Jmeter脚本中的数据清洗规则进行数据清洗及所述数据过滤规则进行数据过滤,得到第二文本,避免每次进行数据清洗过滤时需要编写配置文件进行数据清洗过滤的现象,提高了第二文本的清洗过滤效率;最后,通过将所述第一文本装载到所述数据仓库的数据运营层,由于不同的业务类型对应不同的接口报文模板,所述目标接口报文模板中包含有接口对应的第一文本,通过将第一文本写入对应的接口报文模板中,统一了第一文本的数据格式,提高了待抽取数据的管理效率及完整性。
附图说明
图1是本发明实施例一提供的数据抽取方法的流程图。
图2是本发明实施例二提供的数据抽取装置的结构图。
图3是本发明实施例三提供的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例一
图1是本发明实施例一提供的数据抽取方法的流程图。
在本实施例中,所述数据抽取方法可以应用于电子设备中,对于需要进行数据抽取的电子设备,可以直接在电子设备上集成本发明的方法所提供的数据抽取的功能,或者以软件开发工具包(Software Development Kit,SDK)的形式运行在电子设备中。
如图1所示,所述数据抽取方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,创建Jmeter脚本,生成初始jmeter脚本。
本实施例中,为了模拟配置数据抽取文件,通过根据客户端的抽取需求创建Jmeter脚本,根据所述创建的Jmeter脚本生成初始的jmeter脚本。
可选地,所述创建Jmeter脚本,生成初始jmeter脚本包括:
根据客户端的抽取需求封装Jmeter脚本关键字;
设置数据清洗规则和数据过滤规则;
从所述封装的Jmeter脚本关键字中选取第一关键字,根据所述数据清洗规则对所述第一关键字进行参数配置,及从所述封装的Jmeter脚本关键字中选取第二关键字,根据所述数据过滤规则对所述第二关键字进行参数配置;
按照预设的校验规则对所述第一关键字和所述第二关键字分别进行校验,得到校验结果;
从所述校验结果中选取校验通过的第一关键字和第二关键字,对所述校验通过的第一关键字和第二关键字按照所述Jmeter脚本生成规范生成初始jmeter脚本。
本实施例中,通过在Jmeter脚本中设置数据清洗规则和数据过滤规则,具体地,从封装的Jmeter脚本关键字中进行选取第一关键字和第二关键字,其中,所述第一关键字是指与所述数据清洗规则对应的需要清洗的关键字,所述第二关键字是指与所述数据过滤规则对应的需要过滤的关键字。
本实施例中,所述校验规则可以预设设置,所述预设的校验规则用于校验所述第一关键字是否为数据清洗规则对应的关键字,校验所述第二关键字是否为所述数据过滤规则对应的关键字,根据所述校验结果按照所述Jmeter脚本生成规范生成初始jmeter脚本,确保了生成的初始jmeter脚本的准确率。
S12,根据预设的配置文件从多个数据源中获取待抽取数据,提取所述待抽取数据中的表结构。
本实施例中,可以预先设置配置文件,所述预设的配置文件包括:数据库、抽取方式、标识及抽取频率,其中,所述数据库包括:SQLserver、PG及Oracle等数据库,所述抽取方式包括:全量抽取方式和增量抽取方式,所述标识包括:主键标识、联合主键标识及外键标识等标识,所述抽取频率包括:实时抽取频率和非实时抽取频率。根据所述预设的配置文件从多个数据源中获取待抽取数据,提取所述待抽取数据中的表结构,其中,所述表结构包括所述待抽取数据中的所有表字段信息,例如:表名、表说明、列序号、数据库类型、标识等表字段信息。
具体地,所述根据预设的配置文件从多个数据源中获取待抽取数据包括:
识别每个数据源的业务类型;
根据所述每个数据源的业务类型确定每个数据源的预设的配置文件;
根据每个数据源的预设的配置文件从对应的数据源中获取待抽取数据。
本实施例中,每个数据源对应不同的业务类型,针对不同的业务类型预先设置不同的配置文件,在识别得到每个数据源的业务类型之后,根据每个数据源的业务类型确定每个数据源的预设的配置文件,根据每个数据源的预设的配置文件对对应的数据源进行数据获取,提高了获取的待抽取数据的准确率及灵活性。
需要强调的是,为进一步保证上述待抽取数据的私密和安全性,上述待抽取数据还可以存储于一区块链的节点中。
S13,将根据所述表结构生成的EXCEL表格存储至CSV文件库中,并使用所述初始Jmeter脚本在所述CSV文件库中读取所述EXCEL表格得到第一文本。
本实施例中,所述CSV文件库用于存放CSV文件,具体地,所述CSV(Comma-Separated Values:逗号分隔值),有时也称字符分隔值,所述CSV文件以纯文本形式存储表格数据。
可选地,所述使用所述初始Jmeter脚本在所述CSV文件库中读取所述EXCEL表格得到第一文本包括:
将所述EXCEL表格保存为CSV格式文件;
新增配置元件至所述初始Jmeter脚本中,并使用所述初始Jmeter脚本中新增的配置文件在所述CSV文件库中读取所述CSV格式文件的文件名;
根据所述CSV格式文件的文件名确定目标CSV文件;
使用所述初始Jmeter读取所述目标CSV文件对应的EXCEL表格中的参数得到第一文本。
本实施例中,所述新增配置元件可以为CSV Data Set Config,将所述新增配置元件CSV Data Set Config添加至所述初始Jmeter脚本中,读取所述目标CSV文件对应的EXCEL表格中的参数得到第一文本,使得所述第一文本满足抽取需求,由于所述第一文本为纯文本形式存储的表格数据,减少了数据运行时间,提高了待抽取数据的抽取效率。
S14,将所述第一文本装载到数据仓库的数据运营层,在所述数据运营层中使用所述初始Jmeter脚本对所述第一文本进行清洗过滤得到第二文本。
本实施例中,通过将所述第一文本装载到所述数据仓库的数据运营层,没有对所述第一文本进行抽取,提高了第一文本的完整性,在确保所述第一文本完整的情况下,在所述数据仓库的数据运营层中对所述第一文本数据进行过滤得到第二文本。
可选地,所述将所述第一文本装载到数据仓库的数据运营层包括:
解析所述第一文本获取所述待抽取数据的业务类型;
根据所述业务类型确定接口报文形式;
根据所述接口报文形式配置所述业务类型的接口报文模板;
根据所述业务类型的接口报文模板和所述业务类型调用所述待抽取数据的接口;
通过所述待抽取数据的接口调用配置的table_config,使用所述table_config从所述第一文本中获取多个字段;
根据所述多个字段确定位于所述接口报文模板对应的位置坐标,及将所述多个字段写入所述接口报文模板,得到目标接口报文模板,并将所述目标接口报文模板装载到数据仓库的数据运营层。
本实施例中,通过待抽取数据的业务类型及所述业务类型对应的接口报文模板调用所述待抽取数据的接口,通过所述接口调用配置的table_config,将所述第一文本写入所述接口报文模板后装载到所述数据仓库的数据运营层。
本实施例中,不同的业务类型对应不同的接口报文模板,所述目标接口报文模板中包含有接口对应的第一文本,将第一文本写入对应的接口报文模板中,统一了第一文本的数据格式,提高了待抽取数据的管理效率及完整性。
可选地,所述在所述数据运营层中使用所述初始Jmeter脚本对所述第一文本进行清洗过滤得到第二文本包括:
读取所述初始Jmeter脚本中的数据清洗规则;
按照所述数据清洗规则对所述第一文本进行清洗得到清洗后的第一文本;
读取所述初始Jmeter脚本中的数据过滤规则;
按照所述数据过滤规则对所述清洗后的第一文本进行过滤得到第二文本。
本实施例中,通过在数据运营层中直接读取所述初始Jmeter脚本中的数据清洗规则进行数据清洗及所述数据过滤规则进行数据过滤,得到第二文本,具体地,所述第二文本是通过直接读取所述初始Jmeter脚本中的脚本进行过滤得到的,避免每次进行数据清洗过滤时需要编写配置文件进行数据清洗过滤的现象,提高了第二文本的清洗过滤效率。
S15,将所述第二文本抽取到所述数据仓库的数据仓库层,在所述数据仓库层使用所述初始Jmeter脚本对所述第二文本进行脱敏得到第三文本。
本实施例中,在得到第二文本之后,将所述第二文本抽取到所述数据仓库的数据仓库层,在所述数据仓库层使用所述初始Jmeter脚本对所述第二文本进行脱敏得到第三文本。
可选地,所述在所述数据仓库层使用所述初始Jmeter脚本对所述第二文本进行脱敏得到第三文本包括:
启动所述初始Jmeter脚本,通过所述初始Jmeter脚本调用所述第二文本对应的脱敏配置文件;
根据所述脱敏配置文件中的敏感字段名获取所述第二文本中的含敏感字段名数据,及根据所述脱敏配置文件中的非敏感字段特征值去除所述含敏感字段名数据中的非敏感数据,得到所述第二文本中的待脱敏数据;
根据所述脱敏配置文件中的敏感关键字对所述待脱敏数据执行所述初始Jmeter脚本中的敏感信息判断操作;
响应于判断结果为包含敏感信息,对所述第二文本中的待脱敏数据进行脱敏处理得到第三文本。
本实施例中,所述脱敏配置文件中包括敏感字段名、非敏感字段特征值和敏感关键字,启动所述初始Jmeter脚本,通过所述初始Jmeter脚本调用所述第二文本对应的脱敏配置文件,对所述第二文本执行脱敏处理。
本实施例中,所述敏感信息判断操作用于判断所述待脱敏数据中是否包含有敏感信息,当判断存在敏感信息时,对所述待脱敏数据执行脱敏处理,提高了脱敏数据的脱敏处理效率,进而提高了数据抽取的效率。
S16,将所述第三文本抽取到数据服务层,在所述数据服务层中使用所述初始Jmeter脚本对所述第三文本进行数据抽取,得到目标文本。
本实施例中,所述目标文本是通过所述初始Jmeter脚本从所述待抽取数据经过数据仓库的数据运营层、数据仓库层及数据应用层自动抽取得到的,通过所述初始Jmeter脚本抽取数据完整地模拟了生产真实数据的整体流向,形成了完整的数据流转闭环,提高了数据仓库抽取数据的抽取效率。
进一步地,所述方法还包括:
获取所述待抽取数据的更新指令;
解析所述更新指令获取待更新数据的表结构;
根据所述待更新数据的表结构确定位于所述CSV文件库对应的EXCEL表格中的位置坐标,并对所述位置坐标对应的表结构进行更新得到更新后的EXCEL表格;
使用所述初始Jmeter脚本在所述CSV文件库中读取所述更新后的EXCEL表格得到第一文本。
本实施例中,当待抽取数据发生变化时,需要对已经抽取过的待抽取数据的数据结构进行更新,只需要在所述CSV文件库对应的EXCEL表格中确定出所述待更新数据的表结构的位置坐标,在所述位置坐标处更新所述待抽取数据的表结构,避免每次进行数据更新时需要重复获取之前已经抽取过的待抽取数据的现象,既可以满足了性能测试同步并发抽取数据,又可以满足每次版本迭代功能全面覆盖测试,提高了每次版本更新后的数据抽取效率。
综上所述,本发明所述的数据抽取方法,通过创建Jmeter脚本,生成初始jmeter脚本;根据预设的配置文件从多个数据源中获取待抽取数据,提取所述待抽取数据中的表结构;将根据所述表结构生成的EXCEL表格存储至CSV文件库中,并使用所述初始Jmeter脚本在所述CSV文件库中读取所述EXCEL表格得到第一文本;将所述第一文本装载到数据仓库的数据运营层,在所述数据运营层中使用所述初始Jmeter脚本对所述第一文本进行清洗过滤得到第二文本;将所述第二文本抽取到所述数据仓库的数据仓库层,在所述数据仓库层使用所述初始Jmeter脚本对所述第二文本进行脱敏得到第三文本;将所述第三文本抽取到数据服务层,在所述数据服务层中使用所述初始Jmeter脚本对所述第三文本进行数据抽取,得到目标文本。
本实施例,一方面,通过使用所述初始Jmeter脚本从所述待抽取数据经过数据仓库的数据运营层、数据仓库层及数据应用层自动抽取得到的目标文本,完整地模拟了生产真实数据的整体流向,形成了完整的数据流转闭环,提高了数据仓库抽取数据的抽取效率;另一方面,通过在数据运营层中直接读取所述初始Jmeter脚本中的数据清洗规则进行数据清洗及所述数据过滤规则进行数据过滤,得到第二文本,避免每次进行数据清洗过滤时需要编写配置文件进行数据清洗过滤的现象,提高了第二文本的清洗过滤效率;最后,通过将所述第一文本装载到所述数据仓库的数据运营层,由于不同的业务类型对应不同的接口报文模板,所述目标接口报文模板中包含有接口对应的第一文本,通过将第一文本写入对应的接口报文模板中,统一了第一文本的数据格式,提高了待抽取数据的管理效率及完整性。
实施例二
图2是本发明实施例二提供的数据抽取装置的结构图。
在一些实施例中,所述数据抽取装置20可以包括多个由程序代码段所组成的功能模块。所述数据抽取装置20中的各个程序段的程序代码可以存储于电子设备的存储器中,并由所述至少一个处理器所执行,以执行(详见图1描述)数据抽取的功能。
本实施例中,所述数据抽取装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:生成模块201、提取模块202、读取模块203、过滤模块204、脱敏模块205、抽取模块206及获取模块207。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
生成模块201,用于创建Jmeter脚本,生成初始jmeter脚本。
本实施例中,为了模拟配置数据抽取文件,通过根据客户端的抽取需求创建Jmeter脚本,根据所述创建的Jmeter脚本生成初始的jmeter脚本。
可选地,所述生成模块201创建Jmeter脚本,生成初始jmeter脚本包括:
根据客户端的抽取需求封装Jmeter脚本关键字;
设置数据清洗规则和数据过滤规则;
从所述封装的Jmeter脚本关键字中选取第一关键字,根据所述数据清洗规则对所述第一关键字进行参数配置,及从所述封装的Jmeter脚本关键字中选取第二关键字,根据所述数据过滤规则对所述第二关键字进行参数配置;
按照预设的校验规则对所述第一关键字和所述第二关键字分别进行校验,得到校验结果;
从所述校验结果中选取校验通过的第一关键字和第二关键字,对所述校验通过的第一关键字和第二关键字按照所述Jmeter脚本生成规范生成初始jmeter脚本。
本实施例中,通过在Jmeter脚本中设置数据清洗规则和数据过滤规则,具体地,从封装的Jmeter脚本关键字中进行选取第一关键字和第二关键字,其中,所述第一关键字是指与所述数据清洗规则对应的需要清洗的关键字,所述第二关键字是指与所述数据过滤规则对应的需要过滤的关键字。
本实施例中,所述校验规则可以预设设置,所述预设的校验规则用于校验所述第一关键字是否为数据清洗规则对应的关键字,校验所述第二关键字是否为所述数据过滤规则对应的关键字,根据所述校验结果按照所述Jmeter脚本生成规范生成初始jmeter脚本,确保了生成的初始jmeter脚本的准确率。
提取模块202,用于根据预设的配置文件从多个数据源中获取待抽取数据,提取所述待抽取数据中的表结构。
本实施例中,可以预先设置配置文件,所述预设的配置文件包括:数据库、抽取方式、标识及抽取频率,其中,所述数据库包括:SQLserver、PG及Oracle等数据库,所述抽取方式包括:全量抽取方式和增量抽取方式,所述标识包括:主键标识、联合主键标识及外键标识等标识,所述抽取频率包括:实时抽取频率和非实时抽取频率。根据所述预设的配置文件从多个数据源中获取待抽取数据,提取所述待抽取数据中的表结构,其中,所述表结构包括所述待抽取数据中的所有表字段信息,例如:表名、表说明、列序号、数据库类型、标识等表字段信息。
具体地,所述提取模块202根据预设的配置文件从多个数据源中获取待抽取数据包括:
识别每个数据源的业务类型;
根据所述每个数据源的业务类型确定每个数据源的预设的配置文件;
根据每个数据源的预设的配置文件从对应的数据源中获取待抽取数据。
本实施例中,每个数据源对应不同的业务类型,针对不同的业务类型预先设置不同的配置文件,在识别得到每个数据源的业务类型之后,根据每个数据源的业务类型确定每个数据源的预设的配置文件,根据每个数据源的预设的配置文件对对应的数据源进行数据获取,提高了获取的待抽取数据的准确率及灵活性。
需要强调的是,为进一步保证上述待抽取数据的私密和安全性,上述待抽取数据还可以存储于一区块链的节点中。
读取模块203,用于将根据所述表结构生成的EXCEL表格存储至CSV文件库中,并使用所述初始Jmeter脚本在所述CSV文件库中读取所述EXCEL表格得到第一文本。
本实施例中,所述CSV文件库用于存放CSV文件,具体地,所述CSV(Comma-Separated Values:逗号分隔值),有时也称字符分隔值,所述CSV文件以纯文本形式存储表格数据。
可选地,所述读取模块203使用所述初始Jmeter脚本在所述CSV文件库中读取所述EXCEL表格得到第一文本包括:
将所述EXCEL表格保存为CSV格式文件;
新增配置元件至所述初始Jmeter脚本中,并使用所述初始Jmeter脚本中新增的配置文件在所述CSV文件库中读取所述CSV格式文件的文件名;
根据所述CSV格式文件的文件名确定目标CSV文件;
使用所述初始Jmeter读取所述目标CSV文件对应的EXCEL表格中的参数得到第一文本。
本实施例中,所述新增配置元件可以为CSV Data Set Config,将所述新增配置元件CSV Data Set Config添加至所述初始Jmeter脚本中,读取所述目标CSV文件对应的EXCEL表格中的参数得到第一文本,使得所述第一文本满足抽取需求,由于所述第一文本为纯文本形式存储的表格数据,减少了数据运行时间,提高了待抽取数据的抽取效率。
过滤模块204,用于将所述第一文本装载到数据仓库的数据运营层,在所述数据运营层中使用所述初始Jmeter脚本对所述第一文本进行清洗过滤得到第二文本。
本实施例中,通过将所述第一文本装载到所述数据仓库的数据运营层,没有对所述第一文本进行抽取,提高了第一文本的完整性,在确保所述第一文本完整的情况下,在所述数据仓库的数据运营层中对所述第一文本数据进行过滤得到第二文本。
可选地,所述过滤模块204将所述第一文本装载到数据仓库的数据运营层包括:
解析所述第一文本获取所述待抽取数据的业务类型;
根据所述业务类型确定接口报文形式;
根据所述接口报文形式配置所述业务类型的接口报文模板;
根据所述业务类型的接口报文模板和所述业务类型调用所述待抽取数据的接口;
通过所述待抽取数据的接口调用配置的table_config,使用所述table_config从所述第一文本中获取多个字段;
根据所述多个字段确定位于所述接口报文模板对应的位置坐标,及将所述多个字段写入所述接口报文模板,得到目标接口报文模板,并将所述目标接口报文模板装载到数据仓库的数据运营层。
本实施例中,通过待抽取数据的业务类型及所述业务类型对应的接口报文模板调用所述待抽取数据的接口,通过所述接口调用配置的table_config,将所述第一文本写入所述接口报文模板后装载到所述数据仓库的数据运营层。
本实施例中,不同的业务类型对应不同的接口报文模板,所述目标接口报文模板中包含有接口对应的第一文本,将第一文本写入对应的接口报文模板中,统一了第一文本的数据格式,提高了待抽取数据的管理效率及完整性。
可选地,所述过滤模块204在所述数据运营层中使用所述初始Jmeter脚本对所述第一文本进行清洗过滤得到第二文本包括:
读取所述初始Jmeter脚本中的数据清洗规则;
按照所述数据清洗规则对所述第一文本进行清洗得到清洗后的第一文本;
读取所述初始Jmeter脚本中的数据过滤规则;
按照所述数据过滤规则对所述清洗后的第一文本进行过滤得到第二文本。
本实施例中,通过在数据运营层中直接读取所述初始Jmeter脚本中的数据清洗规则进行数据清洗及所述数据过滤规则进行数据过滤,得到第二文本,具体地,所述第二文本是通过直接读取所述初始Jmeter脚本中的脚本进行过滤得到的,避免每次进行数据清洗过滤时需要编写配置文件进行数据清洗过滤的现象,提高了第二文本的清洗过滤效率。
脱敏模块205,用于将所述第二文本抽取到所述数据仓库的数据仓库层,在所述数据仓库层使用所述初始Jmeter脚本对所述第二文本进行脱敏得到第三文本。
本实施例中,在得到第二文本之后,将所述第二文本抽取到所述数据仓库的数据仓库层,在所述数据仓库层使用所述初始Jmeter脚本对所述第二文本进行脱敏得到第三文本。
可选地,所述脱敏模块205在所述数据仓库层使用所述初始Jmeter脚本对所述第二文本进行脱敏得到第三文本包括:
启动所述初始Jmeter脚本,通过所述初始Jmeter脚本调用所述第二文本对应的脱敏配置文件;
根据所述脱敏配置文件中的敏感字段名获取所述第二文本中的含敏感字段名数据,及根据所述脱敏配置文件中的非敏感字段特征值去除所述含敏感字段名数据中的非敏感数据,得到所述第二文本中的待脱敏数据;
根据所述脱敏配置文件中的敏感关键字对所述待脱敏数据执行所述初始Jmeter脚本中的敏感信息判断操作;
响应于判断结果为包含敏感信息,对所述第二文本中的待脱敏数据进行脱敏处理得到第三文本。
本实施例中,所述脱敏配置文件中包括敏感字段名、非敏感字段特征值和敏感关键字,启动所述初始Jmeter脚本,通过所述初始Jmeter脚本调用所述第二文本对应的脱敏配置文件,对所述第二文本执行脱敏处理。
本实施例中,所述敏感信息判断操作用于判断所述待脱敏数据中是否包含有敏感信息,当判断存在敏感信息时,对所述待脱敏数据执行脱敏处理,提高了脱敏数据的脱敏处理效率,进而提高了数据抽取的效率。
抽取模块206,用于将所述第三文本抽取到数据服务层,在所述数据服务层中使用所述初始Jmeter脚本对所述第三文本进行数据抽取,得到目标文本。
本实施例中,所述目标文本是通过所述初始Jmeter脚本从所述待抽取数据经过数据仓库的数据运营层、数据仓库层及数据服务层自动抽取得到的,通过所述初始Jmeter脚本抽取数据完整地模拟了生产真实数据的整体流向,形成了完整的数据流转闭环,提高了数据仓库抽取数据的抽取效率。
进一步地,获取模块207,用于获取所述待抽取数据的更新指令;解析所述更新指令获取待更新数据的表结构;根据所述待更新数据的表结构确定位于所述CSV文件库对应的EXCEL表格中的位置坐标,并对所述位置坐标对应的表结构进行更新得到更新后的EXCEL表格;使用所述初始Jmeter脚本在所述CSV文件库中读取所述更新后的EXCEL表格得到第一文本。
本实施例中,当待抽取数据发生变化时,需要对已经抽取过的待抽取数据的数据结构进行更新,只需要在所述CSV文件库对应的EXCEL表格中确定出所述待更新数据的表结构的位置坐标,在所述位置坐标处更新所述待抽取数据的表结构,避免每次进行数据更新时需要重复获取之前已经抽取过的待抽取数据的现象,既可以满足了性能测试同步并发抽取数据,又可以满足每次版本迭代功能全面覆盖测试,提高了每次版本更新后的数据抽取效率。
综上所述,本发明所述的数据抽取装置,通过创建Jmeter脚本,生成初始jmeter脚本;根据预设的配置文件从多个数据源中获取待抽取数据,提取所述待抽取数据中的表结构;将根据所述表结构生成的EXCEL表格存储至CSV文件库中,并使用所述初始Jmeter脚本在所述CSV文件库中读取所述EXCEL表格得到第一文本;将所述第一文本装载到数据仓库的数据运营层,在所述数据运营层中使用所述初始Jmeter脚本对所述第一文本进行清洗过滤得到第二文本;将所述第二文本抽取到所述数据仓库的数据仓库层,在所述数据仓库层使用所述初始Jmeter脚本对所述第二文本进行脱敏得到第三文本;将所述第三文本抽取到数据服务层,在所述数据服务层中使用所述初始Jmeter脚本对所述第三文本进行数据抽取,得到目标文本。
本实施例,一方面,通过使用所述初始Jmeter脚本从所述待抽取数据经过数据仓库的数据运营层、数据仓库层及数据应用层自动抽取得到的目标文本,完整地模拟了生产真实数据的整体流向,形成了完整的数据流转闭环,提高了数据仓库抽取数据的抽取效率;另一方面,通过在数据运营层中直接读取所述初始Jmeter脚本中的数据清洗规则进行数据清洗及所述数据过滤规则进行数据过滤,得到第二文本,避免每次进行数据清洗过滤时需要编写配置文件进行数据清洗过滤的现象,提高了第二文本的清洗过滤效率;最后,通过将所述第一文本装载到所述数据仓库的数据运营层,由于不同的业务类型对应不同的接口报文模板,所述目标接口报文模板中包含有接口对应的第一文本,通过将第一文本写入对应的接口报文模板中,统一了第一文本的数据格式,提高了待抽取数据的管理效率及完整性。
实施例三
参阅图3所示,为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的电子设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31用于存储程序代码和各种数据,例如安装在所述电子设备3中的数据抽取装置20,并在电子设备3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
在一些实施例中,所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述电子设备3的控制核心(Control Unit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),可选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在进一步的实施例中,结合图2,所述至少一个处理器32可执行所述电子设备3的操作装置以及安装的各类应用程序(如所述的数据抽取装置20)、程序代码等,例如,上述的各个模块。
所述存储器31中存储有程序代码,且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如,图2中所述的各个模块是存储在所述存储器31中的程序代码,并由所述至少一个处理器32所执行,从而实现所述各个模块的功能以达到数据抽取的目的。
在本发明的一个实施例中,所述存储器31存储多个指令,所述多个指令被所述至少一个处理器32所执行以实现数据抽取的功能。
具体地,所述至少一个处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
进一步地,所述计算机可读存储介质可以是非易失性,也可以是易失性。
进一步地,所述计算机可读存储介质主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本发明中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种数据抽取方法,其特征在于,所述方法包括:
创建Jmeter脚本,生成初始jmeter脚本;
根据预设的配置文件从多个数据源中获取待抽取数据,提取所述待抽取数据中的表结构;
将根据所述表结构生成的EXCEL表格存储至CSV文件库中,并使用所述初始Jmeter脚本在所述CSV文件库中读取所述EXCEL表格得到第一文本;
将所述第一文本装载到数据仓库的数据运营层,在所述数据运营层中使用所述初始Jmeter脚本对所述第一文本进行清洗过滤得到第二文本;
将所述第二文本抽取到所述数据仓库的数据仓库层,在所述数据仓库层使用所述初始Jmeter脚本对所述第二文本进行脱敏得到第三文本;
将所述第三文本抽取到数据服务层,在所述数据服务层中使用所述初始Jmeter脚本对所述第三文本进行数据抽取,得到目标文本。
2.如权利要求1所述的数据抽取方法,其特征在于,所述使用所述初始Jmeter脚本在所述CSV文件库中读取所述EXCEL表格得到第一文本包括:
将所述EXCEL表格保存为CSV格式文件;
新增配置元件至所述初始Jmeter脚本中,并使用所述初始Jmeter脚本中新增的配置文件在所述CSV文件库中读取所述CSV格式文件的文件名;
根据所述CSV格式文件的文件名确定目标CSV文件;
使用所述初始Jmeter读取所述目标CSV文件对应的EXCEL表格中的参数得到第一文本。
3.如权利要求1所述的数据抽取方法,其特征在于,所述创建Jmeter脚本,生成初始jmeter脚本包括:
根据客户端的抽取需求封装Jmeter脚本关键字;
设置数据清洗规则和数据过滤规则;
从所述封装的Jmeter脚本关键字中选取第一关键字,根据所述数据清洗规则对所述第一关键字进行参数配置,及从所述封装的Jmeter脚本关键字中选取第二关键字,根据所述数据过滤规则对所述第二关键字进行参数配置;
按照预设的校验规则对所述第一关键字和所述第二关键字分别进行校验,得到校验结果;
从所述校验结果中选取校验通过的第一关键字和第二关键字,对所述校验通过的第一关键字和第二关键字按照所述Jmeter脚本生成规范生成初始jmeter脚本。
4.如权利要求1所述的数据抽取方法,其特征在于,所述将所述第一文本装载到数据仓库的数据运营层包括:
解析所述第一文本获取所述待抽取数据的业务类型;
根据所述业务类型确定接口报文形式;
根据所述接口报文形式配置所述业务类型的接口报文模板;
根据所述业务类型的接口报文模板和所述业务类型调用所述待抽取数据的接口;
通过所述待抽取数据的接口调用配置的table_config,使用所述table_config从所述第一文本中获取多个字段;
根据所述多个字段确定位于所述接口报文模板对应的位置坐标,及将所述多个字段写入所述接口报文模板,得到目标接口报文模板,并将所述目标接口报文模板装载到数据仓库的数据运营层。
5.如权利要求1所述的数据抽取方法,其特征在于,所述在所述数据运营层中使用所述初始Jmeter脚本对所述第一文本进行清洗过滤得到第二文本包括:
读取所述初始Jmeter脚本中的数据清洗规则;
按照所述数据清洗规则对所述第一文本进行清洗得到清洗后的第一文本;
读取所述初始Jmeter脚本中的数据过滤规则;
按照所述数据过滤规则对所述清洗后的第一文本进行过滤得到第二文本。
6.如权利要求1所述的数据抽取方法,其特征在于,所述在所述数据仓库层使用所述初始Jmeter脚本对所述第二文本进行脱敏得到第三文本包括:
启动所述初始Jmeter脚本,通过所述初始Jmeter脚本调用所述第二文本对应的脱敏配置文件;
根据所述脱敏配置文件中的敏感字段名获取所述第二文本中的含敏感字段名数据,及根据所述脱敏配置文件中的非敏感字段特征值去除所述含敏感字段名数据中的非敏感数据,得到所述第二文本中的待脱敏数据;
根据所述脱敏配置文件中的敏感关键字对所述待脱敏数据执行所述初始Jmeter脚本中的敏感信息判断操作;
响应于判断结果为包含敏感信息,对所述第二文本中的待脱敏数据进行脱敏处理得到第三文本。
7.如权利要求1至6中任意一项所述的数据抽取方法,其特征在于,所述方法还包括:
获取所述待抽取数据的更新指令;
解析所述更新指令获取待更新数据的表结构;
根据所述待更新数据的表结构确定位于所述CSV文件库对应的EXCEL表格中的位置坐标,并对所述位置坐标对应的表结构进行更新得到更新后的EXCEL表格;
使用所述初始Jmeter脚本在所述CSV文件库中读取所述更新后的EXCEL表格得到第一文本,其中,所述待抽取数据存储于区块链节点中。
8.一种数据抽取装置,其特征在于,所述装置包括:
生成模块,用于创建Jmeter脚本,生成初始jmeter脚本;
提取模块,用于根据预设的配置文件从多个数据源中获取待抽取数据,提取所述待抽取数据中的表结构;
读取模块,用于将根据所述表结构生成的EXCEL表格存储至CSV文件库中,并使用所述初始Jmeter脚本在所述CSV文件库中读取所述EXCEL表格得到第一文本;
过滤模块,用于将所述第一文本装载到数据仓库的数据运营层,在所述数据运营层中使用所述初始Jmeter脚本对所述第一文本进行清洗过滤得到第二文本;
脱敏模块,用于将所述第二文本抽取到所述数据仓库的数据仓库层,在所述数据仓库层使用所述初始Jmeter脚本对所述第二文本进行脱敏得到第三文本;
抽取模块,用于将所述第三文本抽取到数据服务层,在所述数据服务层中使用所述初始Jmeter脚本对所述第三文本进行数据抽取,得到目标文本。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的数据抽取方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的数据抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110430991.7A CN112948480B (zh) | 2021-04-21 | 2021-04-21 | 数据抽取方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110430991.7A CN112948480B (zh) | 2021-04-21 | 2021-04-21 | 数据抽取方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112948480A true CN112948480A (zh) | 2021-06-11 |
CN112948480B CN112948480B (zh) | 2023-11-14 |
Family
ID=76233131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110430991.7A Active CN112948480B (zh) | 2021-04-21 | 2021-04-21 | 数据抽取方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112948480B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110283261A1 (en) * | 2010-05-12 | 2011-11-17 | Computer Associates Think, Inc. | Method of testing multiple language versions of a software system using one test script |
CN109508355A (zh) * | 2018-10-19 | 2019-03-22 | 平安科技(深圳)有限公司 | 一种数据抽取方法、系统及终端设备 |
CN109597761A (zh) * | 2018-12-03 | 2019-04-09 | 四川长虹电器股份有限公司 | 一种基于Jmeter的接口自动化测试方法 |
CN109783457A (zh) * | 2018-12-17 | 2019-05-21 | 中国平安财产保险股份有限公司 | Cgi接口管理方法、装置、计算机设备和存储介质 |
CN110019545A (zh) * | 2017-10-19 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 工业数据的处理及分析方法、工业数据的处理装置及数据仓库 |
CN110096620A (zh) * | 2016-06-06 | 2019-08-06 | 福建榕基软件股份有限公司 | 数据库表和xml报文的映射方法及其系统 |
CN111124370A (zh) * | 2019-12-24 | 2020-05-08 | 深圳我家云网络科技有限公司 | 一种数据处理方法及相关设备 |
CN111209218A (zh) * | 2020-04-01 | 2020-05-29 | 中电万维信息技术有限责任公司 | 一种基于Jmeter的性能自动化测试方法 |
CN111427793A (zh) * | 2020-04-01 | 2020-07-17 | 中电万维信息技术有限责任公司 | 一种Jmeter脚本自动生成方法 |
CN111752846A (zh) * | 2020-06-30 | 2020-10-09 | 深圳前海微众银行股份有限公司 | 一种接口测试方法及装置 |
CN112000986A (zh) * | 2020-08-27 | 2020-11-27 | 中国平安财产保险股份有限公司 | 数据脱敏方法、装置、设备及存储介质 |
CN112055016A (zh) * | 2020-09-02 | 2020-12-08 | 中国建设银行股份有限公司 | 一种报文生成方法、装置、电子设备和存储介质 |
CN112306549A (zh) * | 2020-10-30 | 2021-02-02 | 康键信息技术(深圳)有限公司 | 接口文档配置方法、装置、设备及存储介质 |
-
2021
- 2021-04-21 CN CN202110430991.7A patent/CN112948480B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110283261A1 (en) * | 2010-05-12 | 2011-11-17 | Computer Associates Think, Inc. | Method of testing multiple language versions of a software system using one test script |
CN110096620A (zh) * | 2016-06-06 | 2019-08-06 | 福建榕基软件股份有限公司 | 数据库表和xml报文的映射方法及其系统 |
CN110019545A (zh) * | 2017-10-19 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 工业数据的处理及分析方法、工业数据的处理装置及数据仓库 |
CN109508355A (zh) * | 2018-10-19 | 2019-03-22 | 平安科技(深圳)有限公司 | 一种数据抽取方法、系统及终端设备 |
CN109597761A (zh) * | 2018-12-03 | 2019-04-09 | 四川长虹电器股份有限公司 | 一种基于Jmeter的接口自动化测试方法 |
CN109783457A (zh) * | 2018-12-17 | 2019-05-21 | 中国平安财产保险股份有限公司 | Cgi接口管理方法、装置、计算机设备和存储介质 |
CN111124370A (zh) * | 2019-12-24 | 2020-05-08 | 深圳我家云网络科技有限公司 | 一种数据处理方法及相关设备 |
CN111209218A (zh) * | 2020-04-01 | 2020-05-29 | 中电万维信息技术有限责任公司 | 一种基于Jmeter的性能自动化测试方法 |
CN111427793A (zh) * | 2020-04-01 | 2020-07-17 | 中电万维信息技术有限责任公司 | 一种Jmeter脚本自动生成方法 |
CN111752846A (zh) * | 2020-06-30 | 2020-10-09 | 深圳前海微众银行股份有限公司 | 一种接口测试方法及装置 |
CN112000986A (zh) * | 2020-08-27 | 2020-11-27 | 中国平安财产保险股份有限公司 | 数据脱敏方法、装置、设备及存储介质 |
CN112055016A (zh) * | 2020-09-02 | 2020-12-08 | 中国建设银行股份有限公司 | 一种报文生成方法、装置、电子设备和存储介质 |
CN112306549A (zh) * | 2020-10-30 | 2021-02-02 | 康键信息技术(深圳)有限公司 | 接口文档配置方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112948480B (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9213707B2 (en) | Ordered access of interrelated data files | |
CN111859830A (zh) | 一种验证计划及报告的生成方法、装置、设备及存储介质 | |
CN114881616A (zh) | 业务流程执行方法、装置、电子设备及存储介质 | |
CN101753619B (zh) | 用于扩展服务模型的方法和系统 | |
CN111931471A (zh) | 表单收集方法、装置、电子设备及存储介质 | |
CN113434542A (zh) | 数据关系识别方法、装置、电子设备及存储介质 | |
CN105573763A (zh) | 一种支持rtos的嵌入式系统建模方法 | |
US9396239B2 (en) | Compiling method, storage medium and compiling apparatus | |
CN113741931B (zh) | 软件升级方法、装置、电子设备及可读存储介质 | |
CN112948480B (zh) | 数据抽取方法、装置、电子设备及存储介质 | |
CN113434397B (zh) | 任务系统的测试方法、装置、电子设备及存储介质 | |
CN114896164A (zh) | 接口优化方法、装置、电子设备及存储介质 | |
CN114510400A (zh) | 任务执行方法、装置、电子设备及存储介质 | |
CN114936111A (zh) | 前端变量异常检测及修复方法、装置、设备及存储介质 | |
CN114625376A (zh) | 数据传递方式转化方法、装置、电子设备及可读存储介质 | |
CN114461531A (zh) | 测试用例的平台适应性测试方法、装置、设备及存储介质 | |
CN115220740A (zh) | 数据库环境部署方法、装置、电子设备及存储介质 | |
CN114385155A (zh) | vue项目可视化工具生成方法、装置、设备及存储介质 | |
CN105204383B (zh) | 应用伺服系统的生成方法和装置 | |
CN114398282A (zh) | 测试脚本的生成方法、装置、设备及存储介质 | |
CN113918296A (zh) | 模型训练任务调度执行方法、装置、电子设备及存储介质 | |
CN113469649A (zh) | 项目进度分析方法、装置、电子设备及存储介质 | |
CN112685384A (zh) | 数据迁移方法、装置、电子设备及存储介质 | |
CN112422331A (zh) | 运维操作节点监控方法及相关设备 | |
CN113434359B (zh) | 数据溯源系统构建方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |