CN115834605B - 数据采集方法、装置、设备及存储介质 - Google Patents

数据采集方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115834605B
CN115834605B CN202310138078.9A CN202310138078A CN115834605B CN 115834605 B CN115834605 B CN 115834605B CN 202310138078 A CN202310138078 A CN 202310138078A CN 115834605 B CN115834605 B CN 115834605B
Authority
CN
China
Prior art keywords
data
data acquisition
file
information
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310138078.9A
Other languages
English (en)
Other versions
CN115834605A (zh
Inventor
唐朝高
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tabixing Information Technology Shenzhen Co ltd
Original Assignee
Tabixing Information Technology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tabixing Information Technology Shenzhen Co ltd filed Critical Tabixing Information Technology Shenzhen Co ltd
Priority to CN202310138078.9A priority Critical patent/CN115834605B/zh
Publication of CN115834605A publication Critical patent/CN115834605A/zh
Application granted granted Critical
Publication of CN115834605B publication Critical patent/CN115834605B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及人工智能技术,揭露了一种数据采集方法,包括:提取预设的数据采集中心内配置服务的配置信息和调度服务的调度信息;利用预设的云客户端从预设的云数据库中获取数据的存储信息;利用调度接口按照所述配置信息对所述存储信息对应的数据进行数据采集,并将采集到的数据生成数据文件;将所述数据文件上传到预设的数据采集中心服务器;将所述数据采集中心服务器中的所述数据文件归集到数据采集中心。本发明还提出一种数据采集装置、电子设备以及存储介质。本发明可以提高数据采集的精确度。

Description

数据采集方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种数据采集方法、装置、电子设备及计算机可读存储介质。
背景技术
数据采集是大数据产业的基石,随着人类社会进入了大数据时代,数据已经成为必不可少的部分,可见数据的采集非常重要。但为了保证数据分析和数据处理的稳定性,需要将不同私有化部署系统的数据采集到一起,以实现数据同步。
现有的数据采集技术是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口,例如摄像头、麦克风都是数据采集工具。但是在实际应用中,数据采集会有不同私有化部署存在定制化的需求,现有数据采集技术不能解决各个私有云定制化需求的问题,从而使数据分析和数据处理的稳定性较低。
发明内容
本发明提供一种数据采集方法、装置及计算机可读存储介质,其主要目的在于解决进行私有化部署定制化需求的问题。
为实现上述目的,本发明提供的一种数据采集方法,包括:
提取预设的数据采集中心内配置服务的配置信息,以及提取所述数据采集中心内调度服务的调度信息;
利用预设的云客户端从预设的云数据库中获取数据的存储信息;
根据所述调度信息调用所述数据采集中心的调度接口,利用所述调度接口按照所述配置信息对所述云数据库内与所述存储信息对应的数据进行数据采集,并根据采集到的数据生成数据文件;
将所述数据文件进行压缩后上传到预设的文件服务器,并将所述文件服务器中的所述数据文件上传到预设的数据采集中心服务器;
将所述数据采集中心服务器中的所述数据文件归集到数据采集中心。
可选地,所述提取预设的数据采集中心内配置服务的配置信息,包括:
获取数据采集中心内的配置服务;
利用所述配置服务在数据采集中心中添加与所述配置服务相对应的标识信息;
根据所述标识信息从数据采集中心中提取配置信息。
可选地,所述利用预设的云客户端从预设的云数据库中获取数据的存储信息,包括:
获取所述云客户端发送的数据存储信息的获取请求;
根据所述获取请求从所述云数据库中获取数据的存储信息。
可选地,所述利用所述调度接口按照所述配置信息对所述云数据库内与所述存储信息对应的数据进行数据采集,包括:
提取所述数据采集中心内所述调度接口的接口参数;
利用所述调度接口的接口参数调度所述配置信息;
根据所述配置信息对所述存储信息对应的数据进行数据采集。
可选地,所述根据采集到的数据生成数据文件,包括:
获取采集到的数据对应的云数据库表名及所述云数据库表名对应的字段名;
根据所述字段名动态设置数据文件的显示输出长度;
根据所述显示输出长度、所述云数据库表名以及所述云数据库表名对应的字段名生成数据文件。
可选地,所述将所述数据采集中心服务器中的所述数据文件归集到数据采集中心,包括:
对所述数据文件进行数据转换,得到转换文件;
对所述转换文件的表头进行字段映射,得到映射字段;
根据所述映射字段,得到不同云客户端中的映射数据文件;
将所述映射数据文件归集到数据采集中心。
可选地,所述对所述转换文件的表头进行字段映射,得到映射字段,包括:
获取所述表头的待映射字段集及所述配置服务中的目标字段集;
计算所述目标字段集中每个待映射字段与所述目标字段集中各目标字段之间的相似度;
选取所述目标字段集中相似度最高的待映射字段作为映射字段。
为了解决上述问题,本发明还提供一种数据采集装置,所述装置包括:
信息提取模块,用于提取预设的数据采集中心内配置服务的配置信息,以及提取所述数据采集中心内调度服务的调度信息;
数据获取模块,用于利用预设的云客户端从预设的云数据库中获取数据的存储信息;
数据采集模块,用于根据所述调度信息调用所述数据采集中心的调度接口,利用所述调度接口按照所述配置信息对所述云数据库内与所述存储信息对应的数据进行数据采集,并根据采集到的数据生成数据文件;
数据文件上传模块,用于将所述数据文件进行压缩后上传到预设的文件服务器,并将所述文件服务器中的所述数据文件上传到预设的数据采集中心服务器;
数据文件归集模块,用于将所述数据采集中心服务器中的所述数据文件归集到数据采集中心。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的数据采集方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的数据采集方法。
本发明实施例能够通过扩展数据采集中心的数据同步框架,并增加配置、增加调度、增加数据同步端,采用的是一套通用的数据采集程序,支持增量和批量两种模式,并且触发数据采集同步的入口放在数据采集中心,由数据采集中心统一调度,以实现很好的控制同步频率和监控同步结果,提高数据分析和数据处理的稳定性。因此本发明提出的数据采集方法,可以解决数据同步失败问题,解决私有云的定制化需求的问题。
附图说明
图1为本发明一实施例提供的实现数据采集方法的系统架构图;
图2为本发明一实施例提供的数据采集方法的流程示意图;
图3为本发明一实施例提供的获取配置服务的配置信息的流程示意图;
图4为本发明一实施例提供的数据采集装置的功能模块图;
图5为本发明一实施例提供的实现所述数据采集方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种数据采集方法。所述数据采集方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述数据采集方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
如图1所示,是本发明一实施例提供的数据采集方法的系统架构图。
本发明所述数据采集方法的系统架构包括数据采集中心1000、云客户端2000、云数据库3000、文件服务器4000、及数据采集中心服务器5000。
本发明实施例中,所述云客户端2000是以云端方式向用户提供特定服务的客户端,以及所述云数据库3000是用于存储数据的云端数据库,该云数据库3000也可对所述云客户端产生的数据进行存储。
例如,由于某游戏服务的数据量较大,因此,为了避免用户本地运行效率较低,可以云客户端的云端方式向用户提供该游戏服务,但同时,为了减少云客户端中计算资源的占用,提升该游戏服务的运行效率,可将与该游戏服务相关的大量数据存储至所述云客户端相对应的云数据库内。
详细地,可利用所述云客户端2000从所述云数据库3000内获取预先存储数据对应的存储信息。
具体地,可提取所述数据采集中心1000内配置服务的配置信息,以及提取所述数据采集中心1000内调度服务的调度信息;其中,所述配置服务是指预先配置的用于对数据进行采集的服务事项或线程;以及所述配置信息是所述配置服务内预先配置完成的从私有云客户端同步的表信息,以及每张表增量数据判断日期字段。例如:每张表都有一个编辑时间字段,根据这个编辑时间字段判断是否有数据更新,若某张表最后的更新时间是昨天,如果今天没有更新信息,就不用同步数据,如果今天有更新信息即编辑时间增加,就把新增加的数据同步到表中,方便后续对从数据采集中心的调度以及所述调度信息是对数据采集中心调度时读取对应的数据;所述调度服务是指用于为数据采集中心调度数据提供调度入口的服务,以及所述调度信息是对数据采集中心调度时读取对应的数据。
本发明实施例中,所述云客户端2000可根据所述调度信息调用所述数据采集中心1000的调度接口,并利用所述调度接口按照所述配置信息对所述云数据库3000内与所述存储信息对应的数据进行数据采集,云客户端2000根据采集到的数据生成数据文件。
进一步地,所述云客户端2000将所述数据文件进行压缩后上传到预设的文件服务器4000,所述文件服务器4000将所述数据文件上传至预设的数据采集中心服务器5000。
详细地,所述文件服务器4000相当于中间服务器,与所述数据采集中心服务器5000在同一个网关中,所述云客户端2000从对应的云数据库3000中获取数据,并压缩后上传到所述文件服务器4000中,再经过文件服务器4000把所述数据文件上传到数据采集中心服务器5000,目的是阻断不同云客户端2000中的数据直接上传到数据采集中心服务器5000将所述数据采集中心服务器中的所述数据文件归集到数据采集中,防止数据混乱,以致于可以很好的控制同步频率和监控同步结果。
进而,所述数据采集中心服务器5000将所述数据文件归集到数据采集中心1000内,实现数据的采集。
参照图2所示,为本发明一实施例提供的数据采集方法的流程示意图。在本实施例中,所述数据采集方法包括:
S1、提取预设的数据采集中心内配置服务的配置信息,以及提取所述数据采集中心内调度服务的调度信息。
本发明实施例中,所述配置服务是指预先配置的用于对数据进行采集的服务事项或线程;以及所述配置信息是所述配置服务内预先配置完成的从私有云客户端同步的表信息,以及每张表增量数据判断日期字段。例如:每张表都有一个编辑时间字段,根据这个编辑时间字段判断是否有数据更新,若某张表最后的更新时间是昨天,如果今天没有更新信息,就不用同步数据,如果今天有更新信息即编辑时间增加,就把新增加的数据同步到表中,方便后续对从数据采集中心的调度以及所述调度信息是对数据采集中心调度时读取对应的数据。
本发明实施例中,参图3所示,所述提取预设的数据采集中心内配置服务的配置信息,包括:
S21、获取数据采集中心内的配置服务;
S22、利用所述配置服务在数据采集中心中添加与所述配置服务相对应的标识信息;
S23、根据所述标识信息从数据采集中心中提取配置信息。
详细地,可利用预设的apollo配置中心服务获取所述数据采集中心内的配置服务。本发明其中一个实际应用场景中,对于配置信息会先把基础表初始化到数据库中,同样地在数据库中有一张配置信息表,表中会记录配置信息需要同步到哪个数据库,以及数据库中的哪张表,同时用操作字段进行标记需要同步更新的信息。在进行调度时,会根据配置信息触发云客户端,云客户端会根据这个配置信息进行数据收集。
本发明实施例中,所述调度服务是指用于为数据采集中心调度数据提供调度入口的服务,以及所述调度信息是对数据采集中心调度时读取对应的数据。
本发明实施例中,所述提取预设的数据采集中心内调度服务的调度信息的步骤,与所述提取预设的数据采集中心内配置服务的配置信息的步骤一致,在此不做赘述。
S2、利用预设的云客户端从预设的云数据库中获取数据的存储信息。
本发明实施例中,所述云客户端是以云端方式向用户提供特定服务的客户端,以及所述云数据库是用于存储数据的云端数据库,该云数据库也可对所述云客户端产生的数据进行存储。
例如,由于某游戏服务的数据量较大,因此,为了避免用户本地运行效率较低,可以云客户端的云端方式向用户提供该游戏服务,但同时,为了减少云客户端中计算资源的占用,提升该游戏服务的运行效率,可将与该游戏服务相关的大量数据存储至所述云客户端相对应的云数据库内。
进一步地,所述数据的存储信息包括字段名、字段类型、存储周期、存储路径、表所属的业务信息等所述数据的相关存储信息。
本发明实施例中,所述利用预设的云客户端从预设的云数据库中获取数据的存储信息,包括:
获取所述云客户端发送的数据存储信息的获取请求;
根据所述获取请求从所述云数据库中获取数据的存储信息。
详细地,可利用预设的拦截器(如Interceptor拦截器)获取所述云客户端发送的数据存储信息的获取请求。
本发明其中一个实际应用场景中,由于不同系统的数据要进行同步处理,而业务系统所涉及的数据库同步是重中之重,虽然大部分数据库都提供了导入导出的工具,但是数据存储到各种各样不同的数据库,然而要把数据同步到指定不同类型的存储库是非常麻烦的。因此,可增加私有云客户端,采用一套通用的数据采集程序,触发数据采集同步的入口放在数据采集中心,由数据采集中心统一调度,可以解决数据同步问题。
S3、根据所述调度信息调用所述数据采集中心的调度接口,利用所述调度接口按照所述配置信息对所述云数据库内与所述存储信息对应的数据进行数据采集,并根据采集到的数据生成数据文件。
本发明实施例中,由于要对数据进行采集,首先要在数据采集中心中配置需要的服务,得到配置信息,根据所述配置信息对所述数据进行调度,调度时会根据时间段进行调度,利用调度获得的存储信息对应的数据进行数据采集。
本发明实施例中,所述利用所述调度接口按照所述配置信息对所述云数据库内与所述存储信息对应的数据进行数据采集,包括:提取所述数据采集中心内所述调度接口的接口参数;利用所述调度接口的接口参数调度所述配置信息;根据所述配置信息对所述存储信息对应的数据进行数据采集。
详细地,可利用具有参数提取功能的python语句提取所述功能更新接口的接口参数,其中,所述接口参数包括但不限于接口名称、接口编码、接口调用方法、接口类型。
详细地,所述利用所述调度接口的接口参数调度所述配置信息,包括:
根据所述调度接口的接口参数为所述云客户端配置时间粒度信息,其中,所述时间粒度信息包括至少一个时间粒度;
根据所述时间粒度信息对所述数据采集中心中的配置信息进行调度。
进一步地,所述根据采集到的数据生成数据文件,包括:
获取采集到的数据对应的云数据库表名及所述云数据库表名对应的字段名;
根据所述字段名动态设置数据文件的显示输出长度;
根据所述显示输出长度、所述云数据库表名以及所述云数据库表名对应的字段名生成数据文件。
详细地,可利用具有数据抓取功能的计算机语句(如java语句、python语句等)从预先确定的存储区域抓取存储的所述云数据库表名及所述云数据库表名对应的字段名。本发明其中一个实际应用场景中,由于从不同云数据库获取的数据库表字段不一样,因此,需要使用统一的采集方式来收集从不同云数据库获取的表字段。比如,可以使用查询语句查询不同数据库表的字段,以此来收集所有的字段信息。
本发明实施例中,通过对数据采集生成数据文件,可以解决私有化部署定制化需求导致的数据库结构不一致的情况,有利于解决各种异构数据源之间不能进行稳定高效的数据同步。
S4、将所述数据文件进行压缩后上传到预设的文件服务器,并将所述文件服务器中的所述数据文件上传到预设的数据采集中心服务器。
本发明实施例中,所述文件服务器相当于中间服务器,与所述数据采集中心服务器在同一个网关中,先通过不同的云客户端从对应的云数据库中获取数据,进行压缩后上传到文件服务器中,再经过文件服务器把所述数据文件上传到数据采集中心服务器,目的是阻断不同云客户端中的数据直接上传到数据采集中心服务器,防止数据混乱,以致于可以很好的控制同步频率和监控同步结果。
进一步地,为了提高传输效率和节约宽带,需要将数据进行zip压缩之后再进行上传。
S5、将所述数据采集中心服务器中的所述数据文件归集到数据采集中心。
本发明实施例中,由于所述数据文件是从不同的云客户端中获取到的,需要将多个私有云数据库中的数据,归集到一个库,这样即使私有云调整了字段名称,在处理数据的时候,只需要配置字段映射关系就能解决,进而解决数据同步失败的问题。
本发明实施例中,所述将所述数据采集中心服务器中的所述数据文件归集到数据采集中心,包括:
对所述数据文件进行数据转换,得到转换文件;
对所述转换文件的表头进行字段映射,得到映射字段;
根据所述映射字段,得到不同云客户端中的映射数据文件;
将所述映射数据文件归集到数据采集中心。
详细地,所述对所述数据文件进行数据转换,得到转换文件,包括:
获取所述数据文件的数据转换逻辑文本;
将所述数据转换逻辑文本作为入参输入已训练的规则生成模型,得到所述规则生成模型输出的转换规则向量、转换参数向量和匹配矩阵;
基于所述转换规则向量确定所述数据转换逻辑文本对应的若干目标转换规则;
基于所述匹配矩阵和所述转换参数向量,确定各目标转换规则对应的目标转换参数;
基于所述若干目标转换规则和各目标转换规则对应的目标转换参数对所述数据文件进行数据转换,得到转换文件。
详细地,所述获获取所述数据文件的数据转换逻辑文本步骤,与S1中获取数据采集中心内的配置服务的步骤一致,再此不做赘述。
可选地,该默认参数的规则生成模型可以是基于BERT (Bidirectional
Encoder RepresentationsfromTransformers,基于转换器的双向编码表征)模型架构的。在模型训练时,可以将数据转换逻辑文本作为入参输入该模型,将对应的输出结果与真值标签比较,计算损失并更新模型参数,多次迭代,直到损失满足预设条件结束训练,得到训练后的规则生成模型。
详细地,所述对所述转换文件的表头进行字段映射,得到映射字段,包括:
获取所述表头的待映射字段集及所述配置服务中的目标字段集;
计算所述目标字段集中每个待映射字段与所述目标字段集中各目标字段之间的相似度;
选取所述目标字段集中相似度最高的待映射字段作为映射字段。
本发明实施例中,所述计算所述目标字段集中每个待映射字段与所述目标字段集中各目标字段之间的相似度,包括:
利用如下算法计算所述目标字段集中每个待映射字段与所述目标字段集中各目标字段之间的相似度:
其中,为所述相似度,为所述待映射字段对应的第个特征量,为所述各目标字段对应的第个特征量,为预设常数,为特征量的个数。
详细地,所述根据所述映射字段,在原有的主键前拼接私有云代码标记,得到不同私有云的数据文件是因为不同私有云的主键可能会重复,例如:
{private_coloud_code}_{id},作为ClickHouse的主键,这样就能确保不同私有云的数据不会互相覆盖。
本发明实施例能够通过扩展数据采集中心的数据同步框架,并增加配置、增加调度、增加数据同步端,采用的是一套通用的数据采集程序,支持增量和批量两种模式,并且触发数据采集同步的入口放在数据采集中心,由数据采集中心统一调度,以实现很好的控制同步频率和监控同步结果,提高数据分析和数据处理的稳定性。因此本发明提出的数据采集方法,可以解决数据同步失败问题,解决私有云的定制化需求的问题。
如图4所示,是本发明一实施例提供的数据采集装置的功能模块图。
本发明所述数据采集装置100可以安装于电子设备中。根据实现的功能,所述数据采集装置100可以包括信息提取模块101、数据获取模块102、数据采集模块103、数据文件上传模块104及数据文件归集模块105。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述信息提取模块101,用于提取预设的数据采集中心内配置服务的配置信息,以及提取所述数据采集中心内调度服务的调度信息;
所述数据获取模块102,用于利用预设的云客户端从预设的云数据库中获取数据的存储信息;
所述数据采集模块103,用于根据所述调度信息调用所述数据采集中心的调度接口,利用所述调度接口按照所述配置信息对所述云数据库内与所述存储信息对应的数据进行数据采集,并根据采集到的数据生成数据文件;
所述数据文件上传模块104,用于将所述数据文件进行压缩后上传到预设的文件服务器,并将所述文件服务器中的所述数据文件上传到预设的数据采集中心服务器;
所述数据文件归集模块105,用于将所述数据采集中心服务器中的所述数据文件归集到数据采集中心。
详细地,本发明实施例中所述数据采集装置100中所述的各模块在使用时采用与附图中所述的数据采集方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图5所示,是本发明一实施例提供的实现数据采集方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如数据采集程序。
其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行数据采集程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card, SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如数据采集程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述通信总线12可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
所述通信接口13用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
图中仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图中示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的数据采集程序是多个指令的组合,在所述处理器10中运行时,可以实现:
提取预设的数据采集中心内配置服务的配置信息,以及提取所述数据采集中心内调度服务的调度信息;
利用预设的云客户端从预设的云数据库中获取数据的存储信息;
根据所述调度信息调用所述数据采集中心的调度接口,利用所述调度接口按照所述配置信息对所述云数据库内与所述存储信息对应的数据进行数据采集,并根据采集到的数据生成数据文件;
将所述数据文件进行压缩后上传到预设的文件服务器,并将所述文件服务器中的所述数据文件上传到预设的数据采集中心服务器;
将所述数据采集中心服务器中的所述数据文件归集到数据采集中心。
具体地,所述处理器10对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
提取预设的数据采集中心内配置服务的配置信息,以及提取所述数据采集中心内调度服务的调度信息;
利用预设的云客户端从预设的云数据库中获取数据的存储信息;
根据所述调度信息调用所述数据采集中心的调度接口,利用所述调度接口按照所述配置信息对所述云数据库内与所述存储信息对应的数据进行数据采集,并根据采集到的数据生成数据文件;
将所述数据文件进行压缩后上传到预设的文件服务器,并将所述文件服务器中的所述数据文件上传到预设的数据采集中心服务器;
将所述数据采集中心服务器中的所述数据文件归集到数据采集中心。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种数据采集方法,其特征在于,所述方法包括:
提取预设的数据采集中心内配置服务的配置信息,以及提取所述数据采集中心内调度服务的调度信息;
利用预设的云客户端从预设的云数据库中获取数据的存储信息;
根据所述调度信息调用所述数据采集中心的调度接口,利用所述调度接口按照所述配置信息对所述云数据库内与所述存储信息对应的数据进行数据采集,并根据采集到的数据生成数据文件;
将所述数据文件进行压缩后,上传到作为中间服务器的预设的文件服务器,并将所述文件服务器中的所述数据文件上传到预设的数据采集中心服务器,所述文件服务器与所述数据采集中心服务器在同一网关中,以使所述文件服务器阻断所述云客户端与所述数据采集中心服务器之间直接连接;
将所述数据采集中心服务器中的所述数据文件归集到数据采集中心。
2.如权利要求1所述的数据采集方法,其特征在于,所述提取预设的数据采集中心内配置服务的配置信息,包括:
获取数据采集中心内的配置服务;
利用所述配置服务在数据采集中心中添加与所述配置服务相对应的标识信息;
根据所述标识信息从数据采集中心中提取配置信息。
3.如权利要求1所述的数据采集方法,其特征在于,所述利用预设的云客户端从预设的云数据库中获取数据的存储信息,包括:
获取所述云客户端发送的数据存储信息的获取请求;
根据所述获取请求从所述云数据库中获取数据的存储信息。
4.如权利要求1所述的数据采集方法,其特征在于,所述利用所述调度接口按照所述配置信息对所述云数据库内与所述存储信息对应的数据进行数据采集,包括:
提取所述数据采集中心内所述调度接口的接口参数;
利用所述调度接口的接口参数调度所述配置信息;
根据所述配置信息对所述存储信息对应的数据进行数据采集。
5.如权利要求1所述的数据采集方法,其特征在于,所述根据采集到的数据生成数据文件,包括:
获取采集到的数据对应的云数据库表名及所述云数据库表名对应的字段名;
根据所述字段名动态设置数据文件的显示输出长度;
根据所述显示输出长度、所述云数据库表名以及所述云数据库表名对应的字段名生成数据文件。
6.如权利要求1至5中任一项所述的数据采集方法,其特征在于,所述将所述数据采集中心服务器中的所述数据文件归集到数据采集中心,包括:
对所述数据文件进行数据转换,得到转换文件;
对所述转换文件的表头进行字段映射,得到映射字段;
根据所述映射字段,得到不同云客户端中的映射数据文件;
将所述映射数据文件归集到数据采集中心。
7.如权利要求6所述的数据采集方法,其特征在于,所述对所述转换文件的表头进行字段映射,得到映射字段,包括:
获取所述表头的待映射字段集及所述配置服务中的目标字段集;
计算所述待映射字段集中每个待映射字段与所述目标字段集中各目标字段之间的相似度;
选取所述目标字段集中相似度最高的待映射字段作为映射字段。
8.一种数据采集装置,其特征在于,所述装置包括:
信息提取模块,用于提取预设的数据采集中心内配置服务的配置信息,以及提取所述数据采集中心内调度服务的调度信息;
数据获取模块,用于利用预设的云客户端从预设的云数据库中获取数据的存储信息;
数据采集模块,用于根据所述调度信息调用所述数据采集中心的调度接口,利用所述调度接口按照所述配置信息对所述云数据库内与所述存储信息对应的数据进行数据采集,并根据采集到的数据生成数据文件;
数据文件上传模块,用于将所述数据文件进行压缩后,上传到作为中间服务器的预设的文件服务器,并将所述文件服务器中的所述数据文件上传到预设的数据采集中心服务器,所述文件服务器与所述数据采集中心服务器在同一网关中,以使所述文件服务器阻断所述云客户端与所述数据采集中心服务器之间直接连接;
数据文件归集模块,用于将所述数据采集中心服务器中的所述数据文件归集到数据采集中心。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的数据采集方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的数据采集方法。
CN202310138078.9A 2023-02-20 2023-02-20 数据采集方法、装置、设备及存储介质 Active CN115834605B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310138078.9A CN115834605B (zh) 2023-02-20 2023-02-20 数据采集方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310138078.9A CN115834605B (zh) 2023-02-20 2023-02-20 数据采集方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115834605A CN115834605A (zh) 2023-03-21
CN115834605B true CN115834605B (zh) 2023-05-12

Family

ID=85521893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310138078.9A Active CN115834605B (zh) 2023-02-20 2023-02-20 数据采集方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115834605B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017182596A (ja) * 2016-03-31 2017-10-05 株式会社フォーサイ データ収集および分析システム
US10154074B1 (en) * 2006-11-15 2018-12-11 Conviva Inc. Remediation of the impact of detected synchronized data requests in a content delivery network

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9411870B2 (en) * 2013-05-08 2016-08-09 iData Crunch System and method for location aware fine-grained multi-channel synchronization of mobile repositories along with aggregate analytic computation
CN104317836B (zh) * 2014-10-10 2018-03-27 山东中创软件工程股份有限公司 批量生成数据文件的方法及装置
CN107766132B (zh) * 2017-06-25 2019-03-15 平安科技(深圳)有限公司 多任务调度方法、应用服务器及计算机可读存储介质
CN110502516B (zh) * 2019-08-22 2021-10-19 深圳前海环融联易信息科技服务有限公司 表格数据解析方法、装置、计算机设备及存储介质
CN114697316B (zh) * 2022-04-24 2024-03-12 平安科技(深圳)有限公司 数据的批量下载方法、装置、设备及计算机可读介质
CN114969051A (zh) * 2022-06-10 2022-08-30 北京金堤科技有限公司 数据处理方法、装置、存储介质及设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10154074B1 (en) * 2006-11-15 2018-12-11 Conviva Inc. Remediation of the impact of detected synchronized data requests in a content delivery network
JP2017182596A (ja) * 2016-03-31 2017-10-05 株式会社フォーサイ データ収集および分析システム

Also Published As

Publication number Publication date
CN115834605A (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN112541745B (zh) 用户行为数据分析方法、装置、电子设备及可读存储介质
CN112052370A (zh) 报文生成方法、装置、电子设备及计算机可读存储介质
CN112182359B (zh) 推荐模型的特征管理方法及系统
CN114979120B (zh) 数据上传方法、装置、设备及存储介质
CN112948427B (zh) 数据查询方法、装置、设备及存储介质
CN113890712A (zh) 数据传输方法、装置、电子设备及可读存储介质
CN114707474A (zh) 报表生成方法、装置、电子设备及计算机可读存储介质
CN113806434A (zh) 大数据处理方法、装置、设备及介质
CN113722533B (zh) 信息推送方法、装置、电子设备及可读存储介质
CN115129753A (zh) 数据血缘关系分析方法、装置、电子设备及存储介质
CN113868528A (zh) 资讯推荐方法、装置、电子设备及可读存储介质
CN115834605B (zh) 数据采集方法、装置、设备及存储介质
CN113971455A (zh) 一种分布式模型训练方法、装置、存储介质及计算机设备
CN116450723A (zh) 数据提取方法、装置、计算机设备及存储介质
CN114697316B (zh) 数据的批量下载方法、装置、设备及计算机可读介质
CN115982454A (zh) 基于用户画像的问卷推送方法、装置、设备及存储介质
CN115496166A (zh) 多任务处理方法、装置、电子设备及存储介质
CN114691782A (zh) 数据库表增量同步方法、装置及存储介质
CN114547011A (zh) 数据抽取方法、装置、电子设备及存储介质
CN114721952A (zh) 多套测试环境同步部署方法、装置、设备及存储介质
CN116540990B (zh) 基于嵌入式实现电子产品的代码集成方法及装置
CN113704616B (zh) 信息推送方法、装置、电子设备及可读存储介质
CN117633075A (zh) 微服务应用数据协同方法、装置、电子设备及存储介质
CN113704411B (zh) 基于词向量的相似客群挖掘方法、装置、设备及存储介质
CN114723488B (zh) 课程推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant