CN117555619A - 数据预处理方法、装置、设备和介质 - Google Patents
数据预处理方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN117555619A CN117555619A CN202410043420.1A CN202410043420A CN117555619A CN 117555619 A CN117555619 A CN 117555619A CN 202410043420 A CN202410043420 A CN 202410043420A CN 117555619 A CN117555619 A CN 117555619A
- Authority
- CN
- China
- Prior art keywords
- data
- service
- service data
- configuration information
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000007781 pre-processing Methods 0.000 title claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 40
- 238000004458 analytical method Methods 0.000 claims abstract description 38
- 238000007405 data analysis Methods 0.000 claims description 12
- 230000010365 information processing Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44505—Configuring for program initiating, e.g. using registry, configuration files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本公开实施例提供的数据预处理方法、装置、设备和存储介质,包括:获取不同业务系统对应的配置信息和业务数据;根据各业务系统对应的配置信息,下载各业务系统对应的业务数据,并基于解析配置信息解析各业务系统对应的业务数据得到目标业务数据;基于数据处理规则,对目标业务数据进行处理分类得到业务数据,实现对不同数据来源的业务数据的预分类。
Description
技术领域
本发明涉及信息技术领域以及相关技术领域,具体地,涉及适用于一种数据预处理方法、装置、设备和存储介质。
背景技术
随着传统行业信息化程度的不断提高,很多企业会根据自身企业的信息化需求开发一些互联网的应用,但是出于信息安全考虑,很多企业在进行信息化的时候都倾向于自建机房,自建系统,一般较少使用云服务产品。由于信息化的系统非常多,自有的部门无法满足所有系统的开发,很多企业会将一些非核心系统外包给第三方科技公司进行开发和运维。第三方科技公司开发的系统势必需要和企业内部系统进行交互,第三方科技公司的系统需要接收企业内部系统的数据,并且对数据进行相关预处理,从而转换为符合系统业务逻辑要求的数据。
现有技术中,对数据进行预处理转换为符合系统业务逻辑要求的系统的产品功能普遍比较庞大,或者收费昂贵,或者对基础设施有比较高的要求,不能很好的满足实际需要,故需要设计一种技术通用,轻量化,契合场景的数据预处理方法实现对企业内部系统的数据进行预处理。
发明内容
本文中描述的实施例提供了一种数据预处理方法、装置、设备和存储介质,解决现有技术存在的问题。
第一方面,根据本公开的内容,提供了一种数据预处理方法,包括:
获取不同业务系统对应的配置信息,其中,所述配置信息包括下载配置信息,所述下载配置信息包括部署环境、存放路径、数据名称和数据下载方式;
根据各业务系统对应的配置信息,下载各业务系统对应的业务数据,并基于解析配置信息解析各业务系统对应的业务数据得到目标业务数据;
基于数据处理规则,对所述目标业务数据进行处理分类得到分类业务数据。
在本公开一些实施例中,所述根据各业务系统对应的配置信息,下载各业务系统对应的业务数据,并基于解析配置信息解析各业务系统对应的业务数据得到目标业务数据,包括:
基于各业务系统对应的下载配置信息,下载各业务系统对应的业务数据;
基于解析配置信息,对下载的各业务系统对应的业务数据进行解析得到目标业务数据。
在本公开一些实施例中,所述基于各业务系统对应的下载配置信息,下载各业务系统对应的业务数据,包括:
根据所述部署环境和所述存放路径,从与所述部署环境对应的服务器的存放路径中获取业务数据,获取的所述业务数据在服务器的存储名称为数据名称;
根据所述数据下载方式,从所述服务器下载所述存放路径中与数据名称对应的业务数据。
在本公开一些实施例中,所述基于解析配置信息,对下载的各业务系统对应的业务数据进行解析得到目标业务数据,包括:
基于解析配置信息,计算待解析的各业务系统对应的业务数据的大小;
在待下载的各业务系统对应的业务数据下载成功时,根据下载数据解析方式,对下载的各业务系统对应的业务数据进行解析得到目标业务数据,其中,所述下载数据解析方式包括逐行读取逐行解析保存和逐行读取批量解析保存。
在本公开一些实施例中,所述基于数据处理规则,对所述目标业务数据进行处理分类得到分类业务数据,包括:
对所述目标业务数据进行处理得到标准业务数据;
对所述标准业务数据进行分类得到分类业务数据,其中,所述分类业务数据包括核查数据、逾期数据和预警数据。
在本公开一些实施例中,所述对所述目标业务数据进行处理得到标准业务数据,包括:
从所述目标业务数据中获取分期账单数据;
根据所述分期账单数据,获取目标订单对应的分期订单数据;
从所述分期订单数据中获取目标标签标识对应的数据,得到标准业务数据。
在本公开一些实施例中,所述对所述标准业务数据进行分类得到分类业务数据,包括:
根据所述标准业务数据与业务指标数据的关系,对所述标准业务数据进行分类得到业务数据。
第二方面,根据本公开的内容,提供了一种数据预处理装置,包括:
配置信息获取模块,用于获取不同业务系统对应的配置信息,其中,所述配置信息包括下载配置信息,所述下载配置信息包括部署环境、存放路径、数据名称和数据下载方式;
目标业务数据确定模块,用于根据各业务系统对应的配置信息,下载各业务系统对应的业务数据,并基于解析配置信息解析各业务系统对应的业务数据得到目标业务数据;
分类模块,用于基于数据处理规则,对所述目标业务数据进行处理分类得到分类业务数据。
第三方面,根据本公开的内容,提供了一种计算机设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中任一所述的方法。
第四方面,根据本公开的内容,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如第一方面中任一所述的方法。
本公开实施例提供的数据预处理方法、装置、设备和存储介质,首先获取不同业务系统对应的配置信息和业务数据,其中,配置信息包括下载配置信息,下载配置信息包括部署环境、存放路径、数据名称和数据下载方式;然后根据各业务系统对应的配置信息,下载各业务系统对应的业务数据,并基于解析配置信息解析各业务系统对应的业务数据得到目标业务数据;最后基于数据处理规则,对目标业务数据进行处理分类得到业务数据。通过获取不同业务系统对应的配置信息,基于配置信息获取不同来源的业务系统的业务数据,然后通过数据处理规则,对不同来源的业务系统的业务数据进行处理分类得到分类业务数据,实现对不同数据来源的业务数据的预分类;此外,由于基于解析配置信息对各业务系统对应的业务数据进行解析得到目标业务数据,因此,解析得到的目标业务数据为相同格式的业务数据。
上述说明仅是本申请实施例技术方案的概述,为了能够更清楚了解本申请实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本申请实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
为了更清楚地说明本公开的实施例的技术方案,下面将对实施例的附图进行简要说明,应当知道,以下描述的附图仅仅涉及本公开的一些实施例,而非对本公开的限制,其中:
图1是本公开实施例提供的一种数据预处理方法的流程示意图;
图2是本公开实施例提供的一种数据预处理装置的结构示意图;
图3是本公开实施例提供的一种计算机设备的结构示意图。
在附图中,最后两位数字相同的标记对应于相同的元素。需要注意的是,附图中的元素是示意性的,没有按比例绘制。
具体实施方式
为了使本公开的实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本公开的实施例的技术方案进行清楚、完整的描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域技术人员在无需创造性劳动的前提下所获得的所有其它实施例,也都属于本公开保护的范围。
除非另外定义,否则在此使用的所有术语(包括技术和科学术语)具有与本公开主题所属领域的技术人员所通常理解的相同含义。进一步将理解的是,诸如在通常使用的词典中定义的那些的术语应解释为具有与说明书上下文和相关技术中它们的含义一致的含义,并且将不以理想化或过于正式的形式来解释,除非在此另外明确定义。如在此所使用的,将两个或更多部分“连接”或“耦接”到一起的陈述应指这些部分直接结合到一起或通过一个或多个中间部件结合。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语“实施例”并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:存在A,同时存在A和B,存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
此外,在本公开的所有实施例中,诸如“第一”和“第二”的术语仅用于将一个部件(或部件的一部分)与另一个部件(或部件的另一部分)区分开。
在本申请的描述中,除非另有说明,“多个”的含义是指两个以上(包括两个),同理,“多组”指的是两组以上(包括两组)。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
基于现有技术存在的问题,本公开实施例提供一种数据预处理方法,图1是本公开实施例提供的数据预处理方法的流程示意图,如图1所示,数据预处理方法的具体过程包括:
S110、获取不同业务系统对应的配置信息。
其中,配置信息包括下载配置信息,下载配置信息包括部署环境、存放路径、数据名称和数据下载方式。
本公开实施例提供的数据预处理方法,应用于终端设备,终端设备首先获取不同业务系统对应的配置信息,然后基于不同业务系统的下载配置信息,从不同业务系统的服务器下载该系统系统的业务数据,然后根据解析配置信息,对下载的业务数据进行解析,得到统一格式的目标业务数据。
由于企业内部系统建设时期不同,采用的技术方案不同,导致存在不同的数据源格式,确不同业务系统的数据源的格式也不近相同,本方案结合通用软件系统的技术栈,采用Java语言,基于Spring Boot开源框架,对数据预处理进行抽象建模,实现动态配置化适配不同的数据来源场景。
S120、根据各业务系统对应的配置信息,下载各业务系统对应的业务数据,并基于解析配置信息解析各业务系统对应的业务数据得到目标业务数据。
在具体的实施方式中,根据各业务系统对应的配置信息,下载各业务系统对应的业务数据,并基于解析配置信息解析各业务系统对应的业务数据得到目标业务数据的具体过程,包括:基于各业务系统对应的下载配置信息,下载各业务系统对应的业务数据;基于解析配置信息,对下载的各业务系统对应的业务数据进行解析得到目标业务数据。
由于不同的业务系统的部署环境不同,部署方式不同,有些业务系统是独享服务,有的业务系统是共享服务,因此,在获取不同业务系统的业务数据之前,需要获取不同业务系统的下载配置信息,然后根据各业务系统的下载配置信息,从业务系统的服务器上获取到该业务系统对应的业务数据。
其中,下载配置信息包括部署环境、存放路径、数据名称和数据下载方式。
部署环境为各业务系统对应的业务数据存储的服务器,包括 FTP 服务器或者文件共享服务器;存放路径为各业务系统对应的业务数据在服务器的存放路径;数据名称为各业务系统对应的业务数据在服务器对应的存放路径下的数据名称;数据下载方式为从各业务系统对应的服务器上下载业务数据的下载方式。
作为一种具体的实施例,基于各业务系统对应的下载配置信息,下载各业务系统对应的业务数据,包括:根据部署环境和存放路径,从与部署环境对应的服务器的存放路径中获取业务数据,获取的业务数据在服务器的存储名称为数据名称;根据数据下载方式,从服务器下载存放路径中与数据名称对应的业务数据。
具体的,首先本申请实施例中,根据各业务系统的下载配置信息,从服务器获取业务系统的业务数据,然后根据存放路径,从服务器中获取到该存放路径的业务数据,最后根据下载方式,从服务器下载存放路径上与数据名称对应的业务数据。
作为一种具体的实施例,基于解析配置信息,对下载的各业务系统对应的业务数据进行解析得到目标业务数据,包括:基于解析配置信息,计算待解析的各业务系统对应的业务数据的大小;在待下载的各业务系统对应的业务数据下载成功时,根据下载数据解析方式,对下载的各业务系统对应的业务数据进行解析得到目标业务数据,其中,下载数据解析方式包括逐行读取逐行解析保存和逐行读取批量解析保存。
具体的,业务数据的解析过程可分为如下步骤:
首先基于解析配置信息,计算各业务系统对应的待解析的业务数据的大小,然后校验待解析的业务数据是否下载成功,当待解析的业务数据下载成功时,基于下载数据解析方式,执行业务数据解析,并保存解析数据。
在具体的实施方式中,基于下载数据解析方式,执行业务数据解析,并保存解析数据包括:逐行读取逐行保存或者逐行读取批量保存两种情形,逐行读取逐行保存针对于业务数据是全量数据的情况,每次均需逐行比对数据,进行新增或更新,逐行读取批量保存可针对于业务数据是增量数据的情况,可以读取一定行数的数据后批量一次性保存数据,提高性能。
S130、基于数据处理规则,对目标业务数据进行处理分类得到分类业务数据。
在具体的实施方式中,基于数据处理规则,对目标业务数据进行处理得到分类业务数据,包括:对目标业务数据进行处理得到标准业务数据;对标准业务数据进行分类得到分类业务数据,其中,分类业务数据包括核查数据、逾期数据和预警数据。
其中,对目标业务数据进行处理得到标准业务数据,包括:从目标业务数据中获取分期账单数据;根据分期账单数据,获取目标订单对应的分期订单数据;从分期订单数据中获取目标标签标识对应的数据,得到标准业务数据。
具体的,首先从业务系统对应的目标业务数据中获取分期账单数据(分期账单数据包括历史分期账单数据),分期账单数据包括不同分期订单对应的分期数据,然后从分期订单数据中筛选出要获取的目标订单对应的分期订单数据(例如从分期订单数据中筛选处要获取的车贷订单对应的分期订单数据),最后从分期订单数据中获取目标标签标识对应的数据,得到标准业务数据,例如获取不同分期账单数据中分期订单数据中的还款状态标签标识、时间标签标识、属性标签标识对应的数据,得到一个车贷订单对应的分期订单数据的标准业务数据,最后通过比较标准业务数据与业务指标数据的关系,对标准业务数据进行分类得到业务数据,也即根据各标准业务数据的属性信息,确定各标准业务数据是核查数据、逾期数据还是预警数据。
本公开实施例提供的数据预处理方法,首先获取不同业务系统对应的配置信息和业务数据,其中,配置信息包括下载配置信息,下载配置信息包括部署环境、存放路径、数据名称和数据下载方式;然后根据各业务系统对应的配置信息,下载各业务系统对应的业务数据,并基于解析配置信息解析各业务系统对应的业务数据得到目标业务数据;最后基于数据处理规则,对目标业务数据进行处理分类得到业务数据。通过获取不同业务系统对应的配置信息,基于配置信息获取不同来源的业务系统的业务数据,然后通过数据处理规则,对不同来源的业务系统的业务数据进行处理分类得到分类业务数据,实现对不同数据来源的业务数据的预分类;此外,由于基于解析配置信息对各业务系统对应的业务数据进行解析得到目标业务数据,因此,解析得到的目标业务数据为相同格式的业务数据。
在上述实施例的基础上,图2是本公开实施例提供一种数据预处理装置的结构示意图,如图2所示,数据预处理装置包括:
配置信息获取模块210,用于获取不同业务系统对应的配置信息,其中,配置信息包括下载配置信息,下载配置信息包括部署环境、存放路径、数据名称和数据下载方式;
目标业务数据确定模块220,用于根据各业务系统对应的配置信息,下载各业务系统对应的业务数据,并基于解析配置信息解析各业务系统对应的业务数据得到目标业务数据;
分类模块230,用于基于数据处理规则,对目标业务数据进行处理分类得到分类业务数据。
本公开实施例提供的数据预处理装置,首先获取不同业务系统对应的配置信息和业务数据,其中,配置信息包括下载配置信息,下载配置信息包括部署环境、存放路径、数据名称和数据下载方式;然后根据各业务系统对应的配置信息,下载各业务系统对应的业务数据,并基于解析配置信息解析各业务系统对应的业务数据得到目标业务数据;最后基于数据处理规则,对目标业务数据进行处理分类得到业务数据。通过获取不同业务系统对应的配置信息,基于配置信息获取不同来源的业务系统的业务数据,然后通过数据处理规则,对不同来源的业务系统的业务数据进行处理分类得到分类业务数据,实现对不同数据来源的业务数据的预分类;此外,由于基于解析配置信息对各业务系统对应的业务数据进行解析得到目标业务数据,因此,解析得到的目标业务数据为相同格式的业务数据。
在具体的实施方式中,根据各业务系统对应的配置信息,下载各业务系统对应的业务数据,并基于解析配置信息解析各业务系统对应的业务数据得到目标业务数据,包括:
基于各业务系统对应的下载配置信息,下载各业务系统对应的业务数据;
基于解析配置信息,对下载的各业务系统对应的业务数据进行解析得到目标业务数据。
在具体的实施方式中,基于各业务系统对应的下载配置信息,下载各业务系统对应的业务数据,包括:
根据部署环境和存放路径,从与部署环境对应的服务器的存放路径中获取业务数据,获取的业务数据在服务器的存储名称为数据名称;
根据数据下载方式,从服务器下载存放路径中与数据名称对应的业务数据。
在具体的实施方式中,基于解析配置信息,对下载的各业务系统对应的业务数据进行解析得到目标业务数据,包括:
基于解析配置信息,计算待解析的各业务系统对应的业务数据的大小;
在待下载的各业务系统对应的业务数据下载成功时,根据下载数据解析方式,对下载的各业务系统对应的业务数据进行解析得到目标业务数据,其中,下载数据解析方式包括逐行读取逐行解析保存和逐行读取批量解析保存。
在具体的实施方式中,基于数据处理规则,对目标业务数据进行处理分类得到分类业务数据,包括:
对目标业务数据进行处理得到标准业务数据;
对标准业务数据进行分类得到分类业务数据,其中,分类业务数据包括核查数据、逾期数据和预警数据。
在具体的实施方式中,对目标业务数据进行处理得到标准业务数据,包括:
从目标业务数据中获取分期账单数据;
根据分期账单数据,获取目标订单对应的分期订单数据;
从分期订单数据中获取目标标签标识对应的数据,得到标准业务数据。
在具体的实施方式中,对标准业务数据进行分类得到分类业务数据,包括:
根据标准业务数据与业务指标数据的关系,对标准业务数据进行分类得到业务数据。
本申请实施例还提供了一种计算机设备,具体请参阅图3,图3为本实施例计算机设备基本结构框图。
计算机设备包括通过系统总线相互通信连接存储器510和处理器520。需要指出的是,图中仅示出了具有组件510-520的计算机设备,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程门阵列(Field-ProgrammableGate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
存储器510至少包括一种类型的可读存储介质,可读存储介质包括非易失性存储器(non-volatile memory)或易失性存储器,例如,闪存(flash memory)、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(random accessmemory,RAM)、只读存储器(read-only memory,ROM)、可擦写可编程只读存储器(erasableprogrammableread-only memory,EPROM)、电可擦写可编程只读存储器(electrically erasableprogrammable read-only memory,EEPROM)、可编程只读存储器(programmable read-onlymemory,PROM)、磁性存储器、磁盘、光盘等,RAM可以包括静态RAM或动态RAM。在一些实施例中,存储器510可以是计算机设备的内部存储单元,例如,该计算机设备的硬盘或内存。在另一些实施例中,存储器510也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡或闪存卡(Flash Card)等。当然,存储器510还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,存储器510通常用于存储安装于计算机设备的操作系统和各类应用软件,例如上述方法的程序代码等。此外,存储器510还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器520通常用于执行计算机设备的总体操作。本实施例中,存储器510用于存储程序代码或指令,程序代码包括计算机操作指令,处理器520用于执行存储器510存储的程序代码或指令或者处理数据,例如运行上述方法的程序代码。
本文中,总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,EISA)总线等。该总线系统可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本申请的另一实施例还提供一种计算机可读介质,计算机可读介质可以是计算机可读信号介质或者计算机可读介质。计算机中的处理器读取存储在计算机可读介质中的计算机可读程序代码,使得处理器能够执行在上述方法中每个步骤、或各步骤的组合中规定的功能动作;生成实施在框图的每一块、或各块的组合中规定的功能动作的装置。
计算机可读介质包含但不限于电子、磁性、光学、电磁、红外的存储器或半导体系统、设备或者装置,或者前述的任意适当组合,存储器用于存储程序代码或指令,程序代码包括计算机操作指令,处理器用于执行存储器存储的上述方法的程序代码或指令。
存储器和处理器的定义,可以参考前述计算机设备实施例的描述,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
在本申请各个实施例中的各功能单元或模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
除非上下文中另外明确地指出,否则在本文和所附权利要求中所使用的词语的单数形式包括复数,反之亦然。因而,当提及单数时,通常包括相应术语的复数。相似地,措辞“包含”和“包括”将解释为包含在内而不是独占性地。同样地,术语“包括”和“或”应当解释为包括在内的,除非本文中明确禁止这样的解释。在本文中使用术语“示例”之处,特别是当其位于一组术语之后时,所述“示例”仅仅是示例性的和阐述性的,且不应当被认为是独占性的或广泛性的。
适应性的进一步的方面和范围从本文中提供的描述变得明显。应当理解,本申请的各个方面可以单独或者与一个或多个其它方面组合实施。还应当理解,本文中的描述和特定实施例旨在仅说明的目的并不旨在限制本申请的范围。
以上对本公开的若干实施例进行了详细描述,但显然,本领域技术人员可以在不脱离本公开的精神和范围的情况下对本公开的实施例进行各种修改和变型。本公开的保护范围由所附的权利要求限定。
Claims (10)
1.一种数据预处理方法,其特征在于,包括:
获取不同业务系统对应的配置信息,其中,所述配置信息包括下载配置信息,所述下载配置信息包括部署环境、存放路径、数据名称和数据下载方式;
根据各业务系统对应的配置信息,下载各业务系统对应的业务数据,并基于解析配置信息解析各业务系统对应的业务数据得到目标业务数据;
基于数据处理规则,对所述目标业务数据进行处理分类得到分类业务数据。
2.根据权利要求1所述的方法,其特征在于,所述根据各业务系统对应的配置信息,下载各业务系统对应的业务数据,并基于解析配置信息解析各业务系统对应的业务数据得到目标业务数据,包括:
基于各业务系统对应的下载配置信息,下载各业务系统对应的业务数据;
基于解析配置信息,对下载的各业务系统对应的业务数据进行解析得到目标业务数据。
3.根据权利要求2所述的方法,其特征在于,所述基于各业务系统对应的下载配置信息,下载各业务系统对应的业务数据,包括:
根据所述部署环境和所述存放路径,从与所述部署环境对应的服务器的存放路径中获取业务数据,获取的所述业务数据在服务器的存储名称为数据名称;
根据所述数据下载方式,从所述服务器下载所述存放路径中与数据名称对应的业务数据。
4.根据权利要求2所述的方法,其特征在于,所述基于解析配置信息,对下载的各业务系统对应的业务数据进行解析得到目标业务数据,包括:
基于解析配置信息,计算待解析的各业务系统对应的业务数据的大小;
在待下载的各业务系统对应的业务数据下载成功时,根据下载数据解析方式,对下载的各业务系统对应的业务数据进行解析得到目标业务数据,其中,所述下载数据解析方式包括逐行读取逐行解析保存和逐行读取批量解析保存。
5.根据权利要求1所述的方法,其特征在于,所述基于数据处理规则,对所述目标业务数据进行处理分类得到分类业务数据,包括:
对所述目标业务数据进行处理得到标准业务数据;
对所述标准业务数据进行分类得到分类业务数据,其中,所述分类业务数据包括核查数据、逾期数据和预警数据。
6.根据权利要求5所述的方法,其特征在于,所述对所述目标业务数据进行处理得到标准业务数据,包括:
从所述目标业务数据中获取分期账单数据;
根据所述分期账单数据,获取目标订单对应的分期订单数据;
从所述分期订单数据中获取目标标签标识对应的数据,得到标准业务数据。
7.根据权利要求6所述的方法,其特征在于,所述对所述标准业务数据进行分类得到分类业务数据,包括:
根据所述标准业务数据与业务指标数据的关系,对所述标准业务数据进行分类得到业务数据。
8.一种数据预处理装置,其特征在于,包括:
配置信息获取模块,用于获取不同业务系统对应的配置信息,其中,所述配置信息包括下载配置信息,所述下载配置信息包括部署环境、存放路径、数据名称和数据下载方式;
目标业务数据确定模块,用于根据各业务系统对应的配置信息,下载各业务系统对应的业务数据,并基于解析配置信息解析各业务系统对应的业务数据得到目标业务数据;
分类模块,用于基于数据处理规则,对所述目标业务数据进行处理分类得到分类业务数据。
9.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1~7中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410043420.1A CN117555619A (zh) | 2024-01-11 | 2024-01-11 | 数据预处理方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410043420.1A CN117555619A (zh) | 2024-01-11 | 2024-01-11 | 数据预处理方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117555619A true CN117555619A (zh) | 2024-02-13 |
Family
ID=89823607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410043420.1A Pending CN117555619A (zh) | 2024-01-11 | 2024-01-11 | 数据预处理方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117555619A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228378A (zh) * | 2018-01-05 | 2018-06-29 | 中车青岛四方机车车辆股份有限公司 | 列车组故障预测的数据处理方法及装置 |
CN111444276A (zh) * | 2020-03-30 | 2020-07-24 | 北京锦鸿希电信息技术股份有限公司 | 数据处理方法、装置和设备 |
WO2021233160A1 (zh) * | 2020-05-19 | 2021-11-25 | 长鑫存储技术有限公司 | 数据展示系统、方法、设备及计算机可读存储介质 |
CN114490868A (zh) * | 2021-12-28 | 2022-05-13 | 深圳模德宝科技有限公司 | 一种跨多个业务系统的数据同步方法、处理方法及系统 |
CN116389454A (zh) * | 2023-03-01 | 2023-07-04 | 多点生活(中国)网络科技有限公司 | 数据下载系统 |
-
2024
- 2024-01-11 CN CN202410043420.1A patent/CN117555619A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228378A (zh) * | 2018-01-05 | 2018-06-29 | 中车青岛四方机车车辆股份有限公司 | 列车组故障预测的数据处理方法及装置 |
CN111444276A (zh) * | 2020-03-30 | 2020-07-24 | 北京锦鸿希电信息技术股份有限公司 | 数据处理方法、装置和设备 |
WO2021233160A1 (zh) * | 2020-05-19 | 2021-11-25 | 长鑫存储技术有限公司 | 数据展示系统、方法、设备及计算机可读存储介质 |
CN114490868A (zh) * | 2021-12-28 | 2022-05-13 | 深圳模德宝科技有限公司 | 一种跨多个业务系统的数据同步方法、处理方法及系统 |
CN116389454A (zh) * | 2023-03-01 | 2023-07-04 | 多点生活(中国)网络科技有限公司 | 数据下载系统 |
Non-Patent Citations (1)
Title |
---|
刘冬兰;刘新;马雷;任俊杰;杨锋;: "电力系统中数据集成技术关键问题研究", 山东电力技术, no. 11, 25 November 2016 (2016-11-25) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8341166B2 (en) | Infrastructure and architecture for development and execution of predictive models | |
CN108876213B (zh) | 基于区块链的产品管理方法、装置、介质及电子设备 | |
WO2009126280A1 (en) | Infrastructure and architecture for development and execution of predictive models | |
CN110727580A (zh) | 响应数据生成、全流程接口数据处理方法及相关设备 | |
CN112181430A (zh) | 代码变更统计方法、装置、电子设备及存储介质 | |
CN114844792A (zh) | 基于lua语言的动态监控方法、装置、设备及存储介质 | |
CN113297287A (zh) | 用户策略自动部署方法、装置及电子设备 | |
CN110505289B (zh) | 文件下载方法及装置、计算机可读介质、无线通信设备 | |
CN116450723A (zh) | 数据提取方法、装置、计算机设备及存储介质 | |
CN111324645B (zh) | 区块链的数据处理方法及装置 | |
CN110070383B (zh) | 基于大数据分析的异常用户识别方法及装置 | |
CN116629423A (zh) | 用户行为预测方法、装置、设备及存储介质 | |
CN117555619A (zh) | 数据预处理方法、装置、设备和介质 | |
CN111667214B (zh) | 基于二维码的货物信息获取方法、装置及电子设备 | |
CN115221936A (zh) | 数据库系统中的记录匹配 | |
CN113296785A (zh) | 文档生成方法、系统、设备及可读存储介质 | |
CN111611056A (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN113033832B (zh) | 一种汽修数据录入方法、装置、终端设备及可读存储介质 | |
CN116028481B (zh) | 一种数据质量检测方法、装置、设备和存储介质 | |
CN117112846B (zh) | 一种多信息源证照信息管理方法、系统及介质 | |
CN117032789A (zh) | 业务规则配置和执行方法、系统、计算机设备及存储介质 | |
CN117891433A (zh) | 订单流程化管理系统及其运行方法和相关介质 | |
CN116861399A (zh) | 团伙篡改指纹检测方法、装置、电子设备及存储介质 | |
CN115526731A (zh) | 任务批处理方法、装置、计算机设备及存储介质 | |
CN116385184A (zh) | 一种车险计算方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |