CN112966031A - 数据处理方法、装置、电子设备及计算机可读存储介质 - Google Patents

数据处理方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN112966031A
CN112966031A CN201911272710.9A CN201911272710A CN112966031A CN 112966031 A CN112966031 A CN 112966031A CN 201911272710 A CN201911272710 A CN 201911272710A CN 112966031 A CN112966031 A CN 112966031A
Authority
CN
China
Prior art keywords
data
etl
processing
strategy
target database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911272710.9A
Other languages
English (en)
Inventor
康林
段效晨
赵艳杰
秦占明
易帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201911272710.9A priority Critical patent/CN112966031A/zh
Publication of CN112966031A publication Critical patent/CN112966031A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Abstract

本发明提供一种数据处理方法、装置、电子设备及计算机可读存储介质。该方法包括:获得待进行ETL处理的第一数据的数据属性信息;将数据属性信息输入策略确定模型,获得由策略确定模型输出的ETL策略;按照ETL策略,对第一数据进行萃取和转置处理,以得到第二数据,并将第二数据存储至目标数据库中。与现有技术相比,本发明实施例中,基于数据属性信息和策略确定模型,能够提高进行数据的ETL处理时的处理效果。

Description

数据处理方法、装置、电子设备及计算机可读存储介质
技术领域
本发明涉及通信技术领域,尤其涉及一种数据处理方法、装置、电子设备及计算机可读存储介质。
背景技术
一般而言,数据开发主要包括数据ETL和数据展现两部分;其中,ETL是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。目前,在进行数据的ETL处理时,一般需要人工选择如何进行ETL处理,而人工选择往往具有很强的主观性,这样会导致ETL处理的处理效果较差。
发明内容
本发明实施例提供一种数据处理方法、装置、电子设备及计算机可读存储介质,以解决现有技术中进行ETL处理时,处理效果差的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供一种数据处理方法,应用于电子设备,包括:
获得待进行ETL处理的第一数据的数据属性信息;
将所述数据属性信息输入策略确定模型,获得由所述策略确定模型输出的ETL策略;
按照所述ETL策略,对所述第一数据进行萃取和转置处理,以得到第二数据,并将所述第二数据存储至目标数据库中。
第二方面,本发明实施例提供一种数据处理装置,应用于电子设备,包括:
第一获取模块,用于获得待进行ETL处理的第一数据的数据属性信息;
第二获取模块,用于将所述数据属性信息输入策略确定模型,获得由所述策略确定模型输出的ETL策略;
第一处理模块,用于按照所述ETL策略,对所述第一数据进行萃取和转置处理,以得到第二数据,并将所述第二数据存储至目标数据库中。
第三方面,本发明实施例提供一种电子设备,包括处理器,存储器,存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述数据处理方法的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述数据处理方法的步骤。
本发明实施例中,针对待进行ETL处理的第一数据,可以将其的数据属性信息输入策略确定模型,以获得由策略确定模型输出的ETL策略。由于策略确定模型通过对大量的样本数据进行训练得到,策略确定模型输出的ETL策略的客观性和准确性都能够得到较好地保证,策略确定模型输出的ETL策略可以是用于进行第一数据的ETL处理的最优ETL策略。这样,按照策略确定模型输出的ETL策略,对第一数据进行ETL处理,处理效果能够得到非常有效地保证,例如,数据的存储性能和查询性能均能够得到保证。可见,与现有技术相比,本发明实施例中,基于数据属性信息和策略确定模型,能够提高进行数据的ETL处理时的处理效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获取其他的附图。
图1是本发明实施例提供的数据处理方法的流程图;
图2是本发明实施例提供的数据处理方法的又一流程图;
图3是本发明实施例提供的数据处理装置的结构框图;
图4是本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
参见图1,图中示出了本发明实施例提供的数据处理方法的流程图。该方法可以应用于电子设备,电子设备包括但不限于服务器、计算机系统等,如图1所示,该方法可以包括如下步骤:
步骤101,获得待进行ETL处理的第一数据的数据属性信息。
需要说明的是,第一数据可以为待进行ETL处理的任意数据,第一数据中的“第一”并不构成对第一数据的任何限定,第一数据的数据属性信息既可以通过触控输入方式、键盘输入方式等进行输入,也可以是电子设备对第一数据进行智能分析后得到的。
具体地,第一数据的数据属性信息可以包括以下至少一项:
第一数据的数据量;
第一数据的数据格式;
第一数据的数据查询方式;
第一数据的源数据库。
这里,第一数据的数据量可以表征第一数据的具体数据量,例如表征第一数据具体为200M、500M、800M等;或者,第一数据的数据量可以表征第一数据的数据量级别,例如用于表征第一数据具体为KB级别、MB级别、GB级别等。
第一数据的数据格式可以描述第一数据保存在文件或记录中的规则,其既可以是字符形式的文本格式,也可以是二进制数据形式的压缩格式。
第一数据的数据查询方式可以用第一数据的数据查询类型进行表征,例如:在第一数据为视频数据的情况下,数据查询方式可以表征查询第一数据任意时间范围内的分天播放量数据,或者,数据查询方式可以表征查询第一数据在最近一段时间(例如最近一个月)内的总播放数据。
第一数据的源数据库是指原本存储第一数据的数据库。
步骤102,将数据属性信息输入策略确定模型,获得由策略确定模型输出的ETL策略。
需要说明的是,策略确定模型可以为设备S通过对大量的样本数据进行训练后得到的,用于为数据确定最优ETL策略的模型。具体地,设备S可以为电子设备,电子设备可以将自身训练好的策略确定模型存储在本地;或者,设备S可以为不同于电子设备的设备,设备S可以将自身训练好的策略确定模型分发给电子设备,电子设备可以将来自设备S的策略确定模型存储在本地。
容易看出,无论设备S是否为电子设备,电子设备本地均能够存储有策略确定模型。那么,在步骤102中,电子设备可以直接将第一数据的数据属性信息输入本地存储的策略确定模型,以获得策略确定模型输出的ETL策略,即获得用于进行第一数据的ETL处理的最优ETL策略。具体地,获得的ETL策略包括但不限于ETL处理框架、数据萃取方式、数据转置方式、数据加载方式、目标数据库等。
需要说明的是,目前进行数据的ETL处理时,常用的ETL处理框架主要包括:Spark、Flink、MapReduce、HiveSQL、Java。具体地,Spark是一种大数据计算框架,其是一种基于内存计算的框架;Flink是一款分布式计算引擎,它可以用来做批处理,即处理静态的数据集、历史的数据集,也可以用来做流处理,即实时地处理一些实时数据流,实时地产生数据的结果;MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算,Map指映射,Reduce指归约;Java是一门面向对象编程语言。
另外,目前进行数据的ETL处理时,常用的目标数据库(即经ETL处理后得到的数据所在的数据库)主要有:Druid、Kylin、MySQL。具体地,Druid是一种高效的数据查询系统,主要用于对大量的基于时序的数据进行聚合查询;Kylin是提供亚秒级查询的一种大数据平台;MySQL是一种关系型数据库管理系统。
那么,步骤102获得的ETL策略中可以包括Spark、Flink、MapReduce、HiveSQL、Java中的,与第一数据的数据属性信息适配的一个ETL处理框架;步骤102获得的ETL策略中可以包括Druid、Kylin、MySQL中的,与第一数据的数据属性信息适配的一个目标数据库。
步骤103,按照ETL策略,对第一数据进行萃取和转置处理,以得到第二数据,并将第二数据存储至目标数据库中。
这里,可以利用步骤102中获得的ETL策略,通过Oozie Workflow调度ETL过程,以实现对第一数据的ETL处理;其中,Oozie Workflow是一种工作流调度引擎。具体地,可以按照ETL策略中的ETL处理框架,对第一数据进行萃取和转置处理,并且,可以将萃取和转置处理后得到的第二数据存储至ETL策略中的目标数据库。
本发明实施例中,针对待进行ETL处理的第一数据,可以将其的数据属性信息输入策略确定模型,以获得由策略确定模型输出的ETL策略。由于策略确定模型通过对大量的样本数据进行训练得到,策略确定模型输出的ETL策略的客观性和准确性都能够得到较好地保证,策略确定模型输出的ETL策略可以是用于进行第一数据的ETL处理的最优ETL策略。这样,按照策略确定模型输出的ETL策略,对第一数据进行ETL处理,处理效果能够得到非常有效地保证,例如,数据的存储性能和查询性能均能够得到保证。可见,与现有技术相比,本发明实施例中,基于数据属性信息和策略确定模型,能够提高进行数据的ETL处理时的处理效果。
可选地,策略确定模型可以为:以数据的数据属性信息作为输入内容,以数据进行ETL处理时使用的ETL策略作为输出内容,以随机森林算法作为训练算法进行训练得到的模型。
可以理解的是,随机森林算法是指利用多棵决策树对样本进行训练并预测的一种算法,也就是说,随机森林算法是一个包含多个决策树的算法,其输出的类别由个别决策树输出的类别的众树来决定。
这里,可以预先获得大量的样本数据,例如预先获得多个数据集,每个数据集中均包括一数据的数据属性信息,以及人工为该数据选择的最优ETL策略。接下来,可以将预先获得的多个数据集提供给设备S,设备S可以将这些数据集分为三组,分别为训练组、验证组和测试组,之后可以使用训练组和随机森林算法进行训练,以确定策略确定模型中的特征参数,将验证组接入该模型,并使用测试组检查被验证的模型的表现,基于检查结果,对特征参数进行优化调整,从而便捷可靠地得到最终的策略确定模型。
当然,进行模型训练时使用的算法并不局限于随机森林算法,具体算法可以根据实际情况来确定,在此不再一一列举。
可选地,将第二数据存储至目标数据库中之后,该方法还包括:
接收指向第二数据的第一查询请求;
响应于第一查询请求,获取目标数据库中的第二数据;
输出第二数据。
这里,指向第二数据的第一查询请求为所请求数据为第二数据的查询请求,第一查询请求可以通过语音输入方式、触控输入方式或者键盘输入方式等进行输入。
在接收到第一查询请求的情况下,可以响应于第一查询请求,获取目标数据库中的第二数据,并输出第二数据。具体地,电子设备可以包括显示屏,电子设备可以直接在显示屏上显示第二数据,以实现第二数据的输出;或者,电子设备可以将第二数据发送至输入第一查询请求的用户的电子邮箱,以实现第二数据的输出。
可见,本实施例中,可以根据用户的查询请求,进行相应数据的输出,以满足用户的查询需求。
可选地,响应于第一查询请求,获取目标数据库中的第二数据,包括:
根据目标数据库对应的转换配置信息,将第一查询请求转换为目标数据库能够识别的第二查询请求;
向目标数据库发送第二查询请求;
接收目标数据库响应于第二查询请求返回的第二数据。
需要说明的是,电子设备的配置信息中可以预先存储数据库与转换配置策略之间的对应关系;其中,任一数据库对应的转换配置策略可以用于描述该数据库能够识别的查询语句是何种形式。
这里,电子设备可以为计算机系统,这时电子设备可以包括前端,电子设备可以通过前端接收第一查询请求,接下来,电子设备可以根据配置信息中的对应关系,确定策略确定模型输出的ETL策略中的目标数据库所对应的转换配置策略。之后,电子设备可以根据确定出的转换配置策略,对第一查询请求中的字段进行转换,并利用nodejs对转换后得到的所有字段进行拼接,以得到第二查询请求,这样,第二查询请求中能够携带该目标数据库能够识别的查询语句,例如sql语句。
另外,可以预先存储每个可能的目标数据库的标识信息,例如IP地址。在得到第二查询请求之后,电子设备可以根据策略确定模型输出的ETL策略中的目标数据库的IP地址,将第二查询请求发送至该目标数据库处。
下面以一个具体的例子,对本实施例的具体实施过程进行说明。
一般而言,MySQL的时间列字段可以随意定义,比如字段名字为dt,而Druid的时间列字段必须为__time字段,那么,在配置信息中,MySQL对应的转换配置策略可以规定MySQL的时间列字段为dt,Druid对应的转换配置策略可以规定Druid的时间列字段为__time。
假设同一份数据在MySQL和Druid中均进行了存储,Druid的dataSource为druid_datasource(其指标为vv),MySQL的数据表名叫mysql_table(其指标为vv),若第一查询请求为查询2019-01-01这一天的vv之和,则根据Druid对应的转换配置策略,对第一查询请求进行转化,得到的Druid能够识别的第二查询请求中的查询语句可以为:select sum(vv)from druid_datasource where__time=TIMESTAMP'2019-01-01 00:00:00';根据MySQL对应的转换配置策略,对第一查询请求进行转换,得到的MySQL能够识别的第二查询请求中的查询语句可以为:select sum(vv)from mysql_table where dt=’2019-01-01’。
可见,本实施例中,电子设备可以通过前端接收查询请求,并利用相应的转换配置信息,将查询请求转换为目标数据库能够识别的形式,这样能够保证目标数据库对查询请求的识别。并且,整个查询过程可以依赖前端和配置信息,而不依赖后端程序,那么,在每次有数据需要进行ETL处理时(即有新数据接入时),无需另外开发该数据的查询接口(即新的后端程序),从而能够降低ETL处理的处理成本。
可选地,将第二数据存储至目标数据库中之后,该方法还包括:
获取目标数据库中的第二数据;
对第二数据进行格式化处理;
输出经格式化处理后的第二数据。
这里,可以在接收到指向第二数据的第一查询请求的情况下,从目标数据库中获取第二数据,并对第二数据进行格式化处理。
具体地,对第二数据进行格式化处理,包括:
确定第二数据中第一数据类型的数据;其中,第一数据类型位于预设的,数据类型和格式转换策略之间的对应关系中;
利用对应关系记录的,第一数据类型对应的第一格式转换策略,对第二数据中第一数据类型的数据进行格式转换。
需要说明的是,电子设备可以存储有预设的数据类型和格式转换策略之间的对应关系,具体地,该对应关系中,数据类型1可以与格式转换策略1对应,数据类型2可以与格式转换策略2对应,数据类型3可以与格式转换策略3对应。
在从目标数据库中获取到第二数据之后,电子设备可以对第二数据进行遍历,以确定第二数据中是否存在数据类型1的数据、数据类型2的数据或者数据类型3的数据。假设第二数据中存在数据类型1的数据以及数据类型2的数据,那么,电子设备可以利用格式转换策略1,对第二数据中数据类型1的数据进行转换,并利用格式转换策略2,对第二数据中数据类型2的数据进行转换,以得到经转换后的第二数据,经转换后的第二数据可以作为经格式化处理后的第二数据。
具体地,数据类型1可以为视频数据播放量,格式转换策略1可以为转换为千分位形式,那么,假设第二数据中存在的视频数据播放量为100000,利用格式转换策略1对100000转换后得到的为100,000。数据类型2可以为视频播放收视率同时段占比,格式转换策略2可以为转换为百分位形式,那么,假设第二数据中存在的视频播放收视率同时段占比为0.083,利用格式转换策略2对0.083转换后得到的为8.3%。
在格式化处理完成后,电子设备可以通过显示屏显示、发送电子邮件等方式,输出经格式化处理后的第二数据,以满足输入第一查询请求的用户的查询需求。
可见,本实施例中,第二数据可以经格式化处理后再提供给用户,这样能够方便用户进行数据查阅。
下面结合图2,以一个具体的例子,对本实施例的具体实施过程进行详细说明。
如图2所示,首先可以收集影响ETL实现方式及落地存储的因素;其中,ETL实现方式可以认为是ETL处理框架,落地存储可以认为是ETL的目标数据库。接下来,可以构建训练样本,训练样本中包括大量的样本数据,这时,可以采用随机森林算法进行模型训练,以得到策略确定模型。
之后,对于新接入的数据(例如上文中的第一数据),可以依据策略确定模型选择ETL实现方式及落地存储,并配置实现逻辑及落地存储,这时,OozieWorkflow可以调度ETL,数据落地至db,该db即为依据策略确定模型选择的落地存储,即选择的目标数据库。
需要说明的是,可以预先配置前端页面查询数据的sql及查询的存储和连接信息,即配置上文中数据库与转换配置信息之间的对应关系,以及上文中各目标数据库的IP地址。在接收到查询请求(例如上文中的第一查询请求)时,nodejs可以拼接sql和发送查询请求(例如上文中的第二查询请求),相应地,db能够返回查询结果,电子设备的前端页面能够格式化数据(即进行数据的格式化处理),之后,前端页面可以展现数据。
综上,本实施例能够采用人工智能的方式选择ETL处理,不同数据展现基于配置,新数据接入无需开发接口,极大的降低了开发接口和选择ETL处理策略的工作量,从而降低成本。
参见图3,图中示出了本发明实施例提供的数据处理装置300的结构框图。数据处理装置300应用于电子设备,如图3所示,数据处理装置300包括:
第一获取模块301,用于获得待进行ETL处理的第一数据的数据属性信息;
第二获取模块302,用于将数据属性信息输入策略确定模型,获得由策略确定模型输出的ETL策略;
第一处理模块303,用于按照ETL策略,对第一数据进行萃取和转置处理,以得到第二数据,并将第二数据存储至目标数据库中。
可选地,数据处理装置300还包括:
接收模块,用于在将第二数据存储至目标数据库中之后,接收指向第二数据的第一查询请求;
第三获取模块,用于响应于第一查询请求,获取目标数据库中的第二数据;
第一输出模块,用于输出第二数据。
可选地,第三获取模块,包括:
第一转换单元,用于根据目标数据库对应的转换配置信息,将第一查询请求转换为目标数据库能够识别的第二查询请求;
发送单元,用于向目标数据库发送第二查询请求;
接收单元,用于接收目标数据库响应于第二查询请求返回的第二数据。
可选地,数据处理装置300还包括:
第四获取模块,用于在将第二数据存储至目标数据库中之后,获取目标数据库中的第二数据;
第二处理模块,用于对第二数据进行格式化处理;
第二输出模块,用于输出经格式化处理后的第二数据。
可选地,第二处理模块,包括:
确定单元,用于确定第二数据中第一数据类型的数据;其中,第一数据类型位于预设的,数据类型和格式转换策略之间的对应关系中;
第二转换单元,用于利用对应关系记录的,第一数据类型对应的第一格式转换策略,对第二数据中第一数据类型的数据进行格式转换。
可选地,第一数据的数据属性信息包括以下至少一项:
第一数据的数据量;
第一数据的数据格式;
第一数据的数据查询方式;
第一数据的源数据库。
本发明实施例中,针对待进行ETL处理的第一数据,可以将其的数据属性信息输入策略确定模型,以获得由策略确定模型输出的ETL策略。由于策略确定模型通过对大量的样本数据进行训练得到,策略确定模型输出的ETL策略的客观性和准确性都能够得到较好地保证,策略确定模型输出的ETL策略可以是用于进行第一数据的ETL处理的最优ETL策略。这样,按照策略确定模型输出的ETL策略,对第一数据进行ETL处理,处理效果能够得到非常有效地保证,例如,数据的存储性能和查询性能均能够得到保证。可见,与现有技术相比,本发明实施例中,基于数据属性信息和策略确定模型,能够提高进行数据的ETL处理时的处理效果。
参见图4,图中示出了本发明实施例提供的电子设备400的结构示意图。如图4所示,电子设备400包括:处理器401、存储器403、用户接口404和总线接口。
处理器401,用于读取存储器403中的程序,执行下列过程:
获得待进行ETL处理的第一数据的数据属性信息;
将数据属性信息输入策略确定模型,获得由策略确定模型输出的ETL策略;
按照ETL策略,对第一数据进行萃取和转置处理,以得到第二数据,并将第二数据存储至目标数据库中。
在图4中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器401代表的一个或多个处理器和存储器403代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。针对不同的用户设备,用户接口404还可以是能够外接内接需要设备的接口,连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。
处理器401负责管理总线架构和通常的处理,存储器403可以存储处理器401在执行操作时所使用的数据。
可选地,处理器401,还用于:
在将第二数据存储至目标数据库中之后,接收指向第二数据的第一查询请求;
响应于第一查询请求,获取目标数据库中的第二数据;
输出第二数据。
可选地,处理器401,具体用于:
根据目标数据库对应的转换配置信息,将第一查询请求转换为目标数据库能够识别的第二查询请求;
向目标数据库发送第二查询请求;
接收目标数据库响应于第二查询请求返回的第二数据。
可选地,处理器401,还用于:
在将第二数据存储至目标数据库中之后,获取目标数据库中的第二数据;
对第二数据进行格式化处理;
输出经格式化处理后的第二数据。
可选地,处理器401,具体用于:
确定第二数据中第一数据类型的数据;其中,第一数据类型位于预设的,数据类型和格式转换策略之间的对应关系中;
利用对应关系记录的,第一数据类型对应的第一格式转换策略,对第二数据中第一数据类型的数据进行格式转换。
可选地,第一数据的数据属性信息包括以下至少一项:
第一数据的数据量;
第一数据的数据格式;
第一数据的数据查询方式;
第一数据的源数据库。
可选地,策略确定模型为:以数据的数据属性信息作为输入内容,以数据进行ETL处理时使用的ETL策略作为输出内容,以随机森林算法作为训练算法进行训练得到的模型。
本发明实施例中,针对待进行ETL处理的第一数据,可以将其的数据属性信息输入策略确定模型,以获得由策略确定模型输出的ETL策略。由于策略确定模型通过对大量的样本数据进行训练得到,策略确定模型输出的ETL策略的客观性和准确性都能够得到较好地保证,策略确定模型输出的ETL策略可以是用于进行第一数据的ETL处理的最优ETL策略。这样,按照策略确定模型输出的ETL策略,对第一数据进行ETL处理,处理效果能够得到非常有效地保证,例如,数据的存储性能和查询性能均能够得到保证。可见,与现有技术相比,本发明实施例中,基于数据属性信息和策略确定模型,能够提高进行数据的ETL处理时的处理效果。
优选地,本发明实施例还提供一种电子设备,包括处理器401,存储器403,存储在存储器403上并可在所述处理器401上运行的计算机程序,该计算机程序被处理器401执行时实现上述数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (10)

1.一种数据处理方法,其特征在于,应用于电子设备,包括:
获得待进行ETL处理的第一数据的数据属性信息;
将所述数据属性信息输入策略确定模型,获得由所述策略确定模型输出的ETL策略;
按照所述ETL策略,对所述第一数据进行萃取和转置处理,以得到第二数据,并将所述第二数据存储至目标数据库中。
2.根据权利要求1所述的方法,其特征在于,所述将所述第二数据存储至目标数据库中之后,所述方法还包括:
接收指向所述第二数据的第一查询请求;
响应于所述第一查询请求,获取所述目标数据库中的所述第二数据;
输出所述第二数据。
3.根据权利要求2所述的方法,其特征在于,所述响应于所述第一查询请求,获取所述目标数据库中的所述第二数据,包括:
根据所述目标数据库对应的转换配置信息,将所述第一查询请求转换为所述目标数据库能够识别的第二查询请求;
向所述目标数据库发送所述第二查询请求;
接收所述目标数据库响应于所述第二查询请求返回的所述第二数据。
4.根据权利要求1所述的方法,其特征在于,所述将所述第二数据存储至目标数据库中之后,所述方法还包括:
获取所述目标数据库中的所述第二数据;
对所述第二数据进行格式化处理;
输出经格式化处理后的所述第二数据。
5.根据权利要求4所述的方法,其特征在于,所述对所述第二数据进行格式化处理,包括:
确定所述第二数据中第一数据类型的数据;其中,所述第一数据类型位于预设的,数据类型和格式转换策略之间的对应关系中;
利用所述对应关系记录的,所述第一数据类型对应的第一格式转换策略,对所述第二数据中所述第一数据类型的数据进行格式转换。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述第一数据的数据属性信息包括以下至少一项:
所述第一数据的数据量;
所述第一数据的数据格式;
所述第一数据的数据查询方式;
所述第一数据的源数据库。
7.一种数据处理装置,其特征在于,应用于电子设备,包括:
第一获取模块,用于获得待进行ETL处理的第一数据的数据属性信息;
第二获取模块,用于将所述数据属性信息输入策略确定模型,获得由所述策略确定模型输出的ETL策略;
第一处理模块,用于按照所述ETL策略,对所述第一数据进行萃取和转置处理,以得到第二数据,并将所述第二数据存储至目标数据库中。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
接收模块,用于在将所述第二数据存储至目标数据库中之后,接收指向所述第二数据的第一查询请求;
第三获取模块,用于响应于所述第一查询请求,获取所述目标数据库中的所述第二数据;
第一输出模块,用于输出所述第二数据。
9.一种电子设备,其特征在于,包括处理器,存储器,存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的数据处理方法的步骤。
CN201911272710.9A 2019-12-12 2019-12-12 数据处理方法、装置、电子设备及计算机可读存储介质 Pending CN112966031A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911272710.9A CN112966031A (zh) 2019-12-12 2019-12-12 数据处理方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911272710.9A CN112966031A (zh) 2019-12-12 2019-12-12 数据处理方法、装置、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN112966031A true CN112966031A (zh) 2021-06-15

Family

ID=76270964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911272710.9A Pending CN112966031A (zh) 2019-12-12 2019-12-12 数据处理方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112966031A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708917A (zh) * 2016-06-30 2017-05-24 腾讯科技(深圳)有限公司 一种数据处理方法、装置以及olap系统
CN108108439A (zh) * 2017-12-21 2018-06-01 北京奇艺世纪科技有限公司 一种数据查询方法、装置及电子设备
US20180218052A1 (en) * 2017-01-30 2018-08-02 Ca, Inc. Extensible data driven etl framework
CN108846076A (zh) * 2018-06-08 2018-11-20 山大地纬软件股份有限公司 支持接口适配的海量多源异构数据etl方法及系统
CN109977259A (zh) * 2019-03-28 2019-07-05 北京奇艺世纪科技有限公司 一种数据查询方法、装置及电子设备
CN110413669A (zh) * 2019-06-21 2019-11-05 深圳中琛源科技股份有限公司 一种基于etl的数据处理方法、装置、终端设备及存储介质
CN110515969A (zh) * 2019-07-08 2019-11-29 中国平安人寿保险股份有限公司 数据查询处理方法、电子装置、计算机设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708917A (zh) * 2016-06-30 2017-05-24 腾讯科技(深圳)有限公司 一种数据处理方法、装置以及olap系统
US20180218052A1 (en) * 2017-01-30 2018-08-02 Ca, Inc. Extensible data driven etl framework
CN108108439A (zh) * 2017-12-21 2018-06-01 北京奇艺世纪科技有限公司 一种数据查询方法、装置及电子设备
CN108846076A (zh) * 2018-06-08 2018-11-20 山大地纬软件股份有限公司 支持接口适配的海量多源异构数据etl方法及系统
CN109977259A (zh) * 2019-03-28 2019-07-05 北京奇艺世纪科技有限公司 一种数据查询方法、装置及电子设备
CN110413669A (zh) * 2019-06-21 2019-11-05 深圳中琛源科技股份有限公司 一种基于etl的数据处理方法、装置、终端设备及存储介质
CN110515969A (zh) * 2019-07-08 2019-11-29 中国平安人寿保险股份有限公司 数据查询处理方法、电子装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
WO2021114810A1 (zh) 基于图结构的公文推荐方法、装置、计算机设备及介质
CN107506383B (zh) 一种审计数据处理方法和计算机设备
CN105989076A (zh) 一种数据统计方法以及装置
CN105550206B (zh) 结构化查询语句的版本控制方法及装置
CN109241068A (zh) 前后台数据比对的方法、装置及终端设备
CN112052082B (zh) 任务属性优化方法、装置、服务器及存储介质
CN110569289A (zh) 基于大数据的列数据处理方法、设备及介质
CN110516057A (zh) 一种信访问题答复方法及装置
CN114253990A (zh) 数据库查询方法、装置、计算机设备和存储介质
CN110874366A (zh) 数据处理、查询方法和装置
CN111813902B (zh) 智能应答方法、系统及计算设备
CN116629215A (zh) 教学文档生成方法、装置、电子设备、存储介质
CN116402022A (zh) 文档生成方法、装置、电子设备及存储介质
CN112966031A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
US11562126B2 (en) Coaching system and coaching method
CN110032574A (zh) Sql语句的处理方法及装置
CN115577085A (zh) 表格问答任务的处理方法及设备
CN115543428A (zh) 一种基于策略模板的模拟数据生成方法和装置
TW202006617A (zh) 雲端自助分析平台與其分析方法
CN114417010A (zh) 面向实时工作流的知识图谱构建方法、装置和存储介质
CN113468258A (zh) 一种异构数据的转换方法、装置及存储介质
CN109542986B (zh) 网络数据的要素归一化方法、装置、设备及存储介质
CN112767933A (zh) 公路养护管理系统的语音交互方法、装置、设备及介质
CN113609271A (zh) 基于知识图谱的业务处理方法、装置、设备及存储介质
CN113741864A (zh) 基于自然语言处理的语义化服务接口自动设计方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination