CN110908999A - 数据采集方式的确定方法及装置、存储介质、电子装置 - Google Patents

数据采集方式的确定方法及装置、存储介质、电子装置 Download PDF

Info

Publication number
CN110908999A
CN110908999A CN201911129905.8A CN201911129905A CN110908999A CN 110908999 A CN110908999 A CN 110908999A CN 201911129905 A CN201911129905 A CN 201911129905A CN 110908999 A CN110908999 A CN 110908999A
Authority
CN
China
Prior art keywords
data
data acquisition
acquisition mode
determining
data table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911129905.8A
Other languages
English (en)
Inventor
李龙飞
陈茂强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201911129905.8A priority Critical patent/CN110908999A/zh
Publication of CN110908999A publication Critical patent/CN110908999A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据采集方式的确定方法及装置、存储介质、电子装置,获取待进行数据采集的数据表的表情况,其中,所述表情况至少用于指示以下之一:所述数据表的数据量,所述数据表的表字段,所述数据表的视图情况;根据所述表情况确定对所述数据表的数据进行采集所采用的数据采集方式。通过本发明,解决了相关技术中,数据表的采集效率较低的问题,进而达到了在进行数据采集时,对不同的数据表情况,系统自动推荐数据采集技术,从而降低数据采集的技术门槛,提高了数据采集效率。

Description

数据采集方式的确定方法及装置、存储介质、电子装置
技术领域
本发明涉及通信领域,具体而言,涉及一种数据采集方式的确定方法及装置、存储介质、电子装置。
背景技术
随着IT应用建设的发展,数据成为了最重要的资源,无论是接地气的业务系统、应用软件、数据中心或是高大上的云/物/移/大/智,均是以数据资源为核心,依托发挥数据价值而存在和发展。目前,虽然各行业IT发展成熟度不一致,但基本已经度过了大批量业务系统建设阶段,业务系统也经过了几年的运转,积累了不同量级的数据资源。但因早期IT业务系统的很少跨部门、跨单位、跨层级的统一规划和建设,导致业务系统处于分散、独立的状况,业务间数据资源不仅处于烟囱状态,且数据资源的一致性和互用性较差,数据资源的价值无法充分发挥。基于这些问题需要建立数据采集系统将数据有机地采集起来,但由于数据表的复杂性,数据采集技术的差异性,数据采集系统无法仅使用一种数据采集技术就能满足所有数据表的采集需求。如:对数据表数据采集的技术有分布式JDBC、Spark、Sqoop,这三者针对表的不同情况又有不同配置的参数,因为情况的复杂性,在实际的数据采集过程中,需要人工去确认每一张表的数据情况,然后选择数据采集技术,配置采集参数,这对数据采集实施人员有较高的技术要求,同时操作过程中配置数据采集作业的效率较低。
针对相关技术中,数据表的采集效率较低问题,尚未提出解决方案。
发明内容
本发明实施例提供了一种数据采集方式的确定方法及装置、存储介质、电子装置,以至少解决了数据表的采集的效率较低的问题。
根据本发明的一个实施例,提供了一种数据采集方式的确定方法,包括:获取待进行数据采集的数据表的表情况,其中,表情况至少用于指示以下之一:数据表的数据量,数据表的表字段,数据表的视图情况;根据表情况确定对数据表的数据进行采集所采用的数据采集方式。
可选地,根据表情况确定对数据表的数据进行采集所采用的数据采集方式之后,所述方法还包括:确定数据采集方式所采用的采集参数。
可选地,根据表情况确定对数据表的数据进行采集所采用的数据采集方式,包括:在数据表的表数量小于预设阈值的情况下,确定数据采集方式为第一数据采集方式;在数据表的表数量大于预设阈值的情况下,确定表字段中是否存在指定字段类型;如果存在,则确定数据采集方式为第一数据采集方式;如果不存在,则确定视图情况是否指示数据表采用了策略前置条件调用视图,如果是,则确定数据采集方式为第一数据采集方式;如果不是,则确定数据采集方式为第二数据采集方式。
可选地,确定数据采集方式所采用的采集参数,包括:在数据采集方式为第二数据采集方式的情况下,确定第二数据采集方式的切分规则至少包括以下之一:数据表的分区规则,数据表的字段索引,数据表的字段类型。
可选地,确定数据采集方式所采用的采集参数之后,所述方法还包括:接收目标对象的指示信息;响应指示信息,保存采集参数,并根据保存的采集参数对数据表进行数据采集。
根据本发明的另一个实施例,提供了一种数据采集方式的确定装置,包括:获取模块,用于获取待进行数据采集的数据表的表情况,其中,表情况至少用于指示以下之一:数据表的数据量,数据表的表字段,数据表的视图情况;确定模块,用于根据表情况确定对数据表的数据进行采集所采用的数据采集方式。
可选地,确定模块,还用于确定数据采集方式所采用的采集参数。
可选地,确定模块,还用于在数据表的表数量小于预设阈值的情况下,确定数据采集方式为第一数据采集方式;在数据表的表数量大于预设阈值的情况下,确定表字段中是否存在指定字段类型;如果存在,则确定数据采集方式为第一数据采集方式;如果不存在,则确定视图情况是否指示数据表采用了策略前置条件调用视图,如果是,则确定数据采集方式为第一数据采集方式;如果不是,则确定数据采集方式为第二数据采集方式。
可选的,确定模块用于在所述数据采集方式为第二数据采集方式的情况下,确定所述第二数据采集方式的切分规则至少包括以下之一:所述数据表的分区规则,所述数据表的字段索引,所述数据表的字段类型。
可选的,确定模块还包括:接收子模块和响应子模块;接收子模块用于接收目标对象的指示信息;响应子模块用于响应所述指示信息,保存所述采集参数,并根据保存的采集参数对所述数据表进行数据采集。
根据本发明的又一个实施例,还提供了一种存储介质,存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述任一项数据采集方式的确定方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述任一项数据采集方式的确定方法实施例中的步骤。
通过本发明,获取待进行数据采集的数据表的表情况,其中,所述表情况至少用于指示以下之一:所述数据表的数据量,所述数据表的表字段,所述数据表的视图情况;根据所述表情况确定对所述数据表的数据进行采集所采用的数据采集方式。通过本发明,解决了数据表的采集的效率较低的问题,进而达到了在进行数据采集时,对不同的数据表情况,系统自动推荐数据采集技术,从而降低数据采集的技术门槛,提高了数据采集效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据发明实施例的数据采集方式的确定方法的移动终端的硬件结构框图;
图2是根据本发明实施例的数据采集方式的确定方法的流程图;
图3是根据本发明可选实施例的流程图;
图4是根据本发明实施例的数据采集方式的确定装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例所提供的数据采集方式的确定方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种数据采集方式的确定方法的移动终端的硬件结构框图。如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的数据采集方式的确定方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的数据采集方式的确定方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于移动终端的数据采集方式的确定方法,图2是根据本发明实施例的数据采集方式的确定方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取待进行数据采集的数据表的表情况,其中,表情况至少用于指示以下之一:数据表的数据量,数据表的表字段,数据表的视图情况;
步骤S204,根据表情况确定对数据表的数据进行采集所采用的数据采集方式。
通过上述步骤,通过获取待进行数据采集的数据表的表情况,其中,所述表情况至少用于指示以下之一:所述数据表的数据量,所述数据表的表字段,所述数据表的视图情况;根据所述表情况确定对所述数据表的数据进行采集所采用的数据采集方式。因此,解决了相关技术中,数据表的采集效率较低的问题,进而达到了在进行数据采集时,对不同的数据表情况,系统自动推荐数据采集技术,从而降低数据采集技术门槛,提高数据采集效率。
可选地,根据表情况确定对数据表的数据进行采集所采用的数据采集方式之后,上述方法还包括:确定数据采集方式所采用的采集参数。
在本发明的可选实施例中,通过提前设计好的采集需求,设置并确认数据表的数据采集格式(可以理解为上述实施例的数据表的表情况),例如,数据表的数据量、表结构、表索引,父子分区情况等信息。
通过本实施例,根据自定义数据表的采集参数,增强了数据表的适用范围,降低了数据数据采集技术门槛,提高数据采集效率。
可选地,根据表情况确定对数据表的数据进行采集所采用的数据采集方式,包括:在数据表的表数量小于预设阈值的情况下,确定数据采集方式为第一数据采集方式;在数据表的表数量大于预设阈值的情况下,确定表字段中是否存在指定字段类型;如果存在,则确定数据采集方式为第一数据采集方式;如果不存在,则确定视图情况是否指示数据表采用了策略前置条件调用视图(也可以称为执行存储过程临时取消策略),如果是,则确定数据采集方式为第一数据采集方式;如果不是,则确定数据采集方式为第二数据采集方式。
需要说明的是,系统根据数据表采集数据的多少来确定数据采集使用的采集方式,如果收集的数据量达到预设阈值以上的话,需要进一步确定,数据表中的表字段是否包含数据表指定字段类型,出现则以当前的数据采集方式为数据表的采集方式,如果数据表指定字段类型不存在,需要进一步根据该数据表是否包含策略前置条件调用视图来确定数据表的数据采集方式,有出现策略前置条件调用视图就确定当前数据采集方式为数据表第一数据采集方式,如果没有在需要采集的数据表中发现策略前置条件调用视图,则要使用第二数据采集方式进行数据表采集。
可选地,数据表的数据采集数量可以设置为400万条左右(实际操作中,也可以设置其他数值,本发明实施例对此不作限定),当采集的数据表的数据量低于400万时系统推荐采用JDBC引擎进行数据表信息抽取,若数据表采集信息超过400万,系统推荐采用spark引擎并行抽取,在数据表的数据量低于400万的情况下,判断数据表中是否出现特殊字段,例如:oracle空间类型SDO_GEOMETRY字段,则推荐采集引擎为JDBC,上述的数据表的数据量设置与数据表的特殊字段不仅限于此,也可以是其他数量设置,也可以是数据表的其他特殊字段,本发明实施例对此均不作限定。
通过本实施例,通过对数据表采集的数据量的多少,数据表中是否含有特殊字段,以及数据表中是否采用了策略前置条件调用视图,系统自动识别使用不同的数据表采集方式,大大的提高了数据的采集效率。
可选地,确定数据采集方式所采用的采集参数,包括:在数据采集方式为第二数据采集方式的情况下,确定第二数据采集方式的切分规则至少包括以下之一:数据表的分区规则,数据表的字段索引,数据表的字段类型。
作为一种可选的实施例,第二数据采集方式需要对数据表中的数据进行规则分区,例如,采集公司所有产品中不良产品的数据表,还可以根据数据表中的数据种类进行字段索引,例如,采集在一个固定区域内的同一种不良产品的数据表,还可以根据预先设置的数据表字段类型,对需要采集的数据信息进行目标化采集,保障数据表的抽取效率最优。
通过本实施例,第二数据采集方式根据数据表的分区规则,数据表的字段索引,数据表的字段类型等手段,来有效的防止采集到的数据表存在数据倾斜,提高了数据表采集效率和数据表数据采集的准确性。
可选地,确定数据采集方式所采用的采集参数之后,上述方法还包括:接收目标对象的指示信息;响应指示信息,保存采集参数,并根据保存的采集参数对数据表进行数据采集。
通过系统收到数据表采集指示信息,对预先设定的数据表表格进行信息采集,采集完成后发出通知对采集的数据表进行确定保存。采集的时段是一个任意的时间周期,可以根据需要进行周期设定,该周期可以是一天,一周,一月。
通过本实施例,数据表可以灵活的选择数据采集时间,不用实时跟进数据表的采集进度,提高了数据表的采集效率。
为了更好的理解上述数据采集方式的确定过程,以下结合一可选实施例对上述流程进行说明,但不用于限定本发明实施例的技术方案,包括以下步骤:
步骤1、自动对数据表进行探查,了解数据表的数据量、表结构、表索引,父子分区情况等信息;自动数据探查方法详细描述:查询数据库系统表,获取表数据量、表结构、表索引、索引字段的空值率、重复率,分区情况。
步骤2、根据数据探查情况,推荐采集技术及对应的参数配置;
通过java JDBC接口(提供独立于数据库统一的API)或者执行数据库系统表查询,采集元数据信息,包含表字段名称、字段注释、字段是否为主键或者外键、字段是否非空、字段是否是索引字段、字段数据类型、字段是否为分区字段、表数据量。
根据数据表中的采集数据量推荐采用采集引擎,规则如下:
(1)首先查询数据表数据量,查询数据量分为:查询系统表数据中数据量或者select count(1)from table查询数据表数据量,设置查询数据量时长,超过设置时长,默认超出400万条数据量。若数据表超过400万的表推荐采用spark引擎并行抽取,低于400万的表采取jdbc引擎抽取。
(2)如果数据库存在特殊字段类型,例如oracle空间类型SDO_GEOMETRY字段,则推荐采集引擎为JDBC。
(3)如果数据库数据表采用策略前置条件调用视图,则推荐采集引擎为JDBC。
(4)若进过上述检测是非JDBC引擎抽取数据表数据,则推荐Spark引擎抽取根据采集到的数据表信息,推荐数据表的按照切分规则,推荐切分规则如下:数据表分区>数据表字段索引>数据表字段类型。
分区表检测:系统检测接入数据表是否存在分区partition信息,若查询结果不为空,则判断该数据表是分区表,推荐spark引擎对该数据表每个分区作为一条SQL语句多线程进行数据抽取。oracle查询数据表是否分区:select count(1)from ALL_TAB_PARTITIONS,查询结果大于0,则数据表为分区表。
索引字段检测:通过上一步判断数据表不是分区表,则继续查看数据表索引字段。不同数据源类型的数据库推荐规则不一致,目前系统对mysql推荐规则:数据表int类型字段>date类型字段>string类型字段;oracle、postgres、SQLServer推荐规则:date类型>number类型>string类型。系统根据规则推荐三个切分字段供实施人员选择,可以有效的防止切片字段存在数据倾斜问题。系统会根据切片字段将数据表该字段最大值和最小值查询,查询数据表最大值与最小值安设定等分的进行划分,每一份的分片字段数据划分结果当做该数据表Where条件检索,支持多线程抽取该数据表。
字段类型选择:上述b检测均不满足的数据表,系统会推荐日期或数字类型字段进行分片采集,规则如上述b所述,数据表根据推荐配置,进行划分多条SQL进行多线程抽取数据表数据,保障数据抽取效率最优。
(5)通过上述推荐,如果数据表抽取效率仍然不客观,则选择Sqoop推荐方式,设置切分字段和切分数量,Sqoop会根据分片字段和切分数量底层进行该数据表多线程抽取。
可选地,Sqoop抽取数据时,需要制定split-by(分片字段)参数和num-mappers(切分数量)参数。Sqoop根据不同的split-by参数值来进行数据切分,然后将切分出来的区域分配到不同map中。每个map中再处理数据库中获取的一行一行的值,写入到HDFS中。同时split-by根据不同的参数类型有不同的切分方法,如比较简单的int型,Sqoop会取最大和最小split-by字段值,然后根据传入的num-mappers来确定划分几个区域。比如select max(split_by),min(split-by)from table得到的数据表max(split-by)和min(split-by)分别为1000和1,而num-mappers为2的话,则会分成两个区域(1,500)和(501-1000),同时也会分成2个sql给2个map去进行导入操作,分别为select*from table where split-by>=1and split-by<500和select*from table where split-by>=501and split-by<=1000。最后每个map各自获取各自SQL中的数据进行导入工作。
步骤3、数据采集人员确认推荐技术及配置参数。
在另一个可选实施例中,图3是根据上述发明实施例的数据采集方式的确定方式的流程图,如图3所示,该流程包括:
步骤S302,数据探查并记录数据表的信息;
步骤S304,根据数据探查的数据信息推荐应采用的技术及配置的参数;
步骤S306,数据工程师(相当于上述实施例的目标对象)通过页面确认参数配置及配置采集周期等其他参数;
步骤S308,保存数据采集作业配置;
步骤S310,作业按配置的周期、采集技术、参数运行。
通过本发明实施例的上述技术方案,自动对数据进行探查,自动根据数据探查结果推荐数据采集作业的最优采集技术及最优的参数配置,解决了现有技术仅对某一类型的数据表有较优的支持,而无法支持所有类型的数据表。上述实施例是集成了常用的数据采集技术,适配了所有数据类型的数据抽取,上述实施例可选流程是做了技术采用的自动推荐、参数的自动推荐,从而减少了数据工程师的工作量,最重要的是降低数据采集技术门槛,提高数据采集效率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种数据采集方式的确定装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本发明实施例的数据采集方式的确定装置的结构框图,如图4所示,该装置包括
(1)获取模块42,用于获取待进行数据采集的数据表的表情况,其中,所述表情况至少用于指示以下之一:所述数据表的数据量,所述数据表的表字段,所述数据表的视图情况;
(2)确定模块44,与获取模块42连接,用于根据所述表情况确定对所述数据表的数据进行采集所采用的数据采集方式。
通过上述技术方案,通过获取待进行数据采集的数据表的表情况,其中,所述表情况至少用于指示以下之一:所述数据表的数据量,所述数据表的表字段,所述数据表的视图情况;根据所述表情况确定对所述数据表的数据进行采集所采用的数据采集方式。因此,解决了数据采集的效率较低的问题,进而达到了在进行数据采集时,对不同的数据表情况,系统自动推荐数据采集技术,从而降低数据采集的技术门槛,提高数据采集的效率的效果。
可选地,确定模块44还用于确定数据采集方式所采用的采集参数。
在实施例中,通过提前设计好的采集需求,设置并通过确定模块44确认数据表的数据采集格式,例如,数据表的数据量、表结构、表索引,父子分区情况等信息,来确定数据分析需要采集的数据表的采集数量。
通过本实施例,根据自定义数据表的采集参数,增强了数据表的适用范围,降低了降数据数据采集技术门槛,提高数据采集效率。
可选地,确定模块44,还用于在数据表的表数量小于预设阈值的情况下,确定数据采集方式为第一数据采集方式;在数据表的表数量大于预设阈值的情况下,确定表字段中是否存在指定字段类型;如果存在,则确定数据采集方式为第一数据采集方式;如果不存在,则确定视图情况是否指示数据表采用了策略前置条件调用视图,如果是,则确定数据采集方式为第一数据采集方式;如果不是,则确定数据采集方式为第二数据采集方式。
需要说明的是,系统根据数据表采集数据的多少来确定数据采集使用的采集方式,如果收集的数据量达到预设阈值以上的话,需要进一步确定,数据表中的表字段是否包含数据表指定字段类型,出现则以当前的数据采集方式为数据表的采集方式,如果数据表指定字段类型不存在,需要进一步根据该数据表是否包含策略前置条件调用视图来确定数据表采集方式,有出现策略前置条件调用视图就确定当前数据采集方式为数据表第一采集方式,如果没有在需要采集的数据表中发现策略前置条件调用视图,则要使用第二数据采集方式进行数据表采集。例如,最优设置的系统数据表的数据采集数量约为400万条左右,当采集的数据表信息低于400万时系统推荐采用JDBC引擎进行数据表信息抽取,出现特殊字段,例如:oracle空间类型SDO_GEOMETRY字段,则推荐采集引擎为JDBC,上述的特殊字段不仅限于此,也可以是其他字段。若数据表采集信息超过400万,系统推荐采用spark引擎并行抽取。
通过本实施例,通过对数据表采集数据数量的多少进行划分,系统自动识别使用不同的数据表采集方式,大大的提高了数据的采集效率。
可选的,确定模块44,还用于在所述数据采集方式为第二数据采集方式的情况下,确定所述第二数据采集方式的切分规则至少包括以下之一:所述数据表的分区规则,所述数据表的字段索引,所述数据表的字段类型。
作为一种可选的实施例,第二数据采集方式需要对数据表中的数据进行规则分区,例如,采集公司所有产品中不良品产品的数据表,还可以根据数据表中的数据种类进行字段索引,例如,采集在一个固定区域内的同一种不良现象的数据表,还可以根据预先设置的数据表字段类型,对需要采集的数据信息进行目标化采集,保障数据表抽取效率最优。
通过本实施例,第二数据采集方式根据数据表的分区规则,数据表的字段索引,数据表的字段类型等手段,来有效的防止采集到的数据表存在数据倾斜,提高了数据表采集效率和数据表数据采集的准确性。
可选的,确定模块44还用于接收目标对象的指示信息;响应子模块用于响应所述指示信息,保存所述采集参数,并根据保存的采集参数对所述数据表进行数据采集。
通过系统收到数据表采集指示信息,对预先设定的数据表表格进行信息采集,采集完成后发出通知对采集的数据表进行确定保存。采集的时段是一个任意的时间周期,可以根据需要进行周期设定,该周期可以是一天,一周,一月。
通过本实施例,数据表可以灵活的选择数据采集时间,不用实时跟进数据表的采集进度,提高了数据表的采集效率。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取待进行数据采集的数据表的表情况,其中,表情况至少用于指示以下之一:数据表的数据量,数据表的表字段,数据表的视图情况;
S2,根据表情况确定对数据表的数据进行采集所采用的数据采集方式。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待进行数据采集的数据表的表情况,其中,表情况至少用于指示以下之一:数据表的数据量,数据表的表字段,数据表的视图情况;
S2,根据表情况确定对数据表的数据进行采集所采用的数据采集方式。可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据采集方式的确定方法,其特征在于,包括:
获取待进行数据采集的数据表的表情况,其中,所述表情况至少用于指示以下之一:所述数据表的数据量,所述数据表的表字段,所述数据表的视图情况;
根据所述表情况确定对所述数据表的数据进行采集所采用的数据采集方式。
2.根据权利要求1所述的方法,其特征在于,根据所述表情况确定对所述数据表的数据进行采集所采用的数据采集方式之后,所述方法还包括:
确定所述数据采集方式所采用的采集参数。
3.根据权利要求1所述的方法,其特征在于,根据所述表情况确定对所述数据表的数据进行采集所采用的数据采集方式,包括:
在所述数据表的表数量小于预设阈值的情况下,确定所述数据采集方式为第一数据采集方式;
在所述数据表的表数量大于预设阈值的情况下,确定所述表字段中是否存在指定字段类型;
如果存在,则确定所述数据采集方式为第一数据采集方式;
如果不存在,则确定所述视图情况是否指示所述数据表采用了策略前置条件调用视图,如果是,则确定数据采集方式为第一数据采集方式;如果不是,则确定所述数据采集方式为第二数据采集方式。
4.根据权利要求2所述的方法,其特征在于,确定所述数据采集方式所采用的采集参数,包括:
在所述数据采集方式为第二数据采集方式的情况下,确定所述第二数据采集方式的切分规则至少包括以下之一:所述数据表的分区规则,所述数据表的字段索引,所述数据表的字段类型。
5.根据权利要求2所述的方法,其特征在于,确定所述数据采集方式所采用的采集参数之后,所述方法还包括:
接收目标对象的指示信息;
响应所述指示信息,保存所述采集参数,并根据保存的采集参数对所述数据表进行数据采集。
6.一种数据采集方式的确定装置,其特征在于,包括:
获取模块,用于获取待进行数据采集的数据表的表情况,其中,所述表情况至少用于指示以下之一:所述数据表的数据量,所述数据表的表字段,所述数据表的视图情况;
确定模块,用于根据所述表情况确定对所述数据表的数据进行采集所采用的数据采集方式。
7.根据权利要求6所述的装置,其特征在于,所述确定模块,还用于确定所述数据采集方式所采用的采集参数。
8.根据权利要求6所述的装置,其特征在于,所述确定模块,还用于在所述数据表的表数量小于预设阈值的情况下,确定所述数据采集方式为第一数据采集方式;
在所述数据表的表数量大于预设阈值的情况下,确定所述表字段中是否存在指定字段类型;
如果存在,则确定所述数据采集方式为第一数据采集方式;
如果不存在,则确定所述视图情况是否指示所述数据表采用了策略前置条件调用视图,如果是,则确定数据采集方式为第一数据采集方式;如果不是,则确定所述数据采集方式为第二数据采集方式。
9.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至5任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至5任一项中所述的方法。
CN201911129905.8A 2019-11-18 2019-11-18 数据采集方式的确定方法及装置、存储介质、电子装置 Pending CN110908999A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911129905.8A CN110908999A (zh) 2019-11-18 2019-11-18 数据采集方式的确定方法及装置、存储介质、电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911129905.8A CN110908999A (zh) 2019-11-18 2019-11-18 数据采集方式的确定方法及装置、存储介质、电子装置

Publications (1)

Publication Number Publication Date
CN110908999A true CN110908999A (zh) 2020-03-24

Family

ID=69817805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911129905.8A Pending CN110908999A (zh) 2019-11-18 2019-11-18 数据采集方式的确定方法及装置、存储介质、电子装置

Country Status (1)

Country Link
CN (1) CN110908999A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611243A (zh) * 2020-05-13 2020-09-01 第四范式(北京)技术有限公司 数据处理方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090063398A1 (en) * 2007-08-31 2009-03-05 International Business Machines Corporation Statistics collection for database tables
CN104820670A (zh) * 2015-03-13 2015-08-05 国家电网公司 一种电力信息大数据的采集和存储方法
CN106055654A (zh) * 2016-06-01 2016-10-26 东软集团股份有限公司 异构数据的整合方法以及装置
CN108182963A (zh) * 2017-12-14 2018-06-19 山东浪潮云服务信息科技有限公司 一种医疗数据处理方法及装置
CN110019308A (zh) * 2017-12-28 2019-07-16 中国移动通信集团海南有限公司 数据查询方法、装置、设备及存储介质
CN110362563A (zh) * 2019-07-19 2019-10-22 北京明略软件系统有限公司 数据表的处理方法及装置、存储介质、电子装置
CN110442596A (zh) * 2019-07-30 2019-11-12 北京明略软件系统有限公司 数据库信息的获取方法、装置、存储介质及电子装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090063398A1 (en) * 2007-08-31 2009-03-05 International Business Machines Corporation Statistics collection for database tables
CN104820670A (zh) * 2015-03-13 2015-08-05 国家电网公司 一种电力信息大数据的采集和存储方法
CN106055654A (zh) * 2016-06-01 2016-10-26 东软集团股份有限公司 异构数据的整合方法以及装置
CN108182963A (zh) * 2017-12-14 2018-06-19 山东浪潮云服务信息科技有限公司 一种医疗数据处理方法及装置
CN110019308A (zh) * 2017-12-28 2019-07-16 中国移动通信集团海南有限公司 数据查询方法、装置、设备及存储介质
CN110362563A (zh) * 2019-07-19 2019-10-22 北京明略软件系统有限公司 数据表的处理方法及装置、存储介质、电子装置
CN110442596A (zh) * 2019-07-30 2019-11-12 北京明略软件系统有限公司 数据库信息的获取方法、装置、存储介质及电子装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨忠明: "《人工智能应用导论》", 31 October 2019 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611243A (zh) * 2020-05-13 2020-09-01 第四范式(北京)技术有限公司 数据处理方法及装置
CN111611243B (zh) * 2020-05-13 2023-06-13 第四范式(北京)技术有限公司 数据处理方法及装置

Similar Documents

Publication Publication Date Title
CN103390066B (zh) 一种数据库全局性自动化优化预警装置及其处理方法
CN105279276A (zh) 一种数据库索引优化系统
CN107168977B (zh) 一种数据查询的优化方法及装置
CN111723148B (zh) 数据存储方法及装置、存储介质、电子装置
CN111506569B (zh) 数据存储方法、装置、电子装置
CN103617508A (zh) 可配置的业务规则插件扩展装置和业务规则插件扩展方法
CN111324604A (zh) 数据库表的处理方法、装置、电子设备及存储介质
CN109379398A (zh) 一种数据同步方法及装置
CN113849499A (zh) 数据的查询方法、装置、存储介质及电子装置
CN110580293A (zh) 实体关系的存储方法及装置
CN105159925B (zh) 一种数据库集群数据分配方法及系统
CN110569129A (zh) 资源分配方法及装置、存储介质、电子装置
CN110908999A (zh) 数据采集方式的确定方法及装置、存储介质、电子装置
US20210216516A1 (en) Management of a secondary vertex index for a graph
CN110609924A (zh) 基于图数据的全量关系计算方法、装置、设备及存储介质
CN110716938A (zh) 数据的汇聚方法及装置、存储介质和电子装置
CN116010340A (zh) 一种数据表的管理方法及装置
CN109992468B (zh) 一种进程性能分析方法、装置、系统及计算机存储介质
CN115718879A (zh) 数据治理方法、装置以及存储介质
CN109902067B (zh) 文件处理方法、装置、存储介质及计算机设备
CN107422991B (zh) 一种存储策略管理系统
CN116226082A (zh) 数据库模型的生成方法、装置、存储介质及电子设备
CN110825729A (zh) 数据查询方法及装置、存储介质、电子装置
CN104537078B (zh) 一种基于滑块的目录索引优化方法
CN114048171A (zh) 图像数据的存储方法、装置、介质和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200324