CN111858600A - 数据宽表构建方法、装置、设备及存储介质 - Google Patents
数据宽表构建方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111858600A CN111858600A CN202010714913.5A CN202010714913A CN111858600A CN 111858600 A CN111858600 A CN 111858600A CN 202010714913 A CN202010714913 A CN 202010714913A CN 111858600 A CN111858600 A CN 111858600A
- Authority
- CN
- China
- Prior art keywords
- data
- splicing
- sub
- partition
- wide
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 30
- 238000005192 partition Methods 0.000 claims abstract description 132
- 238000013500 data storage Methods 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims description 38
- 238000006243 chemical reaction Methods 0.000 claims description 33
- 238000012216 screening Methods 0.000 claims description 15
- 230000003442 weekly effect Effects 0.000 claims description 9
- 238000013480 data collection Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 238000012795 verification Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005282 brightening Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/183—Tabulation, i.e. one-dimensional positioning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及大数据,公开了一种数据宽表构建方法,包括:获取待构建模型的需求信息,以确定对应的目标用户群体;收集目标用户群体对应的用户基础信息,结合预置数据宽表构建规则,配置待构建模型对应的包含用户身份字段的数据基准表;从多个预置数据存储分区中收集身份字段对应的特征数据;根据身份字段,采用异步线程方式分别将数据基准表数据与特征数据进行拼接,得到对应的多个数据分表;拼接多个数据分表数据,得到待构建模型所需的数据宽表。此外,本发明还涉及区块链技术,用户基础信息与特征信息可存储于区块链中。构建得到层次分明的数据宽表,便于验证不同层次的表格数据准确性,及时定位问题,使得后续用于建模时,提升其执行效率。
Description
技术领域
本发明涉及大数据处理,尤其涉及一种数据宽表构建方法、装置、设备及存储介质。
背景技术
在构建模型之前,通常需要构建数据宽表,而数据宽表由多张源表构成,通常指与建模相关的指标、维度、属性关联在一起的一张数据库表。宽表并不符合三范式的表格模型设计规范,而是将建模所需的所有数据拼接在一张表格中,虽然会带来数据的大量冗余,但预置相对应的好处是查询性能的提高与便捷,大大提升数据挖掘模型训练过程中迭代计算时的效率问题,典型的以空间换时间的数据存储格式,便有训练迭代,减少表关联数量,修改少量数据时不需要多张表格。
一般而言,将多张三范式的源表拼接成一张包括全数据的宽表,主要是通过串行拼接的方式来实现,即根据建模面对的目标人群构建数据基准表,然后根据源表的人群特征依次拼接至数据基准表中,而这样的源表拼接方式得到的宽表存在诸多弊端,其一是源表中的数据不限定在宽表中拼接位置,导致得到的宽表数据存储层次不明显,其二是拼接过程中难以验证表格中数据存储的准确性,其三是若源表发散则导致拼接至宽表的数据量暴增,综上所述,即现有技术中数据宽表的拼接方式得到的数据宽表容易导致后期建模执行效率低。
发明内容
本发明的主要目的在于解决通过现有拼接方式得到的数据宽表存在执行效率低的技术问题。
本发明第一方面提供了一种数据宽表构建方法,包括:
获取待构建模型的需求信息,并根据所述需求信息确定对应的目标用户群体;
收集所述目标用户群体对应的用户基础信息,并根据所述用户基础信息与预置数据宽表构建规则,配置所述待构建模型对应的数据基准表,其中,所述数据基准表中包含目标用户群体中用户的身份字段;
从多个预置数据存储分区中收集所述身份字段对应的特征数据;
根据所述身份字段,采用异步线程方式分别将所述数据基准表数据与所述特征数据进行拼接,得到对应的多个数据分表;
拼接所述多个数据分表数据,得到待构建模型所需的数据宽表。
可选地,在本发明第一方面的第一种实现方式中,所述根据所述用户基础信息与预置数据宽表构建规则,配置所述待构建模型对应的数据基准表包括:
解析所述用户基础信息,得到所述目标用户群体中用户的多种基础属性字段,其中,所述基础属性字段中包含所述身份字段;
根据所述需求信息,匹配所述基础属性字段对应的表格标题字段,得到用户基准框架表;
根据所述身份字段,将所述基础属性字段写入所述用户基准框架表中表格标题字段的对应位置,得到待构建模型对应的数据基准表。
可选地,在本发明第一方面的第二种实现方式中,在所述根据所述用户基础信息与预置数据宽表构建规则,配置所述待构建模型对应的数据基准表之后,还包括:
判断所述数据基准表中身份字段的对应位置是否存在相同的字段;
若存在,则生成对应的数据基准表配置错误的提示信息;
若不存在,则将所述模型的预置目标变量拼接至所述数据基准表中表格标题字段的对应位置;
根据所述目标变量和所述身份字段,计算所述数据基准表的基准转化率。
可选地,在本发明第一方面的第三种实现方式中,所述根据所述身份字段,采用异步线程方式分别将所述数据基准表数据与所述特征数据进行拼接,得到对应的多个数据分表包括:
统计所述多个数据存储分区中特征数据的拼接时间,并根据拼接时间对所述数据存储分区进行分类,所述数据存储分区的类别包括日分区、周分区和月分区;
将所述拼接时间写入拼接时间记录表中,并根据所述拼接时间记录表中的特征数据的前次拼接时间,从所述日分区、所述周分区或所述月分区中筛选出所述身份字段对应的特征数据;
对所述数据基准表中的基准数据与从所述日分区、所述周分区或所述月分区中筛选得到的当前特征数据进行拼接,得到对应的数据日表、数据周表或数据月表;
每隔预设周期,统计所述数据日表、所述数据周表或所述数据月表,得到对应的多个数据分表。
可选地,在本发明第一方面的第四种实现方式中,在所述根据所述身份字段,采用异步线程方式分别将所述数据基准表数据与所述特征数据进行拼接,得到对应的多个数据分表之后,还包括:
检测所述特征数据是否成功写入对应的数据分表;
若所述特征数据成功写入对应数据分表,则更新所述拼接时间记录表中的拼接时间记录;
若所述特征数据未成功写入对应的数据分表,则保留所述拼接时间记录表中的拼接时间记录,并生成特殊数据拼接失败的提示信息以标识所述特征数据的本次拼接时间。
可选地,在本发明第一方面的第五种实现方式中,在所述拼接所述多个数据分表数据,得到待构建模型所需的数据宽表之前,还包括:
检验所述数据分表中是否存在相同的身份字段;
若所述数据分表中存在相同的身份字段,则生成对应的数据分表拼接错误的提示信息并推送给开发者;
若所述数据分表中不存在相同的身份字段,则根据所述目标变量计算所述数据分表的基准转化率;
判断所述数据基准表与所述数据分表的基准转化率是否相等;
若所述数据基准表与所述数据分表的基准转化率相等,则将所述数据分表接入所述数据宽表的拼接线程;
若所述数据基准表与所述数据分表的基准转化率不相等,则生成对应的数据分表拼接错误的提示信息。
本发明第二方面提供了一种数据宽表构建装置,包括:
需求获取模块,用于获取待构建模型的需求信息,并根据所述需求信息确定对应的目标用户群体;
数据基准表配置模块,用于收集所述目标用户群体对应的用户基础信息,并根据所述用户基础信息与预置数据宽表构建规则,配置所述待构建模型对应的数据基准表,其中,所述数据基准表中包含目标用户群体中用户的身份字段;
特征数据收集模块,用于从多个预置数据存储分区中收集所述身份字段对应的特征数据;
数据分表生成模块,用于根据所述身份字段,采用异步线程方式分别将所述数据基准表数据与所述特征数据进行拼接,得到对应的多个数据分表;
数据宽表生成模块,用于拼接所述多个数据分表数据,得到待构建模型所需的数据宽表。
可选地,在本发明第二方面的第一种实现方式中,所述数据基准表配置模块还包括:
基础信息解析单元,用于解析所述用户基础信息,得到所述目标用户群体中用户的多种基础属性字段,其中,所述基础属性字段中包含所述身份字段;
表格标题匹配单元,用于根据所述需求信息,匹配所述基础属性字段对应的表格标题字段,得到用户基准框架表;
数据基准表生成单元,用于根据所述身份字段,将所述基础属性字段写入所述用户基准框架表中表格标题字段的对应位置,得到待构建模型对应的数据基准表。
可选地,在本发明第二方面的第二种实现方式中,所述数据宽表构建装置还包括第一数据发散预警模块,所述第一数据发散预警模块用于:
判断所述数据基准表中身份字段的对应位置是否存在相同的字段;
若存在,则生成对应的数据基准表配置错误的提示信息;
若不存在,则将所述模型的预置目标变量拼接至所述数据基准表中表格标题字段的对应位置;
根据所述目标变量和所述身份字段,计算所述数据基准表的基准转化率。
可选地,在本发明第二方面的第三种实现方式中,所述数据分表生成模块还包括:
拼接时间统计单元,用于统计所述多个数据存储分区中特征数据的拼接时间,并根据拼接时间对所述数据存储分区进行分类,所述数据存储分区的类别包括日分区、周分区和月分区;
数据筛选单元,用于将所述拼接时间写入拼接时间记录表中,并根据所述拼接时间记录表中的特征数据的前次拼接时间,从所述日分区、所述周分区或所述月分区中筛选出所述身份字段对应的特征数据;
数据分表生成单元,用于对所述数据基准表中的基准数据与从所述日分区、所述周分区或所述月分区中筛选得到的当前特征数据进行拼接,得到对应的数据日表、数据周表或数据月表;
数据分表统计单元,用于每隔预设周期,统计所述数据日表、所述数据周表或所述数据月表,得到对应的多个数据分表。
可选地,在本发明第二方面的第四种实现方式中,所述数据宽表构建装置还包括数据拼接预警模块,所述数据拼接预警模块包括:
数据检测单元,用于检测所述特征数据是否成功写入对应的数据分表;
拼接时间调整单元,用于若所述特征数据成功写入对应数据分表,则更新所述拼接时间记录表中的拼接时间记录;若所述特征数据未成功写入对应的数据分表,则保留所述拼接时间记录表中的拼接时间记录,并生成特殊数据拼接失败的提示信息以标识所述特征数据的本次拼接时间。
可选地,在本发明第二方面的第五种实现方式中,所述数据宽表构建装置还包括第二数据发散预警模块,所述第二数据发散预警模块包括:
身份字段检验单元,用于检验所述数据分表中是否存在相同的身份字段;
第一数据发散预警单元,用于若所述数据分表中存在相同的身份字段,则生成对应的数据分表拼接错误的提示信息并推送给开发者;
基准转化率判别单元,用于若所述数据分表中不存在相同的身份字段,则根据所述目标变量计算所述数据分表的基准转化率;判断所述数据基准表与所述数据分表的基准转化率是否相等;
第二数据发散预警单元,用于若所述数据基准表与所述数据分表的基准转化率相等,则将所述数据分表接入所述数据宽表的拼接线程;若所述数据基准表与所述数据分表的基准转化率不相等,则生成对应的数据分表拼接错误的提示信息。
本发明第三方面提供了一种数据宽表构建设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述数据宽表构建设备执行上述的数据宽表构建方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的数据宽表构建方法。
本发明提供的技术方案中,本发明通过收集建模需求对应的目标用户群体的用户基础信息,并以此为模型配置相应的数据基准表作为第一层数据需求表;再根据数据基准表设置不同类型的数据拼接任务,以拼接不同类型的特征数据与基准数据得到对应的数据分表作为第二层数据拼接表;在验证数据分表与数据基准表的基准转化率相同后,即可将多个数据分表拼接成对应的数据宽表,使得数据宽表中数据存储层次明显,数据冗余少,拼接过程中可以验证不同阶段的表格数据准确性,使得构建的数据宽表在后续用于建模时,提升其执行效率。
附图说明
图1为本发明实施例中数据宽表构建方法的第一个实施例示意图;
图2为本发明实施例中数据宽表构建方法的第二个实施例示意图;
图3为本发明实施例中数据宽表构建方法的第三个实施例示意图;
图4为本发明实施例中数据宽表构建方法的第四个实施例示意图;
图5为本发明实施例中数据宽表构建装置的一个实施例示意图;
图6为本发明实施例中数据宽表构建装置的另一个实施例示意图;
图7为本发明实施例中数据宽表构建设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种数据宽表构建方法、装置、设备及存储介质,本发明通过收集建模需求对应的目标用户群体的用户基础信息,并以此为模型配置相应的数据基准表作为第一层数据需求表;再根据数据基准表设置不同类型的数据拼接任务,以拼接不同类型的特征数据与基准数据得到对应的数据分表作为第二层数据拼接表;在验证数据分表与数据基准表的基准转化率相同后,即可将多个数据分表拼接成对应的数据宽表,使得数据宽表中数据存储层次明显,数据冗余少,拼接过程中可以验证不同阶段的表格数据准确性,使得构建的数据宽表在后续用于建模时,提升其执行效率。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中数据宽表构建方法的第一个实施例包括:
101、获取待构建模型的需求信息,并根据所述需求信息确定对应的目标用户群体;
可以理解的是,本发明的执行主体可以为数据宽表构建装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
本实施例中,在建模之前,需要为其构建数据宽表,首先需要根据建模需求圈定目标用户群体,例如建模需求要求近一年活跃的准客户人群,则需要从总的用户人群中剔除老客户、代理人、近一年内没有活跃的客户,则其余的用户即为我们的目标用户群体。
102、收集所述目标用户群体对应的用户基础信息,并根据所述用户基础信息与预置数据宽表构建规则,配置所述待构建模型对应的数据基准表,其中,所述数据基准表中包含目标用户群体中用户的身份字段;
本实施例中,在圈定目标用户群体之后,获取其用户基础信息,其中,用户基础信息包括用户的姓名、性别、财富、顾客编号、手机号码、身份证号码。
此处配置数据基准表的作用在于为建模所需的数据宽表搭建第一层数据需求表。将用户基础信息写入数据基准表中,一方面先获得建模所需的用户基础信息;另一方面是用户基础信息中包含的用于标识目标用户的字段,比如手机号码、身份证号码、顾客编号,数据基准表中应用这些标识目标用户的字段作为与其他源表数据拼接的身份字段,这也是预置数据宽表构建规则所要求的内容。
103、从多个预置数据存储分区中收集所述身份字段对应的特征数据;
本实施例中,为建模所需的特征数据开拓多个数据存储分区,再根据特征数据的特性对特征数据进行分类,并存储到不同的数据存储分区中。
具体的,根据特征数据拼接至数据宽表的频率,可将数据存储分区分为日分区、周分区、月分区,日分区中的特征数据以日为时间步长拼接至数据宽表,周分区中的特征数据以周为时间步长拼接至数据宽表,月分区中的特征数据以月为时间步长拼接至数据宽表;再根据特征数据本身的更新频率,以指定存储到日分区、周分区或月分区,比如数据基准表中的用户基础信息,填写之后用户不会再频繁更新,为了节约计算资源,可将其指定存储到月分区,每月拼接更新的用户基础信息至数据宽表中即可。
104、根据所述身份字段,采用异步线程方式分别将所述数据基准表数据与所述特征数据进行拼接,得到对应的多个数据分表;
本实施例中,另外,此处构建数据分表的作用在于为建模所需的数据宽表搭建第二层数据拼接表,对于日分区、周分区、月分区中的特征数据的拼接任务,采用多任务异步并行处理的方式进行,而每一个分区中的特征数据根据其数据更新时间由远至近与数据基准表中的基准数据进行拼接,即称为异步线程的控制方式。数据基准表中带有身份字段,多个数据存储分区的每条特征数据中亦带有该身份字段;在到达拼接时间时,以身份字段为索引值,从相应的数据存储分区中获取对应的特征数据,从数据基准表中获取对应的基准数据,再将获取的特征数据跟据特征数据更新时间由远至近与基准数据进行拼接,循环往复,拼接完所有的基准数据与特征数据后,即得到该数据存储分区对应的数据分表。拼接日分区中的特征数据得到数据日表,拼接周分区中的特征数据得到数据周表,拼接月分区中的特征数据得到数据月表。
具体的,假如A为身份字段,如下情况所示:
数据基准表有A、B字段,日分区有A,C字段,周分区有A,D字段,月分区有A,E字段;
数据基准表的字段拼接日分区的字段得到日表,则数据日表中有A、B、C字段;
数据基准表的字段拼接周分区的字段得到周表,则数据周表中有A、B、D字段;
数据基准表的字段拼接月分区的字段得到月表,则数据月表中有A、B、E字段。
105、拼接所述多个数据分表数据,得到待构建模型所需的数据宽表。
本实施例中,数据宽表为建模所需的第三层数据完整收集表,对于拼接得到数据日表、数据周表、数据月表之后,将三个表格拼接即可得到建模所需的数据宽表,其中,对于三个表格中的重复字段只需拼接一次即可。具体的,比如数据日表中有A、B、C字段;数据周表中有A、B、D字段;数据月表中有A、B、E字段;那么拼接数据日表、数据周表、数据月表得到的数据宽表中有A、B、C、D、E字段。
本发明通过收集建模需求对应的目标用户群体的用户基础信息,并以此为模型配置相应的数据基准表作为第一层数据需求表;再根据数据基准表设置不同类型的数据拼接任务,以拼接不同类型的特征数据与基准数据得到对应的数据分表作为第二层数据拼接表;在验证数据分表与数据基准表的基准转化率相同后,即可将多个数据分表拼接成对应的数据宽表,使得数据宽表中数据存储层次明显,数据冗余少,拼接过程中可以验证不同阶段的表格数据准确性,导致本发明构建的数据宽表在后续用于建模时,提升其执行效率。
需要强调的是,为进一步保证上述用户基础信息与特征信息的私密和安全性,上述用户基础信息与特征信息还可以存储于一区块链的节点中。
本发明实施例中,本发明通过收集建模需求对应的目标用户群体的用户基础信息,并以此为模型配置相应的数据基准表作为第一层数据需求表;再根据数据基准表设置不同类型的数据拼接任务,以拼接不同类型的特征数据与基准数据得到对应的数据分表作为第二层数据拼接表;在验证数据分表与数据基准表的基准转化率相同后,即可将多个数据分表拼接成对应的数据宽表,使得数据宽表中数据存储层次明显,数据冗余少,拼接过程中可以验证不同阶段的表格数据准确性,使得构建的数据宽表在后续用于建模时,提升其执行效率。
请参阅图2,本发明实施例中数据宽表构建方法的第二个实施例包括:
201、获取待构建模型的需求信息,并根据所述需求信息确定对应的目标用户群体;
202、收集所述目标用户群体对应的用户基础信息,并根据所述用户基础信息与预置数据宽表构建规则,配置所述待构建模型对应的数据基准表,其中,所述数据基准表中包含目标用户群体中用户的身份字段;
203、判断所述数据基准表中身份字段的对应位置是否存在相同的字段;
本实施例中,为了减少数据宽表中数据的冗余,从第一层数据需求表的搭建就需保证框架以不同的身份字段为主键时,数据基准表均不发散。因为后期特征数据与数据计表中的基准数据是根据身份字段进行拼接,若数据基准表中存在相同的身份字段,则会重复拼接相同的用户相关的特征字段到身份字段中。具体可通过“select count(Key),count(distinct(Key))from table”来计算数据基准表是否有发散的现象,该计算代码表示先选择表格中的主键,然后再计算相同主键的数量,即可确定是否存在相同的主键,当出现相同的主键时,即该表格发散。
204、若存在,则生成对应的数据基准表配置错误的提示信息;
本实施例中,当计算得到身份字段的数量超过1时,该数据基准表发散,反过来说即当该数据基准表发散时,亦表明该数据基准表中存在相同的身份字段,则需提示开发者对出现问题的身份字段及相关的其他基础属性字段作出调整。具体的,可通过亮化重复出现的身份字段所在的记录表行,并输出至客户端的纠错显示区域中以显示给开发者,并且在其后写明错误问题,以此构成一条完完整的数据基准表配置错的提示信息。
205、若不存在,则将所述模型的预置目标变量拼接至所述数据基准表中表格标题字段的对应位置;
本实施例中,将目标变量拼接至数据基准模型中的作用在于验证圈定人群的基准转化率,确保后期在拼接与用户相关的特征数据后,通过基准转化率验证特征数据拼接的准确性。每一个用户对应的用户基础信息作为控制变量,指向不同的目标变量,通过身份字段将目标变量拼接至用户对应的基础属性字段的记录表行中。比如,模型的目标变量为用户为潜力客户或用户为非潜力客户,先对不同用户设置初始的目标变量,若存在客户A、客户B、客户C、客户D、客户E的用户基础信息记录在数据基准表中,其中客户A身份字段为a且为非潜力客户、客户B身份字段为b且为非潜力客户、客户C身份字段为c且为潜力客户、客户D身份字段为d且为潜力客户、客户E身份字段为e且为非潜力客户,用户为潜力客户的记录字段为1,用户为非潜力客户的记录字段为0,则在a、b、e所在记录表行后拼接字段1,在c、d所在记录表行后拼接字段0。
206、根据所述目标变量和所述身份字段,计算所述数据基准表的基准转化率;
本实施例中,基准转化率计算方式为目标变量的圈定范围与全部用户数量,即与身份字段数量的比值,比如对于上一步骤中的客户A、客户B、客户C、客户D、客户E,作为潜力客户的基准转化率为:3/5=60%。
需要强调的是,为进一步保证上述用户基础信息与特征信息的私密和安全性,上述用户基础信息与特征信息还可以存储于一区块链的节点中。
207、从多个预置数据存储分区中收集所述身份字段对应的特征数据;
208、根据所述身份字段,采用异步线程方式分别将所述数据基准表数据与所述特征数据进行拼接,得到对应的多个数据分表;
209、拼接所述多个数据分表数据,得到待构建模型所需的数据宽表。
本发明实施例中,数据基表是数据宽表的第一层数据需求表,在搭建完成后检查其发散性,有助于保障数据宽表中第一层数据的正确性及数据宽表执行时发现问题时及时定位问题及解决问题。
请参阅图3,本发明实施例中数据宽表构建方法的第三个实施例包括:
301、获取待构建模型的需求信息,并根据所述需求信息确定对应的目标用户群体;
302、收集所述目标用户群体对应的用户基础信息,并根据所述用户基础信息与预置数据宽表构建规则,配置所述待构建模型对应的数据基准表,其中,所述数据基准表中包含目标用户群体中用户的身份字段;
303、从多个预置数据存储分区中收集所述身份字段对应的特征数据;
304、统计所述多个数据存储分区中特征数据的拼接时间,并根据拼接时间对所述数据存储分区进行分类,所述数据存储分区的类别包括日分区、周分区和月分区;
本实施例中,根据不同拼接时间区分数据存储分区,日分区的拼接时间步长为日,周分区的拼接时间步长为周,月分区的拼接时间步长为月,其作用在于不同数据存储分区的特征数据具有不同的特性,以该特征数据的特性对对应的数据存储分区进行分类,比如对于用户个人信息,用户一般很少更新其个人信息,所以对于该类特征数据的数据分区,可将拼接时间步长设置为月,归为月分区。
305、将所述拼接时间写入拼接时间记录表中,并根据所述拼接时间记录表中的特征数据的前次拼接时间,从所述日分区、所述周分区或所述月分区中筛选出所述身份字段对应的特征数据;
本实施例中,拼接时间记录表的作用在于控制不同数据存储分区中的特征数据与数据基准表中的基准数据的拼接时间,从第一次拼接时间开始,根据时间步长计算不同数据存储分区的特征数据的拼接时间,其中,不同数据存储分区记录在拼接时间记录表中不同的区域,异步执行,单独记录,而表中记载的时间最重要的时间节点为上次拼接时间与本次拼接时间。每到拼接时间记录表中的拼接时间时,只需拼接从拼接时间记录表中记载的上一次的拼接时间为止,到本次拼接时间之间更新的特征数据,根据时间由远到近对拼接数据存储分区中的更新特征数据与基准数据,得到对应的数据分表,其中,拼接时间记录表中不同分区的拼接时间相同时,同时执行特征数据的拼接任务。另外,以身份字段为索引值,搜索不同数据存储分区中的特征数据,即为符合建模需求的特征数据。
具体的,比如日分区中的特征数据第一次拼接时间为2020/4/9-14:59,则日时间记录分区中记录为:
第一次拼接时间:2020/4/5-14:59;第二次拼接时间:2020/4/6-14:59;......前次拼接时间:2020/4/11-14:59;本次拼接时间:2020/4/12-14:59;
另外,比如数据基准表中基准数据有A、B字段,其中A为身份字段,而日分区中特征数据1有A,C字段,特征数据2有A,D字段,特征数据3有B,E字段,通过A字段筛选出特征数据1与特征数据2。
306、对所述数据基准表中的基准数据与从所述日分区、所述周分区或所述月分区中筛选得到的当前特征数据进行拼接,得到对应的数据日表、数据周表或数据月表;
本实施例中,在筛选得到符合建模需求的特征数据后,根据特征数据的所所属数据存储分区,与基准数据进行拼接,即可得到相应的的数据分表。即日分区中的特征数据与基准数据进行拼接得到数据日表;周分区中的特征数据与基准数据进行拼接得到数据周表;月分区中的特征数据与基准数据进行拼接得到数据月表。此处数据分表的作用在于构建模型时,获取数据宽表中的数据发生错误时,本来难以检测是否为数据宽表对应存储区域中的数据本身为空,或者数据拼接错误,而此处构建数据分表可检测获取的特征数据是否为空,以此数据宽表中的数据获取错误时,确定问题的源头;另一方面,亦可初步检验每个数据分表的分散性,减少在拼接至数据宽表中发生数据冗余的情况。
具体的,数据基准表中基准数据有A、B字段,而日分区中特征数据1有A,C字段,特征数据2有A,D字段,通过A字段筛选出特征数据1与特征数据2后,拼接得到的数据日表中有A、B、C、D字段。
需要强调的是,为进一步保证上述用户基础信息与特征信息的私密和安全性,上述用户基础信息与特征信息还可以存储于一区块链的节点中。
307、每隔预设周期,统计所述数据日表、所述数据周表或所述数据月表,得到对应的多个数据分表;
308、拼接所述多个数据分表数据,得到待构建模型所需的数据宽表。
本发明实施例中,数据分表作为数据宽表的第二层数据拼接表,详细介绍了其按拼接周期的不同,采用异步线程拼接不同类别的数据得到对应的数据分表,一方面增加数据拼接执行效率,另一方面通过第二层数据拼接表的多个分表,易于检查数据的正确性及发散性。
请参阅图4,本发明实施例中数据宽表构建方法的第四个实施例包括:
401、获取待构建模型的需求信息,并根据所述需求信息确定对应的目标用户群体;
402、收集所述目标用户群体对应的用户基础信息,并根据所述用户基础信息与预置数据宽表构建规则,配置所述待构建模型对应的数据基准表,其中,所述数据基准表中包含目标用户群体中用户的身份字段;
403、从多个预置数据存储分区中收集所述身份字段对应的特征数据;
404、根据所述身份字段,采用异步线程方式分别将所述数据基准表数据与所述特征数据进行拼接,得到对应的多个数据分表;
405、检测所述特征数据是否成功写入对应的数据分表;
本实施例中,数据收集任务收集可能因为脚本故障而收集不到,但与用户的身份字段相关的特征数据,或者因为系统故障导致收集到特征数据但是未能全部写入特征数据缓存表格中,故需先判断数据收集任务是否成功收集得到特征数据,以确定是否数据更新错误的情况。
406、若所述特征数据成功写入对应数据分表,则更新所述拼接时间记录表中的拼接时间记录;
本实施例中,每次基准数据与特征数据拼接成功,则下次只需拼接本次拼接时间至下次拼接时间之间更新的特征数据,而拼接时间记录表中的前次拼接时间成为历史拼接时间记录,本次拼接时间更新为前次拼接时间,并且下次特征数据则以本次拼接时间为参照拼接对应的基准数据。
具体的,比如日分区中的特征数据第一次拼接时间为2020/4/9-14:59,则日时间记录分区中记录:
第一次拼接时间:2020/4/5-14:59;
第二次拼接时间:2020/4/6-14:59;
......
前次拼接时间:2020/4/11-14:59;
本次拼接时间:2020/4/12-14:59;
若本次数据分表成功拼接得到对应的特征数据后,则日时间记录分区更新为:
第一次拼接时间:2020/4/5-14:59;
第二次拼接时间:2020/4/6-14:59;
......
前次拼接时间:2020/4/12-14:59;
本次拼接时间:2020/4/13-14:59。
407、若所述特征数据未成功写入对应的数据分表,则保留所述拼接时间记录表中的拼接时间记录,并生成特殊数据拼接失败的提示信息以标识所述特征数据的本次拼接时间;
本实施例中,当特征数据与基准数据未能拼接成功,数据分表中只写入基准数据,则保留上一次的拼接时间在拼接时间记录表中,下次执行特征数据的拼接任务时,拼接从上一次的拼接时间至下一次的拼接时间之间更新的特征数据与对应的基准数据,生成对应的数据分表,防止丢失构建模型可用的数据样本。比如特征数据集合a在前次拼接时间与本次拼接时间更新,而本次特征数据与基准数据的拼接出现错误,导致特征数据集合a未写入数据分表中,则下次特征数据的拼接从前次拼接时间开始,否则会发生丢失特征数据集合a的情况。
具体的,比如日分区中的特征数据第一次拼接时间为2020/4/9-14:59,则日时间记录分区中记录:
第一次拼接时间:2020/4/5-14:59;
第二次拼接时间:2020/4/6-14:59;
......
前次拼接时间:2020/4/11-14:59;
本次拼接时间:2020/4/12-14:59;
若本次数据分表未成功拼接得到对应的特征数据,则日时间记录分区中记录:
第一次拼接时间:2020/4/5-14:59;
第二次拼接时间:2020/4/6-14:59;
......
前次拼接时间:2020/4/11-14:59;
前次+1次拼接时间:2020/4/12-14:59(拼接错误);
本次拼接时间:2020/4/13-14:59。
需要强调的是,为进一步保证上述用户基础信息与特征信息的私密和安全性,上述用户基础信息与特征信息还可以存储于一区块链的节点中。
408、拼接所述多个数据分表数据,得到待构建模型所需的数据宽表。
本发明实施例中,介绍了数据分表拼接准确性与分散性的检验,保证最后由数据分表中的数据拼接得到的数据宽表不分散及录入正确。
上面对本发明实施例中数据宽表构建方法进行了描述,下面对本发明实施例中数据宽表构建装置进行描述,请参阅图5,本发明实施例中数据宽表构建装置一个实施例包括:
需求获取模块501,用于获取待构建模型的需求信息,并根据所述需求信息确定对应的目标用户群体;
数据基准表配置模块502,用于收集所述目标用户群体对应的用户基础信息,并根据所述用户基础信息与预置数据宽表构建规则,配置所述待构建模型对应的数据基准表,其中,所述数据基准表中包含目标用户群体中用户的身份字段;
特征数据收集模块503,用于从多个预置数据存储分区中收集所述身份字段对应的特征数据;
数据分表生成模块504,用于根据所述身份字段,采用异步线程方式分别将所述数据基准表数据与所述特征数据进行拼接,得到对应的多个数据分表;
数据宽表生成模块505,用于拼接所述多个数据分表数据,得到待构建模型所需的数据宽表。
需要强调的是,为进一步保证上述用户基础信息与特征信息的私密和安全性,上述用户基础信息与特征信息还可以存储于一区块链的节点中。
本发明实施例中,本发明通过收集建模需求对应的目标用户群体的用户基础信息,并以此为模型配置相应的数据基准表作为第一层数据需求表;再根据数据基准表设置不同类型的数据拼接任务,以拼接不同类型的特征数据与基准数据得到对应的数据分表作为第二层数据拼接表;在验证数据分表与数据基准表的基准转化率相同后,即可将多个数据分表拼接成对应的数据宽表,使得数据宽表中数据存储层次明显,数据冗余少,拼接过程中可以验证不同阶段的表格数据准确性,使得构建的数据宽表在后续用于建模时,提升其执行效率。
请参阅图6,本发明实施例中数据宽表构建装置的另一个实施例包括:
需求获取模块601,用于获取待构建模型的需求信息,并根据所述需求信息确定对应的目标用户群体;
数据基准表配置模块602,用于收集所述目标用户群体对应的用户基础信息,并根据所述用户基础信息与预置数据宽表构建规则,配置所述待构建模型对应的数据基准表,其中,所述数据基准表中包含目标用户群体中用户的身份字段;
特征数据收集模块603,用于从多个预置数据存储分区中收集所述身份字段对应的特征数据;
数据分表生成模块604,用于根据所述身份字段,采用异步线程方式分别将所述数据基准表数据与所述特征数据进行拼接,得到对应的多个数据分表;
数据宽表生成模块605,用于拼接所述多个数据分表数据,得到待构建模型所需的数据宽表。
具体的,所述数据基准表配置模块602还包括:
基础信息解析单元6021,用于解析所述用户基础信息,得到所述目标用户群体中用户的多种基础属性字段,其中,所述基础属性字段中包含所述身份字段;
表格标题匹配单元6022,用于根据所述需求信息,匹配所述基础属性字段对应的表格标题字段,得到用户基准框架表;
数据基准表生成单元6023,用于根据所述身份字段,将所述基础属性字段写入所述用户基准框架表中表格标题字段的对应位置,得到待构建模型对应的数据基准表。
具体的,所述数据宽表构建装置还包括第一数据发散预警模块606,所述第一数据发散预警模块606用于:
判断所述数据基准表中身份字段的对应位置是否存在相同的字段;
若存在,则生成对应的数据基准表配置错误的提示信息;
若不存在,则将所述模型的预置目标变量拼接至所述数据基准表中表格标题字段的对应位置;
根据所述目标变量和所述身份字段,计算所述数据基准表的基准转化率。
具体的,所述数据分表生成模块604还包括:
拼接时间统计单元6041,用于统计所述多个数据存储分区中特征数据的拼接时间,并根据拼接时间对所述数据存储分区进行分类,所述数据存储分区的类别包括日分区、周分区和月分区;;
数据筛选单元6042,用于将所述拼接时间写入拼接时间记录表中,并根据所述拼接时间记录表中的特征数据的前次拼接时间,从所述日分区、所述周分区或所述月分区中筛选出所述身份字段对应的特征数据;;
数据分表生成单元6043,用于对所述数据基准表中的基准数据与从所述日分区、所述周分区或所述月分区中筛选得到的当前特征数据进行拼接,得到对应的数据日表、数据周表或数据月表;
数据分表统计单元6044,用于每隔预设周期,统计所述数据日表、所述数据周表或所述数据月表,得到对应的多个数据分表。
具体的,所述数据宽表构建装置还包括数据拼接预警模块607,所述数据拼接预警模块607包括:
数据检测单元6071,用于检测所述特征数据是否成功写入对应的数据分表;
拼接时间调整单元6072,用于若所述特征数据成功写入对应数据分表,则更新所述拼接时间记录表中的拼接时间记录;若所述特征数据未成功写入对应的数据分表,则保留所述拼接时间记录表中的拼接时间记录,并生成特殊数据拼接失败的提示信息以标识所述特征数据的本次拼接时间。
具体的,所述数据宽表构建装置还包括第二数据发散预警模块608,所述第二数据发散预警模块608包括:
身份字段检验单元6081,用于检验所述数据分表中是否存在相同的身份字段;
第一数据发散预警单元6082,用于若所述数据分表中存在相同的身份字段,则生成对应的数据分表拼接错误的提示信息并推送给开发者;
基准转化率判别单元6083,用于若所述数据分表中不存在相同的身份字段,则根据所述目标变量计算所述数据分表的基准转化率;判断所述数据基准表与所述数据分表的基准转化率是否相等;
第二数据发散预警单元6084,用于若所述数据基准表与所述数据分表的基准转化率相等,则将所述数据分表接入所述数据宽表的拼接线程;若所述数据基准表与所述数据分表的基准转化率不相等,则生成对应的数据分表拼接错误的提示信息。
需要强调的是,为进一步保证上述用户基础信息与特征信息的私密和安全性,上述用户基础信息与特征信息还可以存储于一区块链的节点中。
本发明实施例中,数据基表是数据宽表的第一层数据需求表,在搭建完成后检查其发散性,有助于保障数据宽表中第一层数据的正确性及数据宽表执行时发现问题时及时定位问题及解决问题;数据分表作为数据宽表的第二层数据拼接表,详细介绍了其按拼接周期的不同,采用异步线程拼接不同类别的数据得到对应的数据分表,一方面增加数据拼接执行效率,另一方面通过第二层数据拼接表的多个分表,易于检查数据的正确性及发散性,保证最后由数据分表中的数据拼接得到的数据宽表不分散及录入正确,使得构建的数据宽表在后续用于建模时,提升其执行效率。
上面图5和图6从模块化功能实体的角度对本发明实施例中的数据宽表构建装置进行详细描述,下面从硬件处理的角度对本发明实施例中数据宽表构建设备进行详细描述。
图7是本发明实施例提供的一种数据宽表构建设备的结构示意图,该数据宽表构建设备700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)710(例如,一个或一个以上处理器)和存储器720,一个或一个以上存储应用程序733或数据732的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器720和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据宽表构建设备700中的一系列指令操作。更进一步地,处理器710可以设置为与存储介质730通信,在数据宽表构建设备700上执行存储介质730中的一系列指令操作。
数据宽表构建设备700还可以包括一个或一个以上电源740,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口760,和/或,一个或一个以上操作系统731,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图7示出的数据宽表构建设备结构并不构成对数据宽表构建设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述数据宽表构建方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种数据宽表构建方法,其特征在于,所述数据宽表构建方法包括:
获取待构建模型的需求信息,并根据所述需求信息确定对应的目标用户群体;
收集所述目标用户群体对应的用户基础信息,并根据所述用户基础信息与预置数据宽表构建规则,配置所述待构建模型对应的数据基准表,其中,所述数据基准表中包含目标用户群体中用户的身份字段;
从多个预置数据存储分区中收集所述身份字段对应的特征数据;
根据所述身份字段,采用异步线程方式分别将所述数据基准表数据与所述特征数据进行拼接,得到对应的多个数据分表;
拼接所述多个数据分表数据,得到待构建模型所需的数据宽表。
2.根据权利要求1所述的数据宽表构建方法,其特征在于,所述根据所述用户基础信息与预置数据宽表构建规则,配置所述待构建模型对应的数据基准表包括:
解析所述用户基础信息,得到所述目标用户群体中用户的多种基础属性字段,其中,所述基础属性字段中包含所述身份字段;
根据所述需求信息,匹配所述基础属性字段对应的表格标题字段,得到用户基准框架表;
根据所述身份字段,将所述基础属性字段写入所述用户基准框架表中表格标题字段的对应位置,得到待构建模型对应的数据基准表。
3.根据权利要求2所述的数据宽表构建方法,其特征在于,在所述根据所述用户基础信息与预置数据宽表构建规则,配置所述待构建模型对应的数据基准表之后,还包括:
判断所述数据基准表中身份字段的对应位置是否存在相同的字段;
若存在,则生成对应的数据基准表配置错误的提示信息;
若不存在,则将所述模型的预置目标变量拼接至所述数据基准表中表格标题字段的对应位置;
根据所述目标变量和所述身份字段,计算所述数据基准表的基准转化率。
4.根据权利要求1所述的数据宽表构建方法,其特征在于,所述根据所述身份字段,采用异步线程方式分别将所述数据基准表数据与所述特征数据进行拼接,得到对应的多个数据分表包括:
统计所述多个数据存储分区中特征数据的拼接时间,并根据拼接时间对所述数据存储分区进行分类,所述数据存储分区的类别包括日分区、周分区和月分区;
将所述拼接时间写入拼接时间记录表中,并根据所述拼接时间记录表中的特征数据的前次拼接时间,从所述日分区、所述周分区或所述月分区中筛选出所述身份字段对应的特征数据;
对所述数据基准表中的基准数据与从所述日分区、所述周分区或所述月分区中筛选得到的当前特征数据进行拼接,得到对应的数据日表、数据周表或数据月表;
每隔预设周期,统计所述数据日表、所述数据周表或所述数据月表,得到对应的多个数据分表。
5.根据权利要求4所述的数据宽表构建方法,其特征在于,在所述根据所述身份字段,采用异步线程方式分别将所述数据基准表数据与所述特征数据进行拼接,得到对应的多个数据分表之后,还包括:
检测所述特征数据是否成功写入对应的数据分表;
若所述特征数据成功写入对应数据分表,则更新所述拼接时间记录表中的拼接时间记录;
若所述特征数据未成功写入对应的数据分表,则保留所述拼接时间记录表中的拼接时间记录,并生成特殊数据拼接失败的提示信息以标识所述特征数据的本次拼接时间。
6.根据权利要求1-5中任一项所述的数据宽表构建方法,其特征在于,在所述拼接所述多个数据分表数据,得到待构建模型所需的数据宽表之前,还包括:
检验所述数据分表中是否存在相同的身份字段;
若所述数据分表中存在相同的身份字段,则生成对应的数据分表拼接错误的提示信息并推送给开发者;
若所述数据分表中不存在相同的身份字段,则根据所述目标变量计算所述数据分表的基准转化率;
判断所述数据基准表与所述数据分表的基准转化率是否相等;
若所述数据基准表与所述数据分表的基准转化率相等,则将所述数据分表接入所述数据宽表的拼接线程;
若所述数据基准表与所述数据分表的基准转化率不相等,则生成对应的数据分表拼接错误的提示信息。
7.一种数据宽表构建装置,其特征在于,所述数据宽表构建装置包括:
需求获取模块,用于获取待构建模型的需求信息,并根据所述需求信息确定对应的目标用户群体;
数据基准表配置模块,用于收集所述目标用户群体对应的用户基础信息,并根据所述用户基础信息与预置数据宽表构建规则,配置所述待构建模型对应的数据基准表,其中,所述数据基准表中包含目标用户群体中用户的身份字段;
特征数据收集模块,用于从多个预置数据存储分区中收集所述身份字段对应的特征数据;
数据分表生成模块,用于根据所述身份字段,采用异步线程方式分别将所述数据基准表数据与所述特征数据进行拼接,得到对应的多个数据分表;
数据宽表生成模块,用于拼接所述多个数据分表数据,得到待构建模型所需的数据宽表。
8.根据权利要求7所述的数据宽表构建装置,其特征在于,所述数据分表生成模块包括:
拼接时间统计单元,用于统计所述多个数据存储分区中特征数据的拼接时间,并根据拼接时间对所述数据存储分区进行分类,所述数据存储分区的类别包括日分区、周分区和月分区;
数据筛选单元,用于将所述拼接时间写入拼接时间记录表中,并根据所述拼接时间记录表中的特征数据的前次拼接时间,从所述日分区、所述周分区或所述月分区中筛选出所述身份字段对应的特征数据;
数据分表生成单元,用于对所述数据基准表中的基准数据与从所述日分区、所述周分区或所述月分区中筛选得到的当前特征数据进行拼接,得到对应的数据日表、数据周表或数据月表;
数据分表统计单元,用于每隔预设周期,统计所述数据日表、所述数据周表或所述数据月表,得到对应的多个数据分表。
9.一种数据宽表构建设备,其特征在于,所述数据宽表构建设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述数据宽表构建设备执行如权利要求1-6中任一项所述的数据宽表构建方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的数据宽表构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010714913.5A CN111858600B (zh) | 2020-07-23 | 2020-07-23 | 数据宽表构建方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010714913.5A CN111858600B (zh) | 2020-07-23 | 2020-07-23 | 数据宽表构建方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111858600A true CN111858600A (zh) | 2020-10-30 |
CN111858600B CN111858600B (zh) | 2024-02-09 |
Family
ID=72949664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010714913.5A Active CN111858600B (zh) | 2020-07-23 | 2020-07-23 | 数据宽表构建方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111858600B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113535817A (zh) * | 2021-07-13 | 2021-10-22 | 浙江网商银行股份有限公司 | 特征宽表生成及业务处理模型的训练方法和装置 |
CN113641659A (zh) * | 2021-08-30 | 2021-11-12 | 平安医疗健康管理股份有限公司 | 医疗特征数据库构建方法、装置、设备及存储介质 |
CN115080575A (zh) * | 2022-08-23 | 2022-09-20 | 深圳市金政软件技术有限公司 | 组件化的表格生成方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109446197A (zh) * | 2018-09-26 | 2019-03-08 | 深圳壹账通智能科技有限公司 | 用户信息处理方法、装置、计算机设备及存储介质 |
CN109697066A (zh) * | 2018-12-28 | 2019-04-30 | 第四范式(北京)技术有限公司 | 实现数据表拼接及自动训练机器学习模型的方法和系统 |
WO2020000126A1 (en) * | 2018-06-25 | 2020-01-02 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for generating a wide table |
CN111428458A (zh) * | 2020-03-03 | 2020-07-17 | 中国平安人寿保险股份有限公司 | 通用报表生成方法、装置及计算机可读存储介质 |
-
2020
- 2020-07-23 CN CN202010714913.5A patent/CN111858600B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020000126A1 (en) * | 2018-06-25 | 2020-01-02 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for generating a wide table |
CN109446197A (zh) * | 2018-09-26 | 2019-03-08 | 深圳壹账通智能科技有限公司 | 用户信息处理方法、装置、计算机设备及存储介质 |
CN109697066A (zh) * | 2018-12-28 | 2019-04-30 | 第四范式(北京)技术有限公司 | 实现数据表拼接及自动训练机器学习模型的方法和系统 |
CN111428458A (zh) * | 2020-03-03 | 2020-07-17 | 中国平安人寿保险股份有限公司 | 通用报表生成方法、装置及计算机可读存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113535817A (zh) * | 2021-07-13 | 2021-10-22 | 浙江网商银行股份有限公司 | 特征宽表生成及业务处理模型的训练方法和装置 |
CN113535817B (zh) * | 2021-07-13 | 2024-05-14 | 浙江网商银行股份有限公司 | 特征宽表生成及业务处理模型的训练方法和装置 |
CN113641659A (zh) * | 2021-08-30 | 2021-11-12 | 平安医疗健康管理股份有限公司 | 医疗特征数据库构建方法、装置、设备及存储介质 |
CN115080575A (zh) * | 2022-08-23 | 2022-09-20 | 深圳市金政软件技术有限公司 | 组件化的表格生成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111858600B (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111858600B (zh) | 数据宽表构建方法、装置、设备及存储介质 | |
Prowell et al. | Cleanroom software engineering: technology and process | |
US20220350780A1 (en) | System and method for extracting a star schema from tabular data for use in a multidimensional database environment | |
Staron et al. | A framework for developing measurement systems and its industrial evaluation | |
CN107851105B (zh) | 具有副本位置选择的分布式存储系统 | |
US20060025984A1 (en) | Automatic validation and calibration of transaction-based performance models | |
US7685468B2 (en) | Method and system for test case generation | |
US8005860B1 (en) | Object-level database performance management | |
US20060075399A1 (en) | System and method for resource usage prediction in the deployment of software applications | |
CN113342939B (zh) | 数据质量监控方法、装置及相关设备 | |
CN114490375A (zh) | 应用程序的性能测试方法、装置、设备及存储介质 | |
CN115203167A (zh) | 数据检测方法、装置、计算机设备和存储介质 | |
CN114398669A (zh) | 基于隐私保护计算和跨组织的联合信用评分方法及装置 | |
CN113900955A (zh) | 自动化测试方法、装置、设备及存储介质 | |
US20060025981A1 (en) | Automatic configuration of transaction-based performance models | |
CN112732242A (zh) | 宽表加工脚本的生成方法及装置 | |
CN115759742A (zh) | 企业风险评估方法、装置、计算机设备和存储介质 | |
CN114860819A (zh) | 商业智能系统的构建方法、装置、设备和存储介质 | |
CN115525575A (zh) | 一种基于Dataworks平台的数据自动化测试方法及系统 | |
US11379444B1 (en) | Data-analysis-based facility for adjusting trace fields of a database trace | |
CN112749197B (zh) | 数据分片刷新方法、装置、设备及存储介质 | |
CN112579458A (zh) | 精算系统的测试方法、装置、设备及存储介质 | |
US20060100845A1 (en) | Multiple stream real time data simulation adapted for a KStore data structure | |
US20230010147A1 (en) | Automated determination of accurate data schema | |
CN114327377B (zh) | 需求跟踪矩阵生成方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |