CN114510487A - 数据表合并方法、装置、设备及存储介质 - Google Patents
数据表合并方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114510487A CN114510487A CN202210167652.9A CN202210167652A CN114510487A CN 114510487 A CN114510487 A CN 114510487A CN 202210167652 A CN202210167652 A CN 202210167652A CN 114510487 A CN114510487 A CN 114510487A
- Authority
- CN
- China
- Prior art keywords
- data
- field
- merging
- processed
- data table
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理,提供一种数据表合并方法、装置、设备及存储介质。该方法能够接收数据表合并请求;根据所述数据表合并请求识别出多个待处理数据表,每个所述待处理数据表包括主键;统计所述多个待处理数据表中每个所述合并字段的字段数量;根据所述字段数量检测所述多个待处理数据表对所述合并字段的生成准确度;根据所述生成准确度及所述合并字段从所述多个待处理数据表中采集业务数据;基于所述合并字段从配置表中定位出输出表;基于所述主键及多个所述合并字段的字段类型将所述业务数据并行写入至所述输出表中,得到目标数据表,能够提高数据表合并效率。此外,本发明还涉及区块链技术,所述目标数据表可存储于区块链中。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据表合并方法、装置、设备及存储介质。
背景技术
在实时指标开发过程中,为了提高开发效率,通常会将不同指标分发给不同的开发团队进行开发,因此,在对指标数据进行挖掘过程中,通常会有将数据表进行关联合并的需求。目前,通常采用维表拼接的方式实现数据表的合并,然而,由于这种方式会导致合并复杂性增加,造成数据表合并效率下降,不利于实时挖掘出有效信息。
发明内容
鉴于以上内容,有必要提供一种数据表合并方法、装置、设备及存储介质,能够提高数据表合并效率。
一方面,本发明提出一种数据表合并方法,所述数据表合并方法包括:
接收数据表合并请求;
根据所述数据表合并请求识别出多个待处理数据表,每个所述待处理数据表包括主键;
统计所述多个待处理数据表中每个所述合并字段的字段数量;
根据所述字段数量检测所述多个待处理数据表对所述合并字段的生成准确度;
根据所述生成准确度及所述合并字段从所述多个待处理数据表中采集业务数据;
基于所述合并字段从配置表中定位出输出表;
基于所述主键及多个所述合并字段的字段类型将所述业务数据并行写入至所述输出表中,得到目标数据表。
根据本发明优选实施例,所述根据所述数据表合并请求识别出多个待处理数据表包括:
解析所述数据表合并请求的报文,得到所述报文携带的数据信息;
从所述数据信息中提取数据库标识及键值维度;
将与所述数据库标识对应的数据库确定为目标数据库;
从所述目标数据库中筛选出与所述键值维度及预设状态均匹配的数据表作为所述多个待处理数据表。
根据本发明优选实施例,所述统计所述多个待处理数据表中每个所述合并字段的字段数量包括:
从每个所述待处理数据表中提取多个所述合并字段;
将每个所述合并字段写入预设查询指令中,得到每个所述合并字段的字段查询语句;
基于所述字段查询语句对所述多个待处理数据表进行查询,得到查询结果;
统计所述查询结果中数据表的数量,得到所述字段数量。
根据本发明优选实施例,所述根据所述字段数量检测所述多个待处理数据表对所述合并字段的生成准确度包括:
将所述字段数量大于或者等于预设数量的合并字段确定为重复字段;
基于所述重复字段从所述多个待处理数据表中筛选出多个待测数据表;
获取每个所述待测数据表的历史合并记录,并获取每个所述历史合并记录的合并准确度;
根据所述合并准确度计算每个所述待处理数据表对所述重复字段的生成准确度,包括:
其中,y是指所述生成准确度,x1、x2、…、xn分别是指所述合并准确度,k是指所述预设调整比例。
根据本发明优选实施例,所述根据所述生成准确度及所述合并字段从所述多个待处理数据表中采集业务数据包括:
将所述生成准确度最高的待测数据表确定为特征数据表;
从所述特征数据表中采集与所述重复字段对应的数据作为所述业务数据;
将小于所述预设数量的合并字段确定为单一字段;
从包含有所述单一字段的待处理数据表中采集与所述单一字段对应的数据作为所述业务数据。
根据本发明优选实施例,所述基于所述合并字段从配置表中定位出输出表包括:
从所述配置表中获取每个所述合并字段的索引表;
筛选出与全部合并字段对应的索引表作为初始表;
若所述初始表有多个,则获取每个所述初始表的运行状态;
将所述运行状态为配置状态的初始表确定为所述输出表。
根据本发明优选实施例,所述基于所述主键及多个所述合并字段的字段类型将所述业务数据并行写入至所述输出表中,得到目标数据表包括:
将每个所述合并字段所对应的业务数据与预设类型所对应的设定数据进行匹配,并将与该业务数据匹配成功的设定数据所对应的预设类型确定为所述字段类型;
从预设线程池中获取与所述字段类型对应的执行线程;
基于所述主键,通过所述执行线程将与所述字段类型对应的业务数据并行写入所述输出表中,得到所述目标数据表。
另一方面,本发明还提出一种数据表合并装置,所述数据表合并装置包括:
接收单元,用于接收数据表合并请求;
识别单元,用于根据所述数据表合并请求识别出多个待处理数据表,每个所述待处理数据表包括主键;
统计单元,用于统计所述多个待处理数据表中每个所述合并字段的字段数量;
检测单元,用于根据所述字段数量检测所述多个待处理数据表对所述合并字段的生成准确度;
采集单元,用于根据所述生成准确度及所述合并字段从所述多个待处理数据表中采集业务数据;
定位单元,用于基于所述合并字段从配置表中定位出输出表;
写入单元,用于基于所述主键及多个所述合并字段的字段类型将所述业务数据并行写入至所述输出表中,得到目标数据表。
另一方面,本发明还提出一种电子设备,所述电子设备包括:
存储器,存储计算机可读指令;及
处理器,执行所述存储器中存储的计算机可读指令以实现所述数据表合并方法。
另一方面,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被电子设备中的处理器执行以实现所述数据表合并方法。
由以上技术方案可以看出,本发明通过统计每个合并字段在所述多个待处理数据表中的字段数量,能够准确的筛选出需要进行检测分析的合并字段,通过检测所述多个待处理数据表对该合并字段的生成准确度,有利于从所述多个待处理数据表中准确的采集到与所述合并字段对应的业务数据,提高了所述目标数据表的生成准确度。此外,基于所述合并字段能够从配置表中定位出所述输出表,进而根据所述字段类型并行将所述业务数据写入至所述输出表中,由于能够直接定位出所述输出表,而无需对所述多个待处理数据表进行拼接处理,因此,能够提高所述业务数据的合并效率,同时,由于本发明并行对所述业务数据进行写入,因此能够进一步提高数据表合并效率。
附图说明
图1是本发明数据表合并方法的较佳实施例的流程图。
图2是本发明数据表合并装置的较佳实施例的功能模块图。
图3是本发明实现数据表合并方法的较佳实施例的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
如图1所示,是本发明数据表合并方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
所述数据表合并方法可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
所述数据表合并方法应用于一个或者多个电子设备中,所述电子设备是一种能够按照事先设定或存储的计算机可读指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字信号处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述电子设备可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能穿戴式设备等。
所述电子设备可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络电子设备、多个网络电子设备组成的电子设备组或基于云计算(CloudComputing)的由大量主机或网络电子设备构成的云。
所述电子设备所处的网络包括,但不限于:互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
S10,接收数据表合并请求。
在本发明的至少一个实施例中,所述数据表合并请求可以由任一业务人员触发生成。所述数据表合并请求中携带有用于指示所述数据库标识的标签、所述数据库标识、用于指示所述键值维度的标签及所述键值维度等。
在本发明的至少一个实施例中,所述电子设备对所述数据表合并请求的触发用户进行权限认证,当所述触发用户通过权限认证,所述电子设备接收所述数据表合并请求。
S11,根据所述数据表合并请求识别出多个待处理数据表,每个所述待处理数据表包括主键。
在本发明的至少一个实施例中,所述多个待处理数据表是指需要进行合并的数据表。
在本发明的至少一个实施例中,所述电子设备根据所述数据表合并请求识别出多个待处理数据表包括:
解析所述数据表合并请求的报文,得到所述报文携带的数据信息;
从所述数据信息中提取数据库标识及键值维度;
将与所述数据库标识对应的数据库确定为目标数据库;
从所述目标数据库中筛选出与所述键值维度及预设状态均匹配的数据表作为所述多个待处理数据表。
其中,所述数据信息包括,但不限于:用于指示所述数据库标识的标签、所述数据库标识、用于指示所述键值维度的标签及所述键值维度等。
所述键值维度是指所述主键所对应的维度,例如,所述键值维度可以是指所述主键所对应的键值的字符数量,例如,所述主键所对应的键值为abcdef,则所述键值维度为6。
所述预设状态是指未进行数据合并的状态。
通过解析所述报文,由于无需对整个请求进行解析,因此能够提高所述数据信息的解析效率,通过所述数据库标识能够准确的定位出所述目标数据库,进而通过所述键值维度及所述预设状态能够从所述目标数据库中筛选出需要进行数据表合并的多个待处理数据表。
S12,统计所述多个待处理数据表中每个所述合并字段的字段数量。
在本发明的至少一个实施例中,所述合并字段是指所述多个待处理数据表中所包含的字段,例如,所述合并字段可以是日期、业务销售量等。
所述字段数量是指所述合并字段在所述多个待处理数据表中的数量,例如,合并字段A在待处理数据表001及待处理数据表002中出现,则所述合并字段A的字段数量为2。
在本发明的至少一个实施例中,所述电子设备统计所述多个待处理数据表中每个所述合并字段的字段数量包括:
从每个所述待处理数据表中提取多个所述合并字段;
将每个所述合并字段写入预设查询指令中,得到每个所述合并字段的字段查询语句;
基于所述字段查询语句对所述多个待处理数据表进行查询,得到查询结果;
统计所述查询结果中数据表的数量,得到所述字段数量。
其中,所述预设查询指令是指不包含查询对象的SQL语句。
每个所述字段查询语句中有且仅包含唯一的合并字段。
所述查询结果为包含有相应查询字段的待处理数据表。
通过所述预设查询指令能够快速生成所述字段查询语句,进而基于所述字段查询语句对所述多个待处理数据表进行查询,提高所述查询结果的生成效率,由于所述查询结果为包含有相应查询字段的待处理数据表,因此,通过统计所述查询结果的数量能够准确的确定出所述字段数量。
S13,根据所述字段数量检测所述多个待处理数据表对所述合并字段的生成准确度。
在本发明的至少一个实施例中,所述生成准确度是指所述多个待处理数据表对重复字段的生成准确度,其中,所述重复字段是指所述字段数量大于或者等于预设数量的合并字段。所述预设数量通常设定为2。相应的,所述重复字段是指所述字段数量大于2的合并字段,例如,所述合并字段A的字段数量为2,则所述合并字段A为所述重复字段。
在本发明的至少一个实施例中,所述电子设备根据所述字段数量检测所述多个待处理数据表对所述合并字段的生成准确度包括:
将所述字段数量大于或者等于预设数量的合并字段确定为重复字段;
基于所述重复字段从所述多个待处理数据表中筛选出多个待测数据表;
获取每个所述待测数据表的历史合并记录,并获取每个所述历史合并记录的合并准确度;
根据所述合并准确度计算每个所述待处理数据表对所述重复字段的生成准确度,包括:
其中,y是指所述生成准确度,x1、x2、…、xn分别是指所述合并准确度,k是指所述预设调整比例。
其中,所述待测数据表是指包含有所述重复字段的待处理数据表。
所述历史合并记录是指所述待测数据表参与合并的记录。
所述合并准确度可以是审核用户针对所述历史合并记录进行标识的数值。
所述预设调整比例可以根据实际需求设定,本发明对此不再赘述。
通过所述字段数量与所述预设数量的比较能够准确的从所述合并字段中筛选出重复字段,进而根据所述重复字段筛选出所述多个待测数据表,避免了对不包含所述重复字段的待处理数据表进行分析,提高了所述生成准确度的生成有效性,进一步,根据每个待测数据表的历史合并记录及相应的合并准确度能够准确的生成每个待处理数据表对所述重复字段的生成准确度,同时由于无需对所有合并字段进行分析,能够提高所述生成准确度的检测效率。
S14,根据所述生成准确度及所述合并字段从所述多个待处理数据表中采集业务数据。
在本发明的至少一个实施例中,所述业务数据包括所述重复字段在特征数据表中的数据信息,单一字段在对应的待处理数据表中的数据信息。其中,所述特征数据表是指所述生成准确度最高的待测数据表,所述单一字段是指小于所述预设数量的合并字段。
在本发明的至少一个实施例中,所述电子设备根据所述生成准确度及所述合并字段从所述多个待处理数据表中采集业务数据包括:
将所述生成准确度最高的待测数据表确定为特征数据表;
从所述特征数据表中采集与所述重复字段对应的数据作为所述业务数据;
将小于所述预设数量的合并字段确定为单一字段;
从包含有所述单一字段的待处理数据表中采集与所述单一字段对应的数据作为所述业务数据。
通过上述实施方式,能够基于所述重复字段及所述单一字段采取相应的采集方式对所述业务数据进行采集,提高了所述业务数据的采集全面性。
S15,基于所述合并字段从配置表中定位出输出表。
在本发明的至少一个实施例中,所述配置表中存储有多个字段与该字段的索引表的映射关系。
所述输出表是指所述配置表中与全部合并字段对应的索引表。
在本发明的至少一个实施例中,所述电子设备基于所述合并字段从配置表中定位出输出表包括:
从所述配置表中获取每个所述合并字段的索引表;
筛选出与全部合并字段对应的索引表作为初始表;
若所述初始表有多个,则获取每个所述初始表的运行状态;
将所述运行状态为配置状态的初始表确定为所述输出表。
其中,所述初始表是指所述配置表中与全部合并字段对应的索引表,例如,合并字段B、合并字段C、合并字段D,若在所述配置表中,所述合并字段B、所述合并字段C、所述合并字段D均与索引表1、索引表2对应,则所述初始表为:所述索引表1及所述索引表2。
所述配置状态是指处于空闲状态的初始表,也就是说,所述输出表是指当前时刻没有进行数据写入的初始表。
通过所述配置表能够从所述索引表中快速的筛选出所述初始表,进而在所述初始表有多个时,通过多个所述初始表的运行状态选取所述输出表,由于所述输出表处于所述配置状态,因此无需在写入所述业务数据时无需等待其他数据写入,因此能够提高所述输出表的数据写入效率。
S16,基于所述主键及多个所述合并字段的字段类型将所述业务数据并行写入至所述输出表中,得到目标数据表。
需要强调的是,为进一步保证上述目标数据表的私密和安全性,上述目标数据表还可以存储于一区块链的节点中。
在本发明的至少一个实施例中,所述预设类型包括:数值型、字符型等。
所述目标数据表是指对所述待处理数据表进行合并后所生成的数据表。
在本发明的至少一个实施例中,所述电子设备基于所述主键及多个所述合并字段的字段类型将所述业务数据并行写入至所述输出表中,得到目标数据表包括:
将每个所述合并字段所对应的业务数据与预设类型所对应的设定数据进行匹配,并将与该业务数据匹配成功的设定数据所对应的预设类型确定为所述字段类型;
从预设线程池中获取与所述字段类型对应的执行线程;
基于所述主键,通过所述执行线程将与所述字段类型对应的业务数据并行写入所述输出表中,得到所述目标数据表。
其中,所述预设线程池中存储有多个闲置线程,每个闲置线程都有对应的处理类型。
通过将每个合并字段所对应的业务数据与预设类型所对应的设定数据进行匹配,能够准确的确定出所述字段类型,进而基于所述字段类型能够从所述预设线程池中获取对应的执行线程,从而提高所述执行线程对所述业务数据的写入效率,此外,通过多个所述执行线程对所述业务数据进行并行写入,能够进一步提高所述业务数据的写入效率。
由以上技术方案可以看出,本发明通过统计每个合并字段在所述多个待处理数据表中的字段数量,能够准确的筛选出需要进行检测分析的合并字段,通过检测所述多个待处理数据表对该合并字段的生成准确度,有利于从所述多个待处理数据表中准确的采集到与所述合并字段对应的业务数据,提高了所述目标数据表的生成准确度。此外,基于所述合并字段能够从配置表中定位出所述输出表,进而根据所述字段类型并行将所述业务数据写入至所述输出表中,由于能够直接定位出所述输出表,而无需对所述多个待处理数据表进行拼接处理,因此,能够提高所述业务数据的合并效率,同时,由于本发明并行对所述业务数据进行写入,因此能够进一步提高数据表合并效率。
如图2所示,是本发明数据表合并装置的较佳实施例的功能模块图。所述数据表合并装置11包括接收单元110、识别单元111、统计单元112、检测单元113、采集单元114、定位单元115及写入单元116。本发明所称的模块/单元是指一种能够被处理器13所获取,并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器12中。在本实施例中,关于各模块/单元的功能将在后续的实施例中详述。
接收单元110接收数据表合并请求。
在本发明的至少一个实施例中,所述数据表合并请求可以由任一业务人员触发生成。所述数据表合并请求中携带有用于指示所述数据库标识的标签、所述数据库标识、用于指示所述键值维度的标签及所述键值维度等。
在本发明的至少一个实施例中,所述接收单元110对所述数据表合并请求的触发用户进行权限认证,当所述触发用户通过权限认证,所述接收单元110接收所述数据表合并请求。
识别单元111根据所述数据表合并请求识别出多个待处理数据表,每个所述待处理数据表包括主键。
在本发明的至少一个实施例中,所述多个待处理数据表是指需要进行合并的数据表。
在本发明的至少一个实施例中,所述识别单元111根据所述数据表合并请求识别出多个待处理数据表包括:
解析所述数据表合并请求的报文,得到所述报文携带的数据信息;
从所述数据信息中提取数据库标识及键值维度;
将与所述数据库标识对应的数据库确定为目标数据库;
从所述目标数据库中筛选出与所述键值维度及预设状态均匹配的数据表作为所述多个待处理数据表。
其中,所述数据信息包括,但不限于:用于指示所述数据库标识的标签、所述数据库标识、用于指示所述键值维度的标签及所述键值维度等。
所述键值维度是指所述主键所对应的维度,例如,所述键值维度可以是指所述主键所对应的键值的字符数量,例如,所述主键所对应的键值为abcdef,则所述键值维度为6。
所述预设状态是指未进行数据合并的状态。
通过解析所述报文,由于无需对整个请求进行解析,因此能够提高所述数据信息的解析效率,通过所述数据库标识能够准确的定位出所述目标数据库,进而通过所述键值维度及所述预设状态能够从所述目标数据库中筛选出需要进行数据表合并的多个待处理数据表。
统计单元112统计所述多个待处理数据表中每个所述合并字段的字段数量。
在本发明的至少一个实施例中,所述合并字段是指所述多个待处理数据表中所包含的字段,例如,所述合并字段可以是日期、业务销售量等。
所述字段数量是指所述合并字段在所述多个待处理数据表中的数量,例如,合并字段A在待处理数据表001及待处理数据表002中出现,则所述合并字段A的字段数量为2。
在本发明的至少一个实施例中,所述统计单元112统计所述多个待处理数据表中每个所述合并字段的字段数量包括:
从每个所述待处理数据表中提取多个所述合并字段;
将每个所述合并字段写入预设查询指令中,得到每个所述合并字段的字段查询语句;
基于所述字段查询语句对所述多个待处理数据表进行查询,得到查询结果;
统计所述查询结果中数据表的数量,得到所述字段数量。
其中,所述预设查询指令是指不包含查询对象的SQL语句。
每个所述字段查询语句中有且仅包含唯一的合并字段。
所述查询结果为包含有相应查询字段的待处理数据表。
通过所述预设查询指令能够快速生成所述字段查询语句,进而基于所述字段查询语句对所述多个待处理数据表进行查询,提高所述查询结果的生成效率,由于所述查询结果为包含有相应查询字段的待处理数据表,因此,通过统计所述查询结果的数量能够准确的确定出所述字段数量。
检测单元113根据所述字段数量检测所述多个待处理数据表对所述合并字段的生成准确度。
在本发明的至少一个实施例中,所述生成准确度是指所述多个待处理数据表对重复字段的生成准确度,其中,所述重复字段是指所述字段数量大于或者等于预设数量的合并字段。所述预设数量通常设定为2。相应的,所述重复字段是指所述字段数量大于2的合并字段,例如,所述合并字段A的字段数量为2,则所述合并字段A为所述重复字段。
在本发明的至少一个实施例中,所述检测单元113根据所述字段数量检测所述多个待处理数据表对所述合并字段的生成准确度包括:
将所述字段数量大于或者等于预设数量的合并字段确定为重复字段;
基于所述重复字段从所述多个待处理数据表中筛选出多个待测数据表;
获取每个所述待测数据表的历史合并记录,并获取每个所述历史合并记录的合并准确度;
根据所述合并准确度计算每个所述待处理数据表对所述重复字段的生成准确度,包括:
其中,y是指所述生成准确度,x1、x2、…、xn分别是指所述合并准确度,k是指所述预设调整比例。
其中,所述待测数据表是指包含有所述重复字段的待处理数据表。
所述历史合并记录是指所述待测数据表参与合并的记录。
所述合并准确度可以是审核用户针对所述历史合并记录进行标识的数值。
所述预设调整比例可以根据实际需求设定,本发明对此不再赘述。
通过所述字段数量与所述预设数量的比较能够准确的从所述合并字段中筛选出重复字段,进而根据所述重复字段筛选出所述多个待测数据表,避免了对不包含所述重复字段的待处理数据表进行分析,提高了所述生成准确度的生成有效性,进一步,根据每个待测数据表的历史合并记录及相应的合并准确度能够准确的生成每个待处理数据表对所述重复字段的生成准确度,同时由于无需对所有合并字段进行分析,能够提高所述生成准确度的检测效率。
采集单元114根据所述生成准确度及所述合并字段从所述多个待处理数据表中采集业务数据。
在本发明的至少一个实施例中,所述业务数据包括所述重复字段在特征数据表中的数据信息,单一字段在对应的待处理数据表中的数据信息。其中,所述特征数据表是指所述生成准确度最高的待测数据表,所述单一字段是指小于所述预设数量的合并字段。
在本发明的至少一个实施例中,所述采集单元114根据所述生成准确度及所述合并字段从所述多个待处理数据表中采集业务数据包括:
将所述生成准确度最高的待测数据表确定为特征数据表;
从所述特征数据表中采集与所述重复字段对应的数据作为所述业务数据;
将小于所述预设数量的合并字段确定为单一字段;
从包含有所述单一字段的待处理数据表中采集与所述单一字段对应的数据作为所述业务数据。
通过上述实施方式,能够基于所述重复字段及所述单一字段采取相应的采集方式对所述业务数据进行采集,提高了所述业务数据的采集全面性。
定位单元115基于所述合并字段从配置表中定位出输出表。
在本发明的至少一个实施例中,所述配置表中存储有多个字段与该字段的索引表的映射关系。
所述输出表是指所述配置表中与全部合并字段对应的索引表。
在本发明的至少一个实施例中,所述定位单元115基于所述合并字段从配置表中定位出输出表包括:
从所述配置表中获取每个所述合并字段的索引表;
筛选出与全部合并字段对应的索引表作为初始表;
若所述初始表有多个,则获取每个所述初始表的运行状态;
将所述运行状态为配置状态的初始表确定为所述输出表。
其中,所述初始表是指所述配置表中与全部合并字段对应的索引表,例如,合并字段B、合并字段C、合并字段D,若在所述配置表中,所述合并字段B、所述合并字段C、所述合并字段D均与索引表1、索引表2对应,则所述初始表为:所述索引表1及所述索引表2。
所述配置状态是指处于空闲状态的初始表,也就是说,所述输出表是指当前时刻没有进行数据写入的初始表。
通过所述配置表能够从所述索引表中快速的筛选出所述初始表,进而在所述初始表有多个时,通过多个所述初始表的运行状态选取所述输出表,由于所述输出表处于所述配置状态,因此无需在写入所述业务数据时无需等待其他数据写入,因此能够提高所述输出表的数据写入效率。
写入单元116基于所述主键及多个所述合并字段的字段类型将所述业务数据并行写入至所述输出表中,得到目标数据表。
需要强调的是,为进一步保证上述目标数据表的私密和安全性,上述目标数据表还可以存储于一区块链的节点中。
在本发明的至少一个实施例中,所述预设类型包括:数值型、字符型等。
所述目标数据表是指对所述待处理数据表进行合并后所生成的数据表。
在本发明的至少一个实施例中,所述写入单元116基于所述主键及多个所述合并字段的字段类型将所述业务数据并行写入至所述输出表中,得到目标数据表包括:
将每个所述合并字段所对应的业务数据与预设类型所对应的设定数据进行匹配,并将与该业务数据匹配成功的设定数据所对应的预设类型确定为所述字段类型;
从预设线程池中获取与所述字段类型对应的执行线程;
基于所述主键,通过所述执行线程将与所述字段类型对应的业务数据并行写入所述输出表中,得到所述目标数据表。
其中,所述预设线程池中存储有多个闲置线程,每个所述闲置线程都有对应的处理类型。
通过将每个合并字段所对应的业务数据与预设类型所对应的设定数据进行匹配,能够准确的确定出所述字段类型,进而基于所述字段类型能够从所述预设线程池中获取对应的执行线程,从而提高所述执行线程对所述业务数据的写入效率,此外,通过多个所述执行线程对所述业务数据进行并行写入,能够进一步提高所述业务数据的写入效率。
由以上技术方案可以看出,本发明通过统计每个合并字段在所述多个待处理数据表中的字段数量,能够准确的筛选出需要进行检测分析的合并字段,通过检测所述多个待处理数据表对该合并字段的生成准确度,有利于从所述多个待处理数据表中准确的采集到与所述合并字段对应的业务数据,提高了所述目标数据表的生成准确度。此外,基于所述合并字段能够从配置表中定位出所述输出表,进而根据所述字段类型并行将所述业务数据写入至所述输出表中,由于能够直接定位出所述输出表,而无需对所述多个待处理数据表进行拼接处理,因此,能够提高所述业务数据的合并效率,同时,由于本发明并行对所述业务数据进行写入,因此能够进一步提高数据表合并效率。
如图3所示,是本发明实现数据表合并方法的较佳实施例的电子设备的结构示意图。
在本发明的一个实施例中,所述电子设备1包括,但不限于,存储器12、处理器13,以及存储在所述存储器12中并可在所述处理器13上运行的计算机可读指令,例如数据表合并程序。
本领域技术人员可以理解,所述示意图仅仅是电子设备1的示例,并不构成对电子设备1的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备1还可以包括输入输出设备、网络接入设备、总线等。
所述处理器13可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器13是所述电子设备1的运算核心和控制中心,利用各种接口和线路连接整个电子设备1的各个部分,及执行所述电子设备1的操作系统以及安装的各类应用程序、程序代码等。
示例性的,所述计算机可读指令可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器12中,并由所述处理器13执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该计算机可读指令段用于描述所述计算机可读指令在所述电子设备1中的执行过程。例如,所述计算机可读指令可以被分割成接收单元110、识别单元111、统计单元112、检测单元113、采集单元114、定位单元115及写入单元116。
所述存储器12可用于存储所述计算机可读指令和/或模块,所述处理器13通过运行或执行存储在所述存储器12内的计算机可读指令和/或模块,以及调用存储在存储器12内的数据,实现所述电子设备1的各种功能。所述存储器12可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。存储器12可以包括非易失性和易失性存储器,例如:硬盘、内存、插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他存储器件。
所述存储器12可以是电子设备1的外部存储器和/或内部存储器。进一步地,所述存储器12可以是具有实物形式的存储器,如内存条、TF卡(Trans-flash Card)等等。
所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一计算机可读存储介质中,该计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。
其中,所述计算机可读指令包括计算机可读指令代码,所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)。
本发明所指区块链是分布式数据表合并、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
结合图1,所述电子设备1中的所述存储器12存储计算机可读指令实现一种数据表合并方法,所述处理器13可执行所述计算机可读指令从而实现:
接收数据表合并请求;
根据所述数据表合并请求识别出多个待处理数据表,每个所述待处理数据表包括主键;
统计所述多个待处理数据表中每个所述合并字段的字段数量;
根据所述字段数量检测所述多个待处理数据表对所述合并字段的生成准确度;
根据所述生成准确度及所述合并字段从所述多个待处理数据表中采集业务数据;
基于所述合并字段从配置表中定位出输出表;
基于所述主键及多个所述合并字段的字段类型将所述业务数据并行写入至所述输出表中,得到目标数据表。
具体地,所述处理器13对上述计算机可读指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述计算机可读存储介质上存储有计算机可读指令,其中,所述计算机可读指令被处理器13执行时用以实现以下步骤:
接收数据表合并请求;
根据所述数据表合并请求识别出多个待处理数据表,每个所述待处理数据表包括主键;
统计所述多个待处理数据表中每个所述合并字段的字段数量;
根据所述字段数量检测所述多个待处理数据表对所述合并字段的生成准确度;
根据所述生成准确度及所述合并字段从所述多个待处理数据表中采集业务数据;
基于所述合并字段从配置表中定位出输出表;
基于所述主键及多个所述合并字段的字段类型将所述业务数据并行写入至所述输出表中,得到目标数据表。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。所述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种数据表合并方法,其特征在于,所述数据表合并方法包括:
接收数据表合并请求;
根据所述数据表合并请求识别出多个待处理数据表,每个所述待处理数据表包括主键;
统计所述多个待处理数据表中每个所述合并字段的字段数量;
根据所述字段数量检测所述多个待处理数据表对所述合并字段的生成准确度;
根据所述生成准确度及所述合并字段从所述多个待处理数据表中采集业务数据;
基于所述合并字段从配置表中定位出输出表;
基于所述主键及多个所述合并字段的字段类型将所述业务数据并行写入至所述输出表中,得到目标数据表。
2.如权利要求1所述的数据表合并方法,其特征在于,所述根据所述数据表合并请求识别出多个待处理数据表包括:
解析所述数据表合并请求的报文,得到所述报文携带的数据信息;
从所述数据信息中提取数据库标识及键值维度;
将与所述数据库标识对应的数据库确定为目标数据库;
从所述目标数据库中筛选出与所述键值维度及预设状态均匹配的数据表作为所述多个待处理数据表。
3.如权利要求1所述的数据表合并方法,其特征在于,所述统计所述多个待处理数据表中每个所述合并字段的字段数量包括:
从每个所述待处理数据表中提取多个所述合并字段;
将每个所述合并字段写入预设查询指令中,得到每个所述合并字段的字段查询语句;
基于所述字段查询语句对所述多个待处理数据表进行查询,得到查询结果;
统计所述查询结果中数据表的数量,得到所述字段数量。
5.如权利要求4所述的数据表合并方法,其特征在于,所述根据所述生成准确度及所述合并字段从所述多个待处理数据表中采集业务数据包括:
将所述生成准确度最高的待测数据表确定为特征数据表;
从所述特征数据表中采集与所述重复字段对应的数据作为所述业务数据;
将小于所述预设数量的合并字段确定为单一字段;
从包含有所述单一字段的待处理数据表中采集与所述单一字段对应的数据作为所述业务数据。
6.如权利要求1所述的数据表合并方法,其特征在于,所述基于所述合并字段从配置表中定位出输出表包括:
从所述配置表中获取每个所述合并字段的索引表;
筛选出与全部合并字段对应的索引表作为初始表;
若所述初始表有多个,则获取每个所述初始表的运行状态;
将所述运行状态为配置状态的初始表确定为所述输出表。
7.如权利要求1所述的数据表合并方法,其特征在于,所述基于所述主键及多个所述合并字段的字段类型将所述业务数据并行写入至所述输出表中,得到目标数据表包括:
将每个所述合并字段所对应的业务数据与预设类型所对应的设定数据进行匹配,并将与该业务数据匹配成功的设定数据所对应的预设类型确定为所述字段类型;
从预设线程池中获取与所述字段类型对应的执行线程;
基于所述主键,通过所述执行线程将与所述字段类型对应的业务数据并行写入所述输出表中,得到所述目标数据表。
8.一种数据表合并装置,其特征在于,所述数据表合并装置包括:
接收单元,用于接收数据表合并请求;
识别单元,用于根据所述数据表合并请求识别出多个待处理数据表,每个所述待处理数据表包括主键;
统计单元,用于统计所述多个待处理数据表中每个所述合并字段的字段数量;
检测单元,用于根据所述字段数量检测所述多个待处理数据表对所述合并字段的生成准确度;
采集单元,用于根据所述生成准确度及所述合并字段从所述多个待处理数据表中采集业务数据;
定位单元,用于基于所述合并字段从配置表中定位出输出表;
写入单元,用于基于所述主键及多个所述合并字段的字段类型将所述业务数据并行写入至所述输出表中,得到目标数据表。
9.一种电子设备,其特征在于,所述电子设备包括:
存储器,存储有计算机可读指令;及
处理器,执行所述存储器中存储的计算机可读指令以实现如权利要求1至7中任意一项所述的数据表合并方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被电子设备中的处理器执行以实现如权利要求1至7中任意一项所述的数据表合并方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210167652.9A CN114510487A (zh) | 2022-02-23 | 2022-02-23 | 数据表合并方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210167652.9A CN114510487A (zh) | 2022-02-23 | 2022-02-23 | 数据表合并方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114510487A true CN114510487A (zh) | 2022-05-17 |
Family
ID=81552668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210167652.9A Pending CN114510487A (zh) | 2022-02-23 | 2022-02-23 | 数据表合并方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114510487A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115185677A (zh) * | 2022-06-24 | 2022-10-14 | 湖南长银五八消费金融股份有限公司 | 业务数据合并总账方法、装置、计算机设备及介质 |
CN115827645A (zh) * | 2023-02-15 | 2023-03-21 | 畅捷通信息技术股份有限公司 | 一种跨业务领域的字段匹配方法、装置及存储介质 |
-
2022
- 2022-02-23 CN CN202210167652.9A patent/CN114510487A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115185677A (zh) * | 2022-06-24 | 2022-10-14 | 湖南长银五八消费金融股份有限公司 | 业务数据合并总账方法、装置、计算机设备及介质 |
CN115827645A (zh) * | 2023-02-15 | 2023-03-21 | 畅捷通信息技术股份有限公司 | 一种跨业务领域的字段匹配方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111488363B (zh) | 数据处理方法、装置、电子设备及介质 | |
CN112669138B (zh) | 数据处理方法及相关设备 | |
CN113283675B (zh) | 指标数据分析方法、装置、设备及存储介质 | |
CN114510487A (zh) | 数据表合并方法、装置、设备及存储介质 | |
CN112711398A (zh) | 埋点文件生成方法、装置、设备及存储介质 | |
CN114372060A (zh) | 数据存储方法、装置、设备及存储介质 | |
CN113900955A (zh) | 自动化测试方法、装置、设备及存储介质 | |
CN113918467A (zh) | 金融系统测试方法、装置、设备及存储介质 | |
CN114490692A (zh) | 数据核对方法、装置、设备及存储介质 | |
CN114116108A (zh) | 动态渲染方法、装置、设备及存储介质 | |
CN112199483B (zh) | 信息录入辅助方法、装置、电子设备及存储介质 | |
CN112819305A (zh) | 业务指标分析方法、装置、设备及存储介质 | |
CN112632098A (zh) | 结构化查询语句动态生成方法及相关设备 | |
CN111986771A (zh) | 医疗处方查询方法、装置、电子设备及存储介质 | |
CN115205032A (zh) | 征信查询方法、装置、设备及存储介质 | |
CN113516205B (zh) | 基于人工智能的员工稳定性分类方法及相关设备 | |
CN114238296A (zh) | 产品指标数据展示方法、装置、设备及存储介质 | |
CN113283677B (zh) | 指标数据处理方法、装置、设备及存储介质 | |
CN114692204A (zh) | 数据查询方法、装置、设备及存储介质 | |
CN114329095A (zh) | 系统逻辑图生成方法、装置、设备及存储介质 | |
CN113282218A (zh) | 多维报表生成方法、装置、设备及存储介质 | |
CN114841579A (zh) | 指标数据生成方法、装置、设备及存储介质 | |
CN113886263A (zh) | 系统测试方法、装置、设备及存储介质 | |
CN114003784A (zh) | 请求录制方法、装置、设备及存储介质 | |
CN114490262A (zh) | 数据库监控方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |