CN114003666A - 数据表字段图谱生成方法、装置、电子设备及存储介质 - Google Patents
数据表字段图谱生成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114003666A CN114003666A CN202111223623.1A CN202111223623A CN114003666A CN 114003666 A CN114003666 A CN 114003666A CN 202111223623 A CN202111223623 A CN 202111223623A CN 114003666 A CN114003666 A CN 114003666A
- Authority
- CN
- China
- Prior art keywords
- field
- dimension
- data table
- category
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
- G06F16/287—Visualization; Browsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种数据表字段图谱生成方法、装置、电子设备及存储介质,所述方法:根据各个字段的类型确定维度字段和度量字段;根据维度字段的类型、特征信息以及待处理数据表的特征信息,确定维度字段的推荐分数,根据维度字段的类型和推荐分数,对维度字段进行分类得到维度字段的类别,确定度量字段的类别,根据待处理数据表的特征信息、度量字段的特征信息,确定度量字段的推荐分数;最后根据各个维度字段的类别和推荐分数、度量字段的类别和推荐分数,生成待处理数据表的字段图谱。本发明提供的字段图谱生成方法能够使具有海量数据的数据表中的数据准确显示,为后续数据表校对、字段推荐提供了基础,提高了数据表处理的效率,提升了用户体验。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及数据表字段图谱生成方法、装置、电子设备及存储介质。
背景技术
在数据标准化工作中,随着新的数据表不断接入到数据库中,同时随着大数据技术飞速发展,数据的准确性以及数据表的字段关系识别的质量对数据所能产出的价值至关重要。
数据表是由表中的字段和各个字段所对应单元格的数据组成的。其中,数据表中的字段大致分为两类:维度字段和度量字段,维度字段是指“分类字段”,用于描述问题是什么的字段;维度字段的类型包括日期时间类型、日期类型、时间类型、字符串类型等;度量字段是用于描述数量多少的字段,如数值类型。
在现有技术中,为了对数据表中的数据进行更好的展示,一般采用柱状图、扇形图或折线图的形式,这种常规的数据展示方式只适合数据量较小的情况,面对海量数据的情况下并不适合。
发明内容
基于现有技术中存在的问题,本发明提出一种数据表字段图谱生成方法、装置、电子设备及存储介质,解决了海量数据情况下无法将数据表中的数据更好展示的技术问题,提高了数据表字段显示的准确率和效率,为后续数据表校对、字段推荐提供基础,具有提高数据表处理效率和提升用户体验的优点。
第一方面,本发明提供一种数据表字段图谱生成方法,包括:
确定待处理数据表中的各个字段的类型,根据所述字段的类型确定所述待处理数据表中的维度字段以及度量字段;其中,所述维度字段用于描述对应单元格中的数据所表示的含义,所述度量字段用于描述对应单元格中的数据所表示的数量;
根据维度字段的类型、维度字段的特征信息以及所述待处理数据表的特征信息,确定所述维度字段的推荐分数;
根据维度字段的类型以及所述维度字段的推荐分数,对所述待处理数据表中的维度字段进行分类,得到维度字段的类别;
确定度量字段的类别,并根据待处理数据表的特征信息、度量字段的特征信息,确定所述度量字段的推荐分数;
根据所述待处理数据表中各个维度字段的类别、各个维度字段的推荐分数、各个度量字段的类别以及各个度量字段的推荐分数,生成所述待处理数据表的字段图谱。
进一步,根据本发明提供的数据表字段图谱生成方法,所述根据维度字段的类型、维度字段的特征信息以及所述待处理数据表的特征信息,确定所述维度字段的推荐分数,包括:
获取待处理数据表的特征信息;
根据待处理数据表中第一维度字段所对应的单元格集合中的数据分布情况以及第一维度字段在所述待处理数据表中的分布情况,获取待处理数据表中第一维度字段的第一特征信息;其中,所述第一维度字段是所述待处理数据表中的任意一个维度字段;
根据待处理数据表中各个维度字段的类型以及所述第一维度字段与待处理数据包中其他维度字段的关系,获取所述第一维度字段的第二特征信息;
将所述待处理数据表的特征信息、所述第一维度字段的第一特征信息以及所述第一维度字段的第二特征信息输入预先训练的维度字段推荐模型,得到所述第一维度字段的推荐分数;
其中,所述维度字段推荐模型是基于样本数据表的特征信息、样本数据表中第二维度字段的第一特征信息、第二维度字段的第二特征信息以及第二维度字段的推荐分数标签训练得到的;其中,所述第二维度字段是样本数据表中的任意一个或多个维度字段。
进一步,根据本发明提供的数据表字段图谱生成方法,所述待处理数据表的特征信息包括待处理数据表的描述特征与待处理数据表的分类特征;
相应的,所述获取待处理数据表的特征信息,包括:
获取待处理数据表的描述特征;
获取待处理数据表的分类特征。
进一步,根据本发明提供的数据表字段图谱生成方法,所述第一维度字段的第一特征信息包括第一维度字段的描述特征信息和位置特征信息;相应的,所述根据待处理数据表中第一维度字段所对应的单元格集合中的数据分布情况以及第一维度字段在所述待处理数据表中的分布情况,获取待处理数据表中第一维度字段的第一特征信息,包括:
获取所述第一维度字段的描述特征信息;
获取所述第一维度字段的位置特征信息。
进一步,根据本发明提供的数据表字段图谱生成方法,所述根据待处理数据表中各个维度字段的类型以及所述第一维度字段与待处理数据表中其他维度字段的关系,获取所述第一维度字段的第二特征信息,包括:
根据待处理数据表中各个维度字段的类型,获取所述待处理数据表中与所述第一维度字段具有相同类型的维度字段的个数;
根据第一维度字段与待处理数据表中其他维度字段的关系,获取所述待处理数据表中与所述第一维度字段是父亲关系的维度字段的个数;
根据第一维度字段与待处理数据表中其他维度字段的关系,获取所述待处理数据表中与所述第一维度字段是儿子关系的维度字段的个数;
根据第一维度字段与待处理数据表中其他维度字段的关系,获取所述待处理数据表中与所述第一维度字段类型相同且是父亲关系的维度字段的个数;
根据第一维度字段与待处理数据表中其他维度字段的关系,获取所述待处理数据表中与所述第一维度字段类型相同且是儿子关系的维度字段的个数;
获取字段类型的枚举值;
根据所获取的数据,得到待处理数据表中第一维度字段的第二特征信息。
进一步,根据本发明提供的数据表字段图谱生成方法,所述根据维度字段的类型以及所述维度字段的推荐分数,对所述待处理数据表中的维度字段进行分类,得到维度字段的类别,包括:
在第一维度字段的类型满足类型类别映射关系集合中的类型类别映射关系的情况下,确定所述第一维度字段所对应的类别;其中,所述类型类别映射关系描述了具有唯一对应关系的类型与类别;所述第一维度字段是所述待处理数据表中的任意一个维度字段;
在第一维度字段的类型不满足类型类别映射关系集合中的类型类别映射关系的情况下,根据所述第一维度字段与所述待处理数据表中类别已确定的维度字段之间的相关度以及第一维度字段的推荐分数,确定所述第一维度字段所对应的类别。
进一步,根据本发明提供的数据表字段图谱生成方法,所述类型类别映射关系集合包括以下类型类别映射关系中的一种或多种:日期类型对应时间类别、时间类型对应时间类别、日期时间类型对应时间类别、地名类型对应地点类别、人名类型对应人物类别、机构团体类型对应人物类别、手机号类型对应人物类别、电话号类型对应人物类别、文本类数值类型对应人物类别、身份证号码类型对应人物类别、动词类型对应事件类别;
相应的,所述在第一维度字段的类型满足类型类别映射关系集合中的类型类别映射关系的情况下,确定所述第一维度字段所对应的类别,包括:
根据第一维度字段的类型在所述类型类别映射关系集合中确定对应的类型类别映射关系;
根据所确定的类型类别映射关系,确定所述第一维度字段的类别。
进一步,根据本发明提供的数据表字段图谱生成方法,所述在第一维度字段的类型不满足类型类别映射关系集合中的类型类别映射关系的情况下,根据所述第一维度字段与所述待处理数据表中类别已确定的维度字段之间的相关度以及第一维度字段的推荐分数,确定所述第一维度字段所对应的类别,包括:
判断第一维度字段的类型是否为名词类型;
在所述第一维度字段的类型是名词类型的情况下,计算所述第一维度字段与已确定为人物类别的各个维度字段之间的相关度,并计算所述第一维度字段与已确定为地点类别的各个维度字段之间的相关度;
根据第一相关度与第二相关度的比较结果,确定所述第一维度字段的类别;其中,所述第一相关度为所述第一维度字段与已确定为人物类别的各个维度字段之间的相关度的最大值,所述第二相关度为所述第一维度字段与已确定为地点类别的各个维度字段之间的相关度的最大值。
进一步,根据本发明提供的数据表字段图谱生成方法,所述根据第一相关度与第二相关度的比较结果,确定所述第一维度字段的类别,包括:
在所述第一相关度的数值大于第一阈值且所述第一相关度大于第二相关度的情况下,确定所述第一维度字段的类别为人物类别;
在所述第二相关度的数值大于第一阈值且所述第二相关度大于第一相关度的情况下,确定所述第一维度字段的类别为地点类别。
进一步,根据本发明提供的数据表字段图谱生成方法,所述在第一维度字段的类型不满足类型类别映射关系集合中的类型类别映射关系的情况下,根据所述第一维度字段与所述待处理数据表中类别已确定的维度字段之间的相关度以及第一维度字段的推荐分数,确定所述第一维度字段所对应的类别,还包括:
在第一维度字段的类型不是名词类型的情况下,计算所述第一维度字段与已确定为人物类别的各个维度字段之间的相关度,计算所述第一维度字段与已确定为地点类别的各个维度字段之间的相关度,计算所述第一维度字段与已确定为时间类别的各个维度字段之间的相关度;
在第一相关度大于第二阈值的情况下,确定所述第一维度字段的类别为人物类别;
在第二相关度大于第三阈值的情况下,确定所述第一维度字段的类别为地点类别;
在第三相关度大于第四阈值的情况下,确定所述第一维度字段的类别为时间类别;
在所述第一维度字段的类别未被识别为所述人物类别、地点类别或时间类别的情况下,将所述第一维度字段的类别识别为事件类别;
其中,所述第一相关度为所述第一维度字段与已确定为人物类别的各个维度字段之间的相关度的最大值;所述第二相关度为所述第一维度字段与已确定为地点类别的各个维度字段之间的相关度的最大值;所述第三相关度为所述第一维度字段与已确定为时间类别的各个维度字段之间的相关度的最大值。
进一步,根据本发明提供的数据表字段图谱生成方法,所述在第一维度字段的类型不满足类型类别映射关系集合中的类型类别映射关系的情况下,根据所述第一维度字段与所述待处理数据表中类别已确定的维度字段之间的相关度以及第一维度字段的推荐分数,确定所述第一维度字段所对应的类别,还包括:
获取事件类别的第一维度字段的推荐分数;
在所述推荐分数小于或等于第五阈值的情况下,将所述第一维度字段的类别从事件类别修改为不推荐的事件类别。
进一步,根据本发明提供的数据表字段图谱生成方法,所述确定度量字段的类别,并根据待处理数据表的特征信息、度量字段的特征信息,确定所述度量字段的推荐分数,包括:
将第一度量字段的类别确定为度量类别;其中,所述第一度量字段为所述待处理数据表中的任意一个度量字段;
获取待处理数据表的特征信息;其中,所述待处理数据表的特征信息包括待处理数据表的描述特征与待处理数据表的分类特征;
根据待处理数据表中第一度量字段所对应的单元格集合中的数据分布情况以及第一度量字段在所述待处理数据表中的分布情况,获取所述第一度量字段的第一特征信息;
根据待处理数据表中第一度量字段所对应的单元格集合中的数据统计情况,获取待处理数据表中第一度量字段的第二特征信息;
将所述待处理数据表的特征信息、所述第一度量字段的第一特征信息以及所述第一度量字段的第二特征信息输入预先训练的度量字段推荐模型,得到所述第一度量字段的推荐分数;
其中,所述度量字段推荐模型是基于样本数据表的特征信息、样本数据表中第二度量字段的第一特征信息、第二度量字段的第二特征信息以及第二度量字段的推荐分数标签训练得到的;其中,所述第二度量字段是样本数据表中的任意一个或多个度量字段。
进一步,根据本发明提供的数据表字段图谱生成方法,所述根据待处理数据表中第一度量字段所对应的单元格集合中的数据分布情况以及第一度量字段在所述待处理数据表中的分布情况,获取待处理数据表中第一度量字段的第一特征信息,至少包括以下任意一种:
获取第一度量字段的索引值;其中,所述索引值用于描述所述第一度量字段在所述待处理数据表中的位置;
获取第一度量字段所对应的单元格集合中的未重复数据个数;
获取第一度量字段所对应的单元格集合中的单元格个数;
获取第一度量字段所对应的单元格集合中的非空单元格个数;
在所述待处理数据表中,比较第一度量字段的索引值与其他度量字段的索引值,获取索引值小于所述第一度量字段的索引值的其他度量字段的个数以及索引值大于所述第一度量字段的索引值的其他度量字段的个数;
在所述待处理数据表中,比较第一度量字段的索引值与维度字段的索引值,获取索引值小于所述第一度量字段的索引值的维度字段的个数以及索引值大于所述第一度量字段的索引值的维度字段的个数;
根据所获取的数据,得到待处理数据表中第一度量字段的第一特征信息。
进一步,根据本发明提供的数据表字段图谱生成方法,所述根据待处理数据表中第一度量字段所对应的单元格集合中的数据统计情况,获取待处理数据表中第一度量字段的第二特征信息,至少包括以下任意一种:
获取第一度量字段所对应的单元格集合中的数字的平均值;
获取第一度量字段所对应的单元格集合中的数字的中位数;
获取第一度量字段所对应的单元格集合中的数字的标准差;
获取第一度量字段所对应的单元格集合中的数字的最小值;
获取第一度量字段所对应的单元格集合中的数字的最大值;
获取第一度量字段所对应的单元格集合中的数字的四分之三分位值;
获取第一度量字段所对应的单元格集合中的数字的四分之一分位值;
获取第一度量字段所对应的单元格集合中的数字的四分之一分位值与数字的四分之三分位值的差。
第二方面,本发明还提供一种数据表字段图谱生成装置,包括:
第一确定模块,用于确定待处理数据表中的各个字段的类型,根据所述字段的类型确定所述待处理数据表中的维度字段以及度量字段;其中,所述维度字段用于描述对应单元格中的数据所表示的含义,所述度量字段用于描述对应单元格中的数据所表示的数量;
第二确定模块,用于根据维度字段的类型、维度字段的特征信息以及所述待处理数据表的特征信息,确定所述维度字段的推荐分数;
分类模块,用于根据维度字段的类型以及所述维度字段的推荐分数,对所述待处理数据表中的维度字段进行分类,得到维度字段的类别;
第三确定模块,用于确定度量字段的类别,并根据待处理数据表的特征信息、度量字段的特征信息,确定所述度量字段的推荐分数;
生成模块,用于根据所述待处理数据表中各个维度字段的类别、各个维度字段的推荐分数、各个度量字段的类别以及各个度量字段的推荐分数,生成所述待处理数据表的字段图谱。
第三方面,本发明还提供一种电子设备,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如上任一项所述数据表字段图谱生成方法的步骤。
第四方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如上述中任一项所述数据表字段图谱生成方法的步骤。
本发明提供一种数据表字段图谱生成方法、装置、电子设备及存储介质,根据各个字段的类型确定维度字段以及度量字段;根据维度字段的类型、特征信息以及待处理数据表的特征信息,确定维度字段的推荐分数,根据维度字段的类型和推荐分数,对维度字段进行分类得到维度字段的类别,确定度量字段的类别,并根据待处理数据表的特征信息、度量字段的特征信息,确定度量字段的推荐分数;最后根据各个维度字段的类别和推荐分数、各个度量字段的类别和推荐分数,生成待处理数据表的字段图谱。本发明提供的字段图谱生成方法能够使具有海量数据的数据表中的数据准确显示,同时为后续数据表校对、字段推荐提供了基础,提高了数据表处理的效率,提升了用户体验。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种数据表字段图谱生成方法的流程示意图;
图2是本发明提供的一种生成的字段图谱的范例图;
图3是本发明提供的一种维度字段获取推荐分数的流程示意图;
图4是本发明提供的一种度量字段获取推荐分数的流程示意图;
图5是本发明提供的数据表字段图谱生成方法的整体流程示意图;
图6是本发明提供的一种数据表字段图谱生成装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的数据表字段图谱生成方法的流程示意图,如图1所示,本发明提供的数据表字段图谱生成方法,包括以下步骤:
步骤101:确定待处理数据表中的各个字段的类型,根据字段的类型确定待处理数据表中的维度字段以及度量字段;其中,维度字段用于描述对应单元格中的数据所表示的含义,度量字段用于描述对应单元格中的数据所表示的数量。
在本实施例中,由于待处理数据表中的各个单元格类型的不同,导致待处理数据表的各个字段的类型也不同,每个字段所具有的分析价值也不同,如工资表、成绩单。本实施例中,需要确定待处理数据表中的各个字段的类型,字段的类型可以是日期时间类型、日期类型、时间类型、字符串类型、数值类型等,其中,可以根据各个字段的类型确定出哪些字段属于维度字段,哪些字段属于度量字段。其中,维度字段是用于描述对应单元格中的数据所代表的含义,本质上属于“分类字段”,如日期时间类型、日期类型、时间类型和字符串类型均属于维度字段,字符串类型具体包括:人名类型、地名类型、动名词类型、英文类型、文本型数字类型、其他类型、混合类型等;而度量字段是用于描述对应单元格中的数据所表示的数量,属于量化字段,如数值类型的字段属于度量字段。需要说明的是,维度字段和度量字段的类型可以根据实际需要进行设定,在此不作具体限定。
步骤102:根据维度字段的类型、维度字段的特征信息以及待处理数据表的特征信息,确定维度字段的推荐分数。
在本实施例中,维度字段的特征信息包括各个维度字段的数据分布情况和各个维度字段在待处理数据表中的分布情况以及与维度字段左右相邻的维度字段或度量字段的个数的特征信息,如下述表1中,根据维度字段和度量字段的定义可以确定出,除了字段名称为“库龄”的字段属于度量字段,其余均属于维度字段。如字段名称为“车辆状态”所对应的单元格,具体的数据信息为“锁车、锁车、开票延迟、开票延迟”,根据数据信息可获得单元格数据长度最大值为4,单元格数据长度最小值为2等信息,位置信息为第二列,具体的特征信息可见下述实施例的详细描述;而待处理数据表的特征信息包括待处理数据表的描述性特征信息、数据表的分类特征信息等,用于表述待处理数据表的基本信息,如待处理数据表中字段类型为人名类型的字段的个数等信息,具体内容可见下述实施例,在此不作具体描述。需要说明的是,根据维度字段的类型、特征信息以及待处理数据表的特征信息可以确定出维度字段的推荐分数,根据生成的推荐分数得到推荐字段或应用于数据透视表中对数据进行分析。
根据确定的维度字段的类型、维度字段的特征信息和待处理数据表的特征信息,确定维度字段的推荐分数。推荐分数是指判断维度字段是否可以用于数据分析中所得到的分数值,分数值越大说明所对应的维度字段可用于分析的价值更大,越被推荐。需要说明的是,推荐分数在本实施例中是分数值越大越被推荐分析,在其他实施例中可以是其他的设定情况,如分数值越大越不被推荐,在此不作具体限定。
表1
步骤103:根据维度字段的类型以及维度字段的推荐分数,对待处理数据表中的维度字段进行分类,得到维度字段的类别。
在本实施例中,首先根据维度字段的类型对维度字段进行分类,本实施例可以将维度字段划分为四大类别,分别为时间类、地点类、人物类和事件类,其中,日期类型、时间类型和日期时间类型的维度字段属于时间类,地名类型的维度字段属于地点类,人名类型、机构团体类型、手机号码类型、电话号码类型、文本类数值类型和身份证号码类型的维度字段属于人物类,动词类型的维度字段属于事件类。需要说明的是,对于根据维度字段的类型不能准确归为上述四个类别的维度字段,还可以根据维度字段的与各个类别中的维度字段的相关性大小进行确定分析,具体见下述实施例,在此不作详细介绍。
在本实施例中,还可以根据维度字段的类型、推荐分数与预设的判断条件,进一步确定出维度字段的类别。如根据维度字段的类型确定出该维度字段的类别为事件类,且该维度字段的推荐分析数小于或等于0.1时,将该维度字段确定为“不推荐的事件”类别。需要说明的是,预设的判断条件可以是其他的条件,在此不作具体限定。
步骤104:确定度量字段的类别,并根据待处理数据表的特征信息、度量字段的特征信息,确定度量字段的推荐分数。
在本实施例中,度量字段一般是用于描述所对应的单元格数量多少的字段,如在成绩单中,字段名称为“英语”、“语文”、“化学”等所对应的单元格,其中每个单元格中的数据为数值,即数值类型的字段属于度量字段,将度量字段设置为一个类别,确定为度量字段类别。需要说明的是,本实施例中,在确定度量字段的类别后,根据待处理数据表的特征信息、度量字段的特征信息,确定度量字段的推荐分数。其中,推荐分数越高推荐分析的顺序越靠前,越具有被分析的价值,如度量字段A的推荐分数为0.12,度量字段B的推荐分数为0.06,由于度量字段A的推荐分数高于度量字段B,度量字段A推荐分析的顺序高于度量字段B,度量字段A优先被推荐;待处理数据表的特征信息和度量字段的特征信息具体可见下述实施例,在此不作详细介绍。
需要说明的是,将得到的待处理数据表的特征信息、度量字段的特征信息进行汇总,输入对应的分类模型中进行打分,得到每个度量字段所对应的分值,并将得到的分值进行从大到小的排序处理,得到度量字段的推荐分数列表。其中,分值在0~1之间,且推荐分数越大表示对应的度量字段越具有分析价值。
步骤105:根据待处理数据表中各个维度字段的类别、各个维度字段的推荐分数、各个度量字段的类别以及各个度量字段的推荐分数,生成待处理数据表的字段图谱。
在本实施例中,根据上述步骤中得到的维度字段的五个类别和度量字段类别,以及各个维度字段的推荐分数和各个度量字段的推荐分数,生成待处理数据表的字段图谱。需要说明的是,字段图谱包含的信息如下述表2所示,字段图谱中包含字段的类别信息、各个字段的名称、推荐分数以及包含关系等信息,生成的字段图谱的展示方式可以是气泡的形式,如图2所示,每个字段名称均以气泡的形式展示,具体的展示方式可以根据实际需要进行设定,在此不作具体限定。
表2
根据本发明提供一种数据表字段图谱生成方法,根据确定的各个字段的类型确定维度字段以及度量字段;根据维度字段的类型、特征信息以及待处理数据表的特征信息,确定维度字段的推荐分数,根据维度字段的类型和推荐分数,对维度字段进行分类得到维度字段的类别,确定度量字段的类别,并根据待处理数据表的特征信息、度量字段的特征信息,确定度量字段的推荐分数;最后根据各个维度字段的类别和推荐分数、各个度量字段的类别和推荐分数,生成待处理数据表的字段图谱。本发明提供的字段图谱生成方法能够使海量数据的数据表中的数据准确显示,用户可以根据生成的字段图谱展示的数据信息,准确得到各个字段的推荐分析情况和类别情况,能够迅速查找到需要推荐分析的字段,提高了数据表处理的效率,提升了用户体验。
基于上述任一实施例,在本实施例中,根据维度字段的类型、维度字段的特征信息以及待处理数据表的特征信息,确定维度字段的推荐分数,包括:
获取待处理数据表的特征信息;根据待处理数据表中第一维度字段所对应的单元格集合中的数据分布情况以及第一维度字段在待处理数据表中的分布情况,获取待处理数据表中第一维度字段的第一特征信息;其中,第一维度字段是待处理数据表中的任意一个维度字段;根据待处理数据表中各个维度字段的类型以及第一维度字段与待处理数据表中其他维度字段的关系,获取第一维度字段的第二特征信息;将待处理数据表的特征信息、第一维度字段的第一特征信息以及第一维度字段的第二特征信息输入预先训练的维度字段推荐模型,得到第一维度字段的推荐分数;其中,维度字段推荐模型是基于样本数据表的特征信息、样本数据表中第二维度字段的第一特征信息、第二维度字段的第二特征信息以及第二维度字段的推荐分数标签训练得到的;其中,第二维度字段是样本数据表中的任意一个或多个维度字段。
在本实施例中,为了得到第一维度字段的推荐分数,将获取到的待处理数据表的特征信息、第一维度字段的第一特征信息和第二特征信息输入预先训练得到的维度字段推荐模型中,得到第一维度字段的推荐分数。其中,维度字段推荐模型是预先利用随机森林算法对训练样本进行训练得到的,其中,随机森林(Random forest)是指利用多棵决策树对训练样本进行训练并预测的一种分类器。利用随机森林算法对预先获取的样本数据表的特征信息、样本数据表中第二维度字段的第一特征信息、第二维度字段的第二特征信息以及第二维度字段的推荐分数标签对分类器进行训练,得到维度字段推荐模型。具体训练方式在此不作详细介绍。
在本实施例中,第一维度字段的第一特征信息是指第一维度字段的描述性特征信息,可以根据得到的第一特征信息对第一维度字段是否具有分析意义进行判断。如备注信息中,数据长度有长有短,有些为空,平均值较小,标准差较大,最小值为零,最大值很大,这种类型的维度字段往往不具有分析价值。本实施例中第一维度字段为待处理数据表中的任意一个维度字段,如上述表1中,假如第一维度字段的字段名称为“整车信息”,那么,根据第一维度字段所对应的单元格集合的数据,得到数据的分布情况为单元格中最大值为7,平均值也为7等;而且第一维度字段位于待处理数据表中的第一列,即索引值为1,得到索引值大于1的维度字段的个数为6,度量字段的个数为1,根据得到的具体情况信息得到第一维度字段的第一特征信息,第一特征信息包括的内容见下述实施例,在此不详细介绍。
在本实施例中,还需要获取第一维度字段的第二特征信息,第二特征信息是表示第一维度字段与待处理数据表中其他字段关系的信息。具体根据待处理数据表中各个维度字段的类型以及第一维度字段与其他维度字段的关系,得到第一维度字段的第二特征信息,其中,第一维度字段与其他维度字段的关系可以为父子关系,父子关系是指一个父亲可以有多个儿子,一个儿子不可以有多个父亲。需要说明的是,第二特征信息包含的具体内容见下述实施例。
在本实施例中,将得到的待处理数据表的特征信息、第一维度字段的第一特征信息和第二特征信息输入预先训练好的维度字段推荐模型,得到第一维度字段的推荐分数,如将根据上述表1中得到的特征信息,第一维度字段的第一特征信息和第二特征信息输入维度字段推荐模型中,得到如下述表3所示的推荐分数,假如第一维度字段为字段名称为“车辆状态”的字段,得到的推荐分析数值为0.95,高于其他字段的推荐分析数值,推荐分析顺序为1,优先被推荐分析。需要说明的是,推荐分数值的大小在0~1之间。
表3
根据本发明提供的数据表字段图谱生成方法,将获取的待处理数据表的特征信息、第一维度字段的第一特征信息和第二特征信息输入预先训练好的维度字段推荐模型,得到第一维度字段的推荐分数,能够让用户从多个维度字段中快速找到需要分析的字段,提高维度字段推荐分析的处理速度和准确率,降低了人工查看数据的成本。
基于上述任一实施例,如图3所示,在本实施例中,待处理数据表的特征信息包括待处理数据表的描述特征与待处理数据表的分类特征;相应的,获取待处理数据表的特征信息,包括:
获取待处理数据表的描述特征;
获取待处理数据表的分类特征。
在本实施例中,获取待处理数据表的描述特征和分类特征。其中,描述特征主要用于描述待处理数据表情况的特征信息,可以通过表格中的描述统计功能模块提取描述特征。分类特征是描述待处理数据表中各个字段类型的信息,具体包括:各字段类型的枚举值、人名类型的字段的个数、地名类型的字段的个数、数值类型的字段的个数、日期类型的字段的个数、时间类型的字段的个数、动名词类型的字段的个数。需要说明的是,枚举值是指通过预定义列出所有值的标识符来定义一个有序集合的方式,这些值的次序和枚举类型说明中的标识符的次序是一致的。假设枚举值的形式为<标识符1>=<类型1>,如<N1>=<时间类型>,<N2>=<日期类型>,<N3>=<数值类型>等,假设本实施例中获取待处理数据表中各字段的类型为时间类型、日期类型、名词类型、数值类型,得到待处理数据表的枚举值为<N1、N2、N5、N3>=<时间类型、日期类型、名词类型、数值类型>。
需要说明的是,获取待处理数据表的描述特征,描述特征至少包括以下任意一种:待处理数据表中非空单元格集合的个数;待处理数据表中各个单元格集合所包含的非空单元格个数的最大值;待处理数据表中各个单元格集合所包含的未重复数据个数的最小值;待处理数据表中各个单元格集合所包含的未重复数据个数的最大值;待处理数据表中各个单元格集合所包含的未重复数据个数的平均值;待处理数据表中各个单元格集合所包含的未重复数据个数的标准差。获取待处理数据表的分类特征,分类特征至少包括以下任意一种:待处理数据表中各字段类型的枚举值;待处理数据表中人名类型的字段的个数;待处理数据表中地名类型的字段的个数;待处理数据表中数值类型的字段的个数;待处理数据表中日期类型的字段的个数;待处理数据表中时间类型的字段的个数;待处理数据表中动名词类型的字段的个数。
在本实施例中,如待处理数据表为上述表1所示,根据各个字段的基本信息获取到待处理数据表的特征信息如下述表4所示,如得到的待处理数据表的非空单元格集合的个数为8,即字段名称分别为“整车信息、车辆状态、车系、车型、车身颜色、内饰颜色、发动机号和库龄”所对应的单元格集合均为非空单元格集合。依次对上述表1所示的待处理数据表进行分析,得到如表4所示的特征信息。
表4
根据本发明提供的数据表字段图谱生成方法,获取待处理数据表的描述特征和分类特征,将获取到的信息用于后续维度字段推荐分数的确定获取中,提高了维度字段数据推荐处理的速度,为后续字段图谱的生成提供了数据支持。
基于上述任一实施例,在本实施例中,第一维度字段的第一特征信息包括第一维度字段的描述特征信息和位置特征信息;相应的,根据待处理数据表中第一维度字段所对应的单元格集合中的数据分布情况以及第一维度字段在待处理数据表中的分布情况,获取待处理数据表中第一维度字段的第一特征信息,包括:
获取所述第一维度字段的描述特征信息;
获取所述第一维度字段的位置特征信息。
在本实施例中,获取第一维度字段的描述特征信息,描述特征至少包括以下任意一种:第一维度字段的索引值;其中,索引值用于描述第一维度字段在待处理数据表中的位置;第一维度字段所对应的单元格集合中的未重复数据个数;第一维度字段所对应的单元格集合中的单元格个数;第一维度字段所对应的单元格集合中的各个单元格所包含数据的长度平均值;第一维度字段所对应的单元格集合中的各个单元格所包含数据的长度最小值;第一维度字段所对应的单元格集合中的各个单元格所包含数据的长度最大值;第一维度字段所对应的单元格集合中的各个单元格所包含数据的长度的标准差;第一维度字段所对应的单元格集合中的未重复数据的出现次数的平均值;第一维度字段所对应的单元格集合中的未重复数据的出现次数的最小值;第一维度字段所对应的单元格集合中的未重复数据的出现次数的最大值;第一维度字段所对应的单元格集合中的未重复数据的出现次数的标准差。
其中,获取第一维度字段的位置特征信息,位置特征信息至少包括以下任意一种:在待处理数据表中,比较第一维度字段的索引值与度量字段的索引值,获取索引值小于第一维度字段的索引值的度量字段的个数以及索引值大于第一维度字段的索引值的度量字段的个数;在待处理数据表中,比较第一维度字段的索引值与其他维度字段的索引值,获取索引值小于第一维度字段的索引值的其他维度字段的个数以及索引值大于第一维度字段的索引值的其他维度字段的个数。
在本实施例中,根据第一维度字段在待处理数据表中的分布情况以及第一维度字段所对应的单元格集合中的数据分布情况,确定第一维度字段的第一特征信息。其中,第一特征信息包括第一维度字段的索引值、未重复数据个数、单元格个数、各个单元格所包含数据的长度值等信息。需要说明的是,如图3所示,获取第一维度字段中未重复数据(项)出现的次数,如果出现次数的平均值为1时,表示该维度字段的分析价值不大,如果第一维度字段所对应的单元格集合中未重复数据的个数和出现次数的最大值与最小值差异都较大时,则表明该维度字段具有较大的分析价值。
需要说明的是,在数据分析中,数据分析结论与各个字段的位置也具有一定的关系,比如一般情况下数据表右侧的数据常常需要分析。在关系数据库中通过索引值确定出需要分析的数据,索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构,是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。索引的作用相当于图书的目录,可以根据目录中的页码快速找到所需的内容。索引值是指各个维度字段所对应的位置代号,可以用于确定维度字段的具体位置,如为上述表1所示的数据表中各个字段设定索引值,具体如下述表5所示。当第一维度字段所对应的单元格集合的索引值为2时,则可以通过索引值确定出第一维度字段为表1所示数据表中的第二列。
表5
字段索引值 | 字段名称 | 字段类型 |
1 | 整车信息 | eng |
2 | 车辆状态 | vn |
3 | 车系 | eng |
4 | 车型 | eng |
5 | 车身颜色 | n |
6 | 内饰颜色 | n |
7 | 发动机号 | eng |
8 | 库龄 | Number |
在本实施例中,如上述表1所示,根据第一维度字段的索引值2确定出第一维度字段的位置后,还获取第一维度字段所对应的单元格集合中的未重复数据个数为0、单元格个数为4、各个单元格所包含数据的长度平均值为3、各个单元格所包含数据的长度最小值为2、各个单元格所包含数据的长度最大值为4、各个单元格所包含数据的长度的标准差为1、未重复数据的出现次数的平均值为0、未重复数据的出现次数的最小值为0、未重复数据的出现次数的最大值为0、未重复数据的出现次数的标准差为0。需要说明的是,单元格集合中单元格所包含数据的长度的平均值符合正态分布,平均值的数值特别小或特别大都不具有分析价值,数值在某个范围内才具有分析价值。
在得到上述信息之后,本实施例中,还需要在待处理数据表中,比较第一维度字段的索引值与度量字段的索引值的大小,获取索引值小于第一维度字段的索引值的度量字段的个数以及索引值大于第一维度字段的索引值的度量字段的个数。如第一维度字段的索引值为2,通过在待处理数据表中比较分析,得到字段名称为“库龄”的度量字段的索引值为8且大于第一维度字段的索引值,在表1所示的数据表中,度量字段的索引值大于第一维度字段的索引值的个数为1,小于第一维度字段的索引值的度量字段的个数为0。
在待处理数据表中,还需要比较第一维度字段的索引值与其他维度字段的索引值,获取索引值小于第一维度字段的索引值的其他维度字段的个数以及索引值大于第一维度字段的索引值的其他维度字段的个数。如第一维度字段的索引值为2,通过分析表1所示的待处理数据表,可以得到索引值小于2的维度字段的个数为1,索引值大于2的维度字段的个数为5。然后根据上述获取到的数据,确定出第一维度字段的第一特征信息。需要说明的是,第一维度字段为待处理数据表中任意一个维度字段,在此不作具体限定。
根据本发明提供的数据表字段图谱生成方法,通过第一维度字段的索引值确定出第一维度字段在待处理数据表中的分布情况以及所对应的单元格数据的分布情况,然后确定出第一维度字段的第一特征信息,为后续精准确定出第一维度字段的推荐分数提供数据支持。
基于上述任一实施例,在本实施例中,根据待处理数据表中各个维度字段的类型以及第一维度字段与待处理数据表中其他维度字段的关系,获取第一维度字段的第二特征信息,包括:
根据待处理数据表中各个维度字段的类型,获取待处理数据表中与第一维度字段具有相同类型的维度字段的个数;根据第一维度字段与待处理数据表中其他维度字段的关系,获取待处理数据表中与第一维度字段是父亲关系的维度字段的个数;根据第一维度字段与待处理数据表中其他维度字段的关系,获取待处理数据表中与第一维度字段是儿子关系的维度字段的个数;根据第一维度字段与待处理数据表中其他维度字段的关系,获取待处理数据表中与第一维度字段类型相同且是父亲关系的维度字段的个数;根据第一维度字段与待处理数据表中其他维度字段的关系,获取待处理数据表中与第一维度字段类型相同且是儿子关系的维度字段的个数;获取字段类型的枚举值;根据所获取的数据,得到待处理数据表中第一维度字段的第二特征信息。
在本实施例中,第一维度字段的第二特征信息包括待处理数据表中与第一维度字段具有相同类型的维度字段的个数、与第一维度字段是父亲关系的维度字段的个数、与第一维度字段是儿子关系的维度字段的个数、与第一维度字段类型相同且是父亲关系的维度字段的个数、与第一维度字段类型相同且是儿子关系的维度字段的个数以及字段类型的枚举值等信息。其中,在数据表中父子关系是指一方可以包含另一方或多方的情况,假如维度字段A与第一维度字段是父亲关系,表示维度字段A包含第一维度字段;或维度字段A与第一维度字段是儿子关系,表示第一维度字段包含维度字段A。
需要说明的是,父子关系是指维度分层的概念和同类别维度分层的概念,概念分层是指一个映射序列,将底层概念映射到较高层、更一般的概念,例如加拿大包含温哥华,两者属于父子关系。父亲关系是指具有较高层概念的维度字段与较低层概念的维度字段所存在的关系,如一个省是区和市的父亲,即省与区的关系为父亲关系。儿子关系是指具有较低层概念的维度字段与较高层概念的维度字段所存在的关系,如市与省的关系为儿子关系,也就是说市是省的儿子。倘若,某个维度字段的父亲关系很多,则表示该维度字段的分析价值可能不会太大。
需要说明的是,在本实施例中,枚举值对应各个维度字段的类型,假设枚举值的形式为<标识符1>=<类型1>,如<N1>=<时间类型>,<N2>=<日期类型>,<N3>=<数值类型>等,第一维度字段的类型为数值类型,则得到第一维度字段所对应的单元格集合的枚举值类型为<N3>=<数值类型>,通过对应的标识符N3确定出第一维度字段的类型。
根据本发明提供的数据表字段图谱生成方法,通过第一维度字段的类型以及与待处理数据表中其他维度字段的关系确定出第一维度字段的第二特征信息,为后续精准确定出第一维度字段的推荐分数提供数据支持。
基于上述任一实施例,在本实施例中,根据维度字段的类型以及维度字段的推荐分数,对待处理数据表中的维度字段进行分类,得到维度字段的类别,包括:
在第一维度字段的类型满足类型类别映射关系集合中的类型类别映射关系的情况下,确定第一维度字段所对应的类别;其中,类型类别映射关系描述了具有唯一对应关系的类型与类别;第一维度字段是待处理数据表中的任意一个维度字段;在第一维度字段的类型不满足类型类别映射关系集合中的类型类别映射关系的情况下,根据第一维度字段与待处理数据表中类别已确定的维度字段之间的相关度以及第一维度字段的推荐分数,确定第一维度字段所对应的类别。
在本实施例中,类型类别映射关系集合是指每个类别中包含对应的类型所构成的集合信息,类型类别映射关系描述了具有唯一对应关系的类型与类别。如人名类型对应人物类别、机构团体类型对应人物类别、手机号类型对应人物类别、电话号类型对应人物类别、文本类数值类型对应人物类别、身份证号码类型对应人物类别。本实施例中,类型类别映射关系集合为:时间类别包括日期类型、时间类型、日期时间类型;人物类别包括地名类型、人名类型、机构团体类型、手机号类型、电话号类型、文本类数值类型、身份证号码类型;地点类别包括地名类型;事件类别包括动词类型。需要说明的是,各个类别的确定以及各个类别所对应的类型可以根据实际需要进行设定,在此不作具体限定。
在本实施例中,在根据第一维度字段的类型未将第一维度字段成功确定为上述四种类别的情况下,可以根据第一维度字段与已经确定类别的维度字段之间的相关度,确定出第一维度字段所对应的类别。需要说明的是,第一维度字段与已经确定类别的维度字段之间的相关度可以利用具有包含关系分类模型得到相关度分数的方法进行计算,将相关度分数较大的维度字段所对应的类别确定第一维度字段的类别。假如维度字段A的类别为时间类别,维度字段B的类别为地点类别,通过计算得到第一维度字段与维度字段A的相关度分数为0.9,与维度字段B的相关度分数为0.5,由于与维度字段A的相关度分数大于与维度字段B的相关度分数,将第一维度字段的类别确定为维度字段A对应的类别—时间类别。
在本实施例中,还可以通过第一维度字段的推荐分数确定出第一维度字段的类别,如根据第一维度字段的类型确定出第一维度字段的类别为事件类别,且第一维度字段的推荐分析数小于或等于0.1时,则将第一维度字段确定为“不推荐的事件”类别,确定出第一维度字段的类别。需要说明的是,预设的判断条件可以是其他的条件,在此不作具体限定。
根据本发明提供的数据表字段图谱生成方法,通过判断第一维度字段的类型是否满足类型类别映射关系集合中的类型,确定出第一维度字段的类别,为后续准确生成字段图谱提供了数据支持,保证了数据处理的准确性和效率。
基于上述任一实施例,在本实施例中,类型类别映射关系集合包括以下类型类别映射关系中的一种或多种:日期类型对应时间类别、时间类型对应时间类别、日期时间类型对应时间类别、地名类型对应地点类别、人名类型对应人物类别、机构团体类型对应人物类别、手机号类型对应人物类别、电话号类型对应人物类别、文本类数值类型对应人物类别、身份证号码类型对应人物类别、动词类型对应事件类别;相应的,在第一维度字段的类型满足类型类别映射关系集合中的类型类别映射关系的情况下,确定第一维度字段所对应的类别,包括:
根据第一维度字段的类型在类型类别映射关系集合中确定对应的类型类别映射关系;根据所确定的类型类别映射关系,确定第一维度字段的类别。
在本实施例中,当第一维度字段满足类型类别映射关系时,可以根据对应的类型类别映射关系确定出第一维度字段的类别。如第一维度字段的类型为动名词类型时,满足动名词类型对应事件类别的映射关系,将事件类别确定为第一维度字段的类别。需要说明的是,在本实施例中,类型类别映射关系集合中的类型类别映射关系如上述所述,在其他实施例中,还可以包含其他的类型类别映射关系,如房号类型对应事件类型等,在此不作具体限定。
根据本发明提供的数据表字段图谱生成方法,通过上述提供的类别确定方式,能够迅速识别出第一维度字段的类别,提高类别识别确定的准确性和效率。
基于上述任一实施例,在本实施例中,在第一维度字段的类型不满足类型类别映射关系集合中的类型类别映射关系的情况下,根据第一维度字段与待处理数据表中类别已确定的维度字段之间的相关度以及第一维度字段的推荐分数,确定第一维度字段所对应的类别,包括:
判断第一维度字段的类型是否为名词类型;在第一维度字段的类型是名词类型的情况下,计算第一维度字段与已确定为人物类别的各个维度字段之间的相关度,并计算第一维度字段与已确定为地点类别的各个维度字段之间的相关度;根据第一相关度与第二相关度的比较结果,确定第一维度字段的类别;其中,第一相关度为第一维度字段与已确定为人物类别的各个维度字段之间的相关度的最大值,第二相关度为第一维度字段与已确定为地点类别的各个维度字段之间的相关度的最大值。
在本实施例中,当第一维度字段不满足类型类别映射关系集合中的类型类别映射关系,且确定第一维度字段的类型为名词类型时,通过多元统计分析法中的相关性分析法提取出第一维度字段和已确定为人物类别的各个维度字段、已确定为地点类别的各个维度字段的相关性特征,并将得到的相关性特征输入包含关系分析模型中,得到第一维度字段与已确定为人物类别的维度字段之间的第一相关度,第一维度字段与已确定为地点类别的维度字段之间的第二相关度,然后根据第一相关度与第二相关度之间的大小关系确定出第一维度字段的类别。需要说明的是,第一相关度为第一维度字段与已确定为人物类别的各个维度字段之间的相关度的最大值,第二相关度为第一维度字段与已确定为地点类别的各个维度字段之间的相关度的最大值。
根据本发明提供的数据表字段图谱生成方法,在第一维度字段不满足类型类别映射关系集合中的类型类别映射关系,且确定第一维度字段的类型为名词类型,只通过计算第一维度字段与已确定为地点类别的各个维度字段之间的相关度,以及与已确定为地点类别的各个维度字段之间的相关度,能够迅速确定出第一维度字段的类别,提高类别确定的效率,同时为数据表字段图谱的生成提供数据支持。
基于上述任一实施例,在本实施例中,根据第一相关度与第二相关度的比较结果,确定第一维度字段的类别,包括:
在第一相关度的数值大于第一阈值且第一相关度大于第二相关度的情况下,确定第一维度字段的类别为人物类别;在第二相关度的数值大于第一阈值且第二相关度大于第一相关度的情况下,确定第一维度字段的类别为地点类别。
在实施例中,当第一相关度的数值大于第一阈值且第一相关度大于第二相关度的情况下,确定第一维度字段的类别为人物类别,其中,第一阈值可以设定为0.5,如计算得到第一相关度的数值为0.7,第二相关度的数值为0.4,通过比较确定第一相关度的数值0.7大于预设的第一阈值0.5,且第一相关度的数值0.7大于第二相关度的数值0.4,由于第一相关度是第一维度字段与确定为人物类别的各个维度字段计算得到的最大值,将第一维度字段的类别确定为人物类别。同样,在第二相关度的数值大于第一阈值且第二相关度大于第一相关度的数值时,确定第一维度字段的类别为地点类别。需要说明的是,第一阈值的大小可以根据实际需要进行设定,还可以是0.3等,在此不作具体限定。
根据本发明提供的数据表字段图谱生成方法,在第一维度字段不满足类型类别映射关系集合中的类型类别映射关系,且确定第一维度字段的类型为名词类型,通过比较得到的第一相关度、第二相关度和第一阈值之间的大小关系,能够迅速确定出第一维度字段的类别,提高类别确定的效率,同时为数据表字段图谱的生成提供数据支持。
基于上述任一实施例,在本实施例中,在第一维度字段的类型不满足类型类别映射关系集合中的类型类别映射关系的情况下,根据第一维度字段与待处理数据表中类别已确定的维度字段之间的相关度以及第一维度字段的推荐分数,确定第一维度字段所对应的类别,还包括:在第一维度字段的类型不是名词类型的情况下,计算第一维度字段与已确定为人物类别的各个维度字段之间的相关度,计算第一维度字段与已确定为地点类别的各个维度字段之间的相关度,计算第一维度字段与已确定为时间类别的各个维度字段之间的相关度;在第一相关度大于第二阈值的情况下,确定第一维度字段的类别为人物类别;在第二相关度大于第三阈值的情况下,确定第一维度字段的类别为地点类别;在第三相关度大于第四阈值的情况下,确定第一维度字段的类别为时间类别;在第一维度字段的类别未被识别为人物类别、地点类别或时间类别的情况下,将第一维度字段的类别识别为事件类别;其中,第一相关度为第一维度字段与已确定为人物类别的各个维度字段之间的相关度的最大值;第二相关度为第一维度字段与已确定为地点类别的各个维度字段之间的相关度的最大值;第三相关度为所述第一维度字段与已确定为时间类别的各个维度字段之间的相关度的最大值。
在本实施例中,当第一维度字段的类型不满足类型类别映射关系集合中的类型类别映射关系,且第一维度字段的类别不是名词类型时,分别计算第一维度字段与已确定为人物类别的各个维度字段之间的相关度,与已确定为地点类别的各个维度字段之间的相关度,与已确定为时间类别的各个维度字段之间的相关度,分别取最大值得到第一相关度、第二相关度和第三相关度。假设第二阈值为0.4,第三阈值为0.5,第四阈值为0.4,通过将得到的相关度与预设的阈值依次进行比较,当第一相关度为0.5大于第二阈值0.4时,确定第一维度字段的类别为人物类别;若第一相关度小于第二阈值,第二相关度为0.6大于第三阈值,确定第一维度字段的类别为地点类别;若第一相关度小于第二阈值和第二相关度均小于第三阈值,第三相关度0.55大于第四阈值时,确定第一维度字段的类别为时间类别。需要说明的是,三个阈值的大小可以根据实际需要进行设定,在此不作具体限定。同时,第一相关度、第二相关度、第三相关度是依次与预设的阈值进行比较的,在确定出第一维度字段为人物类别后,则不再进行后续的比较确认,若根据第一相关度、第二相关度、第三相关度均未确定出第一维度字段的类别,则将第一维度字段的类别确定为事件类别。
根据本发明提供的数据表字段图谱生成方法,在第一维度字段不满足类型类别映射关系集合中的类型类别映射关系,且第一维度字段的类型不是名词类型的情况下,通过比较得到的第一相关度、第二相关度、第三相关度和预设阈值之间的大小关系,能够迅速确定出第一维度字段的类别,提高类别确定的效率,同时为数据表字段图谱的生成提供数据支持。
基于上述任一实施例,在本实施例中,在第一维度字段的类型不满足类型类别映射关系集合中的类型类别映射关系的情况下,根据第一维度字段与待处理数据表中类别已确定的维度字段之间的相关度以及第一维度字段的推荐分数,确定第一维度字段所对应的类别,还包括:
获取事件类别的第一维度字段的推荐分数;在推荐分数小于第五阈值的情况下,将第一维度字段的类别从事件类别修改为不推荐的事件类别。
在本实施例中,当第一维度字段的类别为事件类别时,获取第一维度字段的推荐分数,在推荐分数小于第三阈值的情况下,将第一维度字段的类别从事件类别修改为不推荐的事件类别,假如第五阈值为0.1,若获取到第一维度字段的推荐分数为0.2时,不对第一维度字段的类别进行修改,若获取到第一维度字段的推荐分数为0.08时,小于第五阈值,将第一维度字段的类别从事件类别修改为不推荐的事件类别。需要说明的是,第五阈值的大小可以根据实际需要进行设定,在此不作具体限定。
根据本发明提供的数据表字段图谱生成方法,通过获取类别为事件类别的第一维度字段的推荐分数,在推荐分数小于第五阈值时,将第一维度字段的类别由事件类别修改为不推荐的事件类别,实现对第一维度字段的类别的准确确定,迅速准确地确定出第一维度字段的类别,提高类别确定的效率,同时为数据表字段图谱的生成提供数据支持。
基于上述任一实施例,在本实施例中,确定度量字段的类别,并根据待处理数据表的特征信息、度量字段的特征信息,确定度量字段的推荐分数,包括:将第一度量字段的类别确定为度量类别;其中,第一度量字段为待处理数据表中的任意一个度量字段;获取待处理数据表的特征信息;其中,待处理数据表的特征信息包括待处理数据表的描述特征与待处理数据表的分类特征;根据待处理数据表中第一度量字段所对应的单元格集合中的数据分布情况以及第一度量字段在待处理数据表中的分布情况,获取第一度量字段的第一特征信息;根据待处理数据表中第一度量字段所对应的单元格集合中的数据统计情况,获取待处理数据表中第一度量字段的第二特征信息;将待处理数据表的特征信息、第一度量字段的第一特征信息以及第一度量字段的第二特征信息输入预先训练的度量字段推荐模型,得到第一度量字段的推荐分数;其中,度量字段推荐模型是基于样本数据表的特征信息、样本数据表中第二度量字段的第一特征信息、第二度量字段的第二特征信息以及第二度量字段的推荐分数标签训练得到的;其中,第二度量字段是样本数据表中的任意一个或多个度量字段。
在本实施例中,为了得到第一度量字段的推荐分数,将获取到的待处理数据表的特征信息、第一度量字段的第一特征信息和第二特征信息输入预先训练得到的度量字段推荐模型中,得到第一度量字段的推荐分数,推荐分数设定在0~1之间。其中,度量字段推荐模型是预先利用随机森林算法对训练样本进行训练得到的。利用随机森林算法对预先获取的样本数据表的特征信息、样本数据表中第二度量字段的第一特征信息、第二度量字段的第二特征信息以及第二度量字段的推荐分数标签对分类器进行训练,得到度量字段推荐模型。具体训练方式在此不作详细介绍。
需要说明的是,度量字段是表示所对应单元格中数量多少的字段,数值类型的字段属于度量字段,常见的如工资单、成绩单中所包含的度量类别的字段较多,在成绩单中,英语、语文、化学各个字段所对应的单元格集合中的分数值,以及总分、平均分、名次各个字段所对应的单元格集合中的分数值,根据得到的推荐分数,一般推荐“总分、平均分、名次”的推荐分数高于其他字段。
在本实施例中,需要获取待处理数据表的特征信息,包括待处理数据表的描述特征和分类特征,其中,描述特征包括待处理数据表中非空单元格集合的个数、各个单元格集合所包含的非空单元格个数的最大值、各个单元格集合所包含的未重复数据个数的最小值、各个单元格集合所包含的未重复数据个数的最大值、各个单元格集合所包含的未重复数据个数的平均值、各个单元格集合所包含的未重复数据个数的标准差。
其中,待处理数据表的分类特征包括:待处理数据表中各字段类型的枚举值、待处理数据表中人名类型的字段的个数、待处理数据表中地名类型的字段的个数、待处理数据表中数值类型的字段的个数、待处理数据表中日期类型的字段的个数、待处理数据表中时间类型的字段的个数以及待处理数据表中动名词类型的字段的个数。
在本实施例中,还需要根据第一度量字段所对应的单元格集合中的数据分布情况和第一度量字段在待处理数据表中的分布情况,确定出第一度量字段的第一特征信息;根据待处理数据表中第一度量字段所对应的单元格集合中的数据统计情况,获取第一度量字段的第二特征信息。需要说明的是,第一特征信息包括第一度量字段的索引值等信息,第二特征信息包括第一度量字段所对应的单元格集合中的数字的平均值等信息,具体详见下述实施例。
根据本发明提供的数据表字段图谱生成方法,将获取到的待处理数据表的特征信息、第一度量字段的第一特征信息和第一度量字段的第二特征信息输入预先训练的度量字段推荐模型中,得到第一度量字段的推荐分数。本发明能够快速得到第一度量字段的推荐分数,为后续字段图谱的生成提供数据支持。
基于上述任一实施例,如图4所示,在本实施例中,根据待处理数据表中第一度量字段所对应的单元格集合中的数据分布情况以及第一度量字段在待处理数据表中的分布情况,获取待处理数据表中第一度量字段的第一特征信息,至少包括以下任意一种:
获取第一度量字段的索引值;其中,索引值用于描述第一度量字段在待处理数据表中的位置;获取第一度量字段所对应的单元格集合中的未重复数据个数;获取第一度量字段所对应的单元格集合中的单元格个数;获取第一度量字段所对应的单元格集合中的非空单元格个数;在待处理数据表中,比较第一度量字段的索引值与其他度量字段的索引值,获取索引值小于第一度量字段的索引值的其他度量字段的个数以及索引值大于第一度量字段的索引值的其他度量字段的个数;在待处理数据表中,比较第一度量字段的索引值与维度字段的索引值,获取索引值小于第一度量字段的索引值的维度字段的个数以及索引值大于第一度量字段的索引值的维度字段的个数;根据所获取的数据,得到待处理数据表中第一度量字段的第一特征信息。
在本实施例中,根据待处理数据表中第一度量字段所对应的单元格集合中的数据分布情况以及第一度量字段在待处理数据表中的分布情况,获取到第一特征信息,第一特征信息包括:第一度量字段的索引值、第一度量字段所对应的单元格集合中的未重复数据个数、单元格个数以及非空单元格个数等信息。需要说明的是,本实施例中需要获取度量字段的索引值,确定度量字段的位置,度量字段的位置对数据的分析具有重要影响,比如,在数据求和中,度量字段右侧的数据更具有分析价值,如果当前度量字段的左侧没有其他的度量字段,右侧存在其他的度量字段,往往不推荐分析,因为该度量字段有可能是序号。如下述表6中所示的待处理数据表中,假如字段名称为“基本工资”的字段为第一度量字段,其中,第一度量字段的索引值为2,未重复数据个数为1,单元格个数为3,非空单元格个数为3。
表6
需要说明的是,还需要比较第一度量字段的索引值与其他度量字段的索引值,获取索引值小于第一度量字段的索引值的其他度量字段的个数以及索引值大于第一度量字段的索引值的其他度量字段的个数,表6所示的待处理数据表中包含6个度量字段,由于第一度量字段的索引值为2,索引值为1的字段为维度字段,因此,小于第一度量字段的索引值的其他度量字段的个数为0,索引值大于第一度量字段的索引值的其他度量字段的个数为5。
同理,比较第一度量字段的索引值与维度字段的索引值,获取索引值小于第一度量字段的索引值的维度字段的个数以及索引值大于第一度量字段的索引值的维度字段的个数,由上述表6中可以查看到索引值小于第一度量字段的索引值的维度字段的个数为1,索引值大于第一度量字段的索引值的维度字段的个数为0。需要说明的是,第一度量字段为待处理数据表中任意的度量字段。
根据本发明提供的数据表字段图谱生成方法,通过第一度量字段在待处理数据表中的分布情况和第一度量字段所对应的单元格集合中数据的分布情况,确定出第一度量字段的第一特征信息,为后续根据数据生成字段图谱提供数据支持。
基于上述任一实施例,在本实施例中,根据待处理数据表中第一度量字段所对应的单元格集合中的数据统计情况,获取待处理数据表中第一度量字段的第二特征信息,至少包括以下任意一种:获取第一度量字段所对应的单元格集合中的数字的平均值;获取第一度量字段所对应的单元格集合中的数字的中位数;获取第一度量字段所对应的单元格集合中的数字的标准差;获取第一度量字段所对应的单元格集合中的数字的最小值;获取第一度量字段所对应的单元格集合中的数字的最大值;获取第一度量字段所对应的单元格集合中的数字的四分之三分位值;获取第一度量字段所对应的单元格集合中的数字的四分之一分位值;获取第一度量字段所对应的单元格集合中的数字的四分之一分位值与数字的四分之三分位值的差。
在本实施例中,需要根据待处理数据表中第一度量字段所对应的单元格集合中的数据统计情况,获取第一度量字段的第二特征信息。其中,第二特征信息包括:第一度量字段所对应的单元格集合中的数字的平均值、数字的中位数、数字的标准差、数字的最小值、数字的最大值、数字的四分之三分位值、数字的四分之一分位值以及数字的四分之一分位值与数字的四分之三分位值的差。其中,分位值是随机变量的特征数之一,分位值在统计学中有很多的应用,在一般的数据分析中,可以计算25分位,50分位,75分位,其中,四分之一分位值为25分位计算得到的数值,四分之三分位值为75分位计算得到的数值,具体计算方式可根据采用现有技术中的计算方式,在此不再赘述。
举例说明,假如第一度量字段为表1中字段名称为“库龄”的字段,其中,第一度量字段所对应的单元格集合中的数字的平均值5.75、数字的中位数为6、数字的标准差为1.35、数字的最小值为4、数字的最大值为7、数字的四分之三分位值为7、数字的四分之一分位值为4.75以及数字的四分之一分位值与数字的四分之三分位值的差为2.25。
根据本发明提供的数据表字段图谱生成方法,通过第一度量字段所对应的单元格集合中的数据统计情况,获取第一度量字段的第二特征信息,为后续根据数据生成字段图谱提供数据支持。
基于上述任一实施例,在本实施例中,如图5所示,获取待识别的数据表,确定数据表中各个字段的类型,根据各个字段的类型确定出维度字段以及维度字段对应的单元格集合,度量字段以及度量字段对应的单元格集合。在本实施例中,首先根据确定的维度字段的类型确定出时间类别、地点类别、人物类别和事件类别,其中,时间类型、日期类型和日期时间类型的维度字段属于时间类别,人名类型、机构团体类型、手机号类型、电话号类型、文本类数值类型和身份证号码类型的维度字段属于人物类别,动词类型的维度字段属于事件类别。
在根据维度字段的类型没有确定出类别的,且字段类型为名词类型的第一维度字段,可以通过计算第一维度字段与确定为人物类别的各个维度字段的相关度,以及与确定为地点类别的各个维度字段的相关度,通过判断与预设阈值的关系确定出第一维度字段的类别。
在第一维度字段的类型不为名词类型时,通过计算与确定为人物类别的各个维度字段的相关度,与确定为地点类别的各个维度字段的相关度,以及与确定为时间类别的各个维度字段的相关度,并与预设的阈值进行比较判断,确定出第一维度字段的类别。还可以通过第一维度字段的推荐分数对第一维度字段的类别进行修改处理,当第一维度字段的类别为事件类别且推荐分数小于阈值时,将第一维度字段的类别由事件类别修改为不推荐的事件类别。
在本实施例中,还需要根据度量字段的推荐分数确定出度量字段类别。根据得到的各个类别的信息,以及各个类别所包含的各个字段所对应的单元格集合的信息,生成待处理数据表的字段图谱。
需要说明的是,待处理数据表的特征信息,第一维度字段的第一特征信息、第二特征信息,以及第一度量字段的第一特征信息、第二特征信息,上述相关信息的具体包含内容如上述实施例所述,在此不再详细赘述。
图6为本发明提供的一种数据表图谱生成装置,如图6所示,本发明提供的数据表字段图谱生成装置,包括:
第一确定模块601,用于确定待处理数据表中的各个字段的类型,根据所述字段的类型确定所述待处理数据表中的维度字段以及度量字段;其中,维度字段用于描述对应单元格中的数据所表示的含义,度量字段用于描述对应单元格中的数据所表示的数量;第二确定模块602,用于根据维度字段的类型、维度字段的特征信息以及待处理数据表的特征信息,确定维度字段的推荐分数;分类模块603,用于根据维度字段的类型以及维度字段的推荐分数,对所述待处理数据表中的维度字段进行分类,得到维度字段的类别;第三确定模块604,用于确定度量字段的类别,并根据待处理数据表的特征信息、度量字段的特征信息,确定度量字段的推荐分数;生成模块605,用于根据待处理数据表中各个维度字段的类别、各个维度字段的推荐分数、各个度量字段的类别以及各个度量字段的推荐分数,生成所述待处理数据表的字段图谱。
根据本发明提供一种数据表字段图谱生成装置,能够使海量数据的数据表中的数据准确显示,用户可以根据生成的字段图谱展示的数据信息,准确得到各个字段的推荐分析情况和类别情况,能够迅速查找到需要推荐分析的字段,提高了数据表处理的效率,提升了用户体验。
基于上述任一实施例,在本实施例中,第二确定模块602还用于:
获取待处理数据表的特征信息;根据待处理数据表中第一维度字段所对应的单元格集合中的数据分布情况以及第一维度字段在待处理数据表中的分布情况,获取待处理数据表中第一维度字段的第一特征信息;其中,第一维度字段是所述待处理数据表中的任意一个维度字段;根据待处理数据表中各个维度字段的类型以及第一维度字段与待处理数据表中其他维度字段的关系,获取第一维度字段的第二特征信息;将待处理数据表的特征信息、第一维度字段的第一特征信息以及第一维度字段的第二特征信息输入预先训练的维度字段推荐模型,得到第一维度字段的推荐分数;其中,维度字段推荐模型是基于样本数据表的特征信息、样本数据表中第二维度字段的第一特征信息、第二维度字段的第二特征信息以及第二维度字段的推荐分数标签训练得到的;其中,第二维度字段是样本数据表中的任意一个或多个维度字段。
根据本发明提供的数据表字段图谱生成装置,将获取的待处理数据表的特征信息、第一维度字段的第一特征信息和第二特征信息输入预先训练好的维度字段推荐模型,得到第一维度字段的推荐分数,能够让用户从多个维度字段中快速找到需要分析的字段,提高维度字段推荐分析的处理速度和准确率,降低了人工查看数据的成本。
基于上述任一实施例,在本实施例中,第二确定模块602还用于:
获取待处理数据表的描述特征;
获取待处理数据表的分类特征。
根据本发明提供的数据表字段图谱生成装置,获取待处理数据表的描述特征和分类特征,将获取到的信息用于后续维度字段推荐分数的确定获取中,提高了维度字段数据推荐处理的速度,为后续字段图谱的生成提供了数据支持。
基于上述任一实施例,在本实施例中,第二确定模块602还用于:
获取所述第一维度字段的描述特征信息;
获取所述第一维度字段的位置特征信息。
根据本发明提供的数据表字段图谱生成装置,通过第一维度字段的索引值确定出第一维度字段在待处理数据表中的分布情况以及所对应的单元格数据的分布情况,然后确定出第一维度字段的第一特征信息,为后续精准确定出第一维度字段的推荐分数提供数据支持。
基于上述任一实施例,在本实施例中,第二确定模块602还用于:
根据待处理数据表中各个维度字段的类型,获取待处理数据表中与第一维度字段具有相同类型的维度字段的个数;根据第一维度字段与待处理数据表中其他维度字段的关系,获取待处理数据表中与第一维度字段是父亲关系的维度字段的个数;根据第一维度字段与待处理数据表中其他维度字段的关系,获取待处理数据表中与第一维度字段是儿子关系的维度字段的个数;根据第一维度字段与待处理数据表中其他维度字段的关系,获取待处理数据表中与第一维度字段类型相同且是父亲关系的维度字段的个数;根据第一维度字段与待处理数据表中其他维度字段的关系,获取待处理数据表中与第一维度字段类型相同且是儿子关系的维度字段的个数;获取字段类型的枚举值;根据所获取的数据,得到待处理数据表中第一维度字段的第二特征信息。
根据本发明提供的数据表字段图谱生成装置,通过第一维度字段的类型以及与待处理数据表中其他维度字段的关系确定出第一维度字段的第二特征信息,为后续精准确定出第一维度字段的推荐分数提供数据支持。
基于上述任一实施例,在本实施例中,分类模块604还用于:
在第一维度字段的类型满足类型类别映射关系集合中的类型类别映射关系的情况下,确定第一维度字段所对应的类别;其中,所述类型类别映射关系描述了具有唯一对应关系的类型与类别;第一维度字段是所述待处理数据表中的任意一个维度字段;在第一维度字段的类型不满足类型类别映射关系集合中的类型类别映射关系的情况下,根据第一维度字段与待处理数据表中类别已确定的维度字段之间的相关度以及第一维度字段的推荐分数,确定所述第一维度字段所对应的类别。
根据本发明提供的数据表字段图谱生成装置,通过判断第一维度字段的类型是否满足类型类别映射关系集合中的类型,确定出第一维度字段的类别,为后续准确生成字段图谱提供了数据支持,保证了数据处理的准确性和效率。
基于上述任一实施例,在本实施例中,分类模块604还用于:
根据第一维度字段的类型在类型类别映射关系集合中确定对应的类型类别映射关系;根据所确定的类型类别映射关系,确定第一维度字段的类别。
根据本发明提供的数据表字段图谱生成装置,通过上述提供的类别确定方式,能够迅速识别出第一维度字段的类别,提高类别识别确定的准确性和效率。
基于上述任一实施例,在本实施例中,分类模块604还用于:
判断第一维度字段的类型是否为名词类型;在第一维度字段的类型是名词类型的情况下,计算第一维度字段与已确定为人物类别的各个维度字段之间的相关度,并计算第一维度字段与已确定为地点类别的各个维度字段之间的相关度;根据第一相关度与第二相关度的比较结果,确定第一维度字段的类别;其中,第一相关度为第一维度字段与已确定为人物类别的各个维度字段之间的相关度的最大值,第二相关度为第一维度字段与已确定为地点类别的各个维度字段之间的相关度的最大值。
根据本发明提供的数据表字段图谱生成装置,在第一维度字段不满足类型类别映射关系集合中的类型类别映射关系,且确定第一维度字段的类型为名词类型,只通过计算第一维度字段与已确定为地点类别的各个维度字段之间的相关度,以及与已确定为地点类别的各个维度字段之间的相关度,能够迅速确定出第一维度字段的类别,提高类别确定的效率,同时为数据表字段图谱的生成提供数据支持。
基于上述任一实施例,在本实施例中,分类模块604还用于:
在第一相关度的数值大于第一阈值且第一相关度大于第二相关度的情况下,确定第一维度字段的类别为人物类别;在第二相关度的数值大于第一阈值且第二相关度大于第一相关度的情况下,确定第一维度字段的类别为地点类别。
根据本发明提供的数据表字段图谱生成装置,在第一维度字段不满足类型类别映射关系集合中的类型类别映射关系,且确定第一维度字段的类型为名词类型,通过比较得到的第一相关度、第二相关度和第一阈值之间的大小关系,能够迅速确定出第一维度字段的类别,提高类别确定的效率,同时为数据表字段图谱的生成提供数据支持。
基于上述任一实施例,在本实施例中,分类模块604还用于:
在第一维度字段的类型不是名词类型的情况下,计算第一维度字段与已确定为人物类别的各个维度字段之间的相关度,计算第一维度字段与已确定为地点类别的各个维度字段之间的相关度,计算第一维度字段与已确定为时间类别的各个维度字段之间的相关度;在第一相关度大于第二阈值的情况下,确定第一维度字段的类别为人物类别;在第二相关度大于第三阈值的情况下,确定第一维度字段的类别为地点类别;在第三相关度大于第四阈值的情况下,确定第一维度字段的类别为时间类别;在第一维度字段的类别未被识别为人物类别、地点类别或时间类别的情况下,将第一维度字段的类别识别为事件类别;其中,第一相关度为第一维度字段与已确定为人物类别的各个维度字段之间的相关度的最大值;第二相关度为第一维度字段与已确定为地点类别的各个维度字段之间的相关度的最大值;第三相关度为所述第一维度字段与已确定为时间类别的各个维度字段之间的相关度的最大值。
根据本发明提供的数据表字段图谱生成装置,在第一维度字段不满足类型类别映射关系集合中的类型类别映射关系,且第一维度字段的类型不是名词类型的情况下,通过比较得到的第一相关度、第二相关度、第三相关度和预设阈值之间的大小关系,能够迅速确定出第一维度字段的类别,提高类别确定的效率,同时为数据表字段图谱的生成提供数据支持。
基于上述任一实施例,在本实施例中,分类模块604还用于:
获取事件类别的第一维度字段的推荐分数;在推荐分数小于第五阈值的情况下,将第一维度字段的类别从事件类别修改为不推荐的事件类别。
根据本发明提供的数据表字段图谱生成装置,通过获取类别为事件类别的第一维度字段的推荐分数,在推荐分数小于第五阈值时,将第一维度字段的类别由事件类别修改为不推荐的事件类别,实现对第一维度字段的类别的准确确定,迅速准确地确定出第一维度字段的类别,提高类别确定的效率,同时为数据表字段图谱的生成提供数据支持。
基于上述任一实施例,在本实施例中,第三确定模块604还用于:
将第一度量字段的类别确定为度量类别;其中,第一度量字段为待处理数据表中的任意一个度量字段;获取待处理数据表的特征信息;其中,待处理数据表的特征信息包括待处理数据表的描述特征与待处理数据表的分类特征;根据待处理数据表中第一度量字段所对应的单元格集合中的数据分布情况以及第一度量字段在待处理数据表中的分布情况,获取第一度量字段的第一特征信息;根据待处理数据表中第一度量字段所对应的单元格集合中的数据统计情况,获取待处理数据表中第一度量字段的第二特征信息;将待处理数据表的特征信息、第一度量字段的第一特征信息以及第一度量字段的第二特征信息输入预先训练的度量字段推荐模型,得到第一度量字段的推荐分数;其中,度量字段推荐模型是基于样本数据表的特征信息、样本数据表中第二度量字段的第一特征信息、第二度量字段的第二特征信息以及第二度量字段的推荐分数标签训练得到的;其中,第二度量字段是样本数据表中的任意一个或多个度量字段。
根据本发明提供的数据表字段图谱生成装置,将获取到的待处理数据表的特征信息、第一度量字段的第一特征信息和第一度量字段的第二特征信息输入预先训练的度量字段推荐模型中,得到第一度量字段的推荐分数。本发明能够快速得到第一度量字段的推荐分数,为后续字段图谱的生成提供数据支持。
基于上述任一实施例,在本实施例中,第三确定模块604还用于获取以下任意一种信息:
获取第一度量字段的索引值;其中,索引值用于描述第一度量字段在待处理数据表中的位置;获取第一度量字段所对应的单元格集合中的未重复数据个数;获取第一度量字段所对应的单元格集合中的单元格个数;获取第一度量字段所对应的单元格集合中的非空单元格个数;在待处理数据表中,比较第一度量字段的索引值与其他度量字段的索引值,获取索引值小于第一度量字段的索引值的其他度量字段的个数以及索引值大于第一度量字段的索引值的其他度量字段的个数;在待处理数据表中,比较第一度量字段的索引值与维度字段的索引值,获取索引值小于第一度量字段的索引值的维度字段的个数以及索引值大于第一度量字段的索引值的维度字段的个数;根据所获取的数据,得到待处理数据表中第一度量字段的第一特征信息。
根据本发明提供的数据表字段图谱生成装置,通过第一度量字段在待处理数据表中的分布情况和第一度量字段所对应的单元格集合中数据的分布情况,确定出第一度量字段的第一特征信息,为后续根据数据生成字段图谱提供数据支持。
基于上述任一实施例,在本实施例中,第三确定模块604还用于获取以下任意一种信息:
获取第一度量字段所对应的单元格集合中的数字的平均值;获取第一度量字段所对应的单元格集合中的数字的中位数;获取第一度量字段所对应的单元格集合中的数字的标准差;获取第一度量字段所对应的单元格集合中的数字的最小值;获取第一度量字段所对应的单元格集合中的数字的最大值;获取第一度量字段所对应的单元格集合中的数字的四分之三分位值;获取第一度量字段所对应的单元格集合中的数字的四分之一分位值;获取第一度量字段所对应的单元格集合中的数字的四分之一分位值与数字的四分之三分位值的差。
根据本发明提供的数据表字段图谱生成装置,通过第一度量字段所对应的单元格集合中的数据统计情况,获取第一度量字段的第二特征信息,为后续根据数据生成字段图谱提供数据支持。
由于本发明实施例所述装置与上述实施例所述方法的原理相同,对于更加详细的解释内容在此不再赘述。
图7为本发明实施例中提供的电子设备实体结构示意图,如图7所示,本发明提供一种电子设备,包括:处理器(processor)701、存储器(memory)702和总线703;
其中,处理器701、存储器702通过总线703完成相互间的通信;
处理器701用于调用存储器702中的程序指令,以执行上述各方法实施例中所提供的方法,例如包括:确定待处理数据表中的各个字段的类型,根据字段的类型确定待处理数据表中的维度字段以及度量字段;其中,维度字段用于描述对应单元格中的数据所表示的含义,度量字段用于描述对应单元格中的数据所表示的数量;根据维度字段的类型、维度字段的特征信息以及待处理数据表的特征信息,确定维度字段的推荐分数;根据维度字段的类型以及维度字段的推荐分数,对待处理数据表中的维度字段进行分类,得到维度字段的类别;确定度量字段的类别,并根据待处理数据表的特征信息、度量字段的特征信息,确定度量字段的推荐分数;根据待处理数据表中各个维度字段的类别、各个维度字段的推荐分数、各个度量字段的类别以及各个度量字段的推荐分数,生成待处理数据表的字段图谱。
本发明实施例中提供一种计算机可读存储介质,计算机可读存储介质存储计算机指令,计算机指令使所述计算机执行上述各方法实施例中所提供的方法,例如包括:确定待处理数据表中的各个字段的类型,根据字段的类型确定待处理数据表中的维度字段以及度量字段;其中,维度字段用于描述对应单元格中的数据所表示的含义,度量字段用于描述对应单元格中的数据所表示的数量;根据维度字段的类型、维度字段的特征信息以及待处理数据表的特征信息,确定维度字段的推荐分数;根据维度字段的类型以及维度字段的推荐分数,对待处理数据表中的维度字段进行分类,得到维度字段的类别;确定度量字段的类别,并根据待处理数据表的特征信息、度量字段的特征信息,确定度量字段的推荐分数;根据待处理数据表中各个维度字段的类别、各个维度字段的推荐分数、各个度量字段的类别以及各个度量字段的推荐分数,生成待处理数据表的字段图谱。
本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的方法,该方法包括:确定待处理数据表中的各个字段的类型,根据字段的类型确定待处理数据表中的维度字段以及度量字段;其中,维度字段用于描述对应单元格中的数据所表示的含义,度量字段用于描述对应单元格中的数据所表示的数量;根据维度字段的类型、维度字段的特征信息以及待处理数据表的特征信息,确定维度字段的推荐分数;根据维度字段的类型以及维度字段的推荐分数,对待处理数据表中的维度字段进行分类,得到维度字段的类别;确定度量字段的类别,并根据待处理数据表的特征信息、度量字段的特征信息,确定度量字段的推荐分数;根据待处理数据表中各个维度字段的类别、各个维度字段的推荐分数、各个度量字段的类别以及各个度量字段的推荐分数,生成待处理数据表的字段图谱。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例中所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (17)
1.一种数据表字段图谱生成方法,其特征在于,包括:
确定待处理数据表中的各个字段的类型,根据所述字段的类型确定所述待处理数据表中的维度字段以及度量字段;其中,所述维度字段用于描述对应单元格中的数据所表示的含义,所述度量字段用于描述对应单元格中的数据所表示的数量;
根据维度字段的类型、维度字段的特征信息以及所述待处理数据表的特征信息,确定所述维度字段的推荐分数;
根据维度字段的类型以及所述维度字段的推荐分数,对所述待处理数据表中的维度字段进行分类,得到维度字段的类别;
确定度量字段的类别,并根据待处理数据表的特征信息、度量字段的特征信息,确定所述度量字段的推荐分数;
根据所述待处理数据表中各个维度字段的类别、各个维度字段的推荐分数、各个度量字段的类别以及各个度量字段的推荐分数,生成所述待处理数据表的字段图谱。
2.根据权利要求1所述的数据表字段图谱生成方法,其特征在于,所述根据维度字段的类型、维度字段的特征信息以及所述待处理数据表的特征信息,确定所述维度字段的推荐分数,包括:
获取待处理数据表的特征信息;
根据待处理数据表中第一维度字段所对应的单元格集合中的数据分布情况以及第一维度字段在所述待处理数据表中的分布情况,获取待处理数据表中第一维度字段的第一特征信息;其中,所述第一维度字段是所述待处理数据表中的任意一个维度字段;
根据待处理数据表中各个维度字段的类型以及所述第一维度字段与待处理数据表中其他维度字段的关系,获取所述第一维度字段的第二特征信息;
将所述待处理数据表的特征信息、所述第一维度字段的第一特征信息以及所述第一维度字段的第二特征信息输入预先训练的维度字段推荐模型,得到所述第一维度字段的推荐分数;
其中,所述维度字段推荐模型是基于样本数据表的特征信息、样本数据表中第二维度字段的第一特征信息、第二维度字段的第二特征信息以及第二维度字段的推荐分数标签训练得到的;其中,所述第二维度字段是样本数据表中的任意一个或多个维度字段。
3.根据权利要求2所述的数据表字段图谱生成方法,其特征在于,所述待处理数据表的特征信息包括待处理数据表的描述特征与待处理数据表的分类特征;
相应的,所述获取待处理数据表的特征信息,包括:
获取待处理数据表的描述特征;
获取待处理数据表的分类特征。
4.根据权利要求2所述的数据表字段图谱生成方法,其特征在于,所述第一维度字段的第一特征信息包括第一维度字段的描述特征信息和位置特征信息;
相应的,所述根据待处理数据表中第一维度字段所对应的单元格集合中的数据分布情况以及第一维度字段在所述待处理数据表中的分布情况,获取待处理数据表中第一维度字段的第一特征信息,包括:
获取所述第一维度字段的描述特征信息;
获取所述第一维度字段的位置特征信息。
5.根据权利要求2所述的数据表字段图谱生成方法,其特征在于,所述根据待处理数据表中各个维度字段的类型以及所述第一维度字段与待处理数据表中其他维度字段的关系,获取所述第一维度字段的第二特征信息,包括:
根据待处理数据表中各个维度字段的类型,获取所述待处理数据表中与所述第一维度字段具有相同类型的维度字段的个数;
根据第一维度字段与待处理数据表中其他维度字段的关系,获取所述待处理数据表中与所述第一维度字段是父亲关系的维度字段的个数;
根据第一维度字段与待处理数据表中其他维度字段的关系,获取所述待处理数据表中与所述第一维度字段是儿子关系的维度字段的个数;
根据第一维度字段与待处理数据表中其他维度字段的关系,获取所述待处理数据表中与所述第一维度字段类型相同且是父亲关系的维度字段的个数;
根据第一维度字段与待处理数据表中其他维度字段的关系,获取所述待处理数据表中与所述第一维度字段类型相同且是儿子关系的维度字段的个数;
获取字段类型的枚举值;
根据所获取的数据,得到待处理数据表中第一维度字段的第二特征信息。
6.根据权利要求1所述的数据表字段图谱生成方法,其特征在于,所述根据维度字段的类型以及所述维度字段的推荐分数,对所述待处理数据表中的维度字段进行分类,得到维度字段的类别,包括:
在第一维度字段的类型满足类型类别映射关系集合中的类型类别映射关系的情况下,确定所述第一维度字段所对应的类别;其中,所述类型类别映射关系描述了具有唯一对应关系的类型与类别;所述第一维度字段是所述待处理数据表中的任意一个维度字段;
在第一维度字段的类型不满足类型类别映射关系集合中的类型类别映射关系的情况下,根据所述第一维度字段与所述待处理数据表中类别已确定的维度字段之间的相关度以及第一维度字段的推荐分数,确定所述第一维度字段所对应的类别。
7.根据权利要求6所述的数据表字段图谱生成方法,其特征在于,所述类型类别映射关系集合包括以下类型类别映射关系中的一种或多种:日期类型对应时间类别、时间类型对应时间类别、日期时间类型对应时间类别、地名类型对应地点类别、人名类型对应人物类别、机构团体类型对应人物类别、手机号类型对应人物类别、电话号类型对应人物类别、文本类数值类型对应人物类别、身份证号码类型对应人物类别、动词类型对应事件类别;
相应的,所述在第一维度字段的类型满足类型类别映射关系集合中的类型类别映射关系的情况下,确定所述第一维度字段所对应的类别,包括:
根据第一维度字段的类型在所述类型类别映射关系集合中确定对应的类型类别映射关系;
根据所确定的类型类别映射关系,确定所述第一维度字段的类别。
8.根据权利要求7所述的数据表字段图谱生成方法,其特征在于,所述在第一维度字段的类型不满足类型类别映射关系集合中的类型类别映射关系的情况下,根据所述第一维度字段与所述待处理数据表中类别已确定的维度字段之间的相关度以及第一维度字段的推荐分数,确定所述第一维度字段所对应的类别,包括:
判断第一维度字段的类型是否为名词类型;
在所述第一维度字段的类型是名词类型的情况下,计算所述第一维度字段与已确定为人物类别的各个维度字段之间的相关度,并计算所述第一维度字段与已确定为地点类别的各个维度字段之间的相关度;
根据第一相关度与第二相关度的比较结果,确定所述第一维度字段的类别;其中,所述第一相关度为所述第一维度字段与已确定为人物类别的各个维度字段之间的相关度的最大值,所述第二相关度为所述第一维度字段与已确定为地点类别的各个维度字段之间的相关度的最大值。
9.根据权利要求8所述的数据表字段图谱生成方法,其特征在于,所述根据第一相关度与第二相关度的比较结果,确定所述第一维度字段的类别,包括:
在所述第一相关度的数值大于第一阈值且所述第一相关度大于第二相关度的情况下,确定所述第一维度字段的类别为人物类别;
在所述第二相关度的数值大于第一阈值且所述第二相关度大于第一相关度的情况下,确定所述第一维度字段的类别为地点类别。
10.根据权利要求7所述的数据表字段图谱生成方法,其特征在于,所述在第一维度字段的类型不满足类型类别映射关系集合中的类型类别映射关系的情况下,根据所述第一维度字段与所述待处理数据表中类别已确定的维度字段之间的相关度以及第一维度字段的推荐分数,确定所述第一维度字段所对应的类别,还包括:
在第一维度字段的类型不是名词类型的情况下,计算所述第一维度字段与已确定为人物类别的各个维度字段之间的相关度,计算所述第一维度字段与已确定为地点类别的各个维度字段之间的相关度,计算所述第一维度字段与已确定为时间类别的各个维度字段之间的相关度以及;
在第一相关度大于第二阈值的情况下,确定所述第一维度字段的类别为人物类别;
在第二相关度大于第三阈值的情况下,确定所述第一维度字段的类别为地点类别;
在第三相关度大于第四阈值的情况下,确定所述第一维度字段的类别为时间类别;
在所述第一维度字段的类别未被识别为所述人物类别、地点类别或时间类别的情况下,将所述第一维度字段的类别识别为事件类别;
其中,所述第一相关度为所述第一维度字段与已确定为人物类别的各个维度字段之间的相关度的最大值;所述第二相关度为所述第一维度字段与已确定为地点类别的各个维度字段之间的相关度的最大值;所述第三相关度为所述第一维度字段与已确定为时间类别的各个维度字段之间的相关度的最大值。
11.根据权利要求10所述的数据表字段图谱生成方法,其特征在于,所述在第一维度字段的类型不满足类型类别映射关系集合中的类型类别映射关系的情况下,根据所述第一维度字段与所述待处理数据表中类别已确定的维度字段之间的相关度以及第一维度字段的推荐分数,确定所述第一维度字段所对应的类别,还包括:
获取事件类别的第一维度字段的推荐分数;
在所述推荐分数小于或等于第五阈值的情况下,将所述第一维度字段的类别从事件类别修改为不推荐的事件类别。
12.根据权利要求1所述的数据表字段图谱生成方法,其特征在于,所述确定度量字段的类别,并根据待处理数据表的特征信息、度量字段的特征信息,确定所述度量字段的推荐分数,包括:
将第一度量字段的类别确定为度量类别;其中,所述第一度量字段为所述待处理数据表中的任意一个度量字段;
获取待处理数据表的特征信息;其中,所述待处理数据表的特征信息包括待处理数据表的描述特征与待处理数据表的分类特征;
根据待处理数据表中第一度量字段所对应的单元格集合中的数据分布情况以及第一度量字段在所述待处理数据表中的分布情况,获取所述第一度量字段的第一特征信息;
根据待处理数据表中第一度量字段所对应的单元格集合中的数据统计情况,获取待处理数据表中第一度量字段的第二特征信息;
将所述待处理数据表的特征信息、所述第一度量字段的第一特征信息以及所述第一度量字段的第二特征信息输入预先训练的度量字段推荐模型,得到所述第一度量字段的推荐分数;
其中,所述度量字段推荐模型是基于样本数据表的特征信息、样本数据表中第二度量字段的第一特征信息、第二度量字段的第二特征信息以及第二度量字段的推荐分数标签训练得到的;其中,所述第二度量字段是样本数据表中的任意一个或多个度量字段。
13.根据权利要求12所述的数据表字段图谱生成方法,其特征在于,所述根据待处理数据表中第一度量字段所对应的单元格集合中的数据分布情况以及第一度量字段在所述待处理数据表中的分布情况,获取待处理数据表中第一度量字段的第一特征信息,至少包括以下任意一种:
获取第一度量字段的索引值;其中,所述索引值用于描述所述第一度量字段在所述待处理数据表中的位置;
获取第一度量字段所对应的单元格集合中的未重复数据个数;
获取第一度量字段所对应的单元格集合中的单元格个数;
获取第一度量字段所对应的单元格集合中的非空单元格个数;
在所述待处理数据表中,比较第一度量字段的索引值与其他度量字段的索引值,获取索引值小于所述第一度量字段的索引值的其他度量字段的个数以及索引值大于所述第一度量字段的索引值的其他度量字段的个数;
在所述待处理数据表中,比较第一度量字段的索引值与维度字段的索引值,获取索引值小于所述第一度量字段的索引值的维度字段的个数以及索引值大于所述第一度量字段的索引值的维度字段的个数;
根据所获取的数据,得到待处理数据表中第一度量字段的第一特征信息。
14.根据权利要求12所述的数据表字段图谱生成方法,其特征在于,所述根据待处理数据表中第一度量字段所对应的单元格集合中的数据统计情况,获取待处理数据表中第一度量字段的第二特征信息,至少包括以下任意一种:
获取第一度量字段所对应的单元格集合中的数字的平均值;
获取第一度量字段所对应的单元格集合中的数字的中位数;
获取第一度量字段所对应的单元格集合中的数字的标准差;
获取第一度量字段所对应的单元格集合中的数字的最小值;
获取第一度量字段所对应的单元格集合中的数字的最大值;
获取第一度量字段所对应的单元格集合中的数字的四分之三分位值;
获取第一度量字段所对应的单元格集合中的数字的四分之一分位值;
获取第一度量字段所对应的单元格集合中的数字的四分之一分位值与数字的四分之三分位值的差。
15.一种数据表字段图谱生成装置,其特征在于,包括:
第一确定模块,用于确定待处理数据表中的各个字段的类型,根据所述字段的类型确定所述待处理数据表中的维度字段以及度量字段;其中,所述维度字段用于描述对应单元格中的数据所表示的含义,所述度量字段用于描述对应单元格中的数据所表示的数量;
第二确定模块,用于根据维度字段的类型、维度字段的特征信息以及所述待处理数据表的特征信息,确定所述维度字段的推荐分数;
分类模块,用于根据维度字段的类型以及所述维度字段的推荐分数,对所述待处理数据表中的维度字段进行分类,得到维度字段的类别;
第三确定模块,用于确定度量字段的类别,并根据待处理数据表的特征信息、度量字段的特征信息,确定所述度量字段的推荐分数;
生成模块,用于根据所述待处理数据表中各个维度字段的类别、各个维度字段的推荐分数、各个度量字段的类别以及各个度量字段的推荐分数,生成所述待处理数据表的字段图谱。
16.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至14任一项所述数据表字段图谱生成方法的步骤。
17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至14任一项所述数据表字段图谱生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111223623.1A CN114003666A (zh) | 2021-10-20 | 2021-10-20 | 数据表字段图谱生成方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111223623.1A CN114003666A (zh) | 2021-10-20 | 2021-10-20 | 数据表字段图谱生成方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114003666A true CN114003666A (zh) | 2022-02-01 |
Family
ID=79923529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111223623.1A Pending CN114003666A (zh) | 2021-10-20 | 2021-10-20 | 数据表字段图谱生成方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114003666A (zh) |
-
2021
- 2021-10-20 CN CN202111223623.1A patent/CN114003666A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108628971B (zh) | 不均衡数据集的文本分类方法、文本分类器及存储介质 | |
US11449673B2 (en) | ESG-based company evaluation device and an operation method thereof | |
CN110458324B (zh) | 风险概率的计算方法、装置和计算机设备 | |
CN112257419B (zh) | 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质 | |
CN110334209B (zh) | 文本分类方法、装置、介质及电子设备 | |
CN106598999B (zh) | 一种计算文本主题归属度的方法及装置 | |
CN111597356B (zh) | 智能化教育知识图谱构建系统与方法 | |
CN113495900A (zh) | 基于自然语言的结构化查询语言语句获取方法及装置 | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN112883190A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN116848490A (zh) | 使用模型相交进行文档分析 | |
CN111125295A (zh) | 一种基于lstm的获取食品安全问题答案的方法及系统 | |
CN114218958A (zh) | 工单处理方法、装置、设备和存储介质 | |
CN110781673B (zh) | 文档验收方法、装置、计算机设备及存储介质 | |
CN115062151A (zh) | 一种文本特征提取方法、文本分类方法及可读存储介质 | |
CN110287493B (zh) | 风险短语识别方法、装置、电子设备及存储介质 | |
CN109960730B (zh) | 一种基于特征扩展的短文本分类方法、装置以及设备 | |
CN111104422A (zh) | 一种数据推荐模型的训练方法、装置、设备及存储介质 | |
CN114003666A (zh) | 数据表字段图谱生成方法、装置、电子设备及存储介质 | |
CN112579783B (zh) | 基于拉普拉斯图谱的短文本聚类方法 | |
CN113705201B (zh) | 基于文本的事件概率预测评估算法、电子设备及存储介质 | |
CN114003665A (zh) | 数据表字段关系识别方法、装置、电子设备及存储介质 | |
CN115688788A (zh) | 用于审计领域的命名实体识别模型的训练方法及相关设备 | |
CN105893397A (zh) | 一种视频推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |