CN109739855A - 实现数据表拼接及自动训练机器学习模型的方法和系统 - Google Patents
实现数据表拼接及自动训练机器学习模型的方法和系统 Download PDFInfo
- Publication number
- CN109739855A CN109739855A CN201811619704.1A CN201811619704A CN109739855A CN 109739855 A CN109739855 A CN 109739855A CN 201811619704 A CN201811619704 A CN 201811619704A CN 109739855 A CN109739855 A CN 109739855A
- Authority
- CN
- China
- Prior art keywords
- data
- tables
- user
- splicing
- spliced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
提供了一种实现数据表拼接及自动训练机器学习模型的方法和系统。所述实现数据表拼接的方法包括:根据用户在屏幕中执行的输入操作,在任意两个数据表之间建立主外键关联关系;针对彼此之间通过主外键关联关系而关联起来的至少两个数据表,生成至少一个拼接方案;以及分别按照生成的每一个拼接方案,在所述关联起来的至少两个数据表之间拼接出对应的一个关联数据表。
Description
技术领域
本发明总体说来涉及数据处理领域,更具体地讲,涉及一种实现数据表拼接的方法及系统、自动训练机器学习模型的方法及系统。
背景技术
随着各行业海量数据的出现,需要在越来越多的场景下对数据进行各种处理,例如,数据表拼接等处理。
然而,现阶段很少有工具化的拼表方式,通常需要程序员通过编写程序代码来实现数据表的快速拼接,即,需要掌握专门的编程语言以编写出用于拼表的程序代码,例如,使用SQL(Structured Query Language,结构化查询语言)语句通过编写程序的方式来实现数据表拼接,这就要求使用者掌握SQL语法,学习成本较高,提高了数据应用的技术门槛,例如,普通业务人员(例如,那些无法熟练编程的人员)就很难便捷高效地对数据表进行拼接。
发明内容
本发明的示例性实施例在于提供一种实现数据表拼接的方法和系统,以解决现有技术存在的不能便捷高效地实现数据表的拼接的问题。此外,本发明的示例性实施例还提供一种自动训练机器学习模型的方法和系统,以解决现有技术存在的无法有效地从数据拼接开始即自动化地执行机器学习的问题。
根据本发明的示例性实施例,提供一种实现数据表拼接的方法,包括:根据用户在屏幕中执行的输入操作,在任意两个数据表之间建立主外键关联关系;针对彼此之间通过主外键关联关系而关联起来的至少两个数据表,生成至少一个拼接方案;以及分别按照生成的每一个拼接方案,在所述关联起来的至少两个数据表之间拼接出对应的一个关联数据表。
可选地,针对彼此之间通过主外键关联关系而关联起来的至少两个数据表,生成至少一个拼接方案的步骤包括:获取用户针对所述关联起来的至少两个数据表设置的拼接规则项;以及针对所述关联起来的至少两个数据表,根据获取的拼接规则项,生成所述至少一个拼接方案。
可选地,所述拼接规则项包括以下项之中的至少一项:拼接终点设置项,用于指定所述关联起来的至少两个数据表之中的一个数据表作为拼接终点,使得在生成的每个拼接方案中,最终拼接到指定的数据表;拼接路径长度限制项,用于限定最大拼接次数,使得在生成的每个拼接方案中,依次拼接数据表的次数小于或等于限定的最大拼接次数;以及拼接方式设置项,用于指定将任意两个具有主外键关联关系的数据表中的从表拼接到主表的拼接方式。
可选地,拼接方式设置项包括以下项之中的至少一项:数据记录过滤设置项,用于指定将所述从表中用户指定字段的字段值不符合用户指定要求的数据记录过滤后拼接到所述主表的拼接方式,或者,指定仅将所述从表中用户指定字段的字段值符合用户指定要求的数据记录拼接到所述主表的拼接方式;字段过滤设置项,用于指定仅将所述从表中的用户指定字段拼接到所述主表的拼接方式,或者,指定将所述从表中的用户指定字段过滤后拼接到所述主表的拼接方式;聚合处理设置项,用于指定对所述从表中用户指定字段的字段值进行用户指定的聚合处理,并将处理后得到的结果拼接到所述主表的拼接方式;以及离散处理设置项,用于指定对所述从表中用户指定字段的字段值进行用户指定的离散化处理,并将处理后得到的结果拼接到所述主表的拼接方式。
可选地,所述聚合处理包括以下项之中的至少一项:求和、求平均、取最大值、取最小值、计算个数。
可选地,所述至少一个拼接方案包括:基于所述关联起来的至少两个数据表之间的主外键关联关系能够最终拼接到指定的数据表或不作为其他数据表的从表的数据表的所有可能拼接方案之中,不被其他可能拼接方案完全覆盖的可能拼接方案,其中,在所有可能拼接方案中,具有主外键关联关系的两个数据表中的从表被拼接到主表。
可选地,所述方法还包括:向用户展示生成的每一个拼接方案中所述关联起来的至少两个数据表之间的拼接顺序。
可选地,根据用户在屏幕中执行的输入操作,在任意两个数据表之间建立主外键关联关系的步骤包括:在用于建立数据表之间的主外键关联关系的图形界面中,响应于用于将一个实体节点连接到另一个实体节点的用户操作,将所述一个实体节点所表示的数据表作为从表,并将所述另一个实体节点所表示的数据表作为主表,其中,每个实体节点用于表示对应的一个数据表;响应于用于指定所述从表中的一个字段作为所述主表的外键的用户操作,将指定的字段设置为所述主表相对于所述从表的外键;以及基于设置的外键和所述主表的主键,建立所述一个实体节点所表示的数据表与所述另一个实体节点所表示的数据表之间的主外键关联关系。
可选地,所述方法还包括:在所述一个实体节点与所述另一个实体节点之间由于所述将所述一个实体节点连接到所述另一个实体节点的用户操作而生成的连线上或所述连线的周围显示设置的外键的字段名称和/或所述主表的主键的字段名称。
可选地,所述方法还包括:响应于用于指定所述主键与所述外键之间关于相同字段值的数据记录数量对应关系的用户操作,将所述数据记录数量对应关系设置为一对一或一对多。
可选地,所述方法还包括:在所述一个实体节点与所述另一个实体节点之间的所述连线上或所述连线的周围显示所设置的数据记录数量对应关系。
可选地,用于将一个实体节点连接到另一个实体节点的用户操作包括:在所述一个实体节点上悬停,单击响应于所述悬停操作在所述一个实体节点上显示的待连接的连接点,然后单击所述另一个实体节点。
可选地,所述方法还包括:当用户选择所述一个实体节点与所述另一个实体节点之间由于所述将所述一个实体节点连接到所述另一个实体节点的用户操作而生成的连线时,突出显示所述一个实体节点、所述另一个实体节点及所述连线,并显示设置的外键的字段名称和所述主表的主键的字段名称。
可选地,在用于表示数据表的实体节点上不显示所述数据表的全部字段的字段名称,仅显示所述数据表的主键的字段名称。
可选地,获取用户针对所述关联起来的至少两个数据表设置的拼接规则项的步骤包括:当用户选择所述一个实体节点与所述另一个实体节点之间由于所述将所述一个实体节点连接到所述另一个实体节点的用户操作而生成的连线时,显示用于在所述一个实体节点所表示的从表和所述另一个实体节点所表示的主表之间设置拼接方式设置项的图形界面;以及根据用户在所述图形界面上执行的用于设置拼接方式设置项的输入操作,获取相应的拼接方式设置项。
根据本发明的另一示例性实施例,提供一种自动训练机器学习模型的方法,包括:通过执行如上所述的方法的步骤而得到拼接出的关联数据表;以及分别针对拼接出的每一个关联数据表自动训练出对应的机器学习模型。
可选地,所述方法还包括:从训练出的机器学习模型中确定一个效果最好的机器学习模型作为最终训练出的机器学习模型。
可选地,分别针对拼接出的每一个关联数据表自动训练出对应的机器学习模型的步骤包括:分别针对拼接出的每一个关联数据表,确定所述每一个关联数据表中的目标值字段,以作为机器学习样本的标记;基于所述每一个关联数据表中的非目标值字段自动生成机器学习样本的特征;以及基于由生成的标记和特征组成的机器学习样本来自动训练出对应的机器学习模型。
可选地,基于所述每一个关联数据表中的非目标值字段自动生成机器学习样本的特征的步骤包括:将所述每一个关联数据表中的各个非目标值字段直接处理为机器学习样本的特征。
可选地,基于所述每一个关联数据表中的非目标值字段自动生成机器学习样本的特征的步骤包括:将所述每一个关联数据表中的各个非目标值字段处理为单位特征;基于得到的单位特征进行自动特征组合,以生成组合特征;以及基于得到的单位特征和组合特征来确定机器学习样本的特征。
根据本发明的另一示例性实施例,提供一种实现数据表拼接的系统,包括:关联关系建立装置,根据用户在屏幕中执行的输入操作,在任意两个数据表之间建立主外键关联关系;拼接方案生成装置,针对彼此之间通过主外键关联关系而关联起来的至少两个数据表,生成至少一个拼接方案;以及拼接装置,分别按照生成的每一个拼接方案,在所述关联起来的至少两个数据表之间拼接出对应的一个关联数据表。
可选地,拼接方案生成装置获取用户针对所述关联起来的至少两个数据表设置的拼接规则项;并针对所述关联起来的至少两个数据表,根据获取的拼接规则项,生成所述至少一个拼接方案。
可选地,所述拼接规则项包括以下项之中的至少一项:拼接终点设置项,用于指定所述关联起来的至少两个数据表之中的一个数据表作为拼接终点,使得在生成的每个拼接方案中,最终拼接到指定的数据表;拼接路径长度限制项,用于限定最大拼接次数,使得在生成的每个拼接方案中,依次拼接数据表的次数小于或等于限定的最大拼接次数;以及拼接方式设置项,用于指定将任意两个具有主外键关联关系的数据表中的从表拼接到主表的拼接方式。
可选地,拼接方式设置项包括以下项之中的至少一项:数据记录过滤设置项,用于指定将所述从表中用户指定字段的字段值不符合用户指定要求的数据记录过滤后拼接到所述主表的拼接方式,或者,指定仅将所述从表中用户指定字段的字段值符合用户指定要求的数据记录拼接到所述主表的拼接方式;字段过滤设置项,用于指定仅将所述从表中的用户指定字段拼接到所述主表的拼接方式,或者,指定将所述从表中的用户指定字段过滤后拼接到所述主表的拼接方式;聚合处理设置项,用于指定对所述从表中用户指定字段的字段值进行用户指定的聚合处理,并将处理后得到的结果拼接到所述主表的拼接方式;以及离散处理设置项,用于指定对所述从表中用户指定字段的字段值进行用户指定的离散化处理,并将处理后得到的结果拼接到所述主表的拼接方式。
可选地,所述聚合处理包括以下项之中的至少一项:求和、求平均、取最大值、取最小值、计算个数。
可选地,所述至少一个拼接方案包括:基于所述关联起来的至少两个数据表之间的主外键关联关系能够最终拼接到指定的数据表或不作为其他数据表的从表的数据表的所有可能拼接方案之中,不被其他可能拼接方案完全覆盖的可能拼接方案,其中,在所有可能拼接方案中,具有主外键关联关系的两个数据表中的从表被拼接到主表。
可选地,所述系统还包括:展示装置,向用户展示生成的每一个拼接方案中所述关联起来的至少两个数据表之间的拼接顺序。
可选地,关联关系建立装置包括:界面提供单元,提供用于建立数据表之间的主外键关联关系的图形界面;主从表设置单元,响应于用于在所述图形界面中将一个实体节点连接到另一个实体节点的用户操作,将所述一个实体节点所表示的数据表作为从表,并将所述另一个实体节点所表示的数据表作为主表,其中,每个实体节点用于表示对应的一个数据表;外键设置单元,响应于用于指定所述从表中的一个字段作为所述主表的外键的用户操作,将指定的字段设置为所述主表相对于所述从表的外键;以及关系建立单元,基于设置的外键和所述主表的主键,建立所述一个实体节点所表示的数据表与所述另一个实体节点所表示的数据表之间的主外键关联关系。
可选地,界面提供单元在所述一个实体节点与所述另一个实体节点之间由于所述将所述一个实体节点连接到所述另一个实体节点的用户操作而生成的连线上或所述连线的周围显示设置的外键的字段名称和/或所述主表的主键的字段名称。
可选地,所述系统还包括:数量对应关系设置单元,响应于用于指定所述主键与所述外键之间关于相同字段值的数据记录数量对应关系的用户操作,将所述数据记录数量对应关系设置为一对一或一对多。
可选地,界面提供单元在所述一个实体节点与所述另一个实体节点之间的所述连线上或所述连线的周围显示所设置的数据记录数量对应关系。
可选地,用于将一个实体节点连接到另一个实体节点的用户操作包括:在所述一个实体节点上悬停,单击响应于所述悬停操作在所述一个实体节点上显示的待连接的连接点,然后单击所述另一个实体节点。
可选地,界面提供单元当用户选择所述一个实体节点与所述另一个实体节点之间由于所述将所述一个实体节点连接到所述另一个实体节点的用户操作而生成的连线时,突出显示所述一个实体节点、所述另一个实体节点及所述连线,并显示设置的外键的字段名称和所述主表的主键的字段名称。
可选地,界面提供单元在用于表示数据表的实体节点上不显示所述数据表的全部字段的字段名称,仅显示所述数据表的主键的字段名称。
可选地,界面提供单元当用户选择所述一个实体节点与所述另一个实体节点之间由于所述将所述一个实体节点连接到所述另一个实体节点的用户操作而生成的连线时,显示用于在所述一个实体节点所表示的从表和所述另一个实体节点所表示的主表之间设置拼接方式设置项的图形界面;其中,拼接方案生成装置根据用户在所述图形界面上执行的用于设置拼接方式设置项的输入操作,获取相应的拼接方式设置项。
根据本发明的另一示例性实施例,提供一种自动训练机器学习模型的系统,包括:如上所述的实现数据表拼接的系统;以及训练装置,分别针对所述实现数据表拼接的系统拼接出的每一个关联数据表自动训练出对应的机器学习模型。
可选地,所述系统还包括:确定装置,从训练出的机器学习模型中确定一个效果最好的机器学习模型作为最终训练出的机器学习模型。
可选地,训练装置包括:目标值字段确定单元,分别针对拼接出的每一个关联数据表,确定所述每一个关联数据表中的目标值字段,以作为机器学习样本的标记;特征生成单元,基于所述每一个关联数据表中的非目标值字段自动生成机器学习样本的特征;以及训练单元,基于由生成的标记和特征组成的机器学习样本来自动训练出对应的机器学习模型。
可选地,特征生成单元将所述每一个关联数据表中的各个非目标值字段直接处理为机器学习样本的特征。
可选地,特征生成单元将所述每一个关联数据表中的各个非目标值字段处理为单位特征;基于得到的单位特征进行自动特征组合,以生成组合特征;并基于得到的单位特征和组合特征来确定机器学习样本的特征。
根据本发明的另一示例性实施例,提供一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述的实现数据表拼接的方法或如上所述的自动训练机器学习模型的方法。
根据本发明的另一示例性实施例,提供一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述的实现数据表拼接的方法或如上所述的自动训练机器学习模型的方法。
根据本发明示例性实施例的实现数据表拼接的方法及系统,提供了一种便捷高效且交互友好的拼表方式,用户只需通过屏幕设置数据表之间的主外键关联关系,即可实现对通过主外键关联关系而关联起来的数据表的拼接,既提高了效率,也提升了用户体验。此外,根据本发明示例性实施例的自动训练机器学习模型的方法及系统,用户仅需要执行易于操作、直观便于理解的用于在任意两个数据表之间建立主外键关联关系的输入操作,即可训练出满足需求的机器学习模型,大大降低了机器学习的门槛。
将在接下来的描述中部分阐述本发明总体构思另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本发明总体构思的实施而得知。
附图说明
通过下面结合示例性地示出实施例的附图进行的描述,本发明示例性实施例的上述和其他目的和特点将会变得更加清楚,其中:
图1示出根据本发明示例性实施例的实现数据表拼接的方法的流程图;
图2示出根据本发明示例性实施例的在任意两个数据表之间建立主外键关联关系的方法的流程图;
图3示出根据本发明示例性实施例的用于添加实体的图形界面的示例;
图4示出根据本发明示例性实施例的在用于建立数据表之间的主外键关联关系的图形界面中显示实体节点的示例;
图5示出根据本发明示例性实施例的用于建立数据表之间的主外键关联关系的图形界面的示例;
图6示出根据本发明示例性实施例的用于将一个实体节点连接到另一个实体节点的用户操作的示例;
图7和图8示出根据本发明示例性实施例的用于设置主表相对于从表的外键的图形界面的示例;
图9示出根据本发明示例性实施例的用于建立数据表之间的主外键关联关系的图形界面的示例;
图10示出根据本发明示例性实施例的向用户展示生成的每一个拼接方案的示例;
图11示出根据本发明示例性实施例的自动训练机器学习模型的方法的流程图;
图12示出根据本发明示例性实施例的实现数据表拼接的系统的框图;
图13示出根据本发明示例性实施例的关联关系建立装置的框图;
图14示出根据本发明示例性实施例的自动训练机器学习模型的系统的框图;
图15示出根据本发明示例性实施例的训练装置的框图。
具体实施方式
现将详细参照本发明的实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例,以便解释本发明。
图1示出根据本发明示例性实施例的实现数据表拼接的方法的流程图。这里,作为示例,所述方法可通过计算机程序来执行,也可由专门的用于执行机器学习、大数据计算、或数据分析等的硬件设备或软硬件资源的集合体来执行,例如,所述方法可由用于实现机器学习相关业务的机器学习平台来执行。
参照图1,在步骤S10中,根据用户在屏幕中执行的输入操作,在任意两个数据表之间建立主外键关联关系。
这里,数据表中的每条数据记录可被看作关于一个事件或对象的描述,对应于一个示例或样例。在数据记录中,包括反映事件或对象在某方面的表现或性质的属性信息,即字段。例如,数据表的一行对应一条数据记录,数据表的一列对应一个字段。
这里,具有主外键关联关系的两个数据表中的主表的主键的含义,与主表相对于从表的外键的含义相同,从而能够基于主键和外键将主表和从表中的数据记录对应起来。应该理解,主键和外键的字段名称可以相同,也可以不同。例如,主键可为“ID”字段,外键可为“UserID”字段,两者虽然字段名称不同,但所描述的业务信息实质上相同,都是用于描述用户的ID号。
作为示例,可根据用户在屏幕中显示的用于建立数据表之间的主外键关联关系的图形界面中执行的输入操作,在任意两个数据表之间建立主外键关联关系。例如,所述输入操作可用于指定被选中的任意两个数据表、用于指定相应数据表中的主键和/或外键、以及/或者用于建立所述任意两个数据表之间的主外键关联关系。
在步骤S20中,针对彼此之间通过主外键关联关系而关联起来的至少两个数据表,生成至少一个拼接方案。换言之,基于所述至少两个数据表之间的主外键关联关系,自动推断出对所述至少两个数据表的至少一个可行的拼接方案。
应该理解,彼此之间通过主外键关联关系而关联起来的至少两个数据表包括直接通过主外键关联关系关联起来的和经由所关联的数据表间接关联起来的所有数据表,例如,如果数据表A和数据表B具有主外键关联关系,数据表B和数据表C具有主外键关联关系,则可认为数据表A、数据表B和数据表C是通过主外键关联关系而关联起来的数据表。
作为示例,所述至少一个拼接方案可包括:基于所述关联起来的至少两个数据表之间的主外键关联关系能够最终拼接到指定的数据表或不作为其他数据表的从表的数据表的所有可能拼接方案之中,不被其他可能拼接方案完全覆盖的可能拼接方案,其中,在所有可能拼接方案中,具有主外键关联关系的两个数据表中的从表被拼接到主表。
作为示例,步骤S20可包括:获取用户针对所述关联起来的至少两个数据表设置的拼接规则项;并针对所述关联起来的至少两个数据表,根据获取的拼接规则项,生成所述至少一个拼接方案。换言之,生成的拼接方案体现了获取的拼接规则项所限定的拼接规则。
这里,拼接规则项用于限定所述关联起来的至少两个数据表的拼接规则。作为示例,所述拼接规则项包括以下项之中的至少一项:拼接终点设置项、拼接路径长度限制项和拼接方式设置项。
具体地,拼接终点设置项用于指定所述关联起来的至少两个数据表之中的一个数据表作为拼接终点,使得在生成的每个拼接方案中,最终拼接到指定的数据表。
拼接路径长度限制项用于限定最大拼接次数,使得在生成的每个拼接方案中,依次拼接数据表的次数小于或等于限定的最大拼接次数。通过设置适当的拼接路径长度限制项,能够有效避免在生成的每个拼接方案中,拼接次数过多的问题。
拼接方式设置项用于指定将任意两个具有主外键关联关系的数据表中的从表拼接到主表的拼接方式。
作为示例,拼接方式设置项可包括以下项之中的至少一项:数据记录过滤设置项、字段过滤设置项、聚合处理设置项和离散处理设置项。
具体地,数据记录过滤设置项用于指定将所述从表中用户指定字段的字段值不符合用户指定要求的数据记录过滤后拼接到所述主表的拼接方式,或者,指定仅将所述从表中用户指定字段的字段值符合用户指定要求的数据记录拼接到所述主表的拼接方式。
字段过滤设置项用于指定仅将所述从表中的用户指定字段拼接到所述主表的拼接方式,或者,指定将所述从表中的用户指定字段过滤后拼接到所述主表的拼接方式。
聚合处理设置项用于指定对所述从表中用户指定字段的字段值进行用户指定的聚合处理,并将处理后得到的结果拼接到所述主表的拼接方式。在该拼接方式下,对所述从表中至少一条数据记录的用户指定字段的字段值进行用户指定的聚合处理,并将处理后得到的结果拼接到所述主表的一条数据记录,其中,所述从表中所述至少一条数据记录是所述从表中关于外键具有同一字段值的数据记录,所述主表中所述一条数据记录是所述主表中关于主键具有所述同一字段值的数据记录。作为示例,所述聚合处理可包括以下项之中的至少一项:求和、求平均、取最大值、取最小值、计算个数。
离散处理设置项用于指定对所述从表中用户指定字段的字段值进行用户指定的离散化处理,并将处理后得到的结果拼接到所述主表的拼接方式。在该拼接方式下,对所述从表中用户指定字段的连续性的字段值(例如,年龄值等)进行指定的离散化处理,以得到用于指示该字段值所属类别(例如,年龄段等)的结果,并将处理后得到的结果拼接到所述主表。
作为示例,可根据用户在屏幕中显示的用于设置拼接规则项的图形界面中执行的输入操作,获取用户针对所述关联起来的至少两个数据表设置的拼接规则项。
作为示例,可在执行步骤S10之前和/或之后获取用户针对所述关联起来的至少两个数据表设置的拼接规则项。例如,可在接收到用于在任意两个数据表之间建立主外键关联关系的输入操作之前或之后,接收到用于设置拼接终点设置项和/或拼接路径长度限制项的用户操作。例如,可在接收到用于在任意两个数据表之间建立主外键关联关系的输入操作之后,接收到用于设置关于所述任意两个数据表的拼接方式设置项。
在步骤S30中,分别按照生成的每一个拼接方案,在所述关联起来的至少两个数据表之间拼接出对应的一个关联数据表。
作为示例,拼接方案可限定依次将通过主外键关联关系而关联起来的至少两个数据表拼接为一个关联数据表的拼接顺序,在此基础上,拼接方案还可进一步限定从表拼接到主表的具体拼接方式。例如,拼接方案所限定的拼接顺序体现了所述至少两个数据表之间的主外键关联关系、拼接终点设置项和拼接路径长度限制项,拼接方案所限定的从表拼接到主表的具体拼接方式体现了拼接方式设置项。
相应地,作为示例,在步骤S30,可分别按照生成的每一个拼接方案所限定的拼接顺序,将第一个数据表拼接到第二个数据表,并将拼接得到的数据表拼接到第三个数据表,依此类推,直至拼接到最后一个数据表形成对应的关联数据表;并且,如果拼接方案还限定了从表拼接到主表的具体拼接方式,则在将从表拼接到主表时,按照所限定的具体拼接方式进行拼接。
具体地,当需要将一个数据表(例如,从表)拼接到另一个数据表(例如,主表)时,基于主表的主键及主表相对于所述从表的外键,将所述从表中待拼接的数据记录拼接到主表中对应的数据记录上,其中,主表中对应的数据记录是指:关于所述主键的字段值与所述待拼接的数据记录关于所述外键的字段值相同的数据记录;并且,如果拼接方案限定了所述从表拼接到主表的具体拼接方式,则按照所限定的具体拼接方式将所述待拼接的数据记录拼接到主表中对应的数据记录上。
以下,将结合图2来描述根据本发明示例性实施例的在任意两个数据表之间建立主外键关联关系的步骤S10的示例。
参照图2,在步骤S101中,在用于建立数据表之间的主外键关联关系的图形界面中,响应于用于将一个实体节点连接到另一个实体节点的用户操作,将所述一个实体节点所表示的数据表作为从表,并将所述另一个实体节点所表示的数据表作为主表,其中,每个实体节点用于表示对应的一个数据表。
具体说来,可根据用户的指示来创建或引入任何实体,该实体具有对应的数据表,在图形界面上可显示为相应的实体节点。
作为示例,可响应于用户在用于添加实体的图形界面中执行的输入操作,添加实体(也即,定义实体)。图3示出根据本发明示例性实施例的用于添加实体的图形界面的示例,在所述图形界面的左侧区域显示已定义的实体,响应于点击用于添加实体的控件“+”的用户操作,可在所述图形界面的中间区域显示用于输入待添加的实体的名称的控件和用于输入待添加的实体所对应的数据表(即,关联数据表)的标识信息的控件,例如,所述标识信息可以是数据表的名称或存储地址等。图4示出根据本发明示例性实施例的在用于建立数据表之间的主外键关联关系的图形界面中显示实体节点的示例,如图4所示,响应于用户操作,可在用于建立数据表之间的主外键关联关系的图形界面中显示与定义的实体一一对应的实体节点,例如,所述用户操作可以是按压所述图形界面的左侧区域中显示的已定义的实体的标识并滑动到所述图形界面的画布区域后释放所述标识的操作。
通过执行上述操作方式,在用于建立数据表之间的主外键关联关系的图形界面中可显示多个用于表示数据表的实体节点,其中,每个实体节点具有对应的一个数据表。应该理解,不同的实体节点可对应同一个数据表。
作为示例,可在用于表示数据表的实体节点上不显示所述数据表的全部字段的字段名称,仅显示所述数据表的主键的字段名称。通过这种方式,可使得主外键关联过程中的拼接更为直观。
图5示出根据本发明示例性实施例的用于建立数据表之间的主外键关联关系的图形界面的另一示例,如图5所示,在所述图形界面中显示多个实体节点,每个实体节点具有一个对应的数据表,且在实体节点上仅显示该实体节点的中英文名称及主键的字段名称,不显示该实体节点所表示的数据表的全部字段的字段名称。
所述用于将一个实体节点连接到另一个实体节点的用户操作可以是各种适合的用户操作。作为示例,所述用于将一个实体节点连接到另一个实体节点的用户操作可包括:在所述一个实体节点上悬停,单击响应于所述悬停操作在所述一个实体节点上显示的待连接的连接点,然后单击所述另一个实体节点。在这种方式下,鼠标的操作比较自由,例如,在单击连接点之后,可伴随光标而显示相应的轨迹线,而在单击所述另一个实体节点之后,建立起两个实体节点之间的连接关系。作为另一示例,所述用于将一个实体节点连接到另一个实体节点的用户操作可包括:在所述一个实体节点上悬停,按压响应于所述悬停操作在所述一个实体节点上显示的待连接的连接点,并滑动到所述另一个实体节点后释放按压。
图6示出根据本发明示例性实施例的用于将一个实体节点连接到另一个实体节点的用户操作的示例,如图6中的(a)所示,当接收到用户在实体节点“授课”上的悬停操作时,显示待连接的连接点“+”,如图6中的(b)所示,当接收到用户对所述连接点的单击操作时,响应于光标的移动显示从所述连接点指向光标当前位置的连线,如图6中的(c)所示,当检测到光标移动到另一实体节点“课程”上(即,接收到用户在实体节点“课程”上的悬停操作)时,可突出显示实体节点“课程”,并显示从实体节点“授课”指向实体节点“课程”的预览连线,如图6中的(d)所示,当接收到用户对实体节点“课程”的点击操作时,将实体节点“授课”连接到实体节点“课程”,并将实体节点“授课”作为从表,实体节点“课程”作为主表。
返回图2,在步骤S102中,响应于用于指定所述从表中的一个字段作为所述主表的外键的用户操作,将指定的字段设置为所述主表相对于所述从表的外键。
作为示例,可响应于用于将所述一个实体节点连接到所述另一个实体节点的用户操作,自动向用户提供用于设置所述主表相对于所述从表的外键的图形界面;并接收用户在所提供的图形界面上执行的用于指定所述从表中的一个字段作为所述主表的外键的用户操作。
作为另一示例,可当用户选择所述一个实体节点与所述另一个实体节点之间由于所述将所述一个实体节点连接到所述另一个实体节点的用户操作而生成的连线时,向用户提供用于设置所述主表相对于所述从表的外键的图形界面;并接收用户在所提供的图形界面上执行的用于指定所述从表中的一个字段作为所述主表的外键的用户操作。
作为示例,响应于用于将所述一个实体节点连接到所述另一个实体节点的用户操作,或用户选择所述一个实体节点与所述另一个实体节点之间由于所述将所述一个实体节点连接到所述另一个实体节点的用户操作而生成的连线的操作,可在用于建立数据表之间的主外键关联关系的图形界面中的预定区域向用户提供用于设置所述主表相对于所述从表的外键的图形界面,或者,可在所述一个实体节点与所述另一个实体节点之间由于所述将所述一个实体节点连接到所述另一个实体节点的用户操作而生成的连线的周围弹出用于设置所述主表相对于所述从表的外键的图形界面。
在步骤S103中,基于设置的外键和所述主表的主键,建立所述一个实体节点所表示的数据表与所述另一个实体节点所表示的数据表之间的主外键关联关系。
这里,所述主表的主键可由用户设置,或在引入系统之时已经被设置。作为示例,可在用于建立数据表之间的主外键关联关系的图形界面中,响应于用于指定实体节点所表示的数据表中的一个字段作为该数据表的主键的用户操作,将指定的字段设置为该数据表的主键。
作为示例,根据本发明示例性实施例的实现数据表拼接的方法还可包括:在所述一个实体节点与所述另一个实体节点之间由于所述将所述一个实体节点连接到所述另一个实体节点的用户操作而生成的连线上或所述连线的周围显示设置的外键的字段名称和/或所述主表的主键的字段名称。
作为示例,根据本发明示例性实施例的实现数据表拼接的方法还可包括:响应于用于指定所述主键与所述外键之间关于相同字段值的数据记录数量对应关系的用户操作,将所述数据记录数量对应关系设置为一对一或一对多。应该理解,所述主表中关于主键的同一个字段值仅会在一条数据记录中出现,也即,在所述主表中主键的任意一个取值仅会出现一次;而所述从表中关于外键的同一个字段值可仅在一条数据记录中出现,也可在多条数据记录中出现,如果有可能在多条数据记录中出现,则所述数据记录数量对应关系为一对多。
作为示例,根据本发明示例性实施例的实现数据表拼接的方法还可包括:在所述一个实体节点与所述另一个实体节点之间的所述连线上或所述连线的周围显示所设置的数据记录数量对应关系。
图7和图8示出根据本发明示例性实施例的用于设置主表相对于从表的外键的图形界面的示例,如图7和图8所示,可在用于建立数据表之间的主外键关联关系的图形界面中的预定区域向用户提供用于设置主表相对于从表的外键的图形界面,并可在该图形界面中设置主表的主键与外键之间关于相同字段值的数据记录数量对应关系。此外,如图7所示,还可在一个实体节点与另一个实体节点之间的连线上显示主表相对于从表的外键的字段名称、主表的主键的字段名称及数据记录数量对应关系。
此外,作为示例,根据本发明示例性实施例的实现数据表拼接的方法还可包括:当用户选择一个实体节点与另一个实体节点之间由于所述将所述一个实体节点连接到所述另一个实体节点的用户操作而生成的连线时,突出显示所述一个实体节点、所述另一个实体节点及所述连线,并显示主表相对于从表的外键的字段名称和主表的主键的字段名称。
图9示出根据本发明示例性实施例的用于建立数据表之间的主外键关联关系的图形界面的示例,如图9所示,当用户选择一个实体节点与另一个实体节点之间由于所述将所述一个实体节点连接到所述另一个实体节点的用户操作而生成的连线时,突出显示所述一个实体节点、所述另一个实体节点、所述连线、主表相对于从表的外键的字段名称和主表的主键的字段名称以及所述主键与所述外键之间关于相同字段值的数据记录数量对应关系,还可显示用于设置所述主表相对于所述从表的外键的图形界面,以便于用户重新设置外键和/或所述主键与所述外键之间关于相同字段值的数据记录数量对应关系,并可向用户展示当前设置的数据记录数量对应关系的具体含义和/或示例,此外,还可在该图形界面中取消所述一个实体节点与所述另一个实体节点之间的连线(即,取消建立所述一个实体节点所对应的数据表与所述另一个实体节点所对应的数据表之间的主外键关联关系)。
作为示例,根据本发明示例性实施例的实现数据表拼接的方法还可包括:向用户展示生成的每一个拼接方案中所述关联起来的至少两个数据表之间的拼接顺序。
此外,作为示例,获取用户针对所述关联起来的至少两个数据表设置的拼接规则项的步骤可包括:响应于用于将一个实体节点连接到另一个实体节点的用户操作,或用户选择一个实体节点与另一个实体节点之间由于所述将所述一个实体节点连接到所述另一个实体节点的用户操作而生成的连线的操作,显示用于在所述一个实体节点所对应的从表和所述另一个实体节点所对应的主表之间设置拼接方式设置项的图形界面;并根据用户在所述图形界面上执行的用于设置拼接方式设置项的输入操作,获取相应的拼接方式设置项。
图10示出根据本发明示例性实施例的向用户展示生成的每一个拼接方案的示例。如图10所示,基于实体节点A至实体节点F所表示的数据表之间建立的主外键关联关系和用户设置的拼接规则项,生成了4个拼接方案,这里,每个拼接方案的拼接路径长度均小于4,拼接路径长度可指示拼接路径所包括的子路径的数量,在拼接路径中,相邻的两个实体节点所表示的数据表之间的拼接可认为是一个子路径。可向用户展示生成的每一个拼接方案所限定的数据表之间的拼接顺序(也即,拼接路径),并可响应于用户选择任一子路径的操作,向用户显示在该子路径所对应的从表和主表之间设置的拼接方式设置项。
根据本发明的示例性实施例,用户仅需要执行易于操作、直观便于理解的用于在任意两个数据表之间建立主外键关联关系的输入操作,即可实现多个数据表之间的拼接。
图11示出根据本发明示例性实施例的自动训练机器学习模型的方法的流程图。这里,作为示例,所述方法可通过计算机程序来执行,也可由专门的用于执行机器学习、大数据计算、或数据分析等的硬件设备或软硬件资源的集合体来执行,例如,所述方法可由用于实现机器学习相关业务的机器学习平台来执行。
参照图11,在步骤S10中,根据用户在屏幕中执行的输入操作,在任意两个数据表之间建立主外键关联关系。
在步骤S20中,针对彼此之间通过主外键关联关系而关联起来的至少两个数据表,生成至少一个拼接方案。
在步骤S30中,分别按照生成的每一个拼接方案,在所述关联起来的至少两个数据表之间拼接出对应的一个关联数据表。应该理解,步骤S10至步骤S30可参照上述结合图1至图10描述的具体实施方式来实现,在此不再赘述。
在步骤S40中,分别针对拼接出的每一个关联数据表自动训练出对应的机器学习模型。
作为示例,根据本发明示例性实施例的自动训练机器学习模型的方法还可包括:从训练出的机器学习模型中确定一个效果最好的机器学习模型作为最终训练出的机器学习模型。作为示例,可使用指定的模型评价指标来评价训练出的每个机器学习模型的效果。作为示例,可自动或根据用户的指示,来指定模型评价指标。作为示例,模型评价指标可以是AUC(ROC(受试者工作特征,Receiver Operating Characteristic)曲线下的面积,AreaUnder ROC Curve)、MAE(平均绝对误差,Mean Absolute Error)或对数损失函数(logloss)等。
作为示例,可分别针对拼接出的每一个关联数据表,确定所述每一个关联数据表中的目标值字段,以作为机器学习样本的标记;基于所述每一个关联数据表中的非目标值字段自动生成机器学习样本的特征;并且,基于由生成的标记和特征组成的机器学习样本来自动训练出对应的机器学习模型。
这里,目标值字段即使用机器学习技术要预估的目标,对应于历史数据中的标记(即,label)字段,而非目标值字段即数据表之中除目标值字段之外的字段。作为示例,可向用户提供用于指定目标值字段的图形界面,并根据用户在该图形界面中执行的输入操作,来确定目标值字段。
作为示例,基于所述每一个关联数据表中的非目标值字段自动生成机器学习样本的特征的步骤可包括:将所述每一个关联数据表中的各个非目标值字段直接处理为机器学习样本的特征。例如,可将每一个非目标值字段直接处理为机器学习样本的一个特征。
作为另一示例,基于所述每一个关联数据表中的非目标值字段自动生成机器学习样本的特征的步骤可包括:将所述每一个关联数据表中的各个非目标值字段处理为单位特征;然后,基于得到的单位特征进行自动特征组合,以生成组合特征;最后,基于得到的单位特征和组合特征来确定机器学习样本的特征。
应理解,这里的单位特征是指该特征对应于单个字段,其本身可根据取值的定义而具有一个或多个维度。
作为示例,可对得到的全部单位特征进行各种组合来获取候选组合特征,或者,对得到的全部单位特征之中特征重要性较高的单位特征进行各种组合来获取候选组合特征;然后,可通过衡量与每个候选组合特征相应的机器学习模型的效果来从候选组合特征中筛选出组合特征。具体说来,可训练与每个候选组合特征相应的机器学习模型,由于相应的机器学习模型的效果能够反映候选组合特征的特征重要性(例如,预测力),从而可通过衡量与每个候选组合特征相应的机器学习模型的效果来从候选组合特征中筛选出组合特征,例如,机器学习模型的效果越好,相应的候选组合特征越容易被筛选为组合特征。作为示例,可使用指定的模型评价指标来评价与每个候选组合特征相应的机器学习模型的效果。作为示例,可通过衡量与单位特征相应的机器学习模型的效果来确定单位特征的特征重要性,相应的机器学习模型的效果越好,单位特征的特征重要性越高。
作为示例,可将生成的全部单位特征和全部组合特征作为机器学习样本的特征。
作为另一示例,可将生成的全部单位特征和全部组合特征之中,特征重要性较高的特征作为机器学习样本的特征。
作为另一示例,可将生成的全部单位特征之中特征重要性较高的单位特征和生成的全部组合特征,作为机器学习样本的特征。
作为另一示例,可将生成的全部组合特征之中特征重要性较高的组合特征和生成的全部单位特征,作为机器学习样本的特征。
根据本发明的示例性实施例,用户仅需要执行易于操作、直观便于理解的用于在任意两个数据表之间建立主外键关联关系的输入操作,即可训练出满足需求的机器学习模型,尤其对于熟悉目标领域的业务的业务人员,只需根据自己的业务认知建立数据表之间的关系网络,即可获得训练好的机器学习模型,从而不具备与机器学习相关的专业能力的业务人员也能够独立完成建模工作,大大降低了机器学习的门槛,并且也能够将建模工程师从对目标领域的业务的学习中解放出来,投入到更专业的生产工作当中。
图12示出根据本发明示例性实施例的实现数据表拼接的系统的框图。如图12所示,根据本发明示例性实施例的实现数据表拼接的系统包括:关联关系建立装置10、拼接方案生成装置20和拼接装置30。
具体说来,关联关系建立装置10用于根据用户在屏幕中执行的输入操作,在任意两个数据表之间建立主外键关联关系。
作为示例,关联关系建立装置10可根据用户在屏幕中显示的用于建立数据表之间的主外键关联关系的图形界面中执行的输入操作,在任意两个数据表之间建立主外键关联关系。
拼接方案生成装置20用于针对彼此之间通过主外键关联关系而关联起来的至少两个数据表,生成至少一个拼接方案。
作为示例,所述至少一个拼接方案可包括:基于所述关联起来的至少两个数据表之间的主外键关联关系能够最终拼接到指定的数据表或不作为其他数据表的从表的数据表的所有可能拼接方案之中,不被其他可能拼接方案完全覆盖的可能拼接方案,其中,在所有可能拼接方案中,具有主外键关联关系的两个数据表中的从表被拼接到主表。
作为示例,拼接方案生成装置20可获取用户针对所述关联起来的至少两个数据表设置的拼接规则项;并针对所述关联起来的至少两个数据表,根据获取的拼接规则项,生成所述至少一个拼接方案。
这里,拼接规则项用于限定所述关联起来的至少两个数据表的拼接规则。作为示例,所述拼接规则项包括以下项之中的至少一项:拼接终点设置项、拼接路径长度限制项和拼接方式设置项。
具体地,拼接终点设置项用于指定所述关联起来的至少两个数据表之中的一个数据表作为拼接终点,使得在生成的每个拼接方案中,最终拼接到指定的数据表。
拼接路径长度限制项用于限定最大拼接次数,使得在生成的每个拼接方案中,依次拼接数据表的次数小于或等于限定的最大拼接次数。通过设置适当的拼接路径长度限制项,能够有效避免在生成的每个拼接方案中,拼接次数过多的问题。
拼接方式设置项用于指定将任意两个具有主外键关联关系的数据表中的从表拼接到主表的拼接方式。
作为示例,拼接方式设置项可包括以下项之中的至少一项:数据记录过滤设置项、字段过滤设置项、聚合处理设置项和离散处理设置项。
具体地,数据记录过滤设置项用于指定将所述从表中用户指定字段的字段值不符合用户指定要求的数据记录过滤后拼接到所述主表的拼接方式,或者,指定仅将所述从表中用户指定字段的字段值符合用户指定要求的数据记录拼接到所述主表的拼接方式。
字段过滤设置项用于指定仅将所述从表中的用户指定字段拼接到所述主表的拼接方式,或者,指定将所述从表中的用户指定字段过滤后拼接到所述主表的拼接方式。
聚合处理设置项用于指定对所述从表中用户指定字段的字段值进行用户指定的聚合处理,并将处理后得到的结果拼接到所述主表的拼接方式。在该拼接方式下,对所述从表中至少一条数据记录的用户指定字段的字段值进行用户指定的聚合处理,并将处理后得到的结果拼接到所述主表的一条数据记录,其中,所述从表中所述至少一条数据记录是所述从表中关于外键具有同一字段值的数据记录,所述主表中所述一条数据记录是所述主表中关于主键具有所述同一字段值的数据记录。作为示例,所述聚合处理可包括以下项之中的至少一项:求和、求平均、取最大值、取最小值、计算个数。
离散处理设置项用于指定对所述从表中用户指定字段的字段值进行用户指定的离散化处理,并将处理后得到的结果拼接到所述主表的拼接方式。在该拼接方式下,对所述从表中用户指定字段的连续性的字段值(例如,年龄值等)进行指定的离散化处理,以得到用于指示该字段值所属类别(例如,年龄段等)的结果,并将处理后得到的结果拼接到所述主表。
作为示例,拼接方案生成装置20可根据用户在屏幕中显示的用于设置拼接规则项的图形界面中执行的输入操作,获取用户针对所述关联起来的至少两个数据表设置的拼接规则项。
拼接装置30用于分别按照生成的每一个拼接方案,在所述关联起来的至少两个数据表之间拼接出对应的一个关联数据表。
图13示出根据本发明示例性实施例的关联关系建立装置10的框图。如图13所示,关联关系建立装置10可包括:界面提供单元101、主从表设置单元102、外键设置单元103和关系建立单元104。
具体说来,界面提供单元101用于提供用于建立数据表之间的主外键关联关系的图形界面。
主从表设置单元102用于响应于用于在所述图形界面中将一个实体节点连接到另一个实体节点的用户操作,将所述一个实体节点所表示的数据表作为从表,并将所述另一个实体节点所表示的数据表作为主表,其中,每个实体节点用于表示对应的一个数据表。
所述用于将一个实体节点连接到另一个实体节点的用户操作可以是各种适合的用户操作。作为示例,所述用于将一个实体节点连接到另一个实体节点的用户操作可包括:在所述一个实体节点上悬停,单击响应于所述悬停操作在所述一个实体节点上显示的待连接的连接点,然后单击所述另一个实体节点。
作为示例,界面提供单元101可在用于表示数据表的实体节点上不显示所述数据表的全部字段的字段名称,仅显示所述数据表的主键的字段名称。
外键设置单元103用于响应于用于指定所述从表中的一个字段作为所述主表的外键的用户操作,将指定的字段设置为所述主表相对于所述从表的外键。
作为示例,界面提供单元101可响应于用于将所述一个实体节点连接到所述另一个实体节点的用户操作,自动向用户提供用于设置所述主表相对于所述从表的外键的图形界面;并接收用户在所提供的图形界面上执行的用于指定所述从表中的一个字段作为所述主表的外键的用户操作。
作为另一示例,界面提供单元101可当用户选择所述一个实体节点与所述另一个实体节点之间由于所述将所述一个实体节点连接到所述另一个实体节点的用户操作而生成的连线时,向用户提供用于设置所述主表相对于所述从表的外键的图形界面;并接收用户在所提供的图形界面上执行的用于指定所述从表中的一个字段作为所述主表的外键的用户操作。
关系建立单元104用于基于设置的外键和所述主表的主键,建立所述一个实体节点所表示的数据表与所述另一个实体节点所表示的数据表之间的主外键关联关系。
作为示例,界面提供单元101可在所述一个实体节点与所述另一个实体节点之间由于所述将所述一个实体节点连接到所述另一个实体节点的用户操作而生成的连线上或所述连线的周围显示设置的外键的字段名称和/或所述主表的主键的字段名称。
作为示例,根据本发明示例性实施例的实现数据表拼接的系统还可包括:数量对应关系设置单元(未示出),数量对应关系设置单元用于响应于用于指定所述主键与所述外键之间关于相同字段值的数据记录数量对应关系的用户操作,将所述数据记录数量对应关系设置为一对一或一对多。
作为示例,界面提供单元101可在所述一个实体节点与所述另一个实体节点之间的由于所述将所述一个实体节点连接到所述另一个实体节点的用户操作而生成连线上或所述连线的周围显示所设置的数据记录数量对应关系。
此外,作为示例,当用户选择一个实体节点与另一个实体节点之间由于所述将所述一个实体节点连接到所述另一个实体节点的用户操作而生成的连线时,界面提供单元101可突出显示所述一个实体节点、所述另一个实体节点及所述连线,并显示主表相对于从表的外键的字段名称和主表的主键的字段名称。
作为示例,根据本发明示例性实施例的实现数据表拼接的系统还可包括:展示装置(未示出),展示装置用于向用户展示生成的每一个拼接方案中所述关联起来的至少两个数据表之间的拼接顺序。
此外,作为示例,响应于用于将一个实体节点连接到另一个实体节点的用户操作,或用户选择一个实体节点与另一个实体节点之间由于所述将所述一个实体节点连接到所述另一个实体节点的用户操作而生成的连线的操作,界面提供单元101可显示用于在所述一个实体节点所表示的从表和所述另一个实体节点所表示的主表之间设置拼接方式设置项的图形界面;拼接方案生成装置20可根据用户在所述图形界面上执行的用于设置拼接方式设置项的输入操作,获取相应的拼接方式设置项。
图14示出根据本发明示例性实施例的自动训练机器学习模型的系统的框图。图14所示,根据本发明示例性实施例的自动训练机器学习模型的系统包括:关联关系建立装置10、拼接方案生成装置20、拼接装置30和训练装置40。
具体说来,关联关系建立装置10用于根据用户在屏幕中执行的输入操作,在任意两个数据表之间建立主外键关联关系。
拼接方案生成装置20用于针对彼此之间通过主外键关联关系而关联起来的至少两个数据表,生成至少一个拼接方案。
拼接装置30用于分别按照生成的每一个拼接方案,在所述关联起来的至少两个数据表之间拼接出对应的一个关联数据表。应该理解,关联关系建立装置10、拼接方案生成装置20和拼接装置30可参照上述结合图12至图13描述的具体实施方式来实现,在此不再赘述。
训练装置40用于分别针对拼接出的每一个关联数据表自动训练出对应的机器学习模型。
作为示例,根据本发明示例性实施例的自动训练机器学习模型的系统还可包括:确定装置(未示出),确定装置用于从训练出的机器学习模型中确定一个效果最好的机器学习模型作为最终训练出的机器学习模型。
图15示出根据本发明示例性实施例的训练装置40的框图。如图15所示,训练装置40可包括:目标值字段确定单元401、特征生成单元402和训练单元403。
具体说来,目标值字段确定单元401用于分别针对拼接出的每一个关联数据表,确定所述每一个关联数据表中的目标值字段,以作为机器学习样本的标记。
特征生成单元402用于基于所述每一个关联数据表中的非目标值字段自动生成机器学习样本的特征。
训练单元403用于基于由生成的标记和特征组成的机器学习样本来自动训练出对应的机器学习模型。
作为示例,特征生成单元402可将所述每一个关联数据表中的各个非目标值字段直接处理为机器学习样本的特征。例如,特征生成单元402可将每一个非目标值字段直接处理为机器学习样本的一个特征。
作为另一示例,特征生成单元402可将所述每一个关联数据表中的各个非目标值字段处理为单位特征;基于得到的单位特征进行自动特征组合,以生成组合特征;并基于得到的单位特征和组合特征来确定机器学习样本的特征。
应该理解,根据本发明示例性实施例的实现数据表拼接的系统和自动训练机器学习模型的系统的具体实现方式可参照结合图1至图11描述的相关具体实现方式来实现,在此不再赘述。
根据本发明示例性实施例的实现数据表拼接的系统和自动训练机器学习模型的系统所包括的装置可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,这些装置可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的模块。此外,这些装置所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
应理解,根据本发明示例性实施例的实现数据表拼接的方法可通过记录在计算可读介质上的程序来实现,例如,根据本发明的示例性实施例,可提供一种实现数据表拼接的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序:根据用户在屏幕中执行的输入操作,在任意两个数据表之间建立主外键关联关系;针对彼此之间通过主外键关联关系而关联起来的至少两个数据表,生成至少一个拼接方案;以及分别按照生成的每一个拼接方案,在所述关联起来的至少两个数据表之间拼接出对应的一个关联数据表。
应理解,根据本发明示例性实施例的自动训练机器学习模型的方法可通过记录在计算可读介质上的程序来实现,例如,根据本发明的示例性实施例,可提供一种自动训练机器学习模型的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序:根据用户在屏幕中执行的输入操作,在任意两个数据表之间建立主外键关联关系;针对彼此之间通过主外键关联关系而关联起来的至少两个数据表,生成至少一个拼接方案;分别按照生成的每一个拼接方案,在所述关联起来的至少两个数据表之间拼接出对应的一个关联数据表;以及分别针对拼接出的每一个关联数据表自动训练出对应的机器学习模型。
上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经参照图1至图11进行了描述,这里为了避免重复将不再进行赘述。
应注意,根据本发明示例性实施例的实现数据表拼接的系统和自动训练机器学习模型的系统可完全依赖计算机程序的运行来实现相应的功能,即,各个装置与计算机程序的功能架构中与各步骤相应,使得整个系统通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,根据本发明示例性实施例的实现数据表拼接的系统和自动训练机器学习模型的系统所包括的各个装置也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
例如,本发明的示例性实施例还可以实现为计算装置,该计算装置包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行实现数据表拼接的方法或自动训练机器学习模型的方法。
具体说来,所述计算装置可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点装置上。此外,所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。
这里,所述计算装置并非必须是单个的计算装置,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在所述计算装置中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
根据本发明示例性实施例的实现数据表拼接的方法和自动训练机器学习模型的方法中所描述的某些操作可通过软件方式来实现,某些操作可通过硬件方式来实现,此外,还可通过软硬件结合的方式来实现这些操作。
处理器可运行存储在存储部件之一中的指令或代码,其中,所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,所述网络接口装置可采用任何已知的传输协议。
存储部件可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储部件可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储部件中的文件。
此外,所述计算装置还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。
根据本发明示例性实施例的实现数据表拼接的方法和自动训练机器学习模型的方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而,这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。
例如,如上所述,根据本发明示例性实施例的实现数据表拼接的计算装置可包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:根据用户在屏幕中执行的输入操作,在任意两个数据表之间建立主外键关联关系;针对彼此之间通过主外键关联关系而关联起来的至少两个数据表,生成至少一个拼接方案;以及分别按照生成的每一个拼接方案,在所述关联起来的至少两个数据表之间拼接出对应的一个关联数据表。
例如,如上所述,根据本发明示例性实施例的自动训练机器学习模型的计算装置可包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:根据用户在屏幕中执行的输入操作,在任意两个数据表之间建立主外键关联关系;针对彼此之间通过主外键关联关系而关联起来的至少两个数据表,生成至少一个拼接方案;分别按照生成的每一个拼接方案,在所述关联起来的至少两个数据表之间拼接出对应的一个关联数据表;以及分别针对拼接出的每一个关联数据表自动训练出对应的机器学习模型。
以上描述了本发明的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本发明不限于所披露的各示例性实施例。在不偏离本发明的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本发明的保护范围应该以权利要求的范围为准。
Claims (10)
1.一种实现数据表拼接的方法,包括:
根据用户在屏幕中执行的输入操作,在任意两个数据表之间建立主外键关联关系;
针对彼此之间通过主外键关联关系而关联起来的至少两个数据表,生成至少一个拼接方案;以及
分别按照生成的每一个拼接方案,在所述关联起来的至少两个数据表之间拼接出对应的一个关联数据表。
2.如权利要求1所述的方法,其中,针对彼此之间通过主外键关联关系而关联起来的至少两个数据表,生成至少一个拼接方案的步骤包括:
获取用户针对所述关联起来的至少两个数据表设置的拼接规则项;以及
针对所述关联起来的至少两个数据表,根据获取的拼接规则项,生成所述至少一个拼接方案。
3.如权利要求2所述的方法,其中,所述拼接规则项包括以下项之中的至少一项:
拼接终点设置项,用于指定所述关联起来的至少两个数据表之中的一个数据表作为拼接终点,使得在生成的每个拼接方案中,最终拼接到指定的数据表;
拼接路径长度限制项,用于限定最大拼接次数,使得在生成的每个拼接方案中,依次拼接数据表的次数小于或等于限定的最大拼接次数;以及
拼接方式设置项,用于指定将任意两个具有主外键关联关系的数据表中的从表拼接到主表的拼接方式。
4.如权利要求3所述的方法,其中,拼接方式设置项包括以下项之中的至少一项:
数据记录过滤设置项,用于指定将所述从表中用户指定字段的字段值不符合用户指定要求的数据记录过滤后拼接到所述主表的拼接方式,或者,指定仅将所述从表中用户指定字段的字段值符合用户指定要求的数据记录拼接到所述主表的拼接方式;
字段过滤设置项,用于指定仅将所述从表中的用户指定字段拼接到所述主表的拼接方式,或者,指定将所述从表中的用户指定字段过滤后拼接到所述主表的拼接方式;
聚合处理设置项,用于指定对所述从表中用户指定字段的字段值进行用户指定的聚合处理,并将处理后得到的结果拼接到所述主表的拼接方式;以及
离散处理设置项,用于指定对所述从表中用户指定字段的字段值进行用户指定的离散化处理,并将处理后得到的结果拼接到所述主表的拼接方式。
5.如权利要求4所述的方法,其中,所述聚合处理包括以下项之中的至少一项:求和、求平均、取最大值、取最小值、计算个数。
6.一种自动训练机器学习模型的方法,包括:
通过执行权利要求1至5之中任一权利要求所述的方法的步骤而得到拼接出的关联数据表;以及
分别针对拼接出的每一个关联数据表自动训练出对应的机器学习模型。
7.一种实现数据表拼接的系统,包括:
关联关系建立装置,根据用户在屏幕中执行的输入操作,在任意两个数据表之间建立主外键关联关系;
拼接方案生成装置,针对彼此之间通过主外键关联关系而关联起来的至少两个数据表,生成至少一个拼接方案;以及
拼接装置,分别按照生成的每一个拼接方案,在所述关联起来的至少两个数据表之间拼接出对应的一个关联数据表。
8.一种自动训练机器学习模型的系统,包括:
权利要求7所述的实现数据表拼接的系统;以及
训练装置,分别针对所述实现数据表拼接的系统拼接出的每一个关联数据表自动训练出对应的机器学习模型。
9.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1到5中的任一权利要求所述的实现数据表拼接的方法或如权利要求6所述的自动训练机器学习模型的方法。
10.一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1到5中的任一权利要求所述的实现数据表拼接的方法或如权利要求6所述的自动训练机器学习模型的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811619704.1A CN109739855B (zh) | 2018-12-28 | 2018-12-28 | 实现数据表拼接及自动训练机器学习模型的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811619704.1A CN109739855B (zh) | 2018-12-28 | 2018-12-28 | 实现数据表拼接及自动训练机器学习模型的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109739855A true CN109739855A (zh) | 2019-05-10 |
CN109739855B CN109739855B (zh) | 2022-03-01 |
Family
ID=66361653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811619704.1A Active CN109739855B (zh) | 2018-12-28 | 2018-12-28 | 实现数据表拼接及自动训练机器学习模型的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109739855B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115138A (zh) * | 2020-08-19 | 2020-12-22 | 第四范式(北京)技术有限公司 | 确定数据表之间关联关系的方法、装置及设备 |
CN112131258A (zh) * | 2020-09-23 | 2020-12-25 | 创新奇智(重庆)科技有限公司 | 数据拼接方法、装置、设备及计算机存储介质 |
CN112347102A (zh) * | 2020-11-03 | 2021-02-09 | 第四范式(北京)技术有限公司 | 多表拼接方法和多表拼接装置 |
CN112434032A (zh) * | 2020-11-17 | 2021-03-02 | 北京融七牛信息技术有限公司 | 一种自动特征生成系统和方法 |
CN112632053A (zh) * | 2020-12-30 | 2021-04-09 | 第四范式(北京)技术有限公司 | 实现数据拼接的方法和实现数据拼接的系统 |
CN113312890A (zh) * | 2021-06-16 | 2021-08-27 | 第四范式(北京)技术有限公司 | 多表拼接方法、装置、电子设备及存储介质 |
CN113448969A (zh) * | 2021-08-30 | 2021-09-28 | 阿里云计算有限公司 | 数据处理方法、设备、程序产品及存储介质 |
CN113590886A (zh) * | 2021-07-05 | 2021-11-02 | 金电联行(北京)信息技术有限公司 | 数据表关联关系自动识别、多数据表自动整合方法及装置 |
CN116975697A (zh) * | 2023-09-25 | 2023-10-31 | 广东赛博威信息科技有限公司 | 一种主数据管理方法、系统、设备及介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020204A (zh) * | 2012-12-05 | 2013-04-03 | 北京普泽天玑数据技术有限公司 | 一种对分布式顺序表进行多维区间查询的方法及其系统 |
US20140136511A1 (en) * | 2012-11-15 | 2014-05-15 | Microsoft Corporation | Discovery and use of navigational relationships in tabular data |
CN105745642A (zh) * | 2014-03-31 | 2016-07-06 | 华为技术有限公司 | 查询数据的处理方法和装置 |
CN106033436A (zh) * | 2015-03-13 | 2016-10-19 | 中国石油化工股份有限公司 | 一种数据库的合并方法 |
CN106933927A (zh) * | 2015-12-31 | 2017-07-07 | 北京国双科技有限公司 | 数据表的连接方法和装置 |
CN106951534A (zh) * | 2017-03-22 | 2017-07-14 | 北京数猎天下科技有限公司 | 一种大数据可视化数据关联关系的图形化处理方法和装置 |
CN107219970A (zh) * | 2017-05-19 | 2017-09-29 | 智器云南京信息科技有限公司 | 可视化分析图表的操作方法及装置、可读存储介质、终端 |
CN107402978A (zh) * | 2017-07-04 | 2017-11-28 | 第四范式(北京)技术有限公司 | 拼接数据记录的方法及装置 |
CN107818114A (zh) * | 2016-09-14 | 2018-03-20 | 中国移动通信有限公司研究院 | 一种数据处理方法、装置及数据库 |
CN108090516A (zh) * | 2017-12-27 | 2018-05-29 | 第四范式(北京)技术有限公司 | 自动生成机器学习样本的特征的方法及系统 |
CN108132957A (zh) * | 2016-12-01 | 2018-06-08 | 中国移动通信有限公司研究院 | 一种数据库处理方法及装置 |
CN108205571A (zh) * | 2016-12-20 | 2018-06-26 | 航天信息股份有限公司 | 键值数据表的连接方法及装置 |
CN108733724A (zh) * | 2017-04-24 | 2018-11-02 | 北京京东尚科信息技术有限公司 | 一种跨异构数据源实时连接方法及装置 |
-
2018
- 2018-12-28 CN CN201811619704.1A patent/CN109739855B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140136511A1 (en) * | 2012-11-15 | 2014-05-15 | Microsoft Corporation | Discovery and use of navigational relationships in tabular data |
CN103020204A (zh) * | 2012-12-05 | 2013-04-03 | 北京普泽天玑数据技术有限公司 | 一种对分布式顺序表进行多维区间查询的方法及其系统 |
CN105745642A (zh) * | 2014-03-31 | 2016-07-06 | 华为技术有限公司 | 查询数据的处理方法和装置 |
CN106033436A (zh) * | 2015-03-13 | 2016-10-19 | 中国石油化工股份有限公司 | 一种数据库的合并方法 |
CN106933927A (zh) * | 2015-12-31 | 2017-07-07 | 北京国双科技有限公司 | 数据表的连接方法和装置 |
CN107818114A (zh) * | 2016-09-14 | 2018-03-20 | 中国移动通信有限公司研究院 | 一种数据处理方法、装置及数据库 |
CN108132957A (zh) * | 2016-12-01 | 2018-06-08 | 中国移动通信有限公司研究院 | 一种数据库处理方法及装置 |
CN108205571A (zh) * | 2016-12-20 | 2018-06-26 | 航天信息股份有限公司 | 键值数据表的连接方法及装置 |
CN106951534A (zh) * | 2017-03-22 | 2017-07-14 | 北京数猎天下科技有限公司 | 一种大数据可视化数据关联关系的图形化处理方法和装置 |
CN108733724A (zh) * | 2017-04-24 | 2018-11-02 | 北京京东尚科信息技术有限公司 | 一种跨异构数据源实时连接方法及装置 |
CN107219970A (zh) * | 2017-05-19 | 2017-09-29 | 智器云南京信息科技有限公司 | 可视化分析图表的操作方法及装置、可读存储介质、终端 |
CN107402978A (zh) * | 2017-07-04 | 2017-11-28 | 第四范式(北京)技术有限公司 | 拼接数据记录的方法及装置 |
CN108090516A (zh) * | 2017-12-27 | 2018-05-29 | 第四范式(北京)技术有限公司 | 自动生成机器学习样本的特征的方法及系统 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115138A (zh) * | 2020-08-19 | 2020-12-22 | 第四范式(北京)技术有限公司 | 确定数据表之间关联关系的方法、装置及设备 |
CN112131258A (zh) * | 2020-09-23 | 2020-12-25 | 创新奇智(重庆)科技有限公司 | 数据拼接方法、装置、设备及计算机存储介质 |
CN112347102A (zh) * | 2020-11-03 | 2021-02-09 | 第四范式(北京)技术有限公司 | 多表拼接方法和多表拼接装置 |
CN112347102B (zh) * | 2020-11-03 | 2024-05-07 | 第四范式(北京)技术有限公司 | 多表拼接方法和多表拼接装置 |
CN112434032B (zh) * | 2020-11-17 | 2024-04-05 | 北京融七牛信息技术有限公司 | 一种自动特征生成系统和方法 |
CN112434032A (zh) * | 2020-11-17 | 2021-03-02 | 北京融七牛信息技术有限公司 | 一种自动特征生成系统和方法 |
CN112632053A (zh) * | 2020-12-30 | 2021-04-09 | 第四范式(北京)技术有限公司 | 实现数据拼接的方法和实现数据拼接的系统 |
CN113312890A (zh) * | 2021-06-16 | 2021-08-27 | 第四范式(北京)技术有限公司 | 多表拼接方法、装置、电子设备及存储介质 |
CN113312890B (zh) * | 2021-06-16 | 2024-04-12 | 第四范式(北京)技术有限公司 | 多表拼接方法、装置、电子设备及存储介质 |
CN113590886A (zh) * | 2021-07-05 | 2021-11-02 | 金电联行(北京)信息技术有限公司 | 数据表关联关系自动识别、多数据表自动整合方法及装置 |
CN113448969A (zh) * | 2021-08-30 | 2021-09-28 | 阿里云计算有限公司 | 数据处理方法、设备、程序产品及存储介质 |
CN113448969B (zh) * | 2021-08-30 | 2022-02-18 | 阿里云计算有限公司 | 数据处理方法、设备及存储介质 |
CN116975697B (zh) * | 2023-09-25 | 2023-12-15 | 广东赛博威信息科技有限公司 | 一种主数据管理方法、系统、设备及介质 |
CN116975697A (zh) * | 2023-09-25 | 2023-10-31 | 广东赛博威信息科技有限公司 | 一种主数据管理方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109739855B (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109739855A (zh) | 实现数据表拼接及自动训练机器学习模型的方法和系统 | |
CN109697066A (zh) | 实现数据表拼接及自动训练机器学习模型的方法和系统 | |
CN109992589A (zh) | 基于可视化页面生成sql语句的方法、装置、服务器及介质 | |
CN105453052B (zh) | 用于评估用户接口的方法和计算设备 | |
US8843879B2 (en) | Software design and automatic coding for parallel computing | |
Popov et al. | Connecting the dots: a multi-pivot approach to data exploration | |
US20200319856A1 (en) | Visual virtual programming machine for real-time interactive creation, playback, execution, inspection and manipulation of programming elements | |
US11687226B2 (en) | User interface tools for visual exploration of multi-dimensional data | |
US9411482B2 (en) | Visualizing user interfaces | |
US11216480B2 (en) | System and method for querying data points from graph data structures | |
US10698599B2 (en) | Connecting graphical shapes using gestures | |
CN109739856A (zh) | 用于建立数据表之间的关系的方法及系统 | |
CN101847169A (zh) | 集成电路设计的原理图的交互式简化 | |
CN105659221A (zh) | 具有用于连接组件的增强工具的图形用户界面 | |
Wingrave et al. | Reflecting on the design and implementation issues of virtual environments | |
CN108830383A (zh) | 用于展示机器学习建模过程的方法及系统 | |
CN109885819A (zh) | 数据表格动态调整方法、系统、设备及存储介质 | |
Spiekermann et al. | VAnnotatoR: a gesture-driven annotation framework for linguistic and multimodal annotation | |
CN110268375A (zh) | 配置跨不同应用使用的数字笔 | |
WO2023173631A1 (zh) | 编程方法和装置、设备、存储介质及计算机程序产品 | |
CN110075519A (zh) | 虚拟现实中的信息处理方法及装置、存储介质及电子设备 | |
Bueckle et al. | The HRA Organ Gallery affords immersive superpowers for building and exploring the Human Reference Atlas with virtual reality | |
US20220366810A1 (en) | Application onboarding tutorial system | |
CN110362688A (zh) | 试题标注方法、装置、设备及计算机可读存储介质 | |
US11194843B2 (en) | Methods and systems for visual management of relational data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |