CN113312890A - 多表拼接方法、装置、电子设备及存储介质 - Google Patents
多表拼接方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113312890A CN113312890A CN202110667383.8A CN202110667383A CN113312890A CN 113312890 A CN113312890 A CN 113312890A CN 202110667383 A CN202110667383 A CN 202110667383A CN 113312890 A CN113312890 A CN 113312890A
- Authority
- CN
- China
- Prior art keywords
- data table
- node
- path
- meta
- splicing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000003860 storage Methods 0.000 title claims abstract description 26
- 230000002776 aggregation Effects 0.000 claims abstract description 15
- 238000004220 aggregation Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 12
- 238000012546 transfer Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 241001025261 Neoraja caerulea Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种多表拼接方法、装置、电子设备及存储介质。其中,该方法包括:基于关系数据表集合构建本体视图;其中,关系数据表集合包括主表和至少一个副表,本体视图中的每个节点代表一个数据表,两个节点之间的边代表两个表之间的关系;基于本体视图获取每个副表节点到主表节点的元路径;其中,每条元路径中的相邻两节点之间的连接关系包括对应两表之间的关系和拼表操作符;基于每个元路径,将对应副表中的特征数据拼接到主表中;每个元路径中的中间节点只充当传递节点,其对应数据表的特征数据不通过该元路径传递到主表。本申请使用元路径实现关系型数据库中的多表拼表,可以灵活有效地控制多表特征空间,直观高效地完成了多表特征的聚合。
Description
技术领域
本申请涉及人工智能技术领域,具体涉及一种多表拼接方法、装置、电子设备及存储介质。
背景技术
多表数据是企业应用中常用数据类型,通常企业会将与应用有关的全部数据通过关系数据表集合来采集和管理,关系数据表集合中的多个数据表一般按照数据在现实中的关系来组织和关联。关系数据表集合是一种大而全的数据管理方式,虽然可以实现最广泛的支持,但显然对一些特定应用来说又显得过于复杂和冗余。典型地,对于人工智能模型的机器学习任务来说,由于机器学习算法只能从给定的训练数据中学习,训练中使用的特征的选择有时比模型的选择更重要,所以要优化机器学习任务通常需要构造一个和任务相关的特征。
特征构造也称为特征工程(FeatureEngineering),是从现有数据集合中构造与任务密切相关的新特征从而训练机器学习模型的过程。一般情况下,特征工程都需要从现有的数据集合中构造额外特征,构造过程中使用的特征数据通常分布在多张相关的数据表中,需要从多个数据表中提取相关信息并存入单张数据表中,然后该单张数据表可直接用来训练机器学习模型。其中,多表特征的最优选取对于机器学习任务至关重要,过多无关项或错漏都有可能影响模型的训练效果,甚至导致模型识别/预测能力出现严重偏差。但同时又需要控制多表特征空间的大小,避免太大的特征空间造成大量资源消耗和太长的计算时间,或避免太小的特征空间严重限制模型的效果。
现有技术中,Python库中的FeatureTools工具提出了深度特征合成(DeepFeatureSynthesis,DFS)方法来进行多表特征生成,如图1所示,DFS方法中,数据表所对应的实体(图1中Entity)之间的连接关系分为前向(forward)关系和后向(backward)关系,基于深度优先原则进行多表拼接。
然而,在实现本申请实施例相关技术方案的过程中发明人发现,现有技术至少存在以下问题:一方面,DFS方法中前后向关系分别对应数据库理论中的1-M(一对多)和M-1(多对一)关系,缺少企业应用中常见的1-1(一对一)和M-M(多对多)关系的表示,因此其对企业应用场景的支持较弱。另一方面,DFS方法基于深度优先,实现过程对用户来说并不直观,需要根据其深度优先过程构造一个展开树才能了解具体特征生成情况,因而用户无法有效控制特征生成过程和特征空间的大小,特征工程的自由度和实际效果均受到明显限制。此外,DFS方法中每条聚合路径上的聚合函数都会被经过该路径的特征共享,用户无法有效地针对特征的来源分配不同的聚合函数,这进一步加大了用户对特征空间控制的难度。
发明内容
针对现有技术中的上述技术问题,本申请实施例提出了一种多表拼接方法、装置、电子设备及计算机可读存储介质,以解决现有技术中多表拼接方案难以控制的问题。
本申请实施例的第一方面提供了一种多表拼接方法,包括:
基于关系数据表集合构建本体视图;其中,所述关系数据表集合包括一个主数据表和至少一个副数据表,所述本体视图中的每个节点代表一个数据表,所述本体视图中两个节点之间的关系边代表对应两个数据表之间的关系;
基于所述本体视图,获取每个副数据表节点到主数据表节点的元路径;其中,每条元路径中的相邻两个节点之间的连接关系包括对应两个数据表之间的关系和拼表操作符;
基于每个元路径,将对应副数据表中的特征数据拼接到主数据表中;其中,每个元路径中的中间节点只充当传递节点,其对应数据表的特征数据不通过该元路径传递到主数据表。
在一些实施例中,所述获取每个副数据表节点到主数据表节点的元路径包括:对于所述至少一个副数据表中的每个副数据表,在本体视图中随机选取对应副数据表节点到达主数据表节点的路径,或者在本体视图中选取对应副数据表节点到达主数据表节点的最短路径,或者在本体视图中按用户配置条件选取对应副数据表节点到达主数据表节点的路径,将选取结果作为所述元路径。
在一些实施例中,所述方法还包括:在完成所述拼接之后,基于所述主数据表进行模型训练;使用训练后的模型对所述关系数据表集合对应的至少一个服务进行预测。
在一些实施例中,所述拼表操作符与所述相邻两个节点中尾端节点的数据表连接键值相对应。
在一些实施例中,所述拼表操作符包括:
在所述尾端节点的数据表连接键值是唯一值时,对应的所述拼表操作符为直接拼表操作符;或者,
在所述尾端节点的数据表连接键值是非唯一值时,对应的所述拼表操作符为聚合拼表操作符。
在一些实施例中,所述聚合拼表操作符包括:最大化连接拼表操作符和/或最小化连接拼表操作符。
本申请实施例的第二方面提供了一种多表拼接装置,包括:
本体视图构建模块,用于基于关系数据表集合构建本体视图;其中,所述关系数据表集合包括一个主数据表和至少一个副数据表,所述本体视图中的每个节点代表一个数据表,所述本体视图中两个节点之间的关系边代表对应两个数据表之间的关系;
元路径获取模块,用于基于所述本体视图,获取每个副数据表节点到主数据表节点的元路径;其中,每条元路径中的相邻两个节点之间的连接关系包括对应两个数据表之间的关系和拼表操作符;
表拼接模块,用于基于每个元路径,将对应副数据表中的特征数据拼接到主数据表中;其中,每个元路径中的中间节点只充当传递节点,其对应数据表的特征数据不通过该元路径传递到主数据表。
在一些实施例中,对于所述至少一个副数据表中的每个副数据表,所述元路径获取模块包括:
随机选取模块,用于在本体视图中随机选取对应副数据表节点到达主数据表节点的路径;
或者,最短路径选取模块,用于在本体视图中选取对应副数据表节点到达主数据表节点的最短路径;
或者,条件选取模块,用于在本体视图中按用户配置条件选取对应副数据表节点到达主数据表节点的路径。
在一些实施例中,所述装置还包括:
模型训练模块,用于在所述拼接到主数据表之后,基于所述主数据表进行模型训练;
预测模块,用于使用训练后的模型对所述关系数据表集合对应的至少一个服务进行预测。
所述拼表操作符与所述相邻两个节点中尾端节点的数据表连接键值相对应。
在一些实施例中,所述拼表操作符包括:
在所述尾端节点的数据表连接键值是唯一值时,对应的所述拼表操作符为直接拼表操作符;或者,
在所述尾端节点的数据表连接键值是非唯一值时,对应的所述拼表操作符为聚合拼表操作符。
在一些实施例中,所述聚合拼表操作符包括:最大化连接拼表操作符和/或最小化连接拼表操作符。
本申请实施例的第三方面提供了一种电子设备,包括:
存储器以及一个或多个处理器;
其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行时,所述电子设备用于实现如前述各实施例所述的方法。
本申请实施例的第四方面提供了一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可用来实现如前述各实施例所述的方法。
本申请实施例的第五方面提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,可用来实现如前述各实施例所述的方法。
本申请实施例,通过本体视图直观地获取副表节点到主表节点的元路径,基于元路径实现副表特征数据到主表的多表拼接,从而灵活有效地控制多表特征空间,直观高效地完成了多表特征的聚合。
附图说明
通过参考附图会更加清楚的理解本申请的特征和优点,附图是示意性的而不应理解为对本申请进行任何限制,在附图中:
图1是根据现有技术的DFS方法所示的一种多表拼接方式示意图;
图2是根据本申请的一些实施例所示的一种多表拼接方法的流程示意图;
图3(a)是根据本申请的一些实施例所示的一个本体视图示意图;
图3(b)是根据本申请的一些实施例所示的本体视图中一条元路径的示意图;
图3(c)是根据本申请的一些实施例所示的本体视图中所有元路径的示意图;
图4是根据本申请的一些实施例所示的一种多表拼接装置的模块结构示意图;
图5是根据本申请的一些实施例所示的一种电子设备的逻辑结构示意图;
图6是根据本申请的一些实施例所示的一种通用型计算机节点的架构示意图。
具体实施方式
在下面的详细描述中,通过示例阐述了本申请的许多具体细节,以便提供对相关披露的透彻理解。然而,对于本领域的普通技术人员来讲,本申请显而易见的可以在没有这些细节的情况下实施。应当理解的是,本申请中使用“系统”、“装置”、“单元”和/或“模块”术语,是用于区分在顺序排列中不同级别的不同部件、元件、部分或组件的一种方法。然而,如果其他表达式可以实现相同的目的,这些术语可以被其他表达式替换。
应当理解的是,当设备、单元或模块被称为“在……上”、“连接到”或“耦合到”另一设备、单元或模块时,其可以直接在另一设备、单元或模块上,连接或耦合到或与其他设备、单元或模块通信,或者可以存在中间设备、单元或模块,除非上下文明确提示例外情形。例如,本申请所使用的术语“和/或”包括一个或多个相关所列条目的任何一个和所有组合。
本申请所用术语仅为了描述特定实施例,而非限制本申请范围。如本申请说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的特征、整体、步骤、操作、元素和/或组件,而该类表述并不构成一个排它性的罗列,其他特征、整体、步骤、操作、元素和/或组件也可以包含在内。
参看下面的说明以及附图,本申请的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解,其中说明和附图形成了说明书的一部分。然而,可以清楚地理解,附图仅用作说明和描述的目的,并不意在限定本申请的保护范围。可以理解的是,附图并非按比例绘制。
本申请中使用了多种结构图用来说明根据本申请的实施例的各种变形。应当理解的是,前面或下面的结构并不是用来限定本申请。本申请的保护范围以权利要求为准。
特征工程对于机器学习任务至关重要,然而对于多表数据集合来说,要针对特定机器学习任务从多个数据表的大量特征中选择合适的特征组合是一项挑战。为替代人工操作进行的特征工程,现有技术提出了DFS方法来进行多表特征生成,但DFS方法缺少对1-1(一对一)和M-M(多对多)关系的表示和处理,同时DFS不能控制聚合路径中函数共享的情况,更无法直观控制特征空间,故而实际应用非常有限且复杂度高。
有鉴于此,本申请的实施例提供了一种多表拼接方案,通过本体视图的可视化方式来控制多表特征的生成,同时利用元路径来操作控制特征的传递,有效实现了多表拼接时特征的可控聚合,在降低复杂度的同时可以灵活有效地控制多表特征空间。具体地,参见图2,在本申请的一个实施例中,多表拼接方法包括:
S201,基于关系数据表集合构建本体视图;其中,所述关系数据表集合包括一个主数据表和至少一个副数据表,所述本体视图中的每个节点代表一个数据表,所述本体视图中两个节点之间的关系边代表对应两个数据表之间的关系。
在本申请的实施例中,通过本体(Ontology)视图来管理和控制多表拼接过程,其中,本体视图是关系数据表集合的图形化表示。关系数据表集合是多个数据表按相互之间的关系构成的数据集合(类似于关系数据库的表示),通常包括一个主数据表(以下简称主表)和至少一个副数据表(以下简称副表),各表之间具有一定的对应关联关系。为了能有效表征关系数据表集合,本体视图中一般包含实体(Entity)和关系(Relation),一个实体即为视图中的一个节点,代表关系数据表集合中的一个数据表;关系则是连接两个实体节点的边,代表两个实体节点所对应的两个数据表之间的关联关系。两个实体之间的关系一般包括“1-1”、“1-M”、“M-1”、“M-M”这4种类型,其中“1”表示实体/数据表中的连接键值是唯一的,“M”(Many)表示实体/数据表中的连接键值存在重复。通过本体视图的表示,本申请的实施例可以直观地对多表进行管理,实现灵活自由且可控的多表拼接。
S202,基于所述本体视图,获取每个副数据表节点到主数据表节点的元路径;其中,每条元路径中的相邻两个节点之间的连接关系包括对应两个数据表之间的关系和拼表操作符。
通常情况下,元路径(MetaPath)是网络架构图上两个实体之间的连接路径,其包含了路径上的实体和连接关系。在本申请的实施例中,利用元路径来表示多个数据表的拼接过程。其中,关系数据表集合中的每个数据表是以行和列的二维结构存储的多组信息,数据表中的每一行代表一条数据记录,每一列代表一个特征(字段),一条数据记录由多个特征值组成。特征工程中的多表拼接目的就是将分布在多个数据表中的多个特征通过拼表操作合并/聚合到一个数据表中,以减少后续处理中的跨表操作,降低复杂度并提升处理效率。
进一步参见图3(a),在本申请的一个实施例中,以包含4个实体的一个本体作为典型示例来说明本体视图及元路径的具体形式。在图3(a)中,4个实体(Entity1到Entity4)之间通过有向边(Relation)来表示两个实体之间的连接关系。在系统中一般采用三元组来表示连接关系,三元组(id,r,O)中id是该连接关系的序号,r是该连接关系包含的关系(Relation),O表示该连接关系上使用的拼表操作符。图3(a)中的虚线箭头展示了从实体Entity2到实体Entity3的元路径;其中,该元路径包括Entity2、Entity1、Entity3三个实体,元路径表示将实体Entity2上的特征传递到实体Entity3的路径。
本申请的实施例通过元路径来直观地展示特征的传播路径,进一步地,元路径中还展示了关系的具体类型和对应的拼表操作符,使得用户可以直接而有效地了解和控制特征传递过程,提升了多表特征抽取与生成的便利性与可控性。
S203,基于每个元路径,将对应副数据表中的特征数据拼接到主数据表中;其中,每个元路径中的中间节点只充当传递节点,其对应数据表的特征数据不通过该元路径传递到主数据表。
在本申请的实施例中,为有效控制特征空间的大小,在利用元路径进行特征传递时,仅根据元路径的配置按需将指定特征传递到指定数据表中,路径上的中间节点不共享聚合函数,因而也不会参与到特征聚合/传递的过程中,避免了路径影响。此外,对于每个节点/数据表,可以使用独立的元路径和操作符来控制特征聚合,使得拼表结果只包含指定的特征,实现了多表拼接的最优化,降低时间和空间的复杂度并提升了机器学习任务的有效性。
进一步地,在本申请的一个实施例中,仍以图3(a)为例,其中的虚线箭头展示了从实体Entity2到实体Entity3的元路径,将其单独提取得到的具体的元路径如图3(b)所示。图3(b)中的元路径通常采用 的形式来表示和记录,其中,有向边c0、c1是连接关系,采用上文所述的三元组来表示。在元路径中,每条有向边(连接关系)尾端的实体称为尾端实体,首端(即箭头所指)的实体称为首端实体。由于实体之间的连接关系一般包括“1-1”、“1-M”、“M-1”、“M-M”这4种类型,在多表拼接时可采用的拼表操作符也对应有不同的类型。为将尾端实体中的特征向前传递,拼表操作符通常与尾端实体的关系类型有关。具体地,在连接关系中,对于是“1”的尾端实体,直接拼表操作符(DirectJoin)是唯一选项,而对于是“M”的尾端实体,聚合拼表操作符通常被采用。如前文所述,上述“1”或“M”由实体/数据表中的连接键值确定。在一些实施例中,所述聚合拼表操作符包括:最大化连接拼表操作符(MaxThenJoin)和/或最小化连接拼表操作符(MinThenJoin)。
典型地,对于聚合拼表操作符,尾端实体的特征首先会根据连接键值分组,然后每个组的数据会分别聚合,最后再把这些聚合的值根据连接键值拼到首端实体上。图3(b)中Entity2实体上的特征首先用直接拼表操作符(DirectJoin)传递到Entity1实体上,然后使用多表操作符MaxThenJoin和MinThenJoin聚合到Entity3实体。在这个过程中,中间节点Entity1实体只充当传递节点,其特征不通过这条元路径传递到Entity3实体。
在本申请的实施例中,关系数据表集合一般包括一个主表和至少一个副表,多表拼接时每个副表都可以传递特征到主表,对应到本体视图中,每个副表节点都可建立/选取一条到达主表节点的元路径。其中,在图3(a)中以Entity3实体为主表节点/目标实体,每个副表节点/实体都有一条到达主表节点/目标实体的元路径。具体对应的三条元路径的形式如图3(c)所示。其中,第一元路径MetaPath 0是Entity2实体经Entity1实体到达Entity3实体的路径(即图3(b)所示元路径),第二元路径MetaPath 1是Entity4实体经Entity1实体到达Entity3实体的路径,第三元路径MetaPath 2是Entity1实体直接到达Entity3实体的路径。
当然,本领域相关技术人员应当理解,图3(a)中的本体视图仅仅作为一个示例来说明本申请一些实施例的实现方式,实际应用场景中所面对的实体数量和关系复杂度通常远高于图3(a)中的示例,相应的元路径也可能存在多种建立/选取方式。本申请的实施例中通过支持通过一些原则来自由配置元路径的建立/选取,比如随机选取、按最短路径选取或自定义选取等。在一些实施例中,所述获取每个副数据表节点到主数据表节点的元路径包括:对于所述至少一个副数据表中的每个副数据表,在本体视图中随机选取对应副数据表节点到达主数据表节点的路径,或者在本体视图中选取对应副数据表节点到达主数据表节点的最短路径,或者在本体视图中按用户配置条件选取对应副数据表节点到达主数据表节点的路径,将选取结果作为所述元路径。
进一步地,由于特征工程是从现有数据集合中构造与机器学习任务密切相关的新特征从而训练机器学习模型的过程,在本申请的一些实施例中,所述方法还包括:在完成所述拼接之后,基于所述主数据表(拼接后的数据表)进行模型训练;使用训练后的模型对所述关系数据表集合对应的至少一个服务进行预测。其中,模型训练是指将具有多项特征值的一条数据记录作为一个样本数据,将尽可能多的样本数据送入人工智能模型中进行有监督和/或无监督的机器学习,让模型自动学习建立特征之间的关联,得到参数优化的训练后的模型。随后利用训练后的模型对相同或相似类型的数据中的至少一项特征值进行识别和/或预测,以实现对特定应用的自动化、智能化的支持。
以上是本申请实施例提供的多表拼接方法的具体实施方式。在本申请的实施例中,基于元路径的拼表方法有如下特点:首先,本申请的实施例对实体之间的连接关系没有限制,可支持数据库理论中的“1-1”、“1-M”、“M-1”、“M-M”各类型的关系。而DFS方法中只支持“1-M”和“M-1”。其次,对于DFS方法,基于元路径的方法更加直观,用户可以清楚地知道特征的传递路径以及路径上所使用的拼表操作符,进而可以很容易控制多表特征空间。最后,以图3(b)中的例子来说,在DFS方法中实体Entity2和Entity1的原始特征共享Entity1到Entity3的连接关系以及连接关系上拼表操作符;而在基于元路径的方法中,特征及操作符之间是相互独立的。因而基于DFS的方法很难为实体Entity2和Entity1的原始特征在Entity1到Entity3的连接关系上分配不同的拼表操作符,而本申请的实施例则可以按需分配。总之,本申请的实施例中基于元路径的方法对特征空间有更好的控制性。
图4是根据本申请的一些实施例所示的一种多表拼接装置示意图。如图4所示,多表拼接装置400包括本体视图构建模块401、元路径获取模块402和表拼接模块403;其中,
本体视图构建模块401,用于基于关系数据表集合构建本体视图;其中,所述关系数据表集合包括一个主数据表和至少一个副数据表,所述本体视图中的每个节点代表一个数据表,所述本体视图中两个节点之间的关系边代表对应两个数据表之间的关系;
元路径获取模块402,用于基于所述本体视图,获取每个副数据表节点到主数据表节点的元路径;其中,每条元路径中的相邻两个节点之间的连接关系包括对应两个数据表之间的关系和拼表操作符;
表拼接模块403,用于基于每个元路径,将对应副数据表中的特征数据拼接到主数据表中;其中,每个元路径中的中间节点只充当传递节点,其对应数据表的特征数据不通过该元路径传递到主数据表。
在一些实施例中,对于所述至少一个副数据表中的每个副数据表,所述元路径获取模块包括:
随机选取模块,用于在本体视图中随机选取对应副数据表节点到达主数据表节点的路径;
或者,最短路径选取模块,用于在本体视图中选取对应副数据表节点到达主数据表节点的最短路径;
或者,条件选取模块,用于在本体视图中按用户配置条件选取对应副数据表节点到达主数据表节点的路径。
在一些实施例中,所述装置还包括:
模型训练模块,用于在所述拼接到主数据表之后,基于所述主数据表进行模型训练;
预测模块,用于使用训练后的模型对所述关系数据表集合对应的至少一个服务进行预测。
所述拼表操作符与所述相邻两个节点中尾端节点的数据表连接键值相对应。
在一些实施例中,所述拼表操作符包括:
在所述尾端节点的数据表连接键值是唯一值时,对应的所述拼表操作符为直接拼表操作符;或者,
在所述尾端节点的数据表连接键值是非唯一值时,对应的所述拼表操作符为聚合拼表操作符。
在一些实施例中,所述聚合拼表操作符包括:最大化连接拼表操作符和/或最小化连接拼表操作符。
参考附图5,为本申请一个实施例提供的电子设备示意图。如图5所示,该电子设备500包括:
存储器530以及一个或多个处理器510;
其中,所述存储器530与所述一个或多个处理器510通信连接,所述存储器530中存储有可被所述一个或多个处理器执行的指令532,所述指令532被所述一个或多个处理器510执行,以使所述一个或多个处理器510执行本申请前述实施例中的方法。
具体地,处理器510和存储器530可以通过总线或者其他方式连接,图5中以通过总线540连接为例。处理器510可以为中央处理器(Central Processing Unit,CPU)。处理器510还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器530作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的级联渐进网络等。处理器510通过运行存储在存储器530中的非暂态软件程序、指令以及功能模块532,从而执行处理器的各种功能应用以及数据处理。
存储器530可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器510所创建的数据等。此外,存储器530可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器530可选包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络(比如通过通信接口520)连接至处理器510。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请的一个实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被执行后执行上述方法实施例中的各个步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法和/或装置实施例中的对应描述,在此不再赘述。
尽管此处所述的主题是在结合操作系统和应用程序在计算机系统上的执行而执行的一般上下文中提供的,但本领域技术人员可以认识到,还可结合其他类型的程序模块来执行其他实现。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。本领域技术人员可以理解,此处所述的本主题可以使用其他计算机系统配置来实践,包括手持式设备、多处理器系统、基于微处理器或可编程消费电子产品、小型计算机、大型计算机等,也可使用在其中任务由通过通信网络连接的远程处理设备执行的分布式计算环境中。在分布式计算环境中,程序模块可位于本地和远程存储器存储设备的两者中。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对原有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。比如,典型地,本申请的技术方案可通过至少一个如图6所示的通用型计算机节点610来实现和/或传播。在图6中,通用型计算机节点610包括:计算机系统/服务器612、外设614和显示设备616;其中,所述计算机系统/服务器612包括处理单元620、输入/输出接口622、网络适配器624和存储器630,内部通常通过总线实现数据传输;进一步地,存储器630通常由多种存储设备组成,比如,RAM(Random Access Memory,随机存储器)632、缓存634和存储系统(一般由一个或多个大容量非易失性存储介质组成)636等;实现本申请技术方案的部分或全部功能的程序640保存在存储器630中,通常以多个程序模块642的形式存在。
而前述的计算机可读取存储介质包括以存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方式或技术来实现的物理易失性和非易失性、可移动和不可因东介质。计算机可读取存储介质具体包括,但不限于,U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、可擦除可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)、闪存或其他固态存储器技术、CD-ROM、数字多功能盘(DVD)、HD-DVD、蓝光(Blue-Ray)或其他光存储设备、磁带、磁盘存储或其他磁性存储设备、或能用于存储所需信息且可以由计算机访问的任何其他介质。
综上所述,本申请提出了一种多表拼接方法、装置、电子设备及其计算机可读存储介质。本申请实施例通过本体视图的可视化方式来控制多表特征的生成,同时利用元路径来操作控制特征的传递,有效实现了多表拼接时特征的可控聚合,在降低复杂度的同时可以灵活有效地控制多表特征空间。
应当理解的是,本申请的上述具体实施方式仅仅用于示例性说明或解释本申请的原理,而不构成对本申请的限制。因此,在不偏离本申请的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。此外,本申请所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (10)
1.一种多表拼接方法,其特征在于,包括:
基于关系数据表集合构建本体视图;其中,所述关系数据表集合包括一个主数据表和至少一个副数据表,所述本体视图中的每个节点代表一个数据表,所述本体视图中两个节点之间的关系边代表对应两个数据表之间的关系;
基于所述本体视图,获取每个副数据表节点到主数据表节点的元路径;其中,每条元路径中的相邻两个节点之间的连接关系包括对应两个数据表之间的关系和拼表操作符;
基于每个元路径,将对应副数据表中的特征数据拼接到主数据表中;其中,每个元路径中的中间节点只充当传递节点,其对应数据表的特征数据不通过该元路径传递到主数据表。
2.根据权利要求1所述的方法,其中,所述获取每个副数据表节点到主数据表节点的元路径包括:
对于所述至少一个副数据表中的每个副数据表,在本体视图中随机选取对应副数据表节点到达主数据表节点的路径,或者在本体视图中选取对应副数据表节点到达主数据表节点的最短路径,或者在本体视图中按用户配置条件选取对应副数据表节点到达主数据表节点的路径,将选取结果作为所述元路径。
3.根据权利要求1或2所述的方法,其中,所述方法还包括:
在完成所述拼接之后,基于所述主数据表进行模型训练;
使用训练后的模型对所述关系数据表集合对应的至少一个服务进行预测。
4.根据权利要求1所述的方法,其特征在于,所述拼表操作符与所述相邻两个节点中尾端节点的数据表连接键值相对应。
5.根据权利要求4所述的方法,其特征在于,所述拼表操作符包括:
在所述尾端节点的数据表连接键值是唯一值时,对应的所述拼表操作符为直接拼表操作符;或者,
在所述尾端节点的数据表连接键值是非唯一值时,对应的所述拼表操作符为聚合拼表操作符。
6.根据权利要求5所述的方法,其特征在于,所述聚合拼表操作符包括:最大化连接拼表操作符和/或最小化连接拼表操作符。
7.一种多表拼接装置,其特征在于,包括:
本体视图构建模块,用于基于关系数据表集合构建本体视图;其中,所述关系数据表集合包括一个主数据表和至少一个副数据表,所述本体视图中的每个节点代表一个数据表,所述本体视图中两个节点之间的关系边代表对应两个数据表之间的关系;
元路径获取模块,用于基于所述本体视图,获取每个副数据表节点到主数据表节点的元路径;其中,每条元路径中的相邻两个节点之间的连接关系包括对应两个数据表之间的关系和拼表操作符;
表拼接模块,用于基于每个元路径,将对应副数据表中的特征数据拼接到主数据表中;其中,每个元路径中的中间节点只充当传递节点,其对应数据表的特征数据不通过该元路径传递到主数据表。
8.根据权利要求7所述的装置,其中,对于所述至少一个副数据表中的每个副数据表,所述元路径获取模块包括:
随机选取模块,用于在本体视图中随机选取对应副数据表节点到达主数据表节点的路径;
或者,最短路径选取模块,用于在本体视图中选取对应副数据表节点到达主数据表节点的最短路径;
或者,条件选取模块,用于在本体视图中按用户配置条件选取对应副数据表节点到达主数据表节点的路径。
9.一种电子设备,其特征在于,包括:
存储器以及一个或多个处理器;
其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行时,所述电子设备用于实现如权利要求1-6任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可用来实现如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110667383.8A CN113312890B (zh) | 2021-06-16 | 2021-06-16 | 多表拼接方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110667383.8A CN113312890B (zh) | 2021-06-16 | 2021-06-16 | 多表拼接方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113312890A true CN113312890A (zh) | 2021-08-27 |
CN113312890B CN113312890B (zh) | 2024-04-12 |
Family
ID=77379150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110667383.8A Active CN113312890B (zh) | 2021-06-16 | 2021-06-16 | 多表拼接方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113312890B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116070601A (zh) * | 2023-03-28 | 2023-05-05 | 联仁健康医疗大数据科技股份有限公司 | 数据拼接方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130339396A1 (en) * | 2012-06-13 | 2013-12-19 | Microsoft Corporation | Asynchronously flattening graphs in relational stores |
CN109739855A (zh) * | 2018-12-28 | 2019-05-10 | 第四范式(北京)技术有限公司 | 实现数据表拼接及自动训练机器学习模型的方法和系统 |
CN110795476A (zh) * | 2019-10-16 | 2020-02-14 | 北京百分点信息科技有限公司 | 一种本体库的数据写入方法及装置 |
CN111460047A (zh) * | 2020-03-09 | 2020-07-28 | 平安科技(深圳)有限公司 | 基于实体关系的特征构建方法、装置、设备及存储介质 |
-
2021
- 2021-06-16 CN CN202110667383.8A patent/CN113312890B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130339396A1 (en) * | 2012-06-13 | 2013-12-19 | Microsoft Corporation | Asynchronously flattening graphs in relational stores |
CN109739855A (zh) * | 2018-12-28 | 2019-05-10 | 第四范式(北京)技术有限公司 | 实现数据表拼接及自动训练机器学习模型的方法和系统 |
CN110795476A (zh) * | 2019-10-16 | 2020-02-14 | 北京百分点信息科技有限公司 | 一种本体库的数据写入方法及装置 |
CN111460047A (zh) * | 2020-03-09 | 2020-07-28 | 平安科技(深圳)有限公司 | 基于实体关系的特征构建方法、装置、设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116070601A (zh) * | 2023-03-28 | 2023-05-05 | 联仁健康医疗大数据科技股份有限公司 | 数据拼接方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113312890B (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11632422B2 (en) | Automated server workload management using machine learning | |
CN109697066B (zh) | 实现数据表拼接及自动训练机器学习模型的方法和系统 | |
US9773029B2 (en) | Generation of a data model | |
JP7482992B2 (ja) | 自動化された人工知能の放射型可視化 | |
US20200286013A1 (en) | System and method for intelligent sales engagement | |
CN105335411A (zh) | 用于数据处理的方法和系统 | |
US11468368B2 (en) | Parametric modeling and simulation of complex systems using large datasets and heterogeneous data structures | |
US10248919B2 (en) | Task assignment using machine learning and information retrieval | |
US20160092510A1 (en) | Optimized storage solution for real-time queries and data modeling | |
US20240214428A1 (en) | Platform for management and tracking of collaborative projects | |
US11176169B2 (en) | Recommending visual and execution templates to enable automation of control and data exploration across systems | |
Montiel-Ross et al. | Methodology to optimize manufacturing time for a CNC using a high performance implementation of ACO | |
EP3738047B1 (en) | Interactive and non-interactive execution and rendering of templates to automate control and exploration across systems | |
Xu et al. | A memetic algorithm for the re-entrant permutation flowshop scheduling problem to minimize the makespan | |
US20170192957A1 (en) | Methods and analytics systems having an ontology-guided graphical user interface for analytics models | |
Huang et al. | GBRTVis: online analysis of gradient boosting regression tree | |
CN113312890A (zh) | 多表拼接方法、装置、电子设备及存储介质 | |
Shamsuddin et al. | Data science vs big data@ UTM big data centre | |
CN104572687A (zh) | 微博传播的关键用户识别方法和装置 | |
US11899720B2 (en) | Systems, methods, computing platforms, and storage media for comparing data sets through decomposing data into a directed acyclic graph | |
CN115481201A (zh) | 自动特征工程方法、系统、电子设备及存储介质 | |
Li et al. | A parallel adaptive quantum genetic algorithm for the controllability of arbitrary networks | |
Hao et al. | An enhanced two phase estimation of distribution algorithm for solving scheduling problem | |
Ionescu et al. | An architecture and methods for big data analysis | |
Mojžiš et al. | Relationship discovery and navigation in big graphs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |