CN110032564B - 一种数据表关联关系的确定方法和装置 - Google Patents

一种数据表关联关系的确定方法和装置 Download PDF

Info

Publication number
CN110032564B
CN110032564B CN201910172606.6A CN201910172606A CN110032564B CN 110032564 B CN110032564 B CN 110032564B CN 201910172606 A CN201910172606 A CN 201910172606A CN 110032564 B CN110032564 B CN 110032564B
Authority
CN
China
Prior art keywords
data
data table
column
feature dimension
association
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910172606.6A
Other languages
English (en)
Other versions
CN110032564A (zh
Inventor
张洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201910172606.6A priority Critical patent/CN110032564B/zh
Publication of CN110032564A publication Critical patent/CN110032564A/zh
Application granted granted Critical
Publication of CN110032564B publication Critical patent/CN110032564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24558Binary matching operations
    • G06F16/2456Join operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据表关联关系的确定方法和装置,该方法包括:获取第一数据表的列名对应的第一数据,以及第二数据表的列名对应的第二数据;基于所述第一数据和所述第二数据,确定关联特征维度参数,所述关联特征维度参数表征所述第一数据与所述第二数据的关联程度;基于所述关联特征维度参数,确定所述第一数据表和所述第二数据表是否存在关联关系。

Description

一种数据表关联关系的确定方法和装置
技术领域
本申请涉及数据处理领域,尤其涉及一种数据表关联关系的确定方法和装置。
背景技术
通常,在进行数据存储时,可以将数据以数据表的形式进行存储。此外,为了节省存储空间,提高存储效率,还可以在两个或多个数据表之间建立关联关系。例如,可以在表1和表2之间建立关联关系,其中,表1中第X列数据与表2中第Y列数据存在关联关系。
在基于上述方法进行数据存储后,在进行数据处理时,通常会涉及数据表之间的关联关系。例如,在进行数据查询时,需要利用数据表之间的关联关系查询有效信息。然而,随着大数据时代的到来,数据量越来越多,数据之间的关系也越来越复杂,导致在以数据表的形式对数据进行存储后,很难确定哪些数据表之间存在关联关系,从而无法实现数据处理。
发明内容
本申请实施例提供一种数据表关联关系的确定方法和装置,用于解决现有技术中无法有效地确定数据表之间是否存在关联关系的问题。
为解决上述技术问题,本申请实施例是这样实现的:
第一方面,提出一种数据表关联关系的确定方法,包括:
获取第一数据表的列名对应的第一数据,以及第二数据表的列名对应的第二数据;
基于所述第一数据和所述第二数据,确定关联特征维度参数,所述关联特征维度参数表征所述第一数据与所述第二数据的关联程度;
基于所述关联特征维度参数,确定所述第一数据表和所述第二数据表是否存在关联关系。
第二方面,提出一种数据表关联关系的确定装置,包括:
获取单元,获取第一数据表的列名对应的第一数据,以及第二数据表的列名对应的第二数据;
第一确定单元,基于所述第一数据和所述第二数据,确定关联特征维度参数,所述关联特征维度参数表征所述第一数据与所述第二数据的关联程度;
第二确定单元,基于所述关联特征维度参数,确定所述第一数据表和所述第二数据表是否存在关联关系。
第三方面,提出一种电子设备,该电子设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,该可执行指令在被执行时使该处理器执行以下操作:
获取第一数据表的列名对应的第一数据,以及第二数据表的列名对应的第二数据;
基于所述第一数据和所述第二数据,确定关联特征维度参数,所述关联特征维度参数表征所述第一数据与所述第二数据的关联程度;
基于所述关联特征维度参数,确定所述第一数据表和所述第二数据表是否存在关联关系。
第四方面,提出一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下方法:
获取第一数据表的列名对应的第一数据,以及第二数据表的列名对应的第二数据;
基于所述第一数据和所述第二数据,确定关联特征维度参数,所述关联特征维度参数表征所述第一数据与所述第二数据的关联程度;
基于所述关联特征维度参数,确定所述第一数据表和所述第二数据表是否存在关联关系。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
本申请实施例提供的技术方案,在确定第一数据表和第二数据表之间是否存在关联关系时,获取第一数据表的列名对应的第一数据,以及第二数据表的列名对应的第二数据;基于第一数据和第二数据,确定关联特征维度参数,该关联特征维度参数可以表征第一数据与第二数据的关联程度;基于该关联特征维度参数确定第一数据表和第二数据表是否存在关联关系。这样,通过确定两个数据表中列数据之间的关联程度,基于表征该关联程度的关联特征维度参数确定两个数据表之间是否存在关联关系,可以使得数据表关联关系的确定更加方便有效,从而可以基于数据表之间的关联关系实现对数据的处理。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的一个实施例数据表关联关系的确定方法的流程示意图;
图2是本申请的一个实施例数据表关联关系的确定方法的流程示意图;
图3是本申请的一个实施例电子设备的结构示意图;
图4是本申请的一个实施例数据表关联关系的确定装置的结构示意图。
具体实施方式
现有技术中,在将数据以数据表的形式存储后,还可以在数据表之间建立关联关系,以节省存储空间,提高存储效率。
例如,在一张人口信息表中存储了全国13亿人的姓名和所在省份,其中,表内包含姓名和省份两列数据,在将13亿人的姓名和所在省份进行存储后,该信息表可以包含13亿行数据。已知全国的省份有30多个,那么,在这13亿行数据中,同一省份的名称将会出现多次。此时,若新建另一张表,并在该表内存储省份名称以及与每个省份名称对应的数字标识,那么,在人口信息表中,可以以省份的数字标识代替省份名称。这样,由于数字所需的存储空间远小于省份名称所需的存储空间,因此,以两个数据表存储全国13亿人口的姓名和所在省份,可以大大节省存储空间。
通常,若一个数据表中某行某列的数据与另一数据表中某行某列的数据相同,则可以说明两个数据表存在关联关系。其中,若一个数据表中的某列数据与另一数据表中的某列数据完全相同,则可以说明两个数据表中的这两列数据存在完整的关联关系。
在实际应用中,在对数据表中的数据进行处理时,通常会涉及数据表之间的关联关系,例如,在对数据进行查询时,需要利用数据表之间的关联关系查询有效信息。由此可见,数据表之间的关联关系非常重要,在对数据进行处理时,需要确定哪些数据表之间存在关联关系。
现有技术中,在确定两个数据表之间是否存在关联关系时,可以通过人工对数据表进行整理的方法,确定哪些数据表中存在相同的数据,进而确定哪些数据表存在关联关系。
然而,随着大数据时代的到来,数据量越来越多,数据之间关系越来越复杂,通过现有的人工整理的方法将很难确定哪些数据表之间存在关联关系,从而无法基于数据表之间的关联关系进行数据处理。
为了解决上述技术问题,本申请实施例提供一种数据表关联关系的确定方法和装置,该方法包括:获取第一数据表的列名对应的第一数据,以及第二数据表的列名对应的第二数据;基于所述第一数据和所述第二数据,确定关联特征维度参数,所述关联特征维度参数表征所述第一数据与所述第二数据的关联程度;基于所述关联特征维度参数,确定所述第一数据表和所述第二数据表是否存在关联关系。
本申请实施例通过确定两个数据表中列数据之间的关联程度,基于表征该关联程度的关联特征维度参数确定两个数据表之间的关联关系,可以使得数据表关联关系的确定更加方便有效,从而可以基于数据表之间的关联关系实现对数据的处理。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1是本申请的一个实施例数据表关联关系的确定方法的流程示意图。所述方法包括以下步骤。
S102:获取第一数据表的列名对应的第一数据。
在S102中,在确定数据表之间的关联关系时,以确定第一数据表和第二数据表的关联关系为例,可以获取第一数据表的列名对应的第一数据,以及第二数据表的列名对应的第二数据。
第一数据表的列名可以包括多个,在获取第一数据表的列名对应的第一数据时,可以获取第一数据表中所有列名对应的第一数据。第二数据表的列名也可以包括多个,在获取第二数据表的列名对应的第二数据时,也可以获取第二数据表中所有列名对应的第二数据。
在一个典型的应用场景中,若第一数据表存储在数据库或数据仓库中,则,获取第一数据表的列名对应的第一数据,可以包括以下步骤:
首先,获取第一数据表的表名。
本实施例中,表名可以用于区别不同的数据表,在确定第一数据表与第二数据表是否存在关联关系时,可以获取第一数据表的表名。
其次,根据第一数据表的表名,从数据结构表中获取第一数据表的列名。
本实施例中,在将第一数据表存储至数据库或数据仓库后,可以将第一数据表的表名和第一数据表的列名对应存储在数据结构表中,以便基于数据结构表中的表名和列名在数据库或数据仓库中查询数据。
这样,在确定第一数据表与第二数据表是否存在关联关系,并获取到第一数据表的表名后,可以第一数据表的表名,从数据结构表中获取到第一数据表的列名。
需要说明的是,数据结构表还可以存储其他数据表的表名和列名,这样,在确定其他数据表之间的关联关系时,在已知其他数据表的表名的情况下,可以从数据结构表中获取对应的列名。
最后,根据第一数据表的列名,从数据库中获取第一数据表的列名对应的第一数据。
这里的数据库也可以是数据仓库,其中可以存储第一数据表以及其他多个数据表。在得到第一数据表的列名后,可以基于列名在数据库中查询,从而得到第一数据表的列名对应的第一数据。
应理解,若第二数据表也存储在数据库或数据仓库中,那么,在获取第二数据表的列名对应的第二数据时,也可以通过上述记载的方法获取得到,详细过程这里不再重复描述。
在得到第一数据表的列名对应的第一数据和第二数据表的列名对应的第二数据后,可以执行S104。
S104:基于所述第一数据和所述第二数据,确定关联特征维度参数。
本实施例中,关联特征维度参数可以表征第一数据表的第一数据与第二数据表的第二数据之间的关联程度。
需要说明的是,考虑到实际应用中,两个数据表之间的关联关系通常是针对两个数据表中的列数据而言的,因此,在本实施例中,根据第一数据和第二数据确定的关联特征维度参数可以包含M*N个关联特征维度值,其中,第i*j个关联特征维度值可以基于第一数据表的第i列第一数据与第二数据表的第j列第二数据确定得到,可以表征第一数据表的第i列第一数据与第二数据表的第j列第二数据的关联程度,其中,i为大于零小于等于M的整数,j为大于零小于等于N的整数。
在基于第一数据和第二数据,确定包含上述M*N个关联特征维度值的关联特征维度参数时,可以包括以下步骤:
确定第一数据表的第i列第一数据在第二数据表的第j列第二数据中的出现频率;
将所述出现频率确定为第i*j个关联特征维度值;
基于第i*j个关联特征维度值,得到所述关联特征维度参数。
具体地,由于i为大于零小于M的整数,j为大于零小于N的整数,因此,上述确定关联特征维度参数的过程是一个循环的过程,循环的参数为i和j。具体循环过程如下:
当i等于1时,j从1循环至N,确定第一数据表的第1列第一数据分别在第二数据表的第1列至第N列第二数据中的出现频率,将该出现频率确定为第1至N个关联特征维度值;
当i等于2时,j从1循环至N,确定第一数据表的第2列第一数据分别在第二数据表的第1列至第N列第二数据中的出现频率,将该出现频率确定为第N+1至2N个关联特征维度值;
……;
当i等于M时,j从1循环至N,确定第一数据表的第M列第一数据分别在第二数据表的第1列至第N列第二数据中的出现频率,将该出现频率确定为第(M-1)N+1至M*N个关联特征维度值。
基于这M*N个关联特征维度值,就可以得到关联特征维度参数,其中,关联特征维度值的取值范围为[0,1]。
在上述循环过程中,在确定第一数据表的第i列第一数据在第二数据表的第j列第二数据中的出现频率时,具体可以包括以下步骤:
首先,针对第i列第一数据中的每行目标数据,判断该目标数据是否在第j列第二数据中出现。
例如,针对第i列第一数据中的第1行数据,判断其是否在第j列第二数据中的某一行出现;针对第2行数据,判断其是否在第j列第二数据中的某一行出现,……,以此类推,针对最后一行数据,判断其是否在第j列第二数据中的某一行出现。
其次,根据判断结果确定第一数值,该第一数据表征在第j列第二数据中出现的目标数据的个数。
例如,若第i列第一数据中的第1行数据和第3行数据在第j列第二数据中出现,则确定第i列第一数据在第j列第二数据中出现的目标数据的个数为2,即第一数值为2。
最后,将第一数值与第二数值的比值确定为第i列第一数据在第j列第二数据中的出现频率。
其中,第二数值为确定第i列第一数据在第j列第二数据中的出现频率时的判断次数,具体可以等于第i列第一数据的行数。
为了便于理解上述确定关联特征维度参数的整个过程,以下可以以表1和表2为例进行说明。
表1
C1 C2 C3 C4 C5
aadsfa word fd 123 1234
basdca wood fdsa 321 asdf
阿斯蒂芬 mother fggh 456 jjj
表2
Figure BDA0001988558240000081
Figure BDA0001988558240000091
本实施例中,上述表1可以视为第一数据表,表2可以视为第二数据表,其中,表1包含5列数据,可以分别由C1、C2、C3、C4和C5表示,每列数据包含3行数据,表2包含3列数据,可以分别由X1、X2和X3表示,每列也包含3行数据。
在基于表1中的数据与表2中的数据,确定关联特征维度参数时,具体步骤如下:
首先,针对表1的C1列数据,可以确定C1列数据在表2的X1列数据中的出现概率。
具体地,可以预先设置两个变量a和b,a表示C1列数据的每行数据在X1列数据中出现的次数,b表示判断是否出现的次数。
针对C1列第1行数据aadsfa,判断其是否在X1列数据的某一行出现。其中,基于表2的X1列数据可知,C1列第1行数据aadsfa没有在X1列数据的某一行出现,此时,a为0,b为1;
针对C1列第2行数据basdca,判断其是否在X1列数据的某一行出现。其中,基于表2的X1列数据可知,C1列第2行数据basdca也没有在X1列数据的某一行出现,此时,a为0,b为2;
针对C1列第3行数据阿斯蒂芬,判断其是否在X1列数据的某一行出现。其中,基于表2的X1列数据可知,C1列第3行数据阿斯蒂芬也没有在X1列数据的某一行出现,此时,a为0,b为3。
由此可知,C1列数据在表2的X1列数据中的出现概率为0/3=0。
在得到C1列数据在表2的X1列数据中的出现概率后,该出现概率即为C1列数据和X1列数据对应的关联特征维度值,该关联特征维度值可以表征C1列数据和X1列数据的关联程度。
其次,基于相同的方法确定C1列数据在表2的X2列数据中的出现概率,以及C1列数据在表2的X3列数据中的出现概率。
基于表2中X2列数据和X3列数据可以得到,C1列数据在X2列数据中的出现概率为0,C1列数据在X3列数据中的出现概率也为0。即C1列数据和X2列数据对应的关联特征维度值为0,C1列数据和X3列数据对应的关联特征维度值为0。
至此,可以得到表1的C1列数据与表2的各列数据对应的关联特征维度值,分别为0,0,0。
最后,基于相同的方法,可以得到表1的C2列数据与表2的各列数据对应的关联特征维度值,分别为0.6666,0,0;表1的C3列数据与表2的各列数据对应的关联特征维度值,分别为0,0,0;表1的C4列数据与表2的各列数据对应的关联特征维度值,分别为0,1,0;表1的C5列数据与表2的各列数据对应的关联特征维度值,分别为0,0,0。
这样,针对表1和表2中的数据,可以得到15个关联特征维度值,这15个关联特征维度值即为表1与表2的关联特征维度参数。
在基于上述记载的方法确定关联特征维度参数后,可以执行S106。
这里需要说明的是,在得到关联特征维度参数后,为了便于后续方便地确定第一数据表与第二数据表之间的关联关系,还可以将关联特征维度参数中包含的多个关联特征维度值以数据表的形式进行存储。其中,若第一数据表的列数为M,第二数据表的列数为N,那么,可以将关联特征维度参数中M*N个关联特征维度值存储在M行N列的数据表中,或者,也可以存储在N行M列的数据表中。
若将M*N个关联特征维度值存储值M行N列的数据表中,则,该数据表中的第i行第j列的关联特征维度值用于表征第一数据表的第i列第一数据与第二数据表的第j列第二数据之间的关联程度;若将M*N个关联特征维度值存储值N行M列的数据表中,则,该数据表中的第i行第j列的关联特征维度值用于表征第一数据表的第j列第一数据与第二数据表的第i列第二数据之间的关联程度。
以上述表1和表2得到的15个关联特征维度值为例,可以将15个关联特征维度值存储在5行3列的数据表中,如表3所示。图3所示的数据表中包含列名和行名,列名可以由表2的列名表示,行名可以由表1的列名表示,其中,第i行第j列的关联特征维度值表征表1第i列数据与表2第j列数据之间的关联程度。
表3
X1 X2 X3
C1 0 0 0
C2 0.6666 0 0
C3 0 0 0
C4 0 1 0
C5 0 0 0
也可以将15个关联特征维度值存储在3行5列的数据表中,如表4所示。图4所示的数据表中包含列名和行名,列名可以由表1的列名表示,行名可以由表2的列名表示,其中,第i行第j列的关联特征维度值表征表1第j列数据与表2第i列数据之间的关联程度。
表4
C1 C2 C3 C4 C5
X1 0 0.6666 0 0 0
X2 0 0 0 1 0
X3 0 0 0 0 0
S106:基于所述关联特征维度参数,确定所述第一数据表和所述第二数据表的关联关系。
在S106中,在基于S104中的关联特征维度参数,确定第一数据表和第二数据表是否存在关联关系时,可以判断该关联特征维度参数中是否包含大于零的关联特征维度值。
若包含,则可以说明,第一数据表中的某列某行第一数据在第二数据表中出现,即第一数据表与第二数据表存在相同的数据,此时,可以确定第一数据表和第二数据表之间存在关联关系。
若不包含,则可以说明,第一数据表中的第一数据没有在第二数据表中出现,即第一数据表与第二数据表不存在相同的数据,此时,可以确定第一数据表和第二数据表之间不存在关联关系。
本实施例中,在确定第一数据表和第二数据表存在关联关系时,若关联特征维度参数中的第i*j个关联特征维度值大于零,则可以进一步确定,第i*j个关联特征维度值对应的第一数据表中的第i列第一数据与第二数据表中的第j列第二数据存在关联关系。
此外,若第i*j个关联特征维度值等于1,则,可以说明,第一数据表的第i列第一数据与第二数据表的第j列第二数据完全相同,此时,可以进一步确定第i列第一数据与第j列第二数据之间存在完整的关联关系。
以上述表1和表2对应的15个关联特征维度值为例。
已知这15个关联特征维度值中包含两个大于零的关联特征维度值,则可以说明表1和表2存在关联关系。其中,C2列数据和X1列数据对应的关联特征维度值为0.6666,C4列数据和X2列数据对应的关联特征维度值为1,则可以进一步确定表1中的C2列数据与表2中的X1列数据之间存在关联关系,表1中的C4列数据与表2中的X2列数据之间存在完整的关联关系。
本申请实施例提供的技术方案,在确定第一数据表和第二数据表之间是否存在关联关系时,获取第一数据表的列名对应的第一数据,以及第二数据表的列名对应的第二数据;基于第一数据和第二数据,确定关联特征维度参数,该关联特征维度参数可以表征第一数据与第二数据的关联程度;基于该关联特征维度参数确定第一数据表和第二数据表是否存在关联关系。这样,通过确定两个数据表中列数据之间的关联程度,基于表征该关联程度的关联特征维度参数确定两个数据表之间是否存在关联关系,可以使得数据表关联关系的确定更加方便有效,从而可以基于数据表之间的关联关系实现对数据的处理。
为了便于理解整个技术方案,可以参见图2。图2是本申请的一个实施例数据表关联关系的确定方法的流程示意图。图2所示的实施例可以包括以下步骤:
S201:获取第一数据表的表名以及第二数据表的表名。
在需要确定第一数据表与第二数据表之间是否存在关联关系时,可以获取两个数据表的表名。
S202:根据第一数据表的表名获取第一数据表的列名,以及根据第二数据表的表名获取第二数据表的列名。
本实施例中,数据结构表中可以存储有多个数据表的表名以及该多个数据表的列名,这样,可以根据第一数据表的表名和第二数据表的表名,从数据结构表中获取到第一数据表的列名和第二数据表的列名。
S203:根据第一数据表的列名获取第一数据表的列名对应的第一数据,以及根据第二数据表的列名获取第二数据表的列名对应的第二数据。
可以根据第一数据表的列名,从数据库或数据仓库中获取第一数据,根据第二数据表的列名,从数据库或数据仓库中获取第二数据。
需要说明的是,上述获取第一数据和获取第二数据的操作,可以同时进行,也可以分开进行,本实施例不做具体限定。
S204:确定第一数据表的第i列第一数据在第二数据表的第j列第二数据中的出现频率。
S204中,i为大于零小于等于M的整数,j为大于零小于等于N的整数,其中,M为第一数据表的列数,N为第二数据表的列数。
S204为循环执行的步骤,循环变量为i和j。具体过程可以参见图1所示实施例中记载的相应内容,这里不再重复描述。
在确定出现概率时,以确定第一数据表的第1列第一数据在第二数据表的第1列第二数据中的出现概率为例,具体地:
针对第1列第一数据中的每行目标数据,确定其是否在第1列第二数据的某行中出现,并确定在第1列第二数据中出现的目标数据的个数,将该个数与第1列第一数据的行数的比值,确定为第1列第一数据在第1列第二数据中的出现概率。
S205:将第i列第一数据在第j列第二数据中的出现频率确定为第i*j个关联特征维度值。
S206:基于第i*j个关联特征维度值,得到关联特征维度参数。
在S206中,由于i和j是循环变量,因此,在整个循环过程结束后,可以得到M*N个关联特征维度值,这M*N个关联特征维度值即为第一数据和第二数据之间的关联特征维度参数。
S207:判断关联特征维度参数中是否包含大于零的关联特征维度值。
若包含,则可以执行S208,否则,可以说明第一数据表与第二数据表之间不存在关联关系,并执行S209。
S208:确定第一数据表与第二数据表存在关联关系。
其中,若关联特征维度参数中第i*j个关联特征维度值大于零,则可以进一步说明,第一数据表中的第i列第一数据与第二数据表中的第j列第二数据之间存在关联关系,此外,若第i*j个关联特征维度值等于1,则还可以进一步说明,第i列第一数据与第j列第二数据之间存在完整的关联关系。
S209:结束。
本申请实施例在确定数据表之间是否存在关联关系时,通过确定数据表中列数据之间的关联程度,并基于表征该关联程度的关联特征维度参数,确定数据表之间是否存在关联关系,使得数据表关联关系的确定更加方便有效,从而可以基于数据表之间的关联关系实现对数据的处理。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
图3是本申请的一个实施例电子设备的结构示意图。请参考图3,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成数据表关联关系的确定装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取第一数据表的列名对应的第一数据,以及第二数据表的列名对应的第二数据;
基于所述第一数据和所述第二数据,确定关联特征维度参数,所述关联特征维度参数表征所述第一数据与所述第二数据的关联程度;
基于所述关联特征维度参数,确定所述第一数据表和所述第二数据表是否存在关联关系。
上述如本申请图3所示实施例揭示的数据表关联关系的确定装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central ProcessingUnit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1和图2的方法,并实现数据表关联关系的确定装置在图1和图2所示实施例中的功能,本申请实施例在此不再赘述。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1和图2所示实施例的方法,并具体用于执行以下操作:
获取第一数据表的列名对应的第一数据,以及第二数据表的列名对应的第二数据;
基于所述第一数据和所述第二数据,确定关联特征维度参数,所述关联特征维度参数表征所述第一数据与所述第二数据的关联程度;
基于所述关联特征维度参数,确定所述第一数据表和所述第二数据表是否存在关联关系。
图4是本申请的一个实施例数据表关联关系的确定装置40的结构示意图。请参考图4,在一种软件实施方式中,所述数据表关联关系的确定装置40可包括:获取单元41、第一确定单元42和第二确定单元43,其中:
获取单元41,获取第一数据表的列名对应的第一数据,以及第二数据表的列名对应的第二数据;
第一确定单元42,基于所述第一数据和所述第二数据,确定关联特征维度参数,所述关联特征维度参数表征所述第一数据与所述第二数据的关联程度;
第二确定单元43,基于所述关联特征维度参数,确定所述第一数据表和所述第二数据表是否存在关联关系。
可选地,所述关联特征维度参数中包括M*N个关联特征维度值,其中:
M为所述第一数据表的列数,N为所述第二数据表的列数,第i*j个关联特征维度值基于所述第一数据表的第i列第一数据与所述第二数据表的第j列第二数据确定得到,用于表征所述第一数据表的第i列第一数据与所述第二数据表的第j列第二数据的关联程度,i为大于零小于等于M的整数,j为大于零小于等于N的整数。
可选地,所述第一确定单元41,基于所述第一数据和所述第二数据,确定关联特征维度参数,包括:
确定所述第一数据表的第i列第一数据在所述第二数据表的第j列第二数据中的出现频率;
将所述出现频率确定为第i*j个关联特征维度值;
基于所述第i*j个关联特征维度值,得到所述关联特征维度参数。
可选地,所述第一确定单元41,确定所述第一数据表的第i列第一数据在所述第二数据表的第j列第二数据中的出现频率,包括:
针对所述第i列第一数据中的每行目标数据,判断所述目标数据是否在所述第j列第二数据中出现;
根据判断结果确定第一数值,所述第一数值表征在所述第j列第二数据中出现的目标数据的个数;
将所述第一数值与第二数值的比值确定为所述出现频率,所述第二数值为所述目标数据的行数。
可选地,所述第二确定单元42,基于所述关联特征维度参数,确定所述第一数据表与所述第二数据表是否存在关联关系,包括:
判断所述关联特征维度参数中是否包含大于零的关联特征维度值;
若是,则确定所述第一数据表和所述第二数据表存在关联关系。
可选地,所述第一数据表和所述第二数据表存在关联关系,包括:
若第i*j个关联特征维度值大于零,则所述第一数据表中第i列第一数据与所述第二数据表中第j列第二数据存在关联关系,其中,若第i*j个关联特征维度值等于1,则所述第一数据表中第i列第一数据与所述第二数据表中第j列第二数据存在完整的关联关系。
可选地,所述数据表关联关系的确定装置40还包括存储单元44,其中:
所述存储单元44,在所述第一确定单元41确定关联特征维度参数后,将所述关联特征维度参数中包括的M*N个关联特征维度值以数据表的形式进行存储。
可选地,所述获取单元41,获取第一数据表的列名对应的第一数据,包括:
获取所述第一数据表的表名;
根据所述表名,从数据结构表中获取所述第一数据表的列名,所述数据结构表中存储有多个数据表的表名以及所述多个数据表的列名;
根据所述第一数据表的列名,从数据库中获取所述第一数据表的列名对应的第一数据。
本申请实施例提供的数据表关联关系的确定装置40还可执行图1和图2的方法,并实现数据表关联关系的确定装置在图1和图2所示实施例的功能,本申请实施例在此不再赘述。
总之,以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (10)

1.一种数据表关联关系的确定方法,包括:
获取第一数据表的列名对应的第一数据,以及第二数据表的列名对应的第二数据;
基于所述第一数据和所述第二数据,确定关联特征维度参数,所述关联特征维度参数表征所述第一数据与所述第二数据的关联程度,所述关联特征维度参数中包括M*N个关联特征维度值,其中:M为所述第一数据表的列数,N为所述第二数据表的列数,第i*j个关联特征维度值基于所述第一数据表的第i列第一数据与所述第二数据表的第j列第二数据确定得到,用于表征所述第一数据表的第i列第一数据与所述第二数据表的第j列第二数据的关联程度,i为大于零小于等于M的整数,j为大于零小于等于N的整数;
基于所述关联特征维度参数,确定所述第一数据表和所述第二数据表是否存在关联关系。
2.如权利要求1所述的方法,基于所述第一数据和所述第二数据,确定关联特征维度参数,包括:
确定所述第一数据表的第i列第一数据在所述第二数据表的第j列第二数据中的出现频率;
将所述出现频率确定为第i*j个关联特征维度值;
基于所述第i*j个关联特征维度值,得到所述关联特征维度参数。
3.如权利要求2所述的方法,确定所述第一数据表的第i列第一数据在所述第二数据表的第j列第二数据中的出现频率,包括:
针对所述第i列第一数据中的每行目标数据,判断所述目标数据是否在所述第j列第二数据中出现;
根据判断结果确定第一数值,所述第一数值表征在所述第j列第二数据中出现的目标数据的个数;
将所述第一数值与第二数值的比值确定为所述出现频率,所述第二数值为所述目标数据的行数。
4.如权利要求1所述的方法,基于所述关联特征维度参数,确定所述第一数据表与所述第二数据表是否存在关联关系,包括:
判断所述关联特征维度参数中是否包含大于零的关联特征维度值;
若是,则确定所述第一数据表和所述第二数据表存在关联关系。
5.如权利要求4所述的方法,所述第一数据表和所述第二数据表存在关联关系,包括:
若第i*j个关联特征维度值大于零,则所述第一数据表中第i列第一数据与所述第二数据表中第j列第二数据存在关联关系,其中,若第i*j个关联特征维度值等于1,则所述第一数据表中第i列第一数据与所述第二数据表中第j列第二数据存在完整的关联关系。
6.如权利要求1所述的方法,在确定关联特征维度参数后,所述方法还包括:
将所述关联特征维度参数中包括的M*N个关联特征维度值以数据表的形式进行存储。
7.如权利要求1所述的方法,获取第一数据表的列名对应的第一数据,包括:
获取所述第一数据表的表名;
根据所述表名,从数据结构表中获取所述第一数据表的列名,所述数据结构表中存储有多个数据表的表名以及所述多个数据表的列名;
根据所述第一数据表的列名,从数据库中获取所述第一数据表的列名对应的第一数据。
8.一种数据表关联关系的确定装置,包括:
获取单元,获取第一数据表的列名对应的第一数据,以及第二数据表的列名对应的第二数据;
第一确定单元,基于所述第一数据和所述第二数据,确定关联特征维度参数,所述关联特征维度参数表征所述第一数据与所述第二数据的关联程度,所述关联特征维度参数中包括M*N个关联特征维度值,其中:M为所述第一数据表的列数,N为所述第二数据表的列数,第i*j个关联特征维度值基于所述第一数据表的第i列第一数据与所述第二数据表的第j列第二数据确定得到,用于表征所述第一数据表的第i列第一数据与所述第二数据表的第j列第二数据的关联程度,i为大于零小于等于M的整数,j为大于零小于等于N的整数;
第二确定单元,基于所述关联特征维度参数,确定所述第一数据表和所述第二数据表是否存在关联关系。
9.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,该可执行指令在被执行时使该处理器执行以下操作:
获取第一数据表的列名对应的第一数据,以及第二数据表的列名对应的第二数据;
基于所述第一数据和所述第二数据,确定关联特征维度参数,所述关联特征维度参数表征所述第一数据与所述第二数据的关联程度,所述关联特征维度参数中包括M*N个关联特征维度值,其中:M为所述第一数据表的列数,N为所述第二数据表的列数,第i*j个关联特征维度值基于所述第一数据表的第i列第一数据与所述第二数据表的第j列第二数据确定得到,用于表征所述第一数据表的第i列第一数据与所述第二数据表的第j列第二数据的关联程度,i为大于零小于等于M的整数,j为大于零小于等于N的整数;
基于所述关联特征维度参数,确定所述第一数据表和所述第二数据表是否存在关联关系。
10.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下方法:
获取第一数据表的列名对应的第一数据,以及第二数据表的列名对应的第二数据;
基于所述第一数据和所述第二数据,确定关联特征维度参数,所述关联特征维度参数表征所述第一数据与所述第二数据的关联程度,所述关联特征维度参数中包括M*N个关联特征维度值,其中:M为所述第一数据表的列数,N为所述第二数据表的列数,第i*j个关联特征维度值基于所述第一数据表的第i列第一数据与所述第二数据表的第j列第二数据确定得到,用于表征所述第一数据表的第i列第一数据与所述第二数据表的第j列第二数据的关联程度,i为大于零小于等于M的整数,j为大于零小于等于N的整数;
基于所述关联特征维度参数,确定所述第一数据表和所述第二数据表是否存在关联关系。
CN201910172606.6A 2019-03-07 2019-03-07 一种数据表关联关系的确定方法和装置 Active CN110032564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910172606.6A CN110032564B (zh) 2019-03-07 2019-03-07 一种数据表关联关系的确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910172606.6A CN110032564B (zh) 2019-03-07 2019-03-07 一种数据表关联关系的确定方法和装置

Publications (2)

Publication Number Publication Date
CN110032564A CN110032564A (zh) 2019-07-19
CN110032564B true CN110032564B (zh) 2023-07-14

Family

ID=67235835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910172606.6A Active CN110032564B (zh) 2019-03-07 2019-03-07 一种数据表关联关系的确定方法和装置

Country Status (1)

Country Link
CN (1) CN110032564B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182071B (zh) * 2020-12-02 2021-04-06 零犀(北京)科技有限公司 数据关联关系挖掘方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9529830B1 (en) * 2016-01-28 2016-12-27 International Business Machines Corporation Data matching for column-oriented data tables
CN107515886A (zh) * 2016-06-17 2017-12-26 阿里巴巴集团控股有限公司 一种数据表的识别方法、装置和系统
CN108038135A (zh) * 2017-11-21 2018-05-15 平安科技(深圳)有限公司 电子装置、多表关联查询的方法及存储介质
CN109144997A (zh) * 2018-06-11 2019-01-04 玖富金科控股集团有限责任公司 数据关联方法、装置及存储介质
CN109241068A (zh) * 2018-08-22 2019-01-18 中国平安人寿保险股份有限公司 前后台数据比对的方法、装置及终端设备
CN109325055A (zh) * 2018-08-02 2019-02-12 阿里巴巴集团控股有限公司 业务关联数据表的筛选及核对方法、装置、电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9529830B1 (en) * 2016-01-28 2016-12-27 International Business Machines Corporation Data matching for column-oriented data tables
CN107515886A (zh) * 2016-06-17 2017-12-26 阿里巴巴集团控股有限公司 一种数据表的识别方法、装置和系统
CN108038135A (zh) * 2017-11-21 2018-05-15 平安科技(深圳)有限公司 电子装置、多表关联查询的方法及存储介质
CN109144997A (zh) * 2018-06-11 2019-01-04 玖富金科控股集团有限责任公司 数据关联方法、装置及存储介质
CN109325055A (zh) * 2018-08-02 2019-02-12 阿里巴巴集团控股有限公司 业务关联数据表的筛选及核对方法、装置、电子设备
CN109241068A (zh) * 2018-08-22 2019-01-18 中国平安人寿保险股份有限公司 前后台数据比对的方法、装置及终端设备

Also Published As

Publication number Publication date
CN110032564A (zh) 2019-07-19

Similar Documents

Publication Publication Date Title
CN108846749B (zh) 一种基于区块链技术的分片化的交易执行系统及方法
CN109271611B (zh) 一种数据校验方法、装置及电子设备
CN110061930B (zh) 一种数据流量的限制、限流值的确定方法和装置
CN110751515A (zh) 一种基于用户消费行为的决策方法和装置、电子设备及存储介质
CN111898380A (zh) 文本匹配方法、装置、电子设备及存储介质
CN111488371A (zh) 一种数据查询方法和装置
CN112598321A (zh) 一种风险防控方法、系统及终端设备
CN110232156B (zh) 基于长文本的信息推荐方法及装置
CN110032564B (zh) 一种数据表关联关系的确定方法和装置
CN109345081B (zh) 一种数据采集方法、装置及电子设备
CN108228869B (zh) 一种文本分类模型的建立方法及装置
CN115827903A (zh) 媒体信息的违规检测方法、装置、电子设备及存储介质
CN115129791A (zh) 一种数据压缩存储方法、装置及设备
CN113486109A (zh) 异构数据库的数据同步方法、装置及电子设备
CN110059135B (zh) 一种数据同步方法和装置
CN113064930A (zh) 数据仓库的冷热数据识别方法、装置及电子设备
CN111459937A (zh) 数据表关联方法、装置、服务器及存储介质
CN110866085A (zh) 数据反馈方法与装置
CN115658732A (zh) 一种sql语句的优化查询方法、装置、电子设备及介质
CN110059563B (zh) 一种文本处理方法和装置
CN113641708B (zh) 规则引擎的优化方法、数据匹配方法及装置、存储介质、终端
CN114840762A (zh) 推荐内容确定方法、装置和电子设备
CN110750271B (zh) 服务聚合、聚合服务的执行方法、装置和电子设备
CN111461892B (zh) 用于风险识别模型的衍生变量选择方法和装置
CN114463068A (zh) 一种数据处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201019

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

Effective date of registration: 20201019

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant before: Advanced innovation technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant