CN108776673B - 关系模式的自动转换方法、装置及存储介质 - Google Patents
关系模式的自动转换方法、装置及存储介质 Download PDFInfo
- Publication number
- CN108776673B CN108776673B CN201810498633.8A CN201810498633A CN108776673B CN 108776673 B CN108776673 B CN 108776673B CN 201810498633 A CN201810498633 A CN 201810498633A CN 108776673 B CN108776673 B CN 108776673B
- Authority
- CN
- China
- Prior art keywords
- attribute
- distance
- value
- attributes
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种关系模式的自动转换方法、装置及存储介质,能够在关系模式转换过程中完成空值补全,提高数据质量。所述方法包括:基于预设的属性距离计算方法,确定源关系模式的每个属性与目标关系模式的每个属性之间的相似度,构建第一属性相似度矩阵;基于属性距离计算方法,为源关系模式包括的每个属性构建预测模型,预测模型用于通过与该属性关系密切的其他属性的值来预测该属性的值;扫描源关系模式对应的数据表中的缺失值;根据缺失值对应属性的预测模型,预测缺失值的取值,并通过预测的取值补全数据表;根据第一属性相似度矩阵,将源关系模式补全后的数据映射到目标关系模式。
Description
技术领域
本公开涉及计算机技术领域,具体地,涉及一种关系模式的自动转换方法、装置及存储介质。
背景技术
信息技术的飞速发展,催生了大数据时代的到来。在各行各业的领域里面,都积累了PB(Petabyte,数据存储容量单位)规模以上的数据。数据的积累来源非常丰富,包括工业大数据,遥测数据,社交网络数据,时间数据与位置数据,文本数据,车载信息服务数据等等。可以看到,各行各业都深刻的被大数据影响和改变着。
伴随着大数据而来的一个重大的问题就是数据质量的问题。由于各种条件,比如传输条件,采集条件,历史条件,输入错误,系统故障等等不可避免的因素,会带来的数据缺失或者数据之间相互矛盾的事情,导致了数据质量的大幅度下降。大量的研究表明,在全球财富1000强的企业中,超过百分之二十五的企业信息系统中存在着数据的错误,缺失或者歧义。数据的缺失或者歧义,严重的降低了数据的使用价值。这个问题,随着数据规模的进一步增加越来越严重。如何在有限的资源条件下,低成本的改进大数据的质量,成为当前社会的一个重要课题。
ETL(Extract-Transform-Load,数据仓库技术),用来描述将数据从源端经过抽取(Extract)、转换(Transform),加载(Load)至目的端的过程。ETL是构建数据仓库的一个重要的环节,将数据从各种源端经过转换以特定格式加载到目的端,会极大的提高数据的可用性,提高数据的质量。为后续的应用,数据价值的挖掘提供了重要的保证。ETL技术受到了当前社会的广泛关注,关于ETL过程的理论和实用技术的研究层出不穷。ETL技术的改进,必将对当今社会的产生极其广泛和深远的影响。
在ETL过程中,一个极其常见和重要的问题就是关系模式的转换。关系模式的转换,即把一个关系模式映射到另一个关系模式,在现有的数据迁移,web(互联网总称)数据处理,企业信息价值挖掘的场景中应用非常的普遍。关系模式的转换,通常而言是由人手动匹配和进行的,而由手动匹配的关系模式转换,易于出错,繁琐并且浪费时间。因此研究自动的关系模式转换,就显得越来越重要。目前面向关系模式的转换已有大量的研究,但是这些研究还存在改进的空间,主要表现在以下两个方面:
1、大部分关系模式的转换是针对特定领域的,对于通用的智能关系模式的自动转换的准确率远远不够。
2、关系模式转换的工作仅仅围绕着转换,转换的过程并没有对数据质量问题进行改进,数据质量的改进要通过一个单独的数据清洗过程,费时费力,对于大规模的数据,这个问题会显得更加的严重甚至无法完成。
发明内容
本公开的目的是提供一种关系模式的自动转换方法、装置及存储介质,能够在关系模式转换过程中完成空值补全,提高数据质量。
根据本公开实施例的第一方面,提供一种关系模式的自动转换方法,包括:
基于预设的属性距离计算方法,确定源关系模式的每个属性与目标关系模式的每个属性之间的相似度,构建第一属性相似度矩阵;
基于所述属性距离计算方法,为所述源关系模式包括的每个属性构建预测模型,所述预测模型用于通过与该属性关系密切的其他属性的值来预测该属性的值;
扫描所述源关系模式对应的数据表中的缺失值;
根据所述缺失值对应属性的预测模型,预测所述缺失值的取值,并通过预测的取值补全所述数据表;
根据所述第一属性相似度矩阵,将所述源关系模式补全后的数据映射到所述目标关系模式。
可选的,属性距离包括属性名称的语言学要素之间的距离、属性名称的语义之间的距离、属性所对应的类型之间的距离、及属性注释之间的距离,所述属性距离计算方法包括以下计算属性类型之间的距离的步骤:
根据要计算属性类型之间的距离的两个属性在预设属性数据库中是否属于合法类型、是否属于同一大类、是否属于同一小类、以及在属于同一小类时两个类型在所述预设属性数据库中的间隔距离,进行分步计分;
根据计分结果确定所述两个属性所对应的类型之间的距离。
可选的,基于所述属性距离计算方法,为所述源关系模式包括的每个属性构建预测模型,包括:
基于所述属性距离计算方法,为所述源关系模式包括的任两个属性计算相似度,并构建所述源关系模式的第二属性相似度矩阵;
根据所述第二属性相似度矩阵,为所述源关系模式包括的每个属性选出多个距离最小的属性;
对每个属性以及针对该属性选出的多个属性进行特征编码;
对编码后的向量进行特征扩展以及特征压缩;
将压缩后的特征数据输入到目标模型中进行训练,以得到每个属性的预测模型。
可选的,根据所述缺失值对应属性的预测模型,预测所述缺失值的取值,包括:
根据所述第二属性相似度矩阵,确定与所述缺失值对应属性距离最小的多个属性;
基于与所述缺失值对应属性距离最小的多个属性,构建模型输入数据并输入所述缺失值对应属性的预测模型,以得到模型输出值;
反向解码所述模型输出值,以得到预测的所述缺失值的取值。
可选的,在得到预测的所述缺失值的取值之后,还包括:
根据所述缺失值所属属性的类型对应的取值范围,检查所述缺失值的取值是否符合要求。
可选的,在根据所述相似度,将所述源关系模式补全后的数据映射到所述目标关系模式之后,还包括:
根据数据的类型,验证所述源关系模式转换到所述目标关系模式的有效性。
根据本公开实施例的第二方面,提供一种关系模式的自动转换装置,包括:
第一构建模块,用于基于预设的属性距离计算方法,确定源关系模式的每个属性与目标关系模式的每个属性之间的相似度,构建第一属性相似度矩阵;
第二构建模块,用于基于所述属性距离计算方法,为所述源关系模式包括的每个属性构建预测模型,所述预测模型用于通过与该属性关系密切的其他属性的值来预测该属性的值;
扫描模块,用于扫描所述源关系模式对应的数据表中的缺失值;
预测模块,用于根据所述缺失值对应属性的预测模型,预测所述缺失值的取值,并通过预测的取值补全所述数据表;
数据映射模块,用于根据所述第一属性相似度矩阵,将所述源关系模式补全后的数据映射到所述目标关系模式。
可选的,属性距离包括属性名称的语言学要素之间的距离、属性名称的语义之间的距离、属性所对应的类型之间的距离、及属性注释之间的距离,所述装置还包括属性距离计算模块,
所述属性距离计算模块用于:
根据要计算属性类型之间的距离的两个属性在预设属性数据库中是否属于合法类型、是否属于同一大类、是否属于同一小类、以及在属于同一小类时两个类型在所述预设属性数据库中的间隔距离,进行分步计分;
根据计分结果确定所述两个属性所对应的类型之间的距离。
可选的,所述第二构建模块包括:
构建子模块,用于基于所述属性距离计算方法,为所述源关系模式包括的任两个属性计算相似度,并构建所述源关系模式的第二属性相似度矩阵;
属性选取模块,用于根据所述第二属性相似度矩阵,为所述源关系模式包括的每个属性选出多个距离最小的属性;
编码模块,用于对每个属性以及针对该属性选出的多个属性进行特征编码;
压缩模块,用于对编码后的向量进行特征扩展以及特征压缩;
训练模块,用于将压缩后的特征数据输入到目标模型中进行训练,以得到每个属性的预测模型。
可选的,所述预测模块包括:
确定模块,用于根据所述第二属性相似度矩阵,确定与所述缺失值对应属性距离最小的多个属性;
输出值获得模块,用于基于与所述缺失值对应属性距离最小的多个属性,构建模型输入数据并输入所述缺失值对应属性的预测模型,以得到模型输出值;
反向解码模块,用于反向解码所述模型输出值,以得到预测的所述缺失值的取值。
可选的,所述装置还包括:
检查模块,用于在得到预测的所述缺失值的取值之后,根据所述缺失值所属属性的类型对应的取值范围,检查所述缺失值的取值是否符合要求。
可选的,所述装置还包括:
验证模块,用于在根据所述相似度,将所述源关系模式补全后的数据映射到所述目标关系模式之后,根据数据的类型,验证所述源关系模式转换到所述目标关系模式的有效性。
根据本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述方法的步骤。
本公开实施例中,可以基于预设的属性距离计算方法,确定源关系模式的每个属性与目标关系模式的每个属性之间的相似度,构建第一属性相似度矩阵。同时,基于该属性距离计算方法,为所述源关系模式包括的每个属性构建预测模型,预测模型可以用于通过与该属性关系密切的其他属性的值来预测该属性的值。在转换前,可以扫描源关系模式对应的数据表中的缺失值,然后根据缺失值对应属性的预测模型,预测缺失值的取值,并通过预测的取值补全所述数据表,再根据第一属性相似度矩阵,将源关系模式补全后的数据映射到目标关系模式。可见,在关系模式的自动转换中,可以自动发掘和生成特定的规则,完成缺失数据的补全和歧义数据的消除,设计一套智能化的匹配策略和算法,并且让这个算法适用于大规模的数据集。从而可以简单高效的提高数据的质量,进一步提高大数据的可用性,为发掘数据的价值打下铺垫。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种关系模式的自动转换方法的流程图。
图2是根据一示例性实施例示出的神经网络模型的示意图。
图3是根据一示例性实施例示出的一种关系模式的自动转换装置的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
图1是根据一示例性实施例示出的一种关系模式的自动转换方法的流程图,如图1所示,该关系模式的自动转换方法可以应用于计算机中,包括以下步骤。
步骤S11:基于预设的属性距离计算方法,确定源关系模式的每个属性与目标关系模式的每个属性之间的相似度,构建第一属性相似度矩阵;
步骤S12:基于所述属性距离计算方法,为所述源关系模式包括的每个属性构建预测模型,所述预测模型用于通过与该属性关系密切的其他属性的值来预测该属性的值;
步骤S13:扫描所述源关系模式对应的数据表中的缺失值;
步骤S14:根据所述缺失值对应属性的预测模型,预测所述缺失值的取值,并通过预测的取值补全所述数据表;
步骤S15:根据所述第一属性相似度矩阵,将所述源关系模式补全后的数据映射到所述目标关系模式。
属性距离可以包括下述四种距离中的一种或多种:Distance(attribute namelinguistics),属性名称的语言学要素之间的距离;Distance(attribute namesemantic),属性名称的语义之间的距离;Distance(attribute type),属性所对应的类型之间的距离;Distance(attribute comment),属性注释(如果有)之间的距离。
预设的属性距离计算方法可以用来计算属性距离,以下将对属性距离的计算方式进行说明,比如可以通过以下程序进行属性距离的计算,应当理解,后文所述的程序均可以根据具体实现运行于不同的平台上,比如采用Java(计算机编程语言)语言实现,则运行在Java虚拟机中。
Distance(attribute name linguistics):
d1=Levenshtein Distance or Jaro_Winkler
Distance(attribute name semantic)
d2=Word2Vec&Cosine Distance
Distance(attribute type)
d3=分步计分策略
Distance(attribute comment)
d4=Doc2Vec&Cosine Distance
可选的,用于计算属性类型之间的距离的分步计分策略可以包括以下步骤:根据要计算属性类型之间的距离的两个属性在预设属性数据库中是否属于合法类型、是否属于同一大类、是否属于同一小类、以及在属于同一小类时两个类型在所述预设属性数据库中的间隔距离,进行分步计分;根据计分结果确定所述两个属性所对应的类型之间的距离。
即,通过两个属性所对应的存储类型,来推断两个属性在类型上的相近程度,可以使用了一个分步计分的方式来计算两个属性的类型距离。通过调研了数据库中的常用类型。把数据库常用类型划分为三个大类和八个小类,每个小类中,按照逻辑取值范围的大小排定了顺序,并给每个类型分配了一个id(见表1所示)。当要判定两个类型的相似度时,通过一个分步计分的策略。总分值分配为4个部分(比如x1,x2,x3,x4,四个部分之和为总分100分,四个部分具体的值可根据实际需求进行调整),根据以下情况计分。
表1:数据类型表
1如果两个类型都是表里所列的合法类型:记上x1分;
2如果两个类型同属于一个大类:记上x2分;
3如果两个类型同属于一个小类:记上x3分;
4同属于一个小类中(即同为整数、浮点数,文本型,二进制文本型,日期和时间混合型),根据这两个类型id差值的远近(及取值范围的大小,由表中id确定)成正比的x4分;
5最后进行归一化的处理,从而对应为两个属性的类型相似度。
在各类属性距离均计算完成后,可以把属性距离映射成为属性的相似度,设计了如下距离相似度映射函数:
f(x)=1/(x+1),x为两个属性之间的距离
可以通过加权的方式综合上述四种属性距离的相似度,最终可以构建成第一相似度矩阵,比如记为m(A,B),其中的A和B表示要计算相似度的两个属性,算法过程如下所示:
总的来说,本公开通过两大过程来实现关系模式的自动转换,第一,进行基于加权打分机制的关系模式的匹配(对应步骤S11);第二,采用带有质量保障的ETL转换算法进行数据转换(对应步骤S12-S15)。
上述的第二个过程又可分为三个流程,第一个流程是模型训练(对应步骤S12),在这个阶段中,将会为数据表中的每个属性构建一个模型,该模型可以通过与这个属性关联密切的其他属性来推断这个属性可能的取值。第二个流程是空值补全(对应步骤S13-S14),在这个阶段中,将会扫描源数据表进行处理,在遇到缺失值时,将会通过第一阶段已训练好的模型来推断缺失值的取值。第三个流程是模式转换流程(对应步骤S15),在这个阶段中,将会为源模式和目标模式之间的属性建立映射关系,完成数据的转换和输出。
可选的,在模型训练阶段,基于所述属性距离计算方法,为所述源关系模式包括的每个属性构建预测模型,包括:基于所述属性距离计算方法,为所述源关系模式包括的任两个属性计算相似度,并构建所述源关系模式的第二属性相似度矩阵;根据所述第二属性相似度矩阵,为所述源关系模式包括的每个属性选出多个距离最小的属性;对每个属性以及针对该属性选出的多个属性进行特征编码;对编码后的向量进行特征扩展以及特征压缩;将压缩后的特征数据输入到目标模型中进行训练,以得到每个属性的预测模型。
即,模型训练阶段(过程伪代码如下所示),首先会通过上文的加权打分机制的匹配算法,为源模式的属性之间构建第二属性相似度矩阵,然后将会对这个矩阵逐行基于相似度值的大小按照降序的方式进行排序,为每个属性选出若干个距离最小的属性,对这个属性以及其关联属性进行特征编码,然后对编码后的向量进行特征扩展,特征压缩,之后将会把压缩后的特征数据输入到模型中进行训练,最后将会把这个属性的名称和其对应的模型以(key,value)对的方式进行存储。
模型训练阶段伪代码:
以下将对模型训练阶段设计到的相关技术进行说明。
一、对属性进行特征编码、解码,即特征向量化方法:
1、离散型属性向量化
对该离散值所出现的所有取值构建一个字典表,每个取值分配一个id(所有的id是连续的整数序列)。
编码时:当输入该离散值进行编码时,返回其对应的id作为编码。
解码时:通过其id,反向解析其取值即可。
2、连续型属性向量化
对于连续值,因为连续值的处理方便易于比较,所以直接返回该值作为编码。
3、文本型属性向量化
文本型属性的编码主要采用TF-IDF(Term Frequency-Inverse DocumentFrequency,词频-逆文本频率)向量化的方式。以该属性文本的所有取值做为语料,通过分词得到语料库的词汇列表。
编码时:对于每个文本,假设该文本包含n个词汇:w1,w2,…,wn;每个词汇对应的词汇列表的id为:id1,id2,…,idn;每个词汇对应的tfidf值为:t1,t2,…,tn;设该词汇列表长度为N,则该文本对应的向量编码为一个n维向量,idx位对应的值为tx,其余的位置为0。存储的时候采用稀疏向量存储的方式如下[(id1,t1),(id2,t2),…]。
解码时:计算待解码向量和语料库中所有文本的向量的余弦相似度,该值最大的语料库中的向量对应的文本作为解码后的结果。
4、日期型属性特征向量化
对于YEAR类型:直接使用年份数字;
对于DATE类型:YYYY-MM-DD编码后的的向量对应为(YYYY,MM,DD),解码使用该规则反向映射即可;
对于TIME类型:HH:MM:SS编码后对应的向量为(HH,MM,SS),解码使用该规则反向映射即可;
对于DATETIME和TIMESTAMP类型:YYYY-MM-DD HH:mm:SS编码后的对应向量为(YYYY,MM,DD,HH,mm,SS),解码使用该规则反向映射即可。
二、特征扩展方法
根据特征属性与待预测属性的相似性进行特征的重复,以使不同相似度可以在模型体现不同影响力,相似度越高影响力越高。设计了如下的扩展函数。
f(s)=ks*s其中,s为两个特征的相似度,k为可变参数。
三、特征压缩和去噪方法
采用DAE模型(如图2所示)来进行压缩和去噪。DAE模型是一个深层神经网络,目标为逼近恒等函数,每层的节点数量从输入层到输出层经历了一个由深到浅再入深的一个过程,通过对恒等函数的逼近,能够获取输入向量中共有的模式特点,离群的将被排除,从而起到降噪的一个作用。同时,由于隐藏层节点的个数小于输入节点的个数,因此我们选择了中间层的输出作为下一步模型输入的特征,从而起到特征向量压缩的作用。
四、模型选择
选择了BP(Back Propagation,网络模型)神经网络作为数据补全的目标模型,该模型适合处理高维数据。
可选的,在空值(即缺失值)补全阶段,根据所述缺失值对应属性的预测模型,预测所述缺失值的取值,包括:根据所述第二属性相似度矩阵,确定与所述缺失值对应属性距离最小的多个属性;基于与所述缺失值对应属性距离最小的多个属性,构建模型输入数据并输入所述缺失值对应属性的预测模型,以得到模型输出值;反向解码所述模型输出值,以得到预测的所述缺失值的取值。
空值补全阶段(过程伪代码如下所示)将会扫描整个数据表,当遇到空值的时候,仍然从第二属性相似度矩阵中选择与其距离最小的若干个属性(与上述模型训练阶段选择的策略相同),然后以该属性的名称查找到其对应的模型,以训练时相同的策略构建模型的输入数据,通过该模型给出这个值得预测,然后解压缩,反向解码模型的预测输出,还原其真实取值。最后进行输出值的范围检查,完成补全操作。
空值补全阶段伪代码:
可选的,在得到预测的所述缺失值的取值之后,还可以包括:根据所述缺失值所属属性的类型对应的取值范围,检查所述缺失值的取值是否符合要求。即,对于某个缺失值,通过模型给出预测向量以后,需要根据该属性的类型对应的取值范围,检查该预测值是否符合要求。
对于离散型:若无id与预测值对应,则选取原数据表中该属性出现最多的值作为预测;若有,则直接预测该id所对应的取值。
对于连续型:如果没有范围要求,或者没有超出范围要求,则直接输出该值,否则输出取值范围的中位数。
对于String类型:永远输出余弦相似度最高的一个向量所对应的文本。
对于日期和时间类型:若模型预测输出的向量解析成日期后,超出了日期每个字段的合法取值范围,则随机选取该字段的一个取值作为输出。
完成空值补全后,进入模式转换阶段,算法伪代码如下所示,即完成数据的在源模式和目标模式之间的映射过程。首先,会基于步骤S11构建的第一属性相似度矩阵,为每个属性选择距离最小的属性建立映射关系,最后完成数据的转换和存储操作。
数据转换阶段伪代码:
Build similarity matrix with source schema and target schema
mapping attribute with the smallest distance
mapping and store the data
可选的,在根据所述相似度,将所述源关系模式补全后的数据映射到所述目标关系模式之后,还包括:根据数据的类型,验证所述源关系模式转换到所述目标关系模式的有效性。
一、属性正确与否的判定规则
1、数值型属性的匹配:
根据数据集中该类型属性的最大最小值确定该属性的取值区间长度L,算法的预测值为t,真实值为T,则若t属于[T-p*L,T+p*L],则判定预测正确,否则判定预测错误,其中p属于[0,1]为根据实际数据集确定的参数。
2、类别型属性的匹配:
若最后算法的预测值与该值取值相同,则判定正确,否则,判定预测错误。
3、较特殊的长文本:
计算预测值对应的编码向量和真实值对应的编码向量,若两个向量的余弦相似度大于p则判定预测正确,否则预测错误,其中p为根据经验确定的阈值。
4、日期型属性的匹配:
对于DATETIME和TIMESTAMP类型:转化为Unix时间戳,采取和数值类型属性相似的策略,若预测值在对应的范围内,则判定正确,否则判定错误。
对于YEAR和Date类型,相等判定为正确,否则判定为预测错误
对于TIME类型:转换为基于当天的秒数,采取和数值类型相似的匹配策略,若预测值落在对应的范围内,则判定为正确,否则判定为错误。
二、算法验证试验设计
选取一个完整的数据集,经过随机删除得到一个带有空值的数据表。经过随机删除程序后,仍然完整的记录数据作为训练集,带有缺失值得数据作为测试集。通过考察模式在测试集上预测数据的正确率可以最终判定算法的好坏程度
通过以上技术方案,本发明创造性的把关系模式转换过程划分为两个阶段,基于加权打分机制的关系模式匹配阶段和具有质量保证的ETL转换阶段,在第一个阶段中构造了相似性矩阵,从而为第二阶段的空值推导模型和数据映射做铺垫,第二阶段创造性的设计了特征的一系列处理方法,从而构建出有效的推导模型。本公开能够在源数据表中带有空值的情况下完成模式的转换工作,在转换的过程中可以完成空值的补全操作,补全率和正确率均比较高。
请参见图3,基于同一发明构思,本公开实施例提供一种关系模式的自动转换装置300,该装置300可以包括:
第一构建模块301,用于基于预设的属性距离计算方法,确定源关系模式的每个属性与目标关系模式的每个属性之间的相似度,构建第一属性相似度矩阵;
第二构建模块302,用于基于所述属性距离计算方法,为所述源关系模式包括的每个属性构建预测模型,所述预测模型用于通过与该属性关系密切的其他属性的值来预测该属性的值;
扫描模块303,用于扫描所述源关系模式对应的数据表中的缺失值;
预测模块304,用于根据所述缺失值对应属性的预测模型,预测所述缺失值的取值,并通过预测的取值补全所述数据表;
数据映射模块305,用于根据所述第一属性相似度矩阵,将所述源关系模式补全后的数据映射到所述目标关系模式。
可选的,属性距离包括属性名称的语言学要素之间的距离、属性名称的语义之间的距离、属性所对应的类型之间的距离、及属性注释之间的距离,所述装置300还包括属性距离计算模块,
所述属性距离计算模块用于:
根据要计算属性类型之间的距离的两个属性在预设属性数据库中是否属于合法类型、是否属于同一大类、是否属于同一小类、以及在属于同一小类时两个类型在所述预设属性数据库中的间隔距离,进行分步计分;
根据计分结果确定所述两个属性所对应的类型之间的距离。
可选的,所述第二构建模块302包括:
构建子模块,用于基于所述属性距离计算方法,为所述源关系模式包括的任两个属性计算相似度,并构建所述源关系模式的第二属性相似度矩阵;
属性选取模块,用于根据所述第二属性相似度矩阵,为所述源关系模式包括的每个属性选出多个距离最小的属性;
编码模块,用于对每个属性以及针对该属性选出的多个属性进行特征编码;
压缩模块,用于对编码后的向量进行特征扩展以及特征压缩;
训练模块,用于将压缩后的特征数据输入到目标模型中进行训练,以得到每个属性的预测模型。
可选的,所述预测模块304包括:
确定模块,用于根据所述第二属性相似度矩阵,确定与所述缺失值对应属性距离最小的多个属性;
输出值获得模块,用于基于与所述缺失值对应属性距离最小的多个属性,构建模型输入数据并输入所述缺失值对应属性的预测模型,以得到模型输出值;
反向解码模块,用于反向解码所述模型输出值,以得到预测的所述缺失值的取值。
可选的,所述装置300还包括:
检查模块,用于在得到预测的所述缺失值的取值之后,根据所述缺失值所属属性的类型对应的取值范围,检查所述缺失值的取值是否符合要求。
可选的,所述装置300还包括:
验证模块,用于在根据所述相似度,将所述源关系模式补全后的数据映射到所述目标关系模式之后,根据数据的类型,验证所述源关系模式转换到所述目标关系模式的有效性。
基于同一发明构思,本公开实施例还提供一种计算机,包括:
非临时性计算机可读存储介质;以及一个或者多个处理器,用于执行所述非临时性计算机可读存储介质中的程序;所述非临时性计算机可读存储介质中存储有用于执行上述关系模式的自动转换方法的指令。
在本公开所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非临时性计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以对本公开的技术方案进行了详细介绍,但以上实施例的说明只是用于帮助理解本公开的方法及其核心思想,不应理解为对本公开的限制。本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本公开的保护范围之内。
Claims (10)
1.一种关系模式的自动转换方法,其特征在于,所述方法包括:
基于预设的属性距离计算方法,确定源关系模式的每个属性与目标关系模式的每个属性之间的相似度,构建第一属性相似度矩阵;
基于所述属性距离计算方法,为所述源关系模式包括的每个属性构建预测模型,所述预测模型用于通过与对应属性关系密切的其他属性的值来预测该属性的值;
扫描所述源关系模式对应的数据表中的缺失值;
根据所述缺失值对应属性的预测模型,预测所述缺失值的取值,并通过预测的取值补全所述数据表;
根据所述第一属性相似度矩阵,将所述源关系模式补全后的数据映射到所述目标关系模式。
2.根据权利要求1所述的方法,其特征在于,属性距离包括属性名称的语言学要素之间的距离、属性名称的语义之间的距离、属性所对应的类型之间的距离、及属性注释之间的距离,所述属性距离计算方法包括以下计算属性类型之间的距离的步骤:
根据要计算属性类型之间的距离的两个属性在预设属性数据库中是否属于合法类型、是否属于同一大类、是否属于同一小类、以及在属于同一小类时两个类型在所述预设属性数据库中的间隔距离,进行分步计分;
根据计分结果确定所述两个属性所对应的类型之间的距离。
3.根据权利要求2所述的方法,其特征在于,基于所述属性距离计算方法,为所述源关系模式包括的每个属性构建预测模型,包括:
基于所述属性距离计算方法,为所述源关系模式包括的任两个属性计算相似度,并构建所述源关系模式的第二属性相似度矩阵;
根据所述第二属性相似度矩阵,为所述源关系模式包括的每个属性选出多个距离最小的属性;
对每个属性以及针对该属性选出的多个属性进行特征编码;
对编码后的向量进行特征扩展以及特征压缩;
将压缩后的特征数据输入到目标模型中进行训练,以得到每个属性的预测模型。
4.根据权利要求3所述的方法,其特征在于,根据所述缺失值对应属性的预测模型,预测所述缺失值的取值,包括:
根据所述第二属性相似度矩阵,确定与所述缺失值对应属性距离最小的多个属性;
基于与所述缺失值对应属性距离最小的多个属性,构建模型输入数据并输入所述缺失值对应属性的预测模型,以得到模型输出值;
反向解码所述模型输出值,以得到预测的所述缺失值的取值。
5.根据权利要求4所述的方法,其特征在于,在得到预测的所述缺失值的取值之后,还包括:
根据所述缺失值所属属性的类型对应的取值范围,检查所述缺失值的取值是否符合要求。
6.根据权利要求1-5任一所述的方法,其特征在于,在根据所述相似度,将所述源关系模式补全后的数据映射到所述目标关系模式之后,还包括:
根据数据的类型,验证所述源关系模式转换到所述目标关系模式的有效性。
7.一种关系模式的自动转换装置,其特征在于,所述装置包括:
第一构建模块,用于基于预设的属性距离计算方法,确定源关系模式的每个属性与目标关系模式的每个属性之间的相似度,构建第一属性相似度矩阵;
第二构建模块,用于基于所述属性距离计算方法,为所述源关系模式包括的每个属性构建预测模型,所述预测模型用于通过与对应属性关系密切的其他属性的值来预测该属性的值;
扫描模块,用于扫描所述源关系模式对应的数据表中的缺失值;
预测模块,用于根据所述缺失值对应属性的预测模型,预测所述缺失值的取值,并通过预测的取值补全所述数据表;
数据映射模块,用于根据所述第一属性相似度矩阵,将所述源关系模式补全后的数据映射到所述目标关系模式。
8.根据权利要求7所述的装置,其特征在于,属性距离包括属性名称的语言学要素之间的距离、属性名称的语义之间的距离、属性所对应的类型之间的距离、及属性注释之间的距离,所述装置还包括属性距离计算模块,
所述属性距离计算模块用于:
根据要计算属性类型之间的距离的两个属性在预设属性数据库中是否属于合法类型、是否属于同一大类、是否属于同一小类、以及在属于同一小类时两个类型在所述预设属性数据库中的间隔距离,进行分步计分;
根据计分结果确定所述两个属性所对应的类型之间的距离。
9.根据权利要求8所述的装置,其特征在于,所述第二构建模块包括:
构建子模块,用于基于所述属性距离计算方法,为所述源关系模式包括的任两个属性计算相似度,并构建所述源关系模式的第二属性相似度矩阵;
属性选取模块,用于根据所述第二属性相似度矩阵,为所述源关系模式包括的每个属性选出多个距离最小的属性;
编码模块,用于对每个属性以及针对该属性选出的多个属性进行特征编码;
压缩模块,用于对编码后的向量进行特征扩展以及特征压缩;
训练模块,用于将压缩后的特征数据输入到目标模型中进行训练,以得到每个属性的预测模型。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810498633.8A CN108776673B (zh) | 2018-05-23 | 2018-05-23 | 关系模式的自动转换方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810498633.8A CN108776673B (zh) | 2018-05-23 | 2018-05-23 | 关系模式的自动转换方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108776673A CN108776673A (zh) | 2018-11-09 |
CN108776673B true CN108776673B (zh) | 2020-08-18 |
Family
ID=64027497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810498633.8A Active CN108776673B (zh) | 2018-05-23 | 2018-05-23 | 关系模式的自动转换方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108776673B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797860B (zh) * | 2019-04-09 | 2023-09-26 | Oppo广东移动通信有限公司 | 特征提取方法、装置、存储介质及电子设备 |
CN110889286B (zh) * | 2019-10-12 | 2022-04-12 | 平安科技(深圳)有限公司 | 基于数据表的依赖关系识别方法、装置和计算机设备 |
CN111898462B (zh) * | 2020-07-08 | 2023-04-07 | 浙江大华技术股份有限公司 | 对象属性的处理方法、装置、存储介质以及电子装置 |
CN113656694B (zh) * | 2021-08-18 | 2023-07-25 | 中国平安人寿保险股份有限公司 | 基于机器学习的信息推荐方法、装置、设备及存储介质 |
CN113780666B (zh) * | 2021-09-15 | 2024-03-22 | 湖北天天数链技术有限公司 | 一种缺失值的预测方法及装置、可读存储介质 |
WO2023073748A1 (ja) * | 2021-10-25 | 2023-05-04 | 日本電気株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763402A (zh) * | 2009-12-30 | 2010-06-30 | 哈尔滨工业大学 | 多语言信息检索一体化检索方法 |
CN103886080A (zh) * | 2014-03-25 | 2014-06-25 | 中国科学院地理科学与资源研究所 | 一种从互联网非结构化文本提取道路交通信息方法 |
US9140980B2 (en) * | 2010-03-30 | 2015-09-22 | Hoya Corporation | Method of manufacturing a transfer mask and method of manufacturing a semiconductor device |
CN106547853A (zh) * | 2016-10-19 | 2017-03-29 | 北京航天泰坦科技股份有限公司 | 基于一张图的林业大数据建设方法 |
CN106897776A (zh) * | 2017-01-17 | 2017-06-27 | 华南理工大学 | 一种基于名义属性的连续型特征构造方法 |
CN107368540A (zh) * | 2017-06-26 | 2017-11-21 | 北京理工大学 | 基于用户自相似度的多模型相结合的电影推荐方法 |
CN107729900A (zh) * | 2017-09-15 | 2018-02-23 | 广州唯品会研究院有限公司 | 一种利用图片属性提取完成录入信息补全的方法及设备 |
-
2018
- 2018-05-23 CN CN201810498633.8A patent/CN108776673B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763402A (zh) * | 2009-12-30 | 2010-06-30 | 哈尔滨工业大学 | 多语言信息检索一体化检索方法 |
US9140980B2 (en) * | 2010-03-30 | 2015-09-22 | Hoya Corporation | Method of manufacturing a transfer mask and method of manufacturing a semiconductor device |
CN103886080A (zh) * | 2014-03-25 | 2014-06-25 | 中国科学院地理科学与资源研究所 | 一种从互联网非结构化文本提取道路交通信息方法 |
CN106547853A (zh) * | 2016-10-19 | 2017-03-29 | 北京航天泰坦科技股份有限公司 | 基于一张图的林业大数据建设方法 |
CN106897776A (zh) * | 2017-01-17 | 2017-06-27 | 华南理工大学 | 一种基于名义属性的连续型特征构造方法 |
CN107368540A (zh) * | 2017-06-26 | 2017-11-21 | 北京理工大学 | 基于用户自相似度的多模型相结合的电影推荐方法 |
CN107729900A (zh) * | 2017-09-15 | 2018-02-23 | 广州唯品会研究院有限公司 | 一种利用图片属性提取完成录入信息补全的方法及设备 |
Non-Patent Citations (2)
Title |
---|
基于Map-Reduce的大数据缺失值填充算法;金连 等;《计算机研究与发展》;20130815;第50卷(第S1期);312-321 * |
基于子模式的关系数据到图数据ETL方法研究;丁强龙 等;《计算机工程与应用》;20161121;第53卷(第12期);76-84 * |
Also Published As
Publication number | Publication date |
---|---|
CN108776673A (zh) | 2018-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108776673B (zh) | 关系模式的自动转换方法、装置及存储介质 | |
US20220382564A1 (en) | Aggregate features for machine learning | |
US10521441B2 (en) | System and method for approximate searching very large data | |
CN110597844B (zh) | 异构数据库数据统一访问方法及相关设备 | |
CN111985228B (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CA2882280A1 (en) | System and method for matching data using probabilistic modeling techniques | |
CN110969517B (zh) | 一种招投标生命周期关联方法、系统、存储介质及计算机设备 | |
CN112434024A (zh) | 面向关系型数据库的数据字典生成方法、装置、设备及介质 | |
CN113505583B (zh) | 基于语义决策图神经网络的情感原因子句对提取方法 | |
US20170185671A1 (en) | Method and apparatus for determining similar document set to target document from a plurality of documents | |
CN114625748A (zh) | Sql查询语句的生成方法、装置、电子设备及可读存储介质 | |
CN116244333A (zh) | 一种基于代价因子校准的数据库查询性能预测方法及系统 | |
CN110825866A (zh) | 一种基于深度网络和文本相似度的自动问答系统及装置 | |
CN116226681B (zh) | 一种文本相似性判定方法、装置、计算机设备和存储介质 | |
CN112612810A (zh) | 慢sql语句识别方法及系统 | |
CN112328621A (zh) | Sql转换方法、装置、计算机设备及计算机可读存储介质 | |
CN114443783B (zh) | 一种供应链数据分析和增强处理方法及装置 | |
CN114064820B (zh) | 一种基于混合架构的表格语义查询粗排方法 | |
KR101839121B1 (ko) | 사용자 질의 교정 시스템 및 방법 | |
CN113076089A (zh) | 一种基于对象类型的api补全方法 | |
CN111625579A (zh) | 一种信息处理方法、装置及系统 | |
US20230138152A1 (en) | Apparatus and method for generating valid neural network architecture based on parsing | |
CN117390064B (zh) | 一种基于可嵌入子图的数据库查询优化方法 | |
CN117076580A (zh) | 面向关系型数据库实体匹配预测方法、设备及存储设备 | |
KR102541806B1 (ko) | 재구성된 질의를 순위화하기 위한 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |