CN108932268B - 数据处理方法及装置 - Google Patents

数据处理方法及装置 Download PDF

Info

Publication number
CN108932268B
CN108932268B CN201710386802.4A CN201710386802A CN108932268B CN 108932268 B CN108932268 B CN 108932268B CN 201710386802 A CN201710386802 A CN 201710386802A CN 108932268 B CN108932268 B CN 108932268B
Authority
CN
China
Prior art keywords
similarity
column field
reference column
sample
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710386802.4A
Other languages
English (en)
Other versions
CN108932268A (zh
Inventor
刘洋
车文彬
张旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201710386802.4A priority Critical patent/CN108932268B/zh
Publication of CN108932268A publication Critical patent/CN108932268A/zh
Application granted granted Critical
Publication of CN108932268B publication Critical patent/CN108932268B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本申请公开了一种数据处理方法及装置,属于大数据技术领域。所述方法包括:分别获取属于样本数据表的样本列字段与属于至少一个基准数据表的n个基准列字段中的每个基准列字段的相似度集合;根据获取到的n个相似度集合以及每个相似度的预设权重,确定样本列字段对应的初始基准列字段;获取用于指示:样本列字段与初始基准列字段的对应关系的准确度的准确度标签;根据准确度标签和获取到的n个相似度集合,确定每个相似度的目标权重;根据获取到的n个相似度集合以及每个相似度的目标权重,确定样本列字段对应的目标基准列字段。本申请解决了数据处理的效率较低的问题,提高了数据处理的效率,本申请用于数据的处理。

Description

数据处理方法及装置
技术领域
本申请涉及大数据技术领域,特别涉及一种数据处理方法及装置。
背景技术
随着大数据技术的发展,用户能够基于大数据技术对多个样本数据表进行分析,以制定相应的策略。但是,由于多个样本数据表的来源不同,使得多个样本数据表中相同位置的样本列字段的数据的类型不同,因此为了便于用户分析,用户通常需要通过数据处理装置确定每个样本列字段在基准数据表中对应的基准列字段,进而从多个样本数据表中获取同一基准列字段对应的样本列字段中的数据。
相关技术中,数据处理装置在确定样本列字段对应的基准列字段时,采用四种特征提取方法分别提取:样本列字段的四个第一特征集,以及基准数据表中每个基准列字段的四个第二特征集。然后,数据处理装置需要计算采用同一种特征提取算法提取得到的第一特征集与每个第二特征集的相似度,并得到样本列字段与每个基准列字段的相似度集合。最后,数据处理装置需要根据每个相似度的预设权重,确定样本列字段与每个基准列字段的融合相似度,并将与样本列字段的融合相似度最高的基准列字段确定为样本列字段对应的基准列字段。示例的,假设样本列字段的四个第一特征集分别为P1、P2、P3和P4,某一基准列字段的四个第二特征集分别为Q1、Q2、Q3和Q4,采用第一种特征提取方法得到的P1与Q1的相似度为Z1,采用第二种特征提取方法得到的P2与Q2的相似度为Z2,采用第三种特征提取方法得到的P3与Q3的相似度为Z3,采用第四种特征提取方法得到的P4与Q4的相似度为Z4,则样本列字段与该某一基准列字段的相似度集合为{Z1,Z2,Z3,Z4}。若A1、A2、A3和A4分别为相似度Z1、相似度Z2、相似度Z3和相似度Z4的预设权重,则数据处理装置将Z1*A1+Z2*A2+Z3*A3+Z4*A4的结果作为样本列字段与该某一基准列字段的融合相似度。进一步的,在数据处理装置得到样本列字段对应的基准列字段后,用户需要判断样本列字段对应的基准列字段是否准确。如果用户认为样本列字段对应的基准列字段不准确,则用户需要根据经验对数据处理装置中相似度的预设权重(A1、A2、A3和A4)进行调整,并控制数据处理装置根据调整后的权重再次确定样本列字段与每个基准列字段的融合相似度,以及再次确定样本列字段对应的基准列字段,直至用户认为数据处理装置确定的样本列字段对应的基准列字段是准确的。
由于相关技术中,在用户认为样本列字段对应的基准列字段不准确时,用户需要根据经验对数据处理装置中相似度的预设权重进行调整,因此,数据处理的步骤较繁琐,数据处理的效率较低。
发明内容
为了解决数据处理的效率较低的问题,本申请提供了一种数据处理方法及装置。所述技术方案如下:
第一方面,提供了一种数据处理方法,所述方法包括:分别获取属于样本数据表的样本列字段与属于至少一个基准数据表的n个基准列字段中的每个基准列字段的相似度集合,第i个所述相似度集合包括:所述样本列字段的特征集与所述n个基准列字段中的第i个基准列字段的特征集的相似度,n≥i≥1;根据获取到的n个相似度集合以及每个所述相似度的预设权重,确定所述样本列字段在所述n个基准列字段中对应的初始基准列字段;获取准确度标签,所述准确度标签用于指示所述样本列字段与所述初始基准列字段的对应关系的准确度;根据所述准确度标签和获取到的n个相似度集合,确定每个所述相似度的目标权重;根据获取到的n个相似度集合以及每个所述相似度的目标权重,确定所述样本列字段在所述n个基准列字段中对应的目标基准列字段。
也即是,在确定样本列字段在n个基准列字段中对应的初始基准列字段后,还获取了准确度标签;并根据该准确度标签以及获取到的n个相似度集合,自动确定了目标权重,进而重新确定出样本列字段对应的目标基准列字段。也即是,在确定样本列字段对应的目标基准列字段前,用户无需根据经验对相似度的预设权重进行调整,因此,减少了数据处理的步骤,提高了数据处理的效率。
可选的,参考基准列字段为所述n个基准列字段中的任一列字段,所述分别获取属于样本数据表的样本列字段与属于至少一个基准数据表的n个基准列字段中的每个基准列字段的相似度集合,包括:采用m种特征提取方法提取所述样本列字段的m个第一特征集,所述m种特征提取方法与所述m个第一特征集一一对应,采用所述m种特征提取方法中的每种特征提取方法能够提取出对应的一个第一特征集,所述m≥5;采用所述m种特征提取方法提取所述参考基准列字段的m个第二特征集,所述m个第二特征集与所述m个第一特征集一一对应,且每个所述第一特征集与对应的第二特征集均采用同一种特征提取方法提取得到;确定每个所述第一特征集与对应的第二特征集的相似度;确定所述样本列字段与所述参考基准列字段的相似度集合,所述样本列字段与所述参考基准列字段的相似度集合包括:每个所述第一特征集与对应的第二特征集的相似度。也即是,为了尽可能的多提取样本列字段的第一特征集,本申请中的m为大于或等于5的整数,也即是本申请中数据处理装置采用至少五种特征提取方法提取样本列字段的第一特征集,从而能够得到更多的第一特征集。
可选的,所述m个第一特征集包括:所述样本列字段的列特征,以及所述样本列字段所在的数据表的表特征;所述m个第二特征集包括:所述参考基准列字段的列特征,以及所述参考基准列字段所在的数据表的表特征。也即是,本申请中数据处理装置提取出的样本列字段的多个第一特征集中,不仅仅包括样本列字段的列特征(如样本列字段的元数据特征、样本列字段中样本数据的特征),而且还包括样本列字段所在的样本数据表的表特征(如该样本数据表的元数据特征、该样本列字段的元数据特征),从而使得数据处理装置能够提取较多与样本列字段相关的特征,使得得到的m个第一特征集能够更加清楚的描述样本列字段。
可选的,所述准确度标签还用于指示:所述样本列字段与其他基准列字段中的每个基准列字段的非对应关系的准确度,所述其他基准列字段为所述n个基准列字段中除所述初始基准列字段之外的基准列字段,所述根据所述准确度标签和获取到的n个相似度集合,确定每个所述相似度的目标权重,包括:根据所述准确度标签、所述获取到的n个相似度集合以及预设回归公式,确定目标权重矩阵,所述目标权重矩阵为1行m列的矩阵,所述目标权重矩阵中的m个元素分别为:所述m个第一特征集与对应的第二特征集的m个相似度的目标权重;其中,所述预设回归公式为:θ=YXT(XXT)-1,所述θ为所述目标权重矩阵,所述Y为所述准确度标签,所述X为n行m列的矩阵,且所述X中的每行元素包括一个所述相似度集合的元素,所述X中的所有元素包括所述n个相似度集合的元素,XT表示X的转置。数据处理装置在获取到准确度标签和降维处理后的n个相似度集合后,能够根据准确度标签、降维处理后的n个相似度集合以及预设回归公式,确定目标权重矩阵,也即数据处理装置将准确度标签和相似度集合作为自变量,求解因变量目标权重矩阵,从而使得到的目标权重矩阵均准确度标签息息相关。
可选的,所述m种特征提取方法包括:基于N元语法的特征提取方法、基于词向量的特征提取方法、基于数据分布的特征提取方法、基于属性名的特征提取方法、基于数据类型的特征提取方法以及基于最小描述长度的特征提取方法中的至少5种特征提取方法。
可选的,在所述分别获取属于样本数据表的样本列字段与属于至少一个基准数据表的n个基准列字段中的每个基准列字段的相似度集合之后,所述方法还包括:对获取到的每个所述相似度集合进行降维处理,删除每个所述相似度集合中冗余的相似度;所述根据获取到的n个相似度集合以及每个所述相似度的预设权重,确定所述样本列字段在所述n个基准列字段中对应的初始基准列字段,包括:根据降维处理后的所述n个相似度集合以及每个所述相似度的预设权重,确定所述样本列字段在所述n个基准列字段中对应的初始基准列字段;所述根据获取到的n个相似度集合以及每个所述相似度的目标权重,确定所述样本列字段在所述n个基准列字段中对应的目标基准列字段,包括:根据降维处理后的所述n个相似度集合以及每个所述相似度的目标权重,确定所述样本列字段在所述n个基准列字段中对应的目标基准列字段。也即是,数据处理装置通过降维处理对相似度集合进行进一步的精简,以减少后续的计算量,进一步的提高数据处理的速度和效率。
可选的,所述根据获取到的n个相似度集合以及每个所述相似度的预设权重,确定所述样本列字段在所述n个基准列字段中对应的初始基准列字段,包括:根据所述样本列字段与所述每个基准列字段的相似度集合中每个相似度的预设权重,对所述样本列字段与所述每个基准列字段的相似度集合中的相似度进行加权求和,得到所述每个基准列字段对应的第一融合相似度;根据基准列字段对应的第一融合相似度,对所述n个基准列字段进行排序;将所述n个基准列字段中对应的第一融合相似度最高的基准列字段,确定为所述初始基准列字段。
第二方面,提供了一种数据处理装置,所述数据处理装置包括:第一获取模块,用于分别获取属于样本数据表的样本列字段与属于至少一个基准数据表的n个基准列字段中的每个基准列字段的相似度集合,第i个所述相似度集合包括:所述样本列字段的特征集与所述n个基准列字段中的第i个基准列字段的特征集的相似度,n≥i≥1;第一确定模块,用于根据获取到的n个相似度集合以及每个所述相似度的预设权重,确定所述样本列字段在所述n个基准列字段中对应的初始基准列字段;第二获取模块,用于获取准确度标签,所述准确度标签用于指示所述样本列字段与所述初始基准列字段的对应关系的准确度;第二确定模块,用于根据所述准确度标签和获取到的n个相似度集合,确定每个所述相似度的目标权重;第三确定模块,用于根据获取到的n个相似度集合以及每个所述相似度的目标权重,确定所述样本列字段在所述n个基准列字段中对应的目标基准列字段。
可选的,参考基准列字段为所述n个基准数据表中的任一列字段,所述第一获取模块还用于:采用m种特征提取方法提取所述样本列字段的m个第一特征集,所述m种特征提取方法与所述m个第一特征集一一对应,采用所述m种特征提取方法中的每种特征提取方法能够提取出对应的一个第一特征集,所述m≥5;采用所述m种特征提取方法提取所述参考基准列字段的m个第二特征集,所述m个第二特征集与所述m个第一特征集一一对应,且每个所述第一特征集与对应的第二特征集均采用同一种特征提取方法提取得到;确定每个所述第一特征集与对应的第二特征集的相似度;确定所述样本列字段与所述参考基准列字段的相似度集合,所述样本列字段与所述参考基准列字段的相似度集合包括:每个所述第一特征集与对应的第二特征集的相似度。
可选的,所述m个第一特征集包括:所述样本列字段的列特征,以及所述样本列字段所在的数据表的表特征;所述m个第二特征集包括:所述参考基准列字段的列特征,以及所述参考基准列字段所在的数据表的表特征。
可选的,所述准确度标签还用于指示:所述样本列字段与其他基准列字段中的每个基准列字段的非对应关系的准确度,所述其他基准列字段为所述n个基准列字段中除所述初始基准列字段之外的基准列字段,所述第二确定模块还用于:根据所述准确度标签、所述获取到的n个相似度集合以及预设回归公式,确定目标权重矩阵,所述目标权重矩阵为1行m列的矩阵,所述目标权重矩阵中的m个元素分别为:所述m个第一特征集与对应的第二特征集的m个相似度的目标权重;其中,所述预设回归公式为:θ=YXT(XXT)-1,所述θ为所述目标权重矩阵,所述Y为所述准确度标签,所述X为n行m列的矩阵,且所述X中的每行元素包括一个所述相似度集合的元素,所述X中的所有元素包括所述n个相似度集合的元素,XT表示X的转置。
可选的,所述m种特征提取方法包括:基于N元语法的特征提取方法、基于词向量的特征提取方法、基于数据分布的特征提取方法、基于属性名的特征提取方法、基于数据类型的特征提取方法以及基于最小描述长度的特征提取方法中的至少5种特征提取方法。
可选的,所述数据处理装置还包括:处理模块,用于对获取到的每个所述相似度集合进行降维处理,删除每个所述相似度集合中冗余的相似度;所述第一确定模块还用于:根据降维处理后的所述n个相似度集合以及每个所述相似度的预设权重,确定所述样本列字段在所述n个基准列字段中对应的初始基准列字段;所述第二确定模块还用于:根据降维处理后的所述n个相似度集合以及每个所述相似度的目标权重,确定所述样本列字段在所述n个基准列字段中对应的目标基准列字段。
可选的,所述第一确定模块还用于:根据所述样本列字段与所述每个基准列字段的相似度集合中每个相似度的预设权重,对所述样本列字段与所述每个基准列字段的相似度集合中的相似度进行加权求和,得到所述每个基准列字段对应的第一融合相似度;根据基准列字段对应的第一融合相似度,对所述n个基准列字段进行排序;将所述n个基准列字段中对应的第一融合相似度最高的基准列字段,确定为所述初始基准列字段。
第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述计算机可读存储介质在计算机上运行时,使得计算机执行第一方面所述的数据处理方法。
第四方面,提供了一种包含指令的计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行第一方面所述的数据处理方法。
第五方面,提供了一种数据处理装置,所述数据处理装置包括:至少一个处理器、至少一个网络接口、存储器和至少一个通信总线,所述处理器用于执行所述存储器中存储的程序,以实现第一方面所述的数据处理方法。
本申请提供的技术方案带来的有益效果是:
在确定样本列字段在n个基准列字段中对应的初始基准列字段后,还获取了准确度标签;并根据该准确度标签以及获取到的n个相似度集合,自动确定了目标权重,进而确定出样本列字段对应的目标基准列字段。也即是,在重新确定样本列字段对应的基准列字段前,用户无需根据经验对相似度的预设权重进行调整,因此,减少了数据处理的步骤,提高了数据处理的效率。
附图说明
图1为本发明实施例提供的一种数据处理方法的应用场景示意图;
图2为本发明实施例提供的一种数据处理装置的结构示意图;
图3为本发明实施例提供的一种数据处理方法的方法流程图;
图4为本发明实施例提供的一种确定相似度集合的方法流程图;
图5为本发明实施例提供的另一种数据处理装置的结构示意图;
图6为本发明实施例提供的又一种数据处理装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
图1为本发明实施例提供的一种数据处理方法的应用场景示意图,图1示出了四个样本数据表,分别为样本数据表1、样本数据表2、样本数据表3和样本数据表4。每个样本数据表包括至少一个样本列字段。其中,样本数据表1包括样本列字段11、样本列字段12和样本列字段13,样本数据表2包括样本列字段21、样本列字段22和样本列字段23,样本数据表3包括样本列字段31、样本列字段32和样本列字段33,样本数据表4包括样本列字段41、样本列字段42和样本列字段43。图1中的每个列字段均包括样本数据。
示例的,图1中的四个样本数据表中至少存在两个结构不同的样本数据表。例如,样本数据表1的结构与样本数据表2的结构不同,也即是样本数据表1中的某一样本列字段(如样本列字段11)与样本数据表2中的相应的样本列字段(如样本列字段21)为两个不同类型的列字段,如样本列字段11中的样本数据为账号类型,样本列字段21中的样本数据为费用,账号与费用类型不同。
为了便于对样本数据表1和样本数据表2进行分析,需要引入至少一个基准数据表,每个基准数据表包括至少一个基准列字段,至少一个基准数据表共包括n个基准列字段。如图1所示,至少一个基准数据表包括:基准数据表5和基准数据表6,基准数据表5包括基准列字段51和基准列字段52,基准数据表6包括基准列字段61和基准列字段62。因此,图1中的n个基准列字段为四个列字段。本发明实施例提供的数据处理方法用于确定:每个样本列字段在n个的人列字段中对应的列字段。需要说明的是,图1中示出了四个基准列字段,本发明实施例提供的数据处理方法还能够适用于仅存在一个基准列字段的情况,或者存在多于两个基准列字段的情况,本发明实施例对此不作限定。可选的,该样本数据表也称为局点数据表,基准数据表也称为基线数据表。
图2为本发明实施例提供的一种数据处理装置的结构示意图,如图2所示,该数据处理装置包括:至少一个处理器10221(例如中央处理器),至少一个网络接口10222,存储器10223,和至少一个总线10224,总线10224用于实现处理器、网络接口和存储器之间的连接通信;存储器10223与网络接口10222分别通过总线10224与处理器10221相连。处理器10221用于执行存储器10223中存储的可执行模块,例如计算机程序。存储器10223可能包含高速随机存取存储器(英文:RandomAccess Memory;简称:RAM),也可能还包括非不稳定的存储器(英文:non-volatile memory),例如至少一个磁盘存储器。通过至少一个网络接口10222(有线或者无线)实现该数据处理装置与至少一个其他装置之间的通信连接。在一些实施方式中,存储器10223存储了程序10225,程序10225能够被处理器10221执行以实现图3所示的数据处理方法。
图3为本发明实施例提供的一种数据处理方法的方法流程图,如图3所示,该数据处理方法包括:
步骤301、数据处理装置分别获取属于样本数据表的样本列字段与属于至少一个基准数据表的n个基准列字段中的每个基准列字段的相似度集合。
示例的,样本列字段为图1所示的多个样本数据表中的任意一个列字段,假设参考基准列字段为图1所示的n个基准列字段中的任意一个基准列字段。在步骤301中,数据处理装置需要分别确定样本列字段与图1中n个基准列字段中的每个基准列字段的一个相似度集合,数据处理装置确定出的所有相似度集合中,第i个相似度集合包括:样本列字段的特征集与n个基准列字段中第i个列字段的特征集的相似度,n≥1,n≥i≥1。本发明实施例将以参考基准列字段为例,对数据处理装置如何确定样本列字段与参考基准列字段的一个相似度集合进行讲解。图4为本发明实施例提供的一种确定相似度集合的方法流程图,如图4所示,步骤301包括:
步骤3011、数据处理装置采用m种特征提取方法提取样本列字段的m个第一特征集。
数据处理装置需要采用m种特征提取方法分别提取样本列字段的m个第一特征集。需要说明的是,数据处理装置采用一种特征提取方法能够提取得到该样本列字段的一个第一特征集,采用m种特征提取方法就能够提取得到样本列字段的m个第一特征集,也即是m种特征提取方法与m个第一特征集一一对应,采用m种特征提取方法中的每种特征提取方法能够提取出对应的一个第一特征集。
需要说明的是,为了尽可能的多提取样本列字段的第一特征集,本发明实施例中可以选取至少5种特征提取方法提取样本列字段的第一特征集,也即是本发明实施例中的m为大于或等于5的整数。实际应用中,m也能够为小于5的整数,本发明实施例对此不做限定。可选的,m=7,该m种特征提取方法包括:基于N元语法(N-gram)的特征提取方法、基于词向量(word 2vector)的特征提取方法、基于数据分布的特征提取方法、基于属性名的特征提取方法、基于数据类型的特征提取方法以及基于最小描述长度(Minimum descriptionlength,MDL)的特征提取方法。可选的,该基于属性名的特征提取方法为三元(Trigram)组余弦特征提取方法;基于数据类型的特征提取方法为标记词频逆文档频率(tokenizedtermfrequency–inverse document frequency,tokenizedTF-IDF)特征提取方法;基于数据类型的特征提取方法为一种称为Welch’s t-test的特征提取方法,Welch’s t-test能够通过计算多个数据的均值和方差,提取多个数据的数据类型。
可选的,该样本列字段的m个第一特征集包括:样本列字段的列特征,以及样本数据表T(也即样本列字段所在的样本数据表)的表特征。也即是,本发明实施例中数据处理装置提取出的样本列字段的多个第一特征集中,不仅仅包括样本列字段的列特征(如样本列字段的元数据特征、样本列字段中样本数据的特征),而且还包括样本数据表T的表特征(如样本数据表T的元数据特征、该样本列字段的元数据特征),从而使得数据处理装置能够提取较多与样本列字段相关的特征,使得到的m个第一特征集能够更加清楚的描述样本列字段。
可选的,数据处理装置在使用基于N-gram的特征提取方法时,数据处理装置能够采用基于N-gram的特征提取方法提取:样本数据表T的表名的n-gram向量、样本列字段的列名的n-gram向量、样本数据表T的表描述的n-gram向量、样本列字段的列描述的n-gram向量以及样本列字段中的样本数据的n-gram向量。样本数据表T的元数据特征还包括:样本数据表T的表名的n-gram向量和表描述的n-gram向量;样本列字段的元数据特征还包括:样本列字段的列名的n-gram向量和列描述的n-gram向量;样本列字段中样本数据的特征包括:样本列字段中的样本数据的n-gram向量。
例如,采用基于n-gram的特征提取方法提取得到的样本列字段的列名(user_id)的n-gram向量包括:#us、use、ser、er_、r_i、_id和id#。采用n-gram的特征提取方法提取得到的样本数据表T的表名(tb_user_video_record)的n-gram向量包括:#tb、tb_、b_u、_us、use、ser、er_、r_v、_vi、vid、ide、deo、eo_、o_r、_re、rec、eco、cor、ord和rd#。若样本列字段user_id中的样本数据分别为:820589、820690、819375、814803以及816300,则采用基于n-gram的特征提取方法提取得到的样本列字段的样本数据的n-gram向量包括:#82、820、205、058、589、89#、#82、820、206、069、690、90#、#81、819、193、937、375、75#、#81、814、148、480、803、03#、#81、816、163、630、300和00#。
数据处理装置还能够采用基于word 2vector的特征提取方法,对样本数据表T的表名、样本列字段的列名、该样本数据表的表描述、样本列字段的列描述分别进行分词并提取语义特征。样本数据表T的元数据特征还包括:样本数据表T的表名的语义特征和样本数据表T的表描述的语义特征,第一局点列数据的元数据特征还包括:样本列字段的列名的语义特征和样本列字段的列描述的语义特征。
数据处理装置还能够采用基于数据分布的特征提取方法,提取用于表征样本列字段中样本数据的分布状况的特征。样本列字段中样本数据的特征还包括:该用于表征样本列字段的样本数据的分布状况的特征。
数据处理装置还能够采用基于数据类型的特征提取方法,提取用于表征样本列字段中样本数据的数据类型的特征。样本列字段中样本数据的特征还包括:该用于表征样本列字段的样本数据的数据类型的特征。示例的,样本数据的数据类型包括:身份标识(identification,ID)类、维度类、时间类、度量类、描述类等类型。
可选的,数据处理装置在提取样本列字段中样本数据的特征前,还需要对该样本列字段中的样本数据进行预处理,以识别出样本数据中的数字、英文和中文,以便于后续采用特征提取方法提取样本数据的特征。
步骤3012、数据处理装置采用m种特征提取方法提取参考基准列字段的m个第二特征集,m个第二特征集与m个第一特征集一一对应。
本发明实施例中数据处理装置需要使用与提取第一特征集相同的m个特征提取方法提取参考基准列字段的m个第二特征集。该m个第一特征集与m个第二特征集一一对应,且每个第一特征集与对应的第二特征集均采用同一种特征提取方法提取得到。数据处理装置提取第二特征集的具体步骤参考步骤3011中数据处理装置提取第一特征集的具体步骤,本发明实施例在此不做赘述。
可选的,与m个第一特征集相似,步骤3012中得到的m个第二特征集也包括:参考基准列字段的列特征,以及该参考基准列字段所在的基准数据表的表特征。
步骤3013、数据处理装置确定每个第一特征集与对应的第二特征集的相似度。
在得到m个第一特征集和m个第二特征集后,数据处理装置就能够分别确定每个第一特征集与对应的第二特征集的相似度。例如,m个第一特征集包括:P1、P2、P3、P4和P5,m个第二特征集分别为P1对应的Q1、P2对应的Q2、P3对应的Q3、P4对应的Q4以及P5对应的Q5。则在步骤3013中数据处理装置能够根据杰卡德(Jaccard)距离,确定:P1与Q1的相似度Z1,P2与Q2的相似度Z2,P3与Q3的相似度Z3,P4与Q4的相似度Z4,以及P5与Q5的相似度Z5。
需要说明的是,每个特征集均包括至少一个特征,数据处理装置在确定两个特征集的相似度时,首先分别确定两个特征集中每两个特征之间的相似度,进而根据两个特征集中每两个特征之间的相似度得到两个特征集之间的相似度。例如,假设第一特征集P1包括:特征P11和特征P12,第二特征集Q1包括:特征Q11和特征Q12。则数据处理装置需要分别确定:特征P11与特征Q11的相似度D1、特征P11与特征Q12的相似度D2、特征P12与特征Q11的相似度D3以及特征P12与特征Q12的相似度D4,最终数据处理装置将相似度D1、D2、D3和D4求平均值得到P1和Q1的相似度Z1。实际应用中,数据处理装置还能够通过其他的方式得到相似度Z1,本发明实施例对此不做限定。
步骤3014、数据处理装置确定样本列字段与参考基准列字段的相似度集合,样本列字段与参考基准列字段的相似度集合包括:每个第一特征集与对应的第二特征集的相似度。
数据处理装置在得到每个第一特征集与对应的第二特征集的相似度后,能够根据每个第一特征集与对应的第二特征集的相似度,确定样本列字段与参考基准列字段的相似度集合。示例的,该样本列字段与参考基准列字段的相似度集合包括:每个第一特征集与对应的第二特征集的相似度。结合步骤3013中的例子,步骤3014中数据处理装置能够确定样本列字段与参考基准列字段的相似度集合为:{Z1,Z2,Z3,Z4,Z5}。
步骤302、数据处理装置对获取到的每个相似度集合进行降维处理,删除每个相似度集合中冗余的相似度。
可选的,数据处理装置在获取到样本列字段与n个基准列字段中的每个列字段的相似度集合后,需要对获取到的每个相似度集合进行降维处理,删除每个相似度集合中冗余的相似度。也即是,数据处理装置通过降维处理对相似度集合进行进一步的精简,以减少后续的计算量,进一步的提高数据处理的速度和效率。可选的,数据处理装置能够根据预设条件,判断每个相似度集合中的相似度是否符合预设条件,并将每个相似度集合中不符合预设条件的相似度进行删除。实际应用中,数据处理装置还能够采用其他方法对相似度集合进行降维处理,本发明实施例对此不作限定。
进一步的,数据处理装置在对n个相似度集合进行降维处理后,能够根据降维处理后的n个相似度集合得到样本列字段对应的相似度矩阵。该相似度矩阵为n行m列的矩阵,其中,该相似度矩阵中的每行元素为:降维处理后的一个相似度集合中的元素,该相似度矩阵的所有元素包括降维处理后的n个相似度集合的所有元素。
例如,若n等于4,且降维处理后的样本列字段与四个基准列字段的相似度集合分别为:{0.928765,0.097102,0.751350,0.895311}、{0.50107,0.271016,0.022446,0.545173}、{0.252861,0.238535,0.649106,0.591760}以及{0.623330,0.663820,0.498926,0.552286},则该样本列字段对应的相似度矩阵为:
Figure BDA0001306574150000091
步骤303、数据处理装置根据降维处理后的n个相似度集合以及每个相似度的预设权重,确定样本列字段在n个基准列字段中对应的初始基准列字段。
数据处理装置能够根据降维处理后的n个相似度集合,以及每个相似度的预设权重,在n个基准列字段中筛选初始基准列字段。示例的,数据处理装置筛选初始基准列字段的方式多种多样,本发明实施例中对其中的一种方式进行讲解:
示例的,数据处理装置中预先设置有每种特征提取方法对应的预设权重(也即是采用每种特征提取方法提取得到的第一特征集与第二特征集的相似度的预设权重),在步骤303中,首先根据每个降维处理后的相似度集合中每个相似度的预设权重,对每个降维处理后的相似度集合中的相似度进行加权求和,得到n个基准列字段对应的第一融合相似度。例如,假设样本列字段与参考基准列字段的相似度集合为:{Z1,Z2,Z3,Z4,Z5},A1、A2、A3、A4和A5分别为相似度Z1、相似度Z2、相似度Z3、相似度Z4和相似度Z5的预设权重,则数据处理装置将Z1*A1+Z2*A2+Z3*A3+Z4*A4+Z5*A5的结果作为参考基准列字段对应的第一融合相似度(也即是样本列字段与参考基准列字段的第一融合相似度)。可选的,数据处理装置中的预设权重为:用户采用均匀配比的方式预先在数据处理装置中设置的权重,或者用户根据业务经验预先在数据处理装置中设置的权重。
然后,数据处理装置根据n个基准列字段对应的第一融合相似度,对图1中的n个列字段进行排序。例如,基准列字段51对应的第一融合相似度为0.3111,基准列字段52对应的第一融合相似度为0.4111,基准列字段61对应的第一融合相似度为0.4312,基准列字段62对应的第一融合相似度为0.4113,则数据处理装置经过排序得知,基准列字段61对应的第一融合相似度0.4312最高。
最后,数据处理装置将n个基准列字段中,对应的第一融合相似度最高的基准列字段,确定为样本列字段在n个基准列字段中对应的初始基准列字段。例如,数据处理装置将对应的第一融合相似度最高的基准列字段61作为样本列字段对应的初始基准列字段。
步骤304、数据处理装置获取准确度标签。
数据处理装置在确定初始基准列字段后,数据处理装置就能够向用户展示样本列字段在n个基准列字段中对应初始基准列字段,也即展示样本列字段与初始基准列字段的对应关系。此时,用户根据数据处理装置展示的对应关系,基于预设规则判断初始基准列字段与样本列字段是否真的存在对应关系(也即判断初始基准列字段与样本列字段是否真的属于同一种列字段)。进一步的,用户还能够判断样本列字段与其他基准列字段中的每个基准列字段是否真的不存在对应关系,该其他基准列字段为n个基准列字段中除初始基准列字段之外的基准列字段。然后,用户可以根据判断结果向数据处理装置输入准确度标签,该准确度标签用于指示:样本列字段与初始基准列字段的对应关系的准确度,以及样本列字段与其他基准列字段中的每个基准列字段的非对应关系的准确度。
示例的,请结合表1,若n个基准列字段包括:基准列字段51、基准列字段52、基准列字段61和基准列字段62,若数据处理装置输出的初始基准列字段为基准列字段61,用户经过判断发现基准列字段61与样本列字段并不存在对应关系,基准列字段51与样本列字段却存在对应关系,基准列字段52与样本列字段不存在对应关系,基准列字段62与样本列字段不存在对应关系。则用户向数据处理装置输入准确度标签
Figure BDA0001306574150000101
该准确度标签用于指示:数据处理装置确定的样本列字段与基准列字段51的非对应关系是错误的,样本列字段与基准列字段52的非对应关系是正确的,样本列字段与基准列字段61的对应关系是错误的,样本列字段与基准列字段62的非对应关系是正确的。
表1
基准列字段51 基准列字段52 基准列字段61 基准列字段61
数据处理装置 0 0 1 0
准确度标签 0 1 0 1
可选的,若用户发现数据处理装置得到的对应关系和非对应关系均是准确的,则用户无需向数据处理装置输入准确度标签,这样就不会触发数据处理装置执行步骤305和步骤306了。
步骤305、数据处理装置根据准确度标签和降维处理后的n个相似度集合,确定每个相似度的目标权重。
数据处理装置在获取到准确度标签和降维处理后的n个相似度集合后,能够根据准确度标签、降维处理后的n个相似度集合以及预设回归公式,确定目标权重矩阵。也即是,数据处理装置将准确度标签和相似度集合作为自变量,求解因变量目标权重矩阵,从而使得到的目标权重矩阵均准确度标签息息相关。
示例的,目标权重矩阵为1行m列的矩阵,目标权重矩阵中的m个元素分别为:m个第一特征集与对应的第二特征集的m个相似度的目标权重。其中,预设回归公式为:θ=YXT(XXT)-1,θ为目标权重矩阵,Y为准确度标签,X为相似度矩阵,XT表示X的转置。
Figure BDA0001306574150000111
时,经过计算,得到:
θ=[-2.00974 2.74252 2.36009 -0.16734]。也即是,得到的采用四种特征提取方法提取得到的第一特征集与第二特征集的相似度的目标权重分别为:-2.00974、2.74252、2.36009和-0.16734。
需要说明的是,本发明实施例中仅以预设回归公式为θ=YXT(XXT)-1为例,实际应用中,该预设回归公式还能够为其他以准确度标签为自变量以目标权重矩阵为因变量的回归公式,本发明实施例对此不作限定。
步骤306、数据处理装置根据降维处理后的n个相似度集合以及每个相似度的目标权重,确定样本列字段在n个基准列字段中对应的目标基准列字段。
在步骤306中数据处理装置根据降维处理后的n个相似度集合,以及每个相似度的目标权重,在n个基准列字段中筛选目标基准列字段。示例的,筛选目标基准列字段的方式多种多样,本发明实施例中对其中的一种方式进行讲解:
示例的,数据处理装置中预先设置有每种特征提取方法对应的目标权重(也即是采用每种特征提取方法提取得到的第一特征集与第二特征集的相似度的目标权重),在步骤306中,首先根据每个相似度集合中每个相似度的目标权重,对降维处理后的每个相似度集合中的相似度进行加权求和,得到n个基准列字段对应的第二融合相似度。例如,假设样本列字段与参考基准列字段的相似度集合为:{Z1,Z2,Z3,Z4,Z5},A6、A7、A8、A9和A10分别为相似度Z1、相似度Z2、相似度Z3、相似度Z4和相似度Z5的目标权重,则数据处理装置将Z1*A6+Z2*A7+Z3*A8+Z4*A9+Z5*A10的结果作为参考基准列字段对应的第二融合相似度(也即是样本列字段与参考基准列字段的第二融合相似度)。
然后,数据处理装置根据n个基准列字段对应的第二融合相似度,对图1中的n个基准列字段进行排序;例如,基准列字段51对应的第二融合相似度为0.4111,基准列字段52对应的第二融合相似度为0.1111,基准列字段61对应的第二融合相似度为0.3122,基准列字段62对应的第二融合相似度为0.2213,则经过排序得知,基准列字段51对应的第二融合相似度最高。
最后,数据处理装置将n个基准列字段中对应的第二融合相似度最高的基准列字段,确定为样本列字段在n个列字段中对应的目标基准列字段。例如,数据处理装置将对应的第二融合相似度最高的基准列字段51作为样本列字段对应的目标基准列字段。
示例的,某一样本数据表如表2所示,某一基准数据表如表3所示,经过比较得知,该样本数据表中的基准列字段userID对应该基准数据表中的基准列字段usr_ID,该样本数据表中的样本列字段cityID对应该基准数据表中的基准列字段citycode,该样本数据表中的样本列字段userID对应该基准数据表中的基准列字段usr_ID,该样本数据表中的样本列字段genreID对应该基准数据表中的基准列字段Type_ID,且该样本数据表的表名也跟该基准数据表的表名较相似。
表2
Figure BDA0001306574150000121
表3
Figure BDA0001306574150000122
可选的,本发明实施例中数据处理装置以采用m种特征提取方法提取m个第一特征集和m个第二特征集,进而根据m个第一特征集和m个第二特征集确定样本列字段对应的目标基准列字段为例。实际应用中,在步骤301中数据处理装置还能够仅仅采用一种特征提取方法提取样本列字段的一个第一特征集,以及采用该种特征提取方法提取n个第二基准列字段中的每个基准列字段的一个第二特征集;进而确定第一特征集与每个第二特征集的相似度,并确定出仅仅包括第一特征集与每个基准列字段的第二特征集的相似度的样本列字段与每个基准列字段的相似度集合。也即是,步骤301中数据处理装置确定的每个相似度集合仅仅包括一个相似度,且每个相似度对应n个基准列字段中的一个基准列字段。在步骤303中数据处理装置能够将n个基准列字段中的每个列字段对应的相似度乘以相似度的预设权重,得到n个基准列字段中的每个列字段对应的第一融合相似度。在步骤305中,数据处理装置将n个基准列字段中的每个基准列字段对应的相似度乘以相似度的目标权重,得到n个基准列字段中的每个列字段对应的第二融合相似度。
需要说明的是,本发明实施例中仅仅描述了用户根据数据处理装置的处理结果输入一次准确度标签,数据处理装置根据该准确度标签进行了一次重复处理,确定出目标基准列字段。实际应用中,在数据处理装置输出一个目标基准列字段后,用户还能够根据该样本列字段与该目标基准列字段的对应关系,再次输入一个准确度标签,并再次生成目标权重,使得数据处理装置再次输出一个目标基准列字段。也即是,本发明实施例并不对数据处理装置确定目标基准列字段步骤的重复次数进行限定。
示例的,电信技术领域中往往存在较多的样本数据表,如客户、个人客户、集团客户、虚拟集团客户、客户地址、客户联系人、特殊客户与客户经理关系表、集团客户与客户经理关系表、集团客户与虚拟集团关系表等。若存在453个样本数据表,且该453个样本数据表中共存在12526个样本列字段,在数据处理过程中需要使用到的153个基准数据表,且该153个基准数据表共包括3954个基准列字段,也即是,需要在3954个基准列字段中,分别找出12526个样本列字段中的每个样本列字段对应的基准列字段。若用户通过相关技术中的数据处理装置确定12526样本列字段中每个样本列字段在3954个基准列字段中对应的基准列字段,则用户需要多次修改预设权重,用户的工作量非常大,数据处理的速度和效率均较低。而本发明实施例中,由于数据处理装置能够自动根据用户输入的准确度标签,重新生成新的目标权重,使得用户无需根据经验确定目标权重,以及向数据处理装置输入目标权重,因此,加快了数据处理的速度和效率。
综上所述,本发明实施例提供的数据处理方法中,在确定样本列字段在n个基准列字段中对应的初始基准列字段后,还获取了准确度标签;并根据该准确度标签以及获取到的n个相似度集合,自动确定了目标权重,进而确定出样本列字段对应的目标基准列字段。也即是,在重新确定样本列字段对应的基准列字段前,用户无需根据经验对相似度的预设权重进行调整,因此,减少了数据处理的步骤,提高了数据处理的效率。
图5为本发明实施例提供的另一种数据处理装置的结构示意图,如图5所示,该数据处理装置50包括:
第一获取模块501,用于分别获取属于样本数据表的样本列字段与属于至少一个基准数据表的n个基准列字段中的每个基准列字段的相似度集合,第i个所述相似度集合包括:所述样本列字段的特征集与所述n个基准列字段中的第i个基准列字段的特征集的相似度,n≥i≥1;
第一确定模块502,用于根据获取到的n个相似度集合以及每个所述相似度的预设权重,确定所述样本列字段在所述n个基准列字段中对应的初始基准列字段;
第二获取模块503,用于获取准确度标签,准确度标签用于指示样本列字段与初始基准列字段的对应关系的准确度;
第二确定模块504,用于根据所述准确度标签和获取到的n个相似度集合,确定每个所述相似度的目标权重;
第三确定模块505,用于根据获取到的n个相似度集合以及每个所述相似度的目标权重,确定所述样本列字段在所述n个基准列字段中对应的目标基准列字段。
综上所述,本发明实施例提供的数据处理装置中,第一确定模块在确定样本列字段在n个基准列字段中对应的初始基准列字段后,第二获取模块还获取了准确度标签;第二确定模块根据该准确度标签以及获取到的n个相似度集合,自动确定了目标权重,进而第三确定模块确定出样本列字段对应的目标基准列字段。也即是,在重新确定样本列字段对应的基准列字段前,用户无需根据经验对相似度的预设权重进行调整,因此,减少了数据处理的步骤,提高了数据处理的效率。
可选的,参考基准列字段为所述n个基准数据表中的任一列字段,第一获取模块501还用于:
采用m种特征提取方法提取所述样本列字段的m个第一特征集,所述m种特征提取方法与所述m个第一特征集一一对应,采用所述m种特征提取方法中的每种特征提取方法能够提取出对应的一个第一特征集,所述m≥5;
采用所述m种特征提取方法提取所述参考基准列字段的m个第二特征集,所述m个第二特征集与所述m个第一特征集一一对应,且每个所述第一特征集与对应的第二特征集均采用同一种特征提取方法提取得到;
确定每个所述第一特征集与对应的第二特征集的相似度;
确定所述样本列字段与所述参考基准列字段的相似度集合,所述样本列字段与所述参考基准列字段的相似度集合包括:每个所述第一特征集与对应的第二特征集的相似度。
可选的,所述m个第一特征集包括:所述样本列字段的列特征,以及所述样本列字段所在的数据表的表特征;所述m个第二特征集包括:所述参考基准列字段的列特征,以及所述参考基准列字段所在的数据表的表特征。
可选的,准确度标签还用于指示:样本列字段与其他基准列字段中的每个基准列字段的非对应关系的准确度,其他基准列字段为n个基准列字段中除初始基准列字段之外的基准列字段,第二确定模块504还用于:
根据所述准确度标签、所述获取到的n个相似度集合以及预设回归公式,确定目标权重矩阵,所述目标权重矩阵为1行m列的矩阵,所述目标权重矩阵中的m个元素分别为:所述m个第一特征集与对应的第二特征集的m个相似度的目标权重;
其中,所述预设回归公式为:θ=YXT(XXT)-1,所述θ为所述目标权重矩阵,所述Y为所述准确度标签,所述X为n行m列的矩阵,且所述X中的每行元素包括一个所述相似度集合的元素,所述X中的所有元素包括所述n个相似度集合的元素,XT表示X的转置。
可选的,所述m种特征提取方法包括:基于N元语法的特征提取方法、基于词向量的特征提取方法、基于数据分布的特征提取方法、基于属性名的特征提取方法、基于数据类型的特征提取方法以及基于最小描述长度的特征提取方法中的至少5种特征提取方法。
可选的,图6为本发明实施例提供的又一种数据处理装置的结构示意图,如图6所示,在图5的基础上,该数据处理装置50还包括:
处理模块505,用于对获取到的每个相似度集合进行降维处理,删除每个相似度集合中冗余的相似度;
第一确定模块502还用于:根据降维处理后的所述n个相似度集合以及每个所述相似度的预设权重,确定所述样本列字段在所述n个基准列字段中对应的初始基准列字段;
第二确定模块504还用于:根据降维处理后的所述n个相似度集合以及每个所述相似度的目标权重,确定所述样本列字段在所述n个基准列字段中对应的目标基准列字段。
可选的,第一确定模块502还用于:
根据所述样本列字段与所述每个基准列字段的相似度集合中每个相似度的预设权重,对所述样本列字段与所述每个基准列字段的相似度集合中的相似度进行加权求和,得到所述每个基准列字段对应的第一融合相似度;
根据基准列字段对应的第一融合相似度,对所述n个基准列字段进行排序;
将所述n个基准列字段中对应的第一融合相似度最高的基准列字段,确定为所述初始基准列字段。
综上所述,本发明实施例提供的数据处理装置中,第一确定模块在确定样本列字段在n个基准列字段中对应的初始基准列字段后,第二获取模块还获取了准确度标签;第二确定模块根据该准确度标签以及获取到的n个相似度集合,自动确定了目标权重,进而第三确定模块确定出样本列字段对应的目标基准列字段。也即是,在重新确定样本列字段对应的基准列字段前,用户无需根据经验对相似度的预设权重进行调整,因此,减少了数据处理的步骤,提高了数据处理的效率。
在上述实施例中,能够全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,能够全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机能够是通用计算机、计算机网络、或者其他可编程装置。所述计算机指令能够存储在计算机的可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令能够从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心传输。所述计算机可读存储介质能够是计算机能够存取的任何可用介质或者包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质能够是磁性介质(例如,软盘、硬盘、磁带)、光介质,或者半导体介质(例如固态硬盘)等。
本发明实施例提供的数据处理方法实施例能够与数据处理装置实施例互相参考,本申请对此不作限定。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种数据处理方法,其特征在于,所述方法包括:
分别获取属于样本数据表的样本列字段与属于至少一个基准数据表的n个基准列字段中的每个基准列字段的相似度集合,第i个所述相似度集合包括:所述样本列字段的特征集与所述n个基准列字段中的第i个基准列字段的特征集的相似度,所述n≥i≥1;
根据获取到的n个相似度集合以及每个所述相似度的预设权重,确定所述样本列字段在所述n个基准列字段中对应的初始基准列字段;
获取准确度标签,所述准确度标签用于指示:所述样本列字段与所述初始基准列字段的对应关系的准确度;
根据所述准确度标签和获取到的n个相似度集合,确定每个所述相似度的目标权重;
根据获取到的n个相似度集合以及每个所述相似度的目标权重,确定所述样本列字段在所述n个基准列字段中对应的目标基准列字段。
2.根据权利要求1所述的方法,其特征在于,参考基准列字段为所述n个基准列字段中的任一列字段,所述分别获取属于样本数据表的样本列字段与属于至少一个基准数据表的n个基准列字段中的每个基准列字段的相似度集合,包括:
采用m种特征提取方法提取所述样本列字段的m个第一特征集,所述m种特征提取方法与所述m个第一特征集一一对应,采用所述m种特征提取方法中的每种特征提取方法能够提取出对应的一个第一特征集,所述m≥5;
采用所述m种特征提取方法提取所述参考基准列字段的m个第二特征集,所述m个第二特征集与所述m个第一特征集一一对应,且每个所述第一特征集与对应的第二特征集均采用同一种特征提取方法提取得到;
确定每个所述第一特征集与对应的第二特征集的相似度;
确定所述样本列字段与所述参考基准列字段的相似度集合,所述样本列字段与所述参考基准列字段的相似度集合包括:每个所述第一特征集与对应的第二特征集的相似度。
3.根据权利要求2所述的方法,其特征在于,
所述m个第一特征集包括:所述样本列字段的列特征,以及所述样本列字段所在的数据表的表特征;
所述m个第二特征集包括:所述参考基准列字段的列特征,以及所述参考基准列字段所在的数据表的表特征。
4.根据权利要求2所述的方法,其特征在于,所述准确度标签还用于指示:所述样本列字段与其他基准列字段中的每个基准列字段的非对应关系的准确度,所述其他基准列字段为所述n个基准列字段中除所述初始基准列字段之外的基准列字段,所述根据所述准确度标签和获取到的n个相似度集合,确定每个所述相似度的目标权重,包括:
根据所述准确度标签、所述获取到的n个相似度集合以及预设回归公式,确定目标权重矩阵,所述目标权重矩阵为1行m列的矩阵,所述目标权重矩阵中的m个元素分别为:所述m个第一特征集与对应的第二特征集的m个相似度的目标权重;
其中,所述预设回归公式为:θ=YXT(XXT)-1,所述θ为所述目标权重矩阵,所述Y为所述准确度标签,所述X为n行m列的矩阵,且所述X中的每行元素包括一个所述相似度集合的元素,所述X中的所有元素包括所述n个相似度集合的元素,XT表示X的转置。
5.根据权利要求2所述的方法,其特征在于,所述m种特征提取方法包括:
基于N元语法的特征提取方法、基于词向量的特征提取方法、基于数据分布的特征提取方法、基于属性名的特征提取方法、基于数据类型的特征提取方法以及基于最小描述长度的特征提取方法中的至少5种特征提取方法。
6.根据权利要求1或2所述的方法,其特征在于,在所述分别获取属于样本数据表的样本列字段与属于至少一个基准数据表的n个基准列字段中的每个基准列字段的相似度集合之后,所述方法还包括:
对获取到的每个所述相似度集合进行降维处理,删除每个所述相似度集合中冗余的相似度;
所述根据获取到的n个相似度集合以及每个所述相似度的预设权重,确定所述样本列字段在所述n个基准列字段中对应的初始基准列字段,包括:根据降维处理后的所述n个相似度集合以及每个所述相似度的预设权重,确定所述样本列字段在所述n个基准列字段中对应的初始基准列字段;
所述根据获取到的n个相似度集合以及每个所述相似度的目标权重,确定所述样本列字段在所述n个基准列字段中对应的目标基准列字段,包括:根据降维处理后的所述n个相似度集合以及每个所述相似度的目标权重,确定所述样本列字段在所述n个基准列字段中对应的目标基准列字段。
7.根据权利要求2所述的方法,其特征在于,所述根据获取到的n个相似度集合以及每个所述相似度的预设权重,确定所述样本列字段在所述n个基准列字段中对应的初始基准列字段,包括:
根据所述样本列字段与所述每个基准列字段的相似度集合中每个相似度的预设权重,对所述样本列字段与所述每个基准列字段的相似度集合中的相似度进行加权求和,得到所述每个基准列字段对应的第一融合相似度;
根据基准列字段对应的第一融合相似度,对所述n个基准列字段进行排序;
将所述n个基准列字段中对应的第一融合相似度最高的基准列字段,确定为所述初始基准列字段。
8.一种数据处理装置,其特征在于,所述数据处理装置包括:
第一获取模块,用于分别获取属于样本数据表的样本列字段与属于至少一个基准数据表的n个基准列字段中的每个基准列字段的相似度集合,第i个所述相似度集合包括:所述样本列字段的特征集与所述n个基准列字段中的第i个基准列字段的特征集的相似度,n≥i≥1;
第一确定模块,用于根据获取到的n个相似度集合以及每个所述相似度的预设权重,确定所述样本列字段在所述n个基准列字段中对应的初始基准列字段;
第二获取模块,用于获取准确度标签,所述准确度标签用于指示所述样本列字段与所述初始基准列字段的对应关系的准确度;
第二确定模块,用于根据所述准确度标签和获取到的n个相似度集合,确定每个所述相似度的目标权重;
第三确定模块,用于根据获取到的n个相似度集合以及每个所述相似度的目标权重,确定所述样本列字段在所述n个基准列字段中对应的目标基准列字段。
9.根据权利要求8所述的数据处理装置,其特征在于,参考基准列字段为所述n个基准数据表中的任一列字段,所述第一获取模块还用于:
采用m种特征提取方法提取所述样本列字段的m个第一特征集,所述m种特征提取方法与所述m个第一特征集一一对应,采用所述m种特征提取方法中的每种特征提取方法能够提取出对应的一个第一特征集,所述m≥5;
采用所述m种特征提取方法提取所述参考基准列字段的m个第二特征集,所述m个第二特征集与所述m个第一特征集一一对应,且每个所述第一特征集与对应的第二特征集均采用同一种特征提取方法提取得到;
确定每个所述第一特征集与对应的第二特征集的相似度;
确定所述样本列字段与所述参考基准列字段的相似度集合,所述样本列字段与所述参考基准列字段的相似度集合包括:每个所述第一特征集与对应的第二特征集的相似度。
10.根据权利要求9所述的数据处理装置,其特征在于,
所述m个第一特征集包括:所述样本列字段的列特征,以及所述样本列字段所在的数据表的表特征;
所述m个第二特征集包括:所述参考基准列字段的列特征,以及所述参考基准列字段所在的数据表的表特征。
11.根据权利要求9所述的数据处理装置,其特征在于,所述准确度标签还用于指示:所述样本列字段与其他基准列字段中的每个基准列字段的非对应关系的准确度,所述其他基准列字段为所述n个基准列字段中除所述初始基准列字段之外的基准列字段,所述第二确定模块还用于:
根据所述准确度标签、所述获取到的n个相似度集合以及预设回归公式,确定目标权重矩阵,所述目标权重矩阵为1行m列的矩阵,所述目标权重矩阵中的m个元素分别为:所述m个第一特征集与对应的第二特征集的m个相似度的目标权重;
其中,所述预设回归公式为:θ=YXT(XXT)-1,所述θ为所述目标权重矩阵,所述Y为所述准确度标签,所述X为n行m列的矩阵,且所述X中的每行元素包括一个所述相似度集合的元素,所述X中的所有元素包括所述n个相似度集合的元素,XT表示X的转置。
12.根据权利要求9所述的数据处理装置,其特征在于,所述m种特征提取方法包括:
基于N元语法的特征提取方法、基于词向量的特征提取方法、基于数据分布的特征提取方法、基于属性名的特征提取方法、基于数据类型的特征提取方法以及基于最小描述长度的特征提取方法中的至少5种特征提取方法。
13.根据权利要求8或9所述的数据处理装置,其特征在于,所述数据处理装置还包括:
处理模块,用于对获取到的每个所述相似度集合进行降维处理,删除每个所述相似度集合中冗余的相似度;
所述第一确定模块还用于:根据降维处理后的所述n个相似度集合以及每个所述相似度的预设权重,确定所述样本列字段在所述n个基准列字段中对应的初始基准列字段;
所述第二确定模块还用于:根据降维处理后的所述n个相似度集合以及每个所述相似度的目标权重,确定所述样本列字段在所述n个基准列字段中对应的目标基准列字段。
14.根据权利要求9所述的数据处理装置,其特征在于,所述第一确定模块还用于:
根据所述样本列字段与所述每个基准列字段的相似度集合中每个相似度的预设权重,对所述样本列字段与所述每个基准列字段的相似度集合中的相似度进行加权求和,得到所述每个基准列字段对应的第一融合相似度;
根据基准列字段对应的第一融合相似度,对所述n个基准列字段进行排序;
将所述n个基准列字段中对应的第一融合相似度最高的基准列字段,确定为所述初始基准列字段。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述计算机可读存储介质在计算机上运行时,使得计算机执行如权利要求1至7任一所述的数据处理方法。
CN201710386802.4A 2017-05-26 2017-05-26 数据处理方法及装置 Active CN108932268B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710386802.4A CN108932268B (zh) 2017-05-26 2017-05-26 数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710386802.4A CN108932268B (zh) 2017-05-26 2017-05-26 数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN108932268A CN108932268A (zh) 2018-12-04
CN108932268B true CN108932268B (zh) 2020-09-04

Family

ID=64451581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710386802.4A Active CN108932268B (zh) 2017-05-26 2017-05-26 数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN108932268B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726204B (zh) * 2018-12-24 2023-01-31 深圳市奋源科技有限公司 一种基于自定义数据表的数据资料管理方法及装置
CN109800215B (zh) * 2018-12-26 2020-11-24 北京明略软件系统有限公司 一种对标处理的方法、装置、计算机存储介质及终端
CN110347683B (zh) * 2019-06-27 2022-04-12 北京明略软件系统有限公司 一种数据表合并处理方法及装置
US20220284003A1 (en) * 2019-08-22 2022-09-08 Siemens Ltd., China Method and Apparatus for Labeling Data Point
CN110609928A (zh) * 2019-08-28 2019-12-24 宁波市智慧城市规划标准发展研究院 基于政务数据的姓名特征识别系统
CN113806356B (zh) * 2020-06-16 2024-03-19 中国移动通信集团重庆有限公司 数据识别方法、装置及计算设备
CN111767320B (zh) * 2020-06-29 2023-08-18 中国银行股份有限公司 数据血缘关系确定方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576871A (zh) * 2008-05-09 2009-11-11 群冠资讯股份有限公司 加快计算机运算的数据分析方法及影像辨识系统运作方法
CN103235822A (zh) * 2013-05-03 2013-08-07 富景天策(北京)气象科技有限公司 数据库的生成及查询方法
CN103761341A (zh) * 2014-02-21 2014-04-30 北京嘉和美康信息技术有限公司 一种信息匹配方法及装置
CN103902511A (zh) * 2012-12-26 2014-07-02 远光软件股份有限公司 一种数据表格的数据转换放大显示方法及系统
CN104331479A (zh) * 2014-11-07 2015-02-04 浪潮通用软件有限公司 一种基于相似度计算方法的数据排列方法
CN104933082A (zh) * 2014-03-21 2015-09-23 华为技术有限公司 评价信息处理方法及其装置
CN105573971A (zh) * 2014-10-10 2016-05-11 富士通株式会社 表格重构装置和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10198478B2 (en) * 2003-10-11 2019-02-05 Magic Number, Inc. Methods and systems for technology analysis and mapping

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576871A (zh) * 2008-05-09 2009-11-11 群冠资讯股份有限公司 加快计算机运算的数据分析方法及影像辨识系统运作方法
CN103902511A (zh) * 2012-12-26 2014-07-02 远光软件股份有限公司 一种数据表格的数据转换放大显示方法及系统
CN103235822A (zh) * 2013-05-03 2013-08-07 富景天策(北京)气象科技有限公司 数据库的生成及查询方法
CN103761341A (zh) * 2014-02-21 2014-04-30 北京嘉和美康信息技术有限公司 一种信息匹配方法及装置
CN104933082A (zh) * 2014-03-21 2015-09-23 华为技术有限公司 评价信息处理方法及其装置
CN105573971A (zh) * 2014-10-10 2016-05-11 富士通株式会社 表格重构装置和方法
CN104331479A (zh) * 2014-11-07 2015-02-04 浪潮通用软件有限公司 一种基于相似度计算方法的数据排列方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于结构和属性特征的政府开放数据检索方法研究;赵文龙 等;《情报杂志》;20170518;第36卷(第5期);第148-152页 *

Also Published As

Publication number Publication date
CN108932268A (zh) 2018-12-04

Similar Documents

Publication Publication Date Title
CN108932268B (zh) 数据处理方法及装置
CN106446228B (zh) 一种web页面数据的采集分析方法及装置
CN109271418A (zh) 可疑团伙识别方法、装置、设备及计算机可读存储介质
CN111241389B (zh) 一种基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
US11907659B2 (en) Item recall method and system, electronic device and readable storage medium
CN108269122B (zh) 广告的相似度处理方法和装置
CN107480205B (zh) 一种进行数据分区的方法和装置
CN109255000B (zh) 一种标签数据的维度管理方法及装置
JP2018116496A (ja) 差異検出装置及びプログラム
CN107357794B (zh) 优化键值数据库的数据存储结构的方法和装置
CN111459977A (zh) 自然语言查询的转换
CN110852057A (zh) 一种计算文本相似度的方法和装置
CN110427496B (zh) 用于文本处理的知识图谱扩充方法及装置
US9824140B2 (en) Method of creating classification pattern, apparatus, and recording medium
CN107357836B (zh) 一种vnf包以及其引用的镜像文件删除方法和设备
CN112256566B (zh) 一种测试案例的保鲜方法和装置
US11250077B2 (en) Native object identification method and apparatus
CN107368597B (zh) 信息输出方法和装置
CN111708908A (zh) 视频标签的添加方法及装置、电子设备、计算机可读存储介质
CN104881395A (zh) 一种获取矩阵中向量相似度的方法和系统
CN113392208A (zh) It运维故障处理经验积累的方法、装置及存储介质
CN110851517A (zh) 一种源数据抽取方法、装置、设备及计算机存储介质
CN110825954A (zh) 关键词推荐方法、装置和电子设备
US11822875B2 (en) Automatically evaluating summarizers
CN111611457B (zh) 一种页面分类方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200212

Address after: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Applicant after: HUAWEI TECHNOLOGIES Co.,Ltd.

Address before: 210000 HUAWEI Nanjing base, 101 software Avenue, Yuhuatai District, Jiangsu, Nanjing

Applicant before: Huawei Technologies Co.,Ltd.

GR01 Patent grant
GR01 Patent grant