CN103279542B - 数据导入处理方法及数据处理装置 - Google Patents

数据导入处理方法及数据处理装置 Download PDF

Info

Publication number
CN103279542B
CN103279542B CN201310221739.0A CN201310221739A CN103279542B CN 103279542 B CN103279542 B CN 103279542B CN 201310221739 A CN201310221739 A CN 201310221739A CN 103279542 B CN103279542 B CN 103279542B
Authority
CN
China
Prior art keywords
data
target
source
source data
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310221739.0A
Other languages
English (en)
Other versions
CN103279542A (zh
Inventor
孙秋峰
傅永财
李淑惠
宁江
郑扬飞
徐超
郭红钰
何岩
王非
刘玉龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 15 Research Institute
Original Assignee
CETC 15 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 15 Research Institute filed Critical CETC 15 Research Institute
Priority to CN201310221739.0A priority Critical patent/CN103279542B/zh
Publication of CN103279542A publication Critical patent/CN103279542A/zh
Application granted granted Critical
Publication of CN103279542B publication Critical patent/CN103279542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据导入处理方法及数据处理装置。该方法包括:获取待导入的源数据、源数据模型与目标数据模型;建立源数据模型与目标数据模型的映射关系,将获取的源数据按照建立的映射关系进行转换;获取预先设置的目标数据模型业务规则,对转换后的源数据进行过滤处理;计算过滤处理后源数据与目标数据之间的全局相似度,删除全局相似度值大于预先设置的相似度阈值的源数据,并将经相似度处理的符合相似度条件的源数据导入至目标数据库的数据表中。应用本发明,可以提升存储的数据的一致性、提高存储效率,减少数据冗余。

Description

数据导入处理方法及数据处理装置
技术领域
本发明涉及数据处理技术,尤其涉及一种数据导入处理方法及数据处理装置。
背景技术
随着因特网/内部网(Internet/Intranet)的快速发展以及数据库技术的广泛应用,各行业应用生成的数据量也越来越多。其中,通过数据库技术,存储生成的海量数据,可以对数据进行备份,并便于后续对存储的数据进行数据分析和维护;而通过Internet/Intranet,可以实现各行业应用数据的资源共享。现有技术中,数据库可以采用不同的数据结构存储数据,因而,各数据库之间,存储的数据的数据结构不相同,称为异构数据,如何使各数据库之间的异构数据经过数据处理,能够实现相互转换,从而提高资源共享或再利用的效率,已成为目前急需解决的技术问题。
为实现不同数据库中异构数据的共享或再利用,数据导入技术被广泛应用,逐渐成为一种关键的数据处理技术,下面进行简要描述。
进行数据导入时,涉及到两个对象,即源数据与目标数据,其中,源数据以数据表的形式存储在源数据库中,不同的源数据库中的数据表,具有不同的数据表属性,存储有不同数据表属性的源数据,数据表属性可以是各种类型的文件;目标数据存储在目标数据库中,目标数据库用于接收各种类型的源数据,进行相应处理后存储至数据表中,数据表属性具有特定的数据类型、业务规则以及数据模型。在数据导入中,一般要求目标数据库中需要包含与源数据模型相同的数据表,这样,在通过复制方式导入源数据后,目标数据库就可以将接收的源数据存放在与源数据模型相同的数据表中,即可完成数据的导入。
但实际应用中,由于可以从多个源数据库中进行数据的导入,使得导入目标数据库中的数据会出现重复数据、垃圾数据、空值、错误数据等,甚至由于源数据表属性与目标数据库中数据表属性不兼容,从而导致源数据导入失败等多种技术问题。
由上述可见,现有基于数据导入的数据处理方法,在源数据表属性与目标数据库中数据表属性兼容的情况下,将包含源数据的源数据表通过复制,复制到目标数据库的数据表中;而在源数据表属性与目标数据库中数据表属性不兼容的情况下,将包含源数据的源数据表作为新数据表,插入到目标数据库中,这样,没有考虑对源数据进行数据处理,使得目标数据库中导入的数据产生冗余,以及,将不符合目标数据库中数据表属性要求的垃圾数据以及重复数据导入到目标数据库中,导致目标数据库中存储的数据的一致性较差,存储效率较低;进一步地,目标数据中包含有不同数据表属性的数据,影响目标数据库的性能,甚至导致目标数据库不能正常运行。
发明内容
本发明的实施例提供一种数据导入处理方法,提升存储的数据的一致性、提高存储效率。
本发明的实施例还提供一种数据处理装置,提升存储的数据的一致性、提高存储效率。
为达到上述目的,本发明实施例提供的一种数据导入处理方法,包括:
获取待导入的源数据、源数据模型与目标数据模型;
建立源数据模型与目标数据模型的映射关系,将获取的源数据按照建立的映射关系进行转换;
获取预先设置的目标数据模型业务规则,对转换后的源数据进行过滤处理;
计算过滤处理后源数据与目标数据之间的全局相似度,删除全局相似度值大于预先设置的相似度阈值的源数据,并将经相似度处理符合相似度条件的源数据导入至目标数据库的数据表中。
其中,所述建立源数据模型与目标数据模型的映射关系包括:
获取源数据模型中属性项的源关键词;
获取目标数据模型中属性项的目标关键词;
将获取的源关键词,依序遍历匹配目标关键词,获取与源关键词匹配的目标关键词;
根据源关键词匹配的目标关键词,建立将源数据模型转换为目标数据模型的映射关系。
其中,所述数据模型是指数据结构,数据操作及数据约束,其中数据存储格式包括:数据表、EXEL表、可扩展标记语言以及文本。
其中,一所述源关键词唯一匹配一目标关键词,或,一所述源关键词匹配多个目标关键词,或,多个所述源关键词匹配同一目标关键词,或,所述源关键词没有与之匹配的目标关键词。
其中,所述根据源关键词匹配的目标关键词,建立将源数据模型转换为目标数据模型的映射关系包括:
根据目标数据模型的属性项,对匹配的源数据模型的属性项进行拆分、合并以及数据归一处理,将源数据模型映射至目标数据模型。
其中,所述目标数据模型业务规则设置有多条,所述对转换后的源数据进行过滤处理包括:
如果源数据不满足多条业务规则中的任意一条,则将该源数据执行过滤处理。
其中,采用最近邻相似度算法计算所述全局相似度。
其中,计算所述全局相似度的公式为:
式中,
sim(X,Y)表示数据表中源数据记录X与目标数据记录Y的全局相似度;
xi和yi分别为记录源数据X和目标数据记录Y的第i个属性;
wi表示第i个属性的权重,i=1,2,3,…,n,n为记录中属性的个数。
其中,
dist(xi,yi)=|xi-yi|/|maxi-mini|
式中,
maxi,mini分别表示记录的第i个属性的最大值、最小值。
一种数据处理装置,该装置包括:源数据获取模块、映射关系构建模块、过滤模块以及相似度处理模块,其中,
源数据获取模块,用于获取待导入的源数据、源数据模型与目标数据模型,输出至源数据获取模块;
映射关系构建模块,用于根据源数据获取模块的输出,建立源数据模型与目标数据模型的映射关系,将获取的源数据按照建立的映射关系进行转换,输出至过滤模块;
过滤模块,用于获取预先设置的目标数据模型业务规则,对接收的转换后的源数据进行过滤处理,输出至相似度处理模块;
相似度处理模块,用于计算过滤处理后源数据与目标数据之间的全局相似度,删除全局相似度值大于预先设置的相似度阈值的源数据,并将经相似度处理符合相似度条件的源数据导入至目标数据库的数据表中。
较佳地,所述映射关系构建模块包括:源关键词获取单元、目标关键词获取单元、匹配单元以及映射关系构建单元,其中,
源关键词获取单元,用于获取源数据模型中属性项的源关键词;
目标关键词获取单元,用于获取目标数据模型中属性项的目标关键词;
匹配单元,用于根据源关键词获取单元获取的源关键词,依序遍历匹配目标关键词获取单元获取的目标关键词,获取与源关键词匹配的目标关键词;
映射关系构建单元,用于根据源关键词匹配的目标关键词,建立将源数据模型转换为目标数据模型的映射关系。
较佳地,所述相似度处理模块包括:相似度数据获取单元、属性权重分配单元、最近邻相似度算法计算单元、全局相似度计算单元以及相似度处理单元,其中,
相似度数据获取单元,用于获取计算全局相似度的源数据以及目标数据;
属性权重分配单元,用于为相似度数据获取单元中的源数据的属性项配置权重系数,输出至全局相似度计算单元;
最近邻相似度算法计算单元,用于计算源数据与目标数据中对应属性项之间的局部相似度,输出至全局相似度计算单元;
全局相似度计算单元,用于根据属性权重分配单元以及最近邻相似度算法计算单元的输出,依据全局相似度计算公式计算源数据与目标数据之间的全局相似度值,输出至相似度处理单元;
相似度处理单元,用于判断接收的全局相似度值是否大于预先设置的相似度阈值,如果是,删除大于预先设置的相似度阈值的源数据,并将经相似度处理符合相似度条件的源数据导入至目标数据库的数据表中;如果否,将符合相似度条件的源数据导入至目标数据库的数据表中。
较佳地,所述全局相似度计算公式为:
式中,
sim(X,Y)表示数据表中源数据记录X与目标数据记录Y的全局相似度;
xi和yi分别为源数据记录X和目标数据记录Y的第i个属性;
wi表示第i个属性的权重,i=1,2,3,…,n,n为记录中属性的个数。
其中,
dist(xi,yi)=|xi-yi|/|maxi-mini|
式中,
maxi,mini分别表示记录的第i个属性的最大值、最小值。
由上述技术方案可见,本发明实施例提供的一种数据导入处理方法及数据处理装置,获取待导入的源数据、源数据模型与目标数据模型;建立源数据模型与目标数据模型的映射关系,将获取的源数据按照建立的映射关系进行转换;获取预先设置的目标数据模型业务规则,对转换后的源数据进行过滤处理;计算过滤处理后源数据与目标数据之间的全局相似度,删除全局相似度值大于预先设置的相似度阈值的源数据,并将经相似度处理符合相似度条件的源数据导入至目标数据库的数据表中。这样,通过对导入数据进行数据模型检查、业务规则检查以及相似度检查,保证了导入目标数据库中的数据为有效数据,减少了目标数据库中数据的冗余,避免了垃圾数据的产生,使目标数据库能够更准确、高效地运行,提升了存储的数据的一致性,提高了目标数据库的存储效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,以下将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,以下描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员而言,还可以根据这些附图所示实施例得到其它的实施例及其附图。
图1为本发明实施例的数据导入处理方法流程示意图。
图2为本发明实施例将源数据模型映射为目标数据模型的示意图。
图3为本发明实施例在将源数据导入目标数据库的流程中进行数据清理的示意图。
图4为本发明实施例数据处理装置结构示意图。
具体实施方式
以下将结合附图对本发明各实施例的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。
数据导入技术是实现数据共享或数据再利用的一种广泛使用的技术,现有基于数据导入的数据处理方法,通过将源数据简单复制到目标数据库的数据表中,由于可以从多个源数据库中进行数据的导入,对于复杂多变的数据与多样化的数据模型,难以保持一致性,使得目标数据库中导入的数据产生冗余,目标数据库中存储的数据的一致性较差,存储效率较低;进一步地,该方法还容易将垃圾数据导入目标数据库,或者,待导入的源数据结构与目标数据库的数据结构不兼容,导致难以导入正确的目标数据,不仅降低目标数据库的存储效率,还使得数据导入效率低。
本发明实施例中,提出了在数据导入过程中,对待导入的源数据按照业务规则、数据模型、相似度等业务策略进行过滤及转换,从而在目标数据库中,导入源数据中的有效数据。这样,通过对源数据进行数据检查并处理,将源数据中的重复数据进行过滤,并通过业务策略检查过滤后的源数据,区分垃圾数据或有效数据,或将不兼容数据结构的源数据转换为目标数据库兼容的有效数据,从而实现源数据的最大化和最有效利用,使数据库系统能够正确、高效运行。
图1为本发明实施例的数据导入处理方法流程示意图。参见图1,该流程包括:
步骤101,获取待导入的源数据、源数据模型与目标数据模型;
本步骤中,数据模型是指数据结构,数据操作及数据约束,源数据可以以任何格式存储,例如,以数据表、EXEL表、可扩展标记语言(XML,Extensible Markup Language)或文本等的形式存储在数据库中,在同一格式存储的源数据中,只包含同一种数据结构,源数据中包含有重复数据、垃圾数据以及有效数据。以下描述中,以数据模型为数据表为例进行描述,表1为本发明实施例的数据表结构示意表。
表1
字段名 描述
ID 主键
Sp1 字段1
Sp2 字段2
表1中,ID字段是数据表记录的唯一标识,描述数据表的主键值;Sp1、Sp2字段是数据表中各列的字段名称,描述对应的字段。
本发明实施例中,数据导入处理涉及源数据库中用于存储源数据的源数据模型以及目标数据库中用于存储目标数据的目标数据模型,相应地,对应两个对象,即源数据以及目标数据。
举例来说,以某一地区农村收入情况及消费情况调查为例,表2为源数据库中待导入的农村收入情况及消费情况调查数据表。
表2
表2中,编号为ID字段,姓名、性别、年龄等为Sp1、Sp2字段,也就是说,源数据表中的源数据属性为:
Sp=<ID,Sp1,Sp2,Sp3,Sp4,Sp5,Sp6,Sp7,Sp8,Sp9,Sp10>
其中,
ID表示编号;
Sp1表示姓名;
Sp2表示性别;
Sp3表示年龄;
Sp4表示地址;
Sp5表示农业年收入,单位为元;
Sp6表示非农业年收入,单位为元;
Sp7表示人口数;
Sp8表示文化程度;
Sp9表示电费,单位为元;
Sp10表示水费,单位为元。
从数据模型表2中提取数据表,获取源数据表,格式如表3所示。
表3
表3中,源数据表属性包括:编号、姓名、性别、年龄、地址、农业年收入(单位为元)、非农业年收入(单位为元)、人口数、文化程度、电费(单位为元)及水费(单位为元)共11个属性项。
获取目标数据库中的目标数据模型为数据表,格式如表4所示。
表4
表4中,源数据表属性包括:编号、姓名、年龄、省、市、县、乡/镇、村、年总收入(单位为千元)、人口数、文化程度、电费(单位为元)及水费(单位为元)共13个属性项。
目标数据表中的目标数据属性为:
Tp=<ID,Tp1,Tp2,Tp3,Tp4,Tp5,Tp6,Tp7,Tp8,Tp9,Tp10,Tp11,Tp12,Tp13>
其中,
ID表示编号;
Tp1表示姓名;
Tp2表示年龄;
Tp3表示省;
Tp4表示市;
Tp5表示县;
Tp6表示乡/镇;
Tp7表示村;
Tp8表示农业年收入(千元);
Tp9表示非农业年收入(千元),Tp8、Tp9组成年总收入(单位为千元);
Tp10表示人口数;
Tp11表示文化程度;
Tp12表示电费(元);
Tp13表示水费(元)。
步骤102,建立源数据模型与目标数据模型的映射关系,将获取的源数据按照建立的映射关系进行转换;
本步骤中,建立源数据模型与目标数据模型的映射关系包括:
A11,获取源数据模型中属性项的源关键词;
本步骤中,源数据模型中的每一属性项对应有一源关键词。关于关键词的获取,具体可参见相关技术文献,在此不再赘述。
A12,获取目标数据模型中属性项的目标关键词;
本步骤中,目标数据模型中的每一属性项对应有一目标关键词。
A13,将获取的源关键词,依序遍历匹配目标关键词,获取与源关键词匹配的目标关键词;
本步骤中,经过匹配,一源关键词可以唯一匹配一目标关键词,也可以是一源关键词匹配多个目标关键词,还可以是多个源关键词匹配同一目标关键词,还可以是一源关键词没有与之匹配的目标关键词。
A14,根据源关键词匹配的目标关键词,建立将源数据模型转换为目标数据模型的映射关系。
本步骤中,将源数据模型与目标数据模型进行比较检查,以从源数据库中筛选出可以导入的数据,根据源关键词匹配的目标关键词,即根据目标数据模型的属性项,对匹配的源数据模型的属性项进行拆分(P)、合并(M)、数据归一(N)等处理,从而将源数据模型映射至目标数据模型。
图2为本发明实施例将源数据模型映射为目标数据模型的示意图。参见图2,源数据模型中的源关键词编号、姓名、年龄、人口数、文化程度、电费、水费,依序与目标数据模型中的目标关键词编号、姓名、年龄、人口数、文化程度、电费、水费相匹配;源数据模型中的源关键词农业年收入和非农业年收入与目标数据模型中的目标关键词年总收入相匹配;源数据模型中的源关键词地址与目标数据模型中的省、市、县、乡/镇、村相匹配;源数据模型中的源关键词性别,在目标数据模型中,没有与之匹配的关键词。
这样,对于源数据模型中的源关键词编号、姓名、年龄、人口数、文化程度、电费、水费,进行数据归一处理,分别映射为目标数据模型中的目标关键词编号、姓名、年龄、人口数、文化程度、电费、水费,从而建立源数据模型与目标数据模型的一一映射关系,即y=x;对于源数据模型中的源关键词农业年收入和非农业年收入,进行合并处理,映射为目标数据模型中的目标关键词年总收入,并将源数据模型中的农业年收入和非农业年收入的数据单位转换为目标数据模型中的年总收入的数据单位,即对“农业年收入”,“非农业年收入”中的收入数值进行数据归一转换,转换为以千元为单位,从而建立源数据模型与目标数据模型的多对一映射关系,即y=x/1000;对于源数据模型中的源关键词地址,进行拆分处理,分别映射为目标数据模型中的目标关键词省、市、县、乡/镇、村,即将“地址”属性项拆分为“省”、“市”、“县”、“乡/镇”、“村”五个属性项,从而建立源数据模型与目标数据模型的一对多映射关系,即y=f(x)。
将表2中的源数据,按照建立的映射关系进行转换后,得到如表5所示的转换数据表。
表5
表5中,将农业年收入与非农业年收入的平均数作为年总收入。
步骤103,获取预先设置的目标数据模型业务规则,对转换后的源数据进行过滤处理;
本步骤中,预先设置的目标数据模型业务规则可以根据实际需要进行设置,业务规则用于标识目标数据库涉及的业务。
实际应用中,在源数据库中,可能涉及任何业务的相关数据,但在目标数据库中,只要求导入与目标数据库中存储的业务相关的数据。这样,可以通过业务规则,对源数据进行过滤,从而存储符合业务规则的源数据,而清除不符合业务规则的源数据,从而保证导入的源数据可以满足目标数据库的业务规则要求。
过滤处理流程为:根据预先设置的业务规则进行检查,业务规则为目标数据库包含的业务规则,通过业务规则数据A、B、…,能够能推导出业务数据X、Y、…,例如,如果源数据的说明值Z属于X、Y或包含在X、Y范围内,则说明该源数据符合目标数据库的业务规则,即当{A,B,…}→{X,Y},如果Z∈{X,Y},则可以确定说明值为Z的源数据符合目标数据库的业务规则,可以导入到目标数据库中;如果表明说明值为Z的源数据不符合目标数据库的业务规则,为非法导入数据。其中,
业务规则可分为通用业务规则以及特定业务规则。其中,通用业务规则,例如,可以是一月天数最多不超过31天的业务规则,当一月中包含超过31天的数据时,则超出31天的数据不符合通用业务规则;特定业务规则,例如,在现有业务中,说明值为“所属网络”的源数据的属性值,可以包含“公安网”、“指挥调度网”等特定的网络。
利用业务规则对源数据进行检查,例如,在源数据中,“所属网络”属性值包含“公安网”、“指挥调度网”、“其他”三类值,如果当前的目标数据库的业务规则中,已经不包含“指挥调度网”,则在数据导入中,根据业务规则,将包含“指挥调度网”值的记录排除,将符合现有业务规则的数据导入目标数据库中。
本发明实施例中,假设在调查数据中,预先设置的业务规则为对被调查人年龄要求必须大于18周岁而小于80周岁,则在调查数据的记录表5中,编号为2的李某年龄为17周岁,不符合目标数据模型业务规则要求,因此,将该源数据进行过滤。
表6为过滤处理后的源数据表。
表6
当然,实际应用中,目标数据模型业务规则也可以设置有多条,如果源数据不满足多条业务规则中的任一条,则将该源数据执行过滤处理,即将该源数据从源数据表中删除。
步骤104,计算过滤处理后源数据与目标数据之间的全局相似度,删除全局相似度值大于预先设置的相似度阈值的源数据,并将经相似度处理符合相似度条件的源数据导入至目标数据库的数据表中。
本步骤为可选,实际应用中,对于源数据表中包含的多个源数据,其性质或特性可能与目标数据表中的目标数据相同或相近,因而,为了有效降低目标数据库的存储空间,提升目标数据库的存储效率,可以对源数据表中相同或相近的源数据进行相似度处理,即对于与目标数据相同或相近的源数据,只需保留其中的任一源数据,并将其导入到目标数据库中即可。这样,可以使得目标数据库中导入的数据不产生冗余数据及重复数据,从而提升目标数据库中存储数据的一致性,提升运行的可靠性。
本发明实施例中,通过计算数据相似度(sim),进行数据检查,可以将冗余的源数据清除。
实际应用中,可以根据用户业务需求,设置数据相似度阀值x大小,当计算得到的源数据相似度值sim大于数据相似度阀值x时,表明该源数据为重复记录(重复数据),即符合目标数据库业务策略要求的数据相似度为:sim<x。举例来说,如果设置的数据相似度阀值为0.8,当计算得到的数据相似度值大于或等于0.8时,表明该数据为重复记录,当计算得到的数据相似度小于0.8时,即满足符合相似度条件,则可以将该数据导入目标数据库。
举例来说,如上表所示,编号为1和编号为3的源数据都符合目标数据模型业务规则,分别记为记录1和记录3,假设记录1为目标数据库中一条目标数据,将记录1与记录3运用最近邻相似度算法计算全局相似度。
最近邻相似度算法计算全局相似度公式如下:
式中,
sim(X,Y)表示源数据记录X与目标数据记录Y的全局相似度;
xi和yi分别为源数据记录X和目标数据记录Y的第i个属性;
wi表示第i个属性的权重,i=1,2,3,…,n,n为记录中属性的个数。
其中dist(xi,yi)运用海明距离算法计算,
dist(xi,yi)=|xi-yi|/|maxi-mini| (2)
式中,
maxi,mini分别表示记录的第i个属性的最大值、最小值。
本发明实施例在相似度计算中,对文化程度进行离散化,将文化程度按照小学、初中、高中、大学、研究生分为五级,五级的属性值分别设置为:1、2、3、4、5,则在上表中,文化程度的属性的最大值为高中对应的属性值3,文化程度的属性的最小值为初中对应的属性值2,则文化程度属性的最大值与最小值之差为4。其他属性最大值与最小值的计算,可参照文化程度属性的最大值与最小值的计算方法,在此不再赘述。
实际应用中,可以设置:
表7所示为各数值属性权重及各数值属性值的最大值与最小值之差的数据表。
表7
根据公式(1)和公式(2),可以计算记录1与记录3的全局相似度值为:
sim(X,Y)=1-0.2*0.3/1.0-0.2*0.2/2.0-0.2*0/2-0.1*0/4-0.15*100/300
-0.15*100/260=0.812
这样,通过相似度计算结果,记录1与记录3的全局相似度值大于预先设置的相似度阀值0.8,因此,将记录3排除。
图3为本发明实施例在将源数据导入目标数据库的流程中进行数据清理的示意图。参见图3,在将源数据导入目标数据库的过程中,进行源数据清理,可以保证只将有效数据导入目标数据库中。其中,数据清理包括两个阶段,分别是业务规则检查阶段以及相似度检查阶段。
在将表2的源数据导入目标数据库的过程中,首先根据目标数据库的业务规则进行检查,其中,业务规则之一为年龄要求,即必须大于18周岁而小于80周岁,则表2中的编号2(记录2)中,李某年龄为17,不符合目标数据库业务规则中的年龄要求,因而,过滤该数据;其次,进行相似度检查,将表2中的编号(记录1)与编号3(记录3)进行相似度计算,得到的记录1与记录3的数据相似度大于数据相似度阀值0.8,因此,将记录3排除,最后,将农村收入及消费调查源数据中的记录1导入目标数据库中。
由上述可见,本发明实施例的数据导入处理方法,提出了在异构数据导入过程中进行数据处理的机制,通过对导入数据进行数据模型检查、业务规则检查以及相似度检查,保证了导入目标数据库中的数据为有效数据,减少了目标数据库中数据的冗余,避免了垃圾数据的产生,使目标数据库能够更准确、高效地运行,提升了存储的数据的一致性,提高了目标数据库的存储效率;进一步地,在数据处理中减少了冗余数据与垃圾数据,保证了目标数据库的完整性、一致性。
图4为本发明实施例数据处理装置结构示意图。参见图4,该装置包括:源数据获取模块、映射关系构建模块、过滤模块以及相似度处理模块,其中,
源数据获取模块,用于获取待导入的源数据、源数据模型与目标数据模型,输出至源数据获取模块;
本发明实施例中,源数据存储格式包括:数据表、EXEL表、可扩展标记语言以及文本。
映射关系构建模块,用于根据源数据获取模块的输出,建立源数据模型与目标数据模型的映射关系,将获取的源数据按照建立的映射关系进行转换,输出至过滤模块;
本发明实施例中,一源关键词可以唯一匹配一目标关键词,也可以匹配多个目标关键词,还可以是多个源关键词匹配同一目标关键词,还可以是源关键词没有与之匹配的目标关键词。
实际应用中,可以根据目标数据模型的属性项,对匹配的源数据模型的属性项进行拆分、合并以及数据归一处理,将源数据模型映射至目标数据模型。
过滤模块,用于获取预先设置的目标数据模型业务规则,对接收的转换后的源数据进行过滤处理,输出至相似度处理模块;
本发明实施例中,目标数据模型业务规则可分为通用业务规则以及特定业务规则。
如果目标数据模型业务规则设置有多条,则当源数据不满足多条业务规则中的任意一条时,将该源数据执行过滤处理。
相似度处理模块,用于计算过滤处理后两相互源数据之间的全局相似度,删除全局相似度值大于预先设置的相似度阈值的两相互源数据中的一个源数据,并将经相似度处理的源数据导入至目标数据库的数据表中。
本发明实施例中,采用最近邻相似度算法计算源数据与目标数据之间的全局相似度。
其中,
映射关系构建模块包括:源关键词获取单元、目标关键词获取单元、匹配单元以及映射关系构建单元(图中未示出),其中,
源关键词获取单元,用于获取源数据模型中属性项的源关键词;
目标关键词获取单元,用于获取目标数据模型中属性项的目标关键词;
匹配单元,用于根据源关键词获取单元获取的源关键词,依序遍历匹配目标关键词获取单元获取的目标关键词,获取与源关键词匹配的目标关键词;
映射关系构建单元,用于根据源关键词匹配的目标关键词,建立将源数据模型转换为目标数据模型的映射关系。
相似度处理模块包括:相似度数据获取单元、属性权重分配单元最近邻相似度算法计算单元、全局相似度计算单元以及相似度处理单元(图中未示出),其中,
相似度数据获取单元,用于获取计算全局相似度的源数据以及目标数据;
属性权重分配单元,用于为相似度数据获取单元中的源数据的属性项配置权重系数,输出至全局相似度计算单元;
最近邻相似度算法计算单元,用于计算源数据与目标数据中对应属性项之间的局部相似度,输出至全局相似度计算单元;
全局相似度计算单元,用于根据属性权重分配单元以及最近邻相似度算法计算单元的输出,依据全局相似度计算公式计算源数据与目标数据之间的全局相似度值,输出至相似度处理单元;
相似度处理单元,用于判断接收的全局相似度值是否大于预先设置的相似度阈值,如果是,删除大于预先设置的相似度阈值的源数据,并将经相似度处理符合相似度条件的源数据导入至目标数据库的数据表中;如果否,将符合相似度条件的源数据导入至目标数据库的数据表中。
本发明实施例中,全局相似度计算公式为:
式中,
sim(X,Y)表示数据表中源数据记录X与目标数据记录Y的全局相似度;
xi和yi分别为记录源数据X和目标数据记录Y的第i个属性;
wi表示第i个属性的权重,i=1,2,3,…,n,n为记录中属性的个数。
其中dist(xi,yi)运用海明距离算法计算,
dist(xi,yi)=|xi-yi|/|maxi-mini|
式中,
maxi,mini分别表示记录的第i个属性的最大值、最小值。
显然,本领域技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也包含这些改动和变型在内。

Claims (9)

1.一种数据导入处理方法,包括:
获取待导入的源数据、源数据模型与目标数据模型;
建立源数据模型与目标数据模型的映射关系,将获取的源数据按照建立的映射关系进行转换;
获取预先设置的目标数据模型业务规则,对转换后的源数据进行过滤处理;
其中,所述目标数据模型业务规则设置有多条,所述对转换后的源数据进行过滤处理包括:
如果源数据不满足多条业务规则中的任意一条,则将该源数据执行过滤处理;
计算过滤处理后源数据与目标数据之间的全局相似度,删除全局相似度值大于预先设置的相似度阈值的源数据,并将经相似度处理符合相似度条件的源数据导入至目标数据库的数据表中;
所述建立源数据模型与目标数据模型的映射关系包括:
获取源数据模型中属性项的源关键词;
获取目标数据模型中属性项的目标关键词;
将获取的源关键词,依序遍历匹配目标关键词,获取与源关键词匹配的目标关键词;
根据源关键词匹配的目标关键词,建立将源数据模型转换为目标数据模型的映射关系。
2.根据权利要求1所述的方法,其中,所述源数据模型和目标数据模型中的每一个包括:数据表、EXEL表、可扩展标记语言以及文本。
3.根据权利要求2所述的方法,其中,一所述源关键词唯一匹配一目标关键词,或一所述源关键词匹配多个目标关键词,或多个所述源关键词匹配同一目标关键词,或所述源关键词没有与之匹配的目标关键词。
4.根据权利要求3所述的方法,其中,所述根据源关键词匹配的目标关键词,建立将源数据模型转换为目标数据模型的映射关系包括:
根据目标数据模型的属性项,对匹配的源数据模型的属性项进行拆分、合并以及数据归一处理,将源数据模型映射至目标数据模型。
5.根据权利要求1所述的方法,其中,采用最近邻相似度算法中海明距离计算所述全局相似度。
6.根据权利要求5所述的方法,其中,计算所述全局相似度的公式为:
<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mi>D</mi> <mi>I</mi> <mi>S</mi> <mi>T</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>w</mi> <mi>i</mi> </msub> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>
式中,
sim(X,Y)表示数据表中源数据记录X与目标数据记录Y的全局相似度;
xi和yi分别为源数据记录X和目标数据记录Y的第i个属性;
wi表示第i个属性的权重,i=1,2,3,…,n,n为记录中属性的个数;
其中,
dist(xi,yi)=|xi-yi|/|maxi-mini|
式中,
maxi,mini分别表示记录的第i个属性的最大值、最小值。
7.一种数据处理装置,其特征在于,该装置包括:源数据获取模块、映射关系构建模块、过滤模块以及相似度处理模块,其中,
源数据获取模块,用于获取待导入的源数据、源数据模型与目标数据模型,输出至源数据获取模块;
映射关系构建模块,用于根据源数据获取模块的输出,建立源数据模型与目标数据模型的映射关系,将获取的源数据按照建立的映射关系进行转换,输出至过滤模块;
过滤模块,用于获取预先设置的目标数据模型业务规则,对接收的转换后的源数据进行过滤处理,输出至相似度处理模块;
相似度处理模块,用于计算过滤处理后源数据与目标数据之间的全局相似度,删除全局相似度值大于预先设置的相似度阈值的源数据,并将经相似度处理符合相似度条件的源数据导入至目标数据库的数据表中;
其中,所述目标数据模型业务规则设置有多条,所述对转换后的源数据进行过滤处理包括:
如果源数据不满足多条业务规则中的任意一条,则将该源数据执行过滤处理;
所述映射关系构建模块包括:源关键词获取单元、目标关键词获取单元、匹配单元以及映射关系构建单元,其中,
源关键词获取单元,用于获取源数据模型中属性项的源关键词;
目标关键词获取单元,用于获取目标数据模型中属性项的目标关键词;
匹配单元,用于根据源关键词获取单元获取的源关键词,依序遍历匹配目标关键词获取单元获取的目标关键词,获取与源关键词匹配的目标关键词;
映射关系构建单元,用于根据源关键词匹配的目标关键词,建立将源数据模型转换为目标数据模型的映射关系。
8.根据权利要求7所述的装置,其特征在于,所述相似度处理模块包括:相似度数据获取单元、属性权重分配单元、最近邻相似度算法计算单元、全局相似度计算单元以及相似度处理单元,其中,
相似度数据获取单元,用于获取计算全局相似度的源数据以及目标数据;
属性权重分配单元,用于为相似度数据获取单元中的源数据的属性项配置权重系数,输出至全局相似度计算单元;
最近邻相似度算法计算单元,用于计算源数据与目标数据中对应属性项之间的局部相似度,输出至全局相似度计算单元;
全局相似度计算单元,用于根据属性权重分配单元以及最近邻相似度算法计算单元的输出,依据全局相似度计算公式计算源数据与目标数据之间的全局相似度值,输出至相似度处理单元;
相似度处理单元,用于判断接收的全局相似度值是否大于预先设置的相似度阈值,如果是,删除大于预先设置的相似度阈值的源数据,并将经相似度处理符合相似度条件的源数据导入至目标数据库的数据表中;如果否,将符合相似度条件的源数据导入至目标数据库的数据表中。
9.根据权利要求8所述的装置,其特征在于,所述全局相似度计算公式为:
<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mi>D</mi> <mi>I</mi> <mi>S</mi> <mi>T</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>w</mi> <mi>i</mi> </msub> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>
式中,
sim(X,Y)表示数据表中源数据记录X与目标数据记录Y的全局相似度;
xi和yi分别为源数据记录X和目标数据记录Y的第i个属性;
wi表示第i个属性的权重,i=1,2,3,…,n,n为记录中属性的个数。
其中,
dist(xi,yi)=|xi-yi|/|maxi-mini|
式中,
maxi,mini分别表示记录的第i个属性的最大值、最小值。
CN201310221739.0A 2013-06-05 2013-06-05 数据导入处理方法及数据处理装置 Active CN103279542B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310221739.0A CN103279542B (zh) 2013-06-05 2013-06-05 数据导入处理方法及数据处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310221739.0A CN103279542B (zh) 2013-06-05 2013-06-05 数据导入处理方法及数据处理装置

Publications (2)

Publication Number Publication Date
CN103279542A CN103279542A (zh) 2013-09-04
CN103279542B true CN103279542B (zh) 2018-05-22

Family

ID=49062061

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310221739.0A Active CN103279542B (zh) 2013-06-05 2013-06-05 数据导入处理方法及数据处理装置

Country Status (1)

Country Link
CN (1) CN103279542B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IN2013MU04013A (zh) * 2013-12-23 2015-08-07 Tata Consultancy Services Ltd
CN103761249B (zh) * 2013-12-24 2017-11-28 北京恒华伟业科技股份有限公司 基于数据匹配的数据导入方法及系统
AU2015229005A1 (en) * 2014-03-14 2016-09-01 Ab Initio Technology Llc Mapping attributes of keyed entities
CN104036049A (zh) * 2014-07-03 2014-09-10 利诚服装集团股份有限公司 一种在不同数据库之间存储数据的方法
CN105653525B (zh) * 2014-11-10 2020-04-10 金蝶软件(中国)有限公司 账套之间数据导入的方法和系统
CN105096028A (zh) * 2014-11-20 2015-11-25 北京航天金盾科技有限公司 一种人口数据的智能匹配方法
CN104391927A (zh) * 2014-11-21 2015-03-04 浪潮通用软件有限公司 一种多维数据模型的维度重构实现方法
CN104601554B (zh) * 2014-12-29 2018-02-27 北京致远互联软件股份有限公司 一种数据交换方法及数据交换装置
CN105824849A (zh) * 2015-01-08 2016-08-03 中国移动通信集团河南有限公司 一种数据导入方法及适配器
CN104657485A (zh) * 2015-03-02 2015-05-27 利诚服装集团股份有限公司 一种在不同数据库之间存储数据的方法及系统
CN105989173B (zh) * 2015-03-05 2021-06-01 创新先进技术有限公司 数据处理方法及装置
US11023483B2 (en) 2016-08-04 2021-06-01 International Business Machines Corporation Model-driven profiling job generator for data sources
CN106484785B (zh) * 2016-09-19 2019-07-26 浪潮通用软件有限公司 一种高效的自动匹配数据字段映射的方法
CN106682399A (zh) * 2016-12-12 2017-05-17 腾讯科技(深圳)有限公司 一种信息处理方法及装置
CN107169109A (zh) * 2017-05-19 2017-09-15 深圳市茁壮网络股份有限公司 一种数据处理方法及数据适配器
CN107579960A (zh) * 2017-08-22 2018-01-12 深圳市盛路物联通讯技术有限公司 一种数据过滤方法及装置
CN108549672A (zh) * 2018-03-29 2018-09-18 中航技国际经贸发展有限公司 一种数据智能分析方法及系统
CN108763080A (zh) * 2018-05-29 2018-11-06 平安普惠企业管理有限公司 测试数据上传方法、装置、计算机设备及存储介质
CN109213793A (zh) * 2018-08-07 2019-01-15 泾县麦蓝网络技术服务有限公司 一种流式数据处理方法和系统
CN109947418A (zh) * 2019-03-27 2019-06-28 厦门纳龙科技有限公司 一种数据模型转换方法以及装置
CN110471901B (zh) * 2019-07-11 2024-05-07 平安科技(深圳)有限公司 数据导入方法及终端设备
CN110727710B (zh) * 2019-10-12 2023-02-07 平安医疗健康管理股份有限公司 数据分析方法、装置、计算机设备和存储介质
CN112328633A (zh) * 2020-10-16 2021-02-05 安徽精益测绘有限公司 一种数据库建设用测量数据属性智能化匹配与识别模块
CN112527897A (zh) * 2020-12-01 2021-03-19 深圳市鹰硕技术有限公司 一种数据处理方法及系统
CN112862449A (zh) * 2021-03-02 2021-05-28 岭东核电有限公司 结构化工单生成方法、装置、计算机设备和存储介质
CN113792039B (zh) * 2021-03-15 2024-03-01 北京京东振世信息技术有限公司 数据处理方法及装置、电子设备、存储介质
CN113220732A (zh) * 2021-03-19 2021-08-06 浪潮云信息技术股份公司 一种联通同享的数据匹配方法及系统
CN115238023B (zh) * 2022-09-07 2022-12-13 中航信移动科技有限公司 基于多源数据进行数据关联的方法
CN115687305A (zh) * 2022-11-08 2023-02-03 力高(山东)新能源技术股份有限公司 一种储能电站agc模型导入和检查方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866364A (zh) * 2010-06-22 2010-10-20 用友软件股份有限公司 数据导入方法和装置
CN101957865A (zh) * 2010-10-27 2011-01-26 杭州新中大软件股份有限公司 一种异构系统间数据交换与共享技术

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866364A (zh) * 2010-06-22 2010-10-20 用友软件股份有限公司 数据导入方法和装置
CN101957865A (zh) * 2010-10-27 2011-01-26 杭州新中大软件股份有限公司 一种异构系统间数据交换与共享技术

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
异构数据库间通用数据转换模型的研究与实现;应洁;《万方学位论文》;20101124;第26页、第37页 *

Also Published As

Publication number Publication date
CN103279542A (zh) 2013-09-04

Similar Documents

Publication Publication Date Title
CN103279542B (zh) 数据导入处理方法及数据处理装置
CN104881424B (zh) 一种基于正则表达式的电力大数据采集、存储及分析方法
CN109669934B (zh) 一种切合电力客服业务的数据仓库系统及其构建方法
Van Eck et al. A comparison of two techniques for bibliometric mapping: Multidimensional scaling and VOS
US11372900B1 (en) Artificial intelligence-based property data matching system
CN111709527A (zh) 运维知识图谱库的建立方法、装置、设备及存储介质
CN112231333A (zh) 一种生态环境数据共享交换方法和系统
CN102867066B (zh) 数据汇总装置和数据汇总方法
CN109783479B (zh) 一种数据标准化处理方法、装置及存储介质
US7610299B2 (en) Method of processing data
KR20210082111A (ko) 부동산 자산 가치 평가를 위한 실거래가 예측 학습 모델 서비스 장치
CN113626411B (zh) 一种森林资源一张图成果质检方法、系统及云平台
Hamad et al. An enhanced technique to clean data in the data warehouse
CN111899822B (zh) 医疗机构数据库构建方法、查询方法、装置、设备和介质
CN111737335B (zh) 产品信息集成处理方法、装置、计算机设备和存储介质
Talha et al. Towards a powerful solution for data accuracy assessment in the big data context
Hinrichs et al. An ISO 9001: 2000 Compliant Quality Management System for Data Integration in Data Warehouse Systems.
Du et al. IFC file content compression based on reference relationships
CN109144999B (zh) 一种数据定位方法、装置及存储介质、程序产品
CN103164532A (zh) 电网模型数据的分类分块抽取方法及系统
Patil et al. Data integration problem of structural and semantic heterogeneity: data warehousing framework models for the optimization of the ETL processes
Zahari et al. Data quality issues in data migration
CN116303392B (zh) 关于不动产登记数据的多源数据表管理方法
Xu et al. Research on the Algorithm of Comprehensive Quality Assessment for College Students Based on Improved C4. 5
CN106021318A (zh) 电路图辅助分析系统及其方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant