CN103279542B

CN103279542B - 数据导入处理方法及数据处理装置

Info

Publication number: CN103279542B
Application number: CN201310221739.0A
Authority: CN
Inventors: 孙秋峰; 傅永财; 李淑惠; 宁江; 郑扬飞; 徐超; 郭红钰; 何岩; 王非; 刘玉龙
Original assignee: CETC 15 Research Institute
Current assignee: CETC 15 Research Institute
Priority date: 2013-06-05
Filing date: 2013-06-05
Publication date: 2018-05-22
Anticipated expiration: 2033-06-05
Also published as: CN103279542A

Abstract

本发明公开了一种数据导入处理方法及数据处理装置。该方法包括：获取待导入的源数据、源数据模型与目标数据模型；建立源数据模型与目标数据模型的映射关系，将获取的源数据按照建立的映射关系进行转换；获取预先设置的目标数据模型业务规则，对转换后的源数据进行过滤处理；计算过滤处理后源数据与目标数据之间的全局相似度，删除全局相似度值大于预先设置的相似度阈值的源数据，并将经相似度处理的符合相似度条件的源数据导入至目标数据库的数据表中。应用本发明，可以提升存储的数据的一致性、提高存储效率，减少数据冗余。

Description

数据导入处理方法及数据处理装置

技术领域

本发明涉及数据处理技术，尤其涉及一种数据导入处理方法及数据处理装置。

背景技术

随着因特网/内部网（Internet/Intranet）的快速发展以及数据库技术的广泛应用，各行业应用生成的数据量也越来越多。其中，通过数据库技术，存储生成的海量数据，可以对数据进行备份，并便于后续对存储的数据进行数据分析和维护；而通过Internet/Intranet，可以实现各行业应用数据的资源共享。现有技术中，数据库可以采用不同的数据结构存储数据，因而，各数据库之间，存储的数据的数据结构不相同，称为异构数据，如何使各数据库之间的异构数据经过数据处理，能够实现相互转换，从而提高资源共享或再利用的效率，已成为目前急需解决的技术问题。

为实现不同数据库中异构数据的共享或再利用，数据导入技术被广泛应用，逐渐成为一种关键的数据处理技术，下面进行简要描述。

进行数据导入时，涉及到两个对象，即源数据与目标数据，其中，源数据以数据表的形式存储在源数据库中，不同的源数据库中的数据表，具有不同的数据表属性，存储有不同数据表属性的源数据，数据表属性可以是各种类型的文件；目标数据存储在目标数据库中，目标数据库用于接收各种类型的源数据，进行相应处理后存储至数据表中，数据表属性具有特定的数据类型、业务规则以及数据模型。在数据导入中，一般要求目标数据库中需要包含与源数据模型相同的数据表，这样，在通过复制方式导入源数据后，目标数据库就可以将接收的源数据存放在与源数据模型相同的数据表中，即可完成数据的导入。

但实际应用中，由于可以从多个源数据库中进行数据的导入，使得导入目标数据库中的数据会出现重复数据、垃圾数据、空值、错误数据等，甚至由于源数据表属性与目标数据库中数据表属性不兼容，从而导致源数据导入失败等多种技术问题。

由上述可见，现有基于数据导入的数据处理方法，在源数据表属性与目标数据库中数据表属性兼容的情况下，将包含源数据的源数据表通过复制，复制到目标数据库的数据表中；而在源数据表属性与目标数据库中数据表属性不兼容的情况下，将包含源数据的源数据表作为新数据表，插入到目标数据库中，这样，没有考虑对源数据进行数据处理，使得目标数据库中导入的数据产生冗余，以及，将不符合目标数据库中数据表属性要求的垃圾数据以及重复数据导入到目标数据库中，导致目标数据库中存储的数据的一致性较差，存储效率较低；进一步地，目标数据中包含有不同数据表属性的数据，影响目标数据库的性能，甚至导致目标数据库不能正常运行。

发明内容

本发明的实施例提供一种数据导入处理方法，提升存储的数据的一致性、提高存储效率。

本发明的实施例还提供一种数据处理装置，提升存储的数据的一致性、提高存储效率。

为达到上述目的，本发明实施例提供的一种数据导入处理方法，包括：

获取待导入的源数据、源数据模型与目标数据模型；

建立源数据模型与目标数据模型的映射关系，将获取的源数据按照建立的映射关系进行转换；

获取预先设置的目标数据模型业务规则，对转换后的源数据进行过滤处理；

计算过滤处理后源数据与目标数据之间的全局相似度，删除全局相似度值大于预先设置的相似度阈值的源数据，并将经相似度处理符合相似度条件的源数据导入至目标数据库的数据表中。

其中，所述建立源数据模型与目标数据模型的映射关系包括：

获取源数据模型中属性项的源关键词；

获取目标数据模型中属性项的目标关键词；

将获取的源关键词，依序遍历匹配目标关键词，获取与源关键词匹配的目标关键词；

根据源关键词匹配的目标关键词，建立将源数据模型转换为目标数据模型的映射关系。

其中，所述数据模型是指数据结构，数据操作及数据约束，其中数据存储格式包括：数据表、EXEL表、可扩展标记语言以及文本。

其中，一所述源关键词唯一匹配一目标关键词，或，一所述源关键词匹配多个目标关键词，或，多个所述源关键词匹配同一目标关键词，或，所述源关键词没有与之匹配的目标关键词。

其中，所述根据源关键词匹配的目标关键词，建立将源数据模型转换为目标数据模型的映射关系包括：

根据目标数据模型的属性项，对匹配的源数据模型的属性项进行拆分、合并以及数据归一处理，将源数据模型映射至目标数据模型。

其中，所述目标数据模型业务规则设置有多条，所述对转换后的源数据进行过滤处理包括：

如果源数据不满足多条业务规则中的任意一条，则将该源数据执行过滤处理。

其中，采用最近邻相似度算法计算所述全局相似度。

其中，计算所述全局相似度的公式为：

式中，

sim(X,Y)表示数据表中源数据记录X与目标数据记录Y的全局相似度；

x_i和y_i分别为记录源数据X和目标数据记录Y的第i个属性；

w_i表示第i个属性的权重，i=1,2,3,…,n，n为记录中属性的个数。

其中，

dist（x_i,y_i）=|x_i-y_i|/|max_i-min_i|

式中，

max_i，min_i分别表示记录的第i个属性的最大值、最小值。

一种数据处理装置，该装置包括：源数据获取模块、映射关系构建模块、过滤模块以及相似度处理模块，其中，

源数据获取模块，用于获取待导入的源数据、源数据模型与目标数据模型，输出至源数据获取模块；

映射关系构建模块，用于根据源数据获取模块的输出，建立源数据模型与目标数据模型的映射关系，将获取的源数据按照建立的映射关系进行转换，输出至过滤模块；

过滤模块，用于获取预先设置的目标数据模型业务规则，对接收的转换后的源数据进行过滤处理，输出至相似度处理模块；

相似度处理模块，用于计算过滤处理后源数据与目标数据之间的全局相似度，删除全局相似度值大于预先设置的相似度阈值的源数据，并将经相似度处理符合相似度条件的源数据导入至目标数据库的数据表中。

较佳地，所述映射关系构建模块包括：源关键词获取单元、目标关键词获取单元、匹配单元以及映射关系构建单元，其中，

源关键词获取单元，用于获取源数据模型中属性项的源关键词；

目标关键词获取单元，用于获取目标数据模型中属性项的目标关键词；

匹配单元，用于根据源关键词获取单元获取的源关键词，依序遍历匹配目标关键词获取单元获取的目标关键词，获取与源关键词匹配的目标关键词；

映射关系构建单元，用于根据源关键词匹配的目标关键词，建立将源数据模型转换为目标数据模型的映射关系。

较佳地，所述相似度处理模块包括：相似度数据获取单元、属性权重分配单元、最近邻相似度算法计算单元、全局相似度计算单元以及相似度处理单元，其中，

相似度数据获取单元，用于获取计算全局相似度的源数据以及目标数据；

属性权重分配单元，用于为相似度数据获取单元中的源数据的属性项配置权重系数，输出至全局相似度计算单元；

最近邻相似度算法计算单元，用于计算源数据与目标数据中对应属性项之间的局部相似度，输出至全局相似度计算单元；

全局相似度计算单元，用于根据属性权重分配单元以及最近邻相似度算法计算单元的输出，依据全局相似度计算公式计算源数据与目标数据之间的全局相似度值，输出至相似度处理单元；

相似度处理单元，用于判断接收的全局相似度值是否大于预先设置的相似度阈值，如果是，删除大于预先设置的相似度阈值的源数据，并将经相似度处理符合相似度条件的源数据导入至目标数据库的数据表中；如果否，将符合相似度条件的源数据导入至目标数据库的数据表中。

较佳地，所述全局相似度计算公式为：

式中，

x_i和y_i分别为源数据记录X和目标数据记录Y的第i个属性；

其中，

dist（x_i,y_i）=|x_i-y_i|/|max_i-min_i|

式中，

max_i，min_i分别表示记录的第i个属性的最大值、最小值。

由上述技术方案可见，本发明实施例提供的一种数据导入处理方法及数据处理装置，获取待导入的源数据、源数据模型与目标数据模型；建立源数据模型与目标数据模型的映射关系，将获取的源数据按照建立的映射关系进行转换；获取预先设置的目标数据模型业务规则，对转换后的源数据进行过滤处理；计算过滤处理后源数据与目标数据之间的全局相似度，删除全局相似度值大于预先设置的相似度阈值的源数据，并将经相似度处理符合相似度条件的源数据导入至目标数据库的数据表中。这样，通过对导入数据进行数据模型检查、业务规则检查以及相似度检查，保证了导入目标数据库中的数据为有效数据，减少了目标数据库中数据的冗余，避免了垃圾数据的产生，使目标数据库能够更准确、高效地运行，提升了存储的数据的一致性，提高了目标数据库的存储效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，以下将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，以下描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员而言，还可以根据这些附图所示实施例得到其它的实施例及其附图。

图1为本发明实施例的数据导入处理方法流程示意图。

图2为本发明实施例将源数据模型映射为目标数据模型的示意图。

图3为本发明实施例在将源数据导入目标数据库的流程中进行数据清理的示意图。

图4为本发明实施例数据处理装置结构示意图。

具体实施方式

以下将结合附图对本发明各实施例的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例，都属于本发明所保护的范围。

数据导入技术是实现数据共享或数据再利用的一种广泛使用的技术，现有基于数据导入的数据处理方法，通过将源数据简单复制到目标数据库的数据表中，由于可以从多个源数据库中进行数据的导入，对于复杂多变的数据与多样化的数据模型，难以保持一致性，使得目标数据库中导入的数据产生冗余，目标数据库中存储的数据的一致性较差，存储效率较低；进一步地，该方法还容易将垃圾数据导入目标数据库，或者，待导入的源数据结构与目标数据库的数据结构不兼容，导致难以导入正确的目标数据，不仅降低目标数据库的存储效率，还使得数据导入效率低。

本发明实施例中，提出了在数据导入过程中，对待导入的源数据按照业务规则、数据模型、相似度等业务策略进行过滤及转换，从而在目标数据库中，导入源数据中的有效数据。这样，通过对源数据进行数据检查并处理，将源数据中的重复数据进行过滤，并通过业务策略检查过滤后的源数据，区分垃圾数据或有效数据，或将不兼容数据结构的源数据转换为目标数据库兼容的有效数据，从而实现源数据的最大化和最有效利用，使数据库系统能够正确、高效运行。

图1为本发明实施例的数据导入处理方法流程示意图。参见图1，该流程包括：

步骤101，获取待导入的源数据、源数据模型与目标数据模型；

本步骤中，数据模型是指数据结构，数据操作及数据约束，源数据可以以任何格式存储，例如，以数据表、EXEL表、可扩展标记语言（XML，Extensible Markup Language）或文本等的形式存储在数据库中，在同一格式存储的源数据中，只包含同一种数据结构，源数据中包含有重复数据、垃圾数据以及有效数据。以下描述中，以数据模型为数据表为例进行描述，表1为本发明实施例的数据表结构示意表。

表1

字段名	描述
		ID	主键
S_p1	字段1

S_p2	字段2
		…	…

表1中，ID字段是数据表记录的唯一标识，描述数据表的主键值；S_p1、S_p2字段是数据表中各列的字段名称，描述对应的字段。

本发明实施例中，数据导入处理涉及源数据库中用于存储源数据的源数据模型以及目标数据库中用于存储目标数据的目标数据模型，相应地，对应两个对象，即源数据以及目标数据。

举例来说，以某一地区农村收入情况及消费情况调查为例，表2为源数据库中待导入的农村收入情况及消费情况调查数据表。

表2

表2中，编号为ID字段，姓名、性别、年龄等为S_p1、S_p2字段，也就是说，源数据表中的源数据属性为：

Sp=<ID,S_p1，S_p2,S_p3,S_p4,S_p5,S_p6,S_p7,S_p8,S_p9,S_p10>

其中，

ID表示编号；

S_p1表示姓名；

S_p2表示性别；

S_p3表示年龄；

S_p4表示地址；

S_p5表示农业年收入，单位为元；

S_p6表示非农业年收入，单位为元；

S_p7表示人口数；

S_p8表示文化程度；

S_p9表示电费，单位为元；

S_p10表示水费，单位为元。

从数据模型表2中提取数据表，获取源数据表，格式如表3所示。

表3

表3中，源数据表属性包括：编号、姓名、性别、年龄、地址、农业年收入（单位为元）、非农业年收入（单位为元）、人口数、文化程度、电费（单位为元）及水费（单位为元）共11个属性项。

获取目标数据库中的目标数据模型为数据表，格式如表4所示。

表4

表4中，源数据表属性包括：编号、姓名、年龄、省、市、县、乡/镇、村、年总收入（单位为千元）、人口数、文化程度、电费（单位为元）及水费（单位为元）共13个属性项。

目标数据表中的目标数据属性为：

Tp=<ID,T_p1,T_p2,T_p3,T_p4,T_p5,T_p6,T_p7,T_p8,T_p9,T_p10,T_p11,T_p12,T_p13>

其中，

ID表示编号；

T_p1表示姓名；

T_p2表示年龄；

T_p3表示省；

T_p4表示市；

T_p5表示县；

T_p6表示乡/镇；

T_p7表示村；

T_p8表示农业年收入（千元）；

T_p9表示非农业年收入（千元），T_p8、T_p9组成年总收入（单位为千元）；

T_p10表示人口数；

T_p11表示文化程度；

T_p12表示电费（元）；

T_p13表示水费（元）。

步骤102，建立源数据模型与目标数据模型的映射关系，将获取的源数据按照建立的映射关系进行转换；

本步骤中，建立源数据模型与目标数据模型的映射关系包括：

A11，获取源数据模型中属性项的源关键词；

本步骤中，源数据模型中的每一属性项对应有一源关键词。关于关键词的获取，具体可参见相关技术文献，在此不再赘述。

A12，获取目标数据模型中属性项的目标关键词；

本步骤中，目标数据模型中的每一属性项对应有一目标关键词。

A13，将获取的源关键词，依序遍历匹配目标关键词，获取与源关键词匹配的目标关键词；

本步骤中，经过匹配，一源关键词可以唯一匹配一目标关键词，也可以是一源关键词匹配多个目标关键词，还可以是多个源关键词匹配同一目标关键词，还可以是一源关键词没有与之匹配的目标关键词。

A14，根据源关键词匹配的目标关键词，建立将源数据模型转换为目标数据模型的映射关系。

本步骤中，将源数据模型与目标数据模型进行比较检查，以从源数据库中筛选出可以导入的数据，根据源关键词匹配的目标关键词，即根据目标数据模型的属性项，对匹配的源数据模型的属性项进行拆分（P）、合并（M）、数据归一（N）等处理，从而将源数据模型映射至目标数据模型。

图2为本发明实施例将源数据模型映射为目标数据模型的示意图。参见图2，源数据模型中的源关键词编号、姓名、年龄、人口数、文化程度、电费、水费，依序与目标数据模型中的目标关键词编号、姓名、年龄、人口数、文化程度、电费、水费相匹配；源数据模型中的源关键词农业年收入和非农业年收入与目标数据模型中的目标关键词年总收入相匹配；源数据模型中的源关键词地址与目标数据模型中的省、市、县、乡/镇、村相匹配；源数据模型中的源关键词性别，在目标数据模型中，没有与之匹配的关键词。

这样，对于源数据模型中的源关键词编号、姓名、年龄、人口数、文化程度、电费、水费，进行数据归一处理，分别映射为目标数据模型中的目标关键词编号、姓名、年龄、人口数、文化程度、电费、水费，从而建立源数据模型与目标数据模型的一一映射关系，即y=x；对于源数据模型中的源关键词农业年收入和非农业年收入，进行合并处理，映射为目标数据模型中的目标关键词年总收入，并将源数据模型中的农业年收入和非农业年收入的数据单位转换为目标数据模型中的年总收入的数据单位，即对“农业年收入”，“非农业年收入”中的收入数值进行数据归一转换，转换为以千元为单位，从而建立源数据模型与目标数据模型的多对一映射关系，即y=x/1000；对于源数据模型中的源关键词地址，进行拆分处理，分别映射为目标数据模型中的目标关键词省、市、县、乡/镇、村，即将“地址”属性项拆分为“省”、“市”、“县”、“乡/镇”、“村”五个属性项，从而建立源数据模型与目标数据模型的一对多映射关系，即y=f(x)。

将表2中的源数据，按照建立的映射关系进行转换后，得到如表5所示的转换数据表。

表5

表5中，将农业年收入与非农业年收入的平均数作为年总收入。

步骤103，获取预先设置的目标数据模型业务规则，对转换后的源数据进行过滤处理；

本步骤中，预先设置的目标数据模型业务规则可以根据实际需要进行设置，业务规则用于标识目标数据库涉及的业务。

实际应用中，在源数据库中，可能涉及任何业务的相关数据，但在目标数据库中，只要求导入与目标数据库中存储的业务相关的数据。这样，可以通过业务规则，对源数据进行过滤，从而存储符合业务规则的源数据，而清除不符合业务规则的源数据，从而保证导入的源数据可以满足目标数据库的业务规则要求。

过滤处理流程为：根据预先设置的业务规则进行检查，业务规则为目标数据库包含的业务规则，通过业务规则数据A、B、…，能够能推导出业务数据X、Y、…，例如，如果源数据的说明值Z属于X、Y或包含在X、Y范围内，则说明该源数据符合目标数据库的业务规则，即当{A,B,…}→{X,Y}，如果Z∈{X,Y}，则可以确定说明值为Z的源数据符合目标数据库的业务规则，可以导入到目标数据库中；如果表明说明值为Z的源数据不符合目标数据库的业务规则，为非法导入数据。其中，

业务规则可分为通用业务规则以及特定业务规则。其中，通用业务规则，例如，可以是一月天数最多不超过31天的业务规则，当一月中包含超过31天的数据时，则超出31天的数据不符合通用业务规则；特定业务规则，例如，在现有业务中，说明值为“所属网络”的源数据的属性值，可以包含“公安网”、“指挥调度网”等特定的网络。

利用业务规则对源数据进行检查，例如，在源数据中，“所属网络”属性值包含“公安网”、“指挥调度网”、“其他”三类值，如果当前的目标数据库的业务规则中，已经不包含“指挥调度网”，则在数据导入中，根据业务规则，将包含“指挥调度网”值的记录排除，将符合现有业务规则的数据导入目标数据库中。

本发明实施例中，假设在调查数据中，预先设置的业务规则为对被调查人年龄要求必须大于18周岁而小于80周岁，则在调查数据的记录表5中，编号为2的李某年龄为17周岁，不符合目标数据模型业务规则要求，因此，将该源数据进行过滤。

表6为过滤处理后的源数据表。

表6

当然，实际应用中，目标数据模型业务规则也可以设置有多条，如果源数据不满足多条业务规则中的任一条，则将该源数据执行过滤处理，即将该源数据从源数据表中删除。

步骤104，计算过滤处理后源数据与目标数据之间的全局相似度，删除全局相似度值大于预先设置的相似度阈值的源数据，并将经相似度处理符合相似度条件的源数据导入至目标数据库的数据表中。

本步骤为可选，实际应用中，对于源数据表中包含的多个源数据，其性质或特性可能与目标数据表中的目标数据相同或相近，因而，为了有效降低目标数据库的存储空间，提升目标数据库的存储效率，可以对源数据表中相同或相近的源数据进行相似度处理，即对于与目标数据相同或相近的源数据，只需保留其中的任一源数据，并将其导入到目标数据库中即可。这样，可以使得目标数据库中导入的数据不产生冗余数据及重复数据，从而提升目标数据库中存储数据的一致性，提升运行的可靠性。

本发明实施例中，通过计算数据相似度（sim），进行数据检查，可以将冗余的源数据清除。

实际应用中，可以根据用户业务需求，设置数据相似度阀值x大小，当计算得到的源数据相似度值sim大于数据相似度阀值x时，表明该源数据为重复记录（重复数据），即符合目标数据库业务策略要求的数据相似度为：sim<x。举例来说，如果设置的数据相似度阀值为0.8，当计算得到的数据相似度值大于或等于0.8时，表明该数据为重复记录，当计算得到的数据相似度小于0.8时，即满足符合相似度条件，则可以将该数据导入目标数据库。

举例来说，如上表所示，编号为1和编号为3的源数据都符合目标数据模型业务规则，分别记为记录1和记录3，假设记录1为目标数据库中一条目标数据，将记录1与记录3运用最近邻相似度算法计算全局相似度。

最近邻相似度算法计算全局相似度公式如下：

式中，

sim(X,Y)表示源数据记录X与目标数据记录Y的全局相似度；

x_i和y_i分别为源数据记录X和目标数据记录Y的第i个属性；

其中dist(x_i,y_i)运用海明距离算法计算，

dist(x_i,y_i)=|x_i-y_i|/|max_i-min_i| （2）

式中，

max_i，min_i分别表示记录的第i个属性的最大值、最小值。

本发明实施例在相似度计算中，对文化程度进行离散化，将文化程度按照小学、初中、高中、大学、研究生分为五级，五级的属性值分别设置为：1、2、3、4、5，则在上表中，文化程度的属性的最大值为高中对应的属性值3，文化程度的属性的最小值为初中对应的属性值2，则文化程度属性的最大值与最小值之差为4。其他属性最大值与最小值的计算，可参照文化程度属性的最大值与最小值的计算方法，在此不再赘述。

实际应用中，可以设置：

表7所示为各数值属性权重及各数值属性值的最大值与最小值之差的数据表。

表7

根据公式（1）和公式（2），可以计算记录1与记录3的全局相似度值为：

sim(X,Y)=1-0.2*0.3/1.0-0.2*0.2/2.0-0.2*0/2-0.1*0/4-0.15*100/300

-0.15*100/260=0.812

这样，通过相似度计算结果，记录1与记录3的全局相似度值大于预先设置的相似度阀值0.8，因此，将记录3排除。

图3为本发明实施例在将源数据导入目标数据库的流程中进行数据清理的示意图。参见图3，在将源数据导入目标数据库的过程中，进行源数据清理，可以保证只将有效数据导入目标数据库中。其中，数据清理包括两个阶段，分别是业务规则检查阶段以及相似度检查阶段。

在将表2的源数据导入目标数据库的过程中，首先根据目标数据库的业务规则进行检查，其中，业务规则之一为年龄要求，即必须大于18周岁而小于80周岁，则表2中的编号2（记录2）中，李某年龄为17，不符合目标数据库业务规则中的年龄要求，因而，过滤该数据；其次，进行相似度检查，将表2中的编号（记录1）与编号3（记录3）进行相似度计算，得到的记录1与记录3的数据相似度大于数据相似度阀值0.8，因此，将记录3排除，最后，将农村收入及消费调查源数据中的记录1导入目标数据库中。

由上述可见，本发明实施例的数据导入处理方法，提出了在异构数据导入过程中进行数据处理的机制，通过对导入数据进行数据模型检查、业务规则检查以及相似度检查，保证了导入目标数据库中的数据为有效数据，减少了目标数据库中数据的冗余，避免了垃圾数据的产生，使目标数据库能够更准确、高效地运行，提升了存储的数据的一致性，提高了目标数据库的存储效率；进一步地，在数据处理中减少了冗余数据与垃圾数据，保证了目标数据库的完整性、一致性。

图4为本发明实施例数据处理装置结构示意图。参见图4，该装置包括：源数据获取模块、映射关系构建模块、过滤模块以及相似度处理模块，其中，

本发明实施例中，源数据存储格式包括：数据表、EXEL表、可扩展标记语言以及文本。

本发明实施例中，一源关键词可以唯一匹配一目标关键词，也可以匹配多个目标关键词，还可以是多个源关键词匹配同一目标关键词，还可以是源关键词没有与之匹配的目标关键词。

实际应用中，可以根据目标数据模型的属性项，对匹配的源数据模型的属性项进行拆分、合并以及数据归一处理，将源数据模型映射至目标数据模型。

本发明实施例中，目标数据模型业务规则可分为通用业务规则以及特定业务规则。

如果目标数据模型业务规则设置有多条，则当源数据不满足多条业务规则中的任意一条时，将该源数据执行过滤处理。

相似度处理模块，用于计算过滤处理后两相互源数据之间的全局相似度，删除全局相似度值大于预先设置的相似度阈值的两相互源数据中的一个源数据，并将经相似度处理的源数据导入至目标数据库的数据表中。

本发明实施例中，采用最近邻相似度算法计算源数据与目标数据之间的全局相似度。

其中，

映射关系构建模块包括：源关键词获取单元、目标关键词获取单元、匹配单元以及映射关系构建单元（图中未示出），其中，

相似度处理模块包括：相似度数据获取单元、属性权重分配单元最近邻相似度算法计算单元、全局相似度计算单元以及相似度处理单元（图中未示出），其中，

本发明实施例中，全局相似度计算公式为：

式中，

x_i和y_i分别为记录源数据X和目标数据记录Y的第i个属性；

其中dist(x_i,y_i)运用海明距离算法计算，

dist（x_i,y_i）=|x_i-y_i|/|max_i-min_i|

式中，

max_i，min_i分别表示记录的第i个属性的最大值、最小值。

显然，本领域技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也包含这些改动和变型在内。

Claims

1.一种数据导入处理方法，包括：

获取待导入的源数据、源数据模型与目标数据模型；

如果源数据不满足多条业务规则中的任意一条，则将该源数据执行过滤处理；

计算过滤处理后源数据与目标数据之间的全局相似度，删除全局相似度值大于预先设置的相似度阈值的源数据，并将经相似度处理符合相似度条件的源数据导入至目标数据库的数据表中；

所述建立源数据模型与目标数据模型的映射关系包括：

获取源数据模型中属性项的源关键词；

获取目标数据模型中属性项的目标关键词；

2.根据权利要求1所述的方法，其中，所述源数据模型和目标数据模型中的每一个包括：数据表、EXEL表、可扩展标记语言以及文本。

3.根据权利要求2所述的方法，其中，一所述源关键词唯一匹配一目标关键词，或一所述源关键词匹配多个目标关键词，或多个所述源关键词匹配同一目标关键词，或所述源关键词没有与之匹配的目标关键词。

4.根据权利要求3所述的方法，其中，所述根据源关键词匹配的目标关键词，建立将源数据模型转换为目标数据模型的映射关系包括：

5.根据权利要求1所述的方法，其中，采用最近邻相似度算法中海明距离计算所述全局相似度。

6.根据权利要求5所述的方法，其中，计算所述全局相似度的公式为：

<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mi>D</mi> <mi>I</mi> <mi>S</mi> <mi>T</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>w</mi> <mi>i</mi> </msub> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>

式中，

x_i和y_i分别为源数据记录X和目标数据记录Y的第i个属性；

w_i表示第i个属性的权重，i＝1,2,3,…,n，n为记录中属性的个数；

其中，

dist(x_i,y_i)＝|x_i-y_i|/|max_i-min_i|

式中，

max_i，min_i分别表示记录的第i个属性的最大值、最小值。

7.一种数据处理装置，其特征在于，该装置包括：源数据获取模块、映射关系构建模块、过滤模块以及相似度处理模块，其中，

相似度处理模块，用于计算过滤处理后源数据与目标数据之间的全局相似度，删除全局相似度值大于预先设置的相似度阈值的源数据，并将经相似度处理符合相似度条件的源数据导入至目标数据库的数据表中；

所述映射关系构建模块包括：源关键词获取单元、目标关键词获取单元、匹配单元以及映射关系构建单元，其中，

8.根据权利要求7所述的装置，其特征在于，所述相似度处理模块包括：相似度数据获取单元、属性权重分配单元、最近邻相似度算法计算单元、全局相似度计算单元以及相似度处理单元，其中，

9.根据权利要求8所述的装置，其特征在于，所述全局相似度计算公式为：

式中，

x_i和y_i分别为源数据记录X和目标数据记录Y的第i个属性；

w_i表示第i个属性的权重，i＝1,2,3,…,n，n为记录中属性的个数。

其中，

dist(x_i,y_i)＝|x_i-y_i|/|max_i-min_i|

式中，

max_i，min_i分别表示记录的第i个属性的最大值、最小值。