CN101814082A

CN101814082A - 一种基于蚁群优化的相似重复记录检测中自动特征加权与选择方法

Info

Publication number: CN101814082A
Application number: CN201010018226A
Authority: CN
Inventors: 曹建军; 刁兴春; 丁鲲; 杜鹢; 汪挺; 李凯齐; 严浩; 王芳潇
Original assignee: No 63 Inst Of Headquarters Of Genearal Staff Of Cp L A
Current assignee: No 63 Inst Of Headquarters Of Genearal Staff Of Cp L A
Priority date: 2010-01-20
Filing date: 2010-01-20
Publication date: 2010-08-25
Anticipated expiration: 2030-01-20
Also published as: CN101814082B

Abstract

一种基于蚁群优化的相似重复记录检测中自动特征加权与选择方法，包括定义了基于属性类型的相似度函数计算公式，方法通过应用属性权重和检测阈值综合考虑的同步优化策略，将基于相对权重的特征选择方案，属性权重归一化的约束转换策略，以及蚁群算法求解过程中在不同变量间启发式信息的作用平衡策略，有机地整合起来，使整个方法更加系统、全面，加之整个方法基于领域无关的设计理念，适用范围更加广泛，体现了方法极大的健壮性和良好的可扩展性。

Description

一种基于蚁群优化的相似重复记录检测中自动特征加权与选择方法

一、技术领域

本发明涉及领域无关数据清洗中检测和消除相似重复记录的问题。特别涉及基于蚁群优化的自动特征加权与选择方法。

二、技术背景

相似重复记录检测是数据清洗研究领域的一个重要方面，主要研究如何从实例层的角度考虑来提高数据质量。相似重复记录是指那些客观上表示现实世界同一实体的，但是由于在格式、拼写上有些差异而导致数据库系统不能正确识别的记录。为了减少数据源中的冗余信息，重复记录的清洗是一项重要的任务。它的主要应用领域在以下几个方面：

■数据仓库

■数据集成

■数据挖掘

依据数据特征信息的不同，相似重复记录清洗有基于特征相似度(feature basedsimilarity，FBS)的方法、基于上下文的方法(context-based methods)和基于关系的方法(relationship-based methods)，虽然后两者是为了弥补FBS方法的不足而发展起来的方法，但FBS方法通过测量记录中各属性值的相似程度进行数据清洗，运算效率高，能检测出多数相似重复记录，一直是相似重复记录清洗的基本方法。

目前，最典型的FBS方法是用两级相似度函数比较两条记录，首先通过两条记录的对应属性值计算属性级相似度，然后，联合属性级相似度计算两条记录的整体相似度来检测两记录(pair-wise)是否相似重复。一种合理的方式是针对属性类型特点分别定义相似度函数，但目前提出的大多数方法都将焦点集中在如何测量属性类型为字符串型时的相似程度，如基于编辑距离的测量方法，而对属性类型为枚举型和日期型，如何计算属性的相似程度尚缺乏有力的研究。再者，不同属性对相似重复记录检测的贡献不同，各属性的权重对数据清洗效果影响更直接。对较复杂的表，往往有多个属性可供数据清洗使用，而事实上，更多的属性参与相似重复记录检测会造成效率降低，甚至有些属性还会给数据清洗带来负面影响，所以，需要对属性进行选择，在模式识别中被称为特征选择问题，在数据清洗领域，对这一问题的研究还不多见。

三、发明内容

本发明的目的是：克服以上不足，提出一种基于蚁群优化的相似重复记录检测中自动特征加权与选择方法。

我们发明了新的基于蚁群优化的自动特征加权与选择方法，可以据此进行领域无关的相似重复记录检测。这种方法在兼顾提高召回率和准确率的同时，对属性集规模进行了有效的优化约减，从而可大幅提升相似重复记录的检测效率和检测精度。

一种基于蚁群优化的相似重复记录检测中自动特征加权与选择方法，包括建立召回率、准确率和权重能量分布综合最优的特征加权数学模型。给定待检记录，用其中的q(1≤q≤n)个属性进行相似重复记录检测，对属性重新编号，属性集为A^q＝{a₀，a₀，...，a_q-1}，相似度向量为

s_{ih}^{q} = (s_{0 ij}, s_{1 ij}, \cdot \cdot \cdot, s_{(q - 1) ij}),

建立特征加权数学模型如下：

max R(w₀，w₁，…，w_q-1；δ)

max P(w₀，w₁，…，w_q-1；δ)

max W(w₀，w₁，…，w_q-1)

s.t. w₀，w₁，…，w_q-1≥0，且

Σ_{k = 0}^{q - 1} w_{k} = 1

δ∈[0，1]

其中，R表示召回率，表示检测出的相似重复记录数占相似重复记录总数的百分比，P表示准确率，表示检测出的真正相似重复记录数占检测出的相似重复记录总数的百分比。

W (w_{0}, w_{1}, . . ., w_{q - 1}) = Σ_{k = 0}^{q - 1} w_{k}^{2}

表示属性权重的能量和，且

\frac{1}{q} = Σ_{k = 0}^{q - 1} \frac{1}{q^{2}} \leq W \leq 1,

此式说明，属性权重的能量和越大，说明大权重属性越少，即能量越向少数属性集中，即有更多的属性权重接近0，易于进行特征选择。模型希望求得一组权重和检测阈值，使召回率和准确率达到综合最优，同时使权重能量向少数属性的权重集中，三个目标函数优先级由高到低。

在特征选择方面，本方法采用的是基于相对权重的特征选择方法，通过去除相对权重为零的那些属性完成特征选择，利于将权重向更好的属性集中，提高检测效果和精度。

为了综合评价特征加权与选择过程在相似重复记录检测过程中的作用，我们建立了召回率、准确率和属性集规模综合最优的特征加权和选择数学模型。模型对属性权重和检测阈值同步优化，用属性的权重信息进行特征选择，实现了自动属性加权和选择，我们建立的特征加权和选择数学模型如下：

max R(w₀，w₁，…，w_q-1；δ)

max P(w₀，w₁，…，w_q-1；δ)

min q

s.t.0≤q≤n-1

δ∈[0，1]

上述特征加权与选择数学模型表明：希望求取属性集A^q的各属性权重和检测阈值，使召回率和准确率最优，同时使A^q的规模最小，三个目标函数的优先级由高到低，该模型的求解主要依赖于对特征加权数学模型的求解。

在对特征加权数学模型进行求解的过程中，我们引入蚁群优化算法对其进行求解。特征加权模型是典型的多目标多约束优化问题，包含属性权重和检测阈值两类变量，求解难度较大。为方便求解，我们对其进行了两步转化。首先，通过加权求和将召回率和准确率两个目标合并成一个目标，将三目标优化问题转化为两目标优化问题，降低了模型求解时的复杂度；而后，通过应用属性等级划分策略，对属性权重归一化的约束条件进行转化，将属性加权分解为划分等级和归一化求取权重两步，从而将对属性权重的约束隐含进对属性权重的归一化，避开了直接考虑权重约束的复杂性。

需要强调的是，我们在使用蚁群算法对上述特征加权数学模型进行求解的过程中，用网格宽度比平衡不同变量的启发式信息，以使蚁群在不同变量的搜索空间内启发信息对转移概率的作用一致。

除了在特征加权与选择方面有独到的地方，方法的总体设计也体现出很大的可扩展性。只要给定属性个数，本方法可在无需人工干预的情况下，自动确定最佳的属性权重序列和检测阈值，可有效克服以往由人工设定产生的弊端和不足。

本发明的优点：

本发明提出的自动特征加权与选择方法，据此提出的基于蚁群优化的相似重复记录检测中自动特征加权与选择方法，有如下的优点：

■同步优化策略。特征加权与选择模型综合考虑了相似重复记录检测的召回率、准确率和参与检测的属性集规模，模型对属性权重和检测阈值同步优化，用属性的权重信息进行特征选择，实现了自动属性加权和选择。

■约束转化策略。将属性加权分解为划分等级和归一化求取权重两步，从而将对属性权重的约束隐含进对属性权重的归一化，避开了直接考虑权重约束的复杂性。

■作用平衡策略。在使用蚁群算法对特征加权数学模型进行求解的过程中，用网格宽度比平衡不同变量的启发式信息，以使蚁群在不同变量的搜索空间内启发信息对转移概率的作用一致。

■健壮性。目前提出的大多数相似重复记录检测算法都是针对特定应用问题的，只适用于较小的范围，通用的、与应用领域无关的算法和方案较少，而我们设计的方法是领域无关的，适用范围较广。

■可扩展性。特征加权模型和特征加权与选择模型，以及我们设计的蚁群优化算法，一起构成了一套完整的相似重复记录检测中特征自动加权和选择及实现方法，对解决同类问题具有借鉴意义。

四、附图说明

图1求解特征加权与选择数学模型的算法

图2求解特征加权数学模型的蚁群算法

图3第D组联合搜索窗下蚂蚁搜索示意图

图4蚁群算法性能分析

图5相似重复记录检测结果

五、具体实施方式

我们先从记录相似度函数的定义开始说明。

记录相似度函数用于评价两记录的相似程度，将两记录的相似度函数定义为各属性相似度的加权之和。两记录的相似度函数，以下述公式计算：

S_{ij} = F (s_{0 ij}, s_{1 ij}, \cdot \cdot \cdot, s_{(n - 1) ij}) = Σ_{k = 0}^{n - 1} w_{k} s_{kij}

w₀，w₁，…，w_(n-1)≥0，且

Σ_{k = 0}^{n - 1} w_{k} = 1

其中，s_kij＝f_k(v_ki，v_kj)＝f_k(v_kj，v_ki)表示两记录r_i和r_j的第k个属性的相似度，假设共有n个属性，v_ki，k＝0，1，...，n-1表示记录r_i的第k个属性，w₀，w₁，…，w_(n-1)表示各属性的权重，S_ij为两记录的相似度函数值，通过设定检测阈值δ∈[0，1]，当S_ij＞δ时，记录r_i、r_j相似重复，否则不相似重复：

在考虑对待检记录的属性进行加权的过程中，必须综合考虑召回率、准确率和权重能量分布三方面因素的影响，即使召回率和准确率达到综合最优，又要使权重能量向少数属性的权重集中，从而便于评价各属性在相似重复记录检测中的重要程度。

综合以上对特征加权过程的分析，我们设计了同步优化策略。在该策略中，我们为特征加权过程建立如下数学模型：

max R(w₀，w₁，…，w_q-1；δ)

max P(w₀，w₁，…，w_q-1；δ)

max W(w₀，w₁，…，w_q-1)

s.t. w₀，w₁，…，w_q-1≥0，且

Σ_{k = 0}^{q - 1} w_{k} = 1

δ∈[0，1]

W (w_{0}, w_{1}, . . ., w_{q - 1}) = Σ_{k = 0}^{q - 1} w_{k}^{2}

表示属性权重的能量和，且

\frac{1}{q} = Σ_{k = 0}^{q - 1} \frac{1}{q^{2}} \leq W \leq 1,

图1给出了特征加权与选择数学模型的伪代码描述，图2给出了特征加权过程的蚁群算法伪代码描述。

以上讨论了特征加权过程的同步优化策略，以下主要说明求解上述特征加权数学模型过程中的约束转化策略。

特征加权模型是多目标多约束优化问题，要想利用蚁群算法对其进行求解，必须首先对属性权重归一化的约束条件进行转化，通过给属性a_k定义等级l_k∈[0，+∞)，k＝0，1，...，q-1，是连续的，即可以有0等级，等级越高，表示属性越重要，等级划分由蚁群优化实现，然后，将等级值做归一化求取权重，计算公式如下：

w_{k} = \frac{l_{k}}{Σ_{k = 0}^{q - 1} l_{k}}

通过上述转化，将求解特征加权模型转化为了间接求取属性等级和检测阈值。

以上讨论了特征加权数学模型求解过程中的约束转化策略，以下主要说明蚁群算法求解过程中的作用平衡策略。我们设计了基于平移搜索窗蚁群优化算法用于求解上述特征加权模型。

首先，需要进行搜索窗口的设定。记属性等级变量l_k的第D组搜索窗口为

L_{kD} = [L_{kDB}, L_{kDE}] &Subset; [0, + \infty),

D＝0，1，2，...；k＝0，1，...q-1，L_kDB，L_kDE分别为第D组第k个窗口的起点和终点，则记初始搜索窗口为L_k0＝[L_k0B，L_k0E](基准区域)，再记网格宽度为Δl(搜索精度)，窗口的网格数为M，每个窗口包含M+1个网格点，根据属性等级的实际意义，q个初始窗口均设定为以L_k0C＝1为中心(基准点)，等级值相等，即属性重要程度相同，各属性权重均为

，即算法从等权重邻近区域开始搜索)，设Δl＝0.1，M＝10，则Lk₀＝[0.5，1.5]，每个窗口含11个网格点。

记检测阈值变量δ的第D组搜索窗口为

Φ_{D} = [Φ_{DB}, Φ_{DE}] &Subset; [0,1],

D＝0，1，2，...，Φ_kB，Φ_kE分别为第D组窗口的起点和终点，相应的，记初始窗口为Φ₀＝[Φ_0B，Φ_0E]，网格宽度为Δδ，为了方便处理，并使不同类型的变量构成的解空间得到同等遍历，窗口网格数同样为M，根据相似重复记录检测阈值设定经验，最优阈值靠近其取值范围的上界，所以将初始窗的基准点设置为定义域的上边界，即Φ_0E＝1，设Δδ＝0.01，则Φ₀＝[0.90，1.00]，每个窗口含11个网格点。

图3给出了联合第D组属性等级变量和检测阈值变量搜索窗构成蚁群优化的第D组搜索空间。

其次，为了平衡算法求解过程中不同变量的启发式信息，以使蚁群在不同变量的搜索空间内启发信息对转移概率的作用一致，需要对启发式信息对两类变量的作用进行平衡。启发式信息矩阵η_xy由下式计算：

η_{xy} = \{\begin{matrix} | L_{xDB} + yΔl - L_{x 0 C} | & x = 0,1, . . ., q - 1 \\ (Φ_{0 E} - (Φ_{DB} + yΔδ)) \frac{Δl}{Δδ} & x = m - 1 \end{matrix}

上式表明：希望优先选择离初始窗基准点远的网格点，即希望每次窗口更新有较远平移，以快速到达更优区域；用网格宽度比平衡不同类型变量的启发式信息；启发式信息随窗口平移具有动态自适应性，离基准区域越远，各网格点的启发式信息差异越小，启发式信息的作用也相对减弱。

图4给出了蚁群算法迭代次数与目标函数值之间的关系。图4表明，随着迭代次数的增加，算法发现较好接的能力逐步增强，表明了算法的有效性。

以上讨论了蚁群算法求解过程中的作用平衡策略。

表1反映的是我们提出的基于蚁群优化的相似重复记录检测中自动特征加权与选择方法的有效性。由于本方法的提出是基于领域无关思想的，因而对解决同类问题具有借鉴意义，体现了方法良好的可扩展性。

Claims

1.一种基于蚁群优化的相似重复记录检测中自动特征加权与选择方法，其特征是建立了召回率、准确率和权重能量分布综合最优的特征加权数学模型。两记录的相似度函数，以下述公式计算：

S_{ij} = F (s_{0 ij}, s_{1 ij}, \cdot \cdot \cdot, s_{(n - 1) ij}) = Σ_{k = 0}^{n - 1} w_{k} s_{kij}

w₀，w₁，…，w_(n-1)≥0，且

Σ_{k = 0}^{n - 1} w_{k} = 1

给定待检记录，用其中的q(1≤q≤n)个属性进行相似重复记录检测，对属性重新编号，属性集为A^q＝{a₀，a₁，...，a_q-1}，相似度向量为

s_{ij}^{q} = (s_{0 ij}, s_{1 ij}, \cdot \cdot \cdot, s_{(q - 1) ij}),

建立特征加权数学模型如下：

max R(w₀，w₁，…，w_q-1；δ)

max P(w₀，w₁，…，w_q-1；δ)

max W(w₀，w₁，…，w_q-1)

s.t.w₀，w₁，…，w_q-1≥0，

Σ_{k = 0}^{q - 1} w_{k} = 1

δ∈[0，1]

其中，R表示召回率，表示检测出的相似重复记录数占相似重复记录总数的百分比，P表示准确率，表示检测出的真正相似重复记录数占检测出的相似重复记录总数的百分比，

W (w_{0}, w_{1}, . . ., w_{q - 1}) = Σ_{k = 0}^{q - 1} w_{k}^{2}

表示属性权重能量和，且

\frac{1}{q} = Σ_{k = 0}^{q - 1} \frac{1}{q^{2}} \leq W \leq 1,

此式说明，属性权重能量和的值域为[1/q，1]，其值越大，说明大权重属性越少，即能量越向少数属性集中，此时更多的属性权重接近0，易于进行特征选择：

上述数学模型表明：希望求得一组属性权重和检测阈值，使召回率和准确率达到综合最优，同时使权重能量向少数属性的权重集中，三个目标函数的优先级由高到低。

2.由权利要求1所述的一种基于蚁群优化的相似重复记录检测中自动特征加权与选择方法，其特征是定义了基于相对权重的特征选择方法，通过去除相对权重为零的那些属性完成特征选择，公式如下：

χ_{k} = \frac{w_{k}}{\max {w_{0}, w_{1}, \cdot \cdot \cdot, w_{q - 1}}}, k = 0,1, . . ., q - 1

其中，χ_k∈[0，1]反映了属性a_k在相似重复记录检测中与最重要(权重最大)的属性相比较的相对重要程度，若χ_k→0，则说明属性a_k的贡献很小；事实上，χ_k→0的属性还有可能对相似重复记录检测没有贡献，甚至会通过与其它属性竞争权重产生负面影响.将χ_k→0，即w_k＝0的属性删除，利于将权重向更好的属性集中，提高检测效果和精度。特征选择的过程即将w_k＝0的属性a_k从A^q中删除。

3.由权利要求1所述的一种基于蚁群优化的相似重复记录检测中自动特征加权与选择方法，其特征是建立了召回率、准确率和属性集规模综合最优的特征加权和选择数学模型：

max R(w₀，w₁，…，w_q-1；δ)

max P(w₀，w₁，…，w_q-1；δ)

min q

s.t.0≤q≤n-1

δ∈[0，1]

4.由权利要求1所述的一种基于蚁群优化的相似重复记录检测中自动特征加权与选择方法，其特征是通过模型分析和约束条件转化，设计了求解特征加权模型的基于平移搜索窗口的蚁群优化算法：

特征加权模型是典型的多目标多约束优化问题，要想利用蚁群算法对其进行求解，必须首先对属性权重归一化的约束条件进行转化，通过给属性a_k定义等级l_k∈[0，+∞)，k＝0，1，...，q-1，是连续的，即可以有0等级，等级越高，表示属性越重要，等级划分由蚁群优化实现，然后，将等级值做归一化求取权重，计算公式如下：

w_{k} = \frac{l_{k}}{Σ_{k = 0}^{q - 1} l_{k}}

通过上述转换，将求解特征加权模型转化为了间接求取属性等级和检测阈值。

为了平衡算法求解过程中不同变量的启发式信息，以使蚁群在不同变量的搜索空间内启发信息对转移概率的作用一致，需要将启发式信息对两类变量的作用进行平衡。启发式信息矩阵η_xy由下式计算：

η_{xy} = \{\begin{matrix} | L_{xDB} + yΔl - L_{x 0 C} | & x = 0,1, . . ., q - 1 \\ (Φ_{0 E} - (Φ_{DB} + yΔδ)) \frac{Δl}{Δδ} & x = m - 1 \end{matrix}