CN106528705A - 一种基于rbf神经网络的重复记录检测方法和系统 - Google Patents

一种基于rbf神经网络的重复记录检测方法和系统 Download PDF

Info

Publication number
CN106528705A
CN106528705A CN201610949906.7A CN201610949906A CN106528705A CN 106528705 A CN106528705 A CN 106528705A CN 201610949906 A CN201610949906 A CN 201610949906A CN 106528705 A CN106528705 A CN 106528705A
Authority
CN
China
Prior art keywords
particle
record
cluster
rbf neural
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610949906.7A
Other languages
English (en)
Inventor
蔡晓东
刘馨婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201610949906.7A priority Critical patent/CN106528705A/zh
Publication of CN106528705A publication Critical patent/CN106528705A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供一种基于RBF神经网络的重复记录检测方法和系统,其方法包括将多条记录进行聚类、分类;字符串相似度算法计算每个记录类中对应字段之间的相似度,得到字段之间相似度的特征向量;对记录进行标签标注;建立RBF神经网络模型,并根据减聚类算法对特征向量进行聚类,得到的聚类中心个数,将聚类中心个数作为RBF神经网络模型的隐层节点个数;对所述隐层节点个数进行聚类来得到RBF神经网络模型的隐层节点,实现RBF神经网络模型的优化。优化后的RBF神经网络模型经过训练后可识别重复记录,能够保持较好的稳定性、准确率和召回率。

Description

一种基于RBF神经网络的重复记录检测方法和系统
技术领域
本发明主要涉及数据挖掘领域,具体涉及一种基于RBF神经网络的重复记录检测方法和系统。
背景技术
大数据时代,企事业单位能够通过挖掘大数据中有用价值来提高经决策能力。大数据往往要经过数据清洗才能达到理想的质量要求,重复记录检测是数据清洗的重要环节,所谓重复记录定义如下:同一个现实实体在数据集合中用多条不完全相同的记录来表示。常见的形成种类有:插入、删除、交换、替换等。例如表1:
表1:重复记录示例
常用的方法有:基本的字段匹配算法,递归的字段匹配算法,基于“排序”&“合并”方法,采用距离函数模型的方法,基于q-gram算法,基于聚类的算法等。此类算法不但计算复杂度高,并且准确率不高。
发明内容
本发明所要解决的技术问题是提供一种基于RBF神经网络的重复记录检测方法和系统,对RBF神经网络模型进行优化处理,优化后的RBF神经网络模型经过训练后可识别重复记录,能够保持较好的稳定性、准确率和召回率。
本发明解决上述技术问题的技术方案如下:一种基于RBF神经网络的重复记录检测方法,包括如下步骤:
步骤S1:将多条记录进行聚类,从而将记录分为多个记录类;
步骤S2:根据字符串相似度算法计算每个记录类中对应字段之间的相似度,从而得到字段之间相似度的特征向量;具体的,所述字符串相似度算法为Jaro字符串相似度算法;
步骤S3:依照特征向量将聚类后的记录标注为重复记录的标签或非重复记录的标签,得到带标签的记录;
步骤S4:建立RBF神经网络模型,并根据减聚类算法对特征向量进行聚类,得到的聚类中心个数,将聚类中心个数作为RBF神经网络模型的隐层节点个数;
步骤S5:根据粒子群算法和聚类方法对所述隐层节点个数进行聚类来得到RBF神经网络模型的隐层节点,从而得到优化后的RBF神经网络模型;
步骤S6:将所述特征向量与带标签的记录配送给优化后的RBF神经网络进行训练,从而训练出可识别重复记录的重复记录检测模型,通过所述重复记录检测模型对带标签的记录进行重复记录检测。
本发明的有益效果是:通过减聚类算法得到RBF神经网络模型的隐层节点个数,并通过粒子群算法和聚类方法来得到RBF神经网络模型的隐层节点,从而实现RBF神经网络模型的优化,优化后的RBF神经网络模型对记录进行处理,能够保持较好的稳定性、准确率和召回率。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,步骤S4中,所述减聚类算法为SCM减聚类法,SCM减聚类法对特征向量进行聚类,得到RBF神经网络模型的隐层节点个数的具体方法为:
将所述特征向量作为SCM减聚类法的输入数据集,通过公式(1)计算特征向量的密度最大点,得到第一聚类中心,
其中,X为特征向量,γa∈R+,γa为Xi的邻域半径,选定最大的密度值,设为Dc1,所对应的样本Xc1作为第一聚类中心,
通过公式(2)更新样本Xc1密度值,
Di=Di-Dc1exp(-β||Xi-Xc1||2) (2)
求出更新后的聚类中心,直到Dci<εDc1,其中ε取值为0.5,得到聚类中心个数,将得到的聚类中心个数作为RBF神经网络模型的隐层节点个数,
其中,γb=ηγa,η为系数,η=R+b表示为一个密度指标函数显著减少的邻域。
采用上述进一步方案的有益效果是:影响RBF神经网络性能的最主要的因素是的隐含层中心的选取,通过减聚类法能够有效的确定聚类中心个数。
进一步,所述η=R+取η=1.5,即γb=1.5γa
采用上述进一步方案的有益效果是:能够避免出现相距很近的聚类中心的情况。
进一步,所述根据粒子群PSO算法和K-Means聚类方法对隐层节点个数进行聚类来得到RBF神经网络模型的隐层节点的方法为:所述根据粒子群算法为粒子群PSO算法,所述聚类方法为K-Means聚类方法;
将特征向量的数据集作为粒子群PSO算法的粒子,通过粒子群PSO算法输出最优适应值的粒子,并根据最优适应值的粒子来优化K-Means聚类方法,再将RBF神经网络模型隐层节点的个数作为优化后的K-Means聚类方法的聚类个数,通过优化后的K-Means聚类方法对隐层节点的个数进行聚类来得到聚类中心,将所述聚类中心作为RBF神经网络模型的隐层节点。
进一步,所述通过粒子群PSO算法输出最优适应值的粒子,并根据最优适应值的粒子来优化K-Means聚类方法,具体实现如下:
将特征向量的数据集作为粒子群PSO算法中的粒子,根据粒子的位置来决定是否进行粒子更新,如果更新则根据公式(3)和公式(4)来更新输入粒子的速度和位置,
vid=w·vid+c1·rand()·(pid-xid)
+c2·rand()·(pgd-xid) (3)
xid=xid+vid (4)
其中w为惯性权重,Vid为粒子的速度,Xid为粒子当前位置,Pid为粒子的个体位置最优值,Pgd为粒子的群体位置最优值,c1和c2为加速常数,rand()为在[0,1]范围里变化的随机值;
再根据群体适应度方差,即公式(5)判断粒子群是否收敛,若收敛,则输出最优适应值的粒子所包含的聚类划分,根据最优适应值的粒子得到K-Means聚类中心的编码,并根据最邻近法则确定特征向量的数据集中的聚类划分,K-Means聚类方法根据所述编码计算聚类中心,重新划分特征向量的数据集,
其中,δ2为适应度方差,n为粒子个数;fi为第i个粒子的适应值;favg为粒子群目前的平均适应度,f为归一化因子。
采用上述进一步方案的有益效果是:通过粒子群PSO算法能够对K-Means聚类方法进行优化,优化的K-Means聚类方法计算聚类中心能够得到隐含层中心。
进一步,所述判断粒子群是否收敛的方法为:当δ2<m时,m为预设的阈值,即粒子群进入收敛阶段时,则完成对K-Means聚类方法的优化。
进一步,所述根据粒子的位置来决定是否进行更新的方法为:根据适应度函数计算粒子当前的适应值作为粒子的编码,根据编码随机初始化粒子的速度和位置,并反复进行T次随机初始化,生成含有n个粒子的初始化种群;
根据个体寻优方法确定初始化种群中粒子当前的位置是否为该粒子经历的个体位置最优值Pid,以及通过群体寻优方法确定粒子当前的位置是否为初始化种群粒子中的群体位置最优值Pgd,如果是,则通过公式(3)和公式(4)进行更新初始化种群中粒子的速度和位置。
采用上述进一步方案的有益效果是:通过求取粒子的两个位置最优值来对粒子进行更新,进而实现对K-Means聚类方法的优化。
进一步,所述根据适应度函数计算粒子当前的适应值的方法为:将粒子随机划分类别作为最初的种群聚类,并计算种群聚类的聚类中心,利用公式(6)来计算粒子当前的适应值,
其中,E为适应值,h为聚类中心的个数,n为粒子群大小,Ci为种群聚类的聚类中心值,d为距离函数,xj为粒子的空间位置。
采用上述进一步方案的有益效果是:通过求取粒子的两个位置最优值来对粒子进行更新,进而实现对K-Means聚类方法的优化。
本发明解决上述技术问题的另一技术方案如下:一种基于RBF神经网络的重复记录检测系统,包括:
记录分类模块,用于将多条记录进行聚类,从而将记录分为多个记录类;
特征向量模块,用于根据字符串相似度算法计算两两记录类中预设字段之间的相似度,从而得到字段之间相似度的特征向量;
标签标注模块,用于依照特征向量将聚类后的记录标注为重复记录的标签或非重复记录的标签,得到带标签的记录;
聚类模块,用于建立RBF神经网络模型,并根据减聚类算法对特征向量进行聚类,得到的聚类中心个数,将聚类中心个数作为RBF神经网络模型的隐层节点个数;
优化模块,用于根据粒子群算法和聚类方法对所述隐层节点个数进行聚类来得到RBF神经网络模型的隐层节点,从而得到优化后的RBF神经网络模型;
训练模块,根据将所述特征向量与带标签的记录配送给优化后的RBF神经网络进行训练,得到重复记录检测模型,通过所述重复记录检测模型对带标签的记录进行重复记录检测。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,聚类模块中所述减聚类算法为SCM减聚类法,SCM减聚类法对特征向量进行聚类,得到RBF神经网络模型的隐层节点个数的具体方法为:
将所述特征向量作为SCM减聚类法的输入数据集,通过公式(1)计算特征向量的密度最大点,得到第一聚类中心,
其中,Xi为特征向量,γa∈R+,γa为Xi的邻域半径,选定最大的密度值,设为Dc1,所对应的样本Xc1作为第一聚类中心,
通过公式(2)更新样本Xc1密度值,
Di=Di-Dc1exp(-β||Xi-Xc1||2) (2)
求出更新后的聚类中心,直到Dci<εDc1,其中ε取值为0.5,得到聚类中心个数,将得到的聚类中心个数作为RBF神经网络模型的隐层节点个数,
其中,γb=ηγa,η为系数,η=R+b表示为一个密度指标函数显著减少的邻域。
附图说明
图1为本发明基于RBF神经网络的重复记录检测方法实施例的方法流程图;
图2为本发明基于RBF神经网络的重复记录检测系统实施例的模块框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
RBF神经网络模型是一种具有单隐含层的三层前馈网络,由输入层、隐含层和输出层组成,RBF神经网络模型具有结构简单、训练速度快、能够逼近任意非线性函数的优点,而影响RBF神经网络模型性能的最主要的因素是的隐含层中心的选取,目前最常用的隐含层中心的确定方法是K-means聚类算法,其基本思想是从X个数据样本中随机选取h个数据作为初始聚类中心,然后计算所有样本与聚类中心的距离,对输入样本进行分类,重新计算新的聚类中心,重复上述步骤,直至聚类中心不再变化。K-means聚类算法简单易实现,但是由于初始聚类中心是随机选取,对中心的依赖性强,容易陷入局部最优解,并且其聚类中心的个数是事先给定的,不能根据数据样本特点来确定最合适的聚类个数,针对这一问题,引入了减聚类法,减聚类法能够自适应的确定聚类个数,进而通过粒子群(PSO)优化K-Means得到隐含层中心。
如图1所示的一种基于RBF神经网络的重复记录检测方法,包括如下步骤:
步骤S1:将多条记录进行聚类,从而将记录分为多个记录类;
步骤S2:根据字符串相似度算法计算两两记录类中预设字段之间的相似度,从而得到字段之间相似度的特征向量;具体的,所述字符串相似度算法为Jaro字符串相似度算法;
步骤S3:依照特征向量将聚类后的记录标注为重复记录的标签或非重复记录的标签,得到带标签的记录;具体的,重复记录可标记为“1”,非重复记录可标记为“-1”;
步骤S4:建立RBF神经网络模型,并根据减聚类算法对特征向量进行聚类,得到的聚类中心个数,将聚类中心个数作为RBF神经网络模型的隐层节点个数;
步骤S5:根据粒子群算法和聚类方法对所述隐层节点个数进行聚类来得到RBF神经网络模型的隐层节点,从而得到优化后的RBF神经网络模型;
步骤S6:将所述特征向量与带标签的记录配送给优化后的RBF神经网络进行训练,从而训练出可识别重复记录的重复记录检测模型,通过所述重复记录检测模型对带标签的记录进行重复记录检测。
通过减聚类算法得到RBF神经网络模型的隐层节点个数,并通过粒子群PSO算法和K-Means聚类方法来得到RBF神经网络模型的隐层节点,从而实现RBF神经网络模型的优化,优化后的RBF神经网络模型对记录进行处理,能够保持较好的稳定性、准确率和召回率。
具体的,在该实施例中,对于步骤S4,所述减聚类算法为SCM减聚类法,SCM减聚类法对特征向量进行聚类,得到RBF神经网络模型的隐层节点个数的具体方法为:
将所述特征向量作为SCM减聚类法的输入数据集,通过公式(1)计算特征向量的密度最大点,得到第一聚类中心,
其中,X为特征向量,γa∈R+,γa为Xi的邻域半径,选定最大的密度值,设为Dc1,所对应的样本Xc1作为第一聚类中心,
通过公式(2)更新样本Xc1密度值,
Di=Di-Dc1exp(-β||Xi-Xc1||2) (2)
求出每次更新后的聚类中心,直到Dci<εDc1,其中ε取值为0.5,得到聚类中心个数,将得到的聚类中心个数作为RBF神经网络模型的隐层节点个数,
其中,γb=ηγa,η为系数,η=R+b表示为一个密度指标函数显著减少的邻域。
影响RBF神经网络性能的最主要的因素是的隐含层中心的选取,通过减聚类法能够有效的确定聚类中心个数。
上述实施例中,所述η=R+取η=1.5,即γb=1.5γa。能够避免出现相距很近的聚类中心的情况。
应理解,粒子群PSO算法是基于群体的,根据对环境的适应度将群体中的个体移动到好的区域。然而它不对个体使用演化算子,而是将每个个体看作是D维搜索空间中的一个没有体积的微粒(点),在搜索空间中以一定的速度飞行,这个速度根据它本身的飞行经验和同伴的飞行经验来动态调整。
作为本发明的一个实施例,所述根据粒子群算法和聚类方法对隐层节点个数进行聚类来得到RBF神经网络模型的隐层节点的方法为:所述根据粒子群算法为粒子群PSO算法,所述聚类方法为K-Means聚类方法;
将特征向量的数据集作为粒子群PSO算法的粒子,通过粒子群PSO算法输出最优适应值的粒子,并根据最优适应值的粒子来优化K-Means聚类方法,再将RBF神经网络模型隐层节点的个数作为优化后的K-Means聚类方法的聚类个数,通过优化后的K-Means聚类方法对隐层节点的个数进行聚类来得到聚类中心,将所述聚类中心作为RBF神经网络模型的隐层节点。
上述实施例中,所述通过粒子群PSO算法输出最优适应值的粒子,并根据最优适应值的粒子来优化K-Means聚类方法,具体实现如下:
将特征向量的数据集作为粒子群PSO算法中的粒子,根据粒子的位置来决定是否进行粒子更新,如果更新则根据公式(3)和公式(4)来更新输入粒子的速度和位置,
vid=w·vid+c1·rand()·(pid-xid)
+c2·rand()·(pgd-xid) (3)
xid=xid+vid (4)
其中w为惯性权重,Vid为粒子的速度,Xid为粒子当前位置,Pid为粒子的个体位置最优值,Pgd为粒子的群体位置最优值,c1和c2为加速常数,rand()为在[0,1]范围里变化的随机值;
再根据群体适应度方差,即公式(5)判断粒子群是否收敛,若收敛,则输出最优适应值的粒子所包含的聚类划分,根据最优适应值的粒子得到K-Means聚类中心的编码,并根据最邻近法则确定特征向量的数据集中的聚类划分,K-Means聚类方法根据所述编码计算聚类中心,重新划分特征向量的数据集,
其中,δ2为适应度方差,n为粒子个数;fi为第i个粒子的适应值;favg为粒子群目前的平均适应度,f为归一化因子。
通过粒子群PSO算法能够对K-Means聚类方法进行优化,优化的K-Means聚类方法计算聚类中心能够得到隐含层中心。
上述实施例中,所述判断粒子群是否收敛的方法为:当δ2<m时,m为预设的阈值,即粒子群进入收敛阶段时,则完成对K-Means聚类方法的优化。
上述实施例中,所述根据粒子的位置来决定是否进行更新的方法为:根据适应度函数计算粒子当前的适应值作为粒子的编码,根据编码随机初始化粒子的速度和位置,并反复进行T次随机初始化,生成含有n个粒子的初始化种群;
根据个体寻优方法确定初始化种群中粒子当前的位置是否为该粒子经历的个体位置最优值Pid,以及通过群体寻优方法确定粒子当前的位置是否为初始化种群粒子中的群体位置最优值Pgd,如果是,则通过公式(3)和公式(4)进行更新初始化种群中粒子的速度和位置。
通过求取粒子的两个位置最优值来对粒子进行更新,进而实现对K-Means聚类方法的优化。
上述实施例中,所述根据适应度函数计算粒子当前的适应值的方法为:将粒子随机划分类别作为最初的种群聚类,并计算种群聚类的聚类中心,利用公式(6)来计算粒子当前的适应值,
其中,E为适应值,h为聚类中心的个数,n为粒子群大小,Ci为种群聚类的聚类中心值,d为距离函数,xj为粒子的空间位置。
通过求取粒子的两个位置最优值来对粒子进行更新,进而实现对K-Means聚类方法的优化。
如图2所示,本发明实施例还提供一种基于RBF神经网络的重复记录检测系统,包括:
记录分类模块,用于将多条记录进行聚类,从而将记录分为多个记录类;
特征向量模块,用于根据字符串相似度算法计算两两记录类中预设字段之间的相似度,从而得到字段之间相似度的特征向量;
标签标注模块,用于依照特征向量将聚类后的记录标注为重复记录的标签或非重复记录的标签,得到带标签的记录;
聚类模块,用于建立RBF神经网络模型,并根据减聚类算法对特征向量进行聚类,得到的聚类中心个数,将聚类中心个数作为RBF神经网络模型的隐层节点个数;
优化模块,用于根据粒子群算法和聚类方法对所述隐层节点个数进行聚类来得到RBF神经网络模型的隐层节点,从而得到优化后的RBF神经网络模型;
训练模块,根据将所述特征向量与带标签的记录配送给优化后的RBF神经网络进行训练,得到重复记录检测模型,通过所述重复记录检测模型对带标签的记录进行重复记录检测。
作为本发明的一个实施例,聚类模块中所述减聚类算法为SCM减聚类法,SCM减聚类法对特征向量进行聚类,得到RBF神经网络模型的隐层节点个数的具体方法为:
将所述特征向量作为SCM减聚类法的输入数据集,通过公式(1)计算特征向量的密度最大点,得到第一聚类中心,
其中,X为特征向量,γa∈R+,γa为Xi的邻域半径,选定最大的密度值,设为Dc1,所对应的样本Xc1作为第一聚类中心,
通过公式(2)更新样本Xc1密度值,
Di=Di-Dc1exp(-β||Xi-Xc1||2) (2)
求出每次更新后的聚类中心,直到Dci<εDc1,其中ε取值为0.5,得到聚类中心个数,将得到的聚类中心个数作为RBF神经网络模型的隐层节点个数,
其中,γb=ηγa,η为系数,η=R+,γb表示为一个密度指标函数显著减少的邻域。具体的,为避免出现相距很近的聚类中心的情况,所述η=R+取η=1.5,即γb=1.5γa
作为本发明的一个实施例,所述根据粒子群PSO算法和K-Means聚类方法对隐层节点个数进行聚类来得到RBF神经网络模型的隐层节点的方法为:所述根据粒子群算法为粒子群PSO算法,所述聚类方法为K-Means聚类方法;
将特征向量的数据集作为粒子群PSO算法的粒子,通过粒子群PSO算法输出最优适应值的粒子,并根据最优适应值的粒子来优化K-Means聚类方法,再将RBF神经网络模型隐层节点的个数作为优化后的K-Means聚类方法的聚类个数,通过优化后的K-Means聚类方法对隐层节点的个数进行聚类来得到聚类中心,将所述聚类中心作为RBF神经网络模型的隐层节点。
作为本发明的一个实施例,所述通过粒子群PSO算法输出最优适应值的粒子,并根据最优适应值的粒子来优化K-Means聚类方法,具体实现如下:
将特征向量的数据集作为粒子群PSO算法中的粒子,根据粒子的位置来决定是否进行粒子更新,如果更新则根据公式(3)和公式(4)来更新输入粒子的速度和位置,
vid=w·vid+c1·rand()·(pid-xid)
+c2·rand()·(pgd-xid) (3)
xid=xid+vid (4)
其中w为惯性权重,Vid为粒子的速度,Xid为粒子当前位置,Pid为粒子的个体位置最优值,Pgd为粒子的群体位置最优值,c1和c2为加速常数,rand()为在[0,1]范围里变化的随机值;
再根据群体适应度方差,即公式(5)判断粒子群是否收敛,若收敛,则输出最优适应值的粒子所包含的聚类划分,根据最优适应值的粒子得到K-Means聚类中心的编码,并根据最邻近法则确定特征向量的数据集中的聚类划分,K-Means聚类方法根据所述编码计算聚类中心,重新划分特征向量的数据集,
其中,δ2为适应度方差,n为粒子个数;fi为第i个粒子的适应值;favg为粒子群目前的平均适应度,f为归一化因子。
上述实施例中,通过粒子群PSO算法能够对K-Means聚类方法进行优化,优化的K-Means聚类方法计算聚类中心能够得到隐含层中心。
作为本发明的一个实施例,所述判断粒子群是否收敛的方法为:当δ2<m时,m为预设的阈值,即粒子群进入收敛阶段时,则完成对K-Means聚类方法的优化。
作为本发明的一个实施例,所述根据粒子的位置来决定是否进行更新的方法为:根据适应度函数计算粒子当前的适应值作为粒子的编码,根据编码随机初始化粒子的速度和位置,并反复进行T次随机初始化,生成含有n个粒子的初始化种群;
根据个体寻优方法确定初始化种群中粒子当前的位置是否为该粒子经历的个体位置最优值Pid,以及通过群体寻优方法确定粒子当前的位置是否为初始化种群粒子中的群体位置最优值Pgd,如果是,则通过公式(3)和公式(4)进行更新初始化种群中粒子的速度和位置。
采用上述进一步方案的有益效果是:通过求取粒子的两个位置最优值来对粒子进行更新,进而实现对K-Means聚类方法的优化。
作为本发明的一个实施例,所述根据适应度函数计算粒子当前的适应值的方法为:将粒子随机划分类别作为最初的种群聚类,并计算种群聚类的聚类中心,利用公式(6)来计算粒子当前的适应值,
其中,E为适应值,h为聚类中心的个数,n为粒子群大小,Ci为种群聚类的聚类中心值,d为距离函数,xj为粒子的空间位置。
上述实施例中,通过求取粒子的两个位置最优值来对粒子进行更新,进而实现对K-Means聚类方法的优化。
本重复记录检测系统通过减聚类算法得到RBF神经网络模型的隐层节点个数,并通过粒子群PSO算法和K-Means聚类方法来得到RBF神经网络模型的隐层节点,从而实现RBF神经网络模型的优化,优化后的RBF神经网络模型对记录进行处理,能够保持较好的稳定性、准确率和召回率。
本发明根据实验表明,当记录数找过5万时,依然能保持95%以上的准确率和召回率。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于RBF神经网络的重复记录检测方法,其特征在于,包括如下步骤:
步骤S1:将多条记录进行聚类,从而将记录分为多个记录类;
步骤S2:根据字符串相似度算法计算两两记录类中预设字段之间的相似度,从而得到字段之间相似度的特征向量;
步骤S3:依照特征向量将聚类后的记录标注为重复记录的标签或非重复记录的标签,得到带标签的记录;
步骤S4:建立RBF神经网络模型,并根据减聚类算法对特征向量进行聚类,得到的聚类中心个数,将聚类中心个数作为RBF神经网络模型的隐层节点个数;
步骤S5:根据粒子群算法和聚类方法对所述隐层节点个数进行聚类来得到RBF神经网络模型的隐层节点,从而得到优化后的RBF神经网络模型;
步骤S6:将所述特征向量与带标签的记录配送给优化后的RBF神经网络进行训练,得到重复记录检测模型,通过所述重复记录检测模型对带标签的记录进行重复记录检测。
2.根据权利要求1所述的重复记录检测方法,其特征在于,步骤S4中,所述减聚类算法为SCM减聚类法,SCM减聚类法对特征向量进行聚类,得到RBF神经网络模型的隐层节点个数的具体方法为:
将所述特征向量作为SCM减聚类法的输入数据集,通过公式(1)计算特征向量的密度最大点,得到第一聚类中心,
D i = &Sigma; j = 1 n exp ( - &alpha; | | X i - X j | | 2 ) - - - ( 1 )
其中,X为特征向量,γa∈R+,γa为Xi的邻域半径,选定最大的密度值,设为Dc1,所对应的样本Xc1作为第一聚类中心,
通过公式(2)更新样本Xc1密度值,
Di=Di-Dc1exp(-β||Xi-Xc1||2) (2)
求出更新后的聚类中心,直到Dci<εDc1,其中ε取值为0.5,得到聚类中心个数,将得到的聚类中心个数作为RBF神经网络模型的隐层节点个数,
其中,γb=ηγa,η为系数,η=R+,γb表示为一个密度指标函数显著减少的邻域。
3.根据权利要求2所述的重复记录检测方法,其特征在于,所述η=R+取η=1.5,即γb=1.5γa
4.根据权利要求1所述的重复记录检测方法,其特征在于,所述根据粒子群算法和聚类方法对隐层节点个数进行聚类来得到RBF神经网络模型的隐层节点的方法为:所述根据粒子群算法为粒子群PSO算法,所述聚类方法为K-Means聚类方法;
将特征向量的数据集作为粒子群PSO算法的粒子,通过粒子群PSO算法输出最优适应值的粒子,并根据最优适应值的粒子来优化K-Means聚类方法,再将RBF神经网络模型隐层节点的个数作为优化后的K-Means聚类方法的聚类个数,通过优化后的K-Means聚类方法对隐层节点的个数进行聚类来得到聚类中心,将所述聚类中心作为RBF神经网络模型的隐层节点。
5.根据权利要求4所述的重复记录检测方法,其特征在于,所述通过粒子群PSO算法输出最优适应值的粒子,并根据最优适应值的粒子来优化K-Means聚类方法,具体实现如下:
将特征向量的数据集作为粒子群PSO算法中的粒子,根据粒子的位置来决定是否进行粒子更新,如果更新则根据公式(3)和公式(4)来更新输入粒子的速度和位置,
vid=w·vid+c1·rand()·(pid-xid)
+c2·rand()·(pgd-xid) (3)
xid=xid+vid (4)
其中w为惯性权重,Vid为粒子的速度,Xid为粒子当前位置,Pid为粒子的个体位置最优值,Pgd为粒子的群体位置最优值,c1和c2为加速常数,rand()为在[0,1]范围里变化的随机值;
再根据群体适应度方差,即公式(5)判断粒子群是否收敛,若收敛,则输出最优适应值的粒子所包含的聚类划分,根据最优适应值的粒子得到K-Means聚类中心的编码,并根据最邻近法则确定特征向量的数据集中的聚类划分,K-Means聚类方法根据所述编码计算聚类中心,重新划分特征向量的数据集,
&delta; 2 = - &Sigma; i - 1 n ( f i - f a v g f ) 2 - - - ( 5 )
其中,δ2为适应度方差,n为粒子个数;fi为第i个粒子的适应值;favg为粒子群目前的平均适应度,f为归一化因子。
6.根据权利要求5所述的重复记录检测方法,其特征在于,所述判断粒子群是否收敛的方法为:当δ2<m时,m为预设的阈值,则完成对K-Means聚类方法的优化。
7.根据权利要求5所述的重复记录检测方法,其特征在于,所述根据粒子的位置来决定是否进行更新的方法为:根据适应度函数计算粒子当前的适应值作为粒子的编码,根据编码随机初始化粒子的速度和位置,并反复进行T次随机初始化,生成含有n个粒子的初始化种群;
根据个体寻优方法确定初始化种群中粒子当前的位置是否为该粒子经历的个体位置最优值Pid,以及通过群体寻优方法确定粒子当前的位置是否为初始化种群粒子中的群体位置最优值Pgd,如果是,则通过公式(3)和公式(4)进行更新初始化种群中粒子的速度和位置。
8.根据权利要求7所述的重复记录检测方法,其特征在于,所述根据适应度函数计算粒子当前的适应值的方法为:将粒子随机划分类别作为最初的种群聚类,并计算种群聚类的聚类中心,利用公式(6)来计算粒子当前的适应值,
E = &Sigma; i = 1 h &Sigma; j = 1 n d 2 ( x j , c i ) - - - ( 6 )
其中,E为适应值,h为聚类中心的个数,n为粒子群大小,Ci为种群聚类的聚类中心值,d为距离函数,xj为粒子的空间位置。
9.一种基于RBF神经网络的重复记录检测系统,其特征在于,包括:
记录分类模块,用于将多条记录进行聚类,从而将记录分为多个记录类;
特征向量模块,用于根据字符串相似度算法计算两两记录类中预设字段之间的相似度,从而得到字段之间相似度的特征向量;
标签标注模块,用于依照特征向量将聚类后的记录标注为重复记录的标签或非重复记录的标签,得到带标签的记录;
聚类模块,用于建立RBF神经网络模型,并根据减聚类算法对特征向量进行聚类,得到的聚类中心个数,将聚类中心个数作为RBF神经网络模型的隐层节点个数;
优化模块,用于根据粒子群算法和聚类方法对所述隐层节点个数进行聚类来得到RBF神经网络模型的隐层节点,从而得到优化后的RBF神经网络模型;
训练模块,根据将所述特征向量与带标签的记录配送给优化后的RBF神经网络进行训练,得到重复记录检测模型,通过所述重复记录检测模型对带标签的记录进行重复记录检测。
10.根据权利要求9所述的重复记录检测系统,其特征在于,聚类模块中所述减聚类算法为SCM减聚类法,SCM减聚类法对特征向量进行聚类,得到RBF神经网络模型的隐层节点个数的具体方法为:
将所述特征向量作为SCM减聚类法的输入数据集,通过公式(1)计算特征向量的密度最大点,得到第一聚类中心,
D i = &Sigma; j = 1 n exp ( - &alpha; | | X i - X j | | 2 ) - - - ( 1 )
其中,X为特征向量,γa∈R+,γa为Xi的邻域半径,选定最大的密度值,设为Dc1,所对应的样本Xc1作为第一聚类中心,
通过公式(2)更新样本Xc1密度值,
Di=Di-Dc1exp(-β||Xi-Xc1||2) (2)
求出更新后的聚类中心,直到Dci<εDc1,其中ε取值为0.5,得到聚类中心个数,将得到的聚类中心个数作为RBF神经网络模型的隐层节点个数,
其中,γb=ηγa,η为系数,η=R+b表示为一个密度指标函数显著减少的邻域。
CN201610949906.7A 2016-10-26 2016-10-26 一种基于rbf神经网络的重复记录检测方法和系统 Pending CN106528705A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610949906.7A CN106528705A (zh) 2016-10-26 2016-10-26 一种基于rbf神经网络的重复记录检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610949906.7A CN106528705A (zh) 2016-10-26 2016-10-26 一种基于rbf神经网络的重复记录检测方法和系统

Publications (1)

Publication Number Publication Date
CN106528705A true CN106528705A (zh) 2017-03-22

Family

ID=58325207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610949906.7A Pending CN106528705A (zh) 2016-10-26 2016-10-26 一种基于rbf神经网络的重复记录检测方法和系统

Country Status (1)

Country Link
CN (1) CN106528705A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108289285A (zh) * 2018-01-12 2018-07-17 上海海事大学 一种海洋无线传感器网络丢失数据恢复与重构方法
CN108958020A (zh) * 2018-05-29 2018-12-07 南京理工大学 一种基于rbf神经网络动态预测pid的温度控制方法
CN110796158A (zh) * 2019-09-10 2020-02-14 国网浙江省电力有限公司杭州供电公司 基于rbf径向基神经网络的电网公司分类方法
CN112784910A (zh) * 2021-01-28 2021-05-11 武汉市博畅软件开发有限公司 一种垃圾数据深度过滤方法及系统
CN112809680A (zh) * 2021-01-26 2021-05-18 山东大学 基于多约束条件的机器人抓取模式选择方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286156A (zh) * 2007-05-29 2008-10-15 北大方正集团有限公司 基于元数据去除重复对象的方法
CN101814082A (zh) * 2010-01-20 2010-08-25 中国人民解放军总参谋部第六十三研究所 一种基于蚁群优化的相似重复记录检测中自动特征加权与选择方法
CN103336771A (zh) * 2013-04-02 2013-10-02 江苏大学 基于滑动窗口的数据相似检测方法
CN104850624A (zh) * 2015-05-20 2015-08-19 华东师范大学 近重复记录的相似度评估方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286156A (zh) * 2007-05-29 2008-10-15 北大方正集团有限公司 基于元数据去除重复对象的方法
CN101814082A (zh) * 2010-01-20 2010-08-25 中国人民解放军总参谋部第六十三研究所 一种基于蚁群优化的相似重复记录检测中自动特征加权与选择方法
CN103336771A (zh) * 2013-04-02 2013-10-02 江苏大学 基于滑动窗口的数据相似检测方法
CN104850624A (zh) * 2015-05-20 2015-08-19 华东师范大学 近重复记录的相似度评估方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
孟祥逢 等: "基于遗传神经网络的相似重复记录检测方法", 《计算机工程与设计》 *
杨志 等: "一种改进的基于粒子群的聚类算法", 《计算机应用研究》 *
马骏 等: "一种改进的RBF神经网络学习算法", 《计算机系统应用》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108289285A (zh) * 2018-01-12 2018-07-17 上海海事大学 一种海洋无线传感器网络丢失数据恢复与重构方法
CN108289285B (zh) * 2018-01-12 2020-11-13 上海海事大学 一种海洋无线传感器网络丢失数据恢复与重构方法
CN108958020A (zh) * 2018-05-29 2018-12-07 南京理工大学 一种基于rbf神经网络动态预测pid的温度控制方法
CN110796158A (zh) * 2019-09-10 2020-02-14 国网浙江省电力有限公司杭州供电公司 基于rbf径向基神经网络的电网公司分类方法
CN112809680A (zh) * 2021-01-26 2021-05-18 山东大学 基于多约束条件的机器人抓取模式选择方法及系统
CN112784910A (zh) * 2021-01-28 2021-05-11 武汉市博畅软件开发有限公司 一种垃圾数据深度过滤方法及系统

Similar Documents

Publication Publication Date Title
CN106528705A (zh) 一种基于rbf神经网络的重复记录检测方法和系统
US11816183B2 (en) Methods and systems for mining minority-class data samples for training a neural network
CN104298778B (zh) 一种基于关联规则树的轧钢产品质量的预测方法及系统
CN105631003B (zh) 支持海量数据分组统计的智能索引构建、查询及维护方法
CN113096388B (zh) 一种基于梯度提升决策树的短时交通流量预测方法
US20030004902A1 (en) Outlier determination rule generation device and outlier detection device, and outlier determination rule generation method and outlier detection method thereof
CN110473592B (zh) 一种多视角人类协同致死基因预测方法
CN108540320B (zh) 基于信令挖掘用户满意度的评估方法
CN109218223B (zh) 一种基于主动学习的鲁棒性网络流量分类方法及系统
CN112270355B (zh) 基于大数据技术与sae-gru的主动安全预测方法
CN104050242A (zh) 基于最大信息系数的特征选择、分类方法及其装置
CN107526975A (zh) 一种基于差分隐私保护决策树的方法
Yuan et al. Evoq: Mixed precision quantization of dnns via sensitivity guided evolutionary search
CN110990566B (zh) 一种基于社区检测的增量聚类算法
Yi et al. Flight delay classification prediction based on stacking algorithm
CN111985623A (zh) 基于最大化互信息和图神经网络的属性图群组发现方法
Chiang et al. Parameter control mechanisms in differential evolution: a tutorial review and taxonomy
CN105046720A (zh) 基于人体运动捕捉数据字符串表示的行为分割方法
Chu et al. Co-training based on semi-supervised ensemble classification approach for multi-label data stream
CN109934681A (zh) 用户感兴趣商品的推荐方法
Xia et al. Historical data-independent remaining useful life prediction method based on dual-input deep learning neural network
Li et al. Utilizing the LightGBM Algorithm for Operator User Credit Assessment Research
CN108268876A (zh) 一种基于聚类的近似重复记录的检测方法及装置
CN111723997A (zh) 一种基于gan的城市重大交通事故数据样本自动生成方法
CN110533074A (zh) 一种基于双深度神经网络的图片类别自动标注方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination