CN111275081A - 基于贝叶斯概率模型实现多来源数据链接处理的方法 - Google Patents

基于贝叶斯概率模型实现多来源数据链接处理的方法 Download PDF

Info

Publication number
CN111275081A
CN111275081A CN202010036184.2A CN202010036184A CN111275081A CN 111275081 A CN111275081 A CN 111275081A CN 202010036184 A CN202010036184 A CN 202010036184A CN 111275081 A CN111275081 A CN 111275081A
Authority
CN
China
Prior art keywords
distance
bayesian
source data
jaro
data link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010036184.2A
Other languages
English (en)
Inventor
虞慧婷
王春芳
臧嘉捷
崔欣
陈国武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Municipal Center For Disease Control & Prevention
Original Assignee
Shanghai Municipal Center For Disease Control & Prevention
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Municipal Center For Disease Control & Prevention filed Critical Shanghai Municipal Center For Disease Control & Prevention
Priority to CN202010036184.2A priority Critical patent/CN111275081A/zh
Publication of CN111275081A publication Critical patent/CN111275081A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于贝叶斯概率模型实现多来源数据链接处理的方法,包括以下步骤:对源数据的数据进行预处理,分析可进行比对的字段;对全链接数据集的字符型变量和非字符型变量进行比对;对阈值进行设定,构建贝叶斯先验概率模型;进行模型评估。本发明的基于贝叶斯概率模型实现多来源数据链接处理的方法,适用于不同来源、不同类型数据库的链接,可用于医药、商业管理、官方统计等领域中。本发明能识别重复记录,提高数据质量,可便捷识别重复记录,可极大地降低人工核对成本;能提高数据整合效率,将极大地提高数据链接效率;能扩充数据维度,开展跨领域研究。因此能够扩充数据维度,对于推进我国跨领域研究的质量和效率,会有着极大的帮助作用。

Description

基于贝叶斯概率模型实现多来源数据链接处理的方法
技术领域
本发明涉及数据挖掘领域,尤其涉及贝叶斯概率模型领域,具体是指一种基于贝叶斯概率模型实现多来源数据链接处理的方法。
背景技术
在信息技术高度发展的今天,大数据已经融入人们的生活,数据必定成为资源,大数据的研究、分析和应用已是必然趋势。但是由于信息的来源渠道多/信息分布广泛,一个研究问题所需的信息往往驻留在多个数据库中,研究人员必须在研究继续之前找到连接数据库的方法。
记录链接(Record Linkage)是一种应用统计学原理,识别不同数据库的相关记录是否来自同一个体,以实现数据库链接的一项新兴技术。数据完整时,可用唯一性主键进行精确链接。但真实数据并不完美,主键缺失精确链接无法实现。概率链接(ProbabilisticLinkage)通过对两条记录的多个字段分别进行匹配并赋予权重,得到他们来自同一个体的概率,从而进行匹配判定。
普通概率链接以样本信息为主,效率不高。本发明采用贝叶斯概率链接模型,依据匹配的“敏感性”和“特异性”(即比对变量相同时记录是否匹配的概率)构建权重似然函数,充分利用精确匹配获得的先验信息,通过贝叶斯算法改善似然函数的参数估计,以提高匹配效率。在信息化高速发展的今天,数据来源越来越广,信息资源越来越丰富,基于贝叶斯的概率链接方法能够有效利用已有的链接经验,改善对缺失数据的处理能力,提高数据整合效率,大幅提高数据利用效率。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种满足效果好、误差低、适用范围广泛的基于贝叶斯概率模型实现多来源数据链接处理的方法。
为了实现上述目的,本发明的基于贝叶斯概率模型实现多来源数据链接处理的方法如下:
该基于贝叶斯概率模型实现多来源数据链接处理的方法,其主要特点是,所述的方法包括以下步骤:
(1)对源数据的数据进行预处理,分析可进行比对的字段;
(2)对全链接数据集的字符型变量和非字符型变量进行比对;
(3)对阈值进行设定,构建贝叶斯先验概率模型;
(4)进行模型评估。
较佳地,所述的步骤(1)具体包括以下步骤:
(1.1)对不同来源的数据库的字段属性进行统一;
(1.2)合并生成全链接集合。
较佳地,所述的步骤(2)具体包括以下步骤:
(2.1)对全链接数据集的字符型变量进行比对;
(2.2)对全链接数据集的非字符型变量进行比对。
较佳地,所述的步骤(2.1)具体包括以下步骤:
(2.1.1)将两个字符串中包含的字符从左边开始比较,判断是否相同,如果是,则继续比对下一组字符;否则,换位至下一个字符继续比较,直至完成所有字符的比对;并计算两个字符串的Jaro距离得分;
(2.1.2)设置字符串进行匹配计算时限定范围的匹配窗口;
(2.1.3)计算Jaro-Winkler距离。
较佳地,所述的步骤(2.1.1)中计算两个字符串的Jaro距离得分,具体为:
根据以下公式计算两个字符串的Jaro距离得分:
Figure BDA0002366103390000021
其中,s1和s2为字符串,m为s1和s2匹配的字符数,t为换位的数目,dj为Jaro距离得分。
较佳地,所述的步骤(2.1.3)中计算Jaro-Winkler距离,具体为:
根据以下公式计算Jaro-Winkler距离:
dw=dj+lp(1-dj);
其中,dj为Jaro距离,l为两个字符串的共同前缀字符个数,p为缩放因子常量,用来调整共同前缀对于相似度的权重,p取值不超过0.25,默认值为0.1。
较佳地,所述的步骤(2.1)中还包括对中文字符处理的步骤,具体包括以下步骤:
(1-2.1)将中文字符串的汉字转换成拼音;
(1-2.2)通过Jaro-Winkler算法计算拼音的相似度;
(1-2.3)设定汉字距离的权重,将加权距离作为字段的综合距离。
较佳地,所述的步骤(2.2)具体包括以下步骤:
(2.2.1)对所有变量的比较值进行标准化处理,并计算变量距离;
(2.2.2)将变量距离转化为字符串;
(2.2.3)设定数值距离的权重,综合数值距离和Jaro-Winkler距离来计算变量间的综合相似度。
较佳地,所述的步骤(3)具体包括以下步骤:
(3.1)计算两两比较的所有比对字段的距离之和;
(3.2)将计算的求和值按降序排列,由上至下记录第x%位比对上记录的求和值,即为x%分位阈值;其中,x至少大于75;
(3.3)将大于阈值的求和值纳入训练数据集,生成训练数据集。
较佳地,所述的x为95。
较佳地,所述的步骤(4)具体包括以下步骤:
(4.1)将包含h个样本的训练集纳入贝叶斯分类器,并将样本输出记为Y,特征记为X;
(4.2)通过极大似然估计得到样本类别Ci出现的频率;
(4.3)利用条件概率和贝叶斯公式得到X和Y的联合分布p(X,Y);
(4.4)简化联合分布,得到不同Ci条件下xi的分布参数。
较佳地,所述的方法还包括以下步骤:
(5)对构建的贝叶斯先验概率模型进行应用。
较佳地,所述的步骤(5)具体包括以下步骤:
(5.1)计算新样本特征的2个后验条件概率,取其中较大值对应的样本类别为贝叶斯分类器的预测结果;
(5.2)根据计算得到分布参数,并判断各条记录是否匹配。
本发明的基于贝叶斯概率模型实现多来源数据链接处理的方法,适用于不同来源、不同类型数据库的链接,可用于医药、商业管理、官方统计等领域中。本发明能识别重复记录,提高数据质量:针对一些庞大的数据库,例如人口普查数据库,可能存在重复记录等影响数据质量的情况,应用贝叶斯概率链接模型对数据库自身进行全链接比较,可便捷识别重复记录,可极大地降低人工核对成本,提高数据质量。本发明能提高数据整合效率,为政府统计服务:国民收入分配统计时,核心工作就是将税务机关、银行、金融中介机构、企业雇主和社会保障部门的数据进行记录链接。利用贝叶斯概率链接方法将极大地提高数据链接效率,为政府部门的统计工作服务。本发明能扩充数据维度,开展跨领域研究:信息数据化时代,各行业或部门收集、存储了大量的用户行为、健康和经济活动记录,例如交通部门的交通事故信息记录和卫生部门的就诊记录。利用贝叶斯概率链接技术,将交通部门和卫生的诊疗记录进行链接,开展深入数据挖掘,可分析不同交通行为所引发的健康危害。因此贝叶斯概率链接方法的应用能够扩充数据维度,对于推进我国跨领域研究的质量和效率,会有着极大的帮助作用。
附图说明
图1为本发明的基于贝叶斯概率模型实现多来源数据链接处理的方法的流程图。
具体实施方式
为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。
本发明的该基于贝叶斯概率模型实现多来源数据链接处理的方法,其中包括以下步骤:
(1)对源数据的数据进行预处理,分析可进行比对的字段;
(1.1)对不同来源的数据库的字段属性进行统一;
(1.2)合并生成全链接集合;
(2)对全链接数据集的字符型变量和非字符型变量进行比对;
(2.1)对全链接数据集的字符型变量进行比对;
(2.1.1)将两个字符串中包含的字符从左边开始比较,判断是否相同,如果是,则继续比对下一组字符;否则,换位至下一个字符继续比较,直至完成所有字符的比对;并计算两个字符串的Jaro距离得分;
(2.1.2)设置字符串进行匹配计算时限定范围的匹配窗口;
(2.1.3)计算Jaro-Winkler距离;
(2.2)对全链接数据集的非字符型变量进行比对;
(2.2.1)对所有变量的比较值进行标准化处理,并计算变量距离;
(2.2.2)将变量距离转化为字符串;
(2.2.3)设定数值距离的权重,综合数值距离和Jaro-Winkler距离来计算变量间的综合相似度;
(1-2.1)将中文字符串的汉字转换成拼音;
(1-2.2)通过Jaro-Winkler算法计算拼音的相似度;
(1-2.3)设定汉字距离的权重,将加权距离作为字段的综合距离;
(3)对阈值进行设定,构建贝叶斯先验概率模型;
(3.1)计算两两比较的所有比对字段的距离之和;
(3.2)将计算的求和值按降序排列,由上至下记录第x%位比对上记录的求和值,即为x%分位阈值;其中,x至少大于75;
(3.3)将大于阈值的求和值纳入训练数据集,生成训练数据集;
(4)进行模型评估;
(4.1)将包含h个样本的训练集纳入贝叶斯分类器,并将样本输出记为Y,特征记为X;
(4.2)通过极大似然估计得到样本类别Ci出现的频率;
(4.3)利用条件概率和贝叶斯公式得到X和Y的联合分布p(X,Y);
(4.4)简化联合分布,得到不同Ci条件下xi的分布参数。
(5)对构建的贝叶斯先验概率模型进行应用。
(5.1)计算新样本特征的2个后验条件概率,取其中较大值对应的样本类别为贝叶斯分类器的预测结果;
(5.2)根据计算得到分布参数,并判断各条记录是否匹配。
作为本发明的优选实施方式,所述的x为95。
作为本发明的优选实施方式,所述的步骤(2.1.1)中计算两个字符串的Jaro距离得分,具体为:
根据以下公式计算两个字符串的Jaro距离得分:
Figure BDA0002366103390000051
其中,s1和s2为字符串,m为s1和s2匹配的字符数,t为换位的数目,dj为Jaro距离得分。
作为本发明的优选实施方式,所述的步骤(2.1.3)中计算Jaro-Winkler距离,具体为:
根据以下公式计算Jaro-Winkler距离:
dw=dj+lp(1-dj);
其中,dj为Jaro距离,l为两个字符串的共同前缀字符个数,p为缩放因子常量,用来调整共同前缀对于相似度的权重,p取值不超过0.25,默认值为0.1。
本发明的具体实施方式中,通过对不同来源数据库中多个字段的联合比对,高效判断不同记录是否来自同一个案、可否链接成一条记录,从而横向扩展数据源,高效扩充数据的维度和数据挖掘的深度,极大提升数据的利用价值。
一、贝叶斯概率链接先验模型的构建
本发明用于不同来源数据的链接时,既可用于字符串的比对,也可用于非字符型字段的比对。假设A和B两个数据集,包括的记录数分别为m和n,已经通过人工核对或其他方式,明确其中能够连接的记录,标记如下:
Figure BDA0002366103390000061
其中,a∈A,b∈B
(一)数据库准备
假设数据库A和B可以用来进行连接的变量为s1…sk,首先需对源数据的字段属性进行统一,使得用于链接的字段在不同来源的数据库中的属性保持一致,然后合并生成一个包含m×n条记录的A×B全链接集合。
(二)全链接数据集的比对
本发明针对比对变量的特定开发了不同的比对方法:
1、字符型变量的比较
(1)常规比较:在计算两个较短字符串的相似度时,本发明采用基于Jaro距离的基础上进一步改进的Jaro-Winkler算法,步骤如下:
(i)计算两个字符串s1和s2的Jaro距离得分:将s1和s2中包含的字符(既可以是英文也可以是中文字符)从左边第一个字符开始比较,相同则继续比对下一组字符,不相同则换位至下一个字符继续比对,直到完成所有字符的比对。m记为s1和s2匹配的字符数,t记为换位的数目,dj记为Jaro距离得分,如下:
Figure BDA0002366103390000062
(ii)匹配窗口(Match Window)的设置:在字符串s1与字符串s2在做匹配计算时有限定的范围,即匹配窗口。在匹配窗口内两个字符相等则为匹配成功,如果超出这个范围,则认为匹配不成功。匹配窗口定义如下:
Figure BDA0002366103390000063
(iii)计算Jaro-Winkler距离:Jaro-Winkler算法是Jaro算法的改进,赋予了起始部分就相同的字符串更高的分数,它定义了前缀范围p,对于要匹配的两个字符串,如果前缀部分有长度为l的部分字符串相同,则Jaro-Winkler距离计算如下:
dw=dj+lp(1-dj);
其中,dj为Jaro距离,l为两个字符串的共同前缀字符个数,p为缩放因子常量,用来调整共同前缀对于相似度的权重,因为dj的取值范围为0-1,因此p取值不能超过0.25,p的默认值设为0.1。
(2)算法优化:在字符比对中,中文字符有其特殊性,主要特点之一即为同音字较多,Jaro-Winkler算法无法识别字符串中的同音字,例如:枇杷树、琵琶树、梧桐树,Jaro-Winkler算认为三者相似度一致,但是对于熟悉汉子的人来说,枇杷树和琵琶树理应有着更加接近的相似度,因为两者的发音完全相同。本发明为能高效识别比对字符串中的中同音字,提出在进行字形比较的同时将中文字符串的汉字转换成拼音,然后再用Jaro-Winkler算法计算拼音的相似度,最后设定汉字距离的权重为q,将二者的加权距离作为该字段的综合距离:
d′w=qd汉字+(1-q)d拼音
其中,汉字与拼音的转化可采用Python集成开发工具中的“xpinyin”或“pypinyin”工具包实现。
2、非字符型变量的比较
对于非字符型变量的比较,可采用两个变量间的距离进行刻画。例如A数据集中第i条记录“身高”变量为“173”,B数据集中第j条记录“身高”变量为“172.5”,则两者距离为“|173-172.5|=0.5”;本发明中为去除不同变量量纲的影响,对所有变量的比较值进行标准化处理,公式如下:
Figure BDA0002366103390000071
但是在位数较多的数字中可能存在笔误的情况,例如日期型变量中月份和日子容易写反,数字中“1”和“7”,“6”和“9”等也容易写错,本研究在直接计算变量距离的基础上,进行优化将其转化为字符串,然后用Jaro-Winkler算法计算其相识度,设定数值距离的权重为q,综合数值距离和Jaro-Winkler距离来计算两个变量的综合相似度:
d′w=qd′数值+(1-q)d字符
(三)阈值的设定
若将包含m×n条记录的A×B全链接集合纳入贝叶斯模型,计算量将随原始数据库的扩大呈指数级扩增,且成功链接的记录对占比极低,不利于构建模型的稳定性,且模型的准确性也将大受影响。为此,本发明探索出了阈值的设定方法,在建模初期将大量不匹配的记录排除训练数据集,方法如下:
1、计算记录两两比较的所有比对字段的距离之和SUM:
Figure BDA0002366103390000081
2、将SUM值按降序排列,由上向下数,记录第95%位y(a,b)=1时对应的SUMx,即为95%分位阈值,示意图如下:
序号 y<sub>(a,b)</sub> SUM
1 1 SUM<sub>1</sub>
2 1 SUM<sub>2</sub>
x 1 SUM<sub>x</sub>
m×n 0 SUM<sub>m×n</sub>
其中,阈值可针对可比对的数量和模型的敏感性需求调整。
3、生成训练数据集:将SUM>SUMx的链接结合纳入训练数据集,假设包含h个样本。
(四)模型训练
本发明采用的是贝叶斯分类器原理,假设训练样本是:
(S11,S12,....,S1k,y1),(S21,S22,...,S2k,y2),...,(S,Sn2,...,Snk,yh);
即有h个样本,每个样本有k个特征S1,S2,...,Sk。输出Y有2个类别,定义为:C0(不匹配),C1(匹配)
由条件概率和贝叶斯公式:
p(X=x|Y=Ci)=p(X1=x1,...,Xk=xk|Y=Ci)i=0,1
Figure BDA0002366103390000082
得到X和Y的联合分布p(X,Y),联合分布p(X,Y)为p(X,Y=Ci)=p(Y=Ci)p(X=x|Y=Ci)
=p(Y=Ci)p(X1=x1,...Xk=xk|Y=Ci)
设特征X的k个维度间相互独立:
p(X1=x1,...Xk=xk|Y=Ci)=p(X1=x1|Y=Ci)p(X2=x2|Y=Ci)…p(Xk=xk|Y=Ci);
给定测试集的一个新样本特征
Figure BDA0002366103390000083
只要计算出2个后验条件概率p(Y=C0|X=x*)和p(Y=C1|X=x*),其中较大值对应的类别(C0 or C1)就是贝叶斯分类器的预测结果:
Figure BDA0002366103390000091
对于所有的类别计算上式时,其分母都是p(X=x*)。因此预测公式可以简化为
Figure BDA0002366103390000092
再利用独立性假设,就可以得到通常意义上的朴素贝叶斯推断公式
Figure BDA0002366103390000093
模型训练时,通过极大似然估计得到p(Y=Ci)的无偏估计
Figure BDA0002366103390000094
记为样本类别Ci出现的频率:
Figure BDA0002366103390000095
Figure BDA0002366103390000096
取决于训练数据分布类型,若Xj是离散的,可以假设Xj符合多项分布:
X<sub>1</sub> X<sub>2</sub> X<sub>3</sub> X<sub>4</sub> Y
6 2 9 0 0
5 3 3 1 1
4 1 1 1 0
5 3 1 0 0
3 3 4 1 1
得到
Figure BDA0002366103390000097
是在样本类别Ci中,
Figure BDA0002366103390000098
出现的频率。即
Figure BDA0002366103390000099
Figure BDA00023661033900000910
其中n0为样本类别C0出现的次数,而
Figure BDA00023661033900000911
为类别C0的样本中
Figure BDA00023661033900000912
出现的次数。
其中n1为样本类别C1出现的次数,而
Figure BDA00023661033900000913
为类别C1的样本中
Figure BDA00023661033900000914
出现的次数。
某些时候可能某些特征在样本中没有出现,导致
Figure BDA00023661033900000915
这样会影响后验的估计。为了让估计变化更加平滑,引入了拉普拉斯平滑:
Figure BDA00023661033900000916
Figure BDA0002366103390000101
α>0且为常数,常取1。Nj为第j个特征取值个数(如上表N1=4,N4=2)。
如果Xj是非常稀疏的离散值(近似连续取值),各类取值出现的概率都很低(e.g.对5000个数据,特征X1是[0,1]上的随机小数,则可以认为这5000个数据几乎没有有相同的,e.g.p(X1=5.1|Y=C0)≈0)。
X<sub>1</sub> X<sub>2</sub> X<sub>3</sub> X<sub>4</sub> Y
0.871 0.877 0.12 0.221 1
0.99 0.921 0.034 0.868 1
0.02 0.798 0.984 0.89 0
0.832 0.43 0.9 0.233 0
0.335 0.302 0.289 0.147 0
本发明进一步假设Xj服从伯努利分布,特征Xj出现记为1,不出现记为0。显然,需要人工设置一个阈值b用于表征Xj的出现(Xj≥b则认为出现,反之没有出现)。
其中,本发明的模型训练的步骤,具体包括以下步骤:
1、将包含h个样本的训练集(S11,S12,...,S1k,y1),(S21,S22,...,S2k,y2),……(S,Sh2,...,Shk,yh),纳入贝叶斯分类器,每个样本的输出Y有2个类别:C0(不匹配),C1(匹配),其特征记为X=(S11,S12,...,S1k);
2、通过极大似然估计得到样本类别Ci出现的频率:
Figure BDA0002366103390000102
3、利用条件概率和贝叶斯公式得到X和Y的联合分布p(X,Y):p(X,Y=Ci)=p(Y=Ci)p(X=x|Y=Ci)=p(Y=Ci)p(X1=x1,...Xk=xk|Y=Ci);
4、基于特征X的k个维度间相互独立的假设,进一步简化联合分布为:p(Y=Ci)p(X1=x1|Y=Ci)p(X2=x2|Y=Ci)…p(Xk=xk|Y=Ci),由此获得不同Ci条件下xi的分布参数。
二、贝叶斯概率链接模型应用
(一)构建链接数据集
对于需要链接的新数据集A′和B′,按上文所述对s1…sk变量统一数据格式,构建全链接数据集A'×B',计算全链接数据集中所有记录s1…sk变量的相似度,并且只保留SUM>SUMx的数据行。
(二)构建链接数据集
应用已经训练好的贝叶斯分类器,对给定测试集的一个新样本特征
Figure BDA0002366103390000111
计算出2个后验条件概率p(Y=C0|X=x*)和p(Y=C1|X=x*),其中较大值对应的类别(C0 or C1)就是贝叶斯分类器的预测结果用以判断链接数据集中各条记录是否匹配。
其中,本发明的模型应用的步骤,具体包括以下步骤:
给定测试集的一个新样本特征
Figure BDA0002366103390000112
只要计算出2个后验条件概率p(Y=C0|X=x*)和p(Y=C1|X=x*),其中较大值对应的类别(C0 or C1)就是贝叶斯分类器的预测结果:
Figure BDA0002366103390000113
代入模型训练中获得的各分布参数,可判断C的估计值,即两条记录是否匹配。本发明以贝叶斯概率链接方法进行出生数据库和婴儿死亡数据库的链接,以此作为具体实施例。
出生数据库和婴儿死亡数据库的链接,由于不存在类似身份证的关键字度可进行精确链接,且部分婴儿出生时健康状况不佳,甚至尚未取名,仅以***之子或之女暂代。故而采用贝叶斯概率链接方法进行两个数据库的链接,具体操作如下:
1.出生数据集(10万条记录)和死亡数据集(1242条记录)的预处理:
分析两数据可进行比对的字段为:姓名、出生日期、性别、父亲姓名、母亲姓名、居住地址;
(1)统一出生日期格式为yyyy-mm-dd;
(2)将数据集中的姓名、父亲姓名、母亲姓名均转换为拼音;
(3)生成出生和死亡数据集的全链接集合。
2.生成全链接结合的相似度矩阵:
(1)应用Jaro-Winkler算法,比较“姓名、父亲姓名”和“母亲姓名“的汉字和拼音在出生和死亡数据集中的相似度,记为cmp姓名、cmp父亲姓名和cmp母亲姓名;
(2)应用Jaro-Winkler算法和距离法,比较“出生日期”在两个数据集中的相似度,记为cmp出生日期;
(3)应用Jaro-Winkler算法,比较“性别”在两个数据集中的相似度,记为cmp性别;
3.贝叶斯先验概率模型构建:
(1)计算SUM值:SUM=cmp姓名+cmp父亲姓名+cmp母亲姓名+cmp出生日期+cmp性别;
(2)以SUM值降序排列相似度举证,从上向下统计到95%比对上的(1180条)记录的SUM值为2.976,将SUM值大于2.976的记录纳入分析集test;
(3)随机抽取test的70%作为贝叶斯模型的训练集,建立贝叶斯先验概率模型;
4.模型评估:
对于分类器的预测效果,采用混淆矩阵和F-score来评估。混淆矩阵的形式如下:
Figure BDA0002366103390000121
F-score的计算公式如下:
Figure BDA0002366103390000122
其中:
Figure BDA0002366103390000123
将test中剩余的30%记录进行模型预测效果的评估,模型的预测结果的F-score约为0.934,认为模型的预测效果较好。
本发明的基于贝叶斯概率模型实现多来源数据链接处理的方法,适用于不同来源、不同类型数据库的链接,可用于医药、商业管理、官方统计等领域中。本发明能识别重复记录,提高数据质量:针对一些庞大的数据库,例如人口普查数据库,可能存在重复记录等影响数据质量的情况,应用贝叶斯概率链接模型对数据库自身进行全链接比较,可便捷识别重复记录,可极大地降低人工核对成本,提高数据质量。本发明能提高数据整合效率,为政府统计服务:国民收入分配统计时,核心工作就是将税务机关、银行、金融中介机构、企业雇主和社会保障部门的数据进行记录链接。利用贝叶斯概率链接方法将极大地提高数据链接效率,为政府部门的统计工作服务。本发明能扩充数据维度,开展跨领域研究:信息数据化时代,各行业或部门收集、存储了大量的用户行为、健康和经济活动记录,例如交通部门的交通事故信息记录和卫生部门的就诊记录。利用贝叶斯概率链接技术,将交通部门和卫生的诊疗记录进行链接,开展深入数据挖掘,可分析不同交通行为所引发的健康危害。因此贝叶斯概率链接方法的应用能够扩充数据维度,对于推进我国跨领域研究的质量和效率,会有着极大的帮助作用。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。

Claims (13)

1.一种基于贝叶斯概率模型实现多来源数据链接处理的方法,其特征在于,所述的方法包括以下步骤:
(1)对源数据的数据进行预处理,分析可进行比对的字段;
(2)对全链接数据集的字符型变量和非字符型变量进行比对;
(3)对阈值进行设定,构建贝叶斯先验概率模型;
(4)进行模型评估。
2.根据权利要求1所述的基于贝叶斯概率模型实现多来源数据链接处理的方法,其特征在于,所述的步骤(1)具体包括以下步骤:
(1.1)对不同来源的数据库的字段属性进行统一;
(1.2)合并生成全链接集合。
3.根据权利要求1所述的基于贝叶斯概率模型实现多来源数据链接处理的方法,其特征在于,所述的步骤(2)具体包括以下步骤:
(2.1)对全链接数据集的字符型变量进行比对;
(2.2)对全链接数据集的非字符型变量进行比对。
4.根据权利要求3所述的基于贝叶斯概率模型实现多来源数据链接处理的方法,其特征在于,所述的步骤(2.1)具体包括以下步骤:
(2.1.1)将两个字符串中包含的字符从左边开始比较,判断是否相同,如果是,则继续比对下一组字符;否则,换位至下一个字符继续比较,直至完成所有字符的比对;并计算两个字符串的Jaro距离得分;
(2.1.2)设置字符串进行匹配计算时限定范围的匹配窗口;
(2.1.3)计算Jaro-Winkler距离。
5.根据权利要求4所述的基于贝叶斯概率模型实现多来源数据链接处理的方法,其特征在于,所述的步骤(2.1.1)中计算两个字符串的Jaro距离得分,具体为:
根据以下公式计算两个字符串的Jaro距离得分:
Figure FDA0002366103380000011
其中,s1和s2为字符串,m为s1和s2匹配的字符数,t为换位的数目,dj为Jaro距离得分。
6.根据权利要求4所述的基于贝叶斯概率模型实现多来源数据链接处理的方法,其特征在于,所述的步骤(2.1.3)中计算Jaro-Winkler距离,具体为:
根据以下公式计算Jaro-Winkler距离:
dw=dj+lp(1-dj);
其中,dj为Jaro距离,l为两个字符串的共同前缀字符个数,p为缩放因子常量,用来调整共同前缀对于相似度的权重,p取值不超过0.25,默认值为0.1。
7.根据权利要求4所述的基于贝叶斯概率模型实现多来源数据链接处理的方法,其特征在于,所述的步骤(2.1)中还包括对中文字符处理的步骤,具体包括以下步骤:
(1-2.1)将中文字符串的汉字转换成拼音;
(1-2.2)通过Jaro-Winkler算法计算拼音的相似度;
(1-2.3)设定汉字距离的权重,将加权距离作为字段的综合距离。
8.根据权利要求3所述的基于贝叶斯概率模型实现多来源数据链接处理的方法,其特征在于,所述的步骤(2.2)具体包括以下步骤:
(2.2.1)对所有变量的比较值进行标准化处理,并计算变量距离;
(2.2.2)将变量距离转化为字符串;
(2.2.3)设定数值距离的权重,综合数值距离和Jaro-Winkler距离来计算变量间的综合相似度。
9.根据权利要求1所述的基于贝叶斯概率模型实现多来源数据链接处理的方法,其特征在于,所述的步骤(3)具体包括以下步骤:
(3.1)计算两两比较的所有比对字段的距离之和;
(3.2)将计算的求和值按降序排列,由上至下记录第x%位比对上记录的求和值,即为x%分位阈值;其中,x至少大于75;
(3.3)将大于阈值的求和值纳入训练数据集,生成训练数据集。
10.根据权利要求9所述的基于贝叶斯概率模型实现多来源数据链接处理的方法,其特征在于,所述的x为95。
11.根据权利要求1所述的基于贝叶斯概率模型实现多来源数据链接处理的方法,其特征在于,所述的步骤(4)具体包括以下步骤:
(4.1)将包含h个样本的训练集纳入贝叶斯分类器,并将样本输出记为Y,特征记为X;
(4.2)通过极大似然估计得到样本类别Ci出现的频率;
(4.3)利用条件概率和贝叶斯公式得到X和Y的联合分布p(X,Y);
(4.4)简化联合分布,得到不同Ci条件下xi的分布参数。
12.根据权利要求1所述的基于贝叶斯概率模型实现多来源数据链接处理的方法,其特征在于,所述的方法还包括以下步骤:
(5)对构建的贝叶斯先验概率模型进行应用。
13.根据权利要求12所述的基于贝叶斯概率模型实现多来源数据链接处理的方法,其特征在于,所述的步骤(5)具体包括以下步骤:
(5.1)计算新样本特征的2个后验条件概率,取其中较大值对应的样本类别为贝叶斯分类器的预测结果;
(5.2)根据计算得到分布参数,并判断各条记录是否匹配。
CN202010036184.2A 2020-01-14 2020-01-14 基于贝叶斯概率模型实现多来源数据链接处理的方法 Pending CN111275081A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010036184.2A CN111275081A (zh) 2020-01-14 2020-01-14 基于贝叶斯概率模型实现多来源数据链接处理的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010036184.2A CN111275081A (zh) 2020-01-14 2020-01-14 基于贝叶斯概率模型实现多来源数据链接处理的方法

Publications (1)

Publication Number Publication Date
CN111275081A true CN111275081A (zh) 2020-06-12

Family

ID=71002966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010036184.2A Pending CN111275081A (zh) 2020-01-14 2020-01-14 基于贝叶斯概率模型实现多来源数据链接处理的方法

Country Status (1)

Country Link
CN (1) CN111275081A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115633090A (zh) * 2022-10-21 2023-01-20 北京中电飞华通信有限公司 一种基于eSIM卡和5G网络的多源数据链接方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180181644A1 (en) * 2016-12-22 2018-06-28 Aon Global Operations Ltd (Singapore Branch) Methods and systems for linking data records from disparate databases
CN109754854A (zh) * 2019-01-14 2019-05-14 上海市内分泌代谢病研究所 一种诊断编码和诊断名称匹配的方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180181644A1 (en) * 2016-12-22 2018-06-28 Aon Global Operations Ltd (Singapore Branch) Methods and systems for linking data records from disparate databases
CN109754854A (zh) * 2019-01-14 2019-05-14 上海市内分泌代谢病研究所 一种诊断编码和诊断名称匹配的方法和系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JIE TANG等: "A Unified Probabilistic Framework for Name Disambiguation in Digital Library", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 *
ZIN WAR TUN 等: "An Approach of Standardization and Searching based on Hierarchical Bayesian Clustering (HBC) for Record Linkage System", 《IEEE》 *
刘建平PINARD: "朴素贝叶斯算法原理小结", 《HTTPS://WWW.CNBLOGS.COM/PINARD/P/6069267.HTML》 *
周建芳: "《基于上下文仲裁的语义信息集成研究》", 31 August 2013, 中国地质大学出版社 *
李娜等: "异构网络中实体匹配算法综述", 《华东师范大学学报(自然科学版)》 *
樊重俊 等: "《大数据分析与应用》", 31 January 2016, 立信会计出版社 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115633090A (zh) * 2022-10-21 2023-01-20 北京中电飞华通信有限公司 一种基于eSIM卡和5G网络的多源数据链接方法

Similar Documents

Publication Publication Date Title
Cerda et al. Similarity encoding for learning with dirty categorical variables
CN110717047B (zh) 一种基于图卷积神经网络的Web服务分类方法
Wu et al. Fonduer: Knowledge base construction from richly formatted data
US20210382878A1 (en) Systems and methods for generating a contextually and conversationally correct response to a query
US20230031738A1 (en) Taxpayer industry classification method based on label-noise learning
WO2018218708A1 (zh) 一种基于深度学习的舆情热点类别划分方法
CN109508459B (zh) 一种从新闻中提取主题和关键信息的方法
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
Ruggles Linking historical censuses: A new approach
Fornés et al. ICDAR2017 competition on information extraction in historical handwritten records
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN112307153B (zh) 一种产业知识库自动构建方法、装置及存储介质
CN112131872A (zh) 一种文献作者重名消歧方法和构建系统
CN111597356B (zh) 智能化教育知识图谱构建系统与方法
CN111309777A (zh) 一种基于互斥表达的改进关联规则报表数据挖掘方法
CN114049926A (zh) 一种电子病历文本分类方法
CN111460091A (zh) 医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
Hu et al. Unsupervised software repositories mining and its application to code search
CN111597330A (zh) 一种基于支持向量机的面向智能专家推荐的用户画像方法
CN111275081A (zh) 基于贝叶斯概率模型实现多来源数据链接处理的方法
CN112989830A (zh) 一种基于多元特征和机器学习的命名实体识别方法
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN110807096A (zh) 一种小样本集上的信息对匹配方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200612