CN109284393A - 一种针对家谱人物属性名称的融合方法 - Google Patents
一种针对家谱人物属性名称的融合方法 Download PDFInfo
- Publication number
- CN109284393A CN109284393A CN201810990234.3A CN201810990234A CN109284393A CN 109284393 A CN109284393 A CN 109284393A CN 201810990234 A CN201810990234 A CN 201810990234A CN 109284393 A CN109284393 A CN 109284393A
- Authority
- CN
- China
- Prior art keywords
- list
- family tree
- true
- prefix
- character attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 24
- 230000004927 fusion Effects 0.000 claims abstract description 14
- 238000001914 filtration Methods 0.000 claims abstract description 13
- 238000012217 deletion Methods 0.000 claims description 15
- 230000037430 deletion Effects 0.000 claims description 15
- 229910010888 LiIn Inorganic materials 0.000 claims description 14
- 108091071262 Lambda family Proteins 0.000 claims description 3
- 102000042463 Rho family Human genes 0.000 claims description 3
- 108091078243 Rho family Proteins 0.000 claims description 3
- 102000042822 P family Human genes 0.000 claims 1
- 108091082789 P family Proteins 0.000 claims 1
- 238000013507 mapping Methods 0.000 description 5
- 238000007499 fusion processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种针对家谱人物属性名称的融合方法,包括:1构建关于家谱人物属性名称的语料库。2过滤包含非中文字符的属性名称。3对属性名称做规则处理;相似度距离判断、字符内容判断、包含关系判断,对属性名称进行融合。4将融合得到的所有属性名称更新进关于家谱人物属性名称的语料库。5对属性名称做模式分类处理;分别定义前缀模式及后缀模式,并根据模式进行分类,达到融合的目的。本发明能够帮助用户对概念表示相同的家谱人物属性名称进行融合,从而提高数据的存储效率。
Description
技术领域
本发明属于数据处理领域,具体的说是一种针对家谱人物属性名称的融合方法。
背景技术
知识图谱这一概念自被提出以来就受到众多学者的关注,知识图谱的发展推动了数据的互联开放。属性名称融合是知识图谱构建过程中的一个重要阶段,其目的是发现属性名称之间的对应关系,并对可融合的一组属性名称采用规范的名称表示。有效的属性名称融合方法有助于建设高质量知识图谱。已有的属性名称融合方法依赖于外部语料库计算属性名称之间的相似度,或依赖结构信息、上下文信息将其表示为向量计算相似度距离;而可用于中文属性名称融合的语料库较少,内容通常具有局限性;并且中文知识库中关于属性的结构、上下文信息较难获取。
特别地,目前关于家谱人物知识图谱中的属性名称的融合工作较少。采用上述方法难以取得较高的准确率,并且无法发现属性名称之间满足的模式,降低了数据的存储效率。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种应用于家谱系统的建设过程中,在获取若干个多源异构的家谱人物属性名称列表后的针对家谱人物属性名称的融合方法,以期能根据属性名称的特点设计规则,定义模式提高属性名称融合的质量,从而能提供一套简洁规范的属性名称,提高系统的数据质量及建设效率。
本发明为解决技术问题采用如下技术方案:
本发明一种针对家谱人物属性名称的融合方法的特点是按如下步骤进行:
步骤1、获取z个不同的家谱人物属性名称的列表,记为{A1,A2,…,Ai,…,Az},其中,Ai表示第i个家谱人物属性名称的列表,并有 表示第i个列表中第t个家谱人物属性名称,hi表示第i个列表中所包含的家谱人物属性名称的总数,z≥2;1≤i≤z;1≤t≤hi;
步骤2、初始化i=1;
步骤3、定义第i个列表Li,并初始化Li为空;
步骤4、判断列表Li是否为空;若为空,则执行步骤5;否则,执行步骤6;
步骤5、获取第i+1个列表Li+1:
步骤5.1、将第i个列表Ai赋值给第i个列表Li,并删除第i个列表Li中含有非中文字符的家谱人物属性名称,得到第一次删除后的列表 表示第一次删除后的列表L′i中第t′个元素,h′i表示第一次删除后的列表L′i中包含的元素的总数,1≤t′≤h′i;
步骤5.2、删除所述第一次删除后的列表L′i中不符合规则的家谱人物属性名称,得到第二次删除后的列表L″i;
步骤5.2.1、定义变量k,初始化t′=1;
步骤5.2.2、初始化k=t′+1;
步骤5.2.3、利用式(1)计算第t′个元素与第k个元素的字符串相似度并判断是否成立,若成立,则执行步骤5.2.4;否则,执行步骤5.2.6,其中,T表示阈值;
式(1)中,表示通过对第t′个元素做增加、删除、替换字符的操作得到第k个元素的最小编辑次数,MAX(·)表示最大值函数,len(·)表示求取字符串长度的函数;
步骤5.2.4、判断第t′个元素与第k个元素包含的字符是否相同且字符个数是否相等,若相同且相等,则令第k个元素为空,再执行步骤5.2.6,否则,执行步骤5.2.5;
步骤5.2.5、判断第k个元素是否包含第t′个元素或者第t′个元素是否包含第k个元素若是,则令第k个元素为空,否则执行步骤5.2.6;
步骤5.2.6、将k+1赋值给k,并判断k>h′i是否成立,若成立,则执行步骤5.2.7;否则,执行步骤5.2.3;
步骤5.2.7、将t′+1赋值给t′,并判断t′>h′i是否成立,若成立,则表示得到第二次删除后的列表L″i,并执行步骤5.3;否则执行步骤5.2.2;
步骤5.3、删除所述第二次删除后的列表L″i中的空元素得到第三次删除后的列表L″′i,并将L″′i作为第i+1个列表Li+1后执行步骤7;
步骤6、更新第i个列表Li;
步骤6.1、记第i个列表 表示第i个列表Li中第r个家谱人物属性名称,m表示第i个列表Li中包含的家谱人物属性名称的总数,1≤r≤m;
步骤6.2、删除第i个列表Ai中含有非中文字符的家谱人物属性名称得到第一次删除后的第i个列表其中;表示第一次删除后的第i个列表A′i中第t′个元素,h′i表示第一次删除后的第i个列表A′i中包含的元素的总数,1≤t′≤h′i;
步骤6.3、将第一次删除后的第i个列表A′i中相应的元素添加到第i个列表Li中:
步骤6.3.1、初始化t′=1,定义变量w;
步骤6.3.2、初始化w=len(Li);
步骤6.3.3、初始化r=1;
步骤6.3.4、判断第t′个元素与第r个家谱人物属性名称是否相同,若相同,则执行步骤6.3.7,否则执行步骤6.3.5;
步骤6.3.5、将r+1赋值给r,并判断r>w是否成立,若成立,则执行步骤6.3.6;否则,执行步骤6.3.4;
步骤6.3.6、判断r>w是否成立,若成立,则将第t′个元素添加到第i个列表Li中;否则,执行步骤6.3.7;
步骤6.3.7、将t′+1赋值给t′,并判断t′>h′i是否成立,若成立,则表示获得第一次更新后的列表L′i,并执行步骤6.4;否则,执行步骤6.3.2;
步骤6.4、根据步骤5.2的过程,同样删除所述第一次更新后的列表L′i中不符合规则的家谱人物属性名称,得到第二次更新后的列表L″i;
步骤6.5、删除第二次更新后的列表L″i中的空元素得到第三次更新后的列表L″′i,并将L″′i作为第i+1个列表Li+1;
步骤7、将i+1赋值给i,并判断i>z是否成立,若成立,则表示获得最终更新的列表L={c1,c2,…,cu,…,cv},其中,cu表示最终更新的列表L中第u个家谱人物属性名称,v表示最终更新的列表L中包含的家谱人物属性名称的总数,1≤u≤v,并执行步骤8;否则,执行步骤4;
步骤8、定义前缀模式列表P,并初始化为空;
步骤9、获取前缀模式列表P;
步骤9.1、初始化u=1;
步骤9.2、初始化w=u+1;
步骤9.3、定义δ,并根据式(2)计算变量δ的值:
δ=MIN(len(cu),len(cw)) (2)
式(2)中,MIN(·)表示最小值函数;
步骤9.4、初始化k=1;
步骤9.5、判断cu[k]与cw[k]不相等是否成立,若成立,则执行步骤9.8,其中,cu[k]与cw[k]分别表示第u个元素cu与第w个元素cw中的第k个字符;否则,执行步骤9.6;
步骤9.6、判断k>2是否成立,若成立,则将cu[1→k]添加到列表P中,其中,cu[1→k]表示由第u个元素cu的第1位字符到第k位字符所组成的字符串;否则,执行步骤9.7;
步骤9.7、将k+1赋值给k,并判断k>δ是否成立,若成立,则执行步骤9.8;否则,执行步骤9.5;
步骤9.8、将w+1赋值给w,并判断w>v是否成立,若成立,则执行步骤9.9;否则,执行步骤9.3;
步骤9.9、将u+1赋值给u,并判断u>v是否成立,若成立,则表示获得前缀模式列表P={d1,d2,···,dλ,···,dβ},其中,dλ表示前缀模式列表P中第λ个家谱人物属性名称,β表示前缀模式列表P中包含的家谱人物属性名称的总数,1≤λ≤β;并执行步骤10;否则,执行步骤9.2;
步骤10、过滤所述前缀模式列表P中小于阈值的家谱人物属性名称,得到阈值处理后的前缀模式列表P′;
步骤10.1、定义阈值T',并利用式(3)计算阈值T'的值;
式(3)中,dmax与dmin分别表示前缀模式列表P中包含字符个数最多和包含字符个数最少的家谱人物属性名称;
步骤10.2、初始化λ=1;
步骤10.3、判断len(dλ)<T'是否成立,若成立,则删除第λ个元素dλ再执行步骤10.4;否则直接执行步骤10.4;
步骤10.4、将λ+1赋值给λ;并判断λ>β是否成立,若成立,则表示得到阈值处理后的前缀模式列表P′={d′1,d′2,···,d′λ′,···,d′β′},其中,d′λ′表示阈值处理后的前缀模式列表P′中第λ′个家谱人物属性名称,β′表示阈值处理后的前缀模式列表P′中包含的家谱人物属性名称的总数,1≤λ′≤β′;并执行步骤11,否则,返回步骤10.3;
步骤11、过滤所述阈值处理后的前缀模式列表P′中重叠的属性名称,得到重叠处理后的前缀模式列表P″;
步骤11.1、初始化λ'=1;
步骤11.2、判断d′λ′是否为空,若为空,则执行11.7;否则执行步骤11.3;
步骤11.3、初始化w=λ'+1;
步骤11.4、判断第λ′个元素d′λ′是否为第w个元素d′w的前缀,若是,则将第λ′个元素d′λ′赋为空,并执行步骤11.7;否则,执行步骤11.5;
步骤11.5、判断第w个元素d′w是否为第λ′个元素d′λ′的前缀,若是,则将第w个元素d′w赋为空,并执行步骤11.6,否则,直接执行步骤11.6;
步骤11.6、将w+1赋值给w,并判断w>β′是否成立,若成立,则执行步骤11.7;否则执行步骤11.4;
步骤11.7、将λ'+1赋值给λ',并判断λ'>β′是否成立,若成立,则表示得到重叠处理后的前缀模式列表P″,并执行步骤12;否则,执行步骤11.2;
步骤12、删除所述重叠处理后的前缀模式列表P″中的空元素得到删除空元素后的前缀模式列表P″′={d″′1,d″′2,···,d″′λ″′,···,d″′β″′};其中,d″′λ″′表示删除空元素后的前缀模式列表P″′中第λ″′个家谱人物属性名称,β″′表示删除空元素后的前缀模式列表P″′中包含的家谱人物属性名称的总数,1≤λ″′≤β″′;
步骤13、利用删除空元素后的前缀模式列表P″′对所述最终更新的列表L中的家谱人物属性名称做最大前缀处理,得到最大前缀处理后的列表L′;
步骤13.1、初始化u=1;
步骤13.2、初始化λ″′=1;
步骤13.3、判断第λ″′个元素d″′λ″′是否为第u个元素cu的前缀,若是,则删除第u个元素cu并执行步骤13.5;否则执行步骤13.4;
步骤13.4、将λ″′+1赋值给λ″′,并判断λ″′>β″′是否成立,若成立,则执行步骤13.5,否则,返回步骤13.3;
步骤13.5、将u+1赋值给u,并判断u>v是否成立,若成立,则表示得到最大前缀处理后的列表L′={c′1,c′2,…,c′u′,…,c′v′},其中,c′u′表示最大前缀处理后的列表L′中第u′个家谱人物属性名称,v′表示最大前缀处理后的列表L′中包含的家谱人物属性名称的总数,1≤u′≤v′,并执行步骤14;否则,执行步骤13.2;
步骤14、定义后缀模式列表S,并初始化S为空;
步骤15、获取后缀模式列表S;
步骤15.1、初始化u′=1;
步骤15.2、初始化w=u′+1;
步骤15.3、将第u′个元素c′u′与第w个元素c′w中的字符顺序逆置,从而得到更新后的第u′个元素eu′与第w个元素ew;
步骤15.4、定义变量δ',并根据式(4)计算变量δ'的值:
δ'=MIN(len(eu′),len(ew)) (4)
步骤15.5、初始化k=1;
步骤15.6、判断eu′[k]与ew[k]不相等是否成立,若成立,则执行步骤15.9,其中,eu′[k]与ew[k]分别表示更新后的第u′个元素eu′与第w个元素ew的第k个字符;否则,执行步骤15.7;
步骤15.7、判断k>2是否成立,若成立,则将eu′[k→1]添加到列表S中,其中:eu′[k→1]表示由更新后的第u′个元素eu′的第k位字符到第1位字符所组成的字符串;否则,执行步骤15.8;
步骤15.8、将k+1赋值给k,并判断k>δ'是否成立,若成立,则执行步骤15.9;否则,执行步骤15.6;
步骤15.9、将w+1赋值给w,并判断w>v′是否成立,若成立,则执行步骤15.10;否则,执行步骤15.3;
步骤15.10、将u′+1赋值给u′,并判断u′>v′是否成立,若成立,则表示得到后缀模式列表S={f1,f2,···,fρ,···,fω},其中,fρ表示后缀模式列表S中第ρ个家谱人物属性名称,ω表示后缀模式列表S中包含的家谱人物属性名称的总数,1≤ρ≤ω,并执行步骤16;否则,执行步骤15.2;
步骤16、过滤所述后缀模式列表S中小于阈值的家谱人物属性名称,得到阈值处理后的后缀模式列表S′;
步骤16.1、定义阈值T″,并利用式(5)计算阈值T″的值:
式(5)中,fmax与fmin分别表示后缀模式列表S中包含字符个数最多和包含字符个数最少的家谱人物属性名称;
步骤16.2、初始化ρ=1;
步骤16.3、判断len(fρ)<T″是否成立,若成立,则删除第ρ个元素fρ再执行步骤16.4;否则直接执行步骤16.4;
步骤16.4、将ρ+1赋值给ρ;并判断ρ>ω是否成立,若成立,则表示得到阈值处理后的后缀模式列表S′={f′1,f′2,···,f′ρ′,···,f′ω′},其中,f′ρ′表示阈值处理后的后缀模式列表S′中第ρ′个家谱人物属性名称,ω′表示阈值处理后的后缀模式列表S′中包含的家谱人物属性名称的总数,1≤ρ′≤ω′,并执行步骤17,否则,返回步骤16.3;
步骤17、过滤所述阈值处理后的后缀模式列表S′中重叠的属性名称,得到重叠处理后的后缀模式列表S″;
步骤17.1、初始化ρ'=1;
步骤17.2、判断第ρ′个元素f′ρ′是否为空,若是,则执行步骤17.7;否则执行步骤17.3;
步骤17.3、初始化w=ρ'+1;
步骤17.4、判断第ρ′个元素f′ρ′是否为第w个元素fw′的前缀成立,若是,则将第ρ′个元素f′ρ′赋为空,并执行步骤17.7;否则执行步骤17.5;
步骤17.5、判断第w个元素f′w是否为第ρ′个元素f′ρ′的前缀,若是,则将第w个元素f′w赋为空并执行步骤17.6;否则执行步骤17.6;
步骤17.6、将w+1赋值给w,并判断w>ω′是否成立,若成立,则执行步骤17.7;否则执行步骤17.4;
步骤17.7、将ρ'+1赋值给ρ',并判断ρ'>ω′是否成立,若成立,则表示得到重叠处理后的后缀模式列表S″,并执行步骤18;否则,执行步骤17.2;
步骤18、删除所述重叠处理后的后缀模式列表S″中的空元素,得到删除空元素后的后缀模式列表S″′={f″′1,f″′2,···,f″′ρ″′,···,f″′ω″′};其中,f″′ρ″′表示删除空元素后的后缀模式列表S″′中第ρ″′个家谱人物属性名称,ω″′表示删除重空元素后的后缀模式列表S″′中包含的家谱人物属性名称的总数,1≤ρ″′≤ω″′;
步骤19、利用删除重空元素后的后缀模式列表S″′对所述最大前缀处理后的列表L′中的家谱人物属性名称做最大后缀处理,得到最大后缀处理后的列表L″;
步骤19.1、初始化u′=1;
步骤19.2、初始化ρ″′=1;
步骤19.3、判断第ρ″′个元素f″′ρ″′是否为第u′个元素c′u′的后缀,若是,则删除第u′个元素cu″再执行步骤19.5;否则执行步骤19.4;
步骤19.4、将ρ″′+1赋值给ρ″′,并判断ρ″′>ω″′是否成立,若成立,则执行步骤19.5,否则,返回步骤19.3;
步骤19.5、将u′+1赋值给u′,并判断u′>v′是否成立,若成立,则表示完成家谱人物属性名称的融合,并得到最大后缀处理后的列表L″;否则,执行步骤19.2。
与现有技术相比,本发明的有益效果在于:
1、本发明未利用任何外部语料库并且不依赖于属性名称的结构信息,根据数据特点定义规则、并利用迭代融合的过程,首先融合一部分属性名称同时生成一个可用的语料库,然后进行更新操作;多次迭代以后,语料库的内容逐渐完善,从而属性名称融合的质量得以提高。
2、本发明定义了不同的属性名称模式,突破属性名称之间的同义、相关、包含关系,使得融合的结果更为精简,更有利于数据检索,同时为数据的存储节省空间,提高存储效率。
3、本发明具体地设计了三条规则:相似度距离判断、字符内容判断、包含关系判断来进行属性名称融合,规则的针对性强,因而准确率较高。
4、本发明提出一个自动生成属性名称模式列表的方法,有效提高了自动化程度,避免了人力资源的浪费。
具体实施方式
本实施例中,一种针对家谱人物属性名称的融合方法的是按如下步骤进行:
步骤1、获取z个不同的家谱人物属性名称的列表,记为{A1,A2,…,Ai,…,Az},其中,Ai表示第i个家谱人物属性名称的列表,并有 表示第i个列表中第t个家谱人物属性名称,hi表示第i个列表中所包含的家谱人物属性名称的总数,z≥2;1≤i≤z;1≤t≤hi;
步骤2、初始化i=1;
步骤3、定义第i个列表Li,并初始化Li为空;
步骤4、判断列表Li是否为空;若为空,则执行步骤5;否则,执行步骤6;
步骤5、获取第i+1个列表Li+1:
步骤5.1、将第i个列表Ai赋值给第i个列表Li,并删除第i个列表Li中含有非中文字符的家谱人物属性名称,得到第一次删除后的列表 表示第一次删除后的列表L′i中第t′个元素,h′i表示第一次删除后的列表L′i中包含的元素的总数,1≤t′≤h′i;
步骤5.2、删除第一次删除后的列表L′i中不符合规则的家谱人物属性名称,得到第二次删除后的列表L″i;
步骤5.2.1、定义变量k,初始化t′=1;
步骤5.2.2、初始化k=t′+1;
步骤5.2.3、利用式(1)计算第t′个元素与第k个元素的字符串相似度并判断是否成立,若成立,则执行步骤5.2.4;否则,执行步骤5.2.6,其中,T表示阈值;
式(1)中,表示通过对第t′个元素做增加、删除、替换字符的操作得到第k个元素的最小编辑次数,如:元素为“毕业院校”,元素为“毕业学校”,则为1;MAX(·)表示最大值函数,len(·)表示求取字符串长度的函数;
步骤5.2.4、判断第t′个元素与第k个元素包含的字符是否相同且字符个数是否相等,若相同且相等,如:元素为“毕业院校”,元素为“毕业校院”,则它们相同且相等;则令第k个元素为空,再执行步骤5.2.6,否则,执行步骤5.2.5;
步骤5.2.5、判断第k个元素是否包含第t′个元素或者第t′个元素是否包含第k个元素如:元素为“毕业学校”,元素为“毕业学校及院系”,则元素包含元素若是,则令第k个元素为空,否则执行步骤5.2.6;
步骤5.2.6、将k+1赋值给k,并判断k>h′i是否成立,若成立,则执行步骤5.2.7;否则,执行步骤5.2.3;
步骤5.2.7、将t′+1赋值给t′,并判断t′>h′i是否成立,若成立,则表示得到第二次删除后的列表L″i,并执行步骤5.3;否则执行步骤5.2.2;
步骤5.3、删除第二次删除后的列表L″i中的空元素得到第三次删除后的列表L″′i,并将L″′i作为第i+1个列表Li+1后执行步骤7;
第一次迭代结束之后,通过对起始列表A1做一系列操作,获得了列表L2,其可作为后续属性名称融合过程中的种子语料库,并且语料库的获得是建立在发现数据特点,制定规则的基础上,如此,更有利于后续的迭代融合过程。
步骤6、更新第i个列表Li;
步骤6.1、记第i个列表 表示第i个列表Li中第r个家谱人物属性名称,m表示第i个列表Li中包含的家谱人物属性名称的总数,1≤r≤m;
步骤6.2、删除第i个列表Ai中含有非中文字符的家谱人物属性名称得到第一次删除后的第i个列表其中;表示第一次删除后的第i个列表A′i中第t′个元素,h′i表示第一次删除后的第i个列表A′i中包含的元素的总数,1≤t′≤h′i;
步骤6.3、将第一次删除后的第i个列表A′i中相应的元素添加到第i个列表Li中:
步骤6.3.1、初始化t′=1,定义变量w;
步骤6.3.2、初始化w=len(Li);
步骤6.3.3、初始化r=1;
步骤6.3.4、判断第t′个元素与第r个家谱人物属性名称是否相同,若相同,则执行步骤6.3.7,否则执行步骤6.3.5;
步骤6.3.5、将r+1赋值给r,并判断r>w是否成立,若成立,则执行步骤6.3.6;否则,执行步骤6.3.4;
步骤6.3.6、判断r>w是否成立,若成立,则将第t′个元素添加到第i个列表Li中;否则,执行步骤6.3.7;
步骤6.3.7、将t′+1赋值给t′,并判断t′>h′i是否成立,若成立,则表示获得第一次更新后的列表其中;表示第一次更新后的列表L′i中第r′个元素,m′表示第一次更新后的列表L′i中包含的元素的总数,1≤r′≤m′;并执行步骤6.4;否则,执行步骤6.3.2;
步骤6.4、根据步骤5.2的过程,同样删除第一次更新后的列表L′i中不符合规则的家谱人物属性名称,得到第二次更新后的列表L″i;
步骤6.4.1、初始化r′=1;
步骤6.4.2、初始化k=r′+1;
步骤6.4.3、利用式(2)计算第r′个元素与第k个元素的字符串相似度并判断是否成立,若成立,则执行步骤6.4.4;否则,执行步骤6.4.6;
步骤6.4.4、判断第r′个元素与第k个元素包含的字符是否相同且字符个数是否相等,若相同且相等,则令第k个元素为空,再执行步骤6.4.6,否则,执行步骤6.4.5;
步骤6.4.5、判断第k个元素是否包含第r′个元素或者第r′个元素是否包含第k个元素若是,则令第k个元素为空,否则执行步骤6.4.6;
步骤6.4.6、将k+1赋值给k,并判断k>m′是否成立,若成立,则执行步骤6.4.7;否则,执行步骤6.4.3;
步骤6.4.7、将r′+1赋值给r′,并判断r′>m′是否成立,若成立,则表示得到第二次更新后的列表L″i,并执行步骤6.5;否则执行步骤6.4.2;
步骤6.5、删除第二次更新后的列表L″i中的空元素得到第三次更新后的列表L″′i,并将L″′i作为第i+1个列表Li+1;
步骤7、将i+1赋值给i,并判断i>z是否成立,若成立,则表示获得最终更新的列表L={c1,c2,…,cu,…,cv},其中,cu表示最终更新的列表L中第u个家谱人物属性名称,v表示最终更新的列表L中包含的家谱人物属性名称的总数,1≤u≤v,并执行步骤8;否则,执行步骤4;
每一次迭代,首先判断待融合列表中的属性名称是否在Li中,避免了对重复属性名称的融合,提高了融合的效率。所有迭代完成,便可得到迭代利用规则:相似度距离判断、字符内容判断、包含关系判断进行融合的属性名称列表L;
步骤8、定义前缀模式列表P,并初始化为空;
步骤9、获取前缀模式列表P;
步骤9.1、初始化u=1;
步骤9.2、初始化w=u+1;
步骤9.3、定义δ,并根据式(3)计算变量δ的值:
δ=MIN(len(cu),len(cw)) (3)
式(3)中,MIN(·)表示最小值函数;
步骤9.4、初始化k=1;
步骤9.5、判断cu[k]与cw[k]不相等是否成立,若成立,则执行步骤9.8,其中,cu[k]与cw[k]分别表示第u个元素cu与第w个元素cw中的第k个字符;否则,执行步骤9.6;
步骤9.6、判断k>2是否成立,若成立,则将cu[1→k]添加到列表P中,其中,cu[1→k]表示由第u个元素cu的第1位字符到第k位字符所组成的字符串;否则,执行步骤9.7;
步骤9.7、将k+1赋值给k,并判断k>δ是否成立,若成立,则执行步骤9.8;否则,执行步骤9.5;
步骤9.8、将w+1赋值给w,并判断w>v是否成立,若成立,则执行步骤9.9;否则,执行步骤9.3;
步骤9.9、将u+1赋值给u,并判断u>v是否成立,若成立,则表示获得前缀模式列表P={d1,d2,···,dλ,···,dβ},其中,dλ表示前缀模式列表P中第λ个家谱人物属性名称,β表示前缀模式列表P中包含的家谱人物属性名称的总数,1≤λ≤β;并执行步骤10;否则,执行步骤9.2;
步骤10、过滤前缀模式列表P中小于阈值的家谱人物属性名称,得到阈值处理后的前缀模式列表P′;
步骤10.1、定义阈值T',并利用式(4)计算阈值T'的值;
式(4)中,dmax与dmin分别表示前缀模式列表P中包含字符个数最多和包含字符个数最少的家谱人物属性名称;
步骤10.2、初始化λ=1;
步骤10.3、判断len(dλ)<T'是否成立,若成立,则删除第λ个元素dλ再执行步骤10.4;否则直接执行步骤10.4;
步骤10.4、将λ+1赋值给λ;并判断λ>β是否成立,若成立,则表示得到阈值处理后的前缀模式列表P′={d′1,d′2,···,d′λ′,···,d′β′},其中,d′λ′表示阈值处理后的前缀模式列表P′中第λ′个家谱人物属性名称,β′表示阈值处理后的前缀模式列表P′中包含的家谱人物属性名称的总数,1≤λ′≤β′;并执行步骤11,否则,返回步骤10.3;
步骤11、过滤阈值处理后的前缀模式列表P′中重叠的属性名称,得到重叠处理后的前缀模式列表P″;
步骤11.1、初始化λ'=1;
步骤11.2、判断d′λ′是否为空,若为空,则执行11.7;否则执行步骤11.3;
步骤11.3、初始化w=λ'+1;
步骤11.4、判断第λ′个元素d′λ′是否为第w个元素d′w的前缀,若是,则将第λ′个元素d′λ′赋为空,并执行步骤11.7;否则,执行步骤11.5;
步骤11.5、判断第w个元素d′w是否为第λ′个元素d′λ′的前缀,若是,则将第w个元素d′w赋为空,并执行步骤11.6,否则,直接执行步骤11.6;
步骤11.6、将w+1赋值给w,并判断w>β′是否成立,若成立,则执行步骤11.7;否则执行步骤11.4;
步骤11.7、将λ'+1赋值给λ',并判断λ'>β′是否成立,若成立,则表示得到重叠处理后的前缀模式列表P″,并执行步骤12;否则,执行步骤11.2;
步骤12、删除重叠处理后的前缀模式列表P″中的空元素得到删除空元素后的前缀模式列表P″′={d″′1,d″′2,···,d″′λ″′,···,d″′β″′};其中,d″′λ″′表示删除空元素后的前缀模式列表P″′中第λ″′个家谱人物属性名称,β″′表示删除空元素后的前缀模式列表P″′中包含的家谱人物属性名称的总数,1≤λ″′≤β″′;
步骤9到步骤12定义了自动发现属性名称所满足的前缀模式的方法,由于人工观察数据特点再总结其所满足的模式是不现实的,于是本专利采用迭代获取,阈值处理,重叠处理的方法,获得最终的前缀模式。并且采用阈值处理,重叠处理的目的是为了得到更为严谨规范的前缀模式。
步骤13、利用删除空元素后的前缀模式列表P″′对最终更新的列表L中的家谱人物属性名称做最大前缀处理,得到最大前缀处理后的列表L′;
步骤13.1、初始化u=1;
步骤13.2、初始化λ″′=1;
步骤13.3、判断第λ″′个元素d″′λ″′是否为第u个元素cu的前缀,若是,则删除第u个元素cu并执行步骤13.5;否则执行步骤13.4;
步骤13.4、将λ″′+1赋值给λ″′,并判断λ″′>β″′是否成立,若成立,则执行步骤13.5,否则,返回步骤13.3;
步骤13.5、将u+1赋值给u,并判断u>v是否成立,若成立,则表示得到最大前缀处理后的列表L′={c′1,c′2,…,c′u′,…,c′v′},其中,c′u′表示最大前缀处理后的列表L′中第u′个家谱人物属性名称,v′表示最大前缀处理后的列表L′中包含的家谱人物属性名称的总数,1≤u′≤v′,并执行步骤14;否则,执行步骤13.2;
步骤14、定义后缀模式列表S,并初始化S为空;
步骤15、获取后缀模式列表S;
步骤15.1、初始化u′=1;
步骤15.2、初始化w=u′+1;
步骤15.3、将第u′个元素c′u′与第w个元素c′w中的字符顺序逆置,从而得到更新后的第u′个元素eu′与第w个元素ew;
步骤15.4、定义变量δ',并根据式(5)计算变量δ'的值:
δ'=MIN(len(eu′),len(ew)) (5)
步骤15.5、初始化k=1;
步骤15.6、判断eu′[k]与ew[k]不相等是否成立,若成立,则执行步骤15.9,其中,eu′[k]与ew[k]分别表示更新后的第u′个元素eu′与第w个元素ew的第k个字符;否则,执行步骤15.7;
步骤15.7、判断k>2是否成立,若成立,则将eu′[k→1]添加到列表S中,其中:eu′[k→1]表示由更新后的第u′个元素eu′的第k位字符到第1位字符所组成的字符串;否则,执行步骤15.8;
步骤15.8、将k+1赋值给k,并判断k>δ'是否成立,若成立,则执行步骤15.9;否则,执行步骤15.6;
步骤15.9、将w+1赋值给w,并判断w>v′是否成立,若成立,则执行步骤15.10;否则,执行步骤15.3;
步骤15.10、将u′+1赋值给u′,并判断u′>v′是否成立,若成立,则表示得到后缀模式列表S={f1,f2,···,fρ,···,fω},其中,fρ表示后缀模式列表S中第ρ个家谱人物属性名称,ω表示后缀模式列表S中包含的家谱人物属性名称的总数,1≤ρ≤ω,并执行步骤16;否则,执行步骤15.2;
步骤16、过滤后缀模式列表S中小于阈值的家谱人物属性名称,得到阈值处理后的后缀模式列表S′;
步骤16.1、定义阈值T″,并利用式(6)计算阈值T″的值:
式(6)中,fmax与fmin分别表示后缀模式列表S中包含字符个数最多和包含字符个数最少的家谱人物属性名称;
步骤16.2、初始化ρ=1;
步骤16.3、判断len(fρ)<T″是否成立,若成立,则删除第ρ个元素fρ再执行步骤16.4;否则直接执行步骤16.4;
步骤16.4、将ρ+1赋值给ρ;并判断ρ>ω是否成立,若成立,则表示得到阈值处理后的后缀模式列表S′={f′1,f′2,···,f′ρ′,···,f′ω′},其中,f′ρ′表示阈值处理后的后缀模式列表S′中第ρ′个家谱人物属性名称,ω′表示阈值处理后的后缀模式列表S′中包含的家谱人物属性名称的总数,1≤ρ′≤ω′,并执行步骤17,否则,返回步骤16.3;
步骤17、过滤阈值处理后的后缀模式列表S′中重叠的属性名称,得到重叠处理后的后缀模式列表S″;
步骤17.1、初始化ρ'=1;
步骤17.2、判断第ρ′个元素f′ρ′是否为空,若是,则执行步骤17.7;否则执行步骤17.3;
步骤17.3、初始化w=ρ'+1;
步骤17.4、判断第ρ′个元素f′ρ′是否为第w个元素fw′的前缀成立,若是,则将第ρ′个元素f′ρ′赋为空,并执行步骤17.7;否则执行步骤17.5;
步骤17.5、判断第w个元素f′w是否为第ρ′个元素f′ρ′的前缀,若是,则将第w个元素f′w赋为空并执行步骤17.6;否则执行步骤17.6;
步骤17.6、将w+1赋值给w,并判断w>ω′是否成立,若成立,则执行步骤17.7;否则执行步骤17.4;
步骤17.7、将ρ'+1赋值给ρ',并判断ρ'>ω′是否成立,若成立,则表示得到重叠处理后的后缀模式列表S″,并执行步骤18;否则,执行步骤17.2;
步骤18、删除重叠处理后的后缀模式列表S″中的空元素,得到删除空元素后的后缀模式列表S″′={f″′1,f″′2,···,f″′ρ″′,···,f″′ω″′};其中,f″′ρ″′表示删除空元素后的后缀模式列表S″′中第ρ″′个家谱人物属性名称,ω″′表示删除重空元素后的后缀模式列表S″′中包含的家谱人物属性名称的总数,1≤ρ″′≤ω″′;
步骤19、利用删除重空元素后的后缀模式列表S″′对最大前缀处理后的列表L′中的家谱人物属性名称做最大后缀处理,得到最大后缀处理后的列表L″;
步骤19.1、初始化u′=1;
步骤19.2、初始化ρ″′=1;
步骤19.3、判断第ρ″′个元素f″′ρ″′是否为第u′个元素c′u′的后缀,若是,则删除第u′个元素c′u′再执行步骤19.5;否则执行步骤19.4;
步骤19.4、将ρ″′+1赋值给ρ″′,并判断ρ″′>ω″′是否成立,若成立,则执行步骤19.5,否则,返回步骤19.3;
步骤19.5、将u′+1赋值给u′,并判断u′>v′是否成立,若成立,则表示完成家谱人物属性名称的融合,并得到最大后缀处理后的列表L″;否则,执行步骤19.2。
最终,将得到列表L″,P″′,S″′;其中:L″为所有原始属性名称列表经过迭代利用规则融合、最大前缀处理、最大后缀处理后的列表,P″′与S″′分别为所有原始属性名称列表所满足的前缀模式列表及后缀模式列表。
Claims (1)
1.一种针对家谱人物属性名称的融合方法,其特征是按如下步骤进行:
步骤1、获取z个不同的家谱人物属性名称的列表,记为{A1,A2,…,Ai,…,Az},其中,Ai表示第i个家谱人物属性名称的列表,并有 表示第i个列表中第t个家谱人物属性名称,hi表示第i个列表中所包含的家谱人物属性名称的总数,z≥2;1≤i≤z;1≤t≤hi;
步骤2、初始化i=1;
步骤3、定义第i个列表Li,并初始化Li为空;
步骤4、判断列表Li是否为空;若为空,则执行步骤5;否则,执行步骤6;
步骤5、获取第i+1个列表Li+1:
步骤5.1、将第i个列表Ai赋值给第i个列表Li,并删除第i个列表Li中含有非中文字符的家谱人物属性名称,得到第一次删除后的列表 表示第一次删除后的列表L′i中第t′个元素,h′i表示第一次删除后的列表L′i中包含的元素的总数,1≤t′≤h′i;
步骤5.2、删除所述第一次删除后的列表L′i中不符合规则的家谱人物属性名称,得到第二次删除后的列表L″i;
步骤5.2.1、定义变量k,初始化t′=1;
步骤5.2.2、初始化k=t′+1;
步骤5.2.3、利用式(1)计算第t′个元素与第k个元素的字符串相似度并判断是否成立,若成立,则执行步骤5.2.4;否则,执行步骤5.2.6,其中,T表示阈值;
式(1)中,表示通过对第t′个元素做增加、删除、替换字符的操作得到第k个元素的最小编辑次数,MAX(·)表示最大值函数,len(·)表示求取字符串长度的函数;
步骤5.2.4、判断第t′个元素与第k个元素包含的字符是否相同且字符个数是否相等,若相同且相等,则令第k个元素为空,再执行步骤5.2.6,否则,执行步骤5.2.5;
步骤5.2.5、判断第k个元素是否包含第t′个元素或者第t′个元素是否包含第k个元素若是,则令第k个元素为空,否则执行步骤5.2.6;
步骤5.2.6、将k+1赋值给k,并判断k>h′i是否成立,若成立,则执行步骤5.2.7;否则,执行步骤5.2.3;
步骤5.2.7、将t′+1赋值给t′,并判断t′>h′i是否成立,若成立,则表示得到第二次删除后的列表L″i,并执行步骤5.3;否则执行步骤5.2.2;
步骤5.3、删除所述第二次删除后的列表L″i中的空元素得到第三次删除后的列表L″′i,并将L″′i作为第i+1个列表Li+1后执行步骤7;
步骤6、更新第i个列表Li;
步骤6.1、记第i个列表 表示第i个列表Li中第r个家谱人物属性名称,m表示第i个列表Li中包含的家谱人物属性名称的总数,1≤r≤m;
步骤6.2、删除第i个列表Ai中含有非中文字符的家谱人物属性名称得到第一次删除后的第i个列表其中;表示第一次删除后的第i个列表A′i中第t′个元素,h′i表示第一次删除后的第i个列表A′i中包含的元素的总数,1≤t′≤h′i;
步骤6.3、将第一次删除后的第i个列表A′i中相应的元素添加到第i个列表Li中:
步骤6.3.1、初始化t′=1,定义变量w;
步骤6.3.2、初始化w=len(Li);
步骤6.3.3、初始化r=1;
步骤6.3.4、判断第t′个元素与第r个家谱人物属性名称是否相同,若相同,则执行步骤6.3.7,否则执行步骤6.3.5;
步骤6.3.5、将r+1赋值给r,并判断r>w是否成立,若成立,则执行步骤6.3.6;否则,执行步骤6.3.4;
步骤6.3.6、判断r>w是否成立,若成立,则将第t′个元素添加到第i个列表Li中;否则,执行步骤6.3.7;
步骤6.3.7、将t′+1赋值给t′,并判断t′>h′i是否成立,若成立,则表示获得第一次更新后的列表L′i,并执行步骤6.4;否则,执行步骤6.3.2;
步骤6.4、根据步骤5.2的过程,同样删除所述第一次更新后的列表L′i中不符合规则的家谱人物属性名称,得到第二次更新后的列表L″i;
步骤6.5、删除第二次更新后的列表L″i中的空元素得到第三次更新后的列表L″′i,并将L″′i作为第i+1个列表Li+1;
步骤7、将i+1赋值给i,并判断i>z是否成立,若成立,则表示获得最终更新的列表L={c1,c2,…,cu,…,cv},其中,cu表示最终更新的列表L中第u个家谱人物属性名称,v表示最终更新的列表L中包含的家谱人物属性名称的总数,1≤u≤v,并执行步骤8;否则,执行步骤4;
步骤8、定义前缀模式列表P,并初始化为空;
步骤9、获取前缀模式列表P;
步骤9.1、初始化u=1;
步骤9.2、初始化w=u+1;
步骤9.3、定义δ,并根据式(2)计算变量δ的值:
δ=MIN(len(cu),len(cw)) (2)
式(2)中,MIN(·)表示最小值函数;
步骤9.4、初始化k=1;
步骤9.5、判断cu[k]与cw[k]不相等是否成立,若成立,则执行步骤9.8,其中,cu[k]与cw[k]分别表示第u个元素cu与第w个元素cw中的第k个字符;否则,执行步骤9.6;
步骤9.6、判断k>2是否成立,若成立,则将cu[1→k]添加到列表P中,其中,cu[1→k]表示由第u个元素cu的第1位字符到第k位字符所组成的字符串;否则,执行步骤9.7;
步骤9.7、将k+1赋值给k,并判断k>δ是否成立,若成立,则执行步骤9.8;否则,执行步骤9.5;
步骤9.8、将w+1赋值给w,并判断w>v是否成立,若成立,则执行步骤9.9;否则,执行步骤9.3;
步骤9.9、将u+1赋值给u,并判断u>v是否成立,若成立,则表示获得前缀模式列表P={d1,d2,···,dλ,···,dβ},其中,dλ表示前缀模式列表P中第λ个家谱人物属性名称,β表示前缀模式列表P中包含的家谱人物属性名称的总数,1≤λ≤β;并执行步骤10;否则,执行步骤9.2;
步骤10、过滤所述前缀模式列表P中小于阈值的家谱人物属性名称,得到阈值处理后的前缀模式列表P′;
步骤10.1、定义阈值T',并利用式(3)计算阈值T'的值;
式(3)中,dmax与dmin分别表示前缀模式列表P中包含字符个数最多和包含字符个数最少的家谱人物属性名称;
步骤10.2、初始化λ=1;
步骤10.3、判断len(dλ)<T'是否成立,若成立,则删除第λ个元素dλ再执行步骤10.4;否则直接执行步骤10.4;
步骤10.4、将λ+1赋值给λ;并判断λ>β是否成立,若成立,则表示得到阈值处理后的前缀模式列表P′={d′1,d′2,···,d′λ′,···,d′β′},其中,d′λ′表示阈值处理后的前缀模式列表P′中第λ′个家谱人物属性名称,β′表示阈值处理后的前缀模式列表P′中包含的家谱人物属性名称的总数,1≤λ′≤β′;并执行步骤11,否则,返回步骤10.3;
步骤11、过滤所述阈值处理后的前缀模式列表P′中重叠的属性名称,得到重叠处理后的前缀模式列表P″;
步骤11.1、初始化λ'=1;
步骤11.2、判断d′λ′是否为空,若为空,则执行11.7;否则执行步骤11.3;
步骤11.3、初始化w=λ'+1;
步骤11.4、判断第λ′个元素d′λ′是否为第w个元素d′w的前缀,若是,则将第λ′个元素d′λ′赋为空,并执行步骤11.7;否则,执行步骤11.5;
步骤11.5、判断第w个元素d′w是否为第λ′个元素d′λ′的前缀,若是,则将第w个元素d′w赋为空,并执行步骤11.6,否则,直接执行步骤11.6;
步骤11.6、将w+1赋值给w,并判断w>β′是否成立,若成立,则执行步骤11.7;否则执行步骤11.4;
步骤11.7、将λ'+1赋值给λ',并判断λ'>β′是否成立,若成立,则表示得到重叠处理后的前缀模式列表P″,并执行步骤12;否则,执行步骤11.2;
步骤12、删除所述重叠处理后的前缀模式列表P″中的空元素得到删除空元素后的前缀模式列表P″′={d″′1,d″′2,···,d″′λ″′,···,d″′β″′};其中,d″′λ″′表示删除空元素后的前缀模式列表P″′中第λ″′个家谱人物属性名称,β″′表示删除空元素后的前缀模式列表P″′中包含的家谱人物属性名称的总数,1≤λ″′≤β″′;
步骤13、利用删除空元素后的前缀模式列表P″′对所述最终更新的列表L中的家谱人物属性名称做最大前缀处理,得到最大前缀处理后的列表L′;
步骤13.1、初始化u=1;
步骤13.2、初始化λ″′=1;
步骤13.3、判断第λ″′个元素d″′λ″′是否为第u个元素cu的前缀,若是,则删除第u个元素cu并执行步骤13.5;否则执行步骤13.4;
步骤13.4、将λ″′+1赋值给λ″′,并判断λ″′>β″′是否成立,若成立,则执行步骤13.5,否则,返回步骤13.3;
步骤13.5、将u+1赋值给u,并判断u>v是否成立,若成立,则表示得到最大前缀处理后的列表L′={c′1,c′2,…,c′u′,…,c′v′},其中,c′u′表示最大前缀处理后的列表L′中第u′个家谱人物属性名称,v′表示最大前缀处理后的列表L′中包含的家谱人物属性名称的总数,1≤u′≤v′,并执行步骤14;否则,执行步骤13.2;
步骤14、定义后缀模式列表S,并初始化S为空;
步骤15、获取后缀模式列表S;
步骤15.1、初始化u′=1;
步骤15.2、初始化w=u′+1;
步骤15.3、将第u′个元素c′u′与第w个元素c′w中的字符顺序逆置,从而得到更新后的第u′个元素eu′与第w个元素ew;
步骤15.4、定义变量δ',并根据式(4)计算变量δ'的值:
δ'=MIN(len(eu′),len(ew)) (4)
步骤15.5、初始化k=1;
步骤15.6、判断eu′[k]与ew[k]不相等是否成立,若成立,则执行步骤15.9,其中,eu′[k]与ew[k]分别表示更新后的第u′个元素eu′与第w个元素ew的第k个字符;否则,执行步骤15.7;
步骤15.7、判断k>2是否成立,若成立,则将eu′[k→1]添加到列表S中,其中:eu′[k→1]表示由更新后的第u′个元素eu′的第k位字符到第1位字符所组成的字符串;否则,执行步骤15.8;
步骤15.8、将k+1赋值给k,并判断k>δ'是否成立,若成立,则执行步骤15.9;否则,执行步骤15.6;
步骤15.9、将w+1赋值给w,并判断w>v′是否成立,若成立,则执行步骤15.10;否则,执行步骤15.3;
步骤15.10、将u′+1赋值给u′,并判断u′>v′是否成立,若成立,则表示得到后缀模式列表S={f1,f2,···,fρ,···,fω},其中,fρ表示后缀模式列表S中第ρ个家谱人物属性名称,ω表示后缀模式列表S中包含的家谱人物属性名称的总数,1≤ρ≤ω,并执行步骤16;否则,执行步骤15.2;
步骤16、过滤所述后缀模式列表S中小于阈值的家谱人物属性名称,得到阈值处理后的后缀模式列表S′;
步骤16.1、定义阈值T″,并利用式(5)计算阈值T″的值:
式(5)中,fmax与fmin分别表示后缀模式列表S中包含字符个数最多和包含字符个数最少的家谱人物属性名称;
步骤16.2、初始化ρ=1;
步骤16.3、判断len(fρ)<T″是否成立,若成立,则删除第ρ个元素fρ再执行步骤16.4;否则直接执行步骤16.4;
步骤16.4、将ρ+1赋值给ρ;并判断ρ>ω是否成立,若成立,则表示得到阈值处理后的后缀模式列表S′={f′1,f′2,···,f′ρ′,···,f′ω′},其中,f′ρ′表示阈值处理后的后缀模式列表S′中第ρ′个家谱人物属性名称,ω′表示阈值处理后的后缀模式列表S′中包含的家谱人物属性名称的总数,1≤ρ′≤ω′,并执行步骤17,否则,返回步骤16.3;
步骤17、过滤所述阈值处理后的后缀模式列表S′中重叠的属性名称,得到重叠处理后的后缀模式列表S″;
步骤17.1、初始化ρ'=1;
步骤17.2、判断第ρ′个元素f′ρ′是否为空,若是,则执行步骤17.7;否则执行步骤17.3;
步骤17.3、初始化w=ρ'+1;
步骤17.4、判断第ρ′个元素f′ρ′是否为第w个元素f′w的前缀成立,若是,则将第ρ′个元素f′ρ′赋为空,并执行步骤17.7;否则执行步骤17.5;
步骤17.5、判断第w个元素f′w是否为第ρ′个元素f′ρ′的前缀,若是,则将第w个元素f′w赋为空并执行步骤17.6;否则执行步骤17.6;
步骤17.6、将w+1赋值给w,并判断w>ω′是否成立,若成立,则执行步骤17.7;否则执行步骤17.4;
步骤17.7、将ρ'+1赋值给ρ',并判断ρ'>ω′是否成立,若成立,则表示得到重叠处理后的后缀模式列表S″,并执行步骤18;否则,执行步骤17.2;
步骤18、删除所述重叠处理后的后缀模式列表S″中的空元素,得到删除空元素后的后缀模式列表S″′={f1″′,f2″′,···,f″′p″′,···,f″′ω″′};其中,f″′ρ″′表示删除空元素后的后缀模式列表S″′中第ρ″′个家谱人物属性名称,ω″′表示删除重空元素后的后缀模式列表S″′中包含的家谱人物属性名称的总数,1≤ρ″′≤ω″′;
步骤19、利用删除重空元素后的后缀模式列表S″′对所述最大前缀处理后的列表L′中的家谱人物属性名称做最大后缀处理,得到最大后缀处理后的列表L″;
步骤19.1、初始化u′=1;
步骤19.2、初始化ρ″′=1;
步骤19.3、判断第ρ″′个元素f″′ρ″′是否为第u′个元素c′u′的后缀,若是,则删除第u′个元素c′u′再执行步骤19.5;否则执行步骤19.4;
步骤19.4、将ρ″′+1赋值给ρ″′,并判断ρ″′>ω″′是否成立,若成立,则执行步骤19.5,否则,返回步骤19.3;
步骤19.5、将u′+1赋值给u′,并判断u′>v′是否成立,若成立,则表示完成家谱人物属性名称的融合,并得到最大后缀处理后的列表L″;否则,执行步骤19.2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810990234.3A CN109284393B (zh) | 2018-08-28 | 2018-08-28 | 一种针对家谱人物属性名称的融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810990234.3A CN109284393B (zh) | 2018-08-28 | 2018-08-28 | 一种针对家谱人物属性名称的融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109284393A true CN109284393A (zh) | 2019-01-29 |
CN109284393B CN109284393B (zh) | 2020-11-06 |
Family
ID=65183507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810990234.3A Expired - Fee Related CN109284393B (zh) | 2018-08-28 | 2018-08-28 | 一种针对家谱人物属性名称的融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109284393B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390024A (zh) * | 2019-07-16 | 2019-10-29 | 合肥工业大学 | 家谱数据的处理方法及装置、处理器 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102637202A (zh) * | 2012-03-15 | 2012-08-15 | 中国科学院计算技术研究所 | 一种迭代式概念属性名称自动获取方法和系统 |
US20150347088A1 (en) * | 2014-05-30 | 2015-12-03 | Spiral Genetics, Inc. | Prefix burrows-wheeler transformations for creating and searching a merged lexeme set |
CN105808609A (zh) * | 2014-12-31 | 2016-07-27 | 高德软件有限公司 | 一种信息点数据冗余的判别方法和设备 |
CN107169059A (zh) * | 2017-04-28 | 2017-09-15 | 北京理工大学 | 一种基于相似变精度粗糙集模型的知识推送规则提取方法 |
CN107330125A (zh) * | 2017-07-20 | 2017-11-07 | 云南电网有限责任公司电力科学研究院 | 基于知识图谱技术的海量非结构化配网数据集成方法 |
-
2018
- 2018-08-28 CN CN201810990234.3A patent/CN109284393B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102637202A (zh) * | 2012-03-15 | 2012-08-15 | 中国科学院计算技术研究所 | 一种迭代式概念属性名称自动获取方法和系统 |
US20150347088A1 (en) * | 2014-05-30 | 2015-12-03 | Spiral Genetics, Inc. | Prefix burrows-wheeler transformations for creating and searching a merged lexeme set |
CN105808609A (zh) * | 2014-12-31 | 2016-07-27 | 高德软件有限公司 | 一种信息点数据冗余的判别方法和设备 |
CN107169059A (zh) * | 2017-04-28 | 2017-09-15 | 北京理工大学 | 一种基于相似变精度粗糙集模型的知识推送规则提取方法 |
CN107330125A (zh) * | 2017-07-20 | 2017-11-07 | 云南电网有限责任公司电力科学研究院 | 基于知识图谱技术的海量非结构化配网数据集成方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390024A (zh) * | 2019-07-16 | 2019-10-29 | 合肥工业大学 | 家谱数据的处理方法及装置、处理器 |
CN110390024B (zh) * | 2019-07-16 | 2022-05-17 | 合肥工业大学 | 家谱数据的处理方法及装置、处理器 |
Also Published As
Publication number | Publication date |
---|---|
CN109284393B (zh) | 2020-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5276874A (en) | Method for creating a directory tree in main memory using an index file in secondary memory | |
CN108563729B (zh) | 一种基于dom树的招标网站中标信息抽取方法 | |
CN105975531B (zh) | 基于对话知识库的机器人对话控制方法和系统 | |
CN107402927A (zh) | 一种基于图模型的企业关联关系拓扑建立方法及查询方法 | |
CN110309289A (zh) | 一种句子生成方法、句子生成装置及智能设备 | |
CN106682116A (zh) | 基于Spark内存计算大数据平台的OPTICS点排序聚类方法 | |
CN106484401B (zh) | 一种面向对象软件的自动化重构方法 | |
CN108228571B (zh) | 对联的生成方法、装置、存储介质及终端设备 | |
JP2001014329A (ja) | データベース処理方法及び実施装置並びにその処理プログラムを記憶した媒体 | |
CN108345457A (zh) | 一种对程序源代码自动生成功能描述性注释的方法 | |
CN104462063B (zh) | 基于语义位置模型的位置信息结构化提取方法及系统 | |
CN110442584B (zh) | 一种基于异步加载的树形结构资源检索的方法 | |
CN106485211B (zh) | 一种基于二叉树的文本行精确定位方法 | |
CN107239549A (zh) | 数据库术语检索的方法、装置及终端 | |
CN109345007A (zh) | 一种基于XGBoost特征选择的有利储层发育区预测方法 | |
CN106777118B (zh) | 一种基于模糊字典树的地理词汇快速抽取方法 | |
CN109800416A (zh) | 一种电力设备名称识别方法 | |
CN105808729B (zh) | 基于论文间引用关系的学术大数据分析方法 | |
CN110071871A (zh) | 一种大模式集ip地址匹配方法 | |
CN104899262B (zh) | 一种支持用户自定义归类规则的信息归类方法 | |
CN108846006A (zh) | 财经领域非结构化文本数据的挖掘、搜索方法与系统 | |
CN105447104A (zh) | 一种知识地图生成方法及装置 | |
CN109284393A (zh) | 一种针对家谱人物属性名称的融合方法 | |
CN111177578A (zh) | 一种用户周边最具影响力社区的搜索方法 | |
CN117874204A (zh) | 一种知识问答方法、系统、存储介质和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201106 |
|
CF01 | Termination of patent right due to non-payment of annual fee |