CN104462055A - 一种名称相似度获取方法及装置 - Google Patents

一种名称相似度获取方法及装置 Download PDF

Info

Publication number
CN104462055A
CN104462055A CN201310436119.9A CN201310436119A CN104462055A CN 104462055 A CN104462055 A CN 104462055A CN 201310436119 A CN201310436119 A CN 201310436119A CN 104462055 A CN104462055 A CN 104462055A
Authority
CN
China
Prior art keywords
similarity value
character
value
word
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310436119.9A
Other languages
English (en)
Other versions
CN104462055B (zh
Inventor
李振星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Agile Century Information Technology Co Ltd
Original Assignee
Beijing Agile Century Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Agile Century Information Technology Co Ltd filed Critical Beijing Agile Century Information Technology Co Ltd
Priority to CN201310436119.9A priority Critical patent/CN104462055B/zh
Publication of CN104462055A publication Critical patent/CN104462055A/zh
Application granted granted Critical
Publication of CN104462055B publication Critical patent/CN104462055B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种名称相似度获取方法及装置,所述方法包括:确定第一对象和第二对象;获取字包含相似度值,字包含相似度值为第一对象中包含有与第二对象中相同字符的字符数量在第一对象中所占的比重值;获取字顺序相似度值,字顺序相似度值为第一对象中包含有第二对象中相同字符的字顺序相似度值;获取字距离相似度值,字距离相似度值为第一对象中包含有第二对象中相同的字符将第一对象中名称字符分割后的字符片段均匀度值;依据字包含相似度值、字顺序相似度值及字距离相似度值,获取第一对象与第二对象的三维相似度值。本申请在获取两个名称对象的相似度值的过程中,无需语料库、统计规划或分词库等做基础计算,计算量较小,效率较高。

Description

一种名称相似度获取方法及装置
技术领域
本申请涉及相似度识别技术领域,特别涉及一种名称相似度获取方法及装置。
背景技术
中文机构名称在简写、缩写或改写之后的名称相似度识别方案应用在反洗钱系统名称过滤、高校就业系统照片单位管理、wiki百科各种切换词条等应用中。
目标,进行名称相似度识别的方案通常以基于特征规则的缩写识别方案为主,但这种方案需要分词作为基础计算,使得在相似度计算的过程中需要分词库支持,计算量较大,效率较低。
发明内容
本申请所要解决的技术问题是提供一种名称相似度获取方法及装置,用以解决现有技术中基于特征规则的缩写识别方案中需要分词库做基础计算,使得计算量较大,效率较低的技术问题。
本申请提供了一种名称相似度获取方法,包括:
确定第一对象和第二对象,所述第一对象包括至少一个名称字符,所述第二对象包括至少一个名称字符,所述第一对象的字符数量大于或等于所述第二对象的字符数量;
获取字包含相似度值,所述字包含相似度值为所述第一对象中包含有与所述第二对象中相同字符的字符数量在所述第一对象中所占的比重值;
获取字顺序相似度值,所述字顺序相似度值为所述第一对象中包含有所述第二对象中相同字符的字顺序相似度值;
获取字距离相似度值,所述字距离相似度值为所述第一对象中包含有所述第二对象中相同的字符将所述第一对象中名称字符分割后的字符片段均匀度值;
依据所述字包含相似度值、所述字顺序相似度值及所述字距离相似度值,获取所述第一对象与所述第二对象的三维相似度值。
上述方法,优选的,所述获取字包含相似度包括:
利用获取所述第一对象中包含有所述第二对象中相同字符的字符数量在所述第一对象中所占的比重值作为字包含相似度值;
其中,n(B∩A)为所述第一对象A中包含有所述第二对象B中相同字符的字符数量,n(A)为所述第一对象A的字符数量,C(B,A)为所述比重值。
上述方法,优选的,所述获取字顺序相似度值包括:
利用获取所述第一对象中包含有所述第二对象中相同字符的字顺序相似度值;
其中,Order(B,A)为所述第一对象A中包含有第二对象B中相同的字符在所述第一对象A中的序号排列组合,pre(Order(B,A))为所述序号排列组合中的正序数,n(B∩A)为所述第一对象A中包含有所述第二对象B中相同字符的字符数量,O(B,A)为所述第一对象与所述第二对象的字顺序相似度值。
上述方法,优选的,所述获取字距离相似度值包括:
利用 U ( B , A ) = Σ i = 2 n ( P i - P i - 1 - 1 ) 2 + ( P 1 - 1 ) 2 + ( N - P n ) 2 ( n ( A - B ) ) 2 , 获取所述第一对象中包含有所述第二对象中相同的字符将所述第一对象中名称字符分割后的字符片段累积距离值;
其中,N为第一对象A中名称字符的数量,Pi为所述第一对象A中包含有所述第二对象B中相同的字符在所述第一对象A中对应的位置排序序号,U(B,A)为所述第一对象A中包含有所述第二对象B中相同的字符将所述第一对象A中名称字符分割后的字符片段累积距离值;
利用获取所述第一对象与所述第二对象的字顺序相似度值;
其中,n为所述第一对象A中包含有所述第二对象B中相同字符的字符数量,L(B,A)为所述第一对象与所述第二对象的字顺序相似度值。
上述方法,优选的,所述依据所述字包含相似度值、所述字顺序相似度值及所述字距离相似度值,获取所述第一对象与所述第二对象的三维相似度值,包括:
利用 ( α 1 , α 2 , α 3 ) = ( C C + O + L , O C + O + L , L C + O + L ) , 分别获取所述字包含相似度值、所述字顺序相似度值及所述字距离相似度值各自对应的权重系数;
其中,α1为所述第一对象A与所述第二对象B的字包含相似度值C对应的权重系数;α2为所述第一对象A与所述第二对象B的字顺序相似度值O对应的权重系数;α3为所述第一对象A与所述第二对象B的字距离相似度值L对应的权重系数;
利用S=α1C+α2O+α3L,获取所述第一对象与所述第二对象的三维相似度值;
其中,S为所述第一对象A与所述第二对象B的三维相似度值。
上述方法,优选的,在所述获取到所述第一对象与所述第二对象的三维相似度值之后,所述方法还包括:
判断所述三维相似度值是否大于或等于预设第一阀值,如果是,生成第一提示信息,所述第一提示信息用于提示对所述第一对象进行操作的信息。
上述方法,优选的,在所述获取到所述第一对象与所述第二对象的三维相似度值之后,所述方法还包括:
获取第一对象分别与至少一个第三对象的三维相似度值;
将所述第一对象与每个所述第三对象的三维相似度值与所述第一对象和所述第二对象的三维相似度值组成相似度值集合;
对所述相似度值集合中的三维相似度值进行大小排序;
依据排序后的三维相似度值,生成第二提示信息,所述第二提示信息用于提示依据所述排序后三维相似度值各自对应的第三对象或第二对象对第一对象进行操作的信息。
上述方法,优选的,在所述确定第一对象和第二对象之后,在所述获取字包含相似度值之前,所述方法还包括:
获取所述第二对象中字符数量与所述第一对象中包含有所述第二对象中相同字符的字符数量的差值;
判断所述差值是否等于1,如果是,生成第三提示信息,并结束当前名称相似度获取,所述第三提示信息用于提示所述第二对象中只有一个名称字符不包含在所述第一对象中的信息。
本申请还提供了一种名称相似度获取装置,包括:
对象确定单元,用于确定第一对象和第二对象,所述第一对象包括至少一个名称字符,所述第二对象包括至少一个名称字符,所述第一对象的字符数量大于或等于所述第二对象的字符数量;
第一值获取单元,用于获取字包含相似度值,所述字包含相似度值为所述第一对象中包含有与所述第二对象中相同字符的字符数量在所述第一对象中所占的比重值;
第二值获取单元,用于获取字顺序相似度值,所述字顺序相似度值为所述第一对象中包含有所述第二对象中相同字符的字顺序相似度值;
第三值获取单元,用于获取字距离相似度值,所述字距离相似度值为所述第一对象中包含有所述第二对象中相同的字符将所述第一对象中名称字符分割后的字符片段均匀度值;
相似度值获取单元,用于依据所述字包含相似度值、所述字顺序相似度值及所述字距离相似度值,获取所述第一对象与所述第二对象的三维相似度值。
上述装置,优选的,所述第一值获取单元包括:
第一值获取子单元,用于利用获取所述第一对象中包含有所述第二对象中相同字符的字符数量在所述第一对象中所占的比重值作为字包含相似度值;
其中,n(B∩A)为所述第一对象A中包含有所述第二对象B中相同字符的字符数量,n(A)为所述第一对象A的字符数量,C(B,A)为所述比重值。
上述装置,优选的,所述第二值获取单元包括:
第二值获取子单元,用于利用获取所述第一对象中包含有所述第二对象中相同字符的字顺序相似度值;
其中,Order(B,A)为所述第一对象A中包含有第二对象B中相同的字符在所述第一对象A中的序号排列组合,pre(Order(B,A))为所述序号排列组合中的正序数,n(B∩A)为所述第一对象A中包含有所述第二对象B中相同字符的字符数量,O(B,A)为所述第一对象与所述第二对象的字顺序相似度值。
上述装置,优选的,所述第三值获取单元包括:
距离值获取子单元,用于利用 U ( B , A ) = Σ i = 2 n ( P i - P i - 1 - 1 ) 2 + ( P 1 - 1 ) 2 + ( N - P n ) 2 ( n ( A - B ) ) 2 , 获取所述第一对象中包含有所述第二对象中相同的字符将所述第一对象中名称字符分割后的字符片段累积距离值;
其中,N为第一对象A中名称字符的数量,Pi为所述第一对象A中包含有所述第二对象B中相同的字符在所述第一对象A中对应的位置排序序号,U(B,A)为所述第一对象A中包含有所述第二对象B中相同的字符将所述第一对象A中名称字符分割后的字符片段累积距离值;
第三值获取子单元,用于利用获取所述第一对象与所述第二对象的字顺序相似度值;
其中,n为所述第一对象A中包含有所述第二对象B中相同字符的字符数量,L(B,A)为所述第一对象与所述第二对象的字顺序相似度值。
上述装置,优选的,所述相似度值获取单元包括:
系数获取子单元,用于利用 ( α 1 , α 2 , α 3 ) = ( C C + O + L , O C + O + L , L C + O + L ) , 分别获取所述字包含相似度值、所述字顺序相似度值及所述字距离相似度值各自对应的权重系数;
其中,α1为所述第一对象A与所述第二对象B的字包含相似度值C对应的权重系数;α2为所述第一对象A与所述第二对象B的字顺序相似度值O对应的权重系数;α3为所述第一对象A与所述第二对象B的字距离相似度值L对应的权重系数;
相似度值获取子单元,用于利用S=α1C+α2O+α3L,获取所述第一对象与所述第二对象的三维相似度值;
其中,S为所述第一对象A与所述第二对象B的三维相似度值。
上述装置,优选的,还包括:
第一阀值判断单元,用于在所述相似度值获取单元获取到所述三维相似度值之后,判断所述三维相似度值是否大于或等于预设第一阀值,如果是,触发第一信息生成单元;
第一信息生成单元,用于生成第一提示信息,所述第一提示信息用于提示对所述第一对象进行操作的信息。
上述装置,优选的,还包括:
值获取单元,用于在所述相似度值获取单元获取到所述三维相似度值之后,获取第一对象分别与至少一个第三对象的三维相似度值;
值组合单元,用于将所述第一对象与每个所述第三对象的三维相似度值与所述第一对象和所述第二对象的三维相似度值组成相似度值集合;
值排序单元,用于对所述相似度值集合中的三维相似度值进行大小排序;
第二信息生成单元,用于依据排序后的三维相似度值,生成第二提示信息,所述第二提示信息用于提示依据所述排序后三维相似度值各自对应的第三对象或第二对象对第一对象进行操作的信息。
上述装置,优选的,还包括:
差值获取单元,用于在对象确定单元确定所述第一对象和所述第二对象之后,在所述第一值获取单元获取所述字包含相似度值之前,获取所述第二对象中字符数量与所述第一对象中包含有所述第二对象中相同字符的字符数量的差值;
差值判断单元,用于判断所述差值是否等于1,如果是,触发第三信息生成单元,并结束当前名称相似度获取;
第三信息生成单元,用于生成第三提示信息,所述第三提示信息用于提示所述第二对象中只有一个名称字符不包含在所述第一对象中的信息。
由上述方案可知,本申请提供的一种名称相似度获取方法及装置,通过在确定均含有至少一个名称字符的第一对象及第二对象(字符数量较少的对象确定为第二对象)之后,分别计算第一对象与第二对象的字包含相似度值、字顺序相似度值及字距离相似度值,其中,第二对象的字符数量小于或等于第一对象的字符数量,进而依据得到的两个对象的字包含相似度值、字顺序相似度值及字距离相似度值,获取到第一对象与第二对象的三维相似度值(区别于前文中字包含相似度值、字顺序相似度值及字距离相似度值等一维相似度值),实现本申请目的。本申请在获取两个名称对象的相似度值的过程中,无需语料库、统计规划或分词库等做基础计算,使得本申请计算量较小,效率较高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种名称相似度获取方法实施例一的流程图;
图2为本申请实施例一的另一流程图;
图3为本申请提供的一种名称相似度获取方法实施例二的部分流程图;
图4为本申请提供的一种名称相似度获取方法实施例三的部分流程图;
图5为本申请提供的一种名称相似度获取方法实施例四的部分流程图;
图6为本申请提供的一种名称相似度获取方法实施例五的部分流程图;
图7为本申请提供了一种名称相似度获取方法实施例六的流程图;
图8为本申请提供的一种名称相似度获取装置实施例七的结构示意图;
图9为本申请实施例七的另一结构示意图;
图10为本申请提供的一种名称相似度获取装置实施例八的部分结构示意图;
图11为本申请提供的一种名称相似度获取装置实施例九的部分结构示意图;
图12为本申请提供的一种名称相似度获取装置实施例十的部分结构示意图;
图13为本申请提供的一种名称相似度获取装置实施例十一的部分结构示意图;
图14为本申请提供的一种名称相似度获取装置实施例十二的部分结构示意图;
图15为本申请提供的一种名称相似度获取装置实施例十三的部分结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参考图1,为本申请提供的一种名称相似度获取方法实施例一的流程图,其中,所述方法可以适用于对两个名称对象进行相似度识别获取的应用中,所述方法可以包括以下步骤:
步骤101:确定第一对象和第二对象。
其中,所述第一对象包括至少一个名称字符,所述第二对象包括至少一个名称字符。
需要说明的是,在所述步骤101之前,所述方法可以预先获取两个名称对象A和B,将字符数量较多的一个名称对象确定为第一对象,另一个为第二对象,此时,所述第一对象的字符数量大于或等于所述第二对象的字符数量。
步骤102:获取字包含相似度值。
其中,所述字包含相似度值为所述第一对象中包含有与所述第二对象中相同字符的字符数量在所述第一对象中所占的比重值。
需要说明的是,所述第一对象中包含有与所述第二对象中相同字符的字符数量,可以理解为:所述第二对象中与所述第一对象中相同的字符数量;也可以理解为;所述第二对象的名称字符包含在第一对象中的字符数量。
其中,所述字包含相似度值的值域范围为[0,1],也就是说,所述字包含相似度值为0~1之间的一个值,所述字包含相似度值越大,所述第一对象中包含越多的所述第二对象中的名称字符,即两个名称对象相同的名称字符越多。
步骤103:获取字顺序相似度值。
其中,所述字顺序相似度值为所述第一对象中包含有所述第二对象中相同字符的字顺序相似度值。
需要说明的是,在上述步骤102中两个名称对象中的字包含的名称字符数量可以相同,但由于其相同字符的不同顺序组合使得其代表的含义可能不同,即对两者最终的相似度值造成一定的影响,相似度的精确程度受到影响,因此本申请中引入字顺序相似度的获取。
其中,所述字顺序相似度值考虑的是第一对象A与第二对象B交集(相同的名称字符)中的字符在两者中的次序关系,当所述步骤102中所述字包含相似度值不等于0时,如果两个对象中包含字的次序关系相同,则两者的相似程度较大,否则两者的相似性程度较低。第一对象A与第二对象B的字顺序相似度可以理解为:所述第一对象A中字顺序与第二对象B中的字顺序的一致程度,这里的字顺序是指两个名称对象的交集字符的字顺序。
需要说明的是,所述字顺序相似度的值域范围为[0,1]。且当第一对象或第二对象中交集字符整体移动时,其字顺序相似度不变。
步骤104:获取字距离相似度值。
其中,所述字距离相似度值考虑的是第二对象B与所述第一对象A的交集字符将第一对象A进行分割之后,因分割片段的均匀程度差异而引起的相似程度的差异。一般情况下,长度相同的两个名称对象分别用其包含的字符对另一名称对象进行分割后,分割片段较为均匀的结果对应的名称对象与该另一名称对象的相似度更高。由此,本申请引入所述字距离相似度值,其中,所述字距离相似度值为所述第一对象中包含有所述第二对象中相同的字符将所述第一对象中名称字符分割后的字符片段均匀度值。
需要说明的是,所述字距离相似度值的值域范围为[0,1]。
步骤105:依据所述字包含相似度值、所述字顺序相似度值及所述字距离相似度值,获取所述第一对象与所述第二对象的三维相似度值。
其中,所述三维相似度值是指相对于前述字包含相似度值、所述字顺序相似度值及所述字距离相似度值而言,为综合三个方向确定的第一对象与第二对象的相似度值。
由上述方案中可知,本申请提供的一种名称相似度获取方法实施例一,通过在确定均含有至少一个名称字符的第一对象及第二对象(字符数量较少的对象确定为第二对象)之后,分别计算第一对象与第二对象的字包含相似度值、字顺序相似度值及字距离相似度值,其中,第二对象的字符数量小于或等于第一对象的字符数量,进而依据得到的两个对象的字包含相似度值、字顺序相似度值及字距离相似度值,获取到第一对象与第二对象的三维相似度值(区别于前文中字包含相似度值、字顺序相似度值及字距离相似度值等一维相似度值),实现本申请实施例目的。本申请实施例在获取两个名称对象的相似度值的过程中,无需语料库、统计规划或分词库等做基础计算,使得本申请计算量较小,效率较高。
其中,在所述步骤105中得到所述第一对象与所述第二对象的三维相似度值之后,本申请实施例还可以根据该三维相似度值对第一对象或第二对象进行后续操作,如将对应的名称对象删除或添加等,此时,参考图2,为本申请实施例一的另一流程图,其中,在所述步骤105之后,所述方法还可以包括以下步骤:
步骤106:判断所述三维相似度值是否大于或等于预设第一阀值,如果是,执行步骤107。
步骤107:生成第一提示信息。
其中,所述第一提示信息用于提示对所述第一对象进行操作的信息。所述第一提示信息也可以为提示对所述第二对象进行操作的信息。所述步骤107可以理解为:所述第一对象与所述第二对象匹配上时,记录第一对象与第二对象匹配的同时,生成第一提示信息,所述第一提示信息表明所述第一对象与所述第二对象匹配,由此提示对所述第一对象或第二对象进行操作。而所述第一阀值可以由用户自行设定,也可动态设置,例如设置为0.8等。
需要说明的是,本申请实施例适用于对待判断相似度的一名称对象与名称库中的任意一个名称对象之间的相似度值获取的应用中,例如,上述实施例中第一对象A可以作为待判断相似度的名称对象,第二对象B可以作为原有名称库中顺序或任意选取的一个名称对象,此时,对第一对象与第二对象的相似度进行获取,完成之后,可以再在名称库中选取下一个名称对象作为第二对象与第一对象进行相似度值的获取,最终将第一对象与名称库中的所有名称对象进行相似度识别。
参考图3,为本申请提供的一种名称相似度获取方法实施例二的部分流程图,其中,在所述步骤105之后,所述方法还可以包括:
步骤108:获取第一对象分别与至少一个第三对象的三维相似度值。
其中,所述步骤108可以理解为:在获取到第一对象与第二对象的相似度值之后,获取下一个与第二对象属于同一名称库的第三对象,进而获取第一对象分别与每个第三对象的三维相似度值。
步骤109:将所述第一对象与每个所述第三对象的相似度值与所述第一对象和所述第二对象的三维相似度值组成相似度集合。
步骤110:对所述相似度值集合中的三维相似度值进行大小排序。
步骤111:依据排序后的三维相似度值,生成第二提示信息。
其中,所述第二提示信息用于提示依据所述排序后三维相似度值各自对应的第三对象或第二对象对第一对象进行操作的信息。
需要说明的是,所述第二提示信息即为:在将第一对象与名称库中的每个名称对象进行相似度值获取之后,对名称库中的名称对象据其各自对应的三维相似度值进行排序,进而提示用户依据排序后的名称库中的名称对象对第一对象进行操作,如写入名称库或删除等操作。
其中,上述实施例中,所述步骤102具体可以通过以下方式实现:
利用以下公式(1),获取所述第一对象中包含有所述第二对象中相同字符的字符数量在所述第一对象中所占的比重值作为字包含相似度值;
C ( B , A ) = n ( B ∩ A ) n ( A ) - - - ( 1 )
其中,n(B∩A)为所述第一对象A中包含有所述第二对象B中相同字符的字符数量,n(A)为所述第一对象A的字符数量,C(B,A)为所述比重值。
例如“中国工商银行股份有限公司”对“工商银行”的字包含相似度C(“工商银行”,“中国工商银行股份有限公司”)为0.33。
在实际应用中,为预防两个名称对象中前后缀的大段重复,如机构中文命名前后缀的大段重复,使得所述字包含相似度值较高的误报,可以预先采用限制设定,此时,参考图4,为本申请提供的一种名称相似度获取方法实施例三的部分流程图,其中,在所述步骤101之后,在所述步骤102之前,所述方法还可以包括以下步骤:
步骤112:获取所述第二对象中字符数量与所述第一对象中包含有所述第二对象中相同字符的字符数量的差值。
步骤113:判断所述差值是否等于1,如果是,执行步骤114,并结束当前名称相似度获取。
步骤114:生成第三提示信息,所述第三提示信息用于提示所述第二对象中只有一个名称字符不包含在所述第一对象中的信息。
上述方案可以理解为:在第二对象中字符数量减去所述交集字符的数量的差值为1时,所述第二对象中只有一个名称字符不包含在第一对象中,此时生成该第三提示信息。
另外,在所述第二对象中字符数量与所述第一对象中包含有所述第二对象中相同字符的字符数量的差值为零时,即为第二对象中字符数量减去所述交集字符的数量相同,也就是说第二对象完全包含于所述第一对象中,此时所述第二对象极有可能为所述第一对象的简写或简写的改写等,此时可以生成第四提示信息,由用户进行自行判定,不再执行后续操作。本实现方案与如图4中的方案原理一致,同样在本申请的保护范围内。
其中,上述各个实施例中,所述步骤103可以通过以下方式实现:
利用以下公式(2),获取所述第一对象中包含有所述第二对象中相同字符的字顺序相似度值;
O ( B , A ) = pre ( Order ( B , A ) ) n ( B ∩ A ) - 1 - - - ( 2 )
其中,Order(B,A)为所述第一对象A中包含有第二对象B中相同的字符在所述第一对象A中的序号排列组合,pre(Order(B,A))为所述序号排列组合中的正序数,n(B∩A)为所述第一对象A中包含有所述第二对象B中相同字符的字符数量,O(B,A)为所述第一对象与所述第二对象的字顺序相似度值。
其中,上述公式适用于第一对象与第二对象的交集字符数量大于1时的情况,当所述交集字符数量为0时,所述字顺序相似度值为0,当所述交集字符数量为1时,所述字顺序相似度值为1。
例如,第二对象“工行中”在第一对象“中国工商银行股份有限公司”中的序号排列Order(“工行中”,“中国工商银行股份有限公司”)=(3,6,1)。pre(Order(第二对象,第一对象))为序号排列的正序数。由于3<6、6>1,得序号排列的正序数pre(Order(“工行中”,“中国工商银行股份有限公司”))=1,则两者的字顺序相似度O(“工行中”,“中国工商银行股份有限公司”)为0.5。
由于正序排列的序数最大为第二对象与第一对象交集中元素个数减1,所以O(B,A)的取值范围为[0,1]。
另外,参考图5,为本申请提供的一种名称相似度获取方法实施例四中所述步骤104的流程图,其中,所述步骤104可以包括以下步骤:
步骤501:利用以下公式(3),获取所述第一对象中包含有所述第二对象中相同的字符将所述第一对象中名称字符分割后的字符片段累积距离值;
U ( B , A ) = &Sigma; i = 2 n ( P i - P i - 1 - 1 ) 2 + ( P 1 - 1 ) 2 + ( N - P n ) 2 ( n ( A - B ) ) 2 , - - - ( 3 )
其中,N为第一对象A中名称字符的数量,Pi为所述第一对象A中包含有所述第二对象B中相同的字符在所述第一对象A中对应的位置排序序号,U(B,A)为所述第一对象A中包含有所述第二对象B中相同的字符将所述第一对象A中名称字符分割后的字符片段累积距离值。
假定一个第二对象与第一对象的交集字符集合为{S1,S2,...,Sn},该交集字符集合Si(i=1,2,...,n)在第一对象中对应位置为Pi,对Pi进行排序,得到的位置集合为{P1,P2,...Pn},满足P1<P2<...<Pn,定义分割片段的累积距离如上述公式(3)表示。
其中,所述字距离相似度值考虑的是分割片段的均匀程度,当分割片段的累积距离越小,均匀程度越高,相似度越大。反之,分割片段累积距离越大,均匀程度越差,相似度则越小。根据最平均分割和最极端分割情况,则累计距离
步骤502:利用以下公式(4),获取所述第一对象与所述第二对象的字顺序相似度值;
( B , A ) = 1 - n + 1 n ( U ( B , A ) - 1 n + 1 ) - - - ( 4 )
其中,n为所述第一对象A中包含有所述第二对象B中相同字符的字符数量,L(B,A)为所述第一对象与所述第二对象的字顺序相似度值。
显然,L(B,A)的值域范围为[0,1]。例如,“中工行”相对“中国工商银行股份有限公司”的分割片段的累积距离为0.506,则其字距离相似度L(“中工行”,“中国工商银行股份有限公司”)为0.66。
参考图6,为本申请提供的一种名称相似度获取方法实施例五中所述步骤105的流程图,其中,所述步骤105可以通过以下方式实现:
步骤601:利用以下公式(5),分别获取所述字包含相似度值、所述字顺序相似度值及所述字距离相似度值各自对应的权重系数;
( &alpha; 1 , &alpha; 2 , &alpha; 3 ) = ( C C + O + L , O C + O + L , L C + O + L ) - - - ( 5 )
其中,α1为所述第一对象A与所述第二对象B的字包含相似度值C对应的权重系数;α2为所述第一对象A与所述第二对象B的字顺序相似度值O对应的权重系数;α3为所述第一对象A与所述第二对象B的字距离相似度值L对应的权重系数。
在第一对象与第二对象的三维相似度值计算的过程中,当所述字包含相似度值C较大时,两个名称对象的交集字符元素个数较多,相应的字距离相似度值L较小,这时主要考虑的是字包含相似度;当字包含相似度C较小时,两个名称对象的交集字符元素个数较少,相应的字距离相似度L有可能较大,这时主要考虑的是字距离相似度。依据这一分析,可以使用向量(ContainedSimilarity,OrderSimilarity,LengthSimilarity),记为(C,O,L)的归一化向量作为α123的取值。
步骤602:利用以下公式(6),获取所述第一对象与所述第二对象的三维相似度值;
S=α1C+α2O+α3L     (6)
其中,S为所述第一对象A与所述第二对象B的三维相似度值。
结合上述三个维度的相似度值计算,在确定第一对象与第二对象的相似度值时,综合考虑字包含、字顺序、字距离这三个方面,提出三维相似度值S的计算方法,具体的计算公式如(6)中所示。
其中:α1、α2和α3为字包含、字顺序、字距离相似度在三维相似度中所占的权重,三者大小满足α123=1,显然有S(B,A)的值域范围为[0,1]。
综合上述各个实施例,本申请在实现对名称A与原有名称库中的每个名称B之间的相似度值识别时可以以以下流程实现,参考图7,为本申请提供了一种名称相似度获取方法实施例六的流程图,其中,所述方法可以包括:
1、获取待判断相似度名称A;
2、从原有名称库中顺序选择一个名称B;
3、判断两个名称的长度,以长名称为基准(如前文中第一对象和第二对象,在本实施例中以A为第一对象,B为第二对象为例);
4、计算A/B之间字包含相似度值;
5、计算A/B之间字顺序相似度值;
6、计算A/B之间字距离相似度值;
7、计算三个相似度权重系数a1、a2、a3;
8、计算A/B之间三维综合相似度;
9、判断是否超过事先设定相似度阈值,如果超出预设相似度阀值,执行10,否则返回执行2,取下一个名称B;
10、提示匹配上此原有机构B;
11、相似度判断结束(在原有名称库中的名称均被相识度识别完毕之后结束)。
参考图8,为本申请提供的一种名称相似度获取装置实施例七的结构示意图,所述装置可以适用于对两个名称对象进行相似度识别获取的应用中,所述装置可以包括:
对象确定单元801,用于确定第一对象和第二对象。
其中,所述第一对象包括至少一个名称字符,所述第二对象包括至少一个名称字符。
需要说明的是,在所述对象确定单元801运行之前,所述装置可以预先获取两个名称对象A和B,将字符数量较多的一个名称对象确定为第一对象,另一个为第二对象,此时,所述第一对象的字符数量大于或等于所述第二对象的字符数量。
第一值获取单元802,用于获取字包含相似度值。
其中,所述字包含相似度值为所述第一对象中包含有与所述第二对象中相同字符的字符数量在所述第一对象中所占的比重值。
需要说明的是,所述第一对象中包含有与所述第二对象中相同字符的字符数量,可以理解为:所述第二对象中与所述第一对象中相同的字符数量;也可以理解为;所述第二对象的名称字符包含在第一对象中的字符数量。
其中,所述字包含相似度值的值域范围为[0,1],也就是说,所述字包含相似度值为0~1之间的一个值,所述字包含相似度值越大,所述第一对象中包含越多的所述第二对象中的名称字符,即两个名称对象相同的名称字符越多。
第二值获取单元803,用于获取字顺序相似度值。
其中,所述字顺序相似度值为所述第一对象中包含有所述第二对象中相同字符的字顺序相似度值。
需要说明的是,上述第一值获取单元802中两个名称对象中的字包含的名称字符数量可以相同,但由于其相同字符的不同顺序组合使得其代表的含义可能不同,即对两者最终的相似度值造成一定的影响,相似度的精确程度受到影响,因此本申请中引入字顺序相似度的获取。
其中,所述字顺序相似度值考虑的是第一对象A与第二对象B交集(相同的名称字符)中的字符在两者中的次序关系,当所述第一值获取单元802中所述字包含相似度值不等于0时,如果两个对象中包含字的次序关系相同,则两者的相似程度较大,否则两者的相似性程度较低。第一对象A与第二对象B的字顺序相似度可以理解为:所述第一对象A中字顺序与第二对象B中的字顺序的一致程度,这里的字顺序是指两个名称对象的交集字符的字顺序。
需要说明的是,所述字顺序相似度的值域范围为[0,1]。且当第一对象或第二对象中交集字符整体移动时,其字顺序相似度不变。
第三值获取单元804,用于获取字距离相似度值。
其中,所述字距离相似度值考虑的是第二对象B与所述第一对象A的交集字符将第一对象A进行分割之后,因分割片段的均匀程度差异而引起的相似程度的差异。一般情况下,长度相同的两个名称对象分别用其包含的字符对另一名称对象进行分割后,分割片段较为均匀的结果对应的名称对象与该另一名称对象的相似度更高。由此,本申请引入所述字距离相似度值,其中,所述字距离相似度值为所述第一对象中包含有所述第二对象中相同的字符将所述第一对象中名称字符分割后的字符片段均匀度值。
需要说明的是,所述字距离相似度值的值域范围为[0,1]。
相似度值获取单元805,用于依据所述字包含相似度值、所述字顺序相似度值及所述字距离相似度值,获取所述第一对象与所述第二对象的三维相似度值。
其中,所述三维相似度值是指相对于前述字包含相似度值、所述字顺序相似度值及所述字距离相似度值而言,为综合三个方向确定的第一对象与第二对象的相似度值。
由上述方案中可知,本申请提供的一种名称相似度获取装置实施例七,通过在确定均含有至少一个名称字符的第一对象及第二对象(字符数量较少的对象确定为第二对象)之后,分别计算第一对象与第二对象的字包含相似度值、字顺序相似度值及字距离相似度值,其中,第二对象的字符数量小于或等于第一对象的字符数量,进而依据得到的两个对象的字包含相似度值、字顺序相似度值及字距离相似度值,获取到第一对象与第二对象的三维相似度值(区别于前文中字包含相似度值、字顺序相似度值及字距离相似度值等一维相似度值),实现本申请实施例目的。本申请实施例在获取两个名称对象的相似度值的过程中,无需语料库、统计规划或分词库等做基础计算,使得本申请计算量较小,效率较高。
其中,所述相似度值获取单元805得到所述第一对象与所述第二对象的三维相似度值之后,本申请实施例还可以根据该三维相似度值对第一对象或第二对象进行后续操作,如将对应的名称对象删除或添加等,此时,参考图9,为本申请实施例七的另一结构示意图,其中,所述装置还可以包括:
第一阀值判断单元806,用于在所述相似度值获取单元805获取到所述三维相似度值之后,判断所述三维相似度值是否大于或等于预设第一阀值,如果是,触发第一信息生成单元807。
第一信息生成单元807,用于生成第一提示信息。
其中,所述第一提示信息用于提示对所述第一对象进行操作的信息。所述第一提示信息也可以为提示对所述第二对象进行操作的信息。所述第一提示信息可以理解为:所述第一对象与所述第二对象匹配上时,记录第一对象与第二对象匹配的同时,由所述第一信息生成单元807生成第一提示信息,所述第一提示信息表明所述第一对象与所述第二对象匹配,由此提示对所述第一对象或第二对象进行操作。而所述第一阀值可以由用户自行设定,也可动态设置,例如设置为0.8等。
需要说明的是,本申请实施例适用于对待判断相似度的一名称对象与名称库中的任意一个名称对象之间的相似度值获取的应用中,例如,上述实施例中第一对象A可以作为待判断相似度的名称对象,第二对象B可以作为原有名称库中顺序或任意选取的一个名称对象,此时,对第一对象与第二对象的相似度进行获取,完成之后,可以再在名称库中选取下一个名称对象作为第二对象与第一对象进行相似度值的获取,最终将第一对象与名称库中的所有名称对象进行相似度识别。
参考图10,为本申请提供的一种名称相似度获取装置实施例八的部分结构示意图,其中,所述装置还可以包括:
值获取单元808,用于在所述相似度值获取单元805获取到所述三维相似度值之后,获取第一对象分别与至少一个第三对象的三维相似度值。
其中,所述值获取单元808可以理解为:在获取到第一对象与第二对象的相似度值之后,获取下一个与第二对象属于同一名称库的第三对象,进而获取第一对象分别与每个第三对象的三维相似度值。
值组合单元809,用于将所述第一对象与每个所述第三对象的三维相似度值与所述第一对象和所述第二对象的三维相似度值组成相似度值集合。
值排序单元810,用于对所述相似度值集合中的三维相似度值进行大小排序。
第二信息生成单元811,用于依据排序后的三维相似度值,生成第二提示信息。
其中,所述第二提示信息用于提示依据所述排序后三维相似度值各自对应的第三对象或第二对象对第一对象进行操作的信息。
需要说明的是,所述第二提示信息即为:在将第一对象与名称库中的每个名称对象进行相似度值获取之后,对名称库中的名称对象据其各自对应的三维相似度值进行排序,进而提示用户依据排序后的名称库中的名称对象对第一对象进行操作,如写入名称库或删除等操作。
参考图11,为本申请提供的一种名称相似度获取装置实施例九中所述第一值获取单元802的结构示意图,其中,所述第一值获取单元802可以包括:
第一值获取子单元821,用于利用上述公式(1),获取所述第一对象中包含有所述第二对象中相同字符的字符数量在所述第一对象中所占的比重值作为字包含相似度值;
其中,n(B∩A)为所述第一对象A中包含有所述第二对象B中相同字符的字符数量,n(A)为所述第一对象A的字符数量,C(B,A)为所述比重值。
例如“中国工商银行股份有限公司”对“工商银行”的字包含相似度C(“工商银行”,“中国工商银行股份有限公司”)为0.33。
在实际应用中,为预防两个名称对象中前后缀的大段重复,如机构中文命名前后缀的大段重复,使得所述字包含相似度值较高的误报,可以预先采用限制设定,此时,参考图12,为本申请提供的一种名称相似度获取装置实施例十的部分结构示意图,其中,所述装置还可以包括:
差值获取单元812,用于在对象确定单元801确定所述第一对象和所述第二对象之后,在所述第一值获取单元802获取所述字包含相似度值之前,获取所述第二对象中字符数量与所述第一对象中包含有所述第二对象中相同字符的字符数量的差值。
差值判断单元813,用于判断所述差值是否等于1,如果是,触发第三信息生成单元,并结束当前名称相似度获取;
第三信息生成单元814,用于生成第三提示信息,所述第三提示信息用于提示所述第二对象中只有一个名称字符不包含在所述第一对象中的信息。
上述方案可以理解为:在第二对象中字符数量减去所述交集字符的数量的差值为1时,所述第二对象中只有一个名称字符不包含在第一对象中,此时生成该第三提示信息。
另外,在所述第二对象中字符数量与所述第一对象中包含有所述第二对象中相同字符的字符数量的差值为零时,即为第二对象中字符数量减去所述交集字符的数量相同,也就是说第二对象完全包含于所述第一对象中,此时所述第二对象极有可能为所述第一对象的简写或简写的改写等,此时可以生成第四提示信息,由用户进行自行判定,不再执行后续操作。本实现方案与如图12中的方案原理一致,同样在本申请的保护范围内。
参考图13,为本申请提供的一种名称相似度获取装置实施例十一中所述第二值获取单元803的结构示意图,其中,所述第二值获取单元803可以包括:
第二值获取子单元831,用于利用以上公式(2),获取所述第一对象中包含有所述第二对象中相同字符的字顺序相似度值。
其中,Order(B,A)为所述第一对象A中包含有第二对象B中相同的字符在所述第一对象A中的序号排列组合,pre(Order(B,A))为所述序号排列组合中的正序数,n(B∩A)为所述第一对象A中包含有所述第二对象B中相同字符的字符数量,O(B,A)为所述第一对象与所述第二对象的字顺序相似度值。
其中,上述公式适用于第一对象与第二对象的交集字符数量大于1时的情况,当所述交集字符数量为0时,所述字顺序相似度值为0,当所述交集字符数量为1时,所述字顺序相似度值为1。
例如,第二对象“工行中”在第一对象“中国工商银行股份有限公司”中的序号排列Order(“工行中”,“中国工商银行股份有限公司”)=(3,6,1)。pre(Order(第二对象,第一对象))为序号排列的正序数。由于3<6、6>1,得序号排列的正序数pre(Order(“工行中”,“中国工商银行股份有限公司”))=1,则两者的字顺序相似度O(“工行中”,“中国工商银行股份有限公司”)为0.5。
由于正序排列的序数最大为第二对象与第一对象交集中元素个数减1,所以O(B,A)的取值范围为[0,1]。
参考图14,为本申请提供的一种名称相似度获取装置实施例十二中所述第三值获取单元804的结构示意图,其中,所述第三值获取单元804可以包括:
距离值获取子单元841,用于利用以上公式(3),获取所述第一对象中包含有所述第二对象中相同的字符将所述第一对象中名称字符分割后的字符片段累积距离值。
其中,N为第一对象A中名称字符的数量,Pi为所述第一对象A中包含有所述第二对象B中相同的字符在所述第一对象A中对应的位置排序序号,U(B,A)为所述第一对象A中包含有所述第二对象B中相同的字符将所述第一对象A中名称字符分割后的字符片段累积距离值;
假定一个第二对象与第一对象的交集字符集合为{S1,S2,...,Sn},该交集字符集合Si(i=1,2,...,n)在第一对象中对应位置为Pi,对Pi进行排序,得到的位置集合为{P1,P2,...Pn},满足P1<P2<...<Pn,定义分割片段的累积距离如上述公式(3)表示。
其中,所述字距离相似度值考虑的是分割片段的均匀程度,当分割片段的累积距离越小,均匀程度越高,相似度越大。反之,分割片段累积距离越大,均匀程度越差,相似度则越小。根据最平均分割和最极端分割情况,则累计距离
第三值获取子单元842,用于利用以上公式(4),获取所述第一对象与所述第二对象的字顺序相似度值;
其中,n为所述第一对象A中包含有所述第二对象B中相同字符的字符数量,L(B,A)为所述第一对象与所述第二对象的字顺序相似度值。
显然,L(B,A)的值域范围为[0,1]。例如,“中工行”相对“中国工商银行股份有限公司”的分割片段的累积距离为0.506,则其字距离相似度L(“中工行”,“中国工商银行股份有限公司”)为0.66。
参考图15,为本申请提供的一种名称相似度获取装置实施例十三中所述相似度值获取单元805的结构示意图,其中,所述相似度值获取单元805可以包括:
系数获取子单元851,用于利用以上公式(5),分别获取所述字包含相似度值、所述字顺序相似度值及所述字距离相似度值各自对应的权重系数;
其中,α1为所述第一对象A与所述第二对象B的字包含相似度值C对应的权重系数;α2为所述第一对象A与所述第二对象B的字顺序相似度值O对应的权重系数;α3为所述第一对象A与所述第二对象B的字距离相似度值L对应的权重系数。
在第一对象与第二对象的三维相似度值计算的过程中,当所述字包含相似度值C较大时,两个名称对象的交集字符元素个数较多,相应的字距离相似度值L较小,这时主要考虑的是字包含相似度;当字包含相似度C较小时,两个名称对象的交集字符元素个数较少,相应的字距离相似度L有可能较大,这时主要考虑的是字距离相似度。依据这一分析,可以使用向量(ContainedSimilarity,OrderSimilarity,LengthSimilarity),记为(C,O,L)的归一化向量作为α123的取值。
相似度值获取子单元852,用于利用以上公式(6),获取所述第一对象与所述第二对象的三维相似度值;
其中,S为所述第一对象A与所述第二对象B的三维相似度值。
结合上述三个维度的相似度值计算,在确定第一对象与第二对象的相似度值时,综合考虑字包含、字顺序、字距离这三个方面,提出三维相似度值S的计算方法,具体的计算公式如(6)中所示。
其中:α1、α2和α3为字包含、字顺序、字距离相似度在三维相似度中所占的权重,三者大小满足α123=1,显然有S(B,A)的值域范围为[0,1]。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种名称相似度获取方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (16)

1.一种名称相似度获取方法,其特征在于,包括:
确定第一对象和第二对象,所述第一对象包括至少一个名称字符,所述第二对象包括至少一个名称字符,所述第一对象的字符数量大于或等于所述第二对象的字符数量;
获取字包含相似度值,所述字包含相似度值为所述第一对象中包含有与所述第二对象中相同字符的字符数量在所述第一对象中所占的比重值;
获取字顺序相似度值,所述字顺序相似度值为所述第一对象中包含有所述第二对象中相同字符的字顺序相似度值;
获取字距离相似度值,所述字距离相似度值为所述第一对象中包含有所述第二对象中相同的字符将所述第一对象中名称字符分割后的字符片段均匀度值;
依据所述字包含相似度值、所述字顺序相似度值及所述字距离相似度值,获取所述第一对象与所述第二对象的三维相似度值。
2.根据权利要求1所述的方法,其特征在于,所述获取字包含相似度,包括:
利用获取所述第一对象中包含有所述第二对象中相同字符的字符数量在所述第一对象中所占的比重值作为字包含相似度值;
其中,n(B∩A)为所述第一对象A中包含有所述第二对象B中相同字符的字符数量,n(A)为所述第一对象A的字符数量,C(B,A)为所述比重值。
3.根据权利要求1所述的方法,其特征在于,所述获取字顺序相似度值,包括:
利用获取所述第一对象中包含有所述第二对象中相同字符的字顺序相似度值;
其中,Order(B,A)为所述第一对象A中包含有第二对象B中相同的字符在所述第一对象A中的序号排列组合,pre(Order(B,A))为所述序号排列组合中的正序数,n(B∩A)为所述第一对象A中包含有所述第二对象B中相同字符的字符数量,O(B,A)为所述第一对象与所述第二对象的字顺序相似度值。
4.根据权利要求1、2或3所述的方法,其特征在于,所述获取字距离相似度值,包括:
利用 U ( B , A ) = &Sigma; i = 2 n ( P i - P i - 1 - 1 ) 2 + ( P 1 - 1 ) 2 + ( N - P n ) 2 ( n ( A - B ) ) 2 , 获取所述第一对象中包含有所述第二对象中相同的字符将所述第一对象中名称字符分割后的字符片段累积距离值;
其中,N为第一对象A中名称字符的数量,Pi为所述第一对象A中包含有所述第二对象B中相同的字符在所述第一对象A中对应的位置排序序号,U(B,A)为所述第一对象A中包含有所述第二对象B中相同的字符将所述第一对象A中名称字符分割后的字符片段累积距离值;
利用获取所述第一对象与所述第二对象的字顺序相似度值;
其中,n为所述第一对象A中包含有所述第二对象B中相同字符的字符数量,L(B,A)为所述第一对象与所述第二对象的字顺序相似度值。
5.根据权利要求1所述的方法,其特征在于,所述依据所述字包含相似度值、所述字顺序相似度值及所述字距离相似度值,获取所述第一对象与所述第二对象的三维相似度值,包括:
利用 ( &alpha; 1 , &alpha; 2 , &alpha; 3 ) = ( C C + O + L , O C + O + L , L C + O + L ) , 分别获取所述字包含相似度值、所述字顺序相似度值及所述字距离相似度值各自对应的权重系数;
其中,α1为所述第一对象A与所述第二对象B的字包含相似度值C对应的权重系数;α2为所述第一对象A与所述第二对象B的字顺序相似度值O对应的权重系数;α3为所述第一对象A与所述第二对象B的字距离相似度值L对应的权重系数;
利用S=α1C+α2O+α3L,获取所述第一对象与所述第二对象的三维相似度值;
其中,S为所述第一对象A与所述第二对象B的三维相似度值。
6.根据权利要求1所述的方法,其特征在于,在所述获取到所述第一对象与所述第二对象的三维相似度值之后,所述方法还包括:
判断所述三维相似度值是否大于或等于预设第一阀值,如果是,生成第一提示信息,所述第一提示信息用于提示对所述第一对象进行操作的信息。
7.根据权利要求1或6所述的方法,其特征在于,在所述获取到所述第一对象与所述第二对象的三维相似度值之后,所述方法还包括:
获取第一对象分别与至少一个第三对象的三维相似度值;
将所述第一对象与每个所述第三对象的三维相似度值与所述第一对象和所述第二对象的三维相似度值组成相似度值集合;
对所述相似度值集合中的三维相似度值进行大小排序;
依据排序后的三维相似度值,生成第二提示信息,所述第二提示信息用于提示依据所述排序后三维相似度值各自对应的第三对象或第二对象对第一对象进行操作的信息。
8.根据权利要求1所述的方法,其特征在于,在所述确定第一对象和第二对象之后,在所述获取字包含相似度值之前,所述方法还包括:
获取所述第二对象中字符数量与所述第一对象中包含有所述第二对象中相同字符的字符数量的差值;
判断所述差值是否等于1,如果是,生成第三提示信息,并结束当前名称相似度获取,所述第三提示信息用于提示所述第二对象中只有一个名称字符不包含在所述第一对象中的信息。
9.一种名称相似度获取装置,其特征在于,包括:
对象确定单元,用于确定第一对象和第二对象,所述第一对象包括至少一个名称字符,所述第二对象包括至少一个名称字符,所述第一对象的字符数量大于或等于所述第二对象的字符数量;
第一值获取单元,用于获取字包含相似度值,所述字包含相似度值为所述第一对象中包含有与所述第二对象中相同字符的字符数量在所述第一对象中所占的比重值;
第二值获取单元,用于获取字顺序相似度值,所述字顺序相似度值为所述第一对象中包含有所述第二对象中相同字符的字顺序相似度值;
第三值获取单元,用于获取字距离相似度值,所述字距离相似度值为所述第一对象中包含有所述第二对象中相同的字符将所述第一对象中名称字符分割后的字符片段均匀度值;
相似度值获取单元,用于依据所述字包含相似度值、所述字顺序相似度值及所述字距离相似度值,获取所述第一对象与所述第二对象的三维相似度值。
10.根据权利要求9所述的装置,其特征在于,所述第一值获取单元包括:
第一值获取子单元,用于利用获取所述第一对象中包含有所述第二对象中相同字符的字符数量在所述第一对象中所占的比重值作为字包含相似度值;
其中,n(B∩A)为所述第一对象A中包含有所述第二对象B中相同字符的字符数量,n(A)为所述第一对象A的字符数量,C(B,A)为所述比重值。
11.根据权利要求9所述的装置,其特征在于,所述第二值获取单元包括:
第二值获取子单元,用于利用获取所述第一对象中包含有所述第二对象中相同字符的字顺序相似度值;
其中,Order(B,A)为所述第一对象A中包含有第二对象B中相同的字符在所述第一对象A中的序号排列组合,pre(Order(B,A))为所述序号排列组合中的正序数,n(B∩A)为所述第一对象A中包含有所述第二对象B中相同字符的字符数量,O(B,A)为所述第一对象与所述第二对象的字顺序相似度值。
12.根据权利要求9、10或11所述的装置,其特征在于,所述第三值获取单元包括:
距离值获取子单元,用于利用 U ( B , A ) = &Sigma; i = 2 n ( P i - P i - 1 - 1 ) 2 + ( P 1 - 1 ) 2 + ( N - P n ) 2 ( n ( A - B ) ) 2 , 获取所述第一对象中包含有所述第二对象中相同的字符将所述第一对象中名称字符分割后的字符片段累积距离值;
其中,N为第一对象A中名称字符的数量,Pi为所述第一对象A中包含有所述第二对象B中相同的字符在所述第一对象A中对应的位置排序序号,U(B,A)为所述第一对象A中包含有所述第二对象B中相同的字符将所述第一对象A中名称字符分割后的字符片段累积距离值;
第三值获取子单元,用于利用获取所述第一对象与所述第二对象的字顺序相似度值;
其中,n为所述第一对象A中包含有所述第二对象B中相同字符的字符数量,L(B,A)为所述第一对象与所述第二对象的字顺序相似度值。
13.根据权利要求9所述的装置,其特征在于,所述相似度值获取单元包括:
系数获取子单元,用于利用 ( &alpha; 1 , &alpha; 2 , &alpha; 3 ) = ( C C + O + L , O C + O + L , L C + O + L ) , 分别获取所述字包含相似度值、所述字顺序相似度值及所述字距离相似度值各自对应的权重系数;
其中,α1为所述第一对象A与所述第二对象B的字包含相似度值C对应的权重系数;α2为所述第一对象A与所述第二对象B的字顺序相似度值O对应的权重系数;α3为所述第一对象A与所述第二对象B的字距离相似度值L对应的权重系数;
相似度值获取子单元,用于利用S=α1C+α2O+α3L,获取所述第一对象与所述第二对象的三维相似度值;
其中,S为所述第一对象A与所述第二对象B的三维相似度值。
14.根据权利要求9所述的装置,其特征在于,还包括:
第一阀值判断单元,用于在所述相似度值获取单元获取到所述三维相似度值之后,判断所述三维相似度值是否大于或等于预设第一阀值,如果是,触发第一信息生成单元;
第一信息生成单元,用于生成第一提示信息,所述第一提示信息用于提示对所述第一对象进行操作的信息。
15.根据权利要求9所述的装置,其特征在于,还包括:
值获取单元,用于在所述相似度值获取单元获取到所述三维相似度值之后,获取第一对象分别与至少一个第三对象的三维相似度值;
值组合单元,用于将所述第一对象与每个所述第三对象的三维相似度值与所述第一对象和所述第二对象的三维相似度值组成相似度值集合;
值排序单元,用于对所述相似度值集合中的三维相似度值进行大小排序;
第二信息生成单元,用于依据排序后的三维相似度值,生成第二提示信息,所述第二提示信息用于提示依据所述排序后三维相似度值各自对应的第三对象或第二对象对第一对象进行操作的信息。
16.根据权利要求9所述的装置,其特征在,还包括:
差值获取单元,用于在对象确定单元确定所述第一对象和所述第二对象之后,在所述第一值获取单元获取所述字包含相似度值之前,获取所述第二对象中字符数量与所述第一对象中包含有所述第二对象中相同字符的字符数量的差值;
差值判断单元,用于判断所述差值是否等于1,如果是,触发第三信息生成单元,并结束当前名称相似度获取;
第三信息生成单元,用于生成第三提示信息,所述第三提示信息用于提示所述第二对象中只有一个名称字符不包含在所述第一对象中的信息。
CN201310436119.9A 2013-09-23 2013-09-23 一种名称相似度获取方法及装置 Active CN104462055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310436119.9A CN104462055B (zh) 2013-09-23 2013-09-23 一种名称相似度获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310436119.9A CN104462055B (zh) 2013-09-23 2013-09-23 一种名称相似度获取方法及装置

Publications (2)

Publication Number Publication Date
CN104462055A true CN104462055A (zh) 2015-03-25
CN104462055B CN104462055B (zh) 2017-05-10

Family

ID=52908127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310436119.9A Active CN104462055B (zh) 2013-09-23 2013-09-23 一种名称相似度获取方法及装置

Country Status (1)

Country Link
CN (1) CN104462055B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866985A (zh) * 2015-05-04 2015-08-26 小米科技有限责任公司 快递单号识别方法、装置及系统
CN107102998A (zh) * 2016-02-22 2017-08-29 阿里巴巴集团控股有限公司 一种字符串距离计算方法和装置
CN111641995A (zh) * 2020-05-26 2020-09-08 中国联合网络通信集团有限公司 热点名称的更新方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7136876B1 (en) * 2003-03-03 2006-11-14 Hewlett-Packard Development Company, L.P. Method and system for building an abbreviation dictionary
CN101226471A (zh) * 2007-11-09 2008-07-23 中科软科技股份有限公司 一种基于构件的领域基础业务平台及其构建方法
CN101299217A (zh) * 2008-06-06 2008-11-05 北京搜狗科技发展有限公司 一种地图信息处理的方法、装置和系统
US20090049028A1 (en) * 2003-07-30 2009-02-19 Oracle International Corporation Method of determining the similarity of two strings

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7136876B1 (en) * 2003-03-03 2006-11-14 Hewlett-Packard Development Company, L.P. Method and system for building an abbreviation dictionary
US20090049028A1 (en) * 2003-07-30 2009-02-19 Oracle International Corporation Method of determining the similarity of two strings
CN101226471A (zh) * 2007-11-09 2008-07-23 中科软科技股份有限公司 一种基于构件的领域基础业务平台及其构建方法
CN101299217A (zh) * 2008-06-06 2008-11-05 北京搜狗科技发展有限公司 一种地图信息处理的方法、装置和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ISAACC等: ""探究字符串相似度(其一)"", 《HTTP://BBS.ANJIAN.COM/SHOWTOPIC-218232-1.ASPX》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866985A (zh) * 2015-05-04 2015-08-26 小米科技有限责任公司 快递单号识别方法、装置及系统
CN104866985B (zh) * 2015-05-04 2019-03-08 小米科技有限责任公司 快递单号识别方法、装置及系统
CN107102998A (zh) * 2016-02-22 2017-08-29 阿里巴巴集团控股有限公司 一种字符串距离计算方法和装置
WO2017143907A1 (zh) * 2016-02-22 2017-08-31 阿里巴巴集团控股有限公司 一种字符串距离计算方法和装置
TWI659358B (zh) * 2016-02-22 2019-05-11 香港商阿里巴巴集團服務有限公司 字串距離計算方法和裝置
US11256756B2 (en) 2016-02-22 2022-02-22 Advanced New Technologies Co., Ltd. Character string distance calculation method and device
CN111641995A (zh) * 2020-05-26 2020-09-08 中国联合网络通信集团有限公司 热点名称的更新方法及装置

Also Published As

Publication number Publication date
CN104462055B (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
Ewers et al. Using landscape history to predict biodiversity patterns in fragmented landscapes
Barr et al. A variable for measuring masses at hadron colliders when missing energy is expected; mT2: the truth behind the glamour
CN106156082B (zh) 一种本体对齐方法及装置
CN106844781B (zh) 数据处理的方法及装置
CN109299258A (zh) 一种舆情事件检测方法、装置及设备
CN102981884A (zh) 序列化装置和序列化方法
CN104636401B (zh) 一种scada系统数据回滚的方法及装置
CN103559313B (zh) 搜索方法及装置
Rivaie et al. A new conjugate gradient coefficient for large scale nonlinear unconstrained optimization
CN106326776A (zh) 基于规则的数据对象验证方法、装置、系统及电子设备
Dong et al. Modeling, synchronization, and FPGA implementation of Hamiltonian conservative hyperchaos
CN104462055A (zh) 一种名称相似度获取方法及装置
JP6276396B2 (ja) 知識ポイントの黙示的な関係を取得するための方法及びシステム
CN103399780B (zh) 一种基于虚拟机技术和动态符号执行的整数溢出检测方法
CN108898013B (zh) 一种基于布局划分特征向量的安卓应用界面相似度比较方法
Swarndeep Saket et al. Implementation of extended K-Medoids algorithms to increase efficiency and scalability using large dataset
US10706049B2 (en) Method and apparatus for querying nondeterministic graph
Labbaf et al. Compositional Learning for Interleaving Parallel Automata.
CN113269213A (zh) 训练集的获取方法、装置及电子设备
CN105260481A (zh) 一种推送列表多样性的评测方法及系统
Westernacher-Schneider Turbulence, gravity, and multimessenger asteroseismology
Newsom Towards Light Charge Association in Liquid Argon Time Projection Chambers
CN103793440A (zh) 信息显示方法和装置
CN109947873A (zh) 景点知识地图构建方法、装置、设备及可读存储介质
Schaefer Simulations with the hybrid Monte Carlo algorithm: Implementation and data analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant