CN116501897B

CN116501897B - 基于模糊匹配构建知识图谱的方法

Info

Publication number: CN116501897B
Application number: CN202310778214.0A
Authority: CN
Inventors: 相源华
Original assignee: Sino Credit Information Technology Beijing Co ltd
Current assignee: Sino Credit Information Technology Beijing Co ltd
Priority date: 2023-06-29
Filing date: 2023-06-29
Publication date: 2024-04-02
Anticipated expiration: 2043-06-29
Also published as: CN116501897A

Abstract

本发明公开了一种基于模糊匹配构建知识图谱的方法，包括：对节点的实体信息进行数据标准化预处理，得到待匹配节点；将待匹配节点按照团成立顺序遍历已有的各团首节点进行模糊匹配，一旦相似度大于阈值则加入该团，否则将该节点作为首节点创建新团；基于分团结果进行知识图谱构建。本发明能够进行节点的标准化和相似度计算，进而提高业务上的准确性和效率，在实际金融行业应用中有较高价值。

Description

基于模糊匹配构建知识图谱的方法

技术领域

本发明涉及知识图谱技术领域。更具体地说，本发明涉及一种基于模糊匹配构建知识图谱的方法。

背景技术

在普惠金融领域知识图谱应用已经相对广泛，例如营销获客、反欺诈调查、企业股权结构尽调、催收失联修复等。但在图谱构建中传统方法仍然存在如下问题：在图谱的构建过程中，传统方式通常通过字符串对比将相同的节点进行关系的建立。然而像地址、公司名称等信息由于填写规范不同，在字符串层面很难相等，另外，如果采用传统的字符串相似度计算方案如编辑距离，往往因为两个节点在字符串层面相似度很低而不能关联，从而导致图谱构建结果偏差较大，影响相关业务处理。

模糊匹配是一种数据匹配技术，用于比较两个或多个记录并计算它们属于同一实体的可能性。模糊匹配不是将记录大致分类为匹配和不匹配，而是输出一个数字（通常在0~100之间），用于标识这些记录属于同一地址、公司的可能性。在解决地址、公司类字符串匹配的问题上可以通过模糊匹配解决。然而目前业内没有一套公开标准的针对地址及公司名称进行模糊匹配的算法，因此，为解决前面提到问题需研发一套判断准确，计算快速的模糊匹配算法，应用到知识图谱构建中。

发明内容

本发明提供一种基于模糊匹配构建知识图谱的方法，其进行节点的标准化和相似度计算，进而提高业务上的准确性和效率，在实际金融行业应用中有较高价值。

为了实现根据本发明的这些目的和其它优点，提供了一种基于模糊匹配构建知识图谱的方法，包括：

对节点的实体信息进行数据标准化预处理，得到待匹配节点；

将待匹配节点按照团成立顺序遍历已有的各团首节点进行模糊匹配，一旦相似度大于阈值则加入该团，否则将该节点作为首节点创建新团；

基于分团结果进行知识图谱构建。

优选的是，数据标准化预处理包括清洗成规范字符串、切分成段分词、各段信息补全、各段再次清洗、纠错。

优选的是，节点的实体信息为地址，对地址信息进行分词时，将地址信息切分成行政区段、详细地址段，所述行政区段包括省段、市段、区/县段、街道/乡镇段各层级，所述详细地址段包括道路段、社区/村段和楼栋/组段各层级，计算两个节点的相似度时，包括：

步骤1：若两个字符串相同则两个节点的相似度为1，否则进入步骤2；

步骤2：若所有层级均为至少一个为空则两个节点的相似度为0，否则进入步骤3；

步骤3：若行政区段相似度为0则两个节点的相似度为0，否则进入步骤4；

步骤4：两个节点的相似度由行政区段、道路段、社区/村段和楼栋/组段的相似度加权得到。

优选的是，计算两个节点的行政区段相似度时，若任一个节点的行政区段与数据库匹配失败且两个节点的行政区段的所有层级都非空，则按照编辑距离算法计算两个节点的行政区段相似度，若两个节点的行政区段的所有层级相同，则两个节点的行政区段相似度为1，否则两个节点的行政区段相似度为0；

计算两个节点的详细地址段相似度时，对于同一层级至少一个为空时，则该层级的相似度为0，对于同一非空层级，分别将连续超过两个的阿拉伯数字替换为一个字母得到两个字符串，然后计算中文字符的编辑距离、转化为拼音的编辑距离、转化为五笔的编辑距离，其中的最大值作为该层级的相似度。

优选的是，若数据来源为空，则行政区段、道路段、社区/村段和楼栋/组段的权重值为预设值，若数据来源不为空，则获取对应数据库的权重值，并对行政区段、道路段、社区/村段和楼栋/组段的权重值进行校正，校正方式为：

若道路段至少一个为空，社区/村段都非空，道路段对应的权重值赋值给社区/村段；

若道路段都非空，社区/村段至少一个为空，社区/村段对应的权重值赋值给道路段；

若市段相等，且道路段都非空，社区/村段都非空，道路段对应的权重值赋值给社区/村段；

若楼栋/组段都为空：社区/村段都非空则将楼栋/组段对应的权重值赋值给社区/村段，社区/村段至少一个为空且道路段都非空则将楼栋/组段对应的权重值赋值给道路段，社区/村段至少一个为空且道路段至少一个为空则将楼栋/组段对应的权重值赋值给行政区段。

优选的是，节点的实体信息为公司名称，对公司名称信息进行分词时，将公司名称信息切分成行政区段、详细名称段，所述行政区段包括国段、省段、市段、区段各层级，所述详细名称段包括字号段、行业段、组织形式段、分支机构段各层级，计算两个节点的相似度时，包括：

步骤I：若两个字符串相同则两个节点的相似度为1，否则进入步骤II；

步骤II：两个节点的相似度由行政区段、字号段、行业段、组织形式段、分支机构段的相似度加权得到。

优选的是，计算两个节点的行政区段相似度时，若任一个节点的行政区段与数据库匹配失败，则按照编辑距离算法计算两个节点的行政区段相似度，若行政区段的所有层级相同，则行政区段相似度为1，若行政区段的层级存在包含关系，则行政区段相似度为0.9，否则为0；

计算两个节点的详细名称段相似度时，对于同一层级至少一个为空时，则该层级的相似度为0，对于同一非空层级，分别将连续超过两个的阿拉伯数字替换为一个字母得到两个字符串，然后计算中文字符的编辑距离、转化为拼音的编辑距离、转化为五笔的编辑距离，其中的最大值作为该层级的相似度。

优选的是，若数据来源为空，则行政区段、字号段、行业段、组织形式段、分支机构段的权重值为预设值，若数据来源不为空，则获取对应数据库的权重值，并对行政区段、字号段、行业段、组织形式段、分支机构段的权重值进行校正，校正方式为：

若行业段至少一个为空，行业段对应的权重值赋值给字号段；

若组织形式段至少一个为空，组织形式段对应的权重值赋值给字号段；

若分支机构段都为空，分支机构段对应的权重值赋值给字号段；

若字号段至少一个为空，字号段对应的权重值赋值给行业段。

电子设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行所述的方法。

存储介质，其上存储有计算机程序，该程序被处理器执行时，实现所述的方法。

本发明至少包括以下有益效果：

第一、本发明对节点实体数据进行模糊匹配对比，基于模糊匹配对节点进行分团，通过分团结果构建知识图谱，将不规范的节点进行处理提升图谱构建的准确性，将相似的节点进行关联，可大大提升知识图谱在普惠金融业务上的效能，做到更精准的营销挖掘、更全面的风险防控、更好贷后催收辅助。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明基于模糊匹配进行节点分团的示意图；

图2为本发明的一个实例构建知识图谱前的示意图；

图3为本发明的一个实例构建知识图谱后的示意图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

应当理解，本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。

需要说明的是，下述实施方案中所述实验方法，如无特殊说明，均为常规方法，所述试剂和材料，如无特殊说明，均可从商业途径获得。

如图1所示，本发明提供一种基于模糊匹配构建知识图谱的方法，包括：

S1：对节点的实体信息进行数据标准化预处理，数据标准化预处理包括清洗成规范字符串、切分成段分词、各段信息补全、各段再次清洗、纠错，得到待匹配节点；

清洗：包括三个元素（替换条件，需要替换的元素，替换元素），先根据替换条件找到需要替换的字符串替换得到新的字符串，保留简繁体转化、全半角转化、小写转大写、使用过滤规则过滤字符串（过滤的所有规则算法使用者可自行配置,比如去掉特殊字符、楼栋格式化、去掉重复的省）等等。

分词及分词调整：通过分词将地址及公司名称切分成标准化的段，如表1所示。

表1

根据输入的字符串，将该地址串通过jieba分词工具包进行分词，分词步骤如下：

将地址串根据字典库生成所有切词可能的有向无环图 DAG；

动态规划寻找最佳切词路径；

结合字典库（地址库、公司名库）将该串切割成带标记的词。

如地址：陕西西安雁塔区锦业一路永利金融国际中心一四零一室

说明：A代表省、B代表市、C代表区或者县、D代表街道、E代表村、F代表小区、U代表该词不确定到底是哪个级别的（如西安，可能是西安市也可能是非陕西省下的某个西安区）、N代表该辞或者字符串在字典中不存在。

如公司：中科聚信信息技术有限公司

说明：Z代表国家、A代表省、B代表市、C代表区或者县、D代表字号、E代表行业、F代表组织形式、N代表该辞或者字符串在字典中不存在。

信息补全：

匹配地址库中各层级的地址树，将层级完整的地址补全，如将陕西西安雁塔区补全为陕西省西安市雁塔区；

匹配地址库中各层级的地址树，采用树图扫描机制，基于深度遍历和广度遍历，自上而下消歧，结合自下而上补全，同时处理别名，将层级不完整的地址补全，如将西安雁塔区补全为陕西省西安市雁塔区；

对公司补全结果处理（匹配公司名称及公司别名库，该步用于公司信息处理）。

分段清洗：同上。

纠错：通过树图探测机制处理非行政区划段与行政区划段重名场景；通过其他专家经验对常见地址录入场景进行完善处理。

S2：将待匹配节点按照团成立顺序遍历已有的各团首节点进行模糊匹配，一旦相似度大于阈值则加入该团，否则将该节点作为首节点创建新团；

如图1所示，作为构建图谱的基础，要先将需模糊匹配关联的节点进行分团。

分团逻辑：取节点，如果当前有团与各团团首节点进行模糊匹配，遇到匹配度大于设定值的加入该团，如全部匹配后均无匹配团，将该节点作为团首节点创建新团，并生成团号；节点按照团号顺序依次遍历，加入第一个相似度大于阈值的团。

节点的实体信息为地址，对地址信息进行分词时，将地址信息切分成行政区段、详细地址段，所述行政区段包括省段、市段、区/县段、街道/乡镇段各层级，所述详细地址段包括道路段、社区/村段和楼栋/组段各层级，计算两个节点的相似度时，包括：

计算两个节点的行政区段相似度时，若任一个节点的行政区段与数据库匹配失败且两个节点的行政区段的所有层级都非空，则按照编辑距离算法计算两个节点的行政区段相似度，若两个节点的行政区段的所有层级相同，则两个节点的行政区段相似度为1，否则两个节点的行政区段相似度为0；

若数据来源为空，则行政区段、道路段、社区/村段和楼栋/组段的权重值为预设值，若数据来源不为空，则获取对应数据库的权重值，并对行政区段、道路段、社区/村段和楼栋/组段的权重值进行校正，校正方式为：

简易流程：

第1步：首先将两个地址分别进行标准化；

第2步：两个标准化后的地址对象比较相似度

1)两个字符串完全相同返回相似度为1；

2)行政区划段是两边都有值，其余的1-7段(各层级分开后的各段)，每段两两刚好叉开，即没有一段有都有值的这种情况，就直接返回相似度为0；

3)比较行政区划段地址相似度：

若有一方行政区划段没有标准化，且双方都有值，按编辑距离算法求相似度；

若有一方行政区划段为空时，且5段或6段有一段两方都有值，行政区划段相似度0；

若双方都被标准化，若行政区划段相等，则相似度为1；

其他按照省市区镇的顺序进行字符串比对，到那一层级不同，则该层级相似度为0，其以下层级均为0，

总的行政区划相似度也为0；若所有层级都相同，则所有层级相似度为1，总的行政区划相似度也为1；

4)分别比较地址5-7段相似度：

若两个都为空或其中一边为空，则相似度为0；

若两个都不为空：

分别将两个字符串所有的2个以上连在一起的阿拉伯数字替换为一个字母；

将得到的两个字符串分别计算其中文字符的编辑距离、转化为拼音的编辑距离、以及转化为五笔的编辑距离；

返回这三者中编辑距离最大的那个值；

5)根据数据来源获取权重：权重有4个值，第一个值对应行政区划，第二个对应道路，第三个对应小区/村，第四个对应楼栋/组

若数据来源为空，则获取默认的权重值，分别为：0.1，0.3，0.4，0.2

若数据来源不为空，则获取其对应的数据库中的权重值；

若道路分段都为空或者其中一个为空，小区分段都不为空，则道路分段对应的权重归为小区分段；

若道路分段对应都有值，小区对应分段都没有值或者有一方没有值，则小区段对应的权重归为道路分段；

若市段相等且道路和小区段都有值时，将道路段权重转移至小区段；

若楼栋/组段两边都没有值，则需要转移权重：

小区段都有值，则楼栋/组段的权重转移给小区段；

不满足前述条件时，若道路段都有值,则楼栋/组段的权重转移给道路段；

当前述二条件都不满足时，则楼栋/组段的权重转移给行政区划段；

6)相似度=行政区划段相似度*行政区划权重+道路段相似度*道路段权重+小区/村相似度*小区/村的权重+楼栋/组的相似度*楼栋/组的权重

7)若行政区划段相似度为0，则最终相似度也为0，否则最终相似度为6）步算出的相似度；

节点的实体信息为公司名称，对公司名称信息进行分词时，将公司名称信息切分成行政区段、详细名称段，所述行政区段包括国段、省段、市段、区段各层级，所述详细名称段包括字号段、行业段、组织形式段、分支机构段各层级，计算两个节点的相似度时，包括：

计算两个节点的行政区段相似度时，若任一个节点的行政区段与数据库匹配失败，则按照编辑距离算法计算两个节点的行政区段相似度，若行政区段的所有层级相同，则行政区段相似度为1，若行政区段的层级存在包含关系，则行政区段相似度为0.9，否则为0；

若数据来源为空，则行政区段、字号段、行业段、组织形式段、分支机构段的权重值为预设值，若数据来源不为空，则获取对应数据库的权重值，并对行政区段、字号段、行业段、组织形式段、分支机构段的权重值进行校正，校正方式为：

简易流程：

首先将两个公司名称分别进行标准化；

两个标准化后的公司对象比较相似度

1)两个字符串完全相同返回相似度为1；

2)行政区划段相似度

若有一方行政区划段没有标准化，就用第行政区段进行比对；

若行政区段相等，则相似度都为1；

若该地区允许包含并且行政区域段一个包含另一个，例如公司a：吉林省长春市南关区xx有限公司和公司b：吉林省长春市xx有限公司，标准化后，公司b前面的行政区划还是吉林省长春市，但此时，“吉林省长春市南关区”包含“吉林省长春市”(字符串包含)，就是包含关系，则相似度都为0.9；

比较行政区段(国、省、市、区/县)的相似度，相同为1，不同为0；

3)分别比较详细地址段相似度：

若两个都为空或其中一边为空，则相似度为0；

若两个都不为空：

返回这三者中编辑距离最大的那个值；

4)根据数据来源获取权重：权重有5个值，第一个值对应行政区划，第二个对应字号，第三个对应行业，第四个对应组织形式，第五个对应分支机构

若数据来源为空，则获取默认的权重值，分别为：0.2，0.5，0.1，0.1，0.1

若数据来源不为空，则获取其对应的数据库中的权重值；

若行业段，某个段有一方或者都没有值时，将权重转移给字号；

若组织形式，某个段有一方或者都没有值时，将权重转移给字号；

特殊情况，若分支机构段（因为是最后一段），要双方都没有值时，才将权重转移给字号；

若字号，某个段有一方或者都没有值时，将权重转移给行业。

5)相似度=行政区划段相似度*行政区划权重+字号相似度*字号权重+行业相似度*行业的权重+组织形式相似度*组织形式的权重+分支机构相似度*分支机构权重

6)返回最终相似度，若入库标志位true，则插入数据库进行记录。

S3：基于分团结果进行知识图谱构建。

通过上述的分团之后，在知识图谱构建过程中将不再采用节点原值进行关联关系构建，而采用分团结果团号进行。

图2-3示出的一个实例，3人填写家庭地址分别为“北京海淀太阳园”、“北京市海淀区知春路太阳园”、“北京市海淀区太阳园小区B栋”，由于填写规范不同造成相同（或相似度很高，在某些业务里可近似看成相同）地址出现3种格式，同时也造成3人不能因为家庭地址进行关联，进而影响在业务中使用的效力。本方法将模糊匹配技术应用到图谱构建中，将实现一种地址及公司名称模糊匹配的算法，基于该算法进行节点的标准化和相似度的计算，进而中图谱构建中应用匹配结果。三个客户，因家庭地址相似度较高，在业务中可近似看成相同，在基于模糊匹配技术进行知识图谱构建后，将传统不能准确关联的客户关联到一起，提升了整个知识图谱在业务应用中的业务价值。

通过模糊匹配技术构建图谱后，与传统方式相比将模糊匹配技术与知识图谱构建相结合，从技术上使得知识图谱的构建更加准确，从而可大大提升知识图谱在普惠金融业务上的效能，如在营销挖掘上由于通过地址及公司名称更精准的关联可大大扩大营销的广度同时提升准度；在欺诈团伙识别上，相比传统的判断方式更能准确的发现可疑团伙的存在，减少遗漏；在贷后催收上，更全面的关联也使得图谱构建结果在客户失联修复方面有更大的提升。

在一个项目案例中，为识别银行欺诈团伙采用了知识图谱构建进行识别。图谱构建节点采用如表2的业务字段：

表2

上述图谱构建字段可以看出包含很多地址及公司名称，采用模糊匹配技术进行构建步骤如下：

S1：抽取申请信息图谱构建字段；

S2：将地址及公司名称字段进行模糊匹配分团；

S3：将团号作为节点构建申请关联关系；

最终形成反欺诈图谱，图谱将应用于人工调查及自动化反欺诈风险识别中。

在本案例中，由于数据来源不同（历史数据、新手机端申请数据、网页端申请数据、人行数据），其中地址及公司名称信息格式不尽相同，传统的图谱构建方式很难有效利用到这些信息，然而这些信息是反欺诈业务中重要信息来源，通过模糊匹配构建知识图谱的方法大大提升了这些信息的利用率，经测试有效提升建网字段利用率达50%以上。

这里说明的设备数量和处理规模是用来简化本发明的说明的。对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.基于模糊匹配构建知识图谱的方法，其特征在于，包括：

对节点的实体信息进行数据标准化预处理，得到待匹配节点；数据标准化预处理包括清洗成规范字符串、切分成段分词、各段信息补全、各段再次清洗、纠错；

基于分团结果进行知识图谱构建；

步骤4：两个节点的相似度由行政区段、道路段、社区/村段和楼栋/组段的相似度加权得到；

计算两个节点的详细地址段相似度时，对于同一层级至少一个为空时，则该层级的相似度为0，对于同一非空层级，分别将连续超过两个的阿拉伯数字替换为一个字母得到两个字符串，然后计算中文字符的编辑距离、转化为拼音的编辑距离、转化为五笔的编辑距离，其中的最大值作为该层级的相似度；

若楼栋/组段都为空：社区/村段都非空则将楼栋/组段对应的权重值赋值给社区/村段，社区/村段至少一个为空且道路段都非空则将楼栋/组段对应的权重值赋值给道路段，社区/村段至少一个为空且道路段至少一个为空则将楼栋/组段对应的权重值赋值给行政区段；

步骤II：两个节点的相似度由行政区段、字号段、行业段、组织形式段、分支机构段的相似度加权得到；

计算两个节点的详细名称段相似度时，对于同一层级至少一个为空时，则该层级的相似度为0，对于同一非空层级，分别将连续超过两个的阿拉伯数字替换为一个字母得到两个字符串，然后计算中文字符的编辑距离、转化为拼音的编辑距离、转化为五笔的编辑距离，其中的最大值作为该层级的相似度；

2.电子设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1所述的方法。

3.存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现权利要求1所述的方法。