CN111144117B

CN111144117B - 知识图谱中文地址消除歧义方法

Info

Publication number: CN111144117B
Application number: CN201911367778.5A
Authority: CN
Inventors: 王成; 胡瑞鑫; 朱航宇
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2023-08-29
Anticipated expiration: 2039-12-26
Also published as: CN111144117A

Abstract

本发明提供一种知识图谱中文地址消除歧义方法，包括步骤：S1：从数据集中分割出实体数据和中文地址数据；选取中文地址数据并创建地址树；S2：将中文地址数据分为多个层级；S3：分析层级对应的地址元素，将层级对应的地址元素的匹配模式设置为模糊匹配，将其余设置为精确匹配；S4：将待分析数据集中的中文地址数据按照地址元素的匹配模式与当前地址树进行匹配；S5：对中文地址数据进行编码，并根据编码值大小顺序创建新的地址树。S6：S4中匹配失败的地址元素存储于栈结构中，后续匹配成功时补充至地址树。本发明的一种知识图谱中文地址消除歧义方法，适用于创建知识图谱前对中文地址类型的数据进行处理，可挖掘更多实体间的关系。

Description

知识图谱中文地址消除歧义方法

技术领域

本发明涉及知识图谱领域，尤其涉及一种知识图谱中文地址消除歧义方法。

背景技术

应用知识图谱技术的场景中，非结构化数据处理方法决定了实体间的关系是否有效被挖掘。若能够挖掘尽可能多的实体关系，则创建的知识图谱更加完善。中文地址数据作为非结构化数据的一种类型，有较多的实体联系需要被挖掘。但在实际的应用场景中，中文地址的利用仍处于较为初级的阶段。主要原因在于中文地址是一种描述性数据，存在多种表达方式，同时难以被机器处理，不能直接使用聚类和字符串匹配的方法来处理。当同一个中文地址存在多种不同的表达方式，若处理数据时未能挖掘出这些关系，则创建的知识图谱会损失较多的关系，使得系统的关联性下降，导致系统的性能较差。因此在创建知识图谱前对中文地址数据的消除歧义处理尤为重要。

中文地址消除歧义的处理可以解决由于人为书写习惯导致的中文地址表述不统一的问题，能够挖掘出知识图谱中实体间的关系，进而创建一个更加完备的知识图谱。目前国外对地址的研究已经非常成熟，但是不能直接运用于中文地址中。中文地址不同于国外地址的规则化表达，系统中收录和存储在数据库中的地址数据存在着中文地址表达的通病：缺乏统一的组织结构。在没有明确权威规则的情况下个人往往依据个人的习惯进行地址描述，经常出现冗余或缺省等问题。而在地址信息的表达过程中，单个字符的差异也会导致表达地理实体的不同，这些都是中文地址匹配研究中不可回避的问题。若这些问题不加以处理，轻则导致创建的知识图谱不完整，严重则会使构建的知识图谱存在歧义，从而影响所构建系统的性能。

现有的处理方法往往采用字符串匹配的方式，将中文地址完全匹配的实体之间构建关系。这种处理方法最大的优势在于简单，但是仅能挖掘明显的关系，无法发现更深层次实体间的联系。例如相同地点的不同描述，若出现一个字符之差则无法创建实体间的关系，因此弊端较多。

可见，目前现有的处理方法存在中文地址数据隐藏较多实体之间的关系，但是缺乏行之有效的方法将这些联系挖掘出来的问题。

发明内容

针对上述现有技术中的不足，本发明提供一种知识图谱中文地址消除歧义方法，适用于创建知识图谱前对中文地址类型的数据进行处理，可挖掘更多实体间的关系。

为了实现上述目的，本发明提供一种知识图谱中文地址消除歧义方法，包括步骤：

S1：处理一数据集，从所述数据集中分割出多个实体数据和多个中文地址数据，所述中文地质数据与所述实体数据对应；按一百分比例随机选取多个所述中文地址数据并创建多个地址树；其他未用于创建所述地址数的所述中文地址数据存储于一待分析数据集中；

S2：所述中文地址数据包括至少一所述地址元素，将所述待分析数据集中的所述中文地址数据的所述地址元素分为多个层级，每一所述层级对应至少一所述地址元素；

S3：分析每一所述层级对应的所述地址元素，将至少一所述层级对应的地址元素的匹配模式设置为模糊匹配，将其余所述层级对应的地址元素的所述匹配模式设置为精确匹配；

S4：按照所述层级顺序将所述待分析数据集中的所述中文地址数据按照所述地址元素的匹配模式与当前所述地址树进行匹配；当匹配成功时关联当前所述中文地址数据所对应的所述实体数据和当前所述地址数所对应的所述实体数据；当匹配失败时，将当前所述中文地址数据存入一匹配失败数据集；

S5：对所述匹配失败数据集中的所述中文地址数据进行编码，并根据编码值大小顺序创建新的所述地址树。

优选地，在所述S4步骤中，将当前所述中文地址数据中匹配失败的所述地址元素存储于一栈结构中；

还包括步骤S6：当当前所述中文地址数据匹配成功时，将所述栈结构内的所述地址元素补充入匹配成功的所述地址树。

优选地，在所述S4步骤中，当两个所述中文地址数据的相同等级的所述地址元素进行匹配，若匹配至所述地址树对应的所述地址元素的层级依然相同，则表明当前两个所述中文地址数据是相同的地址。

优选地，所述S5步骤中所述编码为二进制编码；所述二进制编码的位数与所述层级总数相同。

本发明由于采用了以上技术方案，使其具有以下有益效果：

首先通过对地址元素进行分为多个层级，然后对易受用户影响的层级使用模糊匹配，最后匹配过程采用层级匹配的方式，相同层级地址元素进行匹配。该匹配方法能够解决因为个人书写习惯导致地址不统一的问题；一方面，可有效的对构建知识图谱的中文地址数据进行消除歧义的处理，使得这类非结构化的数据能够挖掘出实体间的隐形关系，从而构建一张更加完整的知识图谱用于分析；另一方面，能够减少因为用户书写习惯等原因导致地址数据不统一的问题。可针对易受用户书写习惯影响的地址元素使用模糊匹配的方式，其他层级使用精确匹配的方法，这一方法能够有效的分析地址数据是否是同一地址，减少冗余和歧义。其次地址树创建的方法，主要目的是为了创建更加完整的地址树，防止地址元素丢失。首先对待创建地址树的中文地址数据编码，编码值大的具有更高优先级创建地址树。然后通过地址补充机制，进一步完善地址树信息。

附图说明

图1为本发明实施例的知识图谱中文地址消除歧义方法的流程图；

图2为本发明实施例的知识图谱中文地址消除歧义方法的层级匹配示意图；

图3为本发明实施例的知识图谱中文地址消除歧义方法的地址元素补充机制示意图。

具体实施方式

下面根据附图1～3，给出本发明的较佳实施例，并予以详细描述，使能更好地理解本发明的功能、特点。

请参阅图1，本发明实施例的一种知识图谱中文地址消除歧义方法，包括以下步骤：

S1：处理一数据集，从数据集中分割出多个实体数据和多个中文地址数据，中文地质数据与实体数据对应；按一百分比例随机选取多个中文地址数据并利用Trie树的结构创建多个地址树；其他未用于创建地址数的中文地址数据存储于一待分析数据集中，用于后续的中文地址的匹配和新的地址树的创建。

S2：中文地址数据包括至少一地址元素，将待分析数据集中的中文地址数据的地址元素分为多个层级，每一层级对应至少一地址元素。

分析数据集中的中文地址数据特点，根据数据集的地址元素含义对这些元素进行分级，此处分级的标准首先参考国家地址层级分级方法，然后加以对所具有数据集的特点提出地址元素的分级方案。该方案要求对一个地址元素仅能分至一个层级中，不能存在冗余和歧义的问题。将得到的分级方案用于后续的中文地址的匹配和新的地址树的创建。

该分级方式要求尽可能的严谨，且不存在冗余和歧义的情况，该分级将很大部分决定中文地址消除歧义的效果。

S3：分析每一层级对应的地址元素，将至少一层级对应的地址元素的匹配模式设置为模糊匹配，将其余层级对应的地址元素的匹配模式设置为精确匹配；实际使用时，可将容易受人为书写习惯影响的地址元素层级使用模糊匹配的方法，其他的地址元素层级则使用字符串匹配的方法。

模糊匹配要求该层级的地址元素内容相似度达到一定阈值时则判断这些地址元素信息相同。

S4：按照层级顺序将待分析数据集中的中文地址数据按照地址元素的匹配模式与当前地址树进行匹配；当匹配成功时关联当前中文地址数据所对应的实体数据和当前地址数所对应的实体数据；当匹配失败时，将当前中文地址数据存入一匹配失败数据集；

其中，当两个中文地址数据的相同等级的地址元素进行匹配，若匹配至地址树对应的地址元素的层级依然相同，则表明当前两个中文地址数据是相同的地址。

本步骤中，根据之前获得的地址元素分级，将待匹配的地址和已有地址树进行匹配，匹配过程中采用层级匹配的方式进行比较，即相同层级的地址元素进行对比。若两个层级的地址元素不是同一层级，则该比较步骤略过。当匹配成功的地址元素层级达到特定层级时，则判断这两条地址信息为同一条地址。同时需要设置最低阈值，即两条地址信息匹配成功的层级必须达到该层级，否则即使匹配成功依然判断为失败。这样设计的目的在于防止地址数据表示的范围过于宽泛导致的错误。

S5：对匹配失败数据集中的中文地址数据进行编码，并根据编码值大小顺序创建新的地址树。

S5步骤中编码为二进制编码；二进制编码的位数与层级总数相同。

根据S2步骤得到的地址元素层级，从第一层级依次编码，若该层级存在地址元素则对位数据表示为1，不存在则表示为0。根据得到的编码值，将编码所得值较大的中文地址首先创建地址树。

本步骤中，对于匹配失败的中文地址数据，需要创建新的地址树。为防止创建地址树的过程中，出现地址元素丢失的问题，首先将待创建地址树的中文地址数据进行编码。根据得到的地址元素层级，若该中文地址数据在每个层级存在地址元素则编码时该位的数据置为1，否则置为0。然后对编码后的中文地址数据进行排序，编码值越大的中文地址数据拥有更高的优先级创建地址树，而编码值低的地址数据还需要匹配已有地址树后再决定是否创建地址树。

在S4步骤中，将当前中文地址数据中匹配失败的地址元素存储于一栈结构中；

还包括步骤S6：当当前中文地址数据匹配成功时，将栈结构内的地址元素补充入匹配成功的地址树。

对S4步骤层次匹配过程中未匹配的地址元素，不会立即丢弃而是将该地址元素存储于类似栈的结构中，若后续匹配成功时，则将存储的地址元素补充至新创建的地址树上，从而得到一个更加完整的地址树。

例如：

S1：根据已有的数据集，从数据集中分割出待处理的数据集，分割出的数据集中包括创建知识图谱时需要的实体数据和中文地址数据。从分割出的数据集中，随机抽取一定百分比的地址数据用于创建地址树，地址树的构造类似于Trie树的结构，将其他未用于创建地址树的中文地址数据存入待分析数据集中，用于后续的匹配等流程。

S2：分析已有的中文地址数据，根据数据特点对中文地址数据中存在的地址元素进行分级，如表1所示，表1为地址元素分级的具体实例。该分级将地址元素总共分为12层级，每一层级的地址元素没有冗余和歧义，且每种地址元素仅存在于一个层级中，禁止包括于多层级中。该分级过程需要根据已有的数据和实际应用场景得出，尽量减少自定义的地址元素分级。

表1.地址元素分级表

S3：分析得到的地址元素分级，将容易受人为书写习惯影响的层级使用模糊匹配的方式进行匹配。以本实施例给出的具体分级为例，在此对第7级的地址元素采用模糊匹配的方式。考虑到前0-6级的地址元素表述较为单一，存在多种表述的概率较小，而8-11级的地址元素则在该实施例中提及的次数较少，且往往都以具体的信息结尾，因此对第7级地址元素采用模糊匹配的方法进行比较，对其他层级的地址元素采用精确匹配即字符串匹配的方法进行比较。

请参见图2，S4：根据已有的地址元素分级，将被匹配的地址树和待匹配的地址进行分析，匹配过程中，相同层级的地址元素进行比较，对于非相同层级的地址元素则忽略该匹配过程。图2展示了层级匹配的过程，首先地址树的“上海市”与中文地址中的“上海市”匹配，匹配结果成功，进行下一层级的匹配。此时待匹配的“嘉定区”由于地址树中不存在该层级的地址元素，因此该层级的地址元素的匹配直接略过。最后中文地址的“同济大学”和地址树的“同济大学嘉定校区”进行匹配，该匹配结果采用模糊匹配判定结果为成功，则表示该地址的实体与创建地址树时的实体有关联，两者的地址为同一地址。该步骤中，需要设定两个阈值，第一个阈值用于特定的最低层级地址元素必须匹配成功，主要目的是防止类似“上海市嘉定区”这类地址创建地址树，这类地址主要问题是表示范围广泛，如果创建地址树则基本下属的地址数据都会匹配至该地址树中，导致错误。第二个阈值则用于特定层级的地址元素匹配成功时则判断这两条地址为相同地址，这两条地址的实体之间存在联系。

S5：对于匹配失败的中文地址数据，需要创建新的地址树。再创建地址树前需要首先对地址数据进行编码，编码方式为根据已有地址元素分级表，若待创建地址树的地址数据含有该层级的地址元素，则在该编码位的值为1，否则为0。表2给出了具体的一种编码后的数据，其中编码位数为11位，含有对应层级的地址元素该位为1，缺省的位为0。将所有待创建地址树的中文地址数据首先进行编码，然后根据编码后值的二进制值的大小排序，根据排序结果对编码值大的数据使其拥有更高优先级创建地址树。

表2.编码表

S6：为防止早期创建的地址树存在地址元素丢失的情况，该步骤设计地址元素补充机制，该机制是存储匹配过程中各层级匹配失败的地址元素，若后续匹配成功即判断两条地址为同一地点的不同描述，则将存储在类似“栈”的结构中的地址元素依次填充至地址树上，获得更加完整的地址树。请参阅图3，图3展示了已有的地址树为“上海市嘉定区同济大学”，待匹配的地址数据为“上海市曹安公路4800号同济大学”，若不采用地址元素补充机制，则已有的地址树会丢失“曹安公路”和“4800号”两个地址元素，因此在匹配过程中，这两个未进行匹配的地址元素存储于一个类似“栈”的结构中，当后续匹配成功结果判断为同一地址时，将栈中的地址元素补充至地址树，此时的地址树如图3右侧所示，为“上海市嘉定区曹安公路4800号同济大学”，因此获得更加完整的地址树。

以上结合附图实施例对本发明进行了详细说明，本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而，实施例中的某些细节不应构成对本发明的限定，本发明将以所附权利要求书界定的范围作为本发明的保护范围。

Claims

1.一种知识图谱中文地址消除歧义方法，包括步骤：

S1：处理一数据集，从所述数据集中分割出多个实体数据和多个中文地址数据，所述中文地址数据与所述实体数据对应；按一百分比例随机选取多个所述中文地址数据并创建多个地址树；其他未用于创建所述地址数的所述中文地址数据存储于一待分析数据集中；

S2：所述中文地址数据包括至少一地址元素，将所述待分析数据集中的所述中文地址数据的所述地址元素分为多个层级，每一所述层级对应至少一所述地址元素；

S5：对所述匹配失败数据集中的所述中文地址数据进行编码，并根据编码值大小顺序创建新的所述地址树；

在所述S4步骤中，将当前所述中文地址数据中匹配失败的所述地址元素存储于一栈结构中；

2.根据权利要求1所述的知识图谱中文地址消除歧义方法，其特征在于，在所述S4步骤中，当两个所述中文地址数据的相同等级的所述地址元素进行匹配，若匹配至所述地址树对应的所述地址元素的层级依然相同，则表明当前两个所述中文地址数据是相同的地址。

3.根据权利要求2所述的知识图谱中文地址消除歧义方法，其特征在于，所述S5步骤中所述编码为二进制编码；所述二进制编码的位数与所述层级总数相同。