CN106777118B

CN106777118B - 一种基于模糊字典树的地理词汇快速抽取方法

Info

Publication number: CN106777118B
Application number: CN201611164766.9A
Authority: CN
Inventors: 佘冰; 呙维; 朱欣焰; 王绪滢; 胡涛
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2016-12-16
Filing date: 2016-12-16
Publication date: 2019-06-25
Anticipated expiration: 2036-12-16
Also published as: CN106777118A

Abstract

本发明公开了一种基于模糊字典树的地理词汇快速抽取方法，包括地理信息本体入库、生成基于拼音、字缺失的Trie节点、根据地理基础位置概念标注实现细粒度的搜寻中模糊搜索的控制、提供地理词汇的相似度实现抽取结果评分排序、快速抽取位置描述中的所有基础位置概念对象等5个步骤；本发明基于Trie实现了一种基础位置概念对象的高效抽取方法，实现融合特定位置概念类型的模糊、漏字等情况，利于解决针对位置描述定位的相关问题。

Description

一种基于模糊字典树的地理词汇快速抽取方法

技术领域

本发明属于自然语言位置提取技术领域，特别是涉及一种基于模糊字典树的地理词汇快速抽取方法。

背景技术

位置描述概念根据其构成可进一步划分为：基础位置概念和复杂位置概念。在位置概念的基本结构组成中，包括地名、地址、POI以及相关的空间关系。地名的形成有文化、经济、政治等因素，会随着时间变化而变化；地址的形成符合行政的划分特征，是对于特定位置的结构化描述，是若干基础地名的组合，具有地域性特征；POI是商家或机构以简洁的形式传达尽量唯一的特征，包含类别、业务、地点等特征词汇；空间关系是地名、地址和POI的组合，表达地理实体间的关系，反映地理实体和位置信息的描述、关联与计算，是空间认知的体现。

尽管没有唯一的区分特征，人们在形成概念的过程中依然遵循一定的标准进行地名的分类，模型的粒度越细，表达能力越强，也越可能与实际产生偏差。地名概念的构成较为简单，其只包含对应的实体名称词汇及特征词两个基础位置概念；地址的概念构成一般包含包含行政区、街道巷、小区、门楼址、以及某个标志物的名称，其从结构上本身呈现出很明显的层次化特征。由于地址的标准化形式，其也是在日常通信交流以及行政管理过程中最为常见的一种位置表达形式。

广义的位置模型由多源的位置信息组成，由于位置可以以多种形式出现，建立一个针对位置描述定位的通用位置概念模型十分困难，因此在考虑地名地址概念的建模中，应侧重于位置描述的定位，围绕位置概念的基本结构进行概念的构建，分析位置概念的词汇构成，融入对于位置定位计算中需要的语义和空间信息。

发明内容

为了解决上述技术问题，本发明将位置描述概念模型与解析技术相结合，利用位置概念蕴含语义信息，以知识抽取替代通用的中文分词阶段，提出一种基于模糊字典树的地理词汇快速抽取方法，基于Trie实现融合特定位置概念类型的模糊、漏字等情况，将位置概念根据地理词汇组成划分，抽取位置描述中的基础位置概念对象。

本发明所采用的技术方案是：一种基于模糊字典树的地理词汇快速抽取方法，包括以下步骤：

步骤1：地理信息本体入库；

步骤2：生成基于拼音、字缺失的Trie节点；

步骤3：根据地理基础位置概念标注实现细粒度的搜寻中模糊搜索的控制；

步骤4：提供地理词汇的相似度实现抽取结果评分排序；

步骤5：快速抽取位置描述中的所有基础位置概念对象。

作为优选，步骤2的具体实现包括以下子步骤：

步骤2.1：输入基础位置概念对象k、文本w、类型序号c；

基础位置概念其对应位置概念的原子组成词汇的概念表达，其只有一个固有属性“word”，代表词汇的字符串形式。

步骤2.2：根据一个字符长度阈值h_m对w进行判断，若w字符长度大于选定阈值h_m，则取局部的删除参数m定为1，否则为0；

步骤2.3：将w类型转换为半角形式；

步骤2.4：获取文本w并使之对应于每一个汉字的拼音集合P；

步骤2.5：根据m值分情况讨论；

若m＝0，递归调用addWordToTree方法将k加入trie，默认传入trie的根节点T_root；

若m＞0，排列组合获取并遍历删除后的文本集合W_d，将对象删除处以占位符“##”替代，形成新文本w’与k组合，递归调用addWordToTree方法加入trie。

作为优选，步骤2.5中所述的addWordToTree方法，具体实现包括以下子步骤：

步骤2.5.1：输入节点v、文本w、拼音列表P、当前位置i、位置概念对象c及其类型；

步骤2.5.2：判断i的位置；

若i不处于P最后位置，则执行下述步骤2.5.3；

若i处于P最后位置，则执行下述步骤2.5.5；

步骤2.5.3：节点搜寻，找到v对应拼音p_i的子节点v_pi；

步骤2.5.4：判断子节点v_pi是否存在；

若v_pi不存在，则创建新节点，将i前进一位，并回转执行所述步骤2.5.2；

若v_pi存在，则找到拼音列表子节点，并回转执行所述步骤2.5.2；

步骤2.5.5：若i处于P末端，将对象插入节点的对象列表O中。

作为优选，步骤3的具体实现包括以下子步骤：

步骤3.1：输入原始位置描述D，是否模糊搜索f；

步骤3.2：将D转换为半角形式；

步骤3.3：初始化词汇对象输出集合R并索引节点栈Q，对应D的各索引号，以根节点作为节点，构建节点元素集合q_i加入Q；

步骤3.4：从Q中取出一个元素q，判断是否为空；

若是，则回转执行步骤3.3：

若否，则继续执行下述步骤3.4；

步骤3.4：判断对应位置描述的起始位置p_sq是否超出|D|；

若是，流程结束，未搜索到满足条件的词汇；

若否，则继续执行下述步骤3.5；

步骤3.5：取D处于p_sq的拼音，从当前节点v_p的边M_vp中寻找精确节点v_p’，用占位符“##”从M_vp获取模糊节点v_p”，将v_p’和v_p”放入待处理集合V’；

步骤3.6：遍历V’，取某节点v，构建新索引节点为对应描述位置的起始位置；为对应描述位置的终止位置；

步骤3.7：判断节点p′是否在栈Q中存在；

若是，则回转执行步骤3.3；

若否，则将p′加入Q；并继续执行下述步骤3.8；

步骤3.8：判断叶节点的对象列表Ov是否为空；

若是，则回转执行步骤3.3；

若否，则继续执行下述步骤3.9；

步骤3.9：判断f是否为真；

若是，则继续执行下述步骤3.10；

如否，则继续执行下述步骤3.11；

步骤3.10：遍历当前包含具体信息的集合O_v，并判断对象o位置概念类型模糊标签是否正确；

若对象o位置概念类型模糊标签正确，则用o建立或更新R中对应包含起始与终止位置的集合的词汇对象；

若错误，对比原始字符串w与对应的位置描述D_[psq,peq]；

步骤3.11：遍历O_v，按步骤1.10中非模糊标签的形式判断字符串是否相等，并更新R；

步骤3.12：对象输出集合R进行评分。

作为优选，步骤4的具体实现包括以下子步骤：

步骤4.1：若查询词汇t与原始词汇o长度(n)相同，逐字符比较，分数公式为：

集合n₁为逐字符比较过程中相同的字符集合，n₂为字符不同但拼音相同的集合，n₃为剩余字符集合；a、b、c为三者的权重得分；

步骤4.2：若t与o长度不同，但差距仅为删除距离，则构建并遍历删除集合O_d，得出每个词汇_odi与t的匹配分数Score_i，最大值作为最终匹配分值。

本发明基于Trie实现了一种基础位置概念对象的高效抽取方法，实现融合特定位置概念类型的模糊、漏字等情况，利于解决针对位置描述定位的相关问题。

附图说明

图1：本发明实施例的地址概念构成示意图；

图2：本发明实施例的LO-Trie构成示意图；

图3：本发明实施例的流程图；

图4：本发明实施例的以递归调用形式将节点加入到trie中流程图；

图5：本发明实施例的递归式LO-Trie的搜索流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明实施例中，地址一般包含行政区、街道巷、小区、门楼址及某标志物的名称，结构上呈现层次化特征。位置概念的层次分类将空间认知中的位置概念进行系统性的归类，是对位置描述进行概念建模的基础。

概念根据其构成划分为：基础位置概念和复杂位置概念。基础位置概念对应位置概念的原子组成词汇的概念表达。如行政区词汇“湖北”，特征词词汇“省”，POI通名词汇“商店”，连接词汇“和”，空间相交词汇“交汇”。其只有一个固有属性，代表词汇的字符串形式。复杂位置概念代表层次型的位置概念，其最基本的组成单位是基础位置概念。其子类可划分为：实体位置概念、空间位置概念和中间层位置概念。实体位置概念由实体复杂概念与位置组成。其直接的子类为广义地名，组成成员是基础位置概念、中间层位置概念或其他实体位置概念。例如，“湖北省”代表一个地名中的省级行政区实体位置概念对象，但其由两个基础概念对象构成。空间关系位置概念由置信场复杂概念与位置组成，对应于一类空间关系，组成成员是基础位置概念、实体位置概念或其他空间关系位置概念。置信场代表由一个空间关系计算出的模糊几何对象，由指示点、几何边界和概率函数构成。中间层位置概念继承成员复杂概念而来，代表复杂位置概念的中间层次概念。

地址由多层次实体、中间层次与基本位置概念构成。行政区地址、道路地址、小区地址、一级门楼地址等为中间层次的位置概念，地名是行政区地名的抽象基概念。

如图2所示，是本发明的一种基于拼音、字缺失的Trie构成示意图，本发明实施例中，基础位置概念不对应具体的空间实体或关系，其总体对象个数有限。而Trie的优势在于可以快速遍历提取相关的基础概念词汇或别名。根据具体应用领域的不同，可对Trie做出相应的扩展。在描述特定的位置概念时，如小区名、村落名、POI的特名时常会出现错字、漏字等情况。而LO-Trie支持模糊音及缺失词，最大程度的应对位置描述中出现的错别字、漏字等情况。

LO-Trie中的每个节点V由两个集合构成：V＝(M,O)。其中，M代表其子节点，由一个哈希表数据结构来表示，其键表示某个拼音形式的前缀字符串s，值则为s对应的子节点。O中包含了对象的具体信息，其中每一个元素o可表示为一个三元组：o＝(l,w,c)。其中，l代表了某个基础位置概念对象，w为其精确形式的描述文本，c为位置概念类型的序号，用于快速检索位置概念是否需要模糊查询。叶节点的集合O一定不是空集，而中间层次节点的集合O则可能是空集，代表从根节点到其构成的路径所组成的文本并无对应的基础位置概念。为表示漏字的情况，LO-Trie中存在删除距离参数，即在实际构建过程中，使用一个占位符来表示删除的字符。如图以“阿美丽”这一个单词为例，描述了一个删除距离参数为1的LO-Trie的基本构成，其占位符为“##”。

请见图3，本发明提供的一种基于模糊字典树的地理词汇快速抽取方法，包括以下步骤：

步骤1：地理信息本体入库；

步骤2：生成基于拼音、字缺失的Trie(LO-Trie)节点；

本实施例的LO-Trie的构建过程在引擎初始化时完成。在构建之初加载并遍历库中的基础位置概念对象集合，获取地理对象的文本，并加入LO-Trie。其具体实现过程是：

步骤2.1：输入基础位置概念对象k、文本w、类型序号c；

步骤2.3：将w类型转换为半角形式；

步骤2.4：获取文本w并使之对应于每一个汉字的拼音集合P；

步骤2.5：根据m值分情况讨论；

请见图4，是本实施例的addWordToTree方法流程图，具体实现包括以下子步骤：

步骤2.5.2：判断i的位置；

若i不处于P最后位置，则执行下述步骤2.5.3；

若i处于P最后位置，则执行下述步骤2.5.5；

步骤2.5.3：节点搜寻，找到v对应拼音p_i的子节点v_pi；

步骤2.5.4：判断子节点v_pi是否存在；

步骤2.5.5：若i处于P末端，将对象插入节点的对象列表O中。

如图5所示，为本发明的一种递归式LO-Trie的搜索流程图；本发明实施例中，输入原始位置描述，从其任意起始位置搜索，提取并评分满足条件的地理词汇对象集合。输出的一个词汇对象可表示为一个包含对象集合、分值集合、词汇对象对应位置描述的起始和终止位置的四元集合。其在节点选取、评分中融入了位置概念类别模糊与删除字的控制和处理。在搜索流程中，需要表示节点和位置描述中子字符串的组合，即索引节点，表示一个为包含当前Trie节点、这个节点对应位置描述的起始和终止位置的三元集合。

具体实现包括以下子步骤：

步骤3.1：输入原始位置描述D，是否模糊搜索f；

步骤3.2：将D转换为半角形式；

步骤3.4：从Q中取出一个元素q，判断是否为空；

若是，则回转执行步骤3.3：

若否，则继续执行下述步骤3.4；

步骤3.4：判断对应位置描述的起始位置p_sq是否超出|D|；

若是，流程结束，未搜索到满足条件的词汇；

若否，则继续执行下述步骤3.5；

步骤3.7：判断节点p′是否在栈Q中存在；

若是，则回转执行步骤3.3；

若否，则将p′加入Q；并继续执行下述步骤3.8；

步骤3.8：判断叶节点的对象列表Ov是否为空；

若是，则回转执行步骤3.3；

若否，则继续执行下述步骤3.9；

步骤3.9：判断f是否为真；

若是，则继续执行下述步骤3.10；

如否，则继续执行下述步骤3.11；

若错误，对比原始字符串w与对应的位置描述D_[psq,peq]，若相等，则用o建立或更新R中对应包含起始与终止位置的集合的词汇对象；

步骤3.12：对象输出集合R进行评分。

步骤4：提供地理词汇的相似度实现抽取结果评分排序；

根据量化Trie搜索出的词汇与实际词汇的差别，可以计算查询词汇和原始词汇的匹配度。结果集地理词汇评分的计算步骤如下：

步骤5：快速抽取位置描述中的所有基础位置概念对象。

本实施例在位置描述解析中，Trie的数据结构通过快速遍历即可提取相关的地理基础概念词汇或别名，并可对Trie做出相应的扩展。

本实施例LO-Trie支持模糊音以及缺失词，可以最大程度的应对位置描述中出现的错别字、漏字等情况。为表示漏字的情况，LO-Trie中存在删除距离参数，即在实际构建过程中，使用一个占位符来表示删除的字符。

本实施例LO-Trie的构建过程在引擎初始化时完成。在构建之初加载并遍历库中的基础位置概念对象集合，获取地理对象的文本形式，并加入LO-Trie。

本实施例用递归调用的形式中将位置描述节点加入到trie中。

本实施例LO-Trie对位置描述的搜索过程是递归式。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于模糊字典树的地理词汇快速抽取方法，其特征在于，包括以下步骤：

步骤1：地理信息本体入库；

步骤2：生成基于拼音、字缺失的Trie节点；

步骤2的具体实现包括以下子步骤：

步骤2.1：输入基础位置概念对象k、文本w、类型序号c；

基础位置概念其对应位置概念的原子组成词汇的概念表达，其只有一个固有属性“word”，代表词汇的字符串形式；

步骤2.3：将w类型转换为半角形式；

步骤2.4：获取文本w并使之对应于每一个汉字的拼音集合P；

步骤2.5：根据m值分情况讨论；

若m＞0，排列组合获取并遍历删除后的文本集合W_d，将对象删除处以占位符“##”替代，形成新文本w’与k组合，递归调用addWordToTree方法加入trie；

步骤4：提供地理词汇的相似度实现抽取结果评分排序；

步骤5：快速抽取位置描述中的所有基础位置概念对象。

2.根据权利要求1所述的基于模糊字典树的地理词汇快速抽取方法，其特征在于，步骤2.5中所述的addWordToTree方法，具体实现包括以下子步骤：

步骤2.5.1：输入节点v、文本w、拼音集合P、当前位置i、位置概念对象c及其类型；

步骤2.5.2：判断i的位置；

若i不处于P最后位置，则执行下述步骤2.5.3；

若i处于P最后位置，则执行下述步骤2.5.5；

步骤2.5.3：节点搜寻，找到v对应拼音p_i的子节点v_pi；

步骤2.5.4：判断子节点v_pi是否存在；

步骤2.5.5：若i处于P末端，将对象插入节点的对象列表O中。

3.根据权利要求1所述的基于模糊字典树的地理词汇快速抽取方法，其特征在于，步骤3的具体实现包括以下子步骤：

步骤3.1：输入原始位置描述D，是否模糊搜索f；

步骤3.2：将D转换为半角形式；

步骤3.4：从Q中取出一个元素q，判断是否为空；

若是，则回转执行步骤3.3：

若否，则继续执行下述步骤3.4；

步骤3.4：判断对应位置描述的起始位置p_sq是否超出|D|；

若是，流程结束，未搜索到满足条件的词汇；

若否，则继续执行下述步骤3.5；

步骤3.6：遍历V’，取某节点x，构建新索引节点为对应位置描述的起始位置；为对应描述位置的终止位置；

步骤3.7：判断节点p′是否在栈Q中存在；

若是，则跳过此节点，遍历至下一模式节点；

若否，则将p′加入Q；并继续执行下述步骤3.8；

步骤3.8：判断叶节点的对象列表Ov是否为空；

若是，则跳过此节点，遍历至下一模式节点；

若否，则继续执行下述步骤3.9；

步骤3.9：判断f是否为真；

若是，则继续执行下述步骤3.10；

如否，则继续执行下述步骤3.11；

若错误，对比文本w与对应的位置描述D_[psq,peq]；

步骤3.12：对象输出集合R进行评分。

4.根据权利要求1所述的基于模糊字典树的地理词汇快速抽取方法，其特征在于，步骤4的具体实现包括以下子步骤：

步骤4.1：若查询词汇t与对象o的文本w的长度n相同，逐字符比较，分数公式为：

步骤4.2：若t与对象o的文本w的长度不同，但差距仅为删除距离，则构建并遍历删除集合O_d，得出每个词汇odi与t的匹配分数Score_i，最大值作为最终匹配分值。