CN106777118B - 一种基于模糊字典树的地理词汇快速抽取方法 - Google Patents

一种基于模糊字典树的地理词汇快速抽取方法 Download PDF

Info

Publication number
CN106777118B
CN106777118B CN201611164766.9A CN201611164766A CN106777118B CN 106777118 B CN106777118 B CN 106777118B CN 201611164766 A CN201611164766 A CN 201611164766A CN 106777118 B CN106777118 B CN 106777118B
Authority
CN
China
Prior art keywords
node
vocabulary
character
concept
fuzzy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611164766.9A
Other languages
English (en)
Other versions
CN106777118A (zh
Inventor
佘冰
呙维
朱欣焰
王绪滢
胡涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201611164766.9A priority Critical patent/CN106777118B/zh
Publication of CN106777118A publication Critical patent/CN106777118A/zh
Application granted granted Critical
Publication of CN106777118B publication Critical patent/CN106777118B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于模糊字典树的地理词汇快速抽取方法,包括地理信息本体入库、生成基于拼音、字缺失的Trie节点、根据地理基础位置概念标注实现细粒度的搜寻中模糊搜索的控制、提供地理词汇的相似度实现抽取结果评分排序、快速抽取位置描述中的所有基础位置概念对象等5个步骤;本发明基于Trie实现了一种基础位置概念对象的高效抽取方法,实现融合特定位置概念类型的模糊、漏字等情况,利于解决针对位置描述定位的相关问题。

Description

一种基于模糊字典树的地理词汇快速抽取方法
技术领域
本发明属于自然语言位置提取技术领域,特别是涉及一种基于模糊字典树的地理词汇快速抽取方法。
背景技术
位置描述概念根据其构成可进一步划分为:基础位置概念和复杂位置概念。在位置概念的基本结构组成中,包括地名、地址、POI以及相关的空间关系。地名的形成有文化、经济、政治等因素,会随着时间变化而变化;地址的形成符合行政的划分特征,是对于特定位置的结构化描述,是若干基础地名的组合,具有地域性特征;POI是商家或机构以简洁的形式传达尽量唯一的特征,包含类别、业务、地点等特征词汇;空间关系是地名、地址和POI的组合,表达地理实体间的关系,反映地理实体和位置信息的描述、关联与计算,是空间认知的体现。
尽管没有唯一的区分特征,人们在形成概念的过程中依然遵循一定的标准进行地名的分类,模型的粒度越细,表达能力越强,也越可能与实际产生偏差。地名概念的构成较为简单,其只包含对应的实体名称词汇及特征词两个基础位置概念;地址的概念构成一般包含包含行政区、街道巷、小区、门楼址、以及某个标志物的名称,其从结构上本身呈现出很明显的层次化特征。由于地址的标准化形式,其也是在日常通信交流以及行政管理过程中最为常见的一种位置表达形式。
广义的位置模型由多源的位置信息组成,由于位置可以以多种形式出现,建立一个针对位置描述定位的通用位置概念模型十分困难,因此在考虑地名地址概念的建模中,应侧重于位置描述的定位,围绕位置概念的基本结构进行概念的构建,分析位置概念的词汇构成,融入对于位置定位计算中需要的语义和空间信息。
发明内容
为了解决上述技术问题,本发明将位置描述概念模型与解析技术相结合,利用位置概念蕴含语义信息,以知识抽取替代通用的中文分词阶段,提出一种基于模糊字典树的地理词汇快速抽取方法,基于Trie实现融合特定位置概念类型的模糊、漏字等情况,将位置概念根据地理词汇组成划分,抽取位置描述中的基础位置概念对象。
本发明所采用的技术方案是:一种基于模糊字典树的地理词汇快速抽取方法,包括以下步骤:
步骤1:地理信息本体入库;
步骤2:生成基于拼音、字缺失的Trie节点;
步骤3:根据地理基础位置概念标注实现细粒度的搜寻中模糊搜索的控制;
步骤4:提供地理词汇的相似度实现抽取结果评分排序;
步骤5:快速抽取位置描述中的所有基础位置概念对象。
作为优选,步骤2的具体实现包括以下子步骤:
步骤2.1:输入基础位置概念对象k、文本w、类型序号c;
基础位置概念其对应位置概念的原子组成词汇的概念表达,其只有一个固有属性“word”,代表词汇的字符串形式。
步骤2.2:根据一个字符长度阈值hm对w进行判断,若w字符长度大于选定阈值hm,则取局部的删除参数m定为1,否则为0;
步骤2.3:将w类型转换为半角形式;
步骤2.4:获取文本w并使之对应于每一个汉字的拼音集合P;
步骤2.5:根据m值分情况讨论;
若m=0,递归调用addWordToTree方法将k加入trie,默认传入trie的根节点Troot
若m>0,排列组合获取并遍历删除后的文本集合Wd,将对象删除处以占位符“##”替代,形成新文本w’与k组合,递归调用addWordToTree方法加入trie。
作为优选,步骤2.5中所述的addWordToTree方法,具体实现包括以下子步骤:
步骤2.5.1:输入节点v、文本w、拼音列表P、当前位置i、位置概念对象c及其类型;
步骤2.5.2:判断i的位置;
若i不处于P最后位置,则执行下述步骤2.5.3;
若i处于P最后位置,则执行下述步骤2.5.5;
步骤2.5.3:节点搜寻,找到v对应拼音pi的子节点vpi
步骤2.5.4:判断子节点vpi是否存在;
若vpi不存在,则创建新节点,将i前进一位,并回转执行所述步骤2.5.2;
若vpi存在,则找到拼音列表子节点,并回转执行所述步骤2.5.2;
步骤2.5.5:若i处于P末端,将对象插入节点的对象列表O中。
作为优选,步骤3的具体实现包括以下子步骤:
步骤3.1:输入原始位置描述D,是否模糊搜索f;
步骤3.2:将D转换为半角形式;
步骤3.3:初始化词汇对象输出集合R并索引节点栈Q,对应D的各索引号,以根节点作为节点,构建节点元素集合qi加入Q;
步骤3.4:从Q中取出一个元素q,判断是否为空;
若是,则回转执行步骤3.3:
若否,则继续执行下述步骤3.4;
步骤3.4:判断对应位置描述的起始位置psq是否超出|D|;
若是,流程结束,未搜索到满足条件的词汇;
若否,则继续执行下述步骤3.5;
步骤3.5:取D处于psq的拼音,从当前节点vp的边Mvp中寻找精确节点vp’,用占位符“##”从Mvp获取模糊节点vp”,将vp’和vp”放入待处理集合V’;
步骤3.6:遍历V’,取某节点v,构建新索引节点 为对应描述位置的起始位置;为对应描述位置的终止位置;
步骤3.7:判断节点p′是否在栈Q中存在;
若是,则回转执行步骤3.3;
若否,则将p′加入Q;并继续执行下述步骤3.8;
步骤3.8:判断叶节点的对象列表Ov是否为空;
若是,则回转执行步骤3.3;
若否,则继续执行下述步骤3.9;
步骤3.9:判断f是否为真;
若是,则继续执行下述步骤3.10;
如否,则继续执行下述步骤3.11;
步骤3.10:遍历当前包含具体信息的集合Ov,并判断对象o位置概念类型模糊标签是否正确;
若对象o位置概念类型模糊标签正确,则用o建立或更新R中对应包含起始与终止位置的集合的词汇对象;
若错误,对比原始字符串w与对应的位置描述D[psq,peq]
步骤3.11:遍历Ov,按步骤1.10中非模糊标签的形式判断字符串是否相等,并更新R;
步骤3.12:对象输出集合R进行评分。
作为优选,步骤4的具体实现包括以下子步骤:
步骤4.1:若查询词汇t与原始词汇o长度(n)相同,逐字符比较,分数公式为:
集合n1为逐字符比较过程中相同的字符集合,n2为字符不同但拼音相同的集合,n3为剩余字符集合;a、b、c为三者的权重得分;
步骤4.2:若t与o长度不同,但差距仅为删除距离,则构建并遍历删除集合Od,得出每个词汇odi与t的匹配分数Scorei,最大值作为最终匹配分值。
本发明基于Trie实现了一种基础位置概念对象的高效抽取方法,实现融合特定位置概念类型的模糊、漏字等情况,利于解决针对位置描述定位的相关问题。
附图说明
图1:本发明实施例的地址概念构成示意图;
图2:本发明实施例的LO-Trie构成示意图;
图3:本发明实施例的流程图;
图4:本发明实施例的以递归调用形式将节点加入到trie中流程图;
图5:本发明实施例的递归式LO-Trie的搜索流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明实施例中,地址一般包含行政区、街道巷、小区、门楼址及某标志物的名称,结构上呈现层次化特征。位置概念的层次分类将空间认知中的位置概念进行系统性的归类,是对位置描述进行概念建模的基础。
概念根据其构成划分为:基础位置概念和复杂位置概念。基础位置概念对应位置概念的原子组成词汇的概念表达。如行政区词汇“湖北”,特征词词汇“省”,POI通名词汇“商店”,连接词汇“和”,空间相交词汇“交汇”。其只有一个固有属性,代表词汇的字符串形式。复杂位置概念代表层次型的位置概念,其最基本的组成单位是基础位置概念。其子类可划分为:实体位置概念、空间位置概念和中间层位置概念。实体位置概念由实体复杂概念与位置组成。其直接的子类为广义地名,组成成员是基础位置概念、中间层位置概念或其他实体位置概念。例如,“湖北省”代表一个地名中的省级行政区实体位置概念对象,但其由两个基础概念对象构成。空间关系位置概念由置信场复杂概念与位置组成,对应于一类空间关系,组成成员是基础位置概念、实体位置概念或其他空间关系位置概念。置信场代表由一个空间关系计算出的模糊几何对象,由指示点、几何边界和概率函数构成。中间层位置概念继承成员复杂概念而来,代表复杂位置概念的中间层次概念。
地址由多层次实体、中间层次与基本位置概念构成。行政区地址、道路地址、小区地址、一级门楼地址等为中间层次的位置概念,地名是行政区地名的抽象基概念。
如图2所示,是本发明的一种基于拼音、字缺失的Trie构成示意图,本发明实施例中,基础位置概念不对应具体的空间实体或关系,其总体对象个数有限。而Trie的优势在于可以快速遍历提取相关的基础概念词汇或别名。根据具体应用领域的不同,可对Trie做出相应的扩展。在描述特定的位置概念时,如小区名、村落名、POI的特名时常会出现错字、漏字等情况。而LO-Trie支持模糊音及缺失词,最大程度的应对位置描述中出现的错别字、漏字等情况。
LO-Trie中的每个节点V由两个集合构成:V=(M,O)。其中,M代表其子节点,由一个哈希表数据结构来表示,其键表示某个拼音形式的前缀字符串s,值则为s对应的子节点。O中包含了对象的具体信息,其中每一个元素o可表示为一个三元组:o=(l,w,c)。其中,l代表了某个基础位置概念对象,w为其精确形式的描述文本,c为位置概念类型的序号,用于快速检索位置概念是否需要模糊查询。叶节点的集合O一定不是空集,而中间层次节点的集合O则可能是空集,代表从根节点到其构成的路径所组成的文本并无对应的基础位置概念。为表示漏字的情况,LO-Trie中存在删除距离参数,即在实际构建过程中,使用一个占位符来表示删除的字符。如图以“阿美丽”这一个单词为例,描述了一个删除距离参数为1的LO-Trie的基本构成,其占位符为“##”。
请见图3,本发明提供的一种基于模糊字典树的地理词汇快速抽取方法,包括以下步骤:
步骤1:地理信息本体入库;
步骤2:生成基于拼音、字缺失的Trie(LO-Trie)节点;
本实施例的LO-Trie的构建过程在引擎初始化时完成。在构建之初加载并遍历库中的基础位置概念对象集合,获取地理对象的文本,并加入LO-Trie。其具体实现过程是:
步骤2.1:输入基础位置概念对象k、文本w、类型序号c;
基础位置概念其对应位置概念的原子组成词汇的概念表达,其只有一个固有属性“word”,代表词汇的字符串形式。
步骤2.2:根据一个字符长度阈值hm对w进行判断,若w字符长度大于选定阈值hm,则取局部的删除参数m定为1,否则为0;
步骤2.3:将w类型转换为半角形式;
步骤2.4:获取文本w并使之对应于每一个汉字的拼音集合P;
步骤2.5:根据m值分情况讨论;
若m=0,递归调用addWordToTree方法将k加入trie,默认传入trie的根节点Troot
若m>0,排列组合获取并遍历删除后的文本集合Wd,将对象删除处以占位符“##”替代,形成新文本w’与k组合,递归调用addWordToTree方法加入trie。
请见图4,是本实施例的addWordToTree方法流程图,具体实现包括以下子步骤:
步骤2.5.1:输入节点v、文本w、拼音列表P、当前位置i、位置概念对象c及其类型;
步骤2.5.2:判断i的位置;
若i不处于P最后位置,则执行下述步骤2.5.3;
若i处于P最后位置,则执行下述步骤2.5.5;
步骤2.5.3:节点搜寻,找到v对应拼音pi的子节点vpi
步骤2.5.4:判断子节点vpi是否存在;
若vpi不存在,则创建新节点,将i前进一位,并回转执行所述步骤2.5.2;
若vpi存在,则找到拼音列表子节点,并回转执行所述步骤2.5.2;
步骤2.5.5:若i处于P末端,将对象插入节点的对象列表O中。
步骤3:根据地理基础位置概念标注实现细粒度的搜寻中模糊搜索的控制;
如图5所示,为本发明的一种递归式LO-Trie的搜索流程图;本发明实施例中,输入原始位置描述,从其任意起始位置搜索,提取并评分满足条件的地理词汇对象集合。输出的一个词汇对象可表示为一个包含对象集合、分值集合、词汇对象对应位置描述的起始和终止位置的四元集合。其在节点选取、评分中融入了位置概念类别模糊与删除字的控制和处理。在搜索流程中,需要表示节点和位置描述中子字符串的组合,即索引节点,表示一个为包含当前Trie节点、这个节点对应位置描述的起始和终止位置的三元集合。
具体实现包括以下子步骤:
步骤3.1:输入原始位置描述D,是否模糊搜索f;
步骤3.2:将D转换为半角形式;
步骤3.3:初始化词汇对象输出集合R并索引节点栈Q,对应D的各索引号,以根节点作为节点,构建节点元素集合qi加入Q;
步骤3.4:从Q中取出一个元素q,判断是否为空;
若是,则回转执行步骤3.3:
若否,则继续执行下述步骤3.4;
步骤3.4:判断对应位置描述的起始位置psq是否超出|D|;
若是,流程结束,未搜索到满足条件的词汇;
若否,则继续执行下述步骤3.5;
步骤3.5:取D处于psq的拼音,从当前节点vp的边Mvp中寻找精确节点vp’,用占位符“##”从Mvp获取模糊节点vp”,将vp’和vp”放入待处理集合V’;
步骤3.6:遍历V’,取某节点v,构建新索引节点 为对应描述位置的起始位置;为对应描述位置的终止位置;
步骤3.7:判断节点p′是否在栈Q中存在;
若是,则回转执行步骤3.3;
若否,则将p′加入Q;并继续执行下述步骤3.8;
步骤3.8:判断叶节点的对象列表Ov是否为空;
若是,则回转执行步骤3.3;
若否,则继续执行下述步骤3.9;
步骤3.9:判断f是否为真;
若是,则继续执行下述步骤3.10;
如否,则继续执行下述步骤3.11;
步骤3.10:遍历当前包含具体信息的集合Ov,并判断对象o位置概念类型模糊标签是否正确;
若对象o位置概念类型模糊标签正确,则用o建立或更新R中对应包含起始与终止位置的集合的词汇对象;
若错误,对比原始字符串w与对应的位置描述D[psq,peq],若相等,则用o建立或更新R中对应包含起始与终止位置的集合的词汇对象;
步骤3.11:遍历Ov,按步骤1.10中非模糊标签的形式判断字符串是否相等,并更新R;
步骤3.12:对象输出集合R进行评分。
步骤4:提供地理词汇的相似度实现抽取结果评分排序;
根据量化Trie搜索出的词汇与实际词汇的差别,可以计算查询词汇和原始词汇的匹配度。结果集地理词汇评分的计算步骤如下:
步骤4.1:若查询词汇t与原始词汇o长度(n)相同,逐字符比较,分数公式为:
集合n1为逐字符比较过程中相同的字符集合,n2为字符不同但拼音相同的集合,n3为剩余字符集合;a、b、c为三者的权重得分;
步骤4.2:若t与o长度不同,但差距仅为删除距离,则构建并遍历删除集合Od,得出每个词汇odi与t的匹配分数Scorei,最大值作为最终匹配分值。
步骤5:快速抽取位置描述中的所有基础位置概念对象。
本实施例在位置描述解析中,Trie的数据结构通过快速遍历即可提取相关的地理基础概念词汇或别名,并可对Trie做出相应的扩展。
本实施例LO-Trie支持模糊音以及缺失词,可以最大程度的应对位置描述中出现的错别字、漏字等情况。为表示漏字的情况,LO-Trie中存在删除距离参数,即在实际构建过程中,使用一个占位符来表示删除的字符。
本实施例LO-Trie的构建过程在引擎初始化时完成。在构建之初加载并遍历库中的基础位置概念对象集合,获取地理对象的文本形式,并加入LO-Trie。
本实施例用递归调用的形式中将位置描述节点加入到trie中。
本实施例LO-Trie对位置描述的搜索过程是递归式。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (4)

1.一种基于模糊字典树的地理词汇快速抽取方法,其特征在于,包括以下步骤:
步骤1:地理信息本体入库;
步骤2:生成基于拼音、字缺失的Trie节点;
步骤2的具体实现包括以下子步骤:
步骤2.1:输入基础位置概念对象k、文本w、类型序号c;
基础位置概念其对应位置概念的原子组成词汇的概念表达,其只有一个固有属性“word”,代表词汇的字符串形式;
步骤2.2:根据一个字符长度阈值hm对w进行判断,若w字符长度大于选定阈值hm,则取局部的删除参数m定为1,否则为0;
步骤2.3:将w类型转换为半角形式;
步骤2.4:获取文本w并使之对应于每一个汉字的拼音集合P;
步骤2.5:根据m值分情况讨论;
若m=0,递归调用addWordToTree方法将k加入trie,默认传入trie的根节点Troot
若m>0,排列组合获取并遍历删除后的文本集合Wd,将对象删除处以占位符“##”替代,形成新文本w’与k组合,递归调用addWordToTree方法加入trie;
步骤3:根据地理基础位置概念标注实现细粒度的搜寻中模糊搜索的控制;
步骤4:提供地理词汇的相似度实现抽取结果评分排序;
步骤5:快速抽取位置描述中的所有基础位置概念对象。
2.根据权利要求1所述的基于模糊字典树的地理词汇快速抽取方法,其特征在于,步骤2.5中所述的addWordToTree方法,具体实现包括以下子步骤:
步骤2.5.1:输入节点v、文本w、拼音集合P、当前位置i、位置概念对象c及其类型;
步骤2.5.2:判断i的位置;
若i不处于P最后位置,则执行下述步骤2.5.3;
若i处于P最后位置,则执行下述步骤2.5.5;
步骤2.5.3:节点搜寻,找到v对应拼音pi的子节点vpi
步骤2.5.4:判断子节点vpi是否存在;
若vpi不存在,则创建新节点,将i前进一位,并回转执行所述步骤2.5.2;
若vpi存在,则找到拼音列表子节点,并回转执行所述步骤2.5.2;
步骤2.5.5:若i处于P末端,将对象插入节点的对象列表O中。
3.根据权利要求1所述的基于模糊字典树的地理词汇快速抽取方法,其特征在于,步骤3的具体实现包括以下子步骤:
步骤3.1:输入原始位置描述D,是否模糊搜索f;
步骤3.2:将D转换为半角形式;
步骤3.3:初始化词汇对象输出集合R并索引节点栈Q,对应D的各索引号,以根节点作为节点,构建节点元素集合qi加入Q;
步骤3.4:从Q中取出一个元素q,判断是否为空;
若是,则回转执行步骤3.3:
若否,则继续执行下述步骤3.4;
步骤3.4:判断对应位置描述的起始位置psq是否超出|D|;
若是,流程结束,未搜索到满足条件的词汇;
若否,则继续执行下述步骤3.5;
步骤3.5:取D处于psq的拼音,从当前节点vp的边Mvp中寻找精确节点vp’,用占位符“##”从Mvp获取模糊节点vp”,将vp’和vp”放入待处理集合V’;
步骤3.6:遍历V’,取某节点x,构建新索引节点 为对应位置描述的起始位置;为对应描述位置的终止位置;
步骤3.7:判断节点p′是否在栈Q中存在;
若是,则跳过此节点,遍历至下一模式节点;
若否,则将p′加入Q;并继续执行下述步骤3.8;
步骤3.8:判断叶节点的对象列表Ov是否为空;
若是,则跳过此节点,遍历至下一模式节点;
若否,则继续执行下述步骤3.9;
步骤3.9:判断f是否为真;
若是,则继续执行下述步骤3.10;
如否,则继续执行下述步骤3.11;
步骤3.10:遍历当前包含具体信息的集合Ov,并判断对象o位置概念类型模糊标签是否正确;
若对象o位置概念类型模糊标签正确,则用o建立或更新R中对应包含起始与终止位置的集合的词汇对象;
若错误,对比文本w与对应的位置描述D[psq,peq]
步骤3.11:遍历Ov,按步骤1.10中非模糊标签的形式判断字符串是否相等,并更新R;
步骤3.12:对象输出集合R进行评分。
4.根据权利要求1所述的基于模糊字典树的地理词汇快速抽取方法,其特征在于,步骤4的具体实现包括以下子步骤:
步骤4.1:若查询词汇t与对象o的文本w的长度n相同,逐字符比较,分数公式为:
集合n1为逐字符比较过程中相同的字符集合,n2为字符不同但拼音相同的集合,n3为剩余字符集合;a、b、c为三者的权重得分;
步骤4.2:若t与对象o的文本w的长度不同,但差距仅为删除距离,则构建并遍历删除集合Od,得出每个词汇odi与t的匹配分数Scorei,最大值作为最终匹配分值。
CN201611164766.9A 2016-12-16 2016-12-16 一种基于模糊字典树的地理词汇快速抽取方法 Active CN106777118B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611164766.9A CN106777118B (zh) 2016-12-16 2016-12-16 一种基于模糊字典树的地理词汇快速抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611164766.9A CN106777118B (zh) 2016-12-16 2016-12-16 一种基于模糊字典树的地理词汇快速抽取方法

Publications (2)

Publication Number Publication Date
CN106777118A CN106777118A (zh) 2017-05-31
CN106777118B true CN106777118B (zh) 2019-06-25

Family

ID=58891706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611164766.9A Active CN106777118B (zh) 2016-12-16 2016-12-16 一种基于模糊字典树的地理词汇快速抽取方法

Country Status (1)

Country Link
CN (1) CN106777118B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10509784B2 (en) * 2017-04-28 2019-12-17 Splunk Inc. Partially typed semantics optimization
CN110839140B (zh) * 2018-08-17 2021-09-10 视联动力信息技术股份有限公司 监控目录的生成方法和装置
CN109947881B (zh) * 2019-02-26 2023-10-27 广州城市规划技术开发服务部有限公司 一种poi判重方法、装置、移动终端及计算机可读存储介质
CN110287426B (zh) * 2019-05-23 2021-12-31 北京百度网讯科技有限公司 兴趣点父子关系的建立方法、装置、存储介质及处理器
CN112035597B (zh) * 2020-09-04 2023-11-21 常州新途软件有限公司 一种车载输入方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6859455B1 (en) * 1999-12-29 2005-02-22 Nasser Yazdani Method and apparatus for building and using multi-dimensional index trees for multi-dimensional data objects
CN101916263A (zh) * 2010-07-27 2010-12-15 武汉大学 基于加权编辑距离的模糊关键字查询方法及系统
CN102084363A (zh) * 2008-07-03 2011-06-01 加利福尼亚大学董事会 一种用于在结构化数据上高效地支持交互式模糊搜索的方法
CN102955833A (zh) * 2011-08-31 2013-03-06 深圳市华傲数据技术有限公司 一种通讯地址识别、标准化的方法
CN103339624A (zh) * 2010-12-14 2013-10-02 加利福尼亚大学董事会 支持地理结构数据的交互式模糊搜索的高效前缀搜索算法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6859455B1 (en) * 1999-12-29 2005-02-22 Nasser Yazdani Method and apparatus for building and using multi-dimensional index trees for multi-dimensional data objects
CN102084363A (zh) * 2008-07-03 2011-06-01 加利福尼亚大学董事会 一种用于在结构化数据上高效地支持交互式模糊搜索的方法
CN101916263A (zh) * 2010-07-27 2010-12-15 武汉大学 基于加权编辑距离的模糊关键字查询方法及系统
CN103339624A (zh) * 2010-12-14 2013-10-02 加利福尼亚大学董事会 支持地理结构数据的交互式模糊搜索的高效前缀搜索算法
CN102955833A (zh) * 2011-08-31 2013-03-06 深圳市华傲数据技术有限公司 一种通讯地址识别、标准化的方法

Also Published As

Publication number Publication date
CN106777118A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN106777118B (zh) 一种基于模糊字典树的地理词汇快速抽取方法
TWI746690B (zh) 自然語言問句答案的產生方法、裝置及伺服器
CN109145169B (zh) 一种基于统计分词的地址匹配方法
CN108388559B (zh) 地理空间应用下的命名实体识别方法及系统、计算机程序
CN110909170B (zh) 兴趣点知识图谱构建方法、装置、电子设备及存储介质
WO2015027836A1 (zh) 一种地名实体识别的方法及系统
CN105976818A (zh) 指令识别的处理方法及装置
CN104679867B (zh) 基于图的地址知识处理方法及装置
CN103123650B (zh) 一种基于整数映射的xml数据库全文索引方法
JP7362998B2 (ja) Poi状態情報を取得する方法、及び装置
CN116483973A (zh) 一种文本处理方法、装置以及相关设备
CN107748778B (zh) 一种提取地址的方法及装置
CN109918664B (zh) 分词方法和装置
CN112528174A (zh) 基于知识图谱和多重匹配的地址修整补全方法及应用
CN111651572A (zh) 一种多领域任务型对话系统、方法和终端
CN108268445A (zh) 一种处理地址信息的方法及装置
CN116414823A (zh) 一种基于分词模型的地址定位方法和装置
CN114780680A (zh) 基于地名地址数据库的检索与补全方法及系统
CN114201480A (zh) 一种基于nlp技术的多源poi融合方法、装置及可读存储介质
CN116414824A (zh) 行政区划信息识别和标准化处理的方法、装置及存储介质
CN110674313A (zh) 一种基于用户日志动态更新知识图谱的方法
CN112256821B (zh) 中文地址补全的方法、装置、设备及存储介质
CN111611793B (zh) 数据处理方法、装置、设备及存储介质
CN109460467B (zh) 一种网络信息分类体系构建方法
CN113807102B (zh) 建立语义表示模型的方法、装置、设备和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant