CN102479230A

CN102479230A - 提取地理特征词的方法和装置

Info

Publication number: CN102479230A
Application number: CN2010105713045A
Authority: CN
Inventors: 罗丽俊; 陈文斌; 邹中心
Original assignee: Navinfo Co Ltd
Current assignee: Navinfo Co Ltd
Priority date: 2010-11-29
Filing date: 2010-11-29
Publication date: 2012-05-30

Abstract

本发明提供一种提取地理特征词的方法及装置，属于数字地图领域。其中，该提取地理特征词的方法，包括：步骤A：根据原始地址数据和名称数据获取第一候选词集合；步骤B：对所述第一候选词集合进行验证和扩展得到扩展词集合，并对所述扩展词集合中的词进行筛选得到第二候选词集合；步骤C：判断所述第二候选词集合与所述第一候选词集合的比值大小，若所述比值不大于第一阈值，转向步骤D，否则将所述第二候选词集合替换所述第一候选词集合，并返回步骤B；步骤D：保存得到的扩展词集合作为地理特征词集合。本发明实施例能够有效提高数据分析的效率。

Description

提取地理特征词的方法和装置

技术领域

本发明涉及数字地图领域，特别是指一种提取地理特征词的方法和装置。

背景技术

现有技术中，地理特征词一般为在通用的词库基础上加上人工整理的有行政区划，道路，乡镇等的地理信息特征词，这种方式获取的地理特征词往往有限，尤其对一些标志性的兴趣点(Point of Interest，POI)特征词很难获取，同时缺少特征词属性，不能为地理信息数据分析提供基石，严重的影响地理信息数据的进一步分析。

发明内容

本发明要解决的技术问题是提供一种提取地理特征词的方法和装置，能够验证与扩展地理特征词，快速的获取地理特征词属性，为地理信息数据分析提供基石，有效提高数据分析的效率。

为解决上述技术问题，本发明的实施例提供技术方案如下：

一方面，提供一种提取地理特征词的方法，包括：

步骤A：根据原始地址数据和名称数据获取第一候选词集合；

步骤B：对所述第一候选词集合进行验证和扩展得到扩展词集合，并对所述扩展词集合中的词进行筛选得到第二候选词集合；

步骤C：判断所述第二候选词集合与所述第一候选词集合的比值大小，若所述比值不大于第一阈值，转向步骤D，否则将所述第二候选词集合替换所述第一候选词集合，并返回步骤B；

步骤D：保存得到的扩展词集合作为地理特征词集合。

其中，所述步骤D还包括：获取所述地理特征词集合中各个地理特征词对应的相关词属性、级别属性、与其它地理特征词之间的所属关系。

其中，所述根据原始地址数据和名称数据获取第一候选词集合包括：

利用标记词对原始地址数据和名称数据进行切分，得到歧义切分词集合A和无歧义切分词集合B，对所述集合A进行去歧义处理得到集合C；

将集合B和集合C合并，并在合并后的集合中过滤掉不符合特征词模式的词，得到第一候选词集合。

其中，所述对所述第一候选词集合进行验证和扩展得到扩展词集合包括：

获得所述第一候选词集合中的候选词在通用的搜索引擎中进行搜索的返回结果，其中所述搜索引擎能返回所述输入词的相关搜索词语组合以及相关搜索标题，并能在所述输入词错误时返回纠正词；

若所述搜索引擎返回纠正词，则将所述纠正词输入扩展词集合；否则对获取的搜索标题进行切分，所获取的词作为第一词集合，将相关搜索词语组合处出现的词进行切分，所获取的词作为第二词集合；

将第一词集合与第二词集合共同出现的词加入扩展词集合，之后计算所述第一词集合中剩下的词的权重、所述第一词集合中剩下的词与所述输入词的编辑距离，挑选符合预设条件的词加入扩展词集合；计算所述第二词集合中剩下的词与所述输入词的编辑距离，挑选符合预设条件的词加入扩展词集合。

其中，所述对所述扩展词集合中的词进行筛选得到第二候选词集合包括：

将所述第一候选词输入已验证词集合中；

从所述扩展词集合中筛选出符合预设模式且不属于所述已验证词集合中的词加入所述第二候选词集合。

本发明实施例还提供了一种提取地理特征词的装置，包括：

第一处理模块，用于根据原始地址数据和名称数据获取第一候选词集合；

第二处理模块，用于对所述第一候选词集合进行验证和扩展得到扩展词集合，并对所述扩展词集合中的词进行筛选得到第二候选词集合；

判断模块，用于判断所述第二候选词集合和所述第一候选词集合的比值与第一阈值的大小；

所述第二处理模块还用于在所述判断模块判断所述比值大于第一阈值时，将所述第二候选词集合替换所述第一候选词集合；

保存模块，用于在所述判断模块判断比值不大于第一阈值时，保存得到的扩展词集合作为地理特征词集合。

其中，所述保存模块还用于获取所述地理特征词集合中各个地理特征词对应的相关词属性、级别属性、与其它地理特征词之间的所属关系。

其中，所述第一处理模块包括：

第一切分子模块，用于利用标记词对原始地址数据和名称数据进行切分，得到歧义切分词集合A和无歧义切分词集合B，对所述集合A进行去歧义处理得到集合C；

合并子模块，用于将集合B和集合C合并，并在合并后的集合中过滤掉不符合特征词模式的词，得到第一候选词集合。

其中，所述第二处理模块包括：

所述第二处理模块包括：

搜索子模块，用于获得所述第一候选词集合中的候选词在通用的搜索引擎中进行搜索的返回结果，其中所述搜索引擎能返回所述输入词的相关搜索词语组合以及相关搜索标题，并能在所述输入词错误时返回纠正词；

扩展词获取子模块，用于若所述搜索引擎返回纠正词，则将所述纠正词输入扩展词集合；

第二相关词获取子模块，用于对获取的搜索标题进行切分，所获取的词作为第一词集合，将相关搜索词语组合处出现的词进行切分，所获取的词作为第二词集合；

扩展词获取子模块还用于将第一词集合与第二词集合共同出现的词加入扩展词集合，之后计算所述第一词集合中剩下的词的权重、所述第一词集合中剩下的词与所述输入词的编辑距离，挑选符合预设条件的词加入扩展词集合；计算所述第二词集合中剩下的词与所述输入词的编辑距离，挑选符合预设条件的词加入扩展词集合。

其中，所述第二处理模块还包括：

筛选子模块，用于将所述第一候选词输入已验证词集合中，从所述扩展词集合中筛选出符合预设模式且不属于所述已验证词集合中的词加入所述第二候选词集合。

本发明的实施例具有以下有益效果：

上述方案中，根据地理数据特点，利用规则与统计方法对名称与地址数据进行切分获取侯选词，然后通过搜索引擎对候选词进行验证与扩充，并获取特征词的相关属性。本发明能够验证与扩展地理特征词，快速的获取地理特征词属性，为地理信息数据分析提供基石，有效提高数据分析的效率。

附图说明

图1为本发明的实施例提取地理特征词的方法流程示意图；

图2为本发明的实施例提取地理特征词的装置结构示意图；

图3为本发明的实施例对地址/名称数据进行处理的流程示意图；

图4为本发明的实施例对候选词的处理流程示意图。

具体实施方式

为使本发明的实施例要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明的实施例提供一种提取地理特征词的方法和装置，能够验证与扩展地理特征词，快速的获取地理特征词属性，为地理信息数据分析提供基石，有效提高数据分析的效率。

如图1所示，本发明实施例提供了一种提取地理特征词的方法，包括：

步骤101：根据原始地址数据和名称数据获取第一候选词集合；

步骤102：对第一候选词集合进行验证和扩展得到扩展词集合，并对扩展词集合中的词进行筛选得到第二候选词集合；

步骤103：判断第二候选词集合与第一候选词集合的比值大小，若比值不大于第一阈值，转向步骤104，否则将第二候选词集合替换第一候选词集合，并返回步骤102；

步骤104：保存得到的扩展词集合作为地理特征词集合。

之后，还可以获取并保存所述地理特征词集合中各个地理特征词对应的特征词相关词属性、级别和所属关系。

本发明提取地理特征词的方法，根据地理数据特点，利用规则与统计方法对名称与地址数据进行切分获取侯选词，然后对候选词进行验证与扩充，并获取特征词的相关属性。本发明能够验证与扩展地理特征词，快速的获取地理特征词属性，为地理信息数据分析提供基石，有效提高数据分析的效率。

如图2所示，本发明实施例还提供了一种提取地理特征词的装置，包括：

第一处理模块20，用于根据原始地址数据和名称数据获取第一候选词集合；

第二处理模块21，用于对第一候选词集合进行验证和扩展得到扩展词集合，并对扩展词集合中的词进行筛选得到第二候选词集合；

判断模块22，用于判断第二候选词集合和第一候选词集合的比值与第一阈值的大小；

第二处理模块21还用于在判断模块22判断比值大于第一阈值时，将第二候选词集合替换第一候选词集合；

保存模块23，用于在判断模块22判断比值不大于第一阈值时，保存得到的扩展词集合作为地理特征词集合。

其中，保存模块23还用于获取地理特征词集合中各个地理特征词对应的相关词属性、级别属性、与其它地理特征词之间的所属关系。

其中，第一处理模块20进一步包括：

第一切分子模块，用于利用标记词对原始地址数据和名称数据进行切分，得到歧义切分词集合A和无歧义切分词集合B，对集合A进行去歧义处理得到集合C；

其中，第二处理模块21进一步包括：

搜索子模块，用于获得第一候选词集合中的候选词在通用的搜索引擎中进行搜索的返回结果，其中搜索引擎能返回输入词的相关搜索词语组合以及相关搜索标题，并能在输入词错误时返回纠正词，

扩展词获取子模块，用于若搜索引擎返回纠正词，则将纠正词输入扩展词集合；

扩展词获取子模块还用于将第一词集合与第二词集合共同出现的词加入扩展词集合，之后计算第一词集合中剩下的词的权重、第一词集合中剩下的词与输入词的编辑距离，挑选符合预设条件的词加入扩展词集合；计算第二词集合中剩下的词与输入词的编辑距离，挑选符合预设条件的词加入扩展词集合。

其中，第二处理模块21还包括：

筛选子模块，用于将第一候选词输入已验证词集合中，从扩展词集合中筛选出符合预设模式且不属于已验证词集合中的词加入第二候选词集合。

本实施例的提取地理特征词的装置，根据地理数据特点，利用规则与统计方法对名称与地址数据进行切分获取侯选词，然后通过搜索引擎对候选词进行验证与扩充，并获取特征词的相关属性。本发明能够验证与扩展地理特征词，快速的获取地理特征词属性，为地理信息数据分析提供基石，有效提高数据分析的效率。

下面对本发明的提取地理特征词的方法进行详细介绍。

步骤1：首先是从原始地理数据中获取原始地址数据和名称数据；

从原始地理数据中分别抽取名称数据与地址数据，经格式化处理后分别保存至文件name.txt与addr.txt。比如原始地理数据可以来自数据库，文件等，从中可以抽取出名称数据(例如：澳门中心商场)和地址数据(例如：王府井东大街8号)；

步骤2：根据原始地址数据和名称数据获取第一候选词集合；

如图3所示为对地址/名称数据进行处理的过程，首先对地址数据进行处理，根据地址数据特点，把地址数据包含的标记词分成若干类，如：数字标记词，英文标记词，门牌号前缀词，方向词等。标记词为能代表地理特征的词。比如：大街，市，区。设定标记词规则1，根据规则1对地址数据进行切分，根据切分的结果获取集合A1以及集合B1，其中集合B1为无歧义切分词，集合A1为歧义切分词。其中，标记词规则1可以通过地址模式与标记词特点指定，例如：可以为首先利用标记词(如市，区，门，街，号，座，楼)进行粗分，如果里面涉及门排号或楼号，则采用门排号前缀+数字/字母+后缀的方式。切分后结果看是否符合地址模式(例如市+路+楼/号+POI名称+楼/号)，不符合再利用标记词进行调整。比如地址数据：“北京市西城区阜城门外大街2号万通新世界广场a座18楼”就可以根据标记词分为“北京市|西城区|阜城门外|大街|2号|万通新世界广场|a座|18楼”，其中“万通新世界广场”为无歧义切分词，“阜城门外|大街”为歧义切分词，可以通过地址模式判断切分后的词是否有歧义。集合A1与集合B1合并为集合AB1。例如集合A1中包含“阜城门外|大街”，则可产生“阜城门外/阜城门外大街/大街”三个词，与B1中的“万通新世界广场”合并为集合AB1：“阜城门外/阜城门外大街/大街/万通新世界广场”四个词。获取集合AB1在地址数据中的频次，同时利用所获取的频次，对集合A1中的词进行去歧义处理，得到集合C1。例如：A1“阜城门外/阜城门外大街/大街”得到C1“阜城门外/阜城门外大街”。将集合B1和集合C1合并得到D1，过滤D1中不符合特征词的词(例如：纯数字；存在不属于特定英文字符数字(如#$％)；单字等)，得到的词加入到第一候选词集合中。

利用名称数据获取候选词集合的过程与上述过程类似，把名称数据包含的标记词分成若干类，设定标记词规则2，根据规则2对名称数据进行切分，根据切分的结果获取集合A2以及集合B2，其中集合B2为无歧义切分词，集合A2为歧义切分词。集合A2与集合B2合并为集合AB2，获取集合AB2在名称数据中的频次，同时利用所获取的频次，对集合A2中的词进行去歧义处理，到集合C2。将集合B2和集合C2合并得到D2，过滤D2中不符合特征词的词(例如：纯数字；存在不属于特定英文字符数字(如#$％)；单字等)，得到的词加入到第一候选词集合中。

步骤3：对第一候选词集合进行验证和扩展得到扩展词集合，并对扩展词集合中的词进行筛选得到第二候选词集合；

本步骤对第一候选词集合中的词进行逐一处理，如图4所示为对其中一个候选词的处理过程，对第一候选词集合中的其他词的处理过程与此处理过程类同。

将候选词作为搜索输入词，在通用的搜索引擎中进行搜索，其中搜索引擎能返回输入词的相关搜索词语组合以及相关搜索标题，并能在输入词错误时返回纠正词，可以利用现有很多搜索引擎如百度、google等的搜索结果实施本发明。

在搜索引擎中对候选词进行搜索，获取返回结果前n(n为预设个数)条的“标题”，“相关搜索”处出现的词。如果存在搜索引擎纠正的词，那么将纠正的词直接加入扩展词集合。比如在利用搜索引擎进行搜索时，在将“车公庄”作为输入词输入搜索引擎中时，返回结果前n条标题其中包括“车公庄地图_车公庄_北京地铁车公庄站_车公庄周边公交”，相关搜索处出现的词包括“车公庄美食”。

利用通过特殊的字符(如：‘，’‘！’‘’‘！’等)对返回的搜索“标题”进行切分获取词短语，从中选择包含特殊标记(如<em>，</em>)且词语长度小于第二阀值的词语，加入词集合1。其中，预设的规则为，特殊标记为与输入词相关的词语做特殊显示，第二阈值为输入词的一定倍数(如：1.5倍)且不大于预定阀值(如：10)，这样利用该规则对“车公庄地图_车公庄_北京地铁车公庄站_车公庄周边公交”进行切分，得到“车公庄地图|车公庄|北京地铁车公庄站|车公庄周边公交”5个词从中选择包含特殊标记(如<em>，</em>)且词语长度小于第二阀值(3*1.5＝5)的词语为“车公庄地图|车公庄”，将获取的词语加入集合1中。利用特殊字符切分对“相关搜索”处出现的词进行切分，用该规则对“车公庄美食”进行切分，获取到的词语为“车公庄”“美食”，所获取的词语加入集合2。将集合1与集合2中共同出现的词存入扩展词集合，并从集合1与2中去除。

通过返回的搜索“标题”计算集合1中剩下的词的权重，判断词的权重是否符合预定规则，其中，预设规则可以为第一词集合中某一词的权重与前一个词的权重的比值大于第五阈值，如符合则计算该词与搜索输入词的编辑距离，将编辑距离小于第三阈值的词加入扩展词集合。其中，第三阈值根据搜索输入词的长度设置。计算集合2中剩下的词与搜索输入词的编辑距离，将编辑距离小于第四阈值的词加入扩展词集合。

其中如果扩展词集合中包含搜索输入词，则该输入词为有效特征词，把有效特征词存入集合word，同时保存有效特征词信息至exword.txt。

从扩展词集合中筛选出符合预设模式(例如：不是纯数字；不存在不属于特定英文字符数字如#$％；不是单字，词的结尾不包含地址等模式的词)且不在集合word的词加入第二候选词集合。比较第二候选词集合与第一候选词集合的比值大小，若比值不大于第一阈值，则转向步骤4，否则将第二候选词集合代替第一候选词集合，重复步骤3；

步骤4：保存得到的扩展词集合作为地理特征词集合，并获取对应的特征词相关词属性、级别和所属关系。

将步骤3中得到的所有扩展词集合中的词存入集合word中，集合word为最终的地理特征词集合，将通过exword.txt填充特征词的相关词属性和级别属性，并通过地址/名称数据，填充特征词所属关系。

比如，在集合word中存在“北京医科大学”这一地理特征词，在exword.txt填充该词的相关词属性为“北京京华医科大学北京首都医科大学北京协和医科大学北京医科大学医院北医大首都医科大学”。

特征词级别属性是通过标记词与addr.txt来设定的由name获取的词统一为“品牌词”这一级别：

第1步，通过标记词划分级别

例如：“海淀区”末尾为“区”这一标记词，那么属于“区县”或者“社区”这一级别；“复兴路”末尾为“路”这一标记词，那么属于“道路”这一级别；1

第2步，利用addr.txt验证与划分级别

例如：北京市海淀区复兴路61号嵘辰写字楼b座227室

切分后：北京市|海淀区|复兴路|61号|嵘辰写字楼|b座|227室

其中“海淀区”处于“市”与“路”级别之间；那么可以判断“海淀区”为“区县”这一级别而不为“社区”这一级别；同时“嵘辰写字楼”处于“号”与“座”之间，那么可以判断“嵘辰写字楼”为POI点这一级别。

特征词所属关系是通过分析addr.txt获取的“北京市西城区”，

例如：北京市海淀区复兴路61号嵘辰写字楼b座227室

切分后：北京市|海淀区|复兴路|61号|嵘辰写字楼|b座|227室

可获取所属关系：“海淀区”属于“北京市”；“复兴路”属于“海淀区”；“嵘辰写字楼”属于“北京市”。

之后可以对地理特征词集合进行审核，删除权重低的特征词、未能识别的特征词级别、相矛盾的特征词所属关系以及权重低的特征词的相关词。

所述方法实施例是与所述装置实施例相对应的，在方法实施例中未详细描述的部分参照装置实施例中相关部分的描述即可，在装置实施例中未详细描述的部分参照方法实施例中相关部分的描述即可。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，包括如上述方法实施例的步骤，所述的存储介质，如：磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

在本发明各方法实施例中，所述各步骤的序号并不能用于限定各步骤的先后顺序，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，对各步骤的先后变化也在本发明的保护范围之内。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种提取地理特征词的方法，其特征在于，包括：

步骤A：根据原始地址数据和名称数据获取第一候选词集合；

步骤D：保存得到的扩展词集合作为地理特征词集合。

2.根据权利要求1所述的提取地理特征词的方法，其特征在于，所述步骤D还包括：获取所述地理特征词集合中各个地理特征词对应的相关词属性、级别属性、与其它地理特征词之间的所属关系。

3.根据权利要求2所述的提取地理特征词的方法，其特征在于，所述根据原始地址数据和名称数据获取第一候选词集合包括：

4.根据权利要求3所述的提取地理特征词的方法，其特征在于，所述对所述第一候选词集合进行验证和扩展得到扩展词集合包括：

5.根据权利要求4所述的提取地理特征词的方法，其特征在于，对所述扩展词集合中的词进行筛选得到第二候选词集合包括：

将所述第一候选词输入已验证词集合中；

6.一种提取地理特征词的装置，其特征在于，包括：

7.根据权利要求6所述的提取地理特征词的装置，其特征在于，所述保存模块还用于获取所述地理特征词集合中各个地理特征词对应的相关词属性、级别属性、与其它地理特征词之间的所属关系。

8.根据权利要求7所述的提取地理特征词的装置，其特征在于，所述第一处理模块包括：

9.根据权利要求8所述的提取地理特征词的装置，其特征在于，所述第二处理模块包括：

10.根据权利要求9所述的提取地理特征词的方法，其特征在于，所述第二处理模块还包括：