基于地理语义的地名地址检索质量评价方法
技术领域
本发明属于地理信息系统领域,提出一种基于地理语义的地名地址检索质量评价方法。
背景技术
随着大数据时代的到来,空间位置信息作为城市信息的重要维度受到越来越多的重视。在城市工商、税务、规划、公安、银行等职能单位拥有的业务数据中,通常以文本形式描述区域、街路、门牌号码等空间位置信息。因此,将地名地址映射为经纬度的地名地址检索引擎被越来越多的投入使用。面对诸多地名地址检索引擎,如何评价地名地址检索结果的质量,应当从什么视角、方法去对检索结果做一个准确快速的评价,是选择何种检索方法的核心问题。要获得最佳的地名地址检索结果,则需要一套有效的地名地址检索质量的评价方法。地名地址检索结果质量的不确定性由输入数据和地理编码算法两个因素引起。所以针对地名地址检索质量的评价有两个角度,一是忽略地名地址的地理特征,依托传统信息检索技术,按照文本检索质量的评价方法来衡量输入地址和检索结果的文本相似度。这类方法技术较为简单便捷,但是,无法对实体的地理位置做一个准确的描述,继而无法对地名地址的检索结果做一个定量化的评价。另外一个角度就是从地址编码算法的角度,通过匹配地址的位置精度来评价检索质量,而忽视文本语义上的相似度,所以这种评价方式也不够完善。
综上,实现基于地理语义的地名地址检索质量的定量化评价方法,是充分利用地理信息,实现智慧城市地名地址检索技术深化应用的重要手段。
发明内容
发明目的:本发明针对现有的质量评价方法的不足之处,提供了一种基于地理语义的地名地址检索质量评价方法,对地名地址检索结果的质量进行衡量,衡量的角度主要有两个方面,一是地址词向量的相似度,二是地址解析匹配的标准地址的颗粒度。
技术方案:为实现上述发明目的,本发明采用如下技术方案:
一种基于地理语义的地名地址检索质量评价方法,包括如下步骤:
(1)输入地名地址,地名地址检索引擎进行处理,产生检索结果;
(2)评价引擎基于地理语义解析地名地址,产生结果为地名地址词向量和标准化地址单元,分别传入文本相似度评价器和地址颗粒度评价器;
(3)文本相似度评价器利用词向量计算技术,对照地名词谱,计算输入地址和检索结果的相似度,返回给综合评价器;
(4)地址颗粒度评价器基于地名地址标准模型,对标准化地址单元进行多删少补,计算输入地址的最小颗粒度,返回给综合评价器;
(5)综合评价器依照词向量相似度和地址最小颗粒度对检索结果给出评价。
作为一种可实施方式,步骤(2)评价引擎基于地理语义解析地名地址,产生结果为地名地址词向量和标准化地址单元,分别传入文本相似度评价器和地址颗粒度评价器,其步骤如下:
第一步:词性过滤,即去掉拆分词中不影响语义的词,如副词、助词等;
第二步:获取特征向量,压缩词向量长度,确定最大限度保留原意的向量长度,即特征项维度;
第三步:地址单元标准化,通过地址通名匹配,明确地址的各个层级;
第四步:分别将地名地址词向量和标准化地址单元传入到文本相似度评价器和地址颗粒度评价器。
作为一种可实施方式,步骤(3)文本相似度评价器利用词向量计算技术,对照地名词谱,计算输入地址和检索结果的相似度,返回给综合评价器,其步骤如下:
第一步:将词汇组成的地名地址词向量映射到地名地址标准词汇集;
第二步:计算相似度特征Similarity,其计算公式如下
Similarity(wi,wd)=Max(f(wi,wd)) (1)
wd是标准词汇集中的向量,wi是输入文本的词向量,f(wi,wd)为计算wi,wd相似程度的函数。本方案取wi,wd的余弦值作为相似度;相似度特征Similarity取f(wi,wd)中最大值作为词语的相似度;
第三步:返回词相似度到综合评价器。
作为一种可实施方式,步骤(4)地址颗粒度评价器基于地名地址标准模型,对标准化地址单元进行多删少补,计算输入地址的最小颗粒度指数,返回给综合评价器,其步骤如下:
第一步:根据关键字将被拆分的标准化地址单元映射到标准地址模型中的单元,本方案采用的标准地址模型如下:
<标准地址>::=<行政区域名称>[基本区域限定物名称][局部点位置描述]
其中:
<行政区域名称>::=<洲级><国家级><省级>[地区级]<县级>[乡级][行政村级]
<基本区域限定物名称>::=<街>|<巷>|<居民小区>|<自然村>
<局部点位置描述>::=<门(楼)址>|<标志物名>|<地名点名>
第二步:基于标准地址模型,将缺失的标准化地址单元进行补全,将多余的地址结构删除;
第三步:返回匹配到的最小地址颗粒度指数到综合评价器,最小颗粒度指数用于描述地址精细度的值,介于0到1之间,当匹配到<局部点位置描述>这一级别,最小颗粒度指数即为1,匹配到<基本区域限定物名称>,最小颗粒度指数为2/3,以此类推。
作为一种可实施方式,步骤(5)综合评价器依照词向量相似度和地址最小颗粒度指数对检索结果给出评价,其步骤如下:
第一步:根据使用需要,确定评价方案指数计算公式,默认采用综合评价值=词余弦相似度×最小颗粒度指数;
第二步:按照第一步确定的公式计算综合评价值;
第三步:返回计算结果。
本发明的优点在于:
(1)本发明相较传统的文本检索质量评价,优势在于充分利用了地理语义,通过对地名地址的层次性特征的把握,将检索质量量化为综合评价指标,该指标和文本相似度和最小颗粒度相关,从而实现了对检索质量的定量化评价。
(2)本发明利用了地址解析技术,充分考虑了地址的语义,发掘了文本和地址各要素间的关联关系,实现了文本信息和地理实体的综合考虑,大大提高了检索评价的准确性、科学性。
(3)本发明设计了一种基于地理语义的地址检索评价指标模型,该模型借鉴了传统标准地址模型,顾及智慧城市精细地名业务特性,简洁、高效,适用于对地址检索评价的应用场景。
附图说明
图1为检索评价方法示意图;
图2为本发明的实施流程图;
图3为词向量相似度计算示意图;
图4为最小颗粒度计算示意图。
具体实施方式
下面结合附图与具体实施例对本发明做进一步详细说明:
一种基于地理语义的地名地址检索质量评价方法,包括如下步骤:
S1、输入地名地址,地名地址检索引擎进行处理,产生检索结果;
S2、评价引擎基于地理语义解析地名地址,产生结果为地名地址词向量和标准化地址单元,分别传入文本相似度评价器和地址颗粒度评价器;
S3、文本相似度评价器利用词向量计算技术,对照地名词谱,计算输入地址和检索结果的相似度,返回给综合评价器;
S4、地址颗粒度评价器基于地名地址标准模型,对标准化地址单元进行多删少补,计算输入地址的最小颗粒度,返回给综合评价器;
S5、综合评价器依照词向量相似度和地址最小颗粒度对检索结果给出评价。
更进一步地,步骤S2评价引擎基于地理语义解析地名地址,产生结果为地名地址词向量和标准化地址单元,分别传入文本相似度评价器和地址颗粒度评价器,其步骤如下:
第一步:词性过滤,即去掉拆分词中不影响语义的词,如副词、助词等;
第二步:获取特征向量,压缩词向量长度,确定最大限度保留原意的向量长度,即特征项维度;
第三步:地址单元标准化,通过地址通名匹配,明确地址的各个层级;
第四步:分别将地名地址词向量和标准化地址单元传入到文本相似度评价器和地址颗粒度评价器。
更进一步地,步骤S3文本相似度评价器利用词向量计算技术,对照地名词谱,计算输入地址和检索结果的相似度,返回给综合评价器,其步骤如下:
第一步:将词汇组成的地名地址词向量映射到地名地址标准词汇集;
第二步:计算相似度特征Similarity,其计算公式如下
Similarity(wi,wd)=Max(f(wi,wd)) (1)
wd是标准词汇集中的向量,wi是输入文本的词向量,f(wi,wd)为计算wi,wd相似程度的函数。本方案取wi,wd的余弦值作为相似度;相似度特征Similarity取f(wi,wd)中最大值作为词语的相似度;
第三步:返回词相似度到综合评价器。
更进一步地,步骤S4地址颗粒度评价器基于地名地址标准模型,对标准化地址单元进行多删少补,计算输入地址的最小颗粒度指数,返回给综合评价器,其步骤如下:
第一步:根据关键字将被拆分的标准化地址单元映射到标准地址模型中的单元,本方案采用的标准地址模型如下:
<标准地址>::=<行政区域名称>[基本区域限定物名称][局部点位置描述]
其中:
<行政区域名称>::=<洲级><国家级><省级>[地区级]<县级>[乡级][行政村级]
<基本区域限定物名称>::=<街>|<巷>|<居民小区>|<自然村>
<局部点位置描述>::=<门(楼)址>|<标志物名>|<地名点名>
第二步:基于标准地址模型,将缺失的标准化地址单元进行补全,将多余的地址结构删除;
第三步:返回匹配到的最小地址颗粒度指数到综合评价器,最小颗粒度指数用于描述地址精细度的值,介于0到1之间,当匹配到<局部点位置描述>这一级别,最小颗粒度指数即为1,匹配到<基本区域限定物名称>,最小颗粒度指数为2/3,以此类推。
更进一步地,步骤S5综合评价器依照词向量相似度和地址最小颗粒度指数对检索结果给出评价,其步骤如下:
第一步:根据使用需要,确定评价方案指数计算公式,默认采用综合评价值=词余弦相似度×最小颗粒度指数;
第二步:按照第一步确定的公式计算综合评价值;
第三步:返回计算结果。
具体地,参见图1,图1描述了检索方法的整体结构,在接受地名地址输入后,地址检索引擎将检索结果返回给地址检索评价引擎;评价引擎将词特征向量发送给文本相似度评价器,将标准地址模型发送给地址颗粒度评价器;文本相似度评价器计算词余弦相似度返回给综合评价器,地址颗粒度评价器计算最小地址颗粒度返回给综合评价器;综合评价器依照上述两个参数给出检索质量评价结果。
(1)若检索人输入地址“浙江省杭州市西湖区保俶北路83号”,因为是标准地址,检索结果即为“浙江省杭州市西湖区保俶北路83号”,如图3,首先对检索结果进行智能分词处理,获取一个由词汇组成的向量。
(2)将词汇组成的向量映射到地名地址标准词汇集,相似度特征Similarity的计算方法如式(1)所示
Similarity(wi,wd)=Max(f(wi,wd)) (1)
wd是标准词汇集中的向量,wi是输入的词向量,f(wi,wd)为计算wi,wd相似程度的函数。本方案取wi,wd的余弦值作为相似度;相似度特征Similarity取f(wi,wd)中最大值作为词语的相似度,因为本例完全匹配,故文本相似度为1。
(3)地址解析补缺的步骤如图4,“浙江省杭州市西湖区保俶北路83号”是一个完整的标准地址结构,和标准结构对照,可得最小颗粒度为门牌号PD,最小颗粒度指数取1。
(4)综合(2)和(3)的结果,生成地址检索质量的评分结果,本例选用默认的质量评价公式为:综合评价值=词余弦相似度×最小颗粒度指数,计算出最后的评价值并返回,得出综合评价值为1,即检索结果为最佳结果。