CN101299217A

CN101299217A - 一种地图信息处理的方法、装置和系统

Info

Publication number: CN101299217A
Application number: CNA200810114464XA
Authority: CN
Inventors: 刘珊瑞; 张阔; 茹立云
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2008-06-06
Filing date: 2008-06-06
Publication date: 2008-11-05
Anticipated expiration: 2028-06-06
Also published as: CN101299217B

Abstract

本发明公开了一种地图信息处理的方法，包括：将同一网页锚文本集合中的多个元素两两配对，得到匹配对；去除锚文本集合中的行政区划名称；根据所述匹配对的相似度，选择候选全简称匹配对；利用分词去除所述候选全简称匹配对中存在的前、后缀后，将通过预设阈值条件筛选的匹配对输出。还公开了一种地图信息处理的装置和系统。利用本发明可以自动建立全称与简称的匹配关系，充分利用已有的兴趣点数据，提高搜索的匹配效率和用户体验度。

Description

一种地图信息处理的方法、装置和系统

技术领域

本发明涉及网络技术领域，特别是涉及一种地图信息处理的方法、装置和系统。

背景技术

各种地名的缩略语在日常生活中被广泛地采用，是由于缩略语很好的符合语言的经济性原则。然而，在地名全称到简称之间，并不存在统一的对应正是因为如此，目前的地图搜索引擎不能自动处理全称简称之间的对应关系，这就造成了大量地图数据的浪费，并进而影响用户体验度。例如：

在搜狗、百度、Google地图中分别输入关键词：

北京理工大学效果：有北京理工大学对应的位置。

北理效果：返回数据中无正确结果，北京理工大学这条数据就被浪费。

现有技术中至少存在如下问题：

目前搜索引擎不能自动的处理全简称的对应关系，这项工作只能依靠人工添加全称与简称与之间的对应关系的方式来实现。这样将耗费大量的人力，而且如果一旦存在遗漏，就会造成覆盖不到的情况。也就是说，由于现有的搜索引擎无法自动获取地名的全称与简称的对应关系，会导致以下不足：

1.POI(Point of Interest，兴趣点)数据大量浪费：数据库中大部分POI数据的名称字段存储的是该地点对应的全称，因此若用户使用地点的简称进行查询就很可能找不到任何结果。这就造成了大量POI数据的浪费。

2.用户体验差：若用户使用地点的简称进行查询，很可能无法获得想要的查询结果，用户会认为该引擎的数据较少，对搜索引擎的评价降低。

发明内容

有鉴于此，本发明一个或多个实施例的目的在于提供一种地图信息处理的方法、装置和系统，以实现自动建立地名的全称与简称的对应关系，使得用户可以直接根据地名的简称搜索得到其感兴趣的数据。

为解决上述问题，本发明实施例提供了一种地图信息处理的方法，包括：

将同一网页锚文本集合中的多个元素两两配对，得到匹配对；

去除锚文本集合中的行政区划名称；

根据所述匹配对的相似度，选择候选全简称匹配对；

利用分词去除所述候选全简称匹配对中存在的前、后缀后，将通过预设阈值条件筛选的匹配对输出。

还公开了一种地图信息处理的装置，包括：

匹配单元，用于将同一网页锚文本集合中的多个元素两两配对，得到匹配对；

第一去除单元，用于去除锚文本集合中的行政区划名称；

第一选择单元，用于根据所述匹配对的相似度，选择候选全简称匹配对；

第二去除单元，利用分词去除所述候选全简称匹配对中存在的前、后缀；

第二选择单元，用于将通过预设阈值条件筛选的匹配对输出。

还公开了一种地图信息处理的系统，包括本发明任一项装置实施例中所公开的装置。

与现有技术相比，本发明实施例具有以下优点：

本发明实施例通过将同一网页锚文本集合中的多个元素两两配对，得到匹配对；去除锚文本集合中的行政区划名称；根据所述匹配对的相似度，选择候选全简称匹配对；利用分词去除所述候选全简称匹配对中存在的前、后缀后，将符合预设阈值条件的数据输出。从而实现了：

首先，通过将锚文本集合中的多个元素两两配对，可以根据匹配对的相似度，作为全称与简称之间相关性高低的参照。

其次，通过利用分词去除候选全简称匹配对中存在的前、后缀，使得建立的全称与简称的对应关系更加准确。也扩大了全简称匹配关系的适用范围，比如：(科技大学，科大)，可以同时覆盖(北京科技大学，北科大)，(南京科技大学，南科大)。

再次，能够充分利用已有的兴趣点数据，通过建立绝大多数的地名全称与简称的对应关系，可以同时使用查询串的全称和简称进行查询并将返回的结果叠加，解决了兴趣点数据浪费问题。并且相对人工建立全简称匹配关系的方法，自动获取匹配对既节省了时间和成本，又有效扩大了匹配对的覆盖范围。

最后，基于上述优点，明显地提高了用户的体验度。

附图说明

图1所示，是本发明的方法的实施例一的流程图；

图2所示，是本发明的方法的实施例二的流程图；

图3所示，是本发明的装置的实施例一的框图；

图4所示，是本发明的系统的实施例一的框图。

具体实施方式

下面结合附图对本发明具体实施方式做进一步的详细阐述。

首先介绍一本发明中使用的主要名词：

超链接对应的Anchor(Anchor：锚文本)：

超链接中用于对链接对象进行描述的文字串称为其对应的Anchor。如超链接搜狐对应的Anchor文本为搜狐。

网页对应的Anchor集合：

假设N个不同的网页中存在指向同一个网页A的N个超链接，而网页A与跟单位相关，则将超链接1到N对应的N个Anchor组成的集合，称为网页A对应的Anchor集合，网页A中的Anchor集合很可能同时包含该单位对应的全称和简称。

Anchor的点击次数：

假设anch是网页A对应Anchor集合中的任一元素，anch的点击次数等于所有用户使用anch作为关键词在搜索引擎上进行搜索，并打开网页A的次数。(anch的点击次数通过对搜索引擎的日志文件进行分析得出)

地图的POI数据：(POI：Point of Interest，兴趣点)

地图搜索引擎使用的地点数据称为POI(兴趣点)数据，一条POI数据包括了该地点对应的名称、类别、经纬度，以及地址信息。

地名相关的全简称匹配对：

由某地名的全称和简称共同组成的对应关系，并且我们假设简称的长度总是小于全称的长度。例如：北京大学的简称北大。

小粒度的全简称模板：

去除公共前后缀以后的全称串和简称串，如：

全简称匹配对	对应的小粒度模板
全简称匹配对	对应的小粒度模板	北京大学医学部	北京大学
北大医学部	北大	北京大学医学部	北京大学

参考图1所示，是本发明的方法的实施例一，包括步骤：

步骤101、将同一网页锚文本集合中的多个元素两两配对，得到匹配对；

步骤102、去除锚文本集合中的行政区划名称；如果直接在锚文本集合当中去除行政区划名称，会导致类似于(四川大学，川大)这样的匹配对丢失，所以需要先配对，之后根据匹配对具体情况再去除行政区划名称；

步骤103、根据所述匹配对的相似度，选择候选全简称匹配对；

步骤104、利用分词去除所述候选全简称匹配对中存在的前、后缀后，将通过预设阈值条件筛选的匹配对输出。

其次，通过利用分词去除候选全简称匹配对中存在的前、后缀，使得建立的全称与简称的对应关系更加准确。

最后，基于上述优点，明显地提高了用户的体验度。

其中，上述实施例中，在所述匹配之前，还包括：

从所述锚文本集合去除与地名无关网页的锚文本集合。

其中，在上述实施例中，从所述锚文本集合去除与地名无关网页的锚文本集合具体为：

抽取所有已有的兴趣点名称后缀，建立关键字列表；

根据所述关键字列表，去除与地名无关网页的锚文本集合。

其中，上述实施例中，所述行政区划包括：省、自治区、市、县、乡、村、街道、区、行署、特别行政区。

其中，上述实施例中，所述根据所述匹配对的相似度，选择候选全简称匹配对具体为：

使用相似度函数进行筛选，将筛选得到的匹配对作为候选全简称匹配对。在实际运用中，可以使用的相似度函数可以有多种，并且还可以根据具体情况进行相似度函数的加权设计，本发明的实施例还可以采用像Jaccard相似度：

S = \frac{| X \cap Y |}{| X \cup Y |}

也可以采用编辑距离的相似度函数：

S = \sqrt{| X |} \times \sqrt{| Y |} - Edit (X, Y) / \sqrt{| X |} \times \sqrt{| Y |}

这是两种现成的相似度衡量方法，使用时相似度函数可能会通过一定规则进行加权(即使用多种相似度函数)。这都可以用来实现本发明的发明目的，使用相似度函数进行筛选包括以下内容：可以选择使用一种相似度函数进行筛选，或使用多种相似度函数进行加权后再进行筛选，这都应该在本发明的保护范围之内。

其中，上述实施例中，所述相似度函数具体为：

其中，上述实施例中，所述将通过预设阈值条件筛选的匹配对输出具体为：

对于所述去除前、后缀的所述候选全简称匹配对，将出现次数和/或，点击次数超过预设第一阈值的数据，作为全简称匹配对输出；和/或，

对于所述去除前、后缀的所述候选全简称匹配对，将候选全简称匹配对中文字出现的分散程度低于预设第二阈值的数据，作为全简称匹配对输出。

其中，上述实施例中，在所述输出数据之后，还包括：

将用户输入进行分词处理；

如果存在与所述分词相对应的全称匹配对，则输出所述全称匹配；

如果存在与所述分词相对应的简称匹配对，则输出所述简称匹配对。

输出包括以下两个部分内容：(结合例子-输入串：北京大学教务处)

查询串的分词结果(即：“北京大学”、“教务处”两个词)

分词后的每个词对应的全称或简称(即：“北大”)

因此针对输入串“北京大学教务处”，搜索引擎将根据“北京大学”、“北大”，“教务处”三个查询词进行检索后的网页输出。如果用户输入分词为简称，此时就会输出与简称相对应的全称匹配对，反之，如果用户输入分词为全称，则会存在与其对应的简称匹配对，此时就会输出与全称相对应的简称匹配对。

参考图2所示，是本发明的方法的实施例二，本实施例中以网页1-3为基础，说明本实施例的实现过程。

网页1包括以下内容：

小螺号；86小螺号；小螺号music；小螺号童声合唱金色童年；小螺号程琳中国歌坛明星集；小螺号健康舒适漂亮娃哈哈童装

网页2包括以下内容：

云南省；发改计委；省发改委；云南发改委；云南省发改委；省发展改革委；省发展和改革委；发展改革委员会；云南省发展和改；云南价格信息网；省发展改革委员会；云南省发展改革委；云南省发展改革办；省发展和改革委员会；云南省发展和改革委；云南省发展改革委员会；云南省发展和改革委员会；云南省发展与改革委员会；云南省发展和改革委员会网站

网页3包括以下内容：

四川大学；四川大学就业网；川大就业；川大就业网；川大就业信息；四川大学就业中心；四川大学毕业生就业网；四川大学毕业生就业网欢迎你

A.预处理模块

预处理模块对包含网页Anchor集合的原始数据进行了预处理，有效的提高了原始数据的质量，大大减少了后续操作中的数据量。但针对不同的数据集，预处理的方法可能不太相同。本发明中采用以下预处理方法：

步骤201、在原始数据中去除与地名无关网页的Anchor集合；

抽取所有已有的POI名称后缀建立关键字列表，并以此为基础进行地名无关数据的滤除，这一步大大减少了后续处理的工作量。在本实施例所举例的数据集中，可以将需要处理的数据量减少了97％。此步骤在实际运用中可以根据数据源的不同，作为优选的步骤采用。

经过步骤1后，网页1对应的Anchor集合被过滤掉，网页2、网页3对应Anchor集合保留：

网页2：

网页3：

步骤202、将同一网页Anchor集合中的多个元素两两配对，并去除大量出现在Anchor文本头部的城市名称，对于农村或其他地方的网页文件，可以去除Anchor文本头部的行政区划名称，如街道、镇或村等；

一个网页通常对应多个(大于2个)Anchor文本，为了从中提取出一一对应的全简称匹配关系，我们需要将同一网页对应的多个Anchor两两配对，并在后续步骤中逐步判断每个匹配对的正确性。

另一方面，经过第一次过滤后，数据中大量出现以省、市、区、县名称开头的Anchor，为了提高数据的质量，我们对这种前缀进行了过滤。

过滤后的网页成为：

网页2：

(发展改革委员会，发改委)；(发展和改革委员会，发改委)；(发展和改革委员会网站，省发改委)；(价格信息网，发改委)......

网页3：

(四川大学，川大就业)；(川大就业网，四川大学)；(四川大学毕业生就业网，四川大学)；(四川大学就业网，川大就业网)；(四川大学就业中心，川大就业信息)；......需要指出的是，由于网页3的特殊性，虽然“四川”实际上也是行政区划名称，但是在此处应当保留(简称中第一个字包含在全称开头的行政区划当中)。

步骤203、通过相似度函数进行筛选，获取相似度较好的匹配对作为候选的全简称匹配对。

本发明设计了相似度函数F来评价匹配对中全简称的相似性。同时，我们选定阈值，对于F值大于阈值的匹配对，我们认为其中的全称和简称字符串之间存在一定的相似关系，应当予以保留；反之我们认为匹配对是错误的，应当被去除，这一步有效的提升了匹配对的正确率。对于相似函数的不同设计以及阈值的不同，应该被保护在本发明的范围之内，不能构成与本发明的本质区别。

相似度函数：

相似度函数有很多种设计方法，可以根据实际需要进行设计，在本实施例中，可以使用下述相似度函数：

例如，全称是：北京大学，简称：北大，F＝2/2＝1)；全称是：北京大学，简称：图书馆，F＝0/3＝0)

通过相似度函数进行筛选，获取相似度较好的匹配对作为候选的全简称匹配对。

通过此步骤，使得部分相似度差的匹配对被滤除，如：(价格信息网，发改委)，(四川大学就业中心，川大就业信息)等。剩余数据如下：

网页2：

(发展改革委员会，发改委)；(发展和改革委员会，发改委)；(发展和改革委员会网站，省发改委)；(发展改革办，发改委)......

网页3：

(四川大学，川大就业)；(川大就业网，四川大学)；(四川大学毕业生就业网，四川大学)；(四川大学就业网，川大就业网)；(四川大学就业中心，川大就业信息)；......

B.小粒度模板对提取模块

步骤204、小粒度模板对提取模块利用分词去除候选全简称匹配对中存在的前后缀，用于获得更小粒度的模板对，有效的扩大了所得模板对的适用范围，同时增加了匹配对的准确性。

分词是指以词典为基础，可按照一定的歧义处理规则把输入的字符串剖分成词典中出现的词。常见的歧义处理规则有最少词等。仅采用不同的分词算法不能作为区别本发明的依据。

经过预处理后得到的全简称匹配对颗粒度较大，也就是说全简称串中可能包含相同的无用前后缀。当然，有些情况下，也可以其无用的前后缀不一定相同，比如(北京大学图书馆，北大)，这本身是错误的匹配对，但是应用前后缀去除规则后，该匹配对变为(北京大学，北大)，此时匹配对正确，应当予以保留。为了抽取出小粒度的模板对，我们需要将这些前后缀去除，举例如下：

如：(发展和改革委员会网站，省发改委)，(四川大学就业网，川大就业网)，经过处理后变为：(发展和改革委员会，发改委)，(四川大学，川大)，此时会出现大量重复数据。经过此步骤之后数据变为：

网页2：

(发展改革委员会，发改委)；(发展和改革委员会，发改委)；(发展和改革委员会，发改委)；(发展改革办，发改委)......

网页3：

(四川大学，川大)；(四川大学，川大)； (四川大学，川大)；......

C.过滤输出模块

经过以上几步处理，结果中已经包含了大量的小粒度全简称模板对，但此时的数据中仍包含大量的错误匹配信息。因此需要通过分析模板对数据，设计评价函数和阈值进行最后的正确性筛选。

在本发明中，我们设计了两个评价函数如下：

F1：用于衡量全简称模板对重复出现的次数。

F2：衡量模板对简称串中的文字在全称串中出现位置的分散程度。

步骤205、利用评价函数控制输出数据的召回率和准确率。

最终，通过设定阈值，我们可以对输出数据的召回率和准确率两个指标进行控制。

在这一步中，设计了两个评价函数F1和F2，其中：

F1衡量简称串中的文字出现在全称串中的分散程度。

例如，对于匹配对(发展和改革委员会，发改委)

发、改、委三个字在全程串中出现的位置分别为1、4、6，可以认为其分散程度较好，F1较大。

另一个例子，对于匹配对(北京大学教务处，教务处)

教、务、处三个字在全程串中挤在一起，因此可以认为分散程度较差，F1较小。

F2衡量匹配对的可信程度。

全、简称串的点击次数和出现次数越多，说明该匹配对可信程度越高(其指代的内容能够被网民所理解并被网页广泛使用)

F2即根据此原则设计。

本系统对匹配对的评价函数F1和F2设定两个不同的阈值，可以看出：

若将F1的阈值提高，过滤出的匹配对分散程度较好。

若将F2的阈值提高，过滤出的匹配对正确度较高。

但是以上两个阈值的提高都会导致模板个数减少(许多正确的匹配对被过滤掉，比如“清华大学”，“清华”)

为了尽量多的保留正确的匹配对，本系统中设定了一些规则，比如，若某匹配对的F2值特别高，就可以放松对其F1的要求。举例：(“清华大学”，“清华”)，这个匹配对出现次数特别高，因此对F2的要求降低，这样匹配对就会被保留下来。

也就是说，通过调整F1、F2的阈值，并添加一些规则，可以调整结果的召回率(匹配对的覆盖面是否广泛)和准确率。

处理后的网页2变成：

(发展改革委员会，发改委)；(发展和改革委员会，发改委)

处理后的网页3变成：

(四川大学，川大)

因此，经过以上步骤，可以从原始的3个网页Anchor集合中获取两个全简称匹配关系：(发展改革委员会，发改委)，(发展和改革委员会，发改委)，(四川大学，川大)。

参考图3所示，是本发明的装置的实施例一，包括：

匹配单元301，用于将同一网页锚文本集合中的多个元素两两配对，得到匹配对；

第一去除单元302，用于去除锚文本集合中的行政区划名称；

第一选择单元303，用于根据所述匹配对的相似度，选择候选全简称匹配对；

第二去除单元304，用于利用分词去除所述候选全简称匹配对中存在的前、后缀；

第二选择单元305，用于将通过预设阈值条件筛选的匹配对输出。

本发明实施例通过匹配单元301，将同一网页锚文本集合中的多个元素两两配对，得到匹配对；第一去除单元302，去除锚文本集合中的行政区划名称；第一选择单元303，根据所述匹配对的相似度，选择候选全简称匹配对；第二去除单元304，用于分词去除所述候选全简称匹配对中存在的前、后缀；第二选择单元305，用于将通过预设阈值条件筛选的匹配对输出。从而实现了：

最后，基于上述优点，明显地提高了用户的体验度。

其中，上述实施例中，还可以包括：

第三去除单元，用于在所述匹配之前，从所述锚文本集合去除与地名无关网页的锚文本集合。

使用相似度函数对所述匹配对进行筛选，将筛选得到的匹配对作为候选全简称匹配对。

其中，上述实施例中，在所述输出数据之后，还包括：

将用户输入进行分词处理；

如果存在与所述分词相对应的简称匹配对，则输出所述简称匹配对。从而实现对于用户输入的分词为全称时，输出其简称匹配对；对于用户输入的分词为简称时，输出其全称匹配对。

其中，上述实施例中，从所述锚文本集合去除与地名无关网页的锚文本集合具体为：

抽取所有已有的兴趣点名称后缀，建立关键字列表；

根据所述关键字列表，去除与地名无关网页的锚文本集合。

其中，上述实施全名，所述相似度函数具体为：

参考图4所示，是本发明的地图信息处理的系统，包括本发明的任一个装置实施例中的地图信息处理装置401。

本发明的系统实施例具有与各个对应的方法和装置实施例相类似的处理过程和技术效果，不再重复。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件方式来实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述的本发明实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1、一种地图信息处理的方法，其特征在于，包括：

去除锚文本集合中的行政区划名称；

根据所述匹配对的相似度，选择候选全简称匹配对；

2、如权利要求1所述的方法，其特征在于，在所述匹配之前，还包括：

从所述锚文本集合去除与地名无关网页的锚文本集合。

3、如权利要求1所述的方法，其特征在于，所述行政区划包括：省、自治区、市、县、乡、村、街道、区、行署、特别行政区。

4、如权利要求1所述的方法，其特征在于，所述根据所述匹配对的相似度，选择候选全简称匹配对具体为：

使用相似度函数进行筛选，将筛选得到的匹配对作为候选全简称匹配对。

5、如权利要求1所述的方法，其特征在于，所述将通过预设阈值条件筛选的匹配对输出具体为：

对于所述去除前、后缀的所述候选全简称匹配对，将出现次数函数和/或，点击次数函数超过预设第一阈值的数据，作为全简称匹配对输出；和/或，

6、如权利要求1所述的方法，其特征在于，在所述输出数据之后，还包括：

将用户输入进行分词处理；

7、如权利要求2所述的方法，其特征在于，从所述文本集合去除与地名无关网页的锚文本集合具体为：

抽取所有已有的兴趣点名称后缀，建立关键字列表；

根据所述关键字列表，去除与地名无关网页的锚文本集合。

8、如权利要求4所述的方法，其特征在于，所述相似度函数具体为：

9、一种地图信息处理的装置，其特征在于，包括：

第一去除单元，用于去除锚文本集合中的行政区划名称；

第二去除单元，用于分词去除所述候选全简称匹配对中存在的前、后缀；

10、如权利要求9所述的装置，其特征在于，还包括：

11、如权利要求9所述的装置，其特征在于，所述行政区划包括：省、自治区、市、县、乡、村、街道、区、行署、特别行政区。

12、如权利要求9所述的装置，其特征在于，所述根据所述匹配对的相似度，选择候选全简称匹配对具体为：

13、如权利要求9所述的装置，其特征在于，所述将通过预设阈值条件筛选的匹配对输出具体为：

14、如权利要求9所述的装置，其特征在于，在所述输出数据之后，还包括：

将用户输入进行分词处理；

15、如权利要求10所述的装置，其特征在于，从所述锚文本集合去除与地名无关网页的锚文本集合具体为：

抽取所有已有的兴趣点名称后缀，建立关键字列表；

根据所述关键字列表，去除与地名无关网页的锚文本集合。

16、如权利要求13所述的装置，其特征在于，所述相似度函数具体为：

17、一种地图信息处理的系统，其特征在于，包括如权利要求9-16任一项所述的装置。