CN104317909B - 兴趣点数据的校验方法和装置 - Google Patents
兴趣点数据的校验方法和装置 Download PDFInfo
- Publication number
- CN104317909B CN104317909B CN201410584006.8A CN201410584006A CN104317909B CN 104317909 B CN104317909 B CN 104317909B CN 201410584006 A CN201410584006 A CN 201410584006A CN 104317909 B CN104317909 B CN 104317909B
- Authority
- CN
- China
- Prior art keywords
- field
- incidence relation
- data
- poi data
- location
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例提供一种兴趣点数据的校验方法和装置,方法包括:获取不同数据来源格式的待校验兴趣点POI数据;提取所述POI数据中具有关联关系的不同的数据字段,并对其所具有的关联关系进行关联关系校验;将经过所述关联关系校验得到的校验结果进行输出。本发明的技术方案实现了对POI数据的校验,同时也有效提高了校验效率。
Description
技术领域
本发明涉及电子地图技技术领域,尤其涉及一种兴趣点数据的校验方法和装置。
背景技术
在电子地图中,有一类数据称为兴趣点(Point of Interest,POI)数据,是指在地图上人们感兴趣的地点数据,例如餐馆、公园、商场等建筑物的地理信息,或是一些街道的信息等等。通常,POI数据包括名称、地址、位置、类别等几个方面的信息,有时也会进一步包括其他辅助信息,例如电话、邮编等等。
POI数据的准确性决定着电子地图的整体质量,如果电子地图上记录了错误的POI数据,可能会导致很糟糕的用户体验。因此,对于通过各种方式或者渠道搜集到的POI数据,有必要做进一步的校验,以剔除错误的POI数据。除了人工校验之外,现有技术最常用的方案是通过程序编码来检查POI数据各字段的有效性和正确性,即针对每一个字段会预先编写一段逻辑代码以校验该字段的合法性。
然而,上述通过程序编码来检查字段的有效性和正确性只能针对各个字段的正确与否进行校验,而在实际的POI数据中即使是各自正确的数据字段其相互之间也可能需要满足一定的关联关系才能确定整个的POI数据是真正有效和正确的,而针对这种情况上述方法是无法校验的。
发明内容
本发明的实施例提供一种兴趣点数据的校验方法和装置,以实现对兴趣点数据进行校验。
为达到上述目的,本发明的实施例提供了一种兴趣点数据的校验方法,包括:
获取不同数据来源格式的待校验兴趣点POI数据;
提取所述POI数据中具有关联关系的不同的数据字段,并对其所具有的关联关系进行关联关系校验;
将经过所述关联关系校验得到的校验结果进行输出。
本发明的实施例还提供了一种兴趣点数据的校验装置,包括:
获取模块,用于获取不同数据来源格式的待校验兴趣点POI数据;
校验模块,用于提取所述POI数据中具有关联关系的不同的数据字段,并对其所具有的关联关系进行关联关系校验;
输出模块,用于将经过所述关联关系校验得到的校验结果进行输出。
本发明实施例提供的兴趣点数据的校验方法和装置,通过对不同数据来源格式的待校验兴趣点POI数据中具有关联关系的不同的数据字段进行关联关系校验,并将经过所述关联关系校验得到的校验结果进行输出,由此实现了一种对POI数据进行校验的方法,该方法有效提高了校验准确率。
附图说明
图1为本发明提供的兴趣点数据的校验方法一个实施例的方法流程图;
图2为本发明提供的兴趣点数据的校验装置一个实施例的结构示意图;
图3为本发明提供的兴趣点数据的校验装置另一个实施例的结构示意图。
具体实施方式
本发明的实施例通过对待校验的POI数据中具有关联关系的数据字段之间进行关联关系校验,并将经过所述关联关系校验得到的校验结果进行输出,以提高校验准确率。本发明实施例的技术方案可以适用于对不同来源的POI数据的校验测试。
实施例一
图1为本发明提供的兴趣点数据的校验方法一个实施例的方法流程图,该方法的执行主体可以为集成有数据处理功能的装置或服务系统平台。如图1所示,该兴趣点数据的校验方法具体包括:
S101,获取不同数据来源格式的待校验兴趣点POI数据;
本实施例中的待校验POI数据可以从现有的各个网站、网页中获取,如携程、百度、新浪等。由于待校验的POI数据的来源不同,现有的POI数据按数据来源格式划分主要可包括三种格式:文本格式(如txt文本文档)、JSON格式和XML格式。获取的POI数据所包含的数据字段内容也是较为丰富,除了包括常见名称、地址、位置、类别等几个方面的信息外,还可以进一步包括其他辅助信息,例如电话、邮编等等。
S102,提取POI数据中具有关联关系的不同的数据字段,并对其所具有的关联关系进行关联关系校验;
在获取的POI数据中,一些数据字段之间通常存在着某种关联关系。例如,地址字段中包含的地址与位置字段中包含的位置坐标是具有对应关系的;又如地址字段中包含的地址与附加信息如电话号码字段中包含的电话号码的归属地也是具有对应关系的。这两种对应关系均通过各自所属的地理位置形成关联关系。当然在现有POI数据中,还可能存在其他类型的关联关系数据字段,具体可通过进一步的数据挖掘获取这些关联关系,本方案在此不一一赘述。
通过提取POI数据中具有某种关联关系的不同数据字段,并对其所具有的关联关系进行校验,可以在各自数据字段内容正确的情况下进一步验证整条POI数据的正确性。如针对上述通过各自所属的地理位置形成关联关系的数据字段则可以进一步校验各数据字段内容指定的地理位置是否相同来判断他们之间的关联关系是否正确。
举例说明,在现有POI数据中,通常都会包括地址字段、位置字段和电话号码字段(前两个字段为固定字段,后一个为辅助信息字段)。其中,地址字段与位置字段、地址字段与电话号码字段之间分别存在关联关系。在分别提取出这两种具有关联关系的数据字段后,可对其关联关系进行如下校验过程:
针对地址字段与位置字段:可先根据地址字段内的具体内容从预先存储的地址-位置数据库中获取该地址所在省区的地理位置范围(区域坐标范围),并将该地理位置范围与所述地址字段所在的POI数据相对应;然后判断上述位置字段中的具体位置内容(位置坐标)是否包含在其所属POI数据对应所在省区的地理位置范围内;若所述位置字段中记载的位置包含在POI数据对应所在省区的地理位置范围内,则确定该地址字段与该位置字段之间具有的关联关系正确,关联关系校验通过。例如,根据位置字段的内容确定,该POI数据所在省区为河北,则将河北所在区域的坐标范围确定为该POI数据对应的其所在省区地理位置范围;然后将位置字段中的具体位置坐标与河北所在区域地理位置范围进行比较,若二者存在包含关系,则确定二者之间的关联关系成立,否则不成立。
针对地址字段与电话号码字段:可先根据电话号码字段内的具体内容从预先存储的电话号码-归属地数据库中获取该电话号码的归属地信息;然后判断该电话号码的归属地信息与上述地址字段内包含的地址是否一致;若一致,则确定上述地址字段与电话号码字段之间具有的关联关系成立,关联关系校验通过。
进一步的,为了便于对不同数据来源格式的POI数据进行校验,本实施例中还可以预先将用于上述关联关系校验的中间规则文件(如上述地址-位置数据、电话号码-归属地数据库)以多种不同的数据来源格式进行存储,从而针对不同数据来源格式的POI数据进行提取和校验;或者,还可以将获取的不同数据来源格式的POI数据预先转化为与已存储的中间规则文件相同的数据格式,从而针对不同数据来源格式的POI数据进行提取和校验。
可以理解的,上述关联关系校验方法的准确性还与各数据字段内具体内容的位置精度相关。在本实施例所述方法的思路支撑下,通过提高位置精度可进一步提高关联关系校验的准确性。
可选的,本实施例在采用关联关系对POI数据进行校验的过程中,还可以运用其他校验规则对POI数据的各数据字段进行校验,这些校验规则是根据对大量的有效的POI数据进行挖掘学习后形成的用于校验类似数据字段的通用规则。这些校验规则具体校验类型可以包括字段空校验、正则校验、数据类型校验、数据取值范围校验和语义校验,其中:
字段空校验—用于校验当前数据字段是否为空;
正则校验—用于校验当前数据字段内容是否符合预制的正则表达式;
数据类型校验—用于校验当前数据字段的数据格式是否符合预设要求的类型,具体包括:
基本类型校验,包括:整型、浮点型、字符串、数组的校验;
字符串全角半角校验;
数据取值范围校验—用于校验当前数据字段的数据范围是否符合预设要求的范围,具体包括:
整型和浮点型的最大最小值校验、枚举值校验;
字符串的字符串长度校验、枚举值校验;
数组的数组大小校验;
简单语义校验—用于校验当前数据字段的语义是否符合预设初步语义规范,具体包括:
关键字过滤校验,包括特殊情况的过滤校验,如过滤一些带有黄反字样的POI的数据字段;
关联关系校验,如当一条POI数据中数据字段A满足条件a,则数据字段B应满足条件b。
在针对每个数据字段进行校验的过程中,可以提取与该数据字段匹配的规则执行校验过程。例如,针对电话号码、邮编等包含固定位数的数字形式的数据字段,与其匹配的校验规则可以为上述数据类型校验、数据取值范围校验和正则校验;针对文字字符的数据字段,与其匹配的校验规则可以为数据类型校验和简单语义校验;而字段空校验的校验规则可与任何一种数据字段形成匹配关系。
进一步的,本实施例中,还可对上述校验规则库中的校验规则进行添加、删除、更改等管理操作,以更好的适应不同POI数据字段的校验要求。
S103,将经过关联关系校验得到的校验结果进行输出;
对待校验POI数据运用上述关联关系校验后,将校验结果进行输出。具体地,在校验结果中可以具体包括表示校验结果的结果标识和结果注释信息。例如表1为针对POI数据中地址字段与位置字段间关联关系的校验结果信息。其中,错误字段为校验的结果标识(如point_x,point_y错误),而错误数据和错误信息中则为结果注释信息。
表1地址字段与位置字段间关联关系的校验结果信息
可将前述通过步骤101~103执行的方法通过本地代码或者平台接口等方式实现为服务平台上的服务,从而用户应用可通过服务接口调用所述POI数据校验服务,如调用所述服务平台提供的其他服务一样,具有通用性。
本发明实施例提供的兴趣点数据的校验方法,通过获取的不同数据来源格式的待校验兴趣点POI数据;提取POI数据中具有关联关系的不同的数据字段,并对其所具有的关联关系进行关联关系校验;将经过关联关系校验得到的校验结果进行输出,从而实现了对POI数据的校验,有效提高了校验效率。本方案中重点通过对POI数据中的地址地段与位置字段、地址字段与电话号码字段之间的关联关系为例对POI数据进行校验,简单方便。同时,本方案也可为后续的进一步POI数据分析提供校验依据。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
实施例二
图2为本发明提供的兴趣点数据的校验装置一个实施例的结构示意图,可执行如图1所示方法步骤。如图2所示,该兴趣点数据的校验装置具体包括:获取模块21,校验模块22和输出模块23;其中:
获取模块21,用于获取不同数据来源格式的待校验兴趣点POI数据;
校验模块22,用于提取POI数据中具有关联关系的不同的数据字段,并对其所具有的关联关系进行关联关系校验;
输出模块23,用于将经过关联关系校验得到的校验结果进行输出。
进一步的,上述具有关联关系的不同的数据字段包括:地址字段与位置字段、地址字段与电话号码字段;如图3所示,在图2所示实施例的基础上,上述校验模块22具体包括:
提取单元221,用于提取POI数据中的地址字段与位置字段;
获取单元222,用于根据地址字段获取POI数据对应所在省区的地理位置范围;
确定单元223,用于若位置字段中记载的位置包含在POI数据对应所在省区的地理位置范围内,则确定地址字段与位置字段之间具有的关联关系正确,所述关联关系校验通过。
进一步的,在上述图3所示实施例中:
提取单元221,还用于提取POI数据中具有关联关系的地址字段与电话号码字段;
获取单元222,还用于获取电话号码字段中包含的电话号码的归属地信息;
确定单元223,还用于若电话号码字段中包含的电话号码的归属地信息与所述地址字段内包含的地址一致,则确定地址字段与电话号码字段之间具有的关联关系成立,所述关联关系校验通过。
进一步的,上述校验结果具体可以包括表示校验结果的结果标识和结果注释信息。
进一步的,上述POI数据的数据来源格式可以包括:文本格式、JSON格式和XML格式。
本发明提供的兴趣点数据的校验装置,通过获取的不同数据来源格式的待校验兴趣点POI数据;提取POI数据中具有关联关系的不同的数据字段,并对其所具有的关联关系进行关联关系校验;将经过关联关系校验得到的校验结果进行输出,从而实现了对POI数据的校验,有效提高了校验效率。本方案中重点通过对POI数据中的地址地段与位置字段、地址字段与电话号码字段之间的关联关系为例对POI数据进行校验,简单方便。同时,本方案也可为后续的进一步POI数据分析提供校验依据。。
进一步的,本方案采用的兴趣点数据的校验方法,在具体设置的校验规则中,还预先设置了多种不同数据格式的校验规则以作为关联关系校验的补充,从而在针对每个数据字段,在校验其正确和有效性时,能够更全面高效率的完成校验。
进一步的,可以将本发明提供的兴趣点数据的校验装置实现为服务平台上的服务,从而用户应用可通过服务接口调用所述POI数据校验服务,如调用所述服务平台提供的其他服务一样,具有通用性。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (8)
1.一种兴趣点数据的校验方法,其特征在于,所述方法包括:
获取不同数据来源格式的待校验兴趣点POI数据;
提取所述POI数据中具有关联关系的不同的数据字段,并对其所具有的关联关系进行关联关系校验;
将经过所述关联关系校验得到的校验结果进行输出;
其中,所述具有关联关系的不同的数据字段包括:地址字段与位置字段、地址字段与电话号码字段;
所述提取所述POI数据中具有关联关系的不同的数据字段,并对其所具有的关联关系进行关联关系校验,包括:
提取所述POI数据中的所述地址字段与位置字段;
根据所述地址字段获取所述POI数据对应所在省区的地理位置范围;
若所述位置字段中记载的位置包含在所述POI数据对应所在省区的地理位置范围内,则确定所述地址字段与所述位置字段之间具有的关联关系正确,所述关联关系校验通过。
2.根据权利要求1所述的方法,其特征在于,所述提取所述POI数据中具有关联关系的不同的数据字段,并对其所具有的关联关系进行关联关系校验,包括:
提取所述POI数据中具有关联关系的所述地址字段与电话号码字段;
获取所述电话号码字段中包含的电话号码的归属地信息;
若所述电话号码字段中包含的电话号码的归属地信息与所述地址字段内包含的地址一致,则确定所述地址字段与所述电话号码字段之间具有的关联关系成立,所述关联关系校验通过。
3.根据权利要求1或2所述的方法,其特征在于,所述校验结果包括表示校验结果的结果标识和结果注释信息。
4.根据权利要求3所述的方法,其特征在于,所述POI数据的数据来源格式包括:文本格式、JSON格式和XML格式。
5.一种兴趣点数据的校验装置,其特征在于,所述装置包括:
获取模块,用于获取不同数据来源格式的待校验兴趣点POI数据;
校验模块,用于提取所述POI数据中具有关联关系的不同的数据字段,并对其所具有的关联关系进行关联关系校验;
输出模块,用于将经过所述关联关系校验得到的校验结果进行输出;
其中,所述具有关联关系的不同的数据字段包括:地址字段与位置字段、地址字段与电话号码字段;所述校验模块具体包括:
提取单元,用于提取所述POI数据中的所述地址字段与位置字段;
获取单元,用于根据所述地址字段获取所述POI数据对应所在省区的地理位置范围;
确定单元,用于若所述位置字段中记载的位置包含在所述POI数据对应所在省区的地理位置范围内,则确定所述地址字段与所述位置字段之间具有的关联关系正确,所述关联关系校验通过。
6.根据权利要求5所述的装置,其特征在于,
所述提取单元,还用于提取所述POI数据中具有关联关系的所述地址字段与电话号码字段;
所述获取单元,还用于获取所述电话号码字段中包含的电话号码的归属地信息;
所述确定单元,还用于若所述电话号码字段中包含的电话号码的归属地信息与所述地址字段内包含的地址一致,则确定所述地址字段与所述电话号码字段之间具有的关联关系成立,所述关联关系校验通过。
7.根据权利要求5或6所述的装置,其特征在于,所述校验结果包括表示校验结果的结果标识和结果注释信息。
8.根据权利要求7所述的装置,其特征在于,所述POI数据的数据来源格式包括:文本格式、JSON格式和XML格式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410584006.8A CN104317909B (zh) | 2014-10-27 | 2014-10-27 | 兴趣点数据的校验方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410584006.8A CN104317909B (zh) | 2014-10-27 | 2014-10-27 | 兴趣点数据的校验方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104317909A CN104317909A (zh) | 2015-01-28 |
CN104317909B true CN104317909B (zh) | 2018-09-28 |
Family
ID=52373141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410584006.8A Active CN104317909B (zh) | 2014-10-27 | 2014-10-27 | 兴趣点数据的校验方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104317909B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104866542B (zh) * | 2015-05-05 | 2018-07-06 | 腾讯科技(深圳)有限公司 | 一种poi数据验证方法和装置 |
CN104933171B (zh) * | 2015-06-30 | 2019-06-18 | 百度在线网络技术(北京)有限公司 | 兴趣点数据关联方法和装置 |
CN106407189A (zh) * | 2015-07-27 | 2017-02-15 | 中兴通讯股份有限公司 | 一种业务数据关联关系校验方法和装置 |
CN107203547B (zh) * | 2016-03-17 | 2020-04-14 | 高德软件有限公司 | 兴趣点信息的审核方法和装置 |
CN107291721B (zh) * | 2016-03-30 | 2020-10-16 | 阿里巴巴(中国)有限公司 | 一种兴趣点的信息采集与处理方法、装置及系统 |
CN109344209A (zh) * | 2018-08-20 | 2019-02-15 | 中国平安人寿保险股份有限公司 | 一种基于大数据的地址测试方法及终端设备 |
CN109446433B (zh) * | 2018-12-24 | 2021-02-05 | 北京百度网讯科技有限公司 | 一种兴趣点失效校验方法、装置、服务器及存储介质 |
CN110046491B (zh) * | 2019-03-05 | 2022-09-09 | 北京达佳互联信息技术有限公司 | 密保问题的校验方法、装置、电子设备及存储介质 |
CN112559663B (zh) * | 2020-12-15 | 2024-03-08 | 北京百度网讯科技有限公司 | Poi数据处理方法、装置、设备、存储介质和程序产品 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101350154A (zh) * | 2008-09-16 | 2009-01-21 | 北京搜狗科技发展有限公司 | 一种电子地图数据的排序方法及装置 |
WO2009098030A2 (de) * | 2008-02-04 | 2009-08-13 | Navigon Ag | Navigationsgerät mit zeitabhängiger poi-darstellung |
CN103064909A (zh) * | 2012-12-19 | 2013-04-24 | 武汉虹翼信息有限公司 | 一种基于Drools规则引擎的基站数据库核查方法 |
-
2014
- 2014-10-27 CN CN201410584006.8A patent/CN104317909B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009098030A2 (de) * | 2008-02-04 | 2009-08-13 | Navigon Ag | Navigationsgerät mit zeitabhängiger poi-darstellung |
CN101350154A (zh) * | 2008-09-16 | 2009-01-21 | 北京搜狗科技发展有限公司 | 一种电子地图数据的排序方法及装置 |
CN103064909A (zh) * | 2012-12-19 | 2013-04-24 | 武汉虹翼信息有限公司 | 一种基于Drools规则引擎的基站数据库核查方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104317909A (zh) | 2015-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104317909B (zh) | 兴趣点数据的校验方法和装置 | |
US11151179B2 (en) | Method, apparatus and electronic device for determining knowledge sample data set | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN104216876B (zh) | 信息文本过滤方法及系统 | |
CN103473289A (zh) | 一种通信地址补全的装置及方法 | |
CN105893524B (zh) | 一种智能问答方法及装置 | |
CN108304423A (zh) | 一种信息识别方法及装置 | |
CN104750795A (zh) | 一种智能语义检索系统和方法 | |
CN103457975B (zh) | 获取地图兴趣点评价数据的方法和装置 | |
CN103246645A (zh) | 一种翻译方法和翻译系统 | |
CN103902269B (zh) | 一种通过xml文件生成mib文件的系统及方法 | |
CN108268368A (zh) | 一种生成测试用例脚本的方法和装置 | |
CN107102993A (zh) | 一种用户诉求分析方法和装置 | |
CN105095091B (zh) | 一种基于倒排索引技术的软件缺陷代码文件定位方法 | |
CN109710949A (zh) | 一种翻译方法及翻译机 | |
CN106202034A (zh) | 一种基于依存约束和知识的形容词词义消歧方法和装置 | |
CN101477565B (zh) | 确定搜索引擎中输入字符串正确性的方法及装置 | |
CN110321285A (zh) | 测试用例处理方法及相关设备 | |
CN116414823A (zh) | 一种基于分词模型的地址定位方法和装置 | |
CN107609032B (zh) | 一种匹配方法及电子设备 | |
Zhang et al. | Towards llm-based fact verification on news claims with a hierarchical step-by-step prompting method | |
CN106570095B (zh) | 一种xml数据的操作方法及设备 | |
CN103823809A (zh) | 一种对查询短语分类的方法、分类优化的方法及其装置 | |
CN106528419A (zh) | 一种业务系统的测试方法及装置 | |
CN104050156B (zh) | 用于提取最大名词短语的装置、方法以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |