CN106886532A - 基于权威网页验证poi数据准确性的方式及装置 - Google Patents

基于权威网页验证poi数据准确性的方式及装置 Download PDF

Info

Publication number
CN106886532A
CN106886532A CN201510943377.5A CN201510943377A CN106886532A CN 106886532 A CN106886532 A CN 106886532A CN 201510943377 A CN201510943377 A CN 201510943377A CN 106886532 A CN106886532 A CN 106886532A
Authority
CN
China
Prior art keywords
web pages
url
poi data
authoritative web
poi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510943377.5A
Other languages
English (en)
Inventor
王智广
魏少俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510943377.5A priority Critical patent/CN106886532A/zh
Publication of CN106886532A publication Critical patent/CN106886532A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种基于权威网页验证POI数据准确性的方式及装置,包括:获取互联网中的多个首页的统一资源定位符;对多个首页的统一资源定位符进行聚类处理;基于聚类结果从多个首页中确定权威网页;基于权威网页,对待验证的多个POI数据进行准确性验证,以确定任一POI数据的准确性。本发明的技术方案解决了如何判断在互联网中收集到的POI数据的准确性的问题。通过可靠来源的权威网页的地址及名称数据来验证待验证的多个POI数据的准确性,大大提高了验证多个POI数据准确性的效。进一步地,可通过验证结果对POI数据进行筛选,并提高基于准确的POI数据的来提供服务的产品服务水准,增加使用这些产品的用户的体验。

Description

基于权威网页验证POI数据准确性的方式及装置
技术领域
本发明涉及计算机技术领域,具体而言,本发明涉及基于权威网页验证POI数据准确性的方式及装置。
背景技术
一个POI(Point Of Interest,兴趣点)在地理信息系统中可以是一栋房子、一个商铺、一个邮筒、一个公交站等。POI数据通常包括地址信息和名称信息。传统的POI数据采集方法,需要技术人员通过精密的测绘仪器去人工获取POI的经纬度信息并标记下来,这种方法消耗的人力和时间成本较高,导致通过人工采集得到的POI数据的数量较少。
互联网上存在着大量的包含POI数据的网页,如果从网页中提取出POI数据供地理信息系统使用而非人工测量,则会大大节省人力和时间成本。但是,由于存在地址或名称已变更而网页未能及时维护更新,或个人用户上传低可靠性的信息,互联网中获取POI数据准确性较低,导致通过互联网获取的POI数据与实际地理位置不相符,准确性较低。
因此,如何提高在互联网中收集POI数据的准确性是亟待解决的问题。
发明内容
本发明针对现有技术的缺点,提出一种基于权威网页验证POI数据准确性的方式和装置,用以解决现有技术存在的收集较多虚假的POI数据问题。
本发明根据一个方面,提供了一种基于权威网页验证POI数据准确性的方式,包括:
获取互联网中的多个首页的统一资源定位符;
对所述多个首页的统一资源定位符进行聚类处理;
基于聚类结果从所述多个首页中确定权威网页;
基于所述权威网页,对待验证的多个POI数据进行准确性验证,以确定任一POI数据的准确性。
优选地,对所述多个首页的统一资源定位符进行聚类,具体包括:
提取各个首页的统一资源定位符对应的主域;
将对应同一主域的统一资源定位符聚合为同一类。
优选地,基于聚类结果从所述多个首页中确定权威网页,具体包括:
若属于同一类的多个统一资源定位符的数量小于第一预定阈值,则从多个统一资源定位符对应的多个首页中选择用户关注度最高的首页作为权威网页。
优选地,所述用户关注度通过以下至少任一项来确定:
首页的平均访问量;
每次访问的平均浏览时长。
优选地,基于聚类结果从所述多个首页中确定权威网页,具体包括:
若属于同一类的多个统一资源定位符的数量大于第二预定阈值,则将该类中的多个统一资源定位符对应的多个首页均确定为权威网页。
优选地,基于所述权威网页,对待验证的多个POI数据进行准确性验证,以确定任一POI数据的准确性,具体包括:
提取所述权威网页中包括地址信息及名称信息的名称地址对;
将所述待验证的多个POI数据与所述名称地址对进行一一比对;
当任一POI数据包括的地址信息及名称信息与所述名称地址对相匹配时,确定该POI数据为准确的POI数据。
优选地,将所述待验证的多个POI数据与所述名称地址对进行一一比对,包括:
对所述待验证的多个POI数据的地址信息与所述名称地址对中的地址信息进行归一化处理,将其分别转化为所述待验证的多个POI数据的经纬度信息及所述名称地址对的经纬度信息;
将待验证的多个POI数据的经纬度信息及名称信息,与所述名称地址对的经纬度信息及名称信息进行一一比对。
本发明根据另一个方面,提供了一种基于权威网页验证POI数据准确性的装置,包括:
定位符获取模块,用于获取互联网中的多个首页的统一资源定位符;
聚类处理模块,用于对所述多个首页的统一资源定位符进行聚类处理;
权威网页确定模块,用于基于聚类结果从所述多个首页中确定权威网页;
准确性验证模块,用于基于所述权威网页,对待验证的多个POI数据进行准确性验证,以确定任一POI数据的准确性。
优选地,所述聚类处理模块具体包括:
主域提取单元,用于提取各个首页的统一资源定位符对应的主域;
聚合单元,用于将对应同一主域的统一资源定位符聚合为同一类。
优选地,所述权威网页确定模块具体用于:若属于同一类的多个统一资源定位符的数量小于第一预定阈值,则从多个统一资源定位符对应的多个首页中选择用户关注度最高的首页作为权威网页。
优选地,所述用户关注度通过以下至少任一项来确定:
首页的平均访问量;
每次访问的平均浏览时长。
优选地,所述权威网页确定模块具体用于:若属于同一类的多个统一资源定位符的数量大于第二预定阈值,则将该类中的多个统一资源定位符对应的多个首页均确定为权威网页。
优选地,所述准确性验证模块具体包括:
第一提取单元,用于提取所述权威网页中包括地址信息及名称信息的名称地址对;
第一比对单元,用于将所述待验证的多个POI数据与所述名称地址对进行一一比对;
数据确定单元,用于当任一POI数据包括的地址信息及名称信息与所述名称地址对相匹配时,确定该POI数据为准确的POI数据。
优选地,所述第一比对单元包括:
归一化子单元,用于对所述待验证的多个POI数据的地址信息与所述名称地址对中的地址信息进行归一化处理,将其分别转化为所述待验证的多个POI数据的经纬度信息及所述名称地址对的经纬度信息;
信息对比子单元,用于将待验证的多个POI数据的经纬度信息及名称信息,与所述名称地址对的经纬度信息及名称信息进行一一比对。
本发明的技术方案解决了如何判断在互联网中收集到的POI数据的准确性的问题。首先,获取互联网中的多个首页的统一资源定位符;接着,对多个首页的统一资源定位符进行聚类处理,聚类处理是对在互联网中获取的多个首页的统一资源定位符依照其共有的主域进行归类;随后,基于聚类结果从多个首页中确定权威网页,划分属于同一类的多个统一资源定位符的数量小于第一预定阈值的情形和属于同一类的多个统一资源定位符的数量大于第二预定阈值的泛域情形,根据不同情形和用户关注度筛选可靠性较高的权威网页;最后,基于权威网页,对待验证的多个POI数据进行准确性验证,以确定任一POI数据的准确性,即通过可靠来源的权威网页的地址及名称数据来验证待验证的多个POI数据的准确性,大大提高了验证多个POI数据准确性的效。进一步地,可通过验证结果对POI数据进行筛选,并提高基于准确的POI数据的来提供服务的产品服务水准,增加使用这些产品的用户的体验。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例的基于权威网页验证POI数据准确性的方法的流程示意图;
图2为本发明一个优选实施例的基于权威网页验证POI数据准确性的方法的流程示意图;
图3为本发明另一优选实施例的基于权威网页验证POI数据准确性的方法的流程示意图;
图4为本发明另一实施例的基于权威网页验证POI数据准确性的装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
图1所示是本发明实施例的基于权威网页验证POI数据准确性的方法的流程示意图。
步骤S110:获取互联网中的多个首页的统一资源定位符;步骤S120:对多个首页的统一资源定位符进行聚类处理;步骤S130:基于聚类结果从多个首页中确定权威网页;步骤S140:基于权威网页,对待验证的多个POI数据进行准确性验证,以确定任一POI数据的准确性。
步骤S110:获取互联网中的多个首页的统一资源定位符。
其中,统一资源定位符即URL(Uniform Resoure Locator),URL是对在互联网上可以获得资源的位置和访问该资源的方法的一种简洁表示。在互联网中的服务器上存储的每个文件都有一个唯一的URL,它包括文件的位置信息和与浏览器处理该文件信息的方法的相关信息。如,“北京大学”的网站首页URL:http://www.pku.edu.cn/。
具体地,通过网页蜘蛛等网页爬取工具,从互联网中爬取多个首页,并提取多个首页分别对应的URL。
步骤S120:对多个首页的统一资源定位符进行聚类处理。
其中,聚类处理是研究样品或指标分类的一种统计分析的方法,同时也是数据挖掘的一个重要过程。聚类是由多个模式组成的,通常,模式是一个度量的向量,或者是多维空间中的一个点。聚类处理以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。
优选地,如图2所示,对多个首页的统一资源定位符进行聚类的步骤具体包括步骤S221和步骤S222:步骤S221:提取各个首页的统一资源定位符对应的主域;步骤S222:将对应同一主域的统一资源定位符聚合为同一类。
例如,“北京大学”的网站首页URL:http://www.pku.edu.cn/,提取其主域:pku.edu.cn。“北京大学冲刺班”的网站首页URL:http://www.sprint.pku.edu.cn/,提取其主域:pku.edu.cn。“北京大学”的网站首页URL与“北京大学冲刺班”的网站首页URL对应同一主域“pku.edu.cn”,因此将“北京大学”的网站首页URL“http://www.pku.edu.cn/”与“北京大学冲刺班”的网站首页URL“http://www.sprint.pku.edu.cn/”聚合为同一类。
需要说明的是,互联网上还存在一类提供了大量的公司、企业、餐厅等POI数据的网站,例如黄页网站提供了大量的公司的POI数据,这类黄页网站的主域下包含了大量的首页URL,如果首页URL的数量超过了设定的阈值,则确定该主域属于泛域。泛域是主域支持无限子域的一种形式。如果网站的主域包含了大量的首页URL,则分别提取各首页URL对应的主域;将对应同一主域的统一资源定位符聚合为同一类。
例如,主域“huangye88.com”下包含了大量的首页URL,且该首页URL的数目超过了设定的阈值“100个”,则确定主域“huangye88.com”属于泛域。主域“huangye88.com”下包含了大量的首页URL如下:
http://dianqi.huangye88.com/
http://gongcheng.huangye88.com/
http://shuigongye.huangye88.com/
……。
分别将泛域下的各首页URL放入主域提取模板中,分别提取各首页URL对应的主域:huangye88.com;将所有对应同一主域“huangye88.com”的多个URL聚合为同一类。
步骤S130:基于聚类结果从多个首页中确定权威网页。
优选地,基于聚类结果从多个首页中确定权威网页的步骤具体包括:若属于同一类的多个统一资源定位符的数量小于第一预定阈值,则从多个统一资源定位符对应的多个首页中选择用户关注度最高的首页作为权威网页。其中,用户关注度通过但不限于以下任一项来确定:首页的平均访问量;每次访问的平均浏览时长。
需要说明的是,在实际应用场景中,为避免误确定偶然或恶意注册的与其他预先注册的网站域名共属于同一主域的网站域名为权威网站,需要对属于同一类的多个统一资源定位符对应的多个首页进行筛选,选择用户关注度最高的首页作为权威网页。本发明筛选出的权威网站的准确率更高,从而依靠该权威网站中的相关数据确定POI数据准确性的可靠性更高。
例如,接上例,将“北京大学”的网站首页URL“http://www.pku.edu.cn/”与“北京大学冲刺班”的网站首页URL“http://www.sprint.pku.edu.cn/”聚合为同一类,则在该类中的URL的数量为2个,且小于第一预定阈值“20个”;在上述网站首页URL中基于首页的平均访问量和每次访问的平均浏览时长选择权威网页,如网站首页URL“http://www.pku.edu.cn/”平均访问量为10000人次并且每次访问的平均浏览时长为45分钟,网站首页URL“http://www.sprint.pku.edu.cn/”平均访问量为3人次并且每次访问的平均浏览时长为5分钟,则选择平均访问量较高并且每次访问的平均浏览时长较长的网站首页URL“http://www.pku.edu.cn/”作为权威网页。
优选地,基于聚类结果从多个首页中确定权威网页的步骤具体包括:若属于同一类的多个统一资源定位符的数量大于第二预定阈值,则将该类中的多个统一资源定位符对应的多个首页均确定为权威网页。
例如,对应同一主域“huangye88.com”的URL如下:
http://dianqi.huangye88.com/
http://gongcheng.huangye88.com/
http://shuigongye.huangye88.com/
……。
对应同一主域“huangye88.com”的多个网站首页URL属于同一聚合类,确定该类中的网站首页URL数量为1000个,且大于第二预定阈值“100个”,则将该类中的多个网站首页URL均定为权威网页。
更优地,基于聚类结果从多个首页中确定权威网页的步骤还可以包括:若属于同一类的多个统一资源定位符的数量大于第二预定阈值,则选择用户关注度大于第三预定阈值的多个统一资源定位符对应的多个首页均确定为权威网页。
步骤S140:基于权威网页,对待验证的多个POI数据进行准确性验证,以确定任一POI数据的准确性。
优选地,如图3所示,基于权威网页,对待验证的多个POI数据进行准确性验证,以确定任一POI数据的准确性的步骤具体包括步骤S341、步骤S342和步骤S343:步骤S341:提取权威网页中包括地址信息及名称信息的名称地址对;步骤S342:将待验证的多个POI数据与名称地址对进行一一比对;步骤S343:当任一POI数据包括的地址信息及名称信息与名称地址对相匹配时,确定该POI数据为准确的POI数据。
步骤S341:提取权威网页中包括地址信息及名称信息的名称地址对。
具体地,预先获取全国的省、市、县(区)、乡镇、道路等包括地址信息和名称信息,并根据获取的地址信息和名称,创建地址名称信息库。对权威网页的文字内容做分词处理,得到分词结果;对于分词结果中的每个词,若可以从地址名称信息库中查找到该词,则从地址名称信息库中获取与该词相关的地址信息和名称信息;根据获取的地址信息和名称信息,生成包括该地址信息及名称信息的名称地址对。
例如,首页网址URL“http://www.zto.cn/”对应的网页中的文本片段“上海市青浦区华新镇华志路1685号”,分词后得到分词结果:“上海市”、“青浦区”、“华新镇”、“华志路”和“1685号”,这些词都可以在地址名称信息库中查到,则从地址名称信息库中获取与这些词相关的地址信息和名称信息,生成名称地址对。
步骤S342:将待验证的多个POI数据与名称地址对进行一一比对。
将待验证的多个POI数据与名称地址对进行一一比对的步骤具体包括:对待验证的多个POI数据的地址信息与名称地址对中的地址信息进行归一化处理,将其分别转化为待验证的多个POI数据的经纬度信息及名称地址对的经纬度信息;将待验证的多个POI数据的经纬度信息及名称信息,与名称地址对的经纬度信息及名称信息进行一一比对。
例如,预先在权威网页URL“http://www.zto.cn/”对应的“中通快递”的网页中提取到“上海市青浦区华新镇华志路1685号”地址信息,在地址名称对信息库中将名称地址对中的名称信息“中通快递”和地址信息“上海市青浦区华新镇华志路1685号”相关联的进行存储;对待验证的POI数据的与名称信息“中通快递”对应的地址信息进行分析处理,确定待验证的POI数据的与名称信息“中通快递”对应的地址信息“上海市青浦区华新镇华志路1685号”相对应的经纬度:北纬N31°13′59.09″东经E121°11′59.66″;在地址名称对信息库中提取与名称信息“中通快递”相应的地址信息:上海市青浦区华新镇华志路1685号;对名称地址对中的地址信息进行分析处理,确定与名称地址对中的地址信息“上海市青浦区华新镇华志路1685号”相对应的经纬度:北纬N31°13′59.09″东经E121°11′59.66″;将待验证的POI数据的经纬度信息及名称信息,与名称地址对的经纬度信息及名称信息进行一一比对。
步骤S343:当任一POI数据包括的地址信息及名称信息与名称地址对相匹配时,确定该POI数据为准确的POI数据。
例如,接上例,当待验证的POI数据的与名称信息“中通快递”对应的地址信息与名称地址对的与名称信息“中通快递”对应的地址信息相一致,均为:北纬N31°13′59.09″东经E121°11′59.66″,则确定该POI数据为准确的POI数据。
本发明的技术方案解决了如何判断在互联网中收集到的POI数据的准确性的问题。首先,获取互联网中的多个首页的统一资源定位符;接着,对多个首页的统一资源定位符进行聚类处理,聚类处理是对在互联网中获取的多个首页的统一资源定位符依照其共有的主域进行归类;随后,基于聚类结果从多个首页中确定权威网页,划分属于同一类的多个统一资源定位符的数量小于第一预定阈值的情形和属于同一类的多个统一资源定位符的数量大于第二预定阈值的泛域情形,根据不同情形和用户关注度筛选可靠性较高的权威网页;最后,基于权威网页,对待验证的多个POI数据进行准确性验证,以确定任一POI数据的准确性,即通过可靠来源的权威网页的地址及名称数据来验证待验证的多个POI数据的准确性,大大提高了验证多个POI数据准确性的效率。进一步地,可通过验证结果对POI数据进行筛选,并提高基于准确的POI数据的来提供服务的产品服务水准,增加使用这些产品的用户的体验。
图4所示是本发明实施例的一种基于权威网页验证POI数据准确性的装置的结构示意图。
定位符获取模块410获取互联网中的多个首页的统一资源定位符;聚类处理模块420对多个首页的统一资源定位符进行聚类处理;权威网页确定模块430基于聚类结果从多个首页中确定权威网页;准确性验证模块440基于权威网页,对待验证的多个POI数据进行准确性验证,以确定任一POI数据的准确性。
定位符获取模块410获取互联网中的多个首页的统一资源定位符。
其中,统一资源定位符即URL(Uniform Resoure Locator),URL是对在互联网上可以获得资源的位置和访问该资源的方法的一种简洁表示。在互联网中的服务器上存储的每个文件都有一个唯一的URL,它包括文件的位置信息和与浏览器处理该文件信息的方法的相关信息。如,“北京大学”的网站首页URL:http://www.pku.edu.cn/。
具体地,通过网页蜘蛛等网页爬取工具,从互联网中爬取多个首页,并提取多个首页分别对应的URL。
聚类处理模块420对多个首页的统一资源定位符进行聚类处理。
其中,聚类处理是研究样品或指标分类的一种统计分析的方法,同时也是数据挖掘的一个重要过程。聚类是由多个模式组成的,通常,模式是一个度量的向量,或者是多维空间中的一个点。聚类处理以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。
优选地,聚类处理模块420具体包括主域提取单元和聚合单元:主域提取单元提取各个首页的统一资源定位符对应的主域;聚合单元将对应同一主域的统一资源定位符聚合为同一类。
例如,“北京大学”的网站首页URL:http://www.pku.edu.cn/,提取其主域:pku.edu.cn。“北京大学冲刺班”的网站首页URL:http://www.sprint.pku.edu.cn/,提取其主域:pku.edu.cn。“北京大学”的网站首页URL与“北京大学冲刺班”的网站首页URL对应同一主域“pku.edu.cn”,因此将“北京大学”的网站首页URL“http://www.pku.edu.cn/”与“北京大学冲刺班”的网站首页URL“http://www.sprint.pku.edu.cn/”聚合为同一类。
需要说明的是,互联网上还存在一类提供了大量的公司、企业、餐厅等POI数据的网站,例如黄页网站提供了大量的公司的POI数据,这类黄页网站的主域下包含了大量的首页URL,如果首页URL的数量超过了设定的阈值,则确定该主域属于泛域。泛域是主域支持无限子域的一种形式。如果网站的主域包含了大量的首页URL,则分别提取各首页URL对应的主域;将对应同一主域的统一资源定位符聚合为同一类。
例如,主域“huangye88.com”下包含了大量的首页URL,且该首页URL的数目超过了设定的阈值“100个”,则确定主域“huangye88.com”属于泛域。主域“huangye88.com”下包含了大量的首页URL如下:
http://dianqi.huangye88.com/
http://gongcheng.huangye88.com/
http://shuigongye.huangye88.com/
……。
分别将泛域下的各首页URL放入主域提取模板中,分别提取各首页URL对应的主域:huangye88.com;将所有对应同一主域“huangye88.com”的多个URL聚合为同一类。
权威网页确定模块430基于聚类结果从多个首页中确定权威网页。
优选地,权威网页确定模块430具体用于:若属于同一类的多个统一资源定位符的数量小于第一预定阈值,则从多个统一资源定位符对应的多个首页中选择用户关注度最高的首页作为权威网页。其中,用户关注度通过但不限于以下任一项来确定:首页的平均访问量;每次访问的平均浏览时长。
需要说明的是,在实际应用场景中,为避免误确定偶然或恶意注册的与其他预先注册的网站域名共属于同一主域的网站域名为权威网站,需要对属于同一类的多个统一资源定位符对应的多个首页进行筛选,选择用户关注度最高的首页作为权威网页。本发明筛选出的权威网站的准确率更高,从而依靠该权威网站中的相关数据确定POI数据准确性的可靠性更高。
例如,接上例,将“北京大学”的网站首页URL“http://www.pku.edu.cn/”与“北京大学冲刺班”的网站首页URL“http://www.sprint.pku.edu.cn/”聚合为同一类,则在该类中的URL的数量为2个,且小于第一预定阈值“20个”;在上述网站首页URL中基于首页的平均访问量和每次访问的平均浏览时长选择权威网页,如网站首页URL“http://www.pku.edu.cn/”平均访问量为10000人次并且每次访问的平均浏览时长为45分钟,网站首页URL“http://www.sprint.pku.edu.cn/”平均访问量为3人次并且每次访问的平均浏览时长为5分钟,则选择平均访问量较高并且每次访问的平均浏览时长较长的网站首页URL“http://www.pku.edu.cn/”作为权威网页。
优选地,权威网页确定模块430具体用于:当属于同一类的多个统一资源定位符的数量大于第二预定阈值时,将该类中的多个统一资源定位符对应的多个首页均确定为权威网页。
例如,对应同一主域“huangye88.com”的URL如下:
http://dianqi.huangye88.com/
http://gongcheng.huangye88.com/
http://shuigongye.huangye88.com/
……。
对应同一主域“huangye88.com”的多个网站首页URL属于同一聚合类,确定该类中的网站首页URL数量为1000个,且大于第二预定阈值“100个”,则将该类中的多个网站首页URL均定为权威网页。
更优地,权威网页确定模块430还可以用于:当属于同一类的多个统一资源定位符的数量大于第二预定阈值时,选择用户关注度大于第三预定阈值的多个统一资源定位符对应的多个首页均确定为权威网页。
准确性验证模块440基于权威网页,对待验证的多个POI数据进行准确性验证,以确定任一POI数据的准确性。
优选地,准确性验证模块440具体包括第一提取单元、第一比对单元和数据确定单元;第一提取单元提取权威网页中包括地址信息及名称信息的名称地址对;第一比对单元将待验证的多个POI数据与名称地址对进行一一比对;数据确定单元当任一POI数据包括的地址信息及名称信息与名称地址对相匹配时,确定该POI数据为准确的POI数据。
第一提取单元提取权威网页中包括地址信息及名称信息的名称地址对。
具体地,预先获取全国的省、市、县(区)、乡镇、道路等包括地址信息和名称信息,并根据获取的地址信息和名称,创建地址名称信息库。对权威网页的文字内容做分词处理,得到分词结果;对于分词结果中的每个词,若可以从地址名称信息库中查找到该词,则从地址名称信息库中获取与该词相关的地址信息和名称信息;根据获取的地址信息和名称信息,生成包括该地址信息及名称信息的名称地址对。
例如,首页网址URL“http://www.zto.cn/”对应的网页中的文本片段“上海市青浦区华新镇华志路1685号”,分词后得到分词结果:“上海市”、“青浦区”、“华新镇”、“华志路”和“1685号”,这些词都可以在地址名称信息库中查到,则从地址名称信息库中获取与这些词相关的地址信息和名称信息,生成名称地址对。
第一比对单元将待验证的多个POI数据与名称地址对进行一一比对。
优选地,第一比对单元具体包括归一化子单元和信息对比子单元:归一化子单元对待验证的多个POI数据的地址信息与名称地址对中的地址信息进行归一化处理,将其分别转化为待验证的多个POI数据的经纬度信息及名称地址对的经纬度信息;信息对比子单元将待验证的多个POI数据的经纬度信息及名称信息,与名称地址对的经纬度信息及名称信息进行一一比对。
例如,预先在权威网页URL“http://www.zto.cn/”对应的“中通快递”的网页中提取到“上海市青浦区华新镇华志路1685号”地址信息,在地址名称对信息库中将名称地址对中的名称信息“中通快递”和地址信息“上海市青浦区华新镇华志路1685号”相关联的进行存储;对待验证的POI数据的与名称信息“中通快递”对应的地址信息进行分析处理,确定待验证的POI数据的与名称信息“中通快递”对应的地址信息“上海市青浦区华新镇华志路1685号”相对应的经纬度:北纬N31°13′59.09″东经E121°11′59.66″;在地址名称对信息库中提取与名称信息“中通快递”相应的地址信息:上海市青浦区华新镇华志路1685号;对名称地址对中的地址信息进行分析处理,确定与名称地址对中的地址信息“上海市青浦区华新镇华志路1685号”相对应的经纬度:北纬N31°13′59.09″东经E121°11′59.66″;将待验证的POI数据的经纬度信息及名称信息,与名称地址对的经纬度信息及名称信息进行一一比对。
数据确定单元443当任一POI数据包括的地址信息及名称信息与名称地址对相匹配时,确定该POI数据为准确的POI数据。
例如,接上例,当待验证的POI数据的与名称信息“中通快递”对应的地址信息与名称地址对的与名称信息“中通快递”对应的地址信息相一致,均为:北纬N31°13′59.09″东经E121°11′59.66″,则确定该POI数据为准确的POI数据。
本发明的技术方案解决了如何判断在互联网中收集到的POI数据的准确性的问题。首先,获取互联网中的多个首页的统一资源定位符;接着,对多个首页的统一资源定位符进行聚类处理,聚类处理是对在互联网中获取的多个首页的统一资源定位符依照其共有的主域进行归类;随后,基于聚类结果从多个首页中确定权威网页,划分属于同一类的多个统一资源定位符的数量小于第一预定阈值的情形和属于同一类的多个统一资源定位符的数量大于第二预定阈值的泛域情形,根据不同情形和用户关注度筛选可靠性较高的权威网页;最后,基于权威网页,对待验证的多个POI数据进行准确性验证,以确定任一POI数据的准确性,即通过可靠来源的权威网页的地址及名称数据来验证待验证的多个POI数据的准确性,大大提高了验证多个POI数据准确性的效率。进一步地,可通过验证结果对POI数据进行筛选,并提高基于准确的POI数据的来提供服务的产品服务水准,增加使用这些产品的用户的体验。
本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随即存储器)、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable ProgrammableRead-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于权威网页验证POI数据准确性的方式,其特征在于,包括:
获取互联网中的多个首页的统一资源定位符;
对所述多个首页的统一资源定位符进行聚类处理;
基于聚类结果从所述多个首页中确定权威网页;
基于所述权威网页,对待验证的多个POI数据进行准确性验证,以确定任一POI数据的准确性。
2.根据权利要求1所述的基于权威网页验证POI数据准确性的方式,其中,对所述多个首页的统一资源定位符进行聚类,具体包括:
提取各个首页的统一资源定位符对应的主域;
将对应同一主域的统一资源定位符聚合为同一类。
3.根据权利要求2所述的基于权威网页验证POI数据准确性的方式,其中,基于聚类结果从所述多个首页中确定权威网页,具体包括:
若属于同一类的多个统一资源定位符的数量小于第一预定阈值,则从多个统一资源定位符对应的多个首页中选择用户关注度最高的首页作为权威网页。
4.根据权利要求3所述的基于权威网页验证POI数据准确性的方式,其中,所述用户关注度通过以下至少任一项来确定:
首页的平均访问量;
每次访问的平均浏览时长。
5.根据权利要求2所述的基于权威网页验证POI数据准确性的方式,其中,基于聚类结果从所述多个首页中确定权威网页,具体包括:
若属于同一类的多个统一资源定位符的数量大于第二预定阈值,则将该类中的多个统一资源定位符对应的多个首页均确定为权威网页。
6.根据权利要求1-5任一项所述的基于权威网页验证POI数据准确性的方式,基于所述权威网页,对待验证的多个POI数据进行准确性验证,以确定任一POI数据的准确性,具体包括:
提取所述权威网页中包括地址信息及名称信息的名称地址对;
将所述待验证的多个POI数据与所述名称地址对进行一一比对;
当任一POI数据包括的地址信息及名称信息与所述名称地址对相匹配时,确定该POI数据为准确的POI数据。
7.根据权利要求6所述的基于权威网页验证POI数据准确性的方式,将所述待验证的多个POI数据与所述名称地址对进行一一比对,包括:
对所述待验证的多个POI数据的地址信息与所述名称地址对中的地址信息进行归一化处理,将其分别转化为所述待验证的多个POI数据的经纬度信息及所述名称地址对的经纬度信息;
将待验证的多个POI数据的经纬度信息及名称信息,与所述名称地址对的经纬度信息及名称信息进行一一比对。
8.一种基于权威网页验证POI数据准确性的装置,其特征在于,包括:
定位符获取模块,用于获取互联网中的多个首页的统一资源定位符;
聚类处理模块,用于对所述多个首页的统一资源定位符进行聚类处理;
权威网页确定模块,用于基于聚类结果从所述多个首页中确定权威网页;
准确性验证模块,用于基于所述权威网页,对待验证的多个POI数据进行准确性验证,以确定任一POI数据的准确性。
9.根据权利要求8所述的基于权威网页验证POI数据准确性的装置,其中,所述聚类处理模块具体包括:
主域提取单元,用于提取各个首页的统一资源定位符对应的主域;
聚合单元,用于将对应同一主域的统一资源定位符聚合为同一类。
10.根据权利要求9所述的基于权威网页验证POI数据准确性的装置,其中,所述权威网页确定模块具体用于:若属于同一类的多个统一资源定位符的数量小于第一预定阈值,则从多个统一资源定位符对应的多个首页中选择用户关注度最高的首页作为权威网页。
CN201510943377.5A 2015-12-16 2015-12-16 基于权威网页验证poi数据准确性的方式及装置 Pending CN106886532A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510943377.5A CN106886532A (zh) 2015-12-16 2015-12-16 基于权威网页验证poi数据准确性的方式及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510943377.5A CN106886532A (zh) 2015-12-16 2015-12-16 基于权威网页验证poi数据准确性的方式及装置

Publications (1)

Publication Number Publication Date
CN106886532A true CN106886532A (zh) 2017-06-23

Family

ID=59174171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510943377.5A Pending CN106886532A (zh) 2015-12-16 2015-12-16 基于权威网页验证poi数据准确性的方式及装置

Country Status (1)

Country Link
CN (1) CN106886532A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704589A (zh) * 2017-09-30 2018-02-16 百度在线网络技术(北京)有限公司 基于运单的兴趣点失效挖掘方法、装置、服务器及介质
CN108021656A (zh) * 2017-12-01 2018-05-11 百度在线网络技术(北京)有限公司 比对坐标的生成方法、装置、服务器及存储介质
CN110417841A (zh) * 2018-04-28 2019-11-05 阿里巴巴集团控股有限公司 地址归一化处理方法、装置和系统、数据处理方法
CN110647623A (zh) * 2018-06-11 2020-01-03 百度在线网络技术(北京)有限公司 用于更新信息的方法及装置
CN111854778A (zh) * 2019-09-09 2020-10-30 北京嘀嘀无限科技发展有限公司 一种地理位置描述合理性的评估方法及系统
CN111899855A (zh) * 2020-07-16 2020-11-06 武汉大学 一种个体健康与公共卫生数据时空聚集可视化构建方法及平台

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899243A (zh) * 2015-03-31 2015-09-09 北京奇虎科技有限公司 检测兴趣点poi数据准确性的方法及装置
CN105069076A (zh) * 2015-07-31 2015-11-18 北京奇虎科技有限公司 确定官网首页中的地址信息的方法及装置
CN105095386A (zh) * 2015-06-30 2015-11-25 北京奇虎科技有限公司 确定网页质量的装置及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899243A (zh) * 2015-03-31 2015-09-09 北京奇虎科技有限公司 检测兴趣点poi数据准确性的方法及装置
CN105095386A (zh) * 2015-06-30 2015-11-25 北京奇虎科技有限公司 确定网页质量的装置及方法
CN105069076A (zh) * 2015-07-31 2015-11-18 北京奇虎科技有限公司 确定官网首页中的地址信息的方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704589A (zh) * 2017-09-30 2018-02-16 百度在线网络技术(北京)有限公司 基于运单的兴趣点失效挖掘方法、装置、服务器及介质
CN108021656A (zh) * 2017-12-01 2018-05-11 百度在线网络技术(北京)有限公司 比对坐标的生成方法、装置、服务器及存储介质
CN108021656B (zh) * 2017-12-01 2020-10-13 百度在线网络技术(北京)有限公司 比对坐标的生成方法、装置、服务器及存储介质
CN110417841A (zh) * 2018-04-28 2019-11-05 阿里巴巴集团控股有限公司 地址归一化处理方法、装置和系统、数据处理方法
CN110647623A (zh) * 2018-06-11 2020-01-03 百度在线网络技术(北京)有限公司 用于更新信息的方法及装置
CN111854778A (zh) * 2019-09-09 2020-10-30 北京嘀嘀无限科技发展有限公司 一种地理位置描述合理性的评估方法及系统
CN111854778B (zh) * 2019-09-09 2022-05-17 北京嘀嘀无限科技发展有限公司 一种地理位置描述合理性的评估方法及系统
CN111899855A (zh) * 2020-07-16 2020-11-06 武汉大学 一种个体健康与公共卫生数据时空聚集可视化构建方法及平台
CN111899855B (zh) * 2020-07-16 2024-04-26 武汉大学 一种个体健康与公共卫生数据时空聚集可视化构建方法及平台

Similar Documents

Publication Publication Date Title
CN106886532A (zh) 基于权威网页验证poi数据准确性的方式及装置
CN104899243B (zh) 检测兴趣点poi数据准确性的方法及装置
CN104699835B (zh) 用于确定网页页面中包括兴趣点poi数据的方法及装置
CN104572956B (zh) 确定poi信息有效性的系统及方法
CN104899508B (zh) 一种多阶段钓鱼网站检测方法与系统
CN105069076A (zh) 确定官网首页中的地址信息的方法及装置
Wood et al. The diamond sutra: the story of the world's earliest dated printed book
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
Zhu et al. A random digit search (RDS) method for sampling of blogs and other user-generated content
CN104268289B (zh) 链接url的失效检测方法和装置
CN104915426A (zh) 信息排序方法、用于生成信息排序模型的方法及装置
CN101894109A (zh) 一种数据库建立方法和装置
CN106776640A (zh) 一种股票资讯信息展示方法和装置
Alsudais et al. We know where you are tweeting from: Assigning a type of place to tweets using natural language processing and random forests
CN105069079B (zh) 筛选兴趣点poi数据的方法及装置
CN108280102B (zh) 上网行为记录方法、装置及用户终端
CN110049052A (zh) 基于dom树的标签及属性相似性的恶意域名检测方法
WO2015149550A1 (zh) 确定网站内链接等级的方法及装置
CN101908047B (zh) 无效模板生成方法及装置、无效网页识别方法及装置
CN105468688B (zh) 一种站点模板的处理方法及装置
Mohamadi et al. An ivestigation on spatial and temporal variations of groundwater level in Kerman plain using suitable geostatistical method (During a 10-year period)
CN106886534A (zh) 确定权威网页的方式及装置
CN109460518B (zh) 一种基于用户网站访问记录的图书推荐方法
CN102929874A (zh) 检索数据的排序方法及装置
CN105550330B (zh) 兴趣点poi信息排序的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170623