CN107463558A - 用于垂直搜索的企业位置信息获取及分析方法 - Google Patents

用于垂直搜索的企业位置信息获取及分析方法 Download PDF

Info

Publication number
CN107463558A
CN107463558A CN201610387280.5A CN201610387280A CN107463558A CN 107463558 A CN107463558 A CN 107463558A CN 201610387280 A CN201610387280 A CN 201610387280A CN 107463558 A CN107463558 A CN 107463558A
Authority
CN
China
Prior art keywords
data
latitude
longitude
enterprise
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201610387280.5A
Other languages
English (en)
Inventor
范从俊
何宏靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Shuanglong Union Technology Co Ltd
Original Assignee
Guizhou Shuanglong Union Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Shuanglong Union Technology Co Ltd filed Critical Guizhou Shuanglong Union Technology Co Ltd
Priority to CN201610387280.5A priority Critical patent/CN107463558A/zh
Publication of CN107463558A publication Critical patent/CN107463558A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及互联网信息处理领域,特别涉及用于垂直搜索的企业位置信息获取及分析方法。本发明方法通过调用公用平台的数据接口获取到企业的地理信息,通过至少两个地图平台上获取的信息来进行相关验证和补全,找出可信度较高的经纬度信息作为企业对应的地理经纬度信息,提高了企业经纬度信息采集的结果的准确性;将获取到的信息存储于分布式文件系统中;为企业地理区位分析、查询、业务拓展、价值挖掘以及隐藏的地域、地理商业价值的分析和挖掘提供数据获取的技术支撑。

Description

用于垂直搜索的企业位置信息获取及分析方法
技术领域
本发明涉及互联网信息处理领域,特别涉及用于垂直搜索的企业位置信息获取及分析方法。
背景技术
以信息技术发展为代表的社会进步,数据信息的积累以级数速度增长,网络技术的发展促进了信息的传播和积累,网络信息数据涵盖了社会、经济、政治、行业、企业、组织、个人活动的方方面面,数据量大和价值密度低却是困扰如此海量数据信息挖掘利用的难题,在海量的数据里面,如何精确的获得人们关心的信息成为迫切解决的问题,在巨大的市场需求面前,互联网搜索和大数据分析成为当今互联网应用的热门;各种搜索引擎也应运而生,其中垂直搜索引擎是针对某一个行业的专业搜索引擎,相对通用搜索引擎的信息量大、查询不准确、深度不够等缺点,垂直搜索通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务,具有“专业”、“精准”、“深度挖掘”的特点,且具有行业色彩。然而目前市场针对企业的垂直搜索还比较鲜见。
而企业信息是数据分析的重要一环;在数据分析中具有重要的意义,由于企业作为社会经济中最重要的活动主体,在经济中扮演着重要的角色,对于企业信息的整理和分析可以了解企业的背景、勾勒出企业活动的生产情况、经营状况、人员信息、投资情况、股东构成、企业资质、资产规模、资产增长情况以及异常情况。这些信息对于监控企业发展状态和防范企业经营风险具有极其重要的意义,而在企业的信息中地理信息是相当重要的一环,对于企业本身的区域关联、业务拓展、价值挖掘,以及整体经济的区域分类,隐藏的地域、地理商业价值的分析和挖掘都大有裨益。
现有的公用地理信息地图系统,没有公开的专门的搜索企业以及企业关系的搜索平台,只有酒店,餐馆、景点等的专门搜索;大而全的通用搜索,突出不了专注企业搜索的意义;更搜索不了以某个位置为中心的周围的不知道名字的企业。所以结合已有的大数据量的企业信息,建立专门的企业地理信息系统对针对企业信息大数据分析的公司是必要的需求。
而要建立这样的系统,首先要做的就是集合企业数据,建立企业位置信息高效的获取和存储系统。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供用于垂直搜索的企业位置信息获取及分析方法。通过使用企业基本信息来获取企业地理信息;在获取的地理信息上建立适当的存储模型,为基于地理位置的企业信息查询提供数据基础。
为了实现上述发明目的,本发明提供了以下技术方案:
用于垂直搜索的企业位置信息获取及分析方法,根据企业地址调用地图平台接口获取企业的地理经纬度信息,通过从至少两家地图平台获取到的经纬度数据来进行相互验证和补全,找出可信度较高的经纬度信息作为企业对应的地理经纬度信息,并将企业信息和获取到的经纬度信息存储于分布式文件系统中。
进一步的,所述地图平台包括:第一地图平台、第二地图平台和,或第三地图平台。
具体的,所述数据相互验证和补全,包含以下实现步骤:
(ST1)调用第一地图平台接口,获得企业第一经度数据和第一纬度数据;
(ST2)调用第二地图平台接口,获得企业第二经度数据和第二纬度数据;
(ST3)对不一致的数据按照各个开放平台返回结构的分数排序,取可信值分数较高的。所述数据相互验证和补全,适用以下规则条件:
A、如果从第一地图平台获取的经纬度数据完整,而从第二地图平台获取到的经纬度数据有缺失,则选择第一经度数据和第一纬度数据作为企业的地理经纬度信息;
B、选择从平台获取到的数据信息中,可信较高的对应经纬度信息为企业的经纬度数据;
C、比较第一经度数据和第二经度数据,得到差值数据1,比较第一纬度数据和第二纬度数据,得到差值数据2,如果差值数据1和差值数据2均在设置的阈值内,则可选择将第一经度数据、第一纬度数据或者第二经度数据、第二纬度数据作为企业的地理经纬度数据。
作为一种优选,所述分布式系统为HDFS。
作为一种优选,所述数据相互验证和补全过程通过Mapreduce并行处理来实现。
与现有技术相比,本发明的有益效果:本发明提供用于垂直搜索的企业位置信息获取及分析方法,本发明方法通过已获取的企业地址信息调用公开数据平台的接口获得对应的企业地理经纬度信息,通过从至少两家地图平台获取到的经纬度数据来进行相互验证和补全,找出可信度较高的经纬度信息作为企业对应的地理经纬度信息,提高了企业经纬度信息采集的结果的准确性;并且本发明将获取到的企业信息(包括:名称、地址、地理经纬度信息)存储于分布式文件夹系统中,为专门针对企业的垂直搜索提供了数据获取和数据存储的技术基础。本发明方法所采集到的数据存储于HDFS分布式文件系统中,可以满足海量数据存储,高容错性的需要,为云计算和批量处理提供文件存储基础。
此外本发明方法专门针对企业来进行地理信息的数据获取,为相关的企业地理信息垂直搜索提供数据基础,弥补了现有公开地图平台中没有专门针对企业地理信息服务的缺失;在企业地理区位分析、查询、业务拓展、价值挖掘,以及整体经济的区域分类,隐藏的地域、地理商业价值的分析和挖掘具有重要的使用价值。
附图说明:
图1为本发明地理信息数据的获取及分析过程示意图。
图2为本发明企业位置信息获取、存储和索引建立的实现步骤示意图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
本发明提供用于垂直搜索的企业位置信息获取及分析方法。通过使用企业基本信息来获取企业地理信息;并通过从至少两家地图平台获取的数据进行相互验证和相互补全,确保了经纬度数据的准确性为基于地理位置的企业信息查询提供数据基础。
为了实现上述发明目的,本发明提供了以下技术方案:
用于垂直搜索的企业位置信息获取及分析方法,根据企业地址调用地图平台接口获取企业的地理经纬度信息,通过从至少两家地图平台获取到的经纬度数据来进行相互验证和补全,找出可信度较高的经纬度信息作为企业对应的地理经纬度信息,并将企业信息和获取到的经纬度信息存储于分布式文件系统中。
本发明方法建立专门针对企业目标来进行的地理信息获取和存储,为相关的企业地理信息垂直搜索提供数据基础,弥补了现有地图平台缺乏专门针对企业信息地图信息服务的缺失;而且本发明方法通过至少两个地图平台获取的数据来相互印证和数据补全,保证了获取到地理信息的准确性。对于企业本身的区域关联、业务拓展、价值挖掘,以及整体经济的区域分类,隐藏的地域、地理商业价值的分析和挖掘具有重要的意义。
进一步的,所述地图平台包括:第一地图平台、第二地图平台和,或第三地图平台。目前公开的地图数据平台很多,根据企业地址在公开数据平台上自动获取企业的经纬度信息,快速便捷,成本较低;为数据深度分析和再加工利用应用创造了前提条件。仅仅从一家平台上获取的数据存在较大的数据不准确的风险,通过调用多家平台来获取目标企业的地理经纬度信息,并且通过多家平台的数据来相互验证和补全则可以极大的提高数据获取的质量,为后期的数据使用提供更加准确的数据源。
具体的,所述数据相互验证和补全,包含如图1所示的以下实现过程:
(ST1)调用第一地图平台接口,获得企业第一经度数据和第一纬度数据;
(ST2)调用第二地图平台接口,获得企业第二经度数据和第二纬度数据;
(ST3)所述数据相互验证和补全,适用以下规则条件:
A、如果从第一地图平台获取的经纬度数据完整,而从第二地图平台获取到的经纬度数据有缺失,则选择第一经度数据和第一纬度数据作为企业的地理经纬度信息;
B、选择从平台获取到的数据信息中,根据可信度来排序,选择可信较高的对应经纬度信息为企业的经纬度数据;
C、比较第一经度数据和第二经度数据,得到差值数据1,比较第一纬度数据和第二纬度数据,得到差值数据2,如果差值数据1和差值数据2均在设置的阈值内,则可选择将第一经度数据、第一纬度数据或者第二经度数据、第二纬度数据作为企业的地理经纬度数据。上述规则条件按顺序适用。
进一步的,所述分布式系统为HDFS。HDFS作为Hadoop下面的分布式文件系统,具有高度容错性,适合部署在廉价的机器上,运行和维护成本较低。同时HDFS非常适合用于大规模数据集;采用HDFS来存储待处理数据可以满足海量数据存储,高容错性的需要,为云计算和批量处理提供文件存储基础。
实施例1
从网络上根据字段设置爬取到企业名称和对应的地址信息,例如企业名称为成都ABCD科技有限公司,地址为:成都市天府大道中段xx号,根据企业地址信息调用第一地图平台接口获取到企业地址对应的地理经纬度信息为:{″status″:0,″result″:{″location″:{″lng″:105.07392899855,″lat″:36.555138880016},″pr ecise″:1,″confidence″:80,″level″:″\u5546\u52al\u5927\u53a6″}}从返回信息可以获取到可信度为:80,经度为105.07392899855,纬度为36.555138880016。
调用第二地图平台接口获取到企业地址对应的地理经纬度信息为:{″status″:″1″,″info″:″OK″,″infocode″:″1000″,″count″:″1″,″geocodes″:[{″formatted_address″:″四川省成都市武侯区某某广场B座″,″province″:″四川省,″citycode″:″028″,″city″:″成都市″,″district″:″武侯区″,″township″:[],″neighborhood″:{″name″:[],″type″:[]},″building″:{″name″:[],″type″:[]},″adcode″:″510107″,″street″:″天府大道中段″,″number″:″xx号″,″location″:″104.067139,30.548830″,″level″:″门牌号″}]}。从上述返回信息可以获取到:可信度为门牌号,经度为105.067139,纬度为36.548830。
上述两个平台获取到的数据均完整,则适用规则B,根据两个平台的获取数据的可信度来进行排序,比如说将第二地图平台的″level″:″门牌号″,对应的转化为“可信度:99”,较通过第一地图平台获取的“可信度:80”的可信度更高,则选择第二地图平台获取到的经度为105.067139,纬度为36.548830作为:“成都ABCD科技有限公司、成都市天府大道中段xx号”对应的经纬数据。将获取到的经纬度信息存储于HDFS分布式文件系统中,以上过程完成了经纬度信息的获取和存储过程。
可以看出以上仅为一个简单示例来说明数据的获取过程,实际上在大数据处理中针对的是千万级或者数亿级的海量目标来进行上述过程的操作和实现,本发明方法采用云计算平台下的分布式存储系统,满足了海量数据的存储和快速读取的需要;并使用云计算框架下的Mapreduce将存储于HDFS分布式文件系统中的数据批量读取到索引之中,处理速度极快、效率显著、通过使用ElasticSearch可以建立亿数量级别的企业地理信息搜索的需要,为建立全量企业地理信息检索提供技术支撑。

Claims (5)

1.用于垂直搜索的企业位置信息获取及分析方法,其特征在于,根据企业地址调用地图平台接口获取企业的地理经纬度信息,通过从至少两家地图平台获取到的经纬度数据来进行相互验证和补全,找出可信度较高的经纬度信息作为企业对应的地理经纬度信息,并将企业信息和获取到的经纬度信息存储于分布式文件系统中。
2.如权利要求1所述的方法,其特征在于,所述分布式文件系统为HDFS。
3.如权利要求1所述的方法,其特征在于,所述地图平台包括:第一地图平台、第二地图平台和,或第三地图平台。
4.如权利要求3所述的方法,其特征在于,所述数据相互验证和补全,包含以下实现步骤:
(ST1)调用第一地图平台接口,获得企业第一经度数据和第一纬度数据;
(ST2)调用第二地图平台接口,获得企业第二经度数据和第二纬度数据;
(ST3)所述数据相互验证和补全,适用以下规则条件:
A、如果从第一地图平台获取的经纬度数据完整,而从第二地图平台获取到的经纬度数据有缺失,则选择第一经度数据和第一纬度数据作为企业的地理经纬度信息;
B、选择从平台获取到的数据信息中,可信较高的对应经纬度信息为企业的经纬度数据;
C、比较第一经度数据和第二经度数据,得到差值数据1,比较第一纬度数据和第二纬度数据,得到差值数据2,如果差值数据1和差值数据2均在设置的阈值内,则可选择将第一经度数据、第一纬度数据或者第二经度数据、第二纬度数据作为企业的地理经纬度数据。
5.如权利要求4所述的方法,其特征在于,所述数据相互验证和补全过程通过Mapreduce并行处理。
CN201610387280.5A 2016-06-05 2016-06-05 用于垂直搜索的企业位置信息获取及分析方法 Withdrawn CN107463558A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610387280.5A CN107463558A (zh) 2016-06-05 2016-06-05 用于垂直搜索的企业位置信息获取及分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610387280.5A CN107463558A (zh) 2016-06-05 2016-06-05 用于垂直搜索的企业位置信息获取及分析方法

Publications (1)

Publication Number Publication Date
CN107463558A true CN107463558A (zh) 2017-12-12

Family

ID=60545637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610387280.5A Withdrawn CN107463558A (zh) 2016-06-05 2016-06-05 用于垂直搜索的企业位置信息获取及分析方法

Country Status (1)

Country Link
CN (1) CN107463558A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427575A (zh) * 2019-08-15 2019-11-08 阳光易购(湖南)科技有限公司 一种地址对应经纬度准确性判断的方法
CN112052406A (zh) * 2020-08-28 2020-12-08 深圳市彬讯科技有限公司 一种业务区域的获取方法、装置、设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101228524A (zh) * 2005-05-27 2008-07-23 谷歌公司 将地图浏览有关的边界用于企业位置搜索
CN103034737A (zh) * 2012-12-27 2013-04-10 天津市通卡公用网络系统有限公司 电子地图的纠偏方法
CN103116610A (zh) * 2013-01-23 2013-05-22 浙江大学 基于HBase的矢量空间大数据存储方法
US9182895B1 (en) * 2004-03-24 2015-11-10 A9.Com, Inc. Displaying representative images in a visual mapping system
CN105373559A (zh) * 2014-08-26 2016-03-02 深圳市赛格导航科技股份有限公司 一种地理信息获取方法及地理信息获取系统
CN105608112A (zh) * 2015-12-10 2016-05-25 北京奇虎科技有限公司 衡量地图poi数据的质量的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9182895B1 (en) * 2004-03-24 2015-11-10 A9.Com, Inc. Displaying representative images in a visual mapping system
CN101228524A (zh) * 2005-05-27 2008-07-23 谷歌公司 将地图浏览有关的边界用于企业位置搜索
CN103034737A (zh) * 2012-12-27 2013-04-10 天津市通卡公用网络系统有限公司 电子地图的纠偏方法
CN103116610A (zh) * 2013-01-23 2013-05-22 浙江大学 基于HBase的矢量空间大数据存储方法
CN105373559A (zh) * 2014-08-26 2016-03-02 深圳市赛格导航科技股份有限公司 一种地理信息获取方法及地理信息获取系统
CN105608112A (zh) * 2015-12-10 2016-05-25 北京奇虎科技有限公司 衡量地图poi数据的质量的方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427575A (zh) * 2019-08-15 2019-11-08 阳光易购(湖南)科技有限公司 一种地址对应经纬度准确性判断的方法
CN112052406A (zh) * 2020-08-28 2020-12-08 深圳市彬讯科技有限公司 一种业务区域的获取方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
US9113294B2 (en) Method for positioning IP location and server
US20200272740A1 (en) Anomalous activity detection in multi-provider transactional environments
CN106547770B (zh) 一种基于用户地址信息的用户分类、用户识别方法及装置
Jacobs et al. OpenStreetMap quality assessment using unsupervised machine learning methods
CN104050196A (zh) 一种兴趣点数据冗余检测方法及装置
CN106446047A (zh) 企业地理信息查询和展示系统
CN106708919A (zh) 基于关联性分析的企业地理信息展示方法
Ficek et al. Spatial extension of the reality mining dataset
Grinberger et al. An analysis of the spatial and temporal distribution of large‐scale data production events in OpenStreetMap
CN107463559A (zh) 一种企业位置信息获取分析及存储系统
CN114328789A (zh) 基于空间数据剖分的国土空间规划编制协同设计平台
CN111177289A (zh) 众源网络数据空间相关信息提取校验方法与系统
CN114070760A (zh) 一种网络空间资产的测绘方法、装置、网络空间资产数据库及计算机可读存储介质
CN107463557A (zh) 一种企业位置信息存储系统
CN108345662A (zh) 一种考虑用户分布区域差异的签到微博数据加权统计方法
CN107463558A (zh) 用于垂直搜索的企业位置信息获取及分析方法
CN106326480A (zh) 一种关联企业的地理信息挖掘和分析方法
CN107463560A (zh) 用于垂直搜索的企业位置信息获取分析及存储方法
CN113626648A (zh) 一种水利数据处理系统、方法和存储介质
JP5637073B2 (ja) 情報処理装置、情報処理方法、及びプログラム
Benkhelifa et al. Framework for mobile devices analysis
CN106354848A (zh) 关联企业地理信息分析和展示系统
CN115205699B (zh) 一种基于cfsfdp改进算法的地图图斑聚类融合处理方法
CN107463556A (zh) 一种用于垂直搜索的企业位置信息获取系统
CN107801418B (zh) 利用地图检索记录的流动人口推算装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20171212