CN107463561A - 用于互联网垂直搜索的企业位置信息存储方法 - Google Patents
用于互联网垂直搜索的企业位置信息存储方法 Download PDFInfo
- Publication number
- CN107463561A CN107463561A CN201610387589.4A CN201610387589A CN107463561A CN 107463561 A CN107463561 A CN 107463561A CN 201610387589 A CN201610387589 A CN 201610387589A CN 107463561 A CN107463561 A CN 107463561A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- information
- index
- latitude
- longitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
- G06F16/134—Distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及互联网信息处理领域,特别涉及用于互联网垂直搜索的企业位置信息存储方法。本发明方法通过调用公用平台的数据接口获取到企业的地理信息,建立企业的经纬度的原始地理信息;将获取到的信息存储于分布式文件系统中;并使用ElasticSearch来建立对应的索引文件。为企业地理区位分析、查询、业务拓展、价值挖掘以及隐藏的地域、地理商业价值的分析和挖掘提供数据获取、存储和搜索的技术支撑。ElasticSearch满足分布式全文搜索的需要,搜索性能稳定、可靠、快速,可实现实时搜索,满足建立亿数量级别的企业地理信息搜索的需要。
Description
技术领域
本发明互联网信息处理领域,特别涉及用于互联网垂直搜索的企业位置信息存储方法。
背景技术
以信息技术发展为代表的社会进步,数据信息的积累以级数速度增长,网络技术的发展促进了信息的传播和积累,网络信息数据涵盖了社会、经济、政治、行业、企业、组织、个人活动的方方面面,数据量大和价值密度低却是困扰如此海量数据信息挖掘利用的难题,在海量的数据里面,如何精确的获得人们关心的信息成为迫切解决的问题,在巨大的市场需求面前,互联网搜索和大数据分析成为当今互联网应用的热门;各种搜索引擎也应运而生,其中垂直搜索引擎是针对某一个行业的专业搜索引擎,相对通用搜索引擎的信息量大、查询不准确、深度不够等缺点,垂直搜索通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务,具有“专业”、“精准”、“深度挖掘”的特点,且具有行业色彩。然而目前市场针对企业的垂直搜索还比较鲜见。
而企业信息是数据分析的重要一环;在数据分析中具有重要的意义,由于企业作为社会经济中最重要的活动主体,在经济中扮演着重要的角色,对于企业信息的整理和分析可以了解企业的背景、勾勒出企业活动的生产情况、经营状况、人员信息、投资情况、股东构成、企业资质、资产规模、资产增长情况以及异常情况。这些信息对于监控企业发展状态和防范企业经营风险具有极其重要的意义,而在企业的信息中地理信息是相当重要的一环,对于企业本身的区域关联、业务拓展、价值挖掘,以及整体经济的区域分类,隐藏的地域、地理商业价值的分析和挖掘都大有裨益。
现有的公用地理信息地图系统,没有公开的专门的搜索企业以及企业关系的搜索平台,只有酒店,餐馆、景点等的专门搜索;大而全的通用搜索,突出不了专注企业搜索的意义;更搜索不了以某个位置为中心的周围的不知道名字的企业。所以结合已有的大数据量的企业信息,建立专门的企业地理信息系统对针对企业信息大数据分析的公司是必要的需求。
而要建立这样的系统,首先要做的就是集合企业数据,建立企业位置信息高效的获取和存储系统。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供用于互联网垂直搜索的企业位置信息存储方法。通过使用企业基本信息来获取企业地理信息;在获取的地理信息上建立适当的存储模型和查询模型,为基于地理位置的企业信息查询提供基础。
为了实现上述发明目的,本发明提供了以下技术方案:
用于互联网垂直搜索的企业位置信息存储方法,根据企业地址调用地图平台接口来获取企业的地理经纬度信息,将企业信息和获取到的经纬度信息存储于分布式文件系统中;建立包含企业名称、经度和纬度字段的索引映射格式;将存储于分布式文件系统中的企业信息和对应的经纬度信息导入索引中。
作为一种优选,所述分布式系统为HDFS。
作为一种优选,使用ElasticSearch来建立搜索索引。
作为一种优选,所述方法包含以下实现步骤:
(1)通过网络爬虫来获取企业名称和对应的地址信息;
(2)根据企业地址信息调用地图平台接口来获取对应的企业地理经纬度信息;
(3)将获取到的企业名称、企业地址和企业经度信息、企业纬度信息存储于HDFS分布式文件系统中;
(4)创建ElasticSearch索引格式,所述索引存储的字段包含企业名称、企业地址和企业经度信息、企业纬度信息;
(5)将HDFS分布式文件系统存储的企业名称、企业地址和企业经度信息、企业纬度信息导入索引之中,形成基于ElasticSearch的企业地理信息索引文件。
进一步的,所述步骤(5)中,用Mapreduce云计算批量读取企业名称、企业地址和企业经度信息、企业纬度信息文件,按照索引映射格式把每条企业信息数据的:企业名称对应写入索引的name,企业地址对应写入索引的addr,企业地理信息经度对应写入索引的lon,企业地理信息纬度对应写入索引的lat。
与现有技术相比,本发明的有益效果:本发明提供用于互联网垂直搜索的企业位置信息存储方法,本发明方法通过已获取的企业地址信息调用公开数据平台的接口获得对应的企业地理经纬度信息,并将获取到的企业信息(包括:名称、地址、地理经纬度信息)存储于分布式文件夹系统中,在此基础上使用适合分布式全文搜索的ElasticSearch来建立搜索的索引文件,为专门针对企业的垂直搜索提供了数据获取、数据存储和数据搜索的技术基础,能够满足建立亿数量级别的企业地理信息搜索的需要;为用户使用WEB端口访问和查询企业相关信息提供了便利。本发明方法专门针对企业来进行地理信息的获取和索引构建,弥补了现有公开地图平台中没有专门针对企业地理信息服务的缺失;在企业地理区位分析、查询、业务拓展、价值挖掘,以及整体经济的区域分类,隐藏的地域、地理商业价值的分析和挖掘具有重要的使用价值。
附图说明:
图1为本用于互联网垂直搜索的企业位置信息存储方法的实现过程示意图。
图2为本发明方法实施例1的实施流程示意图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
本发明提供用于互联网垂直搜索的企业位置信息存储方法。通过使用企业基本信息来获取企业地理信息;在获取的地理信息上建立适当的存储模型和查询模型,为基于地理位置的企业信息查询提供基础。
为了实现上述发明目的,本发明提供了以下技术方案:
用于互联网垂直搜索的企业位置信息存储方法,根据企业地址调用地图平台接口来获取企业的地理经纬度信息,将企业信息和获取到的经纬度信息存储于分布式文件系统中;建立包含企业名称、经度和纬度字段的索引映射格式;将存储于分布式文件系统中的企业信息和对应的经纬度信息导入索引中。本发明方法建立专门针对企业的地理信息获取和存储索引,弥补了现有地图平台缺乏专门针对企业信息地图信息服务的缺失;为针对企业的垂直搜索提供了基础。对于企业本身的区域关联、业务拓展、价值挖掘,以及整体经济的区域分类,隐藏的地域、地理商业价值的分析和挖掘具有重要的意义。
进一步的,所述分布式系统为HDFS。HDFS作为Hadoop下面的分布式文件系统,具有高度容错性,适合部署在廉价的机器上,运行和维护成本较低。同时HDFS非常适合用于大规模数据集;采用HDFS来存储待处理数据可以满足海量数据存储,高容错性的需要,为云计算和批量处理提供文件存储基础。
进一步的,本发明方法使用ElasticSearch来建立索引,ElasticSearch是一个基于Lucene的搜索服务器,提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口,方便用户通过web接口来搜索和读取数据。ElasticSearch设计用于云计算中,搜索性能稳定,可靠,快速,能够满足实时搜索的需要;安装使用方便,易于扩展,通过扩展机器建立集群,能适应大数据时代数据量增长和机器量整数平行增长的要求。
进一步的,本发明方法包含如图1所示的以下实现步骤:
(1)通过网络爬虫来获取企业名称和对应的地址信息;并将获取到的企业名称和对应地址信息存储于HDFS分布式文件系统中。互联网中包含广泛丰富的信息来源,从互联网中根据需要爬取相关信息,并将获取的信息进行深度处理,为信息的精细化处理和深度应用提供途径。并且将从互联网中采集的海量数据存储于HDFS分布式文件系统中,为数据的批量存储和读取提供了前提。
(2)根据企业地址信息调用地图平台接口来获取对应的企业地理经纬度信息;目前公开的地图数据平台很多,根据企业地址在公开数据平台上自动获取企业的经纬度信息,快速便捷,成本较低;为数据深度分析和再加工利用应用创造了前提条件。
(3)将获取到的企业名称、企业地址和企业经度信息、企业纬度信息存储于HDFS分布式文件系统中;
(4)创建ElasticSearch索引格式,所述索引存储的字段包含企业名称、企业地址和企业经度信息、企业纬度信息;
(5)用Mapreduce云计算批量读取企业名称、企业地址和企业经度信息、企业纬度信息文件,按照索引映射格式把每条企业信息数据的:企业名称对应写入索引的name,企业地址对应写入索引的addr,企业地理信息经度对应写入索引的lon,企业地理信息纬度对应写入索引的lat。云计算平台的大数据处理框架例如Hadoop体系下的MapReduce和Spark等,通过将任务自动切分,分配到多个节点处理,分而自治的方式,可以实现海量数据的并行的处理,极大的提高了数据的处理效率。
实施例1
从网络上根据字段设置爬取到企业名称和对应的地址信息,例如企业名称为成都ABCD科技有限公司,地址为:成都市天府大道中段xx号,根据企业地址信息调用公开地图平台接口获取到企业地址对应的地理经纬度信息为:
{″status″:0,″result″:{″location″:{″lng″:105.07392899855,″lat″:36.555138880016},″precise″:1,″confidence″:80,″level″:″\u5546\u52a1\u5927\u53a6″}}从返回信息可以获取到经度为105.07392899855,纬度为36.555138880016,将获取到的经纬度信息存储于HDFS分布式文件系统中,以上过程完成了经纬度信息的获取和存储过程。
安装部署ElasticSearch,从https://www.elastic.co/downloads/elasticsearch下载对应版本的ElasticSearch:如elasticsearch1.7,解压缩tar-zxvfelasticsearch1.7.tar.gz,修改配置文件Vi Elasticsearch1.7/config/elasticsearch.yml找到:cluster.name,去掉前面的#,修改为cluster.name:bbd_search_test;完成验证。
创建ElasticSearch索引映射格式
a.按照需求索引将要存储的字段包括:_id(唯一标识),企业名称,企业地址,企业经度,企业纬度
b.根据上面需要保存的json格式的索引映射文件addr.json内容为:
c.通过Resutful命令提交准备的映射文件到集群,建立索引格式。
Mapreduce云计算导入企业地理信息进入索引,用Mapreduce云计算批量读取存储于HDFS分布式文件系统中的企业信息文件,按照索引映射格式把每条企业信息数据的:企业名称对应写入索引的name,企业地址对应写入索引的addr,企业地理信息经度对应写入索引的lon,企业地理信息纬度对应写入索引的lat。上述数据的获取、存储已经建立索引的流程如图2所示。
原始数据文件:
成都ABCD科技有限公司 成都市天府大道中段xx号
获取到经纬度信息的企业文件:
成都ABCD科技有限公司 成都市天府大道中段xx号
105.07392899855 36.555138880016
建立的ElasticSearch文件如下:
{
·″_index″:″addrs″,
·″_type″:″addr″,
·″_version″:1,
·″_score″:1,
·″_source″:{
о″id″:″17312216″,
о″name″:″成都ABCD科技有限公司″,
о″addr″:″成都市天府大道中段xx号″,
о″lon″:105.07392899855,
о″lat″:36.555138880016,
о″ident″:″|_|成都ABCD科技有限公司″
}
}
经过上述过程建立起了企业名称、地址、地理信息的数据存储,并且建立了相应的索引,为相关的企业搜索提供了基础。可以看出以上仅为一个简单示例来说明数据的获取和索引的建立过程,实际上在大数据处理中针对的是千万级或者数亿级的海量目标来进行上述过程的操作和实现,本发明方法采用云计算平台下的分布式存储系统,满足了海量数据的存储和快速读取的需要;并且选用ElasticSearch来建立索引格式,ElasticSearch建立索引快速、稳定,适于扩展;并使用云计算框架下的Mapreduce将存储于HDFS分布式文件系统中的数据批量读取到索引之中,处理速度极快、效率显著、通过使用ElasticSearch可以建立亿数量级别的企业地理信息搜索的需要,为建立全量企业地理信息检索提供技术支撑。
Claims (6)
1.用于互联网垂直搜索的企业位置信息存储方法,其特征在于,根据企业地址调用地图平台接口来获取企业的地理经纬度信息,将企业信息和获取到的经纬度信息存储于分布式文件系统中;建立包含企业名称、经度和纬度字段的索引映射格式;将存储于分布式文件系统中的企业信息和对应的经纬度信息导入索引中。
2.如权利要求1所述的方法,其特征在于,所述分布式文件系统为HDFS。
3.如权利要求1所述的方法,其特征在于,使用ElasticSearch来建立索引。
4.如权利要求1至3之一所述的方法,其特征在于,所述方法包含以下实现步骤:
(1)通过网络爬虫来获取企业名称和对应的地址信息;
(2)根据企业地址信息调用地图平台接口来获取对应的企业的地理经纬度信息;
(3)将获取到的企业名称、企业地址和企业经度信息、企业纬度信息存储于HDFS分布式文件系统中;
(4)创建ElasticSearch索引格式,所述索引存储的字段包含企业名称、企业地址和企业经度信息、企业纬度信息;
(5)将HDFS分布式文件系统中所存储的企业名称、企业地址和企业经度信息、企业纬度信息导入索引之中,形成基于ElasticSearch的企业地理信息索引文件。
5.如权利要求4所述的方法,其特征在于,所述步骤(5)中,用Mapreduce云计算批量读取企业名称、企业地址和企业经度信息、企业纬度信息文件写入索引中。
6.如权利要求5所述的方法,其特征在于,所述步骤(5)中,按照索引映射格式把每条企业信息数据的:企业名称对应写入索引的name,企业地址对应写入索引的addr,企业地理信息经度对应写入索引的lon,企业地理信息纬度对应写入索引的lat。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610387589.4A CN107463561A (zh) | 2016-06-05 | 2016-06-05 | 用于互联网垂直搜索的企业位置信息存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610387589.4A CN107463561A (zh) | 2016-06-05 | 2016-06-05 | 用于互联网垂直搜索的企业位置信息存储方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107463561A true CN107463561A (zh) | 2017-12-12 |
Family
ID=60545474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610387589.4A Withdrawn CN107463561A (zh) | 2016-06-05 | 2016-06-05 | 用于互联网垂直搜索的企业位置信息存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107463561A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344341A (zh) * | 2018-10-31 | 2019-02-15 | 长春理工大学 | 一种中文地理信息查询方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101228524A (zh) * | 2005-05-27 | 2008-07-23 | 谷歌公司 | 将地图浏览有关的边界用于企业位置搜索 |
CN103116610A (zh) * | 2013-01-23 | 2013-05-22 | 浙江大学 | 基于HBase的矢量空间大数据存储方法 |
US9182895B1 (en) * | 2004-03-24 | 2015-11-10 | A9.Com, Inc. | Displaying representative images in a visual mapping system |
CN105373559A (zh) * | 2014-08-26 | 2016-03-02 | 深圳市赛格导航科技股份有限公司 | 一种地理信息获取方法及地理信息获取系统 |
-
2016
- 2016-06-05 CN CN201610387589.4A patent/CN107463561A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9182895B1 (en) * | 2004-03-24 | 2015-11-10 | A9.Com, Inc. | Displaying representative images in a visual mapping system |
CN101228524A (zh) * | 2005-05-27 | 2008-07-23 | 谷歌公司 | 将地图浏览有关的边界用于企业位置搜索 |
CN103116610A (zh) * | 2013-01-23 | 2013-05-22 | 浙江大学 | 基于HBase的矢量空间大数据存储方法 |
CN105373559A (zh) * | 2014-08-26 | 2016-03-02 | 深圳市赛格导航科技股份有限公司 | 一种地理信息获取方法及地理信息获取系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344341A (zh) * | 2018-10-31 | 2019-02-15 | 长春理工大学 | 一种中文地理信息查询方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110704411B (zh) | 适用于艺术领域的知识图谱搭建方法及装置、电子设备 | |
CN104050196B (zh) | 一种兴趣点数据冗余检测方法及装置 | |
CN105045869B (zh) | 基于多数据中心的自然资源地理空间数据组织方法和系统 | |
CN105138592A (zh) | 一种基于分布式架构的日志数据存储和检索方法 | |
CN107895026A (zh) | 一种校园用户画像的实现方法 | |
CN109635068A (zh) | 云计算环境下的海量遥感数据高效组织及快速检索方法 | |
CN107463557A (zh) | 一种企业位置信息存储系统 | |
Rousseau | A view on big data and its relation to Informetrics | |
CN107944036B (zh) | 一种图谱变化差异的获取方法 | |
CN104486777B (zh) | 一种实现数据处理的方法及装置 | |
CN104239377A (zh) | 跨平台的数据检索方法及装置 | |
CN102880709A (zh) | 数据仓库管理系统和数据仓库管理方法 | |
Roick et al. | OSMatrix–grid-based analysis and visualization of OpenStreetMap | |
CN104834650A (zh) | 一种有效查询任务生成方法及系统 | |
CN107463559A (zh) | 一种企业位置信息获取分析及存储系统 | |
CN109657914A (zh) | 信息推送方法、装置、计算机设备及存储介质 | |
CN111859187B (zh) | 基于分布式图数据库的poi查询方法、装置、设备及介质 | |
Jendryke et al. | Big location‐based social media messages from China's Sina Weibo network: Collection, storage, visualization, and potential ways of analysis | |
CN108345662A (zh) | 一种考虑用户分布区域差异的签到微博数据加权统计方法 | |
CN102591935A (zh) | 一种分布式数据存储管理方法及系统 | |
CN106326344B (zh) | 一种分散式大数据管理与检索的方法 | |
CN104850623B (zh) | 多维度数据分析模型动态扩展方法和系统 | |
Janecka et al. | 3D cadastres best practices, chapter 4: 3D spatial DBMS for 3D cadastres | |
CN107463561A (zh) | 用于互联网垂直搜索的企业位置信息存储方法 | |
CN107463560A (zh) | 用于垂直搜索的企业位置信息获取分析及存储方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20171212 |