CN107562834A - 地理位置标准化提取的方法 - Google Patents
地理位置标准化提取的方法 Download PDFInfo
- Publication number
- CN107562834A CN107562834A CN201710731538.3A CN201710731538A CN107562834A CN 107562834 A CN107562834 A CN 107562834A CN 201710731538 A CN201710731538 A CN 201710731538A CN 107562834 A CN107562834 A CN 107562834A
- Authority
- CN
- China
- Prior art keywords
- dictionary
- location information
- geographical location
- geographic
- geographical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了地理位置标准化提取的方法,它包括以下步骤:构造基于百度地理标准的词典,网络爬取对应网址中中国的地理位置信息,爬取下来的地理位置信息按照位置、类型、权重值的格式以Tab键相隔形成词典;采用ansj分词器,优先调用基于百度地理标准的词典,再加载默认的词典,关闭人名字典的分词;对终端上报的地理位置信息,多线程调用ansj分词器的APT接口,切分出来的信息进行省、市、区的位置模糊匹配,去噪,依次确定相对的大地点;切出来的结果,按照mac对应地理位置写到数据库中,本发明在数据大量情况下,解析时间明显缩短。
Description
技术领域
本发明涉及网络技术领域,具体涉及一种地理位置标准化提取的方法。
背景技术
在数据量大量增加的情况下,对地址信息提取粒度和速度显得格外重要,因此需要一个快速和准确提取地址信息中的省、市、区、街的算法。现有的技术手段是通过多维度地理位置匹配,用未明确的地理位置模糊匹配已知的地理位置,该方法严重依赖已有地理位置,其完整性决定匹配概率,例如多维度匹配四川省成都市组地理位置需要模糊三十四个省以及各自对应的市匹配,计算次数是两个维度数量之积,依次类推,三个地理位置就是三个维度数量之积,算法复杂度非常高,时间花在多维模糊匹配,并且某某地理位置的缺失或者上传地理位置的某某字段的错误拼写会导致匹配上错误率上升,尤其具体到街道粒度很小信息,会因为大部分街道信息不全,导致该信息的被丢弃的现象,该技术符合正常的思维逻辑,用要解析的信息去匹配已有的信息。
发明内容
本发明克服了现有技术中多维度模糊匹配地址信息,导致算法复杂度高、运行时间缓慢的问题,提供一种在数据大量情况下,解析时间明显缩短的地理位置标准化提取的方法。
为解决上述的技术问题,本发明采用以下技术方案:
一种地理位置标准化提取的方法,它包括以下步骤:
步骤1,构造基于百度地理标准的词典,网络爬取对应网址中中国的地理位置信息,爬取下来的地理位置信息按照位置、类型、权重值的格式以Tab键相隔形成词典;
步骤2,采用ans j分词器,优先调用基于百度地理标准的词典,再加载默认的词典,关闭人名字典的分词;
步骤3,对终端上报的地理位置信息,多线程调用ans j分词器的APT接口,切分出来的信息进行省、市、区的位置模糊匹配,去噪,依次确定相对的大地点;
步骤4,切出来的结果,按照mac对应地理位置写到数据库中。
本发明中的分词方法切分地理位置信息,原理基于字典、词库匹配分词方法,处理文档信息前i个字段,查找字典,若字典中一个这样的i个词,则匹配成功,匹配字段被作为一个词切分出来,不成功,则去掉最后一个词,继续匹配,直至词长度为零,其处理维度从多维降到一维,运行效率提高,加上使用规范的地理位置词库,提高了切分地理位置的准确性。
与现有技术相比,本发明的有益效果是:
可以根据不同地理位置需求构造内置地理位置词典,封装起来,提高程序的复用性,使用分词从根本上解决信息被遗漏的问题,相比模糊匹配,算法复杂度降低,不需再写解决代码,直接操作调用,内置库保证信息被采集的准确率高于模糊匹配算法效果,分析效率大大提高,在数据大量情况下,解析时间明显缩短。
附图说明
图1为本发明一种实施例的地理位置标准化提取的方法的流程框图。
具体实施方式
下面结合附图对本发明作进一步阐述。
如图1所示,一种地理位置标准化提取的方法,它包括以下步骤:
S1,构造基于百度地理标准的词典,网络爬取对应网址(www.meet99.com)中中国的地理位置信息,爬取下来的地理位置信息按照位置、类型、权重值的格式以Tab键相隔形成词典;
S2,采用ans j分词器,优先调用基于百度地理标准的词典,再加载默认的词典,关闭人名字典的分词;
S3,对终端上报的地理位置信息,多线程调用ans j分词器的APT接口,切分出来的信息进行省、市、区的位置模糊匹配,去噪,依次确定相对的大地点,例如上报信息是“河南省新乡市苗寨乡苗寨十字街”,切词结果是:“河南省”“新乡市“苗寨乡”“苗寨”,“十字街”,大地点依次是河南省,新乡市,苗寨乡,确定好仨个位置,剩下的位置归一,结果是:河南省、新乡市、苗寨乡、苗寨十字街,切分的结果河南省、新乡市、苗寨乡、苗寨十字街,比较规整,符合最终结果,但有些地点位置上报切词后是[青海省/ns*,果洛/ns,州/n],正确结果应该是青海省、果洛市,针对这种切词结果,依靠规则最后一个字划归前一个结果中,地理位置信息,市,州,村这样的词不能作为开头,都可以得到正确的结果:青海省、果洛市;
S4,切出来的结果,按照mac对应地理位置写到数据库中。
以上具体实施方式对本发明的实质进行详细说明,但并不能对本发明的保护范围进行限制,显而易见地,在本发明的启示下,本技术领域普通技术人员还可以进行许多改进和修饰,需要注意的是,这些改进和修饰都落在本发明的权利要求保护范围之内。
Claims (1)
1.一种地理位置标准化提取的方法,其特征在于,它包括以下步骤:
步骤1,构造基于百度地理标准的词典,网络爬取对应网址中中国的地理位置信息,爬取下来的地理位置信息按照位置、类型、权重值的格式以Tab键相隔形成词典;
步骤2,采用ansj分词器,优先调用基于百度地理标准的词典,再加载默认的词典,关闭人名字典的分词;
步骤3,对终端上报的地理位置信息,多线程调用ansj分词器的APT接口,切分出来的信息进行省、市、区的位置模糊匹配,去噪,依次确定相对的大地点;
步骤4,切出来的结果,按照mac对应地理位置写到数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710731538.3A CN107562834A (zh) | 2017-08-23 | 2017-08-23 | 地理位置标准化提取的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710731538.3A CN107562834A (zh) | 2017-08-23 | 2017-08-23 | 地理位置标准化提取的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107562834A true CN107562834A (zh) | 2018-01-09 |
Family
ID=60976709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710731538.3A Pending CN107562834A (zh) | 2017-08-23 | 2017-08-23 | 地理位置标准化提取的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107562834A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509419A (zh) * | 2018-03-21 | 2018-09-07 | 山东中医药大学 | 中医药古籍文献分词和词性标引方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8832034B1 (en) * | 2008-07-03 | 2014-09-09 | Riverbed Technology, Inc. | Space-efficient, revision-tolerant data de-duplication |
CN105224622A (zh) * | 2015-09-22 | 2016-01-06 | 中国搜索信息科技股份有限公司 | 面向互联网的地名地址提取与标准化方法 |
CN105630765A (zh) * | 2015-12-21 | 2016-06-01 | 浙江万里学院 | 地名地址识别方法 |
WO2016179987A1 (zh) * | 2015-05-12 | 2016-11-17 | 深圳市华傲数据技术有限公司 | 中文地址分词标注方法 |
-
2017
- 2017-08-23 CN CN201710731538.3A patent/CN107562834A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8832034B1 (en) * | 2008-07-03 | 2014-09-09 | Riverbed Technology, Inc. | Space-efficient, revision-tolerant data de-duplication |
WO2016179987A1 (zh) * | 2015-05-12 | 2016-11-17 | 深圳市华傲数据技术有限公司 | 中文地址分词标注方法 |
CN105224622A (zh) * | 2015-09-22 | 2016-01-06 | 中国搜索信息科技股份有限公司 | 面向互联网的地名地址提取与标准化方法 |
CN105630765A (zh) * | 2015-12-21 | 2016-06-01 | 浙江万里学院 | 地名地址识别方法 |
Non-Patent Citations (2)
Title |
---|
WANGGUO: "开源Java中文分词器Ansj作者孙健专访", 《ITEYE网站 HTTPS://WWW.ITEYE.COM/MAGAZINES/102》 * |
程昌秀等: "一种基于规则的模糊中文地址分词匹配方法", 《地理与地理信息科学》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509419A (zh) * | 2018-03-21 | 2018-09-07 | 山东中医药大学 | 中医药古籍文献分词和词性标引方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11681944B2 (en) | System and method to generate a labeled dataset for training an entity detection system | |
US8745065B2 (en) | Query parsing for map search | |
WO2020108063A1 (zh) | 特征词的确定方法、装置和服务器 | |
US20170116224A1 (en) | Address Search Method and Device | |
CN100452042C (zh) | 数字串模糊匹配的方法 | |
CN106776544A (zh) | 人物关系识别方法及装置和分词方法 | |
CN111352907A (zh) | 流水文件解析方法、装置、计算机设备和存储介质 | |
US20080243905A1 (en) | Attribute extraction using limited training data | |
CN102411563A (zh) | 一种识别目标词的方法、装置及系统 | |
CN103970733B (zh) | 一种基于图结构的中文新词识别方法 | |
CN103076892A (zh) | 一种用于提供输入字符串所对应的输入候选项的方法与设备 | |
CN105573979B (zh) | 一种基于汉字混淆集的错字词知识生成方法 | |
CN103123618A (zh) | 文本相似度获取方法和装置 | |
CN105094368A (zh) | 一种对输入法候选项进行调频排序的控制方法及控制装置 | |
EP3483747A1 (en) | Preserving and processing ambiguity in natural language | |
CN107046586A (zh) | 一种基于类自然语言特征的算法生成域名检测方法 | |
CN107291684A (zh) | 语言文本的分词方法和系统 | |
CN113901214B (zh) | 表格信息的提取方法、装置、电子设备及存储介质 | |
CN107526721B (zh) | 一种对电商产品评论词汇的歧义消除方法及装置 | |
CN103955450A (zh) | 一种新词自动提取方法 | |
US20180217674A1 (en) | Stroke input method, device and system | |
CN103324742B (zh) | 推荐关键词的方法和设备 | |
CN107329950A (zh) | 一种基于无词典的中文地址分词方法 | |
CN103886077A (zh) | 短文本的聚类方法和系统 | |
CN107153469B (zh) | 为输入数据搜索匹配候选项的方法、数据库创建方法、装置及计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180109 |