CN110609936A - 一种模糊地址数据智能分类的方法 - Google Patents
一种模糊地址数据智能分类的方法 Download PDFInfo
- Publication number
- CN110609936A CN110609936A CN201810600183.9A CN201810600183A CN110609936A CN 110609936 A CN110609936 A CN 110609936A CN 201810600183 A CN201810600183 A CN 201810600183A CN 110609936 A CN110609936 A CN 110609936A
- Authority
- CN
- China
- Prior art keywords
- address
- data
- address data
- classification
- accuracy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000011218 segmentation Effects 0.000 claims abstract description 21
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 12
- 238000010801 machine learning Methods 0.000 claims abstract description 11
- 238000012706 support-vector machine Methods 0.000 claims abstract description 6
- 238000007477 logistic regression Methods 0.000 claims abstract description 5
- 230000009193 crawling Effects 0.000 claims abstract description 3
- 238000012549 training Methods 0.000 claims description 12
- 238000013145 classification model Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 2
- 238000005538 encapsulation Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims 1
- 238000012360 testing method Methods 0.000 abstract description 7
- 238000007635 classification algorithm Methods 0.000 abstract description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000011435 rock Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000220317 Rosa Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种使用模糊地址智能匹配,实现地址代码分类的方法。同一个地址,在不同的信息系统中,或互联网访问过程中,存在描述不尽相同,地址数据描述不完整或描述有误的情况。地址数据属于信息数据的基本元素,地址数据如果存在以上的问题,将影响对数据的深度利用。如果通过人工的方式,逐一进行清洗归类,工作繁琐,容易出错。本发明,通过机器学习的方式,对已完成地址分类的数据进行分析和学习,训练出地址数据智能分类器。其中通过对互联网地址数据的爬取和整合,形成地址数据分词库,用于提高地址数据分词的效率和准确性;机器学习的方法,主要采用多种分类算法进行测试和比较,选择出性能和准确性比较优秀的算法。其中包括朴素贝叶斯、逻辑回归和支持向量机等算法。这一发明不仅可以大大减少地址数据人工分类的工作量,提高准确率,还可以在应用中,利用新的地址数据,对模型进行持续优化。
Description
技术领域
本发明涉及机器学习多类分类和网络爬虫领域,具体涉及一种利用网络爬虫技术对网络地址数据的爬取,构建地址分词库,特别是一种利用涉及机器学习进行多类分类模型的训练,利用支持朴素贝叶斯、逻辑回归、支持向量机等算法训练地址分类模型,实现地址数据的智能分类。
背景技术
现在需要将地址文本进行分类,匹配到对应的地址编码上,这是地址信息数据应用经常遇到的一项技术难题。
现在一般采用人工方法进行地址分类。这涉及到标准地址库建设,或靠经验比较丰富的工作人员进行手工分类。标准地址库建设,一般使用人工编码建设。其工作量大,也存在编码错误。完成标准地址库建设后,人工对地址文本进行匹配,产生地址编码容易出现错误匹配和工作量大的问题。
如果能采用机器学习的方法,对以往已经匹配上的历史地址数据进行分析和学习,完成模型的训练,实现对新的地址数据进行模糊的智能分类,减少人工工作量的同时,提高匹配的效率和准确率。
如果在模型训练之前,能够通过网络爬虫技术爬取相关的地址名称,构建地址分词库,将能够进一步提高对地址数据分析的效率和准确率。
如果能够利用新匹配上的地址数据,定期进行模型的优化,将能够持续的提高模型泛化的能力。
发明内容
本发明要解决的技术问题是地址数据分类模型的训练,实现智能的分类。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明首先借助机器学习的能力,对已匹配上的历史地址数据进行相关性分析,分析每个地址词语对分类结论的影响。
其次本发明通过多种机器学习的分类算法,包括朴素贝叶斯、逻辑回归和支持向量机等进行测试和分析,训练出高效和准确率达标的分类模型。
为了提高历史地址数据分析的效率和准确率,通过网络爬虫技术抓取标准的地址名称,构建地址分词的专用词库。
最后,利用训练出来的地址分类模型,对新地址进行匹配分类,匹配上对应的地址代码。
模型的分类过程自动化,本模型具有持续优化的特点。
附图说明
为了更清楚地说明本发明的技术方案,附图用来提供对本发明的进一步理解,并且构成说明书的一部分,并不构成对本发明的限制。对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为地址智能分类流程结构图;
图2为地址智能分类总体架构图;
图3为地址智能分类自定义词库模型图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
步骤1:自定义词库模型,根据道路名称、区街道乡镇名称、村委会名称以及居委会名称制定自定义词库模型。
步骤2:通过网络爬虫抓取数据,完善自定义词库,从互联网上抓取佛山市所有区、所有街道的数据;本实施例爬取的URL地址为:
http://fs.city8.com/road/C/、http://poi.mapbar.com/foshan/C60/;
步骤3:给定一个目标URL后,通过抓包的方式,获取数据的真实请求地址。接着采用httpclient模拟浏览器将相应的数据抓取下来(一般是html文件或者是json数据)。
步骤4:由于网页中的内容很多,很复杂,很多内容并不是我们需要的,所以我们需要对其进行解析。针对html的解析很简单,通过Jsoup(Dom解析工具)、正则表达式便可完成。
步骤5:最终通过互联网抓取分别形成:“居委会村委会”数据771条,内容格式:“澜石社区居委会、新龙村委会”;“道路名称”数据8607条,内容格式:“金源一街、解放东路”;如表1所示。
行政区 | 所辖居委会名称 |
禅城区 | 澜石社区居委会 |
禅城区 | 惠景社区居委会 |
禅城区 | 玫瑰社区居委会 |
禅城区 | 福华社区居委会 |
禅城区 | 绿景社区居委会 |
禅城区 | 澜石社区居委会 |
表1 居委会词库信息表
步骤6:结合上个步骤的网络爬虫获取到的居委会村委会以及道路名称来丰富自定义词库,通过自定义词库来将训练数据进行分词,自定义词库分词与人工分词、机器分词(不添加任何自定义词库)比对结果如下:
地址数据:佛山市三水区大塘镇永平圩商业三街29号(自编号)之一
i)人工分词结果:佛山市/三水区/大塘镇/永平圩/商业/三街/29号/(自编号)/之一
ii)机器分词(Jieba)结果:佛山市/三水区/大塘/镇/永平/圩/商业/三街/29/号/(/自/编号/)/之一
iii)自定义词库分词(Jieba)结果:佛山市/三水区/大塘镇/永平圩/商业/三街/29/号/(/自/编号/)/之一
尽管在语言学语义学上,词有着相对清晰的定义,对于计算机处理自然语言来说,分词很多时候没有放之四海皆准的共同标准,由上可知,没有自定义词库的机器分词明显不符合正常的人工分词标准,然而自定义词库分词由于丰富了词库,分词效果更加接近人类大脑的人工分词,这使得后续在选取数据特征时会更加准确、智能。
步骤7:数据预处理;数据预处理主要包括清洗噪声数据、处理空值、增加数据属性、注意过度拟合等。噪声数据是指训练数据中无用或者分类编码为空的数据,干扰项的数据,如表4所示;
地址数据 | Code |
″佛山市″ | ″4406″ |
″三水区″ | ″440607″ |
″下朗大道″ | ″440604003″ |
″佛山市顺德区乐从镇荷岳路小涌左3号商业区″ | Null |
″佛山市南海区桂城街道天安数码新城3栋″ | Null |
表4 地址噪声数据表
步骤8:本实施例是属于多累分类的模型,因此在算法选择上优先选择分类算法;
步骤9:在分类算法中,分别做相关实验测试,具体步骤如下:使用测试一种算法时,先选取训练数据5w,然后用另外5w数据进行验证并记录准确率,在选取训练数据10w,用另外10w数据进行验证并记录准确率,以此类推,再使用其他算法或算法结合方式以相同测试模式进行测试并记录准确率。如表5所示:
表5 算法测试准确率统计表
所以基于上表,地址数据模型转换经过多种算法训练测试,最终选定以下三种算法结合使用:朴素贝叶斯、逻辑回归、支持向量机。
步骤10:最后,将以上模型导出进行服务封装,即可被调用使用,当用户输入一个地址时,模型会将未标注的地址根据自定义地址分词词库进行分词,服务会自动将该地址按照模型进行分类,并将分类好的编码返回给用户达到编码分类的目的。
以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.本发明公开了一种地址匹配,完成地址编码分类的方法。其特征在于,通过机器学习的方式,对已完成地址分类的数据进行分析和学习,训练出地址数据智能分类器。其中通过对互联网地址数据的爬取和整合,形成地址数据分词库,用于提高地址数据分词的效率和准确性;其中数据需先进行预处理过程,提取数据相关特征,更好的用于模型训练,提高分类模型的准确度。
具体步骤为:
步骤A:利用互联网爬虫技术获取乡镇街道以及居委会村委会等标准地址,构造自定义地址分词词库。
步骤B:利用提供的已有分类的数据,并基于自定义地址分词词库进行数据预处理过程。
步骤C:利用支持向量机等多种机器学习算法结合使用以及根据预处理的数据进行训练,得到分类模型。
步骤D:将模型进行服务封装,当有新地址输入时,服务会自动将该地址按照已构建的模型进行分类,实现自动化效果。
2.根据权利要求1所述,步骤A利用网络爬虫从互联网获取地址,并构造自定义地址分词词库,其特征在于,利用互联网获取的地址构造分词词库,而不需要使用人工构造分词词库。
3.根据权利要求1所述,步骤B对已分类的数据进行数据预处理过程,其特征在于,基于自定义地址分词词库来实现噪声数据、数据属性等数据清洗过程,并实现特征提取。
4.根据权利要求1所述,步骤C其特征在于使用的是支持向量机&朴素贝叶斯&逻辑回归三种机器学习算法结合对已标识地址进行训练分类器,而不是采取单一的机器学习方法。
5.根据权利要求1所述,步骤D其特征在于不需要手工去匹配,能实现自动化地址数据分类过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810600183.9A CN110609936A (zh) | 2018-06-11 | 2018-06-11 | 一种模糊地址数据智能分类的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810600183.9A CN110609936A (zh) | 2018-06-11 | 2018-06-11 | 一种模糊地址数据智能分类的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110609936A true CN110609936A (zh) | 2019-12-24 |
Family
ID=68887489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810600183.9A Pending CN110609936A (zh) | 2018-06-11 | 2018-06-11 | 一种模糊地址数据智能分类的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110609936A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112040005A (zh) * | 2020-09-10 | 2020-12-04 | 辽宁省交通高等专科学校 | 一种基于大数据的数据分包处理系统 |
CN112671614A (zh) * | 2020-12-29 | 2021-04-16 | 中国平安人寿保险股份有限公司 | 关联系统连通性测试方法、系统、装置及存储介质 |
CN114528404A (zh) * | 2022-02-18 | 2022-05-24 | 浪潮卓数大数据产业发展有限公司 | 一种识别省市区的方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101128821A (zh) * | 2004-12-30 | 2008-02-20 | 谷歌公司 | 不明确地理引用的分类 |
CN104750852A (zh) * | 2015-04-14 | 2015-07-01 | 海量云图(北京)数据技术有限公司 | 中文地址数据的发现与分类方法 |
CN105335352A (zh) * | 2015-11-30 | 2016-02-17 | 武汉大学 | 基于微博情感的实体识别方法 |
CN106096623A (zh) * | 2016-05-25 | 2016-11-09 | 中山大学 | 一种犯罪识别与预测方法 |
WO2016179987A1 (zh) * | 2015-05-12 | 2016-11-17 | 深圳市华傲数据技术有限公司 | 中文地址分词标注方法 |
CN107885849A (zh) * | 2017-11-13 | 2018-04-06 | 成都蓝景信息技术有限公司 | 一种基于文本分类的情绪指数分析系统 |
-
2018
- 2018-06-11 CN CN201810600183.9A patent/CN110609936A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101128821A (zh) * | 2004-12-30 | 2008-02-20 | 谷歌公司 | 不明确地理引用的分类 |
CN104750852A (zh) * | 2015-04-14 | 2015-07-01 | 海量云图(北京)数据技术有限公司 | 中文地址数据的发现与分类方法 |
WO2016179987A1 (zh) * | 2015-05-12 | 2016-11-17 | 深圳市华傲数据技术有限公司 | 中文地址分词标注方法 |
CN105335352A (zh) * | 2015-11-30 | 2016-02-17 | 武汉大学 | 基于微博情感的实体识别方法 |
CN106096623A (zh) * | 2016-05-25 | 2016-11-09 | 中山大学 | 一种犯罪识别与预测方法 |
CN107885849A (zh) * | 2017-11-13 | 2018-04-06 | 成都蓝景信息技术有限公司 | 一种基于文本分类的情绪指数分析系统 |
Non-Patent Citations (2)
Title |
---|
吕欢欢: "基于地理信息公共服务平台的语义地名地址匹配方法研究", 《中国博士学位论文全文数据库 (基础科学辑)(月刊)》 * |
吕欢欢: "基于地理信息公共服务平台的语义地名地址匹配方法研究", 《中国博士学位论文全文数据库 (基础科学辑)(月刊)》, no. 02, 15 February 2017 (2017-02-15), pages 008 - 11 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112040005A (zh) * | 2020-09-10 | 2020-12-04 | 辽宁省交通高等专科学校 | 一种基于大数据的数据分包处理系统 |
CN112671614A (zh) * | 2020-12-29 | 2021-04-16 | 中国平安人寿保险股份有限公司 | 关联系统连通性测试方法、系统、装置及存储介质 |
CN112671614B (zh) * | 2020-12-29 | 2023-06-27 | 中国平安人寿保险股份有限公司 | 关联系统连通性测试方法、系统、装置及存储介质 |
CN114528404A (zh) * | 2022-02-18 | 2022-05-24 | 浪潮卓数大数据产业发展有限公司 | 一种识别省市区的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN101093478B (zh) | 一种根据实体的汉语简称识别汉语全称的方法及系统 | |
CN110175613A (zh) | 基于多尺度特征和编解码器模型的街景图像语义分割方法 | |
CN101692639A (zh) | 一种基于url的不良网页识别方法 | |
CN107004141A (zh) | 对大样本组的高效标注 | |
CN111709244B (zh) | 一种用于矛盾纠纷事件因果关系识别的深度学习方法 | |
CN110457579B (zh) | 基于模板和分类器协同工作的网页去噪方法及系统 | |
CN105389480A (zh) | 多类不平衡基因组学数据迭代集成特征选择方法及系统 | |
CN110609936A (zh) | 一种模糊地址数据智能分类的方法 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN103617203B (zh) | 基于查询驱动的蛋白质-配体绑定位点预测方法 | |
CN103440315B (zh) | 一种基于主题的Web页面清洗方法 | |
CN106909611A (zh) | 一种基于文本信息抽取的酒店自动匹配方法 | |
CN113033198B (zh) | 相似文本推送方法、装置、电子设备及计算机存储介质 | |
CN109325125B (zh) | 一种基于cnn优化的社交网络谣言检测方法 | |
WO2016112782A1 (zh) | 一种用户的生活圈提取方法及系统 | |
CN107577744A (zh) | 非标地址自动匹配模型、匹配方法以及模型建立方法 | |
CN107463711A (zh) | 一种数据的标签匹配方法及装置 | |
CN110334904A (zh) | 基于LightGBM的关键信息基础设施类型单位归属判定方法 | |
CN111833310A (zh) | 一种基于神经网络架构搜索的表面缺陷分类方法 | |
CN112883730A (zh) | 相似文本匹配方法、装置、电子设备及存储介质 | |
CN102521402B (zh) | 文本过滤系统及方法 | |
CN117237559A (zh) | 面向数字孪生城市的三维模型数据智能分析方法及系统 | |
CN113438209B (zh) | 一种基于改进的Stacking策略的钓鱼网站检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191224 |