CN110609936A

CN110609936A - 一种模糊地址数据智能分类的方法

Info

Publication number: CN110609936A
Application number: CN201810600183.9A
Authority: CN
Inventors: 彭本
Original assignee: Guangzhou Huazi Software Technology Co Ltd
Current assignee: Guangzhou Huazi Software Technology Co Ltd
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2019-12-24

Abstract

本发明公开了一种使用模糊地址智能匹配，实现地址代码分类的方法。同一个地址，在不同的信息系统中，或互联网访问过程中，存在描述不尽相同，地址数据描述不完整或描述有误的情况。地址数据属于信息数据的基本元素，地址数据如果存在以上的问题，将影响对数据的深度利用。如果通过人工的方式，逐一进行清洗归类，工作繁琐，容易出错。本发明，通过机器学习的方式，对已完成地址分类的数据进行分析和学习，训练出地址数据智能分类器。其中通过对互联网地址数据的爬取和整合，形成地址数据分词库，用于提高地址数据分词的效率和准确性；机器学习的方法，主要采用多种分类算法进行测试和比较，选择出性能和准确性比较优秀的算法。其中包括朴素贝叶斯、逻辑回归和支持向量机等算法。这一发明不仅可以大大减少地址数据人工分类的工作量，提高准确率，还可以在应用中，利用新的地址数据，对模型进行持续优化。

Description

一种模糊地址数据智能分类的方法

技术领域

本发明涉及机器学习多类分类和网络爬虫领域，具体涉及一种利用网络爬虫技术对网络地址数据的爬取，构建地址分词库，特别是一种利用涉及机器学习进行多类分类模型的训练，利用支持朴素贝叶斯、逻辑回归、支持向量机等算法训练地址分类模型，实现地址数据的智能分类。

背景技术

现在需要将地址文本进行分类，匹配到对应的地址编码上，这是地址信息数据应用经常遇到的一项技术难题。

现在一般采用人工方法进行地址分类。这涉及到标准地址库建设，或靠经验比较丰富的工作人员进行手工分类。标准地址库建设，一般使用人工编码建设。其工作量大，也存在编码错误。完成标准地址库建设后，人工对地址文本进行匹配，产生地址编码容易出现错误匹配和工作量大的问题。

如果能采用机器学习的方法，对以往已经匹配上的历史地址数据进行分析和学习，完成模型的训练，实现对新的地址数据进行模糊的智能分类，减少人工工作量的同时，提高匹配的效率和准确率。

如果在模型训练之前，能够通过网络爬虫技术爬取相关的地址名称，构建地址分词库，将能够进一步提高对地址数据分析的效率和准确率。

如果能够利用新匹配上的地址数据，定期进行模型的优化，将能够持续的提高模型泛化的能力。

发明内容

本发明要解决的技术问题是地址数据分类模型的训练，实现智能的分类。

为了解决上述技术问题，本发明提供了如下的技术方案：

本发明首先借助机器学习的能力，对已匹配上的历史地址数据进行相关性分析，分析每个地址词语对分类结论的影响。

其次本发明通过多种机器学习的分类算法，包括朴素贝叶斯、逻辑回归和支持向量机等进行测试和分析，训练出高效和准确率达标的分类模型。

为了提高历史地址数据分析的效率和准确率，通过网络爬虫技术抓取标准的地址名称，构建地址分词的专用词库。

最后，利用训练出来的地址分类模型，对新地址进行匹配分类，匹配上对应的地址代码。

模型的分类过程自动化，本模型具有持续优化的特点。

附图说明

为了更清楚地说明本发明的技术方案，附图用来提供对本发明的进一步理解，并且构成说明书的一部分，并不构成对本发明的限制。对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为地址智能分类流程结构图；

图2为地址智能分类总体架构图；

图3为地址智能分类自定义词库模型图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

步骤1：自定义词库模型，根据道路名称、区街道乡镇名称、村委会名称以及居委会名称制定自定义词库模型。

步骤2：通过网络爬虫抓取数据，完善自定义词库，从互联网上抓取佛山市所有区、所有街道的数据；本实施例爬取的URL地址为：

http：//fs.city8.com/road/C/、http：//poi.mapbar.com/foshan/C60/；

步骤3：给定一个目标URL后，通过抓包的方式，获取数据的真实请求地址。接着采用httpclient模拟浏览器将相应的数据抓取下来(一般是html文件或者是json数据)。

步骤4：由于网页中的内容很多，很复杂，很多内容并不是我们需要的，所以我们需要对其进行解析。针对html的解析很简单，通过Jsoup(Dom解析工具)、正则表达式便可完成。

步骤5：最终通过互联网抓取分别形成：“居委会村委会”数据771条，内容格式：“澜石社区居委会、新龙村委会”；“道路名称”数据8607条，内容格式：“金源一街、解放东路”；如表1所示。

行政区	所辖居委会名称
		禅城区	澜石社区居委会
禅城区	惠景社区居委会
		禅城区	玫瑰社区居委会
禅城区	福华社区居委会
		禅城区	绿景社区居委会
禅城区	澜石社区居委会

表1 居委会词库信息表

步骤6：结合上个步骤的网络爬虫获取到的居委会村委会以及道路名称来丰富自定义词库，通过自定义词库来将训练数据进行分词，自定义词库分词与人工分词、机器分词(不添加任何自定义词库)比对结果如下：

地址数据：佛山市三水区大塘镇永平圩商业三街29号(自编号)之一

i)人工分词结果：佛山市/三水区/大塘镇/永平圩/商业/三街/29号/(自编号)/之一

ii)机器分词(Jieba)结果：佛山市/三水区/大塘/镇/永平/圩/商业/三街/29/号/(/自/编号/)/之一

iii)自定义词库分词(Jieba)结果：佛山市/三水区/大塘镇/永平圩/商业/三街/29/号/(/自/编号/)/之一

尽管在语言学语义学上，词有着相对清晰的定义，对于计算机处理自然语言来说，分词很多时候没有放之四海皆准的共同标准，由上可知，没有自定义词库的机器分词明显不符合正常的人工分词标准，然而自定义词库分词由于丰富了词库，分词效果更加接近人类大脑的人工分词，这使得后续在选取数据特征时会更加准确、智能。

步骤7：数据预处理；数据预处理主要包括清洗噪声数据、处理空值、增加数据属性、注意过度拟合等。噪声数据是指训练数据中无用或者分类编码为空的数据，干扰项的数据，如表4所示；

地址数据	Code
		″佛山市″	″4406″
″三水区″	″440607″
		″下朗大道″	″440604003″
″佛山市顺德区乐从镇荷岳路小涌左3号商业区″	Null
		″佛山市南海区桂城街道天安数码新城3栋″	Null

表4 地址噪声数据表

步骤8：本实施例是属于多累分类的模型，因此在算法选择上优先选择分类算法；

步骤9：在分类算法中，分别做相关实验测试，具体步骤如下：使用测试一种算法时，先选取训练数据5w，然后用另外5w数据进行验证并记录准确率，在选取训练数据10w，用另外10w数据进行验证并记录准确率，以此类推，再使用其他算法或算法结合方式以相同测试模式进行测试并记录准确率。如表5所示：

表5 算法测试准确率统计表

所以基于上表，地址数据模型转换经过多种算法训练测试，最终选定以下三种算法结合使用：朴素贝叶斯、逻辑回归、支持向量机。

步骤10：最后，将以上模型导出进行服务封装，即可被调用使用，当用户输入一个地址时，模型会将未标注的地址根据自定义地址分词词库进行分词，服务会自动将该地址按照模型进行分类，并将分类好的编码返回给用户达到编码分类的目的。

以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.本发明公开了一种地址匹配，完成地址编码分类的方法。其特征在于，通过机器学习的方式，对已完成地址分类的数据进行分析和学习，训练出地址数据智能分类器。其中通过对互联网地址数据的爬取和整合，形成地址数据分词库，用于提高地址数据分词的效率和准确性；其中数据需先进行预处理过程，提取数据相关特征，更好的用于模型训练，提高分类模型的准确度。

具体步骤为：

步骤A：利用互联网爬虫技术获取乡镇街道以及居委会村委会等标准地址，构造自定义地址分词词库。

步骤B：利用提供的已有分类的数据，并基于自定义地址分词词库进行数据预处理过程。

步骤C：利用支持向量机等多种机器学习算法结合使用以及根据预处理的数据进行训练，得到分类模型。

步骤D：将模型进行服务封装，当有新地址输入时，服务会自动将该地址按照已构建的模型进行分类，实现自动化效果。

2.根据权利要求1所述，步骤A利用网络爬虫从互联网获取地址，并构造自定义地址分词词库，其特征在于，利用互联网获取的地址构造分词词库，而不需要使用人工构造分词词库。

3.根据权利要求1所述，步骤B对已分类的数据进行数据预处理过程，其特征在于，基于自定义地址分词词库来实现噪声数据、数据属性等数据清洗过程，并实现特征提取。

4.根据权利要求1所述，步骤C其特征在于使用的是支持向量机&朴素贝叶斯&逻辑回归三种机器学习算法结合对已标识地址进行训练分类器，而不是采取单一的机器学习方法。

5.根据权利要求1所述，步骤D其特征在于不需要手工去匹配，能实现自动化地址数据分类过程。