CN109684440A

CN109684440A - 基于层级标注的地址相似度度量方法

Info

Publication number: CN109684440A
Application number: CN201811527681.1A
Authority: CN
Inventors: 陈清华; 王建斌; 张常青; 刘晶; 南晓杰; 杨秀波; 张江; 朱瑞鹤; 邓建博; 李本继
Original assignee: Beijing Huiyingjin Technology Co Ltd; Beijing Normal University
Current assignee: Beijing Huiyingjin Technology Co Ltd; Beijing Normal University
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2019-04-26
Anticipated expiration: 2038-12-13
Also published as: CN109684440B

Abstract

本发明公开了基于层级标注的地址相似度计算方法。利用已有的少量层级标注数据产生充足样本训练Address‑LSTM模型作为系统的核心实施基于自动地址层级标注的地址相似度计算。实际运行中，对输入地址数据进行清洗、补全、去除异常符号及其他处理，通过分词、正则表达及再拼接等过程将原始字符串分解成适当的子串序列，利用已经训练好的Address‑LSTM模型标注出每个子串的地址层级标签，然后运用多相似度计算模块及综合集成的方法给出地址间的综合相似度指标。本发明通过部署到计算机上的程序运行，可以大量缩短甚至避免人工核对，在保证准确度的情况下提高金融数据中的实体辨识效率。

Description

基于层级标注的地址相似度度量方法

技术领域

本发明涉及计算机技术领域,具体属于自然语言处理领域，应用目标为地址识别(toponym recognition)，主要致力于研究地址字符串数据之间相似度的计算，具体涉及分词、基于序列层级自动标注、词向量、编辑距离、机器学习中的LSTM和BP神经网络模块以及自然语言处理中的word2vector。

背景技术

近年来，随着网络和经济的发展，一些银行和金融公司开始越来越多的向普通用户提供贷款服务。这些公司在为用户提供服务的时候，会收集用户的一些个人信息作为衡量是否向用户提供服务的标准。在这些个人信息中，较为重要的一个信息是用户的地址信息。因为目前许多金融欺诈的团伙会存在诸多联系，在某些地址(如住址，房产证地址，公司名称)上往往存在极大的相似性，所以企业或公司可以通过地址的相似性审查来降低企业遭受欺诈的风险。在以往的地址相似性审查中，鉴于数据量比较少，所以一般都是进行人工对比，审查某个地址是否在其地址数据库中或者判断该地址与地址数据库中的哪个地址相似。但是，人工审查有很多弊端，例如，每个人对于某两个地址的相似度估计都是不一样的，其中的主观因素很大；此外，由于数据量越来越大，人工审查的方式日益显得低效且不经济。在其他行业内，也会有地址信息的审查。同一个地址，因为书写简单或出现错别字等情况，可能造成机器不能识别为同一地址。不仅给信审的审核带来干扰，也给图谱的构建增加困难。地址的不规范只是一个例子，此外，公司名称的简写、缩写或出现错别字，同样需要增加人力去判别。另外，信审部门、电话催收、客服等人员在工作过程中写的备注信息，爬虫获取的新闻舆情等外部数据，也存在地址识别上的困难。因此，寻找一种能够较好地计算两个地址相似性的方法显得尤为重要。

虽然已有一些使用计算机来比较地址相似度的研究，但是以往判断地址相似性的算法一般是基于字符串的对比，这种方法的效果不是很好。例如，在一般的对比地址字符串的算法中往往将整个地址串做精确匹配，这种对比算法泛化能力很弱，容易造成大量数据无法和历史数据匹配，容易将有一些关系的地址识别为不一致；另一种常用的方法就是模糊匹配算法，但是其匹配方式过于粗糙笼统，容易造成匹配准确率偏低的现象。在模糊匹配中，常用的方法是编辑距离，但实际效果不是很好，因为两个词可能编辑距离小，但是在语义空间上差别会很大。例如，计算机在识别两个地址时候，单纯用编辑距离的方法来判断会存在一些误判，例如“北师大”和“北京师范大学”的编辑距离大，“北师大”和“北大”的编辑距离小。基于此情况，本发明开创性地将深度学习方面的前沿技术与传统问题(字符串比较)结合，利用命名实体识别模型将每一个地址串按一定的规则拆分成各个层级，然后使用集成学习中的相关算法计算每对地址串的总体相似性，得出其最终的相似度。

目前，得益于机器学习和深度学习领域的快速发展，一些中文命名实体识别技术得到了广泛的发展和应用。中文命名实体识别是NLP(自然语言处理)领域中的一个基本的问题，简单来说就是将一段文本序列中包含的感兴趣的实体识别出来，例如人名，地名和机构名等。一般来说进行命名实体识别的方法可以分成两大类：基于规则的方法和基于统计的方法。基于规则的方法是要人工建立实体识别规则，存在着成本高昂的缺点。基于统计的方法一般需要语料库来进行训练，常用的方法有HMM、CRF和神经网络等方法。在实际应用中，一些中文命名实体识别模型已经有一些应用，包括人名的识别、地名的识别、会议名称的识别。但如何快速精准判断两个地址的相似性分析上还没有获得突破性的进步。分析其原因是这些识别计算忽略了地址具有一般字符串所不具有的特点，地址数据具有层次性，省级的差别和村级的差别是不同的。为了更好地实现地址的比较，需要发展专门的基于地址层级的相似度分析框架。

一些可能的技术可能应用在这个方面，主要包括以下几个方面。

LSTM(Long Short-Term Memory)是长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM已经在科技领域有了多种应用。基于LSTM的系统可以学习翻译语言、控制机器人、图像分析、文档摘要、语音识别图像识别、手写识别、控制聊天机器人、预测疾病、点击率和股票、合成音乐等等任务。Hochreater和Schmidhuber在1997年提出了LSTM的网络结构，LSTM通过输入门、遗忘门和输出门这三个这样的结构来实现信息的保护和控制。LSTM目前大量使用在具有顺序的信息处理方面，包括文本信息和音频信息等，在实体命名识别中也有很多用途。将LSTM与RNN结合在序列处理方面表现出更好的效果。

此外，还有一些字符串相似度比较算法：包括编辑距离、Word2vec距离等。

编辑距离算法，具体是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。

Word2vec的定义是使用神经网络将one-hot形式的词向量映射到分布式形式的词向量。它其实就是通过学习文本来用词向量的方式表征词的语义信息，即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。两个词的相似度可以通过这两个词的word2vec向量的余弦距离等进行衡量。

传统上已经有归一化Google距离(Normalized Google Distance)的概念，这是一种语义相似性的度量方法，由给定一组关键词集合的Google搜索引擎所返回的命中数量得出。在自然语言中，具有相同或相似意思的两个关键字在以归一化谷歌距离为单位的情况下趋向于“接近”，意思不同的两个关键字则趋向于“疏远”。

集成学习就是指采某种方式将多个结果综合起来，BP神经网络模块可以作为一种集成分析，它是一种按照误差逆向传播算法训练的多层前馈神经网络，可以通过训练得到一个较好的连边权重的赋值。

发明内容

本发明公开了基于层级标注的地址相似度计算方法。利用已有的层级标注数据训练Address-LSTM模型作为系统的核心实施基于自动地址层级标注的地址相似度计算。实际运行中，对输入地址数据进行清洗、补全、去除异常符号及其他处理，通过分词、正则表达及再拼接等过程将原始字符串分解成适当的子串序列，利用已经训练好的Address-LSTM模型标注出每个子串的地址层级标签，然后运用不同相似度计算方法及集成综合的方法计算出地址间的综合相似度指标。

我们基于LSTM构架和地址层级的特征发展出适合地址层级标注的Address-LSTM模型，可以判断一个完整的地址串中哪一部分是省的信息，哪一部分是小区的信息。使用该模型，计算机就可以很容易的将规范化后的字符串地址转换成带层级标注的字符串序列，进而可以找到每对地址字符串对应的层级。

在相似度计算方法的构建中，我们提出了基于汉语拼音编辑距离算法，就是除了直接比较汉字串之间的编辑距离外，我们将汉字转化为拼音，比较拼音之间的编辑距离；我们还提出了搜索结果相似度的计算方法，通过比较两个不同词通过搜索引擎返回的结果的相似性来比较距离。

本发明定义了一些层级相似性规则，例如文本间的、数字之间的、房间号之间的包含性相似性度量规则，使用正则表达式提取相应的信息并使用传统的字符串对比计算每对地址串的各个层级中地址实体间的相似性。

本发明可以得到地址字符串的自动层级标注序列、地址字符串的自动层级拆分、命名实体在语义空间中的分布以及任意两个命名实体在此空间中的距离。此外，本发明的思路及模型略加改动即可用于其他的领域，如计算两个公司或者机构的名称相似度。

步骤1.生成训练数据，进行模型训练得到训练好的Address-LSTM模型

1-1)收集地址串数据，去除无关字符，通过标准地址库补全、修正及其他规范化处理，得到完整的地址串数据，然后通过分词软件和基于地址保留词(如省、市、区、镇、路、号等)的一些规范操作将地址分解为顺序相连的子串，子串的数量按要求，如不超过12，超过后需要进行一定的归并操作；

1-2)将1-1)中得到的地址串的各个子串按一定的地址分级标准进行标注(如采用省/直辖市、市/市辖区、县/区、乡/街道、行政村/自然村、道路、门牌号、住宅小区、楼号、单元、楼层、房间号这样标准的12级)。这部分必须辅以人工协助，以获得绝对准确可靠的数据；

1-3)利用1-2)中层级标注了的地址子串数据，通过随机拼接的方式生成完整的地址串序列，这种随机组合生成的方式获得足够的训练样本，N个原始数据最多可以产生N¹²个训练数据；

1-4)创建适用于地址层级的机器学习LSTM模块框架，将1-3)中得到的数据整理为标准的训练数据格式来训练模型，最后得到训练好的Address-LSTM模型；

步骤2.清理地址数据，进行地址实体的识别及自动标注

2-1)实际比较过程中，与步骤1-1)类似，将输入的地址对进行清洗、补全及其他规范化等处理，如将楼号等信息由汉字转化为数字等，得到完整的地址串数据，然后通过分词软件和一些基于地址保留词的规范操作将地址分解为顺序相连的子串，子串的个数不超过12；

2-2)将2-1)得到的地址子串序列输入到1-4)中得到的Address-LSTM模型，进行地址实体的识别及层级标注，得到由各层级地址实体及其对应层级标签组成的地址串。

步骤3.使用多相似度度量和集成综合的方法计算地址相似性

3-1)定义数字层级、文本层级及房间号层级的包含相似性度量规则，判断每对地址串的相应层级中地址实体是否具有包含关系，如果具有则记相似度S_include(A,B)＝1，否则为0；

3-2)基于word2vec得到的向量X_A，X_B计算每对地址串的各个层级中地址实体的相似性度量其中|.|为模；

3-3)建立基于编辑距离计算每对地址串的各个层级中地址实体的相似性度量，其中L_A，L_B分别为字符串长度，S_A→B表示将A变成B需要的最小步数，max()为取最大值函数；

3-4)建立基于拼音的编辑距离计算每对地址串的各个层级中地址实体的相似性度量，首先将字符A、B转化为他们对应的拼音P_A,P_B，然后计算拼音之间的编辑距离

3-5)建立基于外源搜索，如百度搜索和谷歌搜索，获得搜索结果为网址列表，通过网址列表中相同网站的个数计算每对地址串的各个层级中地址实体的相似性度量S_baidu，此部分主要用于文本子串；

3-6)将以上3-1)至3-5)得到的结果S_include(A,B)，S_word2vetor(A,B)，S_Edit(A,B)，S_PEdit(A,B)，S_baidu向量以及其他相似度计算得到的结果拼接成新的向量，使用机器学习的BP模块计算出地址对的综合相似度。

有益效果

1、采用随机拼接的方式在少量精确标注的地址数据情况下可以获得大量可用的有效训练样本。

2、相较于人工对地址信息的进行对比、判断的方式。本方法利用了深度学习前沿领域的技术，使用计算机来对地址信息进行比较和判断。本方法极大地提高了此类工作的工作效率，并且在极大程度上克服了由于人工判断的主观因素而造成的相似度度量差异较大的缺点，提高了地址信息相似度度量的准确性。

3、相较于以往的字符串比较算法，本方法优于模糊匹配，比模糊匹配更精确，准确率更高；也优于目前国内大型金融公司信审端常使用的精确匹配方法，克服了精确匹配难以解决大量数据无法和历史数据匹配的问题。

4、相较于以往一些固化的字符串比较算法，本方法的泛化能力较强，易于扩展到其他应用。例如，本方法只需要将训练数据改为公司或者机构名称，就可以用于计算公司名称或机构名称的相似性。特别适用于具有层次或者等级的字符串数据比较。

附图说明

图1为训练得到Address-LSTM模型的流程示意图；

图2为计算地址相似度的整体流程示意图；

图3为Address-LSTM模型示意图；

图4为利用word2vec技术计算地址相似性的流程示意图。

图5为利用BP神经网络获得地址相似度的综合度量。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明：

本发明的思路是编写代码将少量原始数据进行清洗、补全、规范化、人工拆分和层级标注、拼接等处理得到标准的训练数据，将这些训练数据用于训练Address-LSTM模型，接着使用训练好的模型将需要对比的地址字符串进行命名实体的识别和层级标注，得到各个层级的地址实体，之后将这些层级标注了的地址字符串输入由包含关系规则的相似性计算方法模块、基于编辑距离的相似性计算方法模块、基于拼音编辑距离的相似性计算方法模块、基于Word2vec的相似性计算方法模块及基于百度搜索指标的相似性计算方法模块，计算出这对地址串的相似性向量，然后将相似度向量进行拼接组成一个向量并输入训练好的BP神经网络中计算预测出最终的相似度。

本发明方法的基本流程如图1、图2所示，具体包括以下步骤：

使用正则表达式对已有的原始数据进行诸如去掉括号等无用字符的处理、对不完整的地址按一定的规则(例如，根据城市补全省名)进行补全得到规范化的地址数据，如将“盘锦大洼县田庄台镇马莲社区兴隆家园1019楼2单元6302”数据补充为“辽宁市盘锦大洼县田庄台镇马莲社区兴隆家园1019楼2单元6302”。

表1某一标准训练数据的示例

将规范化的地址数据按自定义的层级标准进行拆分，并且添加对应的层级标签，得到带标签的每个层级的地址实体文件；采用随机拼接和替换的方式生成多对指定层级不相似的地址数据，并且对生成的数据进行规范化(例如，添加训练数据所必需的格式)，得到标准的训练数据。表1是被层级标注了的标准训练数据示例。其中，‘-DOCSTART--X--X--X-O’是文件头，左边一列(辽宁省、盘锦、大洼县等)是各个层级的地址实体，右边一列(CITY、VILL等)是各个层级的地址实体的标注。

编写代码，建立如图3所示的Address-LSTM模型，将训练数据输入模型进行训练，训练环节如图1所示。最后得到已经训练好的Address-LSTM模型可以对地址层级进行准确标注。需要将数据集分成两部分，一部分进行训练，一部分测试，不断测试模型对地址实体的层级标注效果，尽可能的找到效果较优的模型参数并保存。本过程要求测试的准确率达到一定的数值。否则进一步增加训练样本并保证标注的准确性，甚至采用人工协助的方式保证标注数据的准确性。将步骤1得到的训练数据用于训练该模型然后用测试数据测试模型对地址实体的层级标注效果，在训练的过程中，

步骤2.清理地址数据，进行地址实体的识别及自动标注

类似步骤1中，使用正则表达式对已有的原始数据进行诸如去掉括号等无用字符的处理、对不完整的地址按一定的规则进行补全得到规范化的地址数据。利用分词和其他规则将整个地址字符串拆分成多个子串的序列，如果分的过于细小，再采取一定的拼接规则，如少于2个长度的字符串合并到前一个串中，最终得到适当的子串数据。例如将“辽宁省盘锦大洼县田庄台镇马莲社区兴隆家园1019楼2单元6302”分解成“辽宁省-盘锦-大洼县-田庄台镇-马莲社区-兴隆家园-1019楼-2单元-6-302”。

表2利用Address-LSTM对真实地址得到的子串序列进行标注

将分解好真实的地址数据输入到步骤1得到的已经训练好的Address-LSTM模型，会得到相应的层级标注。表2表示两个地址数据输入后得到的标注序列。

步骤3.使用多相似度度量和集成综合的方法计算地址相似性

3-1)定义各个层级的地址实体的相似度度量规则。在表1所示的带有层级标注的真实地址，可以发现每个地址信息含有两类信息——数字和文本。本发明将地址信息归纳为三大类。基于此，本发明自定义了三个方面的地址实体的相似度度量规则，如表3所示。

表3地址实体层级的分类

构造基于这种规则的相似度计算方法，用于计算各个层级的地址实体进行相似度。地址对的相似性与其相似层级有关，本发明定义相似层级为某对地址串从第一个层级开始往后对比直到找到不相似的层级，此时不相似层级的前一级即为该对地址串的相似层级。例如，地址对“湖北省荆州市公安县埠河镇团结村四组”和“湖北省荆州市公安县埠河镇团结村四组4栋”，第6层级相同，则定义它们的相似层级为6。显然，相似度会随着相似层级的增加而变大。例如，一对相似到“TOWN”级别的地址对的相似性就会比相似到“CITY”的地址对相似性大。根据问卷调查，本发明定义了如表4所示的相似级别和相似性大小的关系。

表4相似级别和相似性大小的关系

层级	中文名称	说明	相似度问卷调查得分
				1	省/直辖市	行政省名称	0.00
2	市/市辖区	行政市名称	0.00
				3	县/区	行政区名称	0.19
4	乡/街道	乡/镇/街道	0.26
				5	行政村	村/委/社区	0.38
6	自然村	村/组	0.47
				7	道路	路/大道/道/街/巷	0.56
8	门牌号	号	0.63
				9	住宅小区	小区/区/新村/组/园/社	0.70
10	楼号	号/号楼/楼/幢/栋	0.78
				11	单元	单元	0.86
12	楼层	楼层	0.93
				13	房问号	室	1.00

3-2)基于word2vec得到的向量X_A，X_B计算每对地址串的各个层级中地址实体的相似性度量。Word2Vec的原理是通过学习文本来用词向量的方式表征词的语义信息，即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。可以使用两个向量之间的余弦距离来计算其中|.|为模。该过程的具体步骤如图4所示。

3-3)构造基于文本编辑距离的相似性计算模块，用于计算每对地址的各个层级的地址实体之间的相似性。编辑距离是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。基于此原理，两个地址串的编辑距离越小，则其相似度越大。具体计算表达为其中L_A，L_B分别为字符串长度，S_A→B表示将A变成B需要的最小步数。

3-4)构造基于拼音编辑距离的相似性计算模块，用于计算每对地址的各个层级的地址实体之间的相似性。首先将文本转化为拼音，其原理与文本编辑距离的分类器一致，可以用来解决同音不同字的误记录问题。

3-5)构造基于外源搜索指标的相似性计算模块，用于计算每对地址的各个层级的地址实体之间的相似性。其原理在于利用网络爬虫技术，向百度搜索递交搜索申请，统计两个字符串的百度搜索结果列表的链接排序相似性，例如前100个结果中相同的URL的数量，其占比作为相似度度量。

3-6)将以上3-1)至3-5)得到的结果向量拼接成新的向量，使用机器学习的BP模块计算出地址对的综合相似度。该过程的具体步骤如图5所示。

Claims

1.基于层级标注的地址相似度度量方法，其特征在于，包括以下步骤:

步骤1.基于少量具有精确标注信息的地址数据随机匹配生成大量训练样本，采用机器学习的LSTM模块进行训练，训练完成后将参数固定下来，用于步骤2中的地址层级自动标注；

步骤2.清理地址数据，进行地址实体的识别及自动标注：按规则清理和切分地址实体命名数据，使用已训练优化的模型将地址串进行层级标注；

步骤3.使用多相似度度量和集成综合的方法得到任意两个地址的综合相似性度量：通过一系列的相似度计算方法将每对地址串的对应层级地址进行相似度计算，然后将多个不同方法计算的相似度结果利用机器学习的BP神经网络集成为一个相似度指标。

2.如权利要求1所述的方法，其特征在于，所述步骤1包括：

1-1)收集地址串数据，去除无关字符，通过标准地址库补全、修正及其他规范化处理，得到完整的地址串数据，然后通过分词软件和基于地址保留词，如省、市、区、镇、路、号的规范操作，将地址分解为顺序相连的子串，子串的数量按要求，如不超过12，超过后需要进行归并操作；

1-2)将1-1)中得到的地址串的各个子串按一定的地址分级标准进行标注，如采用省/直辖市、市/市辖区、县/区、乡/街道、行政村/自然村、道路、门牌号、住宅小区、楼号、单元、楼层、房间号这样标准的12级，辅以人工协助，以获得绝对准确可靠的数据；

1-3)利用1-2)中层级标注了的地址子串数据，通过随机拼接的方式生成完整的地址串序列，这种随机组合生成的方式获得足够的训练样本，N个原始数据最多产生N¹²个训练数据；

1-4)创建适用于地址层级的机器学习LSTM模块框架，将1-3)中得到的数据整理为标准的训练数据格式来训练模型，最后得到训练好的Address-LSTM模型。

3.如权利要求1所述的方法，其特征在于，所述步骤2包括：

2-1)将输入的地址对进行清洗、补全及其他规范化等处理，如将楼号信息由汉字转化为数字，得到完整的地址串数据，然后通过分词软件和基于地址保留词的规范操作将地址分解为顺序相连的子串，子串的个数不超过12；

4.如权利要求1所述的方法，其特征在于，所述步骤3包括：

3-1)定义数字层级、文本层级及房间号层级的包含相似性度量规则，判断每对地址串的相应层级中地址实体是否具有包含关系，如果有则相似度S_include(A,B)＝1，否则为0；

3-3)建立基于编辑距离计算每对地址串的各个层级中地址实体的相似性度量，其中L_A，L_B分别为字符串长度，S_A→B表示将A变成B需要的最小步数；

3-5)建立基于外源搜索，如百度搜索和谷歌搜索，获得搜索结果为网址列表，通过网址列表中相同网站的个数计算每对地址串的各个层级中地址实体的相似性度量S_baidu；

3-6)将以上3-1)至3-5)得到的结果S_include(A,B)，S_word2vetor(A,B)，S_Edit(A,B)，S_PEdit(A,B)，S_baidu(A,B)向量以及其他相似度计算结果拼接成新的向量，使用机器学习的BP模块计算出地址对的综合相似度S_total(A,B)。