CN112231431A

CN112231431A - 一种异常地址识别方法、设备和计算机可读存储介质

Info

Publication number: CN112231431A
Application number: CN202011435570.5A
Authority: CN
Inventors: 蒋晟; 万文兵; 施志晖; 尹昕玮; 曹佳莉; 刘颖
Original assignee: Jiangsu Suning Bank Co Ltd
Current assignee: Jiangsu Sushang Bank Co ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-01-15
Anticipated expiration: 2040-12-11
Also published as: CN112231431B

Abstract

本发明公开了一种异常地址识别方法、设备和计算机可读存储介质。该方法包括将客户输入的地址转化为标准地址；基于地址规则的有限状态机对标准地址进行识别，识别结果包括通过和不通过，不通过则判断为异常地址；采用机器学习算法对地址进行分析，以计算获得有限状态机规则的地址为正常地址的概率，如所述概率低于设定阈值，则判断为异常地址；将异常地址进行汇总统计，生成识别结果报告。本发明通过针对地址进行标准化，将地址转换为符合语法规则的标准，便于进行规则校验；通过基于地址规则的有限状态机，可以对输入地址的规则进行校验，比正则表达式要灵活强大许多，可以在降低使用和维护成本的同时，大大提高异常地址的识别效率。

Description

一种异常地址识别方法、设备和计算机可读存储介质

技术领域

本发明涉及异常地址识别技术领域，具体涉及一种异常地址识别方法、设备和计算机可读存储介质。

背景技术

2020年5月，中国银保监会办公厅下发了《关于开展监管数据质量专项治理工作的通知》，以切实提升银行业保险业监管数据质量。其中，数据质量治理主要关注数据四大质量，包括数据真实性、准确性、完整性、及时性等。

通过对各种信息系统的建设，目前金融机构基本解决了数据有无的问题，但是数据的完整性、准确性等质量问题还有待提高。比如，根据人民银行反洗钱要求，客户通讯地址必须满足11个字符，而实际情况存在不少客户地址并不满足这个要求，有些地址就算超过11个字符，也不一定是所谓的地址，甚至其中还有一些乱码等，这个问题在线上业务中尤为明显。

而目前业界常用的数据管控系统，对异常地址的判定仅仅是限于通用的正则表达式规则，有些甚至只能提供长度上的检验，这样找出来的异常地址并不全面，更不用说全面提高数据质量了。

发明内容

本发明的目的是针对现有技术存在的不足，提供一种异常地址识别方法、设备和计算机可读存储介质。

为实现上述目的，在第一方面，本发明提供了一种异常地址识别方法，包括：

步骤S1：将客户输入的地址转化为标准地址；

步骤S2：基于地址规则的有限状态机对所述标准地址进行识别，以获得识别结果，所述识别结果包括通过和不通过，如识别结果为通过，则进行下一步骤，否则判断为异常地址；

步骤S3：采用机器学习算法对通过有限状态机规则的地址进行分析，以计算获得所述有限状态机规则的地址为正常地址的概率，如所述概率低于设定阈值，则判断为异常地址；

步骤S4：将异常地址进行汇总统计，生成识别结果报告。

进一步的，所述步骤S1包括向客户输入的地址中填充缺失省市区行政区划字段，具体包括：

步骤S101：根据最新的国家地区标准，构建标准地址库；

步骤S102：找到关键词并将其与标准地址库对比，找到其对应的省市区；

步骤S103：将新得到的词条进行合并至客户输入的地址。

进一步的，采用机器学习算法对通过有限状态机规则的地址进行分析具体包括：

步骤S301：收集数据集，所述数据集包括正常的地址数据和异常的地址数据；

步骤S302：将所述数据集中的地址分成多个词组，并计算每一词组的TF-IDF值，以获取每一地址的特征矩阵；

步骤S303：调用逻辑回归算法，并以每一地址的特征矩阵作为参数训练检测模型；

步骤S304：测试模型效果。

进一步的，所述步骤S4具体包括：

步骤S401：汇总异常地址数据；

步骤S402：为每一异常地址分别标注出问题所在；

步骤S402：在识别结果报告中统计问题分类，并以图形化展示。

在第二方面，本发明提供了一种异常地址识别设备，包括：

地址标准化模块，用以将客户输入的地址转化为标准地址；

有限状态机模块，用以基于地址规则的有限状态机对所述标准地址进行识别，以获得识别结果，所述识别结果包括通过和不通过，如不通过，则判断为异常地址；

机器学习模块，用以采用机器学习算法对通过有限状态机规则的地址进行分析，以计算获得所述有限状态机规则的地址为正常地址的概率，如所述概率低于设定阈值，则判断为异常地址；

异常数据统计模块，用以将异常地址进行汇总统计，生成识别结果报告。

进一步的，所述地址标准化模块通过向客户输入的地址中填充缺失省市区行政区划字段以转化为标准地址，具体包括：

根据最新的国家地区标准，构建标准地址库；

找到关键词并将其与标准地址库对比，找到其对应的省市区；

将新得到的词条进行合并至客户输入的地址。

进一步的，所述机器学习模块包括：

收集单元，用以收集数据集，所述数据集包括正常的地址数据和异常的地址数据；

分词计算单元，用以将所述数据集中的地址分成多个词组，并计算每一词组的TF-IDF值，以获取每一地址的特征矩阵；

模型训练单元，用以调用逻辑回归算法，并以每一地址的特征矩阵作为参数训练检测模型；

进一步的，所述异常数据统计模块包括：

汇总单元，用以汇总异常地址数据；

标注单元，用以为每一异常地址分别标注出问题所在；

分类统计单元，用以在识别结果报告中统计问题分类，并以图形化展示。

在第三方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被计算机的处理器执行时，使计算机执行上述方法。

有益效果：本发明通过针对地址进行标准化，将语义上合理的地址转换为符合语法规则的标准，可以便于进行规则校验；通过基于地址规则的有限状态机，可以对输入地址的规则进行校验，比正则表达式要灵活强大许多；通过机器学习算法，可以将形式上符合规则，但是语义上不一定正确的地址找出，本发明创造性的结合了有限状态机规则与机器学习算法，既能精准判断形式不符合规则的地址，又能挖掘潜在规律，识别内容异常的地址。此外，本发明不需要额外采购新的应用系统和大量的人力投入，可以在降低使用和维护成本的同时，大大提高异常地址的识别效率。

附图说明

图1是本发明实施例的异常地址识别方法的流程示意图；

图2是本发明实施例的地址规则有限状态机模型图；

图3是本发明实施例的异常地址识别设备的示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，本实施例在以本发明技术方案为前提下进行实施，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。

如图1所示，本发明实施例提供了一种异常地址识别方法，包括：

步骤S1：将客户输入的地址转化为标准地址。客户在办理业务时输入地址，目前，客户一般输入的地址为非标准化的，如果客户输入的地址为标准地址，就无需进行转化。标准地址格式分为五级，其中：一级包含：省、自治区、直辖市、特别行政区；二级包含：地级市、地区、自治州、盟；三级包含：市辖区、县级市、县、自治县、旗、自治旗、特区、林区；四级包含：街道、镇、乡、苏木、民族乡、民族苏木；五级包含：居委会、村委会。国家标准来自《中华人民共和国行政区划代码》和《县以下行政区划代码编制规则》。

一般客户仅输入四级地址和五级地址，根据实际需求，一般补充省市区三级即可。具体的，步骤S1包括向客户输入的地址中填充缺失省市区行政区划字段，具体包括：

步骤S101：根据最新的国家地区标准，构建标准地址库。

步骤S102：找到关键词并将其与标准地址库对比，找到其对应的省市区。

步骤S103：将新得到的词条进行合并至客户输入的地址。

比如，原始地址为“建邺区江东中路371号”，可以识别到关键词“建邺区”，通过和地址标准库查询匹配得到“江苏省”，“南京市”，“建邺区”，最后将地址合并为“江苏省南京市建邺区江东中路371号”。

步骤S2：基于地址规则的有限状态机对标准地址进行识别，以获得识别结果，识别结果包括通过和不通过，如识别结果为通过，则进行下一步骤，否则判断为异常地址。

具体的，有限状态机是一种特殊的有向图，它包括一些状态（节点）和连接这些状态的有向弧，一般用来进行对象行为建模的工具，其作用主要是描述对象在它的生命周期内所经历的状态序列，以及如何响应来自外界的各种事件。在计算机科学中，有限状态机被广泛用于建模应用行为、硬件电路系统设计、软件工程，编译器、网络协议、和计算与语言的研究。本实现方式中，地址规则有限状态机模型图如图2所示，每一个有限状态机都有一个开始状态和终止状态，以及若干中间状态。每一条弧上带有从一个状态进入下一个状态的条件。比如，在图2中，当前的状态是“省”，如果遇到一个词组和区县名有关，就进入状态“区县”；如果遇到下一个词组和城市有关，那么就进入“市”的状态，如此等等。比如，“江苏省南京市建邺区江东中路371号”对于上面的有限状态机来讲有效，而“江苏省亭湖区盐城市”则无效（因为无法从“区”走回到“市”）。

步骤S3：采用机器学习算法对通过有限状态机规则的地址进行分析，以计算获得所述有限状态机规则的地址为正常地址的概率，如概率低于设定阈值，则判断为异常地址。具体的，概率的取值范围在0至1之间，设定阈值可以为0.5，当概率在0.5以上时，即判断为正常地址，当概率在0.5以下时，则判断为异常地址。

具体的，采用机器学习算法对通过有限状态机规则的地址进行分析具体包括：

步骤S301：收集数据集，数据集包括正常的地址数据和异常的地址数据。正常的地址数据和异常的地址数据均可从业务数据库中进行抽取，如人工标记出1000条异常地址数据和10000条正常地址作为数据集。无论是正常还是异常的地址，都是不定长的字符串，很难直接用逻辑回归算法对这些不规律的数据进行处理，所以需要找到这些文本的数字特征，用来训练检测模型。

步骤S302：将数据集中的地址分成多个词组，并计算每一词组的TF-IDF值，以获取每一地址的特征矩阵。

在这里，我们使用TF-IDF来作为文本的特征，并以数字矩阵的形式进行输出。TF词频（Term Frequency），表示词条t在某文档中出现的频率, 这个数字通常会被归一化，一般是词频除以文档总词数, 以防止它偏向长的文件，公式如下：

IDF 逆文档频率（Inverse Document Frequency），表示一个词语,普遍重要性的度量，可以由总文档数目N除以包含该词语之文档的数目

，分母+1是为了避免分母为0，再将得到的商取对数得到，公式如下：

由上述公式可得，

。

要计算TF-IDF之前，首先要对每个文档（地址）内容进行分词处理。在汉语语境下，地址数据由连续的汉字组成，以及少量的数字，我们使用中文分词器jieba分词完成这个工作。比如，“江苏省南京市建邺区江东中路371号”这个地址，经过分词后，得到[‘江苏省’，‘南京市’，‘建邺区’，‘江东中路’，‘371’，‘号’]，然后根据上述公式计算出每个词条的TF-IDF权值，全部计算完成后得到TF-IDF特征矩阵，这是一个稀疏矩阵，简化后输出格式如下：

(12668, 219) 0.3549476352163743

(12668, 177) 0.3716803056252614

(12668, 134) 0.47785425886096417

(12668, 133) 0.5286626409419861

(12668, 99) 0.18123262949076246

(12668, 64) 0.4418051380791802

可以看出特征矩阵的元素由[(i,j) weight]三个元素组成，在矩阵中：i对应于某一条文档，这里是一条地址数据，j对应于词片编号，矩阵元素[(i,j) weight] 表示编号为j的词片在编号为i的文档下的TF-IDF权值。

步骤S303：调用逻辑回归算法，并以每一地址的特征矩阵作为参数（训练的数据集）训练检测模型。即采用最优化算法，寻找最佳拟合系数。

具体的，我们选择Sigmoid函数作为分类器函数，公式如下：

其中，e为自然对数底数，z为函数参数，为了实现逻辑回归分类器，我们在每个特征上都乘以一个回归系数，然后把所有值相加，形如：

其中，n为大于零的自然数，将z代入Sigmoid函数，进而得到一个范围在0-1之间的数值。任何大于0.5的数据被分入正常类，小于0.5即归入异常类。上述公式可写成

，其中，T表示矩阵转置，向量x是分类器的输入数据，即我们的特征矩阵，向量w就是我们要找的最佳拟合系数，从而使分类器尽可能的准确。最后，我们使用梯度上升算法来迭代求解向量w，直到算法达到某个可以允许的误差范围，模型训练完成。

步骤S304：测试模型效果。经过训练之后的模型，就可以选择一批数据来计算模型的准确度，也可以通过预测方法对新的地址是否异常进行判定，即将新数据的特征矩阵代入到S函数中，计算相应的概率。

步骤S4：将异常地址进行汇总统计，生成识别结果报告。这些异常地址可交由业务人员进行手动修正，也可以用于机器学习模型的进一步迭代训练，以提高模型的准确度。

其中，步骤S4具体包括：

步骤S401：汇总异常地址数据；

步骤S402：为每一异常地址分别标注出问题所在；

如图3所示，基于以上实施例，本领域技术人员可以理解，本发明还提供了一种异常地址识别设备，包括地址标准化模块100、有限状态机模块200、机器学习模块300和异常数据统计模块400。

其中，地址标准化模块100用以将客户输入的地址转化为标准地址。客户在办理业务时输入地址，目前，客户一般输入的地址为非标准化的，如果客户输入的地址为标准地址，就无需进行转化。标准地址格式分为五级，其中：一级包含：省、自治区、直辖市、特别行政区；二级包含：地级市、地区、自治州、盟；三级包含：市辖区、县级市、县、自治县、旗、自治旗、特区、林区；四级包含：街道、镇、乡、苏木、民族乡、民族苏木；五级包含：居委会、村委会。国家标准来自《中华人民共和国行政区划代码》和《县以下行政区划代码编制规则》。

一般客户仅输入四级地址和五级地址，根据实际需求，一般补充省市区三级即可。地址标准化模块100通过向客户输入的地址中填充缺失省市区行政区划字段以转化为标准地址，具体包括：根据最新的国家地区标准，构建标准地址库；找到关键词并将其与标准地址库对比，找到其对应的省市区；将新得到的词条进行合并至客户输入的地址。

有限状态机模块200用以基于地址规则的有限状态机对标准地址进行识别，以获得识别结果，识别结果包括通过和不通过，如识别结果为通过，则进一步通过机器学习模块300判断，否则判断为异常地址。

机器学习模块300用以采用机器学习算法对通过有限状态机规则的地址进行分析，以计算获得有限状态机规则的地址为正常地址的概率，如概率低于设定阈值，则判断为异常地址。具体的，概率的取值范围在0至1之间，设定阈值可以为0.5，当概率在0.5以上时，即判断为正常地址，当概率在0.5以下时，则判断为异常地址。

具体来说，机器学习模块300包括收集单元、分词计算单元和模型训练单元。

其中，收集单元用以收集数据集，数据集包括正常的地址数据和异常的地址数据。正常的地址数据和异常的地址数据均可从业务数据库中进行抽取，如人工标记出1000条异常地址数据和10000条正常地址作为数据集。无论是正常还是异常的地址，都是不定长的字符串，很难直接用逻辑回归算法对这些不规律的数据进行处理，所以需要找到这些文本的数字特征，用来训练我们的检测模型。

分词计算单元用以将数据集中的地址分成多个词组，并计算每一词组的TF-IDF值，以获取每一地址的特征矩阵。

由上述公式可得，

。

(12668, 219) 0.3549476352163743

(12668, 177) 0.3716803056252614

(12668, 134) 0.47785425886096417

(12668, 133) 0.5286626409419861

(12668, 99) 0.18123262949076246

(12668, 64) 0.4418051380791802

模型训练单元用以调用逻辑回归算法，并以每一地址的特征矩阵作为参数（训练的数据集）训练检测模型。即采用最优化算法，寻找最佳拟合系数。

具体的，我们选择Sigmoid函数作为分类器函数，公式如下：

经过训练之后的模型，就可以选择一批数据来计算模型的准确度，也可以通过预测方法对新的地址是否异常进行判定，即将新数据的特征矩阵代入到S函数中，计算相应的概率，以此测试模型效果。

异常数据统计模块4用以将异常地址进行汇总统计，生成识别结果报告。这些异常地址可交由业务人员进行手动修正，也可以用于机器学习模型的进一步迭代训练，以提高模型的准确度。

具体的，异常数据统计模块4包括汇总单元、标注单元和分类统计单元。其中，汇总单元用以汇总异常地址数据。标注单元用以为每一异常地址分别标注出问题所在。分类统计单元用以在识别结果报告中统计问题分类，并以图形化展示。

基于以上实施例，本领域技术人员可以理解，本发明还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被计算机的处理器执行时，使计算机执行上述异常地址识别方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，其它未具体描述的部分，属于现有技术或公知常识。在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种异常地址识别方法，其特征在于，包括：

步骤S1：将客户输入的地址转化为标准地址；

步骤S4：将异常地址进行汇总统计，生成识别结果报告。

2.根据权利要求1所述的异常地址识别方法，其特征在于，所述步骤S1包括向客户输入的地址中填充缺失省市区行政区划字段，具体包括：

步骤S101：根据最新的国家地区标准，构建标准地址库；

步骤S103：将新得到的词条进行合并至客户输入的地址。

3.根据权利要求1所述的异常地址识别方法，其特征在于，采用机器学习算法对通过有限状态机规则的地址进行分析具体包括：

步骤S304：测试模型效果。

4.根据权利要求1所述的异常地址识别方法，其特征在于，所述步骤S4具体包括：

步骤S401：汇总异常地址数据；

步骤S402：为每一异常地址分别标注出问题所在；

5.一种异常地址识别设备，其特征在于，包括：

地址标准化模块，用以将客户输入的地址转化为标准地址；

6.根据权利要求5所述的异常地址识别设备，其特征在于，所述地址标准化模块通过向客户输入的地址中填充缺失省市区行政区划字段以转化为标准地址，具体包括：

根据最新的国家地区标准，构建标准地址库；

将新得到的词条进行合并至客户输入的地址。

7.根据权利要求5所述的异常地址识别设备，其特征在于，所述机器学习模块包括：

模型训练单元，用以调用逻辑回归算法，并以每一地址的特征矩阵作为参数训练检测模型。

8.根据权利要求1所述的异常地址识别设备，其特征在于，所述异常数据统计模块包括：

汇总单元，用以汇总异常地址数据；

标注单元，用以为每一异常地址分别标注出问题所在；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被计算机的处理器执行时，使计算机执行权利要求1至4任一所述的方法。