CN112231431A - 一种异常地址识别方法、设备和计算机可读存储介质 - Google Patents
一种异常地址识别方法、设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN112231431A CN112231431A CN202011435570.5A CN202011435570A CN112231431A CN 112231431 A CN112231431 A CN 112231431A CN 202011435570 A CN202011435570 A CN 202011435570A CN 112231431 A CN112231431 A CN 112231431A
- Authority
- CN
- China
- Prior art keywords
- address
- abnormal
- rule
- finite state
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 25
- 238000010801 machine learning Methods 0.000 claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 16
- 238000007477 logistic regression Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 230000002547 anomalous effect Effects 0.000 claims 2
- 238000012423 maintenance Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 10
- 230000006399 behavior Effects 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 150000003839 salts Chemical class 0.000 description 2
- 229910052709 silver Inorganic materials 0.000 description 2
- 239000004332 silver Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004900 laundering Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Remote Sensing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种异常地址识别方法、设备和计算机可读存储介质。该方法包括将客户输入的地址转化为标准地址;基于地址规则的有限状态机对标准地址进行识别,识别结果包括通过和不通过,不通过则判断为异常地址;采用机器学习算法对地址进行分析,以计算获得有限状态机规则的地址为正常地址的概率,如所述概率低于设定阈值,则判断为异常地址;将异常地址进行汇总统计,生成识别结果报告。本发明通过针对地址进行标准化,将地址转换为符合语法规则的标准,便于进行规则校验;通过基于地址规则的有限状态机,可以对输入地址的规则进行校验,比正则表达式要灵活强大许多,可以在降低使用和维护成本的同时,大大提高异常地址的识别效率。
Description
技术领域
本发明涉及异常地址识别技术领域,具体涉及一种异常地址识别方法、设备和计算机可读存储介质。
背景技术
2020年5月,中国银保监会办公厅下发了《关于开展监管数据质量专项治理工作的通知》,以切实提升银行业保险业监管数据质量。其中,数据质量治理主要关注数据四大质量,包括数据真实性、准确性、完整性、及时性等。
通过对各种信息系统的建设,目前金融机构基本解决了数据有无的问题,但是数据的完整性、准确性等质量问题还有待提高。比如,根据人民银行反洗钱要求,客户通讯地址必须满足11个字符,而实际情况存在不少客户地址并不满足这个要求,有些地址就算超过11个字符,也不一定是所谓的地址,甚至其中还有一些乱码等,这个问题在线上业务中尤为明显。
而目前业界常用的数据管控系统,对异常地址的判定仅仅是限于通用的正则表达式规则,有些甚至只能提供长度上的检验,这样找出来的异常地址并不全面,更不用说全面提高数据质量了。
发明内容
本发明的目的是针对现有技术存在的不足,提供一种异常地址识别方法、设备和计算机可读存储介质。
为实现上述目的,在第一方面,本发明提供了一种异常地址识别方法,包括:
步骤S1:将客户输入的地址转化为标准地址;
步骤S2:基于地址规则的有限状态机对所述标准地址进行识别,以获得识别结果,所述识别结果包括通过和不通过,如识别结果为通过,则进行下一步骤,否则判断为异常地址;
步骤S3:采用机器学习算法对通过有限状态机规则的地址进行分析,以计算获得所述有限状态机规则的地址为正常地址的概率,如所述概率低于设定阈值,则判断为异常地址;
步骤S4:将异常地址进行汇总统计,生成识别结果报告。
进一步的,所述步骤S1包括向客户输入的地址中填充缺失省市区行政区划字段,具体包括:
步骤S101:根据最新的国家地区标准,构建标准地址库;
步骤S102:找到关键词并将其与标准地址库对比,找到其对应的省市区;
步骤S103:将新得到的词条进行合并至客户输入的地址。
进一步的,采用机器学习算法对通过有限状态机规则的地址进行分析具体包括:
步骤S301:收集数据集,所述数据集包括正常的地址数据和异常的地址数据;
步骤S302:将所述数据集中的地址分成多个词组,并计算每一词组的TF-IDF值,以获取每一地址的特征矩阵;
步骤S303:调用逻辑回归算法,并以每一地址的特征矩阵作为参数训练检测模型;
步骤S304:测试模型效果。
进一步的,所述步骤S4具体包括:
步骤S401:汇总异常地址数据;
步骤S402:为每一异常地址分别标注出问题所在;
步骤S402:在识别结果报告中统计问题分类,并以图形化展示。
在第二方面,本发明提供了一种异常地址识别设备,包括:
地址标准化模块,用以将客户输入的地址转化为标准地址;
有限状态机模块,用以基于地址规则的有限状态机对所述标准地址进行识别,以获得识别结果,所述识别结果包括通过和不通过,如不通过,则判断为异常地址;
机器学习模块,用以采用机器学习算法对通过有限状态机规则的地址进行分析,以计算获得所述有限状态机规则的地址为正常地址的概率,如所述概率低于设定阈值,则判断为异常地址;
异常数据统计模块,用以将异常地址进行汇总统计,生成识别结果报告。
进一步的,所述地址标准化模块通过向客户输入的地址中填充缺失省市区行政区划字段以转化为标准地址,具体包括:
根据最新的国家地区标准,构建标准地址库;
找到关键词并将其与标准地址库对比,找到其对应的省市区;
将新得到的词条进行合并至客户输入的地址。
进一步的,所述机器学习模块包括:
收集单元,用以收集数据集,所述数据集包括正常的地址数据和异常的地址数据;
分词计算单元,用以将所述数据集中的地址分成多个词组,并计算每一词组的TF-IDF值,以获取每一地址的特征矩阵;
模型训练单元,用以调用逻辑回归算法,并以每一地址的特征矩阵作为参数训练检测模型;
进一步的,所述异常数据统计模块包括:
汇总单元,用以汇总异常地址数据;
标注单元,用以为每一异常地址分别标注出问题所在;
分类统计单元,用以在识别结果报告中统计问题分类,并以图形化展示。
在第三方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被计算机的处理器执行时,使计算机执行上述方法。
有益效果:本发明通过针对地址进行标准化,将语义上合理的地址转换为符合语法规则的标准,可以便于进行规则校验;通过基于地址规则的有限状态机,可以对输入地址的规则进行校验,比正则表达式要灵活强大许多;通过机器学习算法,可以将形式上符合规则,但是语义上不一定正确的地址找出,本发明创造性的结合了有限状态机规则与机器学习算法,既能精准判断形式不符合规则的地址,又能挖掘潜在规律,识别内容异常的地址。此外,本发明不需要额外采购新的应用系统和大量的人力投入,可以在降低使用和维护成本的同时,大大提高异常地址的识别效率。
附图说明
图1是本发明实施例的异常地址识别方法的流程示意图;
图2是本发明实施例的地址规则有限状态机模型图;
图3是本发明实施例的异常地址识别设备的示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,本实施例在以本发明技术方案为前提下进行实施,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。
如图1所示,本发明实施例提供了一种异常地址识别方法,包括:
步骤S1:将客户输入的地址转化为标准地址。客户在办理业务时输入地址,目前,客户一般输入的地址为非标准化的,如果客户输入的地址为标准地址,就无需进行转化。标准地址格式分为五级,其中:一级包含:省、自治区、直辖市、特别行政区;二级包含:地级市、地区、自治州、盟;三级包含:市辖区、县级市、县、自治县、旗、自治旗、特区、林区;四级包含:街道、镇、乡、苏木、民族乡、民族苏木;五级包含:居委会、村委会。国家标准来自《中华人民共和国行政区划代码》和《县以下行政区划代码编制规则》。
一般客户仅输入四级地址和五级地址,根据实际需求,一般补充省市区三级即可。具体的,步骤S1包括向客户输入的地址中填充缺失省市区行政区划字段,具体包括:
步骤S101:根据最新的国家地区标准,构建标准地址库。
步骤S102:找到关键词并将其与标准地址库对比,找到其对应的省市区。
步骤S103:将新得到的词条进行合并至客户输入的地址。
比如,原始地址为“建邺区江东中路371号”,可以识别到关键词“建邺区”,通过和地址标准库查询匹配得到“江苏省”,“南京市”,“建邺区”,最后将地址合并为“江苏省南京市建邺区江东中路371号”。
步骤S2:基于地址规则的有限状态机对标准地址进行识别,以获得识别结果,识别结果包括通过和不通过,如识别结果为通过,则进行下一步骤,否则判断为异常地址。
具体的,有限状态机是一种特殊的有向图,它包括一些状态(节点)和连接这些状态的有向弧,一般用来进行对象行为建模的工具,其作用主要是描述对象在它的生命周期内所经历的状态序列,以及如何响应来自外界的各种事件。在计算机科学中,有限状态机被广泛用于建模应用行为、硬件电路系统设计、软件工程,编译器、网络协议、和计算与语言的研究。本实现方式中,地址规则有限状态机模型图如图2所示,每一个有限状态机都有一个开始状态和终止状态,以及若干中间状态。每一条弧上带有从一个状态进入下一个状态的条件。比如,在图2中,当前的状态是“省”,如果遇到一个词组和区县名有关,就进入状态“区县”;如果遇到下一个词组和城市有关,那么就进入“市”的状态,如此等等。比如,“江苏省南京市建邺区江东中路371号”对于上面的有限状态机来讲有效,而“江苏省亭湖区盐城市”则无效(因为无法从“区”走回到“市”)。
步骤S3:采用机器学习算法对通过有限状态机规则的地址进行分析,以计算获得所述有限状态机规则的地址为正常地址的概率,如概率低于设定阈值,则判断为异常地址。具体的,概率的取值范围在0至1之间,设定阈值可以为0.5,当概率在0.5以上时,即判断为正常地址,当概率在0.5以下时,则判断为异常地址。
具体的,采用机器学习算法对通过有限状态机规则的地址进行分析具体包括:
步骤S301:收集数据集,数据集包括正常的地址数据和异常的地址数据。正常的地址数据和异常的地址数据均可从业务数据库中进行抽取,如人工标记出1000条异常地址数据和10000条正常地址作为数据集。无论是正常还是异常的地址,都是不定长的字符串,很难直接用逻辑回归算法对这些不规律的数据进行处理,所以需要找到这些文本的数字特征,用来训练检测模型。
步骤S302:将数据集中的地址分成多个词组,并计算每一词组的TF-IDF值,以获取每一地址的特征矩阵。
在这里,我们使用TF-IDF来作为文本的特征,并以数字矩阵的形式进行输出。TF词频(Term Frequency),表示词条t在某文档中出现的频率, 这个数字通常会被归一化,一般是词频除以文档总词数, 以防止它偏向长的文件,公式如下:
IDF 逆文档频率(Inverse Document Frequency),表示一个词语,普遍重要性的度量,
可以由总文档数目N除以包含该词语之文档的数目,分母+1是为了避免分母为0,再将得
到的商取对数得到,公式如下:
要计算TF-IDF之前,首先要对每个文档(地址)内容进行分词处理。在汉语语境下,地址数据由连续的汉字组成,以及少量的数字,我们使用中文分词器jieba分词完成这个工作。比如,“江苏省南京市建邺区江东中路371号”这个地址,经过分词后,得到[‘江苏省’,‘南京市’,‘建邺区’,‘江东中路’,‘371’,‘号’],然后根据上述公式计算出每个词条的TF-IDF权值,全部计算完成后得到TF-IDF特征矩阵,这是一个稀疏矩阵,简化后输出格式如下:
(12668, 219) 0.3549476352163743
(12668, 177) 0.3716803056252614
(12668, 134) 0.47785425886096417
(12668, 133) 0.5286626409419861
(12668, 99) 0.18123262949076246
(12668, 64) 0.4418051380791802
可以看出特征矩阵的元素由[(i,j) weight]三个元素组成,在矩阵中:i对应于某一条文档,这里是一条地址数据,j对应于词片编号,矩阵元素[(i,j) weight] 表示编号为j的词片在编号为i的文档下的TF-IDF权值。
步骤S303:调用逻辑回归算法,并以每一地址的特征矩阵作为参数(训练的数据集)训练检测模型。即采用最优化算法,寻找最佳拟合系数。
具体的,我们选择Sigmoid函数作为分类器函数,公式如下:
其中,e为自然对数底数,z为函数参数,为了实现逻辑回归分类器,我们在每个特征上都乘以一个回归系数,然后把所有值相加,形如:
其中,n为大于零的自然数,将z代入Sigmoid函数,进而得到一个范围在0-1之间的数
值。任何大于0.5的数据被分入正常类,小于0.5即归入异常类。上述公式可写成,
其中,T表示矩阵转置,向量x是分类器的输入数据,即我们的特征矩阵,向量w就是我们要找
的最佳拟合系数,从而使分类器尽可能的准确。最后,我们使用梯度上升算法来迭代求解向
量w,直到算法达到某个可以允许的误差范围,模型训练完成。
步骤S304:测试模型效果。经过训练之后的模型,就可以选择一批数据来计算模型的准确度,也可以通过预测方法对新的地址是否异常进行判定,即将新数据的特征矩阵代入到S函数中,计算相应的概率。
步骤S4:将异常地址进行汇总统计,生成识别结果报告。这些异常地址可交由业务人员进行手动修正,也可以用于机器学习模型的进一步迭代训练,以提高模型的准确度。
其中,步骤S4具体包括:
步骤S401:汇总异常地址数据;
步骤S402:为每一异常地址分别标注出问题所在;
步骤S402:在识别结果报告中统计问题分类,并以图形化展示。
如图3所示,基于以上实施例,本领域技术人员可以理解,本发明还提供了一种异常地址识别设备,包括地址标准化模块100、有限状态机模块200、机器学习模块300和异常数据统计模块400。
其中,地址标准化模块100用以将客户输入的地址转化为标准地址。客户在办理业务时输入地址,目前,客户一般输入的地址为非标准化的,如果客户输入的地址为标准地址,就无需进行转化。标准地址格式分为五级,其中:一级包含:省、自治区、直辖市、特别行政区;二级包含:地级市、地区、自治州、盟;三级包含:市辖区、县级市、县、自治县、旗、自治旗、特区、林区;四级包含:街道、镇、乡、苏木、民族乡、民族苏木;五级包含:居委会、村委会。国家标准来自《中华人民共和国行政区划代码》和《县以下行政区划代码编制规则》。
一般客户仅输入四级地址和五级地址,根据实际需求,一般补充省市区三级即可。地址标准化模块100通过向客户输入的地址中填充缺失省市区行政区划字段以转化为标准地址,具体包括:根据最新的国家地区标准,构建标准地址库;找到关键词并将其与标准地址库对比,找到其对应的省市区;将新得到的词条进行合并至客户输入的地址。
有限状态机模块200用以基于地址规则的有限状态机对标准地址进行识别,以获得识别结果,识别结果包括通过和不通过,如识别结果为通过,则进一步通过机器学习模块300判断,否则判断为异常地址。
具体的,有限状态机是一种特殊的有向图,它包括一些状态(节点)和连接这些状态的有向弧,一般用来进行对象行为建模的工具,其作用主要是描述对象在它的生命周期内所经历的状态序列,以及如何响应来自外界的各种事件。在计算机科学中,有限状态机被广泛用于建模应用行为、硬件电路系统设计、软件工程,编译器、网络协议、和计算与语言的研究。本实现方式中,地址规则有限状态机模型图如图2所示,每一个有限状态机都有一个开始状态和终止状态,以及若干中间状态。每一条弧上带有从一个状态进入下一个状态的条件。比如,在图2中,当前的状态是“省”,如果遇到一个词组和区县名有关,就进入状态“区县”;如果遇到下一个词组和城市有关,那么就进入“市”的状态,如此等等。比如,“江苏省南京市建邺区江东中路371号”对于上面的有限状态机来讲有效,而“江苏省亭湖区盐城市”则无效(因为无法从“区”走回到“市”)。
机器学习模块300用以采用机器学习算法对通过有限状态机规则的地址进行分析,以计算获得有限状态机规则的地址为正常地址的概率,如概率低于设定阈值,则判断为异常地址。具体的,概率的取值范围在0至1之间,设定阈值可以为0.5,当概率在0.5以上时,即判断为正常地址,当概率在0.5以下时,则判断为异常地址。
具体来说,机器学习模块300包括收集单元、分词计算单元和模型训练单元。
其中,收集单元用以收集数据集,数据集包括正常的地址数据和异常的地址数据。正常的地址数据和异常的地址数据均可从业务数据库中进行抽取,如人工标记出1000条异常地址数据和10000条正常地址作为数据集。无论是正常还是异常的地址,都是不定长的字符串,很难直接用逻辑回归算法对这些不规律的数据进行处理,所以需要找到这些文本的数字特征,用来训练我们的检测模型。
分词计算单元用以将数据集中的地址分成多个词组,并计算每一词组的TF-IDF值,以获取每一地址的特征矩阵。
在这里,我们使用TF-IDF来作为文本的特征,并以数字矩阵的形式进行输出。TF词频(Term Frequency),表示词条t在某文档中出现的频率, 这个数字通常会被归一化,一般是词频除以文档总词数, 以防止它偏向长的文件,公式如下:
IDF 逆文档频率(Inverse Document Frequency),表示一个词语,普遍重要性的度量,
可以由总文档数目N除以包含该词语之文档的数目,分母+1是为了避免分母为0,再将得
到的商取对数得到,公式如下:
要计算TF-IDF之前,首先要对每个文档(地址)内容进行分词处理。在汉语语境下,地址数据由连续的汉字组成,以及少量的数字,我们使用中文分词器jieba分词完成这个工作。比如,“江苏省南京市建邺区江东中路371号”这个地址,经过分词后,得到[‘江苏省’,‘南京市’,‘建邺区’,‘江东中路’,‘371’,‘号’],然后根据上述公式计算出每个词条的TF-IDF权值,全部计算完成后得到TF-IDF特征矩阵,这是一个稀疏矩阵,简化后输出格式如下:
(12668, 219) 0.3549476352163743
(12668, 177) 0.3716803056252614
(12668, 134) 0.47785425886096417
(12668, 133) 0.5286626409419861
(12668, 99) 0.18123262949076246
(12668, 64) 0.4418051380791802
可以看出特征矩阵的元素由[(i,j) weight]三个元素组成,在矩阵中:i对应于某一条文档,这里是一条地址数据,j对应于词片编号,矩阵元素[(i,j) weight] 表示编号为j的词片在编号为i的文档下的TF-IDF权值。
模型训练单元用以调用逻辑回归算法,并以每一地址的特征矩阵作为参数(训练的数据集)训练检测模型。即采用最优化算法,寻找最佳拟合系数。
具体的,我们选择Sigmoid函数作为分类器函数,公式如下:
其中,e为自然对数底数,z为函数参数,为了实现逻辑回归分类器,我们在每个特征上都乘以一个回归系数,然后把所有值相加,形如:
其中,n为大于零的自然数,将z代入Sigmoid函数,进而得到一个范围在0-1之间的数
值。任何大于0.5的数据被分入正常类,小于0.5即归入异常类。上述公式可写成,
其中,T表示矩阵转置,向量x是分类器的输入数据,即我们的特征矩阵,向量w就是我们要找
的最佳拟合系数,从而使分类器尽可能的准确。最后,我们使用梯度上升算法来迭代求解向
量w,直到算法达到某个可以允许的误差范围,模型训练完成。
经过训练之后的模型,就可以选择一批数据来计算模型的准确度,也可以通过预测方法对新的地址是否异常进行判定,即将新数据的特征矩阵代入到S函数中,计算相应的概率,以此测试模型效果。
异常数据统计模块4用以将异常地址进行汇总统计,生成识别结果报告。这些异常地址可交由业务人员进行手动修正,也可以用于机器学习模型的进一步迭代训练,以提高模型的准确度。
具体的,异常数据统计模块4包括汇总单元、标注单元和分类统计单元。其中,汇总单元用以汇总异常地址数据。标注单元用以为每一异常地址分别标注出问题所在。分类统计单元用以在识别结果报告中统计问题分类,并以图形化展示。
基于以上实施例,本领域技术人员可以理解,本发明还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被计算机的处理器执行时,使计算机执行上述异常地址识别方法。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,其它未具体描述的部分,属于现有技术或公知常识。在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种异常地址识别方法,其特征在于,包括:
步骤S1:将客户输入的地址转化为标准地址;
步骤S2:基于地址规则的有限状态机对所述标准地址进行识别,以获得识别结果,所述识别结果包括通过和不通过,如识别结果为通过,则进行下一步骤,否则判断为异常地址;
步骤S3:采用机器学习算法对通过有限状态机规则的地址进行分析,以计算获得所述有限状态机规则的地址为正常地址的概率,如所述概率低于设定阈值,则判断为异常地址;
步骤S4:将异常地址进行汇总统计,生成识别结果报告。
2.根据权利要求1所述的异常地址识别方法,其特征在于,所述步骤S1包括向客户输入的地址中填充缺失省市区行政区划字段,具体包括:
步骤S101:根据最新的国家地区标准,构建标准地址库;
步骤S102:找到关键词并将其与标准地址库对比,找到其对应的省市区;
步骤S103:将新得到的词条进行合并至客户输入的地址。
3.根据权利要求1所述的异常地址识别方法,其特征在于,采用机器学习算法对通过有限状态机规则的地址进行分析具体包括:
步骤S301:收集数据集,所述数据集包括正常的地址数据和异常的地址数据;
步骤S302:将所述数据集中的地址分成多个词组,并计算每一词组的TF-IDF值,以获取每一地址的特征矩阵;
步骤S303:调用逻辑回归算法,并以每一地址的特征矩阵作为参数训练检测模型;
步骤S304:测试模型效果。
4.根据权利要求1所述的异常地址识别方法,其特征在于,所述步骤S4具体包括:
步骤S401:汇总异常地址数据;
步骤S402:为每一异常地址分别标注出问题所在;
步骤S402:在识别结果报告中统计问题分类,并以图形化展示。
5.一种异常地址识别设备,其特征在于,包括:
地址标准化模块,用以将客户输入的地址转化为标准地址;
有限状态机模块,用以基于地址规则的有限状态机对所述标准地址进行识别,以获得识别结果,所述识别结果包括通过和不通过,如不通过,则判断为异常地址;
机器学习模块,用以采用机器学习算法对通过有限状态机规则的地址进行分析,以计算获得所述有限状态机规则的地址为正常地址的概率,如所述概率低于设定阈值,则判断为异常地址;
异常数据统计模块,用以将异常地址进行汇总统计,生成识别结果报告。
6.根据权利要求5所述的异常地址识别设备,其特征在于,所述地址标准化模块通过向客户输入的地址中填充缺失省市区行政区划字段以转化为标准地址,具体包括:
根据最新的国家地区标准,构建标准地址库;
找到关键词并将其与标准地址库对比,找到其对应的省市区;
将新得到的词条进行合并至客户输入的地址。
7.根据权利要求5所述的异常地址识别设备,其特征在于,所述机器学习模块包括:
收集单元,用以收集数据集,所述数据集包括正常的地址数据和异常的地址数据;
分词计算单元,用以将所述数据集中的地址分成多个词组,并计算每一词组的TF-IDF值,以获取每一地址的特征矩阵;
模型训练单元,用以调用逻辑回归算法,并以每一地址的特征矩阵作为参数训练检测模型。
8.根据权利要求1所述的异常地址识别设备,其特征在于,所述异常数据统计模块包括:
汇总单元,用以汇总异常地址数据;
标注单元,用以为每一异常地址分别标注出问题所在;
分类统计单元,用以在识别结果报告中统计问题分类,并以图形化展示。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机的处理器执行时,使计算机执行权利要求1至4任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011435570.5A CN112231431B (zh) | 2020-12-11 | 2020-12-11 | 一种异常地址识别方法、设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011435570.5A CN112231431B (zh) | 2020-12-11 | 2020-12-11 | 一种异常地址识别方法、设备和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112231431A true CN112231431A (zh) | 2021-01-15 |
CN112231431B CN112231431B (zh) | 2021-03-23 |
Family
ID=74124050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011435570.5A Active CN112231431B (zh) | 2020-12-11 | 2020-12-11 | 一种异常地址识别方法、设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112231431B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112862519A (zh) * | 2021-01-20 | 2021-05-28 | 北京奥维云网大数据科技股份有限公司 | 一种针对电商平台家电零售数据的销量异常识别方法 |
CN112926456A (zh) * | 2021-02-26 | 2021-06-08 | 格学教育科技(唐山)有限公司 | 一种基于状态机的识别文字逻辑重组方法 |
CN113076752A (zh) * | 2021-03-26 | 2021-07-06 | 中国联合网络通信集团有限公司 | 识别地址的方法和装置 |
CN113449523A (zh) * | 2021-06-29 | 2021-09-28 | 京东科技控股股份有限公司 | 异常地址文本的确定方法、装置、电子设备和存储介质 |
CN113919364A (zh) * | 2021-10-15 | 2022-01-11 | 秒针信息技术有限公司 | 一种基于有限状态机的新顾客识别方法及装置 |
CN114528404A (zh) * | 2022-02-18 | 2022-05-24 | 浪潮卓数大数据产业发展有限公司 | 一种识别省市区的方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101246472A (zh) * | 2008-03-28 | 2008-08-20 | 腾讯科技(深圳)有限公司 | 一种汉语文本的大、小粒度切分实现方法和装置 |
CN105740823A (zh) * | 2016-02-01 | 2016-07-06 | 北京高科中天技术股份有限公司 | 基于深度卷积神经网络的动态手势轨迹识别方法 |
CN106055650A (zh) * | 2016-05-31 | 2016-10-26 | 深圳市永兴元科技有限公司 | 地址标准化方法和装置 |
CN106777300A (zh) * | 2016-12-30 | 2017-05-31 | 深圳市华傲数据技术有限公司 | 基础地址库构建方法及系统 |
CN108268445A (zh) * | 2018-01-11 | 2018-07-10 | 苏宁云商集团股份有限公司 | 一种处理地址信息的方法及装置 |
CN111222345A (zh) * | 2020-01-15 | 2020-06-02 | 合肥慧图软件有限公司 | 基于语义分词技术的地名地址可视化分析方法 |
CN111935170A (zh) * | 2020-08-20 | 2020-11-13 | 杭州安恒信息技术股份有限公司 | 一种网络异常流量检测方法、装置及设备 |
-
2020
- 2020-12-11 CN CN202011435570.5A patent/CN112231431B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101246472A (zh) * | 2008-03-28 | 2008-08-20 | 腾讯科技(深圳)有限公司 | 一种汉语文本的大、小粒度切分实现方法和装置 |
CN105740823A (zh) * | 2016-02-01 | 2016-07-06 | 北京高科中天技术股份有限公司 | 基于深度卷积神经网络的动态手势轨迹识别方法 |
CN106055650A (zh) * | 2016-05-31 | 2016-10-26 | 深圳市永兴元科技有限公司 | 地址标准化方法和装置 |
CN106777300A (zh) * | 2016-12-30 | 2017-05-31 | 深圳市华傲数据技术有限公司 | 基础地址库构建方法及系统 |
CN108268445A (zh) * | 2018-01-11 | 2018-07-10 | 苏宁云商集团股份有限公司 | 一种处理地址信息的方法及装置 |
CN111222345A (zh) * | 2020-01-15 | 2020-06-02 | 合肥慧图软件有限公司 | 基于语义分词技术的地名地址可视化分析方法 |
CN111935170A (zh) * | 2020-08-20 | 2020-11-13 | 杭州安恒信息技术股份有限公司 | 一种网络异常流量检测方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
罗明等: "一种基于有限状态机的中文地址标准化方法", 《计算机应用研究》 * |
臧英斐: "基于语义分析的地址匹配研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112862519A (zh) * | 2021-01-20 | 2021-05-28 | 北京奥维云网大数据科技股份有限公司 | 一种针对电商平台家电零售数据的销量异常识别方法 |
CN112926456A (zh) * | 2021-02-26 | 2021-06-08 | 格学教育科技(唐山)有限公司 | 一种基于状态机的识别文字逻辑重组方法 |
CN113076752A (zh) * | 2021-03-26 | 2021-07-06 | 中国联合网络通信集团有限公司 | 识别地址的方法和装置 |
CN113449523A (zh) * | 2021-06-29 | 2021-09-28 | 京东科技控股股份有限公司 | 异常地址文本的确定方法、装置、电子设备和存储介质 |
CN113449523B (zh) * | 2021-06-29 | 2024-05-24 | 京东科技控股股份有限公司 | 异常地址文本的确定方法、装置、电子设备和存储介质 |
CN113919364A (zh) * | 2021-10-15 | 2022-01-11 | 秒针信息技术有限公司 | 一种基于有限状态机的新顾客识别方法及装置 |
CN114528404A (zh) * | 2022-02-18 | 2022-05-24 | 浪潮卓数大数据产业发展有限公司 | 一种识别省市区的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112231431B (zh) | 2021-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112231431B (zh) | 一种异常地址识别方法、设备和计算机可读存储介质 | |
CN110852065B (zh) | 一种文档审核方法、装置、系统、设备及存储介质 | |
CN110909226B (zh) | 金融类文档信息处理方法、装置、电子设备及存储介质 | |
CN110532542B (zh) | 一种基于正例与未标注学习的发票虚开识别方法及系统 | |
US10402163B2 (en) | Intelligent data extraction | |
CN110580308B (zh) | 信息审核方法及装置、电子设备、存储介质 | |
US11055327B2 (en) | Unstructured data parsing for structured information | |
CN113656805A (zh) | 一种面向多源漏洞信息的事件图谱自动构建方法及系统 | |
CN113360654B (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN116089873A (zh) | 模型训练方法、数据分类分级方法、装置、设备及介质 | |
CN117112782A (zh) | 一种招标公告信息提取方法 | |
WO2023006773A1 (en) | System and method for automatically tagging documents | |
Deußer et al. | KPI-EDGAR: A novel dataset and accompanying metric for relation extraction from financial documents | |
CN111931021A (zh) | 一种基于数据挖掘的工程国家标准数据库自适应构建方法 | |
CN117495538A (zh) | 订单融资的风险性评估方法和模型训练方法 | |
CN112579781A (zh) | 文本归类方法、装置、电子设备及介质 | |
CN114036921A (zh) | 一种政策信息匹配方法和装置 | |
CN111898378A (zh) | 政企客户的行业分类方法和装置、电子设备、存储介质 | |
CN113343051B (zh) | 一种异常sql检测模型构建方法及检测方法 | |
CN113705201B (zh) | 基于文本的事件概率预测评估算法、电子设备及存储介质 | |
CN115237970A (zh) | 数据预测方法、装置、设备、存储介质及程序产品 | |
CN111522750B (zh) | 一种功能测试问题的处理方法及系统 | |
CN113901817A (zh) | 文档分类方法、装置、计算机设备和存储介质 | |
CN114065748A (zh) | 识别风险数据的方法、装置、和电子设备 | |
CN112380321A (zh) | 基于票据知识图谱的主次数据库分配方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: No.4 building, Hexi Financial City, Jianye District, Nanjing City, Jiangsu Province, 210000 Patentee after: Jiangsu Sushang Bank Co.,Ltd. Country or region after: China Address before: No.4 building, Hexi Financial City, Jianye District, Nanjing City, Jiangsu Province, 210000 Patentee before: JIANGSU SUNING BANK Co.,Ltd. Country or region before: China |