CN111859956B

CN111859956B - 一种用于金融行业的地址分词方法

Info

Publication number: CN111859956B
Application number: CN202010657240.4A
Authority: CN
Inventors: 苏明富; 雷军; 曾忠晨; 陈浩
Original assignee: Smart Co Ltd Beijing Technology Co Ltd
Current assignee: Smart Co Ltd Beijing Technology Co Ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2021-08-27
Anticipated expiration: 2040-07-09
Also published as: CN111859956A

Abstract

本发明是关于用于金融行业的地址分词方法。该方法包括：接收输入的当前地址；调用预先建立的行政区划数据库；根据所述行政区划数据库，提取所述当前地址中的行政区划信息；根据所述行政区划信息进行地址分词，以获得地址分词结果；输出所述地址分词结果。通过本发明的技术方案，可避免采用现有通用中文分词解析出地址要素而导致准确率比较低，以充分提高地址分词的准确性，实现对金融行业用户所填写的地址信息的地址要素的准确提取。

Description

一种用于金融行业的地址分词方法

技术领域

本发明涉及分词技术领域，尤其涉及一种用于金融行业的地址分词方法。

背景技术

目前，金融行业的客户地址信息主要来源于客户的填写，只有地址字符串可以利用，同时由于客户个人习惯、地域特征等不同，客户填写的地址不够规范。所以需要对地址进行分词，把客户填写地址字符串划分成有效的标准地址要素。而现有地址提取方法为基于现有通用中文分词技术对地址字符串进行分词，然后再根据分词结果进行地址要素的提取。但由于通用中文分词解析出来的地址要素准确率比较低，因而，影响了地址分词的准确性。

发明内容

本发明实施例提供了用于金融行业的地址分词方法。所述技术方案如下：

根据本发明实施例提供了一种用于金融行业的地址分词方法，包括：

接收输入的当前地址；

调用预先建立的行政区划数据库；

根据所述行政区划数据库，提取所述当前地址中的行政区划信息；

根据所述行政区划信息进行地址分词，以获得地址分词结果；

输出所述地址分词结果。

在一个实施例中，所述方法还包括：

当所述行政区划信息提取失败时，将所述当前地址进行显示，以提示用户对所述当前地址进行行政区划信息的识别；

当所述行政区划信息识别成功时，利用成功识别的所述行政区划信息，对所述行政区划数据库进行自动更新；

当所述行政区划信息识别失败时，确认所述当前地址中的行政区划信息错误；

对所述行政区划信息进行自动纠错，并利用纠错后的所述行政区划信息对所述行政区划数据库进行自动更新。

在一个实施例中，所述根据所述行政区划信息进行地址分词，以获得地址分词结果，包括：

提取所述行政区划信息下的地址分割词和与所述地址分割词对应的分割参数；

根据所述地址分割词和所述分割参数，进行地址分词，以获得所述地址分词结果。

在一个实施例中，所述方法还包括：

调用预先建立的标准地址库；

将所述地址分词结果与所述标准地址库进行匹配；

若所述地址分词结果与所述标准地址库相匹配，则确认所述地址分词结果正确；

若所述地址分词结果与所述标准地址库不匹配，则确认所述地址分词结果错误。

在一个实施例中，所述若所述地址分词结果与所述标准地址库不匹配，则确认所述地址分词结果错误，包括：

若所述地址分词结果与所述标准地址库不匹配，将所述地址分词结果进行显示，以提示所述地址分词结果是否正确；

当所述地址分词结果正确时，利用所述地址分词结果对所述标准地址库进行更新，以获得更新后的所述标准地址库。

在一个实施例中，所述方法还包括：

确定各地域常用的地址分割词；

将所述各地域常用的地址分割词按照所述各地域进行分类汇总；

根据分类汇总结果，建立与所述各地域对应的地址库；

根据与所述各地域对应的地址库，建立标准地址库。

在一个实施例中，所述方法还包括：

获取当前的行政区划层级；

确定所述行政区划层级中各级别行政区划的全称和简称；

根据所述行政区划层级以及所述各级别行政区划的全称和简称，建立行政区划树参数；

将所述行政区划树参数确定为所述行政区划数据库。

在一个实施例中，所述方法还包括：

判断所述地址分词结果中是否具有敏感词；

当所述地址分词结果中具有敏感词时，判断是否能够获取到所述当前地址对应的用户的身份信息；

当能够获取到所述当前地址对应的用户的身份信息时，确定所述身份信息中是否存在可疑信息；

当所述身份信息中存在所述可疑信息或未获取到所述当前地址对应的用户的身份信息时，确定所述用户为危险用户，并将所述地址分词结果中的敏感词进行标记；

当所述身份信息中不存在所述可疑信息时，确定所述用户为普通合法用户。

在一个实施例中，所述当能够获取到所述当前地址对应的用户的身份信息时，确定所述身份信息中是否存在可疑信息，包括：

根据下述公式计算判断值；

其中，h_i为所述用户身份信息中第i个信息的判断值，x_i为所述用户身份信息中第i个信息的值，t_i为所述用户身份信息中第i个信息正常下限值，T_i为所述用户身份信息中第i个信息正常上限值，average(t_i:T_i)为所述用户身份信息中第i个信息正常范围的均值；

根据下述公式获得确定结果；

其中，a为所述身份信息中是否存在可疑信息的确定结果，p_i为所述用户身份信息中第i个信息的预设可疑阈值，

为存在符号，else表示其他情况，1表示所述用户身份信息中未存在可疑信息，0表示所述用户身份信息中存在可疑信息。

本发明的实施例提供的技术方案可以包括以下有益效果：

在接收到当前地址后，可调用行政区划数据库，然后根据该行政区划数据库提取当前地址中的标准的行政区划信息，进而根据行政区划信息自动进行地址分词，从而获得地址分词结果，如此，可利用行政区划数据库以及行政区划信息进一步进行地址分词，从而可避免采用现有通用中文分词解析出地址要素而导致准确率比较低，以充分提高地址分词的准确性，实现对金融行业用户所填写的地址信息的地址要素的准确提取。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种用于金融行业的地址分词方法的流程图。

图2是根据一示例性实施例示出的一种行政区划树形参数的框图。

图3是根据一示例性实施例示出的另一种用于金融行业的地址分词方法的流程图。

图4是根据一示例性实施例示出的一种数据更新方法的流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

为了解决上述技术问题，本发明实施例提供了一种用于金融行业的地址分词方法，该方法可用于金融行业的地址分词程序、系统或装置中，如图1所示，该方法包括步骤S101至步骤S105：

在步骤S101中，接收输入的当前地址；

在步骤S102中，调用预先建立的行政区划数据库；行政区划数据库存储的是各种行政区划信息。

在步骤S103中，根据所述行政区划数据库，提取所述当前地址中的行政区划信息；

在步骤S104中，根据所述行政区划信息进行地址分词，以获得地址分词结果；

在步骤S105中，输出所述地址分词结果。

在一个实施例中，所述方法还包括：

当行政区划信息提取失败时，返回分词失败信息，将所述当前地址进行显示，由人工识别，如果识别成功，说明当前地址中本就含有正确的行政区划信息，但可能由于行政区划数据库不完善才未能成功提取该行政区划信息，因而，可利用成功识别的所述行政区划信息，对所述行政区划数据库进行自动更新，以通过不断自动学习而不断完善行政区划数据库，而当行政区划信息识别失败时，可则确认所述当前地址中的行政区划信息错误，然后对该行政区划信息进行自动纠错，并利用纠错后的所述行政区划信息(即正确的或标准的行政区划信息)对所述行政区划数据库进行自动更新，从而保证行政区划数据库不断完善，且确保该数据库中存储的行政区划信息均是正确的。

行政区划信息即我们常说的省份、市、区、县、乡、镇等。而行政区划信息下的地址分割词即XX道路，XX街道、XX大厦，XX小区名称，相应地，地址分割词对应的分割参数即XX的具体值，例如：地址“上海市-黄浦区-淮海中路-300号-K11大厦”中的行政区划信息即上海市、黄浦区，地址分割词为中路、号、大厦，各地址分割词对应的分割参数分别为淮海、300、K11。

由于地址通常就是由行政区划信息和地址分割词组成的，而地址分割词属于该行政区划信息下的信息，因而，通过该提取所述行政区划信息下的地址分割词和与所述地址分割词对应的分割参数，可成功进行地址分词，以充分提高地址分词结果的准确性。

在一个实施例中，所述方法还包括：

调用预先建立的标准地址库；标准地址库不仅存储有各种行政区划信息，还存储有各种行政区划信息下的地址分割词以及分割参数等。

将所述地址分词结果与所述标准地址库进行匹配；

由于标准地址库中存储的都是全面而又正确的地址信息，且地址信息非常详细，因而，通过将地址分词结果与标准地址库进行匹配，可再次确认该地址分词结果是否正确无误，具体地，若匹配，则说明该地址分词结果正确，否则该地址分词结果错误。

由于标准地址库可能由于更新不及时而导致误判地址分词结果与所述标准地址库不匹配，因而，在不匹配时，可将所述地址分词结果进行显示，以提示所述地址分词结果是否正确，如果再次确认该地址分词结果正确，则说明标准地址库中的信息不全面，可利用所述地址分词结果对所述标准地址库进行自动更新，以获得更新后的所述标准地址库，从而确保标准地址库中的地址详细而全面。

在一个实施例中，所述方法还包括：

确定各地域常用的地址分割词；

根据分类汇总结果，建立与所述各地域对应的地址库；

根据与所述各地域对应的地址库，建立标准地址库。

通过将全国或全球各地域常用的地址分割词按照地域的不同分类汇总，可建立与各地域对应的地址库，进而，对各地域对应的地址库进行再次汇总，即可建立全国或全球范围内的标准地址库。

在一个实施例中，所述方法还包括：

获取当前的行政区划层级；行政区划层级即从中央到地方、从大到小的行政区域之间形成的层级。

确定所述行政区划层级中各级别行政区划的全称和简称；

将所述行政区划树参数确定为所述行政区划数据库。

通过该行政区划层级以及行政区划层级中各级别行政区划的全称和简称，可形成行政区划树参数，而由于行政区划树参数可直接反映不同行政区划之间的关系以及具体信息，因而，可将行政区划树参数直接自动确定为所述行政区划数据库。

在一个实施例中，所述方法还包括：

判断所述地址分词结果中是否具有敏感词；

当地址分词结果中有敏感词时，说明该当前地址对应的用户身份有些可疑，因而，可判断是否能够获取到该用户的身份信息，如果连身份信息都获取不到，说明该用户为危险用户，而如果能够获取到该用户的身份信息，则需要进一步确认该身份信息中是否存在可疑信息，如果存在可疑信息，则仍然说明该用户为危险用户，并将地址分词结果中的敏感词进行标记，从而加深该敏感词的重要性，便于之后进一步利用该敏感词协助判断用户身份，以提高身份判断准确性，当然，如果身份信息中没有可疑信息，则确认该用户为普通合法用户，避免由于敏感词而导致身份误判。

根据下述公式计算判断值；

其中，h_i为所述用户身份信息中第i个信息的判断值，x_i为所述用户身份信息中第i个信息的值，t_i为所述用户身份信息中第i个信息正常下限值(即第i个信息正常的最低值)，T_i为所述用户身份信息中第i个信息正常上限值(即第i个信息正常的最高值)，average(t_i:T_i)为所述用户身份信息中第i个信息正常范围的均值；

根据下述公式获得确定结果；

为存在符号(表示如果存在)，else表示其他情况，1表示所述用户身份信息中未存在可疑信息，0表示所述用户身份信息中存在可疑信息。

通过上述技术方案对当前地址对应的用户的身份信息进行是否存在可疑信息判断，可以有效避免漏判的现象，而且只要存在用户信息中一项信息不符合判断条件就会被作为可以信息判断出来，使得确定用户是否为危险用户的过程更加准确。

下面将进一步详细说明本发明的技术方案：

本发明目的为通过设置限制地址分隔词的行政区划，使用场景，通过系统的自适应学习，提高地址分词输出的准确性，获得客户标准化地址信息，并应用于进一步的分析。提高系统的可靠性，减少人工工作量。

日常人们写地址的时候会采用简写，比如乌市，呼市等写法，人工检查时能够识别出乌鲁木齐市，呼和浩特市。但是这些简写不能在任意情况下被替换，只能在一定逻辑下才能被替换，所以本发明对于简写会配置可替换场景和不可替换场景逻辑。

由于中国地域广大，各地习惯用法不一致，地址分隔词的用法不一致，例如，上海市对于道路门牌号常用XX路XX弄，北京对于胡同采用XX条等。但是这些分隔词只能在一定行政区划内生效，如果对所有地址都采用同样分隔词，会造成许多误判。所以对于分隔词需要增加可使用场景和不可使用场景。本发明对于地址分隔词采取行政区划+使用场景逻辑提高分词准确率。

人们在书写地址的时候，有时候会增加一些地名帮助定位，但是这些地名并不是实际地址，如北京市王府井XX大街，王府井在这里就是一个地名，需要从具体路名中分离出来。但是地名只是对于某一个特定行政区划生效，对于这种场景，本发明对于地名限制行政区划，确保特定地名参数只有在特定行政区划下生效。

对于地址分词结果，需要判断分词的准确性。现在通常只是获得分词结果，并没有对地址分词结果准确性进行确认。为提高分词准确率，在地址分词之后，用分词结果和现有标准地址进行匹配，匹配粒度从行政区划到道路名称，小区名称等级。如果能匹配上现有标准地址库，则说明地址有效，如果不能，则无法确认现有地址的有效性，可以安排人工复查，通过人工判定之后，系统会自我学习，丰富现有参数和逻辑。

系统会对人工判断结果进行自我学习，丰富参数配置和使用场景，提高系统准确性，减少人工操作。

本发明的具体工作原理如下：

1、系统能够提供准确的中文地址分词，并且能够自适应的学习，提供分词的准确率。具体实现方案：

系统设置：行政区划树形参数

根据行政区划层级结构，建立行政区划树形参数，如下图2所示，同时在行政区划树形参数中配置行政区划简写等。

◆对于不同的行政区划，建立地址分隔词参数和地名参数,如表1所示

表1

◆标准地址库，系统可以初始化标准地址库，颗粒度到达道路，大厦，小区名称。如表2所示

表2

2、系统日常系统运行步骤，如图3所示：

1.输入地址

2.根据行政区划树形参数，提取行政区划信息；如果提取失败，返回分词失败信息，可以由人工检查，如果输入地址带有行政区划信息，人工纠正结果，输入准确行政区划信息，系统会自动学习，更新参数库。并进行进一步分词。

3.在行政区划提取后，读取该行政区划下的地址分隔词参数和逻辑，进行分词

4.根据分词结果和现有标准地址库进行匹配，如果没有成功，可以人工检查，丰富地址标准库和地址分隔词参数和逻辑

5.输出地址分词

本系统可以通过装载批量数据进行系统初始化，也可以在日常运行过程中装载批量数据，完善参数配置和逻辑，提高分词准确性，具体过程如图4所示：

准备批量地址分词数据

导入地址分词数据

更新行政区划树形参数

更新基于行政区划的地址分隔词参数

更新地址标准库

数据导入完成

通过本发明的技术方案可为金融行业进行风险，欺诈分析时提供准确的地址分词，以便进一步的地址匹配和分组，降低风险和欺诈。

另外，本发明通过高准确率替代部分人工操作，本发明通过自适应学习，降低人工重复操作。

最后，需要明确的是：本领域技术人员可根据实际需求，将上述多个实施例进行自由组合。

本领域技术人员在考虑说明书及实践这里发明的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种用于金融行业的地址分词方法，其特征在于，包括：

接收输入的当前地址；

调用预先建立的行政区划数据库；

输出所述地址分词结果；

所述方法还包括：

判断所述地址分词结果中是否具有敏感词；

当所述身份信息中不存在所述可疑信息时，确定所述用户为普通合法用户；

所述当能够获取到所述当前地址对应的用户的身份信息时，确定所述身份信息中是否存在可疑信息，包括：

根据下述公式计算判断值；

根据下述公式获得确定结果；

为存在符号，else表示其他情况，1表示所述用户身份信息中未存在可疑信息，0表示所述用户身份信息中存在可疑信息；

所述方法还包括：

调用预先建立的标准地址库；

将所述地址分词结果与所述标准地址库进行匹配；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，

所述根据所述行政区划信息进行地址分词，以获得地址分词结果，包括：

4.根据权利要求1所述的方法，其特征在于，

所述若所述地址分词结果与所述标准地址库不匹配，则确认所述地址分词结果错误，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定各地域常用的地址分割词；

根据分类汇总结果，建立与所述各地域对应的地址库；

根据与所述各地域对应的地址库，建立标准地址库。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取当前的行政区划层级；

确定所述行政区划层级中各级别行政区划的全称和简称；

将所述行政区划树参数确定为所述行政区划数据库。