CN112686732A

CN112686732A - 异常地址数据识别方法、装置、设备、介质及产品

Info

Publication number: CN112686732A
Application number: CN202110012366.0A
Authority: CN
Inventors: 周雪; 张少华; 李娜; 赵锡成
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2021-04-20
Anticipated expiration: 2041-01-06
Also published as: CN112686732B

Abstract

本发明实施例提供一种异常地址数据识别方法、装置、设备、介质及产品，该方法包括：获取用户通过操作界面选择的多级标准地址数据及输入的详细地址数据；将所述详细地址数据进行分级处理，以获得与所述多级标准地址数据对应的多级解析地址数据；采用预设的交叉匹配算法将所述多级标准地址数据与所述多级解析地址数据进行交叉匹配；若确定所述多级标准地址数据与所述多级解析地址数据不匹配，则确定所述详细地址数据为异常地址数据，由于交叉匹配算法结合了完全匹配和模糊匹配思路，同时又解决了模糊匹配因为词语切分不正确导致的匹配度评分虚高的问题，所以能够对详细地址数据为异常地址数据进行准确识别，有效降低恶意下单现象。

Description

异常地址数据识别方法、装置、设备、介质及产品

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种异常地址数据识别方法、装置、设备、介质及产品。

背景技术

随着移动互联网的发展，网上购物也得到了突飞猛进的发展。用户在采用购物应用程序进行网上购物过程中，需要填写购物订单中的详细地址信息，也可以选择货到付款。

但在网上购物过程中，会存在同业竞争者的恶意下单现象。他们通过填写虚假地址，导致物品不能被邮寄到准确地址，使物品只能被寄回给商家，所以目前亟需一种对异常地址进行识别的方案，通过对异常地址的识别，准确识别出被同业竞争者填写的虚假地址，有效减少恶意下单现象。

发明内容

本发明实施例提供一种异常地址数据识别方法、装置、设备、介质及产品，该方法解决了同业竞争者在下单的地址填写环节中填写的虚假、非正常地址识别难的问题，能够有效帮助识别虚假地址、进而减少恶意下单现象。

第一方面，本发明实施例提供一种异常地址数据识别方法，包括：

获取用户通过操作界面选择的多级标准地址数据及输入的详细地址数据；

将所述详细地址数据进行分级处理，以获得与所述多级标准地址数据对应的多级解析地址数据；

采用预设的交叉匹配算法将所述多级标准地址数据与所述多级解析地址数据进行交叉匹配；

若确定所述多级标准地址数据与所述多级解析地址数据不匹配，则确定所述详细地址数据为异常地址数据。

可选地，如上所述的方法，所述将所述详细地址数据进行分级处理，以获得与所述多级标准地址数据对应的多级解析地址数据，包括：

将所述详细地址数据输入到训练至收敛的分词分级模型中；

通过所述训练至收敛的分词分级模型对所述详细地址数据进行分词及分级处理，输出所有级别解析地址数据；

从所述所有级别解析地址数据中提取与所述多级标准地址数据对应的多级解析地址数据。

可选地，如上所述的方法，所述训练至收敛的分词分级模型为训练至收敛的长短记忆循环神经网络模型。

可选地，如上所述的方法，所述采用预设的交叉匹配算法将所述多级标准地址数据与所述多级解析地址数据进行交叉匹配，包括：

采用预设的交叉匹配算法判断所述多级标准地址数据与所述多级解析地址数据是否完全一致；

若确定不完全一致，则分别去除多级标准地址数据及所述多级解析地址数据中的限制性关键词，以分别获得多级标准简要地址数据及多级解析简要地址数据；

判断所述多级标准简要地址数据与所述多级解析简要地址数据是否完全一致；

若确定不完全一致，则判断是否有至少两级标准简要地址数据与对应的解析简要地址数据一致，且剩余级别的标准简要地址数据与对应的解析简要地址数据之间有包含的关系；

若确定至少两级标准简要地址数据与对应的解析简要地址数据不一致和/或剩余级别的标准简要地址数据与对应的解析简要地址数据之间不存在包含的关系，则确定多级标准地址数据与所述多级解析地址数据不匹配。

可选地，如上所述的方法，还包括：

若确定多级标准地址数据与所述多级解析地址数据完全一致，或所述多级标准简要地址数据与所述多级解析简要地址数据完全一致，或至少两级标准简要地址数据与对应的解析简要地址数据一致且剩余级别的标准简要地址数据与对应的解析简要地址数据之间存在包含的关系，则确定多级标准地址数据与所述多级解析地址数据匹配。

可选地，如上所述的方法，所述若确定所述多级标准地址数据与所述多级解析地址数据不匹配，则确定所述详细地址数据为异常地址数据，包括：

若确定所述多级标准地址数据与所述多级解析地址数据不匹配，则对所述多级标准地址数据与所述多级解析地址数据进行拼接，形成目标拼接地址数据；

查询在预设的别名对照关系列表中是否存在所述目标拼接地址数据；

若确定存在所述目标拼接地址数据，则确定在预设的别名对照关系列表中所述目标拼接地址数据的出现频次；

若确定所述出现频次小于预设频次阈值，则确定所述详细地址数据为异常地址数据。

可选地，如上所述的方法，所述查询在预设的别名对照关系列表中是否存在所述目标拼接地址数据之前，还包括：

获取历史成功交付订单；

提取所述历史成功交付订单中的历史拼接地址数据；

根据所述历史拼接地址数据及所述历史拼接地址数据的出现频次构建所述别名对照关系列表。

可选地，如上所述的方法，还包括：

若确定不存在所述目标拼接地址或者所述出现频次小于预设频次阈值，则将所述目标拼接地址数据对应的多级标准地址数据及详细地址数据进行不匹配标注，并发送给后台服务终端，以使后台服务端显示进行不匹配标注的多级标准地址数据及详细地址数据，以进行人工审核；

若接收到后台服务终端发送人工审核匹配的响应消息，则将所述目标拼接地址数据添加到对应的别名对照关系列表中，或者若确定存在所述目标拼接地址数据，则将对应的出现频次进行加一处理；

或者若确定所述出现频次大于或等于预设频次阈值，则确定所述详细地址数据为正常地址数据，并将对应的出现频次进行加一处理。

可选地，如上所述的方法，所述将所述详细地址数据进行分级处理，以获得与所述多级标准地址数据对应的多级解析地址数据之后，还包括：

判断多级解析地址数据中是否存在多个相同的字段且相同字段所属级别相同；

若确定存在多个相同的字段且相同字段所属级别相同，则对所述相同字段及相同字段所属级别进行去重处理。

第二方面，本发明实施例提供一种异常地址数据识别装置，包括：

获取模块，用于获取用户通过操作界面选择的多级标准地址数据及输入的详细地址数据；

分级处理模块，用于将所述详细地址数据进行分级处理，以获得与所述多级标准地址数据对应的多级解析地址数据；

交叉匹配模块，用于采用预设的交叉匹配算法将所述多级标准地址数据与所述多级解析地址数据进行交叉匹配；

异常地址确定模块，用于若确定所述多级标准地址数据与所述多级解析地址数据不匹配，则确定所述详细地址数据为异常地址数据。

可选地，如上所述的装置，所述分级处理模块，具体用于：

将所述详细地址数据输入到训练至收敛的分词分级模型中；通过所述训练至收敛的分词分级模型对所述详细地址数据进行分词及分级处理，输出所有级别解析地址数据；从所述所有级别解析地址数据中提取与所述多级标准地址数据对应的多级解析地址数据。

可选地，如上所述的装置，所述训练至收敛的分词分级模型为训练至收敛的长短记忆循环神经网络模型。

可选地，如上所述的装置，所述交叉匹配模块，具体用于：

采用预设的交叉匹配算法判断所述多级标准地址数据与所述多级解析地址数据是否完全一致；若确定不完全一致，则分别去除多级标准地址数据及所述多级解析地址数据中的限制性关键词，以分别获得多级标准简要地址数据及多级解析简要地址数据；判断所述多级标准简要地址数据与所述多级解析简要地址数据是否完全一致；若确定不完全一致，则判断是否有至少两级标准简要地址数据与对应的解析简要地址数据一致，且剩余级别的标准简要地址数据与对应的解析简要地址数据之间有包含的关系；若确定至少两级标准简要地址数据与对应的解析简要地址数据不一致和/或剩余级别的标准简要地址数据与对应的解析简要地址数据之间不存在包含的关系，则确定多级标准地址数据与所述多级解析地址数据不匹配。

可选地，如上所述的装置，所述交叉匹配模块，还用于：

可选地，如上所述的装置，所述异常地址确定模块，具体用于：

若确定所述多级标准地址数据与所述多级解析地址数据不匹配，则对所述多级标准地址数据与所述多级解析地址数据进行拼接，形成目标拼接地址数据；查询在预设的别名对照关系列表中是否存在所述目标拼接地址数据；若确定存在所述目标拼接地址数据，则确定在预设的别名对照关系列表中所述目标拼接地址数据的出现频次；若确定所述出现频次小于预设频次阈值，则确定所述详细地址数据为异常地址数据。

可选地，如上所述的装置，还包括：

构建模块，用于获取历史成功交付订单；提取所述历史成功交付订单中的历史拼接地址数据；根据所述历史拼接地址数据及所述历史拼接地址数据的出现频次构建所述别名对照关系列表。

可选地，如上所述的装置，还包括：

发送模块，用于若确定不存在所述目标拼接地址或者所述出现频次小于预设频次阈值，则将所述目标拼接地址数据对应的多级标准地址数据及详细地址数据进行不匹配标注，并发送给后台服务终端，以使后台服务端显示进行不匹配标注的多级标准地址数据及详细地址数据，以进行人工审核；

列表更新模块，用于若接收到后台服务终端发送人工审核匹配的响应消息，则将所述目标拼接地址数据添加到对应的别名对照关系列表中，或者若确定存在所述目标拼接地址数据，则将对应的出现频次进行加一处理；或者若确定所述出现频次大于或等于预设频次阈值，则确定所述详细地址数据为正常地址数据，并将对应的出现频次进行加一处理。

可选地，如上所述的装置，还包括：所述去重模块，用于判断多级解析地址数据中是否存在多个相同的字段且相同字段所属级别是否相同；若确定存在多个相同的字段且相同字段所属级别相同，则对所述相同字段及相同字段所属级别进行去重处理。

第三方面，本发明实施例提供一种电子设备，包括：

存储器，处理器以及计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面中任一项所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现如第一方面中任一项所述的方法。

第五方面，本发明实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面中任一项所述的方法。

本发明实施例提供一种异常地址数据识别方法、装置、设备、介质及产品，通过获取用户通过操作界面选择的多级标准地址数据及输入的详细地址数据；将所述详细地址数据进行分级处理，以获得与所述多级标准地址数据对应的多级解析地址数据；采用预设的交叉匹配算法将所述多级标准地址数据与所述多级解析地址数据进行交叉匹配；若确定所述多级标准地址数据与所述多级解析地址数据不匹配，则确定所述详细地址数据为异常地址数据，由于交叉匹配算法结合了完全匹配和模糊匹配思路，同时又解决了模糊匹配因为词语切分不正确导致的匹配度评分虚高的问题，所以能够对详细地址数据为异常地址数据进行准确识别，进而准确识别出被同业竞争者填写的虚假地址，有效降低恶意下单现象。

应当理解，上述发明内容部分中所描述的内容并非旨在限定本发明的实施例的关键或重要特征，亦非用于限制本发明的范围。本发明的其它特征将通过以下的描述变得容易理解。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的异常地址数据识别方法的一种应用场景图；

图2为本发明一实施例提供的异常地址数据识别方法的流程图；

图3为本发明另一实施例提供的异常地址数据识别方法的流程图；

图4为本发明一实施例提供的异常地址数据识别装置的结构示意图；

图5为本发明另一实施例提供的异常地址数据识别装置的结构示意图；

图6为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的实施例。虽然附图中显示了本发明的某些实施例，然而应当理解的是，本发明可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是，本发明的附图及实施例仅用于示例性作用，并非用于限制本发明的保护范围。

本发明实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了清楚理解本申请的技术方案，首先对现有技术的方案进行详细介绍。

现有技术中，在网上购物过程中，会存在同业竞争者的恶意下单现象。示例性的，用户采用购物应用程序购买电话卡，选择货到付款，后续电话卡会通过物流方式交付到用户手上，由于用户下单的过程是不需要支付费用的只有开卡后充值才会发生费用，因此这个过程吸引了很多同业竞争者来恶意下单，却又不希望实际能收到卡。一般地，能够通过用户填写的收获地址发现一些异常地址，进而来识别恶意订单。互联网下单页面用户填写地址需要完成四个内容的填写，其中前三个分别是省、市、区这三级标准地址，通过下拉勾选，第四个是详细地址输入框中填写的详细地址。由于很多用户习惯性会在详细地址再输入一遍省市区数据，所以很多同业竞争者下单时候下拉勾选省市区数据，但是在详细地址中使用张冠李戴的方式将A城市的真实地址伪造成B城市，进而可根据用户下拉勾选的三级标准地址与详细地址中的省市区数据进行对比的方式来识别是否为异常地址。

但是现有技术中在采用三级标准地址与详细地址中的省市区数据进行对比的方式来识别是否为异常地址时，通常采用模糊匹配的方式，模糊匹配的方式因为词语切分不正确导致的匹配度评分虚高的问题，例如辽宁大连市的“沙河口市”和河北邢台市的“沙河市”两个地址数据通过模糊匹配得分会很高，但是实际差得很远。进而不能对详细地址数据为异常地址数据进行准确识别，不能有效降低恶意下单的现象。

针对现有技术中的上述问题，发明人通过研究后创造性发现，交叉匹配算法能够结合完全匹配和模糊匹配思路，所以在将详细地址数据进行分级处理，以获得与多级标准地址数据对应的多级解析地址数据后，采用预设的交叉匹配算法将多级标准地址数据与多级解析地址数据进行交叉匹配，若确定多级标准地址数据与多级解析地址数据不匹配，则确定详细地址数据为异常地址数据，能够对详细地址数据为异常地址数据进行准确识别，进而准确识别出被同业竞争者填写的虚假地址，有效降低恶意下单现象，并且又解决了模糊匹配因为词语切分不正确导致的匹配度评分虚高的问题。

下面对本发明实施例提供的异常地址数据识别方法的应用场景进行介绍。如图1所示，在电子设备1中装载有异常地址数据识别方法的应用程序，该应用程序可以与购物应用程序兼容。通过网页或客户端与用户进行交互。示例性的，在用户采用购物应用程序购买电话卡时，生成订单选择货到付款后，用户通过下拉勾选省市区数据，该下拉勾选的省市区数据为多级标准地址数据。通过详细地址输入框填写详细地址，在填写详细地址时，再输入一遍省市区数据。则电子设备获取多级标准地址数据及输入的详细地址数据，将详细地址数据进行分级处理，以获得与多级标准地址数据对应的多级解析地址数据，采用预设的交叉匹配算法将多级标准地址数据与多级解析地址数据进行交叉匹配，若确定多级标准地址数据与多级解析地址数据不匹配，则确定详细地址数据为异常地址数据，例如，在图1中，多级标准地址数据为“山西省临汾市尧都区”，多级解析地址数据为“山西天津市尧都区”，则可在操作界面中提示输入的详细地址数据为异常地址数据的提示消息，以使用户重新输入正确的详细地址。

可以理解的是，只要购买的物品为货到付款物品，均可以采用本发明实施例提供的异常地址数据识别方法。

下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

实施例一

图2为本发明一实施例提供的异常地址数据识别方法的流程图，如图2所示，本实施例提供的异常地址数据识别方法的执行主体为异常地址数据识别装置，该异常地址数据识别装置可以集成在电子设备中，则本实施例提供的异常地址数据识别方法包括以下几个步骤。

步骤101，获取用户通过操作界面选择的多级标准地址数据及输入的详细地址数据。

本实施例中，如图1所示，电子设备中装载有异常地址数据识别方法的应用程序，该应用程序可以与购物应用程序兼容。通过网页或客户端提供操作界面，用户通过操作界面中的下拉选项勾选省市区等数据作为多级标准地址数据。例如，可供用户勾选的数据包括：省市区数据，则多级标准地址数据为三级标准地址数据。

本实施例中，在操作界面中还包括详细地址输入框，用户可通过在详细地址输入框中输入详细地址，来使电子设备获取到详细地址数据。

可以理解的是，为了执行本实施例的异常地址数据识别方法，可在操作界面中显示详细地址输入的提示信息，如可以为“请您在填写详细地址时输入省市区数据”。

步骤102，将详细地址数据进行分级处理，以获得与多级标准地址数据对应的多级解析地址数据。

本实施例中，首先可对详细地址数据进行分词处理，在分词处理后确定每个字段的级别信息，根据每个字段的级别信息确定与多级标准地址数据对应的多级解析地址数据。

例如，在多级标准地址数据中包括省市区三级级别。则在确定出每个字段的级别信息后，根据每个字段的级别信息确定出详细地址数据中的省市区数据，作为对应的三级解析地址数据。

步骤103，采用预设的交叉匹配算法将多级标准地址数据与多级解析地址数据进行交叉匹配。

其中，预设的交叉匹配算法是结合完全匹配和模糊匹配思路的算法。

本实施例中，采用预设的交叉匹配算法将多级标准地址数据与多级解析地址数据进行交叉匹配，判断多级标准地址数据是否与多级解析地址数据匹配，若确定多级标准地址数据与多级解析地址数据匹配，则说明该详细地址数据为正常地址数据，若确定多级标准地址数据与多级解析地址数据不匹配，则说明该详细地址数据为异常地址数据。

步骤104，若确定多级标准地址数据与多级解析地址数据不匹配，则确定详细地址数据为异常地址数据。

本实施例中，在确定出多级标准地址数据与多级解析地址数据不匹配后，确定详细地址数据为异常地址数据，为了避免该订单为同业竞争者的恶意下单，则如图1所示，可在电子设备的操作界面中显示输入的详细地址数据为异常地址数据的提示消息，在用户重新输入详细地址数据后，再次执行本实施例的异常地址数据识别方法，直到详细地址数据为正常地址数据后，再将该订单加入到正常订单中，按照正常的详细地址数据进行发货。

本实施例提供的异常地址数据识别方法，通过获取用户通过操作界面选择的多级标准地址数据及输入的详细地址数据；将详细地址数据进行分级处理，以获得与多级标准地址数据对应的多级解析地址数据；采用预设的交叉匹配算法将多级标准地址数据与多级解析地址数据进行交叉匹配；若确定多级标准地址数据与多级解析地址数据不匹配，则确定详细地址数据为异常地址数据，由于交叉匹配算法结合了完全匹配和模糊匹配思路，同时又解决了模糊匹配因为词语切分不正确导致的匹配度评分虚高的问题，所以能够对详细地址数据为异常地址数据进行准确识别，进而准确识别出被同业竞争者填写的虚假地址，有效降低恶意下单现象。

实施例二

图3为本发明另一实施例提供的异常地址数据识别方法的流程图，如图3所示，本实施例提供的异常地址数据识别方法，是在本发明实施例一提供的异常地址数据识别方法的基础上，对步骤102-步骤104的进一步细化，则本实施例提供的异常地址数据识别方法包括以下步骤。

步骤201，获取用户通过操作界面选择的多级标准地址数据及输入的详细地址数据。

本实施例中，步骤201的实现方式与本发明实施例一中的步骤101的实现方式类似，在此不再一一赘述。

步骤202，将详细地址数据输入到训练至收敛的分词分级模型中，通过训练至收敛的分词分级模型对详细地址数据进行分词及分级处理，输出所有级别解析地址数据，从所有级别解析地址数据中提取与多级标准地址数据对应的多级解析地址数据。

可选地，本实施例中，训练至收敛的分词分级模型为训练至收敛的长短记忆循环神经网络模型。

本实施例中，采用标注有地址级别的详细地址数据作为训练样本对初始的长短记忆循环神经网络模型(简称：LSTM)进行训练。如训练样本为：山西省[1.prov]-临汾市[2.city]-尧都区[3.dist]-西北街道[4.town]-A道路[5.zone/5.road]-B大厦[6.poi]-87号[7.house]。其中标注有1-7的信息为该训练样本中的七个地址级别。

本实施例中，在对初始的长短记忆循环神经网络模型训练的过程中，调节训练参数，判断是否满足预设的模型收敛条件，若确定满足预设的模型收敛条件，则将满足预设的模型收敛条件的模型确定为训练至收敛的长短记忆循环神经网络模型。

本实施例中，将详细地址数据输入到训练至收敛的长短记忆循环神经网络模型中，训练至收敛的长短记忆循环神经网络模型对详细地址进行分词及分级处理，获得所有级别的解析地址数据，然后从所有级别解析地址数据中提取出与多级标准地址数据对应的多级解析地址数据。

示例性的，如在步骤201中，多级标准地址数据为三级标准地址数据。如表1所示，可为表1中的三级标准地址数据的任意一个。

通过步骤202对详细地址数据进行分级处理后，得到的所有级别解析地址数据如表2所示。

步骤203，判断多级解析地址数据中是否存在多个相同的字段且相同字段所属级别是否相同，若是，则执行步骤204，否则执行步骤205。

表1：三级标准地址及详细地址数据示意表

步骤204，对相同字段及相同字段所属级别进行去重处理。

由于用户详细地址数据中可能存在重复字段的情况，可能是输入了重复的省市区，也可能是用户误操作重复输入的，比如三级区名写了两遍，需要去重，否则会对后续交叉匹配产生干扰。

所以本实施例中，在多级解析地址数据中判断是否存在多个相同的字段且相同字段所属级别是否相同，若是，则说明该字段及该字段所属级别出现了重复现象，需要进行剔除重复的该字段及该字段的所属级别，否则说明在多级解析地址数据中不存在重复的字段及多个重复字段所属级别，则执行步骤205。

示例性的，如表2所示，序号为2的分词分级结果中，出现了相同字段，并且相同字段所属级别相同，为“宿州市[2.city]萧县[3.dist]”，则对“宿州市[2.city]萧县[3.dist]”进行去重处理。

步骤205，采用预设的交叉匹配算法判断多级标准地址数据与多级解析地址数据是否完全一致，若否，则执行步骤206，否则执行步骤210。

本实施例中，首先采用预设的交叉匹配算法将多级标准地址数据与多级解析地址数据进行依次进行对比，判断多级标准地址数据与多级解析地址数据是否完全一致，若确定完全一致，则确定多级标准地址数据与多级解析地址数据匹配。否则还需要继续对多级标准地址数据及多级解析地址数据进行处理。

如表1中，序号为1和2的多级标准地址数据与多级解析地址数据完全一致。序号为3和4的多级标准地址数据与多级解析地址数据不完全一致。

步骤206，分别去除多级标准地址数据及多级解析地址数据中的限制性关键词，以分别获得多级标准简要地址数据及多级解析简要地址数据。

其中，若多级标准地址数据和多级解析地址数据均为三级地址数据，示例性的三级标准地址数据为ABC，三级解析地址数据为abc，则去除掉A结尾中的限制性关键词“省”，B结尾中的限制性关键词“市”、“区”、“地区”、“县”、“州”、“自治区”，C结尾中的限制性关键词“市”、“县”、“自治区”“旗”“开发区”。并去除掉a结尾中的限制性关键词“省”，b结尾中的限制性关键词“市”、“区”、“地区”、“县”、“州”、“自治区”，c结尾中的限制性关键词“市”、“县”、“自治区”“旗”“开发区”。

表2：所有级别解析地址数据示意表

其中，去除掉多级标准地址数据中的限制性关键词后的数据为多级标准简要地址数据。去除掉多级解析地址数据中的限制性关键词后的数据为多级解析简要地址数据。

步骤207，判断多级标准简要地址数据与多级解析简要地址数据是否完全一致，若否，则执行步骤208，否则执行步骤210。

本实施例中，将多级标准简要地址数据与多级解析简要地址数据进行对比，以排除限制性关键词的干扰。若确定多级标准简要地址数据与多级解析简要地址数据完全一致，则确定多级标准地址数据与多级解析地址数据匹配。否则还需要继续对多级标准简要数据及多级解析简要地址数据进行处理。

步骤208，判断是否有至少两级标准简要地址数据与对应的解析简要地址数据一致，且剩余级别的标准简要地址数据与对应的解析简要地址数据之间有包含的关系，若是，则执行步骤210，否则执行步骤209。

本实施例中，将多级标准简要地址数据与多级解析简要地址数据进行对比后，确定至少两级标准简要地址数据与对应的解析简要地址数据是一致的，而剩余级别的标准简要地址数据与对应的解析简要地址数据之间有包含的关系，则确定多级标准地址数据与多级解析地址数据匹配。若确定至少两级标准简要地址数据与对应的解析简要地址数据不一致和/或剩余级别的标准简要地址数据与对应的解析简要地址数据之间不存在包含的关系，则确定多级标准地址数据与多级解析地址数据不匹配。

示例性的，剩余级别的标准简要地址数据与对应的解析简要地址数据之间有包含的关系可以为标准简要地址数据的开头为解析简要地址数据，或者解析简要地址数据的开头为标准简要地址数据。如表1中的序号3中，多级标准简要地址数据“峨边彝族”的开头为对应的解析简要地址数据“峨边”。说明表1中的序号3中的多级标准地址数据与多级解析地址数据匹配。

其中，剩余级别的标准简要地址数据可以为剩余一个或多个级别的标准简要地址数据。

步骤209，确定多级标准地址数据与多级解析地址数据不匹配。

步骤210，确定多级标准地址数据与多级解析地址数据匹配。

可以理解的是，本实施例中，若确定多级标准地址数据与多级解析地址数据完全一致，或多级标准简要地址数据与多级解析简要地址数据完全一致，或至少两级标准简要地址数据与对应的解析简要地址数据一致且剩余级别的标准简要地址数据与对应的解析简要地址数据之间存在包含的关系，则确定多级标准地址数据与多级解析地址数据匹配。

在执行完步骤209后，执行步骤211。

步骤211，对多级标准地址数据与多级解析地址数据进行拼接，形成目标拼接地址数据。

本实施例中，将多级标准地址数据与多级解析地址数据采用拼接符号进行拼接，拼接后的数据为目标拼接地址数据。拼接符号可以为“_”,“+”等。

如将表1中的序号4中的多级标准地址数据与多级解析地址数据采用拼接符号进行拼接后，形成的目标拼接地址数据为“重庆重庆市彭水苗族土家族自治县_重庆重庆市彭水土家族”。

步骤212，查询在预设的别名对照关系列表中是否存在目标拼接地址数据，若是，则执行步骤213，否则执行步骤214。

本实施例中，在步骤212之前，还包括对别名对照关系列表构建的步骤。

具体地，构建别名对照关系列表可以包括：

获取历史成功交付订单，提取历史成功交付订单中的历史拼接地址数据，根据历史拼接地址数据及历史拼接地址数据的出现频次构建别名对照关系列表。

具体地，本实施例中，在历史订单中获取历史成功交付订单，若订单为电话卡订单，则该历史成功交付订单中为成功交付并且已经开卡正常使用的订单。说明该历史成功交付订单中的多级标准地址数据及详细地址数据均为可靠的地址数据。则筛选出历史成功交付订单中详细地址数据包括与多级标准地址数据对应的多级解析地址数据的详细地址数据及多级标准地址数据，将历史成功交付订单中的多级标准地址数据与多级解析地址数据进行拼接，形成历史拼接地址数据，并统计每个历史拼接地址数据的出现频次。可将历史拼接地址数据作为主键key，将历史拼接地址数据的出现频次作为值value，构建别名对照关系列表。

则本实施例中，在构建出别名对照关系列表后，查询在预设的别名对照关系列表中是否存在目标拼接地址数据，若存在，则说明该目标拼接地址数据中的详细地址数据对应的订单有过成功交付的订单。需要根据别名对照关系列表中目标拼接地址数据的出现频次进一步确定该目标拼接地址数据对应的详细地址数据是否为可靠的。

步骤213，确定在预设的别名对照关系列表中目标拼接地址数据的出现频次，若确定出现频次小于预设频次阈值，则确定详细地址数据为异常地址数据。

本实施例中，获取别名对照关系列表中目标拼接地址数据的出现频次，将目标拼接地址数据的出现频次与预设频次阈值进行对比，若确定出现频次小于预设频次阈值，则说明该目标拼接地址数据对应的详细地址数据对应的成功交付的订单比较少，确定详细地址数据为异常地址数据。反之，若确定所述出现频次大于或等于预设频次阈值，则确定所述详细地址数据为正常地址数据，并将对应的出现频次进行加一处理。

示例性的，表1中，序号为4的目标拼接地址数据“重庆重庆市彭水苗族土家族自治县_重庆重庆市彭水土家族”在对照关系列表中存在，并且对应的出现频次为11，预设频次阈值例如为5，则确定详细地址数据为正常地址数据。

需要说明的是，执行完步骤213后执行步骤214。

步骤214，将所述目标拼接地址数据对应的多级标准地址数据及详细地址数据进行不匹配标注，并发送给后台服务终端，以使后台服务端显示进行不匹配标注的多级标准地址数据及详细地址数据，以进行人工审核。

步骤215，若接收到后台服务终端发送人工审核匹配的响应消息，则将所述目标拼接地址数据添加到对应的别名对照关系列表中，或者若确定存在所述目标拼接地址数据，则将对应的出现频次进行加一处理。

本实施例中，若确定在预设的别名对照关系列表中不存在目标拼接地址数据，则为了保证该详细地址数据识别的准确性，将该详细地址数据打上不匹配标注，如打上的标注为“前多级地址填写冲突”，并将多级标准地址数据及详细地址数据发送给后台服务终端，运营用户查看该详细地址数据及多级标准地址数据，并进行人工审核，确定该详细地址数据是否为异常地址数据。

若人工审核后确定该详细地址数据为正常地址数据，则后台服务终端生成人工审核匹配的响应消息，并发送给电子设备，电子设备若确定在别名对照关系列表中不存在该目标拼接地址数据，则将该目标拼接地址数据添加到对应的别名对照关系列表中，并以主键key的形式进行存储。或者若确定存在所述目标拼接地址数据，则将对应的出现频次进行加一处理，及该目标拼接地址对应的value值加1。

本实施例提供的异常地址数据识别方法，若确定不存在所述目标拼接地址或者所述出现频次小于预设频次阈值，则将所述目标拼接地址数据对应的多级标准地址数据及详细地址数据进行不匹配标注，并发送给后台服务终端，以使后台服务端显示进行不匹配标注的多级标准地址数据及详细地址数据，以进行人工审核；若接收到后台服务终端发送人工审核匹配的响应消息，则将所述目标拼接地址数据添加到对应的别名对照关系列表中，或者若确定存在所述目标拼接地址数据，则将对应的出现频次进行加一处理；或者若确定所述出现频次大于或等于预设频次阈值，则确定所述详细地址数据为正常地址数据，并将对应的出现频次进行加一处理，能够使别名对照关系列表是一个不断更新的过程，使别名对照关系列表不断丰富，更准确地检测出异常地址数据。

本实施例提供的异常地址数据识别方法，在将详细地址数据进行分级处理，以获得与多级标准地址数据对应的多级解析地址数据时，将详细地址数据输入到训练至收敛的分词分级模型中；通过训练至收敛的分词分级模型对详细地址数据进行分词及分级处理，输出所有级别解析地址数据；从所有级别解析地址数据中提取与多级标准地址数据对应的多级解析地址数据，其中，训练至收敛的分词分级模型为训练至收敛的长短记忆循环神经网络模型，由于分词分级模型为训练至收敛的长短记忆循环神经网络模型，更适合进行分词分级处理，所以使详细地址数据分词更加准确。

本实施例提供的异常地址数据识别方法，在将详细地址数据进行分级处理，以获得与多级标准地址数据对应的多级解析地址数据之后，判断多级解析地址数据中是否存在多个相同的字段且相同字段所属级别相同；若确定存在多个相同的字段且相同字段所属级别相同，则对相同字段及相同字段所属级别进行去重处理，能够尽量较少误操作造成的详细地址中字段的重复现象，避免对交叉匹配产生干扰。

本实施例提供的异常地址数据识别方法，在采用交叉匹配算法确定多级标准地址数据与多级解析地址数据不匹配后，对多级标准地址数据与多级解析地址数据进行拼接，形成目标拼接地址数据；查询在预设的别名对照关系列表中是否存在目标拼接地址数据；若确定存在目标拼接地址数据，则确定在预设的别名对照关系列表中目标拼接地址数据的出现频次；若确定出现频次小于预设频次阈值，则确定详细地址数据为异常地址数据。能够根据历史信任地址来客观提取出别名对照关系表，进而高效而准确地筛选出异常地址数据，有效降低人工审核工作量。

实施例三

图4为本发明一实施例提供的异常地址数据识别装置的结构示意图，如图4所示，本实施例提供的异常地址数据识别装置30包括：获取模块31，分级处理模块32，交叉匹配模块33及异常地址确定模块34。

其中，获取模块31，用于获取用户通过操作界面选择的多级标准地址数据及输入的详细地址数据。分级处理模块32，用于将详细地址数据进行分级处理，以获得与多级标准地址数据对应的多级解析地址数据。交叉匹配模块33，用于采用预设的交叉匹配算法将多级标准地址数据与多级解析地址数据进行交叉匹配。异常地址确定模块34，用于若确定多级标准地址数据与多级解析地址数据不匹配，则确定详细地址数据为异常地址数据。

本实施例提供的异常地址数据识别装置可以执行图2所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

实施例四

图5为本发明另一实施例提供的异常地址数据识别装置的结构示意图，如图5所示，本实施例提供的异常地址数据识别装置40在本发明实施例三提供的异常地址数据识别装置30的基础上，进一步地，还包括：构建模块41，去重模块42，发送模块43及列表更新模块44。

可选地，分级处理模块32，具体用于：

将详细地址数据输入到训练至收敛的分词分级模型中；通过训练至收敛的分词分级模型对详细地址数据进行分词及分级处理，输出所有级别解析地址数据；从所有级别解析地址数据中提取与多级标准地址数据对应的多级解析地址数据。

可选地，训练至收敛的分词分级模型为训练至收敛的长短记忆循环神经网络模型。

可选地，交叉匹配模块33，具体用于：

采用预设的交叉匹配算法判断多级标准地址数据与多级解析地址数据是否完全一致；若确定不完全一致，则分别去除多级标准地址数据及多级解析地址数据中的限制性关键词，以分别获得多级标准简要地址数据及多级解析简要地址数据；判断多级标准简要地址数据与多级解析简要地址数据是否完全一致；若确定不完全一致，则判断是否有至少两级标准简要地址数据与对应的解析简要地址数据一致，且剩余级别的标准简要地址数据与对应的解析简要地址数据之间有包含的关系；若确定至少两级标准简要地址数据与对应的解析简要地址数据不一致和/或剩余级别的标准简要地址数据与对应的解析简要地址数据之间不存在包含的关系，则确定多级标准地址数据与多级解析地址数据不匹配。

可选地，交叉匹配模块33，还用于：

若确定多级标准地址数据与多级解析地址数据完全一致，或多级标准简要地址数据与多级解析简要地址数据完全一致，或至少两级标准简要地址数据与对应的解析简要地址数据一致且剩余级别的标准简要地址数据与对应的解析简要地址数据之间存在包含的关系，则确定多级标准地址数据与多级解析地址数据匹配。

可选地，异常地址确定模块34，具体用于：

若确定多级标准地址数据与多级解析地址数据不匹配，则对多级标准地址数据与多级解析地址数据进行拼接，形成目标拼接地址数据；查询在预设的别名对照关系列表中是否存在目标拼接地址数据；若确定存在目标拼接地址数据，则确定在预设的别名对照关系列表中目标拼接地址数据的出现频次；若确定出现频次小于预设频次阈值，则确定详细地址数据为异常地址数据。

可选地，构建模块41，用于获取历史成功交付订单；提取历史成功交付订单中的历史拼接地址数据；根据历史拼接地址数据及历史拼接地址数据的出现频次构建别名对照关系列表。

可选地，去重模块42，用于判断多级解析地址数据中是否存在多个相同的字段且相同字段所属级别是否相同；若确定存在多个相同的字段且相同字段所属级别相同，则对所述相同字段及相同字段所属级别进行去重处理。

可选地，发送模块43，用于若确定不存在所述目标拼接地址或者所述出现频次小于预设频次阈值，则将所述目标拼接地址数据对应的多级标准地址数据及详细地址数据进行不匹配标注，并发送给后台服务终端，以使后台服务端显示进行不匹配标注的多级标准地址数据及详细地址数据，以进行人工审核；列表更新模块44，用于若接收到后台服务终端发送人工审核匹配的响应消息，则将所述目标拼接地址数据添加到对应的别名对照关系列表中，或者若确定存在所述目标拼接地址数据，则将对应的出现频次进行加一处理；或者若确定所述出现频次大于或等于预设频次阈值，则确定所述详细地址数据为正常地址数据，并将对应的出现频次进行加一处理。

本实施例提供的异常地址数据识别装置可以执行图3所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

实施例五

图6为本发明一实施例提供的电子设备的结构示意图，如图6所示，本实施例提供的电子设备50包括：存储器51，处理器52以及计算机程序。

其中，计算机程序存储在存储器51中，并被配置为由处理器52执行以实现本发明实施例一或实施例二提供的异常地址数据识别方法。

相关说明可以对应参见图2至图3的步骤所对应的相关描述和效果进行理解，此处不做过多赘述。

其中，本实施例中，存储器51和处理器52通过总线连接。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现本发明实施例一或实施例二提供的异常地址数据识别方法。

本发明实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本发明实施例一或实施例二提供的异常地址数据识别方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种异常地址数据识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述详细地址数据进行分级处理，以获得与所述多级标准地址数据对应的多级解析地址数据，包括：

将所述详细地址数据输入到训练至收敛的分词分级模型中；

3.根据权利要求2所述的方法，其特征在于，所述训练至收敛的分词分级模型为训练至收敛的长短记忆循环神经网络模型。

4.根据权利要求1所述的方法，其特征在于，所述采用预设的交叉匹配算法将所述多级标准地址数据与所述多级解析地址数据进行交叉匹配，包括：

5.根据权利要求4所述的方法，其特征在于，还包括：

6.根据权利要求1所述的方法，其特征在于，所述若确定所述多级标准地址数据与所述多级解析地址数据不匹配，则确定所述详细地址数据为异常地址数据，包括：

7.根据权利要求6所述的方法，其特征在于，所述查询在预设的别名对照关系列表中是否存在所述目标拼接地址数据之前，还包括：

获取历史成功交付订单；

提取所述历史成功交付订单中的历史拼接地址数据；

8.根据权利要求7所述的方法，其特征在于，还包括：

9.根据权利要求1-8任一项所述的方法，其特征在于，所述将所述详细地址数据进行分级处理，以获得与所述多级标准地址数据对应的多级解析地址数据之后，还包括：

判断多级解析地址数据中是否存在多个相同的字段且相同字段所属级别是否相同；

10.一种异常地址数据识别装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：

存储器，处理器以及计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-9中任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-9中任一项所述的方法。

13.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-9中任一项所述的方法。