CN117540729A

CN117540729A - 地址检测方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: CN117540729A
Application number: CN202210892016.2A
Authority: CN
Inventors: 肖枫; 王超; 郭振未; 张定棋
Original assignee: Fengtu Technology Shenzhen Co Ltd
Current assignee: Fengtu Technology Shenzhen Co Ltd
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2024-02-09

Abstract

本申请提供一种地址检测方法、装置、计算机设备及计算机可读存储介质，方法包括：获取目标地址信息；对目标地址信息进行实体分析，得到多个地址实体，以及各地址实体的节点属性；其中，节点属性包括各地址实体的物流属性信息；确定各地址实体之间的实体关系；其中，实体关系包括从属关系和包含关系；根据实体关系、地址实体以及节点属性，构建地址知识图谱，以利用地址知识图谱，对待识别的虚拟地址进行异常检测。采用本方法能够提升地址检测准确率。

Description

地址检测方法、装置、计算机设备及计算机可读存储介质

技术领域

本申请实施例涉及人工智能技术领域，特别是涉及一种地址检测方法、装置、计算机设备及计算机可读存储介质。

背景技术

随着物流产业的不断发展，物流服务越来越趋向于专业化和精细化；与此同时，物流快递企业虽然也在快速成长中，但由于其可配送范围日益扩张，致使物流服务人员面对的地址审核工作越来越多，因此，物流快递业务的快速发展也为送货地址的审核工作带来了极大挑战。

然而，由于中文地址的复杂性与人工输入的不确定性，地址数据的不规范、不一致、不明确等现象给业务系统、物流快递企业内部的送货地址审核增加了更大难度，目前仍缺乏一种可高效、精准对虚拟地址进行异常检测的方式。

因此，现有的地址检测技术存在着检测准确率不高的技术问题。

发明内容

本申请的目的在于提供一种地址检测方法、装置、计算机设备及计算机可读存储介质，用以提升地址检测准确率。

第一方面，本申请提供一种地址检测方法，包括：

获取目标地址信息；

对目标地址信息进行实体分析，得到多个地址实体，以及各地址实体的节点属性；其中，节点属性包括各地址实体的物流属性信息；

确定各地址实体之间的实体关系；其中，实体关系包括从属关系和包含关系；

根据实体关系、地址实体以及节点属性，构建地址知识图谱，以利用地址知识图谱，对待识别的虚拟地址进行异常检测。

在本申请一些实施例中，对目标地址信息进行实体分析，得到多个地址实体，以及各地址实体的节点属性，包括：将目标地址信息输入至已训练的实体识别模型进行实体分析，输出多个地址关键词；其中，实体分析包括地址实体提取和节点属性分析；若各地址关键词中存在组合词，则删除组合词，得到各地址实体；获取各地址实体在历史物流订单中的节点属性；其中，节点属性包括使用次数信息、关联号码数量以及使用时间跨度。

在本申请一些实施例中，在将目标地址信息输入至已训练的实体识别模型进行实体分析，输出多个地址关键词之前，还包括：构建初始的实体识别模型，实体识别模型由双向长短词记忆网络、注意力机制网络以及条件随机场网络构成；获取地址文本集，并将地址文本集划分为训练集和测试集；地址文本集包括多个已标注词性的地址文本；使用训练集对初始的实体识别模型进行初步训练，得到初步训练后的实体识别模型；使用测试集对初步训练后的实体识别模型进行测试调整，得到已训练的实体识别模型。

在本申请一些实施例中，获取各地址实体在历史物流订单中的节点属性，包括：基于预设时段内的历史物流订单，统计各地址实体被记录在历史物流订单中的次数，作为使用次数信息；统计各地址实体在历史物流订单中关联的电话号码数量，作为关联号码数量；统计各地址实体在历史物流订单中的初次出现时间与最后出现时间之间的时间长度，作为使用时间跨度；将使用次数信息、关联号码数量以及使用时间跨度，作为节点属性。

在本申请一些实施例中，确定各地址实体之间的实体关系，包括：获取各地址实体的词嵌入向量，以生成词汇级别特征；获取目标地址信息的词向量和位置向量，以生成句子级别特征；根据词汇级别特征和句子级别特征，确定各地址实体之间的从属关系或者包含关系，作为实体关系。

在本申请一些实施例中，根据实体关系、地址实体以及节点属性，构建地址知识图谱，以利用地址知识图谱，对待识别的虚拟地址进行异常检测，包括：将地址实体作为图谱节点，并将实体关系作为节点边属性，构建初始的地址知识图谱；根据节点属性，对初始的地址知识图谱进行优化，得到地址知识图谱；根据地址知识图谱中对应于各节点属性预设的阈值，对待识别的虚拟地址进行异常检测，以在检测到待识别的虚拟地址为异常地址时，对异常地址进行异常标记。

在本申请一些实施例中，地址检测方法还包括：获取待识别的虚拟地址；通过地址知识图谱，对虚拟地址进行异常检测，得到异常检测结果；根据异常检测结果，深度优化地址知识图谱，以利用深度优化后的地址知识图谱，对其余待识别的虚拟地址进行异常检测。

第二方面，本申请提供一种地址检测装置，包括：

信息获取模块，用于获取目标地址信息；

实体分析模块，用于对目标地址信息进行实体分析，得到多个地址实体，以及各地址实体的节点属性；其中，节点属性包括各地址实体的物流属性信息；

关系确定模块，用于确定各地址实体之间的实体关系；其中，实体关系包括从属关系和包含关系；

地址检测模块，用于根据实体关系、地址实体以及节点属性，构建地址知识图谱，以利用地址知识图谱，对待识别的虚拟地址进行异常检测。

第三方面，本申请还提供一种计算机设备，包括：

一个或多个处理器；

存储器；以及一个或多个应用程序，其中的一个或多个应用程序被存储于存储器中，并配置为由处理器执行以实现上述地址检测方法。

第四方面，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器进行加载，以执行地址检测方法中的步骤。

第五方面，本申请实施例提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面提供的方法。

上述地址检测方法、装置、计算机设备及计算机可读存储介质，服务器通过获取目标地址信息，并对目标地址信息进行实体分析，即可得到多个地址实体以及各地址实体的节点属性，再确定各地址实体之间的实体关系，即可根据实体关系、地址实体以及节点属性，构建地址知识图谱，从而利用地址知识图谱，对待识别的虚拟地址进行异常检测。由此，本申请提出通过提取出目标地址信息中的实体，并识别出实体之间的关系，以构建并利用地址知识图谱对虚拟地址进行异常检测，可节省人工审核成本，也可避免人工审核误差，进而提升地址检测准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中提供的地址检测方法的场景示意图；

图2为本申请实施例中提供的地址检测方法的流程示意图；

图3是本申请实施例中提供的地址检测装置的结构示意图；

图4是本申请实施例中提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本申请的描述中，需要理解的是，术语“例如”一词用来表示“用作例子、例证或说明”。本申请中被描述为“例如”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本发明。在其它的实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本发明的描述变得晦涩难懂。因此，本发明并非旨在限于所示的实施例，而是与符合本申请所公开的原理和特征的最广范围相一致。

在本申请实施例中，本申请实施例提供的地址检测方法，可以应用于如图1所示的地址检测系统中。其中，该地址检测系统包括终端102和服务器104。终端102可以是既包括接收和发射硬件的设备，即具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备。

其中，终端102具体可以是台式终端或移动终端，终端102具体还可以是手机、平板电脑、笔记本电脑中的一种。

其中，服务器104可以是独立的服务器，也可以是服务器组成的服务器网络或服务器集群，其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中，云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。此外，终端102与服务器104之间通过网络建立通信连接，网络具体可以是广域网、局域网、城域网中的任意一种。

本领域技术人员可以理解，图1中示出的应用环境，仅仅是适用于本申请方案的一种应用场景，并不构成对本申请方案应用场景的限定，其他的应用环境还可以包括比图1中所示更多或更少的设备。例如，图1中仅示出1个服务器。可以理解的是，该地址检测系统还可以包括一个或多个其他设备，具体此处不作限定。另外，该地址检测系统还可以包括存储器，用于存储数据，如存储历史物流订单数据。

需要说明的是，图1所示的地址检测系统的场景示意图仅仅是一个示例，本发明实施例描述的地址检测系统以及场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着地址检测系统的演变和新业务场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

参阅图2，本申请实施例提供了一种地址检测方法，本实施例主要以该方法应用于上述图1中的服务器104来举例说明，该方法包括步骤S201至S204，具体如下：

S201，获取目标地址信息。

其中，目标地址信息可以是一串字符，也可以是多串字符，如包含国家、省份、城市、乡村、街道、门牌号码、屋舍、大厦等建筑物名称的字符串，又或者是再加楼层数目、房间编号等的字符串，即其可以是字符串集合，也可以是表示单个地址的字符串，具体本申请实施例不做限定；此外，其具体还可以是未经优化的地址文本，来源可以是通过语音识别，也可以是通过图文识别，具体本申请实施例不做限定。

具体实现中，目标地址信息可以是终端102获取并发送得到的，也可以是其他设备获取后通过终端102传输得到的，获取方式包括但不局限于如下几种方式之一：1、在普通网络结构中，服务器104从终端102或其他建立有网络连接的云设备处接收目标地址信息；2、在预置的区块链网络中，服务器104可从其他终端节点或服务器节点处同步获取目标地址信息，该区块链网络可以是公有链、私有链等；3、在预置的树状结构中，服务器104可从上级服务器请求得到初始地址文本，或是从下级服务器轮询得到目标地址信息。

具体而言，本申请实施例对目标地址信息的获取方式不做具体限定，均可以实际业务场景或需求而定。

S202，对目标地址信息进行实体分析，得到多个地址实体，以及各地址实体的节点属性；其中，节点属性包括各地址实体的物流属性信息。

其中，地址实体可以是以18级地址分词模型中所划分的级别作为依据，针对实际存在的地址进行区域划分所得到的地址单词，涉及不同级别的地址名称。例如，“广东省”、“北京市”、“香港特别行政区”、“友谊路”、“桂园小区”等，均可作为地址实体。

其中，18级地址分词模型如下表所示，下表即示出了18个级别的具体划分情况：

其中，物流属性信息包括但不局限于与物流有关可作为节点属性的信息，例如，各个物流订单中寄件地址和/或收件地址的使用次数，与各个寄件地址和/或收件地址关联的同一电话号码的数量，某地址从第一次出现在物流订单中到最后一次出现在物流订单中的时间跨度等。

具体实现中，对目标地址信息进行实体分析，实际需对目标地址信息进行分词处理，得到多个地址单词之后，对各个地址单词进行实体分析，包括对各个地址单词进行实体提取、实体属性分析等，即可得到多个地址实体，以及各个地址实体的节点属性。

其中，对目标地址信息进行分词处理，包括但不局限于：对目标地址信息进行规范化处理，得到标准地址信息；其中，规范化处理至少包括以下之一：去噪、纠错、漏补、格式调整；通过预设的地址分词模型，对标准地址信息进行分词处理，得到地址单词，以及与地址单词关联的词级标签；确定地址单词和词级标签，作为分词内容。其中，本申请实施例所用的地址分词模型可以是上文所述的18级地址分词模型；地址单词可以是“广东省”、“深圳市”等包含地理名称和行政区划后缀的单词；词级标签可以是18级地址分词模型中的分级编码任一个。例如，“大连市^2，中山^3，青云街^9，捷凤街小区对面^18”，其中的“大连市”、“中山”、“青云街”、“捷凤街小区对面”均为地址单词；各个地址单词附带的数值，如“大连市”附带的数值“2”、“中山”附带的数值“3”等均表示为词级标签。本实施例中涉及的实体提取步骤和实体属性分析步骤将在下文详细说明。

在一个实施例中，本步骤包括：将目标地址信息输入至已训练的实体识别模型进行实体分析，输出多个地址关键词；其中，实体分析包括地址实体提取和节点属性分析；若各地址关键词中存在组合词，则删除组合词，得到各地址实体；获取各地址实体在历史物流订单中的节点属性；其中，节点属性包括使用次数信息、关联号码数量以及使用时间跨度。

其中，实体识别模型输出的地址关键词可能是单个任意级别的地址单词，如“广东省”、“深圳市”等包含地理名称和行政区划后缀的地址单词，又如“广东”、“深圳”等仅包含地理名称的地址单词。此外，实体识别模型输出的地址关键词也可能是两个或以上任意级别组合的地址单词，如“广东省深圳市”、“广东深圳”等。

其中，组合词是指由至少两个地址单词组合形成的词语。例如，由于地址关键词“广东深圳”实际是由“广东”、“深圳”组合而成的，故“广东深圳”应作为一个组合词。

其中，使用次数信息、关联号码数量、使用时间跨度的具体含义将在下文中结合具体示例详细说明。

具体实现中，实体识别模型可以是由双向长短词记忆网络(Bi-directional LongShort-Term Memory，BiLSTM)、注意力机制网络(Attention)以及条件随机场网络(Conditional random field，CRF)构成的模型。

具体而言，BiLSTM的应用主要是考虑到虽然大部分用户不会写错省级数据，但是难以避免还是会出现“广州省”“广东市”这种错误，由于“市、区、街道”等序列关系容易出错或者缺失，因此用BiLSTM进行双向文本识别，可大大降低词性序列不一的问题。Attention模块的应用主要考虑到地址的关键层级一般不会缺失，但例如“开发区、工业园”、“街道、乡镇”、“组、队”、“商圈”等词容易缺失，故需把注意力放在主要层级，例如“地级市”、“主路”、“门牌号”、“POI”这些关键层级上，提高模型的效率和准确度，降低缺失数据对模型训练和效果的影响，从而提升地址检测精度。CRF条件随机场为无向性的图模型，途中的顶点代表随机变量，顶点间的连线代表随机变量间的依赖关系，在条件随机场中，随机变量Y的分布为条件几率，给定的观察值则为随机变量X，可构建地址实体层级关系，满足地址匹配挂接。

进一步地，将目标地址信息输入至已训练的实体识别模型进行实体分析，即可得到多个地址关键词，然后通过去掉地址关键词中的组合词，避免组合词和组合该组合词的词语形成重复的关键词，如此，能够进一步减少地址关键词的数量，提高实体识别的效率。最后，获取各个地址实体在历史物流订单中的使用次数信息、关联号码数量以及使用时间跨度，即可确定各个地址实体的节点属性，具体详见下文说明。

在一个实施例中，在将目标地址信息输入至已训练的实体识别模型进行实体分析，输出多个地址关键词之前，还包括：构建初始的实体识别模型，实体识别模型由双向长短词记忆网络、注意力机制网络以及条件随机场网络构成；获取地址文本集，并将地址文本集划分为训练集和测试集；地址文本集包括多个已标注词性的地址文本；使用训练集对初始的实体识别模型进行初步训练，得到初步训练后的实体识别模型；使用测试集对初步训练后的实体识别模型进行测试调整，得到已训练的实体识别模型。

其中，训练集与测试集之间的差异可以是地址文本的数量，也可以是地址文本的实际内容，只因训练集的作用在于模型训练，测试集的作用在于模型测试，故而分别称为训练集和测试集。

具体实现中，服务器104可以在执行地址检测任务之前执行模型训练操作，也可在获取目标地址信息之前执行模型训练操作，具体何时执行模型训练操作本申请实施例不做具体限定，但可以确定的是需要在调用已训练的实体识别模型之前执行完模型训练任务。此外，模型训练任务的执行可以是由服务器104执行，也可以是由与服务器104建立有通信连接的其他服务器执行。

进一步地，要获取已训练的实体识别模型以供后续步骤使用，首先需构建初始的实体识别模型。然后，负责执行模型训练任务的服务器还需获取用于训练模型的地址文本，该地址文本可以是少量已标注词性的地址文本，词性包括省、市、区、街道、商圈、主路、门牌、POI、楼栋号等地理属性。然后对地址文本进行数据扩增(如同义词替换、随机插入、随机替换、随机删除等)，获取文本数据，作为后续模型训练所需的地址文本集。

更进一步地，地址文本集可用于训练模型，包括但不局限于预训练和初步训练，地址文本集还可用于调试模型，包括但不局限于测试调整。其中，若有初步训练和测试调整的需求，则可在得到地址文本集之后，将地址文本集划分为训练集和测试集，以便使用训练集对初始的实体识别模型进行初步训练，进而使用测试集对初步训练后的实体识别模型进行测试调整，得到已训练的实体识别模型。

具体而言，本申请实施例提出可选用如下三种模型训练方法中的任意一种来训练实体识别模型：内置fit方法、内置tran_on_batch方法、自定义训练循环方法。其中，内置fit方法可以通过设置回调函数实现对训练过程的复杂控制逻辑；内置tran_on_batch方法相比较内置fit方法更加灵活，可以不通过回调函数而直接在批次层次上更加精细地控制训练的过程；自定义训练循环方法无需编译模型，直接利用优化器根据损失函数反向传播迭代参数，拥有最高的灵活性。本领域技术人员可选择的模型训练停止条件可包括以下至少一项：(1)误差小于某个预先设定的较小的值；(2)两次迭代之间的权值变化已经很小，可设定一个阈值，当小于这个阈值后，就停止训练；(3)设定最大迭代次数，当迭代超过最大次数就停止训练，例如“200个周期”；(4)识别准确率达到某个预先设定的较大的值。本实施例中涉及的数据扩增步骤将下文详细说明。

在一个实施例中，获取各地址实体在历史物流订单中的节点属性，包括：基于预设时段内的历史物流订单，统计各地址实体被记录在历史物流订单中的次数，作为使用次数信息；统计各地址实体在历史物流订单中关联的电话号码数量，作为关联号码数量；统计各地址实体在历史物流订单中的初次出现时间与最后出现时间之间的时间长度，作为使用时间跨度；将使用次数信息、关联号码数量以及使用时间跨度，作为节点属性。

其中，预设时段可以是任意时间段，例如，2022年1月1日零点零分至2022年2月1日零点零分。

其中，使用次数信息是指个物流订单中寄件地址和/或收件地址的使用次数，关联号码数量是与各个寄件地址和/或收件地址关联的电话号码的重复数量，使用时间跨度是指某地址从第一次出现在物流订单中到最后一次出现在物流订单中的时间跨度。需要说明的是，上述节点属性均可用于分析地址真实性。

具体实现中，服务器104可先收集预设时段内的物流订单作为历史物流订单，且由于物流订单中通常包含有寄件信息和收件信息，如寄件人姓名、寄件人地址、寄件人电话、收件人姓名、收件人地址以及收件人电话，因此通过统计某个地址节点在历史物流订单中出现的次数，即可得到“使用次数信息”如“20”、“30”等整数。

进一步地，为了确定目标地址信息是否真实，即若只有一个电话号码与之关联过一次，那这个目标地址信息极大可能异常。为了后续基于此检测出异常地址，即需服务器104统计各个地址实体在历史物流订单中关联的电话号码数量，即可得到关联号码数量如“20”、“30”等整数。而统计各个地址实体在历史物流订单中的初次出现时间与最后出现时间之间的时间长度，即可得到使用时间跨度如“20天”、“30天”等。

S203，确定各地址实体之间的实体关系；其中，实体关系包括从属关系和包含关系。

具体实现中，实体关系有从属关系和包含关系，例如，“深圳市”和“广东省”就是从属关系，某某小区的南区或者北区就是包含关系，从属关系和包含关系很多时候很难区分，但这是地址编码上的一个关系属性分类，具体确定方式详见下文。

在一个实施例中，本步骤包括：获取各地址实体的词嵌入向量，以生成词汇级别特征；获取目标地址信息的词向量和位置向量，以生成句子级别特征；根据词汇级别特征和句子级别特征，确定各地址实体之间的从属关系或者包含关系，作为实体关系。

具体实现中，针对于目标地址信息，服务器104可将该目标地址信息中包含的地址实体按照模型识别输出的先后顺序进行从左至右排序，将排序在第一的实体确定为第一实体，将排序在最后的实体确定为第二实体，之后目标地址信息中可能还存在除地址实体之外的信息。对此，服务器104可获取第一实体的邻左关键词(如“中国首都北京市xx区”中的“北京市”为第一实体，“首都”为邻左关键词)的第一词嵌入向量，并获取所述第二实体的邻右关键词(如“中国首都北京市xx区xx街道abc小区南区”中的“abc小区”为第二实体，“南区”为邻右关键词)的第二词嵌入向量；获取第一实体和第二实体的上级关键词(例如，“深圳市”与“广州市”的上级关键词为“广东省”)的第三词嵌入向量。最后，将第一实体的词嵌入向量、第二实体的词嵌入向量、第一词嵌入向量、第二词嵌入向量及第三词嵌入向量进行拼接，即可得到词汇级别特征。

具体而言，服务器104可以使用词向量模型来获取词嵌入向量(WordEmbedding)，词嵌入向量是关键词的唯一向量表示，也是地址实体的唯一向量表示，相当于给每个单词分配一个固定长度的矩阵向量表示，本申请实施例选用的词向量模型可以为“word2vec”。

进一步地，句子级别特征可以采用最大池化的卷积神经网络作为主要特征抽取模型，输入目标地址信息的词向量以及位置向量至最大池化的卷积神经网络中，通过最大池化的卷积神经网络输出句子级别特征，具体步骤可包括：(1)抽取词向量，为了能够抽取到每个词完整的上下文信息，在目标地址信息的分词内容首位额外添加Padding字符，WordEmbedding层是预训练得到的，并且参与后续的训练任务；(2)抽取位置向量，额外增加了时序特征来弥补卷积网络对时序特征抽取能力不足的缺陷。为每个词拼接两个固定维度的位置向量，分别表示词距离两个关键实体的相对位置信息。如“中国首都北京”，“首都”与“中国”的距离大小为1，与“北京”的距离大小为-1，再将1和-1在Position Embedding层中查表得到，随机初始化PositionEmbedding层，并且参与到模型训练当中；(3)将上述的词向量与位置向量进行拼接，输入到卷积网络中，再用Max Pooling层把每个卷积核的输出进行池化(也称为pooling，是对信息进行抽象的过程)操作。再将池化结果(信息抽象的结果，如xx向量)通过一个全连接层，激活函数为“tanh”(“tanh”是一种非常常见的激活函数，可减少模型迭代次数，提升模型训练效率)，将其看作一个更高层次的特征映射，得到句子级别特征。

最后，将词汇级别特征及对应的句子级别特征进行拼接，作为输入向量，输入全连接层，并将其送入分类器进行分类，即可得到实体关系。假设某个语句中包括实体1和实体2，则输出实体1和实体2之间的实体关系(实体1，关系，实体2)，且该实体关系可通过三元组表示。例如，假如实体1为“广东省”，实体2为“广州市”，则输出(广东省，包含，广州市)，或(广州市，属于，广东省)。

S204，根据实体关系、地址实体以及节点属性，构建地址知识图谱，以利用地址知识图谱，对待识别的虚拟地址进行异常检测。

具体实现中，服务器104可使用Neo4j图数据库(属于NoSql数据库中的一种，是基于数学中图论实现的一种数据库。不同于传统的关系型数据库将数据存在库表字段中，图数据库将数据和数据之间的关系存在节点和边中，在图数据库中这被称作“节点”和“关系”)，以地址实体作为图谱节点，结合实体关系和节点属性构建地址知识图谱，以便于利用地址知识图谱，对待识别的虚拟地址进行异常检测。

在一个实施例中，本步骤包括：将地址实体作为图谱节点，并将实体关系作为节点边属性，构建初始的地址知识图谱；根据节点属性，对初始的地址知识图谱进行优化，得到地址知识图谱；根据地址知识图谱中对应于各节点属性预设的阈值，对待识别的虚拟地址进行异常检测，以在检测到待识别的虚拟地址为异常地址时，对异常地址进行异常标记。

其中，节点边属性可用于表示各个图谱节点所代表的地址实体之间的实体关系，如“从属”、“包含”。

其中，阈值可包括对应于使用次数信息的第一阈值，对应于关联号码数量的第二阈值，对应于使用时间跨度的第三阈值。例如，第一阈值预设为“2”，第二阈值预设为“2”，第三阈值预设为“24”(以小时为单位，但非局限于此单位)。

具体实现中，服务器104可将地址实体作为地址知识图谱的节点，并将实体关系作为地址知识图谱各个节点之间连接边的属性，构建出初始的地址知识图谱，然后在初始的地址知识图谱中加入使用次数信息、关联号码数量以及使用时间跨度等节点属性，以优化该初始的地址知识图谱，即可得到地址知识图谱。最后，通过对地址知识图谱中的地址实体进行实体消歧和信息聚合，并基于上述节点属性作为阈值，即可清晰识别到虚拟地址是应该作为节点新增，还是异常标记。其中，实体消歧的本质在于一个单词很可能有多个意思，也就是在不同的上下文中所表达的含义可能不太一样，例如，“苹果”既可以表示一家科技公司，又可以表示一种水果，通过实体消歧可提升地址知识图谱的精度，进而提升地址检测准确率。信息聚合即是指合并相同的地址实体及其节点属性。

具体而言，服务器104可先确定待识别的虚拟地址与地址知识图谱中的哪个图谱节点有关联，进而确定相关联的图谱节点作为目标节点，并将该目标节点的节点属性对应预设的阈值作为判断条件(判断是否大于预设的阈值)，分析该虚拟地址在判断条件的作用下对应的判断结果是什么，服务器104最后即可基于判断结果判定该虚拟地址是否可作为新增的图谱节点，还是应该作为异常地址进行标记。其中，“虚拟地址”可以是一串字符，也可以是多串字符，本质可与目标地址信息一致，但因不确定其是否是真实地址，故在进行异常检测之前称之为“虚拟地址”。

例如，虚拟地址“广东省深圳市南山区粤海街道软件产业基地5E栋7楼02室”通过图谱搜索，能匹配到相关的公司，如“7楼02室ABC有限公司”，且“7楼02室ABC有限公司”的节点属性“使用次数信息”此时为“5”，大于第一阈值“2”，则该虚拟地址非异常地址。若上述虚拟地址为“7楼02室BCD公司”的内容，而“7楼02室BCD公司”的节点属性“使用次数信息”此时为“1”，小于第一阈值“2”，则这条地址就是异常的，服务器104输出为“异常地址”。若虚拟地址写的是“9楼02室ABC有限公司”，而这个地址在图谱中没有出现过，出现的仅是“7楼02室ABC有限公司”，那服务器104就会核实是否写错了，此时若服务器104检测到历史物流订单中有10个电话号码(关联号码数量大于或等于“10”)与该地址关联，那这个公司就可能是增加了职场，或者发生搬迁，应在地址知识图谱中加入该地址实体作为新增地址。若虚拟地址“广东省深圳市南山区粤海街道软件产业基地5E栋7楼02室”第一次出现在历史物流订单中的时间为“2022年1月1日0时”，最后一次出现在历史物流订单中的时间为“2022年3月1日0时”，则该地址的使用时间跨度为“48”(小时)，大于第三阈值“24”，则该虚拟地址非异常地址。

此外，基于使用次数信息和关联号码数量的实时增加，还可对地址实体和实体关系进行补充及动态更新，从而实现对地址知识图谱的更新，使得更新后的地址知识图谱可循环用于地址检测，形成闭环。

在一个实施例中，地址检测方法还包括：获取待识别的虚拟地址；通过地址知识图谱，对虚拟地址进行异常检测，得到异常检测结果；根据异常检测结果，深度优化地址知识图谱，以利用深度优化后的地址知识图谱，对其余待识别的虚拟地址进行异常检测。

其中，异常检测结果可以包括：新增地址、异常地址等。

具体实现中，服务器104还可根据某虚拟地址的异常检测结果来深度优化地址知识图谱，例如，一栋楼内长期使用的只有7层，但突然出现20楼的收件信息或者寄件信息，即可判定该虚拟地址异常，应打上异常标记，而地址知识图谱中的地址实体也该基于此感知是否需被调整。本实施例中涉及的异常检测涉及对节点属性对应预设阈值的判断，具体已在上文详细说明，在此不再赘述。

上述实施例中的地址检测方法，服务器通过获取目标地址信息，并对目标地址信息进行实体分析，即可得到多个地址实体以及各地址实体的节点属性，再确定各地址实体之间的实体关系，即可根据实体关系、地址实体以及节点属性，构建地址知识图谱，从而利用地址知识图谱，对待识别的虚拟地址进行异常检测。由此，采用本申请提出的地址检测方法，既可以节省人工对地址的审核成本，又可以基于人工智能技术增加检测结果的可靠性，还能够有效提升地址检测准确率。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

为了更好实施本申请实施例提供的地址检测方法，在本申请实施例所提出的地址检测方法的基础之上，本申请实施例中还提供了一种地址检测装置，如图3所示，该地址检测装置300包括：

信息获取模块310，用于获取目标地址信息；

实体分析模块320，用于对目标地址信息进行实体分析，得到多个地址实体，以及各地址实体的节点属性；其中，节点属性包括各地址实体的物流属性信息；

关系确定模块330，用于确定各地址实体之间的实体关系；其中，实体关系包括从属关系和包含关系；

地址检测模块340，用于根据实体关系、地址实体以及节点属性，构建地址知识图谱，以利用地址知识图谱，对待识别的虚拟地址进行异常检测。

在一个实施例中，实体分析模块320还用于将目标地址信息输入至已训练的实体识别模型进行实体分析，输出多个地址关键词；其中，实体分析包括地址实体提取和节点属性分析；若各地址关键词中存在组合词，则删除组合词，得到各地址实体；获取各地址实体在历史物流订单中的节点属性；其中，节点属性包括使用次数信息、关联号码数量以及使用时间跨度。

在一个实施例中，实体分析模块320还用于构建初始的实体识别模型，实体识别模型由双向长短词记忆网络、注意力机制网络以及条件随机场网络构成；获取地址文本集，并将地址文本集划分为训练集和测试集；地址文本集包括多个已标注词性的地址文本；使用训练集对初始的实体识别模型进行初步训练，得到初步训练后的实体识别模型；使用测试集对初步训练后的实体识别模型进行测试调整，得到已训练的实体识别模型。

在一个实施例中，实体分析模块320还用于基于预设时段内的历史物流订单，统计各地址实体被记录在历史物流订单中的次数，作为使用次数信息；统计各地址实体在历史物流订单中关联的电话号码数量，作为关联号码数量；统计各地址实体在历史物流订单中的初次出现时间与最后出现时间之间的时间长度，作为使用时间跨度；将使用次数信息、关联号码数量以及使用时间跨度，作为节点属性。

在一个实施例中，关系确定模块330还用于获取各地址实体的词嵌入向量，以生成词汇级别特征；获取目标地址信息的词向量和位置向量，以生成句子级别特征；根据词汇级别特征和句子级别特征，确定各地址实体之间的从属关系或者包含关系，作为实体关系。

在一个实施例中，地址检测模块340还用于将地址实体作为图谱节点，并将实体关系作为节点边属性，构建初始的地址知识图谱；根据节点属性，对初始的地址知识图谱进行优化，得到地址知识图谱；根据地址知识图谱中对应于各节点属性预设的阈值，对待识别的虚拟地址进行异常检测，以在检测到待识别的虚拟地址为异常地址时，对异常地址进行异常标记。

在一个实施例中，地址检测模块340还用于获取待识别的虚拟地址；通过地址知识图谱，对虚拟地址进行异常检测，得到异常检测结果；根据异常检测结果，深度优化地址知识图谱，以利用深度优化后的地址知识图谱，对其余待识别的虚拟地址进行异常检测。

上述实施例中，服务器通过获取目标地址信息，并对目标地址信息进行实体分析，即可得到多个地址实体以及各地址实体的节点属性，再确定各地址实体之间的实体关系，即可根据实体关系、地址实体以及节点属性，构建地址知识图谱，从而利用地址知识图谱，对待识别的虚拟地址进行异常检测。由此，采用本申请提出的地址检测方法，既可以节省人工对地址的审核成本，又可以基于人工智能技术增加检测结果的可靠性，还能够有效提升地址检测准确率。

需要说明的是，关于地址检测装置的具体限定可以参见上文中对于地址检测方法的限定，在此不再赘述。上述地址检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中，也可以以软件形式存储于电子设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在本申请一些实施例中，地址检测装置300可以实现为一种计算机程序的形式，计算机程序可在如图4所示的计算机设备上运行。计算机设备的存储器中可存储组成该地址检测装置300的各个程序模块，比如，图3所示的信息获取模块310、实体分析模块320、关系确定模块330以及地址检测模块340；各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的地址检测方法中的步骤。例如，图4所示的计算机设备可以通过如图3所示的地址检测装置300中的信息获取模块310执行步骤S201。计算机设备可通过实体分析模块320执行步骤S202。计算机设备可通过关系确定模块330执行步骤S203。计算机设备可通过地址检测模块340执行步骤S204。其中，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的计算机设备通过网络连接通信。该计算机程序被处理器执行时以实现一种地址检测方法。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本申请一些实施例中，提供了一种计算机设备，包括一个或多个处理器；存储器；以及一个或多个应用程序，其中的一个或多个应用程序被存储于存储器中，并配置为由处理器执行上述地址检测方法的步骤。此地址检测方法的步骤可以是上述各个实施例的地址检测方法中的步骤。

在本申请一些实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器进行加载，使得处理器执行上述地址检测方法的步骤。此处地址检测方法的步骤可以是上述各个实施例的地址检测方法中的步骤。

本邻域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上对本申请实施例提供的一种地址检测方法、装置、计算机设备及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种地址检测方法，其特征在于，包括：

获取目标地址信息；

对所述目标地址信息进行实体分析，得到多个地址实体，以及各所述地址实体的节点属性；其中，所述节点属性包括各所述地址实体的物流属性信息；

确定各所述地址实体之间的实体关系；其中，所述实体关系包括从属关系和包含关系；

根据所述实体关系、所述地址实体以及所述节点属性，构建地址知识图谱，以利用所述地址知识图谱，对待识别的虚拟地址进行异常检测。

2.如权利要求1所述的方法，其特征在于，所述对所述目标地址信息进行实体分析，得到多个地址实体，以及各所述地址实体的节点属性，包括：

将所述目标地址信息输入至已训练的实体识别模型进行实体分析，输出多个地址关键词；其中，所述实体分析包括地址实体提取和节点属性分析；

若各所述地址关键词中存在组合词，则删除所述组合词，得到各所述地址实体；

获取各所述地址实体在历史物流订单中的节点属性；其中，所述节点属性包括使用次数信息、关联号码数量以及使用时间跨度。

3.如权利要求2所述的方法，其特征在于，在所述将所述目标地址信息输入至已训练的实体识别模型进行实体分析，输出多个地址关键词之前，还包括：

构建初始的实体识别模型，所述实体识别模型由双向长短词记忆网络、注意力机制网络以及条件随机场网络构成；

获取地址文本集，并将所述地址文本集划分为训练集和测试集；所述地址文本集包括多个已标注词性的地址文本；

使用所述训练集对所述初始的实体识别模型进行初步训练，得到初步训练后的实体识别模型；

使用所述测试集对初步训练后的实体识别模型进行测试调整，得到已训练的实体识别模型。

4.如权利要求2所述的方法，其特征在于，所述获取各所述地址实体在历史物流订单中的节点属性，包括：

基于预设时段内的历史物流订单，统计各所述地址实体被记录在所述历史物流订单中的次数，作为所述使用次数信息；

统计各所述地址实体在所述历史物流订单中关联的电话号码数量，作为所述关联号码数量；

统计各所述地址实体在所述历史物流订单中的初次出现时间与最后出现时间之间的时间长度，作为所述使用时间跨度；

将所述使用次数信息、所述关联号码数量以及所述使用时间跨度，作为所述节点属性。

5.如权利要求1所述的方法，其特征在于，所述确定各所述地址实体之间的实体关系，包括：

获取各所述地址实体的词嵌入向量，以生成词汇级别特征；

获取所述目标地址信息的词向量和位置向量，以生成句子级别特征；

根据所述词汇级别特征和所述句子级别特征，确定各所述地址实体之间的从属关系或者包含关系，作为所述实体关系。

6.如权利要求1所述的方法，其特征在于，所述根据所述实体关系、所述地址实体以及所述节点属性，构建地址知识图谱，以利用所述地址知识图谱，对待识别的虚拟地址进行异常检测，包括：

将所述地址实体作为图谱节点，并将所述实体关系作为节点边属性，构建初始的地址知识图谱；

根据所述节点属性，对所述初始的地址知识图谱进行优化，得到所述地址知识图谱；

根据所述地址知识图谱中对应于各所述节点属性预设的阈值，对待识别的虚拟地址进行异常检测，以在检测到所述待识别的虚拟地址为异常地址时，对所述异常地址进行异常标记。

7.如权利要求1-6中任一项所述的方法，其特征在于，所述方法还包括：

获取所述待识别的虚拟地址；

通过所述地址知识图谱，对所述虚拟地址进行异常检测，得到异常检测结果；

根据所述异常检测结果，深度优化所述地址知识图谱，以利用深度优化后的地址知识图谱，对其余待识别的虚拟地址进行异常检测。

8.一种地址检测装置，其特征在于，包括：

信息获取模块，用于获取目标地址信息；

实体分析模块，用于对所述目标地址信息进行实体分析，得到多个地址实体，以及各所述地址实体的节点属性；其中，所述节点属性包括各所述地址实体的物流属性信息；

关系确定模块，用于确定各所述地址实体之间的实体关系；其中，所述实体关系包括从属关系和包含关系；

地址检测模块，用于根据所述实体关系、所述地址实体以及所述节点属性，构建地址知识图谱，以利用所述地址知识图谱，对待识别的虚拟地址进行异常检测。

9.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储器；以及一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现权利要求1至7中任一项所述的地址检测方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行权利要求1至7任一项所述的地址检测方法中的步骤。