CN116431656A

CN116431656A - 基于大数据的道路识别方法、装置、计算机设备及可读介质

Info

Publication number: CN116431656A
Application number: CN202111673322.9A
Authority: CN
Inventors: 张定棋; 周训飞; 王小龙
Original assignee: Fengtu Technology Shenzhen Co Ltd
Current assignee: Fengtu Technology Shenzhen Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2023-07-14

Abstract

本发明公开了一种基于大数据的道路识别方法、装置、计算机设备及可读介质，该方法包括：获取待处理的地址文本；确定所述地址文本中的多个词及所述词对应的地址层级；根据所述词和所述地址层级，生成所述地址文本对应的拼接向量序列；将所述拼接向量序列输入已训练好的道路预测模型中，得到所述地址文本对应的道路数据；本发明基于深度学习技术进行道路的预测，可提高对道路识别的泛化能力及准确性，从而节约整个物流的成本开支。

Description

基于大数据的道路识别方法、装置、计算机设备及可读介质

技术领域

本发明属于物流技术领域，更具体地，涉及一种基于大数据的道路识别方法、装置、计算机设备及可读介质。

背景技术

在完整的物流配送体系中，道路是配送地址中非常重要的一个信息维度。根据快件地址准确地识别出道路是非常关键的一环。然而，有些客户在下单时能够提供清晰规范的地址，但还存在部分用户无法提供规范的地址，存在地址信息部分缺失、冲突、有误等情况，导致快递员无法直接从客户的下单地址中提取出有效的道路数据，影响后续的派件业务。

目前常用的解决方案是根据已有地址建立并维护白名单地址库(词典)，当获取客户提供的地址后，使用词典进行道路词组匹配，这种识别方法准确率低，且需要人工去实时维护更新词典，维护成本高。

发明内容

针对现有技术的至少一个缺陷或改进需求，本发明提供了一种基于大数据的道路识别方法、装置、计算机设备及可读介质，能提高道路识别准确率，且不需要人工维护。

为实现上述目的，按照本发明的第一个方面，提供了一种基于大数据的道路识别方法，该方法包括：

获取待处理的地址文本；

确定所述地址文本中的多个词及所述词对应的地址层级；

根据所述词和所述地址层级，生成所述地址文本对应的拼接向量序列；

将所述拼接向量序列输入已训练好的道路预测模型中，得到所述地址文本对应的至少一个道路数据，其中，所述道路预测模型为利用具有道路数据标签的样本地址文本集合训练得到，所述样本地址文本集合中的每个样本地址文本具有一个道路数据标签。

在一些实施例中，在确定所述地址文本中的词及所述词对应的地址层级之后，还包括：

从多个所述词中确定与第一目标地址层级对应的词，作为第一目标词，所述第一目标地址层级包括道路对应的地址层级、以及与所述道路对应的地址层级前后相邻的预设个地址层级；

确定所述第一目标词逐字生成的字、以及所述字对应的地址层级；

所述根据所述词和所述地址层级，生成所述地址文本对应的拼接向量序列，包括：根据所述字、所述词和所述地址层级，生成所述地址文本对应的拼接向量序列。

在一些实施例中，所述根据所述字、所述词和所述地址层级，生成所述地址文本对应的拼接向量序列，包括：

对所述词及所述地址层级进行向量化处理，得到词向量和对应的地址层级向量，并对所述字及所述字对应的地址层级进行向量化处理，得到字向量和对应的地址层级向量；

根据所述词向量和对应的所述地址层级向量生成第一拼接向量序列，并根据所述字向量和对应的所述地址层级向量生成第二拼接向量序列；

将所述第一拼接向量序列和所述第二拼接向量序列进行组合，得到所述地址文本对应的拼接向量序列。

在一些实施例中，在确定所述地址文本中的多个词及所述词对应的地址层级之后，还包括：

从多个所述词中确定位于第二目标地址层级之前的地址层级对应的词，作为第二目标词，所述第二目标地址层级为位于道路对应的地址层级之前且相隔预设位的地址层级；从多个所述词中删除所述第二目标词；

所述根据所述词和所述地址层级，生成所述地址文本对应的拼接向量序列，包括：根据删除后剩余的所述词和所述地址层级，生成所述地址文本对应的拼接向量序列。

在一些实施例中，在确定所述地址文本中的多个词及所述词对应的地址层级之前，还包括：

对所述地址文本进行规范化处理；

所述确定所述地址文本中的多个词及所述词对应的地址层级，包括：确定规范化处理后的所述地址文本中的多个词及所述词对应的地址层级。

将所述地址文本与预先配置的白名单地址库中的地址进行匹配，所述白名单地址库用于存储模型预测出错的地址文本、及所述预测出错的地址文本对应的道路词组之间的关联关系，匹配成功则根据所述关联关系确定所述地址文本对应的道路词组，匹配失败则执行所述确定所述地址文本中的多个词及所述词对应的地址层级的步骤。

在一些实施例中，所述道路预测模型的训练过程包括：

获取第一样本地址文本集合，所述第一样本地址文本集合中每个第一样本地址文本具有至少一个道路数据标签；

确定所述第一样本地址文本中的多个样本词及所述样本词对应的地址层级；

根据所述样本词和所述地址层级，生成所述第一样本地址文本对应的样本拼接向量序列；

根据所述样本拼接向量序列与所述道路数据标签得到第一训练样本，并将各个所述第一训练样本汇总形成第一训练样本集；

根据所述第一训练样本集进行模型训练，得到训练好的道路预测模型。

按照本发明的第二个方面，还提供了一种基于大数据的道路识别装置，该装置包括：

获取模块，用于获取待处理的地址文本；

向量生成模块，用于确定所述地址文本中的多个词及所述词对应的地址层级；根据所述词和所述地址层级，生成所述地址文本对应的拼接向量序列；

预测模块，用于将所述拼接向量序列输入已训练好的道路预测模型中，得到所述地址文本对应的道路数据，其中，所述道路预测模型为利用具有道路数据标签的样本地址文本集合训练得到，所述样本地址文本集合中的每个样本地址文本具有一个道路数据标签。

按照本发明的第三个方面，还提供了一种计算机设备，其包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述计算机程序被所述处理单元执行时，使得所述处理单元执行上述任一项所述方法的步骤。

按照本发明的第四个方面，还提供了一种计算机可读介质，其存储有可由计算机设备执行的计算机程序，当所述计算机程序在计算机设备上运行时，使得所述计算机设备执行上述任一项所述方法的步骤。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明提供的一种基于大数据的道路识别方法、装置、计算机设备及可读介质，获取待处理的地址文本后，确定地址文本中的多个词及词对应的地址层级，并根据词和地址层级，生成地址文本对应的拼接向量序列；将拼接向量序列输入已训练好的道路预测模型中，得到地址文本对应的道路数据；通过该训练好的道路预测模型对地址文本进行处理，能够快速而准确地识别地址文本中缺失或错误的道路数据，并且能够提高对道路识别的泛化能力及准确性。

(2)本方案可应用于任何有地址预测道路词组的需求的场景中，可与传统的匹配算法形成互补，增加整个系统对道路词组预测的指标，减少了道路错分情况，节约了派件的成本；另外，模型迭代简单，不需要全职投入运营和维护人员，节约了人工成本。

附图说明

图1是本发明实施例提供的基于大数据的道路识别系统的一种组成架构示意图；

图2是本发明实施例提供的服务器的一种组成结构示意图；

图3是本发明实施例提供的基于大数据的道路识别方法的流程示意图；

图4是本发明实施例提供的道路预测模型的一种网络结构示意图；

图5是本发明实施例提供的基于大数据的道路识别方法中训练集准备、模型训练和道路预测的一个场景示意图；

图6是本发明实施例提供的基于大数据的道路识别装置的逻辑框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本申请提供的基于大数据的道路识别方案适用于对客户提供的不规范的地址文本进行处理，给出地址文本对应的准确的道路信息，从而使快递员能够把快件准确地分配到收件地址附近的道路，为后续的派件到户提供基础。

为了便于理解，本文中先对本申请提供的基于大数据的道路识别方案所适用的系统场景进行介绍，参见图1，其示出了本申请提供的基于大数据的道路识别系统的一种组成架构示意图。

该系统中可以包括有：终端100和服务器200，终端100和服务器200之间通过网络实现通信连接。服务器200获取待处理的地址文本，该地址文本可以是直接输入到服务器200中，也可以是终端100通过网络发送给服务器200；服务器200对地址文本进行处理，得到地址文本中包含的道路数据；服务器200将该道路数据通过网络下发给终端100，持有终端100的快递员能够通过终端100上的应用界面及时获取相应的道路信息，执行后续的派件操作。

终端100可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，该终端100可以采集用户提供的寄件地址并将其发送给服务器200进行处理；进一步的，该终端100还可以具备扫描并识别手写输入地址，并将该手写输入地址处理为地址文本信息的功能等。

需要说明的是，以上是以服务器为一台独立的服务器为例进行说明，但是可以理解的是，在实际应用中，服务器也可以被替换为服务器集群，或者由多台服务器构成的分布式集群。

其中，为了实现服务器上相应的功能，服务器的存储器中需要存储实现相应功能的计算机程序。为了便于理解各个服务器的硬件构成，下面以服务器为例进行介绍。如图2所示，为本申请的服务器的一种组成结构示意图，本实施例中的服务器200可以包括：处理器201、存储器202、通信接口203、输入单元204、显示器205和通信总线206。

其中，处理器201、存储器202、通信接口203、输入单元204、显示器205、均通过通信总线206完成相互间的通信。

在本实施例中，该处理器201，可以为中央处理器(Central Processing Unit，CPU)，特定应用集成电路，数字信号处理器、现成可编程门阵列或者其他可编程逻辑器件等。

该处理器201可以调用存储器202中存储的程序。具体的，处理器201可以执行以下基于大数据的道路识别方法的实施例中服务器侧所执行的操作。

存储器202中用于存放一个或者一个以上程序，程序可以包括程序代码，所述程序代码包括计算机操作指令，在本申请实施例中，该存储器中至少存储有用于实现以下功能的程序：

获取待处理的地址文本；

确定所述地址文本中的多个词及所述词对应的地址层级；

在一种可能的实现方式中，该存储器202可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、以及至少一个功能(比如文本向量化处理)所需的应用程序等；存储数据区可存储根据计算机的使用过程中所创建的数据，比如，字向量、词向量、地址层级向量、拼接向量序列以及道路预测模型和样本等等。

此外，存储器202可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。

该通信接口203可以为通信模块的接口，如GSM模块的接口。

当然，图2所示的服务器的结构并不构成对本申请实施例中服务器的限定，在实际应用中服务器可以包括比图2所示的更多或更少的部件，或者组合某些部件。

结合以上共性，参见图3，本实施例示出了一种基于大数据的道路识别方法的流程示意图，本实施例中的方法包括以下步骤：

步骤301，获取待处理的地址文本。

其中，待处理的地址文本一般为存在道路信息缺失、道路信息冲突、错误等情况的地址数据；举例说明，待处理的地址文本为：广东省深圳市龙华区先跟创业园5栋A304；在该地址文本中，没有xx路/街等道路信息，道路信息是缺失的，不清楚先跟创业园属于哪个道路，不利于快递员快速锁定目标配送区域。

在一个具体的示例中，服务器接收终端发送的地址文本处理请求，并解析该地址文本处理请求得到待处理的地址文本。

在一个具体的示例中，该待处理的地址文本可以是用户手动输入的，也可以是服务器自动获取的，比如当满足地址文本处理条件时，服务器从预置的收派件运单地址库中获取待处理的地址文本。需要指出的是，该收派件运单地址库可以是独立于全量地址库的一个字库，该字库专门用于存储需要进行道路识别的地址文本。

地址文本处理条件是用于触发地址文本处理操作的条件或依据，具体可以是接收到终端发送的地址文本处理的请求指令，或者，自前一次触发地址文本处理操作起达到预设时长，或者，检测到收派件运单地址库中出现新增的待处理的地址文本，在此不作具体限定。终端根据用户的地址文本处理触发操作生成地址文本处理的请求指令，并将该请求指令发送至服务器。预设时长可自定义，比如1小时。

S302，确定所述地址文本中的多个词及所述词对应的地址层级。在一个实施例中，可以通过对地址文本进行地址分词处理，以得到不同地址层级的每个词及其对应的地址层级。地址分词处理主要是基于地址具有不同地址层级这种特殊属性，将地址文本拆分为具有不同地址层级的词，地址层级的数值大小，反应其对应的地理位置区域大小，通常，地理位置区域越大的地址层级，其数值可以设定的越小，比如，可以将省的地址层级设置为1，区对应的地址层级设置为2。例如，地址文本为：广东省深圳市龙华区先跟创业园5栋A304，对该地址文本进行地址分词处理得到的地址数据为：广东省^1|深圳市^2|龙华区^3|先跟创业园^13|5栋^14|A304^17，其中，广东省^1代表词为“广东省“，该词的地址层级为1，深圳市^2代表词为“深圳市”，该词的地址层级为2。

在一个实施例中，服务器调用预置的地址分词系统对地址文本进行地址分词处理，得到相应的地址数据。该地址分词系统可以采用jieba分词、哈工大分词等开源分词系统，本方案不做具体限制，对规范化处理后的地址文本进行分词处理，将地址文本切分为：省、市、区、街道、道路、道路编号、园区、楼栋、单元、房号等地址层级。

容易理解的是，由于地址分词系统通常是基于一些学习模型训练得到的，在训练时会使用标准的地址文本作为训练样本，故其能处理的地址文本通常也需要标准化，而服务器拿到的待处理的地址文本通常是各个客户在收发快递件时提供的地址文本，不同客户的地址书写习惯容易产生不符合标准的地址文本，故需要在地址分词前对待处理的地址文本进行规范化，也即，在上述步骤S301之后，上述步骤S302之前，该基于大数据的道路识别方法还可以包括：对所述地址文本进行规范化处理。

此时，上述步骤S302具体可以包括：确定规范化处理后的所述地址文本中的多个词及所述词对应的地址层级。

其中，规范化处理包括但不限于是去掉无效非法字符(比如标准化地址文本中完全不会用到的字符)、数字英文标准化、繁转简、去掉重复内容、括号内容处理、后缀内容处理等。

在一个实施例中，在步骤S302之前，即对地址文本进行地址分词之前，该基于大数据的道路识别方法还可以包括：

将该地址文本与预先配置的白名单地址库中的地址进行比对，该白名单地址库主要用于存储模型预测出错的地址文本、及所述预测出错的地址文本对应的道路词组之间的关联关系，匹配成功则根据所述关联关系确定所述地址文本对应的道路词组，匹配失败则执行上述步骤S302。

也就是说，提前将模型已往预测出错、或者准确率较低的地址文本存储在该白名单地址库中，并通过人工查找的方式为该地址文本匹配准确的道路，建立映射关系。服务器在获取新的待处理的地址文本之后，首先将该地址文本与白名单地址库中的地址进行匹配，判断待处理的地址文本是否属于模型可能预测出错的地址，若是，则根据白名单地址库识别其对应的道路，而不投入道路预测模型进行处理，避免浪费模型的计算资源。

在一个实施例中，在对地址文本进行地址分词处理之后，还可以进行词扩展处理。词扩展处理主要是增加一些对道路预测有相关性或相关性较大的字及其地址层级，从而后续道路预测模型进行道路识别时，能重点结合这些字和词进行识别，提高模型识别准确率。基于数据相关性分析，可以认为道路所在的地址层级、以及与该地址层级相邻的几个地址层级均对道路预测起关键性作用，故可以将这些地址层级的词拆分成字进行扩展，也即，在上述步骤S302之后，该基于大数据的道路识别方法还可以包括：

确定所述第一目标词逐字生成的字、以及所述字对应的地址层级。

其中，预设个地址层级可以人为设定，比如2个地址层级，也即，可以将道路对应的地址层级、道路之前的2个地址层级、以及道路之后的2个地址层级作为第一目标地址层级，将第一目标地址层级对应的词拆分成字，且属于同一个第一目标词的多个字的地址层级应当是相同的，比如：若第一目标词“龙华区”对应的地址层级为“3”，则“龙华区”中的每个字：龙、华和区，对应的地址层级均为3。

例如，若地址分词后的地址数据为：湖北省^1|武汉市^2|洪山区^3|珞喻路^9|312号^11|1栋^14，则对该地址数据进行词扩展后得到的地址文本可以为：湖北省^1|武汉市^2|洪^3|山^3|区^3|珞^9|喻^9|路^9|3^11|1^11|2^11|号^11|1^14|栋^14|SEP|洪山区^3|珞喻路^9|312号^11|1栋^14，扩展了“洪”、“山”、“区”、“珞”、“喻”、“路”、“3”、“1”、“2”、“号”、“1”以及“栋”这些字及其对应的地址层级。

在一个实施例中，在对地址文本进行地址分词处理之后，还可以进行词过滤处理。词过滤处理主要是滤除一些对道路预测没有相关性或相关性很小的词，从而尽量减小后续输入道路预测模型中的数据量，提高模型识别效率。由于道路对应的地址层级已经代表一个较小的地理位置区域，基于数据相关性分析，可以认为较大地理位置范围的地址层级的词对道路预测所起的作用并不大，可以过滤掉。也即，在上述步骤S302之后，该基于大数据的道路识别方法还可以包括：

从多个所述词中确定位于第二目标地址层级之前的地址层级对应的词，作为第二目标词，所述第二目标地址层级为位于道路对应的地址层级之前且相隔预设位的地址层级；

从多个所述词中删除所述第二目标词。

其中，预设位可以人为设定，比如设为3，也即以道路对应的地址层级之前的第三个地址层级为分界点，将分界点之前的地址层级作为第二目标地址层级，比如若道路对应的地址层级为6，则以3这个地址层级为分界点，3之前的地址层级，也即1和2，均为第二目标地址层级。

例如，地址分词后的地址数据为：广东省^1|深圳市^2|龙华区^3|先跟创业园^13|5栋^14|A304^17，则对该地址数据进行词过滤后得到的地址文本为：龙华区^3|先跟创业园^13|5栋^14|A304^17，删除了地址层级1和2对应的词。

需要指出的是，在对地址文本进行地址分词之后，可以单独执行上述词过滤处理或词扩展处理，也可以对词过滤处理和词扩展处理都进行执行，且词过滤处理和词扩展处理的执行顺序可以不做限制，比如可以同时执行，或者先后执行，且当先后执行时，可以人为设定先后执行顺序。

步骤303，根据所述词和所述地址层级，生成所述地址文本对应的拼接向量序列。

在一个实施例中，可以直接对词和地址层级进行向量化处理，得到词向量和地址层级向量，并将词向量和地址层级向量进行组合，得到相应的拼接向量，其中，一个词向量和一个地址层级向量对应一个拼接向量，之后，可以将这些拼接向量进行排列，得到拼接向量序列。其中，向量化处理的目的是将高维的字符特征转化为低维的向量。可以通过设定的拼接规则将词向量与其对应的词级向量组合成拼接向量。可以基于地址层级的排列顺序或者其他设定顺序对拼接向量进行排列。

其中，词向量是指单个词对应的向量，比如“龙华区”这个词对应的向量。地址层级向量是指单个地址层级对应的向量，比如地址层级“3”对应的向量。

在一个实施例中，服务器通过训练好的向量模型对词和地址层级进行向量化处理。向量模型的训练步骤包括：获取多个样本地址文本，对该多个样本地址文本进行地址分词处理，得到样本词和对应的地址层级，将各个样本词和对应的地址层级作为语料库，基于该语料库对向量模型进行训练，从而得到已训练好的向量模型。本实施例中，向量模型的训练过程采用的机器学习算法可以为Word2Vec、doc2vec、CRNN的网络结构或Text-CNN。例如，假设地址分词处理后的地址文本为：龙华区^3|先跟创业园^13|5栋^14|A304^17，则通过向量模型处理后的词向量依次为：V(龙华区)，V(先跟创业园)，V(5栋)，V(A304)，其中，“V(龙华区)”表征词“龙华区”对应的词向量。地址层级向量依次为：V(3)，V(13)，V(14)，V(17)，其中，“V(3)”表征词“龙华区”对应的地址层级“3”的词向量。

在一个实施例中，上述拼接规则可以人为设定，例如，若词向量为V(龙华区)，对应的地址层级向量为V(3)，则将词向量和对应地址层级向量组合后的拼接向量可以为V(龙华区^3)，之后，可以按照地址层级从小到达的顺序对这些拼接向量排序，得到拼接向量序列，比如每个词向量与其对应的地址层级向量组合排序后得到的拼接向量序列可以为：V(龙华区^3)，V(先跟创业园^13)，V(5栋^14)，V(A304^17)。

本方案在词向量化的基础上增加对词对应的地址层级的向量化，使用词向量和地址层级向量的拼接向量序列作为后续道路预测模型的输入参数。这样做法的好处是：地址分词后的每个词是有层级关系的，把表征层级关系的词信息代入了词向量中，使后续道路预测模型对地址中各个词的位置更敏感，能够有效区分不同地址文本中词相同但是对应的地址层级不同的地址信息。需要说明的是，由于上述步骤S302中，除了会对地址文本进行分词之外，还会对地址文本进行词扩展处理，也即在地址文本中扩展上述第一目标词中的字，故相应地，此时上述步骤S303可以包括：根据所述字、所述词和所述地址层级，生成所述地址文本对应的拼接向量序列。

在一个实施例中，上述步骤“根据所述字、所述词和所述地址层级，生成所述地址文本对应的拼接向量”具体可以包括：

其中，“对所述字及所述字对应的地址层级进行向量化处理”的处理方式，可以参考上述对字及其地址层级进行向量化处理的处理方式。第一拼接向量序列和第二拼接向量序列的生成方式，可以参考上述对词向量和地址层级向量进行组合、排序的处理方式，此处不再赘述。第一拼接向量序列和第二拼接向量序列的组合方式可以是简单的拼接，比如，若第一拼接向量序列为：V(龙华区^3)，V(先跟创业园^13)，V(5栋^14)，V(A304^17)，第二拼接向量序列为：V(龙^3)，V(华^3)，V(区^3)，V(先^13)，V(跟^13)，V(创^13)，V(业^13)，V(园^13)，V(5^14)，V(栋^14)，V(A^17)，V(3^17)，V(0^17)，V(4^17)，则最终的拼接向量序列可以为V(龙华区^3)，V(先跟创业园^13)，V(5栋^14)，V(A304^17)，V(SEP)，V(龙^3)，V(华^3)，V(区^3)，V(先^13)，V(跟^13)，V(创^13)，V(业^13)，V(园^13)，V(5^14)，V(栋^14)，V(A^17)，V(3^17)，V(0^17)，V(4^17)。

此外，由于上述步骤S302中，除了会对地址文本进行分词之外，还会对地址文本进行词过滤处理，也即在地址文本中过滤掉上述第二目标词，故相应的，此时上述步骤S303可以包括：根据删除后剩余的所述词和所述地址层级，生成所述地址文本对应的拼接向量序列。

步骤304，将拼接向量序列输入已训练好的道路预测模型中，得到地址文本对应的道路数据；其中，所述道路预测模型为利用具有道路数据标签的样本地址文本集合训练得到，所述样本地址文本集合中的每个样本地址文本具有一个道路数据标签。

其中，该拼接向量序列可以是根据词和地址层级得到的序列，也可以是根据字、词和地址层级得到的序列。道路预测模型是基于预先获取的第一训练样本集训练得到的、能够用于根据拼接向量序列预测得到相应的道路数据的模型。第一训练样本集包括大量第一样本地址文本对应的第一样本拼接向量序列与样本标签。第一样本拼接向量序列是由第一样本地址文本中的各个词及其对应的地址层级的向量组合排序而成的向量序列，其形成过程与拼接向量序列相同。样本标签为期望输出的道路数据。

举例说明：第一样本地址文本为：广东省深圳市龙华区先跟创业园5栋A304，对应的样本标签为其对应的道路数据：工业路。

具体地，在模型训练阶段，服务器获取第一样本地址文本集合，第一样本地址文本集合中每个第一样本地址文本具有预先配置的第一样本标签；确定所述第一样本地址文本中的多个样本词及所述样本词对应的地址层级；根据所述样本词和所述地址层级，生成所述第一样本地址文本对应的样本拼接向量序列，并根据各第一样本地址文本对应的第一样本拼接向量序列与第一样本标签得到第一训练样本集，进而根据该第一训练样本集进行模型训练，得到训练好的道路预测模型。在模型应用阶段，服务器针对待处理的地址文本生成对应的拼接向量序列后，将该拼接向量序列输入已训练好的道路预测模型中，通过该道路预测模型对该拼接向量序列进行处理，预测输出相应的道路数据。

本实施例中，首先基于第一训练样本集训练道路预测模型，通过该训练好的道路预测模型对待处理的地址文本进行处理，能够快速而准确地识别地址文本中缺失或错误的道路数据，包容地址文本的多样性，比如对于地址文本中出现的人名“明道”，则不会识别为道路，并且能够提高对道路识别的泛化能力及准确性，比如即使地址文本中出现多个道路词组，也能准确识别出正确的道路。

在一个实施例中，上述步骤“确定所述第一样本地址文本中的多个样本词及所述样本词对应的地址层级；根据所述样本词和所述地址层级，生成所述第一样本地址文本对应的样本拼接向量序列”的处理方式和上述步骤S302和步骤S303类似，此处不再赘述

在一个实施例中，服务器从收派件运单地址库中获取至少半年的地址数据，以及从全国地址标准库中获取地址数据，根据所获取到的地址数据得到多个第一样本地址文本。在一个具体的示例中，根据第一训练样本集进行模型训练得到训练好的道路预测模型具体包括：

通过待训练的道路预测模型，根据样本拼接向量序列生成对应的道路预测数据；计算道路预测数据与相应的道路数据标签之间的误差，即，道路预测模型对应设置有损失函数，损失函数是机器学习里最基础也是最为关键的一个要素,损失函数的作用:衡量模型预测的好坏。损失函数就是用来表现预测值与实际值的差距程度，在本实施例中，预测值即为道路预测数据，实际值即为道路数据标签。将道路预测模型的预测值和实际值带入损失函数，就可以得到预测值与相应的实际值之间的误差。

之后，根据该误差反向调整待训练的道路预测模型的模型参数，对道路预测模型进行迭代训练，也即，根据该误差返回至所述通过待训练的道路预测模型，根据样本拼接向量序列生成对应的道路预测数据的步骤继续执行，对道路预测模型进行迭代训练，直至满足迭代停止条件，停止迭代，得到已训练好的道路预测模型。

进一步地，根据所述误差反向调整所述待训练的道路预测模型的模型参数具体包括：计算样本拼接向量中每个样本词向量(即样本词对应的向量)及其对应的地址层级向量(也即地址层级对应的向量)对道路预测模型输出的道路预测数据的影响因子，对于所述影响因子大于预设值的样本词向量(样本词)，增大其在道路预测模型中的对应网络节点的输出权重，其中，不同的影响因子代表相应样本词向量与期望输出的道路数据的相关性不同，通常，相关性越大的样本词向量对最终输出的道路数据的准确性的影响越大(也即影响因子越大)，故对于影响因子不同的样本词向量，道路预测模型可以赋予不同的输出权重。

在一个实施例中，该道路预测模型包括第一神经网络层和第二神经网络层；

其中，第一神经网络层作为道路预测模型的输入节点，主要用于接收样本拼接向量序列并对其进行递归特征提取和卷积特征提取，生成拼接融合的全局特征向量；

第二神经网络层主要用于接收第一神经网络层生成的全局特征向量，通过最大池化、平均池化以及注意力权重分配分别得到最大池化特征向量序列、平均池化特征向量序列与权重特征向量序列，将最大池化特征向量序列、平均池化特征向量序列与权重特征向量序列进行拼接融合，生成至少一个候选道路数据，每个候选道路数据具有对应的置信度。

此时，上述步骤“通过待训练的道路预测模型，根据样本拼接向量序列生成对应的道路预测数据”具体包括：通过待训练的道路预测模型，对样本拼接向量序列进行特征提取和计算，得到相应的最大池化特征向量序列、平均池化特征向量序列与权重特征向量序列；根据最大池化特征向量序列、平均池化特征向量序列与权重特征向量序列，生成至少一个候选道路数据，且每个候选道路数据具有对应的置信度；选择置信度最大的候选道路数据作为道路预测数据。

其中，该置信度用于表征候选道路数据为实际道路的概率(也即道路预测模型计算出的概率)，通常选择置信度最大的候选道路作为道路预测数据。可以根据置信度最大的道路预测数据(也即预测值)与道路数据标签(也即实际值)之间的误差来反向调整待训练的道路预测模型的模型参数，完成道路预测模型的单次迭代训练。重复以上步骤，直至满足迭代停止条件，模型训练完成。迭代停止条件，比如迭代次数大于或等于迭代次数阈值，还比如单次迭代对应的损失函数已实现最小化等，在此不作具体限定。在一个具体的示例中，请参见图4，图4是本实施例提供的道路预测模型的一种网络结构示意图。其中，第一神经网络层包括LSTM(Long short-term memory，长短期记忆)网络层和IDCNN(Iterated DilatedCNN)网络层，第二神经网络层包括平均池化层、最大池化层和Attention注意力网络层；LSTM是长短时记忆网络，作为循环神经网络的变体，能对长序列文本对序列之间关系有较好解释；IDCNN是空洞卷积神经网络，主要是卷积神经网络的变体，可以重点提取相关信息；Attention是一个注意力权重计算，能让网络迭代过程中关注重要的输入点。由于地址文本中的分词存在层级关系，使用LSTM和IDCNN网络效果更好。

Attention网络层的主要功能是计算全局的输入向量中各个词信息对最终预测的道路的影响程度(也即影响因子)，根据影响程度的大小为不同的词赋予不同的权重。在Attention网络层中增加对和道路相关性高的词的权重，比如14级地址层级的“楼栋”词就是对道路预测影响比较大的词，增加以上词对应的特征向量的权重，有利于提高道路预测的准确率。Attention网络层中的Encoder层会根据节点输入和节点输出通过softmax计算该节点的一个概率，这个概率就是输出权重，在下一层计算中，输出权重较高的节点更能影响输出结果。每一个节点输出的概率结合该节点先验的词信息，如果是特定地址层级的词(比如9级的道路词、14级的楼栋词)，就增大概率，反之就降低。

本实施例中，道路预测模型的上述第二网络层同时使用了最大池化层和平均池化层，并对各自输出的最大池化特征向量序列、平均池化特征向量序列进行连接操作，由于地址属于短文本，采取这样的池化操作有利于保留更多上层特征信息。

进一步地，在Attention网络层中增加了Mask掩模层，Mask层主要用于过滤一些经常出现但是对道路预测不是很重要的词，比如“龙华区”，通常，Mask层过滤的词和上述步骤S303中过滤的词具有不同的地址层级，Mask层过滤的词的地址层级的数值大于步骤S303中过滤的词的地址层级。具体而言，Mask层的目标是随机选择部分输入节点令其失效(通过设置输入节点的token值)，如此可以增加网络稀疏性(无效节点越多越稀疏)，一定稀疏性可以增加网络泛化能力，从而提高对新增数据的预测能力。

进一步地，分别在平均池化层、最大池化层中增加了Dropout层，Dropout层用于使神经元随机失活(通过设置输入节点的系数值)，可以防止模型的过拟合，增加模型的泛化能力。

在一个实施例中，在按照本申请一个或多个实施例中提供的模型训练方式训练道路预测模型时，会适应性调整模型的训练参数，比如CNN网络层数、核数，调增卷积大小、Dropout值、网络的学习率、模型更新率、经验缓存大小、动作选择系数、系数衰退率等，在此不作具体限定。

为了尽可能加快模型训练时间，尽可能减小模型大小，本实施例在模型训练过程中对作为训练参数的学习率进行自优化；具体而言，预先定义初始学习率，在每次迭代训练时均会计算本次迭代的损失函数，若连续若干次迭代的损失函数不变，则按照预先设置的衰减幅度将降低所述的初始学习率。本实施例在进行一定批次的迭代训练或监测到损失函数变化不大时，会自动降低学习率，这样主要为了找到最佳收敛点，因为损失函数快要收敛的时候梯度变化会很小，如果维持学习率不变就会导致找到的收敛点存在误差。例如：定义初始学习率为0.1，若检测到连续三次迭代训练的损失函数没有变化或者变化极小，则使初始学习率衰减10％，更新为0.9。

在一个实施例中，道路预测模型训练好之后，服务器针对待处理的地址文本生成对应的拼接向量序列后，将该拼接向量序列输入已训练好的道路预测模型中，通过该道路预测模型根据该拼接向量序列对地址文本进行处理，预测得到相应的一个或多个道路数据，以及每个道路数据对应的置信率；选择置信度最大的道路数据作为最终输出的预测数据。

如果置信度最大的道路数据的置信度不大于预设值(例如0.9)，表明模型预测的道路数据可能偏离实际的道路，服务器则舍弃道路预测模型输出的道路数据，根据预置的地址匹配规则将待处理的地址文本与词典进行相似度匹配，若待处理的地址文本与词典地址之间的相似度大于预设的相似度阈值(比如0.8)，则匹配成功，并直接从匹配成功的词典地址中提取相应道路数据，作为待处理的地址文本中缺失或错误的道路信息。

在一个实施例中，上述基于大数据的道路识别方法还包括：当满足道路预测模型的更新条件时，获取第二训练样本集；第二训练样本集包括第二样本地址文本对应的第二样本拼接向量序列与样本标签；根据第二训练样本集对道路预测模型进行迭代更新，得到更新后的道路预测模型，并将更新后的道路预测模型作为训练好的道路预测模型。

其中，模型更新条件是触发模型更新操作的条件或依据，具体可以是接收到终端发送的模型更新指令，或者，自前一次触发模型更新操作起达到指定时长。指定时长比如6个月，由于新地址会不断出现，由此需要按照预设周期定期更新已训练好的道路预测模型，以提高道路预测模型对新地址的泛化能力和鲁棒性。根据第二样本地址文本得到第二训练样本集的处理方式，类似于上述根据第一样本地址文本得到第一训练样本集的处理方式，此处不再赘述。

上述实施例中，按照模型更新条件对已训练得到的道路预测模型进行迭代更新训练，以进一步提高模型预测的准确性，以及新地址的泛化能力和鲁棒性。

在一个实施例中，如图5所示，图5提供了一种基于大数据的道路识别方法中训练集准备、模型训练和道路预测的一个场景示意图；服务器获取训练集，训练集中包含样本地址文本和样本地址文本对应的样本道路标签，其中，模型训练之前，先对训练集进行预处理，该处理可以包括规范化处理、分词处理、词过滤处理、以及特征工程，其中，特征工程可以包括无效值、离群值的过滤，数据样本平衡以及错误标签过滤等；接着，将预处理后的样本地址文本转化为样本拼接向量序列，样本拼接向量序列是对样本地址文本进行向量化处理和向量拼接组合后得到的；然后通过拼接向量序列进行道路预测模型的训练。服务器将tensorflow平台作为模型训练的主框架，也即是基于tensorflow平台来训练道路预测模型，并将已训练好的道路预测模型保存为tensorflow平台savedmodel模型。在将已训练好的道路预测模型进行线上部署以提供web服务时，服务器使用Golang语言的labstack/echo框架来部署tensorflow平台的savedmodel模型。其中，选择Golang的原因是Golang有专门调用tensorflow平台的API，使用方便，labstack/echo框架对高并发多线程优化很好，能最大化实现模型部署后的web服务性能。

在一个实施例中，按照本申请一个或多个实施例中提供的道路预测模型的训练方式，针对全国300多个城市分别训练得到相应的道路预测模型，并将针对各城市分别训练得到的道路预测模型部署至同一服务器，该服务器基于所部署的各道路预测模型，能够覆盖所有城市中各地址对应的地址文本的处理，也即是能够提供任意城市的地址对应的地址文本的道路预测功能。该同一服务器可以是单台服务器，比如单台256G内存的服务器，还可以是由多台服务器组成的服务器集群。

在一个实施例中，如图6所示，提供了一种基于大数据的道路识别装置500，包括：获取模块501、向量生成模块502、预测模块503，以及输出模块504和前处理模块505，其中：

获取模块501，用于获取待处理的地址文本；

向量生成模块502，用于确定所述地址文本中的多个词及所述词对应的地址层级；根据所述词和所述地址层级，生成所述地址文本对应的拼接向量序列，其中，所述道路预测模型为利用具有道路数据标签的样本地址文本集合训练得到，所述样本地址文本集合中的每个样本地址文本具有一个道路数据标；

预测模块503，用于将拼接向量序列输入已训练好的道路预测模型中，得到所述地址文本对应的道路数据。

在一个优选的实施例中，获取模块501还用于：对获取的地址文本进行规范化处理，将处理后的地址文本输入向量生成模块502。

在一个实施例中，上述基于大数据的道路识别装置500还包括：模型训练模块；

模型训练模块用于：获取第一样本地址文本集合，所述第一样本地址文本集合中每个第一样本地址文本具有至少一个道路数据标签；确定所述第一样本地址文本中的多个样本词及所述样本词对应的地址层级；根据所述样本词和所述地址层级，生成所述第一样本地址文本对应的样本拼接向量序列；根据所述样本拼接向量序列与所述道路数据标签得到第一训练样本，并将各个所述第一训练样本汇总形成第一训练样本集；根据所述第一训练样本集进行模型训练，得到训练好的道路预测模型。

在一个实施例中，模型训练模块还用于：通过待训练的道路预测模型，根据样本拼接向量序列生成对应的道路预测数据；计算道路预测数据与相应的道路数据标签之间的误差，并根据误差反向调整所述待训练的道路预测模型的模型参数；并继续执行通过待训练的道路预测模型，根据样本拼接向量序列生成对应的道路预测数据的步骤，直至满足迭代停止条件，停止迭代，得到已训练好的道路预测模型。

在一个实施例中，模型训练模块还用于根据所述误差反向调整所述待训练的道路预测模型的模型参数具体包括：计算样本拼接向量中每个样本词向量及其对应的地址层级向量对道路预测模型输出的道路预测数据的影响因子，对于所述影响因子大于预设值的样本词向量，增大其在道路预测模型中的对应网络节点的输出权重。

在一个实施例中，模型训练模块还用于：当满足道路预测模型的更新条件时，获取第二训练样本集；第二训练样本集包括第二样本地址文本对应的第二样本拼接向量序列与样本标签；根据第二训练样本集对道路预测模型进行迭代更新，得到更新后的道路预测模型，并将更新后的道路预测模型作为训练好的道路预测模型。

在一个优选的实施例中，上述基于大数据的道路识别装置500还包括：输出模块504；

输出模块504用于：当道路预测模型输出地址文本对应的一个道路数据时，将道路数据作为最终输出的一个道路数据；

当道路预测模型输出地址文本对应的多个道路数据时，输出模块504选择置信度最大的道路数据作为最终输出的预测数据。若置信度最大的道路数据的置信度不大于预设值，输出模块504则根据预置的地址匹配规则将待处理的地址文本与词典进行相似度匹配，从匹配成功的词典地址中提取道路数据。

在一个优选的实施例中，上述基于大数据的道路识别装置500还包括：前处理模块505；

前处理模块505用于：将该地址文本与预先配置的白名单地址库中的地址进行比对，该白名单地址库主要用于存储模型预测出错的地址文本、及所述预测出错的地址文本对应的道路词组之间的关联关系，匹配成功则根据所述关联关系确定所述地址文本对应的道路词组

关于基于大数据的道路识别装置的具体限定可以参见上文中对于基于大数据的道路识别方法的限定，在此不再赘述。上述基于大数据的道路识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的道路识别方法，其特征在于，包括：

获取待处理的地址文本；

确定所述地址文本中的多个词及所述词对应的地址层级；

2.如权利要求1所述的基于大数据的道路识别方法，其特征在于，在确定所述地址文本中的词及所述词对应的地址层级之后，还包括：

3.如权利要求2所述的基于大数据的道路识别方法，其特征在于，所述根据所述字、所述词和所述地址层级，生成所述地址文本对应的拼接向量序列，包括：

4.如权利要求1所述的基于大数据的道路识别方法，其特征在于，在确定所述地址文本中的多个词及所述词对应的地址层级之后，还包括：

5.如权利要求1所述的基于大数据的道路识别方法，其特征在于，在确定所述地址文本中的多个词及所述词对应的地址层级之前，还包括：

对所述地址文本进行规范化处理；

6.如权利要求1所述的基于大数据的道路识别方法，其特征在于，在确定所述地址文本中的多个词及所述词对应的地址层级之前，还包括：

7.如权利要求1所述的基于大数据的道路识别方法，其特征在于，所述道路预测模型的训练过程包括：

8.一种基于大数据的道路识别装置，其特征在于，包括：

获取模块，用于获取待处理的地址文本；

9.一种计算机设备，其特征在于，包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述计算机程序被所述处理单元执行时，使得所述处理单元执行权利要求1～7任一项所述方法的步骤。

10.一种计算机可读介质，其特征在于，其存储有可由计算机设备执行的计算机程序，当所述计算机程序在计算机设备上运行时，使得所述计算机设备执行权利要求1～7任一项所述方法的步骤。