CN110069626A

CN110069626A - 一种目标地址的识别方法、分类模型的训练方法以及设备

Info

Publication number: CN110069626A
Application number: CN201711096823.9A
Authority: CN
Inventors: 郭东波; 王国印
Original assignee: Cainiao Smart Logistics Holding Ltd
Current assignee: Cainiao Smart Logistics Holding Ltd
Priority date: 2017-11-09
Filing date: 2017-11-09
Publication date: 2019-07-30
Anticipated expiration: 2037-11-09
Also published as: CN110069626B

Abstract

本申请实施例公开了一种目标地址的识别方法、分类模型的训练方法以及设备，涉及数据处理技术领域。所述目标地址的识别方法包括：获取待识别地址；根据分类模型对所述待识别地址进行识别，确定所述待识别地址是否为目标地址，所述分类模型是基于对多个物流信息相关的时间特征、用户人群特征训练得到的。利用本申请实施例，实现了从海量的原始地址中识别出目标地址，对于物流领域具有重要的意义。

Description

一种目标地址的识别方法、分类模型的训练方法以及设备

技术领域

本申请涉及数据处理技术领域，尤其涉及一种目标地址的识别方法、分类模型的训练方法、目标地址的识别设备、分类模型的训练设备、计算设备以及计算机可读存储介质。

背景技术

目前，在处理中文文本时中文分词比较困难。汉语文本是一些汉字字符拼在一起构成的字符序列，汉语的词与词之间没有明显的界限。通过显示增加词语边界的标识，使得所形成的词串完整地反映出句子的本意，这就是分词所做的工作。

现有技术中通过计算机来执行分词的工作。对于计算机而言，该如何知道“结合成分子”的分词结果是“结/合成/分子”、“结合/成/分子”、“结合/成分/子”中的哪一个呢？这就是中文分词中的歧义难题。目前很多分词模型已能够解决这一难题。但在中文分词领域，还存在一个比歧义问题更加难以处理的问题，即未登录词的识别。未登录词指的是没有被收录在分词词表中但必须切分出来的词，包括各类专有名词(如人名、地名、企业名等)、缩写词、新增词汇等。由于中文词在字面上没有明显的特征(比如大写字母等)，其产生机理和构成方法没有明显的规律可循，因此如何让计算机识别规模巨大的人名、地名词汇是一个技术难题。商业地址是未登录词的一种。传统上未登词录的识别方法一般为：先对文本分词，匹配不成功的连续汉字串可认为是未登录词。但是该方法对商业地址的识别是无效的，因为该方法无法识别出具有商业性质的地址。

因此，如何研究和开发出一种新的方案，其能够识别出商业地址是本领域亟待解决的技术难题。

发明内容

本申请实施例的目的是提供一种目标地址的识别方法、分类模型的训练方法、目标地址的识别设备、分类模型的训练设备、计算设备以及计算机可读存储介质，实现了自动从海量的原始地址中识别出目标地址(诸如商业地址)，对于物流领域具有重要的意义。

为解决上述技术问题，本申请实施例是这样实现的：

根据本申请的第一方面，提出了一种目标地址的识别方法，包括：

获取待识别地址；

根据分类模型对所述待识别地址进行识别，确定所述待识别地址是否为目标地址，所述分类模型是基于对多个物流信息相关的时间特征、用户人群特征训练得到的。

根据本申请的第二方面，提出了一种分类模型的训练方法，包括：

获取多个物流信息；

对所述物流信息按照街道行政区划粒度进行特征分区；

统计所述物流信息，得到所述物流信息对应的时间特征、用户人群特征；

对文本模型、时间特征、用户人群特征进行归一化，所述文本模型是将所述多个物流信息对应的特征以及所述特征对应的权重值作为深度神经网络DNN模型的输入训练得到的；

将不同街道下的物流信息的时间特征、用户人群特征以及文本模型作为输入特征进行并行训练，得到分类模型。

根据本申请的第三方面，提出了一种目标地址的识别设备，包括：

地址获取装置，用于获取待识别地址；

地址识别装置，用于根据分类模型对所述待识别地址进行识别，确定所述待识别地址是否为目标地址，所述分类模型是基于对多个物流信息相关的时间特征、用户人群特征训练得到的。

根据本申请的第四方面，提出了一种分类模型的训练设备，包括：

特征分区装置，用于获取多个物流信息，对所述物流信息按照街道行政区划粒度进行特征分区；

特征统计装置，用于统计所述物流信息，得到所述物流信息对应的时间特征、用户人群特征；

归一化装置，用于对文本模型、时间特征、用户人群特征进行归一化，所述文本模型是将所述多个物流信息对应的特征以及所述特征对应的权重值作为深度神经网络DNN模型的输入训练得到的；

分类训练装置，用于将不同街道下的物流信息的时间特征、用户人群特征以及文本模型作为输入特征进行并行训练，得到分类模型。

根据本申请的第五方面，提出了一种计算设备，包括：适于实现各指令的处理器以及存储设备，所述存储设备存储有多条指令，所述指令适于由处理器加载并执行：

获取待识别地址；

根据本申请的第六方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于执行：

获取待识别地址；

根据本申请的第七方面，提出了一种计算设备，包括：适于实现各指令的处理器以及存储设备，所述存储设备存储有多条指令，所述指令适于由处理器加载并执行：

获取多个物流信息；

对所述物流信息按照街道行政区划粒度进行特征分区；

根据本申请的第八方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于执行：

获取多个物流信息；

对所述物流信息按照街道行政区划粒度进行特征分区；

由以上本申请实施例提供的技术方案可见，本申请实施例首先对待识别地址进行分词以及语义标注，然后进行提取bigram特征以及skip-gram特征，采用Word Embedding技术对特征进行权重值赋值，最后通过训练得到的文本模型、分组模型分别对待识别地址进行识别，最终识别出待识别地址是否为目标地址(诸如商业地址)，实现了自动从海量的原始地址中识别出目标地址，对于物流领域具有重要的意义，能够提升了包裹的派送效率。

为让本申请的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一种目标地址的识别方法的流程图；

图2为本申请一种分类模型的训练方法的流程图；

图3为本申请一种目标地址的识别设备的结构框图；

图4为本申请一种分类模型的训练设备的结构框图；

图5为本申请深度神经网络文本模型的实现示意图；

图6为本申请文本模型的训练的示意图；

图7为本申请分类模型的训练的示意图。

具体实施方式

本申请实施例提供一种目标地址的识别方法、分类模型的训练方法、目标地址的识别设备、分类模型的训练设备、计算设备以及计算机可读存储介质。

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

下面首先介绍本申请涉及的术语。

未登录词：没有被收录在分词词表中但必须切分出来的词，包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等。

N-gram：大词汇连续语音识别中常用的一种语言模型，对中文而言，我们称之为汉语语言模型(CLM,Chinese Language Model)。

Skip-Gram：一种可以跳跃的非连续字符序列的ngram语言模型。

Bigram：一种分词后的词序列中，相邻词形成的语言模型，即N＝2的N-Gram的语言模型。

One-Hot encoding：一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。

Word Embedding：词嵌入是一套语言建模和特征学习自然语言处理技术的总称(NLP)。区别与传统one hot的一位有效的原则，词嵌入技术采用稠密的表达方式。

SVM：支持向量机，因其英文名为support vector machine，故一般简称SVM，通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。

DNN：深度神经网络(Deep Neural Networks,简称DNN)，是近年来机器学习领域中的研究热点，产生了广泛的应用。DNN具有深层结构、待学习参数庞大。

瀑布融合法：瀑布型(Waterfall Model)融合方法采用了将多个模型串联的方法。

随着物流行业和地理信息技术的飞速发展，包裹的数量越来越多。由于购物具有阶段性，如双11期间、618期间的包裹和平时相比会出现激增。派送单量的激增，对站点(例如驿站，超市站点)造成了派送库存激增的问题，而临时扩建站点成本较高。

本申请的申请人通过观察商业地址派送的规律后发现，商业地址的周末与工作日派送频次存在较大的差距。在物流领域如果能够识别出商业地址，仅在工作日派送，就会极大降低站点派送库存的压力、大大提升包裹自动化分拣、揽收、派送效率。因此，如何将物流领域中的包裹地址中的商业地址识别出来是一个重大课题。

新词发现是中文分词必不可少的部分，因此新词发现的方法因分词的方法不同而不同，目前主流的分词方法主要有：

1、基于规则的方法，多采用语言学专家手工构造规则模板，选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法，以模式和字符串相匹配为主要手段，这类系统大多依赖于知识库和词典的建立。基于规则和词典的方法是命名实体识别中最早使用的方法，这些规则往往依赖于具体语言、领域和文本风格，编制过程耗时且难以涵盖所有的语言现象，特别容易产生错误，系统可移植性不好，对于不同的系统需要语言学专家重新书写规则。识别的准确率受限于规则库的完整程度。建设大规模的规则库，需要大量的人力。

2、基于统计机器学习的命名体识别，该方法是基于字粒度的序列标注，在标注的结果上创建字合并为词的规则，依据规则将字合并为命名体。该方法的缺点如下：命名体识别的准确率受已标注字的数量、位置信息和其他字的组合即字的上下文等因素的影响，具体体现在训练语料中已标注词的规模；标注的语料数据较难获得，命名体识别的准确率受语料库的规模影响较大。

从上述两类方法中可以看出，命名体识别非常依赖现有的标准化的资源。本申请针对已收集的词库或已标注的规模极其有限的训练语料，采用少量的规则及统计量结合机器学习的方式，进行商业地址识别。商业地址是一种特殊的命名体，其具有商业本身的性质。因此，在充分利用文本本身的特征之外，还可以进一步挖掘商业地址的商业特性。

在本申请中，文本特征采用的是小粒度分词将地址文本进行分词。采用两种统计型文本特征N-Gram和Skip-Gram。N-Gram注重词的连续型特征，例如“乐佳国际大厦”，形成的Bigram可以是“乐佳国际”。Skip-Gram注重的是的跳跃型特征，例如：“乐佳国际大厦”，形成的Skip-Gram可以是“乐佳大厦”。

有了以上文本特征以及商业特征，开始进入到训练部分。由于以上两类特征具有语义含义，而非单纯的统计型数据。采用类似SVM这种拟合类模型是不合适的。因此，本申请采用的是DNN模型。采用DNN模型的好处在于，可以有效地通过神经网络抽象出有效的特征组合。

图1为本申请一种目标地址的识别方法的流程图，请参阅图1，本申请提供的一种目标地址的识别方法包括：

S101：获取待识别地址；

S102：根据分类模型对所述待识别地址进行识别，确定所述待识别地址是否为目标地址，所述分类模型是基于对多个物流信息相关的时间特征、用户人群特征训练得到的。

在本申请的一种实施方式中，目标地址为商业地址。申请人发现，商业地址的物流信息包括以下特征：

a.地址类特征：商业地址例如写字楼的收货时间，周末收件量与工作日两类时间段存在着巨大的差距。

b.实时特征，商业地址中的人群，其工作与休息的地点与时间周期存在强拟合。例如，在白天的时间段中，商业地址存在的人的数量较多。同时，在夜晚，商业地址存在的人的数量较少。

c.用户人群特征，在有商业地址特性的办公地点工作的人群，会存在用户本身的特性。例如，在商业地址中办公的人群，包含了白领人群等。首先，根据用户的行为信息可以识别出用户的身份，例如，“白领”，进而通过观察，以白领为办公地点的地址，可以认为在很大概率上是商业地址。将商业地址作为收件地址的人的数量较多，我们认为商业地址大部分是作为商业行为的地址标的，因此和一般性住宅中存储的人的数量存在较大的差距。

上述的地址类特征、实时特征称为物流信息相关的时间特征。

在本申请的一种实施方式中，该方法在步骤S102之前还包括：

对待识别地址进行预处理以及特征提取，得到特征集合。

在本申请的一种实施方式中，该步骤包括对待识别的地址进行预处理，得到语义标注后的词序列；对语义标注后的词序列进行特征提取，得到特征集合。

其中，对所述地址进行预处理，得到语义标注后的词序列包括：

将所述待识别的地址切分成以词为粒度的词序列；

针对所述词序列进行语义标注，得到语义标注后的词序列。

在具体的实施方式中，待识别的地址可为包裹的收货地址，诸如“浙江省杭州市余杭区五常街道文一西路969号阿里巴巴西溪园区”。经过分词并且语义标注的结果为“prov＝浙江省，city＝杭州市，district＝余杭区，town＝五常街道，road＝文一西路，roadNo＝969号，poi＝阿里巴巴西溪园区，poiLabel＝INDUSTRIAL_PARK”。其中，“district”就是“余杭区”的语义标注，表明该词单元为行政区划中的区。

对语义标注后的词序列进行特征提取，得到特征集合包括：

针对所述语义标注后的词序列，提取bigram特征。

获取预先设定的特征模板，在本申请的一种实施方式中，预先设置的特征模板诸如为“prov city poi”、“prov city roadNo”。

依据所述特征模板对所述语义标注后的词序列提取skip-gram特征，所述bigram特征以及skip-gram特征组成特征集合。

在本申请中，bigram特征抽取是采用文本二元模型的方式来产出特征集合。例如，提取“浙江省杭州市阿里巴巴西溪园区”的bigram特征为“浙江省杭州市”和“杭州市”、“阿里巴巴西溪园区”两个文本特征。

在本申请中，预先设置的特征模板假设为“prov city poi”，则针对经过分词并且语义标注的结果“prov＝浙江省city＝杭州市district＝余杭区town＝五常街道road＝文一西路roadNo＝969号poi＝阿里巴巴西溪园区”进行特征提取，得到的特征为“浙江省杭州市阿里巴巴西溪园区”。

在本申请中，bigram文本特征抽取，可以有效补充skip-gram特征的缺失。同时，skip-gram可以有效提取出具有构词结构的特征集合。

在本申请的一种实施方式中，根据分类模型对所述待识别地址进行识别，确定所述待识别地址是否为目标地址包括：

对所述特征集合中的多个特征设置对应的权重值。该步骤旨在将产出的特征集合中的特征分配特征权重。本申请采用了Word Embedding技术来形成特征权重。WordEmbedding技术可以充分考虑文本的上下文信息，从而更充分地描述文本特征。

根据文本模型、所述特征以及所述特征对应的权重值对所述待识别地址进行预测，得到所述特征对应的回归值，所述文本模型是将所述多个物流信息对应的特征以及所述多个物流信息的特征对应的权重值作为深度神经网络DNN模型的输入训练得到的；

图5为本申请DNN文本模型的实现示意图，图7为文本模型的训练流程图，请参阅图5、图7，在本申请的一种实施方式中，文本模型是采用DNN模型通过如下步骤训练形成的：

获取多个物流信息。在本申请的一种实施方式中，多个物流信息可从地址库中获取，地址库是用来存储不同包裹的物流信息的。

对所述物流信息对应的收货地址进行分词，得到词序列，对分词后的词序列进行语义标注；

对语义标注后的词序列进行特征提取，得到bigram特征以及skip-gram特征组成的特征集合；

对所述特征集合中的多个特征设置对应的权重值；

将所述多个特征以及所述特征对应的权重值作为深度神经网络模型的输入，训练得到文本模型。

在DNN算法层面的改进在于，采用在输入层对特征进行word embedding化。改进前的节点计算公式如公式一所示：

其中，f为激活函数。

改进后的节点计算公式如公式二所示：

其中，few_i(feature embedding weight)代表每个特征的输入值(即特征权重)。

根据分类模型结合所述特征对应的回归值对所述待识别地址进行识别，得到所述待识别地址的识别结果。图7为分类模型的训练流程图，请参阅图7，在本申请的一种实施方式中，所述分类模型是通过如下步骤训练形成的：

对所述物流信息按照街道行政区划粒度进行特征分区；

统计所述物流信息，得到所述物流信息对应的时间特征、用户人群特征。在本申请中，申请人统计所述物流信息的时间特征、用户人群特征。具体的，时间特征包括地址类特征以及实时特征，地址类特征是指所述地址的周末收件量与工作日收件量的比值。实时特征是指所述地址中的白天时间段中的人群与在夜晚存在的人群的数量的比值。用户人群特征包括：根据用户的行为信息识别出的用户的身份，例如，“白领”，进而通过统计观察，以白领为办公地点的地址，将商业地址作为收件地址的人的数量与一般性住宅中存储的人的数量的比值。

对所述文本模型、时间特征、用户人群特征进行归一化；

如上所述，本申请实施例首先对待识别的地址进行分词以及语义标注，然后进行提取bigram特征以及skip-gram特征，采用Word Embedding技术对特征进行权重值赋值，最后通过训练得到的文本模型、分组模型分别对待识别的地址进行预测，最终识别出待识别的地址是否为商业地址，实现了自动从海量的原始地址中识别出商业地址，对于物流领域具有重要的意义，能够提升了包裹的派送效率。

本申请还提供了一种分类模型的训练方法，图2为分类模型的训练方法的流程图，请参阅图2，所述方法包括：

S201：获取多个物流信息，对所述物流信息按照街道行政区划粒度进行特征分区。在本申请的一种实施方式中，多个物流信息可从地址库中获取，地址库是用来存储不同包裹的物流信息的。

S202：统计所述物流信息，得到所述物流信息对应的时间特征、用户人群特征。在本申请中，申请人统计所述物流信息的时间特征、用户人群特征。具体的，时间特征包括地址类特征以及实时特征，地址类特征是指所述地址的周末收件量与工作日收件量的比值。实时特征是指所述地址中的白天时间段中的人群与在夜晚存在的人群的数量的比值。用户人群特征包括：根据用户的行为信息识别出的用户的身份，例如，“白领”，进而通过统计观察，以白领为办公地点的地址，将商业地址作为收件地址的人的数量与一般性住宅中存储的人的数量的比值。

S203：对所述文本模型、时间特征、用户人群特征进行归一化；

S204：将不同街道下的物流信息的时间特征、用户人群特征以及文本模型作为输入特征进行并行训练，得到分类模型。

应当注意，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

在介绍了本申请的方法之后，接下来，参考附图对本申请的设备进行介绍。该设备的实施可以参见上述方法的实施，重复之处不再赘述。

图3为本申请一种目标地址的识别设备的结构框图，请参阅图4，本申请提供的一种目标地址的识别设备包括：

地址获取装置101，用于获取待识别地址；

地址识别装置102，用于根据分类模型对所述待识别地址进行识别，确定所述待识别地址是否为目标地址，所述分类模型是基于对多个物流信息相关的时间特征、用户人群特征训练得到的。

在申请的一种实施方式中，该设备还包括特征提取装置，用于对待识别的地址进行预处理以及特征提取，得到特征集合。

在本申请的一种实施方式中，特征提取装置包括：预处理模块，用于对待识别的地址进行预处理，得到语义标注后的词序列；特征提取模块，用于对语义标注后的词序列进行特征提取，得到特征集合。

其中，预处理模块包括：

分词模块，用于将所述待识别的地址切分成以词为粒度的词序列；

标注模块，用于针对所述词序列进行语义标注，得到语义标注后的词序列。

特征提取模块包括：

第一特征提取模块，用于针对所述语义标注后的词序列，提取bigram特征。

特征模板获取模块，用于获取预先设定的特征模板，在本申请的一种实施方式中，预先设置的特征模板诸如为“prov city poi”、“prov city roadNo”。

第二特征提取模块，用于依据所述特征模板对所述语义标注后的词序列提取skip-gram特征，所述bigram特征以及skip-gram特征组成特征集合。

在本申请的一种实施方式中，地址识别装置包括：

权重设置模块，用于对所述特征集合中的多个特征设置对应的权重值。该模块旨在将产出的特征集合中的特征分配特征权重。本申请采用了Word Embedding技术来形成特征权重。Word Embedding技术可以充分考虑文本的上下文信息，从而更充分地描述文本特征。

文本预测模块，用于根据文本模型、所述特征以及所述特征对应的权重值对所述待识别地址进行预测，得到所述特征对应的回归值，所述文本模型是将所述多个物流信息对应的特征以及所述多个物流信息的特征对应的权重值作为深度神经网络DNN模型的输入训练得到的。

对所述特征集合中的多个特征设置对应的权重值；

将所述多个特征以及所述特征对应的权重值作为深度神经网络模型的输入，训练得到文本模型。地址识别模块，用于根据分类模型结合所述待识别特征对应的回归值对所述地址进行识别，得到所述待识别地址的识别结果。图7为分类模型的训练流程图，请参阅图7，在本申请的一种实施方式中，所述分类模型是通过如下步骤训练形成的：

对所述物流信息按照街道行政区划粒度进行特征分区；

对所述文本模型、时间特征、用户人群特征进行归一化；

本申请还提供了一种分类模型的训练设备，图4为分类模型的训练设备的结构框图，请参阅图4，所述设备包括：

特征分区装置201，用于获取多个物流信息，对所述物流信息按照街道行政区划粒度进行特征分区；

特征统计装置202，用于统计所述物流信息，得到所述物流信息对应的时间特征、用户人群特征；

归一化装置203，用于对文本模型、时间特征、用户人群特征进行归一化，所述文本模型是将所述多个物流信息对应的特征以及所述特征对应的权重值作为深度神经网络DNN模型的输入训练得到的；

分类训练装置204，用于将不同街道下的物流信息的时间特征、用户人群特征以及文本模型作为输入特征进行并行训练，得到分类模型。

如上，本申请实施例首先对待识别的地址进行分词以及语义标注，然后进行提取bigram特征以及skip-gram特征，采用Word Embedding技术对特征进行权重值赋值，最后通过训练得到的文本模型、分组模型分别对待识别的地址进行预测，最终识别出待识别的地址是否为商业地址，实现了自动从海量的原始地址中识别出商业地址，对于物流领域具有重要的意义，能够提升了包裹的派送效率。

本申请还提出了一种计算设备，包括：适于实现各指令的处理器以及存储设备，所述存储设备存储有多条指令，所述指令适于由处理器加载并执行：

获取待识别地址；

本申请还提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于执行：

获取待识别地址；

获取多个物流信息；

对所述物流信息按照街道行政区划粒度进行特征分区；

获取多个物流信息；

对所述物流信息按照街道行政区划粒度进行特征分区；

本方案的与现有技术中的其他方案的不同点在于：

1.仅仅需要少量的文本标注数据。

2.除了采用地址的文本特征，还结合了商业地址的商业特性，有效提升召回率。

3.在考虑地址本身特征的同时，考虑了使用该地址作为收货地址的用户特征，有效地提升了准确率。

4.由于特征本身具有语义，而非单纯的统计型特征，采用DNN作为训练模型，更有利于抽象出有效的特征组合。

本方案的有益效果在于：

1.不依赖词典，自动识别出商业地址。

2.采用基于模版的skip-gram和bigram相结合的方式进行提取文本特征，bigram补充了skip-gram的特征覆盖度，提升了召回率。同时，skip-gram作为通过模版抽取的特征，准确度较高，提升了算法的准确率。

3.基于DNN结合SVM算法，进行模型训练，DNN可以针对具有文本抽象含义的数据进行训练，可以充分利用DNN模型的本身特性，抽象组合出有效特征。同时，将DNN输出的回归权重结合统计型指标，作为SVM模型的输入，可以充分利用SVM模型最小边界特性，提升算法准确率。

4.采用Word Embedding技术作为DNN模型特征权重赋值方法，充分考虑了特征的上下文，提升了算法的准确率。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware DescriptionLanguage，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种目标地址的识别方法，其特征在于，所述方法包括：

获取待识别地址；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：对所述待识别地址进行特征提取，得到特征集合。

3.根据权利要求2所述的方法，其特征在于，对所述待识别地址进行特征提取，得到特征集合包括：

将所述待识别地址切分成以词为粒度的词序列；

针对所述词序列进行语义标注，得到语义标注后的词序列；

针对所述语义标注后的词序列，提取bigram特征；

获取预先设定的特征模板；

依据所述特征模板对所述语义标注后的词序列提取skip-gram特征；

所述bigram特征以及skip-gram特征组成特征集合。

4.根据权利要求2所述的方法，其特征在于，根据分类模型对所述待识别地址进行识别，确定所述待识别地址是否为目标地址包括：

对所述特征集合中的多个特征设置对应的权重值：

根据分类模型结合所述特征对应的回归值对所述待识别地址进行识别，得到所述待识别地址的识别结果。

5.根据权利要求4所述的方法，其特征在于，所述分类模型是基于对多个物流信息相关的时间特征、用户人群特征训练得到的包括：

获取多个物流信息；

对所述物流信息按照街道行政区划粒度进行特征分区；

对所述文本模型、时间特征、用户人群特征进行归一化；

6.一种分类模型的训练方法，其特征在于，所述方法包括：

获取多个物流信息；

对所述物流信息按照街道行政区划粒度进行特征分区；

7.一种目标地址的识别设备，其特征在于，所述设备包括：

地址获取装置，用于获取待识别地址；

8.根据权利要求7所述的设备，其特征在于，所述设备还包括特征提取装置，用于对所述待识别地址进行特征提取，得到特征集合。

9.根据权利要求8所述的设备，其特征在于，所述特征提取装置包括：

分词模块，用于将所述待识别地址切分成以词为粒度的词序列；

标注模块，用于针对所述词序列进行语义标注，得到语义标注后的词序列；

第一特征提取模块，用于针对所述语义标注后的词序列，提取bigram特征；

特征模板获取模块，用于获取预先设定的特征模板；

10.根据权利要求8所述的设备，其特征在于，所述地址识别装置包括：

权重设置模块，用于对所述特征集合中的多个特征设置对应的权重值：

文本预测模块，用于根据文本模型、所述特征以及所述特征对应的权重值对所述待识别地址进行预测，得到所述特征对应的回归值，所述文本模型是将所述多个物流信息对应的特征以及所述多个物流信息的特征对应的权重值作为深度神经网络DNN模型的输入训练得到的；

地址识别模块，用于根据分类模型结合所述待识别特征对应的回归值对所述地址进行识别，得到所述待识别地址的识别结果。

11.根据权利要求10所述的设备，其特征在于，所述分类模型是基于对多个物流信息相关的时间特征、用户人群特征训练得到的包括：

获取多个物流信息；

对所述物流信息按照街道行政区划粒度进行特征分区；

对所述文本模型、时间特征、用户人群特征进行归一化；

12.一种分类模型的训练设备，其特征在于，所述设备包括：

13.一种计算设备，其特征在于，所述计算设备包括：适于实现各指令的处理器以及存储设备，所述存储设备存储有多条指令，所述指令适于由处理器加载并执行：

获取待识别地址；

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于执行：

获取待识别地址；

15.一种计算设备，其特征在于，所述计算设备包括：适于实现各指令的处理器以及存储设备，所述存储设备存储有多条指令，所述指令适于由处理器加载并执行：

获取多个物流信息；

对所述物流信息按照街道行政区划粒度进行特征分区；

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于执行：

获取多个物流信息；

对所述物流信息按照街道行政区划粒度进行特征分区；