CN112052668A

CN112052668A - 地址文本识别模型的训练方法、地址的预测方法及装置

Info

Publication number: CN112052668A
Application number: CN202010811886.3A
Authority: CN
Inventors: 吴帝; 殷浩; 王蓉; 李博涵; 鄞健欢; 程昆; 张定棋
Original assignee: Fengtu Technology Shenzhen Co Ltd
Current assignee: Fengtu Technology Shenzhen Co Ltd
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2020-12-08

Abstract

本申请提供了一种地址文本识别模型的训练方法、地址的预测方法及装置，该训练方法包括：获取待训练地址文本样本；对待训练地址文本样本进行向量化，得到文本内容向量序列和文本位置向量序列；对文本内容向量序列和文本位置向量序列进行拼接，得到地址文本向量序列；基于地址文本向量序列对待训练地址文本识别模型进行训练，得到目标地址文本识别模型。本申请不仅对待训练地址文本样本的文本内容进行向量化，还对待训练地址文本样本的文本位置也进行了向量化，最后再合并使用，能够更好的表现待训练地址文本样本向量化后的地址文本位置关系，从而能够得到预测能力更准确的目标地址文本识别模型，提高对地址预测的准确率。

Description

地址文本识别模型的训练方法、地址的预测方法及装置

技术领域

本申请涉及自然语言处理和及机器学习技术领域，具体涉及一种地址文本识别模型的训练方法、地址的预测方法及装置。

背景技术

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

在电商高速发展的今天，几乎所有快递公司都引入了智能填写下单服务。智能填写地址识别系统目的是简化客户下单流程，提高客户下单效率。因此该系统对地址文本的信息识别和提取额准确率就成了至关重要的指标。传统智能下单系统对地址文本进行识别是基于规则匹配做的，这样的方法准确率低。也即现有技术中地址文本识别的准确率过低。

发明内容

本申请旨在提供一种地址文本识别模型的训练方法、地址的预测方法及装置，旨在解决现有技术对地址预测的准确率较低的问题。

一方面，本申请提供一种地址文本识别模型的训练方法，所述训练方法包括：

获取待训练地址文本样本；

对所述待训练地址文本样本进行向量化，得到文本内容向量序列和文本位置向量序列；

对所述文本内容向量序列和所述文本位置向量序列进行拼接，得到地址文本向量序列；

基于所述地址文本向量序列对待训练地址文本识别模型进行训练，得到目标地址文本识别模型。

其中，所述文本内容向量序列包括词向量序列，所述对所述文本内容向量序列和所述文本位置向量序列进行拼接，得到地址文本向量序列，包括：

对所述待训练地址文本样本进行词维度分词，得到多个地址文本分词；

对所述多个地址文本分词向量化，得到所述词向量序列；

基于所述多个地址文本分词在所述待训练地址文本样本中的位置对所述多个地址文本分词进行编码，得到所述文本位置向量序列。

其中，所述文本内容向量序列还包括字向量序列，所述对所述文本内容向量序列和所述文本位置向量序列进行拼接，得到地址文本向量序列，还包括：

对所述待训练地址文本样本进行字维度分词，得到多个地址文本字符；

对所述多个地址文本字符向量化，得到所述字向量序列。

其中，所述基于所述地址文本向量序列对待训练地址文本识别模型进行训练，得到目标地址文本识别模型，包括：

基于所述地址文本向量序列对待训练地址文本识别模型进行训练，得到训练后的地址文本识别模型；

对训练后的地址文本识别模型进行封装，得到所述目标地址文本识别模型。

其中，所述基于所述地址文本向量序列对待训练地址文本识别模型进行训练，得到目标地址文本识别模型，之后，包括：

获取用户输入的第一地址文本样本；

基于所述待训练文本样本对所述第一地址文本样本过滤，得到第二地址文本样本；

基于所述第二地址文本样本对所述目标地址文本识别模型训练更新。

一方面，本申请提供一种地址的预测方法，所述预测方法包括：

获取用户的地址预测请求；

基于所述地址预测请求获取地址预测文本；

基于预设的目标地址文本识别模型对所述地址预测文本进行预测，得到所述地址预测文本对应的预测结果，其中，所述预设的目标地址文本识别模型为第一方面任意一项所述的目标地址文本识别模型。

一方面，本申请提供一种地址文本识别模型的训练装置，所述训练装置包括：

获取单元，用于获取待训练地址文本样本；

向量化单元，用于对所述待训练地址文本样本进行向量化，得到文本内容向量序列和文本位置向量序列；

拼接单元，用于对所述文本内容向量序列和所述文本位置向量序列进行拼接，得到地址文本向量序列；

模型训练单元，用于基于所述地址文本向量序列对待训练地址文本识别模型进行训练，得到目标地址文本识别模型。

其中，所述文本内容向量序列包括词向量序列，所述向量化单元，还用于对所述待训练地址文本样本进行词维度分词，得到多个地址文本分词；

对所述多个地址文本分词向量化，得到所述词向量序列；

其中，所述文本内容向量序列还包括字向量序列，所述向量化单元，还用于对所述待训练地址文本样本进行字维度分词，得到多个地址文本字符；

对所述多个地址文本字符向量化，得到所述字向量序列。

其中，所述模型训练单元，还用于基于所述地址文本向量序列对待训练地址文本识别模型进行训练，得到训练后的地址文本识别模型；

其中，所述模型训练单元，还用于获取用户输入的第一地址文本样本；

一方面，本申请提供一种地址的预测装置，所述预测装置包括：

第一获取单元，用于获取用户的地址预测请求；

第二获取单元，用于基于所述地址预测请求获取地址预测文本；

地址预测单元，用于基于预设的目标地址文本识别模型对所述地址预测文本进行预测，得到所述地址预测文本对应的预测结果，其中，所述预设的目标地址文本识别模型为第一方面任意一项所述的目标地址文本识别模型。

一方面，本申请还提供一种电子设备，所述电子设备包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现第一方面中任一项所述的地址文本识别模型的训练方法。

一方面，本申请还提供一种电子设备，所述电子设备包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现第二方面中任一项所述的地址的预测方法。

一方面，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行第一方面任一项所述的地址文本识别模型的训练方法中的步骤或者执行第二方面任一项所述的地址的预测方法中的步骤。

本申请提供一种地址文本识别模型的训练方法，不仅对待训练地址文本样本的文本内容进行向量化，还对待训练地址文本样本的文本位置也进行了向量化，最后再合并使用，能够更好的表现待训练地址文本样本向量化后的地址文本位置关系，从而能够得到预测能力更准确的目标地址文本识别模型，提高对地址预测的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例所提供的地址的预测系统的场景示意图；

图2是本申请实施例提供的地址文本识别模型的训练方法的一个实施例流程示意图；

图3是本申请实施例提供的地址的预测方法的一个实施例流程示意图；

图4是本申请实施例中提供的地址文本识别模型的训练装置一个实施例结构示意图；

图5是本申请实施例中提供的地址的预测装置一个实施例结构示意图；

图6是本申请实施例中提供的电子设备的一个实施例结构示意图；

图7是本申请实施例中提供的电子设备的另一个实施例结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本申请中，“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本申请，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本申请。在其它实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本申请的描述变得晦涩。因此，本申请并非旨在限于所示的实施例，而是与符合本申请所公开的原理和特征的最广范围相一致。

需要说明的是，本申请实施例方法由于是在电子设备中执行，各电子设备的处理对象均以数据或信息的形式存在，例如时间，实质为时间信息，可以理解的是，后续实施例中若提及尺寸、数量、位置等，均为对应的数据存在，以便电子设备进行处理，具体此处不作赘述。

本申请实施例提供一种地址文本识别模型的训练方法、地址的预测方法及装置，以下分别进行详细说明。

请参阅图1，图1为本申请实施例所提供的地址的预测系统的场景示意图，该地址的预测系统可以包括电子设备100，电子设备100中集成有地址的预测装置和/或地址文本识别模型的训练装置，如图1中的电子设备。

本申请实施例中，该电子设备100可以是独立的服务器，也可以是服务器组成的服务器网络或服务器集群，例如，本申请实施例中所描述的电子设备100，其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中，云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。

本领域技术人员可以理解，图1中示出的应用环境，仅仅是与本申请方案一种应用场景，并不构成对本申请方案应用场景的限定，其他的应用环境还可以包括比图1中所示更多或更少的电子设备，例如图1中仅示出1个电子设备，可以理解的，该地址的预测系统还可以包括一个或多个其他服务，具体此处不作限定。

另外，如图1所示，该地址的预测系统还可以包括存储器200，用于存储数据，例如训练数据等。

需要说明的是，图1所示的地址的预测系统的场景示意图仅仅是一个示例，本申请实施例描述的地址的预测系统以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着地址的预测系统的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

首先，本申请实施例中提供一种地址文本识别模型的训练方法，该地址文本识别模型的训练方法的执行主体为地址文本识别模型的训练装置，该地址文本识别模型的训练装置应用于电子设备，该地址文本识别模型的训练方法包括：

获取待训练地址文本样本；

对待训练地址文本样本进行向量化，得到文本内容向量序列和文本位置向量序列；

对文本内容向量序列和文本位置向量序列进行拼接，得到地址文本向量序列；

基于地址文本向量序列对待训练地址文本识别模型进行训练，得到目标地址文本识别模型。

参阅图2，图2是本申请实施例提供的地址文本识别模型的训练方法的一个实施例流程示意图。如图2所示，该地址文本识别模型的训练方法包括：

S201、获取待训练地址文本样本。

本申请实施例中，获取预设时间段内的下单日志，从下单日志中提取各个订单的下单地址。对原始的各个订单的下单地址进行信息标注，得到待训练地址文本样本。例如，预设时间段为距离当前的1年时间，可根据具体情况设定，本申请对此不作限定。其中，标注的信息包括人名、组织名。例如，订单A的下单地址为：湖北省武汉市F公司张三，则标注的信息为张三，人名；F公司，组织名。当然，根据不同需求对不同的信息做标注即可。

在一个具体的实施例中，对标注后的下单地址进行数据清洗，得到待训练地址文本样本。数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。与问卷审核不同，录入后的数据清理一般是由计算机而不是人工完成。具体的，可通过python编写数据预处理脚本，处理信息异常文本、缺失文本，清洗信息冗余文本。

在一个优选的实施例中，使用Spark并行计算框架清洗海量标注后的下单地址，使标注后的下单地址已是无需再预处理的数据集，保证模型训练迭代效率。Spark是加州大学伯克利分校的AMP实验室所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark是一种与Hadoop相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使Spark在某些工作负载方面表现得更加优越，换句话说，Spark启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

在其他实施例中，也可以采用Python的Pandas框架、Kettle框架、RapidMiner框架等对训练数据进行清洗。

S202、对待训练地址文本样本进行向量化，得到文本内容向量序列和文本位置向量序列。

在一个具体的实施例中，文本内容向量序列包括词向量序列，对待训练地址文本样本进行向量化，得到文本内容向量序列和文本位置向量序列，包括：

(1)对待训练地址文本样本进行词维度分词，得到多个地址文本分词。

在一个具体的实施例中，对待训练地址文本样本进行词维度分词，得到多个地址文本分词。例如，待训练地址文本样本为：湖北省武汉市F公司张三。得到的多个地址文本分词分别为：湖北省/武汉市/F公司/张三。

具体的，可以通过jieba、THULAC、SnowNLP、pynlpir、CoreNLP以及pyLTP等分词工具对待训练地址文本样本进行词维度分词，本申请对此不作限定。例如，jieba分词工具支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来，速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。根据具体情况选用具体的分词模式，本申请对此不作限定。

(2)对多个地址文本分词向量化，得到词向量序列。

本申请实施例中，将多个地址文本分词输入词向量转化模型，基于词向量转化模型对多个地址文本分词向量化，得到词向量序列。词向量转化模型可以是word2vec模型、CBOW模型、glove模型以及kip-gram模型中的一种或多种组合。词向量是深度学习中的一种词语的分布式表示，将词语表示成一个定长连续的稠密向量。

word2vec模型，是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。

CBOW(连续词袋模型，Continuous Bag-of-Words Model)是个在自然语言处理和信息检索下被简化的表达模型。

Skip-gram模型是一个简单但却非常实用的模型。在自然语言处理中，语料的选取是一个相当重要的问题:第一，语料必须充分。一方面词典的词量要足够大，另一方面要尽可能多地包含反映词语之间关系的句子，例如，只有“鱼在水中游”这种句式在语料中尽可能地多，模型才能够学习到该句中的语义和语法关系，这和人类学习自然语言一个道理，重复的次数多了，也就会模仿了；第二，语料必须准确。也就是说所选取的语料能够正确反映该语言的语义和语法关系，这一点似乎不难做到，例如中文里，《人民日报》的语料比较准确。但是，更多的时候，并不是语料的选取引发了对准确性问题的担忧，而是处理的方法。n元模型中，因为窗口大小的限制，导致超出窗口范围的词语与当前词之间的关系不能被正确地反映到模型之中，如果单纯扩大窗口大小又会增加训练的复杂度。Skip-gram模型的提出很好地解决了这些问题。顾名思义，Skip-gram就是“跳过某些符号”，例如，句子“中国足球踢得真是太烂了”有4个3元词组，分别是“中国足球踢得”、“足球踢得真是”、“踢得真是太烂”、“真是太烂了”，可是我们发现，这个句子的本意就是“中国足球太烂”可是上述4个3元词组并不能反映出这个信息。Skip-gram模型却允许某些词被跳过，因此可以组成“中国足球太烂”这个3元词组。如果允许跳过2个词，即2-Skip-gram。

优选的，通过word2vec模型对多个地址文本分词进行向量化处理，得到文本内容向量序列。其中，word2vec模型为使用地址文本语料训练过的word2vec模型。

(3)基于多个地址文本分词在待训练地址文本样本中的位置对多个地址文本分词进行编码，得到文本位置向量序列。

例如，待训练地址文本样本为：湖北省武汉市F公司张三。得到的多个地址文本分词分别为：湖北省/武汉市/F公司/张三。分词“张三”的位置为4，则对应的文本位置向量序列为：{0,1,2,3,4}。

进一步的，文本内容向量序列还包括字向量序列，对待训练地址文本样本进行向量化，得到文本内容向量序列和文本位置向量序列，还包括：

(1)对待训练地址文本样本进行字维度分词，得到多个地址文本字符。

在一个具体的实施例中，对待训练地址文本样本进行字维度分词，得到多个地址文本字符。例如，待训练地址文本样本为：湖北省武汉市F公司张三。得到的多个地址文本字符分别为：湖/北/省/武/汉/市/F/公/司/张/三。

具体的，可以通过jieba、THULAC、SnowNLP、pynlpir、CoreNLP以及pyLTP等分词工具对待训练地址文本样本进行字维度分词，本申请对此不作限定。

(2)对多个地址文本字符向量化，得到字向量序列。

具体的，本申请实施例中，将多个地址文本字符输入字向量转化模型，基于字向量转化模型对多个地址文本字符进行向量化，得到字向量序列。字向量转化模型可以是Char2Vec。Char2Vec运行于字符集，对拼写错误更加宽容。字向量是深度学习中的一种字符的分布式表示，将字符表示成一个定长连续的稠密向量。

S203、对文本内容向量序列和文本位置向量序列进行拼接，得到地址文本向量序列。

本申请实施例中，对文本内容向量序列和文本位置向量序列进行首尾拼接，得到地址文本向量序列。

在一个具体的实施例中，文本内容向量序列包括词向量序列，则将词向量序列和文本位置向量序列进行拼接，得到地址文本向量序列。

在另一个具体的实施例中，文本内容向量序列包括字向量序列，则将字向量序列和文本位置向量序列进行拼接，得到地址文本向量序列。

在又一个具体的实施例中，文本内容向量序列包括字向量序列和词向量序列，则将字向量序列、词向量序列以及文本位置向量序列进行拼接，得到地址文本向量序列。例如，待训练地址文本样本为：湖北省武汉市F公司张三。得到的多个地址文本分词分别为：湖北省/武汉市/F公司/张三；词向量序列分别为：{A1,A2,A3,A4}。得到的多个地址文本字符分别为：湖/北/省/武/汉/市/F/公/司/张/三。字向量序列分别为：{B1,B2,B3,B4,B5,B6,B7,B8,B9,B10}。对应的文本位置向量序列为：{0,1,2,3,4}，则地址文本向量序列为{A1,A2,A3,A4,B1,B2,B3,B4,B5,B6,B7,B8,B9,B10,0,1,2,3,4}。

使用这个地址文本向量序列作为待训练地址文本识别模型的输入，待训练地址文本识别模型即可对地址文本向量序列进行预测，得到预测结果。地址文本向量序列中的每个部分有分词信息、字符信息以及位置信息，使得待训练地址文本识别模型的输入特征内容丰富，能够提高训练后的地址文本识别模型的准确度。

S204、基于地址文本向量序列对待训练地址文本识别模型进行训练，得到目标地址文本识别模型。

本申请实施例中，基于地址文本向量序列对待训练地址文本识别模型进行训练，得到目标地址文本识别模型，包括：

(1)基于地址文本向量序列对待训练地址文本识别模型进行训练，得到训练后的地址文本识别模型。

本申请实施例中，待训练地址文本识别模型可以是循环神经网络模型，也可以是卷积神经网络。循环神经网络(RNN，Recurrent Neural Network)是一种节点定向连接成环的人工神经网络。这种网络的内部状态可以展示动态时序行为。不同于前馈神经网络的是，RNN可以利用它内部的记忆来处理任意时序的输入序列，这让它可以更容易处理如不分段的手写识别、语音识别等。卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deep learning)的代表算法之一。卷积神经网络具有表征学习(representationlearning)能力，能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification)，因此也被称为“平移不变人工神经网络(Shift-Invariant ArtificialNeural Networks,SIANN)”。卷积神经网络一般由输入层、卷积层、激活函数、池化层、全连接层组成。

优选的，待训练地址文本识别模型为空洞卷积神经网络模型。空洞卷积(atrousconvolutions)又名扩张卷积(dilated convolutions)，向卷积层引入了一个称为“扩张率(dilation rate)”的新参数，该参数定义了卷积核处理数据时各值的间距。该结构的目的是在不用pooling(pooling层会导致信息损失)且计算量相当的情况下，提供更大的感受野。顺便一提，卷积结构的主要问题如下：池化层不可学内部数据结构丢失；空间层级化信息丢失、小物体信息无法重建(假设有四个pooling layer则任何小于2^4＝16pixel的物体信息将理论上无法重建。而空洞卷积就有内部数据结构的保留和避免使用down-sampling这样的特性，优点明显。

在一个具体的实施例中，采用pytorch框架基于地址文本向量序列对待训练地址文本识别模型进行训练，得到训练后的地址文本识别模型。2017年1月，Facebook人工智能研究院团队在GitHub上开源了PyTorch，并迅速占领GitHub热度榜榜。作为一个2017年才发布，具有先进设计理念的框架。相比较其他深度学习模型建模训练框架而言，pytorch框架有很多优点，如：动态计算图，模型定制灵活，调试方便，发展趋势用户增长率高等特点。

在另一个具体的实施例中，采用tensorflow框架基于地址文本向量序列对待训练地址文本识别模型进行训练，得到训练后的地址文本识别模型。

在其他实施例中，还可以采用Keras框架、MXNet框架等基于地址文本向量序列对待训练地址文本识别模型进行训练，得到训练后的地址文本识别模型。

(2)对训练后的地址文本识别模型进行封装，得到目标地址文本识别模型。

在一个具体的实施例中，使用go语言对训练后的地址文本识别模型进行封装，得到目标地址文本识别模型。go语言语法友好，编译速度块，支持高并发，开发效率高，谷歌对go语言版本的tensorflow框架动态库优化后，能充分使用机器性能。在其他实施例中，还可以通过C++,JAVA等语言对训练后的地址文本识别模型进行封装，得到目标地址文本识别模型。

进一步的，基于地址文本向量序列对待训练地址文本识别模型进行训练，得到目标地址文本识别模型，之后还包括：

(1)获取用户输入的第一地址文本样本。

在得到目标地址文本识别模型之后，地址的预测系统仍然会接收到用户新订单的下单地址，通过对新订单的下单地址进行信息标注，即可得到第一地址文本样本。

(2)基于待训练文本样本对第一地址文本样本过滤，得到第二地址文本样本。

本申请实施例中，将第一地址文本样本中与待训练文本样本相同的地址文本样本删除，得到第二地址文本样本。

在一个具体的实施例中，在第一地址文本样本的数量达到预设值时，基于待训练文本样本对第一地址文本样本过滤，得到第二地址文本样本。在另一个具体的实施例中，按预设周期基于待训练文本样本对第一地址文本样本过滤，得到第二地址文本样本。预设周期可以是每1小时1次，每2小时1次等，根据具体情况设置即可。

(3)基于第二地址文本样本对目标地址文本识别模型训练更新。

本申请实施例中，基于第二地址文本样本对目标地址文本识别模型训练更新可参阅步骤201至步骤204，在此不再赘述。仅使用第一地址文本中未参与过训练的地址文本样本对目标地址文本识别模型训练更新，可以提高训练效率，且可以提高目标地址文本识别模型对新样本识别的准确率。

参阅图3，图3是本申请实施例提供的地址的预测方法的一个实施例流程示意图。如图3所示，该地址的预测方法包括：

S301、获取用户的地址预测请求。

本申请实施例中，用户通过客户端向电子设备发送地址预测请求，电子设备获取用户的地址预测请求。其中，地址预测请求中包括地址预测文本。

在一个具体的实施中，电子设备使用为echo框架提供高并发的客户端访问服务。电子设备使用echo框架获取用户的地址预测请求。该框架适用于大规模并发场景。使用的tensorflow动态库是go语言，经过intel mkl在cpu机器上优化后的版本。单条服务请求仅需要5毫秒，同时支持http和tcp请求，输出结果格式友好易于集成。

S302、基于地址预测请求获取地址预测文本。

S303、基于预设的目标地址文本识别模型对地址预测文本进行预测，得到地址预测文本对应的预测结果。

其中，预设的目标地址文本识别模型为以上任一实施例中的目标地址文本识别模型。

在一个具体的实施例中，基于预设的目标地址文本识别模型地址预测文本进行预测，得到地址预测文本中各个分词的分类类别。例如，F公司/张三。输出的结果为：“F公司”类别为组织名的概率为90％；“张三”类别为人名的概率为90％。

为了更好实施本申请实施例中地址文本识别模型的训练方法，在地址文本识别模型的训练方法基础之上，本申请实施例中还提供一种地址文本识别模型的训练装置，如图4所示，图4是本申请实施例中提供的地址文本识别模型的训练装置一个实施例结构示意图，该地址文本识别模型的训练装置包括：

获取单元401，用于获取待训练地址文本样本；

向量化单元402，用于对待训练地址文本样本进行向量化，得到文本内容向量序列和文本位置向量序列；

拼接单元403，用于对文本内容向量序列和文本位置向量序列进行拼接，得到地址文本向量序列；

模型训练单元404，用于基于地址文本向量序列对待训练地址文本识别模型进行训练，得到目标地址文本识别模型。

其中，文本内容向量序列包括词向量序列，向量化单元402，还用于对待训练地址文本样本进行词维度分词，得到多个地址文本分词；

对多个地址文本分词向量化，得到词向量序列；

基于多个地址文本分词在待训练地址文本样本中的位置对多个地址文本分词进行编码，得到文本位置向量序列。

其中，文本内容向量序列还包括字向量序列，向量化单元402，还用于对待训练地址文本样本进行字维度分词，得到多个地址文本字符；

对多个地址文本字符向量化，得到字向量序列。

其中，模型训练单元404，还用于基于地址文本向量序列对待训练地址文本识别模型进行训练，得到训练后的地址文本识别模型；

对训练后的地址文本识别模型进行封装，得到目标地址文本识别模型。

其中，模型训练单元404，还用于获取用户输入的第一地址文本样本；

基于待训练文本样本对第一地址文本样本过滤，得到第二地址文本样本；

基于第二地址文本样本对目标地址文本识别模型训练更新。

为了更好实施本申请实施例中地址的预测方法，在地址的预测方法基础之上，本申请实施例中还提供一种地址的预测装置，如图5所示，图5是本申请实施例中提供的地址的预测装置一个实施例结构示意图，该地址的预测装置包括：

第一获取单元501，用于获取用户的地址预测请求；

第二获取单元502，用于基于地址预测请求获取地址预测文本；

地址预测单元503，用于基于预设的目标地址文本识别模型对地址预测文本进行预测，得到地址预测文本对应的预测结果，其中，预设的目标地址文本识别模型为以上任一实施方式中的目标地址文本识别模型。

本申请实施例还提供一种电子设备，其集成了本申请实施例所提供的任一种地址文本识别模型的训练装置。如图6所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解，图中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器601是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器601可包括一个或多个处理核心；优选的，处理器601可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器601中。

存储器602可用于存储软件程序以及模块，处理器601通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器601对存储器602的访问。

电子设备还包括给各个部件供电的电源603，优选的，电源603可以通过电源管理系统与处理器601逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元604，该输入单元604可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器601会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器601来运行存储在存储器602中的应用程序，从而实现各种功能，如下：

获取待训练地址文本样本；

本申请实施例还提供一种电子设备，其集成了本申请实施例所提供的任一种地址的预测装置。如图7所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器701、一个或一个以上计算机可读存储介质的存储器702、电源703和输入单元704等部件。本领域技术人员可以理解，图中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器701是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器702内的软件程序和/或模块，以及调用存储在存储器702内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器701可包括一个或多个处理核心；优选的，处理器701可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器701中。

存储器702可用于存储软件程序以及模块，处理器701通过运行存储在存储器702的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器702还可以包括存储器控制器，以提供处理器701对存储器702的访问。

电子设备还包括给各个部件供电的电源703，优选的，电源703可以通过电源管理系统与处理器701逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源703还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元704，该输入单元704可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器701会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器702中，并由处理器701来运行存储在存储器702中的应用程序，从而实现各种功能，如下：

获取用户的地址预测请求；

基于地址预测请求获取地址预测文本；

基于预设的目标地址文本识别模型对地址预测文本进行预测，得到地址预测文本对应的预测结果。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。其上存储有计算机程序，计算机程序被处理器进行加载，以执行本申请实施例所提供的任一种地址文本识别模型的训练方法中的步骤或者地址的预测方法中的步骤。例如，计算机程序被处理器进行加载可以执行如下步骤：

获取待训练地址文本样本；

基于地址文本向量序列对待训练地址文本识别模型进行训练，得到目标地址文本识别模型；

或者，获取用户的地址预测请求；

基于地址预测请求获取地址预测文本；

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对其他实施例的详细描述，此处不再赘述。

具体实施时，以上各个单元或结构可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元或结构的具体实施可参见前面的方法实施例，在此不再赘述。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种地址文本识别模型的训练方法、地址的预测方法及装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种地址文本识别模型的训练方法，其特征在于，所述训练方法包括：

获取待训练地址文本样本；

2.如权利要求1所述的地址文本识别模型的训练方法，其特征在于，所述文本内容向量序列包括词向量序列，所述对所述文本内容向量序列和所述文本位置向量序列进行拼接，得到地址文本向量序列，包括：

对所述多个地址文本分词向量化，得到所述词向量序列；

3.如权利要求2所述的地址文本识别模型的训练方法，其特征在于，所述文本内容向量序列还包括字向量序列，所述对所述文本内容向量序列和所述文本位置向量序列进行拼接，得到地址文本向量序列，还包括：

对所述多个地址文本字符向量化，得到所述字向量序列。

4.如权利要求1所述的地址文本识别模型的训练方法，其特征在于，所述基于所述地址文本向量序列对待训练地址文本识别模型进行训练，得到目标地址文本识别模型，包括：

5.如权利要求1所述的地址文本识别模型的训练方法，其特征在于，所述基于所述地址文本向量序列对待训练地址文本识别模型进行训练，得到目标地址文本识别模型，之后，包括：

获取用户输入的第一地址文本样本；

6.一种地址的预测方法，其特征在于，所述预测方法包括：

获取用户的地址预测请求；

基于所述地址预测请求获取地址预测文本；

基于预设的目标地址文本识别模型对所述地址预测文本进行预测，得到所述地址预测文本对应的预测结果，其中，所述预设的目标地址文本识别模型为权利要求1-5任意一项所述的目标地址文本识别模型。

7.一种地址文本识别模型的训练装置，其特征在于，所述训练装置包括：

获取单元，用于获取待训练地址文本样本；

8.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现权利要求1至5任一项所述的地址文本识别模型的训练方法。

9.一种地址的预测装置，其特征在于，所述预测装置包括：

第一获取单元，用于获取用户的地址预测请求；

地址预测单元，用于基于预设的目标地址文本识别模型对所述地址预测文本进行预测，得到所述地址预测文本对应的预测结果。

10.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现权利要求6所述的地址的预测方法。

11.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行权利要求1至5任一项所述的地址文本识别模型的训练方法中的步骤或者权利要求6所述的地址的预测方法中的步骤。