CN112329470A

CN112329470A - 一种基于端到端模型训练的智能地址识别方法及装置

Info

Publication number: CN112329470A
Application number: CN202011241374.4A
Authority: CN
Inventors: 蒋永余; 孔庆超; 张佳旭; 王宇琪; 赵菲菲; 吴晓飞; 彭鑫; 奉凡; 罗引; 王磊
Original assignee: Beijing Zhongke Wenge Zhian Technology Co ltd; Shenzhen Zhongke Wenge Technology Co ltd; Beijing Zhongke Wenge Technology Co ltd
Current assignee: Beijing Zhongke Wenge Zhian Technology Co ltd; Shenzhen Zhongke Wenge Technology Co ltd; Beijing Zhongke Wenge Technology Co ltd
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-02-05
Anticipated expiration: 2040-11-09
Also published as: CN112329470B

Abstract

本申请提供了一种基于端到端模型训练的智能地址识别方法及装置，属于计算机技术领域。本申请通过获取训练数据集，所述训练数据集包括多个地址文本数据及每个所述地址文本数据对应的验证数据；针对每个地址文本数据，生成所述地址文本数据对应的字符嵌入向量序列；将所述字符嵌入向量序列输入至第一级子模型；将每一级子模型的输出数据与所述验证数据比较，得到多个误差；根据所述多个误差调整所述地址文本识别模型的参数，直至所述地址文本识别模型收敛时，训练结束。通过本申请，可以将多个级联的子模型产生的多个误差，作为依据以调整地址文本识别模型的参数，减少多个级联子模型的整体误差，避免了多个子模型之间的误差累积。

Description

一种基于端到端模型训练的智能地址识别方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于端到端模型训练的智能地址识别方法及装置。

背景技术

随着网络普及，便民应用(例如网购，外卖和打车等类型的软件)越来越多，生活中需要用户输入地址信息的情况也越来越多。然而，用户在填写地址时，由于个人习惯或操作失误经常会出现填写的地址不规范的问题，比如漏填、错填部分信息等，进而导致后续配送错误的问题。

目前，地址标准化一般是通过多个独立的模型实现地址标准化的功能，由于多个模型之间是独立的，每一个模型处理之后产生的误差会依次累加，导致最后标准化的结果数据偏差较大。

发明内容

本申请实施例的目的在于提供一种基于端到端模型训练的智能地址识别方法及装置，以解决多个独立的模型实现地址标准化的功能时误差累积的问题。具体技术方案如下：

第一方面，提供了一种端到端模型训练方法，所述端到端模型训练方法用于训练地址文本识别模型，其中，所述地址文本识别模型包括多个级联的子模型，所述方法包括：

获取训练数据集，所述训练数据集包括多个地址文本数据及每个所述地址文本数据对应的验证数据；

针对每个地址文本数据，生成所述地址文本数据对应的字符嵌入向量序列；

将所述字符嵌入向量序列输入至第一级子模型；

将每一级子模型的输出数据与所述验证数据比较，得到多个误差；

根据所述多个误差调整所述地址文本识别模型的参数，直至所述地址文本识别模型收敛时，训练结束。

可选的，所述将所述字符嵌入向量序列输入至第一级子模型，包括：

将所述字符嵌入向量序列输入至纠正模型，得到对所述地址文本数据纠正后的纠正数据；

将所述纠正数据输入至补全模型，得到对所述纠正数据补全后的补全数据；

将所述补全数据输入至拆分模型，得到对所述补全数据拆分后的多个目标拆分字段。

可选的，所述将每一级子模型的输出数据与所述验证数据比较，得到多个误差，包括：

基于所述纠正数据和所述验证数据计算第一误差；

基于所述补全数据和所述验证数据计算第二误差；

基于所述多个拆分字段和所述验证数据计算第三误差。

可选的，所述根据所述多个误差调整所述地址文本识别模型的参数，直至所述地址文本识别模型收敛时，训练结束，包括：

将所述第一误差、第二误差及第三误差相加，得到和误差；

基于所述和误差调整所述纠正模型、所述补全模型及所述拆分模型的参数，直至所述纠正模型、所述补全模型及拆分模型收敛时，训练结束。

可选的，所述纠正模型包括检测模型和修正模型；

所述将所述字符嵌入向量序列输入至纠正模型，得到对所述地址文本数据纠正后的纠正数据，包括：

将所述字符嵌入向量序列输入至所述检测模型，得到所述地址文本数据对应的字符标签序列，所述字符标签序列中包括多个用于表征字符正确或字符错误的字符标签；

针对每个字符标签，计算所述字符标签为字符错误的第一概率；

基于所述第一概率及所述字符嵌入向量序列确定所述地址文本数据对应的字符权重向量序列；

将所述字符权重向量序列输入至所述修正模型，得到纠正后的纠正数据。

可选的，所述将所述补全数据输入至拆分模型，得到对所述补全数据拆分后的多个目标拆分字段，包括：

将所述补全数据输入至所述拆分模型，得到多个拆分数据，所述拆分数据中包括至少一个拆分字段及所述拆分字段在所述补全数据中的起始位置及结束位置；

针对每个拆分数据，选取所述拆分数据中与首个起始位置和首个结束位置对应的拆分字段作为所述目标拆分字段。

第二方面，提供了一种地址识别方法，所述方法包括：

获取待处理的地址文本数据；

将所述地址文本数据生成所述地址文本数据对应的字符嵌入向量序列；

将所述字符嵌入向量序列输入至如上述第一方面任一所述的地址文本识别模型中，得到多个目标拆分字段；

将所述多个目标拆分字段按照预设顺序组合，得到所述地址文本数据对应的目标数据。

可选的，所述将所述字符嵌入向量序列输入至如上述第一方面任一所述的地址文本识别模型中，得到多个目标拆分字段，包括：

可选的，所述纠正模型包括检测模型和修正模型；

第三方面，提供了一种端到端模型训练装置，所述端到端模型训练装置用于训练地址文本识别模型，其中，所述地址文本识别模型包括多个级联的子模型，所述装置包括：

第一获取模块，用于获取训练数据集，所述训练数据集包括多个地址文本数据及每个所述地址文本数据对应的验证数据；

第一生成模块，用于针对每个地址文本数据，生成所述地址文本数据对应的字符嵌入向量序列；

第一输入模块，用于将所述字符嵌入向量序列输入至第一级子模型；

比较模块，用于将每一级子模型的输出数据与所述验证数据比较，得到多个误差；

调整模块，用于根据所述多个误差调整所述地址文本识别模型的参数，直至所述地址文本识别模型收敛时，训练结束。

可选的，所述第一输入模块，包括：

第一输入单元，用于将所述字符嵌入向量序列输入至纠正模型，得到对所述地址文本数据纠正后的纠正数据；

第二输入单元，用于将所述纠正数据输入至补全模型，得到对所述纠正数据补全后的补全数据；

第三输入单元，用于将所述补全数据输入至拆分模型，得到对所述补全数据拆分后的多个目标拆分字段。

可选的，所述比较模块，包括：

第一计算单元，用于基于所述纠正数据和所述验证数据计算第一误差；

第二计算单元，用于基于所述补全数据和所述验证数据计算第二误差；

第三计算单元，用于基于所述多个拆分字段和所述验证数据计算第三误差。

可选的，所述调整模块，包括：

相加单元，用于将所述第一误差、第二误差及第三误差相加，得到和误差；

调整单元，用于基于所述和误差调整所述纠正模型、所述补全模型及所述拆分模型的参数，直至所述纠正模型、所述补全模型及拆分模型收敛时，训练结束。

可选的，所述纠正模型包括检测模型和修正模型；

所述第一输入单元，包括：

第一输入子单元，用于将所述字符嵌入向量序列输入至所述检测模型，得到所述地址文本数据对应的字符标签序列，所述字符标签序列中包括多个用于表征字符正确或字符错误的字符标签；

第一计算子单元，用于针对每个字符标签，计算所述字符标签为字符错误的第一概率；

第一确定子单元，用于基于所述第一概率及所述字符嵌入向量序列确定所述地址文本数据对应的字符权重向量序列；

第二输入子单元，用于将所述字符权重向量序列输入至所述修正模型，得到纠正后的纠正数据。

可选的，所述第三输入单元，包括：

第三输入子单元，用于将所述补全数据输入至所述拆分模型，得到多个拆分数据，所述拆分数据中包括至少一个拆分字段及所述拆分字段在所述补全数据中的起始位置及结束位置；

选取子单元，用于针对每个拆分数据，选取所述拆分数据中与首个起始位置和首个结束位置对应的拆分字段作为所述目标拆分字段。

第四方面，提供了一种地址文本识别装置，所述装置包括：

第二获取模块，用于获取待处理的地址文本数据；

第二生成模块，用于将所述地址文本数据生成所述地址文本数据对应的字符嵌入向量序列；

第二输入模块，用于将所述字符嵌入向量序列输入至如权利要求1-6任一所述的地址文本识别模型中，得到多个目标拆分字段；

组合模块，用于将所述多个目标拆分字段按照预设顺序组合，得到所述地址文本数据对应的目标数据。

第五方面，本发明提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一所述的端到端模型训练方法或第二方面所述的地址识别方法。

第六方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有地址识别方法程序，所述地址识别方法程序被处理器执行时实现第一方面任一所述的端到端模型训练方法或第二方面所述的地址识别方法的步骤。

第七方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面任一所述的端到端模型训练方法或第二方面所述的地址识别方法。

本申请实施例有益效果：

本申请实施例提供了一种基于端到端模型训练的智能地址识别方法及装置，本申请通过获取训练数据集，所述训练数据集包括多个地址文本数据及每个所述地址文本数据对应的验证数据；针对每个地址文本数据，生成所述地址文本数据对应的字符嵌入向量序列；将所述字符嵌入向量序列输入至第一级子模型；将每一级子模型的输出数据与所述验证数据比较，得到多个误差；根据所述多个误差调整所述地址文本识别模型的参数，直至所述地址文本识别模型收敛时，训练结束。

本申请实施例中，在训练过程中，地址文本识别模型可以将多个子模型预测标准地址与真实标准地址的误差，在模型中的每一层传递，这是端到端的。也就是，将地址文本识别模型包括的多个级联的子模型产生的多个误差，作为依据以调整地址文本识别模型的参数，通过多个子模型产生的误差调整地址文本识别模型的参数以减少地址文本识别模型的误差，即，减少多个级联子模型的整体误差，避免了多个子模型之间的误差累积，导致最后的整体误差过大，因此可以减少最后标准化结果数据的偏差。

当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种端到端模型训练方法的一种流程图；

图2为本申请实施例提供的一种端到端模型训练方法的另一种流程图；

图3为本申请实施例提供的一种地址识别方法的流程图；

图4为本申请实施例提供的一种端到端模型训练装置的结构示意图；

图5为本申请实施例提供的一种地址识别方法装置的结构示意图；

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于目前地址标准化一般是通过多个独立的模型实现地址标准化的功能，多个模型之间是独立的，每一个模型处理之后产生的误差会依次累加，导致最后标准化的结果数据偏差较大。为此，本申请实施例提供了一种端到端模型训练方法，可以应用于计算机中，在本申请实施例中，所述端到端模型训练方法用于训练地址文本识别模型，其中，所述地址文本识别模型包括多个级联的子模型，级联的子模型即前一级子模型的输出作为后一级子模型的输入。

下面将结合具体实施方式，对本申请实施例提供的一种端到端模型训练方法进行详细的说明，如图1所示，具体步骤如下：

S101，获取训练数据集，训练数据集包括多个地址文本数据及每个地址文本数据对应的验证数据。

在本申请实施例中，训练数据集可以通过公开数据集、人工标注、半自动挖掘等方式得到，训练数据集中包含多个地址文本数据，以及每个地址文本数据对应的验证数据。

S102，针对每个地址文本数据，生成地址文本数据对应的字符嵌入向量序列。

在本申请实施例中，地址文本数据可以看作一个待处理字符序列X＝(x₁,x₂,...x_i,...x_n)，x_i为第i个待处理字符，字符嵌入向量(character embedding)包括字符的字向量(word embedding)，位置向量(position embedding)及词向量(segment embedding)。字符嵌入向量序列E＝(e₁,e₂,...e_i,...e_n)，指地址文本数据中每个字符的字符嵌入向量组成的序列，e_i指第i个字符的字符嵌入向量(character embedding)。

S103，将字符嵌入向量序列输入至第一级子模型。

在本申请实施例中，将字符嵌入向量序列E＝(e₁,e₂,...e_i,...e_n)输入至第一级子模型，第一级子模型的输出数据作为输入数据输入至第二级子模型，第二级子模型的输出数据作为输入数据输入至第三级子模型，以此类推，直至输入最后一级子模型。

S104，将每一级子模型的输出数据与验证数据比较，得到多个误差。

在本申请实施例中，将每一级子模型的输出数据与验证数据比较，可以得到每一级子模型的误差。

S105，根据多个误差调整地址文本识别模型的参数，直至地址文本识别模型收敛时，训练结束。

在本申请实施例中，可以将多个误差作为依据，调整地址文本识别模型的参数，直至地址文本识别模型收敛时，训练结束。示例性的，当多个误差的和小于预设阈值时，认为地址文本识别模型收敛，训练结束。

本申请实施例中，可以将地址文本识别模型包括的多个级联的子模型产生的多个误差，作为依据以调整地址文本识别模型的参数，通过多个子模型产生的误差调整地址文本识别模型的参数以减少地址文本识别模型的误差，也就是，减少多个级联子模型的整体误差，避免了多个子模型之间的误差累积，导致最后的整体误差过大，因此可以减少最后标准化结果数据的偏差。

基于前述实施例，在本申请的又一实施例中，所述地址文本识别模型包括：纠正模型、补全模型及拆分模型，其中纠正模型为第一级子模型，补全模型为第二级子模型，纠正模型的输出数据作为补全模型的输入数据；补全模型为第三级子模型，补全模型的输出数据作为拆分模型的输入数据。

如图2所示，S103具体地，可以包括以下步骤：

S201，将字符嵌入向量序列输入至纠正模型，得到对地址文本数据纠正后的纠正数据。

本申请实施例中，计算机可以将字符嵌入向量序列E＝(e₁,e₂,...e_i,...e_n)输入至纠正模型，得到对地址文本数据纠正后的纠正数据。

基于前述实施例，在本发明的又一实施例中，纠正模型可以包括检测模型和修正模型，检测模型可以是二分类的序列标注模型，修正模型可以是基于双向编码表征算法BERT(Bidirectional Encoder Representations from Transformers)的多类别序列标注模型。具体地，S201可以包括以下步骤：

步骤一，将字符嵌入向量序列输入至检测模型，得到地址文本数据对应的字符标签序列，字符标签序列中包括多个用于表征字符正确或字符错误的字符标签。

在本申请实施例中，将字符嵌入向量序列E＝(e₁，e₂，...e_i，...e_n)输入至检测模型，得到所述地址文本数据对应的字符标签序列G＝(g₁，g₂，...g_i，...，g_n)，g_i为第i个字符的字符标签，g_i等于1表示字符错误，等于0表示字符正确。

步骤二，针对每个字符标签，计算字符标签为字符错误的第一概率。

在本申请实施例中，针对每个字符标签g_i，计算字符标签为字符错误的第一概率。记p_i为g_i等于1的概率，则p_i＝P(g_i＝1|X)＝σ(Wh_i+b)，p_i的值越大，该字符标签对应的字符越可能是错的，σ表示sigmoid函数，h_i表示LSTM(LongShort-TermMemory)算法的隐藏状态，W和b是待学习的参数，隐藏状态

是LSTM两个方向隐藏状态的拼接。

步骤三，基于第一概率及字符嵌入向量序列确定地址文本数据对应的字符权重向量序列。

在本申请实施例中，基于第一概率及字符嵌入向量序列确定地址文本数据对应的字符权重向量序列，权重向量soft-masked embedding相当于以第一概率为权值输入嵌入向量character embedding和mask embedding的加权和，则e_i′＝p_i·e_mask+(1-p_i)·e_i，其中，e_mask是mask embedding，若第一概率高，则soft-masked embedding e_i′接近maskembedding e_mask；反之接近输入character embeddinge_i。

步骤四，将字符权重向量序列输入至修正模型，得到纠正后的纠正数据。

本申请实施例中将字符权重向量序列E′＝(e₁′，e₂′，...e_i′，...e_n′)输入至修正模型，得到纠正后的纠正数据，记纠正数据对应的替换字符序列Y＝(y₁，y₂，...y_i，...y_n)，y_i为第i个字符的替换字符。

本申请实施例中，通过将字符嵌入向量序列输入至纠正模型，可以对地址文本数据错误的字符进行纠正。

S202，将纠正数据输入至补全模型，得到对纠正数据补全后的补全数据。

在本申请实施例中，补全模型可以是encoder-decoder模型，根据已纠正的字符序列生成字符嵌入向量序列E₁＝(e₁，e₂，...e_i，...e_n)，将E₁＝(e₁，e₂，...e_i，...e_n)输入encoder-decoder模型，输出补全后的补全数据，记补全序列对应的字符序列为Y₁＝(y₁，y₂，...，y_m)。

S203，将补全数据输入至拆分模型，得到对补全数据拆分后的多个目标拆分字段。

在本申请实施例中，拆分模型可以是命名实体识别(Named Entity Recognition，NER)模型，计算机可以将补全数据对应的字符序列Y₁＝(y₁，y₂，...，y_m)输入至NER模型，得到对补全数据拆分后的多个目标拆分字段。

基于前述实施例，在本申请的又一实施例中，所述将补全数据输入至拆分模型，得到对补全数据拆分后的多个目标拆分字段，具体包括以下步骤：

将补全数据输入至拆分模型，得到多个拆分数据，拆分数据中包括至少一个拆分字段及拆分字段在补全数据中的起始位置及结束位置；针对每个拆分数据，选取拆分数据中与首个起始位置和首个结束位置对应的拆分字段作为目标拆分字段。

在本申请实施例中，将补全数据输入至NER模型的SelfAttention层和CNN层，对输入的序列进行编码到隐状态H＝(h₁，h₂，...，h_n)，可以得到多个拆分数据，然后针对每一个拆分数据通过NER模型的Dense层去预测其在输入序列中的起始位置和结束位置：

其中，

为输入序列第i个位置预测为开始位置的概率，

为输入序列第i个位置预测为结束位置的概率，W^s为预测起始位置的权重，b^s为预测起始位置的偏置，W^E为预测结束位置的权重，b^E为预测结束位置的偏置。

针对每一个拆分数据，选取该拆分数据中与首个起始位置和首个结束位置对应的拆分字段作为目标拆分字段，也就是每个拆分数据中只保留一个拆分字段作为目标字段，去除冗余和重复的数据。

示例性的，补全数据为：北京市北京市朝阳区A马路，则拆分数据为：“北京市北京市”、“朝阳区”、“A马路”，针对“北京市北京市”，输出第一个字符的位置为起始位置，第三个字符的位置为结束位置，第四个字符的位置为起始位置，第六个字符的位置为结束位置，只保留首个起始位置和首个结束位置对应的拆分字段，即，只保留前三个字符“北京市”，作为目标字段。

本申请实施例中，通过将补全数据输入至拆分模型，得到多个拆分数据，针对每个拆分数据只保留一个拆分字段作为目标字段，可以去除地址文本数据中的冗余和重复信息。

在本申请的又一实施例中，S104具体地，可以包括以下步骤：

步骤一，基于纠正数据和所述验证数据计算第一误差。

本申请实施例中，将Bert最后一层的隐状态序列记为H＝(h₁，h₂，...，h_n)，则待处理字符序列X＝(x₁，x₂，...x_i，...x_n)中，x_i被替换为候选字符表中第j个字符的条件概率为：P(y_i＝j|X)＝softmax(Wh′_i+b)[j]，其中h′_i＝h_i+e_i。利用交叉熵公式计算纠正模型产生的第一误差L₁：

其中P(y_i|X)指根据纠正数据计算的字符被替换的概率，P(y_i|X)＝softmax(Wh′_i+b)，P(l_i|X)为根据验证数据计算的数据计算的字符被替换的概率，W和b为替换字符预测网络模型中的可训练参数，分别为权重和偏置，n为字符个数。

步骤二，基于补全数据和验证数据计算第二误差。

在本申请实施例中，利用交叉熵公式计算补全模型产生的第二误差L₂：

其中，p(y_i)表示根据补全数据计算的第i个位置预测为字符y_i的概率，p(l_i)为根据验证数据计算的第i个位置预测为字符y_i的概率。

步骤三，基于多个拆分字段和验证数据计算第三误差。

在本申请实施例中，利用交叉熵公式计算拆分模型产生的第三误差L₃：

其中，

为根据多个拆分字段计算的输入序列第i个位置预测为开始位置的概率，

为根据多个拆分字段计算的输入序列第i个位置预测为结束位置的概率，

为根据验证数据计算的输入序列第i个位置预测为开始位置的概率，

为根据验证数据计算的输入序列第i个位置预测为结束位置的概率。

在本申请的又一实施例中，S105具体地，可以包括以下步骤：

将第一误差、第二误差及第三误差相加，得到和误差；基于和误差调整纠正模型、补全模型及拆分模型的参数，直至纠正模型、补全模型及拆分模型收敛时，训练结束。

在本申请实施例中，计算出纠正模型、补全模型及拆分模型的第一误差、第二误差及第三误差后，将第一误差L₁、第二误差L₂及第三误差L₃相加，得到和误差L，即，L＝L₁+L₂+L₃，通过反向传播的方法，根据和误差L调整纠正模型、补全模型及拆分模型的参数，当和误差L小于预设阈值后，认为模型收敛，训练结束。

本申请实施例中，将第一误差、第二误差及第三误差相加，得到和误差，基于和误差调整多个子模型的参数，直至模型收敛，也就是，可以减少多个子模型的整体误差，避免了多个子模型之间的误差累积，导致最后的整体误差过大，因此可以减少最后标准化结果数据的偏差。

在本申请的又一实施例中，还提供了一种地址识别方法，如图3所示，所述方法包括：

S301，获取待处理的地址文本数据。

在本申请实施例中，待处理的地址文本数据可以是用户输入的地址文本数据。计算机可以通过预先设置的程序或脚本获取待处理的地址文本数据。

S302，将地址文本数据生成地址文本数据对应的字符嵌入向量序列。

在本申请实施例中，可以将地址文本数据生成字符嵌入向量序列E＝(e₁，e₂，...e_i，...e_n)，指地址文本数据中每个字符的字符嵌入向量组成的序列，e_i指第i个字符的字符嵌入向量(character embedding)，字符嵌入向量(character embedding)包括字符的字向量(word embedding)，位置向量(position embedding)及词向量(segmentembedding)。

S303，将字符嵌入向量序列输入至如一种端到端模型训练方法所述的地址文本识别模型中，得到多个目标拆分字段。

在本申请实施例中，将字符嵌入向量序列E＝(e₁,e₂,...e_i,...e_n)输入至如前述方法实施例所述的端到端模型训练方法生成的的地址文本识别模型中，也就是依次输入训练好的纠正模型、补全模型及拆分模型中，最终可以得到多个目标拆分字段。

S304，将多个目标拆分字段按照预设顺序组合，得到地址文本数据对应的目标数据。

在本申请实施例中，预设顺序指根据地址文本数据预先设定的顺序，示例性的，如果地址文本数据是中文地址，则该顺序为由行政区高级到行政区低级，如果地址文本数据是英文地址，则该顺序为由行政区低级到行政区高级。

本申请实施例中，由于使用了前述方法实施例中的端到端模型训练方法生成的地址文本识别模型，可以将地址文本识别模型包括的多个级联的子模型产生的多个误差，作为依据以调整地址文本识别模型的参数，通过多个子模型产生的误差调整地址文本识别模型的参数以减少地址文本识别模型的误差，也就是，减少多个级联子模型的整体误差，避免了多个子模型之间的误差累积，导致最后的整体误差过大，因此可以减少目标数据的偏差。

在本申请的又一实施例中，还提供了一种端到端模型训练装置，如图4所示，所述装置包括：

第一获取模块401，用于获取训练数据集，所述训练数据集包括多个地址文本数据及每个所述地址文本数据对应的验证数据；

第一生成模块402，用于针对每个地址文本数据，生成所述地址文本数据对应的字符嵌入向量序列；

第一输入模块403，用于将所述字符嵌入向量序列输入至第一级子模型；

比较模块404，用于将每一级子模型的输出数据与所述验证数据比较，得到多个误差；

调整模块405，用于根据所述多个误差调整所述地址文本识别模型的参数，直至所述地址文本识别模型收敛时，训练结束。

可选的，所述第一输入模块，包括：

可选的，所述比较模块，包括：

可选的，所述调整模块，包括：

可选的，所述纠正模型包括检测模型和修正模型；

所述第一输入单元，包括：

可选的，所述第三输入单元，包括：

在本申请的又一实施例中，还提供了一种地址文本识别装置，如图5所示，所述装置包括：

第二获取模块501，用于获取待处理的地址文本数据；

第二生成模块502，用于将所述地址文本数据生成所述地址文本数据对应的字符嵌入向量序列；

第二输入模块503，用于将所述字符嵌入向量序列输入至如权利要求1-6任一所述的地址文本识别模型中，得到多个目标拆分字段；

组合模块504，用于将所述多个目标拆分字段按照预设顺序组合，得到所述地址文本数据对应的目标数据。

基于相同的技术构思，本发明实施例还提供了一种电子设备，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现前述方法实施例中的端到端模型训练方法或前述方法实施例中的地址识别方法。

本发明实施例提供的电子设备，处理器通过执行存储器上所存放的程序实现了获取训练数据集，所述训练数据集包括多个地址文本数据及每个所述地址文本数据对应的验证数据；针对每个地址文本数据，生成所述地址文本数据对应的字符嵌入向量序列；将所述字符嵌入向量序列输入至第一级子模型；将每一级子模型的输出数据与所述验证数据比较，得到多个误差；根据所述多个误差调整所述地址文本识别模型的参数，直至所述地址文本识别模型收敛时，训练结束。通过多个级联的子模型产生的多个误差，作为依据以调整地址文本识别模型的参数，减少地址文本识别模型的误差，也就是，减少多个级联子模型的整体误差，避免了多个子模型之间的误差累积，导致最后的整体误差过大，因此可以减少最后标准化结果数据的偏差。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一端到端模型训练方法或地址识别方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一端到端模型训练方法或地址识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种端到端模型训练方法，其特征在于，所述端到端模型训练方法用于训练地址文本识别模型，其中，所述地址文本识别模型包括多个级联的子模型，所述方法包括：

将所述字符嵌入向量序列输入至第一级子模型；

2.根据权利要求1所述的方法，其特征在于，所述多个级联的子模型包括：纠正模型、补全模型和拆分模型，所述将所述字符嵌入向量序列输入至第一级子模型，包括：

所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述将每一级子模型的输出数据与所述验证数据比较，得到多个误差，包括：

基于所述纠正数据和所述验证数据计算第一误差；

基于所述补全数据和所述验证数据计算第二误差；

基于所述多个拆分字段和所述验证数据计算第三误差。

4.根据权利要求3所述的方法，其特征在于，所述根据所述多个误差调整所述地址文本识别模型的参数，直至所述地址文本识别模型收敛时，训练结束，包括：

将所述第一误差、第二误差及第三误差相加，得到和误差；

5.根据权利要求2所述的方法，其特征在于，所述纠正模型包括检测模型和修正模型；

6.根据权利要求2所述的方法，其特征在于，所述将所述补全数据输入至拆分模型，得到对所述补全数据拆分后的多个目标拆分字段，包括：

7.一种地址识别方法，其特征在于，所述方法包括：

获取待处理的地址文本数据；

将所述字符嵌入向量序列输入至如权利要求1-6任一所述的地址文本识别模型中，得到多个目标拆分字段；

8.一种端到端模型训练装置，其特征在于，所述端到端模型训练装置用于训练地址文本识别模型，其中，所述地址文本识别模型包括多个级联的子模型，所述装置包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一所述的端到端模型训练方法或权利要求7所述的地址识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的端到端模型训练方法或权利要求7所述的地址识别方法。