CN114417022B

CN114417022B - 模型训练方法、数据处理方法及其装置

Info

Publication number: CN114417022B
Application number: CN202210321041.5A
Authority: CN
Inventors: 王潇斌; 黄申; 刘楚; 丁瑞雪; 谢朋峻
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-06-28
Anticipated expiration: 2042-03-30
Also published as: CN114417022A

Abstract

本申请提供一种模型训练方法、数据处理方法及其装置。该模型训练方法包括：获取第一行政区划文本，第一行政区划文本按照行政区域的层级顺序表示实际的行政区划；对第一行政区划文本进行更改，得到第二行政区划文本，第二行政区划文本和第一行政区划文本表示相同的行政区划；根据第一行政区划文本和第二行政区划文本，训练地址识别模型，得到训练完成的地址识别模型。本申请通过对第一行政区划文本，得到第二行政区划文本。采用第一行政区划文本和第二行政区划文本这些具有地址特点的文本训练得到地址识别模型，能够对地址文本具有更好的表征能力，进而能够准确的分析地址文本。

Description

模型训练方法、数据处理方法及其装置

技术领域

本申请涉及计算机技术领域，尤其涉及模型训练方法、数据处理方法及其装置。

背景技术

地址文本是各种场景中非常常见的数据，例如，快递的收货地址、外卖的配送地址、生活缴费登记地址以及其他场景中的登记地址，因此，地址文本分析实际需求较高。

目前，通常使用比如LSTM（Long Short-Term Memory，长短期记忆人工神经网络）等通用的文本编码器进行地址文本分析，其中，该文本编码器是基于通用的自然语言文本、基于通用的任务目标训练得到的，但通过通用的文本编码器无法对地址文本进行准确的分析。

发明内容

本申请的多个方面提供了一种模型训练方法、数据处理方法及其装置，以提高地址识别模型的对地址文本的分析准确度。

本申请实施例第一方面提供一种模型训练方法，包括：获取第一行政区划文本，第一行政区划文本按照行政区域的层级顺序表示实际的行政区划；对第一行政区划文本进行更改，得到第二行政区划文本，第二行政区划文本和第一行政区划文本表示相同的行政区划；根据第一行政区划文本和第二行政区划文本，训练地址识别模型，得到训练完成的地址识别模型。

本申请实施例第二方面提供一种数据处理方法，包括：获取第一行政区划文本；将第一行政区划文本输入地址识别模型进行数据处理，得到第一行政区划文本对应的实际行政区划文本，地址识别模型是根据第一方面模型训练方法训练得到的。

本申请实施例第三方面提供一种数据处理装置，包括：

获取模块，用于获取第一行政区划文本；

处理模块，用于将第一行政区划文本输入地址识别模型进行数据处理，得到第一行政区划文本对应的实际行政区划文本，地址识别模型是根据第一方面模型训练方法训练得到的。

本申请实施例第四方面提供一种电子设备，包括：处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现第一方面的模型训练方法，或实现第二方面的数据处理方法。

本申请实施例应用于地址文本的分析场景中，提供的模型训练方法包括：获取第一行政区划文本，第一行政区划文本按照行政区域的层级顺序表示实际的行政区划；对第一行政区划文本进行更改，得到第二行政区划文本，第二行政区划文本和第一行政区划文本表示相同的行政区划；根据第一行政区划文本和第二行政区划文本，训练地址识别模型，得到训练完成的地址识别模型。本申请实施例通过对第一行政区划文本，得到第二行政区划文本。采用第一行政区划文本和第二行政区划文本这些具有地址特点的文本训练得到地址识别模型，能够对地址文本具有更好的表征能力，进而能够准确的分析地址文本。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请示例性实施例提供的一种模型训练方法的步骤流程图；

图2为本申请示例性实施例提供的一种模型训练方法的示意图；

图3为本申请示例性实施例提供的一种训练地址识别模型的步骤流程图；

图4为本申请示例性实施例提供的另一种训练地址识别模型的步骤流程图；

图5为本申请示例性实施例提供的又一种训练地址识别模型的步骤流程图；

图6为本申请示例性实施例提供的一种数据处理方法的步骤流程图；

图7为本申请示例性实施例提供的一种数据处理装置的结构框图；

图8为本申请示例性实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

针对地址文本的分析场景，采用通用的文本编码器无法对地址文本进行准确的分析的问题，本申请实施例提供一种模型训练方法包括：获取第一行政区划文本，第一行政区划文本按照行政区域的层级顺序表示实际的行政区划；对第一行政区划文本进行更改，得到第二行政区划文本，第二行政区划文本和第一行政区划文本表示相同的行政区划；根据第一行政区划文本和第二行政区划文本，训练地址识别模型，得到训练完成的地址识别模型。本申请实施例通过对第一行政区划文本，得到第二行政区划文本。采用第一行政区划文本和第二行政区划文本这些具有地址特点的文本训练得到地址识别模型，能够对地址文本具有更好的表征能力，进而能够准确的分析地址文本。

在本实施例中，并不限定模型训练方法的执行设备。可选地，模型训练方法可以借助云计算系统实现整体的模型训练方法。例如，模型训练方法可以应用于云服务器，以便借助于云上资源的优势运行各种神经网络模型；相对于应用于云端，模型训练方法也可以应用于常规服务器、云服务器或服务器阵列等服务端设备。

其中，本申请实施例训练得到的地址识别模型可以对地址文本进行准确的分析。具体分析包括：识别地址文本对应的准确的行政区划文本、识别不同地址文本是否表示同一行政区划、以及确定不同行政区域之间的层级关系。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请示例性实施例提供的一种模型训练方法的步骤流程图。如图1所示该模型训练方法，具体包括以下步骤：

S101，获取第一行政区划文本。

其中，第一行政区划文本按照行政区域的层级顺序表示实际的行政区划。

具体地，国家统计局制作的全国区划信息表，包括五级行政区域名称，如：省、市、区、街道和社区居委会，其中，省的层级大于市，市的层级大于区，区的层级大于街道，街道的层级大于社区居委会。在本申请实施例中，第一行政区划文本是基于全国区划信息表构造的。第一行政区划文本包括这五级行政区域名称，且按照层级从高到低的顺序表示实际的行政区划。其中，实际的行政区划是指每个行政区域名称都采用全国区划信息表中记录的行政区域名称。例如，第一行政区划文本为“浙江省杭州市余杭区仓前街道龙潭社区居委会”。

S102，对第一行政区划文本进行更改，得到第二行政区划文本。

其中，第二行政区划文本和第一行政区划文本表示相同的行政区划。

具体为，第一行政区划文本包括：多个行政区域名称，多个行政区域名称按照层级递减的形式表示实际的行政区划，对第一行政区划文本进行更改，得到第二行政区划文本，包括以下至少一项：对多个行政区域名称进行调序，得到第二行政区划文本；采用形近字或者同音字替换第一行政区划文本中的至少一个文字，得到第二行政区划文本；删除第一行政区划文本中的至少一个行政区域名称，得到第二行政区划文本；采用目标名称替换对应的行政区域名称，得到第二行政区划文本，目标名称表示对应的行政区域名称的别名。

例如，对于上述第一行政区划文本“浙江省杭州市余杭区仓前街道龙潭社区居委会”中的行政区域名称为“浙江省”、“杭州市”、“余杭区”、“仓前街道”和“龙潭社区居委会”。

其中，对多个行政区域名称进行调序，得到第二行政区划文本是指变换第一行政区划文本中的部分行政区域名称的顺序。例如，对第一行政区划文本“浙江省杭州市余杭区仓前街道龙潭社区居委会”调序后，得到的第二行政区划文本A为“龙潭社区居委会浙江省杭州市余杭区仓前街道”。

再者，对于采用形近字或者同音字替换第一行政区划文本中的至少一个文字，得到第二行政区划文本。例如，在第一行政区划文本“浙江省杭州市余杭区仓前街道龙潭社区居委会”中，采用“杭”的形近字“沆”，替换“杭”，采用“仓”的形近字“沧”替换“仓”，采用“潭”的同音字“滩”替换“潭”，得到的第二行政区划文本B为“浙江省沆州市余杭区沧前街道龙滩社区居委会”。

进一步地，删除第一行政区划文本中的至少一个行政区域名称，得到第二行政区划文本通常是指删除层级较高的行政区域名称或者层级属于中间的行政区域名称，保留层级最低的行政区域名称。例如，对于第一行政区划文本“浙江省杭州市余杭区仓前街道龙潭社区居委会”，可以删除行政区域名称“浙江省”和行政区域名称“余杭区”，则得到的第二行政区划文本C为“杭州市仓前街道龙潭社区居委会”。

此外，采用目标名称替换对应的行政区域名称，得到第二行政区划文本，是指采用行政区域名称的别名替换行政区域名称，通常情况下“XX”是“XX省”、“XX市”、“XX区”的别名。例如，“浙江”是“浙江省”的别名，“杭州”是“杭州市”的别名。则对第一行政区划文本“浙江省杭州市余杭区仓前街道龙潭社区居委会”中行政区域名称替换，得到的第二行政区划文本D为“浙江杭州余杭区仓前街道龙潭社区居委会”

在本申请实施例中，上述四种方式可以采用至少两种进行组合，得到第二行政区划文本，例如，采用行政区域名称的调序与别名的替换，则得到的第二行政区划文本E为“龙潭社区居委会浙江杭州余杭区仓前街道”。本申请实施例通过对第一行政区划文本进行更改，能够得到多个第二行政区划文本，进而能够针对每一条第一行政区划文本，构造大量的第二行政区划文本，为地址识别模型提供了足够的与地址相关的训练样本。

S103，根据第一行政区划文本和第二行政区划文本，训练地址识别模型，得到训练完成的地址识别模型。

本申请实施例的地址识别模型通过采用第一行政区划文本和第二行政区划文本训练，由于第一行政区划文本和第二行政区划文本具有地址文本的殊性-强知识性，如具有行政区域的层级、行政区域名称的别名、行政区域名称的从属关系。例如，在第一行政区划文本中，后面的行政区域名称表示的行政区域属于前面的行政区域名称表示的行政区域，如“杭州市”属于“浙江省”。由于第一行政区划文本和第二行政区划文本具有这些特性，因此训练得到的地址识别模型能够完成地址相关的任何分析任务。

示例性地，参照图2，地址识别模型包括：一个编码器和第一识别子模型、第二识别子模型、第三识别子模型。其中，编码器可以对任意输入文本（第一行政区划文本和/或第二行政区划文本）进行编码，根据输入文本，确定对应的识别子模型（第一识别子模型或者第二识别子模型或者第三识别子模型）进而输出对应的预测结果，如图2中的预测行政区划文本、预测识别结果或者预测层级关系，根据预测结果和对应设定的标签数据，实现地址识别模型的训练，得到训练完成的地址识别模型，训练完成的地址识别模型可以实现各种地址分析任务。

一种可选实施例中，参照图3，根据第一行政区划文本和第二行政区划文本，训练地址识别模型，得到训练完成的地址识别模型，包括以下步骤：

S301，将第二行政区划文本输入地址识别模型的编码器进行编码处理，得到第一特征向量。

其中，参照图2，编码器可以是RoBERTa（a Robustly Optimized BERTPretraining Approach，一种语言表征模型）、GPT（一种预训练模型）或者BERT（Bidirectional Encoder Representation from Transformers，语言表征模型）中的一种编码器。编码器是用于将输入的输入文本编码成为固定低维、稠密的特征向量。

此外，在该实施例中，参照图2，第二行政区划文本是作为输入文本，输入到编码器中，输出第一特征向量。其中，第二行政区划文本可以是上述第二行政区划文本A至第二行政区划文本E中的任意一种。

具体地，在编码器的编码过程中会针对输入文本的每个文字输出一个向量，组合这些向量后得到第一特征向量。

S302，将第一特征向量输入地址识别模型的第一识别子模型进行识别处理，得到预测行政区划文本。

其中，第一识别子模型可以是一个单层全连接网络模型。第一识别子模型根据第一特征向量，预测第二行政区划文本对应的预测行政区划文本。例如，对于第二行政区划文本A为“龙潭社区居委会浙江省杭州市余杭区仓前街道”，经过编码器和第一识别子模型，得到预测行政区划文本为“浙江省龙潭社区居委会杭州市余杭区仓前街道”。

一种可选实施例中，第一识别子模型识别出第二行政区划文本中每个文字在对应标签上的概率，该标签是根据第一行政区划文本的文字确定的，进而得到预测行政区划文本。

一种可选实施例中，第一识别子模型可以识别第二行政区划文本中每个文字为错别字的概率，进而使地址识别模型识别错别字的能力。

S303，确定预测行政区划文本和第一行政区划文本的第一损失值。

一种可选实施例中，可以采用对数似然损失函数（likelihood）确定预测行政区划文本和第一行政区划文本的第一损失值。也可以采用其他损失函数确定第一损失值。

一种可选实施例中，可以将具有错别字的第二行政区划文本作为输入文本输入地址识别模型，输出第二行政区划文本中每个文字是错别字的概率，然后采用交叉熵损失函数计算该概率与标签数据（是错别字[0.0，1.0], 不是错别字[1.0, 0.0]）的损失值，通过该损失值调整编码器和编码参数和第一识别子模型的模型参数，进而使地址识别模型识别错别字的能力。

S304，根据第一损失值调整编码器的编码参数和第一识别子模型的模型参数。

其中，第一行政区划文本为编码器和第一识别子模型输出的标签数据，当预测行政区划文本和第一行政区划文本的第一损失值大于或等于第一损失值阈值时，则调整编码器的编码参数和第一识别子模型的模型参数。当第一损失值小于第一损失值阈值时，则确定预测行政区划文本趋近于第一行政区划文本，则训练完成编码器和第一识别子模型。

在本申请实施例中，训练使得编码器和第一识别子模型，可以对各种各样的行政区划文本，输出对应准确的行政区划文本。例如，对上述第二行政区划文本A至第二行政区划文本E可以输出第一行政区划文本。

一种可选实施例中，参照图4，根据第一行政区划文本和第二行政区划文本，训练地址识别模型，得到训练完成的地址识别模型，包括以下步骤：

S401，将两个不同的行政区划文本分别输入编码器进行编码，得到对应的第二特征向量和第三特征向量。

其中，两个不同的行政区划文本包括第一行政区划文本和第二行政区划文本；或，两个不同的行政区划文本包括两个不同的第二行政区划文本；或，两个不同的行政区划文本包括第三行政区划文本和第一行政区划文本；或，两个不同的行政区划文本包括第三行政区划文本和第二行政区划文本，其中，第三行政区划文本和第一行政区划文本表示不同的行政区划。

参照图2，将两个不同的行政区划文本作为输入文本输入编码器进行编码。例如，将第一行政区划文本输入编码器进行编码，得到第二特征向量。将第二行政区划文本输入编码器进行编码，得到第三特征向量。

示例性地，第三行政区划文本如“宁波市海曙区段塘街道南都社区居委会”，该第三行政区划文本和第一行政区划文本以及第二行政区划文本表示均不是同样的行政区划。

在本申请实施例中，表示相同行政区划的两个不同的行政区划文本作为训练地址识别模型的正例。表示不同行政区划两个不同的行政区划文本作为训练地址识别模型的负例。

进一步地，在本申请实施例中，编码器会针对行政区划文本的每个文字输出一个向量，在这里可以取两个不同的行政区划文本各自的末尾占位符对应的向量，作为表示对应的行政区划文本对应的特征向量。示例性地，当两个不同的行政区划文本包括：第一行政区划文本和第二行政区划文本，则将第一行政区划文本的末尾占位符“\E”对应的向量作为第二特征向量。将第二行政区划文本的末尾占位符“\E”对应的向量作为第三特征向量。

S402，确定第二特征向量和第三特征向量的第三损失值。

S403，根据第三损失值调整编码器的编码参数。

其中，对于正例，期望编码器编码得到的第二特征向量和第三特征向量越接近，对于负例，期望编码器编码得到的第二特征向量和第三特征向量差别越大。因此，采用第二特征向量和第三特征向量确定的第三损失值调整编码器的编码参数可以使表示相同行政区划的表征向量更接近。

S404，组合第二特征向量和第三特征向量，得到第四特征向量。

其中，组合第二特征向量和第三特征向量是指将第二特征向量和第三特征向量进行拼接得到第四特征向量。

S405，将第四特征向量输入地址识别模型的第二识别子模型，得到预测识别结果。

参照图2，将第四特征向量输入第二识别子模型，得到的预测识别结果可以是0至1之间的数字。表示两个不同的行政区划文本表示相同的行政区划的概率。

S406，确定预测识别结果和标签数据的第二损失值。

其中，标签数据用于表示两个不同的行政区划文本是否表示相同的行政区划。

具体地，标签数据可以是[1.0]表示两个不同的行政区划文本是表示相同的行政区划, [0.0] 表示两个不同的行政区划文本不是表示相同的行政区划。进一步地，可以采用交叉熵损失函数，确定第二损失值。

S407，根据第二损失值调整编码器的编码参数和第二识别子模型的模型参数。

其中，若第二损失值大于或等于第二损失值阈值，则调整编码器的编码参数和第二识别子模型的模型参数。若第二损失值小于第二损失值阈值，则得到训练完成的地址识别模型。

在本申请实施例中，训练得到的地址识别模型具备识别相同行政区划和不同行政区划的能力，通过调整编码器的参数，可以使编码器对相同行政区划不同的表达方式输出相似的特征向量。

一种可选实施例中，参照图5，根据第一行政区划文本和第二行政区划文本，训练地址识别模型，得到训练完成的地址识别模型，包括以下步骤：

S501，获取具有目标层级关系的两个行政区域名称。

其中，目标层级关系包括：上下级或同级；

示例性地，两个行政区域名称如“浙江省”和“杭州市”或者“杭州市”和“仓前街道”，对应的目标层级关系为上下级。两个行政区域名称如 “杭州市”和“宁波市”，对应的目标层级关系为同级。此外，目标层级关系还包括：无层级关系。

S502，将两个行政区域名称输入编码器进行编码，得到第五特征向量。

其中，参照图2，是将两个行政区域名称作为输入文本输入编码器进行编码，其中，编码器也是分别对两个行政区域名称编码，得到对应的特征向量，再对得到的特征向量进行组合后，得到第五特征向量。

一种可选实施例中，编码器对其中一个行政区域名称进行编码，得到该行政区域名称每个字的向量，对该行政区域名称每个字的向量求平均值，得到第一平均特征向量。编码器对另一个行政区域名称进行编码，得到该行政区域名称每个字的向量，对该行政区域名称每个字的向量求平均值，得到第二平均特征向量。然后将第一平均特征向量和第二平均特征向量拼接后得到第五特征向量。

S503，将第五特征向量输入地址识别模型的第三识别子模型，得到预测层级关系。

其中，第三识别子模型是全连接网络模型。预测层级关系可以是在各个标签（同级，上下级和无关）上的概率分布。如预测层级关系为[0.2, 0.5, 0.3]。

S504，根据预测层级关系和目标层级关系，调整编码器的编码参数和第三识别子模型的模型参数。

具体为，采用交叉熵损失函数确定预测层级关系和目标层级关系的第四损失值，例如计算预测层级关系为[0.2, 0.5, 0.3]和目标层级关系（上下级[0.0，1.0, 0.0]）的损失值为第四损失值。若第四损失值大于或等于第四损失值阈值，则调整编码器的编码参数和第三识别子模型的模型参数，若第四损失值小于第四损失值阈值，则得到训练完成的地址识别模型。

在本申请实施例中，图4至图6所示的实施例的任意一种或者至少两种的组合，均为本申请实施例训练得到的地址识别模型。其中，地址识别模型中的编码器可以是一个，如图2，训练得到的编码器可以适用各种地址分析任务。此外，也可以根据地址分析任务的不同训练不同的编码器，例如，针对图2所示的不同识别子模型（第一识别子模型、第二识别子模型和第三识别子模型）训练对应的编码器。

本申请实施例提供的模型训练方法采用第一行政区划文本和第二行政区划文本这些具有地址特点的文本训练得到地址识别模型，能够对地址文本具有更好的表征能力，进而能够实现地址文本的各种分析任务。

图6为本申请示例性实施例提供的一种数据处理方法的步骤流程图。如图6所示该数据处理方法，具体包括以下步骤：

S601，获取第一行政区划文本。

在本申请实施例中，第一行政区划文本为实际场景应用中任意形式的行政区划文本。例如：“龙潭社区居委会浙江省杭州市余杭区仓前街道”、“浙江省杭州市余杭区仓前街道龙潭社区居委会”、“浙江省沆州市余杭区沧前街道龙滩社区居委会”、“浙江杭州余杭仓前街道龙潭社区”、余杭区仓前街道龙潭社区居委会”等。

S602，将第一行政区划文本输入地址识别模型进行数据处理，得到第一行政区划文本对应的实际行政区划文本。

其中，对于第一行政区划文本“龙潭社区居委会浙江省杭州市余杭区仓前街道”或“浙江省杭州市余杭区仓前街道龙潭社区居委会” 或“浙江省沆州市余杭区沧前街道龙滩社区居委会” 或“浙江杭州余杭仓前街道龙潭社区” 或“余杭区仓前街道龙潭社区居委会”等。输入地址识别模型得到的实际行政区划文本如“浙江省杭州市余杭区仓前街道龙潭社区居委会”。

进一步地，地址识别模型是根据上述模型训练方法训练得到的。

一种可选实施例中，还包括：获取第二行政区划文本；将第一行政区划文本和第二行政区划文本输入地址识别模型进行数据处理，得到第一行政区划文本和第二行政区划文本是否表示相同的行政区划的识别结果。

其中，第二行政区划文本也为实际场景应用中任意形式的行政区划文本。第二行政区划文本和上述第一行政区划文本可以表示相同的行政区划，也可以表示不同的行政区划。

例如，对于第一行政区划文本F“浙江省沆州市余杭区沧前街道龙滩社区居委会”和第二行政区划文本G“浙江杭州余杭仓前街道龙潭社区”，地址识别模型可以识别第一行政区划文本F和第二行政区划文本G表示的是同一行政区域。对于第一行政区划文本F “浙江省沆州市余杭区沧前街道龙滩社区居委会”和第二行政区划文本H “宁波市海曙区段塘街道南都社区居委会”，地址识别模型可以识别第一行政区划文本F和第二行政区划文本H表示的不是同一行政区域。

一种可选实施例中，还包括：将第一行政区划文本输入地址识别模型进行数据处理，得到第一行政区划文本中的错别字。

一种可选实施例中，还包括：获取第一行政区域名称和第二行政区域名称，将第一行政区域名称和第二行政区域名称输入地址识别模型进行数据处理，得到第一行政区域名称和第二行政区域名称的层级关系。

在本申请实施例中，可以根据输入编码器的输入文本的类型，确定使用的识别子模型。例如，若输入文本为一个行政区划文本，则在编码器编码后，采用第一识别子模型进行处理，得到对应的识别结果。若输入文本为两个行政区划文本，则在编码器编码后，采用第二识别子模型进行处理，得到对应的识别结果。若输入文本为两个行政区域名称，则在编码器编码后，采用第三识别子模型进行处理，得到对应的识别结果。

在申请实施例中，提供的数据处理方法能够分析各种各样的地址任务。具体包括：能够确定准确的行政区划文本的，能够确定行政区划文本中的错别字，能够确定两个行政区划文本是否表示相同的行政区划以及能够确定两个行政区域的层级关系。

在本申请实施例中，除了提供一种数据处理方法之外，还提供一种数据处理装置，如图7所示，该数据处理装置70包括：

获取模块71，用于获取第一行政区划文本；

处理模块72，用于将第一行政区划文本输入地址识别模型进行数据处理，得到第一行政区划文本对应的实际行政区划文本，地址识别模型是根据上述模型训练方法训练得到的。

在一可选实施例中，获取模块71还用于：获取第二行政区划文本。处理模块72还用于：将第一行政区划文本和第二行政区划文本输入地址识别模型进行数据处理，得到第一行政区划文本和第二行政区划文本是否表示相同的行政区划的识别结果。

在申请实施例中，提供的数据处理装置能够分析各种各样的地址任务。具体包括：能够确定准确的行政区划文本的，能够确定行政区划文本中的错别字，能够确定两个行政区划文本是否表示相同的行政区划以及能够确定两个行政区域的层级关系。

此外，本申请实施例还提供一种模型训练装置（未示出），该模型训练装置包括：

获取模块，用于获取第一行政区划文本，第一行政区划文本按照行政区域的层级顺序表示实际的行政区划；

更改模块，用于对第一行政区划文本进行更改，得到第二行政区划文本，第二行政区划文本和第一行政区划文本表示相同的行政区划；

训练模块，用于根据第一行政区划文本和第二行政区划文本，训练地址识别模型，得到训练完成的地址识别模型。

在一可选实施例中，训练模块具体用于：将第二行政区划文本输入地址识别模型的编码器进行编码处理，得到第一特征向量；将第一特征向量输入地址识别模型的第一识别子模型进行识别处理，得到预测行政区划文本；确定预测行政区划文本和第一行政区划文本的第一损失值；根据第一损失值调整编码器的编码参数和第一识别子模型的模型参数。

在一可选实施例中，训练模块具体用于：将两个不同的行政区划文本分别输入编码器进行编码，得到对应的第二特征向量和第三特征向量；组合第二特征向量和第三特征向量，得到第四特征向量；将第四特征向量输入地址识别模型的第二识别子模型，得到预测识别结果；确定预测识别结果和标签数据的第二损失值，标签数据用于表示两个不同的行政区划文本是否表示相同的行政区划；根据第二损失值调整编码器的编码参数和第二识别子模型的模型参数；其中，两个不同的行政区划文本包括第一行政区划文本和第二行政区划文本；或，两个不同的行政区划文本包括两个不同的第二行政区划文本；或，两个不同的行政区划文本包括第三行政区划文本和第一行政区划文本；或，两个不同的行政区划文本包括第三行政区划文本和第二行政区划文本，其中，第三行政区划文本和第一行政区划文本表示不同的行政区划。

在一可选实施例中，训练模块还用于：确定第二特征向量和第三特征向量的第三损失值；根据第三损失值调整编码器的编码参数。

在一可选实施例中，训练模块还用于获取具有目标层级关系的两个行政区域名称，目标层级关系包括：上下级或同级；将两个行政区域名称输入编码器进行编码，得到第五特征向量；将第五特征向量输入地址识别模型的第三识别子模型，得到预测层级关系；根据预测层级关系和目标层级关系，调整编码器的编码参数和第三识别子模型的模型参数。

在一可选实施例中，第一行政区划文本包括：多个行政区域名称，多个行政区域名称按照层级递减的形式表示实际的行政区划，更改模块具体用于以下至少一项：对多个行政区域名称进行调序，得到第二行政区划文本；采用形近字或者同音字替换第一行政区划文本中的至少一个文字，得到第二行政区划文本；删除第一行政区划文本中的至少一个行政区域名称，得到第二行政区划文本；采用目标名称替换对应的行政区域名称，得到第二行政区划文本，目标名称表示对应的行政区域名称的别名。

在申请实施例中，提供的模型训练装置采用第一行政区划文本和第二行政区划文本这些具有地址特点的文本训练得到地址识别模型，能够对地址文本具有更好的表征能力，进而能够实现地址文本的各种分析任务。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图8为本申请示例性实施例提供的一种电子设备的结构示意图。该电子设备用于运行上述模型训练方法和数据处理方法。如图8所示，该电子设备包括：存储器84和处理器85。

存储器84，用于存储计算机程序，并可被配置为存储其它各种数据以支持在电子设备上的操作。该存储器84可以是对象存储(Object Storage Service，OSS)。

存储器84可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

处理器85，与存储器84耦合，用于执行存储器84中的计算机程序，以用于：获取第一行政区划文本，第一行政区划文本按照行政区域的层级顺序表示实际的行政区划；对第一行政区划文本进行更改，得到第二行政区划文本，第二行政区划文本和第一行政区划文本表示相同的行政区划；根据第一行政区划文本和第二行政区划文本，训练地址识别模型，得到训练完成的地址识别模型。

进一步可选地，处理器85在根据第一行政区划文本和第二行政区划文本，训练地址识别模型，得到训练完成的地址识别模型时，具体用于：将第二行政区划文本输入地址识别模型的编码器进行编码处理，得到第一特征向量；将第一特征向量输入地址识别模型的第一识别子模型进行识别处理，得到预测行政区划文本；确定预测行政区划文本和第一行政区划文本的第一损失值；根据第一损失值调整编码器的编码参数和第一识别子模型的模型参数。

进一步可选地，处理器85在根据第一行政区划文本和第二行政区划文本，训练地址识别模型，得到训练完成的地址识别模型时，具体用于：将两个不同的行政区划文本分别输入编码器进行编码，得到对应的第二特征向量和第三特征向量；组合第二特征向量和第三特征向量，得到第四特征向量；将第四特征向量输入地址识别模型的第二识别子模型，得到预测识别结果；确定预测识别结果和标签数据的第二损失值，标签数据用于表示两个不同的行政区划文本是否表示相同的行政区划；根据第二损失值调整编码器的编码参数和第二识别子模型的模型参数；其中，两个不同的行政区划文本包括第一行政区划文本和第二行政区划文本；或，两个不同的行政区划文本包括两个不同的第二行政区划文本；或，两个不同的行政区划文本包括第三行政区划文本和第一行政区划文本；或，两个不同的行政区划文本包括第三行政区划文本和第二行政区划文本，其中，第三行政区划文本和第一行政区划文本表示不同的行政区划。

进一步可选地，处理器85在根据第一行政区划文本和第二行政区划文本，训练地址识别模型，得到训练完成的地址识别模型时，还用于：确定第二特征向量和第三特征向量的第三损失值；根据第三损失值调整编码器的编码参数。

进一步可选地，处理器85还用于：获取具有目标层级关系的两个行政区域名称，目标层级关系包括：上下级或同级；将两个行政区域名称输入编码器进行编码，得到第五特征向量；将第五特征向量输入地址识别模型的第三识别子模型，得到预测层级关系；根据预测层级关系和目标层级关系，调整编码器的编码参数和第三识别子模型的模型参数。

进一步可选地，处理器85在对第一行政区划文本进行更改，得到第二行政区划文本时，具体用于以下至少一项：对多个行政区域名称进行调序，得到第二行政区划文本；采用形近字或者同音字替换第一行政区划文本中的至少一个文字，得到第二行政区划文本；删除第一行政区划文本中的至少一个行政区域名称，得到第二行政区划文本；采用目标名称替换对应的行政区域名称，得到第二行政区划文本，目标名称表示对应的行政区域名称的别名。

一种可选实施例中，处理器85，与存储器84耦合，用于执行存储器84中的计算机程序，以还用于：获取第一行政区划文本；将第一行政区划文本输入地址识别模型进行数据处理，得到第一行政区划文本对应的实际行政区划文本，地址识别模型是根据上述模型训练方法训练得到的。

进一步可选地，处理器85还用于：获取第二行政区划文本；将第一行政区划文本和第二行政区划文本输入地址识别模型进行数据处理，得到第一行政区划文本和第二行政区划文本是否表示相同的行政区划的识别结果。

进一步，如图8所示，该电子设备还包括：防火墙81、负载均衡器82、通信组件86、电源组件88等其它组件。图8中仅示意性给出部分组件，并不意味着电子设备只包括图8所示组件。

本申请实施例提供的电子设备，在地址文本分析场景中，能够训练得到对地址文本具有更好的表征能力，实现地址文本的各种分析任务的地址识别模型。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当计算机程序/指令被处理器执行时，致使处理器实现图1、图3至图6任一项所示方法中的步骤。

相应地，本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，当计算机程序/指令被处理器执行时，致使处理器实现图1、图3至图6任一项所示方法中的步骤。

上述图8中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关文本。在一个示例性实施例中，通信组件还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。

上述图8中的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现文本存储。文本可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的文本。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种模型训练方法，其特征在于，包括：

获取第一行政区划文本，所述第一行政区划文本按照行政区域的层级顺序表示实际的行政区划；

对所述第一行政区划文本进行更改，得到第二行政区划文本，所述第二行政区划文本和所述第一行政区划文本表示相同的行政区划；

根据所述第一行政区划文本和所述第二行政区划文本，训练地址识别模型，得到训练完成的地址识别模型，包括：将所述第二行政区划文本输入所述地址识别模型的编码器进行编码处理，得到第一特征向量；将所述第一特征向量输入所述地址识别模型的第一识别子模型进行识别处理，得到预测行政区划文本；确定所述预测行政区划文本和所述第一行政区划文本的第一损失值；根据所述第一损失值调整所述编码器的编码参数和所述第一识别子模型的模型参数；获取具有目标层级关系的两个行政区域名称，所述目标层级关系包括：上下级或同级；将所述两个行政区域名称输入所述编码器进行编码，得到第五特征向量；将所述第五特征向量输入所述地址识别模型的第三识别子模型，得到预测层级关系；根据所述预测层级关系和所述目标层级关系，调整所述编码器的编码参数和所述第三识别子模型的模型参数；

其中，所述根据所述第一行政区划文本和所述第二行政区划文本，训练地址识别模型，包括：

将两个不同的行政区划文本分别输入所述编码器进行编码，得到对应的第二特征向量和第三特征向量；

组合所述第二特征向量和所述第三特征向量，得到第四特征向量；

将所述第四特征向量输入所述地址识别模型的第二识别子模型，得到预测识别结果；

确定所述预测识别结果和标签数据的第二损失值，所述标签数据用于表示所述两个不同的行政区划文本是否表示相同的行政区划；

根据所述第二损失值调整所述编码器的编码参数和所述第二识别子模型的模型参数；

其中，所述两个不同的行政区划文本包括所述第一行政区划文本和所述第二行政区划文本；或，所述两个不同的行政区划文本包括两个不同的第二行政区划文本；或，所述两个不同的行政区划文本包括第三行政区划文本和所述第一行政区划文本；或，所述两个不同的行政区划文本包括所述第三行政区划文本和所述第二行政区划文本，其中，所述第三行政区划文本和所述第一行政区划文本表示不同的行政区划。

2.根据权利要求1所述的模型训练方法，其特征在于，所述根据所述第一行政区划文本和所述第二行政区划文本，训练地址识别模型，还包括：

确定所述第二特征向量和所述第三特征向量的第三损失值；

根据所述第三损失值调整所述编码器的编码参数。

3.根据权利要求1或2所述的模型训练方法，其特征在于，所述第一行政区划文本包括：多个行政区域名称，所述多个行政区域名称按照层级递减的形式表示实际的行政区划，所述对所述第一行政区划文本进行更改，得到第二行政区划文本，包括以下至少一项：

对所述多个行政区域名称进行调序，得到所述第二行政区划文本；

采用形近字或者同音字替换所述第一行政区划文本中的至少一个文字，得到所述第二行政区划文本；

删除所述第一行政区划文本中的至少一个行政区域名称，得到所述第二行政区划文本；

采用目标名称替换对应的所述行政区域名称，得到所述第二行政区划文本，所述目标名称表示对应的所述行政区域名称的别名。

4.一种数据处理方法，其特征在于，包括：

获取第一行政区划文本；

将所述第一行政区划文本输入地址识别模型进行数据处理，得到所述第一行政区划文本对应的实际行政区划文本，所述地址识别模型是根据权利要求1至3任一项模型训练方法训练得到的。

5.根据权利要求4所述的数据处理方法，其特征在于，包括：

获取第二行政区划文本；

将所述第一行政区划文本和所述第二行政区划文本输入所述地址识别模型进行数据处理，得到所述第一行政区划文本和所述第二行政区划文本是否表示相同的行政区划的识别结果。

6.一种数据处理装置，其特征在于，包括：

获取模块，用于获取第一行政区划文本；

处理模块，用于将所述第一行政区划文本输入地址识别模型进行数据处理，得到所述第一行政区划文本对应的实际行政区划文本，所述地址识别模型是根据权利要求1至3任一项模型训练方法训练得到的。

7.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如1至3任一项所述的模型训练方法，或实现权利要求4或5所述的数据处理方法。