CN111695355B

CN111695355B - 地址文本识别方法、装置、介质、电子设备

Info

Publication number: CN111695355B
Application number: CN202010457096.XA
Authority: CN
Inventors: 李响; 王伟
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2024-05-14
Anticipated expiration: 2040-05-26
Also published as: CN111695355A

Abstract

本公开涉及计算机技术领域，揭示了一种地址文本识别方法、装置、介质及电子设备。该方法包括：获取待识别的地址文本；对所述待识别的地址文本进行分词，得到包括至少一个字符串的字符串序列；根据预先训练的地址语言模型，对所述字符串序列的至少一种特征进行检测；在所述字符串序列的至少一种特征存在错误时，通过所述地址语言模型对所述存在错误的至少一种特征进行修正，以识别出正确的地址文本。此方法下，通过预先训练的地址语言模型可以充分地挖掘地址文本中蕴含的地址语义信息，能够较好地对文本地址进行纠错与补全，提高对地址文本进行识别的准确性。

Description

地址文本识别方法、装置、介质、电子设备

技术领域

本公开涉及计算机技术领域，特别地，涉及一种地址文本识别方法、装置、介质和电子设备。

背景技术

在如今，地名地址的识别与匹配在物流、金融等各行各业都有着较为成熟的应用场景。目前，主流的地址识别技术，大多以机器学习分词与传统信息检索相结合的思路作为实现方案。然而，上述思路受限于分词效果，以及检索语料本身的丰富度，无法很好地识别乱序、文字错漏、信息缺失的地址样本，没有从语义层面去提取地址文本信息。可见，如何提高对地址文本进行识别的准确性是亟待解决的技术问题。

发明内容

本公开的目的在于提供一种地址文本识别方法及装置、计算机可读存储介质、电子设备，进而至少可以提高对地址文本进行识别的准确性。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开实施例的一个方面，提供了一种地址文本识别方法，所述方法包括：获取待识别的地址文本；对所述待识别的地址文本进行分词，得到包括至少一个字符串的字符串序列；根据预先训练的地址语言模型，对所述字符串序列的至少一种特征进行检测；在所述字符串序列的至少一种特征存在错误时，通过所述地址语言模型对所述存在错误的至少一种特征进行修正，以识别出正确的地址文本。

根据本公开实施例的一个方面，提供了一种地址文本识别装置，包括：获取单元，被用于获取待识别的地址文本；分词单元，被用于对所述待识别的地址文本进行分词，得到包括至少一个字符串的字符串序列；检测单元，被用于根据预先训练的地址语言模型，对所述字符串序列的至少一种特征进行检测；修正单元，被用于在所述字符串序列的至少一种特征存在错误时，通过所述地址语言模型对所述存在错误的至少一种特征进行修正，以识别出正确的地址文本。

根据本公开实施例的一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序包括可执行指令，当该可执行指令被处理器执行时，实现如上述实施例中所述的地址文本识别方法。

根据本公开实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储所述处理器的可执行指令，当所述可执行指令被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的地址文本识别方法。

在本公开一些实施例的技术方案中，通过对获取到的待识别的地址文本进行分词，得到包括至少一个字符串的字符串序列，根据预先训练的地址语言模型，对所得到的字符串序列进行特征检测，以检测所述字符串序列是否存在错误特征，在所述字符串序列存在特征错误时，修正所述字符串序列存在的错误特征。由于预先训练的地址语言模型，能够充分地挖掘字符串序列中字符串蕴含的地址层级、地址关联以及地址语义等信息，故而能检测出字符串序列存在的错误特征，通过修正所述字符串序列存在的错误特征，可以得到正确的地址文本，因此，本公开一些实施例的技术方案能够提高对地址文本进行识别的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

通过参照附图详细描述其示例性实施例，本公开的上述和其它特征及优点将变得更加明显。

图1示出了根据本公开一个实施例的地址文本识别方法的应用场景示意图；

图2示出了根据本公开一个实施例的示出的地址文本识别的流程图；

图3示出了根据本公开一个实施例的对所述待识别的地址文本进行分词细节流程图；

图4示出了根据本公开一个实施例的获取地址语言模型的方法流程图；

图5示出了根据本公开一个实施例的获取地址语言模型的方法流程图；

图6示出了根据本公开一个实施例的获取地址语言模型的方法流程图；

图7示出了根据本公开一个实施例的获取地址语言模型的方法流程图；

图8示出了根据本公开一个实施例的一种地址文本识别装置的框图；

图9示出了根据本公开一个实施例的一种实现地址文本识别方法的计算机可读存储介质；

图10示出了根据本公开一个实施例的一种实现地址文本识别方法的电子设备示例框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

还需要注意的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的对象在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在图示或描述的那些以外的顺序实施。

首先，本公开对于地址文本识别方法的应用场景进行简单说明。

在本申请的一个实施例中，地址文本识别方法可以是实施在如图1所示的场景中，参照图1，示出了根据本公开一个实施例的地址文本识别方法的应用场景示意图。

在图1中，示出了用户识别输入地址文本的应用场景。具体的，所述地址文本识别方法是基于如图所示的手机来实现的，当然，如图所示的手机也可以由平板电脑、笔记本电脑等具有触摸式屏幕的电子设备来替代。

在如图所示例的场景中，当用户需要识别地址文本时，首先打开设备，即显示如图1中101所示的手机界面，在所示的界面101中，用户可以在文字编辑区域通过文字编辑的方式输入地址文本。如图1中102所示，用户在文字编辑区域内输入了地址文本“广东省保税区福田区市花路”，由于该地址可能存在乱序、文字错漏、信息缺失等问题，因此，通过点击如图1中102所示的“识别”按钮，执行本公开所提出的地址文本识别方法对地址文本“广东省保税区福田区市花路”进行识别，最后得到如图1中103中所示的正确地址文本“广东省深圳市福田区福田保税区市花路”。

需要注意的是，在上述实施例中，地址文本的输入方式也可以是通过复制文字的方式进行输入，还可以是通过图像识别技术将图片中识别到的文字输入到文字编辑区。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

根据本公开的第一方面，提供了一种地址文本识别方法。

参见图2，示出了根据本公开一个实施例的示出的地址文本识别的流程图。该地址文本识别方法可以由具有计算处理功能的设备来执行，比如可以由图1中所示的手机来执行。如图2所示，该地址文本识别方法至少包括步骤210至步骤270：

步骤210，获取待识别的地址文本。

步骤230，对所述待识别的地址文本进行分词，得到包括至少一个字符串的字符串序列。

步骤250，根据预先训练的地址语言模型，对所述字符串序列的至少一种特征进行检测。

步骤270，在所述字符串序列的至少一种特征存在错误时，通过所述地址语言模型对所述存在错误的至少一种特征进行修正，以识别出正确的地址文本。

下面将对如上实施步骤进行详细说明：

在步骤210中，获取待识别的地址文本。

在本申请中，所述待识别的地址文本可以是指一段不标准、不完善或者不准确的地址描述文字，例如“广东省福田区保税区市花路”、“广东省深圳市福田区六约社区”、“深圳市广东省福田区上田大厦”、“深圳市广东省天河区南园街道上田大厦”等等。

继续参照图2，在步骤230中，对所述待识别的地址文本进行分词，得到包括至少一个字符串的字符串序列。

在本申请的一个实施例中，对所述待识别的地址文本进行分词可以是通过如图3所示的步骤实施。

参见图3，示出了根据本公开一个实施例的对所述待识别的地址文本进行分词细节流程图。具体包括步骤211至212：

步骤211，获取地址词典，所述地址词典中包括地址字符串。

步骤212，基于所述地址词典中的地址字符串，对所述待识别的地址文本进行分词。

在本申请中，对所述待识别的地址文本进行分词可以是基于地址词典来对地址文本进行分词的，进而得到包括至少一个字符串的字符串序列。

在一个实施例的具体实现中，地址词典可以是基于民政部/国家统计局发布的《2018年统计用区划代码和城乡划分代码》建立的，在《2018年统计用区划代码和城乡划分代码》中，包括五级行政区域的行政区域名称，例如表1所示：

层级	行政区域	举例
			省级	省份、直辖市、自治区	广东省
地市级	城市	深圳市
			县级	区县	龙岗区
乡级	乡镇、街道	横岗街道
			村级	村委会、居委会	六约社区

表1

也可以是将五级行政区域的地名名称，储存为本地词典，如《省级地名词典》，《地级地名词典》《县级地名词典》，《乡级地名词典》。可以将这些词典作为依据，使用基于双数组Tire树实现的Aho Corasick自动机，对地址文本进行分词，分词得到多个字符串。

对于五级行政区域之外的道路名称、商圈、小区等地址元素，可以使用基于双数组Tire树实现的Aho Corasick自动机和自然语言处理中的命名实体识别技术，进行提取，并划为第六级行政区域。

例如，对地址文本“广东省福田区保税区市花路”进行分词之后得到字符串序列：["广东省","保税区","福田区","市花路"]。

继续参照图2，在步骤250中，根据预先训练的地址语言模型，对所述字符串序列的至少一种特征进行检测。

在本申请的一个实施例中，所述地址文本识别模型可以通过如图4所示的步骤确定。

参见图4，示出了根据本公开一个实施例的获取地址语言模型的方法流程图。具体包括步骤2511至2513：

步骤2511，获取全量地址的字符串集合，所述字符串集合中包括地址字符串，其中，所述字符串集合中的各个地址字符串对应有地址层级信息。

需要说明的是，全量地址可以是指《2018年统计用区划代码和城乡划分代码》中包括省、市、县、乡、村级在内的所有地名地址，例如广东、深圳、福田等等。

步骤2512，基于所述各个地址字符串以及地址字符串对应的地址层级信息，构建第一训练样本。

步骤2513，通过所述第一训练样本训练深度神经网络模型，得到所述地址语言模型。

在一个实施例的具体实现中，全量地址的字符串集合中的各个地址字符串对应有地址层级信息。如表2，省、市、县，乡、村级的地址字符串对应的层级类别可以是1-5，可能出现的路名、商圈名等的层级类别可以是6。例如，广东省→模型做分类→1、深圳市→模型做分类→2、南京路→模型做分类→6。

表2

对全量地址的字符串集合中的字符串(地址行政区域名称)进行层级类别划分，并且再增加不属于地址行政区域级别的其它地名的层级类别，可以构建一个有监督的六分类任务，得到第一训练样本，其中，第六种分类可以是对可能出现的路名、商圈名等进行的分类。进一步的，通过第一训练样本训练深度神经网络模型，得到地址语言模型。

通过上述实施例训练得到的地址语言模型，可以识别字符串序列中各个字符串对应的层级类别，进而可以在所述字符串序列中的字符串对应的层级顺序错误时，调整所述字符串序列中字符串的位置，使得所述字符串序列中字符串对应的层级顺序为升序顺序或者降序顺序。

在本申请的一个实施例中，所述地址文本识别模型可以通过如图5所示的步骤确定。

参见图5，示出了根据本公开一个实施例的获取地址语言模型的方法流程图。具体包括步骤2521至2523：

步骤2521，获取全量地址的字符串集合，所述字符串集合中包括地址字符串，其中，所述字符串集合中任意两个地址字符串之间对应有关系类别信息。

步骤2522，基于所述各个地址字符串以及任意两个地址字符串之间对应的关系类别信息，构建第二训练样本。

步骤2523，通过所述第二训练样本训练深度神经网络模型，得到所述地址语言模型。

在一个实施例的具体实现中，对全量地址的字符串集合中所有字符串(所有行政区域地名)进行两两组合，构建二元组，其中，每一个二元组中两个字符串之间的关联特征对应一个关系类别，如表3，二元组中两个字符串之间的关系类别可以有四种，例如：(广东省,深圳市)→模型做分类→A、(广东省,龙岗区)→模型做分类→A、(广东省,广东省)→模型做分类→A、(深圳市,东莞市)→模型做分类→B、(深圳市,虎门镇)→模型做分类→B、(深圳市,杭州市)→模型做分类→C、(深圳市,海淀区)→模型做分类→C、(深圳市,南园路)→模型做分类→D。

关系类别	解释
		A	二元组里的行政区域之间是从属关系，如广东省与深圳市
B	二元组里的行政区域属于同一个上级行政区域，如深圳市与与东莞市
		C	二元组里的行政区域不属于同一个上级行政区域，如深圳市与与杭州市
D	其它，针对未来新样本中可能出现的路名、商圈名等。

表3

对全量地址的字符串集合中字符串之间进行关系类别划分，可以构建一个有监督的四分类任务，得到第二训练样本，进一步的，通过第二训练样本训练深度神经网络模型，得到地址语言模型。

通过上述实施例训练得到的地址语言模型，可以对所述字符串序列中字符串之间的关联特征进行检测，在所述字符串序列中相邻字符串之间的关系类别存在错误时，修改所述关系类别存在错误的相邻字符串中的字符串，使得所述字符串序列中相邻字符串之间的关系类别为从属关系。

在本申请的一个实施例中，所述地址文本识别模型可以通过如图6所示的步骤确定。

参见图6，示出了根据本公开一个实施例的获取地址语言模型的方法流程图。具体包括步骤2531至2533：

步骤2531，获取全量地址的字符串集合，所述字符串集合中包括地址字符串，其中，所述字符串集合中的各个地址字符串对应有相似地址字符串集合，所述相似地址字符串集合中的字符串与对应的地址字符串存在相似关系。

步骤2532，基于所述各个地址字符串以及地址字符串对应的相似地址字符串集合，构建第三训练样本。

步骤2533，通过所述第三训练样本训练深度神经网络模型，得到所述地址语言模型。

在一个实施例的具体实现中，将全量地址的字符串集合中的字符串做编辑距离为1的变换(增加一个字符，或删去一个字符，或替换一个字符)，例如，在地址“广东省深圳市龙岗区布吉街道凤凰社区”中，对字符串“广东省”做编辑距离为1的变换，可以得到“广西省”、“广北省”、“广南省”等与字符串“广东省”对应的相似地址字符串。对字符串“深圳市”做编辑距离为1的变换，可以得到“深市”等与字符串“深圳市”对应的相似地址字符串。对字符串“龙岗区”做编辑距离为1的变换，可以得到“龙刚区”等与字符串“龙岗区”对应的相似地址字符串。对字符串“布吉街道”做编辑距离为1的变换，可以得到“布吉街道办”等与字符串“布吉街道”对应的相似地址字符串。

基于各个地址字符串以及地址字符串对应的相似地址字符串集合，构建例如表4所示第三训练样本，进一步的，通过第三训练样本训练深度神经网络模型，得到地址语言模型。

第1条训练数据	广西省	深圳市	龙岗区	布吉街道	凤凰社区
						第2条训练数据	广东省	深市	龙岗区	布吉街道	凤凰社区
第3条训练数据	广东省	深圳市	龙刚区	布吉街道	凤凰社区
						第4条训练数据	广东省	深圳市	龙岗区	布吉街道办	凤凰社区

表4

通过上述实施例训练得到的地址语言模型，可以通过上下文去识别并纠正地址内容错误的地址，在所述字符串序列中存在相似地址字符串时，将所述相似地址字符串修改为对应的地址字符串。

在本申请的一个实施例中，所述地址文本识别模型可以通过如图7所示的步骤确定。

参见图7，示出了根据本公开一个实施例的获取地址语言模型的方法流程图。具体包括步骤2541至2543：

步骤2541，获取全量地址的字符串集合，所述字符串集合中包括地址字符串，其中，所述字符串集合中的各个地址字符串对应有所属的一个或者多个标准字符串组。

步骤2542，基于所述各个地址字符串以及各个地址字符串所属的一个或者多个标准字符串组，构建第四训练样本。

在本申请中，标准字符串组是指完整且正确的包含五级行政区域名称的地址文本中各个字符串组成的字符串组。

步骤2543，通过所述第四训练样本训练深度神经网络模型，得到所述地址语言模型。

在一个实施例的具体实现中，将字符串集合中地址字符串对应的标准字符串组，分别遮蔽其中一个地址字符串(替换为[MASK])，其中每个标准字符串组可以构建得到四个第四训练样本(如表5，其中，第五级行政区域无法预测)。进一步的，通过第四训练样本训练深度神经网络模型，得到地址语言模型，使得地址语言模型可以通过上下文去预测[MASK]位置上原有的字符串。

MASK	深圳市	龙岗区	布吉街道	凤凰社区
					广东省	MASK	龙岗区	布吉街道	凤凰社区
广东省	深圳市	MASK	布吉街道	凤凰社区
					广东省	深圳市	龙岗区	MASK	凤凰社区

表5

通过上述实施例训练得到的地址语言模型，可以通过上下文去预测字符串序列中字符串缺失位置(即MASK位置)上原有的字符串，在所述字符串序列中存在缺失的字符串时，补充缺失的字符串，使得所述字符串序列中的字符串组为标准字符串组。

继续参照图2，在步骤270中，在所述字符串序列的至少一种特征存在错误时，通过所述地址语言模型对所述存在错误的至少一种特征进行修正，以识别出正确的地址文本。

在本申请的一个实施例中，所述在所述字符串序列的至少一种特征存在错误时，通过所述地址语言模型对所述存在错误的至少一种特征进行修正的具体实施方式可以包括如下至少一种：

第一种、在所述字符串序列中的字符串对应的层级顺序错误时，调整所述字符串序列中字符串的位置，使得所述字符串序列中字符串对应的层级顺序为升序顺序或者降序顺序。

第二种、在所述字符串序列中相邻字符串之间的关系类别存在错误时，修改所述关系类别存在错误的相邻字符串中的字符串，使得所述字符串序列中相邻字符串之间的关系类别为从属关系。

第三种、在所述字符串序列中存在相似地址字符串时，将所述相似地址字符串修改为对应的地址字符串。

第四种、在所述字符串序列中存在缺失的字符串时，补充缺失的字符串，使得所述字符串序列中的字符串组为标准字符串组。

为了使本领域技术人员更加理解本申请技术方案的原理，下面将以一个具体的实施例进行说明：

以地址文本“广东省保税区福田区市花路”为例，此字符串序列["广东省","福田区","保税区","市花路"]存在多种错误：行政区域缺失(缺失“深圳市”)，缺字(“保税区”全称“福田保税区”)，乱序(“福田保税区”应该排在“福田区”的后面)。

具体而言：

1、当所述字符串序列中的字符串排序错误时，通过重新排列所述字符串序列中的字符串顺序来对所述字符串排序错误进行修正。

例如：通过地址语言模型对字符串序列["广东省","保税区","福田区","市花路"](即[1,6,3,6])进行修正后得到：字符串序列：["广东省","福田区","保税区","市花路"](即[1,3,6,6])。

2、当所述字符串序列中相邻字符串之间关联特征错误时，通过重新调整所述字符串序列中相邻字符串之间的位置，使得所述字符串序列中相邻字符串之间为从属关系，进而对所述字符串序列中相邻字符串之间关联特征错误进行修正。

例如：通过地址语言模型对字符串序列["广东省","福田区","保税区","市花路"](即["A","A","D","D"])进行修正后得到：字符串序列：["广东省","福田区","保税区","市花路"]["A","A","D","D"](由于本示例不存在相邻字符串之间关联特征错误，因此修正后没有变化)。

3、当所述字符串序列中字符串的地址标识特征错误时，通过修改字符串(即修改行政区域地名)来对所述字符串序列中字符串的地址标识特征错误进行修正。

例如：通过地址语言模型对字符串序列["广东省","福田区","保税区(错误)","市花路"]进行修正后得到：字符串序列：["广东省","福田区","福田保税区","市花路"]

4、当所述字符串序列中字符串完整性特征错误时，通过补充缺失的字符串(即补充缺失的行政区域地名)来对所述字符串序列中字符串完整性特征错误进行修正。

例如：通过地址语言模型对字符串序列["广东省","MASK","福田区","福田保税区","市花路"]进行修正后得到：字符串序列["广东省","深圳市","福田区","福田保税区","市花路"]

通过本申请所公开的技术方案，对地址文本“广东省保税区福田区市花路”(字符串序列["广东省","福田区","保税区","市花路"])进行纠错、补全、排序之后，得到新的地址文本“广东省深圳市福田区福田保税区市花路”(字符串序列["广东省","深圳市","福田区","福田保税区","市花路"])

此外，在本申请一个实施例中，对于所述地址语言模型而言，可以通过训练深度神经网络得到。当前，深度学习在自然语言处理领域应用中，Transformer是效果最好的特征提取器，它采用了自注意力机制(Self-Attention)机制，为输入序列中任意两个位置上单元建立了联系，并且避免了循环神经网络(RNN)中长距离依赖带来的性能问题。

对于文本序列，使用Transformer进行特征提取之后，可认为序列中每个词汇都有所侧重地汇集了上下文其他词汇的重要语义信息。

Transformer模型分为编码器(encoder)和解码器(decoder)两部分，编码器通常用作学习文本序列的向量特征，解码器用作生成新的目标文本序列。

在本提案的技术方案中，可以采用一个以Transformer编码器作为特征提取器的神经网络。其中，Input层：分词之后得到的字符串序列；Word embedding层：基于公开的谷歌word2vec模型原理，目的是将离散数据转化到一个稠密向量空间，以便后续网络处理；Transformer encoder stack层：基于公开的Transformer模型原理，堆叠了多个相同的Transformer encoder层(比如6层)，基于注意力机制，捕获文本序列中每一个词汇的上下文语义信息。；Linear层与Softmax层：将Transformer encoder stack层输出的神经网络隐状态向量矩阵，转化为概率序列；Output层：结合具体任务，将概率序列中概率最大的一项所对应的目标，作为结果。

综上所述，在本公开一些实施例的技术方案中，通过对获取到的待识别的地址文本进行分词，得到包括至少一个字符串的字符串序列，根据预先训练的地址语言模型，对所得到的字符串序列进行特征检测，以检测所述字符串序列是否存在错误特征，在所述字符串序列存在特征错误时，修正所述字符串序列存在的错误特征。由于预先训练的地址语言模型，能够充分地挖掘字符串序列中字符串蕴含的地址层级、地址关联以及地址语义等信息，故而能检测出字符串序列存在的错误特征，通过修正所述字符串序列存在的错误特征，可以得到正确的地址文本，因此，本公开一些实施例的技术方案能够提高对地址文本进行识别的准确性。

以下介绍本公开的装置实施例，可以用于执行本公开上述实施例中的地址文本识别方法。对于本公开装置实施例中未披露的细节，请参照本公开上述的地址文本识别方法的实施例。

图8示出了根据本公开的一个实施例的地址文本识别装置的框图。

参照图8所示，根据本公开的一个实施例的地址文本识别装置800，所述装置包括：获取单元801、分词单元802、检测单元803、修正单元804。

其中，获取单元801，被用于获取待识别的地址文本；分词单元802，被用于对所述待识别的地址文本进行分词，得到包括至少一个字符串的字符串序列；检测单元803，被用于根据预先训练的地址语言模型，对所述字符串序列的至少一种特征进行检测；修正单元804，被用于在所述字符串序列的至少一种特征存在错误时，通过所述地址语言模型对所述存在错误的至少一种特征进行修正，以识别出正确的地址文本。

在本公开的一些实施例中，基于前述方案，所述分词单元802配置为：获取地址词典，所述地址词典中包括地址字符串；基于所述地址词典中的地址字符串，对所述待识别的地址文本进行分词。

在本公开的一些实施例中，基于前述方案，所述装置还包括：训练单元，被用于获取全量地址的字符串集合，所述字符串集合中包括地址字符串，其中，所述字符串集合中的各个地址字符串对应有地址层级信息；基于所述各个地址字符串以及地址字符串对应的地址层级信息，构建第一训练样本；通过所述第一训练样本训练深度神经网络模型，得到所述地址语言模型。

在本公开的一些实施例中，基于前述方案，所述装置还包括：训练单元，被用于获取全量地址的字符串集合，所述字符串集合中包括地址字符串，其中，所述字符串集合中任意两个地址字符串之间对应有关系类别信息；基于所述各个地址字符串以及任意两个地址字符串之间对应的关系类别信息，构建第二训练样本；通过所述第二训练样本训练深度神经网络模型，得到所述地址语言模型。

在本公开的一些实施例中，基于前述方案，所述装置还包括：训练单元，被用于获取全量地址的字符串集合，所述字符串集合中包括地址字符串，其中，所述字符串集合中的各个地址字符串对应有相似地址字符串集合，所述相似地址字符串集合中的字符串与对应的地址字符串存在相似关系；基于所述各个地址字符串以及地址字符串对应的相似地址字符串集合，构建第三训练样本；通过所述第三训练样本训练深度神经网络模型，得到所述地址语言模型。

在本公开的一些实施例中，基于前述方案，所述装置还包括：训练单元，被用于获取全量地址的字符串集合，所述字符串集合中包括地址字符串，其中，所述字符串集合中的各个地址字符串对应有所属的一个或者多个标准字符串组；基于所述各个地址字符串以及各个地址字符串所属的一个或者多个标准字符串组，构建第四训练样本；通过所述第四训练样本训练深度神经网络模型，得到所述地址语言模型。

在本公开的一些实施例中，基于前述方案，所述修正单元804配置为：在所述字符串序列中的字符串对应的层级顺序错误时，调整所述字符串序列中字符串的位置，使得所述字符串序列中字符串对应的层级顺序为升序顺序或者降序顺序；在所述字符串序列中相邻字符串之间的关系类别存在错误时，修改所述关系类别存在错误的相邻字符串中的字符串，使得所述字符串序列中相邻字符串之间的关系类别为从属关系；在所述字符串序列中存在相似地址字符串时，将所述相似地址字符串修改为对应的地址字符串；在所述字符串序列中存在缺失的字符串时，补充缺失的字符串，使得所述字符串序列中的字符串组为标准字符串组。

应当注意，尽管在上文详细描述中提及了地址文本识别方法以及地址文本识别装置的若干单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

作为另一方面，本公开还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

参考图9所示，描述了根据本公开的实施方式的用于实现上述方法的程序产品900，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

作为另一方面，本公开还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图10来描述根据本公开的这种实施方式的电子设备1000。图10显示的电子设备1000仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于：上述至少一个处理单元1010、上述至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1010执行，使得所述处理单元1010执行本说明书上述“实施例方法”部分中描述的根据本公开各种示例性实施方式的步骤。

存储单元1020可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)1021和/或高速缓存存储单元1022，还可以进一步包括只读存储单元(ROM)1023。

存储单元1020还可以包括具有一组(至少一个)程序模块1025的程序/实用工具1024，这样的程序模块1025包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1030可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1000也可以与一个或多个外部设备1200(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1000交互的设备通信，和/或与使得该电子设备1000能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1050进行。并且，电子设备1000还可以通过网络适配器1060与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1060通过总线1030与电子设备1000的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1000使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种地址文本识别方法，其特征在于，所述方法包括：

获取待识别的地址文本；

对所述待识别的地址文本进行分词，得到包括至少一个字符串的字符串序列；

根据通过多种训练样本预先训练的地址语言模型，对所述字符串序列的至少一种特征进行检测，以确定所述特征是否存在错误；

在所述字符串序列的至少一种特征存在错误时，通过所述地址语言模型对所述存在错误的至少一种特征进行修正，以识别出正确的地址文本，具体包括如下至少一种：

当所述字符串序列中的字符串排序错误时，根据所述字符串所对应的层级，重新排列所述字符串序列中的字符串顺序来对所述字符串排序错误进行修正；

当所述字符串序列中相邻字符串之间关联特征错误时，重新调整所述字符串序列中相邻字符串之间的位置，使得所述字符串序列中相邻字符串之间为从属关系，进而对所述字符串序列中相邻字符串之间关联特征错误进行修正；

在所述字符串序列中存在相似地址字符串，且当所述字符串序列中字符串的地址标识特征错误时，将地址字符串修改为其所对应的相似地址字符串，来对所述字符串序列中字符串的地址标识特征错误进行修正；

当所述字符串序列中存在缺失的字符串时，补充缺失的字符串，使得所述字符串序列中的字符串组为标准字符串组。

2.根据权利要求1所述的方法，其特征在于，所述对所述待识别的地址文本进行分词，包括；

获取地址词典，所述地址词典中包括地址字符串；

基于所述地址词典中的地址字符串，对所述待识别的地址文本进行分词。

3.根据权利要求1所述的方法，所述地址语言模型通过如下方式获得：

获取全量地址的字符串集合，所述字符串集合中包括地址字符串，其中，所述字符串集合中的各个地址字符串对应有地址层级信息；

基于所述各个地址字符串以及地址字符串对应的地址层级信息，构建第一训练样本；

通过所述第一训练样本训练深度神经网络模型，得到所述地址语言模型。

4.根据权利要求1所述的方法，所述地址语言模型通过如下方式获得：

获取全量地址的字符串集合，所述字符串集合中包括地址字符串，其中，所述字符串集合中任意两个地址字符串之间对应有关系类别信息；

基于各个地址字符串以及任意两个地址字符串之间对应的关系类别信息，构建第二训练样本；

通过所述第二训练样本训练深度神经网络模型，得到所述地址语言模型。

5.根据权利要求1所述的方法，所述地址语言模型通过如下方式获得：

获取全量地址的字符串集合，所述字符串集合中包括地址字符串，其中，所述字符串集合中的各个地址字符串对应有相似地址字符串集合，所述相似地址字符串集合中的字符串与对应的地址字符串存在相似关系；

基于所述各个地址字符串以及地址字符串对应的相似地址字符串集合，构建第三训练样本；

通过所述第三训练样本训练深度神经网络模型，得到所述地址语言模型。

6.根据权利要求1所述的方法，所述地址语言模型通过如下方式获得：

获取全量地址的字符串集合，所述字符串集合中包括地址字符串，其中，所述字符串集合中的各个地址字符串对应有所属的一个或者多个标准字符串组；

基于所述各个地址字符串以及各个地址字符串所属的一个或者多个标准字符串组，构建第四训练样本；

通过所述第四训练样本训练深度神经网络模型，得到所述地址语言模型。

7.一种地址文本识别装置，其特征在于，所述装置包括：

获取单元，被用于获取待识别的地址文本；

分词单元，被用于对所述待识别的地址文本进行分词，得到包括至少一个字符串的字符串序列；

检测单元，被用于根据通过多种训练样本预先训练的地址语言模型，对所述字符串序列的至少一种特征进行检测，以确定所述特征是否存在错误；

修正单元，被用于在所述字符串序列的至少一种特征存在错误时，通过所述地址语言模型对所述存在错误的至少一种特征进行修正，以识别出正确的地址文本具体包括如下至少一种：

8.一种计算机可读程序介质，其特征在于，其存储有计算机程序指令，当所述计算机程序指令被计算机执行时，使计算机执行根据权利要求1至6中任一项所述的方法。

9.一种地址文本识别电子设备，其特征在于，所述电子设备包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如权利要求1至6任一项所述的方法。