CN113537372B

CN113537372B - 一种地址识别方法、装置、设备及存储介质

Info

Publication number: CN113537372B
Application number: CN202110837807.0A
Authority: CN
Inventors: 贾全烨; 邹云峰; 单超; 范晓宣; 宋博川
Original assignee: State Grid Jiangsu Electric Power Co ltd Marketing Service Center; State Grid Corp of China SGCC; Global Energy Interconnection Research Institute
Current assignee: State Grid Jiangsu Electric Power Co ltd Marketing Service Center; State Grid Corp of China SGCC; Global Energy Interconnection Research Institute
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2024-01-23
Anticipated expiration: 2041-07-23
Also published as: CN113537372A

Abstract

本申请是关于一种地址识别方法、装置、设备及存储介质，具体涉及人工智能领域。所述方法包括：获取目标文本中各个分段文本对应的特征向量；分段文本包含至少一个单字；根据各个分段文本分别对应的特征向量，获取各个分段文本分别对应的地址类别；将至少两种地址类别分别对应的分段文本，按照地址类别进行排序并连接，获得目标文本中的地址文本。上述方案将目标文本拆分为多个部分的信息，并对各个部分都进行类别识别，当识别完成后，再根据地址类别，将与地址文本有关的分段文本组合起来，从而实现在语序规则较为自由的自然语言中，也可以准确地判断出地址文本，提高了地址文本的获取准确性。

Description

一种地址识别方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，具体涉及一种用于地址识别方法、装置、设备及存储介质。

背景技术

命名实体识别(Named Entity Recognition，NER)是NLP(Neuro-LinguisticProgramming，自然语言处理)中一项非常基础的任务。

命名实体识别技术可以应用于地址识别领域，开发人员可以将包含地址标注的样本文字对地址识别模型进行训练，当需要对某段文字中的地址进行识别时，可以通过训练好的地址识别模型，对该段文字进行处理，以获得该段文字中的地址文本。例如现有的很多软件都可以通过用户复制或输入的一段文字，识别出其中的地址文本。

上述方案中，通过上述地址识别模型对自然语言进行处理时，由于自然语言的语序较为自由，获取地址文本的准确率较低。

发明内容

本申请提供了一种地址识别方法、装置、计算机设备及存储介质，提高了地址文本的获取准确性，该技术方案如下。

一方面，提供了了一种地址识别方法，所述方法包括：

获取目标文本中各个分段文本对应的特征向量；所述分段文本包含至少一个单字；

根据所述各个分段文本分别对应的特征向量，获取所述各个分段文本分别对应的地址类别；

将至少两种地址类别分别对应的分段文本，按照地址类别进行排序并连接，获得所述目标文本中的地址文本。

又一方面，提供了一种地址识别装置，所述装置包括：

特征向量获取模块，用于获取目标文本中各个分段文本对应的特征向量；所述分段文本包含至少一个单字；

地址类别获取模块，用于根据所述各个分段文本分别对应的特征向量，获取所述各个分段文本对应的地址类别；

地址文本获取模块，用于将至少两种地址类别分别对应的分段文本，按照地址类别进行排序并连接，获得所述目标文本中的地址文本。

在一种可能的实现方式中，所述地址类别获取模块，包括：

正向提取单元，用于将所述各个分段文本分别对应的特征向量，按照所述各个分段文本在所述目标文本中的正向顺序，通过地址识别模型中的正向识别分支进行处理，获得所述各个分段文本分别对应的正向提取向量；

反向提取单元，用于将所述各个分段文本分别对应的特征向量，按照所述各个分段文本在所述目标文本中的反向顺序，通过地址识别模型中的反向识别分支进行处理，获得所述各个分段文本分别对应的反向提取向量；

地址类别获取单元，用于将所述各个分段文本分别对应的正向提取向量与反向提取向量进行拼接，并通过地址识别模型中的分类分支进行处理，获得所述各个分段文本分别对应的地址类别。

在一种可能的实现方式中，所述装置还包括：

样本文本获取模块，用于获取样本文本，以及所述样本文本中各个样本分段文本分别对应的地址类别标注；

正向样本提取模块，用于将所述各个样本分段文本分别对应的特征向量，按照各个样本分段文本在所述样本文本中的正向顺序，通过地址识别模型中的正向识别分支进行处理，获得所述各个样本分段文本分别对应的正向提取向量；

反向样本提取模块，用于将所述各个样本分段文本分别对应的特征向量，按照各个样本分段文本在所述样本文本中的反向顺序，通过地址识别模型中的反向识别分支进行处理，获得所述各个样本分段文本分别对应的反向提取向量；

预测类别获取模块，用于将各个样本分段文本分别对应的正向提取向量与反向提取向量进行拼接，并通过地址识别模型中的分类分支进行处理，获得所述各个样本分段文本对应的预测地址类别；

参数更新模块，用于基于所述各个样本分段文本对应的预测地址类别以及该各个样本分段文本对应的地址类别标注，对所述地址识别模型进行参数更新。

在一种可能的实现方式中，所述分段文本的地址类别用于指示所述分段文本的语序优先级；

所述地址文本获取模块，还用于，

根据所述至少两种地址类别的分段文本，分别按照地址类别对应的语序优先级进行排序并连接，获得所述目标文本对应的地址文本。

在一种可能的实现方式中，所述至少两种地址类别的分段文本中的位置信息和类别信息中的至少一者不相同；所述类别信息用于指示所述分段文本的语序优先级；所述位置信息用于指示所述分段文本在所述语序优先级中的所处位置；

所述地址文本获取模块，包括：

第一类别集合获取单元，用于将所述至少两种地址类别的分段文本中的，第一类别信息的分段文本，获取为所述第一类别信息集合；

第一地址文本获取单元，用于根据所述第一类别信息集合中，各个第一类别信息的分段文本，分别对应的位置信息，对所述第一类别信息集合进行排序并连接，获得第一优先级地址文本。

在一种可能的实现方式中，所述特征向量获取模块，包括：

分段文本获取单元，用于将所述目标文本中的各个单字，获取为所述目标文本中的各个分段文本；

字向量提取单元，用于对所述目标文本中的各个分段文本进行字向量提取，获得所述目标文本中各个分段文本对应的特征向量。

在一种可能的实现方式中，所述特征向量获取模块，包括：

文本分词单元，用于对所述目标文本进行分词处理，获得所述目标文本中的各个分段文本；

词向量获取模块，用于对所述目标文本中的各个分段文本进行自然语言处理，获得所述各个分段文本分别对应的特征向量。

再一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述的地址识别方法。

又一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述的地址识别方法。

再一方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质中读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机设备执行上述地址识别方法。

本申请提供的技术方案可以包括以下有益效果：

将需要识别的目标文本分割为各个分段文本进行处理，并获取各个分段文本对应的特征向量，再根据各个分段文本分别对应的特征向量，确定各个分段文本对应的地址类别，也就是说，上述方案将目标文本拆分为多个部分的信息，并对各个部分都进行类别识别，当识别完成后，再根据地址类别，将与地址文本有关的分段文本组合起来，从而获得地址类别的分段文本，从而实现在语序规则较为自由的自然语言中，也可以准确地判断出地址文本，提高了地址文本的获取准确性。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种地址识别系统的结构示意图；

图2是根据一示例性实施例示出的一种地址识别方法的方法流程图；

图3是根据一示例性实施例示出的一种地址识别方法的方法流程图；

图4示出了图3所示实施例涉及的一种地址识别模型的模型示意图；

图5示出了图3所示实施例涉及的一种地址识别模型训练流程图；

图6是根据一示例性实施例示出的一种地址识别模型的训练以及应用示意图；

图7是根据一示例性实施例示出的一种地址识别装置的结构方框图；

图8示出了本申请一示例性实施例示出的计算机设备的结构框图。

具体实施方式

下面将结合附图对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应理解，在本申请的实施例中提到的“指示”可以是直接指示，也可以是间接指示，还可以是表示具有关联关系。举例说明，A指示B，可以表示A直接指示B，例如B可以通过A获取；也可以表示A间接指示B，例如A指示C，B可以通过C获取；还可以表示A和B之间具有关联关系。

在本申请实施例的描述中，术语“对应”可表示两者之间具有直接对应或间接对应的关系，也可以表示两者之间具有关联关系，也可以是指示与被指示、配置与被配置等关系。

本申请实施例中，“预定义”可以通过在设备(例如，包括终端设备和网络设备)中预先保存相应的代码、表格或其他可用于指示相关信息的方式来实现，本申请对于其具体的实现方式不做限定。

在对本申请所示的各个实施例进行说明之前，首先对本申请涉及到的几个概念进行介绍。

1)人工智能(Artificial Intelligence，AI)

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2)机器学习(Machine Learning，ML)

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

3)循环神经网络(Recurrent Neural Network，RNN)

循环神经网络是一类以序列数据为输入，在序列的演进方向进行递归且所有节点(循环单元)按照链式连接的递归神经网络。循环神经网络具有记忆性、参数共享并且图灵完备，因此在对序列的非线性特征进行学习时具有一定优势。循环神经网络在自然语言处理，例如语音识别、语言建模、机器翻译等领域有应用。

4)自然语言处理(Natural Language Processing,NLP)

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。

图1是根据一示例性实施例示出的一种地址识别系统的结构示意图。该系统包括终端120以及服务器110。

该终端120可以用于获取目标文本。

可选的，该终端120可以将该目标文本发送至该服务器110，以便该服务器110对该目标文本进行处理。

可选的，该终端120可以获取到目标文本，并对该目标文本进行处理，获得该目标文本中的地址文本，并将该地址文本发送至该服务器110。

可选的，该目标文本可以是该终端120接受到其他计算机设备发送的文本信息，也可以是该终端120接受到用户的指定操作后生成的文本信息。

可选的，该终端120可以是多个终端，该多个终端可以是多个相同的终端，也可以是多个不同的终端。

可选的，该终端120可以是具有数据处理功能的终端设备。该终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能手表等具有数据处理功能的终端设备，但不局限于此。

可选的，该服务器110可以是独立的物理服务器，也可以是由多个物理服务器构成的服务器集群或者是分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等技术运计算服务的云服务器。

可选的，该系统还可以包括管理设备，该管理设备用于对该地址识别系统进行管理(如管理终端与服务器之间的连接状态等)，该管理设备与该服务器110之间通过通信网络相连。可选的，该通信网络是有线网络或无线网络。

可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网，但也可以是其他任何网络，包括但不限于局域网、城域网、广域网、移动、有限或无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言、可扩展标记语言等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层、传输层安全、虚拟专用网络、网际协议安全等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

图2是根据一示例性实施例示出的一种地址识别方法的方法流程图。该方法由终端或服务器执行，该终端或服务器可以是如图1中所示的终端120或服务器110。如图2所示，该地址识别方法可以包括如下步骤：

步骤201，获取目标文本中各个分段文本对应的特征向量。

其中，该分段文本包含至少一个单字。

该目标文本可以是终端获取的一段文本格式的文本信息，该目标文本由各个分段文本构成，该各个分段文本至少是一个单字。例如，当目标文本是“今天要下雨”，该各个分段文本可以分别为“今”“天”“要”“下”“雨”，且对于每一个分段文本，都存在一个特征向量与该分段文本对应。

可选的，该分段文本的特征向量可以是该根据该分段文本的文本内容构建的词向量。该词向量的构建过程可以通过word2voc，transformer等任意一种方式实现。

步骤202，根据该各个分段文本分别对应的特征向量，获取该各个分段文本分别对应的地址类别。

当获取到各个分段文本分别对应的特征向量后，可以根据该各个分段文本对应的特征向量，确定该各个分段文本对应的地址类别，以便确定该目标文本中的各个分段文本中，哪些分段文本的是地址类别的文本信息，以及各自对应的具体地址类别。

可选的，该分段文本对应的地址类别可以指示该分段文本是否属于地址文本。例如，当该分段文本对应的地址类别为“未识别”时，则可以说明该分段文本无法按照预定的地址类别进行分类，此时该分段文本对应的地址类别可以指示该分段文本不是地址文本；当该分段文本对应的地址类别为“市区”，则可以说明该分段文本对应的地址类别是“市区”，且该分段文本是地址文本。

在一种可能的方式中，根据该分段文本分别对应的特征向量，以及该分段文本的文本序列信息，通过机器学习模型进行处理后，得到与该分段文本对应的地址类别。

其中，该文本序列信息用于指示该分段文本在目标文本中的位置。

当通过机器学习模型对分段文本对应的特征向量进行处理时，还可以通过该分段文本的文本序列信息，确定与该分段文本存在指定位置关系(如相邻一个或相邻几个)的其他分段文本，并根据与该分段文本存在指定位置关系的其他分段文本，对该分段文本的特征向量进行数据处理。此时该分段文本对应的地址类别，考虑到了该分段文本与其他分段文本之间的位置关系，提高了该分段文本地址类别的判断准确性。

可选的，与该分段文本存在指定位置关系的其他分段文本，可以包括该分段文本的序列顺序前向的文本与序列顺序后向的文本中的至少一者。

例如，当该分段文本的文本序列信息指示该分段文本的序列顺序为2，则该分段文本的序列顺序前向的文本则可以是序列顺序为1的文本，该分段文本的序列后向的文本则可以是序列顺序为3的文本。

当该分段文本存在指定位置关系的其他分段文本包括该分段文本的序列顺序前向的文本时，则该分段文本的特征向量被处理时，还可以考虑到序列顺序为1的文本中的特征。当该分段文本存在指定位置关系的其他分段文本包括该分段文本的序列顺序后向的文本时，则该分段文本的特征向量被处理时，还可以考虑到序列顺序为3的文本中的特征。

步骤203，将至少两种地址类别分别对应的分段文本，按照地址类别进行排序并连接，获得该目标文本中的地址文本。

当通过计算机设备对自然语言进行理解处理时，由于人类在输入自然语言时的语序较为自由，例如“我今天要到峨眉山，在四川省”，计算机设备提取出“峨眉山”“四川省”后，若不对其进行处理，直接按语序输出为“峨眉山四川省”时，显然其表达的语序与常规自然语言的语序不同，容易被其他计算机程序认定为无法识别的地址文本。

此时，本申请实施例的一种可能的实现方式中，可以将“峨眉山”对应的分段文本识别为与“山区”有关的地址类别；而将“四川省”对应的分段文本识别为与“省、自治区、直辖市”有关的地址类别，且由于“省、自治区、直辖市”的语序要优先于“山区”的语序，因此可以将其排序为“四川省峨眉山”，显然更加符合自然语言的语序，提高了地址文本的输出准确性，也提高了其他应用程序对输出的地址文本的识别准确性。

综上所述，将需要识别的目标文本分割为各个分段文本进行处理，并获取各个分段文本对应的特征向量，再根据各个分段文本分别对应的特征向量，确定各个分段文本对应的地址类别，也就是说，上述方案将目标文本拆分为多个部分的信息，并对各个部分都进行类别识别，当识别完成后，再根据地址类别，将与地址文本有关的分段文本组合起来，从而获得地址类别的分段文本，从而实现在语序规则较为自由的自然语言中，也可以准确地判断出地址文本，提高了地址文本的获取准确性。

图3是根据一示例性实施例示出的一种地址识别方法的方法流程图。该方法由终端或服务器执行，该终端或服务器可以是如图1中所示的终端120或服务器110。如图3所示，该地址识别方法可以包括如下步骤：

步骤301，获取目标文本中各个分段文本对应的特征向量。

在一种可能的实现方式中，将该目标文本中的各个单字，获取为该目标文本中的各个分段文本；对该目标文本中的各个分段文本进行字向量提取，获得该目标文本中各个分段文本对应的特征向量。

其中，该目标文本中的各个分段文本可以是该目标文本中的各个单字。也就是说，当获取到目标文本后，可以将该目标文本拆分为各个单字，并根据各个单字分别进行字向量提取，获得各个单字对应的特征向量。

在一种可能的实现方式中，对该目标文本进行分词处理，获得该目标文本中的各个分段文本；对该目标文本中的各个分段文本进行自然语言处理，获得该各个分段文本分别对应的特征向量。

其中，该目标文本中的各个分段文本，可以是通过分词器对目标文本进行分词处理得到的。分词器的作用是将一串字符串改为“词”的列表，例如，通过训练好的分词器，对“今天要下雨”进行分词时，可以分为“今天”“要”“下雨”三个分段文本，即通过分词器对目标文本进行处理时后得到的分段文本，分段文本中已经将语义相似的单字组合为词，再获取对应的词向量。

步骤302，将该各个分段文本分别对应的特征向量，按照该各个分段文本在该目标文本中的正向顺序，通过地址识别模型中的正向识别分支进行处理，获得该各个分段文本分别对应的正向提取向量。

可选的，该地址识别模型，可以是BiLSTM-CRF模型，即基于双向LSTM网络与CRF网络结合而成的地址识别模型。

请参考图4，其示出了本申请实施例涉及的一种地址识别模型的模型示意图。对于如图4所示的双向LSTM网络，可以将需要检测的目标文本分割为各个分段文本，并将分段文本分别输入双向LSTM网络中的正向检测分支401与反向检测分支402，正向检测分支401输出分段文本对应的正向提取向量，反向检测分支402输出分段文本的反向提取向量，再通过CRF模型对正向提取向量与反向提取向量拼接而成的向量进行处理，输出分段文本对应的地址类别。

当通过如图4所示的地址识别模型对各个分段文本进行处理时，可以按照各个分段文本在目标文本中的正向顺序，将各个分段文本逐个输入该地址识别模型中的正向识别分支进行识别。此时对于正向第N个分段文本，其通过地址识别模型进行特征处理时，受到了第N-1个分段文本识别过程中产生的参数的影响，因此通过正向识别分支处理分段文本对应的特征向量，所得到的正向提取向量中，同时存在该分段文本的特征以及该分段文本与之前被正向处理分支处理的分段文本的关系特征。

步骤303，将该各个分段文本分别对应的特征向量，按照该各个分段文本在该目标文本中的反向顺序，通过地址识别模型中的反向识别分支进行处理，获得该各个分段文本分别对应的反向提取向量。

当通过如图4所示的地址识别模型对各个分段文本进行处理时，可以按照各个分段文本在目标文本中的反向顺序，将各个分段文本逐个输入该地址识别模型中的反向识别分支进行识别。此时对于负向第N个分段文本，其通过地址识别模型进行特征处理时，收到了反向第N-1个分段文本识别过程中产生的参数的影响，因此通过反向识别分支处理分段文本对应的特征向量，所得到的反向提取向量中，同时存在该分段文本的特征以及该分段文本与之前被该反向识别分支处理的分段文本的关系特征。

步骤304，将该各个分段文本分别对应的正向提取向量与反向提取向量进行拼接，并通过地址识别模型中的分类分支进行处理，获得该各个分段文本分别对应的地址类别。

可选的，该分类分支可以是BiLSTM-CRF模型中的CRF分支。通过CRF分支，将LSTM预测获得的各个类别的分数进行处理，将得分最高的地址类别作为该分段文本的地址类别。

将各个分段文本分别对应的正向提取向量与反向提取向量进行拼接后获得的各个分段文本对应的提取向量，同时具有正向提取向量中的特征以及反向提取向量中的特征。

也就是说，拼接后得到的各个分段文本对应的特征向量中，同时考虑到了与该分段文本相邻的若干个分段文本的语义特征，以及若干个分段文本与该分段文本之间的语义关系。因此通过该正向提取向量与反向提取相邻拼接后得到的提取向量确定该分段文本的地址类别，可以充分考虑到各个分段文本之间的语义关系，提高了地址类别的识别准确度。

例如，对于“江苏省苏州市”，可以同时拆分为“江”“苏”“省”“苏”“州”“市”六个单字，六个单字可以分别作为六个分段文本，但该六个分段文本中间包含两个“苏”，即两个“苏”对应的特征向量是相同的，此时可以将“江”“苏”“省”“苏”“州”“市”六个分段文本，按正向顺序输入正向提取分支中，此时正向第一个“苏”考虑到了“江”的语义，以及“江”与“苏”之间的联系关系后，得到了“苏”对应的正向特征向量。

再将“江”“苏”“省”“苏”“州”“市”六个分段文本，按反向顺序输入反向提取分支中，此时正向第一个“苏”至少考虑到了“省”的语义，以及“省”与“苏”之间的联系关系后，得到了“苏”对应的反向特征向量。

因此正向第一个“苏”对应的正向特征向量与反向特征向量，拼接后得到的特征向量，至少包含“江”以及“省”对“苏”的影响，从而更加准确的得出“苏”对应的地址类别。

同理，对于正向第二个“苏”而言，其对应的正向特征向量与反向特征向量，拼接后得到的特征向量，至少包含“省”和“州”对“苏”的影响，从而可能得出与正向第一个“苏”不同类型的地址类别。因此，通过BiLSTM-CRF模型中的双向LSTM分支，可以提高对目标文本中语义信息的提取力度，提高了地址类别的识别准确度。

在一种可能的实现方式中，获取样本文本，以及该样本文本中各个样本分段文本分别对应的地址类别标注；

将该各个样本分段文本分别对应的特征向量，按照各个样本分段文本在该样本文本中的正向顺序，通过地址识别模型中的正向识别分支进行处理，获得该各个样本分段文本分别对应的正向提取向量；

将该各个样本分段文本分别对应的特征向量，按照各个样本分段文本在该样本文本中的反向顺序，通过地址识别模型中的反向识别分支进行处理，获得该各个样本分段文本分别对应的反向提取向量；

将各个样本分段文本分别对应的正向提取向量与反向提取向量进行拼接，并通过地址识别模型中的分类分支进行处理，获得该各个样本分段文本对应的预测地址类别；

基于该各个样本分段文本对应的预测地址类别以及该各个样本分段文本对应的地址类别标注，对该地址识别模型进行参数更新。

其中，上述地址识别模型对样本分段文本处理的过程，与地址识别模型对分段文本处理的过程类似，此处不再赘述。

请参考图5，其示出了本申请实施例涉及的一种地址识别模型训练流程图。该地址识别模型训练流程可以包括以下步骤。

步骤501，当需要对地址识别模型进行训练时，需要先对样本文本进行处理，构建出各个样本文本对应的序列标注501。序列标注是人工将语音转写文本中的实体标注出来，是模型训练的基础。在一种可能的实现方式中，可以采用BIO标注，也就是将每个元素标注为“B-X”、“I-X”或者“O”。其中，“B-X”(Begin)表示此元素所在的片段属于X类型并且此元素在此片段的开头，“I-X”(Inside)表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，“O”(Outside)表示不属于任何类型。

步骤502，在文本分布式表示中，采用词向量对词进行表示，避免传统方法中向量稀疏和高维度的问题。

步骤503，对于如图4所示的BILSTM网络(即地址识别模型)，该地址识别模型可以通过随机梯度下降算法进行训练。在训练过程中，可以将整个训练数据分成若干份进行批处理。每个批次包含若干句子作为一个列表，由批次大小参数batchsize决定。在本申请实施例中，可以设置batchsize为20，表明一个batchsize由20个句子组成。对于每个批次，首先，运行BiLSTM-CRF模型正向传递，得到了所有标签的隐向量。其次，运行BiLSTM-CRF模型的反向传递，得到所有标签的隐向量。然后，我们将正反向获得的隐向量进行拼接后计算所有标签的输出分数各个重复的LSTM模块之间参数共享。运行CRF层向前和向后传递来计算网络输出层和状态转换边的梯度，将错误从输出反向传播到输入，包括LSTM的前向和后向状态的后向传递，以便更新该地址识别模型的网络参数，包括状态转移矩阵/>以及原始的双向LSTM参数θ。

该BiLSTM-CRF模型的算法流程可以如下所示：

步骤504，当训练完成后，可以通过预先设置的验证集，对地址识别模型进行评估，当评估准确度高于阈值时，则认为该模型训练完成，当评估准确度不高于阈值时，则认为该模型的仍需继续训练，可以通过训练样本集对该地址识别模型进行再训练，直到通过验证集得到的评估准确度高于阈值。

步骤305，将至少两种地址类别分别对应的分段文本，按照地址类别进行排序并连接，获得该目标文本中的地址文本。

当各个分段文本的地址类别确定后，根据地址类别可以对各个分段文本进行排序并连接，以便将目标文本中，与地址有关的文本连接起来获取为地址文本。

在一种可能的实现方式中，该分段文本的地址类别用于指示该分段文本的语序优先级；根据该至少两种地址类别的分段文本，分别按照地址类别对应的语序优先级进行排序并连接，获得该目标文本对应的地址文本。

该分段文本的语序优先级用于指示该分段文本构成地址文本时的排列顺序。例如，至少两种地址类别的分段文本为“江苏省”“苏州市”，此时该“江苏省”对应的地址类别为“省”，“苏州市”对应的地址类别为“市”，且“省”的语序优先级高于“市”的优先级，因此将该分段文本按照地址类别进行排序并连接后得到的地址文本为“江苏省苏州市”。

在一种可能的实现方式中，该至少两种地址类别的分段文本中的位置信息和类别信息中的至少一者不相同；该类别信息用于指示该分段文本的语序优先级；该位置信息用于指示该分段文本在该语序优先级中的所处位置。

将该至少两种类别的分段文本中的，第一类别信息的分段文本，获取为该第一类别信息集合；根据该第一类别信息集合中，各个第一类别信息的分段文本，分别对应的位置信息，对该第一类别信息集合进行排序并连接，获得第一优先级地址文本。

例如，该分段文本的地址类别可以指示该分段文本的类别信息以及位置信息。当该分段文本为“苏”时，该“苏”分段文本的类别信息为“省”，该“苏”分段文本的语序信息可以是I(Inside，在中间)；此时该分段文本的地址类别可以为“I省”；当该分段文本为“江”时，该“江”分段文本的类别信息为“省”，且该“江”在“江苏省”中的位置为起始位置，因此该“江”分段文本的语序信息可以是B(begin，在起始位置)，此时该“江”分段文本的地址类别为“B省”。

图6是根据一示例性实施例示出的一种地址识别模型的训练以及应用示意图。该地址识别模型的训练及应用过程可以分别由图1所示实施例中的服务器110与终端120共同执行。即通过运算能力较强的服务器110实现地址识别模型的训练过程，并将训练完成后的地址识别模型部署至终端120，以便对目标文本进行地址识别，该地址识别模型的训练以及应用过程如下所示。

模型训练过程601，在模型训练过程中，可以将样本文本对应的特征向量分别输入地址识别模型(即双向LSTM模型)中的前向识别分支以及后向识别分支，以获得该样本文本的前向提取向量与后向提取向量。在双向LSTM模型中，拼接后的前向提取向量和后向提取向量中，可以包含与该样本文本同批次处理的其他样本文本的特征信息，通过拼接后的前向提取向量和后向提取向量得到的该样本文本的输出，是考虑了该样本文本与其他样本文本的语序信息得到的输出。

该样本文本对应的输出可以是该样本文本的地址类别，此时通过该样本文本对应的地址类别以及该样本文本对应的标注地址类别，通过损失函数可以获取该样本文本对应的损失函数值，并根据该损失函数值通过梯度下降算法进行反向传播，对该地址识别模型进行更新。

模型应用过程602，当地址识别模型训练好之后，可以将目标文本分割成各个分段文本，并将各个分段文本对应的特征向量输入该双向LSTM模型，以便该双向LSTM模型中的前向识别分支与后向识别分支分别对该各个分段文本对应的特征向量进行处理，得到该分段文本对应的地址种类。

在一种可能的实现方式中，该分段文本对应的地址种类还可以是通过CRF网络筛选后得到的。即将双向LSTM预测获得的各个类别的分数进行处理，将得分最高的地址类别作为该分段文本的地址类别。

当获取了各个分段文本的地址类别后，可以根据该各个分段文本的地址类别，通过区间合并算法，将各个分段文本合并为目标文本中的地址文本，以实现目标文本中的地址识别。

图7是根据一示例性实施例示出的一种地址识别装置的结构方框图。该地址识别装置包括：

特征向量获取模块701，用于获取目标文本中各个分段文本对应的特征向量；所述分段文本包含至少一个单字；

地址类别获取模块702，用于根据所述各个分段文本分别对应的特征向量，获取所述各个分段文本对应的地址类别；

地址文本获取模块703，用于将至少两种地址类别分别对应的分段文本，按照地址类别进行排序并连接，获得所述目标文本中的地址文本。

在一种可能的实现方式中，所述地址类别获取模块，包括：

在一种可能的实现方式中，所述装置还包括：

所述地址文本获取模块，还用于，

所述地址文本获取模块，包括：

在一种可能的实现方式中，所述特征向量获取模块，包括：

图8示出了本申请一示例性实施例示出的计算机设备800的结构框图。该计算机设备可以实现为本申请上述方案中的服务器。所述计算机设备800包括中央处理单元(Central Processing Unit，CPU)801、包括随机存取存储器(Random Access Memory，RAM)802和只读存储器(Read-Only Memory，ROM)803的系统存储器804，以及连接系统存储器804和中央处理单元801的系统总线805。所述计算机设备800还包括用于存储操作系统809、应用程序810和其他程序模块811的大容量存储设备806。

所述大容量存储设备806通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。所述大容量存储设备806及其相关联的计算机可读介质为计算机设备800提供非易失性存储。也就是说，所述大容量存储设备806可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read Only Memory，EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-OnlyMemory，EEPROM)闪存或其他固态存储其技术，CD-ROM、数字多功能光盘(DigitalVersatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备806可以统称为存储器。

根据本公开的各种实施例，所述计算机设备800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备800可以通过连接在所述系统总线805上的网络接口单元807连接到网络808，或者说，也可以使用网络接口单元807来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括至少一条计算机程序，所述至少一条计算机程序存储于存储器中，中央处理器801通过执行该至少一条计算机程序来实现上述各个实施例所示的方法中的全部或部分步骤。

在一示例性实施例中，还提供了一种计算机可读存储介质，用于存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现上述方法中的全部或部分步骤。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在一示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图2或图3任一实施例所示方法的全部或部分步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种地址识别方法，其特征在于，所述方法包括：

将至少两种地址类别分别对应的分段文本，按照地址类别进行排序并连接，获得所述目标文本中的地址文本；

根据所述各个分段文本分别对应的特征向量，获取所述各个分段文本分别对应的地址类别，包括：

将所述各个分段文本分别对应的特征向量，按照所述各个分段文本在所述目标文本中的正向顺序，通过地址识别模型中的正向识别分支进行处理，获得所述各个分段文本分别对应的正向提取向量；

将所述各个分段文本分别对应的特征向量，按照所述各个分段文本在所述目标文本中的反向顺序，通过地址识别模型中的反向识别分支进行处理，获得所述各个分段文本分别对应的反向提取向量；

将所述各个分段文本分别对应的正向提取向量与反向提取向量进行拼接，并通过地址识别模型中的分类分支进行处理，获得所述各个分段文本分别对应的地址类别。

2.根据权利要求1所述的方法，其特征在于，所述根据所述各个分段文本分别对应的特征向量，获取所述各个分段文本分别对应的地址类别之前，所述方法还包括：

获取样本文本，以及所述样本文本中各个样本分段文本分别对应的地址类别标注；

将所述各个样本分段文本分别对应的特征向量，按照各个样本分段文本在所述样本文本中的正向顺序，通过地址识别模型中的正向识别分支进行处理，获得所述各个样本分段文本分别对应的正向提取向量；

将所述各个样本分段文本分别对应的特征向量，按照各个样本分段文本在所述样本文本中的反向顺序，通过地址识别模型中的反向识别分支进行处理，获得所述各个样本分段文本分别对应的反向提取向量；

将各个样本分段文本分别对应的正向提取向量与反向提取向量进行拼接，并通过地址识别模型中的分类分支进行处理，获得所述各个样本分段文本对应的预测地址类别；

基于所述各个样本分段文本对应的预测地址类别以及该各个样本分段文本对应的地址类别标注，对所述地址识别模型进行参数更新。

3.根据权利要求1或2所述的方法，其特征在于，所述分段文本的地址类别用于指示所述分段文本的语序优先级；

所述将至少两种地址类别的分段文本，按照地址类别进行排序并连接，获得所述目标文本对应的地址文本，包括：

4.根据权利要求1或2所述的方法，其特征在于，所述至少两种地址类别的分段文本对应的位置信息和类别信息中的至少一者不相同；所述类别信息用于指示所述分段文本的语序优先级；所述位置信息用于指示所述分段文本在所述语序优先级中的所处位置；

将所述至少两种地址类别的分段文本中的，第一类别信息的分段文本，获取为所述第一类别信息集合；

根据所述第一类别信息集合中，各个第一类别信息的分段文本，分别对应的位置信息，对所述第一类别信息集合进行排序并连接，获得第一优先级地址文本。

5.根据权利要求1或2所述的方法，其特征在于，所述获取目标文本中各个分段文本对应的特征向量，包括：

将所述目标文本中的各个单字，获取为所述目标文本中的各个分段文本；

对所述目标文本中的各个分段文本进行字向量提取，获得所述目标文本中各个分段文本对应的特征向量。

6.根据权利要求1或2所述的方法，其特征在于，所述获取目标文本中各个分段文本对应的特征向量，包括：

对所述目标文本进行分词处理，获得所述目标文本中的各个分段文本；

对所述目标文本中的各个分段文本进行自然语言处理，获得所述各个分段文本分别对应的特征向量。

7.一种地址识别装置，其特征在于，所述装置包括：

地址文本获取模块，用于将至少两种地址类别分别对应的分段文本，按照地址类别进行排序并连接，获得所述目标文本中的地址文本；

所述地址类别获取模块，包括：

8.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1-6任一所述的地址识别方法。

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1-6任一所述的地址识别方法。