CN113343670B

CN113343670B - 基于隐马尔可夫与分类算法耦合的地址文本要素提取方法

Info

Publication number: CN113343670B
Application number: CN202110576414.9A
Authority: CN
Inventors: 李锐; 刘朝辉
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2023-07-28
Anticipated expiration: 2041-05-26
Also published as: CN113343670A

Abstract

本申请属于地理智能技术领域，涉及了一种地址文本中要素信息提取方法。包括以下步骤：S1、对地址文本分词后词序列预定义隐藏状态和观察状态，构建隐马尔可夫模型；S2、基于观察状态构造观察特征，训练观测特征对隐藏状态的多分类模型；S3、动态地将分类模型对隐藏状态的预测概率向量按列拼接为观测概率矩阵，替换隐马尔可夫中的静态观测概率矩阵，构建耦合模型。该方法在保留了隐马尔可夫序列建模能力的同时，通过融合多维度观测特征的分类算法加强了观测状态对隐藏状态指示能力的建模，不仅可用于将自发地理信息领域不规范地址文本数据映射为结构化地址要素信息，对于隐马尔可夫适用的其他序列状态建模场景具有普适的借鉴意义。

Description

基于隐马尔可夫与分类算法耦合的地址文本要素提取方法

技术领域

本申请属于地理智能技术领域，设计了一种地址文本中地址要素的提取方法，具体涉及一种基于隐马尔可夫与分类算法耦合的地址文本要素提取方法。

背景技术

随着Web技术和自发地理信息(Volunteered Geographic Information，简称VGI)的发展，诸如OpenStreetMap、用户打卡记录等由用户通过移动互联网设备自发地贡献的地理空间信息，成为地理信息科学领域越来越重要的数据来源。其中非结构化的地理文本信息是其中一类重要的数据类型，将这些非结构化的文本数据映射为结果化的地理信息，已经成为地理信息系统领域重要的研究方向。

VGI中提供的地址文本数据，由于来自于众多用户自发创建，往往有着数据量巨大且数据不规范的特点，严重限制了数据的使用价值。因此，研发从地址文本中自动化解析行政区域名称、街道门牌号、POI名称、楼栋号等地址要素提取算法，对减少人工操作的依赖，更好发挥VGI地址文本价值有着至关重要的作用。地址要素提取方法依赖于中文分词方法，主要可以分为基于规则的提取方法、基于统计的提取方法、基于理解的提取方法三种，其中隐马尔可夫模型是一种较为可靠的统计方法，具有识别效率高、相对准确度高且易于训练等优点，但传统的隐马尔可夫模型需要完备地定义观察序列状态，存在单一观察序列约束，致使其虽然序列建模能力较强，但语义特征表达能力较弱。本发明针对这一问题，提出了一种隐马尔可夫与分类算法耦合的地址文本中地址要素提取方法，在保留隐马尔可夫序列规律建模能力的同时，通过耦合分类算法提升对地址文本语义特征建模的能力。

发明内容

针对隐马尔可夫模型存在单一观察序列约束，对地址文本语义特征建模能力较弱这一问题，本发明提供了一种隐马尔可夫与分类算法耦合的地址文本中地址要素提取方法，可较为准确地从地址文本中自动化提取地址要素。

本发明采用的技术方案为：基于隐马尔可夫与分类算法耦合的地址文本要素提取方法，包括以下步骤：

步骤S1，根据提取需求，预定义隐藏状态；

步骤S2，收集一定地址文本数据，进行数据预处理和标注，提取观察状态序列和隐藏状态序列，构造训练数据集；

步骤S3，基于S2中构建的训练数据集，提取词性、词义、词长、词序多个维度的特征，构建每个分词结果对应的特征向量，以特征向量作为输入，分词结果对应的隐藏状态作为类别标签，训练多分类模型；

步骤S4，使用S2训练数据集中的隐藏状态序列，基于极大似然原理估算初始概率向量和隐藏状态转移矩阵；

步骤S5，构建隐马尔可夫和分类算法耦合模型，将多分类模型作为观察概率矩阵的动态生成器，与S4中得到初始概率向量和隐藏状态转移概率矩阵耦合，完成耦合模型建模；

步骤S6，利用初始状态概率向量、隐藏状态转移概率矩阵和动态生成的观察概率矩阵，求解输入词序列对应的最优隐藏状态序列；

步骤S7，地址要素的识别。

进一步的，步骤S1中隐藏状态根据地址要素的提取需求进行定义，将隐藏状态设置为要提取地址要素的开头部分、中间部分、结尾部分、前置部分、后置部分、无关部分。

进一步的，步骤S2中观察状态序列提取方式为，对地址文本数据进行分词，每个分词结果作为一个观察状态，将所有观察状态按照文本顺序关联到一块，则可获得观察状态序列；

隐藏状态序列提取方式为，对于观察状态序列中的每个节点，对照步骤S1中预定义的隐藏状态人工进行隐藏状态标注，得到观察状态序列对应的隐藏状态序列。

进一步的，步骤S3中，对于词性特征，可基于训练数据集计算每种词性对应各隐藏类别的类别概率向量，多种词性对应的类别概率向量形成词性特征矩阵；对于词义特征，可基于训练数据集计算每个分词结果对应各隐藏类别的tf-idf权重向量，所有分词结果对应的tf-idf权重向量组成词性特征矩阵；同时，词长即为每个分词结果对应的字符长度，词序为该分词结果对应观察状态序列中的位序。

进一步的，步骤S5中观察概率矩阵的动态生成器的使用方式如下；

将地址文本分词后的每个分词结果作为观察状态，构造观察特征向量，输入到S3构建的多分类模型，输出对于每个隐藏状态的类别概率向量，按照观察状态序列顺序，将类别概率向量按列拼接，动态生成观察概率矩阵。

进一步的，步骤S7中地址要素的识别的具体实现方式如下；

在模型预测得到的隐藏状态序列，分别寻找地址要素开头部分、结尾部分这两种隐藏状态，如果同时存在这两种隐藏状态，将词序列中这两种隐藏状态对应分词结果及其之间的部分按照词序列顺序拼接，即可得到该地址要素的完整信息；若在隐藏状态序列中仅存在地址要素开头部分这一种隐藏状态，则词序列中该隐藏状态对应的分词结果即为识别结果。

本发明还提供一种设备，所述设备包括：存储器、处理器以及存储在所述存储器上并在所述处理器上的地址文本要素提取程序，所述地址文本要素提取程序被所述处理器执行时实现上述技术方案所述的地址文本要素提取方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有地址文本要素提取程序，所述地址文本要素提取程序被处理器执行上述技术方案所述的地址文本要素提取方法的步骤。

本发明技术方法带来的有益效果：利用多分类算法辅助隐马尔可夫模型对地址要素组成状态进行预测，在保留了隐马尔可夫对序列建模能力的同时，通过多维度观测特征和多分类算法加强了观测状态对隐藏状态指示能力的建模，增强了隐马尔克夫模型对序列数据的状态预测能力。该方法不仅可用于自发地理信息领域中用户上传的不规范地址字符串数据映射为结构化的地址要素信息，同时对于隐马尔克夫模型适用的序列状态建模场景都具有普适的借鉴意义。

附图说明

图1为技术方案图。

图2为建模流程图。详细说明了从数据预处理与标注、提取方法建模到识别结果输出的整个方法建模过程。

具体实施方式

下面结合附图并举实施例，对本发明的技术方案和详细建模流程进行说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本申请提供的技术方案主要包括数据预处理与标注、提取方法建模、方法评价与优化三个模块的内容。

其中数据预处理与标注模块主要是对数据进行分词处理，根据提取需求，对分词后数据进行状态标注，从数据中提取观察状态序列和隐藏状态序列，为后续建模提供数据准备。提取方法建模部分，则根据预先提出的数据，完成算法训练，得到地址要素提取模型。方法评价与优化模块主要从隐藏状态标签预测精度和地址要素提取精度两个方面对算法提取结果进行评价，并根据评价结果，从数据增强、特征筛选、分类算法优化等几个方面对耦合模型的效果进行优化。

下面将结合实例对提取方法的详细建模流程进行说明。

假定场景：当前我们需要从VGI用户手动输入地址文本中自动化提取POI名称、地址门牌号、楼栋号三类信息，地址文本实例：“湖北省武汉市珞喻路129号武汉大学信息学部2号教学楼325机房”。依据图2所示流程，提取流程如下：

S1.根据提取需求，预定义隐藏状态。根据假定场景，需要提取POI名称、地址门牌号、楼栋号这三类信息地址要素信息，则可将隐藏状态定义为POI开头部分、中间部分、结尾部分，地址门牌号开头部分、中间部分、结尾部分，楼栋号开头部分、中间部分、结尾部分，同时为了对序列规律和文本语义特征进行更精细化建模，我们可以进一步扩展隐藏状态，增加地址无关、地址前置部分、地址后置部分，共定义12种隐藏状态。

用两位字母表示每种隐藏状态，第一位字母表示地址表示属于哪一类地址要素，取值为s(street)，表示街道门牌号，p(POI)表示POI，b(building)表示楼栋号，a(address)表示全部要提取的地址要素信息，第二位字母表示位于地址要素的哪个位置，s(start)表示位于地址要素的开头，m(middle)表示位于地址要素的中间，e(end)表示位于地址要素的结尾，a(after)表示位于地址要素的之后，b(before)表示位于地址要素之前。则12种隐藏状态可表示为：

ps:POI开头部分；pm:POI中间部分；pe:POI结尾部分；ss:街道门牌号开头部分；sm:街道门牌号中间部分；se:街道门牌号结尾部分；bs:建筑物开头部分；bm:建筑物中间部分；be:建筑物结尾部分；ab:地址信息前置部分；aa:地址信息后置部分；ot:地址信息无关部分

S2.收集一定地址文本数据，进行数据预处理和标注，提取观察状态序列和隐藏状态序列，构造训练数据集。

观察状态序列提取：对地址文本数据进行分词，每个分词结果作为一个观察状态，将所有观察状态按照文本顺序关联到一块，则可获得观察序列。例如对“湖北省武汉市珞喻路129号武汉大学信息学部2号教学楼325机房”分词，利用开源分词工具分词可得到分词结果“湖北省武汉市珞喻路129号武汉大学信息学部2号教学楼325机房”，则观察状态序列为[“湖北省”，“武汉市”，“珞”，“喻路”，“129”，“号”，“武汉大学”，“信息学部”，“2”，“号”，“教学楼”，“325”，“机”，“房”]。

隐藏状态序列提取：对于观察序列中的每个节点，对照S1中预定义的12种隐藏状态人工进行隐藏状态标注，例如“珞”属于街道门牌号的开头部分，则可将其隐藏状态标注为ss,依次类推，可以得到上述观察状态对应的隐藏状态序列：[ot,ab,ss,sm,sm,se,ps,pe,bs,bm,be,aa,ot,ot]

S3.特征工程及分类模型训练。基于S2中构建的训练数据，提取词性、词义、词长、词序等多个维度的特征，构建每个分词结果对应的特征向量，以特征向量作为输入，分词结果对应的隐藏状态作为类别标签，训练多分类模型。

可选地，词性、词义、词长、词序等多个维度的特征提取方式：对于词性特征，可基于训练集计算每种词性对应各隐藏类别的类别概率向量，多种词性对应的类别概率向量形成词性特征矩阵。对于词义特征，可基于训练集计算每个分词结果对应各隐藏类别的tf-idf权重向量，所有分词结果对应的tf-idf权重向量组成词性特征矩阵。同时，词长即为每个分词结果对应的字符长度，词序为该分词结果对应观察状态序列中的位序。

S4.隐马尔可夫模型训练。基于S2训练集中的隐藏状态序列，基于极大似然原理估算初始概率向量Π和隐藏状态转移矩阵A。

S5.构建隐马尔可夫和分类算法耦合模型。将多分类模型作为观察概率矩阵的动态生成器，与S4中得到初始概率向量和隐藏状态转移概率矩阵耦合，完成耦合模型建模，观察概率矩阵的动态生成器的使用方式如下：

以地址分词后结果[“湖北省”，“武汉市”，“珞”，“喻路”，“129”，“号”，“武汉大学”，“信息学部”，“2”，“号”，“教学楼”，“325”，“机”，“房”]为例，将每个分词按照分词顺序依次输入到S3中训练好的多分类模型中，输出该分词属于S1中预定义好的12种隐藏状态中每种隐藏状态的概率，即可得到概率向量p(i)，将p(i)按列拼接，即可生成如下观察概率矩阵：

[p(1),p(2),…,p(i),…,p(14)]

这里地址分词后有14个分词结果，因此观察概率矩阵有14列。每个待识别地址元素的地址都可按照如上方式，动态生成属于该地址的观察概率矩阵B。结合S4中得到的初始概率向量Π和隐藏状态转移矩阵A，则得到耦合模型：

M＝(A，B,Π)

S6.维特比算法对耦合模型的最优序列进行求解。利用初始状态概率向量、隐藏状态转移概率矩阵和动态生成的观察概率矩阵，求解输入词序列对应的最优隐藏状态序列。

S7.地址要素的识别方法。在模型预测得到的隐藏状态序列，分别寻找地址要素开头部分、结尾部分这两种隐藏状态，如果同时存在这两种隐藏状态，将词序列中这两种隐藏状态对应分词结果及其之间的部分按照词序列顺序拼接，即可得到该地址要素的完整信息。若在隐藏状态序列中仅存在地址要素开头部分这一种隐藏状态，则词序列中该隐藏状态对应的分词结果即为识别结果。

举例说明：例如对于观察序列[“湖北省”，“武汉市”，“珞”，“喻路”，“129”，“号”，“武汉大学”，“信息学部”，“二”，“号”，“教学楼”，“325”，“机”，“房”]，基于耦合模型经维特比算法求解，得到的最优隐藏状态序列为[ot,ab,ss,sm,sm,se,ps,pe,bs,bm,be,aa,ot,ot]，若识别街道门牌号要素，则在隐藏状态序列中寻找隐藏状态“ss”和“se”，对应序列位置分别为3和6，则将观察序列状态中位于3-6之间的部分按顺序拼接起来，即可得到完整的街道门牌号信息“珞喻路129号”。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.基于隐马尔可夫与分类算法耦合的地址文本要素提取方法，其特征在于，包括以下步骤：

步骤S1，根据提取需求，预定义隐藏状态；

步骤S7，地址要素的识别。

2.根据权利要求1所述的基于隐马尔可夫与分类算法耦合的地址文本要素提取方法，其特征在于：步骤S1中隐藏状态根据地址要素的提取需求进行定义，将隐藏状态设置为要提取地址要素的开头部分、中间部分、结尾部分、前置部分、后置部分、无关部分。

3.根据权利要求1所述的基于隐马尔可夫与分类算法耦合的地址文本要素提取方法，其特征在于：步骤S2中观察状态序列提取方式为，对地址文本数据进行分词，每个分词结果作为一个观察状态，将所有观察状态按照文本顺序关联到一块，则可获得观察状态序列；

4.根据权利要求1所述的基于隐马尔可夫与分类算法耦合的地址文本要素提取方法，其特征在于：步骤S3中，对于词性特征，可基于训练数据集计算每种词性对应各隐藏类别的类别概率向量，多种词性对应的类别概率向量形成词性特征矩阵；对于词义特征，可基于训练数据集计算每个分词结果对应各隐藏类别的tf-idf权重向量，所有分词结果对应的tf-idf权重向量组成词性特征矩阵；同时，词长即为每个分词结果对应的字符长度，词序为该分词结果对应观察状态序列中的位序。

5.根据权利要求1所述的基于隐马尔可夫与分类算法耦合的地址文本要素提取方法，其特征在于：步骤S5中观察概率矩阵的动态生成器的使用方式如下；

6.根据权利要求1所述的基于隐马尔可夫与分类算法耦合的地址文本要素提取方法，其特征在于：步骤S7中地址要素的识别的具体实现方式如下；

7.一种基于隐马尔可夫与分类算法耦合的地址文本要素提取设备，其特征在于，所述设备包括：存储器、处理器以及存储在所述存储器上并在所述处理器上的地址文本要素提取程序，所述地址文本要素提取程序被所述处理器执行时实现如权利要求1-6中任一项所述的地址文本要素提取方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有地址文本要素提取程序，所述地址文本要素提取程序被处理器执行如权利要求1-6中任一项所述的地址文本要素提取方法的步骤。