CN109299469A

CN109299469A - 一种在长文本中识别复杂住址的方法

Info

Publication number: CN109299469A
Application number: CN201811266619.1A
Authority: CN
Inventors: 韩伟力; 贾昊阳; 盛毅敏; 王晓阳
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2019-02-01
Anticipated expiration: 2038-10-29
Also published as: CN109299469B

Abstract

本发明属于数据识别技术领域，具体为一种在长文本中识别复杂住址的方法。本发明包括：采用双数组Trie树构建全国小区名的词典；以基于感知机的中文分词和词性标注模型对长文本数据进行分词与标注；利用分词和词性标注结果，生成粗分词网；进行小区名匹配，更新词网，然后采用最长模式匹配，在长文本中匹配出最长的地址信息，并更新词网；通过维特比算法对词网进行最优路径求解，得到对长文本的最优分词与识别结果，其中包括需要进行上下文分析的完整复杂住址；通过对地址信息的上下文进行正面和负面特征词的分析，最终确定检测结果是否确实为家庭住址信息。本发明可以从大量冗长文本中识别出完整的复杂住址，在隐私检测的过程中减少公共地址数据的干扰，更准确地定位到隐私信息。

Description

一种在长文本中识别复杂住址的方法

技术领域

本发明属于数据识别技术领域，具体涉及一种基于自然语言处理和规则匹配的在长文本中识别复杂住址的方法。

背景技术

在互联网的公开环境中，存在很多的个人隐私数据，这其中可能包括公民的家庭地址信息，这些数据以用户无意间的操作或是他人恶意的泄露而暴露在公开的网络中，对公民个人的隐私，人身安全、财产安全都带来了一定的隐患。为了减少家庭地址在网络中的出现，及时发现隐私信息并做出保护措施，需要一种在长文本中识别完整复杂住址的工具，该工具可以将文本中的地址从粗粒度的市、区到细粒度的门牌号完整标记出来；除此之外，该工具应当判断标记的地址是否为隐私地址，以减少误报的情况。

目前常见的中文地址匹配方法主要包含以下几种：正则表达式匹配、中文分词与命名实体识别、基于词典的匹配，但上述方法存在若干问题。正则表达式匹配算法依靠地址层级关系匹配“市”、“区”、“路”、“号”等关键字，它可以匹配到所有包含关键字且存在层级关系的地址，但同时它也会匹配到很多无关数据，这些数据包含上述关键词，但是与地址并没有关系，因此其准确率受到很大影响；命名实体识别属于自然语言处理的范畴，现有的命名实体识别模型能够识别的地址长度主要依赖于它使用的词典，且它只能识别出简单的地址，例如北京市、朝阳区等，而对于包含多个层级以及数字编号的复杂住址，命名实体识别并不能完整地标记出它，这个问题同样出现在基于词典的匹配上，理想情况下，一个包含所有家庭住址的词典将会解决这个问题。

当前存在很多解决复杂住址识别问题的模型，但是这些模型属于地理信息领域，用于辅助地图软件更好地识别人工输入的地址信息，从而精确定位经纬度；这些模型的输入为一个不固定格式的地址字符串，而对于本发明提到的在长文本中进行地址识别的问题，则不能够发挥作用。除此之外，本发明的重点在于识别隐私地址，即在识别完整复杂住址的基础上完成公民家庭住址的判别，目前对于隐私地址的定义与识别方法并没有成熟的研究成果或产品发表。

发明内容

本发明的目的是为了解决在互联网公开环境中识别隐私信息即公民家庭住址的问题，提供一种新型的在长文本中识别复杂住址的方法。

本发明提供的在长文本中识别复杂住址的方法，包括基于感知机构建的分词模型和词性标注模型，以及双数组Trie树构建的词典，最长字符串匹配算法与维特比算法等。

本发明方法支持包含长文本的数据输入，通过分词、词性标注和规则匹配完成隐私地址识别，并将结果打印出来，帮助使用者定位检测到的内容，及时做出清理、混淆等处理，保护相关公民的隐私安全。

与其他地址检测方法不同的是，本发明支持在文本中识别有复杂格式的地址，可以标记一个完整的地址字符串。除此之外，本发明使用的方法不需要考虑不同层级的地址空间要素，即省、市、区、县、街巷名等信息，不需要枚举所有可能的地址要素，而是基于自然语言处理和规则匹配的方法快速检测文本中的完整地址，且本发明识别出的地址有很大概率为隐私地址，需要对其进行保护处理。

本发明提供的在长文本中识别复杂住址的方法，分为六个步骤：

步骤一、构建小区名词典

假设需要检测的隐私地址必须为住址，而住址中多出现小区名，因此本方法收集了国内所有县级市及以上级别地区的小区名及对应地址，小区名的完整性和覆盖率直接影响了最终检测结果的精确率和召回率；采用双数组Trie树构建小区名词典，有效提高了空间利用率和匹配效率。

步骤二、中文分词与词性标注

基于感知机构造中文分词和词性标注模型，对输入的长文本进行基本处理，其中分词和词性标注的准确性来源于训练语料库的大小，本发明中使用的语料库大小为1亿字。

步骤三、构建词网

构建粗分词网，用于记录识别过程中的所有中间结果，初始构建时其中包含基础的分词和词性标注结果，通过后续的字典匹配和实体识别等步骤，词网中的内容将被更新，从而成为具有更详细信息的细分词网。

步骤四、规则匹配

利用基于双数组Trie树的AC匹配算法，在已完成分词与词性标注的长文本中匹配小区名，并基于其结果来匹配规则列表中最长的地址格式，将匹配到的最长字符串标记为复杂住址，更新词网信息，得到细分词网；

在上述步骤中，匹配的规则来源于对互联网公开数据集的处理与统计，其分为如下子步骤：

(1)在互联网公开的微博数据中，采用正则匹配方法粗略获取3万条疑似地址文本，采用人工筛选的方法获取有效地址数据6000条；

(2)采用感知机模型对地址进行分词和词性标注，然后，基于小区名词典对匹配到的小区名进行标注的替换；

(3)统计所有精确到门户的地址格式，即词性标注的组合模式，共计约200条，作为用于匹配长文本中地址的规则列表。规则列表的内容可以根据具体情况进行添加或删减操作，以满足不同环境下对地址准确度和召回率的要求。

步骤五、维特比求最优路径

利用更新后的细分词网，经过一次维特比算法，计算得到一条最优路径，即长文本的最优分词和识别结果，其中包含复杂住址标签的就是最终的疑似住址。

步骤六、上下文分析

对疑似住址的上下文进行文本分析，通过匹配正面和负面特征词的方法，最终判断提取的字符串是否为真正的隐私住址信息。

具体来说，采用固定大小的窗口对地址的上下文进行特征词提取。当上下文中包含“住在”、“家”、“居住”等正面特征词时，疑似住址有很大概率为真实隐私信息；当上下文中包含“工作”、“公司”、“咨询”等词时，则疑似住址有很大概率并非真正的隐私信息。对其是否是隐私的判断主要基于对现有包含隐私地址数据集的检测和对关键词的统计。

技术效果

本发明提出的方案是高效的，通过采用双数组Trie树进行字典树构建和最长子串匹配，提高了空间利用率，降低了时间消耗。

本发明提出的方案识别出的地址有高精确度，一方面是它基于小区名的词典进行匹配，可以保证检测到的字符串中一定包含小区地址，另一方面是它基于统计到的地址常见模式，符合该模式的字符串一定是地址而非其他无关信息。

本发明提出的方案是易于实现的，理想情况下可以使用任意一种编程语言完成。其主要技术难点在于双数组Trie树的构建和使用，在拥有较准确的中文分词和词性标注模型的前提下，应用本发明提出的方法能够快速构造出识别完整复杂住址的算法，从而进一步依靠上下文信息对其是否为隐私进行判定。

本发明不对输入的文本格式进行任何规定，它可以是任意长度，任意段落或文章的字符串，匹配到的地址信息将被加入到指定列表中进行存储，以便使用者进行各种方式的处理，对使用该工具的平台没有特殊要求，因此有较强的易用性。

本发明所设计的复杂住址识别方法可以用于数据脱敏和数据匿名化，防止个人隐私信息泄露，降低企业数据隐私级别和维护成本，可应用于医疗研究中的病历脱敏、用户发布信息时的内容扫描，数据交易时合法性分析等多个领域，具有良好的应用前景和发展前景。

附图说明

图1为识别复杂住址方法的整体流程图。

图2为小区名节选。

图3为识别效果图。

具体实施方式

下面对本发明的实施例作详细说明，给出详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

在本发明实施例中，识别住址方法的整体流程图如图1所示，这里以“我的家庭地址是xx市xx路1号xx小区1号楼102室”为例，其中的地名和小区名以“xx”代替。首先系统使用基于感知机模型在1亿字大小的语料库上训练完成的分词模型和词性标注模型，对待检测目标进行分词与词性标注；利用分词和词性标注的结果,生成粗分词网(如下所示),粗分词网中，除头结点和尾节点为空外,其余节点均通过计算分词结果的offset(偏移值)得到；

然后系统利用小区名称的字典树对其中出现的小区名进行匹配，并对其词性进行特殊标记(图中横线加粗标注指示xx小区从一个名词“n”变成了小区名“nsc”)；此时将匹配的小区，存入词网，更新后得到细分词网(如下所示)；

可以看到，序号16的位置已经存储了两个单词，一个是xx，另一个是xx小区，不难看出，词网已经得到了更新；将词性映射到角色表后，基于双数组Trie树的最长字符串匹配算法，系统匹配到了如图“AACDQCDCE”的最长规则，该规则来自公开地址数据统计获得的规则列表；再次更新得到如下细分词网：

当系统完成匹配后，将识别到的字符串进行特殊标注(如图1中添加了“<ADDR></ADDR>”的标记)，并基于当前标记字符串的上下文进行特征词查询，在当前的示例中，上文匹配到了“家庭地址”的关键词，因此识别到的地址有极大可能性是隐私住址。

中文分词与词性标注

基于感知机构建的中文分词与词性标注模型，其复杂度比隐式马尔科夫模型和条件随机场相比更为简单，且在应用多线程进行训练和识别时，效率是所有“由字构词”的分词器中最快的。其准确性主要依赖于训练语料库的规模，本发明中应用的模型训练在有9970万字的大型综合语料库上，在分词和词性标注的准确性上有较好的保障。

小区名收集

本发明的小区名来源于“图吧”网站(http://poi.mapbar.com/)，它提供了国内县级市及以上地区的小区名及其地址信息。通过编写爬虫软件，最终获取小区名信息共50多万条，经过去重和去除无效数据的操作后，得到的有效数据约43万条。图2展示了获取的小区名信息节选，按照字典序排列，以便快速构建字典树。字典树的构建应用了双数组Trie树，它可以有效节省构造空间，降低匹配时的时间消耗。

识别效果

图3展示了具体实验时的识别效果，为了保证隐私性，图中的地址为现实中不存在的虚构地址，但小区名为词典中包含的内容。本发明提供的方法在一个完整的句子中识别出了两个复杂地名，其中第一条复杂地名因为包含小区名，因此有很大可能性是隐私地址，在图中用下划线加粗标注其匹配的格式；对于第二条复杂地名，因为其中不包含小区名信息，所以并没有被标记为疑似隐私地址，但通过在小区词典中添加“蔡伦路101号”可以改善识别结果。图3同样展示了一些常见的地址格式规则，通过修改规则，增加或删除小区名词典内容，都可以对实验结果的查全率和查准率造成影响。理想情况下，小区名词典最完备时，可以达到高查全率；同时，规则数量越多，查全率越高，但同时引入的干扰也越多(例如有些规则在6000条地址中只出现了一次，没有代表性)，造成误报从而降低准确性。因此在使用本发明的方法时对规则的选择需要进行权衡。

Claims

1. 一种在长文本中识别复杂住址的方法，其特征在于，具体步骤如下：

步骤一、构建小区名词典

收集国内所有县级市及以上级别地区的小区名及对应地址；采用双数组Trie树构建小区名词典；

步骤二、中文分词与词性标注

采用感知机构造中文分词和词性标注模型，对输入的长文本进行基本处理，其中分词和词性标注的准确性来源于训练语料库的大小，使用的语料库大小为1亿字；

步骤三、构建词网

构建粗分词网，用于记录识别过程中的所有中间结果，初始构建时其中包含基础的分词和词性标注结果，通过后续的字典匹配和实体识别等步骤，更新词网中的内容，从而成为具有更详细信息的细分词网；

步骤四、规则匹配

利用基于双数组Trie树的AC匹配算法，在已完成分词与词性标注的长文本中匹配小区名，并根据其结果来匹配规则列表中最长的地址格式，将匹配到的最长字符串标记为复杂住址，更新词网信息，得到细分词网；

步骤五、维特比求最优路径

利用更新后的细分词网，经过一次维特比算法求解，得到一条最优路径，即长文本的最优分词和识别结果，其中包含复杂住址标签的就是最终的疑似住址；

步骤六、上下文分析

2.根据权利要求1所述的在长文本中识别复杂住址的方法，其特征在于，在步骤四中，匹配的规则来源于对互联网公开数据集的处理与统计，分为如下子步骤：

（1）在互联网公开的微博数据中，采用正则匹配方法粗略获取3万条疑似地址文本，采用人工筛选的方法获取有效地址数据6000条；

（2）采用感知机模型对地址进行分词和词性标注，然后，基于小区名词典对匹配到的小区名进行标注的替换；

（3）统计所有精确到门户的地址格式，即词性标注的组合模式，共计约200条，作为用于匹配长文本中地址的规则列表；规则列表的内容根据具体情况进行添加或删减操作，以满足不同环境下对地址准确度和召回率的要求。

3.根据权利要求1所述的在长文本中识别复杂住址的方法，其特征在于，步骤六中，上下文分析的流程为：

采用固定大小的窗口对地址的上下文进行特征词提取；当上下文中包含“住在”、“家”、“居住”这些正面特征词时，疑似住址有很大概率为真实隐私信息；当上下文中包含“工作”、“公司”、“咨询”这些词时，则疑似住址有很大概率并非真正的隐私信息；对其是否是隐私的判断主要基于对现有包含隐私地址数据集的检测和对关键词的统计。