CN109614455B

CN109614455B - 一种基于深度学习的地理信息的自动标注方法及装置

Info

Publication number: CN109614455B
Application number: CN201811434810.2A
Authority: CN
Inventors: 凌广明; 徐武平; 穆晓峰; 徐爱萍
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-11-28
Filing date: 2018-11-28
Publication date: 2020-12-01
Anticipated expiration: 2038-11-28
Also published as: CN109614455A

Abstract

本发明提供了一种基于深度学习的地理信息的自动标注方法及装置，采用了主动学习策略。主动学习是一种根据特定的选择规则，从大量信息数据中挑选出最能够使训练模型收敛，即信息量最大最有价值的未标记数据集合作为待查询样例集的方法。通过本发明的方法可以实现快速而准确的匹配，用于筛选出质量好可靠性强的优质数据集作为备用数据集进行后续的标注工作。实现了提高标注的效率以及准确性的技术效果。

Description

一种基于深度学习的地理信息的自动标注方法及装置

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于深度学习的地理信息的自动标注方法及装置。

背景技术

随着国民经济的日益提高，尤其是电子商务行业的蓬勃发展，无论是出于社会安全考虑，还是出于商家优化管理、降低成本和提升效益考虑，对用户的地理位置信息进行精准而快捷的分析越来越受到重视。

然而，由于用户数据的急速增长，而且地理信息往往发生着日新月异的变化，尤其是收集数据的渠道受到历史原因和工作场景等因素的限制而呈现出多样性和随意性的态势，造成了用户信息存在诸多问题，主要表现在“地理信息缺乏规范性”和“错别字较为普遍”两个方面，这给精准高效的分析带来了一定的挑战。

在对用户地理信息的分析方法时，通常需要对已有的地理信息进行标注，作为分析的标准。在对地理信息进行识别分析时，需要足够的高质量的标注数据才能达到理想的效果，然而高质量的标注数据需要大量的人力成本，必定受到限制，目前，通常采用的是人工标注的方式，效率较低，且无法保证准确性。

由上可知，现有技术的方法存在效率低和准确性不高技术问题。

发明内容

有鉴于此，本发明提供了一种基于深度学习的地理信息的自动标注方法及装置，用以解决或者至少部分解决现有技术的方法存在效率低和准确性不高技术问题。

本发明第一方面提供了一种基于深度学习的地理信息的自动标注方法，包括：

步骤S1：获取原始数据集UserInfSet和专业数据集PlotSet；

步骤S2：对原始数据集UserInfSet和专业数据集PlotSet进行预处理；

步骤S3：将预处理后的专业数据集PlotSet与原始数据集UserInfSet进行匹配，从原始数据集UserInfSet中筛选出目标数据集；

步骤S4：基于预设规则对目标数据集进行排序；

步骤S5：为排序后的目标数据集设置标注参数；

步骤S6：基于设置的标注参数，合成语料库，将其作为标注结果。

在一种实施方式中，所述专业数据采用哈希表PlotsHashTable进行存储，步骤S3具体包括：

步骤S3.1：从原始数据集UserInfSet中读取一条原始数据UserInf；

步骤S3.2：将原始数据UserInf与哈希表PlotsHashTable中的专业数据进行匹配，获取原始数据UserInf中包含的小区个数PlotCount以及匹配信息MatchInf，其中，匹配信息中包括匹配的起止位置；

步骤S3.3：如果PlotCount为0，则舍弃该原始数据，转至步骤S3.1，如果PlotCount为1，则转至步骤S3.4，如果PlotCount大于1，则根据起止位置获得空间位置关系，再根据空间位置关系进行合并，并判断合并后的小区个数是否等于1，如果等于则转至步骤S3.4，否则转至步骤S3.1；

步骤S3.4：将筛选出的原始数据UserInf与匹配信息MatchInf记录于目标数据集中；

步骤S3.5：判断原始数据集UserInfSet中的数据是否读取完毕，如果读取完毕，则将步骤S3.4得到的结果作为目标数据集，否则，转至步骤S3.1，继续处理下一条数据。

在一种实施方式中，在步骤S3.3中，根据空间位置关系进行合并，具体为：

采用几何空间中的临近原则进行合并。

在一种实施方式中，在步骤S4之后，所述方法还包括：

对排序后的目标数据集根据预设标识进行分割，得到N个Excel文件，其中，N为大于1的整数；

通过人工调整的方式，对N个Excel文件进行调整，获得优质的标注数据。

在一种实施方式中，在通过人工调整的方式，对N个Excel文件进行调整，获得优质的标注数据之后，所述方法还包括：

对获得的优质的标注数据进行质量评估。

在一种实施方式中，步骤S5体包括：

通过设置标注参数，获得预设标注标准BIO。

在一种实施方式中，在步骤S6之后，所述方法还包括：

对合成的预料库进行扩展。

基于同样的发明构思，本发明第二方面提供了一种基于深度学习的地理信息的自动标注装置，包括：

获取模块，用于获取原始数据集UserInfSet和专业数据集PlotSet；

预处理模块，用于对原始数据集UserInfSet和专业数据集PlotSet进行预处理；

匹配模块，用于将预处理后的专业数据集PlotSet与原始数据集UserInfSet进行匹配，从原始数据集UserInfSet中筛选出目标数据集；

排序模块，用于基于预设规则对目标数据集进行排序；

设置模块，用于为排序后的目标数据集设置标注参数；

合成模块，用于基于设置的标注参数，合成语料库，将其作为标注结果。

在一种实施方式中，所述专业数据采用哈希表PlotsHashTable进行存储，匹配模块具体用于执行下述步骤：

步骤S3.1：从原始数据集UserInfSet中读取一条原始数据UserInf；

基于同样的发明构思，本发明第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现第一方面的所述的方法。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

在本发明提供的方法，对获取的始数据集UserInfSet和专业数据集PlotSet进行预处理；并将预处理后的专业数据集PlotSet与原始数据集UserInfSet进行匹配，从原始数据集UserInfSet中筛选出目标数据集；然后基于预设规则对目标数据集进行排序；接着为排序后的目标数据集设置标注参数；再基于设置的标注参数，合成语料库，将其作为标注结果。通过本发明的自动标注方法，可以实现快速而准确的匹配，用于筛选出质量好可靠性强的优质数据集作为备用数据集进行后续的标注工作，解决了现有技术中存在效率低和准确性不高技术问题。

进一步地，通过原始数据集中的原始数据与哈希表中的专业数据之间匹配，可以快速获得匹配信息，并筛选出目标数据集，进一步提高了效率。

进一步地，通过人工调整的方式，可以进一步完善标注数据，获得更为优质的数据集，并进行质量评估。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种基于深度学习的地理信息的自动标注方法的流程图；

图2为数据预处理的界面示意图；

图3为人工辅助标注的界面示意图；

图4为Excel辅助文件生成界面示意图；

图5为人工辅助标注的Excel文件；

图6为评估结果的示意图；

图7为图1中的方法的具体应用示意图；

图8为本发明实施例中一种基于深度学习的地理实体的自动标注装置的结构框图；

图9为本发明实施例中计算机可读存储介质的结构图。

具体实施方式

本发明提供了一种基于深度学习的地理信息的自动标注方法，采用了主动学习策略。主动学习是一种根据特定的选择规则，从大量信息数据中挑选出最能够使训练模型收敛，即信息量最大最有价值的未标记数据集合作为待查询样例集的方法。通过本发明的方法可以实现快速而准确的匹配，用于筛选出质量好可靠性强的优质数据集作为备用数据集进行后续的标注工作。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供了一种基于深度学习的地理信息的自动标注方法，请参见图1，该方法包括：

首先执行步骤S1：获取原始数据集UserInfSet和专业数据集PlotSet。

具体来说，原始数据集和专业数据集可以通过现有的工具进行获取或者由已有的数据库中获取。举例来说，通过爬虫从网络中获取。专业数据集为标注提供了小区信息。其中，原始数据集UserInfSet中的原始数据UserInf即表示一条用户信息，例如“韩**～138****7139～159****8976～～商城路未来路交叉口东北角首座国际5号楼1单元12层36号”，而专业数据集中的专业数据则包含小区信息，例如某地的小区名称信息，例如“首座国际”。

然后执行步骤S2：对原始数据集UserInfSet和专业数据集PlotSet进行预处理。

具体来说，由于获取的原始数据集UserInfSet存在一些重复或者有明显错误的数据，为了保证标注工作的质量，在起初阶段，有必要进行预处理，例如数据的筛选、清洗等处理。由于获取专业数据集PlotSet的来源不一致，例如通过网络爬虫和网络里面来源不一的信息获取的，因而也存在混乱，需要进行预处理。

在具体的实现过程中，对原始数据集和专业数据集中的数据进行预处理的示意图如图2所示，在图2中弹出的一级菜单中，包含了功能完备的预处理实现，二级菜单和三级菜单显示了筛选包含专业数据的功能，由此可以得到更为优质的原始数据，实现了主动学习机制。此外在，在进行人工标注辅助之前，对数据进行长度排序，可以使得分割的数据更便于人工标注。

接下来执行步骤S3：将预处理后的专业数据集PlotSet与原始数据集UserInfSet进行匹配，从原始数据集UserInfSet中筛选出目标数据集。

具体来说，将专业数据集PlotSet与原始数据集UserInfSet进行匹配，就是对专业数据集进行处理，使其能够快速匹配一条原始数据(用户信息)中是否蕴含小区信息，并得到对应的位置等信息。

为了提高匹配的效率并提高准确率，所述专业数据采用哈希表PlotsHashTable进行存储，步骤S3具体包括：

步骤S3.1：从原始数据集UserInfSet中读取一条原始数据UserInf；

具体来说，匹配信息MatchInf可以记录一条用户数据，即要标注的数据中包含的小区的位置以及得到小区的名称，起止位置为下面的标注提供重要的位置。在具体的实施过程中，空间位置是起止位置的形象化描述。

在一种实施方式中，步骤S3.3中，根据空间位置关系进行合并，具体为：

采用几何空间中的临近原则进行合并。

具体来说，采用用几何空间更为形象直观。而临近原则，是发明人经过大量的实验进行设计的，具体分为相容、相交、相邻、相离，在几何空间描述位于同一条线段上的两条子线段的位置关系，就是这四种情况。由于本发明涉及的是小区信息，因此相邻可以根据实际情况进行设置。例如将中间相差两个字但不包含特定字的情况也当做相邻，举例来说，“绿地首府新区”，“绿地”和“新区”都是“小区”信息，而首府不是，此时就可以利用“相邻”原则进行合并，从而得到了“绿地首府新区”。

然后执行步骤S4：基于预设规则对目标数据集进行排序。

具体来说，预设规则可以根据实际需要进行设置，例如根据记录的长度、相似度等来进行排序。目标数据集SuperiorSet是一个数据集合，其包含的是目标数据，也就是一条条的记录，通过随机排序可以将记录的先后顺序打乱，从而为后续步骤做准备。

在一种实施方式中，在步骤S4之后，所述方法还包括：

具体来说，预设标识可以为小区数量等，主要是为后续的人工调整的方式进行分组。为了更好地完成人工优化工作，可以开发Excel辅助设计模块如图3所示，将标注的数据以字为单位放置在单元格中，并通过冻结窗体、设置字体、隔行换色、增加每个字的序号等处理，使得标注工作进一步简化，实践证明很好地改善了标注工作。

在具体的实施过程中，通过利用Microsoft Office丰富生动的功能，使得枯燥乏味的工作变得有趣，导入名单和启动生成Excel标注文件集如图3所示。图3为导入“预设标识”后开始选择生成Excel集存放的目录的界面，而“预设标识”是便于区分任务而引入的，经过预处理的优质的原始数据将按照预设标识进行自动分割，这样也便于分配任务。图4中的马赛克是为了保护用户数据隐私(图中均为真实的数据)，显示的信息为有可能存在问题的数据，这些数据都是以小区开头的，并给出了对应的的文件名和行号，这样便于定位信息。

图5为生成的Excel文件。从图5中可以看到，每个字都具有对应的行号和列号，此外还可以通过以颜色区分，增强阅读性和趣味性，为了进一步减少工作量，用数字代替字母进行标注，利用Office自身的强大功能，还可以将标注说明和首列进行冻结。

进一步地，在通过人工调整的方式，对N个Excel文件进行调整，获得优质的标注数据之后，所述方法还包括：

对获得的优质的标注数据进行质量评估。

在具体的实施过程中，标注质量可以通过关键标注(比如这里的小区标注)的覆盖率来实现。由于人工调整时容易出现的一些错误，因而进行了质量评估，通过上述方案可以对标注的工作进行精确的评估，进一步增强了易操作性。具体如图6所示。通过统计出现问题的标注以及标注的覆盖率，来标注质量进行评估。

然后执行步骤S5：为排序后的目标数据集设置标注参数。

具体地，步骤S5体包括：

通过设置标注参数，获得预设标注标准BIO。

在具体的实施过程中，标注采用的国际通用的一些标准：比如BIO、BIOS，BIOES等。本实施例可以通过参数设计得到多种标注标准，这里采用的是BIO。在具体的实施过程中，可以定义PER、TEL、LOC、PLT和INF五类标签，分别用于标识用户姓名，联系电话，道路信息、小区名称和小区详情。

具体来说，设置标注参数后，可以利用现有的标注标准结合标注参数合成语料库。

在一种实施方式中，在步骤S6之后，所述方法还包括：

对合成的预料库进行扩展。

具体来说，通过对预料库进行扩展，可以提高后续的预测能力。具体地，可以结合专业数据的特征，基于增强学习和主动学习机制，对反复提及的原始数据存在的不规范性提出有效解决方法。核心思想是以地理信息(小区和道路)为单元进行内部小区和道路的重排，并对特殊字符进行适当的处理。然后进行迭代操作，“迭代完成”的判断主要依据是产生新的专业数据的数量或者速度。当迭代一次后，根据新产生的专业数据情况来确定是否有必要进行迭代。迭代过程是优化和增广语料库的过程，因此对提升标注质量具有非常重要的意义。

为了更清楚地说明本发明的具体应用，下面通过一个具体示例予以介绍。

本发明的方法实现了自动标注，主要采用主动学习机制保证较高的自动标注质量，对于特殊的数据，再进行人工修正，并开发Excel辅助模块将原本枯燥乏味的人工标注工作变得生动和易于操作；引入迭代机制，不断扩展专业数据，充分利用原始数据和BiLSTM+CRF+AGG模型，从数量和质量两方面提升自动标注的质量。如图7所示，为本发明的自动标注方法得到的预料库用于深度学习模型的示例图。

首先，采用本发明的方法生成自动标注数据，并用Excel文件进行表示，然后通过人工调整自动标注的语料，并对人工调整后的标注语料进行质量评估，如果达到标准，则通过评估，否则继续进行人工调整，接下来配置语料库规则，然后根据Excel文件和配置的语料库规则，合成语料，再对合成的语料进行扩展，将扩展后的语料库输入预先构建的深度学习模型(BiLSTM+CRF+AGG，即增加聚合层AGG的深度模型)，对其进行训练，获得预测模型，然后判断迭代是否完成，如果完成则结束，否则通过训练获得的预测模型对未筛选至目标数据集中的原始数据进行预测，获得扩展的专业数据，然后再进行人工选择，合成至现有的专业数据中。

本发明的自动标注方法是基于tensorflow实现的深度学习模型，除了模型设计之外，语料库也是极为重要的问题，本发明的方法采用BIO标注体系，根据数据特征，定义了PER、TEL、LOC、PLT和INF五类标签，分别用于标识用户姓名，联系电话，道路信息、小区名称和小区详情。语料库处理系统具体包括爬取数据、清洗数据、整合数据、排序、多模式匹配、分割数据、导出Excel(方便人工修正)、设置标注规则、生成标注、标注后续处理等一系列操作。深度学习需要足够的高质量的标注数据才能达到理想的效果，然而高质量的标注数据需要大量的人力成本，必定受到限制，因此本研究采用了主动学习策略。主动学习是一种根据特定的选择规则，从大量信息数据中挑选出最能够使训练模型收敛，即信息量最大最有价值的未标记数据集合作为待查询样例集的方法。本发明实现了快速而准确的匹配，用于筛选出质量好可靠性强的优质数据集作为备用数据集进行后续的标注工作。该方法需要足够多的小区名称即专业数据，在具体的应用中，通过网络爬虫爬取获得了郑州的小区信息并通过预处理得到了5341条小区信息。

基于同一发明构思，本申请还提供了与实施例一中基于深度学习的地理信息的自动标注方法对应的装置，详见实施例二。

实施例二

本实施例提供了一种基于深度学习的地理信息的自动标注装置，请参见图8，该装置包括：

获取模块301，用于获取原始数据集UserInfSet和专业数据集PlotSet；

预处理模块302，用于对原始数据集UserInfSet和专业数据集PlotSet进行预处理；

匹配模块303，用于将预处理后的专业数据集PlotSet与原始数据集UserInfSet进行匹配，从原始数据集UserInfSet中筛选出目标数据集；

排序模块304，用于基于预设规则对目标数据集进行排序；

设置模块305，用于为排序后的目标数据集设置标注参数；

合成模块306，用于基于设置的标注参数，合成语料库，将其作为标注结果。

在一种实施方式中，所述专业数据采用哈希表PlotsHashTable进行存储，匹配模块具体用于执行下述步骤

步骤S3.1：从原始数据集UserInfSet中读取一条原始数据UserInf；

采用几何空间中的临近原则进行合并。

在一种实施方式中，在步骤S4之后，所述装置还包括调整模块，用于：

在一种实施方式中，所述装置还包括质量评估模块，用于在通过人工调整的方式，对N个Excel文件进行调整，获得优质的标注数据之后，

对获得的优质的标注数据进行质量评估。

在一种实施方式中，设置模块305具体用于：

通过设置标注参数，获得预设标注标准BIO。

在一种实施方式中，所述装置还包括扩展模块，用于在合成语料库之后：

对合成的预料库进行扩展。

由于本发明实施例二所介绍的装置，为实施本发明实施例一中基基于深度学习的地理信息的自动标注方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

实施例三

基于同一发明构思，本申请还提供了一种计算机可读存储介质400，请参见图9，其上存储有计算机程序411，该程序被执行时实现实施例一中的方法。

由于本发明实施例三所介绍的计算机可读存储介质，为实施本发明实施例一中基于深度学习的地理信息的自动标注方法所采用的计算机可读存储介质，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机可读存储介质的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于深度学习的地理信息的自动标注方法，其特征在于，包括：

步骤S1：获取原始数据集UserInfSet和专业数据集PlotSet；

步骤S4：基于预设规则对目标数据集进行排序；

步骤S5：为排序后的目标数据集设置标注参数；

步骤S6：基于设置的标注参数，合成语料库，将其作为标注结果；

其中，所述专业数据采用哈希表PlotsHashTable进行存储，步骤S3具体包括：

步骤S3.1：从原始数据集UserInfSet中读取一条原始数据UserInf；

步骤S3.2：将原始数据UserInf与哈希表PlotsHashTable中的专业数据进行匹配，获取原始数据UserInf中包含的小区个数PlotCount以及匹配信息MatchInf，其中，专业数据集PlotSet中的专业数据包含小区信息，匹配信息中包括匹配的起止位置；

步骤S3.3：如果PlotCount为0，则舍弃该原始数据，转至步骤S3.1，如果PlotCount为1，则转至步骤S3.4，如果PlotCount大于1，则根据起止位置获得空间位置关系，其中，空间位置是起止位置的形象化描述，再根据空间位置关系进行合并，并判断合并后的小区个数是否等于1，如果等于则转至步骤S3.4，否则转至步骤S3.1；

步骤S3.5：判断原始数据集UserInfSet中的数据是否读取完毕，如果读取完毕，则将步骤S3.4得到的结果作为目标数据集，否则，转至步骤S3.1，继续处理下一条数据；

在步骤S3.3中，根据空间位置关系进行合并，具体为：

采用几何空间中的临近原则进行合并，几何空间关系包括相容、相交、相邻、相离，在几何空间描述位于同一条线段上的两条子线段的位置关系，其中，将中间相差两个字但不包含特定字的情况作为相邻。

2.如权利要求1所述的方法，其特征在于，在步骤S4之后，所述方法还包括：

3.如权利要求2所述的方法，其特征在于，在通过人工调整的方式，对N个Excel文件进行调整，获得优质的标注数据之后，所述方法还包括：

对获得的优质的标注数据进行质量评估。

4.如权利要求1所述的方法，其特征在于，步骤S5体包括：

通过设置标注参数，获得预设标注标准BIO。

5.如权利要求1所述的方法，其特征在于，在步骤S6之后，所述方法还包括：

对合成的语料库进行扩展。

6.一种基于深度学习的地理信息的自动标注装置，特征在于，包括：

排序模块，用于基于预设规则对目标数据集进行排序；

设置模块，用于为排序后的目标数据集设置标注参数；

合成模块，用于基于设置的标注参数，合成语料库，将其作为标注结果；

其中，所述专业数据采用哈希表PlotsHashTable进行存储，匹配模块具体用于执行下述步骤：

步骤S3.1：从原始数据集UserInfSet中读取一条原始数据UserInf；

在步骤S3.3中，根据空间位置关系进行合并，具体为：

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被执行时实现如权利要求1至5任一项权利要求所述的方法。