CN102375863A

CN102375863A - 一种地理信息领域的关键字提取的方法及装置

Info

Publication number: CN102375863A
Application number: CN2010102658794A
Authority: CN
Inventors: 陈小宾; 申排伟; 杜宇程
Original assignee: Navinfo Co Ltd
Current assignee: Navinfo Co Ltd
Priority date: 2010-08-27
Filing date: 2010-08-27
Publication date: 2012-03-14

Abstract

本发明提供一种地理信息领域的关键字提取的方法及装置，属于电数字数据处理技术领域，该方法包括：步骤1、利用中文分词工具对地理信息数据库中的待处理数据进行分词处理；步骤2、以分词得到的短语为最小粒度单元，并结合N-gram模型获取长度不超过预设的关键字最大长度值的所有候选关键字；步骤3、根据候选关键字的类型，将候选关键字记录到与类型对应的数据词典中。将中文分词与N-gram模型相结合的关键字的提取方法，保存并充分利用历史处理过程中的数据，能兼顾地理信息领域中关键字提取的效率和准确率。

Description

一种地理信息领域的关键字提取的方法及装置

技术领域

本发明属于电数字数据处理技术领域，尤其涉及一种地理信息领域的关键字提取的方法及装置。

背景技术

兴趣点(POI，Point Of Interest)是指可查找、可定位的包含衣食住行等附属社会信息的点要素。在POI生产过程中，通常采用基于领域关键字词典的命名实体识别、POI数据自动分类等技术辅助人工进行处理，以大幅提高生产效率。领域关键字的提取是构建领域关键字词典的重要环节。

目前，常用的关键字提取方法主要有：基于中文分词的关键字提取方法和基于N-gram模型的关键字提取方法。但现有的关键字提取方法存在以下问题：

1)基于中文分词的关键字提取方法，主要问题是对POI名称数据切分过于细碎，导致长度上不能满足领域关键字的要求，造成准确率低；

2)基于N-gram(N个连续符号的序列)模型的关键字提取方法，是大词汇连续语音识别中常用的一种语言模型，由于获取的是以单个字为最小粒度单元组合而成，会造成无效的噪声数据过多，导致处理速度慢。

由此可知，现有的关键字提取方法由于没有考虑到地理信息领域中数据的特性，导致现有的关键字提取方法在地理信息领域中适应性不强。

发明内容

为了解决上述问题，本发明的目的是提供一种地理信息领域的关键字提取的方法及装置，通过基于中文分词与N-gram模型相结合的候选关键字的提取，能兼顾地理信息领域中关键字提取的效率和准确率。

为了达到上述目的，本发明提供一种地理信息领域的关键字提取的方法，所述提取方法包括：

步骤1、利用中文分词工具对地理信息数据库中的待处理数据进行分词处理；

步骤2、以分词得到的短语为最小粒度单元，并结合N-gram模型获取长度不超过预设的关键字最大长度值的所有候选关键字；

步骤3、根据所述候选关键字的类型，将所述候选关键字记录到与所述类型对应的数据词典中。

优选的，在所述步骤1之前，所述提取方法还包括：

对所述地理信息数据库中待处理数据进行格式的规范化处理。

优选的，在对所述待处理数据进行格式的规范化处理之前，所述方法还包括：

判断是否处理完所述地理信息数据库中所有待处理数据；

如果处理完，则统计每个所述候选关键字的词频，并忽略所述词频低于预设词频阈值的候选关键字，然后执行所述步骤3；

若没有处理完，则从所述地理信息数据库中获取下一条待处理数据，然后返回所述步骤1。

优选的，所述步骤3之前，所述方法还包括：

判断当前的所述候选关键字是否已经存在于历史数据词典中，若是，则忽略当前的所述候选关键字，获取下一个候选关键字；否则，保存当前的所述候选关键字，然后执行所述步骤3。

优选的，所述历史数据词典中包括：噪声数据和/或已提取的关键字数据。

优选的，所述候选关键字的类型包括：名称关键字、行业特点关键字、功能特征关键字和噪声数据。

优选的，所述将所述候选关键字记录到与所述类型对应的数据词典中的步骤具体为：

将所述名称关键字记录到名称关键字的数据词典中；

将所述行业特点关键字记录到行业特点关键字的数据词典中；

将所述功能特征关键字记录到功能特征关键字的数据词典中；和/或

将所述噪声数据记录到噪声数据词典中。

为了达到上述目的，本发明还提供一种地理信息领域的关键字提取的装置，所述装置包括：

中文分词模块，用于利用中文分词工具对地理信息数据库中的待处理数据进行分词处理；

候选关键字获取模块，用于以分词得到的短语为最小粒度单元，并结合N-gram模型获取长度不超过预设的关键字最大长度值的所有候选关键字；

关键字提取模块，用于根据所述候选关键字的类型，将所述候选关键字记录到与所述类型对应的数据词典中。

优选的，所述装置还包括：

词频统计模块，分别与所述候选关键字获取模块和所述关键字提取模块连接，用于统计所述候选关键字获取模块获取的候选关键字的词频，并将所述词频大于等于预设词频阈值的关键字发送给所述关键字提取模块。

优选的，所述装置还包括：

历史数据词典构建模块，与所述关键字提取模块连接，用于根据关键字的类型获取关键字数据和/或噪声数据，并构建历史数据词典。

由上述技术方案可知，在本实施例中首先基于中文分词对地理信息领域中的数据进行分词处理，然后以分词得到的短语为最小粒度单元，运用N-gram模型获取长度不超过预设的关键字最大长度值的所有候选关键字，再从候选关键字中提取用户希望得到的关键字。因此本实施例中的技术方案与仅采用基于中文分词的关键字提取方法相比，避免了分词时对地理信息领域中数据切分细碎，长度上不能满足领域关键字提取的要求的问题，因此通过本实施例提取的关键字的召回率更高；

本实施例中的技术方案与单独基于N-gram模型的关键字提取方法相比，避免了处理大量无效的噪声数据，因此，运行速度更快、效率更高；

另外，还可充分利用历史数据词典中记录的噪声数据和已提取的关键字数据，能够避免噪声数据和已提取的关键字数据的重复处理，因此，运行速度更快。总之，本实施例中的提取关键字能兼顾效率、召回率及准确率，能更好地满足地理信息领域中关键字提取的要求。

附图说明

图1为本发明的实施例中地理信息领域的关键字提取的方法流程图；

图2为本发明的实施例中利用中文分词和N-gram模型相结合的POI关键字提取的流程图；

图3为本发明的实施例中地理信息领域的关键字提取的装置框图。

具体实施方式

在本实施例中，首先利用中文分词对地理信息数据库中的数据进行分词处理，然后以分词得到的短语为最小粒度单元，并结合N-gram模型获取长度不超过预设的关键字最大长度的所有候选关键字，最后根据候选关键字的类型，将候选关键字记录到与类型对应的数据词典中，通过利用中文分词与N-gram模型相结合的候选关键字的提取方式，能兼顾地理信息领域中关键字提取的效率和准确率。

为了使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明实施例做进一步详细地说明。在此，本发明的示意性实施例及说明用于解释本发明，但并不作为对本发明的限定。

参见图1，为本发明的实施例中地理信息领域的关键字提取的方法流程图，具体步骤如下：

步骤101、对地理信息数据库中待处理数据进行格式的规范化处理，然后执行步骤102；

由于地理信息数据库中待处理数据的格式可能不规范，因此，可对待处理数据进行格式的规范化处理，以规范数据格式。比如去除待处理数据中的空格、括号等。当然本步骤为可选步骤。

步骤102、判断是否处理完地理信息数据库中所有待处理数据，若是，执行步骤108；否则，执行步骤103；

也就是，当处理完地理信息数据库中所有待处理数据，则可进行候选关键字的词频统计；否则，继续对待处理数据进行分词处理，以获得候选关键字。

步骤103、从地理信息数据库中获取下一条待处理数据，然后执行步骤104；

步骤104、利用中文分词工具对地理信息数据库中的待处理数据进行分词处理，然后执行步骤105；

在本实施例中，可利用现有的中文分词对地理信息数据库中的待处理数据进行分词处理，得到的最小粒度单元为短语，其中短语之间可用空格作为分隔符。例如待处理数据为“北京盛唐文化传播责任有限公司”，经过本步骤处理后，得到的结果是“北京盛唐文化传播责任有限公司”，当然在本实施例中并不限定分隔符的具体表现形式。

步骤105、以分词得到的短语为最小粒度单元，并结合N-gram模型获取长度不超过预设的关键字最大长度值的所有候选关键字，然后返回步骤106；

也就是，应用N-gram模型将相邻的短语组合成长度更长的短语，并从其中获取所有长度不超过预设的关键字最大长度值的短语，将获取的短语作为候选关键字。该预设的关键字最大长度值可根据具体情况进行设置。

步骤106、判断当前的候选关键字是否已经存在于历史数据词典中，若是，执行步骤107；否则，保存当前的候选关键字，然后执行步骤102；

步骤107、忽略当前的候选关键字，然后返回步骤102；

上述历史数据词典中包括：噪声数据和/或已提取的关键字数据。上述噪声数据是指关键字不是行业特点关键字、不是功能特征关键字，也不是POI名称关键字。当然在本实施例中并不限定历史数据词典中的具体内容。

在步骤106～107中，通过利用历史数据词典，可确认当前的候选关键字是否为噪声数据或已提取的关键字数据。若该当前的候选关键字已存在于历史数据词典中，则可忽略当前的候选关键字。该历史数据词典是指在之前在关键字提取过程中构建的数据词典，并且可在地理信息领域关键字的提取过程中对历史数据词典进行更新处理，即将得到的噪声数据和已提取的关键字数据补充到历史数据词典中。

通过排除噪声数据和已提取的关键字，可避免在关键字提取过程中处理大量无效的数据，提高了地理信息领域中关键字提取的效率。

步骤108、统计每个候选关键字的词频，并标注类型，然后执行步骤109；

由于可以认为出现频率越高的候选关键字，越可能是需要提取的地理信息领域中的关键字，因此可通过现有的统计方法来统计每个候选关键字的词频，得到(关键字，频率)二元组。

在执行本步骤时，也可统计候选关键字的类型，该候选关键字的类型包括：名称关键字、行业特点关键字、功能特征关键字和噪声数据。当然在本实施例中并不限定候选关键字的类型。

参见下表，为本实施例中候选关键字词频统计表。

表1

字段名称	长度	取值说明
			候选关键字	文本	获取的候选关键字
词频	整型	候选关键字的统计频率
			类型编码	短整型	候选关键字的类型编码

上述类型编码是指关键字类型的编码值，具体参见表2：

表2

通过划分地理信息领域中关键字的类型，可便于对关键字的管理。当然在本实施例中并不限定关键字类型的种类，以及类型编码的具体表现形式。

步骤109、根据候选关键字的类型，将候选关键字记录到与类型对应的数据词典中。

例如可根据候选关键字的类型，预先设置与该类型对应的数据词典，例如数据词典可包括：名称关键字的数据词典、行业特点关键字的数据词典、功能特征关键字的数据词典和噪声数据词典，可将上述数据词典统称为地理信息领域中关键字词典。当然在本实施例中并不限定该数据词典的具体个数和类型。

本步骤的具体执行过程可以包括如下步骤：将名称关键字记录到名称关键字的数据词典中；将行业特点关键字记录到行业特点关键字的数据词典中；将功能特征关键字记录到功能特征关键字的数据词典中；和/或将噪声数据记录到噪声数据词典中。

由上述技术方案可知，在本实施例中首先利用中文分词对地理信息领域中的数据进行分词处理，然后以分词得到的短语为最小粒度单元，运用N-gram模型获取长度不超过预设的关键字最大长度值的所有候选关键字，再从候选关键字中提取用户希望得到的关键字。因此本实施例中的技术方案与单独利用中文分词的关键字提取方法相比，避免了分词时对地理信息领域中数据切分细碎，长度上不能满足领域关键字提取的要求的问题，因此通过本实施例提取的关键字的召回率更高；

下面以地理信息领域中的POI名称为例，来介绍如何利用中文分词和N-gram模型相结合进行关键字的提取。当然本实施例也可适用于地理信息数据库中其他数据的关键字的提取。

参见图2，为本发明的实施例中利用中文分词和N-gram模型相结合的POI关键字提取的流程图，具体步骤如下：

步骤201、预先设置候选关键字的最大长度MAXLEN；

由于关键字不可能无限长，为提高关键字的提取效率，可预先设置关键字的最大长度值，表示获取的候选关键字长度不超过该参数值，超过此长度值的短语可忽略。

在本实施例中，可结合地理信息领域的关键字的特点，将关键字的最大长度MAXLEN设置为8。当然在本实施例中并不限定关键字的最大长度MAXLEN的具体数值，可根据实际情况进行设定。

步骤202、判断是否处理完所有的POI名称数据，若是，执行步骤211；否则，执行步骤203；

步骤203、获取下一条POI名称数据，然后执行步骤204；

步骤204、对POI名称数据进行格式的规范化处理，然后执行步骤205；

步骤205、利用中文分词对POI名称数据进行分词处理，分词得到短语(S₁S₂......S_M)；

也就是，利用中文分词对格式规范化处理后的POI名称数据进行分词处理，假设分词结果为M个短语(短语为最小粒度单元)，记为“S₁S₂......S_M”，切分的各短语间以空格分隔，然后以分词后的各短语为最小粒度单元，然后利用N-gram模型获取所有的长度不超过MAXLEN的关键字数据。

步骤206、判断i是否小于等于M(i的初始值等于1)，若是，执行步骤207；否则返回步骤202；

步骤207、判断j是否小于等于M(j的初始值等于i)，若是，执行步骤208；否则，i值加1(i++)，然后返回步骤206；

步骤208、判断候选关键字S_iS_i+1......S_j的长度是否小于等于关键字的最大长度MAXLEN，若是，执行步骤209；否则，i值加1(i++)，然后返回步骤206；

步骤209、判断候选关键字S_iS_i+1......S_j是否是噪声数据或已提取的关键字数据，若是，j值加1(j++)，然后返回步骤207；否则，执行步骤210；

步骤210、记录该候选关键字S_iS_i+1......S_j，然后j值加1(j++)，返回步骤207

步骤211、统计候选关键字的词频。

按照图1的关键字提取方法，采用现有的中文分词工具，并结合N-gram模型的思想，并以293万条POI名称数据为实验语料提取关键字，利用历史数据词典前/后的三种关键字提取方法的性能如表3所示：

表3：利用历史数据词典前/后不同关键字提取方法性能表

说明：运行速度为在同一计算机环境下的平均速度，预先设置词频阈值为100，将词频高于预设词频阈值的候选关键字标记为关键字，词频低于预设词频阈值的候选关键字视为无效。

表3中，上述召回率和准确率定义如下：

召回率＝实际正确提取的关键字数/关键字总数

准确率＝实际正确提取的关键字数/自动提取的候选关键字数

其中，实际正确提取的关键字数为确认为关键字的数目，关键字总数包括该地理信息领域中所有关键字，所有关键字的近似计算方法为：以多批大量领域数据为实验语料，获取的关键字总数目，自动提取的候选关键字数为本实验中获取的词频大于预设词频阈值的全部候选关键字。

比较上表3中候选关键字提取方法的平均性能，分析如下：

A.常用方案(1)，基于中文分词的关键字提取方法，虽然具有处理的数据量小，运行速度快的优点，但由于中文分词工具切分POI数据过碎，造成召回率太低。词频统计结果显示，此方法提取的候选关键字90％以上为1～2个字符，而实际的领域关键字字符数可能大于2(关键字的长度)。因此，召回率、准确率太低，关键字的长度上不能满足提取领域关键字的要求；

B.常用方案(2)的召回率略高于本发明的方法，是因为基于N-gram模型的方法处理的数据包含了本发明的方法中处理的所有数据，但由于引入了大量的噪声数据，造成准确率有较大幅度的下降。而且，由于处理了大量无效噪声数据，使其运行速度慢；本发明采用的方案，避免了大部分冗余、噪声数据的处理，准确率略有提高，同时速度上提高了约4倍，而召回率与常用方案(2)相当。

C.比较利用历史数据前/后的平均运行速度，容易看出：充分利用历史数据词典，运行速度约提高1/3。

参见图2，假设预先设置关键字最大长度MAXLEN＝8，以名称数据“北京盛唐文化传播责任有限公司”为例，比较三种关键字提取方法获取的所有关键字集，见表4：

表4：关键字获取对照表

示例数据中文分词后的结果为“北京|盛唐|文化|传播|责任|有限公司”，因此，

(1)基于中文分词的方法获取的候选关键字集合为“北京盛唐文化传播责任有限公司”；

(2)基于N-gram模型的方法获取的候选关键字集合为“北京盛唐文化传播京盛唐文化传播责盛唐文化传播责任唐文化传播责任有文化传播责任有限化传播责任有限公传播责任有限公司北京盛唐文化传京盛唐文化传播盛唐文化传播责唐文化传播责任文化传播责任有化传播责任有限传播责任有限公播责任有限公司北京盛唐文化京盛唐文化传盛唐文化传播唐文化传播责文化传播责任化传播责任有传播责任有限播责任有限公责任有限公司北京盛唐文京盛唐文化盛唐文化传唐文化传播文化传播责化传播责任传播责任有播责任有限责任有限公任有限公司北京盛唐京盛唐文盛唐文化唐文化传文化传播化传播责传播责任播责任有责任有限任有限公有限公司北京盛京盛唐盛唐文唐文化文化传化传播传播责播责任责任有任有限有限公限公司北京京盛盛唐唐文文化化传传播播责责任任有有限限公公司”；

(3)应用中文分词与N-gram模型相结合的方法获取的候选关键字集合为“北京北京盛唐北京盛唐文化北京盛唐文化传播盛唐盛唐文化盛唐文化传播盛唐文化传播责任文化文化传播文化传播责任传播传播责任传播责任有限公司责任责任有限公司有限公司”。

容易计算出上述3种方案的候选关键字数量，常用方案(1)共有6个候选关键字，常用方案(2)共有67个候选关键字，本发明采用的方案共有17个候选关键字，分析不难发现：常用方案(1)运算数据量虽小，但由于中文分词工具对POI数据切分过于细碎，会遗漏很多关键字，造成召回率低的问题，如示例中行业特点词“文化传播”、功能特征词“责任有限公司”将提取失败；常用方案(2)虽然覆盖了本发明采用的方案的全部关键字数据，但引入了大量的噪声数据，处理的数据量约是本实施例采用方案的4倍，处理大量冗余、噪声数据造成了运行速度慢的缺点；本发明采用的关键字获取方案在保证召回率、准确率的前提下，减少了冗余、噪声数据的处理。同时借助历史数据词典，能够有效避免大量噪声数据及已提取的关键字的重复处理，使运行速度进一步提升。

假设历史数据词典已收集部分数据，其中，噪声数据词典包含噪声数据“北京、盛唐文化传播责任、文化传播责任、传播责任、责任”，领域关键字词典中包含领域关键字“文化、传播”等，则本发明采用的方案将忽略这些历史数据词典中的已提取的关键字数据及噪声数据，实际处理的数据量将大大减少。

提取出所有候选关键字后，依次进行词频统计和类型统计。假设“文化传播，，标注类型编码为1，“责任有限公司”标注类型编码为2，“北京盛唐”等噪声数据标注类型编码为4，根据表2中的类型编码含义，将行业特点词“文化传播”，功能特征词“责任有限公司”分别补充到行业特点词词典、功能特征词词典中，同时将标注类型编码为4的噪声数据补充到噪声数据词典中。

参见图3，为本发明的实施例中地理信息领域的关键字提取的装置框图，该装置包括：

中文分词模块31，用于利用中文分词工具对地理信息数据库中的待处理数据进行分词处理；

候选关键字获取模块32，用于以分词得到的短语为最小粒度单元，并结合N-gram模型获取长度不超过预设的关键字最大长度值的所有候选关键字；

关键字提取模块33，用于根据所述候选关键字的类型，将所述候选关键字记录到与所述类型对应的数据词典中。

在本发明的实施例中，该装置还包括：

词频统计模块34，分别与所述候选关键字获取模块32和所述关键字提取模块33连接，用于统计所述候选关键字获取模块32获取的候选关键字的词频，并将所述词频大于等于预设词频阈值的关键字发送给所述关键字提取模块33。

在本发明的实施例中，该装置还包括：

历史数据词典构建模块35，与所述关键字提取模块33连接，用于根据关键字的类型获取关键字数据和/或噪声数据，并构建历史数据词典。

由此可以看出，本实施例采用的方案既能满足提取全部领域关键字的要求，同时避免了大量无效噪声数据、已提取的关键字的重复处理，兼顾了效率与召回率。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种地理信息领域的关键字提取的方法，其特征在于，所述提取方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述步骤1之前，所述提取方法还包括：

3.根据权利要求2所述的方法，其特征在于，在对所述待处理数据进行格式的规范化处理之前，所述方法还包括：

判断是否处理完所述地理信息数据库中所有待处理数据；

4.根据权利要求1所述的方法，其特征在于，所述步骤3之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述历史数据词典中包括：噪声数据和/或已提取的关键字数据。

6.根据权利要求1所述的方法，其特征在于，所述候选关键字的类型包括：名称关键字、行业特点关键字、功能特征关键字和噪声数据。

7.根据权利要求6所述的方法，其特征在于，所述将所述候选关键字记录到与所述类型对应的数据词典中的步骤具体为：

将所述名称关键字记录到名称关键字的数据词典中；

将所述噪声数据记录到噪声数据词典中。

8.一种地理信息领域的关键字提取的装置，其特征在于，所述装置包括：

9.根据权利要求8所述的关键字提取的装置，其特征在于，所述装置还包括：

10.根据权利要求9所述的关键字提取的装置，其特征在于，所述装置还包括：