CN108647199A

CN108647199A - 一种地名新词的发现方法

Info

Publication number: CN108647199A
Application number: CN201810246763.2A
Authority: CN
Inventors: 李俊; 孙海峰; 徐忠建; 朱必亮; 冯建亮
Original assignee: Jiangsu Speed Information Polytron Technologies Inc
Current assignee: Jiangsu Speed Information Polytron Technologies Inc
Priority date: 2018-03-23
Filing date: 2018-03-23
Publication date: 2018-10-12

Abstract

本发明涉及一种地名新词的发现方法，包括以下步骤：S1：构建原始文档集合：利用网络爬虫程序或RSS的方法从互联网中对网页文本进行爬取，并利用网页解析软件对爬取的文本进行解析，形成原始的文档集合；S2：预处理原始文档：对步骤S1中构建的原始文档集合中的文档进行预处理；S3：分词处理：采用基于字符串匹配的方法和概率统计相结合的方法进行中文分词处理，设计分词词典；S4：提取地名新词：利用步骤S3中生成的分词词典，对分词词典进行分类，并将词典进行分割，得到有益于处理的长度，然后提取出地名新词。利用互联网上容易获取的网页资源进行地名新词的发现，提高了发现新词汇的机会且有效提高新词发现的精度与准确率。

Description

一种地名新词的发现方法

技术领域

本发明涉及信息技术抽取领域，特别是涉及一种地名新词的发现方法。

背景技术

随着网络技术和信息技术的飞速发展，产生了大量的信息，据调查显示，人类社会80％以上的信息资源与地理空间相关，这些信息具有更新速度快、数据量大、来源广泛、数据结构多样等特征，但也蕴藏着丰富的地名信息。目前我国正在进行地名信息化建设，地名信息更新维护周期长、成本高、效率低，因此，从大量信息中对地名信息进行抽取获得地名新词显得尤为重要。

目前国内采用的新词发现技术主要有以下两种：

(一)基于规则的新词发现：通过使用一个预设的分词词典，利用分词词典与一定的组词规则相结合来识别新词，其主要思想是根据语言学的原理和知识来制定一些共性和个性规则，用这些规则来自动处理分析中出现的问题。其优点是发现新词的准确率较高，然而由于制定的规则只是针对某一个领域，灵活性较差，同时由于规则的获取难度加大，规则的全面制定既耗时又耗力，新词的产生速度越来越快，基于规则的方法很难满足需求。

(二)基于统计的新词发现：通过观察语料中的特征信息，寻找描述新词特征的统计量，确定候选字符串，计算其内部聚合度和自由度，在此基础上确定阈值，寻找聚合度和自由度最高的字符串组合。其优点是实现方法简单，可以应用于很多领域，对于查找较短的短语比较适合，然后这种方法需要大量的训练语料，忽略了词语内部的结构和词与词之间的构词能力等特性，新词发现的质量不是很高。

综上所述，为了有效提高新词发现的准确度和精度，有必要开发研究一种将规则和统计相结合的地名新词的发现方法。

发明内容

本发明要解决的技术问题是，提供一种地名新词发现方法，从大量信息中过滤垃圾字符串和通用词，提高地名新词发现的准确率和精度，更好地为地名信息化服务。

为了解决上述技术问题，本发明采用的技术方案是：该地名新词的发现方法，包括以下步骤：

S1：构建原始文档集合：利用网络爬虫程序或RSS的方法从互联网中对网页文本进行爬取，并利用网页解析软件对爬取的文本进行解析，形成原始的文档集合；

S2：预处理原始文档：对步骤S1中构建的原始文档集合中的文档进行预处理；

S3：分词处理：采用基于字符串匹配的方法和概率统计相结合的方法进行中文分词处理，设计分词词典；

S4：提取地名新词：利用步骤S3中生成的分词词典，对分词词典进行分类，并将词典进行分割，得到有益于处理的长度，然后提取出地名新词。

采用上述技术方案，利用网络爬虫的方法对网页文本进行抽取，并利用相应的网页解析软件对网页文本进行解析，形成原始的文档集合；然后对文档进行去除网页标签、替换标识符、切分文本、过滤非中文字符等预处理操作，将所有的文档划分为字符串的组合，利用逆向最大匹配法与N-gram法相结合的方法对字符串进行分词处理，得到中文分词结果；然后通过设置最小支持度和最小置信度，采用Apriori算法对高频噪声词进行剔除，发现频繁项目集，生成关联规则，进而发现地名新词。

本发明进一步改进在于，所述步骤S2中对原始文件进行预处理的过程具体包括如下步骤：

S21：去除网页标签：将找到的所有网页标签及其中的内容从文本中删除；

S22：替换标识符：根据步骤S21中处理完成的文本，将文本中的标识符替换成相应的标识符；

S23：切分文本：利用中文文本中的标点符号或回车换行符号作为切分文本的标志，将步骤S22中处理完成的文本进行切分；

S24：过滤非中文字符：对原始文档中非中文字符全部过滤掉，并以非中文字符所在的位置为界，将文档中的字符划分为字符串的组合，每个字符串占文本文档的每一行，并删除原始文档的内容，将划分结果保存在原始文档中。

本发明进一步改进在于，所述步骤S3的具体过程具体包括以下步骤：

S31：首先利用逆向最大匹配法进行字符串的匹配，将匹配后的字符串用N-gram概率统计方法进行统计以发现新词；

S32：在进行中文分词前，先预设一个全面的专业词典，将词典的格式设计为最简单的数列的形式；然后在利用统计语言模型进行信息提取的过程中，设置一个字符串同现频度表，存放每个字符串及其前面一个字符串的同现频度；

S33：设计一个词典用于存储分词词典。其中预设的专利词典做到尽量全面。

本发明进一步改进在于，所述步骤S4包括预处理阶段和地名新词抽取阶段；所述预处理阶段具体包括预设专业词典、预设噪声词典、处理高频噪声词、分词切割四个步骤；所述地名新词抽取阶段具体包括发现频繁项目集和生成关联规则两个步骤。

可选地，所述预处理阶段具体包括以下步骤：

S411：预设专业词典：在进行地名新词抽取过程中，首先需要预设一个已知地名词汇的专业词典，用已知词汇抽取未知的词汇；

S412：预设噪声词典：由于分词词典中存在者大量的无关词汇，需要将这些无关词汇从分词词典中删除；从不同领域的文档进行收集，和分词词典进行比对，计算分词词典中每个词出现的频次，提取出现频次最高的词作为噪声词，加入到噪声词典中；

S413：处理高频噪声词：利用步骤S412中生成的噪声词典，对文档的高频词汇进行统计，挖掘出高频词汇，过滤出高频噪声词。

S414：分词切割：对文档进行分词切割处理，得到有益于处理的长度，为地名新词的发现做准备。

可选地，所述地名新词抽取阶段具体包括以下步骤：

S421：发现频繁项目集：首先对最小支持度进行设置，然后对所有词汇进行归纳，找出所有不同的词汇，并统计它们出现的频数，将它们的频数与最小支持度进行对比，取支持数大于最小支持数的所有词汇，每个词汇作为事务数据库的一条事务记录，将这些事务记录作为统一的事务集合，这个事务集合就是一个频繁项目集，然后使用递归的方法找出其它的频繁项目集，并最终找出最大频繁项目集；

S422：生成关联规则：首先对最小置信度进行设定，根据步骤S421中生成的频繁项目集生成关联规则，进而提取出地名新词。

本发明进一步改进在于，所述地名新词抽取阶段采用Apriori算法。

本发明进一步改进在于，该地名新词的发现方法所使用的系统包括控制模块、语料获取模块、新词抽取模块、预处理模块和中文分词模块；所述语料获取模块、新词抽取模块、预处理模块和中文分词模块均与所述控制模块形成双向传输连接；所述语料抽取模块用于从大量互联网信息中抽取网页文本，并对网页信息进行解析，生成对应的文本，形成最原始的文档集合；所述预处理模块用于对文本进行处理，生成字符串集合，使之适合后续处理的需要；所述中文分词模块对预处理的文档进行分词，所有的文档将被分为词的集合；所述新词抽取模块用于利用关联规则的方法对地名新词进行提取，并存储到新词词典中。

现有技术相比，本发明具有的有益效果是：

1)利用互联网上容易获取的网页资源进行地名新词的发现；

2)在中文分词方面采用逆向最大匹配法和N-gram法相结合的方法进行分词，提高了发现新词汇的机会；

3)将统计与规则相结合的方法进行新词发现，有效提高新词发现的精度与准确率。

附图说明

下面结合附图进一步描述本发明的技术方案：

图1是本发明的地名新词的发现方法的流程示意图；

图2是本发明的地名新词的发现方法的文档预处理流程示意图；

图3是本发明的地名新词的发现方法的中文分词流程示意图；

图4是本发明的地名新词的发现方法的地名新词抽取流程示意图；

图5是本发明的地名新词的发现方法的数据流向图；

图6是发明的地名新词的发现方法所使用的系统的框架图。

具体实施方式

为了加深对本发明的理解，下面将结合附图和实施例对本发明做进一步详细描述，该实施例仅用于解释本发明，并不对本发明的保护范围构成限定。

实施例1：如图1-5所示，该地名新词的发现方法，包括以下步骤：

S2：预处理原始文档：对步骤S1中构建的原始文档集合中的文档进行预处理；其中所述步骤S2中对原始文件进行预处理的过程具体包括如下步骤：

S3：分词处理：采用基于字符串匹配的方法和概率统计相结合的方法进行中文分词处理，设计分词词典；其中所述步骤S3的具体过程具体包括以下步骤：

S33：设计一个词典用于存储分词词典；

S4：提取地名新词：利用步骤S3中生成的分词词典，对分词词典进行分类，并将词典进行分割，得到有益于处理的长度，然后提取出地名新词；所述步骤S4包括预处理阶段和地名新词抽取阶段；所述预处理阶段具体包括预设专业词典、预设噪声词典、处理高频噪声词、分词切割四个步骤；所述地名新词抽取阶段具体包括发现频繁项目集和生成关联规则两个步骤；

所述预处理阶段具体包括以下步骤：

所述地名新词抽取阶段采用Apriori算法，具体包括以下步骤：

本实施例中的地名新词的发现方法所使用的系统包括控制模块、语料获取模块、新词抽取模块、预处理模块和中文分词模块；所述语料获取模块、新词抽取模块、预处理模块和中文分词模块均与所述控制模块形成双向传输连接；所述语料抽取模块用于从大量互联网信息中抽取网页文本，并对网页信息进行解析，生成对应的文本，形成最原始的文档集合；所述预处理模块用于对文本进行处理，生成字符串集合，使之适合后续处理的需要；所述中文分词模块对预处理的文档进行分词，所有的文档将被分为词的集合；所述新词抽取模块用于利用关联规则的方法对地名新词进行提取，并存储到新词词典中。

对于本领域的普通技术人员而言，具体实施例只是对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之内。

Claims

1.一种地名新词的发现方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的地名新词的发现方法，其特征在于，所述步骤S2中对原始文件进行预处理的过程具体包括如下步骤：

3.根据权利要求2所述的地名新词的发现方法，其特征在于，所述步骤S3的具体过程具体包括以下步骤：

S33：设计一个词典用于存储分词词典。

4.根据权利要求2所述的地名新词的发现方法，其特征在于，所述步骤S4包括预处理阶段和地名新词抽取阶段；所述预处理阶段具体包括预设专业词典、预设噪声词典、处理高频噪声词、分词切割四个步骤；所述地名新词抽取阶段具体包括发现频繁项目集和生成关联规则两个步骤。

5.根据权利要求4所述的地名新词的发现方法，其特征在于，所述预处理阶段具体包括以下步骤：

6.根据权利要求5所述的地名新词的发现方法，其特征在于，所述地名新词抽取阶段具体包括以下步骤：

7.根据权利要求6所述的地名新词的发现方法，其特征在于，所述地名新词抽取阶段采用Apriori算法。

8.根据权利要求6所述的地名新词的发现方法，其特征在于，该地名新词的发现方法所使用的系统包括控制模块、语料获取模块、新词抽取模块、预处理模块和中文分词模块；所述语料获取模块、新词抽取模块、预处理模块和中文分词模块均与所述控制模块形成双向传输连接；所述语料抽取模块用于从大量互联网信息中抽取网页文本，并对网页信息进行解析，生成对应的文本，形成最原始的文档集合；所述预处理模块用于对文本进行处理，生成字符串集合，使之适合后续处理的需要；所述中文分词模块对预处理的文档进行分词，所有的文档将被分为词的集合；所述新词抽取模块用于利用关联规则的方法对地名新词进行提取，并存储到新词词典中。