CN107220240A

CN107220240A - 微博微信文本中地名识别方法

Info

Publication number: CN107220240A
Application number: CN201710417036.3A
Authority: CN
Inventors: 陈志群; 陈锦冰; 刘晓靓; 其他发明人请求不公开姓名
Original assignee: Shenzhen Zhonghong On-Line Co Ltd
Current assignee: Shenzhen Zhonghong On-Line Co Ltd
Priority date: 2017-06-06
Filing date: 2017-06-06
Publication date: 2017-09-29

Abstract

本发明实施例公开了一种微博微信文本中地名识别方法，所述识别方法包括：将我国行政区划代码及地址名载入哈希表模块，根据地址名对微博微信等文本进行分词并获取行政区划代码序列模块，行政区划代码处理并判断微博微信文本中地名模块。本发明结合微博微信的作者的注册地址及哈希表K‑V方法，具有执行速度快，判断地名准确的技术效果。

Description

微博微信文本中地名识别方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种微博微信文本中地名识别方法。

背景技术

微博微信在网民的信息获取与信息提供中占了相当大的比重，人们不仅通过微博微信传递个人消息，也会发送熟知的发生事件，事件的发生相关到发生的地名，人工方法无法处理海量的微博微信文本中地名，机器识别文本中的地名方法需求迫切。

然而，中文地名数量大,没有明确规范的地名定义。并且随着经济和社会的发展,会有新的地名不断出现，中文地名用词比较自由、分散,同时中文地名用词又有相对集中的覆盖能力，地名结尾经常有地名特征词出现,如“自治区、路、水库”。但地名特征词出现的情况比较复杂:既可以作为普通用词出现,又可以出现在地名其它位置，地名长度没有严格限制等因素使得地名识别比较困难。

发明内容

本发明实施例所要解决的技术问题在于，提供一种对微博微信文本中地名识别方法，利用行政区划代码、地名库及对微博微信等文本进行地名分词获取地名，具有维护地名库方便、执行速度快，判断准确的特点。

为了解决上述技术问题，本发明实施例提出了一种微博微信文本中地名识别方法，用于根据微博微信文本中出现的系列地名，最大可能的识别该文本所涉及到的地名，所述方法包括：。

将我国行政区划代码（简称代码）及地名载入哈希表模块。

根据地名对微博微信等文本进行分词并获取行政区划代码序列模块。

行政区划代码处理并判断微博微信文本中地名模块。

计算机程序实现步骤：

(1)数据库：行政区划数据获取及保存入库，地名聚合代码计算并入库

(2)装载程序：地名及代码查询并载入内存

(3)服务程序：地名判断程序并提供服务。

附图说明

图1为本发明的流程图。

图 2 为本发明的将我国行政区划代码及地名载入哈希表模块流程图。

图 3 为本发明的根据地名对微博微信等文本进行分词并获取行政区划代码序列模块的流程图。

图 4为本发明的行政区划代码处理并判断微博微信文本中地名模块的流程图。

图 5 为本发明的计算机程序实现步骤的流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

本发明实施例提供了一种微博微信文本中地名识别方法，用于根据微博微信文本中出现的系列地名，最大可能的识别该文本所涉及到的地名，下面就结合附图和具体实施例来对本发明提供的技术方案进行详细描述。请参照图1至图5，本发明实施例的微博微信文本中地名识别方法主要包括: 行政区划代码及地名载入哈希表模块S1，分词解析文本产生代码序列模块S2，代码处理并判断文本出现地名模块S3，计算机程序实现系统S4。

行政区划代码及地名载入哈希表模块S1。获取行政区划代码及地址数据步骤S101，具体为，通过程序从国家统计局网站http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/ 多级提取行政区划地名及代码，然后保存入库整理，如表1，按地名聚合行政区代码步骤S102，如表2，以地名为主键代码序列为值载入哈希表步骤S103。

表1

。

表2

。

分词解析文本产生代码序列模块S2。对微博微信文本切句步骤S201，依次从前到后对句子每个字及后面的若干个字为主键在哈希表中找匹配步骤S202；若找到匹配则附加代码序列步骤S203，直到所有的句子结束步骤S204。

代码处理并判断文本出现地名模块S3。获取微博微信注册者的注册城市的行政区划代码步骤S301；拆分代码序列并附加注册者的注册城市的行政区划代码并去重步骤S302；按照代码排序步骤S303；初始省、市、区、街道代码为空步骤S304；遍历代码步骤S305；若此次代码为上次代码的下级（除省市级）步骤S306，则输出此代码,然后将代码转换成地名步骤S307后返回步骤S305，否则返回步骤S304,直到遍历结束

计算机程序实现系统S4。行政区划代码及地名保存至数据库步骤S401, 按地名聚合代码保存入库步骤S402，Java代码处理微博记录S403，如代码1，保存微博微信记录唯一标识与地名入库S404。

代码1

public String segArea(String articleS)

{

StringBuilder resultStr=new StringBuilder("");

StringBuilder article =new StringBuilder("");

String reslt="";

long posit=0;

int negi=0;

int n=0;

String wordLen[]=new String[2];

String ww="";

String pp="";

HashMap tmphashmap =new HashMap();

this.count++;

StringTokenizer st = new StringTokenizer(articleS,",.，。;；！!、\t\r\n");

int begSeg=0;

while (st.hasMoreTokens())

{

article=new StringBuilder(st.nextToken());

while (article.length()>1)

{

ww=article.substring(0,2);

this.count++;

while (article.length()>1 && !(this.hasmap1.containsKey(ww)))

{。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同范围限定。

Claims

1.一种微博微信文本中地名识别方法，利用行政区划代码、地名库及对微博微信等文本进行地名分词获取地名，其特征在于，包含以下模块：

1.1 行政区划代码及地名载入

1.2 分词解析文本产生代码序列

1.3 代码处理行政区划代码并判断文本出现地名。

2.如权利1要求所述的一种微博微信文本中地名识别方法，其特征在于，行政区划代码及地名载入模块中，将行政区划代码及地名按照地名聚合行政区代码，以地名为主键代码序列为值载入哈希表中。

3.如权利1要求所述的一种微博微信文本中地名识别方法，其特征在于，分词解析文本产生代码序列模块中，依次对文本从前到后对每个字及后面的若干个字为主键在哈希表中找匹配，形成行政区划代码序列。

4.如权利1要求所述的一种微博微信文本中地名识别方法，其特征在于，代码处理并判断文本出现地名模块中，包含以下步骤：

4.1获取微博微信注册者的注册城市的代码

4.2 拆分代码序列并附加注册者的注册城市的代码并去重

4.3 按照代码排序

4.4 遍历代码输出地名。

5.如权利4要求所述的一种微博微信文本中地名识别方法，其特征在于，遍历代码输出地名步骤中，包含以下步骤：

5.1初始省市区街道代码为空

5.2遍历代码，除省市级别代码外，若此次代码为上次代码的下级，则输出此代码，并转换成地名，否则置初始省市区街道代码为空，继续下一个代码，直到结束。

6.如权利1至5要求所述的一种微博微信文本中地名识别方法，其特征在于，计算机程序实现步骤中，包含实现此方法的数据库及程序编码。