CN107220240A - 微博微信文本中地名识别方法 - Google Patents
微博微信文本中地名识别方法 Download PDFInfo
- Publication number
- CN107220240A CN107220240A CN201710417036.3A CN201710417036A CN107220240A CN 107220240 A CN107220240 A CN 107220240A CN 201710417036 A CN201710417036 A CN 201710417036A CN 107220240 A CN107220240 A CN 107220240A
- Authority
- CN
- China
- Prior art keywords
- place name
- code
- text
- microblogging
- administrative division
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种微博微信文本中地名识别方法,所述识别方法包括:将我国行政区划代码及地址名载入哈希表模块,根据地址名对微博微信等文本进行分词并获取行政区划代码序列模块,行政区划代码处理并判断微博微信文本中地名模块。本发明结合微博微信的作者的注册地址及哈希表K‑V方法,具有执行速度快,判断地名准确的技术效果。
Description
技术领域
本发明涉及自然语言处理领域,具体涉及一种微博微信文本中地名识别方法。
背景技术
微博微信在网民的信息获取与信息提供中占了相当大的比重,人们不仅通过微博微信传递个人消息,也会发送熟知的发生事件,事件的发生相关到发生的地名,人工方法无法处理海量的微博微信文本中地名,机器识别文本中的地名方法需求迫切。
然而,中文地名数量大,没有明确规范的地名定义。并且随着经济和社会的发展,会有新的地名不断出现,中文地名用词比较自由、分散,同时中文地名用词又有相对集中的覆盖能力,地名结尾经常有地名特征词出现,如“自治区、路、水库”。但地名特征词出现的情况比较复杂:既可以作为普通用词出现,又可以出现在地名其它位置,地名长度没有严格限制等因素使得地名识别比较困难。
发明内容
本发明实施例所要解决的技术问题在于,提供一种对微博微信文本中地名识别方法,利用行政区划代码、地名库及对微博微信等文本进行地名分词获取地名,具有维护地名库方便、执行速度快,判断准确的特点。
为了解决上述技术问题,本发明实施例提出了一种微博微信文本中地名识别方法,用于根据微博微信文本中出现的系列地名,最大可能的识别该文本所涉及到的地名,所述方法包括:。
将我国行政区划代码(简称代码)及地名载入哈希表模块。
根据地名对微博微信等文本进行分词并获取行政区划代码序列模块。
行政区划代码处理并判断微博微信文本中地名模块。
计算机程序实现步骤:
(1)数据库:行政区划数据获取及保存入库,地名聚合代码计算并入库
(2)装载程序:地名及代码查询并载入内存
(3)服务程序:地名判断程序并提供服务。
附图说明
图1为本发明的流程图。
图 2 为本发明的将我国行政区划代码及地名载入哈希表模块流程图。
图 3 为本发明的根据地名对微博微信等文本进行分词并获取行政区划代码序列模块的流程图。
图 4为本发明的行政区划代码处理并判断微博微信文本中地名模块的流程图。
图 5 为本发明的计算机程序实现步骤的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
本发明实施例提供了一种微博微信文本中地名识别方法,用于根据微博微信文本中出现的系列地名,最大可能的识别该文本所涉及到的地名,下面就结合附图和具体实施例来对本发明提供的技术方案进行详细描述。请参照图1至图5,本发明实施例的微博微信文本中地名识别方法主要包括: 行政区划代码及地名载入哈希表模块S1,分词解析文本产生代码序列模块S2,代码处理并判断文本出现地名模块S3,计算机程序实现系统S4。
行政区划代码及地名载入哈希表模块S1。获取行政区划代码及地址数据步骤S101,具体为,通过程序从国家统计局网站http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/ 多级提取行政区划地名及代码,然后保存入库整理,如表1,按地名聚合行政区代码步骤S102,如表2,以地名为主键代码序列为值载入哈希表步骤S103。
表1
。
表2
。
分词解析文本产生代码序列模块S2。对微博微信文本切句步骤S201,依次从前到后对句子每个字及后面的若干个字为主键在哈希表中找匹配步骤S202;若找到匹配则附加代码序列步骤S203,直到所有的句子结束步骤S204。
代码处理并判断文本出现地名模块S3。获取微博微信注册者的注册城市的行政区划代码步骤S301;拆分代码序列并附加注册者的注册城市的行政区划代码并去重步骤S302;按照代码排序步骤S303;初始省、市、区、街道代码为空步骤S304;遍历代码步骤S305;若此次代码为上次代码的下级(除省市级)步骤S306,则输出此代码,然后将代码转换成地名步骤S307后返回步骤S305,否则返回步骤S304,直到遍历结束
计算机程序实现系统S4。行政区划代码及地名保存至数据库步骤S401, 按地名聚合代码保存入库步骤S402,Java代码处理微博记录S403,如代码1,保存微博微信记录唯一标识与地名入库S404。
代码1
public String segArea(String articleS)
{
StringBuilder resultStr=new StringBuilder("");
StringBuilder article =new StringBuilder("");
String reslt="";
long posit=0;
int negi=0;
int n=0;
String wordLen[]=new String[2];
String ww="";
String pp="";
HashMap tmphashmap =new HashMap();
this.count++;
StringTokenizer st = new StringTokenizer(articleS,",.,。;;!!、\t\r\n");
int begSeg=0;
while (st.hasMoreTokens())
{
article=new StringBuilder(st.nextToken());
while (article.length()>1)
{
ww=article.substring(0,2);
this.count++;
while (article.length()>1 && !(this.hasmap1.containsKey(ww)))
{。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同范围限定。
Claims (6)
1.一种微博微信文本中地名识别方法,利用行政区划代码、地名库及对微博微信等文本进行地名分词获取地名,其特征在于,包含以下模块:
1.1 行政区划代码及地名载入
1.2 分词解析文本产生代码序列
1.3 代码处理行政区划代码并判断文本出现地名。
2.如权利1要求所述的一种微博微信文本中地名识别方法,其特征在于,行政区划代码及地名载入模块中,将行政区划代码及地名按照地名聚合行政区代码,以地名为主键代码序列为值载入哈希表中。
3.如权利1要求所述的一种微博微信文本中地名识别方法,其特征在于,分词解析文本产生代码序列模块中,依次对文本从前到后对每个字及后面的若干个字为主键在哈希表中找匹配,形成行政区划代码序列。
4.如权利1要求所述的一种微博微信文本中地名识别方法,其特征在于,代码处理并判断文本出现地名模块中,包含以下步骤:
4.1获取微博微信注册者的注册城市的代码
4.2 拆分代码序列并附加注册者的注册城市的代码并去重
4.3 按照代码排序
4.4 遍历代码输出地名。
5.如权利4要求所述的一种微博微信文本中地名识别方法,其特征在于,遍历代码输出地名步骤中,包含以下步骤:
5.1初始省市区街道代码为空
5.2遍历代码,除省市级别代码外,若此次代码为上次代码的下级,则输出此代码,并转换成地名,否则置初始省市区街道代码为空,继续下一个代码,直到结束。
6.如权利1至5要求所述的一种微博微信文本中地名识别方法,其特征在于,计算机程序实现步骤中,包含实现此方法的数据库及程序编码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710417036.3A CN107220240A (zh) | 2017-06-06 | 2017-06-06 | 微博微信文本中地名识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710417036.3A CN107220240A (zh) | 2017-06-06 | 2017-06-06 | 微博微信文本中地名识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107220240A true CN107220240A (zh) | 2017-09-29 |
Family
ID=59947191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710417036.3A Pending CN107220240A (zh) | 2017-06-06 | 2017-06-06 | 微博微信文本中地名识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107220240A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765773A (zh) * | 2019-10-31 | 2020-02-07 | 北京金堤科技有限公司 | 地址数据获取方法以及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102467544A (zh) * | 2010-11-16 | 2012-05-23 | 中国电信股份有限公司 | 基于空间模糊编码的信息智能搜索方法及系统 |
US20140074873A1 (en) * | 2012-09-07 | 2014-03-13 | Research In Motion Limited | Device, Method and Computer-Readable Medium For Recognizing Places |
CN105022748A (zh) * | 2014-04-28 | 2015-11-04 | 北京图盟科技有限公司 | 一种运单地址分级方法及装置 |
CN106503150A (zh) * | 2016-10-21 | 2017-03-15 | 天津海量信息技术股份有限公司 | 中文地名行政区划归属识别方法 |
-
2017
- 2017-06-06 CN CN201710417036.3A patent/CN107220240A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102467544A (zh) * | 2010-11-16 | 2012-05-23 | 中国电信股份有限公司 | 基于空间模糊编码的信息智能搜索方法及系统 |
US20140074873A1 (en) * | 2012-09-07 | 2014-03-13 | Research In Motion Limited | Device, Method and Computer-Readable Medium For Recognizing Places |
CN105022748A (zh) * | 2014-04-28 | 2015-11-04 | 北京图盟科技有限公司 | 一种运单地址分级方法及装置 |
CN106503150A (zh) * | 2016-10-21 | 2017-03-15 | 天津海量信息技术股份有限公司 | 中文地名行政区划归属识别方法 |
Non-Patent Citations (1)
Title |
---|
陈建英: "面向中文地址的分词引擎设计及实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765773A (zh) * | 2019-10-31 | 2020-02-07 | 北京金堤科技有限公司 | 地址数据获取方法以及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101751457B (zh) | 信息处理设备、数据库系统、信息处理方法 | |
CN103123618B (zh) | 文本相似度获取方法和装置 | |
CN102253972B (zh) | 基于网络爬虫的地名数据库维护方法 | |
CN107608949A (zh) | 一种基于语义模型的文本信息抽取方法及装置 | |
CN100369039C (zh) | 一种用数字水印技术保护数据库数据版权的方法及其应用 | |
CN102096787B (zh) | 一种基于word2007文本切分的信息隐藏方法及其装置 | |
CN103838837B (zh) | 基于语义模板的遥感元数据集成方法 | |
CN103345496B (zh) | 多媒体信息检索方法和系统 | |
CN103294781A (zh) | 一种用于处理页面数据的方法与设备 | |
CN103235811B (zh) | 一种数据存储方法及装置 | |
CN102651002A (zh) | 一种网页信息抽取方法及其系统 | |
CN104239570B (zh) | 论文的搜索方法及装置 | |
CN107590128A (zh) | 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法 | |
CN103345532A (zh) | 一种网页信息抽取方法及装置 | |
CN110457579B (zh) | 基于模板和分类器协同工作的网页去噪方法及系统 | |
CN101963972A (zh) | 情感关键词提取方法及系统 | |
CN106649360A (zh) | 数据重复性校验方法及装置 | |
CN104765882A (zh) | 一种基于网页特征字符串的互联网网站统计方法 | |
CN111190873B (zh) | 一种用于云原生系统日志训练的日志模式提取方法及系统 | |
CN105117447A (zh) | 一种xml文档数据的处理方法及系统 | |
CN107220240A (zh) | 微博微信文本中地名识别方法 | |
CN103257961B (zh) | 书目消重的方法、装置及系统 | |
CN105589918B (zh) | 一种提取页面信息的方法及装置 | |
CN109446298A (zh) | 模板匹配方法及装置、计算机设备及可读介质 | |
Han et al. | An automatic web news article contents extraction system based on RSS feeds |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170929 |
|
RJ01 | Rejection of invention patent application after publication |