CN105279150A - 一种基于lucene全文检索的中文分词方法 - Google Patents

一种基于lucene全文检索的中文分词方法 Download PDF

Info

Publication number
CN105279150A
CN105279150A CN201510704461.1A CN201510704461A CN105279150A CN 105279150 A CN105279150 A CN 105279150A CN 201510704461 A CN201510704461 A CN 201510704461A CN 105279150 A CN105279150 A CN 105279150A
Authority
CN
China
Prior art keywords
word
dictionary
lemma
chinese
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510704461.1A
Other languages
English (en)
Inventor
王成现
王全强
郝翠萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Jiangsu Electric Power Co Ltd
Jiangsu Electric Power Information Technology Co Ltd
Original Assignee
State Grid Jiangsu Electric Power Co Ltd
Jiangsu Electric Power Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Jiangsu Electric Power Co Ltd, Jiangsu Electric Power Information Technology Co Ltd filed Critical State Grid Jiangsu Electric Power Co Ltd
Priority to CN201510704461.1A priority Critical patent/CN105279150A/zh
Publication of CN105279150A publication Critical patent/CN105279150A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于lucene全文检索的中文分词方法,将字典以每行一个词的形式存储在数据库中;将数据库中的字典以树的形式缓存在服务器中;输入需要分词的文本信息;文本逐字匹配缓存中的字典树,输出匹配成功的最长的词语;输出分词结果。该方法使用户可以从海量模糊数据中,提取有用信息加以详细研究和概括总结,方便用户进行语义分析和数据分析,从而及时发现营销服务中的问题,提高电网营销服务水平。

Description

一种基于lucene全文检索的中文分词方法
技术领域
本发明属于电力系统,涉及一种用于电力系统数据分析方法,具体地说是一种基于lucene全文检索的中文分词方法。
背景技术
在目前电力系统,特别是营销领域中,数据量大,涉及面广,值得深入分析挖掘。但由于多为文字描述,存在信息模糊、冗余的问题,难以使用传统数据分析方法定量准确分析。
发明内容
针对现有技术中存在的问题,本发明的目的是提供一种基于lucene全文检索的中文分词方法,该方法对系统中收集的海量中文文本信息进行分词操作,不仅可以在分词前通过维护分词所依赖的字典,使分词更加切合电网系统实际,而且可以通过后期对分词结果的进一步分析归纳,使得结果更加清晰明了。从分词前中后三个阶段出发,更好地提取营销领域信息,加深对营销问题的理解。
本发明的目的通过以下技术方案实现:
一种用于电力系统异常分类封装的方法,其特征在于该方法包括以下步骤:
1)将字典以每行一个词的形式存储在数据库中;
2)将数据库中的字典以树的形式缓存在服务器中;
3)输入需要分词的文本信息;
4)文本逐字匹配缓存中的字典树,输出匹配成功的最长的词语;
5)输出分词结果。
本发明在程序运行之前,可以人工维护字典,除了程序自带的包含常用词语的主词典和常用量词的量词词典以外,用户可根据需要增加拓展词典和停止词词典,拓展词典中可以添加电力系统的专有词汇,停止词词典中可以添加统计不关心的词汇,如虚词、连接词等。
本发明在程序运行过程中,首先将数据库中的字典以树的数据结构形式缓存在系统内存当中,缓存中的字典一共分为主词典、停止词词典和量词字典三个,用户添加的拓展词典缓存在主词典中。分词过程中,依次取出输入文本的单个词元,首先进行该词元与其后词元的合并操作,若前后词元符合:英文数词与中文数词、英文数词与中文量词、中文数词与中文量词这三类结构,则直接将前后词元合并得到新词元,若不满足,则不合并。将词元与停止词词典匹配,若匹配上,则放弃该词元,继续取下一个词元;若未匹配上,继续与主词典匹配。主词典若未匹配上,则输出该词元,即该词元分词结束;若匹配上,则将该词元与下一个词元合并,继续重复上述过程,直至全部文本取完。
分词结束后,对于得到的分词结果,可进行同义词分析,即对得到的分词结果,逐一判断是否存在同义词,如果存在,则保存时以该组同义词的主次保存,如不存在,则以原词保存。
本发明将字典词条缓存在服务器内存中,并根据缓存的字典词条,将文本段落拆分成相应的字词,通过统计拆分所得字词,来分析段落语句。该方法还支持多词典:可屏蔽掉部分无用的词语的停止词词典、增加电网相关专有名词的拓展词典、将多个意义相同的词汇在统计上合并为一个主词的同义词词典等,从而提高数据分析效率。
本发明对于电网系统中海量文本信息进行分词,使难于统计的文本信息转变成易于统计的字词信息,并通过前期字典维护,过滤掉无关信息,以及后期同义词转化,合并同类信息,使得分词结果更加清晰明了。使用户可以从海量模糊数据中,提取有用信息加以详细研究和概括总结,方便用户进行语义分析和数据分析,从而及时发现营销服务中的问题,提高电网营销服务水平。
附图说明
图1是基于lucene全文检索的中文分词方法的流程图。
具体实施方式
一种基于lucene全文检索的中文分词方法,图1是用基于lucene全文检索的中文分词方法的流程图。该方法包括以下步骤:
1.将字典以每行一个词的形式存储在数据库中。除了程序自带的包含常用词语的主词典和常用量词的量词词典以外,用户可根据需要增加拓展词典和停止词词典。
2.将数据库中的字典以树的形式缓存在服务器中。缓存中的字典一共分为主词典、停止词词典和量词字典三个,用户自行添加的拓展词词典存放在主词典中。
3.输入需要分词的文本信息;
4.输入文本逐字匹配缓存中的量词、停止词和主词三棵字典树,如果前词元和后词元可以符合数词量词结构,则两词元合并为一个词元。继续匹配停止词字典,若匹配,则放弃该词元,否则,继续匹配主词典。主词典若不不匹配,则输出该词元,该词元分词结束,否则,将该词元与下一个词元合并后,重复上述过程。
5.输出分词结果,并对得到的分词结果进行同义词分析,逐一判断是否存在同义词,如存在,则保存时以该组同义词的主词保存,如不存在,以原词保存。
本发明对于电网系统中海量文本信息进行分词,使难于统计的文本信息转变成易于统计的字词信息,并通过前期字典维护,过滤掉无关信息,以及后期同义词转化,合并同类信息,使得分词结果更加清晰明了。

Claims (4)

1.一种基于lucene全文检索的中文分词方法,其特征在于该方法具体步骤如下:
1)将字典以每行一个词的形式存储在数据库中;
2)将数据库中的字典以树的形式缓存在服务器中;
3)输入需要分词的文本信息;
4)文本逐字匹配缓存中的字典树,输出匹配成功的最长的词语;
5)输出分词结果。
2.根据权利要求1所述的基于lucene全文检索的中文分词方法,其特征在于:步骤2)中,缓存中的字典一共分为主词典、停止词词典和量词字典三个,用户可根据需要增加拓展词典,拓展词典的词条在缓存中增加在主词典之中;三个字典在服务器中以树的数据结构形式缓存。
3.根据权利要求1所述的基于lucene全文检索的中文分词方法,其特征在于:步骤4)中,依次取出输入文本的单个词元,首先进行该字符与其后词元的合并操作,若前后词元符合:英文数词与中文数词、英文数词与中文量词、中文数词与中文量词这三类结构,则直接和其后词元合并得到新的词元,若不满足,依旧判断原先取出的词元;将词元与停止词词典匹配,若匹配上,则放弃该词元,继续取下一个词元;若未匹配上,继续与主词典匹配;主词典若未匹配上,则输出该词元,即该词元分词结束;若匹配上,则将该词元与下一个词元合并,继续重复上述过程。
4.根据权利要求1所述的基于lucene全文检索的中文分词方法,其特征在于:步骤5)中,对步骤4)得到的分词结果,进行同义词分析,即对得到的分词结果,逐一判断是否存在同义词,如存在,则保存时以该组同义词的主词保存,如不存在,以原词保存。
CN201510704461.1A 2015-10-27 2015-10-27 一种基于lucene全文检索的中文分词方法 Pending CN105279150A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510704461.1A CN105279150A (zh) 2015-10-27 2015-10-27 一种基于lucene全文检索的中文分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510704461.1A CN105279150A (zh) 2015-10-27 2015-10-27 一种基于lucene全文检索的中文分词方法

Publications (1)

Publication Number Publication Date
CN105279150A true CN105279150A (zh) 2016-01-27

Family

ID=55148179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510704461.1A Pending CN105279150A (zh) 2015-10-27 2015-10-27 一种基于lucene全文检索的中文分词方法

Country Status (1)

Country Link
CN (1) CN105279150A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255972A (zh) * 2017-12-27 2018-07-06 浪潮通用软件有限公司 一种全文检索方法及系统
CN109800412A (zh) * 2018-12-10 2019-05-24 鲁东大学 一种中文分词和大数据信息检索方法及装置
CN110399568A (zh) * 2019-07-04 2019-11-01 Oppo广东移动通信有限公司 信息搜索方法、装置、终端及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6879951B1 (en) * 1999-07-29 2005-04-12 Matsushita Electric Industrial Co., Ltd. Chinese word segmentation apparatus
CN101345051A (zh) * 2008-08-19 2009-01-14 南京师范大学 带定量参数的地理信息系统语音控制方法
CN102346733A (zh) * 2010-07-30 2012-02-08 英业达股份有限公司 基于中介语言的翻译系统及其方法
CN104252542A (zh) * 2014-09-29 2014-12-31 南京航空航天大学 一种基于词库的动态规划中文分词方法
CN104536881A (zh) * 2014-11-28 2015-04-22 南京慕测信息科技有限公司 基于自然语言分析的众测错误报告优先级排序方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6879951B1 (en) * 1999-07-29 2005-04-12 Matsushita Electric Industrial Co., Ltd. Chinese word segmentation apparatus
CN101345051A (zh) * 2008-08-19 2009-01-14 南京师范大学 带定量参数的地理信息系统语音控制方法
CN102346733A (zh) * 2010-07-30 2012-02-08 英业达股份有限公司 基于中介语言的翻译系统及其方法
CN104252542A (zh) * 2014-09-29 2014-12-31 南京航空航天大学 一种基于词库的动态规划中文分词方法
CN104536881A (zh) * 2014-11-28 2015-04-22 南京慕测信息科技有限公司 基于自然语言分析的众测错误报告优先级排序方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255972A (zh) * 2017-12-27 2018-07-06 浪潮通用软件有限公司 一种全文检索方法及系统
CN109800412A (zh) * 2018-12-10 2019-05-24 鲁东大学 一种中文分词和大数据信息检索方法及装置
CN110399568A (zh) * 2019-07-04 2019-11-01 Oppo广东移动通信有限公司 信息搜索方法、装置、终端及存储介质

Similar Documents

Publication Publication Date Title
Rousseau et al. Main core retention on graph-of-words for single-document keyword extraction
CN103514183B (zh) 基于交互式文档聚类的信息检索方法及系统
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN105912609B (zh) 一种数据文件处理方法和装置
CN103473280B (zh) 一种网络可比语料的挖掘方法
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
CN104572849A (zh) 基于文本语义挖掘的标准化自动建档方法
CN104281702A (zh) 基于电力关键词分词的数据检索方法及装置
CN104391942A (zh) 基于语义图谱的短文本特征扩展方法
CN103235774A (zh) 一种科技项目申请书特征词提取方法
CN107273474A (zh) 基于潜在语义分析的自动摘要抽取方法及系统
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
CN102789464A (zh) 基于语意识别的自然语言处理方法、装置和系统
CN102654873A (zh) 基于中文分词的旅游信息抽取与聚合方法
CN104298709A (zh) 基于句间关联图的文本主题挖掘方法
CN105279150A (zh) 一种基于lucene全文检索的中文分词方法
Pham et al. Information extraction for Vietnamese real estate advertisements
CN107562774A (zh) 小语种词嵌入模型的生成方法、系统及问答方法和系统
Ahmed et al. Gold dataset for the evaluation of bangla stemmer
CN105608183A (zh) 一种提供聚合类型回答的方法和装置
Kalita et al. An extractive approach of text summarization of Assamese using WordNet
CN104572767A (zh) 一种站点语种分类的方法和系统
CN103631771A (zh) 改进语言模型的方法及装置
Zhang et al. Research and implementation of keyword extraction algorithm based on professional background knowledge
CN103729445B (zh) 词汇译文的获取方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160127