CN102411568A - 基于旅游业特征词库的中文分词方法 - Google Patents

基于旅游业特征词库的中文分词方法 Download PDF

Info

Publication number
CN102411568A
CN102411568A CN2010102875334A CN201010287533A CN102411568A CN 102411568 A CN102411568 A CN 102411568A CN 2010102875334 A CN2010102875334 A CN 2010102875334A CN 201010287533 A CN201010287533 A CN 201010287533A CN 102411568 A CN102411568 A CN 102411568A
Authority
CN
China
Prior art keywords
word
dictionary
tourist industry
industry characteristic
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010102875334A
Other languages
English (en)
Inventor
吴志祥
张海龙
马和平
王专
吴剑
郭凤林
靳彩娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongcheng Network Technology Co Ltd
Original Assignee
SUZHOU TONGCHENG TRAVEL NETWORK TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUZHOU TONGCHENG TRAVEL NETWORK TECHNOLOGY CO LTD filed Critical SUZHOU TONGCHENG TRAVEL NETWORK TECHNOLOGY CO LTD
Priority to CN2010102875334A priority Critical patent/CN102411568A/zh
Publication of CN102411568A publication Critical patent/CN102411568A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明涉及一种基于旅游业特征词库的中文分词方法,特点是:建立初始旅游业特征词库,分析出一些旅游业特征词语,将两处收集到的旅游业特征词语进行合并,形成初始旅游业特征词库。通过索引服务器定期建立索引库,对旅游业特征词库中的特征词语进行分词,通过一次哈希运算直接定位汉字的首字位置,配合以词为单位的有序表,建立旅游业特征词库正文。通过首字哈希索引表和旅游业特征词库配合,实现指定词在旅游业特征词库正文中的快速查找。由此,对于新词能很好的识别,同时解决歧义识别难题。并且,解决用户精准查找信息的需求,使用垂直搜索引擎的人,对于需求的信息非常明确。为本领域的技术进步拓展了空间,实施效果好。

Description

基于旅游业特征词库的中文分词方法
技术领域
本发明涉及一种中文分词方法,尤其涉及一种基于旅游业特征词库的中文分词方法。
背景技术
伴随信息的快速增长,人们想准确找到对自己有用的信息变得很困难,使搜索引擎成为人们查找信息的首选工具,谷歌、百度是大家共知的全文搜索引擎。随着搜索市场价值的不断增加,人们对信息准确性、实用性的要求越来越高,全文搜索引擎已经不能满足人们的需求,随之而来的垂直搜索引擎越来越受到人们的喜爱,垂直搜索专注于特定的搜索领域和搜索需求(例如:酒店搜索、旅游搜索、火车票搜索等等),在其特定的搜索领域有更好的用户体验。垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的就是中文分词技术。
什么是中文分词
英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am astudent,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词。我是一个学生,分词的结果是:我/是/一个/学生。
中文分词和搜索引擎
中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在大数据量下面所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,展示给用户,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。
中文分词技术
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
1、基于字符串匹配的分词方法
这种方法又叫做机械分词方法,它是按照一定的策略将要分析的汉字串与一个“充分大的”机器词库中的词语进行匹配,若在词库中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配。常用的几种机械分词方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小)。
2、基于理解的分词方法
这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。
3、基于统计的分词方法
词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词库,因而又叫做无词库分词法或统计取词方法。
分词中的难题
1、歧义识别
歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面的”和“表面的”。这种称为交叉歧义。
交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?
如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。
2、新词识别
新词,专业术语称为未登录词。也就是那些在词库中都没有收录过,但又确实能称为词的那些词。最典型的是人名,新词中除了人名以外,还有机构名、景点名、火车站名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。
分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理的数据量过大,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。
发明内容
本发明的目的就是为了解决现有技术中存在的上述问题,提供一种基于旅游业特征词库的中文分词方法。
本发明的目的通过以下技术方案来实现:
基于旅游业特征词库的中文分词方法,其中:建立初始旅游业特征词库,包括对行业内已经存在的旅游业特征词语的收集整理,再根据以前网站的系统运行日志,分析出一些旅游业特征词语,将两处收集到的旅游业特征词语进行合并,形成初始旅游业特征词库;通过索引服务器定期建立索引库,为用户提供查询工作,将用户查询日志传给日志服务器;对旅游业特征词库中的特征词语进行分词,包括词语首字哈希索引,既将旅游业特征词库中的词语首字取出后去除重复,通过一次哈希运算直接定位汉字的首字位置,配合以词为单位的有序表,建立旅游业特征词库正文;通过首字哈希索引表和旅游业特征词库配合,实现指定词在旅游业特征词库正文中的快速查找。
上述的基于旅游业特征词库的中文分词方法,其中:所述的旅游业特征词库在每个周期制定时间,将已经分析好的线上网站运行日志进行统计,将发现的新词放入新词库,在新词库中停留一个月,之后将已经确定的新词库中的词转入旅游业特征词库;对于新形成的热点词语,直接录入旅游业特征词库。
进一步地,上述的基于旅游业特征词库的中文分词方法,其中:所述的索引服务器建立索引的过程为将用户需要的信息从存储介质中取出,作为输入源给中文分词系统,根据分出来的词存入索引库。
更进一步地,上述的基于旅游业特征词库的中文分词方法,其中:所述的首字哈希索引包括最大词长,在旅游业特征词库中的开始、结束行号,开始位置指针,指向以汉字为首字的所有词语在旅游业特征词库正文中的起始位置。
更进一步地,上述的基于旅游业特征词库的中文分词方法,其中:所述的旅游业特征词库中的特征词语进行分词时首先进行初始最大词长的选取,取出待分词字串中的每个汉字,在分词旅游业特征词库中查找以每个汉字为首字的词的最大词长,选出其中最大者与待分词字串的长度进行比较后,确定出最合适的初始最大词长。
更进一步地,上述的基于旅游业特征词库的中文分词方法,其中:所述的初始最大词长的选取为,从待分词字串的最后一个字n开始截取长度为i的字串,令它同旅游业特征词库中的词语依次匹配;如果在旅游业特征词库中找不到一个词语能同当前字串匹配,就从第n-1个字开始截取长度为i的字串并重复以上过程;如果找不到,则依次从第n-2,n-3,...个字开始截取长度为i的字串进行匹配;如果在某一次匹配中查到表中确有这样一个i字词,则匹配成功,把这个字串作为一个词从待分词字串中切分出去,把原句中位于这个字串左右两边的部分视为两个新的句子,递归调用这一过程;如果所有的匹配都不成功,说明句子中没有长度为i的词,则开始寻找长度为i-1的词;重复这个过程直到整个句子被切分;所述的n代表句子中的最后一个字,1<=i<=初始最大词长。
更进一步地,上述的基于旅游业特征词库的中文分词方法,其中:所述的索引服务器在接收用户查询之后,将用户的查询信息按照规定的格式记录下来并传给日志服务器;日志服务器在特定时间通过定时任务运行来分析当天的日志,将结果持续化保存到存储介质中。
更进一步地,上述的基于旅游业特征词库的中文分词方法,其中:所述的比较分析服务器分析出新的旅游业特征词语的过程为,取出特征词语的首字,首先与停顿词库首字索引表进行一次哈希运算,得到此首字开始词语在停顿词库正文中的起始和结束位置,从起始位置开始遍历;如果找到对应的词,将其从新词库中剔除,如果没有发现,直到词语在停顿词库正文的结束位置点时停止循环,以此循环整个过程;接着,取出词语的首字,首先与旅游业特征词库首字索引表进行一次哈希运算,得到以此首字开始词语在旅游业特征词库正文中的起始和结束位置,从起始位置开始遍历,如果找到对应的词,将其从新词库中剔除,如果没有发现,直到词语在旅游业特征词库正文的结束位置点时停止循环,以此循环整个过程;最后在停顿词库与旅游业特征词库对比结束之后,新词库中的所有词语同步到线上新词库中,此时的新词处在待观察期,通过人工筛选和用户反馈,过至少一个月之后把已经形成的新词加入到旅游业特征词库。
再进一步地,上述的基于旅游业特征词库的中文分词方法,其中:所述的旅游业特征词库结构为“词语,相关词词相关词语|……”词语与相关词语之间用逗号分开,相关词语之间用竖线分开,当切分的词在旅游业特征词库中找到相对应是词之后,再查找是否有相关词语,如果有相关词语,将相关词语作为一个词返回。
旅游业特征词库,它是指初始收集的旅游业特征词语和不断从新词库中补充过来的新词共同组成的词库。停顿词库,放一些出现频率比较高,但不是词的词语,如我的,他的等。
本发明技术方案的优点主要体现在:解决新词识别难题,对于新词能很好的识别,同时解决歧义识别难题。并且,解决用户精准查找信息的需求,使用垂直搜索引擎的人,对于需求的信息非常明确。为本领域的技术进步拓展了空间,实施效果好。
附图说明
本发明的目的、优点和特点,将通过下面优选实施例的非限制性说明进行图示和解释。这些实施例仅是应用本发明技术方案的典型范例,凡采取等同替换或者等效变换而形成的技术方案,均落在本发明要求保护的范围之内。这些附图当中,
图1是本基于旅游业特征词库的中文分词方法的整体施示意图;
图2是逆向最大匹配算法的示意图;
图3是新词发现示意图;
图4是旅游业特征词库的划分示意图。
图中各附图标记的含义如下:
1 索引服务器        2 旅游业特征词库
3 比较分析服务器    4 新词库
5 日志服务器
具体实施方式
如图1~4所示的基于旅游业特征词库2的中文分词方法,其特别之处在于:建立初始旅游业特征词库2,包括对行业内已经存在的特征词语的收集整理,并根据以前网站的系统运行日志,分析出新的旅游业特征词语,将两个特征词语进行合并,形成初始旅游业特征词库2。并且,通过索引服务器1定期建立索引库,为用户提供查询工作,将用户查询日志传给日志服务器5。同时对旅游业特征词库2中的特征词语进行分词。具体来说,包括词语首字哈希(Hash)索引,既将旅游业特征词库2中的词语首字取出后去除重复,通过一次哈希运算直接定位汉字的首字位置,配合以词为单位的有序表,建立词库正文。再者,通过首字哈希索引表和旅游业特征词库2配合,实现指定词在词库正文中的快速查找。
就本发明一较佳的实施方式来看,采用的旅游业特征词库2在每个周期制定时间如每个月月初,将已经分析好的线上网站运行日志进行统计,将发现的新词放入新词库4。并且,让新词在新词库4中停留一个月,之后将已经确定的新词转入旅游业特征词库2。与之对应的是,对于新发现的热点词语,可通过快速反应机制,直接录入旅游业特征词库2。具体来说,快速反应机制:旅游业特征词库2维护人员发现一些词语,这些词语被搜索的频率非常的高,并且旅游业特征词库2中不存在此词语,可以初步界定为新发现的热点词语,上报到项目经理,由项目经理召开短暂的讨论会,确定是否为热点词语,如果是则下任务给旅游业特征词库2维护人员,让他们通过程序后台将热点词语直接添加到旅游业特征词库2当中。由于此过程非常消耗性能,为不影响正常服务,所以定为快速反应机制,并对使用频率做严格限制。同时,索引服务器1建立索引的过程为将用户需要的信息从存储介质,如硬盘上的文本文件、数据库等中取出,作为输入源给中文分词系统,根据分出来的词存入索引库。
进一步来看,传统分词词库有以下缺点:一个是数据没有经过有效的组织、内容查找的计算复杂度为O(n)(n为旅游业特征词库2中词语数);另一个是最大匹配长度确定不合理,中文词的字数以2为主,但存在长度不一的现象,此时最大的长度很难确定,如果以旅游业特征词库2中最大词的长度,则每次分词都有很多次无意义的循环,效率不高,处理时间过长;如果最大的长度定得比较短,则会有一些词分不出来。并且旅游业特征词库2中会不断的增加新词,旅游业特征词库2中的最大词长也是动态在变。因此,本发明所述的首字哈希索引包括最大词长,在旅游业特征词库2中的开始、结束行号,开始位置指针,指向以汉字为首字的所有词语在旅游业特征词库2正文中的起始位置。
具体来说,现有的分词方法中往往会采用逆向最大匹配算法遵循“长词优先”的原则,即认为同一个句子,切分所得的词数量少时是最佳切分结果。但是,这一原则虽然会引发一些切分错误:首先,两个算法都是以分词旅游业特征词库2中最大词语所含的汉字个数n为匹配的初始最大词长,这样的做法会造成很多无用的循环匹配,效率低。其次,“长词优先”这一原则都是在局部范围内进行的,即每次最大匹配的范围都是最后i个字符,这样并没有充分体现“长词优先”的原则,例如:
句子1:当中华人民共和国成立的时候。
句子2:当他看到小孩子时。
逆向最大匹配算法进行分词,第1个句子的结果是:当/中华人民共和国/成立/的/时候,切分是正确的,但第2个句子的结果是:当/他/看到/小孩/子时,显然切分时错误的。
可以看到此算法存在歧义切分。这里歧义产生的原因是没有充分体现“长词优先”的原则。中华人民共和国和小孩子都是句子里最长的词,但是在某些情况下被切分开来。
为了更合理的确定初始最大词长以及避免上述一些歧义切分,必须在整个句子的范围内实现“长词优先”的原则。为此,本发明采用提出了改进的逆向最大匹配方式。
具体来说,所述的旅游业特征词库2中的特征词语进行分词时首先进行初始最大词长的选取,取出待分词字串中的每个汉字,在分词词库中查找以每个汉字为首字的词的最大词长,选出其中最大者与待分词字串的长度进行比较后,确定出最合适的初始最大词长。并且,初始最大词长的选取为,从待分词字串的最后一个字n开始截取长度为i的字串,令它同旅游业特征词库2中的词语依次匹配。如果在旅游业特征词库2中找不到一个词语能同当前字串匹配,就从第n-1个字开始截取长度为i的字串并重复以上过程。如果找不到,则依次从第n-2,n-3,…个字开始截取长度为i的字串进行匹配。如果在某一次匹配中查到表中确有这样一个i字词,则匹配成功,把这个字串作为一个词从待分词字串中切分出去,把原句中位于这个字串左右两边的部分视为两个新的句子,递归调用这一过程。如果所有的匹配都不成功,说明句子中没有长度为i的词,则开始寻找长度为i-1的词;重复这个过程直到整个句子被切分。n代表句子中的最后一个字;1<=i<=初始最大词长。
为了更好的实现分词后的更新,本发明采用的索引服务器1在接收用户查询之后,将用户的查询信息按照规定的格式记录下来并传给日志服务器5。日志服务器5在特定时间如每天,通过定时任务运行来分析当天的日志,将结果持续化保存到存储介质中。这些存储介质可以为硬盘上的文本文件或是数据库等。由此,可确保每个月会有定时的新词发现程序进行分析找出新词。
结合本发明实际分析出新的旅游业特征词语的过程来看,比较分析服务器3取出特征词语的首字,首先与停顿词库首字索引表进行一次哈希运算,得到此首字开始词语在词库正文中的起始和结束位置,从起始位置开始遍历。在后续过程中,如果找到对应的词,将其从新词库中剔除。如果没有发现,直到词语在词库正文的结束位置点时停止循环,以此循环整个过程。接着,取出词语的首字,首先与旅游业特征词库首字索引表进行一次哈希运算,得到以此首字开始词语在词库正文中的起始和结束位置,从起始位置开始遍历。在此期间,如果找到对应的词,则将其从新词库中剔除。如果没有发现,则直到词语在词库正文的结束位置点时停止循环,以此循环整个过程。最后在停顿词库与旅游业特征词库对比结束之后,新词库中的所有词语同步到线上新词库中,此时的新词处在待观察期,通过人工筛选和用户反馈,过至少一个月之后把已经形成的新词加入到旅游业特征词库。以此类推,旅游业特征词库会不断的得到完善,解决新词识别的难题。
再结合本发明的具体实施过程来看,将本基于旅游业特征词库的中文分词方法与垂直搜索引擎相结合,可实现用户需求明确,搜索条件明确,选择过虑的丰富的功能。以火车票查询为例:用户需要输入出发站和到达站,用户点击输入框时会有提示,用来正确引导用户输入,系统也会根据用户输入的信息时时查找已有的信息,引导用户正确输入,这样就很好的解决了词语歧义的问题。
以火车时刻表查询为例,以下是五家行业内火车票查询比较有名的网站,以此作为实施结果的对比:
http://www.huoche.com.cn/       火车网
http://www.12306.cn/            中国铁路客户服务中心
http://search.huochepiao.com/   火车票网
http://huoche.kuxun.cn/         酷讯网
http://www.17u.com/train/       同程网火车票频道
用户在搜索关键词为“泰安”时,除“同程网火车票频道”以外,其它频道全部搜索不出来。此时,使用者也许会质疑——是不是泰安没有火车站?其实是有的,只是火车站名叫做“泰山”,通过地理知道我们知道泰山位于山东省中部,隶属于泰安市,所以泰安也就应该是有火车站的,但是为什么其它网站搜索不出来,原因是他们都是基于数据库的。具体来说,数据库内的数据更新慢且无法做到精确的分词匹配。而本发明能够将“泰安”进行有效的分词,并与旅游业特征词库相配合,得到泰安与泰山的关系。实现方式如下在建立索引的过程中将词语进行切分并与旅游业特征词库中词语进行对比,匹配成功则作为一个词语存入索引库,之后再查找相关词语,找到之后也作为词语存入索引库;以泰山和泰安为例,建立索引时切分出泰山一词,并到旅游业特征词库中对比,匹配成功,将泰山作为一个词语存入索引库,查找相关词语泰安匹配成功,将泰安作为一个词语也存入索引库。这样泰山和泰安对应的就是一条相同的记录,当用户搜索泰安或者是泰山的时候都会找到想要的数据。
同样的,用户在搜索“抚顺城”除“同程网火车票频道”以外,其它频道全部搜索不出来。查找原因发现抚顺城站已于2009年6月26日更名为“抚顺北站”。新抚顺北站在原来抚顺城站站址上重建,对站台进行了改造,具备了通行动车的能力。利用旅游业特征词库的中文分词技术很好的解决了这一问题,为习惯于搜索“抚顺城”老火车站名的用户提供的极大的方便。其原理同泰安与泰山的查找相同。
解决新词识别难题,传统全文搜索引擎涉及的面大、量多、变化不确定等因素,对于新词不能很好的识别,如对网友新发明的词语、突发事件中的词语等。而基于旅游业的旅游业特征词库就不存在这些问题,因为新词出现的频率比较低、大多数都能固化下来,也比较容易识别。
同时解决歧义识别难题,传统全文搜索引擎一个输入框,让用户输入一些词语搜索,但是往往用户输入一句话,有时是有歧义的一句话,这样给歧义识别造成了很大的困难。而垂直搜索引擎对于输入框中要输入的内容明确,并且大多数都有提示引导用户正确输入。
并且,解决用户精准查找信息的需求,使用垂直搜索引擎的人,对于需求的信息非常明确。
通过上述的文字表述并结合附图可以看出,采用本发明后:
解决新词识别难题,传统全文搜索引擎涉及的面大、量多、变化不确定等因素,对于新词不能很好的识别,如对网友新发明的词语、突发事件中的词语等。而基于旅游业的旅游业特征词库就不存在这些问题,因为新词出现的频率比较低、大多数都能固化下来,也比较容易识别。
同时解决歧义识别难题,传统全文搜索引擎一个输入框,让用户输入一些词语搜索,但是往往用户输入一句话,有时是有歧义的一句话,这样给歧义识别造成了很大的困难。而垂直搜索引擎对于输入框中要输入的内容明确,并且大多数都有提示引导用户正确输入。
并且,解决用户精准查找信息的需求,使用垂直搜索引擎的人,对于需求的信息非常明确。

Claims (9)

1.基于旅游业特征词库的中文分词方法,其特征在于:建立初始旅游业特征词库,包括对行业内已经存在的旅游业特征词语的收集整理,再根据以前网站的系统运行日志,分析出一些旅游业特征词语,将两处收集到的旅游业特征词语进行合并,形成初始旅游业特征词库;通过索引服务器定期建立索引库,为用户提供查询工作,将用户查询日志传给日志服务器;对旅游业特征词库中的特征词语进行分词,包括词语首字哈希索引,既将旅游业特征词库中的词语首字取出后去除重复,通过一次哈希运算直接定位汉字的首字位置,配合以词为单位的有序表,建立旅游业特征词库正文;通过首字哈希索引表和旅游业特征词库配合,实现指定词在旅游业特征词库正文中的快速查找。
2.根据权利要求1所述的基于旅游业特征词库的中文分词方法,其特征在于:所述的旅游业特征词库在每个周期制定时间,将已经分析好的线上网站运行日志进行统计,将发现的新词放入新词库,在新词库中停留一个月,之后将已经确定的新词库中的词转入旅游业特征词库;对于新形成的热点词语,直接录入旅游业特征词库。
3.根据权利要求1所述的基于旅游业特征词库的中文分词方法,其特征在于:所述的索引服务器建立索引的过程为将用户需要的信息从存储介质中取出,作为输入源给中文分词系统,根据分出来的词存入索引库。
4.根据权利要求1所述的基于旅游业特征词库的中文分词方法,其特征在于:所述的首字哈希索引包括最大词长,在旅游业特征词库中的开始、结束行号,开始位置指针,指向以汉字为首字的所有词语在旅游业特征词库正文中的起始位置。
5.根据权利要求1所述的基于旅游业特征词库的中文分词方法,其特征在于:所述的旅游业特征词库中的特征词语进行分词时首先进行初始最大词长的选取,取出待分词字串中的每个汉字,在分词旅游业特征词库中查找以每个汉字为首字的词的最大词长,选出其中最大者与待分词字串的长度进行比较后,确定出最合适的初始最大词长。
6.根据权利要求5所述的基于旅游业特征词库的中文分词方法,其特征在于:所述的初始最大词长的选取为,从待分词字串的最后一个字n开始截取长度为i的字串,令它同旅游业特征词库中的词语依次匹配;如果在旅游业特征词库中找不到一个词语能同当前字串匹配,就从第n-1个字开始截取长度为i的字串并重复以上过程;如果找不到,则依次从第n-2,n-3,...个字开始截取长度为i的字串进行匹配;如果在某一次匹配中查到表中确有这样一个i字词,则匹配成功,把这个字串作为一个词从待分词字串中切分出去,把原句中位于这个字串左右两边的部分视为两个新的句子,递归调用这一过程;如果所有的匹配都不成功,说明句子中没有长度为i的词,则开始寻找长度为i-1的词;重复这个过程直到整个句子被切分;所述的n代表句子中的最后一个字,1<=i<=初始最大词长。
7.根据权利要求1所述的基于旅游业特征词库的中文分词方法,其特征在于:所述的索引服务器在接收用户查询之后,将用户的查询信息按照规定的格式记录下来并传给日志服务器;日志服务器在特定时间通过定时任务运行来分析当天的日志,将结果持续化保存到存储介质中。
8.根据权利要求1所述的基于旅游业特征词库的中文分词方法,其特征在于:所述的比较分析服务器分析出新的旅游业特征词语的过程为,取出特征词语的首字,首先与停顿词库首字索引表进行一次哈希运算,得到此首字开始词语在停顿词库正文中的起始和结束位置,从起始位置开始遍历;如果找到对应的词,将其从新词库中剔除,如果没有发现,直到词语在停顿词库正文的结束位置点时停止循环,以此循环整个过程;接着,取出词语的首字,首先与旅游业特征词库首字索引表进行一次哈希运算,得到以此首字开始词语在旅游业特征词库正文中的起始和结束位置,从起始位置开始遍历,如果找到对应的词,将其从新词库中剔除,如果没有发现,直到词语在旅游业特征词库正文的结束位置点时停止循环,以此循环整个过程;最后在停顿词库与旅游业特征词库对比结束之后,新词库中的所有词语同步到线上新词库中,此时的新词处在待观察期,通过人工筛选和用户反馈,过至少一个月之后把已经形成的新词加入到旅游业特征词库。
9.根据权利要求1所述的基于旅游业特征词库的中文分词方法,其特征在于:所述的旅游业特征词库结构为“词语,相关词语|相关词语|……”词语与相关词语之间用逗号分开,相关词语之间用竖线分开,当切分的词在旅游业特征词库中找到相对应是词之后,再查找是否有相关词语,如果有相关词语,将相关词语作为一个词返回。
CN2010102875334A 2010-09-20 2010-09-20 基于旅游业特征词库的中文分词方法 Pending CN102411568A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102875334A CN102411568A (zh) 2010-09-20 2010-09-20 基于旅游业特征词库的中文分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102875334A CN102411568A (zh) 2010-09-20 2010-09-20 基于旅游业特征词库的中文分词方法

Publications (1)

Publication Number Publication Date
CN102411568A true CN102411568A (zh) 2012-04-11

Family

ID=45913645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102875334A Pending CN102411568A (zh) 2010-09-20 2010-09-20 基于旅游业特征词库的中文分词方法

Country Status (1)

Country Link
CN (1) CN102411568A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514217A (zh) * 2012-06-30 2014-01-15 重庆新媒农信科技有限公司 检索应用中检索条件的关联提示处理方法及系统
CN103778161A (zh) * 2012-10-26 2014-05-07 同程网络科技股份有限公司 适用于中文词库的分词歧义排除方法
CN105045853A (zh) * 2015-07-07 2015-11-11 浪潮通用软件有限公司 一种行业数据匹配的方法和装置
CN107424612A (zh) * 2017-07-28 2017-12-01 北京搜狗科技发展有限公司 处理方法、装置和机器可读介质
CN108536724A (zh) * 2018-02-13 2018-09-14 西安理工大学 一种基于双层哈希索引的地铁设计规范中主体识别方法
CN109062898A (zh) * 2018-07-27 2018-12-21 汉能移动能源控股集团有限公司 特征词去重方法、装置、设备及其存储介质
CN109522559A (zh) * 2018-11-26 2019-03-26 安徽继远软件有限公司 一种电网营配系统中文分词的方法及系统
CN110020422A (zh) * 2018-11-26 2019-07-16 阿里巴巴集团控股有限公司 特征词的确定方法、装置和服务器
CN113033193A (zh) * 2021-01-20 2021-06-25 山谷网安科技股份有限公司 一种基于c++语言的混合型中文文本分词方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514217A (zh) * 2012-06-30 2014-01-15 重庆新媒农信科技有限公司 检索应用中检索条件的关联提示处理方法及系统
CN103514217B (zh) * 2012-06-30 2017-02-08 重庆新媒农信科技有限公司 检索应用中检索条件的关联提示处理方法及系统
CN103778161A (zh) * 2012-10-26 2014-05-07 同程网络科技股份有限公司 适用于中文词库的分词歧义排除方法
CN105045853A (zh) * 2015-07-07 2015-11-11 浪潮通用软件有限公司 一种行业数据匹配的方法和装置
CN107424612A (zh) * 2017-07-28 2017-12-01 北京搜狗科技发展有限公司 处理方法、装置和机器可读介质
CN108536724A (zh) * 2018-02-13 2018-09-14 西安理工大学 一种基于双层哈希索引的地铁设计规范中主体识别方法
CN109062898A (zh) * 2018-07-27 2018-12-21 汉能移动能源控股集团有限公司 特征词去重方法、装置、设备及其存储介质
CN109522559A (zh) * 2018-11-26 2019-03-26 安徽继远软件有限公司 一种电网营配系统中文分词的方法及系统
CN110020422A (zh) * 2018-11-26 2019-07-16 阿里巴巴集团控股有限公司 特征词的确定方法、装置和服务器
US11544459B2 (en) 2018-11-26 2023-01-03 Advanced New Technologies Co., Ltd. Method and apparatus for determining feature words and server
CN109522559B (zh) * 2018-11-26 2023-03-31 安徽继远软件有限公司 一种电网营配系统中文分词的方法及系统
CN113033193A (zh) * 2021-01-20 2021-06-25 山谷网安科技股份有限公司 一种基于c++语言的混合型中文文本分词方法
CN113033193B (zh) * 2021-01-20 2024-04-16 山谷网安科技股份有限公司 一种基于c++语言的混合型中文文本分词方法

Similar Documents

Publication Publication Date Title
CN102411568A (zh) 基于旅游业特征词库的中文分词方法
CN109492077B (zh) 基于知识图谱的石化领域问答方法及系统
US11475319B2 (en) Extracting facts from unstructured information
He et al. Learning to rewrite queries
CN101706807B (zh) 一种中文网页新词自动获取方法
US9009134B2 (en) Named entity recognition in query
WO2016112679A1 (zh) 实现智能问答的方法、系统和存储介质
CN104281702B (zh) 基于电力关键词分词的数据检索方法及装置
CN102253930B (zh) 一种文本翻译的方法及装置
CN106537370A (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统
CN107690634B (zh) 自动查询模式生成方法及系统
CN103678576A (zh) 基于动态语义分析的全文检索系统
CN103886099B (zh) 一种模糊概念的语义检索系统及方法
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN102339294B (zh) 一种对关键词进行预处理的搜索方法和系统
CN106095912B (zh) 用于生成扩展查询词的方法和装置
CN111190900A (zh) 一种云计算模式下json数据可视化优化方法
CN102737042A (zh) 建立问句生成模型的方法和装置以及问句生成方法和装置
CN102779135A (zh) 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN110888991A (zh) 一种弱标注环境下的分段式语义标注方法
Nakashole et al. Real-time population of knowledge bases: opportunities and challenges
CN111190873B (zh) 一种用于云原生系统日志训练的日志模式提取方法及系统
Li et al. Visual segmentation-based data record extraction from web documents
Cheng et al. MISDA: web services discovery approach based on mining interface semantics
Cortez et al. A flexible approach for extracting metadata from bibliographic citations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: TONGCHENG NETWORK TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: SUZHOU TONGCHENG TRAVEL NETWORK TECHNOLOGY CO., LTD.

Effective date: 20121219

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 215123 SUZHOU, JIANGSU PROVINCE TO: 215021 SUZHOU, JIANGSU PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20121219

Address after: Xinghu Street Industrial Park of Suzhou city in Jiangsu province 215021 Creative Industry Park 5 Building No. 328

Applicant after: Tongcheng Network Technology Co., Ltd.

Address before: Xinghu Street Industrial Park of Suzhou city in Jiangsu province 215123 Creative Industry Park 5 Building No. 328

Applicant before: Suzhou Tongcheng Travel Network Technology Co.,Ltd.

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120411