CN101458694A - 一种基于树形词库的中文分词方法 - Google Patents
一种基于树形词库的中文分词方法 Download PDFInfo
- Publication number
- CN101458694A CN101458694A CNA2008101213688A CN200810121368A CN101458694A CN 101458694 A CN101458694 A CN 101458694A CN A2008101213688 A CNA2008101213688 A CN A2008101213688A CN 200810121368 A CN200810121368 A CN 200810121368A CN 101458694 A CN101458694 A CN 101458694A
- Authority
- CN
- China
- Prior art keywords
- tree
- word
- dictionary
- participle
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 230000011218 segmentation Effects 0.000 claims description 19
- 206010028916 Neologism Diseases 0.000 claims description 16
- 230000008878 coupling Effects 0.000 claims description 16
- 238000010168 coupling process Methods 0.000 claims description 16
- 238000005859 coupling reaction Methods 0.000 claims description 16
- 230000000694 effects Effects 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000007613 environmental effect Effects 0.000 abstract 1
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 241000411851 herbal medicine Species 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及一种基于树形结构的中文分词方法,包括以下步骤:1)以单个汉字为结点,以具体的分词作为结构信息来建立树形中文分词表;2)通过对树型结构的遍历实现中文分词,利用树形词库的结构信息来存储分词信息,利用全分支检索来实现歧义包容;3)通过统计用户输入新词的频度来动态改变词库结构,从而实现新词的自动识别。本发明的有益效果:树形词库在匹配效率和匹配长度上有了很大的提高。本发明在已有的树形分词词库算法进行了扩展,实现了新词的自动识别以及分支屏蔽等功能。本技术在兼顾分词效率和分词效果的同时,增强了原有算法的灵活性和扩展性,使其可以更好的适应动态数据环境的要求。
Description
技术领域
本发明涉及搜索引擎,数据库,中文分词领域,特别是涉及一种基于树形词库的中文分词方法。
背景技术
中文分词技术发展到今天已经有许多不同的处理技术。这些技术概括起来可以归为三类有:基于匹配的分词、基于统计的分词和基于理解的分词。
在中文分词领域里,一般的分词系统都是单纯地运用了基于匹配的分词算法,而一些高级的或有特殊要求的就运用了以匹配为主的混合形分词算法,即在已有字典的基础上加入对新词的统计,从而改善对未登录词的识别率,一般情况下,混合形算法会比单纯的匹配算法的分词准确率有较大的改善,尤其是对于一些新生的专业词或网络语言等,而这往往是用户用于搜索的关键词,因此加入统计思想对最终的分词的实际效果将会有明显的效果。
考虑到该算法应用项目的特点——中医药领域的搜索系统,统计型算法将会对各种专业名次有更好的识别,而其效果会比通用型的搜索引擎要更为明显。另外,考虑到语义相关的扩展搜索功能需要有一个能转化为语义网络的词典,因此以匹配为主的混合形分词算法将具有准确高效的分词效果与良好的扩展性,更适合本项目利用。
对不同的使用目的和不同领域的查询而言,单词的意义和权重会有很大差别,所以针对不同使用对词库做部分屏蔽或重新加载可以进一步提高分词的准确性。在树形结构的分词表中,越接近根的节点其涵盖的语义越广,因此可以通过标记不同深度的节点来控制要屏蔽的语义的范围,同样也可以将某一领域需要的新词加入到树形结构中的合适位置,实现对词库语义范围的修改。从而在原有算法的基础上提高分词效率和准确度。
发明内容
本发明的目的在于克服上述技术的缺陷,而提供一种基于树形词库的中文分词方法,基于树形词库并支持新词加载和词语屏蔽的中文分词技术。
本发明的目的是通过以下技术方案来实现的。这种基于树形结构的中文分词方法,包括以下步骤:
1)以单个汉字为结点,以具体的分词作为结构信息来建立树形中文分词表;
2)通过对树型结构的遍历实现中文分词,利用树形词库的结构信息来存储分词信息,利用全分支检索来实现歧义包容;
3)通过统计用户输入新词的频度来动态改变词库结构,从而实现新词的自动识别。
本发明中步骤1)树形词库有一个公共的根节点,每个分词的首字都挂在根节点之下,第二个字再挂在首字之下,以此类推,通过结点中的标志位来判断是否为终结词。
本发明中步骤2)中对于要进行分词的字符串,将其与分词树进行匹配,到遇到一个终结符时就表示匹配到一个分词,将其加入已匹配到的词中,接下来在继续现有匹配的同时,将下一个字作为新词的首字重新进行匹配,以此来实现分支包容。
本发明中步骤3)中将无法识别的词和其出现频次储存在一个单独的表中,当其出现频度超过系统设定的阀值时,就将该词在词库中遍历,将缺少的部分插入词库中,并将其最后一个字中的终结符置为“true”。
本发明中通过在树形词库节点上加入屏蔽位来实现对词库的屏蔽和动态加载,树型结构上的所有结点都包含一个布尔变量用来标示该结点是否被屏蔽,系统读入需要屏蔽分词,将其在词库中进行匹配,并将匹配项终止结点上的屏蔽位置为“true”;当分词算法运行时,如果发现匹配项的屏蔽位被置为“true”,就忽略当前匹配;当进行词库的动态加载时,系统接受需屏蔽的词,将其在词库中遍历,如果该项已存在,就将屏蔽位置为“false”,反之则将其插入词库。
本发明的有益效果:与常用的基于数据表的词库相比,树形词库在匹配效率和匹配长度上有了很大的提高。本发明在已有的树形分词词库算法进行了扩展,实现了新词的自动识别以及分支屏蔽等功能。本技术在兼顾分词效率和分词效果的同时,增强了原有算法的灵活性和扩展性,使其可以更好的适应动态数据环境的要求。
附图说明
图1本发明中树形词表结构图;
图2本发明中分词屏蔽示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图及具体实施例对本发明作进一步地详细描述:
本发明是一种基于树形结构的中文分词方法,并实现了基于树形结构的新词添加和分支屏蔽功能,主要按以下步骤进行:
1.建立基于树形结构的分词词库:首先,建立一个根节点,再把词库中所有的首字都取出作为根节点的子节点,而第二个字则作为其子节点,以此类推,节点以ArrayedHashMap的形式储存在内存中,父节点与子节点之间的关联用HashMap中的映射来表示。
词库的具体形式见图1,其中方型结点表示中间词,是无法组成分词的,而菱型结点表示终结词,是一个完整的分词的结尾。这样,就可以在一条分支中包含多个分词,最左边高度为5的分支“中医研究中”就包含“中医”与“中医研究”两个分词。
2.在建立好词库后,分词的匹配时通过对树形词库的遍历来实现的,分支处理时这里的核心内容。该算法在遇到分支时会自动分为两条执行路径,一条按原路匹配,另一路将下个汉字作为新词的首字进行重新匹配。这样就实现了对所有可能分词的匹配。
例如我们要在图1的词库中查询“中医研究”,首先,用“中”字在根节点中匹配,找到匹配入口,然后逐字匹配,当匹配到“医”时,发现其为终结词,就将“中医”加入分词结果中。接下来就分为两路,一路继续匹配,最终得到另一个分词“中医研究”,另一路将“研”字在根节点匹配,由于词表中没有以“研”开头的分词,因此该路匹配终止。
3.新词的添加:当分词时遇到无法匹配的新词时(没有的首字,无法分割的字段),就将其内容和出现次数储存在一个数据表中。当其出现频度超过预设阀值时,就将其作为一个新词加入分词词表。
4.基于树形结构的分支屏蔽与加载。树型结构上的所有结点都包含一个布尔变量用来标示该结点是否被屏蔽。当需要进行分词屏蔽时,系统读入要屏蔽的词,将其在词库中遍历,将匹配到的项的最后结点上屏蔽位置为“true”。
需要加入新词时,系统读入需加入的词,将其在词库中遍历,如果该项存在,就将屏蔽位置为“false”,否则就将其插入词库。
在进行分词算法运行时,如果发现匹配项的屏蔽位被置为“true”,就忽略当前匹配。从而与上述过程一起实现了分支屏蔽与加载。
图2中表示的是图1的分词表在被屏蔽了“中医研究”和“中草药”这两个词后的结果,其中圆形的结点表示被屏蔽位已置位。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (5)
1.一种基于树形结构的中文分词方法,其特征在于:包括以下步骤:
1)以单个汉字为结点,以具体的分词作为结构信息来建立树形中文分词表;
2)通过对树型结构的遍历实现中文分词,利用树形词库的结构信息来存储分词信息,利用全分支检索来实现歧义包容;
3)通过统计用户输入新词的频度来动态改变词库结构,从而实现新词的自动识别。
2.根据权利要求1所述的基于树形结构的中文分词方法,其特征在于:步骤1)树形词库有一个公共的根节点,每个分词的首字都挂在根节点之下,第二个字再挂在首字之下,以此类推,通过结点中的标志位来判断是否为终结词。
3.根据权利要求1所述的基于树形结构的中文分词方法,其特征在于:步骤2)中对于要进行分词的字符串,将其与分词树进行匹配,到遇到一个终结符时就表示匹配到一个分词,将其加入已匹配到的词中,接下来在继续现有匹配的同时,将下一个字作为新词的首字重新进行匹配,以此来实现分支包容。
4、根据权利要求1所述的基于树形结构的中文分词方法,其特征在于:步骤3)中将无法识别的词和其出现频次储存在一个单独的表中,当其出现频度超过系统设定的阀值时,就将该词在词库中遍历,将缺少的部分插入词库中,并将其最后一个字中的终结符置为“true”。
5、根据权利要求1所述的基于树形结构的中文分词方法,其特征在于:通过在树形词库节点上加入屏蔽位来实现对词库的屏蔽和动态加载,树型结构上的所有结点都包含一个布尔变量用来标示该结点是否被屏蔽,系统读入需要屏蔽分词,将其在词库中进行匹配,并将匹配项终止结点上的屏蔽位置为“true”;当分词算法运行时,如果发现匹配项的屏蔽位被置为“true”,就忽略当前匹配;当进行词库的动态加载时,系统接受需屏蔽的词,将其在词库中遍历,如果该项已存在,就将屏蔽位置为“false”,反之则将其插入词库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008101213688A CN101458694A (zh) | 2008-10-09 | 2008-10-09 | 一种基于树形词库的中文分词方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008101213688A CN101458694A (zh) | 2008-10-09 | 2008-10-09 | 一种基于树形词库的中文分词方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101458694A true CN101458694A (zh) | 2009-06-17 |
Family
ID=40769559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2008101213688A Pending CN101458694A (zh) | 2008-10-09 | 2008-10-09 | 一种基于树形词库的中文分词方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101458694A (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101950284A (zh) * | 2010-09-27 | 2011-01-19 | 北京新媒传信科技有限公司 | 中文分词方法及系统 |
CN102331999A (zh) * | 2011-07-22 | 2012-01-25 | 大连亿创天地科技发展有限公司 | 一种用于医疗行业搜索框检索方法及系统 |
CN102682090A (zh) * | 2012-04-26 | 2012-09-19 | 焦点科技股份有限公司 | 一种基于聚合词树的敏感词匹配处理系统及方法 |
CN102768681A (zh) * | 2012-06-26 | 2012-11-07 | 北京奇虎科技有限公司 | 一种用于搜索输入的推荐系统及方法 |
CN103092360A (zh) * | 2011-11-07 | 2013-05-08 | 深圳市快播科技有限公司 | 一种机顶盒视频文件名称输入的方法及其机顶盒 |
CN103377259A (zh) * | 2012-04-28 | 2013-10-30 | 北京新媒传信科技有限公司 | 一种多模式字符串匹配方法和装置 |
CN103984688A (zh) * | 2013-04-28 | 2014-08-13 | 百度在线网络技术(北京)有限公司 | 一种基于本地词库提供输入候选词条的方法与设备 |
CN104199954A (zh) * | 2012-06-26 | 2014-12-10 | 北京奇虎科技有限公司 | 一种用于搜索输入的推荐系统及方法 |
CN104268176A (zh) * | 2012-06-26 | 2015-01-07 | 北京奇虎科技有限公司 | 一种基于搜索关键词的推荐方法及系统 |
CN104765890A (zh) * | 2015-04-30 | 2015-07-08 | 深圳市优网科技有限公司 | 一种快速查找方法和装置 |
CN105468792A (zh) * | 2016-01-13 | 2016-04-06 | 山东合天智汇信息技术有限公司 | 一种基于大数据的模糊查询方法及系统 |
CN103778179B (zh) * | 2012-10-25 | 2017-04-12 | 株式会社日立制作所 | 数据库分析装置和数据库分析方法 |
CN106709065A (zh) * | 2017-01-19 | 2017-05-24 | 国家电网公司 | 一种地址信息标准化处理方法及装置 |
CN107301170A (zh) * | 2017-06-19 | 2017-10-27 | 北京百度网讯科技有限公司 | 基于人工智能的切分语句的方法和装置 |
CN108228657A (zh) * | 2016-12-22 | 2018-06-29 | 沈阳美行科技有限公司 | 一种关键字检索的实现方法及装置 |
CN109753648A (zh) * | 2018-11-30 | 2019-05-14 | 平安科技(深圳)有限公司 | 词链模型的生成方法、装置、设备及计算机可读存储介质 |
CN109992776A (zh) * | 2019-03-26 | 2019-07-09 | 北京博瑞彤芸文化传播股份有限公司 | 一种中文分词方法 |
CN111178065A (zh) * | 2019-12-12 | 2020-05-19 | 中国建设银行股份有限公司 | 分词识别词库构建方法、中文分词方法和装置 |
CN111274805A (zh) * | 2020-01-19 | 2020-06-12 | 上海众言网络科技有限公司 | 对疑似词进行处理的方法和装置 |
-
2008
- 2008-10-09 CN CNA2008101213688A patent/CN101458694A/zh active Pending
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101950284A (zh) * | 2010-09-27 | 2011-01-19 | 北京新媒传信科技有限公司 | 中文分词方法及系统 |
CN101950284B (zh) * | 2010-09-27 | 2013-05-08 | 北京新媒传信科技有限公司 | 中文分词方法及系统 |
CN102331999A (zh) * | 2011-07-22 | 2012-01-25 | 大连亿创天地科技发展有限公司 | 一种用于医疗行业搜索框检索方法及系统 |
CN103092360A (zh) * | 2011-11-07 | 2013-05-08 | 深圳市快播科技有限公司 | 一种机顶盒视频文件名称输入的方法及其机顶盒 |
CN102682090A (zh) * | 2012-04-26 | 2012-09-19 | 焦点科技股份有限公司 | 一种基于聚合词树的敏感词匹配处理系统及方法 |
CN102682090B (zh) * | 2012-04-26 | 2015-09-02 | 焦点科技股份有限公司 | 一种基于聚合词树的敏感词匹配处理系统及方法 |
CN103377259B (zh) * | 2012-04-28 | 2016-12-14 | 北京新媒传信科技有限公司 | 一种多模式字符串匹配方法和装置 |
CN103377259A (zh) * | 2012-04-28 | 2013-10-30 | 北京新媒传信科技有限公司 | 一种多模式字符串匹配方法和装置 |
CN102768681A (zh) * | 2012-06-26 | 2012-11-07 | 北京奇虎科技有限公司 | 一种用于搜索输入的推荐系统及方法 |
CN102768681B (zh) * | 2012-06-26 | 2014-10-22 | 北京奇虎科技有限公司 | 一种用于搜索输入的推荐系统及方法 |
CN104268176B (zh) * | 2012-06-26 | 2017-10-31 | 北京奇虎科技有限公司 | 一种基于搜索关键词的推荐方法 |
CN104199954A (zh) * | 2012-06-26 | 2014-12-10 | 北京奇虎科技有限公司 | 一种用于搜索输入的推荐系统及方法 |
CN104268176A (zh) * | 2012-06-26 | 2015-01-07 | 北京奇虎科技有限公司 | 一种基于搜索关键词的推荐方法及系统 |
US9971834B2 (en) | 2012-06-26 | 2018-05-15 | Beijing Qihoo Technology Company Limited | Recommendation system and method for search input |
WO2014000517A1 (zh) * | 2012-06-26 | 2014-01-03 | 北京奇虎科技有限公司 | 一种用于搜索输入的推荐系统及方法 |
CN103778179B (zh) * | 2012-10-25 | 2017-04-12 | 株式会社日立制作所 | 数据库分析装置和数据库分析方法 |
CN103984688B (zh) * | 2013-04-28 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 一种基于本地词库提供输入候选词条的方法与设备 |
WO2014176959A1 (zh) * | 2013-04-28 | 2014-11-06 | 百度在线网络技术(北京)有限公司 | 一种基于本地词库提供输入候选词条的方法与设备 |
CN103984688A (zh) * | 2013-04-28 | 2014-08-13 | 百度在线网络技术(北京)有限公司 | 一种基于本地词库提供输入候选词条的方法与设备 |
CN104765890A (zh) * | 2015-04-30 | 2015-07-08 | 深圳市优网科技有限公司 | 一种快速查找方法和装置 |
CN104765890B (zh) * | 2015-04-30 | 2018-03-13 | 深圳市优网科技有限公司 | 一种快速查找方法和装置 |
CN105468792B (zh) * | 2016-01-13 | 2018-11-02 | 山东合天智汇信息技术有限公司 | 一种基于大数据的模糊查询方法及系统 |
CN105468792A (zh) * | 2016-01-13 | 2016-04-06 | 山东合天智汇信息技术有限公司 | 一种基于大数据的模糊查询方法及系统 |
CN108228657B (zh) * | 2016-12-22 | 2022-05-27 | 沈阳美行科技股份有限公司 | 一种关键字检索的实现方法及装置 |
CN108228657A (zh) * | 2016-12-22 | 2018-06-29 | 沈阳美行科技有限公司 | 一种关键字检索的实现方法及装置 |
CN106709065B (zh) * | 2017-01-19 | 2020-08-04 | 国家电网公司 | 一种地址信息标准化处理方法及装置 |
CN106709065A (zh) * | 2017-01-19 | 2017-05-24 | 国家电网公司 | 一种地址信息标准化处理方法及装置 |
US10755048B2 (en) | 2017-06-19 | 2020-08-25 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Artificial intelligence based method and apparatus for segmenting sentence |
CN107301170A (zh) * | 2017-06-19 | 2017-10-27 | 北京百度网讯科技有限公司 | 基于人工智能的切分语句的方法和装置 |
CN109753648A (zh) * | 2018-11-30 | 2019-05-14 | 平安科技(深圳)有限公司 | 词链模型的生成方法、装置、设备及计算机可读存储介质 |
CN109753648B (zh) * | 2018-11-30 | 2022-12-20 | 平安科技(深圳)有限公司 | 词链模型的生成方法、装置、设备及计算机可读存储介质 |
CN109992776A (zh) * | 2019-03-26 | 2019-07-09 | 北京博瑞彤芸文化传播股份有限公司 | 一种中文分词方法 |
CN111178065A (zh) * | 2019-12-12 | 2020-05-19 | 中国建设银行股份有限公司 | 分词识别词库构建方法、中文分词方法和装置 |
CN111178065B (zh) * | 2019-12-12 | 2023-06-27 | 建信金融科技有限责任公司 | 分词识别词库构建方法、中文分词方法和装置 |
CN111274805A (zh) * | 2020-01-19 | 2020-06-12 | 上海众言网络科技有限公司 | 对疑似词进行处理的方法和装置 |
CN111274805B (zh) * | 2020-01-19 | 2020-11-20 | 上海众言网络科技有限公司 | 对疑似词进行处理的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101458694A (zh) | 一种基于树形词库的中文分词方法 | |
CN103810212B (zh) | 一种数据库索引的自动创建方法及系统 | |
CN111159330B (zh) | 一种数据库查询语句的生成方法及装置 | |
CN107885786B (zh) | 面向大数据的自然语言查询接口实现方法 | |
CN103425672B (zh) | 一种数据库索引的建立方法及装置 | |
CN104866511B (zh) | 一种添加多媒体文件的方法及设备 | |
CN104899264B (zh) | 一种多模式正则表达式匹配方法及装置 | |
CN103365992B (zh) | 一种基于一维线性空间实现Trie树的词典检索方法 | |
CN102955843B (zh) | 一种键值数据库的多键查找实现方法 | |
CN104008090A (zh) | 一种基于概念向量模型的多主题提取方法 | |
CN103970730A (zh) | 一种从单个中文文本中提取多主题词的方法 | |
CN103646032A (zh) | 一种基于本体和受限自然语言处理的数据库查询方法 | |
CN103186633B (zh) | 一种结构化信息抽取方法、搜索方法和装置 | |
CN106372177A (zh) | 支持混合数据类型的关联查询及模糊分组的查询扩展方法 | |
US6430557B1 (en) | Identifying a group of words using modified query words obtained from successive suffix relationships | |
CN110362824A (zh) | 一种自动纠错的方法、装置、终端设备及存储介质 | |
CN107436911A (zh) | 模糊查询方法、装置及查询系统 | |
CN100561482C (zh) | 一种嵌入式系统数据库的实现方法 | |
CN106250393A (zh) | 一种基于知识图谱的短文本理解方法及装置 | |
CN100511229C (zh) | 一种域名类信息的存储及查询方法以及系统 | |
CN107463711A (zh) | 一种数据的标签匹配方法及装置 | |
CN102314464B (zh) | 歌词搜索方法及搜索引擎 | |
Roumelis et al. | Efficient query processing on large spatial databases: a performance study | |
CN108241713A (zh) | 一种基于多元切分的倒排索引检索方法 | |
CN104077385A (zh) | 一种文件的分类及检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20090617 |