CN102799676A - 一种递归多层次中文分词方法 - Google Patents
一种递归多层次中文分词方法 Download PDFInfo
- Publication number
- CN102799676A CN102799676A CN2012102499119A CN201210249911A CN102799676A CN 102799676 A CN102799676 A CN 102799676A CN 2012102499119 A CN2012102499119 A CN 2012102499119A CN 201210249911 A CN201210249911 A CN 201210249911A CN 102799676 A CN102799676 A CN 102799676A
- Authority
- CN
- China
- Prior art keywords
- participle
- word segmentation
- dictionary tree
- current
- chinese word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种递归多层次中文分词方法,包括:对输入的中文文本使用最大匹配算法进行中文分词,和在当前字典树中对所生成的分词进行选择性地屏蔽,然后重复进行利用屏蔽后的字典树对输入的中文文本再次使用最大匹配算法进行中文分词,和对所生成的分词进行选择性地屏蔽的步骤,直至所生成的各个分词在当前字典树中都不存在非单字前缀词,结束分词过程,输出分词结果并恢复屏蔽前的字典树。本发明的递归多层次中文分词方法在基于字符串匹配的细粒度切分中文分词算法的基础上,结合递归和多层次分词,实现了保证切分粒度的同时,在各个层次的分词中都消除歧义,提高了分词的准确度。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种递归多层次中文分词方法。
背景技术
中文分词指的是将一个汉字序列切分成一个一个单独的词,分词就是将连续的汉字序列按照一定的规范重新组合成词序列的过程。现有的中文分词算法大体可分为:基于字符串匹配的分词方法和基于统计的分词方法。基于字符串匹配的分词方法将汉字序列与一个“充分大的”词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,即识别出一个词。按照扫描方向的不同,字符串匹配分词方法可以分为正向匹配算法和逆向匹配算法,按照不同长度优先匹配的情况,还可以分为最大匹配算法和最小匹配算法,按照分词的切分粒度还可以分为粗粒度切分和细粒度切分。基于字符串匹配的中文分词方法具有效率高,更新维护灵活,能够附带类型信息,具有一定的歧义消解能力的优点,但是对于未登录词的识别能力差。粗粒度切分可以消除歧义,但是切分粒度大,细粒度切分没有消除歧义的功能,但是切分粒度小。基于统计的分词方法,是从语料中学习字成词的统计信息,从而发现一些成词规则,其对未登录词有较好的识别能力,但是效率低,更新维护麻烦,周期长,同时分词的粒度偏向于细粒度切分。在当前的很多自然语言处理领域的应用和搜索引擎的应用中,考虑到切分粒度和分词效率的双重要求,采用细切分粒度的基于字符串匹配的分词方法,生成的分词包含多个层次但是没有消除歧义的功能。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种保证中文分词切分粒度的同时,还能在各个层次的分词中都消除歧义的,能够有效提升全切分的准确度的递归多层次中文分词方法。
为实现上述目的,本发明提供了一种递归多层次中文分词方法,包括如下步骤:
步骤1,利用当前字典树对输入的中文文本使用最大匹配算法进行中文分词,生成当前分词和当前分词层次;
步骤2,在当前字典树中对步骤1中所生成的分词进行选择性地屏蔽;
步骤3,将步骤2中选择性屏蔽后的字典树作为当前字典树;
步骤4,判断上述步骤1中所生成的各个中文分词在所述当前字典树中是否存在非单字前缀词,若有一个分词存在非单字前缀词,则继续进行上述步骤1到步骤3,若各个分词都不存在非单字前缀词,则进入步骤5;
步骤5,在当前字典树中将上述各步骤中屏蔽的中文分词重新插入当前字典树,并输出分词结果。
进一步地,步骤2中所述的选择性屏蔽具体为:对于每个分词,判断在字典树中是否存在该分词的非单字前缀词,若存在该分词的非单字前缀词,则在字典树中屏蔽该分词,并记录被屏蔽的分词,若不存在该分词的非单字前缀词,则不屏蔽该分词。
进一步地,步骤1还包括记录生成的当前分词及当前分词层次。
本发明的有益效果在于:该递归多层次中文分词方法在基于字符串匹配的细粒度切分中文分词算法的基础上,结合递归和多层次分词,实现了保证切分粒度的同时,在各个层次的分词中都消除歧义,提高了分词的准确度。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的递归多层次中文分词方法的处理流程图。
具体实施方式
下面结合附图来具体说明本发明的实施例。
一种递归多层次中文分词方法,包括如下步骤:
步骤1,利用当前字典树对输入的中文文本使用最大匹配算法进行中文分词,生成当前分词和当前分词层次;
步骤2,在当前字典树中对步骤1中所生成的分词进行选择性地屏蔽;
步骤3,将步骤2中选择性屏蔽后的字典树作为当前字典树;
步骤4,判断上述步骤1中所生成的各个中文分词在所述当前字典树中是否存在非单字前缀词,若有一个分词存在非单字前缀词,则继续进行上述步骤1到步骤3,若各个分词都不存在非单字前缀词,则进入步骤5;
步骤5,在当前典树中将上述各步骤中屏蔽的中文分词重新插入当前字典树,并输出分词结果。
其中,上述步骤2中所述的选择性屏蔽具体为:对于每个分词,依次判断在字典树中是否存在该分词的非单字前缀词,若存在该分词的非单字前缀词,则在字典树中屏蔽该分词,并记录被屏蔽的该分词,若不存在该分词的非单字前缀词,则不屏蔽该分词。
其中,上述步骤1还包括记录生成的当前分词及当前分词层次,记录形式为(当前分词,当前分词层次)。
下面结合中文文本“浦东新区分中心”的分词过程,详细介绍本发明的递归多层次中文分词方法。如图1所示,首先,利用当前字典树对输入的中文文本使用最大匹配算法进行中文分词,以中文文本“浦东新区分中心”为例,使用最大匹配算法进行分词,假设当前字典树中已有的词条为“浦东新区,浦东,东新,新区,区分,分中心”,则利用最大匹配算法进行第一层中文分词的结果为“浦东新区+分中心”,记录第一层分词的结果。接着进行下一步骤,在当前字典树中对上述生成的分词进行选择性地屏蔽,并记录被屏蔽的分词。在当前字典树中分别查找第一层的分词“浦东新区”和“分中心”的非单字前缀词,分词“浦东新区”存在非单字前缀词“浦东”,所以在字典树中屏蔽分词“浦东新区”,并记录被屏蔽掉的分词“浦东新区”,分词“分中心”在字典树中不存在非单字前缀词,所以对该分词不进行屏蔽。然后将选择性屏蔽后的字典树作为当前字典树。当前层的分词“浦东新区”在字典树中存在非单字前缀词,所以继续进行下一层分词。利用当前字典树对输入的中文文本再次使用最大匹配算法进行中文分词,本实施例使用屏蔽掉“浦东新区”后的字典树对“浦东新区分中心”再次进行最大匹配算法的中文分词,得到第二层中文分词的结果为“浦东+新区+分中心”,然后在当前字典树中对第二层分词结果的每个分词进行选择性屏蔽,并记录被屏蔽的分词。在当前字典树中查找第二层的分词“浦东”、“新区”和“分中心”的非单字前缀词,因为分词“浦东”、“新区”和“分中心”在当前字典树中都不存在非单字前缀词,所以,不进行屏蔽。然后,将选择性屏蔽后的字典树作为当前字典树。因为当前层的分词“浦东”、“新区”和“分中心”在当前字典树中都不存在非单字前缀词,所以结束该中文分词的过程,输出分词结果为:第一层:“浦东新区+分中心”,第二层为:“浦东+新区+分中心”,其中,“分中心”合并到第一层。同时,将上述步骤中屏蔽掉的分词取消屏蔽,重新插入当前字典树中。
通过以上各步骤,在基于字符串匹配的细粒度切分中文分词算法的基础上,结合递归和多层次分词,实现了保证切分粒度的同时,在各个层次的分词中都消除歧义,提高了分词的准确度。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域的技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (3)
1.一种递归多层次中文分词方法,其特征在于,包括如下步骤:
步骤1,利用当前字典树对输入的中文文本使用最大匹配算法进行中文分词,生成当前分词和当前分词层次;
步骤2,在当前字典树中对步骤1中所生成的分词进行选择性屏蔽;
步骤3,将步骤2中选择性屏蔽后的字典树作为当前字典树;
步骤4,判断上述步骤1中所生成的各个中文分词在所述当前字典树中是否存在非单字前缀词,若有一个分词存在非单字前缀词,则继续进行上述步骤1到步骤3,若各个分词都不存在非单字前缀词,则进入步骤5;
步骤5,在当前字典树中将上述各步骤中屏蔽的中文分词重新插入当前字典树,并输出分词结果。
2.如权利要求1所述的递归多层次中文分词方法,其中,步骤2中所述的选择性屏蔽具体为:对于每个分词,判断在当前字典树中是否存在该分词的非单字前缀词,若存在该分词的非单字前缀词,则在当前字典树中屏蔽该分词,并记录被屏蔽的分词,若不存在该分词的非单字前缀词,则不屏蔽该分词。
3.如权利要求2所述的递归多层次中文分词方法,其中,步骤1还包括记录生成的当前分词及当前分词层次。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210249911.9A CN102799676B (zh) | 2012-07-18 | 2012-07-18 | 一种递归多层次中文分词方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210249911.9A CN102799676B (zh) | 2012-07-18 | 2012-07-18 | 一种递归多层次中文分词方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102799676A true CN102799676A (zh) | 2012-11-28 |
CN102799676B CN102799676B (zh) | 2015-02-18 |
Family
ID=47198786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210249911.9A Expired - Fee Related CN102799676B (zh) | 2012-07-18 | 2012-07-18 | 一种递归多层次中文分词方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102799676B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095988A (zh) * | 2016-06-21 | 2016-11-09 | 上海智臻智能网络科技股份有限公司 | 自动问答方法及装置 |
CN106649249A (zh) * | 2015-07-14 | 2017-05-10 | 比亚迪股份有限公司 | 检索方法和检索装置 |
CN106776577A (zh) * | 2016-12-30 | 2017-05-31 | 努比亚技术有限公司 | 一种序列还原方法及设备 |
CN109918664A (zh) * | 2019-03-05 | 2019-06-21 | 北京声智科技有限公司 | 分词方法和装置 |
CN110309400A (zh) * | 2018-02-07 | 2019-10-08 | 鼎复数据科技(北京)有限公司 | 一种智能理解用户查询意图的方法及系统 |
CN110941715A (zh) * | 2019-10-23 | 2020-03-31 | 北京精英系统科技有限公司 | 一种实体对象分类判断的方法 |
CN112395865A (zh) * | 2020-11-17 | 2021-02-23 | 中国外运股份有限公司 | 报关单校验方法及装置 |
CN112632213A (zh) * | 2020-12-03 | 2021-04-09 | 大箴(杭州)科技有限公司 | 地址信息标准化方法及装置、电子设备、存储介质 |
CN112765433A (zh) * | 2021-01-12 | 2021-05-07 | 深圳市房多多网络科技有限公司 | 文本关键词扫描方法、装置、设备及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001037128A2 (en) * | 1999-11-05 | 2001-05-25 | Microsoft Corporation | A system and iterative method for lexicon, segmentation and language model joint optimization |
CN101082908A (zh) * | 2007-06-26 | 2007-12-05 | 腾讯科技(深圳)有限公司 | 一种中文分词方法及系统 |
CN101330389A (zh) * | 2007-06-20 | 2008-12-24 | 中国科学院自动化研究所 | 基于问题分解的群决策方案撰写方法及系统 |
-
2012
- 2012-07-18 CN CN201210249911.9A patent/CN102799676B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001037128A2 (en) * | 1999-11-05 | 2001-05-25 | Microsoft Corporation | A system and iterative method for lexicon, segmentation and language model joint optimization |
CN101330389A (zh) * | 2007-06-20 | 2008-12-24 | 中国科学院自动化研究所 | 基于问题分解的群决策方案撰写方法及系统 |
CN101082908A (zh) * | 2007-06-26 | 2007-12-05 | 腾讯科技(深圳)有限公司 | 一种中文分词方法及系统 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649249A (zh) * | 2015-07-14 | 2017-05-10 | 比亚迪股份有限公司 | 检索方法和检索装置 |
CN106095988A (zh) * | 2016-06-21 | 2016-11-09 | 上海智臻智能网络科技股份有限公司 | 自动问答方法及装置 |
CN106776577A (zh) * | 2016-12-30 | 2017-05-31 | 努比亚技术有限公司 | 一种序列还原方法及设备 |
CN110309400A (zh) * | 2018-02-07 | 2019-10-08 | 鼎复数据科技(北京)有限公司 | 一种智能理解用户查询意图的方法及系统 |
CN109918664A (zh) * | 2019-03-05 | 2019-06-21 | 北京声智科技有限公司 | 分词方法和装置 |
CN109918664B (zh) * | 2019-03-05 | 2023-04-18 | 北京声智科技有限公司 | 分词方法和装置 |
CN110941715A (zh) * | 2019-10-23 | 2020-03-31 | 北京精英系统科技有限公司 | 一种实体对象分类判断的方法 |
CN112395865A (zh) * | 2020-11-17 | 2021-02-23 | 中国外运股份有限公司 | 报关单校验方法及装置 |
CN112395865B (zh) * | 2020-11-17 | 2024-01-02 | 中国外运股份有限公司 | 报关单校验方法及装置 |
CN112632213A (zh) * | 2020-12-03 | 2021-04-09 | 大箴(杭州)科技有限公司 | 地址信息标准化方法及装置、电子设备、存储介质 |
CN112765433A (zh) * | 2021-01-12 | 2021-05-07 | 深圳市房多多网络科技有限公司 | 文本关键词扫描方法、装置、设备及计算机可读存储介质 |
CN112765433B (zh) * | 2021-01-12 | 2024-04-26 | 深圳市房多多网络科技有限公司 | 文本关键词扫描方法、装置、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102799676B (zh) | 2015-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102799676A (zh) | 一种递归多层次中文分词方法 | |
CN101655837B (zh) | 一种对语音识别后文本进行检错并纠错的方法 | |
CN106528532B (zh) | 文本纠错方法、装置及终端 | |
CN102214166B (zh) | 基于句法分析和层次模型的机器翻译系统和方法 | |
CN103176962B (zh) | 文本相似度的统计方法及系统 | |
CN101950309A (zh) | 一种面向学科领域的新专业词汇识别方法 | |
CN104142915A (zh) | 一种添加标点的方法和系统 | |
CN104008166A (zh) | 一种基于形态和语义相似度的对话短文本聚类方法 | |
CN105261358A (zh) | 用于语音识别的n元文法模型构造方法及语音识别系统 | |
CN106569993A (zh) | 一种挖掘领域术语间上下位关系的方法及装置 | |
CN109977398A (zh) | 一种特定领域的语音识别文本纠错方法 | |
CN103324626A (zh) | 一种建立多粒度词典的方法、分词的方法及其装置 | |
CN113408535B (zh) | 一种基于中文字符级特征和语言模型的ocr纠错方法 | |
CN102750282B (zh) | 同义词模板的挖掘方法和装置以及同义词挖掘方法和装置 | |
CN104050255A (zh) | 基于联合图模型的纠错方法及系统 | |
CN105068990A (zh) | 一种面向机器翻译的多策略英文长句分割方法及装置 | |
CN106484677B (zh) | 一种基于最小信息量的汉语快速分词系统及方法 | |
CN102375863A (zh) | 一种地理信息领域的关键字提取的方法及装置 | |
CN113591456A (zh) | 文本纠错方法及装置、电子设备及存储介质 | |
CN110929022A (zh) | 一种文本摘要生成方法及系统 | |
CN105824800A (zh) | 一种中文真词错误自动校对方法 | |
CN103927176A (zh) | 一种基于层次主题模型的程序特征树的生成方法 | |
CN104572633A (zh) | 一种确定多义词词义的方法 | |
CN110399613A (zh) | 一种基于词性标注的互联网新闻涉及地名识别方法及系统 | |
CN110069771A (zh) | 一种基于语义组块的管制指令信息处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150218 Termination date: 20170718 |