CN101122900A - 一种分词系统及方法 - Google Patents
一种分词系统及方法 Download PDFInfo
- Publication number
- CN101122900A CN101122900A CNA2007101224391A CN200710122439A CN101122900A CN 101122900 A CN101122900 A CN 101122900A CN A2007101224391 A CNA2007101224391 A CN A2007101224391A CN 200710122439 A CN200710122439 A CN 200710122439A CN 101122900 A CN101122900 A CN 101122900A
- Authority
- CN
- China
- Prior art keywords
- place name
- word segmentation
- match
- individual character
- chinese word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种分词系统及方法。所述方法包括如下步骤:A.将待分词文本利用切分标记分割成字串;B.对所述字串进行机械分词处理;C.对机械分词结果中的连续单字进行地名识别。本发明实现了对包含地名、街道名称的文本的分词,提高了分词的准确度。
Description
技术领域
本发明涉及分词领域,尤其涉及一种分词系统及方法。
背景技术
分词是指将字序列切分成有意义的词序列,又称为切词。分词系统将组成文本的字串自动转换成词串的过程称为自动切分。相对来说,英语等印欧语言的词之间有空格等符号分格,切分比较容易。而汉语文本是连续的汉字串,其中的词与词之间没有明确的分隔标记,分词系统需要自动识别词边界,将汉字串切分为正确的词串。
现有较成熟的分词方法是专利文献CN02127005.8中公开的分词方法,该方法是基于字符串匹配的分词方法。这种基于字符串匹配的分词方法又称为机械分词方法,它是按照一定的策略将待处理的字串与词库中的词条进行匹配,若在词库中找到某个字符串,则匹配成功。但机械分词方法在地名的识别上存在如下缺陷:
基于字符串匹配的分词方法中,只能识别词库中已经收录的词条,地名和街道名称众多,无法完全收录,识别效果较差;
基于字符串匹配的分词方法中,无法识别新的地名和街道名称,每天都有可能产生新的地名和街道名称,但词库没有进行同步更新,也就无法进行识别。
发明内容
本发明所要解决的技术问题是提供一种包含地名识别的分词系统及方法,实现对包含地名、街道名称的文本的分词,以提高分词的准确度。
为解决上述技术问题,本发明提供技术方案如下:
一种分词方法,包括如下步骤:
A、将待分词文本利用切分标记分割成字串;
B、对所述字串进行机械分词处理;
C、对机械分词结果中的连续单字进行地名识别。
所述步骤B具体包括:将所述字串与机械分词词库进行匹配,将匹配成功的字串作为词输出,并将匹配失败的字串作为单字处理。
所述步骤C具体包括:将机械分词结果中的连续单字与预先定义的地名模式库进行匹配,将匹配成功的连续单字作为地名输出,将匹配失败的连续单字继续作为单字处理。
步骤C之后还包括:将地名识别中匹配成功的地名添加到机械分词词库中。
所述切分标记包括显示切分标记和隐式切分标记,所述显示切分标记包括标点符号、数字、字母和ASCII字符,所述隐式切分标记包括出现频率高、构词能力差的单字词。
一种分词系统,包括:
预处理模块,用于将待分词文本利用切分标记分割成字串;
机械分词模块,用于对所述分割的字串进行机械分词处理;
地名识别模块,用于对所述机械分词处理得到的连续单字进行地名识别。
所述机械分词模块进一步用于:将所述分割的字串与机械分词词库进行匹配,将匹配成功的字串作为词输出,并将匹配失败的字串作为单字处理。
所述地名识别模块进一步用于:将所述机械分词处理得到的连续单字与预先定义的地名模式库进行匹配,将匹配成功的连续单字作为地名输出,将匹配失败的连续单字继续作为单字处理。
所述分词系统还包括:地名模式库维护模块,用于维护地名识别模块使用的地命模式库信息;词库维护模块,用于维护机械分词模块使用的机械分词词库信息。
所述地名识别模块,进一步用于将匹配成功的地名发送到词典维护模块;所述词库维护模块,进一步用于将所述匹配成功的地名信息增加到机械分词词库中去。
本发明所述的分词系统及方法,具有如下主要有益效果:
利用机械分词结合地名模式匹配,实现了对包含地名、街道名称的文本的分词,提高了分词的准确度;进一步,识别出的地名可以作为新增地名更新到机械分词词库中,在分词的同时有效扩展了机械分词词库中的地名信息。
附图说明
图1为本发明较佳实施例的分词系统的结构示意图;
图2为本发明较佳实施例的分词方法的流程示意图。
具体实施方式
本发明的基本思想是:先利用切分标记将待分词文本分割成字串;然后对所述字串进行机械分词处理,在机械分词处理中,将匹配失败的字串作为单字处理;最后对机械分词结果中连续的单字进行地名识别。如此,便可以识别出常见的地名、街道名称,提高了分词的准确率。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
请参照图1,本发明较佳实施例的分词系统主要包括预处理模块10、机械分词模块20和地名识别模块30,其中:
预处理模块10,对待分词文本进行初步分词,将待分词文本利用切分标记分割成字串,并将得到的字串发送到机械分词模块20。所述切分标记包括显示切分标记和隐式切分标记,所述显示切分标记包括标点符号、数字、字母和ASCII字符,所述隐式切分标记包括出现频率高、构词能力差的单字词。预处理模块10可以对中文、非中文文本进行分割,还可以对数词短语、时间短语、货币表示等进行识别。
机械分词模块20,接收预处理模块10发送的字串,并对所述字串进行机械分词处理。机械分词模块20将所述字串与机械分词词库进行匹配,将匹配成功的字串作为词输出,并将匹配失败的字串作为单字处理;并判断是否有连续的单字,若有,则需要进行地名识别,将所述连续的单字发送到地名识别模块30进行地名识别。
其中,机械分词模块20可以采用正向最大匹配法、逆向最大匹配法或者最小切分算法等机械分词方法,在机械分词中所采用的词库查找算法为二分查找算法。机械分词词库以一组已经排序的词语为输入,所有头字符相同的词语划为一个集合作为分词库,查找词语时,先根据第一个字符找到分词库,再从该分词库中定位该词语。
地名识别模块30,接收机械分词模块20发送的连续单字信息,并对所述连续单字进行地名识别。地名识别模块30将机械分词结果中的连续单字与预先定义的地名模式库进行匹配,将匹配成功的连续单字作为地名输出,将匹配失败的连续单字继续作为单字处理。
其中,所述地名模式库中定义了地址的一些通用的命名规则,比如将省、县、村、镇、道等特征字定义为地名后缀的方式形成模式。所述地名模式库还可以根据本分词系统应用地区的地名规则进行定制,比如对于上海地区,地名规则中则包含“xx弄”等特殊的模式信息。地名模式库的匹配方式有两种,一种是直接将所述连续单字与地名模式库进行匹配;另外一种是先利用地名模式库中定义的特征词进行识别,再采用模式识别的方式进行匹配。
本发明较佳实施例的分词系统还可包括地名模式库维护模块(图未示),该地名模式库维护模块,用于维护地名识别模块30使用的地命模式库信息,例如对地名模式库进行增加、修改、删除等相关操作。
本发明较佳实施例的分词系统还可包括词库维护模块(图未示),该词库维护模块,用于维护机械分词模块20使用的机械分词词库信息,例如对词库进行增加、修改、删除等相关操作。
在本发明的较佳实施例的分词系统中,地名识别模块30还进一步用于将匹配成功的地名发送到词库维护模块,词库维护模块将接收到的地名信息增加到机械分词词库中去。这样,在下一次分词时,直接在机械分词模块20中就可识别出该地名,而不需要再由地名识别模块30去识别该地名。
请参照图2,本发明较佳实施例的分词方法主要包括如下步骤:
步骤201、将待分词文本利用切分标记分割成字串;
所述切分标记包括显示切分标记和隐式切分标记,所述显示切分标记包括标点符号、数字、字母和ASCII字符,所述隐式切分标记包括出现频率高、构词能力差的单字词。
步骤202、对所述字串进行机械分词处理;
将所述字串与机械分词词库进行匹配,将匹配成功的字串作为词输出,并将匹配失败的字串作为单字处理。
步骤203、对机械分词结果中的连续单字进行地名识别。
将机械分词结果中的连续单字与预先定义的地名模式库进行匹配,将匹配成功的连续单字作为地名输出,将匹配失败的连续单字继续作为单字处理。
其中,步骤203之后还包括:将地名识别中匹配成功的地名添加到机械分词词库中。这样,在下一次分词时,在对所述字串进行机械分词处理中就可识别出该地名,而不需要再对所述字串进行地名识别。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案而非限制,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神范围,其均应涵盖在本发明的权利要求范围当中。
Claims (11)
1.一种分词方法,其特征在于,包括如下步骤:
A、将待分词文本利用切分标记分割成字串;
B、对所述字串进行机械分词处理;
C、对机械分词结果中的连续单字进行地名识别。
2.如权利要求1所述的分词方法,其特征在于,所述步骤B具体包括:
将所述字串与机械分词词库进行匹配,将匹配成功的字串作为词输出,并将匹配失败的字串作为单字处理。
3.如权利要求2所述的分词方法,其特征在于,所述步骤C具体包括:
将机械分词结果中的连续单字与预先定义的地名模式库进行匹配,将匹配成功的连续单字作为地名输出,将匹配失败的连续单字继续作为单字处理。
4.如权利要求3所述的分词方法,其特征在于,步骤C之后还包括:
将地名识别中匹配成功的地名添加到机械分词词库中。
5.如权利要求1所述的分词方法,其特征在于:
所述切分标记包括显示切分标记和隐式切分标记,所述显示切分标记包括标点符号、数字、字母和ASCII字符,所述隐式切分标记包括出现频率高、构词能力差的单字词。
6.一种分词系统,其特征在于,包括:
预处理模块,用于将待分词文本利用切分标记分割成字串;
机械分词模块,用于对所述分割的字串进行机械分词处理;
地名识别模块,用于对所述机械分词处理得到的连续单字进行地名识别。
7.如权利要求6所述的分词系统,其特征在于,所述机械分词模块进一步用于:
将所述分割的字串与机械分词词库进行匹配,将匹配成功的字串作为词输出,并将匹配失败的字串作为单字处理。
8.如权利要求7所述的分词系统,其特征在于,所述地名识别模块进一步用于:
将所述机械分词处理得到的连续单字与预先定义的地名模式库进行匹配,将匹配成功的连续单字作为地名输出,将匹配失败的连续单字继续作为单字处理。
9.如权利要求8所述的分词系统,其特征在于,还包括:
地名模式库维护模块,用于维护地名识别模块使用的地命模式库信息;
词库维护模块,用于维护机械分词模块使用的机械分词词库信息。
10.如权利要求9所述的分词系统,其特征在于:
所述地名识别模块,进一步用于将匹配成功的地名发送到词典维护模块;
所述词库维护模块,进一步用于将所述匹配成功的地名信息增加到机械分词词库中去。
11.如权利要求6所述的分词系统,其特征在于:
所述切分标记包括显示切分标记和隐式切分标记,所述显示切分标记包括标点符号、数字、字母和ASCII字符,所述隐式切分标记包括出现频率高、构词能力差的单字词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007101224391A CN101122900A (zh) | 2007-09-25 | 2007-09-25 | 一种分词系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007101224391A CN101122900A (zh) | 2007-09-25 | 2007-09-25 | 一种分词系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101122900A true CN101122900A (zh) | 2008-02-13 |
Family
ID=39085237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2007101224391A Pending CN101122900A (zh) | 2007-09-25 | 2007-09-25 | 一种分词系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101122900A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101729668A (zh) * | 2009-11-27 | 2010-06-09 | 深圳市戴文科技有限公司 | 一种信息处理方法、装置及移动通信终端 |
CN101859294B (zh) * | 2009-04-07 | 2012-01-11 | 英业达股份有限公司 | 中文字串的词汇切分系统及其方法 |
CN102915299A (zh) * | 2012-10-23 | 2013-02-06 | 海信集团有限公司 | 一种分词方法及装置 |
CN102999534A (zh) * | 2011-09-19 | 2013-03-27 | 北京金和软件股份有限公司 | 一种基于逆向最大匹配的中文分词算法 |
CN103186524A (zh) * | 2011-12-30 | 2013-07-03 | 高德软件有限公司 | 一种地名识别方法和装置 |
CN103324607A (zh) * | 2012-03-20 | 2013-09-25 | 北京百度网讯科技有限公司 | 一种泰语文本切词方法及装置 |
CN103631781A (zh) * | 2012-08-21 | 2014-03-12 | 鸿富锦精密工业(深圳)有限公司 | 元件符号验证系统及方法 |
CN103631963A (zh) * | 2013-12-18 | 2014-03-12 | 北京博雅立方科技有限公司 | 一种基于大数据的关键词优化处理方法及装置 |
CN104166655A (zh) * | 2013-05-17 | 2014-11-26 | 北京四维图新科技股份有限公司 | 一种电子地图注记分行方法及装置 |
CN105022748A (zh) * | 2014-04-28 | 2015-11-04 | 北京图盟科技有限公司 | 一种运单地址分级方法及装置 |
CN105138637A (zh) * | 2015-08-24 | 2015-12-09 | 浪潮软件股份有限公司 | 一种数据处理的方法及装置 |
CN106126496A (zh) * | 2016-06-17 | 2016-11-16 | 联动优势科技有限公司 | 一种信息分词方法及装置 |
CN107068145A (zh) * | 2016-12-30 | 2017-08-18 | 中南大学 | 语音评测方法及系统 |
CN108304367A (zh) * | 2017-04-07 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 分词方法及装置 |
CN108877939A (zh) * | 2018-05-10 | 2018-11-23 | 重庆大学 | 一种具有智能特征提取功能的健康管理系统 |
CN110472112A (zh) * | 2019-08-22 | 2019-11-19 | 广州拓波软件科技有限公司 | 一种简易字符串匹配方式 |
CN111046627A (zh) * | 2018-10-12 | 2020-04-21 | 北京金山办公软件股份有限公司 | 一种中文文字显示方法及系统 |
-
2007
- 2007-09-25 CN CNA2007101224391A patent/CN101122900A/zh active Pending
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101859294B (zh) * | 2009-04-07 | 2012-01-11 | 英业达股份有限公司 | 中文字串的词汇切分系统及其方法 |
CN101729668B (zh) * | 2009-11-27 | 2013-01-23 | 深圳市戴文科技有限公司 | 一种信息处理方法、装置及移动通信终端 |
CN101729668A (zh) * | 2009-11-27 | 2010-06-09 | 深圳市戴文科技有限公司 | 一种信息处理方法、装置及移动通信终端 |
CN102999534A (zh) * | 2011-09-19 | 2013-03-27 | 北京金和软件股份有限公司 | 一种基于逆向最大匹配的中文分词算法 |
CN103186524B (zh) * | 2011-12-30 | 2016-04-13 | 高德软件有限公司 | 一种地名识别方法和装置 |
CN103186524A (zh) * | 2011-12-30 | 2013-07-03 | 高德软件有限公司 | 一种地名识别方法和装置 |
CN103324607B (zh) * | 2012-03-20 | 2016-11-23 | 北京百度网讯科技有限公司 | 一种泰语文本切词方法及装置 |
CN103324607A (zh) * | 2012-03-20 | 2013-09-25 | 北京百度网讯科技有限公司 | 一种泰语文本切词方法及装置 |
CN103631781A (zh) * | 2012-08-21 | 2014-03-12 | 鸿富锦精密工业(深圳)有限公司 | 元件符号验证系统及方法 |
CN102915299A (zh) * | 2012-10-23 | 2013-02-06 | 海信集团有限公司 | 一种分词方法及装置 |
CN102915299B (zh) * | 2012-10-23 | 2015-04-08 | 海信集团有限公司 | 一种分词方法及装置 |
CN104166655A (zh) * | 2013-05-17 | 2014-11-26 | 北京四维图新科技股份有限公司 | 一种电子地图注记分行方法及装置 |
CN104166655B (zh) * | 2013-05-17 | 2017-12-08 | 北京四维图新科技股份有限公司 | 一种电子地图注记分行方法及装置 |
CN103631963A (zh) * | 2013-12-18 | 2014-03-12 | 北京博雅立方科技有限公司 | 一种基于大数据的关键词优化处理方法及装置 |
CN105022748A (zh) * | 2014-04-28 | 2015-11-04 | 北京图盟科技有限公司 | 一种运单地址分级方法及装置 |
CN105022748B (zh) * | 2014-04-28 | 2019-05-07 | 高德软件有限公司 | 一种运单地址分级方法及装置 |
CN105138637A (zh) * | 2015-08-24 | 2015-12-09 | 浪潮软件股份有限公司 | 一种数据处理的方法及装置 |
CN106126496A (zh) * | 2016-06-17 | 2016-11-16 | 联动优势科技有限公司 | 一种信息分词方法及装置 |
CN106126496B (zh) * | 2016-06-17 | 2019-01-18 | 联动优势科技有限公司 | 一种信息分词方法及装置 |
CN107068145B (zh) * | 2016-12-30 | 2019-02-15 | 中南大学 | 语音评测方法及系统 |
CN107068145A (zh) * | 2016-12-30 | 2017-08-18 | 中南大学 | 语音评测方法及系统 |
CN108304367A (zh) * | 2017-04-07 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 分词方法及装置 |
WO2018184510A1 (zh) * | 2017-04-07 | 2018-10-11 | 腾讯科技(深圳)有限公司 | 分词方法、装置及存储介质 |
CN108304367B (zh) * | 2017-04-07 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 分词方法及装置 |
CN108877939A (zh) * | 2018-05-10 | 2018-11-23 | 重庆大学 | 一种具有智能特征提取功能的健康管理系统 |
CN111046627A (zh) * | 2018-10-12 | 2020-04-21 | 北京金山办公软件股份有限公司 | 一种中文文字显示方法及系统 |
CN111046627B (zh) * | 2018-10-12 | 2023-09-19 | 北京金山办公软件股份有限公司 | 一种中文文字显示方法及系统 |
CN110472112A (zh) * | 2019-08-22 | 2019-11-19 | 广州拓波软件科技有限公司 | 一种简易字符串匹配方式 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101122900A (zh) | 一种分词系统及方法 | |
CN108874878B (zh) | 一种知识图谱的构建系统及方法 | |
CN107193921B (zh) | 面向搜索引擎的中英混合查询纠错的方法及系统 | |
CN100578500C (zh) | 一种网页分类方法及装置 | |
KR101255557B1 (ko) | 음절 분리에 기반한 문자열 검색 시스템 및 그 방법 | |
CN101976253B (zh) | 一种中文变异文本匹配识别方法 | |
CN106708893A (zh) | 搜索查询词纠错方法和装置 | |
CN1989547A (zh) | 在语音识别和文本-语音引擎中处理缩写词和数字 | |
CN110070853B (zh) | 一种语音识别转化方法及系统 | |
CN105574173A (zh) | 基于语音识别的商品搜索方法及商品搜索装置 | |
CN102339294B (zh) | 一种对关键词进行预处理的搜索方法和系统 | |
CN102279843A (zh) | 处理短语数据的方法以及装置 | |
CN105095196A (zh) | 文本中新词发现的方法和装置 | |
CN106407324A (zh) | 联系方式识别方法及装置 | |
CN102779173A (zh) | 网页文本高亮显示方法及系统 | |
CN102135956B (zh) | 一种基于词位标注的藏文分词方法 | |
CN1601520A (zh) | 识别文本文档中的有机化学名称的系统和方法 | |
CN103324612A (zh) | 一种分词的方法及装置 | |
CN102270244B (zh) | 基于核心语句的网页内容关键词快速提取方法 | |
CN104516874A (zh) | 一种对名词短语进行依存句法分析的方法及系统 | |
CN113971398A (zh) | 一种面向网络安全领域实体快速识别的词典构造方法 | |
CN111190873B (zh) | 一种用于云原生系统日志训练的日志模式提取方法及系统 | |
CN115618883A (zh) | 一种业务语义识别方法及装置 | |
CN115858773A (zh) | 适用于长文档的关键词挖掘方法、装置及介质 | |
CN109543023B (zh) | 基于trie和LCS算法的文献分类方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20080213 |