CN102999534A - 一种基于逆向最大匹配的中文分词算法 - Google Patents
一种基于逆向最大匹配的中文分词算法 Download PDFInfo
- Publication number
- CN102999534A CN102999534A CN2011102782404A CN201110278240A CN102999534A CN 102999534 A CN102999534 A CN 102999534A CN 2011102782404 A CN2011102782404 A CN 2011102782404A CN 201110278240 A CN201110278240 A CN 201110278240A CN 102999534 A CN102999534 A CN 102999534A
- Authority
- CN
- China
- Prior art keywords
- character
- word
- participle
- word segmentation
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于逆向最大匹配的中文分词算法。包括步骤:先在内存中初始化三个对象,然后输入需要进行分词操作的文本内容,根据字符编码将文本中的字符拆分成不同类型。在将文本拆成短句后,按照字符编码,将不属于中文字符的直接加入到分词结果中,然后根据字符串匹配决策机制,将句子进行拆分字符组,根据逆向最大匹配算法将字符组与分词字典中相匹配,将匹配的字符组存入分词结果集中,最后组合相连的未匹配的字符,并加入到分词结果中,完成分词。本发明提供了一种基于词典的快速分词算法,在保证了分词精确度的情况下大幅度的提高了词典加载和分词的效率。
Description
技术领域
本发明涉及人工智能领域的文本分析技术,特别涉及应用于互联网产品中的搜索引擎、数据挖掘等功能人工智能领域数据挖掘的分类技术。
背景技术
在信息量猛增,逐渐呈现爆棚趋势的今天,做为接收信息及传播信息量最大的互联网行业更是一直被一个问题困扰着,那就是面对网站里那些缤纷繁多的信息,如何让用户快速准确搜索定位到自己所需要的资源。目前广泛应用于互联网产品中的是中文分词技术,它通过拆分、匹配词典的方式将一段文本拆分成多个词,帮助计算机“理解”文本的核心内容。比如搜索引擎、数据挖掘等功能的实现都依托与强大的分词技术。但是中文分词技术的停滞不前便是一直阻碍中文搜索质量提高的至关重要的因素。
对于中文来说,词是承载语义的最小单位,这就好像把英文单词之间的空格都去掉,我们看到的是一片没有意义的字母。因此,中文自动分词就成为中文知识管理系统必须解决的问题。单个汉字一般很难单独表达一定的含义,而中文的词是没有自然分隔符的,需要采取一定的技术手段将词准确的分离出来。中文分词的主要困难在于切分歧义消解和未登录词语的识别。所以,如何提高分词的准确率、分词速度,是目前中文的信息处理技术需要解决的技术问题。
发明内容
本发明针对互联网上的产品在搜索定位所需资源过程中存在分词精确度较低、未登录词识别不准确、性能较低等问题,提供一种基于逆向最大匹配的中文分词算法。
本发明的目的是提供一种基于词典的快速分词算法,在保证了分词精确度的情况下大幅度的提高了词典加载和分词的效率。
为此,本发明公开了一种基于逆向最大匹配的中文分词算法。所述中文分词算法步骤如下:
步骤一、输入需要进行分词操作的文本内容;
步骤二、根据字符编码类型将文本中的所有字符在字符编码类型发生变换处截断,以由此拆分成多个长句段;
步骤三、再根据停顿词词典检索所有长句段中的停顿词字符,在停顿词字符处,将上述拆分出的长句段进一步拆分成短句段;
步骤四、按照字符编码类型筛选出所有中文字符类型的短句段,并且将不属于中文字符类型的短句段分解后直接加入到分词结果集中;
步骤五、将中文字符类型的短句段以逆于书写顺序的方式,从短句段段尾开始,先选取两位字符的字符组,将这两位字符作为分词与分词字典数据库中的分词进行匹配,若匹配成功,则将这两位字符直接加入到分词结果集中,并且在短句段段尾删除已经加入到分词结果集中的字符,再从段尾选取新的两位字符;若匹配不成功,则继续向段首方向再增加一位字符,进行匹配,直到匹配成功,若始终不能匹配成功,则增加一位字符的工作以增加了该短句段的句首字符为止;
步骤六、将所有相邻的未得到匹配的字符一起作为分词,加入到分词结果集中;而将独立的未得到匹配的字符单独作为分词,加入到分词结果集中。
优选的是,所述的基于逆向最大匹配的中文分词算法中,所述分词词典数据库中包括存储有所有分词数据结构的数据结构词典WD,和存储有所有分词及分词索引位置的数据目录词典WL,其中所述分词数据结构与所述分词索引位置相对应。
优选的是,所述的基于逆向最大匹配的中文分词算法中,在数据结构词典的第一层存储有单个汉字字符,作为数据结构词典的索引目录;在数据结构词典的第二层存储有以所述单个汉字字符为词尾的所有词对象的索引位置和词的长度,其中,所述词对象的索引位置与所述数据目录词典WL中的分词索引位置相同。
优选的是,所述的基于逆向最大匹配的中文分词算法中,在数据结构词典还包括第三层,其中存储有以第二层中存储的所有词为词尾的所有词对象及词长度。
优选的是,所述的基于逆向最大匹配的中文分词算法中,短句段中的字符组在与分词词典数据库中的分词进行匹配时,首先用字符组的词尾的字符与数据结构词典中的第一层中存储的单个汉字字符进行匹配,在该匹配的指引下,进入第二层进行匹配。
优选的是,所述的基于逆向最大匹配的中文分词算法中,在第二层中进行匹配时,首先进行词的长度的匹配。
优选的是,所述的基于逆向最大匹配的中文分词算法中,进入第二层中进行匹配后,在该匹配的指引下,进入第三层进行匹配。
本发明的有益效果是:
本发明提供了一种基于词典的快速分词算法,在保证了分词精确度的情况下大幅度的提高了词典加载和分词的效率。对于网络搜索引擎来说中,中文分词的准确与否,常常直接影响到对搜索结果的相关度排序,提高分词的准确率,也就提高了搜索引擎结果相关性和准确性。分词的速度也对搜索引擎造成直接影响,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。提高分词的速度,也就保证了检索的结果。
附图说明
附图1为本发明所述的基于逆向最大匹配的中文分词算法的流程示意图。
具体实施方式
下面结合附图对本发明做进一步说明,以使本领域普通技术人员参照本说明书后能够据以实施。
如图1所示,本发明的一种基于逆向最大匹配的中文分词算法,包括如下步骤:
步骤一、在内存中初始化分词词典数和停顿词词典StopWord,其中分词词典数据库中包括存储有所有分词数据结构的数据结构词典WordDictionary,和存储有所有分词及分词索引位置的数据目录词典WordList。在数据结构词典的第一层存储有单个汉字字符,作为数据结构词典的索引目录;在数据结构词典的第二层存储有以所述单个汉字字符为词尾的所有词对象的索引位置和词的长度,在数据结构词典的第三层中存储有以第二层中存储的所有词为词尾的所有词对象及词长度。数据结构词典WordDictionary中所述词对象和数据目录词典WordList中对应的分词具有相同的索引位置;
步骤二、输入需要进行分词操作的文本内容,根据字符编码类型将文本中的所有字符在字符编码类型发生变换处截断,以由此拆分成多个长句段,例如:将“新浪为抑制谣言传播成立了专门的微博辟谣小组,24小时负责微博谣言的发现、甄别和处理”拆分成“新浪为抑制谣言传播成立了专门的微博辟谣小组”,“24”和“小时负责微博谣言的发现、甄别和处理”;
步骤三、再根据停顿词词典检索所有长句段中的停顿词字符,在停顿词字符处,将上述拆分出的长句段进一步拆分成短句段,例如:将“中国,伟大的国家”拆分成“中国”和“伟大的国家”;
步骤四、按照字符编码类型筛选出所有中文字符类型的短句段,将不属于中文字符类型的短句段分解后直接加入到分词结果集中;
步骤五、将中文字符类型的短句段以逆于书写顺序的方式,从短句段段尾开始,先选取两位字符的字符组,如“中国,伟大的国家”句子,将读取出“国家”这两个字符,将这两位字符组的词尾的字符与数据结构词典中的第一层中存储的单个汉字字符进行匹配,在该匹配的指引下,进入第二层进行匹配,在第二层中进行匹配时,首先进行词的长度的匹配,进行完第二层的匹配后,在该匹配的指引下再进入第三层进行匹配,若匹配成功,则将这两位字符直接加入到分词结果集中,并且在短句段段尾删除已经加入到分词结果集中的字符,再从段尾选取新的两位字符;若匹配不成功,则继续向段首方向再增加一位字符,进行匹配,直到匹配成功,若始终不能匹配成功,则增加一位字符的工作以增加了该短句段的句首字符为止;
步骤六、将所有相邻的未得到匹配的字符一起作为分词,加入到分词结果集中;而将独立的未得到匹配的字符单独作为分词,加入到分词结果集中,完成分词。
另一种实现形式是:
步骤一、在内存中初始化三个对象,分别是存储了相关数据结构的对象WordDictionary,存储了所有词及词索引位置的词典对象WordList,以及包含了一些特殊字符的停顿词词典对象StopWord。
步骤二、获取需要进行分词操作的文本内容。
步骤三、循环文本中的每个字符,按照字符编码区分出当前字符所属类型,根据字符编码拆分中文、英文、数字、其他类型等
步骤四、根据停顿词典将“长句子”进一步拆分成短句子,如“中国,伟大的国家”拆分成“中国”、“伟大的国家”。
步骤五、循环文本中的每个字符,按照字符编码区分出当前字符是否为中文字符。
步骤六、如果当前字符类型不属于中文字符,则直接加入到分词结果中。
步骤七、从句子的最后一个字符开始,从右向左,读取两个字符,组合成一个词语:如“中国,伟大的国家”句子,将读取出“国家”这个词。
步骤八、查询出上一步骤中获取的词是否在分词字典中存在。
步骤九、从句子中“删除”已经匹配到的词:如果查询到了匹配项,则将该词存入分词结果集中,并在源文本中“删除”当前词,此处的“删除”并非真的删除,为了提高分词效率,此处只是将索引位置向前移动了若干位。
步骤十、查看当前句子是否已经完成了分词。
步骤十一、如果上一个字符未匹配到分词字典中的任意一项,则需要增加字符的长度
步骤十二、查看是否已经匹配了所有以某个字符为结尾的词。
步骤十三、对于在字典中没有找到匹配项的所有字符,都将视为未登录词,在分词完成后,需要组合所有的未登录词。
步骤十四、根据记录的未登录词在源文本中的位置,组合所有未登录词。
步骤十五、将所有的未登录词加入到分词结果中,分词完成。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
Claims (7)
1.一种基于逆向最大匹配的中文分词算法,其特征在于,包括以下步骤:
步骤一、输入需要进行分词操作的文本内容;
步骤二、根据字符编码类型将文本中的所有字符在字符编码类型发生变换处截断,以由此拆分成多个长句段;
步骤三、再根据停顿词词典检索所有长句段中的停顿词字符,在停顿词字符处,将上述拆分出的长句段进一步拆分成短句段;
步骤四、按照字符编码类型筛选出所有中文字符类型的短句段,并且将不属于中文字符类型的短句段分解后直接加入到分词结果集中;
步骤五、将中文字符类型的短句段以逆于书写顺序的方式,从短句段段尾开始,先选取两位字符的字符组,将这两位字符作为分词与分词字典数据库中的分词进行匹配,若匹配成功,则将这两位字符直接加入到分词结果集中,并且在短句段段尾删除已经加入到分词结果集中的字符,再从段尾选取新的两位字符;若匹配不成功,则继续向段首方向再增加一位字符,进行匹配,直到匹配成功,若始终不能匹配成功,则增加一位字符的工作以增加了该短句段的句首字符为止;
步骤六、将所有相邻的未得到匹配的字符一起作为分词,加入到分词结果集中;而将独立的未得到匹配的字符单独作为分词,加入到分词结果集中。
2.如权利要求1所述的基于逆向最大匹配的中文分词算法,其特征在于,所述分词词典数据库中包括存储有所有分词数据结构的数据结构词典WD,和存储有所有分词及分词索引位置的数据目录词典WL,其中所述分词数据结构与所述分词索引位置相对应。
3.如权利要求1所述的基于逆向最大匹配的中文分词算法,其特征在于,在数据结构词典的第一层存储有单个汉字字符,作为数据结构词典的索引目录;在数据结构词典的第二层存储有以所述单个汉字字符为词尾的所有词对象的索引位置和词的长度,其中,所述词对象的索引位置与所述数据目录词典WL中的分词索引位置相同。
4.如权利要求3所述的基于逆向最大匹配的中文分词算法,其特征在于,在数据结构词典还包括第三层,其中存储有以第二层中存储的所有词为词尾的所有词对象及词长度。
5.如权利要求3所述的基于逆向最大匹配的中文分词算法,其特征在于,短句段中的字符组在与分词词典数据库中的分词进行匹配时,首先用字符组的词尾的字符与数据结构词典中的第一层中存储的单个汉字字符进行匹配,在该匹配的指引下,进入第二层进行匹配。
6.如权利要求5所述的基于逆向最大匹配的中文分词算法,其特征在于,在第二层中进行匹配时,首先进行词的长度的匹配。
7.如权利要求5所述的基于逆向最大匹配的中文分词算法,其特征在于,进入第二层中进行匹配后,在该匹配的指引下,进入第三层进行匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102782404A CN102999534A (zh) | 2011-09-19 | 2011-09-19 | 一种基于逆向最大匹配的中文分词算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102782404A CN102999534A (zh) | 2011-09-19 | 2011-09-19 | 一种基于逆向最大匹配的中文分词算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102999534A true CN102999534A (zh) | 2013-03-27 |
Family
ID=47928107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011102782404A Pending CN102999534A (zh) | 2011-09-19 | 2011-09-19 | 一种基于逆向最大匹配的中文分词算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102999534A (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544309A (zh) * | 2013-11-04 | 2014-01-29 | 北京中搜网络技术股份有限公司 | 一种中文垂直搜索的检索串拆分方法 |
CN103646018A (zh) * | 2013-12-20 | 2014-03-19 | 大连大学 | 一种基于hash散列表词典结构的中文分词方法 |
CN103942347A (zh) * | 2014-05-19 | 2014-07-23 | 焦点科技股份有限公司 | 一种基于多维度综合词库的分词方法 |
CN104462051A (zh) * | 2013-09-12 | 2015-03-25 | 腾讯科技(深圳)有限公司 | 分词方法及装置 |
CN105243055A (zh) * | 2015-09-28 | 2016-01-13 | 北京橙鑫数据科技有限公司 | 基于多语言的分词方法和装置 |
CN105468584A (zh) * | 2015-12-31 | 2016-04-06 | 武汉鸿瑞达信息技术有限公司 | 文本中不良文字信息的过滤方法及过滤系统 |
CN103778200B (zh) * | 2014-01-09 | 2017-08-08 | 中国科学院计算技术研究所 | 一种报文信息源抽取方法及其系统 |
CN107092590A (zh) * | 2017-03-17 | 2017-08-25 | 贵州恒昊软件科技有限公司 | 一种语句分词方法和系统 |
CN107305446A (zh) * | 2016-04-25 | 2017-10-31 | 北京锤子数码科技有限公司 | 获取压力感应区域内关键字的方法和装置 |
CN108475265A (zh) * | 2015-11-25 | 2018-08-31 | 华为技术有限公司 | 获取未登录词的方法与装置 |
CN108536724A (zh) * | 2018-02-13 | 2018-09-14 | 西安理工大学 | 一种基于双层哈希索引的地铁设计规范中主体识别方法 |
CN108984071A (zh) * | 2017-06-01 | 2018-12-11 | 腾讯科技(深圳)有限公司 | 文本重组方法、装置、终端设备及计算机可读存储介质 |
CN109002423A (zh) * | 2017-06-06 | 2018-12-14 | 北大方正集团有限公司 | 文本搜索方法及装置 |
CN109800427A (zh) * | 2018-12-28 | 2019-05-24 | 北京金山安全软件有限公司 | 一种分词方法、装置、终端及计算机可读存储介质 |
CN109918664A (zh) * | 2019-03-05 | 2019-06-21 | 北京声智科技有限公司 | 分词方法和装置 |
CN110209898A (zh) * | 2019-05-31 | 2019-09-06 | 苏州狗尾草智能科技有限公司 | 基于人机交互的数据清洗方法、回复方法、装置及介质 |
CN110502737A (zh) * | 2018-05-18 | 2019-11-26 | 中国医学科学院北京协和医院 | 一种基于医学专业词典与统计算法的分词方法 |
CN111951070A (zh) * | 2020-07-31 | 2020-11-17 | 上海博泰悦臻电子设备制造有限公司 | 基于车联网的智能推荐方法、装置、服务器及存储介质 |
CN112395865A (zh) * | 2020-11-17 | 2021-02-23 | 中国外运股份有限公司 | 报关单校验方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101122900A (zh) * | 2007-09-25 | 2008-02-13 | 中兴通讯股份有限公司 | 一种分词系统及方法 |
US7475005B2 (en) * | 2003-03-17 | 2009-01-06 | International Business Machines Corporation | Translation system, dictionary updating server, translation method, and program and recording medium for use therein |
-
2011
- 2011-09-19 CN CN2011102782404A patent/CN102999534A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7475005B2 (en) * | 2003-03-17 | 2009-01-06 | International Business Machines Corporation | Translation system, dictionary updating server, translation method, and program and recording medium for use therein |
CN101122900A (zh) * | 2007-09-25 | 2008-02-13 | 中兴通讯股份有限公司 | 一种分词系统及方法 |
Non-Patent Citations (1)
Title |
---|
张旭: "一个基于词典与统计的中文分词算法", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 February 2008 (2008-02-15) * |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462051A (zh) * | 2013-09-12 | 2015-03-25 | 腾讯科技(深圳)有限公司 | 分词方法及装置 |
CN104462051B (zh) * | 2013-09-12 | 2018-10-02 | 腾讯科技(深圳)有限公司 | 分词方法及装置 |
CN103544309B (zh) * | 2013-11-04 | 2017-03-15 | 北京中搜网络技术股份有限公司 | 一种中文垂直搜索的检索串拆分方法 |
CN103544309A (zh) * | 2013-11-04 | 2014-01-29 | 北京中搜网络技术股份有限公司 | 一种中文垂直搜索的检索串拆分方法 |
CN103646018A (zh) * | 2013-12-20 | 2014-03-19 | 大连大学 | 一种基于hash散列表词典结构的中文分词方法 |
CN103646018B (zh) * | 2013-12-20 | 2016-06-29 | 大连大学 | 一种基于hash散列表词典结构的中文分词方法 |
CN103778200B (zh) * | 2014-01-09 | 2017-08-08 | 中国科学院计算技术研究所 | 一种报文信息源抽取方法及其系统 |
CN103942347A (zh) * | 2014-05-19 | 2014-07-23 | 焦点科技股份有限公司 | 一种基于多维度综合词库的分词方法 |
CN105243055B (zh) * | 2015-09-28 | 2018-07-31 | 北京橙鑫数据科技有限公司 | 基于多语言的分词方法和装置 |
CN105243055A (zh) * | 2015-09-28 | 2016-01-13 | 北京橙鑫数据科技有限公司 | 基于多语言的分词方法和装置 |
CN108475265A (zh) * | 2015-11-25 | 2018-08-31 | 华为技术有限公司 | 获取未登录词的方法与装置 |
CN105468584A (zh) * | 2015-12-31 | 2016-04-06 | 武汉鸿瑞达信息技术有限公司 | 文本中不良文字信息的过滤方法及过滤系统 |
CN107305446A (zh) * | 2016-04-25 | 2017-10-31 | 北京锤子数码科技有限公司 | 获取压力感应区域内关键字的方法和装置 |
CN107092590A (zh) * | 2017-03-17 | 2017-08-25 | 贵州恒昊软件科技有限公司 | 一种语句分词方法和系统 |
CN108984071A (zh) * | 2017-06-01 | 2018-12-11 | 腾讯科技(深圳)有限公司 | 文本重组方法、装置、终端设备及计算机可读存储介质 |
CN108984071B (zh) * | 2017-06-01 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 文本重组方法、装置、终端设备及计算机可读存储介质 |
CN109002423A (zh) * | 2017-06-06 | 2018-12-14 | 北大方正集团有限公司 | 文本搜索方法及装置 |
CN108536724A (zh) * | 2018-02-13 | 2018-09-14 | 西安理工大学 | 一种基于双层哈希索引的地铁设计规范中主体识别方法 |
CN110502737A (zh) * | 2018-05-18 | 2019-11-26 | 中国医学科学院北京协和医院 | 一种基于医学专业词典与统计算法的分词方法 |
CN110502737B (zh) * | 2018-05-18 | 2023-02-17 | 中国医学科学院北京协和医院 | 一种基于医学专业词典与统计算法的分词方法 |
CN109800427A (zh) * | 2018-12-28 | 2019-05-24 | 北京金山安全软件有限公司 | 一种分词方法、装置、终端及计算机可读存储介质 |
CN109800427B (zh) * | 2018-12-28 | 2023-09-22 | 北京金山安全软件有限公司 | 一种分词方法、装置、终端及计算机可读存储介质 |
CN109918664A (zh) * | 2019-03-05 | 2019-06-21 | 北京声智科技有限公司 | 分词方法和装置 |
CN109918664B (zh) * | 2019-03-05 | 2023-04-18 | 北京声智科技有限公司 | 分词方法和装置 |
CN110209898A (zh) * | 2019-05-31 | 2019-09-06 | 苏州狗尾草智能科技有限公司 | 基于人机交互的数据清洗方法、回复方法、装置及介质 |
CN111951070A (zh) * | 2020-07-31 | 2020-11-17 | 上海博泰悦臻电子设备制造有限公司 | 基于车联网的智能推荐方法、装置、服务器及存储介质 |
CN111951070B (zh) * | 2020-07-31 | 2023-12-22 | 博泰车联网科技(上海)股份有限公司 | 基于车联网的智能推荐方法、装置、服务器及存储介质 |
CN112395865A (zh) * | 2020-11-17 | 2021-02-23 | 中国外运股份有限公司 | 报关单校验方法及装置 |
CN112395865B (zh) * | 2020-11-17 | 2024-01-02 | 中国外运股份有限公司 | 报关单校验方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102999534A (zh) | 一种基于逆向最大匹配的中文分词算法 | |
Mitra | Exploring session context using distributed representations of queries and reformulations | |
CN101816000B (zh) | 用于部分输入的搜索查询的自动完成和自动输入法校正 | |
US9069857B2 (en) | Per-document index for semantic searching | |
US7523102B2 (en) | Content search in complex language, such as Japanese | |
CN102339294B (zh) | 一种对关键词进行预处理的搜索方法和系统 | |
CN114065758B (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
US20100161655A1 (en) | System for string matching based on segmentation method and method thereof | |
CN105138514A (zh) | 一种基于词典的正向逐次加一字最大匹配中文分词方法 | |
Zu et al. | Resume information extraction with a novel text block segmentation algorithm | |
KR101509727B1 (ko) | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 | |
CN101794307A (zh) | 基于互联网分词思想的车载导航poi搜索引擎 | |
Hamdi et al. | In-depth analysis of the impact of OCR errors on named entity recognition and linking | |
CN108804592A (zh) | 知识库检索实现方法 | |
CN109885641B (zh) | 一种数据库中文全文检索的方法及系统 | |
Chang et al. | A comparison of named-entity disambiguation and word sense disambiguation | |
CN105404677A (zh) | 一种基于树形结构的检索方法 | |
Piryani et al. | Sentiment analysis in Nepali: exploring machine learning and lexicon-based approaches | |
US20040122660A1 (en) | Creating taxonomies and training data in multiple languages | |
CN107341188A (zh) | 基于语义分析的高效数据筛选方法 | |
Baruni et al. | Keyphrase extraction from document using RAKE and TextRank algorithms | |
KR101616031B1 (ko) | 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법 | |
CN105426490A (zh) | 一种基于树形结构的索引方法 | |
Liang | Spell checkers and correctors: A unified treatment | |
Shrawankar et al. | Construction of news headline from detailed news article |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130327 |