CN103678282B - 一种分词方法及装置 - Google Patents

一种分词方法及装置 Download PDF

Info

Publication number
CN103678282B
CN103678282B CN201410006570.1A CN201410006570A CN103678282B CN 103678282 B CN103678282 B CN 103678282B CN 201410006570 A CN201410006570 A CN 201410006570A CN 103678282 B CN103678282 B CN 103678282B
Authority
CN
China
Prior art keywords
word
text
participle
dictionary
renewal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410006570.1A
Other languages
English (en)
Other versions
CN103678282A (zh
Inventor
王欢良
薛峰
惠寅华
赵鹏程
俞凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Suzhou Speech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Speech Information Technology Co Ltd filed Critical Suzhou Speech Information Technology Co Ltd
Priority to CN201410006570.1A priority Critical patent/CN103678282B/zh
Publication of CN103678282A publication Critical patent/CN103678282A/zh
Application granted granted Critical
Publication of CN103678282B publication Critical patent/CN103678282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种分词方法及装置,属于信息处理领域。该方法包括:利用n阶马尔科夫模型n-gram模型,将待分词文本进行分词,得到第一文本;当该第一文本中包括目标词串时,将该目标词串添加至词典,得到更新后的词典,该目标词串为未存储在该词典中的词串,该词典用于存储所有的词串以及对应的估计概率;根据该更新后的词典,利用前向最大匹配分词方法以及后向最大匹配分词方法对该第一文本按预设算法进行分词,分别得到第二文本和第三文本;从该第二本文以及该第三文本中选取词长期望和词长方差符合预设规则的文本作为分词结果。本发明通过仅将新词添加至现有词典中,对现有词典进行更新,使得在不增加分词歧义的前提下,灵活地添加新词。

Description

一种分词方法及装置
技术领域
本发明涉及信息处理领域,特别涉及一种分词方法及装置。
背景技术
中文分词指将一个汉字序列切分成一个一个单独的词。中文分词在信息检索、机器翻译和语音识别等领域起重要作用,是中文语音处理过程中必不可少的一个环节。一般地,由于存在分词歧义的问题,传统的基于词典的机械分词方法的准确度达不到100%。例如,“南京市长江大桥”可以分成“南京市长江大桥”,也可以分成“南京市长江大桥”。如果不依赖其他知识,两种分词方式似乎都是合理的。
为了解决上述分词歧义的问题,现有技术中,采用n-gram语言模型进行中文分词。该n-gram语言模型指利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现中文分词。例如,P(南京市长江大桥)的概率一般会低于P(南京市长江大桥),因此上述两种分词中,后者是更合理的。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
如果要在n-gram语言模型中添加新词,需要为新词估计概率,导致需要收集包含新词的语料,重新构建n-gram语言模型,存在一定的局限性。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种分词方法及装置。所述技术方案如下:
一方面,提供了一种分词方法,所述方法包括:
利用n阶马尔科夫模型n-gram模型,将待分词文本进行分词,得到第一文本,所述n-gram模型用于消除分词歧义,所述第一文本包括以空格为间隔的词串;
当所述第一文本中包括目标词串时,将所述目标词串添加至词典,得到更新后的词典,所述目标词串为未存储在所述词典中的词串,所述词典用于存储所有的词串以及对应的估计概率;
根据所述更新后的词典,利用前向最大匹配分词方法以及后向最大匹配分词方法对所述第一文本按预设算法进行分词,分别得到第二文本和第三文本;所述第二文本为所述前向最大匹配分词方法用于按照预设策略将第一文本的汉字串与所述更新后的词典中的词条进行匹配得到的;所述第三文本为所述后向最大匹配分词方法用于按照预设策略将第一文本的汉字串与所述更新后的词典中的词条进行匹配得到的;
从所述第二文本以及所述第三文本中选取词长期望和词长方差符合预设规则的文本作为分词结果;
所述前向最大匹配分词的方法包括下述步骤a-d:
步骤a、如果待分词的句子长度大于更新后的词表最大词长,在句首截取n个已分好的词,直到这n个词的总词长恰巧大于等于词表最大词长;
步骤b、如果这n个词合并成的词在更新后的词表中,则输出这个合并的词作为分词结果,否则查找前n-1个词或前n-1个词与第n个词的前k个字合并成的词是否在更新后的词表中,同时第n个词的剩余部分是否也在更新后的词表中且不为单字词,直到查找到符合上述条件的合并词为止;
步骤c、输出该词。并把句子的剩余部分做为新待分词的句子;
步骤d、重复步骤a-c,直到待分词的句子为空为止;
所述后向最大匹配分词的方法包括下述步骤1-4:
步骤1、如果待分词的句子长度大于更新后的词表最大词长,在句末截取n个已分好的词,直到这n个词的总词长恰巧大于等于词表最大词长;
步骤2、如果这n个词合并成的词在更新后的词表中,则输出这个合并的词作为分词结果,否则查找倒数n-1个词或倒数n-1个词与倒数第n个词的后k个字合并成的词是否在更新后的词表中,同时倒数第n个词的剩余部分是否也在更新后的词表中且不为单字词,直到查找到符合上述条件的合并词为止;
步骤3、输出该词。并把句子的剩余部分做为新待分词的句子;
步骤4、重复步骤1-3,直到待分词的句子为空为止。
可选地,从所述第二文本以及所述第三文本中选取词长期望和词长方差符合预设规则的文本作为分词结果包括:
当所述第二文本以及所述第三文本中选取词长期望不相同时,从所述第二文本以及所述第三文本中选取词长期望大的文本作为分词结果;或,
当所述第二文本以及所述第三文本中选取词长期望相同时,从所述第二文本以及所述第三文本中选取词长方差小的文本作为分词结果。
可选地,利用n-gram模型,将待分词文本进行分词,得到第一文本包括:
通过对语料库进行分析和计算,生成单字同时出现的频度库,并由所述频度库生成分词词典;
利用Viterbi算法,从所述分词词典中所有可能的字符串的分割情况中,选择各个词频率乘积最高的路径,作为所述第一文本。
可选地,所述方法还包括:
当所述第一文本中未包括所述目标词串,将所述第一文本作为分词结果。
另一方面,提供了一种分词装置,所述装置包括:
第一分词模块,用于利用n阶马尔科夫模型n-gram模型,将待分词文本进行分词,得到第一文本,所述n-gram模型用于消除分词歧义,所述第一文本包括以空格为间隔的词串;
词典更新模块,用于当所述第一文本中包括目标词串时,将所述目标词串添加至词典,得到更新后的词典,所述目标词串为未存储在所述词典中的词串,所述词典用于存储所有的词串以及对应的估计概率;
第二分词模块,用于根据所述更新后的词典,利用前向最大匹配分词方法以及后向最大匹配分词方法对所述第一文本按预设算法进行分词,分别得到第二文本和第三文本;所述第二文本为所述前向最大匹配分词方法用于按照预设策略将第一文本的汉字串与所述更新后的词典中的词条进行匹配得到的;所述第三文本为所述后向最大匹配分词方法用于按照预设策略将第一文本的汉字串与所述更新后的词典中的词条进行匹配得到的;
分词结果选取模块,用于从所述第二文本以及所述第三文本中选取词长期望和词长方差符合预设规则的文本作为分词结果;
所述前向最大匹配分词的方法包括下述步骤a-d:
步骤a、如果待分词的句子长度大于更新后的词表最大词长,在句首截取n个已分好的词,直到这n个词的总词长恰巧大于等于词表最大词长;
步骤b、如果这n个词合并成的词在更新后的词表中,则输出这个合并的词作为分词结果,否则查找前n-1个词或前n-1个词与第n个词的前k个字合并成的词是否在更新后的词表中,同时第n个词的剩余部分是否也在更新后的词表中且不为单字词,直到查找到符合上述条件的合并词为止;
步骤c、输出该词。并把句子的剩余部分做为新待分词的句子;
步骤d、重复步骤a-c,直到待分词的句子为空为止;
所述后向最大匹配分词的方法包括下述步骤1-4:
步骤1、如果待分词的句子长度大于更新后的词表最大词长,在句末截取n个已分好的词,直到这n个词的总词长恰巧大于等于词表最大词长;
步骤2、如果这n个词合并成的词在更新后的词表中,则输出这个合并的词作为分词结果,否则查找倒数n-1个词或倒数n-1个词与倒数第n个词的后k个字合并成的词是否在更新后的词表中,同时倒数第n个词的剩余部分是否也在更新后的词表中且不为单字词,直到查找到符合上述条件的合并词为止;
步骤3、输出该词。并把句子的剩余部分做为新待分词的句子;
步骤4、重复步骤1-3,直到待分词的句子为空为止。
可选地,所述分词结果选取模块包括:
第一分词结果选取单元,用于当所述第二文本以及所述第三文本中选取词长期望不相同时,从所述第二文本以及所述第三文本中选取词长期望大的文本作为分词结果;或,
第二分词结果选取单元,用于当所述第二文本以及所述第三文本中选取词长期望相同时,从所述第二文本以及所述第三文本中选取词长方差小的文本作为分词结果。
可选地,所述第一分词模块包括:
分词词典生成单元,用于通过对语料库进行分析和计算,生成单字同时出现的频度库,并由所述频度库生成分词词典;
第一文本选取单元,用于利用Viterbi算法,从所述分词词典中所有可能的字符串的分割情况中,选择各个词频率乘积最高的路径,作为所述第一文本。
可选地,所述分词结果选取模块还用于当所述第一文本中未包括所述目标词串,将所述第一文本作为分词结果。
本发明实施例提供的技术方案带来的有益效果是:
通过仅将新词添加至现有词典中,对现有词典进行更新,使得在不增加分词歧义的前提下,灵活地添加新词。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的分词方法流程图;
图2是本发明实施例提供的分词装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是本发明实施例提供的分词方法流程图。参见图1,该实施例包括:
101、利用n-gram模型,将待分词文本进行分词,得到第一文本,该n-gram模型用于消除分词歧义,该第一文本包括以空格为间隔的词串;
在本发明实施例中,n-gram模型指将语言中字符的发生近似为(n-1)阶markov模型,也即是,设有1个字符的汉字字符串c1,c2,…,ci,在其上下文关系中,只有前n-1个字符对下一个字符即第n个字符出现的概率有影响,用概率表示就是:
P(cl|c1,...,cl-1)≈P(cl|c1-n+1,...,cl-1)
根据概率乘法定理和n-gram模型,汉字字符串c1,c2,…,ci的概率可表示为组成该字符串的字符的概率的乘积:
P ( c 1 , c 2 , ... , c l ) = Π i = 1 l P ( c 1 | c 1 , ... , c i - 1 ) ≈ Π i = 1 l P ( c i | c i - n + 1 , ... , c i - 1 )
n-gram模型的参数可以根据字符串在训练语料库出现的频率来估计得到:
P ( c l | c l - n + 1 , .... , c 1 - 1 ) = C ( c l - n + 1 , ... , c l ) C ( c l - n + 1 , ... , c l - 1 )
其中,函数C(c1,…,cl)用于计算其自变量中字符串的数量。
需要说明的是,高阶模型能更好地刻画语言的结构,但同时也有不足。因为从给定的预料库所能获得的有关数据是有限的,而且很多字符串在预料库中出现次数很少,或者根本不会出现。于是就会出现这样一种结果:高阶模型仅能给出那些与训练用数据近似的字符串的合理概率,而不能得到那些与训练用数据不相近的字符串的合理概率,即所谓的数据稀疏问题。另外,高阶模型需要的计算量、存储空间都较大,实现较困难。因此在实际处理中,取n=2或n=3的模型即可满足许多实际应用,这时n-gram模型分别被称为二元文法模型和三元文法模型。
进一步可选地,本发明实施例采用基于Good-Turing估计法的补偿平滑技术,可以克服数据稀疏的问题。根据Good-Turing估计法,对任何发生r次的n-gram文法。假定它会发生r*次,
r * = ( r + 1 ) n r + 1 n r
这里式子nr为在训练数据中精确出现r次n-gram的次数,为将该数转换成概率,只需作如下的归一化:设字符c在语料库中总出现r次,取P(c)=r*/N。
其中,N为语料库所包含的字符的总数,定义比率dr=r*/r为贴现系数。
特别地,对于二元文法模型,如果字符串c1c2出现在语料库中,运用Good-Turing估计法,条件概率P(c2|c1)可以表示如下:
P ( c 2 | c 1 ) = C * ( c 1 c 2 ) C ( c 1 ) = C * ( c 1 c 2 ) C ( c 1 c 2 ) C ( c 1 c 2 ) C ( c 1 ) = d C ( c 1 c 2 ) C ( c 1 c 2 ) C ( c 1 ) .
基于n-gram统计模型的分词方法,首先通过对语料库进行基于字符统计Bigram统计分析和计算,生成单字同时出现的频度库,并由该库生成分词词典,该分词词典的格式可以如表1所示。
表1:基于n-gram的分词字典
然后用Viterbi算法从该分词词典中所有可能的字符串的分割情况中,选择各个词频率乘积最高的路径,作为该第一文本。
102、当该第一文本中包括目标词串时,将该目标词串添加至词典,得到更新后的词典,该目标词串为未存储在该词典中的词串,该词典用于存储所有的词串以及对应的估计概率;
在本发明实施例中,向该词典中添加目标词串时,仅添加目标词串本身,而不需要估计目标词串的概率,使得使词表较易更新。
本发明实施例仅以该第一文本中包括目标词串为例进行说明,在本发明的另一实施例中,该第一文本中也可以不包括该目标词串,此时,将该第一文本作为分词结果。
103、根据该更新后的词典,利用前向最大匹配分词方法以及后向最大匹配分词方法对该第一文本按预设算法进行分词,分别得到第二文本和第三文本,该前向最大匹配分词方法以及后向最大匹配分词方法用于按照预设策略将第一文本的汉字串与该更新后的词典中的词条进行匹配;
在本发明实施例中,前向最大匹配和后向最大匹配这种两种方法,都是机械分词方法,均按照预设算法将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功。具体步骤如下:
该前向最大匹配分词的方法包括下述步骤a-d:
步骤a、如果待分词的句子长度大于更新后的词表最大词长,在句首截取n个已分好的词,直到这n个词的总词长恰巧大于等于词表最大词长;
步骤b、如果这n个词合并成的词在更新后的词表中,则输出这个合并的词作为分词结果,否则查找前n-1个词或前n-1个词与第n个词的前k个字合并成的词是否在更新后的词表中,同时第n个词的剩余部分是否也在更新后的词表中且不为单字词,直到查找到符合上述条件的合并词为止;
步骤c、输出该词。并把句子的剩余部分做为新待分词的句子;
步骤d、重复步骤a-c,直到待分词的句子为空为止。
该后向最大匹配分词的方法包括下述步骤1-4:
步骤1、如果待分词的句子长度大于更新后的词表最大词长,在句末截取n个已分好的词,直到这n个词的总词长恰巧大于等于词表最大词长;
步骤2、如果这n个词合并成的词在更新后的词表中,则输出这个合并的词作为分词结果,否则查找倒数n-1个词或倒数n-1个词与倒数第n个词的后k个字合并成的词是否在更新后的词表中,同时倒数第n个词的剩余部分是否也在更新后的词表中且不为单字词,直到查找到符合上述条件的合并词为止;
步骤3、输出该词。并把句子的剩余部分做为新待分词的句子;
步骤4、重复步骤1-3,直到待分词的句子为空为止。
104、从该第二本文以及该第三文本中选取词长期望和词长方差符合预设规则的文本作为分词结果。
在中文分词结果中,词多为双字词、三字词,四字词和五字词已为少数,更多字数的词则更为少见,所以词的长度能够很好的反映分词的结果。利用两个最常用的统计量来评估分词结果的质量,即分词后句子中词长的期望与方差。本发明实施例中的决策方案如下:
其中,fmm(sentence)为最大前向匹配分词结果,rmm(sentence)为最大后相匹配分词的方法,len(x)为计算词长的函数,E(x)为求期望函数,D(x)为求方差函数。即当两种分词结果的词长期望不同时我们认为词长期望越大的分词结果越合理,当两种分词结果的词长期望相同时,可以认为词长方差越小的分词结果越合理。
本发明实施例提供的方法,通过仅将新词添加至现有词典中,对现有词典进行更新,使得在不增加分词歧义的前提下,灵活地添加新词。
图2是本发明实施例提供的分词装置结构示意图。参见图2,该装置包括:第一分词模块201、词典更新模块202、第二分词模块203和分词结果选取模块204。其中:
第一分词模块201用于利用n阶马尔科夫模型n-gram模型,将待分词文本进行分词,得到第一文本,该n-gram模型用于消除分词歧义,该第一文本包括以空格为间隔的词串;第一分词模块201与词典更新模块202连接,词典更新模块202用于当该第一文本中包括目标词串时,将该目标词串添加至词典,得到更新后的词典,该目标词串为未存储在该词典中的词串,该词典用于存储所有的词串以及对应的估计概率;词典更新模块202与第二分词模块203连接,第二分词模块203用于根据该更新后的词典,利用前向最大匹配分词方法以及后向最大匹配分词方法对该第一文本按预设算法进行分词,分别得到第二文本和第三文本,该前向最大匹配分词方法以及后向最大匹配分词方法用于按照预设策略将第一文本的汉字串与该更新后的词典中的词条进行匹配;第二分词模块203与分词结果选取模块204连接,分词结果选取模块204用于从该第二本文以及该第三文本中选取词长期望和词长方差符合预设规则的文本作为分词结果。
可选地,该分词结果选取模块204包括:第一分词结果选取单元,用于当该第二本文以及该第三文本中选取词长期望不相同时,从该第二本文以及该第三文本中选取词长期望大的文本作为分词结果;或,第二分词结果选取单元,用于当该第二本文以及该第三文本中选取词长期望相同时,从该第二本文以及该第三文本中选取词长方差小的文本作为分词结果。
可选地,该第一分词模块201包括:分词词典生成单元,用于通过对语料库进行分析和计算,生成单字同时出现的频度库,并由该频度库生成分词词典;第一文本选取单元,用于利用Viterbi算法,从该分词词典中所有可能的字符串的分割情况中,选择各个词频率乘积最高的路径,作为该第一文本。
可选地,该分词结果选取模块204还用于当该第一文本中未包括该目标词串,将该第一文本作为分词结果。
本发明实施例提供的装置,通过仅将新词添加至现有词典中,对现有词典进行更新,使得在不增加分词歧义的前提下,灵活地添加新词。
需要说明的是:上述实施例提供的分词装置在分词时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的分词装置与分词方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种分词方法,其特征在于,所述方法包括:
利用n阶马尔科夫模型n-gram模型,将待分词文本进行分词,得到第一文本,所述n-gram模型用于消除分词歧义,所述第一文本包括以空格为间隔的词串;
当所述第一文本中包括目标词串时,将所述目标词串添加至词典,得到更新后的词典,所述目标词串为未存储在所述词典中的词串,所述词典用于存储所有的词串以及对应的估计概率;
根据所述更新后的词典,利用前向最大匹配分词方法以及后向最大匹配分词方法对所述第一文本按预设算法进行分词,分别得到第二文本和第三文本;所述第二文本为所述前向最大匹配分词方法用于按照预设策略将第一文本的汉字串与所述更新后的词典中的词条进行匹配得到的;所述第三文本为所述后向最大匹配分词方法用于按照预设策略将第一文本的汉字串与所述更新后的词典中的词条进行匹配得到的;
从所述第二文本以及所述第三文本中选取词长期望和词长方差符合预设规则的文本作为分词结果;
所述前向最大匹配分词的方法包括下述步骤a-d:
步骤a、如果待分词的句子长度大于更新后的词表最大词长,在句首截取n个已分好的词,直到这n个词的总词长恰巧大于等于词表最大词长;
步骤b、如果这n个词合并成的词在更新后的词表中,则输出这个合并的词作为分词结果,否则查找前n-1个词或前n-1个词与第n个词的前k个字合并成的词是否在更新后的词表中,同时第n个词的剩余部分是否也在更新后的词表中且不为单字词,直到查找到符合上述条件的合并词为止;
步骤c、输出该词,并把句子的剩余部分做为新待分词的句子;
步骤d、重复步骤a-c,直到待分词的句子为空为止;
所述后向最大匹配分词的方法包括下述步骤1-4:
步骤1、如果待分词的句子长度大于更新后的词表最大词长,在句末截取n个已分好的词,直到这n个词的总词长恰巧大于等于词表最大词长;
步骤2、如果这n个词合并成的词在更新后的词表中,则输出这个合并的词作为分词结果,否则查找倒数n-1个词或倒数n-1个词与倒数第n个词的后k个字合并成的词是否在更新后的词表中,同时倒数第n个词的剩余部分是否也在更新后的词表中且不为单字词,直到查找到符合上述条件的合并词为止;
步骤3、输出该词,并把句子的剩余部分做为新待分词的句子;
步骤4、重复步骤1-3,直到待分词的句子为空为止。
2.根据权利要求1所述的方法,其特征在于,从所述第二文本以及所述第三文本中选取词长期望和词长方差符合预设规则的文本作为分词结果包括:
当所述第二文本以及所述第三文本中选取词长期望不相同时,从所述第二文本以及所述第三文本中选取词长期望大的文本作为分词结果;或,
当所述第二文本以及所述第三文本中选取词长期望相同时,从所述第二文本以及所述第三文本中选取词长方差小的文本作为分词结果。
3.根据权利要求1所述的方法,其特征在于,利用n-gram模型,将待分词文本进行分词,得到第一文本包括:
通过对语料库进行分析和计算,生成单字同时出现的频度库,并由所述频度库生成分词词典;
利用Viterbi算法,从所述分词词典中所有可能的字符串的分割情况中,选择各个词频率乘积最高的路径,作为所述第一文本。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述第一文本中未包括所述目标词串,将所述第一文本作为分词结果。
5.一种分词装置,其特征在于,所述装置包括:
第一分词模块,用于利用n阶马尔科夫模型n-gram模型,将待分词文本进行分词,得到第一文本,所述n-gram模型用于消除分词歧义,所述第一文本包括以空格为间隔的词串;
词典更新模块,用于当所述第一文本中包括目标词串时,将所述目标词串添加至词典,得到更新后的词典,所述目标词串为未存储在所述词典中的词串,所述词典用于存储所有的词串以及对应的估计概率;
第二分词模块,用于根据所述更新后的词典,利用前向最大匹配分词方法以及后向最大匹配分词方法对所述第一文本按预设算法进行分词,分别得到第二文本和第三文本;所述第二文本为所述前向最大匹配分词方法用于按照预设策略将第一文本的汉字串与所述更新后的词典中的词条进行匹配得到的;所述第三文本为所述后向最大匹配分词方法用于按照预设策略将第一文本的汉字串与所述更新后的词典中的词条进行匹配得到的;
分词结果选取模块,用于从所述第二文本以及所述第三文本中选取词长期望和词长方差符合预设规则的文本作为分词结果;
所述前向最大匹配分词的方法包括下述步骤a-d:
步骤a、如果待分词的句子长度大于更新后的词表最大词长,在句首截取n个已分好的词,直到这n个词的总词长恰巧大于等于词表最大词长;
步骤b、如果这n个词合并成的词在更新后的词表中,则输出这个合并的词作为分词结果,否则查找前n-1个词或前n-1个词与第n个词的前k个字合并成的词是否在更新后的词表中,同时第n个词的剩余部分是否也在更新后的词表中且不为单字词,直到查找到符合上述条件的合并词为止;
步骤c、输出该词,并把句子的剩余部分做为新待分词的句子;
步骤d、重复步骤a-c,直到待分词的句子为空为止;
所述后向最大匹配分词的方法包括下述步骤1-4:
步骤1、如果待分词的句子长度大于更新后的词表最大词长,在句末截取n个已分好的词,直到这n个词的总词长恰巧大于等于词表最大词长;
步骤2、如果这n个词合并成的词在更新后的词表中,则输出这个合并的词作为分词结果,否则查找倒数n-1个词或倒数n-1个词与倒数第n个词的后k个字合并成的词是否在更新后的词表中,同时倒数第n个词的剩余部分是否也在更新后的词表中且不为单字词,直到查找到符合上述条件的合并词为止;
步骤3、输出该词,并把句子的剩余部分做为新待分词的句子;
步骤4、重复步骤1-3,直到待分词的句子为空为止。
6.根据权利要求5所述的装置,其特征在于,所述分词结果选取模块包括:
第一分词结果选取单元,用于当所述第二文本以及所述第三文本中选取词长期望不相同时,从所述第二文本以及所述第三文本中选取词长期望大的文本作为分词结果;或,
第二分词结果选取单元,用于当所述第二文本以及所述第三文本中选取词长期望相同时,从所述第二文本以及所述第三文本中选取词长方差小的文本作为分词结果。
7.根据权利要求5所述的装置,其特征在于,所述第一分词模块包括:
分词词典生成单元,用于通过对语料库进行分析和计算,生成单字同时出现的频度库,并由所述频度库生成分词词典;
第一文本选取单元,用于利用Viterbi算法,从所述分词词典中所有可能的字符串的分割情况中,选择各个词频率乘积最高的路径,作为所述第一文本。
8.根据权利要求5所述的装置,其特征在于,所述分词结果选取模块还用于当所述第一文本中未包括所述目标词串,将所述第一文本作为分词结果。
CN201410006570.1A 2014-01-07 2014-01-07 一种分词方法及装置 Active CN103678282B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410006570.1A CN103678282B (zh) 2014-01-07 2014-01-07 一种分词方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410006570.1A CN103678282B (zh) 2014-01-07 2014-01-07 一种分词方法及装置

Publications (2)

Publication Number Publication Date
CN103678282A CN103678282A (zh) 2014-03-26
CN103678282B true CN103678282B (zh) 2016-05-25

Family

ID=50315891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410006570.1A Active CN103678282B (zh) 2014-01-07 2014-01-07 一种分词方法及装置

Country Status (1)

Country Link
CN (1) CN103678282B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077275A (zh) * 2014-06-27 2014-10-01 北京奇虎科技有限公司 一种基于语境进行分词的方法和装置
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法
CN104575490B (zh) * 2014-12-30 2017-11-07 苏州驰声信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法
JP2017004127A (ja) * 2015-06-05 2017-01-05 富士通株式会社 テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法
CN105389349B (zh) * 2015-10-27 2018-07-27 上海智臻智能网络科技股份有限公司 词典更新方法及装置
CN107092588B (zh) * 2016-02-18 2022-09-09 腾讯科技(深圳)有限公司 一种文本信息处理方法、装置和系统
US9645998B1 (en) * 2016-06-12 2017-05-09 Apple Inc. Learning new words
CN107622044A (zh) * 2016-07-13 2018-01-23 阿里巴巴集团控股有限公司 字符串的分词方法、装置及设备
CN106502980B (zh) * 2016-10-09 2019-05-17 武汉斗鱼网络科技有限公司 一种基于文本词素切分的检索方法及系统
CN108614810A (zh) * 2016-12-09 2018-10-02 中国移动通信集团山西有限公司 投诉热点自动识别方法及装置
CN109408794A (zh) * 2017-08-17 2019-03-01 阿里巴巴集团控股有限公司 一种频次词典建立方法、分词方法、服务器和客户端设备
CN107967259A (zh) * 2017-11-27 2018-04-27 传神语联网网络科技股份有限公司 泰语音节切分的方法及装置
CN109284358B (zh) * 2018-09-05 2020-08-28 普信恒业科技发展(北京)有限公司 一种中文地址名词分层级的方法和装置
CN109190124B (zh) * 2018-09-14 2019-11-26 北京字节跳动网络技术有限公司 用于分词的方法和装置
CN111368534A (zh) * 2018-12-25 2020-07-03 中国移动通信集团浙江有限公司 一种应用日志降噪方法及装置
CN109918664B (zh) * 2019-03-05 2023-04-18 北京声智科技有限公司 分词方法和装置
CN109977420B (zh) * 2019-04-12 2023-04-07 出门问问创新科技有限公司 离线语义识别调整方法、装置、设备及存储介质
CN110852099B (zh) * 2019-10-25 2021-10-29 北京中献电子技术开发有限公司 一种适用于神经网络机器翻译的汉语分词方法及装置
CN112131866B (zh) * 2020-09-25 2024-06-14 马上消费金融股份有限公司 一种分词方法、装置、设备及可读存储介质
CN112528980B (zh) * 2020-12-16 2022-02-15 北京华宇信息技术有限公司 Ocr识别结果纠正方法及其终端、系统
CN115879458A (zh) * 2022-04-08 2023-03-31 北京中关村科金技术有限公司 一种语料扩充方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706807A (zh) * 2009-11-27 2010-05-12 清华大学 一种中文网页新词自动获取方法
CN102231153A (zh) * 2011-05-25 2011-11-02 盛乐信息技术(上海)有限公司 一种新词发现方法和系统
CN102831194A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 一种基于查询日志的新词自动查找系统和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3696745B2 (ja) * 1999-02-09 2005-09-21 株式会社日立製作所 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706807A (zh) * 2009-11-27 2010-05-12 清华大学 一种中文网页新词自动获取方法
CN102231153A (zh) * 2011-05-25 2011-11-02 盛乐信息技术(上海)有限公司 一种新词发现方法和系统
CN102831194A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 一种基于查询日志的新词自动查找系统和方法

Also Published As

Publication number Publication date
CN103678282A (zh) 2014-03-26

Similar Documents

Publication Publication Date Title
CN103678282B (zh) 一种分词方法及装置
CN102479191B (zh) 提供多粒度分词结果的方法及其装置
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
CN105095204B (zh) 同义词的获取方法及装置
CN109325229B (zh) 一种利用语义信息计算文本相似度的方法
CN110619043A (zh) 基于动态词向量的自动文本摘要生成方法
CN105808530B (zh) 一种统计机器翻译中的翻译方法和装置
Khan et al. RNN-LSTM-GRU based language transformation
CN109710947A (zh) 电力专业词库生成方法及装置
US10180940B2 (en) Method and system of performing a translation
CN109408628B (zh) 一种解析句子语义结构的方法及相关设备
Puigcerver et al. Querying out-of-vocabulary words in lexicon-based keyword spotting
CN103744837B (zh) 基于关键词抽取的多文本对照方法
Schröder et al. Neural end-to-end coreference resolution for German in different domains
CN106502988B (zh) 一种目标属性抽取的方法和设备
Liu et al. Morphological segmentation for Seneca
Sarkar Part-of-speech tagging for code-mixed indian social media text at icon 2015
Wang et al. Improving handwritten Chinese text recognition by unsupervised language model adaptation
Hasan et al. Comparison of Unigram, Bigram, HMM and Brill's POS tagging approaches for some South Asian languages
Zhang et al. Character decomposition for japanese-chinese character-level neural machine translation
Singla et al. Reducing the impact of data sparsity in statistical machine translation
Motlani et al. Developing part-of-speech tagger for a resource poor language: Sindhi
CN108197121A (zh) 机器学习语料的获取方法、系统、装置及可读存储介质
Piperski An application of graph theory to linguistic complexity
Qu English-Chinese name transliteration by latent analogy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Patentee after: Sipic Technology Co.,Ltd.

Address before: 215123 c106, 258 Ren'ai Road, Suzhou Industrial Park, Jiangsu Province

Patentee before: AI SPEECH Co.,Ltd.

CP03 Change of name, title or address
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Word Segmentation Method and Device

Effective date of registration: 20230726

Granted publication date: 20160525

Pledgee: CITIC Bank Limited by Share Ltd. Suzhou branch

Pledgor: Sipic Technology Co.,Ltd.

Registration number: Y2023980049433

PE01 Entry into force of the registration of the contract for pledge of patent right