CN104899190A - 分词词典的生成方法和装置及分词处理方法和装置 - Google Patents

分词词典的生成方法和装置及分词处理方法和装置 Download PDF

Info

Publication number
CN104899190A
CN104899190A CN201510301079.6A CN201510301079A CN104899190A CN 104899190 A CN104899190 A CN 104899190A CN 201510301079 A CN201510301079 A CN 201510301079A CN 104899190 A CN104899190 A CN 104899190A
Authority
CN
China
Prior art keywords
word
filtering
entry
segmentation
filtering result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510301079.6A
Other languages
English (en)
Other versions
CN104899190B (zh
Inventor
肖朔
李秀林
白洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510301079.6A priority Critical patent/CN104899190B/zh
Publication of CN104899190A publication Critical patent/CN104899190A/zh
Application granted granted Critical
Publication of CN104899190B publication Critical patent/CN104899190B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提出一种分词词典的生成方法和装置及分词处理方法和装置,该分词词典的生成方法包括获取原始句语料;对所述原始句语料进行切分,得到分词,并对所述分词进行过滤,得到过滤结果,所述过滤包括如下项中的至少一项:基于词频和逆频率的过滤,基于边界的过滤,基于拼接的过滤;根据所述过滤结果生成分词词典。该方法能够不依赖人工筛选和分词器,可以识别未登录的词条,从而提高分词词典的生成速度和效果。

Description

分词词典的生成方法和装置及分词处理方法和装置
技术领域
本发明涉及语音处理技术领域,尤其涉及一种分词词典的生成方法和装置及分词处理方法和装置。
背景技术
语音合成,又称文语转换(Text to Speech),能将文字信息实时转换为语音朗读出来,相当于给机器装上了人工嘴巴。对于语音合成系统,首先需要对输入的文本进行处理,其中包括分词处理。分词算法主要有两类,一种是基于词典匹配的算法,另一种是基于训练语料的学习算法。词典和训练语料分别是基于词典的匹配算法和基于训练语料的学习算法所必须的数据。
现有技术中,不管是词典生成还是语料生成,都必须依靠人工筛选和分词器切分,因此更新周期长且过于依赖已有分词器,无法识别未登录的词条或者语料。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种分词词典的生成方法,该方法可以不依赖人工筛选和分词器,可以识别未登录的词条,从而提高分词词典的生成速度和效果。
本发明的另一个目的在于提出一种分词处理方法,该方法可以结合基于词典匹配的算法和基于训练语料的学习算法的优点,从而提高分词效果。
本发明的另一个目的在于提出一种分词词典的生成装置。
本发明的另一个目的在于提出一种分词处理装置。
为达到上述目的,本发明第一方面实施例提出的分词词典的生成方法,包括:获取原始句语料;对所述原始句语料进行切分,得到分词,并对所述分词进行过滤,得到过滤结果,所述过滤包括如下项中的至少一项:基于词频和逆频率的过滤,基于边界的过滤,基于拼接的过滤;根据所述过滤结果生成分词词典。
本发明第一方面实施例提出的分词词典的生成方法,通过对切分后的分词进行过滤,生成分词词典,可以不依赖人工筛选和分词器,可以识别未登录的词条,从而提高分词词典的生成速度和效果。
为达到上述目的,本发明第二方面实施例提出的分词处理方法,包括:将待切分的原始文本,采用预先获取的分词词典,进行基于词典的匹配,将所述原始文本切分为分词;根据所述分词和预先获取的训练模型,进行基于训练语料的学习,得到分词结果;其中,所述分词词典采用如本发明第一方面实施例所述的方法生成。
本发明第二方面实施例提出的分词处理方法,在分词处理后,可以结合基于词典的匹配算法和基于训练语料的学习算法,因此可以结合这两种算法的优点,在分词时不仅可以参考词典的词条,还可以参考上下文信息,提高分词处理的效果。
为达到上述目的,本发明第三方面实施例提出的分词词典的生成装置,包括:获取模块,用于获取原始句语料;过滤模块,用于对所述原始句语料进行切分,得到分词,并对所述分词进行过滤,得到过滤结果,所述过滤包括如下项中的至少一项:基于词频和逆频率的过滤,基于边界的过滤,基于拼接的过滤;生成模块,用于根据所述过滤结果生成分词词典。
本发明第三方面实施例提出的分词词典的生成装置,通过对切分后的分词进行过滤,生成分词词典,可以不依赖人工筛选和分词器,可以识别未登录的词条,从而提高分词词典的生成速度和效果。
为达到上述目的,本发明第四方面实施例提出的分词处理装置,包括:第一切分模块,用于将待切分的原始文本,采用预先获取的分词词典,进行基于词典的匹配,将所述原始文本切分为分词;第二切分模块,用于根据所述分词和预先获取的训练模型,进行基于训练语料的学习,得到分词结果;其中,所述分词词典采用如本发明第一方面实施例所述的方法生成。
本发明第四方面实施例提出的分词处理装置,在分词处理后,可以结合基于词典的匹配算法和基于训练语料的学习算法,因此可以结合这两种算法的优点,在分词时不仅可以参考词典的词条,还可以参考上下文信息,提高分词处理的效果。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的分词词典的生成方法的流程示意图;
图2是本发明实施例中第一次过滤处理的流程示意图;
图3是本发明实施例中第二次过滤处理的流程示意图;
图4是本发明实施例中第三次过滤处理的流程示意图;
图5是本发明另一实施例提出的分词处理方法的流程示意图;
图6是本发明实施例中训练流程和预测流程的示意图;
图7是本发明另一实施例提出的分词词典的生成装置的结构示意图;
图8是本发明另一实施例提出的分词词典的生成装置的结构示意图;
图9是本发明另一实施例提出的分词处理装置的结构示意图;
图10是本发明另一实施例提出的分词处理装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本发明一实施例提出的分词词典的生成方法的流程示意图,该方法包括:
S11:获取原始句语料。
其中,可以对已有数据进行收集,获取原始句语料,例如,原始句语料是已有的新闻文本中的句子。可以理解的是,在获取到文本后,对文本进行划分得到句子的方式不限定,例如,可以将标点符号隔开的部分作为一个句子。
S12:对所述原始句语料进行切分,得到分词,并对所述分词进行过滤,得到过滤结果,所述过滤包括如下项中的至少一项:基于词频和逆频率的过滤,基于边界的过滤,基于拼接的过滤。
现有技术中,在生成分词词典(简称为词典)时,先利用分词器切分原始句语料,得到分词,之后,统计分词词频,设置阈值过滤低频词,人工筛选低质词,从而生成词典。
而本实施例中,不需要人工筛选,通过过滤实现词典中的词条的自动筛选。
一个实施例中,以包括上述三次过滤且三次过滤依次执行为例。
具体的,所述对所述分词进行过滤,得到过滤结果,包括:
对所述分词进行基于词频和逆频率的过滤,得到第一次过滤结果;
根据所述第一次过滤结果,进行基于边界的过滤,得到第二次过滤结果;
根据所述第一次过滤结果和所述第二次过滤结果,进行拼接过滤,得到所述过滤结果。
如图2所示,从原始句语料开始到得到第一次过滤结果的流程可以包括:
S21:获取原始句语料。
例如,获取新闻类的文本,再对文本进行划分,得到句子,从而得到原始句语料。
S22:对原始句语料进行切分,得到分词。
其中,在对句子进行切分时,可以将句子切分为不同长度的字符串,每个字符串的长度可以设置。
本实施例中,以最小长度n0=1,最大长度N=5,且相邻两个长度的差值L=1为例,则,对应一个原始句语料:我爱北京天安门,可以切分为如下的分词:
切分时,从“我”开始切分,得到的分词是:我,我爱,我爱北,我爱北京,我爱北京天。
之后,再从“爱”开始,用同样的方法进行切分,依此类推,最后从“门”开始切分,得到“门”。
S23:统计每个分词的词频和逆频率。
其中,词频是指一个分词在切分后得到的所有分词中的出现次数,例如,统计“我爱”在所有分词中的出现次数。
一个长度为n的分词,且逆频率是指包含该分词,且长度为(n+L)的分词的个数,其中,n是分词的任一长度,L是切分时两个相邻长度的差值。以上述切分为例,L=1。
例如,“我爱”的逆频率是指包含“我爱”的“我爱你”,“我爱他”,“我爱谁”这些分词的个数。
S24:根据所述词频和逆频率计算每个分词的权重,并根据所述权重对分词进行排序。
其中,权重与词频和逆频率成正比关系,具体公式可以设置。
本实施例中,以如下计算公式为例:
weight=log(frq+1)*log(idf+1);
其中,weight表示一个分词的权重,frq表示该分词的词频,idf表示该分词的逆频率,log表示取对数运算,*表示相乘运算。
在得到权重后,可以按照权重从大到小的顺序对分词进行排序。
其中,词频(词频的对数可以用tf表示)越高,代表这个词越重要。idf越高代表这个词含有的信息量越充足,例如:“微博”可以组成“发微博、写微博、看微博”,可以明显看出“微博”是这几个三字词中的重点,而“发、写、看”则并不是那么重要,因此通过idf可以较轻松的得到“微博”这种高质量词。
S25:在排序后的分词中,选择预设个数的权重较大,且词频大于第一预设值以及逆频率大于第二预设值的分词,得到选择后的分词。
例如,按照权重从大到小的顺序进行排序后,可以从前到后选择分词,并判断这些分词的词频和逆频率是否大于相应的预设值,从而得到预设个数的选择后的分词。
由于对原始句语料切分为长度分别是1,2,…,N的分词后,会得到分词的数据量过大,通过设置第一预设值和第二预设值可以过滤掉一些分词,降低处理的数据量。另外,tf或idf多低的分词,表明相应的分词很少出现在文本中或者信息量不足,因此,这些分词也不需要加入词典中。
S26:在所述选择后的分词中获取第一长度的分词,以及包含第一长度的分词的第二长度的分词,并计算所述第二长度的分词的词频与所述第一长度的分词的词频之间的比值,其中,所述第二长度和所述第一长度是相邻的两个长度,且所述第二长度大于所述第一长度。
用公式例如表示为:计算n字词频/(n-1)字词频的比值,要求n字词包含(n-1)字词。
例如,“天安”包含于“天安门”,虽然“天安”的频率也很高,但实际上,根据统计发现,“天安”90%都是在“天安门”中出现的,这种情况则认为,“天安门”更稳定质量更高,而“天安”可能不成词,应该删除掉。
S27:如果所述比值大于或等于预设阈值,则将所述第一长度的分词确定为第一次过滤结果的删除词条,将所述第二长度的分词确定为第一次过滤结果的保留词条;或者,如果所述比值小于预设阈值,则将所述第一长度的分词确定为第一次过滤结果的保留词条。
例如,上述的“天安门”确定为第一次过滤结果的保留词条,“天安”确定为第一次过滤结果的删除词条。或者,
又例如,“发微博”的词频/“微博”的词频的比值小于预设阈值,以及,“看微博”的词频/“微博”的词频的比值小于预设阈值,则确定“微博”是第一次过滤结果的保留词条。
其中,在计算n字词频/(n-1)字词频的比值小于预设阈值时,可以是所有n字词频对应的比值都小于,例如,“发微博”的词频/“微博”的词频的比值小于预设阈值,以及,“看微博”的词频/“微博”的词频的比值小于预设阈值等;或者,也可以是n字词对应的比值中的最大值小于预设阈值,例如,计算“发微博”的词频/“微博”的词频的比值,以及“看微博”的词频/“微博”的词频的比值等,从这些比值中取出最大值,如果最大值小于预设阈值,则相应的(n-1)字词是保留词条。
在计算n字词频/(n-1)字词频的比值大于或等于预设阈值时,将任一个比值大于或等于预设阈值的n字词确定为保留词条,例如,“天安门”的词频/“天安”的词频的比值大于预设阈值,则“天安门”是保留词条,而如果“京天安”的词频/“天安”的词频的比值小于预设阈值,则“京天安”不是保留词条。
S28:将所述第一次过滤结果的删除词条和所述第一次过滤结果的保留词条,组成第一次过滤结果。
在得到第一次过滤结果的删除词条和保留词条后,可以由这些词条组成第一次过滤结果,第一次过滤结果包括保留词条和删除词条。
可以理解的是,本发明的一个实施例在后续的第三次过滤时会用到删除词条,因此第一次过滤结果中保存了删除词条,如果不需要进行后续过滤,则也可以不保存删除词条。
第一次过滤结果到此完成,第一次的过滤,主要依靠tf-idf信息,按照人工阈值和词频占比情况进行过滤,保留下来的词,都是一些较重要,信息量较足且删除了部分低质的词。这种过滤方式,完全依靠原始文本进行1~N的切分,不依赖分词器,因此可以识别出未登录词,且实现简单。
第一次过滤结果的数据可能不够干净,依然包含一些低质词,例如:“度以”,在天气类文本中不仅词频高,idf也高,可以组成“十度以上、一度以上、五度以上”等等,但“度以”本身并不组成词。为了过滤掉这种词,一个实施例中,还可以进行第二次过滤:基于边界的过滤。
如图3所示,所述根据所述第一次过滤结果,进行基于边界的过滤,得到第二次过滤结果,包括:
S31:在所述原始句语料中,获取第一原始句语料,所述第一原始句语料是包含所述第一次过滤结果的保留词条的原始句语料。
例如,第一次过滤结果的保留词条包括“天安门”,则可以在原始句语料中,获取包含“天安门”的语料,如“我爱北京天安门”。
S32:采用分词器,对所述第一原始句语料进行切分,并对应每个第一次过滤结果的保留词条,获取与所述保留词条对应的切分结果。
本实施例中,分词器不限定,甚至可以选择性能不太好的分词器。
在选择分词器后,可以采用分词器对第一原始句语料进行切分,得到相应的切分结果。
例如,第一次过滤结果的保留词条包括:“天安门”,原始句语料中包含“天安门”的第一原始句语料是“我爱北京天安门”,则可以采用分词器对“我爱北京天安门”进行切分。
S33:根据所述第一次过滤结果的保留词条和所述切分结果的边界情况,得到第二次过滤结果。
可选的,所述根据所述第一次过滤结果的保留词条和所述切分结果的边界情况,得到第二次过滤结果,包括:
如果所述保留词条和所述切分结果一致,或者,如果所述保留词条的边界和所述切分结果的边界一致,则将所述保留词条的第一值增加1;或者,
如果所述保留词条的边界与所述切分结果的边界不一致,或者,如果所述保留词条包含于所述切分结果的边界内,则将所述保留词条的第二值增加1;
计算所述保留词条对应的如下比值:第一值/(第一值+第二值);
如果所述比值大于或等于阈值,则将所述保留词条确定为第二次过滤结果的保留词条;或者,如果所述比值小于阈值,则将所述保留词条确定为第二次过滤结果的删除词条;
将所述第二次过滤结果的删除词条和所述第二次过滤结果的保留词条,组成第二次过滤结果。
其中,上述的第一值和第二值可以分别为Good和Bad表示,且第一值和第二组的初始值可以设置,例如初始值均为0。
例如,第一次过滤结果中的保留词条包括:“微博”,相应的第一原始句语料是“我爱写微博”,假设采用分词器得到的切分结果是:
“我|经常|写|微博|。”
由于切分结果的“|微博|”与保留词条的“微博”一致,则“微博”对应的Good+1。或者,
第一次过滤结果中的保留词条包括:“周啸天”,相应的第一原始句语料是“我讨厌周啸天了”,假设采用分词器得到的切分结果是:
“我|讨厌|周|啸天|了|。”
由于切分结果的“|周|啸天|”与保留词条的“周啸天”的边界一致,则“周啸天”对应的Good+1。或者,
第一次过滤结果中的保留词条包括:“天修”,相应的第一原始句语料是“叶天修炼了魔功”,假设采用分词器得到的切分结果是:
“叶天|修炼|了|魔功|。”
由于切分结果的“叶天|修炼|”与保留词条的“天修”的边界一致,则“天修”对应的Bad+1。或者,
第一次过滤结果中的保留词条包括:“伯利亚”,相应的第一原始句语料是“我住在西伯利亚地区”,假设采用分词器得到的切分结果是:
“我|住在|西伯利亚|地区|。”
由于切分结果的“|西伯利亚|”包含保留词条“伯利亚”,则“伯利亚”对应的Bad+1。
在对应每个第一次过滤结果的保留词条,得到对应的Good和Bad后,可以计算该保留词条对应的Good/(Good+Bad)的比值,如果该比值大于或等于预设阈值,则确定为第二次过滤结果的保留词条,否则确定为第二次过滤结果的删除词条。
例如,第二次过滤结果的保留词条包括:“微博”,“周啸天”,第二次过滤结果的删除词条包括:“天修”,“伯利亚”。
第二次过滤结果到此完成,第二次的过滤主要依靠分词边界,但不同于以前的老方法依靠分词本身。依靠分词本身的统计结果完全依赖于分词器,分词器能切出什么词,才能添加什么词,但如果分词器切分错误,得到的词也会错误。但依靠分词边界的方法则完全不同,即使分词器切错,例如:“周啸天”不管是切成“周|啸天、周啸|天、周|啸|天”对过滤都不会造成根本影响,因为更看重的是边界情况和最终比值。在任意多种分词器统计的情况下发现,只要合理设定Good/(Good+Bad)对应的预设阈值,最终的过滤结果都能达到要求,即使利用的分词器性能不够理想。
如果已有词典,且词典中存在低质量的词,可以继续使用拼接过滤方法,删除已有词典中会引起歧义或者质量过低的词,在以前的产品中,低质量词只能依靠人工方式来删除,本发明的一个实施例中则是完全自动化方式进行。
如图4所示,所述根据所述第一次过滤结果和所述第二次过滤结果,进行拼接过滤,得到所述过滤结果,包括:
S41:将存在于已有词典中的删除词条确定为删除备选词,所述删除词条包括:第一次过滤结果的删除词条和所述第二次过滤结果的删除词条。
例如,已有词典中包含“发微”,而“发微”属于第一次过滤结果的删除词条或者属于第二次过滤结果的删除词条,则确定“发微”是删除备选词。
S42:将所述删除备选词与保留词条进行首尾拼接,得到拼接后的词,所述保留词条包括:所述第一次过滤结果的保留词条和所述第二次过滤结果的保留词条。
首尾拼接是指根据两个词条首尾含有的相同字进行拼接。
例如,删除备选词是“发微”,假设保留词条(第一次过滤结果的保留词条或者第二次过滤结果的保留词条)中包括“微博”,由于“发微”(删除备选词)、“微博”(保留词条),他们的首尾端含有相同的“微”字,因此认为这两个词可以进行首尾拼接,并可以组成“发微博”;如果不包含相同字则不能拼接。
S43:判断所述拼接后的词是否是一个稳定的词条,如果是,则从已有词典中删除所述删除备选词,得到已有词典的保留词条。
另一方面,当拼接后的词不是稳定的词条时,则不删除该删除备选词。
可选的,所述判断所述拼接后的词是否是一个稳定的词条,包括:
如果所述拼接后的词存在于所述保留词条中,则确定所述拼接后的词是一个稳定的词条;或者,
如果所述拼接后的词的词频大于预设值,且所述拼接后的词不存在于所述删除词条中,则确定所述拼接后的词是一个稳定的词条;或者,
如果所述拼接后的词存在于已有的人工数据中,则确定所述拼接后的词是一个稳定的词条。
例如,第一次过滤结果的保留词条或者第二次过滤结果的保留词条中包含“发微博”,则可以确定“发微博”是稳定的词条;或者,“发微博”的词频大于预设值,且“发微博”不在第一次过滤结果的删除词条也不在第二次过滤结果的删除词条中,则可以确定“发微博”是稳定的词条;或者,“发微博”在分词标注答案,分词训练集等已有的人工数据内,则可以确定“发微博”是稳定的词条。
S44:将所述第二次过滤结果的保留词条,以及所述已有词典的保留词条,确定为所述过滤结果。
拼接过滤方法,可以有效的从词典中删除低质量词条。从规律中可以发现删除的绝大多数都是二字词,这是因为随着词条的字数下降,产生歧义的可能性越大,一个二字词可以和很多字搭配,但三字词和四字词跟其他字搭配的可性能却很小,例如:“微博”可以和“写、看、读、念、发”搭配,但“看微博”却没有任何搭配。
二字词是成词的最基本单位,是数量最多的词条,也是最难判断的部分,即使二字词频率很高,但依然可能是低质量,例如:“语言学”中的“言学”,“发微博”中的“发微”。拼接的方法:将两个二字词也就是最基本分词单位进行拼接,尝试将它们组成粒度更大的词条,粒度越大,歧义越少也就越好判断词条的质量。因此总结起来,拼接方法主要依靠将小粒度的歧义词条,拼接为更大粒度的词条,来降低判断的难度,并以此来过滤存在歧义的低粒度词条。
S13:根据所述过滤结果生成分词词典。
例如,经过上述三次过滤后,将第二次过滤结果中的保留词条,以及,第三次过滤后得到的已有词典中的保留词条,确定为要生成的分词词典中的词条,并由这些词条组成分词词典。
本实施例中,通过对切分后的分词进行过滤,生成分词词典,可以不依赖人工筛选和分词器,可以识别未登录的词条,从而提高分词词典的生成速度和效果。具体的,词典的创建不需要人工筛选,也不依赖于分词器,在原始文本的基础上,可以生成质量较高的词库,同时还可以对已有词典进行过滤,删除其中低质的词条。自动化程度高,可以实现分词的快速迭代改进,整个改进流程中,没有必须依靠人工的步骤,大幅度缩减了改进周期。
上述的词典生成流程可以大幅度提高词典的干净程度,并增加更多的高质词条,对“基于词典的匹配算法”有明显的改进效果。但词典的完善不能弥补算法上的缺陷,基于词典的匹配算法切分过于机械化,经常切分出歧义词,例如:“很大程度上将持续”切分成“很大|程度|上将|持续|”,“上将”和“程度上”都是词典里的词,但基于词典的匹配算法,却无法准确判断歧义。为了解决这一问题,本实施例在分词处理时,将结合基于词典的匹配算法和基于训练语料的学习算法,从而在分词时可以有效利用上下文信息,提高分词效果。
图5是本发明另一实施例提出的分词处理方法的流程示意图,该方法包括:
S51:将待切分的原始文本,采用预先获取的分词词典,进行基于词典的匹配,将所述原始文本切分为分词。
其中,待切分的原始文本可以是指待进行语音合成的文本,在语音合成时,通常需要先进行分词处理。
现有技术中,分词处理主要采用基于词典的匹配算法,或者,基于训练语料的学习算法。
而本实施例中,在分词处理时将结合这两种算法。
本实施例中,在分词处理的运算时,可以先进行基于词典的匹配,再进行基于训练语料的学习。
本实施例中,在基于词典的匹配时,采用的分词词典可以具体是采用上述实施例中的方法生成的。
S52:根据所述分词和预先获取的训练模型,进行基于训练语料的学习,得到分词结果。
其中,训练模型可以是在线下获取的。
现有技术中,在获取训练模型时,先采用分词器切分原始文本,再进行后续的模型建立流程。
本实施例中,在获取训练模型时,对原始文本可以采用上述实施例中生成的分词词典进行切分,而不采用分词器,从而避免对分词器的依赖。
相应的,该方法还可以包括:
获取训练语料,并将所述训练语料转换为原始文本;
根据所述分词词典对所述原始文本进行切分;
采用预设的训练算法,对切分后的分词进行训练,得到所述训练模型。
具体的,参见图6,训练流程(建立训练模型)和预测流程(得到分词结果)可以包括:
S601:在训练流程中,获取训练语料,以及,
S601’:在预测流程中,获取待切分的原始文本。
其中,训练语料是收集的一些数据,以训练生成训练模型。
待切分的原始文本,例如语音合成时当前要转换为语音的文本。
S602:在训练流程中,将训练语料转换成原始文本。
由于训练语料可能不规整,因此,可以进行特殊字符转换处理等,将训练语料转换成原始文本。
可以理解的是,在现有的训练流程中也会存在将训练语料转换成原始文本的流程,因此具体转换算法可以参见已有技术。
S603:根据分词词典切分原始文本。
其中,分词词典可以采用本发明的上述相关实施例生成,在此不再赘述。
在训练流程中,对转换成的原始文本进行切分,在预测流程中,对输入的待切分的原始文本进行切分。
S604:生成分词图结构。
S605:利用维特比(viterbi)计算路径代价。
S606:回溯选择最优路径。
其中,S604~S606是为了将切分后的分词组成训练算法所需的格式,本实施例的训练算法采用的是条件随机场(Conditional Random Field,CRF)算法。
现有技术中,在训练流程中,依据分词器切分后,也会将分词转换为训练算法所需的格式,类似的,在预测流程中,也需要先进行相应格式转换,因此,S604~S606的具体流程可以参见已有技术。
S607:在训练流程中,与训练语料结合,作为一维特征,以及,
S607’:在预测流程中,与原始文本进行结合,作为一维特征。
S608:在训练流程中,利用CRF算法,进行训练。
S609:生成结合词典的CRF模型。
由于CRF算法是已有算法,具体训练流程可以参见已有技术。
S610:在预测流程中,利用CRF模型,进行预测。
S611:利用viterbi选择条件概率最大的序列。
其中,在预测流程中,利用CRF模型可以得到多种分词结果的序列,之后再根据viterbi算法,将条件概率最大的序列确定为最终的分词结果。viterbi算法也是已有算法,具体计算过程可以参见已有技术。
可以理解的是,虽然图6对训练流程和预测流程同时进行了展示,但是,在具体实施时,预测流程是在线上执行的,训练流程是在线下执行的。
在线下训练的过程中,将训练语料转成原始文本,送到“基于词典的匹配算法”中进行分词切分,之后将分词结果作为CRF训练的一维特征,与原有训练语料进行文本结合,并进行模型训练。最终得到的模型就是融合了CRF和词典相互特点的新模型。
在线上预测流程中,操作过程类似,将待切分的原始文本,送到“基于词典的匹配算法”中进行分词切分,并组成CRF预测所需的格式,加载模型进行分词预测。
两者的结合,让词典对CRF算法产生一定的影响,在训练语料无法覆盖某些未登录词的情况下,丰富的词典可以保证未登录词切分正常,同时CRF充分考虑上下文信息,可以避免“基于词典的匹配算法”中切分经常歧义的错误。
改进切后的分词效果如下:
原始句:叶天能成为这周围几个村子的孩子王。
原始CRF算法:叶天能|成为|这|周围|几个|村子|的|孩子|王|。
结合算法:叶天|能|成为|这|周围|几个|村子|的|孩子|王|。
“叶天”是人名,但因为训练语料中没有对应的文本,因此对于CRF来说是未登录词,导致切分错误,但通过词典自动生成的流程,将“叶天”加入了词典中,并通过词典对CRF产生影响后,未登录能够正确识别了。
总体来看,词典自动创建与算法结合是相辅相成的,分别是文本提出的分词自动改进系统的前后衔接步骤,缺一不可。通过本文提出的系统,可以快速实现分词性能的迭代改进,尤其适合一些定制化领域,快速生成领域内的特殊词条,进而通过算法结合实现新添词条对分词结果的改进。
本实施例中,在分词处理后,可以结合基于词典的匹配算法和基于训练语料的学习算法,因此可以结合这两种算法的优点,在分词时不仅可以参考词典的词条,还可以参考上下文信息,提高分词处理的效果。具体的,将基于词典的匹配算法与基于训练语料的学习算法进行了结合,一方面减小了“基于词典的匹配算法”中过于依赖词典的弊病,另一方面,因为加入了词典,提高了“基于训练语料的学习算法”中分词结果的稳定性,一定程度上防止了过于依赖训练语料,而导致未登录词切分歧义的问题。
图7是本发明另一实施例提出的分词词典的生成装置的结构示意图,该装置70包括:
获取模块71,用于获取原始句语料;
其中,可以对已有数据进行收集,获取原始句语料,例如,原始句语料是已有的新闻文本中的句子。可以理解的是,在获取到文本后,对文本进行划分得到句子的方式不限定,例如,可以将标点符号隔开的部分作为一个句子。
过滤模块72,用于对所述原始句语料进行切分,得到分词,并对所述分词进行过滤,得到过滤结果,所述过滤包括如下项中的至少一项:基于词频和逆频率的过滤,基于边界的过滤,基于拼接的过滤;
现有技术中,在生成分词词典(简称为词典)时,先利用分词器切分原始句语料,得到分词,之后,统计分词词频,设置阈值过滤低频词,人工筛选低质词,从而生成词典。
而本实施例中,不需要人工筛选,通过过滤实现词典中的词条的自动筛选。
一个实施例中,以包括上述三次过滤且三次过滤依次执行为例。
参见图8,所述过滤模块72包括:
分词单元721,用于对所述原始句语料进行切分,得到分词;
例如,获取新闻类的文本,再对文本进行划分,得到句子,从而得到原始句语料。
其中,在对句子进行切分时,可以将句子切分为不同长度的字符串,每个字符串的长度可以设置。
本实施例中,以最小长度n0=1,最大长度N=5,且相邻两个长度的差值L=1为例,则,对应一个原始句语料:我爱北京天安门,可以切分为如下的分词:
切分时,从“我”开始切分,得到的分词是:我,我爱,我爱北,我爱北京,我爱北京天。
之后,再从“爱”开始,用同样的方法进行切分,依此类推,最后从“门”开始切分,得到“门”。
第一过滤单元722,用于对所述分词进行基于词频和逆频率的过滤,得到第一次过滤结果;
可选的,所述第一过滤单元722具体用于:
统计每个分词的词频和逆频率;
根据所述词频和逆频率计算每个分词的权重,并根据所述权重对分词进行排序;
在排序后的分词中,选择预设个数的权重较大,且词频大于第一预设值以及逆频率大于第二预设值的分词,得到选择后的分词;
在所述选择后的分词中获取第一长度的分词,以及包含第一长度的分词的第二长度的分词,并计算所述第二长度的分词的词频与所述第一长度的分词的词频之间的比值,其中,所述第二长度和所述第一长度是相邻的两个长度,且所述第二长度大于所述第一长度;
如果所述比值大于或等于预设阈值,则将所述第一长度的分词确定为第一次过滤结果的删除词条,将所述第二长度的分词确定为第一次过滤结果的保留词条;或者,如果所述比值小于预设阈值,则将所述第一长度的分词确定为第一次过滤结果的保留词条;
将所述第一次过滤结果的删除词条和所述第一次过滤结果的保留词条,组成第一次过滤结果。
其中,词频是指一个分词在切分后得到的所有分词中的出现次数,例如,统计“我爱”在所有分词中的出现次数。
一个长度为n的分词,且逆频率是指包含该分词,且长度为(n+L)的分词的个数,其中,n是分词的任一长度,L是切分时两个相邻长度的差值。以上述切分为例,L=1。
例如,“我爱”的逆频率是指包含“我爱”的“我爱你”,“我爱他”,“我爱谁”这些分词的个数。
其中,权重与词频和逆频率成正比关系,具体公式可以设置。
本实施例中,以如下计算公式为例:
weight=log(frq+1)*log(idf+1);
其中,weight表示一个分词的权重,frq表示该分词的词频,idf表示该分词的逆频率,log表示取对数运算,*表示相乘运算。
在得到权重后,可以按照权重从大到小的顺序对分词进行排序。
其中,词频(词频的对数可以用tf表示)越高,代表这个词越重要。idf越高代表这个词含有的信息量越充足,例如:“微博”可以组成“发微博、写微博、看微博”,可以明显看出“微博”是这几个三字词中的重点,而“发、写、看”则并不是那么重要,因此通过idf可以较轻松的得到“微博”这种高质量词。
例如,按照权重从大到小的顺序进行排序后,可以从前到后选择分词,并判断这些分词的词频和逆频率是否大于相应的预设值,从而得到预设个数的选择后的分词。
由于对原始句语料切分为长度分别是1,2,…,N的分词后,会得到分词的数据量过大,通过设置第一预设值和第二预设值可以过滤掉一些分词,降低处理的数据量。另外,tf或idf多低的分词,表明相应的分词很少出现在文本中或者信息量不足,因此,这些分词也不需要加入词典中。
用公式例如表示为:计算n字词频/(n-1)字词频的比值,要求n字词包含(n-1)字词。
例如,“天安”包含于“天安门”,虽然“天安”的频率也很高,但实际上,根据统计发现,“天安”90%都是在“天安门”中出现的,这种情况则认为,“天安门”更稳定质量更高,而“天安”可能不成词,应该删除掉。
例如,上述的“天安门”确定为第一次过滤结果的保留词条,“天安”确定为第一次过滤结果的删除词条。或者,
又例如,“发微博”的词频/“微博”的词频的比值小于预设阈值,以及,“看微博”的词频/“微博”的词频的比值小于预设阈值,则确定“微博”是第一次过滤结果的保留词条。
其中,在计算n字词频/(n-1)字词频的比值小于预设阈值时,可以是所有n字词频对应的比值都小于,例如,“发微博”的词频/“微博”的词频的比值小于预设阈值,以及,“看微博”的词频/“微博”的词频的比值小于预设阈值等;或者,也可以是n字词对应的比值中的最大值小于预设阈值,例如,计算“发微博”的词频/“微博”的词频的比值,以及“看微博”的词频/“微博”的词频的比值等,从这些比值中取出最大值,如果最大值小于预设阈值,则相应的(n-1)字词是保留词条。
在计算n字词频/(n-1)字词频的比值大于或等于预设阈值时,将任一个比值大于或等于预设阈值的n字词确定为保留词条,例如,“天安门”的词频/“天安”的词频的比值大于预设阈值,则“天安门”是保留词条,而如果“京天安”的词频/“天安”的词频的比值小于预设阈值,则“京天安”不是保留词条。
在得到第一次过滤结果的删除词条和保留词条后,可以由这些词条组成第一次过滤结果,第一次过滤结果包括保留词条和删除词条。
可以理解的是,本发明的一个实施例在后续的第三次过滤时会用到删除词条,因此第一次过滤结果中保存了删除词条,如果不需要进行后续过滤,则也可以不保存删除词条。
第一次过滤结果到此完成,第一次的过滤,主要依靠tf-idf信息,按照人工阈值和词频占比情况进行过滤,保留下来的词,都是一些较重要,信息量较足且删除了部分低质的词。这种过滤方式,完全依靠原始文本进行1~N的切分,不依赖分词器,因此可以识别出未登录词,且实现简单。
第一次过滤结果的数据可能不够干净,依然包含一些低质词,例如:“度以”,在天气类文本中不仅词频高,idf也高,可以组成“十度以上、一度以上、五度以上”等等,但“度以”本身并不组成词。为了过滤掉这种词,一个实施例中,还可以进行第二次过滤:基于边界的过滤。
第二过滤单元723,用于根据所述第一次过滤结果,进行基于边界的过滤,得到第二次过滤结果;
可选的,所述第二过滤单元723具体用于:
在所述原始句语料中,获取第一原始句语料,所述第一原始句语料是包含所述第一次过滤结果的保留词条的原始句语料;
采用分词器,对所述第一原始句语料进行切分,并对应每个第一次过滤结果的保留词条,获取与所述保留词条对应的切分结果;
根据所述第一次过滤结果的保留词条和所述切分结果的边界情况,得到第二次过滤结果。
例如,第一次过滤结果的保留词条包括“天安门”,则可以在原始句语料中,获取包含“天安门”的语料,如“我爱北京天安门”。
本实施例中,分词器不限定,甚至可以选择性能不太好的分词器。
在选择分词器后,可以采用分词器对第一原始句语料进行切分,得到相应的切分结果。
例如,第一次过滤结果的保留词条包括:“天安门”,原始句语料中包含“天安门”的第一原始句语料是“我爱北京天安门”,则可以采用分词器对“我爱北京天安门”进行切分。
可选的,所述第二过滤单元723用于根据所述第一次过滤结果的保留词条和所述切分结果的边界情况,得到第二次过滤结果,包括:
如果所述保留词条和所述切分结果一致,或者,如果所述保留词条的边界和所述切分结果的边界一致,则将所述保留词条的第一值增加1;或者,
如果所述保留词条的边界与所述切分结果的边界不一致,或者,如果所述保留词条包含于所述切分结果的边界内,则将所述保留词条的第二值增加1;
计算所述保留词条对应的如下比值:第一值/(第一值+第二值);
如果所述比值大于或等于阈值,则将所述保留词条确定为第二次过滤结果的保留词;或者,如果所述比值小于阈值,则将所述保留词条确定为第二次过滤结果的删除词条;
将所述第二次过滤结果的删除词条和所述第二次过滤结果的保留词条,组成第二次过滤结果。
其中,上述的第一值和第二值可以分别为Good和Bad表示,且第一值和第二组的初始值可以设置,例如初始值均为0。
例如,第一次过滤结果中的保留词条包括:“微博”,相应的第一原始句语料是“我爱写微博”,假设采用分词器得到的切分结果是:
“我|经常|写|微博|。”
由于切分结果的“|微博|”与保留词条的“微博”一致,则“微博”对应的Good+1。或者,
第一次过滤结果中的保留词条包括:“周啸天”,相应的第一原始句语料是“我讨厌周啸天了”,假设采用分词器得到的切分结果是:
“我|讨厌|周|啸天|了|。”
由于切分结果的“|周|啸天|”与保留词条的“周啸天”的边界一致,则“周啸天”对应的Good+1。或者,
第一次过滤结果中的保留词条包括:“天修”,相应的第一原始句语料是“叶天修炼了魔功”,假设采用分词器得到的切分结果是:
“叶天|修炼|了|魔功|。”
由于切分结果的“叶天|修炼|”与保留词条的“天修”的边界一致,则“天修”对应的Bad+1。或者,
第一次过滤结果中的保留词条包括:“伯利亚”,相应的第一原始句语料是“我住在西伯利亚地区”,假设采用分词器得到的切分结果是:
“我|住在|西伯利亚|地区|。”
由于切分结果的“|西伯利亚|”包含保留词条“伯利亚”,则“伯利亚”对应的Bad+1。
在对应每个第一次过滤结果的保留词条,得到对应的Good和Bad后,可以计算该保留词条对应的Good/(Good+Bad)的比值,如果该比值大于或等于预设阈值,则确定为第二次过滤结果的保留词条,否则确定为第二次过滤结果的删除词条。
例如,第二次过滤结果的保留词条包括:“微博”,“周啸天”,第二次过滤结果的删除词条包括:“天修”,“伯利亚”。
第二次过滤结果到此完成,第二次的过滤主要依靠分词边界,但不同于以前的老方法依靠分词本身。依靠分词本身的统计结果完全依赖于分词器,分词器能切出什么词,才能添加什么词,但如果分词器切分错误,得到的词也会错误。但依靠分词边界的方法则完全不同,即使分词器切错,例如:“周啸天”不管是切成“周|啸天、周啸|天、周|啸|天”对过滤都不会造成根本影响,因为更看重的是边界情况和最终比值。在任意多种分词器统计的情况下发现,只要合理设定Good/(Good+Bad)对应的预设阈值,最终的过滤结果都能达到要求,即使利用的分词器性能不够理想。
如果已有词典,且词典中存在低质量的词,可以继续使用拼接过滤方法,删除已有词典中会引起歧义或者质量过低的词,在以前的产品中,低质量词只能依靠人工方式来删除,本发明的一个实施例中则是完全自动化方式进行。
第三过滤单元724,用于根据所述第一次过滤结果和所述第二次过滤结果,进行拼接过滤,得到所述过滤结果。
可选的,所述第三过滤单元724具体用于:
将存在于已有词典中的删除词条确定为删除备选词,所述删除词条包括:第一次过滤结果的删除词条和所述第二次过滤结果的删除词条;
将所述删除备选词与保留词条进行首尾拼接,得到拼接后的词,所述保留词条包括:所述第一次过滤结果的保留词条和所述第二次过滤结果的保留词条;
判断所述拼接后的词是否是一个稳定的词条,如果是,则从已有词典中删除所述删除备选词,得到已有词典的保留词条;
将所述第二次过滤结果的保留词条,以及所述已有词典的保留词条,确定为所述过滤结果。
例如,已有词典中包含“发微”,而“发微”属于第一次过滤结果的删除词条或者属于第二次过滤结果的删除词条,则确定“发微”是删除备选词。
首尾拼接是指根据两个词条首尾含有的相同字进行拼接。
例如,删除备选词是“发微”,假设保留词条(第一次过滤结果的保留词条或者第二次过滤结果的保留词条)中包括“微博”,由于“发微”(删除备选词)、“微博”(保留词条),他们的首尾端含有相同的“微”字,因此认为这两个词可以进行首尾拼接,并可以组成“发微博”;如果不包含相同字则不能拼接。
可选的,所述第三过滤单元724用于判断所述拼接后的词是否是一个稳定的词条,包括:
如果所述拼接后的词存在于所述保留词条中,则确定所述拼接后的词是一个稳定的词条;或者,
如果所述拼接后的词的词频大于预设值,且所述拼接后的词不存在于所述删除词条中,则确定所述拼接后的词是一个稳定的词条;或者,
如果所述拼接后的词存在于已有的人工数据中,则确定所述拼接后的词是一个稳定的词条。
例如,第一次过滤结果的保留词条或者第二次过滤结果的保留词条中包含“发微博”,则可以确定“发微博”是稳定的词条;或者,“发微博”的词频大于预设值,且“发微博”不在第一次过滤结果的删除词条也不在第二次过滤结果的删除词条中,则可以确定“发微博”是稳定的词条;或者,“发微博”在分词标注答案,分词训练集等已有的人工数据内,则可以确定“发微博”是稳定的词条。
拼接过滤方法,可以有效的从词典中删除低质量词条。从规律中可以发现删除的绝大多数都是二字词,这是因为随着词条的字数下降,产生歧义的可能性越大,一个二字词可以和很多字搭配,但三字词和四字词跟其他字搭配的可性能却很小,例如:“微博”可以和“写、看、读、念、发”搭配,但“看微博”却没有任何搭配。
二字词是成词的最基本单位,是数量最多的词条,也是最难判断的部分,即使二字词频率很高,但依然可能是低质量,例如:“语言学”中的“言学”,“发微博”中的“发微”。拼接的方法:将两个二字词也就是最基本分词单位进行拼接,尝试将它们组成粒度更大的词条,粒度越大,歧义越少也就越好判断词条的质量。因此总结起来,拼接方法主要依靠将小粒度的歧义词条,拼接为更大粒度的词条,来降低判断的难度,并以此来过滤存在歧义的低粒度词条。
生成模块73,用于根据所述过滤结果生成分词词典。
例如,经过上述三次过滤后,将第二次过滤结果中的保留词条,以及,第三次过滤后得到的已有词典中的保留词条,确定为要生成的分词词典中的词条,并由这些词条组成分词词典。
本实施例中,通过对切分后的分词进行过滤,生成分词词典,可以不依赖人工筛选和分词器,可以识别未登录的词条,从而提高分词词典的生成速度和效果。具体的,词典的创建不需要人工筛选,也不依赖于分词器,在原始文本的基础上,可以生成质量较高的词库,同时还可以对已有词典进行过滤,删除其中低质的词条。自动化程度高,可以实现分词的快速迭代改进,整个改进流程中,没有必须依靠人工的步骤,大幅度缩减了改进周期。
上述的词典生成流程可以大幅度提高词典的干净程度,并增加更多的高质词条,对“基于词典的匹配算法”有明显的改进效果。但词典的完善不能弥补算法上的缺陷,基于词典的匹配算法切分过于机械化,经常切分出歧义词,例如:“很大程度上将持续”切分成“很大|程度|上将|持续|”,“上将”和“程度上”都是词典里的词,但基于词典的匹配算法,却无法准确判断歧义。为了解决这一问题,本实施例在分词处理时,将结合基于词典的匹配算法和基于训练语料的学习算法,从而在分词时可以有效利用上下文信息,提高分词效果。
图9是本发明另一实施例提出的分词处理装置的结构示意图,该装置90包括:
第一切分模块91,用于将待切分的原始文本,采用预先获取的分词词典,进行基于词典的匹配,将所述原始文本切分为分词;
其中,待切分的原始文本可以是指待进行语音合成的文本,在语音合成时,通常需要先进行分词处理。
现有技术中,分词处理主要采用基于词典的匹配算法,或者,基于训练语料的学习算法。
而本实施例中,在分词处理时将结合这两种算法。
本实施例中,在分词处理的运算时,可以先进行基于词典的匹配,再进行基于训练语料的学习。
本实施例中,在基于词典的匹配时,采用的分词词典可以具体是采用上述实施例中的方法生成的。
第二切分模块92,用于根据所述分词和预先获取的训练模型,进行基于训练语料的学习,得到分词结果;
其中,训练模型可以是在线下获取的。
现有技术中,在获取训练模型时,先采用分词器切分原始文本,再进行后续的模型建立流程。
本实施例中,在获取训练模型时,对原始文本可以采用上述实施例中生成的分词词典进行切分,而不采用分词器,从而避免对分词器的依赖。
参见图10,另一实施例中,该装置90还包括:
训练模块93,用于获取训练语料,并将所述训练语料转换为原始文本;根据所述分词词典对所述原始文本进行切分;采用预设的训练算法,对切分后的分词进行训练,得到所述训练模型。
具体的,训练流程(建立训练模型)和预测流程(得到分词结果)的具体实现可以参见图6,在此不再赘述。
本实施例中,在分词处理后,可以结合基于词典的匹配算法和基于训练语料的学习算法,因此可以结合这两种算法的优点,在分词时不仅可以参考词典的词条,还可以参考上下文信息,提高分词处理的效果。具体的,将基于词典的匹配算法与基于训练语料的学习算法进行了结合,一方面减小了“基于词典的匹配算法”中过于依赖词典的弊病,另一方面,因为加入了词典,提高了“基于训练语料的学习算法”中分词结果的稳定性,一定程度上防止了过于依赖训练语料,而导致未登录词切分歧义的问题。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (18)

1.一种分词词典的生成方法,其特征在于,包括:
获取原始句语料;
对所述原始句语料进行切分,得到分词,并对所述分词进行过滤,得到过滤结果,所述过滤包括如下项中的至少一项:基于词频和逆频率的过滤,基于边界的过滤,基于拼接的过滤;
根据所述过滤结果生成分词词典。
2.根据权利要求1所述的方法,其特征在于,所述对所述分词进行过滤,得到过滤结果,包括:
对所述分词进行基于词频和逆频率的过滤,得到第一次过滤结果;
根据所述第一次过滤结果,进行基于边界的过滤,得到第二次过滤结果;
根据所述第一次过滤结果和所述第二次过滤结果,进行拼接过滤,得到所述过滤结果。
3.根据权利要求2所述的方法,其特征在于,所述对所述分词进行基于词频和逆频率的过滤,得到第一次过滤结果,包括:
统计每个分词的词频和逆频率;
根据所述词频和逆频率计算每个分词的权重,并根据所述权重对分词进行排序;
在排序后的分词中,选择预设个数的权重较大,且词频大于第一预设值以及逆频率大于第二预设值的分词,得到选择后的分词;
在所述选择后的分词中获取第一长度的分词,以及包含第一长度的分词的第二长度的分词,并计算所述第二长度的分词的词频与所述第一长度的分词的词频之间的比值,其中,所述第二长度和所述第一长度是相邻的两个长度,且所述第二长度大于所述第一长度;
如果所述比值大于或等于预设阈值,则将所述第一长度的分词确定为第一次过滤结果的删除词条,将所述第二长度的分词确定为第一次过滤结果的保留词条;或者,如果所述比值小于预设阈值,则将所述第一长度的分词确定为第一次过滤结果的保留词条;
将所述第一次过滤结果的删除词条和所述第一次过滤结果的保留词条,组成第一次过滤结果。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一次过滤结果,进行基于边界的过滤,得到第二次过滤结果,包括:
在所述原始句语料中,获取第一原始句语料,所述第一原始句语料是包含所述第一次过滤结果的保留词条的原始句语料;
采用分词器,对所述第一原始句语料进行切分,并对应每个第一次过滤结果的保留词条,获取与所述保留词条对应的切分结果;
根据所述第一次过滤结果的保留词条和所述切分结果的边界情况,得到第二次过滤结果。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一次过滤结果的保留词条和所述切分结果的边界情况,得到第二次过滤结果,包括:
如果所述保留词条和所述切分结果一致,或者,如果所述保留词条的边界和所述切分结果的边界一致,则将所述保留词条的第一值增加1;或者,
如果所述保留词条的边界与所述切分结果的边界不一致,或者,如果所述保留词条包含于所述切分结果的边界内,则将所述保留词条的第二值增加1;
计算所述保留词条对应的如下比值:第一值/(第一值+第二值);
如果所述比值大于或等于阈值,则将所述保留词条确定为第二次过滤结果的保留词条;或者,如果所述比值小于阈值,则将所述保留词条确定为第二次过滤结果的删除词条;
将所述第二次过滤结果的删除词条和所述第二次过滤结果的保留词条,组成第二次过滤结果。
6.根据权利要求2所述的方法,其特征在于,所述根据所述第一次过滤结果和所述第二次过滤结果,进行拼接过滤,得到所述过滤结果,包括:
将存在于已有词典中的删除词条确定为删除备选词,所述删除词条包括:第一次过滤结果的删除词条和所述第二次过滤结果的删除词条;
将所述删除备选词与保留词条进行首尾拼接,得到拼接后的词,所述保留词条包括:所述第一次过滤结果的保留词条和所述第二次过滤结果的保留词条;
判断所述拼接后的词是否是一个稳定的词条,如果是,则从已有词典中删除所述删除备选词,得到已有词典的保留词条;
将所述第二次过滤结果的保留词条,以及所述已有词典的保留词条,确定为所述过滤结果。
7.根据权利要求6所述的方法,其特征在于,所述判断所述拼接后的词是否是一个稳定的词条,包括:
如果所述拼接后的词存在于所述保留词条中,则确定所述拼接后的词是一个稳定的词条;或者,
如果所述拼接后的词的词频大于预设值,且所述拼接后的词不存在于所述删除词条中,则确定所述拼接后的词是一个稳定的词条;或者,
如果所述拼接后的词存在于已有的人工数据中,则确定所述拼接后的词是一个稳定的词条。
8.一种分词处理方法,其特征在于,包括:
将待切分的原始文本,采用预先获取的分词词典,进行基于词典的匹配,将所述原始文本切分为分词;
根据所述分词和预先获取的训练模型,进行基于训练语料的学习,得到分词结果;
其中,所述分词词典采用如权利要求1-7任一项所述的方法生成。
9.根据权利要求8所述的方法,其特征在于,还包括:
获取训练语料,并将所述训练语料转换为原始文本;
根据所述分词词典对所述原始文本进行切分;
采用预设的训练算法,对切分后的分词进行训练,得到所述训练模型。
10.一种分词词典的生成装置,其特征在于,包括:
获取模块,用于获取原始句语料;
过滤模块,用于对所述原始句语料进行切分,得到分词,并对所述分词进行过滤,得到过滤结果,所述过滤包括如下项中的至少一项:基于词频和逆频率的过滤,基于边界的过滤,基于拼接的过滤;
生成模块,用于根据所述过滤结果生成分词词典。
11.根据权利要求10所述的装置,其特征在于,所述过滤模块包括:
分词单元,用于对所述原始句语料进行切分,得到分词;
第一过滤单元,用于对所述分词进行基于词频和逆频率的过滤,得到第一次过滤结果;
第二过滤单元,用于根据所述第一次过滤结果,进行基于边界的过滤,得到第二次过滤结果;
第三过滤单元,用于根据所述第一次过滤结果和所述第二次过滤结果,进行拼接过滤,得到所述过滤结果。
12.根据权利要求11所述的装置,其特征在于,所述第一过滤单元具体用于:
统计每个分词的词频和逆频率;
根据所述词频和逆频率计算每个分词的权重,并根据所述权重对分词进行排序;
在排序后的分词中,选择预设个数的权重较大,且词频大于第一预设值以及逆频率大于第二预设值的分词,得到选择后的分词;
在所述选择后的分词中获取第一长度的分词,以及包含第一长度的分词的第二长度的分词,并计算所述第二长度的分词的词频与所述第一长度的分词的词频之间的比值,其中,所述第二长度和所述第一长度是相邻的两个长度,且所述第二长度大于所述第一长度;
如果所述比值大于或等于预设阈值,则将所述第一长度的分词确定为第一次过滤结果的删除词条,将所述第二长度的分词确定为第一次过滤结果的保留词条;或者,如果所述比值小于预设阈值,则将所述第一长度的分词确定为第一次过滤结果的保留词条;
将所述第一次过滤结果的删除词条和所述第一次过滤结果的保留词条,组成第一次过滤结果。
13.根据权利要求11所述的装置,其特征在于,所述第二过滤单元具体用于:
在所述原始句语料中,获取第一原始句语料,所述第一原始句语料是包含所述第一次过滤结果的保留词条的原始句语料;
采用分词器,对所述第一原始句语料进行切分,并对应每个第一次过滤结果的保留词条,获取与所述保留词条对应的切分结果;
根据所述第一次过滤结果的保留词条和所述切分结果的边界情况,得到第二次过滤结果。
14.根据权利要求13所述的装置,其特征在于,所述第二过滤单元用于根据所述第一次过滤结果的保留词条和所述切分结果的边界情况,得到第二次过滤结果,包括:
如果所述保留词条和所述切分结果一致,或者,如果所述保留词条的边界和所述切分结果的边界一致,则将所述保留词条的第一值增加1;或者,
如果所述保留词条的边界与所述切分结果的边界不一致,或者,如果所述保留词条包含于所述切分结果的边界内,则将所述保留词条的第二值增加1;
计算所述保留词条对应的如下比值:第一值/(第一值+第二值);
如果所述比值大于或等于阈值,则将所述保留词条确定为第二次过滤结果的保留词条;或者,如果所述比值小于阈值,则将所述保留词条确定为第二次过滤结果的删除词条;
将所述第二次过滤结果的删除词条和所述第二次过滤结果的保留词条,组成第二次过滤结果。
15.根据权利要求11所述的装置,其特征在于,所述第三过滤单元具体用于:
将存在于已有词典中的删除词条确定为删除备选词,所述删除词条包括:第一次过滤结果的删除词条和所述第二次过滤结果的删除词条;
将所述删除备选词与保留词条进行首尾拼接,得到拼接后的词,所述保留词条包括:所述第一次过滤结果的保留词条和所述第二次过滤结果的保留词条;
判断所述拼接后的词是否是一个稳定的词条,如果是,则从已有词典中删除所述删除备选词,得到已有词典的保留词条;
将所述第二次过滤结果的保留词条,以及所述已有词典的保留词条,确定为所述过滤结果。
16.根据权利要求15所述的装置,其特征在于,所述第三过滤单元用于判断所述拼接后的词是否是一个稳定的词条,包括:
如果所述拼接后的词存在于所述保留词条中,则确定所述拼接后的词是一个稳定的词条;或者,
如果所述拼接后的词的词频大于预设值,且所述拼接后的词不存在于所述删除词条中,则确定所述拼接后的词是一个稳定的词条;或者,
如果所述拼接后的词存在于已有的人工数据中,则确定所述拼接后的词是一个稳定的词条。
17.一种分词处理装置,其特征在于,包括:
第一切分模块,用于将待切分的原始文本,采用预先获取的分词词典,进行基于词典的匹配,将所述原始文本切分为分词;
第二切分模块,用于根据所述分词和预先获取的训练模型,进行基于训练语料的学习,得到分词结果;
其中,所述分词词典采用如权利要求1-7任一项所述的方法生成。
18.根据权利要求17所述的装置,其特征在于,还包括:
训练模块,用于获取训练语料,并将所述训练语料转换为原始文本;根据所述分词词典对所述原始文本进行切分;采用预设的训练算法,对切分后的分词进行训练,得到所述训练模型。
CN201510301079.6A 2015-06-04 2015-06-04 分词词典的生成方法和装置及分词处理方法和装置 Active CN104899190B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510301079.6A CN104899190B (zh) 2015-06-04 2015-06-04 分词词典的生成方法和装置及分词处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510301079.6A CN104899190B (zh) 2015-06-04 2015-06-04 分词词典的生成方法和装置及分词处理方法和装置

Publications (2)

Publication Number Publication Date
CN104899190A true CN104899190A (zh) 2015-09-09
CN104899190B CN104899190B (zh) 2017-10-03

Family

ID=54031859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510301079.6A Active CN104899190B (zh) 2015-06-04 2015-06-04 分词词典的生成方法和装置及分词处理方法和装置

Country Status (1)

Country Link
CN (1) CN104899190B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021572A (zh) * 2016-05-31 2016-10-12 北京百度网讯科技有限公司 二元特征词典的构建方法和装置
CN106776938A (zh) * 2016-12-01 2017-05-31 航天恒星科技有限公司 一种用户行为分析方法及装置
WO2017088363A1 (zh) * 2015-11-26 2017-06-01 乐视控股(北京)有限公司 筛选发音词典有效词条的方法及装置
CN106951410A (zh) * 2017-03-21 2017-07-14 北京三快在线科技有限公司 词库的生成方法、装置及电子设备
WO2017133568A1 (zh) * 2016-02-05 2017-08-10 阿里巴巴集团控股有限公司 一种目标特征数据的挖掘方法和装置
WO2017177809A1 (zh) * 2016-04-12 2017-10-19 华为技术有限公司 语言文本的分词方法和系统
CN107622049A (zh) * 2017-09-06 2018-01-23 国家电网公司 一种供电服务专用词库生成方法
CN108897842A (zh) * 2015-10-27 2018-11-27 上海智臻智能网络科技股份有限公司 计算机可读存储介质及计算机系统
CN109144954A (zh) * 2018-09-18 2019-01-04 天津字节跳动科技有限公司 编辑文档的资源推荐方法、装置及电子设备
CN109977406A (zh) * 2019-03-26 2019-07-05 浙江大学 一种基于病位的中医病情文本关键词提取方法
CN110119410A (zh) * 2018-01-10 2019-08-13 北大方正集团有限公司 工具书数据的处理方法及装置、计算机设备和存储介质
CN110597997A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种军事想定文本事件抽取语料库迭代式构建方法及装置
CN110852099A (zh) * 2019-10-25 2020-02-28 北京中献电子技术开发有限公司 一种适用于神经网络机器翻译的汉语分词方法及装置
WO2020052069A1 (zh) * 2018-09-14 2020-03-19 北京字节跳动网络技术有限公司 用于分词的方法和装置
US11830498B2 (en) 2021-03-30 2023-11-28 Wistron Corp. Voice recognition system and voice recognition method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541935A (zh) * 2010-12-31 2012-07-04 北京安码科技有限公司 一种新的基于特征向量的中文Web文档表示方法
CN103136191A (zh) * 2013-03-14 2013-06-05 姚明东 一种电子商务字典中单字词的自动抽取方法
CN104424177A (zh) * 2013-08-26 2015-03-18 高德软件有限公司 一种抽取核心词的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541935A (zh) * 2010-12-31 2012-07-04 北京安码科技有限公司 一种新的基于特征向量的中文Web文档表示方法
CN103136191A (zh) * 2013-03-14 2013-06-05 姚明东 一种电子商务字典中单字词的自动抽取方法
CN104424177A (zh) * 2013-08-26 2015-03-18 高德软件有限公司 一种抽取核心词的方法及装置

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108897842A (zh) * 2015-10-27 2018-11-27 上海智臻智能网络科技股份有限公司 计算机可读存储介质及计算机系统
CN108897842B (zh) * 2015-10-27 2021-04-09 上海智臻智能网络科技股份有限公司 计算机可读存储介质及计算机系统
WO2017088363A1 (zh) * 2015-11-26 2017-06-01 乐视控股(北京)有限公司 筛选发音词典有效词条的方法及装置
WO2017133568A1 (zh) * 2016-02-05 2017-08-10 阿里巴巴集团控股有限公司 一种目标特征数据的挖掘方法和装置
US10691890B2 (en) 2016-04-12 2020-06-23 Huawei Technologies Co., Ltd. Word segmentation method and system for language text
WO2017177809A1 (zh) * 2016-04-12 2017-10-19 华为技术有限公司 语言文本的分词方法和系统
CN106021572B (zh) * 2016-05-31 2019-05-31 北京百度网讯科技有限公司 二元特征词典的构建方法和装置
US10831993B2 (en) 2016-05-31 2020-11-10 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for constructing binary feature dictionary
WO2017206492A1 (zh) * 2016-05-31 2017-12-07 北京百度网讯科技有限公司 二元特征词典的构建方法和装置
CN106021572A (zh) * 2016-05-31 2016-10-12 北京百度网讯科技有限公司 二元特征词典的构建方法和装置
CN106776938A (zh) * 2016-12-01 2017-05-31 航天恒星科技有限公司 一种用户行为分析方法及装置
CN106951410A (zh) * 2017-03-21 2017-07-14 北京三快在线科技有限公司 词库的生成方法、装置及电子设备
CN107622049A (zh) * 2017-09-06 2018-01-23 国家电网公司 一种供电服务专用词库生成方法
CN110119410A (zh) * 2018-01-10 2019-08-13 北大方正集团有限公司 工具书数据的处理方法及装置、计算机设备和存储介质
WO2020052069A1 (zh) * 2018-09-14 2020-03-19 北京字节跳动网络技术有限公司 用于分词的方法和装置
CN109144954A (zh) * 2018-09-18 2019-01-04 天津字节跳动科技有限公司 编辑文档的资源推荐方法、装置及电子设备
CN109977406A (zh) * 2019-03-26 2019-07-05 浙江大学 一种基于病位的中医病情文本关键词提取方法
CN110597997A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种军事想定文本事件抽取语料库迭代式构建方法及装置
CN110597997B (zh) * 2019-07-19 2022-03-22 中国人民解放军国防科技大学 一种军事想定文本事件抽取语料库迭代式构建方法及装置
CN110852099A (zh) * 2019-10-25 2020-02-28 北京中献电子技术开发有限公司 一种适用于神经网络机器翻译的汉语分词方法及装置
US11830498B2 (en) 2021-03-30 2023-11-28 Wistron Corp. Voice recognition system and voice recognition method

Also Published As

Publication number Publication date
CN104899190B (zh) 2017-10-03

Similar Documents

Publication Publication Date Title
CN104899190B (zh) 分词词典的生成方法和装置及分词处理方法和装置
CN110263322B (zh) 用于语音识别的音频语料筛选方法、装置及计算机设备
CN106534548B (zh) 语音纠错方法和装置
CN108091328B (zh) 基于人工智能的语音识别纠错方法、装置及可读介质
CN110210028B (zh) 针对语音转译文本的领域特征词提取方法、装置、设备及介质
CN110750993A (zh) 分词方法及分词器、命名实体识别方法及系统
JP4580885B2 (ja) シーン情報抽出方法、シーン抽出方法および抽出装置
JP2016051179A (ja) 音声認識方法、音声評価方法、音声認識システム及び音声評価システム
CN105869634A (zh) 一种基于领域的带反馈语音识别后文本纠错方法及系统
CN112541095B (zh) 视频标题生成方法、装置、电子设备及存储介质
CN110751234B (zh) Ocr识别纠错方法、装置及设备
CN113779972A (zh) 语音识别纠错方法、系统、装置及存储介质
CN112989806A (zh) 一种智能化文本纠错模型训练方法
CN104516870B (zh) 一种译文检查方法及其系统
CN112151019A (zh) 文本处理方法、装置及计算设备
CN118246412A (zh) 文本润色训练数据筛选方法、装置、相关设备及计算机程序产品
CN110874408A (zh) 模型训练方法、文本识别方法、装置及计算设备
JP6358744B2 (ja) 音声認識誤り修正装置
JP6508808B2 (ja) 音声認識誤り修正装置
CN113128224B (zh) 一种中文纠错方法、装置、设备以及可读存储介质
CN117195869A (zh) 一种文本拼写的纠错方法和纠错装置
CN115577109A (zh) 文本分类方法、装置、电子设备及存储介质
CN115169328A (zh) 一种高准确性的中文拼写检查方法、系统及介质
CN113988047A (zh) 一种语料筛选方法和装置
CN114357981B (zh) 文本纠错方法及相关装置、设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant