CN112651230A - 融合语言模型生成方法和装置、单词纠错方法和电子设备 - Google Patents

融合语言模型生成方法和装置、单词纠错方法和电子设备 Download PDF

Info

Publication number
CN112651230A
CN112651230A CN201910912185.6A CN201910912185A CN112651230A CN 112651230 A CN112651230 A CN 112651230A CN 201910912185 A CN201910912185 A CN 201910912185A CN 112651230 A CN112651230 A CN 112651230A
Authority
CN
China
Prior art keywords
error correction
word
sample
language model
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910912185.6A
Other languages
English (en)
Other versions
CN112651230B (zh
Inventor
李洪宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yidu Huida Education Technology Co ltd
Original Assignee
Beijing Yidu Huida Education Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yidu Huida Education Technology Co ltd filed Critical Beijing Yidu Huida Education Technology Co ltd
Priority to CN201910912185.6A priority Critical patent/CN112651230B/zh
Publication of CN112651230A publication Critical patent/CN112651230A/zh
Application granted granted Critical
Publication of CN112651230B publication Critical patent/CN112651230B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本申请实施例提供了一种融合语言模型生成方法和装置、单词纠错方法和电子设备。该融合语言模型生成方法包括:确定至少两个预先训练好的语言模型的权重;根据权重以及拼写纠错训练集中样本纠错候选单词在各语言模型中的先验概率,得到融合的先验概率;根据融合的先验概率、样本纠错候选单词为样本拼写错误单词的样本拼写建议单词的转移概率以及样本纠错候选单词的标签信息,调整各语言模型权重;基于预先训练好的语言模型以及各语言模型调整后的权重,生成融合语言模型。通过将预先训练好的语言模型按照不同权重进行融合,生成融合语言模型,利用融合语言模型对拼写错误单词进行纠错,能够从纠错候选集里面选择合理的单词作为最终拼写建议单词。

Description

融合语言模型生成方法和装置、单词纠错方法和电子设备
技术领域
本申请实施例涉及互联网技术领域,尤其涉及一种融合语言模型生成方法和装置、单词纠错方法和电子设备。
背景技术
往往,由于人们疏忽大意或是对英语单词掌握不熟练,在进行英文文章或文档写作时会出现英语单词拼写错误的情况;在互联网时代,通过键盘及其它硬件交互设备进行英语单词的编辑时,也非常容易造成单词的拼写错误。
目前对拼写错误的单词的纠错主要通过基于字典中的词频信息从纠错候选集中选择正确的单词,包括:通过一定的算法从纠错候选集里选择最优的单词作为拼写纠错建议,从而达到自动纠错的目的。纠错候选集里往往包含了若干个拼写纠错建议,如何从纠错候选集里选择一个尽可能合理的纠错建议作为最终的拼写纠错建议成为亟待解决的技术问题。
发明内容
有鉴于此,本申请实施例所解决的技术问题之一在于提供一种融合语言模型生成方法和装置、单词纠错方法和电子设备,用以克服现有技术中对拼写错误单词进行纠错时,仅考虑词频信息从纠错候选集中选择拼写纠错建议,致使纠错不准确,纠错效果差的问题,达到充分利用拼写错误单词的上下文信息,融合多个语言模型从而实现对拼写错误单词进行纠错,以尽可能提供合理的纠错建议,从而实现较好的纠错效果。
本申请实施例提供了一种融合语言模型生成方法,包括:确定至少两个预先训练好的所述语言模型的权重;根据所述权重以及拼写纠错训练集中样本纠错候选单词在各所述语言模型中的先验概率,得到融合的先验概率;根据所述融合的先验概率、所述样本纠错候选单词为所述样本拼写错误单词的样本拼写建议单词的转移概率以及样本纠错候选单词的标签信息,调整各语言模型的权重;基于预先训练好的语言模型以及各语言模型调整后的权重,生成融合语言模型;其中,样本纠错候选单词的标签信息表征样本纠错候选单词是否为样本拼写错误单词的正确样本拼写建议单词;所述拼写纠错训练集为样本拼写错误单词与所述样本拼写错误单词对应的样本纠错候选单词的集合。
可选地,在本申请的任一实施例中,所述调整各语言模型的权重包括:确定所述拼写纠错训练集中标签信息指示为样本拼写错误单词的正确样本拼写建议单词的样本纠错候选单词与其它样本纠错候选单词作为样本拼写建议单词时在所述语言模型中的第一概率之间的差值大于零的第二概率,以调整对应的所述语言模型的权重。
可选地,在本申请的任一实施例中,所述权重的大小与所述第二概率的大小成正比例关系。
可选地,在本申请的任一实施例中,所述方法还包括:基于最大似然估计,对英语语料样本进行训练,分别生成一阶语言模型、二阶语言模型、三阶语言模型和四阶语言模型。
本申请实施例还提供一种融合语言模型生成装置,包括:权重确定单元,用于确定至少两个预先训练好的语言模型的权重;先验概率融合单元,用于根据所述权重以及拼写纠错训练集中样本纠错候选单词在各所述语言模型中的先验概率,得到融合的先验概率;权重调整单元,用于根据所述融合的先验概率、样本纠错候选单词为所样本拼写错误单词的样本拼写建议单词的转移概率以及样本纠错候选单词的标签信息,调整各语言模型的权重;语言模型融合单元,基于预先训练好的语言模型以及各语言模型调整后的权重,生成融合语言模型;其中,样本纠错候选单词的标签信息表征样本纠错候选单词是否为样本拼写错误单词的正确样本拼写建议单词;所述拼写纠错训练集为所述样本拼写错误单词与样本拼写错误单词对应的样本纠错候选单词的集合。
可选地,在本申请的任一实施例中,所述权重调整单元进一步配置为,对每一个所述语言模型,确定所述拼写纠错训练集中标签信息指示为样本拼写错误单词的正确样本拼写建议单词的样本纠错候选单词与其它样本纠错候选单词作为样本拼写建议单词时在所述语言模型中的第一概率之间的差值大于零的第二概率,以调整对应的所述语言模型的权重。
可选地,在本申请的任一实施例中,所述权重的大小与所述第二概率的大小成正比例关系。
可选地,在本申请的任一实施例中,还包括:语言模型生成单元,进一步配置为基于最大似然估计,对英语语料样本进行训练,分别生成一阶语言模型、二阶语言模型、三阶语言模型和四阶语言模型。
本申请实施例还提供了一种单词纠错方法,包括:生成拼写错误单词的纠错候选集,其中,所述纠错候选集中包括所述拼写错误单词的多个纠错候选单词;基于上述任一实施例所述的模型生成方法生成的融合语言模型,计算所述纠错候选集中所述纠错候选单词为拼写建议单词的第三概率;选择所述第三概率最大的所述纠错候选单词作为所述拼写错误单词的最终拼写建议单词。
可选地,在本申请的任一实施例中,所述计算所述纠错候选集中纠错候选单词为拼写建议单词的第三概率包括:计算所述纠错候选集中纠错候选单词为拼写建议单词的融合的先验概率;确定拼写建议单词为拼写错误单词的转移概率;基于融合语言模型,根据所述拼写错误单词的融合的先验概率和转移概率,确定纠错候选单词为拼写建议单词的所述第三概率。
可选地,在本申请的任一实施例中,所述生成拼写错误单词的纠错候选集包括:根据所述拼写错误单词的形近错误确定所述拼写错误单词的形近纠错候选单词,和/或根据所述拼写错误单词的同音错误确定所述拼写错误单词的同音纠错候选单词;根据所述形近纠错候选单词和/或所述同音纠错候选单词生成所述拼写错误单词的纠错候选集。
可选地,在本申请的任一实施例中,所述根据所述拼写错误单词的形近错误确定所述拼写错误单词的形近纠错候选单词包括:基于字典树,确定在预设编辑距离内所述拼写错误单词的所述形近纠错候选单词,其中,所述预设编辑距离用于表征所述拼写错误单词转换成所述形近纠错候选单词的编辑操作次数。
可选地,在本申请的任一实施例中,还包括:对英语语料样本进行提炼得到字典树;基于所述字典树,确定所述拼写错误单词。
本申请实施例还提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一实施例所述的单词纠错方法。
本申请实施例还提供一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上述任一实施例所述的单词纠错方法。
本申请实施例的融合语言模型生成方法和装置、单词纠错方法和装置,确定至少两个预先训练好的语言模型的权重;根据权重以及拼写纠错训练集中样本纠错候选单词在各语言模型中的先验概率,得到融合的先验概率;根据融合的先验概率、样本纠错候选单词为样本拼写错误单词的样本拼写建议单词的转移概率以及样本纠错候选单词的标签信息,调整各语言模型权重;基于预先训练好的语言模型以及各语言模型调整后的权重,生成融合语言模型。通过将预先训练好的语言模型按照不同权重进行融合,生成融合语言模型,利用融合语言模型对拼写错误单词进行纠错,能够从纠错候选集里面选择合理的单词作为最终拼写建议单词。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请实施例的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1为根据本申请第一实施例所示的融合语言模型生成方法的流程示意图;
图2为根据本申请第二实施例所示的融合语言模型生成装置的结构示意图;
图3为根据本申请第三实施例所示的单词纠错方法的流程示意图;
图4为根据本申请第四实施例所示的电子设备的结构示意图;
图5为根据本申请第五实施例所示的电子设备的硬件结构。
具体实施方式
实施本申请实施例的任一技术方案必不一定需要同时达到以上的所有优点。
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
下面结合本申请实施例附图进一步说明本申请实施例具体实现。
本申请的下述实施例主要是以英语单词的拼写过程中出现非词错误(即拼错的单词本身不是一个合法有效的英语单词)的拼写错误单词进行说明。
通过语言模型对拼写错误单词进行纠错时,语言模型可以为一阶语言模型、二阶语言模型、三阶语言模型……,常用的是仅仅考虑词频信息对拼写错误单词进行纠错的一阶语言模型。本申请下述实施例对拼写错误单词进行纠错时,为了能够更好的利用上下文信息,达到更好的纠错效果,使用了融合多个语言模型的融合语言模型。该融合语言模型,可根据应用场景的需求,灵活的选择融合两个语言模型、三个语言模型、四个语言模型……等。
图1为根据本申请第一实施例所示的融合语言模型生成方法的流程示意图;如图1所示,其包括以下步骤:
步骤S101:确定至少两个预先训练好的语言模型的权重;
具体的,对英语语料样本进行训练,生成多个所述语言模型。
通常情况下,越是高阶的语言模型,就需要越多的英语语料样本进行训练,而且越容易出现概率为零的词条,计算时消耗的内存和计算资源也更多。一般的,在生成语言模型的过程中,对出现概率为零的词条进行平滑处理操作,以消除其对语言模型计算的影响。
进一步的,基于最大似然估计,分别统计计算英语语料样本中各词条语句出现的概率,生成多个所述语言模型。
首先,需要说明的是,语言模型通常反映的是多个单词进行组合作为一个语句出现的概率(这里的概率表示组成该语句的单词组合,在英语语料样本中出现的似然)。在本发明一实施例中,基于最大似然估计,对英语语料样本进行统计计算,构造多个语言模型。在此,统计英语语料样本中词条语句的总数量以及需要计算的词条语句的数量,根据词条语句的总数量以及待计算词条语句的数量计算待计算词条语句的概率,构造多个语言模型。对于任意的一句话,比如“我想吃苹果”,根据语言模型就可以得到“我想吃苹果”出现的概率会比“我吃苹果想”、“苹果吃我想”、“想我吃苹果”等出现的概率更大。从大规模的英语语料样本中,通过最大似然估计的方法,在每一条词条语句中,根据前(m-1)个item(字符、单词等)或后(m+1)个item对第m个item进行预测(其中m为正整数),得到第m个item的概率,计算该词条语句正确的概率,统计计算英语语料样本中所有该词条语句的数量,计算该词条语句在英语语料样本中出现的概率,根据该词条语句正确的概率与该词条语句在英语语料样本中出现的概率所构成的概率矩阵就为一阶语言模型;每一条词条语句中,根据前(m-2)个item或后(m+2)个item对第m个item进行预测,得到第m个item的概率,计算该词条语句正确的概率,统计计算英语语料样本中所有该词条语句的数量,计算该词条语句在英语语料样本中出现的概率,根据该词条语句正确的概率与该词条语句在英语语料样本中出现的概率所构成的概率矩阵就是二阶语言模型,以此类推,每一条词条语句中,根据前(m-n)个item或后(m+n)个item对第m个item进行预测,得到第m个item的概率,计算该词条语句正确的概率,统计计算英语语料样本中所有该词条语句的数量,计算该词条语句在英语语料样本中出现的概率,根据该词条语句正确的概率与该词条语句在英语语料样本中出现的概率所构成的概率矩阵就是n阶语言模型(其中n小于m,n为正整数)。为平衡资源消耗与融合语言模型的纠错准确性,本实施例中,基于最大似然估计,对英语语料样本进行训练,分别生成一阶语言模型、二阶语言模型、三阶语言模型和四阶语言模型。
得到多个语言模型之后,各个语言模型的权重可以根据经验或者通过人工手动进行配置,也可以通过对纠错训练集进行训练得到。该实施例中,用λn表示各个语言模型的权重,该权重表示在生成融合语言模型的过程中,每个语言模型对该融合语言模型的贡献。
步骤S102、根据所述权重以及拼写纠错训练集中样本纠错候选单词在各所述语言模型中的先验概率,得到融合的先验概率;
需要说明的是,拼写纠错训练集为样本拼写错误单词与样本拼写错误单词对应的样本纠错候选单词的集合。
本发明一种实施例中,通过在多个语言模型中对样本纠错候选单词为样本拼写建议单词的先验概率的对数值进行加权求和,得到关于样本纠错候选单词为样本拼写建议单词的融合的先验概率。本实施例中,用P(w)表征纠错候选单词为拼写建议单词的融合的先验概率,样本纠错候选单词为样本拼写建议单词的融合的先验概率P(w)通过下述公式(1)进行计算:
Figure BDA0002215055490000061
Figure BDA0002215055490000062
其中,w表征样本纠错候选单词,P1(w)表征根据一阶语言模型确定的样本纠错候选单词为样本拼写建议单词的先验概率,λ1表征一阶语言模型的权重;P2(w)表征根据二阶语言模型确定的样本纠错候选单词为样本拼写建议单词的先验概率,λ2表征二阶语言模型的权重;P3(w)表征根据三阶语言模型确定的样本纠错候选单词为样本拼写建议单词的先验概率,λ3表征三阶语言模型的权重……Pn(w)表征根据n阶语言模型确定的样本纠错候选单词为样本拼写建议单词的先验概率,λn表征n阶语言模型的权重。在此需要说明的是,采用几个以及多少阶语言模型进行融合,可根据实际的数据计算量及计算效率确定。
步骤S103、根据所述融合的先验概率、所述样本纠错候选单词为所述样本拼写错误单词的样本拼写建议单词的转移概率以及样本纠错候选单词的标签信息,调整各语言模型的权重;
需要说明的是,样本纠错候选单词的标签信息表征样本纠错候选单词是否为样本拼写错误单词的正确样本拼写建议单词,可以在拼写纠错训练集对样本纠错候选单词进行标记,得到样本纠错候选单词的标签信息;也可以是对拼写纠错训练集中样本纠错候选单词的顺序进行标记,得到样本纠错候选单词的标签信息。
进一步的,确定拼写纠错训练集中标签信息指示为样本拼写错误单词的正确样本建议单词的样本纠错候选单词与其它样本纠错候选单词作为样本拼写建议单词时在语言模型中的第一概率之间的差值大于零的第二概率,以调整对应的语言模型的权重。
需要说明的是,第一概率表示样本纠错候选单词为样本拼写建议单词在各语言模型中的概率;第二概率表示在拼写纠错训练集中,标签信息指示为样本拼写错误单词的正确样本建议单词的样本纠错候选单词作为样本拼写建议单词时在语言模型中的第一概率,与其它样本纠错候选单词作为样本拼写建议单词时在语言模型中的第一概率之间的差值大于零的概率。
本实施例中,根据拼写纠错训练集中样本纠错候选单词的顺序得到样本纠错候选单词的标签信息,对各语言模型的权重进行调整。具体的,对每一所述语言模型,确定拼写纠错训练集中排在第一位的样本纠错候选单词与其它样本纠错候选单词作为样本拼写建议单词时在所述语言模型中的第一概率之间的差值大于零的第二概率,以调整对应的所述语言模型的权重。
样本纠错候选单词作为样本拼写建议单词时在语言模型中的第一概率为,该样本纠错候选单词的转移概率,与该样本纠错候选单词的先验概率的乘积。在拼写纠错训练集中,同一样本纠错候选单词的转移概率在各语言模型中相同,同时,为了计算时,避免数据溢出、提高性能,确定拼写纠错训练集中排在第一位的样本纠错候选单词与其它样本纠错候选单词作为样本拼写建议单词时在各所述语言模型中的先验概率的对数值之间的差值大于零的第二概率,以调整对应的所述语言模型的权重。
该实施例中,在同一个语言模型中,分别计算拼写纠错训练集中排在第一位的样本纠错候选单词为样本拼写建议单词的先验概率的对数值与其它样本纠错候选单词为样本拼写建议单词的先验概率的对数值的差值,然后再针对每一个语言模型计算该差值大于零的第二概率,根据该差值大于零的第二概率调整对应的语言模型的权重。需要说明的是,纠错候选集中排在第一位的样本纠错候选单词认为是正确样本拼写建议单词,在此,并非对样本纠错候选单词的位置进行限定,其也可能是纠错候选集中任意一个位置的样本纠错候选单词。
为简化计算,确定拼写纠错训练集中排在第一位的样本纠错候选单词与其它样本纠错候选单词作为样本拼写建议单词时在各所述语言模型中的先验概率的对数值之间的差值大于零的第二概率,以调整对应的所述语言模型的权重。
比如,对一条语料样本来说,在一阶语言模型中,拼写纠错训练集中排在第一位的样本纠错候选单词为w1,其它样本纠错候选单词为wi(其中,i大于1,i为正整数),在一阶语言模型中,样本纠错候选单词w1为样本拼写建议单词的先验概率的对数值为log P1(w1),其它样本纠错候选单词wi为样本拼写建议单词的先验概率的对数值为log P1(wi)。那么,样本纠错候选单词w1与其它样本纠错候选单词wi的先验概率的对数值的差值为(log P1(w1)-log P1(wi))。
在语料样本中,包含有多条语料样本,计算每条语料样本在一阶语言模型中,样本纠错候选单词w1与其它样本纠错候选单词wi的先验概率的对数值的差值,然后计算整个语料样本在一阶语言模型中,样本纠错候选单词w1与其它样本纠错候选单词wi的先验概率的对数值的差值大于零的概率(即第二概率),也即通过计算log P1(w1)-log P1(wi)>0的概率(即第二概率),调整一阶语言模型的权重λ1;比如,将计算log P1(w1)-log P1(wi)>0所得的概率(即第二概率)值作为一阶语言模型的权重λ1
同样的道理,每条语料样本在二阶语言模型中,样本纠错候选单词w1与其它样本纠错候选单词wi的先验概率的对数值的差值为(log P2(w1)-log P2(wi)),通过计算整个语料样本在二阶语言模型中,样本纠错候选单词w1与其它样本纠错候选单词wi的先验概率的对数值的差值大于零的概率(即第二概率),也即通过计算log P2(w1)-log P2(wi)>0的概率(即第二概率),调整二阶语言模型的权重λ2。每条语料样本在三阶语言模型中,样本纠错候选单词w1与其它样本纠错候选单词wi的先验概率的对数值的差值为(log P3(w1)-log P3(wi)),通过计算整个语料样本在三阶语言模型中,样本纠错候选单词w1与其它样本纠错候选单词wi的先验概率的对数值的差值大于零的概率(即第二概率),也即通过计算log P3(w1)-log P3(wi)>0的概率(即第二概率),调整三阶语言模型的权重λ3。那么每条语料样本在n(n为自然数)阶语言模型中,样本纠错候选单词w1与其它样本纠错候选单词wi的先验概率的对数值的差值为(log Pn(w1)-log Pn(wi)),通过计算整个语料样本在n阶语言模型中,样本纠错候选单词w1与其它样本纠错候选单词wi的先验概率的对数值的差值大于零的概率(即第二概率),也即通过计算log Pn(w1)-log Pn(wi)>0的概率(即第二概率),调整n阶语言模型的权重λn。比如,将计算log Pn(w1)-log Pn(wi)>0所得的概率值作为n阶语言模型的权重λn
在本发明一实施例中,通过在各阶语言模型中,样本纠错候选单词w1与其它样本纠错候选单词wi的先验概率的对数值的差值调整各阶语言模型的权重。具体的,通过下述公式(2)对各阶语言模型的权重进行调整。
λ1*[log P1(w1)-log P1(wi)]+λ2*[log P2(w1)-log P2(wi)]+λ3*[log P3(w1)-logP3(wi)]+……+λn*[log Pn(w1)-log Pn(wi)]>0 (2)
通过对各阶语言模型中,综合log Pn(w1)-log Pn(wi)>0的概率(即第二概率)调整各阶语言模型的权重,通过调整各语言模型的权重系数进行,以保证上述公式(2)成立,以此得到各阶语言模型更优化的权重系数。
具体的,所述权重的大小与所述第二概率的大小成正比例关系。具体的,所述权重的大小与所述拼写纠错训练集中标签信息指示为样本拼写错误单词的正确样本拼写建议单词的样本纠错候选单词与其它样本纠错候选单词作为样本拼写建议单词时在所述语言模型中的概率之间的差值大于零的第二概率的大小成正比例关系。
在此,需要说明的是,为了计算时,避免数据溢出、提高性能,通过计算所述拼写纠错训练集中排在第一位的样本纠错候选单词与其它样本纠错候选单词作为样本拼写建议单词时在所述语言模型中的先验概率的对数值之间的差值大于零的第二概率确定其与权重的大小的正比例关系。
该实施例中,若整个语料样本在n阶语言模型中,样本纠错候选单词w1与其它样本纠错候选单词wi的先验概率的对数值的差值大于零的概率(即第二概率),也即log Pn(w1)-log Pn(wi)>0的概率(即第二概率)是一个较大的数值,那么n阶语言模型的权重λn也设为一个较大的数值;若log Pn(w1)-log Pn(wi)>0的概率(即第二概率)是一个较小的数值,那么n阶语言模型的权重λn也设为一个较小的数值。
步骤S104、基于预先训练好的语言模型以及各语言模型调整后的权重,得到所述融合语言模型。
由于不同的语言模型在对拼写错误单词进行纠错时各有优劣。低阶的语言模型在进行拼写错误单词纠错时往往不考虑上下文的信息,纠错准确性较低,但计算的复杂度较低;比如,采用一阶语言模型对拼写错误单词进行纠错时,由于仅仅只是基于字典树的词频信息从纠错候选集中选择纠错候选单词进行纠错,而往往由于词频信息不够全面,因而比较大的影响了拼写错误单词的纠错准确性。高阶的语言模型(如三阶语言模型、四阶语言模型等)在进行拼写错误单词的纠错时往往考虑了上下文信息,纠错准确性较高,但计算的复杂度较高。因而,采用单一语言模型对拼写错误单词进行纠错,难以使纠错准确性与计算时的难易复杂程度达到平衡,最终影响对拼写错误单词的纠错准确性及效率。
单一语言模型由于未充分利用到拼写错误单词的上下文信息,达不到对拼写错误单词最好的纠错效果。因而,通过英语语料样本建立多个语言模型,通过对多个不同的语言模型按照不同的权重进行融合,得到一个融合语言模型,通过融合语言模型对拼写错误单词进行纠错。在这里,通过调整不同的语言模型的权重,调整每个语言模型对融合语言模型的贡献,使得在对拼写错误单词进行纠错时,具有更好的纠错准确性。
本实施例中,用P(xJ|wJ)表征纠错候选单词wJ为拼写错误单词xJ的转移概率。转移概率P(xJ|wJ)通过对英语语料样本中拼写错误单词的数据进行统计分析得到,即通过对已有的将纠错候选单词拼写为拼写错误单词的数据进行统计,得到纠错候选单词为拼写错误单词的转移矩阵,进而确定纠错候选单词为拼写错误单词的转移概率。通常单词的拼写错误类型包含四种情况:漏掉一个字母、插入一个字母、替换一个字母以及交换两个字母的顺序。比如将“apple”拼写为“appel”,就属于是交换两个字母的顺序(le-el)的类型,这里通过统计“le”被拼写成“el”的次数以及“le”应该出现的次数,然后用“le”被拼写成“el”的次数除以“le”应该出现的次数得到的值即为将“apple”拼写成“appel”的转移概率。其它单词拼写错误类型的转移概率的计算与此类似,在此不再一一赘述。
用F(wJ)表征融合语言模型,该融合语言模型用下述公式(3)表示;
Figure BDA0002215055490000111
Figure BDA0002215055490000112
即:
logF(wJ)=log P(xJ|wJ)+λ1*log P1(wJ)+λ2*log P2(wJ)+λ3*log P3(wJ)+……+λn*log Pn(wJ) (3)
通过上述公式(3)所示的融合语言模型计算纠错候选单词为拼写错误单词的第三概率的过程中,由于转移概率和融合的先验概率的值往往相差很大(不属于同一量级),因而两者之间会有非常不一样的取值。在第三概率计算时,通过对各个语言模型设置不同的权重λn,还可以起到调节先验概率和转移概率由于取值范围相差较大对融合语言模型所造成的贡献不均,消除在进行拼写错误单词的纠错时对先验概率或者转移概率中的某一项过度依赖。比如,先验概率为小数点后一位,而转移概率则为小数点后数三位的时候,可以认为二者相差两个数量级,如果不对先验概率进行处理,此时先验概率相对于转移概率在融合语言模型中的贡献几乎可以忽略不计,计算出的第三概率将会很小,难以正确的反映纠错候选单词是否为正确的拼写建议单词。该实施例中,通过对各个语言模型设置不同的权重,就可以调整先验概率与转移概率处于同一数量级,避免融合语言模型对先验概率的过度依赖。
由于现有的单一语言模型在计算纠错候选单词为拼写建议单词的先验概率时,仅仅只考虑了词频信息对纠错的影响,并未充分考虑上下文的信息进行纠错,因此会影响最终的纠错准确性。在该实施例中,通过计算纠错候选单词为拼写建议单词的融合的先验概率实现对拼写错误单词纠错,具有比单一语言模型更好的纠错准确性。
图2为根据本申请第二实施例所示的融合语言模型生成装置的结构示意图,如图2所示,其包括:权重确定单元201,用于确定至少两个预先训练好的语言模型的权重;先验概率融合单元202,用于根据所述权重以及拼写纠错训练集中样本纠错候选单词在各所述语言模型中的先验概率,得到融合的先验概率;权重调整单元203,用于根据所述融合的先验概率、所述样本纠错候选单词为样本拼写错误单词的样本拼写建议单词的转移概率以及样本纠错候选单词的标签信息,调整各语言模型的权重;语言模型融合单元204,基于预先训练好的语言模型以及各语言模型调整后的权重,生成所述融合语言模型;其中,样本纠错候选单词的标签信息表征样本纠错候选单词是否为样本拼写错误单词的正确样本拼写建议单词;所述拼写纠错训练集为所述样本拼写错误单词与样本拼写错误单词对应的样本纠错候选单词的集合。
该实施例中的融合语言模型生成装置还包括:语言模型生成单元205,用于对英语语料样本进行训练,生成多个所述语言模型。
所述语言模型生成单元205进一步配置为:基于最大似然估计,分别统计计算所述英语语料样本中各词条语句出现的概率,生成多个所述语言模型。
语言模型生成单元205进一步配置为:基于最大似然估计,对英语语料样本进行训练,分别生成一阶语言模型、二阶语言模型、三阶语言模型和四阶语言模型。
所述权重调整单元203进一步配置为,确定所述拼写纠错训练集中标签信息指示为样本拼写错误单词的正确样本拼写建议单词的样本纠错候选单词与其它样本纠错候选单词作为样本拼写建议单词时在所述语言模型中的第一概率之间的差值大于零的第二概率,以调整对应的所述语言模型的权重。
进一步的,各个语言模型对应的权重的大小与所述第二概率的大小成正比例关系。具体为,各个语言模型对应的权重的大小与所述拼写纠错训练集中标签信息指示为样本拼写错误单词的正确样本拼写建议单词的样本纠错候选单词与其它样本纠错候选单词作为样本拼写建议单词时在所述语言模型中的第一概率之间的差值大于零的第二概率的大小成正比例关系。
该实施例中融合语言模型生成装置的操作参照上述第一实施例融合语言模型生成方法的流程,在此不再一一赘述
图3为根据本申请第三实施例所示的单词纠错方法的流程示意图;如图3所示,其包括以下步骤:
步骤S301:生成拼写错误单词的纠错候选集,其中,所述纠错候选集中包括所述拼写错误单词的多个纠错候选单词;
具体的,在步骤S301中,首先对英语语料样本进行提炼得到字典树;基于所述字典树,确定所述拼写错误单词。
该实施例中,英语语料样本是指收集到的大量的、各种类型的英语文章,通过提取所有英语语料样本中的单词,对这些单词进行去重(即去掉重复的单词),得到字典树。在得到字典树后,对单词通过轮询的方式在字典树中查询、比较,对于没有包含在字典树中的单词,都认为是拼写错误单词。在此,字典树的规模(即包含的单词数量)和质量(即字典树中单词的数据结构存储方式)决定了对拼写错误单词进行检测时的性能(如快慢、检测质量高低等)。需要说明的是,字典树的质量主要指字典树中单词的数据结构存储方式,如单词在字典树中按照字母的先后顺序存储;或者按照单词的日常使用频率存储;字典树有没有进行查询优化等。
一般情况下,字典树的规模越大、质量越高,就有更大的概率检测到拼写错误单词,反之,如果字典树的规模较小、质量较低,那么检测到拼写错误单词的概率就低。需要说明的是,字典树是一种用于文本词频统计、排序和保存大量的字符串(但不限于字符串)的单词查找树,利用字典树可以有效的减少查询时间,最大限度的减少无效的字符串比较。
该实施例中,在确定了拼写错误单词之后,根据拼写错误单词确定其纠错候选单词,由纠错候选单词的集合构成拼写错误单词的纠错候选集。在此,需要明确的是,拼写错误单词的纠错候选单词主要包括形近纠错候选单词和同音纠错候选单词。
进一步的,根据所述拼写错误单词的形近错误确定所述拼写错误单词的形近纠错候选单词,和/或根据拼写错误单词的同音错误确定拼写错误单词的同音纠错候选单词;根据所述形近纠错候选单词和/或同音纠错候选单词生成所述拼写错误单词的纠错候选集。
本步骤中,基于字典树,确定在预设编辑距离内所述拼写错误单词的形近纠错候选单词,其中,所述预设编辑距离用于表征所述拼写错误单词转换成所述形近纠错候选单词的编辑操作次数。
该实施例中,单词的形近错误指的是拼写错误单词与纠错候选单词的拼写比较相似。根据拼写错误单词的形近错误确定其形近纠错候选单词,主要就是对拼写错误单词在字典树中进行查询、比较,确定在预设编辑距离内的形近纠错候选单词。一般情况下,一个拼写错误单词可能具有多个形近纠错候选单词,这多个形近纠错候选单词的集合构成拼写错误单词的纠错候选集。
需要说明的是,预设编辑距离是指将拼写错误单词转换成纠错候选单词所需要的最少编辑操作次数。通常,对拼写错误单词的编辑操作主要包括四种:插入字符(insertion)、删除字符(deletion)、替换字符(substitution)以及交换两个字符的位置(transposition)。
该实施例中,同音错误指的是拼写错误单词与纠错候选单词的发音比较相似,需要说明的是,可以将同音纠错候选单词的集合单独作为纠错候选集,也可以将同音纠错候选单词加入到由形近纠错候选单词组成的纠错候选集中,以完善该纠错候选集,提高对拼写错误单词的纠错效果。
步骤S302:基于上述任一实施例的融合语言模型生成方法生成的所述融合语言模型,计算所述纠错候选集中所述纠错候选单词为拼写建议单词的第三概率;
由于在纠错候选集中包含有多个不同的纠错候选单词,因而,在生成融合语言模型之后,就需要对每一个纠错候选单词为拼写建议单词的第三概率进行计算,确定其为拼写建议单词的可能性大小。
该实施例中,步骤S302包括,计算纠错候选集中纠错候选单词为拼写建议单词的融合的先验概率;确定纠错候选单词为拼写错误单词的转移概率;基于融合语言模型,根据拼写错误单词的融合的先验概率和转移概率,确定纠错候选单词为拼写建议单词的第三概率。
通过上述公式(1)可以计算处纠错候选单词为拼写建议单词的融合的先验概率,而纠错候选单词为拼写错误单词的转移概率表示纠错候选单词被错误的拼写成了拼写错误单词的概率。比如,在文本中有一个拼写错误单词“appel”,其正确的拼写为“apple”,那么“apple”作为“appel”的纠错候选单词,将“apple”拼写成“appel”的概率即为纠错候选单词为拼写错误单词的转移概率。转移概率通过预先对英语语料样本中拼写错误单词的数据进行统计分析得到,即通过对已有的将纠错候选单词拼写为拼写错误单词的数据进行统计,得到纠错候选单词为拼写错误单词的转移矩阵,进而确定纠错候选单词为拼写错误单词的转移概率。
步骤S303:选择第三概率最大的所述纠错候选单词作为所述拼写错误单词的最终拼写建议单词。
因为在噪声信道模型中,拼写错误单词的纠错就是在已知拼写错误单词的情况下,找到最大可能的拼写建议单词。因而,在计算出纠错候选集中每个纠错候选单词为拼写建议单词的第三概率后,选择第三概率最大的纠错候选单词作为最终的拼写建议单词。
该实施例中,最终拼写建议单词的选择可根据对公式(3)在特定范围内取最大值得到的下述公式(4)确定,如下:
Figure BDA0002215055490000151
其中,V表征纠错候选集,公式(4)表征在纠错候选集V的范围内寻找使得P(xJ|wJ)P(wJ)取最大值时的拼写建议单词;
Figure BDA0002215055490000152
表示从纠错候选集中选择的最终的拼写建议单词。
本申请实施例的单词纠错方法,对至少两个预先训练好的语言模型按照不同的权重进行融合,预先生成融合语言模型;基于融合语言模型,计算纠错候选集中纠错候选单词为拼写建议单词的第三概率;选择第三概率最大的纠错候选单词作为拼写错误单词的最终拼写建议单词。由于将多个预先训练好的语言模型按照不同权重进行融合,生成融合语言模型,利用融合语言模型对拼写错误单词进行纠错,能够从纠错候选集里面选择更加合理的单词作为最终拼写建议单词。
图4为根据本申请第四实施例所示的电子设备的结构示意图;该设备可以包括:
一个或多个处理器401;
计算机可读介质402,可以配置为存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一实施例中所述的单词纠错方法。
图5为根据本申请第五实施例所示的电子设备的硬件结构;如图5所示,该设备的硬件结构可以包括:处理器501,通信接口502,计算机可读介质503和通信总线504;
其中处理器501、通信接口502、计算机可读介质503通过通信总线504完成相互间的通信;
可选的,通信接口502可以为通信模块的接口,如GSM模块的接口;
其中,处理器501具体可以配置为:生成拼写错误单词的纠错候选集,其中,所述纠错候选集中包括所述拼写错误单词的多个纠错候选单词;基于上述任一实施例所述的融合语言模型,计算所述纠错候选集中所述纠错候选单词为拼写建议单词的概率;选择概率最大的所述纠错候选单词作为所述拼写错误单词的最终拼写建议单词。
处理器501可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器810、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
至此,已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序,以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定事务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (13)

1.一种融合语言模型生成方法,其特征在于,包括:
确定至少两个预先训练好的语言模型的权重;
根据所述权重以及拼写纠错训练集中样本纠错候选单词在各所述语言模型中的先验概率,得到融合的先验概率;
根据所述融合的先验概率、所述样本纠错候选单词为样本拼写错误单词的样本拼写建议单词的转移概率以及所述样本纠错候选单词的标签信息,调整各所述语言模型的权重;
基于所述预先训练好的所述语言模型以及各所述语言模型调整后的权重,生成融合语言模型;
其中,所述样本纠错候选单词的标签信息表征所述样本纠错候选单词是否为所述样本拼写错误单词的正确样本拼写建议单词;所述拼写纠错训练集为所述样本拼写错误单词与所述样本拼写错误单词对应的所述样本纠错候选单词的集合。
2.根据权利要求1所述的模型生成方法,其特征在于,所述调整各语言模型的权重包括:
确定所述拼写纠错训练集中标签信息指示为所述样本拼写错误单词的正确样本拼写建议单词的所述样本纠错候选单词与其它样本纠错候选单词作为所述样本拼写建议单词时在所述语言模型中的第一概率之间的差值大于零的第二概率,以调整对应的所述语言模型的权重。
3.根据权利要求2所述的模型生成方法,其特征在于,所述权重的大小与所述第二概率的大小成正比例关系。
4.根据权利要求1-3任一所述的模型生成方法,其特征在于,所述方法还包括,基于最大似然估计,对英语语料样本进行训练,分别生成一阶语言模型、二阶语言模型、三阶语言模型和四阶语言模型。
5.一种融合语言模型生成装置,其特征在于,包括:
权重确定单元,用于确定至少两个预先训练好的语言模型的权重;
先验概率融合单元,用于根据所述权重以及拼写纠错训练集中样本纠错候选单词在各所述语言模型中的先验概率,得到融合的先验概率;
权重调整单元,用于根据所述融合的先验概率、所述样本纠错候选单词为样本拼写错误单词的样本拼写建议单词的转移概率以及所述样本纠错候选单词的标签信息,调整各所述语言模型的权重;
语言模型融合单元,基于预先训练好的所述语言模型以及各所述语言模型调整后的权重,生成融合语言模型;
其中,所述样本纠错候选单词的标签信息表征所述样本纠错候选单词是否为所述样本拼写错误单词的正确样本拼写建议单词;所述拼写纠错训练集为所述样本拼写错误单词与所述样本拼写错误单词对应的所述样本纠错候选单词的集合。
6.根据权利要求5所述的模型生成装置,其特征在于,所述权重调整单元进一步配置为,确定所述拼写纠错训练集中标签信息指示为所述样本拼写错误单词的正确样本拼写建议单词的所述样本纠错候选单词与其它样本纠错候选单词作为所述样本拼写建议单词时在所述语言模型中的第一概率之间的差值大于零的第二概率,以调整对应的所述语言模型的权重。
7.根据权利要求6所述的模型生成装置,其特征在于,所述权重的大小与所述第二概率的大小成正比例关系。
8.根据权利要求5-7任一所述的模型生成装置,其特征在于,还包括语言模型生成单元,配置为基于最大似然估计,对英语语料样本进行训练,分别生成一阶语言模型、二阶语言模型、三阶语言模型和四阶语言模型。
9.一种单词纠错方法,其特征在于,包括:
生成拼写错误单词的纠错候选集,其中,所述纠错候选集中包括所述拼写错误单词的多个纠错候选单词;
基于权利要求1-4任一所述的模型生成方法生成的融合语言模型,计算所述纠错候选集中所述纠错候选单词为拼写建议单词的第三概率;
选择所述第三概率最大的所述纠错候选单词作为所述拼写错误单词的最终拼写建议单词。
10.根据权利要求9的方法,其特征在于,所述计算所述纠错候选集中所述纠错候选单词为拼写建议单词的第三概率包括:
计算所述纠错候选集中所述纠错候选单词为所述拼写建议单词的融合的先验概率;
确定所述拼写建议单词为所述拼写错误单词的转移概率;
基于融合语言模型,根据所述融合的先验概率和转移概率,确定所述纠错候选单词为所述拼写建议单词的所述第三概率。
11.根据权利要求9所述的方法,其特征在于,所述生成拼写错误单词的纠错候选集包括:
根据所述拼写错误单词的形近错误确定所述拼写错误单词的形近纠错候选单词,和/或根据所述拼写错误单词的同音错误确定所述拼写错误单词的同音纠错候选单词;
根据所述形近纠错候选单词和/或所述同音纠错候选单词生成所述拼写错误单词的纠错候选集。
12.根据权利要求11所述的方法,其特征在于,所述根据所述拼写错误单词的形近错误确定所述拼写错误单词的形近纠错候选单词包括:基于字典树,确定在预设编辑距离内所述拼写错误单词的所述形近纠错候选单词,其中,所述预设编辑距离用于表征所述拼写错误单词转换成所述形近纠错候选单词的编辑操作次数。
13.一种电子设备,包括:
一个或多个处理器;
计算机可读介质,配置为存储一个或多个程序,
当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如权利要求9-12中任一所述的单词纠错方法。
CN201910912185.6A 2019-09-25 2019-09-25 融合语言模型生成方法和装置、单词纠错方法和电子设备 Active CN112651230B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910912185.6A CN112651230B (zh) 2019-09-25 2019-09-25 融合语言模型生成方法和装置、单词纠错方法和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910912185.6A CN112651230B (zh) 2019-09-25 2019-09-25 融合语言模型生成方法和装置、单词纠错方法和电子设备

Publications (2)

Publication Number Publication Date
CN112651230A true CN112651230A (zh) 2021-04-13
CN112651230B CN112651230B (zh) 2022-04-26

Family

ID=75342296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910912185.6A Active CN112651230B (zh) 2019-09-25 2019-09-25 融合语言模型生成方法和装置、单词纠错方法和电子设备

Country Status (1)

Country Link
CN (1) CN112651230B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115345167A (zh) * 2022-08-29 2022-11-15 华润数字科技有限公司 一种多模型文本处理方法、装置、计算机设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167377A (en) * 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
US20110224971A1 (en) * 2010-03-11 2011-09-15 Microsoft Corporation N-Gram Selection for Practical-Sized Language Models
US8725509B1 (en) * 2009-06-17 2014-05-13 Google Inc. Back-off language model compression
US20140188460A1 (en) * 2012-10-16 2014-07-03 Google Inc. Feature-based autocorrection
CN107193921A (zh) * 2017-05-15 2017-09-22 中山大学 面向搜索引擎的中英混合查询纠错的方法及系统
CN108595419A (zh) * 2018-04-11 2018-09-28 广州视源电子科技股份有限公司 候选词评估方法、候选词排序方法及装置
CN108628826A (zh) * 2018-04-11 2018-10-09 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN110083819A (zh) * 2018-01-26 2019-08-02 北京京东尚科信息技术有限公司 拼写纠错方法、装置、介质及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167377A (en) * 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
US8725509B1 (en) * 2009-06-17 2014-05-13 Google Inc. Back-off language model compression
US20110224971A1 (en) * 2010-03-11 2011-09-15 Microsoft Corporation N-Gram Selection for Practical-Sized Language Models
US20140188460A1 (en) * 2012-10-16 2014-07-03 Google Inc. Feature-based autocorrection
CN107193921A (zh) * 2017-05-15 2017-09-22 中山大学 面向搜索引擎的中英混合查询纠错的方法及系统
CN110083819A (zh) * 2018-01-26 2019-08-02 北京京东尚科信息技术有限公司 拼写纠错方法、装置、介质及电子设备
CN108595419A (zh) * 2018-04-11 2018-09-28 广州视源电子科技股份有限公司 候选词评估方法、候选词排序方法及装置
CN108628826A (zh) * 2018-04-11 2018-10-09 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115345167A (zh) * 2022-08-29 2022-11-15 华润数字科技有限公司 一种多模型文本处理方法、装置、计算机设备及存储介质
CN115345167B (zh) * 2022-08-29 2023-11-10 华润数字科技有限公司 一种多模型文本处理方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN112651230B (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
CN110110041B (zh) 错词纠正方法、装置、计算机装置及存储介质
TWI664540B (zh) Search word error correction method and device, and weighted edit distance calculation method and device
US10762293B2 (en) Using parts-of-speech tagging and named entity recognition for spelling correction
CN103885938B (zh) 基于用户反馈的行业拼写错误检查方法
CN108140019B (zh) 语言模型生成装置、语言模型生成方法以及记录介质
US20120324391A1 (en) Predictive word completion
US20220237378A1 (en) System and method for natural language processing with pretrained language models
KR101495240B1 (ko) 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법
CN110532354B (zh) 内容的检索方法及装置
CN109241525B (zh) 关键词的提取方法、装置和系统
EP2951727A2 (en) Character and word level language models for out-of-vocabulary text input
JP5809381B1 (ja) 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム
CN109002186B (zh) 一种输入预测方法及装置
JP2010537286A (ja) 領域辞書の作成
KR20190133624A (ko) 실시간 오류 후보 생성을 이용한 문맥의존 철자오류 교정 장치 및 방법
CN114154487A (zh) 文本自动纠错方法、装置、电子设备及存储介质
CN109800427B (zh) 一种分词方法、装置、终端及计算机可读存储介质
CN112651230B (zh) 融合语言模型生成方法和装置、单词纠错方法和电子设备
CN107329964A (zh) 一种文本处理方法及装置
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
CN108197101B (zh) 一种语料标注方法及装置
US10789410B1 (en) Identification of source languages for terms
CN114548049A (zh) 一种数字正则化方法、装置、设备及存储介质
CN114528824A (zh) 文本纠错方法、装置、电子设备及存储介质
CN111090720B (zh) 一种热词的添加方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant