CN111950292B - 文本纠错模型的训练方法、文本纠错处理方法和装置 - Google Patents

文本纠错模型的训练方法、文本纠错处理方法和装置 Download PDF

Info

Publication number
CN111950292B
CN111950292B CN202010574805.2A CN202010574805A CN111950292B CN 111950292 B CN111950292 B CN 111950292B CN 202010574805 A CN202010574805 A CN 202010574805A CN 111950292 B CN111950292 B CN 111950292B
Authority
CN
China
Prior art keywords
text
error correction
correction model
training
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010574805.2A
Other languages
English (en)
Other versions
CN111950292A (zh
Inventor
王硕寰
刘佳祥
欧阳轩
孙宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010574805.2A priority Critical patent/CN111950292B/zh
Publication of CN111950292A publication Critical patent/CN111950292A/zh
Application granted granted Critical
Publication of CN111950292B publication Critical patent/CN111950292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本申请公开了文本纠错模型的训练方法、文本纠错处理方法和装置,涉及自然语言处理和深度学习技术领域。方案为:获取目标文本,对目标文本中的部分文本片段进行掩码,得到掩码文本,采用文本预测模型对掩码文本进行预测,得到源文本,若源文本与目标文本不匹配,则根据目标文本对源文本进行标注,得到标注的训练样本,采用标注的训练样本对文本纠错模型进行训练。本申请中基于无标注的目标文本,将预测错误的源文本采用对应的目标文本进行标注,得到标注的训练样本,实现了训练样本的自动生成,提高了样本生成的效率,进而提高了模型的训练效果,解决了现有技术中基于人工标注生成训练样本,效率低下,模型训练效果差的技术问题。

Description

文本纠错模型的训练方法、文本纠错处理方法和装置
技术领域
本申请涉及计算机技术领域,具体地,涉及自然语言处理和深度学习技术领域,尤其涉及文本纠错模型的训练方法、文本纠错处理方法和装置。
背景技术
人们在日常的写作过程中,在语法上难免会犯错。例如,谐音字词错误,形似字错误,词语误用等等,语法错误会给文本作者,造成不好的影响,尤其是在一种重要的场合,例如学术会议等。而对文本进行语法检测,能够在一定程度上帮助写作人员或者是学习者检查自己写作中的语法错误,避免一些低级错误的发生。
相关技术中,通常通过训练语法纠错模型纠正人们写作中的各种语法错误,而对语法纠错模型进行训练,需要预先构建大规模的高质量训练样本,以提高模型训练的效果。因此,如何自动构建大规模的训练数据以用于对模型进行训练,是亟需解决的问题。
发明内容
本申请提供了一种文本纠错模型的训练方法、文本纠错处理方法和装置,基于无标注的目标文本,将预测错误的源文本采用对应的目标文本进行标注,得到标注的训练样本,实现了自动生成训练样本,提高了样本生成的效率和模型的训练效果。
根据本申请的一方面,提供了一种文本纠错模型的训练方法,包括:
获取目标文本;
对所述目标文本中的部分文本片段进行掩码,得到掩码文本;
采用文本预测模型对所述掩码文本进行预测,得到源文本;
若所述源文本与所述目标文本不匹配,则根据所述目标文本对所述源文本进行标注,得到标注的训练样本;
采用所述标注的训练样本对文本纠错模型进行训练。
根据本申请的另一方面,提供了一种文本纠错处理方法,包括:
获取经过训练的文本纠错模型,其中,所述文本纠错模型是获取目标文本,对所述目标文本中的部分文本片段进行掩码,得到掩码文本,对所述掩码文本进行预测,得到源文本,若所述源文本与所述目标文本匹配,则将所述源文本作为训练样本,并根据所述目标文本对所述源文本进行标注,得到标注的训练样本,采用所述标注的训练样本对文本纠错模型进行训练得到的;
采用所述经过训练的文本纠错模型进行文本纠错。
根据本申请的另一方面,提供了一种文本纠错模型的训练装置,包括:
获取模块,用于获取目标文本;
掩码模块,用于对所述目标文本中的部分文本片段进行掩码,得到掩码文本;
预测模块,用于采用文本预测模型对所述掩码文本进行预测,得到源文本;
标注模块,用于若所述源文本与所述目标文本不匹配,则根据所述目标文本对所述源文本进行标注,得到标注的训练样本;
训练模块,用于采用所述标注的训练样本对文本纠错模型进行训练。
根据本申请的另一方面,提供了一种文本纠错处理装置,包括:
获取模块,用于获取经过训练的文本纠错模型,其中,所述文本纠错模型是获取目标文本,对所述目标文本中的部分文本片段进行掩码,得到掩码文本,对所述掩码文本进行预测,得到源文本,若所述源文本与所述目标文本匹配,则将所述源文本作为训练样本,并根据所述目标文本对所述源文本进行标注,得到标注的训练样本,采用所述标注的训练样本对文本纠错模型进行训练得到的;
纠错模块,用于采用所述经过训练的文本纠错模型进行文本纠错。
根据本申请的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行一方面所述的文本纠错模型的训练方法,或者,另一方面所述的文本纠错处理方法。
根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行一方面所述的文本纠错模型的训练方法,或者,另一方面所述的文本纠错处理方法。
根据本申请的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现前述一方面所述的文本纠错模型的训练方法,或者,另一方面所述的文本纠错处理方法。
本申请实施例的技术方案可以包含如下的有益效果:
获取目标文本,对目标文本中的部分文本片段进行掩码,得到掩码文本,采用文本预测模型对掩码文本进行预测,得到源文本,若源文本与目标文本不匹配,则根据目标文本对源文本进行标注,得到标注的训练样本,采用标注的训练样本对文本纠错模型进行训练。本申请中基于无标注的目标文本,将预测错误的源文本采用对应的目标文本进行标注,得到标注的训练样本,实现了训练样本的自动生成,提高了样本生成的效率,进而提高了模型的训练效果。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请实施例提供的文本纠错模型的训练方法的流程示意图之一;
图2为本申请实施例提供的文本纠错模型的训练方法的流程示意图之二;
图3为本申请实施例提供的文本纠错模型的训练方法的流程示意图之三;
图4为本申请实施例提供的文本纠错模型的训练方法的流程示意图之四;
图5为本申请实施例提供的一种文本纠错模型的输入示意图;
图6为本申请实施例提供的文本纠错模型的训练方法的流程示意图之五;
图7为本申请提供的双向和单向注意力机制的示意图;
图8为本申请实施例提供的文本纠错模型的训练方法的流程示意图之六;
图9为本申请实施例提供的一种文本纠错处理方法的流程示意图;
图10为本申请实施例提供的一种文本纠错模型的训练装置的结构示意图;
图11为本申请实施例提供的一种文本纠错处理装置的结构示意图;
图12为本申请实施例提供的一种电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面参考附图描述本申请实施例的文本纠错模型的训练方法、文本纠错处理方法和装置。
图1为本申请实施例提供的文本纠错模型的训练方法的流程示意图之一。
如图1所示,该方法包括以下步骤:
步骤101,获取目标文本。
其中,目标文本是不存在语法错误的文本。
步骤102,对目标文本中的部分文本片段进行掩码,得到掩码文本。
在一种实施例中,每个目标文本对应一个掩码文本,具体地,对目标文本进行切词处理,得到多个文本片段,其中,文本片段的粒度可以为词粒度,进而,对部分文本片段进行掩码,得到掩码文本,作为一种可能的实现方式,可以采用随机的方式选取部分文本片段进行掩码;作为另一种可能的实现方式,可以按照设定的选取规则选取部分文本片段进行掩码,以得到掩码文本。
在另一种实施例中,每个目标文本对应多个掩码文本,也就是说每个目标文本,可以采用对目标文本中的不同部分的文本片段进行掩码,以得到对应该目标文本的多个掩码文本。其中,对于得到目标文本的一个掩码文本的方式,具体地,可对目标文本进行切词处理,得到多个文本片段,其中,文本片段的粒度可以为词粒度,进而,对部分文本片段进行掩码,得到掩码文本,作为一种可能的实现方式,可以采用随机的方式选取部分文本片段进行掩码;作为另一种可能的实现方式,可以按照设定的选取规则选取部分文本片段进行掩码,以得到掩码文本。
需要说明的是,本实施例中对文本片段进行掩码,可以采用字符mask替换文本片段以进行掩码,也可以将需要进行掩码的文本片段采用任意其他文本片段替换,以进行掩码,对于掩码的实现方式,本实施例中不进行限定。
步骤103,采用文本预测模型对掩码文本进行预测,得到源文本。
其中,文本预测模型,是指可以对掩码文本中被掩码的文本片段进行逐字预测的预测模型,例如,语义表示模型ERNIE(Enhanced Representation from kNowledgeIntEgration),也就是说将掩码文本输入文本预测模型后,文本预测模型输出语法纠错处理后的文本,为了便于区分,本实施例中称为源文本。
步骤104,若源文本与目标文本不匹配,则根据目标文本对源文本进行标注,得到标注的训练样本。
本实施例中,由于掩码文本是设置的文本存在语法错误的文本,利用文本预测模型后,通常输出的有纠正了语法错误的源文本,还有未能纠正语法错误的源文本,也就是说将输出的源文本和对应的目标文本进行匹配,若预测得到的源文本和目标文本不匹配,则将相应的源文本利用对应的目标文本进行标注,得到标注的训练样本,作为一种可能的实现方式,在生成标注的训练样本时,用于标注的目标文本可以接续在源文本之后。
例如,掩码文本1是对目标文本1进行掩码处理后得到的,掩码文本2是对目标文本2进行掩码处理后得到的,将掩码文本1和掩码文本2输入文本预测模型,输出对应的源文本1和源文本2,将源文本1和对应的目标文本1进行匹配,确定源文本1和目标文本1不匹配;将源文本2和对应的目标文本2进行匹配,确定源文本2和目标文本2匹配,则将源文本1采用目标文本1进行标注,得到标注的训练样本。也就是说,通过文本预测模型后,仍然有一部分掩码文本无法正确还原为对应的目标文本,这些源文本通常和目标文本较相似,但又存在语法或者是语义上一些错误,将无法正确还原为对应的目标文本的源文本,利用对应的目标文本进行标注生成标注的训练样本,利用这种标注的训练样本对文本纠错模型进行训练,可以提高训练得到的文本纠错模型的纠错能力,提高文本纠错模型的训练效果。
步骤105,采用标注的训练样本对文本纠错模型进行训练。在本申请的一个实施例中,采用标注的训练样本,对文本纠错模型采用深度学习的方法进行训练,得到训练好的文本纠错模型。在对文本纠错模型进行训练时,可以通过深度学习的方式进行训练,这是因为深度学习的方式在大数据集上的表现更好。而通过深度学习的方式训练文本纠错模型时,采用上述自动构建的标注的训练样本,即利用目标文本标注的源文本作为输入,对文本纠错模型进行训练,其中,文本纠错模型可以为预训练模型,例如,ERNIE模型,或者是(Bidirectional Encoder Representation from Transformers,BERT)模型,以提升纠错模型的训练效果,本实施例中不进行限定。通过模型训练过程中不断的调整文本纠错模型的参数,以对文本纠错模型进行迭代训练,直至文本纠错模型输出的准确率可以满足预定阈值,则训练结果,得到训练好的文本纠错模型。
本申请实施例的文本纠错模型的训练方法中,获取目标文本,对目标文本中的部分文本片段进行掩码,得到掩码文本,采用文本预测模型对掩码文本进行预测,得到源文本,若源文本与目标文本不匹配,则根据目标文本对源文本进行标注,得到标注的训练样本,采用标注的训练样本对文本纠错模型进行训练。本申请中基于无标注的目标文本,将预测错误的源文本采用对应的目标文本进行标注,得到标注的训练样本,实现了训练样本的自动生成,提高了样本生成的效率,进而提高了模型的训练效果。
上一实施例中是通过对目标文本进行掩码处理后,进行预测,而实际应用中,样本数量的多样性和样本数量对模型训练较为重要,因此,本实施例中可通过对目标文本片段进行调整,以实现增加掩码文本的数量和多样性,进而实现增加样本的多样性和数量。下述通过两个实施例,对如何增加掩码文本的多样性和数量进行说明。
基于上一实施例,在本申请的一个实施例中,通过先对文本片段进行调整,再地调整后的部分文本片段进行掩码处理,以得到多样化的掩码文本。
图2为本申请实施例提供的文本纠错模型的训练方法的流程示意图之二,如图2所示,上述步骤102包含以下步骤:
步骤201,针对目标文本,切词得到顺序排列的多个文本片段。
其中,文本片段为词粒度。
例如,目标文本为:洛阳是河南省会,享有牡丹之城的美誉。切词得到顺序排列的多个文本片段为:洛阳/河南/省会,享有/牡丹之城/美誉。
步骤202,对多个文本片段进行调整。
本实施例中,在对文本片段进行掩码之前,先对多个文本片段进行调整,以使得文本片段中存在语法错误,例如,语义错误,形似字错误,顺序颠倒错误、谐音字错误等。
例如,将上述的多个文本片段调整得到的文本为洛阳是河南的省会,享有冰雪之城的美誉。因此,调整后的文本片段存在了语法错误,具体为语义错误,因为冰雪之城不是洛阳,而是黑龙江。
步骤203,对调整后的多个文本片段中的部分文本片段进行掩码,以得到掩码文本。
例如,调整后的多个文本片段为:洛阳/河南/省会,享有/冰雪之城/美誉/,对其中的部分文本片段进行掩码得到的掩码文本为:mask mask/河南/省会,享有/冰雪之城/美誉,或者为mask mask/河南/省会,享有/mask mask之城/美誉,其中,对部分文本片段进行掩码的方式,本实施例中不一一列举。
本实施例中,通过对目标文本中的多个文本片段进行调整,使得目标文本存在了语法错误,并对调整后的多个文本片段中的部分文本片段进行掩码,以得到掩码文本,也使得得到的掩码文本中存在语法错误,进而通文本预测模型进行预测后,可以获取到和目标文本不匹配的源文本,继而采用相应源文本对应的目标文本进行标注,以生成训练样本,由于通过调整得到的是存在语法错误的掩码文本,增加了掩码文本的多样性,将存在语法错误的掩码文本采用文本预测模型进行预测,预测得到的仍然可能是包含语法错误的源文本,提高了训练样本获取的效率,同时增加了获取到的训练样本的多样性。
基于上一实施例,在本申请的另一个实施例中,通过对部分文本片段进行掩码,对部分文本片段进行调整的方式,以得到多样化的掩码文本。
图3为本申请实施例提供的文本纠错模型的训练方法的流程示意图之三,如图3所示,上述步骤102包含以下步骤:
步骤301,针对目标文本,切词得到顺序排列的多个文本片段。
步骤302,对多个文本片段中的一部分文本片段进行掩码。
步骤303,对多个文本片段中的另一部分文本片段进行调整,以得到掩码文本。
例如,目标文本为:洛阳是河南省会,享有牡丹之城的美誉。切词得到顺序排列的多个文本片段为:洛阳/河南/省会,享有/牡丹之城/美誉。基于预测的需求,可先对多个文本片段中的文本片段“牡丹之城”进行掩码,再对文本片段“牡丹之城”以外的文本片段进行调整得到掩码文本,例如,得到的掩码文本为:河南是洛阳省会,享有mask mask mask mask美誉。
本申请中先对多个文本片段中的一部分文本片段进行掩码,相对于上一实施例中的先对部分文本片段进行调整,再进行掩码的方式,可以实现基于预测的需求先将需要预测的部分进行掩码,以满足特殊场景的下的预测需求。由于通过调整得到的是存在语法错误的掩码文本,将存在语法错误的掩码文本采用文本预测模型进行预测,预测得到的仍然可能是包含语法错误的源文本,提高了训练样本获取的效率和样本的多样性。
上述实施例中,描述了可对多个文本片段进行调整,以获取存在语法问题的文本,在本申请实施例的一种可能的实现方式中,为了进一步增强调整后目标文本的多样性,对目标文本中的多个文本片段进行调整,还可以包含以下步骤:
在目标文本中新增文本片段;和/或,
删除目标文本中的至少一个文本片段;和/或,
重复目标文本中的至少一个文本片段;和/或,
互换目标文本中的至少两个文本片段。
作为第一种可能的调整方式,在目标文本中新增文本片段,例如,目标文本为:她工作非常认真。切词得到顺序排列的多个文本片段为:她/工作/非常/认真,通过新增文本片段,得到的目标文本包含的文本片段为她/工作/非常/认真/的很。
作为第二种可能的调整方式,删除目标文本中的至少一个文本片段,例如,目标文本对应的多个文本片段为,她/工作/非常/认真,通过删除文本片段,得到的目标文本包含的文本片段为:她/工作/非常。
作为第三种可能的调整方式,重复目标文本中的至少一个文本片段,例如,目标文本对应的多个文本片段为,她/工作/非常/认真,通过重复文本片段,得到的目标文本包含的文本片段为:她/工作/工作/非常/认真。
作为第四种可能的调整方式,互换目标文本中的至少两个文本片段,例如目标文本对应的多个文本片段为,她/工作/非常/认真,通过互换目标文本中的至少两个文本片段,得到的目标文本包含的文本片段为:她/非常
/工作/认真。
作为第五种可能的调整方式,在对目标文本中的多各文本片段进行调整时,可以采用上述四种可能的实现方式中的一个或多个组合,以实现对目标文本中文本片段的调整,以得到调整后的目标文本。
本实施例的文本纠错模型的训练方法中,通过新增、删除、重复和互换的操作中的一个或多个,实现对目标文本中的多个文本片段进行调整,使得目标文本存在了语法错误,同时,由于对文本片段的调整是随机的,并可采用多种调整方式的组合,也增加目标文本的多样性,进而对调整后的多个文本片段中的部分文本片段进行掩码,以得到掩码文本,也进一步增加了掩码文本的多样性,进而提高了后续得到的标注的训练样本的多样性。
基于上述实施例,本实施例提供了一种文本纠错模型的训练方法,本实施例中采用生成的标注的训练样本对文本纠错模型进行训练,以使得文本纠错模型可以基于输入的源文本,通过纠错处理得到正确还原的目标文本。因此,图4为本申请实施例提供的文本纠错模型的训练方法的流程示意图之四。
如图4所示,该方法包含以下步骤:
步骤401,获取目标文本。
步骤402,对目标文本中的部分文本片段进行掩码,得到掩码文本。
步骤403,采用文本预测模型对掩码文本进行预测,得到源文本。
步骤404,若源文本与目标文本不匹配,则根据目标文本对源文本进行标注,得到标注的训练样本。
具体地,步骤401-步骤404,可以参照上述实施例中的相关解释说明,原理相同,本实施例中不再赘述。
步骤405,根据标注的训练样本中的源文本,生成输入向量。
在本申请的一个实施例中,将标注的训练样本中的源文本,拆分成多个字符,例如,该字符可以为单个的字,针对每个字符进行向量化处理,得到各个字符的向量,例如为512维的字符向量。同时,对源文本中每一个字符,获取标识特征和位置特征,其中,标识特征,用于指示相应字符属于源文本,例如,用数字0标识的字符属于源文本,用数字1标识的字符属于作为标注的目标文本。位置特征,用于指示相应字符的语序,例如,多个字符的语序可以用编号0-N表示。
如图5所示,图5为本申请实施例提供的一种文本纠错模型的输入示意图,当输入文本为中文时,对应的字符为一个字,其中,0指示了对应的字符属于输入的训练样本中的源文本,即他/公/非/常/认/真/的/很,同时,源文本中的每一个字符采用0-9表示对应的位置特征。1指示了对应的字符属于输入的训练样本中的用作标注的目标文本,即他/工/作/非/常/认/真,同时,目标文本中的每一个字符采用0-6表示对应的位置特征。
进而,根据各字符的标识特征、位置特征和相应字符的向量,生成训练样本对应的输入向量,作为一种可能的方式,通过拼接得到训练样本对应的输入向量。
需要说明的是,各字符的标识特征和位置特征对应的向量,与相应字符的向量的维度相同,以便于进行向量拼接。
步骤406,将输入向量输入文本纠错模型,以得到文本纠错模型输出的语义向量。
步骤407,根据语义向量,预测得到纠正文本。
步骤408,根据纠正文本和标注的训练样本中的目标文本间的差异,调整文本纠错模型的参数。
在本申请的一个实施例中,将得到的输入向量输入文本纠错模型,得到对应的语义向量,将语义向量输入全连接层以对每一个字符进行预测,并通过softmax层进行归一化处理,得到输出文本中对应每个字符的概率,以实现逐字符预测得到对应的纠错文本,进而,根据纠正文本和标注的训练样本中的目标文本间的差异,调整文本纠错模型的参数,以使得文本纠错模型预测得到的纠正文本和对应的用于标注的目标文本之间的差异最小化,从而模型训练完成。
进一步,训练得到的文本纠错模型,可以部署在需要实现对文本进行纠错处理的智能设备中,例如,智能手机、掌上电脑等,以使得智能设备能够利用训练好的文本纠错模型实现文本纠错能力,提供文本纠错服务。
本申请实施例的文本纠错模型的训练方法中,基于无标注的目标文本,将预测错误的源文本采用对应的目标文本进行标注,得到标注的训练样本,实现了训练样本的自动生成,提高了样本生成的效率,利用大量自动标注的训练样本对文本纠错模型进行训练,使得训练得到的文本纠错模型可以对待识别的文本逐字预测得到正确文本,增强了模型的训练效果。
本实施例中的训练样本,是利用目标文本标注了源文本,其中,源文本对于目标文本来说是存在语法错误的文本,为了防止在将源文本生成输入向量的过程中会获取到用于标注的目标文本的信息,本实施例中的文本纠错模型可以采用编码器和解码器的架构,并在编码器和解码器中分别采用不同的注意力机制,以防止解码生成语义向量时会获取到目标文本的信息,以使得文本纠错模型训练达到预期效果。因此,图6为本申请实施例提供的文本纠错模型的训练方法的流程示意图之五。
如图6所示,上一实施例中的步骤406还可以包含以下步骤:
步骤601,将输入向量输入编码端,以使得编码器采用双向注意力机制生成隐状态向量。
步骤602,将隐状态向量输入解码端,以使得解码端采用单向注意力机制生成语义向量。
本实施例中,双向注意力机制是指编码端在基于输入向量逐字生成对应的隐状态向量时,是既考虑前面的字也考虑后面的字。而解码端基于输入的隐状态向量,生成输入的语义向量时,只考虑前面的字,从而实现了解码端在进行逐字预测时,无法看到正确的目标文本,也就是说无法得到答案,防止了目标文本的信息泄露,提高了文本纠错模型训练的效果。
例如,图5中,在编码端,基于输入“他工非常认真得很[SEP]他工作非常认真”对应的输入向量采用双向注意力机制计算时,“工”的隐状态向量会基于“工”之前的“他”以及“工”之后的“非常认真得很[SEP]他工作非常认真”进行生成,也就是说在编码端,通过双向注意力机制进行逐字生成隐状态向量时,考虑了输入向量中所有的字,既包含前面的字也包含后面的字,依次类推,直至生成对应输入向量的隐状态向量。其中,[SEP]为结束符。
进一步,在解码端,基于输入“他工非常认真得很[SEP]他工作非常认真”对应的隐状态向量,采用单向注意力机制计算时,“他”的隐状态向量会基于“他工非常认真得很[SEP]”进行生成,“工”的隐状态向量会基于“他工非常认真得很[SEP]他”进行生成,“作“的隐状态向量会基于“他工非常认真得很[SEP]他工”进行生成,最终,逐字预测得到“他工作非常认真”。也就是说在解码端,通过单向注意力机制进行逐字预测时,只考虑了需要预测字之前的字,而无法获取到需要预测的字之后的字,避免了在进行逐字预测时,获取到需要预测的字的信息,以确保预测得到的字都是实际预测得到的,而不是因为要预测的字答案泄露,直接获取得到的,提高了模型训练的效果。
又例如,若输入的标注的训练样本中,在编码端,源文本的输入向量中各字符的输入向量按照顺序分别用a1,a2,a3和a4标识,在解码端,解码得到的纠正文本中各字符的向量分别用b1,b2,b3标识,如图7所示,灰色底色的正方形框代表横轴的字符可以看到纵轴对应的字符,无色的正方形框代表横轴的字符看不到纵轴的对应的字符,例如,在编码端,源文本中的字符a1,可以看到自己a1,也可以看到a1之后的字符a2,a3和a4;而源文本中的字符a2,可以看到自己a2,也可以看到a2之前的字符a1,和a2之后的字符a3和a4。但是看不到用于标注的目标文本中的任意一个字符,实现了防止获取到答案的信息。而在解码端,预测得到的字符b2,可以看到之前预测得到的字符b1,但是无法看到后续需要预测得到的字符b3,避免了答案信息的泄露。
本申请实施例的文本纠错模型的训练方法中,文本纠错模型可以采用编码器和解码器的架构,并在编码器和解码器中分别采用不同的注意力机制,以防止解码生成语义向量时会获取到目标文本的信息,避免答案信息的泄露。
基于上述实施例,本实施例提供了一种文本纠错模型的训练方法,本实施例的文本纠错模型中还包含分类器,分类器用于对模型输入的文本进行类别分类,以识别是否存在语法错误,本申请中采用生成的标注训练样本对文本纠错模型进行训练,以使得训练得到的文本纠错模型可以识别出文本中是否存在语法错误。
图8为本申请实施例提供的文本纠错模型的训练方法的流程示意图之六。如图8所示,该方法包含以下步骤:
步骤701,获取目标文本。
步骤702,对目标文本中的部分文本片段进行掩码,得到掩码文本。
步骤703,采用文本预测模型对掩码文本进行预测,得到源文本。
步骤704,若源文本与目标文本不匹配,则根据目标文本对源文本进行标注,得到标注的训练样本。
步骤705,根据标注的训练样本中的源文本,生成输入向量,其中,输入向量中包含取值为设定值的标识位。
例如,输入的源文本为“cls他工非常认真得很[SEP]”,其中,cls即为取值为设定值的标识位,[SEP]为结束符。
步骤706,将输入向量输入编码端,以使得编码器采用双向注意力机制生成隐状态向量。
具体地,步骤701-706,可以参照上述实施例中的相关解释说明,原理相同,本实施例中不再赘述。
步骤707,从编码器输出的隐状态向量中,提取对应标识位的隐状态向量。
本实施例中,由于编码器的输入向量中包含取值为设定值的标识位,在编码器输出的隐状态向量中,提取出对应标识位的隐状态向量,其中,对应标识位的隐状态向量中,包含了可用于判断输入的源文本是否存在语法序错误的特征信息,也就是说根据对应标识位的隐状态向量可用于判断输入的源文本是否存在语法错误。
步骤708,将标识位的隐状态向量输入分类器,以根据分类器输出的分类类别确定训练样本中的源文本是否存在语法错误。
在一个实施例中,分类器为两分类器,分类器输出的分类类别为1或0,其中,1代表该训练样本中的源文本不存在语法错误,0代表该训练样本中的源文本存在语法错误。
步骤709,根据分类类别与实际类别之间的差异,调整文本纠错模型的参数。
在一个实施例中,根据分类器输出的分类类别与实际类别之间的差异,调整编码器和分类器的参数,通过调整编码器和分类器的参数,使得根据编码器输出的标识位的隐状态,分类得到的源文本的分类类别和实际类别之间的差异小于阈值,以实现基于分类任务对文本纠错模型的训练。
本申请实施例的文本纠错模型的训练方法中,基于获取的无标注的目标文本,将预测错误的源文本采用对应的目标文本进行标注,得到标注的训练样本,实现了训练样本的自动生成,提高了样本生成的效率。进而,根据标注的训练样本中的源文本,生成输入向量,其中,输入向量中包含取值为设定值的标识位,从编码器输出的隐状态向量中,提取对应标识位的隐状态向量,将标识位的隐状态向量输入分类器,以根据分类器输出的分类类别确定训练样本中的源文本是否存在语法错误,根据分类类别与实际类别之间的差异,调整文本纠错模型的参数,实现了训练得到的文本纠错模型不仅可以确定输入的源文本是否存在语法错误,还可以针对存在语法错误的源文本预测得到纠正文本,提高了模型训练的效果。
为了实现上述实施例,本实施例提供了一种文本纠错处理方法,图9为本申请实施例提供的一种文本纠错处理方法的流程示意图,如图9所示,该方法包含以下步骤:
步骤801,获取经过训练的文本纠错模型,其中,文本纠错模型是获取目标文本,对目标文本中的部分文本片段进行掩码,得到掩码文本,对掩码文本进行预测,得到源文本,若源文本与目标文本匹配,则将源文本作为训练样本,并根据目标文本对源文本进行标注,得到标注的训练样本,采用标注的训练样本对文本纠错模型进行训练得到的。
步骤802,采用经过训练的文本纠错模型进行文本纠错。
本实施例中,训练得到的文本纠错模型可用于对文本进行纠错处理,也就是说将待识别文本输入文本纠错模型可实现逐字预测得到待识别文本对应的纠错文本,纠错文本即为不存在语法错误的文本,实现了对文本的纠错处理。
其中,对文本纠错模型的训练过程可参照上述文本纠错模型的训练方法的实施例中的说明,此处不再赘述。
本申请实施例的文本纠错处理方法中,通过文本纠错模型可实现逐字预测得到待识别文本对应的纠错文本,纠错文本即为不存在语法错误的文本,实现了对文本的纠错处理。
在采用训练的文本纠错模型进行文本纠错时,为了提高文本纠错的效果,可先对输入的待识别为源文本,识别是否存在语法错误,若存在语法错误,则进行对应的纠正文本的识别,以生成纠正文本。
因此,上述的步骤802,还可以包含以下步骤:
获取待识别文本的输入向量;输入向量中包含取值为设定值的标识位;
将所述输入向量输入文本纠错模型的编码器,得到所述输入向量对应的隐状态向量;
提取隐状态向量中标识位的隐状态向量;
将标识位的隐状态向量输入文本纠错模型的分类器,以根据分类器输出的分类类别确定训练样本中的源文本是否存在语法错误;
若存在语法错误,将输入向量对应的隐状态向量输入文本纠错模型的解码器,以得到纠错文本。
本实施例的文本纠错处理方法中,采用训练完成的文本纠错模型进行文本纠错处理,将包含取值为设定值的标识位的输入向量输入文本纠错模型的编码器得到输入向量的隐状态向量,提取隐状态向量中标识位的隐状态向量,标识位的隐状态向量中包含了可识别输入的待识别文本是否存在语法错误的特征,将该特征输入分类器,可输出用于指示待识别文本存在法语序错误的类别或是不存在语法错误的类别,实现了对待识别文本的初步筛选,将不存在语法错误的待识别文本筛选掉,以在确定存在语法错误时,进一步对该待识别文本进行逐字预测,预测得到纠错文本,实现了输出正确文本,同时降低了文本纠错的处理量。
为了实现上述实施例,本实施例提供了一种文本纠错模型的训练装置。
图10为本申请实施例提供的一种文本纠错模型的训练装置的结构示意图。
如图10所示,该装置包括:获取模块91、掩码模块92、预测模块93、标注模块94和训练模块95。
获取模块91,用于获取目标文本。
掩码模块92,用于对目标文本中的部分文本片段进行掩码,得到掩码文本。
预测模块93,用于采用文本预测模型对掩码文本进行预测,得到源文本。
标注模块94,用于若源文本与目标文本不匹配,则根据目标文本对源文本进行标注,得到标注的训练样本。
训练模块95,用于采用标注的训练样本对文本纠错模型进行训练。
在本申请实施例的一种可能的实现方式中,上述掩码模块92,具体用于:
针对所述目标文本,切词得到顺序排列的多个文本片段,对多个文本片段进行调整,以及对调整后的所述多个文本片段中的部分文本片段进行掩码,以得到所述掩码文本。
在本申请实施例的另一种可能的实现方式中,上述掩码模块92,,具体还用于:
针对所述目标文本,切词得到顺序排列的多个文本片段,对所述多个文本片段中的一部分文本片段进行掩码,以及对所述多个文本片段中的另一部分文本片段进行调整,以得到所述掩码文本。
作为一种可能的实现方式,上述掩码模块92,具体还用于:
在所述目标文本中新增文本片段;和/或,
删除所述目标文本中的至少一个文本片段;和/或,
重复所述目标文本中的至少一个文本片段;和/或,
互换所述目标文本中的至少两个文本片段。
在本申请实施例的一种可能的实现方式中,上述训练模块95,包括:
生成单元,用于根据所述标注的训练样本中的所述源文本,生成输入向量。
处理单元,用于将所述输入向量输入文本纠错模型,以得到所述文本纠错模型输出的语义向量。
预测单元,用于根据所述语义向量,预测得到纠正文本。
调整单元,用于根据所述纠正文本和所述标注的训练样本中的所述目标文本间的差异,调整所述文本纠错模型的参数。
在本申请实施例的一种可能的实现方式中,文本纠错模型包含解码端和编码端,其中,上述处理单元,具体用于:
将所述输入向量输入所述编码端,以使得所述编码器采用双向注意力机制生成隐状态向量;将所述隐状态向量输入所述解码端,以使得所述解码端采用单向注意力机制生成所述语义向量。
在本申请实施例的一种可能的实现方式中,其中,输入向量中包含取值为设定值的标识位,文本纠错模型还包含分类器,上述训练模块95,具体还用于:
从所述编码器输出的隐状态向量中,提取对应所述标识位的隐状态向量;
将所述标识位的隐状态向量输入所述分类器,以根据所述分类器输出的分类类别确定所述训练样本中的所述源文本是否存在语法错误;
根据所述分类类别与实际类别之间的差异,调整所述文本纠错模型的参数。
需要说明的是前述对文本纠错模型的训练方法实施例的解释说明也适用于本实施例的文本纠错模型的训练装置,原理相同,此处不再赘述。
本申请实施例的文本纠错模型的训练装置中,获取目标文本,对目标文本中的部分文本片段进行掩码,得到掩码文本,采用文本预测模型对掩码文本进行预测,得到源文本,若源文本与目标文本不匹配,则根据目标文本对源文本进行标注,得到标注的训练样本,采用标注的训练样本对文本纠错模型进行训练。本申请中基于无标注的目标文本,将预测错误的源文本采用对应的目标文本进行标注,得到标注的训练样本,实现了训练样本的自动生成,提高了样本生成的效率,进而提高了模型的训练效果。
为了实现上述实施例,本实施例提供了一种文本纠错处理装置。
图11为本申请实施例提供的一种文本纠错处理装置的结构示意图。
如图11所示,该装置包括:获取模块101和纠错模块102。
获取模块101,用于获取经过训练的文本纠错模型,其中,所述文本纠错模型是获取目标文本,对所述目标文本中的部分文本片段进行掩码,得到掩码文本,对所述掩码文本进行预测,得到源文本,若所述源文本与所述目标文本匹配,则将所述源文本作为训练样本,并根据所述目标文本对所述源文本进行标注,得到标注的训练样本,采用所述标注的训练样本对文本纠错模型进行训练得到的;
纠错模块102,用于采用经过训练的文本纠错模型进行文本纠错。
上述纠错模块102,具体用于:
获取待识别文本的输入向量;所述输入向量中包含取值为设定值的标识位;
将输入向量输入文本纠错模型的编码器,得到输入向量对应的隐状态向量;
提取隐状态向量中标识位的隐状态向量;
将标识位的隐状态向量输入文本纠错模型的分类器,以根据分类器输出的分类类别确定训练样本中的所述源文本是否存在语法错误;
若存在语法错误,将输入向量对应的隐状态向量输入文本纠错模型的解码器,以得到纠错文本。
需要说明的是前述对文本纠错处理方法实施例的解释说明也适用于本实施例的文本纠错处理装置,原理相同,此处不再赘述。
本实施例的文本纠错处理装置中,采用训练完成的文本纠错模型进行文本纠错处理,将包含取值为设定值的标识位的输入向量输入文本纠错模型的编码器得到输入向量的隐状态向量,提取隐状态向量中标识位的隐状态向量,标识位的隐状态向量中包含了可识别输入的待识别文本是否存在语法错误的特征,将该特征输入分类器,可输出用于指示待识别文本存在法语序错误的类别或是不存在语法错误的类别,实现了对待识别文本的初步筛选,将不存在语法错误的待识别文本筛选掉,以在确定存在语法错误时,进一步对该待识别文本进行逐字预测,预测得到纠错文本,实现了输出正确文本,同时降低了文本纠错的处理量。
为了实现上述实施例,本申请实施例提出了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述实施例中所述的文本纠错模型的训练方法,或者,实现前述实施例中所述的文本纠错处理方法。
为了实现上述实施例,本申请实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行前述实施例中所述的文本纠错模型的训练方法,或者,实现前述实施例中所述的文本纠错处理方法。
为了实现上述实施例,本申请实施例提出了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现前述实施例中所述的文本纠错模型的训练方法,或者,实现前述实施例中所述的文本纠错处理方法。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图12所示,是根据本申请实施例的一种电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图12所示,该电子设备包括:一个或多个处理器111、存储器112,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图12中以一个处理器111为例。
存储器112即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的文本纠错模型的训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的文本纠错模型的训练方法。
存储器112作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的文本纠错模型的训练的方法对应的程序指令/模块(例如,附图10所示的获取模块91、掩码模块92、预测模块93、标注模块94和训练模块95)。处理器111通过运行存储在存储器112中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的文本纠错模型的训练的方法。
存储器112可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据文本纠错模型的训练的电子设备的使用所创建的数据等。此外,存储器112可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器112可选包括相对于处理器111远程设置的存储器,这些远程存储器可以通过网络连接至文本纠错模型的训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
文本纠错模型的训练的方法的电子设备还可以包括:输入装置113和输出装置114。处理器111、存储器112、输入装置113和输出装置114可以通过总线或者其他方式连接,图12中以通过总线连接为例。
输入装置113可接收输入的数字或字符信息,以及产生与文本纠错模型的训练方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置114可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
本申请实施例的技术方案,获取目标文本,对目标文本中的部分文本片段进行掩码,得到掩码文本,采用文本预测模型对掩码文本进行预测,得到源文本,若源文本与目标文本不匹配,则根据目标文本对源文本进行标注,得到标注的训练样本,采用标注的训练样本对文本纠错模型进行训练。本申请中基于无标注的目标文本,将预测错误的源文本采用对应的目标文本进行标注,得到标注的训练样本,实现了训练样本的自动生成,提高了样本生成的效率,进而提高了模型的训练效果。
需要说明的是,本实施例的电子设备的框图,也适用于文本纠错处理方法,原理相同,此处不再赘述。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (20)

1.一种文本纠错模型的训练方法,包括:
获取目标文本,所述目标文本是不存在语法错误的文本;
对所述目标文本中的部分文本片段进行掩码,得到掩码文本,所述掩码文本是设置的文本存在语法错误的文本;
采用文本预测模型对所述掩码文本进行预测,得到源文本;
若所述源文本与所述目标文本不匹配,则根据所述目标文本对所述源文本进行标注,得到标注的训练样本;
采用所述标注的训练样本对文本纠错模型进行训练。
2.根据权利要求1所述的文本纠错模型的训练方法,所述对所述目标文本中的部分文本片段进行掩码,得到掩码文本,包括:
针对所述目标文本,切词得到顺序排列的多个文本片段;
对多个文本片段进行调整;以及
对调整后的所述多个文本片段中的部分文本片段进行掩码,以得到所述掩码文本。
3.根据权利要求1所述的文本纠错模型的训练方法,所述对所述目标文本中的部分文本片段进行掩码,得到掩码文本,包括:
针对所述目标文本,切词得到顺序排列的多个文本片段;
对所述多个文本片段中的一部分文本片段进行掩码;以及
对所述多个文本片段中的另一部分文本片段进行调整,以得到所述掩码文本。
4.根据权利要求2或3所述的文本纠错模型的训练方法,所述对文本片段进行调整,包括:
在所述目标文本中新增文本片段;和/或,
删除所述目标文本中的至少一个文本片段;和/或,
重复所述目标文本中的至少一个文本片段;和/或,
互换所述目标文本中的至少两个文本片段。
5.根据权利要求1所述的文本纠错模型的训练方法,所述采用所述标注的训练样本对文本纠错模型进行训练,包括:
根据所述标注的训练样本中的所述源文本,生成输入向量;
将所述输入向量输入文本纠错模型,以得到所述文本纠错模型输出的语义向量;
根据所述语义向量,预测得到纠正文本;
根据所述纠正文本和所述标注的训练样本中的所述目标文本间的差异,调整所述文本纠错模型的参数。
6.根据权利要求5所述的文本纠错模型的训练方法,所述文本纠错模型包含解码端和编码端,其中,所述将所述输入向量输入文本纠错模型,以得到所述文本纠错模型输出的语义向量,包括:
将所述输入向量输入所述编码端,以使得编码器采用双向注意力机制生成隐状态向量;
将所述隐状态向量输入所述解码端,以使得所述解码端采用单向注意力机制生成所述语义向量。
7.根据权利要求6所述的文本纠错模型的训练方法,其中,所述输入向量中包含取值为设定值的标识位,所述文本纠错模型还包含分类器,所述采用所述标注的训练样本对文本纠错模型进行训练,还包括:
从所述编码器输出的隐状态向量中,提取对应所述标识位的隐状态向量;
将所述标识位的隐状态向量输入所述分类器,以根据所述分类器输出的分类类别确定所述训练样本中的所述源文本是否存在语法错误;
根据所述分类类别与实际类别之间的差异,调整所述文本纠错模型的参数。
8.一种文本纠错处理方法,包括:
获取经过训练的文本纠错模型,其中,所述文本纠错模型是获取目标文本,所述目标文本是不存在语法错误的文本,对所述目标文本中的部分文本片段进行掩码,得到掩码文本,所述掩码文本是设置的文本存在语法错误的文本,对所述掩码文本进行预测,得到源文本,若所述源文本与所述目标文本匹配,则将所述源文本作为训练样本,并根据所述目标文本对所述源文本进行标注,得到标注的训练样本,采用所述标注的训练样本对文本纠错模型进行训练得到的;
采用所述经过训练的文本纠错模型进行文本纠错。
9.根据权利要求8所述的文本纠错处理方法,其中,所述采用所述经过训练的文本纠错模型进行文本纠错,包括:
获取待识别文本的输入向量;所述输入向量中包含取值为设定值的标识位;
将所述输入向量输入所述文本纠错模型的编码器,得到所述输入向量对应的隐状态向量;
提取所述隐状态向量中所述标识位的隐状态向量;
将所述标识位的隐状态向量输入所述文本纠错模型的分类器,以根据所述分类器输出的分类类别确定所述训练样本中的所述源文本是否存在语法错误;
若存在语法错误,将所述输入向量对应的隐状态向量输入所述文本纠错模型的解码器,以得到纠错文本。
10.一种文本纠错模型的训练装置,包括:
获取模块,用于获取目标文本,所述目标文本是不存在语法错误的文本;
掩码模块,用于对所述目标文本中的部分文本片段进行掩码,得到掩码文本,所述掩码文本是设置的文本存在语法错误的文本;
预测模块,用于采用文本预测模型对所述掩码文本进行预测,得到源文本;
标注模块,用于若所述源文本与所述目标文本不匹配,则根据所述目标文本对所述源文本进行标注,得到标注的训练样本;
训练模块,用于采用所述标注的训练样本对文本纠错模型进行训练。
11.根据权利要求10所述的文本纠错模型的训练装置,其中,所述掩码模块,具体用于:
针对所述目标文本,切词得到顺序排列的多个文本片段;
对多个文本片段进行调整;以及
对调整后的所述多个文本片段中的部分文本片段进行掩码,以得到所述掩码文本。
12.根据权利要求10所述的文本纠错模型的训练装置,其中,所述掩码模块,具体还用于:
针对所述目标文本,切词得到顺序排列的多个文本片段;
对所述多个文本片段中的一部分文本片段进行掩码;以及
对所述多个文本片段中的另一部分文本片段进行调整,以得到所述掩码文本。
13.根据权利要求11或12所述的文本纠错模型的训练装置,所述掩码模块,具体还用于:
在所述目标文本中新增文本片段;和/或,
删除所述目标文本中的至少一个文本片段;和/或,
重复所述目标文本中的至少一个文本片段;和/或,
互换所述目标文本中的至少两个文本片段。
14.根据权利要求10所述的文本纠错模型的训练装置,所述训练模块,包括:
生成单元,用于根据所述标注的训练样本中的所述源文本,生成输入向量;
处理单元,用于将所述输入向量输入文本纠错模型,以得到所述文本纠错模型输出的语义向量;
预测单元,用于根据所述语义向量,预测得到纠正文本;
调整单元,用于根据所述纠正文本和所述标注的训练样本中的所述目标文本间的差异,调整所述文本纠错模型的参数。
15.根据权利要求14所述的文本纠错模型的训练装置,所述文本纠错模型包含解码端和编码端,其中,所述处理单元,具体用于:
将所述输入向量输入所述编码端,以使得编码器采用双向注意力机制生成隐状态向量;
将所述隐状态向量输入所述解码端,以使得所述解码端采用单向注意力机制生成所述语义向量。
16.根据权利要求15所述的文本纠错模型的训练装置,其中,所述输入向量中包含取值为设定值的标识位,所述文本纠错模型还包含分类器,所述训练模块,具体还用于:
从所述编码器输出的隐状态向量中,提取对应所述标识位的隐状态向量;
将所述标识位的隐状态向量输入所述分类器,以根据所述分类器输出的分类类别确定所述训练样本中的所述源文本是否存在语法错误;
根据所述分类类别与实际类别之间的差异,调整所述文本纠错模型的参数。
17.一种文本纠错处理装置,包括:
获取模块,用于获取经过训练的文本纠错模型,其中,所述文本纠错模型是获取目标文本,所述目标文本是不存在语法错误的文本,对所述目标文本中的部分文本片段进行掩码,得到掩码文本,所述掩码文本是设置的文本存在语法错误的文本,对所述掩码文本进行预测,得到源文本,若所述源文本与所述目标文本匹配,则将所述源文本作为训练样本,并根据所述目标文本对所述源文本进行标注,得到标注的训练样本,采用所述标注的训练样本对文本纠错模型进行训练得到的;
纠错模块,用于采用所述经过训练的文本纠错模型进行文本纠错。
18.根据权利要求17所述的文本纠错处理装置,其中,所述纠错模块,具体用于:
获取待识别文本的输入向量;所述输入向量中包含取值为设定值的标识位;
将所述输入向量输入所述文本纠错模型的编码器,得到所述输入向量对应的隐状态向量;
提取所述隐状态向量中所述标识位的隐状态向量;
将所述标识位的隐状态向量输入所述文本纠错模型的分类器,以根据所述分类器输出的分类类别确定所述训练样本中的所述源文本是否存在语法错误;
若存在语法错误,将所述输入向量对应的隐状态向量输入所述文本纠错模型的解码器,以得到纠错文本。
19. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的文本纠错模型的训练方法,或者,权利要求8-9中任一项所述的文本纠错处理方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的文本纠错模型的训练方法,或者,权利要求8-9中任一项所述的文本纠错处理方法。
CN202010574805.2A 2020-06-22 2020-06-22 文本纠错模型的训练方法、文本纠错处理方法和装置 Active CN111950292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010574805.2A CN111950292B (zh) 2020-06-22 2020-06-22 文本纠错模型的训练方法、文本纠错处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010574805.2A CN111950292B (zh) 2020-06-22 2020-06-22 文本纠错模型的训练方法、文本纠错处理方法和装置

Publications (2)

Publication Number Publication Date
CN111950292A CN111950292A (zh) 2020-11-17
CN111950292B true CN111950292B (zh) 2023-06-27

Family

ID=73337149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010574805.2A Active CN111950292B (zh) 2020-06-22 2020-06-22 文本纠错模型的训练方法、文本纠错处理方法和装置

Country Status (1)

Country Link
CN (1) CN111950292B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507695A (zh) * 2020-12-01 2021-03-16 平安科技(深圳)有限公司 文本纠错模型建立方法、装置、介质及电子设备
CN112632912A (zh) * 2020-12-18 2021-04-09 平安科技(深圳)有限公司 文本纠错方法、装置、设备及可读存储介质
CN112632955B (zh) * 2020-12-29 2023-02-17 五八有限公司 文本集生成方法、装置、电子设备和介质
CN112766387B (zh) * 2021-01-25 2024-01-23 卡奥斯数字科技(上海)有限公司 一种训练数据的纠错方法、装置、设备及存储介质
CN112905737B (zh) * 2021-01-28 2023-07-28 平安科技(深圳)有限公司 文本纠错方法、装置、设备及存储介质
CN113642317A (zh) * 2021-08-12 2021-11-12 广域铭岛数字科技有限公司 一种基于语音识别结果的文本纠错方法及系统
CN116187304A (zh) * 2023-04-26 2023-05-30 中国传媒大学 一种基于改进bert的自动文本纠错算法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8228215B1 (en) * 2010-06-29 2012-07-24 Google Inc. Identifying misrepresented characters in strings of text
CN108959260A (zh) * 2018-07-06 2018-12-07 北京邮电大学 一种基于文本化词向量的中文语法错误检测方法
WO2019024050A1 (en) * 2017-08-03 2019-02-07 Lingochamp Information Technology (Shanghai) Co., Ltd. CORRECTION OF GRAMMAR ERRORS BASED ON DEEP CONTEXT AND USING ARTIFICIAL NEURAL NETWORKS
CN110196894A (zh) * 2019-05-30 2019-09-03 北京百度网讯科技有限公司 语言模型的训练方法和预测方法
CN111062205A (zh) * 2019-12-16 2020-04-24 北京大学 一种中文自动语法纠错中的动态掩码训练方法
CN111310443A (zh) * 2020-02-12 2020-06-19 新华智云科技有限公司 一种文本纠错方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8228215B1 (en) * 2010-06-29 2012-07-24 Google Inc. Identifying misrepresented characters in strings of text
WO2019024050A1 (en) * 2017-08-03 2019-02-07 Lingochamp Information Technology (Shanghai) Co., Ltd. CORRECTION OF GRAMMAR ERRORS BASED ON DEEP CONTEXT AND USING ARTIFICIAL NEURAL NETWORKS
CN108959260A (zh) * 2018-07-06 2018-12-07 北京邮电大学 一种基于文本化词向量的中文语法错误检测方法
CN110196894A (zh) * 2019-05-30 2019-09-03 北京百度网讯科技有限公司 语言模型的训练方法和预测方法
CN111062205A (zh) * 2019-12-16 2020-04-24 北京大学 一种中文自动语法纠错中的动态掩码训练方法
CN111310443A (zh) * 2020-02-12 2020-06-19 新华智云科技有限公司 一种文本纠错方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding;Jacob Devlin 等;arXiv;全文 *
FASPell: A Fast, Adaptable, Simple, Powerful Chinese Spell Checker Based On DAE-Decoder Paradigm;Yuzhong Hong 等;Proceedings of the 5th Workshop on Noisy User-generated Text;全文 *
Research on Chinese Text Error Correction Based on Sequence Model;Duan J 等;2019 International Conference on Asian Language Processing;全文 *
中文语法自动纠错系统的研究与实现;王浩畅;周锦程;;企业科技与发展(02);全文 *

Also Published As

Publication number Publication date
CN111950292A (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN111950292B (zh) 文本纠错模型的训练方法、文本纠错处理方法和装置
CN111967268B (zh) 文本中的事件抽取方法、装置、电子设备和存储介质
US11663404B2 (en) Text recognition method, electronic device, and storage medium
US11854246B2 (en) Method, apparatus, device and storage medium for recognizing bill image
CN111859951B (zh) 语言模型的训练方法、装置、电子设备及可读存储介质
CN111241832B (zh) 核心实体标注方法、装置及电子设备
CN111241819B (zh) 词向量生成方法、装置及电子设备
CN112001180A (zh) 多模态预训练模型获取方法、装置、电子设备及存储介质
CN111144108B (zh) 情感倾向性分析模型的建模方法、装置和电子设备
CN110797005B (zh) 韵律预测方法、装置、设备和介质
CN111061868A (zh) 读法预测模型获取及读法预测方法、装置及存储介质
CN111078878B (zh) 文本处理方法、装置、设备及计算机可读存储介质
CN112001169B (zh) 文本纠错的方法、装置、电子设备和可读存储介质
KR20210157342A (ko) 언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체
CN112507735A (zh) 机器翻译模型的训练方法、装置和电子设备
JP2021108098A (ja) レビュー情報の処理方法、装置、コンピュータ機器及び媒体
CN111339759A (zh) 领域要素识别模型训练方法、装置及电子设备
CN111241810B (zh) 标点预测方法及装置
US20210334659A1 (en) Method and apparatus for adversarial training of machine learning model, and medium
CN112507101A (zh) 一种建立预训练语言模型的方法和装置
JP7198800B2 (ja) 意図認識最適化処理方法、装置、機器および記憶媒体
CN111753532B (zh) 西文文本的纠错方法和装置、电子设备及存储介质
CN111738015B (zh) 文章情感极性分析方法、装置、电子设备及存储介质
CN111611808A (zh) 用于生成自然语言模型的方法和装置
CN112148856B (zh) 建立标点预测模型的方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant