CN115796156A - 文本纠错方法、装置、设备及介质 - Google Patents

文本纠错方法、装置、设备及介质 Download PDF

Info

Publication number
CN115796156A
CN115796156A CN202211645362.7A CN202211645362A CN115796156A CN 115796156 A CN115796156 A CN 115796156A CN 202211645362 A CN202211645362 A CN 202211645362A CN 115796156 A CN115796156 A CN 115796156A
Authority
CN
China
Prior art keywords
text
error correction
word
vector
correction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211645362.7A
Other languages
English (en)
Inventor
宋彦
王伟
田元贺
郑毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Resources Digital Technology Co Ltd
Original Assignee
China Resources Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Resources Digital Technology Co Ltd filed Critical China Resources Digital Technology Co Ltd
Priority to CN202211645362.7A priority Critical patent/CN115796156A/zh
Publication of CN115796156A publication Critical patent/CN115796156A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

本申请实施例提供了文本纠错方法、装置、设备及介质,通过将训练文本和由第一文本纠错模型的第一纠错结果输入至待训练的第二文本纠错模型进行训练,得到已训练的第二文本纠错模型;将待纠错文本输入至已训练的第二文本纠错模型得到已纠错文本;有效利用文本纠错模型来提升模型在文本纠错任务上的性能;第二文本纠错模型通过共享编码器学习第一文本纠错模型对错字的识别能力和修改能力,有效利用文本纠错模型来提升模型在文本纠错任务上的性能,通过学习程度调节组件调节共享编码器对第一文本纠错模型的学习程度,避免了共享编码器对文本纠错模型的输出结果过拟合,保证了对当前训练文本的特点的学习。

Description

文本纠错方法、装置、设备及介质
技术领域
本申请实施例涉及但不限于文本处理领域,尤其涉及文本纠错方法、装置、设备及介质。
背景技术
文本纠错模型是发现文本中书写错误的文字,并将书写错误的文字修改为正确形式的算法模型。一般地,错字往往是正确形式的文字的近音字或形近字。文本纠错模型主要由识别模块和修改模块组成。识别模块旨在识别文本中错误的字的位置;修改模块旨在利用语言模型以及近音字和形近字词表预测正确的字。
现有的文本纠错方法往往忽略对其他已有的文本纠错模型输出结果的利用,或者只是简单地利用其他已有的文本纠错模型输出结果作为额外的输入特征,并不能充分学习已有的文本纠错模型,增加了模型训练时间,降低了模型的文本纠错效率。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本申请的目的在于至少一定程度上解决相关技术中存在的技术问题之一,本申请实施例提供了文本纠错方法、装置、设备及介质,能够有效利用已有的文本纠错模型来提升模型在文本纠错任务上的性能。
本申请的第一方面的实施例,一种文本纠错方法,包括:
获取训练文本;
将所述训练文本输入至第一文本纠错模型,得到第一纠错结果;
将所述训练文本和所述第一纠错结果输入至待训练的第二文本纠错模型进行训练,得到已训练的第二文本纠错模型,其中,所述第二文本纠错模型通过共享编码器学习所述第一文本纠错模型对错字的识别能力和修改能力,并通过学习程度调节组件调节所述共享编码器对所述第一文本纠错模型的学习程度;
获取待纠错文本,将所述待纠错文本输入至已训练的第二文本纠错模型,得到已纠错文本。
本申请的第一方面的某些实施例,所述第二文本纠错模型包括识别模块和修改模块,所述共享编码器包括所述识别模块的第一共享编码器和所述修改模块的第二共享编码器,所述学习程度调节组件包括所述识别模块的第一子学习程度调节组件和所述修改模块的第二子学习程度调节组件;
所述将所述训练文本和所述第一纠错结果输入至待训练的第二文本纠错模型进行训练,得到已训练的第二文本纠错模型,包括:
获取所述训练文本中的文字的第一字嵌入向量;
将所述第一字嵌入向量输入至所述识别模块,通过所述第一共享编码器对所述第一字嵌入向量进行编码得到文字的第一隐向量,根据所述第一隐向量和所述第一纠错结果进行错字识别预测,并通过所述第一学习程度调节组件调节所述一共享编码器对所述第一文本纠错模型的学习程度,得到与错字识别预测对应的第一损失值;
根据所述第一字嵌入向量得到第二字嵌入向量;
将所述第二字嵌入向量输入至所述修改模块,通过所述第二共享编码器对所述第二字嵌入向量进行编码得到文字的第二隐向量,根据所述第二隐向量和所述第一纠错结果进行错字修改预测,并通过所述第二学习程度调节组件调节所述二共享编码器对所述第一文本纠错模型的学习程度,得到与错字修改预测对应的第二损失值;
根据所述第一损失值和所述第二损失值得到第一总损失值,根据所述第一总损失值调节待训练的第二文本纠错模型的参数,得到第三文本纠错模型;
去除所述第三文本纠错模型的学习程度调节组件得到第四文本纠错模型,将所述训练文本输入至所述第四文本纠错模型进行训练,得到已训练的第二文本纠错模型。
本申请的第一方面的某些实施例,所述第一学习程度调节组件包括第一多任务学习组件和第一对抗学习判别器;
所述根据所述第一隐向量和所述第一纠错结果进行错字识别预测,并通过所述第一学习程度调节组件调节所述一共享编码器对所述第一文本纠错模型的学习程度,得到与错字识别预测对应的第一损失值,包括:
通过所述识别模块的第一主组件的第一主编码器对所述第一隐向量进行编码得到文字的第一关系抽取隐向量;
根据所述第一关系抽取隐向量得到对应文字是错字的第一概率值,根据所述第一概率值得到表示为错字的文字的第一错字识别预测结果,对比所述第一错字识别预测结果与所述训练文本的错字标注结果得到第一对比结果,根据所述第一对比结果由第一损失函数得到第一子损失值;
通过所述第一多任务学习组件的第一辅编码器对所述第一隐向量进行编码得到文字的第二关系抽取隐向量,所述第二关系抽取隐向量与所述第一关系抽取隐向量不同;
根据所述第二关系抽取隐向量得到对应文字是错字的第二概率值,根据所述第二概率值得到表示为错字的文字的第二错字识别预测结果,对比所述第二错字识别预测结果与所述第一纠错结果得到第二对比结果,根据所述第二对比结果由第一损失函数得到第二子损失值;
将所述第二对比结果和所述第一隐向量输入至所述第一对抗学习判别器,得到所述第二对比结果的第一二值化结果,以及对应所述第一二值化结果的取值的第三概率值,根据所述第三概率值由第二损失函数得到第三子损失值,所述第二损失函数与所述第一损失函数不同;
根据所述第一子损失值、所述第二子损失值和所述第三子损失值得到所述第一损失值。
本申请的第一方面的某些实施例,所述根据所述第一字嵌入向量得到第二字嵌入向量,包括:
将所述第一概率值和掩码字符的字嵌入向量相乘得到第一乘积值;
将预设常量与所述第一概率值之差和所述第一字嵌入向量相乘得到第二乘积值;
将所述第一乘积值和所述第二乘积值相加得到所述第二字嵌入向量。
本申请的第一方面的某些实施例,所述第二学习程度调节组件包括第二多任务学习组件和第二对抗学习判别器;
所述根据所述第二隐向量和所述第一纠错结果进行错字修改预测,并通过所述第二学习程度调节组件调节所述二共享编码器对所述第一文本纠错模型的学习程度,得到与错字修改预测对应的第二损失值,包括:
通过所述修改模块的第二主组件的第二主编码器对所述第二隐向量进行编码得到文字的第三关系抽取隐向量;
根据所述第三关系抽取隐向量得到对应文字的备选修改字的第四概率值,根据所述第四概率值从文字的备选修改字确定文字的第一错字修改预测结果,对比所述第一错字修改预测结果与所述训练文本的错字标注结果得到第三对比结果,根据所述第三对比结果由第一损失函数得到第四子损失值;
通过所述第二多任务学习组件的第二辅编码器对所述第二隐向量进行编码得到文字的第四关系抽取隐向量,所述第四关系抽取隐向量与所述第三关系抽取隐向量不同;
根据所述第四关系抽取隐向量得到对应文字的备选修改字的第五概率值,根据所述第五概率值从文字的备选修改字确定文字的第二错字修改预测结果,对比所述第二错字修改预测结果与所述第一纠错结果得到第四对比结果,根据所述第四对比结果由第一损失函数得到第五子损失值;
将所述第四对比结果和所述第一隐向量输入至所述第一对抗学习判别器,得到所述第四对比结果的第二二值化结果,以及对应所述第二二值化结果的取值的第六概率值,根据所述第六概率值由第二损失函数得到第六子损失值;
根据所述第四子损失值、所述第五子损失值和所述第六子损失值得到所述第二损失值。
本申请的第一方面的某些实施例,所述根据所述第一损失值和所述第二损失值得到第一总损失值,根据所述第一总损失值调节待训练的第二文本纠错模型的参数,得到第三文本纠错模型,包括:
将所述第一损失值和所述第二损失值相加得到所述第一总损失值;
根据所述第一总损失值通过反向传播算法调节待训练的第二文本纠错模型的参数,得到第三文本纠错模型。
本申请的第一方面的某些实施例,所述将所述训练文本输入至所述第四文本纠错模型进行训练,得到已训练的第二文本纠错模型,包括:
获取所述训练文本中的文字的第三字嵌入向量;
通过所述第一共享编码器对所述第三字嵌入向量进行编码得到文字的第三隐向量,根据所述第三隐向量进行错字识别预测,得到与错字识别预测对应的第三损失值;
根据所述第三字嵌入向量得到第四字嵌入向量;
通过所述第二共享编码器对所述第四字嵌入向量进行编码得到文字的第四隐向量,根据所述第四隐向量进行错字修改预测,得到与错字修改预测对应的第四损失值;
根据所述第三损失值和所述第四损失值得到第二总损失值,根据所述第二总损失值调节所述第四文本纠错模型的参数,得到已训练的第二文本纠错模型。
本申请的第二发明的实施例,一种文本纠错装置,包括:
第一文本获取单元,用于获取训练文本;
辅助模型单元,用于将所述训练文本输入至第一文本纠错模型,得到第一纠错结果;
模型训练单元,用于将所述训练文本和所述第一纠错结果输入至待训练的第二文本纠错模型进行训练,得到已训练的第二文本纠错模型,其中,所述第二文本纠错模型通过共享编码器学习所述第一文本纠错模型对错字的识别能力和修改能力,并通过学习程度调节组件调节所述共享编码器对所述第一文本纠错模型的学习程度;
第二文本获取单元,用于获取待纠错文本;
模型应用单元,用于将所述待纠错文本输入至已训练的第二文本纠错模型,得到已纠错文本。
本申请的第三发明的实施例,一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的文本纠错方法。
本申请的第四发明的实施例,一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如上所述的文本纠错方法。
上述方案至少具有以下的有益效果:通过共享编码器和共享编码器学习现有的文本纠错模型的能力,使得模型能有效学习现有的文本纠错模型的错字识别能力和错字修改能力,有效利用文本纠错模型来提升模型在文本纠错任务上的性能;通过学习程度调节组件调节所述共享编码器对现有的文本纠错模型的学习程度,避免了共享编码器对文本纠错模型的输出结果过拟合,保证了主组件对当前训练数据中的错字的特点的学习。另外,在应用最终模型进行错字识别的时候,仅仅需要输入待纠错文本,不再依赖额外的输入,与基线模型相比,强化了性能但并未造成额外的使用开销。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1是本申请实施例所提供的文本纠错方法的步骤图;
图2是步骤S300的子步骤图;
图3是待训练的第二文本纠错模型的结构图;
图4是已训练的第二文本纠错模型的结构图;
图5是本申请实施例所提供的文本纠错装置的结构图;
图6是本申请实施例所提供的电子设备的结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
下面结合附图,对本申请实施例作进一步阐述。
本申请的实施例,提供了一种文本纠错方法。
参照图1,文本纠错方法,包括但不限于以下步骤:
步骤S100,获取训练文本;
步骤S200,将训练文本输入至第一文本纠错模型,得到第一纠错结果;
步骤S300,将训练文本和第一纠错结果输入至待训练的第二文本纠错模型进行训练,得到已训练的第二文本纠错模型,其中,第二文本纠错模型通过共享编码器学习第一文本纠错模型对错字的识别能力和修改能力,并通过学习程度调节组件调节共享编码器对第一文本纠错模型的学习程度;
步骤S400,获取待纠错文本,将待纠错文本输入至已训练的第二文本纠错模型,得到已纠错文本。
对于步骤S100,通过语料库获取训练文本。训练文本是用于训练文本纠错模型的文本;训练文本包括标识有错别字的待纠错文本、无标识错别字的待纠错文本,还可以包括经修正错别字的已纠错文本。
特别地,训练文本是中文文本。
对于步骤S200,将训练文本输入至第一文本纠错模型,得到第一纠错结果
Figure BDA0004002692710000051
其中第一文本纠错模型为现有的训练完成的文本纠错模型。
具体地,将训练文本
Figure BDA0004002692710000052
输入至第一文本纠错模型进行文本纠错,第一文本纠错模型输出第一纠错结果,第一纠错结果包括错字的位置以及纠错的结果。其中,训练文本
Figure BDA0004002692710000053
表示训练文本有n个文字,xi表示训练文本中的第i个文字。
对于步骤S300,第二文本纠错模型包括字嵌入模块100、识别模块200、覆盖字嵌入模块300、修改模块400。
参照图3,共享编码器包括识别模块200的第一共享编码器211和修改模块400的第二共享编码器411,学习程度调节组件包括识别模块200的第一子学习程度调节组件和修改模块400的第二子学习程度调节组件。
识别模块200包括第一主组件210、第一多任务学习组件220和第一对抗学习判别器230,其中,第一主组件210设有第一共享编码器211,第一多任务学习组件220和第一对抗学习判别器230组成第一学习程度调节组件。
修改模块400包括第二主组件410、第二多任务学习组件420和第二对抗学习判别器430,其中,第二主组件410设有第二共享编码器411,第二多任务学习组件420和第二对抗学习判别器430组成第二学习程度调节组件。
参照图2,其中,将训练文本和第一纠错结果输入至待训练的第二文本纠错模型进行训练,得到已训练的第二文本纠错模型,包括但不限于以下步骤:
步骤S310,获取训练文本中的文字的第一字嵌入向量;
步骤S320,将第一字嵌入向量输入至识别模块200,通过第一共享编码器211对第一字嵌入向量进行编码得到文字的第一隐向量,根据第一隐向量和第一纠错结果进行错字识别预测,并通过第一学习程度调节组件调节一共享编码器对第一文本纠错模型的学习程度,得到与错字识别预测对应的第一损失值;
步骤S330,根据第一字嵌入向量得到第二字嵌入向量;
步骤S340,将第二字嵌入向量输入至修改模块400,通过第二共享编码器411对第二字嵌入向量进行编码得到文字的第二隐向量,根据第二隐向量和第一纠错结果进行错字修改预测,并通过第二学习程度调节组件调节二共享编码器对第一文本纠错模型的学习程度,得到与错字修改预测对应的第二损失值;步骤S350,根据第一损失值和第二损失值得到第一总损失值,根据第一总损失值调节待训练的第二文本纠错模型的参数,得到第三文本纠错模型;
步骤S360,去除第三文本纠错模型的学习程度调节组件得到第四文本纠错模型,将训练文本输入至第四文本纠错模型进行训练,得到已训练的第二文本纠错模型。
对于步骤S310,通过字嵌入模块100获取训练文本
Figure BDA00040026927100000624
中的每个文字的第一字嵌入向量,即向量表征。第i个文字xi的第一字嵌入向量表示为ei
对于步骤S320,将第一字嵌入向量输入至识别模块200,通过第一主组件210的第一共享编码器211对第一字嵌入向量进行编码得到文字的第一隐向量。第i个文字xi的第一隐向量表示为
Figure BDA0004002692710000061
然后将第一隐向量输入至第一主组件210的第一主编码器212、第一多任务学习组件220的第一辅编码器221和第一对抗学习判别器230中。
通过识别模块200的第一主组件210的第一主编码器212对第一隐向量进行二次编码得到文字的第一关系抽取隐向量。第i个文字xi的第一关系抽取隐向量表示为
Figure BDA0004002692710000062
将第一关系抽取隐向量
Figure BDA0004002692710000063
经过全连接层和sigmoid函数处理,得到对应文字xi是错字的第一概率值pi
当第一概率值pi大于预设阈值(例如0.5),则判定文字xi为错字,当第一概率值pi小于或等于预设阈值(例如0.5),则判定文字xi不是错字,进而得到第一错字识别预测结果。对比第一错字识别预测结果与训练文本的错字标注结果得到第一对比结果,根据第一对比结果由第一损失函数得到第一子损失值
Figure BDA0004002692710000064
具体地,第一损失函数可以是交叉熵损失函数。通过第一多任务学习组件220的第一辅编码器221对第一隐向量
Figure BDA0004002692710000065
进行二次编码得到文字的第二关系抽取隐向量
Figure BDA0004002692710000066
第一辅编码器221与第一主编码器212不同,第二关系抽取隐向量与第一关系抽取隐向量不同。
将第二关系抽取隐向量
Figure BDA0004002692710000067
经过全连接层和sigmoid函数处理,得到对应文字xi是错字的第二概率值。根据第二概率值得到表示为错字的文字的第二错字识别预测结果
Figure BDA0004002692710000068
对比第二错字识别预测结果
Figure BDA0004002692710000069
与第一纠错结果
Figure BDA00040026927100000610
得到第二对比结果,根据第二对比结果由第一损失函数得到第二子损失值
Figure BDA00040026927100000611
将第二对比结果和第一隐向量输入至第一识别模块200的第一对抗学习判别器230,得到第二对比结果的第一二值化结果,以及对应第一二值化结果的取值的第三概率值。具体地,在第一对抗学习判别器230中,根据第一多任务学习组件220输出的第二对比结果可以得到第一对抗学习判别器230的目标输出,即第二对比结果的第一二值化结果
Figure BDA00040026927100000612
第一二值化结果表示为:
Figure BDA00040026927100000613
即第二错字识别预测结果
Figure BDA00040026927100000614
与第一纠错结果
Figure BDA00040026927100000615
相等,则
Figure BDA00040026927100000616
取值为1;第二错字识别预测结果
Figure BDA00040026927100000617
与第一纠错结果
Figure BDA00040026927100000618
不相等,则
Figure BDA00040026927100000619
取值为0。
将共享编码器输出的第一隐向量
Figure BDA00040026927100000620
经过全连接层和softmax分类器,得到一个维度为2的向量,即第二对比结果的第一二值化结果。第二对比结果的第一二值化结果的每一个维度对应第一对抗学习判别器230预测的
Figure BDA00040026927100000621
取值为0或1的概率。例如,
Figure BDA00040026927100000622
取值为0的预测概率记为
Figure BDA00040026927100000625
根据第三概率值由第二损失函数得到第三子损失值;第三子损失值可以表示为
Figure BDA00040026927100000623
第二损失函数与第一损失函数不同;具体地,第二损失函数为负对数自然损失。
根据第一子损失值、第二子损失值和第三子损失值得到第一损失值;第一损失值可以表示为
Figure BDA0004002692710000071
式中,λdet为一个可以调节的超参数,控制第一识别模块200的第一多任务学习组件220和第一对抗学习判别器230对模型训练贡献的大小。
对于步骤S330,根据第一字嵌入向量得到第二字嵌入向量,包括但不限于以下步骤:
将第一概率值和掩码字符的字嵌入向量相乘得到第一乘积值;
将预设常量与第一概率值之差和第一字嵌入向量相乘得到第二乘积值;
将第一乘积值和第二乘积值相加得到第二字嵌入向量。
即第i个文字的第二字嵌入向量可以表示为:
Figure BDA0004002692710000072
其中,eM是掩码字符[MASK]的字嵌入向量。由于pi表示识别模块200判断的字xi为错字的概率,如果pi越高,
Figure BDA00040026927100000726
中保留的原始错字的字嵌入(即第一字嵌入向量ei)的信息就越少。
对于步骤S340,通过第二共享编码器411对第二字嵌入向量
Figure BDA0004002692710000073
进行编码得到文字的第二隐向量。第i个文字的第二隐向量表示为
Figure BDA0004002692710000074
通过修改模块400的第二主组件410的第二主编码器412对第二隐向量
Figure BDA0004002692710000075
进行编码得到文字的第三关系抽取隐向量,第i个文字的第三关系抽取隐向量表示为
Figure BDA0004002692710000076
将第三关系抽取隐向量
Figure BDA0004002692710000077
经过全连接层和softmax函数,得到第i个文字的备选修改字的第四概率值,即第i个文字的所有备选字的概率分布。
根据第四概率值从文字的备选修改字确定文字的第一错字修改预测结果;具体地,取第四概率值最大的备选修改字作为文字的第一错字修改预测结果。
对比第一错字修改预测结果与训练文本的错字标注结果得到第三对比结果,根据第三对比结果由第一损失函数得到第四子损失值
Figure BDA0004002692710000078
第一损失函数为交叉熵损失函数。
通过第二多任务学习组件420的第二辅编码器421对第二隐向量
Figure BDA0004002692710000079
进行编码得到文字的第四关系抽取隐向量
Figure BDA00040026927100000710
第二辅编码器421与第二主编码器412不同,第四关系抽取隐向量与第三关系抽取隐向量不同。
将第四关系抽取隐向量经过全连接层和softmax分类器,得到对应文字的备选修改字的第五概率值,根据第五概率值从文字的备选修改字确定文字的第二错字修改预测结果
Figure BDA00040026927100000711
对比第二错字修改预测结果
Figure BDA00040026927100000712
与第一纠错结果中的修改结果
Figure BDA00040026927100000713
得到第四对比结果,根据第四对比结果由第一损失函数得到第五子损失值
Figure BDA00040026927100000714
第一损失函数为交叉熵损失函数。
将第四对比结果和第一隐向量输入至第一对抗学习判别器230,得到第四对比结果的第二二值化结果,以及对应第二二值化结果的取值的第六概率值。
具体地,在第二对抗学习判别器430中,根据第二多任务学习组件420输出的第四对比结果可以得到第二对抗学习判别器430的目标输出,即第四对比结果的第二二值化结果
Figure BDA00040026927100000715
第二二值化结果表示为:
Figure BDA00040026927100000716
即第二错字识别预测结果
Figure BDA00040026927100000717
与第一纠错结果中的修改结果
Figure BDA00040026927100000718
相等,则
Figure BDA00040026927100000719
取值为1;第二错字识别预测结果
Figure BDA00040026927100000720
与第一纠错结果中的修改结果
Figure BDA00040026927100000721
不相等,则
Figure BDA00040026927100000722
取值为0。
将共享编码器输出的第二隐向量
Figure BDA00040026927100000723
经过全连接层和softmax分类器,得到一个维度为2的向量,即第四对比结果的第二二值化结果。第四对比结果的第二二值化结果的每一个维度对应第二对抗学习判别器430预测的
Figure BDA00040026927100000724
取值为0或1的概率。例如,
Figure BDA00040026927100000725
取值为0的预测概率记为
Figure BDA0004002692710000083
根据第六概率值由第二损失函数得到第六子损失值。具体地,第二损失函数为负对数自然损失函数。则第六子损失值可以表示为:
Figure BDA0004002692710000081
根据第四子损失值、第五子损失值和第六子损失值得到第二损失值。具体地,第二损失值表示为:
Figure BDA0004002692710000082
λcor为一个可以调节的超参数,控制修改模块400中的第二多任务学习组件420以及第二对抗学习判别器430对模型训练贡献的大小。
对于步骤S350,将第一损失值和第二损失值相加得到第一总损失值;具体地,第一总损失值表示为:L=Ldet+Lcor
根据第一总损失值通过反向传播算法调节待训练的第二文本纠错模型的参数,得到第三文本纠错模型。
对于步骤S360,去除第三文本纠错模型的学习程度调节组件得到第四文本纠错模型,即由第三文本纠错模型识别模块200去除第一多任务学习组件220、识别模块200的第一对抗学习判别器230、修改模块400的第二多任务学习组件420、修改模块400的第二对抗学习判别器430,得到第四文本纠错模型。
将训练文本输入至第四文本纠错模型进行训练,得到已训练的第二文本纠错模型,包括但不限于以下步骤:
获取训练文本中的文字的第三字嵌入向量;
通过第一共享编码器211对第三字嵌入向量进行编码得到文字的第三隐向量,根据第三隐向量进行错字识别预测,得到与错字识别预测对应的第三损失值;
根据第三字嵌入向量得到第四字嵌入向量;
通过第二共享编码器411对第四字嵌入向量进行编码得到文字的第四隐向量,根据第四隐向量进行错字修改预测,得到与错字修改预测对应的第四损失值;
根据第三损失值和第四损失值得到第二总损失值,根据第二总损失值调节第四文本纠错模型的参数,得到已训练的第二文本纠错模型。
参照图4,图4是已训练的第二文本纠错模型的结构图。
可以理解的是,对第四文本纠错模型进行训练得到已训练的第二文本纠错模型的步骤与步骤S310至步骤S350类似。
对于步骤S400,获取待纠错文本,将待纠错文本输入至已训练的第二文本纠错模型,第二文本纠错模型通过识别模块200识别待纠错文本的错字,并通过修改模块400对识别出的错字进行修改,输出已纠错文本。
在该实施例中,通过共享编码器和共享编码器学习现有的文本纠错模型的能力,使得模型能有效学习现有的文本纠错模型的错字识别能力和错字修改能力,有效利用文本纠错模型来提升模型在文本纠错任务上的性能;通过学习程度调节组件调节共享编码器对现有的文本纠错模型的学习程度,避免了共享编码器对文本纠错模型的输出结果过拟合,保证了主组件对当前训练数据中的错字的特点的学习。另外,在应用最终模型进行错字识别的时候,仅仅需要输入待纠错文本,不再依赖额外的输入,与基线模型相比,强化了性能但并未造成额外的使用开销。
本申请的实施例,提供了一种文本纠错装置。
参照图5,文本纠错装置包括第一文本获取单元510、辅助模型单元520、模型训练单元530、第二文本获取单元540和模型应用单元550。
其中,第一文本获取单元510,用于获取训练文本。
辅助模型单元520,用于将训练文本输入至第一文本纠错模型,得到第一纠错结果。
模型训练单元530,用于将训练文本和第一纠错结果输入至待训练的第二文本纠错模型进行训练,得到已训练的第二文本纠错模型,其中,第二文本纠错模型通过共享编码器学习第一文本纠错模型对错字的识别能力和修改能力,并通过学习程度调节组件调节共享编码器对第一文本纠错模型的学习程度。
第二文本获取单元540,用于获取待纠错文本。
模型应用单元550,用于将待纠错文本输入至已训练的第二文本纠错模型,得到已纠错文本。
可以理解的是,文本纠错方法实施例中的内容均适用于本断句装置实施例中,本文本纠错装置实施例所具体实现的功能与文本纠错方法实施例相同,并且达到的有益效果与文本纠错方法实施例所达到的有益效果也相同。
本申请的实施例,提供了一种电子设备。参照图6,电子设备包括:存储器620、处理器610及存储在存储器620上并可在处理器610上运行的计算机程序,所述处理器610执行所述计算机程序时实现如上所述的文本纠错方法。
该电子设备可以为包括平板电脑、车载电脑等任意智能终端。
总体而言,对于电子设备的硬件结构,处理器610可以采用通用的CPU(CentralProcessingUnit,中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案。
存储器620可以采用只读存储器(ReadOnlyMemory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory,RAM)等形式实现。存储器620可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器620中,并由处理器610来调用执行本申请实施例的方法。
输入/输出接口用于实现信息输入及输出。
通信接口用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线630在设备的各个组件(例如处理器610、存储器620、输入/输出接口和通信接口)之间传输信息。处理器610、存储器620、输入/输出接口和通信接口通过总线630实现彼此之间在设备内部的通信连接。
本申请的实施例,提供了一种计算机可读存储介质。计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行如上所述的文本纠错方法。
应当认识到,本发明实施例中的方法步骤可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、智能手机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。
计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
尽管已经示出和描述了本申请的实施方式,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。
以上是对本申请的较佳实施进行了具体说明,但本申请并不限于实施例,熟悉本领域的技术人员在不违背本申请精神的前提下可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种文本纠错方法,其特征在于,包括:
获取训练文本;
将所述训练文本输入至第一文本纠错模型,得到第一纠错结果;
将所述训练文本和所述第一纠错结果输入至待训练的第二文本纠错模型进行训练,得到已训练的第二文本纠错模型,其中,所述第二文本纠错模型通过共享编码器学习所述第一文本纠错模型对错字的识别能力和修改能力,并通过学习程度调节组件调节所述共享编码器对所述第一文本纠错模型的学习程度;
获取待纠错文本,将所述待纠错文本输入至已训练的第二文本纠错模型,得到已纠错文本。
2.根据权利要求1所述的一种文本纠错方法,其特征在于,所述第二文本纠错模型包括识别模块和修改模块,所述共享编码器包括所述识别模块的第一共享编码器和所述修改模块的第二共享编码器,所述学习程度调节组件包括所述识别模块的第一子学习程度调节组件和所述修改模块的第二子学习程度调节组件;
所述将所述训练文本和所述第一纠错结果输入至待训练的第二文本纠错模型进行训练,得到已训练的第二文本纠错模型,包括:
获取所述训练文本中的文字的第一字嵌入向量;
将所述第一字嵌入向量输入至所述识别模块,通过所述第一共享编码器对所述第一字嵌入向量进行编码得到文字的第一隐向量,根据所述第一隐向量和所述第一纠错结果进行错字识别预测,并通过所述第一学习程度调节组件调节所述一共享编码器对所述第一文本纠错模型的学习程度,得到与错字识别预测对应的第一损失值;
根据所述第一字嵌入向量得到第二字嵌入向量;
将所述第二字嵌入向量输入至所述修改模块,通过所述第二共享编码器对所述第二字嵌入向量进行编码得到文字的第二隐向量,根据所述第二隐向量和所述第一纠错结果进行错字修改预测,并通过所述第二学习程度调节组件调节所述二共享编码器对所述第一文本纠错模型的学习程度,得到与错字修改预测对应的第二损失值;
根据所述第一损失值和所述第二损失值得到第一总损失值,根据所述第一总损失值调节待训练的第二文本纠错模型的参数,得到第三文本纠错模型;
去除所述第三文本纠错模型的学习程度调节组件得到第四文本纠错模型,将所述训练文本输入至所述第四文本纠错模型进行训练,得到已训练的第二文本纠错模型。
3.根据权利要求2所述的一种文本纠错方法,其特征在于,所述第一学习程度调节组件包括第一多任务学习组件和第一对抗学习判别器;
所述根据所述第一隐向量和所述第一纠错结果进行错字识别预测,并通过所述第一学习程度调节组件调节所述一共享编码器对所述第一文本纠错模型的学习程度,得到与错字识别预测对应的第一损失值,包括:
通过所述识别模块的第一主组件的第一主编码器对所述第一隐向量进行编码得到文字的第一关系抽取隐向量;
根据所述第一关系抽取隐向量得到对应文字是错字的第一概率值,根据所述第一概率值得到表示为错字的文字的第一错字识别预测结果,对比所述第一错字识别预测结果与所述训练文本的错字标注结果得到第一对比结果,根据所述第一对比结果由第一损失函数得到第一子损失值;
通过所述第一多任务学习组件的第一辅编码器对所述第一隐向量进行编码得到文字的第二关系抽取隐向量,所述第二关系抽取隐向量与所述第一关系抽取隐向量不同;
根据所述第二关系抽取隐向量得到对应文字是错字的第二概率值,根据所述第二概率值得到表示为错字的文字的第二错字识别预测结果,对比所述第二错字识别预测结果与所述第一纠错结果得到第二对比结果,根据所述第二对比结果由第一损失函数得到第二子损失值;
将所述第二对比结果和所述第一隐向量输入至所述第一对抗学习判别器,得到所述第二对比结果的第一二值化结果,以及对应所述第一二值化结果的取值的第三概率值,根据所述第三概率值由第二损失函数得到第三子损失值,所述第二损失函数与所述第一损失函数不同;
根据所述第一子损失值、所述第二子损失值和所述第三子损失值得到所述第一损失值。
4.根据权利要求3所述的一种文本纠错方法,其特征在于,所述根据所述第一字嵌入向量得到第二字嵌入向量,包括:
将所述第一概率值和掩码字符的字嵌入向量相乘得到第一乘积值;
将预设常量与所述第一概率值之差和所述第一字嵌入向量相乘得到第二乘积值;
将所述第一乘积值和所述第二乘积值相加得到所述第二字嵌入向量。
5.根据权利要求2所述的一种文本纠错方法,其特征在于,所述第二学习程度调节组件包括第二多任务学习组件和第二对抗学习判别器;
所述根据所述第二隐向量和所述第一纠错结果进行错字修改预测,并通过所述第二学习程度调节组件调节所述二共享编码器对所述第一文本纠错模型的学习程度,得到与错字修改预测对应的第二损失值,包括:
通过所述修改模块的第二主组件的第二主编码器对所述第二隐向量进行编码得到文字的第三关系抽取隐向量;
根据所述第三关系抽取隐向量得到对应文字的备选修改字的第四概率值,根据所述第四概率值从文字的备选修改字确定文字的第一错字修改预测结果,对比所述第一错字修改预测结果与所述训练文本的错字标注结果得到第三对比结果,根据所述第三对比结果由第一损失函数得到第四子损失值;
通过所述第二多任务学习组件的第二辅编码器对所述第二隐向量进行编码得到文字的第四关系抽取隐向量,所述第四关系抽取隐向量与所述第三关系抽取隐向量不同;
根据所述第四关系抽取隐向量得到对应文字的备选修改字的第五概率值,根据所述第五概率值从文字的备选修改字确定文字的第二错字修改预测结果,对比所述第二错字修改预测结果与所述第一纠错结果得到第四对比结果,根据所述第四对比结果由第一损失函数得到第五子损失值;
将所述第四对比结果和所述第一隐向量输入至所述第一对抗学习判别器,得到所述第四对比结果的第二二值化结果,以及对应所述第二二值化结果的取值的第六概率值,根据所述第六概率值由第二损失函数得到第六子损失值;
根据所述第四子损失值、所述第五子损失值和所述第六子损失值得到所述第二损失值。
6.根据权利要求2所述的一种文本纠错方法,其特征在于,所述根据所述第一损失值和所述第二损失值得到第一总损失值,根据所述第一总损失值调节待训练的第二文本纠错模型的参数,得到第三文本纠错模型,包括:
将所述第一损失值和所述第二损失值相加得到所述第一总损失值;
根据所述第一总损失值通过反向传播算法调节待训练的第二文本纠错模型的参数,得到第三文本纠错模型。
7.根据权利要求2所述的一种文本纠错方法,其特征在于,所述将所述训练文本输入至所述第四文本纠错模型进行训练,得到已训练的第二文本纠错模型,包括:
获取所述训练文本中的文字的第三字嵌入向量;
通过所述第一共享编码器对所述第三字嵌入向量进行编码得到文字的第三隐向量,根据所述第三隐向量进行错字识别预测,得到与错字识别预测对应的第三损失值;
根据所述第三字嵌入向量得到第四字嵌入向量;
通过所述第二共享编码器对所述第四字嵌入向量进行编码得到文字的第四隐向量,根据所述第四隐向量进行错字修改预测,得到与错字修改预测对应的第四损失值;
根据所述第三损失值和所述第四损失值得到第二总损失值,根据所述第二总损失值调节所述第四文本纠错模型的参数,得到已训练的第二文本纠错模型。
8.一种文本纠错装置,其特征在于,包括:
第一文本获取单元,用于获取训练文本;
辅助模型单元,用于将所述训练文本输入至第一文本纠错模型,得到第一纠错结果;
模型训练单元,用于将所述训练文本和所述第一纠错结果输入至待训练的第二文本纠错模型进行训练,得到已训练的第二文本纠错模型,其中,所述第二文本纠错模型通过共享编码器学习所述第一文本纠错模型对错字的识别能力和修改能力,并通过学习程度调节组件调节所述共享编码器对所述第一文本纠错模型的学习程度;
第二文本获取单元,用于获取待纠错文本;
模型应用单元,用于将所述待纠错文本输入至已训练的第二文本纠错模型,得到已纠错文本。
9.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的文本纠错方法。
10.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于执行如权利要求1至7中任一项所述的文本纠错方法。
CN202211645362.7A 2022-12-16 2022-12-16 文本纠错方法、装置、设备及介质 Pending CN115796156A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211645362.7A CN115796156A (zh) 2022-12-16 2022-12-16 文本纠错方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211645362.7A CN115796156A (zh) 2022-12-16 2022-12-16 文本纠错方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN115796156A true CN115796156A (zh) 2023-03-14

Family

ID=85427517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211645362.7A Pending CN115796156A (zh) 2022-12-16 2022-12-16 文本纠错方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115796156A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116822498A (zh) * 2023-08-30 2023-09-29 深圳前海环融联易信息科技服务有限公司 文本纠错处理方法、模型处理方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116822498A (zh) * 2023-08-30 2023-09-29 深圳前海环融联易信息科技服务有限公司 文本纠错处理方法、模型处理方法、装置、设备及介质
CN116822498B (zh) * 2023-08-30 2023-12-01 深圳前海环融联易信息科技服务有限公司 文本纠错处理方法、模型处理方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
WO2020253466A1 (zh) 一种用户界面的测试用例生成方法及装置
CN107111782B (zh) 神经网络结构及其方法
GB2595609A (en) Method for few-shot unsupervised image-to-image translation
CN113327279B (zh) 一种点云数据处理方法、装置、计算机设备及存储介质
CN111160523B (zh) 基于特征值区域的动态量化方法、系统及介质
CN110414502B (zh) 图像处理方法及装置、电子设备和计算机可读介质
JP7384943B2 (ja) 文字生成モデルのトレーニング方法、文字生成方法、装置、機器及び媒体
CN111382572A (zh) 一种命名实体识别方法、装置、设备以及介质
CN111680480A (zh) 基于模板的作业批改方法、装置、计算机设备及存储介质
CN112016697A (zh) 一种联邦学习方法、装置、设备及存储介质
CN115796156A (zh) 文本纠错方法、装置、设备及介质
CN104090865B (zh) 文本相似度计算方法及装置
CN110867243B (zh) 一种图像标注方法、装置、计算机系统及可读存储介质
CN116109534A (zh) 对抗补丁生成方法、电子设备及计算机可读存储介质
CN110705622A (zh) 一种决策方法、系统以及电子设备
CN113435531B (zh) 零样本图像分类方法、系统、电子设备及存储介质
CN113326356B (zh) 针对文本分类器的自然对抗样本生成方法及相关装置
US20230153085A1 (en) Systems and methods for source code understanding using spatial representations
CN111898544A (zh) 文字图像匹配方法、装置和设备及计算机存储介质
KR102393759B1 (ko) 단말에서 동작하는 이미지 프로세싱 인공 신경망 모델 생성 방법 및 시스템
CN112348855B (zh) 视觉里程计特征点提取方法、系统、电子设备和存储介质
CN110889316A (zh) 一种目标对象识别方法、装置及存储介质
CN110222693B (zh) 构建字符识别模型与识别字符的方法和装置
CN113055546A (zh) 处理图像的系统和方法
KR20220009662A (ko) 신경망 모델 학습 방법 및 이를 제공하는 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination