CN112632912A - 文本纠错方法、装置、设备及可读存储介质 - Google Patents

文本纠错方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN112632912A
CN112632912A CN202011515647.XA CN202011515647A CN112632912A CN 112632912 A CN112632912 A CN 112632912A CN 202011515647 A CN202011515647 A CN 202011515647A CN 112632912 A CN112632912 A CN 112632912A
Authority
CN
China
Prior art keywords
text
error correction
preset
error
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011515647.XA
Other languages
English (en)
Inventor
邓悦
郑立颖
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011515647.XA priority Critical patent/CN112632912A/zh
Priority to PCT/CN2021/082587 priority patent/WO2022126897A1/zh
Publication of CN112632912A publication Critical patent/CN112632912A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及人工智能技术领域,本发明公开了一种文本纠错方法、装置、设备及可读存储介质,该方法包括步骤:获取待纠错文本;将所述待纠错文本输入预设文本纠错模型,生成纠错编辑操作序列;所述预设文本纠错模型由预设标注编辑操作序列训练得到;所述预设标注编辑操作序列用于将预设错误文本转化为与所述预设错误文本对应的正确文本;基于所述纠错编辑操作序列对所述待纠错文本进行纠错,得到纠错后文本。本发明避免了由于编码器编码和解码器解码的交叉进行而产生的时间序列依赖的问题,即将文本纠错的问题转换为序列生成问题,使得生成纠错编辑操作序列和将错误文本转换为正确文本的过程可以并行,进而提高了文本纠错过程的纠错速度。

Description

文本纠错方法、装置、设备及可读存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文本纠错方法、装置、设备及可读存储介质。
背景技术
在公文撰写或文章编辑的过程中,多字、错字和漏字情况时常发生,提交一份没有错别字的公文往往需要人工耗时校对,从而在一定程度上降低了办公效率,为了解决这个问题,文本纠错的自动化与智能化是十分必要的。
目前,文本纠错的建模方法主要依靠的是基于注意力机制的序列到序列的编码器-解码器框架,该框架在文本纠错的过程中将原本有错误的句子作为输入,通过编码器进行编码之后,使用解码器逐个解码出纠错后的正确句子。然而,序列到序列的模型每一步的解码都依赖于其上一步解码器的输出,该解码过程为逐个解码的过程,会产生时间序列依赖的问题,造成运行速度上的损失,并且上述编码器编码和解码器解码的过程难以并行,导致线上的运行速度缓慢。
由此可知,目前在进行文本纠错任务时,存在文本纠错过程纠错速度慢的问题。
发明内容
本发明的主要目的在于提供一种文本纠错方法、装置、设备及可读存储介质,旨在解决现有的在进行文本纠错任务时,存在的文本纠错过程纠错速度慢的技术问题。
为实现上述目的,本发明提供一种文本纠错方法,所述文本纠错方法包括步骤:
获取待纠错文本;
将所述待纠错文本输入预设文本纠错模型,生成纠错编辑操作序列;所述预设文本纠错模型由预设标注编辑操作序列训练得到;所述预设标注编辑操作序列用于将预设错误文本转化为与所述预设错误文本对应的正确文本;
基于所述纠错编辑操作序列对所述待纠错文本进行纠错,得到目标纠错后文本。
可选地,获取所述预设文本纠错模型,包括:
获取训练数据集和待训练模型;
基于所述训练数据集对所述待训练模型进行迭代训练,得到更新后的待训练模型,并确定所述更新后的待训练模型是否满足预设迭代结束条件;
若所述更新后的待训练模型满足所述预设迭代结束条件,则将所述更新后的待训练模型作为所述预设文本纠错模型;
若所述更新后的待训练模型未满足所述迭代结束条件,则继续对所述更新后的待训练模型进行迭代训练更新,直至所述更新后的待训练模型满足所述迭代结束条件。
可选地,所述获取待训练模型,包括:
获取双向预训练语言模型;
对所述双向预训练语言模型进行适应性调整,得到待训练模型。
可选地,所述获取双向预训练语言模型之后,包括:
为所述双向预训练语言模型添加自注意力机制。
可选地,所述为所述双向预训练语言模型添加自注意力机制,包括:
为所述双向预训练语言模型添加多头自注意力机制。
可选地,所述训练数据集包括一个或多个训练样本和各所述训练样本对应的标准检测结果,所述获取训练数据集,包括:
获取训练样本;
对所述训练样本进行标注,获得标准检测结果。
可选地,所述基于所述纠错编辑操作序列对所述待纠错文本进行纠错,得到目标纠错后文本,包括:
基于所述纠错编辑操作序列对所述待纠错文本进行纠错,得到初始纠错后文本;
将所述初始纠错后文本输入所述预设文本纠错模型进行迭代纠错,得到更新后的纠错后文本,并确定所述更新后的纠错后文本是否满足预设迭代结束要求;
若所述更新后的纠错后文本满足所述预设迭代结束要求,则将所述更新后的纠错后文本作为目标纠错后文本;
若所述更新后的纠错后文本未满足所述预设迭代结束要求,则继续对所述更新后的纠错后文本进行迭代纠错更新,直至所述更新后的纠错后文本满足所述预设迭代结束要求。
此外,为实现上述目的,本发明还提供一种文本纠错装置,所述文本纠错装置包括:
获取模块,用于获取待纠错文本;
生成模块,用于将所述待纠错文本输入预设文本纠错模型,生成纠错编辑操作序列;所述预设文本纠错模型由预设标注编辑操作序列训练得到;所述预设标注编辑操作序列用于将预设错误文本转化为与所述预设错误文本对应的正确文本;
纠错模块,用于基于所述纠错编辑操作序列对所述待纠错文本进行纠错,得到目标纠错后文本。
此外,为实现上述目的,本发明还提供一种文本纠错设备,所述文本纠错设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的文本纠错程序,所述文本纠错程序被所述处理器执行时实现如上所述的文本纠错方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文本纠错程序,所述文本纠错程序被处理器执行时实现如上所述的文本纠错方法的步骤。
本发明通过获取待纠错文本;将所述待纠错文本输入预设文本纠错模型,生成纠错编辑操作序列;所述预设文本纠错模型由预设标注编辑操作序列训练得到;所述预设标注编辑操作序列用于将预设错误文本转化为与所述预设错误文本对应的正确文本;基于所述纠错编辑操作序列对所述待纠错文本进行纠错,得到纠错后文本。实现了对文本纠错过程的改进,使得文本转换过程为先生成纠错编辑操作序列,后根据纠错编辑操作序列将错误文本直接转换成正确文本,而非一边生成部分纠错编辑操作序列一边根据该部分纠错编辑操作序列将部分错误文本转换为部分正确文本,避免了由于编码器编码和解码器解码的交叉进行而产生的时间序列依赖的问题,即将文本纠错的问题转换为序列生成问题,并最终通过生成的序列对待纠错文本进行纠错,从而使得生成纠错编辑操作序列和将错误文本转换为正确文本的过程可以并行,进而提高了文本纠错过程的纠错速度。
附图说明
图1是本发明文本纠错方法第一实施例的流程示意图;
图2是本发明实施例中多头注意力机制在双向预训练语言模型中的实现过程示意图;
图3是本发明文本纠错方法第二实施例的流程示意图;
图4是本发明文本纠错装置较佳实施例的功能模块示意图;
图5是本发明实施例方案涉及的硬件运行环境的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种文本纠错方法,参照图1,图1为本发明文本纠错方法第一实施例的流程示意图。
本发明实施例提供了文本纠错方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。文本纠错方法可应用于移动终端中,该移动终端包括但不限于手机、个人计算机等,为了便于描述,以下省略执行主体描述文本纠错方法的各个步骤。文本纠错方法包括:
步骤S110,获取待纠错文本。
具体地,获取需要纠错的待纠错文本。
需要说明的是,对待纠错文本进行纠错的任务为文本纠错任务,对于文本纠错任务,其需要对待纠错文本中的部分文字(即绝大多数情况下,错误句子与正确句子只在特定位置存在差异)进行纠错,例如,新闻从业者在编辑新闻稿时,出于时效方面考虑,其编辑速度一般较快,因此而导致的编辑错误包括错别字、多字、漏字较为常见。因此,文本纠错任务只需要对文本的特定位置进行修改,而非重新生成文本。可以理解,文本纠错任务即为文本转换任务。
针对上述文本纠错任务,本实施例采用编辑距离(编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测,量测方式为确定至少需要进行多少次的处理才能将一个字符串变成另一个字符串)的思想来处理,即,对于文本E转换为文本F(文本E与文本F不相同)的过程,需要通过一系列的处理(至少包括在文本E的任意一个位置添加一个字符、删去一个字符、替换一个字符中的至少一种)。例如,文本E为“今天太阳非常大”,文本F 为“今天太非常大”,为将文本E转换为文本F,需要在文本E中的“太”字后面添加一个字符“阳”。
步骤S120,将所述待纠错文本输入预设文本纠错模型,生成纠错编辑操作序列;所述预设文本纠错模型由预设标注编辑操作序列训练得到;所述预设标注编辑操作序列用于将预设错误文本转化为与所述预设错误文本对应的正确文本。
具体地,将上述待纠错文本输入预设文本纠错模型,生成纠错编辑操作序列;该预设文本纠错模型由预设标注编辑操作序列训练得到;该预设标注编辑操作序列用于将预设错误文本转化为与预设错误文本对应的正确文本。需要说明的是,该预设标注编辑操作序列可由人工对预设错误文本进行标注得到,即人工对预设错误文本进行纠错,并将该纠错过程对应的编辑操作整理为预设标注编辑操作序列。
需要说明的是,该纠错编辑操作序列包括至少一个编辑操作,该编辑操作包括以下至少一种:保留当前字符(C)、删除当前字符(D)、在当前字符后面插入字符或字符串(A(w)),其中,“w”为字符或字符串。例如,文本X为“今太阳的真的非常大”,文本Y为“今天太阳真的非常大”,将文本 X转换为文本Y的过程可为:保留字符“今”、在字符“今”后面插入字符“天”、保留字符“太”、保留字符“阳”、删除字符“的”、保留字符“真”、保留字符“的”、保留字符““非”、保留字符“常”、保留字符“大”。
需要说明的是,由上述待纠错文本得到纠错编辑操作序列需要通过预设序列到编辑操作的算法实现,该预设序列到编辑操作的算法可为seq2edit算法,其具体地实现过程为:
通过一系列的编辑操作(例如C、A)可以将错误文本转化为正确文本,从而通过各编辑操作生成编辑操作序列,例如,错误文本为“我来字上海”,正确文本为“我来自上海”,只需要将“字”删除后修改为“自”,因此,生成的编辑操作序列为“CCDACC”,本实施例对该编辑操作序列进行了优化,提出了一个新的编辑操作将当前字符替换成字符或字符串(R(w)),可以理解,“替换”的编辑操作可替代“删除”和“插入”的编辑操作的组合,即经过优化后的编辑操作序列为“CCRCC”,可以理解,优化后的编辑操作序列得到了简化,从而提高了预设文本纠错模型在生成编辑操作序列时的效率。
进一步地,上述获取所述预设文本纠错模型,包括:
步骤a,获取训练数据集和待训练模型。
具体地,获取训练数据集和待训练模型,以通过该训练数据集对该待训练模型进行训练。
上述训练数据集包括一个或多个训练样本和各所述训练样本对应的标准检测结果,上述获取训练数据集,包括:
步骤a11,获取训练样本;
步骤a12,对所述训练样本进行标注,获得标准检测结果。
具体地,训练数据集包括一个或多个训练样本和各所述训练样本对应的标准检测结果。具体地,获取训练样本,之后,对训练样本进行标注,从而获得标准检测结果。
具体地,训练样本为错误文本,该标注过程为确定错误文本转换为正确文本需要进行的编辑操作并确定该编辑操作对应的编辑操作序列,该编辑操作序列即为标准检测结果。
上述获取待训练模型,包括:
步骤a21,获取双向预训练语言模型。
具体地,获取双向预训练语言模型。需要说明的是,对于双向预训练语言模型,错误文本在输入双向预训练语言模型前,需要将错误文本的文字序列转换为初始字向量,例如错误文本X=(x1,x2,...,xn),其对应的初始字向量 D=[d1,d2,...,dn]。此外,为编码错误文本中的各字符在错误文本中的位置信息,需要通过位置向量P=[p1,p2,…,pn]来表示各字符在错误文本中的绝对位置,其中,n为预设词库(至少包含所有错误文本中的字符)所包含的字符的数量,需要说明的是,位置向量P可用于表示错误文本中任一字符的位置。例如错误文本为“我来字上海”,其中,字符“我”在错误文本中的位置为1,字符“我”在预设词库中的位置为32,则在位置向量P中,字符“我”为P32=1。最后,将初始字向量D=[d1,d2,...,dn]与位置向量P=[p1,p2,…,pn]相加后,可得到目标字向量H=[h1,h2,…,hn]。例如D为[2,3,4,5,6],P为[0,1,0,3,2,0,4,5],则 H为[(0,0),(2,1),(0,0),(4,3),(3,2),(0,0),(5,4),(6,5)]。其中,对于双向,相对于仅根据上文信息来纠错的预训练语言模型,该双向预训练语言模型在纠错时使用错误文本中某字符的上下文信息,提高了双向预训练语言模型的输出的准确性。
步骤a22,对所述双向预训练语言模型进行适应性调整,得到待训练模型。
具体地,待训练模型通过对双向预训练语言模型进行预设调整后得到,该预设调整为适应使用需求的调整,即对双向预训练语言模型进行适应性调整,包括调整模型的输入、调整损失函数等。
上述获取双向预训练语言模型之后,包括:
步骤a23,为所述双向预训练语言模型添加自注意力机制。
具体地,为上述双向预训练语言模型添加自注意力机制。需要说明的是,为了提高双向预训练语言模型的输出的准确性,在双向预训练语音模型中,使用自注意力机制对上述目标字向量H=[h1,h2,…,hn]进行进一步编码。具体地,通过自注意力机制输出上述错误文本的每个字符相对于其他字符的权重。
其中,编码过程所使用的公式为:
Figure RE-GDA0002944181790000071
其中,Q,K,V均指目标字向量H=[h1,h2,…,hn];Dk指目标字向量的向量维度。
上述为所述双向预训练语言模型添加自注意力机制,包括:
步骤a24,为所述双向预训练语言模型添加多头自注意力机制。
具体地,为上述双向预训练语言模型添加多头自注意力机制。需要说明的是,为了能够提取到错误文本中的多重语义,以通过多重语义使得双向预训练语言模型的输出更加准确,该自注意力机制为多头注意力机制,其公式为:
Figure RE-GDA0002944181790000081
其中,Q,K,V均指目标字向量H=[h1,h2,…,hn];Wi q、Wi k和Wi v为双向预训练语言模型训练过程中需要更新的参数。
之后对多头自注意力机制输出结果headi的每个头(例如head1、head2) 进行拼接,得到错误文本的文本特征表示,拼接过程对应的公式为:
MultiHead=concat(head1,head2,…,heado);
在得到上述拼接结果后,对该拼接结果进行全连接处理,以实现对多头注意力机制输出结果进行混合,之后得到双向预训练语言模型输出结果。
该多头注意力机制在双向预训练语言模型中的具体实现过程可参照图2,“圆圈”中的元素代表双向预训练语言模型中的后一层网络中的节点,“方块”中的元素代表双向预训练语言模型中的前一层网络中的节点,其中的箭头则代表上述多头注意力机制的注意力信息,例如在计算元素
Figure RE-GDA0002944181790000082
的注意力得分时,需要通过箭头指向它的前一层网络中的节点
Figure RE-GDA0002944181790000083
计算。
步骤b,基于所述训练数据集对所述待训练模型进行迭代训练,得到更新后的待训练模型,并确定所述更新后的待训练模型是否满足预设迭代结束条件。
具体地,基于上述训练数据集对待训练模型进行迭代训练,得到更新后的待训练模型,并确定更新后的待训练模型是否满足预设迭代结束条件。需要说明的是,该预设迭代结束条件可为损失函数收敛。
具体地,在训练待训练模型时,将序列R=(r1,r2,...,rn)和序列 A=(a1,a2,...,an)与错误文本X=(x1,x2,...,xn)进行拼接,得到目标输入序列 Input=(r1,r2,...,rn,x1,x2,...,xn,a1,a2,...,an)。其中,序列R为将当前字符替换成字符或字符串的操作序列,序列A为在当前字符后面插入字符或字符串的操作序列,ri=[M,pi],ai=[M,(pi+pi+1)/2],其中,M为掩码字符[MASK]对应的错误文本X的字向量,可以理解,序列R和序列A与位置向量 P有关而与字向量D或目标字向量H无关。
需要说明的是,该目标输入序列Input强调的是位置信息,可以理解,该目标输入序列Input中已包含错误文本X的内容,为避免错误文本X的内容的重复出现,序列R和序列A与错误文本X中各字符在错误文本X中的绝对位置有关而与错误文本X的内容无关。
由此得到的目标输出序列为(w11,w12,…,w1n,e1,e2,…,en,w21,w22,…w2n),其中,(w11,w12,…,w1n)为需要被替换的字符,(w21,w22,…,w2n)为需要被插入的字符。
由此可得出错误文本X中各字符对应的编辑操作ei的概率可由下式计算得出:
P(ei|Input)=softmax(logit(ei|Input));
其中
Figure RE-GDA0002944181790000091
由此计算对应的交叉熵损失函数:
L(e,x)=-∑i log(P(ei|x));
之后通过最小化上述交叉熵损失函数来更新待训练模型的相关参数,以得到上述预设文本纠错模型。
步骤c,若所述更新后的待训练模型满足所述预设迭代结束条件,则将所述更新后的待训练模型作为所述预设文本纠错模型;
步骤d,若所述更新后的待训练模型未满足所述迭代结束条件,则继续对所述更新后的待训练模型进行迭代训练更新,直至所述更新后的待训练模型满足所述迭代结束条件。
具体地,若更新后的待训练模型满足预设迭代结束条件,即模型训练完成,则将更新后的待训练模型作为预设文本纠错模型;若更新后的待训练模型未满足迭代结束条件,即模型还未完成训练,则继续对更新后的待训练模型进行迭代训练更新,直至更新后的待训练模型满足所述迭代结束条件。
本实施例通过获取待纠错文本;将所述待纠错文本输入预设文本纠错模型,生成纠错编辑操作序列;所述预设文本纠错模型由预设标注编辑操作序列训练得到;所述预设标注编辑操作序列用于将预设错误文本转化为与所述预设错误文本对应的正确文本;基于所述纠错编辑操作序列对所述待纠错文本进行纠错,得到纠错后文本。实现了对文本纠错过程的改进,使得文本转换过程为先生成纠错编辑操作序列,后根据纠错编辑操作序列将错误文本直接转换成正确文本,而非一边生成部分纠错编辑操作序列一边根据该部分纠错编辑操作序列将部分错误文本转换为部分正确文本,避免了由于编码器编码和解码器解码的交叉进行而产生的时间序列依赖的问题,即将文本纠错的问题转换为序列生成问题,并最终通过生成的序列对待纠错文本进行纠错,从而使得生成纠错编辑操作序列和将错误文本转换为正确文本的过程可以并行,进而提高了文本纠错过程的纠错速度。
参照图3,基于本发明文本纠错方法第一实施例,提出第二实施例,所述基于所述纠错编辑操作序列对所述待纠错文本进行纠错,得到目标纠错后文本,包括:
步骤S131,基于所述纠错编辑操作序列对所述待纠错文本进行纠错,得到初始纠错后文本。
具体地,基于纠错编辑操作序列对待纠错文本进行纠错编辑操作以完成对待纠错文本的纠错,得到初始纠错后文本,该初始纠错后文本与正确文本之间可能存在一定的差距,即初始纠错后文本不一定是正确文本,例如初始纠错后文本还需要经过一个或多个编辑操作后才能转化为正确文本,可以理解,预设文本纠错模型的准确率一般达不到100%。
步骤S132,将所述初始纠错后文本输入所述预设文本纠错模型进行迭代纠错,得到更新后的纠错后文本,并确定所述更新后的纠错后文本是否满足预设迭代结束要求。
具体地,为改善上述初始纠错后文本与正确文本之间存在差距的问题,本实施提出将初始纠错后文本输入预设文本纠错模型进行迭代纠错,得到更新后的纠错后文本,并确定更新后的纠错后文本是否满足预设迭代结束要求。需要说明的是,该预设迭代结束要求可以为更新后的纠错后文本的准确率满足不需要再次迭代更新的要求,也可以为迭代更新次数达到预设阈值,该预设阈值可根据具体情况设置,本实施例不做具体限制。
步骤S133,若所述更新后的纠错后文本满足所述预设迭代结束要求,则将所述更新后的纠错后文本作为目标纠错后文本;
步骤S134,若所述更新后的纠错后文本未满足所述预设迭代结束要求,则继续对所述更新后的纠错后文本进行迭代纠错更新,直至所述更新后的纠错后文本满足所述预设迭代结束要求。
具体地,若更新后的纠错后文本满足预设迭代结束要求,则将该更新后的纠错后文本作为目标纠错后文本;若更新后的纠错后文本未满足预设迭代结束要求,则继续对更新后的纠错后文本进行迭代纠错更新,直至更新后的纠错后文本满足预设迭代结束要求,才停止迭代纠错并将该更新后的纠错后文本作为目标纠错后文本。
本实施例通过将纠错后文本输入预设文本纠错模型中进行再次纠错,使得该预设文本纠错模型每次都在更加“正确”的纠错后文本上进行改进,从而能够提高该预设文本纠错模型的输出的准确性,进而解决了现有技术中的文本纠错过程中的误差传播问题。
此外,本发明还提供一种文本纠错装置,如图4所示,所述文本纠错装置包括:
第一获取模块10,用于获取待纠错文本;
生成模块20,用于将所述待纠错文本输入预设文本纠错模型,生成纠错编辑操作序列;所述预设文本纠错模型由预设标注编辑操作序列训练得到;所述预设标注编辑操作序列用于将预设错误文本转化为与所述预设错误文本对应的正确文本;
纠错模块30,用于基于所述纠错编辑操作序列对所述待纠错文本进行纠错,得到目标纠错后文本。
进一步地,所述文本纠错装置还包括:
第二获取模块,用于获取训练数据集和待训练模型;
迭代训练模块,用于基于所述训练数据集对所述待训练模型进行迭代训练,得到更新后的待训练模型;
确定模块,用于确定所述更新后的待训练模型是否满足预设迭代结束条件;若所述更新后的待训练模型满足所述预设迭代结束条件,则将所述更新后的待训练模型作为所述预设文本纠错模型;若所述更新后的待训练模型未满足所述迭代结束条件,则继续对所述更新后的待训练模型进行迭代训练更新,直至所述更新后的待训练模型满足所述迭代结束条件。
进一步地,所述第一获取模块10包括:
第一获取单元,用于获取双向预训练语言模型;
调整单元,用于对所述双向预训练语言模型进行适应性调整,得到待训练模型。
进一步地,所述第一获取模块10还包括:
添加单元,用于为所述双向预训练语言模型添加自注意力机制。
进一步地,所述添加单元包括:
添加子单元,用于为所述双向预训练语言模型添加多头自注意力机制。
进一步地,所述第一获取模块10还包括:
第二获取单元,用于获取训练样本;
标注单元,用于对所述训练样本进行标注,获得标准检测结果。
进一步地,所述纠错模块30包括:
纠错单元,用于基于所述纠错编辑操作序列对所述待纠错文本进行纠错,得到初始纠错后文本;
迭代纠错单元,用于将所述初始纠错后文本输入所述预设文本纠错模型进行迭代纠错,得到更新后的纠错后文本;
确定单元,用于确定所述更新后的纠错后文本是否满足预设迭代结束要求;若所述更新后的纠错后文本满足所述预设迭代结束要求,则将所述更新后的纠错后文本作为目标纠错后文本;若所述更新后的纠错后文本未满足所述预设迭代结束要求,则继续对所述更新后的纠错后文本进行迭代纠错更新,直至所述更新后的纠错后文本满足所述预设迭代结束要求。
本发明文本纠错装置具体实施方式与上述文本纠错方法各实施例基本相同,在此不再赘述。
此外,本发明还提供一种文本纠错设备。如图5所示,图5是本发明实施例方案涉及的硬件运行环境的结构示意图。
需要说明的是,图5即可为文本纠错设备的硬件运行环境的结构示意图。
如图5所示,该文本纠错设备可以包括:处理器1001,例如CPU,存储器1005,用户接口1003,网络接口1004,通信总线1002。其中,通信总线1002 用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口 (如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,文本纠错设备还可以包括RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。
本领域技术人员可以理解,图5中示出的文本纠错设备结构并不构成对文本纠错设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图5所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及文本纠错程序。其中,操作系统是管理和控制文本纠错设备硬件和软件资源的程序,支持文本纠错程序以及其它软件或程序的运行。
在图5所示的文本纠错设备中,用户接口1003主要用于连接终端,与终端进行数据通信,例如获取终端发送的错误文本;网络接口1004主要用于后台服务器,与后台服务器进行数据通信;处理器1001可以用于调用存储器1005 中存储的文本纠错程序,并执行如上所述的文本纠错方法的步骤。
本发明文本纠错设备具体实施方式与上述文本纠错方法各实施例基本相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有文本纠错程序,所述文本纠错程序被处理器执行时实现如上所述的文本纠错方法的步骤。
本发明计算机可读存储介质具体实施方式与上述文本纠错方法各实施例基本相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,设备,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的较佳实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种文本纠错方法,其特征在于,所述文本纠错方法包括以下步骤:
获取待纠错文本;
将所述待纠错文本输入预设文本纠错模型,生成纠错编辑操作序列;所述预设文本纠错模型由预设标注编辑操作序列训练得到;所述预设标注编辑操作序列用于将预设错误文本转化为与所述预设错误文本对应的正确文本;
基于所述纠错编辑操作序列对所述待纠错文本进行纠错,得到目标纠错后文本。
2.如权利要求1所述的方法,其特征在于,获取所述预设文本纠错模型,包括:
获取训练数据集和待训练模型;
基于所述训练数据集对所述待训练模型进行迭代训练,得到更新后的待训练模型,并确定所述更新后的待训练模型是否满足预设迭代结束条件;
若所述更新后的待训练模型满足所述预设迭代结束条件,则将所述更新后的待训练模型作为所述预设文本纠错模型;
若所述更新后的待训练模型未满足所述迭代结束条件,则继续对所述更新后的待训练模型进行迭代训练更新,直至所述更新后的待训练模型满足所述迭代结束条件。
3.如权利要求2所述的方法,其特征在于,所述获取待训练模型,包括:
获取双向预训练语言模型;
对所述双向预训练语言模型进行适应性调整,得到待训练模型。
4.如权利要求3所述的方法,其特征在于,所述获取双向预训练语言模型之后,包括:
为所述双向预训练语言模型添加自注意力机制。
5.如权利要求4所述的方法,其特征在于,所述为所述双向预训练语言模型添加自注意力机制,包括:
为所述双向预训练语言模型添加多头自注意力机制。
6.如权利要求2所述的方法,其特征在于,所述训练数据集包括一个或多个训练样本和各所述训练样本对应的标准检测结果,所述获取训练数据集,包括:
获取训练样本;
对所述训练样本进行标注,获得标准检测结果。
7.如权利要求1-6任一项所述的方法,其特征在于,所述基于所述纠错编辑操作序列对所述待纠错文本进行纠错,得到目标纠错后文本,包括:
基于所述纠错编辑操作序列对所述待纠错文本进行纠错,得到初始纠错后文本;
将所述初始纠错后文本输入所述预设文本纠错模型进行迭代纠错,得到更新后的纠错后文本,并确定所述更新后的纠错后文本是否满足预设迭代结束要求;
若所述更新后的纠错后文本满足所述预设迭代结束要求,则将所述更新后的纠错后文本作为目标纠错后文本;
若所述更新后的纠错后文本未满足所述预设迭代结束要求,则继续对所述更新后的纠错后文本进行迭代纠错更新,直至所述更新后的纠错后文本满足所述预设迭代结束要求。
8.一种文本纠错装置,其特征在于,所述文本纠错装置包括:
获取模块,用于获取待纠错文本;
生成模块,用于将所述待纠错文本输入预设文本纠错模型,生成纠错编辑操作序列;所述预设文本纠错模型由预设标注编辑操作序列训练得到;所述预设标注编辑操作序列用于将预设错误文本转化为与所述预设错误文本对应的正确文本;
纠错模块,用于基于所述纠错编辑操作序列对所述待纠错文本进行纠错,得到目标纠错后文本。
9.一种文本纠错设备,其特征在于,所述文本纠错设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的文本纠错程序,所述文本纠错程序被所述处理器执行时实现如权利要求1至7中任一项所述的文本纠错方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文本纠错程序,所述文本纠错程序被处理器执行时实现如权利要求1至7中任一项所述的文本纠错方法的步骤。
CN202011515647.XA 2020-12-18 2020-12-18 文本纠错方法、装置、设备及可读存储介质 Pending CN112632912A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011515647.XA CN112632912A (zh) 2020-12-18 2020-12-18 文本纠错方法、装置、设备及可读存储介质
PCT/CN2021/082587 WO2022126897A1 (zh) 2020-12-18 2021-03-24 文本纠错方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011515647.XA CN112632912A (zh) 2020-12-18 2020-12-18 文本纠错方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN112632912A true CN112632912A (zh) 2021-04-09

Family

ID=75318034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011515647.XA Pending CN112632912A (zh) 2020-12-18 2020-12-18 文本纠错方法、装置、设备及可读存储介质

Country Status (2)

Country Link
CN (1) CN112632912A (zh)
WO (1) WO2022126897A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113064975A (zh) * 2021-04-14 2021-07-02 深圳市诺金系统集成有限公司 基于ai深度学习的人力资源数据处理系统及方法
CN113515931A (zh) * 2021-07-27 2021-10-19 中国平安人寿保险股份有限公司 文本纠错方法、装置、计算机设备及存储介质
CN114581926A (zh) * 2022-04-11 2022-06-03 深圳市星桐科技有限公司 多行文本识别方法、装置、设备及介质
WO2023197512A1 (zh) * 2022-04-11 2023-10-19 苏州浪潮智能科技有限公司 一种文本纠错方法、装置、电子设备和介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115906815B (zh) * 2023-03-08 2023-06-27 北京语言大学 一种用于修改一种或多种类型错误句子的纠错方法及装置
CN116127953B (zh) * 2023-04-18 2023-07-25 之江实验室 一种基于对比学习的中文拼写纠错方法、装置和介质
CN116822498B (zh) * 2023-08-30 2023-12-01 深圳前海环融联易信息科技服务有限公司 文本纠错处理方法、模型处理方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188327A (zh) * 2019-05-30 2019-08-30 北京百度网讯科技有限公司 文本去口语化方法及装置
CN112016310A (zh) * 2020-09-03 2020-12-01 平安科技(深圳)有限公司 文本纠错方法、系统、设备及可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3494292B2 (ja) * 2000-09-27 2004-02-09 インターナショナル・ビジネス・マシーンズ・コーポレーション アプリケーションデータの誤り訂正支援方法、コンピュータ装置、アプリケーションデータ提供システム、および記憶媒体
CN110162767A (zh) * 2018-02-12 2019-08-23 北京京东尚科信息技术有限公司 文本纠错的方法和装置
CN111191441A (zh) * 2020-01-06 2020-05-22 广东博智林机器人有限公司 文本纠错方法、装置及存储介质
CN111950292B (zh) * 2020-06-22 2023-06-27 北京百度网讯科技有限公司 文本纠错模型的训练方法、文本纠错处理方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188327A (zh) * 2019-05-30 2019-08-30 北京百度网讯科技有限公司 文本去口语化方法及装置
CN112016310A (zh) * 2020-09-03 2020-12-01 平安科技(深圳)有限公司 文本纠错方法、系统、设备及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FELIX STAHLBERG 等: "Seq2Edits: Sequence Transduction Using Span-level Edit Operations", 《ARXIV》, 30 September 2020 (2020-09-30), pages 1 - 17 *
FELIX STAHLBERG 等: "Seq2Edits: Sequence Transduction Using Span-level Edit Operations", 《ARXIV》, pages 1 - 17 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113064975A (zh) * 2021-04-14 2021-07-02 深圳市诺金系统集成有限公司 基于ai深度学习的人力资源数据处理系统及方法
CN113515931A (zh) * 2021-07-27 2021-10-19 中国平安人寿保险股份有限公司 文本纠错方法、装置、计算机设备及存储介质
CN113515931B (zh) * 2021-07-27 2023-07-21 中国平安人寿保险股份有限公司 文本纠错方法、装置、计算机设备及存储介质
CN114581926A (zh) * 2022-04-11 2022-06-03 深圳市星桐科技有限公司 多行文本识别方法、装置、设备及介质
WO2023197512A1 (zh) * 2022-04-11 2023-10-19 苏州浪潮智能科技有限公司 一种文本纠错方法、装置、电子设备和介质
CN114581926B (zh) * 2022-04-11 2024-06-21 深圳市星桐科技有限公司 多行文本识别方法、装置、设备及介质

Also Published As

Publication number Publication date
WO2022126897A1 (zh) 2022-06-23

Similar Documents

Publication Publication Date Title
CN112632912A (zh) 文本纠错方法、装置、设备及可读存储介质
CN108874174B (zh) 一种文本纠错方法、装置以及相关设备
CN111198948B (zh) 文本分类校正方法、装置、设备及计算机可读存储介质
CN109583952B (zh) 广告文案处理方法、装置、设备及计算机可读存储介质
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
CN111739514B (zh) 一种语音识别方法、装置、设备及介质
CN111209740B (zh) 文本模型训练方法、文本纠错方法、电子设备及存储介质
CN106503231B (zh) 基于人工智能的搜索方法和装置
CN110569505B (zh) 一种文本输入方法及装置
CN111859919A (zh) 文本纠错模型训练方法、装置、电子设备及存储介质
CN111460149A (zh) 文本分类方法、相关设备及可读存储介质
CN113609824A (zh) 基于文本编辑和语法纠错的多轮对话改写方法及系统
CN112446221A (zh) 翻译评估方法、装置、系统及计算机存储介质
CN111460109A (zh) 摘要及对话摘要生成方法和装置
CN113822044B (zh) 语法纠错数据生成方法、装置、计算机设备及存储介质
CN114861637A (zh) 拼写纠错模型生成方法和装置、拼写纠错方法和装置
CN113051894B (zh) 一种文本纠错的方法和装置
WO2022141844A1 (zh) 文本纠错方法、装置、设备及可读存储介质
CN110929514B (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
CN113761845A (zh) 一种文本生成方法、装置、存储介质及电子设备
CN112417851B (zh) 文本纠错分词方法、系统及电子设备
CN114860870A (zh) 一种文本的纠错方法及装置
CN110728137B (zh) 用于分词的方法和装置
CN113011149A (zh) 一种文本纠错方法及系统
CN114417834A (zh) 文本的处理方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination