CN115965009A - 文本纠错模型的训练与文本纠错方法、设备 - Google Patents

文本纠错模型的训练与文本纠错方法、设备 Download PDF

Info

Publication number
CN115965009A
CN115965009A CN202211661136.8A CN202211661136A CN115965009A CN 115965009 A CN115965009 A CN 115965009A CN 202211661136 A CN202211661136 A CN 202211661136A CN 115965009 A CN115965009 A CN 115965009A
Authority
CN
China
Prior art keywords
text
error
vector
error correction
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211661136.8A
Other languages
English (en)
Inventor
桑海岩
邓慧
刘�文
廉士国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Unicom Digital Technology Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Unicom Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd, Unicom Digital Technology Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202211661136.8A priority Critical patent/CN115965009A/zh
Publication of CN115965009A publication Critical patent/CN115965009A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提供了一种文本纠错模型的训练与文本纠错方法、设备,涉及人工智能技术领域,上述文本纠错模型的训练方法包括:获取训练数据,该训练数据中包括随机错误文本样本、近音错误文本样本及近形错误文本样本;确定训练数据中每个字符对应的输入向量,该输入向量包括字符表示向量、位置表示向量、拼音表示向量及字形表示向量;基于所述输入向量对预训练语言模型进行训练,得到文本纠错模型。上述文本纠错方法包括:将待纠错文本中每个字符对应的输入向量输入上述文本纠错模型,得到文本纠错预测结果向量;对该文本纠错预测结果向量进行解码,得到纠错后的目标文本。本申请不仅可以降低文本纠错的成本,还可以提升文本纠错的效率与准确度。

Description

文本纠错模型的训练与文本纠错方法、设备
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文本纠错模型的训练与文本纠错方法、设备。
背景技术
文本纠错属于自然语言处理的范畴,在很多智能化场景中会使用到,其主要目的是对原始文本中的输入进行错误检测,并根据自然语言处理技术对错误进行纠正。
现阶段,文本纠错通常通过定义并持续维护一个混淆词典语料库,再结合业务规则来实现,这种方式由于需要总结大量的业务规则,成本较高,另外,纠错的效率与准确度也偏低。
发明内容
本申请提供了一种文本纠错模型的训练与文本纠错方法、设备,不仅可以降低文本纠错的成本,还可以提升文本纠错的效率与准确度。
第一方面,本申请提供了一种文本纠错模型的训练方法,该方法包括:
获取训练数据,所述训练数据中包括随机错误文本样本、近音错误文本样本及近形错误文本样本;
确定所述训练数据中每个字符对应的输入向量,所述输入向量包括字符表示向量、位置表示向量、拼音表示向量及字形表示向量;
基于所述输入向量对预训练语言模型进行训练,得到文本纠错模型。
在一些实施方式中,所述获取训练数据之前,还包括:
基于原始文本构建所述随机错误文本样本、所述近音错误文本样本以及所述近形错误文本样本;其中,所述随机错误文本样本包括随机缺字错误文本样本、随机多字错误文本样本、随机拼写错误文本样本、随机语序错误文本样本。
在一些实施方式中,所述近音错误文本样本包括近音错误文本与变长近音错误文本,所述构建所述近音错误文本样本,包括:
基于所述原始文本对应的拼音以及预设混淆音规则,生成所述原始文本对应的所述近音错误文本,以及基于所述随机错误文本样本已修改的错误片段与所述混淆音规则,生成所述原始文本对应的所述变长近音错误文本;
所述近形错误文本样本包括近形错误文本与变长近形错误文本样本,所述构建所述近形错误文本样本,包括:
基于所述原始文本以及预设形近字词典,生成所述原始文本对应的所述近形错误文本,以及基于所述随机错误文本样本已修改的错误片段与所述形近字词典,生成所述原始文本对应的所述变长近形错误文本样本。
在一些实施方式中,所述确定所述训练数据中每个字符对应的输入向量,包括:
查找embedding表获得所述每个字符对应的所述字符表示向量与所述位置表示向量;
确定所述每个字符对应的拼音,将所述每个字符对应的拼音输入到门控循环单元(Gated Recurrent Unit,GRU)网络以生成所述拼音表示向量;
确定所述每个字符对应的四角编码、偏旁部首信息及结构信息,将所述每个字符对应的四角编码、偏旁部首信息及结构信息拼接成的字形序列输入到所述GRU网络以生成所述字形表示向量。
第二方面,本申请提供了一种文本纠错方法,该方法包括:
获取待纠错文本中每个字符对应的输入向量,所述输入向量包括字符表示向量、位置表示向量、拼音表示向量及字形表示向量;
基于所述每个字符对应的输入向量与文本纠错模型,得到文本纠错预测结果向量;所述文本纠错模型是根据第一方面所述的文本纠错模型的训练方法获得的;
对所述文本纠错预测结果向量进行解码,得到所述待纠错文本纠错后的目标文本。
在一些实施方式中,所述对所述文本纠错预测结果向量进行解码,得到所述待纠错文本纠错后的目标文本,包括:
确定所述文本纠错预测结果向量在最后一维度上的最大值所对应的索引,根据所述索引与预设词汇表,确定所述目标文本。
第三方面,本申请提供了一种文本纠错模型的训练装置,该装置包括:
初始化模块,用于获取训练数据,所述训练数据中包括随机错误文本样本、近音错误文本样本及近形错误文本样本;
特征抽取模块,用于确定所述训练数据中每个字符对应的输入向量,所述输入向量包括字符表示向量、位置表示向量、拼音表示向量及字形表示向量;
训练模块,用于基于所述输入向量对预训练语言模型进行训练,得到文本纠错模型。
第四方面,本申请提供了一种文本纠错装置,该装置包括:
特征抽取模块,用于获得待纠错文本中每个字符对应的输入向量,所述输入向量包括字符表示向量、位置表示向量、拼音表示向量及字形表示向量;
文本纠错模块,用于基于所述每个字符对应的输入向量与文本纠错模型,得到文本纠错预测结果向量;所述文本纠错模型是根据权利要求7所述的文本纠错模型的训练装置获得的;
纠错输出模块,用于对所述文本纠错预测结果向量进行解码,得到所述待纠错文本纠错后的目标文本。
第五方面,本申请提供了一种电子设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器用于执行所述存储器存储的计算机执行指令,以实现如第一方面提供的文本纠错模型的训练方法,或者实现如第二方面提供的文本纠错方法。
第六方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当计算机执行所述计算机执行指令时,实现如第一方面提供的文本纠错模型的训练方法,或者实现如第二方面提供的文本纠错方法。
本申请提供的文本纠错模型的训练与文本纠错方法、设备,基于预训练语言模型,能够对多种类型的文本错误进行纠错,如多字、少字、拼写、语法错误等,能够同时实现变长文本纠错和不变长文本纠错,不仅可以降低文本纠错的成本,还可以提升文本纠错的效率与准确度。
附图说明
图1为本申请实施例中提供的一种文本纠错模型的训练方法的步骤流程示意图;
图2为本申请实施例中提供的一种文本纠错方法的步骤流程示意图;
图3为本申请实施例中提供的一种文本纠错模型的应用示意图;
图4为本申请实施例中提供的一种文本纠错模型的训练装置的程序模块示意图;
图5为本申请实施例中提供的一种文本纠错装置的程序模块示意图;
图6为本申请实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,虽然本申请中申请内容按照示范性一个或几个实例来介绍,但应理解,可以就这些申请内容的各个方面也可以单独构成一个完整实施方式。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换,例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的那些组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
本申请实施例中使用的术语“模块”,是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
文本纠错属于自然语言处理的范畴,在很多智能化场景中已广泛使用,例如在搜索引擎中对于用户输入的错误文本进行纠错可以提升检索准确度;在语音识别中,由于说话人咬字不清,可能会出现音似错误,例如将“牛郎织女”识别成“流浪织女”,或由于说话人语速过快,出现缺字错误,例如将“假如爱有天意”识别成“假如爱天意”等,对语音识别中的文本纠错后对于语音识别准确率会有进一步提高;在文本编辑和校对行业,自动化的纠错提示以及给出纠错建议可大大减少人力校对的工作量。
参照表1,从纠错的类型来说有如下错误类型:
表1
类型 错误样例 纠错后的文本
音似错误 请把我修改一下 请帮我修改一下
形似错误 高梁 高粱
多字错误 今天我去去游泳 今天我去游泳
缺字错误 今我去游泳 今天我去游泳
语序(语法)错误 想象难以 难以想象
在本申请中,可以将错误类型主要分为:多字错误、缺字错误、语序错误及拼写错误。其中,音似错误和形似错误都属于拼写错误。
相对于拼写错误,变长文本纠错一直是中文纠错任务的一个难点和重点。现阶段,处理文本纠错的方法主要是基于Pipeline的文本纠错方法和基于端到端的文本纠错,其中:
基于Pipeline的文本纠错方法存在以下缺点:文本变长纠错通常需要提前定义并持续维护一个混淆词典语料库,在检错阶段再结合业务规则,或者采用匹配算法来检错,匹配算法耗时较大,在候选召回阶段,会召回所有可能错误作为错误候选集,该错误候选集中即可包含变长错误,在纠错阶段,在通过语言模型,以及相似度计算的方法进行候选排序,选出最好的结果作为修正结果,纠错流程完成。该方法需要总结大量的业务规则,且构建时人力成本投入大、后续维护的成本高、纠错的效率与准确度偏低、大量的匹配算法导致纠错耗时较长。
基于端到端的文本纠错方法存在以下缺点:
一、信息利用不充分,大部分模型的输入都是语义信息,但是对于中文纠错任务,拼音、形似、句法等都会有影响。
二、大部分端到端的模型只能解决替换的单字错误,无法解决语法和缺字、多字错误,基于生成的方法,例如机器翻译的方法可以解决缺字和多字的情形,且非常适合解决语法错误,但是会出现一些过纠的问题,或者生成重复文本的情况。
在一些实施方式中,可以将预训练模型应用到文本纠错任务上,但是现阶段该类模型的输入文本长度和纠错后的文本长度是相等的,无法解决多字和少字错误。
其中,预训练语言模型中的非常重要的任务是MLM任务,MLM任务需要对原始文本进行mask。采用mask技术,mask一个句子中的一些token,通过模型来预测被mask掉的token,使得模型学习到句子词语之间的关系。
参照表2,当前预训练语言模型的Mask策略有如下几种:
表2
Figure BDA0004013978160000061
面对上述技术问题,本申请实施例中提供了一种文本纠错模型的训练与文本纠错方法,该方法基于预训练语言模型,能够对多种类型的文本错误进行纠错,如多字、少字、拼写、语法错误等,同时实现变长文本纠错和不变长文本纠错,不仅可以降低文本纠错的成本,还可以提升文本纠错的效率与准确度。详细的技术方案可以参照以下实施例。
参照图1,图1为本申请实施例中提供的一种文本纠错模型的训练方法的步骤流程示意图。在本申请一些实施例中,上述文本纠错模型的训练方法包括:
S101、获取训练数据,该训练数据中包括随机错误文本样本、近音错误文本样本及近形错误文本样本。
在一些实施例中,可以先进行词汇表的构建。
其中,词汇表相对于其它Mask方式的预训练语言模型来说,其尺寸会更大一点,因为包含常用汉字、常用词汇以及部分3-gram。词汇表的获得可通过对训练预料进行1-gram、2-gram、3-gram统计获得,保留高频词汇,更近一步的,可以通过已训练的n-gram语言模型剪枝获得高频词汇表。除此之外增加四个特殊字符:<CLS>、<SEP>、<UNK>及<B>,其中,<CLS>、<SEP>是Bert模型的特殊输入标记,<CLS>标志放在第一个句子的首位,<SEP>标志用于分开两个输入句子,<UNK>用于替换句子中的没有在词汇表里出现的字符,<B>代表占位符。
其中,n-gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列,每一个字节片段称为gram,可以根据前(n-1)个item来预测第n个item。习惯上,1-gram称为unigram,2-gram称为bigram,3-gram是trigram。其中,2-gram是字符的两两组合,3-gram(trigram)是三个字符的任意组合,依次类推。
在一些实施例中,为增加训练数据样本的错误多样性,可以按照以下方式生成训练数据:
1)基于原始文本构建随机错误文本样本,包括:
在原始文本中随机删字,构建随机缺字错误文本样本;
在原始文本中随机加字或词:构建随机多字错误文本样本;
在原始文本中随机替换词:构建随机拼写错误文本样本;
在原始文本中随机乱序:随机语序错误文本样本。
2)构建近音错误文本样本:
首先,在原始文本的基础上通过现有文本转拼音的工具以及基于地方口音的混淆音规则,构造部分近音错误文本。如“f”与“h”、“q”与“x”、“n”与“l”等地方口音混淆;“eng”与“en”、“ing”与“in”等前后鼻音混淆;“ch”与“c”、“zh”与“ch”、“sh”与“s”等平卷舌音混淆。
其次,在1)构建的随机错误文本样本上对已修改的错误片段二次增加同混淆音规则的近音错误,构建变长近音错误文本。
3)构建近形错误文本样本:
首先,在原始文本的基础上通过中文的形近字词典构建近形错误文本,类似的字符可以从公开可用的混淆集(Wu et ai.,2013)获得。
其次,在1)构建的随机错误文本样本上对已修改的错误片段二次增加同规则的近形错误,构造变长近形错误文本样本。
S102、确定训练数据中每个字符对应的输入向量,该输入向量包括字符表示向量、位置表示向量、拼音表示向量及字形表示向量。
在本申请一些实施例中,字符表示向量、位置表示向量可以通过查找语料库的embedding表获得;拼音表示向量可以通过将文本转为拼音序列,再将拼音序列输入到一个GRU网络生成。通过确定每个字符对应的四角编码、偏旁部首信息及结构信息,将每个字符对应的四角编码、偏旁部首信息及结构信息拼接成的字形序列输入到GRU网络以可以生成上述字形表示向量
示例性的,门的四角编码为37001,闩的四角编码为37101;闩的偏旁部首信息包括[‘门’,‘一’],闫的偏旁部首包括[‘门’,‘三’];闩的结构信息为半包围结构。
S103、基于所述输入向量对预训练语言模型进行训练,得到文本纠错模型。
在本申请一些实施例中,为了训练模型,可以随机地掩蔽(Mask)一些百分比的输入Token,然后恢复它们,其中,为了适用于文本纠错的任务,采用动态变长的Mask策略。
其中,Mask策略参考样例:对输入序列总长度15%的token进行掩码,其中分别有25%的情况下会替换为多字相似词、少字相似词、等长字符替换,10%进行为语序Masking,10%的情况下不会替换。更细致的,为符合纠错任务的多样性,在多字、少字、拼写Masking策略中从字形、字音、随机替换三个方面按照10%、10%、5%的比例替换。
其中,在有足够计算资源的情况下,其Masking策略的百分比可以进行调整,以求得最优掩码比例。
MASK策略主要是基于以下4种:字音混淆词替换(Phonic Masking)、字形混淆词替换(Shape Masking)、随机替换(Random Masking)、原词不变(Unchanging)。
参照表3,当前预训练语言模型的Mask策略有如下几种:
表3
Figure BDA0004013978160000091
可选的,编码层采用Transformer编码器,结构可以采用Bert相似的结构。参数设置方面,假设分别用dc、dp,dy、ds表示字符序列、位置序列、拼音序列及字形序列的维度,用hy和hs表示拼音和字形GRU网络中隐藏状态的维度。然后有dc=dp=768,dy=ds=32,hy=hs=768。为了节约预训练成本,更多的参数可以基于经验设置。在有足够计算资源的情况下,可以采用网格搜索的方式以获得更好的性能。
在微调训练阶段,输入字符序列,期望上述模型生成目标序列是纠错后的序列。下列分别举出三种类型错误的实施例,语序错误和拼写错误类似,无错误的文本则期望输出原文本。
参照表4,表4为本申请中对多字错误的纠错示例。
表4:多字错误
Figure BDA0004013978160000092
Figure BDA0004013978160000101
参照表5,表5为本申请中对少字错误的纠错示例。
表5:少字错误
位置信息 0 1 2 3 4 5 6 7 8 9
少字错误
纠错后 伤心
参照表6,表6为本申请中对拼写错误的纠错示例。
表6:拼写错误
位置信息 0 1 2 3 4 5 6 7 8 9 10
拼写错误 仿
纠错后
需要说明的是,上述微调训练样本,对于多字错误,输入字符长度大于输出字符长度,那么输出会用<B>来进行占位,对于少字错误,模型会将位置3上的错误字的位置替换为正确的词。对于常见的拼写错误和语序错误,如表6。
基于上述实施例中描述的内容,本申请实施例中还提供一种文本纠错方法,参照图2,图2为本申请实施例中提供的一种文本纠错方法的步骤流程示意图。在本申请一些实施例中,上述文本纠错方法包括:
S201、获取待纠错文本中每个字符对应的输入向量,该输入向量包括字符表示向量、位置表示向量、拼音表示向量及字形表示向量。
在一些实施方式中,可以先进行词汇表的加载与文本纠错模型的加载。之后,获得待纠错文本中每个字符对应的输入向量。
S202、基于所述每个字符对应的输入向量与文本纠错模型,得到文本纠错预测结果向量。
其中,上述文本纠错模型可以根据上述实施例中描述的文本纠错模型的训练方法获得,本实施例中不再赘述。
S203、对所述文本纠错预测结果向量进行解码,得到所述待纠错文本纠错后的目标文本。
在一些实施方式中,可以确定文本纠错预测结果向量在最后一维度上的最大值所对应的索引,该索引在词汇表所对应的汉字就是纠错后的结果,其含义就是词汇表中输出概率最大的字符,认为是每个输入位置对应的正确字符。
参照图3,图3为本申请实施例中提供的一种文本纠错模型的应用示意图。
在图3中,假设待纠错文本为“你不要伤心”,则将该待纠错文本对应的输入向量输入文本纠错模型后,利用微调网络“MLM in bert”对文本纠错模型的输出结果进行处理后,即可得到纠错后的目标文本“你不要伤心”。
本申请提供的文本纠错模型的训练与文本纠错方法,能够对多种类型的文本错误进行纠错,如多字、少字、拼写、语法错误等,能够同时实现变长文本纠错和不变长文本纠错,不仅可以降低文本纠错的成本,还可以提升文本纠错的效率与准确度。
基于上述实施例中所描述的内容,本申请实施例中还提供一种文本纠错模型的训练装置。参照图4,图4为本申请实施例中提供的一种文本纠错模型的训练装置的程序模块示意图,该文本纠错模型的训练装置40包括:
初始化模块401,用于获取训练数据,所述训练数据中包括随机错误文本样本、近音错误文本样本及近形错误文本样本。
特征抽取模块402,用于确定所述训练数据中每个字符对应的输入向量,所述输入向量包括字符表示向量、位置表示向量、拼音表示向量及字形表示向量。
训练模块403,用于基于所述输入向量对预训练语言模型进行训练,得到文本纠错模型。
在一些实施方式中,初始化模块401还用于:
基于原始文本构建所述随机错误文本样本、所述近音错误文本样本以及所述近形错误文本样本;其中,所述随机错误文本样本包括随机缺字错误文本样本、随机多字错误文本样本、随机拼写错误文本样本、随机语序错误文本样本。
在一些实施方式中,所述近音错误文本样本包括近音错误文本与变长近音错误文本,初始化模块401还用于:
基于所述原始文本对应的拼音以及预设混淆音规则,生成所述原始文本对应的所述近音错误文本,以及基于所述随机错误文本样本已修改的错误片段与所述混淆音规则,生成所述原始文本对应的所述变长近音错误文本。
在一些实施方式中,所述近形错误文本样本包括近形错误文本与变长近形错误文本样本,初始化模块401还用于:
基于所述原始文本以及预设形近字词典,生成所述原始文本对应的所述近形错误文本,以及基于所述随机错误文本样本已修改的错误片段与所述形近字词典,生成所述原始文本对应的所述变长近形错误文本样本。
在一些实施方式中,特征抽取模块402具体用于:
查找embedding表获得所述每个字符对应的所述字符表示向量与所述位置表示向量;
确定所述每个字符对应的拼音,将所述每个字符对应的拼音输入到门控循环单元GRU网络以生成所述拼音表示向量;
确定所述每个字符对应的四角编码、偏旁部首信息及结构信息,将所述每个字符对应的四角编码、偏旁部首信息及结构信息拼接成的字形序列输入到所述GRU网络以生成所述字形表示向量。
基于上述实施例中所描述的内容,本申请实施例中还提供一种文本纠错装置。参照图5,图5为本申请实施例中提供的一种文本纠错装置的程序模块示意图,该文本纠错装置50包括:
特征抽取模块501,用于获得待纠错文本中每个字符对应的输入向量,所述输入向量包括字符表示向量、位置表示向量、拼音表示向量及字形表示向量。
文本纠错模块502,用于基于所述每个字符对应的输入向量与文本纠错模型,得到文本纠错预测结果向量;所述文本纠错模型是根据上述实施例中描述的文本纠错模型的训练装置获得的。
纠错输出模块503,用于对所述文本纠错预测结果向量进行解码,得到所述待纠错文本纠错后的目标文本。
在一些实施方式中,文本纠错模块502还用于:
确定所述文本纠错预测结果向量在最后一维度上的最大值所对应的索引,根据所述索引与预设词汇表,确定所述目标文本。
本申请提供的文本纠错模型的训练与文本纠错装置,能够对多种类型的文本错误进行纠错,如多字、少字、拼写、语法错误等,能够同时实现变长文本纠错和不变长文本纠错,不仅可以降低文本纠错的成本,还可以提升文本纠错的效率与准确度。
进一步的,基于上述实施例中所描述的内容,本申请实施例中还提供了一种电子设备,该电子设备包括至少一个处理器和存储器;其中,存储器存储计算机执行指令;上述至少一个处理器执行存储器存储的计算机执行指令,以实现如上述实施例中描述的文本纠错模型的训练方法中的各个步骤,或者实现如上述实施例中描述的文本纠错方法中的各个步骤,本实施例此处不再赘述。
为了更好的理解本申请实施例,参照图6,图6为本申请实施例提供的一种电子设备的硬件结构示意图。
如图6所示,本实施例的电子设备60包括:处理器601以及存储器602;其中:
存储器602,用于存储计算机执行指令;
处理器601,用于执行存储器存储的计算机执行指令,以实现如上述实施例中描述的文本纠错模型的训练方法中的各个步骤,或者实现如上述实施例中描述的文本纠错方法中的各个步骤,本实施例此处不再赘述。
在一些实施方式中,存储器602既可以是独立的,也可以跟处理器601集成在一起。
当存储器602独立设置时,该设备还包括总线603,用于连接存储器602和处理器601。
进一步的,基于上述实施例中所描述的内容,本申请实施例中还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,当计算机执行计算机执行指令时,以实现如上述实施例中描述的文本纠错模型的训练方法中的各个步骤,或者实现如上述实施例中描述的文本纠错方法中的各个步骤,本实施例此处不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,上述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种文本纠错模型的训练方法,其特征在于,所述方法包括:
获取训练数据,所述训练数据中包括随机错误文本样本、近音错误文本样本及近形错误文本样本;
确定所述训练数据中每个字符对应的输入向量,所述输入向量包括字符表示向量、位置表示向量、拼音表示向量及字形表示向量;
基于所述输入向量对预训练语言模型进行训练,得到文本纠错模型。
2.根据权利要求1所述的方法,其特征在于,所述获取训练数据之前,还包括:
基于原始文本构建所述随机错误文本样本、所述近音错误文本样本以及所述近形错误文本样本;其中,所述随机错误文本样本包括随机缺字错误文本样本、随机多字错误文本样本、随机拼写错误文本样本、随机语序错误文本样本。
3.根据权利要求2所述的方法,其特征在于,所述近音错误文本样本包括近音错误文本与变长近音错误文本,所述构建所述近音错误文本样本,包括:
基于所述原始文本对应的拼音以及预设混淆音规则,生成所述原始文本对应的所述近音错误文本,以及基于所述随机错误文本样本已修改的错误片段与所述混淆音规则,生成所述原始文本对应的所述变长近音错误文本;
所述近形错误文本样本包括近形错误文本与变长近形错误文本样本,所述构建所述近形错误文本样本,包括:
基于所述原始文本以及预设形近字词典,生成所述原始文本对应的所述近形错误文本,以及基于所述随机错误文本样本已修改的错误片段与所述形近字词典,生成所述原始文本对应的所述变长近形错误文本样本。
4.根据权利要求1所述的方法,其特征在于,所述确定所述训练数据中每个字符对应的输入向量,包括:
查找embedding表获得所述每个字符对应的所述字符表示向量与所述位置表示向量;
确定所述每个字符对应的拼音,将所述每个字符对应的拼音输入到门控循环单元GRU网络以生成所述拼音表示向量;
确定所述每个字符对应的四角编码、偏旁部首信息及结构信息,将所述每个字符对应的四角编码、偏旁部首信息及结构信息拼接成的字形序列输入到所述GRU网络以生成所述字形表示向量。
5.一种文本纠错方法,其特征在于,所述方法包括:
获取待纠错文本中每个字符对应的输入向量,所述输入向量包括字符表示向量、位置表示向量、拼音表示向量及字形表示向量;
基于所述每个字符对应的输入向量与文本纠错模型,得到文本纠错预测结果向量;所述文本纠错模型是根据权利要求1至4任一项所述的文本纠错模型的训练方法获得的;
对所述文本纠错预测结果向量进行解码,得到所述待纠错文本纠错后的目标文本。
6.根据权利要求5所述的方法,其特征在于,所述对所述文本纠错预测结果向量进行解码,得到所述待纠错文本纠错后的目标文本,包括:
确定所述文本纠错预测结果向量在最后一维度上的最大值所对应的索引,根据所述索引与预设词汇表,确定所述目标文本。
7.一种文本纠错模型的训练装置,其特征在于,所述装置包括:
初始化模块,用于获取训练数据,所述训练数据中包括随机错误文本样本、近音错误文本样本及近形错误文本样本;
特征抽取模块,用于确定所述训练数据中每个字符对应的输入向量,所述输入向量包括字符表示向量、位置表示向量、拼音表示向量及字形表示向量;
训练模块,用于基于所述输入向量对预训练语言模型进行训练,得到文本纠错模型。
8.一种文本纠错装置,其特征在于,所述装置包括:
特征抽取模块,用于获得待纠错文本中每个字符对应的输入向量,所述输入向量包括字符表示向量、位置表示向量、拼音表示向量及字形表示向量;
文本纠错模块,用于基于所述每个字符对应的输入向量与文本纠错模型,得到文本纠错预测结果向量;所述文本纠错模型是根据权利要求7所述的文本纠错模型的训练装置获得的;
纠错输出模块,用于对所述文本纠错预测结果向量进行解码,得到所述待纠错文本纠错后的目标文本。
9.一种电子设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器用于执行所述存储器存储的计算机执行指令,以实现如权利要求1至4任一项所述的文本纠错模型的训练方法,或者实现如权利要求5至6任一项所述的文本纠错方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当计算机执行所述计算机执行指令时,实现如权利要求1至4任一项所述的文本纠错模型的训练方法,或者实现如权利要求5至6任一项所述的文本纠错方法。
CN202211661136.8A 2022-12-23 2022-12-23 文本纠错模型的训练与文本纠错方法、设备 Pending CN115965009A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211661136.8A CN115965009A (zh) 2022-12-23 2022-12-23 文本纠错模型的训练与文本纠错方法、设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211661136.8A CN115965009A (zh) 2022-12-23 2022-12-23 文本纠错模型的训练与文本纠错方法、设备

Publications (1)

Publication Number Publication Date
CN115965009A true CN115965009A (zh) 2023-04-14

Family

ID=87352386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211661136.8A Pending CN115965009A (zh) 2022-12-23 2022-12-23 文本纠错模型的训练与文本纠错方法、设备

Country Status (1)

Country Link
CN (1) CN115965009A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306599A (zh) * 2023-05-23 2023-06-23 上海蜜度信息技术有限公司 基于生成文本的忠实度优化方法、系统、设备及存储介质
CN116306598A (zh) * 2023-05-22 2023-06-23 上海蜜度信息技术有限公司 针对不同领域字词的定制化纠错方法、系统、设备及介质
CN117174084A (zh) * 2023-11-02 2023-12-05 摩尔线程智能科技(北京)有限责任公司 一种训练数据构建方法及装置、电子设备和存储介质
CN117174084B (zh) * 2023-11-02 2024-05-31 摩尔线程智能科技(北京)有限责任公司 一种训练数据构建方法及装置、电子设备和存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306598A (zh) * 2023-05-22 2023-06-23 上海蜜度信息技术有限公司 针对不同领域字词的定制化纠错方法、系统、设备及介质
CN116306598B (zh) * 2023-05-22 2023-09-08 上海蜜度信息技术有限公司 针对不同领域字词的定制化纠错方法、系统、设备及介质
CN116306599A (zh) * 2023-05-23 2023-06-23 上海蜜度信息技术有限公司 基于生成文本的忠实度优化方法、系统、设备及存储介质
CN116306599B (zh) * 2023-05-23 2023-09-08 上海蜜度信息技术有限公司 基于生成文本的忠实度优化方法、系统、设备及存储介质
CN117174084A (zh) * 2023-11-02 2023-12-05 摩尔线程智能科技(北京)有限责任公司 一种训练数据构建方法及装置、电子设备和存储介质
CN117174084B (zh) * 2023-11-02 2024-05-31 摩尔线程智能科技(北京)有限责任公司 一种训练数据构建方法及装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN111199727B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
Zhang et al. Deep Neural Networks in Machine Translation: An Overview.
CN109840287A (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN110163181B (zh) 手语识别方法及装置
CN112287670A (zh) 文本纠错方法、系统、计算机设备及可读存储介质
CN115965009A (zh) 文本纠错模型的训练与文本纠错方法、设备
CN111310441A (zh) 基于bert的语音识别后文本修正方法、装置、终端及介质
Xie et al. Chinese spelling check system based on n-gram model
CN112016319B (zh) 预训练模型获取、疾病实体标注方法、装置及存储介质
CN110210028A (zh) 针对语音转译文本的领域特征词提取方法、装置、设备及介质
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
CN113177412A (zh) 基于bert的命名实体识别方法、系统、电子设备及存储介质
CN114818668A (zh) 一种语音转写文本的人名纠错方法、装置和计算机设备
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统
CN114708868A (zh) 一种文本顺滑的语音识别方法、系统及存储介质
CN113221542A (zh) 一种基于多粒度融合与Bert筛选的中文文本自动校对方法
CN114662476A (zh) 一种融合词典与字符特征的字符序列识别方法
CN114611492A (zh) 一种文本顺滑方法、系统和计算机设备
CN111160026B (zh) 一种模型训练方法、装置、实现文本处理的方法及装置
Casacuberta et al. Inference of finite-state transducers from regular languages
CN113626563A (zh) 训练自然语言处理模型和自然语言处理的方法、电子设备
GuoDong A chunking strategy towards unknown word detection in Chinese word segmentation
CN116129883A (zh) 语音识别方法、装置、计算机设备及存储介质
CN115238698A (zh) 生物医疗命名实体识别方法及系统
CN111090720B (zh) 一种热词的添加方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination