CN115730585A - 文本纠错及其模型训练方法、装置、存储介质及设备 - Google Patents
文本纠错及其模型训练方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN115730585A CN115730585A CN202211529540.XA CN202211529540A CN115730585A CN 115730585 A CN115730585 A CN 115730585A CN 202211529540 A CN202211529540 A CN 202211529540A CN 115730585 A CN115730585 A CN 115730585A
- Authority
- CN
- China
- Prior art keywords
- character
- text
- features
- error correction
- font
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本公开示例性实施方式中提供文本纠错及其模型训练方法、装置、存储介质及设备,方法包括:在文本纠错模型训练阶段,对文本数据中的每个字符进行特征提取,得到字符特征,字符特征包括读音特征和字形特征,其中每个字符携带有字符纠错标签,利用字符特征对待训练模型进行训练,直至达到训练停止条件,以将训练得到的模型作为文本纠错模型。使用本公开实施方式,使用带有读音特征及字形特征的文本数据训练文本纠错模型,文本纠错模型学习相应字符的字形特征及读音特征,从而能够在文本纠错阶段,通过识别字符的读音特征及字形特征进行文本纠错。因此,本实施例的文本纠错模型能够应用于解决因拼音或五笔输入导致的笔误问题,提升文本纠错精度。
Description
技术领域
本公开的实施方式涉及图像显示技术领域,更具体地,本公开的实施方式涉及文本纠错及其模型训练方法、装置、存储介质及设备。
背景技术
本部分旨在为权利要求中陈述的本公开的实施方式提供背景或上下文,此处的描述不因为包括在本部分中就承认是现有技术。
在各类文本编辑场景中,存在由于作者的笔误或认知错误而导致的错误文本输入,这些错误不仅会影响阅读体验,降低文章质量,在一些特殊场景,如政府公文、公司公告、法律文书,还会造成较大的负面影响。由于人的思维习惯,这些错误作者自身很难发现,往往需要专门的文字校对人员来进行严格的校对审核工作。而人工审核的方式效率低下,无法满足大规模文本数据的纠错工作。
发明内容
在本上下文中,本公开的实施方式提供文本纠错及其模型训练方法、装置、存储介质及设备。
根据本公开的第一个方面,提供一种文本纠错模型训练方法,其包括:
对文本数据中的每个字符进行特征提取,得到字符特征,字符特征包括读音特征和字形特征,其中每个字符携带有字符纠错标签;
利用字符特征对待训练模型进行训练,直至达到训练停止条件,以将训练得到的模型作为文本纠错模型。
根据本公开的第二个方面,一种文本纠错方法,其包括:
对待纠错文本数据进行特征提取,得到字符特征,字符特征包括读音特征和字形特征;
将字符特征输入文本纠错模型,输出预测文本。
根据本公开的第三个方面,提供一种文本纠错模型训练装置,其包括:
第一特征提取模块,对文本数据中的每个字符进行特征提取,得到字符特征,字符特征包括读音特征和字形特征,其中每个字符携带有字符纠错标签;
训练模块,利用字符特征对待训练模型进行训练,直至达到训练停止条件,以将训练得到的模型作为文本纠错模型。
根据本公开的第四个方面,提供一种文本纠错装置,其包括:
第二特征提取模块,对待纠错文本数据进行特征提取,得到字符特征,字符特征包括读音特征和字形特征;
预测模块,将字符特征输入文本纠错模型,输出预测文本。
根据本公开的第五个方面,提供一种存储介质,其上存储有计算机程序,计算机程序被执行时实现:第一方面中任一项的文本纠错模型训练方法、或文本纠错方法。
根据本公开的第六个方面,提供一种电子设备,包括:显示器;处理单元;以及存储单元,用于存储处理单元的可执行指令;其中,处理单元配置为经由执行可执行指令来执行:第一方面中任一项的文本纠错模型训练方法、或文本纠错方法。
本公开示例性实施方式中提供文本纠错及其模型训练方法、装置、存储介质及设备,方法包括:在文本纠错模型训练阶段,对文本数据中的每个字符进行特征提取,得到字符特征,字符特征包括读音特征和字形特征,其中每个字符携带有字符纠错标签,利用字符特征对待训练模型进行训练,直至达到训练停止条件,以将训练得到的模型作为文本纠错模型。
使用本公开示例性实施方式,使用带有读音特征及字形特征的文本数据训练文本纠错模型,文本纠错模型学习相应字符的字形特征及读音特征,从而能够在文本纠错阶段,通过识别字符的读音特征及字形特征进行文本纠错。因此,本实施例的文本纠错模型能够应用于解决因拼音或五笔输入导致的笔误问题,提升文本纠错精度。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
图1展示本公开一实施例中文本纠错模型训练方法的流程示意图。
图2展示本公开一实施例中文本纠错模型的架构图。
图3展示本公开一种实施例中字符特征示意图。
图4展示本公开一实施例中字形特征提取示意图。
图5展示本公开一实施例中字符纠错标签示意图。
图6展示本公开一实施例中文本纠错方法的流程示意图。
图7展示本公开一实施例中文本纠错模型训练装置的模块示意图。
图8展示本公开一实施例中文本纠错装置的模块示意图。
图9展示本公开一实施例中存储介质的示意图。
图10展示本公开一实施例中的电子设备的结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本公开的实施方式,提供文本纠错及其模型训练方法、装置、存储介质及设备。
在本文中,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本公开的若干代表性实施方式,详细阐述本公开的原理和精神。
发明概述
文本工作场景需要高效的文本纠错方案。文本纠错是自然语言处理(NaturalLanguage Processing,NLP)中的一个基础问题,通常可以前置于其他NLP任务如文本检索、文本分类、机器翻译或者序列标注,以提升输入文本的有效性,防止拼写错误带来的不良影响。
目前,业界在文本纠错上使用的方法大多是利用BERT模型在大规模数据上进行训练,对一定比例的文本字符用特殊符号“[MASK]”或者随机生成的字符进行替换遮掩,然后通过模型进行还原,从而使得模型可以将错误的输入还原成正确的输出。
但是,本案发明人在相关技术的使用实践中发现如下问题:
在真实的中文文本纠错应用场景中,输入形式一般都是采用拼音或者五笔,所以错误内容和正确内容在读音或者字形上基本上都是相似的。而相关技术的文本纠错方法并没有考虑到读音和字形的相关特征,因此对文本纠错中音近字和形近字的输入信息没有充分的利用,导致文本纠错精度不高。
鉴于此,本公开示例性实施方式中可以提供文本纠错及其模型训练方法、装置、存储介质及设备,以解决上述问题。
示例性方法实施例
参考图1所示,展示本公开一实施例中文本纠错模型训练方法,包括:
步骤110:对文本数据中的每个字符进行特征提取,得到字符特征,字符特征包括读音特征和字形特征,其中每个字符携带有字符纠错标签;
步骤120:利用字符特征对待训练模型进行训练,直至达到训练停止条件,以将训练得到的模型作为文本纠错模型。
使用本公开示例性实施方式,使用带有读音特征及字形特征的文本数据训练文本纠错模型,文本纠错模型学习相应字符的字形特征及读音特征,从而能够在文本纠错阶段,通过识别字符的读音特征及字形特征进行文本纠错。因此,本实施例的文本纠错模型能够应用于解决因拼音或五笔输入导致的笔误问题,提升文本纠错精度。
在本公开示例性实施方式中,文本数据是由多个字符组成的文本序列。在对文本数据进行特征提取时,不仅提取单个字符的字符特征,还提取单个字符在上下文的语义特征。也就是说,字符的读音特征和字形特征与其上下文信息有相关性。
因此,具体地,对文本数据中的每个字符进行特征提取,得到字符特征,包括:对文本数据中的每个字符提取上下文信息,得到每个字符的语义特征。
在本公开示例性实施方式中,文本数据是由正文本样本及负文本样本组成的海量文本的数据,其中正文本样本为正确文本,其所包含字符均为正确字符,而负文本样本中同时包含正确字符和错误字符,这能够增强文本纠错模型的学习效果。
在本公开一种实施例中,在对文本数据中的每个字符进行特征提取之前,文本纠错模型训练方法还包括:
获取正文本样本,正文本样本中的每个字符均为正确字符;
对正文本样本中的至少一个候选字符进行错误转换处理,以得到具有语病的负文本样本;
基于正文本样本和负文本样本确定文本数据。
在本实施例中,考虑到现实中负文本样本的数据量较少,通过对正文本样本进行错误转换处理,可以获得具有语病的负文本样本,以提升负文本样本的数据量,提升文本纠错模型的训练效果。
在本公开另一种实施例中,在负文本样本的数据量充足的情况下,也可以不进行错误转换处理。
在本公开示例性实施方式中,上述错误转换处理包括如下至少一种转换方式:
字符替换;
删除字符;
增添字符。
具体地,在错误转换处理为字符替换的情况下,对正文本样本中的至少一个候选字符进行错误转换处理,以得到具有语病的负文本样本,包括:
获取候选字符的形近字字符、近音字字符及同音字字符中的至少一种,从中确定相应的目标字符,并以该目标字符对候选字符进行替换,以得到具有语病的负文本样本。
在这种情况下,字符纠错标签用来标记对该错误的目标字符进行替换所采用的推荐字符。
其中,在错误转换处理为删除字符的情况下,对正文本样本中的至少一个字符进行删除,那么对应得到的负文本样本的错误类型为少字。在这种情况下,字符纠错标签用于标记所缺少字符及其在文本中的位置。
其中,在错误转换处理为增添字符的情况下,在正文本样本中增加多余字符,那么对应得到的负文本样本的错误类型为多字。在这种情况下,字符纠错标签用于标记多余的字符及对其采用删除的纠错方式。
因此,字符纠错标签用于指示针对于相应字符所需采用的纠错方式,和/或按照纠错方式进行纠错所需采用的推荐字符。其中,纠错方式可参考上述实施例,包括字符替换、删除及增添等,对应字符错误类型采用相应的纠错方式。
在本公开示例性实施方式中,对文本数据中每个字符进行特征提取,属于字符编码过程,所得到字符特征表征为编码向量。
在本公开示例性实施方式中,在字符特征包括读音特征的情况下,对文本数据中的每个字符进行特征提取,得到字符特征,包括:
获取文本数据中每个字符的拼音,拼音用于指示字符的读音;
通过语音识别网络对每个字符对应的拼音进行编码,得到每个字符的读音特征。
示例性地,在相应的计算机设备中存储有字符与拼音之间的对应关系表。通过查询该对应关系表,确定每个字符对应的拼音,将各个拼音映射为拼音向量,由该拼音向量来指示字符的读音特征。
可选地,将拼音中的各个字母元素映射为一个子向量,再基于各个字母元素在拼音中的排列顺序,对各个字母元素对应的子向量进行拼接,得到该拼音向量,当然,也可以通过其他方式获取各个字符的拼音向量,本申请实施例对此不作限定。需要说明的是,本申请实施例中,仅以字符的读音特征表示为向量的形式为例进行说明,该读音特征也可以表示为矩阵等其他形式,本申请实施例对此不作限定。
在本公开示例性实施方式中,拼音不包含音调。这可以节省计算开销。
在本公开示例性实施方式中,在字符存在多个拼音的情况下,从多个拼音中选择一个拼音,并通过语音识别网络对所选择的拼音进行编码,得到字符的读音特征。
对于多音字的特殊情况,我们只选取其中的一种发音来输入待训练模型。虽然只选取一种发音会带来读音信息提取不准的影响,但提取多音字正确的读音会带来额外的计算开销,而且在纠错场景中还存在多音字本来就需要修改的情况,因此在这里可以只选取多音字的一种发音,从而简化问题。
在本公开示例性实施方式中,在字符特征包括字形特征的情况下,对文本数据中的每个字符进行特征提取,得到字符特征,包括:
获取相应字符的字形结构及字根,以基于所述字形结构及字根确定相应字符的字形特征。
在相应应用中,对于因五笔输入导致的文本错误,其实质就在于字形结构相似而字根错误。使用本实施方式,字符特征用字形结构及组成字符的字根进行表征,能够对因五笔输入导致的文本错误进行学习及纠错,从而提升在应用阶段的文本纠错精确度。
在本公开一种实施方式中,对字符提取其字形结构及字根,可以包括:
基于预设的字形数据库确定相应字符的字形结构及字根;其中,所述字形数据库中存储有字符,并对应的存储有相应字符的字形结构及字根。
在该实施例中,字符与字形结构及字根之间的对应关系是对大量字符进行发掘得到的。在这种情况下,在字形数据库中事先存储字符与字形结构及字根之间的对应关系,从而能够根据当前字符去字形库中匹配其所对应的字形结构及其字根。本实施方式无需使用结构复杂的深度学习模型,计算量相对较小,提升文本纠错效率。
在本公开另一种实施方式中,通过字形识别网络对字符进行识别,以提取相应字符的字形特征,该字形特征用于指示相应字符的字形结构以及字根,字根是按照该字形结构对字符进行拆分而获得的。
在该实施方式中,该字形识别网络能够对字符进行拆解,例如,字形识别网络基于字符的字形结构对字符进行拆解,也可以基于字符的笔画对字符进行拆解等。
使用本实施方式,字形识别网络可以是使用大量字符的字形特征数据训练得到的,从而在应用阶段,将当前待识别字符输入字形识别网络,字形识别网络可以识别字符的字形结构及其字根。
在本公开示例性实施方式中,在字符特征包括读音特征和字形特征的情况下,对文本数据中的每个字符进行特征提取,得到字符特征,包括:
获取每个字符对应的字符图像;
通过字形解析网络对每个字符对应的字符图像进行图像特征提取,得到每个字符的字形特征。
该字形解析网络具备图像处理功能,能够进行图像特征提取,示例性地,该字形解析网络是基于卷积神经网络构建的,包括多个用于进行图像特征提取的卷积层。获取每个字符对应的字符图像,其中,该字符图像用于指示字符的结构。
可选地,该字符图像是对文本数据中的各个字符分别进行截图所得到的图像。通过该字形解析网络对每个字符对应的字符图像进行图像特征提取,得到每个字符的字形特征。需要说明的是,本实施例对该字形解析网络的结构以及图像特征提取的方法不作限定。在本实施例中,直接对字符图像进行图像特征提取,将提取到的图像特征作为字符的字形特征,能够高效、快速的获取到各个字符的字形特征。
在本公开示例性实施方式中,字符特征还包括语义特征。可选地,使用语义识别网络对文本数据提取语义特征。
在一种可能实现方式中,该语义识别网络是BERT模型的输入层中用于提取语义特征的网络,该BERT模型能够将输入的文本数据中的各个字符映射为一个CharEmbedding,该CharEmbedding也即是字符的语义特征。
在一种可能实现方式中,该语义识别网络可以包括卷积神经网络、RNN(RecurrentNeural Network,循环神经网络)等构建的,本实施例对该语义识别网络的结构不作限定。
示例性地,通过该语义识别网络中对文本数据进行双向特征提取,使各个字符的语义特征中能够融合文本数据的上下文信息,也即是,语义识别网络在一次特征提取过程中,可以按照从左到右的顺序依次对各个字符进行语义特征提取;而在又一次的特征提取过程中,可以按照从右到左的顺序依次对各个字符进行语义特征提取。在一次特征提取过程中,能够得到每个字符对应的一个隐层特征,而经过两次特征提取,每个字符能够对应于两个隐层特征。以对文本数据中相邻的第一字符和第二字符进行特征提取为例,该第一字符位于第二字符的左侧,在一种可能实现方式中,在从左到右的特征提取顺序中,在提取到第一字符的隐层特征后,可以将该隐层特征传递给第二字符,结合该第一字符的隐层特征来生成第二字符的隐层特征,也即是,每个字符的隐层特征中都融合了前一个字符的语义信息;在从右到左的特征提取顺序中,在获取到第二字符的隐层特征后,可以将该隐层特征传递给第一字符,结合该第二字符的隐层特征来生成该第一字符的隐层特征,也即是,每个字符的隐层特征中都融合了后一个字符的语义信息。对这两个隐层特征进行特征融合,得到每个字符对应的语义特征。
需要说明的是,上述对语义特征获取方法的说明,仅是一种可能实现方式的示例性说明,本申请实施例对具体采用哪种方法获取语义特征不作限定。在本申请实施例中,通过获取包含文本上下文信息的语义特征,结合文本的上下文对错误字符进行识别和纠正,能够提高文本纠错的准确性。
在本公开示例性实施方式中,文本纠错模型包括编码器及解码器;
编码器用于对字符特征进行编码以获得对应的编码向量;
解码器用于对编码向量进行文本预测并输出相应的预测文本。
使用该文本纠错模型,能够实现端对端的文本纠错方案。
在一种实现方式中,该文本纠错模型选择文本编辑生成模型LASERTAGGER模型。在文本纠错任务中,目标句子和输入句子高度重合,因此不必从头开始生成文本,而可以基于输入句子一步一步修改到目标句子,LASERTAGGER模型可以很好地处理这一类问题。
LASERTAGGER模型结构如图2所示,模型分为编码器和解码器两个部分。编码器由12层Transformer Encoder结构构成,负责获取上下文信息特征,解码器由1层TransformerDecoder结构构成,负责结合上下文信息还原出正确的文本。
在本公开示例性实施方式中,还可以选择其他由解码器和编码器构成的文本纠错模型。
在本公开示例性实施方式中,利用字符特征对待训练模型进行训练,直至达到训练停止条件,包括:
将字符特征输入待训练模型,得到预测文本;
根据预测文本与对应的正确文本计算损失函数,并基于损失函数调整待训练模型的模型参数,直到达到训练停止条件;
其中,正确文本包括一系列第一字符,相应的第一字符均为正确字符。
在本公开示例性实施方式中,训练停止条件是结束模型训练的条件。训练停止条件可以是达到预设的迭代次数,或者是调整模型参数后的文本纠错模型的性能指标达到预设指标。调整文本纠错模型的模型参数,是对文本纠错模型的模型参数进行调整。
在本公开示例性实施方式中,在得到预测文本之后,将输出的预测文本和正确文本进行对应并计算如下所示交叉熵损失函数:
其中,N为批次(batch_size)大小,L为正确文本长度,yil为第i个样本第l个位置字符的真实标签,pil为第i个样本第l个位置字符的预测概率。
在本公开示例性实施方式中,根据对预测文本与对应的正确文本计算损失函数,包括:
确定预测文本中,与第一字符相对应的预测字符;
基于第一字符以及与之相对应的预测字符计算损失函数。
在该实施例中,在计算损失函数时,对预测文本和正确文本中的字符进行一对一计算损失函数,如上公式所示。
在本公开实施例中,文本数据中包括第二字符和第三字符,其中第二字符为正确字符,第三字符为错误字符,基于第一字符以及与之相对应的预测字符计算损失函数,包括:
对预测文本中,对应第二字符的预测字符进行降采样以及对应第三字符的预测字符进行全采样,以基于相应的采样字符以及与其对应的第一字符计算损失函数。
在文本纠错任务中大部分的字符是没有被修改的,只有少量的字符遭到了修改。因此在文本纠错任务中错误字符和正确字符存在类别不平衡的问题。基于上面的问题,本公开实施方式在计算损失函数时对错误字符进行了全采样,对没有错误的字符进行了降采样,以平衡错字和非错字之间的比例,从而提升文本纠错模型的效果。
在本公开实施例中,对应的损失函数表征如下:
在本公开示例性实施方式中,文本数据中包括第二字符和第三字符,其中第二字符为正确字符,第三字符为错误字符,基于第一字符以及与之相对应的预测字符计算损失函数,包括:
对预测文本中,对应第二字符的预测字符进行降权处理以及对应第三字符的预测字符进行升权处理,以基于相应的权重处理结果、第一字符以及与之相对应的预测字符计算损失函数。
具体地,该实施方式对应的损失函数表征如下:
其中,weight表征对错误字符对应的预测字符进行降权后的权重系数。
使用本公开示例性实施方式,通过降权重,能够起到平衡错字和非错字之间比例的效果,提升文本纠错模型的效果。
图2展示本公开一种示例性的文本纠错模型训练方法,如图2所示,上述文本纠错模型训练过程共分为四步:
1)数据增强。对训练用文本数据在进行数据增强,并对增强后的没有错误的字符进行错误变换,产生需要纠错的错误文本。
2)特征提取。对经过数据增强和错误变换的文本通过一个Embedding编码器提取对应的字符特征,包括语义特征、读音特征和字形特征,再将得到的多个字符特征进行融合。
3)模型输出。在得到融合特征之后,将融合特征输入到待训练的文本纠错模型中,输出预测文本。
4)计算损失。对模型预测文本和对应的正确文本计算损失。
下面,对如上四步的具体实现方案说明如下。
在本公开示例性实施方式中,在数据增强阶段,对正确文本,可以通过无监督或者自监督的方法生成有语病的错误文本,因此可以对正确文本进行错误变换。采用的错误变换方式如下:
(a)替换字词(对应错字类型错误)
(b)删除字词(对应少字类型错误)
(c)添加字词(对应多字类型错误)
由于模型需要结合上下文信息将有错误文本进行还原,因此在错误变换过程中会按照一定的概率对字词进行采样变换,一条文本可以有多种不同的采样方法。这样,一条正确文本就可以生成多条需要修改的文本,起到了数据增强的作用。
在本公开示例性实施方式中,在体制提取阶段,在真实的中文文本纠错应用场景中,输入形式一般都是采用拼音或者五笔,所以错误内容和正确内容在读音或者字形上基本上都是相似的。所以读音和字形的信息对于文本纠错模型的效果会有很大的提升作用。比如,在例子“他手里的苹果看起来很好吃”中,如果不考虑读音及字形,仅通过上下文去进行纠错,那么将很难得到正确的结果,“苹果”被替换为任何的食物在上下文看来都是合理的,而“党一口”很难结合上下文去理解。但如果结合了读音和字形信息之后,上述的例子中“苹果”将很容易被纠正为“苹果”,而“党一口”将很容易被纠正为“尝一口”。读音和字形所带来的额外信息可以有效地帮助文本纠错模型进行更精确地纠错。
因此,本示例性实施方式在特征提取阶段不仅对输入的字符提取特征,同时还对输入的读音和字形提取特征,然后再将三者的特征融合。这样,就得到了融合了汉字本身以及读音字形信息的融合特征,以此来提升文本纠错模型的效果,如图3所示。
对于读音特征的提取,使用了中文拼音来提取读音特征,由于使用拼音输入文本的时候是不包含音调的,所以也忽略了拼音的音调信息。
对于字形特征的提取,以汉字为例,将汉字拆分成了两部分或多个部分。
第一部分是字形结构,包含如下几种字形结构:
第二部分是字形的组成信息,包含各个字符的组成部件,如“汽”由“氵”和“气”两个部件组成,“他”由“亻”和“也”两个部件组成,“京”由“亠”、“口”和“小”三个部件组成,具体的示例如图4所示。
在本公开示例性实施方式中,使用有监督方法训练文本纠错模型,因此将文本纠错任务建模成一个序列标注任务,并给每个字符都赋予一个文本纠错标签,标签分为两类,一类为基础标签,包含如下两种:(a)删除标签,表示要删除当前字符。(b)保留标签,表示要保留当前字符。
另一类为附加标签,表示需要在该字符前面添加的短语。短语可以是一个字符,也可以是一个词语。如“KEEP|尔”表示要保留当前位置的字符,并在前面添加短语“尔”;“DELETE|龙”表示要删除当前位置的字符,并用“龙”替换。这样,就可以在模型的输入端输入一个句子,在模型的输出端得到需要对输入句子进行的修改,从而实现端到端的文本纠错。
对于一个包含了错字、少字、多字类型的输入文本,文本纠错标签如图5所示。在例子中,“哈尔滨”被写成了“哈滨”,存在少字类型错误;“黑龙江”被写成了“黑隆江”,存在错字类型错误;“的”被写成了“的的”,存在多字错误。
在本公开示例性实施方式中,对于文本纠错模型中的损失计算,可参考上文,在此不再赘述。
图6展示本公开一种实施例的文本纠错方法,如图6所示,该文本纠错方法包括:
步骤610:对待纠错文本数据进行特征提取,得到字符特征,字符特征包括读音特征和字形特征;
步骤620:将字符特征输入文本纠错模型,输出预测文本。
本实施方式能够结合待纠错文本的读音特征及字形特征,处理文本错误,从而提升文本纠错效果。
在本公开示例性实施方式中,在字符特征包括读音特征的情况下,对待纠错文本数据进行特征提取,得到字符特征,包括:
获取待纠错文本数据中每个字符的拼音,拼音用于指示字符的读音;
通过语音识别网络对每个字符对应的拼音进行编码,得到每个字符的读音特征。
在本公开示例性实施方式中,拼音不包含音调。
在本公开示例性实施方式中,通过语音识别网络对每个字符对应的拼音进行编码,得到每个字符的读音特征,包括:
在字符存在多个拼音的情况下,从多个拼音中选择一个拼音,并通过语音识别网络对所选择的拼音进行编码,得到字符的读音特征。
在本公开示例性实施方式中,在字符特征包括字形特征的情况下,对待纠错文本数据进行特征提取,得到字符特征,包括:
获取相应字符的字形结构及字根,以基于所述字形结构及字根确定相应字符的字形特征。
在本公开一种实施方式中,对所述字符提取其字形结构及字根,包括:
基于预设的字形数据库确定相应字符的字形结构及字根;其中,所述字形数据库中存储有字符,并对应的存储有相应字符的字形结构及字根。
在本公开另一种实施方式中,通过字形识别网络对字符进行识别,以提取相应字符的字形特征,该字形特征用于指示相应字符的字形结构以及字根,字根是按照该字形结构对字符进行拆分而获得的。
在本公开示例性实施方式中,在字符特征包括读音特征和字形特征的情况下,对待纠错文本数据进行特征提取,得到字符特征,包括:
获取每个字符对应的字符图像;
通过字形解析网络对每个字符对应的字符图像进行图像特征提取,得到每个字符的字形特征。
在本公开示例性实施方式中,字符特征还包括每个字符的语义特征,对待纠错文本数据进行特征提取,得到字符特征,包括:
对待纠错文本数据中的每个字符提取上下文信息,得到每个字符的语义特征。
在本公开示例性实施方式中,文本纠错模型包括编码器及解码器;
将字符特征输入文本纠错模型,输出预测文本,包括:
将字符特征输入编码器,得到编码向量;
将编码向量输入解码器,输出预测文本。
在本公开示例性实施方式中,文本纠错模型为LASERTAGGER文本编辑模型。
在本公开示例性实施方式中,文本纠错模型输出对待纠错文本的预测文本。在待纠错文本有错误的情况下,在预测文本中可以体现对待纠错文本中的错误内容进行替换、删除、增添等纠错后的正确内容。
在本公开示例性实施方式中,在预测文本中还可以体现待纠错文本中的错误内容及其位置,并包含相应的纠错标记,对该纠错标记可以参考上文字符纠错标签。该纠错标记包括用于指示针对于相应字符所需采用的纠错方式,和/或按照纠错方式进行纠错所需采用的推荐字符。
示例性装置实施例
在介绍了本公开示例性的方法实施方式之后,接下来,参考图7对本公开示例性实施方式的文本纠错模型训练装置进行描述。
由于本公开实施方式的文本纠错模型训练装置的各个功能模块或子模块与上述示例性方法实施例中的文本纠错模型训练方法的相应步骤或子步骤原理相同,故在本实施例中的具体实现可以参考之前内容,不再对相同的技术内容进行重复赘述。
如图7所示,本公开一实施例中的文本纠错模型训练装置700包括:
第一特征提取模块710,对文本数据中的每个字符进行特征提取,得到字符特征,字符特征包括读音特征和字形特征,其中每个字符携带有字符纠错标签;
训练模块720,利用字符特征对待训练模型进行训练,直至达到训练停止条件,以将训练得到的模型作为文本纠错模型。
在一些实施例中,在字符特征包括读音特征的情况下,第一特征提取模块710具体用于:
获取文本数据中每个字符的拼音,拼音用于指示字符的读音;
通过语音识别网络对每个字符对应的拼音进行编码,得到每个字符的读音特征。
在一些实施例中,拼音不包含音调。
在一些实施例中,第一特征提取模块710具体用于:
在字符存在多个拼音的情况下,从多个拼音中选择一个拼音,并通过语音识别网络对所选择的拼音进行编码,得到字符的读音特征。
在一些实施例中,在字符特征包括字形特征的情况下,第一特征提取模块710具体用于:
对所述字符提取其字形结构及字根,并对所述字形结构及字根进行编码以得到所述字符的字形特征。
在一些实施例中,第一特征提取模块710具体用于:
利用字符查询字形库,以提取所述字符所对应的字形结构及字根;
其中,在字形库中存储所述字符与字形结构及字根之间的对应关系。
在一些实施例中,第一特征提取模块710具体用于:
通过字形识别网络对字符进行识别,以提取相应字符的字形特征,该字形特征用于指示相应字符的字形结构以及字根,字根是按照该字形结构对字符进行拆分而获得的。
在一些实施例中,在字符特征包括字形特征的情况下,第一特征提取模块710具体用于:
获取每个字符对应的字符图像;
通过字形解析网络对每个字符对应的字符图像进行图像特征提取,得到每个字符的字形特征。
在一些实施例中,字符特征还包括每个字符的语义特征,第一特征提取模块710具体用于:
对文本数据中的每个字符提取上下文信息,得到每个字符的语义特征。
在一些实施例中,第一特征提取模块710具体还用于:
在对文本数据中的每个字符进行特征提取之前,获取正文本样本,正文本样本中的每个字符均为正确字符;
对正文本样本中的至少一个候选字符进行错误转换处理,以得到具有语病的负文本样本;
基于正文本样本和负文本样本确定文本数据。
在一些实施例中,错误转换处理包括如下至少一种转换方式:
字符替换;
删除字符;
增添字符。
在一些实施例中,在错误转换处理为字符替换的情况下,第一特征提取模块具体用于:
获取候选字符的形近字字符、近音字字符及同音字字符中的至少一种,从中确定相应的目标字符,并以该目标字符对候选字符进行替换,以得到具有语病的负文本样本。
在一些实施例中,文本纠错模型包括编码器及解码器;
编码器用于对字符特征进行编码以获得对应的编码向量;
解码器用于对编码向量进行文本预测并输出相应的预测文本。
在一些实施例中,训练模块720具体用于:
将字符特征输入待训练模型,得到预测文本;
根据预测文本与对应的正确文本计算损失函数,并基于损失函数调整待训练模型的模型参数,直到达到训练停止条件;
其中,正确文本包括一系列第一字符,相应的第一字符均为正确字符。
在一些实施例中,训练模块720具体用于:
确定预测文本中,与第一字符相对应的预测字符;
基于第一字符以及与之相对应的预测字符计算损失函数。
在一些实施例中,文本数据中包括第二字符和第三字符,其中第二字符为正确字符,第三字符为错误字符,训练模块720具体用于
对预测文本中,对应第二字符的预测字符进行降采样以及对应第三字符的预测字符进行全采样,以基于相应的采样字符以及与其对应的第一字符计算损失函数。
在一些实施例中,文本数据中包括第二字符和第三字符,其中第二字符为正确字符,第三字符为错误字符,训练模块720具体用于
对预测文本中,对应第二字符的预测字符进行降权处理以及对应第三字符的预测字符进行升权处理,以基于相应的权重处理结果、第一字符以及与之相对应的预测字符计算损失函数。
在一些实施例中,字符纠错标签用于指示针对于相应字符所需采用的纠错方式,和/或按照纠错方式进行纠错所需采用的推荐字符。
在一些实施例中,文本纠错模型为LASERTAGGER模型。
接下来,参考图8对本公开示例性实施方式的文本纠错装置800进行描述。
由于本公开实施方式的文本纠错装置的各个功能模块或子模块与上述示例性方法实施例中的文本纠错方法的相应步骤或子步骤原理相同,故在本实施例中的具体实现可以参考之前内容,不再对相同的技术内容进行重复赘述。
如图8所示,本公开一实施例中的文本纠错装置800包括:
第二特征提取模块810,对待纠错文本数据进行特征提取,得到字符特征,字符特征包括读音特征和字形特征;
预测模块820,将字符特征输入文本纠错模型,输出预测文本。
在一些实施例中,在字符特征包括读音特征的情况下,第二特征提取模块810具体用于:
获取待纠错文本数据中每个字符的拼音,拼音用于指示字符的读音;
通过语音识别网络对每个字符对应的拼音进行编码,得到每个字符的读音特征。
在一些实施例中,拼音不包含音调。
在一些实施例中,第二特征提取模块810具体用于:
在字符存在多个拼音的情况下,从多个拼音中选择一个拼音,并通过语音识别网络对所选择的拼音进行编码,得到字符的读音特征。
在一些实施例中,在字符特征包括字形特征的情况下,第二特征提取模块810具体用于:
对所述字符提取其字形结构及字根,并对所述字形结构及字根进行编码以得到所述字符的字形特征。
在一些实施例中,第二特征提取模块810具体用于:
利用所述字符查询字形库,以提取所述字符所对应的字形结构及字根;
其中,在字形库中存储所述字符与字形结构及字根之间的对应关系。
在一些实施例中,第二特征提取模块810具体用于:
通过字形识别网络对字符进行识别,以提取相应字符的字形特征,该字形特征用于指示相应字符的字形结构以及字根,字根是按照该字形结构对字符进行拆分而获得的。
在一些实施例中,在字符特征包括字形特征的情况下,第二特征提取模块810具体用于:
获取每个字符对应的字符图像;
通过字形解析网络对每个字符对应的字符图像进行图像特征提取,得到每个字符的字形特征。
在一些实施例中,字符特征还包括每个字符的语义特征,第二特征提取模块810具体用于
对待纠错文本数据中的每个字符提取上下文信息,得到每个字符的语义特征。
在一些实施例中,文本纠错模型包括编码器及解码器;
预测模块具体用于:
将字符特征输入编码器,得到编码向量;
将编码向量输入解码器,输出预测文本。
在一些实施例中,文本纠错模型为LASERTAGGER文本编辑模型。
示例性存储介质
在介绍了本公开示例性实施方式的方法和装置之后,接下来,参考图9对本公开示例性实施方式的存储介质进行说明。
参考图9所示,描述了根据本公开的实施方式的存储介质900,其可以包含程序代码,并可以在设备上运行,例如服务器等上运行,以实现本公开上述方法实施例中的各个步骤及子步骤的执行。在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序代码可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言-诸如Java、C++等,还包括常规的过程式程序设计语言-诸如"C"语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
示例性电子设备
在介绍了本公开示例性实施方式的存储介质之后,接下来,参考图10对本公开示例性实施方式的电子设备进行说明。
图10显示的电子设备1000仅仅是一个示例,不应对本公开示例性实施方式的功能和使用范围带来任何限制。电子设备1000可以实现于服务器等。
如图10所示,电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于:上述至少一个处理单元1010、上述至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030。
其中,存储单元存储有程序代码,程序代码可以被处理单元1010执行,使得处理单元1010执行本公开上述实施例中描述的方法的步骤及子步骤。例如,处理单元1010可以执行如图1或2实施例中的步骤。
在一些实施例中,存储单元1020可以包括易失性存储单元,例如随机存取存储单元(RAM)1021和/或高速缓存存储单元1022,还可以进一步包括只读存储单元(ROM)1023。
在一些实施例中,存储单元1020还可以包括具有一组(至少一个)程序模块1025的程序/实用工具1024,这样的程序模块1025包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
在一些实施例中,总线1030可以包括数据总线、地址总线和控制总线。
在一些实施例中,电子设备1000也可以与一个或多个外部设备1100(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(I/O)接口1050进行。可选的,电子设备1000还包括显示单元1040,其连接到输入/输出(I/O)接口1050,用于进行显示。并且,电子设备1000还可以通过网络适配器1060与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1060通过总线1030与电子设备1000的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1000使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了文本纠错模型训练装置及文本纠错装置的若干模块或子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本公开的原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (10)
1.一种文本纠错模型训练方法,其特征在于,包括:
对文本数据中的每个字符进行特征提取,得到字符特征,所述字符特征包括读音特征和字形特征,其中所述每个字符携带有字符纠错标签;
利用所述字符特征对待训练模型进行训练,直至达到训练停止条件,以将训练得到的模型作为文本纠错模型。
2.根据权利要求1所述的文本纠错模型训练方法,其特征在于,在所述字符特征包括读音特征的情况下,所述对文本数据中的每个字符进行特征提取,得到字符特征,包括:
获取所述文本数据中每个字符的拼音,所述拼音用于指示字符的读音;
通过语音识别网络对每个字符对应的拼音进行编码,得到每个字符的读音特征。
3.根据权利要求1所述的文本纠错模型训练方法,其特征在于,在所述字符特征包括字形特征的情况下,所述对文本数据中的每个字符进行特征提取,得到字符特征,包括:
获取相应字符的字形结构及字根,以基于所述字形结构及字根确定相应字符的字形特征。
4.一种文本纠错方法,其特征在于,包括:
对待纠错文本数据进行特征提取,得到字符特征,所述字符特征包括读音特征和字形特征;
将所述字符特征输入文本纠错模型,输出预测文本。
5.根据权利要求4所述的文本纠错方法,其特征在于,在所述字符特征包括读音特征的情况下,所述对待纠错文本数据进行特征提取,得到字符特征,包括:
获取所述待纠错文本数据中每个字符的拼音,所述拼音用于指示字符的读音;
通过语音识别网络对每个字符对应的拼音进行编码,得到每个字符的读音特征。
6.根据权利要求4所述的文本纠错方法,其特征在于,在所述字符特征包括字形特征的情况下,所述对待纠错文本数据进行特征提取,得到字符特征,包括:
获取相应字符的字形结构及字根,以基于所述字形结构及字根确定相应字符的字形特征。
7.一种文本纠错模型训练装置,其特征在于,包括:
第一特征提取模块,对文本数据中的每个字符进行特征提取,得到字符特征,所述字符特征包括读音特征和字形特征,其中所述每个字符携带有字符纠错标签;
训练模块,利用所述字符特征对待训练模型进行训练,直至达到训练停止条件,以将训练得到的模型作为文本纠错模型。
8.一种文本纠错装置,其特征在于,包括:
第二特征提取模块,对待纠错文本数据进行特征提取,得到字符特征,所述字符特征包括读音特征和字形特征;
预测模块,将所述字符特征输入文本纠错模型,输出预测文本。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行时实现:
权利要求1~3中任一项所述的文本纠错模型训练方法;或
权利要求4~6任一项所述的文本纠错方法。
10.一种电子设备,其特征在于,包括:
显示器;
处理单元;以及
存储单元,用于存储所述处理单元的可执行指令;
其中,所述处理单元配置为经由执行所述可执行指令来执行:
权利要求1~3中任一项所述的文本纠错模型训练方法;或
权利要求4~6任一项所述的文本纠错方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211529540.XA CN115730585A (zh) | 2022-11-30 | 2022-11-30 | 文本纠错及其模型训练方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211529540.XA CN115730585A (zh) | 2022-11-30 | 2022-11-30 | 文本纠错及其模型训练方法、装置、存储介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115730585A true CN115730585A (zh) | 2023-03-03 |
Family
ID=85299717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211529540.XA Pending CN115730585A (zh) | 2022-11-30 | 2022-11-30 | 文本纠错及其模型训练方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115730585A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116136957A (zh) * | 2023-04-18 | 2023-05-19 | 之江实验室 | 一种基于意图一致性的文本纠错方法、装置和介质 |
CN117454906A (zh) * | 2023-12-22 | 2024-01-26 | 创云融达信息技术(天津)股份有限公司 | 一种基于自然语言处理和机器学习的文字校对方法与系统 |
CN117454906B (zh) * | 2023-12-22 | 2024-05-24 | 创云融达信息技术(天津)股份有限公司 | 一种基于自然语言处理和机器学习的文字校对方法与系统 |
-
2022
- 2022-11-30 CN CN202211529540.XA patent/CN115730585A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116136957A (zh) * | 2023-04-18 | 2023-05-19 | 之江实验室 | 一种基于意图一致性的文本纠错方法、装置和介质 |
CN116136957B (zh) * | 2023-04-18 | 2023-07-07 | 之江实验室 | 一种基于意图一致性的文本纠错方法、装置和介质 |
CN117454906A (zh) * | 2023-12-22 | 2024-01-26 | 创云融达信息技术(天津)股份有限公司 | 一种基于自然语言处理和机器学习的文字校对方法与系统 |
CN117454906B (zh) * | 2023-12-22 | 2024-05-24 | 创云融达信息技术(天津)股份有限公司 | 一种基于自然语言处理和机器学习的文字校对方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684648B (zh) | 一种多特征融合的古今汉语自动翻译方法 | |
CN110196894A (zh) | 语言模型的训练方法和预测方法 | |
CN111401079A (zh) | 神经网络机器翻译模型的训练方法、装置及存储介质 | |
CN111079432B (zh) | 文本检测方法、装置、电子设备及存储介质 | |
CN114386371B (zh) | 中文拼写纠错方法、系统、设备及存储介质 | |
CN114818668B (zh) | 一种语音转写文本的人名纠错方法、装置和计算机设备 | |
CN112446211A (zh) | 文本处理装置、方法、设备和计算机可读存储介质 | |
CN113987169A (zh) | 基于语义块的文本摘要生成方法、装置、设备及存储介质 | |
CN110457713A (zh) | 基于机器翻译模型的翻译方法、装置、设备和存储介质 | |
KR20230009564A (ko) | 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치 | |
CN114818669B (zh) | 一种人名纠错模型的构建方法和计算机设备 | |
CN115658898A (zh) | 一种中英文本实体关系抽取方法、系统及设备 | |
CN112446221B (zh) | 翻译评估方法、装置、系统及计算机存储介质 | |
CN113743101B (zh) | 文本纠错方法、装置、电子设备和计算机存储介质 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN115730585A (zh) | 文本纠错及其模型训练方法、装置、存储介质及设备 | |
CN112599129B (zh) | 语音识别方法、装置、设备和存储介质 | |
CN113761895A (zh) | 文本摘要的生成方法、装置、电子设备及存储介质 | |
CN115757325B (zh) | 一种xes日志智能转换方法及系统 | |
CN115860015B (zh) | 一种基于翻译记忆的转写文本翻译方法和计算机设备 | |
CN114398489A (zh) | 一种基于Transformer的实体关系联合抽取方法、介质及系统 | |
Lv et al. | StyleBERT: Chinese pretraining by font style information | |
CN114298032A (zh) | 文本标点检测方法、计算机设备及存储介质 | |
CN112926314A (zh) | 文档的重复性识别方法、装置、电子设备以及存储介质 | |
CN113362801A (zh) | 基于梅尔谱对齐的音频合成方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |