CN116822464A - 一种文本纠错方法、系统、设备及存储介质 - Google Patents
一种文本纠错方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN116822464A CN116822464A CN202310797788.2A CN202310797788A CN116822464A CN 116822464 A CN116822464 A CN 116822464A CN 202310797788 A CN202310797788 A CN 202310797788A CN 116822464 A CN116822464 A CN 116822464A
- Authority
- CN
- China
- Prior art keywords
- text
- correction
- grammar
- sequence
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 title claims abstract description 231
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 58
- 230000008569 process Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 14
- 230000000873 masking effect Effects 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 11
- 238000012512 characterization method Methods 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 9
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 238000007499 fusion processing Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 238000006467 substitution reaction Methods 0.000 claims description 5
- 230000008707 rearrangement Effects 0.000 claims description 3
- 230000002829 reductive effect Effects 0.000 abstract description 4
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 230000008439 repair process Effects 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 description 17
- 238000012549 training Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 15
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种文本纠错方法、系统、设备及存储介质,涉及自然语言处理领域,所述方法包括步骤为:将待纠错文本输入训练后的拼写纠错模型进行拼写错误纠正,以形成拼写纠正结果,并且将待纠错文本输入训练后的语法纠错模型进行语法错误纠正,以形成语法纠正结果;对拼写纠正结果和语法纠正结果进行融合,以得到纠错后文本。本发明将中文文本错误细分为拼音错误和语法错误,并且分别针对不同类型错误采用不同模型进行纠错处理,使得不同模型能够更加准确地识别和修复不同类型的错误;并且通过将不同模型融合,利用多个模型之间的差异性,将不同模型的优点结合起来,提高纠错准确率、减少误判率、提高鲁棒性。
Description
技术领域
本发明涉及自然语言处理领域,具体而言,涉及一种文本纠错方法、系统、设备及存储介质。
背景技术
中文是一种复杂的语言,由于汉字的多音字、异形字、繁体字等特性,使得中文文本纠错技术面临着许多挑战;中文文本纠错是指通过自然语言处理技术,对中文文本中的错误进行识别和修正的过程。错误包括文字错误、语法错误。中文纠错技术在日常生活、工作和学习中具有重要的应用价值,可以提高中文输入和编辑的准确性和效率,减少用户的输入和编辑成本。
目前,主流的中文文本纠错技术主要有基于统计学的方式、基于人工规则的方式和基于深度学习的方式。基于统计学方式主要基于N元语法模型和贝叶斯分类器,通过分析语料库中的大量文本数据,来识别和纠正中文文本中的错误。但是由于中文的复杂性,这种方式的准确率和召回率都较低,难以满足实际应用的需求。基于人工规则的方式主要是通过人工定义一系列的规则,对中文文本进行分析和纠错。但是人工定义往往难以覆盖所有情况,这种方式的准确性和实用性业有限。基于深度学习方方式则是通过建立深度神经网络来实现中文文本纠错,这种方式在语义理解和上下文推断方面有着较好的表现,能够通过大量的文本数据自动学习中文的语法和语义规则,提高纠错的准确性和召回率,这种方式不仅准确性高,而且能够适应中文的复杂性和变化性,然而,基于深度学习的方式通常将中文文本中的所有错误看作同一类型,通过训练对所有错误进行纠正,因此无法准确地识别和修复不同类型的错误。
发明内容
本发明提供一种文本纠错方法、系统、设备及存储介质,解决现有基于深度学习的方式只是将中文文本中的所有错误看作同一类型,因此无法准确地识别和修复不同类型的错误的问题。
在第一方面,本发明实施例中提供一种文本纠错方法,所述方法包括以下步骤:
将待纠错文本输入训练后的拼写纠错模型进行拼写纠正编辑,以形成拼写纠正结果,并且将待纠错文本输入训练后的语法纠错模型进行语法纠正编辑,以形成语法纠正结果;
对拼写纠正结果和语法纠正结果进行融合处理,以得到纠错后文本。
于上述实施例中,本发明将中文文本错误细分为拼音错误和语法错误,并且分别针对不同类型错误通过不同模型进行处理,使得模型能够更加准确地识别和修复不同类型的错误。
作为本申请一些可选实施方式,所述语法纠错模型包括序列标注模型和序列到序列模型,通过序列表征模型能够解决输入输出不对齐的语法错误,使得中文文本纠错更加具备针对性。
作为本申请一些可选实施方式,将待纠错文本输入训练后的拼写纠错模型进行拼写纠正编辑,以形成拼写纠正结果的流程如下:
对待纠错文本中的中文句子序列进行标准化、切分处理,以形成固定长度的第一文字向量;
将第一文字向量输入训练后的拼写纠错模型,通过拼写纠错模型对固定长度的第一文字向量进行遮盖、微调处理,以形成拼写纠正结果。
作为本申请一些可选实施方式,对固定长度的第一文字向量进行遮盖即是对固定长度的第一文字向量进行掩码标记替换、字音混淆词替换和/或混淆字符拼音替换,以生成待拼音纠错序列。
于上述实施例中,本发明更改了拼写纠错模型的遮盖规则,使得上游遮盖任务和下游的微调任务统一起来,提高模型的性能和泛化能力。
作为本申请一些可选实施方式,对固定长度的第一文字向量进行微调的流程如下:
对待拼音纠错序列进行分词处理,并且基于分词处理结果映射生成词嵌入向量和拼音嵌入向量;
结合词嵌入向量对待拼音纠错序列进行句子表征错误检测,以生成字符错误概率;
结合字符错误概率选择性地对拼音嵌入向量进行拼音表征错误纠正,以形成拼写纠正结果。
作为本申请一些可选实施方式,将待纠错文本输入训练后的语法纠错模型进行语法纠正编辑,以形成语法纠正结果的流程如下:
将待纠错文本输入训练后的序列标注模型,以形成第一语法纠正结果;
将待纠错文本输入训练后的序列到序列模型,以形成第二语法纠正结果。
作为本申请一些可选实施方式,将待纠错文本输入训练后的序列标注模型,以形成第一语法纠正结果的流程如下:
对待纠错文本中的中文句子序列进行字编辑处理,以形成语法编辑文本;
将语法编辑文本输出训练后的序列标注模型,通过序列标注模型对语法编辑文本进行编辑概率预测,以输出第一语法纠正结果。
作为本申请一些可选实施方式,将待纠错文本输入训练后的序列到序列模型,以形成第二语法纠正结果的流程如下:
将待纠错文本中的中文句子序列输入训练后的序列到序列模型,通过序列到序列模型对中文句子序列进行遮盖、微调处理,以形成固定长度的第二文字向量;
对第二文字向量进行加权处理,以形成第二语法纠正结果。
作为本申请一些可选实施方式,对中文句子序列进行遮盖即是对中文句子序列进行掩码标记替换、随机字符删除、文本填充、句子重排、文档旋转,以形成固定长度的第二文字向量。
作为本申请一些可选实施方式,对拼写纠正结果和语法纠正结果进行融合,以得到纠错后文本的流程如下:
对拼写纠正结果、第一语法纠正结果以及第二语法纠正结果进行字编辑处理,以抽取所有错误纠正编辑;
将所有错误纠正编辑融合,并且将所有编辑融合重新映射到待纠错文本中,以得到纠错后文本。
在第二方面,本发明提供一种文本纠错系统,所述系统包括:
拼写纠错单元,所述拼写纠错单元用于将待纠错文本输入训练后的拼写纠错模进行拼写纠正编辑,以形成拼写纠正结果;
语法纠错单元,所述语法纠错单元用于将待纠错文本输入训练后的语法纠错模型进行语法纠正编辑,以形成语法纠正结果;
融合单元,所述融合单元用于对拼写纠正结果和语法纠正结果进行融合处理,以得到纠错后文本。
在第三方面,本发明提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行计算机程序时实现所述一种文本纠错方法。
在第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述一种文本纠错方法。
本发明的有益效果如下:
1.本发明将中文文本错误细分为拼音错误和语法错误,并且分别针对两种错误进行建模,使得模型能够更加准确地识别和修复不同类型的错误;并且通过将模型融合,利用多个模型之间的差异性,将不同模型的优点结合起来,提高纠错准确率、减少误判率、提高鲁棒性。
2.本发明更改了拼写纠错模型和序列到序列模型的遮盖规则,使得上游遮盖任务和下游的微调任务统一起来,提高模型的性能和泛化能力。
3.本发明的拼音纠错模型采用联合错误检错模块和错误纠正模块,使得错误纠正模块可以通过错误检测模块输出的错误位置信息来进行更准确的纠错,而错误检测错模块可以通过错误纠正模块输出的正确文本信息来更好地判断错误位置和类型。
4.本发明的序列标注模型能够解决输入输出不对齐的问题,即采用基于字编辑操作的方式,将纠错问题转化为序列编辑问题,且相比于序列到序列模型解码空间大幅降低,推理性能提升明显;同时由于预测的内容求解空间也大幅降低,所以对样本的需求量也大幅减少。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是根据本发明的实施例所述文本纠错方法的流程图;
图2是根据本发明的实施例所述拼写纠错模型的掩码示意图;
图3是根据本发明的实施例所述拼写纠错模型的微调示意图;
图4是根据本发明的实施例所述序列标注模型的工作流程图;
图5是根据本发明的实施例所述序列到序列模型的掩码示意图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例和实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例和实施例中的技术特征可以相互组合。
同样应当理解的是,为了简化本发明揭示的表述,从而帮助对至少一个发明实施例的理解,前文对本发明实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本发明对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
实施例1
本发明实施例提供一种文本纠错方法,所述方法包括模型训练和模型运用两部分;
(1)模型训练;
(1.1)构建若干训练数据,以形成原始数据集和原始测试集;所述训练数据每行格式为“错误句子序列/正确句子序列”,即训练数据同时包含错误句子序列以及对应的正确句子序列。
(1.2)构建拼音纠错模型,并且对拼音纠错模型进行训练;所述拼音纠错模型为深度学习模型,主要包括神经网络结构、错误检测模块、错误纠正模块。
具体的,对拼音纠错模型进行训练的流程如下:
(1.21)对原始数据集中的错误句子序列进行标准化(主要包括将繁体字转化为简体字、全角字符转化为半角字符等)、切分处理,并且将切分处理后的错误句子序列映射为固定长度的第一文字向量。
(1.22)将第一文字向量输入融入语音特征信息的神经网络结构进行预训练,神经网络结构的编码器采用三种遮盖策略对固定长度的第一文字向量进行编码处理,以生成待拼音纠错序列,这样可以避免输入差异,将神经网络结构的遮盖任务与下游错误检测模块、错误纠正模块的微调任务统一,神经网络结构融入语音特征后可以将发音类似的字符与其对应的拼音进行关联;具体的,三种遮盖策略为:①掩码标记替换;②字音混淆词替换;③混淆字符拼音替换,请参阅图2。
(1.23)请参阅图3,将待拼音纠错序列输入错误检测模块进行分词处理,并且将分词处理后待拼音纠错序列映射为词嵌入向量和拼音嵌入向量,然后将词嵌入向量和拼音嵌入向量通过编码器转换为一系列上下文相关的特征表示,以得到词嵌入表征和拼音嵌入表征;最后通过全连接层对词嵌入表征和拼音嵌入表征进行降维处理,使用归一化函数计算生成字符错误概率。
所述待拼音纠错序列分词后表示为:
所述字符错误概率表示为:
peer=softmax(fdet(E(ew))) (2)
其中,ew表示待拼音纠错序列Xw的词嵌入表征,E表示步骤(1.22)中神经网络结构的编码器,fdet表示错误检测模块的全连接层。
(1.24)将词嵌入向量和拼音嵌入向量同时输入错误纠正模块,结合字符错误概率选择性地对拼音嵌入向量进行拼音表征错误纠正,以形成拼写纠正结果。
即首先判断待拼音纠错序列Xw是否错误:
em=(1-Peer)·ew+Peer·ep (3)
其中,ep表示拼音嵌入表征,peer表示每个字符在错误检测模块中被预测为错误字符的概率(如果peer=0,表示字符是正确的,那么错误纠正模块只使用词嵌入表征。如果是peer=1,表示该字符/>是错误的,并且该错误纠正模块使用其拼音嵌入表征)。
然后进行错误纠正,输出拼写纠正结果:
y=soffmax(fcrt(E(em))) (4)
其中,fcrt表示错误纠正模块的全连接层。
(1.25)采用联合建模的方式同时优化错误检测模块的损失函数Ld和错误纠正模块的损失函数Lc,以得到模型总的损失函数Loss,所述错误检测模块和错误纠正模块均使用交叉熵损失函数计算损失函数,并且通过反向传播算法进行参数优化;
Loss=Ld+Lc (5)
(1.3)构建语法纠错模型,并且对语法纠错模型进行模型训练;所述语法纠错模型包括序列标注模型和序列到序列模型;其中,所述序列标注模型和序列到序列模型均为深度学习模型,主要包括神经网络结构。
具体的,请参阅图4,对序列标注模型进行训练的流程如下:
(1.31)对原始数据中错误句子序列进行字编辑操作,包括抽取、保留、删除、添加和替换,如下例所示:
错误句子序列:“我喜环打篮和羽毛球。”
正确句子序列:“我喜欢打篮球和羽毛球。”
字编辑操作后的错误句子序列:“$KEEP$KEEP$REP_欢$KEEP$APP_球$KEEP$KEEP$KEEP$KEEP$KEEP”。
(1.32)将字编辑操作之后的错误句子序列输入神经网络结构的编码器转换为一系列上下文相关的特征表示,以得到词嵌入表征,然后通过全连接层对词嵌入表征进行降维处理,使用归一化函数计算预测最可能的编辑操作。
(1.33)使用交叉熵损失函数计算损失函数,并且通过反向传播算法进行参数优化,不断迭代更新预测编辑,将预测后的编辑运用到错误句子序列中,以形成第一语法纠正结果。
具体的,对序列到序列模型进行训练的流程如下:
(1.34)将原始数据集中错误句子序列输入神经网络结构的编码器进行预训练,神经网络结构的编码器采用五种遮盖策略对错误句子序列进行处理,以生成固定长度的第二文字向量;具体的,五种遮盖策略为:①掩码标记替换;②随机字符删除;③文本填充,随机将一段连续的字符替换成一个掩码,如果此时被替换的字符长度为0,则相当于直接往原始输入文本中插入一个掩码标记;④句子排列,按照终止符分割句子序列,然后随机打乱;⑤文档旋转,随机选择一个位置,将这个位置旋转至开始,请参阅图5。
(1.35)将第二文字向量输入神经网络结构的解码器对第二文字向量每个时间步的信息进行加权处理,以实现微调;这样可以避免输入差异,将神经网络结构的遮盖任务与下游微调任务统一。
(1.36)使用交叉熵损失函数计算损失函数,并且通过反向传播算法进行参数优化,不断迭代更新预测编辑,将预测后的编辑运用到错误句子序列中,以形成第二语法纠正结果。
(1.4)模型融合;
(1.41)分别将训练后的三个模型在原始测试集上进行推断,并将推断结果进行字编辑操作,采用编辑抽取工具,将所有纠错编辑以及错误类型抽取出来。
(1.42)融合三种模型的结果:纠错编辑是否判断正确取决于不同模型对该编辑的投票,对于每种类型的编辑,设置一个阈值N/2+1,如果做出编辑的模型个数超过该阈值,则保留此编辑,此处N代表参与投票模型个数,阈值为自适应阈值。
(1.43)多个模型融合结果中出现同一个位置有多个错误类型的情况时,比较参与判定模型推断出的错误相同数目,数目最大的认为是正确样本。
(1.44)将保留的编辑,重新映射到错误句子序列,以得到最终纠错结果。
(2)模型运用,请参阅图1;
(2.1)将待纠错文本输入训练后的拼写纠错模型进行拼写纠正编辑,以形成拼写纠正结果。
于本发明实施例中,将待纠错文本输入训练后的拼写纠错模型进行拼写错误纠正,以形成拼写纠正结果的流程如下:
(2.11)对待纠错文本中的中文句子序列进行标准化、切分处理,以形成固定长度的第一文字向量。
(2.22)将第一文字向量输入训练后的拼写纠错模型,通过拼写纠错模型的神经网络结构对第一文字向量进行遮盖,并且通过错误检测模块、错误纠正模块对掩盖后的第一文字向量进行微调处理,以形成拼写纠正结果。
其中,对第一文字向量进行遮盖即是通过神经网络结构的编码器对第一文字向量进行掩码标记替换、字音混淆词替换和/或混淆字符拼音替换,以生成待拼音纠错序列。
于本发明实施例中,对第一文字向量进行微调的流程如下:
①将待拼音纠错序列输入错误检测模块,通过编码器对待拼音纠错序列进行分词处理,并且基于分词处理结果映射生成词嵌入向量和拼音嵌入向量。
②结合词嵌入向量对待拼音纠错序列进行句子表征错误检测,以生成字符错误概率,即将词嵌入向量和拼音嵌入向量通过编码器转换为一系列上下文相关的特征表示,以得到词嵌入表征和拼音嵌入表征;并且通过全连接层对词嵌入表征和拼音嵌入表征进行降维处理,使用归一化函数计算生成字符错误概率。
③结合字符错误概率选择性地对拼音嵌入向量进行拼音表征错误纠正,以形成拼写纠正结果,即将词嵌入向量和拼音嵌入向量同时输入错误纠正模块,结合字符错误概率选择性地对拼音嵌入向量进行拼音表征错误纠正,以形成拼写纠正结果。
(2.2)将待纠错文本输入训练后的语法纠错模型进行语法纠正编辑,以形成语法纠正结果。
于本发明实施例中,将待纠错文本输入训练后的语法纠错模型进行语法纠正编辑,以形成语法纠正结果的流程如下:
(2.21)将待纠错文本输入训练后的序列标注模型,以形成第一语法纠正结果。
具体的,将待纠错文本输入训练后的序列标注模型,以形成第一语法纠正结果的流程如下:
①通过序列标注模型的神经网络结构的编码器对待纠错文本中的中文句子序列进行字编辑处理,包括抽取、保留、删除、添加和替换,以形成语法编辑文本。
②将语法编辑文本输出训练后的序列标注模型,通过序列标注模型对语法编辑文本进行编辑概率预测,以输出第一语法纠正结果。
(2.22)将待纠错文本输入训练后的序列到序列模型,以形成第二语法纠正结果;
于本发明实施例中,将待纠错文本输入训练后的序列到序列模型,以形成第二语法纠正结果的流程如下:
①将待纠错文本中的中文句子序列输入训练后的序列到序列模型,通过序列到序列模型的神经网络结构的编码器对中文句子序列进行遮盖,以形成第二文字向量。
其中,对中文句子序列进行遮盖即是对中文句子序列进行掩码标记替换、随机字符删除、文本填充、句子重排和/或文档旋转,以形成第二文字向量。
②对第二文字向量进行加权处理,以形成第二语法纠正结果。
(2.3)对拼写纠正结果和语法纠正结果进行融合处理,以得到纠错后文本。
于本发明实施例中,对拼写纠正结果和语法纠正结果进行融合,以得到纠错后文本的流程如下:
(2.31)采用编码器对拼写纠正结果、第一语法纠正结果以及第二语法纠正结果进行字编辑处理,以抽取所有错误纠正编辑。
(2.32)将所有错误纠正编辑融合,并且将所有编辑融合重新映射到待纠错文本中,以得到纠错后文本。
于本发明实施例中,模型训练过程与模型运用过程中,数据的处理原理是相同的,只是数据处理对象不同,即模型训练的数据输入对象为训练数据,而模型运用的输入对象为待纠错文本,并且在模型训练过程中,需要对模型的参数设置以及优化。
实施例2
本发明提供一种文本纠错系统,所述系统与实施例1的所述方法一一对应,请参阅图2,所述系统包括:
拼写纠错单元,所述拼写纠错单元用于将待纠错文本输入训练后的拼写纠错模型进行拼写错误纠正,以形成拼写纠正结果;
语法纠错单元,所述语法纠错单元用于将待纠错文本输入训练后的语法纠错模型进行语法错误纠正,以形成语法纠正结果;
融合单元,所述融合单元用于对拼写纠正结果和语法纠正结果进行融合,以得到纠错后文本。
实施例3
本发明提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行计算机程序时实现实施例1所述一种文本纠错方法。
本实施例提供的计算机设备可以实现执行实施例1所述的方法,为避免重复,在此不再赘述。
实施例4
本发明提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,述计算机程序被处理器执行时实现实施例1所述一种文本纠错方法。
本实施例提供的计算机可读存储介质可以实现执行实施例1所述的方法,为避免重复,在此不再赘述。
所述处理器可以是中央处理器(CPU,Central Processing Unit),还可以是其他通用处理器、数字信号处理器(digital signal processor)、专用集成电路(ApplicationSpecific Integrated Circuit)、现成可编程门阵列(Field programmable gate array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的数据,实现发明中文本纠错系统的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等。此外,存储器可以包括高速随机存取存储器、还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡,安全数字卡,闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
文本纠错系统如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序可存储于一计算机可读存介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码、对象代码形式、可执行文件或某些中间形式等。所述计算机可读取介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存储器、点载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
本发明已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
Claims (13)
1.一种文本纠错方法,其特征在于,所述方法包括以下步骤:
将待纠错文本输入训练后的拼写纠错模型进行拼写纠正编辑,以形成拼写纠正结果,并且将待纠错文本输入训练后的语法纠错模型进行语法纠正编辑,以形成语法纠正结果;
对拼写纠正结果和语法纠正结果进行融合处理,以得到纠错后文本。
2.根据权利要求1所述的一种文本纠错方法,其特征在于,所述语法纠错模型包括序列标注模型和序列到序列模型。
3.根据权利要求1所述的一种文本纠错方法,其特征在于,将待纠错文本输入训练后的拼写纠错模型进行拼写纠正编辑,以形成拼写纠正结果的流程如下:
对待纠错文本中的中文句子序列进行标准化、切分处理,以形成固定长度的第一文字向量;
将第一文字向量输入训练后的拼写纠错模型,通过拼写纠错模型对第一文字向量进行遮盖、微调处理,以形成拼写纠正结果。
4.根据权利要求3所述的一种文本纠错方法,其特征在于,对第一文字向量进行遮盖即是对第一文字向量进行掩码标记替换、字音混淆词替换和/或混淆字符拼音替换,以生成待拼音纠错序列。
5.根据权利要求4所述的一种文本纠错方法,其特征在于,对第一文字向量进行微调的流程如下:
对待拼音纠错序列进行分词处理,并且基于分词处理结果映射生成词嵌入向量和拼音嵌入向量;
结合词嵌入向量对待拼音纠错序列进行句子表征错误检测,以预测字符错误概率;
结合字符错误概率选择性地对拼音嵌入向量进行拼音表征错误纠正,以形成拼写纠正结果。
6.根据权利要求2所述的一种文本纠错方法,其特征在于,将待纠错文本输入训练后的语法纠错模型进行语法纠正编辑,以形成语法纠正结果的流程如下:
将待纠错文本输入训练后的序列标注模型,以形成第一语法纠正结果;
将待纠错文本输入训练后的序列到序列模型,以形成第二语法纠正结果。
7.根据权利要求6所述的一种文本纠错方法,其特征在于,将待纠错文本输入训练后的序列标注模型,以形成第一语法纠正结果的流程如下:
对待纠错文本中的中文句子序列进行字编辑处理,以形成语法编辑文本;
将语法编辑文本输出训练后的序列标注模型,通过序列标注模型对语法编辑文本进行编辑概率预测,以输出第一语法纠正结果。
8.根据权利要求6所述的一种文本纠错方法,其特征在于,将待纠错文本输入训练后的序列到序列模型,以形成第二语法纠正结果的流程如下:
将待纠错文本中的中文句子序列输入训练后的序列到序列模型,通过序列到序列模型对中文句子序列进行遮盖,以形成第二文字向量;
对第二文字向量进行加权处理,以形成第二语法纠正结果。
9.根据权利要求8所述的一种文本纠错方法,其特征在于,对中文句子序列进行遮盖即是对中文句子序列进行掩码标记替换、随机字符删除、文本填充、句子重排和/或文档旋转,以形成第二文字向量。
10.根据权利要求6所述的一种文本纠错方法,其特征在于,对拼写纠正结果和语法纠正结果进行融合,以得到纠错后文本的流程如下:
对拼写纠正结果、第一语法纠正结果以及第二语法纠正结果进行字编辑处理,以抽取所有错误纠正编辑;
将所有错误纠正编辑融合,并且将所有编辑融合重新映射到待纠错文本中,以得到纠错后文本。
11.一种文本纠错系统,其特征在于,所述系统包括:
拼写纠错单元,所述拼写纠错单元用于将待纠错文本输入训练后的拼写纠模型进行拼写纠正编辑,以形成拼写纠正结果;
语法纠错单元,所述语法纠错单元用于将待纠错文本输入训练后的语法纠错模型进行语法纠正编辑,以形成语法纠正结果;
融合单元,所述融合单元用于对拼写纠正结果和语法纠正结果进行融合处理,以得到纠错后文本。
12.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于:所述处理器执行计算机程序时实现权利要求1-10中任一项所述一种文本纠错方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-10中任一项所述一种文本纠错方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310797788.2A CN116822464A (zh) | 2023-07-03 | 2023-07-03 | 一种文本纠错方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310797788.2A CN116822464A (zh) | 2023-07-03 | 2023-07-03 | 一种文本纠错方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116822464A true CN116822464A (zh) | 2023-09-29 |
Family
ID=88127222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310797788.2A Pending CN116822464A (zh) | 2023-07-03 | 2023-07-03 | 一种文本纠错方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116822464A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117094311A (zh) * | 2023-10-19 | 2023-11-21 | 山东齐鲁壹点传媒有限公司 | 一种关于中文语法纠错的误纠过滤器的建立方法 |
CN117151084A (zh) * | 2023-10-31 | 2023-12-01 | 山东齐鲁壹点传媒有限公司 | 一种中文拼写、语法纠错方法、存储介质及设备 |
-
2023
- 2023-07-03 CN CN202310797788.2A patent/CN116822464A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117094311A (zh) * | 2023-10-19 | 2023-11-21 | 山东齐鲁壹点传媒有限公司 | 一种关于中文语法纠错的误纠过滤器的建立方法 |
CN117094311B (zh) * | 2023-10-19 | 2024-01-26 | 山东齐鲁壹点传媒有限公司 | 一种关于中文语法纠错的误纠过滤器的建立方法 |
CN117151084A (zh) * | 2023-10-31 | 2023-12-01 | 山东齐鲁壹点传媒有限公司 | 一种中文拼写、语法纠错方法、存储介质及设备 |
CN117151084B (zh) * | 2023-10-31 | 2024-02-23 | 山东齐鲁壹点传媒有限公司 | 一种中文拼写、语法纠错方法、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11487954B2 (en) | Multi-turn dialogue response generation via mutual information maximization | |
JP5128629B2 (ja) | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 | |
CN116822464A (zh) | 一种文本纠错方法、系统、设备及存储介质 | |
CN108052499B (zh) | 基于人工智能的文本纠错方法、装置及计算机可读介质 | |
CN110795938B (zh) | 文本序列分词方法、装置及存储介质 | |
CN105279149A (zh) | 一种中文文本自动校正方法 | |
US11227110B1 (en) | Transliteration of text entry across scripts | |
CN113948066B (zh) | 一种实时转译文本的纠错方法、系统、存储介质和装置 | |
CN116956835B (zh) | 一种基于预训练语言模型的文书生成方法 | |
CN115293138B (zh) | 一种文本纠错方法及计算机设备 | |
US10394960B2 (en) | Transliteration decoding using a tree structure | |
CN114818668A (zh) | 一种语音转写文本的人名纠错方法、装置和计算机设备 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN113673228A (zh) | 文本纠错方法、装置、计算机存储介质及计算机程序产品 | |
CN115293139A (zh) | 一种语音转写文本纠错模型的训练方法和计算机设备 | |
CN112446221B (zh) | 翻译评估方法、装置、系统及计算机存储介质 | |
CN113553847A (zh) | 用于对地址文本进行解析的方法、装置、系统和存储介质 | |
WO2021159803A1 (zh) | 文本摘要生成方法、装置、计算机设备及可读存储介质 | |
CN111090970B (zh) | 语音识别后的文本标准化处理方法 | |
CN110929514B (zh) | 文本校对方法、装置、计算机可读存储介质及电子设备 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN102955770A (zh) | 一种拼音自动识别方法及系统 | |
CN115904482B (zh) | 接口文档生成方法、装置、设备及存储介质 | |
CN116757184A (zh) | 融合发音特征的越南语语音识别文本纠错方法及系统 | |
JP6261669B2 (ja) | クエリ校正システムおよび方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |