CN114548053A - 一种基于编辑方法的文本对比学习纠错系统、方法及装置 - Google Patents
一种基于编辑方法的文本对比学习纠错系统、方法及装置 Download PDFInfo
- Publication number
- CN114548053A CN114548053A CN202210155865.XA CN202210155865A CN114548053A CN 114548053 A CN114548053 A CN 114548053A CN 202210155865 A CN202210155865 A CN 202210155865A CN 114548053 A CN114548053 A CN 114548053A
- Authority
- CN
- China
- Prior art keywords
- text
- training
- decoder
- prediction
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012549 training Methods 0.000 claims description 125
- 239000013604 expression vector Substances 0.000 claims description 52
- 230000003321 amplification Effects 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims 2
- 239000013598 vector Substances 0.000 abstract description 23
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 241000234314 Zingiber Species 0.000 description 1
- 235000006886 Zingiber officinale Nutrition 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000008397 ginger Nutrition 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于编辑方法的文本对比学习纠错系统、方法及装置,涉及文本纠错技术领域。本发明首先对输入的源文本送入编码器和解码器A,得到源文本表示向量,通过表示向量预测出对每个字符需要进行的操作,利用预测出的操作及文本表示向量预测出操作在文本的结束位置,接着将文本表示向量、对文本的操作以及操作结束位置输入解码器B预测出替换内容。最后通过编辑算法,对源文本进行编辑操作,得到目标文本。相较于端到端纠错模型,本实施例通过引入对比学习模块,增加了编码模块的表示能力;分步骤操作,提高了模型可解释性以及可控性;通过设置各解码器预测内容,可按需操作,适用于不同场景任务。
Description
技术领域
本发明涉及文本纠错技术领域,尤其涉及一种基于编辑方法的文本对比学习纠错系统、方法及装置。
背景技术
随着科技的进步与时代的发展,越来越多的智能技术运用在我们日常生活中,帮助我们更好的处理工作与生活中的各种任务。在文字办公时尤其是政务领域对文本字词使用正确与否及其敏感,故需要我们通过技术的手段对源文本进行文本纠错。
文本纠错主要是针对文本中出现的错误进行检测和纠正,属于综合性的自然语言处理研究子方向,能够比较全面体现自然语言处理的技术水平,且具有广阔的应用前景。
国内外已经有诸如飞鹰智能文本校对系统、pycorector、NOUNPLUS、Ginger等文本纠错工具投入使用,这些系统根据使用者目的找出文本中的拼写错误,语法错误。中文文本纠错有两种解决思路,基于规则和深度模型。基于规则的解决思路:通过切词,从字粒度和词粒度两方面检测,形成疑似错误位置候选集,遍历疑似错误位置,并使用音似、形似词典替换错误位置的词,通过语言模型计算句子困惑度,对所有候选集结果比较并排序,得到最优纠正词。此方法需要人工提取特征,创建候选词典,过程繁琐且难以适用于复杂场景。基于深度模型的解决思路:深度模型实现大多使用端到端的方法,利用深度神经网络模型的强大语言表征能力以及语言建模能力,进行文本纠错,此种方法避免了人工提取特征,且对文本任务的拟合能力强。
深度模型提供的“端到端”的学习范式,整个学习的流程并不进行人为的子问题划分,而是完全交给深度学习模型直接学习从原始数据到期望输出的映射;即:端到端的学习其实就是不做其他额外处理,从原始数据输入到任务结果输出,整个训练和预测过程,都是在模型里完成的。但鉴于政务领域文本纠错依赖于政务词典,且表述语句有着较强的逻辑性,端到端模型难以达到预期纠错效果。
因此,有必要提供一种基于编辑方法的文本对比学习纠错系统、方法及装置来解决上述技术问题。
发明内容
为解决上述技术问题,本发明一种基于编辑方法的文本对比学习纠错系统,用于对源文本进行文本纠错,包括编码器、解码器A、解码器B和编辑算法模块。
具体述的,所编码器用于将源文本转化为表示向量,所述编码器通过正文本样例与负文本样例训练得到,并利用对比损失公式,拉近相似正文本样例表示向量之间的距离,扩大非相似样本之间的表示向量距离,并将表示向量对齐,得到表示向量。
具体的,所述解码器A用于对表示向量进行操作预测t与结束位置预测p,得到文本操作序列和文本结束位置序列;所述解码器B用于对表示向量进行替换内容预测r,得到文本替换内容序列。
具体的,所述编辑算法模块根据解码器A与解码器B得到的文本操作序列、文本结束位置序列和文本替换内容序列进行文本编辑合成,通过文本操作序列选择对应执行操作,通过文本结束位置序列选择对应执行操作位置,通过文本替换内容序列在文本对应位置按照对应操作填充替换内容,得到目标文本,完成文本纠错。
作为更进一步的解决方案,所述编码器、解码器A和解码器B均通过Transformer模块进行设置,并通过已标注训练样本进行训练得到预测模型。
作为更进一步的解决方案,对比损失训练公式如下:
其中,N表示训练样本数,(hi,h’i)表示正样本句子对;(hi,hj)表示负样本句子对;(hi,h’j)表示扩展的负样本句子对;i与j表示同批不同类的数据。
一种基于编辑方法的文本对比学习纠错方法,运用于如上述任意一项所述的一种基于编辑方法的文本对比学习纠错系统中,将源文本的文本纠错任务分割为操作预测t、结束位置预测p和替换内容预测r,并通过对应解码器进行预测;所述操作预测t和结束位置预测p通过解码器A进行,所述替换内容预测r通过解码器B进行。
作为更进一步的解决方案,通过以下步骤实现对原文本的对比学习纠错:
S1获取待纠错的源文本;
S2将源文本送入编码器进行编码,得到表示向量;
S3将表示向量送入解码器A并进行操作预测t,得到文本操作序列;
S4将文本操作序列和表示向量共同送入解码器A并进行结束位置预测p,得到文本结束位置序列;
S5将表示向量、文本操作序列和文本结束位置序列送入解码器B并进行替换内容预测r,得到文本替换内容序列;
S6将表示向量、文本操作序列、文本结束位置序列和文本替换内容序列送入编辑算法模块并进行文本算法编辑,得到目标文本;
S7根据所得目标文本,完成最终的文本纠错与替换。
作为更进一步的解决方案,通过如下步骤训练得到编码器:
D1通过人工/机器进行训练正负样本数据采集,得到正文本样例hi与负文本样例hj;
D2对正文本样例hi与负文本样例hj进行数据扩增,得到正文本扩增样例h’i与负文本扩增样例hj’;
D3组建Transformer编码器模块;
D4组合相似的正样本句子对(hi,h’i)、非相似的负样本句子对(hi,hj)和扩展的负样本句子对(hi,hj’);
D5将正样本句子对(hi,h’i)、负样本句子对(hi,hj)和扩展的负样本句子对(hi,hj’)输入Transformer编码器模块进行对比损失训练;
D6拉近正样本句子对之间的编码距离,扩大负样本句子对之间的编码距离,使Transformer编码器模块学习到正负样本数据之间的表述差异;
D7完成训练,得到编码器。
作为更进一步的解决方案,通过如下步骤训练得到解码器A的操作预测t部分:
A1收集大量待纠错文本,得到学习纠错语料;
A2对待纠错文本各字符通过人工/机器进行操作标注,得到操作训练序列;
A3将待纠错文本通过编码器转化为训练表示向量;
A4将训练表示向量和对应操作训练序列输入Transformer解码器模块进行操作预测训练;
A5对Transformer解码器模块进行重复训练,直至能通过训练表示向量得到的操作预测t,与对应操作训练序列的误差处于操作预测置信区间内;
A6将操作预测置信区间内的Transformer解码器模块输出作为解码器A的操作预测t部分。
作为更进一步的解决方案,通过如下步骤训练得到解码器A的结束位置预测p部分:
B1收集大量待纠错文本,得到学习纠错语料;
B2对待纠错文本各字符通过人工/机器进行操作标注和结束位置标注,得到操作训练
序列和结束位置训练序列;
B3将待纠错文本通过编码器转化为训练表示向量;
B4将训练表示向量、操作训练序列和结束位置训练序列输入Transformer解码器模块进行结束位置预测训练;
B5对Transformer解码器模块进行重复训练,直至能通过训练表示向量和操作训练序列得到的结束位置预测p,与对应结束位置训练序列的误差处于结束位置预测置信区间内;
B6将结束位置预测置信区间内的Transformer解码器模块输出作为解码器A的结束位置预测p部分。
作为更进一步的解决方案,通过如下步骤训练得到解码器B的替换内容预测r部分:
C1收集大量待纠错文本,得到学习纠错语料;
C2对待纠错文本各字符通过人工/机器进行操作标注、结束位置标注和替换内容标注,得到操作训练序列、结束位置训练序列和替换内容训练序列;
C3将待纠错文本通过编码器转化为训练表示向量;
C4将训练表示向量、操作训练序列、结束位置训练序列和替换内容训练序列输入Transformer解码器模块进行替换内容预测训练;
C5对Transformer解码器模块进行重复训练,直至能通过训练表示向量、操作训练序列和结束位置训练序列得到的替换内容预测r,与对应替换内容训练序列的误差处于替换内容预测置信区间内;
C6将替换内容预测置信区间内的Transformer解码器模块输出作为解码器B的替换内容预测r部分。
作为更进一步的解决方案,一种基于编辑方法的文本对比学习纠错装置,所述装置包括处理器和存储介质,所述存储介质存储有指令,所述指令被所述处理器运行时,使得所述装置执行上述任意一项所述的方法。
与相关技术相比较,本发明提供的一种基于编辑方法的文本对比学习纠错系统、方法及装置具有如下有益效果:
1、本发明通过加入了对比学习机制的编码器对源文本进行编码,得到的表示向量,相较于“端到端”的纠错模型,更具备表示能力;
2、本发明在对于对源文本进行文本纠错时,采用了分步骤操作,提高了模型可解释性以及可控性;通过设置各解码器预测内容,可按需操作,适用于不同场景任务。
3、本发明在训练解码器A与解码器B时,通过输入操作训练序列、结束位置训练序列和替换内容训练序列进行反复训练,并只输出置信域内的模块,来使模型预测准确度更高;
4、本发明所提供的基于编辑方法的文本对比学习纠错方法相较于“端到端”的纠错模型,更具备可理解性,便于后期维护和改进。
附图说明
图1为本发明提供的一种基于编辑方法的文本对比学习纠错方法较佳实施例流程示意图;
图2为本发明提供的存在用词错误及表述错误的政务文本通过算法纠错后的结果较佳实施例示意图。
具体实施方式
下面结合附图和实施方式对本发明作进一步说明。
如图1与图2所示,一种基于编辑方法的文本对比学习纠错系统,用于对源文本进行文本纠错,包括编码器、解码器A、解码器B和编辑算法模块。
具体述的,所编码器用于将源文本转化为表示向量,所述编码器通过正文本样例与负文本样例训练得到,并利用对比损失公式,拉近相似正文本样例表示向量之间的距离,扩大非相似样本之间的表示向量距离,并将表示向量对齐,得到表示向量。
具体的,所述解码器A用于对表示向量进行操作预测t与结束位置预测p,得到文本操作序列和文本结束位置序列;所述解码器B用于对表示向量进行替换内容预测r,得到文本替换内容序列。
具体的,所述编辑算法模块根据解码器A与解码器B得到的文本操作序列、文本结束位置序列和文本替换内容序列进行文本编辑合成,通过文本操作序列选择对应执行操作,通过文本结束位置序列选择对应执行操作位置,通过文本替换内容序列在文本对应位置按照对应操作填充替换内容,得到目标文本,完成文本纠错。
需要说明的是:本实施例提出的一种基于编辑方法的文本对比学习纠错系统,首先对输入的源文本,送入编码器和解码器A,得到源文本表示向量,通过表示向量预测出对每个字符需要进行的操作,利用预测出的操作及文本表示向量预测出操作在文本的结束位置,接着将文本表示向量、对文本的操作以及操作结束位置输入解码器B预测出替换内容。最后通过编辑算法,对源文本进行编辑操作,得到目标文本。相较于端到端纠错模型,本实施例通过引入对比学习模块,增加了编码模块的表示能力;分步骤操作,提高了模型可解释性以及可控性;通过设置各解码器预测内容,可按需操作,适用于不同场景任务。
作为更进一步的解决方案,所述编码器、解码器A和解码器B均通过Transformer模块进行设置,并通过已标注训练样本进行训练得到预测模型。
作为更进一步的解决方案,对比损失训练公式如下:
其中,N表示训练样本数,(hi,h’i)表示正样本句子对;(ji,hj)表示负样本句子对;(hi,h’j)表示扩展的负样本句子对;i与j表示同批不同类的数据。
一种基于编辑方法的文本对比学习纠错方法,运用于如上述任意一项所述的一种基于编辑方法的文本对比学习纠错系统中,将源文本的文本纠错任务分割为操作预测t、结束位置预测p和替换内容预测r,并通过对应解码器进行预测;所述操作预测t和结束位置预测p通过解码器A进行,所述替换内容预测r通过解码器B进行。
作为更进一步的解决方案,通过以下步骤实现对原文本的对比学习纠错:
S1获取待纠错的源文本;
S2将源文本送入编码器进行编码,得到表示向量;
S3将表示向量送入解码器A并进行操作预测t,得到文本操作序列;
S4将文本操作序列和表示向量共同送入解码器A并进行结束位置预测p,得到文本结束位置序列;
S5将表示向量、文本操作序列和文本结束位置序列送入解码器B并进行替换内容预测r,得到文本替换内容序列;
S6将表示向量、文本操作序列、文本结束位置序列和文本替换内容序列送入编辑算法模块并进行文本算法编辑,得到目标文本;
S7根据所得目标文本,完成最终的文本纠错与替换。
需要说明的是:为得到最终纠错结果y,需对源文本x依次进行操作预测t(Tagprediction)、结束位置预测p(Span end position prediction)以及替换内容预测r(Replacement token prediction),即求取概率:
作为更进一步的解决方案,通过如下步骤训练得到编码器:
D1通过人工/机器进行训练正负样本数据采集,得到正文本样例hi与负文本样例hj;
D2对正文本样例hi与负文本样例hj进行数据扩增,得到正文本扩增样例h’i与负文本扩增样例h’j;
D3组建Transformer编码器模块;
D4组合相似的正样本句子对(hi,h’i)、非相似的负样本句子对(hi,hj)和扩展的负样本句子对(hi,h’j);
D5将正样本句子对(hi,h’i)、负样本句子对(hi,hj)和扩展的负样本句子对(hi,h’j)输入Transformer编码器模块进行对比损失训练;
D6拉近正样本句子对之间的编码距离,扩大负样本句子对之间的编码距离,使Transformer编码器模块学习到正负样本数据之间的表述差异;
D7完成训练,得到编码器。
需要说明的是:相较于端到端纠错模型,通过引入对比学习模块,增加了编码模块的表示能力以及政务语料表述学习能力。
作为更进一步的解决方案,通过如下步骤训练得到解码器A的操作预测t部分:
A1收集大量待纠错文本,得到学习纠错语料;
A2对待纠错文本各字符通过人工/机器进行操作标注,得到操作训练序列;
A3将待纠错文本通过编码器转化为训练表示向量;
A4将训练表示向量和对应操作训练序列输入Transformer解码器模块进行操作预测训练;
A5对Transformer解码器模块进行重复训练,直至能通过训练表示向量得到的操作预测t,与对应操作训练序列的误差处于操作预测置信区间内;
A6将操作预测置信区间内的Transformer解码器模块输出作为解码器A的操作预测t部分。
作为更进一步的解决方案,通过如下步骤训练得到解码器A的结束位置预测p部分:
B1收集大量待纠错文本,得到学习纠错语料;
B2对待纠错文本各字符通过人工/机器进行操作标注和结束位置标注,得到操作训练
序列和结束位置训练序列;
B3将待纠错文本通过编码器转化为训练表示向量;
B4将训练表示向量、操作训练序列和结束位置训练序列输入Transformer解码器模块进行结束位置预测训练;
B5对Transformer解码器模块进行重复训练,直至能通过训练表示向量和操作训练序列得到的结束位置预测p,与对应结束位置训练序列的误差处于结束位置预测置信区间内;
B6将结束位置预测置信区间内的Transformer解码器模块输出作为解码器A的结束位置预测p部分。
作为更进一步的解决方案,通过如下步骤训练得到解码器B的替换内容预测r部分:
C1收集大量待纠错文本,得到学习纠错语料;
C2对待纠错文本各字符通过人工/机器进行操作标注、结束位置标注和替换内容标注,得到操作训练序列、结束位置训练序列和替换内容训练序列;
C3将待纠错文本通过编码器转化为训练表示向量;
C4将训练表示向量、操作训练序列、结束位置训练序列和替换内容训练序列输入Transformer解码器模块进行替换内容预测训练;
C5对Transformer解码器模块进行重复训练,直至能通过训练表示向量、操作训练序列和结束位置训练序列得到的替换内容预测r,与对应替换内容训练序列的误差处于替换内容预测置信区间内;
C6将替换内容预测置信区间内的Transformer解码器模块输出作为解码器B的替换内容预测r部分。
作为更进一步的解决方案,一种基于编辑方法的文本对比学习纠错装置,所述装置包括处理器和存储介质,所述存储介质存储有指令,所述指令被所述处理器运行时,使得所述装置执行上述任意一项所述的方法。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于编辑方法的文本对比学习纠错系统,用于对源文本进行文本纠错,其特征在于,包括编码器、解码器A、解码器B和编辑算法模块;
所述编码器用于将源文本转化为表示向量,所述编码器通过正文本样例与负文本样例训练得到,并利用对比损失公式,拉近相似正文本样例表示向量之间的距离,扩大非相似样本之间的表示向量距离,并将表示向量对齐,得到表示向量;
所述解码器A用于对表示向量进行操作预测t与结束位置预测p,得到文本操作序列和文本结束位置序列;所述解码器B用于对表示向量进行替换内容预测r,得到文本替换内容序列;
所述编辑算法模块根据解码器A与解码器B得到的文本操作序列、文本结束位置序列和文本替换内容序列进行文本编辑合成,通过文本操作序列选择对应执行操作,通过文本结束位置序列选择对应执行操作位置,通过文本替换内容序列在文本对应位置按照对应操作填充替换内容,得到目标文本,完成文本纠错。
2.根据权利要求1所述的一种基于编辑方法的文本对比学习纠错系统,其特征在于,所述编码器、解码器A和解码器B均通过Transformer模块进行设置,并通过已标注训练样本进行训练得到预测模型。
4.一种基于编辑方法的文本对比学习纠错方法,运用于如权利要求1至权利要求3任意一项所述的一种基于编辑方法的文本对比学习纠错系统中,其特征在于,将源文本的文本纠错任务分割为操作预测t、结束位置预测p和替换内容预测r,并通过对应解码器进行预测;所述操作预测t和结束位置预测p通过解码器A进行,所述替换内容预测r通过解码器B进行。
5.根据权利要求4所述的一种基于编辑方法的文本对比学习纠错方法,其特征在于,通过以下步骤实现对原文本的对比学习纠错:
S1获取待纠错的源文本;
S2将源文本送入编码器进行编码,得到表示向量;
S3将表示向量送入解码器A并进行操作预测t,得到文本操作序列;
S4将文本操作序列和表示向量共同送入解码器A并进行结束位置预测p,得到文本结束位置序列;
S5将表示向量、文本操作序列和文本结束位置序列送入解码器B并进行替换内容预测r,得到文本替换内容序列;
S6将表示向量、文本操作序列、文本结束位置序列和文本替换内容序列送入编辑算法模块并进行文本算法编辑,得到目标文本;
S7根据所得目标文本,完成最终的文本纠错与替换。
6.根据权利要求4所述的一种基于编辑方法的文本对比学习纠错方法,其特征在于,通过如下步骤训练得到编码器:
D1通过人工/机器进行训练正负样本数据采集,得到正文本样例hi与负文本样例hj;
D2对正文本样例hi与负文本样例hj进行数据扩增,得到正文本扩增样例h’i与负文本扩增样例h’j;
D3组建Transformer编码器模块;
D4组合相似的正样本句子对(hi,h’i)、非相似的负样本句子对(hi,hj)和扩展的负样本句子对(hi,h’j);
D5将正样本句子对(hi,h’i)、负样本句子对(hi,hj)和扩展的负样本句子对(hi,h’j)输入Transformer编码器模块进行对比损失训练;
D6拉近正样本句子对之间的编码距离,扩大负样本句子对之间的编码距离,使Transformer编码器模块学习到正负样本数据之间的表述差异;
D7完成训练,得到编码器。
7.根据权利要求4所述的一种基于编辑方法的文本对比学习纠错方法,其特征在于,通过如下步骤训练得到解码器A的操作预测t部分:
A1收集大量待纠错文本,得到学习纠错语料;
A2对待纠错文本各字符通过人工/机器进行操作标注,得到操作训练序列;
A3将待纠错文本通过编码器转化为训练表示向量;
A4将训练表示向量和对应操作训练序列输入Transformer解码器模块进行操作预测训练;
A5对Transformer解码器模块进行重复训练,直至能通过训练表示向量得到的操作预测t,与对应操作训练序列的误差处于操作预测置信区间内;
A6将操作预测置信区间内的Transformer解码器模块输出作为解码器A的操作预测t部分。
8.根据权利要求4所述的一种基于编辑方法的文本对比学习纠错方法,其特征在于,通过如下步骤训练得到解码器A的结束位置预测p部分:
B1收集大量待纠错文本,得到学习纠错语料;
B2对待纠错文本各字符通过人工/机器进行操作标注和结束位置标注,得到操作训练序列和结束位置训练序列;
B3将待纠错文本通过编码器转化为训练表示向量;
B4将训练表示向量、操作训练序列和结束位置训练序列输入Transformer解码器模块进行结束位置预测训练;
B5对Transformer解码器模块进行重复训练,直至能通过训练表示向量和操作训练序列得到的结束位置预测p,与对应结束位置训练序列的误差处于结束位置预测置信区间内;
B6将结束位置预测置信区间内的Transformer解码器模块输出作为解码器A的结束位置预测p部分。
9.根据权利要求4所述的一种基于编辑方法的文本对比学习纠错方法,其特征在于,通过如下步骤训练得到解码器B的替换内容预测r部分:
C1收集大量待纠错文本,得到学习纠错语料;
C2对待纠错文本各字符通过人工/机器进行操作标注、结束位置标注和替换内容标注,得到操作训练序列、结束位置训练序列和替换内容训练序列;
C3将待纠错文本通过编码器转化为训练表示向量;
C4将训练表示向量、操作训练序列、结束位置训练序列和替换内容训练序列输入Transformer解码器模块进行替换内容预测训练;
C5对Transformer解码器模块进行重复训练,直至能通过训练表示向量、操作训练序列和结束位置训练序列得到的替换内容预测r,与对应替换内容训练序列的误差处于替换内容预测置信区间内;
C6将替换内容预测置信区间内的Transformer解码器模块输出作为解码器B的替换内容预测r部分。
10.一种基于编辑方法的文本对比学习纠错装置,其特征在于,所述装置包括处理器和存储介质,所述存储介质存储有指令,所述指令被所述处理器运行时,使得所述装置执行根据权利要求4至9中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210155865.XA CN114548053A (zh) | 2022-02-21 | 2022-02-21 | 一种基于编辑方法的文本对比学习纠错系统、方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210155865.XA CN114548053A (zh) | 2022-02-21 | 2022-02-21 | 一种基于编辑方法的文本对比学习纠错系统、方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114548053A true CN114548053A (zh) | 2022-05-27 |
Family
ID=81675759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210155865.XA Pending CN114548053A (zh) | 2022-02-21 | 2022-02-21 | 一种基于编辑方法的文本对比学习纠错系统、方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114548053A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114997148A (zh) * | 2022-08-08 | 2022-09-02 | 湖南工商大学 | 一种基于对比学习的中文拼写校对预训练模型构建方法 |
CN116757184A (zh) * | 2023-08-18 | 2023-09-15 | 昆明理工大学 | 融合发音特征的越南语语音识别文本纠错方法及系统 |
-
2022
- 2022-02-21 CN CN202210155865.XA patent/CN114548053A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114997148A (zh) * | 2022-08-08 | 2022-09-02 | 湖南工商大学 | 一种基于对比学习的中文拼写校对预训练模型构建方法 |
CN114997148B (zh) * | 2022-08-08 | 2022-11-04 | 湖南工商大学 | 一种基于对比学习的中文拼写校对预训练模型构建方法 |
CN116757184A (zh) * | 2023-08-18 | 2023-09-15 | 昆明理工大学 | 融合发音特征的越南语语音识别文本纠错方法及系统 |
CN116757184B (zh) * | 2023-08-18 | 2023-10-20 | 昆明理工大学 | 融合发音特征的越南语语音识别文本纠错方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492202B (zh) | 一种基于拼音的编码与解码模型的中文纠错方法 | |
CN108170686B (zh) | 文本翻译方法及装置 | |
CN107967262A (zh) | 一种神经网络蒙汉机器翻译方法 | |
CN111401084B (zh) | 一种机器翻译的方法、设备以及计算机可读存储介质 | |
CN108845994B (zh) | 利用外部信息的神经机器翻译系统及翻译系统的训练方法 | |
CN111767718B (zh) | 一种基于弱化语法错误特征表示的中文语法错误更正方法 | |
CN112037773B (zh) | 一种n最优口语语义识别方法、装置及电子设备 | |
CN114548053A (zh) | 一种基于编辑方法的文本对比学习纠错系统、方法及装置 | |
CN116011456B (zh) | 基于提示学习的中文建筑规范文本实体识别方法及系统 | |
CN115293139B (zh) | 一种语音转写文本纠错模型的训练方法和计算机设备 | |
CN115064154A (zh) | 混合语言语音识别模型的生成方法及装置 | |
CN115935957A (zh) | 一种基于句法分析的句子语法纠错方法及系统 | |
CN115658846A (zh) | 一种适用于开源软件供应链的智能搜索方法及装置 | |
CN115658898A (zh) | 一种中英文本实体关系抽取方法、系统及设备 | |
CN114372140A (zh) | 分层会议摘要生成模型训练方法、生成方法及装置 | |
CN111046663B (zh) | 一种中文表单的智能校正方法 | |
CN117251562A (zh) | 一种基于事实一致性增强的文本摘要生成方法 | |
CN115860015B (zh) | 一种基于翻译记忆的转写文本翻译方法和计算机设备 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN115034236B (zh) | 一种基于知识蒸馏的中英机器翻译方法 | |
CN114896966B (zh) | 一种中文文本语法错误定位方法、系统、设备及介质 | |
CN110969010A (zh) | 一种基于关系指导及双通道交互机制的问题生成方法 | |
CN116306653A (zh) | 一种正则化领域知识辅助的命名实体识别方法 | |
CN116483314A (zh) | 一种自动化智能活动图生成方法 | |
CN115525777A (zh) | 一种基于自然语言问答的知识图谱三元组显著性评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |