CN114925170B - 文本校对模型训练方法及装置、计算设备 - Google Patents
文本校对模型训练方法及装置、计算设备 Download PDFInfo
- Publication number
- CN114925170B CN114925170B CN202210577416.4A CN202210577416A CN114925170B CN 114925170 B CN114925170 B CN 114925170B CN 202210577416 A CN202210577416 A CN 202210577416A CN 114925170 B CN114925170 B CN 114925170B
- Authority
- CN
- China
- Prior art keywords
- data
- text
- training
- error type
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000001915 proofreading effect Effects 0.000 title claims abstract description 54
- 239000013598 vector Substances 0.000 claims abstract description 56
- 238000012217 deletion Methods 0.000 claims abstract description 19
- 230000037430 deletion Effects 0.000 claims abstract description 19
- 230000010076 replication Effects 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 16
- 238000004891 communication Methods 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种文本校对模型训练方法,基于已标注错误类型标注数据集,训练得到数据增强模型;数据增强模型训练输入数据包含错误位置的文本被替换为掩码标记第一向量以及被赋值为错误类型第二向量;基于各个错误类型特征分布和一部分未标注文本数据构建指定错误类型的预测输入数据;将预测输入数据输入给训练得到的数据增强模型,得到预测输出数据;对另一部分未标注文本数据进行随机删除操作;将预测输出数据和随机删除操作所得数据加入到标注数据集中,得到拓展数据集;利用拓展数据集,训练得到文本校对模型。本发明将错误类型作为额外的输入生成指定类型错误文本拓展数据集,减少了训练数据生成的随机性,解决了训练数据数量少的问题。
Description
技术领域
本发明涉及自然语言处理领域,具体涉及一种文本校对模型训练方法及装置、计算设备、计算机存储介质。
背景技术
文本是信息流通的一种重要方式,随着互联网的发展以及国际交流的日益频繁,如社交消息、电子邮件、学术会议、论文、出版物等都是文本处理的重要应用场景。使用者在处理文本时往往存在误输入、精力不集中、掌握非母语不熟练等导致的语法错误时有发生。然而,依靠人工进行文本校对一方面耗时耗力,另一方面也难以保证严重错误的全面发现。基于此,文本校对技术成为文本处理的有利辅助工具。
现有的文本校对技术,一般基于类机器翻译/文本摘要的seq2seq模型,输入包含语法错误的文本序列,以生成方式输出正确的序列。上述方法需要基于大量已标注数据进行训练,然而,现有的已标注数据非常少,用人工标注新的数据则开销较大、效率也较低。为解决已标注数据较少的问题,现有的技术通常采用数据增强的方法,即在未标注、正常的文本中人为引入错误以补充训练数据。目前文本校对技术使用的数据增强方法一般有两种:一是在正确文本中随机选择字符或词语,按照一定的比例进行插入、删除、随机替换等操作,生成错误文本;二是使用反向翻译的方法,即训练正确文本到错误文本的生成模型,并在解码过程中向生成概率分布中加入随机噪声,生成错误文本。但上述的两种方法在引入错误的方式中存在目的性较差、生成的训练数据质量参差不齐且与真实数据相差甚远,提升文本校对的效果有限。因此,针对文本校对存在的数据增强问题亟待解决。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的文本校对模型训练方法及装置、计算设备、计算机存储介质。
根据本发明的一个方面,提供了一种文本校对模型训练方法,包括:
基于已标注错误类型的标注数据集,训练得到数据增强模型;其中,所述数据增强模型的训练输入数据包含错误位置的文本被替换为掩码标记的第一向量以及被赋值为错误类型的第二向量;
基于各个错误类型的特征分布和一部分未标注文本数据构建指定错误类型的预测输入数据;
将所述预测输入数据输入给训练得到的数据增强模型,得到预测输出数据;对另一部分未标注文本数据进行随机删除操作;
将预测输出数据和随机删除操作所得数据加入到标注数据集中,得到拓展数据集;
利用所述拓展数据集,训练得到文本校对模型。
在一种可选的方式中,所述各个错误类型的特征分布依据统计所述标注数据集中各个错误类型的特征分布而得到。
在一种可选的方式中,所述预测输入数据包含:随机位置的文本被替换为掩码标记或随机位置被插入掩码标记的第三向量以及被赋值为指定错误类型的第四向量;其中所述指定错误类型根据所述特征分布而确定。
在一种可选的方式中,所述构建指定错误类型的预测输入数据进一步包括:
统计所述标注数据集中单个文本数据中错误位置的最大数值e;
从[0,e]中随机选取数值x,在单个未标注文本数据中随机选取x个位置,将所述x个位置对应的文本分别替换为掩码标记,或者,在所述x个位置分别插入掩码标记。
在一种可选的方式中,所述利用所述拓展数据集,训练得到文本校对模型进一步包括:
在所述文本校对模型的目标词概率分布之外引入复制概率分布;
将所述目标词概率分布与所述复制概率分布进行叠加作为最终目标词概率分布,其中,叠加过程使用参数平衡所述目标词概率分布与所述复制概率分布的比例。
在一种可选的方式中,所述将所述目标词概率分布与所述复制概率分布进行叠加作为最终目标词概率分布具体为采用如下公式进行叠加:
在一种可选的方式中,在训练所述文本校对模型的过程中,采用多任务学习方法;多任务包括词级别标注任务和句级别复制任务。
在一种可选的方式中,所述词级别标注任务用于对所述拓展数据集中的单个文本数据中每个词进行正确或错误标注。
在一种可选的方式中,所述句级别复制任务进一步包括:
向文本校对模型输入和错误文本等量的正确文本;
在输入正确文本时移除所述文本校对模型的解码器注意力层中的来自编码器的输入。
根据本发明的另一个方面,提供了一种文本校对模型训练装置,该装置包括:
数据增强模型训练模块,用于基于已标注错误类型的标注数据集,训练得到数据增强模型;其中,所述数据增强模型的训练输入数据包含错误位置的文本被替换为掩码标记的第一向量以及被赋值为错误类型的第二向量;
数据构建模块,用于基于各个错误类型的特征分布和一部分未标注文本数据构建指定错误类型的预测输入数据;
数据预测模块,用于将所述预测输入数据输入给训练得到的数据增强模型,得到预测输出数据;对另一部分未标注文本数据进行随机删除操作;
数据获取模块,用于将预测输出数据和随机删除操作所得数据加入到标注数据集中,得到拓展数据集;
文本校对模型训练模块,用于利用所述拓展数据集,训练得到文本校对模型。
根据本发明的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行如上述文本校对模型训练方法对应的操作。
根据本发明的再一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行如上述文本校对模型训练方法对应的操作。
根据本发明实施例提供的方案,基于已标注错误类型的标注数据集,训练得到数据增强模型;其中,所述数据增强模型的训练输入数据包含错误位置的文本被替换为掩码标记的第一向量以及被赋值为错误类型的第二向量;基于各个错误类型的特征分布和一部分未标注文本数据构建指定错误类型的预测输入数据;将所述预测输入数据输入给训练得到的数据增强模型,得到预测输出数据;对另一部分未标注文本数据进行随机删除操作;将预测输出数据和随机删除操作所得数据加入到标注数据集中,得到拓展数据集;利用拓展数据集,训练得到文本校对模型。本发明将错误类型信息作为额外的输入引入数据增强模型,可使数据增强模型学习到各个错误类型和错误文本之间丰富的语义关联关系。通过这种微调的数据增强模型,可生成指定类型的错误文本,将指定类型的错误文本加入到标注数据集中得到的拓展数据集,减少了训练数据生成的随机性,使其更接近真实数据,同时也解决了已标注训练数据数量少的问题。并且,训练得到的文本校对模型具有更高的精确度和召回率,对文本校对效果的提升也更为显著。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的文本校对模型训练方法的流程示意图;
图2示出了根据本发明一个实施例的文本校对模型训练装置的结构框架图。
图3示出了根据本发明实施例的一种计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的文本校对模型训练方法的流程示意图。本方法将错误类型信息作为额外的输入引入数据增强模型,可使数据增强模型学习到各个错误类型和错误文本之间丰富的语义关联关系。通过这种微调的数据增强模型,可生成指定类型的错误文本,将指定类型的错误文本加入到标注数据集中得到的拓展数据集。具体地,如图1所示,该方法包括如下步骤:
步骤S101,基于已标注错误类型的标注数据集,训练得到数据增强模型;其中,数据增强模型的训练输入数据包含错误位置的文本被替换为掩码标记的第一向量以及被赋值为错误类型的第二向量。
本步骤中,为减少生成数据的随机性,利用已标注数据集的错误类型标签信息,将错误类型标签信息作为额外的输入引入数据增强模型,使数据增强模型可学习到错误类型和错误文本之间隐含的丰富语义关联关系,因此,得到的扩展数据与真实数据更为接近,对文本校对模型效果的提升也更为显著。
具体地,已标注错误类型的标注数据集可以为NUCLE、FCE、Lang-8、W&I以及LOCNESS等标注数据集,这些数据集中的文本数据均标注了文本中每处错误的错误类型,这些标注来自ERRANT定义的25种错误类型。如表1所示,本实施例中将ERRANT错误类型中的25种错误类型作为数据增强模型的额外输入。
表1 ERRANT错误类型
类型标签 | 错误类型的含义 |
ADJ | 形容词含义不当 |
ADJ:FORM | 形容词形式错误(比较级、最高级) |
ADV | 副词形式错误 |
CONJ | 连词错误 |
CONTR | 缩略错误 |
DET | 限定词错误 |
MORPH | 构词法错误 |
NOUN | 名词使用错误 |
NOUN:INFL | 可数/不可数名词错误 |
NOUN:UNM | 名词单复数错误 |
NOUN:POSS | 名词所有格错误 |
ORTH | 拼写法错误 |
OTHER | 不属于其他任一类别的错误 |
PART | 短语搭配不当 |
PREP | 介词错误 |
PRON | 代词错误 |
PUNCT | 标点符号错误 |
SPELL | 拼写错误 |
UNK | 标注者无法纠正的错误 |
VERB | 动词使用错误 |
VERB:FORM | 不定式、动名词和分词错误 |
续表1ERRANT错误类型
VERB:INFL | 动词时态写法错误 |
VERB:SVA | 主谓不一致 |
VERB:TENSE | 动词时态、情态动词、被动式错误 |
WO | 语序错误 |
为将错误类型标注信息引入数据增强模型,本实施例改进了BERT语言模型的输入组成,使得改进后的模型可以学习到错误类型信息中隐含的语义。
为更清楚的描述如何基于已标注错误类型的标注数据集训练得到数据增强模型,首先描述BERT模型。BERT模型为基于Transformer的语言模型,使用了掩码语言模型(也可称为完形填空)的方式进行预训练,输入文本序列的词向量,BERT输出对应序列融合语义后的向量表示。公式表示如下:
y=BERT(Ex) 公式(1-1)
Ex=PE(x)+SE(x)+TE(x) 公式(1-2)
其中,x为输入序列,y为BERT编码得到的向量表示,PE、SE、TE分别代表位置向量、段落向量以及词向量。
其中,所述段落向量是为区分输入序列中的多个句子而设置的,而对于掩码语言模型任务来说实际输入仅有一个句子,因此不需要段落向量的表示。对于数据增强任务,将其替换为输入序列对应标签的向量表示,通过这种方式,将标签信息和输入文本信息进行叠加,并在生成新数据时也利用所述向量表示信息。对于文本校对任务来说,这里的标签即是标注数据中的错误类型。
数据增强模型微调的过程如下:对于已标注错误类型标注数据集中输入序列的每个句子,将其错误位置的文本替换为掩码标记[MASK]得到第一向量,并将输入中的段落向量SE替换为错误类型得到第二向量,将第一向量和第二向量组成的训练输入数据送入预训练模型,以预测掩码处的词。
可选地,完形填空任务可以表示为多分类任务,标签为词汇表中的单词,微调时损失函数如下:
经过微调,数据增强模型在学习数据集中错误句子表示的同时,也学习到了错误类型信息,在后续的方法步骤中,可将不包含错误的正常文本和指定的错误类型信息作为数据增强模型的预测输入数据,得到对应错误类型的错误文本以拓展文本校对模型的训练数据集。
步骤S102,基于各个错误类型的特征分布和一部分未标注文本数据构建指定错误类型的预测输入数据。
为解决已标注数据较少的问题,基于各个错误类型的特征分布和一部分未标注文本数据构建指定错误类型的预测输入数据。预测输入数据包含:随机位置的文本被替换为掩码标记或随机位置被插入掩码标记的第三向量以及被赋值为指定错误类型的第四向量;其中所述指定错误类型根据所述特征分布而确定。
为使得构建的指定错误类型的预测输入数据,即伪数据,和真实数据有更加近似的分布,本步骤构建指定错误类型的预测输入数据时需考虑使预测输入数据的错误类型符合与真实数据近似的错误类型的特征分布。在一种可选的实施方式中,该特征分布可以由人工经验总结而得到,也可以通过大数据统计出已有真实数据的各个错误类型的分布情况而得到。在另一种可选的实施方式中,该特征分布依据统计上述步骤S101所提及的已标注错误类型的标注数据集中各个错误类型的特征分布而得到,即按照已标注错误类型的标注数据集中文本数据的错误类型的特征分布来指定待构建的预测输入数据的错误类型。
进一步的,对上述步骤S101所提及的已标注错误类型的标注数据集进行特征分布统计,得到标注数据集中单个文本数据中错误位置的最大数值e和各个类型错误的分布D。对于未标注文本数据中的每一个句子,按照上述错误类型的特征分布统计进行采样,决定该句子中需要引入的错误数量和错误类型。对于替换类型的错误,依照所选择错误类型对应的词性选择部分词,如:错误类型为动词错误则选取一个动词,将这些词替换为掩码标记[MASK];对于插入类型的错误,在句子中随机插入[MASK]标记;对应删除类型的错误,直接删除对应错误类型的词即可不需要模型处理。基于上述被替换为掩码标记[MASK]或被插入掩码标记为[MASK]的文本,得到第三向量,其中,掩码标记的数量从[0,e]中随机选取数值x,在单个未标注文本数据中随机选取x个位置,将所述x个位置的文本分别替换或插入掩码标记,并依据分布D选择错误类型,并生成对应的第四向量。
步骤S103,将预测输入数据输入给训练得到的数据增强模型,得到预测输出数据;对另一部分未标注文本数据进行随机删除操作。
将预测输入数据输入数据增强模型,并预测掩码标记[MASK]对应的词,其他部分可直接复制输入的文本数据,得到预测输出数据;同时,由于前述数据增强模型仅能替换或插入词,对另一部分未标注文本数据进行随机删除操作。
步骤S104,将预测输出数据和随机删除操作所得数据加入到标注数据集中,得到拓展数据集。
将得到的预测输出数据和随机删除操作所得数据加入到标注数据集中得到拓展数据集。
步骤S105,利用拓展数据集,训练得到文本校对模型。
利用得到的拓展数据集,即可训练或多任务训练得到文本校对模型,本发明使用的文本校对模型可以是带有copy机制的Transformer编解码器模型。
为更清楚的描述如何使用Transformer编解码器模型训练得到文本校对模型,首先描述Transformer编解码器。
Transformer编码器通常包含L个相同的层,每一层中,上一层的输出先后经过多头自注意力机制和前馈网络两个子结构,每个子结构后有残差连接和正则化,最终结果输入到下一层(对于第一层来说,输入是文本的向量表示)。公式表示如下,对于第i层:
Q=K=V=Hi-1 公式(2-1)
其中,MultiHead表示多头注意力,其计算方式如下:
其中,dk为Q,K,V键向量的维度,各个W为线性投影的投影矩阵。
多头注意力模块的输出可由公式(2-5)计算,将不同注意力的结果进行级联,从而融合多个注意力,将级联后的结果通过线性变换实现降维。
MultiHead(Q,K,V)=Concat(head1,head2,…,headh)WO 公式(2-5)
而FFN表示前馈网络,对接Attention层,其计算方式如下:
FFN(x)=max(0,xW1+b1)W2+b2 公式(2-6)
其中,max(0,xW1+b1)是ReLU激活函数,W1、W2、b1、b2是可学习的参数。
解码器的结构与编码器大致相同,在此不再详述,但在多头自注意力和前馈网络之间增加了一个多头注意力层,其中K和V为编码器输出,Q为同一层前一个多头自注意力层的输出。本实施例中,使用Transformer编解码器模型,以文本生成的方式纠正文本输入过程中的错误,并可引入复制机制和多任务学习,提升模型性能。
具体地,使用Transformer编解码器进行文本生成任务的方式如下:给定源文本序列(x1,…,xN)和目标序列中已生成的部分(y1,…yt-1),预测目标文本中的下一个词yt,其具体过程的公式表示如下:
Pt(w)=softmax(Ltrght) 公式(3-3)
其中,矩阵L为词向量矩阵,为编码器输出,ht为目标词的解码器输出,将解码器输出与词向量矩阵做内积后通过softmax函数,即可得到目标词的概率分布Pt。对于每一样本,其损失函数为每个位置的交叉熵损失的累积结果。
文本校对任务与其他文本生成任务的区别是仅仅改动原文中的部分内容,而对其他部分则原样复制。统计结果表明,各个数据集中超过80%的原文内容都在校对过程中没有发生变化。因此,针对这种特点在Transformer编解码器模型中引入复制机制。
可选地,在所述文本校对模型的目标词概率分布之外引入复制概率分布。将所述目标词概率分布与所述复制概率分布进行叠加作为最终目标词概率分布,其中,叠加过程使用参数平衡所述目标词概率分布与所述复制概率分布的比例。
具体地,在所述文本校对模型的目标词概率分布之外引入复制概率分布将目标词概率分布与复制概率分布进行叠加,并使用额外的参数来平衡目标词、复制概率分布的比例,作为最终目标词概率分布,具体采用如下公式进行叠加:
复制机制通过在编解码器的输出上应用注意力计算以获得复制概率分布,注意力的计算方式与编解码器类似,公式表示如下:
平衡参数α的计算也通过上面步骤的结果计算,公式表示如下:
加入复制机制后,损失函数仍然为上述交叉熵,但概率分布使用叠加后的总概率分布Pt。
可选地,为进一步提升文本校对模型的效果,采用多任务学习方法,包括词级别标注任务和句级别复制任务。
所述词级别标注任务用于对所述拓展数据集中的单个文本数据中每个词进行正确或错误标注。设计该任务的目的是为了使编码器直接学习到数据集中词的正确性信息,并将这些信息传入解码器中,使模型更精准地判断和定位句子中的错误。对于数据集中每一对句子,假设源句子中每一个词xi可以和目标句子中一个词yi对应,那么若xi=yi,则这个词视为正确,并在数据集中打上正确的标签,否则视为错误。序列标注的具体做法为,将每个词对应的编码器输出经线性变换后传入softmax函数,公式如下:
所述句级别复制任务进一步包括:
向文本校对模型输入和错误文本等量的正确文本;
在输入正确文本时移除所述文本校对模型的解码器注意力层中的来自编码器的输入。
进一步地,根据新的输入数据再次完成文本校对。
当没有编解码器注意力时,将加大文本校对模型的训练难度,使总分布Pt中复制分布所占的比例更大,使用句级别复制任务的方法,能够促使文本校对模型在遇到语法正确的句子时,更多地执行复制操作,而非从零开始生成。
本发明上述实施例提供的方案,基于已标注错误类型的标注数据集构建指定错误类型的预测输入数据并输入到数据增强模型得到预测输出数据,通过引入额外的辅助信息(即错误类型信息)靶向地加强了模型对各个错误类型和错误文本之间隐含的丰富语义关联关系的学习,提高对错误文本检测的敏感性。在提取错误类型信息的特征时,通过将错误类型信息分布嵌入向量替换掉预训练语言模型中的段落向量,加快了模型对大规模预训练模型深度编码能力的收敛速度,能更好地学习到错误类型信息的语义信息。在引入的数据增强额外辅助信息中重点关注的是错误类型这一特征,并结合统计分布实现特征提取,蕴含错误类型信息的增强数据更符合真实的分布,减少了数据生成的随机性噪声。将预测输出数据加入到标注数据集中得到的拓展数据集,在减少了训练数据生成的随机性的基础上,使其更接近真实数据,同时也解决了已标注训练数据数量少的问题。并且,文本校对模型采用包括词级别标注任务和句级别复制任务的多任务学习方法,使文本校对模型具有更高的精确度和召回率,对文本校对效果的提升也更为显著。
图2示出了根据本发明一个实施例的文本校对模型训练装置的结构框架图。如图2所示,该装置100包括数据增强模型训练模块1011、数据构建模块1012、数据预测模块1013、数据获取模块1014和文本校对模型训练模块1015。
数据增强模型训练模块1011,用于基于已标注错误类型的标注数据集,训练得到数据增强模型;其中,所述数据增强模型的训练输入数据包含错误位置的文本被替换为掩码标记的第一向量以及被赋值为错误类型的第二向量;
数据构建模块1012,用于基于各个错误类型的特征分布和一部分未标注文本数据构建指定错误类型的预测输入数据;
数据预测模块1013,用于将所述预测输入数据输入给训练得到的数据增强模型,得到预测输出数据;对另一部分未标注文本数据进行随机删除操作;
数据获取模块1014,用于将预测输出数据和随机删除操作所得数据加入到标注数据集中,得到拓展数据集;
文本校对模型训练模块1015,用于利用所述拓展数据集,训练得到文本校对模型。
在一种可选方式中,所述各个错误类型的特征分布依据统计所述标注数据集中各个错误类型的特征分布而得到。
在一种可选方式中,所述预测输入数据包含:随机位置的文本被替换为掩码标记或随机位置被插入掩码标记的第三向量以及被赋值为指定错误类型的第四向量;其中所述指定错误类型根据所述特征分布而确定。
在一种可选方式中,所述数据构建模块1012进一步用于:
统计所述标注数据集中单个文本数据中错误位置的最大数值e;
从[0,e]中随机选取数值x,在单个未标注文本数据中随机选取x个位置,将所述x个位置的文本分别替换为掩码标记,或者,在所述x个位置分别插入掩码标记。
在一种可选方式中,所述文本校对模型训练模块1015进一步用于:
在所述文本校对模型的目标词概率分布之外引入复制概率分布;
将所述目标词概率分布与所述复制概率分布进行叠加作为最终目标词概率分布,其中,叠加过程使用参数平衡所述目标词概率分布与所述复制概率分布的比例。
在一种可选方式中,所述文本校对模型训练模块1015进一步用于:
所述将所述目标词概率分布与所述复制概率分布进行叠加作为最终目标词概率分布具体为采用如下公式进行叠加:
在一种可选方式中,所述文本校对模型训练模块1015进一步用于:在训练所述文本校对模型的过程中,采用多任务学习方法;多任务包括词级别标注任务和句级别复制任务。
在一种可选方式中,所述词级别标注任务用于对所述拓展数据集中的单个文本数据中每个词进行正确或错误标注。
在一种可选方式中,所述句级别复制任务进一步包括:
向文本校对模型输入和错误文本等量的正确文本;
在输入正确文本时移除所述文本校对模型的解码器注意力层中的来自编码器的输入。
本发明上述实施例提供的方案,基于已标注错误类型的标注数据集构建指定错误类型的预测输入数据并输入到数据增强模型得到预测输出数据,可学习各个错误类型和错误文本之间丰富的语义关联关系。因此,将预测输出数据加入到标注数据集中得到的拓展数据集,减少了训练数据生成的随机性,使其更接近真实数据,同时也解决了已标注训练数据数量少的问题。并且,文本校对模型采用包括词级别标注任务和句级别复制任务的多任务学习方法,使文本校对模型具有更高的精确度和召回率,对文本校对效果的提升也更为显著。
本发明还提供了一种非易失性计算机存储介质,计算机存储介质存储有至少一可执行指令,可执行指令可执行上述任意方法实施例中的文本校对模型训练方法。
图3示出了根据本发明实施例的一种计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图3所示,该计算设备可以包括:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。
其中:
处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。
通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器302,用于执行程序310,具体可以执行上述文本校对模型训练方法实施例中的相关步骤。
具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。
处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序310具体可以用于使得处理器302执行上述任意方法实施例中的文本校对模型训练方法。程序310中各步骤的具体实现可以参见上述文本校对模型训练方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
Claims (10)
1.一种文本校对模型训练方法,其特征在于,所述方法包括:
基于已标注错误类型的标注数据集,训练得到数据增强模型;其中,所述数据增强模型的训练输入数据包含错误位置的文本被替换为掩码标记的第一向量以及被赋值为错误类型的第二向量;具体地,对于已标注错误类型标注数据集中输入序列的每个句子,将其错误位置的文本替换为掩码标记得到第一向量,并将输入中的段落向量替换为错误类型得到第二向量;
基于各个错误类型的特征分布和一部分未标注文本数据构建指定错误类型的预测输入数据;其中,所述各个错误类型的特征分布依据统计所述标注数据集中各个错误类型的特征分布而得到;所述预测输入数据包含:随机位置的文本被替换为掩码标记或随机位置被插入掩码标记的第三向量以及被赋值为指定错误类型的第四向量;其中所述指定错误类型根据所述特征分布而确定;
将所述预测输入数据输入给训练得到的数据增强模型,得到预测输出数据;对另一部分未标注文本数据进行随机删除操作;
将预测输出数据和随机删除操作所得数据加入到标注数据集中,得到拓展数据集;
利用所述拓展数据集,训练得到文本校对模型。
2.根据权利要求1所述的方法,其特征在于,所述构建指定错误类型的预测输入数据进一步包括:
统计所述标注数据集中单个文本数据中错误位置的最大数值e;
从[0,e]中随机选取数值x,在单个未标注文本数据中随机选取x个位置,将所述x个位置对应的文本分别替换为掩码标记,或者,在所述x个位置分别插入掩码标记;其中,e为整数,x为整数。
3.根据权利要求1所述的方法,其特征在于,所述利用所述拓展数据集,训练得到文本校对模型进一步包括:
在所述文本校对模型的目标词概率分布之外引入复制概率分布;
将所述目标词概率分布与所述复制概率分布进行叠加作为最终目标词概率分布,其中,叠加过程使用参数平衡所述目标词概率分布与所述复制概率分布的比例。
5.根据权利要求1所述的方法,其特征在于,在训练所述文本校对模型的过程中,采用多任务学习方法;多任务包括词级别标注任务和句级别复制任务。
6.根据权利要求5所述的方法,其特征在于,所述词级别标注任务用于对所述拓展数据集中的单个文本数据中每个词进行正确或错误标注。
7.根据权利要求6所述的方法,其特征在于,所述句级别复制任务进一步包括:
向文本校对模型输入和错误文本等量的正确文本;
在输入正确文本时移除所述文本校对模型的解码器注意力层中的来自编码器的输入。
8.一种文本校对模型训练装置,其特征在于,所述装置包括:
数据增强模型训练模块,用于基于已标注错误类型的标注数据集,训练得到数据增强模型;其中,所述数据增强模型的训练输入数据包含错误位置的文本被替换为掩码标记的第一向量以及被赋值为错误类型的第二向量;具体地,对于已标注错误类型标注数据集中输入序列的每个句子,将其错误位置的文本替换为掩码标记得到第一向量,并将输入中的段落向量替换为错误类型得到第二向量;
数据构建模块,用于基于各个错误类型的特征分布和一部分未标注文本数据构建指定错误类型的预测输入数据;其中,所述各个错误类型的特征分布依据统计所述标注数据集中各个错误类型的特征分布而得到;所述预测输入数据包含:随机位置的文本被替换为掩码标记或随机位置被插入掩码标记的第三向量以及被赋值为指定错误类型的第四向量;其中所述指定错误类型根据所述特征分布而确定;
数据预测模块,用于将所述预测输入数据输入给训练得到的数据增强模型,得到预测输出数据;对另一部分未标注文本数据进行随机删除操作;
数据获取模块,用于将预测输出数据和随机删除操作所得数据加入到标注数据集中,得到拓展数据集;
文本校对模型训练模块,用于利用所述拓展数据集,训练得到文本校对模型。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的文本校对模型训练方法对应的操作。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的文本校对模型训练方法对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210577416.4A CN114925170B (zh) | 2022-05-25 | 2022-05-25 | 文本校对模型训练方法及装置、计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210577416.4A CN114925170B (zh) | 2022-05-25 | 2022-05-25 | 文本校对模型训练方法及装置、计算设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114925170A CN114925170A (zh) | 2022-08-19 |
CN114925170B true CN114925170B (zh) | 2023-04-07 |
Family
ID=82810860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210577416.4A Active CN114925170B (zh) | 2022-05-25 | 2022-05-25 | 文本校对模型训练方法及装置、计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114925170B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116167388A (zh) * | 2022-12-27 | 2023-05-26 | 无锡捷通数智科技有限公司 | 专有词翻译模型训练方法、装置、设备及存储介质 |
CN116502614B (zh) * | 2023-06-26 | 2023-09-01 | 北京每日信动科技有限公司 | 一种数据校对方法、系统及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114372463A (zh) * | 2022-01-10 | 2022-04-19 | 李梅 | 一种基于序列标注模型的多语言文本纠错方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866536B (zh) * | 2019-09-25 | 2022-06-07 | 西安交通大学 | 一种基于PU learning的跨区域企业偷漏税识别方法 |
CN112016320A (zh) * | 2020-09-14 | 2020-12-01 | 深圳市北科瑞声科技股份有限公司 | 基于数据增强的英文标点符号添加方法和系统及设备 |
CN114386371B (zh) * | 2022-03-25 | 2022-09-23 | 中国科学技术大学 | 中文拼写纠错方法、系统、设备及存储介质 |
-
2022
- 2022-05-25 CN CN202210577416.4A patent/CN114925170B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114372463A (zh) * | 2022-01-10 | 2022-04-19 | 李梅 | 一种基于序列标注模型的多语言文本纠错方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114925170A (zh) | 2022-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489760B (zh) | 基于深度神经网络文本自动校对方法及装置 | |
CN114925170B (zh) | 文本校对模型训练方法及装置、计算设备 | |
JP5128629B2 (ja) | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 | |
CN114118065B (zh) | 一种电力领域中文文本纠错方法、装置、存储介质及计算设备 | |
CN112818712B (zh) | 基于翻译记忆库的机器翻译方法及装置 | |
CN108563632A (zh) | 文字拼写错误的修正方法、系统、计算机设备及存储介质 | |
CN110276069A (zh) | 一种中国盲文错误自动检测方法、系统及存储介质 | |
He | English grammar error detection using recurrent neural networks | |
CN111553159B (zh) | 一种问句生成方法及系统 | |
CN110287333A (zh) | 一种基于知识库进行释义生成的方法及系统 | |
CN108132932A (zh) | 带有复制机制的神经机器翻译方法 | |
CN115906815B (zh) | 一种用于修改一种或多种类型错误句子的纠错方法及装置 | |
CN112395858A (zh) | 融合试题数据和解答数据的多知识点标注方法和系统 | |
CN113657123A (zh) | 基于目标模板指导和关系头编码的蒙语方面级情感分析方法 | |
CN116681061A (zh) | 一种基于多任务学习和注意力机制的英文语法纠正技术 | |
CN114155477B (zh) | 一种基于平均教师模型的半监督视频段落定位方法 | |
CN115658898A (zh) | 一种中英文本实体关系抽取方法、系统及设备 | |
CN114881010A (zh) | 一种基于Transformer和多任务学习的中文语法纠错方法 | |
Yazar et al. | Low-resource neural machine translation: A systematic literature review | |
CN116386895B (zh) | 基于异构图神经网络的流行病舆情实体识别方法与装置 | |
CN116860959A (zh) | 结合局部主题和层次结构信息的抽取式摘要方法及系统 | |
CN115809658A (zh) | 平行语料的生成方法及装置和无监督同义转写方法及装置 | |
CN115309886A (zh) | 基于多模态信息输入的人工智能文本创作方法 | |
Ma | Research on Computer Intelligent Proofreading System for English Translation Based on Deep Learning | |
Tokuda et al. | A new KE-free online ICALL system featuring error contingent feedback |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |