CN117480505A - 多语言语法错误校正 - Google Patents

多语言语法错误校正 Download PDF

Info

Publication number
CN117480505A
CN117480505A CN202280042545.1A CN202280042545A CN117480505A CN 117480505 A CN117480505 A CN 117480505A CN 202280042545 A CN202280042545 A CN 202280042545A CN 117480505 A CN117480505 A CN 117480505A
Authority
CN
China
Prior art keywords
text
sample
training
corrupted
generation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280042545.1A
Other languages
English (en)
Inventor
塞巴斯蒂安·克劳斯
萨沙·罗特
乔纳森·马林森
埃里克·马尔米
阿丽亚克瑟·塞韦林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN117480505A publication Critical patent/CN117480505A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

一种训练用于语法错误校正(GEC)的文本生成模型(122)的方法(400)包括获得文本样本(212)的多语言集合(210)。每个文本样本包括相应句子的单语言文本表示。操作还包括,针对文本样本的多语言集合中的每个文本样本,生成相应文本样本的损坏的合成版本(222),相应文本样本的损坏的合成版本包括对与相应文本样本相关联的相应句子的单语言文本表示的语法改变。操作进一步包括使用样本对(232)的训练集合(230)来训练文本生成模型。每个样本对包括文本样本的多语言集合中的相应文本样本中的一个以及文本样本的多语言集合中的相应文本样本中的该一个的对应的损坏的合成版本。

Description

多语言语法错误校正
技术领域
本公开涉及多语言语法错误校正。
背景技术
随着用户生成的文本继续在使用计算设备的人机交互和人与人交互中发挥重要作用,自然语言生成(NLG)系统确保用户生成的文本在语法上准确的能力可能是沟通的一个重要方面。例如,语法上准确的文本实现可读性并可以防止潜在的误沟通或误理解。也就是说,语法错误可能改变沟通的含义或导致关于文本的含义的某种程度的混淆。尽管传统的语法错误校正技术试图解决文本中的语法问题,但这样的技术经常遭受关于训练数据的问题(例如,训练数据的不足、训练数据的标签准确性、和/或用于训练数据的错误分布的偏差的缺乏),从而导致语法错误校正模型在它们的能力上受限。
发明内容
本公开的一个方面提供了一种训练用于语法错误校正(GEC)的文本生成模型的计算机实现的方法。该方法当由数据处理硬件执行时使数据处理硬件执行操作。操作包括获得文本样本的多语言集合,其中每个文本样本包括相应句子的单语言文本表示。操作还包括,针对文本样本的多语言集合中的每个文本样本,生成相应文本样本的损坏的合成版本,其中相应文本样本的损坏的合成版本包括对与相应文本样本相关联的相应句子的单语言文本表示的语法改变。操作进一步包括使用样本对的训练集合来训练文本生成模型。样本对的训练集合中的每个样本对包括:文本样本的多语言集合中的相应文本样本中的一个;以及文本样本的多语言集合中的相应文本样本中的该一个的对应的损坏的合成版本。
本公开的另一方面提供了一种训练用于语法错误校正(GEC)的文本生成模型的系统。该系统包括数据处理硬件和与数据处理硬件通信的存储器硬件。存储器硬件存储指令,指令当在数据处理硬件上执行时使数据处理硬件执行操作。操作包括获得文本样本的多语言集合,其中每个文本样本包括相应句子的单语言文本表示。操作还包括,针对文本样本的多语言集合中的每个文本样本,生成相应文本样本的损坏的合成版本,其中相应文本样本的损坏的合成版本包括对与相应文本样本相关联的相应句子的单语言文本表示的语法改变。操作进一步包括使用样本对的训练集合来训练文本生成模型。样本对的训练集合中的每个样本对包括:文本样本的多语言集合中的相应文本样本中的一个;以及文本样本的多语言集合中的相应文本样本中的该一个的对应的损坏的合成版本。
本公开的方法或系统的实现可以包括以下可选特征中的一个或多个。在一些实施方式中,操作进一步包括,在训练文本生成模型之后,使用监督训练数据来微调经训练的文本生成模型,其中监督训练数据包括非合成文本对,其中每个非合成文本对包括不合语法文本样本和不合语法文本样本的符合语法文本版本。在一些示例中,生成相应文本样本的损坏的合成版本包括从与相应文本样本相关联的相应句子中移除多于一个字符。在一些配置中,生成相应文本样本的损坏的合成版本包括用与来自与相应文本样本相关联的相应句子的第一字符集合不同的第二字符集合来替换第一字符集合。在一些实施方式中,生成相应文本样本的损坏的合成版本包括将一个或多个字符插入到与相应文本样本相关联的相应句子中。可选地,生成相应文本样本的损坏的合成版本包括改变与相应文本样本相关联的相应句子的单词的字符的字符大小写。文本生成模型可以包括变换器编码器-解码器架构。操作可以进一步包括基于掩码语言目标利用多语言训练语料库来预训练文本生成模型。
本公开的方法或系统的这些实施方式还可以包括通过将损坏操作随机地应用到与相应文本样本相关联的相应句子来生成相应文本样本的损坏的合成版本,其中每个损坏的合成版本相对于文本样本的其他损坏的合成版本是唯一的。损坏操作可以包括以下中的至少一个:从与相应文本样本相关联的相应句子中移除多于一个字符;用与来自与相应文本样本相关联的相应句子的第一字符集合不同的第二字符集合来替换第一字符集合;将一个或多个字符插入到与相应文本样本相关联的相应句子中;或者改变与相应文本样本相关联的相应句子的单词的字符大小写。本公开的操作还可以包括在推理期间通过以下方式使用用于GEC的经训练的文本生成模型:(i)接收包括语法错误的以第一语言的第一输入文本作为对经训练的文本生成模型的输入,并生成校正语法错误的以第一语言的第一输出文本作为来自经训练的文本生成模型的输出,以及(ii)接收包括语法错误的以不同的第二语言的第二输入文本作为对经训练的文本生成模型的输入,并生成校正语法错误的以第二语言的第二输出文本作为来自经训练的文本生成模型的输出。
在附图和下面的描述中阐述本公开的一个或多个实施方式的细节。其他方面、特征和优点将从说明书和附图以及从权利要求中变得显而易见。
附图说明
图1是使用语法错误校正模型的示例文本校正环境的示意图。
图2A至图2C是用于语法错误校正模型的训练过程的示意图。
图3是用于语法错误校正模型的微调过程的示意图。
图4是训练用于语法错误校正的文本生成模型的方法的操作的示例布置的流程图。
图5是可以用于实现本文描述的系统和方法的示例计算设备的示意图。
各个附图中相同的附图标记指示相同的元件。
具体实施方式
自然语言处理(NLP)通常是指使用计算技术理解自然人类语言。NLP使得用户设备或计算设备能够自动处理诸如语音或文本的自然人类语言的形式。一种更具体的自然语言处理类型是所谓的自然语言生成(NLG)。NLG广泛关注生成人类语言的文本表示(即文本)的过程。NLG可以包括多种文本生成任务,诸如语法错误校正(GEC)。随着文本在计算设备的使用中越来越流行,对GEC的需求也越来越大,GEC是指校正语法错误或其他文本相关的错误的任务。例如,在文本消息已经变得比电话呼叫更广泛地被使用的时代,GEC可以提高用户生成的文本的可读性。此外,对GEC的改进还可以帮助面临语法挑战的人,诸如非母语说话者、儿童或有某种类型的障碍的个人。
传统上,GEC的任务已经被视为单语言文本到文本重写。为了执行文本到文本重写,文本生成模型通常将采用神经网络架构。这些神经网络架构通常需要相当大的训练数据集合。然而,需要相当大的训练数据集合跨多种语言可能是有问题的。例如,针对诸如英语或日语的流行语言存在大量训练数据,但其他语言遭受训练数据不足。这意味着,不太流行的语言往往没有足够的训练数据量来训练能够执行GEC的神经网络文本生成模型。因此,尽管存在包括多种语言的训练数据集合,但甚至这些训练数据集合也往往非常偏斜,使得这些数据集合中的训练样本的分布偏向于更流行的语言而未充分代表其他语言。例如,一个流行的训练语料库包括超过八十种语言,但这些语言中的仅十种语言包括超过一万个训练样本(例如,一万个不合语法-符合语法样本对)。客观地看待这一点,这个流行的训练语料库的最流行的语言——如英语和日语——具有超过一百万个训练样本对。由于这种固有的语言偏向,使用该训练数据为GEC训练的任何文本生成模型对于许多语言(例如,非流行语言)将可能表现欠佳。
由于执行GEC的有限量的合适的训练数据,一直在努力补充或使用合成训练数据。合成数据是指机器生成的数据(例如,来自机器模型)而不是人类生成的数据。遗憾的是,由合成训练数据教导的模型并非没有其阻碍。例如,尽管用于GEC的任务的微调模型已经被证明提高GEC准确性,但它通常需要特定于语言的调整(例如,使用特定于语言的超参数和拼写词典)和/或具有表示用于训练评估集合的完整错误分布的困难。这些挑战通常导致用于GEC的最终模型经历多阶段微调过程,在每个微调阶段都需要特定的学习率和训练步骤。
为了解决教导模型执行GEC的这些问题中的一些,本文的实施方式指向一种预训练方法,该方法应用完全无监督的与语言无关的预训练目标,该目标模仿通常包含在带标签数据中的校正。预训练方法是无监督的,因为用于预训练的训练数据来自于语法上正确的文本样本(例如,语法上正确的句子),这些样本已经与自身的合成的不合语法文本版本配对。这意味着用于预训练过程的训练样本对包括语法上正确的文本样本,其自身的版本已经被自动损坏(即,通过损坏操作在语法上改变为不合语法)。在这里,由于机器生成了这个损坏的版本,因此损坏的版本是合成的而不是人造的。对于上下文,传统上,是以下情况:不合语法文本样本与作为不合语法文本样本的符合语法版本的标签配对。相反,通过合成地损坏最初语法上正确的文本的样本,训练样本对不需要显式标签(例如,识别语法校正的标签)。
基于语法上正确的文本样本为训练样本对生成合成训练文本样本的过程也是与语言无关的。在这里,目标是与语言无关的,因为损坏技术不是特定于语言的。即,技术修改每个语法上正确的文本样本,而不没有对语法上正确的文本样本的底层语言的任何关注。例如,改变语法上正确的样本中的字符或词元的序列不引入朝向特定语言的任何偏向。此外,该技术还旨在避免对任何特定类型的语法错误的偏向,这些错误在一些方面可能是特定于某种语言的。例如,如果损坏操作改变了“i”之前的“e”,这是英语中常见的语法错误,则执行GEC的模型可能变得固有地偏向于学习识别英语语法错误,而不是更广泛地识别多语言错误。通过使用并非对特定语言独特的损坏操作和技术,损坏过程可以避免向文本生成模型教导某种形式的语言校正偏向。此外,与可能生成合成训练数据的先前方法不同,合成预训练过程通过在训练数据集合内的所有语言上训练单个模型而不采用特定于语言的先验来保持完全与语言无关。
在一些示例中,在预训练用于GEC的文本生成模型之后,文本生成模型被认为是GEC模型。这里,GEC模型在推理之前可能经历微调过程。在这个微调过程中,GEC模型接收监督GEC训练数据。在一些实施方式中,GEC训练数据是特定于语言的。在其他实施方式中,GEC训练数据对应于可利用适当标签获得的非合成或人造文本样本。也就是说,GEC训练数据是人造文本样本,其中每个训练示例都是不合语法-符合语法样本对。
图1是文本校正环境100的示例。在文本校正环境100中,用户10操作用户设备110以与另一人进行文本对话。例如,图1将用户设备110描绘为移动电话,其中用户10将文本键入到键盘(例如,触摸输入键盘)中。用户设备110(通常也称为设备110)可以对应于与用户10相关联并且能够生成文本126的任何计算设备。用户设备110的一些示例包括但不限于移动设备(例如,移动电话、平板电脑、笔记本电脑等)、计算机、可穿戴设备(例如,智能手表)、智能电器、物联网(IoT)设备、智能扬声器等。用户设备110包括数据处理硬件112和与数据处理硬件112通信并存储指令的存储器硬件114,指令当由数据处理硬件112执行时使数据处理硬件112执行一个或多个操作(例如,与文本生成或文本校正相关的操作)。用户设备110还可以包括音频子系统116,其具有用于捕获语音使能系统100内的口头话语并将其转换成电信号的音频捕获设备(例如麦克风)116、116a和用于传送可听音频信号(例如,作为来自设备110的输出音频数据)的语音输出设备(例如扬声器)116、116b。用户设备110(例如,使用硬件112、114)进一步被配置为使用NLG系统120的GEC模型124对由用户10输入的文本序列126执行语法错误校正(GEC)。
NLG系统120是指能够处理文本(例如,用户生成的文本126)以用于各种功能或任务的自然语言生成系统。这里,NLG系统120包括文本生成模型122。文本生成模型122是具有可以对特定语言任务进一步训练的灵活NLP框架的模型。在一些示例中,文本生成模型122是通过迁移学习教导的模型。例如,文本生成模型122利用自监督任务(即,数据丰富的任务)在可用的不带标签的文本数据上进行预训练。在一些实施方式中,文本生成模型122是变换器编码器-解码器模型,其可以针对许多特定NLG任务进一步微调。更具体地,文本生成模型122可以是具有将基于文本的语言问题转换成文本到文本格式的统一框架的文本到文本传递转换器(T5)。通过使用文本到文本框架,文本生成模型122连同其损失函数和超参数可以与许多(如果不是全部)NLP任务兼容,NLP任务诸如机器翻译、文档概括、问答、分类任务、GEC任务等。此外,当预训练文本生成模型122时,预训练语料库可以包括多种语言;允许文本生成模型122的下游任务特定版本也可能是多语言模型。例如,一个常见的预训练语料库包括超过一百种语言。
在一些示例中,用于文本生成模型122的预训练过程是基于掩码语言目标的一些版本(例如,跨度预测任务)。在预训练文本生成模型122之后,文本生成模型122被进一步训练(例如,通过训练过程200和微调过程300)以变得能够执行GEC。这里,当文本生成模型122具有该GEC能力时,文本生成模型122然后被称为GEC模型124。换句话说,GEC模型124是文本生成模型122的下游版本,以执行语法错误校正的NLG任务。也就是说,虽然从NLP任务的角度来看文本生成模型122是相当全能的模型,但是文本生成模型122通常在如GEC的特定NLG任务上不准确,直到它经历进一步的任务特定的训练。这意味着文本生成模型122首先被预训练为全能的NLP模型,并且然后被训练(例如,通过训练过程200)以变成GEC模型124。如下面进一步详细描述的GEC模型124然后可以被进一步微调(例如,通过微调过程300)以获得更大的GEC准确性,即使其可以在没有这种额外的GEC微调的情况下执行GEC到某种程度。
在一些实施方式中,设备110经由网络130与远程系统140通信。远程系统140可以包括远程资源142,诸如远程数据处理硬件144(例如,远程服务器或CPU)和/或远程存储器硬件146(例如,远程数据库或其他存储硬件)。设备110可以利用远程资源142来执行与文本生成和/或GEC相关的各种功能。例如,NLG系统120的一些功能可以驻留在远程系统140上。在一个示例中,NLG系统120可以驻留在设备110上以用于执行设备上文本生成(例如,GEC)。在另一示例中,NLG系统120驻留在远程系统上以提供服务器侧GEC。在又一示例中,NLG系统120的功能跨设备110和服务器140被拆分。
在一些示例中,诸如图1,用户10与使用NLG系统120并且更具体地使用GEC模型124的用户设备110的程序或应用118交互。这里,应用118对应于通信应用,诸如短消息服务(SMS)应用或多媒体消息传递服务(MMS)应用。用户10可以显式地调用应用118(例如,经由用户输入)以生成文本126。例如,图1描绘了用户10——Ted——与另一用户——Ted的名叫Jane的朋友——沟通(例如,发短信)。这里,Ted 10和Jane之间的文本消息对话可以由用户设备110的通信应用118接收/生成。在这些示例中,通信应用118使用NLG系统120,其具有文本生成模型122,文本生成模型122已经被进一步训练为GEC模型124以用于GEC的特定任务。这里,用户生成的文本126被发送到GEC模型124(即,针对GEC训练的文本生成模型122)作为输入。在此示例中,用户生成的文本126是以英语语言并且包括多于一个语法错误。GEC模型124接收文本126并生成文本序列(称为语法上正确的文本128)作为输出(即,输出文本序列),其校正用户生成的文本126中包括的语法错误。在所描绘的示例中,用户10接收来自Jane的询问“what time do you think you will leave?(你认为你将什么时间离开?)”的初始文本消息。用户10通过输入文本126“well its 3pm now,and I want to run a quickerrund on the way their.Im thinking 4:15(嗯,现在是下午3点,我想在去那的路上快速办点事。我想是4:15)”来回答这个问题。这里,用户10的文本126未能将文本126的第一个单词“well”的第一个字母大写。文本126还将单词“quick”错误拼写为“quicke”并将“errand”错误拼写为“errund”。文本126示出用户在提及第一人称时不正确地使用了“me”而不是“I”。当用户10想要键入副词“there”时,文本126误用了所有格词“their”。当用户10意图连词“it’s”时用户10还错误地使用了所有格“its”,并且没有在连词“I’m”中包括撇号。GEC模型124辨识文本126的这些语法错误并生成文本126的校正形式128作为输出,使得语法上校正的文本128然后可以作为文本消息被发送给Jane。在此示例中,GEC模型124的输出、校正的文本128陈述:“Well,it’s 3pm now.And I want to run a quick errand onthe way there.I’m thinking 4:15pm.(嗯,现在是下午3点。我想在去那里的路上快速办点事。我想是下午4:15。)”。
尽管所描绘的示例示出了以英语的文本126,但是GEC模型124可以校正多种语言的语法错误。继续该示例,这意味着用户10——Ted——稍后可以以西班牙语与他的朋友Steve进行文本对话,其中相同的GEC模型124校正由Ted输入的文本126中存在的任何西班牙语语法错误。换句话说,GEC模型124可以生成第一输出文本128以校正以第一语言的第一文本126的语法错误,并且还生成第二输出文本128以校正以与第一语言不同的第二语言的第二文本126的语法错误。作为多语言GEC模型124,GEC模型124可以在语法上校正多种语言(例如,两种语言、十种语言、八十种语言或一百种以上语言)的文本错误。
图2A至图2C示出了用于教导文本生成模型122以执行GEC的训练过程200。当训练过程200教导文本生成模型122以执行GEC时,文本生成模型122则变为GEC模型124。换句话说,没有特定GEC训练的文本生成模型122不能够执行GEC的文本生成任务。训练过程200获得文本样本212的语料库210,其将用于训练文本生成模型122以执行GEC。语料库210通常是指文本样本212的任何合集或多语言集合。语料库210是文本样本212的多语言集合,因为虽然每个单独的文本样本212是单语言的(例如,单语言句子),但是语料库210包括来自多于一种语言的文本样本212。例如,语料库210包括来自数十种或超过一百种不同语言的文本样本212。
利用文本样本212,训练过程200使用损坏器220来生成文本样本212的损坏的合成版本222(也称为损坏的文本样本222或损坏的文本222)。也就是说,损坏器220被配置为生成文本样本212的机器生成版本,其使损坏的文本版本222成为合成文本样本。一般来说,损坏器220损坏的文本样本212是从人类生成的文本获得的非合成文本样本。换句话说,损坏器220用于“损坏”文本样本212或向文本样本212引入语法错误。在这方面,文本样本212充当语法上校正的文本样本,损坏器220在语法上修改其以产生文本样本212的损坏的合成版本222。例如,损坏器220通过对文本样本212的单语言文本表示进行语法改变来损坏文本样本212以形成文本样本212的损坏的合成文本版本222。训练过程200然后将文本样本212与其损坏的合成文本版本222配对以形成训练样本对232。即,文本样本212和损坏的合成版本222形成符合语法-不合语法文本样本对232。训练过程200将训练样本对232的合集编译为训练集合230,训练集合230然后将被用于训练文本生成模型122以执行GEC(即,成为GEC模型124)。当训练过程200然后利用训练集合230训练文本生成模型122时,训练过程200可以训练文本生成模型122直到收敛(即,当模型122输出与提供的文本样本212相合或匹配的用于GEC的校正文本128时)。在图2A至图2C中,“原始”或“O”指定来自训练样本对232中的语料库210的文本样本212,而“损坏”或“C”指定训练样本对232中的(由损坏器220生成的)文本样本212的损坏的合成文本版本222。
参考图2B,损坏器220可以被配置为执行修改文本样本212的一些部分的各种损坏操作。例如,图2B描述了损坏器220可以执行移除文本样本212的一些部分、替换文本样本212的一些部分、将一些文本部分插入到文本样本212中、或者修改文本样本212的单词/句子结构(例如,标点符号、和/或大写)的损坏操作。示例移除操作可以是移除一个或多个字符或一些词元跨度。在图2B中,第一损坏的文本样本222、222a图示了“A paragraph is agrouping of sentences(段落是句子的分组)”的文本样本212的“grouping(分组)”中的字符“ro”已经被移除。图2B还图示了替换的损坏操作的示例,其中可以用一个或多个其他字符来替换或交换一个或多个字符。在该示例中,第二损坏的文本样本222、222b已经将“Aparagraph is a grouping of sentences(段落是句子的分组)”的文本样本212的单词“sentences(句子)”中的字符“e”交换为字符“a”。类似地,损坏器220已经将“paragraph(段落)”中的“ph”词元与“fe”交换以形成第三损坏的文本样本222、222c。损坏器220通过在单词“grouping(分组)”中插入额外的“p”来执行插入一个或多个字符的损坏操作以形成第四损坏的文本样本222、222d。第五损坏的文本样本222、222e是损坏器220改变文本样本212的一个或多个单词中的字符的大小写的示例。这里,在第五损坏的文本样本222、222e中,损坏器220将初始的“A”改为小写的“a”,并在“paragraph”中将“P”大写。当生成损坏的文本样本222时,损坏器220可以执行一个或多个损坏操作。附加地或替代地,损坏操作不是损坏器220可以执行以引入语法错误的文本样本修改的详尽列表。在一些配置中,当生成训练样本对232的训练集合230时,损坏器220可以随机地应用各种损坏操作以确保训练集合230当中的语法错误变化。例如,每个损坏的文本样本222可以相对于训练集合230中的其他损坏的文本样本222是唯一的。
在一些实施方式中,诸如图2C,训练过程200还包括分割器240。分割器240被配置为接收文本样本212并根据文本样本212生成分割样本242。分割样本242是指文本样本212的一定长度或部分。也就是说,分割样本242可以是来自文本样本212的特定量的单词或句子。在这方面,分割器240可以用于确保将被损坏的文本样本212的大小与损坏器220兼容,并且更一般地,是用于训练文本生成模型122的可接受的大小。例如,文本样本212可以对应于文本的段落,并且分割器240将文本样本212转换成句子,使得每个分割样本242代表文本样本212的句子。在图2C中,分割器240接收作为三个句子的段落的文本样本212。利用该文本样本212,分割器240生成三个分割的文本样本242、242a-c,其中第一分割的文本样本242a是三个句子中的第一个,第二分割的文本样本242b是三个句子中的第二个,并且第三分割的文本样本242c是三个句子中的第三个。
参考图3,在训练过程200利用训练数据集合230将文本生成模型122训练变成GEC模型124之后,可以利用微调过程300进一步训练GEC模型124。在微调过程300期间,微调过程300可以使用监督训练数据。在一些示例中,监督训练数据对应于形成微调训练语料库310的非合成文本对312、312a-n的集合。每个微调文本对312包括符合语法文本样本314(例如,在图3中用“G”指定)和不合语法文本样本316(例如,在图3中用“UG”指定)。这里,不合语法文本样本316不是由损坏器220生成的,而是人类生成的文本。符合语法文本样本314是指不合语法文本样本316——其是人类生成的文本——的语法上正确版本,使得符合语法文本样本314用作带标签的微调训练数据或监督的微调训练数据。微调训练语料库310可以是与在训练过程200期间使用的语料库210类似的多语言语料库。也就是说,微调训练语料库310的每个文本对312对应于单语言符合语法-不合语法对,但是在微调训练语料库310中存在不同语言的对312。在一些示例中,由微调过程300使用微调训练语料库310来训练GEC模型124,直到GEC模型124在开发数据集合上的精确匹配准确性下降为止(例如,在200个步骤或800000个示例或7个时期之后)。
图4是训练用于语法错误校正的文本生成模型122的方法400的操作的示例布置的流程图。在操作402处,方法400获得文本样本212的多语言集合210,其中每个文本样本212包括相应句子的单语言文本表示。在操作404处,方法400针对文本样本212的多语言集合210中的每个文本样本212生成相应文本样本212的损坏的合成版本222。相应文本样本212的损坏的合成版本222包括对与相应文本样本212相关联的相应句子的单语言文本表示的语法改变。在操作406处,方法400使用训练样本对232的训练集合230来训练文本生成模型122。样本对232的训练集合230中的每个对232包括文本样本212的多语言集合210中的相应文本样本212中的一个和文本样本212的多语言集合210中的相应文本样本212中的该一个的对应损坏的合成版本222。
图5是可以用于实现本文档中描述的系统(例如,NLG系统120和/或GEC模型124)和方法(例如,方法400)的示例计算设备500的示意图。计算设备500旨在表示各种形式的数字计算机,诸如膝上型计算机、台式机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。这里示出的组件、它们的连接和关系以及它们的功能意味着仅是示例性的,并且并不意味着限于本文档中描述和/或要求保护的实施方式。
计算设备500包括处理器510(例如,数据处理硬件112、144)、存储器520(例如,存储器硬件114、146)、存储设备530、连接到存储器520和高速扩展端口550的高速接口/控制器540以及连接到低速总线570和存储设备530的低速接口/控制器560。组件510、520、530、540、550和560中的每个使用各种总线互连,并且可以安装在通用主板上或适当地以其他方式安装。处理器510可以处理用于在计算设备500内执行的指令,包括存储在存储器520中或存储设备530上的指令,以在诸如耦合到高速接口540的显示器580的外部输入/输出设备上显示用于图形用户界面(GUI)的图形信息。在其他实施方式中,可以适当地使用多个处理器和/或多条总线以及多个存储器和存储器类型。此外,可以连接多个计算设备500,其中每个设备提供必要操作的部分(例如,作为服务器组、一组刀片服务器或多处理器系统)。
存储器520非暂时性地存储计算设备500内的信息。存储器520可以是计算机可读介质、易失性存储器单元或非易失性存储器单元。非暂时性存储器520可以是在临时或永久基础上存储程序(例如,指令序列)或数据(例如,程序状态信息)以供计算设备500使用的物理设备。非易失性存储器的示例包括但不限于闪存存储器和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如,通常用于固件,诸如启动程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。
存储设备530能够为计算设备500提供大容量存储。在一些实施方式中,存储设备530是计算机可读介质。在各种不同的实施方式中,存储设备530可以是软盘设备、硬盘设备、光盘设备、或磁带设备、闪存存储器或其他类似的固态存储器设备、或设备阵列,包括在存储区域网络或其他配置中的设备。在另外的实施方式中,计算机程序产品有形地体现在信息载体中。该计算机程序产品包含指令,该指令当被执行时执行诸如上面描述的那些的一种或多种方法。信息载体是计算机或机器可读介质,诸如存储器520、存储设备530或处理器510上的存储器。
高速控制器540管理计算设备500的带宽密集型操作,而低速控制器560管理较低带宽密集型操作。这种职责分配仅是示例性的。在一些实施方式中,高速控制器540耦合到存储器520、显示器580(例如,通过图形处理器或加速器),并且耦合到高速扩展端口550,高速扩展端口550可以接受各种扩展卡(未示出)。在一些实施方式中,低速控制器560耦合到存储设备530和低速扩展端口570。可以包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口570可以耦合到一个或多个输入/输出设备,诸如键盘、指向设备、扫描仪,或例如通过网络适配器耦合到诸如交换机或路由器的联网设备。
计算设备500可以以多种不同的形式来实现,如图所示。例如,它可以被实现为标准服务器500a或者在一组这样的服务器500a中多次实现、实现为膝上型计算机500b、或者实现为机架服务器系统500c的一部分。
本文描述的系统和技术的各种实施方式可以以数字电子和/或光学电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合来实现。这些各种实施方式可以包括在包括至少一个可编程处理器的可编程系统上可执行和/或可解释的一个或多个计算机程序中的实施方式,该可编程处理器可以是专用的或通用的,被耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令以及将数据和指令传输到存储系统、至少一个输入设备和至少一个输出设备。
这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令,并且可以用高级过程和/或面向对象的编程语言和/或用汇编/机器来实现。如本文所使用的,术语“机器可读介质”和“计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、非暂时性计算机可读介质、装置和/或设备(例如,磁盘、光盘、存储器、可编程逻辑器件(PLD)),包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。
本说明书中描述的过程和逻辑流程可以由一个或多个可编程处理器来执行,该可编程处理器执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能。处理和逻辑流程还可以由例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)的专用逻辑电路来执行。例如,适合于执行计算机程序的处理器包括通用和专用微处理器两者,以及任何种类的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括或可操作地耦合以从用于存储数据的一个或多个大容量存储设备——例如磁盘、磁光盘或光盘——接收数据或向其传送数据或两者。然而,计算机不需要有这样的设备。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,包括例如半导体存储器设备,例如,EPROM、EEPROM和闪存存储器设备;磁盘,例如内部硬盘或可移除盘;磁光盘;以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。
为了提供与用户的交互,本公开的一个或多个方面可以在计算机上实现,计算机具有用于向用户显示信息的显示设备,例如CRT(阴极射线管)、LCD(液晶显示器)监视器或触摸屏,并且可选地具有键盘和指向设备,例如鼠标或轨迹球,用户可以通过其向计算机提供输入。其他种类的设备也可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感官反馈,例如视觉反馈、听觉反馈或触觉反馈;并且来自用户的输入可以以包括声音、语音或触觉输入的任何形式接收。此外,计算机可以通过向由用户使用的设备发送文档以及从由用户使用的设备接收文档来与用户交互;例如,通过响应于从web浏览器接收到的请求而将网页发送到用户的客户端设备上的web浏览器。
已经描述了许多实施方式。然而,将理解,在不脱离本公开的精神和范围的情况下可以做出各种修改。因此,其他实施方式处在所附权利要求的范围内。

Claims (20)

1.一种训练用于语法错误校正(GEC)的文本生成模型(122)的计算机实现的方法(400),所述方法(400)在由数据处理硬件(144)执行时使所述数据处理硬件(144)执行操作,所述操作包括:
获得文本样本(212)的多语言集合(210),每个文本样本(212)包括相应句子的单语言文本表示;
针对所述文本样本(212)的多语言集合(210)中的每个文本样本(212),生成相应文本样本(212)的损坏的合成版本(222),所述相应文本样本(212)的所述损坏的合成版本(222)包括对与所述相应文本样本(212)相关联的所述相应句子的所述单语言文本表示的语法改变;以及
使用样本对(232)的训练集合(230)来训练所述文本生成模型(122),所述样本对(232)的训练集合(230)中的每个样本对包括:
所述文本样本(212)的多语言集合(210)中的所述相应文本样本(212)中的一个;以及
所述文本样本(212)的多语言集合(210)中的所述相应文本样本(212)中的所述一个的对应的损坏的合成版本(222)。
2.根据权利要求1所述的方法(400),其中,所述操作进一步包括,在训练所述文本生成模型(122)之后,使用监督训练数据来微调经训练的文本生成模型(122),所述监督训练数据包括非合成文本对(312),每个非合成文本对(312)包括不合语法文本样本(316)和所述不合语法文本样本的符合语法文本版本(314)。
3.根据权利要求1或2所述的方法(400),其中,生成所述相应文本样本(212)的所述损坏的合成版本(222)包括从与所述相应文本样本(212)相关联的所述相应句子中移除多于一个字符。
4.根据权利要求1至3中的任一项所述的方法(400),其中,生成所述相应文本样本(212)的所述损坏的合成版本(222)包括用与来自与所述相应文本样本(212)相关联的所述相应句子的第一字符集合不同的第二字符集合来替换所述第一字符集合。
5.根据权利要求1至4中的任一项所述的方法(400),其中,生成所述相应文本样本(212)的所述损坏的合成版本(222)包括将一个或多个字符插入到与所述相应文本样本(212)相关联的所述相应句子中。
6.根据权利要求1至5中的任一项所述的方法(400),其中,生成所述相应文本样本(212)的所述损坏的合成版本(222)包括改变与所述相应文本样本(212)相关联的所述相应句子的单词的字符的字符大小写。
7.根据权利要求1至6中的任一项所述的方法(400),其中,生成所述相应文本样本(212)的所述损坏的合成版本(222)包括将损坏操作随机地应用到与所述相应文本样本(212)相关联的所述相应句子,所述损坏操作包括以下中的至少一个:
从与所述相应文本样本(212)相关联的所述相应句子中移除多于一个字符;
用与来自与所述相应文本样本(212)相关联的所述相应句子的第一字符集合不同的第二字符集合来替换所述第一字符集合;
将一个或多个字符插入到与所述相应文本样本(212)相关联的所述相应句子中;或者
改变与所述相应文本样本(212)相关联的所述相应句子的单词的字符大小写,
其中,每个损坏的合成版本(222)相对于所述文本样本(212)的其他损坏的合成版本(222)是唯一的。
8.根据权利要求1至7中的任一项所述的方法(400),其中,所述文本生成模型(122)包括变换器编码器-解码器架构。
9.根据权利要求1至8中的任一项所述的方法(400),其中,所述操作进一步包括基于掩码语言目标利用多语言训练语料库(210)来预训练所述文本生成模型(122)。
10.根据权利要求1至9中的任一项所述的方法(400),其中,在训练用于GEC的所述文本生成模型(122)之后,经训练的文本生成模型(122)被配置为:
接收包括语法错误的以第一语言的第一输入文本(126)作为输入,并生成校正所述语法错误的以所述第一语言的第一输出文本(128)作为输出;以及
接收包括语法错误的以不同的第二语言的第二输入文本(126)作为输入,并生成校正所述语法错误的以所述第二语言的第二输出文本(128)作为来自所述经训练的文本生成模型(122)的输出。
11.一种系统(100),包括:
数据处理硬件(144);以及
存储器硬件(146),所述存储器硬件(146)与所述数据处理硬件(144)通信,所述存储器硬件(146)存储指令,所述指令当在所述数据处理硬件(144)上执行时使所述数据处理硬件(144)执行操作,所述操作包括:
获得文本样本(212)的多语言集合(210),每个文本样本(212)包括相应句子的单语言文本表示;
针对所述文本样本(212)的多语言集合(210)中的每个文本样本(212),生成相应文本样本(212)的损坏的合成版本(222),所述相应文本样本(212)的所述损坏的合成版本(222)包括对与所述相应文本样本(212)相关联的所述相应句子的所述单语言文本表示的语法改变;以及
使用样本对(232)的训练集合(230)来训练所述文本生成模型(122),所述样本对(232)的训练集合(230)中的每个样本对(232)包括:
所述文本样本(212)的多语言集合(210)中的所述相应文本样本(212)中的一个;以及
所述文本样本(212)的多语言集合(210)中的所述相应文本样本(212)中的所述一个的对应的损坏的合成版本(222)。
12.根据权利要求11所述的系统(100),其中,所述操作进一步包括,在训练所述文本生成模型(122)之后,使用监督训练数据来微调经训练的文本生成模型(122),所述监督训练数据包括非合成文本对(312),每个非合成文本对(312)包括不合语法文本样本(316)和所述不合语法文本样本(316)的符合语法文本版本(314)。
13.根据权利要求11或12所述的系统(100),其中,生成所述相应文本样本(212)的所述损坏的合成版本(222)包括从与所述相应文本样本(212)相关联的所述相应句子中移除多于一个字符。
14.根据权利要求11至13中的任一项所述的系统(100),其中,生成所述相应文本样本(212)的所述损坏的合成版本(222)包括用与来自与所述相应文本样本(212)相关联的所述相应句子的第一字符集合不同的第二字符集合来替换所述第一字符集合。
15.根据权利要求11至14中的任一项所述的系统(100),其中,生成所述相应文本样本(212)的所述损坏的合成版本(222)包括将一个或多个字符插入到与所述相应文本样本(212)相关联的所述相应句子中。
16.根据权利要求11至15中的任一项所述的系统(100),其中,生成所述相应文本样本(212)的所述损坏的合成版本(222)包括改变与所述相应文本样本(212)相关联的所述相应句子的单词的字符的字符大小写。
17.根据权利要求11至16中的任一项所述的系统(100),其中,生成所述相应文本样本(212)的所述损坏的合成版本(222)包括将损坏操作随机地应用到与所述相应文本样本(212)相关联的所述相应句子,所述损坏操作包括以下中的至少一个:
从与所述相应文本样本(212)相关联的所述相应句子中移除多于一个字符;
用与来自与所述相应文本样本(212)相关联的所述相应句子的第一字符集合不同的第二字符集合来替换所述第一字符集合;
将一个或多个字符插入到与所述相应文本样本(212)相关联的所述相应句子中;或者
改变与所述相应文本样本(212)相关联的所述相应句子的单词的字符大小写,
其中,每个损坏的合成版本(222)相对于所述文本样本(212)的其他损坏的合成版本(222)是唯一的。
18.根据权利要求11至17中的任一项所述的系统(100),其中,所述文本生成模型(122)包括变换器编码器-解码器架构。
19.根据权利要求11至18中的任一项所述的系统(100),其中,所述操作进一步包括基于掩码语言目标利用多语言训练语料库(210)来预训练所述文本生成模型(122)。
20.根据权利要求11至19中的任一项所述的系统(100),其中,在训练用于GEC的所述文本生成模型(122)之后,经训练的文本生成模型(122)被配置为:
接收包括语法错误的以第一语言的第一输入文本(126)作为输入,并生成校正所述语法错误的以所述第一语言的第一输出文本(128)作为输出;以及
接收包括语法错误的以不同的第二语言的第二输入文本(126)作为输入,并生成校正所述语法错误的以所述第二语言的第二输出文本(124)作为来自所述经训练的文本生成模型(122)的输出。
CN202280042545.1A 2021-06-16 2022-06-15 多语言语法错误校正 Pending CN117480505A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/304,202 US20220405490A1 (en) 2021-06-16 2021-06-16 Multilingual Grammatical Error Correction
US17/304,202 2021-06-16
PCT/US2022/072965 WO2022266642A1 (en) 2021-06-16 2022-06-15 Multilingual grammatical error correction

Publications (1)

Publication Number Publication Date
CN117480505A true CN117480505A (zh) 2024-01-30

Family

ID=82404248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280042545.1A Pending CN117480505A (zh) 2021-06-16 2022-06-15 多语言语法错误校正

Country Status (5)

Country Link
US (1) US20220405490A1 (zh)
EP (1) EP4356286A1 (zh)
KR (1) KR20240006688A (zh)
CN (1) CN117480505A (zh)
WO (1) WO2022266642A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240054282A1 (en) * 2022-08-15 2024-02-15 International Business Machines Corporation Elucidated natural language artifact recombination with contextual awareness
CN116306601B (zh) * 2023-05-17 2023-09-08 上海蜜度信息技术有限公司 小语种纠错模型训练方法、纠错方法、系统、介质及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5535121A (en) * 1994-06-01 1996-07-09 Mitsubishi Electric Research Laboratories, Inc. System for correcting auxiliary verb sequences
US20220019737A1 (en) * 2018-12-31 2022-01-20 Llsollu Co., Ltd. Language correction system, method therefor, and language correction model learning method of system
US11361170B1 (en) * 2019-01-18 2022-06-14 Lilt, Inc. Apparatus and method for accurate translation reviews and consistency across multiple translators
US11886812B2 (en) * 2020-03-02 2024-01-30 Grammarly, Inc. Proficiency and native language-adapted grammatical error correction

Also Published As

Publication number Publication date
US20220405490A1 (en) 2022-12-22
WO2022266642A1 (en) 2022-12-22
EP4356286A1 (en) 2024-04-24
KR20240006688A (ko) 2024-01-15

Similar Documents

Publication Publication Date Title
Wilcox-O’Hearn et al. Real-word spelling correction with trigrams: A reconsideration of the Mays, Damerau, and Mercer model
US8719006B2 (en) Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
Gal An HMM approach to vowel restoration in Arabic and Hebrew
US20050216253A1 (en) System and method for reverse transliteration using statistical alignment
US20130096911A1 (en) Normalisation of noisy typewritten texts
CN117480505A (zh) 多语言语法错误校正
US10282413B2 (en) Device for generating aligned corpus based on unsupervised-learning alignment, method thereof, device for analyzing destructive expression morpheme using aligned corpus, and method for analyzing morpheme thereof
US11615779B2 (en) Language-agnostic multilingual modeling using effective script normalization
Lynn et al. Minority language twitter: Part-of-speech tagging and analysis of Irish tweets
Li et al. Normalization of Text Messages Using Character-and Phone-based Machine Translation Approaches.
JP6778655B2 (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
US20220019737A1 (en) Language correction system, method therefor, and language correction model learning method of system
Bhattacharyya et al. Indic language computing
Mudge The design of a proofreading software service
Lopez Ludeña et al. Architecture for text normalization using statistical machine translation techniques
BHATTACHARYYA et al. Indic
Gondaliya et al. A Rule-based Grammar and Spell Checking
Kaur et al. Roman to gurmukhi social media text normalization
Ahmed et al. Discovering lexical similarity using articulatory feature-based phonetic edit distance
Mammadov et al. Part-of-speech tagging for azerbaijani language
Tyers et al. A biscriptual morphological transducer for Crimean Tatar
Jitta et al. “nee intention enti?” towards dialog act recognition in code-mixed conversations
Chenal et al. Predicting sentential semantic compatibility for aggregation in text-to-text generation
Islam et al. An unsupervised approach to preposition error correction
Jose et al. Lexical normalization model for noisy SMS text

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination