CN113743101B - 文本纠错方法、装置、电子设备和计算机存储介质 - Google Patents

文本纠错方法、装置、电子设备和计算机存储介质 Download PDF

Info

Publication number
CN113743101B
CN113743101B CN202110943260.2A CN202110943260A CN113743101B CN 113743101 B CN113743101 B CN 113743101B CN 202110943260 A CN202110943260 A CN 202110943260A CN 113743101 B CN113743101 B CN 113743101B
Authority
CN
China
Prior art keywords
text
character
error correction
training
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110943260.2A
Other languages
English (en)
Other versions
CN113743101A (zh
Inventor
刘继强
徐梓翔
孙萌
何中军
李芝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110943260.2A priority Critical patent/CN113743101B/zh
Publication of CN113743101A publication Critical patent/CN113743101A/zh
Application granted granted Critical
Publication of CN113743101B publication Critical patent/CN113743101B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本公开提出了一种文本纠错方法、装置、电子设备和计算机存储介质,涉及人工智能技术领域,尤其涉及自然语言处理和机器学习技术领域。具体实现方案为:获取参考译文和对应的待纠错的源文本,将源文本和参考译文作为输入文本输入至序列标注模型,以对输入文本中各字符标注纠错标签,根据纠错标签指示的调整策略,对源文本的各字符进行调整,得到对源文本纠错后的目标文本。本公开中采用参考译文作为待纠错的源文本进行纠错时的参照,输入序列标注模型中,得到标注的各个字符的纠错标签,可以找出待纠错文本的各种错误,提高了纠错结果的准确性。

Description

文本纠错方法、装置、电子设备和计算机存储介质
技术领域
本公开涉及人工智能技术领域,尤其涉及自然语言处理和机器学习技术领域,具体涉及文本纠错方法、装置、电子设备和计算机存储介质。
背景技术
文本纠错是对文本中的错误进行修正的过程。随着人工智能的发展,文本纠错,已由最初的人工纠错变成智能纠错,而人们对智能纠错的准确度和可纠错的类型也越来越高,因此,提高纠错的可靠性和增加适用的纠错类型,是亟待解决的技术问题。
发明内容
本公开提供了一种文本纠错方法、装置、电子设备和计算机存储介质。
根据本公开的一方面,提供了一种文本纠错方法,包括:
获取参考译文和对应的待纠错的源文本;
将所述源文本和所述参考译文作为输入文本输入至序列标注模型,以对所述输入文本中各字符标注纠错标签;
根据所述纠错标签指示的调整策略,对所述源文本的各字符进行调整,得到对所述源文本纠错后的目标文本。
根据本公开的另一方面,提供了一种文本纠错装置,包括:
第一获取模块,用于获取参考译文和对应的待纠错的源文本;
第一预测模块,用于将所述源文本和所述参考译文作为输入文本输入至序列标注模型,以对所述输入文本中各字符标注纠错标签;
调整模块模块,用于根据所述纠错标签指示的调整策略,对所述源文本的各字符进行调整,得到对所述源文本纠错后的目标文本。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述一方面所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前述一方面所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现前述一方面所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例提供的一种文本纠错方法的流程示意图;
图2为本公开实施例提供的另一种文本纠错方法的流程示意图;
图3为本公开实施例提供的另一种文本纠错方法的流程示意图;
图4为本公开实施例提供的一种序列标注模型的结构示意图;
图5为本公开实施例提供的一种序列标注模型的训练方法的流程示意图;
图6为本公开实施例提供的一种训练语料生成的示意图;
图7为本公开实施例提供的训练样本标注目标标签的示意图;
图8为本公开实施例提供的一种模型迭代训练的示意图;
图9为本公开实施例提供的一种文本纠错装置的结构示意图;
图10为本公开实施例提供的示例电子设备1000的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面参考附图描述本公开实施例的文本纠错方法、装置、电子设备和计算机存储介质。
图1为本公开实施例提供的一种文本纠错方法的流程示意图。
如图1所示,该方法包含以下步骤:
步骤101,获取参考译文和对应的待纠错的源文本。
其中,待纠错的源文本可以为存在错误的任意语种的文本,例如,英文的源文本、中文的源文本、法文的源文本等等,此处不一一列举。其中,待纠错的源文本中存在的错误可以为拼写错误、语法错误等。参考译文和是和待纠错的源文本对应的,参考译文是不存在错误的正确文本。例如,待纠错的源文本为英文,则参考译文为中文,如待纠错的源文本为:A ten-year-old boy go to home。对应的参考译文为:一个十岁的男孩去学校。本公开实施例可应用于翻译场景下的纠错场景,待纠错的源文本即为和参考译文对应的翻译文本。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均在征得用户同意的前提下进行,并且均符合相关法律法规的规定,且不违背公序良俗。
步骤102,将源文本和参考译文作为输入文本输入至序列标注模型,以对输入文本中各字符标注纠错标签。
其中,序列标注模型,已经通过预先的训练,学习到了输入文本和输入文本中各字符需要标注的纠错标签的对应关系。
在本公开实施例的一种实现方式中,将源文本和参考译文拼接,得到输入文本,并将输入文本输入至序列标注模型,以使得序列标注模型对输入文本中的各个字符预测对应的纠错标签,以输出输入文本中各个字符对应的纠错标签。其中,纠错标签指示了各个字符的调整策略。
步骤103,根据纠错标签指示的调整策略,对源文本的各字符进行调整,得到对源文本纠错后的目标文本。
其中,纠错标签包含各个语种通用纠错标签,例如,删除、增加、替换和交换等。纠错标签还包含适应于不同语种的专用纠错标签,也就是说,不同语种由于字符的结构和表示不同,专用纠错标签也不同。以常用的英文为例进行说明,英文对应的专用纠错标签为:首字母大写、复数转换、动词第三人称形态等。
本公开实施例中,不同的纠错标签指示了不同的调整策略,从而,根据不同的调整策略,对源文本的各字符进行调整,得到对源文本纠错后的目标文本。对于各种纠错标签和调整策略之间的对应关系,以英文为例,利用表1进行说明。
表1
Figure BDA0003215930730000031
Figure BDA0003215930730000041
/>
需要说明的是,上述的纠错标签和对应的调整策略,仅为示例,不构成对本公开实施例的限定。
例如,待纠错的源文本为:this cause problem。对应的参考译文为:这会产生问题。利用序列标注模型进行标注后,得到的标注结果为this的纠错标签是capital,cause的纠错标签是verb_vb_vbz,problem的纠错标签是plural。根据表1中各个纠错标签对应的调整策略,this的纠错标签是capital,表示this应该首字母大写;cause的纠错标签是verb_vb_vbz,表示cause应该变为第三人称causes;problem的纠错标签是plural,表示problem应该是复数形式。从而,根据各个纠错标签对应的调整策略,对源文本的各字符进行调整,得到源文本纠错后的目标文本为:This causes problems。
本公开实施例的文本纠错方法中,获取参考译文和对应的待纠错的源文本,将源文本和参考译文作为输入文本输入至序列标注模型,以对输入文本中各字符标注纠错标签,根据纠错标签指示的调整策略,对源文本的各字符进行调整,得到对源文本纠错后的目标文本,本公开中采用参考译文作为待纠错的源文本进行纠错时的参照,输入序列标注模型中,得到标注的各个字符的纠错标签,提高了纠错结果的准确性,同时,可以找出待纠错文本的各种错误,适用于语法错误、单词拼写错误等各种类型的错误纠正。
基于上述实施例,本公开实施例提供了另一种文本纠错方法,图2为本公开实施例提供的另一种文本纠错方法的流程示意图,如图2所示,该方法包含以下步骤:
步骤201,获取参考译文和对应的待纠错的源文本。
具体可参照前一实施例中的解释说明,本实施例中不再赘述。
步骤202,将源文本和参考译文拼接得到输入文本,将输入文本输入序列标注模型。
本公开实施例的一种实现方式中,将源文本进行预处理,即进行分词处理,得到源文本对应的多个字符,以及将参考译文进行分词处理,得到参考译文对应的多个字符,将源文本的多个字符和参考译文的多个字符顺序拼接得到输入文本,并将输入文本输入序列标注模型。
步骤203,采用序列标注模型中的输入层,对输入文本中的各字符进行编码。
本公开实施例的一种实现方式中,采用序列标注模型中的输入层,对输入文本中的各字符进行编码得到字符编码,其中字符编码通过向量表示,以及对各字符的位置进行编码得到指示位置的位置编码,位置编码通过向量表示,进而将字符编码和位置编码进行拼接,得到输入文本中各字符的编码。其中,由于各个字符在文本中的位置,可以指示各个字符在文本中的字符顺序和语法结构信息,可用于在文本纠错时进行纠错标签的标注,以及有助于确定上下文信息。例如,输入文本中的源文本是英文,若字符my在文本中是首字符,则my的第一个字母m即需要是大写字母,从而,后续在利用序列标注模型进行标注时,即可将m标注的纠错标签为首字母大写,即$CASE_CAPITALIZE。
步骤204,采用序列标注模型中的翻译层,对输入文本中的各字符的编码进行语义特征提取,得到各字符的语义特征。
本公开实施例的一种实现方式中,翻译层可以是基于注意力机制的Transrorm的网络,以在对输入文本中的各字符的编码进行语义特征提取时,可以获取字符间的上下文信息,以提高各字符的语义特征提取的准确性,以使得后续分类预测时,可以充分参考字符间的上下文信息,提高纠错标签确定的准确性。在翻译场景下,在对翻译得到的源文本进行纠错时,可以使得纠错后得到的目标文本更加符合翻译原文的语义。
步骤205,采用序列标注模型中的分类预测层,根据各字符的语义特征对各字符标注纠错标签。
本公开实施例中,分类预测层可以为前馈神经网络Feed Forward NeuralNetwork,通过非线性函数的多次复合,实现输入的各字符的语义特征到输出的各字符的纠错标签的映射。
步骤206,根据纠错标签指示的调整策略,对源文本的各字符进行调整,得到对源文本纠错后的目标文本。
具体的,可参照前述实施例中的解释说明,原理相同,此处不再追逐。
本公开实施例的文本纠错方法中,获取参考译文和对应的待纠错的源文本,将源文本和参考译文作为输入文本输入至序列标注模型,以对输入文本中各字符标注纠错标签,根据纠错标签指示的调整策略,对源文本的各字符进行调整,得到对源文本纠错后的目标文本,本公开中采用参考译文作为待纠错的源文本进行纠错时的参照,输入序列标注模型中,利用翻译层在对输入文本中的各字符的编码进行语义特征提取时,可以获取字符间的上下文信息,以提高各字符的语义特征提取的准确性,以使得后续分类预测时,可以充分参考字符间的上下文信息,提高纠错标签确定的准确性,从而可以找出待纠错文本的各种错误,提高了纠错结果的准确性。
基于上述实施例,本实施例提供了另一种文本纠错模型,图3为本公开实施例提供的另一种文本纠错方法的流程示意图,如图3所示,该方法包含以下步骤:
步骤301,获取参考译文和对应的待纠错的源文本。
步骤302,将源文本和参考译文拼接,以得到输入文本。
步骤303,将输入文本输入序列标注模型。
步骤301-步骤303,可参照前述方法实施例中的解释说明,原理相同,本实施例中不再赘述。
步骤304,采用输入层,对输入文本中的各字符根据各字符所属的语言类型和字符位置进行编码,以得到各字符的编码。
本公开实施例中,如图4所示,输入层包含词编码Token Embedding,位置编码Position Embedding和语言类型编码Language Embedding,其中Language Embedding用于区分不同语种,即不同的语种使用不同的嵌入Embedding进行表示,实现了在同一分布空间下表示中文、英文等多种语言的语义,为多重语言的应用提供了更强大的语义表征。其中字符编码通过向量表示,以及对各字符的位置进行编码得到指示位置的位置编码,位置编码通过向量表示,进而将字符编码和位置编码进行拼接,得到输入文本中各字符的编码。其中,由于各个字符在文本中的位置,可以指示各个字符在文本中的字符顺序和语法结构信息,可用于在文本纠错时进行纠错标签的标注,以及有助于确定上下文信息。
步骤305,将输入文本中各字符的编码输入翻译层的注意力网络,以采用多头注意力机制预测输入文本中各字符之间的语义相关性。
本公开实施例中,如图4所示,翻译层包含注意力网络和前馈神经网络。利用注意力网络中的多头注意力机制,获取各个字符间的上下文信息,基于上下文信息,实现了建立各个字符之间的语义相关性。
步骤306,翻译层的前馈神经网络根据注意力网络预测的语义相关性对各字符的编码进行语义特征提取,得到各字符的语义特征。
本公开实施例中,前馈神经网络根据注意力网络预测的语义相关性对各字符的编码进行语义特征提取,考虑了字符间语义的相关性,得到各字符的语义特征包含了充足的上下文信息,可提高后续纠错标签确定的准确性。
步骤307,采用序列标注模型中的分类预测层,根据各字符的语义特征对各字符标注纠错标签。
步骤308,根据纠错标签指示的调整策略,对源文本的各字符进行调整,得到对源文本纠错后的目标文本。
其中步骤307和步骤308,可参照上述实施例中的解释说明,原理相同,此处不再赘述。
如图4所示,将参考译文和待纠错的源文本输入序列标注模型,预测输出字符go的纠错标签$VB_VBZ,字符home的纠错标签$REP_school,其他字符的标签都是$KEEP。从而,根据纠错标签$VB_VBZ指示的调整策略,指示go应该调整为goes,$REP_school指示home应该被替换为school。从而,对源文本纠错后得到的目标文本为Aten-year-old boy goes toschool。
本公开实施例的文本纠错方法中,获取参考译文和对应的待纠错的源文本,将源文本和参考译文作为输入文本输入至序列标注模型,以对输入文本中各字符标注纠错标签,根据纠错标签指示的调整策略,对源文本的各字符进行调整,得到对源文本纠错后的目标文本,本公开中采用参考译文作为待纠错的源文本进行纠错时的参照,输入序列标注模型中,得到标注的各个字符的纠错标签,可以找出待纠错文本的各种错误,提高了纠错结果的准确性。
上述实施例中,采用序列标注模型标注输入文本中各字符的纠错标签,基于上述实施例,本公开实施例提供了一种实现方式,具体说明了在采用序列标注模型对输入文本中各字符标注纠错标签之前,如何对序列标注模型进行训练。
图5为本公开实施例提供的一种序列标注模型的训练方法的流程示意图,如图5所示,该方法包含以下步骤:
步骤501,获取多组语料对,其中,各组语料对中包括第一训练文本,以及对应训练译文。
其中,第一训练文本为不存在错误的文本,其中,文本的语种类型,可为英语,法语、中文、德文等,本实施例中不进行限定。
本公开实施例的文本纠错方法,可应用于多种纠错场景中,例如,翻译场景中,如将中文,翻译得到英文后,翻译得到的英文可能存在语法错误,词法类错误或单词拼写错误等,从而本实施例中,在对序列标注模型进行训练时,以第一训练文本为英文,训练译文为中文为例进行说明。
如图6所示,获取多组双语平行语料对,包含中文文本和对应的翻译文本英文文本,其中,中文文本即为训练译文,英文文本即为第一训练文本,对中文文本和英文文本进行预处理,包含删除脏数据、分词等,得到预处理后的中文文本和英文文本。
步骤502,从多个设定规则中,随机确定目标规则。
其中,预设规则用于在文本中引入错误,包括引入拼写错误、引入语法错误和引入格式错误等,即如图6中所示的在第一训练文本中加入设定噪音数据。
步骤503,根据目标规则,对第一训练文本中至少一个字符进行调整,以得到第二训练文本,并对至少一个字符标注目标规则对应的目标标签。
其中,目标规则是从多个预设规则中随机确定的任一个规则,例如,目标规则为引入语法错误。
本公开实施例中,基于目标规则,对第一训练文本中至少一个字符进行调整,以得到第二训练文本,通过在第一训练文本中加入噪声数据,模拟生成待纠错的第二训练文本,并对第二训练文本中的至少一个字符标注目标规则对应的目标标签,减少了人力的投入,提高了样本的多样性。并对至少一个字符标注目标规则对应的目标标签。其中,各个字符的目标标签指示了相应字符存在的错误对应的调整策略。
步骤504,根据设定的固定标签,对训练译文标注对应的目标标签。
其中,训练译文是不存在错误的文本,是用于作为参照的文本。固定标签,可以是预先设定的标签,例如,为$KEEP或$FIX。
如图7所示,是对训练译文和第二训练文本标注对应的目标标签后的结果。本公开实施例中,如图6所示,将携带了对应的目标标签的第二训练文本,和携带了对应的目标标签的训练译文,作为训练数据。
步骤505,将第二训练文本和训练译文输入序列标注模型,以得到第二训练文本和训练译文中各字符的预测标签。
针对预测标签的说明,可参照前述实施例中的说明,此处不再赘述。
步骤506,根据预测标签和目标标签之间的差异,对序列标注模型进行训练。
本公开实施例的一种实现方式中,在按照步骤505和步骤506对序列标注模型进行训练的过程中,可以采用迭代策略,以提高序列标注模型的精度和召回率。
例如,如图8所示,第二训练文本是”It is unfair to release a law onlypoint to the genetic disorder”,第1轮训练过程中,根据识别到的各字符的预测标签和目标标签之间的差异,对序列标注模型的参数进行调整,进而,在第二轮训练过程中,先将标注存在了错误的字符”point”更正为”points”,第2次迭代纠错是把第1次得到的纠错结果作为输入,即“It is unfair to release a law only points to the geneticdisorder”,识别到的各字符的预测标签和目标标签之间的差异,对序列标注模型的参数进行调整,进而,在第三轮训练过程中,将标注存在了错误的字符law后面增加单词that,并将纠错的结果作为输入,继续进行模型训练的过程,通过多轮迭代,以提高模型训练的效果。
本公开实施例的序列标注模型的训练方法中,采用的训练语料中包含第一训练文本,以及对应训练译文,采用预设规则在第一训练文本中引入噪声数据,以生成第二训练文本,将第二训练文本和对应训练译文作为训练数据,增加了训练数据的多样性。在模型训练的过程中采用迭代的方式进行训练,可以提高模型训练的精度和召回率。
为了实现上述实施例,本实施例提供了一种文本纠错装置。
图9为本公开实施例提供的一种文本纠错装置的结构示意图,如图9所示,该装置包含:
第一获取模块91,用于获取参考译文和对应的待纠错的源文本。
第一预测模块92,用于将所述源文本和所述参考译文作为输入文本输入至序列标注模型,以对所述输入文本中各字符标注纠错标签。
调整模块93,用于根据所述纠错标签指示的调整策略,对所述源文本的各字符进行调整,得到对所述源文本纠错后的目标文本。
进一步,本公开实施例的一种实现方式中,第一预测模块92,包括:
拼接单元,用于将所述源文本和所述参考译文拼接,以得到所述输入文本。
输入单元,用于将所述输入文本输入所述序列标注模型。
编码单元,用于采用所述序列标注模型中的输入层,对所述输入文本中的各字符进行编码。
特征提取单元,用于采用所述序列标注模型中的翻译层,对所述输入文本中的各字符的编码进行语义特征提取,得到各字符的语义特征。
标注单元,用于采用所述序列标注模型中的分类预测层,根据各字符的语义特征对各字符标注所述纠错标签。
本公开实施例的一种实现方式中,特征提取单元,还用于:
将所述输入文本中各字符的编码输入所述翻译层的注意力网络,以采用多头注意力机制预测所述输入文本中各字符之间的语义相关性;所述翻译层的前馈神经网络根据所述注意力网络预测的语义相关性对各字符的编码进行语义特征提取,得到各字符的语义特征。
本公开实施例的一种实现方式中,编码单元,还用于:
采用所述输入层,对所述输入文本中的各字符根据各所述字符所属的语言类型和字符位置进行编码,以得到各所述字符的编码。
本公开实施例的一种实现方式中,该装置,还包括:
第二获取模块,用于获取多组语料对,其中,各组所述语料对中包括第一训练文本,以及对应训练译文。
确定模块,用于从多个设定规则中,随机确定目标规则。
处理模块,用于根据所述目标规则,对所述第一训练文本中至少一个字符进行调整,以得到第二训练文本,并对所述至少一个字符标注所述目标规则对应的目标标签。
标注模块,用于根据设定的固定标签,对所述训练译文标注对应的所述目标标签。
第二预测模块,用于将所述第二训练文本和所述训练译文输入所述序列标注模型,以得到所述第二训练文本和所述训练译文中各字符的预测标签。
训练模块,用于根据所述预测标签和所述目标标签之间的差异,对所述序列标注模型进行训练。
需要说明的是,前述对方法实施例的解释说明,也适用于本实施例中的原则,本实施例中不再赘述。
本公开实施例的文本纠错装置中,获取参考译文和对应的待纠错的源文本,将源文本和参考译文作为输入文本输入至序列标注模型,以对输入文本中各字符标注纠错标签,根据纠错标签指示的调整策略,对源文本的各字符进行调整,得到对源文本纠错后的目标文本,本公开中采用参考译文作为待纠错的源文本进行纠错时的参照,输入序列标注模型中,得到标注的各个字符的纠错标签,可以找出待纠错文本的各种错误,提高了纠错结果的准确性。
为了实现上述实施例,本公开实施例提供了一种电子设备,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述方法实施例所述的方法。
为了实现上述实施例,本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前述方法实施例所述的方法。
为了实现上述实施例,本公开实施例提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现前述方法实施例所述的方法。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图10是本公开实施例提供的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图10所示,设备1000包括计算单元1001,其可以根据存储在ROM(Read-OnlyMemory,只读存储器)1002中的计算机程序或者从存储单元1008加载到RAM(Random AccessMemory,随机访问/存取存储器)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。I/O(Input/Output,输入/输出)接口1005也连接至总线1004。
设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于CPU(Central Processing Unit,中央处理单元)、GPU(Graphic Processing Units,图形处理单元)、各种专用的AI(Artificial Intelligence,人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor,数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如文本纠错方法。例如,在一些实施例中,文本纠错方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM1003并由计算单元1001执行时,可以执行上文描述的文本纠错方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本纠错方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array,现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit,专用集成电路)、ASSP(Application Specific StandardProduct,专用标准产品)、SOC(System On Chip,芯片上系统的系统)、CPLD(ComplexProgrammable Logic Device,复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory,可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory,便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(Cathode-Ray Tube,阴极射线管)或者LCD(Liquid Crystal Display,液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:LAN(LocalArea Network,局域网)、WAN(Wide Area Network,广域网)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
其中,需要说明的是,人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (6)

1.一种文本纠错方法,包括:
获取参考译文和对应的待纠错的源文本;所述参考译文是不存在错误的正确文本;
将所述源文本和所述参考译文作为输入文本输入至序列标注模型,以对所述输入文本中各字符标注纠错标签;
根据所述纠错标签指示的调整策略,对所述源文本的各字符进行调整,得到对所述源文本纠错后的目标文本;
其中,所述将所述源文本和所述参考译文作为输入文本输入至序列标注模型,以对所述输入文本中各字符标注纠错标签,包括:
将所述源文本和所述参考译文拼接,以得到所述输入文本;
将所述输入文本输入所述序列标注模型;
采用所述序列标注模型中的输入层,对所述输入文本中的各字符根据各所述字符所属的语言类型和字符位置进行编码,以得到各所述字符的编码;所述输入层包含词编码、位置编码和语言类型编码,所述语言类型编码用于区分不同语种,不同的语种使用不同的嵌入进行表示;
采用所述序列标注模型中的翻译层,对所述输入文本中的各字符的编码进行语义特征提取,得到各字符的语义特征;
采用所述序列标注模型中的分类预测层,根据各字符的语义特征对各字符标注所述纠错标签;
其中,所述采用所述序列标注模型中的翻译层,对所述输入文本中的各字符的编码进行语义特征提取,得到各字符的语义特征,包括:
将所述输入文本中各字符的编码输入所述翻译层的注意力网络,以采用多头注意力机制预测所述输入文本中各字符之间的语义相关性;
所述翻译层的前馈神经网络根据所述注意力网络预测的语义相关性对各字符的编码进行语义特征提取,得到各字符的语义特征。
2.根据权利要求1所述的方法,其中,所述将所述源文本和所述参考译文作为输入文本输入至序列标注模型,以对所述输入文本中各字符标注纠错标签之前,还包括:
获取多组语料对,其中,各组所述语料对中包括第一训练文本,以及对应训练译文;
从多个设定规则中,随机确定目标规则;
根据所述目标规则,对所述第一训练文本中至少一个字符进行调整,以得到第二训练文本,并对所述至少一个字符标注所述目标规则对应的目标标签;
根据设定的固定标签,对所述训练译文标注对应的所述目标标签;
将所述第二训练文本和所述训练译文输入所述序列标注模型,以得到所述第二训练文本和所述训练译文中各字符的预测标签;
根据所述预测标签和所述目标标签之间的差异,对所述序列标注模型进行训练。
3.一种文本纠错装置,包括:
第一获取模块,用于获取参考译文和对应的待纠错的源文本;所述参考译文是不存在错误的正确文本;
第一预测模块,用于将所述源文本和所述参考译文作为输入文本输入至序列标注模型,以对所述输入文本中各字符标注纠错标签;
调整模块,用于根据所述纠错标签指示的调整策略,对所述源文本的各字符进行调整,得到对所述源文本纠错后的目标文本;
其中,所述第一预测模块,包括:
拼接单元,用于将所述源文本和所述参考译文拼接,以得到所述输入文本;
输入单元,用于将所述输入文本输入所述序列标注模型;
编码单元,用于采用所述序列标注模型中的输入层,对所述输入文本中的各字符根据各所述字符所属的语言类型和字符位置进行编码,以得到各所述字符的编码;所述输入层包含词编码、位置编码和语言类型编码,所述语言类型编码用于区分不同语种,不同的语种使用不同的嵌入进行表示;
特征提取单元,用于采用所述序列标注模型中的翻译层,对所述输入文本中的各字符的编码进行语义特征提取,得到各字符的语义特征;
标注单元,用于采用所述序列标注模型中的分类预测层,根据各字符的语义特征对各字符标注所述纠错标签;
其中,所述特征提取单元,还用于:
将所述输入文本中各字符的编码输入所述翻译层的注意力网络,以采用多头注意力机制预测所述输入文本中各字符之间的语义相关性;
所述翻译层的前馈神经网络根据所述注意力网络预测的语义相关性对各字符的编码进行语义特征提取,得到各字符的语义特征。
4.根据权利要求3所述的装置,其中,所述装置,还包括:
第二获取模块,用于获取多组语料对,其中,各组所述语料对中包括第一训练文本,以及对应训练译文;
确定模块,用于从多个设定规则中,随机确定目标规则;
处理模块,用于根据所述目标规则,对所述第一训练文本中至少一个字符进行调整,以得到第二训练文本,并对所述至少一个字符标注所述目标规则对应的目标标签;
标注模块,用于根据设定的固定标签,对所述训练译文标注对应的所述目标标签;
第二预测模块,用于将所述第二训练文本和所述训练译文输入所述序列标注模型,以得到所述第二训练文本和所述训练译文中各字符的预测标签;
训练模块,用于根据所述预测标签和所述目标标签之间的差异,对所述序列标注模型进行训练。
5. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-2中任一项所述的方法。
6.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-2中任一项所述的方法。
CN202110943260.2A 2021-08-17 2021-08-17 文本纠错方法、装置、电子设备和计算机存储介质 Active CN113743101B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110943260.2A CN113743101B (zh) 2021-08-17 2021-08-17 文本纠错方法、装置、电子设备和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110943260.2A CN113743101B (zh) 2021-08-17 2021-08-17 文本纠错方法、装置、电子设备和计算机存储介质

Publications (2)

Publication Number Publication Date
CN113743101A CN113743101A (zh) 2021-12-03
CN113743101B true CN113743101B (zh) 2023-05-23

Family

ID=78731420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110943260.2A Active CN113743101B (zh) 2021-08-17 2021-08-17 文本纠错方法、装置、电子设备和计算机存储介质

Country Status (1)

Country Link
CN (1) CN113743101B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114462356B (zh) * 2022-04-11 2022-07-08 苏州浪潮智能科技有限公司 一种文本纠错方法、装置、电子设备和介质
CN117743857A (zh) * 2023-12-29 2024-03-22 北京海泰方圆科技股份有限公司 文本纠错模型训练、文本纠错方法、装置、设备和介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885728A (zh) * 2017-12-11 2018-04-06 中译语通科技股份有限公司 一种基于译员在线翻译的qa自动检测方法及系统
CN111523306A (zh) * 2019-01-17 2020-08-11 阿里巴巴集团控股有限公司 文本的纠错方法、装置和系统
CN111191440B (zh) * 2019-12-13 2024-02-20 语联网(武汉)信息技术有限公司 翻译中针对译文的量词纠错方法及系统
CN112232062A (zh) * 2020-12-11 2021-01-15 北京百度网讯科技有限公司 文本纠错方法、装置、电子设备和存储介质
CN112836496B (zh) * 2021-01-25 2024-02-13 之江实验室 一种基于bert和前馈神经网络的文本纠错方法
CN112926345B (zh) * 2021-04-08 2023-11-28 中国科学技术大学 基于数据增强训练的多特征融合神经机器翻译检错方法

Also Published As

Publication number Publication date
CN113743101A (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
US11574122B2 (en) Method and system for joint named entity recognition and relation extraction using convolutional neural network
CN111309915B (zh) 联合学习的自然语言训练方法、系统、设备及存储介质
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN112232062A (zh) 文本纠错方法、装置、电子设备和存储介质
CN110717331A (zh) 一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质
CN113051356B (zh) 开放关系抽取方法、装置、电子设备及存储介质
CN113743101B (zh) 文本纠错方法、装置、电子设备和计算机存储介质
CN111737991B (zh) 文本断句位置的识别方法及系统、电子设备及存储介质
CN114022882B (zh) 文本识别模型训练、文本识别方法、装置、设备及介质
US11126797B2 (en) Toxic vector mapping across languages
CN112036162A (zh) 文本纠错的适配方法、装置、电子设备及存储介质
CN112580339B (zh) 模型的训练方法、装置、电子设备及存储介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
US20220139386A1 (en) System and method for chinese punctuation restoration using sub-character information
US20230114673A1 (en) Method for recognizing token, electronic device and storage medium
CN113053367A (zh) 语音识别方法、语音识别的模型训练方法以及装置
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN114417879B (zh) 跨语言文本语义模型的生成方法、装置及电子设备
CN115730585A (zh) 文本纠错及其模型训练方法、装置、存储介质及设备
US9536180B2 (en) Text recognition based on recognition units
US20230153550A1 (en) Machine Translation Method and Apparatus, Device and Storage Medium
CN111753532A (zh) 西文文本的纠错方法和装置、电子设备及存储介质
CN114429106B (zh) 页面信息处理方法、装置、电子设备和存储介质
CN116341646A (zh) Bert模型的预训练方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant