CN111310447B

CN111310447B - 语法纠错方法、装置、电子设备和存储介质

Info

Publication number: CN111310447B
Application number: CN202010192025.1A
Authority: CN
Inventors: 王宝鑫; 伍大勇; 车万翔; 王士进; 胡国平; 刘挺
Original assignee: Hebei Xunfei Institute Of Artificial Intelligence; iFlytek Co Ltd
Current assignee: Hebei Xunfei Institute Of Artificial Intelligence; iFlytek Co Ltd
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2024-02-02
Anticipated expiration: 2040-03-18
Also published as: CN111310447A

Abstract

本发明实施例提供一种语法纠错方法、装置、电子设备和存储介质，其中方法包括：确定待纠错的文本；将文本输入至语法纠错模型，得到语法纠错模型输出的文本中每个字的检错结果和纠正结果；其中，语法纠错模型是基于样本文本、样本文本中每个样本字的样本检错结果和样本纠正结果训练得到的；语法纠错模型用于确定文本中每个字的检错结果，并基于每个字的检错结果所对应的解码方式，确定每个字的纠正结果。本发明实施例提供的方法、装置、电子设备和存储介质，无需人工校对即可实现语法纠错，在保证语法纠错效率的同时，提高了语法纠错的准确性和可靠性。

Description

语法纠错方法、装置、电子设备和存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种语法纠错方法、装置、电子设备和存储介质。

背景技术

文本中存在的语法错误会导致语句不通顺，影响阅读理解。对于新闻媒体、公文撰写等对文本准确性要求较高的领域，通常通过人工校对来检测并纠正语法错误，费时费力，纠错结果的准确性和可靠性均待提升。

如何在提高语法纠错效率的同时，确保纠错结果的准确性和可靠性，仍然是本领域技术人员亟待解决的问题。

发明内容

本发明实施例提供一种语法纠错方法、装置、电子设备和存储介质，用以解决现有的语法纠错的准确性和可靠性低的问题。

第一方面，本发明实施例提供一种语法纠错方法，包括：

确定待纠错的文本；

将所述文本输入至语法纠错模型，得到所述语法纠错模型输出的所述文本中每个字的检错结果和纠正结果；

其中，所述语法纠错模型是基于样本文本、所述样本文本中每个样本字的样本检错结果和样本纠正结果训练得到的；所述语法纠错模型用于确定所述文本中每个字的检错结果，并基于每个字的检错结果所对应的解码方式，确定每个字的纠正结果。

优选地，所述将所述文本输入至语法纠错模型，得到所述语法纠错模型输出的所述文本中每个字的检错结果和纠正结果，具体包括：

将所述文本输入至所述语法纠错模型的错误检测层，得到所述错误检测层输出的所述文本中每个字的检错结果；

将所述文本以及所述文本中每个字的检错结果输入至所述语法纠错模型的错误纠正层，得到所述错误纠正层输出的每个字的纠正结果。

优选地，所述将所述文本输入至所述语法纠错模型的错误检测层，得到所述错误检测层输出的所述文本中每个字的检错结果，具体包括：

将所述文本输入至所述错误检测层的文本编码层，得到所述文本编码层输出的所述文本中每个字的字编码特征；

将每个字的字编码特征输入至所述错误检测层的序列标注层，得到所述序列标注层输出的每个字的检错结果。

优选地，所述错误纠正层包括多个对应于不同检错结果的解码层。

优选地，所述将所述文本以及所述文本中每个字的检错结果输入至所述语法纠错模型的错误纠正层，得到所述错误纠正层输出的每个字的纠正结果，具体包括：

将所述文本以及所述文本中任一字的位置输入至所述任一字的检错结果对应的解码层，得到所述任一字的检错结果对应的解码层输出的所述任一字的纠正结果。

优选地，当任一字的检错结果包括缺失、乱序和错字中的至少一种时，所述将所述文本以及所述文本中任一字的位置输入至所述任一字的检错结果对应的解码层，得到所述任一字的检错结果对应的解码层输出的所述任一字的纠正结果，具体包括：

将所述文本中每个字的字编码特征、所述任一字的位置，以及所述任一字之前的每个字的纠正结果输入至所述任一字的检错结果对应的解码层，得到所述任一字的检错结果对应的解码层输出的所述任一字的纠正结果。

优选地，所述将所述文本中每个字的字编码特征、所述任一字的位置，以及所述任一字之前的每个字的纠正结果输入至所述任一字的检错结果对应的解码层，得到所述任一字的检错结果对应的解码层输出的所述任一字的纠正结果，具体包括：

将所述文本中每个字的字编码特征、所述任一字的位置，以及所述任一字之前的每个字的纠正结果输入至所述任一字的检错结果对应的解码层的复制得分层，得到所述复制得分层输出的所述任一字对应于所述文本中每个字的复制得分；

和/或，将所述文本中每个字的字编码特征、所述任一字的位置，以及所述任一字之前的每个字的纠正结果输入至所述任一字的检错结果对应的解码层的通用得分层，得到所述通用得分层输出的所述任一字对应于通用词表中每个字的通用得分；

将所述任一字对应于所述文本中每个字的复制得分，和/或所述任一字对应于通用词表中每个字的通用得分输入至所述任一字的检错结果对应的解码层的预测层，得到所述预测层输出的所述任一字的纠正结果。

优选地，所述样本文本、所述样本文本中每个样本字的样本检错结果和样本纠正结果是基于如下步骤得到的：

基于任一校对文本的第一随机概率，确定所述任一校对文本的修改类型；

基于所述任一校对文本中每个字的第二随机概率，确定所述任一校对文本中的待修改字；

基于所述任一校对文本的修改类型，对所述任一校对文本中的待修改字进行修改，得到所述任一校对文本对应的样本文本，以及所述样本文本中每个样本字的样本检错结果和样本纠正结果。

第二方面，本发明实施例提供一种语法纠错装置，包括：

文本确定单元，用于确定待纠错的文本；

语法纠错单元，用于将所述文本输入至语法纠错模型，得到所述语法纠错模型输出的所述文本中每个字的检错结果和纠正结果；

第三方面，本发明实施例提供一种电子设备，包括处理器、通信接口、存储器和总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信，处理器可以调用存储器中的逻辑命令，以执行如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的一种语法纠错方法、装置、电子设备和存储介质，应用语法纠错模型实现语法错误检测和语法错误纠正，无需人工校对即可实现语法纠错，在保证语法纠错效率的同时，提高了语法纠错的准确性和可靠性。此外，基于每个字的检错结果所对应的解码方式进行语法错误纠正，使得语法错误纠正更具针对性，从而进一步提高了语法错误纠正的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语法纠错方法的流程示意图；

图2为本发明实施例提供的语法纠错模型的运行流程示意图；

图3为本领域实施例提供的检错结果的确定方法流程示意图；

图4为本领域实施例提供的纠正结果的确定方法流程示意图；

图5为本发明实施例提供的语法纠错模型的结构示意图；

图6为本发明实施例提供的样本获取方法的流程示意图；

图7为本发明实施例提供的语法纠错装置的结构示意图；

图8为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，语法纠错技术主要分为语法错误检测和语法错误纠正两类。其中，语法错误检测用于检测文本中语法错误的位置，但不提供修改意见，语法错误纠正用于根据输入的文本生成纠正后的文本，但不提供语法错误的位置。例如，对文本“人战胜了饥饿，才努力为了下一代作更好的、更健康的东西”分别进行语法错误检测和语法错误纠正，得到的检错结果为“努”前面缺字，“作”为错字，纠正结果为“人战胜了饥饿，才能努力为了下一代做更好的、更健康的东西”。

如果需要实现语法纠错，则必须要既执行语法错误检测方法，也执行语法错误纠正方法。在此过程中，由于语法错误检测和语法错误纠正的准确性尚待提升，两个独立运行的方法分别得到的语法错误检测结果和语法错误纠正结果可能是相悖的，仍需要人工核查，需要耗费大量的时间和精力。对此，本发明实施例提供一种语法纠错方法，从而克服上述问题。

图1为本发明实施例提供的语法纠错方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待纠错的文本。

具体地，待纠错的文本即需要进行语法错误检测和语法错误纠正的文本，此处的文本可以是用户直接输入的文本，也可以是对用户输入的图像进行OCR(OpticalCharacter Recognition，光学字符识别)得到的文本，还可以是对用户输入的语音进行语音识别得到的文本，本发明实施例对此不作具体限定。

步骤120，将文本输入至语法纠错模型，得到语法纠错模型输出的文本中每个字的检错结果和纠正结果；

其中，语法纠错模型是基于样本文本、样本文本中每个样本字的样本检错结果和样本纠正结果训练得到的；语法纠错模型用于确定文本中每个字的检错结果，并基于每个字的检错结果所对应的解码方式，确定每个字的纠正结果。

具体地，语法纠错模型用于对输入的文本进行语法错误检测和语法错误纠正，并输出文本中每个字的检错结果和纠正结果。此处，文本中任一字的检错结果可以表征该字是否存在语法错误，还可以在该字存在语法错误时进一步表征该字的语法错误类型，例如任一字的检错结果可以是正确，或者是缺失、乱序、冗余或错字，再或者包含缺失、乱序和错字中的至少两种。任一字的纠正结果是对文本中该字进行语法错误纠正后的字或词，将每个字的纠正结果进行拼接即可得到针对于文本整体而言的纠正结果。

将文本输入至语法纠错模型后，语法纠错模型先对文本进行语法错误检测，得到文本中每个字的检错结果，并基于每个字的检错结果，确定每个字对应的解码方式，逐字进行语法错误纠正，得到每个字的纠正结果。此处，针对于不同的检错结果，对应于不同的解码方式，不同的解码方式用于实现不同语法错误类型的纠正。基于任一字的检错结果所对应的解码方式对该字进行语法错误纠正，使得语法错误纠正更具针对性，从而提高语法错误纠正的准确性。

在执行步骤120之前，还可以预先训练得到语法纠错模型，具体可以通过如下方式训练得到语法纠错模型：首先，收集大量样本文本，分别对样本文本进行语法错误检测和语法错误纠正，得到样本文本中每个样本字的样本检错结果和样本纠正结果。此处针对于样本文本的语法错误检测和语法错误纠正，可以是通过人工校对实现，也可以是通过现有的语法错误检测方法和语法错误纠正方法分别实现，本发明实施例对此不作具体限定。随即，基于样本文本、样本文本中每个样本字的样本检错结果和样本纠正结果训练初始模型，从而得到语法纠错模型。

在语法纠错模型训练过程中，语法错误检测所得的每个字的检错结果应用于语法错误纠正，从而使得语法错误检测和语法错误纠正两个任务相互制约，一则避免了两个任务独立运行导致得到的语法错误检测结果和语法错误纠正结果可能相悖的问题，二则从整体上提高了语法纠正模型输出结果的准确性。

本发明实施例提供的方法，应用语法纠错模型实现语法错误检测和语法错误纠正，无需人工校对即可实现语法纠错，在保证语法纠错效率的同时，提高了语法纠错的准确性和可靠性。此外，基于每个字的检错结果所对应的解码方式进行语法错误纠正，使得语法错误纠正更具针对性，从而进一步提高了语法错误纠正的准确性。

基于上述实施例，语法纠错模型包括错误检测层和错误纠正层；图2为本发明实施例提供的语法纠错模型的运行流程示意图，如图2所示，步骤120具体包括：

步骤121，将文本输入至语法纠错模型的错误检测层，得到错误检测层输出的文本中每个字的检错结果。

步骤122，将文本以及文本中每个字的检错结果输入至语法纠错模型的错误纠正层，得到错误纠正层输出的每个字的纠正结果。

具体地，错误检测层用于对输入的文本进行语法错误检测，并输出文本中每个字的检错结果。错误纠正层基于每个字的检错结果，确定每个字对应的解码方式，逐字对输入的文本进行语法错误纠正，从而得到每个字的纠正结果。

文本中每个字的检错结果既为错误检测层的输出，也为错误纠正层的输入，由此将错误检测层和错误纠正层相连接，从而使得错误检测层和错误纠正层相互制约，通过训练提高整体输出的准确性和可靠性。

基于上述任一实施例，错误检测层包括文本编码层和序列标注层。图3为本领域实施例提供的检错结果的确定方法流程示意图，如图3所示，步骤121具体包括：

步骤1211，将文本输入至错误检测层的文本编码层，得到文本编码层输出的文本中每个字的字编码特征。

具体地，文本编码层用于对文本中的每个字进行编码，并输出每个字的字编码特征。此处，每个字的字编码特征可以是对应字的字向量，也可以包含有对应字的字向量以及上下文信息，本发明实施例对此不作具体限定。

步骤1212，将任一字的字编码特征输入至错误检测层的序列标注层，得到序列标注层输出的该字的检错结果。

具体地，序列标注层用于基于输入的每个字的字编码特征，对每个字进行语法错误检测，进而标注每个字的检错结果。此处，任一字的检错结果可以是正确、缺失、乱序、冗余、错字和混合这6种情况中的一种，其中混合是指检错结果包含缺失、乱序和错字中的至少两种的情况。对应在序列标注层中，可以用O表示正确，M表示缺失，W表示乱序，R表示冗余，S表示错字，G表示混合。

基于上述任一实施例，语法纠错模型中，错误纠正层包括多个对应于不同检错结果的解码层。

具体地，错误纠正层包括多个解码层，解码层与检错结果之间存在预先设定的对应关系，一个解码层可以对应一个或多个检错结果，一个检错结果仅对应一个解码层。针对于单一解码层，该解码层用于对存在对应检错结果的字进行语法错误纠正。

例如，检错结果可以是正确、缺失、乱序、冗余、错字和混合这6种情况中的一种，对应地，错误纠正层可以包括6个解码层，每个解码层分别对应一种检错结果。

本发明实施例提供的方法，针对不同的检错结果设置对应的解码层进行针对性的语法错误纠正，能够有效提供语法错误纠正的准确性。

基于上述任一实施例，步骤122具体包括：将文本以及文本中任一字的位置输入至该字的检错结果对应的解码层，得到该字的检错结果对应的解码层输出的该字的纠正结果。

具体地，针对文本中的任一字，在确定该字的检错结果后，即可确定该字的检错结果所应的解码层，并将文本以及该字在文本中的位置输入到对应的解码层中，由解码层基于文本以及该字在文本中的位置，应用对应的解码方式，对该字进行语法错误纠正，进而输出该字的纠正结果。

例如，正确所对应的解码层可以基于该字在文本中的位置，从文中提取该字，作为该字的纠正结果；冗余所对应的解码层可以在该字所对应的位置输出空，作为该字的纠正结果；缺失对应的解码层可以基于输入的文本，以及该字在文本中的位置，预测并生成在该字之前缺失的字，将生成的字与该字拼接，作为该字的纠正结果；乱序对应的解码层可以基于输入的文本以及该字在文本中的位置，从文本中选取需要与该字进行顺序置换的字，并将需要与该字进行顺序置换的字作为该字的纠正结果；错字对应的解码层可以基于输入的文本以及该字在文本中的位置，预测并生成在该字所在位置的替换字，将替换字作为该字的纠正结果；混合对应的解码层可以采取与错字对应的解码层相同的操作，预测并生成在该字所在位置的替换字，将替换字作为该字的纠正结果。

基于上述任一实施例，当任一字的检错结果包括缺失、乱序和错字中的至少一种时，步骤122具体包括：将文本中每个字的字编码特征、该字的位置，以及该字之前的每个字的纠正结果输入至该字的检错结果对应的解码层，得到该字的检错结果对应的解码层输出的该字的纠正结果。

具体地，当任一字的检错结果包括缺失、乱序和错字中的至少一种时，检错结果所对应的解码层需要生成该字所在位置的替换字，从而纠正上述语法错误。

为了提高解码层输出纠正结果的准确性，可以将该字的位置、文本中每个字的字编码特征，以及该字之前的每个字的纠正结果均作为解码层的输入，从而丰富解码层对该字所在位置的替换字进行预测时的信息。

需要说明的是，每个字的字编码特征可以是错误检测层中文本编码层输出的，错误检测层中的序列标注层与错误纠正层的解码层共享字编码特征，在缩小语法纠错模型规模，减小计算量的同时，能够进一步提高语法纠错模型输出结果的准确性。

例如，文本为“他想于在国外作生意”，其中每个字的检错结果分别为[O O R O OO S O O]，对文本进行逐字进行语法错误纠正：针对于“于”字，通过冗余对应的解码层生成“于”字的纠正结果为空；针对于“作”字，将每个字的字编码特征、“作”字的位置，以及“作”字之前的每个字的纠正结果“他想在国外”输入至错字对应的解码层，得到“作”字的纠正结果“做”。最终结合每个字的纠正结果，得到文本纠正结果“他想在国外做生意”。

基于上述任一实施例，当任一字的检错结果为乱序时，步骤122具体包括：将文本中每个字的字编码特征和检错结果、该字的位置，以及该字之前的每个字的纠正结果输入至乱序对应的解码层，得到乱序对应的解码层输出的该字的纠正结果，该字的纠正结果为文本中检错结果为乱序的其他字。

具体地，当任一字的检错结果为乱序时，乱序对应的解码层的输入不仅可以包括文本中每个字的字编码特征、该字的位置，以及该字之前的每个字的纠正结果，还可以包括文本中每个字的检错结果，从而使得乱序对应的解码层能够确定文本中所有检错结果为乱序的字，从而限制生成的该字所在位置的替换字为所有检错结果为乱序的字中除该字之外的其他字。

例如，文本为“他想在生意做国外”，其中每个字的检错结果分别为[O O O B-W I-W I-W I-W I-W]，其中B-W为乱序的首个字，I-W为乱序的中间字。对文本进行逐字进行语法错误纠正，针对于“生”字，通过乱序对应的解码层生成“生”字所在位置的替换字“国”，将“国”作为“生”的纠正结果。逐次基于乱序对应的解码层对“生”、“意”、“做”、“国”、“外”进行语法错误纠正，得到文本纠正结果“他想在国外做生意”。

基于上述任一实施例，图4为本领域实施例提供的纠正结果的确定方法流程示意图，如图4所示，当任一字的检错结果包括缺失、乱序和错字中的至少一种时，步骤122具体包括：

步骤1221，将文本中每个字的字编码特征、该字的位置，以及该字之前的每个字的纠正结果输入至该字的检错结果对应的解码层的复制得分层，得到复制得分层输出的该字对应于文本中每个字的复制得分。

具体地，复制得分层基于输入的文本中每个字的字编码特征、该字的位置，以及该字之前的每个字的纠正结果，预测该字所在位置的替换字为文本中每个字的概率，也就是将文本中的每个字分别复制到该字所在的位置作为该字的替换词的概率，由此得到该字对应于文本中每个字的复制得分输出。

进一步地，复制得分层可以是基于Copy机制构建的，Copy机制常用于未登录词(Out-of-vocabulary，OOV)问题的解决，本发明实施例中则通过应用Copy机制，以更好地将输入文本中的字直接复制到纠正结果中，从而降低语法纠错模型的学习难度。

和/或，步骤1222，将文本中每个字的字编码特征、该字的位置，以及该字之前的每个字的纠正结果输入至该字的检错结果对应的解码层的通用得分层，得到通用得分层输出的该字对应于通用词表中每个字的通用得分。

具体地，通用得分层基于输入的文本中每个字的字编码特征、该字的位置，以及该字之前的每个字的纠正结果，预测该字所在位置的替换字为通用词表中每个字的概率，由此得到该字对应于通用词表中每个字的通用得分输出。此处，通用词表是预先设定的词表，通用词表中包含大量常用字。

步骤1223，将该字对应于文本中每个字的复制得分，和/或该字对应于通用词表中每个字的通用得分输入至该字的检错结果对应的解码层的预测层，得到预测层输出的该字的纠正结果。

具体地，当解码层由复制得分层和预测层构成时，预测层基于复制得分层输出的该字对应于文本中每个字的复制得分，确定该字的纠正结果，此处的纠正结果为文本中包含的字；当解码层由通用得分层和预测层构成时，预测层基于通用得分层输出的该字对应于通用词表中每个字的通用得分，确定该字的纠正结果，此处的纠正结果是通用词表中包含的字；当解码层由复制得分层、通用得分层和预测层构成时，预测层可以基于该字对应于文本中每个字的复制得分，以及该字对应于通用词表中每个字的通用得分，确定该字的纠正结果，此处的纠正结果是通用词表中包含的字。

本发明实施例提供的方法，可以结合任一字对应于文本中每个字的复制得分，和/或该字对应于通用词表中每个字的通用得分进行该字的语法错误纠正，从而提高语法错误纠正的准确性。

基于上述任一实施例，图5为本发明实施例提供的语法纠错模型的结构示意图，如图5所示，语法纠错模型可以设置为Transformer+Copy机制的模型结果。Transformer模型结构通常分为编码器encoder和解码器decoder两部分，本发明实施例中可以将由文本编码层和序列标注层构成的错误检测层作为编码器encoder，将由多个对应于不同检错结果的解码层构成的错误纠正层作为解码器decoder。

编码器encoder中，文本编码层可以由若干个Transformer block构成，每个Transformer block均可以基于注意力机制对上个Transformer block输出的文本中每个字的特征进行编码，文本中每个字的字编码特征即经过若干个Transformer block编码得到的。序列标注层可以表示为softmax函数，基于每个字的字编码特征预测每个字的检错结果。

解码器decoder中包括多个对应于不同检错结果的解码层，图5中仅示出其中一个解码层的结构，其余解码层的结构可以与图中示出的解码层结构相同，也可以不同。图中示出的解码层由Transformer block、encoder-decoder attention和Copy机制组成，其中若干个Transformer block用于对文本中任一字之前的每个字的纠正结果进行编码。encoder-decoder attention对应于通用得分层，用于基于编码器encoder得到的每个字的字编码特征，以及解码器decoder中若干个Transformer block对该字之前的每个字的纠正结果进行编码的结果，预测该字所在位置的替换字为通用词表中每个字的概率，由此得到该字对应于通用词表中每个字的通用得分输出。Copy机制对应于复制得分层，用于基于编码器encoder得到的每个字的字编码特征，以及解码器decoder中若干个Transformerblock对该字之前的每个字的纠正结果进行编码的结果，预测该字所在位置的替换字为文本中的每个字的概率，由此得到该字对应于文本中每个字的复制得分输出。此外，解码层中还包括预测层，用于基于该字对应于文本中每个字的复制得分和对应于通用词表中每个字的通用得分，确定该字的纠正结果，进而得到文本纠正结果。

进一步地，图5中示出的解码层可以用于实现检错结果为缺失或者混合的字的语法错误纠正。检错结果为乱序的字的语法错误纠正，可以通过Local Pointer Network结构的解码层实现，Local Pointer Network结构可以视为图5中未结合Copy机制的解码层。检错结果为错字的字的语法错误纠正，可以通过结合字音字形打分模型结构的解码层实现。

基于上述任一实施例，语法纠错模型的损失函数是基于检错结果损失函数和纠正结果损失函数确定的。

其中，检错结果损失函数用于衡量语法纠错模型输出的样本文本中每个样本字的检错结果，以及预先标注的每个样本字的样本检错结果之间的差异；纠正结果损失函数用于衡量语法纠错模型输出的样本文本的每个样本字的纠错结果，以及预先标注的每个样本字的样本纠正结果之间的差异。

语法纠错模型的损失函数可以是对检错结果损失函数和纠正结果损失函数进行结合的结果，具体可以是对检错结果损失函数和纠正结果损失函数进行加权的结果，可以表示为如下公式：

Loss＝α·Loss_seqlabel+(1-α)·Loss_seq2seq

式中，Loss为语法纠错模型的损失函数，Loss_seqlabel为检错结果损失函数，Loss_seq2seq为纠正结果损失函数，α和(1-α)分别为检错结果损失函数和纠正结果损失函数对应的权重。

此外，检错结果损失函数可以具体体现为文本中每个字的检错结果与样本检错结果的交叉熵之和，公式如下：

其中，T_i为文本长度，z_t为文本中第t个字的样本检错结果，p_t(z_t)为语法纠错模型输出的对应于样本检错结果的概率。

纠正结果损失函数可以具体体现为文本中每个字的纠正结果与样本纠正结果的交叉熵之和，公式如下：

其中，To_o为每个字的纠正结果构成的文本纠正结果长度，y_t为文本中第t个字的样本纠正结果，p_t(y_t)为语法纠错模型输出的对应于样本纠正结果的概率。

在对语法纠错模型进行训练前，需要收集语法纠错模型的训练样本，包括样本文本、样本文本中每个样本字的样本检错结果和样本纠正结果。而实际上，人工标注语料数据较少，因此难以直接得到大规模的训练样本，语法纠错模型无法很好地学习各种语法错误情况。

对此，基于上述任一实施例，图6为本发明实施例提供的样本获取方法的流程示意图，如图6所示，样本文本、样本文本中每个样本字的样本检错结果和样本纠正结果是基于如下步骤得到的：

步骤610，基于任一校对文本的第一随机概率，确定该校对文本的修改类型。

具体地，校对文本是预先通过人工校正或者其余语法错误检测方法确定不存在语法错误的文本，校对文本可以通过新闻文本、百科文本等出现语法错误的概率较低的文本中选取。

预先针对于不同的语法错误类型，设置对应的修改类型，并设置修改类型所对应的概率区间。例如，各语法错误类型所对应的修改类型和概率可以表示为下表：

错误类型

正确

缺失

乱序

冗余

错字

混合

修改类型

无修改

删除字词

顺序替换

增加字

替换字

组合修改

概率

[0，0.1)

[0.1，0.2)

[0.2，0.4)

[0.4，0.6)

[0.6，0.9)

[0.9，1)

第一随机概率为随机生成的0至1之间的概率值，假设任一校对文本的第一随机概率为0.49，则该校对文本的修改类型为冗余。

进一步地，单一语法错误类型可能对应多个修改类型，缺失可以具体是缺字或者缺词，对应的修改类型为删除字或删除词；乱序可以具体是字乱序或者词乱序,对应的修改类型为调整字顺序或者调整词顺序；冗余可以具体是连续重复、多字或者多词，其中连续重复是指文本由于输入错误等原因导致出现的连续重复片段，多字是指因多余一个字导致文本句法或语义出现明显错误的情况，多词是指因多余一个词导致文本语法或语义出现错误的情况，对应的修改类型为连续重复、增加随机字或增加随机词。

针对于对应多个修改类型的错误类型，可以在任一校对文本的第一随机概率确定对应于该错误类型后，再生成随机概率用于进一步对应修改类型，例如乱序中，[0，0.5)对应调整字顺序，[0.5，1)对应调整词顺序。也可以直接将错误类型对应的概率细分为每个修改类型所对应的概率，例如乱序对应于[0.2，0.4)，其中调整字顺序对应[0.2，0.3)，调整词顺序对应[0.3，0.4)。

步骤620，基于该校对文本中每个字的第二随机概率，确定该校对文本中的待修改字。

具体地，预先针对于不同的修改类型，设置是否执行该修改类型的概率区间，例如执行对应的概率区间为[0，0.1)，不执行对应的概率区间为[0.1，1)。针对校对文本中的每个字随机生成一个概率作为第二随机概率，若任一字的第二随机概率落入执行对应的概率区间为[0，0.1)，则确定该字为待修改字。

步骤630，基于该校对文本的修改类型，对该校对文本中的待修改字进行修改，得到该校对文本对应的样本文本，以及样本文本中每个样本字的样本检错结果和样本纠正结果。

具体地，在确定任一校对文本的修改类型，以及该校对文本中的待修改字后，即可对校对文本中的待修改字进行修改，将修改后的文本作为样本文本，将修改类型所对应的语法错误类型作为修改后的字的样本检错结果，将待修改字本身作为修改后的字的样本纠正结果。

例如，针对任一校对文本“人们战胜了饥饿”，基于随机生成的第一随机概率，确定该校对文本的修改类型为连续重复，通过每个字的第二随机概率确定是否修改该字，以及连续重复的长度，例如待修改字为“战”，连续重复为2，则对应的样本文本为“人们战胜战胜了饥饿”。

又例如，针对任一校对文本“人们战胜了饥饿”，基于随机生成的第一随机概率，确定该校对文本的修改类型为删除字，通过每个字的第二随机概率确定待修改字为“胜”，得到样本文本为“人们战了饥饿”。

再例如，针对任一校对文本“人们战胜了饥饿”，基于随机生成的第一随机概率，确定该校对文本的修改类型为调整词顺序，通过每个字的第二随机概率确定待修改字为“战”，对应的分词为“战胜”，“战胜”之后的首个包含实际语义的分词为“饥饿”，将“战胜”与“饥饿”的顺序进行替换，得到样本文本为“人们饥饿了战胜”。

本发明实施例提供的方法，通过伪造各种语法错误，得到大规模的训练样本以辅助语法纠错模型训练，使得语法纠错模型能够更好地进行语法纠错。

基于上述任一实施例，图7为本发明实施例提供的语法纠错装置的结构示意图，如图7所示，该装置包括文本确定单元710和语法纠错单元720；

其中，文本确定单元710用于确定待纠错的文本；

语法纠错单元720用于将所述文本输入至语法纠错模型，得到所述语法纠错模型输出的所述文本中每个字的检错结果和纠正结果；

本发明实施例提供的装置，应用语法纠错模型实现语法错误检测和语法错误纠正，无需人工校对即可实现语法纠错，在保证语法纠错效率的同时，提高了语法纠错的准确性和可靠性。此外，基于每个字的检错结果所对应的解码方式进行语法错误纠正，使得语法错误纠正更具针对性，从而进一步提高了语法错误纠正的准确性。

基于上述任一实施例，语法纠错单元720包括：

错误检测子单元，用于将所述文本输入至所述语法纠错模型的错误检测层，得到所述错误检测层输出的所述文本中每个字的检错结果；

错误纠正子单元，用于将所述文本以及所述文本中每个字的检错结果输入至所述语法纠错模型的错误纠正层，得到所述错误纠正层输出的每个字的纠正结果。

基于上述任一实施例，错误检测子单元具体包括：

基于上述任一实施例，错误纠正层包括多个对应于不同检错结果的解码层。

基于上述任一实施例，错误纠正子单元具体用于：

基于上述任一实施例，当任一字的检错结果包括缺失、乱序和错字中的至少一种时，错误纠正子单元具体用于：

基于上述任一实施例，错误纠正子单元具体用于：

基于上述任一实施例，该装置还包括样本获取单元，样本获取单元用于：

图8为本发明实施例提供的电子设备的结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑命令，以执行如下方法：确定待纠错的文本；将所述文本输入至语法纠错模型，得到所述语法纠错模型输出的所述文本中每个字的检错结果和纠正结果；其中，所述语法纠错模型是基于样本文本、所述样本文本中每个样本字的样本检错结果和样本纠正结果训练得到的；所述语法纠错模型用于确定所述文本中每个字的检错结果，并基于每个字的检错结果所对应的解码方式，确定每个字的纠正结果。

此外，上述的存储器830中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：确定待纠错的文本；将所述文本输入至语法纠错模型，得到所述语法纠错模型输出的所述文本中每个字的检错结果和纠正结果；其中，所述语法纠错模型是基于样本文本、所述样本文本中每个样本字的样本检错结果和样本纠正结果训练得到的；所述语法纠错模型用于确定所述文本中每个字的检错结果，并基于每个字的检错结果所对应的解码方式，确定每个字的纠正结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语法纠错方法，其特征在于，包括：

确定待纠错的文本；

将所述文本输入至语法纠错模型的错误检测层，得到所述错误检测层输出的所述文本中每个字的检错结果，将所述文本以及所述文本中每个字的检错结果输入至所述语法纠错模型的错误纠正层，得到所述错误纠正层输出的每个字的纠正结果，所述文本中任一字的检错结果用于表征该字是否存在语法错误，并在该字存在语法错误时表征该字的语法错误类型，所述任一字的检错结果是正确、缺失、乱序、冗余、错字和混合中的一种，所述混合是指包含缺失、乱序和错字中的至少两种；

其中，所述语法纠错模型是基于样本文本、所述样本文本中每个样本字的样本检错结果和样本纠正结果训练得到的；所述语法纠错模型用于确定所述文本中每个字的检错结果，并基于每个字的检错结果所对应的解码方式，确定每个字的纠正结果；

所述将所述文本以及所述文本中每个字的检错结果输入至所述语法纠错模型的错误纠正层，得到所述错误纠正层输出的每个字的纠正结果，具体包括：

将所述文本以及所述文本中任一字的位置输入至所述错误纠正层中所述任一字的检错结果对应的解码层，得到所述任一字的检错结果对应的解码层输出的所述任一字的纠正结果。

2.根据权利要求1所述的语法纠错方法，其特征在于，所述将所述文本输入至所述语法纠错模型的错误检测层，得到所述错误检测层输出的所述文本中每个字的检错结果，具体包括：

3.根据权利要求1或2所述的语法纠错方法，其特征在于，所述错误纠正层包括多个对应于不同检错结果的解码层。

4.根据权利要求3所述的语法纠错方法，其特征在于，当任一字的检错结果包括缺失、乱序和错字中的至少一种时，所述将所述文本以及所述文本中任一字的位置输入至所述任一字的检错结果对应的解码层，得到所述任一字的检错结果对应的解码层输出的所述任一字的纠正结果，具体包括：

5.根据权利要求4所述的语法纠错方法，其特征在于，所述将所述文本中每个字的字编码特征、所述任一字的位置，以及所述任一字之前的每个字的纠正结果输入至所述任一字的检错结果对应的解码层，得到所述任一字的检错结果对应的解码层输出的所述任一字的纠正结果，具体包括：

6.根据权利要求1或2所述的语法纠错方法，其特征在于，所述样本文本、所述样本文本中每个样本字的样本检错结果和样本纠正结果是基于如下步骤得到的：

7.一种语法纠错装置，其特征在于，包括：

文本确定单元，用于确定待纠错的文本；

语法纠错单元，用于将所述文本输入至语法纠错模型的错误检测层，得到所述错误检测层输出的所述文本中每个字的检错结果，将所述文本以及所述文本中每个字的检错结果输入至所述语法纠错模型的错误纠正层，得到所述错误纠正层输出的每个字的纠正结果，所述文本中任一字的检错结果用于表征该字是否存在语法错误，并在该字存在语法错误时表征该字的语法错误类型，所述任一字的检错结果是正确、缺失、乱序、冗余、错字和混合中的一种，所述混合是指包含缺失、乱序和错字中的至少两种；

所述语法纠错单元具体用于：

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6中任一项所述的语法纠错方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6中任一项所述的语法纠错方法的步骤。