CN114896966A

CN114896966A - 一种中文文本语法错误定位方法、系统、设备及介质

Info

Publication number: CN114896966A
Application number: CN202210536619.9A
Authority: CN
Inventors: 蔡远利; 刘美
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-08-12
Anticipated expiration: 2042-05-17
Also published as: CN114896966B

Abstract

本发明公开了一种中文文本语法错误定位方法、系统、设备及介质，所述定位方法包括以下步骤：获取待语法错误定位的中文文本并进行处理，获得满足预设长度要求的中文文本；基于所述满足预设长度要求的中文文本，利用预先训练好的文本语法错误定位模型进行语法错误定位，输出语法错误定位结果矩阵；其中，所述文本语法错误定位模型包括：输入层、BERT层、BiLSTM层、全连接层和输出层。本发明提供的中文文本语法错误定位方法具体是一种基于动态字向量表征的中文文本语法错误定位方法，可以指出中文句子中语法错误的位置；相较于GEC任务，可显著地提升准确率。

Description

一种中文文本语法错误定位方法、系统、设备及介质

技术领域

本发明属于自然语言处理序列标注领域，特别涉及一种中文文本语法错误定位方法、系统、设备及介质。

背景技术

随着互联网技术的普及和发展，电子文本数据急剧增加；由于用户在文本输入法、语音输入法使用上的随意性，后续又缺少审核，极易产生语法错误内容。近年来，随着自媒体的热潮，人人都是信息的生产者，文本的指数式增长造成了文本质量的下降，导致语句传递的意思不准确，甚至给人们造成误解。有分析表明，中文网络新闻标题和正文的语法错误率超过1％，这些语句不通顺的文本极大地影响了用户体验。

据统计，常见的中文语句语法错误的类型包括：重复累赘、用词不当、搭配不当、成分残缺和存在错别字等；以输入“生活就像海洋，只有意志坚强的人才能达彼岸”为例，可能产生的错误类型如表1所示。

表1.语法错误类型

传统的人工审查方式对语法错误的句子进行筛查，不仅需要耗费大量的人力成本和时间成本，而且存在极大的主观性和不准确性，因此基于人工进行审查和评估是不现实的。为了解决中文语句存在的语法错误问题，利用计算机进行语句语法错误定位的研究应运而生。相比于人工反馈，利用计算机进行语法错误句子的判断具有更加客观、时效性强的优点。

早期利用计算机进行语法错误句子的判断主要基于规则和统计学。基于规则的语法错误句子的识别中，首先分析语言学家制定出的人类语言规则(例如，中文语句中的陈述句是由主谓宾构成的、定语修饰语需要加在名词前面等)制定一系列的规则后，利用自然语言处理技术对句子分析出各种成分，然后匹配规则模版；如果待判定的句子不在罗列的规则之内，则判定该句子是语法错误的句子。然而，基于规则的语法错误判断方法需要总结语言规则，很难建立完善的语言规则，也缺乏相关的语言学知识，且存在判断机制过于单一、结果不理想、无法找出句子中语法出错的具体位置等问题。基于统计学的语法错误句子的识别中，大多采用N-gram语言模型；语言模型以一个符合语言规律的序列为输入，模型利用序列间关系等特征，输出一个在所有词汇上的概率分布；一句话越符合人类的自然语言规律，输出的概率也将会越大，利用这种输出的概率可以判断一句话是否有语法错误。由于N-gram统计语言模型基于马尔科夫假设，利用有限的历史信息，所以效率高，但是N-gram模型无法体现文本相似度，而且无法关联更早的文本信息，所以在判断一个句子是否有语法错误的任务上能力有限，存在准确率瓶颈。另外，也不能找出句子中语法出错的具体位置。

近年来，随着深度学习的发展，有许多采用深度学习来分析中文语法错误的方法，随之产生了文本语法纠错(Grammatical Error Correction，GEC)的研究；GEC能自动检测出句子语法不通顺的错误，然后将检测出的错误进行纠正，进而减少人工校验成本。GEC任务的方法一般是pipeline方法，包括：错误检测、候选召回和候选排序；首先采用长短周期记忆网络(Long Short-Term Memory，LSTM)和条件随机场(Conditional Random Field，CRF)检测句子中的错误位置和错误类型，然后对检测出来的错误位置召回正确片段候选，最后基于形音、词法、语义或用户行为，结合当前错误点上下文表示进行纠错排序。随着seq2seq等神经网络机器翻译方法在文本生成上的突出效果，学术界更多的采用端到端的生成正确句子的方法，利用生成模型直接使用错误文本生成正确文本。

基于上述陈述可知，将语法错误的句子作为GEC任务来进行处理，不仅可以识别出句子是否有语法错误，还可以得到改正后的正确句子；然而，利用GEC的方法对中文句子的语法错误分析还存在许多不足，主要表现在：

(1)文本语法纠错任务准确率不高；解释性的，文本语法纠错任务同时需要兼顾语法错误判断、语法错误定位和语法错误改正三个任务，任务难度大；

(2)在语法错误的句子上使用中文词向量会导致句子表示不准确；解释性的，中文词向量首先以“词语”为单元进行分词，但是中文分词系统以及词向量的训练都是在干净的语料上训练的，使用语法错误的句子会导致很多不正确的分割，导致的错误会更加难处理；同时，基于词的模型通常利用了很多子模块，而且需要处理很多特殊例子，导致系统复杂性高，很难全局优化。

发明内容

本发明的目的在于提供一种中文文本语法错误定位方法、系统、设备及介质，以解决上述存在的一个或多个技术问题。本发明提供的中文文本语法错误定位方法具体是一种基于动态字向量表征的中文文本语法错误定位方法，可以指出中文句子中语法错误的位置；相较于GEC任务，可显著地提升准确率。

为达到上述目的，本发明采用以下技术方案：

本发明第一方面提供的一种中文文本语法错误定位方法，包括以下步骤：

获取待语法错误定位的中文文本并进行处理，获得满足预设长度要求的中文文本；

基于所述满足预设长度要求的中文文本，利用预先训练好的文本语法错误定位模型进行语法错误定位，输出语法错误定位结果矩阵；

其中，所述文本语法错误定位模型包括：

输入层，用于输入满足预设长度要求的中文文本，将中文文本中的每个字均转化为序列矩阵并输出；

BERT层，用于输入所述输入层输出的序列矩阵，转化为字向量矩阵并输出；

BiLSTM层，用于输入所述字向量矩阵并进行特征提取，输出文本上下文特征向量；

全连接层，用于输入所述文本上下文特征向量，进行矩阵运算并取整，输出定位结果向量；

输出层，用于输入所述定位结果向量，输出语法错误定位结果矩阵。

本发明方法的进一步改进在于，所述预先训练好的文本语法错误定位模型的获取步骤包括：

获取训练样本集；所述训练样本集中的每个训练样本均包括满足预设长度要求的中文文本样本以及对应的语法错误定位结果矩阵；

训练更新时，将选定训练样本中的满足预设长度要求的中文文本样本输入所述文本语法错误定位模型中，获得语法错误定位结果预测矩阵；计算所述语法错误定位结果预测矩阵与所述选定训练样本中语法错误定位结果矩阵的差值，采用平均平方误差损失函数计算损失并更新所述文本语法错误定位模型的参数，达到预设收敛条件，获得所述预先训练好的文本语法错误定位模型。

本发明方法的进一步改进在于，所述获取训练样本集的步骤具体包括：

基于预设中文语句语法错误类型，结合NLPCC 2018中文语法错误纠正共享任务训练集，使用基于规则的方法构建获得语法错误句子数据库；其中，所述预设中文语句语法错误类型包括重复累赘、用词不当、搭配不当、成分残缺和存在错别字类型中的一种或多种。

本发明方法的进一步改进在于，所述语法错误句子数据库中的语法错误包括叠字、叠词、叠音、多字、少字、少词、混乱、错字、错同音字、错同音词和错写成拼音中的一种或多种。

本发明第二方面提供的一种中文文本语法错误定位系统，包括：

文本获取模块，用于获取待语法错误定位的中文文本并进行处理，获得满足预设长度要求的中文文本；

结果获取模块，用于基于所述满足预设长度要求的中文文本，利用预先训练好的文本语法错误定位模型进行语法错误定位，输出语法错误定位结果矩阵；

其中，所述文本语法错误定位模型包括：

本发明系统的进一步改进在于，所述预先训练好的文本语法错误定位模型的获取步骤包括：

本发明系统的进一步改进在于，所述获取训练样本集的步骤具体包括：

本发明系统的进一步改进在于，所述语法错误句子数据库中的语法错误包括叠字、叠词、叠音、多字、少字、少词、混乱、错字、错同音字、错同音词和错写成拼音中的一种或多种。

本发明第三方面提供的一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如本发明任一项上述的中文文本语法错误定位方法。

本发明第四方面提供的一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现本发明任一项上述的中文文本语法错误定位方法。

与现有技术相比，本发明具有以下有益效果：

本发明提供的中文文本语法错误定位方法具体是一种基于动态字向量表征的中文文本语法错误定位方法，可以指出中文句子中语法错误的位置；相较于GEC任务，可显著地提升准确率。具体的，针对在语法错误的句子上使用中文词向量会导致句子表示不准确的问题，本发明提出的文本语法错误定位模型中设置有BERT层和BiLSTM层，引入了动态字向量的模型训练方式，且在训练过程中使用大规模中文字预训练模型，在预训练模型后接入双向长短期记忆网络，利用字的上下文信息提取句子的特征，最终输出句子语法错误的位置。

本发明根据中文语句语法错误的类型，构造了语法错误语句的数据库，该数据库包含正确的句子、语法错误的句子、句子中语法错误的位置以及语法错误的类型；具体针对文本语法纠错任务准确率不高的问题，本发明提出了文本语法错误定位的识别方法，最终能够达到输入一句语法错误的句子，输出该句子语法错误的位置，相较于GEC任务，准确率得到了进一步显著地提升。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图做简单的介绍；显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种中文文本语法错误定位方法的流程示意图；

图2是本发明实施例中，基于动态字向量表征的中文文本语法错误定位模型神经网络结构示意图；

图3是本发明实施例中，BERT模型的结构示意图；

图4是本发明实施例中，双向长短周期记忆网络隐藏层的单元结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

请参阅图1，本发明实施例的一种中文文本语法错误定位方法，具体是一种基于动态字向量表征的中文文本语法错误定位方法，设计了一种中文文本语法错误定位模型，能够达到输入一个中文句子，最终模型给出该句子中语法错误的位置；示例性的，如果该句子没有语法错误，则输出的位置为0。

本发明实现的语法错误定位流程如图1所示，包括模型的预先训练过程和句子语法错误位置的定位预测过程，具体包括：

首先，根据中文语句语法错误常见的类型，结合NLPCC 2018中文语法错误纠正共享任务训练集，使用基于规则的方法构建语法错误句子数据库。该数据库包含正确的句子、语法错误的句子、句子中语法错误的位置以及语法错误的类型，可供深度神经网络模型进行训练。在文本语法错误定位模型的训练过程中，首先对句子数据库进行预处理，然后BERT(Bidirectional Encoder Representation from Transformers)层通过查询字向量将处理后的文本中的每个字转换为一维向量，作为模型输入，除此之外，模型输入还包括文本向量和位置向量。BERT层输出则是输入各字对应的融合全文语义信息后的向量表示；再将训练的字向量输入到双向长短期记忆网络层中进行特征提取，模型的最后采用一层全连接层，将多个神经元的输出映射到与输入序列等长的(0，1)区间内进行序列标注，然后使用Sigmoid激活函数，并进行取整操作。如果输出位置标记为1，则代表该位置有语法错误，如果输出位置标记为0，则代表该位置没有语法错误；最后保存训练的字向量模型、特征提取网络模型和序列标注线性层模型的结构和参数用于模型预测；

在中文文本语法错误定位的判断过程中，也即模型预测过程中，首先对待定位的中文文本进行预处理，再使用训练过程中保存字向量模型对输入句子进行字向量表示，将文本的字向量输入到训练好的模型中进行特征提取，模型的最后一层输出句子的不通顺位置。

本发明实施例具体示例性的，数据集的构建、模型的训练和预测过程具体包括：

(1)语法错误文本数据集的构建，包括：

本发明根据中文语句语法错误常见的类型，结合NLPCC 2018中文语法错误纠正共享任务训练集，使用基于规则的方法构建语法错误句子数据库。其中，常见的中文语句语法错误的类型包括：重复累赘、用词不当、搭配不当、成分残缺、存在错别字等。因此，本发明构造叠字、叠词、叠音、多常用字、少字、少词、混乱、错常用字、错同音字、错同音词、错写成拼音共11种语法错误。以输入“他想明天去北京探望奶奶”为例，构造的语法错误语句类型以及比例如表2所示。

表2.数据库中语法错误句子的类型及占比

在表2中，错误类型表示中文句子的语法错误的类型；选中概率表示构造该类型的语法错误句子的比例；错误位置使用一个一维矩阵标记了句子中语法出错的位置，1表示该位置有语法错误，0表示该位置没有语法错误。标签表示句子是否有语法错误。

其中，叠字、少字的构造过程为：使用python库中random()函数随机选择句子中的一个字，然后在选中的字后面重复增添这个字(叠字)或者删除选中的这个字(少字)。

叠词、少词的构造过程为：使用jieba库中的函数对句子进行分词，然后使用random()函数随机选择句子中的一个词，在选中的词后面重复增添这个词(叠词)或者删除选中的这个词(少词)。

混乱错误类型的构造过程为：使用jieba库中的函数对句子进行分词，然后使用random()函数随机选择句子中的两个词，调换这两个词在句子中的位置。

写成拼音的错误类型的构造过程为：使用python库中random()函数随机选择句子中的一个字，将选中的汉字利用Pinyin2Hanzi库中的函数转换为拼音，再用拼音替换原句中的汉字。叠音、错同音字、错同音词的句子构造过程为：使用random()函数随机选择句子中的一个字(叠音、错同音字)或者选择jieba分词后的一个词(错同音词)，先利用Pinyin2Hanzi库中的函数将字或词转换为拼音，再将拼音转换为与原句中不同的汉字，最后按照规则修改句子。

多常用字、错常用字句子的构造过程为：先统计所有句子中出现最多的1000个汉字，将这些汉字作为常用字表，然后随机地从常用字表中选择一个汉字加入到原句的一个随机位置中(多常用字)或者替换原句中的一个随机位置的汉字(错常用字)。

构造该数据库所使用的语法正确的句子来自于NLPCC 2018中文语法错误纠正共享任务数据集和小学生优秀作文数据集，每个数据集各取20万条语法正确的句子，总共40万条。按照上述方法对40万条语法正确的句子添加噪声构造语法错误句子数据库，叠字类型的例子有24199条，叠词类型的例子有11875条，叠音类型的句子23641条，多常用字类型的句子24041条，少字的句子有35935条，少词的句子有36028条，混乱类型的句子有48071条，错常用字的句子47767条，错同音字的句子47506条，错同音词的句子23072条，写成拼音的句子35956条。

(2)语法错误定位模型的构建，包括：

文本语法错误定位的模型结构如图2所示。采用基于动态字向量的BERT(Bidirectional Encoder Representation from Transformers)层将文本中的每个字转换为一维向量作为模型的输入，同时模型的输入还包含文本向量和位置向量两部分。为了适应BERT模型的输入长度限制，通过分析数据库中句子的最大长度，对每个句子做padding处理，也即：如果句子的长度M小于N，则在句子后面补0，如果句子的长度M大于N，则将句子分为更短的句子。BERT模型的输出是输入各字对应的融合全文语义信息后的向量表示。BERT的输出接入双向长短期记忆(BiLSTM)网络提取中文句子的特征，将BiLSTM神经元的输出接入全连接层映射到与输入序列等长的(0，1)区间内进行序列标注，然后使用Sigmoid激活函数，并进行取整操作。如果输出位置标记为1，则代表该位置有语法错误，如果输出位置标记为0，则代表该位置没有语法错误。

本发明实施例中，引入BERT层作为预训练模型进行文本字向量的表示是为了解决在语法错误的句子上使用中文词向量会导致句子表示不准确的问题。因为中文词向量以“词语”为单元进行分词，词向量的训练是在干净的语料上训练的，使用语法错误的句子会导致很多不正确的分割，导致的错误会更加难处理。BERT的网络架构使用的是多层Transformer结构，整体结构如图3所示。BERT主要用了Transformer的Encoder，而没有用Decoder，多个Transformer Encoder堆叠起来组成了BERT。

BERT最大的特点是抛弃了传统的循环神经网络(Recurrent Neural Network，RNN)和卷积神经网络(Convolutional Neural Network，CNN)，通过Attention机制将任意位置的两个字的距离转换成注意力矩阵，有效解决了自然语言处理中棘手的长期依赖问题。BERT作为一个大规模的预训练模型，与特定自然语言处理任务无关，其目标是学习语言本身应该是什么样的。BERT的预训练过程就是逐渐调整模型参数，使得模型输出的文本语义表示能够刻画语言的本质，便于后续针对具体自然语言处理任务作微调。为了更好地使用文本上下文信息，BERT还使用了掩码语言模型(Mask Language Model)和下句预测(NextSentence Prediction)的多任务训练目标进行网络训练。

BERT层通过查询字向量表将padding后的文本中的每个字转换为一维向量，作为模型输入；模型输出则是输入各字对应的融合全文语义信息后的向量表示。此外，模型输入除了字向量，还包含文本向量和位置向量两部分。文本向量的取值在模型训练过程中自动学习，用于刻画文本的全局语义信息，并与单字的语义信息相融合。由于出现在文本不同位置的字所携带的语义信息存在差异，因此BERT层对不同位置的字分别附加一个不同的向量以作区分。最后，BERT层将字向量、文本向量和位置向量的加和作为模型输入。

本发明实施例中，BiLSTM是循环神经网络(RNN)中的一种典型结构。简单RNN理论上可以建立长时间间隔的状态之间的依赖关系，但是由于梯度爆炸或消失问题，实际上只能学习到短期的依赖关系，而LSTM可以很好地缓解梯度消失和梯度爆炸问题。但是LSTM只能依据之前时刻的时序信息来预测下一时刻的输出的问题，而BiLSTM使用了输入、输入序列之前、输入序列之后的信息，结合词语的上下文信息提取作文的特征指标，能够更好地挖掘文本的依赖关系。

如图4所示为单个BiLSTM单元的结构，BiLSTM网络采用相比于LSTM双倍的隐藏层单元数目对数据进行双向处理。单个BiLSTM隐藏层包含三个门：Γ_u,Γ_f,Γ_o，分别更新门、遗忘门和输出门。相应的表达式为，

其中，W_c,W_f,W_u,W_o,b_c,b_f,b_u,b_o是需要学习的参数，σ表示sigmoid激活函数，tanh表示双曲正切函数，*表示矩阵或者向量对应元素的乘积。遗忘门决定要从神经元状态中丢弃什么信息，它查看a^<t-1>(前一个隐藏状态)和x^<t>(当前输入)，并为状态c^<t-1>中的每个数字输出0到1之间的数字；输入门的Sigmoid层决定了将更新哪些值；然后，一个Tanh层创建候选向量c^<t>，该向量将会被加到神经元的状态中；结合这两个向量根据遗忘门和输入门的值来决定记住多少新信息和老信息：将上一个状态值c^<t-1>乘以Γ_f，以此表达希望忘记的部分。将得到的值加上Γ_u乘以

得到新的状态值。最后，输出门决定要输出什么，最后输出的状态a^<t>经过Softmax函数就可以得到输出y^<t>。

本发明实施例中，引入Dense层实现序列标注，最后输出文本语句中不通顺的位置。将BiLSTM网络的输出

接入Dense层，Dense层的输入神经元个数为2N，输出神经元个数为M。其中，N代表BiLSTM网络中前向或者后向长短周期记忆网络中神经元的个数；M代表输入文本的长度，每一个位置输出的值经过Sigmoid激活函数转换为[0,1]区间的值，并进行取整操作。结果中，0代表该位置没有语法错误，1代表该位置有语法错误。

本发明实施例中，优化算法与评估指标包括：优化算法是指在学习模型的过程中调整模型参数的方法，针对神经网络模型，现今采用的优化方法主要是基于梯度下降的方法，主要有随机梯度下降(Stochastic Gradient Descent，SGD)、动量法(Momentum)、自适应梯度下降算法(AdaGrad)、AdaDelta法和自适应动量法(Adaptive Moments，Adam)等。Adam是一种自适应学习方法，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率，本发明采用Adam算法。评估指标是指评价模型好坏的指标。本发明采用准确率(a_accuracy)来衡量模型对中文文本语法错误定位的准确程度，当模型预测出的语法错误位置与训练集中的样本位置完全相同时，则算作预测正确。同时，考虑到中文句子语法错误定位任务对局部特征要求较高，使用序列标注定出准确的位置通常有偏移，而且存在一个句子语法错误的位置不确定的情况。因此，除了定义上述的绝对准确率(a_accuracy)之外，还采用相对准确率来对模型进行判断，也即在模型的输出后加入一个卷积运算，在模型评估时，只要不通顺的位置落入某一个窗口，即算作预测准确。使用的窗口大小分别为3、5、9，对应的准确率分别记作b_accuracy，c_accuracy，d_accuracy。表3中展示了当窗口大小为3时语法错误语句的评估结果例子。

表3.窗口大小为3时语法错误语句的评估结果例子

在模型的训练过程中，首先按照长度N将数据库中的句子做padding处理，如果句子的长度M小于N，则在句子后面补0，如果句子的长度M大于N，则将句子分为更短的句子。模型将句子输入到BERT模型中将句子中的每一个字转换为字向量、文本向量和位置向量三部分，输出为字向量矩阵。然后字向量矩阵输入到BiLSTM层进行特征提取，最后由Dense层输出文本中每个位置语法错误的概率。模型基于梯度下降的方法降低损失函数的损失值，进而动态的调整词向量参数和模型参数，最终达到提高模型语法错误定位性能指标的目的。

在模型的预测过程中，也即对待判断句子的处理过程中，首先句子做padding处理，然后将句子输入到预测模型中。模型会自动地经过BERT层、BiLSTM层和Dense层，最终输出与输入等长的0、1序列。在序列中，1代表该位置有语法错误，0代表该位置没有语法错误，最终完成语法错误定位任务。

本发明实施例中的实验设计与结果分析中，进行了基于动态字向量表征的中文文本语法错误定位实验，主要验证该方法对中文文本中语法错误定位识别的有效性和准确性。实验环境为：Intel(R)Core(TM)i5-10500 CPU@3.10GHz 3.10GHz处理器，16.0GB内存，GPU NVIDIA GeForce GTX 3080Ti，显存12.0GB，Windows10系统64位。实验软件为JupyterNotebook，深度学习框架使用TensorFlow2.4.1，CUDA版本为11.1.0，对应的CUDNN版本为8.0.4。实验用到的Python功能库及版本如表4所示。

表4.Python功能库名称及版本

数据集的选取与处理包括：本发明实施例使用数据为NLPCC2018中文语法错误纠正共享任务数据集和小学生一至六年级的作文，各取200000篇，总共400000篇。按照规则对40万条语法正确的句子添加噪声构造语法错误句子数据库，叠字类型的例子有24199条，叠词类型的例子有11875条，叠音类型的句子23641条，多常用字类型的句子24041条，少字的句子有35935条，少词的句子有36028条，混乱类型的句子有48071条，错常用字的句子47767条，错同音字的句子47506条，错同音词的句子23072条，写成拼音的句子35956条。最后将处理完的数据集存入TXT文档中。

BERT模型采用的是BERT-Chinese-base，包含12个Transformer层、768个隐藏层单元、12个自注意力头，共约1.1亿个参数。输入的序列长度为36，通过padding操作，当句子长度小于36时，在句子后面补0使其达到长度36，当句子长度大于36时，将句子按标点符号分割成小于36的长度，再进行padding。BiLSTM层中单个LSTM神经元的数量为128，整个BiLSTM层共约90万个参数。Dense层的激活函数采用‘Sigmiod’函数，共约9000个参数。中文文本语法错误定位模型配置如表5所示。

表5.模型结构参数

根据上述参数设置网络并构建文本语法错误定位模型，使用数据集中95％的数据作为训练集训练网络。当模型训练完成后，将数据集中5％的数据作为测试集测试模型，得到模型在测试集上的评价指标数值如表6所示。从表中可以看出，采用基于动态字向量表征的中文文本语法错误定位模型识别句子中语法错误位置，绝对准确率能达到75.96％。考虑到定出准确的位置通常有偏移，而且存在一个句子语法错误的位置不确定的情况，采用窗口卷积评估模型的准确率，在窗口大小为3、5、9的情况下，准确率分别能达到84.35％、85.59％、87.01％。

从发明实施例的实验结果可以得出以下结论：

(1)采用基于动态字向量表征的中文文本语法错误定位模型来识别句子中语法错误的位置准确率较高，特别是当位置窗口由1扩大为3时，准确率达到了84.35％。

(2)从语法错误定位模型优化可以看出，随着窗口越大，定位准确率越高。特别是当窗口由1扩大为3时，准确率提升最高，提升了8.39％。而当窗口再扩大时，准确率提升不明显。说明该模型定出准确的位置确实存在偏移，但是偏移不大，很大一部分都只是偏移了1个位置。

表6.模型预测评价指标

需要说明的是，表5中的模型参数初始化学习率已经通过网格搜索选取最优参数，搜索范围为[1×10^-5，1×10^-6，1×10^-7]。在相同的基于动态词向量表征的中文文本语法错误定位模型下，不同的参数在测试集上的评价指标数值如表7所示。从表中可以看出，选取初始化学习率为0.000001能够使得基于动态词向量表征的中文文本语法错误定位模型达到最优性能。

表7.不同模型参数预测评价指标

为了体现基于动态字向量表征的文本语法错误定位模型的优越性，将模型与静态字向量作对比。其中，字向量均使用BERT-Chinese-base，静态字向量的参数不随模型训练而发生变化，而本发明中的动态字向量中的向量随着模型训练发生变化。不同的模型在测试集上的评价指标数值如表8所示。从表中可以看出，采用基于动态字向量表征的文本语法错误定位方法能提高语法错误定位的准确率。

表8.动态字向量与静态字向量模型预测评价指标

综上所述，本发明实施例公开了一种基于动态字向量表征的中文文本语法错误定位方法，能够达到输入中文句子，最后定位出语法错误的位置，以辅助人工审核中文文本错误。该文本语法错误定位模型基于BERT，将文本中的每个字转换为向量作为模型的输入，在训练过程中动态地训练字向量。BERT的输出接入双向长短期记忆(BiLSTM)网络提取中文句子的特征，再接入全连接层进行序列标注，如果输出位置标记为1，则代表该位置有语法错误，如果输出位置标记为0，则代表该位置没有语法错误。实验表明，基于动态字向量表征的语法错误定位模型能够动态地训练字向量，挖掘中文文本的语法特征，较为准确地识别出中文句子中语法错误的位置。

下述为本发明的装置实施例，可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节，请参照本发明方法实施例。

本发明再一实施例中，具体提供了一种中文文本语法错误定位系统，包括：

其中，所述文本语法错误定位模型包括：

本发明实施例提供了一种基于动态字向量表征的中文文本语法错误定位系统，可以指出中文句子中语法错误的位置。在文本生成场景中，例如在语音识别系统、文本识别系统中，可以识别并定位出由于识别失误或者不明来源的噪声使得识别到的文本语句杂乱、不通顺，辅助检查错误，并提醒用户错误位置。在智能教育上，该方法可以协助教师批改作文，协助学生提高写作能力，减少句子语病的出现。本发明不需要深入研究中文语言的规则，也无需总结中文句子质量的评价标准，只需要大致了解即可，人工参与少。本发明系统能有效地利用中文字预训练模型实现中文文本语法错误定位：引入训练好的大规模中文字预训练模型，在预训练模型后接入双向长短期记忆网络，使用微调技术动态地训练模型，最终训练好的模型能够较为准确地识别出句子中语法错误的位置。

本发明再一个实施例中，提供了一种计算机设备，该计算机设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于中文文本语法错误定位方法的操作。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关中文文本语法错误定位方法的相应步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种中文文本语法错误定位方法，其特征在于，包括以下步骤：

其中，所述文本语法错误定位模型包括：

2.根据权利要求1所述的一种中文文本语法错误定位方法，其特征在于，所述预先训练好的文本语法错误定位模型的获取步骤包括：

3.根据权利要求2所述的一种中文文本语法错误定位方法，其特征在于，所述获取训练样本集的步骤具体包括：

4.根据权利要求3所述的一种中文文本语法错误定位方法，其特征在于，所述语法错误句子数据库中的语法错误包括叠字、叠词、叠音、多字、少字、少词、混乱、错字、错同音字、错同音词和错写成拼音中的一种或多种。

5.一种中文文本语法错误定位系统，其特征在于，包括：

其中，所述文本语法错误定位模型包括：

6.根据权利要求5所述的一种中文文本语法错误定位系统，其特征在于，所述预先训练好的文本语法错误定位模型的获取步骤包括：

7.根据权利要求6所述的一种中文文本语法错误定位系统，其特征在于，所述获取训练样本集的步骤具体包括：

8.根据权利要求7所述的一种中文文本语法错误定位系统，其特征在于，所述语法错误句子数据库中的语法错误包括叠字、叠词、叠音、多字、少字、少词、混乱、错字、错同音字、错同音词和错写成拼音中的一种或多种。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至4中任一项所述的中文文本语法错误定位方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的中文文本语法错误定位方法。