CN114818666B

CN114818666B - 一种汉语语法纠错的评估方法、装置、设备及存储介质

Info

Publication number: CN114818666B
Application number: CN202210443576.XA
Authority: CN
Inventors: 蒋盛益; 林楠铠; 林晓钿; 武洪艳
Original assignee: Guangdong University of Foreign Studies
Current assignee: Guangdong University of Foreign Studies
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2023-03-28
Anticipated expiration: 2042-04-26
Also published as: CN114818666A

Abstract

本发明公开了一种汉语语法纠错的评估方法、装置、设备及存储介质，包括：对原始汉语语法纠错评估语料库的测试集进行标注，得到扩充测试集；将每一修正句子分别与所有黄金标准注释进行匹配，计算得到基于句子级别的准确率；其中，修正句子为原始句子利用待评估汉语语法纠错模型进行修正后得到的句子；对每一修正句子利用BLEU算法，计算得到基于字级别的BLEU值；将每一修正句子分别与对应的原始句子进行匹配，计算得到基于字级别的修改度；根据基于句子级别的准确率、基于字级别的BLEU值和基于字级别的修改度对待评估汉语语法纠错模型进行评估。采用本发明实施例能够科学、全面、客观地评价汉语语法纠错模型的纠错效果。

Description

一种汉语语法纠错的评估方法、装置、设备及存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种汉语语法纠错的评估方法、装置、设备及存储介质。

背景技术

国外英语语法纠错的研究起步比较早，英语的语法规则比较统一，针对英语语法纠错的评估指标也比较多。例如基于参考答案的F值、I-measure、F_0.5和GLEU，同时也有无参考答案的度量指标，涵盖了语法、流畅性和语义评估。然而，相较于英语语法纠错，国内汉语语法纠错的研究起步比较晚，汉语语法规则的复杂多变，导致汉语的语法纠错在自然语言处理领域中一直极具有挑战性。由于汉语语法纠错的评估指标受汉语分词结果或不同语言模型的显著影响，如何全面、客观地评估汉语语法的纠错效果成为了一个热门的研究方向。

现有汉语语法纠错评价方法的一个明显缺陷是评估结果会受中文分词结果或不同语言模型的显著影响，因此，在不同的分词系统或不同的语言模型下，相同的汉语语法纠错模型的评估结果会有很大差异。

发明内容

本发明提供一种汉语语法纠错的评估方法、装置、设备及存储介质，以解决现有技术中的评估结果受到汉语分词结果或不同语言模型影响的问题，本发明将基于句子级别的准确率、基于字级别的BLEU值和基于字级别的修改度作为汉语语法纠错模型的评估指标，使得评估结果不受汉语分词结果或不同语言模型的影响，能够科学、全面、客观地评价汉语语法纠错模型的纠错效果。

为实现上述目的，本发明实施例提供了一种汉语语法纠错的评估方法，包括：

对原始汉语语法纠错评估语料库的测试集进行标注，得到扩充测试集；其中，所述扩充测试集包括若干原始句子，及对应的若干黄金标准注释；

将每一修正句子分别与所有所述黄金标准注释进行匹配，计算得到基于句子级别的准确率；其中，所述修正句子为所述原始句子利用待评估汉语语法纠错模型进行修正后得到的句子；

基于所有所述修正句子，利用BLEU算法，计算得到基于字级别的BLEU值；

将每一所述修正句子分别与对应的所述原始句子进行匹配，计算得到基于字级别的修改度；

根据所述准确率、所述BLEU值和所述基于字级别的修改度对所述待评估汉语语法纠错模型进行评估。

作为上述方案的改进，所述对原始汉语语法纠错评估语料库的测试集进行标注，得到扩充测试集，包括：

对所述测试集中每一第一原始句子进行标注，得到每一所述第一原始句子的若干修正答案；其中，所述第一原始句子为含有两个黄金标准注释的原始句子；

对于每一所述第一原始句子的若干修正答案，当出现至少两个相同的修正答案时，将所述相同的修正答案作为新的黄金标准注释添加至所述测试集的黄金标准校正注释集中，得到扩充测试集。

作为上述方案的改进，所述将每一修正句子分别与所有所述黄金标准注释进行匹配，计算得到基于句子级别的准确率，包括：

将每一所述修正句子分别与所有所述黄金标准注释进行匹配，得到若干有效的修正句子；

统计所有所述有效的修正句子的总数量，并将所述总数量除以所述扩充测试集的样本数，得到基于句子级别的准确率。

作为上述方案的改进，所述基于所有所述修正句子，利用BLEU算法，计算得到基于字级别的BLEU值，包括：

根据下式计算每一修正句子Ci在不同粒度n下的准确率：

式中，h_k(·)表示出现在句子中的第k个n-gram的数量，max_j∈m(h_k(S_ij))表示任一n-gram在所有的m个黄金标准注释中的最高频率；

根据下式计算简洁惩罚因子：

式中，l_c表示修正句子C_i的长度，l_s为最接近l_c的黄金标准注释的长度；

根据下式计算BLEU值：

式中，BP是简洁惩罚因子，P_n是修正句子C_i在不同粒度n下的准确率，W_n表示权重。

作为上述方案的改进，所述将每一所述修正句子分别与对应的所述原始句子进行匹配，计算得到基于字级别的修改度，包括：

将每一所述修正句子分别与对应的所述原始句子进行匹配，得到每一匹配字符数与对应的所述修正句子的字符数的每一第一比值、每一所述匹配字符数与对应的所述原始句子的字符数的每一第二比值；其中，所述匹配字符数为所述修正句子与对应的所述原始句子之间匹配的字符数；

根据每一所述第一比值和每一所述第二比值，计算得到每一所述修正句子的每一修改度得分；

计算得到所有所述修改度得分的平均值；

将每一所述修改度得分分别与所述平均值进行比较，得到每一比较结果；

计算所有所述比较结果的平均值，得到基于字级别的修改度。

作为上述方案的改进，所述对原始汉语语法纠错评估语料库的测试集进行标注，得到扩充测试集，还包括：

对所述测试集中每一第二原始句子进行标注，以确认每一所述第二原始句子的黄金标准注释；其中，所述第二原始句子为含有一个黄金标准注释的原始句子。

对于每一所述第一原始句子的若干修正答案，对只出现一次的修正答案进行审核。

为实现上述目的，本发明实施例还提供了一种汉语语法纠错的评估装置，包括：

测试集标注模块，用于对原始汉语语法纠错评估语料库的测试集进行标注，得到扩充测试集；其中，所述扩充测试集包括若干原始句子，及对应的若干黄金标准注释；

句子级别准确率计算模块，用于将每一修正句子分别与所有所述黄金标准注释进行匹配，计算得到基于句子级别的准确率；其中，所述修正句子为所述原始句子利用待评估汉语语法纠错模型进行修正后得到的句子；

字级别准确率计算模块，用于基于所有所述修正句子，利用BLEU算法，计算得到基于字级别的BLEU值；

字级别修改度计算模块，用于将每一所述修正句子分别与对应的所述原始句子进行匹配，计算得到基于字级别的修改度；

汉语语法纠错评估模块，用于根据所述准确率、所述BLEU值和所述基于字级别的修改度对所述待评估汉语语法纠错模型进行评估。

为实现上述目的，本发明实施例还提供了一种电子设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现如上述的汉语语法纠错的评估方法。

为实现上述目的，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如上述的汉语语法纠错的评估方法。

与现有技术相比，本发明实施例提供的一种汉语语法纠错的评估方法、装置、设备及存储介质，通过对原始汉语语法纠错评估语料库的测试集进行标注，使得原始的测试集中黄金标准校正注释集对应更多的修正答案，进而使得评估结果更贴近于人的语法知识和认知，能够更合理、全面地评价汉语语法纠错模型；通过将基于句子级别的准确率、基于字级别的BLEU值和基于字级别的修改度作为汉语语法纠错模型的评估指标，使得评估结果不受汉语分词结果或不同语言模型的影响，能够科学、全面、客观地评价汉语语法纠错模型的纠错效果，更具实际价值。

附图说明

图1是本发明实施例提供的一种汉语语法纠错的评估方法的流程图；

图2是本发明实施例提供的一种汉语语法纠错的评估装置的结构框图；

图3是本发明实施例提供的一种电子设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的一种汉语语法纠错的评估方法的流程图，所述汉语语法纠错的评估方法，包括：

S1、对原始汉语语法纠错评估语料库的测试集进行标注，得到扩充测试集；其中，所述扩充测试集包括若干原始句子，及对应的若干黄金标准注释；

S2、将每一修正句子分别与所有所述黄金标准注释进行匹配，计算得到基于句子级别的准确率；其中，所述修正句子为所述原始句子利用待评估汉语语法纠错模型进行修正后得到的句子；

S3、基于所有所述修正句子，利用BLEU算法，计算得到基于字级别的BLEU值；

S4、将每一所述修正句子分别与对应的所述原始句子进行匹配，计算得到基于字级别的修改度；

S5、根据所述准确率、所述BLEU值和所述基于字级别的修改度对所述待评估汉语语法纠错模型进行评估。

具体地，在步骤S1中，所述对原始汉语语法纠错评估语料库的测试集进行标注，得到扩充测试集，包括：

具体地，所述对原始汉语语法纠错评估语料库的测试集进行标注，得到扩充测试集，还包括：

可以理解的是，现有的原始汉语语法纠错评估语料库中一个原始句子最多仅对应两个正确的修正结果即黄金标准注释，且包含有两个正确修正结果的样本数量较少。然而在实际情况中，中文构词方法多种多样，常出现多义词、同义词，往往一个句子可以存在多种修改方法和修正答案，因此本发明实施例对NL原始汉语语法纠错评估语料库中的测试集的黄金标准校正注释集进行再标注与扩充。

由两位汉语言文学工作者，对测试集中仅包含一个黄金标准注释的原始句子即第二原始句子进行重新标注；对于包含两个黄金标准注释的原始句子即第一原始句子，我们认为该句子包含有更多的语法错误，在修正过程中产生了更多不同的答案，因此，对于该类句子，则由十位汉语言文学工作者进行重新标注。可以理解的是，标注即为修正与注释，对原始句子进行标注，可以得到原始句子的黄金标准注释。

对于每一所述第一原始句子的若干修正答案：

对于出现至少两次的修正答案，将该相同的修正答案作为新的黄金标准注释添加至所述测试集的黄金标准校正注释集中；可以理解的是，黄金标准校正注释集由若干个黄金标准注释构成；

对于仅出现一次的修正答案，由其他汉语言文学工作者进行审核。

本发明实施例对原始汉语语法纠错评估语料库的测试集进行了人工标注与扩充，使原有的测试集的黄金标准校正注释集可以对应更多的修正答案，使评估更贴近于人的语法知识和认知，能够更合理、全面地评价汉语语法纠错模型。

具体地，在步骤S2中，所述将每一修正句子分别与所有所述黄金标准注释进行匹配，计算得到基于句子级别的准确率，包括：

在本发明实施例中，假设原始句子表示为O_i，待评估汉语语法纠错模型生成的句子即修正句子表示为C_i，黄金标准注释表示为S_i＝{S_i1，S_i2，...，S_im}，其中m表示第i个原始句子的黄金标准校正注释集(Gold-standard Correction Annotations)内金标准校正注释的数量。在句子级别的准确度测量中，当修正句子C_i完全匹配S_i中的任一黄金标准注释时，则认为该修正句子C_i是有效的修正句子：

其中，y_i表示第i个原始句子的修正结果是否是正确的，整个扩充测试集的句子级别的准确率是：

其中，I是扩充测试集的样本数。可以理解的是，样本数是扩充测试集中原始句子的数量。

基于句子级别的准确率是一种严格的准确率，要求一个错误的句子在经过模型修正后，需要修正其本身存在的所有语法错误，才算校对正确，对于存在多种修正方案的句子，其黄金标准校正注释集包含有更多的修正答案时，该指标的评估方式越准确。

具体地，在步骤S3中，所述基于所有所述修正句子，利用BLEU算法，计算得到基于字级别的BLEU值，包括：

根据下式计算每一修正句子C_i在不同粒度n下的准确率：

/>

根据下式计算简洁惩罚因子：

根据下式计算BLEU值：

值得说明的是，BLEU(Bilingual Evaluation Understudy)常被用来在机器翻译任务中评估标准翻译句子与模型生成的修正句子之间的差异。在本发明实施例中将BLEU值扩展到汉语语法纠错任务中，并提出了基于字级别的BLEU指标。首先，基于字级别n-gram，计算汉语语法纠错模型生成的修正句子C_i在不同粒度下(n＝1，2，3，4)的准确率：

其中，h_k(·)表示出现在句子中的第k个n-gram的数量，max_j∈m(h_k(S_ij))表示某个n-gram在所有的m个标准注释中的最高频率。

为了平衡不同的细粒度下的准确率的影响，对每个准确率取对数平均值，并用W_n对不同细粒度的准确率进行加权：

其中，

N表示n-gram中n的最大值。

在计算不同的细粒度下的准确率的对数平均值后，使用最大长度为N的n-gram和权重W_n总和为1，进一步计算简洁惩罚度因子(Brevity Penalty，BP)以避免不同的细粒度下的准确率P′_n的偏差。具体来说，令l_c为校正后的句子C_i的长度，l_s为最接近l_c的黄金标准注释的长度，计算简洁惩罚因子(BP)如下：

最终，字级别的BLEU分数计算如下：

BLEU＝BP·P′_n

具体地，在步骤S4中，所述将每一所述修正句子分别与对应的所述原始句子进行匹配，计算得到基于字级别的修改度，包括：

计算得到所有所述修改度得分的平均值；

值得说明的是，当修改度得分S_CM(C_i，O_i)趋于1时，修正句子与原始句子相似度越高，即汉语语法纠错模型在完全不修正错误的情况下，可以获得很高的评分，然而该指标不是越高越好，而是趋近于某个值的时候达到最佳值。因此，本发明实施例对该指标进一步进行修正，得到基于字级别的修改度S^*：

将每一所述修正句子分别与对应的所述原始句子进行匹配，得到每一匹配字符数与对应的所述修正句子的字符数的每一第一比值：

式中，m(C_i，O_i)表示修正句子和原始句子之间的匹配字符数，|C_i|和|O_i|分别表示修正句子和原始句子中的字数量；

将每一所述修正句子分别与对应的所述原始句子进行匹配，得到每一所述匹配字符数与对应的所述原始句子的字符数的每一第二比值：

式中，为m(C_i，O_i)表示修正句子和原始句子之间的匹配字符数，|C_i|和|O_i|分别表示修正句子和原始句子中的字数量；

根据每一所述第一比值和每一所述第二比值，计算得到每一所述修正句子的每一修改度得分：

式中，P_i为匹配字符数与修正句子的字符数的第一比值，R_i为匹配字符数与原始句子的字符数的第二比值，t是平衡P_i值和R_i值的系数。这里t＝0.85。

计算得到所有所述修改度得分的平均值S_average；

式中，S_CM(C_i，O_i)为第i个修正句子的修改度得分；

将每一所述修改度得分分别与所述平均值进行比较，得到每一比较结果：

S′_i＝|S_CM(C_i，O_i)-S_average|

计算所有比较结果的平均值，将该平均值作为修正后的字级别修改度：

式中，i为修正句子/原始句子的数量。

本发明实施例提供的字级别修改度S^*的值越小，则该样本的字级别修改度越高。

本发明实施例提出了一个无参考的度量指标，即基于字级别的修改度。字级别修改度不是评估汉语语法纠错模型输出的修正句子与黄金标准注释的相似性，而是计算汉语语法纠错模型输出的修正句子和原始句子的字级别相似性。字级别修改度用于评估原始句子和修正句子之间修改幅度，能够衡量校正句子的语义保留程度。

具体地，在步骤S5中，利用所述基于句子级别的准确率、所述基于字级别的BLEU值和所述基于字级别的修改度对所述待评估汉语语法纠错模型的纠错效果进行评估。

本发明实施例提供的一种汉语语法纠错的评估方法，通过对原始汉语语法纠错评估语料库的测试集进行标注，使得原始的测试集中黄金标准校正注释集对应更多的修正答案，进而使得评估结果更贴近于人的语法知识和认知，能够更合理、全面地评价汉语语法纠错模型；通过将基于句子级别的准确率、基于字级别的BLEU值和基于字级别的修改度作为汉语语法纠错模型的评估指标，使得评估结果不受汉语分词结果或不同语言模型的影响，能够科学、全面、客观地评价汉语语法纠错模型的纠错效果，更具实际价值。

参见图2，图2是本发明实施例提供的一种汉语语法纠错的评估装置10的结构框图，所述汉语语法纠错的评估装置10，包括：

测试集标注模块11，用于对原始汉语语法纠错评估语料库的测试集进行标注，得到扩充测试集；其中，所述扩充测试集包括若干原始句子，及对应的若干黄金标准注释；

句子级别准确率计算模块12，用于将每一修正句子分别与所有所述黄金标准注释进行匹配，计算得到基于句子级别的准确率；其中，所述修正句子为所述原始句子利用待评估汉语语法纠错模型进行修正后得到的句子；

字级别准确率计算模块13，用于基于所有所述修正句子，利用BLEU算法，计算得到基于字级别的BLEU值；

字级别修改度计算模块14，用于将每一所述修正句子分别与对应的所述原始句子进行匹配，计算得到基于字级别的修改度；

汉语语法纠错评估模块15，用于根据所述准确率、所述BLEU值和所述基于字级别的修改度对所述待评估汉语语法纠错模型进行评估。

具体地，所述测试集标注模块11包括：

第一原始句子标注单元，用于对所述测试集中每一第一原始句子进行标注，得到每一所述第一原始句子的若干修正答案；其中，所述第一原始句子为含有两个黄金标准注释的原始句子；

黄金标准注释添加单元，用于对于每一所述第一原始句子的若干修正答案，当出现至少两个相同的修正答案时，将所述相同的修正答案作为新的黄金标准注释添加至所述测试集的黄金标准校正注释集中，得到扩充测试集。

具体地，所述测试集标注模块11还包括：

第二原始句子标注单元，用于对所述测试集中每一第二原始句子进行标注，以确认每一所述第二原始句子的黄金标准注释；其中，所述第二原始句子为含有一个黄金标准注释的原始句子。

具体地，所述测试集标注模块11还包括：

审核单元，用于对于每一所述第一原始句子的若干修正答案，对只出现一次的修正答案进行审核。

具体地，所述句子级别准确率计算模块12包括：

第一匹配单元，用于将每一所述修正句子分别与所有所述黄金标准注释进行匹配，得到若干有效的修正句子；

句子级别准确率计算单元，用于统计所有所述有效的修正句子的总数量，并将所述总数量除以所述扩充测试集的样本数，得到基于句子级别的准确率。

具体地，所述字级别准确率计算模块13包括：

准确率计算单元，用于根据下式计算每一修正句子C_i在不同粒度n下的准确率：

简洁惩罚因子计算单元，用于根据下式计算简洁惩罚因子：

BLEU值计算单元，用于根据下式计算BLEU值：

具体地，所述字级别修改度计算模块14包括：

第二匹配单元，用于将每一所述修正句子分别与对应的所述原始句子进行匹配，得到每一匹配字符数与对应的所述修正句子的字符数的每一第一比值、每一所述匹配字符数与对应的所述原始句子的字符数的每一第二比值；其中，所述匹配字符数为所述修正句子与对应的所述原始句子之间匹配的字符数；

修改度得分计算单元，用于根据每一所述第一比值和每一所述第二比值，计算得到每一所述修正句子的每一修改度得分；

平均值计算单元，用于计算得到所有所述修改度得分的平均值；

比较单元，用于将每一所述修改度得分分别与所述平均值进行比较，得到每一比较结果；

字级别修改度计算单元，用于计算所有所述比较结果的平均值，得到基于字级别的修改度。

值得说明的是，本发明实施例所述的汉语语法纠错的评估装置10中各个模块的工作过程可参考上述实施例所述的汉语语法纠错的评估方法的工作过程，在此不再赘述。

本发明实施例所提供的一种汉语语法纠错的评估装置10，通过对原始汉语语法纠错评估语料库的测试集进行标注，使得原始的测试集中黄金标准校正注释集对应更多的修正答案，进而使得评估结果更贴近于人的语法知识和认知，能够更合理、全面地评价汉语语法纠错模型；通过将基于句子级别的准确率、基于字级别的BLEU值和基于字级别的修改度作为汉语语法纠错模型的评估指标，使得评估结果不受汉语分词结果或不同语言模型的影响，能够科学、全面、客观地评价汉语语法纠错模型的纠错效果，更具实际价值。

本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如上述实施例的汉语语法纠错的评估方法。

参见图3，图3是本发明实施例提供的一种电子设备20的结构框图，所述电子设备20包括：处理器21、存储器22以及存储在所述存储器22中并可在所述处理器21上运行的计算机程序。所述处理器21执行所述计算机程序时实现上述汉语语法纠错的评估方法实施例中的步骤。或者，所述处理器21执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器22中，并由所述处理器21执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述电子设备20中的执行过程。

所述电子设备20可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述电子设备20可包括，但不仅限于，处理器21、存储器22。本领域技术人员可以理解，所述示意图仅仅是电子设备20的示例，并不构成对电子设备20的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备20还可以包括输入输出设备、网络接入设备、总线等。

所称处理器21可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器21是所述电子设备20的控制中心，利用各种接口和线路连接整个电子设备20的各个部分。

所述存储器22可用于存储所述计算机程序和/或模块，所述处理器21通过运行或执行存储在所述存储器22内的计算机程序和/或模块，以及调用存储在存储器22内的数据，实现所述电子设备20的各种功能。所述存储器22可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述电子设备20集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器21执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种汉语语法纠错的评估方法，其特征在于，包括：

根据所述准确率、所述BLEU值和所述基于字级别的修改度对所述待评估汉语语法纠错模型进行评估；

其中，所述对原始汉语语法纠错评估语料库的测试集进行标注，得到扩充测试集，包括：

对于每一所述第一原始句子的若干修正答案，当出现至少两个相同的修正答案时，将所述相同的修正答案作为新的黄金标准注释添加至所述测试集的黄金标准校正注释集中，得到扩充测试集；

对所述测试集中每一第二原始句子进行标注，以确认每一所述第二原始句子的黄金标准注释；其中，所述第二原始句子为含有一个黄金标准注释的原始句子；

所述基于所有所述修正句子，利用BLEU算法，计算得到基于字级别的BLEU值，包括：

根据下式计算每一修正句子C_i在不同粒度n下的准确率：

式中，h_k(·)表示出现在句子中的第k个n-gram的数量，max_j∈m(h_k(_ij))表示任一n-gram在所有的m个黄金标准注释中的最高频率；

根据下式计算简洁惩罚因子：

根据下式计算BLEU值：

2.如权利要求1所述的汉语语法纠错的评估方法，其特征在于，所述将每一修正句子分别与所有所述黄金标准注释进行匹配，计算得到基于句子级别的准确率，包括：

3.如权利要求1所述的汉语语法纠错的评估方法，其特征在于，所述将每一所述修正句子分别与对应的所述原始句子进行匹配，计算得到基于字级别的修改度，包括：

计算得到所有所述修改度得分的平均值；

4.如权利要求1所述的汉语语法纠错的评估方法，其特征在于，所述对原始汉语语法纠错评估语料库的测试集进行标注，得到扩充测试集，还包括：

5.一种汉语语法纠错的评估装置，其特征在于，包括：

汉语语法纠错评估模块，用于根据所述准确率、所述BLEU值和所述基于字级别的修改度对所述待评估汉语语法纠错模型进行评估；

其中，所述测试集标注模块包括：

黄金标准注释添加单元，用于对于每一所述第一原始句子的若干修正答案，当出现至少两个相同的修正答案时，将所述相同的修正答案作为新的黄金标准注释添加至所述测试集的黄金标准校正注释集中，得到扩充测试集；

第二原始句子标注单元，用于对所述测试集中每一第二原始句子进行标注，以确认每一所述第二原始句子的黄金标准注释；其中，所述第二原始句子为含有一个黄金标准注释的原始句子；

所述字级别准确率计算模块包括：

简洁惩罚因子计算单元，用于根据下式计算简洁惩罚因子：

BLEU值计算单元，用于根据下式计算BLEU值：

6.一种电子设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现如权利要求1～4任一项所述的汉语语法纠错的评估方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1～4任一项所述的汉语语法纠错的评估方法。