CN111222320B

CN111222320B - 一种字符预测模型训练方法及装置

Info

Publication number: CN111222320B
Application number: CN201911300508.2A
Authority: CN
Inventors: 张伟; 万菲; 杨佳
Original assignee: Gongdao Network Technology Co ltd
Current assignee: Gongdao Network Technology Co ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-10-20
Anticipated expiration: 2039-12-17
Also published as: CN111222320A

Abstract

公开了一种字符预测模型训练方法及装置。不对语句进行分词，而是以语句中的每个字符为颗粒度构建语句的特征矩阵(第一类特征矩阵)。第一类特征矩阵可以作为字符预测模型的输入，进行模型训练以及模型应用。对于字符预测模型，其主要包括第一处理模块、第二处理模块与第三处理模块。其中，第一处理模块负责对第一类特征矩阵进行卷积计算，输出第二类特征矩阵；第二处理模块负责采用LSTM算法或Bi‑LSTM算法对第二类特征矩阵进行计算，输出第三类特征矩阵；第三处理模块负责根据第三类特征矩阵，预测该语句样本中每个字符位置上出现的可选字符的概率，输出语句对应的概率集合。

Description

一种字符预测模型训练方法及装置

技术领域

本说明书实施例涉及互联网应用技术领域，尤其涉及一种字符预测模型训练方法及装置。

背景技术

众所周知，利用模型(如统计模型、机器学习模型)来对文本中存在的错别字进行检测，可以摆脱人力依赖，提升检测效率。

现有的方案通常需要对文本进行分词之后，以分词为最小颗粒度，进行模型构建与模型应用。例如，对于统计模型而言，其是基于每个分词在一批文本样本中出现的频率来进行模型构建的(出现频率越高的分词，包括错别字的概率越低)。

然而，现有的分词算法往往存在误差，该误差会在模型构建的每个步骤中不断累积，最终导致构建出的模型精确性不足。

发明内容

针对上述技术问题，本说明书实施例提供一种字符预测模型训练方法及装置，技术方案如下：

根据本说明书实施例的第一方面，提供一种字符预测模型训练方法，所述字符预测模型包括第一处理模块、第二处理模块与第三处理模块，所述方法包括：

获取语句样本集合；

针对每个语句样本，将该语句样本中的每个字符映射为字符向量，并以该语句样本中每个字符的字符向量为矩阵行，确定该语句样本的第一类特征矩阵；

将该第一类特征矩阵输入到所述第一处理模块，输出第二类特征矩阵；其中，所述第一处理模块对该第一类特征矩阵进行卷积计算；

将该第二类特征矩阵输入到所述第二处理模块，输出第三类特征矩阵；其中，所述第二处理模块基于长短期记忆网络LSTM算法或双向长短期记忆网络Bi-LSTM算法，对该第二类特征矩阵进行计算；

将该第三类特征矩阵输入到所述第三处理模块，输出该语句样本对应的概率集合；其中，所述第三处理模块根据该第三类特征矩阵，预测该语句样本中每个字符位置上出现的可选字符的概率；该语句样本对应的概率集合包括：针对该语句样本的每个字符位置，每个可选字符在该字符位置上出现的概率；

判断是否满足训练停止条件；若是，则停止训练；否则，根据每个语句样本对应的概率集合，调整所述字符预测模型的参数，进而重新将每个语句样本的第一类特征矩阵输入到所述第一处理模块。

根据本说明书实施例的第二方面，提供一种应用如第一方面所述的字符预测模型进行错误字符修正的方法，包括：

获取目标语句；

确定所述目标语句的第一类特征矩阵；

将所述目标语句的第一类特征矩阵输入到所述字符预测模型，输出所述目标语句对应的概率集合；其中，所述目标语句对应的概率集合包括：针对所述目标语句的每个字符位置，每个可选字符在该字符位置上出现的概率；

针对所述目标语句中的任一字符位置，若该字符位置满足指定条件，则将该字符位置上的实际字符确定为错误字符，并替换为该字符位置对应的概率最大的可选字符；

所述指定条件包括：该字符位置上的实际字符与该字符位置对应的概率最大的可选字符不一致。

根据本说明书实施例的第三方面，提供一种字符预测模型训练装置，所述字符预测模型包括第一处理模块、第二处理模块与第三处理模块，所述装置包括：

样本集合获取单元，获取语句样本集合；

特征矩阵确定单元，针对每个语句样本，将该语句样本中的每个字符映射为字符向量，并以该语句样本中每个字符的字符向量为矩阵行，确定该语句样本的第一类特征矩阵；

第一处理单元，将该第一类特征矩阵输入到所述第一处理模块，输出第二类特征矩阵；其中，所述第一处理模块对该第一类特征矩阵进行卷积计算；

第二处理单元，将该第二类特征矩阵输入到所述第二处理模块，输出第三类特征矩阵；其中，所述第二处理模块基于长短期记忆网络LSTM算法或双向长短期记忆网络Bi-LSTM算法，对该第二类特征矩阵进行计算；

第三处理单元，将该第三类特征矩阵输入到所述第三处理模块，输出该语句样本对应的概率集合；其中，所述第三处理模块根据该第三类特征矩阵，预测该语句样本中每个字符位置上出现的可选字符的概率；该语句样本对应的概率集合包括：针对该语句样本的每个字符位置，每个可选字符在该字符位置上出现的概率；

判断执行单元，判断是否满足训练停止条件；若是，则停止训练；否则，根据每个语句样本对应的概率集合，调整所述字符预测模型的参数，进而触发所述第一处理单元重新将每个语句样本的第一类特征矩阵输入到所述第一处理模块。

根据本说明书实施例的第四方面，提供一种应用如第一方面所述的字符预测模型进行错误字符修正的装置，包括：

获取目标语句；

确定所述目标语句的第一类特征矩阵；

本说明书实施例所提供的技术方案，不对语句进行分词，而是以语句中的每个字符为颗粒度构建语句的特征矩阵(第一类特征矩阵)。第一类特征矩阵可以作为字符预测模型的输入，进行模型训练以及模型应用。对于字符预测模型，其主要包括第一处理模块、第二处理模块与第三处理模块。其中，第一处理模块负责对第一类特征矩阵进行卷积计算，输出第二类特征矩阵；第二处理模块负责采用LSTM算法或Bi-LSTM算法对第二类特征矩阵进行计算，输出第三类特征矩阵；第三处理模块负责根据第三类特征矩阵，预测该语句样本中每个字符位置上出现的可选字符的概率，输出语句对应的概率集合。

通过本说明书实施例，在训练或应用字符预测模型的过程中，可以避免分词算法带来的误差，提升模型精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书实施例。

此外，本说明书实施例中的任一实施例并不需要达到上述的全部效果。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本说明书实施例提供的一种字符预测模型的模型结构示意图；

图2是本说明书实施例提供的一种字符预测模型训练方法的流程示意图；

图3是本说明书实施例提供的一种错误字符修正方法的流程示意图；

图4是本说明书实施例提供的错误字符修正方法的示意图；

图5是本说明书实施例提供的一种字符预测模型训练装置的结构示意图；

图6是本说明书实施例提供的一种错误字符修正的装置的结构示意图；

图7是用于配置本说明书实施例装置的一种设备的结构示意图。

具体实施方式

在本说明书的一个或多个实施例中，不对语句进行分词，而是以语句中的每个字符为颗粒度构建语句的特征矩阵(第一类特征矩阵)。第一类特征矩阵可以作为字符预测模型的输入，进行模型训练以及模型应用。

对于字符预测模型，图1是本说明书实施例提供的一种字符预测模型的模型结构示意图，其主要包括第一处理模块、第二处理模块与第三处理模块

其中，第一处理模块负责对第一类特征矩阵进行卷积计算，以便挖掘语句中相邻多个连续字符的关联关系；第一处理模块对第一类特征矩阵进行处理后，输出第二类特征矩阵，第二类特征矩阵不仅包含语句中每个字符的特征信息，还包含语句中多个连续字符的呈现规律。

第二处理模块负责采用长短期记忆网络(Long Short-Term Memory，LSTM)算法或双向长短期记忆网络(Bi-directional Long Short-Term Memory，Bi-LSTM)算法对第二类特征矩阵进行计算，以便挖掘出临近字符之间的语义联系。此处需要说明的是，由于第二类特征矩阵包含有多个连续字符的关联关系，因此，事实上可以扩展LSTM算法或Bi-LSTM算法的“视野”，使得第二处理模块挖掘出的临近字符之间的语义联系信息可以排除掉“连续两三个字符皆为错别字”的干扰，避免误差累积。第二处理模块对第二类特征矩阵进行处理后，输出第三类特征矩阵。第三类特征矩阵可以全面且丰富地反映语句中每个字符的特征信息。

第三处理模块负责根据第三类特征矩阵，预测该语句样本中每个字符位置上出现的可选字符的概率，输出语句对应的概率集合，语句对应的概率集合包括：针对语句的每个字符位置，每个可选字符在该字符位置上出现的概率。

需要说明的是，在模型训练阶段，针对语句样本的每个字符位置，默认该字符位置上的实际字符出现在该字符位置的概率为似然概率1.0，可以根据字符预测模型针对该字符位置的预测结果来评价模型训练效果，如果训练效果不佳，则根据预测结果调整字符预测模型的参数，进行下一次迭代训练。

在模型应用阶段，针对目标语句的每个字符位置，字符预测模型给出每个可选字符在该字符位置上出现的概率，若该字符位置上的实际字符与预测出的概率最大的可选字符不一致，则说明该字符位置上的实际字符是错误字符，需要替换为预测出的概率最大的可选字符。

为了使本领域技术人员更好地理解本说明书实施例中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行详细地描述，显然，所描述的实施例仅仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于保护的范围。

图2是本说明书实施例提供的一种字符预测模型训练方法的流程示意图，包括如下步骤：

S200：获取语句样本集合。

所述语句样本集合通常包括大量语句样本(如几亿条语句样本)。

在工程实践中，一般需要使用固定字符数量的语句样本对字符预测模型进行训练，训练完成后，字符预测模型也一般针对同样的固定字符数量的目标语句进行字符预测。

申请人基于大规模的领域内语料，统计语句的字符数量，发现绝大部分语句的字符数量一般不会一个最大字符数(如30)，本文将这个最大字符数记为N，因此，可以设定语句样本集合中的任一语句样本的字符数量不大于N。

S202：针对每个语句样本，将该语句样本中的每个字符映射为字符向量。

在本说明书实施例中，以语句中的每个字符为最小颗粒度，将每个字符映射(Embedding)为字符向量，并不会对语句进行分词处理。

为了描述的方便，在步骤S202～S210，以单个语句样本为例说明。

在本说明书实施例中，为了更好的表征汉字，可以综合考虑字义维度、拼音维度、笔画维度，将字符映射为字符向量。即，可以针对该语句样本中的每个字符，从字义维度将该字符映射为第一类字符子向量，从拼音维度将该字符映射为第二类字符子向量，以及从笔画维度将该字符映射为第三类字符子向量；根据该字符的第一类字符子向量、第二类字符子向量以及第三类字符子向量，确定该字符的字符向量。

具体地，从字义维度将该字符映射为第一类字符子向量，可以根据字符字典进行。字典总字符数为8075，其中汉字字符、阿拉伯数字、英文字母、常见符号共8085个，外加一个“UNKNOWN”字符和一个“PAD”字符。

从拼音维度将该字符映射为第二类字符子向量，可以根据拼音字典进行，其中汉字字符对应共404个拼音。

从笔画维度将该字符映射为第三类字符子向量，可以从笔画维度确定该字符的i-gram笔画结构，i＝(1，2，……，P)，P为大于1的自然数；将该字符的i-gram笔画结构映射为笔画结构向量；根据该字符的1-gram至P-gram的笔画结构向量，确定该字符的第三类字符子向量。

进一步地，根据该字符的1-gram～P-gram的笔画结构向量，确定该字符的第三类字符子向量，具体可以是：将该字符的1-gram～P-gram的笔画结构向量组成笔画结构矩阵；对该字符的笔画结构矩阵进行卷积计算并通过池化操作对计算结果进行降维，得到该字符的第三类字符子向量。

其中，上述的池化操作可以采用平均池化或者最大值池化，总之，将P行的笔画结构矩阵纵向压缩为第三类字符子向量。

例如，以“术”字为例，根据汉字笔画字典，可以基于5个笔画“一丨ノ丶フ”对“术”字进行拆解，同时为保留汉字字形基本结构信息，分别依次拆解1、2、3、4画的组成的微小结构(此时，P＝4)，如下：

1-gram:一,丨,ノ,丶,丶；共5个；

2-gram：一丨,丨ノ，ノ丶，丶丶；共4个；

3-gram：一丨ノ,丨ノ丶,ノ丶丶；共3个；

4-gram：一丨ノ丶，丨ノ丶丶；共2个。

此外需要说明的是，根据该字符的第一类字符子向量、第二类字符子向量以及第三类字符子向量，确定该字符的字符向量，具体可以是：依次将该字符的第一类字符子向量、第二类字符子向量、第三类字符子向量进行横向拼接，得到该字符的字符向量。

通常，字符向量的维数是固定的，本文将其记为M。

S204：以该语句样本中每个字符的字符向量为矩阵行，确定该语句样本的第一类特征矩阵。

步骤S202～S204的目的是将语句样本映射为数学表征(即特征矩阵)。通过步骤S202得到该语句样本的每个字符的M维字符向量之后，将每个字符向量为一个矩阵行，确定第一类特征矩阵。

此处需要说明的是，如果该语句样本的字符数量为N，则可以直接将该语句样本的N个字符分别对应的N个字符向量组成N*M的第一类特征矩阵。

如果该语句样本的字符数量小于N，则第一类特征矩阵的矩阵行不仅包括该语句样本的每个字符的字符向量，也包括若干补0向量。其中，补0向量是指具有M个维度，每个维度的值皆为0的向量。若干补0向量的作用是将第一类特征矩阵补齐成N*M矩阵，一般是在第一类特征矩阵的上边缘和/或下边缘增加补0向量。

值得强调是，在本说明书实施例中，也可以以每个字符向量为矩阵列，将第一类特征矩阵设定为M*N矩阵，相应的，当该语句样本的字符数量不足N时，在第一类特征矩阵的左边缘和/或右边缘增加补0向量。可以理解，从实现本方案的角度看，将第一类特征矩阵设定为M*N矩阵，原理也是一样的，本领域技术人员可以根据本文对于N*M情况下的描述，自行推导出M*N情况下的实现方式。

S206：将该第一类特征矩阵输入到所述第一处理模块，输出第二类特征矩阵。

在本说明书实施例中，字符预测模型的模型解构包括第一处理模块、第二处理模块与第三处理模块。

其中，第一处理模块采用若干卷积核矩阵对该第一类特征矩阵进行卷积计算。第二处理模块基于长短期记忆网络LSTM算法或双向长短期记忆网络Bi-LSTM算法，对该第二类特征矩阵进行计算。第三处理模块根据该第三类特征矩阵，预测该语句样本中每个字符位置上出现的可选字符的概率。

具体而言，第一处理模块使用的卷积核矩阵为S*M矩阵，即卷积核矩阵的每一行向量具有M维(与字符向量一致)，卷积核矩阵的行数S小于N，从而只使用卷积核矩阵对第一类特征矩阵进行纵向扫描。

第一处理模块在对第一类特征矩阵进行卷积计算时，可以使用不止一个卷积核矩阵，也可以进行不止一层卷积计算。

作为一种实施方式，可以在第一处理模块中设置2个卷积层，每个卷积层上部署有3个卷积核矩阵，第一类特征矩阵经过第1个卷积层之后，第1个卷积层输出3个特征图(每个特征图都是N*M矩阵)，将这3个特征图综合成1个N*M矩阵，再输入到第2个卷积层，第2个卷积层继续输出3个特征图，再次综合成1个N*M矩阵，作为第一处理模块输出的第二类特征矩阵。

进一步地，为了减少需要处理的参数数量，可以在每个卷积层后接一个池化层，对卷积层输出的矩阵进行横向降维。沿用上例，假设N为10，M为1000，第一个卷积层输出的3个特征图(每个特征图是10*1000矩阵)综合成的10*100矩阵，经过第1个池化层之后变为10*600矩阵，输入到第2个卷积层。第2个卷积层输出的3个特征图(每个特征图是10*600矩阵)综合成的10*600矩阵再进入第2个池化层之后变为10*300矩阵，作为第二类特征矩阵。

S208：将该第二类特征矩阵输入到所述第二处理模块，输出第三类特征矩阵。

第二处理模块输出的第三类特征矩阵依然有N行。如果该语句样本的字符数量为N，则各行向量与该语句样本的各字符一一对应。如果该语句样本的字符数量不足N，则第三类特征矩阵的部分行向量与该语句样本的各字符一一对应，剩余行向量对应于为该语句样本补齐的空白字符。

作为一种可选的方式，为了避免第一类特征矩阵经过第一处理模块处理之后丢失过多语句样本中每个字符本身的特征信息，因此，可以将第二类特征矩阵与第一类特征矩阵进行横向拼接后，得到拼接矩阵，并将所述拼接矩阵输入到所述第二处理模块。

此外，还可以通过自注意力self-attention操作，对所述拼接矩阵进行转换，将转换后的所述拼接矩阵输入到所述第二处理模块。通过self-attention操作，可以使得转换后的所述拼接矩阵更能表征语句样本中重要字符(即对语句样本所表达的含义作用较大的字符)的特征信息。

在本说明书实施例中，第二处理模块可以包括至少两个算法层。这两个算法层可以都基于LSTM算法执行计算，也可以都基于Bi-LSTM算法执行计算。第二类特征矩阵首先输入到第1个算法层，第1个算法层的输出再输入到下一个算法层，直至将最后一个算法层的输出作为第三类特征矩阵。

为了尽量避免第二类特征矩阵经过算法层之后出现梯度消失的问题，所述第二处理模块可以针对所述第二处理模块的每个算法层，若该算法层不是最后一个算法层，则将该算法层的输入矩阵与输出矩阵进行拼接后，输入到下一个算法层，若该算法层是最后一个算法层，则将该算法层的输入矩阵与输出矩阵进行拼接后，作为第三类特征矩阵。

此外，在第二处理模块中，可以为每个算法层配置一个归一化层(可以基于layerNormalization)，使得每个算法层的输出都会经过归一化处理。

S210：将该第三类特征矩阵输入到所述第三处理模块，输出该语句样本对应的概率集合。

在本说明书实施例中，通过在第三处理模块中进行时间步(TimeDistributed)操作，可以使得第三处理模块分别针对第三类特征矩阵的每个行向量进行Dense(全连接)操作，而不是针对第三类特征矩阵的整体进行Dense操作，其中，第三处理模块中设置的激活函数可以是softmax函数或sigmoid函数。

语句样本对应的概率集合包括：针对该语句样本的每个字符位置，每个可选字符在该字符位置上出现的概率。可选字符集合基本囊括了常见汉字。

举例说明，假设第三类特征矩阵为N*L矩阵，N为10，L为20，第三处理模块可以针对第三类特征矩阵的每个行向量，对该行向量的20个维度值进行全连接，映射为30个维度值，将这30个维度值输入到第三处理模块中的激活函数，可以得到该行向量对应的字符位置上每个可选字符出现的概率。

S212：判断是否满足训练停止条件，若是，则执行步骤S214，若否，则执行步骤S216。

在本说明书实施例中，可以将训练停止条件设定为：训练迭代次数达到指定次数。

也可以将训练停止条件设定为：满足预期的训练效果。具体而言，在使用语句样本集合中每个语句样本的第一类特征矩阵执行了步骤206～210之后，相当于使用语句样本集合完成了一次训练迭代，此时，需要判断是否满足所述训练停止条件。

在判断是否满足训练条件时，可以：

第一步，针对每个语句样本，执行：针对该语句样本的每个字符位置，判断与该字符位置上的实际字符相同的可选字符出现在该字符位置的概率与1.0的差值是否小于指定值；若该语句样本的每个字符位置对应的判断结果皆为是，则认定所述字符预测模型拟合该语句样本；若该语句样本的任一字符位置对应的判断结果为否，则认定所述字符预测模型未拟合该语句样本。

第二步，若认定所述字符预测模型拟合每个语句样本，则确定满足所述训练停止条件；若认定所述字符预测模型未拟合任一语句样本，则确定未满足所述训练停止条件。

S214：停止训练。

S216：根据每个语句样本对应的概率集合，调整所述字符预测模型的参数，进而返回执行步骤S206。

此处需要说明的是，所述字符预测模型的参数主要包括第一处理模块的参数(如卷积核矩阵中的元素值)、第二处理模块的参数(如Bi-LSTM算法中的权重值)、第三处理模块的参数(如Dense使用的权重值)。

图3是本说明书实施例提供的一种错误字符修正方法的流程示意图，包括：

S300：获取目标语句。

图3所示的方法实际上是应用图1所示方法训练得到的字符预测模型来进行错误字符修正。所述目标语句是待检测是否有错误字符的语句。

S302：确定所述目标语句的第一类特征矩阵。

如果目标语句的字符数量大于N，则可以对目标语句进行截断处理，取前N个字符重新组成目标语句；或者，基于目标语句确定若干字符数量为N的目标子语句，针对每个目标子语句执行图3所示的方法。

如何确定语句的第一类特征矩阵，前文已有说明，不再赘述。

S304：将所述目标语句的第一类特征矩阵输入到所述字符预测模型，输出所述目标语句对应的概率集合。

所述目标语句对应的概率集合包括：针对所述目标语句的每个字符位置，每个可选字符在该字符位置上出现的概率。

S306：针对所述目标语句中的任一字符位置，若该字符位置满足指定条件，则将该字符位置上的实际字符确定为错误字符，并替换为该字符位置对应的概率最大的可选字符。

进一步地，考虑到在实践中，有的语句中包含有命名实体词，命名实体词虽然容易被字符预测模型预测为出现概率较低的词，但是，命名实体词却不包括错误字符。例如“黄珊”作为人名，会被检测并纠正为“黄山”，但其作为人名是合理的。因此，需要将命名实体词的情况排除，不进行修正。具体而言，可以将所述指定条件设定为：该字符位置上的实际字符与该字符位置对应的概率最大的可选字符不一致，并且，该字符位置上的实际字符不属于命名实体。

需要说明的是，可以基于NER模型对目标语句进行实体识别。

此外，为了进一步提升错误字符检测的准确性，在判断该字符位置是否满足指定条件之前，可以基于预先根据语料集合统计出的每个可选字符出现的频次，对每个可选字符在该字符位置上出现的概率进行修正。例如，可以将统计出的每个可选字符出现的频次处理成出现概率，针对每个可选字符，将处理成的出现概率与字符预测模型预测的出现概率相乘，得到修正后的该可选字符在该字符位置上出现的概率。

如此，使得修正后的每个可选字符在该字符位置上出现的概率融合了字符预测模型与统计模型的效果。

通过本说明书实施例，可以实现如下效果：

1.避免因分词造成的误差累积，采取基于字符颗粒度的错别字检测、纠正的算法思路。

2.在汉字字符的基础上，引入汉字拼音、汉字笔画等特征数据，让模型更好的理解中文表达习惯。

3.引入CNN增大LSTM或Bi-LSTM算法视野，引入Attention机制让散发关注重要的文字片段，引入ResNet的残差机制让模型更好的理解深层次语义信息，引入NER避免对非规范化人名、机构名等实体做出错误更改，引入5-gram的统计信息对深度学习模型的输出做重排序。

图4是本说明书实施例提供的错误字符修正方法的示意图。

此外还需要说明的是，利用本说明书实施例提供的技术方案，可以实现对法律文书中的错别字进行检测并修正。

有时，法律文书中不仅包括错别字，还有一些错误信息(没有字符错误，而是信息内容错误)。为此，在本说明书实施例中，可以通过如下方式对法律文书中的错误信息进行检测：

(1)根据最高人民法院的《民事诉讼文书样式》建立相应规则；

(2)根据NER模型识别原告、被告、委托代理人；

(3)根据(1)(2)结果及整个文书输入，对相应规则进行检查和提示，主要进行如下检测：

-检查是否遗漏法院名称；

-检查文书类型和内容是否一致；

-检查自然人原、被告信息是否有遗漏检查，姓名，性别，出生日期，民族，住址5项为必要信息，身份证号码为可选信息；

-检查代理权限,所有类型原告的委托代理人都不应有代理权限说明；

-检查原、被告的委托代理人数量，委托代理人数量不得多于2个；

-检查委托代理人信息是否有缺失，如果下文提到委托代理人，但是没有委托代理人基本信息介绍，算作委托代理人缺失。代理人不出庭，可以在下文中不做说明；

-检查原告xx与被告xx...当事人介绍语句，姓名是否缺失、错误；

-检查原告xx与被告xx...当事人介绍语句，公司是否有简称；

-检查案由是否缺失；

-检查是否有立案时间说明；

-检查适用程序，文书末尾审判人员是三人+书记员的为合议庭，一人+书记员为独任审判)、是否缺失；

-检查书记员信息是否遗漏；

-检查"本案现已审理终结"；

-检查诉请、事实与理由的先后顺序；

-检查被告出庭和答辩状态；

-同一部法律引用多条款的，按照序号由小到大排列，去重；

-《中华人民共和国民事诉讼法》第一百四十四条是否缺失---当有被告或第三人未到庭时，要检查是否缺失引用该条款；

-案件受理费是否需要减半(调解书、简易程序判决书、撤诉裁定减半.对文书类型有依赖；

-检查履行时间是否缺失被告xx于本判决书生效后x日内....；

-当判项有金额时，检查固定段落是否缺失；

-检查诉讼费段落是否缺失；

-检查如不服本判决/裁定，可在判决书/裁定书送达之日起十五日内/十日内向本院递交上诉状，并按照对方当事人人数提出副本，上诉于xx省xx市中级人民法院；

-判决日期校验；

-检查判决金额里是否有人民币；

-检查身份证号码是否缺失。

通过上述方式，可以结合最高人民法院的《民事诉讼文书样式》、NER模型、文书书写规则图谱对法律文书内的信息进行识别和检查，对信息冲突进行提示。并且，针对法律文书领域完成错别字的检测与纠正以及文书内错误信息的检测与提示，同时具有一定泛化能力，可用于通用领域。

图5是本说明书实施例提供的一种一种字符预测模型训练装置的结构示意图，所述字符预测模型包括第一处理模块、第二处理模块与第三处理模块，所述装置包括：

样本集合获取单元501，获取语句样本集合；

特征矩阵确定单元502，针对每个语句样本，将该语句样本中的每个字符映射为字符向量，并以该语句样本中每个字符的字符向量为矩阵行，确定该语句样本的第一类特征矩阵；

第一处理单元503，将该第一类特征矩阵输入到所述第一处理模块，输出第二类特征矩阵；其中，所述第一处理模块对该第一类特征矩阵进行卷积计算；

第二处理单元504，将该第二类特征矩阵输入到所述第二处理模块，输出第三类特征矩阵；其中，所述第二处理模块基于长短期记忆网络LSTM算法或双向长短期记忆网络Bi-LSTM算法，对该第二类特征矩阵进行计算；

第三处理单元505，将该第三类特征矩阵输入到所述第三处理模块，输出该语句样本对应的概率集合；其中，所述第三处理模块根据该第三类特征矩阵，预测该语句样本中每个字符位置上出现的可选字符的概率；该语句样本对应的概率集合包括：针对该语句样本的每个字符位置，每个可选字符在该字符位置上出现的概率；

判断执行单元506，判断是否满足训练停止条件；若是，则停止训练；否则，根据每个语句样本对应的概率集合，调整所述字符预测模型的参数，进而触发所述第一处理单元重新将每个语句样本的第一类特征矩阵输入到所述第一处理模块。

所述特征矩阵确定单元502，针对该语句样本中的每个字符，从字义维度将该字符映射为第一类字符子向量，从拼音维度将该字符映射为第二类字符子向量，以及从笔画维度将该字符映射为第三类字符子向量；根据该字符的第一类字符子向量、第二类字符子向量以及第三类字符子向量，确定该字符的字符向量。

所述特征矩阵确定单元502，从笔画维度确定该字符的i-gram笔画结构；i＝(1，2，3，4，5)；将该字符的i-gram笔画结构映射为笔画结构向量；根据该字符的1-gram至5-gram的笔画结构向量，确定该字符的第三类字符子向量。

所述特征矩阵确定单元502，将该字符的1-gram～5-gram的笔画结构向量组成笔画结构矩阵；对该字符的笔画结构矩阵进行卷积计算并通过池化操作对计算结果进行降维，得到该字符的第三类字符向量。

所述第二处理单元504，将该第二类特征矩阵与该第一类特征矩阵进行横向拼接后，得到拼接矩阵，并将所述拼接矩阵输入到所述第二处理模块。

所述第二处理单元504，通过自注意力self-attention操作，对所述拼接矩阵进行转换；将转换后的所述拼接矩阵输入到所述第二处理模块。

所述第二处理模块包括至少两个算法层；所述至少两个算法层基于LSTM算法或Bi-LSTM算法执行计算；

所述第二处理模块基于LSTM算法或Bi-LSTM算法，对该第二类特征矩阵进行计算，具体包括：

所述第二处理模块针对所述第二处理模块的每个算法层，若该算法层不是最后一个算法层，则将该算法层的输入矩阵与输出矩阵进行拼接后，输入到下一个算法层；若该算法层是最后一个算法层，则将该算法层的输入矩阵与输出矩阵进行拼接后，作为第三类特征矩阵。

所述判断执行模块506，针对每个语句样本，执行：针对该语句样本的每个字符位置，判断与该字符位置上的实际字符相同的可选字符出现在该字符位置的概率与1的差值是否小于指定值，若该语句样本的每个字符位置对应的判断结果皆为是，则认定所述字符预测模型拟合该语句样本；若认定所述字符预测模型拟合每个语句样本，则确定满足所述训练停止条件。

图6是本说明书实施例提供的一种错误字符修正的装置的结构示意图，包括：

获取模块601，获取目标语句；

确定模块602，确定所述目标语句的第一类特征矩阵；

预测模块603，将所述目标语句的第一类特征矩阵输入到所述字符预测模型，输出所述目标语句对应的概率集合；其中，所述目标语句对应的概率集合包括：针对所述目标语句的每个字符位置，每个可选字符在该字符位置上出现的概率；

字符修正模块604，针对所述语句中的任一字符位置，若该字符位置满足指定条件，则将该字符位置上的实际字符确定为错误字符，并替换为该字符位置对应的概率最大的可选字符；

所述指定条件还包括：

该字符位置上的实际字符不属于命名实体。

所述装置还包括：

概率修正模块605，在判断该字符位置是否满足指定条件之前，基于预先根据语料集合统计出的每个可选字符出现的频次，对每个可选字符在该字符位置上出现的概率进行修正。

本说明书实施例还提供一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现图2或图3所示方法。

图7示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本说明书实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现图2或图3所示的方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护范围。

Claims

1.一种字符预测模型训练方法，所述字符预测模型包括第一处理模块、第二处理模块与第三处理模块，所述方法包括：

获取语句样本集合；

2.如权利要求1所述的方法，将该语句样本中的每个字符映射为字符向量，具体包括：

针对该语句样本中的每个字符，从字义维度将该字符映射为第一类字符子向量，从拼音维度将该字符映射为第二类字符子向量，以及从笔画维度将该字符映射为第三类字符子向量；

根据该字符的第一类字符子向量、第二类字符子向量以及第三类字符子向量，确定该字符的字符向量。

3.如权利要求2所述的方法，从笔画维度将该字符映射为第三类字符子向量，具体包括：

从笔画维度确定该字符的i-gram笔画结构；i＝(1，2，……，P)，P为大于1的自然数；

将该字符的i-gram笔画结构映射为笔画结构向量；

根据该字符的1-gram至P-gram的笔画结构向量，确定该字符的第三类字符子向量。

4.如权利要求3所述的方法，根据该字符的1-gram～P-gram的笔画结构向量，确定该字符的第三类字符子向量，具体包括：

将该字符的1-gram～P-gram的笔画结构向量组成笔画结构矩阵；

对该字符的笔画结构矩阵进行卷积计算并通过池化操作对计算结果进行降维，得到该字符的第三类字符子向量。

5.如权利要求1所述的方法，将该第二类特征矩阵输入到所述第二处理模块，具体包括：

将该第二类特征矩阵与该第一类特征矩阵进行横向拼接后，得到拼接矩阵，并将所述拼接矩阵输入到所述第二处理模块。

6.如权利要求5所述的方法，将所述拼接矩阵输入到所述第二处理模块，具体包括：

通过自注意力self-attention操作，对所述拼接矩阵进行转换；

将转换后的所述拼接矩阵输入到所述第二处理模块。

7.如权利要求5或6所述的方法，所述第二处理模块包括至少两个算法层；所述至少两个算法层基于LSTM算法或Bi-LSTM算法执行计算；

8.如权利要求1所述的方法，判断是否满足所述训练停止条件，具体包括：

针对每个语句样本，执行：针对该语句样本的每个字符位置，判断与该字符位置上的实际字符相同的可选字符出现在该字符位置的概率与1.0的差值是否小于指定值；若该语句样本的每个字符位置对应的判断结果皆为是，则认定所述字符预测模型拟合该语句样本；

若认定所述字符预测模型拟合每个语句样本，则确定满足所述训练停止条件。

9.一种应用如权利要求1～8任一项所述的字符预测模型进行错误字符修正的方法，包括：

获取目标语句；

确定所述目标语句的第一类特征矩阵；

10.如权利要求9所述的方法，所述指定条件还包括：

该字符位置上的实际字符不属于命名实体。

11.如权利要求9所述的方法，在判断该字符位置是否满足指定条件之前，所述方法还包括：

基于预先根据语料集合统计出的每个可选字符出现的频次，对每个可选字符在该字符位置上出现的概率进行修正。

12.一种字符预测模型训练装置，所述字符预测模型包括第一处理模块、第二处理模块与第三处理模块，所述装置包括：

样本集合获取单元，获取语句样本集合；

13.如权利要求12所述的装置，所述特征矩阵确定单元，针对该语句样本中的每个字符，从字义维度将该字符映射为第一类字符子向量，从拼音维度将该字符映射为第二类字符子向量，以及从笔画维度将该字符映射为第三类字符子向量；根据该字符的第一类字符子向量、第二类字符子向量以及第三类字符子向量，确定该字符的字符向量。

14.如权利要求13所述的装置，所述特征矩阵确定单元，从笔画维度确定该字符的i-gram笔画结构；i＝(1，2，……，P)，P为大于1的自然数；将该字符的i-gram笔画结构映射为笔画结构向量；根据该字符的1-gram至P-gram的笔画结构向量，确定该字符的第三类字符子向量。

15.如权利要求14所述的装置，所述特征矩阵确定单元，将该字符的1-gram～P-gram的笔画结构向量组成笔画结构矩阵；对该字符的笔画结构矩阵进行卷积计算并通过池化操作对计算结果进行降维，得到该字符的第三类字符向量。

16.如权利要求12所述的装置，所述第二处理单元，将该第二类特征矩阵与该第一类特征矩阵进行横向拼接后，得到拼接矩阵，并将所述拼接矩阵输入到所述第二处理模块。

17.如权利要求16所述的装置，所述第二处理单元，通过自注意力self-attention操作，对所述拼接矩阵进行转换；将转换后的所述拼接矩阵输入到所述第二处理模块。

18.如权利要求16或17所述的装置，所述第二处理模块包括至少两个算法层；所述至少两个算法层基于LSTM算法或Bi-LSTM算法执行计算；

19.如权利要求12所述的装置，所述判断执行单元，针对每个语句样本，执行：针对该语句样本的每个字符位置，判断与该字符位置上的实际字符相同的可选字符出现在该字符位置的概率与1.0的差值是否小于指定值，若该语句样本的每个字符位置对应的判断结果皆为是，则认定所述字符预测模型拟合该语句样本；若认定所述字符预测模型拟合每个语句样本，则确定满足所述训练停止条件。

20.一种应用如权利要求1～8任一项所述的字符预测模型进行错误字符修正的装置，包括：

获取模块，获取目标语句；

确定模块，确定所述目标语句的第一类特征矩阵；

预测模块，将所述目标语句的第一类特征矩阵输入到所述字符预测模型，输出所述目标语句对应的概率集合；其中，所述目标语句对应的概率集合包括：针对所述目标语句的每个字符位置，每个可选字符在该字符位置上出现的概率；

字符修正模块，针对所述目标语句中的任一字符位置，若该字符位置满足指定条件，则将该字符位置上的实际字符确定为错误字符，并替换为该字符位置对应的概率最大的可选字符；

21.如权利要求20所述的装置，所述指定条件还包括：

该字符位置上的实际字符不属于命名实体。

22.如权利要求20所述的装置，所述装置还包括：

概率修正模块，在判断该字符位置是否满足指定条件之前，基于预先根据语料集合统计出的每个可选字符出现的频次，对每个可选字符在该字符位置上出现的概率进行修正。

23.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1至11任一项所述的方法。