CN115774993A

CN115774993A - 一种基于句法分析的条件类错误识别方法及装置

Info

Publication number: CN115774993A
Application number: CN202211701487.7A
Authority: CN
Inventors: 车万翔; 孙博; 王一轩; 朱庆福; 罗晓然
Original assignee: Guangdong Nanfang Network Information Technology Co ltd
Current assignee: Guangdong Nanfang Network Information Technology Co ltd
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-03-10
Anticipated expiration: 2042-12-29
Also published as: CN115774993B

Abstract

本发明公开了一种基于句法分析的条件类错误识别方法及装置，通过利用依存句法和成分句法分析器分析得到句子的句法信息后，然后对句子进行编码得到词向量，在长短期记忆网络中获得融合句法信息的词向量，然后利用门控机制从词向量和长短期记忆网络输出的融合句法信息的词向量中学到一个更优的词向量表示来对待测文本进行检测输出检测结果，本方法通过长短期记忆网络融入了句法信息，在依存句法以及成分句法信息的辅助下，从句法的角度更好地分析句子信息，提高了识别句子中条件类错误的准确性。

Description

一种基于句法分析的条件类错误识别方法及装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于句法分析的条件类错误识别方法及装置。

背景技术

中文文本纠错主要包括拼写错误和语法错误，而条件类错误是拼写错误中比较复杂的一类错误类型，与通用的拼写错误相比，条件类错误的识别主要依赖其上下文信息，其本身可能并不包含错误。例如：“权力”本身没有拼写错误，但是在“公民享有权力”这一上下文下就存在一定的表述错误。不同于拼写错误简单的识别出“全力”并修改为“权力”，条件类错误需要校对系统能正确识别出错误位点上下文的句法信息，从而做出正确的判断。现有技术的主要方案是通过构造相应的伪数据进行大规模的预训练，让模型从特定构造分布的伪数据中学习到条件错误的约束，并对其进行纠正。

现有技术通过构造特定伪数据的方式来覆盖条件类错误的情况，相较于通用类型错误从模型层面并没有针对性改进，这种基于数据的识别方案对训练语料有很强的依赖性，针对语料中没有覆盖的条件类错误泛化性较差，不能够从句法的层面识别出条件类错误的“条件”并进行正确的判别，例如上述例子的“公民享有权力”出现在训练集中，模型通过学习可以正确的识别纠正，但遇到同样句法成分的“每个人享有权力”就会出现问题，基于数据的模型本质上是学习到了公民与权力的共现关系，并非从结构上去判别。

此外，目前在对数据进行预处理时采用依存句法和成分句法，然而针对条件类错误识别的任务，将句法分析结合到条件类错误识别系统，仍然存在一些问题。首先，无论是依存句法分析器还是成分句法分析器的准确率都无法达到100％，因此，依存句法法分析和成分句法分析器所产生的句法知识可能是错误的，错误的句法知识对模型来说是干扰项。另一方面，条件类错误识别的任务包含大量的条件类错误的句子，这些包含错误的句子作为句法分析器的输入，得到的句法知识很大程度也是错误，这加剧了让模型引入错误句法知识的可能。

发明内容

本发明提供了一种基于句法分析的条件类错误识别方法，通过利用依存句法知识和成分句法知识构建识别模型对句法中的条件类错误进行识别，提高了识别句子中条件类错误的准确性。

为了解决上述技术问题，本发明实施例提供了一种基于句法分析的条件类错误识别方法，包括：

获取待检测文本的句法信息，其中，句法信息是根据依存句法分析器和成本句法分析器得到，句法信息包括依存句法信息和成分句法信息；

利用训练模型对待检测文本进行编码生成第一词向量后，根据第一词向量和所述句法信息利用长短期记忆网络进行处理生成融合句法信息的第二词向量；

根据第一词向量和第二词向量利用门控机制计算出权重最高的词向量作为第三词向量；

利用第三词向量对待测文本进行检测输出检测结果。

实施本实施例，通过利用依存句法和成分句法分析器分析得到句子的句法信息后，然后对句子进行编码得到词向量，在长短期记忆网络中获得融合句法信息的词向量，然后利用门控机制从词向量和长短期记忆网络输出的融合句法信息的词向量中学到一个更优的词向量表示来对待测文本进行检测输出检测结果，本方法通过长短期记忆网络融入了句法信息，在依存句法以及成分句法信息的辅助下，从句法的角度更好地分析句子信息，提高了识别句子中条件类错误的准确性。

作为优选方案，根据第一词向量和所述句法信息利用长短期记忆网络进行处理生成融合句法信息的第二词向量，具体为：

根据第一词向量和句法信息进行处理得到生成融合依存句法信息的第二词向量，其实现方式如下：

f_jk＝σ(W^(f)x_j+U^(f)h_k+b^(f)))

h_j＝o_j·tanh(c_j)

其中，w⁽ⁱ⁾、w^(f)、w^(o)、W^(u)、U⁽ⁱ⁾、U^(f)、U^(o)、U^(u)分别表示权重矩阵，b⁽ⁱ⁾、b^(f)、b^(o)分别表示偏置，u_j表示当前的输入状态，c_j表示当前时刻的状态，σ表示sigmoid激活函数，

tanh为激活函数，

为全部子节点隐变量的和,x_j表示第一词向量，i_j表示每个LSTM单元的输入门，o_j表示每个LSTM单元的输出门，f_jk表示每个子节点k计算出其遗忘门，h_j表示父节点j；

根据第一词向量和子节点隐变量生成融合成本句法信息的第二词向量，实现方式如下：

h_j＝o_j·tanh(c_j)

tanh为激活函数，

为全部子节点隐变量的和,x_j表示第一词向量，i_j表示每个LSTM单元的输入门，o_j表示每个LSTM单元的输出门，f_jk表示每个子节点k计算出其遗忘门，h_j表示父节点j。

实施本发明实施例，根据第一词向量和句法信息进行处理得到生成融合依存句法信息的第二词向量后，再根据第一词向量和子节点隐变量生成融合成本句法信息的第二词向量，最后得到了融合了句法信息的词向量，通过有效地结合了依存句法知识和成分句法知识，并且将这两种知识显式的和对待检测文本进行编码生成第一词向量的方法进行结合，从而利用句法信息辅助训练模型判别条件类错误。

作为优选方案，根据第一词向量和第二词向量利用门控机制计算出权重最高的词向量作为第三词向量，具体为：

利用门控机制计算出第二词向量的权重，计算过程为：

u＝σ(W_uχ+b_u)

其中，u表示第二词向量的权重；

利用权重将第一词向量和第二词向量进行加权得到权重最高的词向量为第三词向量，计算过程为：

v＝u·χ+(1-u)·H

其中，χ表示为第一词向量，H表示第二词向量，v表示加权后词向量的权重，u表示第二词向量的权重。

作为优选方案，利用第三词向量对待测文本进行检测输出检测结果，具体为：

若是识别任务，则将第三词向量中的所有词向量平均池化后，输入到分类器中进行识别输出识别结果；

若是纠正任务，则根据第三词向量预测纠正后的词向量后输出纠正结果。

作为优选方案，为了解决相同的技术问题，本发明实施例提供了基于句法分析的条件类错误识别装置，包括获取模块、第二词向量模块、第三词向量模块和检测模块，

其中，获取模块用于获取待检测文本的句法信息，其中，句法信息是根据依存句法分析器和成本句法分析器得到，句法信息包括依存句法信息和成分句法信息；

第二词向量模块用于利用训练模型对待检测文本进行编码生成第一词向量后，根据第一词向量和句法信息利用长短期记忆网络进行处理生成融合句法信息的第二词向量；

第三词向量模块用于根据第一词向量和第二词向量利用门控机制计算出权重最高的词向量作为第三词向量；

检测模块用于利用第三词向量对待测文本进行检测输出检测结果。

作为优选方案，第二词向量模块包括依存句法单元和成本句法单元，

其中，依存句法单元用于根据第一词向量和句法信息进行处理得到生成融合依存句法信息的第二词向量，其实现方式如下：

f_jk＝σ(W^(f)x_j+U^(f)h_k+b^(f)))

h_j＝o_j·tanh(c_j)

tanh为激活函数，

成本句法单元用于根据第一词向量和句法信息生成融合成本句法信息的第二词向量，实现方式如下：

h_j＝_j·tanh(c_j)

其中，w⁽ⁱ⁾、w^(f)、w^(o)、W^(u)、U⁽ⁱ⁾、U^(f)、U^(o)、U^(u)分别表示权重矩阵，b⁽ⁱ⁾、b^(f)、b^(o)分别表示偏置,x_j表示第一词向量，_j表示每个LSTM单元的输入门，o_j表示每个LSTM单元的输出门，f_jk表示每个子节点k计算出其遗忘门，h_j表示父节点j,

为N个子节点隐变量的和，u_j表示当前的输入状态，c_j表示当前时刻的状态。

作为优选方案，第三词向量模块包括权重计算单元和加权权重计算单元，

其中，权重计算单元用于利用门控机制计算出第二词向量的权重，计算过程为：

u＝σ(W_uχ+b_u)

其中，u表示第二词向量的权重；

加权权重计算单元用于利用权重将所述第一词向量和第二词向量进行加权得到权重最高的词向量为第三词向量，计算过程为：

v＝u·χ+(1-u)·H

其中，χ表示第一词向量，H表示第二词向量，v表示加权后词向量的权重，u表示第二词向量的权重。

作为优选方案，为了解决相同的技术问题，本发明实施例提供了一种电子设备，包括存储器和处理器，用于存储计算机程序和执行所述计算机程序时实现如本实施例所述的基于句法分析的条件类错误识别方法。

作为优选方案，为了解决相同的技术问题，本发明实施例提供了一种存储介质，存储介质上存储有计算机程序，计算机程序被处理器执行时实现如本实施例所述的基于句法分析的条件类错误识别方法的步骤。

本发明具有以下有益效果：

通过利用依存句法和成分句法分析器分析得到句子的句法信息后，然后对句子进行编码得到词向量，在长短期记忆网络中获得融合句法信息的词向量，然后利用门控机制从词向量和长短期记忆网络输出的融合句法信息的词向量中学到一个更优的词向量表示来对待测文本进行检测输出检测结果，本方法通过长短期记忆网络融入了句法信息，在依存句法以及成分句法信息的辅助下，从句法的角度更好地分析句子信息，提高了识别句子中条件类错误的准确性。

附图说明

图1：为本发明提供的基于句法分析的条件类错误识别方法的一种实施例的流程示意图；

图2：为本发明提供的基于句法分析的条件类错误识别方法的一种实施例的系统结构示意图；

图3：为本发明提供的基于句法分析的条件类错误识别方法的一种实施例的方法流程示意图；

图4：为本发明提供的基于句法分析的条件类错误识别方法的一种实施例的句法分析结果示意图；

图5：为本发明提供的基于句法分析的条件类错误识别方法的另一种实施例的装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

请参照图1，为本发明实施例提供的基于句法分析的条件类错误识别方法，该基于句法分析的条件类错误识别方法包括步骤101至步骤104，各步骤具体如下：

步骤101：获取待检测文本的句法信息，其中，句法信息是根据依存句法分析器和成本句法分析器得到，句法信息包括依存句法信息和成分句法信息。

在本实施例中，首先进行对待检测的句子数据进行预处理，根据依存句法分析器和成分句法分析器，得到句子的依存句法和成分句法。依存文法分析考虑的是句子中单词与单词之间的依存关系，而这种依存关系其实就是语法，例如主谓、动宾、形容词修饰名词等。根据这样的关系可以将原来的句子转化成一棵树，这棵树中的每一个节点代表一个单词，而每一条边就代表了一种关系。相较于关注句子中单词之间的依存关系的依存句法分析，成分句法分析则是将句子拆解为更小的部分，即短句进行理解。例如，一个句子是由一个名词短语和一个动词短语组成的，这个动词短语又是由一个名词短语和一个动词短语构成的，通过层次化的拆解，就可以得到一棵句子的成分树。

步骤102：利用训练模型对待检测文本进行编码生成第一词向量后，根据第一词向量和句法信息利用长短期记忆网络进行处理生成融合句法信息的第二词向量。

可选的，根据第一词向量和句法信息利用长短期记忆网络进行处理生成融合句法信息的第二词向量，具体为：

f_jk＝σ(W^(f)x_j+U^(f)h_k+b^(f)))

h_j＝o_j·tanh(c_j)

其中，w⁽ⁱ⁾、w^(f)、w^(o)、W^(u)、U⁽ⁱ⁾、U^(f)、U^(o)、U^(u)分别表示权重矩阵，b⁽ⁱ⁾、b^(f)、b⁽ⁱ⁾分别表示偏置，u_j表示当前的输入状态，c_j表示当前时刻的状态，σ表示sigmoid激活函数，

tanh为激活函数，

根据第一词向量和句法信息生成融合成本句法信息的第二词向量，实现方式如下：

h_j＝o_j·tanh(v_j)

其中，w⁽ⁱ⁾、w^(f)、w^(o)、W^(u)、U⁽ⁱ⁾、U^(f)、U^(o)、U^(u)分别表示权重矩阵，b⁽ⁱ⁾、b^(f)、b^(o)分别表示偏置,x_j表示第一词向量，i_j表示每个LSTM单元的输入门，o_j表示每个LSTM单元的输出门，f_jk表示每个子节点k计算出其遗忘门，h_j表示父节点j,

在本实施例中，提出一种基于句法分析的条件类错误识别系统，结构图如图2所示，系统中包括的句法的长短期记忆网络包含了Dependency Tree-LSTM(依存句法)和Constituency Tree-LSTM(成分句法)，依存句法通过根据BERTT预训练模型输出的第一词向量x_j，子节点隐变量和

计算出每个LSTM单元的输入门i_j、输出门o_j，针对每个子节点k计算出其遗忘门f_jk，最终得到父节点j的表示h_j，依存句法Tree-LSTM的具体实现如下：

f_jk＝σ(W^(f)x_j+U^(f)h_k+b^(f)))

h_j＝o_j·tanh(c_j)

tanh为激活函数，

成分句法Tree-LSTM根据BERT预训练模型输出的第一词向量x_j，子节点隐变量和

计算出每个LSTM单元的输入门i_j、输出门o_j，针对每个子节点k计算出其遗忘门f_jk，最终得到父节点j的表示h_j，具体实现过程为：

h_j＝_j·tanh(c_j)

步骤103：根据第一词向量和第二词向量利用门控机制计算出权重最高的词向量作为第三词向量。

可选的，根据第一词向量和第二词向量利用门控机制计算出权重最高的词向量作为第三词向量，具体为：

利用门控机制计算出第二词向量的权重，计算过程为：

u＝σ(W_uχ+b_u)

其中，u表示第二词向量的权重；

v＝u·χ+(1-u)·H

在本实施例中，在得到第一词向量和第二词向量之后，利用根据BERT预训练模型中得到的文本编码的原始向量和根据Tree-LSTM原理和句法信息得到的融合句法知识的词向量学习到一个融合文本原始信息和句法知识的词向量，即根据BERT预训练模型与Tree-LSTM模型的加权和输出最终结果，根据第一词向量和第二词向量利用门控机制计算出权重最高的词向量作为第三词向量，

利用门控机制计算出第二词向量的权重，计算过程为：

u＝σ(W_ux+b_u)

其中，u表示第二词向量的权重；

v＝u·χ+(1-u)·H

其中，χ表示为第一词向量，x＝Pooler(X)表示BERT预训练模型输出通过Pooler层的结果，用于计算BERT语义信息χ以及Tree-LSTM句法信息H的权重u，H表示第二词向量，v表示加权后词向量的权重。

利用门控机制从预训练语言模型的输出和Tree-LSTM的输出中学习到一个更优的词向量表示，同时包含句法信息和上下文语义信息，并且减少错误句法知识的影响，即：如果是错误的句法知识，u的参数会接近1，使得最终的词向量接近预训练模型的词向量；如果是正确的句法知识，u的参数会接近0，使得最终的词向量接近包含句法信息的词向量。

步骤104：利用第三词向量对待测文本进行检测输出检测结果。

可选的，利用第三词向量对所述待测文本进行检测输出检测结果，具体为：

在本实施例中，将得到的第三词向量，用作下游任务。如果是判别任务，将所有的词向量平均池化后输入到分类器，如果是纠正任务，根据每个词向量预测纠正后的词向量，并输出纠正后的句子。

作为本实施例的一种举例，如图4所示，待纠错的句子为公民享有权力，利用依存句法和成分句法分析器，在Tree-LSTM中获得融合句法信息的词向量，然后模型从预训练语言模型输出的词向量和Tree-LSTM输出的融合句法信息的词向量中，学到一个更优的词向量表示，用来预测纠正后的句子。根据句法结构，模型能识别出权力与公民的依存关系，最终正确纠正条件类错误，纠正后的句子：公民享有权利。

实施例二

相应地，参见图5，图5是本发明提供的一种基于句法分析的条件类错误识别装置结构示意图，如图所示，该基于句法分析的条件类错误识别装置，包括获取模块501、第二词向量模块502、第三词向量模块503和检测模块504，其中，各模块具体单元如下：

获取模块501用于获取待检测文本的句法信息，其中，句法信息是根据依存句法分析器和成本句法分析器得到，句法信息包括依存句法信息和成分句法信息；

第二词向量模块502用于利用训练模型对待检测文本进行编码生成第一词向量后，根据第一词向量和句法信息利用长短期记忆网络进行处理生成融合句法信息的第二词向量；

第三词向量模块503用于根据第一词向量和第二词向量利用门控机制计算出权重最高的词向量作为第三词向量；

检测模块504用于利用第三词向量对待测文本进行检测输出检测结果。

第二词向量模块502包括依存句法单元5021和成本句法单元5022，

其中，依存句法单元5021用于根据第一词向量和句法信息进行处理得到生成融合依存句法信息的第二词向量，其实现方式如下：

h_j＝o_j·tanh(c_j)

tanh为激活函数，

成本句法单元5022用于根据第一词向量和子节点隐变量生成融合成本句法信息的第二词向量，实现方式如下：

h_j＝o_j·tanh(c_j)

tanh为激活函数，

为全部子节点隐变量的和,_j表示第一词向量，_j表示每个LSTM单元的输入门，o_j表示每个LSTM单元的输出门，f_jk表示每个子节点k计算出其遗忘门，h_j表示父节点j；

第三词向量模块503包括权重计算单元5031和加权权重计算单元5032，

其中，权重计算单元5031用于利用门控机制计算出第二词向量的权重，计算过程为：

u＝σ(W_uχ+b_u)

其中，u表示第二词向量的权重；

加权权重计算单元5032用于利用权重将第一词向量和第二词向量进行加权得到权重最高的词向量为第三词向量，计算过程为：

v＝u·χ+(1-u)·H

基于句法分析的条件类错误识别装置执行基于句法分析的条件类错误识别方法，通过利用依存句法和成分句法分析器分析得到句子的句法信息后，然后对句子进行编码得到词向量，在长短期记忆网络中获得融合句法信息的词向量，然后利用门控机制从词向量和长短期记忆网络输出的融合句法信息的词向量中学到一个更优的词向量表示来对待测文本进行检测输出检测结果，本方法通过长短期记忆网络融入了句法信息，在依存句法以及成分句法信息的辅助下，从句法的角度更好地分析句子信息，提高了识别句子中条件类错误的准确性。

实施例三

相应地，本发明提供的电子设备，包括：处理器和存储器，

存储器中存储有计算机程序，且计算机程序被配置为由处理器执行，处理器执行如本申请的实施例一所示的基于句法分析的条件类错误识别方法对应的操作。

实施例四

相应地，本发明提供了一种存储介质，存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如实施例一所示的基于句法分析的条件类错误识别方法的步骤。

本实施例更详细的工作原理和步骤流程可以但不限于参见实施例一的相关记载。

相比于现有技术，本发明提供的一种基于句法分析的条件类错误识别方法，通过利用依存句法和成分句法分析器分析得到句子的句法信息后，然后对句子进行编码得到词向量，在长短期记忆网络中获得融合句法信息的词向量，然后利用门控机制从词向量和长短期记忆网络输出的融合句法信息的词向量中学到一个更优的词向量表示来对待测文本进行检测输出检测结果，本方法通过长短期记忆网络融入了句法信息，在依存句法以及成分句法信息的辅助下，从句法的角度更好地分析句子信息，提高了识别句子中条件类错误的准确性。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。