CN112084769A

CN112084769A - 依存句法模型优化方法、装置、设备及可读存储介质

Info

Publication number: CN112084769A
Application number: CN202010963511.9A
Authority: CN
Inventors: 周楠楠; 于夕畔; 汤耀华; 杨海军; 徐倩
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2020-12-15

Abstract

本发明公开了一种依存句法模型优化方法、装置、设备及可读存储介质，待优化的依存句法模型包括底层的预训练模型和上层的依存关系预测网络，所述预训练模型是采用领域无关的文本训练集训练得到，所述依存句法模型优化方法包括：采用所述预训练模型对目标领域的文本训练集中的训练语句进行底层向量提取处理，得到所述训练语句中各个词对应的词向量；采用所述依存关系预测网络对所述词向量进行上层预测处理，并对处理结果进行优化以优化所述依存句法模型。本发明能够极大地减少标注工作量，降低标注成本，提高模型优化效率。

Description

依存句法模型优化方法、装置、设备及可读存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种依存句法模型优化方法、装置、设备及可读存储介质。

背景技术

依存句法是自然语言处理中的关键技术之一，是通过分析语言单位内成分之间的依存关系，来揭示其句法结构的一种方法。依存句法可以为其他自然语言处理任务提供帮助，例如指代消解、语义分析、机器译、信息提取等。现有的基于图的依存句法分析方法，假设任意两个元素都以一定的概率存在依存关系，使用深度学习训练一个评价子树得分的函数，在动态规划过程中寻找最优的生成树。由于能考虑到依存树的所有可能性，基于图的依存句法分析方法准确率较高，但是由于其模型结构一般比较深，要想取得良好的预测结果，需要大量带标注的训练数据来进行训练，然而，依存句法分析的数据标注难度大、成本高。

发明内容

本发明的主要目的在于提供一种依存句法模型优化方法、装置、设备及可读存储介质，旨在现有的基于图的依存句法分析方法需要大量的标注数据，标注难度大、成本高的技术问题。

为实现上述目的，本发明提供一种依存句法模型优化方法，待优化的依存句法模型包括底层的预训练模型和上层的依存关系预测网络，所述预训练模型是采用领域无关的文本训练集训练得到，所述依存句法模型优化方法包括以下步骤：

采用所述预训练模型对目标领域的文本训练集中的训练语句进行底层向量提取处理，得到所述训练语句中各个词对应的词向量；

采用所述依存关系预测网络对所述词向量进行上层预测处理，并对处理结果进行优化以优化所述依存句法模型。

可选地，所述采用所述预训练模型对目标领域的文本训练集中的训练语句进行底层向量提取处理，得到所述训练语句中各个词对应的词向量的步骤包括：

采用所述预训练模型对目标领域的文本训练集中的训练语句进行底层向量提取处理，得到所述训练语句中各个字对应的字向量；

对于所述训练语句中的各个词，将组成所述词的各个字的字向量进行加权求和得到所述词对应的词向量，其中，所述依存句法模型中的模型参数包括所述训练语句中各个字对应的权重。

可选地，所述采用所述依存关系预测网络对所述词向量进行上层预测处理，并对处理结果进行优化以优化所述依存句法模型的步骤包括：

将所述各个词各自的词向量和预设词性向量进行拼接，得到包括各个词的拼接结果的句子向量；

采用所述依存关系预测网络对所述句子向量进行上层预测处理，得到所述训练语句对应的依存关系预测结果；

根据所述依存关系预测结果和所述训练语句对应的依存关系真实标签计算误差，并根据所述误差更新所述依存句法模型中的模型参数以优化所述依存句法模型。

可选地，所述依存关系预测网络包括关系预测模块和关系类型预测模块，

所述采用所述依存关系预测网络对所述句子向量进行上层预测处理，得到所述训练语句对应的依存关系预测结果的步骤包括：

将所述句子向量输入所述关系预测模块进行预测，得到所述训练语句的关系预测结果，其中，所述关系预测结果表征所述训练语句中各个词之间是否存在依存关系；

采用所述关系类型预测模块基于所述句子向量和所述关系预测结果预测得到关系类型预测结果，将所述关系预测结果和所述关系类型预测结果作为依存关系预测结果，其中，所述关系类型预测结果表征所述训练语句中依存关系的类型。

可选地，所述关系预测模块包括第一多层感知机、第二多层感知机和双仿射变换网络，

所述将所述句子向量输入所述关系预测模块进行预测，得到所述训练语句的关系预测结果的步骤包括：

将所述句子向量分别输入所述第一多层感知机和第二多层感知机，对应得到第一句子特征向量和第二句子特征向量，其中，所述第一句子特征向量包括各个词作为依存关系头的特征向量，所述第二句子特征向量包括各个词作为依存关系尾的特征向量；

将所述第一句子特征向量和所述第二句子特征向量输入所述双仿射变换网络进行变换处理得到各个词的依存关系得分矩阵；

根据所述依存关系得分矩阵预测得到所述训练语句的关系预测结果。

可选地，所述根据所述依存关系得分矩阵预测得到所述训练语句的关系预测结果的步骤包括：

确定所述训练语句中各个词的备选依存关系组合，其中，各所述备选依存关系组合符合预设依存关系树条件；

根据所述依存关系得分矩阵分别计算各所述备选依存关系组合的得分；

选取得分最高的备选依存关系组合作为所述训练语句的关系预测结果。

对目标领域的文本训练集中的训练语句进行预处理操作，得到预处理后的训练语句；

采用所述预训练模型对预处理后的训练语句进行底层向量提取处理，得到所述训练语句中各个词对应的词向量。

可选地，所述对目标领域的文本训练集中的训练语句进行预处理操作，得到预处理后的训练语句的步骤包括：

对目标领域的文本训练集中的训练语句进行字符级切分，得到所述训练语句中的各个字；

将所述训练语句中各个字转换为对应预设的字编码后，将所述训练语句的长度转换为预设长度；

将转换后的训练语句添加上预设句首标签和预设句末标签，得到预处理后的训练语句。

为实现上述目的，本发明还提供一种依存句法模型优化装置，待优化的依存句法模型包括底层的预训练模型和上层的依存关系预测网络，所述预训练模型是采用领域无关的文本训练集训练得到，所述依存句法模型优化装置包括：

向量提取模块，采用所述预训练模型对目标领域的文本训练集中的训练语句进行底层向量提取处理，得到所述训练语句中各个词对应的词向量；

预测模块，用于采用所述依存关系预测网络对所述词向量进行上层预测处理，并对处理结果进行优化以优化所述依存句法模型。

为实现上述目的，本发明还提供一种依存句法模型优化设备，所述依存句法模型优化设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的依存句法模型优化程序，所述依存句法模型优化程序被所述处理器执行时实现如上所述的依存句法模型优化方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有依存句法模型优化程序，所述依存句法模型优化程序被处理器执行时实现如上所述的依存句法模型优化方法的步骤。

本发明中，通过设置包括底层预训练模型和上层依存关系预测网络的依存句法模型，采用预训练模型对目标领域的文本训练集中的训练语句进行底层向量提取处理，得到训练语句中各个词对应的词向量；采用依存关系预测网络对词向量进行上层预测处理，并对处理结果进行优化以优化依存句法模型。由于预训练模型是经过领域无关的训练语料(也即通用领域的训练语料)进行训练后得到的，其模型参数不是随机初始化的，而是包含了大量自然语言的语义信息，故本发明中将其用于特定领域的依存句法分析时，能够获得训练文本准确的向量表示，也即，相比于采用随机初始化的双向循环神经网络等模型来提取文本的向量表示，在训练之初预训练模型就能够为上层的依存关系预测网络提供方向性指导，从而能够提高模型预测的准确度，也就能够加快模型收敛速度，使得采用较少特定领域的训练数据也能够取得较好的预测结果，能够极大地减少标注工作量，降低标注成本，提高模型优化效率，进而使得依存句法模型可以低成本的应用于相关的下游自然语言处理任务。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明依存句法模型优化方法第一实施例的流程示意图；

图3为本发明实施例涉及的一种依存句法模型优化流程图；

图4为本发明实施例涉及的一种依存句法模型结构图；

图5为本发明依存句法模型优化装置较佳实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

需要说明的是，本发明实施例依存句法模型优化设备可以是智能手机、个人计算机和服务器等设备，在此不做具体限制。

如图1所示，该依存句法模型优化设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对依存句法模型优化设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及依存句法模型优化程序。其中，待优化的依存句法模型包括底层的预训练模型和上层的依存关系预测网络，预训练模型是采用领域无关的文本训练集训练得到。操作系统是管理和控制设备硬件和软件资源的程序，支持依存句法模型优化程序以及其它软件或程序的运行。

在图1所示的设备中，用户接口1003主要用于与客户端进行数据通信；网络接口1004主要用于与服务器建立通信连接；而处理器1001可以用于调用存储器1005中存储的依存句法模型优化程序，并执行以下操作：

进一步地，所述采用所述预训练模型对目标领域的文本训练集中的训练语句进行底层向量提取处理，得到所述训练语句中各个词对应的词向量的步骤包括：

进一步地，所述采用所述依存关系预测网络对所述词向量进行上层预测处理，并对处理结果进行优化以优化所述依存句法模型的步骤包括：

进一步地，所述依存关系预测网络包括关系预测模块和关系类型预测模块，

进一步地，所述关系预测模块包括第一多层感知机、第二多层感知机和双仿射变换网络，

进一步地，所述根据所述依存关系得分矩阵预测得到所述训练语句的关系预测结果的步骤包括：

进一步地，所述对目标领域的文本训练集中的训练语句进行预处理操作，得到预处理后的训练语句的步骤包括：

基于上述的结构，提出依存句法模型优化方法的各个实施例。

参照图2，图2为本发明依存句法模型优化方法第一实施例的流程示意图。

本发明实施例提供了依存句法模型优化方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。本发明依存句法模型优化方法各个实施例的执行主体可以是智能手机、个人计算机和服务器等设备，为便于描述，以下各实施例中省略执行主体进行阐述。在本实施例中，依存句法模型优化方法包括：

步骤S10，采用所述预训练模型对目标领域的文本训练集中的训练语句进行底层向量提取处理，得到所述训练语句中各个词对应的词向量；

在本实施例中，为解决现有的基于图的依存句法分析方法需要大量带标注的训练数据来训练模型，而数据标注难度大，成本高的问题，在基于图的依存句法分析方法基础上，提出一种依存句法模型，该依存句法模型包括底层的预训练模型和上层的依存关系预测网络。也即，现有基于图的依存句法分析方法中依存句法模型的底层模型一般采用双向循环神经网络等网络结构来实现，其模型参数是随机初始化的，在本实施例中，提出采用预训练模型来实现底层模型的功能。

其中，预训练模型是预先设置的自然语言处理领域的一种预训练模型，具体是哪一种在本实施例中不作限制，例如，可以是Bert、Roberta、AlBERT、XLNet等预训练模型。自然语言处理领域的预训练模型是采用领域无关的文本训练集(也即通用领域的文本训练集)进行训练得到的，用于对文本语句进行语义理解给出语义表示。在本实施例中，采用预训练模块来处理语句得到语句中各个词的词向量。依存关系预测网络可采用基于图的依存句法分析方法中常用的依存关系预测网络结构来实现，例如采用多层感知机(MLP)+双方射变换网络(Biaffine)，在本实施例中不作限制。

预先可采集用于训练依存句法模型的文本训练集。若依存句法模型应用于特定领域(目标领域)的文本依存句法分析，例如，应用于银行服务的专业话术领域，则可以采集一些该特定领域的语句作为训练语句。具体地，可从公开的数据库中获取已标注好的通用领域的训练数据集，再针对特定领域采集一些训练语句并进行标注得到特定领域的训练数据集，将两个训练数据集打乱，获得一个训练集，采用该训练集来对依存句法模型进行优化训练。

依存句法模型中预训练模型的模型参数是预先训练过的，依存关系预测网络中的模型参数则可以是随机或根据经验初始化的，优化依存句法模型就是要采用训练集对依存句法模型进行多轮迭代训练，不断更新依存句法模型的模型参数，也即更新预训练模型和依存关系预测网络中的模型参数。

在一轮优化训练中，首先采用预训练模型对文本训练集中的训练语句进行底层向量提取处理，得到训练语句中各个词对应的词向量。需要说明的是，文本训练集中包括大量的训练语句，对各个训练语句的处理逻辑是相同的，为描述方便，本发明各实施例以一个训练语句进行描述。一个训练语句是由多个词构成的，一个词可能由多个字构成，可采用预训练模型处理得到训练语句中各个字对应的向量表示，再将组成一个词的多个字的向量进行平均或拼接等操作，得到该词的向量表示，也即词向量。

步骤S20，采用所述依存关系预测网络对所述词向量进行上层预测处理，并对处理结果进行优化以优化所述依存句法模型。

采用依存关系预测网络对词向量进行上层预测处理，得到处理结果。具体地，处理结果可以是训练语句的依存关系预测结果。通过对处理结果进行优化来优化依存句法模型。具体地，可采用常用机器学习方法对处理结果进行优化。

在经过一轮优化训练后，依存句法模型中的模型参数得到了一次更新，以更新模型参数后的依存句法模型为基础，再采用训练集进行下一轮的优化训练，经过多轮迭代训练，直到检测到满足停止训练的条件时，结束训练，得到最终优化更新后的依存句法模型。其中，停止训练的条件可以是依存句法模型收敛，也可以是训练轮次达到一个预定的最大轮次，还可以是训练时长达到一个预定的最大时长，还可以是其他根据具体需要设置的停止条件。

进一步地，所述步骤S20包括：

步骤S201，将所述各个词各自的词向量和预设词性向量进行拼接，得到包括各个词的拼接结果的句子向量；

步骤S202，采用所述依存关系预测网络对所述句子向量进行上层预测处理，得到所述训练语句对应的依存关系预测结果；

步骤S203，根据所述依存关系预测结果和所述训练语句对应的依存关系真实标签计算误差，并根据所述误差更新所述依存句法模型中的模型参数以优化所述依存句法模型。

进一步可以增加各个词的词性作为依存关系预测网络的预测依据。具体地，预先标注了训练语句中各个词的词性，并对各种词性采用独热编码等编码方式进行编码，得到各种词性对应的词性向量，那么训练语句中各个词都对应一个词性向量。

在得到训练语句中各个词的词向量后，将各个词各自的词向量和预设词性向量进行拼接，得到各个词对应的拼接结果，将各个词的拼接结果作为一个句子向量，也即这个句子向量中包括了各个词的词向量与词性向量的拼接结果。采用依存关系预测网络对句子向量进行上层预测处理，得到训练语句对应的依存关系预测结果。依存关系预测网络依据各个词的词性和各个词的词向量中的语义信息，预测得到表征训练语句中各个词之间依存关系的依存关系预测结果。其中，一个依存关系存在两个词之间，其中一个词是依存关系头，另一个词是依存关系尾，依存关系尾在语法上依附于依存关系头。依存关系的类型有很多种，例如，主谓关系和动宾关系等。依存关系预测网络可以设置为用于预测语句中各个词之间是否存在依存关系，进一步地还可设置为用于预测依存关系的类型。那么，依存关系预测结果可以包括表征训练语句中各个词之间是否存在依存关系的结果，也可以进一步地包括表征训练语句中存在的依存关系是属于什么类型的依存关系的结果。

对依存关系预测结果进行优化的方式可采用有监督学习方法。具体地，预先标注了训练语句对应的依存关系真实标签，依存关系真实标签可以是包括表示训练语句中各个词之间是否存在依存关系的标签，进一步地，若要预测依存关系的类型，则依存关系真实标签还可包括表示存在的依存关系是属于什么类型的标签。也即，依存关系真实标签表示的是训练语句中真实的依存关系，而依存关系预测结果则是模型作出的预测，对依存句法模型的优化，即是要使得模型作出的依存关系预测结果与依存关系真实标签之间的误差尽可能小。那么，可根据训练语句的依存关系预测结果和依存关系真实标签计算误差，这里的误差可以采用常用的损失函数计算方式，根据误差按照反向传播算法更新依存句法模型中各个模型参数，具体的模型参数更新过程可参考现有的反向传播算法，在此不进行展开描述。通过更新各个模型参数，使得依存关系预测结果与依存关系真实标签之间的误差越来越小，从而优化了依存句法模型。

在得到最终优化更新后的依存句法模型后，可采用依存句法模型对需要进行依存句法分析的文本语句进行分析，预测得到文本语句中各个词之间的依存关系，进而可根据依存关系进行后续的自然语言处理任务，例如机器翻译等。

在本实施例中，通过设置包括底层预训练模型和上层依存关系预测网络的依存句法模型，采用预训练模型对目标领域的文本训练集中的训练语句进行底层向量提取处理，得到训练语句中各个词对应的词向量；采用依存关系预测网络对词向量进行上层预测处理，并对处理结果进行优化以优化依存句法模型。由于预训练模型是经过领域无关的训练语料(也即通用领域的训练语料)进行训练后得到的，其模型参数不是随机初始化的，而是包含了大量自然语言的语义信息，故本实施例中将其用于特定领域的依存句法分析时，能够获得训练文本准确的向量表示，也即，相比于采用随机初始化的双向循环神经网络等模型来提取文本的向量表示，在训练之初预训练模型就能够为上层的依存关系预测网络提供方向性指导，从而能够提高模型预测的准确度，也就能够加快模型收敛速度，使得采用较少特定领域的训练数据也能够取得较好的预测结果，能够极大地减少标注工作量，降低标注成本，提高模型优化效率，进而使得依存句法模型可以低成本的应用于相关的下游自然语言处理任务。

进一步地，基于上述第一实施例，提出本发明依存句法模型优化方法的第二实施例，在本实施例中，所述步骤S10包括：

步骤S101，采用所述预训练模型对目标领域的文本训练集中的训练语句进行底层向量提取处理，得到所述训练语句中各个字对应的字向量；

进一步地，在本实施例中，将目标领域的文本训练集中的训练语句输入预训练模型进行底层向量提取处理，得到训练语句中各个字对应的字向量。具体地，根据采用的预训练模型不同，模型内部的处理流程不同，在此不进行详细展开。

步骤S102，对于所述训练语句中的各个词，将组成所述词的各个字的字向量进行加权求和得到所述词对应的词向量，其中，所述依存句法模型中的模型参数包括所述训练语句中各个字对应的权重。

预先标注了训练语句中包含的各个词，将组成一个词的各个字的字向量进行加权求和得到该词对应的词向量，如此得到各个词的词向量。其中，在优化开始之前，各个字对应的权重可以是随机初始化的，在优化更新过程中，将各个字的权重是作为依存句法模型的模型参数的，也即，在优化更新时除了要更新依存句法模型中预训练模型和依存关系预测网络本有的模型参数外，还需要优化更新各个字对应的权重。

在本实施例中，考虑到文本中组成词的各个字对依存关系预测所起的贡献是不同的，若直接对各个字的字向量采用平均或拼接的方法得到词向量，则忽视了这种贡献度，在本实施例中，将各个字的贡献度大小也作为依存关系预测的一个依据，也即，将各个字的字向量采用加权求和的方式来获得词向量，并将各个字对应的权重也作为模型参数，随着模型优化而优化，从而使得模型能够准确地提取出文本中组成词的各个字对依存关系预测的贡献度大小，进而能够依据贡献度来进行依存关系预测，丰富了预测依据，从而提高了预测准确度，更加符合自然语言的规律。

进一步地，在一实施方式中，所述步骤S10：

步骤S103，对目标领域的文本训练集中的训练语句进行预处理操作，得到预处理后的训练语句；

对目标领域的文本训练数据集中的训练语句进行预处理操作，得到预处理后的训练语句。其中，采用的预训练模型不同，预处理操作不同，以使得预处理后的训练语句符合预训练模型的输入数据的数据格式。例如，预训练模型的输入数据需要是定长的，各个训练语句的长度可能不一，则需要将各个训练语句都转换为固定长度。

步骤S104，采用所述预训练模型对预处理后的训练语句进行底层向量提取处理，得到所述训练语句中各个词对应的词向量。

将预处理后的训练语句输入预训练模型进行底层向量提取处理，也即，通过预训练模型对预处理后的训练语句进行语义理解，得到训练语句中各个词对应的词向量。具体可以是按照S101和S102的处理步骤来对预处理后的训练语句进行处理得到各个词对应的词向量。

在本实施例中，通过对目标领域的文本训练集中的各个训练语句进行预处理操作，再将预处理后的训练语句输入预训练模型进行处理，使得模型基于格式统一的训练语句能够获得更加准确的预测结果，进而缩短训练优化的时长，提高优化效率。

在一实施方式中，可按照如图3所示的优化流程来优化依存句法模型。

进一步地，所述步骤S103包括：

步骤S1031，对目标领域的文本训练集中的训练语句进行字符级切分，得到所述训练语句中的各个字；

在一实施方式中，当预训练模型是Bert模型时，可对目标领域的文本训练集中的训练语句进行字符级切分，得到训练语句中的各个字。例如，当训练语句是中文文本时，字符级切分即切分为一个个汉字，一个汉字即一个字；当训练语句是英文文本时，字符级切分可以是切分为一个个单词，也可以是比单词更小的元素，一个元素即一个字。

步骤S1032，将所述训练语句中各个字转换为对应预设的字编码后，将所述训练语句的长度转换为预设长度；

将训练语句中各个字转换为对应预设的字编码。其中，预先对字典中的字进行了编码，每个字对应一个字编码，也即ID编号；对训练语句中的各个字，查找到该字对应的字编码，将该字转换为对应的字编码，也即后续操作都在字编码上进行。

将转换字编码后的训练语句转换为预设长度，也即各个训练语句的长度都转换为固定的预设长度。其中，预设长度是预先设置的；若训练语句的长度大于该预设长度，则对训练语句多余的部分进行截断，若训练语句的长度小于预设长度，则对训练语句不足的部分用“0”补齐。

步骤S1033，将转换后的训练语句添加上预设句首标签和预设句末标签，得到预处理后的训练语句。

将转换后的训练语句添加上预设句首标签和预设句末标签，得到预处理后的训练语句。其中，预设句首标签和预设句末标签是预先根据需要进行设置的，例如，句首标签为[CLS]，句末标签为[SEP]。在得到预处理后的训练语句后，即可将预处理后的训练语句输入Bert模型进行处理，得到各个词的词向量。

进一步地，基于上述第一和/或第二实施例，提出本发明依存句法模型优化方法的第三实施例，在本实施例中，所述步骤S202：

步骤S2021，将所述句子向量输入所述关系预测模块进行预测，得到所述训练语句的关系预测结果，其中，所述关系预测结果表征所述训练语句中各个词之间是否存在依存关系；

在本实施例中，依存关系预测网络包括关系预测模块和关系类型预测模块，其中，关系预测模块用于预测训练语句中的各个词之间是否存在依存关系，关系类型预测模块用于预测训练语句中的依存关系的类型。具体地，关系预测模块和关系类型预测模块可采用都可采用MPL+Biaffine来实现，即两个模块内部结构可以设置得相同，关系预测模块的输出设置为表示是否存在关系的标签，关系类型预测模块的输出设置为表示关系类型的标签，两个模块通过不同的误差来进行优化。

将句子向量输入关系预测模块进行预测，得到训练语句的关系预测结果。其中，关系预测结果表征训练语句中各个词之间是否存在依存关系。具体地，两个词之间的依存关系有两种，一种是此依附于彼，一种是彼依附于此；那么，关系预测结果可以是一个得分矩阵，包括训练语句中任意两个词之间的两个概率，分别表示这两个词之间存在该两种依存关系的可能性。

步骤S2022，采用所述关系类型预测模块基于所述句子向量和所述关系预测结果预测得到关系类型预测结果，将所述关系预测结果和所述关系类型预测结果作为依存关系预测结果，其中，所述关系类型预测结果表征所述训练语句中依存关系的类型。

在得到关系预测结果后，采用关系类型预测模块基于该句子向量和关系预测结果预测得到关系类型预测结果。具体地，关系类型预测结果也可以是一个得分矩阵，包括训练语句中任意两个词之间的2*N个概率，N个概率分别表示这两个词之间存在n类型的依存关系的可能性，其中，N是依存关系的类型总数，n是类型标号。关系类型预测模块是在依据句子向量进行关系类型预测的基础上，也以关系预测结果为依据进行预测，也即，关系预测结果影响关系类型预测结果，例如，关系预测结果中A依附于B的依存关系的概率很小，则对应地，关系类型预测结果中，A依附于B的N个概率都很小，表示A依附于B的依存关系不属于任何关系类型，也即不存在A依附于B的依存关系。

需要说明的是，在优化训练过程中，关系预测结果和关系类型预测结果是概率形式，在训练结束后，采用依存句法模型进行依存句法分析时，可依据概率形式的关系预测结果和关系类型预测结果进一步得到直接的确定性结果，即直接给出哪些词之间存在哪种类型的依存关系。

进一步地，在一实施方式中，所述步骤S2021包括：

步骤a，将所述句子向量分别输入所述第一多层感知机和第二多层感知机，对应得到第一句子特征向量和第二句子特征向量，其中，所述第一句子特征向量包括各个词作为依存关系头的特征向量，所述第二句子特征向量包括各个词作为依存关系尾的特征向量；

在本实施例中，如图4所示，关系预测模块包括第一多层感知机(MLP1)、第二多层感知机(MLP2)和双仿射变换网络。MLP1用于提取句子向量中各个词作为依存关系头的特征向量，MLP2用于提取句子向量中各个词作为依存关系尾的特征向量。

那么，在得到训练语句对应的句子向量后，可将句子向量分别MLP1和MLP2。MLP1对句子向量进行特征提取后输出得到第一句子特征向量，包括各个词作为依存关系头的特征向量。MLP2对句子向量进行特征提取后输出得到第二句子特征向量，包括各个词作为依存关系尾的特征向量。

步骤b，将所述第一句子特征向量和所述第二句子特征向量输入所述双仿射变换网络进行变换处理得到各个词的依存关系得分矩阵；

将第一句子特征向量和第二句子特征向量输入双方射变换网络中进行变换处理，得到各个词的依存关系得分矩阵。其中，变换处理过程可参考现有的双方射变换网络的处理过程，在此不进行详细赘述。依存关系得分矩阵是一个M*M的矩阵，那么依存关系矩阵中的元素Score(i<—j)表示第i个词作为依存关系头，第j个词作为依存关系尾时，这两个词之间存在依存关系的概率，也即，第j个词依附于第i个词的概率。其中，M表示的是训练语句中词的个数，0<i≤M，0<j≤M。

步骤c，根据所述依存关系得分矩阵预测得到所述训练语句的关系预测结果。

在得到依存关系得分矩阵后，可根据预存关系得分矩阵预测得到训练语句的关系预测结果。具体地，在优化训练阶段，可以直接将依存关系得分矩阵作为关系预测结果；也可以将依存关系得分矩阵转换为确定性的结果，将确定性的结果作为关系预测结果，也即，关系预测结果直接表示哪些词之间存在依存关系；具体可采用最大生成树算法来基于依存关系得分矩阵生成确定性的关系预测结果。

进一步地，所述步骤c包括：

步骤c1，确定所述训练语句中各个词的备选依存关系组合，其中，各所述备选依存关系组合符合预设依存关系树条件；

在一实施方式中，可确定训练语句中各个词之间符合预设依存关系树条件的备选依存关系组合。其中，预设依存关系树条件是预先根据需要设置的。例如，条件可包括：每个词只能依附于一个词；各个词之间的依附关系不能形成闭环，等等。找出符合这些条件的备选依存关系组合，例如，有三个词i、j和k，则一个备选依存关系组合是：i依附于j，j依附于k。

步骤c2，根据所述依存关系得分矩阵分别计算各所述备选依存关系组合的得分；

根据依存关系得分矩阵分别计算各个备选依存关系组合的得分。具体地，备选依存关系组合中包括多个依存关系，在依存关系得分矩阵中去查找各个依存关系对应的得分(也即概率)，将各个得分相加或者相乘，得到该备选依存关系组合的得分。例如，有备选依存关系组合：i依附于j，j依附于k，则从依存关系得分矩阵中查找到Score(j<—i)和Score(k<—j)，将两个得分相加或相乘，得到该备选依存关系组合的得分。

步骤c3，选取得分最高的备选依存关系组合作为所述训练语句的关系预测结果。

从各个备选依存关系组合中选取得分最高的备选依存关系组合作为训练语句的关系预测结果。例如，备选依存关系组合有两组(实际场景中不止两组)：i依附于j，j依附于k；k依附于j，j依附于i。计算得到其中第一组的得分最高，则将第一组作为训练语句的关系预测结果。

进一步地，在一实施方式中，关系类型预测模块也可包括两个MLP和一个Biaffine，与关系预测模块中的MLP和Biaffine的模型参数是分开优化的。通过关系类型预测模块中的MLP和Biaffine对句子向量进行处理，而关系预测结果可设置为作为一个特征输入关系类型预测模块的任意一个隐藏层，以指导关系类型的预测。关系类型预测模块输出得到一个关系类型得分矩阵，这个矩阵也是M*M，元素Score(i<—j)是一个N个元素的向量，向量中的元素n表示第j个词依附于第i个词且依存关系类型是n类型的概率。

此外，此外本发明实施例还提出一种依存句法模型优化装置，待优化的依存句法模型包括底层的预训练模型和上层的依存关系预测网络，所述预训练模型是采用领域无关的文本训练集训练得到，参照图5，所述依存句法模型优化装置包括：

向量提取模块10，采用所述预训练模型对目标领域的文本训练集中的训练语句进行底层向量提取处理，得到所述训练语句中各个词对应的词向量；

预测模块20，用于采用所述依存关系预测网络对所述词向量进行上层预测处理，并对处理结果进行优化以优化所述依存句法模型。

进一步地，所述向量提取模块10包括：

处理单元，用于采用所述预训练模型对目标领域的文本训练集中的训练语句进行底层向量提取处理，得到所述训练语句中各个字对应的字向量；

计算单元，用于对于所述训练语句中的各个词，将组成所述词的各个字的字向量进行加权求和得到所述词对应的词向量，其中，所述依存句法模型中的模型参数包括所述训练语句中各个字对应的权重。

进一步地，所述预测模块20包括：

拼接单元，用于将所述各个词各自的词向量和预设词性向量进行拼接，得到包括各个词的拼接结果的句子向量；

预测单元，用于采用所述依存关系预测网络对所述句子向量进行上层预测处理，得到所述训练语句对应的依存关系预测结果；

优化单元，用于根据所述依存关系预测结果和所述训练语句对应的依存关系真实标签计算误差，并根据所述误差更新所述依存句法模型中的模型参数以优化所述依存句法模型。

所述预测单元包括：

第一预测子单元，用于将所述句子向量输入所述关系预测模块进行预测，得到所述训练语句的关系预测结果，其中，所述关系预测结果表征所述训练语句中各个词之间是否存在依存关系；

第二预测子单元，用于采用所述关系类型预测模块基于所述句子向量和所述关系预测结果预测得到关系类型预测结果，将所述关系预测结果和所述关系类型预测结果作为依存关系预测结果，其中，所述关系类型预测结果表征所述训练语句中依存关系的类型。

所述第一预测子单元还用于：将所述句子向量分别输入所述第一多层感知机和第二多层感知机，对应得到第一句子特征向量和第二句子特征向量，其中，所述第一句子特征向量包括各个词作为依存关系头的特征向量，所述第二句子特征向量包括各个词作为依存关系尾的特征向量；

进一步地，所述第一预测子单元还用于：

进一步地，所述向量提取模块10包括：

预处理单元，用于对目标领域的文本训练集中的训练语句进行预处理操作，得到预处理后的训练语句；

提取单元，用于采用所述预训练模型对预处理后的训练语句进行底层向量提取处理，得到所述训练语句中各个词对应的词向量。

进一步地，所述预处理单元包括：

切分子单元，用于对目标领域的文本训练集中的训练语句进行字符级切分，得到所述训练语句中的各个字；

转换子单元，用于将所述训练语句中各个字转换为对应预设的字编码后，将所述训练语句的长度转换为预设长度；

添加子单元，用于将转换后的训练语句添加上预设句首标签和预设句末标签，得到预处理后的训练语句。

本发明依存句法模型优化装置的具体实施方式的拓展内容与上述依存句法模型优化方法各实施例基本相同，在此不做赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述存储介质上存储有依存句法模型优化程序，所述依存句法模型优化程序被处理器执行时实现如下所述的依存句法模型优化方法的步骤。

本发明依存句法模型优化设备和计算机可读存储介质的各实施例，均可参照本发明依存句法模型优化方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种依存句法模型优化方法，其特征在于，待优化的依存句法模型包括底层的预训练模型和上层的依存关系预测网络，所述预训练模型是采用领域无关的文本训练集训练得到，所述依存句法模型优化方法包括以下步骤：

2.如权利要求1所述的依存句法模型优化方法，其特征在于，所述采用所述预训练模型对目标领域的文本训练集中的训练语句进行底层向量提取处理，得到所述训练语句中各个词对应的词向量的步骤包括：

3.如权利要求1所述的依存句法模型优化方法，其特征在于，所述采用所述依存关系预测网络对所述词向量进行上层预测处理，并对处理结果进行优化以优化所述依存句法模型的步骤包括：

4.如权利要求3所述的依存句法模型优化方法，其特征在于，所述依存关系预测网络包括关系预测模块和关系类型预测模块，

5.如权利要求4所述的依存句法模型优化方法，其特征在于，所述关系预测模块包括第一多层感知机、第二多层感知机和双仿射变换网络，

6.如权利要求5所述的依存句法模型优化方法，其特征在于，所述根据所述依存关系得分矩阵预测得到所述训练语句的关系预测结果的步骤包括：

7.如权利要求1至6任一项所述的依存句法模型优化方法，其特征在于，所述采用所述预训练模型对目标领域的文本训练集中的训练语句进行底层向量提取处理，得到所述训练语句中各个词对应的词向量的步骤包括：

8.如权利要求7所述的依存句法模型优化方法，其特征在于，所述对目标领域的文本训练集中的训练语句进行预处理操作，得到预处理后的训练语句的步骤包括：

9.一种依存句法模型优化装置，其特征在于，待优化的依存句法模型包括底层的预训练模型和上层的依存关系预测网络，所述预训练模型是采用领域无关的文本训练集训练得到，所述依存句法模型优化装置包括：

10.一种依存句法模型优化设备，其特征在于，所述依存句法模型优化设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的依存句法模型优化程序，所述依存句法模型优化程序被所述处理器执行时实现如权利要求1至8中任一项所述的依存句法模型优化方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有依存句法模型优化程序，所述依存句法模型优化程序被处理器执行时实现如权利要求1至8中任一项所述的依存句法模型优化方法的步骤。