CN112800754A

CN112800754A - 基于预训练语言模型的无监督语法推导方法、装置和介质

Info

Publication number: CN112800754A
Application number: CN202110102374.4A
Authority: CN
Inventors: 孙晓飞; 韩庆宏
Original assignee: Zhejiang Xiangnong Huiyu Technology Co ltd
Current assignee: Zhejiang Xiangnong Huiyu Technology Co ltd
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-05-14
Anticipated expiration: 2041-01-26

Abstract

本发明公开了一种基于预训练语言模型的无监督语法推导方法、装置及存储介质，属于语言处理领域。该方法包括：利用预训练语言模型得到给定句子中每个词的特征表示；根据特征表示计算得到给定句子中每相邻两个词之间的语法距离；根据语法距离得到给定句子的语法树。本发明的应用通过利用现有预训练语言模型进行无监督式语法推导，将给定的句子组织为一棵语法树，避免额外标注数据以及人工设计新语言模型，降低了训练开销。

Description

基于预训练语言模型的无监督语法推导方法、装置和介质

技术领域

本申请涉及语言处理技术领域，特别是一种基于预训练语言模型的无监督语法推导方法、装置、存储介质及设备。

背景技术

语法推导是将给定的句子组织为一棵语法树的任务，或者对句子中的每个字赋予语法成分标签，如名词、限定词、动词、形容词等等。过去的做法大致分为两种：有监督的或无监督的。有监督的方法就是通过训练事先标注好的数据，让模型学习其中的语法规则。而无监督的方法，就是直接从无标注的语料中学习语法规则，这种无监督的方法大都需要非常巧妙、特殊的模型结构设计，才能实现比较好的效果。

因此无监督式语法推导虽然无需标注数据但需要人工设计新语言训练模型达到语法推导目的，而有监督式语法推导不仅需要标注数据而且需要利用特定的语言训练模型达到语法推导目的。无论是有监督的方法，还是无监督的方法，都需要在特定的语言训练模型上训练，这就会或多或少导致训练的开销。

发明内容

本发明提供一种基于预训练语言模型的无监督语法推导方法、装置、存储介质及设备，通过利用现有预训练语言模型进行无监督式语法推导，将给定的句子组织为一棵语法树，避免额外标注数据以及人工设计新语言模型，降低了训练开销。

为了解决上述问题，本发明采用的一个技术方案是：提供一种基于预训练语言模型的无监督语法推导方法，其包括：利用预训练语言模型得到给定句子中每个词的特征表示；根据特征表示计算得到给定句子中每相邻两个词之间的语法距离；以及根据语法距离得到给定句子的语法树。

本发明采用的另一个技术方案是：提供一种基于预训练语言模型的无监督语法推导装置，其包括：用于利用预训练语言模型得到给定句子中每个词的特征表示的模块；用于根据特征表示计算得到给定句子中每相邻两个词之间的语法距离的模块；用于根据语法距离得到给定句子的语法树的模块。

在本申请的另一个技术方案中，提供一种计算机可读存储介质，其存储有计算机指令，其中计算机指令被操作以执行方案中的基于预训练语言模型的无监督语法推导方法。

在本申请的另一技术方案中，提供一种计算机设备，其包括处理器和存储器，存储器存储有计算机指令，其中，处理器操作计算机指令以执行方案一中的基于预训练语言模型的无监督语法推导方法。

本申请技术方案可以达到的有益效果是：利用现有预训练语言模型进行无监督式语法推导，将给定的句子组织为一棵语法树，避免额外标注数据以及人工设计新语言模型，降低了训练开销。

附图说明

图1为本发明一种基于预训练语言模型的无监督语法推导方法一个实施方式的示意图；

图2为本发明一种基于预训练语言模型的无监督语法推导装置另一个实施方式的示意图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

现有技术中，无监督式语法推导虽然无需标注数据但需要人工设计新语言训练模型达到语法推导目的，而有监督式语法推导不仅需要标注数据而且需要利用特定的语言训练模型达到语法推导目的。无论是有监督的方法，还是无监督的方法，都需要在特定的语言训练模型上训练，这就会或多或少导致训练的开销。

针对上述现有技术中存在的问题，本申请提出一种基于预训练语言模型的无监督语法推导方法，此方法利用现有预训练语言模型进行无监督式语法推导，将给定的句子组织为一棵语法树，避免额外标注数据以及人工设计新模型，降低了训练开销。

图1所示为本发明一种基于预训练语言模型的无监督语法推导方法一个实施方式的示意图。

在该具体实施方式中，本申请的基于预训练语言模型的无监督语法推导方法包括：过程S101：利用预训练语言模型得到给定句子中每个词的特征表示；过程S102：根据特征表示计算得到给定句子中每相邻两个词之间的语法距离；过程S103：根据语法距离得到给定句子的语法树。

在图1所示的具体实施方式中，本申请的基于预训练语言模型的无监督语法推导方法包括过程S101：利用预训练语言模型得到给定句子中每个词的特征表示。

在本申请的一个具体实施例中，上述利用预训练语言模型得到给定句子中每个词的特征表示的过程包括：预训练语言模型为现有预训练语言模型，此过程避免人工设计新语言模型，降低了训练开销。

在本申请的一个具体实施例中，上述利用预训练语言模型得到给定句子中每个词的特征表示的过程包括：特征表示包括对给定句子中每个词的语法进行表示，此过程进行无监督式语法推导，避免额外标注数据。

在本申请的一个具体实例中，上述利用现有预训练语言模型得到给定句子中每个词的特征表示的过程包括：将给定句子S＝W₁，W₂，W₃……W_n输入从互联网上获取的现有预训练语言模型f中，得到每个词的特征表示f(W₁)，f(W₂)，f(W₃)……f(W_n)。其中f(W₁)，f(W₂)，f(W₃)……f(W_n)包括对给定句子S中对应的W₁，W₂，W₃……W_n的语法进行表示。

在本申请的一个具体实例中，上述利用现有预训练语言模型得到给定句子中每个词的特征表示的过程包括：当给定句子S₁＝cat，is，cute，得到每个词的特征表示f(cat)，f(is)，f(cute)，其中f(cat)，f(is)，f(cute)包括给定句子S₁中对应的cat，is，cute的语法特征。

在本申请的一个具体实例中，上述利用现有预训练语言模型得到给定句子中每个词的特征表示的过程包括：设给定句子S₂＝A，B，C，D，E，F，G得到每个词的特征表示f(A)，f(B)，f(C)，f(D)，f(E)，f(F)，f(G)，其中f(A)，f(B)，f(C)，f(D)，f(E)，f(F)，f(G)包括给定句子S₂中对应的A，B，C，D，E，F，G的语法特征。

在图1所示的具体实施方式中，本申请的基于预训练语言模型的无监督语法推导方法包括过程S102：根据特征表示计算得到给定句子中每相邻两个词之间的语法距离。

在本申请的一个具体实施例中，上述根据特征表示计算得到给定句子中每相邻两个词之间的语法距离的过程包括：根据特征表示利用余弦函数计算得到给定句子中每相邻两个词之间的语法距离，此过程便于进一步将给定的句子组织为一棵语法树。

在本申请的一个具体实例中，上述根据特征表示利用余弦函数计算得到给定句子中每相邻两个词之间的语法距离的过程包括，使用预训练语言模型f中的余弦函数计算给定句子S中每相邻两个词的语法距离，根据特征表示计算得出的给定句子S中每相邻两个词之间的语法距离为d＝(d₁，d₂，d₃……d_n-1)，此处的语法距离计算公式为：

在上述公式中，d_i表示词W_i和词W_i+1之间的语法距离，此语法距离用来度量词W_i与词W_i+1在语法树上的距离，这个值越大，则它们在语法树上的距离就越远。

在本申请的一个具体实例中，上述根据特征表示利用余弦函数计算得到给定句子中每相邻两个词之间的语法距离的过程包括，将给定句子S₁＝cat，is，cute中每个词的特征表示f(cat)，f(is)，f(cute)带入上述公式进行计算得到的语法距离d₁＝(0.1，0.7)。

在本申请的一个具体实例中，上述根据特征表示利用余弦函数计算得到给定句子中每相邻两个词之间的语法距离的过程包括，将给定句子S₂＝A，B，C，D，E，F，G中每个词的特征表示f(A)，f(B)，f(C)，f(D)，f(E)，f(F)，f(G)带入上述公式进行计算得到的语法距离d₂＝(0.4，0.5，0.8，0.5，0.8，0.2)。

在图1所示的具体实施方式中，本申请的基于预训练语言模型的无监督语法推导方法包括过程S103：根据语法距离得到给定句子的语法树。

在本申请的一个具体实施例中，上述根据语法距离得到给定句子的语法树的过程包括，根据语法距离确定当前划分节点，利用当前划分节点得到给定句子的语法树，此过程便于进一步将给定的句子组织为一棵语法树。

在本申请的一个具体实施例中，上述根据语法距离确定当前划分节点的过程包括，将给定句子或者给定句子中的部分内容对应的语法距离中最大的语法距离确定为当前划分节点，此过程便于进一步将给定的句子组织为一棵语法树。

在本申请的一个具体实例中，上述将给定句子或者给定句子中的部分内容对应的语法距离中最大的语法距离确定为当前划分节点的过程包括，根据过程S102计算得到的给定句子S₁＝cat，is，cute中每相邻两个词的语法距离d₁＝(0.1，0.7)，得出最大的语法距离为0.7，此最大的语法距离为0.7表示词i_s与词cute在语法树上的距离，将0.7确定为当前划分节点。

在本申请的一个具体实例中，上述将给定句子或者给定句子中的部分内容对应的语法距离中最大的语法距离确定为当前划分节点的过程包括，根据过程S102计算得到的给定句子S₂＝A，B，C，D，E，F，G中每相邻两个词的语法距离d₂＝(0.4，0.5，0.8，0.5，0.8，0.2)，得出最大的语法距离为0.8，此最大的语法距离为0.8表示词C与词D以及词E与词F在语法树上的距离，将0.8确定为当前划分节点，利用当前划分节点完成第一次划分后更新当前划分节点为0.5，多次更新当前划分节点直至当前划分节点为最小的语法距离0.2完成确定当前划分节点工作。

在本申请的一个具体实施例中，上述利用当前划分节点得到给定句子的语法树的过程包括，根据当前划分节点，将给定句子或者给定句子中的部分内容划分为当前左子树以及当前右子树，此过程便于进一步将给定的句子组织为一棵语法树。

在本申请的一个具体实例中，上述根据当前划分节点，将给定句子或者给定句子中的部分内容划分为左子树以及右子树的过程包括，根据上述实例中确定的给定句子S₁＝cat，is，cute的当前划分节点0.7，将给定句子S₁＝cat，is，cute划分为当前左子树以及当前右子树。当前左子树包括cat，is，当前右子树包括cute，将其划分好的当前左子树以及当前右子树进行树状排列即可得到给定句子S₁＝cat，is，cute的语法树，完成语法推导工作。

在本申请的一个具体实例中，上述根据当前划分节点，将给定句子或者给定句子中的部分内容划分为左子树以及右子树的过程包括，根据上述实例中确定的给定句子S₂＝A，B，C，D，E，F，G的当前划分节点0.8，将给定句子S₂＝A，B，C，D，E，F，G划分为当前左子树以及当前右子树。第一次划分为当前划分节点为0.8时，当前第一左子树包括A，B，C，当前第一右子树包括D，E，当前第二左子树与当前第一右子树重合，当前第二右子树包括F，G；第二次划分为当前划分节点为0.5时，当前第一左子树包括A，B，当前第一右子树包括C，当前第二左子树包括D，当前第二右子树包括E；第三次划分为当前划分节点为0.4时，当前左子树包括A，当前右子树包括B；第四次划分为当前划分节点为0.2时，当前左子树包括F，当前右子树包括G。将其划分好的当前左子树以及当前右子树进行树状排列即可得到给定句子S₂＝A，B，C，D，E，F，G的语法树，完成语法推导工作。

图2所示为本发明一种基于预训练语言模型的无监督语法推导装置另一个实施方式的示意图。

在该具体实施方式中基于预训练语言模型的无监督语法推导装置主要包括：模块201：用于利用预训练语言模型得到给定句子中每个词的特征表示；模块202：用于根据特征表示计算得到给定句子中每相邻两个词之间的语法距离；模块203：用于根据语法距离得到给定句子的语法树。

在本申请的一个具体实施例中，上述模块201利用预训练语言模型得到给定句子中每个词的特征表示的工作内容包括，预训练语言模型为现有预训练语言模型，此过程避免人工设计新语言模型，降低了训练开销。

在本申请的一个具体实施例中，上述模块201利用预训练语言模型得到给定句子中每个词的特征表示的工作内容包括，特征表示包括对给定句子中每个词的语法进行表示，此过程进行无监督式语法推导，避免额外标注数据。

在本申请的一个具体实施例中，上述模块202根据特征表示计算得到给定句子中每相邻两个词之间的语法距离的工作内容包括，根据特征表示利用余弦函数计算得到给定句子中每相邻两个词之间的语法距离，此过程便于进一步将给定的句子组织为一棵语法树。

在本申请的一个具体实施例中，上述模块203根据语法距离得到给定句子的语法树的工作内容包括，根据语法距离确定当前划分节点，利用当前划分节点得到给定句子的语法树，此过程便于进一步将给定的句子组织为一棵语法树。

在本申请的一个具体实例中，上述根据语法距离确定当前划分节点的过程包括，将给定句子或者给定句子中的部分内容对应的语法距离中最大的语法距离确定为当前划分节点，此过程便于进一步将给定的句子组织为一棵语法树。

在本申请的一个具体实例中，上述利用当前划分节点得到给定句子的语法树的过程包括，根据当前划分节点，将给定句子或者给定句子中的部分内容划分为当前左子树以及当前右子树，此过程便于进一步将给定的句子组织为一棵语法树。

本发明提供的一种基于预训练语言模型的无监督语法推导装置，可用于执行上述任一实施例描述的基于预训练语言模型的无监督语法推导方法，其实现原理和技术效果类似，在此不再赘述。

在本发明的另一个具体实施方式中，一种计算机可读存储介质，其存储有计算机指令，其特征在于，计算机指令被操作以执行任一实施例描述的基于预训练语言模型的无监督语法推导方法。其中，该存储介质可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。

软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器，使得处理器可从存储介质读取信息和向存储介质写入信息。

处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)、现场可编程门阵列(英文：Field Programmable Gate Array，简称：FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器，但在替代方案中，处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中，存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中，处理器和存储介质可作为离散组件驻留在用户终端中。

在本申请的一个具体实施方式中，一种计算机设备，其包括处理器和存储器，存储器存储有计算机指令，其中：处理器操作计算机指令以执行任一实施例描述的基于预训练语言模型的无监督语法推导方法。

在本申请所提供的实施方式中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于预训练语言模型的无监督语法推导方法，其特征在于，包括：

利用预训练语言模型得到给定句子中每个词的特征表示；

根据所述特征表示计算得到所述给定句子中每相邻两个词之间的语法距离；

根据所述语法距离得到所述给定句子的语法树。

2.如权利要求1所述的基于预训练语言模型的无监督语法推导方法，其特征在于，所述根据所述语法距离得到所述给定句子的语法树的过程包括：

根据所述语法距离确定当前划分节点，利用所述当前划分节点得到所述给定句子的语法树。

3.如权利要求2所述的基于预训练语言模型的无监督语法推导方法，其特征在于，所述根据所述语法距离确定当前划分节点的过程包括，

将所述给定句子或者所述给定句子中的部分内容对应的所述语法距离中最大的所述语法距离确定为所述当前划分节点。

4.如权利要求2所述的基于预训练语言模型的无监督语法推导方法，其特征在于，所述利用所述当前划分节点得到所述给定句子的语法树的过程包括，

根据所述当前划分节点，将所述给定句子或者所述给定句子中的部分内容划分为当前左子树以及当前右子树。

5.如权利要求1所述的基于预训练语言模型的无监督语法推导方法，其特征在于，所述特征表示包括对所述给定句子中每个词的语法进行表示。

6.如权利要求1所述的基于预训练语言模型的无监督语法推导方法，其特征在于，所述预训练语言模型为现有预训练语言模型。

7.如权利要求1所述的基于预训练语言模型的无监督语法推导方法，其特征在于，所述根据所述特征表示计算得到所述给定句子中每相邻两个词之间的语法距离的过程包括，

根据所述特征表示利用余弦函数计算得到所述给定句子中每相邻两个词之间的语法距离。

8.一种基于预训练语言模型的无监督语法推导装置，其特征在于：

用于利用预训练语言模型得到给定句子中每个词的特征表示的模块；

用于根据所述特征表示计算得到所述给定句子中每相邻两个词之间的语法距离的模块；

用于根据所述语法距离得到所述给定句子的语法树的模块。

9.一种计算机可读存储介质，其存储有计算机指令，其特征在于，所述计算机指令被操作以执行权利要求1～7中任一项所述的基于预训练语言模型的无监督语法推导方法。

10.一种计算机设备，其包括处理器和存储器，所述存储器存储有计算机指令，其中，所述处理器操作所述计算机指令以执行权利要求1～7任一项所述的基于预训练语言模型的无监督语法推导方法。