CN108628834A

CN108628834A - 一种基于句法依存关系的词语表示学习方法

Info

Publication number: CN108628834A
Application number: CN201810453946.1A
Authority: CN
Inventors: 王丽宏; 贺敏; 李晨; 毛乾任
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2018-05-14
Filing date: 2018-05-14
Publication date: 2018-10-09
Anticipated expiration: 2038-05-14
Also published as: CN108628834B

Abstract

本发明提出的一种基于句法依存关系的词语表示学习方法，在对语料库进行训练时引入句法依存关系，能够去除语料中不同语言背景及语言现象等信息带来的对语境组成的影响，使得词语表示学习训练模型对输入语料库中存在的个人特征更加不敏感，有效提升了训练速度与效果。

Description

一种基于句法依存关系的词语表示学习方法

技术领域

本发明实施例涉及自然语言处理技术领域，具体涉及一种基于句法依存关系的词语表示学习方法。

背景技术

近年来，神经网络语言模型(NNLMs)因其相比传统的词汇表示更简洁的表示形式和综合性能，吸引了大量的关注，且神经网络语言模型开始被应用到诸如词的相似性/相关性的许多自然语言处理任务，比如词性标注和分块，命名实体识别等。

NNLMs的训练通常是基于给定语料库，将一组词向量嵌入到高维空间，然后应用到下游的任务。现有的语言学习方法训练所使用的语料库普遍来源于互联网上的海量文本数据，这些数据在训练前被处理为不带标点的连续文本。这样做虽然能够大幅降低语料的成本，但由于当今数据爆炸的互联网环境中，文本数据的来源广泛，作者更是文化、教育、生活背景差异巨大。将来源、作者等信息均存在差异的文本以统一的形式进行处理与分析必定会存在着较大的问题，文本规范性、书写习惯等问题使得训练时模型收敛较慢且训练所得产品使用效果稍差。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本发明实施例提供了一种基于句法依存关系的词语表示学习方法。

有鉴于此，第一方面，本发明实施例提供一种基于句法依存关系的词语表示学习方法，包括：

获取语料库；

将语料库输入到依存句法解析器，生成依存句法树；

根据依存句法树获取多阶依存语境；

将所述多阶依存语境输入预先构建的词语表示学习训练模型进行学习训练，得到语料库对应的包含依存关系的词向量。

根据依存句法树获取多阶依存语境，包括：

在依存句法树上进行搜索得到每个词对应的语境；

根据词的词频计算语境窗口长度；

对语境中的候选词进行打分；

根据语境窗口长度及语境中的候选词的分数确定语境的组成。

所述语境窗口长度的计算公式如下所示：

size_w＝max(size_max-log f_w,size_min)

其中，size_w表示语境窗口长度，size_max及size_min分别表示预设的最大窗口长度和最小窗口长度，f_w为词w的词频。

根据如下所示公式对词进行打分：

其中，score_wi表示词w对应的语境中的词w_i对应的分数，D(w)表示词w对应的语境候选词集合，n为D(w)中元素的个数，表示词w_j-1与词w_j间的依存关系对应的权重，λ_j表示第j阶的惩罚权重，词w_j-1与词w_j表示词w与词w_i之间的词。

根据语境窗口长度及词的分数确定语境的组成，包括：

根据词的分数对语境候选词集合中的词进行降序排序；

根据语境窗口长度选取语境候选词集合中的前size_w个词作为构成语境的元素，size_w为语境窗口长度。

将所述多阶依存语境输入预先构建的词语表示学习训练模型进行学习训练，包括：

将所述多阶依存语境输入预先构建的词语表示学习训练模型，确定梯度；

根据梯度进行参数更新，直至学习率小于阈值。

将所述多阶依存语境输入预先构建的词语表示学习训练模型，确定梯度，包括：

将所述多阶依存语境输入如下式所示的基于Hierarchical Softmax方法的连续词袋模型的损失函数，得到梯度：

式中，表示基于Negative Sampling方法的Skip-Gram模型的损失值，p(w|context_Deps(w))表示在语境Deps(w)下词w出现的概率，表示梯度，C表示词w所在语境，l^w表示基于词构建的霍夫曼树中到达叶子节点词w的路径长度。

根据梯度进行参数更新，直至学习率小于阈值，包括：

按下式对霍夫曼树中非叶子结点的向量进行更新：

其中，表示待更新的霍夫曼树中非叶子结点的向量，η表示第一学习率，表示霍夫曼树中非叶子节点的值，x_w表示词w的词向量，σ(·)表示激活函数；

按下式对词w对应的语境的词向量进行更新：

其中，表示待更新的词w对应的语境的词向量，f(·)表示截断函数；

按下式对词之间的依存关系对应的权重进行更新：

其中，表示词w_k-1与词w_k间的依存关系对应的权重，表示词w_i对应的分数，η′表示第二学习率；

按下式对词之间的依存关系对应的向量进行更新：

其中，表示依存关系对应的向量。

将所述多阶依存语境输入如下式所示的基于Negative Sampling方法的Skip-Gram模型的损失函数，得到梯度：

其中，表示基于Negative Sampling方法的Skip-Gram模型的损失值，g(w)表示在负采样条件下取词w的联合概率，表示词w对应负采样得到的负样本词集合，context_Deps(w)表示语境Deps(w)，表示梯度。

根据梯度进行参数更新，直至学习率小于阈值，包括：

按下式对判别神经元参数进行更新：

其中，θ^u表示待更新的判别神经元参数，η表示第一学习率，L^w(u)表示样本词u的来源，来源为目标词的语境或词库，表示词w的词向量，σ(·)表示激活函数；

按下式对词w对应的语境的词向量进行更新：

其中，表示待更新的词w对应的语境的词向量，f(·)表示截断函数,NEG(w)表示负采样得到的负样本词集合；

按下式对词之间的依存关系对应的权重进行更新：

其中，表示词w_k-1与词w_k间的依存关系对应的权重，η′表示第二学习率，s_u表示依存变量，l^w表示基于词构建的霍夫曼树中到达叶子节点词w的路径长度；

按下式对词之间的依存关系对应的向量进行更新：

其中，表示依存关系对应的向量。

第二发明，本发明实施例提供一种基于句法依存关系的词语表示学习系统，包括：

采集模块，用于获取语料库；

句法解析模块，用于将语料库输入到依存句法解析器，生成依存句法树；

语境生成模块，用于根据依存句法树获取多阶依存语境；

训练模块，用于将所述多阶依存语境输入预先构建的词语表示学习训练模型进行学习训练，得到语料库对应的包含依存关系的词向量。

第三方面，本发明实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如第一方面所述方法的步骤。

相比现有技术，本发明实施例提出的一种基于句法依存关系的词语表示学习方法，在对语料库进行训练时引入句法依存关系，能够去除语料中不同语言背景及语言现象等信息带来的对语境组成的影响，使得词语表示学习训练模型对输入语料库中存在的个人特征更加不敏感，有效提升了训练速度与效果。

本发明实施例提出的一种基于句法依存关系的词语表示学习方法，生成的包含依存关系的词向量可以应用在大量的下游句法分析任务中，且表现更好。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例提供的一种基于句法依存关系的词语表示学习方法的流程图；

图2为本发明一个实施例提供依存句法树结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明中，不再使用传统的连续语境模型，而是采用句法依存关系作为语境取舍的判断条件，并将句法依存关系同样作为可学习且可被表示的对象。

特别的，本发明采用Word2vec工具作为实现的基础。在Word2vec工具中有两个递归神经网络模型，连续词袋模型(CBOW)和Skip-Gram(SG)模型。CBOW模型使用目标词的上下文中每个词来预测目标词，而SG模型使用每个目标词来预测其对应的上下文。这两种模型都需要进行词的表示和查询。为了加快索引和查询的过程，Word2vec工具采用了两种方法：Hierarchical Softmax(HS)和Negative Sampling(NS)。HS模型是首次由mnih和Hinton提出的，它通过构造分层树来索引所有在语料库的单词，每个单词作为树的一个叶子节点，而NS脱胎于NCE思想，基于噪声对比估计，随机采样不在语境中的词，以此区分观测数据和人工随机噪声。

经验表明，HS模型对出现次数较少的词效果较佳，而SG模型对出现频繁的词相关较佳。为了实现本发明提出的基于依存关系的词语表示学习方法，本发明分别使用CBOW模型与SG模型与HS方法与SG方法进行对应结合，提出两套完整的词语表示学习训练模型。

此外，现有相关NNLMs模型均没有对句法依存关系的使用做出明确的定义，只是直观地通过依存关系阶数来为关系所起作用进行量化判断，缺乏足够的解释性与实验证明。本发明创新地将句法依存关系的表示及权重引入到模型的设计中，并使用模型传递的误差/损失来不断更新句法依存关系的表示及权重。

本发明提出了两套能适应海量多源且结构复杂各异的文本的Word2vec训练模型。能够做到对语境组成方法对语义表达形式的不敏感。

参考图1，图1是本发明一个实施例的一种基于句法依存关系的词语表示学习方法流程图，包括：

获取语料库；

将语料库输入到依存句法解析器，生成依存句法树；

根据依存句法树获取多阶依存语境；

所述语料库的构建包括：

采取通用爬虫框架爬取了互联网上相同时期的文本数据，为了保证数据的文本质量，爬取的对象为知名度较高的新闻、百科类网站；

根据预设的条件多爬取到的文本数据进行清洗，去除了依存句法解析准确率较低的异常句子(过长/过短)，保证了后续提供给训练模型的输入数据质量。

将语料库输入到依存句法解析器，将不同表达方式、不同语言现象的语句构造为相同的依存句法树结构，可以解决除语义漂移外的大部分语言差异现象，参考图2，图2为语句“The rest of its petroleum exports go to distant Europe and Latin Amer-icafor further processing”的依存句法树。

所述依存句法解析器为stanford nlp中的dependency parser，所述依存句法解析器摒弃了大量稀疏的难解释的特征，仅使用浅层的网络模型，集中参数学习并分析了相对少量的密集特征。

根据依存句法树获取多阶依存语境，包括：

在依存句法树上进行搜索得到每个词对应的语境；

根据词的词频计算语境窗口长度；

对语境中的候选词进行打分；

所述语境窗口长度的计算公式如下所示：

size_w＝max(size_max-log f_w,size_min)

为了选取最有价值的信息以及为训练时不同的词提供其对应的权重，本发明根据不同的依存关系及词语与目标词之间的阶数作为打分的标准，通过词之间不同的依存关系权重及距离来共同决定每个词的分数，根据如下所示公式对词进行打分：

根据语境窗口长度及词的分数确定语境的组成，包括：

根据词的分数对候选词集合D(w)中的词进行降序排序；

根据语境窗口长度选取语境候选词集合D(w)中的前size_w个词作为构成语境的元素，size_w为语境窗口长度。

根据梯度进行参数更新，直至学习率小于阈值。

传统基于Hierarchical Softmax方法的连续词袋模型(CBOW&HS)将目标词为中心的2n个词的和作为语境输入模型，并以最大化对数似然函数作为目标函数。其实现方法可视为将霍夫曼树中从根节点到目标词叶子节点的路径视为该词出现的概率，那么损失函数可改写成如下公式所示：

式中，表示基于Hierarchical Softmax方法的连续词袋模型CBOW的损失值，p(w|context_Deps(w))表示在语境Deps(w)下词w出现的概率，表示梯度，C表示词w所在语境，l^w表示基于词构建的霍夫曼树中到达叶子节点词w的路径长度。

通过上述公式得到梯度，根据梯度进行参数更新，直至学习率小于阈值，包括：

按下式对霍夫曼树中非叶子结点的向量进行更新：

按下式对词w对应的语境的词向量进行更新：

基于依存句法的CBOW&HS模型将依存关系拼接到每个单词的词尾一同输入到CBOW&HS模型，因此CBOW&HS模型同时更新了模型的如下参数：

按下式对词之间的依存关系对应的权重进行更新：

按下式对词之间的依存关系对应的向量进行更新：

其中，表示依存关系对应的向量。

基于Negative Sampling方法的Skip-Gram模型通过选取目标词的语境词为正例，使用简化的NCE算法随机提取若干词库中的词为负例来实现对词w的出现概率的一种简化估计。

根据梯度进行参数更新，直至学习率小于阈值，包括：

按下式对判别神经元参数进行更新：

按下式对词w对应的语境的词向量进行更新：

按下式对词之间的依存关系对应的权重进行更新：

按下式对词之间的依存关系对应的向量进行更新：

其中，表示依存关系对应的向量。

为了实现本发明提供的基于句法依存关系的词语表示学习方法，需要部署和配置C运行环境。

基于相同的发明构思，本发明实施例还提供一种基于句法依存关系的词语表示学习系统示意图，可以包括：

采集模块，用于获取语料库；

语境生成模块，用于根据依存句法树获取多阶依存语境；

本发明实施例还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行各方法实施例所提供的方法，例如包括：

获取语料库；

将语料库输入到依存句法解析器，生成依存句法树；

根据依存句法树获取多阶依存语境；

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecificIntegratedCircuits，ASIC)、数字信号处理器(DigitalSignalProcessing，DSP)、数字信号处理设备(DSPDevice，DSPD)、可编程逻辑设备(ProgrammableLogicDevice，PLD)、现场可编程门阵列(Field-ProgrammableGateArray，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明各个实施例所述的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法或者实施例的某些部分所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的发明范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的发明保护范围内。

Claims

1.一种基于句法依存关系的词语表示学习方法，其特征在于，包括：

获取语料库；

将语料库输入到依存句法解析器，生成依存句法树；

根据依存句法树获取多阶依存语境；

2.根据权利要求1所述的词语表示学习方法，其特征在于，根据依存句法树获取多阶依存语境，包括：

在依存句法树上进行搜索得到每个词对应的语境；

根据词的词频计算语境窗口长度；

对语境中的候选词进行打分；

3.根据权利要求2所述的词语表示学习方法，其特征在于，所述语境窗口长度的计算公式如下所示：

size_w＝max(size_max-logf_w,size_min)

4.根据权利要求2所述的词语表示学习方法，其特征在于，根据如下所示公式对词进行打分：

5.根据权利要求2所述的词语表示学习方法，其特征在于，根据语境窗口长度及词的分数确定语境的组成，包括：

根据词的分数对语境候选词集合中的词进行降序排序；

6.根据权利要求1所述的词语表示学习方法，其特征在于，将所述多阶依存语境输入预先构建的词语表示学习训练模型进行学习训练，包括：

根据梯度进行参数更新，直至学习率小于阈值。

7.根据权利要求6所述的词语表示学习方法，其特征在于，将所述多阶依存语境输入预先构建的词语表示学习训练模型，确定梯度，包括：

8.根据权利要求7所述的词语表示学习方法，其特征在于，根据梯度进行参数更新，直至学习率小于阈值，包括：

按下式对霍夫曼树中非叶子结点的向量进行更新：

按下式对词w对应的语境的词向量进行更新：

按下式对词之间的依存关系对应的权重进行更新：

按下式对词之间的依存关系对应的向量进行更新：

其中，表示依存关系对应的向量。

9.根据权利要求6所述的词语表示学习方法，其特征在于，将所述多阶依存语境输入预先构建的词语表示学习训练模型，确定梯度，包括：

10.根据权利要求9所述的词语表示学习方法，其特征在于，根据梯度进行参数更新，直至学习率小于阈值，包括：

按下式对判别神经元参数进行更新：

按下式对词w对应的语境的词向量进行更新：

按下式对词之间的依存关系对应的权重进行更新：

按下式对词之间的依存关系对应的向量进行更新：

其中，表示依存关系对应的向量。