CN110196982B

CN110196982B - 上下位关系抽取方法、装置及计算机设备

Info

Publication number: CN110196982B
Application number: CN201910506671.8A
Authority: CN
Inventors: 郑孙聪; 徐程程
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2022-12-27
Anticipated expiration: 2039-06-12
Also published as: CN110196982A

Abstract

本申请提供了一种上下位关系抽取方法、装置及计算机设备，通过增强字词关联性，来抽取语料中的上下位关系信息，无需预先利用规则或词典识别出候选字词，再进行两两判断，而是直接通过预先训练得到的字词关联性增强模型，即标签预测模型，直接获取待抽取语料的上下位标签序列，再通过解析标签序列的信息来获取上下位关系信息。可见，无论待抽取语料中上位词的表述多么复杂多样，本实施例都能够准确且可靠地从待抽取语料识别出上下位关系信息。

Description

上下位关系抽取方法、装置及计算机设备

技术领域

本申请涉及数据挖掘技术领域，具体涉及一种上下位关系抽取方法、装置及计算机设备。

背景技术

在语言学概念中，概括性较强的单词叫做特定性较强的单词的上位词，特定性较强的单词叫做概括性较强的单词的下位词，可见，上位词可以是下位词的概念性描述，有助于理解下位词的含义。如“老虎是一种猫科动物”这一待抽取语料，“猫科动物”是“老虎”的上位词，“老虎”是一个下位词，“猫科动物”和“老虎”可以组成一个具有上下位关系的词语对。

目前，通常是采用基于语义向量化的挖掘方法和基于模板分类的方法，从文本语料中抽取上下位词，其中，基于语义向量化的挖掘方法具体是：获取待抽取语料中每个词语的语义向量，将各词语的语义向量输入二分类模型，确定输入的两个词语是否满足上下位关系；而基于模板分类的方法主要是从待抽取语料中抽取上位词，具体是识别待抽取语料中的名词短语，再利用待抽取语料的背景信息，确定待抽取语料中任意两个名词短语是否满足上下位关系。

然而，在实际应用中，上位词的表述复杂多样，现有的上下位关系抽取方法将无法准确识别出来，所以，如何有效、准确识别各待抽取语料的上下位关系信息成为本领域重要研究方向之一。

发明内容

有鉴于此，本申请实施例提供一种上下位关系抽取方法、装置及计算机设备，通过增强语料中字词关联性来抽取上下位关系，解决了现有技术无法准确识别语料中表述复杂的上位词和下位词的技术问题。

为实现上述目的，本申请实施例提供如下技术方案：

本申请提供了一种上下位关系抽取方法，所述方法包括：

获取待抽取语料；

将待抽取语料输入标签预测模型，得到所述待抽取语料的预测标签序列，所述标签预测模型是基于循环神经网络和自注意力机制，对训练样本进行训练得到，训练样本包括训练语料及所述训练语料包含的上下位关系信息；

从所述预测标签序列中，获取上下位关系字词属性对应的目标预测标签，所述上下位关系字词属性包括上位词字词属性和下位词字词属性；

由所述待抽取语料中所述目标预测标签对应的字词，构成所述待抽取语料的上下位关系信息。

本申请还提供了一种上下位关系抽取装置，所述装置包括：

待抽取语料获取模块，用于获取待抽取语料；

预测标签序列获取模块，用于将待抽取语料输入标签预测模型，得到所述待抽取语料的预测标签序列，所述标签预测模型是基于循环神经网络和自注意力机制，对训练样本进行训练得到，训练样本包括训练语料及所述训练语料包含的上下位关系信息；

目标预测标签获取模块，用于从所述预测标签序列中，获取上下位关系字词属性对应的目标预测标签，所述上下位关系字词属性包括上位词字词属性和下位词字词属性；

上下位关系获取模块，用于由所述待抽取语料中所述目标预测标签对应的字词，构成所述待抽取语料的上下位关系信息。

本申请还提供了一种计算机设备，计算机设备包括：

通信接口；

存储器，用于存储实现如上述的上下位关系抽取方法的程序；

处理器，用于加载并执行所述存储器存储的程序，实现如上述的上下位关系抽取方法的各步骤。

由此可见，本申请提供了一种上下位关系抽取方法、装置及计算机设备，通过增强字词关联性，来抽取语料中的上下位关系信息，无需预先利用规则或词典识别出候选字词，再进行两两判断，而是直接通过预先训练得到的字词关联性增强模型，即标签预测模型，直接获取待抽取语料的上下位标签序列，再通过解析标签序列的信息来获取上下位关系信息。可见，无论待抽取语料中上位词的表述多么复杂多样，本实施例都能够准确且可靠地从待抽取语料识别出上下位关系信息。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种计算机设备的硬件结构示意图；

图2为本申请实施例提供的一种上下位关系抽取方法的流程示意图；

图3为本申请实施例提供的一种上下位关系抽取方法的场景示意图；

图4为本申请实施例提供的一种上下位关系抽取方法中，标签预测模型训练过程的流程示意图；

图5为本申请实施例提供的另一种上下位关系抽取方法的流程示意图；

图6为本申请实施例提供的一种上下位关系抽取方法中，字词编码向量存储过程的流程示意图；

图7为本申请实施例提供的一种上下位关系抽取装置的结构示意图；

图8为本申请实施例提供的另一种上下位关系抽取装置的结构示意图。

具体实施方式

结合背景技术部分的分析，无论是基于语义向量化的挖掘方法，还是基于模板分类的方法，都是先从待抽取语料(如句子)中识别出候选词语，再对候选词语进行两两组合，之后，针对每一种组合的词语进行二分类判别，确定这一组的两个词语是否满足上下位关系。这样，对于表述复杂多样的上位词，在识别候选词语阶段，现有的技术手段是无法完全识别出来这类上位词的，进而导致无法从待抽取语料中有效且准确地抽取出上下位信息。

针对上述问题，本申请的发明人提出通过增强句子中词语的关联性，再直接从句子中得到上位词和下位词的组合结果不需要预先利用规则或词典识别出候选词语，再进行两两判断，而是直接通过词语关联性增强模型，直接获得句子的上下位标签序列，再通过解析标签序列的信息来获得上下位关系的词语对，从而解决了现有技术因无法直接识别上位词，导致无法从句子中抽取上下位信息的技术问题。

按照这种构思，本申请提出对输入的一个待抽取语料中的每一个词语配置一个标签，得到一个标签序列，且由词语的标签表示当前词语是上位词还是下位词，之后，通过解析生成的这个标签序列，得到各词语的上下位关系。其中，将输入的待抽取句子转换为标签序列的模型，可以是一种可以增强句子中词语关联性的标签产生模型，利用该模型学习到句子中各词语之间的语义关联性，从而有效得到上下位关系信息。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参照图1，为实现本申请提供的上下位关系抽取方法的一种计算机设备实施例的硬件结构示意图，该计算机设备可以是服务器或电脑、笔记本等终端设备，本申请对该计算机设备的产品类型不做限定，在此仅对计算机设备的一种硬件结构进行示例性说明，如图1所示，该计算机设备可以包括：通信接口11、存储器12和处理器13；

实际应用中，通信接口11、存储器12和处理器13可以通过通信总线实现相互间的通信，且通信接口11、存储器12和处理器13及通信总线的数量可以为至少一个。

可选的，通信接口11可以为通信模块的接口，如GSM模块的接口，用于接收待抽取语料，并输出其包含的上下位信息等，还可以用来实现本申请上下位关系抽取方法执行过程中，不同处理阶段的数据接入和输出等，本申请对通信接口11在上下位关系抽取方法中的功能不作限定。

存储器12可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

处理器13可能是一个中央处理器CPU，或者是特定集成电路ASIC

(Application Specific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器12存储有程序，处理器13调用存储器12所存储的程序，以实现本申请提出的上下位关系抽取方法的各个步骤。

下面将结合计算机设备的硬件结构，对本申请的上下位关系抽取方法进行解释，参照图2所示的场景示意图，及图3所示一种上下位关系抽取方法实施例的流程示意图，该方法可以包括但并不局限于以下步骤：

步骤S11，获取待抽取语料；

本申请提及的语料可以是文本句子，待抽取语料可以是当前需要抽取上下位关系信息的句子，本申请对该待抽取语料的来源和内容不做限定，如用户输入或从应用平台爬取等方式。

步骤S12，将待抽取语料输入训练好的标签预测模型，得到该待抽取语料的预测标签序列；

其中，标签预测模型可以用来预测输入语料包含的各字词的标签(即表明该字词的字词属性的标签)，输出该输入语料的预测标签序列，关于该标签预测模型的训练过程可以参照下文相应实施例的描述，在此不作赘述。

可选的，利用标签预测模型，得到待抽取语料的预测标签序列后，可以将相应的目标编码相应存储至预设的存储设备，即预先设置存储设备，用来存储标签预测过程中产生的上位词的目标编码向量、下位词的目标编码向量的存储设备，具体的，在存储设备中可以设置两个存储单元，一个存储单元E可以用来存储预测过程中产生的下位词字词的目标编码向量，一个存储单元H可以用来存储预测过程中产生的上位词字词的目标编码向量，且在预测标签之前，这两个存储单元的存储状态可以为空(即none)。

其中，在每次预测一个字词的标签后，可以依据预测标签是否为上下位关系的标签的判断结果，确定将用于获取本次预测标签的目标编码向量S写入存储单元的实现方法，即本次得到的该字词的预测标签为上下位关系的标签，可以将本次得到该预测标签的目标编码向量，与上一时刻写入的该标签对应的存储单元的存储内容拼接，得到本次写入该标签对应的存储单元的存储内容。

步骤S13，从该预测标签序列中，获取上下位关系字词属性对应的目标预测标签；

本实施例可以将构成文本语料的字词分为三类字词属性：上位词，下位词、与上下位关系无关的字词，对于不同类别的字词属性，可以采用不同的标签表示，如H可以表示该词是上位词的一部分，E可以表示该词是下位词的一部分，O可以表示该次是上下位关系无关的字词。

基于此，在得到待抽取语料的预测标签序列后，可以按照预设的不同字词属性的标签，从得到的预测标签序列中，查找上下位字词属性分别对应的目标预测标签，即获取预测标签序列中的E和H两种预测标签。

步骤S14，由待抽取语料中目标预测标签对应的字词，构成该待抽取语料的上下位关系信息。

经过步骤S13的处理，确定待抽取语料中包含目标预测标签对应的字词，即确定待抽取语料中包含上位词及其下位词后，可以由这些字词构成该待抽取语料的上下位关系信息。

如“老虎是一种猫科动物”这一待抽取语料，按照上述方式得到的目标预测标签对应的字词是“老虎”和“猫科动物”，由此得到的该待抽取语料的上下位关系信息为(老虎，猫科动物)。

基于上述分析，在得到待抽取语料的预测标签序列后，可以进一步解析该预测标签序列，将其转换为上下位关系的形式，以获取上下位字词属性分别对应的目标预测标签，即获取表示为上位词的目标预测标签，及表示下位词的目标预测标签。

可选的，本实施例执行步骤S13中，可以按照以下规则解析预测标签序列，但并不局限于下文给出的解析规则：

在预测标签序列中，可以将连续的下位词预测标签构成一个下位词，将连续的上位词预测标签对应的字词构成一个上位词。如，“剃刀鲸是一种哺乳动物也是最大的动物”这一待抽取语料，“哺乳”和“动物”这两个连续的字词的预测标签都是H，那么，字词“哺乳”和“动物”可以构成一个上位词“哺乳动物”。

若待抽取语料中同时包含多个下位词和/或上位词，可以将每个下位词的目标编码向量和所有上位词的目标编码向量两两计算相似度，将相似度大于阈值的组合作为待抽取语料的上下位关系信息。仍以“剃刀鲸是一种哺乳动物也是最大的动物”这一待抽取语料为例进行说明，其中抽取到的下位词有“剃刀鲸”，上位词有“哺乳动物”和“最大的动物”，经过相似度比较，“剃刀鲸”和“哺乳动物”的目标编码向量的相似度满足阈值要求，“剃刀鲸”和“最大的动物”的目标编码向量的相似度也满足阈值要求，因此，该待抽取语料的上下位关系信息可以为(剃刀鲸，哺乳动物)和(剃刀鲸，最大的动物)。

由此可见，步骤S14的具体实现方法可以包括：

若上述得到的目标预测标签中存在连续的同一类预测标签，可以由连续的同一类预测标签对应的字词，组合为一个上位词或下位词；

检测待抽取语料中目标预测标签对应的字词中，是否存在多个上位词和/或多个下位词；

如果存在，获取待抽取语料中每个上位词对应的目标编码向量，与每个下位词对应的目标编码向量的相似度；

若获取的相似度达到相似阈值，将该相似度对应的上位词和下位词作为待抽取语料的上下位关系信息。

综上，参照图2所示的场景示意图，以计算机设备为服务器为例进行说明，本实施例通过增强字词关联性，来抽取语料中的上下位关系信息，无需预先利用规则或词典识别出候选字词，再进行两两判断，而是直接通过预先训练得到的字词关联性增强模型，即标签预测模型，直接获取待抽取语料的上下位标签序列，再通过解析标签序列的信息来获取上下位关系信息。可见，无论待抽取语料中上位词的表述多么复杂多样，本实施例都能够准确且可靠地从待抽取语料识别出上下位关系信息。

下面将对上述实施例中的标签预测模型的训练过程进行描述，参照图4所示的流程示意图，该模型训练过程可以包括但并不局限于以下步骤：

步骤S21，获取存在上下位关系信息的训练语料，并将该训练语料及其具有的上下位关系信息作为一条训练样本；

本实施例中，对于文本语料库中的各语料(如句子)，并不是随意选取训练样本，而是从中选取同时具有上位词及其下位词的语料，并结合该语料具有的上位词及其下位词构成的上下位关系，来构成一条训练样本。

具体的，本申请可以利用已知的上下位关系，去语料中匹配，得到语料中同时包含上下位关系中的上位词和下位词，再将该语料和上下位关系(其可以由具有上下位关系的词语对表示)构成一条训练样本。

举例说明：(老虎，猫科动物)是已知的具有上下位关系的词语对，其可以称为上下位关系信息，可以将这个上下位关系信息与文本语料库中的各语料进行匹配，筛选出同时包含“老虎”和“猫科动物”的语料，此时，可以将语料“老虎是一种猫科动物”和上下位关系信息“(老虎，猫科动物)”构成一条训练样本；同理，可以将“大象是一种哺乳动物”和上下位关系信息“(大象，哺乳动物)”构成一条训练样本等。

基于此，本实施例所得训练样本的形式可以为：

“老虎是一种猫科动物”→“(老虎，猫科动物)”；

“大象是一种哺乳动物”→“(大象，哺乳动物)”；

……；

“红色是一种颜色”→“(红色，颜色)”。

可见，本申请可以采用远监督回标策略，获取多条训练样本，对训练样本获取过程中，获取已知上下位关系信息的方式不做限定，如从xx百科的摘要文本内容中，提取上下位关系信息等，但并不局限于这种获取方式。

步骤S22，利用不同字词属性的标签对训练样本中的训练语料进行标注，得到该训练样本的目标标签序列；

按照上文给出的不同字词属性对应的标签，对获取的每一条训练样本进行标注，可以将回标数据的文本形式转换为序列标注形式，即由每一条训练样本，得到对应的一个目标标签序列。

如上述举例的“老虎是一种猫科动物”→“(老虎，猫科动物)”这一训练样本，“老虎”是下位词，其对应的标签是E，“猫科动物”是上位词，其对应的标签是H，其他字词，“是”、“一种”等字词均与上下位关系无关，对应的标签均为O，按照这种标注方式，该训练样本得到的目标标签序列可以为EOOOOHH。

因此，该训练样本的目标标签序列的标签形式可以为：老虎是一种猫科动物→EOO HH，同理，其他训练样本也可以按照这种方式得到对应的目标标签序列，如“大象是一种巨型的哺乳动物→E O O O O HH”。

可选的，在实际应用中，可以对训练样本中的训练语料进行分词处理，确定该训练语料包含的各字词，再将各字词与已知的上下位关系信息进行比对，确定该训练语料包含的上位词和下位词，但并不局限于这种实现方式。

步骤S23，将该训练语料中的各字词分别转换为词向量；

结合上文分析，在本实施例中，可以先对训练语料进行分词处理，得到该训练语料包含的各字词，再采用Embedding将各字词转换为词向量，因此，按照这种方式，每一个训练语料可以得到一个词向量序列。

需要说明，无论是获取目标标签序列还是词向量序列，都是针对训练语料，都需要获取训练语料包含的字词，即需要对训练语料进行分词处理，所以说，在实际应用中，本申请对标签标注过程及词向量获取过程的顺序不做限定，并不局限于本实施例描述的步骤顺序。

步骤S24，将词向量输入循环神经网络，得到训练语料中每个字词的初始编码向量；

本实施例中，循环神经网络可以是双向循环神经网络，具体可以是BiLSTM(Bi-directional Long Short-Term Memory，长短时记忆)，但并不局限于这种循环神经网络。

参照图5所示的模型训练过程，对于训练语料中字词的字词向量，本实施例可以将其记为

将一训练语料的各字词向量输入循环神经网络进行训练，将得到各字词向量分别对应的编码向量，本实施例将其记为初始向量h_i。本申请对该循环神经网络的具体网络结构，及其对输入的词向量的处理过程不做详述。

在BiLSTM网络中，由于其是双向LSTM，同时考虑了过去的特征和未来的特征，即同时考虑当前字词与其左右相邻的字词的语义关联，这样，使得经过BiLSTM网络处理的训练语料的每个字词的初始编码向量h_i，可以刻画字词与相邻字词之间的语义关联性，也就是说，本实施例利用双向循环神经网络对输入的各字词的字词向量进行处理过程中，考虑到了训练样本中各字词之间的关联性，以便据此确定出具有上下位关系的字词的编码向量。

步骤S25，利用注意力机制对得到的初始编码向量进行处理，得到相应的目标编码向量；

经过循环神经网络对训练语料的各字词的字词向量的编码处理后，可以经过一个自注意层对得到的编码向量做进一步处理，具体的，在自注意层里，对于得到的每一个初始编码向量，可以将其与同一训练语料中的其他字词的初始编码向量进行相关性运算，得到该字词的新的编码向量，记为该字词的目标编码向量。

实际应用中，在机器翻译中的注意力机制是将前一时刻输出的隐含状态，与当前时刻输入的隐含状态进行对齐的模式，本实施例将注意力机制与循环神经网络结合在一起，通过自注意力机制，去获取不同字词之间的上下位关系，来识别各字词的字词属性，以确定训练语料中的上下位关系信息，即识别训练语料包含的上位词和下位词，本实施例对该自注意力机制的执行方法不做限定。

可选的，参照图5，利用注意力机制对各字词的初始编码向量的处理过程可以为，从初始编码向量h转换为对应的目标编码向量S的过程：

假设输入循环神经网络的训练语料是由n个字词组成，经过循环神经网络对该训练语料中的每个字词的处理，得到每个字词的初始编码向量h可以看成一个n×d维的矩阵，d可以表示循环神经网络对每个字词的编码后的向量维度，本实施例对n和d的具体数值不做限定。

之后，可以按照如下公式(1)，对循环神经网络输出的各初始编码向量h进行变换处理，但并不局限于这种变换处理方法：

Q_i＝h·W_i ^q,K_i＝h·W_i ^k,V_i＝h·W_i ^v； (1)

上述公式(1)中，W_i ^q、W_i ^k、W_i ^v是三个维度相同的变换矩阵，即W_i ^q∈R^d×d/m，W_i ^k∈R^d ^×d/m，W_i ^v∈R^d×d/m，且这三个变换矩阵分别用于提取初始编码向量h的不同变换特征Q、K和V，再按照如下公式(2)，对得到的各初始编码向量分别对应的三个变换特征做进一步运算，以便利用得到的运算结果，得到相应的目标编码向量。其中，m可以表示按照公式(1)的方法的运算次数，本实施例m的具体数值不做限定。

在公式(2)中，head_i∈R^n×d/m，其可以看做是h中各个字词向量之间相互运算的结果，训练语料中的每个字词经过上述步骤的运算后，可以变换为一个维度为d/m的向量。softmax()函数可以是分类函数，本申请对该函数的运算过程不做详述。

由此可见，对于循环神经网络输出的每个初始编码向量h，本实施例可以利用m组W_i ^q、W_i ^k、W_i ^v变换矩阵参数，按照上述步骤重复计算m次，得到m个head，再将得到的m个head按照第二个维度拼接起来，得到该字词(即该初始编码向量对应的训练语料中的字词)对应的目标编码向量s∈R^n×d，因此，目标编码向量s可以表示当前字词与训练语料中其他字词之间的语义关联性，即确定当前字词与其他字词之间是否具有上下位关系。

步骤S26，读取上一时刻写入的上位词存储信息及下位词存储信息；

继上文描述，在得到训练语料的每个字词的目标编码向量S后，可以通过据此判断每个字词是否和上下位关系有关，为相应字词预测一个标签，本实施例可以利用上一次预测得到的上下位词存储状态信息，实现对本次字词的标签的预测，具体实现方法不做限定。

基于此，在本实施例实际应用中，结合上述实施例相应部分的描述，可以预先设置用来存储标签预测过程中产生的上位词的目标编码向量、下位词的目标编码向量的存储设备。在每次预测一个字词的标签后，可以依据预测标签是否为上下位关系的标签的判断结果，确定将本次得到的目标编码向量写入存储单元的实现方法，具体可以利用如下公式(3)的方式，实现不同字词对应的目标编码向量的存储：

结合上图5所示的循环神经网络结构，循环神经网络在不同时刻对不同字词的字词向量进行编码处理，因此，t时刻得到的目标编码向量，即为训练语料中第t个字词对应的目标编码向量，所以，公式(3)中，S_t可以表示t时刻得到的目标编码向量，即第t个字词对应的目标编码向量，H_t可以表示用来存储上位词字词的目标编码向量的存储单元H中，第t个存储空间的存储内容，同理，H_t-1可以表示存储单元H中第t-1个存储空间的存储内容。

由公式(3)可知，在预测训练语料中第t个字词的字词属性的标签后，若该标签Tag_t是上位词的标签，可以将t时刻得到的目标编码向量S_t，与存储单元H中第t-1个存储空间的存储内容H_t-1进行拼接，将拼接得到的向量作为第t个存储空间的存储内容H_t，即H_t＝H_t-1+S_t；若标签Tag_t不是上位词的标签，直接将存储单元H中第t-1个存储空间的存储内容H_t-1，作为第t个存储空间的存储内容H_t，即H_t＝H_t-1。

同理，若该标签Tag_t是下位词的标签，可以将t时刻得到的目标编码向量S_t，与存储单元E中第t-1个存储空间的存储内容E_t-1进行拼接，将拼接得到的向量作为第t个存储空间的存储内容E_t，即E_t＝E_t-1+S_t，若标签Tag_t不是下位词的标签，直接将存储单元E中第t-1个存储空间的存储内容E_t-1，作为第t个存储空间的存储内容E_t，即E_t＝E_t-1。

参照图5所示的存储设备预测层中，以“剃刀鲸是一种哺乳动物也是最大的动物”这一训练语料为例，存储单元E和存储单元H对不同时刻得到的目标编码向量的存储，初始时刻对应的存储空间为none，第1个字词预测的标签为E，写入存储单元E中，即t＝1个存储空间的存储内容为S₁；第2个字词预测的标签为E，写入存储单元E中的t＝2个存储空间，使得该存储空间的存储内容为S₁和S₂；对于该训练语料中的其他字词，预测标签均为O，因此，存储单元E中的其他存储空间的存储内容均与t＝2个存储空间的存储内容相同，均为S₁和S₂。

同理，对于存储单元H的存储内容，该训练语料中的前4个字词均不是上位词，预测的标签也就不是H，第5个字词预测的标签才是H，所以，第t＝5个存储空间的存储内容为S₅,，依次类推，第t＝6个存储空间的存储内容为S₅和S₆，第t＝7个存储空间的存储内容仍为S₅和S₆，第t＝8个存储空间的存储内容为S₅、S₆和S₈，第t＝9个存储空间的存储内容为S₅、S₆、S₈和S₉；第t＝10个存储空间的存储内容为S₅、S₆、S₈、S₉和S₁₀。

基于上文对存储设备的描述，在预测训练语料中的第t个字词的标签时，所读取的上一时刻的上位词存储信息和下位词存储信息，即分别可以为H_t-1和E_t-1，结合上位对存储设备对不同时刻得到的目标编码向量存储方式的描述，上一时刻的上位词(下位词)存储信息包含：本次预测标签的字词之前的其他字词中，预测标签为具有上下位关系的上位词(下位词)的字词的目标编码向量的拼接结果。

步骤S27，利用读取到的上位词存储信息、下位词存储信息及当前时刻得到的目标编码向量，获取当前时刻预测的字词的预测标签概率；

本实施例可以利用如下公式(4)，获取训练语料中各字词的预测标签概率P_t ^k，但并不局限于这种实现方法：

P_t ^k＝softmax(concate[S_t,S_tH_t-1,S_tE_t-1]·W_tag)； (4)

其中，W_tag可以是输出层的转移参数矩阵，其可以在模型训练过程中进行调整，以获取所需的标签预测模型；S_t可以表示训练语料中第t个字词的目标编码向量，H_t-1可以表示上一时刻写入存储单元H的存储内容，即上一时刻写入的上位词存储信息；E_t-1可以表示上一时刻写入存储单元E的存储内容，即上一时刻写入的下位词存储信息；k可以表示预测标签的种类数量，本实施例中k的数值可以为3，分别表示E、H和O这三种标签种类；concate()可以用于连接两个或多个数组，本实施例可以使用该函数将括号内的向量连接起来；softmax()可以表示分类器函数；P_t ^k可以表示训练语料中第t个字词预测为标签k的概率。

可见，本实施例在对训练语料中各字词进行标签预测时，可以直接读取存储设备的存储信息，与当前得到的目标编码向量S进行融合，用来实现对相应字词的标签预测。按照上述方法，针对训练中的每个字词，可以得到该字词为不同标签的概率，并将概率较大的标签作为该字词的预测标签。

步骤S28，依据训练语料中各字词的预测标签概率，及该训练语料的目标标签序列进行模型训练，得到标签预测模型。

本实施例可以利用按照上述方法得到的不同训练语料的各字词的预测标签，与上述步骤对相应训练语料中各字词标注的目标标签序列，得到用于模型训练的目标函数，该目标函数可以为：

在公式(5)中，X可以表示输入循环神经网络的训练语料，Θ可以表示用于训练模型所需要的被训练的参数集合，即通过调整该参数集合中的参数进行多次模型训练，以使得训练语料中每个字词的预测标签P_t ^k与真实标签y_t(即相应目标标签序列中的元素)尽可能一致；log()可以表示对数函数；Σ()可以表示求和运算函数，L可以是一个训练语料的目标函数值。

在本实施例实际应用中，按照上述方法得到一训练语料中各字词的预测标签概率后，可以基于利用公式(5)得到的目标函数，采用如SGD(Stochastic Gradient Descent，随机梯度下降)等优化方法，得到标签预测模型的参数值，完成标签预测模型的训练，具体训练过程本实施例不再详述。

综上，本实施例利用循环神经网络结合自注意力机制，实现模型训练，即获得训练语料的各字词的字词向量后，可以分别经过循环神经网络和自注意力机制的学习，得到相应字词的目标编码向量。在模型训练过程中，考虑到了训练语料中各字词之间的语义关联性，以使得所得任一训练语料的各字词的目标编码向量，表征了相应字词与训练语料中其他字词之间的语义关联性，进而利用该目标编码向量，得到相应字词的预测标签的方式，提高了所得预测标签的准确性，且保证了由此训练所得标签预测模型的可靠性。

基于上述各实施例的描述，无论是模型训练过程中，还是利用训练得到的标签预测模型，抽取任一待抽取语料的上下位关系信息的过程中，在得到语料中每个字词的预测标签时，可以对所得的各字词的目标编码向量进行存储。因此，本申请可以配置与上位词字词属性对应的第一存储单元，及与下位词字词属性对应的第二存储单元，在获取待抽取语料中各字词的预测标签过程中，按照预设存储规则，利用不同时刻得到的相应字词的目标编码向量，得到相应时刻的存储信息；将存储信息写入与该相应时刻得到的预测标签对应的存储单元。

具体的，参照图6所示的上下位关系抽取方法中，存储上下位关系字词的编码向量的过程的流程示意图，该方法可以包括但并不局限于：

步骤S31，配置与上位词字词属性对应的第一存储单元，及与下位词字词属性对应的第二存储单元；

结合上述实施例的描述，第一存储单元可以是上述实施例中的存储单元H，第二存储单元可以是上述实施例中的存储单元E。

步骤S32，针对预测标签序列中输入语料的任一个字词的预测标签，检测该预测标签是否为目标预测标签；如果是，进入步骤S33；如果否，执行步骤S35；

步骤S33，读取上一时刻写入对应存储单元的上位词存储信息或下位词存储信息；

其中，输入语料可以是待抽取语料或训练语料，目标预测标签可以是上位词或下位词对应的标签，步骤S33中的上一时刻可以是指：得到待抽取语料的上一个相邻字词的预测标签的时刻，具体可以参照图5及上述实施例相应部分的描述。

在实际应用中，若当前时刻所得字词的预测标签为上位词的标签，可以读取上一时刻写入上位词存储单元的上位词存储信息；若当前时刻所得字词的预测标签为下位词的标签，可以读取上一时刻写入下位词存储单元的下位词存储信息。

步骤S34，对该预测标签对应的目标编码向量与读取到的存储信息进行融合处理，得到当前时刻的存储信息；

步骤S35，将上一时刻写入对应存储空间的上位词存储信息或下位词存储信息，作为当前时刻的存储信息；

本实施例可以采用上述公式(3)所示的方式，得到获取输入语料中各字词的预测标签后，要写入相应存储单元的存储信息，具体实现过程可以参照上述实施例相应部分的描述。

步骤S36，将该存储信息写入与相应时刻得到的预测标签对应的存储单元。

如图5所示的存储设备的预测层的描述，在得到语料字词的预测标签后，若该预测标签是上位词或下位词的标签，会将本次得到该字词的目标编码向量，与上一时刻写入该类标签的存储单元的存储信息融合，得到当前时刻要写入该存储单元的存储信息，可见，这种存储方式使得本次写入的存储信息，不仅包含本次得到的编码向量，同时也包含饿了之前写入的存储信息，即本次字词之前的其他字词的编码向量，这样，在获取后续字词的预测标签时，能够利用各字词之间的语义关联性，确定各字词的预测标签概率，提高了获取各字词的预测标签的准确性。

参照图7，为本申请实施例提供的一种上下位关系抽取装置的结构示意图，该装置可以应用于计算机设备，如图7所示，该装置可以包括：

待抽取语料获取模块21，用于获取待抽取语料；

预测标签序列获取模块22，用于将待抽取语料输入标签预测模型，得到所述待抽取语料的预测标签序列；

本实施例中，该标签预测模型是基于循环神经网络和自注意力机制，对训练样本进行训练得到，训练样本包括训练语料及所述训练语料包含的上下位关系信息；

目标预测标签获取模块23，用于从所述预测标签序列中，获取上下位关系字词属性对应的目标预测标签，所述上下位关系字词属性包括上位词字词属性和下位词字词属性；

上下位关系获取模块24，用于由所述待抽取语料中所述目标预测标签对应的字词，构成所述待抽取语料的上下位关系信息。

可选的，该上下位关系获取模块24可以包括：

第一确定单元，用于在所述目标预测标签中存在连续的同一类预测标签的情况下，由所述连续的同一类预测标签对应的字词，组合为一个上位词或下位词；

检测单元，用于检测所述待抽取语料中所述目标预测标签对应的字词中，是否存在多个上位词和/或多个下位词；

相似度获取单元，用于在所述检测单元的检测结果为是的情况下，获取所述待抽取语料中每个上位词对应的目标编码向量，与每个下位词对应的目标编码向量的相似度；

第二确定单元，用于在所述相似度达到相似阈值的情况下，将所述相似度对应的上位词和下位词作为所述待抽取语料的上下位关系信息。

关于本实施例中，从待抽取语料中抽取上下位关系信息过程中，各模型的功能实现过程，可以参照上述方法实施例相应部分的描述。

可选的，为了实现标签预测模型的训练，如图8所示，该装置还可以包括：

训练样本获取模块25，用于获取存在上下位关系信息的训练语料，并将该训练语料及其具有的上下位关系信息作为一条训练样本；

标签标注模块26，用于利用不同字词属性的标签对所述训练语料进行标注，得到相应训练样本的目标标签序列；

其中，上述字词属性可以包括上位词字词属性、下位词字词属性及与上下位关系无关的字词属性；

编码模块27，用于获取所述训练语料的字词向量，分别经过循环神经网络和自注意力机制的学习，得到所述训练语料中相应字词的目标编码向量；

本实施例中，网络学习得到的目标编码向量可以表征：相应字词与所述训练语料中其他字词之间的语义关联性；

存储信息读取模块28，用于读取上一时刻写入的上位词存储信息和下位词存储信息；

预测标签概率获取模块29，用于利用所述上位词存储信息、所述下位词存储信息，及当前时刻得到的所述目标编码向量，获取相应字词的预测标签概率；

在本实施例中，该预测标签概率获取模块29可以包括：

第二融合处理单元，用于将所述上位词存储信息和所述下位词存储信息，分别与所述目标编码向量进行融合处理；

预测标签概率获取单元，用于利用得到的融合处理结果和所述目标编码向量的拼接处理结果，获取相应字词的预测标签概率。

模型训练模块210，用于依据所述训练语料中各字词的预测标签概率，及所述训练语料的目标标签序列进行模型训练，得到标签预测模型。

关于本实施例的模型训练过程，可以参照上述方法实施例相应部分的描述。

可选的，在上述各实施例的基础上，该装置还可以包括：

存储单元配置模块，用于配置与上位词字词属性对应的第一存储单元，及与下位词字词属性对应的第二存储单元；

存储信息获取模块，用于在获取所述待抽取语料中各字词的预测标签过程中，按照预设存储规则，利用不同时刻得到的相应字词的目标编码向量，得到相应时刻的存储信息；

本实施例实际应用中，该存储信息获取模块可以包括：

第一读取单元，用于针对所述预测标签序列中所述待抽取语料的任一个字词的预测标签，若所述预测标签是所述目标预测标签，读取上一时刻写入对应存储单元的上位词存储信息或下位词存储信息，所述上一时刻是指得到所述待抽取语料的上一个相邻字词的预测标签的时刻；

第一融合处理单元，用于对所述预测标签对应的目标编码向量与读取到的存储信息进行融合处理，得到当前时刻的存储信息；

第二读取单元，用于在预测标签不是目标预测标签的情况下，将上一时刻写入对应存储空间的上位词存储信息或下位词存储信息，作为当前时刻的存储信息。

存储信息写入模块，用于将所述存储信息写入与所述相应时刻得到的预测标签对应的存储单元。

需要说明，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、计算机设备而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的核心思想或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种上下位关系抽取方法，其特征在于，所述方法包括：

获取待抽取语料；

由所述待抽取语料中所述目标预测标签对应的字词，构成所述待抽取语料的上下位关系信息；

配置与上位词字词属性对应的第一存储单元，及与下位词字词属性对应的第二存储单元；

在获取所述待抽取语料中各字词的预测标签过程中，按照预设存储规则，利用不同时刻得到的相应字词的目标编码向量，得到相应时刻的存储信息，具体包括：针对所述预测标签序列中所述待抽取语料的任一个字词的预测标签，若所述预测标签是所述目标预测标签，读取上一时刻写入对应存储单元的上位词存储信息或下位词存储信息，所述上一时刻是指得到所述待抽取语料的上一个相邻字词的预测标签的时刻；对所述预测标签对应的目标编码向量与读取到的存储信息进行融合处理，得到当前时刻的存储信息；若所述预测标签不是所述目标预测标签，将上一时刻写入对应存储空间的上位词存储信息或下位词存储信息，作为当前时刻的存储信息；

将所述存储信息写入与所述相应时刻得到的预测标签对应的存储单元。

2.根据权利要求1所述的方法，其特征在于，所述由所述待抽取语料中所述目标预测标签对应的字词，构成所述待抽取语料的上下位关系信息，包括：

若所述目标预测标签中存在连续的同一类预测标签，由所述连续的同一类预测标签对应的字词，组合为一个上位词或下位词；

检测所述待抽取语料中所述目标预测标签对应的字词中，是否存在多个上位词和/或多个下位词；

如果存在，获取所述待抽取语料中每个上位词对应的目标编码向量，与每个下位词对应的目标编码向量的相似度；

若所述相似度达到相似阈值，将所述相似度对应的上位词和下位词作为所述待抽取语料的上下位关系信息。

3.根据权利要求1~2任一项所述的方法，其特征在于，所述标签预测模型的训练过程包括：

获取存在上下位关系信息的训练语料，并将该训练语料及其具有的上下位关系信息作为一条训练样本；

利用不同字词属性的标签对所述训练语料进行标注，得到相应训练样本的目标标签序列，所述字词属性包括上位词字词属性、下位词字词属性及与上下位关系无关的字词属性；

获取所述训练语料的字词向量，分别经过循环神经网络和自注意力机制的学习，得到所述训练语料中相应字词的目标编码向量，所述目标编码向量表征相应字词与所述训练语料中其他字词之间的语义关联性；

读取上一时刻写入的上位词存储信息和下位词存储信息；

利用所述上位词存储信息、所述下位词存储信息，及当前时刻得到的所述目标编码向量，获取相应字词的预测标签概率；

依据所述训练语料中各字词的预测标签概率，及所述训练语料的目标标签序列进行模型训练，得到标签预测模型。

4.根据权利要求3所述的方法，其特征在于，所述利用所述上位词存储信息、所述下位词存储信息，及当前时刻得到的所述目标编码向量，获取当前时刻预测标签的字词的预测标签概率，包括：

将所述上位词存储信息和所述下位词存储信息，分别与所述目标编码向量进行融合处理；

利用得到的融合处理结果和所述目标编码向量的拼接处理结果，获取相应字词的预测标签概率。

5.一种上下位关系抽取装置，其特征在于，所述装置包括：

待抽取语料获取模块，用于获取待抽取语料；

上下位关系获取模块，用于由所述待抽取语料中所述目标预测标签对应的字词，构成所述待抽取语料的上下位关系信息；

存储信息获取模块，用于在获取所述待抽取语料中各字词的预测标签过程中，按照预设存储规则，利用不同时刻得到的相应字词的目标编码向量，得到相应时刻的存储信息，具体包括：针对所述预测标签序列中所述待抽取语料的任一个字词的预测标签，若所述预测标签是所述目标预测标签，读取上一时刻写入对应存储单元的上位词存储信息或下位词存储信息，所述上一时刻是指得到所述待抽取语料的上一个相邻字词的预测标签的时刻；对所述预测标签对应的目标编码向量与读取到的存储信息进行融合处理，得到当前时刻的存储信息；若所述预测标签不是所述目标预测标签，将上一时刻写入对应存储空间的上位词存储信息或下位词存储信息，作为当前时刻的存储信息；

6.根据权利要求5所述的装置，其特征在于，所述上下位关系获取模块包括：

7.一种计算机设备，其特征在于，计算机设备包括：

通信接口；

存储器，用于存储实现如权利要求1~4任一项所述的上下位关系抽取方法的程序；

处理器，用于加载并执行所述存储器存储的程序，实现如权利要求1~4任一项所述的上下位关系抽取方法的各步骤。