CN117010391A

CN117010391A - 一种同时面向封闭域与开放域的联合属性抽取方法和装置

Info

Publication number: CN117010391A
Application number: CN202310824436.1A
Authority: CN
Inventors: 邹磊; 李彦增
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2023-07-06
Filing date: 2023-07-06
Publication date: 2023-11-07

Abstract

本发明涉及一种同时面向封闭域与开放域的联合属性抽取方法和装置。该方法包括：对待抽取属性的文本进行分词，得到由一系列词构成的序列集合；利用神经网络模型对分词得到的序列集合进行编码，得到文本向量；构建属性树，利用神经网络模型对编码后的文本向量进行解码，得到属性值与属性名，并将属性值与属性名复制到属性树对应的层级，得到属性树；将属性树的各个分支展开为头实体、属性值、属性名三元组，完成属性抽取。本发明可以实现对封闭域和开放域文本属性名、属性值的统一抽取，抽取形式统一，抽取效果好，使用时占用资源少，编码解码速度快。

Description

一种同时面向封闭域与开放域的联合属性抽取方法和装置

技术领域

本发明提供一种同时从非结构化文本抽取封闭域与开放域属性的方法和装置，具体涉及一种数据结构和神经网络设计，属于数据挖掘技术领域。

背景技术

属性一般由属性名和属性值构成，用于表达对应实体的特征与性状，是知识图谱中重要的一部分，在电商系统、搜索引擎、推荐系统等应用中发挥着重要作用。属性抽取致力于从半结构或非结构化文本中识别属性名和属性值，是知识图谱构建中的一个重要任务。

传统的属性抽取方法可根据抽取的属性名是否给定可选集合分为两种范式：(1)封闭世界假设下的属性抽取，即封闭域属性抽取，该范式下可以将属性名限定在预先定义好的本体中，可以通过将属性名抽取建模为分类任务处理，再针对不同属性名类型使用相应的规则模板或训练神经网络模型提取属性值；(2)开放世界假设下的属性抽取，即开放域属性抽取，该范式下属性名和属性值的取值都不预先给定限定本体，需要利用一些开放抽取技术从文本中获得，如序列标注方法和问答模型被广泛应用。

但是，单独的封闭世界和开放世界假设都不足以应对真实世界中复杂的属性抽取场景。一方面，现实世界中新类型的产品和属性在源源不断地出现，局限于预定义本体的封闭域属性抽取大大限制了模型的泛化能力和适应性；另一方面，与关系抽取不同的是，属性名并不总是显式出现在文本中，如“小明18岁”一句反映了小明的年龄属性，但文本中并没有“年龄”这样的显式提及，无法通过开放抽取的方法得到这一标注。如何针对真实世界的非结构化文本同时抽取封闭域与开放域的属性名与属性值，是尚待解决的难题。

发明内容

本发明的目的是提供一种同时面向封闭域与开放域的联合属性抽取方法和装置，采用基于深度学习技术的从文本生成属性树的生成式模型，用以解决真实世界场景下无法兼顾封闭域与开放域属性抽取的问题。

本发明设计了一种名为属性树的数据结构，用于同时表达封闭世界假设和开放世界假设下的属性抽取结果，并基于深度学习技术，设计结构化生成模型，从文本中复制符合语义的字符作为属性树的节点，从而得到封闭域与开放域下联合属性抽取的结果。

本发明的一种同时面向封闭域与开放域的联合属性抽取方法，包括如下步骤：

对待抽取属性的文本进行分词，得到由一系列词构成的序列集合；

利用神经网络模型对分词得到的序列集合进行编码，得到文本向量；

构建属性树，利用神经网络模型对编码后的文本向量进行解码，得到属性值与属性名，并将属性值与属性名复制到属性树对应的层级，得到属性树；

将属性树的各个分支展开为头实体、属性值、属性名三元组，完成属性抽取。

进一步地，在所述分词之前，对待抽取属性的文本进行预处理，所述预处理包括去除特殊符号、垃圾信息、不正确编码等。

进一步地，所述利用神经网络模型对分词得到的的序列集合进行编码，其中神经网络模型为LSTM-CNN(长短时记忆神经网络与卷积神经网络构成的联合深度学习模型)等。

进一步地，所述利用神经网络模型对编码后的文本向量进行解码，其中神经网络模型为LSTM模型等。

进一步地，所述利用神经网络模型对编码得到的文本向量进行解码，包括：

构建一颗空的属性树，开始对上述编码后的文本向量进行解码：

对文本中可能存在的属性值使用神经网络模型进行解码，无论该属性值是属于开放域还是属于封闭域都统一进行解码，并将解码后的子串(即属性值)复制到属性树的第一层；

对属性树的第一层属性值进行循环遍历，同时与原文本的编码合并，使用神经网络模型进行联合解码，解码出对应属性值的属性名，将解码后的子串(即属性名)复制到属性树第二层。

进一步地，所述将属性树的各个分支展开为头实体、属性值、属性名三元组，包括：将属性树进行拆分，将全部路径取出，展开为<头实体,属性值,属性名>的三元组结构化信息。

本发明还提供一种同时面向封闭域与开放域的联合属性抽取装置，其包括：

预处理模块，用于对待抽取属性的文本进行预处理；

分词模块，用于对预处理后的文本进行分词，得到由一系列词构成的序列集合；

编码模块，用于利用神经网络模型对分词得到的序列集合进行编码，得到文本向量；

解码模块，用于构建属性树，利用神经网络模型对编码后的文本向量进行解码，得到属性值与属性名，并将属性值与属性名复制到属性树对应的层级，得到属性树；

拆分模块，用于将属性树的各个分支展开为头实体、属性值、属性名三元组，完成属性抽取。

通过本发明所提供的基于编码、解码方式构建属性树的方法，可以实现对封闭域、开放域文本属性名、属性值的统一抽取，其优点和积极效果在于：

1.抽取形式统一，在一次抽取过程中可以同时完成对封闭域属性名和开放域属性名的抽取，而传统方法必须分别处理；

2.抽取效果好，本方法首先对模式较为明显的属性值实施抽取，再借助抽取出的属性值来联合解码属性名，可以有效降低传统方法中联合抽取产生的级联误差；

3.模型设计简单，本方法使用的LSTM-CNN编码器与LSTM模型解码器均为轻量级模型，使用时占用资源少，编码解码速度快。

附图说明

图1是本发明方法的总体属性抽取流程图。

图2是属性树构建流程图。

图3是属性树原型示意图。

图4是属性树抽取示例示意图。

具体实施方式

下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明提供的可以同时从非结构化文本抽取封闭域与开放域属性的方法，是基于深度学习技术的从文本生成属性树的生成式模型。该方法的总体流程如图1所示，包含五个步骤：

第一步是对待抽取文本进行预处理，去除特殊符号、垃圾信息、不正确编码等；

第二步是对预处理后的文本进行分词，得到词构成的序列集合；

第三步是使用LSTM-CNN(长短时记忆神经网络与卷积神经网络构成的联合深度学习模型)进行编码，将上述序列集合中的词转换为向量；

第四步是使用LSTM(长短时记忆神经网络)对得到的向量进行迭代解码，包括两次解码：使用LSTM模型解码属性值，以及使用LSTM模型解码属性名；在两次分别解码中得到所需要的属性值与属性名，并将解码得到的上述子串(属性值与属性名)复制到属性树对应的层级去，得到属性树；

第五步是对使用上述步骤构建得到的属性树进行拆分，将属性树中的每条路径都取出来，展开为<头实体,属性值,属性名>的三元组结构化信息，完成抽取任务。

示例性地，第一步对待抽取文本进行预处理，分为：

1)对文本使用正则表达式和制定的规则集去除特殊符号、垃圾信息、不正确编码等。

2)对待抽取文本集合进行去重，使用Set等集合方式，过滤掉已经处理好的文本，从而节省处理时间与空间。

示例性地，第二步是对预处理后的文本进行分词，以得到待处理的词序列集合，分为：

1)对于英文子串，采用Sub-word切分，例如使用“sentencepiece”工具实现划分，将词根、词缀等成分进行切分；

2)对于数字子串，采用正则表达式进行划分，将完整的数字保留；

3)对于中文子串，采用字划分，及直接将中文的每个字作为一个词结构。

示例性地，第三步是使用LSTM-CNN(长短时记忆神经网络与卷积神经网络构成的联合深度学习模型)进行编码，将上述文本词转换为向量，具体是：

1)将输入的文本经过词嵌入(Word Embedding)后转换为向量表示；

2)将向量化后的文本表示输入一个双向的LSTM模型；

3)将双向LSTM模型的输出结果，输入到一个卷积神经网络中，以获取文本的特征向量。

示例性地，第四步是使用另一个LSTM神经网络作为树解码器，对上述获得的特征向量进行分步解码，并将解码出的子串填入属性树的各个层级中，如图2所示，具体包括：

1)使用LSTM解码器对向量进行解码操作，第一步会得到头实体的起始与结束位置，根据起始和结束位置可以将该头实体完整取出，并作为属性树的根节点；

2)使用LSTM解码器对向量，以及头实体的特征进行联合解码操作，这一步会得到多个属性值的起始与结束位置，从而将完整的属性值取出，作为属性树的第一层叶子节点；

3)遍历属性树的第一层叶子节点，将每个属性值的表示与头实体、文本的向量表示进行分别拼接，实施联合解码，可以得到对应属性名的起始和结束位置，从而将与属性值对应的属性名完整取出，作为属性树的最后一层(第二层)叶子节点。

示例性地，第五步是将上述操作得到的属性树进行拆分，将全部路径取出，展开为<头实体,属性值,属性名>的三元组结构化信息，完成抽取任务。

本发明的关键在于，将传统的序列标注方法转换为了属性树生成任务，从而统一了封闭域与开放域的属性抽取。属性树的结构如图3所示，其叶子节点第一层为属性值，第二层为属性名，其中属性名可以来源于封闭域标注也可以来源于开放域标注，从而通过统一的解码器模型进行解码与抽取。

下面提供一应用实例。如图4所示，该实例以电商促销文本为例，希望从文本(左图)中抽取出正确的属性树(右图)。该实例中，名称、尺寸、价格等字段不会显式地在文本中出现，以封闭域属性抽取性质存在；而材质、色域、分辨率等字段没有在预定义的属性集中出现，只在原文本中显式地出现，作为开放域属性抽取性质存在。通过构建如右图所示的属性树，可以将上述封闭域与开放域的属性字段均联合建模，经过前文所述的抽取流程，经过编码、解码等操作后，可以成功构建出该属性树，从而实现从非结构化文本抽取封闭域与开放域属性。

在包含8万7千条中文商品描述性文本的MEPAVE属性识别数据集上对本发明的方法进行验证，并与传统的BERT、CasRel等模型进行对比，在模型大小远小于上述传统模型的情况下，本发明方法得到了表1的结果。

表1.本发明与传统方法的实验结果对比

方法	属性名准确率	属性值准确率
			Attn-BiRNN	86.10％	83.28％
BERT	86.34％	83.12％
			CasRel	84.74％	79.61％
本发明方法	96.48％	92.26％

上述实验结果表明了本发明是高效、优秀的，与现在普遍使用的模型相比，可以更好地识别与抽取自然语言文本中的属性名与属性值。

本发明的另一实施例提供一种同时面向封闭域与开放域的联合属性抽取装置，其包括：

预处理模块，用于对待抽取属性的文本进行预处理；

其中各模块的具体实施过程参见前文对本发明方法的描述。

本发明的另一实施例提供一种计算机设备(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

本发明采用的LSTM-CNN编码器可以替换为BERT、T5等其他模型，本专利采用的LSTM解码器可替换为BART、T5等解码器模型。

以上公开的本发明的具体实施例，其目的在于帮助理解本发明的内容并据以实施，本领域的普通技术人员可以理解，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种同时面向封闭域与开放域的联合属性抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，在所述分词之前，对待抽取属性的文本进行预处理，所述预处理包括去除特殊符号、垃圾信息、不正确编码。

3.根据权利要求1所述的方法，其特征在于，所述利用神经网络模型对分词得到的的序列集合进行编码，其中神经网络模型为LSTM-CNN模型。

4.根据权利要求1所述的方法，其特征在于，所述利用神经网络模型对编码后的文本向量进行解码，其中神经网络模型为LSTM模型。

5.根据权利要求1所述的方法，其特征在于，所述利用神经网络模型对编码得到的文本向量进行解码，包括：

对文本中可能存在的属性值使用神经网络模型进行解码，无论该属性值是属于开放域还是属于封闭域都统一进行解码，并将解码后的属性值复制到属性树的第一层；

对属性树的第一层属性值进行循环遍历，同时与原文本的编码合并，使用神经网络模型进行联合解码，解码出对应属性值的属性名，将解码后的即属性名复制到属性树第二层。

6.根据权利要求5所述的方法，其特征在于，所述利用神经网络模型对编码得到的文本向量进行解码，还包括：通过解码得到头实体的起始与结束位置，根据起始和结束位置将头实体完整取出，并作为属性树的根节点。

7.根据权利要求1所述的方法，其特征在于，所述将属性树的各个分支展开为头实体、属性值、属性名三元组，包括：将属性树进行拆分，将全部路径取出，展开为<头实体,属性值,属性名>的三元组结构化信息。

8.一种同时面向封闭域与开放域的联合属性抽取装置，其特征在于，包括：

预处理模块，用于对待抽取属性的文本进行预处理；

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～7中任一项所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一项所述的方法。