CN112612884B

CN112612884B - 一种基于公共文本的实体标签自动化标注方法

Info

Publication number: CN112612884B
Application number: CN202011360173.6A
Authority: CN
Inventors: 万海; 陈德和; 刘亚男; 黄佳莉; 曾娟
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2024-03-12
Anticipated expiration: 2040-11-27
Also published as: CN112612884A

Abstract

本发明涉及一种基于公共文本的实体标签自动化标注方法，包括：S1：预定义与任务相关的实体标签集合以及标签体系；S2：获得实体与标签的文本证据集合；S3：根据S2获得的文本证据集合，利用编码器对文本证据进行编码；S4：实体类型预测；S5：下游模型训练：将经实体类型预测后的知识图谱应用到下游任务中，根据下游任务的损失函数对自然语言处理模型进行训练，再通过梯度回传将误差反向传播到自然语言处理模型中，对模型参数进行更新；S6：利用更新后的自然语言处理模型对实体标签进行标注。本发明可避免大量数据标注的成本，并可解决了实体所属标签程度难以定量估计与标注的困难，具有良好的应用性，提高了实体归类方法的可用性。

Description

一种基于公共文本的实体标签自动化标注方法

技术领域

本发明涉及文本实体归类领域，更具体地，涉及一种基于公共文本的实体标签自动化标注方法。

背景技术

知识图谱是由真实世界中的多关系结构化数据构成的，描述了真实世界中的多个实体以及实体之间的关系。知识图谱能够体现多个事实，每一个事实是通过一个三元组(h,r,t)来进行表征，其中h代表头部实体，t代表尾部实体，r代表头尾实体存在的关系。随着近年来知识图谱技术的发展，知识图谱在许多人工智能相关的任务中的重要性越来越得以体现，例如智能问答、信息抽取等。目前已经存在许多大规模的通用知识图谱，诸如DBPedia、Freebase，但随着知识图谱在各个领域上的突出表现，许多研究者正关注于如何构建领域相关的知识图谱，从而使之能够更有利于下游人工智能相关的人物。

近年来，知识图谱构建的技术获得广泛的关注，并取得了较为先进的研究成果。知识图谱的构建涉及多个方面的流水线步骤：命名实体识别、实体归类、关系抽取等等。当前较为先进的命名实体识别技术中，Jacob Devlin等人首先利用Bert模型学习单词的词嵌入再往上拼接一个条件随机场(CRF)层从而进行命名实体识别。在关系抽取方面，TransE、TransR以及TransH是较为有代表性的技术。目前命名实体识别以及关系抽取技术的发展已经较为成熟。而在实体归类任务中，Ji Xin等人利用神经网络模型对文本进行处理再把实体归类任务转化为多分类任务。

但是目前实体归类方法存在较多不足之处，具体地：

(1)当前的方法都依赖于大量的标注训练数据，对这些训练数据来说，标签内容以及标签体系都是预先定义的，而同一批数据在不同的子任务上可能有不同的标签内容以及标签体系，从而带来了极大的标注成本。

(2)一个实体可能属于多个标签，并且由于每个实体的个体差异，实体属于的标签以及所属程度可能是不确定的，例如，某个编剧的写作题材可能更侧重在喜剧类但也会少部分涉及到动作类，因此在实体归类的过程中也需要将这种差异体现出来。

(3)基于第(2)点，进一步带来了数据标注的难度，因为实体在标签归类过程中的侧重程度并不能够轻易地定量确定，也不存在固定的准则来确定该侧重程度。

发明内容

本发明为克服上述现有技术所述的公共文本的实体标签标注难度大的缺陷，提供一种基于公共文本的实体标签自动化标注方法。

所述方法包括：

S1：根据下游任务领域的特性预定义知识图谱中与下游任务相关的实体标签集合；

其中，知识图谱是由一系列的节点以及边构成的，其中的节点就是实体，而边就是实体之间的关系。

S3：根据S2获得的文本证据集合，利用自然语言处理模型中的编码器对文本证据进行编码；

S4：实体类型预测：基于S3得到的文本证据编码结果，预测实体属于不同标签的程度；

S5：下游模型训练：将经实体类型预测后的知识图谱应用到下游任务中，根据下游任务的损失函数对自然语言处理模型进行训练，再通过梯度回传将误差反向传播到自然语言处理模型中，对模型参数进行更新；

S6：利用更新后的自然语言处理模型对实体标签进行标注。

优选地，S2具体为：基于步骤1的预定义的标签集合以及实体本身的名称作为搜索关键词，获得搜索引擎对于特定实体-标签搜索组合返回的网页快照，从而获得该实体属于该标签的文本证据集合。

优选地，S3中利用编码器对不同的文本证据集合应用自然语言处理模型对文本证据进行编码。

优选地，S3中所述编码器包括文本编码器、单标签文本证据集合编码器以及多标签文本证据集合编码器。

优选地，S3具体为：

文本编码器通过卷积神经网络文本处理模型对搜索引擎返回的每条文本证据进行编码，得到句子级别的标签嵌入表示；

单标签文本证据集合编码器利用单个实体与单个标签的文本证据集合，其中每条文本证据已经通过文本编码器模块编码成了句子级别的嵌入表示，再应用注意力机制对单标签文本证据集合中的所有文本证据进行编码，得到单标签级别的标签嵌入表示；

由于实体可能属于多个标签，因此多标签文本证据集合编码器基于实体在每个标签下的单标签级别标签嵌入表示，再应用一层注意力机制对标签集合中的单标签级别标签嵌入表示进行编码，得到最终的多标签级别的标签嵌入表示。

优选地，文本编码器过程具体为：

假设实体表示为e，标签集合表示为C＝{c₁,c₂,……c_N}，利用实体e与标签c_i获得的文本集合为T(e,c_i)＝{t₁,t₂,……t_M}，其中t_j为搜索引擎返回的第j条文本网页快照，即一段文字；

对于T(e,c_i)中的每一条文本，应用卷积神经网络(CNN)对文本进行编码，得到每条文本的文本嵌入表示

优选地，单标签文本证据集合编码器的编码过程具体为：

将T(e,c_i)中的每个文本通过同一个卷积神经网络，就能得到每个文本的文本嵌入表示，基于T(e,c_i)对应的文本嵌入集合，应用注意力机制进行单标签文本证据集合编码，获得实体e在c_i上单标签嵌入表示

其中W₁,b₁,p_a为可训练参数，W₁表示实体单标签嵌入表示的权重矩阵、b₁表示实体单标签嵌入表示的偏置项、p_a表示注意力机制中的查询向量。

优选地，多标签文本证据集合编码器的编码过程具体为：对于实体e以及标签集合C＝{c₁,c₂,……c_N}，将每个标签对应的文本证据集合通过单标签文本证据集合编码器，得到每个标签对应的单标签嵌入表示，在单标签层面上再次应用另一套注意力机制，得到该实体的多标签文本嵌入表示l_e：

其中W₂,b₂,q_a为可训练参数，W₂表示实体多标签文本嵌入表示的权重矩阵、b₂表示实体多标签文本嵌入表示的偏置项、q_a表示注意力机制中的查询向量。

优选地，S4具体为：

由于多标签文本证据集合编码器基于标签集合下的单标签级别的标签嵌入表示应用注意力机制进行编码，而在注意力机制中会产生每个标签的注意力权重β作为中间输出，因此该注意力权重β就能够体现该实体属于标签集合下每个标签的程度。

与现有技术相比，本发明技术方案的有益效果是：

本发明能够解决知识图谱构建过程中实体归类方法涉及的多标签问题，在解决多标签归类问题的同时，不仅能够预测实体所属的多个标签，还能够精确地预测实体属于每个标签的程度，这一点符合大多数现实应用场景，体现出实体在特定任务中对不同标签的侧重点不一样的特点，从而能够构建更精确的知识图谱并进一步提高下游人工智能相关任务的性能。

本发明能够利用公共互联网中与实体-标签相关的网页文本信息作为文本证据并利用自然语言处理模型来预测实体属于每个标签的程度，从而避免了大量数据标注的成本，并且解决了实体所属标签程度难以定量估计与标注的困难，具有良好的应用性，提高了实体归类方法的可用性。

附图说明

图1为实施例1所述基于公共文本的实体标签自动化标注方法流程图。

图2为本证据获得步骤的流程示意图。

图3为本证据编码步骤的流程示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1：

本实施例提供一种基于公共文本的实体标签自动化标注方法。如图1所示，所述方法包括：

S2：获得实体与标签的文本证据集合：如图2所示，基于S1的预定义标签集合以及实体本身的名称作为搜索关键词，获得搜索引擎对于特定实体-标签搜索组合返回的前10条网页快照，从而获得该实体属于该标签的文本证据；

搜索的过程中可以选取必应或者百度作为特定搜索引擎，并且为了减少人工搜索的成本，这个步骤可以利用数据爬虫进行完成。最终在该过程中只需设定好搜索引擎的访问地址，以及枚举实体名称与标签的集合，即可通过数据爬虫自动获取特定实体与特定标签组合的文本证据；

S3：文本证据编码：该步骤分为文本编码器、单标签文本证据集合编码器以及多标签文本证据集合编码器三个模块。利用S2得到的文本证据，对于每个实体，不同的标签对应不同的文本证据集合。

具体的，如图3所示，文本编码器通过特定的文本处理模型对搜索引擎返回的每条文本证据进行编码，得到句子级别的标签嵌入表示；单标签证据集合编码器利用单个实体与单个标签的文本证据集合(其中每条文本证据已经通过文本编码器模块编码成了句子级别的嵌入表示)，再应用注意力机制对该集合中的所有文本证据进行编码，得到单标签级别的标签嵌入表示；由于实体可能属于多个标签，因此多标签文本证据集合编码器基于实体在每个标签下的单标签级别标签嵌入表示，再应用一层注意力机制对标签集合中的单标签级别标签嵌入表示进行编码，得到最终的多标签级别的标签嵌入表示。

在S3中，文本证据编码分为文本编码器、单标签文本证据集合编码器以及多标签文本证据集合编码器三个模块。

假设实体表示为e，标签集合表示为C＝{c₁,c₂,……c_N}，利用实体e与标签c_i获得的文本集合为T(e,c_i)＝{t₁,t₂,……t_M}，其中t_j为搜索引擎返回的第j条文本网页快照，即一段文字。

文本编码器：对于T(e,c_i)中的每一条文本，应用卷积神经网络(CNN)对文本进行编码，得到每条文本的文本嵌入表示

单标签文本证据集合编码器：将T(e,c_i)中的每个文本通过同一个卷积神经网络，就能得到每个文本的文本嵌入表示，基于T(e,c_i)对应的文本嵌入集合，应用注意力机制进行单标签文本证据集合编码，获得实体e在c_i上单标签嵌入表示

多标签文本证据集合编码器：对于实体e以及标签集合C＝{c₁,c₂,……c_N}，将每个标签对应的文本证据集合通过单标签文本证据集合编码器，得到每个标签对应的单标签嵌入表示，在单标签层面上再次应用另一套注意力机制，得到该实体的多标签文本嵌入表示l_e：

S4：实体类型预测：在S3中，最后一个模块是多标签文本证据集合编码器，对于特定的实体，该模块基于标签集合下的单标签级别的标签嵌入表示应用注意力机制进行编码，而在注意力机制中会产生每个标签的注意力权重β作为中间输出，因此该注意力权重β就能够体现该实体属于标签集合下每个标签的程度。

S5：下游模型训练：由于实体归类的过程中是缺乏训练数据的，并且多标签体系下对实体类型以及所属程度进行标注是极其困难的，因此多标签实体归类任务需要与下游的人工智能相关的任务进行端到端学习，这样做一方面降低了实体归类过程中数据标注的难度，更重要的是能够产生与下游任务相关的实体类型。基于下游任务的损失函数，对该损失函数进行优化，产生的梯度能够进一步反向传输到实体归类任务中，继而对实体归类过程中涉及到的文本处理模型以及注意力机制的权重进行学习与更新，达到端到端学习的效果。

S6：利用更新后的自然语言处理模型对实体标签进行标注。附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于公共文本的实体标签自动化标注方法，其特征在于，所述方法包括：

其中，知识图谱是由一系列的节点以及边构成的，其中的节点就是实体，而边就是实体之间的关系；

S2：根据实体标签集合，获得实体与标签的文本证据集合；

利用编码器对不同的文本证据集合应用卷积神经网络文本处理模型对文本证据进行编码；

所述编码器包括文本编码器、单标签文本证据集合编码器以及多标签文本证据集合编码器；

具体为：

(1)利用文本编码器对文本证据集合中的每个文本进行编码：利用文本编对搜索引擎返回的每条文本证据进行编码，得到句子级别的标签嵌入表示；

文本编码器通过卷积神经网络文本处理模型对搜索引擎返回的每条文本证据进行编码；文本编码器的编码过程具体为：

对于T(e,c_i)中的每一条文本，应用卷积神经网络对文本进行编码，得到每条文本的文本嵌入表示

(2)利用单标签文本证据集合编码器对同一标签下得到的文本证据集合进行编码：单标签文本证据集合编码器利用单个实体与单个标签的文本证据集合，再应用注意力机制对单标签文本证据集合中的所有文本证据进行编码，得到单标签级别的标签嵌入表示；

单标签文本证据集合编码器的编码过程具体为：

其中W₁,b₁,p_a为可训练参数，W₁表示实体单标签嵌入表示的权重矩阵、b₁表示实体单标签嵌入表示的偏置项、p_a表示注意力机制中的查询向量；

(3)利用多标签文本证据集合编码器对标签集合中的文本证据集合进行编码：由于实体可能属于多个标签，因此多标签文本证据集合编码器基于实体在每个标签下的单标签级别标签嵌入表示，再应用一层注意力机制对标签集合中的单标签级别标签嵌入表示进行编码，得到最终的多标签级别的标签嵌入表示；

多标签文本证据集合编码器的编码过程具体为：对于实体e以及标签集合C＝{c₁,c₂,……c_N}，将每个标签对应的文本证据集合通过单标签文本证据集合编码器，得到每个标签对应的单标签嵌入表示，在单标签层面上再次应用另一套注意力机制，得到该实体的多标签文本嵌入表示l_e：

其中W₂,b₂,q_a为可训练参数，W₂表示实体多标签文本嵌入表示的权重矩阵、b₂表示实体多标签文本嵌入表示的偏置项、q_a表示注意力机制中的查询向量；

S6：利用更新后的自然语言处理模型对实体标签进行标注。

2.根据权利要求1所述基于公共文本的实体标签自动化标注方法，其特征在于，S2具体为：基于S1的预定义的标签集合以及实体本身的名称作为搜索关键词，获得搜索引擎对于特定实体-标签搜索组合返回的网页快照，从而获得该实体属于该标签的文本证据集合。

3.根据权利要求2所述基于公共文本的实体标签自动化标注方法，其特征在于，S4具体为：