CN114444507A

CN114444507A - 基于水环境知识图谱增强关系的上下文参数中文实体预测方法

Info

Publication number: CN114444507A
Application number: CN202210026721.4A
Authority: CN
Inventors: 毕敬; 姜广; 乔俊飞
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2022-05-06

Abstract

本发明提出一种水环境知识图谱增强关系的上下文参数中文实体预测方法，该方法对水环境的非结构化的文本数据进行处理，构建实体和实体之间关系的三元组，并对构建的三元组信息进行知识推理。具体流程包括：首先，对水环境的文本数据进行预处理，用来抽取其实之间的关系；其次，对标记的文本数据词向量化，并对其起始位置信息编码，输入到双向长短期记忆网络模型中，识别出水环境文本中控制单元、气象站、水文站等实体信息；再次，将词向量输入到多元关系数据嵌入模型中，抽取命名实体之间的关系，构建实体之间关系的三元组集合；最后，根据三元组集合并通过增强关系上下文参数的权重来预测尾部命名实体，从而提升预测精度。

Description

基于水环境知识图谱增强关系的上下文参数中文实体预测方法

技术领域

本发明涉及一种基于水环境知识图谱增强关系的上下文参数中文实体预测方法。

背景技术

知识图谱是Google在2012年5月17日提出的，其初衷是为了提高搜索引擎的能力，改善用户的搜索质量以及搜索体验，随着人工智能技术的发展和应用，知识图谱作为关键技术之一，已被广泛应用于智能搜索、智能问答、个性化推荐、内容分发等领域，一个知识图谱旨在描述现实世界中存在的实体以及实体之间的关系。

知识图谱现在的研究现状集中于命名实体的识别NER、实体关系抽取(RelationExtraction,RE)、实体识别与链接(Entity Recognition and Linking,ERL)以及知识推理(Knowledge Reasoning,KR)等方面，NER只是在有限的文本类型(主要是新闻语料)和实体类别(主要是人名、地名)中取得了效果，在特定领域内的命名实体识别的效果有限。

中文的命名实体识别和英文相比挑战更大，目前未解决的难题更多。命名实体识别效果的判断主要看实体的边界是否划分正确以及实体的类型是否标注正确。在英文中，命名实体一般具有较为明显的形式标志，因此其实体边界识别相对容易很多，主要重点是在对实体类型的确定，中文命名实体主要有几个难点，各类命名实体的数量众多；命名实体的构成规律复杂；嵌套情况复杂。本专利中预处理的水环境文本除了要识别其中的地名和人名外，还要实体其中的企业工业、自动站、监测站、气象站以及水流域等实体，实体种类繁多，需要人工进行特定的标注和添加分词字典，提高识别的精度。

针对中文命名实体的复杂性和一些限制，当对文本中的实体进行链接预测时候，预测实体的精确度就会有所损失，因此，以往将命名实体和关系一起词向量化后传入模型后，经过特征提取和池化后输入到全连接层，最终经过激活函数的操作，得到尾部命名实体这种以往的链路预测方法，可以将头部命名实体和关系的词向量化操作，拆分开来，头部命名实体经过词向量后进入模型，再使用增强上下文参数函数对关系进行处理，处理后增强的关系权重和经过模型处理后的词向量进行参数权重的叠加操作，再经过全连接层、池化层以及激活函数的操作，输出预测的尾部命名实体，通过增强关系上下文参数权重来提升尾部命名实体预测的精度。

发明内容

针对以上现有技术的不足，本发明提供一种基于水环境知识图谱增强关系的上下文参数中文实体预测方法，头部命名实体经过词向量后进入模型，再使用增强上下文参数函数对关系进行处理，处理后增强的关系权重和经过模型处理后的词向量进行参数权重的叠加操作，再经过全连接层、池化层以及激活函数的操作，输出预测的尾部命名实体，通过增强关系上下文参数权重来提升尾部命名实体预测的精度。

根据本发明的一个方面，提供了对水环境文本的预处理操作，将非结构化的文本进行BIOES编码，统计不同汉字的个数，指定每个汉字使用固定的维度N进行表示，转化为计算机可以识别的词向量表示，词向量的是一个二维矩阵M*N，其中M是不同汉字的个数，N是一个汉字使用多大的维度进行表示，梳理出命名实体之间的关系，存入指定的字典中，构建关系的词向量表示，在构建词向量的同时，使用字典存储汉字和下标的映射关系、下标和汉字的映射关系、实体关系和下标的映射关系以及下标和实体关系的映射关系，下标可以使用字典中汉字个数递增的数量表示。

根据本发明的另一方面，将处理的文本数据词向量化，输入到模型中，识别文本中命名实体，并且抽取实体和实体之间的关系，构建表示知识图谱的三元组集合，根据构建的三元组集合数据，将三元组中的关系输入到增强关系上下文参数的模型函数中，增强关系的权重参数和实体预测模型输出的头部命名实体的参数进行参数的叠加操作，以此来提高链路预测的尾部命名实体的精确度。

根据本发明的上述方面，可以将传统头部命名实体和关系一起词向量化后操作输入到模型中的过程，拆分开来，头部命名实体经过词向量后进入模型，再使用增强上下文参数函数对关系进行处理，处理后增强的关系权重和经过模型处理后的词向量进行参数权重的叠加操作，再经过全连接层、池化层以及激活函数的操作，输出预测的尾部命名实体，通过增强关系上下文参数权重来提升尾部命名实体预测的精度。

本发明的目的通过以下技术方案来实现：

一种基于水环境知识图谱增强关系的上下文参数中文实体预测方法，其特征在于，包括如下步骤：

步骤1：对文本数据的处理，使用BIOES编码标注待处理的文本序列；

步骤2：文本标注序列的命名实体的识别；

步骤3：文本标注序列的命名实体之间关系的抽取；

步骤4：命名实体关系上下文参数的生成；

步骤5：根据命名实体识别的头部实体和实体间关系生成的增强上下文参数预测实体三元组中的尾部实体。

首先对中文文本数据进行处理，具体为：

步骤1：进行BIOES的编码，将中文文本的每一行的数据的每一个汉字存入一个新的文件中，该文件中的每一行包含两个字段，第一个字段是一个汉字，这个汉字就是每一行句子中的每个汉字，第二个字段就是BIOES编码的标志，两个字段之间使用空格分割，句子和句子之间使用一个空行进行分割，表示一个句子的结束。在BIOES编码中，其中O表示无关重要的汉字，B表示要识别中文实体的开始汉字，I表示识别中文实体的中间汉字，E表示要识别中文实体的结束汉字，S表示可以单个汉字构成的中文实体；

步骤2：根据文本进行汉字的词向量化，统计文本不同汉字的个数，指定使用的维度来表示一个汉字的词向量，将其传入模型中，生成汉字的词向量矩阵，词向量矩阵是计算机可以识别的数据输入。同时生成汉字到下标之间的字典映射，下标到汉字的字典映射，关系到下标的字典映射，下标到关系的字典映射，实体的关系是根据文本数据，人工指定的实体关系；

步骤3：对文本中的每个句子生成新的文本，在每个句子后面添加新的字段，命名实体之间的关系，即头部实体、头部实体类别、头部实体在句子中出现的索引位置、尾部实体、尾部实体类别、尾部实体在句子中出现的索引位置，字段之间使用“#”分割开。

其次，对命名实体和命名实体之间的关系进行建模，具体为：

步骤1：对命名实体识别NER问题进行抽象建模，给定一个句子中汉字标识符集合w＝(w₁,w₂,...,w_N)，NER输出一个三元组＜I_s,I_e,t＞的列表，列表中的每个三元组代表w中的一个命名实体。此处I_s∈[1,N]，I_e∈[1,N]，分别表示为命名实体的起始索引以及结束索引；t指代从预定义类别中选择的实体类别；

步骤2：构建文本词向量矩阵，批量读取BIOES编码后的文本数据中的编码标识以及在汉字到下标字典中取出汉字对应的下标输入到模型中，识别出给定文本句子中的实体；

步骤3：对命名实体关系抽取NRE问题进行抽象建模，给定一个句子中汉字标识符集合w＝(w₁,w₂,...,w_N)，NRE输出一个三元组＜e_s,r,e_e＞的列表，列表中的每个三元组代表w中的一对命名实体之间的关系。此处e_s，e_e，分别表示为句子中头部命名实体和尾部命名实体；r指代从预定义类别中选择的实体之间关系类别。

接下来，将每行记录中的关系字段去除掉，将构建文本词向量矩阵，批量读取BIOES编码后的文本数据中的编码标识以及在汉字到下标的字典中取出汉字对应的下标输入到模型中，识别出给定文本句子中的实体和实体之间的关系。上下文参数生成模块是一个函数g，它接受一个关系r作为输入，并输出某个其他函数f的参数θ，θ=g(r)。

最后，可以对嵌入上下文参数的中文实体关系推断进行建模，z＝Conv1D(Res ape(e_s))，e_s是输入的头部实体的词向量表示，对其进行形状变换，再进行1维卷积操作提取特征图。θ＝g(r)，上下文参数生成模块是一个函数g，它接受一个关系r作为输入，并输出某个其他函数f的参数θ，

经过函数f_θ(z)计算，得出预测的尾部命名实体，然后和抽取的实体三元组的关系进行对比，计算模型预测的尾部实体精确度。

本发明的优点在于：

1.该方法将中文命名实体识别、实体关系抽取以及实体预测应用到水环境特定的文本中，构建知识图谱垂直领域的水环境知识库，丰富水环境文本的语义查询；

2.该方法采用了增强的关系权重和经过模型处理后的词向量进行参数权重的叠加操作，再经过全连接层、池化层以及激活函数的操作，输出预测的尾部命名实体，提高链路预测实体的精度；

3.挖掘出水环境文本中实体之间的隐藏关系，水环境文本实体之间存在着嵌套关系，根据实体之间关系的传递性，找出两个实体之间是否有联系，构建更加完善的水环境知识库。

附图说明

图1基于水环境知识图谱增强关系的上下文参数中文实体预测方法概念框架示意图；

图2水环境中文命名实体识别模型图；

图3水环境中文命名实体关系抽取模型图；

图4水环境中文命名实体链路预测模型图。

具体实施方式

如图1所示，基于水环境知识图谱增强关系的上下文参数中文实体预测方法，其包括以下步骤：

第一步对文本数据的处理，使用BIOES编码标注待处理的文本序列

进行BIOE的编码，将中文文本的每一行的数据的每一个汉字存入一个新的文件中，该文件中的每一行包含两个字段，第一个字段是一个汉字，这个汉字就是每一行句子中的每个汉字，第二个字段就是BIOES编码的标志，两个字段之间使用空格分割，句子和句子之间使用一个空行进行分割，表示一个句子的结束。在BIOES编码中，其中O表示无关重要的汉字，B表示要识别中文实体的开始汉字，I表示识别中文实体的中间汉字，E表示要识别中文实体的结束汉字，S表示可以单个汉字构成的中文实体。其次，对文本中的每一个句子，生成新的文本，在每个句子后面添加新的字段，命名实体之间的关系，头部实体，头部实体类别，头部实体在句子中出现的索引位置，尾部实体，尾部实体类别，尾部实体在句子中出现的索引位置，字段之间使用“#”分割开。

第二步文本标注序列的命名实体的识别

对命名实体关系抽取NRE问题进行抽象建模，给定一个句子中汉字标识符集合w＝(w₁,w₂,...,w_N)，NRE输出一个三元组＜e_s,r,e_e＞的列表，列表中的每个三元组代表w中的一对命名实体之间的关系。此处e_s，e_e，分别表示为句子中头部命名实体和尾部命名实体；r指代从预定义类别中选择的实体之间关系类别。如图2所示，将第一步中的BIOES编码的文本词向量化，输入到双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)+条件随机场(Conditional Random Fields,CRF)模型中，经过特征提取、池化层、全连接层和激活函数的处理，识别文本中命名实体，公式如下：

L＝log(P(y|X)，

其中，s＝(s₁,s₂,...,s_n)为给定的观察序列，Y＝(y₁,y₂,...,y_n)是计算状态序列的条件概率P(y|c)，f_i是特征函数，w_i是特征函数的权重，Z(s)是归一化项，y*X是所有标记的集合，

是真是标记，L是定义的损失函数，y^*是集合中得分函数取得最大值的序列。

第三步文本标注序列的命名实体之间关系的抽取

对命名实体关系抽取NRE问题进行抽象建模，给定一个句子中汉字标识符集合w＝(w₁,w₂,...,w_N)，NRE输出一个三元组＜e_s,r,e_e＞的列表，列表中的每个三元组代表w中的一对命名实体之间的关系。此处e_s，e_e，分别表示为句子中头部命名实体和尾部命名实体；r指代从预定义类别中选择的实体之间关系类别，如图3所示，对第一步去除关系的文本数据，输入到TransE模型中，经特征提取、池化层、全连接层和激活函数处理，抽取实体之间的关系。公式如下：

t＝o_t*tan(c_t)，

MA*H，

y＝softmax(M)。

t-1表示前一个时刻LSTM隐藏层的状态，c_t当前时刻细胞的状态，A表示多通道自注意力机制的权重，H是LSTM输出的t集合，y是预测的关系。

第四步命名实体关系上下文参数的生成

经过第三步的关系抽取，将抽取的关系传入上下文参数生成模块，上下文参数生成模块是一个函数g，它接受一个关系r作为输入，并输出某个其他函数f的参数θ，θ＝g(r)。

第五步头部实体和关系生成的上下文参数链路预测尾部实体

如图4所示，对第二步中的命名实体和第三步中的关系抽取，以及第四步中的上下文参数模块进行处理，对嵌入上下文参数的中文实体关系推断进行建模，z＝Conv1D(Resape(e_s))，e_s是输入的头部实体的词向量表示，对其进行形状变换，再进行1维卷积操作提取特征图。θ＝g(r)，上下文参数生成模块是一个函数g，它接受一个关系r作为输入，并输出某个其他函数f的参数θ，

本发明的基于水环境知识图谱增强关系的上下文参数中文实体预测方法。将传统头部命名实体和关系一起词向量化后操作输入到模型中的过程，拆分开来，头部命名实体经过词向量后进入模型，再使用增强上下文参数函数对关系进行处理，处理后增强的关系权重和经过模型处理后的词向量进行参数权重的叠加操作，再经过全连接层、池化层以及激活函数的操作，输出预测的尾部命名实体，通过增强关系上下文参数权重来提升尾部命名实体预测的精度。

显然，本发明的上述具体实施方式仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定，对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种基于水环境知识图谱增强关系的上下文参数中文实体预测方法，其特征在于，包括如下步骤：

步骤1：对文本数据的预处理，使用序列标注模式(Begin Inside Outside EndSingle,BIOES)标注待处理的文本序列；

步骤2：文本标注序列的命名实体的识别；

步骤3：文本标注序列的命名实体之间关系的抽取；

步骤4：命名实体关系上下文参数的生成；

步骤5：根据命名实体识别的头部实体和命名实体关系生成的上下文参数预测命名实体识别的尾部实体。

2.根据权利要求1所述的基于水环境知识图谱增强关系的上下文参数中文实体预测方法，其特征在于，步骤1中对中文文本数据进行处理，具体为：

3.根据权利要求1所述的基于水环境知识图谱增强关系的上下文参数中文实体预测方法，其特征在于，步骤2具体为：

对命名实体识别(Named Entities Recognition,NER)问题进行抽象建模，给定一个句子中汉字标识符集合w=(w₁,w₂,...,w_N)，NER输出一个三元组＜I_s,I_e,t＞的列表，列表中的每个三元组代表w中的一个命名实体。此处I_s∈[1,N]，I_e∈[1,N]，分别表示为命名实体的起始索引以及结束索引；t指代从预定义类别中选择的实体类别。

根据权利要求2中步骤1和步骤2所述方法，将构建文本词向量矩阵，批量读取BIOES编码后的文本数据中的编码标识以及在汉字到下标的字典中取出汉字对应的下标输入到模型中，识别出给定文本句子中的实体。

4.根据权利要求1所述的基于水环境知识图谱增强关系的上下文参数中文实体预测方法，其特征在于，步骤3具体为：

对命名实体关系抽取(Named Entities Relation Extraction,NRE)问题进行抽象建模，给定一个句子中汉字标识符集合w＝(w₁,w₂,...,w_N)，将w词向量化后输入到模型中，NRE输出一个三元组＜e_s,r,e_e＞列表，列表中的每个三元组代表w中的一对命名实体之间的关系。此处e_s，e_e分别表示为句子中头部命名实体和尾部命名实体；r指代从预定义类别中选择的实体之间关系类别。

根据权利要求2中步骤3和权利要求3中所述方法，将权利要求2中步骤3中的每行记录中的关系字段去除掉，将构建文本词向量矩阵，批量读取BIOES编码后的文本数据中的编码标识以及在汉字到下标的字典中取出汉字对应的下标输入到多元关系数据嵌入(Translation Embeddings for modeling multi-relation data,TransE)模型中，识别出给定文本句子中的实体和实体之间的关系。

5.根据权利要求1所述的基于水环境知识图谱增强关系的上下文参数中文实体预测方法，其特征在于，步骤4具体为：

上下文参数生成模块是一个函数g，它接受一个关系r作为输入，并输出某个其他函数f的参数θ，θ＝g(r)。

6.根据权利要求1所述的基于水环境知识图谱增强关系的上下文参数中文实体预测方法，其特征在于，步骤5具体为：

根据权利要求3，权利要求4以及权利要求5中所述的方法，可以对嵌入上下文参数的中文实体关系推断进行建模，中文文本的卷积核图像的卷积不同，图像卷积特征的提取，卷积的方向有两个，一个是从左到右，一个是从上到下，文本的卷积的方向有一个就是从上到下，文本的词向量表示不能分割开来，借助知识图谱二维卷积词嵌入(Convolutional 2Dknowledge graph Embedding,ConvE)模型的思想，将其中的二维卷积改成一维卷积1，对文本的特征进行提取，z＝Conv1D(Res ape(e_s))，e_s是输入的头部实体的词向量表示，对其进行维度形状变换，再进行1维卷积操作提取特征图。θ＝g(r)，上下文参数生成模块是一个函数g，它接受一个关系r作为输入，并输出某个其他函数f的参数θ，

经过函数f_θ(z)计算，得出预测的尾部命名实体，再和权利要求5中所述抽取的实体三元组之间的关系进行对比，计算模型预测的精确度。