CN113408289A

CN113408289A - 一种多特征融合的供应链管理实体知识抽取的方法及系统

Info

Publication number: CN113408289A
Application number: CN202110729303.7A
Authority: CN
Inventors: 程良伦; 陈森烨; 王涛; 王卓薇; 邓健峰; 周佳乐
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-09-17
Anticipated expiration: 2041-06-29
Also published as: CN113408289B

Abstract

本发明公开了一种多特征融合的供应链管理实体知识抽取的方法及系统，将数据集中的文本句子转换为字符级向量表示和部首级向量表示，合并并输入卷积层后获得局部上下文特征向量；从字符级特征向量中获取上下文特征向量，输入卷积层中获得上下文突出特征向量；合并上下文特征向量、局部上下文特征向量和上下文突出特征向量后输出得到隐层向量；构造各个实体之间关系的权重连接图，提取区域节点特征，结合实体和权重连接图进行实体预测。本发明能够更好地针对未出现在训练集而未经过训练的汉字进行语义推理，从而降低了对供应链管理知识领域数据集进行知识抽取的难度，改善了知识抽取的效果，使得对该领域数据集的知识抽取能够达到预期的效果。

Description

一种多特征融合的供应链管理实体知识抽取的方法及系统

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种供应链管理领域实体知识抽取的方法及系统。

背景技术

当前国内供应链管理主要靠人力管理，但由于任务往往过于庞大，且知识繁多，因此容易出现错误。为了解决此问题，需要建立供应链管理知识库来辅助管理，而知识库构建需要用到的关键技术之一则是知识抽取。因为国内所需的供应链管理知识库是中文知识库，与英文相比，中文的单元词汇边界模糊、结构复杂、表现形式多样，潜在的错误词汇可能会造成干扰识别的问题，这些都使中文知识抽取的难度更高。且相比于公开数据集，供应链管理领域的语料集规模较小，但专业术语较多、知识结构较为复杂，一般的知识抽取方法往往不能取得良好的效果。如何对供应链管理领域的语料集进行更有效的知识抽取，成为了知识库构建的难题之一。

发明内容

本发明提供了一种多特征融合的供应链管理实体知识抽取的方法及系统，解决供应链管理领域的语料集规模较小，但专业术语较多、知识结构较为复杂，一般的知识抽取方法往往不能取得良好的效果的问题。

为了解决上述问题，本发明提出了一种对供应链管理领域语料集进行多特征提取，结合多个特征以达到更好的知识抽取效果的方法。本发明通过部首嵌入层提取部首级特征，将部首特征与字符特征相合并，输入到CNN中提取局部上下文特征。汉字是象形文字，所以相似的字往往包含着相似的意思，而这种相似往往体现在部首这方面。使用部首特征有助于识别那些只出现在测试集中，而不在训练集中的字符，提高泛化性。局部上下文特征在供应链管理领域知识抽取中也相当重要。比如，“供应商选择”是语料集中频繁出现的实体，而“供应商”对“选择”是名词而不是动词起着决定性作用，这证明了提取局部上下文特征的重要性。本发明通过将字符特征输入Bi-LSTM提取上下文特征，使得字符能够捕获长距离依赖信息。本发明通过将上下文特征输入CNN，提取上下文突出特征，从而把局部上下文信息和长距离依赖信息结合起来。本发明将局部上下文特征、上下文特征、上下文突出特征合并后输入到堆叠的Bi-LSTM中，提取全局上下文特征，将三种特征更好地融合到一起。本发明将堆叠的Bi-LSTM输出的隐层向量输入到Bi-GCN中，Bi-GCN的作用是对语料中的实体关系信息进行编码，构造各个实体之间关系的权重连接图，从而得到实体关系邻接矩阵，提取区域节点特征，更新全局上下文特征。最后通过CRF输出实体预测结果。

为了实现上述目的，本发明采用了如下技术方案：

一种多特征融合的供应链管理实体知识抽取的方法，包括以下步骤：

基于预训练得到的字符嵌入层和部首嵌入层，将文本句子转换为字符级向量表示和部首级向量表示；合并所述部首级特征向量和所述字符级特征向量并输入卷积层，获得局部上下文特征向量；

基于Bi-LSTM(Bidirectional Long ShortTerm Memory，双向长短时记忆) 模型，从所述字符级特征向量中获取上下文特征向量，将所述上下文特征向量输入卷积层中，获得上下文突出特征向量；

将所述上下文特征向量、局部上下文特征向量和上下文突出特征向量进行合并，经过三层Bi-LSTM模型输出隐层向量；

构造各个实体之间关系的权重连接图，提取区域节点特征，结合实体和权重连接图进行实体预测。

可选地，基于预训练得到的字符嵌入层和部首嵌入层，将文本句子转换为字符级向量表示和部首级向量表示，包括：

对一个文本句子，汉字字符序列为T₁＝{s₁,s₂,…,s_n}，si为文本句子中的字符；基于预训练得到的字符嵌入层，获取汉字字符序列的特征向量表示 c₁；

提取每个汉字的部首，组成部首序列R₁＝{t₁,t₂,…,t_n}，其中ti为部首序列中的部首；基于预训练得到的部首嵌入层，获取部首序列R1的特征向量表示r1。

可选地，所述基于Bi-LSTM模型，从所述字符级特征向量中获取上下文特征向量，包括：

将所述汉字字符序列的特征向量表示c₁依次输入至Dropout(丢弃)层和 Bi-LSTM模型中；

根据LSTM中各细胞的计算公式，合并向前和向后输出的两个方向的最终状态，生成上下文特征向量c₂；

LSTM中各细胞的计算公式如下：

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)；

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)；

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c)；

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b₀)；

h_t＝o_ttanh(c_t)；

其中，ft表示t时刻遗忘门输出，it表示t时刻输入门输出，ct表示t时刻细胞状态，ot表示t时刻输出门输出，xt表示t时刻输入，ht表示t时刻隐层输出，tanh表示双曲正切激活函数，W和b均为可学习参数。

可选地，所述将所述上下文特征向量输入卷积层中，获得上下文突出特征向量，包括：

基于卷积运算，使所述上下文特征向量c₂通过卷积层，输出上下文突出特征向量c₃；

所述卷积运算表示为：

其中，Wuv为卷积核参数，X_i-u+1,j-v+1为输入数据，Y_ij为输出数据。

可选地，所述合并所述部首级特征向量和所述字符级特征向量并输入卷积层，获得局部上下文特征向量，包括：

将部首序列R1的特征向量表示r1、汉字字符序列的特征向量表示c₁进行合并，通过Dropout和卷积层处理，输出后进行提取，获得局部上下文特征向量表示w1。

可选地，所述将所述上下文特征向量、局部上下文特征向量和上下文突出特征向量进行合并，经过三层Bi-LSTM模型输出隐层向量，包括：

合并所述上下文特征向量c₂、上下文突出特征向量c₃和局部上下文特征向量表示w1合并，输入三层Bi-LSTM模型，输出得到实体隐层表示序列E＝ {e₁,e₂,…e_n}；

所述输入三层Bi-LSTM模型，包括：

在每层Bi-LSTM模型前面加一层Dropout层，防止过拟合。

可选地，所述构造各个实体之间关系的权重连接图，提取区域节点特征，结合实体和权重连接图进行实体预测，包括：

为各个实体之间的每一种关系分别构造一个关系权重连接图；

将字符作为节点，字符间的关系作为邻接矩阵，构建图结构；

基于Bi-GCN提取区域节点的隐层特征；

Bi-GCN表达式如下：

其中，A为关系邻接矩阵，l为层数，

为节点v在l层的隐层向量表示， W_l和b^l表示第l层的可学习参数；tanh表示双曲正切激活函数；

将提取到的所述隐层特征分别代入到各个关系权重连接图中，基于带权 Bi-GCN提取得到各个实体之间的每一种关系的隐层向量表示，所述带权 Bi-GCN的表达式如下：

其中，l为层数，

是节点ei在GCN在第l层的隐层向量表示，P_r(e_i,v) 表示节点ei和v在关系为r时的概率，Wr和br时GCN在关系为r时的权重和偏置，V是句子中所有字符的集合，R包含了所有的关系；

将得到的所述隐层向量表示，通过CRF进行实体预测，利用分类损失函数得到损失值eloss。

本发明还提供了一种多特征融合的供应链管理实体知识抽取的系统，用于实现如上所述的对供应链管理知识领域数据集进行知识抽取的方法，包括：

向量获取模块，用于：

基于Bi-LSTM模型，从所述字符级特征向量中获取上下文特征向量，将所述上下文特征向量输入卷积层中，获得上下文突出特征向量；

预测模块，用于构造各个实体之间关系的权重连接图，提取区域节点特征，结合实体和权重连接图进行实体预测。

可选地，所述向量获取模块用于：

提取每个汉字的部首，组成部首序列R₁＝{t₁,t₂,…,t_n}，其中ti为部首序列中的部首；基于预训练得到的部首嵌入层，获取部首序列R1的特征向量表示r1；

将所述汉字字符序列的特征向量表示c₁依次输入至Dropout层和 Bi-LSTM模型中；

LSTM中各细胞的计算公式如下：

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)；

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)；

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c)；

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b₀)；

h_t＝o_ttanh(c_t)；

其中，ft表示t时刻遗忘门输出，it表示t时刻输入门输出，ct表示t时刻细胞状态，ot表示t时刻输出门输出，xt表示t时刻输入，ht表示t时刻隐层输出，tanh表示双曲正切激活函数，W和b均为可学习参数；

所述卷积运算表示为：

其中，Wuv为卷积核参数，X_i-u+1,j-v+1为输入数据，Y_ij为输出数据；

将部首序列R1的特征向量表示r1、汉字字符序列的特征向量表示c₁进行合并，通过Dropout和卷积层处理，输出后进行提取，获得局部上下文特征向量表示w1；

合并所述上下文特征向量c₂、上下文突出特征向量c₃和局部上下文特征向量表示w1合并，输入三层Bi-LSTM模型，输出得到实体隐层表示序列E＝ {e₁,e₂,…e_n}。

可选地，所述预测模块用于：

基于Bi-GCN提取区域节点的隐层特征；

Bi-GCN表达式如下：

其中，A为关系邻接矩阵，l为层数，

其中，l为层数，

与现有技术相比，本发明的有益效果如下：

本发明借助部首特征的提取，通过结合上下文特征向量、局部上下文特征向量和上下文突出特征向量这三种特征，能够获得文本句子中每个汉字字符的向量表示，基于关系权重连接图以更进一步地去考虑关系加权传播，为每个字符提供更充分的特征；基于此，本发明能够更好地针对未出现在训练集而未经过训练的汉字进行语义推理，从而降低了对供应链管理知识领域数据集进行知识抽取的难度，改善了知识抽取的效果，使得对该领域数据集的知识抽取能够达到预期的效果。

附图说明

图1为本发明提供的一种多特征融合的供应链管理实体知识抽取的方法的流程图；

图2为本发明提供的一种多特征融合的供应链管理实体知识抽取的方法的原理模型图；

图3为图2中Stack Bi-LSTM的结构图；

图4为本发明提供的一种多特征融合的供应链管理实体知识抽取的方法中步骤S1的流程图；

图5为本发明提供的一种多特征融合的供应链管理实体知识抽取的方法中步骤S2的流程图；

图6为本发明提供的一种多特征融合的供应链管理实体知识抽取的方法中步骤S3的流程图；

图7为本发明提供的一种多特征融合的供应链管理实体知识抽取的方法中步骤S5的流程图；

图8为本发明提供的一种多特征融合的供应链管理实体知识抽取的系统的结构框图。

具体实施方式

为使得本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为便于理解本发明的技术方案，在此先对本发明的应用场景作简要介绍：

汉字是象形文字，所以相似的字往往包含着相似的意思，而这种相似往往体现在部首这方面。使用部首特征有助于识别那些只出现在测试集中，而不在训练集中的字符，提高泛化性。局部上下文特征在供应链管理领域知识抽取中也相当重要。比如，“供应商选择”是语料集中频繁出现的实体，而“供应商”对“选择”是名词而不是动词起着决定性作用，这证明了提取局部上下文特征的重要性。

基于此，本发明通过将字符特征输入Bi-LSTM提取上下文特征，使得字符能够捕获长距离依赖信息；通过将上下文特征输入CNN，提取上下文突出特征，从而把局部上下文信息和长距离依赖信息结合起来；此外，本发明将局部上下文特征、上下文特征、上下文突出特征合并后输入到堆叠的Bi-LSTM中，提取全局上下文特征，将三种特征更好地融合到一起；本发明还将堆叠的 Bi-LSTM输出的隐层向量输入到Bi-GCN中，Bi-GCN的作用是对语料中的实体关系信息进行编码，构造各个实体之间关系的权重连接图，从而得到实体关系邻接矩阵，提取区域节点特征，更新全局上下文特征。最后，通过CRF输出实体预测结果。

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

请结合参考图1至图3，本发明实施例提供了一种多特征融合的供应链管理实体知识抽取的方法，包括以下步骤：

S1、基于预训练得到的字符嵌入层和部首嵌入层，将文本句子转换为字符级向量表示和部首级向量表示；

S2、合并部首级特征向量和字符级特征向量并输入卷积层，获得局部上下文特征向量；

S3、基于Bi-LSTM模型，从字符级特征向量中获取上下文特征向量；将上下文特征向量输入卷积层中，获得上下文突出特征向量；

S4、将上下文特征向量、局部上下文特征向量和上下文突出特征向量进行合并，经过三层Bi-LSTM模型输出隐层向量；

S5、构造各个实体之间关系的权重连接图，提取区域节点特征，结合实体和权重连接图进行实体预测。

请参考图4，具体地，步骤S1中，基于预训练得到的字符嵌入层和部首嵌入层，将文本句子转换为字符级向量表示和部首级向量表示，包括：

S11、对一个文本句子，汉字字符序列为T₁＝{s₁,s₂,…,s_n}，si为文本句子中的字符；基于预训练得到的字符嵌入层，获取汉字字符序列的特征向量表示c₁；

S12、提取每个汉字的部首，组成部首序列R₁＝{t₁,t₂,…,t_n}，其中ti为部首序列中的部首；基于预训练得到的部首嵌入层，获取部首序列R1的特征向量表示r1。

步骤S11中，先通过字符嵌入层将用户输入的语句转化为汉字字符序列的特征向量表示c₁，基于该汉字字符序列的特征向量表示c₁能够提取用户输入的语句的字符特征。

步骤S12中，通过部首嵌入层将用户输入的语句转化为部首序列R1的特征向量表示r1，基于该部首序列R1的特征向量表示r1能够提取用户输入的语句的部首特征。

请参考图5，步骤S2中，合并部首级特征向量和字符级特征向量并输入卷积层，获得局部上下文特征向量，包括：

S21、将部首序列R1的特征向量表示r1、汉字字符序列的特征向量表示 c₁进行合并；

S22、通过Dropout和卷积层处理，输出后进行提取，获得局部上下文特征向量表示w1。

其中，Dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃。由于是暂时且随机的丢弃，对于随机梯度下降来说，每一个mini-batch都在训练不同的网络。Dropout的每个训练批次中，通过忽略一半的特征检测器(让一半的隐层节点值为0)，可以明显地减少过拟合现象。这种方式能够减少特征检测器(隐层节点)间的相互作用，该检测器间的相互作用是指某些检测器依赖其他检测器才能发挥作用。

可以理解的是，Dropout使得在前向传播的时候，让某个神经元的激活值以一定的概率p停止工作，这样可以使模型泛化性更强，因为它不会太依赖某些局部的特征。

请参考图6，步骤S3中，基于Bi-LSTM模型，从字符级特征向量中获取上下文特征向量，包括：

S31、将汉字字符序列的特征向量表示c₁依次输入至Dropout层和 Bi-LSTM模型中；

S32、根据LSTM(长短期记忆神经网络)中各细胞的计算公式，合并向前和向后输出的两个方向的最终状态，生成上下文特征向量c₂；

LSTM中各细胞的计算公式如下：

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)；

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)；

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c)；

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b₀)；

h_t＝o_ttanh(c_t)；

前述步骤中，通过使用LSTM对用户输入的文本句子的汉字字符序列的特征向量进行学习，进而生成上下文特征向量，能够取代人工以实现特征的提取，且对于文本句子的特征提取能够更符合当前语义，因此能够解决不同领域的知识抽取问题。

步骤S3中，将上下文特征向量输入卷积层中，获得上下文突出特征向量，包括：

S33、基于卷积运算，使上下文特征向量c₂通过卷积层，输出上下文突出特征向量c₃；

卷积运算在卷积神经网络中大量存在，是输入数据与卷积核参数的乘加运算，卷积运算表示为：

请参考图7，步骤S4中，将上下文特征向量、局部上下文特征向量和上下文突出特征向量进行合并，经过三层Bi-LSTM模型输出隐层向量，包括：

S41、合并上下文特征向量c₂、上下文突出特征向量c₃和局部上下文特征向量表示w1合并；

S42、输入三层Bi-LSTM模型，输出得到实体隐层表示序列E＝ {e₁,e₂,…e_n}；

输入三层Bi-LSTM模型，包括：

在每层Bi-LSTM模型前面加一层Dropout层，防止过拟合。

利用卷积神经网络提取的上下文突出特征向量，为后续将上下文特征向量c₂、上下文突出特征向量c₃和局部上下文特征向量进行并传入到Bi-LSTM 模型训练仪奠定基础，能够实现文本句子的字符之间所隐含的语句信息特征的获取。

步骤S5中，构造各个实体之间关系的权重连接图，提取区域节点特征，结合实体和权重连接图进行实体预测，包括：

S51、为各个实体之间的每一种关系分别构造一个关系权重连接图；

具体地，假设有k种关系，就有k个权重连接图。

S52、将字符作为节点，字符间的关系作为邻接矩阵，构建图结构；

S53、基于Bi-GCN提取区域节点的隐层特征；

该步骤中，为了考虑实体关系存在着头实体和尾实体，因此基于Bi-GCN 以提取区域节点的隐层特征。

Bi-GCN表达式如下：

其中，A为关系邻接矩阵，l为层数，

S54、将提取到的隐层特征分别代入到各个关系权重连接图中，基于带权 Bi-GCN提取得到各个实体之间的每一种关系的隐层向量表示；

带权Bi-GCN的表达式如下：

其中，l为层数，

是节点ei在GCN在第l层的隐层向量表示，P_r(e_i,v) 表示节点ei和v在关系为r时的概率，Wr和br时GCN在关系为r时的权重和偏置，V是句子中所有字符的集合，R包含了所有的关系。

S55、将得到的隐层向量表示，通过CRF进行实体预测，利用分类损失函数得到损失值eloss。

CRF(Conditional Random Field，条件随机场)，是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型，其特点是假设输出随机变量构成Markov随机场。

损失函数用于用来估量模型的预测值与真实值的不一致程度。若损失函数很小，表明机器学习模型与数据真实分布很接近，则模型性能良好；若损失函数很大，表明机器学习模型与数据真实分布差别较大，则模型性能不佳。利用分类损失函数得到的损失值eloss以实现预测结果的准确性检测。

本发明实施例借助提取的部首特征，能更好地去推理那些没有在训练集中出现过，却出现在测试集中的汉字的语义。通过结合上下文特征向量、局部上下文特征向量和上下文突出特征向量这三种特征，能够获得文本中每个汉字字符的向量表示。利用关系权重连接图则能够更进一步地去考虑关系加权传播，为每个字符提供更充分的特征。

请参考图8，基于前述实施例，本发明还提供了一种多特征融合的供应链管理实体知识抽取的系统，用于实现如上的对供应链管理知识领域数据集进行知识抽取的方法，包括：

向量获取模块10，用于：

基于预训练得到的字符嵌入层和部首嵌入层，将文本句子转换为字符级向量表示和部首级向量表示；合并部首级特征向量和字符级特征向量并输入卷积层，获得局部上下文特征向量；

基于Bi-LSTM模型，从字符级特征向量中获取上下文特征向量，将上下文特征向量输入卷积层中，获得上下文突出特征向量；

将上下文特征向量、局部上下文特征向量和上下文突出特征向量进行合并，经过三层Bi-LSTM模型输出隐层向量；

预测模块20，用于构造各个实体之间关系的权重连接图，提取区域节点特征，结合实体和权重连接图进行实体预测。

具体地，向量获取模块10用于：

将汉字字符序列的特征向量表示c₁依次输入至Dropout层和Bi-LSTM模型中；

LSTM中各细胞的计算公式如下：

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)；

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)；

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c)；

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b₀)；

h_t＝o_ttanh(c_t)；

基于卷积运算，使上下文特征向量c₂通过卷积层，输出上下文突出特征向量c₃；

卷积运算表示为：

合并上下文特征向量c₂、上下文突出特征向量c₃和局部上下文特征向量表示w1合并，输入三层Bi-LSTM模型，输出得到实体隐层表示序列E＝ {e₁,e₂,…e_n}。

进一步地，本实施例中，预测模块20用于：

基于Bi-GCN提取区域节点的隐层特征；

Bi-GCN表达式如下：

其中，A为关系邻接矩阵，l为层数，

将提取到的隐层特征分别代入到各个关系权重连接图中，基于带权 Bi-GCN提取得到各个实体之间的每一种关系的隐层向量表示，带权Bi-GCN 的表达式如下：

其中，l为层数，

将得到的隐层向量表示，通过CRF进行实体预测，利用分类损失函数得到损失值eloss。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。