CN111914558A

CN111914558A - 基于句袋注意力远程监督的课程知识关系抽取方法及系统

Info

Publication number: CN111914558A
Application number: CN202010758190.9A
Authority: CN
Inventors: 陈建峡; 张水晶; 陈煜�; 张�杰
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-11-10
Anticipated expiration: 2040-07-31
Also published as: CN111914558B

Abstract

本发明属于关系抽取技术领域，公开了一种基于句袋注意力远程监督的课程知识关系抽取方法及系统，通过TF‑IDF、TextRank、Word2vec词聚类三种关键词抽取算法抽取知识实体；基于人工标注的知识三元组，利用远程监督方法从课程教学文本中自动获取训练语料；用PCNN提取句子特征，采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去噪；通过带有注意力的词向量捕捉上下文语义信息，并融合实体的位置信息、类型信息构造实体特征，输入Bi_LSTM模型获得知识点关系抽取。本发明不需要繁重的人工标注工作，减轻了人为构造特征的工作，可应用于不同科目的课程教学中，能对课程中的知识关系抽取取得很好的结果。

Description

基于句袋注意力远程监督的课程知识关系抽取方法及系统

技术领域

本发明属于关系抽取技术领域，尤其涉及一种基于句袋注意力远程监督的课程知识关系抽取方法及系统。

背景技术

目前，随着人工智能技术在社会各个领域中的广泛应用，利用信息抽取技术对课程教学资料进行关键信息抽取从而构建课程学习的知识图谱，是当前课程信息化建设的研究热点。其中，关系抽取是信息抽取技术的重要环节，它是指对文本信息建模自动抽取出实体对之间的语义关系,提取出有效的语义知识，是知识图谱构建中极为关键的部分。

近年来，深度学习的发展为实体关系抽取任务提供了有力的支持，根据数据集标注量级的差异，深度学习的实体关系抽取任务分为有监督和远程监督两类，有监督的学习方法能够抽取有效的实体关系，其准确率和召回率都很不错，但是这类方法对标注数据十分依赖，而标记数据耗时耗力，现有技术1提出了远程监督(Distant Supervision)的思想,即如果两个实体并含某种关系，则提及这两个实体的所有句子都表示该关系，可以自动生成训练关系提取模型的数据。

基于深度学习的远程监督方法主要是改进的CNN,RNN,LSTM等网络结构，如PCNN与多示例学习的融合方法、PCNN与注意力机制的融合方法等。现有技术2提出基于句子层的注意力机制和实体描述，降低了噪声问题并且获得了不同句子中的语义信息。现有技术3提出词语注意力机制的关系抽取模型，可以在降噪的同时提高关系抽取的准确性。现有技术4通过矩阵分解补全方法解决稀疏及噪声的问题。现有技术5提出弱监督机器学习思想抽取蛋白质与基因之间的关系。但是，远程监督方法容易带来多实例多标签问题，若知识库不完备，更会带来知识库缺失的噪音问题.同时，对于特定领域的实体关系抽取，这些研究方法还需要解决领域知识库的构建问题。

通过上述分析，现有技术存在的问题如下所述：

在目前专业课程知识领域关系抽取的研究中，已有的基于深度学习的方法都是有监督的关系抽取方法，能够有效利用样本的标记信息，准确率和召回率都比较高，是关系抽取领域主流的研究方法。然而，其最大缺点是需要对每门课程都进行大量的人工标记训练语料，工作量巨大，通用性差，代价较高。本发明选择的远程监督关系抽取技术，可以通过已有的每门课程的知识库作为监督源，自动对语料库进行标注，能够大量节省人工标注成本，通用性好，能极大的提高工作效率。

目前，远程监督关系抽取方法面临的最主要的问题是错误标注问题。由于句子的标签是通过知识库自动标注的，因此在标注结果中混入了大量的错误标注。其中，在错误标注问题中，有两类特殊的错误标注。其中一类是由“至少一次假设”失效所造成的错误标注。即针对一个实体对，虽然有实体对共现的句子，但这些句子无一体现了两实体之间的关系。“至少一次假设”认为，当句子聚合成为句袋时，每种关系至少对应着一个句子，而该假设失效所造成的错误标注实例，可以认为是一种句袋级别的伪正例。另一类错误标注是由知识库不完备所造成的伪反例，即某个实体对在句子中确实表明了某种关系，但由于知识库中不存在该信息，因此机器标注时将该句标为无关系。该问题在训练集和测试集中都有出现，并且会较大程度地影响测试结果。这两类错误标注问题都具有相当大的挑战性，而且对于模型的性能较难评估。

本发明针对第一类错误标注问题进行了深入研究，并且提出了切实可行的解决方案。首先，本发明基于句袋注意力的远程监督关系抽取模型，将远程监督提供的训练数据分为多个袋组，每个袋组包含带有相同关系标签的多个袋子，每个句袋(bag)包含一个实体对共现的所有句子。使用基于相似度的袋间注意模块，通过对袋加权计算来表示袋组。使用一种基于关系感知的方式计算每个袋中句子的权重，来表示一个袋，初期将其中嘈杂的句子设置为较小的权重。然后，用PCNN提取句子特征，采用袋内袋间注意力机制降低错误标签的权重来对数据进行降噪；最后，通过带有注意力的词向量捕捉上下文语义信息，并融合实体的位置信息、类型信息构造实体特征，输入Bi_LSTM模型获得知识点关系抽取。在实验过程中，本发明选取了部分远程监督纽约时报(NYT)数据集,从中选取了包含13种关系的五千条数据，通过句袋注意力模型进行降噪，然后将降噪后的数据集送入三种关系抽取模型，采用k-折交叉验证方法对模型进行调优，实验结果证明本发明的效果良好。

关系抽取作为知识图谱技术的重要环节，一直以来在领域知识图谱的构建中受到了相当广泛的关注。远程监督作为一种可以低成本获取标注数据的方法，也受到了人们的重视。本发明为课程知识关系抽取问题，提供了一种新的远程监督关系抽取方法，在课程领域的知识图谱自动化构建中有重要的研究意义和应用价值。

发明内容

针对现有技术存在的问题，本发明提供了一种基于句袋注意力远程监督的课程知识点关系抽取方法。

本发明是这样实现的，一种基于句袋注意力远程监督的课程知识关系抽取方法，包括：

首先，通过TF-IDF、TextRank、Word2vec词聚类三种关键词抽取算法抽取知识实体；基于人工标注的知识三元组，利用远程监督方法从课程教学文本中自动获取训练语料；

其次，用PCNN提取句子特征，采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去噪；

最后，通过带有注意力的词向量捕捉上下文语义信息，并融合实体的位置信息、类型信息构造实体特征，输入Bi_LSTM模型获得知识点关系抽取。

进一步，所述基于句袋注意力远程监督的课程知识关系抽取方法包括以下步骤：

步骤一，对文本进行预处理；

步骤二，通过TF-IDF、TextRank、Word2vec词聚类三种关键词抽取算法抽取知识实体；

步骤三，定义知识点之间的描述关系，前导后继关系，包含关系，等价关系，相关关系，对抽取出的知识实体进行人为的关系判定，构造三元组；

步骤四，利用远程监督方法以及构造的三元组，从课程教学文本中自动获取训练语料；

步骤五，用PCNN提取句子特征，采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去噪；

步骤六，通过带有注意力的词向量捕捉上下文语义信息，并融合实体的位置信息、类型信息构造实体特征，输入Bi_LSTM模型获得知识点关系抽取。

进一步，步骤一中，所述文本预处理方法包括：

将文件进行合并，存储进一个文件中，并将文件的编码修改为UTF-8；去除文本中多余的空格以及符号，删除没有意义的词汇；使用jieba分词包将文本进行分词处理。

进一步，步骤二中，所述通过TF-IDF、TextRank、Word2vec词聚类三种关键词抽取算法抽取知识实体包括：

首先，设定TF-IDF、TextRank、Word2vec词聚类三种算法的各项参数，并令TF-IDF、TextRank、Word2vec 三种算法根据其得分抽取得分最高的前300个实体；

其次，删除训练集中课程知识不相关的文本；对实体集进行扩充及优化。

进一步，步骤四中，所述利用远程监督方法以及构造的三元组，从课程教学文本中自动获取训练语料包括：

遍历所有文本，将三元组中的实体匹配课程语料，得到大量带有标签的数据；将数据进行分组，带有相同实体对的句子组成一个袋，带有相同关系的袋子组成一个袋组。

进一步，步骤五中，所述用PCNN提取句子特征，采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去噪包括：

(1)用PCNN提取句子特征：

(1.1)进行向量表示：给定句子

以及句中的词语

句子的每个词语映射到d_w维词向量中，利用位置特征PFs描述当前词语与两个实体之间的相对距离，并进一步映射为d_p维的两个向量

和

将三个向量连接起来，得到d_w+2d_p维的字表示

(1.2)卷积层设置：滤波器的窗口为l，w∈R^m(m＝l*d)，给定S为序列{q₁,q₂,...,q_s}，其中q_i∈R^d， q_i:j表示q_i与q_j的串联，滤波器的第j个部分表示为：c_j＝wq_j-w+1:j，索引j的取值范围从1到s+w-1；

使用n个滤波器W＝{w₁,w₂,...,w_n}，卷积运算表示为：

c_ij＝w_iq_j-w+1:j 1≤i≤n；

卷积的结果为一个矩阵C＝{c₁,c₂,...,c_n}∈R^n×(s+w-1)；

(1.3)进行分段最大池化：根据两个选定的实体将每个卷积滤波器c_i的输出分成三段{c_i1,c_i2,c_i3}，

分段最大池化过程表示如下：

p_ij＝max(c_ij)1≤i≤n,1≤j≤3；

对于每个卷积滤波器的输出，得到一个三维向量p_i＝{p_i1,p_i2,p_i3}，把所有的向量p_1:n连接起来，应用双曲切线非线性函数，如下所示：

g＝tanh(p_1:n)；

其中g∈R³ⁿ；

将特征向量g输入到Softmax分类器中，计算每个关系的置信度；

(2)进行袋内注意力去噪：

设

表示袋bⁱ中所有句子的表示，

表示关系嵌入矩阵，其中h是关系数，袋表示

为计算方式如下：

其中k∈{1,2,...,h}是关系索引，

是在bⁱ袋中第j个句子被赋予第k个关系的权重，

如下所示：

其中

是袋bⁱ中第k个关系与第j句之间的匹配度，采用一个简单的向量间点积计算匹配度，如下所示：

其中r_k是关系嵌入矩阵R²的第k行；袋bⁱ的表示组成矩阵

(3)进行袋间注意力去噪：

两个袋子

和

都有关系k标签，则表示

和

相近的，对于每一组具有相同关系标签的袋子，为在一组中与其他袋子相近的袋子分配更高的权重；袋组g的表示如下：

其中g_k是图中矩阵

的第k行，k是关系索引，β_ik构成注意力权矩阵β∈Rⁿ ^×h；每个β_ik被定义为：

其中γ_ik描述了袋bⁱ与第k个关系的置信度；

在自我注意算法的启发下，利用向量本身计算一组向量的注意权重，根据袋子本身的向量表示计算袋子的权重，γ_ik被定义为：

其中相似性函数是一个简单的点积，被定义为：

进一步，所述进行袋间注意力去噪还包括：

在进行袋间注意力去噪之前将所有的袋表示

归一化为单位长度，即

通过g_k和关系嵌入向量r_k来计算将袋组g被分为关系k的得分o_k

其中d_k是一个偏置项；

利用一个Softmax函数得到袋组g被归类为第k类关系的概率：

进一步，步骤六中，所述通过带有注意力的词向量捕捉上下文语义信息，并融合实体的位置信息、类型信息构造实体特征包括：

所述实体特征通过Bi_LSTM隐藏状态、相应的实体位置和实体对的类型进行构造；

所述Bi_LSTM的隐层状态H＝{h₁,h₂,...,h_n}；相对位置特征以及具有LET的实体特征，如下所示：

其中，

和

分别表示第一个实体和第二个实体在句子中的位置，e_j∈{1,2}是第j个实体的索引；

1)Bi_LSTM的隐层状态：利用

表示Bi_LSTM的隐层状态，所述Bi_LSTM的隐层状态是表示实体的高级特征，其中e_i表示实体的索引；

2)相对位置特征：

相对位置通过查找可学习的嵌入矩阵

转换为向量表示；其中d_p是相对位置向量的维数，L为最大句子长度；BLSTM层的表示

通过连接h_i、

和

来重视上下文和与实体的位置关系；

3)具有潜在类型的实体特征LET：

LET通过加权K个潜在类型向量来构造实体类型的表示，如下：

其中c_i是第i个潜在类型向量，K是潜在实体类型的数量。

本发明的另一目的在于提供一种基于句袋注意力远程监督的课程知识点关系抽取系统包括：

训练语料获取模块，通过词聚类关键词抽取算法抽取知识实体；基于人工标注的知识三元组，利用远程监督方法从课程教学文本中自动获取训练语料；

噪声去噪模块，用PCNN提取句子特征，采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去噪；

知识点关系抽取获取模块，通过带有注意力的词向量捕捉上下文语义信息，并融合实体的位置信息、类型信息构造实体特征，输入Bi_LSTM模型获得知识点关系抽取。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

通过词聚类关键词抽取算法抽取知识实体；基于人工标注的知识三元组，利用远程监督方法从课程教学文本中自动获取训练语料；

用PCNN提取句子特征，采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去噪；

通过带有注意力的词向量捕捉上下文语义信息，并融合实体的位置信息、类型信息构造实体特征，输入Bi_LSTM模型获得知识点关系抽取。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

结合上述的所有技术方案，本发明所具备的优点及积极效果为：

本发明公开了基于句袋注意力的远程监督关系抽取模型DSRE-SBA，利用统计学、深度学习方法抽取课程知识点的关键词，通过领域实体优化得到知识点实体，用基于远程监督的袋内袋间注意力机制，对得到的大量训练数据降噪，然后将降噪过的数据送入基于实体注意的Bi_LSTM进行关系抽取。

与现有技术相比，本发明的优点具体体现在以下三个方面：

第一，知识点抽取结合了三种各有特色的关键词抽取算法。TF-IDF考虑了词频，TextRank分析了词之间的关系，Word2vec词聚类考虑了词的语义，三种算法各有所长，能获得更好的实体抽取结果。

表1是三种方法大数据课程教材关键词抽取的准确率结果：

表1 TF-IDF、TextRank、Word2vec准确率对比

根据表1的实验结果，TF-IDF与TextRank算法在关键词抽取阈值改变时，准确率并没有太大改变，而Word2vec词聚类算法随着抽取关键词数阈值减小，准确率逐渐上升，这与词算法的聚类特性有关.TF-IDF 考虑了词频，TextRank考虑了词之间的关系，Word2vec词聚类考虑了词的语义，三种算法各有所长，所以本文结合三种方法的结果，对实体进行整合与人工筛选矫正.关键词抽取部分实验结果如表2所示。

表2关键词抽取结果示例

第二，将数据集送入关系抽取器之前，首先进行句袋注意力机制降噪，能让模型有更好的鲁棒性。

本发明使用句袋注意力机对远程监督得到的数据进行降噪处理.对比了远程监督降噪模型的几个例子，表3是不同模型的AUC值。其中CNN和PCNN分别表示在句子编码器中使用CNN或分段CNN，ATT-BL 表示袋内注意方法，ATT-RA表示关系感知袋内注意方法，而BAG-ATT表示袋间注意力方法。

表3不同模型的AUC值

Model	AUC
		CNN+ATT-BL	0.3478
CNN+ATT-BL+BAG-ATT	0.3533
		CNN+ATT-RA	0.3773
CNN+ATT-RA+BAG-ATT	0.3899
		PCNN+ATT-BL	0.3900
PCNN+ATT-BL+BAG-ATT	0.3975
		PCNN+ATT-RA	0.4477
PCNN+ATT-RA+BAG-ATT	0.4540

从表3可以看出：

①使用了ATTRA注意力机制模型的AUC值高于使用了ATTBL注意力机制的模型，这是因为 ATTRA方法使用所有关系嵌入来计算袋内注意权重.

②使用了BAG-ATT模型的AUC值高于没有使用BAG-ATT的模型，说明计算袋与袋之间的相似度策略起到了一定的效果.

③其中用PCNN构造句子特征的AUC值明显高于CNN，这是因为PCNN能够提取句子中两个实体间的结构信息.

第三，本发明研发的EA-Bi_LSTM训练关系抽取模型，在F1值上达到了88.1％的效果，此方法减少了人工的参与，能够较好平衡人工与自动构建的关系。

本发明选取了部分远程监督纽约时报(NYT)数据集,从中选取了包含13种关系的五千条数据，通过句袋注意力模型进行降噪，然后将降噪后的数据集送入三种关系抽取模型，采用k-折交叉验证方法对模型进行调优，表4是不同模型在NYT数据集上的F1值。可以看出，在经过去噪后三种模型的F1值都得到了一定提升。

表4不同模型的F1值

本发明提出一种句袋注意力远程监督关系抽取方法，不需要繁重的人工标注工作，减轻了人为构造特征的工作，可以应用于不同科目的课程教学中，并能取得良好的知识抽取结果。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于句袋注意力远程监督的课程知识关系抽取方法流程图。

图2是本发明实施例提供的远程监督实体关系抽取原理图。

图3是本发明实施例提供的DSRE-SBA模型框架图。

图4是本发明实施例提供的PCNN模型框架图。

图5是本发明实施例提供的句袋注意力模型框架图。

图6是本发明实施例提供的EA-Bi_LSTM框架图。

图7是本发明实施例提供的不同模型的PR曲线示意图。

图8是本发明实施例提供的不同算法在通用数据集上的实验对比结果示意图。

图9是本发明实施例提供的不同算法在课程数据集上的实验对比结果示意图。

图10是本发明实施例提供的等价关系查询知识图谱结果示意图。

图11是本发明实施例提供的描述关系查询知识图谱结果示意图。

图12是本发明实施例提供的包含关系查询知识图谱结果示意图。

图13是本发明实施例提供的前导后继关系查询知识图谱结果示意图。

图14是本发明实施例提供的相关关系查询知识图谱结果示意图。

图15是本发明实施例提供的按实体查询知识图谱结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于句袋注意力远程监督的课程知识关系抽取方法及系统，下面结合附图对本发明作详细的描述。

本发明实施例提供的基于句袋注意力远程监督的课程知识关系抽取方法包括：

首先，通过TF-IDF、TextRank、Word2vec词聚类三种关键词抽取算法抽取知识实体；基于人工标注的知识三元组，利用远程监督方法从课程教学文本中自动获取训练语料；其次，用PCNN提取句子特征，采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去噪；最后，通过带有注意力的词向量捕捉上下文语义信息，并融合实体的位置信息、类型信息构造实体特征，输入Bi_LSTM模型获得知识点关系抽取。

如图1至图3所示，本发明实施例提供的基于句袋注意力远程监督的课程知识关系抽取方法包括以下步骤：

S101，对文本进行预处理；

S102，通过TF-IDF、TextRank、Word2vec词聚类三种关键词抽取算法抽取知识实体；

S103，定义知识点之间的描述关系，前导后继关系，包含关系，等价关系，相关关系，对抽取出的知识实体进行人为的关系判定，构造三元组；

S104，利用远程监督方法以及构造的三元组，从课程教学文本中自动获取训练语料；

S105，用PCNN提取句子特征，采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去噪；

S106，通过带有注意力的词向量捕捉上下文语义信息，并融合实体的位置信息、类型信息构造实体特征，输入Bi_LSTM模型获得知识点关系抽取。

步骤S101中，本发明实施例提供的文本预处理方法包括：

步骤S102中，本发明实施例提供的通过TF-IDF、TextRank、Word2vec词聚类三种关键词抽取算法抽取知识实体包括：

步骤S104中，本发明实施例提供的利用远程监督方法以及构造的三元组，从课程教学文本中自动获取训练语料包括：

步骤S105中，本发明实施例提供的用PCNN提取句子特征，采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去噪包括：

(1)用PCNN提取句子特征：

(1.1)进行向量表示：给定句子

以及句中的词语

和

将三个向量连接起来，得到d_w+2d_p维的字表示

使用n个滤波器W＝{w₁,w₂,...,w_n}，卷积运算表示为：

c_ij＝w_iq_j-w+1:j1≤i≤n；

卷积的结果为一个矩阵C＝{c₁,c₂,...,c_n}∈R^n×(s+w-1)；

分段最大池化过程表示如下：

p_ij＝max(c_ij)1≤i≤n,1≤j≤3；

g＝tanh(p_1:n)；

其中g∈R³ⁿ；

(2)进行袋内注意力去噪：

设

表示袋bⁱ中所有句子的表示，

表示关系嵌入矩阵，其中h是关系数，袋表示

为计算方式如下：

其中k∈{1,2,...,h}是关系索引，

是在bⁱ袋中第j个句子被赋予第k个关系的权重，

如下所示：

其中

其中r_k是关系嵌入矩阵R²的第k行；袋bⁱ的表示组成矩阵

(3)进行袋间注意力去噪：

两个袋子

和

都有关系k标签，则表示

和

其中g_k是图中矩阵

其中γ_ik描述了袋bⁱ与第k个关系的置信度；

其中相似性函数是一个简单的点积，被定义为：

本发明实施例提供的进行袋间注意力去噪还包括：

在进行袋间注意力去噪之前将所有的袋表示

归一化为单位长度，即

其中d_k是一个偏置项；

利用一个Softmax函数得到袋组g被归类为第k类关系的概率：

步骤S106中，本发明实施例提供的通过带有注意力的词向量捕捉上下文语义信息，并融合实体的位置信息、类型信息构造实体特征包括：

其中，

和

1)Bi_LSTM的隐层状态：利用

2)相对位置特征：

相对位置通过查找可学习的嵌入矩阵

通过连接h_i、

和

来重视上下文和与实体的位置关系；

3)具有潜在类型的实体特征LET：

LET通过加权K个潜在类型向量来构造实体类型的表示，如下：

其中c_i是第i个潜在类型向量，K是潜在实体类型的数量。

本发明提供一种基于句袋注意力远程监督的课程知识关系抽取系统包括：

下面结合具体实施例对本发明的技术方案作进一步说明。

实施例1：课程知识实体抽取实验

本发明首先通过TF-IDF、TextRank、Word2vec词聚类三种关键词抽取算法抽取知识实体，包括如下步骤：

步骤1，对文本进行预处理；

步骤2，通过TF-IDF、TextRank、Word2vec词聚类三种关键词抽取算法抽取知识实体；

在本发明中，所述步骤1中对文本进行预处理，包括：进行文本格式的转码，去除多余符号和停用词，以及分词操作，步骤1进一步包括：

步骤1.1，将文件夹里的文件进行合并，写进一个文件中，便于后续进行操作，并将文件的编码修改为UTF-8，修改后更有利于后续程序处理；

步骤1.2，去除文本中多余的符号，由于后续需要使用这些文本作为训练集训练词向量，重复文件和无意义符号过多的文本会导致生成的词向量效果不佳，因而这里先去除掉所有无意义的空格和符号；

步骤1.3，如果多余的符号，文本中可能会含有“啊”，“呀”等无意义，对文本相似判断无影响的词汇，这些词汇同样会影响词向量训练的结果，因而，在预处理中先将这一部分没有意义的词汇删掉；

步骤1.4，训练词向量需要先将中文文本分割成一个一个的词，然后将训练集喂入word2vec模型进行训练，获得每个词的词向量，因而，在预处理时，使用jieba分词包将文本进行分词处理，便于后续使用。

在本发明中，所述步骤2中通过TF-IDF、TextRank、Word2vec词聚类三种关键词抽取算法抽取知识实体，包括：

步骤2.1，先行设定TF-IDF、TextRank、Word2vec词聚类三种算法的各项参数，本发明设置TF-IDF、 TextRank、Word2vec三种算法根据其得分抽取得分最高的前300个实体。

步骤2.2，无监督方法得到的数据，对后续模型的训练有很大的影响，如果大量重复的，杂乱无用的文本混入训练集会导致模型训练结果变差，因而需要对训练集进行拣选把关，将重复文本和内容杂乱的文本进行剔除，可以有效的提升模型效果，预处理中已经删除掉了文本中的停用词，再删除掉训练集中课程知识不相关的文本。

步骤2.3，由于获取到的数据集有限，因此抽取到的知识实体也有限，所以需要对实体集进行扩充来保证知识体系的完整性。再进行新一轮的人工优化。

本发明对实体抽取相关实验，以验证“大数据处理技术”课程知识点关系抽取模型的有效性.实验环境主要采用了Ubuntu 16.04.6，LTS 4.15.0-45-generic，GNU/Linux，PyCharm3.6，开发语言是Python.

本发明收集了与大数据处理课程有关的电子教案、电子书籍、课程大纲等课程资料.并将对应的课程资料转变成文本格式，对中文文本进行分句处理，得到11026条数据.为了下一步自动抽取关键词，需要对这一万条数据进行分词及去停用词处理.本发明使用NLPIR中文停用词表，包含了1208个停用词.并加入计算机主题类词汇构造自己的分词词典，采用开源中分分词工具jieba进行分词.原始数据如表5所示.

表5样本示例

本发明主要采用精度－召回率(PR)曲线、精度与召回率的调和平均值F1(F1_score)、准确率(Accuracy) 以及ROC曲线下的面积AUC(Area Under Curve)作为评价指标，来评估提出的方法是否有效.

知识领域的实体与普通的实体抽取(如抽取人名，地名，机构名等)并不相同，在教育领域，一篇文章想要传达的知识即文章的主要内容与主题.而文本关键词表达了文档主题性和关键性的内容，是文档内容理解的最小单位.因此本发明采取关键词提取方法获取专业领域实体.

1.关键词抽取

本发明使用TF-IDF，TextRank，Word2vec词聚类对分好词的文本进行关键词抽取，表1是三种方法大数据课程教材关键词抽取的准确率结果：

根据表1的实验结果，TF-IDF与TextRank算法在关键词抽取阈值改变时，准确率并没有太大改变，而Word2vec词聚类算法随着抽取关键词数阈值减小，准确率逐渐上升，这与词算法的聚类特性有关.TF-IDF 考虑了词频，TextRank考虑了词之间的关系，Word2vec词聚类考虑了词的语义，三种算法各有所长，所以本发明结合三种方法的结果，对实体进行整合与人工筛选矫正.关键词抽取部分实验结果见前面“发明内容”部分的表2所示.

2.领域实体优化

以上算法得到的关键词确实有不少是“大数据处理”课程的核心概念，例如“hadoop”、“分布式”、 “数据流”、“集群”、“雅虎问题”等等.但本发明使用的获取关键词方法都是无监督方法，难免会出现领域知识抽取不准确的情况.因此，需要人为删除和修正这些提取出来的领域关键术语.人工优化实体部分实验结果如表5所示。

表5人工优化实体示例

实体
	tearDown()方法，loutils类，JobConf类，Unix工具
Mapper类，键/值对，setUp()方法，Cluster对象
	reduce方法，add()方法，setReducerClass()，JobTracker
MapReduce，JDK，JobConf类，HDFS，Pig，Hive

3.领域实体扩充

由于获取到的数据集有限，因此抽取到的知识实体也有限，所以需要对实体集进行扩充来保证知识体系的完整性.本发明在wiki语料中加入大数据处理技术的相关教案、书籍等文本资料，作为word2vec的训练集训练，最终得到684721个维度为400的词向量.并将之前获取的实体输入模型进行相似度词语的计算，得到6869个中文词汇与2731个英文词汇，再进行新一轮的人工优化.中文和英文实体扩展部分的实体分别如表6和表7所示.

表6中文实体扩展结果示例

表7英文实体扩展结果示例

实施例2：远程监督抽取的降噪实验

本发明的第2个实施例是基于人工标注的知识三元组，利用远程监督方法从课程教学文本中自动获取训练语料；然后用PCNN提取句子特征，采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去噪。接实施例1中的步骤2，具体步骤如下：

步骤3：人工标注的知识三元组；

步骤4：利用远程监督方法以及步骤3的三元组，从课程教学文本中自动获取训练语料；

步骤5：用PCNN提取句子特征，采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去噪；

在本发明中，所述步骤3中人工标注的知识三元组，包括：

步骤3.1，定义知识点之间的五种关系。描述关系，前导后继关系，包含关系，等价关系，相关关系。

步骤3.2，对抽取出的知识实体进行人为的关系判定，构造三元组。

进一步地，所述步骤4中，利用远程监督方法以及步骤3的三元组，从课程教学文本中自动获取训练语料，步骤包括：

步骤4.1，遍历所有文本，将三元组中的实体匹配课程语料，得到大量带有标签的数据；

步骤4.2，将数据进行分组，带有相同实体对的句子组成一个袋，带有相同关系的袋子组成一个袋组。

在本发明中，所述步骤5中，用PCNN提取句子特征，采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去噪，步骤包括：

步骤5.1，PCNN提取特征；

步骤5.1.1，向量表示

给定句子

以及句中的词语

句子的每个词语映射到d_w维词向量中.为了描述两个实体的位置信息，采用在中提出的位置特征(PFs).对于每个词语，PFs描述当前词语与两个实体之间的相对距离，并进一步映射为d_p维的两个向量

和

最后，将这三个向量连接起来，得到d_w+2d_p维的字表示

步骤5.1.2，卷积层

通过卷积层，可以提取句中的每个局部特征，并且把所有的特征融合到一起，从而实现全局的预测. 卷积值是权重向量w和输入向量之间的运算，假设滤波器的窗口为l，则w∈R^m(m＝l*d).给定S为序列{q₁,q₂,...,q_s}，其中q_i∈R^d.一般来说，q_i:j指的是q_i与q_j的串联.一个滤波器的第j个部分可表示为

c_j＝wq_j-w+1:j (6)

其中，索引j的取值范围从1到s+w-1,

捕获不同特征的能力通常需要在卷积中使用多个滤波器(或特征映射).假设使用n个滤波器 (W＝{w₁,w₂,...,w_n})，卷积运算可以表示为

c_ij＝w_iq_j-w+1:j1≤i≤n (7)

卷积的结果是一个矩阵C＝{c₁,c₂,...,c_n}∈R^n×(s+w-1)，图4显示了在一次卷积中用3个不同的滤波器的例子.

步骤5.1.3，分段最大池化

由于语句的长度会随着不同的表达方式会发生变化，PCNN神经网络利用最大池化层，使得抽取到的特征与句子长度无关.输入句可以根据两个选定的实体分为三个部分，它返回每个段中的最大值，而不是单个最大值.如图4所示，由实体1和实体2将每个卷积滤波器c_i的输出分成三段{c_i1,c_i2,c_i3}.分段最大池化过程可表示如公式(8)所示

p_ij＝max(c_ij)1≤i≤n,1≤j≤3 (8)

对于每个卷积滤波器的输出，可以得到一个三维向量p_i＝{p_i1,p_i2,p_i3}.然后把所有的向量p_1:n连接起来，应用双曲切线非线性函数，如公式(9)所示，

g＝tanh(p_1:n) (9)

其中g∈R³ⁿ.最后，为了计算每个关系的置信度，特征向量g被输入到Softmax分类器中.

步骤5.2，袋内注意力去噪；

设

表示袋bⁱ中所有句子的表示，

表示关系嵌入矩阵，其中h是关系数.袋表示

为计算方式如公式(10)所示

其中k∈{1,2,...,h}是关系索引，

是在bⁱ袋中第j个句子被赋予第k个关系的权重，

定义如公式 (11)所示

其中

是袋bⁱ中第k个关系与第j句之间的匹配度.采用一个简单的向量间点积来计算匹配度，如公式(12)所示

其中r_k是关系嵌入矩阵R²的第k行.最后，袋bⁱ的表示在图5中组成了矩阵

步骤5.3，袋间注意力去噪；

为了解决噪声袋问题，设计了一个基于相似性的袋间注意模块来减少噪声袋的重量.如果两个袋子

和

都有关系k标签，

和

的表示很可能是相近的，对于每一组具有相同关系标签的袋子，给那些在一组中与其他袋子相近的袋子分配更高的权重.因此，袋组g的表示如公式(13)所示

其中g_k是图中矩阵

的第k行，k是关系索引，β_ik构成注意力权矩阵β∈Rⁿ ^×h.每个β_ik被定义为

其中γ_ik描述了袋bⁱ与第k个关系的置信度.

在自我注意算法的启发下，利用向量本身计算一组向量的注意权重，根据袋子本身的向量表示计算袋子的权重.γ_ik被定义为

其中相似性函数是一个简单的点积，被定义为

此外，为了防止矢量长度的影响，在计算公式(13)-(16)之前，所有的袋表示

都被归一化为单位长度，即

然后，通过g_k和关系嵌入向量r_k来计算将袋组g被分为关系k的得分o_k

其中d_k是一个偏置项.最后，利用一个Softmax函数得到袋组g被归类为第k类关系的概率

公式(12)和公式(17)所用的关系嵌入矩阵R是相同的.另外，在袋表示Bⁱ中使用Dropout方法以防止过度拟合。

本发明使用句袋注意力机对远程监督得到的数据进行降噪处理.实验参数设置如表8所示：

表8句袋模型参数设置

本发明对比了远程监督降噪模型的几个例子，表10是不同模型的AUC值.其中CNN和PCNN分别表示在句子编码器中使用CNN或分段CNN，ATT-BL表示(Lin等人，2016)提出的袋内注意方法，ATT-RA表示关系感知袋内注意方法，而BAG-ATT表示袋间注意力方法.具体实验结果见图7.

为了呈现更直观的效果，图7对比了PR曲线，从图7中可以看出，PCNN_ATTRA与PCNN_ATTRA_BAGATT 曲线基本在其他曲线上方，说明袋内袋间注意力方法优于Lin等人提出的袋内注意力方法.

实施例3：课程知识点关系抽取实验

本发明的第3个实施例是课程知识点关系抽取，通过带有注意力的词向量捕捉上下文语义信息，并融合实体的位置信息、类型信息构造实体特征，输入Bi_LSTM模型获得知识点关系抽取。

接实施例步骤5，所述步骤6中，Bi_LSTM模型获得知识点关系抽取，步骤包括：

步骤6，通过带有注意力的词向量捕捉上下文语义信息，并融合实体的位置信息、类型信息构造实体特征，输入Bi_LSTM模型获得知识点关系抽取。

实体感知注意的三个特征包含：(1)Bi_LSTM的隐层状态H＝{h₁,h₂,...,h_n}.(2)相对位置特征；(3) 具有LET的实体特征.如公式(19)-(21)所示

1)Bi_LSTM的隐层状态

对应于实体对的位置，Bi_LSTM的隐层状态是表示实体的高级特征，用

表示，其中e_i表示实体的索引.

2)相对位置特征

位置感知注意被作为更有效地使用相对位置特征的一种方法.它是一种注意力机制的变体，它在计算注意力时不仅使用了Bi_LSTM的输出，而且也使用了相对位置特征.

在公式(19)中，

和

分别是第一个实体和第二个实体在句子中的位置，其中e_j∈{1,2}是第j个实体的索引.与字嵌入类似，相对位置通过查找可学习的嵌入矩阵

转换为向量表示，其中d_p是相对位置向量的维数，L是最大句子长度.

最后，BLSTM层的表示

通过连接h_i、

和

来重视上下文和与实体的位置关系.

3)具有潜在类型的实体特征LET

由于实体对是解决关系分类任务的有力提示，因为单是实体的类型就可以推断出近似关系，因此将实体对及其类型加入注意机制，能够有效地训练一个句子中实体对和其他词语间的关系..由于没有给出标注类型，通过潜在类型聚类(一种通过问答对排序方法得到文本主题的方法)来得到LET.基于注意机制，LET 通过加权K个潜在类型向量来构造实体类型的表示.数学公式如公式(22)所示：

其中c_i是第i个潜在类型向量，K是潜在实体类型的数量.

由上，实体特征是通过Bi_LSTM隐藏状态、相应的实体位置和实体对的类型来构造的.经过实体特征的线性变换，它们与Bi_LSTM层的表示相加，如公式(19)所示。并且句子z的表示由公式(19)-(21)得到。

根据知识之间的特性，本发明定义了实体之间的六种关系：描述关系，前导后继关系，包含关系，等价关系，相关关系，NA.然后根据6种关系构建小型知识库，并用远程监督结合袋内袋间注意力机制进行降噪，最后通过Bi_LSTM训练关系抽取器.表9是六种关系示例：

表9关系示例

本发明运用远程监督的思想，首先将实体抽取得到的实体进行人工标注关系，得到718条三元组知识库，将此知识库与10728条非结构化文本自动对齐，得到25520条标注数据.表10是远程监督对齐朴素文本的部分处理结果.

表10远程监督处理结果示例

将远程监督数据输入句袋注意力模型，得到每个句子对应6种关系的得分.为了避免受到知识库缺失噪音的影响，去除了NA关系标签的句子；为了消除多实例、多标签问题噪音，去除了除NA关系以外的五种关系的对应得分都较小的句子.筛选出约4000条标注数据，其中各个关系在数据中的占比如表11所示：

表11数据关系比例

本发明使用基于实体感知关注的Bi_LSTM模型进行关系抽取，对标注数据进行预处理，送入关系抽取模型进行训练，采用k-折交叉验证方法对模型进行调优，实验参数设置如表12所示：

表12 EA-Bi-LSTM模型参数设置

不同模型的F1的实验结果如图9所示：

1)本发明将未去噪语料与去噪后语料的训练结果进行对比，句袋注意力机制起到了一定降噪作用，去噪后的训练关系抽取模型抽取效果更好.

2)将本发明的模型与目前具有代表性的方法对比，Attention-Bi_LSTM+LET(即本发明介绍的 EA-Bi_LSTM)效果最好，说明融合实体特征方法确实起到了一定效果.

实施例4：知识图谱展示

将关系抽取结果整理成<实体-关系-实体>三元组，进行可视化展示。首先将三元组按照关系类别存储于csv文件，然后导入neo4j中，按照关系类别和实体进行展示。图10-14是根据关系查询的图谱展示，图15是根据实体查询的知识图谱展示。

在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上；术语“上”、“下”、“左”、 “右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、 “第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。