CN111914558A - 基于句袋注意力远程监督的课程知识关系抽取方法及系统 - Google Patents
基于句袋注意力远程监督的课程知识关系抽取方法及系统 Download PDFInfo
- Publication number
- CN111914558A CN111914558A CN202010758190.9A CN202010758190A CN111914558A CN 111914558 A CN111914558 A CN 111914558A CN 202010758190 A CN202010758190 A CN 202010758190A CN 111914558 A CN111914558 A CN 111914558A
- Authority
- CN
- China
- Prior art keywords
- bag
- entity
- knowledge
- attention
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 111
- 238000000034 method Methods 0.000 claims abstract description 97
- 239000013598 vector Substances 0.000 claims abstract description 89
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 44
- 230000007246 mechanism Effects 0.000 claims abstract description 32
- 239000011159 matrix material Substances 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 10
- 238000012544 monitoring process Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 239000002243 precursor Substances 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 13
- 238000013527 convolutional neural network Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 9
- 238000002372 labelling Methods 0.000 description 9
- 230000009467 reduction Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 7
- 238000010276 construction Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于关系抽取技术领域,公开了一种基于句袋注意力远程监督的课程知识关系抽取方法及系统,通过TF‑IDF、TextRank、Word2vec词聚类三种关键词抽取算法抽取知识实体;基于人工标注的知识三元组,利用远程监督方法从课程教学文本中自动获取训练语料;用PCNN提取句子特征,采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去噪;通过带有注意力的词向量捕捉上下文语义信息,并融合实体的位置信息、类型信息构造实体特征,输入Bi_LSTM模型获得知识点关系抽取。本发明不需要繁重的人工标注工作,减轻了人为构造特征的工作,可应用于不同科目的课程教学中,能对课程中的知识关系抽取取得很好的结果。
Description
技术领域
本发明属于关系抽取技术领域,尤其涉及一种基于句袋注意力远程监督的课程知识关系抽取方法及系 统。
背景技术
目前,随着人工智能技术在社会各个领域中的广泛应用,利用信息抽取技术对课程教学资料进行关键 信息抽取从而构建课程学习的知识图谱,是当前课程信息化建设的研究热点。其中,关系抽取是信息抽取 技术的重要环节,它是指对文本信息建模自动抽取出实体对之间的语义关系,提取出有效的语义知识,是 知识图谱构建中极为关键的部分。
近年来,深度学习的发展为实体关系抽取任务提供了有力的支持,根据数据集标注量级的差异,深度 学习的实体关系抽取任务分为有监督和远程监督两类,有监督的学习方法能够抽取有效的实体关系,其准 确率和召回率都很不错,但是这类方法对标注数据十分依赖,而标记数据耗时耗力,现有技术1提出了远 程监督(Distant Supervision)的思想,即如果两个实体并含某种关系,则提及这两个实体的所有句子都表示 该关系,可以自动生成训练关系提取模型的数据。
基于深度学习的远程监督方法主要是改进的CNN,RNN,LSTM等网络结构,如PCNN与多示例学习 的融合方法、PCNN与注意力机制的融合方法等。现有技术2提出基于句子层的注意力机制和实体描述, 降低了噪声问题并且获得了不同句子中的语义信息。现有技术3提出词语注意力机制的关系抽取模型,可 以在降噪的同时提高关系抽取的准确性。现有技术4通过矩阵分解补全方法解决稀疏及噪声的问题。现有 技术5提出弱监督机器学习思想抽取蛋白质与基因之间的关系。但是,远程监督方法容易带来多实例多标 签问题,若知识库不完备,更会带来知识库缺失的噪音问题.同时,对于特定领域的实体关系抽取,这些研究方法还需要解决领域知识库的构建问题。
通过上述分析,现有技术存在的问题如下所述:
在目前专业课程知识领域关系抽取的研究中,已有的基于深度学习的方法都是有监督的关系抽取方法, 能够有效利用样本的标记信息,准确率和召回率都比较高,是关系抽取领域主流的研究方法。然而,其最 大缺点是需要对每门课程都进行大量的人工标记训练语料,工作量巨大,通用性差,代价较高。本发明选 择的远程监督关系抽取技术,可以通过已有的每门课程的知识库作为监督源,自动对语料库进行标注,能 够大量节省人工标注成本,通用性好,能极大的提高工作效率。
目前,远程监督关系抽取方法面临的最主要的问题是错误标注问题。由于句子的标签是通过知识库自 动标注的,因此在标注结果中混入了大量的错误标注。其中,在错误标注问题中,有两类特殊的错误标注。 其中一类是由“至少一次假设”失效所造成的错误标注。即针对一个实体对,虽然有实体对共现的句子, 但这些句子无一体现了两实体之间的关系。“至少一次假设”认为,当句子聚合成为句袋时,每种关系至 少对应着一个句子,而该假设失效所造成的错误标注实例,可以认为是一种句袋级别的伪正例。另一类错 误标注是由知识库不完备所造成的伪反例,即某个实体对在句子中确实表明了某种关系,但由于知识库中 不存在该信息,因此机器标注时将该句标为无关系。该问题在训练集和测试集中都有出现,并且会较大程 度地影响测试结果。这两类错误标注问题都具有相当大的挑战性,而且对于模型的性能较难评估。
本发明针对第一类错误标注问题进行了深入研究,并且提出了切实可行的解决方案。首先,本发明基 于句袋注意力的远程监督关系抽取模型,将远程监督提供的训练数据分为多个袋组,每个袋组包含带有相 同关系标签的多个袋子,每个句袋(bag)包含一个实体对共现的所有句子。使用基于相似度的袋间注意 模块,通过对袋加权计算来表示袋组。使用一种基于关系感知的方式计算每个袋中句子的权重,来表示一 个袋,初期将其中嘈杂的句子设置为较小的权重。然后,用PCNN提取句子特征,采用袋内袋间注意力机 制降低错误标签的权重来对数据进行降噪;最后,通过带有注意力的词向量捕捉上下文语义信息,并融合 实体的位置信息、类型信息构造实体特征,输入Bi_LSTM模型获得知识点关系抽取。在实验过程中,本 发明选取了部分远程监督纽约时报(NYT)数据集,从中选取了包含13种关系的五千条数据,通过句袋注意 力模型进行降噪,然后将降噪后的数据集送入三种关系抽取模型,采用k-折交叉验证方法对模型进行调优, 实验结果证明本发明的效果良好。
关系抽取作为知识图谱技术的重要环节,一直以来在领域知识图谱的构建中受到了相当广泛的关注。 远程监督作为一种可以低成本获取标注数据的方法,也受到了人们的重视。本发明为课程知识关系抽取问 题,提供了一种新的远程监督关系抽取方法,在课程领域的知识图谱自动化构建中有重要的研究意义和应 用价值。
发明内容
针对现有技术存在的问题,本发明提供了一种基于句袋注意力远程监督的课程知识点关系抽取方法。
本发明是这样实现的,一种基于句袋注意力远程监督的课程知识关系抽取方法,包括:
首先,通过TF-IDF、TextRank、Word2vec词聚类三种关键词抽取算法抽取知识实体;基于人工标注 的知识三元组,利用远程监督方法从课程教学文本中自动获取训练语料;
其次,用PCNN提取句子特征,采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去 噪;
最后,通过带有注意力的词向量捕捉上下文语义信息,并融合实体的位置信息、类型信息构造实体特 征,输入Bi_LSTM模型获得知识点关系抽取。
进一步,所述基于句袋注意力远程监督的课程知识关系抽取方法包括以下步骤:
步骤一,对文本进行预处理;
步骤二,通过TF-IDF、TextRank、Word2vec词聚类三种关键词抽取算法抽取知识实体;
步骤三,定义知识点之间的描述关系,前导后继关系,包含关系,等价关系,相关关系,对抽取出的 知识实体进行人为的关系判定,构造三元组;
步骤四,利用远程监督方法以及构造的三元组,从课程教学文本中自动获取训练语料;
步骤五,用PCNN提取句子特征,采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声 去噪;
步骤六,通过带有注意力的词向量捕捉上下文语义信息,并融合实体的位置信息、类型信息构造实体 特征,输入Bi_LSTM模型获得知识点关系抽取。
进一步,步骤一中,所述文本预处理方法包括:
将文件进行合并,存储进一个文件中,并将文件的编码修改为UTF-8;去除文本中多余的空格以及符 号,删除没有意义的词汇;使用jieba分词包将文本进行分词处理。
进一步,步骤二中,所述通过TF-IDF、TextRank、Word2vec词聚类三种关键词抽取算法抽取知识实 体包括:
首先,设定TF-IDF、TextRank、Word2vec词聚类三种算法的各项参数,并令TF-IDF、TextRank、Word2vec 三种算法根据其得分抽取得分最高的前300个实体;
其次,删除训练集中课程知识不相关的文本;对实体集进行扩充及优化。
进一步,步骤四中,所述利用远程监督方法以及构造的三元组,从课程教学文本中自动获取训练语料 包括:
遍历所有文本,将三元组中的实体匹配课程语料,得到大量带有标签的数据;将数据进行分组,带有 相同实体对的句子组成一个袋,带有相同关系的袋子组成一个袋组。
进一步,步骤五中,所述用PCNN提取句子特征,采用句袋注意力机制对远程监督方法标注的数据中 存在的大量噪声去噪包括:
(1)用PCNN提取句子特征:
(1.1)进行向量表示:给定句子以及句中的词语句子的每个词语映射到dw维词向量中,利用 位置特征PFs描述当前词语与两个实体之间的相对距离,并进一步映射为dp维的两个向量和将三 个向量连接起来,得到dw+2dp维的字表示
(1.2)卷积层设置:滤波器的窗口为l,w∈Rm(m=l*d),给定S为序列{q1,q2,...,qs},其中qi∈Rd, qi:j表示qi与qj的串联,滤波器的第j个部分表示为:cj=wqj-w+1:j,索引j的取值范围从1到s+w-1;
使用n个滤波器W={w1,w2,...,wn},卷积运算表示为:
cij=wiqj-w+1:j 1≤i≤n;
卷积的结果为一个矩阵C={c1,c2,...,cn}∈Rn×(s+w-1);
(1.3)进行分段最大池化:根据两个选定的实体将每个卷积滤波器ci的输出分成三段{ci1,ci2,ci3},
分段最大池化过程表示如下:
pij=max(cij)1≤i≤n,1≤j≤3;
对于每个卷积滤波器的输出,得到一个三维向量pi={pi1,pi2,pi3},把所有的向量p1:n连接起来,应用 双曲切线非线性函数,如下所示:
g=tanh(p1:n);
其中g∈R3n;
将特征向量g输入到Softmax分类器中,计算每个关系的置信度;
(2)进行袋内注意力去噪:
(3)进行袋间注意力去噪:
其中γik描述了袋bi与第k个关系的置信度;
在自我注意算法的启发下,利用向量本身计算一组向量的注意权重,根据袋子本身的向量表示计算袋 子的权重,γik被定义为:
其中相似性函数是一个简单的点积,被定义为:
进一步,所述进行袋间注意力去噪还包括:
其中dk是一个偏置项;
利用一个Softmax函数得到袋组g被归类为第k类关系的概率:
进一步,步骤六中,所述通过带有注意力的词向量捕捉上下文语义信息,并融合实体的位置信息、类 型信息构造实体特征包括:
所述实体特征通过Bi_LSTM隐藏状态、相应的实体位置和实体对的类型进行构造;
所述Bi_LSTM的隐层状态H={h1,h2,...,hn};相对位置特征以及具有LET的实体特征,如下所示:
2)相对位置特征:
3)具有潜在类型的实体特征LET:
LET通过加权K个潜在类型向量来构造实体类型的表示,如下:
其中ci是第i个潜在类型向量,K是潜在实体类型的数量。
本发明的另一目的在于提供一种基于句袋注意力远程监督的课程知识点关系抽取系统包括:
训练语料获取模块,通过词聚类关键词抽取算法抽取知识实体;基于人工标注的知识三元组,利用远 程监督方法从课程教学文本中自动获取训练语料;
噪声去噪模块,用PCNN提取句子特征,采用句袋注意力机制对远程监督方法标注的数据中存在的大 量噪声去噪;
知识点关系抽取获取模块,通过带有注意力的词向量捕捉上下文语义信息,并融合实体的位置信息、 类型信息构造实体特征,输入Bi_LSTM模型获得知识点关系抽取。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储 有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
通过词聚类关键词抽取算法抽取知识实体;基于人工标注的知识三元组,利用远程监督方法从课程教 学文本中自动获取训练语料;
用PCNN提取句子特征,采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去噪;
通过带有注意力的词向量捕捉上下文语义信息,并融合实体的位置信息、类型信息构造实体特征,输 入Bi_LSTM模型获得知识点关系抽取。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器 执行时,使得所述处理器执行如下步骤:
训练语料获取模块,通过词聚类关键词抽取算法抽取知识实体;基于人工标注的知识三元组,利用远 程监督方法从课程教学文本中自动获取训练语料;
噪声去噪模块,用PCNN提取句子特征,采用句袋注意力机制对远程监督方法标注的数据中存在的大 量噪声去噪;
知识点关系抽取获取模块,通过带有注意力的词向量捕捉上下文语义信息,并融合实体的位置信息、 类型信息构造实体特征,输入Bi_LSTM模型获得知识点关系抽取。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:
本发明公开了基于句袋注意力的远程监督关系抽取模型DSRE-SBA,利用统计学、深度学习方法抽取 课程知识点的关键词,通过领域实体优化得到知识点实体,用基于远程监督的袋内袋间注意力机制,对得 到的大量训练数据降噪,然后将降噪过的数据送入基于实体注意的Bi_LSTM进行关系抽取。
与现有技术相比,本发明的优点具体体现在以下三个方面:
第一,知识点抽取结合了三种各有特色的关键词抽取算法。TF-IDF考虑了词频,TextRank分析了词 之间的关系,Word2vec词聚类考虑了词的语义,三种算法各有所长,能获得更好的实体抽取结果。
表1是三种方法大数据课程教材关键词抽取的准确率结果:
表1 TF-IDF、TextRank、Word2vec准确率对比
根据表1的实验结果,TF-IDF与TextRank算法在关键词抽取阈值改变时,准确率并没有太大改变, 而Word2vec词聚类算法随着抽取关键词数阈值减小,准确率逐渐上升,这与词算法的聚类特性有关.TF-IDF 考虑了词频,TextRank考虑了词之间的关系,Word2vec词聚类考虑了词的语义,三种算法各有所长,所 以本文结合三种方法的结果,对实体进行整合与人工筛选矫正.关键词抽取部分实验结果如表2所示。
表2关键词抽取结果示例
第二,将数据集送入关系抽取器之前,首先进行句袋注意力机制降噪,能让模型有更好的鲁棒性。
本发明使用句袋注意力机对远程监督得到的数据进行降噪处理.对比了远程监督降噪模型的几个例子, 表3是不同模型的AUC值。其中CNN和PCNN分别表示在句子编码器中使用CNN或分段CNN,ATT-BL 表示袋内注意方法,ATT-RA表示关系感知袋内注意方法,而BAG-ATT表示袋间注意力方法。
表3不同模型的AUC值
Model | AUC |
CNN+ATT-BL | 0.3478 |
CNN+ATT-BL+BAG-ATT | 0.3533 |
CNN+ATT-RA | 0.3773 |
CNN+ATT-RA+BAG-ATT | 0.3899 |
PCNN+ATT-BL | 0.3900 |
PCNN+ATT-BL+BAG-ATT | 0.3975 |
PCNN+ATT-RA | 0.4477 |
PCNN+ATT-RA+BAG-ATT | 0.4540 |
从表3可以看出:
①使用了ATTRA注意力机制模型的AUC值高于使用了ATTBL注意力机制的模型,这是因为 ATTRA方法使用所有关系嵌入来计算袋内注意权重.
②使用了BAG-ATT模型的AUC值高于没有使用BAG-ATT的模型,说明计算袋与袋之间的相 似度策略起到了一定的效果.
③其中用PCNN构造句子特征的AUC值明显高于CNN,这是因为PCNN能够提取句子中两个 实体间的结构信息.
第三,本发明研发的EA-Bi_LSTM训练关系抽取模型,在F1值上达到了88.1%的效果,此方法 减少了人工的参与,能够较好平衡人工与自动构建的关系。
本发明选取了部分远程监督纽约时报(NYT)数据集,从中选取了包含13种关系的五千条数据,通 过句袋注意力模型进行降噪,然后将降噪后的数据集送入三种关系抽取模型,采用k-折交叉验证方法 对模型进行调优,表4是不同模型在NYT数据集上的F1值。可以看出,在经过去噪后三种模型的F1值都得到了一定提升。
表4不同模型的F1值
本发明提出一种句袋注意力远程监督关系抽取方法,不需要繁重的人工标注工作,减轻了人为构造特 征的工作,可以应用于不同科目的课程教学中,并能取得良好的知识抽取结果。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介 绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于句袋注意力远程监督的课程知识关系抽取方法流程图。
图2是本发明实施例提供的远程监督实体关系抽取原理图。
图3是本发明实施例提供的DSRE-SBA模型框架图。
图4是本发明实施例提供的PCNN模型框架图。
图5是本发明实施例提供的句袋注意力模型框架图。
图6是本发明实施例提供的EA-Bi_LSTM框架图。
图7是本发明实施例提供的不同模型的PR曲线示意图。
图8是本发明实施例提供的不同算法在通用数据集上的实验对比结果示意图。
图9是本发明实施例提供的不同算法在课程数据集上的实验对比结果示意图。
图10是本发明实施例提供的等价关系查询知识图谱结果示意图。
图11是本发明实施例提供的描述关系查询知识图谱结果示意图。
图12是本发明实施例提供的包含关系查询知识图谱结果示意图。
图13是本发明实施例提供的前导后继关系查询知识图谱结果示意图。
图14是本发明实施例提供的相关关系查询知识图谱结果示意图。
图15是本发明实施例提供的按实体查询知识图谱结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说 明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种基于句袋注意力远程监督的课程知识关系抽取方法及系 统,下面结合附图对本发明作详细的描述。
本发明实施例提供的基于句袋注意力远程监督的课程知识关系抽取方法包括:
首先,通过TF-IDF、TextRank、Word2vec词聚类三种关键词抽取算法抽取知识实体;基于人工标注 的知识三元组,利用远程监督方法从课程教学文本中自动获取训练语料;其次,用PCNN提取句子特征, 采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去噪;最后,通过带有注意力的词向量 捕捉上下文语义信息,并融合实体的位置信息、类型信息构造实体特征,输入Bi_LSTM模型获得知识点 关系抽取。
如图1至图3所示,本发明实施例提供的基于句袋注意力远程监督的课程知识关系抽取方法包括以下 步骤:
S101,对文本进行预处理;
S102,通过TF-IDF、TextRank、Word2vec词聚类三种关键词抽取算法抽取知识实体;
S103,定义知识点之间的描述关系,前导后继关系,包含关系,等价关系,相关关系,对抽取出的知 识实体进行人为的关系判定,构造三元组;
S104,利用远程监督方法以及构造的三元组,从课程教学文本中自动获取训练语料;
S105,用PCNN提取句子特征,采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去 噪;
S106,通过带有注意力的词向量捕捉上下文语义信息,并融合实体的位置信息、类型信息构造实体特 征,输入Bi_LSTM模型获得知识点关系抽取。
步骤S101中,本发明实施例提供的文本预处理方法包括:
将文件进行合并,存储进一个文件中,并将文件的编码修改为UTF-8;去除文本中多余的空格以及符 号,删除没有意义的词汇;使用jieba分词包将文本进行分词处理。
步骤S102中,本发明实施例提供的通过TF-IDF、TextRank、Word2vec词聚类三种关键词抽取算法抽 取知识实体包括:
首先,设定TF-IDF、TextRank、Word2vec词聚类三种算法的各项参数,并令TF-IDF、TextRank、Word2vec 三种算法根据其得分抽取得分最高的前300个实体;
其次,删除训练集中课程知识不相关的文本;对实体集进行扩充及优化。
步骤S104中,本发明实施例提供的利用远程监督方法以及构造的三元组,从课程教学文本中自动获 取训练语料包括:
遍历所有文本,将三元组中的实体匹配课程语料,得到大量带有标签的数据;将数据进行分组,带有 相同实体对的句子组成一个袋,带有相同关系的袋子组成一个袋组。
步骤S105中,本发明实施例提供的用PCNN提取句子特征,采用句袋注意力机制对远程监督方法标 注的数据中存在的大量噪声去噪包括:
(1)用PCNN提取句子特征:
(1.1)进行向量表示:给定句子以及句中的词语句子的每个词语映射到dw维词向量中,利用 位置特征PFs描述当前词语与两个实体之间的相对距离,并进一步映射为dp维的两个向量和将三 个向量连接起来,得到dw+2dp维的字表示
(1.2)卷积层设置:滤波器的窗口为l,w∈Rm(m=l*d),给定S为序列{q1,q2,...,qs},其中qi∈Rd, qi:j表示qi与qj的串联,滤波器的第j个部分表示为:cj=wqj-w+1:j,索引j的取值范围从1到s+w-1;
使用n个滤波器W={w1,w2,...,wn},卷积运算表示为:
cij=wiqj-w+1:j1≤i≤n;
卷积的结果为一个矩阵C={c1,c2,...,cn}∈Rn×(s+w-1);
(1.3)进行分段最大池化:根据两个选定的实体将每个卷积滤波器ci的输出分成三段{ci1,ci2,ci3},
分段最大池化过程表示如下:
pij=max(cij)1≤i≤n,1≤j≤3;
对于每个卷积滤波器的输出,得到一个三维向量pi={pi1,pi2,pi3},把所有的向量p1:n连接起来,应用 双曲切线非线性函数,如下所示:
g=tanh(p1:n);
其中g∈R3n;
将特征向量g输入到Softmax分类器中,计算每个关系的置信度;
(2)进行袋内注意力去噪:
(3)进行袋间注意力去噪:
其中γik描述了袋bi与第k个关系的置信度;
在自我注意算法的启发下,利用向量本身计算一组向量的注意权重,根据袋子本身的向量表示计算袋 子的权重,γik被定义为:
其中相似性函数是一个简单的点积,被定义为:
本发明实施例提供的进行袋间注意力去噪还包括:
其中dk是一个偏置项;
利用一个Softmax函数得到袋组g被归类为第k类关系的概率:
步骤S106中,本发明实施例提供的通过带有注意力的词向量捕捉上下文语义信息,并融合实体的位 置信息、类型信息构造实体特征包括:
所述实体特征通过Bi_LSTM隐藏状态、相应的实体位置和实体对的类型进行构造;
所述Bi_LSTM的隐层状态H={h1,h2,...,hn};相对位置特征以及具有LET的实体特征,如下所示:
2)相对位置特征:
3)具有潜在类型的实体特征LET:
LET通过加权K个潜在类型向量来构造实体类型的表示,如下:
其中ci是第i个潜在类型向量,K是潜在实体类型的数量。
本发明提供一种基于句袋注意力远程监督的课程知识关系抽取系统包括:
训练语料获取模块,通过词聚类关键词抽取算法抽取知识实体;基于人工标注的知识三元组,利用远 程监督方法从课程教学文本中自动获取训练语料;
噪声去噪模块,用PCNN提取句子特征,采用句袋注意力机制对远程监督方法标注的数据中存在的大 量噪声去噪;
知识点关系抽取获取模块,通过带有注意力的词向量捕捉上下文语义信息,并融合实体的位置信息、 类型信息构造实体特征,输入Bi_LSTM模型获得知识点关系抽取。
下面结合具体实施例对本发明的技术方案作进一步说明。
实施例1:课程知识实体抽取实验
本发明首先通过TF-IDF、TextRank、Word2vec词聚类三种关键词抽取算法抽取知识实体,包括如下 步骤:
步骤1,对文本进行预处理;
步骤2,通过TF-IDF、TextRank、Word2vec词聚类三种关键词抽取算法抽取知识实体;
在本发明中,所述步骤1中对文本进行预处理,包括:进行文本格式的转码,去除多余符号和停用词, 以及分词操作,步骤1进一步包括:
步骤1.1,将文件夹里的文件进行合并,写进一个文件中,便于后续进行操作,并将文件的编码修改 为UTF-8,修改后更有利于后续程序处理;
步骤1.2,去除文本中多余的符号,由于后续需要使用这些文本作为训练集训练词向量,重复文件和 无意义符号过多的文本会导致生成的词向量效果不佳,因而这里先去除掉所有无意义的空格和符号;
步骤1.3,如果多余的符号,文本中可能会含有“啊”,“呀”等无意义,对文本相似判断无影响的 词汇,这些词汇同样会影响词向量训练的结果,因而,在预处理中先将这一部分没有意义的词汇删掉;
步骤1.4,训练词向量需要先将中文文本分割成一个一个的词,然后将训练集喂入word2vec模型进行 训练,获得每个词的词向量,因而,在预处理时,使用jieba分词包将文本进行分词处理,便于后续使用。
在本发明中,所述步骤2中通过TF-IDF、TextRank、Word2vec词聚类三种关键词抽取算法抽取知识 实体,包括:
步骤2.1,先行设定TF-IDF、TextRank、Word2vec词聚类三种算法的各项参数,本发明设置TF-IDF、 TextRank、Word2vec三种算法根据其得分抽取得分最高的前300个实体。
步骤2.2,无监督方法得到的数据,对后续模型的训练有很大的影响,如果大量重复的,杂乱无用的 文本混入训练集会导致模型训练结果变差,因而需要对训练集进行拣选把关,将重复文本和内容杂乱的文 本进行剔除,可以有效的提升模型效果,预处理中已经删除掉了文本中的停用词,再删除掉训练集中课程 知识不相关的文本。
步骤2.3,由于获取到的数据集有限,因此抽取到的知识实体也有限,所以需要对实体集进行扩充来 保证知识体系的完整性。再进行新一轮的人工优化。
本发明对实体抽取相关实验,以验证“大数据处理技术”课程知识点关系抽取模型的有效性.实验环 境主要采用了Ubuntu 16.04.6,LTS 4.15.0-45-generic,GNU/Linux,PyCharm3.6,开发语言是Python.
本发明收集了与大数据处理课程有关的电子教案、电子书籍、课程大纲等课程资料.并将对应的课程 资料转变成文本格式,对中文文本进行分句处理,得到11026条数据.为了下一步自动抽取关键词,需要 对这一万条数据进行分词及去停用词处理.本发明使用NLPIR中文停用词表,包含了1208个停用词.并加 入计算机主题类词汇构造自己的分词词典,采用开源中分分词工具jieba进行分词.原始数据如表5所示.
表5样本示例
本发明主要采用精度-召回率(PR)曲线、精度与召回率的调和平均值F1(F1_score)、准确率(Accuracy) 以及ROC曲线下的面积AUC(Area Under Curve)作为评价指标,来评估提出的方法是否有效.
知识领域的实体与普通的实体抽取(如抽取人名,地名,机构名等)并不相同,在教育领域,一篇文 章想要传达的知识即文章的主要内容与主题.而文本关键词表达了文档主题性和关键性的内容,是文档内 容理解的最小单位.因此本发明采取关键词提取方法获取专业领域实体.
1.关键词抽取
本发明使用TF-IDF,TextRank,Word2vec词聚类对分好词的文本进行关键词抽取,表1是三种方法 大数据课程教材关键词抽取的准确率结果:
根据表1的实验结果,TF-IDF与TextRank算法在关键词抽取阈值改变时,准确率并没有太大改变, 而Word2vec词聚类算法随着抽取关键词数阈值减小,准确率逐渐上升,这与词算法的聚类特性有关.TF-IDF 考虑了词频,TextRank考虑了词之间的关系,Word2vec词聚类考虑了词的语义,三种算法各有所长,所 以本发明结合三种方法的结果,对实体进行整合与人工筛选矫正.关键词抽取部分实验结果见前面“发明 内容”部分的表2所示.
2.领域实体优化
以上算法得到的关键词确实有不少是“大数据处理”课程的核心概念,例如“hadoop”、“分布式”、 “数据流”、“集群”、“雅虎问题”等等.但本发明使用的获取关键词方法都是无监督方法,难免会出 现领域知识抽取不准确的情况.因此,需要人为删除和修正这些提取出来的领域关键术语.人工优化实体部 分实验结果如表5所示。
表5人工优化实体示例
实体 |
tearDown()方法,loutils类,JobConf类,Unix工具 |
Mapper类,键/值对,setUp()方法,Cluster对象 |
reduce方法,add()方法,setReducerClass(),JobTracker |
MapReduce,JDK,JobConf类,HDFS,Pig,Hive |
3.领域实体扩充
由于获取到的数据集有限,因此抽取到的知识实体也有限,所以需要对实体集进行扩充来保证知识体 系的完整性.本发明在wiki语料中加入大数据处理技术的相关教案、书籍等文本资料,作为word2vec的 训练集训练,最终得到684721个维度为400的词向量.并将之前获取的实体输入模型进行相似度词语的计 算,得到6869个中文词汇与2731个英文词汇,再进行新一轮的人工优化.中文和英文实体扩展部分的实 体分别如表6和表7所示.
表6中文实体扩展结果示例
表7英文实体扩展结果示例
实施例2:远程监督抽取的降噪实验
本发明的第2个实施例是基于人工标注的知识三元组,利用远程监督方法从课程教学文本中自动获取 训练语料;然后用PCNN提取句子特征,采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪 声去噪。接实施例1中的步骤2,具体步骤如下:
步骤3:人工标注的知识三元组;
步骤4:利用远程监督方法以及步骤3的三元组,从课程教学文本中自动获取训练语料;
步骤5:用PCNN提取句子特征,采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去 噪;
在本发明中,所述步骤3中人工标注的知识三元组,包括:
步骤3.1,定义知识点之间的五种关系。描述关系,前导后继关系,包含关系,等价关系,相关关系。
步骤3.2,对抽取出的知识实体进行人为的关系判定,构造三元组。
进一步地,所述步骤4中,利用远程监督方法以及步骤3的三元组,从课程教学文本中自动获取训练 语料,步骤包括:
步骤4.1,遍历所有文本,将三元组中的实体匹配课程语料,得到大量带有标签的数据;
步骤4.2,将数据进行分组,带有相同实体对的句子组成一个袋,带有相同关系的袋子组成一个袋组。
在本发明中,所述步骤5中,用PCNN提取句子特征,采用句袋注意力机制对远程监督方法标注的数 据中存在的大量噪声去噪,步骤包括:
步骤5.1,PCNN提取特征;
步骤5.1.1,向量表示
给定句子以及句中的词语句子的每个词语映射到dw维词向量中.为了描述两个实体的位置信息, 采用在中提出的位置特征(PFs).对于每个词语,PFs描述当前词语与两个实体之间的相对距离,并进一步 映射为dp维的两个向量和最后,将这三个向量连接起来,得到dw+2dp维的字表示
步骤5.1.2,卷积层
通过卷积层,可以提取句中的每个局部特征,并且把所有的特征融合到一起,从而实现全局的预测. 卷积值是权重向量w和输入向量之间的运算,假设滤波器的窗口为l,则w∈Rm(m=l*d).给定S为序列{q1,q2,...,qs},其中qi∈Rd.一般来说,qi:j指的是qi与qj的串联.一个滤波器的第j个部分可表示为
cj=wqj-w+1:j (6)
其中,索引j的取值范围从1到s+w-1,
捕获不同特征的能力通常需要在卷积中使用多个滤波器(或特征映射).假设使用n个滤波器 (W={w1,w2,...,wn}),卷积运算可以表示为
cij=wiqj-w+1:j1≤i≤n (7)
卷积的结果是一个矩阵C={c1,c2,...,cn}∈Rn×(s+w-1),图4显示了在一次卷积中用3个不同的滤波 器的例子.
步骤5.1.3,分段最大池化
由于语句的长度会随着不同的表达方式会发生变化,PCNN神经网络利用最大池化层,使得抽取到的特 征与句子长度无关.输入句可以根据两个选定的实体分为三个部分,它返回每个段中的最大值,而不是单 个最大值.如图4所示,由实体1和实体2将每个卷积滤波器ci的输出分成三段{ci1,ci2,ci3}.分段最大池化 过程可表示如公式(8)所示
pij=max(cij)1≤i≤n,1≤j≤3 (8)
对于每个卷积滤波器的输出,可以得到一个三维向量pi={pi1,pi2,pi3}.然后把所有的向量p1:n连接起 来,应用双曲切线非线性函数,如公式(9)所示,
g=tanh(p1:n) (9)
其中g∈R3n.最后,为了计算每个关系的置信度,特征向量g被输入到Softmax分类器中.
步骤5.2,袋内注意力去噪;
步骤5.3,袋间注意力去噪;
为了解决噪声袋问题,设计了一个基于相似性的袋间注意模块来减少噪声袋的重量.如果两个袋子和都有关系k标签,和的表示很可能是相近的,对于每一组具有相同关系标签的袋子,给那些在 一组中与其他袋子相近的袋子分配更高的权重.因此,袋组g的表示如公式(13)所示
其中γik描述了袋bi与第k个关系的置信度.
在自我注意算法的启发下,利用向量本身计算一组向量的注意权重,根据袋子本身的向量表示计算袋 子的权重.γik被定义为
其中相似性函数是一个简单的点积,被定义为
然后,通过gk和关系嵌入向量rk来计算将袋组g被分为关系k的得分ok
其中dk是一个偏置项.最后,利用一个Softmax函数得到袋组g被归类为第k类关系的概率
公式(12)和公式(17)所用的关系嵌入矩阵R是相同的.另外,在袋表示Bi中使用Dropout方法以防止 过度拟合。
本发明使用句袋注意力机对远程监督得到的数据进行降噪处理.实验参数设置如表8所示:
表8句袋模型参数设置
本发明对比了远程监督降噪模型的几个例子,表10是不同模型的AUC值.其中CNN和PCNN分别表示 在句子编码器中使用CNN或分段CNN,ATT-BL表示(Lin等人,2016)提出的袋内注意方法,ATT-RA表示 关系感知袋内注意方法,而BAG-ATT表示袋间注意力方法.具体实验结果见图7.
为了呈现更直观的效果,图7对比了PR曲线,从图7中可以看出,PCNN_ATTRA与PCNN_ATTRA_BAGATT 曲线基本在其他曲线上方,说明袋内袋间注意力方法优于Lin等人提出的袋内注意力方法.
实施例3:课程知识点关系抽取实验
本发明的第3个实施例是课程知识点关系抽取,通过带有注意力的词向量捕捉上下文语义信息,并融 合实体的位置信息、类型信息构造实体特征,输入Bi_LSTM模型获得知识点关系抽取。
接实施例步骤5,所述步骤6中,Bi_LSTM模型获得知识点关系抽取,步骤包括:
步骤6,通过带有注意力的词向量捕捉上下文语义信息,并融合实体的位置信息、类型信息构造实体 特征,输入Bi_LSTM模型获得知识点关系抽取。
实体感知注意的三个特征包含:(1)Bi_LSTM的隐层状态H={h1,h2,...,hn}.(2)相对位置特征;(3) 具有LET的实体特征.如公式(19)-(21)所示
1)Bi_LSTM的隐层状态
2)相对位置特征
位置感知注意被作为更有效地使用相对位置特征的一种方法.它是一种注意力机制的变体,它在计算 注意力时不仅使用了Bi_LSTM的输出,而且也使用了相对位置特征.
在公式(19)中,和分别是第一个实体和第二个实体在句子中的位置,其中ej∈{1,2}是 第j个实体的索引.与字嵌入类似,相对位置通过查找可学习的嵌入矩阵转换为向量表示, 其中dp是相对位置向量的维数,L是最大句子长度.
3)具有潜在类型的实体特征LET
由于实体对是解决关系分类任务的有力提示,因为单是实体的类型就可以推断出近似关系,因此将实 体对及其类型加入注意机制,能够有效地训练一个句子中实体对和其他词语间的关系..由于没有给出标注 类型,通过潜在类型聚类(一种通过问答对排序方法得到文本主题的方法)来得到LET.基于注意机制,LET 通过加权K个潜在类型向量来构造实体类型的表示.数学公式如公式(22)所示:
其中ci是第i个潜在类型向量,K是潜在实体类型的数量.
由上,实体特征是通过Bi_LSTM隐藏状态、相应的实体位置和实体对的类型来构造的.经过实体特征 的线性变换,它们与Bi_LSTM层的表示相加,如公式(19)所示。并且句子z的表示由公式(19)-(21)得到。
根据知识之间的特性,本发明定义了实体之间的六种关系:描述关系,前导后继关系,包含关系,等 价关系,相关关系,NA.然后根据6种关系构建小型知识库,并用远程监督结合袋内袋间注意力机制进行 降噪,最后通过Bi_LSTM训练关系抽取器.表9是六种关系示例:
表9关系示例
本发明运用远程监督的思想,首先将实体抽取得到的实体进行人工标注关系,得到718条三元组知识 库,将此知识库与10728条非结构化文本自动对齐,得到25520条标注数据.表10是远程监督对齐朴素文 本的部分处理结果.
表10远程监督处理结果示例
将远程监督数据输入句袋注意力模型,得到每个句子对应6种关系的得分.为了避免受到知识库缺失 噪音的影响,去除了NA关系标签的句子;为了消除多实例、多标签问题噪音,去除了除NA关系以外的五 种关系的对应得分都较小的句子.筛选出约4000条标注数据,其中各个关系在数据中的占比如表11所示:
表11数据关系比例
本发明使用基于实体感知关注的Bi_LSTM模型进行关系抽取,对标注数据进行预处理,送入关系抽取 模型进行训练,采用k-折交叉验证方法对模型进行调优,实验参数设置如表12所示:
表12 EA-Bi-LSTM模型参数设置
不同模型的F1的实验结果如图9所示:
1)本发明将未去噪语料与去噪后语料的训练结果进行对比,句袋注意力机制起到了一定降噪作用, 去噪后的训练关系抽取模型抽取效果更好.
2)将本发明的模型与目前具有代表性的方法对比,Attention-Bi_LSTM+LET(即本发明介绍的 EA-Bi_LSTM)效果最好,说明融合实体特征方法确实起到了一定效果.
实施例4:知识图谱展示
将关系抽取结果整理成<实体-关系-实体>三元组,进行可视化展示。首先将三元组按照关系类别存储 于csv文件,然后导入neo4j中,按照关系类别和实体进行展示。图10-14是根据关系查询的图谱展示, 图15是根据实体查询的知识图谱展示。
在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上;术语“上”、“下”、“左”、 “右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附 图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必 须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、 “第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的 技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等, 都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于句袋注意力远程监督的课程知识关系抽取方法,其特征在于,所述基于句袋注意力远程监督的课程知识关系抽取方法包括:
通过词聚类关键词抽取算法抽取知识实体;
基于人工标注的知识三元组,利用远程监督方法从课程教学文本中自动获取训练语料;
用PCNN提取句子特征,采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去噪;
通过带有注意力的词向量捕捉上下文语义信息,并融合实体的位置信息、类型信息构造实体特征,输入Bi_LSTM模型获得知识点关系抽取。
2.如权利要求1所述基于句袋注意力远程监督的课程知识关系抽取方法,其特征在于,所述基于句袋注意力远程监督的课程知识关系抽取方法包括以下步骤:
步骤一,对文本进行预处理;
步骤二,通过TF-IDF、TextRank、Word2vec词聚类三种关键词抽取算法抽取知识实体;
步骤三,定义知识点之间的描述关系,前导后继关系,包含关系,等价关系,相关关系,对抽取出的知识实体进行人为的关系判定,构造三元组;
步骤四,利用远程监督方法以及构造的三元组,从课程教学文本中自动获取训练语料;
步骤五,用PCNN提取句子特征,采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去噪;
步骤六,通过带有注意力的词向量捕捉上下文语义信息,并融合实体的位置信息、类型信息构造实体特征,输入Bi_LSTM模型获得知识点关系抽取。
3.如权利要求2所述基于句袋注意力远程监督的课程知识关系抽取方法,其特征在于,步骤一中,所述文本预处理方法包括:
将文件进行合并,存储进一个文件中,并将文件的编码修改为UTF-8;去除文本中多余的空格以及符号,删除没有意义的词汇;使用jieba分词包将文本进行分词处理。
4.如权利要求2所述基于句袋注意力远程监督的课程知识关系抽取方法,其特征在于,步骤二中,所述通过TF-IDF、TextRank、Word2vec词聚类三种关键词抽取算法抽取知识实体包括:
首先,设定TF-IDF、TextRank、Word2vec词聚类三种算法的各项参数,并令TF-IDF、TextRank、Word2vec三种算法根据得分抽取得分最高的前300个实体;
其次,删除训练集中课程知识不相关的文本;对实体集进行扩充及优化;
步骤四中,所述利用远程监督方法以及构造的三元组,从课程教学文本中自动获取训练语料包括:
遍历所有文本,将三元组中的实体匹配课程语料,得到大量带有标签的数据;将数据进行分组,带有相同实体对的句子组成一个袋,带有相同关系的袋子组成一个袋组。
5.如权利要求2所述基于句袋注意力远程监督的课程知识关系抽取方法,其特征在于,步骤五中,所述用PCNN提取句子特征,采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去噪包括:
(1)用PCNN提取句子特征:
(1.1)进行向量表示:给定句子以及句中的词语句子的每个词语映射到dw维词向量中,利用位置特征PFs描述当前词语与两个实体之间的相对距离,并进一步映射为dp维的两个向量和将三个向量连接起来,得到dw+2dp维的字表示
(1.2)卷积层设置:滤波器的窗口为l,w∈Rm(m=l*d),给定S为序列{q1,q2,...,qs},其中qi∈Rd,qi:j表示qi与qj的串联,滤波器的第j个部分表示为:cj=wqj-w+1:j,索引j的取值范围从1到s+w-1;
使用n个滤波器W={w1,w2,...,wn},卷积运算表示为:
cij=wiqj-w+1:j 1≤i≤n;
卷积的结果为一个矩阵C={c1,c2,...,cn}∈Rn×(s+w-1);
(1.3)进行分段最大池化:根据两个选定的实体将每个卷积滤波器ci的输出分成三段{ci1,ci2,ci3},
分段最大池化过程表示如下:
pij=max(cij)1≤i≤n,1≤j≤3;
对于每个卷积滤波器的输出,得到一个三维向量pi={pi1,pi2,pi3},把所有的向量p1:n连接起来,应用双曲切线非线性函数,如下所示:
g=tanh(p1:n);
其中g∈R3n;
将特征向量g输入到Softmax分类器中,计算每个关系的置信度;
(2)进行袋内注意力去噪:
(3)进行袋间注意力去噪:
其中γik描述了袋bi与第k个关系的置信度;
利用向量本身计算一组向量的注意权重,根据袋子本身的向量表示计算袋子的权重,γik被定义为:
其中相似性函数是一个简单的点积,被定义为:
7.如权利要求2所述基于句袋注意力远程监督的课程知识关系抽取方法,其特征在于,步骤六中,所述通过带有注意力的词向量捕捉上下文语义信息,并融合实体的位置信息、类型信息构造实体特征包括:
所述实体特征通过Bi_LSTM隐藏状态、相应的实体位置和实体对的类型进行构造;
所述Bi_LSTM的隐层状态H={h1,h2,...,hn};相对位置特征以及具有LET的实体特征,如下所示:
2)相对位置特征:
3)具有潜在类型的实体特征LET:
LET通过加权K个潜在类型向量来构造实体类型的表示,如下:
其中ci是第i个潜在类型向量,K是潜在实体类型的数量。
8.一种实施权利要求,1~7任意一项所述基于句袋注意力远程监督的课程知识关系抽取方法的基于句袋注意力远程监督的课程知识关系抽取系统,其特征在于,所述基于句袋注意力远程监督的课程知识关系抽取系统包括:
训练语料获取模块,通过词聚类关键词抽取算法抽取知识实体;基于人工标注的知识三元组,利用远程监督方法从课程教学文本中自动获取训练语料;
噪声去噪模块,用PCNN提取句子特征,采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去噪;
知识点关系抽取获取模块,通过带有注意力的词向量捕捉上下文语义信息,并融合实体的位置信息、类型信息构造实体特征,输入Bi_LSTM模型获得知识点关系抽取。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
通过词聚类关键词抽取算法抽取知识实体;基于人工标注的知识三元组,利用远程监督方法从课程教学文本中自动获取训练语料;
用PCNN提取句子特征,采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去噪;
通过带有注意力的词向量捕捉上下文语义信息,并融合实体的位置信息、类型信息构造实体特征,输入Bi_LSTM模型获得知识点关系抽取。
10.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
训练语料获取模块,通过词聚类关键词抽取算法抽取知识实体;基于人工标注的知识三元组,利用远程监督方法从课程教学文本中自动获取训练语料;
噪声去噪模块,用PCNN提取句子特征,采用句袋注意力机制对远程监督方法标注的数据中存在的大量噪声去噪;
知识点关系抽取获取模块,通过带有注意力的词向量捕捉上下文语义信息,并融合实体的位置信息、类型信息构造实体特征,输入Bi_LSTM模型获得知识点关系抽取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010758190.9A CN111914558B (zh) | 2020-07-31 | 2020-07-31 | 基于句袋注意力远程监督的课程知识关系抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010758190.9A CN111914558B (zh) | 2020-07-31 | 2020-07-31 | 基于句袋注意力远程监督的课程知识关系抽取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111914558A true CN111914558A (zh) | 2020-11-10 |
CN111914558B CN111914558B (zh) | 2024-04-16 |
Family
ID=73288264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010758190.9A Active CN111914558B (zh) | 2020-07-31 | 2020-07-31 | 基于句袋注意力远程监督的课程知识关系抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914558B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329463A (zh) * | 2020-11-27 | 2021-02-05 | 上海汽车集团股份有限公司 | 遥监督关系抽取模型的训练方法及相关装置 |
CN112463982A (zh) * | 2020-11-27 | 2021-03-09 | 华东师范大学 | 一种基于显隐式实体约束的关系抽取方法 |
CN112579792A (zh) * | 2020-12-22 | 2021-03-30 | 东北大学 | 一种基于pgat和ftatt的远程监督关系抽取方法 |
CN112668342A (zh) * | 2021-01-08 | 2021-04-16 | 中国科学院自动化研究所 | 基于孪生网络的远程监督关系抽取降噪系统 |
CN112765991A (zh) * | 2021-01-14 | 2021-05-07 | 中山大学 | 一种基于知识增强的深度对话语义角色标注方法及系统 |
CN112800776A (zh) * | 2021-03-10 | 2021-05-14 | 湖北工业大学 | 双向gru关系抽取数据处理方法、系统、终端、介质 |
CN112836062A (zh) * | 2021-01-13 | 2021-05-25 | 哈尔滨工程大学 | 一种文本语料库的关系抽取方法 |
CN112989833A (zh) * | 2021-04-15 | 2021-06-18 | 广东工业大学 | 一种基于多层lstm的远程监督实体关系联合抽取方法和系统 |
CN113076391A (zh) * | 2021-01-27 | 2021-07-06 | 北京理工大学 | 一种基于多层注意力机制的远程监督关系抽取方法 |
CN113221575A (zh) * | 2021-05-28 | 2021-08-06 | 北京理工大学 | Pu强化学习的远程监督命名实体识别方法 |
CN113220844A (zh) * | 2021-05-25 | 2021-08-06 | 广西师范大学 | 基于实体特征的远程监督关系抽取方法 |
CN113326371A (zh) * | 2021-04-30 | 2021-08-31 | 南京大学 | 一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法 |
CN113591478A (zh) * | 2021-06-08 | 2021-11-02 | 电子科技大学 | 一种基于深度强化学习的远程监督文本实体关系抽取方法 |
CN113807518A (zh) * | 2021-08-16 | 2021-12-17 | 中央财经大学 | 基于远程监督的关系抽取系统 |
CN113821571A (zh) * | 2021-06-24 | 2021-12-21 | 华中农业大学 | 基于bert和改进pcnn的食品安全关系抽取方法 |
CN114004233A (zh) * | 2021-12-30 | 2022-02-01 | 之江实验室 | 一种基于半训练和句子选择的远程监督命名实体识别方法 |
CN114238524A (zh) * | 2021-12-21 | 2022-03-25 | 军事科学院系统工程研究院网络信息研究所 | 基于增强样本模型的卫星频轨数据信息抽取方法 |
CN117116408A (zh) * | 2023-10-25 | 2023-11-24 | 湖南科技大学 | 一种面向电子病历解析的关系抽取方法 |
CN117435714A (zh) * | 2023-12-20 | 2024-01-23 | 湖南紫薇垣信息系统有限公司 | 一种基于知识图谱的数据库和中间件问题智能诊断系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959474A (zh) * | 2018-06-20 | 2018-12-07 | 上海交通大学 | 实体关系提取方法 |
US20180373789A1 (en) * | 2017-06-22 | 2018-12-27 | International Business Machines Corporation | Relation extraction using co-training with distant supervision |
CN109992629A (zh) * | 2019-02-28 | 2019-07-09 | 中国科学院计算技术研究所 | 一种融合实体类型约束的神经网络关系抽取方法及系统 |
CN111125434A (zh) * | 2019-11-26 | 2020-05-08 | 北京理工大学 | 一种基于集成学习的关系抽取方法及系统 |
CN111125364A (zh) * | 2019-12-24 | 2020-05-08 | 华南理工大学 | 一种基于ernie的远程监督关系抽取的降噪方法 |
CN111274794A (zh) * | 2020-01-19 | 2020-06-12 | 浙江大学 | 一种基于传递的同义词扩展方法 |
-
2020
- 2020-07-31 CN CN202010758190.9A patent/CN111914558B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180373789A1 (en) * | 2017-06-22 | 2018-12-27 | International Business Machines Corporation | Relation extraction using co-training with distant supervision |
CN108959474A (zh) * | 2018-06-20 | 2018-12-07 | 上海交通大学 | 实体关系提取方法 |
CN109992629A (zh) * | 2019-02-28 | 2019-07-09 | 中国科学院计算技术研究所 | 一种融合实体类型约束的神经网络关系抽取方法及系统 |
CN111125434A (zh) * | 2019-11-26 | 2020-05-08 | 北京理工大学 | 一种基于集成学习的关系抽取方法及系统 |
CN111125364A (zh) * | 2019-12-24 | 2020-05-08 | 华南理工大学 | 一种基于ernie的远程监督关系抽取的降噪方法 |
CN111274794A (zh) * | 2020-01-19 | 2020-06-12 | 浙江大学 | 一种基于传递的同义词扩展方法 |
Non-Patent Citations (3)
Title |
---|
何春辉;李云翔;王孟然;王梦贤;: "改进的TextRank双层单文档摘要提取算法", 湖南城市学院学报(自然科学版), no. 06 * |
郑钰婷: "《学术文献的实体关系抽取研究及实现》", 《中国优秀硕士学位论文全文库》 * |
鄂海红等: "《深度学习实体关系抽取研究综述》", 《软件学报》 * |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463982A (zh) * | 2020-11-27 | 2021-03-09 | 华东师范大学 | 一种基于显隐式实体约束的关系抽取方法 |
CN112329463A (zh) * | 2020-11-27 | 2021-02-05 | 上海汽车集团股份有限公司 | 遥监督关系抽取模型的训练方法及相关装置 |
CN112579792A (zh) * | 2020-12-22 | 2021-03-30 | 东北大学 | 一种基于pgat和ftatt的远程监督关系抽取方法 |
CN112579792B (zh) * | 2020-12-22 | 2023-08-04 | 东北大学 | 一种基于pgat和ftatt的远程监督关系抽取方法 |
CN112668342A (zh) * | 2021-01-08 | 2021-04-16 | 中国科学院自动化研究所 | 基于孪生网络的远程监督关系抽取降噪系统 |
CN112668342B (zh) * | 2021-01-08 | 2024-05-07 | 中国科学院自动化研究所 | 基于孪生网络的远程监督关系抽取降噪系统 |
CN112836062B (zh) * | 2021-01-13 | 2022-05-13 | 哈尔滨工程大学 | 一种文本语料库的关系抽取方法 |
CN112836062A (zh) * | 2021-01-13 | 2021-05-25 | 哈尔滨工程大学 | 一种文本语料库的关系抽取方法 |
CN112765991A (zh) * | 2021-01-14 | 2021-05-07 | 中山大学 | 一种基于知识增强的深度对话语义角色标注方法及系统 |
CN112765991B (zh) * | 2021-01-14 | 2023-10-03 | 中山大学 | 一种基于知识增强的深度对话语义角色标注方法及系统 |
CN113076391A (zh) * | 2021-01-27 | 2021-07-06 | 北京理工大学 | 一种基于多层注意力机制的远程监督关系抽取方法 |
CN113076391B (zh) * | 2021-01-27 | 2022-09-20 | 北京理工大学 | 一种基于多层注意力机制的远程监督关系抽取方法 |
CN112800776A (zh) * | 2021-03-10 | 2021-05-14 | 湖北工业大学 | 双向gru关系抽取数据处理方法、系统、终端、介质 |
CN112989833A (zh) * | 2021-04-15 | 2021-06-18 | 广东工业大学 | 一种基于多层lstm的远程监督实体关系联合抽取方法和系统 |
CN113326371B (zh) * | 2021-04-30 | 2023-12-29 | 南京大学 | 一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法 |
CN113326371A (zh) * | 2021-04-30 | 2021-08-31 | 南京大学 | 一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法 |
CN113220844B (zh) * | 2021-05-25 | 2023-01-24 | 广东省环境权益交易所有限公司 | 基于实体特征的远程监督关系抽取方法 |
CN113220844A (zh) * | 2021-05-25 | 2021-08-06 | 广西师范大学 | 基于实体特征的远程监督关系抽取方法 |
CN113221575B (zh) * | 2021-05-28 | 2022-08-02 | 北京理工大学 | Pu强化学习的远程监督命名实体识别方法 |
CN113221575A (zh) * | 2021-05-28 | 2021-08-06 | 北京理工大学 | Pu强化学习的远程监督命名实体识别方法 |
CN113591478B (zh) * | 2021-06-08 | 2023-04-18 | 电子科技大学 | 一种基于深度强化学习的远程监督文本实体关系抽取方法 |
CN113591478A (zh) * | 2021-06-08 | 2021-11-02 | 电子科技大学 | 一种基于深度强化学习的远程监督文本实体关系抽取方法 |
CN113821571A (zh) * | 2021-06-24 | 2021-12-21 | 华中农业大学 | 基于bert和改进pcnn的食品安全关系抽取方法 |
CN113821571B (zh) * | 2021-06-24 | 2024-04-26 | 华中农业大学 | 基于bert和改进pcnn的食品安全关系抽取方法 |
CN113807518B (zh) * | 2021-08-16 | 2024-04-05 | 中央财经大学 | 基于远程监督的关系抽取系统 |
CN113807518A (zh) * | 2021-08-16 | 2021-12-17 | 中央财经大学 | 基于远程监督的关系抽取系统 |
CN114238524A (zh) * | 2021-12-21 | 2022-03-25 | 军事科学院系统工程研究院网络信息研究所 | 基于增强样本模型的卫星频轨数据信息抽取方法 |
CN114004233A (zh) * | 2021-12-30 | 2022-02-01 | 之江实验室 | 一种基于半训练和句子选择的远程监督命名实体识别方法 |
CN114004233B (zh) * | 2021-12-30 | 2022-05-06 | 之江实验室 | 一种基于半训练和句子选择的远程监督命名实体识别方法 |
CN117116408A (zh) * | 2023-10-25 | 2023-11-24 | 湖南科技大学 | 一种面向电子病历解析的关系抽取方法 |
CN117116408B (zh) * | 2023-10-25 | 2024-01-26 | 湖南科技大学 | 一种面向电子病历解析的关系抽取方法 |
CN117435714B (zh) * | 2023-12-20 | 2024-03-08 | 湖南紫薇垣信息系统有限公司 | 一种基于知识图谱的数据库和中间件问题智能诊断系统 |
CN117435714A (zh) * | 2023-12-20 | 2024-01-23 | 湖南紫薇垣信息系统有限公司 | 一种基于知识图谱的数据库和中间件问题智能诊断系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111914558B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914558A (zh) | 基于句袋注意力远程监督的课程知识关系抽取方法及系统 | |
CN111708773B (zh) | 一种多源科创资源数据融合方法 | |
Neculoiu et al. | Learning text similarity with siamese recurrent networks | |
CN107122416B (zh) | 一种中文事件抽取方法 | |
CN109472033B (zh) | 文本中的实体关系抽取方法及系统、存储介质、电子设备 | |
CN111966917B (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
CN112347268A (zh) | 一种文本增强的知识图谱联合表示学习方法及装置 | |
CN111325029B (zh) | 一种基于深度学习集成模型的文本相似度计算方法 | |
CN113806563B (zh) | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 | |
CN109657230A (zh) | 融合词向量和词性向量的命名实体识别方法及装置 | |
CN112131872A (zh) | 一种文献作者重名消歧方法和构建系统 | |
CN110415071B (zh) | 一种基于观点挖掘分析的汽车竞品对比方法 | |
CN109492105B (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
CN106778878B (zh) | 一种人物关系分类方法及装置 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
CN113569050A (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN113157859A (zh) | 一种基于上位概念信息的事件检测方法 | |
CN116127090A (zh) | 基于融合和半监督信息抽取的航空系统知识图谱构建方法 | |
CN109271624A (zh) | 一种目标词确定方法、装置及存储介质 | |
CN115659947A (zh) | 基于机器阅读理解及文本摘要的多项选择答题方法及系统 | |
CN111428502A (zh) | 一种面向军事语料的命名实体标注方法 | |
CN114840685A (zh) | 一种应急预案知识图谱构建方法 | |
CN111507093A (zh) | 一种基于相似字典的文本攻击方法、装置及存储介质 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN112862569B (zh) | 基于图像和文本多模态数据的产品外观风格评价方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |