CN109189862A - 一种面向科技情报分析的知识库构建方法 - Google Patents

一种面向科技情报分析的知识库构建方法 Download PDF

Info

Publication number
CN109189862A
CN109189862A CN201810766488.7A CN201810766488A CN109189862A CN 109189862 A CN109189862 A CN 109189862A CN 201810766488 A CN201810766488 A CN 201810766488A CN 109189862 A CN109189862 A CN 109189862A
Authority
CN
China
Prior art keywords
model
entity
sentence
treelstm
bilstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810766488.7A
Other languages
English (en)
Inventor
王红滨
秦帅
谢晓东
白云鹏
李秀明
王念滨
周连科
赵昱杰
侯莎
韦正现
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201810766488.7A priority Critical patent/CN109189862A/zh
Publication of CN109189862A publication Critical patent/CN109189862A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种面向科技情报分析的知识库构建方法,属于计算机知识库构建领域。提出了CWATT‑BiLSTM‑LSTMd模型用于实体抽取、RL‑TreeLSTM模型用于实体关系抽取。实体抽取采用编码‑解码模式,BiLSTM(双向长短期记忆网络)用于编码,LSTMd(长短期记忆网络)用于解码,并且对嵌入层和解码层进行了改进,然后使用此模型对科技情报领域的语料进行实体抽取。在实体抽取的基础之上,基于强化深度学习的思想提出RL‑TreeLSTM模型对实体之间的关系进行抽取。RL‑TreeLSTM模型分为两个部分:选择器和分类器。选择器选择有效的句子传入分类器,以降低远程监督方法带来的噪音;分类器对有效句子进行实体关系抽取,提高关系抽取的准确率。

Description

一种面向科技情报分析的知识库构建方法
技术领域
本发明属于计算机知识库构建领域,具体涉及一种面向科技情报分析的知识库构建方法。
背景技术
知识库作为知识的集合体,在智能信息处理中起着十分重要的作用。构建知识库的核心技术之一就是实体及其关系的抽取。实体抽取的主要目标是抽取给定句子中出现的实体,通常采用机器学习模型和深度学习模型。如机器学习的CRF(条件随机场)模型,需要定义特征函数,它注重整个句子中局部特征的线性加权组合,特征模板的好坏对实体抽取的结果有直接影响;又如深度学习的LSTM(长短期记忆网络)模型,可以学习语料中的长期依赖关系,但是输出预测标签时缺没有考虑掉标签之间的依赖关系。实体关系抽取的主要任务是从文本中对实体进行识别并抽取实体间的语义关系。关系的抽取需要大规模的训练语料对模型进行训练。由于已标注的训练语料很少,通常采用远程监督的方式对关系进行抽取。远程监督假设一个同时包含两个实体的句子蕴含了该实体对在知识库中的关系,这样会产生大量的噪声,影响实体关系抽取的准确性。
机构知识库中存储的信息资源通常具有不同的内容类型和体裁,如课件、讲义、教材、论文、专著、博客、实验数据、二次文献等;使用不同的载体格式,如文本、图形、图像、音频、视频、动画等;采用不同的元数据描述规范,如MARC、DC、BibTex等;存储在各机构自己的信息中心或数据中心。针对这些不同类型、不同格式、分布式存储的异构资源,如何将知识库内部、各知识库之间、知识库与其他网络科学数据集之间进行资源集成,从而支持统一的知识检索、推理和发现,一直是机构知识库建设者们希望解决的问题,也是机构知识库建设的必然要求。
本改进针对实体抽取中单一网络无法模拟标签依赖问题和实体关系抽取中远程监督标注的噪声问题,提出了CWATT-BiLSTM-LSTMd模型用于实体抽取、RL-TreeLSTM模型用于实体关系抽取。实体抽取采用编码-解码模式,BiLSTM(双向长短期记忆网络)用于编码,LSTMd(长短期记忆网络)用于解码,并且对嵌入层和解码层进行了改进,然后使用此模型对科技情报领域的语料进行实体抽取。在实体抽取的基础之上,基于强化深度学习的思想提出RL-TreeLSTM模型对实体之间的关系进行抽取。RL-TreeLSTM模型分为两个部分:选择器和分类器。选择器选择有效的句子传入分类器,以降低远程监督方法带来的噪音;分类器对有效句子进行实体关系抽取,提高关系抽取的准确率。
发明内容
本发明的目的在于提供用以提高实体抽取和实体关系抽取的准确率、召回率和F值,从而进一步提升知识库构建的准确率的一种面向科技情报分析的知识库构建方法。
本发明的目的通过如下技术方案来实现:
一种面向科技情报分析的知识库构建方法,具体包括以下两部分:
通过CWATT-BiLSTM-LSTMd模型来进行实体抽取:
步骤一:以6:2:2的比例将数据集分为训练集、验证集和测试集。训练集用来建立模型,设置相应的分类器参数,训练分类模型。当利用训练集训练出了多个模型后,为了找出效果最佳的模型,使用各个模型利用验证集中的数据来确定网络结构和控制模型复杂程度的参数。在得到最优模型之后,测试集可对模型的性能进行评价。
步骤二:运行word2vec软件得到字的嵌入向量。使用NLPIR的汉语分词系统对训练集数据进行分词,运行word2vec软件得到词的嵌入向量。
步骤三:将字的嵌入向量和词的嵌入向量拼接在一起,字向量在前,词向量在后。
步骤四:在训练集上对模型进行训练。训练时采用了early stopping的方法,这是一种采用迭代次数截断的方式来防止过拟合的方法,即在模型对训练集迭代收敛之前就停止,防止过拟合的情况发生。
步骤五:使用验证集来确定最优的模型参数。
步骤六:用测试集对模型的性能进行评价。
使用本发明提出的RL-TreeLSTM模型进行实体关系抽取,主要通过以下步骤实现:
步骤一:在整个训练集上预训练TreeLSTM模型。
步骤二:固定TreeLSTM模型的参数,从固定的TreeLSTM模型得到奖励用以预训练选择器中的策略函数。
步骤三:联合训练得到最优的模型参数。
步骤四:随机从数据集中选取一部分句子并手动标记每个句子的关系类型来评估分类器和选择器的性能。
针对实体抽取中单一网络无法模拟标签依赖问题和实体关系抽取中远程监督标注的噪声问题,提出了CWATT-BiLSTM-LSTMd模型用于实体抽取、RL-TreeLSTM模型用于实体关系抽取。实体抽取采用编码-解码模式,BiLSTM(双向长短期记忆网络)用于编码,LSTMd(长短期记忆网络)用于解码,并且对嵌入层和解码层进行了改进,然后使用此模型对科技情报领域的语料进行实体抽取。在实体抽取的基础之上,基于强化深度学习的思想提出RL-TreeLSTM模型对实体之间的关系进行抽取。RL-TreeLSTM模型分为两个部分:选择器和分类器。选择器选择有效的句子传入分类器,以降低远程监督方法带来的噪音;分类器对有效句子进行实体关系抽取,提高关系抽取的准确率。
(1)CWATT-BiLSTM-LSTMd模型。
此模型用于科技情报领域语料的实体抽取。采用经典的编码-解码框架,编码采用BiLSTM(双向长短期记忆网络)模型,解码采用LSTMd(长短期记忆网络)模型。实体抽取常转化为序列标注任务,与CNN(卷及神经网络)和RNN(循环神经网络)不同,LSTM在序列标注任务中有着先天的优势。LSTM不会出现梯度消失或梯度爆炸的问题,并且可以学习语料的长期依赖关系。在编码时,采用BiLSTM模型,不仅可以学习过去的上下文信息,也可以学习未来的上下文信息,知道未来的上下文信息对于实体的抽取是非常有益的。在解码层,采用引入Attention机制的LSTM模型,引入Attention机制可以只关注句子的重要部分不需要关注全部句子,从而提高实体抽取的准确率。
在编码层之前有一个嵌入层,在嵌入层,通常只采用字向量或者词向量作为语料句子的嵌入向量。基于字的实体抽取简化了任务,但字的语义信息不如词的语义信息丰富;基于词的实体抽取需要预先对句子进行分词处理,比较依赖分词的准确率。本发明不是仅仅使用字向量或者词向量来作为嵌入向量,而是在保留字信息的同时又引入了词的语义信息,即把词向量作为字的附加特征。
在LSTMd解码层,引入Attention机制,Attention机制的公式如下所示。
h′t=tanh(ht·P+p) (1)
其中,d1维隐藏向量表示输入序列X中第个t字的编码输出。令Mt为包含序列X中每个字的连接双向BiLSTM输出的矩阵。Mt是一个ln×d2矩阵,ln是序列X中字的数目,d2是BiLSTM中连接隐藏向量的维度。令表示Mt的第i行,令P是d1×d2维的参数矩阵,p是长度为d2的偏差向量。得到Attention上下文向量at之后将其附加到隐藏向量ht之后以获得连接向量ut,连接向量ut=[at;ht]。得到连接向量ut之后,将其传入LSTM网络进行解码,并在此过程中模拟标签的交互。当生成字xt的标签时,LSTMd解码层的输入是:从BiLSTM编码层并经过Attention机制获得的连接向量ut,前一个预测标签矢量Tt-1,前一个记忆单元和解码层中前一个隐藏向量解码层LSTMd内存块的结构图如图2所示。通过解码层得到预测标签矢量之后,最终经过一个softmax层来计算标准化的实体标签概率。在解码过程中,使用当前字的预测标签来预测下一个字的标签,以便将标签依赖性考虑在内。
(2)RL-TreeLSTM模型。
关系抽取的主要任务是从文本中对实体进行识别并抽取实体间的语义关系。本发明是基于实体抽取来进行的。远程监督假设一个同时包含两个实体的句子蕴含了该实体对在知识库中的关系,并将该句子作为该实体对所对应关系的训练正例。基于远程监督的现有关系分类方法假定一堆提到实体对的句子都描述了同一种关系,这种方法有很多不严谨的地方。远程监督的方法在袋级分类时不能识别关系和句子之间的映射,并且很大程度上受到噪声标签问题的影响。为了解决远程监督的局限性,发明了RL-TreeLSTM模型。
RL-TreeLSTM模型不从传统的袋级层面考虑问题,而从句子层面来考虑问题,它包含一个选择器和一个分类器,选择器通过强化学习的方式选择高质量的句子,并将所选语句输入到关系分类器中,分类器进行句级测评并向选择器回馈reward(奖励)。分类器采用TreeLSTM来实现,通过句法分析和LSTM(长短期记忆网络)结合的方式来进行实体关系的抽取。与传统的自底向上的TreeLSTM不同,本发明采用双向的TreeLSTM结构,即加入了自顶向下的方向,这种结构不仅传播来自叶子的信息,还传播来自根的信息。
本发明是基于强化深度学习框架的,由两部分组成,选择器和分类器。在选择器中,每个句子di都有相应的动作ai来指定是否将句子di选作分类器的训练实例。状态si由当前句子di表示,{d1,…,di-1}是已经被选作训练实例的句子,句子di包含实体对e1i和e2i。选择器根据随机策略对给定当前状态的动作进行采样。
为了提高训练过程的效率,得到更多的反馈信息,本发明将训练句子实例分解为N袋,完成一个袋的语句选择时就计算奖励(reward)。每一袋对应着不同的实体对,每个袋Bk是具有相同关系标签rk的句子的序列但是关系标签是有噪声的。本发明根据策略函数定义动作(action)为是否选择当前语句,一旦一个袋子完成了选择就计算奖励(reward)。当实例选择器的训练过程完成时,将每个袋子中的所有选择句子合并以获得清洁的数据集。选择器的选择过程分为状态(state)、动作(action)和奖励(reward)三个方面。当对袋B的第i个句子进行决策时,状态si代表当前语句、所选句子集合和实体对,将状态表示为连续实值向量F(si)。F(si)编码了用于关系分类的当前句子的向量、所选句子集的表示和句子中两个实体的向量表示。定义一个动作ai={0,1},用以指示选择器是否选择袋B的第i个句子,ai取值为1表示选择这个句子,ai取值为0表示过滤掉这个句子。通过其策略函数πΘ(si,ai)来对ai的取值进行选择。策略函数如公式(4)所示。
其中,F(si)是状态特征向量,σ(.)是sigmoid函数,参数是W和b。
奖励函数是所选句子效用的指标。对于某个袋B={d1,d2,…,d|B|},模型为每个句子选取一个动作,以确定是否应该选择当前句子。奖励函数的定义如公式(5)所示。
其中,是已选语句的集合,是B的子集,r是袋B的关系标签。p(r|dj)表示句子dj的关系分类标签为r的概率,取值由分类器来计算。
分类器选择TreeLSTM来确定给定句子中实体对的语义关系。选择器将训练数据提取到分类器以训练TreeLSTM网络,同时,分类器向选择器提供反馈以改进策略函数。在选择器的帮助下,模型直接过滤掉有噪声的句子,分类器在过滤后的数据上进行了句子级别的训练和测试。在关系分类器中,用依存树和LSTM(长短期记忆网络)结合的TreeLSTM模型来预测关系。
该模型主要关注依存树中一对目标词之间的最短路径,即两个目标词之间拥有最小公共节点的路径。本发明采用双向树状结构的LSTM通过捕获目标词对周围的依存结构来表示一个关系候选。双向即自底向上和自顶向下两个方向,这种双向结构不仅传播来自叶子的信息,还传播来自根的信息。对于树状结构的LSTM模型而言,在关系抽取中尤为重要的一点就是利用靠近依存树底部的参数节点。与标准的自底向上的TreeLSTM模型不同,本发明提出的自顶向下的TreeLSTM将树顶部的信息发送到近叶节点中。
和实体抽取的网络类似,本发明也是用一个具有n维的隐藏层h(r)和softmax层的两层神经网络,输入源的所有矢量被拼接在一起,然后在隐藏层中计算输出h(r),softmax层计算关系预测的概率p(r|d),计算公式如公式(6)和公式(7)所示。
其中,W表示权值矩阵,b表示偏差向量。↑ha、↑hb、↓ha和↓hb表示沿着依存树的自底向上和自顶向下两个方向的隐藏向量。本发明在预测时为每个实体对分配两个标签,因为考虑了从上到下和从下到上两个方向。当预测标签不一致时,选择正面且更可靠的标签。
本发明的有益效果在于:
本发明提出的RL-TreeLSTM模型采用的是最短依存树(SPTree)。最短依存树取得了最佳性能,子树次之,完全依存树差。完全依存树包含了最丰富的特征信息,子树是实体对最低公共祖先下的子树,剔除了完全依存树的其他部分。实验结果表明,虽然完全依存树有着最丰富的特征信息,但是也引入了大量的噪声信息,这些噪声信息影响了有效特征的作用。子树剔除了部分特征,取得了优于完全依存树的成果。最短依存树沿着最短依存路径将文字集中在最相关的信息上,能有效减少有躁数据的影响。
附图说明
图1为CWATT-BiLSTM-LSTMd模型图;
图2为CWATT-BiLSTM-LSTMd模型解码层LSTMd内存块的结构图;
图3为RL-TreeLSTM模型图;
图4为RL-TreeLSTM分类器TreeLSTM模型图;
图5为嵌入层字词向量对模型影响图;
图6为Attention机制对实体抽取的影响图;
图7为CWATT-BiLSTM-LSTMd模型与其他模型对比图;
图8为RL-TreeLSTM模型性能比较图;
图9为依存树的变体对比图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
一种面向科技情报分析的知识库构建方法,使用本发明提出的CWATT-BiLSTM-LSTMd模型来进行实体抽取,主要通过以下步骤实现:
步骤一:以6:2:2的比例将数据集分为训练集、验证集和测试集。训练集用来建立模型,设置相应的分类器参数,训练分类模型。当利用训练集训练出了多个模型后,为了找出效果最佳的模型,使用各个模型利用验证集中的数据来确定网络结构和控制模型复杂程度的参数。在得到最优模型之后,测试集可对模型的性能进行评价。
步骤二:运行word2vec软件得到字的嵌入向量。使用NLPIR的汉语分词系统对训练集数据进行分词,运行word2vec软件得到词的嵌入向量。
步骤三:将字的嵌入向量和词的嵌入向量拼接在一起,字向量在前,词向量在后。
步骤四:在训练集上对模型进行训练。训练时采用了early stopping的方法,这是一种采用迭代次数截断的方式来防止过拟合的方法,即在模型对训练集迭代收敛之前就停止,防止过拟合的情况发生。
步骤五:使用验证集来确定最优的模型参数。
步骤六:用测试集对模型的性能进行评价。
以某句为例,从输入到输出的流程如下:
(1)输入一个句子;
(2)使用NLPIR的汉语分词系统对句子进行分词,查找预训练得到的字向量和词向量,并将词向量附在字向量后面作为嵌入层的嵌入向量;
(3)将一组嵌入向量输入到编码层BiLSTM网络中。从前向后和从后往前两个方向得到每个字的隐藏向量,将两个方向的隐藏向量拼接在一起,前向隐藏向量在前,后向隐藏向量在后;
(4)通过公式计算Attention上下文向量;
(5)将Attention上下文向量附加到隐藏向量后以获得连接向量;
(6)将连接向量作为解码层输入的一部分;
(7)通过解码层计算预测标签矢量;
(8)经过一个softmax层来计算标准化的实体标签概率;
(9)选择概率最大的标签作为当前字的实体标签。
使用本发明提出的RL-TreeLSTM模型进行实体关系抽取,主要通过以下步骤实现:
步骤一:在整个训练集上预训练TreeLSTM模型。
步骤二:固定TreeLSTM模型的参数,从固定的TreeLSTM模型得到奖励用以预训练选择器中的策略函数。
步骤三:联合训练得到最优的模型参数。
步骤四:随机从数据集中选取一部分句子并手动标记每个句子的关系类型来评估分类器和选择器的性能。
以某句为例,从输入到输出的流程如下:
(1)选择一个被远程监督标记的袋子,袋子里是一些被标记为同种关系的实体对所在句子;
(2)输入这个袋中的一个句子;
(3)通过策略函数决策选择器的动作,是否选择这个句子,若选择,转(4),若未选择,转(2);
(4)将此句子传入分类器,分类器对实体关系进行分类。
(5)使用哈工大LTP对句子进行句法分析建立依存树;
(6)沿着依存树的自底向上和自顶向下的计算,得到来自两个方向的隐藏向量;
(7)将隐藏向量拼接起来,在隐藏层中通过tanh函数计算输出;
(8)通过softmax层计算关系预测的概率,选择概率大的作为实体关系的标签。
本发明方法在实体抽取和实体关系抽取上改进了原有的模型,在现有数据集上进行校验,有效提高了实体及其关系抽取的准确率、召回率和F值。实验数据集选用搜狗实验室搜集的来自若干新闻网站2012年6月至7月的科技频道的新闻数据。本发明采用准确率(Precision,P)、召回率(Recall,R)和F值对实验结果进行评价,其中,F值能够体现整体测试效果。关于实体的抽取,本发明抽取四种类型的实体,分别是PER(人名)、LOC(地名)、GPE(地缘政治实体)和ORG(组织机构名)。
为了验证字词向量对于实体抽取的影响,在控制其他变量不变的情况下,在提出的CWATT-BiLSTM-LSTMd模型上对字词向量的性能进行验证,分别采用字向量、词向量和本发明提出的字词向量进行验证。验证结果如图5所示。从图中可以看出,基于字向量和基于词向量的准确率很高但是召回率有待提升,采用字词向量可以大幅度提升召回率,进而使F值也有一定程度的提升。为了验证Attention机制对模型的影响,在控制其他条件不变的情况下,在本发明提出的CWATT-BiLSTM-LSTMd模型上验证Attention机制的性能,即在采用字词向量的情况下,比较使用Attention机制和不使用Attention机制的模型在实体抽取方面的性能。验证结果如图6所示。从图中可以看出,加入Attention机制的模型在实体抽取任务中能有效提升准确率、召回率和F值。
为了验证本发明提出的CWATT-BiLSTM-LSTMd模型的有效性,与一些实体抽取的常用模型进行了对比。与CRF模型、BiLSTM模型、BiLSTM+CRF模型和Stanford-NER模型进行了对比。实验结果对比图如图7所示。从图中可以看出,这些模型的准确率P基本都挺高的,保持在90左右,但是召回率R的波动就比较大,从而导致F值的波动也比较大。相比准确率P和召回率R,F值更能体现一个模型的优劣。
CRF在实验中取得了79.05%的F值,而BiLSTM在实验中取得了77.85%的F值。对出现这种情况的原因进行分析:神经网络的模型结构比较复杂,需要较大规模的语料对其进行训练,在本发明所用的数据集下,BiLSTM的性能受到了约束。当数据规模在较小的范围内时,CRF的实验效果要略优于BiLSTM,但是当数据规模在较大的范围内时,BiLSTM的效果将会超过CRF。其次,CRF在对文本进行序列标注时考虑了标签的依赖性,而BiLSTM对序列的标注是相互独立的。所以此次试验的CRF模型的F值要略高于BiLSTM模型的F值。
BiLSTM+CRF模型结合了BiLSTM模型和CRF模型,在输出端将softmax与CRF结合起来,这样既考虑了长远的上下文信息,又考虑了标签的依赖问题,所以取得了优于BiLSTM模型和CRF模型的80.25%的F值。
Stanford-NER模型在Stanford-SEG分词系统上取得了61.81%的F值,在NLPIR分词系统上取得了68.45%的F值,识别效果相对较差,是因为基于词序列的实体抽取更容易丢失有效信息。Stanford-NER模型在两种分词系统中都能取得较高的准确率,但是召回率都偏低,主要由于数据集是基于科技新闻语料的,一些词出现的频率低,训练集没有训练过的词出现在了测试样本中,所以往往不能取得理想的效果。从Stanford-NER模型较低的召回率可以看出,分词模型的准确率将直接影响实体抽取的效果。
本发明提出的CWATT-BiLSTM-LSTMd模型取得了89.23%的准确率,虽然准确率的提升不明显,但是召回率却有大幅度的提升,从而取得了比对比模型更好的F值。因为BiLSTM能学习长期依赖的问题,解码层LSTMd能模拟标签依赖的问题,为了提升模型的性能,还引入了带词向量的字向量来解决字向量边界模糊的问题,引入Attention机制对解码层进行优化。
为了验证RL-TreeLSTM模型性能,本发明随机从数据集中选取了1000个句子并手动标记每个句子的关系类型来评估分类器的性能,并与RNN、CNN和PCNN+ATT做了比较。比较结果如图8所示。从图中可以看出,CNN(卷积神经网络)模型要优于RNN(循环神经网络)模型,RNN引入了句法分析,但是RNN无法像LSTM(长短期记忆网络)一样学习长期依赖问题,词语在句子中的位置越靠后,越对RNN模型不利。PCNN+ATT模型的F值低于CNN模型,它在本发明所使用的数据集上并未取得优于CNN模型的成果。CNN是一个句子级的模型,而PCNN+ATT是袋级的模型,这说明袋级模型在句子级的预测中表现不佳。本发明提出的RL-TreeLSTM模型是句子级别的模型,要优于CNN模型,因为CNN模型不考虑数据的噪声问题,这显示了采用强化学习的实例选择的有效性。
为了对比依存树的几种变体性能,在其他条件不变的情况,对依存树的几种变体进行对比实验。实验采用哈工大研发的LTP对句子进行句法分析,可以得到句子的完全依存树(FullTree)、最短依存树(SPTree)和子树(SubTree)。本发明提出的RL-TreeLSTM模型采用的是最短依存树(SPTree)。对比实验结果如图9所示。从图中可以看出,最短依存树取得了最佳性能,子树次之,完全依存树差。完全依存树包含了最丰富的特征信息,子树是实体对最低公共祖先下的子树,剔除了完全依存树的其他部分。实验结果表明,虽然完全依存树有着最丰富的特征信息,但是也引入了大量的噪声信息,这些噪声信息影响了有效特征的作用。子树剔除了部分特征,取得了优于完全依存树的成果。最短依存树沿着最短依存路径将文字集中在最相关的信息上,能有效减少有躁数据的影响。所以本发明采用的也是最短依存树结构。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种面向科技情报分析的知识库构建方法,提出了CWATT-BiLSTM-LSTMd模型用于实体抽取、RL-TreeLSTM模型用于实体关系抽取,实体抽取采用编码-解码模式,BiLSTM用于编码,LSTMd用于解码,使用此模型对科技情报领域的语料进行实体抽取;其特征在于,在实体抽取的基础之上,基于强化深度学习的思想提出RL-TreeLSTM模型对实体之间的关系进行抽取,具体由两部分组成:
(1)CWATT-BiLSTM-LSTMd模型,采用经典的编码-解码框架,编码采用BiLSTM模型,解码采用LSTMd模型,在解码层,采用引入Attention机制的LSTM模型;
(2)RL-TreeLSTM模型,它包含一个选择器和一个分类器,选择器通过强化学习的方式选择高质量的句子,并将所选语句输入到关系分类器中,分类器进行句级测评并向选择器回馈奖励;分类器采用双向的TreeLSTM结构,加入了自顶向下的方向。
2.根据权利要求1所述的一种面向科技情报分析的知识库构建方法,其特征在于,所述的CWATT-BiLSTM-LSTMd模型引入Attention机制的公式如下:
h′t=tanh(ht·P+p)
其中,d1维隐藏向量表示输入序列X中第个t字的编码输出,令Mt为包含序列X中每个字的连接双向BiLSTM输出的矩阵,Mt是一个ln×d2矩阵,ln是序列X中字的数目,d2是BiLSTM中连接隐藏向量的维度,令表示Mt的第i行,令P是d1×d2维的参数矩阵,p是长度为d2的偏差向量。
3.根据权利要求1所述的一种面向科技情报分析的知识库构建方法,其特征在于,所述的奖励函数对于某个袋B={d1,d2,…,d|B|},模型为每个句子选取一个动作,以确定是否应该选择当前句子,公式如下:
其中,是已选语句的集合,是B的子集,r是袋B的关系标签,p(r|dj)表示句子dj的关系分类标签为r的概率,取值由分类器来计算。
4.根据权利要求1所述的一种面向科技情报分析的知识库构建方法,其特征在于,所述的CWATT-BiLSTM-LSTMd模型来进行实体抽取,主要通过以下步骤实现:
步骤一:以6:2:2的比例将数据集分为训练集、验证集和测试集;
步骤二:运行word2vec软件得到字的嵌入向量;
步骤三:将字的嵌入向量和词的嵌入向量拼接在一起,字向量在前,词向量在后;
步骤四:在训练集上对模型进行训练;
步骤五:使用验证集来确定最优的模型参数;
步骤六:用测试集对模型的性能进行评价。
5.根据权利要求1所述的一种面向科技情报分析的知识库构建方法,其特征在于,所述的RL-TreeLSTM模型进行实体关系抽取,主要通过以下步骤实现:
步骤一:在整个训练集上预训练TreeLSTM模型;
步骤二:固定TreeLSTM模型的参数,从固定的TreeLSTM模型得到奖励用以预训练选择器中的策略函数;
步骤三:联合训练得到最优的模型参数;
步骤四:随机从数据集中选取一部分句子并手动标记每个句子的关系类型来评估分类器和选择器的性能。
CN201810766488.7A 2018-07-12 2018-07-12 一种面向科技情报分析的知识库构建方法 Pending CN109189862A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810766488.7A CN109189862A (zh) 2018-07-12 2018-07-12 一种面向科技情报分析的知识库构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810766488.7A CN109189862A (zh) 2018-07-12 2018-07-12 一种面向科技情报分析的知识库构建方法

Publications (1)

Publication Number Publication Date
CN109189862A true CN109189862A (zh) 2019-01-11

Family

ID=64936072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810766488.7A Pending CN109189862A (zh) 2018-07-12 2018-07-12 一种面向科技情报分析的知识库构建方法

Country Status (1)

Country Link
CN (1) CN109189862A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008332A (zh) * 2019-02-13 2019-07-12 阿里巴巴集团控股有限公司 通过强化学习提取主干词的方法及装置
CN110188193A (zh) * 2019-04-19 2019-08-30 四川大学 一种基于最短依存子树的电子病历实体关系抽取方法
CN110413743A (zh) * 2019-08-09 2019-11-05 安徽科大讯飞医疗信息技术有限公司 一种关键信息抽取方法、装置、设备及存储介质
CN110516069A (zh) * 2019-08-28 2019-11-29 中南大学 一种基于FastText-CRF的引文元数据抽取方法
CN110555084A (zh) * 2019-08-26 2019-12-10 电子科技大学 基于pcnn和多层注意力的远程监督关系分类方法
CN110688916A (zh) * 2019-09-12 2020-01-14 武汉理工大学 一种基于实体关系抽取的视频描述方法与装置
CN112784576A (zh) * 2021-01-13 2021-05-11 哈尔滨工程大学 一种文本依存句法分析方法
CN112988996A (zh) * 2021-03-10 2021-06-18 中国平安人寿保险股份有限公司 知识库生成方法、装置、设备及存储介质
WO2021184311A1 (zh) * 2020-03-19 2021-09-23 中山大学 一种自动生成可推理问答的方法和装置
CN113673250A (zh) * 2021-06-22 2021-11-19 天津大学 基于自然语言信息提取的强化学习加速方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN108268643A (zh) * 2018-01-22 2018-07-10 北京邮电大学 一种基于多粒度lstm网络的深层语义匹配实体链接方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268643A (zh) * 2018-01-22 2018-07-10 北京邮电大学 一种基于多粒度lstm网络的深层语义匹配实体链接方法
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MAKOTO MIWA: "End-to-end Relation Extraction using LSTMs on Sequences and Tree Structures", 《ARXIV》 *
SUNCONG ZHENG: "Joint Extraction of Entities and Relations Based on aNovel Tagging Scheme", 《ARXIV》 *
YUNTIAN FENG: "Joint Extraction of Entities and Relations Using Reinforcement Learning and Deep Learning", 《HINDAWI COMPUTATIONAL INTELLIGENCE AND NEUROSCIENCE》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008332A (zh) * 2019-02-13 2019-07-12 阿里巴巴集团控股有限公司 通过强化学习提取主干词的方法及装置
CN110188193A (zh) * 2019-04-19 2019-08-30 四川大学 一种基于最短依存子树的电子病历实体关系抽取方法
CN110413743B (zh) * 2019-08-09 2022-05-06 安徽科大讯飞医疗信息技术有限公司 一种关键信息抽取方法、装置、设备及存储介质
CN110413743A (zh) * 2019-08-09 2019-11-05 安徽科大讯飞医疗信息技术有限公司 一种关键信息抽取方法、装置、设备及存储介质
CN110555084B (zh) * 2019-08-26 2023-01-24 电子科技大学 基于pcnn和多层注意力的远程监督关系分类方法
CN110555084A (zh) * 2019-08-26 2019-12-10 电子科技大学 基于pcnn和多层注意力的远程监督关系分类方法
CN110516069A (zh) * 2019-08-28 2019-11-29 中南大学 一种基于FastText-CRF的引文元数据抽取方法
CN110516069B (zh) * 2019-08-28 2023-07-25 中南大学 一种基于FastText-CRF的引文元数据抽取方法
CN110688916A (zh) * 2019-09-12 2020-01-14 武汉理工大学 一种基于实体关系抽取的视频描述方法与装置
WO2021184311A1 (zh) * 2020-03-19 2021-09-23 中山大学 一种自动生成可推理问答的方法和装置
CN112784576A (zh) * 2021-01-13 2021-05-11 哈尔滨工程大学 一种文本依存句法分析方法
CN112784576B (zh) * 2021-01-13 2022-07-29 哈尔滨工程大学 一种文本依存句法分析方法
CN112988996A (zh) * 2021-03-10 2021-06-18 中国平安人寿保险股份有限公司 知识库生成方法、装置、设备及存储介质
CN112988996B (zh) * 2021-03-10 2024-03-08 中国平安人寿保险股份有限公司 知识库生成方法、装置、设备及存储介质
CN113673250A (zh) * 2021-06-22 2021-11-19 天津大学 基于自然语言信息提取的强化学习加速方法
CN113673250B (zh) * 2021-06-22 2023-10-27 天津大学 基于自然语言信息提取的强化学习加速方法

Similar Documents

Publication Publication Date Title
CN109189862A (zh) 一种面向科技情报分析的知识库构建方法
Yu et al. PICK: processing key information extraction from documents using improved graph learning-convolutional networks
Luo et al. Improving aspect term extraction with bidirectional dependency tree representation
CN110134771B (zh) 一种基于多注意力机制融合网络问答系统的实现方法
Zheng et al. Characterization inference based on joint-optimization of multi-layer semantics and deep fusion matching network
Chen et al. Knowledge as a teacher: Knowledge-guided structural attention networks
CN112733533B (zh) 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法
Chen et al. Syntax or semantics? knowledge-guided joint semantic frame parsing
CN109800411A (zh) 临床医疗实体及其属性抽取方法
CN108460013A (zh) 一种基于细粒度词表示模型的序列标注模型
CN107133211A (zh) 一种基于注意力机制的作文评分方法
CN110020438A (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN112183094B (zh) 一种基于多元文本特征的中文语法查错方法及系统
CN115329088B (zh) 图神经网络事件检测模型的鲁棒性分析方法
Kumar et al. Aspect term extraction for opinion mining using a hierarchical self-attention network
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN114969278A (zh) 一种基于知识增强图神经网络的文本问答模型
CN115510236A (zh) 基于信息融合和数据增强的篇章级事件检测方法
CN114817508A (zh) 融合稀疏图和多跳注意力的会话推荐系统
Kwon et al. Considering nested tree structure in sentence extractive summarization with pre-trained transformer
Xu et al. A FOFE-based local detection approach for named entity recognition and mention detection
Alsmadi et al. Adversarial machine learning in text processing: a literature survey
Xiao et al. FusionSum: Abstractive summarization with sentence fusion and cooperative reinforcement learning
CN117094325B (zh) 水稻病虫害领域命名实体识别方法
CN116386895B (zh) 基于异构图神经网络的流行病舆情实体识别方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190111

RJ01 Rejection of invention patent application after publication