CN108959375A

CN108959375A - 一种基于规则与深度学习的知识抽取方法

Info

Publication number: CN108959375A
Application number: CN201810505732.4A
Authority: CN
Inventors: 孟涛; 李佳静
Original assignee: Nanjing Network Sense To Inspect Mdt Infotech Ltd
Current assignee: Nanjing Network Sense To Inspect Mdt Infotech Ltd
Priority date: 2018-05-24
Filing date: 2018-05-24
Publication date: 2018-12-07

Abstract

本发明涉及一种基于规则与深度学习的知识抽取方法，包括以下步骤：一专家定义概念并对概念之间的关系进行定义并生成规则。二将生成的规则进行知识抽取，抽取出匹配概念和概念之间关系的文本。三将步骤二中抽取出的文本，利用深度学习方法进行训练；从而得到更多的概念和概念之间的关系。四将步骤三中得到的更多的概念和概念之间的关系，进行知识抽取，并将该抽取的结果进行标注；并对知识抽取时的精确率、召回率和F1值进行评判；所述精确率、召回率和F1值作为评价标准。五重复步骤三和步骤四，直至所述评价标准达到预设的标准。本方法能解决机器学习的冷启动问题，也能够得到未知的概念和概念间的关系，能够提高知识抽取的召回率。

Description

一种基于规则与深度学习的知识抽取方法

技术领域

本发明涉及文本挖掘与信息抽取的技术领域，具体涉及一种基于规则与深度学习的知识抽取方法。

背景技术

知识抽取是指从数字资源中识别、发现和提取出概念、类型、事实及其相关关系、约束规则，以及行问题求解的步骤、规则的过程。目前针对文本的知识抽取技术大致可以分为两类：机器学习方法或基于规则的方法。机器学习方法经常需要大量的训练语料，并且使用复杂的、难以解释的模型。机器学习和自然语言处理技术，可以用来实现监督分类，产生模型，语义分析，词性标注等。其他的工作还包括使用马尔可夫逻辑网络（MLN），隐马尔科夫模型（HMM）和条件随机场（CRF）等，例如将输入语句映射为标记序列。这些方法需要大量的训练数据，难以解决冷启动的问题。

规则的方法可以提供清晰、容易理解的特定域的语言，但是通常很费时费力。规则方法通常依赖于领域专家定义的规则。常见的基于规则的方法包括包装器方法，这些系统需要学习提取目标周围的分割符，这使得它们只能分析特定结构的文档，例如DOM结构的文档。虽然基于规则的方法精确率较高，但通常存在召回率较低的问题。

发明内容

1、所要解决的技术问题：

本发明的目的在于提供一种基于规则与深度学习的知识抽取方法，本方法是将知识抽取中的规则方法和深度学习方法融合，以克服单一方法的缺点，获得更好的抽取结果。本发明首先使用少量的规则对概念和概念的关系进行定义，抽取生成训练语料，进一步从这些语料中学习，以解决机器学习的冷启动问题，同时解决规则方法召回率较低的缺点。

2、技术方案：

一种基于规则与深度学习的知识抽取方法，包括以下步骤：步骤一：专家定义所属定义域中的概念和概念间的关系进行定义；并使用包含上下文计算符和布尔关系计算符的生成文法描述概念和概念之间的关系的规则。

步骤二：基于步骤一中生成的规则进行知识抽取，抽取出匹配概念和概念之间关系的文本。

步骤三：基于步骤二中抽取出的匹配概念和概念之间关系的文本，对深度学习方法进行训练；从而得到更多的概念和概念之间的关系。

步骤四：基于步骤三中得到的更多的概念和概念之间的关系，进行知识抽取，并对该抽取的结果进行标注；并对知识抽取时的精确率、召回率和F1值进行评判；所述精确率、召回率和F1值作为评价标准。

步骤五：重复步骤三和步骤四，直至所述评价标准达到预设的标准。

进一步地，所述步骤一中的上下文环境计算符号包括但不限于：“SENT”：作用域内的所有概念必须出现在一条语句中；“DIST_n”：作用域内的任何两个相邻概念之间的距离不能大于n；“ORD”：作用域内的所有概念顺序出现；“CONT”：作用域内的所有概念相邻。所述布尔关系计算符号包括：“AND”：作用域中的所有字句必须同时在输入文本中出现；“OR”：作用域中的所有字句至少有有一个在输入文本中出现；“NOT”：作用域中的字句不能出现，否则输入文本不匹配。

进一步地，所述步骤一中使用包含上下文计算符和布尔关系计算符的生成文法是基于TML语言实现。

进一步地，所述步骤二中的知识抽取是基于TML语言实现。

进一步地，所述步骤三中的深度学习方法，为概念学习方法或者/和概念关系学习方法。

3、有益效果：

本发明提供的基于规则与深度学习的知识抽取方法，一方面规则方法能解决机器学习的冷启动问题，另外一方面深度学习得到未知的概念和概念间的关系，能够提高知识抽取的召回率。

附图说明

图1为本方法的结构图。

具体实施方式

下面结合附图对本发明进行进一步的说明。

如附图1所示一种基于规则与深度学习的知识抽取方法，是将知识抽取中的规则方法和深度学习方法融合，从而克服单一方法的缺点，获得更好的抽取结果。

具体过程包括以下步骤：步骤一：专家定义所属定义域中的概念和概念间的关系进行定义；并使用包含上下文计算符和布尔关系计算符的生成文法描述概念和概念之间的关系的规则。

步骤二：基于步骤一种生成的规则进行知识抽取，抽取出匹配概念和概念之间关系的文本。

进一步地，所述步骤二中的知识抽取是基于TML语言实现。

进一步地，所述步骤三中的深度学习方法，为概念学习方法或者/和概念关系学习方法。（1）概念学习方法：包括对概念的内部组成的学习方法和对概念的外部环境的学习方法。

对概念的内部组成的学习方法利用概念的语义相似性来进行学习。例如基于词向量找到每一个显式定义的同义词，或将与一个概念的多个实例为同义词的概念识别为新概念。对概念的外部环境的学习方法利用概念的上下文环境特征来进行学习。例如将概念抽取转变为BMES式的序列标注，训练结合LSTM和链式CRF的方法来进行自动序列标注。根据标注结果识别新概念。

（2）概念关系学习方法：将匹配了概念关系的文本作为训练语料，将关系抽取作为深度学习的分类问题，学习特定的上下文关系可以确定此种关系。例如使用卷积网络（CNN）完成概念关系学习。

下面主要通过对医疗问诊场景中的知识抽取的实施例对本发明进行说明。

针对症状“呼吸障碍”进行本发明的知识抽取：

步骤一的概念和概念关系的刻画和步骤二中基于规则的知识抽取方法，可以以TML语言为基础。在TML中待抽取的概念和关系名以非终结符形式体现在程序中，字符串、正则表达式和计算符号以终结符形式体现。上下文环境计算符号包括但不限于：“SENT”：作用域内的所有概念必须出现在一条语句中；“DIST_n”：作用域内的任何两个相邻概念之间的距离不能大于n；“ORD”：作用域内的所有概念顺序出现；“CONT”：作用域内的所有概念相邻。布尔关系计算符号包括：“AND”：作用域中的所有字句必须同时在输入文本中出现；

“OR”：作用域中的所有字句至少有有一个在输入文本中出现；“NOT”：作用域中的字句不能出现，否则输入文本不匹配。

在将TML代码编译成字节码时，对于不包含计算符的语句，可以将它们直接合并转化为有穷状态自动机来进行匹配；而对于使用了计算符的关系抽取语句，需要将其转化为一组运行虚拟机指令加操作数以便执行。

因此，基于步骤一与步骤二，使用TML语言将“呼吸障碍”症状定义为概念：

CONCEPT Dyspnea:=OR(“呼吸困难”，“窒息”，“气紧”)；

该概念将“呼吸障碍”症状定义为“呼吸困难”，“窒息”，“气紧”中的一种。

再利用深度学习方法，进行知识学习过程并且进行知识抽取。本实施例可以通过概念学习的方法进行学习。所述概念学习方法包括对概念的内部组成的学习方法和对概念的外部环境的学习方法。对概念的内部组成的学习方法利用概念的语义相似性来进行学习。例如可以基于词向量找到每一个显式定义的同义词；或者将与一个概念的多个实例为同义词的概念，识别为同种类型的新概念。

对概念的内部组成的学习方法可以选择使用google 的word2vec模型来训练学习同义词和相关词。步骤包括数据处理和模型训练，以及参数调整。

在本实施例中，经过word2vec模型学习将“呼吸困难”，“窒息”，“气紧”的同义词扩展为：

CONCEPT Dyspnea:=OR( 呼吸困难，气来,气紧,窒息,大气,透不过气,出不上,濒死,粗气,压气,心律不齐)

从而实现概念“呼吸障碍”的知识抽取。通常当知识抽取的覆盖率能达到90%时，该知识抽取即可以结束。

上述实施例是属于对概念的内部组成的学习方法利用概念的语义相似性来进行学习。而对目标的外部环境的学习方法还可以利用概念的上下文环境特征来进行学习。例如对于基于规则抽取的概念，人工对匹配的文进行BMES式的序列标注作为语料，训练结合双向循环神经网络（Bi-LSTM）和链式条件随机场(Conditional Random Field, CRF)的方法来进行自动序列标注。Bi-LSTM中每一个训练序列向前和向后分别是两个 LSTM，而且这两个都连接着一个输出层。这个结构提供给输出层输入序列中每一个点的完整的过去和未来的上下文信息。条件随机场(Conditional Random Field, CRF)在句子层面做预测，让最后的序列标注结果的概率最大。利用学习到的BMES标注可以发现新的概念。例如在语句“健肾平喘汤联合硫酸沙丁胺醇气雾剂吸入治疗慢性持续期哮喘”中，可以通过自动标注发现“硫酸沙丁胺醇”是概念“药品”的实例。

还可以通过概念关系学习方法将匹配了概念关系的文本作为训练语料，将关系抽取作为深度学习的分类问题，学习特定的上下文关系可以确定此种关系。

比如“服用氟氧沙星导致腹部不适、纳减和腹泻”中，确定了药物“氟氧沙星”与症状“腹部不适、纳减和腹泻”具有关系“不良反应”。将匹配了该关系的作为训练预料中的正例，不匹配该关系的文本作为反例，将关系抽取任务当做分类问题，从而学习各种分类模型，然后使用训练好的分类器预测关系。例如使用卷积网络（CNN）完成概念关系学习。卷积层本质上是个特征抽取层，可以设立多少个特征抽取器（Filter）。通过神经网络的非线性变换将输入值转换为某个特征值，随着时间窗口的不断移动，形成这个Filter的特征向量。每个Filter都如此操作，形成了不同的特征抽取器。Pooling 层则对Filter的特征进行降维操作，形成最终的特征。一般在Pooling层之后连接全联接层神经网络，形成最后的分类过程。

虽然本发明已以较佳实施例公开如上，但它们并不是用来限定本发明的，任何熟习此技艺者，在不脱离本发明之精神和范围内，自当可作各种变化或润饰，因此本发明的保护范围应当以本申请的权利要求保护范围所界定的为准。

Claims

1.一种基于规则与深度学习的知识抽取方法，其特征在于：包括以下步骤：

步骤一：专家定义所属定义域中的概念和概念间的关系进行定义；并使用包含上下文计算符和布尔关系计算符的生成文法描述概念和概念之间的关系的规则；

步骤二：基于步骤一中生成的规则进行知识抽取，抽取出匹配概念和概念之间关系的文本；

步骤三：基于步骤二中抽取出的匹配概念和概念之间关系的文本，对深度学习方法进行训练；从而得到更多的概念和概念之间的关系；

步骤四：基于步骤三中得到的更多的概念和概念之间的关系，进行知识抽取，并对该抽取的结果进行标注；并对知识抽取时的精确率、召回率和F1值进行评判；所述精确率、召回率和F1值作为评价标准；

2.根据权利要求1所述的一种基于规则与深度学习的知识抽取方法，其特征在于：所述步骤一中的上下文环境计算符号包括但不限于：

“SENT”：作用域内的所有概念必须出现在一条语句中；

“DIST_n”：作用域内的任何两个相邻概念之间的距离不能大于n；

“ORD”：作用域内的所有概念顺序出现；

“CONT”：作用域内的所有概念相邻；

所述布尔关系计算符号包括：

“AND”：作用域中的所有字句必须同时在输入文本中出现；

“OR”：作用域中的所有字句至少有有一个在输入文本中出现；

“NOT”：作用域中的字句不能出现，否则输入文本不匹配。

3.根据权利要求1所述的一种基于规则与深度学习的知识抽取方法，其特征在于：所述步骤一中使用包含上下文计算符和布尔关系计算符的生成文法是基于TML语言实现。

4.根据权利要求1所述的一种基于规则与深度学习的知识抽取方法，其特征在于：所述步骤二中的知识抽取是基于TML语言实现。

5.根据权利要求1所述的一种基于规则与深度学习的知识抽取方法，其特征在于：所述步骤三中的深度学习方法，为概念学习方法或者/和概念关系学习方法。