CN108959375A - 一种基于规则与深度学习的知识抽取方法 - Google Patents
一种基于规则与深度学习的知识抽取方法 Download PDFInfo
- Publication number
- CN108959375A CN108959375A CN201810505732.4A CN201810505732A CN108959375A CN 108959375 A CN108959375 A CN 108959375A CN 201810505732 A CN201810505732 A CN 201810505732A CN 108959375 A CN108959375 A CN 108959375A
- Authority
- CN
- China
- Prior art keywords
- concept
- knowledge extraction
- rule
- deep learning
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于规则与深度学习的知识抽取方法,包括以下步骤:一专家定义概念并对概念之间的关系进行定义并生成规则。二将生成的规则进行知识抽取,抽取出匹配概念和概念之间关系的文本。三将步骤二中抽取出的文本,利用深度学习方法进行训练;从而得到更多的概念和概念之间的关系。四将步骤三中得到的更多的概念和概念之间的关系,进行知识抽取,并将该抽取的结果进行标注;并对知识抽取时的精确率、召回率和F1值进行评判;所述精确率、召回率和F1值作为评价标准。五重复步骤三和步骤四,直至所述评价标准达到预设的标准。本方法能解决机器学习的冷启动问题,也能够得到未知的概念和概念间的关系,能够提高知识抽取的召回率。
Description
技术领域
本发明涉及文本挖掘与信息抽取的技术领域,具体涉及一种基于规则与深度学习的知识抽取方法。
背景技术
知识抽取是指从数字资源中识别、发现和提取出概念、类型、事实及其相关关系、约束规则,以及行问题求解的步骤、规则的过程。目前针对文本的知识抽取技术大致可以分为两类:机器学习方法或基于规则的方法。机器学习方法经常需要大量的训练语料,并且使用复杂的、难以解释的模型。机器学习和自然语言处理技术,可以用来实现监督分类,产生模型,语义分析,词性标注等。其他的工作还包括使用马尔可夫逻辑网络(MLN),隐马尔科夫模型(HMM)和条件随机场(CRF)等,例如将输入语句映射为标记序列。这些方法需要大量的训练数据,难以解决冷启动的问题。
规则的方法可以提供清晰、容易理解的特定域的语言,但是通常很费时费力。规则方法通常依赖于领域专家定义的规则。常见的基于规则的方法包括包装器方法,这些系统需要学习提取目标周围的分割符,这使得它们只能分析特定结构的文档,例如DOM结构的文档。虽然基于规则的方法精确率较高,但通常存在召回率较低的问题。
发明内容
1、所要解决的技术问题:
本发明的目的在于提供一种基于规则与深度学习的知识抽取方法,本方法是将知识抽取中的规则方法和深度学习方法融合,以克服单一方法的缺点,获得更好的抽取结果。本发明首先使用少量的规则对概念和概念的关系进行定义,抽取生成训练语料,进一步从这些语料中学习,以解决机器学习的冷启动问题,同时解决规则方法召回率较低的缺点。
2、技术方案:
一种基于规则与深度学习的知识抽取方法,包括以下步骤:步骤一:专家定义所属定义域中的概念和概念间的关系进行定义;并使用包含上下文计算符和布尔关系计算符的生成文法描述概念和概念之间的关系的规则。
步骤二:基于步骤一中生成的规则进行知识抽取,抽取出匹配概念和概念之间关系的文本。
步骤三:基于步骤二中抽取出的匹配概念和概念之间关系的文本,对深度学习方法进行训练;从而得到更多的概念和概念之间的关系。
步骤四:基于步骤三中得到的更多的概念和概念之间的关系,进行知识抽取,并对该抽取的结果进行标注;并对知识抽取时的精确率、召回率和F1值进行评判;所述精确率、召回率和F1值作为评价标准。
步骤五:重复步骤三和步骤四,直至所述评价标准达到预设的标准。
进一步地,所述步骤一中的上下文环境计算符号包括但不限于:“SENT”:作用域内的所有概念必须出现在一条语句中;“DIST_n”:作用域内的任何两个相邻概念之间的距离不能大于n;“ORD”:作用域内的所有概念顺序出现;“CONT”:作用域内的所有概念相邻。所述布尔关系计算符号包括:“AND”:作用域中的所有字句必须同时在输入文本中出现;“OR”:作用域中的所有字句至少有有一个在输入文本中出现;“NOT”:作用域中的字句不能出现,否则输入文本不匹配。
进一步地,所述步骤一中使用包含上下文计算符和布尔关系计算符的生成文法是基于TML语言实现。
进一步地,所述步骤二中的知识抽取是基于TML语言实现。
进一步地,所述步骤三中的深度学习方法,为概念学习方法或者/和概念关系学习方法。
3、有益效果:
本发明提供的基于规则与深度学习的知识抽取方法,一方面规则方法能解决机器学习的冷启动问题,另外一方面深度学习得到未知的概念和概念间的关系,能够提高知识抽取的召回率。
附图说明
图1为本方法的结构图。
具体实施方式
下面结合附图对本发明进行进一步的说明。
如附图1所示一种基于规则与深度学习的知识抽取方法,是将知识抽取中的规则方法和深度学习方法融合,从而克服单一方法的缺点,获得更好的抽取结果。
具体过程包括以下步骤:步骤一:专家定义所属定义域中的概念和概念间的关系进行定义;并使用包含上下文计算符和布尔关系计算符的生成文法描述概念和概念之间的关系的规则。
步骤二:基于步骤一种生成的规则进行知识抽取,抽取出匹配概念和概念之间关系的文本。
步骤三:基于步骤二中抽取出的匹配概念和概念之间关系的文本,对深度学习方法进行训练;从而得到更多的概念和概念之间的关系。
步骤四:基于步骤三中得到的更多的概念和概念之间的关系,进行知识抽取,并对该抽取的结果进行标注;并对知识抽取时的精确率、召回率和F1值进行评判;所述精确率、召回率和F1值作为评价标准。
步骤五:重复步骤三和步骤四,直至所述评价标准达到预设的标准。
进一步地,所述步骤一中的上下文环境计算符号包括但不限于:“SENT”:作用域内的所有概念必须出现在一条语句中;“DIST_n”:作用域内的任何两个相邻概念之间的距离不能大于n;“ORD”:作用域内的所有概念顺序出现;“CONT”:作用域内的所有概念相邻。所述布尔关系计算符号包括:“AND”:作用域中的所有字句必须同时在输入文本中出现;“OR”:作用域中的所有字句至少有有一个在输入文本中出现;“NOT”:作用域中的字句不能出现,否则输入文本不匹配。
进一步地,所述步骤一中使用包含上下文计算符和布尔关系计算符的生成文法是基于TML语言实现。
进一步地,所述步骤二中的知识抽取是基于TML语言实现。
进一步地,所述步骤三中的深度学习方法,为概念学习方法或者/和概念关系学习方法。(1)概念学习方法:包括对概念的内部组成的学习方法和对概念的外部环境的学习方法。
对概念的内部组成的学习方法利用概念的语义相似性来进行学习。例如基于词向量找到每一个显式定义的同义词,或将与一个概念的多个实例为同义词的概念识别为新概念。 对概念的外部环境的学习方法利用概念的上下文环境特征来进行学习。例如将概念抽取转变为BMES式的序列标注,训练结合LSTM和链式CRF的方法来进行自动序列标注。根据标注结果识别新概念。
(2)概念关系学习方法:将匹配了概念关系的文本作为训练语料,将关系抽取作为深度学习的分类问题,学习特定的上下文关系可以确定此种关系。例如使用卷积网络(CNN)完成概念关系学习。
下面主要通过对医疗问诊场景中的知识抽取的实施例对本发明进行说明。
针对症状“呼吸障碍”进行本发明的知识抽取:
步骤一的概念和概念关系的刻画和步骤二中基于规则的知识抽取方法,可以以TML语言为基础。在TML中待抽取的概念和关系名以非终结符形式体现在程序中,字符串、正则表达式和计算符号以终结符形式体现。上下文环境计算符号包括但不限于:“SENT”:作用域内的所有概念必须出现在一条语句中;“DIST_n”:作用域内的任何两个相邻概念之间的距离不能大于n;“ORD”:作用域内的所有概念顺序出现;“CONT”:作用域内的所有概念相邻。布尔关系计算符号包括:“AND”:作用域中的所有字句必须同时在输入文本中出现;
“OR”:作用域中的所有字句至少有有一个在输入文本中出现;“NOT”:作用域中的字句不能出现,否则输入文本不匹配。
在将TML代码编译成字节码时,对于不包含计算符的语句,可以将它们直接合并转化为有穷状态自动机来进行匹配;而对于使用了计算符的关系抽取语句,需要将其转化为一组运行虚拟机指令加操作数以便执行。
因此,基于步骤一与步骤二,使用TML语言将“呼吸障碍”症状定义为概念:
CONCEPT Dyspnea:=OR(“呼吸困难”,“窒息”,“气紧”); |
该概念将“呼吸障碍”症状定义为“呼吸困难”,“窒息”,“气紧”中的一种。
再利用深度学习方法,进行知识学习过程并且进行知识抽取。本实施例可以通过概念学习的方法进行学习。所述概念学习方法包括对概念的内部组成的学习方法和对概念的外部环境的学习方法。对概念的内部组成的学习方法利用概念的语义相似性来进行学习。例如可以基于词向量找到每一个显式定义的同义词;或者将与一个概念的多个实例为同义词的概念,识别为同种类型的新概念。
对概念的内部组成的学习方法可以选择使用google 的word2vec模型来训练学习同义词和相关词。步骤包括数据处理和模型训练,以及参数调整。
在本实施例中,经过word2vec模型学习将“呼吸困难”,“窒息”,“气紧”的同义词扩展为:
CONCEPT Dyspnea:=OR( 呼吸困难,气来,气紧,窒息,大气,透不过气,出不上,濒死,粗气,压气,心律不齐) |
从而实现概念“呼吸障碍”的知识抽取。通常当知识抽取的覆盖率能达到90%时,该知识抽取即可以结束。
上述实施例是属于对概念的内部组成的学习方法利用概念的语义相似性来进行学习。而对目标的外部环境的学习方法还可以利用概念的上下文环境特征来进行学习。例如对于基于规则抽取的概念,人工对匹配的文进行BMES式的序列标注作为语料,训练结合双向循环神经网络(Bi-LSTM)和链式条件随机场(Conditional Random Field, CRF)的方法来进行自动序列标注。Bi-LSTM中每一个训练序列向前和向后分别是两个 LSTM,而且这两个都连接着一个输出层。这个结构提供给输出层输入序列中每一个点的完整的过去和未来的上下文信息。条件随机场(Conditional Random Field, CRF)在句子层面做预测,让最后的序列标注结果的概率最大。利用学习到的BMES标注可以发现新的概念。例如在语句“健肾平喘汤联合硫酸沙丁胺醇气雾剂吸入治疗慢性持续期哮喘”中,可以通过自动标注发现“硫酸沙丁胺醇”是概念“药品”的实例。
还可以通过概念关系学习方法将匹配了概念关系的文本作为训练语料,将关系抽取作为深度学习的分类问题,学习特定的上下文关系可以确定此种关系。
比如“服用氟氧沙星导致腹部不适、纳减和腹泻”中,确定了药物“氟氧沙星”与症状“腹部不适、纳减和腹泻”具有关系“不良反应”。将匹配了该关系的作为训练预料中的正例,不匹配该关系的文本作为反例,将关系抽取任务当做分类问题,从而学习各种分类模型,然后使用训练好的分类器预测关系。例如使用卷积网络(CNN)完成概念关系学习。卷积层本质上是个特征抽取层,可以设立多少个特征抽取器(Filter)。通过神经网络的非线性变换将输入值转换为某个特征值,随着时间窗口的不断移动,形成这个Filter的特征向量。每个Filter都如此操作,形成了不同的特征抽取器。Pooling 层则对Filter的特征进行降维操作,形成最终的特征。一般在Pooling层之后连接全联接层神经网络,形成最后的分类过程。
虽然本发明已以较佳实施例公开如上,但它们并不是用来限定本发明的,任何熟习此技艺者,在不脱离本发明之精神和范围内,自当可作各种变化或润饰,因此本发明的保护范围应当以本申请的权利要求保护范围所界定的为准。
Claims (5)
1.一种基于规则与深度学习的知识抽取方法,其特征在于:包括以下步骤:
步骤一:专家定义所属定义域中的概念和概念间的关系进行定义;并使用包含上下文计算符和布尔关系计算符的生成文法描述概念和概念之间的关系的规则;
步骤二:基于步骤一中生成的规则进行知识抽取,抽取出匹配概念和概念之间关系的文本;
步骤三:基于步骤二中抽取出的匹配概念和概念之间关系的文本,对深度学习方法进行训练;从而得到更多的概念和概念之间的关系;
步骤四:基于步骤三中得到的更多的概念和概念之间的关系,进行知识抽取,并对该抽取的结果进行标注;并对知识抽取时的精确率、召回率和F1值进行评判;所述精确率、召回率和F1值作为评价标准;
步骤五:重复步骤三和步骤四,直至所述评价标准达到预设的标准。
2.根据权利要求1所述的一种基于规则与深度学习的知识抽取方法,其特征在于:所述步骤一中的上下文环境计算符号包括但不限于:
“SENT”:作用域内的所有概念必须出现在一条语句中;
“DIST_n”:作用域内的任何两个相邻概念之间的距离不能大于n;
“ORD”:作用域内的所有概念顺序出现;
“CONT”:作用域内的所有概念相邻;
所述布尔关系计算符号包括:
“AND”:作用域中的所有字句必须同时在输入文本中出现;
“OR”:作用域中的所有字句至少有有一个在输入文本中出现;
“NOT”:作用域中的字句不能出现,否则输入文本不匹配。
3.根据权利要求1所述的一种基于规则与深度学习的知识抽取方法,其特征在于:所述步骤一中使用包含上下文计算符和布尔关系计算符的生成文法是基于TML语言实现。
4.根据权利要求1所述的一种基于规则与深度学习的知识抽取方法,其特征在于:所述步骤二中的知识抽取是基于TML语言实现。
5.根据权利要求1所述的一种基于规则与深度学习的知识抽取方法,其特征在于:所述步骤三中的深度学习方法,为概念学习方法或者/和概念关系学习方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810505732.4A CN108959375A (zh) | 2018-05-24 | 2018-05-24 | 一种基于规则与深度学习的知识抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810505732.4A CN108959375A (zh) | 2018-05-24 | 2018-05-24 | 一种基于规则与深度学习的知识抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108959375A true CN108959375A (zh) | 2018-12-07 |
Family
ID=64499572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810505732.4A Pending CN108959375A (zh) | 2018-05-24 | 2018-05-24 | 一种基于规则与深度学习的知识抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108959375A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674299A (zh) * | 2019-09-30 | 2020-01-10 | 南京网感至察信息科技有限公司 | 一种文章观点剽窃行为的检测方法 |
CN110688456A (zh) * | 2019-09-25 | 2020-01-14 | 北京计算机技术及应用研究所 | 一种基于知识图谱的漏洞知识库构建方法 |
CN111476034A (zh) * | 2020-04-07 | 2020-07-31 | 同方赛威讯信息技术有限公司 | 基于规则和模型结合的法律文书信息抽取方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104035996A (zh) * | 2014-06-11 | 2014-09-10 | 华东师范大学 | 基于Deep Learning的领域概念抽取方法 |
CN106484674A (zh) * | 2016-09-20 | 2017-03-08 | 北京工业大学 | 一种基于深度学习的中文电子病历概念抽取方法 |
CN107783960A (zh) * | 2017-10-23 | 2018-03-09 | 百度在线网络技术(北京)有限公司 | 用于抽取信息的方法、装置和设备 |
-
2018
- 2018-05-24 CN CN201810505732.4A patent/CN108959375A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104035996A (zh) * | 2014-06-11 | 2014-09-10 | 华东师范大学 | 基于Deep Learning的领域概念抽取方法 |
CN106484674A (zh) * | 2016-09-20 | 2017-03-08 | 北京工业大学 | 一种基于深度学习的中文电子病历概念抽取方法 |
CN107783960A (zh) * | 2017-10-23 | 2018-03-09 | 百度在线网络技术(北京)有限公司 | 用于抽取信息的方法、装置和设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110688456A (zh) * | 2019-09-25 | 2020-01-14 | 北京计算机技术及应用研究所 | 一种基于知识图谱的漏洞知识库构建方法 |
CN110674299A (zh) * | 2019-09-30 | 2020-01-10 | 南京网感至察信息科技有限公司 | 一种文章观点剽窃行为的检测方法 |
CN111476034A (zh) * | 2020-04-07 | 2020-07-31 | 同方赛威讯信息技术有限公司 | 基于规则和模型结合的法律文书信息抽取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108628823B (zh) | 结合注意力机制和多任务协同训练的命名实体识别方法 | |
CN110032648B (zh) | 一种基于医学领域实体的病历结构化解析方法 | |
CN110852087B (zh) | 中文纠错方法和装置、存储介质及电子装置 | |
Subramanya et al. | Efficient graph-based semi-supervised learning of structured tagging models | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
US7689527B2 (en) | Attribute extraction using limited training data | |
CN110297913A (zh) | 一种电子公文实体抽取方法 | |
CN107133220A (zh) | 一种地理学科领域命名实体识别方法 | |
CN107273355A (zh) | 一种基于字词联合训练的中文词向量生成方法 | |
CN111241294A (zh) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 | |
Na | Conditional random fields for Korean morpheme segmentation and POS tagging | |
CN106909537B (zh) | 一种基于主题模型和向量空间的一词多义分析方法 | |
CN108345583B (zh) | 基于多语注意力机制的事件识别及分类方法及装置 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN111222318B (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
JP6291443B2 (ja) | 接続関係推定装置、方法、及びプログラム | |
CN108959375A (zh) | 一种基于规则与深度学习的知识抽取方法 | |
CN112926337B (zh) | 一种结合重构句法信息的端到端方面级情感分析方法 | |
CN110377739A (zh) | 文本情感分类方法、可读存储介质和电子设备 | |
CN112800184B (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN113128203A (zh) | 基于注意力机制的关系抽取方法、系统、设备及存储介质 | |
CN108763192B (zh) | 用于文本处理的实体关系抽取方法及装置 | |
CN111985236A (zh) | 基于多维联动的可视化分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181207 |