CN110825721A - 大数据环境下高血压知识库构建与系统集成方法 - Google Patents
大数据环境下高血压知识库构建与系统集成方法 Download PDFInfo
- Publication number
- CN110825721A CN110825721A CN201911076689.5A CN201911076689A CN110825721A CN 110825721 A CN110825721 A CN 110825721A CN 201911076689 A CN201911076689 A CN 201911076689A CN 110825721 A CN110825721 A CN 110825721A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- hypertension
- data
- constructing
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
- G06F16/212—Schema design and management with details for data modelling support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种大数据环境下高血压知识库构建与系统集成方法,从高血压知识相关数据来源采集数据,并预处理;数据包括结构化数据、半结构化数据和非结构化数据;对预处理后的数据进行清洗;生成初始的知识图谱;接着利用主题模型提取相关主题,自动构建高血压本体库;基于高血压本体库,根据数据的存储类型进行知识抽取,并将知识进行融合,更新知识图谱;利用主题模型对知识图谱进行主题抽取,生成新的本体,进而更新高血压本体库;迭代直至得到满足要求的知识图谱和本体库,作为高血压知识库。本发明通过利用大数据自动建立高血压知识库,为知识库相关研究开拓新的思路,同时也为高血压的诊断和治疗提供了技术支持。
Description
技术领域
本发明属于知识库构建技术领域,具体涉及一种大数据环境下高血压知识库构建与系统集成方法。
背景技术
近年来,随着我国经济飞速发展,人们工作压力增大,生活节奏加快,加班多、应酬多、运动少,进而导致不健康的生活方式,高血压呈现出“井喷”发展态势。如何预防和控制高血压已经成为当今社会现代化进程中必须认真面对的重大问题。高血压疾病名称数目众多,特征和关系复杂,如果能将高血压疾病专家的经验结合起来,建立高血压知识库将会给高血压诊断和治疗带来很大方便。
发明内容
本发明要解决的技术问题是:提供一种大数据环境下高血压知识库构建与系统集成方法,为知识图谱相关研究提供参考。
本发明为解决上述技术问题所采取的技术方案为:一种大数据环境下高血压知识库构建与系统集成方法,其特征在于:本方法包括以下步骤:
S1、从高血压知识相关数据来源采集数据,并对数据进行预处理;数据包括结构化数据、半结构化数据和非结构化数据;预处理包括翻译、构建词向量、分句和词形规范化处理;
S2、对预处理后的数据进行清洗;生成初始的知识图谱;接着利用主题模型提取相关主题,自动构建高血压本体库;
S3、基于高血压本体库,根据数据的存储类型进行知识抽取,并将知识进行融合,更新知识图谱;
S4、利用主题模型对知识图谱进行主题抽取,生成新的本体,进而更新高血压本体库;
S5、按照S3至S4进行迭代,直至得到满足要求的知识图谱和本体库,作为高血压知识库。
按上述方法,所述的S1中,非结构化数据包括Pubmed论文摘要、成人高血压诊断与治疗指南、Studentdoctor论坛数据;半结构化数据包括维基百科网站和成人高血压诊断与治疗指南的图表;结构化数据包括中文通用知识图谱CN-DBpedia,中文通用知识图谱CN-DBpedia包含中医独有知识,作为对知识库的补充,且中文通用知识图谱CN-DBpedia以三元组形式组织,在实体对齐后存入知识图谱。
按上述方法,所述的S3中,对非结构化数据的知识抽取分为命名实体识别、关系分类及属性抽取三部分,利用双向长短时记忆神经网络Bi-LSTM对非结构化数据进行处理;其中,
命名实体识别包括:将S1构建的词向量作为输入,通过Bi-LSTM抽取文本中的语义特征,通过条件随机场CRF对Bi-LSTM所得特征进行约束,得到全局最优标签序列;
关系分类及属性抽取具体包括:将S1构建的词向量作为输入,利用Bi-LSTM抽取文本中的高层语义特征,注意力层通过引入权重向量,将词级特征合并为句级特征,以此捕捉句子的深层语义特征,利用特征分类器得到两个命名实体之间的关系。
按上述方法,所述的S3中,对半结构化数据的知识抽取利用包装器完成,包装器是一种基于规则的文本信息抽取模型;
具体包括:根据输入数据从规则库中选择对应的规则,并将规则传入规则执行模块;接着将规则执行模块中的规则应用于输入数据,并抽取出有用信息;然后将有用信息传入信息转换模块中,并将传入的有用信息转换为特定格式的知识。
按上述方法,所述的S3中的知识融合包括实体对齐、命名实体消歧和重复知识合并三方面;其中,
实体对齐方法是:通过计算word2vec模型的词间空间距离,以此代表词间语义相似度,并设定相似度阈值来划分本体间的关系,以此得到待对齐实体;或通过规则和模板对同义词进行匹配,得到待对齐实体;
实体消歧采用基于聚类的命名实体消歧方法。
按上述方法,所述的S2中自动构建高血压本体库具体包括:
2.1、令高血压hypertension作为知识图谱的根结点以及本体库的顶层结点;
2.2、从采集到的数据中查找与根节点步长为1的结点所在的句子,得到句子集合;
2.3、利用HDP主题模型对句子集合中的句子进行主题抽取,得到第二层主题集合;
2.4、在领域专家的参与下,对第二层主题集合进行筛选和归纳,得到第二层本体;
2.5、将第二层本体存入本体库。
按上述方法,本方法还包括S6、局部更新机制:对一定周期产生的新数据,经过S1-S4,完成一次局部更新。
按上述方法,所述的S6中,当有新闻热搜词出现与高血压相关度在一定比例之上的新闻时,跳过周期限制,以该新闻热搜词在新闻中进行查询匹配,将所得数据经过S3-S4,完成一次局部更新。
按上述方法,本方法还包括S7、全局更新机制:对一段时间以来产生的数据采用全局更新策略,该一段时间的长度大于S6中的一定周期;全局更新策略以采集的数据为基础,重新经过S1-S5,完成一次全局更新。
按上述方法,所述的高血压知识库采用Neo4j图数据库存储。
本发明的有益效果为:通过利用大数据自动建立高血压知识库,为知识库相关研究开拓新的思路,同时也为高血压的诊断和治疗提供了技术支持。
附图说明
图1为本发明一实施例的整体流程图。
图2为Bi-LSTM+CRF网络结构图。
图3为关系分类及属性抽取的基本流程图。
图4为包装器工作流程图。
具体实施方式
下面结合具体实例和附图对本发明做进一步说明。
高血压知识库包括高血压本体库和高血压知识图谱。常见的知识图谱构建主要有自顶向下和自底向上两种方式。其中自顶向下的构建方式是使用高质量数据人工或自动提取本体和模式信息,继而构建知识图谱;自底向上的构建方式则是借助一定的技术手段,从大数据中提取出知识信息,创建知识图谱后再构建本体库。
高血压知识库的构建往往缺少成熟的本体库。传统的本体库是领域专家构建的,然而,随着数据规模的不断增大,人工构建方式变得不太现实,急需引入本体库自动构建技术。鉴于此,本发明提出一种数据驱动的、自底向上、启发式的知识库构建方法。本发明提供一种大数据环境下高血压知识库构建与系统集成方法,如图1所示,本方法包括以下步骤:
S1、从高血压知识相关数据来源采集数据,并对数据进行预处理;数据包括结构化数据、半结构化数据和非结构化数据;预处理包括翻译、构建词向量、分句和词形规范化处理。S2、对预处理后的数据进行清洗;生成初始的知识图谱;接着利用主题模型提取相关主题,自动构建高血压本体库。S3、基于高血压本体库,根据数据的存储类型进行知识抽取,并将知识进行融合,更新知识图谱。S4、利用主题模型对知识图谱进行主题抽取,生成新的本体,进而更新高血压本体库。S5、按照S3至S4进行迭代,直至得到满足要求的知识图谱和本体库,作为高血压知识库。
一、数据采集与预处理
1.1数据来源
高血压知识库的数据来源主要包括Pubmed论文摘要、成人高血压诊断与治疗指南、Studentdoctor论坛数据、中文通用知识图谱CN-DBpedia等。其中非结构化数据包括Pubmed论文摘要、成人高血压诊断与治疗指南、Studentdoctor论坛数据;半结构化数据包括维基百科网站和成人高血压诊断与治疗指南的图表;结构化数据包括中文通用知识图谱CN-DBpedia,该知识图谱包含中医独有知识,如穴位、中草药和针灸等,是对知识库的有益补充。由于该知识图谱以三元组形式组织,因此实体对齐后即可存入知识图谱。数据来源如表1所示。
表1数据来源
1.2 CN-DBpedia翻译
从CN-DBpedia抽取出与高血压相关的词条,并调用Google Translate API将中文词条翻译为英文。部分翻译结果如表2所示。
表2部分翻译结果
1.3词向量构建
词向量是词的一种特征表示,使用向量表示每个词,是很多自然语言处理任务的基础步骤。通过词向量可以计算空间距离,以表征文本语义空间上的相似度。根据语义相似度可以实现实体对齐。利用Word2vec方法对文本信息进行低维稠密的向量表达。
由于英文文本中含有大量的停用词,去除停用词将有助于后续知识抽取。部分停词表如表3所示。
表3部分停词表
采集到的数据中包含领域词,通过构建领域词表指导分词,确保分词过程中领域词的完整性。部分领域词表如表4所示。
表4部分领域词表
1.4分句
句子是构建高血压本体库和知识抽取的基本单位,中文能够直接以标点符号进行分句,而英文中的标点符号却分为无歧义标点符号和有歧义标点符号两种。无歧义标点符号包括分号、感叹号、问号等;有歧义标点符号主要为“.”。“.”在英文中不仅表示句号,还表示小数点、简写符号等。
利用正则匹配对非结构化数据分句,例如:无歧义标点符号表示句末(End ofSentence,EOS),进行分句;若“.”两侧均为数字,判定为一个浮点数,不进行分句;若“.”左侧为“Mr”或“Ms”,判定为简写符号,不进行分句。
1.5词形规范化
词形规范化有两种形式:词干提取(Stemming)和词形还原(Lemmatization)。词干提取采用“缩减”策略,抽取词语的词干部分,但其无法保证词语的完整性及语义的一致性。例如“airliner”经词干提取得到“airlin”。词形还原采用“还原”策略,将词语转化为原形形式,得到的词语具有良好的完整性。例如“driving”处理经词形还原得到“drive”。
利用基于Python语言开发的自然语言处理工具包NLTK实现词干提取和词形还原。NLTK词形还原工具基于Word Net词典,NLTK提供访问Word Net词典的接口,可以实现对词典中的同义词、词语原形的查询等功能。NLTK词形还原功能通过查询Word Net词典进行词缀删除及转换,以便获取词语的原形形式。
二、构建高血压本体库
领域本体包含领域概念、语义关系、公理以及推理规则,通过本体库不但可以对知识抽取进行有效的监督,还可以通过逻辑推理对深层知识进行挖掘。它是知识组织的有效方式,也是构建知识库的重要环节。
领域本体库的构建方法主要分为三类:人工构建本体库、复用现有本体库和自动构建本体库。随着知识更新频率日益加快,领域专家的知识存在盲区,因此,传统的人工构建知识库的方法耗时耗力且效率低下。自动构建本体库是利用机器学习和统计学方法对海量数据进行处理,进而得到领域本体库,该本体库含有不少噪声,本体质量难以保证。因此,提出一种数据驱动的高血压本体库构建方法。
该方法首先对数据进行清洗;然后利用Stanford NLP工具生成初始的知识图谱;接着利用主题模型提取相关主题,进而生成本体,以建立本体库。主题模型能够从海量文档中挖掘其中隐含的主题。常见的主题模型有潜在语义分析(Latent Semantic Analysis,LSA)、概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)、潜在狄利克分布(Latent Dirichlet Allocation,LDA)等。上述模型中主题数K需要通过交叉验证确定,但K值确定的过程相当繁琐。分层狄利克雷过程(Hirerachical DirichletProcessing,HDP)能够自动确定K值,降低了主题提取的时间复杂度和空间复杂度。因此,利用HDP主题模型提取相关主题。
自动构建高血压本体库方法的基本步骤如下:
Step1:令高血压(hypertension)为知识图谱的根结点以及本体库的顶层结点。
Step2:从采集到的数据集中查找与根节点步长为1的结点所在的句子,得到句子集合。
Step3:利用HDP主题模型对句子集合中的句子进行主题抽取,得到第二层主题集合。
Step4:在领域专家的参与下,对第二层主题集合进行筛选和归纳,进而得到第二层本体。
Step5:将第二层本体存入本体库。
Step6:循环Step2-Step5,直至覆盖知识图谱中的所有结点。
三、知识抽取
知识抽取是知识库构建的关键步骤。本文将知识表示为{实体,关系&属性,实体}的三元组形式。
3.1非结构化数据
非结构化数据的知识抽取分为命名实体识别、关系分类及属性抽取三部分。利用双向长短时记忆神经网络(Bi-directional Long Short-Term Memory,Bi-LSTM)对非结构化数据进行处理,其原因是Bi-LSTM能够很好地捕捉文本中前向和后向的语义特征。
(1)命名实体识别
命名实体识别的目的是识别出文本中的人名、地名、组织机构名、时间、日期等。命名实体识别的基本流程是:将预训练的词向量作为输入,通过Bi-LSTM抽取文本中的语义特征,通过条件随机场(Conditional Random Field,CRF)对Bi-LSTM所得特征进行约束,最终得到全局最优标签序列。网络结构如图2所示。其中输入层将词转化为词向量(x1,…,xt-1,xt,xt+1,…,xn),随后将词向量按顺序依次输入双向LSTM单元正向(h1,…,ht-1,ht,ht+1,...,hn)和反向(hn,…,ht+1,ht,ht-1,...,h1)进行特征提取,接着将正向特征向量和反向特征向量进行拼接,得到包含丰富语义信息的特征向量(y1,…,yt-1,yt,yt+1,...,yn),最终将特征向量输入条件随机场,得到条件概率最大的输出序列(g1,…,gt-1,gt,gt+1,...,gn)。
数据标签通常有IOB和IOBES两种格式。在IOB格式中,I表示内部实体,O表示外部实体,B表示实体的开始词汇。在IOBES格式中,B表示实体的开始词汇,I表示实体的中间词汇,E表示实体的结尾词汇,S表示单字符实体,O表示非实体。以人名表示为例,两种格式的对应关系如表5所示。为了表示方便,采用更为简洁的IOB格式,其标签列表如表6所示。
表5 IOB和IOBES格式对应表
表6实体标签列表
(2)关系分类及属性抽取
关系分类及属性抽取用于识别两个命名实体之间的关系及属性,其分类效果直接影响上层应用的准确性。属性可视为实体与属性值之间的一种名词性关系,因此,可将属性抽取任务转化为关系抽取任务。利用引入注意力机制的Bi-LSTM(Att-BiLSTM)模型进行关系分类及属性抽取。其基本流程是:将预训练的词向量作为输入,利用Bi-LSTM抽取文本中的高层语义特征,注意力层通过引入权重向量,将词级特征合并为句级特征,以此捕捉句子的深层语义特征,利用特征分类器得到两个实体之间的关系。关系分类及属性抽取的基本流程如图3所示。其中输入层将词转化为词向量(x1,…,xt-1,xt,xt+1,…,xn),随后将词向量按顺序依次输入双向LSTM单元正向(h1,…,ht-1,ht,ht+1,...,hn)和反向(hn,…,ht+1,ht,ht-1,...,h1)进行特征提取,接着将正向特征向量和反向特征向量进行拼接,得到包含丰富语义信息的特征向量(y1,…,yt-1,yt,yt+1,...,yn),最终将特征向量输入Attention层,Attention层通过计算每个特征向量的权重,然后将所有的特征向量进行加权并作为最终的分类向量,然后使用分类函数进行分类并得到最终结果y。
3.2半结构化数据
面向半结构化数据的知识抽取利用包装器。包装器是一种基于规则的文本信息抽取模型,其规则集易于建立且抽取精度高,因而适用于半结构化数据的知识抽取。包装器的基本工作流程是:如图4所示,首先根据输入数据从规则库中选择对应的规则,并将规则传入规则执行模块;接着,将规则执行模块中的规则应用于输入数据,并抽取出有用信息;然后,将上述信息传入信息转换模块中,并将传入的信息转换为特定格式的知识。
四、知识融合与知识存储
4.1知识融合
知识融合是知识图谱构建过程中重要步骤。通过知识融合,可将知识图谱内部的实体进行精简,使得知识图谱的运转更加有效。与此同时,通过不同来源数据之间的知识融合,可以实现知识图谱之间的链接与合并,进而构建一个更大规模、服务范围更广泛的知识图谱系统。知识融合包括实体对齐、实体消歧和重复知识合并三方面的内容。
(1)实体对齐也称为共指消解、实体匹配、实体同义,用于解决多个指称对应同一实体对象的情况。利用实体对齐可将多个指称项关联到统一的实体对象,以便将语义网络中的分散实体互联起来。本文采用的实体对齐方法是:通过计算word2vec模型的词间空间距离,以此代表词间语义相似度,并设定相似度阈值来划分本体间的关系,以此得到待对齐实体;也可以通过规则和模板对同义词进行匹配,得到待对齐实体。例如,在不同文献中出现的hypertension(HTN)、hypertension(HT)等词,通过实体对齐,得知hypertension、HTN、HT为同义词。
(2)实体消歧可以消除同名实体产生的歧义。常见的实体消岐方法有两类:基于聚类的命名实体消歧和基于分类的命名实体消歧。基于聚类的命名实体消歧适用于目标实体概念集合没有确定的情形。命名实体歧义词使用聚类方式进行实体消歧,将指向目标实体的指称项拿出并聚在同一个类别下。因此每一个类别包含某一个命名实体的所有可能指向的指称项。根据命名实体间的特征相似度,利用聚类算法决定实体对应的类别。基于分类的命名实体消歧,也称为实体链接,适用于给定目标实体概念集合的情形。该消歧方法只需将给定的集合与命名实体指称项进行链接。链接本身的无歧义是实现分类命名实体消歧的关键。鉴于本文目标实体概念并不明确,因此采用基于聚类的命名实体消歧方法。
(3)重复知识合并。多种来源的数据虽然保证了知识的全面性,但也导致了较大概率出现知识重叠。重复的知识不仅会增加系统运行负担,还会使查询时间变长,效率降低。在知识存储前需要将重复知识进行合并,以此降低系统冗余,提高系统运行效率。
4.2知识图谱存储
经知识融合后,高血压知识图谱构建基本完成。接下来要考虑的是知识图谱的存储问题。和传统数据库相比,图数据库在海量节点的存储、管理、可视化、推理等方面具有很高的灵活性、敏捷性和扩展性。DB-Engines每月对大数据环境下图数据库管理系统进行排名,通过比较最常用的Neo4j、OrientDB和JanusGraph等图数据库来确定存储知识图谱的数据库。
表7常用图数据库对比
由排名可以看出,Neo4j图数据库应用最广。由表7可以看出,Neo4j图数据库较之其他两类数据库性能更优;鉴于此,利用Neo4j图数据库来存储高血压知识图谱。将所有知识存入Neo4j图数据库。
五、知识图谱更新
知识抽取过程依赖本体库的监督,然而本体库并不完备,因此,依据本体库生成的知识图谱规范性和完整性较差,关系及属性种类较少,无法满足实际需求。因此,引入迭代策略以进一步完善知识图谱与本体库。迭代策略分为两种:整体迭代和层次迭代。整体迭代策略是利用本体库对知识图谱进行完善,更新后的知识图谱再对本体库进行更新。而层级迭代策略则是利用主题模型对数据的关系及属性进行更深层、更细致地挖掘。从数据角度看,整体迭代策略基于知识图谱的层次结构,按步数累加直至覆盖所有结点,进而实现本体库的更新。利用更新后的本体库进行知识抽取为知识图谱得到更为丰富的关系及属性。层级迭代策略从数据本身对关系及属性进行深层次细分,得到更多的关系及属性。
整体迭代流程如下:
Step1:基于更新后的本体库对知识抽取进行监督,得到更多的关系及属性。
Step2:对新知识进行知识融合。
Step3:更新知识图谱。
Step4:更新本体库。
层级迭代流程如下所示:
Step1:令高血压(hypertension)为顶层的关系及属性,标记为R1。
Step2:对采集到的数据集进行主题抽取,在领域专家的参与下得到第二层关系及属性集合R2。
Step3:重新标注R2中的关系及属性,训练Att-BiLSTM模型,面向所有数据集进一步提取其中的关系及属性。
Step4:找到与R2中的每一个关系及属性对应的句子,对其进行主题抽取,在领域专家的参与下得到第三层关系及属性。
Step5:重新标注第三层关系及属性,训练Att-BiLSTM模型,进一步提取该层的关系及属性。
Step6:循环Step4-Step5,直至覆盖R2中所有关系及属性,得到最终的第三层关系及属性集合R3。
Step7:循环Step4-Step6,直至生成满足实际需求的知识图谱。
高血压知识图谱并非一成不变,随着时间推移会有新知识的产生、旧知识的消亡、错误知识的更正等。因此,有必要建立知识库的动态感知和更新机制。根据更新周期,可将更新机制分为两类:
(1)局部更新机制:对近期产生的新数据,采用局部更新策略。将这些经过预处理的新数据输入到已经训练好的模型或已经定义好的规则内进行知识抽取。所抽取知识经过知识融合后存入知识图谱,完成一次局部更新。
局部更新还可以按照新闻热搜词进行更新,当新闻热搜词出现和高血压相关度高的新闻时,可以直接跳过周期限制,以该词汇在数据源中进行查询匹配,将所得数据进行一次局部更新。
局部更新响应快,灵活性高,资源消耗少,是知识库更新的主要手段。
(2)全局更新机制:对一段时间以来产生的数据采用全局更新策略。该策略以采集数据为基础重新对模型进行训练,对规则进行重新定义。将数据传入更新后的模型和规则进行知识抽取和知识融合,生成知识图谱并存入图数据库,完成一次全局更新。
尽管全局更新需要消耗较多的资源,但其可以更新知识、降低冗余、提高查询效率,还可以标注新的实体标签,新的关系及属性,为上层应用提供更为丰富的数据支持。是知识库更新的重要手段。
综上所述,在实际应用中根据需要将“局部更新机制”和“全局更新机制”混合使用,能够有效地提高知识库的更新效率。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
Claims (10)
1.一种大数据环境下高血压知识库构建与系统集成方法,其特征在于:本方法包括以下步骤:
S1、从高血压知识相关数据来源采集数据,并对数据进行预处理;数据包括结构化数据、半结构化数据和非结构化数据;预处理包括翻译、构建词向量、分句和词形规范化处理;
S2、对预处理后的数据进行清洗;生成初始的知识图谱;接着利用主题模型提取相关主题,自动构建高血压本体库;
S3、基于高血压本体库,根据数据的存储类型进行知识抽取,并将知识进行融合,更新知识图谱;
S4、利用主题模型对知识图谱进行主题抽取,生成新的本体,进而更新高血压本体库;
S5、按照S3至S4进行迭代,直至得到满足要求的知识图谱和本体库,作为高血压知识库。
2.根据权利要求1所述的大数据环境下高血压知识库构建与系统集成方法,其特征在于:所述的S1中,非结构化数据包括Pubmed论文摘要、成人高血压诊断与治疗指南、Studentdoctor论坛数据;半结构化数据包括维基百科网站和成人高血压诊断与治疗指南的图表;结构化数据包括中文通用知识图谱CN-DBpedia,中文通用知识图谱CN-DBpedia包含中医独有知识,作为对知识库的补充,且中文通用知识图谱CN-DBpedia以三元组形式组织,在实体对齐后存入知识图谱。
3.根据权利要求1所述的大数据环境下高血压知识库构建与系统集成方法,其特征在于:所述的S3中,对非结构化数据的知识抽取分为命名实体识别、关系分类及属性抽取三部分,利用双向长短时记忆神经网络Bi-LSTM对非结构化数据进行处理;其中,
命名实体识别包括:将S1构建的词向量作为输入,通过Bi-LSTM抽取文本中的语义特征,通过条件随机场CRF对Bi-LSTM所得特征进行约束,得到全局最优标签序列;
关系分类及属性抽取具体包括:将S1构建的词向量作为输入,利用Bi-LSTM抽取文本中的高层语义特征,注意力层通过引入权重向量,将词级特征合并为句级特征,以此捕捉句子的深层语义特征,利用特征分类器得到两个命名实体之间的关系。
4.根据权利要求1所述的大数据环境下高血压知识库构建与系统集成方法,其特征在于:所述的S3中,对半结构化数据的知识抽取利用包装器完成,包装器是一种基于规则的文本信息抽取模型;
具体包括:根据输入数据从规则库中选择对应的规则,并将规则传入规则执行模块;接着将规则执行模块中的规则应用于输入数据,并抽取出有用信息;然后将有用信息传入信息转换模块中,并将传入的有用信息转换为特定格式的知识。
5.根据权利要求3所述的大数据环境下高血压知识库构建与系统集成方法,其特征在于:所述的S3中的知识融合包括实体对齐、命名实体消歧和重复知识合并三方面;其中,
实体对齐方法是:通过计算word2vec模型的词间空间距离,以此代表词间语义相似度,并设定相似度阈值来划分本体间的关系,以此得到待对齐实体;或通过规则和模板对同义词进行匹配,得到待对齐实体;
实体消歧采用基于聚类的命名实体消歧方法。
6.根据权利要求1所述的大数据环境下高血压知识库构建与系统集成方法,其特征在于:所述的S2中自动构建高血压本体库具体包括:
2.1、令高血压hypertension作为知识图谱的根结点以及本体库的顶层结点;
2.2、从采集到的数据中查找与根节点步长为1的结点所在的句子,得到句子集合;
2.3、利用HDP主题模型对句子集合中的句子进行主题抽取,得到第二层主题集合;
2.4、在领域专家的参与下,对第二层主题集合进行筛选和归纳,得到第二层本体;
2.5、将第二层本体存入本体库。
7.根据权利要求1所述的大数据环境下高血压知识库构建与系统集成方法,其特征在于:本方法还包括S6、局部更新机制:对一定周期产生的新数据,经过S1-S4,完成一次局部更新。
8.根据权利要求7所述的大数据环境下高血压知识库构建与系统集成方法,其特征在于:所述的S6中,当有新闻热搜词出现与高血压相关度在一定比例之上的新闻时,跳过周期限制,以该新闻热搜词在新闻中进行查询匹配,将所得数据经过S3-S4,完成一次局部更新。
9.根据权利要求7或8所述的大数据环境下高血压知识库构建与系统集成方法,其特征在于:本方法还包括S7、全局更新机制:对一段时间以来产生的数据采用全局更新策略,该一段时间的长度大于S6中的一定周期;全局更新策略以采集的数据为基础,重新经过S1-S5,完成一次全局更新。
10.根据权利要求1所述的大数据环境下高血压知识库构建与系统集成方法,其特征在于:所述的高血压知识库采用Neo4j图数据库存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911076689.5A CN110825721B (zh) | 2019-11-06 | 2019-11-06 | 大数据环境下高血压知识库构建与系统集成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911076689.5A CN110825721B (zh) | 2019-11-06 | 2019-11-06 | 大数据环境下高血压知识库构建与系统集成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110825721A true CN110825721A (zh) | 2020-02-21 |
CN110825721B CN110825721B (zh) | 2023-05-02 |
Family
ID=69553217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911076689.5A Active CN110825721B (zh) | 2019-11-06 | 2019-11-06 | 大数据环境下高血压知识库构建与系统集成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110825721B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111475629A (zh) * | 2020-03-31 | 2020-07-31 | 渤海大学 | 一种面向数学辅导问答系统的知识图谱构建方法及其系统 |
CN111506722A (zh) * | 2020-06-16 | 2020-08-07 | 平安科技(深圳)有限公司 | 基于深度学习技术的知识图谱问答方法、装置及设备 |
CN111708893A (zh) * | 2020-05-15 | 2020-09-25 | 北京邮电大学 | 基于知识图谱的科技资源整合方法及系统 |
CN111930774A (zh) * | 2020-08-06 | 2020-11-13 | 全球能源互联网研究院有限公司 | 一种电力知识图谱本体自动构建方法及系统 |
CN111949802A (zh) * | 2020-08-06 | 2020-11-17 | 平安科技(深圳)有限公司 | 医学领域知识图谱的构建方法、装置、设备及存储介质 |
CN112052296A (zh) * | 2020-08-24 | 2020-12-08 | 中国水电工程顾问集团有限公司 | 一种风电故障诊断知识库构建方法 |
CN112364174A (zh) * | 2020-10-21 | 2021-02-12 | 山东大学 | 基于知识图谱的病人病历相似度评估方法及系统 |
CN112380355A (zh) * | 2020-11-20 | 2021-02-19 | 华南理工大学 | 一种时隙异构知识图谱的表示与存储方法 |
CN112420212A (zh) * | 2020-11-27 | 2021-02-26 | 湖南师范大学 | 一种脑卒中医疗知识图谱的构建方法 |
CN112559766A (zh) * | 2020-12-08 | 2021-03-26 | 杭州互仲网络科技有限公司 | 一种法律知识图谱构建系统 |
CN112598563A (zh) * | 2020-12-29 | 2021-04-02 | 中国科学技术大学 | 一种基于知识图谱的智慧城市数据构建方法 |
CN112635078A (zh) * | 2020-11-06 | 2021-04-09 | 辽宁工程技术大学 | 一种中医药知识图谱构建与可视化方法 |
CN112860913A (zh) * | 2021-02-24 | 2021-05-28 | 广州汇通国信科技有限公司 | 一种知识图谱的本体创建方法 |
CN112949300A (zh) * | 2021-03-05 | 2021-06-11 | 深圳大学 | 基于深度学习的台风预警规划模型自动生成方法及系统 |
CN113239208A (zh) * | 2021-05-06 | 2021-08-10 | 广东博维创远科技有限公司 | 一种基于知识图谱的标注训练模型 |
WO2022077166A1 (zh) * | 2020-10-12 | 2022-04-21 | 深圳晶泰科技有限公司 | 面向药物研发的数据处理方法及系统 |
CN114841201A (zh) * | 2022-04-23 | 2022-08-02 | 中国人民解放军32802部队 | 一种面向智能化雷达对抗的动态知识库设计方法及装置 |
CN115292286A (zh) * | 2022-08-04 | 2022-11-04 | 王炳策 | 一种中医护理条文数据库的构建方法和管理方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108427735A (zh) * | 2018-02-28 | 2018-08-21 | 东华大学 | 基于电子病历的临床知识图谱构建方法 |
US20180276279A1 (en) * | 2017-03-23 | 2018-09-27 | International Business Machines Corporation | Leveraging extracted entity and relation data to automatically filter data streams |
CN108932340A (zh) * | 2018-07-13 | 2018-12-04 | 华融融通(北京)科技有限公司 | 一种不良资产经营领域下金融知识图谱的构建方法 |
CN109271530A (zh) * | 2018-10-17 | 2019-01-25 | 长沙瀚云信息科技有限公司 | 一种疾病知识图谱构建方法和平台系统、设备、存储介质 |
CN109947950A (zh) * | 2019-03-14 | 2019-06-28 | 长沙沃本智能科技有限公司 | 基于中间层核心本体的领域知识图谱的构建方法和装置 |
CN110277167A (zh) * | 2019-05-31 | 2019-09-24 | 南京邮电大学 | 基于知识图谱的慢性非传染性疾病风险预测系统 |
CN110287334A (zh) * | 2019-06-13 | 2019-09-27 | 淮阴工学院 | 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法 |
-
2019
- 2019-11-06 CN CN201911076689.5A patent/CN110825721B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180276279A1 (en) * | 2017-03-23 | 2018-09-27 | International Business Machines Corporation | Leveraging extracted entity and relation data to automatically filter data streams |
CN108427735A (zh) * | 2018-02-28 | 2018-08-21 | 东华大学 | 基于电子病历的临床知识图谱构建方法 |
CN108932340A (zh) * | 2018-07-13 | 2018-12-04 | 华融融通(北京)科技有限公司 | 一种不良资产经营领域下金融知识图谱的构建方法 |
CN109271530A (zh) * | 2018-10-17 | 2019-01-25 | 长沙瀚云信息科技有限公司 | 一种疾病知识图谱构建方法和平台系统、设备、存储介质 |
CN109947950A (zh) * | 2019-03-14 | 2019-06-28 | 长沙沃本智能科技有限公司 | 基于中间层核心本体的领域知识图谱的构建方法和装置 |
CN110277167A (zh) * | 2019-05-31 | 2019-09-24 | 南京邮电大学 | 基于知识图谱的慢性非传染性疾病风险预测系统 |
CN110287334A (zh) * | 2019-06-13 | 2019-09-27 | 淮阴工学院 | 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法 |
Non-Patent Citations (2)
Title |
---|
L. XIAOXUE, B. XUESONG, W. LONGHE, R. BINGYUAN, L. SHUHAN AND L. LIN: "Review and Trend Analysis of Knowledge Graphs for Crop Pest and Diseases" * |
刘峤;李杨;段宏;刘瑶;秦志光;: "知识图谱构建技术综述" * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111475629A (zh) * | 2020-03-31 | 2020-07-31 | 渤海大学 | 一种面向数学辅导问答系统的知识图谱构建方法及其系统 |
CN111708893A (zh) * | 2020-05-15 | 2020-09-25 | 北京邮电大学 | 基于知识图谱的科技资源整合方法及系统 |
CN111506722A (zh) * | 2020-06-16 | 2020-08-07 | 平安科技(深圳)有限公司 | 基于深度学习技术的知识图谱问答方法、装置及设备 |
WO2021139283A1 (zh) * | 2020-06-16 | 2021-07-15 | 平安科技(深圳)有限公司 | 基于深度学习技术的知识图谱问答方法、装置及设备 |
CN111506722B (zh) * | 2020-06-16 | 2024-03-08 | 平安科技(深圳)有限公司 | 基于深度学习技术的知识图谱问答方法、装置及设备 |
CN111930774B (zh) * | 2020-08-06 | 2024-03-29 | 全球能源互联网研究院有限公司 | 一种电力知识图谱本体自动构建方法及系统 |
CN111930774A (zh) * | 2020-08-06 | 2020-11-13 | 全球能源互联网研究院有限公司 | 一种电力知识图谱本体自动构建方法及系统 |
CN111949802A (zh) * | 2020-08-06 | 2020-11-17 | 平安科技(深圳)有限公司 | 医学领域知识图谱的构建方法、装置、设备及存储介质 |
CN112052296B (zh) * | 2020-08-24 | 2024-01-09 | 中国水电工程顾问集团有限公司 | 一种风电故障诊断知识库构建方法 |
CN112052296A (zh) * | 2020-08-24 | 2020-12-08 | 中国水电工程顾问集团有限公司 | 一种风电故障诊断知识库构建方法 |
WO2022077166A1 (zh) * | 2020-10-12 | 2022-04-21 | 深圳晶泰科技有限公司 | 面向药物研发的数据处理方法及系统 |
CN112364174A (zh) * | 2020-10-21 | 2021-02-12 | 山东大学 | 基于知识图谱的病人病历相似度评估方法及系统 |
CN112635078A (zh) * | 2020-11-06 | 2021-04-09 | 辽宁工程技术大学 | 一种中医药知识图谱构建与可视化方法 |
CN112380355A (zh) * | 2020-11-20 | 2021-02-19 | 华南理工大学 | 一种时隙异构知识图谱的表示与存储方法 |
CN112420212A (zh) * | 2020-11-27 | 2021-02-26 | 湖南师范大学 | 一种脑卒中医疗知识图谱的构建方法 |
CN112420212B (zh) * | 2020-11-27 | 2023-12-26 | 湖南师范大学 | 一种脑卒中医疗知识图谱的构建方法 |
CN112559766B (zh) * | 2020-12-08 | 2022-08-26 | 杭州互仲网络科技有限公司 | 一种法律知识图谱构建系统 |
CN112559766A (zh) * | 2020-12-08 | 2021-03-26 | 杭州互仲网络科技有限公司 | 一种法律知识图谱构建系统 |
CN112598563B (zh) * | 2020-12-29 | 2023-11-17 | 中国科学技术大学 | 一种基于知识图谱的智慧城市数据构建方法 |
CN112598563A (zh) * | 2020-12-29 | 2021-04-02 | 中国科学技术大学 | 一种基于知识图谱的智慧城市数据构建方法 |
CN112860913A (zh) * | 2021-02-24 | 2021-05-28 | 广州汇通国信科技有限公司 | 一种知识图谱的本体创建方法 |
CN112860913B (zh) * | 2021-02-24 | 2024-03-08 | 广州汇通国信科技有限公司 | 一种知识图谱的本体创建方法 |
CN112949300A (zh) * | 2021-03-05 | 2021-06-11 | 深圳大学 | 基于深度学习的台风预警规划模型自动生成方法及系统 |
CN113239208A (zh) * | 2021-05-06 | 2021-08-10 | 广东博维创远科技有限公司 | 一种基于知识图谱的标注训练模型 |
CN114841201A (zh) * | 2022-04-23 | 2022-08-02 | 中国人民解放军32802部队 | 一种面向智能化雷达对抗的动态知识库设计方法及装置 |
CN114841201B (zh) * | 2022-04-23 | 2023-01-24 | 中国人民解放军32802部队 | 一种面向智能化雷达对抗的动态知识库设计方法及装置 |
CN115292286A (zh) * | 2022-08-04 | 2022-11-04 | 王炳策 | 一种中医护理条文数据库的构建方法和管理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110825721B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110825721B (zh) | 大数据环境下高血压知识库构建与系统集成方法 | |
CN112199511B (zh) | 跨语言多来源垂直领域知识图谱构建方法 | |
CN109271529B (zh) | 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法 | |
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
Qiu et al. | Geoscience keyphrase extraction algorithm using enhanced word embedding | |
Zubrinic et al. | The automatic creation of concept maps from documents written using morphologically rich languages | |
CN111078875B (zh) | 一种基于机器学习的从半结构化文档中提取问答对的方法 | |
CN112002411A (zh) | 一种基于电子病历的心脑血管病知识图谱问答方法 | |
US20150081277A1 (en) | System and Method for Automatically Classifying Text using Discourse Analysis | |
CN108874896B (zh) | 一种基于神经网络和幽默特征的幽默识别方法 | |
Kmail et al. | An automatic online recruitment system based on exploiting multiple semantic resources and concept-relatedness measures | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
US11170169B2 (en) | System and method for language-independent contextual embedding | |
CN113707339B (zh) | 一种多源异质数据库间概念对齐与内容互译方法及系统 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
Sadr et al. | Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms | |
CN112036178A (zh) | 一种配网实体相关的语义搜索方法 | |
Elayeb et al. | A comparative study between possibilistic and probabilistic approaches for monolingual word sense disambiguation | |
Ahanin et al. | A multi-label emoji classification method using balanced pointwise mutual information-based feature selection | |
Barbella et al. | Analogical word sense disambiguation | |
Da et al. | Deep learning based dual encoder retrieval model for citation recommendation | |
CN114265936A (zh) | 一种科技项目文本挖掘的实现方法 | |
CN114896387A (zh) | 军事情报分析可视化方法、装置以及计算机可读存储介质 | |
CN112800244A (zh) | 一种中医药及民族医药知识图谱的构建方法 | |
Rao et al. | Enhancing multi-document summarization using concepts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |