CN111950285A - 多模态数据融合的医疗知识图谱智能自动构建系统和方法 - Google Patents
多模态数据融合的医疗知识图谱智能自动构建系统和方法 Download PDFInfo
- Publication number
- CN111950285A CN111950285A CN202010756119.7A CN202010756119A CN111950285A CN 111950285 A CN111950285 A CN 111950285A CN 202010756119 A CN202010756119 A CN 202010756119A CN 111950285 A CN111950285 A CN 111950285A
- Authority
- CN
- China
- Prior art keywords
- attribute
- entity
- data
- attribute value
- corpus data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000004927 fusion Effects 0.000 title claims abstract description 51
- 238000010276 construction Methods 0.000 title claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 42
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 37
- 201000010099 disease Diseases 0.000 claims abstract description 34
- 208000024891 symptom Diseases 0.000 claims abstract description 32
- 208000031940 Disease Attributes Diseases 0.000 claims abstract description 24
- 239000000463 material Substances 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 22
- 238000012163 sequencing technique Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000013075 data extraction Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000013136 deep learning model Methods 0.000 claims description 3
- 230000003190 augmentative effect Effects 0.000 claims 1
- 238000003759 clinical diagnosis Methods 0.000 abstract description 7
- 238000003066 decision tree Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000007637 random forest analysis Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000007500 overflow downdraw method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Epidemiology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Primary Health Care (AREA)
- Animal Behavior & Ethology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种多模态数据融合的医疗知识图谱智能自动构建系统和方法,涉及知识图谱领域。本发明通过对预处理后的语料数据进行知识抽取,构建三元组数据,得到语料数据集;对语料数据集采用混合式方法进行实体属性扩充;对扩充后的语料数据集中的不同类别的实体属性按不同的方式进行实体属性值融合;计算实体属性值融合后的语料数据集中的各个病症属性的权重;对三元组数据中的实体设置约束条件,将三元组数据、约束条件和各个病症属性的权重存储到Neo4j图数据库中。本发明实现大规模<实体,属性,属性值>型知识图谱的智能化自动构建,同时考虑到病症与疾病多对多,计算各个病症属性的权重,以便能准确的描述医疗数据,获得更准确的临床诊断结果。
Description
技术领域
本发明涉及知识图谱技术领域,具体涉及一种多模态数据融合的医疗知识图谱智能自动构建系统和方法。
背景技术
知识图谱是利用可视化技术或结构化方式来描述实体和实体关系知识,为搜索引擎用户提供高质量的知识检索服务。其目的是为了提高搜索引擎的能力,提高搜索结果质量并提升用户的搜索体验。随着智能信息服务和应用的不断发展,知识图谱已在学术界和工业界普及,并在智能搜索、智慧问答、推荐系统等应用中发挥着重要的作用。
随着医疗信息化的发展和智慧医疗建设的推进,大规模、多源、异构医疗健康数据资源逐渐形成。为了实现这些信息资源的有效管理和利用,需要构建医疗知识图谱,实现跨组织、跨云和跨系统医疗健康数据资源的语义融合,为医疗数据挖掘与知识发现奠定基础。通过将医学知识图谱化,可以实现医学数据的组织和关联。现有的医疗知识图谱的构建较少使用医院实际临床文本数据,大多基于互联网上公开的医学文献、诊疗指南或各种医疗网站的Web数据构建而成。且现有的医疗知识图谱的相关研究侧重于实体与实体之间的关系,采用<实体,关系,实体>三元组对医疗数据进行表示。
然而,本申请的发明人发现,通过现有的方法构建的医疗知识图谱不能准确的描述医疗数据。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种多模态数据融合的医疗知识图谱智能自动构建系统和方法,解决了现有的方法构建的医疗知识图谱不能准确的描述医疗数据技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明提供一种多模态数据融合的医疗知识图谱智能自动构建系统,包括:
数据获取及定义模块,用于获取语料数据,并定义所述语料数据中实体属性的类别;
预处理模块,用于对所述语料数据进行预处理;
数据抽取模块,用于对预处理后的语料数据进行知识抽取,构建<实体,属性,属性值>三元组数据,得到语料数据集;
知识扩充模块,用于对语料数据集采用混合式方法进行实体属性扩充;
融合模块,用于对扩充后的语料数据集中的不同类别的实体属性按不同的方式进行实体属性值融合;
权重计算模块,用于计算实体属性值融合后的语料数据集中的各个病症属性的权重;
实体约束及存储模块,用于对<实体,属性,属性值>三元组数据中的实体设置约束条件,将<实体,属性,属性值>三元组数据、约束条件和各个病症属性的权重存储到Neo4j图数据库中。
优选的,所述实体属性的类别包括:多值属性、固定型单值属性和非固定型单值属性。
优选的,所述对预处理后的语料数据进行知识抽取,构建<实体,属性,属性值>三元组数据,得到语料数据集,包括:
若所述语料数据的类型为结构化数据,则从中抽取属性名称和属性值,依据属性名称和属性值构建<实体,属性,属性值>三元组数据,将其作为语料数据集;
若所述语料数据为非结构化数据或半结构化数据,则对其进行知识抽取,所述知识抽取包括命名实体识别、实体属性抽取;其中属性抽取是指对属性和属性值对的抽取;采用BiLSTM-CRF深度学习模型进行医疗实体抽取;采用基于规则的方法抽取半结构化数据中的属性、采用构建包装器的方法自动从相应网站中抽取属性,将抽取的内容转化为<实体,属性,属性值>三元组数据,作为语料数据集。
优选的,所述对预处理后的语料数据进行知识抽取,构建<实体,属性,属性值>三元组数据,得到语料数据集,还包括:
若所述语料数据为半结构化数据时,基于所述语料数据构建知识抽取模板;利用所述知识抽取模板从语料数据中抽取属性名称和属性值,构建<实体,属性,属性值>三元组数据,作为语料数据集;
若所述语料数据为非结构化数据时,将所述语料数据转化为句子集合;依据预设词表对所述句子集合中的每一句子进行命名实体识别;依据命名实体识别后的句子集合构建知识抽取模板;利用知识抽取模板从所述语料数据中抽取属性名称和属性值,构建<实体,属性,属性值>三元组数据,作为语料数据集,并将抽取的属性名称和属性值添加至预设词表。
优选的,所述对语料数据集采用混合式方法进行实体属性扩充,包括:
基于模式匹配的方法对语料数据集进行实体属性知识扩充、基于属性词汇场的方法对语料数据集进行实体属性知识扩充、基于监督学习的方法对语料数据集进行实体属性知识扩充和基于搜索引擎问答的方法对语料数据集进行实体属性知识扩充。
优选的,所述融合模块对扩充后的语料数据集中的不同类别的实体属性按不同的方式进行实体属性值融合,包括:
当实体属性为多值属性时:
计算每个候选属性值的出现的次数,将候选属性值去重、排序后,通过直接合并的方式获取多值属性的属性值;多值属性的候选属性值排序规则是按照抽取来源的权重和出现次数加权计算可信度进行排序,可信度的计算如下式:
A=p1×S+p2×E
其中:
A表示候选属性值的可信度;
S表示来源的权重;
E表示该属性值被抽取过的次数;
p1、p2为预先设置的自定义参数,可以表示S、E各项在可信度中所占的权重;
若两个不同属性值属于同一抽取来源,则根据属性值的字典顺序进行排列;
当实体属性为固定型单值属性时:
使用基于可信度计算的方式来衡量属性值的准确性,并将可信度最高的候选属性值取出作为该属性的属性值;
对结构化或半结构化数据源的可信度公式如下:
A=p1×S+p2×E+p3×L+p4×W
其中:
A表示可信度;
S表示来源的权重;
E表示该属性值被抽取过的次数;
L表示候选属性值的长度;
W表示该候选属性值在词汇场中的权重;
p1至p4为预先设置的自定义参数,表示S、E、L、W各项在可信度中所占的权重;
对从非结构化数据源中通过机器学习所得的知识的属性值可信度公式如下:
A=q1×R+q2×L
其中:
A表示可信度;
R表示该候选属性值数目占总数目的比值;
L表示候选属性值的长度;
q1、q2为预先设置的自定义参数,表示R、L各项在可信度中所占的权重;
实体属性为非固定型单值属性时:
采用基于主动排序学习的非固定型单值属性的属性值融合,具体包括:
Step 1:构建训练集;
Step 2:调用主动排序学习算法对训练集进行训练,构建排序学习模型H(x);
其中,主动排序学习算法包括:
输入:已标注训练样本集L,未标注训练样本集U,每次迭代过程中交由人工标注的样本个数T,结束条件;
输出:H(x)=minr∈{1,2,...,k}{r:w.x-br<0};其中:w为排序学习模型对输入样本x每一维特征赋予的权重向量,br为一组阈值;
Step 3:根据排序学习模型H(x),对需要打分的每个属性查询的所有候选四元组<实体,属性,属性值,来源>进行打分,获得排序分值列表;
Step 4:取排序分值最高的候选四元组作为属性值融合的结果进行输出。
优选的,所述计算实体属性值融合后的语料数据集中的各个病症属性的权重,包括:
采用一种基于贝叶斯建模的方法计算病症属性的权重,具体为:
I=log(P(xi=1|yj=1))-log(P(xi=1|yj=0))
其中:I表示单个病症对于疾病的影响因子;
xi表示ID为i的病症属性;
yj表示ID为j的疾病实体;
P(xi=1|yj=1)表示某个病人患有疾病ID为j的疾病的情况下有症状ID为i的症状的概率;
P(xi=1|yj=0)表示未患有疾病ID为j的情况下具有症状ID为i的症状的概率。
本发明还提供一种多模态数据融合的医疗知识图谱智能自动构建方法,所述方法包括:
S1、获取语料数据集,并定义所述语料数据中实体属性的类别;
S2、对所述语料数据进行预处理;
S3、对预处理后的语料数据进行知识抽取,构建<实体,属性,属性值>三元组数据,得到语料数据集;
S4、对语料数据集采用混合式方法进行实体属性扩充;
S5、对扩充后的语料数据集中的不同类别的实体属性按不同的方式进行实体属性值融合;
S6、计算实体属性值融合后的语料数据集中的各个病症属性的权重;
S7、对<实体,属性,属性值>三元组数据中的实体设置约束条件,将<实体,属性,属性值>三元组数据、约束条件和各个病症属性的权重存储到Neo4j图数据库中。
(三)有益效果
本发明提供了一种多模态数据融合的医疗知识图谱智能自动构建系统和方法。与现有技术相比,具备以下有益效果:
本发明通过获取语料数据集,并定义所述语料数据中实体属性的类别;对语料数据进行预处理;对预处理后的语料数据进行知识抽取,构建<实体,属性,属性值>三元组数据,得到语料数据集;对语料数据集采用混合式方法进行实体属性扩充;对扩充后的语料数据集中的不同类别的实体属性按不同的方式进行实体属性值融合;计算实体属性值融合后的语料数据集中的各个病症属性的权重;对<实体,属性,属性值>三元组数据中的实体设置约束条件,将<实体,属性,属性值>三元组数据、约束条件和各个病症属性的权重存储到Neo4j图数据库中。本发明实现大规模<实体,属性,属性值>型知识图谱的智能化自动构建,同时考虑到病症与疾病多对多,计算各个病症属性的权重,以便能准确的描述医疗数据,获得更准确的临床诊断结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1一种多模态数据融合的医疗知识图谱智能自动构建方法的框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种多模态数据融合的医疗知识图谱智能自动构建系统,解决了现有的方法构建的医疗知识图谱不能准确的描述医疗数据技术问题,实现准确的描述医疗数据,获得更准确的临床诊断结果。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
医疗数据具有跨语种、专业性强、结构复杂、多模态、多源异构、高维等特点。现有医疗知识图谱的构建较少使用医院实际临床文本数据,大多基于互联网上公开的医学文献、诊疗指南或各种医疗网站的Web数据构建而成。这类数据虽然容易获取,但与真实临床医学数据相比,实践性、准确性和权威性较差。现有医疗知识图谱的相关研究侧重于实体与实体之间的关系,但医学知识数量巨大又复杂,采用<实体,关系,实体>三元组无法对医疗数据进行有效的组织和表示,且疾病的症状属性的属性值在临床诊断中具有重要作用,因此基于<实体,属性,属性值>三元组构建的医疗知识图谱能发挥更大效用。此外,属性值融合方法可以使得多数据源医疗知识图谱更准确、更完整,但目前医疗知识图谱属性值融合的研究未对属性值进行分类,忽略了属性值本身的取值特性,对所有属性值均采用相同的方法进行融合,且对大规模医疗数据集的样本标注代价问题关注较少。对其他领域来说,知识扩充、属性值融合之后的三元组可直接用于构建知识图谱,但在医疗领域中,对于某种确定的疾病而言,患者所表现出来的最明显的症状不尽相同,且无法根据某一个症状去判定患者所患疾病。因此,为了提高判断患者所患疾病的准确率,分析每一种症状对于包含该症状的疾病的权重是十分有必要的。此外,现有医疗图谱大都规模较小,主要依靠手工方式构建。因此,本发明实施例提出了一种多模态数据融合的医疗知识图谱智能自动构建系统来解决上述问题。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供了一种多模态数据融合的医疗知识图谱智能自动构建系统,包括:数据获取及定义模块、预处理模块、数据抽取模块、知识扩充模块、融合模块、权重计算模块和实体约束及存储模块。其中:数据获取及定义模块用于获取语料数据,并定义所述语料数据中实体属性的类别和属性值词性;预处理模块用于对所述语料数据进行预处理;数据抽取模块用于对预处理后的语料数据进行知识抽取,构建<实体,属性,属性值>三元组数据,得到语料数据集;知识扩充模块用于对语料数据集采用混合式方法进行实体属性扩充;融合模块用于对扩充后的语料数据集中的不同类别的实体属性按不同的方式进行实体属性值融合;权重计算模块用于计算实体属性值融合后的语料数据集中的各个病症属性的权重;实体约束及存储模块用于对<实体,属性,属性值>三元组数据中的实体设置约束条件,将<实体,属性,属性值>三元组数据、约束条件和各个病症属性的权重存储到Neo4j图数据库中。
本发明实施例实现大规模<实体,属性,属性值>型知识图谱的智能化自动构建,同时考虑到病症与疾病多对多,计算各个病症属性的权重,以便能准确的描述医疗数据,获得更准确的临床诊断结果。下面对各个模块进行详细描述。
在一实施例中,数据获取及定义模块获取语料数据集,并定义语料数据中实体属性的类别;具体实施过程如下:
通过网络爬虫技术获取语料数据,依据多种数据源采集医疗领域资料,构建语料数据,并定义医疗领域实体基本属性及其属性值词性(指的是名词、数词等词性)。根据医疗领域实体的基本属性的特点,将其划分为多值属性、固定型单值属性或非固定型单值属性类别。实体的多值属性是指实体的属性存在多个属性值。实体的固定型单值属性是指实体的属性只存在一个属性值且表示方式唯一。实体的非固定型单值属性是指实体的属性只存在一个属性值,但表示方式不唯一。
在一实施例中,预处理模块对语料数据进行预处理。具体实施过程如下:
对语料数据进行数据清洗、预标注和分词。需要说明是的,在本发明实施例中语料数据为医疗语料数据。
在一实施例中,数据抽取模块对预处理后的语料数据进行知识抽取,构建<实体,属性,属性值>三元组数据,得到语料数据集。具体实施过程如下:
当所述医疗语料数据的类型为结构化数据(结构化数据是指作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理)时,从中抽取属性名称和属性值,依据属性名称和属性值构建<实体,属性,属性值>三元组数据,将其作为语料数据集;
当所述医疗语料数据为非结构化数据(非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据)或半结构化数据时,对其进行知识抽取,包括命名实体识别、实体属性抽取。其中属性抽取是指对属性和属性值对的抽取。采用BiLSTM-CRF深度学习模型进行医疗实体抽取;采用基于规则的方法抽取半结构化数据中的属性、采用构建包装器的方法自动从相应网站中抽取属性。
例如,构建面向站点的包装器,从待抽取站点采样并标注几个典型的详细页面,利用这些页面通过模式学习自动构建出一个或多个类XPath表示的模式,然后将其应用在该站点的其他详细页面中,从而实现自动化的属性和属性值对的抽取。
当医疗语料数据为半结构化数据时,依据医疗语料数据构建知识抽取模板;利用知识抽取模板从医疗语料数据中抽取属性名称和属性值,构建三元组数据;
当医疗语料数据为非结构化数据时,将医疗语料数据转化为句子集合;依据预设词表对所述句子集合中的每一句子进行命名实体识别;依据命名实体识别后的句子集合构建知识抽取模板;利用知识抽取模板从所述医疗语料数据中抽取属性名称和属性值,构建三元组数据,并将抽取的属性名称和属性值添加至预设词表。
最终,全部转化为<实体,属性,属性值>三元组数据,作为语料数据集。
在一实施例中,知识扩充模块对语料数据集采用混合式方法进行实体属性扩充。具体实施过程如下:
基于模式匹配的实体属性扩充、基于属性词汇场的实体属性扩充、基于监督学习的实体属性扩充,以及基于搜索引擎问答的属性知识扩充方法。
第一,采用基于模式匹配的方法对语料数据集进行实体属性知识扩充。
首先,人工构建医疗领域实体基本属性的属性知识扩充的原始模式。然后,利用《同义词词林》根据原始模式来学习属性知识扩充的扩展模式。最后,根据原始模式和扩展模式采用基于模式匹配的方法进行实体属性知识扩充,即获取三元组<实体,属性,属性值>数据。
第二,采用基于属性词汇场的方法对语料数据集进行实体属性知识扩充。
属性词汇场由不同类型的属性线索词语及其权重构成。属性线索词语的类型包括属性词语、属性值词语、属性触发词语。首先,构建每个医疗领域实体基本属性a的词汇场。然后,对于语料中的每个句子,计算句子中包含属性a的词汇场中词语的总数m和平均权重w。若m和w大于给定阈值,则将该句子构建为扩充属性a的属性知识的候选句子。最后,根据属性a的属性值的词性从候选句子中提取医疗领域实体的属性a的属性值。
第三,采用基于搜索引擎问答的方法对语料数据集进行实体属性知识扩充。
将形如“e a”作为百度搜索引擎的查询需求,其中e为医疗领域实体,a为属性名称。根据百度搜索引擎检索结果,抽取医疗领域实体e的属性a的属性值。
第四,采用基于监督学习的方法对语料数据集进行实体属性知识扩充。
首先,根据属性值词性从语料的句子中提取医疗领域实体的候选属性值。其次,对于提取出候选属性值的句子提取其分类特征。分类特征包括属性a的候选属性值v前后五个词语的词频、v前后各五个词语的词性、v的长度、v在属性a的词汇场中的权重、v前一词是否为标点符号、v前三个词是否包含否定词、v在句子中的起始位置、v在句子中的结束位置、v所在句子中是否包含属性触发词、v所在句子中属性触发词与v的距离。最后,基于训练好的决策树、朴素贝叶斯、随机森林,以及AdaBoost分类器采用多分类器投票法来判别候选属性值是否为医疗领域实体的属性值。对于候选属性值v,分别采用训练好的决策树、朴素贝叶斯、随机森林,以及AdaBoost四种分类器来判别候选属性值。分类标签包括True和False两类,True表示该候选属性值判别为医疗领域实体的属性值,False表示该候选属性值不能判别为医疗领域实体的属性值。进一步,对于通过这四种分类器判别的候选属性值v的分类结果,选择数量较多的分类标签作为分类结果。若数量较多的分类标签为True,则构建三元组<实体,属性,属性值>数据。
其中,决策树、朴素贝叶斯、随机森林,以及AdaBoost分类器的训练过程如下:
首先,选取数据语料集中部分网页构建为训练集。对于训练集中的每个句子,若句子中标记为候选属性值的字符串为医疗领域实体的属性a的属性值,则将该句子赋予类别标签“True”,标记为提取属性a的属性值的正例句子;否则,将该句子赋予类别标签“False”,标记为提取属性a的属性值的反例句子。其次,提取训练集中句子的属性值的分类特征。分类特征与从包含候选属性值的句子中提取的分类特征相同。
最后,根据训练集分别训练决策树、朴素贝叶斯、随机森林,以及AdaBoost四种分类器。
在一实施例中,融合模块对扩充后的语料数据集中的不同类别的实体属性按不同的方式进行实体属性值融合。具体实施过程如下:
a、当实体的属性为多值属性时:
计算每个候选属性值的出现的次数,将候选属性值去重、排序后,通过直接合并的方式获取多值属性的属性值。多值属性的候选属性值排序规则是按照抽取来源的权重和出现次数加权计算可信度进行排序,可信度的计算如下式。
A=p1×S+p2×E
其中:
A表示候选属性值的可信度。
S表示来源的权重,对不同数据源分别定义权重。权重越大,表示候选属性值抽取的来源越可靠,候选属性值越准确。
E表示该属性值被抽取过的次数。抽取次数越多,表示该候选属性值越准确。
公式中涉及的p1、p2为预先设置的自定义参数,可以表示S、E各项在可信度中所占的权重。
若两个不同属性值属于同一抽取来源,则根据属性值的字典顺序进行排列。
b、所述属性为固定型单值属性时:
使用基于可信度计算的方式来衡量属性值的准确性,并将可信度最高的候选属性值取出作为该属性的属性值。
(1)对结构化或半结构化数据源的可信度公式如下:
A=p1×S+p2×E+p3×L+p4×W
其中:
A表示可信度。
S表示来源的权重。权重越大,表示候选属性值抽取的来源越可靠,候选属性值越可能是准确的属性值。
E表示该属性值被抽取过的次数。抽取次数越多,表示该候选属性值越可能是准确的属性值。
L表示候选属性值的长度,候选属性值的长度越长,表示其描述越详细,包含的内容越多,越可能是准确的属性值。
W表示该候选属性值在词汇场中的权重,若该候选属性值存在于词汇场中且权重越大,则表示其越可能是准确的属性值。
公式中涉及的p1至p4为预先设置的自定义参数,可以表示S、E、L、W各项在可信度中所占的权重。
(2)对从非结构化电子病历等非结构化数据源中通过机器学习所得的知识的属性值可信度公式如下:
A=q1×R+q2×L
其中:
A表示可信度。
R表示该候选属性值数目占总数目的比值,比值越大,表示候选属性值出现的比例越大,候选属性值越可能是准确的属性值。
L表示候选属性值的长度,候选属性值的长度越长,表示其描述越详细,包含的内容越多,越可能是准确的属性值。
公式中涉及的q1、q2为预先设置的自定义参数,可以表示R、L各项在可信度中所占的权重。
c、属性为非固定型单值属性时:
采用基于主动排序学习的非固定型单值属性的属性值融合,具体包括:
Step 1:构建训练集。训练集包括少量已标注训练样本和大量未标注样本。标注训练样本为“排序分值,查询编号,<实体,属性,属性值,来源>”。根据属性值与属性的相关程度,排序分值取值集合为(0,1,2,3),分值越大,表示属性值和属性相关度越大。每个查询编号表示查询医疗领域实体的一个属性。来源表示三元组<实体,属性,属性值>的获取方法。
Step 2:调用主动排序学习算法对训练集进行训练,构建排序学习模型H(x);
其中,排序学习算法包括:
输入:已标注训练样本集L,未标注训练样本集U,每次迭代过程中交由人工标注的样本个数T,结束条件(算法达到设定精度或完成选代次数)。
输出:H(x)=minr∈{1,2,...,k}{r:w·x-br<0}(其中:w为排序学习模型对输入样本x每一维特征赋予的权重向量;br为一组阈值(b1≤b2≤...≤bk,通常设置bk=∞),这k个阈值把空间划分成了k个连续的子空间,每个子空间对应一个序标号,即满足所有的样本x都有相同的排序结果)。
具体过程如下:
(1)初始化w1=0,b1=b2=...=bk,bk=∞。
(2)使用L建立排序模型H(x)。
(3)使用H(x)对U进行排序。
(4)使用Q(xi)(查询函数)从U中选择T个“最值得标注”的样本交由人工标注,并将这些样本从U移入L。
(5)更新排序模型。
(6)重复步骤(3)~步骤(5),直到满足结束条件,输出H(x)=minr∈{1,2,...,k}{r:w·x-br<0}。
Step 3:根据模型H(x),对需要打分的每个属性查询的所有候选四元组<实体,属性,属性值,来源>进行打分,获得排序分值列表;
Step 4:取排序分值最高的候选四元组作为属性值融合的结果进行输出。
在一实施例中,权重计算模块计算实体属性值融合后的语料数据集中的各个病症属性的权重。具体实施过程如下:
采用一种基于贝叶斯建模的方法计算病症属性(病症属性是疾病实体的一类属性,病症指的是疾病的症状)的权重。
即:I=log(P(xi=1|yj=1))-log(P(xi=1|yj=0))
其中,I表示单个病症对于疾病的影响因子;xi表示ID为i的病症属性,yj表示ID为j的疾病实体,P(xi=1|yj=1)表示某个病人患有疾病ID为j的疾病的情况下有症状ID为i的症状的概率,相应的,P(xi=1|yj=0)表示未患有疾病ID为j的情况下具有症状ID为i的症状的概率。从上式中可以看出,如果某一个症状多次出现在某一种疾病中,通过上述表达式算出的该症状对此疾病的影响因子值就越大,这就意味着,在知识图谱中连接对应疾病实体与病症属性的边的权重值越大。
在一实施例中,实体约束及存储模块对<实体,属性,属性值>三元组数据中的实体设置约束条件,将<实体,属性,属性值>三元组数据、约束条件和各个病症属性的权重存储到Neo4j图数据库中。具体实施过程如下:
由于某一特定症状可由多种疾病引起,因此,在将病症属性导入到Neo4j数据库中时,必须对每一个病症属性设置唯一约束。同时,由于将数据导入到数据库中都采用的是三元组的形式,因此也必须对疾病实体设置唯一约束,需要说明的是,在本发明实施例中采用Neo4j数据库提供的Cypher语言对数据库操作设置约束。
例如:为疾病实体设置唯一约束。
采用Neo4j数据库提供的Cypher语言设置唯一约束,即CREATE CONSTRAINT ON(d:Disease)ASSERT d.id IS UNIQUE。
最终,使用Neo4j提供的Jdbc快速将医疗实体导入到Neo4j中,完成知识图谱的构建。
通过本发明实施例的系统能实现大规模<实体,属性,属性值>型知识图谱的智能化自动构建。并考虑面向多个数据源构建时的三类属性值的融合问题,提出并实现了一种基于主动排序学习的非固定型单值属性的融合方法,以解决医疗数据量过大、样本标注获取代价大的问题。同时考虑到病症与疾病多对多,计算各个病症属性的权重,以获得更准确的临床诊断结果。
本发明实施例还提供一种多模态数据融合的医疗知识图谱智能自动构建方法,该方法由计算机执行,如图1所示,包括步骤S1~S7:
S1、获取语料数据集,并定义所述语料数据中实体属性的类别;
S2、对所述语料数据进行预处理;
S3、对预处理后的语料数据进行知识抽取,构建<实体,属性,属性值>三元组数据,得到语料数据集;
S4、对语料数据集采用混合式方法进行实体属性扩充;
S5、对扩充后的语料数据集中的不同类别的实体属性按不同的方式进行实体属性值融合;
S6、计算实体属性值融合后的语料数据集中的各个病症属性的权重;
S7、对<实体,属性,属性值>三元组数据中的实体设置约束条件,将<实体,属性,属性值>三元组数据、约束条件和各个病症属性的权重存储到Neo4j图数据库中。
可理解的是,本发明实施例提供的上述多模态数据融合的医疗知识图谱智能自动构建方法与上述多模态数据融合的医疗知识图谱智能自动构建系统相对应,其有关内容的解释、举例、验证等部分可以参考多模态数据融合的医疗知识图谱智能自动构建系统中的相应内容,此处不再赘述。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明实施例实现大规模<实体,属性,属性值>型知识图谱的智能化自动构建,同时考虑到病症与疾病多对多,计算各个病症属性的权重,以便能准确的描述医疗数据,获得更准确的临床诊断结果。
2、本发明实施例提出并实现了一种基于主动排序学习的非固定型单值属性的融合方法,将传统的属性值融合问题转化为机器学习排序问题,并且能够自动获取高质量的训练样本,筛选出最有效的属性值,并且解决了医疗领域数据量大、样本获取代价大的问题。
3、本发明实施例通过将实体属性知识的扩充和属性值的融合,一方面提高了领域知识获取的准确率,另一方面极大增加了获取的领域实体知识的规模。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种多模态数据融合的医疗知识图谱智能自动构建系统,其特征在于,包括:
数据获取及定义模块,用于获取语料数据,并定义所述语料数据中实体属性的类别;
预处理模块,用于对所述语料数据进行预处理;
数据抽取模块,用于对预处理后的语料数据进行知识抽取,构建<实体,属性,属性值>三元组数据,得到语料数据集;
知识扩充模块,用于对语料数据集采用混合式方法进行实体属性扩充;
融合模块,用于对扩充后的语料数据集中的不同类别的实体属性按不同的方式进行实体属性值融合;
权重计算模块,用于计算实体属性值融合后的语料数据集中的各个病症属性的权重;
实体约束及存储模块,用于对<实体,属性,属性值>三元组数据中的实体设置约束条件,将<实体,属性,属性值>三元组数据、约束条件和各个病症属性的权重存储到Neo4j图数据库中。
2.如权利要求1所述的多模态数据融合的医疗知识图谱智能自动构建系统,其特征在于,所述实体属性的类别包括:多值属性、固定型单值属性和非固定型单值属性。
3.如权利要求1所述的多模态数据融合的医疗知识图谱智能自动构建系统,其特征在于,所述对预处理后的语料数据进行知识抽取,构建<实体,属性,属性值>三元组数据,得到语料数据集,包括:
若所述语料数据的类型为结构化数据,则从中抽取属性名称和属性值,依据属性名称和属性值构建<实体,属性,属性值>三元组数据,将其作为语料数据集;
若所述语料数据为非结构化数据或半结构化数据,则对其进行知识抽取,所述知识抽取包括命名实体识别、实体属性抽取;其中属性抽取是指对属性和属性值对的抽取;采用BiLSTM-CRF深度学习模型进行医疗实体抽取;采用基于规则的方法抽取半结构化数据中的属性、采用构建包装器的方法自动从相应网站中抽取属性,将抽取的内容转化为<实体,属性,属性值>三元组数据,作为语料数据集。
4.如权利要求1所述的多模态数据融合的医疗知识图谱智能自动构建系统,其特征在于,所述对预处理后的语料数据进行知识抽取,构建<实体,属性,属性值>三元组数据,得到语料数据集,还包括:
若所述语料数据为半结构化数据时,基于所述语料数据构建知识抽取模板;利用所述知识抽取模板从语料数据中抽取属性名称和属性值,构建<实体,属性,属性值>三元组数据,作为语料数据集;
若所述语料数据为非结构化数据时,将所述语料数据转化为句子集合;依据预设词表对所述句子集合中的每一句子进行命名实体识别;依据命名实体识别后的句子集合构建知识抽取模板;利用知识抽取模板从所述语料数据中抽取属性名称和属性值,构建<实体,属性,属性值>三元组数据,作为语料数据集,并将抽取的属性名称和属性值添加至预设词表。
5.如权利要求1所述的多模态数据融合的医疗知识图谱智能自动构建系统,其特征在于,所述对语料数据集采用混合式方法进行实体属性扩充,包括:
基于模式匹配的方法对语料数据集进行实体属性知识扩充、基于属性词汇场的方法对语料数据集进行实体属性知识扩充、基于监督学习的方法对语料数据集进行实体属性知识扩充和基于搜索引擎问答的方法对语料数据集进行实体属性知识扩充。
6.如权利要求1~5任一所述的多模态数据融合的医疗知识图谱智能自动构建系统,其特征在于,所述融合模块对扩充后的语料数据集中的不同类别的实体属性按不同的方式进行实体属性值融合,包括:
当实体属性为多值属性时:
计算每个候选属性值的出现的次数,将候选属性值去重、排序后,通过直接合并的方式获取多值属性的属性值;多值属性的候选属性值排序规则是按照抽取来源的权重和出现次数加权计算可信度进行排序,可信度的计算如下式:
A=p1×S+p2×E
其中:
A表示候选属性值的可信度;
S表示来源的权重;
E表示该属性值被抽取过的次数;
p1、p2为预先设置的自定义参数,可以表示S、E各项在可信度中所占的权重;
若两个不同属性值属于同一抽取来源,则根据属性值的字典顺序进行排列;
当实体属性为固定型单值属性时:
使用基于可信度计算的方式来衡量属性值的准确性,并将可信度最高的候选属性值取出作为该属性的属性值;
对结构化或半结构化数据源的可信度公式如下:
A=p1×S+p2×E+p3×L+p4×W
其中:
A表示可信度;
S表示来源的权重;
E表示该属性值被抽取过的次数;
L表示候选属性值的长度;
W表示该候选属性值在词汇场中的权重;
p1至p4为预先设置的自定义参数,表示S、E、L、W各项在可信度中所占的权重;
对从非结构化数据源中通过机器学习所得的知识的属性值可信度公式如下:
A=q1×R+q2×L
其中:
A表示可信度;
R表示该候选属性值数目占总数目的比值;
L表示候选属性值的长度;
q1、q2为预先设置的自定义参数,表示R、L各项在可信度中所占的权重;
实体属性为非固定型单值属性时:
采用基于主动排序学习的非固定型单值属性的属性值融合,具体包括:
Step 1:构建训练集;
Step 2:调用主动排序学习算法对训练集进行训练,构建排序学习模型H(x);
其中,主动排序学习算法包括:
输入:已标注训练样本集L,未标注训练样本集U,每次迭代过程中交由人工标注的样本个数T,结束条件;
输出:H(x)=minr∈{1,2,...,k}{r:w·x-br<0};其中:w为排序学习模型对输入样本x每一维特征赋予的权重向量,br为一组阈值;
Step 3:根据排序学习模型H(x),对需要打分的每个属性查询的所有候选四元组<实体,属性,属性值,来源>进行打分,获得排序分值列表;
Step 4:取排序分值最高的候选四元组作为属性值融合的结果进行输出。
7.如权利要求1~5任一所述的多模态数据融合的医疗知识图谱智能自动构建系统,其特征在于,所述计算实体属性值融合后的语料数据集中的各个病症属性的权重,包括:
采用一种基于贝叶斯建模的方法计算病症属性的权重,具体为:
I=log(P(xi=1|yj=1))-log(P(xi=1|yj=0))
其中:I表示单个病症对于疾病的影响因子;
xi表示ID为i的病症属性;
yj表示ID为j的疾病实体;
P(xi=1|yj=1)表示某个病人患有疾病ID为j的疾病的情况下有症状ID为i的症状的概率;
P(xi=1|yj=0)表示未患有疾病ID为j的情况下具有症状ID为i的症状的概率。
8.一种多模态数据融合的医疗知识图谱智能自动构建方法,其特征在于,所述方法包括:
S1、获取语料数据集,并定义所述语料数据中实体属性的类别;
S2、对所述语料数据进行预处理;
S3、对预处理后的语料数据进行知识抽取,构建<实体,属性,属性值>三元组数据,得到语料数据集;
S4、对语料数据集采用混合式方法进行实体属性扩充;
S5、对扩充后的语料数据集中的不同类别的实体属性按不同的方式进行实体属性值融合;
S6、计算实体属性值融合后的语料数据集中的各个病症属性的权重;
S7、对<实体,属性,属性值>三元组数据中的实体设置约束条件,将<实体,属性,属性值>三元组数据、约束条件和各个病症属性的权重存储到Neo4j图数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010756119.7A CN111950285B (zh) | 2020-07-31 | 2020-07-31 | 多模态数据融合的医疗知识图谱智能自动构建系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010756119.7A CN111950285B (zh) | 2020-07-31 | 2020-07-31 | 多模态数据融合的医疗知识图谱智能自动构建系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111950285A true CN111950285A (zh) | 2020-11-17 |
CN111950285B CN111950285B (zh) | 2024-01-23 |
Family
ID=73338943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010756119.7A Active CN111950285B (zh) | 2020-07-31 | 2020-07-31 | 多模态数据融合的医疗知识图谱智能自动构建系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111950285B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528044A (zh) * | 2020-12-22 | 2021-03-19 | 北京明略软件系统有限公司 | 用于知识抽取的方法、装置和存储介质 |
CN112542243A (zh) * | 2020-12-05 | 2021-03-23 | 大连东软教育科技集团有限公司 | 一种icu电子病历知识图谱构建方法、系统和存储介质 |
CN112667755A (zh) * | 2021-01-05 | 2021-04-16 | 浪潮软件科技有限公司 | 基于Kudu的数据分析装置和方法 |
CN112732940A (zh) * | 2021-01-15 | 2021-04-30 | 医渡云(北京)技术有限公司 | 基于模型的医学知识图谱的推理方法、装置、设备及介质 |
CN112732941A (zh) * | 2021-01-15 | 2021-04-30 | 医渡云(北京)技术有限公司 | 基于模型的医学知识图谱的构建方法、装置、设备及介质 |
CN112749287A (zh) * | 2021-01-26 | 2021-05-04 | 北京搜狗科技发展有限公司 | 知识图谱的构建方法和使用方法、装置和介质 |
CN112784591A (zh) * | 2021-02-01 | 2021-05-11 | 北京百度网讯科技有限公司 | 数据的处理方法、装置、电子设备和存储介质 |
CN113010783A (zh) * | 2021-03-17 | 2021-06-22 | 华南理工大学 | 基于多模态心血管疾病信息的医疗推荐方法、系统及介质 |
CN113223729A (zh) * | 2021-05-26 | 2021-08-06 | 广州天鹏计算机科技有限公司 | 一种医疗数据的数据处理方法 |
CN113643825A (zh) * | 2021-06-25 | 2021-11-12 | 合肥工业大学 | 基于临床关键特征信息的医疗案例知识库构建方法和系统 |
CN114297411A (zh) * | 2022-03-08 | 2022-04-08 | 支付宝(杭州)信息技术有限公司 | 知识图谱中实体的配置方法、分析方法及装置 |
CN115268995A (zh) * | 2022-08-10 | 2022-11-01 | 大连海事大学 | 一种基于知识图谱的Web API推荐方法及系统 |
CN115630697A (zh) * | 2022-10-26 | 2023-01-20 | 泸州职业技术学院 | 一种可区分单双相情感障碍症的知识图谱构建方法及系统 |
CN115983385A (zh) * | 2023-03-21 | 2023-04-18 | 航天宏图信息技术股份有限公司 | 新型空间环境实体构建方法及装置 |
CN116010583A (zh) * | 2023-03-17 | 2023-04-25 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种级联耦合的知识增强对话生成方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180108443A1 (en) * | 2016-04-29 | 2018-04-19 | Boe Technology Group Co., Ltd. | Apparatus and method for analyzing natural language medical text and generating a medical knowledge graph representing the natural language medical text |
WO2018072563A1 (zh) * | 2016-10-18 | 2018-04-26 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN108388580A (zh) * | 2018-01-24 | 2018-08-10 | 平安医疗健康管理股份有限公司 | 融合医学知识及应用病例的动态知识图谱更新方法 |
US20180322954A1 (en) * | 2017-05-08 | 2018-11-08 | Hefei University Of Technology | Method and device for constructing medical knowledge graph and assistant diagnosis method |
CN109271530A (zh) * | 2018-10-17 | 2019-01-25 | 长沙瀚云信息科技有限公司 | 一种疾病知识图谱构建方法和平台系统、设备、存储介质 |
CN109543047A (zh) * | 2018-11-21 | 2019-03-29 | 焦点科技股份有限公司 | 一种基于医疗领域网站的知识图谱构建方法 |
CN109766445A (zh) * | 2018-12-13 | 2019-05-17 | 平安科技(深圳)有限公司 | 一种知识图谱构建方法及数据处理装置 |
CN110957046A (zh) * | 2019-11-15 | 2020-04-03 | 合肥工业大学 | 医疗健康案例知识匹配方法和系统 |
CN111091907A (zh) * | 2019-11-15 | 2020-05-01 | 合肥工业大学 | 基于相似病例库的健康医疗知识检索方法和系统 |
US20200218988A1 (en) * | 2019-01-08 | 2020-07-09 | International Business Machines Corporation | Generating free text representing semantic relationships between linked entities in a knowledge graph |
-
2020
- 2020-07-31 CN CN202010756119.7A patent/CN111950285B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180108443A1 (en) * | 2016-04-29 | 2018-04-19 | Boe Technology Group Co., Ltd. | Apparatus and method for analyzing natural language medical text and generating a medical knowledge graph representing the natural language medical text |
WO2018072563A1 (zh) * | 2016-10-18 | 2018-04-26 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
US20180322954A1 (en) * | 2017-05-08 | 2018-11-08 | Hefei University Of Technology | Method and device for constructing medical knowledge graph and assistant diagnosis method |
CN108388580A (zh) * | 2018-01-24 | 2018-08-10 | 平安医疗健康管理股份有限公司 | 融合医学知识及应用病例的动态知识图谱更新方法 |
CN109271530A (zh) * | 2018-10-17 | 2019-01-25 | 长沙瀚云信息科技有限公司 | 一种疾病知识图谱构建方法和平台系统、设备、存储介质 |
CN109543047A (zh) * | 2018-11-21 | 2019-03-29 | 焦点科技股份有限公司 | 一种基于医疗领域网站的知识图谱构建方法 |
CN109766445A (zh) * | 2018-12-13 | 2019-05-17 | 平安科技(深圳)有限公司 | 一种知识图谱构建方法及数据处理装置 |
US20200218988A1 (en) * | 2019-01-08 | 2020-07-09 | International Business Machines Corporation | Generating free text representing semantic relationships between linked entities in a knowledge graph |
CN110957046A (zh) * | 2019-11-15 | 2020-04-03 | 合肥工业大学 | 医疗健康案例知识匹配方法和系统 |
CN111091907A (zh) * | 2019-11-15 | 2020-05-01 | 合肥工业大学 | 基于相似病例库的健康医疗知识检索方法和系统 |
Non-Patent Citations (2)
Title |
---|
GU, DX等: "Tracking Knowledge Evolution in Cloud Health Care Research: Knowledge Map and Common Word Analysis", 《JOURNAL OF MEDICAL INTERNET RESEARCH》, vol. 22, no. 2, pages 1 - 18 * |
孙郑煜等: "基于大数据技术的医学知识图谱构建方法", 《软件》, vol. 41, no. 1, pages 13 - 17 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112542243A (zh) * | 2020-12-05 | 2021-03-23 | 大连东软教育科技集团有限公司 | 一种icu电子病历知识图谱构建方法、系统和存储介质 |
CN112528044A (zh) * | 2020-12-22 | 2021-03-19 | 北京明略软件系统有限公司 | 用于知识抽取的方法、装置和存储介质 |
CN112667755A (zh) * | 2021-01-05 | 2021-04-16 | 浪潮软件科技有限公司 | 基于Kudu的数据分析装置和方法 |
CN112732940A (zh) * | 2021-01-15 | 2021-04-30 | 医渡云(北京)技术有限公司 | 基于模型的医学知识图谱的推理方法、装置、设备及介质 |
CN112732941A (zh) * | 2021-01-15 | 2021-04-30 | 医渡云(北京)技术有限公司 | 基于模型的医学知识图谱的构建方法、装置、设备及介质 |
CN112749287A (zh) * | 2021-01-26 | 2021-05-04 | 北京搜狗科技发展有限公司 | 知识图谱的构建方法和使用方法、装置和介质 |
CN112784591A (zh) * | 2021-02-01 | 2021-05-11 | 北京百度网讯科技有限公司 | 数据的处理方法、装置、电子设备和存储介质 |
CN113010783A (zh) * | 2021-03-17 | 2021-06-22 | 华南理工大学 | 基于多模态心血管疾病信息的医疗推荐方法、系统及介质 |
CN113223729A (zh) * | 2021-05-26 | 2021-08-06 | 广州天鹏计算机科技有限公司 | 一种医疗数据的数据处理方法 |
CN113223729B (zh) * | 2021-05-26 | 2021-11-02 | 广州天鹏计算机科技有限公司 | 一种医疗数据的数据处理方法 |
CN113643825A (zh) * | 2021-06-25 | 2021-11-12 | 合肥工业大学 | 基于临床关键特征信息的医疗案例知识库构建方法和系统 |
CN114297411A (zh) * | 2022-03-08 | 2022-04-08 | 支付宝(杭州)信息技术有限公司 | 知识图谱中实体的配置方法、分析方法及装置 |
CN115268995A (zh) * | 2022-08-10 | 2022-11-01 | 大连海事大学 | 一种基于知识图谱的Web API推荐方法及系统 |
CN115268995B (zh) * | 2022-08-10 | 2023-04-07 | 大连海事大学 | 一种基于知识图谱的Web API推荐方法及系统 |
CN115630697A (zh) * | 2022-10-26 | 2023-01-20 | 泸州职业技术学院 | 一种可区分单双相情感障碍症的知识图谱构建方法及系统 |
CN115630697B (zh) * | 2022-10-26 | 2023-04-07 | 泸州职业技术学院 | 一种可区分单双相情感障碍症的知识图谱构建方法及系统 |
CN116010583A (zh) * | 2023-03-17 | 2023-04-25 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种级联耦合的知识增强对话生成方法 |
CN116010583B (zh) * | 2023-03-17 | 2023-07-18 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种级联耦合的知识增强对话生成方法 |
CN115983385A (zh) * | 2023-03-21 | 2023-04-18 | 航天宏图信息技术股份有限公司 | 新型空间环境实体构建方法及装置 |
CN115983385B (zh) * | 2023-03-21 | 2023-08-11 | 航天宏图信息技术股份有限公司 | 空间环境实体构建方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111950285B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950285B (zh) | 多模态数据融合的医疗知识图谱智能自动构建系统和方法 | |
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
WO2021093755A1 (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
KR101999152B1 (ko) | 컨벌루션 신경망 기반 영문 텍스트 정형화 방법 | |
CN112002411A (zh) | 一种基于电子病历的心脑血管病知识图谱问答方法 | |
US20220237230A1 (en) | System and method for automated file reporting | |
RU2686000C1 (ru) | Извлечение информационных объектов с использованием комбинации классификаторов, анализирующих локальные и нелокальные признаки | |
CN110990590A (zh) | 一种基于强化学习和迁移学习的动态金融知识图谱构建方法 | |
CN111475623A (zh) | 基于知识图谱的案件信息语义检索方法及装置 | |
WO2021051518A1 (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
CN115809345A (zh) | 一种基于知识图谱的多源数据差异溯源检索方法 | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN115796181A (zh) | 一种针对化工领域的文本关系抽取方法 | |
CN113569023A (zh) | 一种基于知识图谱的中文医药问答系统及方法 | |
CN113764112A (zh) | 一种在线医疗问答方法 | |
CN114661914A (zh) | 一种基于深度学习和知识图谱的合同审查方法、装置、设备和存储介质 | |
Thushara et al. | A model for auto-tagging of research papers based on keyphrase extraction methods | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索系统 | |
CN113868406B (zh) | 搜索方法、系统、计算机可读存储介质 | |
CN114048305A (zh) | 一种基于图卷积神经网络的行政处罚文书的类案推荐方法 | |
CN116127090A (zh) | 基于融合和半监督信息抽取的航空系统知识图谱构建方法 | |
CN114491079A (zh) | 知识图谱构建和查询方法、装置、设备和介质 | |
Brek et al. | Enhancing information extraction process in job recommendation using semantic technology | |
CN112417170B (zh) | 面向不完备知识图谱的关系链接方法 | |
Trisal et al. | K-RCC: A novel approach to reduce the computational complexity of KNN algorithm for detecting human behavior on social networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |