CN114842982A - 一种面向医疗信息系统的知识表达方法、装置及系统 - Google Patents

一种面向医疗信息系统的知识表达方法、装置及系统 Download PDF

Info

Publication number
CN114842982A
CN114842982A CN202210785380.9A CN202210785380A CN114842982A CN 114842982 A CN114842982 A CN 114842982A CN 202210785380 A CN202210785380 A CN 202210785380A CN 114842982 A CN114842982 A CN 114842982A
Authority
CN
China
Prior art keywords
knowledge
entity
data
medical
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210785380.9A
Other languages
English (en)
Other versions
CN114842982B (zh
Inventor
李海威
马志平
罗宇恒
周凌云
冯轶华
黎丽娜
罗亮
卢琰
李军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Science & Technology Infrastructure Center
Original Assignee
Guangdong Science & Technology Infrastructure Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Science & Technology Infrastructure Center filed Critical Guangdong Science & Technology Infrastructure Center
Priority to CN202210785380.9A priority Critical patent/CN114842982B/zh
Publication of CN114842982A publication Critical patent/CN114842982A/zh
Application granted granted Critical
Publication of CN114842982B publication Critical patent/CN114842982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种面向医疗信息系统的知识表达方法、装置及系统,所述方法包括:获取与医疗数据相关的多路数据源;对多路数据源进行数据核心描述,得到多路数据源的每一组标准数据元;对多路数据源进行关键词识别处理,从多路数据源中提取若干关键词;基于标准数据元,获取每一关键词对应的每一领域因子;利用每一关键词及每一领域因子进行知识抽取,得到实体知识和关系知识;根据实体知识之间的关系,对实体知识和关系知识进行知识合并,生成医疗数据的知识图谱;对知识图谱进行知识推理,得到知识推理结果。采用本发明实施例规范了医疗信息系统的数据标准,能够保障医疗信息系统标准的统一和系统的关联。

Description

一种面向医疗信息系统的知识表达方法、装置及系统
技术领域
本发明涉及医疗数据处理技术领域,尤其涉及一种面向医疗信息系统的知识表达方法、装置及系统。
背景技术
随着医疗信息化的迅猛发展,医疗机构以及各类互联网平台产生大量的医疗数据,这些医疗数据蕴含着丰富的医疗知识,经过数据清洗和分析的医疗数据不仅可以为医生的临床诊断提供辅助决策,还可以为公众提供高质量的医疗信息服务,提升公众的医疗信息素养。因此,如何深入挖掘并利用医疗数据成为当前人们关注的热点。
然而,现阶段的医疗信息系统仍存在数据来源广泛、数据标准不够规范、数据信息量稀疏等问题,导致知识提取准确率低,这严重阻碍了医疗信息系统的发展、关联与运用,不利于医疗信息系统的规范化和与其它系统的交互效果。因此,需要通过对医疗信息系统开展数据信息的知识表达,以保障医疗信息系统标准的统一和系统的关联。
发明内容
本发明的目的是提供一种面向医疗信息系统的知识表达方法、装置及系统,通过以标准数据元为依据,规范了医疗信息系统的数据标准,进而提高了知识图谱构建的效率和精确性,最终保障了医疗信息系统标准的统一和系统的关联。
为实现上述目的,本发明实施例提供了一种面向医疗信息系统的知识表达方法,包括:
获取与医疗数据相关的多路数据源;
对所述多路数据源进行数据核心描述,得到所述多路数据源的每一组标准数据元;其中,每一组所述标准数据元至少包括核心元数据、数据来源、数据来源的类型;
对所述多路数据源进行关键词识别处理,从所述多路数据源中提取若干关键词;
基于所述标准数据元,获取每一所述关键词对应的每一领域因子;其中,所述领域因子至少包括所述关键词的数据来源、所述数据来源的类型、所述关键词的实体抽取规则;
利用每一所述关键词及每一所述领域因子进行知识抽取,得到实体知识和关系知识;
根据所述实体知识之间的关系,对所述实体知识和所述关系知识进行知识合并,生成所述医疗数据的知识图谱;
对所述知识图谱进行知识推理,得到知识推理结果。
作为上述方案的改进,所述利用每一所述关键词及每一所述领域因子进行知识抽取,得到实体知识和关系知识,包括:
基于每一所述关键词和每一所述领域因子,通过双向LSTM计算,得到每一所述关键词的每一特征向量;
对每一所述关键词的每一特征向量进行实体识别,得到实体知识;其中,所述实体知识包括每一实体及对应的每一实体关系词;
将所述每一实体输入至改进后的LSTM-CNN模型中,得到每一所述实体的每一特征向量;
将每一所述实体的每一特征向量输入至预先训练好的基础知识关系模型进行分类学习,得到关系知识;
其中,通过以下步骤获取所述改进后的LSTM-CNN模型:
利用滑动窗口读取每一所述实体的每一实体字段,将读取到的每一所述实体字段输入至预先构建好的LSTM-CNN模型中,生成每一所述实体的每一特征向量;其中,所述滑动窗口的窗口尺寸及滑动步长由所述领域因子决定。
作为上述方案的改进,所述利用滑动窗口读取每一所述实体的每一实体字段,将读取到的每一所述实体字段输入至预先构建好的LSTM-CNN模型中,生成每一所述实体的每一特征向量,包括:
根据每一所述领域因子,获取滑动窗口的窗口尺寸及滑动步长,并根据所述窗口尺寸建立滑动窗口;
根据所述滑动步长在每一所述实体进行滑动,每进行一次滑动前读取所述窗口尺寸内的每一实体字段,将读取到的每一所述实体字段输入至预先构建好的LSTM-CNN模型中,生成每一所述实体的每一特征向量。
作为上述方案的改进,通过以下步骤对预先构建的基础知识关系模型进行训练,得到训练好的基础知识关系模型:
将读取到每一实体字段输入至预先构建的基础知识关系模型中,根据预设的事件规则模板对所述实体字段不断进行事件规则的匹配,得到训练好的基础知识关系模型。
作为上述方案的改进,所述基于所述标准数据元,获取每一所述关键词对应的每一领域因子,包括:
根据所述标准数据元,构建标准数据元数据库;其中,所述标准数据元数据库包括所述多路数据源,及对应每一所述多路数据源的每一组标准数据元;
根据所述标准数据元数据库,构建规则库;其中,所述规则库包括每一组所述标准数据元,及对应每一组所述标准数据元的每一实体抽取规则;
根据所述关键词,从所述标准数据元数据库中查找到对应所述每一所述关键词的每一数据来源、对应每一所述数据来源的每一类型,并从所述规则库中查找到对应每一所述关键词的每一实体抽取规则。
作为上述方案的改进,所述根据所述实体知识之间的关系,对所述实体知识和所述关系知识进行知识合并,生成所述医疗数据的知识图谱,包括:
根据所述实体知识之间的关系,对每一所述实体知识进行权重标注;
根据标注的权重,对所述实体知识和所述关系知识进行知识合并,生成所述医疗数据的知识图谱。
作为上述方案的改进,所述多路数据源至少包括医疗数据标准文件、医疗信息系统数据库、医疗检测报告、专家经验知识数据。
作为上述方案的改进,所述知识推理结果包括以下中的至少一种:异常医疗数据发现结果、关联检测推荐结果、医疗检测报告校验结果、医疗评价与医疗决策结果。
为实现上述目的,本发明实施例还提供了一种面向医疗信息系统的知识表达装置,包括:
多路数据源获取模块,用于获取与医疗数据相关的多路数据源;
标准数据元获取模块,用于对所述多路数据源进行数据核心描述,得到所述多路数据源的每一组标准数据元;其中,每一组所述标准数据元至少包括核心元数据、数据来源、数据来源的类型;
关键词提取模块,用于对所述多路数据源进行关键词识别处理,从所述多路数据源中提取若干关键词;
领域因子获取模块,用于基于所述标准数据元,获取每一所述关键词对应的每一领域因子;其中,所述领域因子至少包括所述关键词的数据来源、所述数据来源的类型、所述关键词的实体抽取规则;
知识抽取模块,用于利用每一所述关键词及每一所述领域因子进行知识抽取,得到实体知识和关系知识;
知识图谱构建模块,用于根据所述实体知识和所述关系知识构建所述医疗数据的知识图谱;
知识推理模块,用于对所述知识图谱进行知识推理,得到知识推理结果。
为实现上述目的,本发明实施例还提供了一种医疗信息系统,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如上述的面向医疗信息系统的知识表达方法。
与现有技术相比,本发明实施例提供的一种面向医疗信息系统的知识表达方法、装置及系统,通过融合多路数据源,能够解决数据来源广泛的问题;通过以标准数据元为依据,规范了医疗信息系统的数据标准,提高了知识图谱构建的效率和精确性;通过将携带数据来源的领域因子加入知识抽取环节,提高了实体和关系提取的精准性及效率,进一步提升了知识图谱的精准性和完整性;通过引入变化的滑动窗口,也提高了实体和关系提取的精准性及效率;通过对基于医疗数据的知识图谱进行知识推理,得到异常医疗数据发现结果、关联检测推荐结果、医疗检测报告校验结果、医疗评价与医疗决策结果,能够为医生的临床诊断提供辅助决策及为公众提供高质量的医疗信息服务。
附图说明
图1是本发明实施例提供的一种面向医疗信息系统的知识表达方法的流程图;
图2是本发明实施例提供的一种知识抽取环节的流程图;
图3是本发明实施例提供的一种面向医疗信息系统的知识表达装置的结构框图;
图4是本发明实施例提供的一种医疗信息系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明实施例提供的一种面向医疗信息系统的知识表达方法的流程图,本发明实施例所提供的面向医疗信息系统的知识表达方法,包括:
S1、获取与医疗数据相关的多路数据源;
S2、对所述多路数据源进行数据核心描述,得到所述多路数据源的每一组标准数据元;其中,每一组所述标准数据元至少包括核心元数据、数据来源、数据来源的类型;
S3、对所述多路数据源进行关键词识别处理,从所述多路数据源中提取若干关键词;
S4、基于所述标准数据元,获取每一所述关键词对应的每一领域因子;其中,所述领域因子至少包括所述关键词的数据来源、所述数据来源的类型、所述关键词的实体抽取规则;
S5、利用每一所述关键词及每一所述领域因子进行知识抽取,得到实体知识和关系知识;
S6、根据所述实体知识之间的关系,对所述实体知识和所述关系知识进行知识合并,生成所述医疗数据的知识图谱;
S7、对所述知识图谱进行知识推理,得到知识推理结果。
可选地,在步骤S1中,所述多路数据源至少包括医疗数据标准文件、医疗信息系统数据库、医疗检测报告、专家经验知识数据;
可以理解的是,在本发明实施例中,结合医疗信息系统的特殊性,引入了专家经验数据源进行数据信息的知识表达。
在步骤S2中,通过对多路数据源进行数据核心描述,能够得到标准数据元,这有利于将不同类型、多渠道的医疗信息形成固定特征的表达形式;所述标准数据元的具体表现为所属信息资源、定义说明、数据元中文名称、数据元英文名称、代码集名称、备注、编号、数据元领域、数据元格式、数据来源、数据来源的类型。本发明实施例通过对多路数据元进行采集和梳理,形成多类数据元,能够提高知识图谱构建的效率和精确性,弥补目前人工抽检的低效和不准确性。
在步骤S3中,对多路数据源进行关键词识别处理,从多路数据源中提取出若干关键词。其中,所述关键词识别处理至少包括中文分词操作,去停用词操作。
在一可选实施例中,步骤S4所述基于所述标准数据元,获取每一所述关键词对应的每一领域因子,包括:
S21、根据所述标准数据元,构建标准数据元数据库;其中,所述标准数据元数据库包括所述多路数据源,及对应每一所述多路数据源的每一组标准数据元;
S22、根据所述标准数据元数据库,构建规则库;其中,所述规则库包括每一组所述标准数据元,及对应每一组所述标准数据元的每一实体抽取规则;
可以理解的是,根据医疗信息系统的构建方向,建立标准数据元与实体抽取的规则,形成规则库,为知识抽取提供了良好的基础。
S23、根据所述关键词,从所述标准数据元数据库中查找到对应所述每一所述关键词的每一数据来源、对应每一所述数据来源的每一类型,并从所述规则库中查找到对应每一所述关键词的每一实体抽取规则。
可以理解的是,领域因子的加入可以识别实体与图谱的关联程度。领域因子携带信息至少包括关键词的数据来源、该数据来源的具体分类、关键词的实体抽取规则。携带数据来源,能够提升数据信息知识表达,并根据图谱关联性,可高效识别异常值及其数据来源,为知识表达提供依据;实体抽取规则用于指导实体抽取时同领域实体的确认,提升知识抽取效率。
在一可选实施例中,如图2所示,步骤S5所述利用每一所述关键词及每一所述领域因子进行知识抽取,得到实体知识和关系知识,包括:
S51、基于每一所述关键词和每一所述领域因子,通过双向LSTM计算,得到每一所述关键词的每一特征向量;
可以理解的是,采用用双向长短期记忆网络(Long Short Term Memory,LSTM)处理输入向量,并得到相应的特征向量。
S52、对每一所述关键词的每一特征向量进行实体识别,得到实体知识;其中,所述实体知识包括每一实体及对应的每一实体关系词;
S53、将所述每一实体输入至改进后的LSTM-CNN模型中,得到每一所述实体的每一特征向量;
其中,通过以下步骤获取所述改进后的LSTM-CNN模型:
利用滑动窗口读取每一所述实体的每一实体字段,将读取到的每一所述实体字段输入至预先构建好的LSTM-CNN模型中,生成每一所述实体的每一特征向量;其中,所述滑动窗口的窗口尺寸及滑动步长由所述领域因子决定。
在一可选实施例中,所述利用滑动窗口读取每一所述实体的每一实体字段,将读取到的每一所述实体字段输入至预先构建好的LSTM-CNN模型中,生成每一所述实体的每一特征向量,包括:
根据每一所述领域因子,获取滑动窗口的窗口尺寸及滑动步长,并根据所述窗口尺寸建立滑动窗口;
根据所述滑动步长在每一所述实体进行滑动,每进行一次滑动前读取所述窗口尺寸内的每一实体字段,将读取到的每一所述实体字段输入至预先构建好的LSTM-CNN模型中,生成每一所述实体的每一特征向量。
可以理解的是,该滑动窗口的窗口尺寸及滑动步长能够根据领域因子的内容进行变换,在本发明实施例中,根据领域因子,不断变换窗口尺寸和滑动步长,在实体读取中弹性地变化读取字体字段,同时嵌入到预先构建好的LSTM-CNN模型中,提取出对应的特征向量;每次滑动窗口的窗口尺寸和滑动步长都是不同,从而能够提取出不同的特征向量。
S54、将每一所述实体的每一特征向量输入至预先训练好的基础知识关系模型进行分类学习,得到关系知识;
在一可选实施例中,通过以下步骤对预先构建的基础知识关系模型进行训练,得到训练好的基础知识关系模型:
将读取到每一实体字段输入至预先构建的基础知识关系模型中,根据预设的事件规则模板对所述实体字段不断进行事件规则的匹配,得到训练好的基础知识关系模型。
可以理解的是,从专家经验数据源中获取预先构建的基础知识关系模型,接着,对该基础知识关系模型进行训练,得到训练好的基础知识关系模型。训练基础知识关系模型的方法并非手动在规则上进行关联,而是通过滑动窗口的移动,不断匹配事件规则,来完善这一基础知识关系模型。所述预设的事件规则模板为语言学专家手工构造的,其选用的特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词,同时以模式和字符串相匹配为主要手段。
在一可选实施例中,步骤S6所述根据所述实体知识之间的关系,对所述实体知识和所述关系知识进行知识合并,生成所述医疗数据的知识图谱,包括:
S61、根据所述实体知识之间的关系,对每一所述实体知识进行权重标注;
S62、根据标注的权重,对所述实体知识和所述关系知识进行知识合并,生成所述医疗数据的知识图谱。
可理解的是,合并过程中存在知识表达不一致情况,并不单纯采用传统的保留最高值情况,而是对实体知识之间的关系进行权重标注,具体地,强关联实体赋于高权重,弱关联实体赋于低权重,能够进一步挖掘数据关联性与隐性知识。例如,图谱某几个实体知识间的关联程度是不同的,所以权重也是变化的,在不同的领域中可能实体A关系强,在另一个领域中可能实体B关系强,本发明实施例不把弱的关系砍断,反而保留,当某些用户行为可以影响到弱关系变强时,它又会凸显出来,实现动态的更新。本发明实施例引入了权重动态更新机制,能够保留隐性知识供后续图谱自我完善,保证时效性和实用性;
值得说明的是,在本发明实施例中,将生成的知识图谱存储入neo4j图数据库,以进行知识图谱的展示,通过图谱融合,不断地修正和更新知识图谱,使知识图谱更适用于指导系统规范化建设,最终实现了对医疗数据的结构化关联和可视化描述。
可选地,在步骤S7中,所述知识推理结果包括以下中的至少一种:异常医疗数据发现结果、关联检测推荐结果、医疗检测报告校验结果、医疗评价与医疗决策结果。
可以理解的是,本发明实施例通过演绎推理、归纳推理方法对所述知识图谱进行知识推理,得到知识推理结果。
本发明实施例提供的一种面向医疗信息系统的知识表达方法,通过融合多路数据源,能够解决数据来源广泛的问题;通过以标准数据元为依据,规范了医疗信息系统的数据标准,提高了知识图谱构建的效率和精确性;通过将携带数据来源的领域因子加入知识抽取环节,提高了实体和关系提取的精准性及效率,进一步提升了知识图谱的精准性和完整性;通过引入变化的滑动窗口,也提高了实体和关系提取的精准性及效率;通过对基于医疗数据的知识图谱进行知识推理,得到异常医疗数据发现结果、关联检测推荐结果、医疗检测报告校验结果、医疗评价与医疗决策结果,能够为医生的临床诊断提供辅助决策及为公众提供高质量的医疗信息服务。
参见图3,图3是本发明实施例提供的一种面向医疗信息系统的知识表达装置10的结构框图,所述面向医疗信息系统的知识表达装置10,包括:
多路数据源获取模块11,用于获取与医疗数据相关的多路数据源;
标准数据元获取模块12,用于根据所述多路数据源,获得所述多路数据源的每一组标准数据元;其中,每一组所述标准数据元至少包括核心元数据、数据来源、数据来源的类型;
关键词提取模块13,用于对所述多路数据源进行关键词识别处理,从所述多路数据源中提取若干关键词;
领域因子获取模块14,用于基于所述标准数据元,获取每一所述关键词对应的每一领域因子;其中,所述领域因子至少包括所述关键词的数据来源、所述数据来源的类型、所述关键词的实体抽取规则;
知识抽取模块15,用于利用每一所述关键词及每一所述领域因子进行知识抽取,得到实体知识和关系知识;
知识图谱构建模块16,用于根据所述实体知识和所述关系知识构建所述医疗数据的知识图谱;
知识推理模块17,用于对所述知识图谱进行知识推理,得到知识推理结果。
优选地,所述多路数据源至少包括医疗数据标准文件、医疗信息系统数据库、医疗检测报告、专家经验知识数据。
优选地,所述领域因子获取模块14包括:
标准数据元数据库构建单元,用于根据所述标准数据元,构建标准数据元数据库;其中,所述标准数据元数据库包括所述多路数据源,及对应每一所述多路数据源的每一组标准数据元;
规则库构建单元,用于根据所述标准数据元数据库,构建规则库;其中,所述规则库包括每一组所述标准数据元,及对应每一组所述标准数据元的每一实体抽取规则;
领域因子获取单元,用于根据所述关键词,从所述标准数据元数据库中查找到对应所述每一所述关键词的每一数据来源、对应每一所述数据来源的每一类型,并从所述规则库中查找到对应每一所述关键词的每一实体抽取规则。
优选地,所述知识抽取模块15包括:
关键词特征向量获取单元,用于基于每一所述关键词和每一所述领域因子,通过双向LSTM计算,得到每一所述关键词的每一特征向量;
实体知识获取单元,用于对每一所述关键词的每一特征向量进行实体识别,得到实体知识;其中,所述实体知识包括每一实体及对应的每一实体关系词;
实体特征向量获取单元,用于将所述每一实体输入至改进后的LSTM-CNN模型中,得到每一所述实体的每一特征向量;
关系知识获取单元,用于将每一所述实体的每一特征向量输入至预先训练好的基础知识关系模型进行分类学习,得到关系知识;
其中,通过以下步骤获取所述改进后的LSTM-CNN模型:
利用滑动窗口读取每一所述实体的每一实体字段,将读取到的每一所述实体字段输入至预先构建好的LSTM-CNN模型中,生成每一所述实体的每一特征向量;其中,所述滑动窗口的窗口尺寸及滑动步长由所述领域因子决定。
优选地,所述实体特征向量获取单元包括:
滑动窗口构建单元,用于根据每一所述领域因子,获取滑动窗口的窗口尺寸及滑动步长,并根据所述窗口尺寸建立滑动窗口;
第一实体特征向量获取单元,用于根据所述滑动步长在每一所述实体进行滑动,每进行一次滑动前读取所述窗口尺寸内的每一实体字段,将读取到的每一所述实体字段输入至预先构建好的LSTM-CNN模型中,生成每一所述实体的每一特征向量。
优选地,所述知识抽取模块15还包括:
关系模型训练模块,用于将读取到每一实体字段输入至预先构建的基础知识关系模型中,根据预设的事件规则模板对所述实体字段不断进行事件规则的匹配,得到训练好的基础知识关系模型。
优选地,所述知识图谱构建模块16包括:
权重标注单元,用于根据所述实体知识之间的关系,对每一所述实体知识进行权重标注;
知识图谱生成单元,用于根据标注的权重,对所述实体知识和所述关系知识进行知识合并,生成所述医疗数据的知识图谱。
优选地,所述知识推理结果包括以下中的至少一种:异常医疗数据发现结果、关联检测推荐结果、医疗检测报告校验结果、医疗评价与医疗决策结果。
值得说明的是,本发明实施例所述的面向医疗信息系统的知识表达装置10中各个模块的工作过程可参考上述实施例所述的面向医疗信息系统的知识表达方法的工作过程,在此不再赘述。
本发明实施例所提供的一种面向医疗信息系统的知识表达装置10,通过融合多路数据源,能够解决数据来源广泛的问题;通过以标准数据元为依据,规范了医疗信息系统的数据标准,提高了知识图谱构建的效率和精确性;通过将携带数据来源的领域因子加入知识抽取环节,提高了实体和关系提取的精准性及效率,进一步提升了知识图谱的精准性和完整性;通过引入变化的滑动窗口,也提高了实体和关系提取的精准性及效率;通过对基于医疗数据的知识图谱进行知识推理,得到异常医疗数据发现结果、关联检测推荐结果、医疗检测报告校验结果、医疗评价与医疗决策结果,能够为医生的临床诊断提供辅助决策及为公众提供高质量的医疗信息服务。
参见图4,图4是本发明实施例提供的一种医疗信息系统20的结构框图,所述医疗信息系统20包括:处理器21、存储器22以及存储在所述存储器22中并可在所述处理器21上运行的计算机程序。所述处理器21执行所述计算机程序时实现上述基于知识增强的用户定义函数识别方法实施例中的步骤。或者,所述处理器21执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器22中,并由所述处理器21执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述医疗信息系统20中的执行过程。
所述医疗信息系统20可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述医疗信息系统20可包括,但不仅限于,处理器21、存储器22。本领域技术人员可以理解,所述示意图仅仅是医疗信息系统20的示例,并不构成对医疗信息系统20的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述医疗信息系统20还可以包括输入输出设备、网络接入设备、总线等。
所称处理器21可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器21是所述医疗信息系统20的控制中心,利用各种接口和线路连接整个医疗信息系统20的各个部分。
所述存储器22可用于存储所述计算机程序和/或模块,所述处理器21通过运行或执行存储在所述存储器22内的计算机程序和/或模块,以及调用存储在存储器22内的数据,实现所述医疗信息系统20的各种功能。所述存储器22可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(SecureDigital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述医疗信息系统20集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器21执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种面向医疗信息系统的知识表达方法,其特征在于,包括:
获取与医疗数据相关的多路数据源;
对所述多路数据源进行数据核心描述,得到所述多路数据源的每一组标准数据元;其中,每一组所述标准数据元至少包括核心元数据、数据来源、数据来源的类型;
对所述多路数据源进行关键词识别处理,从所述多路数据源中提取若干关键词;
基于所述标准数据元,获取每一所述关键词对应的每一领域因子;其中,所述领域因子至少包括所述关键词的数据来源、所述数据来源的类型、所述关键词的实体抽取规则;
利用每一所述关键词及每一所述领域因子进行知识抽取,得到实体知识和关系知识;
根据所述实体知识之间的关系,对所述实体知识和所述关系知识进行知识合并,生成所述医疗数据的知识图谱;
对所述知识图谱进行知识推理,得到知识推理结果。
2.如权利要求1所述的面向医疗信息系统的知识表达方法,其特征在于,所述利用每一所述关键词及每一所述领域因子进行知识抽取,得到实体知识和关系知识,包括:
基于每一所述关键词和每一所述领域因子,通过双向LSTM计算,得到每一所述关键词的每一特征向量;
对每一所述关键词的每一特征向量进行实体识别,得到实体知识;其中,所述实体知识包括每一实体及对应的每一实体关系词;
将所述每一实体输入至改进后的LSTM-CNN模型中,得到每一所述实体的每一特征向量;
将每一所述实体的每一特征向量输入至预先训练好的基础知识关系模型进行分类学习,得到关系知识;
其中,通过以下步骤获取所述改进后的LSTM-CNN模型:
利用滑动窗口读取每一所述实体的每一实体字段,将读取到的每一所述实体字段输入至预先构建好的LSTM-CNN模型中,生成每一所述实体的每一特征向量;其中,所述滑动窗口的窗口尺寸及滑动步长由所述领域因子决定。
3.如权利要求2所述的面向医疗信息系统的知识表达方法,其特征在于,所述利用滑动窗口读取每一所述实体的每一实体字段,将读取到的每一所述实体字段输入至预先构建好的LSTM-CNN模型中,生成每一所述实体的每一特征向量,包括:
根据每一所述领域因子,获取滑动窗口的窗口尺寸及滑动步长,并根据所述窗口尺寸建立滑动窗口;
根据所述滑动步长在每一所述实体进行滑动,每进行一次滑动前读取所述窗口尺寸内的每一实体字段,将读取到的每一所述实体字段输入至预先构建好的LSTM-CNN模型中,生成每一所述实体的每一特征向量。
4.如权利要求2所述的面向医疗信息系统的知识表达方法,其特征在于,通过以下步骤对预先构建的基础知识关系模型进行训练,得到训练好的基础知识关系模型:
将读取到每一实体字段输入至预先构建的基础知识关系模型中,根据预设的事件规则模板对所述实体字段不断进行事件规则的匹配,得到训练好的基础知识关系模型。
5.如权利要求1所述的面向医疗信息系统的知识表达方法,其特征在于,所述基于所述标准数据元,获取每一所述关键词对应的每一领域因子,包括:
根据所述标准数据元,构建标准数据元数据库;其中,所述标准数据元数据库包括所述多路数据源,及对应每一所述多路数据源的每一组标准数据元;
根据所述标准数据元数据库,构建规则库;其中,所述规则库包括每一组所述标准数据元,及对应每一组所述标准数据元的每一实体抽取规则;
根据所述关键词,从所述标准数据元数据库中查找到对应所述每一所述关键词的每一数据来源、对应每一所述数据来源的每一类型,并从所述规则库中查找到对应每一所述关键词的每一实体抽取规则。
6.如权利要求1所述的面向医疗信息系统的知识表达方法,其特征在于,所述根据所述实体知识之间的关系,对所述实体知识和所述关系知识进行知识合并,生成所述医疗数据的知识图谱,包括:
根据所述实体知识之间的关系,对每一所述实体知识进行权重标注;
根据标注的权重,对所述实体知识和所述关系知识进行知识合并,生成所述医疗数据的知识图谱。
7.如权利要求1所述的面向医疗信息系统的知识表达方法,其特征在于,所述多路数据源至少包括医疗数据标准文件、医疗信息系统数据库、医疗检测报告、专家经验知识数据。
8.如权利要求1所述的面向医疗信息系统的知识表达方法,其特征在于,所述知识推理结果包括以下中的至少一种:异常医疗数据发现结果、关联检测推荐结果、医疗检测报告校验结果、医疗评价与医疗决策结果。
9.一种面向医疗信息系统的知识表达装置,其特征在于,包括:
多路数据源获取模块,用于获取与医疗数据相关的多路数据源;
标准数据元获取模块,用于对所述多路数据源进行数据核心描述,得到所述多路数据源的每一组标准数据元;其中,每一组所述标准数据元至少包括核心元数据、数据来源、数据来源的类型;
关键词提取模块,用于对所述多路数据源进行关键词识别处理,从所述多路数据源中提取若干关键词;
领域因子获取模块,用于基于所述标准数据元,获取每一所述关键词对应的每一领域因子;其中,所述领域因子至少包括所述关键词的数据来源、所述数据来源的类型、所述关键词的实体抽取规则;
知识抽取模块,用于利用每一所述关键词及每一所述领域因子进行知识抽取,得到实体知识和关系知识;
知识图谱构建模块,用于根据所述实体知识和所述关系知识构建所述医疗数据的知识图谱;
知识推理模块,用于对所述知识图谱进行知识推理,得到知识推理结果。
10.一种医疗信息系统,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如权利要求1~8任一项所述的面向医疗信息系统的知识表达方法。
CN202210785380.9A 2022-07-06 2022-07-06 一种面向医疗信息系统的知识表达方法、装置及系统 Active CN114842982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210785380.9A CN114842982B (zh) 2022-07-06 2022-07-06 一种面向医疗信息系统的知识表达方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210785380.9A CN114842982B (zh) 2022-07-06 2022-07-06 一种面向医疗信息系统的知识表达方法、装置及系统

Publications (2)

Publication Number Publication Date
CN114842982A true CN114842982A (zh) 2022-08-02
CN114842982B CN114842982B (zh) 2022-09-23

Family

ID=82575315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210785380.9A Active CN114842982B (zh) 2022-07-06 2022-07-06 一种面向医疗信息系统的知识表达方法、装置及系统

Country Status (1)

Country Link
CN (1) CN114842982B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383413A (zh) * 2023-06-05 2023-07-04 湖南云略信息技术有限公司 基于医疗数据提取的知识图谱更新方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874695A (zh) * 2017-03-22 2017-06-20 北京大数医达科技有限公司 医疗知识图谱的构建方法和装置
CN111428481A (zh) * 2020-03-26 2020-07-17 南京搜文信息技术有限公司 一种基于深度学习的实体关系抽取方法
CN113157930A (zh) * 2020-12-30 2021-07-23 上海科技发展有限公司 基于多源异构数据的知识图谱构建方法、系统以及终端
WO2021190236A1 (zh) * 2020-03-23 2021-09-30 浙江大学 一种基于生物医学文献的实体关系挖掘方法
CN113707297A (zh) * 2021-08-26 2021-11-26 平安国际智慧城市科技股份有限公司 医疗数据的处理方法、装置、设备及存储介质
WO2022041728A1 (zh) * 2020-08-28 2022-03-03 康键信息技术(深圳)有限公司 医学领域意图识别方法、装置、设备及存储介质
CN114638362A (zh) * 2022-04-13 2022-06-17 电信科学技术第五研究所有限公司 一种知识图谱构建方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874695A (zh) * 2017-03-22 2017-06-20 北京大数医达科技有限公司 医疗知识图谱的构建方法和装置
WO2021190236A1 (zh) * 2020-03-23 2021-09-30 浙江大学 一种基于生物医学文献的实体关系挖掘方法
CN111428481A (zh) * 2020-03-26 2020-07-17 南京搜文信息技术有限公司 一种基于深度学习的实体关系抽取方法
WO2022041728A1 (zh) * 2020-08-28 2022-03-03 康键信息技术(深圳)有限公司 医学领域意图识别方法、装置、设备及存储介质
CN113157930A (zh) * 2020-12-30 2021-07-23 上海科技发展有限公司 基于多源异构数据的知识图谱构建方法、系统以及终端
CN113707297A (zh) * 2021-08-26 2021-11-26 平安国际智慧城市科技股份有限公司 医疗数据的处理方法、装置、设备及存储介质
CN114638362A (zh) * 2022-04-13 2022-06-17 电信科学技术第五研究所有限公司 一种知识图谱构建方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383413A (zh) * 2023-06-05 2023-07-04 湖南云略信息技术有限公司 基于医疗数据提取的知识图谱更新方法和系统
CN116383413B (zh) * 2023-06-05 2023-08-29 湖南云略信息技术有限公司 基于医疗数据提取的知识图谱更新方法和系统

Also Published As

Publication number Publication date
CN114842982B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN107808011B (zh) 信息的分类抽取方法、装置、计算机设备和存储介质
CN110781276A (zh) 文本抽取方法、装置、设备及存储介质
CN107943911A (zh) 数据抽取方法、装置、计算机设备及可读存储介质
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN112016313B (zh) 口语化要素识别方法及装置、警情分析系统
CN110929520B (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
CN112818093A (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN110580308A (zh) 信息审核方法及装置、电子设备、存储介质
CN112036184A (zh) 基于BiLSTM网络模型及CRF模型的实体识别方法、装置、计算机装置及存储介质
CN112597300A (zh) 文本聚类方法、装置、终端设备及存储介质
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
CN113268615A (zh) 资源标签生成方法、装置、电子设备及存储介质
CN111177375A (zh) 一种电子文档分类方法及装置
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN112199954B (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN113505786A (zh) 试题拍照评判方法、装置及电子设备
CN110717029A (zh) 一种信息处理方法和系统
CN113868389B (zh) 基于自然语言文本的数据查询方法、装置及计算机设备
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN113486169B (zh) 基于bert模型的同义语句生成方法、装置、设备及存储介质
CN114021004A (zh) 一种理科相似题推荐方法、装置、设备及可读存储介质
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant