CN107978341A - 一种基于语境的医学语义框架下的异构数据适配方法及其系统 - Google Patents

一种基于语境的医学语义框架下的异构数据适配方法及其系统 Download PDF

Info

Publication number
CN107978341A
CN107978341A CN201711402488.0A CN201711402488A CN107978341A CN 107978341 A CN107978341 A CN 107978341A CN 201711402488 A CN201711402488 A CN 201711402488A CN 107978341 A CN107978341 A CN 107978341A
Authority
CN
China
Prior art keywords
data
medical
dictionary
big
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711402488.0A
Other languages
English (en)
Inventor
楚胜翔
钱子来
万灵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU JOINFORWIN SOFTWARE TECHNOLOGY Co.,Ltd.
Original Assignee
Nanjing Angte Medical Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Angte Medical Data Technology Co Ltd filed Critical Nanjing Angte Medical Data Technology Co Ltd
Priority to CN201711402488.0A priority Critical patent/CN107978341A/zh
Publication of CN107978341A publication Critical patent/CN107978341A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于语境的医学语义框架下的异构数据适配方法,包括步骤:(1)从医疗机构获取原始医疗数据,根据语义网的医学临床数据的组织及知识图谱的关系约束得到九大医疗数据字典;(2)将步骤(1)得到的九大医疗数据字典与标准数据字典进行一对一映射得到适配结果;所述标准数据字典为医疗大数据标准。本发明提供了一种将不同医院的数据映射到相对标准的数据描述之上,将异构化的数据进行在医学语境下的语义适配实现方法。本发明可应用于医院,社区,健康医疗等诸多领域,具有广泛的应用前景。

Description

一种基于语境的医学语义框架下的异构数据适配方法及其 系统
技术领域
本发明涉及一种异构数据适配系统,尤其涉及的是一种基于语境的医学语义框架下的异构数据适配方法及其系统。
背景技术
大数据时代下,医疗信息化的发展在医疗领域占据重要作用,医疗信息化的挑战要比以往重要。现阶段我们更重视成效,如何利用大数据、云计算新技术,为医疗系统的建设、效率提升等做出实际改善,才是我们需要思考的。
现在由于各个医疗机构采用的仪器、诊断标准乃至用语的不同,导致从医疗机构病案首页直接抽取的数据,难于实现医疗数据的标准化。虽然这些不影响医疗机构的正常运行,但是政府强烈要求实现医疗数据化,实现互联互通,这样来缓解现在看病难这种局面。每个医疗机构的医疗数据相互间多是异构,怎么样实现互联互通呢?只能通过省卫生厅、市卫生局、社保局、新农村合作医疗机构这些单位的信息平台来实现医疗数据标准化,因为这些机构的医疗信息化平台的数据是按照国际标准、国内标准、省标准。现在很多医院为了克服乃至解决这一问题,调用很多医院人员,针对不同的医疗场景利用专业知识库的技术加学习、挖掘的方法形成数据映射,将不同医院的数据映射到相对标准的数据描述之上,将差异化的数据进行清洗、筛选、归一,从而发挥平台的效果,提升医疗大数据的价值。这方法固然很好,但与此同时,在人工资源有限的情况下实施现数据进行清洗、筛选、归一,从而发挥平台的效果导致了大量的人工开销和数据适配的遗漏。现在市面上也有很多工具能对医疗大数据进行稽核、清洗、筛选、归一,但是这些工具不能进行语义上的适配,因此针对现实医院人工资源有限及现在市场上适配工具功能有限的情况下需要建立一种基于语境的医学语义框架下的异构数据适配方法及其系统。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于语境的医学语义框架下的异构数据适配方法及其系统。
技术方案:
一种基于语境的医学语义框架下的异构数据适配方法,其特征在于:包括步骤:
(1)从医疗机构获取原始医疗数据,根据语义网的医学临床数据的组织及知识图谱的关系约束得到九大医疗数据字典;其中,九大医疗数据字典是通过特定分类体系将医疗大数据分成九大医疗数据字典:西药数据字典,中草药数据字典,中成药数据字典,检验数据字典,检查数据字典,手术数据字典,耗材数据字典,生物制剂数据字典和疾病数据字典;
(2)将步骤(1)得到的九大医疗数据字典与标准数据字典进行一对一映射得到适配结果;所述标准数据字典为医疗大数据标准;
所述映射具体如下:
(21)如果两个医学数据元的语义在任何应用语境下都是一致的,则称为同义词;在特定应用语境下具有语义一致性的医学数据元,则称为等价词;
(22)如果医学数据元Φ在特定分类体系中具有唯一值则赋予一个对应于该特定分类体系的编码;对于医学数据元Φ的同义词赋予Φ的相同编码;对于该特定分类体系应用语境下的医学数据元Φ的等价词赋予Φ的相同编码。
通过专家库对所述步骤(2)的适配结果进行校验。
所述步骤(2)的适配包括如下的学习步骤:
(201)通过外界交互查询针对领域内分类系统的全局查询请求数据;
(202)通过分析所生成的全局查询请求数据分解为针对局部数据源的子查询请求;
(203)针对每一个分解的子查询请求,通过从临床数据源中提取出特定表达式和基于路径的修饰词,将查询合并化简;
(204)通过对各个子查询的查询结果进行合并,使得查询的一些中间结果和最终结果分别记入同义或等价词库,可以被之后的查询所使用,并把最终结果返回。
包括接口层、中间件层以及数据源层;
所述接口层通过I/O设备与外界进行交互,从医院和医疗机构获得原始医疗大数据,并输出适配结果;
所述数据源层用于存储局部数据字典、全局数据字典以及数据字典之间的映射关系;
所述中间件层与所述接口层连接,并根据所述接口层接收的全局查询请求,分析所述全局查询请求,并在查询过程中使用数据字典映射规则,得到最终查询结果。
所述中间件层查询时,将查询的中间结果和最终结果分别计入同义词库或等价词库。
有益效果:本发明提供了一种将不同医院的数据映射到相对标准的数据描述之上,将异构化的数据进行在医学语境下的语义适配实现方法。本发明可应用于医院,社区,健康医疗等诸多领域,具有广泛的应用前景。
附图说明
图1为本发明的整体架构示意图。
图2为本发明的数据适配映射流程示意图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
图1为本发明的整体架构示意图。本发明的基于并综合本体论、语义网及知识图谱技术路线,即本体论的医学本体概念与医学本体属性、语义网的医学数据的组织、知识图谱的关系约束;构建方法包括通过一种基于语境的医学语义框架下的异构数据适配方法的信息构建、查询处理构建以及数据适配系统的整体架构构建三大部分;数据适配系统的整体架构包括接口层,中间件层和数据源层三层;接口层用来与外界进行交互,从医疗机构获得原始医疗大数据,经过中间件层与数据源层的数据字典间的映射,通过专家库组成标准数据字典再返还给医疗机构;所述的中间件层负责系统核心查询业务,查询过程中使用数据字典及数据字典映射规则;所述的数据源层包括局部数据字典和全局数据字典;以及数据字典之间的映射关系。
通过对医学数据元(值域)的语义在一定的语境下对其本体的概念、属性、层级定位和关系约束等信息进行构建:
1,如果两个医学数据元(值域)的语义在任何应用语境下都是一致的,在该方法中称为同义词;在特定应用语境下具有语义一致性的医学数据元(值域),在该方法中称为等价词。
2,如果医学数据元(值域)Φ在特定分类体系中具有唯一值,可以赋予一个对应于该特定分类体系的编码。对于医学数据元(值域)Φ的同义词可以赋予Φ的相同编码;对于该特定分类体系应用语境下的医学数据元(值域)Φ的等价词也可以赋予Φ的相同编码。其中,特定标准分类体系表示的是医疗大数据主要分成九大数据字典:西药数据字典,中草药数据字典,中成药数据字典,检验数据字典,检查数据字典,手术数据字典,耗材数据字典,生物制剂数据字典和疾病数据字典。那么相对于九大标准分类体系而言,把医疗大数据在医药领域中分成九大局部本体和它们的合体就是全局本体。本体属性即医疗大数据属于九大标准分类体系的哪一类及每一类中的那一小类,及源数据源的编码长度等性质。
本发明中查询处理构建包括如下的学习步骤:
1,通过外界交互查询针对领域内分类系统的全局查询请求数据;
2,通过分析所生成的全局查询请求数据分解为针对局部数据源的子查询请求;
3,针对每一个分解的子查询请求,通过从临床数据源中提取出特定表达式和基于路径的修饰词,将查询合并化简;
4,通过对各个子查询的查询结果进行合并,使得查询的一些中间结果和最终结果分别记入同义或等价词库,可以被之后的查询所使用,并把最终结果返回。
本发明的数据适配实现方法流程为:
(1)从医疗机构获取原始医疗大数据根据语义网的医学临床数据的组织及知识图谱的关系约束得到九个医疗数据字典;
(2)省卫生厅、社保中心、新农村医疗机构多有医疗大数据标准,包括国际标准、国内标准、省标准等等,每一种标准也具有相应的数据字典;
(3)对步骤(1)得到的九个数据字典,与政府机构的数据字典进行一对一映射,这个映射就是通过一种基于语境的医学语义框架下的异构数据适配方法进行。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种基于语境的医学语义框架下的异构数据适配方法,其特征在于:包括步骤:
(1)从医疗机构获取原始医疗数据,根据语义网的医学临床数据的组织及知识图谱的关系约束得到九大医疗数据字典;其中,九大医疗数据字典是通过特定分类体系将医疗大数据分成九大医疗数据字典:西药数据字典,中草药数据字典,中成药数据字典,检验数据字典,检查数据字典,手术数据字典,耗材数据字典,生物制剂数据字典和疾病数据字典;
(2)将步骤(1)得到的九大医疗数据字典与标准数据字典进行一对一映射得到适配结果;所述标准数据字典为医疗大数据标准;
所述映射具体如下:
(21)如果两个医学数据元的语义在任何应用语境下都是一致的,则称为同义词;在特定应用语境下具有语义一致性的医学数据元,则称为等价词;
(22)如果医学数据元Φ在特定分类体系中具有唯一值则赋予一个对应于该特定分类体系的编码;对于医学数据元Φ的同义词赋予Φ的相同编码;对于该特定分类体系应用语境下的医学数据元Φ的等价词赋予Φ的相同编码。
2.根据权利要求1所述的异构数据适配方法,其特征在于:通过专家库对所述步骤(2)的适配结果进行校验。
3.根据权利要求1所述的异构数据适配方法,其特征在于:所述步骤(2)的适配包括如下的学习步骤:
(201)通过外界交互查询针对领域内分类系统的全局查询请求数据;
(202)通过分析所生成的全局查询请求数据分解为针对局部数据源的子查询请求;
(203)针对每一个分解的子查询请求,通过从临床数据源中提取出特定表达式和基于路径的修饰词,将查询合并化简;
(204)通过对各个子查询的查询结果进行合并,使得查询的一些中间结果和最终结果分别记入同义或等价词库,可以被之后的查询所使用,并把最终结果返回。
4.一种根据权利要求1的异构数据适配方法的异构数据适配系统,其特征在于:包括接口层、中间件层以及数据源层;
所述接口层通过I/O设备与外界进行交互,从医院和医疗机构获得原始医疗大数据,并输出适配结果;
所述数据源层用于存储局部数据字典、全局数据字典以及数据字典之间的映射关系;
所述中间件层与所述接口层连接,并根据所述接口层接收的全局查询请求,分析所述全局查询请求,并在查询过程中使用数据字典映射规则,得到最终查询结果。
5.根据权利要求4所述的数据适配系统,其特征在于:所述中间件层在使用数据字典映射规则查询时,将查询的中间结果和最终结果分别计入同义词库或等价词库。
CN201711402488.0A 2017-12-22 2017-12-22 一种基于语境的医学语义框架下的异构数据适配方法及其系统 Pending CN107978341A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711402488.0A CN107978341A (zh) 2017-12-22 2017-12-22 一种基于语境的医学语义框架下的异构数据适配方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711402488.0A CN107978341A (zh) 2017-12-22 2017-12-22 一种基于语境的医学语义框架下的异构数据适配方法及其系统

Publications (1)

Publication Number Publication Date
CN107978341A true CN107978341A (zh) 2018-05-01

Family

ID=62007139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711402488.0A Pending CN107978341A (zh) 2017-12-22 2017-12-22 一种基于语境的医学语义框架下的异构数据适配方法及其系统

Country Status (1)

Country Link
CN (1) CN107978341A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597925A (zh) * 2018-10-25 2019-04-09 同济大学 一种基于本体的供应商数据分析方法及分析系统
WO2020233256A1 (zh) * 2019-07-12 2020-11-26 之江实验室 一种基于通用医疗术语库的多中心医疗术语标准化系统
CN112053783A (zh) * 2020-08-27 2020-12-08 北京颢云信息科技股份有限公司 一种基于多组学数据的疾病智能预测建模方法
CN112908441A (zh) * 2021-03-04 2021-06-04 文华学院 一种医疗平台的数据处理方法、装置以及处理设备
WO2022041226A1 (zh) * 2020-08-31 2022-03-03 西门子(中国)有限公司 一种基于知识图谱的数据融合方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101331487A (zh) * 2005-12-15 2008-12-24 微软公司 广告关键词交叉销售
CN104699767A (zh) * 2015-02-15 2015-06-10 首都经济贸易大学 一种面向中文语言的大规模本体映射方法
CN105447299A (zh) * 2014-09-19 2016-03-30 余仪呈 自助问诊并产生结构化主诉病历的系统及方法
CN105556513A (zh) * 2013-03-14 2016-05-04 昂托米克斯公司 用于个性化临床决策支持工具的系统和方法
CN105787282A (zh) * 2016-03-24 2016-07-20 国家卫生计生委统计信息中心 一种医疗数据字典自动标准化的方法与系统
CN106663101A (zh) * 2014-04-02 2017-05-10 西曼迪克技术私人有限公司 本体映射方法和设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101331487A (zh) * 2005-12-15 2008-12-24 微软公司 广告关键词交叉销售
CN105556513A (zh) * 2013-03-14 2016-05-04 昂托米克斯公司 用于个性化临床决策支持工具的系统和方法
CN106663101A (zh) * 2014-04-02 2017-05-10 西曼迪克技术私人有限公司 本体映射方法和设备
CN105447299A (zh) * 2014-09-19 2016-03-30 余仪呈 自助问诊并产生结构化主诉病历的系统及方法
CN104699767A (zh) * 2015-02-15 2015-06-10 首都经济贸易大学 一种面向中文语言的大规模本体映射方法
CN105787282A (zh) * 2016-03-24 2016-07-20 国家卫生计生委统计信息中心 一种医疗数据字典自动标准化的方法与系统

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
刘端阳;王良芳;: "结合语义扩展度和词汇链的关键词提取算法", 计算机科学, no. 12 *
宁温馨等: "基于语义相似度计算的临床诊断自动编码算法研究", 《医学信息学杂志》 *
宁温馨等: "基于语义相似度计算的临床诊断自动编码算法研究", 《医学信息学杂志》, no. 02, 25 February 2016 (2016-02-25) *
张靖;程希来;: "多源异构数据库数据查询处理研究", 现代计算机(专业版), pages 27 - 30 *
张靖等: "多源异构数据库数据查询处理研究", 《现代计算机(专业版)》 *
张靖等: "多源异构数据库数据查询处理研究", 《现代计算机(专业版)》, no. 10, 25 October 2009 (2009-10-25), pages 27 - 30 *
方丽英等: "面向语义异构的信息集成系统查询处理方案", 《北京工业大学学报》 *
方丽英等: "面向语义异构的信息集成系统查询处理方案", 《北京工业大学学报》, no. 08, 15 August 2007 (2007-08-15) *
洪荷音;: "从语义学角度透析法语同、近义词的意义关系", 科技信息(学术研究), no. 16 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597925A (zh) * 2018-10-25 2019-04-09 同济大学 一种基于本体的供应商数据分析方法及分析系统
WO2020233256A1 (zh) * 2019-07-12 2020-11-26 之江实验室 一种基于通用医疗术语库的多中心医疗术语标准化系统
CN112053783A (zh) * 2020-08-27 2020-12-08 北京颢云信息科技股份有限公司 一种基于多组学数据的疾病智能预测建模方法
WO2022041226A1 (zh) * 2020-08-31 2022-03-03 西门子(中国)有限公司 一种基于知识图谱的数据融合方法、装置及电子设备
CN112908441A (zh) * 2021-03-04 2021-06-04 文华学院 一种医疗平台的数据处理方法、装置以及处理设备

Similar Documents

Publication Publication Date Title
CN107978341A (zh) 一种基于语境的医学语义框架下的异构数据适配方法及其系统
WO2023098288A1 (zh) 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统
CN109460473B (zh) 基于症状提取和特征表示的电子病历多标签分类方法
CN109599185B (zh) 疾病数据处理方法、装置、电子设备及计算机可读介质
CN109378066A (zh) 一种基于特征向量实现疾病预测的控制方法及控制装置
Huettig et al. A parallel architecture perspective on pre-activation and prediction in language processing
Thirugnanam et al. Improving the prediction rate of diabetes diagnosis using fuzzy, neural network, case based (FNC) approach
Hongying et al. Building a pediatric medical corpus: Word segmentation and named entity annotation
CN101149751A (zh) 用于分析中医方剂药物组配规律的泛化关联规则挖掘方法
Miao et al. Extracting and visualizing semantic relationships from Chinese biomedical text
CN112562808A (zh) 患者画像的生成方法、装置、电子设备及存储介质
El-Sappagh et al. A diabetes diagnostic domain ontology for CBR system from the conceptual model of SNOMED CT
JP2020527804A (ja) コード化された医療語彙のマッピング
Ke et al. Medical entity recognition and knowledge map relationship analysis of Chinese EMRs based on improved BiLSTM-CRF
CN110069639B (zh) 一种构建甲状腺超声领域本体的方法
Yu et al. Dataset and enhanced model for eligibility criteria-to-sql semantic parsing
CN112349367B (zh) 一种生成仿真病历的方法、装置、电子设备及存储介质
Li et al. A medical ai diagnosis platform based on vision transformer for coronavirus
Ting et al. Narratives of suffering: A psycholinguistic analysis of two Yi religious communities in Southwest China
Thieu et al. Inductive identification of functional status information and establishing a gold standard corpus: A case study on the Mobility domain
Galitsky et al. Multi-case-based reasoning by syntactic-semantic alignment and discourse analysis
CN106354715A (zh) 医疗词汇处理方法及装置
EP3564964A1 (en) Method for utilising natural language processing technology in decision-making support of abnormal state of object
Marathe et al. Leveraging natural language processing algorithms to understand the impact of the COVID-19 pandemic and related policies on public sentiment in India
Goble et al. A descriptive semantic formalism for medicine

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210112

Address after: 13 / F, phase I building, Changjiang science and Technology Park, 40 Nanchang Road, Gulou District, Nanjing City, Jiangsu Province, 210009

Applicant after: JIANGSU JOINFORWIN SOFTWARE TECHNOLOGY Co.,Ltd.

Address before: 13 / F, South Gate, South District, Changjiang science and Technology Park, 40 Nanchang Road, Gulou District, Nanjing City, Jiangsu Province, 210037

Applicant before: NANJING ONTEINFO INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20180501

RJ01 Rejection of invention patent application after publication