CN113284628A - 一种实现医疗机构检查字典数据标准化的方法 - Google Patents

一种实现医疗机构检查字典数据标准化的方法 Download PDF

Info

Publication number
CN113284628A
CN113284628A CN202110612882.7A CN202110612882A CN113284628A CN 113284628 A CN113284628 A CN 113284628A CN 202110612882 A CN202110612882 A CN 202110612882A CN 113284628 A CN113284628 A CN 113284628A
Authority
CN
China
Prior art keywords
matching
examination
name
medical institution
inspection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110612882.7A
Other languages
English (en)
Inventor
张莉
马良
刘芳
宗娜
陈超
尹超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Health Medical Big Data Co ltd
Original Assignee
Shandong Health Medical Big Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Health Medical Big Data Co ltd filed Critical Shandong Health Medical Big Data Co ltd
Priority to CN202110612882.7A priority Critical patent/CN113284628A/zh
Publication of CN113284628A publication Critical patent/CN113284628A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Software Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明特别涉及一种实现医疗机构检查字典数据标准化的方法。该实现医疗机构检查字典数据标准化的方法,首先对医疗机构检查名称进行拆分,根据人工匹配形成的经验值,将拆分后的医疗机构检查名称与标准数据的匹配规则细化分为四个等级;然后,将医疗机构检查名称通过检索标准数据索引进行精准匹配,若匹配成功则返回数据,若匹配不成功则对拆分后的医疗机构检查名称进行分词,再检索标准数据索引中是否有匹配的标准名称,取得得分最高的一项返回给用户;最后人工判断是否映射成功并形成经验值,为匹配规则分级提供依据。该实现医疗机构检查字典数据标准化的方法,采用智能匹配辅助人工匹配的匹配模式,减轻了工作量的同时提高了匹配准确率。

Description

一种实现医疗机构检查字典数据标准化的方法
技术领域
本发明涉及数据处理技术领域,特别涉及一种实现医疗机构检查字典数据标准化的方法。
背景技术
数据治理是按照平台既有标准对采集数据合理化处理,对数据的获取、处理、使用进行监管。
在医疗机构数据治理过程中,数据标准化是一份重要又繁琐的工作,其中包括对医疗机构检查名称的标准化进行映射。
标准检查项目如下所示:
检查项目编码 检查项目名称
A01.03.00 钼靶X线摄影
A04.00.00 超声检查
A05.00.00 内镜检查
A11.02.06 支架置入术
标准检查部位如下所示:
检查部位编码 检查部位名称
B02.05.03 鼻腔
B03.09.00 乳腺
B08.04.00 肾上腺
B09.03.18 下腔静脉
而某家医疗机构的检查数据如下所示:
检查名称
下腔静脉支架置入术
鼻内镜检查+纤维喉镜检查
肾+肾上腺+肾动脉超声检查
医疗机构检查码值主要分为以上几种情况:
检查名称为一项检查项目和检查部位组合;
检查名称为多项检查项目和检查部位组合;
检查名称为一项检查项目和多项检查部位组合。
综合以上几种情况,医疗机构检查码值均为检查项目和检查部位的组合,因此在进行标准化映射前需要将检查码值进行处理,根据标准检查项目名称和标准检查部位名称对检查码值进行拆分,拆分后的检查项目和检查名称再分别进行标准化映射。
以上情况拆分后结果如下所示:
检查名称 检查项目名称 检查部位名称
下腔静脉支架置入术 支架置入术 下腔静脉
鼻内镜检查+纤维喉镜检查 内镜检查
鼻内镜检查+纤维喉镜检查 纤维镜检查 喉部
肾+肾上腺+肾动脉超声检查 超声检查
肾+肾上腺+肾动脉超声检查 超声检查 肾上腺
肾+肾上腺+肾动脉超声检查 超声检查 肾动脉
由于各个医疗机构的检查名称都会存在不同差异,需要人工进行标准化处理的工作量大。同时,每个人对医疗数据的认识不同,人工匹配的过程也会存在差异或错误等各种局限。基于此,本发明提出了一种实现医疗机构检查字典数据标准化的方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的实现医疗机构检查字典数据标准化的方法。
本发明是通过如下技术方案实现的:
一种实现医疗机构检查字典数据标准化的方法,其特征在于:包括以下步骤:
第一步,基于全文检索引擎技术与分词技术对医疗机构检查名称进行拆分,根据人工匹配形成的经验值,将拆分后的医疗机构检查名称与标准数据的匹配规则细化分为四个等级;
第二步,先根据拆分后的医疗机构检查名称创建检索数据索引,并与标准数据索引进行精准匹配,若匹配成功则返回数据,若匹配不成功则对拆分后的医疗机构检查名称进行分词,再检索标准数据索引中是否有匹配的标准名称,取得得分最高的一项返回给用户;
第三步,基于智能匹配出来的结果进行参考,人工判断是否映射成功并形成经验值,为匹配规则分级提供依据。
所述第一步中,医疗机构检查名称中至少包括检查项目名称和检查部位名称,标准数据要明确其版本;
根据标准检查项目名称和标准检查部位名称对医疗机构检查名称进行拆分,得到一组或多组检查项目名称和检查部位名称。
所述第一步中,拆分后对检查项目名称和检查部位名称分别进行预处理,并以标准检查项目名称与标准检查部位名称为字段创建标准数据索引,以拆分出的检查项目名称和拆分出的检查部位名称为字段创建检索数据索引。
所述第一步中,利用Lucene(全文搜索引擎)工具创建检索数据索引。
所述第一步中,对检查项目名称和检查部位名称的预处理是指去除检查名称中的特殊字符,以免特殊字符对Lucene工具创建检索数据索引产生影响。
去掉的特殊字符如下:
Figure BDA0003096345360000031
“*”|“:”|“:”|“”|“&”|“[”|“]”|“,”|“,”|“、”|“.”|“。”|“;”|“;”|“(”|“)”|“(”|“)”|“%”|“~”|“\\”|“?”|“{”|“}”。
所述第一步中,匹配规则的四个等级如下:
一级匹配规则:将拆分出的检查项目名称/检查部位名称与标准数据进行精准匹配;
二级匹配规则:将拆分出的检查项目名称/检查部位名称与专业参照表进行精准匹配;
三级匹配规则:根据人工匹配结果中的检查项目名称/检查部位名称对拆分出的检查项目名称/检查部位名称进行精准匹配;
四级匹配规则:对检查项目名称/检查部位名称进行模糊匹配。
所述第二步中,通过Analyzer分词算法对医疗机构检查名称进行分词,然后依次执行四级匹配规则;若按照前三级匹配规则均无法匹配,再查找标准数据索引,将得分最高的一项匹配标准名称作为参考项返回给用户。
所述第一步中,对四级匹配都不符合的数据进行相似度匹配后放入匹配错误项。
本发明的有益效果是:该实现医疗机构检查字典数据标准化的方法,采用智能匹配辅助人工匹配的匹配模式,减轻了工作量的同时提高了匹配准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1为本发明实现医疗机构检查字典数据标准化的方法示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明中的技术方案,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚,完整的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
该实现医疗机构检查字典数据标准化的方法,包括以下步骤:
第一步,基于全文检索引擎技术与分词技术对医疗机构检查名称进行拆分,根据人工匹配形成的经验值,将拆分后的医疗机构检查名称与标准数据的匹配规则细化分为四个等级;
第二步,先根据拆分后的医疗机构检查名称创建检索数据索引,并与标准数据索引进行精准匹配,若匹配成功则返回数据,若匹配不成功则对拆分后的医疗机构检查名称进行分词,再检索标准数据索引中是否有匹配的标准名称,取得得分最高的一项返回给用户;
第三步,基于智能匹配出来的结果进行参考,人工判断是否映射成功并形成经验值,为匹配规则分级提供依据。
所述第一步中,医疗机构检查名称中至少包括检查项目名称和检查部位名称,标准数据要明确其版本;
根据标准检查项目名称和标准检查部位名称对医疗机构检查名称进行拆分,得到一组或多组检查项目名称和检查部位名称。
所述第一步中,拆分后对检查项目名称和检查部位名称分别进行预处理,并以标准检查项目名称与标准检查部位名称为字段创建标准数据索引,以拆分出的检查项目名称和拆分出的检查部位名称为字段创建检索数据索引。
所述第一步中,利用Lucene(全文搜索引擎)工具创建检索数据索引。
所述第一步中,对检查项目名称和检查部位名称的预处理是指去除检查名称中的特殊字符,以免特殊字符对Lucene工具创建检索数据索引产生影响。
去掉的特殊字符如下:
Figure BDA0003096345360000051
“*”|“:”|“:”|“”|“&”|“[”|“]”|“,”|“,”|“、”|“.”|“。”|“;”|“;”|“(”|“)”|“(”|“)”|“%”|“~”|“\\”|“?”|“{”|“}”。
所述第一步中,匹配规则的四个等级如下:
一级匹配规则:将拆分出的检查项目名称/检查部位名称与标准数据进行精准匹配;在匹配过程中忽略特殊字符;
例如:
检查项目名称/检查部位名称 标准检查项目名称/标准检查部位名称
超声检查/腹部 超声检查/腹部
二级匹配规则:将拆分出的检查项目名称/检查部位名称与专业参照表进行精准匹配;匹配过程中忽略特殊字符;
例如:
检查项目名称/检查部位名称 参照检查项目名称/参照检查部位名称
超声造影术/跖趾骨 超声造影术/跖趾骨
三级匹配规则:根据人工匹配结果中的检查项目名称/检查部位名称对拆分出的检查项目名称/检查部位名称进行精准匹配;
例如:
Figure BDA0003096345360000052
Figure BDA0003096345360000061
四级匹配规则:对检查项目名称/检查部位名称进行模糊匹配;
所述第二步中,通过Analyzer分词算法对医疗机构检查名称进行分词,然后依次执行四级匹配规则;若按照前三级匹配规则均无法匹配,再查找标准数据索引,将得分最高的一项匹配标准名称作为参考项返回给用户。
对四级匹配都不符合的数据进行相似度匹配后放入匹配错误项。
将经过四级匹配规则匹配出来的医疗机构数据和相应的标准数据通过页面展示,提供“匹配查询数据”、“匹配选择数据”两个按钮方便人工操作。
通过四级匹配规则匹配出来的数据,一、二、三级分析出的数据符合医疗机构与标准匹配准确度为100%。
人工匹配的目的,一是为了审核机器匹配出来的数据,二是通过主观意识判断通过智能匹配意思模糊或者错误的数据。
所述第三步中,人工匹配提供两种方式,如下:
(1)在智能匹配分析进行匹配,审核通过“智能分析”匹配出来的数据;
(2)在映射页面进行匹配,双击某条数据,映射工具会自动推荐匹配度最高的标准数据。
以上所述的实施例,只是本发明具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (8)

1.一种实现医疗机构检查字典数据标准化的方法,其特征在于:包括以下步骤:
第一步,基于全文检索引擎技术与分词技术对医疗机构检查名称进行拆分,根据人工匹配形成的经验值,将拆分后的医疗机构检查名称与标准数据的匹配规则细化分为四个等级;
第二步,先根据拆分后的医疗机构检查名称创建检索数据索引,并与标准数据索引进行精准匹配,若匹配成功则返回数据,若匹配不成功则对拆分后的医疗机构检查名称进行分词,再检索标准数据索引中是否有匹配的标准名称,取得得分最高的一项返回给用户;
第三步,基于智能匹配出来的结果进行参考,人工判断是否映射成功并形成经验值,为匹配规则分级提供依据。
2.根据权利要求1所述的实现医疗机构检查字典数据标准化的方法,其特征在于:所述第一步中,医疗机构检查名称中至少包括检查项目名称和检查部位名称,标准数据要明确其版本;
根据标准检查项目名称和标准检查部位名称对医疗机构检查名称进行拆分,得到一组或多组检查项目名称和检查部位名称。
3.根据权利要求2所述的实现医疗机构检查字典数据标准化的方法,其特征在于:所述第一步中,拆分后对检查项目名称和检查部位名称分别进行预处理,并以标准检查项目名称与标准检查部位名称为字段创建标准数据索引,以拆分出的检查项目名称和拆分出的检查部位名称为字段创建检索数据索引。
4.根据权利要求3所述的实现医疗机构检查字典数据标准化的方法,其特征在于:所述第一步中,利用Lucene工具创建检索数据索引。
5.根据权利要求4所述的实现医疗机构检查字典数据标准化的方法,其特征在于:所述第一步中,对检查项目名称和检查部位名称的预处理是指去除检查名称中的特殊字符,以免特殊字符对Lucene工具创建检索数据索引产生影响。
6.根据权利要求3或5所述的实现医疗机构检查字典数据标准化的方法,其特征在于:所述第一步中,匹配规则的四个等级如下:
一级匹配规则:将拆分出的检查项目名称/检查部位名称与标准数据进行精准匹配;
二级匹配规则:将拆分出的检查项目名称/检查部位名称与专业参照表进行精准匹配;
三级匹配规则:根据人工匹配结果中的检查项目名称/检查部位名称对拆分出的检查项目名称/检查部位名称进行精准匹配;
四级匹配规则:对检查项目名称/检查部位名称进行模糊匹配。
7.根据权利要求6所述的实现医疗机构检查字典数据标准化的方法,其特征在于:所述第二步中,通过Analyzer分词算法对医疗机构检查名称进行分词,然后依次执行四级匹配规则;若按照前三级匹配规则均无法匹配,再查找标准数据索引,将得分最高的一项匹配标准名称作为参考项返回给用户。
8.根据权利要求7所述的实现医疗机构检查字典数据标准化的方法,其特征在于:所述第一步中,对四级匹配都不符合的数据进行相似度匹配后放入匹配错误项。
CN202110612882.7A 2021-06-02 2021-06-02 一种实现医疗机构检查字典数据标准化的方法 Pending CN113284628A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110612882.7A CN113284628A (zh) 2021-06-02 2021-06-02 一种实现医疗机构检查字典数据标准化的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110612882.7A CN113284628A (zh) 2021-06-02 2021-06-02 一种实现医疗机构检查字典数据标准化的方法

Publications (1)

Publication Number Publication Date
CN113284628A true CN113284628A (zh) 2021-08-20

Family

ID=77283083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110612882.7A Pending CN113284628A (zh) 2021-06-02 2021-06-02 一种实现医疗机构检查字典数据标准化的方法

Country Status (1)

Country Link
CN (1) CN113284628A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115064237A (zh) * 2022-06-09 2022-09-16 山东浪潮智慧医疗科技有限公司 一种实现医院体检总结数据标准化的方法
CN117334316A (zh) * 2023-12-01 2024-01-02 广东聚健康信息科技有限公司 一种医疗健康检查项目管理方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108538395A (zh) * 2018-04-02 2018-09-14 上海市儿童医院 一种通用的医疗专病数据系统的构建方法
US20190066825A1 (en) * 2016-03-01 2019-02-28 National University Corporation Chiba University Medical information providing system, server, medical information providing apparatus, medical information providing medium, medical information providing method and program
CN109448841A (zh) * 2018-11-09 2019-03-08 天津开心生活科技有限公司 建立数据模型方法及装置、临床辅助决策方法及装置
CN110797115A (zh) * 2019-10-26 2020-02-14 曹庆恒 一种智能推荐医疗检查及检验的方法、系统和设备
CN111797207A (zh) * 2020-07-14 2020-10-20 山东健康医疗大数据有限公司 一种实现医院诊断数据标准化的方法
CN112735545A (zh) * 2020-12-31 2021-04-30 杭州依图医疗技术有限公司 自训练方法、模型、处理方法、装置及存储介质
CN112800759A (zh) * 2021-04-14 2021-05-14 北京金山云网络技术有限公司 标准化数据的生成方法、医学文本数据的处理方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190066825A1 (en) * 2016-03-01 2019-02-28 National University Corporation Chiba University Medical information providing system, server, medical information providing apparatus, medical information providing medium, medical information providing method and program
CN108538395A (zh) * 2018-04-02 2018-09-14 上海市儿童医院 一种通用的医疗专病数据系统的构建方法
CN109448841A (zh) * 2018-11-09 2019-03-08 天津开心生活科技有限公司 建立数据模型方法及装置、临床辅助决策方法及装置
CN110797115A (zh) * 2019-10-26 2020-02-14 曹庆恒 一种智能推荐医疗检查及检验的方法、系统和设备
CN111797207A (zh) * 2020-07-14 2020-10-20 山东健康医疗大数据有限公司 一种实现医院诊断数据标准化的方法
CN112735545A (zh) * 2020-12-31 2021-04-30 杭州依图医疗技术有限公司 自训练方法、模型、处理方法、装置及存储介质
CN112800759A (zh) * 2021-04-14 2021-05-14 北京金山云网络技术有限公司 标准化数据的生成方法、医学文本数据的处理方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115064237A (zh) * 2022-06-09 2022-09-16 山东浪潮智慧医疗科技有限公司 一种实现医院体检总结数据标准化的方法
CN117334316A (zh) * 2023-12-01 2024-01-02 广东聚健康信息科技有限公司 一种医疗健康检查项目管理方法及系统

Similar Documents

Publication Publication Date Title
CN110765257B (zh) 一种知识图谱驱动型的法律智能咨询系统
CN110059311B (zh) 一种面向司法文本数据的关键词提取方法及系统
CN110599131B (zh) 一种电气图纸识别与审查方法、装置及可读存储介质
CN113284628A (zh) 一种实现医疗机构检查字典数据标准化的方法
CN111797207B (zh) 一种实现医院诊断数据标准化的方法
CN110866836B (zh) 计算机执行的医疗保险立案审核方法和装置
Nguyen et al. Automatic extraction of cancer characteristics from free-text pathology reports for cancer notifications
CN112733534A (zh) 医患对话中半截词指向症状获取方法及系统
CN111524570A (zh) 一种基于机器学习的超声随访患者筛选方法
CN113918705A (zh) 带有预警和推荐功能的投稿审核方法及系统
CN111091914A (zh) 基于病历的癌症分型分期方法及其装置
CN113723056A (zh) Icd编码转化方法、装置、计算设备和存储介质
JP6828209B1 (ja) 医務査定支援装置、医務査定支援方法および医務査定支援プログラム
CN115238033A (zh) 一种实现医疗机构手术业务数据标准化的方法和系统
CN112735545A (zh) 自训练方法、模型、处理方法、装置及存储介质
CN116719840A (zh) 一种基于病历后结构化处理的医疗信息推送方法
CN110610766A (zh) 基于症状特征权重推导疾病概率的装置和存储介质
CN111724873B (zh) 一种数据处理方法及装置
CN113972009A (zh) 一种基于临床检验医学大数据的医学检验咨询系统
CN106777191A (zh) 一种基于搜索引擎的检索模式生成方法及装置
CN112992303A (zh) 人类表型标准用语提取方法
Steingrímsson et al. TermPortal: A Workbench for Automatic Term Extraction from Icelandic Texts
CN113204650B (zh) 基于领域知识图谱的评价方法及系统
CN115064237A (zh) 一种实现医院体检总结数据标准化的方法
Boytcheva Structured Information Extraction from Medical Texts in Bulgarian

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210820