CN106844311A - 一种基于结构化电子病历的查重方法 - Google Patents

一种基于结构化电子病历的查重方法 Download PDF

Info

Publication number
CN106844311A
CN106844311A CN201710056734.5A CN201710056734A CN106844311A CN 106844311 A CN106844311 A CN 106844311A CN 201710056734 A CN201710056734 A CN 201710056734A CN 106844311 A CN106844311 A CN 106844311A
Authority
CN
China
Prior art keywords
duplicate checking
document
jump
attribute
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710056734.5A
Other languages
English (en)
Inventor
王兴强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ji'nan Kin Kin Information Technology Co Ltd
Original Assignee
Ji'nan Kin Kin Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ji'nan Kin Kin Information Technology Co Ltd filed Critical Ji'nan Kin Kin Information Technology Co Ltd
Priority to CN201710056734.5A priority Critical patent/CN106844311A/zh
Publication of CN106844311A publication Critical patent/CN106844311A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及一种基于结构化电子病历的查重方法,属于医疗信息化技术领域。它包括文档模板查重属性、文档段查重属性和最小相似比KMP字符串匹配算法,通过设置结构化电子病历的文档模板及文档段的查重属性,并去除结构化绑定对象的内容,采用最小相似比KMP字符串匹配算法,进行病历文书查重,协助病历文书质控人员查找不合规拷贝病历的情况,有效提高病历文书质量和水平。

Description

一种基于结构化电子病历的查重方法
技术领域
本发明涉及一种基于结构化电子病历的查重方法,属于医疗信息化技术领域。
背景技术
病历查重是病历文书质控的一项重要内容,是提高病历文书质量,有效防止临床医生不合规拷贝病历的重要手段。
为满足医疗机构临床诊疗信息的数据交换和共享需要,促进实现区域医疗服务信息的协同,国家卫生部门开展了电子病历数据标准的研究制订工作,并先后颁布了一系列的关于电子病历的业务标准与规范,主要包括《电子病历基本架构与数据标准》、《电子病历基本规范》、《中医电子病历基本规范》、《电子病历基本数据集》、《电子病历共享文档规范》等卫生行业规范,医院也相应地普及电子病历系统。
结构化电子病历有利于区域范围内患者医疗信息共享、医疗机构之间互联互通和协同,病历文书质量也相应提高,但病历查重仍然是病历文书质控的重要手段,单纯的文本比对的方式已不适用于结构化电子病历的病历查重。本发明就是在这样的背景下被提出来的。
发明内容
本发明的目的是针对现有技术的不足而提供的一种基于结构化电子病历的查重方法,该方法是在患者的结构化电子病历的病历文书中查找临床医生不合规拷贝的病历。
为了达到上述发明目的,本发明的技术方案如下:
一种基于结构化电子病历的查重方法,它包括文档模板查重属性、文档段查重属性和最小相似比KMP字符串匹配算法。
上述文档模板查重属性,是指电子病历的文档模板类型的属性,是否支持查重。病历的文档模板类型是否支持查重,决定病历查重时是否检索该文档。
上述文档段查重属性,是指电子病历的文档模板类型中文档段的属性,是否支持查重。文档段,是指病历文档中逻辑上的段,文档段为构成该文档段的数据提供临床语境,是本领域中所使用的通用技术。支持查重的文档模板类型中的文档段是否支持查重,决定病历查重时是否检索该文档段。
上述最小相似比KMP字符串匹配算法,是指在KMP字符串匹配算法基础上,增加最小相似比系数C,当匹配目标字符串超过1-C比例时,退出匹配。KMP字符串匹配算法,是本领域中所使用的通用技术。最小相似比KMP字符串匹配算法与KMP字符串匹配算法相比,运行效率显著提高。最小相似比KMP字符串匹配算法步骤如下:
1)在目标串S和模式串T中分别设比较的起始下标i和j,初始化最小相似比系数C,C的取值范围为0到1;
2)计算目标串S和模式串T的长度LS和LT
3)采用KMP算法计算模式串T的前缀数组next[j];
4)如果目标串S没有比较完i<LS或模式串T没有比较完j<LT,跳到步骤5),否则跳到步骤9);
5)如果S[i]=T[j],跳到步骤6),否则跳到步骤7);
6)目标串S和模式串T的比较下标都下移一位,即i加1,j加1,跳到步骤4);
7)如果目标串S未比较部分小于最小相似长度,LS-i<LS*C,跳到步骤9),否则跳到步骤8);
8)模式串T的比较下标j跳至next[j],即j=next[j],跳到步骤4);
9)结束。
一种基于结构化电子病历的查重方法,步骤如下:
1)开始;
2)检索患者结构化电子病历的文件列表;
3)逐条读取病历文件列表,如果读取完毕跳到步骤10);
4)判断病历文件的文档模板查重属性,如果支持查重,跳到步骤5),否则跳到步骤3);
5)检索文档模板类型的文档段列表;
6)逐条读取文档段列表,如果读取完毕跳到步骤3);
7)判断文档段查重属性,如果支持查重,跳到步骤8),否则跳到步骤6);
8)检索文档段中的结构化绑定对象;
9)加载病历文件的相应文档段的文本至待查重对象列表,并去除结构化绑定对象的部分,跳到步骤6);
10)采用最小相似比KMP字符串匹配算法,对待查重对象列表中的文本,进行查重;
11)结束。
本发明提供了一种基于结构化电子病历的查重方法,设置结构化电子病历的文档模板及文档段的查重属性,并去除结构化绑定对象的内容,采用最小相似比KMP字符串匹配算法,进行病历文书查重,协助病历文书质控人员查找不合规拷贝病历的情况,有效提高病历文书质量和水平。
附图说明
图1为本发明方法的流程图;
其中:1-11表示了该方法的各个步骤。
图2为本发明方法的最小相似比KMP字符串匹配算法流程图;
其中:12-20表示了该方法的各个步骤。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一:
一种基于结构化电子病历的查重方法,它包括文档模板查重属性、文档段查重属性和最小相似比KMP字符串匹配算法,通过设置结构化电子病历的文档模板及文档段的查重属性,并去除结构化绑定对象的内容,采用最小相似比KMP字符串匹配算法,进行病历文书查重,如图1所示,步骤如下:
1)开始;
2)检索患者结构化电子病历的文件列表;
3)逐条读取病历文件列表,如果读取完毕跳到步骤10);
4)判断病历文件的文档模板查重属性,如果支持查重,跳到步骤5),否则跳到步骤3);
5)检索文档模板类型的文档段列表;
6)逐条读取文档段列表,如果读取完毕跳到步骤3);
7)判断文档段查重属性,如果支持查重,跳到步骤8),否则跳到步骤6);
8)检索文档段中的结构化绑定对象;
9)加载病历文件的相应文档段的文本至待查重对象列表,并去除结构化绑定对象的部分,跳到步骤6);
10)采用最小相似比KMP字符串匹配算法,对待查重对象列表中的文本,进行查重;
11)结束。
上述基于结构化电子病历的查重方法中的最小相似比KMP字符串匹配算法,如图2所示,步骤如下:
12)在目标串S和模式串T中分别设比较的起始下标i和j,初始化最小相似比系数C,C的取值范围为0到1;
13)计算目标串S和模式串T的长度LS和LT
14)采用KMP算法计算模式串T的前缀数组next[j];
15)如果目标串S没有比较完i<LS或模式串T没有比较完j<LT,跳到步骤16),否则跳到步骤20);
16)如果S[i]=T[j],跳到步骤17),否则跳到步骤18);
17)目标串S和模式串T的比较下标都下移一位,即i加1,j加1,跳到步骤15);
18)如果目标串S未比较部分小于最小相似长度,LS-i<LS*C,跳到步骤20),否则跳到步骤19);
19)模式串T的比较下标j跳至next[j],即j=next[j],跳到步骤15);
20)结束。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

Claims (5)

1.一种基于结构化电子病历的查重方法,其特征在于,它包括文档模板查重属性、文档段查重属性和最小相似比KMP字符串匹配算法。
2.如权利要求1所述的基于结构化电子病历的查重方法,其特征在于,文档模板查重属性,即电子病历的文档模板类型具有支持查重的属性。
3.如权利要求1所述的基于结构化电子病历的查重方法,其特征在于,文档段查重属性,即电子病历的文档模板类型中文档段具有支持查重的属性。
4.如权利要求1所述的基于结构化电子病历的查重方法,其特征在于,最小相似比KMP字符串匹配算法,即在KMP字符串匹配算法基础上,增加最小相似比系数C,当匹配目标字符串超过1-C比例时,退出匹配,其步骤如下:
1)在目标串S和模式串T中分别设比较的起始下标i和j,初始化最小相似比系数C,C的取值范围为0到1;
2)计算目标串S和模式串T的长度LS和LT
3)采用KMP算法计算模式串T的前缀数组next[j];
4)如果目标串S没有比较完i<LS或模式串T没有比较完j<LT,跳到步骤5),否则跳到步骤9);
5)如果S[i]=T[j],跳到步骤6),否则跳到步骤7);
6)目标串S和模式串T的比较下标都下移一位,即i加1,j加1,跳到步骤4);
7)如果目标串S未比较部分小于最小相似长度,即LS-i<LS*C,跳到步骤9),否则跳到步骤8);
8)模式串T的比较下标j跳至next[j],即j=next[j],跳到步骤4);
9)结束。
5.如权利要求1所述的基于结构化电子病历的查重方法,其特征在于,步骤如下:
1)开始;
2)检索患者结构化电子病历的文件列表;
3)逐条读取病历文件列表,如果读取完毕跳到步骤10);
4)判断病历文件的文档模板查重属性,如果支持查重,跳到步骤5),否则跳到步骤3);
5)检索文档模板类型的文档段列表;
6)逐条读取文档段列表,如果读取完毕跳到步骤3);
7)判断文档段查重属性,如果支持查重,跳到步骤8),否则跳到步骤6);
8)检索文档段中的结构化绑定对象;
9)加载病历文件的相应文档段的文本至待查重对象列表,并去除结构化绑定对象的部分,跳到步骤6);
10)采用最小相似比KMP字符串匹配算法,对待查重对象列表中的文本,进行查重;
11)结束。
CN201710056734.5A 2017-01-25 2017-01-25 一种基于结构化电子病历的查重方法 Pending CN106844311A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710056734.5A CN106844311A (zh) 2017-01-25 2017-01-25 一种基于结构化电子病历的查重方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710056734.5A CN106844311A (zh) 2017-01-25 2017-01-25 一种基于结构化电子病历的查重方法

Publications (1)

Publication Number Publication Date
CN106844311A true CN106844311A (zh) 2017-06-13

Family

ID=59121208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710056734.5A Pending CN106844311A (zh) 2017-01-25 2017-01-25 一种基于结构化电子病历的查重方法

Country Status (1)

Country Link
CN (1) CN106844311A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001161A (zh) * 2020-08-25 2020-11-27 上海新炬网络信息技术股份有限公司 一种文本查重方法
CN115983233A (zh) * 2023-01-04 2023-04-18 重庆邮电大学 一种基于数据流匹配的电子病历查重率估计方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8185532B2 (en) * 2008-09-19 2012-05-22 Esobi Inc. Method for filtering out identical or similar documents
CN104572675A (zh) * 2013-10-16 2015-04-29 中国人民解放军南京军区南京总医院 一种相似病历检索的系统及方法
CN106095913A (zh) * 2016-06-08 2016-11-09 广州同构医疗科技有限公司 一种电子病历文本结构化方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8185532B2 (en) * 2008-09-19 2012-05-22 Esobi Inc. Method for filtering out identical or similar documents
CN104572675A (zh) * 2013-10-16 2015-04-29 中国人民解放军南京军区南京总医院 一种相似病历检索的系统及方法
CN106095913A (zh) * 2016-06-08 2016-11-09 广州同构医疗科技有限公司 一种电子病历文本结构化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐黎明: "基于GST字符串近似匹配算法的研究", 《内蒙古科技与经济》 *
沈亚诚 等: "基于框架与产生式表示的病历模糊匹配算法研究", 《医学信息学杂志》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001161A (zh) * 2020-08-25 2020-11-27 上海新炬网络信息技术股份有限公司 一种文本查重方法
CN112001161B (zh) * 2020-08-25 2024-01-19 上海新炬网络信息技术股份有限公司 一种文本查重方法
CN115983233A (zh) * 2023-01-04 2023-04-18 重庆邮电大学 一种基于数据流匹配的电子病历查重率估计方法

Similar Documents

Publication Publication Date Title
Ghazal et al. An IoMT based ensemble classification framework to predict treatment response in hepatitis C patients
CN107391906B (zh) 基于神经网络和图谱结构的健康饮食知识网络构建方法
CN106934220B (zh) 面向多数据源的疾病类实体识别方法及装置
WO2021012519A1 (zh) 基于人工智能的问答方法、装置、计算机设备及存储介质
EP3376400A1 (en) Dynamic context adjustment in language models
Aziz et al. Evidence-based review of trauma center care and routine palliative care processes for geriatric trauma patients; A collaboration from the American Association for the Surgery of Trauma Patient Assessment Committee, the American Association for the Surgery of Trauma Geriatric Trauma Committee, and the Eastern Association for the Surgery of Trauma Guidelines Committee
Xie et al. Gretel: Graph contrastive topic enhanced language model for long document extractive summarization
CN108509419A (zh) 中医药古籍文献分词和词性标引方法及系统
WO2020074903A1 (en) Methods, systems and apparatus for improved therapy delivery and monitoring
ZA202308369B (en) Chronic pain internet plus management platform and construction method thereof
CN106844311A (zh) 一种基于结构化电子病历的查重方法
CN106933802B (zh) 一种面向多数据源的社保类实体识别方法及装置
Allegra et al. Modified supracricoid laryngectomy: oncological and functional outcomes in the elderly
Wang et al. Predicting postoperative liver cancer death outcomes with machine learning
Silva et al. Matching multiple ontologies to build a knowledge graph for personalized medicine
Zhao et al. Clinical multi-label free text classification by exploiting disease label relation
US11721416B2 (en) System and method for expanding search queries using clinical context information
CN106354715A (zh) 医疗词汇处理方法及装置
CN116844711A (zh) 基于深度学习的疾病辅助识别方法及装置
US20200311351A1 (en) Systems and methods for extracting patent document templates from a patent corpus
CN109241008B (zh) 文献去重方法及装置
Liu et al. ECNU at TREC 2016: Web-based query expansion and experts diagnosis in Medical Information Retrieval.
Al‐Turjman COVID‐19 special issue: Intelligent solutions for computer communication‐assisted infectious disease diagnosis
Wang et al. Prediction of sepsis from clinical data using lstm and xgboost
Vijayalakshmi et al. Survey on Risk Estimation of Chronic Disease using Machine Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170613