CN104572675B - 一种相似病历检索的系统及方法 - Google Patents
一种相似病历检索的系统及方法 Download PDFInfo
- Publication number
- CN104572675B CN104572675B CN201310483241.1A CN201310483241A CN104572675B CN 104572675 B CN104572675 B CN 104572675B CN 201310483241 A CN201310483241 A CN 201310483241A CN 104572675 B CN104572675 B CN 104572675B
- Authority
- CN
- China
- Prior art keywords
- case history
- condition code
- code
- index
- full
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及一种相似病历检索的系统及方法,尤其是在电子病历的统计检索中,相似病历搜索的系统及方法。检索者提供原始病历,从病历库中检索出相似的病历集并计算每一份病历的相似度的方法。包括了原始病历特征码提取方法、相似病历检索方法、相似度计算方法。相似病历检索,利用全文搜索技术和相似病历计算方法,为进一步的医学病历研究、分析提供技术基础。
Description
技术领域
本发明涉及一种相似病历检索的系统及方法,尤其是在电子病历的统计检索中,相似病历搜索的系统及方法。
背景技术
在目前病历检索中,还是采用传统数据库字段全匹配的方式来检索病历,这种方式需要检索者提供准确的检索字段和准确的检索内容,并且需要原始数据录制准确,否则无法检索到期望的结果集。而病历统计也是通过准确字段进行统计,这局限了对病历数据的进一步研究分析。而另一方面,全文搜索技术已经相当成熟,可以应用到病历检索中,其提供了更加方便、快捷的检索方法,检索者不再需要提供检索字段、不需要提供准确的检索内容,就能检索到想要的病历集,并且通过不断的提供更多的检索内容词来缩小结果集,达到更精确的检索效果。
检索相似病历还局限在传统的检索方法基础上,采用个别字段匹配的方式检索相似病历,这导致了检索的不完全性,可能还有很多相似病历,却无法检索出来,其次没有一个统一的相似度计算方法,导致检索出的病历需要人为的判断,这使得检索者的经验变得非常重要,不便于扩大应用和推广。
而随着医院信息系统的应用和健全,电子病历数据越来越多,如何把这些病历数据应用于医学研究与分析变得越来越重要。本发明就是这样的背景下被提出来了。
发明内容
本发明提供一种相似病历的检索方法和相似度计算方法,为检索者进一步研究与分析提供一种基础方法。检索者提供原始病历,从病历库中检索出相似的病历集并计算每一份病历的相似度的方法。
本发明的技术方案是:
一种相似病历检索方法,它包括特征码字典库、全文索引库、原始病历特征码提取方法、相似病历检索方法、相似度计算方法。
特征码字典库:包含疾病分类、检验检查结论;疾病分类采用世界卫生组织《疾病和有关健康问题的国际统计分类(ICD-10)》分类和命名方法;而检验检查结论,因为还没有一个统一的标准,在本方法中将采用统计方法对病历库中的检验检查结论进行统计并标准化。字典库还包含每一个特征码的基本评分A=(分类疾病名称为20,检验检查结论为10分)。
全文索引库:对病历库中的所有病历建立全文索引,全文索引的建立方法采用当前成熟的全文索引技术,而不同的是索引类别分为:诊断索引、检验检查索引和病历索引。诊断索引对应病历中的所有诊断结果,检验检查索引对应病历中的检验检查结论,病历索引对应病历中的所有内容。
原始病历特征码提取方法:计算待查病历的特征码以及评分。使用全特征码集合对原始病历反向检索,获取命中的特征码、索引类别、是否出现“疑似”字串的集合。获得特征码集合{An},并对该集合每一个特征码计算参考评分Ca和总参考分Fa。这种反向特征码提取方法也可以预先设置好。
相似病历检索方法:使用从原始病历提取的特征码集合{An},从全文索引库中检索匹配的所有病历,并计算命中的每个特征码计算得分C和总分F。
相似度计算方法:计算每个被检索到的病历的相似度。
1)原始病历的每一个特征码的参考评分:Ca=A*(疑似?0.5),原始病历的总参考评分为:Fa=∑(Ca)=∑(A*(疑似?0.5)),A为特征码的基本评分,(疑似?0.5)为如果出现疑似则乘0.5。
2)被检索到的病历,每个特征码命中的得分:C=Ca*(索引类别≠原始特征码索引类别?0.5)。
3)被检索到的病历总得分:F=∑(C)=∑(A*(疑似?0.5)*(索引类别≠原始特征码索引类别?0.5)),(疑似?0.5)为如果出现疑似则乘0.5,(索引类别≠原始特征码索引类别?0.5)为两份病历中的特征码所在的索引类别不一致则乘0.5。相似度¢=F/Fa。
一种相似病历检索系统,它包括以下步骤:如图1
①为病历库中的所有病历建立全文索引库,全文索引库的建立方法采用目前成熟的全文索引技术,其不同的是建立诊断索引、检验检查索引和病历索引。诊断索引对应病历中的所有诊断结果,检验检查索引对应病历中的检验检查结论,病历索引对应病历中的所有内容。
②根据特征码字典库提取待查原始病历特征码。
③计算提取的特征码的参考评分,以及该待查病历的总参考评分。
④相似病历检索,并计算相似度;使用提取的特征码从全文索引库中检索相似病历,并根据相似度计算方法计算匹配的病历的相似度。
⑤从原始病历库中读取相应的病历并输出。
⑥对搜索到的相似病历按照相似度排序,并返回相似病历集合。
本发明的有益效果:
相似病历检索,利用全文搜索技术和相似病历计算方法,为进一步的医学病历研究、分析提供技术基础。并可以在本发明基础上,进一步扩展到医嘱、用药的相似度检索上去。
附图说明
图1相似病历检索系统及方法流程图
具体实施方法
实施例一:
1)目标:检索某冠心病伴心肌缺血病历H的相似病历集{Hn},以进一步统计分析发病年龄和性别的分布。
2)预先建立特征码字典和病历库的全文索引。
3)提取待检索病历H的特征码集合{Ah}={冠心病:20,心肌缺血病:10},病历H的参考评分为30。
4)使用{Ah}作为关键词从全文索引库中搜索病历,搜索到病历H1其全文索引中包含{冠心病,心肌缺血病}、病历H2其全文索引中包含{冠心病,梗塞}和病历H3其全文索引中包含{心肌炎,心肌缺血病}。
5)计算相似度,H1的相似度H1¢=30/30=1;H2的相似度H2¢=20/30=0.667;H3的相似度H3¢=10/30=0.333。
6)排序并输出相似病历集合{Hn}={H1:1,H2:0.667,H3:0.333}。
7)对检索结果做进一步的医学统计分析。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
Claims (1)
1.一种病历检索方法,其特征在于,包括原始病历特征码提取方法、相似病历检索方法和相似度计算方法;
特征码字典包含:疾病分类名称和检验检查结论,疾病名称采用ICD-10标准,特征码字典还包含每一个特征码的基本评分,基本评分设定为:疾病分类名称为20,检验检查结论为10;
所述原始病历特征码提取方法包括特征码提取,特征码的提取基于全文搜索,采用特征码字典对原始病历反向检索,获得命中的特征码和索引类别的一个集合,获取的特征码集合包括特征码和特征码的参考评分Ca,Ca=A*(疑似?0.5),A为特征码的基本评分;
所述相似病历检索方法是基于全文搜索引擎,其步骤为:1)根据特征码字典,从原始病历中提取特征码和计算参考评分;2)使用获得的特征码集合,采用全文搜索的方式检索病历库;
所述相似度计算方法为:相似度其中Fa=∑(A*(疑似?0.5)),F=∑(A*(疑似?0.5)*(索引类别≠原始特征码索引类别?0.5)),A为特征码的基本评分,(疑似?0.5)为如果出现疑似则乘0.5,(索引类别≠原始特征码索引类别?0.5)为两份病历中的特征码所在的索引类别不一致则乘0.5,Fa是原始病历的总参考评分,F是被检索到的病历总得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310483241.1A CN104572675B (zh) | 2013-10-16 | 2013-10-16 | 一种相似病历检索的系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310483241.1A CN104572675B (zh) | 2013-10-16 | 2013-10-16 | 一种相似病历检索的系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104572675A CN104572675A (zh) | 2015-04-29 |
CN104572675B true CN104572675B (zh) | 2018-03-30 |
Family
ID=53088768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310483241.1A Expired - Fee Related CN104572675B (zh) | 2013-10-16 | 2013-10-16 | 一种相似病历检索的系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104572675B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881463B (zh) * | 2015-05-22 | 2018-01-16 | 清华大学深圳研究生院 | 基于结构化病历数据库的参考病历检索方法及装置 |
CN105893597B (zh) * | 2016-04-20 | 2022-05-31 | 上海家好科技有限公司 | 一种相似病历检索方法及系统 |
CN105956362B (zh) * | 2016-04-20 | 2018-12-18 | 上海爱楷医疗科技有限公司 | 一种可信的病历结构化方法及系统 |
CN106844311A (zh) * | 2017-01-25 | 2017-06-13 | 济南德健信息技术有限公司 | 一种基于结构化电子病历的查重方法 |
CN107194143A (zh) * | 2017-03-31 | 2017-09-22 | 苏州艾隆信息技术有限公司 | 药品信息数据处理方法及系统 |
CN107273405B (zh) * | 2017-04-27 | 2020-12-18 | 广州慧扬健康科技有限公司 | 基于MeSH表的电子病历档案的智能检索系统 |
CN107193919A (zh) * | 2017-05-15 | 2017-09-22 | 清华大学深圳研究生院 | 一种电子病历的检索方法及系统 |
CN107731312B (zh) * | 2017-05-15 | 2020-12-01 | 上海明品医学数据科技有限公司 | 一种分诊数据传输和处理方法 |
CN109002449B (zh) * | 2017-06-06 | 2023-04-07 | 株式会社日立制作所 | 一种基于疾病相关属性检索诊断病例的装置及方法 |
CN107193996B (zh) * | 2017-06-09 | 2021-02-12 | 广州慧扬健康科技有限公司 | 相似病历匹配检索系统 |
CN109299239B (zh) * | 2018-09-29 | 2021-11-23 | 福建弘扬软件股份有限公司 | 一种基于es的电子病历检索方法 |
CN109599186B (zh) * | 2018-11-21 | 2022-10-04 | 金色熊猫有限公司 | 数据处理方法、装置及介质 |
CN109935337B (zh) * | 2019-02-25 | 2021-01-15 | 长沙学院 | 一种基于相似性度量的病案查找方法及系统 |
CN110517789B (zh) * | 2019-08-30 | 2023-06-16 | 深圳市汇健医疗工程有限公司 | 多种影像设备的数字化复合手术室 |
CN112749162B (zh) * | 2020-12-31 | 2021-08-17 | 浙江省方大标准信息有限公司 | 一种基于es的检验检测机构快速检索排序方法 |
CN112635072A (zh) * | 2020-12-31 | 2021-04-09 | 大连东软教育科技集团有限公司 | 基于相似度计算的icu相似病例检索方法、系统及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101911077A (zh) * | 2007-12-27 | 2010-12-08 | 皇家飞利浦电子股份有限公司 | 用于细化相似病例搜索的方法和装置 |
CN103345576A (zh) * | 2013-06-25 | 2013-10-09 | 上海交通大学 | 基于四模态医学影像的病例库诊断系统 |
-
2013
- 2013-10-16 CN CN201310483241.1A patent/CN104572675B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101911077A (zh) * | 2007-12-27 | 2010-12-08 | 皇家飞利浦电子股份有限公司 | 用于细化相似病例搜索的方法和装置 |
CN103345576A (zh) * | 2013-06-25 | 2013-10-09 | 上海交通大学 | 基于四模态医学影像的病例库诊断系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104572675A (zh) | 2015-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104572675B (zh) | 一种相似病历检索的系统及方法 | |
CN111414393B (zh) | 一种基于医学知识图谱的语义相似病例检索方法及设备 | |
US20140344274A1 (en) | Information structuring system | |
CN107391906B (zh) | 基于神经网络和图谱结构的健康饮食知识网络构建方法 | |
Zhang et al. | Artificial intelligence–based traditional Chinese medicine assistive diagnostic system: validation study | |
Ahmed | Implementing relevance feedback for content-based medical image retrieval | |
Tashkandi et al. | Efficient in-database patient similarity analysis for personalized medical decision support systems | |
CN105893597B (zh) | 一种相似病历检索方法及系统 | |
CN110069779B (zh) | 医疗文本的症状实体识别方法及相关装置 | |
CN108352196A (zh) | 没有明显的准标识符的去标识的健康护理数据库的医院匹配 | |
CN107193919A (zh) | 一种电子病历的检索方法及系统 | |
US20160147960A1 (en) | Apparatus and method for providing customized personal health service | |
US20070282940A1 (en) | Thread-ranking apparatus and method | |
CN108346474B (zh) | 基于单词的类内分布与类间分布的电子病历特征选择方法 | |
CN101441658A (zh) | 面向pacs数据库中放射图像的基于内容的检索方法和系统 | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
CN108874755B (zh) | 基于MeSH的医学文献集相似性度量方法 | |
CN112635072A (zh) | 基于相似度计算的icu相似病例检索方法、系统及存储介质 | |
CN113868387A (zh) | 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法 | |
JP6177609B2 (ja) | 医療カルテシステム及び医療カルテ検索方法 | |
CN107273405B (zh) | 基于MeSH表的电子病历档案的智能检索系统 | |
CN107193996B (zh) | 相似病历匹配检索系统 | |
CN115982222A (zh) | 一种基于特病特药场景的搜索方法 | |
CN114420257A (zh) | 中医辅助诊疗方法、系统、设备和存储介质 | |
Hasan et al. | A Hybrid Approach to Clinical Question Answering. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180330 Termination date: 20181016 |