CN109684356A - 基于否定检出的病历检索方法及系统 - Google Patents

基于否定检出的病历检索方法及系统 Download PDF

Info

Publication number
CN109684356A
CN109684356A CN201811435094.XA CN201811435094A CN109684356A CN 109684356 A CN109684356 A CN 109684356A CN 201811435094 A CN201811435094 A CN 201811435094A CN 109684356 A CN109684356 A CN 109684356A
Authority
CN
China
Prior art keywords
content
negative
case history
text
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811435094.XA
Other languages
English (en)
Inventor
王兴维
邰从越
刘龙
史黎鑫
尹延伟
王慧
刘慧芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DALIAN SENYINT DIGITAL MEDICAL SYSTEM Co Ltd
Original Assignee
DALIAN SENYINT DIGITAL MEDICAL SYSTEM Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DALIAN SENYINT DIGITAL MEDICAL SYSTEM Co Ltd filed Critical DALIAN SENYINT DIGITAL MEDICAL SYSTEM Co Ltd
Priority to CN201811435094.XA priority Critical patent/CN109684356A/zh
Publication of CN109684356A publication Critical patent/CN109684356A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

基于否定检出的病历检索方法及系统,属于医院信息领域,为了解决对于电子病例中否定信息的精确检索问题,包括S1.对数据库中的电子病历进行否定信息提取;S2.对分词结果进行干预,索引中注明其否定性质,在词条前加“否认”标注;S3.分词结果构建索引,能够将原始病历的否定信息加入到索引文件中,从而达到了对否定信息的有效检索。

Description

基于否定检出的病历检索方法及系统
技术领域
本发明属于医院信息领域,涉及一种基于否定检出的电子病历否定信息检索方法及系统。
背景技术
随着医院信息化建设的进行,电子病历作为临床医疗信息的基础和医院信息系统的核心构成了决策系统的基础。电子病历管理系统的检索机制需要满足医生需求、科研辅助等操作的需求,需要向全文检索的方向转变。Lucene是目前最为流行的基于Java的开源全文检索工具包,大多系统的搜索功能都是基于Lucene开发的。
目前常见的针对电子病历的全文检索引擎,大多是基于Lucene内核进行实现的。用户输入待检索的内容,搜索引擎通过预先储存好的索引信息进行检索,并对结果进行排序返回。
然而电子病历的搜索需求,与传统搜索引擎有所不同,使用者通常希望可以结合电子病历的相关属性进行检索,而不是单纯的通过关键词匹配。因此,现有的将传统搜索引擎技术应用到电子病历搜索过程的系统,大多只能通过文本匹配来获取结果,对电子病历的结构化信息无法很好的应用到。其中,最主要的问题便是电子病历中的否定信息检索,如原文“否认高血压、冠心病,有心脏病史。”,使用者输入“高血压”大多是希望检索到病历描述中确实患有高血压的情况,而传统搜索引擎由于无法考虑到原文中的否定信息,会直接匹配到“高血压”词条,将上述原文返回给用户,从而导致结果与预期不符。
发明内容
为了解决对于电子病例中否定信息的精确检索问题,本发明提出如下技术方案:一种基于否定检出的病历检索方法,包括如下步骤:
S1.对数据库中的电子病历进行否定信息提取;
S2.对分词结果进行干预,索引中注明其否定性质,在词条前加“否认”标注;
S3.分词结果构建索引。
进一步的,所述步骤S1包括如下步骤:否定信息提取是提供否定模板,以模板匹配的形式,从病历内容中抽取符合模板的内容,并将该部分内容结构化处理,从而获取其中的否定内容。
进一步的,电子病历是相对统一且固定的文本,描述信息使用相对固定句式;
描述现病史信息时,使用句式为:“患者+某某时间+有何症状+相应就诊信息+现状如何”;
描述既往史信息时,使用句式为:“前缀词+状态词+相应病症+持续时间”;
以将常见句式整理提炼成句式模板,提取病历文本中的常见的否定句式。
进一步的,采用泛化的手段提取否定模板,将文本中表示相同内容的词用统一的标签代替,对于“否认、否定、没有、未曾”表示否定意义的词,均统一使用“否认”代替,对于所有病症均统一使用“疾病”代替。
进一步的,当处理一个新的病历文本时,首先对其进行泛化处理,将文本内容进行统一,之后使用已经整理好的模板对该文本进行模板匹配,如果匹配到相应的模板,则将其对应的否定内容进行保存,模板库中包括“否定词+病症”句式,该句式对应的否定内容为“病症”所对应的内容,当输入的待处理文本为“否认病症”,则内容匹配到该模板,将其中的否定内容保存。
进一步的,所述步骤S2包括如下步骤:将文本按词为单位而切分成多个片段,由于需要将在索引中体现否定信息,对于获取的词条属于已提取出的否定内容的词条,在索引中注明其否定性质,在词条前加“否认”标注。
进一步的,所述步骤S3包括如下:使用索引中注明其否定性质,在词条前加“否认”标注后的分词结果,构建倒排索引。
一种基于否定检出的病历检索系统,存储有多条指令,所述指令适于处理器加载并执行:
S1.对数据库中的电子病历进行否定信息提取;
S2.对分词结果进行干预,索引中注明其否定性质,在词条前加“否认”标注;
S3.分词结果构建索引。
有益效果:本发明的基于否定检出的病历检索方法,对电子病历进行结构化处理,提取其中的否定信息后再进行索引构建,解决了传统检索方法检索电子病历时所存在的无法判断否定信息的问题,本发明所采用的基于否定检出对分词结果进行干预的方法,利用了电子病历文本本身具有的句式相对统一,否定信息相对集中的特点。在处理过程中,首先对否定信息进行提取,并基于此对后续分词结果进行干预,将原始病历的否定信息加入到索引文件中,从而达到了对否定信息的有效检索。方法对比传统的文本检索,仅需要在初始的分词阶段进行简单的调整,不会影响到检索的整体流程,通过最少的改动达到对否定信息的检索。在传统的检索方案中,分词通常作为单独的可修改的模块存在,因此本发明的方法得以通过对该模块的修改达到在索引文件中保存原始病历否定信息的效果,解决了传统检索方案无法区分否定信息的缺点。
附图说明
图1为现有技术中全文检索系统构架图。
具体实施方式
实施例:为了能够更为清楚的了解本发明创造,对现有技术中的相关方案作出如下介绍:
传统的电子病历搜索系统和方法,大多采用通用的全文检索技术进行实现,其主要功能为:给定几个关键词,找出包含关键词的文档。其主要架构大致如图1所示,较为常见的检索思路是采用单词-文档矩阵模型,通过该模型,系统保留诸如谋篇文档包含哪些关键词、某个关键词被哪些文档所包含这些信息,因此在输入待检索的关键词时,可以快速找到对应的文档。
系统首先对数据库中已有的电子病历进行处理,主要包括分词、去停用词等操作,之后以词为单位,构建索引,并生成索引文件保存在磁盘。当传入待检索内容时,检索引擎首先对待检索内容进行分析,获取要检索的主要关键词后,通过已经生成索引文件进行文档检索,最终返回相应的文档内容。
其中,倒排索引是一种存储文本索引的结构,适用于快速的全文检索。倒排索引主要由文档中所有不重复的词的列表构成,对于其中的每个词,都有一个包含该词的文档列表。以英文为例,以下是要被索引的文本:
T0=”it is what it is”
T1=”what is it”
T2=”it is a banana”
对上述内容进行索引构建,可得到如下内容:
“a”:T2
“banana”:T2
“is”:T0,T1,T2
“it”:T0,T1,T2
“what”:T0,T1
此时如果检索“what is it”,那么会得到该短语的所有单词各自的结果所在文档,即T1和T2,之后通过其他因素对检索到的T1、T2进行排序返回。
在上述基于倒排索引的全文检索技术中,对于电子病历本身的内容不做考虑,将电子病历视为普通文本进行索引构建,因此,当用户希望针对电子病历中的否认信息进行检索时,上述技术则无法处理。
如用户检索“高血压”,希望只返回确实表明患有高血压病症的电子病历,检索“无高血压”,则只返回表明没有高血压病症的电子病历。假设原文如下:
T0=”患者否认高血压、冠心病”
T1=”既往有高血压病史”
T2=”无心脏病、高血压”
对于现有通用技术,当用户检索“高血压”时,通过构建的倒排索引可知,“高血压”一词对应的文档包括T0、T1、T2,因此会将三篇文档均作为检索结果返回。当用户检索“没有高血压”时,系统首先进行分词,得到“没有”和“高血压”两个待检索的词条,通过构建的倒排索引可知,“没有”和“高血压”对应的文档包括T0、T1、T2,因此也会将三篇文档均作为检索结果返回。(检索过程,只要包含待检索词条中的一条,就会作为结果之一返回。)而该结果显然不是用户想要得到的,用户检索“没有高血压”时,希望得到的结果是确实未患高血压的病历结果,而采用通用检索技术的病历检索系统,由于未对病历内容进行相应处理,将病历内容作为普通文本处理,因此会将患有高血压的病历也作为结果返回。
为此,本实施例提出一种基于否定检出的病历检索方法,该方法可以通过软件实现,与传统检索方法的主要不同点在于对原始电子病历的预处理过程中,加入了否定信息的检出操作。
本发明构建索引的主要步骤如下:
1.对数据库中的电子病历进行否定信息提取;
其中,否定信息提取的实现,是通过整理部分否定模板,通过模板匹配的形式,从病历内容中抽取符合模板的内容,并将该部分内容进行结构化处理,从而获取其中的否定内容。
具体的,首先电子病历是一种格式相较于普通文本而言相对统一且固定的文本,描述类似信息时所使用的句式相对固定,如描述现病史信息时,所用句式多为“患者+某某时间+有何症状+相应就诊信息+现状如何”,描述既往史信息时,所用句式多为“前缀词(如既往、曾等)+状态词(表示是否患有某病症,如否认、患有等)+相应病症+持续时间”(上述句式仅为简单举例,实际句式要更为复杂一些、条数也更多),因此可以通过将常见句式整理提炼成句式模板,用来提取病历文本中的相应信息。同时,病历内容中针对某项具体病症的否定信息,大多出现在既往史内容中,因此,本发明针对既往史部分整理提取了常见的否定句式,用于否定信息提取。
本发明在提取否定模板时,首先采用了泛化的手段,将文本中表示相同内容的词用统一的标签代替,如对于“否认、否定、没有、未曾”等表示否定意义的词,均统一使用“否认”代替,对于所有病症如“高血压、冠心病”等,均统一使用“疾病”代替。通过泛化的过程,对病历文本的内容进行统一,在此基础上进行模板的整理提炼。
当处理一个新的病历文本时,系统首先对其进行泛化处理,将文本内容进行统一,之后使用已经整理好的模板对该文本进行模板匹配,如果匹配到相应的模板,则将其对应的否定内容进行保存。
例如,整理的模板库中包括“否定词+病症”句式,该句式对应的否定内容为“病症”所对应的内容,当输入的待处理文本为“否认高血压”,则内容匹配到该模板,系统会将其中的否定信息“高血压”进行保存。
2.对电子病历内容进行预处理、分词等操作,并结合第一步提取的否定信息对分词结果进行干预;
该步骤主要对电子病历进行分词处理,传统的分词方案,将文本按词为单位切分成多个片段即可。在本发明中,由于需要将在索引中体现否定信息,故在分词的基础上,对于获取的词条中,属于上一步已提取出的否定内容的词条,在索引中会注明其否定性质,本发明通过将词条前加“否认”的方法进行标注。
如病历内容为“否认高血压、冠心病”,传统分词方案得到的结果为“否认、高血压、冠心病”三个词条,通过上一步得到的否定信息可以知道在该份文本中“高血压、冠心病”均为否定内容,因此会将分词结果调整为“否认、否认高血压、否认冠心病”三个词条进行后续操作。
3、使用第二步修改后的分词结果进行索引构建;
该步骤使用第二步的分词结果进行倒排索引的构建,如上述例子中,原文内容为:
T0=”否认高血压、冠心病”
则对应的倒排索引结构如下:
“否认”:T0
“否认高血压”:T0
“否认冠心病”:T0
本发明检索关键词的主要步骤如下:
1、对输入的待检索内容进行否定信息提取;
2、对输入的待检索内容进行预处理、分词等操作,并结合第一步提取的否定信息对分词结果进行干预;
3、使用第二部修改后的分词结果进行检索,并获取相应的检索结果;
由上述方案,其中,通过使用模板匹配操作,将电子病历文本中对应的否定信息进行提取,在处理新的电子病历文本时,可根据已经整理好的模板对文本内容进行匹配。获取病历文本的否定信息后,在分词过程中对否定信息进行否定信息标注,从而将病历文本中的否定信息保存到索引文件中。在通过索引文件进行文本索引时,可直接检索到相应文本的否定信息。因而,本发明所提出的基于否定检出结果对分词结果进行干预的方法,可以解决传统检索方法不能判断原始文本否定信息从而无法准确进行否定检索的问题。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。

Claims (8)

1.一种基于否定检出的病历检索方法,其特征在于,包括如下步骤:
S1.对数据库中的电子病历进行否定信息提取;
S2.对分词结果进行干预,索引中注明其否定性质,在词条前加“否认”标注;
S3.分词结果构建索引。
2.如权利要求1所述的基于否定检出的病历检索方法,其特征在于,所述步骤S1包括如下步骤:否定信息提取是提供否定模板,以模板匹配的形式,从病历内容中抽取符合模板的内容,并将该部分内容结构化处理,从而获取其中的否定内容。
3.如权利要求2所述的基于否定检出的病历检索方法,其特征在于,电子病历是相对统一且固定的文本,描述信息使用相对固定句式;
描述现病史信息时,使用句式为:“患者+某某时间+有何症状+相应就诊信息+现状如何”;
描述既往史信息时,使用句式为:“前缀词+状态词+相应病症+持续时间”;
以将常见句式整理提炼成句式模板,提取病历文本中的常见的否定句式。
4.如权利要求3所述的基于否定检出的病历检索方法,其特征在于,采用泛化的手段提取否定模板,将文本中表示相同内容的词用统一的标签代替,对于“否认、否定、没有、未曾”表示否定意义的词,均统一使用“否认”代替,对于所有病症均统一使用“疾病”代替。
5.如权利要求4所述的基于否定检出的病历检索方法,其特征在于,当处理一个新的病历文本时,首先对其进行泛化处理,将文本内容进行统一,之后使用已经整理好的模板对该文本进行模板匹配,如果匹配到相应的模板,则将其对应的否定内容进行保存,模板库中包括“否定词+病症”句式,该句式对应的否定内容为“病症”所对应的内容,当输入的待处理文本为“否认病症”,则内容匹配到该模板,将其中的否定内容保存。
6.如权利要求4所述的基于否定检出的病历检索方法,其特征在于,所述步骤S2包括如下步骤:将文本按词为单位而切分成多个片段,由于需要将在索引中体现否定信息,对于获取的词条属于已提取出的否定内容的词条,在索引中注明其否定性质,在词条前加“否认”标注。
7.如权利要求1所述的基于否定检出的病历检索方法,其特征在于,所述步骤S3包括如下:使用索引中注明其否定性质,在词条前加“否认”标注后的分词结果,构建倒排索引。
8.一种基于否定检出的病历检索系统,其特征在于,存储有多条指令,所述指令适于处理器加载并执行:
S1.对数据库中的电子病历进行否定信息提取;
S2.对分词结果进行干预,索引中注明其否定性质,在词条前加“否认”标注;
S3.分词结果构建索引。
CN201811435094.XA 2018-11-28 2018-11-28 基于否定检出的病历检索方法及系统 Pending CN109684356A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811435094.XA CN109684356A (zh) 2018-11-28 2018-11-28 基于否定检出的病历检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811435094.XA CN109684356A (zh) 2018-11-28 2018-11-28 基于否定检出的病历检索方法及系统

Publications (1)

Publication Number Publication Date
CN109684356A true CN109684356A (zh) 2019-04-26

Family

ID=66185923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811435094.XA Pending CN109684356A (zh) 2018-11-28 2018-11-28 基于否定检出的病历检索方法及系统

Country Status (1)

Country Link
CN (1) CN109684356A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111243700A (zh) * 2020-01-15 2020-06-05 创业慧康科技股份有限公司 一种电子病历输入方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020453A (zh) * 2012-12-15 2013-04-03 中国科学院深圳先进技术研究院 基于本体技术的结构化电子病历生成方法
CN107341264A (zh) * 2017-07-19 2017-11-10 东北大学 一种支持自定义实体的电子病历检索系统及方法
CN107818815A (zh) * 2017-10-30 2018-03-20 北京康夫子科技有限公司 电子病历的检索方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020453A (zh) * 2012-12-15 2013-04-03 中国科学院深圳先进技术研究院 基于本体技术的结构化电子病历生成方法
CN107341264A (zh) * 2017-07-19 2017-11-10 东北大学 一种支持自定义实体的电子病历检索系统及方法
CN107818815A (zh) * 2017-10-30 2018-03-20 北京康夫子科技有限公司 电子病历的检索方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ARONOW等: "Ad Hoc Classification of Radiology Reports", 《JOURNAL OF THE AMERICAN MEDICAL INFORMATICS ASSOCIATION》 *
田侦: "面向医疗领域的垂直搜索引擎的设计与实现", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111243700A (zh) * 2020-01-15 2020-06-05 创业慧康科技股份有限公司 一种电子病历输入方法及装置
CN111243700B (zh) * 2020-01-15 2023-09-29 创业慧康科技股份有限公司 一种电子病历输入方法及装置

Similar Documents

Publication Publication Date Title
US11449538B2 (en) Method and system for high performance integration, processing and searching of structured and unstructured data
US8326819B2 (en) Method and system for high performance data metatagging and data indexing using coprocessors
US9613125B2 (en) Data store organizing data using semantic classification
Zhang et al. Novel entity discovery from web tables
WO2008063973A2 (en) Method and system for high performance data metatagging and data indexing using coprocessors
US20140108424A1 (en) Data store organizing data using semantic classification
Meuschke et al. Improving academic plagiarism detection for STEM documents by analyzing mathematical content and citations
Amato et al. Semantic processing of multimedia data for e-government applications
US9081847B2 (en) Data store organizing data using semantic classification
Senellart et al. Automatic wrapper induction from hidden-web sources with domain knowledge
EP2601573A1 (en) Method and system for integrating web-based systems with local document processing applications
Demner-Fushman et al. A Knowledge-Based Approach to Medical Records Retrieval.
CN112687364B (zh) 一种基于Hbase的医疗数据管理方法及其系统
Hazman et al. Ontology learning from domain specific web documents
Lakshmi et al. Association rule extraction from medical transcripts of diabetic patients
Luo et al. A hybrid normalization method for medical concepts in clinical narrative using semantic matching
Weissman et al. Identifying duplicate and contradictory information in wikipedia
Cheng et al. MISDA: web services discovery approach based on mining interface semantics
CN109684356A (zh) 基于否定检出的病历检索方法及系统
Obeid et al. An AI approach for identifying patients with cirrhosis
JP2014089646A (ja) 電子データ処理装置、及び電子データ処理方法
Wu et al. Mining and correlation analysis of association rules between properties and therapeutic efficacy of Chinese materia medica based on strategy pattern
Gérardin et al. Detecting automatically the layout of clinical documents to enhance the performances of downstream natural language processing
CN107729518A (zh) 一种关系型数据库的全文检索方法及装置
Nordhoff et al. Glottolog/Langdoc: Increasing the visibility of grey literature for low-density languages

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination