CN109684356A - 基于否定检出的病历检索方法及系统 - Google Patents
基于否定检出的病历检索方法及系统 Download PDFInfo
- Publication number
- CN109684356A CN109684356A CN201811435094.XA CN201811435094A CN109684356A CN 109684356 A CN109684356 A CN 109684356A CN 201811435094 A CN201811435094 A CN 201811435094A CN 109684356 A CN109684356 A CN 109684356A
- Authority
- CN
- China
- Prior art keywords
- content
- negative
- case history
- text
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
基于否定检出的病历检索方法及系统,属于医院信息领域,为了解决对于电子病例中否定信息的精确检索问题,包括S1.对数据库中的电子病历进行否定信息提取;S2.对分词结果进行干预,索引中注明其否定性质,在词条前加“否认”标注;S3.分词结果构建索引,能够将原始病历的否定信息加入到索引文件中,从而达到了对否定信息的有效检索。
Description
技术领域
本发明属于医院信息领域,涉及一种基于否定检出的电子病历否定信息检索方法及系统。
背景技术
随着医院信息化建设的进行,电子病历作为临床医疗信息的基础和医院信息系统的核心构成了决策系统的基础。电子病历管理系统的检索机制需要满足医生需求、科研辅助等操作的需求,需要向全文检索的方向转变。Lucene是目前最为流行的基于Java的开源全文检索工具包,大多系统的搜索功能都是基于Lucene开发的。
目前常见的针对电子病历的全文检索引擎,大多是基于Lucene内核进行实现的。用户输入待检索的内容,搜索引擎通过预先储存好的索引信息进行检索,并对结果进行排序返回。
然而电子病历的搜索需求,与传统搜索引擎有所不同,使用者通常希望可以结合电子病历的相关属性进行检索,而不是单纯的通过关键词匹配。因此,现有的将传统搜索引擎技术应用到电子病历搜索过程的系统,大多只能通过文本匹配来获取结果,对电子病历的结构化信息无法很好的应用到。其中,最主要的问题便是电子病历中的否定信息检索,如原文“否认高血压、冠心病,有心脏病史。”,使用者输入“高血压”大多是希望检索到病历描述中确实患有高血压的情况,而传统搜索引擎由于无法考虑到原文中的否定信息,会直接匹配到“高血压”词条,将上述原文返回给用户,从而导致结果与预期不符。
发明内容
为了解决对于电子病例中否定信息的精确检索问题,本发明提出如下技术方案:一种基于否定检出的病历检索方法,包括如下步骤:
S1.对数据库中的电子病历进行否定信息提取;
S2.对分词结果进行干预,索引中注明其否定性质,在词条前加“否认”标注;
S3.分词结果构建索引。
进一步的,所述步骤S1包括如下步骤:否定信息提取是提供否定模板,以模板匹配的形式,从病历内容中抽取符合模板的内容,并将该部分内容结构化处理,从而获取其中的否定内容。
进一步的,电子病历是相对统一且固定的文本,描述信息使用相对固定句式;
描述现病史信息时,使用句式为:“患者+某某时间+有何症状+相应就诊信息+现状如何”;
描述既往史信息时,使用句式为:“前缀词+状态词+相应病症+持续时间”;
以将常见句式整理提炼成句式模板,提取病历文本中的常见的否定句式。
进一步的,采用泛化的手段提取否定模板,将文本中表示相同内容的词用统一的标签代替,对于“否认、否定、没有、未曾”表示否定意义的词,均统一使用“否认”代替,对于所有病症均统一使用“疾病”代替。
进一步的,当处理一个新的病历文本时,首先对其进行泛化处理,将文本内容进行统一,之后使用已经整理好的模板对该文本进行模板匹配,如果匹配到相应的模板,则将其对应的否定内容进行保存,模板库中包括“否定词+病症”句式,该句式对应的否定内容为“病症”所对应的内容,当输入的待处理文本为“否认病症”,则内容匹配到该模板,将其中的否定内容保存。
进一步的,所述步骤S2包括如下步骤:将文本按词为单位而切分成多个片段,由于需要将在索引中体现否定信息,对于获取的词条属于已提取出的否定内容的词条,在索引中注明其否定性质,在词条前加“否认”标注。
进一步的,所述步骤S3包括如下:使用索引中注明其否定性质,在词条前加“否认”标注后的分词结果,构建倒排索引。
一种基于否定检出的病历检索系统,存储有多条指令,所述指令适于处理器加载并执行:
S1.对数据库中的电子病历进行否定信息提取;
S2.对分词结果进行干预,索引中注明其否定性质,在词条前加“否认”标注;
S3.分词结果构建索引。
有益效果:本发明的基于否定检出的病历检索方法,对电子病历进行结构化处理,提取其中的否定信息后再进行索引构建,解决了传统检索方法检索电子病历时所存在的无法判断否定信息的问题,本发明所采用的基于否定检出对分词结果进行干预的方法,利用了电子病历文本本身具有的句式相对统一,否定信息相对集中的特点。在处理过程中,首先对否定信息进行提取,并基于此对后续分词结果进行干预,将原始病历的否定信息加入到索引文件中,从而达到了对否定信息的有效检索。方法对比传统的文本检索,仅需要在初始的分词阶段进行简单的调整,不会影响到检索的整体流程,通过最少的改动达到对否定信息的检索。在传统的检索方案中,分词通常作为单独的可修改的模块存在,因此本发明的方法得以通过对该模块的修改达到在索引文件中保存原始病历否定信息的效果,解决了传统检索方案无法区分否定信息的缺点。
附图说明
图1为现有技术中全文检索系统构架图。
具体实施方式
实施例:为了能够更为清楚的了解本发明创造,对现有技术中的相关方案作出如下介绍:
传统的电子病历搜索系统和方法,大多采用通用的全文检索技术进行实现,其主要功能为:给定几个关键词,找出包含关键词的文档。其主要架构大致如图1所示,较为常见的检索思路是采用单词-文档矩阵模型,通过该模型,系统保留诸如谋篇文档包含哪些关键词、某个关键词被哪些文档所包含这些信息,因此在输入待检索的关键词时,可以快速找到对应的文档。
系统首先对数据库中已有的电子病历进行处理,主要包括分词、去停用词等操作,之后以词为单位,构建索引,并生成索引文件保存在磁盘。当传入待检索内容时,检索引擎首先对待检索内容进行分析,获取要检索的主要关键词后,通过已经生成索引文件进行文档检索,最终返回相应的文档内容。
其中,倒排索引是一种存储文本索引的结构,适用于快速的全文检索。倒排索引主要由文档中所有不重复的词的列表构成,对于其中的每个词,都有一个包含该词的文档列表。以英文为例,以下是要被索引的文本:
T0=”it is what it is”
T1=”what is it”
T2=”it is a banana”
对上述内容进行索引构建,可得到如下内容:
“a”:T2
“banana”:T2
“is”:T0,T1,T2
“it”:T0,T1,T2
“what”:T0,T1
此时如果检索“what is it”,那么会得到该短语的所有单词各自的结果所在文档,即T1和T2,之后通过其他因素对检索到的T1、T2进行排序返回。
在上述基于倒排索引的全文检索技术中,对于电子病历本身的内容不做考虑,将电子病历视为普通文本进行索引构建,因此,当用户希望针对电子病历中的否认信息进行检索时,上述技术则无法处理。
如用户检索“高血压”,希望只返回确实表明患有高血压病症的电子病历,检索“无高血压”,则只返回表明没有高血压病症的电子病历。假设原文如下:
T0=”患者否认高血压、冠心病”
T1=”既往有高血压病史”
T2=”无心脏病、高血压”
对于现有通用技术,当用户检索“高血压”时,通过构建的倒排索引可知,“高血压”一词对应的文档包括T0、T1、T2,因此会将三篇文档均作为检索结果返回。当用户检索“没有高血压”时,系统首先进行分词,得到“没有”和“高血压”两个待检索的词条,通过构建的倒排索引可知,“没有”和“高血压”对应的文档包括T0、T1、T2,因此也会将三篇文档均作为检索结果返回。(检索过程,只要包含待检索词条中的一条,就会作为结果之一返回。)而该结果显然不是用户想要得到的,用户检索“没有高血压”时,希望得到的结果是确实未患高血压的病历结果,而采用通用检索技术的病历检索系统,由于未对病历内容进行相应处理,将病历内容作为普通文本处理,因此会将患有高血压的病历也作为结果返回。
为此,本实施例提出一种基于否定检出的病历检索方法,该方法可以通过软件实现,与传统检索方法的主要不同点在于对原始电子病历的预处理过程中,加入了否定信息的检出操作。
本发明构建索引的主要步骤如下:
1.对数据库中的电子病历进行否定信息提取;
其中,否定信息提取的实现,是通过整理部分否定模板,通过模板匹配的形式,从病历内容中抽取符合模板的内容,并将该部分内容进行结构化处理,从而获取其中的否定内容。
具体的,首先电子病历是一种格式相较于普通文本而言相对统一且固定的文本,描述类似信息时所使用的句式相对固定,如描述现病史信息时,所用句式多为“患者+某某时间+有何症状+相应就诊信息+现状如何”,描述既往史信息时,所用句式多为“前缀词(如既往、曾等)+状态词(表示是否患有某病症,如否认、患有等)+相应病症+持续时间”(上述句式仅为简单举例,实际句式要更为复杂一些、条数也更多),因此可以通过将常见句式整理提炼成句式模板,用来提取病历文本中的相应信息。同时,病历内容中针对某项具体病症的否定信息,大多出现在既往史内容中,因此,本发明针对既往史部分整理提取了常见的否定句式,用于否定信息提取。
本发明在提取否定模板时,首先采用了泛化的手段,将文本中表示相同内容的词用统一的标签代替,如对于“否认、否定、没有、未曾”等表示否定意义的词,均统一使用“否认”代替,对于所有病症如“高血压、冠心病”等,均统一使用“疾病”代替。通过泛化的过程,对病历文本的内容进行统一,在此基础上进行模板的整理提炼。
当处理一个新的病历文本时,系统首先对其进行泛化处理,将文本内容进行统一,之后使用已经整理好的模板对该文本进行模板匹配,如果匹配到相应的模板,则将其对应的否定内容进行保存。
例如,整理的模板库中包括“否定词+病症”句式,该句式对应的否定内容为“病症”所对应的内容,当输入的待处理文本为“否认高血压”,则内容匹配到该模板,系统会将其中的否定信息“高血压”进行保存。
2.对电子病历内容进行预处理、分词等操作,并结合第一步提取的否定信息对分词结果进行干预;
该步骤主要对电子病历进行分词处理,传统的分词方案,将文本按词为单位切分成多个片段即可。在本发明中,由于需要将在索引中体现否定信息,故在分词的基础上,对于获取的词条中,属于上一步已提取出的否定内容的词条,在索引中会注明其否定性质,本发明通过将词条前加“否认”的方法进行标注。
如病历内容为“否认高血压、冠心病”,传统分词方案得到的结果为“否认、高血压、冠心病”三个词条,通过上一步得到的否定信息可以知道在该份文本中“高血压、冠心病”均为否定内容,因此会将分词结果调整为“否认、否认高血压、否认冠心病”三个词条进行后续操作。
3、使用第二步修改后的分词结果进行索引构建;
该步骤使用第二步的分词结果进行倒排索引的构建,如上述例子中,原文内容为:
T0=”否认高血压、冠心病”
则对应的倒排索引结构如下:
“否认”:T0
“否认高血压”:T0
“否认冠心病”:T0
本发明检索关键词的主要步骤如下:
1、对输入的待检索内容进行否定信息提取;
2、对输入的待检索内容进行预处理、分词等操作,并结合第一步提取的否定信息对分词结果进行干预;
3、使用第二部修改后的分词结果进行检索,并获取相应的检索结果;
由上述方案,其中,通过使用模板匹配操作,将电子病历文本中对应的否定信息进行提取,在处理新的电子病历文本时,可根据已经整理好的模板对文本内容进行匹配。获取病历文本的否定信息后,在分词过程中对否定信息进行否定信息标注,从而将病历文本中的否定信息保存到索引文件中。在通过索引文件进行文本索引时,可直接检索到相应文本的否定信息。因而,本发明所提出的基于否定检出结果对分词结果进行干预的方法,可以解决传统检索方法不能判断原始文本否定信息从而无法准确进行否定检索的问题。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。
Claims (8)
1.一种基于否定检出的病历检索方法,其特征在于,包括如下步骤:
S1.对数据库中的电子病历进行否定信息提取;
S2.对分词结果进行干预,索引中注明其否定性质,在词条前加“否认”标注;
S3.分词结果构建索引。
2.如权利要求1所述的基于否定检出的病历检索方法,其特征在于,所述步骤S1包括如下步骤:否定信息提取是提供否定模板,以模板匹配的形式,从病历内容中抽取符合模板的内容,并将该部分内容结构化处理,从而获取其中的否定内容。
3.如权利要求2所述的基于否定检出的病历检索方法,其特征在于,电子病历是相对统一且固定的文本,描述信息使用相对固定句式;
描述现病史信息时,使用句式为:“患者+某某时间+有何症状+相应就诊信息+现状如何”;
描述既往史信息时,使用句式为:“前缀词+状态词+相应病症+持续时间”;
以将常见句式整理提炼成句式模板,提取病历文本中的常见的否定句式。
4.如权利要求3所述的基于否定检出的病历检索方法,其特征在于,采用泛化的手段提取否定模板,将文本中表示相同内容的词用统一的标签代替,对于“否认、否定、没有、未曾”表示否定意义的词,均统一使用“否认”代替,对于所有病症均统一使用“疾病”代替。
5.如权利要求4所述的基于否定检出的病历检索方法,其特征在于,当处理一个新的病历文本时,首先对其进行泛化处理,将文本内容进行统一,之后使用已经整理好的模板对该文本进行模板匹配,如果匹配到相应的模板,则将其对应的否定内容进行保存,模板库中包括“否定词+病症”句式,该句式对应的否定内容为“病症”所对应的内容,当输入的待处理文本为“否认病症”,则内容匹配到该模板,将其中的否定内容保存。
6.如权利要求4所述的基于否定检出的病历检索方法,其特征在于,所述步骤S2包括如下步骤:将文本按词为单位而切分成多个片段,由于需要将在索引中体现否定信息,对于获取的词条属于已提取出的否定内容的词条,在索引中注明其否定性质,在词条前加“否认”标注。
7.如权利要求1所述的基于否定检出的病历检索方法,其特征在于,所述步骤S3包括如下:使用索引中注明其否定性质,在词条前加“否认”标注后的分词结果,构建倒排索引。
8.一种基于否定检出的病历检索系统,其特征在于,存储有多条指令,所述指令适于处理器加载并执行:
S1.对数据库中的电子病历进行否定信息提取;
S2.对分词结果进行干预,索引中注明其否定性质,在词条前加“否认”标注;
S3.分词结果构建索引。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811435094.XA CN109684356A (zh) | 2018-11-28 | 2018-11-28 | 基于否定检出的病历检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811435094.XA CN109684356A (zh) | 2018-11-28 | 2018-11-28 | 基于否定检出的病历检索方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109684356A true CN109684356A (zh) | 2019-04-26 |
Family
ID=66185923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811435094.XA Pending CN109684356A (zh) | 2018-11-28 | 2018-11-28 | 基于否定检出的病历检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109684356A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111243700A (zh) * | 2020-01-15 | 2020-06-05 | 创业慧康科技股份有限公司 | 一种电子病历输入方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020453A (zh) * | 2012-12-15 | 2013-04-03 | 中国科学院深圳先进技术研究院 | 基于本体技术的结构化电子病历生成方法 |
CN107341264A (zh) * | 2017-07-19 | 2017-11-10 | 东北大学 | 一种支持自定义实体的电子病历检索系统及方法 |
CN107818815A (zh) * | 2017-10-30 | 2018-03-20 | 北京康夫子科技有限公司 | 电子病历的检索方法及系统 |
-
2018
- 2018-11-28 CN CN201811435094.XA patent/CN109684356A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020453A (zh) * | 2012-12-15 | 2013-04-03 | 中国科学院深圳先进技术研究院 | 基于本体技术的结构化电子病历生成方法 |
CN107341264A (zh) * | 2017-07-19 | 2017-11-10 | 东北大学 | 一种支持自定义实体的电子病历检索系统及方法 |
CN107818815A (zh) * | 2017-10-30 | 2018-03-20 | 北京康夫子科技有限公司 | 电子病历的检索方法及系统 |
Non-Patent Citations (2)
Title |
---|
ARONOW等: "Ad Hoc Classification of Radiology Reports", 《JOURNAL OF THE AMERICAN MEDICAL INFORMATICS ASSOCIATION》 * |
田侦: "面向医疗领域的垂直搜索引擎的设计与实现", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111243700A (zh) * | 2020-01-15 | 2020-06-05 | 创业慧康科技股份有限公司 | 一种电子病历输入方法及装置 |
CN111243700B (zh) * | 2020-01-15 | 2023-09-29 | 创业慧康科技股份有限公司 | 一种电子病历输入方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11449538B2 (en) | Method and system for high performance integration, processing and searching of structured and unstructured data | |
US8326819B2 (en) | Method and system for high performance data metatagging and data indexing using coprocessors | |
US9613125B2 (en) | Data store organizing data using semantic classification | |
Zhang et al. | Novel entity discovery from web tables | |
WO2008063973A2 (en) | Method and system for high performance data metatagging and data indexing using coprocessors | |
US20140108424A1 (en) | Data store organizing data using semantic classification | |
Meuschke et al. | Improving academic plagiarism detection for STEM documents by analyzing mathematical content and citations | |
Amato et al. | Semantic processing of multimedia data for e-government applications | |
US9081847B2 (en) | Data store organizing data using semantic classification | |
Senellart et al. | Automatic wrapper induction from hidden-web sources with domain knowledge | |
EP2601573A1 (en) | Method and system for integrating web-based systems with local document processing applications | |
Demner-Fushman et al. | A Knowledge-Based Approach to Medical Records Retrieval. | |
CN112687364B (zh) | 一种基于Hbase的医疗数据管理方法及其系统 | |
Hazman et al. | Ontology learning from domain specific web documents | |
Lakshmi et al. | Association rule extraction from medical transcripts of diabetic patients | |
Luo et al. | A hybrid normalization method for medical concepts in clinical narrative using semantic matching | |
Weissman et al. | Identifying duplicate and contradictory information in wikipedia | |
Cheng et al. | MISDA: web services discovery approach based on mining interface semantics | |
CN109684356A (zh) | 基于否定检出的病历检索方法及系统 | |
Obeid et al. | An AI approach for identifying patients with cirrhosis | |
JP2014089646A (ja) | 電子データ処理装置、及び電子データ処理方法 | |
Wu et al. | Mining and correlation analysis of association rules between properties and therapeutic efficacy of Chinese materia medica based on strategy pattern | |
Gérardin et al. | Detecting automatically the layout of clinical documents to enhance the performances of downstream natural language processing | |
CN107729518A (zh) | 一种关系型数据库的全文检索方法及装置 | |
Nordhoff et al. | Glottolog/Langdoc: Increasing the visibility of grey literature for low-density languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |