CN109684356A

CN109684356A - 基于否定检出的病历检索方法及系统

Info

Publication number: CN109684356A
Application number: CN201811435094.XA
Authority: CN
Inventors: 王兴维; 邰从越; 刘龙; 史黎鑫; 尹延伟; 王慧; 刘慧芳
Original assignee: DALIAN SENYINT DIGITAL MEDICAL SYSTEM Co Ltd
Current assignee: DALIAN SENYINT DIGITAL MEDICAL SYSTEM Co Ltd
Priority date: 2018-11-28
Filing date: 2018-11-28
Publication date: 2019-04-26

Abstract

基于否定检出的病历检索方法及系统，属于医院信息领域，为了解决对于电子病例中否定信息的精确检索问题，包括S1.对数据库中的电子病历进行否定信息提取；S2.对分词结果进行干预，索引中注明其否定性质，在词条前加“否认”标注；S3.分词结果构建索引，能够将原始病历的否定信息加入到索引文件中，从而达到了对否定信息的有效检索。

Description

基于否定检出的病历检索方法及系统

技术领域

本发明属于医院信息领域，涉及一种基于否定检出的电子病历否定信息检索方法及系统。

背景技术

随着医院信息化建设的进行，电子病历作为临床医疗信息的基础和医院信息系统的核心构成了决策系统的基础。电子病历管理系统的检索机制需要满足医生需求、科研辅助等操作的需求，需要向全文检索的方向转变。Lucene是目前最为流行的基于Java的开源全文检索工具包，大多系统的搜索功能都是基于Lucene开发的。

目前常见的针对电子病历的全文检索引擎，大多是基于Lucene内核进行实现的。用户输入待检索的内容，搜索引擎通过预先储存好的索引信息进行检索，并对结果进行排序返回。

然而电子病历的搜索需求，与传统搜索引擎有所不同，使用者通常希望可以结合电子病历的相关属性进行检索，而不是单纯的通过关键词匹配。因此，现有的将传统搜索引擎技术应用到电子病历搜索过程的系统，大多只能通过文本匹配来获取结果，对电子病历的结构化信息无法很好的应用到。其中，最主要的问题便是电子病历中的否定信息检索，如原文“否认高血压、冠心病，有心脏病史。”，使用者输入“高血压”大多是希望检索到病历描述中确实患有高血压的情况，而传统搜索引擎由于无法考虑到原文中的否定信息，会直接匹配到“高血压”词条，将上述原文返回给用户，从而导致结果与预期不符。

发明内容

为了解决对于电子病例中否定信息的精确检索问题，本发明提出如下技术方案：一种基于否定检出的病历检索方法，包括如下步骤：

S1.对数据库中的电子病历进行否定信息提取；

S2.对分词结果进行干预，索引中注明其否定性质，在词条前加“否认”标注；

S3.分词结果构建索引。

进一步的，所述步骤S1包括如下步骤：否定信息提取是提供否定模板，以模板匹配的形式，从病历内容中抽取符合模板的内容，并将该部分内容结构化处理，从而获取其中的否定内容。

进一步的，电子病历是相对统一且固定的文本，描述信息使用相对固定句式；

描述现病史信息时，使用句式为：“患者+某某时间+有何症状+相应就诊信息+现状如何”；

描述既往史信息时，使用句式为：“前缀词+状态词+相应病症+持续时间”；

以将常见句式整理提炼成句式模板，提取病历文本中的常见的否定句式。

进一步的，采用泛化的手段提取否定模板，将文本中表示相同内容的词用统一的标签代替，对于“否认、否定、没有、未曾”表示否定意义的词，均统一使用“否认”代替，对于所有病症均统一使用“疾病”代替。

进一步的，当处理一个新的病历文本时，首先对其进行泛化处理，将文本内容进行统一，之后使用已经整理好的模板对该文本进行模板匹配，如果匹配到相应的模板，则将其对应的否定内容进行保存，模板库中包括“否定词+病症”句式，该句式对应的否定内容为“病症”所对应的内容，当输入的待处理文本为“否认病症”，则内容匹配到该模板，将其中的否定内容保存。

进一步的，所述步骤S2包括如下步骤：将文本按词为单位而切分成多个片段，由于需要将在索引中体现否定信息，对于获取的词条属于已提取出的否定内容的词条，在索引中注明其否定性质，在词条前加“否认”标注。

进一步的，所述步骤S3包括如下：使用索引中注明其否定性质，在词条前加“否认”标注后的分词结果，构建倒排索引。

一种基于否定检出的病历检索系统，存储有多条指令，所述指令适于处理器加载并执行：

S1.对数据库中的电子病历进行否定信息提取；

S3.分词结果构建索引。

有益效果：本发明的基于否定检出的病历检索方法，对电子病历进行结构化处理，提取其中的否定信息后再进行索引构建，解决了传统检索方法检索电子病历时所存在的无法判断否定信息的问题，本发明所采用的基于否定检出对分词结果进行干预的方法，利用了电子病历文本本身具有的句式相对统一，否定信息相对集中的特点。在处理过程中，首先对否定信息进行提取，并基于此对后续分词结果进行干预，将原始病历的否定信息加入到索引文件中，从而达到了对否定信息的有效检索。方法对比传统的文本检索，仅需要在初始的分词阶段进行简单的调整，不会影响到检索的整体流程，通过最少的改动达到对否定信息的检索。在传统的检索方案中，分词通常作为单独的可修改的模块存在，因此本发明的方法得以通过对该模块的修改达到在索引文件中保存原始病历否定信息的效果，解决了传统检索方案无法区分否定信息的缺点。

附图说明

图1为现有技术中全文检索系统构架图。

具体实施方式

实施例：为了能够更为清楚的了解本发明创造，对现有技术中的相关方案作出如下介绍：

传统的电子病历搜索系统和方法，大多采用通用的全文检索技术进行实现，其主要功能为：给定几个关键词，找出包含关键词的文档。其主要架构大致如图1所示，较为常见的检索思路是采用单词-文档矩阵模型，通过该模型，系统保留诸如谋篇文档包含哪些关键词、某个关键词被哪些文档所包含这些信息，因此在输入待检索的关键词时，可以快速找到对应的文档。

系统首先对数据库中已有的电子病历进行处理，主要包括分词、去停用词等操作，之后以词为单位，构建索引，并生成索引文件保存在磁盘。当传入待检索内容时，检索引擎首先对待检索内容进行分析，获取要检索的主要关键词后，通过已经生成索引文件进行文档检索，最终返回相应的文档内容。

其中，倒排索引是一种存储文本索引的结构，适用于快速的全文检索。倒排索引主要由文档中所有不重复的词的列表构成，对于其中的每个词，都有一个包含该词的文档列表。以英文为例，以下是要被索引的文本：

T0＝”it is what it is”

T1＝”what is it”

T2＝”it is a banana”

对上述内容进行索引构建，可得到如下内容：

“a”:T2

“banana”:T2

“is”:T0,T1,T2

“it”:T0,T1,T2

“what”:T0,T1

此时如果检索“what is it”，那么会得到该短语的所有单词各自的结果所在文档，即T1和T2，之后通过其他因素对检索到的T1、T2进行排序返回。

在上述基于倒排索引的全文检索技术中，对于电子病历本身的内容不做考虑，将电子病历视为普通文本进行索引构建，因此，当用户希望针对电子病历中的否认信息进行检索时，上述技术则无法处理。

如用户检索“高血压”，希望只返回确实表明患有高血压病症的电子病历，检索“无高血压”，则只返回表明没有高血压病症的电子病历。假设原文如下：

T0＝”患者否认高血压、冠心病”

T1＝”既往有高血压病史”

T2＝”无心脏病、高血压”

对于现有通用技术，当用户检索“高血压”时，通过构建的倒排索引可知，“高血压”一词对应的文档包括T0、T1、T2，因此会将三篇文档均作为检索结果返回。当用户检索“没有高血压”时，系统首先进行分词，得到“没有”和“高血压”两个待检索的词条，通过构建的倒排索引可知，“没有”和“高血压”对应的文档包括T0、T1、T2，因此也会将三篇文档均作为检索结果返回。(检索过程，只要包含待检索词条中的一条，就会作为结果之一返回。)而该结果显然不是用户想要得到的，用户检索“没有高血压”时，希望得到的结果是确实未患高血压的病历结果，而采用通用检索技术的病历检索系统，由于未对病历内容进行相应处理，将病历内容作为普通文本处理，因此会将患有高血压的病历也作为结果返回。

为此，本实施例提出一种基于否定检出的病历检索方法，该方法可以通过软件实现，与传统检索方法的主要不同点在于对原始电子病历的预处理过程中，加入了否定信息的检出操作。

本发明构建索引的主要步骤如下：

1.对数据库中的电子病历进行否定信息提取；

其中，否定信息提取的实现，是通过整理部分否定模板，通过模板匹配的形式，从病历内容中抽取符合模板的内容，并将该部分内容进行结构化处理，从而获取其中的否定内容。

具体的，首先电子病历是一种格式相较于普通文本而言相对统一且固定的文本，描述类似信息时所使用的句式相对固定，如描述现病史信息时，所用句式多为“患者+某某时间+有何症状+相应就诊信息+现状如何”，描述既往史信息时，所用句式多为“前缀词(如既往、曾等)+状态词(表示是否患有某病症，如否认、患有等)+相应病症+持续时间”(上述句式仅为简单举例，实际句式要更为复杂一些、条数也更多)，因此可以通过将常见句式整理提炼成句式模板，用来提取病历文本中的相应信息。同时，病历内容中针对某项具体病症的否定信息，大多出现在既往史内容中，因此，本发明针对既往史部分整理提取了常见的否定句式，用于否定信息提取。

本发明在提取否定模板时，首先采用了泛化的手段，将文本中表示相同内容的词用统一的标签代替，如对于“否认、否定、没有、未曾”等表示否定意义的词，均统一使用“否认”代替，对于所有病症如“高血压、冠心病”等，均统一使用“疾病”代替。通过泛化的过程，对病历文本的内容进行统一，在此基础上进行模板的整理提炼。

当处理一个新的病历文本时，系统首先对其进行泛化处理，将文本内容进行统一，之后使用已经整理好的模板对该文本进行模板匹配，如果匹配到相应的模板，则将其对应的否定内容进行保存。

例如，整理的模板库中包括“否定词+病症”句式，该句式对应的否定内容为“病症”所对应的内容，当输入的待处理文本为“否认高血压”，则内容匹配到该模板，系统会将其中的否定信息“高血压”进行保存。

2.对电子病历内容进行预处理、分词等操作，并结合第一步提取的否定信息对分词结果进行干预；

该步骤主要对电子病历进行分词处理，传统的分词方案，将文本按词为单位切分成多个片段即可。在本发明中，由于需要将在索引中体现否定信息，故在分词的基础上，对于获取的词条中，属于上一步已提取出的否定内容的词条，在索引中会注明其否定性质，本发明通过将词条前加“否认”的方法进行标注。

如病历内容为“否认高血压、冠心病”，传统分词方案得到的结果为“否认、高血压、冠心病”三个词条，通过上一步得到的否定信息可以知道在该份文本中“高血压、冠心病”均为否定内容，因此会将分词结果调整为“否认、否认高血压、否认冠心病”三个词条进行后续操作。

3、使用第二步修改后的分词结果进行索引构建；

该步骤使用第二步的分词结果进行倒排索引的构建，如上述例子中，原文内容为：

T0＝”否认高血压、冠心病”

则对应的倒排索引结构如下：

“否认”：T0

“否认高血压”：T0

“否认冠心病”：T0

本发明检索关键词的主要步骤如下：

1、对输入的待检索内容进行否定信息提取；

2、对输入的待检索内容进行预处理、分词等操作，并结合第一步提取的否定信息对分词结果进行干预；

3、使用第二部修改后的分词结果进行检索，并获取相应的检索结果；

由上述方案，其中，通过使用模板匹配操作，将电子病历文本中对应的否定信息进行提取，在处理新的电子病历文本时，可根据已经整理好的模板对文本内容进行匹配。获取病历文本的否定信息后，在分词过程中对否定信息进行否定信息标注，从而将病历文本中的否定信息保存到索引文件中。在通过索引文件进行文本索引时，可直接检索到相应文本的否定信息。因而，本发明所提出的基于否定检出结果对分词结果进行干预的方法，可以解决传统检索方法不能判断原始文本否定信息从而无法准确进行否定检索的问题。

以上所述，仅为本发明创造较佳的具体实施方式，但本发明创造的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内，根据本发明创造的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明创造的保护范围之内。

Claims

1.一种基于否定检出的病历检索方法，其特征在于，包括如下步骤：

S1.对数据库中的电子病历进行否定信息提取；

S3.分词结果构建索引。

2.如权利要求1所述的基于否定检出的病历检索方法，其特征在于，所述步骤S1包括如下步骤：否定信息提取是提供否定模板，以模板匹配的形式，从病历内容中抽取符合模板的内容，并将该部分内容结构化处理，从而获取其中的否定内容。

3.如权利要求2所述的基于否定检出的病历检索方法，其特征在于，电子病历是相对统一且固定的文本，描述信息使用相对固定句式；

4.如权利要求3所述的基于否定检出的病历检索方法，其特征在于，采用泛化的手段提取否定模板，将文本中表示相同内容的词用统一的标签代替，对于“否认、否定、没有、未曾”表示否定意义的词，均统一使用“否认”代替，对于所有病症均统一使用“疾病”代替。

5.如权利要求4所述的基于否定检出的病历检索方法，其特征在于，当处理一个新的病历文本时，首先对其进行泛化处理，将文本内容进行统一，之后使用已经整理好的模板对该文本进行模板匹配，如果匹配到相应的模板，则将其对应的否定内容进行保存，模板库中包括“否定词+病症”句式，该句式对应的否定内容为“病症”所对应的内容，当输入的待处理文本为“否认病症”，则内容匹配到该模板，将其中的否定内容保存。

6.如权利要求4所述的基于否定检出的病历检索方法，其特征在于，所述步骤S2包括如下步骤：将文本按词为单位而切分成多个片段，由于需要将在索引中体现否定信息，对于获取的词条属于已提取出的否定内容的词条，在索引中注明其否定性质，在词条前加“否认”标注。

7.如权利要求1所述的基于否定检出的病历检索方法，其特征在于，所述步骤S3包括如下：使用索引中注明其否定性质，在词条前加“否认”标注后的分词结果，构建倒排索引。

8.一种基于否定检出的病历检索系统，其特征在于，存储有多条指令，所述指令适于处理器加载并执行：

S1.对数据库中的电子病历进行否定信息提取；

S3.分词结果构建索引。