CN110019641A

CN110019641A - 一种医疗否定术语的检出方法及系统

Info

Publication number: CN110019641A
Application number: CN201710625143.5A
Authority: CN
Inventors: 康亮环; 王�琦; 陈中阳
Original assignee: Medical Information Technology Co Ltd Of Beijing University
Current assignee: Medical Information Technology Co Ltd Of Beijing University
Priority date: 2017-07-27
Filing date: 2017-07-27
Publication date: 2019-07-16
Anticipated expiration: 2037-07-27
Also published as: CN110019641B

Abstract

本发明提出了一种医疗否定术语的检出方法及系统，医疗否定术语的检出方法包括：获取电子病历文本以及搜索引擎对其进行索引得出的索引分词结果；根据电子病例文本，对索引分词结果进行处理，以得到新索引分词序列；在新索引分词序列中提取医疗否定术语；对医疗否定术语进行标记，以还原并输出新索引分词结果。本发明能够在电子病历搜索引擎得到的索引分词结果中，检索出具有否定意义的医疗术语，并将其转化为带有否定标记的词，最终得到一个新索引分词结果，实现了电子病历搜索引擎能够从语义层面准确区分出电子病例文本描述中明确否认的医疗问题，使医疗否定术语的检出结果符合用户的要求，提高了医疗否定术语的检出的合理性。

Description

一种医疗否定术语的检出方法及系统

技术领域

本发明涉及医疗技术领域，具体而言，涉及一种医疗否定术语的检出方法及系统。

背景技术

电子病历是患者在医疗机构就诊时产生的医疗记录。电子病历数据的形式主要有表格、自由文本、图像这三种。自由文本主要有出院小结、病程记录、主诉、现病史、病历小结、医患沟通记录、医患协议、超声报告等，它们都是以非结构化数据的形式呈现。随着医院信息化的发展，医院已经积累了大量这些非结构化的电子病历数据，其中蕴含了大量宝贵的医学和临床信息。如何从这些非结构化电子病历中提取信息已经变得越来越迫切，并逐渐成为医院信息化工作的一个重要部分。

在电子病历中，术语表达的意思并非都是肯定的，为了建立概念准确的电子病历索引，需要进行医疗否定术语的检出。现有的中文电子病历方面的研究都是基于规则和模式匹配，因此其制定的规则和算法依赖于待处理的电子病历文本形式。这些方法面向的都是普通电子病历文本，但搜索引擎中的电子病历文本形式与普通电子病历文本有所不同，主要的区别有两点：索引分词对长词进行全切分(把所有可能切分结果列出，分词之间可能有重叠)；索引分词会过滤词(包括停用词、标点符号等)。搜索引擎先将普通文本转化为索引分词，再为每个分词建立索引。例如，普通电子病历文本为“否认糖尿病史”，现有方法通过预定义规则进行匹配，得到否定术语为“糖尿病史”，但这句话在电子病历索引中的一种可能文本形式为“否认糖尿病史糖尿病糖尿病史”(利用常用的索引分词工具IK Analyzer2012FF得到的索引分词结果)，如果直接利用现有方法，得到的否定术语包括“糖尿病史”“糖尿病”“糖尿”“病史”，显然后三种都不符合要求。因此现有否定词检出技术不能直接应用在搜索引擎的索引中。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此，本发明的一个方面在于提出了一种医疗否定术语的检出方法。

本发明的另一个方面在于提出了一种医疗否定术语的检出系统。

有鉴于此，根据本发明的一个方面，提出了医疗否定术语的检出方法，包括：获取电子病历文本以及搜索引擎对其进行索引得出的索引分词结果；根据电子病例文本，对索引分词结果进行处理，以得到新索引分词序列；在新索引分词序列中提取医疗否定术语；对医疗否定术语进行标记，以还原并输出新索引分词结果。

本发明提供的医疗否定术语的检出方法，依据电子病例文本对搜索引擎对其索引得到的索引分词结果处理，得出一个新索引分词序列，再进一步从新索引分词序列中提取出医疗否定术语，并提取的医疗否定术语转化为带有否定标记的词，最终还原并输出一个新索引分词结果。利用该新索引分词结果，搜索引擎能很方便的提供及识别具有否定语义的医疗术语，能够从语义层面准确区分出电子病例文本描述中明确否认的医疗问题(如疾病、症状、检查检验结果等)，使医疗否定术语的检出结果符合用户的要求，提高了医疗否定术语的检出的合理性。

根据本发明的上述医疗否定术语的检出方法，还可以具有以下技术特征：

在上述技术方案中，优选地，在新索引分词序列中提取医疗否定术语之前，还包括：将电子病例文本中的关键词整理为关键词词典；根据新索引分词序列及关键词词典创建医疗特征模板；分析索引分词结果中医疗否定术语表述特点，以归纳出索引分词结果中医疗否定术语的匹配规则。

在该技术方案中，在新索引分词序列中提取医疗否定术语之前，提取电子病例文本中的关键词，并将其整理为关键词词典，包括否定词词典、连接词词典和其他关键词词典，以便通过在关键词词典中的查找，得到关键词集合；基于找到的关键词集合和新索引分词序列，创建出一个由若干特征元组成的医疗特征模板；分析搜索引擎对电子病例文本索引得出的索引分词结果的否定术语表述特点，以归纳出索引分词结果中医疗否定术语的匹配规则。利用归纳出索引分词结果中医疗否定术语的匹配规则，可以在转化得到的医疗特征模板中抽取出医疗否定术语的特征模板。

在上述任一技术方案中，优选地，根据电子病例的文本，对索引分词结果进行处理，以得到新索引分词序列具体为：在索引分词结果的基础上，将电子病历文本中被过滤掉的过滤词，按照在电子病历文本中的顺序添加到新索引分词序列中。

在该技术方案中，由于索引分词结果的句、段分隔符会被过滤(例如没有标点符号)，在索引分词结果的基础上，将电子病历文本中被过滤掉的过滤词，按照在电子病历文本中的顺序添加到新索引分词序列中，得到包含电子病例文本中句、段分隔符的新索引分词序列，从而使新索引分词序列中否定词的作用范围明确。

在上述任一技术方案中，优选地，新索引分词序列由多个序列元组成；每个序列元至少包括：索引分词结果或过滤词在电子病历文本中的首字位置、索引分词结果或过滤词的类型、索引分词结果或过滤词的分词种类。

在该技术方案中，新索引分词序列的每个分词对应成一个序列元，每个序列元至少有三个属性，如果该分词是索引分词结果，那么该分词对应的序列元包括的至少三个属性为：索引分词结果在电子病历文本中的首字位置、索引分词结果类型、索引分词结果分词种类；如果该分词是过滤词，那么该分词对应的序列元包括的至少三个属性为：过滤词在电子病历文本中的首字位置、过滤词类型、过滤词分词种类。其中，首字位置是指该分词的首字在电子医疗文本中出现的位置；类型是指该分词在医疗词库中标注的类型，如疾病、症状、治疗等，如果没有标注类型则返回词性标注；分词种类是指该分词是主分词(最长切分结果)或子分词(其他切分结果)。通过新索引分词序列的每个分词对应的序列元属性，可以清楚的了解该分词的属性。

在上述任一技术方案中，优选地，据新索引分词序列及关键词词典创建医疗特征模板，具体为：判断序列元中索引分词结果或过滤词的分词种类；如果分词种类是主分词，则将序列元对应生成一个医疗特征模版特征元；如果分词种类不是主分词，则将新索引分词序列中删除序列元。

在该技术方案中，判断新索引分词序列的序列元属性中的分词种类，当判定该分词是主分词，则将序列元对应生成一个医疗特征模版特征元；当判定该分词不是主分词，将其从新索引分词序列中删除，不需要对应生成一个医疗特征模版特征元。如此，可以只将分词种类为主分词的序列元对应生成医疗特征模版特征元，使得医疗特征模版中的特征元均对应主分词，从而可以从医疗特征模板中抽取出医疗否定术语的特征模板。

在上述任一技术方案中，优选地，医疗特征模版由多个医疗特征模版特征元组成；医疗特征模版特征元至少包括：医疗特征模版特征元的特征值、医疗特征模版特征元在电子病历文本中的首字位置或在关键词词典中的位置。

在该技术方案中，医疗特征模版由多个医疗特征模版特征元组成，如果序列元的分词在关键词词典中，如该序列元为否定词、连接词，则该医疗特征模版特征元至少包括的两个属性：特征值为原始词、位置为特征元在关键词词典中的位置；如果序列元的分词不在关键词词典中，则该医疗特征模版特征元至少包括的两个属性：特征值为该特征元对应的序列元的分词型，如医疗问题类型、词性标注，位置为特征元在电子病历文本中的首字位置。

在上述任一技术方案中，优选地，医疗否定术语的匹配规则由所有具有医疗否定术语的医疗特征模板的正则表达式集合来表示。

在该技术方案中，由所有具有医疗否定术语的医疗特征模板的正则表达式集合来表示医疗否定术语的匹配规则，以便利用归纳得到的正则表达式，在医疗特征模板中提取出医疗否定术语的特征模板。

在上述任一技术方案中，优选地，在新索引分词序列中提取医疗否定术语，具体为：根据医疗特征模板的正则表达式集合，在医疗特征模版中提取出医疗否定术语的特征模板；提取医疗否定术语在电子病历文本中的首字位置；根据医疗否定术语在电子病历文本中的首字位置，在新索引分词序列中提取医疗否定术语。

在该技术方案中，利用医疗特征模板的正则表达式集合，从医疗特征模板中提取出医疗否定术语的特征模板，再从医疗否定术语的特征模板中提取出对应的医疗否定术语，然后进一步依据医疗特征模版特征元属性中位置属性，得到医疗否定术语在电子病历文本中的首字位置，这样便可以在新索引分词序列中提取该医疗否定术语，以便对该医疗否定术语进一步处理，最终得到新索引分词结果。

在上述任一技术方案中，优选地，对新索引分词序列中的医疗否定术语进行标记，以还原并输出新索引分词结果，具体为：去掉医疗否定术语中的否定词，在每个医疗否定术语之前增加预设否定词，以转换得到新索引分词结果。

在该技术方案中，利用去掉医疗否定术语中的否定词，在每个医疗否定术语之前增加预设否定词的方法，对新索引分词序列中的医疗否定术语进行标记，转换为一个医疗否定术语被标记的索引分词，最终还原输出新索引分词结果，能够从语义层面准确区分出电子病例文本描述中明确否认的医疗问题，如疾病、症状、检查检验结果等。其中，增加的否定词是否定词词典中的否定词，如无、没有、未、未见、未发现、否认、否认有、不、不伴、排除、阴性等。

本发明的另一个方面，提出了医疗否定术语的检出系统，包括：获取单元，用于获取电子病历文本以及搜索引擎对其进行索引得出的索引分词结果；处理单元，用于根据电子病例文本，对索引分词结果进行处理，以得到新索引分词序列；提取单元，用于在新索引分词序列中提取医疗否定术语；输出单元，用于对医疗否定术语进行标记，以还原并输出新索引分词结果。

本发明提供的医疗否定术语的检出系统，依据获取单元获取的电子病例文本，处理单元对搜索引擎对其索引得到的索引分词结果处理，得出一个新索引分词序列，提取单元再进一步从新索引分词序列中提取出医疗否定术语，并提取的医疗否定术语转化为带有否定标记的词，最终输出单元还原并输出一个新索引分词结果。利用该新索引分词结果，搜索引擎能很方便的提供及识别具有否定语义的医疗术语，能够从语义层面准确区分出电子病例文本描述中明确否认的医疗问题(如疾病、症状、检查检验结果等)，使医疗否定术语的检出结果符合用户的要求，提高了医疗否定术语的检出的合理性。

根据本发明的上述医疗否定术语的检出系统，还可以具有以下技术特征：

在上述技术方案中，优选地，整理单元，用于将电子病例文本中的关键词整理为关键词词典；创建单元，用于根据新索引分词序列及关键词词典创建医疗特征模板；分析单元，用于分析索引分词结果中医疗否定术语表述特点，以归纳出索引分词结果中医疗否定术语的匹配规则。

在该技术方案中，在新索引分词序列中提取医疗否定术语之前，整理单元提取电子病例文本中的关键词，并将其整理为关键词词典，包括否定词词典、连接词词典和其他关键词词典，以便通过在关键词词典中的查找，得到关键词集合；基于找到的关键词集合和新索引分词序列，创建单元创建出一个由若干特征元组成的医疗特征模板；分析单元分析搜索引擎对电子病例文本索引得出的索引分词结果的否定术语表述特点，以归纳出索引分词结果中医疗否定术语的匹配规则。利用归纳出索引分词结果中医疗否定术语的匹配规则，可以在转化得到的医疗特征模板中抽取出医疗否定术语的特征模板。

在上述任一技术方案中，优选地，处理单元具体为：添加单元，用于在索引分词结果的基础上，将电子病历文本中被过滤掉的过滤词，按照在电子病历文本中的顺序添加到新索引分词序列中。

在该技术方案中，由于索引分词结果的句、段分隔符会被过滤(例如没有标点符号)，在索引分词结果的基础上，添加单元将电子病历文本中被过滤掉的过滤词，按照在电子病历文本中的顺序添加到新索引分词序列中，得到包含电子病例文本中句、段分隔符的新索引分词序列，从而使新索引分词序列中否定词的作用范围明确。

在上述任一技术方案中，优选地，创建单元具体为：判断单元，用于判断序列元中索引分词结果或过滤词的分词种类；生成单元，用于当分词种类是主分词，将序列元对应生成一个医疗特征模版特征元；删除单元，用于当分词种类不是主分词，将新索引分词序列中删除序列元。

在该技术方案中，判断单元判断新索引分词序列的序列元属性中的分词种类，当判定该分词是主分词，则生成单元将序列元对应生成一个医疗特征模版特征元；当判定该分词不是主分词，删除单元将其从新索引分词序列中删除，不需要对应生成一个医疗特征模版特征元。如此，可以只将分词种类为主分词的序列元对应生成医疗特征模版特征元，使得医疗特征模版中的特征元均对应主分词，从而可以从医疗特征模板中抽取出医疗否定术语的特征模板。

在上述任一技术方案中，优选地，提取单元，具体为：第一提取单元，用于根据医疗特征模板的正则表达式集合，在医疗特征模版中提取出医疗否定术语的特征模板；第二提取单元，用于提取医疗否定术语在电子病历文本中的首字位置；第三提取单元，用于根据具有否定意义的医疗术语的位置，在新索引分词序列中提取医疗否定术语。

在该技术方案中，利用医疗特征模板的正则表达式集合，第一提取单元从医疗特征模板中提取出医疗否定术语的特征模板，第二提取单元再从医疗否定术语的特征模板中提取出对应的医疗否定术语，然后进一步依据医疗特征模版特征元属性中位置属性，得到医疗否定术语在电子病历文本中的首字位置，第三提取单元在新索引分词序列中提取该医疗否定术语，以便对该医疗否定术语进一步处理，最终得到新索引分词结果。

在上述任一技术方案中，优选地，输出单元具体为：转换单元，用于去掉医疗否定术语中的否定词，在每个医疗否定术语之前增加预设否定词以转换得到新索引分词结果。

在该技术方案中，转换单元利用去掉医疗否定术语中的否定词，在每个医疗否定术语之前增加预设否定词的方法，对新索引分词序列中的医疗否定术语进行标记，转换为一个医疗否定术语被标记的索引分词，最终还原输出新索引分词结果，能够从语义层面准确区分出电子病例文本描述中明确否认的医疗问题，如疾病、症状、检查检验结果等。其中，增加的否定词是否定词词典中的否定词，如无、没有、未、未见、未发现、否认、否认有、不、不伴、排除、阴性等。

本发明的附加方面和优点将在下面的描述部分中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了本发明的一个实施例的医疗否定术语的检出方法的流程示意图；

图2示出了本发明的一个实施例的医疗否定术语的检出系统的示意框图；

图3示出了本发明的另一个实施例的医疗否定术语的检出方法的流程示意图；

图4示出了本发明的另一个实施例的医疗否定术语的检出系统的示意框图；

图5示出了本发明的一个具体实施例的医疗否定术语的检出方法的流程示意图。

具体实施方式

为了能够更清楚地理解本发明的上述方面、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不限于下面公开的具体实施例的限制。

本发明第一方面的实施例，提出一种医疗否定术语的检出方法，图1示出了本发明的一个实施例的医疗否定术语的检出方法的流程示意图：

步骤102，获取电子病历文本以及搜索引擎对其进行索引得出的索引分词结果；

步骤104，根据电子病例文本，对索引分词结果进行处理，以得到新索引分词序列；

步骤106，在新索引分词序列中提取医疗否定术语；

步骤108，对医疗否定术语进行标记，以还原并输出新索引分词结果。

本发明第二方面的实施例，提出一种医疗否定术语的检出系统200，图2示出了本发明的一个实施例的医疗否定术语的检出系统200的示意框图：

获取单元202，用于获取电子病历文本以及搜索引擎对其进行索引得出的索引分词结果；

处理单元204，用于根据电子病例文本，对索引分词结果进行处理，以得到新索引分词序列；

提取单元206，用于在新索引分词序列中提取医疗否定术语；

输出单元208，用于对医疗否定术语进行标记，以还原并输出新索引分词结果。

本发明提供的医疗否定术语的检出系统200，依据获取单元202获取的电子病例文本，处理单元204对搜索引擎对其索引得到的索引分词结果处理，得出一个新索引分词序列，提取单元206再进一步从新索引分词序列中提取出医疗否定术语，并提取的医疗否定术语转化为带有否定标记的词，最终输出单元208还原并输出一个新索引分词结果。利用该新索引分词结果，搜索引擎能很方便的提供及识别具有否定语义的医疗术语，能够从语义层面准确区分出电子病例文本描述中明确否认的医疗问题(如疾病、症状、检查检验结果等)，使医疗否定术语的检出结果符合用户的要求，提高了医疗否定术语的检出的合理性。

图3示出了本发明的另一个实施例的医疗否定术语的检出方法的流程示意图：

步骤302，获取电子病历文本以及搜索引擎对其进行索引得出的索引分词结果；

步骤304，根据电子病例文本，对索引分词结果进行处理，以得到新索引分词序列；

步骤306，将电子病例文本中的关键词整理为关键词词典；

步骤308，根据新索引分词序列及关键词词典创建医疗特征模板；

步骤310，分析索引分词结果中医疗否定术语表述特点，以归纳出索引分词结果中医疗否定术语的匹配规则；

步骤312，在新索引分词序列中提取医疗否定术语；

步骤314，对医疗否定术语进行标记，以还原并输出新索引分词结果。

其中，

(1)步骤304，根据电子病例文本，对索引分词结果进行处理，以得到新索引分词序列，具体为：

步骤3042，在索引分词结果的基础上，将电子病历文本中被过滤掉的过滤词，按照在电子病历文本中的顺序添加到新索引分词序列中。

(2)步骤308，根据新索引分词序列及关键词词典创建医疗特征模板，具体为：

步骤3082，判断序列元中索引分词结果或过滤词的分词种类是否为主分词；如果分词种类是主分词，则进入步骤3084；如果分词种类不是主分词，则进入步骤3086；

步骤3084，将序列元对应生成一个医疗特征模版特征元；

步骤3086，将新索引分词序列中删除序列元。

(3)步骤312，在新索引分词序列中提取医疗否定术语，具体为：

步骤3122，根据医疗特征模板的正则表达式集合，在医疗特征模版中提取出医疗否定术语的特征模板；

步骤3124，提取医疗否定术语在电子病历文本中的首字位置；

步骤3126，根据医疗否定术语在电子病历文本中的首字位置，在新索引分词序列中提取医疗否定术语。

(4)步骤314，对医疗否定术语进行标记，以还原并输出新索引分词结果，具体为：

步骤3142，去掉医疗否定术语中的否定词，在每个医疗否定术语之前增加预设否定词，以转换得到新索引分词结果。

在本发明的一个实施例中，优选地，在新索引分词序列中提取医疗否定术语之前，还包括：将电子病例文本中的关键词整理为关键词词典；根据新索引分词序列及关键词词典创建医疗特征模板；分析索引分词结果中医疗否定术语表述特点，以归纳出索引分词结果中医疗否定术语的匹配规则。

在该实施例中，在新索引分词序列中提取医疗否定术语之前，提取电子病例文本中的关键词，并将其整理为关键词词典，包括否定词词典、连接词词典和其他关键词词典，以便通过在关键词词典中的查找，得到关键词集合；基于找到的关键词集合和新索引分词序列，创建出一个由若干特征元组成的医疗特征模板；分析搜索引擎对电子病例文本索引得出的索引分词结果的否定术语表述特点，以归纳出索引分词结果中医疗否定术语的匹配规则。利用归纳出索引分词结果中医疗否定术语的匹配规则，可以在转化得到的医疗特征模板中抽取出医疗否定术语的特征模板。

在本发明的一个实施例中，优选地，根据电子病例的文本，对索引分词结果进行处理，以得到新索引分词序列具体为：在索引分词结果的基础上，将电子病历文本中被过滤掉的过滤词，按照在电子病历文本中的顺序添加到新索引分词序列中。

在该实施例中，由于索引分词结果的句、段分隔符会被过滤(例如没有标点符号)，在索引分词结果的基础上，将电子病历文本中被过滤掉的过滤词，按照在电子病历文本中的顺序添加到新索引分词序列中，得到包含电子病例文本中句、段分隔符的新索引分词序列，从而使新索引分词序列中否定词的作用范围明确。

在本发明的一个实施例中，优选地，新索引分词序列由多个序列元组成；每个序列元至少包括：索引分词结果或过滤词在电子病历文本中的首字位置、索引分词结果或过滤词的类型、索引分词结果或过滤词的分词种类。

在该实施例中，新索引分词序列的每个分词对应成一个序列元，每个序列元至少有三个属性，如果该分词是索引分词结果，那么该分词对应的序列元包括的至少三个属性为：索引分词结果在电子病历文本中的首字位置、索引分词结果类型、索引分词结果分词种类；如果该分词是过滤词，那么该分词对应的序列元包括的至少三个属性为：过滤词在电子病历文本中的首字位置、过滤词类型、过滤词分词种类。其中，首字位置是指该分词的首字在电子医疗文本中出现的位置；类型是指该分词在医疗词库中标注的类型，如疾病、症状、治疗等，如果没有标注类型则返回词性标注；分词种类是指该分词是主分词(最长切分结果)或子分词(其他切分结果)。通过新索引分词序列的每个分词对应的序列元属性，可以清楚的了解该分词的属性。

在本发明的一个实施例中，优选地，据新索引分词序列及关键词词典创建医疗特征模板，具体为：判断序列元中索引分词结果或过滤词的分词种类；如果分词种类是主分词，则将序列元对应生成一个医疗特征模版特征元；如果分词种类不是主分词，则将新索引分词序列中删除序列元。

在该实施例中，判断新索引分词序列的序列元属性中的分词种类，当判定该分词是主分词，则将序列元对应生成一个医疗特征模版特征元；当判定该分词不是主分词，将其从新索引分词序列中删除，不需要对应生成一个医疗特征模版特征元。如此，可以只将分词种类为主分词的序列元对应生成医疗特征模版特征元，使得医疗特征模版中的特征元均对应主分词，从而可以从医疗特征模板中抽取出医疗否定术语的特征模板。

在本发明的一个实施例中，优选地，医疗特征模版由多个医疗特征模版特征元组成；医疗特征模版特征元至少包括：医疗特征模版特征元的特征值、医疗特征模版特征元在电子病历文本中的首字位置或在关键词词典中的位置。

在该实施例中，医疗特征模版由多个医疗特征模版特征元组成，如果序列元的分词在关键词词典中，如该序列元为否定词、连接词，则该医疗特征模版特征元至少包括的两个属性：特征值为原始词、位置为特征元在关键词词典中的位置；如果序列元的分词不在关键词词典中，则该医疗特征模版特征元至少包括的两个属性：特征值为该特征元对应的序列元的分词型，如医疗问题类型、词性标注，位置为特征元在电子病历文本中的首字位置。

在本发明的一个实施例中，优选地，医疗否定术语的匹配规则由所有具有医疗否定术语的医疗特征模板的正则表达式集合来表示。

在该实施例中，由所有具有医疗否定术语的医疗特征模板的正则表达式集合来表示医疗否定术语的匹配规则，以便利用归纳得到的正则表达式，在医疗特征模板中提取出医疗否定术语的特征模板。

在本发明的一个实施例中，优选地，在新索引分词序列中提取医疗否定术语，具体为：根据医疗特征模板的正则表达式集合，在医疗特征模版中提取出医疗否定术语的特征模板；提取医疗否定术语在电子病历文本中的首字位置；根据医疗否定术语在电子病历文本中的首字位置，在新索引分词序列中提取医疗否定术语。

在该实施例中，利用医疗特征模板的正则表达式集合，从医疗特征模板中提取出医疗否定术语的特征模板，再从医疗否定术语的特征模板中提取出对应的医疗否定术语，然后进一步依据医疗特征模版特征元属性中位置属性，得到医疗否定术语在电子病历文本中的首字位置，这样便可以在新索引分词序列中提取该医疗否定术语，以便对该医疗否定术语进一步处理，最终得到新索引分词结果。

在本发明的一个实施例中，优选地，对新索引分词序列中的医疗否定术语进行标记，以还原并输出新索引分词结果，具体为：去掉医疗否定术语中的否定词，在每个医疗否定术语之前增加否定词，以转换得到新索引分词结果。

在该实施例中，利用去掉医疗否定术语中的否定词，在每个医疗否定术语之前增加否定词的方法，对新索引分词序列中的医疗否定术语进行标记，转换为一个医疗否定术语被标记的索引分词，最终还原输出新索引分词结果，能够从语义层面准确区分出电子病例文本描述中明确否认的医疗问题，如疾病、症状、检查检验结果等。其中，增加的否定词是否定词词典中的否定词，如无、没有、未、未见、未发现、否认、否认有、不、不伴、排除、阴性等。

图4示出了本发明的另一个实施例的医疗否定术语的检出系统400的示意框图：

获取单元402，用于获取电子病历文本以及搜索引擎对其进行索引得出的索引分词结果；

处理单元404，用于根据电子病例文本，对索引分词结果进行处理，以得到新索引分词序列；

整理单元406，用于将电子病例文本中的关键词整理为关键词词典；

创建单元408，用于根据新索引分词序列及关键词词典创建医疗特征模板；

分析单元410，用于分析索引分词结果中医疗否定术语表述特点，以归纳出索引分词结果中医疗否定术语的匹配规则；

提取单元412，用于在新索引分词序列中提取医疗否定术语；

输出单元414，用于对医疗否定术语进行标记，以还原并输出新索引分词结果。

其中，

(1)处理单元404具体为：

添加单元4042，用于在索引分词结果的基础上，将电子病历文本中被过滤掉的过滤词，按照在电子病历文本中的顺序添加到新索引分词序列中。

(2)创建单元408具体为：

判断单元4082，用于判断序列元中索引分词结果或过滤词的分词种类；

生成单元4084，用于当分词种类是主分词，将序列元对应生成一个医疗特征模版特征元；

删除单元4086，用于当分词种类不是主分词，将新索引分词序列中删除序列元。

(3)提取单元412具体为：

第一提取单元4122，用于根据医疗特征模板的正则表达式集合，在医疗特征模版中提取出医疗否定术语的特征模板；

第二提取单元4124，用于提取医疗否定术语在电子病历文本中的首字位置；

第三提取单元4126，用于根据医疗否定术语在电子病历文本中的首字位置，在新索引分词序列中提取医疗否定术语。

(4)输出单元414具体为：

转换单元4142，用于去掉医疗否定术语中的否定词，在每个医疗否定术语之前增加否定词，以转换得到新索引分词结果。

在本发明的一个实施例中，优选地，整理单元406，用于将索引分词结果中的关键词整理为关键词词典；创建单元408，用于根据新索引分词序列及关键词词典创建医疗特征模板；分析单元410，用于分析索引分词结果中医疗否定术语表述特点，以归纳出索引分词结果中医疗否定术语的匹配规则。

在该实施例中，在新索引分词序列中提取医疗否定术语之前，整理单元406提取电子病例文本中的关键词，并将其整理为关键词词典，包括否定词词典、连接词词典和其他关键词词典，以便通过在关键词词典中的查找，得到关键词集合；基于找到的关键词集合和新索引分词序列，创建单元408创建出一个由若干特征元组成的医疗特征模板；分析单元410分析搜索引擎对电子病例文本索引得出的索引分词结果的否定术语表述特点，以归纳出索引分词结果中医疗否定术语的匹配规则。利用归纳出索引分词结果中医疗否定术语的匹配规则，可以在转化得到的医疗特征模板中抽取出医疗否定术语的特征模板。

在本发明的一个实施例中，优选地，处理单元404具体为：添加单元4042，用于在索引分词结果的基础上，将电子病历文本中被过滤掉的过滤词，按照在电子病历文本中的顺序添加到新索引分词序列中。

在该实施例中，由于索引分词结果的句、段分隔符会被过滤(例如没有标点符号)，在索引分词结果的基础上，添加单元4042将电子病历文本中被过滤掉的过滤词，按照在电子病历文本中的顺序添加到新索引分词序列中，得到包含电子病例文本中句、段分隔符的新索引分词序列，从而使新索引分词序列中否定词的作用范围明确。

在本发明的一个实施例中，优选地，创建单元408具体为：判断单元4082，用于判断序列元中索引分词结果或过滤词的分词种类；生成单元4084，用于当分词种类是主分词，将序列元对应生成一个医疗特征模版特征元；删除单元4086，用于当分词种类不是主分词，将新索引分词序列中删除序列元。

在该实施例中，判断单元4082判断新索引分词序列的序列元属性中的分词种类，当判定该分词是主分词，则生成单元4084将序列元对应生成一个医疗特征模版特征元；当判定该分词不是主分词，删除单元4086将其从新索引分词序列中删除，不需要对应生成一个医疗特征模版特征元。如此，可以只将分词种类为主分词的序列元对应生成医疗特征模版特征元，使得医疗特征模版中的特征元均对应主分词，从而可以从医疗特征模板中抽取出医疗否定术语的特征模板。

在本发明的一个实施例中，优选地，提取单元412具体为：第一提取单元4124，用于根据医疗特征模板的正则表达式集合，在医疗特征模版中提取出医疗否定术语的特征模板；第二提取单元4124，用于提取医疗否定术语在电子病历文本中的首字位置；第三提取单元4126，用于根据具有否定意义的医疗术语的位置，在新索引分词序列中提取医疗否定术语。

在该实施例中，利用医疗特征模板的正则表达式集合，第一提取单元4122从医疗特征模板中提取出医疗否定术语的特征模板，第二提取单4124再从医疗否定术语的特征模板中提取出对应的医疗否定术语，然后进一步依据医疗特征模版特征元属性中位置属性，得到医疗否定术语在电子病历文本中的首字位置，第三提取单元4126在新索引分词序列中提取该医疗否定术语，以便对该医疗否定术语进一步处理，最终得到新索引分词结果。

在本发明的一个实施例中，优选地，输出单元414具体为：转换单元4142，用于去掉医疗否定术语中的否定词，在每个医疗否定术语之前增加否定词以转换得到新索引分词结果。

在该实施例中，转换单元4142利用去掉医疗否定术语中的否定词，在每个医疗否定术语之前增加否定词的方法，对新索引分词序列中的医疗否定术语进行标记，转换为一个医疗否定术语被标记的索引分词，最终还原输出新索引分词结果，能够从语义层面准确区分出电子病例文本描述中明确否认的医疗问题，如疾病、症状、检查检验结果等。其中，增加的否定词是否定词词典中的否定词，如无、没有、未、未见、未发现、否认、否认有、不、不伴、排除、阴性等。

图5示出了本发明的一个具体实施例的医疗否定术语的检出方法的流程示意图：

步骤502，首先输入电子病历文本和索引分词结果，本实施例的电子病历文本为：“否认糖尿病、高血压，患有肺部感染。”电子病历文本的全文检索引擎采用Elasticsearch，分词插件采用IKAnalyzer 2012，得到的索引分词结果为：“否认糖尿病糖尿高血压血压患有肺部感染”。

步骤504，得出新索引分词序列为“否认{0,0,1}糖尿病{2,1,1}糖尿{2,2,0}、{5,0,1}高血压{6,1,1}血压{7,10,0}，{9,0,1}患有{10,0,1}肺部{12,9,1}感染{14,1,1}”。在本实施例中，电子病历文本在索引分词中被过滤掉的词有“、”“，”“。”，将其按照在电子病历文本中的位置顺序重新添加到索引分词结果中，得到一个新索引分词序列“否认糖尿病糖尿、高血压血压，患有肺部感染。”。在索引分词序列中，“否认”“糖尿病”“高血压”“患有”“肺部”“感染”都是主分词，而“糖尿”“血压”是子分词。按照每个词的类型划分，“糖尿病”“高血压”“感染”是疾病(类型编号为1)，“糖尿”是症状(类型编号为2)，“血压”是检测指标(类型编号为10)，“肺部”是部位(类型编号9)，“否认”“患有”都是非医疗术语(类型编号为0)。给每个序列元素添加三个属性值：位置、类型、分词种类，得到一个三元组{p,t,m}。因此新索引分词序列为“否认{0,0,1}糖尿病{2,1,1}糖尿{2,2,0}、{5,0,1}高血压{6,1,1}血压{7,10,0}，{9,0,1}患有{10,0,1}肺部{12,9,1}感染{14,1,1}”。

步骤506，整理和归纳出从电子病历文本中否定术语提取的关键词组成的关键词词典，包括否定词词典、连接词词典和其他关键词词典，如表1所示的本实施例归纳得到的关键词词典。通过在关键词词典中的查找，得到本实施例中的关键词集合有：否定词集合{否认}，连接词集合{、,，,。}。

关键词词典	关键词集合
		否定词词典	{无没有未未见未发现否认否认有不不伴排除阴性}
连接词词典	{、及以及和伴与加++/\}
		其他关键词词典	{等等等…，。."“”}

表1

步骤508，基于找到的关键词集合和新索引分词序列，得出一个由多个特征元组成的医疗特征模板。每个特征元包含特征值和由医疗术语在电子病例文本中的位置，如果医疗术语不在关键词词典中，则特征值为医疗术语原文，否则为其类型值。计算过程如下：去掉子分词“糖尿{2,2,0}”“血压{7,10,0}”，“否认{0,0,1}”在否定词集合中，位置为0，特征元＝“【否认#0】”，“糖尿病{2,1,1}”为疾病术语(1)，位置为2，特征元＝“【1#2】”，“、{5,0,1}”在连接词集合中，位置为5，特征元＝“【，#5】”，“高血压{6,1,1}”位疾病术语(1)，位置为6，特征元＝“【1#6】”，“，{9,0,1}”在连接词集合中，位置为9，特征元＝“【，#9】”，“患有{10,0,1}”为非疾病术语，词性为v，位置为10，特征元＝“【v#10】”，“肺部{12,9,1}”为部位术语(9)，位置为12，特征元＝“【9#12】”，“感染{14,1,1}”为疾病术语，位置为14，特征元＝“【1#14】”。因此，本实施例中电子病历文本的医疗特征模板为：“【否认#0】【1#2】【、#5】【1#6】【，#9】【v#10】【9#12】【1#14】”。

步骤510，分析搜索引擎中索引分词结果的否定术语表述特点，归纳出索引分词结果中否定术语的匹配规则，参照表2所示的本实施例的医疗特征模板正则表达式集合，得出本实施例中医疗特征模板对应的正则表达式为一个前置否定术语(PRE_NEGATION_PATTERN)。

表2

步骤512，利用前置否定术语的正则表达式，从医疗特征模板中提取出医疗否定术语的特征模板“【否认#0】【1#2】【、#5】【1#6】”，从中提取出对应的医疗否定术语“【1#2】”“【1#6】”，再进一步得到其位置值{2,6}，这样便可以在新索引分词序列中找到该医疗否定术语。位置为2的医疗否定术语为“糖尿病{2,1,1}”，位置为6的医疗否定术语为“高血压{6,1,1}”。

步骤514，根据提取的医疗否定术语，得到新的索引分词结果。具体为首先对找到的医疗否定术语进行统一标记：去掉否定词，并在每个医疗否定术语之前增加“无”。本实施例的结果为“无糖尿病”，“无高血压”。最后还原得到新的索引分词结果为“无糖尿病糖尿无高血压血压患有肺部感染”。

利用本发明得到一个新索引分词结果，可以实现电子病历搜索引擎能够从语义层面准确区分出电子病例文本描述中明确否认的医疗问题(如疾病、症状、检查检验结果等)，使医疗否定术语的检出结果符合用户的要求，提高医疗否定术语的检出的合理性。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种医疗否定术语的检出方法，其特征在于，所述方法包括：

获取电子病历文本以及搜索引擎对其进行索引得出的索引分词结果；

根据所述电子病例文本，对所述索引分词结果进行处理，以得到新索引分词序列；

在所述新索引分词序列中提取医疗否定术语；

对所述医疗否定术语进行标记，以还原并输出新索引分词结果。

2.根据权利要求1所述的医疗否定术语的检出方法，其特征在于，在所述新索引分词序列中提取所述医疗否定术语之前，还包括：

将所述电子病例文本中的关键词整理为关键词词典；

根据所述新索引分词序列及所述关键词词典创建医疗特征模板；

分析所述索引分词结果中所述医疗否定术语表述特点，以归纳出所述索引分词结果中所述医疗否定术语的匹配规则。

3.根据权利要求1所述的医疗否定术语的检出方法，其特征在于，根据所述电子病例文本，对所述索引分词结果进行处理，以得到所述新索引分词序列具体为：

在所述索引分词结果的基础上，将所述电子病历文本中被过滤掉的过滤词按照在所述电子病历文本中的顺序添加到所述新索引分词序列中。

4.根据权利要求3所述的医疗否定术语的检出方法，其特征在于，

所述新索引分词序列由多个序列元组成；

每个所述序列元至少包括：所述索引分词结果或所述过滤词在所述电子病历文本中的首字位置、所述索引分词结果或所述过滤词的类型、所述索引分词结果或所述过滤词的分词种类。

5.根据权利要求1至4中任一项所述的医疗否定术语的检出方法，根据所述新索引分词序列及所述关键词词典创建医疗特征模板，具体为：

判断所述序列元中所述索引分词结果或所述过滤词的所述分词种类；

如果所述分词种类是主分词，则将所述序列元对应生成一个医疗特征模版特征元；

如果所述分词种类不是主分词，则将所述新索引分词序列中删除所述序列元。

6.根据权利要求5所述的医疗否定术语的检出方法，其特征在于，

所述医疗特征模版由多个所述医疗特征模版特征元组成；

所述医疗特征模版特征元至少包括：所述医疗特征模版特征元的特征值、所述医疗特征模版特征元在所述电子病历文本中的首字位置或在所述关键词词典中的位置。

7.根据权利要求6所述的医疗否定术语的检出方法，其特征在于，

所述医疗否定术语的所述匹配规则由所有具有所述医疗否定术语的所述医疗特征模板的正则表达式集合来表示。

8.根据权利要求7中任一项所述的医疗否定术语的检出方法，其特征在于，在所述新索引分词序列中提取医疗否定术语，具体为：

根据所述医疗特征模板的所述正则表达式集合，在所述医疗特征模版中提取出所述医疗否定术语的特征模板；

提取所述医疗否定术语在所述电子病历文本中的首字位置；

根据所述医疗否定术语在所述电子病历文本中的首字位置，在所述新索引分词序列中提取所述医疗否定术语。

9.根据权利要求8所述的医疗否定术语的检出方法，其特征在于，对所医疗否定术语进行标记，以还原并输出所述新索引分词结果，具体为：

去掉所述医疗否定术语中的否定词，在每个所述医疗否定术语之前增加预设否定词，以转换得到所述新索引分词结果。

10.一种医疗否定术语的检出系统，其特征在于，所述系统包括：

获取单元，用于获取电子病历文本以及搜索引擎对其进行索引得出的索引分词结果；

处理单元，用于根据所述电子病例文本，对所述索引分词结果进行处理，以得到新索引分词序列；

提取单元，用于在所述新索引分词序列中提取医疗否定术语；

输出单元，用于对所述医疗否定术语进行标记，以还原并输出新索引分词结果。

11.根据权利要求10所述的医疗否定术语的检出系统，其特征在于，还包括：

整理单元，用于将所述电子病例文本中的关键词整理为关键词词典；

创建单元，用于根据所述新索引分词序列及所述关键词词典创建医疗特征模板；

分析单元，用于分析所述索引分词结果中所述医疗否定术语表述特点，以归纳出所述索引分词结果中所述医疗否定术语的匹配规则。

12.根据权利要求10所述的医疗否定术语的检出系统，其特征在于，所述处理单元具体为：

添加单元，用于在所述索引分词结果的基础上，将所述电子病历文本中被过滤掉的过滤词按照在所述电子病历文本中的顺序添加到所述新索引分词序列中。

13.根据权利要求12所述的医疗否定术语的检出系统，其特征在于，

所述新索引分词序列由多个序列元组成；

14.根据权利要求10至13中任一项所述的医疗否定术语的检出系统，所述创建单元具体为：

判断单元，用于判断所述序列元中所述索引分词结果或所述过滤词的所述分词种类；

生成单元，用于当所述分词种类是主分词，将所述序列元对应生成一个医疗特征模版特征元；

删除单元，用于当所述分词种类不是主分词，将所述新索引分词序列中删除所述序列元。

15.根据权利要求14所述的医疗否定术语的检出系统，其特征在于，

所述医疗特征模版由多个所述医疗特征模版特征元组成；

所述医疗特征模版特征元至少包括：所述医疗特征模版特征元的特征值、所述医疗特征模版特征元在所述电子病历文本中的首字位置或所述关键词词典中的位置。

16.根据权利要求15所述的医疗否定术语的检出系统，其特征在于，

所述医疗否定术语的匹配规则由所有具有所述医疗否定术语的所述医疗特征模板的正则表达式集合来表示。

17.根据权利要求16中任一项所述的医疗否定术语的检出系统，其特征在于，所述提取单元具体为：

第一提取单元，用于根据所述医疗特征模板的所述正则表达式集合，在所述医疗特征模版中提取出所述医疗否定术语的特征模板；

第二提取单元，用于提取所述医疗否定术语在所述电子病历文本中的首字位置；

第三提取单元，用于根据所述具有否定意义的医疗术语的位置，在所述新索引分词序列中提取所述医疗否定术语。

18.根据权利要求17所述的医疗否定术语的检出系统，其特征在于，所述输出单元具体为：

转换单元，用于去掉所述医疗否定术语中的否定词，在每个所述医疗否定术语之前增加预设否定词以转换得到所述新索引分词结果。