CN111352987A

CN111352987A - 一种电子病历结构化方法、系统及相关设备

Info

Publication number: CN111352987A
Application number: CN202010131426.6A
Authority: CN
Inventors: 汤学民
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2020-06-30

Abstract

本发明实施例提供了一种电子病历结构化方法、系统及相关设备，用于提高病历信息提取效率。本发明实施例方法包括：获取目标电子病历文本，并根据预设语料词库及预设分词规则对所述目标电子病历文本进行分词形成分词集合；采用预设的关键词与所述分词集合中的分词进行匹配，并确定匹配成功的目标关键词对应的数据元作为目标类型数据元，每一个关键词至少对应一种类型的数据元；根据所述目标类型数据元的提取规则从所述目标电子病历文本中提取所述目标类型数据元的数据元值；将所述目标电子病历文本的所有目标类型数据元关联存储。

Description

一种电子病历结构化方法、系统及相关设备

技术领域

本发明涉及数据处理技术领域，尤其涉及一种电子病历结构化方法、系统及相关设备。

背景技术

病历是各类医疗文书的集合，而病历的多学科高维度的数据结构对一个经验丰富的人员者来说，要全面掌握其中的信息也是十分困难。而且病历的大部分内容都是非结构化的、自然语言(非标准化)形成的文本，仅有病案首页实现了结构化和标准化。但是病案首页上的信息是经过浓缩的，信息量十分有限。

现有方案中，对于病历信息的提取，例如详细的症状、体格检查、病史病程、检查化验等，均需要查阅病历信息，往往需要不同专业的人员需要针对病历的不同方面多次阅读，从而获取不同方面的信息。目前，不管是纸质归档病案还是电子归档病案，都需要人工阅读原始病历，在各类病历信息提取的工作中不得不耗费大量人力物力。

发明内容

本发明实施例提供了一种电子病历结构化方法、系统及相关设备，用于提高病历信息提取效率。

本发明实施例第一方面提供了一种电子病历结构化方法，其特征在于，包括：

获取目标电子病历文本，并根据预设语料词库及预设分词规则对所述目标电子病历文本进行分词形成分词集合；

采用预设的关键词与所述分词集合中的分词进行匹配，并确定匹配成功的目标关键词对应的数据元作为目标类型数据元，每一个关键词至少对应一种类型的数据元；

根据所述目标类型数据元的提取规则从所述目标电子病历文本中提取所述目标类型数据元的数据元值；

将所述目标电子病历文本的所有目标类型数据元关联存储。

可选的，作为一种可能的实施方式，当所述目标类型数据元的取值类型为标志型时，所述根据所述目标类型数据元的提取规则从所述目标电子病历文本中提取所述目标类型数据元的数据元值，包括：

判断所述目标关键词前文或后文是否存在否定意思表达，若存在否定意思表达，则确定所述目标类型数据元的数据元值为否定，否则确定所述目标类型数据元的数据元值为肯定。

可选的，作为一种可能的实施方式，在所述判断所述目标关键词前文或后文是否存在否定意思表达之前，所述方法还包括：

判断所述目标关键词前文或后文是否包含预设分词，若包含预设分词，则将所述预设分词与所述目标关键词合并为新数据元名称；

和/或，

判断所述目标关键词前文或后文是否包含虚拟表述，若存在虚拟表述，则终止提取所述目标类型数据元的数据元值。

可选的，作为一种可能的实施方式，当所述目标类型数据元的取值类型为枚举型时，所述根据所述目标类型数据元的提取规则从所述目标电子病历文本中提取所述目标类型数据元的数据元值，包括：

判断所述目标关键词前文或后文是否包含预设分词，若包含预设分词，则判断所述目标关键词的后文中是否存在匹配的枚举值，若存在匹配的枚举值，则确定所述目标类型数据元的数据元值为所述匹配的枚举值。

可选的，作为一种可能的实施方式，在所述判断所述目标关键词前文或后文是否包含预设分词之后，所述方法还包括：

判断所述目标关键词前文或后文是否存在否定意思表达，若存在否定意思表达，则终止提取所述目标类型数据元的数据元值；

和/或，

可选的，作为一种可能的实施方式，当所述目标类型数据元的取值类型为数字型时，所述根据所述目标类型数据元的提取规则从所述目标电子病历文本中提取所述目标类型数据元的数据元值，包括：

判断所述目标关键词前文或后文是否包含预设分词，若包含预设分词，则判断所述目标关键词的后文中是否存在数字和单位，若存在数字和单位，则确定所述目标类型数据元的数据元值为所述数字和单位。

可选的，作为一种可能的实施方式，当所述目标类型数据元的取值类型为日期型时，所述根据所述目标类型数据元的提取规则从所述目标电子病历文本中提取所述目标类型数据元的数据元值，包括：

判断所述目标关键词前文或后文是否包含预设分词，若包含预设分词，则判断所述目标关键词的后文中是否存在日期型数据，若存在日期型数据，则确定所述目标类型数据元的数据元值为所述日期型数据。

可选的，作为一种可能的实施方式，当所述目标类型数据元的取值类型为姓名型时，所述根据所述目标类型数据元的提取规则从所述目标电子病历文本中提取所述目标类型数据元的数据元值，包括：

判断所述目标关键词前文或后文是否包含预设分词，若包含预设分词，则进行姓名提取的步骤，并将提取到的姓名作为所述目标类型数据元的数据元值；

所述姓名提取的步骤包括：提取所述目标关键词后文中预设数量的分词，并将提取到的分词组合成字符长度2-4位的组合汉字符，并在预设的频数表中查询所述组合汉字符的首字符及尾字符对应的频数；判断所述组合汉字符的首字符及尾字符的频数之和是否超设定阈值，若超过设定阈值，则取所述组合汉字符作为所述目标类型数据元的数据元值；若不存在所述组合汉字符，则将汉字符数相加等于3的2个连续分词合并为一个组合分词，判断所述组合分词的首字符及尾字符的频数之和是否超设定阈值，若超过设定阈值，则取所述组合分词作为所述目标类型数据元的数据元值。

可选的，作为一种可能的实施方式，当所述目标类型数据元的取值类型为字符型时，所述根据所述目标类型数据元的提取规则从所述目标电子病历文本中提取所述目标类型数据元的数据元值，包括：

判断所述目标关键词前文或后文是否包含预设分词，若包含预设分词，则根据预设的取值位移及所述目标关键词确定待截取文本起始位置及终止位置，将所述待截取文本作为所述目标类型数据元的数据元值。

可选的，作为一种可能的实施方式，所述判断所述目标关键词前文或后文是否存在否定意思表达，包括：

提取所述目标关键词后文中第一预设数量的分词，若所述第一预设数量的分词中只包括数字、字母、小数点，则判定不存在否定意思表达；若所述目标关键词后文最近的第二预设数量分词中存在肯定词，则不再查找所述目标关键词前文，直接判定不存在否定意思表达；若所述第一预设数量的分词中包含否定词且不属于例外情况，则判定存在否定意思表达；若所述第一预设数量的分词中存在“：”“、”之外的目标标点符号，则终止向目标标点符号之后检索否定词，若不存在否定词，则判定不存在否定意思表达；

提取所述目标关键词前文中第三预设数量的分词，若所述第三预设数量的分词中与所述目标关键词最近的第四预设数量分词中存在程度副词，则不再查找前面是否有否定词，直接判定不存在否定意思表达；若所述第三预设数量的分词中与所述目标关键词最近的第四预设数量分词中存在肯定词且存在“，”时，则不再查找前面是否有否定词，直接判定不存在否定意思表达；若所述第三预设数量的分词中与所述目标关键词最近的第四预设数量分词中存在肯定词，但存在“、”时，则继续查找前面是否有否定词；若所述第三预设数量的分词中存在否定词，分情况判断：(1)否定词与所述目标关键词之间没有标点符号时，则判定存在否定意思表达；(2)否定词与所述目标关键词之间有逗号分隔时，若没有肯定词且否定词为句首，则判定存在否定意思表达；(3)否定词与所述目标关键词之间有逗号分隔时，若存在肯定词或当前有顿号或存在连续有二个否定词，则判定不存在否定意思表达。

可选的，作为一种可能的实施方式，所述预设语料词库的生成步骤包括：

以《信息处理用现代汉语五千词表》、《ICD-10》中的分词作为基本词表，并使用所述基本词表及基本分词规则对《病历书写基本规范》进行分词，并从《病历书写基本规范》的分词中国筛选新的分词加入所述基本词表；

采用所述基本词表及基本分词规则对预存的模板病历进行分词，并从所述模板病历分词中筛选出需要加入预设语料词库的分词形成实词词库；

以所述基本词表与所述实词词库中的分词组成预设语料词库。

可选的，作为一种可能的实施方式，本发明实施例中的电子病历结构化方法，还可以包括：

在采用所述基本词表及基本分词规则对预存的模板病历进行分词的过程中，调整所述基本分词规则，以识别医学专业名词、姓名、地名、医疗机构、特殊字符。

可选的，作为一种可能的实施方式，本发明实施例中，所述数据元定义的字段包括：数据元编码、名称、描述、类型、取值类型、参考值范围、是否否定判断、疾病系统、是否启用。

本发明实施例第三方面提供了一种电子病历结构化系统，可包括：

获取单元，用于获取目标电子病历文本，并根据预设语料词库及预设分词规则对目标电子病历文本进行分词形成分词集合；

匹配单元，采用预设的关键词与分词集合中的分词进行匹配，并确定匹配成功的目标关键词对应的数据元作为目标类型数据元，每一个关键词至少对应一种类型的数据元；

提取单元，用于根据目标类型数据元的提取规则从目标电子病历文本中提取目标类型数据元的数据元值；

存储单元，用于将目标电子病历文本的所有目标类型数据元关联存储。

可选的，作为一种可能的实施方式，当目标类型数据元的取值类型为标志型时，提取单元可包括：

第一判断模块，用于判断目标关键词前文或后文是否存在否定意思表达，若存在否定意思表达，则确定目标类型数据元的数据元值为否定，否则确定目标类型数据元的数据元值为肯定。

可选的，作为一种可能的实施方式，本发明实施例中的电子病历结构化系统还可以包括：

第二判断模块，用于判断目标关键词前文或后文是否包含预设分词，若包含预设分词，则将预设分词与目标关键词合并为新数据元名称；

和/或，

第三判断模块，用于判断目标关键词前文或后文是否包含虚拟表述，若存在虚拟表述，则终止提取目标类型数据元的数据元值。

可选的，作为一种可能的实施方式，当目标类型数据元的取值类型为枚举型时，提取单元可包括：

第四判断模块，用于判断目标关键词前文或后文是否包含预设分词，若包含预设分词，则判断目标关键词的后文中是否存在匹配的枚举值，若存在匹配的枚举值，则确定目标类型数据元的数据元值为匹配的枚举值。

第五判断模块，用于判断目标关键词前文或后文是否存在否定意思表达，若存在否定意思表达，则终止提取目标类型数据元的数据元值；

和/或，

第六判断模块，用于判断目标关键词前文或后文是否包含虚拟表述，若存在虚拟表述，则终止提取目标类型数据元的数据元值。

可选的，作为一种可能的实施方式，当目标类型数据元的取值类型为数字型时，提取单元可包括：

第七判断模块，用于判断目标关键词前文或后文是否包含预设分词，若包含预设分词，则判断目标关键词的后文中是否存在数字和单位，若存在数字和单位，则确定目标类型数据元的数据元值为数字和单位。

可选的，作为一种可能的实施方式，当目标类型数据元的取值类型为日期型时，提取单元可包括：

第八判断模块，用于判断目标关键词前文或后文是否包含预设分词，若包含预设分词，则判断目标关键词的后文中是否存在日期型数据，若存在日期型数据，则确定目标类型数据元的数据元值为日期型数据。

可选的，作为一种可能的实施方式，本发明实施例中，当目标类型数据元的取值类型为姓名型时，提取单元可包括：

第九判断模块，用于判断目标关键词前文或后文是否包含预设分词，若包含预设分词，则进行姓名提取的步骤，并将提取到的姓名作为目标类型数据元的数据元值；

姓名提取的步骤包括：提取目标关键词后文中预设数量的分词，并将提取到的分词组合成字符长度2-4位的组合汉字符，并在预设的频数表中查询组合汉字符的首字符及尾字符对应的频数；判断组合汉字符的首字符及尾字符的频数之和是否超设定阈值，若超过设定阈值，则取组合汉字符作为目标类型数据元的数据元值；若不存在组合汉字符，则将汉字符数相加等于3的2个连续分词合并为一个组合分词，判断组合分词的首字符及尾字符的频数之和是否超设定阈值，若超过设定阈值，则取组合分词作为目标类型数据元的数据元值。

可选的，作为一种可能的实施方式，本发明实施例中，当目标类型数据元的取值类型为字符型时，提取单元可包括：

第十判断模块，用于判断目标关键词前文或后文是否包含预设分词，若包含预设分词，则根据预设的取值位移及目标关键词确定待截取文本起始位置及终止位置，将待截取文本作为目标类型数据元的数据元值。

可选的，作为一种可能的实施方式，本发明实施例中的第一判断模块和第五判断模块还可以包括：

第一提取子模块，用于提取目标关键词后文中第一预设数量的分词，若第一预设数量的分词中只包括数字、字母、小数点，则判定不存在否定意思表达；若目标关键词后文最近的第二预设数量分词中存在肯定词，则不再查找目标关键词前文，直接判定不存在否定意思表达；若第一预设数量的分词中包含否定词且不属于例外情况，则判定存在否定意思表达；若第一预设数量的分词中存在“：”“、”之外的目标标点符号，则终止向目标标点符号之后检索否定词，若不存在否定词，则判定不存在否定意思表达；

第二提取子模块，用于提取目标关键词前文中第三预设数量的分词，若第三预设数量的分词中与目标关键词最近的第四预设数量分词中存在程度副词，则不再查找前面是否有否定词，直接判定不存在否定意思表达；若第三预设数量的分词中与目标关键词最近的第四预设数量分词中存在肯定词且存在“，”时，则不再查找前面是否有否定词，直接判定不存在否定意思表达；若第三预设数量的分词中与目标关键词最近的第四预设数量分词中存在肯定词，但存在“、”时，则继续查找前面是否有否定词；若第三预设数量的分词中存在否定词，分情况判断：(1)否定词与目标关键词之间没有标点符号时，则判定存在否定意思表达；(2)否定词与目标关键词之间有逗号分隔时，若没有肯定词且否定词为句首，则判定存在否定意思表达；(3)否定词与目标关键词之间有逗号分隔时，若存在肯定词或当前有顿号或存在连续有二个否定词，则判定不存在否定意思表达。

可选的，作为一种可能的实施方式，本发明实施例中，预设语料词库的生成步骤包括：

以《信息处理用现代汉语五千词表》、《ICD-10》中的分词作为基本词表，并使用基本词表及基本分词规则对《病历书写基本规范》进行分词，并从《病历书写基本规范》的分词中国筛选新的分词加入基本词表；

采用基本词表及基本分词规则对预存的模板病历进行分词，并从模板病历分词中筛选出需要加入预设语料词库的分词形成实词词库；

以基本词表与实词词库中的分词组成预设语料词库。

在采用基本词表及基本分词规则对预存的模板病历进行分词的过程中，调整基本分词规则，以识别医学专业名词、姓名、地名、医疗机构、特殊字符。

可选的，作为一种可能的实施方式，本发明实施例中的电子病历结构化系统中，数据元定义的字段包括：数据元编码、名称、描述、类型、取值类型、参考值范围、是否否定判断、疾病系统、是否启用。

本发明实施例第三方面提供了一种计算机装置，所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如第一方面及第一方面中任意一种可能的实施方式中的步骤。

本发明实施例第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面及第一方面中任意一种可能的实施方式中的步骤。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例中，电子病历结构化系统可以根据预设语料词库及预设分词规则对目标电子病历文本进行分词形成分词集合，然后采用预设的关键词与分词集合中的分词进行匹配，并确定匹配成功的目标关键词对应的数据元作为目标类型数据元，根据目标类型数据元的提取规则从目标电子病历文本中提取目标类型数据元的数据元值，最后将目标电子病历文本的所有目标类型数据元关联存储。相对于现有方案，本发明实施例可以实现电子病历中数据元信息的自动化提取，并且将提取到的信息以数据元形式存储实现了数据的结构化，提高了病历信息提取效率。

附图说明

图1为本发明实施例中一种电子病历结构化方法的一个实施例示意图；

图2为本发明实施例中一种电子病历结构化系统的一个实施例示意图；

图3为本发明实施例中一种计算机装置的一个实施例示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

电子病历汇集了病情描述、检查结果、治疗过程等各种主观和客观的医疗信息，包含有医疗、护理、医技、财务等多个专业，而且医疗、医技方面还会细分更多专业，是重要的原始医学文献，是跨专业的高维度信息集合。

近年来电子病历迅速发展，但由于病历内容的复杂性和专业性，电子病历并未实现全面结构化，大量内容仍然以文本形式存在。因此，电子病历信息的利用模式仍然是组织人力进行阅读。本发明实施例使用的自然语言处理技术实现全电子病历的自动识别，从病历的自然语言中提取需要的信息，将病历信息的利用从有限的病案首页扩展到完整的病历，实现更深度的病历信息挖掘，突破学科限制，提高阅读效率，并且不需要改造电子病历系统，使病历信息得到充分的利用，还能进行实时查阅，不必等待病历归档，在医院医疗质量控制、临床科研、临床决策支持等各个方面都将得到广泛应用。

为了便于理解，下面对本发明实施例中的具体流程进行描述，请参阅图1，本发明实施例中一种电子病历结构化方法的一个实施例可包括：

101、获取目标电子病历文本，并根据预设语料词库及预设分词规则对目标电子病历文本进行分词形成分词集合；

在进行电子病历结构化之前，需要预先设置预设语料词库和预设分词规则。其中，预设语料词库中包含医学领域常用的分词，预设分词规则可以参照现有的基本分词规则，也可以是基于使用场景改进之后的分词规则，具体此处不做限定。

在需要对目标电子病历文本进行信息提取时，电子病历结构化系统可以获取目标电子病历文本，并根据预设语料词库及预设分词规则对目标电子病历文本进行分词形成分词集合。具体的，首先判断汉字符并做出标记，再对文本进行分割处理，其中汉字符采用预设分词规则中的正向最大匹配法分词，最后还可以对文本进行细分处理，即利用预设分词规则中的特殊分词规则对预处理和分割处理后的分词进行过滤和再处理。再处理时需考虑以下特殊情况：医学专业名词不分开；对姓名的分词处理；地名、医疗机构的分词处理、特殊字符的处理等。需要说明的是，本发明实施例中的连续的空格、单独的标点符号在分词的过程中也作为单独的一个分词。

102、采用预设的关键词与分词集合中的分词进行匹配，并确定匹配成功的目标关键词对应的数据元作为目标类型数据元，每一个关键词至少对应一种类型的数据元；

在对目标电子病历文本分词得到分词集合之后，可以采用预设的关键词与分词集合中的分词进行匹配，并确定匹配成功的目标关键词对应的数据元作为目标类型数据元，每一个关键词可以对应一种类型的数据元或多种类型的数据元。例如，疼痛作为关键词可以对应“腹痛”数据元、“胃痛”数据元、“头痛”数据元等。

其中，本发明实施例中的数据元可以是以电子病历基本数据集国家标准(WS445)作为信息定义的格式和的输出基准，也可以是在此基础上增加字段、数据元。其中，数据元的增加或字段的增加可以以《临床诊断学》、《临床症状与体征》等权威医学书籍中关于症状、体格检查、专科检查、实验室检查、辅助检查等定义和标准为依据。每个数据元定义的字段包括：数据元编码、名称、描述、类型、取值类型(标志型、枚举型、数字型、日期型、字符型、姓名型等)、允许值等，增加的字段可以包括：参考值范围、是否否定判断、疾病系统、是否启用等。增加的数据元类型可以为：健康史、家族史、超声检查、放射检查、病理检查、内镜检查、CT/MRI检查。

103、根据目标类型数据元的提取规则从目标电子病历文本中提取目标类型数据元的数据元值；

本发明实施例中，预先根据每种类型的数据元的定义及数据特性为每种数据元配置一种或多种提取规则。在确定匹配成功的目标类型数据元之后，可以根据目标类型数据元的提取规则从目标电子病历文本中提取目标类型数据元的数据元值。具体的数据元提取规则可以根据数据元的定义及数据特性进行配置，此处不做限定。

104、将目标电子病历文本的所有目标类型数据元关联存储。

同一份电子病历中提取的数据元之间必然存在关联，这种关联对疾病的诊断有重要的参考及科研意义。为此，电子病历结构化系统可以将目标电子病历文本的所有目标类型数据元关联存储，以便于查阅和/或显示。

可以理解的是，合理的预设语料词库可以提高信息提取的效率及准确率，下面将对本发明实施例中设置预设语料词库的具体过程进行示例性的说明。可选的，在上述图1所示的实施例的基础上，作为一种可能的实施方式，预设语料词库的生成步骤可包括：

以《信息处理用现代汉语五千词表》、《ICD-10》中的分词作为基本词表，并使用基本词表及基本分词规则对《病历书写基本规范》进行分词，并从《病历书写基本规范》的分词中国筛选新的分词加入基本词表；采用基本词表及基本分词规则对预存的模板病历进行分词(例如，采用全院42个科室每个科室的100份典型病历作为模板病历)，并从模板病历分词中筛选出需要加入预设语料词库的分词形成实词词库；以基本词表与实词词库中的分词组成预设语料词库。具体的筛选过程可以是人工筛选，在病历出现的新词汇都加入语料库，如病历常用词语、约定俗成的词、省略词及简称、专业词等，基本词表(《信息处理用现代汉语五千词表》)中出现的词，如在病历中不出现或无使用意义，且易引发病历分词歧义的，则删除。也可以根据预设的规则自动进行筛选，此处不做限定。

可选的，在采用基本词表及基本分词规则对预存的模板病历进行分词的过程中，可以调整基本分词规则，以识别医学专业名词、姓名、地名、医疗机构、特殊字符。

在上述实施例的基础上，下面将结合目标类型数据元的取值类型对目标类型数据元信息提取规则进行说明。

一、当目标类型数据元的取值类型为标志型(例如‘发热’、‘腹痛’取值类型’必须为T/F，其中T为肯定，F为否定)时，本发明实施例中，根据目标类型数据元的提取规则从目标电子病历文本中提取目标类型数据元的数据元值，可包括：

判断目标关键词前文或后文是否存在否定意思表达，若存在否定意思表达，则确定目标类型数据元的数据元值为否定，否则确定目标类型数据元的数据元值为肯定。

其中，当同一种数据元包含多个同种类型的规则时，可以依次执行各个规则，当上一个规则执行成功提取到数据元值则终止执行下一个规则。

可选的，作为一种可能的实施方式，在判断目标关键词前文或后文是否存在否定意思表达之前，还可以包括：

判断目标关键词前文或后文是否包含预设分词，若包含预设分词，则将预设分词与目标关键词合并为新数据元名称；

和/或，

判断目标关键词前文或后文是否包含虚拟表述，若存在虚拟表述，则终止提取目标类型数据元的数据元值。

实际运用中，对于取值类型为标志型的数据元，其识别过程中往往还需要一个或多个前后文的分词进行辅助识别，例如对于“腹痛”数据元可以设置关键词“疼痛”进而根据关键词的前文是否包含分词“腹部”或“腹”等识别出“腹痛”数据元。

其中，判断目标关键词前文或后文是否存在否定意思表达，可包括：

提取目标关键词后文中第一预设数量的分词，若第一预设数量的分词中只包括数字、字母、小数点，则判定不存在否定意思表达；若目标关键词后文最近的第二预设数量分词中存在肯定词，则不再查找目标关键词前文，直接判定不存在否定意思表达；若第一预设数量的分词中包含否定词且不属于例外情况，则判定存在否定意思表达；若第一预设数量的分词中存在“：”“、”之外的目标标点符号，则终止向目标标点符号之后检索否定词，若不存在否定词，则判定不存在否定意思表达；

提取目标关键词前文中第三预设数量的分词，若第三预设数量的分词中与目标关键词最近的第四预设数量分词中存在程度副词，则不再查找前面是否有否定词，直接判定不存在否定意思表达；若第三预设数量的分词中与目标关键词最近的第四预设数量分词中存在肯定词且存在“，”时，则不再查找前面是否有否定词，直接判定不存在否定意思表达；若第三预设数量的分词中与目标关键词最近的第四预设数量分词中存在肯定词，但存在“、”时，则继续查找前面是否有否定词；若第三预设数量的分词中存在否定词，分情况判断：(1)否定词与目标关键词之间没有标点符号时，则判定存在否定意思表达；(2)否定词与目标关键词之间有逗号分隔时，若没有肯定词且否定词为句首，则判定存在否定意思表达；(3)否定词与目标关键词之间有逗号分隔时，若存在肯定词或当前有顿号或存在连续有二个否定词，则判定不存在否定意思表达。

二、当目标类型数据元的取值类型为枚举型(如‘ABO血型’，其取值为‘A’‘B’‘AB’‘O’)时，根据目标类型数据元的提取规则从目标电子病历文本中提取目标类型数据元的数据元值，包括：

判断目标关键词前文或后文是否包含预设分词，若包含预设分词，则判断目标关键词的后文中是否存在匹配的枚举值，若存在匹配的枚举值，则确定目标类型数据元的数据元值为匹配的枚举值。

可选的，作为一种可能的实施方式，在判断目标关键词前文或后文是否包含预设分词之后，方法还包括：

判断目标关键词前文或后文是否存在否定意思表达，若存在否定意思表达，则终止提取目标类型数据元的数据元值；

和/或，判断目标关键词前文或后文是否包含虚拟表述，若存在虚拟表述，则终止提取目标类型数据元的数据元值。

三、当目标类型数据元的取值类型为数字型(例如‘血糖’、‘尿酸’等)时，根据目标类型数据元的提取规则从目标电子病历文本中提取目标类型数据元的数据元值，可包括：

判断目标关键词前文或后文是否包含预设分词，若包含预设分词，则判断目标关键词的后文中是否存在数字和单位，若存在数字和单位，则确定目标类型数据元的数据元值为数字和单位。

四、当目标类型数据元的取值类型为日期型时，根据目标类型数据元的提取规则从目标电子病历文本中提取目标类型数据元的数据元值，可包括：

判断目标关键词前文或后文是否包含预设分词，若包含预设分词，则判断目标关键词的后文中是否存在日期型数据，若存在日期型数据，则确定目标类型数据元的数据元值为日期型数据。

五、当目标类型数据元的取值类型为姓名型时，根据目标类型数据元的提取规则从目标电子病历文本中提取目标类型数据元的数据元值，可包括：

判断目标关键词前文或后文是否包含预设分词，若包含预设分词，则进行姓名提取的步骤，并将提取到的姓名作为目标类型数据元的数据元值；

其中，字符的频数是指，预先统计在医院就诊的大量患者姓名(例如500万名)或者基于互联网或其他数据库中获取大量姓名，得到每个‘姓’及‘名’的频数。

六、当目标类型数据元的取值类型为字符型(如‘既往手术名称’、‘手术记录’等)时，根据目标类型数据元的提取规则从目标电子病历文本中提取目标类型数据元的数据元值，可包括：

判断目标关键词前文或后文是否包含预设分词，若包含预设分词，则根据预设的取值位移及目标关键词确定待截取文本起始位置及终止位置，将待截取文本作为目标类型数据元的数据元值。

其中，当同一种数据元包含多种不同类型的规则(例如本实施例中包含两种类型的规则)时，依次执行各个不同类型的规则。

可以理解的是，上述示出的6种数据类型的数据元的提取过程仅仅是示例性的，实际运用中还可以根据用户提取数据元的数据特征进行调整，具体此处不做限定。

为了便于理解，下面将结合具体的运用实施例对本发明实施例中的电子病历结构化方法进行描述。

示例性的，目标电子病历如下：

主诉：腹痛2天。

现病史：患者二天前与朋友吃饭，饭后上腹部疼痛，疼痛持续，无向背部放射。无发热、腹泻。急诊查血常规：白细胞数12.5*10^9/L，中性粒细胞比值92％，淀粉酶1700U/L。今以急性胰腺炎收入院。

既往史：既往体健，无糖尿病、高血压史。未传染病史，无手术及输血史。

仅以需提取3个数据元为例：1、是否有腹痛症状；2、血淀粉酶值；3、病人的主诉

1、是否有腹痛症状：数据元值取值类型为‘标志性(T/F)’，定义数据元提取规则类型为起始，因只需用规则判断数据元是否存在。1)规则1：类型(起始)、关键词(腹痛)、关键词前文(空)、关键词后文(空)、取值位移(空或0)；2)规则2：类型(起始)、关键词(疼痛)、关键词前文(5，腹部上腹下腹)、关键词后文(空)、取值位移(空或0)。其中，当同一种数据元包含多个同种类型的规则时，依次执行各个规则，当上一个规则执行成功提取到数据元值则终止执行下一个规则。例如规则1若提取成功，则不再执行规则2，若规则1若提取失败，则继续执行规则2。

2、血淀粉酶值：数据元值取值类型为‘数量型(N..3)’，定义数据元提取规则类型为起始，因只需用规则判断数据元是否存在，在文中的位置，系统自动获取其后的数量值：1)规则1：类型(起始)、关键词(淀粉酶)、关键词前文(空)、关键词后文(3，数字)、取值位移(空或0)；

3、病人的主诉：数据元值取值类型为‘字符型(AN..200)’，定义数据元提取规则类型需起始和终止，起始类型确定取值开始的位置，终止类型确定取值结束的位置。1)规则1：类型(起始)、关键词(主诉)、关键词前文(空)、关键词后文(空)、取值位移(2‘2’表示‘主诉’后2个分词开始，即从‘腹痛’开始)；2)规则2：类型(终止)、关键词(现病史)、关键词前文(空)、关键词后文(空)、取值位移(-1‘-1’表示‘现病史’前1个分词结束，即至‘天’终止)；结合两个规则，可取到‘腹痛2天’的值。其中，规则1中的取值位移是根据关键词(主诉)为原点，“：”作为一个分词，则“腹痛”分词的取值位移为2，规则2中的取值位移是根据关键词(现病史)为原点，上一个分词的取值位移为“-1”。其中，当同一种数据元包含多种不同类型的规则(例如本实施例中包含两种类型的规则)时，依次执行各个不同类型的规则，例如规则1执行之后，则继续执行规则2。

请参阅图2，本发明实施例还提供了一种电子病历结构化系统，可包括：

获取单元201，用于获取目标电子病历文本，并根据预设语料词库及预设分词规则对目标电子病历文本进行分词形成分词集合；

匹配单元202，采用预设的关键词与分词集合中的分词进行匹配，并确定匹配成功的目标关键词对应的数据元作为目标类型数据元，每一个关键词至少对应一种类型的数据元；

提取单元203，用于根据目标类型数据元的提取规则从目标电子病历文本中提取目标类型数据元的数据元值；

存储单元204，用于将目标电子病历文本的所有目标类型数据元关联存储。

和/或，

以基本词表与实词词库中的分词组成预设语料词库。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上面从模块化功能实体的角度对本发明实施例中的网图表编辑器进行了描述，请参阅图3，下面从硬件处理的角度对本发明实施例中的计算机装置进行描述：

该计算机装置1可以包括存储器11、处理器12和输入输出总线13。处理器11执行计算机程序时实现上述图1所示的电子病历结构化方法实施例中的步骤，例如图1所示的步骤101至104。或者，处理器执行计算机程序时实现上述各装置实施例中各模块或单元的功能。

本发明的一些实施例中，处理器具体用于实现如下步骤：

获取目标电子病历文本，并根据预设语料词库及预设分词规则对目标电子病历文本进行分词形成分词集合；

采用预设的关键词与分词集合中的分词进行匹配，并确定匹配成功的目标关键词对应的数据元作为目标类型数据元，每一个关键词至少对应一种类型的数据元；

根据目标类型数据元的提取规则从目标电子病历文本中提取目标类型数据元的数据元值；

将目标电子病历文本的所有目标类型数据元关联存储。

当目标类型数据元的取值类型为标志型时，可选的，作为一种可能的实施方式，处理器还可以用于实现如下步骤：

可选的，作为一种可能的实施方式，处理器还可以用于实现如下步骤：

和/或，

当目标类型数据元的取值类型为枚举型时，可选的，作为一种可能的实施方式，处理器还可以用于实现如下步骤：

和/或，

当目标类型数据元的取值类型为数字型时，可选的，作为一种可能的实施方式，处理器还可以用于实现如下步骤：

当目标类型数据元的取值类型为日期型时，可选的，作为一种可能的实施方式，处理器还可以用于实现如下步骤：

当目标类型数据元的取值类型为姓名型时，可选的，作为一种可能的实施方式，处理器还可以用于实现如下步骤：

当目标类型数据元的取值类型为字符型时，可选的，作为一种可能的实施方式，处理器还可以用于实现如下步骤：

以基本词表与实词词库中的分词组成预设语料词库。

其中，存储器11至少包括一种类型的可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是计算机装置1的内部存储单元，例如该计算机装置1的硬盘。存储器11在另一些实施例中也可以是计算机装置1的外部存储设备，例如计算机装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括计算机装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于计算机装置1的应用软件及各类数据，例如计算机程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行计算机程序01等。

该输入输出总线13可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。

进一步地，计算机装置还可以包括有线或无线网络接口14，网络接口14可选的可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该计算机装置1与其他电子设备之间建立通信连接。

可选地，该计算机装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的，用户接口还可以包括标准的有线接口、无线接口。可选的，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在计算机装置1中处理的信息以及用于显示可视化的用户界面。

图3仅示出了具有组件11-14以及计算机程序01的计算机装置1，本领域技术人员可以理解的是，图3示出的结构并不构成对计算机装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，可以实现如下步骤：

将目标电子病历文本的所有目标类型数据元关联存储。

和/或，

以基本词表与实词词库中的分词组成预设语料词库。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种电子病历结构化方法，其特征在于，包括：

将所述目标电子病历文本的所有目标类型数据元关联存储。

2.根据权利要求1所述的方法，其特征在于，当所述目标类型数据元的取值类型为标志型时，所述根据所述目标类型数据元的提取规则从所述目标电子病历文本中提取所述目标类型数据元的数据元值，包括：

3.根据权利要求2所述的方法，其特征在于，在所述判断所述目标关键词前文或后文是否存在否定意思表达之前，所述方法还包括：

和/或，

4.根据权利要求1所述的方法，其特征在于，当所述目标类型数据元的取值类型为枚举型时，所述根据所述目标类型数据元的提取规则从所述目标电子病历文本中提取所述目标类型数据元的数据元值，包括：

5.根据权利要求4所述的方法，其特征在于，在所述判断所述目标关键词前文或后文是否包含预设分词之后，所述方法还包括：

和/或，

6.根据权利要求1所述的方法，其特征在于，当所述目标类型数据元的取值类型为数字型时，所述根据所述目标类型数据元的提取规则从所述目标电子病历文本中提取所述目标类型数据元的数据元值，包括：

7.根据权利要求1所述的方法，其特征在于，当所述目标类型数据元的取值类型为日期型时，所述根据所述目标类型数据元的提取规则从所述目标电子病历文本中提取所述目标类型数据元的数据元值，包括：

8.根据权利要求1所述的方法，其特征在于，当所述目标类型数据元的取值类型为姓名型时，所述根据所述目标类型数据元的提取规则从所述目标电子病历文本中提取所述目标类型数据元的数据元值，包括：

9.根据权利要求1所述的方法，其特征在于，当所述目标类型数据元的取值类型为字符型时，所述根据所述目标类型数据元的提取规则从所述目标电子病历文本中提取所述目标类型数据元的数据元值，包括：

10.根据权利要求2或5所述的方法，其特征在于，所述判断所述目标关键词前文或后文是否存在否定意思表达，包括：

11.根据权利要求1至10中任一项所述的方法，其特征在于，所述预设语料词库的生成步骤包括：

12.根据权利要求11所述的方法，其特征在于，还包括：

13.根据权利要求1至10中任一项所述的方法，其特征在于，所述数据元定义的字段包括：数据元编码、名称、描述、类型、取值类型、参考值范围、是否否定判断、疾病系统、是否启用。

14.一种电子病历结构化系统，其特征在于，包括：

获取单元，用于获取目标电子病历文本，并根据预设语料词库及预设分词规则对所述目标电子病历文本进行分词形成分词集合；

匹配单元，采用预设的关键词与所述分词集合中的分词进行匹配，并确定匹配成功的目标关键词对应的数据元作为目标类型数据元，每一个关键词至少对应一种类型的数据元；

提取单元，用于根据所述目标类型数据元的提取规则从所述目标电子病历文本中提取所述目标类型数据元的数据元值；

存储单元，用于将所述目标电子病历文本的所有目标类型数据元关联存储。

15.一种计算机装置，其特征在于，所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至13中任意一项所述方法的步骤。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1至13中任意一项所述方法的步骤。