CN111192646A

CN111192646A - 一种电子病历中体征信息提取方法及装置

Info

Publication number: CN111192646A
Application number: CN201911398947.1A
Authority: CN
Inventors: 申亚男; 刘宁; 董婉; 胡茜; 王静; 吴志超
Original assignee: Beijing Aidoctor Intelligent Medical Technology Co Ltd
Current assignee: Beijing Aidoctor Intelligent Medical Technology Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-22

Abstract

本发明实施例公开了一种电子病例中体征信息提取方法及装置，方法包括：根据电子病历中体征信息文本的标点符号，切分所述体征信息文本，得到子句集合；根据所述子句集合中的子句与预设体征及其同义词词典，确定体征；根据所述体征，确定所述体征对应的细节。本发明实施例通过切分体征信息文本并对切分好的子句进行体征和体征细节的抽取，实现了体征信息文本的结构化。

Description

一种电子病历中体征信息提取方法及装置

技术领域

本发明涉及计算机技术领域，具体涉及一种电子病历中体征信息提取方法及装置。

背景技术

目前，电子病历中包含了患者整个就诊过程中出现的症状、进行的检查、实施治疗措施和诊断的疾病等多种医学信息，是科研人员进行医学数据分析与数据挖掘的主要数据源。

体征，即医生通过体格检查利用自己的感官(视触叩听)或者医疗器具(血压计叩诊锤等)发现的患者的病理生理变化，是医生临床治疗过程中对病人查体后得到的病人的客观临床表现，是电子病历中必要的组成成分，也是医护人员对病人做出医疗诊断的基本凭证。体征信息文本中蕴藏着大量与个人健康状况密切相关的诊疗知识，对体征实体的识别和抽取是医学领域重要的数据研究内容。

然而，体征信息文本是非结构化的，非结构化数据并不能被计算机自动分析处理，在一定程度上阻碍了医学知识的挖掘和知识发现。

发明内容

由于现有方法存在上述问题，本发明实施例提出一种电子病例中体征信息提取方法及装置。

第一方面，本发明实施例提出一种电子病例中体征信息提取方法，包括：

根据电子病历中体征信息文本的标点符号，切分所述体征信息文本，得到子句集合；

根据所述子句集合中的子句与预设体征及其同义词词典，确定体征；

根据所述体征，确定所述体征对应的细节。

可选地，所述根据电子病历中体征信息文本的标点符号，切分所述体征信息文本，得到子句集合，包括：

根据所述体征信息文本的逗号和句号，切分所述体征信息文本，得到第一子句集合；

根据所述含有顿号的第一子句中的顿号，切分所述含有顿号的第一字句，得到第二子句集合；

其中，所述第一子句集合中除含有顿号的第一子句以外的第一子句与所述第二子句集合中的第二子句构成所述子句集合。

可选地，所述电子病例中体征信息提取方法，还包括：

针对所述第二子句集合中第二子句补充因使用顿号而省略的肯定词或否定词。

可选地，所述电子病例中体征信息提取方法，还包括：

根据预设否定词词库，使用正则匹配将所述子句集合中的子句区分为肯定句和否定句。

可选地，所述根据所述子句集合中的子句与预设体征及其同义词词典，确定体征，包括：

确定所述子句集合中的肯定句或否定句与所述预设体征及其同义词词典中的词的第一相似度；

若所述第一相似度大于第一预设相似度阈值，则确定所述词是肯定候选体征或否定候选体征；

确定所述肯定候选体征或所述否定候选体征与预设标准体征库里的名称的第二相似度；

若所述第二相似度大于第二预设相似度阈值，则确定所述名称是肯定体征或否定体征。

可选地，所述电子病例中体征信息提取方法，还包括：

针对所述第一相似度小于或等于所述第一预设相似度阈值的肯定句或否定句，在所述肯定句或否定句前补充所述肯定句或所述否定句前面最邻近的部位主题词；

针对补充部位主题词后的肯定句或否定句，确定所述补充部位主题词后的肯定句或否定句与所述预设体征及其同义词词典中的词的第三相似度；

若所述第三相似度大于第三预设相似度阈值，则确定所述词是所述肯定候选体征或所述否定候选体征；

确定所述肯定候选体征或所述否定候选体征与预设标准体征库里的名称的第四相似度；

若所述第四相似度大于第四预设相似度阈值，则确定所述名称是所述肯定体征或所述否定体征。

可选地，所述根据所述体征，确定所述体征对应的细节，包括：

通过正则匹配识别所述肯定体征对应的候选细节；

确定所述候选细节与预设标准体征细节库中的名称的第五相似度；

若所述第五相似度大于预设第五相似度阈值，则确定所述名称是所述体征对应的细节。

第二方面，本发明实施例还提出一种电子病例中体征信息提取装置，包括：文本切分模块、特征确定模块和细节确定模块；

所述文本切分模块，用于根据电子病历中体征信息文本的标点符号，切分所述体征信息文本，得到子句集合；

所述体征确定模块，用于根据所述子句集合中的子句与预设体征及其同义词词典，确定体征；

所述细节确定模块，用于根据所述体征，确定所述体征对应的细节。

可选地，所述文本切分模块，具体用于：

可选地，所述电子病例中体征信息提取装置，还包括：补充模块；

所述补充模块，用于针对所述第二子句集合中第二子句补充因使用顿号而省略的肯定词或否定词。

可选地，所述电子病例中体征信息提取装置，还包括：区分模块；

所述区分模块，用于根据预设否定词词库，使用正则匹配将所述子句集合中的子句区分为肯定句和否定句。

可选地，所述体征确定模块，具体用于：

可选地，所述电子病例中体征信息提取装置，还包括：部位主题词补充模块、第三相似度确定模块、候选体征确定模块、第四相似度确定模块和肯定体征或否定体征确定模块；

所述部位主题词补充模块，用于针对所述第一相似度小于或等于所述第一预设相似度阈值的肯定句或否定句，在所述肯定句或否定句前补充所述肯定句或所述否定句前面最邻近的部位主题词；

所述第三相似度确定模块，用于针对补充部位主题词后的肯定句或否定句，确定所述补充部位主题词后的肯定句或否定句与所述预设体征及其同义词词典中的词的第三相似度；

所述候选体征确定模块，用于若所述第三相似度大于第三预设相似度阈值，则确定所述词是所述肯定候选体征或所述否定候选体征；

所述第四相似度确定模块，用于确定所述肯定候选体征或所述否定候选体征与预设标准体征库里的名称的第四相似度；

所述肯定体征或否定体征确定模块，用于若所述第四相似度大于第四预设相似度阈值，则确定所述名称是所述肯定体征或所述否定体征。

可选地，所述细节确定模块，具体用于：

通过正则匹配识别所述肯定体征对应的候选细节；

第三方面，本发明实施例还提出一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述方法。

第四方面，本发明实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行上述方法。

由上述技术方案可知，本发明实施例通过对切分好的子句进行体征和体征细节的抽取，实现了体征信息文本的结构化；通过补充因使用顿号而省略的肯定词或否定词，以及在所述肯定句或否定句前补充所述肯定句或所述否定句前面最邻近的部位主题词，提高了体征识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本发明一实施例提供的一种电子病历中体征信息提取方法的流程示意图；

图2为本发明一实施例提供的一种电子病历中体征信息提取装置的结构示意图；

图3为本发明一实施例提供的电子设备的逻辑框图。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

图1示出了本实施例提供的一种电子病历中体征信息提取方法的流程示意图，包括：

S11，根据电子病历中体征信息文本的标点符号，切分所述体征信息文本，得到子句集合。

在本发明实施例中，先确定电子病历中体征信息文本的标点符号，根据所述标点符号切分所述体征信息文本，得到子句集。以体征信息文本为“咽部充血，双侧扁桃体无肿大。双肺呼吸音粗，叩诊浊音。腹软，中上腹部压痛，无反跳痛、肌紧张”为例，根据体征信息文本“咽部充血,双侧扁桃体无肿大。双肺呼吸音粗，叩诊浊音。腹软，中上腹部压痛，无反跳痛、肌紧张”中的标点符号，即逗号、顿号和句号，对体征信息文本“咽部充血,双侧扁桃体无肿大。双肺呼吸音粗，叩诊浊音。腹软，中上腹部压痛，无反跳痛、肌紧张”进行切分，得到子句集合，即“咽部充血”、“双侧扁桃体无肿大”、“双肺呼吸音粗”、“叩诊浊音”、“腹软”、“中上腹部压痛”、“无反跳痛”、和“肌紧张”。

S12，根据所述子句集合中的子句与预设体征及其同义词词典，确定体征。

在本发明实施例中，所述预设体征及其同义词词典根据实际需要设置，在此不再赘述。

在本发明实施例中，根据所述子句集合中的子句与预设体征及其同义词词典，确定体征。例如，根据S11中子句集合中的子句“咽部充血”、“双侧扁桃体无肿大”、“双肺呼吸音粗”、“叩诊浊音”、“腹软”、“中上腹部压痛”、“无反跳痛”、和“肌紧张”与所述预设体征及其同义词词典，确定体征。

S13，根据所述体征，确定所述体征对应的细节。

在本发明实施例中，根据S12确定出的体征，识别所述体征信息文本中所述体征对应的细节。

本发明实施例对切分好的子句进行体征和体征细节的抽取，实现了体征信息文本的结构化。

进一步地，在上述方法实施例的基础上，所述根据电子病历中体征信息文本的标点符号，切分所述体征信息文本，得到子句集合，包括：

在本发明实施例中，根据所述体征信息文本的逗号和句号，切分所述体征信息文本，得到第一子句集合；具体地，以体征信息文本为“咽部充血，双侧扁桃体无肿大。双肺呼吸音粗，叩诊浊音。腹软，中上腹部压痛，无反跳痛、肌紧张”为例，根据上述体征信息文本中的逗号和句号，对上述体征信息文本进行切分，得到第一子句集合，即“咽部充血”、“双侧扁桃体无肿大”、“双肺呼吸音粗”、“叩诊浊音”、“腹软”、“中上腹部压痛”和“无反跳痛、肌紧张”。进一步地，根据所述含有顿号的第一子句中的顿号，切分所述含有顿号的第一字句，得到第二子句集合；具体地，以含有顿号的第一子句是“无反跳痛、肌紧张”为例，根据“无反跳痛、肌紧张”中的顿号，切分“无反跳痛、肌紧张”这一第一子句，得到第二子句集合为“无反跳痛”和“肌紧张”。其中，所述第一子句集合中除含有顿号的第一子句以外的第一子句与所述第二子句集合中的第二子句构成所述子句集合，即“咽部充血”、“双侧扁桃体无肿大”、“双肺呼吸音粗”、“叩诊浊音”、“腹软”、“中上腹部压痛”、“无反跳痛”和“肌紧张”。

本发明实施例通过切分体征信息文本并对切分好的子句进行体征和体征细节的抽取，实现了体征信息文本的结构化。

进一步地，在上述方法实施例的基础上，所述电子病例中体征信息提取方法，还包括：

在本发明实施例中，所述第二子句集合中含有因使用顿号而省略了肯定词或否定词的第二子句。针对所述第二子句集合中第二子句补充因使用顿号而省略的肯定词或否定词。具体地，以含有顿号的第一子句是“无反跳痛、肌紧张”为例。根据“无反跳痛、肌紧张”中的顿号，对其进行切分，得到“无反跳痛”和“肌紧张”。此时“肌紧张”前面省略了否定词“无”。因此，需要在“肌紧张”前面补充“无”。补充后的子句为“无肌紧张”。

本发明实施例通过补充因使用顿号而省略的肯定词或否定词，提高了体征识别的准确率。

在本发明实施例中，根据预设否定词词库，使用正则匹配将所述子句集合中的子句区分为肯定句和否定句。具体地，以所述子句集合为“咽部充血”、“双侧扁桃体无肿大”、“双肺呼吸音粗”、“叩诊浊音”、“腹软”、“中上腹部压痛”、“无反跳痛”和“无肌紧张”为例，将子句集合中的子句进行区分，得到肯定句为“咽部充血”、“双肺呼吸音粗”、“叩诊浊音”、“腹软”和“中上腹部压痛”；得到否定句为“双侧扁桃体无肿大”、“无反跳痛”和“无肌紧张”。

本发明实施例通过使用正则匹配将所述子句集合中的子句区分为肯定句和否定句，进一步确定肯定体征和否定体征。

进一步地，所述根据所述子句集合中的子句与预设体征及其同义词词典，确定体征，包括：

在本发明实施例中，根据所述子句集合中的子句与所述预设体征及其同义词词典，可以确定出体征。所述预设体征及其同义词词典中包括诸如“中上腹软”、“腹部压痛”等词。具体地，确定所述子句集合中的肯定句或否定句与所述预设体征及其同义词词典中的词的第一相似度；若所述第一相似度大于第一预设相似度阈值，则确定所述词是肯定候选体征或否定候选体征。具体地，以肯定句为“腹软”为例，计算肯定句“腹软”与预设体征及其同义词词典中的“中上腹软”和“腹部压痛”的第一相似度分别为0.8和0.3。其中，所述第一预设相似度阈值为0.7。由此可以确定出预设体征及其同义词词典中的“中上腹软”为肯定候选体征。进一步地，确定所述肯定候选体征或所述否定候选体征与预设标准体征库里的名称的第二相似度；若所述第二相似度大于第二预设相似度阈值，则确定所述名称是肯定体征或否定体征。具体地，确定所述肯定候选体征“中上腹软”与预设标准体征库里的名称，如“中上腹软”的第二相似度是1，大于第二预设相似度阈值0.8，则确定名称“中上腹软”是肯定体征。

本发明实施例通过相似度比较，确定出肯定体征或否定体征，操作简单，肯定体征或否定体征识别率高。

在本发明实施例中，根据电子病历中体征信息文本的句式结构可知，有些子句会由于和它的前句共用一个部位主题词而在当前句省略该主题词，因此为提高体征识别准确率，对于没有识别出体征的句子，补充上其前一个句子的身体部位主题词，若前一句子也不含身体部位主题词，则再往前找，即补充上该句子前面最邻近的部位主题词，然后对这些没有识别出体征的句子再执行一遍体征识别过程；具体地，针对所述第一相似度小于或等于所述第一预设相似度阈值的肯定句或否定句，在所述肯定句或否定句前补充所述肯定句或所述否定句前面最邻近的部位主题词；如，在“叩诊浊音”、“无反跳痛”和“无肌紧张”前分别补充部位主题词，补充后的子句为“肺部叩诊浊音”、“腹部无反跳痛”和“腹部无肌紧张”。针对补充部位主题词后的肯定句或否定句，确定所述补充部位主题词后的肯定句或否定句与所述预设体征及其同义词词典中的词的第三相似度；若所述第三相似度大于第三预设相似度阈值，则确定所述词是所述肯定候选体征或所述否定候选体征；以所述预设体征及其同义词词典中包括“腹部无反跳痛”，肯定句为“腹部无反跳痛”为例，计算出“腹部无反跳痛”与“腹部无反跳痛”的相似度为1.0，大于第三预设相似度阈值0.7，则确定“腹部无反跳痛”是肯定候选体征。进一步，确定所述肯定候选体征或所述否定候选体征与预设标准体征库里的名称的第四相似度；若所述第四相似度大于第四预设相似度阈值，则确定所述名称是所述肯定体征或所述否定体征。以肯定候选体征为“腹部无反跳痛”、预设标准体征库中包括“腹部无反跳痛”这一名称为例，计算出肯定候选体征“腹部无反跳痛”与预设标准体征库中的“腹部无反跳痛”的相似度为1，大于第四预设相似度阈值0.7，则确定所述肯定候选体征“腹部无反跳痛”为肯定体征。

本发明实施例通过在所述肯定句或否定句前补充所述肯定句或所述否定句前面最邻近的部位主题词，提高了体征识别的准确率。

进一步地，在上述方法实施例的基础上，所述根据所述体征，确定所述体征对应的细节，包括：

通过正则匹配识别所述肯定体征对应的候选细节；

在本发明实施例中，通过正则匹配识别所述肯定体征对应的候选细节，如部位、性质、强度、颜色、形态、范围、缓解条件等。确定所述候选细节与预设标准体征细节库中的名称的第五相似度；若所述第五相似度大于预设第五相似度阈值，则确定所述名称是所述体征对应的细节。

本发明实施例通过相似度比较，识别出了体征对应的细节，操作简单，细节提取的准确率高，为医学领域信息检索、数据挖掘和临床决策支持提供了准确的结构化医疗数据支持。

需要说明的是，在本发明实施例中，可以进一步确定出所述细节的种类，如部位的种类有左肺和右肺等。若提取出的体征为“肺部叩诊浊音”，提取出的细节为“部位”，提取出的细节种类为“左肺”，则将提取出来的体征和体征细节表示为{'肺部叩诊浊音-部位':['左肺']}。

图2示出了本实施例提供的一种电子病历中体征信息提取装置的结构示意图，所述装置包括：文本切分模块21、特征确定模块22和细节确定模块23；

所述文本切分模块21，用于根据电子病历中体征信息文本的标点符号，切分所述体征信息文本，得到子句集合；

所述体征确定模块22，用于根据所述子句集合中的子句与预设体征及其同义词词典，确定体征；

所述细节确定模块23，用于根据所述体征，确定所述体征对应的细节。

进一步地，在上述装置实施例的基础上，所述文本切分模块21，具体用于：

进一步地，在上述装置实施例的基础上，所述电子病例中体征信息提取装置，还包括：补充模块；

进一步地，在上述装置实施例的基础上，所述电子病例中体征信息提取装置，还包括：区分模块；

进一步地，在上述装置实施例的基础上，所述体征确定模块22，具体用于：

进一步地，在上述装置实施例的基础上，所述电子病例中体征信息提取装置，还包括：部位主题词补充模块、第三相似度确定模块、候选体征确定模块、第四相似度确定模块和肯定体征或否定体征确定模块；

进一步地，在上述装置实施例的基础上，所述细节确定模块23，具体用于：

通过正则匹配识别所述肯定体征对应的候选细节；

本实施例所述的电子病历中体征信息提取装置可以用于执行上述方法实施例，其原理和技术效果类似，此处不再赘述。

参照图3，所述电子设备，包括：处理器(processor)31、存储器(memory)32和总线33；

其中，所述处理器31和存储器32通过所述总线33完成相互间的通信；

所述处理器31用于调用所述存储器32中的程序指令，以执行上述各方法实施例所提供的方法。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种电子病例中体征信息提取方法，其特征在于，包括：

根据所述体征，确定所述体征对应的细节。

2.根据权利要求1所述的电子病例中体征信息提取方法，其特征在于，所述根据电子病历中体征信息文本的标点符号，切分所述体征信息文本，得到子句集合，包括：

3.根据权利要求2所述的电子病例中体征信息提取方法，其特征在于，所述电子病例中体征信息提取方法，还包括：

4.根据权利要求3所述的电子病例中体征信息提取方法，其特征在于，所述电子病例中体征信息提取方法，还包括：

5.根据权利要求4所述的电子病例中体征信息提取方法，其特征在于，所述根据所述子句集合中的子句与预设体征及其同义词词典，确定体征，包括：

6.根据权利要求5所述的电子病例中体征信息提取方法，其特征在于，所述电子病例中体征信息提取方法，还包括：

7.根据权利要求1所述的电子病例中体征信息提取方法，其特征在于，所述根据所述体征，确定所述体征对应的细节，包括：

通过正则匹配识别所述肯定体征对应的候选细节；

8.一种电子病例中体征信息提取装置，其特征在于，包括：文本切分模块、特征确定模块和细节确定模块；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一所述的电子病例中体征信息提取方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一所述的电子病例中体征信息提取方法。