CN112308048A

CN112308048A - 基于少量标注数据的病历完整性判别的方法、装置及系统

Info

Publication number: CN112308048A
Application number: CN202011396368.6A
Authority: CN
Inventors: 曾祥荣
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2021-02-02
Anticipated expiration: 2040-12-03
Also published as: CN112308048B

Abstract

本发明提供了基于少量标注数据的病历完整性判别的方法、装置及系统，该方法包括：确定待判断的目标字段；获取至少一条目标字段所对应的病历文本；计算待检测病历文本与所述目标字段所对应的病历文本的相似程度；当相似程度满足预设条件时，判定所述待检测病历文本含有目标字段内容否则不含目标字段的内容。利用本发明中的技术方案可以只需要少量(数十句)目标字段的内容，无需大量标注数据，即可判断病历中是否包含某个特定字段的内容，识别出内容有缺失的病历，摆脱了对标注数据的规模与质量的依赖，且快速方便，极大的降低了时间及人力成本。

Description

基于少量标注数据的病历完整性判别的方法、装置及系统

技术领域

本发明书一个或多个实施例涉及数据处理技术领域，尤其涉及一种基于少量标注数据的病历完整性判别的方法、装置及系统。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。

病历，是医务人员对患者疾病的发生、发展、转归进行检查、诊断、治疗等医疗活动过程中所形成的资料的总和。病历质量控制是医疗质量管理的重要组成部分。书写完整、规范的病历可以保证病案的真实性、及时性、客观性以及医疗行为的可追溯性，从而提高医疗管理水平，预防以及减少医疗纠纷。

电子病历(EMR，Electronic Medical Record)，也叫计算机化的病案系统或称基于计算机的病人记录(CPR，Computer-Based Patient Record)，是通过电子设备(计算机、健康卡等)数字化地保存、管理、传输和重现病人的医疗记录，以取代传统的手写纸张病历，它的内容包括纸张病历的所有信息。

如何判断一份电子病历的完整性呢？现有方法通常将这个任务视为二分类任务，通过标注大量的训练数据来训练分类模型，期望模型能够对输入的整个病历判断是否包含目标字段内容，来识别内容是否有缺失。

但该方法存在如下问题：

通过标注数据的方式来训练模型，严重依赖标注数据的规模与质量。标注数据面临着很高的时间、人力成本。

有鉴于此，亟需一种新的数据处理技术，适用于基于少量标注数据的病历，即可识别病历完整性的需求。

发明内容

本说明书一个或多个实施例描述了一种基于少量标注数据的病历完整性判别的方法、装置及系统，只需要少量(数十句)目标字段的内容，无需大量标注数据，即可完成病历完整性的判别，可解决目前技术中存在的通过标注数据的方式来训练模型，严重依赖标注数据的规模与质量，标注数据面临着很高的时间、人力成本的问题。

本说明书一个或多个实施例提供的技术方案如下：

第一方面，本发明提供了一种基于少量标注数据的病历完整性判别的方法，该方法包括：

确定待判断的目标字段；

获取至少一条目标字段所对应的病历文本；

计算待检测病历文本与所述目标字段所对应的病历文本的相似程度；

当相似程度满足预设条件时，判定所述待检测病历文本含有目标字段内容，否则不含目标字段的内容。

在一种可能的实现方式中，获取至少一条目标字段所对应的病历文本后，还包括以下处理步骤：

统计目标字段所对应的病历文本中不同字符的数目，并将这些字符构建成有序词表V；

将病历文本中目标字段对应的内容根据词表V转换为独热编码向量GV。

在一种可能的实现方式中，不同字符包括：汉字、数字、字母和标点符号。

在一种可能的实现方式中，计算待检测病历文本与所述目标字段所对应的病历文本的相似程度，具体为：

将待检测病历划分为至少一个段落；

根据预设的窗口大小及重叠度，将所述段落组合成至少一个片段；

将所述片段根据词表V转换为独热编码向量SV；其中，所述词表V为目标字段所对应的病历文本中不同字符构建成的有序词表；

计算独热编码向量SV中的每个向量与独热编码向量GV中的每个向量的相似度，并求平均值；

最大平均值作为待检测病历与目标字段所对应的病历文本的相似度值。

在一种可能的实现方式中，根据预设的窗口大小及重叠度，将所述段落组合成至少一个片段，具体为：

设置窗口大小w，以及重叠度k；

将段落依次组合成m个片段，记为S＝[s₁，...，s_i，...，s_m]；

若n％(w-k)＞k；

若n％(w-k)≤k；

其中，int(a)表示取a的整数部分；a％b表示a除以b得到的余数；S中每个片段s_i包含了w个段落，并且s_i和s_i-1重叠了k个段落；

s_i＝d_t：d_t+1：...：d_a

t＝i*(w-k)

q＝min(t+k，n)

其中，a:b表示将a和b拼接在一起。

在一种可能的实现方式中，所述计算独热编码向量SV中的每个向量与独热编码向量GV中的每个向量的相似度，并求平均值，具体为：

计算独热编码向量SV中的每个向量与独热编码向量GV中的每个向量的余弦相似度，并求平均值。

在一种可能的实现方式中，当相似程度满足预设条件时，判定所述待检测病历文本含有目标字段内容，否则不含目标字段的内容，具体为：

设定阈值α，如果病历的得分小于阈值，则判定该病历未包含目标字段内容，否则认为该病历包含了目标字段内容。

第二方面，本发明提供了一种基于少量标注数据的病历完整性判别的装置，该装置包括确定单元、获取单元、处理单元和判断单元；其中，

所述确定单元，用于确定待判断的目标字段；

所述获取单元，用于获取至少一条目标字段所对应的病历文本；

所述处理单元，用于计算待检测病历文本与所述目标字段所对应的病历文本的相似程度；

所述判断单元，用于当相似程度满足预设条件时，判定所述待检测病历文本含有目标字段内容，否则不含目标字段的内容。

在一种可能的实现方式中，所述装置还包括统计单元、构建单元和第一转换单元，其中：

所述统计单元，用于统计目标字段所对应的病历文本中不同字符的数目；

所述构建单元，用于并将这些字符构建成有序词表V；

所述第一转换单元，用于将病历文本中目标字段对应的内容根据词表V转换为独热编码向量GV。

在一种可能的实现方式中，所述处理单元包括段落划分单元、片段组合单元、第二转换单元和计算单元；其中：

所述段落划分单元，用于将待检测病历划分为至少一个段落；

所述段落组合单元，用于根据预设的窗口大小及重叠度，将所述段落组合成至少一个片段；

所述第二转换单元，用于将所述片段根据词表V转换为独热编码向量SV；其中，所述词表V为目标字段所对应的病历文本中不同字符构建成的有序词表；

所述计算单元，用于计算独热编码向量SV中的每个向量与独热编码向量GV中的每个向量的相似度，并求平均值。

在一种可能的实现方式中，所述段落组合单元包括设置单元和段落处理单元；其中，

所述设置单元，用于设置窗口大小w，以及重叠度k；

所述段落处理单元，用于将段落依次组合成m个片段，记为S＝[s₁，...，s_i，...，s_m]；

若n％(w-k)＞k；

若n％(w-k)≤k；

s_i＝d_t：d_t+1：...：d_a

t＝i*(w-k)

q＝min(t+k，n)

其中，a:b表示将a和b拼接在一起。

第三方面，本发明提供了一种基于少量标注数据的病历完整性判别的系统，该系统包括至少一个处理器和存储器；

所述存储器，用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行如第一方面中一个或多个所述的方法。

第四方面，本发明提供了一种芯片，所述芯片与系统中的存储器耦合，使得所述芯片在运行时调用所述存储器中存储的程序指令，实现如第一方面中一个或多个所述的方法。

第五方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质包括一个或多个程序指令，所述一个或多个程序指令可被如第三方面所述的系统执行，以实现如第一方面中一个或多个所述的方法。

本发明实施例提供的方法只需要少量(数十句)目标字段的内容，无需大量标注数据，即可判断病历中是否包含某个特定字段的内容，识别出内容有缺失的病历。

附图说明

图1为本发明实施例提供的一种基于少量标注数据的病历完整性判别的方法流程示意图；

图2为计算待检测病历文本与所述目标字段所对应的病历文本的相似程度的流程示意图；

图3为本发明实施例提供的一种基于少量标注数据的病历完整性判别的装置结构示意图之一；

图4为为本发明实施例提供的一种基于少量标注数据的病历完整性判别的装置结构示意图之二；

图5为处理单元的结构示意图；

图6为段落组合单元结构示意图；

图7为本发明实施例提供的一种基于少量标注数据的病历完整性判别的系统结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

一份病历中通常包含了多个字段，比如既往史、个人史、现病史等。每个字段都需要填写相应的内容。病历完整性检查就是需要判断病历中是否缺少了某个字段对应的内容。本发明提出了一种只依赖少量标注数据的病历完整性判别方法，该方法针对电子病历，原则上也可以适用于其它类型的电子文档。

图1示出一个实施例的基于少量标注数据的病历完整性判别的方法流程图，所述方法的执行主体可以为任何具有计算、处理能力的装置、设备、平台、设备集群等。如图1所示，所述方法包括以下步骤：

步骤10，确定待判断的目标字段。

在一实施例中，一份电子病历中可以包括一个或多个类型的目标字段，以分别记录不同场景下的医疗信息，例如，病历中可以包括既往史、个人史、现病史等。

确定待判断的目标字段，用于判断待检测病历中是否包含了目标字段对应的内容，进而判断病历的完整性。

步骤20，获取至少一条目标字段所对应的病历文本。

具体的，准备约x条目标字段所对应的病历文本，即为G＝[g₁，...，g_x]，一般x设置为50。

在获取至少一条目标字段所对应的病历文本后，还包括以下处理步骤：

统计目标字段所对应的病历文本G中不同字符的数目，并将这些字符构建成有序词表V；其中，不同字符包括：汉字、数字、字母和标点符号。

将病历文本G中目标字段对应的内容根据词表V转换为onehot独热编码向量GV＝[gv₁，...，gv_x]。

步骤30，计算待检测病历文本与所述目标字段所对应的病历文本的相似程度。

在一实施例中，图2是计算待检测病历文本与所述目标字段所对应的病历文本的相似程度的流程示意图，如图2所示，具体过程如下：

首先对病历文本进行处理：

步骤310，将待检测病历划分为至少一个段落。

将待检测病历按照换行符拆分为至少一个段落，记为D＝[d₁，d₂，...，d_n]，即文档D被拆分为n个段落。

步骤320，根据预设的窗口大小及重叠度，将段落组合成至少一个片段。

设置窗口大小w，以及重叠度k；

若n％(w-k)＞k；

若n％(w-k)≤k；

s_i＝d_t：d_t+1：...：d_a

t＝i*(w-k)

q＝min(t+k，n)

其中，a:b表示将a和b拼接在一起。

步骤330，将所述片段根据词表V转换为独热编码向量SV；其中，所述词表V为目标字段所对应的病历文本中不同字符构建成的有序词表。

具体的，将S中的每个片段根据词表V转换为onehot独热编码向量SV，记为SV＝[sv₁，...，sv_m]。

其次，查找最相似的片段并得到其得分：

步骤340，计算独热编码向量SV中的每个向量与独热编码向量GV中的每个向量的相似度，并求平均值。

计算独热编码向量SV中的每个向量与独热编码向量GV中的每个向量的余弦相似度，并求平均值。即：

对SV中的第i个向量sv_i，计算其与GV中每个向量的cosine相似度，并求平均，得到s_i的得分y_i；

Y＝[y₁，...y_m]

步骤350，最大平均值作为待检测病历与目标字段所对应的病历文本的相似度值。

具体的，选择得分最大的片段及其对应的得分，并将该得分作为整个病历与目标字段内容的相似度得分。

步骤40，当相似程度满足预设条件时，判定所述待检测病历文本含有目标字段内容，否则不含目标字段的内容。

具体的，设定阈值α，如果病历的得分小于阈值，则判定该病历未包含目标字段内容，否则认为该病历包含了目标字段内容。

本发明提供的方法，只需要少量(数十句)目标字段的内容，无需大量标注数据，即可完成病历完整性的判别，可解决目前技术中存在的通过标注数据的方式来训练模型，严重依赖标注数据的规模与质量，标注数据面临着很高的时间、人力成本的问题

与上述实施例方法对应的，本发明还提供了一种基于少量标注数据的病历完整性判别的装置，图3为装置结构示意图之一，如图3所示，该装置包括确定单元31、获取单元32、处理单元33和判断单元34；具体的，

所述确定单元31，用于确定待判断的目标字段；

所述获取单元32，用于获取至少一条目标字段所对应的病历文本；

所述处理单元33，用于计算待检测病历文本与所述目标字段所对应的病历文本的相似程度；

所述判断单元34，用于当相似程度满足预设条件时，判定所述待检测病历文本含有目标字段内容，否则不含目标字段的内容。

在一实施例中，图4为基于少量标注数据的病历完整性判别的装置结构示意图之二，如图4所示，该装置还包括统计单元41、构建单元42和第一转换单元43：

所述统计单元41，用于统计目标字段所对应的病历文本中不同字符的数目；其中，不同字符包括：汉字、数字、字母和标点符号。

所述构建单元42，用于并将这些字符构建成有序词表V；

所述第一转换单元43，用于将病历文本中目标字段对应的内容根据词表V转换为独热编码向量GV。

在一实施例中，图5为处理单元的结构示意图，如图5所示，处理单元33包括段落划分单元331、片段组合单元332、第二转换单元333和计算单元334；

所述段落划分单元331，用于将待检测病历划分为至少一个段落；

所述段落组合单元332，用于根据预设的窗口大小及重叠度，将所述段落组合成至少一个片段；

所述第二转换单元333，用于将所述片段根据词表V转换为独热编码向量SV；其中，所述词表V为目标字段所对应的病历文本中不同字符构建成的有序词表；

所述计算单元334，用于计算独热编码向量SV中的每个向量与独热编码向量GV中的每个向量的相似度，并求平均值。

在一实施例中，图6为段落组合单元结构示意图，如图6所示，所述段落组合单元332包括设置单元3321和段落处理单元3322；其中，

所述设置单元3321，用于设置窗口大小w，以及重叠度k；

所述段落处理单元3322，用于将段落依次组合成m个片段，记为S＝[s₁，...，s_i，...，s_m]；

若n％(w-k)＞k；

若n％(w-k)≤k；

s_i＝d_t：d_t+1：...：d_q

t＝i*(w-k)

q＝min(t+k，n)

其中，a:b表示将a和b拼接在一起。

本发明实施例提供的装置中各部件所执行的功能均已在上述方法中做了详细介绍，因此这里不做过多赘述。

与上述实施例相对应的，本发明实施例、还提供了一种基于少量标注数据的病历完整性判别的系统，具体如图7所示，该系统包括至少一个处理器710和存储器720；

存储器710，用于存储一个或多个程序指令；

处理器720，用于运行一个或多个程序指令，执行如上述实施例所介绍的一种人脸图像质量评分标注方法中的任一方法步骤。

与上述实施例相对应的，本发明实施例还提供了一种芯片，该芯片与上述系统中的存储器耦合，使得所述芯片在运行时调用所述存储器中存储的程序指令，实现如上述实施例所介绍的基于少量标注数据的病历完整性判别的方法。

与上述实施例相对应的，本发明实施例还提供了一种计算机存储介质，该计算机存储介质中包括一个或多个程序，其中，一个或多个程序指令用于被基于少量标注数据的病历完整性判别的系统执行如上介绍的基于少量标注数据的病历完整性判别的方法。

本申请提供的方案，可以只需要少量(数十句)目标字段的内容，无需大量标注数据，即可判断病历中是否包含某个特定字段的内容，识别出内容有缺失的病历，摆脱了对标注数据的规模与质量的依赖，且快速方便，极大的降低了时间及人力成本。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于少量标注数据的病历完整性判别的方法，其特征在于，包括：

确定待判断的目标字段；

获取至少一条目标字段所对应的病历文本；

2.根据权利要求1所述的方法，其特征在于，获取至少一条目标字段所对应的病历文本后，还包括以下处理步骤：

3.根据权利要求2所述的方法，其特征在于，不同字符包括：汉字、数字、字母和标点符号。

4.根据权利要求1所述的方法，其特征在于，计算待检测病历文本与所述目标字段所对应的病历文本的相似程度，具体为：

将待检测病历划分为至少一个段落；

5.根据权利要求4所述的方法，其特征在于，根据预设的窗口大小及重叠度，将所述段落组合成至少一个片段，具体为：

设置窗口大小w，以及重叠度k；

将段落依次组合成m个片段，记为S＝[s₁,…,s_i,…,s_m]；

若n％(w-k)＞k；

若n％(w-k)≤k；

s_i＝d_t:d_t+1:…:d_q

t＝i*(w-k)

q＝min(t+k,n)

其中，a:b表示将a和b拼接在一起。

6.根据权利要求4所述的方法，其特征在于，所述计算独热编码向量SV中的每个向量与独热编码向量GV中的每个向量的相似度，并求平均值，具体为：

7.根据权利要求1所述的方法，其特征在于，当相似程度满足预设条件时，判定所述待检测病历文本含有目标字段内容，否则不含目标字段的内容，具体为：

8.基于少量标注数据的病历完整性判别的装置，其特征在于，包括确定单元、获取单元、处理单元和判断单元；其中，

所述确定单元，用于确定待判断的目标字段；

9.根据权利要求8所述的装置，其特征在于，所述装置还包括统计单元、构建单元和第一转换单元，其中：

所述构建单元，用于并将这些字符构建成有序词表V；

10.根据权利要求8所述的装置，其特征在于，不同字符包括：汉字、数字、字母和标点符号。

11.根据权利要求8所述的装置，其特征在于，所述处理单元包括段落划分单元、片段组合单元、第二转换单元和计算单元；其中：

12.根据权利要求11所述的装置，其特征在于，所述段落组合单元包括设置单元和段落处理单元；其中，

所述设置单元，用于设置窗口大小w，以及重叠度k；

所述段落处理单元，用于将段落依次组合成m个片段，记为S＝[s₁,…,s_i,…,s_m]；

若n％(w-k)＞k；

若n％(w-k)≤k；

s_i＝d_t:d_t+1:…:d_q

t＝i*(w-k)

q＝min(t+k,n)

其中，a:b表示将a和b拼接在一起。

13.基于少量标注数据的病历完整性判别的系统，其特征在于，所述系统包括至少一个处理器和存储器；

所述存储器，用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行如权利要求1至7中一个或多个所述的方法。

14.一种芯片，其特征在于，所述芯片与系统中的存储器耦合，使得所述芯片在运行时调用所述存储器中存储的程序指令，实现如权利要求1至7中一个或多个所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括一个或多个程序指令，所述一个或多个程序指令可被如权利要求13所述的系统执行，以实现如权利要求1至7中一个或多个所述的方法。