CN116884554B

CN116884554B - 一种电子病历分类管理方法及系统

Info

Publication number: CN116884554B
Application number: CN202311139234.XA
Authority: CN
Inventors: 李雁; 张帅
Original assignee: Jining Snail Software Technology Co ltd
Current assignee: Jining Snail Software Technology Co ltd
Priority date: 2023-09-06
Filing date: 2023-09-06
Publication date: 2023-11-24
Anticipated expiration: 2043-09-06
Also published as: CN116884554A

Abstract

本发明涉及数据处理技术领域，提出了一种电子病历分类管理方法及系统，获取历史电子病历数据集，得到类别标签，采集新的电子病历数据；对电子病历数据进行降维，得到若干抽取方法，对于每一种抽取方法，新的电子病历数据和历史电子病历数局构成向量计算相对表征程度；对于新的电子病历数据的分类情况分类讨论，根据不同情况中两个电子病历数据点的欧氏距离划分为类内距离和类间距离，根据每个类别的类间距离均值和类内距离均值得到每种情况对应的类别划分程度，根据三种情况的类别划分程度得到最优类别划分程度，完成电子病历的分类管理。本发明可以衡量高维度下新电子病历数据插入历史电子病历数据后分类情况的变化，使分类更新的更准确。

Description

一种电子病历分类管理方法及系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种电子病历分类管理方法及系统。

背景技术

对于电子病历的分类管理，当前面临的主要问题之一就是待分类病历的更新性，也即电子病历数据不是一成不变的，且患者病历数据是综合管理的，也即不同科室的患者病历均在一个数据集中进行管理，随着新患者的以及复诊患者的就医，待分类的电子病历数据是在时刻更新的，一般的分类算法如K-means算法仅对静态数据集具有处理的能力，而对于动态的数据集，现有的聚类方式一般为增量聚类方式，这种方式通过将新电子病历数据点添加进已经分类好的旧数据空间中并根据新电子病历数据点与旧数据空间中各类簇中心的距离来进行类簇的更新，这种方式虽然可以实现对动态数据集的分类，但对于病历数据来说，由于病历数据是高维数据，病历数据之间在所有维度上可能是稀疏的，则仅根据新病历数据与原数据空间中各类簇中心的距离可能会受到维数过高的影响导致距离度量失去参考性。

发明内容

本发明提供一种电子病历分类管理方法及系统，以解决现有的会受到维数过高的影响导致距离度量失去参考性的问题，所采用的技术方案具体如下：

第一方面，本发明一个实施例提供了一种电子病历分类管理方法，该方法包括以下步骤：

获取历史电子病历数据集，并分类得到类别标签，采集新的电子病历数据；

根据若干种抽取方式对电子病历数据进行降维，根据新的电子病历数据得到新维数据，根据历史电子病历数据集得到旧维数据集，将降维后的电子病历数据看作一个空间点，空间点所在的空间记为降维空间，将新维数据和每个旧维数据构成一个向量，将所有向量根据类别标签分类，计算同一类别中任意两个向量的相似度，根据所有类别中所有向量的相似度得到每个抽取方式下的相对表征程度；

将旧维数据集中的数据都表示在降维空间中记为第一降维空间，计算第一降维空间中任意两个空间点的欧氏距离，将所有欧式距离根据类别标签分为类内距离和类间距离，得到每个类别中所有电子病历数据点的类内距离和类间距离，根据每个类别所有的类间距离和类内距离得到类别划分程度，将所有类别中最大的类别划分程度作为第一类别划分程度；

将新维数据的空间点记为新空间点，计算新空间点与第一降维空间中所有空间点的欧氏距离并排序，将新空间点加入第一降维空间作为第二降维空间，得到第二降维空间中的所有类内距离和类间距离，按照排序顺序将每个空间点依次加入新空间点作为一类记为新类，将每个新类的最大类别划分程度作为第二类别划分程度；

将第一降维空间中所有类间距离均值和类内距离均值的比值作为第三类别划分程度；

根据第一类别划分程度、第二类别划分程度、第三类别划分程度得到最优类别划分程度，根据最优类别划分程度获取新的分类，完成电子病历的分类管理。

优选的，所述根据若干种抽取方式对电子病历数据进行降维，根据新的电子病历数据得到新维数据，根据历史电子病历数据集得到旧维数据集的方法：

降维的方法为随机抽取，对电子病历数据的所有维度随机得到若干数量的维度，得到若干数量的维度会有若干种方法得到，抽取方式总数为：

式中，表示电子病历数据的维度数量，/>表示抽取的维度的数量，/>表示抽取方式的总数/>表示阶乘；

将所有采集的历史电子病历数据集记为旧维数据集，将新采集的电子病历数据记为新维数据。

优选的，所述将新维数据和每个旧维数据构成一个向量的方法为：

将新维数据在空间中的空间点记为第一空间点，将旧维数据在空间中的空间点记为第二空间点，空间点的坐标为电子病历数据的维数，以第一空间点为起点，每个第二空间点为终点，起点和每个终点相连得到每个向量。

优选的，所述计算同一类别中任意两个向量的相似度包括：根据向量的余弦相似度和模长差异计算同一类别中任意两个向量的相似度。

优选的，所述根据向量的余弦相似度和模长差异计算同一类别中任意两个向量的相似度的方法为：

式中，表示在第/>种抽取方式下，第q个类别标签中第o1个向量，表示在抽取方式/>下，第q个类别标签中第o2个向量，/>表示第o1个向量与第o2个向量的相似度，/>为向量的范数，/>表示二者的余弦相似度，表示两个向量的模长差异。

优选的，所述将所有欧式距离根据类别标签分为类内距离和类间距离的方法为：

计算降维空间中的欧氏距离，若两个空间点属于同一类别，则两个空间点之间的欧式距离属于类内距离，若两个空间点属于不同类别，则两个空间点的欧式距离属于类间距离。

优选的，所述根据每个类别所有的类间距离和类内距离得到类别划分程度的方法为：

对于每个类别，每个空间点都有若干类内距离和类间距离，将所有空间点对应的类内距离和类间距离进行统计，并将每个类别的所有类内距离求均值得到类内距离均值、每个类别的所有类间距离求均值得到类间距离均值，其中统计的所有距离中重复的距离不进行统计，将每个类别的类间距离均值和类内距离均值的比值作为类别划分程度。

进一步地，所述相对表征程度的获取方法包括：

其中，表示在抽取方式/>下与类别标签为/>的所有历史电子病历数据之间构成的向量的平均相似度，Q表示类别标签的总数，/>表示当前抽取方式/>对应的相对表征程度。

进一步地，所述根据第一类别划分程度、第二类别划分程度、第三类别划分程度得到最优类别划分程度的方法为：

将第一类别划分程度、第二类别划分程度、第三类别划分程度中的最大值作为最大类别划分程度；

式中，表示抽取方式/>下的最大类别划分程度，/>表示当前抽取方式对应的相对表征程度，/>为抽取方式的数量，/>为最大值函数，/>表示最优分类划分程度。

第二方面，本发明还提供了一种电子病历分类管理系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意一项所述方法的步骤。

本发明的有益效果是：现有的对电子病历动态数据集的增量聚类方式为直接衡量新电子病历数据点插入历史聚类结果后的整体分布特征来确定新的分类结果，但由于电子病历数据的高维特性，历史电子病历数据的类别均为高维空间中的类簇，此时若直接衡量新电子病历数据插入历史电子病历数据后所有电子病历数据点的分布特征是会受到维度过高的影响的，也即在高维空间中，可能出现新插入的电子病历数据点总是不属于任何一个类簇，也即高维空间中衡量电子病历数据点间距离失真的情况。本发明为了解决上述问题，在将新电子病历数据插入历史电子病历数据空间之前，对新电子病历数据以及历史电子病历数据空间进行遍历抽取降维处理并将降维后的新电子病历数据插入降维后的历史电子病历数据空间中，之后对这种插入情况下新电子病历数据点与各历史电子病历数据点之间的分布关系进行评价，获取不同抽取维度的降维插入方式的相对表征关系。这种方式能综合评价各抽取维度对历史电子病历数据的表征情况并根据插入后历史电子病历数据空间中所有电子病历数据点的整体分布情况更新分类结果。这种方式相对于现有的技术可以更好的衡量高维度下新电子病历数据插入历史电子病历数据后，整体分类情况的变化。使分类结果的更新更准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例所提供的一种电子病历分类管理方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明一个实施例提供的一种电子病历分类管理方法流程图，该方法包括以下步骤：

步骤S001，采集历史电子病历数据进行分类得到旧分类结果。

电子病历为病人在医院诊断治疗全过程的原始记录，电子病历数据包括病人的个人信息、病史、病程记录、检查检验结果、医嘱、手术记录、护理记录等，其中每一项对应一个维度，对于电子病历系统启动开始，就一直保存有电子病历数据，记为历史电子病历数据，对于所有的电子病历数据，将每个电子病历数据看做高维空间的一个点，由此每个电子病历数据就获取了一个高维向量，将高维向量之间的距离关系作为聚类距离，随机选择一个电子病历数据点作为中心点，使用均值漂移聚类获取电子病历数据的若干类别，获取所有历史电子病历数据得到的类别记为旧分类结果。

步骤S002，对电子病历数据使用不同的抽取方式进行降维，计算每个抽取方式下的相对表征程度。

对于第i个历史电子病历数据，历史电子病历数据是由多个维度上的特征值组成的，以/>表示第i个历史电子病历数据/>在第/>个维度上的特征值。其中，/>；。/>表示历史电子病历数据的总数量，/>表示电子病历数据的维度数量即特征值的数量。值得说明的是电子病历数据全部使用UFT-8编码将所有数据转换为二进制后又转换为十进制表示。

采集新的电子病历数据，由于，每次加入新的电子病历数据重新聚类一次需要消耗巨大的运算量，因此需要对其进行降维，而由于新的电子病历数据为独立数据，无法使用现有的方法直接对其进行特征工程降维，因此采用随机抽取的方式对新的电子病历数据/>进行降维，将降维后的/>与历史电子病历数据进行特征向量度量。

具体的，对于一个新的电子病历数据，将该电子病历数据记为新维数据，由于其不同维度上的特征值对类别的评价的贡献不同，因此需要获得其所有抽取方式，获取抽取方式总数的公式如下：

式中，表示电子病历数据的维度数量即特征值的数量，/>表示抽取维度的数量，/>表示抽取方式的总数，/>表示从/>个维度中抽取a个维度时的抽取方式数，！表示阶乘。例如a取2时，就表示抽取维度的数量为2，此时的/>就表示的是抽取维度的数量为2时，抽取方式的数量。

对于一个新的电子病历数据，以/>表示总共/>个抽取方式中的第/>种抽取方式（/>），其表示一个由若干个维度组成的集合。

对于每个新的电子病历数据，保留第m个抽取方式/>中的所有维度的特征值其余的维度的特征值进行删除，完成降维，令降维后的新的电子病历数据记为/>，同样使用相同的抽取方式对历史电子病历数据进行抽取，将降维后的历史电子病历数据集用表示，降维后的历史电子病历数据集中第/>个数据用/>表示。将降维后的每个电子病历数据记为空间中的一个点，即每一种不同的降维方式得到一个空间记为降维空间，其每个维数上的特征值就是点的坐标值。根据类别标签将降维后的历史电子病历数据集分类，获得降维后的历史电子病历数据集中每个数据在降维空间中表示一个点，将降维后新的电子病历数据与每一类每一个降维后的历史电子病历数据在降维空间中的点得到一个向量，由此得到若干向量，其中向量的起点为/>，向量的终点为/>，将第q个类别标签中两者构成的向量为/>，降维后每一类得到若干向量。这些向量两两间越相似越说明在当前抽取方式下/>中各类别的历史电子病历数据分布相对/>来说密度越大也即抽取维度越能表征在新数据/>插入后历史电子病历数据的分类特征。

任意两个向量的相似度如下所示：

式中，表示在第/>种抽取方式下，第q个类别标签中第o1个向量，表示在抽取方式/>下，第q个类别标签中第o2个向量，/>表示第o1个向量与第o2个向量的相似度，/>为向量的范数。/>表示二者的余弦相似度，表示两个向量的模长差异，两个向量越相似越趋近与1，越不相似越趋近于-1。

将每一类别标签得到的所有向量两两之间计算相似度，得到这一类别标签中所有两两向量相似度的均值记为。基于上述分析，计算当前抽取方式/>下的相对表征程度/>，公式如下：

式中，表示在抽取方式/>下与类别标签为/>的所有历史电子病历数据之间构成的向量的平均相似度，Q表示类别标签的总数，/>表示当前抽取方式/>对应的相对表征程度。

至此，获得每一个抽取方式对应的相对表征程度。

步骤S003，对于降维后的新的电子病历数据进行分类情况讨论，得到每个抽取方式对应的最优类别划分程度。

对于每个抽取方式来说，在将降维后的新的电子病历数据与降维后的历史电子病历数据集/>一起放进高维坐标空间中时，/>对/>中的分类结果的影响有如下三种，一是降维后的新的电子病历数据合并入降维后的历史电子病历数据集中某一个类别，二是降维后的新的电子病历数据与降维后的历史电子病历数据集中一个类别的部分电子病历数据点构成一个新的类别，三是降维后的新的电子病历数据自身成为一个新的类别。

对于第一种情况即降维后的新的电子病历数据合并入降维后的历史电子病历数据集中某一个类别中，假设合并入第q个类别标签对应的类别中，将降维后的历史电子病历数据集中的电子病历数据点都表示在降维空间中记为第一降维空间，此时计算降维空间中任意两个电子病历数据点之间的欧氏距离，若两个电子病历数据点为同类别标签的电子病历数据点，则二者间的欧式距离为类内距离，若两个电子病历数据点为不同类别标签的点，则二者间的欧式距离为类间距离，计算所有两两电子病历数据点间的欧式距离，并按照上述描述分为类间距离以及类内距离两种距离，对于每个类别，将所有的类间距离求均值得到类间距离均值，将所有的类内距离求均值得到类内距离均值，计算每个类别的类间距离均值与类内距离均值的比值，将这个比值作为类别划分程度，类别划分程度越大，说明降维后的新的电子病历数据越适合分到这个类别，因此得到所有类别的类别划分程度。选取最大的一个类别划分程度作为第一类别划分程度，记为/>。

对于第二种情况即降维后的新的电子病历数据与降维后的历史电子病历数据集中一个类别的部分电子病历数据点构成一个新的类别，假设与各原有类别中的部分电子病历数据点构成新类别，计算新电子病历数据点与降维后的历史电子病历数据集中所有电子病历数据点的欧氏距离，将欧氏距离从小到大排序，点与各原有类别中的部分电子病历数据点构成新类别，说明这个新类别是由于电子病历数据点/>的加入形成的，因此以这个新电子病历数据点为中心，距离该新电子病历数据点越近的点越优先会被分到新类别，则从小到大将欧式距离排序后，依次将距离新数据最近的点并入新类别，在第一降维空间中加入新的电子病历数据点构成第二降维空间，计算第二降维空间中两两电子病历数据点的欧氏距离，将欧氏距离分为类间距离和类内距离，对于新的电子病历数据点构成的新的类别，每次新类别更新时，计算新类别的类间距离均值和类内距离均值的比值，记为新类别的类别划分程度，按照欧氏距离的排序顺序进行划分，直到所有的降维的历史电子病历数据点均被并入新电子病历数据点的类别，将每次并入类别时计算得到的新类别的类别划分程度中的最大的一个作为第二类别划分程度，记为/>。

对于第三种情况即降维后的新的电子病历数据自身成为一个新的类别，此时直接计算整个第一降维空间中任意两个电子病历数据点之间的欧式距离，将整个第一降维空间中的类间距离均值和类内距离均值的比值作为第三类别划分程度，记为。

对于一个抽取方式，在第一类别划分程度、第二类别划分程度、第三类别划分程度中找到最大的值作为在此抽取方式下的最大类别划分程度。

根据所有抽取方式下的最大类别划分程度和相对表征程度得到最优类别划分程度，公式如下：

步骤S004，根据最优类别划分程度进行分类完成电子病历的分类管理。

将最优分类划分程度对应的抽取方式作为最优抽取方式，将最优抽取方式中最大的类别划分程度对应的类别划分方式作为新的电子病历数据的分类方式，当每加入一个新的电子病历数据时，再次使用上述步骤更新旧分类结果得到新的分类结果，至此完成电子病历的分类管理。

本发明还提供了一种电子病历分类管理系统，包括存储器、处理器以及存储在存储器中并在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任意一项一种电子病历分类管理方法的步骤。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种电子病历分类管理方法，其特征在于，该方法包括以下步骤：

将新维数据的空间点记为新空间点，计算新空间点与第一降维空间中所有空间点的欧氏距离并排序，将新空间点加入第一降维空间作为第二降维空间，得到第二降维空间中的所有类内距离和类间距离，按照排序顺序将每个空间点依次加入新空间点作为一类记为新类，计算新类别的类间距离均值和类内距离均值的比值作为新类的类别划分程度，将每个新类的最大类别划分程度作为第二类别划分程度；

根据第一类别划分程度、第二类别划分程度、第三类别划分程度得到最优类别划分程度，根据最优类别划分程度获取新的分类，完成电子病历的分类管理；

所述根据若干种抽取方式对电子病历数据进行降维，根据新的电子病历数据得到新维数据，根据历史电子病历数据集得到旧维数据集的方法为：

式中，表示电子病历数据的维度数量即特征值的数量，/>表示抽取维度的数量，/>表示抽取方式的总数，/>表示阶乘；

将所有采集的历史电子病历数据集记为旧维数据集，将新采集的电子病历数据记为新维数据；

所述计算同一类别中任意两个向量的相似度包括：根据向量的余弦相似度和模长差异计算同一类别中任意两个向量的相似度；

所述根据向量的余弦相似度和模长差异计算同一类别中任意两个向量的相似度的方法为：

式中，表示在第/>种抽取方式下，第q个类别标签中第o1个向量，/>表示在抽取方式/>下，第q个类别标签中第o2个向量，/>表示第o1个向量与第o2个向量的相似度，/>为向量的范数，/>表示二者的余弦相似度，表示两个向量的模长差异；

所述将所有欧式距离根据类别标签分为类内距离和类间距离的方法为：

若两个空间点属于同一类别，则两个空间点之间的欧式距离属于类内距离，若两个空间点属于不同类别，则两个空间点的欧式距离属于类间距离；

所述根据每个类别所有的类间距离和类内距离得到类别划分程度的方法为：

对于每个类别，每个空间点都有若干类内距离和类间距离，将所有空间点对应的类内距离和类间距离进行统计，并将每个类别的所有类内距离求均值得到类内距离均值、每个类别的所有类间距离求均值得到类间距离均值，其中统计的所有距离中重复的距离不进行统计，将每个类别的类间距离均值和类内距离均值的比值作为类别划分程度；

所述相对表征程度的获取方法包括：

其中，表示在抽取方式/>下与类别标签为/>的所有历史电子病历数据之间构成的向量的平均相似度，Q表示类别标签的总数，/>表示当前抽取方式/>对应的相对表征程度；

所述根据第一类别划分程度、第二类别划分程度、第三类别划分程度得到最优类别划分程度的方法为：

式中，表示抽取方式/>下的最大类别划分程度，/>表示当前抽取方式/>对应的相对表征程度，/>为抽取方式的数量，/>为最大值函数，/>表示最优分类划分程度。

2.根据权利要求1所述的一种电子病历分类管理方法，其特征在于，所述将新维数据和每个旧维数据构成一个向量的方法为：

3.一种电子病历分类管理系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-2任意一项所述电子病历分类管理方法。