CN116884554B - 一种电子病历分类管理方法及系统 - Google Patents
一种电子病历分类管理方法及系统 Download PDFInfo
- Publication number
- CN116884554B CN116884554B CN202311139234.XA CN202311139234A CN116884554B CN 116884554 B CN116884554 B CN 116884554B CN 202311139234 A CN202311139234 A CN 202311139234A CN 116884554 B CN116884554 B CN 116884554B
- Authority
- CN
- China
- Prior art keywords
- class
- electronic medical
- medical record
- category
- record data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007726 management method Methods 0.000 title claims description 16
- 239000013598 vector Substances 0.000 claims abstract description 59
- 238000000605 extraction Methods 0.000 claims abstract description 55
- 238000000034 method Methods 0.000 claims abstract description 54
- 238000012512 characterization method Methods 0.000 claims abstract description 17
- 230000009467 reduction Effects 0.000 claims description 64
- 230000008569 process Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims 2
- 238000012545 processing Methods 0.000 abstract description 4
- 230000008859 change Effects 0.000 abstract description 2
- 238000012935 Averaging Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,提出了一种电子病历分类管理方法及系统,获取历史电子病历数据集,得到类别标签,采集新的电子病历数据;对电子病历数据进行降维,得到若干抽取方法,对于每一种抽取方法,新的电子病历数据和历史电子病历数局构成向量计算相对表征程度;对于新的电子病历数据的分类情况分类讨论,根据不同情况中两个电子病历数据点的欧氏距离划分为类内距离和类间距离,根据每个类别的类间距离均值和类内距离均值得到每种情况对应的类别划分程度,根据三种情况的类别划分程度得到最优类别划分程度,完成电子病历的分类管理。本发明可以衡量高维度下新电子病历数据插入历史电子病历数据后分类情况的变化,使分类更新的更准确。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种电子病历分类管理方法及系统。
背景技术
对于电子病历的分类管理,当前面临的主要问题之一就是待分类病历的更新性,也即电子病历数据不是一成不变的,且患者病历数据是综合管理的,也即不同科室的患者病历均在一个数据集中进行管理,随着新患者的以及复诊患者的就医,待分类的电子病历数据是在时刻更新的,一般的分类算法如K-means算法仅对静态数据集具有处理的能力,而对于动态的数据集,现有的聚类方式一般为增量聚类方式,这种方式通过将新电子病历数据点添加进已经分类好的旧数据空间中并根据新电子病历数据点与旧数据空间中各类簇中心的距离来进行类簇的更新,这种方式虽然可以实现对动态数据集的分类,但对于病历数据来说,由于病历数据是高维数据,病历数据之间在所有维度上可能是稀疏的,则仅根据新病历数据与原数据空间中各类簇中心的距离可能会受到维数过高的影响导致距离度量失去参考性。
发明内容
本发明提供一种电子病历分类管理方法及系统,以解决现有的会受到维数过高的影响导致距离度量失去参考性的问题,所采用的技术方案具体如下:
第一方面,本发明一个实施例提供了一种电子病历分类管理方法,该方法包括以下步骤:
获取历史电子病历数据集,并分类得到类别标签,采集新的电子病历数据;
根据若干种抽取方式对电子病历数据进行降维,根据新的电子病历数据得到新维数据,根据历史电子病历数据集得到旧维数据集,将降维后的电子病历数据看作一个空间点,空间点所在的空间记为降维空间,将新维数据和每个旧维数据构成一个向量,将所有向量根据类别标签分类,计算同一类别中任意两个向量的相似度,根据所有类别中所有向量的相似度得到每个抽取方式下的相对表征程度;
将旧维数据集中的数据都表示在降维空间中记为第一降维空间,计算第一降维空间中任意两个空间点的欧氏距离,将所有欧式距离根据类别标签分为类内距离和类间距离,得到每个类别中所有电子病历数据点的类内距离和类间距离,根据每个类别所有的类间距离和类内距离得到类别划分程度,将所有类别中最大的类别划分程度作为第一类别划分程度;
将新维数据的空间点记为新空间点,计算新空间点与第一降维空间中所有空间点的欧氏距离并排序,将新空间点加入第一降维空间作为第二降维空间,得到第二降维空间中的所有类内距离和类间距离,按照排序顺序将每个空间点依次加入新空间点作为一类记为新类,将每个新类的最大类别划分程度作为第二类别划分程度;
将第一降维空间中所有类间距离均值和类内距离均值的比值作为第三类别划分程度;
根据第一类别划分程度、第二类别划分程度、第三类别划分程度得到最优类别划分程度,根据最优类别划分程度获取新的分类,完成电子病历的分类管理。
优选的,所述根据若干种抽取方式对电子病历数据进行降维,根据新的电子病历数据得到新维数据,根据历史电子病历数据集得到旧维数据集的方法:
降维的方法为随机抽取,对电子病历数据的所有维度随机得到若干数量的维度,得到若干数量的维度会有若干种方法得到,抽取方式总数为:
式中,表示电子病历数据的维度数量,/>表示抽取的维度的数量,/>表示抽取方式的总数/>表示阶乘;
将所有采集的历史电子病历数据集记为旧维数据集,将新采集的电子病历数据记为新维数据。
优选的,所述将新维数据和每个旧维数据构成一个向量的方法为:
将新维数据在空间中的空间点记为第一空间点,将旧维数据在空间中的空间点记为第二空间点,空间点的坐标为电子病历数据的维数,以第一空间点为起点,每个第二空间点为终点,起点和每个终点相连得到每个向量。
优选的,所述计算同一类别中任意两个向量的相似度包括:根据向量的余弦相似度和模长差异计算同一类别中任意两个向量的相似度。
优选的,所述根据向量的余弦相似度和模长差异计算同一类别中任意两个向量的相似度的方法为:
式中,表示在第/>种抽取方式下,第q个类别标签中第o1个向量,表示在抽取方式/>下,第q个类别标签中第o2个向量,/>表示第o1个向量与第o2个向量的相似度,/>为向量的范数,/>表示二者的余弦相似度,表示两个向量的模长差异。
优选的,所述将所有欧式距离根据类别标签分为类内距离和类间距离的方法为:
计算降维空间中的欧氏距离,若两个空间点属于同一类别,则两个空间点之间的欧式距离属于类内距离,若两个空间点属于不同类别,则两个空间点的欧式距离属于类间距离。
优选的,所述根据每个类别所有的类间距离和类内距离得到类别划分程度的方法为:
对于每个类别,每个空间点都有若干类内距离和类间距离,将所有空间点对应的类内距离和类间距离进行统计,并将每个类别的所有类内距离求均值得到类内距离均值、每个类别的所有类间距离求均值得到类间距离均值,其中统计的所有距离中重复的距离不进行统计,将每个类别的类间距离均值和类内距离均值的比值作为类别划分程度。
进一步地,所述相对表征程度的获取方法包括:
其中,表示在抽取方式/>下与类别标签为/>的所有历史电子病历数据之间构成的向量的平均相似度,Q表示类别标签的总数,/>表示当前抽取方式/>对应的相对表征程度。
进一步地,所述根据第一类别划分程度、第二类别划分程度、第三类别划分程度得到最优类别划分程度的方法为:
将第一类别划分程度、第二类别划分程度、第三类别划分程度中的最大值作为最大类别划分程度;
式中,表示抽取方式/>下的最大类别划分程度,/>表示当前抽取方式对应的相对表征程度,/>为抽取方式的数量,/>为最大值函数,/>表示最优分类划分程度。
第二方面,本发明还提供了一种电子病历分类管理系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项所述方法的步骤。
本发明的有益效果是:现有的对电子病历动态数据集的增量聚类方式为直接衡量新电子病历数据点插入历史聚类结果后的整体分布特征来确定新的分类结果,但由于电子病历数据的高维特性,历史电子病历数据的类别均为高维空间中的类簇,此时若直接衡量新电子病历数据插入历史电子病历数据后所有电子病历数据点的分布特征是会受到维度过高的影响的,也即在高维空间中,可能出现新插入的电子病历数据点总是不属于任何一个类簇,也即高维空间中衡量电子病历数据点间距离失真的情况。本发明为了解决上述问题,在将新电子病历数据插入历史电子病历数据空间之前,对新电子病历数据以及历史电子病历数据空间进行遍历抽取降维处理并将降维后的新电子病历数据插入降维后的历史电子病历数据空间中,之后对这种插入情况下新电子病历数据点与各历史电子病历数据点之间的分布关系进行评价,获取不同抽取维度的降维插入方式的相对表征关系。这种方式能综合评价各抽取维度对历史电子病历数据的表征情况并根据插入后历史电子病历数据空间中所有电子病历数据点的整体分布情况更新分类结果。这种方式相对于现有的技术可以更好的衡量高维度下新电子病历数据插入历史电子病历数据后,整体分类情况的变化。使分类结果的更新更准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的一种电子病历分类管理方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例提供的一种电子病历分类管理方法流程图,该方法包括以下步骤:
步骤S001,采集历史电子病历数据进行分类得到旧分类结果。
电子病历为病人在医院诊断治疗全过程的原始记录,电子病历数据包括病人的个人信息、病史、病程记录、检查检验结果、医嘱、手术记录、护理记录等,其中每一项对应一个维度,对于电子病历系统启动开始,就一直保存有电子病历数据,记为历史电子病历数据,对于所有的电子病历数据,将每个电子病历数据看做高维空间的一个点,由此每个电子病历数据就获取了一个高维向量,将高维向量之间的距离关系作为聚类距离,随机选择一个电子病历数据点作为中心点,使用均值漂移聚类获取电子病历数据的若干类别,获取所有历史电子病历数据得到的类别记为旧分类结果。
步骤S002,对电子病历数据使用不同的抽取方式进行降维,计算每个抽取方式下的相对表征程度。
对于第i个历史电子病历数据,历史电子病历数据是由多个维度上的特征值组成的,以/>表示第i个历史电子病历数据/>在第/>个维度上的特征值。其中,/>;。/>表示历史电子病历数据的总数量,/>表示电子病历数据的维度数量即特征值的数量。值得说明的是电子病历数据全部使用UFT-8编码将所有数据转换为二进制后又转换为十进制表示。
采集新的电子病历数据,由于,每次加入新的电子病历数据重新聚类一次需要消耗巨大的运算量,因此需要对其进行降维,而由于新的电子病历数据为独立数据,无法使用现有的方法直接对其进行特征工程降维,因此采用随机抽取的方式对新的电子病历数据/>进行降维,将降维后的/>与历史电子病历数据进行特征向量度量。
具体的,对于一个新的电子病历数据,将该电子病历数据记为新维数据,由于其不同维度上的特征值对类别的评价的贡献不同,因此需要获得其所有抽取方式,获取抽取方式总数的公式如下:
式中,表示电子病历数据的维度数量即特征值的数量,/>表示抽取维度的数量,/>表示抽取方式的总数,/>表示从/>个维度中抽取a个维度时的抽取方式数,!表示阶乘。例如a取2时,就表示抽取维度的数量为2,此时的/>就表示的是抽取维度的数量为2时,抽取方式的数量。
对于一个新的电子病历数据,以/>表示总共/>个抽取方式中的第/>种抽取方式(/>),其表示一个由若干个维度组成的集合。
对于每个新的电子病历数据,保留第m个抽取方式/>中的所有维度的特征值其余的维度的特征值进行删除,完成降维,令降维后的新的电子病历数据记为/>,同样使用相同的抽取方式对历史电子病历数据进行抽取,将降维后的历史电子病历数据集用表示,降维后的历史电子病历数据集中第/>个数据用/>表示。将降维后的每个电子病历数据记为空间中的一个点,即每一种不同的降维方式得到一个空间记为降维空间,其每个维数上的特征值就是点的坐标值。根据类别标签将降维后的历史电子病历数据集分类,获得降维后的历史电子病历数据集中每个数据在降维空间中表示一个点,将降维后新的电子病历数据与每一类每一个降维后的历史电子病历数据在降维空间中的点得到一个向量,由此得到若干向量,其中向量的起点为/>,向量的终点为/>,将第q个类别标签中两者构成的向量为/>,降维后每一类得到若干向量。这些向量两两间越相似越说明在当前抽取方式下/>中各类别的历史电子病历数据分布相对/>来说密度越大也即抽取维度越能表征在新数据/>插入后历史电子病历数据的分类特征。
任意两个向量的相似度如下所示:
式中,表示在第/>种抽取方式下,第q个类别标签中第o1个向量,表示在抽取方式/>下,第q个类别标签中第o2个向量,/>表示第o1个向量与第o2个向量的相似度,/>为向量的范数。/>表示二者的余弦相似度,表示两个向量的模长差异,两个向量越相似越趋近与1,越不相似越趋近于-1。
将每一类别标签得到的所有向量两两之间计算相似度,得到这一类别标签中所有两两向量相似度的均值记为。基于上述分析,计算当前抽取方式/>下的相对表征程度/>,公式如下:
式中,表示在抽取方式/>下与类别标签为/>的所有历史电子病历数据之间构成的向量的平均相似度,Q表示类别标签的总数,/>表示当前抽取方式/>对应的相对表征程度。
至此,获得每一个抽取方式对应的相对表征程度。
步骤S003,对于降维后的新的电子病历数据进行分类情况讨论,得到每个抽取方式对应的最优类别划分程度。
对于每个抽取方式来说,在将降维后的新的电子病历数据与降维后的历史电子病历数据集/>一起放进高维坐标空间中时,/>对/>中的分类结果的影响有如下三种,一是降维后的新的电子病历数据合并入降维后的历史电子病历数据集中某一个类别,二是降维后的新的电子病历数据与降维后的历史电子病历数据集中一个类别的部分电子病历数据点构成一个新的类别,三是降维后的新的电子病历数据自身成为一个新的类别。
对于第一种情况即降维后的新的电子病历数据合并入降维后的历史电子病历数据集中某一个类别中,假设合并入第q个类别标签对应的类别中,将降维后的历史电子病历数据集中的电子病历数据点都表示在降维空间中记为第一降维空间,此时计算降维空间中任意两个电子病历数据点之间的欧氏距离,若两个电子病历数据点为同类别标签的电子病历数据点,则二者间的欧式距离为类内距离,若两个电子病历数据点为不同类别标签的点,则二者间的欧式距离为类间距离,计算所有两两电子病历数据点间的欧式距离,并按照上述描述分为类间距离以及类内距离两种距离,对于每个类别,将所有的类间距离求均值得到类间距离均值,将所有的类内距离求均值得到类内距离均值,计算每个类别的类间距离均值与类内距离均值的比值,将这个比值作为类别划分程度,类别划分程度越大,说明降维后的新的电子病历数据越适合分到这个类别,因此得到所有类别的类别划分程度。选取最大的一个类别划分程度作为第一类别划分程度,记为/>。
对于第二种情况即降维后的新的电子病历数据与降维后的历史电子病历数据集中一个类别的部分电子病历数据点构成一个新的类别,假设与各原有类别中的部分电子病历数据点构成新类别,计算新电子病历数据点与降维后的历史电子病历数据集中所有电子病历数据点的欧氏距离,将欧氏距离从小到大排序,点与各原有类别中的部分电子病历数据点构成新类别,说明这个新类别是由于电子病历数据点/>的加入形成的,因此以这个新电子病历数据点为中心,距离该新电子病历数据点越近的点越优先会被分到新类别,则从小到大将欧式距离排序后,依次将距离新数据最近的点并入新类别,在第一降维空间中加入新的电子病历数据点构成第二降维空间,计算第二降维空间中两两电子病历数据点的欧氏距离,将欧氏距离分为类间距离和类内距离,对于新的电子病历数据点构成的新的类别,每次新类别更新时,计算新类别的类间距离均值和类内距离均值的比值,记为新类别的类别划分程度,按照欧氏距离的排序顺序进行划分,直到所有的降维的历史电子病历数据点均被并入新电子病历数据点的类别,将每次并入类别时计算得到的新类别的类别划分程度中的最大的一个作为第二类别划分程度,记为/>。
对于第三种情况即降维后的新的电子病历数据自身成为一个新的类别,此时直接计算整个第一降维空间中任意两个电子病历数据点之间的欧式距离,将整个第一降维空间中的类间距离均值和类内距离均值的比值作为第三类别划分程度,记为。
对于一个抽取方式,在第一类别划分程度、第二类别划分程度、第三类别划分程度中找到最大的值作为在此抽取方式下的最大类别划分程度。
根据所有抽取方式下的最大类别划分程度和相对表征程度得到最优类别划分程度,公式如下:
式中,表示抽取方式/>下的最大类别划分程度,/>表示当前抽取方式对应的相对表征程度,/>为抽取方式的数量,/>为最大值函数,/>表示最优分类划分程度。
步骤S004,根据最优类别划分程度进行分类完成电子病历的分类管理。
将最优分类划分程度对应的抽取方式作为最优抽取方式,将最优抽取方式中最大的类别划分程度对应的类别划分方式作为新的电子病历数据的分类方式,当每加入一个新的电子病历数据时,再次使用上述步骤更新旧分类结果得到新的分类结果,至此完成电子病历的分类管理。
本发明还提供了一种电子病历分类管理系统,包括存储器、处理器以及存储在存储器中并在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任意一项一种电子病历分类管理方法的步骤。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种电子病历分类管理方法,其特征在于,该方法包括以下步骤:
获取历史电子病历数据集,并分类得到类别标签,采集新的电子病历数据;
根据若干种抽取方式对电子病历数据进行降维,根据新的电子病历数据得到新维数据,根据历史电子病历数据集得到旧维数据集,将降维后的电子病历数据看作一个空间点,空间点所在的空间记为降维空间,将新维数据和每个旧维数据构成一个向量,将所有向量根据类别标签分类,计算同一类别中任意两个向量的相似度,根据所有类别中所有向量的相似度得到每个抽取方式下的相对表征程度;
将旧维数据集中的数据都表示在降维空间中记为第一降维空间,计算第一降维空间中任意两个空间点的欧氏距离,将所有欧式距离根据类别标签分为类内距离和类间距离,得到每个类别中所有电子病历数据点的类内距离和类间距离,根据每个类别所有的类间距离和类内距离得到类别划分程度,将所有类别中最大的类别划分程度作为第一类别划分程度;
将新维数据的空间点记为新空间点,计算新空间点与第一降维空间中所有空间点的欧氏距离并排序,将新空间点加入第一降维空间作为第二降维空间,得到第二降维空间中的所有类内距离和类间距离,按照排序顺序将每个空间点依次加入新空间点作为一类记为新类,计算新类别的类间距离均值和类内距离均值的比值作为新类的类别划分程度,将每个新类的最大类别划分程度作为第二类别划分程度;
将第一降维空间中所有类间距离均值和类内距离均值的比值作为第三类别划分程度;
根据第一类别划分程度、第二类别划分程度、第三类别划分程度得到最优类别划分程度,根据最优类别划分程度获取新的分类,完成电子病历的分类管理;
所述根据若干种抽取方式对电子病历数据进行降维,根据新的电子病历数据得到新维数据,根据历史电子病历数据集得到旧维数据集的方法为:
降维的方法为随机抽取,对电子病历数据的所有维度随机得到若干数量的维度,得到若干数量的维度会有若干种方法得到,抽取方式总数为:
式中,表示电子病历数据的维度数量即特征值的数量,/>表示抽取维度的数量,/>表示抽取方式的总数,/>表示阶乘;
将所有采集的历史电子病历数据集记为旧维数据集,将新采集的电子病历数据记为新维数据;
所述计算同一类别中任意两个向量的相似度包括:根据向量的余弦相似度和模长差异计算同一类别中任意两个向量的相似度;
所述根据向量的余弦相似度和模长差异计算同一类别中任意两个向量的相似度的方法为:
式中,表示在第/>种抽取方式下,第q个类别标签中第o1个向量,/>表示在抽取方式/>下,第q个类别标签中第o2个向量,/>表示第o1个向量与第o2个向量的相似度,/>为向量的范数,/>表示二者的余弦相似度,表示两个向量的模长差异;
所述将所有欧式距离根据类别标签分为类内距离和类间距离的方法为:
若两个空间点属于同一类别,则两个空间点之间的欧式距离属于类内距离,若两个空间点属于不同类别,则两个空间点的欧式距离属于类间距离;
所述根据每个类别所有的类间距离和类内距离得到类别划分程度的方法为:
对于每个类别,每个空间点都有若干类内距离和类间距离,将所有空间点对应的类内距离和类间距离进行统计,并将每个类别的所有类内距离求均值得到类内距离均值、每个类别的所有类间距离求均值得到类间距离均值,其中统计的所有距离中重复的距离不进行统计,将每个类别的类间距离均值和类内距离均值的比值作为类别划分程度;
所述相对表征程度的获取方法包括:
其中,表示在抽取方式/>下与类别标签为/>的所有历史电子病历数据之间构成的向量的平均相似度,Q表示类别标签的总数,/>表示当前抽取方式/>对应的相对表征程度;
所述根据第一类别划分程度、第二类别划分程度、第三类别划分程度得到最优类别划分程度的方法为:
将第一类别划分程度、第二类别划分程度、第三类别划分程度中的最大值作为最大类别划分程度;
式中,表示抽取方式/>下的最大类别划分程度,/>表示当前抽取方式/>对应的相对表征程度,/>为抽取方式的数量,/>为最大值函数,/>表示最优分类划分程度。
2.根据权利要求1所述的一种电子病历分类管理方法,其特征在于,所述将新维数据和每个旧维数据构成一个向量的方法为:
将新维数据在空间中的空间点记为第一空间点,将旧维数据在空间中的空间点记为第二空间点,空间点的坐标为电子病历数据的维数,以第一空间点为起点,每个第二空间点为终点,起点和每个终点相连得到每个向量。
3.一种电子病历分类管理系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-2任意一项所述电子病历分类管理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311139234.XA CN116884554B (zh) | 2023-09-06 | 2023-09-06 | 一种电子病历分类管理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311139234.XA CN116884554B (zh) | 2023-09-06 | 2023-09-06 | 一种电子病历分类管理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116884554A CN116884554A (zh) | 2023-10-13 |
CN116884554B true CN116884554B (zh) | 2023-11-24 |
Family
ID=88255424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311139234.XA Active CN116884554B (zh) | 2023-09-06 | 2023-09-06 | 一种电子病历分类管理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116884554B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653835A (zh) * | 2014-11-14 | 2016-06-08 | 北京宇航系统工程研究所 | 一种基于聚类分析的异常检测方法 |
WO2017032210A1 (zh) * | 2015-08-24 | 2017-03-02 | 国家电网公司 | 一种基于聚类分析的输电线路山火风险区域划分方法 |
CN108537253A (zh) * | 2018-03-21 | 2018-09-14 | 华南理工大学 | 一种基于概率成对约束的自适应半监督降维方法 |
CN108877880A (zh) * | 2018-06-29 | 2018-11-23 | 清华大学 | 基于病历文本的病人相似性度量装置及方法 |
WO2020245727A1 (en) * | 2019-06-02 | 2020-12-10 | Predicta Med Analytics Ltd. | A method of evaluating autoimmune disease risk and treatment selection |
CN112749235A (zh) * | 2019-10-31 | 2021-05-04 | 北京金山云网络技术有限公司 | 解析分类结果的方法、装置及电子设备 |
WO2021084285A1 (en) * | 2019-10-31 | 2021-05-06 | Black Swan Data Ltd | Generating numerical data estimates from determined correlations between text and numerical data |
CN113284627A (zh) * | 2021-04-15 | 2021-08-20 | 北京交通大学 | 基于患者表征学习的用药推荐方法 |
CN113688255A (zh) * | 2021-09-02 | 2021-11-23 | 大连理工大学 | 一种基于中文电子病历的知识图谱构建方法 |
CN114358185A (zh) * | 2022-01-04 | 2022-04-15 | 辽宁工程技术大学 | 一种基于改进K均值聚类CCA-BiLSTM多维度短期电力负荷预测方法 |
CN115130578A (zh) * | 2022-06-29 | 2022-09-30 | 南京邮电大学 | 一种基于增量式粗糙聚类的配电设备状态在线评估方法 |
CN115147632A (zh) * | 2022-07-08 | 2022-10-04 | 哈尔滨工业大学(深圳) | 基于密度峰值聚类算法的图像类别自动标注方法及装置 |
CN115329895A (zh) * | 2022-09-06 | 2022-11-11 | 南昌大学 | 多源异构数据降噪分析处理方法 |
CN116152154A (zh) * | 2022-11-22 | 2023-05-23 | 南京航空航天大学 | 一种基于特征聚类和集成学习的波峰焊质量检测方法 |
CN116431931A (zh) * | 2023-06-14 | 2023-07-14 | 陕西思极科技有限公司 | 实时增量数据统计分析方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020193981A1 (en) * | 2001-03-16 | 2002-12-19 | Lifewood Interactive Limited | Method of incremental and interactive clustering on high-dimensional data |
US7739284B2 (en) * | 2005-04-20 | 2010-06-15 | International Business Machines Corporation | Method and apparatus for processing data streams |
-
2023
- 2023-09-06 CN CN202311139234.XA patent/CN116884554B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653835A (zh) * | 2014-11-14 | 2016-06-08 | 北京宇航系统工程研究所 | 一种基于聚类分析的异常检测方法 |
WO2017032210A1 (zh) * | 2015-08-24 | 2017-03-02 | 国家电网公司 | 一种基于聚类分析的输电线路山火风险区域划分方法 |
CN108537253A (zh) * | 2018-03-21 | 2018-09-14 | 华南理工大学 | 一种基于概率成对约束的自适应半监督降维方法 |
CN108877880A (zh) * | 2018-06-29 | 2018-11-23 | 清华大学 | 基于病历文本的病人相似性度量装置及方法 |
WO2020245727A1 (en) * | 2019-06-02 | 2020-12-10 | Predicta Med Analytics Ltd. | A method of evaluating autoimmune disease risk and treatment selection |
CN112749235A (zh) * | 2019-10-31 | 2021-05-04 | 北京金山云网络技术有限公司 | 解析分类结果的方法、装置及电子设备 |
WO2021084285A1 (en) * | 2019-10-31 | 2021-05-06 | Black Swan Data Ltd | Generating numerical data estimates from determined correlations between text and numerical data |
CN113284627A (zh) * | 2021-04-15 | 2021-08-20 | 北京交通大学 | 基于患者表征学习的用药推荐方法 |
CN113688255A (zh) * | 2021-09-02 | 2021-11-23 | 大连理工大学 | 一种基于中文电子病历的知识图谱构建方法 |
CN114358185A (zh) * | 2022-01-04 | 2022-04-15 | 辽宁工程技术大学 | 一种基于改进K均值聚类CCA-BiLSTM多维度短期电力负荷预测方法 |
CN115130578A (zh) * | 2022-06-29 | 2022-09-30 | 南京邮电大学 | 一种基于增量式粗糙聚类的配电设备状态在线评估方法 |
CN115147632A (zh) * | 2022-07-08 | 2022-10-04 | 哈尔滨工业大学(深圳) | 基于密度峰值聚类算法的图像类别自动标注方法及装置 |
CN115329895A (zh) * | 2022-09-06 | 2022-11-11 | 南昌大学 | 多源异构数据降噪分析处理方法 |
CN116152154A (zh) * | 2022-11-22 | 2023-05-23 | 南京航空航天大学 | 一种基于特征聚类和集成学习的波峰焊质量检测方法 |
CN116431931A (zh) * | 2023-06-14 | 2023-07-14 | 陕西思极科技有限公司 | 实时增量数据统计分析方法 |
Non-Patent Citations (1)
Title |
---|
基于关联关系的电子病历聚类研究;曾红武;王佳;;中华医学图书情报杂志(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116884554A (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lee et al. | Random forest based lung nodule classification aided by clustering | |
US20230238081A1 (en) | Artificial intelligence analysis of rna transcriptome for drug discovery | |
CN109036577B (zh) | 糖尿病并发症分析方法及装置 | |
Liu et al. | An improved unsupervised image segmentation method based on multi-objective particle swarm optimization clustering algorithm | |
CN107247873B (zh) | 一种差异甲基化位点识别方法 | |
CN112819299A (zh) | 一种基于中心优化的差分K-means负荷聚类方法 | |
CN111243753B (zh) | 一种面向医疗数据的多因素相关性交互式分析方法 | |
CN109886334A (zh) | 一种隐私保护的共享近邻密度峰聚类方法 | |
Wen et al. | Comparision of four machine learning techniques for the prediction of prostate cancer survivability | |
CN109686442B (zh) | 基于机器学习的胃食管反流疾病危险因素确定方法及系统 | |
CN111709668A (zh) | 基于数据挖掘技术的电网设备参数风险识别方法及装置 | |
CN116523320A (zh) | 基于互联网大数据的知识产权风险智能分析方法 | |
CN109885712B (zh) | 基于内容的肺结节图像检索方法及系统 | |
Megalooikonomou et al. | A representation and classification scheme for tree-like structures in medical images: analyzing the branching pattern of ductal trees in X-ray galactograms | |
CN113537358B (zh) | 一种基于多组学数据集的癌症亚型识别方法及系统 | |
CN116842330B (zh) | 一种可对比历史记录的保健信息处理方法及装置 | |
CN116884554B (zh) | 一种电子病历分类管理方法及系统 | |
CN116228759A (zh) | 肾细胞癌类型的计算机辅助诊断系统及设备 | |
Le Brigant et al. | Classifying histograms of medical data using information geometry of beta distributions | |
CN108806796A (zh) | 一种医疗数据的特征选择方法及相关装置 | |
Devi et al. | Similarity measurement in recent biased time series databases using different clustering methods | |
Segal | Representative curves for longitudinal data via regression trees | |
Nandi et al. | Genetic programming and feature selection for classification of breast masses in mammograms | |
He et al. | Classification of cancer types based on gene expression data | |
CN114446467A (zh) | 一种基于结构化报告模板的肺功能定量分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |