CN107436933A

CN107436933A - 用于病历档案整理的层次聚类系统

Info

Publication number: CN107436933A
Application number: CN201710597708.3A
Authority: CN
Inventors: 童永安; 邝洋辉; 劳敏
Original assignee: Guangzhou Huiyang Health Science And Technology Co Ltd
Current assignee: Guangzhou Huiyang Health Science And Technology Co Ltd
Priority date: 2017-07-20
Filing date: 2017-07-20
Publication date: 2017-12-05

Abstract

本发明公开一种用于病历档案整理的层次聚类系统，包括病历导入模块、向量处理模块、夹角余弦计算模块以及聚类分析模块，其中，所述病历导入模块用于对导入的病历档案中的各个变量进行规范化；所述向量处理模块用于对需要分析的变量进行变量类型与比例的转换，将各个个体的空间向量坐标存放于空间向量库当中；所述夹角余弦计算模块用于计算任意两个空间向量的相似系数并排列为相似矩阵；所述聚类分析模块根据相似系数进行聚类分析，根据聚类分析结果制作聚类图，用户根据聚类图，选择分类层或相似系数阈值，将各个病历档案分入不同的类当中。如此应用于病历档案的整理分类，从而为临床科研的进一步开展提供分组方法或确立研究方向。

Description

用于病历档案整理的层次聚类系统

技术领域

本发明涉及医疗技术领域，特别是指一种用于病历档案整理的层次聚类系统。

背景技术

由于不同的病历档案之间既有个性又有共性，因此可以在同一批病历档案之中根据病历档案之间的不同特征，将相似的病历分为多个类。通过对病历档案进行聚类分析，能够将数量庞大的电子病历分为若干类，从而发现某个群体共有的特征，从而在临床问题的发现环节乃至于对临床实践都有相当的指导意义。例如对于消化道疾病的研究而言，通过对不同人群的肠道菌落、饮食习惯进行聚类分析，能够将一批人群分为若干类别，从而为进一步的研究提供分组方法。

聚类分析是统计学中的一种分析方法。聚类分析的目标就是在相似的基础上收集数据来分类，从而将一个样本分为若干类别。聚类分析常用的方法包括层次聚类与非层次聚类，但是由于这些聚类方法对于变量类型具有一定限制，并且常用于单变量分析，难以应用于病历档案的分类上。

因此需要开发一种用于病历档案整理的层次聚类系统，用于病历档案的整理分类。

发明内容

针对背景技术中存在的问题，本发明的目的是提供一种用于病历档案整理的层次聚类系统，采用层次聚类的思想对病历档案特征进行分析，从而得出不同病历档案之间聚类的方法，应用于病历档案的整理分类，从而为临床科研的进一步开展提供分组方法或确立研究方向。

本发明的技术方案是这样实现的：一种用于病历档案整理的层次聚类系统，包括病历导入模块、向量处理模块、夹角余弦计算模块以及聚类分析模块，其中，所述病历导入模块：用于对用户所导入的病历档案进行初步的处理，使用数据接口对导入的病历档案进行转换，从而将导入的病历档案中的各个变量进行规范化，便于下一步向量处理模块对不同变量的抽象化处理；所述向量处理模块：用于对需要分析的变量进行变量类型与比例的转换，包含连续型变量转换、逻辑型变量转换以及文本型变量转换；完成向量转换之后，将各个个体的空间向量坐标存放于空间向量库当中，用于下一步的夹角余弦统计量计算：所述夹角余弦计算模块：两个空间向量的相似系数用两个空间向量X_i和X_j的夹角余弦值cosθ_ij来表示，

每两个空间向量都对应有一个相似系数，将任何两个空间向量的相似系数计算出来并排列为相似矩阵；所述聚类分析模块：用于根据不同个体之间的相似系数进行聚类分析，根据聚类分析结果制作聚类图，用户根据聚类图，选择需要在哪一层进行分类，或者选择相似系数阈值，根据选择的标准将各个病历档案分入不同的类当中。

在上述技术方案中，所述文本型变量转换包含特殊转换与普通转换，其中，所述特殊转换指在向量处理模块中预设有转换标准，根据该转换标准转换为具体的数值；所述普通转换指用户在导入病历时，对该文本型变量设定不同文本与数值之间的映射关系，向量转换模块根据设定值与映射关系，赋予对应的数值，作为空间向量中的一个维度。

在上述技术方案中，所述聚类分析的步骤为：

a.将相似矩阵简化为三角函数的表；

b.在相似矩阵中找到相似系数的最大值，将该最大值代表的两个向量所处的类连结起来，每个向量所属的最小的类就是它本身，如果该向量此前未被划分到任何一个类中，则其本身所处的类与另一向量所处的类联结起来，联结后划掉该相似系数所在的行与列；

c.在表中寻找最大的相似系数，重复上一个步骤，直到所有相似系数都被划掉，得到的聚类结果；

d.根据该聚类结果作出聚类图。

本发明用于病历档案整理的层次聚类系统，包括病历导入模块、向量处理模块、夹角余弦计算模块以及聚类分析模块，病历导入模块用于对导入的病历档案中的各个变量进行规范化；向量处理模块用于对需要分析的变量进行变量类型与比例的转换，将各个个体的空间向量坐标存放于空间向量库当中；夹角余弦计算模块用于计算任意两个空间向量的相似系数并排列为相似矩阵；聚类分析模块根据相似系数进行聚类分析，根据聚类分析结果制作聚类图，用户根据聚类图，选择分类层或相似系数阈值，将各个病历档案分入不同的类当中。如此应用于病历档案的整理分类，从而为临床科研的进一步开展提供分组方法或确立研究方向。

附图说明

图1为本发明用于病历档案整理的层次聚类系统内模块连接图；

图2为本发明中聚类分析模块的聚类图；

图3为本发明中聚类分析模块的流程图；

图4为本发明中一实例的聚类图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明所述的一种用于病历档案整理的层次聚类系统，包括病历导入模块、向量处理模块、夹角余弦计算模块以及聚类分析模块，在于空间向量转换、应用于多变量距离分析的多维向量空间模型，以及以相似系数为统计量的分析。

首先通过对不同变量依次抽象为空间向量坐标，将各个样本抽象为某个具体的空间向量，根据各个样本的空间向量坐标进行夹角余弦计算，最后再做聚类分析图。得到聚类分析图之后，系统根据用户选择的划分层次进行病历档案分类。以下是对所述各模块的详细说明。

(1)病历导入模块：

病历导入模块负责对用户所导入的病历档案进行初步的加工与整理。由于导入的病历可能存在格式与模版的不一致，需要使用数据接口对导入的病历档案进行转换，从而将导入的病历档案中的各个变量进行规范化，便于下一步向量处理模块对不同变量的抽象化处理。

(2)向量处理模块：

用户在进行聚类分析之前需要对目标变量进行选择。由于某些变量在聚类分析中完全没有贡献，其变量的取值完全随机，与目标聚类完全没有关联性，因此需要由用户手动选择需要进行聚类分析的变量，从而刨除这些无关变量。

确定需要分析的变量之后，向量处理模块对这些变量进行转换，其中包括对用户选定需要进行聚类分析的变量进行变量类型与比例的转换。对于不同类型的变量，有不同的转换方法，主要分为三大类：连续型变量转换、逻辑型变量转换以及文本型变量转换。具体详述如下：

a.连续型变量转换：对于某个连续型变量，使其作为空间向量中的一个维度，选定其平均值作为标准值100，样本中各个个体的该变量值除以该平均值再乘以标准值100，转换后得到的值作为空间向量中的该维度的对应值。

b.逻辑型变量转换：对于是或否的逻辑型变量，使其作为空间向量的一个维度，是对应的值为100，否对应的值为0，设定为该维度对应的值。

c.文本型变量转换：文本型变量转换方法分为两种模式：特殊转换方法与普通转换方法。两种方法的共同特点都在于采取某种标准将文本型的数据转量化为数值型的数据。

特殊转换方法：特殊转换方法在系统该模块中预设有转换标准，根据该转换标准转换为具体的数值。例如对于诊断而言，诊断结果是一种文字型变量，在系统中预设有四维的疾病谱，不同的疾病在该疾病谱有对应的空间坐标。疾病谱的设定是根据不同疾病所对应的科室、相互之间的联系乃至疾病的严重程度，采用一定的标准所开发的一个四维空间。例如甲亢、1型糖尿病、2型糖尿病有一定的相似度，同属于内分泌疾病，而其中1型糖尿病、2型糖尿病相似度更高，因此在疾病谱中所处的坐标更加接近。甲亢的坐标为(102,321,210,3)，1型糖尿病(102,321,211,4)、2型糖尿病(102,321,211,5)。因此向量转换模块根据诊断结果在疾病谱中的坐标，整合入空间向量当中。除了疾病谱之外，还有外科手术谱与处方谱等，同属于特殊转换方法。

普通转换方法：普通转换方法需要用户在导入病历时，对该文本型变量设定不同文本与数值之间的映射关系，例如优良中差分别对应100，75，50，25。向量转换模块根据设定值与映射关系，赋予对应的数值，作为空间向量中的一个维度。

完成向量转换操作之后，将各个个体的空间向量坐标存放于空间向量库当中，用于下一步的夹角余弦统计量计算。

(3)夹角余弦计算模块：

经过向量转换操作之后，一个病历档案对应一个空间向量。而任意两个空间向量的相似程度，可以用两个空间向量X_i和X_j的夹角余弦值cosθ_ij来表示。

定义相似系数：

其中X_i和X_j分别为两个空间向量。

每两个空间向量都对应有一个相似系数，如果将任何两个空间向量的相似系数都计算出来并排列为一个矩阵，则称此矩阵为相似矩阵，示例如下：

	1	2	3	n
					1	cosθ₁₁	cosθ₁₂	cosθ₁₃	...	cosθ_1n
2	cosθ₂₁	cosθ₂₂	cosθ₂₃	cosθ_2n
						...	...	...		...
n	cosθ_n1	cosθ_n2	cosθ_n3	cosθ_nn

得到相似矩阵之后，就可以记进行下一步的聚类分析。

(4)聚类分析模块：

得到相似矩阵之后，聚类分析模块就可以根据不同个体之间的相似系数进行聚类分析。具体方法如下：

a.将相似矩阵简化为三角函数表，如下表所示：

b.在相似矩阵中找到相似系数的最大值，将该最大值代表的两个向量所处的类连结起来。每个向量所属的最小的类就是它本身，如果该向量此前未被划分到任何一个类中，则其本身所处的类与另一向量所处的类联结起来。联结后，划掉该相似系数所在的行与列。

c.在表中寻找最大的相似系数，重复上一个步骤，直到所有相似系数都被划掉。所得到的聚类结果如下表所示：

d.根据该聚类结果表格，作出如图2所示的聚类图。

聚类的层次为所联结的两个个体所处的类的层次数加一。例如两个样本，一个样本属于第1层的类(它本身)，另一个样本属于第3层的类，则两个样本联结所位于的层数为3+1＝4。示例如图2所示：分类(3,46,8)处于第3层，分类(10)处于第1层，两者联结位于第4层。

e.用户根据呈现的聚类图，选择需要在哪一层进行分类，或者选择相似系数阈值，根据选择的标准将各个病历档案分入不同的类当中。其中，聚类分析模块的流程如图3所示。

以下是结合一具体实例对本发明做的进一步说明：

现有六份病历档案需要进行聚类分析，其各项参数如下表所示：

序号	诊断	年龄	性别	体重	科室
						1	1型糖尿病	23	女	48	内分泌科
2	2型糖尿病	56	男	70	内分泌科
						3	甲亢	35	女	47	内分泌科
4	2型糖尿病	58	男	67	内分泌科
						5	甲亢	41	女	50	内分泌科
6	高血压	60	男	71	心血管科

1型糖尿病、2型糖尿病、甲亢和高血压在疾病谱中的坐标分别为：(102,321,211,4)、(102,321,211,5)、(102,321,210,3)和(58,320,71,45)。经过向量转换之后，六份档案的空间向量坐标分别为：

序号	向量坐标
		1	(102,321,211,4,54,0,71,100)
2	(102,321,211,5,110,10,150,100)
		3	(102,321,210,3,68,0,69,100)
4	(102,321,211,5,115,10,137,100)
		5	(102,321,210,3,84,0,97,100)
6	(102,321,210,3,120,10,152,0)

求夹角余弦，得任意两个个体之间的相似系数：

	1	2	3	4	5	6
							1	1
2	0.86	1
							3	0.73	0.69	1
4	0.84	0.97	0.74	1
							5	0.72	0.71	0.94	0.69	1
6	0.43	0.44	0.51	0.47	0.41	1

经过聚类分析，其结果如下表所示：

聚类图如图4所示：

用户选择以相似系数0.5作为阈值对病历档案进行分类，则在第三层与第四层之间隔断，分类结果如下表所示：

第一组	第二组	第三组
			1 2 4	3 5	6

说明第1、2、4份病历档案归为一组，第3、5份病历归为一组，第6份病历归为一组。

综上，与现有技术相比，本发明用于病历档案整理的层次聚类系统具有以下有益效果：

1.在传统的聚类分析方法中，样本的数据类型要求是数值型变量，而在病历档案中有许多数据都不是数值型变量，比如诊断结果，无法使用传统聚类分析方法进行分析。而在本层次聚类系统中，对于病历档案中不同类型的数据采用不同的向量转换方法，例如文本型变量能够采用特殊转换方法或普通转换方法转换成数值型变量，从而整合入代表该病历档案个体的空间向量中，从而为进一步的相关系数运算提供的方便，大大拓宽了聚类分析适用的范围，使得多变量的病历档案也能进行聚类分析。

2.如果使用人工对一大批病历档案进行分类，尤其是需要根据多个变量进行逐一分类时，需要分类人员对变量进行综合分析，判定其所属的类别，这一过程需要花费大量的时间与精力，效率极低。而使用层次聚类系统，就能够根据量化的多个变量进行相关系数的运算，根据相关系数的运算结果得到聚类分析的结果，这一过程使用计算机能够处理海量的数据，大大提高了工作效率。

3.该层次聚类系统的灵活性体现在两个方面：首先，对于一大批病历样本而言，聚类分析是一个探索性的过程，不需要用户事先给出一个分类的标准，系统能够从数据中获取数据的分布状况，对特定的集簇进行综合分析，从而给出一个分类标准。第二，用户能够根据聚类图选择某个层次，从而得到分类结果，选择的层次可高可低，所得到的分类结果就可以或精细或粗略。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于病历档案整理的层次聚类系统，其特征在于：包括病历导入模块、向量处理模块、夹角余弦计算模块以及聚类分析模块，其中，

所述病历导入模块：用于对用户所导入的病历档案进行初步的处理，使用数据接口对导入的病历档案进行转换，从而将导入的病历档案中的各个变量进行规范化，便于下一步向量处理模块对不同变量的抽象化处理；

所述向量处理模块：用于对需要分析的变量进行变量类型与比例的转换，包含连续型变量转换、逻辑型变量转换以及文本型变量转换；完成向量转换之后，将各个个体的空间向量坐标存放于空间向量库当中，用于下一步的夹角余弦统计量计算：

所述夹角余弦计算模块：两个空间向量的相似系数用两个空间向量X_i和X_j的夹角余弦值cosθ_ij来表示，

<mrow> <msub> <mi>cos&theta;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>X</mi> <mi>i</mi> </msub> <msub> <mi>X</mi> <mi>j</mi> </msub> </mrow> <mrow> <mo>|</mo> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>X</mi> <mi>j</mi> </msub> <mo>|</mo> </mrow> </mfrac> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>P</mi> </msubsup> <msub> <mi>X</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <msub> <mi>X</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> </mrow> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>P</mi> </msubsup> <msubsup> <mi>X</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mn>2</mn> </msubsup> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>P</mi> </msubsup> <msubsup> <mi>X</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> <mn>2</mn> </msubsup> </mrow> </msqrt> </mfrac> </mrow>

每两个空间向量都对应有一个相似系数，将任何两个空间向量的相似系数计算出来并排列为相似矩阵；

所述聚类分析模块：用于根据不同个体之间的相似系数进行聚类分析，根据聚类分析结果制作聚类图，用户根据聚类图，选择需要在哪一层进行分类，或者选择相似系数阈值，根据选择的标准将各个病历档案分入不同的类当中。

2.根据权利要求1所述的用于病历档案整理的层次聚类系统，其特征在于：所述文本型变量转换包含特殊转换与普通转换，其中，所述特殊转换指在向量处理模块中预设有转换标准，根据该转换标准转换为具体的数值；所述普通转换指用户在导入病历时，对该文本型变量设定不同文本与数值之间的映射关系，向量转换模块根据设定值与映射关系，赋予对应的数值，作为空间向量中的一个维度。

3.根据权利要求1所述的用于病历档案整理的层次聚类系统，其特征在于：所述聚类分析的步骤为：

a.将相似矩阵简化为三角函数的表；

d.根据该聚类结果作出聚类图。