CN111739634A

CN111739634A - 相似患者智能分群方法、装置、设备及存储介质

Info

Publication number: CN111739634A
Application number: CN202010405737.7A
Authority: CN
Inventors: 廖希洋; 马凯宁; 欧秋雨
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2020-10-02
Also published as: WO2021139116A1; WO2021139116A9

Abstract

本发明涉及大数据领域，公开了一种相似患者智能分群方法、装置、设备及存储介质。相似患者智能分群方法包括：获取待匹配的新病人数据，新病人数据包含有多种病症特征数据，对该病症特征数据进行向量化处理，得到所述新病人对应的病症特征词向量，计算新病人数据与预置病症特征数据库中每一历史病人数据之间的马氏距离，对各马氏距离进行排序，获得排序结果，确定新病人数据对应匹配的疾病信息组群，其中，所述疾病信息组群分别包含不同的临床结局信息。用于最大程度的利用历史病人的数据信息，可以根据马氏距离快速判断新病人所属疾病信息组群，根据对应疾病信息组群的特征协助医生进行决策，提升了医生进行医疗决策的准确性。

Description

相似患者智能分群方法、装置、设备及存储介质

技术领域

本发明涉及大数据领域，应用于智慧医疗领域中，尤其涉及一种相似患者智能分群方法、装置、设备及存储介质。

背景技术

随着技术的发展，人工智能越来越普遍，在医疗领域内，医生在进行医疗决策的场景时，通常会将以往治疗过的病人的病情特征和治疗过程与现在的接受治疗的病人的实际情况相结合，以作出更合适的医疗决策。然而，医生对新病人做医疗决策时，对已有病人的数据利用的并不充分。

在现有的技术中，针对样本(历史病人)的数据对新病人做出医疗决策，大多借助于其中的连续型数据，如检验指标，年龄等，不能获取临床结局差异较大的不同子群，且不能尽最大可能使用医生决策时所考虑的信息，不能快速的作出准确的医疗决策。

发明内容

本发明的主要目的在于解决相似病人如何智能分群的技术问题。

本发明第一方面提供了一种相似患者智能分群方法，包括：

获取待匹配的新病人数据，所述新病人数据包含有多种病症特征数据；

对所述新病人的各病症特征数据进行向量化处理，得到所述新病人对应的病症特征词向量；

基于所述病症特征词向量，计算所述新病人数据与预置病症特征数据库中每一历史病人数据之间的马氏距离，其中，所述病症特征数据库包含多个疾病信息组群，相似病症特征属于同一疾病信息组群；

对所述各马氏距离进行排序，获得排序结果；

基于所述排序结果，确定所述新病人数据对应匹配的疾病信息组群，其中，所述疾病信息组群分别包含不同的临床结局信息。

可选的，在本发明第一方面的第一种实现方式中，在所述获取待匹配的新病人数据的步骤之前，还包括：

获取包含结局变量的样本数据；

基于所述样本数据的类型，对所述样本数据进行预处理，得到离散化词向量；

基于所述离散化词向量，分别计算所述样本数据中各样本两两之间的马氏距离；

基于所述样本数据中各样本两两之间的马氏距离，对所述样本数据进行聚类，得到分群结果；

基于所述分群结果，获取所述样本数据中包含的多个疾病信息组群，并提取所述疾病信息组群的特征；

基于所述疾病信息组群的特征，查询预置疾病病症描述库，输出所述疾病信息组群的特征对应的疾病病症描述。

可选的，在本发明第一方面的第二种实现方式中，所述对所述新病人的各病症特征数据进行向量化处理，得到所述新病人对应的病症特征词向量包括：

获取所述新病人数据的类型；

基于所述新病人数据的类型，确定所述数据对应的向量化处理并执行向量化处理；

其中，所述预处理方式包括：

A、当所述新病人数据的类型为文本型数据时，对所述文本型数据进行向量化处理；

B、当所述新病人数据的类型为离散型数据时，对所述离散型数据进行向量化处理；

C、当所述新病人数据的类型为连续型数据时，不对所述数据进行向量化处理。

可选的，在本发明第一方面的第三种实现方式中，所述基于所述样本数据中各样本两两之间的马氏距离，对所述样本数据进行聚类，得到分群结果包括：

设定分群个数为k，随机选取k个样本作为初始聚类中心；

分别计算所述样本数据中各样本到每一个聚类中心的马氏距离；

基于所述各样本到每一个聚类中心的马氏距离，选取各样本对应的最小马氏距离，并将各样本划入与最小马氏距离对应的聚类中心所在组群中，直至将所述样本数据中的所有样本划分完毕，得到首次分群结果。

可选的，在本发明第一方面的第四种实现方式中，在所述将各样本划入与最小马氏距离对应的聚类中心所在组群中，直至将所述样本数据中的所有样本划分完毕，得到首次分群结果的步骤之后，还包括：

根据所述马氏距离，计算首次分群结果对应聚类的平方误差总和；

在非初始情况下，根据上一次生成的分群结果计算获得K个非初始聚类中心；

计算所述样本数据中各样本分别到各非初始聚类中心的马氏距离，选取所述各样本对应的最小马氏距离，并将各样本划入与所述最小马氏距离对应的非初始聚类中心所在的群，生成新的分群结果。

可选的，在本发明第一方面的第五种实现方式中，在所述计算所述样本数据中各样本分别到各非初始聚类中心的马氏距离，选取所述各样本对应的最小马氏距离，并将各样本划入与所述最小马氏距离对应的非初始聚类中心所在的群，生成新的分群结果的步骤之后，还包括：

基于所述马氏距离，计算获得新的分群结果对应的聚类的平方误差总和；

比较所述首次分群结果对应聚类的平方误差总和与所述新的分群结果对应聚类的平方误差总和，并得到比较结果；

基于所述比较结果，选取两次分群结果对应聚类的平方误差总和最小的聚类对应的分群结果作为最终分群结果。

本发明第二方面提供了一种相似患者智能分群装置，包括：

第一获取模块，用于获取待匹配的新病人数据，所述新病人数据包含有多种病症特征数据；

第一处理模块，用于对所述新病人的各病症特征数据进行向量化处理，得到所述新病人对应的病症特征词向量；

第一计算模块，用于基于所述病症特征词向量，计算所述新病人数据与预置病症特征数据库中每一历史病人数据之间的马氏距离，其中，所述病症特征数据库包含多个疾病信息组群，相似病症特征属于同一疾病信息组群；

排序模块，用于对所述各马氏距离进行排序，获得排序结果；

确定模块，用于基于所述排序结果，确定所述新病人数据对应匹配的疾病信息组群，其中，所述疾病信息组群分别包含不同的临床结局信息。

可选的，在本发明第二方面的第一种实现方式中，所述相似患者智能分群装置，还包括：

第二获取模块，用于获取包含结局变量的样本数据；

第二处理模块，用于基于所述样本数据的类型，对所述样本数据进行预处理，得到离散化词向量；

第二计算模块，用于基于所述离散化词向量，分别计算所述样本数据中各样本两两之间的马氏距离；

聚类模块，用于基于所述样本数据中各样本两两之间的马氏距离，对所述样本数据进行聚类，得到分群结果；

提取模块，用于基于所述分群结果，获取所述样本数据中包含的多个疾病信息组群，并提取所述疾病信息组群的特征；

查询模块，用于基于所述疾病信息组群的特征，查询预置疾病病症描述库，输出所述疾病信息组群的特征对应的疾病病症描述。

可选的，在本发明第二方面的第二种实现方式中，所述第一处理模块具体用于：

获取所述新病人数据的类型，基于所述新病人数据的类型，确定所述数据对应的向量化处理并执行向量化处理，其中，所述预处理方式包括：

可选的，在本发明第二方面的第三种实现方式中，所述聚类模块具体用于：

设定分群个数为k，随机选取k个样本作为初始聚类中心，分别计算所述样本数据中各样本到每一个聚类中心的马氏距离，基于所述各样本到每一个聚类中心的马氏距离，选取各样本对应的最小马氏距离，将各样本划入与最小马氏距离对应的聚类中心所在组群中，直至将所述样本数据中的所有样本划分完毕，得到首次分群结果。

可选的，在本发明第二方面的第四种实现方式中，聚类模块具体还用于：

根据所述马氏距离，计算首次分群结果对应聚类的平方误差总和，在非初始情况下，根据上一次生成的分群结果计算获得K个非初始聚类中心，计算所述样本数据中各样本分别到各非初始聚类中心的马氏距离，选取所述各样本对应的最小马氏距离，并将各样本划入与所述最小马氏距离对应的非初始聚类中心所在的群，生成新的分群结果。

可选的，在本发明第二方面的第五种实现方式中，聚类模块具体还用于：

基于所述马氏距离，计算获得新的分群结果对应的聚类的平方误差总和，比较所述首次分群结果对应聚类的平方误差总和所述新的分群结果对应聚类的平方误差总和，并获取比较结果，基于所述比较结果，选取所述平方误差总和最小的聚类对应的分群结果作为最终分群结果。

本发明第三方面提供了一种相似患者智能分群设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述相似患者智能分群设备执行上述的相似患者智能分群方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的相似患者智能分群方法。

本发明提供的技术方案，获取待匹配的新病人数据，所述新病人数据包含有多种病症特征数据，对所述新病人的各病症特征数据进行向量化处理，得到所述新病人对应的病症特征词向量，基于所述病症特征词向量，计算所述新病人数据与预置病症特征数据库中每一历史病人数据之间的马氏距离，其中，所述病症特征数据库包含多个疾病信息组群，相似病症特征属于同一疾病信息组群，对所述各马氏距离进行排序，获得排序结果，基于所述排序结果，确定所述新病人数据对应匹配的疾病信息组群。其中，所述疾病信息组群分别包含不同的临床结局信息。本方案可应用于智慧医疗领域中，从而推动智慧城市的建设，可以最大程度的利用样本(病人)数据中医生做医疗决策时会考虑到的信息，根据马氏距离判断新病人所属疾病组群，根据对应组群的特征等信息协助医生进行决策，提高了判断病人所属组群的效率，提升了医疗决策的准确性。

附图说明

图1为本发明实施例中相似患者智能分群方法的第一个实施例示意图；

图2为本发明实施例中相似患者智能分群方法的第二个实施例示意图；

图3为本发明实施例中相似患者智能分群方法的第三个实施例示意图；

图4为本发明实施例中相似患者智能分群装置的第一个实施例示意图；

图5为本发明实施例中相似患者智能分群装置的第二个实施例示意图；

图6为本发明实施例中相似患者智能分群设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种相似患者智能分群方法、装置、设备及存储介质，本发明通过提供一种相似患者智能分群方法，该方法通过获取新病人数据，在判断新病人所属疾病组群时，分别计算新病人数据与各个预置疾病组群中的每一个样本(病人)数据两两之间的马氏距离，根据马氏距离的值，确定新病人数据所属的疾病组群。本方案属于智慧医疗领域，通过本方案能够推动智慧城市的建设，本发明通可以最大程度的利用样本(病人)数据中医生做医疗决策时会考虑到的信息，同时，可以根据马氏距离判断新病人所属疾病组群，根据对应组群的特征等信息协助医生进行决策。提高了判断病人所属组群的效率，提升了医生决策的准确性。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中相似患者智能分群方法的一个实施例包括：

101、获取待匹配的新病人数据，所述新病人数据包含有多种病症特征数据；

本实施例中，待匹配的新病人数据是指，正在接受医生的治疗，医生需要借鉴既往病人的信息对其进行医疗决策的病人的数据，其中既包含新病人的个人信息，又包括病人所患疾病的病症及该病症所呈现的特征等信息，主要包括性别，年龄，姓名，身体各项检验指标，检查结果，既往病史等数据信息。比如，张三，性别男，汉族，年龄25，乙肝病史10年，主诉：常感乏力，体力不支，下肢水肿，失眠多梦，上腹部不适，腹胀，皮肤小便发黄，小便呈浓茶色等。

本实施例中的“匹配”指的是，将新病人的疾病病症等信息与既往的病人的病症特征进行匹配。

102、对所述新病人的各病症特征数据进行向量化处理，得到所述新病人对应的病症特征词向量；

本实施例中，由于收集到的包含新病人信息的数据类型不仅仅只包含检验指标，年龄等类似等连续型数据，还包含性别，检查结果等离散型数据或文本数据，因此需要对收集到的新病人数据根据其所属的数据类型，对数据进行向量化处理，获取对应的向量化新病人数据。比如，若新病人数据为包含文本型数据、离散型数据及连续型数据的混合型数据，则使用自然语言处理技术中词向量方法，对其中的文本型数据和离散型数据进行独热(One-Hot)编码的预处理，得到向量化的数据。

其中，连续型数据不需要做任何标准化或归一化的预处理，该类型特征数据可以直接使用。

103、于所述病症特征词向量，计算所述新病人数据与预置病症特征数据库中每一历史病人数据之间的马氏距离，其中，所述病症特征数据库包含多个疾病信息组群，相似病症特征属于同一疾病信息组群；

本实施例中，根据向量化处理后生成的病人特征词向量，计算新病人数据与各预置病症特征数据库中每一个历史病人数据之间的马氏距离，比如，预置病症特征数据库中共有A，B，C，D，E，F，G，7个疾病信息组群，每个疾病信息组群中有n个样本(病人)：A(a1,a2,a3...an)、B(b1,b2,b3...bn)、C(c1,c2,c3...cn)、D(d1,d2,d3...dn)、E(e1,e2,e3...en)、F(f1,f2,f3...fn)、G(g1,g2,g3...gn),分别计算新病人数据与A，B，C，D，E，F，G，7个疾病信息组群中每一个样本(病人)数据之间的马氏距离。

本实施例中，疾病特征信息库，我们可以把它理解成是一个包含了大量病人数据的数据库，其中包括一种疾病的多个不同群组，比如结局是糖尿病并发肾病，糖尿病伴高血压，或者糖尿病HbA1c达标的群组等。每一个疾病信息组群中包含一定数量个该种临床结局类型的病人的数据信息。在本实施例中，我们也把这些病人的数据信息叫作样本数据。

104、对所述各马氏距离进行排序，获得排序结果；

本实施例中，根据计算出来的新病人数据与各预置疾病特征信息库中每一个历史病人数据之间的马氏距离的值，对马氏距离进行排序，获取排序结果。排序可以是从大到小排序，也可以是从小到大排序，其中，结局相似的病人两两之间的马氏距离远小于结局不相似的病人两两之间的马氏距离。

105、基于所述排序结果，确定所述新病人数据对应匹配的疾病信息组群，其中，所述疾病信息组群分别包含不同的临床结局信息。

本实施例中，疾病信息组群指特定的某种疾病的组群，其中包含一定数量该类型疾病的样本(病人)。以糖尿病病人的临床结局信息为HbA1c(小于7)达标为例，该疾病临床结局信息族群中的每一个样本(病人)在整个病程中的个人信息，病症特征，疾病发展进程，结局等信息。现病史，既往病史，近期用药情况，既往史，家族史，体格检查，结局等数据信息。

本实施例中，若新病人数据与样本(病人)之间的马氏距离越小，则说明两个病人之间的结局相似，同属同一疾病信息组群的可能性就越大，所以，可以根据马氏距离的排序结果，确定新病人数据对应所述的疾病信息组群。

本实施例中，马氏距离是用来衡量两个数据样本之间的相似度，比如说，将两个样本数据分别用两个样本矩阵标识，样本矩阵1数据的协方差就是样本矩阵1马氏距离,同样，样本矩阵2也有对应的马氏距离,如果算出来的2个马氏距离越接近,那么可以认为这2个样本的相似度越高。

可以理解的是，本发明的执行主体可以为相似患者智能分群装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

本发明实施例中，通过获取新病人数据，在判断新病人所属疾病组群时，分别计算新病人数据与各个预置疾病组群中的每一个样本(病人)数据两两之间的马氏距离，根据马氏距离的值，确定新病人数据所属的疾病组群。本方案属于智慧医疗领域，通过本方案能够推动智慧城市的建设，本发明通可以最大程度的利用样本(病人)数据中医生做医疗决策时会考虑到的信息，同时，可以根据马氏距离判断新病人所属疾病组群，根据对应组群的特征等信息协助医生进行决策。提高了判断病人所属组群的效率，提升了医生决策的准确性。

请参阅图2，本发明实施例中相似患者智能分群方法的另一个实施例包括：

201、获取包含结局变量的样本数据；

本实施例中，结局变量是指某种疾病关心的结局。如感冒，关心的结局是是否治愈。2型糖尿病关心的结局是是否糖化达标。

本实施例中，包含结局变量的样本数据是指接受治疗，并治疗结束的病人的数据信息，通过医院的电子病历等渠道获取大量的包含结局变量的历史病人数据作为样本数据，并判断该样本数据的类型。比如，病人姓名年龄血型等基本信息，病人主诉病症，既往病史，家族史，体格检查，用药信息及结局(是否治愈)等。

202、基于所述样本数据的类型，对所述样本数据进行预处理，得到离散化词向量；

本实施例中，根据样本数据的类型，对样本预处理，比如说，可以对离散型数据或文本型数据进行向量化处理，得到离散型词向量形式的数据。

在一可选实施例中，具体获取所述新病人数据的类型；

本实施例中，在医疗领域，新病人数据的数据类型不仅仅只包含检验指标，年龄等类似等连续型数据，还包含性别，检查结果等离散型数据或文本型数据。同时，由于离散型数据和文本型数据必须进行离散化处理之后，得到离散型词向量形式才能使用，所以要确定新病人数据的类型。

在另一可选实施例中，具体基于所述新病人数据的类型，确定所述数据对应的向量化处理并执行向量化处理；

其中，所述向量化处理方式包括：

本实施例中，若新病人数据为文本型数据，则对改数据进行向量化处理。

本实施例中，文本数据是指不能参与算术运算的任何字符，也称为字符型数据，例如，性别，检查结果等。

本实施例中，向量化处理是指将词转化成一种分布式表示，又称词向量，使词之间存在“距离”概念，包含更多信息。

本实施例中，与文本型数据相同，若新病人数据为离散型数据，也同样的对数据进行向量化处理，做成离散型词向量形式。

本实施例中，若新病人数据为连续型数据，则不需对连续型数据做任何标准化或归一化的预处理，可以直接使用。

本实施例中，连续型数据是指连续数据，统计学概念，又称连续变量。指在一定区间内可以任意取值、数值是连续不断的、相邻两个数值可作无限分割(即可取无限个数值)的数据。例如：生产零件的规格尺寸、人体测量的身高、体重、胸围等为连续数据，其数值只能用测量或计量的方法取得。”

本实施例中，由于数据类型的不同，对数据进行的处理也不相同，比如说，连续型数据可以不作处理直接使用，而文本型数据或离散型数据均需要进行向量化处理之后方能进行使用，所以，要确定样本数据对应的向量化处理。

本实施例中，对新病人数据进行向量化处理，获取病人特征词向量。病人特征词向量，是指包含病人信息及特征的词向量形式的数据。

203、基于所述离散化词向量，分别计算所述样本数据中各样本两两之间的马氏距离；

本实施例中，根据离散化词向量，分别计算样本数据中各样本(病人)数据两两之间的马氏距离。

本实施例中，马氏距离是指马氏距离是一种有效的计算一个样本和一个样本集“重心”的最近距离，或者有效计算两个未知样本集的相似度的方法。它考虑到各种特性之间的联系，可以排除变量之间的相关性的干扰，并且马氏距离是尺度无关的，即独立于测量尺度。当∑是单位矩阵的时候，马氏距离即为欧氏距离。综上所述，马氏距离能够很方便的度量观测样本与已知样本集间的距离，因而很适合用在故障诊断中。

204、基于所述样本数据中各样本两两之间的马氏距离，对所述样本数据进行聚类，得到分群结果；

本实施例中，聚类是一个将先验知识不足且不确定的样本数据划分为若干个类的特殊分类过程，划分的依据是将相似程度较大的数据记录划分到同一个组群中，儿时的处于不同分组中的数据记录中间的相异程度最大化。是一种研究(样本或指标)分类问题的统计分析方法。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。

本实施例中，根据样本数据中各样本两两之间的马氏距离，对所述样本数据进行聚类，确定聚类结果。比如，样本数据中包含n个样本(病人)M1，M2，M3...Mn分别计算个样本两两之间的马氏距离，根据马氏距离，对样本数据进行聚类，获取聚类结果，得到多个样本组。

205、基于所述分群结果，获取所述样本数据中包含的多个疾病信息组群，并提取所述疾病信息组群的特征；

本实施例中，根据分群结果，获取样本数据中包含的多个疾病信息组群，每一个疾病信息组群中分别包含某种疾病对应的不同临床结局信息，比如，根据样本数据中500个样本(病人)两两之间的马氏距离，对样本数据进行聚类，得到了糖尿病A、B、C、D、E、F、G共七个不同的临床结局的疾病信息组群，进一步地，提取每一个疾病信息组群中样本(病人)的特征，比如人口信息学特征，检验检测特征等等，对这些特征进行描述如某疾病信息组群中，人群的年龄是什么分布，性别(男女)比例等，根据特征的分布，协助医生决策。本实施例中疾病信息组群的特征分布是，该组群所包含的样本数据在数据分布上的一些特征，比如，该组群中，样本(病人)的年龄的均值是50岁，性别男性占比70％等等。

本实施例中，根据分群结果获取多个疾病信息组群，并提取每一个疾病信息组群中的特征，这些特征包括但不限于人群的性别(男女)比例，年龄分布，检验检测数据，病症特征，疾病发展进程，现病史，既往病史等。再比如，对鸢尾花的数据集的特征进行提取，该数据集包含4个特征：花萼长度，花萼宽度，花瓣长度，花瓣宽度，单位为厘米。通过特征提取，我们可以得到各个疾病组群的特征，以帮助医生作出更准确的医疗决策。

206、基于所述疾病信息组群的特征，查询预置疾病病症描述库，输出所述疾病信息组群的特征对应的疾病病症描述；

本实施例中，特征是指某一种疾病所特有的特征信息，比如人群性别分布，检验检测数据分布特征，病症特征及疾病发展进程特征等。根据疾病信息组群中的特征分布信息，查询预置的疾病病症描述库，确定对应疾病的数据信息，以帮助医生进行更准确的医疗决策。

本发明实施例中，疾病病症描述库是根据医院内大量的疾病病历获取的，其中包括大量对应疾病种类的不同年龄段病人的疾病特征，病情发展情况，疾病用药治疗过程以及疾病最后的发展走势。对新病人进行诊断时，根据新病人主诉的病情和诊断的病症，判断新病人的疾病特征，将该疾病特征作为关键字，从预置的疾病病症描述库中查询，确定新病人的疾病种类。比如，病人病情特征有：多尿，多饮，多食，但是短期内体重下降严重，伴有双下肢水肿，根据病人的病情特征，从预置病症特征描述库中查询出与新病人最匹配的疾病信息，从而确定出与新病人最匹配的疾病类型，帮助医生作出更准确的医疗诊断。

207、获取待匹配的新病人数据；

208、对所述新病人的各病症特征数据进行向量化处理，得到所述新病人对应的病症特征词向量；

209、基于所述病症特征词向量，计算所述新病人数据与预置病症特征数据库中每一历史病人数据之间的马氏距离；

210、对所述各马氏距离进行排序，获得排序结果；

211、基于所述排序结果，确定所述新病人数据对应匹配的疾病信息组群。

本发明实施例中，通过获取新病人数据，在判断新病人所属疾病组群时，分别计算新病人数据与各个预置疾病组群中的每一个样本(病人)数据两两之间的马氏距离，根据马氏距离的值，确定新病人数据所属的疾病组群。本方案属于智慧医疗领域，通过本方案能够推动智慧城市的建设，本发明可以最大程度的利用样本(病人)数据中医生做医疗决策时会考虑到的信息，同时，可以根据马氏距离判断新病人所属疾病组群，根据对应组群的特征等信息协助医生进行决策。提高了判断病人所属组群的效率，提升了医生决策的准确性。

请参阅图3，本发明实施例中相似患者智能分群方法的第三个实施例包括：

301、获取包含结局变量的样本数据；

302、基于所述样本数据的类型，对所述样本数据进行预处理，得到离散化词向量；

303、基于所述离散化词向量，分别计算所述样本数据中各样本两两之间的马氏距离；

304、设定分群个数为k，随机选取k个样本作为初始聚类中心；

本实施例中，聚类中心是指在神经网络中把输入的样本数据根据特征分成不同的几个部分，就是聚类，聚类中心就是聚类的中心。

本实施例中，聚类是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程，是一种研究(样本或指标)分类问题的统计分析方法。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。

本实施例中，假设样本数据中的样本(糖尿病病人病人)会被分为k个包含不同的临床结局信息的族群，在这批样本数据中心随机选取k个样本作为聚类中心。比如，我们假设样本数据中的所有数据可以分为A、B、C、D、E、F、G，7个疾病信息组群，分别代表糖尿病的7个不同结局信息，其中A、B、C、D、E、F、G就是这7个疾病信息组群的聚类中心。

本实施例中，聚类中心的确定分为初始情况和非初始情况。在初始情况下，随机在所述样本数据中选取k个样本作为初始聚类中心。初始聚类中心表示为：mp(1)＝(v_i1,v_i2,...,v_ij)；其中，p＝1,2,…,k，k表示分群个数。

305、分别计算所述样本数据中各样本到每一个聚类中心的马氏距离；

本实施例中，分别计算样本数据中，每一个样本到每一个聚类中心的马氏距离。比如，样本数据中包含N个样本，分别计算N1,N2,N3...NN与A、B、C、D、E、F、G，7个初始聚类中心之间的马氏距离，其中，N1与A、B、C、D、E、F、G，7个初始聚类中心之间的马氏距离分别为a1，b1，c1，d1，e1，f1，g1。

306、基于所述各样本到每一个聚类中心的马氏距离，选取各样本对应的最小马氏距离，并将各样本划入与最小马氏距离对应的聚类中心所在组群中，直至将所述样本数据中的所有样本划分完毕，得到首次分群结果；

本实施例中，根据得到的样本数据中各样本到每一个聚类中心的马氏距离的值，选取各样本对应的最小马氏距离,并将各样本划入与最小马氏距离对应的聚类中心所在的组群中，直至将样本数据中的所有样本划分完毕，生成首次分群结果。比如，比如，我们假设样本数据中的所有数据可以分为A、B、C、D、E、F、G，7个不同的临床结局信息分别代表某种疾病的不同结局信息的组群的聚类中心，样本数据中包含N个样本，分别计算N1,N2,N3...NN与A、B、C、D、E、F、G，7个初始聚类中心之间的马氏距离。以N1为例，N1与A、B、C、D、E、F、G，7个初始聚类中心之间的马氏距离分别为a1，b1，c1，d1，e1，f1，g1，其中a1最小，则将N1划入聚类中心A所在的疾病临床结局信息组群中，以此为例，直到将样本数据中的N个样本划分完毕，生成首次分群结果。

307、根据所述马氏距离，计算首次分群结果对应聚类的平方误差总和；

本实施例中，根据马氏距离计算获得聚类的平方误差总和，。

本实施例中，在对数据进行聚类时，样本数据中样本(病人)的密集程度和样本(病人)之间结局的相似度差异对聚类的效果有影响。比如，当样本(病人)的密集度较高、疾病信息组群与疾病信息组群之间的病症特征差异较大时，聚类效果比较好。

本实施例中，平方误差总和是指(需要对其进行聚类的)样本数据中，所有样本的平方误差的总和，平方误差总和越小，说明疾病信息组群内样本的相似度越高。

308、在非初始情况下，根据上一次生成的分群结果计算获得K个非初始聚类中心；

本实施例中，在非初始情况下，根据前一次(聚类)生成的分群结果，计算每个分群中包含的样本值的平均值，获得k个非初始聚类中心。

309、计算所述样本数据中各样本分别到各非初始聚类中心的马氏距离，选取所述各样本对应的最小马氏距离，并将各样本划入与所述最小马氏距离对应的非初始聚类中心所在的群，生成新的分群结果；

本实施例中，计算样本数据中各样本(病人)与每一个非初始聚类中心的马氏距离，进一步地，选取每一个样本对应的最小马氏距离，将每一个样本划入与最小马氏距离对应的非初始聚类中心所在的群，生成新的分群结果。比如，有S、F、H、B、P、R、K7个非初始聚类中心，计算样本(病人)m与K各非初始聚类中心之间的马氏距离，对应马氏距离的值为m1,m2,...m7,其中，m2的值最小，则将样本(病人)m划入非初始聚类中心F所在的群，直至将样本数据中所有的样本都划分完毕，生成新的分群结果。其中，对样本数据进行的，每一次聚类，得到的分群结果都是不相同的。

310、基于所述马氏距离，计算获得新的分群结果对应的聚类的平方误差总和；

本实施例中，聚类数据样本的密集程度和类间差异性对聚类效果影响较大，当处理数据的密集程度较高、类与类间差异较大时，聚类效果教好，反之，则较差。聚类算法中，常用平方误差准则，函数公式如下：

其中，Jc(m)表示样本数据中所有样本(病人)的平方误差的总和，Jc(m)越小，越说明组群内相似度越高，Xi表示多维空间中的点(给定的样本(病人))，Zj表示簇Cj的平均值。更新簇(步骤S305)在非初始情况下，根据上一次生成的分群结果计算获得K个非初始聚类中心。更新簇的平均值，其计算公式如下：

311、比较所述首次分群结果对应聚类的平方误差总和与所述新的分群结果对应聚类的平方误差总和，并得到比较结果；

本实施例中，由于初始选择的K个聚类中心的选择具有随机性，很难选到具有代表性的数据记录作为初始聚类中心，因此聚类结果很不稳定，所以要根据初次聚类得到的分群结果，重新计算样本数据中每一个样本与分群结果对应的新的聚类中心的马氏距离，根据这个马氏距离，计算新的分群结果对应聚类的平方误差总和，并对两次聚类对应的平方误差总和(的值)进行比较，值越小，说明分群结果更准确。

本实施例中，循环执行上述迭代计算过程，比较相邻两次聚类的平方误差总和，通过比较相邻两次聚类的平方误差总和，当聚类对应的平方误差总和的值不再发生明显变化，也即，当满足E-E'＜ε时，停止迭代计算，其中，E、E'分别为相邻两次聚类的平方误差总和，值大的为E，值小的为E'，ε代表一个很小的正数。

在本步骤中，因为聚类的平方误差总和是判断一个计算结果误差的方法。而分群本身是一个迭代的过程，因此，本方案想要得到的是一个稳定的分群结果，并把它作为最终的结果。所以，当每次循环迭代得到的值误差足够小(即具有相似性)时，可以认为分群结果足够稳定了。

本实施例中，迭代计算是是数值计算中一类典型方法，应用于方程求根，方程组求解，矩阵求特征值等方面。其基本思想是逐次逼近，先取一个粗糙的近似值，然后用同一个递推公式，反复校正此初值，直至达到预定精度要求为止。

312、基于所述比较结果，选取两次分群结果对应聚类的平方误差总和最小的聚类对应的分群结果作为最终分群结果；

本实施例中，由于平方误差总和越小，越说明组群内相似度越高，所以，在所有聚类获取的分群结果中，对应聚类的平方误差总和的值最小，则说明分群结果越准确，进一步地，平方误差总和的值最小的对应聚类的分群结果就是最终的聚类结果。

313、基于所述分群结果，获取所述样本数据中包含的多个疾病信息组群，并提取所述疾病信息组群的特征；

314、基于所述疾病信息组群的特征，查询预置疾病病症描述库，输出所述疾病信息组群的特征对应的疾病病症描述；

315、获取待匹配的新病人数据，所述新病人数据包含有多种病症特征数据；

316、对所述新病人的各病症特征数据进行向量化处理，得到所述新病人对应的病症特征词向量；

317、基于所述病症特征词向量，计算所述新病人数据与预置病症特征数据库中每一历史病人数据之间的马氏距离；

318、对所述各马氏距离进行排序，获得排序结果；

319、基于所述排序结果，确定所述新病人数据对应匹配的疾病信息组群，其中，所述疾病信息组群分别包含不同的临床结局信息。

上面对本发明实施例中相似患者智能分群方法进行了描述，下面对本发明实施例中相似患者智能分群装置进行描述，请参阅图4，本发明实施例中相似患者智能分群装置一个实施例包括：

第一获取模块401，用于获取待匹配的新病人数据；

第一处理模块402，用于对所述新病人的各病症特征数据进行向量化处理，得到所述新病人对应的病症特征词向量；

第一计算模块403，用于基于所述病症特征词向量，计算所述新病人数据与预置病症特征数据库中每一历史病人数据之间的马氏距离；

排序模块404，用于对所述各马氏距离进行排序，获得排序结果；

确定模块405，用于基于所述排序结果，确定所述新病人数据对应匹配的疾病信息组群，其中，所述疾病信息组群分别包含不同的临床结局信息。

可选的，第一处理模块402还可以具体用于：

本发明实施例中，通过提供一种相似患者智能分群方法，该方法通过获取新病人数据，在判断新病人所属疾病组群时，分别计算新病人数据与各个预置疾病组群中的每一个样本(病人)数据两两之间的马氏距离，根据马氏距离的值，确定新病人数据所属的疾病组群。本方案属于智慧医疗领域，通过本方案能够推动智慧城市的建设，本发明通可以最大程度的利用样本(病人)数据中医生做医疗决策时会考虑到的信息，同时，可以根据马氏距离判断新病人所属疾病组群，根据对应组群的特征等信息协助医生进行决策。提高了判断病人所属组群的效率，提升了医生决策的准确性。

请参阅图5，本发明实施例中相似患者智能分群装置的第二个实施例包括：

第一获取模块501，用于获取待匹配的新病人数据；

第一处理模块502，用于对所述新病人的各病症特征数据进行向量化处理，得到所述新病人对应的病症特征词向量；

第一计算模块503，用于基于所述病症特征词向量，计算所述新病人数据与预置病症特征数据库中每一历史病人数据之间的马氏距离；

排序模块504，用于对所述各马氏距离进行排序，获得排序结果；

确定模块505，用于基于所述排序结果，确定所述新病人数据对应匹配的疾病信息组群；

第二获取模块506，用于获取包含结局变量的样本数据；

第二处理模块507，用于基于所述样本数据的类型，对所述样本数据进行预处理，得到离散化词向量；

第二计算模块508，用于基于所述离散化词向量，分别计算所述样本数据中各样本两两之间的马氏距离；

聚类模块509，用于基于所述样本数据中各样本两两之间的马氏距离，对所述样本数据进行聚类，得到分群结果；

提取模块510，用于基于所述分群结果，获取所述样本数据中包含的多个疾病信息组群，并提取所述疾病信息组群的特征；

查询模块511，用于基于所述疾病信息组群的特征，查询预置疾病病症描述库，输出所述疾病信息组群的特征对应的疾病病症描述。

可选的，第一处理模块502还可以具体用于：

可选的，聚类模块509可以具体用于：

设定分群个数为k，随机选取k个样本作为初始聚类中心，分别计算所述样本数据中各样本到每一个聚类中心的马氏距离，基于所述各样本到每一个聚类中心的马氏距离，选取各样本对应的最小马氏距离，将各样本划入与最小马氏距离对应的聚类中心所在组群中，直至将所述样本数据中的所有样本划分完毕，得到首次分群结果；

可选的，聚类模块509还可以具体用于：

根据所述马氏距离，计算首次分群结果对应聚类的平方误差总和，在非初始情况下，根据上一次生成的分群结果计算获得K个非初始聚类中心，计算所述样本数据中各样本分别到各非初始聚类中心的马氏距离，选取所述各样本对应的最小马氏距离，并将各样本划入与所述最小马氏距离对应的非初始聚类中心所在的群，生成新的分群结果；

可选的，聚类模块509还可以具体用于：

基于所述马氏距离，计算获得新的分群结果对应的聚类的平方误差总和，比较所述首次分群结果对应聚类的平方误差总和与所述新的分群结果对应聚类的平方误差总和，并得到比较结果，基于所述比较结果，选取两次分群结果对应聚类的平方误差总和最小的聚类对应的分群结果作为最终分群结果。

上面图4和图5从模块化功能实体的角度对本发明实施例中的相似患者智能分群装置进行详细描述，下面从硬件处理的角度对本发明实施例中相似患者智能分群设备进行详细描述。

图6是本发明实施例提供的一种相似患者智能分群设备的结构示意图，该相似患者智能分群设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)610(例如，一个或一个以上处理器)和存储器620，一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对相似患者智能分群设备600中的一系列指令操作。更进一步地，处理器610可以设置为与存储介质630通信，在相似患者智能分群设备600上执行存储介质630中的一系列指令操作。

相似患者智能分群设备600还可以包括一个或一个以上电源640，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口660，和/或，一个或一个以上操作系统631，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图6示出的相似患者智能分群设备结构并不构成对相似患者智能分群设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述相似患者智能分群方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种相似患者智能分群方法，其特征在于，所述相似患者智能分群方法包括：

对所述各马氏距离进行排序，获得排序结果；

2.根据权利要求1所述的相似患者智能分群方法，其特征在于，在所述获取待匹配的新病人数据的步骤之前，还包括：

获取包含结局变量的样本数据；

3.根据权利要求1所述的相似患者智能分群方法，其特征在于，所述对所述新病人的各病症特征数据进行向量化处理，得到所述新病人对应的病症特征词向量包括：

获取所述新病人数据的类型；

其中，所述向量化处理包括：

4.根据权利要求2所述的相似患者智能分群方法，其特征在于，所述基于所述样本数据中各样本两两之间的马氏距离，对所述样本数据进行聚类，得到分群结果包括：

设定分群个数为k，随机选取k个样本作为初始聚类中心；

5.根据权利要求4所述的相似患者智能分群方法，其特征在于，在所述将各样本划入与最小马氏距离对应的聚类中心所在组群中，直至将所述样本数据中的所有样本划分完毕，得到首次分群结果的步骤之后，还包括：

6.根据权利要求5所述的相似患者智能分群方法，其特征在于，在所述计算所述样本数据中各样本分别到各非初始聚类中心的马氏距离，选取所述各样本对应的最小马氏距离，并将各样本划入与所述最小马氏距离对应的非初始聚类中心所在的群，生成新的分群结果的步骤之后，还包括：

7.一种相似患者智能分群装置，其特征在于，所述相似患者智能分群装置包括：

8.根据权利要求7所述的相似患者智能分群装置，其特征在于，所述相似患者智能分群装置，还包括：

样本数据获取模块，用于获取包含结局变量的样本数据；

9.一种相似患者智能分群设备，其特征在于，所述相似患者智能分群设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述相似患者智能分群设备执行如权利要求1-6中任意一项所述的相似患者智能分群方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述相似患者智能分群方法。