CN112382398B

CN112382398B - 多尺度临床路径挖掘方法、装置、计算机设备及存储介质

Info

Publication number: CN112382398B
Application number: CN202011260888.4A
Authority: CN
Inventors: 蒋雪涵; 唐蕊; 孙行智
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2022-08-30
Anticipated expiration: 2040-11-12
Also published as: WO2021204038A1; CN112382398A

Abstract

本发明公开了多尺度临床路径挖掘方法、装置、计算机设备及存储介质，其中，方法包括：将多个用户每天所使用的项目使用数据转换为项目使用矩阵，并将所述项目使用矩阵记为m*n，m表示所有所述用户的所有住院天数的加和，n表示所有项目的数量，所述项目使用矩阵中的每一行代表一个用户在一天中所使用的项目；将所述项目使用矩阵中的每一行作为用户·天，并根据各所述用户·天之间的相似度对相似的用户·天进行聚类；使用聚类的核心对各所述用户的就医路径进行表示，并将各所述用户的就医路径进行序列化表示，然后从中挖掘出频繁序列，并将所述频繁序列作为主要临床路径。本发明能更好的反应临床的实际操作的合理性和多变性。

Description

多尺度临床路径挖掘方法、装置、计算机设备及存储介质

技术领域

本发明涉及数据挖掘领域，特别涉及多尺度临床路径挖掘方法、装置、计算机设备及存储介质。

背景技术

随着医疗信息化程度的提高，电子病历逐渐取代了纸质病历，利用数据分析和人工智能的方法从中挖掘潜在的医学信息已成为一种趋势。如何从患者的时序就医数据中理解患者的就医行为，对于归纳患者主要临床路径、提取时序临床规则并进行质控至关重要。

规范患者的就医行为并进行质控的方案之一就是临床路径。临床路径是一种医疗服务管理的模式，通过对某种疾病或重大手术制定程序化和标准化的诊疗计划，达到规范医疗行为、减少医疗资源浪费的目的。目前我国已制定上千种的临床路径，然而实际上完全按照已制定的临床路径进行医疗行为质控存在诸多问题，比如临床路径是按照通用的情况制定，并未考虑每个患者的具体情况，因此完全按照临床路径的质控会显得过于严格且无意义。也就是说现有的临床路径挖掘方式不具有灵活性和多变性。

发明内容

本发明的目的是提供多尺度临床路径挖掘方法、装置、计算机设备及存储介质，旨在解决现有的临床路径挖掘方式不具有灵活性和多变性的问题。

第一方面，本发明实施例提供一种多尺度临床路径挖掘方法，其中，包括：

将多个用户每天所使用的项目使用数据转换为项目使用矩阵，并将所述项目使用矩阵记为m*n，m表示所有所述用户的所有住院天数的加和，n表示所有项目的数量，所述项目使用矩阵中的每一行代表一个用户在一天中所使用的项目；

将所述项目使用矩阵中的每一行作为用户·天，并根据各所述用户·天之间的相似度对相似的用户·天进行聚类；

使用聚类的核心对各所述用户的就医路径进行表示，并将各所述用户的就医路径进行序列化表示，然后从中挖掘出频繁序列，并将所述频繁序列作为主要临床路径。

第二方面，本发明实施例提供一种多尺度临床路径挖掘装置，其中，包括：

转换单元，用于将多个用户每天所使用的项目使用数据转换为项目使用矩阵，并将所述项目使用矩阵记为m*n，m表示所有所述用户的所有住院天数的加和，n表示所有项目的数量，所述项目使用矩阵中的每一行代表一个用户在一天中所使用的项目；

聚类单元，用于将所述项目使用矩阵中的每一行作为用户·天，并根据各所述用户·天之间的相似度对相似的用户·天进行聚类；

挖掘单元，用于使用聚类的核心对各所述用户的就医路径进行表示，并将各所述用户的就医路径进行序列化表示，然后从中挖掘出频繁序列，并将所述频繁序列作为主要临床路径。

第三方面，本发明实施例提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如第一方面所述的多尺度临床路径挖掘方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如第一方面所述的多尺度临床路径挖掘方法。

本发明实施例提供了多尺度临床路径挖掘方法、装置、计算机设备及存储介质，其中，方法包括：将多个用户每天所使用的项目使用数据转换为项目使用矩阵，并将所述项目使用矩阵记为m*n，m表示所有所述用户的所有住院天数的加和，n表示所有项目的数量，所述项目使用矩阵中的每一行代表一个用户在一天中所使用的项目；将所述项目使用矩阵中的每一行作为用户·天，并根据各所述用户·天之间的相似度对相似的用户·天进行聚类；使用聚类的核心对各所述用户的就医路径进行表示，并将各所述用户的就医路径进行序列化表示，然后从中挖掘出频繁序列，并将所述频繁序列作为主要临床路径。本发明实施例可以实现对时序临床数据的模式挖掘，从数据中得到真实的临床路径，能更好的反应临床的实际操作的合理性和多变性，且通过序列化表示解决了无序项集过多带来的时间和空间复杂度高的问题。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的多尺度临床路径挖掘方法的流程示意图；

图2为本发明实施例提供的多尺度临床路径挖掘方法的子流程示意图；

图3为本发明实施例提供的多尺度临床路径挖掘方法的又一子流程示意图；

图4为本发明实施例提供的多尺度临床路径挖掘方法的又一子流程示意图；

图5为本发明实施例提供的多尺度临床路径挖掘方法的又一子流程示意图；

图6为本发明实施例提供的多尺度临床路径挖掘方法的又一子流程示意图；

图7为本发明实施例提供的多尺度临床路径挖掘装置的示意性框图；

图8为本发明实施例提供的多尺度临床路径挖掘装置的子单元示意性框图；

图9为本发明实施例提供的多尺度临床路径挖掘装置的又一子单元示意性框图；

图10为本发明实施例提供的多尺度临床路径挖掘装置的又一子单元示意性框图；

图11为本发明实施例提供的多尺度临床路径挖掘装置的又一子单元示意性框图；

图12为本发明实施例提供的多尺度临床路径挖掘装置的又一子单元示意性框图；

图13为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的一种多尺度临床路径挖掘方法的流程示意图，包括步骤S101～S103：

S101、将多个用户每天所使用的项目使用数据转换为项目使用矩阵，并将所述项目使用矩阵记为m*n，m表示所有所述用户的所有住院天数的加和，n表示所有项目的数量，所述项目使用矩阵中的每一行代表一个用户在一天中所使用的项目；

本步骤中，一个用户在每一天(即每一住院天)所使用的项目可能有重复的，可能有不重复的，为了对每个用户的项目使用数据统一规格，需将其转换为项目使用矩阵。

在一实施例中，如图2所示，所述S101包括步骤S201～S203：

S201、预先构建项目使用矩阵，其中，所述项目使用矩阵的行数为m，列数为n；

其中的m即表示所有所述用户的所有住院天数的加和，例如用户a的住院天数为m1，用户b的住院天数为m2，用户s的住院天数为ms，那么m＝m1+m2+...+ms。n表示所有项目的数量，需注意的是，此处的n不包含重复的项目，即n中的每一个项目均为唯一的。例如，假设目前用户3个用户a、用户b和用户c，用户a在其所有住院天数中所使用的项目为n1、n2、n3、n4和n5，用户b在其所有住院天数中所使用的项目为n1、n3、n5、n7和n8，用户c在其所有住院天数中所使用的项目为n4、n6、n7、n9和n10，那么n为10，这个10代表n1、n2、n3、n4、n5、n6、n7、n8、n9、n10这10个项目。当然，也可以事先获取医院所有项目的数量，并以该数量作为n，采样这种方式时，则有可能对于n中的某个项目，所有用户均未使用。

S202、获取每一用户在每一天所使用的项目；

每一用户在每一天所使用的项目表示每个用户在住院期间每天支出的项目，每个用户在每一天所使用的项目都可以用一个有序的序列表示：<{项目a，项目b，项目c，…},{项目b,项目d，…},…>，其中“<…>”中表示的元素是有顺序的，“<…>”的长度即用户住院的天数，“{…}”中表示的元素是没有顺序的，医院所有收费项目的集合是S，则“{…}”表示的是S的子集；

S203、根据每一用户在每一天所使用的项目对所述项目使用矩阵的各行元素进行填充。

所述项目使用矩阵的每一行表示某用户某天住院中项目的使用情况，所述项目使用矩阵的每列表示某项目在不同的用户·天的使用情况，所述项目使用矩阵中的元素可以为0或1，0表示项目在对应的用户·天未使用，1表示项目在对应的用户·天使用。

其中“用户·天”表示所述项目使用矩阵中“某一个用户某一天”，在所述项目使用矩阵中，可以先按照用户的顺序依次排列，针对具体的某一用户则按照天的顺序依次排列。即第一行是第一个用户第一天的项目使用情况，第二行是第一个用户第二天的项目使用情况，以此类推，例如第一个用户共有10天住院，那么第十行就代表第一个用户第十天的项目使用情况，第十一行就代表第二个用户第一天的项目使用情况，第十二行就代表第二个用户第二天的项目使用情况，各个用户的住院天数可能有所不同。

S102、将所述项目使用矩阵中的每一行作为用户·天，并根据各所述用户·天之间的相似度对相似的用户·天进行聚类；

本步骤是对项目使用矩阵中的每一个用户·天进行聚类，本发明实施例提供了两种方式对用户·天进行计算聚类。下面先对第一种方式进行说明。

在一实施例中，如图3所示，所述S102包括步骤S301～S302：

S301、根据所述项目使用矩阵计算各所述用户·天之间的相似度，根据各所述用户·天之间的相似度，构建得到各所述用户·天的距离矩阵，并将所述距离矩阵记为m*m；

S302、根据所述距离矩阵对相似的用户·天进行聚类。

本实施例中，依据所述项目使用矩阵中各用户·天的数据计算各用户·天的相似度，并根据相似度来构建距离矩阵，然后根据距离矩阵来进行聚类。

在一实施例中，如图4所示，所述S301包括步骤S401～S403：

S401、从所述项目使用矩阵中抽取每一行的数据；

此步骤就是从项目使用矩阵中抽取每一行的数据，每一行的数据就代表了某个用户在某一天的项目使用情况，例如为{1，0，0，1，0，...，0}。其中的1代表使用了该用户在这一天使用了对应的项目，其中的0代表了该用户在这一天未使用对应的项目。

S402、按顺序计算每一行的数据与所有行的数据之间的相似度；

例如，某一行的数据为{1，0，0，1，0，...，0}，另外一行的数据为{0，0，1，0，0，...，1}，那么可以计算出这两行的数据之间的相似度。按此方法可以计算出每一行的数据与所有行的数据之间的相似度，为了使后续的距离矩阵更规整，所以其中所有行的数据也包括了自身行的数据，即计算出每一行的数据与包括自身行在内的所有行的数据之间的相似度。

另外，本步骤优选按顺序进行相似度的计算，例如先计算第一行的数据与所有行的数据之间的相似度，然后计算出第二行的数据与所有行的数据之间的相似度，以此类推，直至计算出最后一行的数据与所有行的数据之间的相似度。

另外在计算某一行的数据与所有行的数据之间的相似度时，同样是按照顺序进行计算。例如在计算第三行的数据与所有行的数据之间的相似度时，即先计算第三行的数据与第一行的数据之间的相似度，然后计算第三行的数据与第二行的数据之间的相似度，再计算第三行的数据与第三行的数据之间的相似度，再计算第三行的数据与第四行的数据之间的相似度，以此类推，直至计算第三行的数据与最后一行的数据之间的相似度。

本发明实施例中，可以使用jaccard(杰卡德系数)距离计算相似度，其计算公式如下：

其中|·|表示·的长度，S_i表示第i个用户·天使用的项目集合(其中的i并非表示第i个用户，而是表示第i行的数据)，S_j表示第j用户·天使用的项目集合(其中的j并非表示第j个用户，而是表示第j行的数据)。

S403、将所述计算出的相似度按顺序进行排列，构建得到所述距离矩阵，并将所述距离矩阵记为m*m，其中，所述距离矩阵的第i行第j列元素d_ij表示第i个用户·天和第j个用户·天的距离。

此步骤中，将前面计算出的相似度按顺序插入到矩阵中，从而构建出距离矩阵。所述距离矩阵的排列形式可以是：第一行的元素表示项目使用矩阵中第一行的数据依次与所有行的数据之间的相似度，即所述距离矩阵中第一行第一列的元素表示项目使用矩阵中第一行的数据与第一行的数据之间的相似度，所述距离矩阵中第一行第二列的元素表示项目使用矩阵中第一行的数据与第二行的数据之间的相似度...所述距离矩阵中第一行第m列的元素表示项目使用矩阵中第一行的数据与最后一行的数据之间的相似度。第二行的元素表示项目使用矩阵中第二行的数据依次与所有行的数据之间的相似度，以此类推，最后一行表示项目使用矩阵中最后一行的数据依次与所有行的数据之间的相似度。

在一实施例中，所述S302包括：

使用层次聚类的方式将所述距离矩阵中最近的两个元素聚为一类，并遍历全部元素，实现全局的聚类。

本步骤是对相似的用户·天进行聚类，即根据使用项目的相似度，将不同的用户·天进行聚类。聚类的方式可以采用层次聚类。通过聚类可以获取距离矩阵中哪些元素更为相似，可以归为一类。

由于距离矩阵中的元素表示了项目使用矩阵中不同行的数据之间的相似度，即不同的用户·天的相似度，所以对距离矩阵中的元素进行聚类，实际上也实现了对项目使用矩阵中用户·天的聚类，也即将项目使用矩阵中每一行的数据进行聚类。原有的项目使用矩阵中，一共有m个用户·天，经过聚类，假设共得到x个类别，那么一共得到x类的用户·天，其中m大于x，实际情况可能是m远大于x。

除了采用上述距离矩阵的方法来计算相似度，并进行聚类的方法之外，本发明实施例还提供第二种方式进行计算聚类，即应用语言模型对每天的项目进行表示学习。这样做的好处是，可将高维稀疏矩阵降维到低维稠密矩阵，不仅可提高方法的性能，还可以对每个用户·天进行更为精确的表示，从而获得更好的聚类效果。

在一实施例中，如图5所示，所述S102包括步骤S501～S504：

S501、获取每一所述用户·天中所使用的项目，并将获取到的项目作为单词；

S502、通过基于词向量的表示学习对每一所述用户·天中的所有单词进行向量表示，得到对应的单词向量；

S503、通过词频加权的方法对每一所述用户·天中的所有单词的单词向量进行加权，得到每一所述用户·天的句子向量，其中，词频加权的计算公式为：v_day＝dot(V_I,TFIDF)，其中v_day表示所述用户·天的句子向量，V_I表示所述用户·天内各个项目表示的矩阵，其中I为所述用户·天中项目的集合，V_I的每一行表示一个项目的单词向量，dot表示元素的内积运算，TFIDF表示词频文章特异度矩阵；项目i的TFIDF计算公式为：

其中D_i表示包含项目i的用户·天的总数，D表示所有用户·天的总数，A_i表示包含项目i的总用户数量，A表示总用户数量；

S504、根据各所述用户·天的句子向量之间的距离对相似的用户·天进行聚类。

在实际应用语言模型进行表示学习的时候，类比语言模型，可将每个用户·天作为一句话，每天中的每个项目作为一个单词，进行基于句子的表示学习。例如，某用户·天为{项目a，项目b，项目c}，表示该天中发生了“项目a”、“项目b”和“项目c”3个项目；将其转化为句子，即“项目a项目b项目c”，这句话有3个词组成，这三个词分别是“项目a”、“项目b”和“项目c”；然后通过基于词向量的表示学习，得到每个单词的向量表示，得到对应的单词向量，再将一天内所有项目的单词向量进行加权，得到了对应的用户·天的句子向量。最后通过各个句子向量之间的距离对相似的用户·天进行聚类。至于句子向量之间的距离的计算方式，可以采用欧式距离、夹角余弦距离、曼哈顿距离、切比雪夫距离等等，根据计算出的距离即可实现聚类，即将距离小的聚类在一起。本发明实施例中，所述语言模型可以是word2vec，是一种基于某单词邻居窗口内其他单词共现的概率对每个单词进行表示学习的方法。

此外，本发明实施例中，在应用语言模型时，由于在项目使用数据中，每天的项目是没有顺序的，即同一天内所有项目都应该认为是其他项目的邻居，因此在实际应用中，可设定最大滑动时间窗为一天内最多出现的项目个数，从而获得了每个项目的表达，例如“项目a”、“项目b”和“项目c”通过表示学习，分别用V_a、V_b和V_c表示。

另外，本发明实施例是通过词频加权的方法得到句子向量，相较于直接应用所有单词向量平均得到最终的表示，本发明实施例可以提高句子向量表示的准确度，更符合本发明实施例的应用场景。

S103、使用聚类的核心对各所述用户的就医路径进行表示，并将各所述用户的就医路径进行序列化表示，然后从中挖掘出频繁序列，并将所述频繁序列作为主要临床路径。

在一实施例中，如图6所示，所述步骤S103包括S601～S605：

S601、使用不同的数字对每一聚类的核心分别进行表示；

例如使用数字1代表第一类，数字2代表第二类，...，数字x代表第x类。

S602、将每一聚类下的所述用户·天使用对应聚类的核心的数字进行表示；

由于前述步骤中已经将项目使用矩阵中的用户·天进行聚类，所以此时可以直接使用对应数字来表示对应的用户·天，例如第1个用户·天为第一类，那么就只需利用一个数字1表示，第2个用户·天为第三类，那么就只需利用一个数字3表示。

S603、将数字表示后的每一用户·天进行序列化表示，得到就医路径序列；

通过前述步骤，每一用户·天均使用了一个数字来表示，所以此步骤可以按用户·天的顺序进行序列化，也就是按项目使用矩阵中每一行的顺序进行序列化，从而得到就医路径序列。

例如就医路径序列为<c1,c2,…,ci,…>，其中，ci表示第i个用户·天的聚类核心。也就是说，经过聚类，可以使用x类表示用户的就诊路径，即用一个数字表示某个用户的一天，取代了现有技术中使用集合S_i表示用户的一天。

S604、删除所述就医路径序列中连续相同元素且仅保留其中一个，得到简化后的就医路径序列；

例如前述步骤S603得到的就医路径序列为<1,1,1,3,3,3,3,3,6,8,8,9>，那么可以删除其中多余的重复元素，并保留重复元素中的一个，得到简化后的就医路径序列<1,3,6,8,9>。

当然，在得到就医路径序列后，可以不进行简化，那么可以得到每类用户·天持续时间的统计，比如例子“<1,1,1,3,3,3,3,3,6,8,8,9>”中，对应第1类用户·天持续了3天，第3类用户·天持续了5天，这样的统计可以看出每类用户·天一般情况下的持续时长，如通过取95％情况出现的持续时间为阈值，可得到规则如：第e类用户·天持续时间应该小于y天，则实际数据中，若e类用户·天持续时间超过y天，则认为是过度医疗，甚至为骗保的可能性较高。

S605、使用序列挖掘算法从所述就医路径序列中挖掘出频繁序列，并将所述频繁序列作为主要临床路径。

本步骤可以使用prefixspan(前缀投影的模式挖掘)等序列挖掘算法，挖掘出频繁序列。

通过聚类，本发明可以将m个患者·天分为x类的用户·天，并通过分别对每类的用户·天进行挖掘，从而理解该类用户·天具体的行为是什么；再将对该类用户·天的理解映射到频繁序列中，得到对频繁序列的理解，这样的频繁序列即从数据中挖掘得到的主要临床路径。

以某大型手术为例，首先得到了做了该手术的所有用户每天使用项目的数据，按照用户·天进行聚类后，得到了5类聚类核心，用a/b/c/d/e表示，将这5类聚类核心映射回用户的就医路径序列中，对用户的就医路径序列进行简化并从中挖掘出频繁序列，得到了符合要求的频繁序列为ab、bde、ae；其次分别对属于这5类聚类核心的用户·天进行频繁集挖掘，比如a类用户·天中频繁出现的项目为：住院诊查费、血常规、尿检、凝血功能检查，b类用户·天中频繁出现的项目为：呼吸机、麻醉费、纱布、手术费、输血费等，d类用户·天中频繁出现的项目为：营养输液、血常规、尿检、C反应蛋白测定等，e类用户·天中频繁出现的项目为：康复训练、抗生素等，可以分别将a/b/d/e理解为手术前准备事项/手术中/术后检查/术后康复，从而映射回挖掘得到的频繁序列ab就表示：先进行术前准备，之后做手术；ae表示先进行术前准备，之后是术后康复等。通过这样的分析，可以从数据中得到主要的临床路径，并对每个用户的就诊轨迹进行基本的解读。本发明实施例可以以用户·天为尺度，对频繁序列进行分析，其次在每类用户·天中进行频繁项目的挖掘，得到了对每类用户·天的理解，再映射回用户的频繁序列中，进而得到全方位的理解。

基于上面分析，还可以得到时序关联规则。即通过得到的主要临床路径，获得了用户就诊的时序关系，即某类用户·天必须发生在另外一类用户·天之前；另外通过对每类用户·天的频繁集挖掘，可以得到每类天中频繁出现的项目，则结合起来，就可以得到如“在a类患者·天中频繁出现的项目1必须出现在b类患者·天中频繁出现的项目2”这样的时序关联规则。例如，在某大型手术中，可以得到“术前做凝血功能检查必须发生在术中输血之前”这样的规则，并将其应用于实际的质控中。比如患者发生了术中的输血，那么在术前一定要做上述检查。

在实际场景中，单个的用户·天的数据已经非常复杂，而各个用户·天之间是有序的排列，而每用户·天之内的数据则是无序的排列。采用现有的频繁序列挖掘的方法，所需要的计算量非常大。本发明实施例则解决了含有多个项集的序列模式挖掘的问题，本发明实施例根据每一行(在业务场景中一行数据对应的是一个用户在一天中的使用项目)出现的项集，对所有用户的所有用户·天进行聚类，聚类之后，用每一类的类别编号表示这一用户·天，这样就将每一行用一个数字代替，从而一次住院就可以用类别编号的序列表示，可快速实现对频繁序列的挖掘。

由此，本提案提出的多尺度临床路径挖掘的方案，核心是通过对住院天进行分类，不仅从住院数据中挖掘出频繁路径，也可以挖掘出每类天的频繁项集；这是直接应用现有的模式挖掘技术所不能实现。

请参阅图7，图7为本发明实施例一种多尺度临床路径挖掘装置的示意性框图，所述多尺度临床路径挖掘装置700包括：

转换单元701，用于将多个用户每天所使用的项目使用数据转换为项目使用矩阵，并将所述项目使用矩阵记为m*n，m表示所有所述用户的所有住院天数的加和，n表示所有项目的数量，所述项目使用矩阵中的每一行代表一个用户在一天中所使用的项目；

聚类单元702，用于将所述项目使用矩阵中的每一行作为用户·天，并根据各所述用户·天之间的相似度对相似的用户·天进行聚类；

挖掘单元703，用于使用聚类的核心对各所述用户的就医路径进行表示，并将各所述用户的就医路径进行序列化表示，然后从中挖掘出频繁序列，并将所述频繁序列作为主要临床路径。

在一实施例中，如图8所示，所述转换单元701包括：

项目使用矩阵构建单元801，用于预先构建项目使用矩阵，其中，所述项目使用矩阵的行数为m，列数为n；

获取单元802，用于获取每一用户在每一天所使用的项目；

填充单元803，用于根据每一用户在每一天所使用的项目对所述项目使用矩阵的各行元素进行填充。

在一实施例中，如图9所示，所述聚类单元702包括：

距离矩阵构建单元901，用于根据所述项目使用矩阵计算各所述用户·天之间的相似度，根据各所述用户·天之间的相似度，构建得到各所述用户·天的距离矩阵，并将所述距离矩阵记为m*m；

距离矩阵聚类单元902，用于根据所述距离矩阵对相似的用户·天进行聚类。

在一实施例中，如图10所示，所述距离矩阵构建单元901包括：

抽取单元1001，用于从所述项目使用矩阵中抽取每一行的数据；

相似度计算单元1002，用于按顺序计算每一行的数据与所有行的数据之间的相似度；

排列单元1003，用于将所述计算出的相似度按顺序进行排列，构建得到所述距离矩阵，并将所述距离矩阵记为m*m，其中，所述距离矩阵的第i行第j列元素d_ij表示第i个用户·天和第j个用户·天的距离。

在一实施例中，所述距离矩阵聚类单元902包括：

层次聚类单元，用于使用层次聚类的方式将所述距离矩阵中最近的两个元素聚为一类，并遍历全部元素，实现全局的聚类。

在一实施例中，如图11所示，所述聚类单元702包括：

单词提取单元1101，用于获取每一所述用户·天中所使用的项目，并将获取到的项目作为单词；

单词向量表示单元1102，用于通过基于词向量的表示学习对每一所述用户·天中的所有单词进行向量表示，得到对应的单词向量；

词频加权单元1103，用于通过词频加权的方法对每一所述用户·天中的所有单词的单词向量进行加权，得到每一所述用户·天的句子向量，其中，词频加权的计算公式为：v_day＝dot(V_I,TFIDF)，其中v_day表示所述用户·天的句子向量，V_I表示所述用户·天内各个项目表示的矩阵，其中I为所述用户·天中项目的集合，V_I的每一行表示一个项目的单词向量，dot表示元素的内积运算，TFIDF表示词频文章特异度矩阵；项目i的TFIDF计算公式为：

距离聚类单元1104，用于根据各所述用户·天的句子向量之间的距离对相似的用户·天进行聚类。

在一实施例中，如图12所示，所述挖掘单元703包括：

核心表示单元1201，用于使用不同的数字对每一聚类的核心分别进行表示；

数字表示单元1202，用于将每一聚类下的所述用户·天使用对应聚类的核心的数字进行表示；

序列化表示单元1203，用于将数字表示后的每一用户·天进行序列化表示，得到就医路径序列；

简化单元1204，用于删除所述就医路径序列中连续相同元素且仅保留其中一个，得到简化后的就医路径序列；

序列挖掘单元1205，用于使用序列挖掘算法从所述就医路径序列中挖掘出频繁序列，并将所述频繁序列作为主要临床路径。

上述装置实施例的具体内容与上述方法实施例的具体内容一一对应，关于上述装置实施例的具体实施细节可参考方法实施例的描述，此处不再赘述。

本发明实施例提供的装置，可以实现对时序临床数据的模式挖掘，从数据中得到真实的临床路径，能更好的反应临床的实际操作的合理性和多变性，且通过序列化表示解决了无序项集过多带来的时间和空间复杂度高的问题。

上述多尺度临床路径挖掘装置700可以实现为计算机程序的形式，该计算机程序可以在如图13所示的计算机设备上运行。

请参阅图13，图13是本发明实施例提供的计算机设备的示意性框图。该计算机设备1300是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图13，该计算机设备1300包括通过系统总线1301连接的处理器1302、存储器和网络接口1305，其中，存储器可以包括非易失性存储介质1303和内存储器1304。

该非易失性存储介质1303可存储操作系统13031和计算机程序13032。该计算机程序13032被执行时，可使得处理器1302执行多尺度临床路径挖掘方法。

该处理器1302用于提供计算和控制能力，支撑整个计算机设备1300的运行。

该内存储器1304为非易失性存储介质1303中的计算机程序13032的运行提供环境，该计算机程序13032被处理器1302执行时，可使得处理器1302执行多尺度临床路径挖掘方法。

该网络接口1305用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图13中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备1300的限定，具体的计算机设备1300可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器1302用于运行存储在存储器中的计算机程序13032，以实现如下功能：将多个用户每天所使用的项目使用数据转换为项目使用矩阵，并将所述项目使用矩阵记为m*n，m表示所有所述用户的所有住院天数的加和，n表示所有项目的数量，所述项目使用矩阵中的每一行代表一个用户在一天中所使用的项目；将所述项目使用矩阵中的每一行作为用户·天，并根据各所述用户·天之间的相似度对相似的用户·天进行聚类；使用聚类的核心对各所述用户的就医路径进行表示，并将各所述用户的就医路径进行序列化表示，然后从中挖掘出频繁序列，并将所述频繁序列作为主要临床路径。

本领域技术人员可以理解，图13中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图13所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器1302可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器1302还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现以下步骤：将多个用户每天所使用的项目使用数据转换为项目使用矩阵，并将所述项目使用矩阵记为m*n，m表示所有所述用户的所有住院天数的加和，n表示所有项目的数量，所述项目使用矩阵中的每一行代表一个用户在一天中所使用的项目；将所述项目使用矩阵中的每一行作为用户·天，并根据各所述用户·天之间的相似度对相似的用户·天进行聚类；使用聚类的核心对各所述用户的就医路径进行表示，并将各所述用户的就医路径进行序列化表示，然后从中挖掘出频繁序列，并将所述频繁序列作为主要临床路径。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种多尺度临床路径挖掘方法，其特征在于，包括：

使用聚类的核心对各所述用户的就医路径进行表示，并将各所述用户的就医路径进行序列化表示，然后从中挖掘出频繁序列，并将所述频繁序列作为主要临床路径；

所述将所述项目使用矩阵中的每一行作为用户·天，并根据各所述用户·天之间的相似度对相似的用户·天进行聚类，包括：

获取每一所述用户·天中所使用的项目，并将获取到的项目作为单词；

通过基于词向量的表示学习对每一所述用户·天中的所有单词进行向量表示，得到对应的单词向量；

通过词频加权的方法对每一所述用户·天中的所有单词的单词向量进行加权，得到每一所述用户·天的句子向量，其中，词频加权的计算公式为：v_day＝dot(V_I,TFIDF)，其中v_day表示所述用户·天的句子向量，V_I表示所述用户·天内各个项目表示的矩阵，其中I为所述用户·天中项目的集合，V_I的每一行表示一个项目的单词向量，dot表示元素的内积运算，TFIDF表示词频文章特异度矩阵；项目i的TFIDF计算公式为：

根据各所述用户·天的句子向量之间的距离对相似的用户·天进行聚类；

所述使用聚类的核心对各所述用户的就医路径进行表示，并将各所述用户的就医路径进行序列化表示，然后从中挖掘出频繁序列，并将所述频繁序列作为主要临床路径，包括：

使用不同的数字对每一聚类的核心分别进行表示；

将每一聚类下的所述用户·天使用对应聚类的核心的数字进行表示；

将数字表示后的每一用户·天进行序列化表示，得到就医路径序列；

删除所述就医路径序列中连续相同元素且仅保留其中一个，得到简化后的就医路径序列；

使用序列挖掘算法从所述就医路径序列中挖掘出频繁序列，并将所述频繁序列作为主要临床路径。

2.根据权利要求1所述的多尺度临床路径挖掘方法，其特征在于，所述将多个用户每天所使用的项目使用数据转换为项目使用矩阵，并将所述项目使用矩阵记为m*n，包括：

预先构建项目使用矩阵，其中，所述项目使用矩阵的行数为m，列数为n；

获取每一用户在每一天所使用的项目；

根据每一用户在每一天所使用的项目对所述项目使用矩阵的各行元素进行填充。

3.一种多尺度临床路径挖掘装置，其特征在于，包括：

挖掘单元，用于使用聚类的核心对各所述用户的就医路径进行表示，并将各所述用户的就医路径进行序列化表示，然后从中挖掘出频繁序列，并将所述频繁序列作为主要临床路径；

所述聚类单元包括：

单词提取单元，用于获取每一所述用户·天中所使用的项目，并将获取到的项目作为单词；

单词向量表示单元，用于通过基于词向量的表示学习对每一所述用户·天中的所有单词进行向量表示，得到对应的单词向量；

词频加权单元，用于通过词频加权的方法对每一所述用户·天中的所有单词的单词向量进行加权，得到每一所述用户·天的句子向量，其中，词频加权的计算公式为：v_day＝dot(V_I,TFIDF)，其中v_day表示所述用户·天的句子向量，V_I表示所述用户·天内各个项目表示的矩阵，其中I为所述用户·天中项目的集合，V_I的每一行表示一个项目的单词向量，dot表示元素的内积运算，TFIDF表示词频文章特异度矩阵；项目i的TFIDF计算公式为：

距离聚类单元，用于根据各所述用户·天的句子向量之间的距离对相似的用户·天进行聚类；

所述挖掘单元包括：

核心表示单元，用于使用不同的数字对每一聚类的核心分别进行表示；

数字表示单元，用于将每一聚类下的所述用户·天使用对应聚类的核心的数字进行表示；

序列化表示单元，用于将数字表示后的每一用户·天进行序列化表示，得到就医路径序列；

简化单元，用于删除所述就医路径序列中连续相同元素且仅保留其中一个，得到简化后的就医路径序列；

序列挖掘单元，用于使用序列挖掘算法从所述就医路径序列中挖掘出频繁序列，并将所述频繁序列作为主要临床路径。

4.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至2中任一项所述的多尺度临床路径挖掘方法。

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至2任一项所述的多尺度临床路径挖掘方法。