CN114418008A

CN114418008A - 就医行为识别方法、装置、终端设备及存储介质

Info

Publication number: CN114418008A
Application number: CN202210072616.4A
Authority: CN
Inventors: 宋威; 耿万里; 张雯; 杨志专
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Shenzhen Ping An Smart Healthcare Technology Co ltd
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2022-04-29
Anticipated expiration: 2042-01-21
Also published as: CN114418008B

Abstract

本申请适用于人工智能技术领域，提供了一种就医行为识别方法、装置、终端设备及存储介质，通过对患者的时序就医数据分层级进行频繁模式挖掘，用挖掘得到的频繁模式表示患者的单次就医行为，实现对患者的单次就医行为的简化；同时，为了减少潜在的相似频繁模式，对频繁模式进行聚类，用聚类后的代表模式表示患者的单次就医行为，以实现对患者的单次就医行为的进一步简化，降低了患者的就医行为模式的复杂度，从而在对患者的多次就医行为进行时序关联规则挖掘时，可以有效降低计算量、提高挖掘效率，有效缩短完成时序关联规则挖掘所需的时间，进而可以基于时序关联规则快速、准确的识别患者的就医行为是否异常。

Description

就医行为识别方法、装置、终端设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种就医行为识别方法、装置、终端设备及存储介质。

背景技术

随着人口老龄化和慢性病患者数量的增多，越来越多的患者会发生周期性的医疗行为，理解患者多次就医的行为模式，对于发现异常的医疗行为和医保控费具有至关重要的意义。异常医疗行为的发现往往是基于规则的方法，需要从就医数据中挖掘出正常的行为模式，若违反该行为模式，就可判定为异常就医行为。比如，发现规则“第t周进行唐氏筛查，则第t+28周之前会进行生产手术”，如果患者违反了该条规则，则存在可疑风险。类似这样的时序关联规则可以通过如序列模式挖掘(prefixspan)这样成熟的算法进行挖掘，但在医保控费中，由于存在的候选项目过多，且这类时序关联的规则往往涉及到多次就医行为，如果把每次就医的所有花费项目直接输入已有的时序关联规则算法中，由于计算量过大(例如，有1000个花费项目，两次就医，则总共的候选项目有2¹⁰⁰¹个)，根本无法完成运算。

发明内容

有鉴于此，本申请实施例提供了一种就医行为识别方法、装置、终端设备及存储介质，以解决现有的直接把每次就医的所有花费项目直接输入时序关联规则算法中进行挖掘的方式，会产生计算量过大、无法完成运算的问题。

本申请实施例的第一方面提供了一种就医行为识别方法，包括：

获取至少一个患者的时序就医数据，每个时序就医数据包括一个患者在所有就医时间下的诊断结果、花费类别和花费项；

对所有时序就医数据中同一类诊断结果和同一类花费类别的花费项进行频繁项集挖掘、聚类和映射，以将每个时序就医数据中每个花费类别的花费项简化为一个频繁项集；

对每个时序就医数据中同一就医时间下的同一类诊断结果的所有类花费类别进行频繁模式挖掘、聚类和映射，以将每个时序就医数据中每个就医时间下的同一类诊断结果的所有类花费类别简化为一个频繁模式；

将每个时序就医数据中所有就医时间下的每一类诊断结果的频繁模式，作为一个目标时序就医数据；

对每个目标时序就医数据进行时序关联规则挖掘，获得每个目标时序就医数据中所有类诊断结果的频繁模式之间的时序关联规则；

根据每个时序关联规则，识别相应患者的就医行为是否异常。

本申请实施例的第二方面提供了一种就医行为识别装置，包括：

数据获取单元，用于获取至少一个患者的时序就医数据，每个时序就医数据包括一个患者在所有就医时间下的诊断结果、花费类别和花费项；

频繁项集挖掘单元，用于对所有时序就医数据中同一类诊断结果和同一类花费类别的花费项进行频繁项集挖掘、聚类和映射，以将每个时序就医数据中每个花费类别的花费项简化为一个频繁项集；

频繁模式挖掘单元，用于对每个时序就医数据中同一就医时间下的同一类诊断结果的所有类花费类别进行频繁模式挖掘、聚类和映射，以将每个时序就医数据中每个就医时间下的同一类诊断结果的所有类花费类别简化为一个频繁模式；

数据生成单元，用于将每个时序就医数据中所有就医时间下的每一类诊断结果的频繁模式，作为一个目标时序就医数据；

时序关联规则挖掘单元，用于对每个目标时序就医数据进行时序关联规则挖掘，获得每个目标时序就医数据中所有类诊断结果的频繁模式之间的时序关联规则；

就医行为识别单元，用于根据每个时序关联规则，识别相应患者的就医行为是否异常。

本申请实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在终端设备上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面提供的就医行为识别方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方面提供的就医行为识别方法的步骤。

本申请实施例的第一方面提供的就医行为识别方法，首先，对至少一个患者的时序就医数据中同一类诊断结果和同一类花费类别的花费项进行频繁项集挖掘、聚类和映射，将每个时序就医数据中每个花费类别的花费项简化为一个频繁项集；然后，对每个时序就医数据中同一就医时间下的同一类诊断结果的所有类花费类别进行频繁模式挖掘、聚类和映射，将每个时序就医数据中每个就医时间下的同一类诊断结果的所有类花费类别简化为一个频繁模式，并将每个时序就医数据中所有就医时间下的每一类诊断结果的频繁模式，作为一个目标时序就医数据；再然后，对每个目标时序就医数据进行时序关联规则挖掘，获得每个目标时序就医数据中所有类诊断结果的频繁模式之间的时序关联规则；最后，根据每个时序关联规则，识别相应患者的就医行为是否异常；通过对患者的时序就医数据分层级进行频繁模式挖掘，用挖掘得到的频繁模式表示患者的单次就医行为，实现对患者的单次就医行为的简化；同时，为了减少潜在的相似频繁模式，对频繁模式进行聚类，用聚类后的代表模式表示患者的单次就医行为，以实现对患者的单次就医行为的进一步简化，降低了患者的就医行为模式的复杂度，从而在对患者的多次就医行为进行时序关联规则挖掘时，可以有效降低计算量、提高挖掘效率，有效缩短完成时序关联规则挖掘所需的时间，进而可以基于时序关联规则快速、准确的识别患者的就医行为是否异常。

可以理解的是，上述第二方面至第四方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的就医行为识别方法的第一种流程示意图；

图2是本申请实施例提供的一个患者的时序就医数据的示意图；

图3是本申请实施例提供的三个患者的时序就医数据的示意图；

图4是本申请实施例提供的简化花费项后的三个患者的时序就医数据的示意图；

图5是本申请实施例提供的简化花费类别后的三个患者的时序就医数据的示意图；

图6是本申请实施例提供的三个患者的目标时序就医数据的示意图；

图7是本申请实施例提供的就医行为识别方法的第二种流程示意图；

图8是本申请实施例提供的就医行为识别方法的第三种流程示意图；

图9是本申请实施例提供的就医行为识别方法的第四种流程示意图；

图10是本申请实施例提供的就医行为识别装置的结构示意图；

图11是本申请实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例提供一种就医行为识别方法，可以由终端设备的处理器在运行相应的计算机程序时执行，通过对患者的时序就医数据分层级进行频繁模式挖掘，用挖掘得到的频繁模式表示患者的单次就医行为，实现对患者的单次就医行为的简化；同时，为了减少潜在的相似频繁模式，对频繁模式进行聚类，用聚类后的代表模式表示患者的单次就医行为，以实现对患者的单次就医行为的进一步简化，降低了患者的就医行为模式的复杂度，从而在对患者的多次就医行为进行时序关联规则挖掘时，可以有效降低计算量、提高挖掘效率，有效缩短完成时序关联规则挖掘所需的时间，进而可以基于时序关联规则快速、准确的识别患者的就医行为是否异常。

本申请实施例提供的就医行为识别方法，可以应用于智慧就医场景中，从而推动智慧城市的建设。

在应用中，终端设备可以是(云)服务器、个人计算机、笔记本电脑等能够实现数据处理功能的计算设备，例如，医疗机构的服务器，该服务器用于运行医疗信息管理系统(Hospital Information System)，就医行为识别方法是该医疗信息管理系统所能实现的功能之一。

在一个实施例中，本申请实施例提供的就医行为识别方法包括如下步骤S101至S106：

S101、获取至少一个患者的时序就医数据，每个时序就医数据包括一个患者在所有就医时间下的诊断结果、花费类别和花费项。

在应用中，可以根据实际需要获取任意数量患者的时序就医数据，例如，在同一医疗机构或不同医疗机构就医的所有或部分患者的时序就医数据、在同一医疗机构的至少一个科室就医的所有或部分患者的时序就医数据。每个时序就医数据都包括一个患者在所有就医时间下的诊断结果、花费类别和花费项。

在应用中，用户可以通过终端设备的人机交互器件输入用于获取任意数量患者的时序就医数据的指令，以使得终端设备响应该指令时获取对应数量患者的时序就医数据，例如，用户可以输入携带有患者的唯一身份标识(Identity Document，ID)的指令，以获取相应患者的时序就医数据；或者，用户也可以通过终端设备的人机交互器件输入用于执行就医行为识别方法的指令，终端设备被配置为在响应用户输入的用于执行就医行为识别方法的指令时，即默认自动获取预设数量患者的时序就医数据，预设数量由用户根据实际需要事先通过终端设备的人机交互器件自定义设置或者采用出厂时的默认设置，例如，预设数量患者可以为预设时间段内就医的所有患者。

在应用中，人机交互器件可以包括但不限于键盘、实体按键、触控传感器、手势识别传感器和语音识别单元中的至少一种，使得用户可以通过对应的触控方式、手势操控方式或语音控制方式操控终端设备。对实体按键的触控方式具体可以是按压或拨动，对触控传感器的触控方式具体可以为按压或触摸等，用于控制终端设备的手势可以由用户根据实际需要自定义设置或者采用出厂时的默认设置。语音识别单元可以包括麦克风和语音识别芯片，用于控制终端设备的语音可以由用户事先通过终端设备的人机交互器件自定义设置或者采用出厂时的默认设置。人机交互器件可以集成设置于终端设备，例如，触控传感器可以与终端设备的显示器集成设置为触控显示器。人机交互器件也可以作为终端设备的外部设备，与终端设备通信连接，例如，键盘和麦克风等可以通过终端设备的通信接口与终端设备通信连接。

如图2所示，示例性的示出了一个患者的时序就医数据的示意图；其中，与患者在三个不同时间的三次就医行为对应的诊断结果分别为疾病1、疾病1和疾病2；第一次就医行为与第二次就医行为之间的时间间隔为Δt₁，第二次就医行为与第三次就医行为之间的时间间隔为Δt₂；第一次就医行为的花费类别包括西药、检验和其他，第一次就医行为的花费项包括检验类别下的甲状腺功能检查、血常规和肿瘤标记物；第二次就医行为的花费类别包括西药、检验、手术和其他，第二次就医行为的花费项包括手术类别下的全胃切除术；第三次就医行为的花费类别包括西药、检验和其他，第三次就医行为的花费项包括西药类别下的二甲双胍和利血平。

如图3所示，示例性的示出了三个患者的时序就医数据的示意图；其中，表格第一栏至第五栏分别为患者ID、就医时间、诊断结果、花费类别和花费项。

在应用中，对于任一患者i，以数据集合的形式来表示其时序就医数据，可以表示为：

其中，<·>表示按照时间顺序排列的患者i的多次就医数据的集合；{·}表示一次就医数据，也即患者i一次就医行为的诊断结果、花费类别和花费项的集合；

表示患者i第j次就医行为的就医时间，

表示患者i第j次就医行为的诊断结果，

表示患者i第j次就医行为的花费项的集合。

在应用中，可以建立每个患者的时序就医数据中各类数据(也即患者ID、就医时间、诊断结果、花费类别和花费项)之间的关联关系，该关联关系具体可以为映射关系，可以以关联关系表的形式存在。关联关系表具体可以是显示查找表(Look-Up-Table，LUT)，也可以通过其他输入数据即可查找并输出对应的查找结果的形式存在，以便进行查询和调用。通过事先建立关联关系，使得在需要查询和调用每个患者的时序关联数据时，仅需根据时序就医数据中的一类数据，即可查询和调用与之关联的其他类数据，从而可以有效节省终端设备的算力资源和执行时间。

S102、对所有时序就医数据中同一类诊断结果和同一类花费类别的花费项进行频繁项集挖掘、聚类和映射，以将每个时序就医数据中每个花费类别的花费项简化为一个频繁项集。

在应用中，在获取到所有患者的时序就医数据之后，针对所有患者的时序就医数据中同一类诊断结果和同一类花费类别的花费项，进行频繁项集挖掘、聚类和映射，以将每个患者的时序就医数据中每个花费类别的花费项的简化为一个频繁项集。

如图4所示，示例性的示出了简化花费项后的三个患者的时序就医数据的示意图；其中，表格第一栏至第五栏分别为患者ID、就医时间、诊断结果、花费类别和花费项，患者0在三个就医时间下的花费项分别被简化为频繁项集1、2、1；患者1在一个就医时间下的花费项分别被简化为频繁项集2；患者2在一个就医时间下的花费项分别被简化为频繁项集1。

S103、对每个时序就医数据中同一就医时间下的同一类诊断结果的所有类花费类别进行频繁模式挖掘、聚类和映射，以将每个时序就医数据中每个就医时间下的同一类诊断结果的所有类花费类别简化为一个频繁模式。

在应用中，在完成对所有患者的时序就医数据中同一类诊断结果和同一类花费类别的花费项的简化之后，针对每个患者的一次就医行为，可以将一次就医行为的所有花费类别的花费项放在一起，进行频繁项集组合的频繁模式挖掘，然后进行聚类和映射，以将每个患者的一次就医行为简化为一个频繁模式。步骤S103中的频繁模式挖掘、聚类和映射与步骤S102中的频繁项集挖掘、聚类和映射类似，此处不再赘述，区别仅在于两个步骤中的挖掘对象(也即原始数据)不同，步骤S102中的挖掘对象为每个患者的时序就医数据中同一类诊断结果和同一类花费类别的花费项，步骤S103中的挖掘对象为每个患者的时序就医数据中同一就医时间下的同一类诊断结果的所有类花费类别。

如图5所示，示例性的示出了简化花费类别后的三个患者的时序就医数据的示意图；其中，表格第一栏至第四栏分别为患者ID、就医时间、诊断结果和就医行为模式，患者0在两个相同就医时间下的同一类花费类别被简化为频繁模式1、患者0在另一个就医时间下的花费类别被简化为频繁模式1；患者1在一个就医时间下的花费类别分别被简化为频繁模式2；患者2在一个就医时间下的花费类别分别被简化为频繁模式1。

S104、将每个时序就医数据中所有就医时间下的每一类诊断结果的频繁模式，作为一个目标时序就医数据。

在应用中，在将每个患者的每次就医行为的同一类诊断结果的所有类花费类别简化为一个频繁模式之后，即可将每个患者在不同时间的多次就医行为的所有类诊断结果的频繁模式表示为目标时序就医数据，该目标时序就医数据是由患者在不同时间的多次就医行对应的多个频繁模式按照时间顺序排列构成的数据集合。

如图6所示，示例性的示出了三个患者的目标时序就医数据的示意图；其中，表格第一栏至第三栏分别为患者ID、就医时间和就医行为，患者0在两个不同就医时间下的每一类诊断结果的频繁模式表示为就医行为：胃恶性肿瘤-频繁模式1、恶性肿瘤术中放疗-频繁模式1；患者1在一个就医时间下的一类诊断结果的频繁模式表示为就医行为：胃恶性肿瘤-频繁模式2；患者2在一个就医时间下的一类诊断结果的频繁模式表示为就医行为：胃恶性肿瘤-频繁模式1。

S105、对每个目标时序就医数据进行时序关联规则挖掘，获得每个目标时序就医数据中所有类诊断结果的频繁模式之间的时序关联规则。

在应用中，针对每个目标时序就医数据，可以采用诸如prefixspan的序列模式挖掘算法进行时序关联规则挖掘，以得到每个目标时序就医数据中所有类诊断结果的多个频繁模式之间的在时序上的关联规则，也即患者的多次就医行为在时序上的关联规则，例如，胃恶性肿瘤-频繁模式1与恶性肿瘤术中放疗-频繁模式1之间的时序关联规则为：胃恶性肿瘤-频繁模式1与恶性肿瘤术中放疗-频繁模式1对应的就医时间之间的间隔时间为90天。

在一个实施例中，步骤S105包括：

通过prefixspan算法，对患者的目标时序就医数据进行时序关联规则挖掘。

S106、根据每个时序关联规则，识别相应患者的就医行为是否异常。

在应用中，根据每个患者的多次就医行为在时序上的关联规则，与基于正常的就医行为获得的关联规则进行比较，即可识别出每个患者的就医行为是否异常，例如，假设正常的胃肿瘤模式1与恶性肿瘤术中放疗模式1之间的关联规则为：胃肿瘤模式1与恶性肿瘤术中放疗模式1对应的就医时间之间的间隔时间为90天；而患者的胃肿瘤模式1与恶性肿瘤术中放疗模式1对应的就医时间之间的间隔时间与90天之间的差值不在预设时间范围(例如，-5天～+5天)内，则可以认为患者的就医行为异常。

如图7所示，在一个实施例中，步骤S102包括如下步骤S201至S204：

S201、对所有时序就医数据中同一类诊断结果和同一类花费类别的花费项进行频繁项集挖掘，获得所述同一类诊断结果和同一类花费类别的所有频繁项集。

在应用中，针对所有患者的时序就医数据中同一类诊断结果和同一类花费类别的花费项，可以采用诸如Apriori的关联规则挖掘算法进行频繁项集挖掘，以获得与所有患者的时序就医数据中同一类诊断结果和同一类花费类别的花费项对应的所有频繁项集，例如，诊断结果为胃癌，花费类别为西药，花费项包括氯化钠、奥沙利铂和葡萄糖的频繁项集1；诊断结果为胃癌，花费类别为西药，花费项包括氯化钠、葡萄糖和地塞米松的频繁项集2。

在一个实施例中，步骤S201包括：

根据Apriori算法，对所有时序就医数据中同一类诊断结果和同一类花费类别的花费项进行频繁项集挖掘。

S202、对所述所有频繁项集进行聚类，获得所述所有频繁项集对应的所有聚类簇；

S203、获取所述所有频繁项集对应的每个聚类簇中支持度最高的核心频繁项集，得到所述同一类诊断结果和同一类花费类别的所有核心频繁项集。

在应用中，在挖掘获得所有频繁项集之后，需要对所有频繁项集进行聚类，因为获得的频繁项集过多且有些频繁项集之间具有高度相似性，例如，针对检验费这一花费类别的频繁项集挖掘，在关于血相分析的花费项中，包含了分析各种血细胞的花费项，导致挖掘出的频繁项集的排列组合数量随花费项的数量指数增加，这些频繁项集之间的差别并不能带来更多的信息，因此，需要对挖掘得到的频繁项集进行聚类，以将每类相似的多个频繁项集用其中一个支持度最高的核心频繁项集代替即可，如此，即可获得所有患者的时序就医数据中同一类诊断结果和同一类花费类别的所有核心频繁项集。

S204、将所述同一类诊断结果和同一类花费类别的每个花费类别的花费项简化为与之匹配度最高的核心频繁项集。

在应用中，在聚类获得所有核心频繁项集之后，分别将每个原始数据(也即所有患者的时序就医数据中同一类诊断结果和同一类花费类别的每个花费类别的花费项)与所有核心频繁项集进行比较，选取与每个原始数据最接近的核心频繁项集表示该原始数据。

如图8所示，在一个实施例中，步骤S202包括如下步骤S301至S303：

步骤S301、对所述所有频繁项集进行编码。

在应用中，可以对所有频繁项集进行独热编码，每个频繁项集对应一行编码，每个编码表示一个具体的花费项是否存在，每个频繁项集对应的一行编码，每行编码中“1”表示该行编码对应的频繁项集中有这个花费项，“0”表示该行编码对应的频繁项集中没有这个花费项。

在一个实施例中，步骤S301包括：

对所述所有频繁项集进行独热编码，1表示相应频繁项集中有对应的花费项，0表示相应频繁项集中无对应的花费项。

步骤S302、根据编码后的所述所有频繁项集，获取所述所有频繁项集中每两个频繁项集之间的相似度。

在应用中，在对所有频繁项集进行独热编码之后，可以采用杰卡德(Jaccard)距离定义任意两个频繁项集之间的相似程度，杰卡德系数又称为杰卡德相似系数，用于比较有限样本集之间的相似性与差异性。杰卡德系数值越大，样本的相似度越高。杰卡德系数定义为给定两个集合A和B，A与B交集的大小与A与B并集的大小的比值，其公式如下：

在一个实施例中，步骤S302包括：

根据独热编码之后的所述所有频繁项集，获取所述所有频繁项集中每两个频繁项集之间的杰卡德系数。

步骤S303、根据所述所有频繁项集中每两个频繁项集之间的相似度，对所述所有频繁项集进行聚类，获得所述所有频繁项集对应的多个聚类簇。

在应用中，在获得所有频繁项集中每两个频繁项集之间的相似度之后，可以采用Kmeans算法对所有频繁项集进行聚类，Kmeans是一种无监督的聚类算法，对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇，使簇内的点紧密的连在一起，而簇间的距离足够大，再从每个簇中选取支持度最高的频繁项集集作为该簇的聚类核心，也即核心频繁项集。聚类后的所有频繁项集共有K个聚类核心，将所有的原始数据，与这K个聚类核心进行比较，选取与原始数据最接近的聚类核心表示该原始数据。

如图9所示，在一个实施例中，步骤S204包括如下步骤S401至S404：

步骤S401、按照支持度的大小对所述同一类诊断结果和同一类花费类别的所有核心频繁项集进行排序；

步骤S402、将所述同一类诊断结果和同一类花费类别的每个花费类别的花费项依次与排序后的所有核心频繁项集进行排序进行匹配；

步骤S403、若任一花费类别的花费项包含任一核心频繁项集中的所有元素，则将所述任一花费类别的花费项简化为所述任一核心频繁项集；

步骤S404、若任一花费类别的花费项未包含任一核心频繁项集，则不简化所述任一花费类别的花费项。

在应用中，可以将所有核心频繁项集按照支持度由高到低的降序或由低到高的升序排列，并依次与原始数据进行比较，如果某个原始数据包含某个频繁项集中的所有元素，这个原始数据被简化为该该频繁项集，否则继续与下一个核心频繁项集进行比较；最终，对于无法匹配任一个核心频繁项集的原始数据，则将该原始数据表示为其所属的花费类别，表示患者此次就医有该花费类别的花费项。至此，即完成了对所有患者的时序就医数据中同一类诊断结果和同一类花费类别的花费项的简化。

在一个实施例中，步骤S105之后，还包括：

将所有时序就医数据、所有频繁项集、所有目标时序就医数据和所有时序关联规则上传至区块链。

在应用中，在获得所有时序就医数据、所有频繁项集、所有目标时序就医数据、所有时序关联规则中的任意数据之后，都可以根据实际需要将这些数据上传至区块链，可保证其安全性和对用户的公正透明性。终端设备可以从区块链中下载这些数据，以便查证这些数据是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本申请实施例还提供一种就医行为识别装置，用于执行上述就医行为识别方法中的步骤。该装置可以是终端设备中的虚拟装置(virtual appliance)，由终端设备的处理器运行，也可以是终端设备本身。

如图10所示，本申请实施例提供的就医行为识别装置100包括：

数据获取单元101，用于获取至少一个患者的时序就医数据，每个时序就医数据包括一个患者在所有就医时间下的诊断结果、花费类别和花费项；

频繁项集挖掘单元102，用于对所有时序就医数据中同一类诊断结果和同一类花费类别的花费项进行频繁项集挖掘、聚类和映射，以将每个时序就医数据中每个花费类别的花费项简化为一个频繁项集；

频繁模式挖掘单元103，用于对每个时序就医数据中同一就医时间下的同一类诊断结果的所有类花费类别进行频繁模式挖掘、聚类和映射，以将每个时序就医数据中每个就医时间下的同一类诊断结果的所有类花费类别简化为一个频繁模式；

数据生成单元104，用于将每个时序就医数据中所有就医时间下的每一类诊断结果的频繁模式，作为一个目标时序就医数据；

时序关联规则挖掘单元105，用于对每个目标时序就医数据进行时序关联规则挖掘，获得每个目标时序就医数据中所有类诊断结果的频繁模式之间的时序关联规则；

就医行为识别单元106，用于根据每个时序关联规则，识别相应患者的就医行为是否异常。

在一个实施例中，就医行为识别装置还包括：

通信单元，用于将所有时序就医数据、所有频繁项集、所有目标时序就医数据和所有时序关联规则上传至区块链。

在应用中，就医行为识别装置中的各单元可以为软件程序单元，也可以通过处理器中集成的不同逻辑电路或与处理器连接的独立物理部件实现，还可以通过多个分布式处理器实现。

如图11所示，本申请实施例还提供一种终端设备200，包括：至少一个处理器201(图11中仅示出一个处理器)、存储器202以及存储在存储器202中并可在至少一个处理器201上运行的计算机程序203，处理器201执行计算机程序203时实现上述各个就医行为识别方法实施例中的步骤。

在应用中，终端设备可包括，但不仅限于，处理器以及存储器，图11仅仅是终端设备的举例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如，输入输出设备、网络接入设备等，还可以包括输入输出设备可以包括上述人机交互器件以及通信模块、显示屏等。

在应用中，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在应用中，存储器在一些实施例中可以是终端设备的内部存储单元，例如终端设备的硬盘或内存。存储器在另一些实施例中也可以是终端设备的外部存储设备，例如，终端设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。存储器还可以既包括终端设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(Boot Loader)、数据以及其他程序等，例如计算机程序的程序代码等。存储器还可以用于暂时存储已经输出或者将要输出的数据。

在应用中，显示屏可以为薄膜晶体管液晶显示屏(Thin Film Transistor LiquidCrystal Display，TFT-LCD)、液晶显示屏(Liquid Crystal Display，LCD)、有机电激光显示屏(Organic Electroluminesence Display，OLED)、量子点发光二极管(Quantum DotLight Emitting Diodes，QLED)显示屏，七段或八段数码管等。

在应用中，通信模块可以提供应用在网络设备上的包括无线局域网(WirelessLocalarea Networks，WLAN)(如Wi-Fi网络)，蓝牙，Zigbee，移动通信网络，全球导航卫星系统(Global Navigation Satellite System，GNSS)，调频(Frequency Modulation，FM)，近距离无线通信技术(Near Field Communication，NFC)，红外技术(Infrared，IR)等通信的解决方案。通信模块可以包括天线，天线可以只有一个阵元，也可以是包括多个阵元的天线阵列。通信模块可以通过天线接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器。通信模块还可以从处理器接收待发送的信号，对其进行调频、放大，经天线转为电磁波辐射出去。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元的划分进行举例说明，实际应用中，可以根据需要将上述功能分配由不同的功能单元完成，即将所述装置的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序被处理器所执行时可实现上述各个就医行为识别方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备可实现上述各个就医行为识别方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到数据采集端或客户端的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种就医行为识别方法，其特征在于，包括：

2.根据权利要求1所述的就医行为识别方法，其特征在于，所述对所有时序就医数据中同一类诊断结果和同一类花费类别的花费项进行频繁项集挖掘、聚类和映射，包括：

对所有时序就医数据中同一类诊断结果和同一类花费类别的花费项进行频繁项集挖掘，获得所述同一类诊断结果和同一类花费类别的所有频繁项集；

对所述所有频繁项集进行聚类，获得所述所有频繁项集对应的所有聚类簇；

获取所述所有频繁项集对应的每个聚类簇中支持度最高的核心频繁项集，得到所述同一类诊断结果和同一类花费类别的所有核心频繁项集；

将所述同一类诊断结果和同一类花费类别的每个花费类别的花费项简化为与之匹配度最高的核心频繁项集。

3.根据权利要求2所述的就医行为识别方法，其特征在于，所述对所述所有频繁项集进行聚类，获得对应的所有聚类簇，包括：

对所述所有频繁项集进行编码；

根据编码后的所述所有频繁项集，获取所述所有频繁项集中每两个频繁项集之间的相似度；

根据所述所有频繁项集中每两个频繁项集之间的相似度，对所述所有频繁项集进行聚类，获得所述所有频繁项集对应的多个聚类簇。

4.根据权利要求3所述的就医行为识别方法，其特征在于，所述对所述所有频繁项集进行编码，包括：

对所述所有频繁项集进行独热编码，1表示相应频繁项集中有对应的花费项，0表示相应频繁项集中无对应的花费项；

所述根据编码后的所述所有频繁项集，获取所述所有频繁项集中每两个频繁项集之间的相似度，包括：

根据独热编码之后的所述所有频繁项集，获取所述所有频繁项集中每两个频繁项集之间的杰卡德系数；

所述根据所述所有频繁项集中每两个频繁项集之间的相似度，对所述所有频繁项集进行聚类，获得所述所有频繁项集对应的多个聚类簇，包括：

根据所述所有频繁项集中每两个频繁项集之间的杰卡德系数，采用Kmeans算法对所述所有频繁项集进行聚类，获得所述所有频繁项集对应的多个聚类簇。

5.根据权利要求2所述的就医行为识别方法，其特征在于，所述将所述同一类诊断结果和同一类花费类别的每个花费类别的花费项简化为与之匹配度最高的核心频繁项集，包括：

按照支持度的大小对所述同一类诊断结果和同一类花费类别的所有核心频繁项集进行排序；

将所述同一类诊断结果和同一类花费类别的每个花费类别的花费项依次与排序后的所有核心频繁项集进行排序进行匹配；

若任一花费类别的花费项包含任一核心频繁项集中的所有元素，则将所述任一花费类别的花费项简化为所述任一核心频繁项集；

若任一花费类别的花费项未包含任一核心频繁项集，则不简化所述任一花费类别的花费项。

6.根据权利要求1所述的就医行为识别方法，其特征在于，所述对所有时序就医数据中同一类诊断结果和同一类花费类别的花费项进行频繁项集挖掘、聚类和映射，包括：

根据Apriori算法，对所有时序就医数据中同一类诊断结果和同一类花费类别的花费项进行频繁项集挖掘；

所述对所述目标时序就医数据进行时序关联规则挖掘，包括：

7.根据权利要求1至6任一项所述的就医行为识别方法，其特征在于，所述对每个目标时序就医数据进行时序关联规则挖掘，获得每个目标时序就医数据中所有类诊断结果的频繁模式之间的时序关联规则之后，包括：

8.一种就医行为识别装置，其特征在于，包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述就医行为识别方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述就医行为识别方法的步骤。