CN110277172A

CN110277172A - 一种基于高效的负序列挖掘模式的临床用药行为分析系统及其工作方法

Info

Publication number: CN110277172A
Application number: CN201910565947.XA
Authority: CN
Inventors: 董祥军; 高欣明
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2019-09-24
Also published as: LU102313B1; WO2020258483A1; LU102313A1

Abstract

本发明涉及一种基于高效的负序列挖掘模式的临床用药行为分析系统及其工作方法，包括数据采集系统和行为分析系统；数据采集系统包括数据采集模块、数据传输模块；数据采集模块实时采集并保存临床用药行为数据；数据传输模块将临床用药行为数据传输至行为分析系统；行为分析系统包括数据处理模块、数据分析模块、数据管理模块；数据处理模块对临床用药行为数据进行数据清洗，进行数据分类；数据分析模块进行分析和预测；数据管理模块对分析结果进行存储和显示，推荐下一步的用药。本发明将eNSP‑IT算法应用到临床用药行为分析，可以更快的找出药物间的负序列关系，更好的预测患者下一步用药，对基于药物方案变化的临床决策进行支持。

Description

一种基于高效的负序列挖掘模式的临床用药行为分析系统及其工作方法

技术领域

本发明涉及一种基于高效的负序列挖掘模式的临床用药行为分析系统及其工作方法，属于负序列模式的应用技术领域。

背景技术

近年来，随着我国经济的飞速发展，身体素质不断得到人们的重视，医疗也受到了越来越多的关注。伴随着信息化的不断发展，医疗信息系统也在由纸质图表向电子健康记录过渡的过程中取得了长足的进展，目前，医疗信息系统基本已实现电子化、数字化和媒体化，这种转变导致了临床数据仓库中大量数据的积累，使得医疗行业拥有了海量的数据存储。这些医疗健康数据中包含了临床诊断数据、患者的用药数据以及患者医疗保险数据和病人的自然属性信息等。如何发现其中有价值的信息、规律或知识，帮助医生增加临床知识、辅助医护人员诊疗以及为医院管理人员提供决策信息，成为一个很有社会价值并亟待解决的问题。

数据挖掘是在大型信息存储库中发现隐藏知识的过程，开发用于零售或其他行业的数据挖掘技术可以应用于医疗。数据挖掘是一个多学科交叉研究领域，吸纳了数据库技术、模式识别、机器学习、模糊逻辑、人工智能、信息检索、统计学、高性能计算以及神经网络等最新理论和研究方法。

序列模式挖掘作为数据挖掘的前沿领域受到越来越多的受到学者的关注。序列模式挖掘是指挖掘相对时间或其他模式出现频率高的模式，它能够发现人们事先不知道的事务之间潜在有用的信息和知识。在健康数据分析领域，序列模式分析所要解决的其中一个问题是医生给患者开具完一种药品后，在以后特定的时间内，还会使用什么药品，发现药品与药品之间、药品与疾病之间关系规律的过程，使得医生在对患者进行诊断和用药时，可以参考以往的药品开具情况，准确的判断患者的下一步用药。它的主要目的是研究临床用药之间的先后关系，找出其中的规律，即不仅需要知道该药物是否被使用，还需要确定该药物与其它药物使用的先后顺序，例如，一个常见的胃炎治疗用药顺序是开具葡萄糖注射溶液后，开具维生素6，再开具头孢注射液，最后开具氯化钠注射液。因此序列模式能够发现数据库中某一时间段内的一个频繁序列，即在这个时间段内哪些药物会被医生使用的比较多，多或少的标准是由最小支持度来决定的。每个序列是按照用药的时间排列的一组组合，可以设置最小支持度来挖掘满足不同频繁程度的序列。但在应用序列模式分析临床用药行为，预测患者下一步用药时，他们仅考虑了已发生的事件，也称为正序列模式(PositiveSequential Pattern,PSP)挖掘。

随着研究的不断深入，研究人员发现不发生事件中隐含着大量的有用信息，而这些信息在单纯的正序列模式挖掘中是根本得不到的，于是相关研究人员开始挖掘负序列模式(Negative SequentialPattern，NSP)。负序列模式不仅涉及到已经发生的事件，还涉及到不发生的事件，它能够更深入地分析和理解数据中的潜在含义，从而挖掘出容易被人们忽略但是非常有价值的信息。例如：a，b，c，d，表示一个用药序列模式，该模式说明在某一段时间内，该病人在使用了药物a、b后，在没有使用药物c的情况下，使用了药物d。如今负序列模式的价值越来越被人们认可，在深入理解和处理许多医疗应用方面，如对患者用药行为分析方面，它更有一种不可替代的作用。

医院中的病人用药记录数据为挖掘的数据源。以5个病人在2个月内的诊疗记录为例，如表1是由病人ID和药物开具时间为关键字所排序的事务数据库。一个事务数据库，一个事务代表一次治疗情况，一个单项代表使用的药物，单项属性中的字母记录的是药物ID。进行数据预处理，将表1的事务数据库整理成表2的序列数据库。

表1

表2

病人ID	病人使用的药物序列
		1	{c}{i}
2	{a,b}{c}{a,d,f,g}
		3	{c,e,g,h}
4	{c}{c,d,g,h}{i}
		5	{i}

一个病人在某个时间段内所有的用药记录构成一个有序的序列，序列用<>表示。在序列中，项/项集是有顺序的，每个项都代表一种药物，而元素则是指该病人在某一个具体的时间点同时使用的所以药物，用{}或()表示，该病人可能在不同的时间段里使用同一中药物，即一个项可能在一个序列的不同元素中发生。如表2中ID为2的药物序列为{a,b}{c}{a,d,f,g}，该病人分别在第一次和第三次治疗时使用了药物a，其中{a,b}，{c}，{a,d,f,g}这三个项目集可称为序列的元素，a,b,c,d,f,g则称为项，如果一个元素中只有一个项，则括号可以省略，如该序列中的元素{c}可直接写c。

目前，关于负序列模式挖掘算法的研究成果较少，如，NSPM，PNSP，Neg-GSP，e-NSP和f-NSP等等。然而，大多数方法，即使是最先进的算法f-NSP也不够高效，且挖掘到的负序列模式数量也不多。在实际应用中，影响负序列模式挖掘效率和数量的因素很多，其中最重要的是正序列模式挖掘过程和负约束条件。由于用户主要是对缺少某些频繁元素的负序列模式感兴趣，因此现有的负序列模式挖掘算法都首先依赖于识别正序列模式，但在挖掘负序列模式的过程中，大多数算法都忽视了发现正序列模式所用的时间消耗，这导致整个挖掘过程的时间成本较高。同时，所有的负序列模式算法都从各个方面对格式、频率和负元素进行了约束，以减少负候选序列的数量，发现特定的感兴趣的负序列模式。在某种程度上，严格的负约束条件可以减少冗余负候选序列的数量，保证计算效率，但会导致大量有趣的负序列模式丢失，特别是长度较长(包含大量信息)的负序列模式。此外，在负序列模式挖掘中，负约束条件也会在一定程度上影响负候选序列生成方法的选择，当约束条件改变时，也应相应的改变负候选序列生成方法。

发明内容

针对现有技术的不足，更快提高挖掘负序列的效率，发现更多有趣的负序列模式，本发明提供了一种基于高效的负序列挖掘模式的临床用药行为分析系统；

本发明还提供了上述基于高效的负序列挖掘模式的临床用药行为分析系统的工作方法。

本发明提出了一种高效的负模式挖掘算法，名为eNSP-IT。将eNSP-IT算法应用到临床用药行为分析中，可以更快的找出药物间的负序列关系，从而更好的预测患者下一步用药，对基于药物方案变化的临床决策进行支持。

术语解释：

1、Prefixspan算法：一种经典的正序列模式挖掘算法，它基于深度优先搜索，其基本思想是使用频繁前缀划分搜索空间和投影序列数据库，并搜索相关的频繁序列。

2、数据库：Data set，简称DS，表示包含所有数据序列的集合。

3、支持度：support，简称sup，表示一条候选序列在数据库中出现的频率称为支持度。

4、最小支持度：minimum support，简称min_sup，表示频繁模式在数据库中出现的最低频率，这是由用户设定的。当候选序列的支持度大于最小支持度时，这条候选序列是频繁模式。

5、前缀，是指假设有两个序列α＝<e₁e₂…e_n>和β＝<e₁’e₂’…e_m’>(m≤n)，当且仅当e_i’＝e_i(i≤m-1)，e_m’∈e_m，并且所有在(e_m-e_m’)的连续项在e_m’中都是按照字母表顺序排列的，那么β是α的一个前缀。通俗的说，前缀就是序列前面部分的子序列。例如，对于序列B＝<a(abc)(ac)d(cf)>，而A＝<a(abc)a>，则A是B的前缀。相应的，对于前缀β，α的的投影为α’＝<e_m”e_m+1…e_n>，其中e_m”＝(e_m-e_m’)。通俗的说，投影指的是该条序列不包含前缀的最大子序列。例如，对于序列B相对于前缀A的投影为B’＝<cd(cf)>。

本发明的技术方案为：

一种基于高效的负序列挖掘模式的临床用药行为分析系统，包括通过传输网络通信连接的数据采集系统和行为分析系统；

所述数据采集系统包括依次连接的数据采集模块、数据传输模块；

所述数据采集模块，用于实时采集并保存患者的临床用药行为数据，临床用药行为数据包括患者的ID号、时间戳(即诊疗的时间)、开具的药品、病状、病症和患者所在科室；

所述数据传输模块，用于通过传输网络将患者的临床用药行为数据传输至所述行为分析系统；

所述行为分析系统包括依次连接的数据处理模块、数据分析模块、数据管理模块；并设置在云服务器内。所述数据传输模块连接所述数据处理模块；

所述数据处理模块，用于对采集的患者的临床用药行为数据进行数据清洗，并按照患者所在科室、病症进行数据分类；

所述数据分析模块，用于根据所述数据处理模块的处理结果对患者的临床用药行为进行分析和预测；包括步骤如下：

数据分析模块基于所述数据处理模块处理后的临床用药行为数据，建立与患者的ID号对应的用药行为序列，并结合所述的高效的负序列挖掘模式的临床用药行为的分析方法对临床用药行为进行分析和预测，患者所在科室、病症相同的患者的临床用药行为数据构成一个序列数据库，每一个患者的ID号对应一条病人在某个时间段内所有的用药记录构成一个有序的序列；使用高效的负序列挖掘模式的临床用药行为的分析方法对序列数据库进行挖掘，得到符合最小支持度要求的负序列模式，即此病症的常用治疗药品、用药顺序、药品与药品之间的关系，将能用于决策的负序列模式筛选出来，利用所述用于决策的序列模式对患者的用药行为进行分析。

所述数据管理模块，用于对所述数据处理模块的处理结果及数据分析模块分析的临床用药行为结果进行存储和显示，当医生开具药品时，推荐下一步的用药。数据管理模块用于查看所有的临床用药行为记录和所有频繁的临床用药行为。当医生给患者进行治疗时，系统会提供此病症常用的治疗方案，当首选治疗方案效果不理想时，提供备选治疗方案。

根据本发明优选的，所述传输网络为有线公网、局域网或3G/4G网络。

本发明采用云端管理平台设计(如阿里云服务器、华为云、京东云等模式)，各医院不需要配置服务器。医院租用本系统云端管理平台服务器，帮助医院对接院内各系统接口，导入数据等。可通过互联网在任何地方通过相应权限登录系统，无需安装客户端，实现安全管理的灵活性。本系统也可在医院本地私有化云部署，登录医院局域网联通。

上述基于高效的负序列挖掘模式的临床用药行为分析系统的工作方法，包括步骤如下：

(1)所述数据采集模块实时采集并保存患者的临床用药行为数据，临床用药行为数据包括患者的ID号、时间戳(即诊疗的时间)、开具的药品、病状、病症和患者所在科室；

设定负候选序列ns；例如，设定一个负侯选序列为<是指没有使用药物b、d，a、c是指使用的药物a、b；

设定m-size是指负侯选序列ns中包含的m个元素；例如，为4-size序列；

设定MPS(ns)是指负侯选序列ns的最大正子序列，由负侯选序列ns中包含的所有正元素按照原顺序组成；例如：ns中代表没有使用的药物，而a、c代表使用的药物；则最大正子序列为

设定正偶P(ns)是将一个由病人使用的药物组成的负侯选序列ns中的负元素全部转化为对应的正元素后的序列；例如，

设定1-negMS_ns是指负侯选序列ns的子序列，并且该子序列是由MPS(ns)以及一个负元素组成；

设定1-negMSS_ns是指包含负侯选序列ns的所有负序列的子序列的集合；

设定p(1-negMS_ns)是指序列1-negMS_ns中的正元素不变，将负元素转换为相应的正元素；如：

设定ds是指数据库中的一个数据序列，ds包含一位病人在本次治疗过程中所使用的药物，药物按用药的先后次序排列；

综上，对于一个数据序列ds和一个包含的所有元素的个数为m，并且含有n个负元素的序列ns，满足元素约束、格式约束及频繁约束，且满足条件：且每一个1-negMS_ns满足则ds包含ns：

元素约束是指：元素内部不允许有负项；只有序列中元素才可以变负；例如：符合约束；而不符合约束，因为是元素内部的负项；

格式约束是指：不存在连续2个或2个以上的负元素；例如：不满足约束，因为负元素为连续的两个负元素；

频繁约束是指：负序列满足1-negMS_ns∈1-negMSS_ns且p(1-negMS_ns)∈PSP，PSP是指的是正序列模式；

频繁约束考虑以下几个方面：(1)用户对NSP中缺少某些频繁元素感兴趣。因此，NSP中考虑的元素应具有足够的频率。ENSP-IT要求任何p(1-negMS_ns)都属于PSP，这满足了NSP中每个元素都是频繁出现的要求。(2)用户希望NSP包含更有用的信息，这有助于他们做出更好的决策。(3)如果我们不执行这一约束，负候选序列的数量可能是巨大的，甚至是无限的，这将导致NSP挖掘效率非常低。

(2)所述数据传输模块通过传输网络将患者的临床用药行为数据传输至所述行为分析系统，所述行为分析系统利用eNSP-IT算法对临床用药行为数据进行分析，包括步骤如下：

a、所述数据处理模块对采集的患者的临床用药行为数据进行数据清洗，并按照患者所在科室、病症进行数据分类；

b、所述数据分析模块根据所述数据处理模块的处理结果对患者的临床用药行为进行分析和预测；

c、所述数据管理模块对所述数据处理模块的处理结果及数据分析模块分析的临床用药行为结果进行存储和显示，当医生开具药品时，推荐下一步的用药。

根据本发明优选的，所述步骤a，所述数据处理模块对采集的患者的临床用药行为数据进行数据清洗，并按照患者所在科室、病症进行数据分类，包括步骤如下：

通过所述的数据采集系统对患者的临床用药行为数据进行采集时，会产生大量的数据量，同时数据可能中出现重复或者数据信息不完善等情况。因此，需要

d、对采集的患者的临床用药行为数据进行优化，使其能适用于后期的分析。对数据进行优化包括填充缺失数据、过滤掉异常数据；

e、对优化后的患者的临床用药行为数据进行标准化处理，所述标准化处理是指对数据进行整合，即把患者的ID号相同的病人的每一周的用药记录整理成一条顺序序列，形成完整的患者的临床用药行为数据；一个病人在某个时间段内所有的用药记录构成一个有序的序列，在序列中，项/项集是有顺序的，每个项都代表一种药物，而元素则是指该病人在某一个具体的时间点同时使用的所有药物；该病人可能在不同的时间段里使用同一中药物，即一个项可能在一个序列的不同元素中发生。

f、按照患者所在科室、病症这两种分类特征对患者的临床用药行为数据进行分类，并按照患者的ID号、时间戳(即诊疗的时间)、开具的药品、病状、病症和患者所在科室存储在所述数据管理模块中。

根据本发明优选的，所述步骤b，所述数据分析模块根据所述数据处理模块的处理结果对患者的临床用药行为进行分析和预测，包括步骤如下：

g、用修改后的正序列模式挖掘算法Prefixspan挖掘得到所有的正序列模式，即在某一段时间内，患者群体中使用最频繁的药品次序，在修改后的正序列模式挖掘算法Prefixspan中，对每一个频繁正序列都使用位图来存储包含它的数据序列ID号；

h、采用了PNSP的负候选序列生成方法，生成负候选序列(Negative SequentialCandidates,NSC)，该负候选序列用于判断在某一时间段内，哪些药物使用的次数多，哪些药物没有被使用；

i、使用位图操作，计算负候选序列的支持度；

j、从负候选序列中筛选出符合最小支持度要求的负序列模式，并用适当的筛选方法将能用于决策的负序列模式筛选出来，利用所述用于决策的序列模式对患者的用药行为进行分析；医生根据分析结果预测患者的下一步治疗方案，对基于药物方案变化的临床决策进行支持。例如，两个负序列模式P₁＝<(葡萄糖)(头孢曲松)(维生素B6)(氯化钠溶液)(维生素C)>和P₂＝<(头孢曲松)(维生素B6)(维生素C)(西米替丁)(奥美拉唑)>。P₁和P₂表明，在治疗胃炎时，医生经常选择这两个序列中的处方，通过这两个负序列模式可以发现每个处方中药物之间的潜在关系。P₁表示医生在使用葡萄糖、头孢曲松、维生素B6和氯化钠溶液后不使用维生素C。P₂是指医生开了头孢曲松和维生素C后，不使用维生素C，然后使用西米替丁而不是奥美拉唑。因此，使用NSP挖掘方法可以有效地帮助医生准确预测患者的下一步用药。

根据本发明优选的，所述步骤g，为了提高负序列模式挖掘的时间效率，使用PrefixSpan算法挖掘正序列模式，同时，利用位图策略进一步增强PrefixSpan算法，以提高空间效率。与使用位图结构的其他挖掘方法不同，修改后的PrefixSpan算法使用简单的位图结构和操作来获得顺序模式，包括步骤如下：

k、在每个数据序列ds上添加ID；

l、扫描数据库(包含所有数据序列ds的集合)查找所有项，项指的是每种药品，为每个项创建位图，每个位图的长度等于数据库中的数据序列数，如果一个项出现在数据序列i中，则该项的位图在位置i设置为1；否则，则该项的位图在位置i设置为0，位图用B表示；例如，b项的位图为B(b)＝|1|1|1|0|0|，则包含在第一、第二和第三个数据序列中。

m、根据每个项的位图，计算每个项的支持度，即位图中1的个数；判断项的支持度是否满足最小支持度min_sup，最小支持度min_sup指的是由用户设定的，频繁模式出现的最小频率；如果项的支持度大于或等于最小支持度min_sup，则该项是长度为1的PSP，将长度为1的PSP看作长度为1的前缀；否则，不是长度为1的PSP，删除此项；

n、对于每个长度为i满足支持度要求的前缀进行递归挖掘，i≥1，基于前缀的位图，找到包含此前缀的数据序列，同时将数据序列对应此前缀的投影存入投影数据库中；例如，前缀<a>的位图是B(<a>)＝|1|1|1|1|0|，这意味着它包含于第一、第二、第三和第四个数据序列，前缀<a>的投影数据库中包含了第一、第二、第三和第四个数据序列相对于前缀<a>的投影和数据序列的ID；

o、扫描投影数据库，找到所有项，并根据其对应的数据序列的ID创建位图，计算各个项的支持度，即位图中1的个数，若所有项的支持度都低于min_sup，则递归返回，否则，进入步骤p；

p、将满足支持度计数的各个项和当前的前缀进行合并，并将两者的位图进行位运算，即对两个位图进行与运算，得到新前缀和它的位图，新前缀为长度为i的PSP，若PSP是一个1-size的PSP，直接存储它的支持度，否则，继续使用位图存储信息；

q、i加1，前缀为合并项后的各个新前缀，分别递归执行步骤o至q。

根据本发明优选的，所述步骤h，为了提高挖掘到NSP的数量，ENSP-IT放宽了频繁约束，同时采用了PNSP的负候选序列生成方法。包括步骤如下：

r、由1-size的PSP生成1-size的NSC；如1-size的PSP<a>生成1-size的

s、定义约束条件为：不允许NSP中的连续负元素；2-size NSC是由1-size的PSP和1-size的NSP的排列生成的，例如如果ns的最后一个元素是一个正元素，则附加1-size的PSP或1-size的NSP；否则，附加1-size的PSP；

t、在(k-1)-size的候选序列(NSC或PSP)上附加1-size的PSP或1-size的NSP产生k-size的NSC；

u、重复上述步骤r至步骤t直到没有生成NSC，或者NSC的元素个数大于2l+1，l表示PSP中最大序列的元素个数；如果PSP中最大序列的元素个数为m，则生成的NSP的最大元素个数为2m+1；

进一步优选的，k-size的NSC在计算其支持度之前进行修剪，修剪方法为：

如果和则剪除负候选序列ns。

根据本发明优选的，所述步骤i，计算负候选序列的支持度，是指：

大小为m并且含有n个负元素的序列ns，对于(只含有一个负元素的序列)∈1-negMSS_ns(含有一个负元素的序列的集合)，1≤i≤n，在数据库中，ns的支持度sup(ns)如式(I)、式(II)、式(III)所示：

若ns的大小为1，并且ns只有1个负元素，则ns的支持度为：

若ns只包含一个负项，则序列ns的支持度为：

sup(ns)＝sup(MPS(ns)-sup(p(ns))) (II)

否则，ns的支持度为：

式(I)、式(II)、式(III)中，OR是指位操作中的与运算，即将p(1-negMS_i)相对应的位图一一进行与运算，与运算是指多个位图进行合并产生一个新位图，若位图中相同位置上都是1的话，则新位图上对应位置为1，否则，都为0，N是指对位图中的1的个数。例如，一条负候选序列sup<ce>＝5，相应的MPS(ns)＝<ce>，p(1-negMS₁)＝<ace>，p(1-negMS₂)＝<cef>。假设B(<ace>)＝|0|0|1|1|0|，B(<cef>)＝|0|1|1|1|0|，＝|0|1|1|1|0|。因此且＝2。

本发明的有益效果为：

1、目前用于负序列模式挖掘的算法较少，但是这些算法，往往效率都很低，我们提出了一个高效的负序列模式挖掘算法——eNSP-IT算法，能够用更少的时间挖掘出用户感兴的序列模式。对于临床用药行为数据这类数据中包含项目多、序列长度大的稠密型数据有很好的实验结果，能够较为迅速的得到结果。

2、与其他负序列模式挖掘算法相比，eNSP-IT算法的负约束条件更宽松，能够挖掘出更多的序列模式，能够为用户提供更多的决策信息。

3、本发明应用在进行临床用药分析的过程中，可以充分的将正负序列模式结合起来作为参考，从而发现在某一疾病治疗过程中，最常使用的药物治疗方案，这样医生在对患者进行治疗时，利用本发明可以向他提供以往的治疗方案，从而更好的预测患者下一步用药，对基于药物方案变化的临床决策进行支持。

附图说明

图1为本发明基于高效的负序列挖掘模式的临床用药行为分析系统的结构框图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

一种基于高效的负序列挖掘模式的临床用药行为分析系统，如图1所示，包括通过传输网络通信连接的数据采集系统和行为分析系统；

数据采集系统包括依次连接的数据采集模块、数据传输模块；

数据采集模块，用于实时采集并保存患者的临床用药行为数据，临床用药行为数据包括患者的ID号、时间戳(即诊疗的时间)、开具的药品、病状、病症和患者所在科室；

数据传输模块，用于通过传输网络将患者的临床用药行为数据传输至行为分析系统；

行为分析系统包括依次连接的数据处理模块、数据分析模块、数据管理模块；并设置在云服务器内。所述数据传输模块连接所述数据处理模块；

数据处理模块，用于对采集的患者的临床用药行为数据进行数据清洗，并按照患者所在科室、病症进行数据分类；

数据分析模块，用于根据数据处理模块的处理结果对患者的临床用药行为进行分析和预测；包括步骤如下：

数据管理模块，用于对数据处理模块的处理结果及数据分析模块分析的临床用药行为结果进行存储和显示，当医生开具药品时，推荐下一步的用药。数据管理模块用于查看所有的临床用药行为记录和所有频繁的临床用药行为。当医生给患者进行治疗时，系统会提供此病症常用的治疗方案，当首选治疗方案效果不理想时，提供备选治疗方案。

传输网络为有线公网、局域网或3G/4G网络。

实施例2

实施例1所述基于高效的负序列挖掘模式的临床用药行为分析系统的工作方法，包括步骤如下：

(1)数据采集模块实时采集并保存患者的临床用药行为数据，临床用药行为数据包括患者的ID号、时间戳(即诊疗的时间)、开具的药品、病状、病症和患者所在科室；

设定由病人使用的药物组成的负候选序列ns；例如，设定一个负侯选序列为是指没有使用药物b、d，a、c是指使用的药物a、b；

设定MPS(ns)是一条由病人使用的药物组成的指负侯选序列ns的最大正子序列，由负侯选序列ns中包含的所有正元素按照原顺序组成，即由这条负候选序列中所有病人使用过的药物组成；例如：ns中代表没有使用的药物，而a、c代表使用的药物；则最大正子序列为

(2)本实施例以医保数据中的胃炎门诊数据为作为实验数据，表3是将医保数据预处理后整理为序列数据库的部分结果，利用eNSP-IT算法对临床用药行为进行分析，最小支持度min_sup＝30％，数据传输模块通过传输网络将患者的临床用药行为数据传输至行为分析系统，行为分析系统利用eNSP-IT算法对临床用药行为数据进行分析，包括步骤如下：

表3

病人ID	病人使用的药物序列
		1	<(葡萄糖)(氯化钠溶液)(头孢曲松)(维生素B6)(西米替丁)(吗丁啉)>
2	<(奥美拉唑)(阿莫西林)>
		3	<(氯化钠溶液)(头孢曲松)(葡萄糖)(奥美拉唑)>
4	<(氯化钠溶液)(香丹注射液)(黄芪注射液)>
		5	<(氯化钠溶液)(头孢曲松)(地奥心血康胶囊)(三九胃泰颗粒)(吗丁啉)>
…	…

a、数据处理模块对采集的患者的临床用药行为数据进行数据清洗，并按照患者所在科室、病症进行数据分类；包括步骤如下：

b、数据分析模块根据数据处理模块的处理结果对患者的临床用药行为进行分析和预测；

c、数据管理模块对数据处理模块的处理结果及数据分析模块分析的临床用药行为结果进行存储和显示，当医生开具药品时，推荐下一步的用药。

步骤b，数据分析模块根据数据处理模块的处理结果对患者的临床用药行为进行分析和预测，包括步骤如下：

g、用修改后的正序列模式挖掘算法Prefixspan挖掘得到所有的正序列模式，即在某一段时间内，患者群体中使用最频繁的药品次序，在修改后的正序列模式挖掘算法Prefixspan中，对每一个频繁正序列都使用位图来存储包含它的数据序列ID号，表4显示了部分正序列模式和其位图；

表4

正序列模式	位图
		<(维生素B6)(维生素C)>	\|0\|0\|0\|0\|0\|1\|0\|0\|0\|1\|……\|0\|0\|1\|
<(氯化钠溶液)(头孢曲松)(奥美拉唑)>	\|0\|0\|1\|0\|0\|0\|0\|1\|0\|0\|……\|0\|0\|0\|
		<(奥美拉唑)(复方大青叶片)>	\|0\|0\|0\|0\|0\|0\|0\|1\|0\|0\|……\|0\|1\|0\|
<(三九胃泰颗粒)(吗丁啉)>	\|0\|0\|0\|0\|1\|0\|0\|0\|1\|0\|……\|1\|0\|0\|
		…	…

h、采用了PNSP的负候选序列生成方法，生成负候选序列(Negative SequentialCandidates,NSC)，该负候选序列用于判断在某一时间段内，哪些药物使用的次数多，哪些药物没有被使用。根据实验数据，生成如下负候选序列

i、使用位图操作，计算负候选序列的支持度；

j、从负候选序列中筛选出符合最小支持度要求的负序列模式，并用适当的筛选方法将能用于决策的负序列模式筛选出来，利用所述用于决策的序列模式对患者的用药行为进行分析；医生根据分析结果预测患者的下一步治疗方案，对基于药物方案变化的临床决策进行支持，表5显示了在最小支持度min_sup＝30％下，挖掘出来的部分负序列模式。

表5

例如，两个负序列模式和P₁和P₂表明，在治疗胃炎时，医生经常选择这两个序列中的处方，通过这两个负序列模式可以发现每个处方中药物之间的潜在关系。P₁表示医生在使用葡萄糖、头孢曲松、维生素B6和氯化钠溶液后不使用维生素C。P₂是指医生开了头孢曲松和维生素C后，不使用维生素C，然后使用西米替丁而不是奥美拉唑。因此，使用NSP挖掘方法可以有效地帮助医生准确预测患者的下一步用药。

按照步骤g所述方法，为了提高负序列模式挖掘的时间效率，使用PrefixSpan算法挖掘正序列模式，同时，利用位图策略进一步增强PrefixSpan算法，以提高空间效率。与使用位图结构的其他挖掘方法不同，修改后的PrefixSpan算法使用简单的位图结构和操作来获得顺序模式，包括步骤如下：

k、在每个数据序列ds上添加ID；

l、扫描数据库(包含所有数据序列ds的集合)查找所有项，项指的是每种药品，为每个项创建位图，每个位图的长度等于数据库中的数据序列数，如果一个项出现在数据序列i中，则该项的位图在位置i设置为1；否则，则该项的位图在位置i设置为0，位图用B表示；

n、对于每个长度为i满足支持度要求的前缀进行递归挖掘，i≥1，基于前缀的位图，找到包含此前缀的数据序列，同时将数据序列对应此前缀的投影存入投影数据库中；

按照步骤h所述方法，为了提高挖掘到NSP的数量，ENSP-IT放宽了频繁约束，同时采用了PNSP的负候选序列生成方法。包括步骤如下：

r、由1-size的PSP生成1-size的NSC；如1-size的PSP<a>生成1-size的

k-size的NSC在计算其支持度之前进行修剪，修剪方法为：

如果和则剪除负候选序列ns。

k-size的NSC在计算其支持度之前进行修剪，修剪方法为：

如果和则剪除负候选序列ns。

按照步骤i所述方法，计算负候选序列的支持度，是指：

若ns的大小为1，并且ns只有1个负元素，则ns的支持度为：

若ns只包含一个负项，则序列ns的支持度为：

sup(ns)＝sup(MPS(ns)-sup(p(ns))) (II)

否则，ns的支持度为：

式(I)、式(II)、式(III)中，OR是指位操作中的与运算，即将p(1-negMS_i)相对应的位图一一进行与运算，与运算是指多个位图进行合并产生一个新位图，若位图中相同位置上都是1的话，则新位图上对应位置为1，否则，都为0，N是指对位图中的1的个数。

实施例2

(2)本实施例以医保数据中的糖尿病患者数据为作为实验数据，下表6是将医保数据预处理后整理为序列数据库的部分结果，利用eNSP-IT算法对临床用药行为进行分析，最小支持度min_sup＝30％，包括步骤如下：

表6

g、用修改后的正序列模式挖掘算法Prefixspan挖掘得到所有的正序列模式，即在某一段时间内，患者群体中使用最频繁的药品次序，在修改后的正序列模式挖掘算法Prefixspan中，对每一个频繁正序列都使用位图来存储包含它的数据序列ID号，表7显示了部分正序列模式和其位图；

表7

正序列模式	位图
		<(二甲双胍)(格列吡嗪)>	\|1\|1\|0\|0\|0\|0\|1\|0\|1\|1\|……\|0\|0\|1\|
<(二甲双胍)(胰岛素)>	\|1\|1\|1\|0\|0\|0\|1\|0\|0\|0\|……\|1\|0\|0\|
		<(格列吡嗪)(氢氯噻嗪,胰岛素)>	\|1\|0\|0\|0\|0\|1\|0\|0\|0\|0\|……\|0\|0\|0\|
<(阿司匹林)(胰岛素)>	\|1\|0\|1\|0\|0\|0\|0\|0\|1\|0\|……\|1\|0\|0\|
		…	…

i、使用位图操作，计算负候选序列的支持度；

j、从负候选序列中筛选出符合最小支持度要求的负序列模式，并用适当的筛选方法将能用于决策的负序列模式筛选出来，利用所述用于决策的序列模式对患者的用药行为进行分析；医生根据分析结果预测患者的下一步治疗方案，对基于药物方案变化的临床决策进行支持，表8显示了在最小支持度min_sup＝30％下，挖掘出来的部分负序列模式。

表8

例如，两个负序列模式和 P₁和P₂表明，在治疗糖尿病时，医生经常选择这两个序列中的处方，通过这两个负序列模式可以发现每个处方中药物之间的潜在关系。P₁表示医生在没有使用乙酰己酰胺之后使用了二甲双胍并没有使用阿格列汀。P₂是指医生开了二甲双胍之后，不使用乙酰己酰胺，然后使用罗格列酮而不是沙格列汀。因此，使用NSP挖掘方法可以有效地帮助医生准确预测患者的下一步用药。

k、在每个数据序列ds上添加ID；

l、扫描数据库(包含所有数据序列ds的集合)查找所有项，项指的是每种药品，为每个项创建位图，每个位图的长度等于数据库中的数据序列数，如果一个项出现在数据序列i中，则该项的位图在位置i设置为1；否则，则该项的位图在位置i设置为0，位图用B表示；例如，氯化钠溶液这项的位图为B(b)＝|1|1|1|0|0|，则包含在第一、第二和第三个数据序列中。

r、由1-size的PSP生成1-size的NSC；如1-size的PSP<a>生成1-size的

u、重复上述步骤l至步骤n直到没有生成NSC，或者NSC的元素个数大于2l+1，l表示PSP中最大序列的元素个数；如果PSP中最大序列的元素个数为m，则生成的NSP的最大元素个数为2m+1；

k-size的NSC在计算其支持度之前进行修剪，修剪方法为：

如果和则剪除负候选序列ns。

k-size的NSC在计算其支持度之前进行修剪，修剪方法为：

如果和则剪除负候选序列ns。

按照步骤i所述方法，计算负候选序列的支持度，是指：

若ns的大小为1，并且ns只有1个负元素，则ns的支持度为：

若ns只包含一个负项，则序列ns的支持度为：

sup(ns)＝sup(MPS(ns)-sup(p(ns))) (II)

否则，ns的支持度为：

式(I)、式(II)、式(III)中，OR是指位操作中的与运算，即将p(1-negMS_i)相对应的位图一一进行与运算，与运算是指多个位图进行合并产生一个新位图，若位图中相同位置上都是1的话，则新位图上对应位置为1，否则，都为0，N是指对位图中的1的个数。例如，一条负候选序列sup<ce>＝5，相应的MPS(ns)＝<ce>，p(1-negMS₁)＝<ace>，p(1-negMS₂)＝<cef>。假设B(<ace>)＝|0|0|1|1|0|，B(<cef>)＝|0|1|1|1|0|，＝|0|1|1|1|0|。因此且

算法伪代码

输入：临床用药记录序列数据库(D)；最小支持度(min_sup)；

输出：用于分析临床用药行为的序列模式集合(NSP)；

(1)PSP is obtain from the modified PrefixSpan algorithm；

(2)1-size NSP is generated from 1-size PSP；

(3)For(k＝2；k≤2m+1；k++){

(4)/*k-size NSC is generated from(k-1)-size NSC and(k-1)-size PSP*/

(5)For(each candidate sequence in(k-1)-size NSC){

(6)If(the last element of candidate sequence is positive)then

(7)ns＝candidate sequence append with 1-size PSP；

(8)Else

(9)ns＝candidate sequence append with 1-size NSP；

(10)

(11)/*if ns satisfies two pruning strategies,ns is not stored in k-size NSC.*/

(12)ns is stored in k-size NSC；

(13)}

(14)For(each candidate sequence in(k-1)-size PSP){

(15)ns＝candidate sequence append with 1-size NSP；

(16)

(17)ns is stored in k-size NSC；

(18)}

(19)}

(20)For(each nsc in NSC){//Calculating the support of nsc

(21)If(size(nsc)＝1&&negsize(nsc)＝1)

(22)sup(nsc)＝|D|-sup(p(nsc))；

(23)Else If(size(nsc)>1&&negsize(nsc)＝＝1)

(24)sup(nsc)＝sup(MPS(nsc)–sup(p(nsc)))；

(25)Else

(26)

(27)If(sup(nsc)/|D|≥min_sup)

(28)nsc is stored in NSP；

(29)}

(30)Return NSP

步骤(1)是用修改后的PrefixSpan算法从序列数据库中挖掘出所有的正序列模式，所有正候选序列的支持度都使用位图进行存储；

步骤(2)-(19)是指用负候选序列生成方法生成负候选，其中步骤(10)和(16)表示对于满足剪枝条件的负候选序列进行剪枝；

步骤(21)-(26)表示使用公式(I)-(III)计算负候选序列的支持度，其中步骤(21)-(24)是指计算只包含一个负元素的负候选的支持度，步骤(26)是指计算包含多个负元素的负候选的支持度；

步骤(27)-(28)是指如果负候选的支持度大于最小支持度，那么这条负候选序列是一条负序列模式，添加到负序列模式集合中

步骤(30)是指返回结果，再用适当的方法将能用于决策的序列模式筛选出来，利用这些筛选后的序列模式来分析临床用药行为。

Claims

1.一种基于高效的负序列挖掘模式的临床用药行为分析系统，其特征在于，包括通过传输网络通信连接的数据采集系统和行为分析系统；

所述数据采集系统包括依次连接的数据采集模块、数据传输模块；所述数据采集模块，用于实时采集并保存患者的临床用药行为数据，临床用药行为数据包括患者的ID号、时间戳、开具的药品、病状、病症和患者所在科室；所述数据传输模块，用于通过传输网络将患者的临床用药行为数据传输至所述行为分析系统；

所述行为分析系统包括依次连接的数据处理模块、数据分析模块、数据管理模块；所述数据处理模块，用于对采集的患者的临床用药行为数据进行数据清洗，并按照患者所在科室、病症进行数据分类；所述数据分析模块，用于根据所述数据处理模块的处理结果对患者的临床用药行为进行分析和预测；所述数据管理模块，用于对所述数据处理模块的处理结果及数据分析模块分析的临床用药行为结果进行存储和显示，当医生开具药品时，推荐下一步的用药。

2.根据权利要求1所述的一种基于高效的负序列挖掘模式的临床用药行为分析系统，其特征在于，所述传输网络为有线公网、局域网或3G/4G网络。

3.权利要求1或2所述的一种基于高效的负序列挖掘模式的临床用药行为分析系统的工作方法，其特征在于，包括步骤如下：

(1)所述数据采集模块实时采集并保存患者的临床用药行为数据，临床用药行为数据包括患者的ID号、时间戳、开具的药品、病状、病症和患者所在科室；

设定负候选序列ns；

设定m-size是指负侯选序列ns中包含的m个元素；

设定MPS(ns)是指负侯选序列ns的最大正子序列，由负侯选序列ns中包含的所有正元素按照原顺序组成；

设定正偶P(ns)是将一个由病人使用的药物组成的负侯选序列ns中的负元素全部转化为对应的正元素后的序列；

设定p(1-negMS_ns)是指序列1-negMS_ns中的正元素不变，将负元素转换为相应的正元素；

元素约束是指：元素内部不允许有负项；只有序列中元素才可以变负；

格式约束是指：不存在连续2个或2个以上的负元素；

4.根据权利要求3所述的一种基于高效的负序列挖掘模式的临床用药行为分析系统的工作方法，其特征在于，所述步骤a，所述数据处理模块对采集的患者的临床用药行为数据进行数据清洗，并按照患者所在科室、病症进行数据分类，包括步骤如下：

d、对采集的患者的临床用药行为数据进行优化，对数据进行优化包括填充缺失数据、过滤掉异常数据；

e、对优化后的患者的临床用药行为数据进行标准化处理，所述标准化处理是指对数据进行整合，即把患者的ID号相同的病人的每一周的用药记录整理成一条顺序序列，形成完整的患者的临床用药行为数据；

f、按照患者所在科室、病症这两种分类特征对患者的临床用药行为数据进行分类，并按照患者的ID号、时间戳、开具的药品、病状、病症和患者所在科室存储在所述数据管理模块中。

5.根据权利要求3所述的一种基于高效的负序列挖掘模式的临床用药行为分析系统的工作方法，其特征在于，所述步骤b，所述数据分析模块根据所述数据处理模块的处理结果对患者的临床用药行为进行分析和预测，包括步骤如下：

i、使用位图操作，计算负候选序列的支持度；

j、从负候选序列中筛选出符合最小支持度要求的负序列模式，并用适当的筛选方法将能用于决策的负序列模式筛选出来，利用所述用于决策的序列模式对患者的用药行为进行分析；医生根据分析结果预测患者的下一步治疗方案，对基于药物方案变化的临床决策进行支持。

6.根据权利要求5所述的一种基于高效的负序列挖掘模式的临床用药行为分析系统的工作方法，其特征在于，所述步骤g，包括步骤如下：

k、在每个数据序列ds上添加ID；

l、扫描数据库查找所有项，项指的是每种药品，为每个项创建位图，每个位图的长度等于数据库中的数据序列数，如果一个项出现在数据序列i中，则该项的位图在位置i设置为1；否则，则该项的位图在位置i设置为0，位图用B表示；

7.根据权利要求5所述的一种基于高效的负序列挖掘模式的临床用药行为分析系统的工作方法，其特征在于，所述步骤h，包括步骤如下：

r、由1-size的PSP生成1-size的NSC；

s、定义约束条件为：不允许NSP中的连续负元素；2-size NSC是由1-size的PSP和1-size的NSP的排列生成的，如果ns的最后一个元素是一个正元素，则附加1-size的PSP或1-size的NSP；否则，附加1-size的PSP；

t、在(k-1)-size的候选序列上附加1-size的PSP或1-size的NSP产生k-size的NSC；

u、重复上述步骤r至步骤t直到没有生成NSC，或者NSC的元素个数大于2l+1，l表示PSP中最大序列的元素个数；如果PSP中最大序列的元素个数为m，则生成的NSP的最大元素个数为2m+1。

8.根据权利要求5所述的一种基于高效的负序列挖掘模式的临床用药行为分析系统的工作方法，其特征在于，k-size的NSC在计算其支持度之前进行修剪，修剪方法为：

如果和则剪除负候选序列ns。

9.根据权利要求5所述的一种基于高效的负序列挖掘模式的临床用药行为分析系统的工作方法，其特征在于，k-size的NSC在计算其支持度之前进行修剪，修剪方法为：

如果和则剪除负候选序列ns。

10.根据权利要求5-9任一所述的一种基于高效的负序列挖掘模式的临床用药行为分析系统的工作方法，其特征在于，所述步骤i，计算负候选序列的支持度，是指：

大小为m并且含有n个负元素的序列ns，对于(只含有一个负元素的序列)∈1-negMSS_ns(含有一个负元素的序列的集合)，1≤i≤n，在数据库中，ns的支持度sup(ns)如式(Ⅰ)、式(Ⅱ)、式(Ⅲ)所示：

若ns的大小为1，并且ns只有1个负元素，则ns的支持度为：

若ns只包含一个负项，则序列ns的支持度为：

sup(ns)＝sup(MPS(ns)-sup(p(ns))) (Ⅱ)

否则，ns的支持度为：

式(Ⅰ)、式(Ⅱ)、式(Ⅲ)中，OR是指位操作中的与运算，即将p(1-negMS_i)相对应的位图一一进行与运算，与运算是指多个位图进行合并产生一个新位图，若位图中相同位置上都是1的话，则新位图上对应位置为1，否则，都为0，N是指对位图中的1的个数。