CN105868296B

CN105868296B - 一种基于快速剪枝策略的高效用序列模式的用药ddd值数据分析方法

Info

Publication number: CN105868296B
Application number: CN201610172655.6A
Authority: CN
Inventors: 吕存伟; 孙小明; 温晓岳
Original assignee: Enjoyor Co Ltd
Current assignee: Yinjiang Technology Co.,Ltd.
Priority date: 2016-03-24
Filing date: 2016-03-24
Publication date: 2019-02-05
Anticipated expiration: 2036-03-24
Also published as: CN105868296A

Abstract

一种基于快速剪枝策略的高效用序列模式的用药DDD值数据分析方法，包括以下步骤：步骤1、对整理出用药记录表和药品DDD值表，对用药记录表中每条的用药记录的数据进行预处理；步骤2、计算序列数据库中q‑项的序列权重效用值SWU；步骤3、去除序列权重效用值SWU小于阈值ξ的q‑项，得到新的s‑序列数据库；步骤4、建立q‑项集内连接效用矩阵WICUM；步骤5、建立q‑项集间连接效用矩阵BICUM；步骤6、建立数据库中每个项的效用矩阵；步骤7、建立序列模式树，得到全部的高效用序列模式，这些高效用序列模式代表不同时间段服用各种药物，各种药物间组合后累计DDD值是超出阈值的，为高累计DDD值药物组合。本发明简化了剪枝操作的复杂性并减少了数据库的扫描次数，从而提高了挖掘高效用序列模式的效率。

Description

一种基于快速剪枝策略的高效用序列模式的用药DDD值数据分析方法

技术领域

本发明涉及一种用药DDD(defined daily dose，平均日剂量)值数据分析方法。

背景技术

WHO在1969年制定了解剖-治疗-化学的药物分类系统，确定了将限定日剂量(defined daily dose DDD)作为用药频度分析的单位。并给其下定义为：用于主要治疗目的的成人的药物平均日剂量。

目前国内滥用抗生素的情况非常普遍，滥用抗生素会诱发细菌耐药，病原微生物为躲避药物在不断变异，耐药菌株也随之产生。抗生素在杀菌同时，也会造成人体损害。所以挖掘高累计DDD值得药物组合，及时控制使用抗生素的用量将产生重大意义。

序列是指不同项集的有序排列。例如<(电脑),(打印机)>，这个序列代表大多数顾客会在买电脑以后，过段时间会买打印机。序列模式挖掘和关联规则挖掘不同，关联规则挖掘注重项集内的联系，序列模式挖掘注重项集间的联系，并且会按照一定顺序进行排列，例如前面例子<(电脑),(打印机)>和<(打印机),(电脑)>是两个不同的序列，但在关联规则挖掘中这是两个相同的项集。

高效用序列模式是指在序列数据库中序列的效用值超过预先定义效用值的序列。挖掘高效用序列模式就是找出序列数据库中所有超过最小效用阈值的序列模式。

目前高效用序列模式挖掘算法典型代表有SPAN算法和HuspExt算法，这两种算法都用到基于序列最大剩余效用值得到上界值，但计算序列最大剩余效用值花费的代价太大，仍存在候选集大，挖掘效率低等问题。

发明内容

为了克服现有用药DDD值数据分析方法存在的候选集大、挖掘效率低的不足，本发明提供一种基于快速剪枝策略的高效用序列模式的用药DDD值数据分析方法，简化了剪枝操作的复杂性并减少了数据库的扫描次数，从而提高了挖掘高效用序列模式的效率。

本发明解决其技术问题所采用的技术方案是：

一种基于快速剪枝策略的高效用序列模式的用药DDD值数据分析方法，包括以下步骤：

步骤1、整理出用药记录表和药品DDD值表，对用药记录表中每条的用药记录的数据进行预处理；

步骤2、计算序列数据库中q-项的序列权重效用值SWU；

步骤3、去除序列权重效用值SWU小于阈值ξ的q-项，得到新的s-序列数据库；

步骤4、建立q-项集内连接效用矩阵WICUM；

步骤5、建立q-项集间连接效用矩阵BICUM；

步骤6、建立数据库中每个项的效用矩阵；

步骤7、建立序列模式树，过程如下：

7.1创建一个根结点；

7.2按照字母序建立1-q-序列的子结点；

7.3建立2-q-序列的子结点，按照字母序进行连接，连接分为q-项集内的连接和q-项集间的连接，产生的2-q-序列的子结点分为大小为1的2-q-序列和大小为2的2-q-序列，具体步骤为：

7.3.1 q-项集内的连接产生大小为1的2-q-序列，查找WICUM结构表找出相应的连接项的WICUM值，当WICUM值小于阈值ξ时，则不进行连接操作，进行剪枝，这个连接项不产生结点；否则生成结点，转到步骤7.3.3；

7.3.2 q-项集间的连接产生大小为2的2-q-序列，查找BICUM结构表找出相应的连接项的BICUM值。当BICUM值小于阈值ξ时，则不进行连接操作，进行剪枝，这个连接项不产生结点，否则生成结点，转到步骤7.3.3；

7.3.3建立连接后新结点的效用矩阵，通过效用矩阵计算新结点的效用值

7.3.4计算新结点的效用值上界，新结点的效用值上界为新结点在效用矩阵中效用值与剩余效用值总和，当效用值上界大于阈值ξ时，则向下生成结点，否则不向下生成结点；

7.4建立3-q-序列的子结点，按照字母序进行连接，连接分为q-项集内的连接和q-项集间的连接，产生的3-q-序列的子结点分为大小为1的3-q-序列、大小为2的3-q-序列和大小为3的3-q-序列，具体步骤为：

7.4.1由大小为1的2-q-序列进行q-项集内的连接产生大小为1的3-q-序列，查找WICUM结构表找出相应的连接项的WICUM值。当WICUM值小于阈值ξ时，则不进行连接操作，进行剪枝，这个连接项不产生结点；否则生成结点，转到步骤7.4.5；

7.4.2由大小为1的2-q-序列进行q-项集间的连接产生大小为2的3-q-序列，查找BICUM结构表找出相应的连接项的BICUM值。当BICUM值小于阈值ξ时，则不进行连接操作，进行剪枝，这个连接项不产生结点；否则生成结点，转到步骤7.4.5；

7.4.3由大小为2的2-q-序列进行q-项集内的连接产生大小为2的3-q-序列，查找WICUM结构表找出相应的连接项的WICUM值。当WICUM值小于阈值ξ时，则不进行连接操作，进行剪枝，这个连接项不产生结点，否则生成结点，转到步骤7.4.5；

7.4.4由大小为2的2-q-序列进行q-项集间的连接产生大小为3的3-q-序列，查找BICUM结构表找出相应的连接项的BICUM值；当BICUM值小于阈值ξ时，则不进行连接操作，进行剪枝，这个连接项不产生结点；否则生成结点，转到步骤7.4.5；

7.4.5建立连接后新结点的效用矩阵，通过效用矩阵计算新结点的效用值；

7.4.6计算新结点的效用值上界，新结点的效用值上界为新结点在效用矩阵中效用值与剩余效用值总和，当效用值上界大于阈值ξ时，则向下生成结点，否则不向下生成结点；

7.5循环构建结点，直到序列模式树构建完成，最终得到全部的高效用序列模式，所述高效用序列模式代表不同时间段服用各种药物，当各种药物间组合后累计DDD值超出预设阈值，判定为高累计DDD值药物组合。

本发明中，为了描述有关高效用序列的问题，与序列模式区别开来。将序列模式中的项、项集、序列、序列数据库扩展为q-项、q-项集、q-序列和q-序列数据库，设D＝{s₁,s₂,s₃,…,s_n}是一个包含序列效用信息的q-序列数据库，其中该数据库包含m个不同的项，即I＝{i₁,i₂,i₃,…,i_m}，s_j(j＝1,2,3,…,n)是数据库D中第j个q-序列(j被称为q-序列的ID)，q-序列s＝<l₁,l₂,l₃,…,l_h＞(h为q-序列中q-项的个数或q-项集的个数)，其中l代表q-项集，它的数据形式为是一个q-项并且1≤k≤n′。为了方便起见，当q-项集中只有一个q-项则去掉中括号，q-项与项不同，比项多包含数量信息也称为内部效用值q(i,s)，q-项也关联一个外部效用值记为p(i)这个外部效用值可以理解为项的单价或者权重。

定义1 q-项i在q-序列s中的效用值，记为u(i,s),其定义如下

u(i,s)＝p(i)*q(i,s)

定义3 q-项集l在q-序列s中的效用值，记为u(l,s)，其定义如下

定义4 q-项集l在q-序列数据库中的效用值，记为u(l)，其定义如下

定义5一个q-序列的效用值，记为su(s)，其定义如下

su(s)＝∑_i∈1u(i,s)

定义6 q-序列数据库D＝{s₁,s₂,s₃,…,s_n}的效用值，记为u(D),其定义如下：

u(D)＝∑_s∈Dsu(s)

定义7给定一个序列t＝<t₁t₂…t_n＞和一个q-序列s′＝<(i₁,q₁)(i₂,q₂)…(i_n,q_n)＞,可以用t来匹配s′，当且仅当t_k＝i_k并且1≤k≤n，定义为t～s′

定义8高效用序列模式。因为一个序列t在q-序列的环境下可能有多个效用值，定义选择最大的效用值作为序列效用值，记为u_mat(t)，其定义如下

当且仅当u_mat(t)＞ξ，则序列t是高效用序列模式，其中ξ是人为设定的最小效用值。

定义9q-序列的长度和大小。q-序列s的长度为q-序列s中包含q-项的个数，记为len(s)。例如表2中len(s₁)＝5，len(s₃)＝3，len(s₄)＝5。q-序列s的长度为q-序列s中含有q-项集的个数，记为size(s)。例如size(s₁)＝4，size(s₃)＝2，size(s₄)＝5。

定义10(SWU序列权重效用值)一个序列t的SWU值，记为SWU(t)，其定义如下

例如表2中SWU(<(ac)>)＝su(s₃)+su(s₅)＝26+17＝43和SWU(<a>)＝su(s₁)+su(s₃)+su(s₄)+su(s₅)＝32+26+32+17＝107。

性质1 q-序列的序列权重效用值满足闭包属性，如果SWU(s)小于阈值ξ，则q-序列s以及s的所有超集都不是高效用序列模式。

定义11 q-项集内连接效用矩阵WICUM。WICUM结构保存的存在于q-序列数据库中q-序列里项集内一对q-项的SWU值，如果k-q-序列连接成为(k+1)-q-序列的时候，序列大小不变项集内发生连接时，根据性质1，如果k-q-序列的最后一项i_a与要连接的项i_b的SWU(<(i_ai_b)>)小于阈值ξ，则序列<(i_ai_b)>以及<(i_ai_b)>的所有超集都不是高效用序列模式。

当q-序列数据库D中有m个q-项，WICUM的结构如下表所示

	i<sub>1</sub>	i<sub>2</sub>	…	i<sub>m-1</sub>
					i<sub>2</sub>	SWU(&lt;(i<sub>1</sub>i<sub>2</sub>)&gt;)
i<sub>3</sub>	SWU(&lt;(i<sub>1</sub>i<sub>3</sub>)&gt;)	SWU(&lt;(i<sub>2</sub>i<sub>3</sub>)&gt;)
					…	…	…	…
i<sub>m</sub>	SWU(&lt;(i<sub>1</sub>i<sub>m</sub>)&gt;)	SWU(&lt;(i<sub>2</sub>i<sub>m</sub>)&gt;)	…	SWU(&lt;(i<sub>m-1</sub>i<sub>m</sub>)&gt;)

定义12 q-项集间连接效用矩阵BICUM。BICUM结构保存的存在于q-序列数据库中q-序列里项集间一对q-项的SWU值，如果k-q-序列连接成为(k+1)-q-序列的时候，序列大小加1，q-序列项集间发生连接时，根据性质1，如果k-q-序列的最后一项i_a与要连接的项i_b的SWU(<i_ai_b>)小于阈值ξ，则序列<i_ai_b>以及<i_ai_b>的所有超集都不是高效用序列模式。BICUM与WICUM不同的是，项集间的一对项连接，是会出现相同项的连接，并且连接顺序的不同，所对应的值也会不同，例如在序列中<(aa)>是不存在的，但<aa>是存在的，并且<ab>和<ba>是不同序列。

当q-序列数据库D中有m个q-项，BICUM的结构如下表所示

定义13如果序列t存在q-序列s中，则在q-序列s中排在序列t后面的q-项集合记为s/t。

定义14给定一个只含一个项的序列t的效用矩阵。序列t的效用矩阵包含q-序列的序列号s_m(m＝1,2,3,…)、q-序列s_m的项集号l_n(n＝1,2,3,…)、序列t的效用值和剩余效用值。序列t在q-序列s，q-项集l中的剩余效用值为排在t(不包含t)的后面的所有项的效用值总和，记为ru(t,l,s)，当序列t在序列s中的某项集内不存在则t在s该项集的效用值和剩余效用值都为0。在其定义如下

序列t的效用矩阵如下表所示，其中u(t,l)为序列t在q-项集l范围内的效用值。

	l<sub>1</sub>	l<sub>2</sub>	…	l<sub>1</sub>
					s<sub>1</sub>	(u(t,l<sub>1</sub>),ru(t,l<sub>1</sub>,s<sub>1</sub>))	(u(t,l<sub>2</sub>),ru(t,l<sub>2</sub>,s<sub>1</sub>))	…	(u(t,l<sub>n</sub>),ru(t,l<sub>n</sub>,s<sub>1</sub>))
s<sub>2</sub>	(u(t,l<sub>1</sub>),ru(t,l<sub>1</sub>,s<sub>2</sub>))	(u(t,l<sub>2</sub>),ru(t,l<sub>2</sub>,s<sub>2</sub>))	…	(u(t,l<sub>n</sub>),ru(t,l<sub>n</sub>,s<sub>2</sub>))
					…	…	…	…	…
s<sub>m</sub>	(u(t,l<sub>1</sub>),ru(t,l<sub>1</sub>,s<sub>m</sub>))	(u(t,l<sub>2</sub>),ru(t,l<sub>2</sub>,s<sub>m</sub>))	…	(u(t,l<sub>n</sub>),ru(t,l<sub>n</sub>,s<sub>m</sub>))

性质2给定一个序列t和q-序列数据库D，t以及t扩展后最大的效用值不会超过

∑_{i∈s′∧t～s′∧s′∈s∧s∈D∧l∈s}(u(s′)+ru(i,l,s))

称上面这个值为序列t与i的上界效用值。

定义15 2-q-序列的效用矩阵：2-q-序列的效用矩阵的效用矩阵不用再重新扫描数据库生成，只要从1-q-序列效用矩阵合成生成即可，生成过程如3和图4所示。

同理，3-q-序列也是从2-q-序列矩阵生成，所有(k+1)-q-序列都可以从k-q-序列矩阵生成。

本发明的有益效果主要表现在：采用快速剪枝策略，建立WICUM和BICUM，可以在计算序列最大剩余效用值前，对需要扩展的模式进行判断，直接查看WICUM和BICUM上的值来得出是否需要进行计算序列最大剩余效用值，避免过多计算序列剩余效用最大值，提高算法的效率。

附图说明

图1是项a和项b的2-序列的序列模式树的示意图。

图2是基于快速剪枝策略的高效用序列模式的用药DDD值数据分析方法的流程图。

图3是项集内连接的2-q-序列效用矩阵的示意图。

图4是项集间连接的2-q-序列效用矩阵的示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1和图2，一种基于快速剪枝策略的高效用序列模式的用药DDD值数据分析方法，包括以下步骤：

步骤2、计算序列数据库中q-项的序列权重效用值SWU；

步骤4、建立q-项集内连接效用矩阵WICUM；

步骤5、建立q-项集间连接效用矩阵BICUM；

步骤6、建立数据库中每个项的效用矩阵；

步骤7、建立序列模式树，过程如下：

7.1创建一个根结点；

7.2按照字母序建立1-q-序列的子结点；

7.5循环构建结点，直到序列模式树构建完成，最终得到全部的高效用序列模式，所述高效用序列模式代表不同时间段服用各种药物，当各种药物间组合后累计DDD值超出预设阈值时，判定为高累计DDD值药物组合。

进一步，所述步骤4中的q-项集内连接效用矩阵WICUM，WICUM结构保存的存在于q-序列数据库中q-序列里项集内一对q-项的SWU值，如果k-q-序列连接成为(k+1)-q-序列的时候，序列大小不变项集内发生连接时，如果k-q-序列的最后一项i_a与要连接的项i_b的SWU(<(i_ai_b)>)小于阈值ξ，则序列<(i_ai_b)>以及<(i_ai_b)>的所有超集都不是高效用序列模式；

当q-序列数据库D中有m个q-项，WICUM的结构如下表I所示：

表I。

再进一步，所述步骤5中的q-项集间连接效用矩阵BICUM，BICUM结构保存的存在于q-序列数据库中q-序列里项集间一对q-项的SWU值，如果k-q-序列连接成为(k+1)-q-序列的时候，序列大小加1，q-序列项集间发生连接时，如果k-q-序列的最后一项i_a与要连接的项i_b的SWU(<i_ai_b>)小于阈值ξ，则序列<i_ai_b>以及<i_ai_b>的所有超集都不是高效用序列模式；

当q-序列数据库D中有m个q-项，BICUM的结构如下表II所示：

	i<sub>1</sub>	i<sub>2</sub>	…	i<sub>m</sub>
					i<sub>1</sub>	SWU(&lt;i<sub>1</sub>i<sub>1</sub>&gt;)	SWU(&lt;i<sub>1</sub>i<sub>2</sub>&gt;)	…	SWU(&lt;i<sub>1</sub>i<sub>m</sub>&gt;)
i<sub>2</sub>	SWU(&lt;i<sub>2</sub>i<sub>1</sub>&gt;)	SWU(&lt;i<sub>2</sub>i<sub>2</sub>&gt;)	…	SWU(&lt;i<sub>2</sub>i<sub>m</sub>&gt;)
					…	…	…	…	…
i<sub>m</sub>	SWU(&lt;i<sub>m</sub>i<sub>1</sub>&gt;)	SWU(&lt;i<sub>m</sub>i<sub>2</sub>&gt;)	…	SWU(&lt;i<sub>m</sub>i<sub>m</sub>&gt;)

表II。

更进一步，给定一个只含一个项的序列t的效用矩阵，序列t的效用矩阵包含q-序列的序列号s_m(m＝1,2,3,…)、q-序列s_m的项集号l_n(n＝1,2,3,…)、序列t的效用值和剩余效用值，序列t在q-序列s，q-项集l中的剩余效用值为排在t的后面的所有项的效用值总和，记为ru(t,l,s)，当序列t在序列s中的某项集内不存在则t在s该项集的效用值和剩余效用值都为0，在其定义如下

序列t的效用矩阵如下表所示：

	l<sub>1</sub>	l<sub>2</sub>	…	l<sub>n</sub>
					s<sub>1</sub>	(u(t,l<sub>1</sub>),ru(t,l<sub>1</sub>,s<sub>1</sub>))	(u(t,l<sub>2</sub>),ru(t,l<sub>2</sub>,s<sub>1</sub>))	…	(u(t,l<sub>n</sub>),ru(t,l<sub>n</sub>,s<sub>1</sub>))
s<sub>2</sub>	(u(t,l<sub>1</sub>),ru(t,l<sub>1</sub>,s<sub>2</sub>))	(u(t,l<sub>2</sub>),ru(t,l<sub>2</sub>,s<sub>2</sub>))	…	(u(t,l<sub>n</sub>),ru(t,l<sub>n</sub>,s<sub>2</sub>))
					…	…	…	…	…
s<sub>m</sub>	(u(t,l<sub>1</sub>),ru(t,l<sub>1</sub>,s<sub>m</sub>))	(u(t,l<sub>2</sub>),ru(t,l<sub>2</sub>,s<sub>m</sub>))	…	(u(t,l<sub>n</sub>),ru(t,l<sub>n</sub>,s<sub>m</sub>))

给定一个序列t和q-序列数据库D，t以及t扩展后最大的效用值不会超过

∑_{i∈s＇^s′～t∧s′∈s^s∈D^l∈s}(u(s′)+ru(i,l,s))

称上面这个值为序列t与i的上界效用值；

2-q-序列的效用矩阵。2-q-序列的效用矩阵的效用矩阵不用再重新扫描数据库生成，只要从1-q-序列效用矩阵合成生成即可；

同理，3-q-序列也是从2-q-序列矩阵生成，所有(k+1)-q-序列都从k-q-序列矩阵生成。

本实施例中，以青霉素类和头孢菌素类用药记录为例，取五种这两类药物的具体药品，分别为双氯西林、头孢拉定、氨曲南、阿莫西林和头孢噻啶，如表1所示。表1为青霉素类和头孢菌素类常用药品名称代码表

药品名称	双氯西林	头孢拉定	头孢雷特	阿莫西林	头孢唑林
						药品代码	a	b	c	d	e

表1

表2所示的为用药记录表，这表中有6个序列(s₁,s₂,s₃,s₄,s₅,s₆)，每个序列代表一个人一段时间的用药记录，其中(d:1)里的数字代表使用该药品的天数。(d:1)表示为该病人服用了一天的阿莫西林。因为每位医生对每位病人开的处方用药量会根据每个人情况不同，用药量也会不同。所以用药量很难进行确定，为了确定每天的用药量，取该药量一天用量的平均值来确定它的用药量也就是它的DDD值，表3所示就是每种药物的DDD值。s₁＝<(d:1)；[(e:3)(c:1)]；(b:7)；(a:2)>表示为该病人服用四个周期的抗生素，第一个周期服用了一天阿莫西林以后第二周期又同时服用了了3天的头孢唑林和1天的头孢雷特，第三周期又服用了7天的头孢拉定，第四周期服用了2天的双氯西林。

事务号	用药记录
		s<sub>1</sub>	<(d:1)；[(e:3)(c:1)]；(b:7)；(a:2)>
s<sub>2</sub>	<(b:2)；[(c:1)(d:3)]；[(b:1)(d:2)]>
		s<sub>3</sub>	<[(c:4)(a:2)]；(b:3)>
s<sub>4</sub>	<(b:1)；(b:6)；(a:1)；(a:2)；(c:3)>
		s<sub>5</sub>	<[(a:1)(c:2)]；(b:2)；(d:1)；(b:1)>
s<sub>6</sub>	<[(c:3)(b:4)]；(d:2)>

表2

表3为药品的DDD值

药品代码	a	b	c	d	e
						DDD(g)	2	2	4	1	3

表3

将用药数据表按照字母序进行排序得到表4，表4为整理后的用药记录表。

事务号	用药记录
		s<sub>1</sub>	<(d:1)；[(c:1)(e:3)]；(b:7)；(a:2)>
s<sub>2</sub>	<(b:2)；[(c:1)(d:3)]；[(b:1)(d:2)]>
		s<sub>3</sub>	<[(a:2)(c:4)]；(b:3)>
s<sub>4</sub>	<(b:1)；(b:6)；(a:1)；(a:2)；(c:3)>
		s<sub>5</sub>	<[(a:1)(c:2)]；(b:2)；(d:1)；(b:1)>
s<sub>6</sub>	<[(b:4)(c:3)]；(d:2)>

表4

计算每一个序列的序列效用值su。su相当于用药数据表当中一条记录所有药品的累计DDD值。例如su(s₁)＝u(d)+u([(c,e)])+u(b)+u(a)＝1*1+1*4+3*3+7*2+2*2＝32，su(s₂)＝15，su(s₃)＝26，su(s₄)＝32，su(s₅)＝17，su(s₆)＝22，得到表5，表5表示用药记录表各事务效用值。

表5

计算每一类药品的序列权重效用值SWU，项a的SWU值就是用药记录表中存在所有包含a项记录的累计DDD值总和。SWU(a)为利尿剂的SWU值，利尿剂存在于s₁，s₃，s₄，s₅四个记录当中，计算出这四个记录的累计DDD值为SWU(a)＝su(s₁)+su(s₃)+su(s₄)+su(s₅)＝32+26+32+17＝107；同样SWU(b)＝su(s₁)+su(s₂)+su(s₃)+su(s₄)+su(s₅)+su(s₆)＝32+15+26+32+17+22＝144；SWU(c)＝144；SWU(d)＝86；SWU(e)＝32，得到表6，表6序列权重效用值。

项	a	b	c	D	e
						SWU	107	144	144	86	32

表6

当效用阈值设为33时，则SWU(e)＝32<33，因为当全部存在e的记录的累计DDD值都不大于阈值时，则所有与e连接的项的累计DDD值也不可能大于33.所以去除e项，整理数据库得到表7，表7为去除e后的用药记录表。

表7

建立WICUM，WICUM结构保存的存在于q-序列数据库中q-序列里项集内一对q-项的SWU值。建立用药记录的WICUM结构，用药记录的WICUM结构中保存的是同时服用两种药品的SWU值，因[(a,b)]和[(b,a)]是相同的，所以WICUM斜三角形状的。因用药记录表当中没有同时存在ab和ad所以SWU([(ab)])＝0，SWU([(ad)])＝0。SWU([(ac)])＝su(s₃)+su(s₅)＝26+17＝43，SWU([(bc)])＝su(s₆)＝22，SWU([(bd)])＝su(s₂)＝15，SWU([(cd)])＝su(s₂)＝15。最终构成了WICUM如表8所示，表8表示WICUM。

表8

建立BICUM，BICUM结构保存的存在于q-序列数据库中q-序列里项集间一对q-项的SWU值，建立用药记录的BICUM结构，用药记录的BICUM结构中保存的是先后服用两种药品的SWU值，因[a，b]和[b，a]不同的，[a，b]表示服用a以后下一个周期再服用b，[b，a]表示先服用b以后下一个周期再服用a。所以BICUM的结构是与WICUM的结构不一样的。因用药记录表中没有[c，c]，则SWU([c,c])＝0，SWU([a,a])＝su(s₂)＝32，其余见表9所示，表9表示BICUM。

用药代号	a	b	c	d
					A	32	43	32	17
B	55	64	47	54
					C	23	81	0	54
D	23	55	23	15

表9

建立数据库中每个项的效用矩阵，如表10所示为项a的效用矩阵。l代表周期，表10矩阵的第四行第二列(4,22)前面的4表示药品a出现在事务s₃的l₁周期服用了DDD值量为4，后面的22代表事务s₃中排在药品a后面的累计DDD值为22，表10为项a的效用矩阵

	l<sub>1</sub>	l<sub>2</sub>	l<sub>3</sub>	l<sub>4</sub>	l<sub>5</sub>
						s<sub>1</sub>	0	0	0	(4,0)	0
s<sub>3</sub>	(4,22)	0	0	0	0
						s<sub>4</sub>	0	0	(2,16)	(4,12)	0
s<sub>5</sub>	(2,15)	0	0	0	0
						s<sub>6</sub>	0	0	0	0	0

表10

表11为项b的效用矩阵：

	l<sub>1</sub>	l<sub>2</sub>	l<sub>3</sub>	l<sub>4</sub>	l<sub>5</sub>
						s<sub>1</sub>	0	0	(14,4)	0	0
s<sub>2</sub>	(4,11)	0	(2,2)	0	0
						s<sub>3</sub>	0	(6,0)	0	0	0
s<sub>4</sub>	(2,30)	(12,18)	0	0	0
						s<sub>5</sub>	0	(4,3)	0	(2,0)	0
s<sub>6</sub>	0	(8,14)	0	0	0

表11

表12为项c的效用矩阵,其余项的效用矩阵就不一一列出。

	l<sub>1</sub>	l<sub>2</sub>	l<sub>3</sub>	l<sub>4</sub>	l<sub>5</sub>
						s<sub>1</sub>	0	(4,27)	0	0	0
s<sub>2</sub>	0	(4,7)	0	0	0
						s<sub>3</sub>	(16,6)	0	0	0	0
s<sub>4</sub>	0	0	0	0	(12,0)
						s<sub>5</sub>	(8,7)	0	0	0	0
s<sub>6</sub>	(12,2)	0	0	0	0

表12

建立序列模式树，首先创建一个根结点，然后按照字母序建立1-q-序列的子结点。

建立2-q-序列的子结点，按照字母序进行连接。2-q-序列的子结点分为大小为1的2-q-序列和大小为2的2-q-序列。

建立大小为1的2-q-序列查找WICUM结构表找出相应的连接项的WICUM值。

以a结点为例，生成<(a,b)>大小为1的2-q-序列时，WICUM(<(a,b)>)＝0，所以就不生成<(a,b)>结点。

生成<(a,c)>1-q-序列时，WICUM(<(a,c)>)＝43>33,超过了阈值。

构建<(a,c)>的效用矩阵。表13为<(a,c)>的效用矩阵：

	l<sub>1</sub>	l<sub>2</sub>	l<sub>3</sub>	l<sub>4</sub>	l<sub>5</sub>
						s<sub>3</sub>	(20,6)	0	0	0	0
s<sub>5</sub>	(10,7)	0	0	0	0

表13

计算<(a,c)>的真正效用值也就是<(a,c)>的累计DDD值，u(<(a,c)>,l₁,s₃)+u(<(a,c)>,l₁,s₅)＝20+10＝30。

计算<(a,c)>的效用值上界，<(a,c)>的效用值上界为<(a,c)>在效用矩阵中所有的效用值与剩余效用值总和，为u(<(a,c)>,l₁,s₃)+ru(<(a,c)>,l₁,s₃)+u(<(a,c)>,l₁,s₅)+r u(<(a,c)>,l₁,s₅)＝20+6+10+7＝43大于阈值33时，则继续向下生成结点

生成<(a,d)>结点时，WICUM(<(a,d)>)＝0,所以不生成<(a,d)>结点。

建立长度为2的2-q-序列查找BICUM结构表找出相应的连接项的BICUM值。

生成<a,a>2-q-序列时，查找BICUM结构表，BICUM(<a,a>)＝32,因为32小于效用阈值33，不生成<a,a>结点；

生成<a,b>2-q-序列时，查找BICUM结构表，BICUM(<a,b>)＝55，超过了阈值。

构建<a,b>的效用矩阵，表14为<a,b>的效用矩阵：

	l<sub>1</sub>	l<sub>2</sub>	l<sub>3</sub>	l<sub>4</sub>	l<sub>5</sub>
						s<sub>3</sub>	0	(10,0)	0	0	0
s<sub>5</sub>	0	(6,3)	0	(4,0)	0

表14

计算<a,b>的真正效用值，u_max(<a,b>,s₃)+u_max(<(a,b)>,s₅)＝10+6＝16。

计算<a,b>的效用值上界，<a,b>的效用值上界为<a,b>在效用矩阵中所有的效用值与剩余效用值总和，为u(<a,b>,l₂,s₃)+ru(<a,b>,l₂,s₃)+u(<a,b>,l₂,s₅)+ru(<a,b>,l₂,s₅)+u(<a,b>,l₄,s₅)+ru(<a,b>,l₄,s₅)＝10+6+3+4＝23小于阈值33时，则不向下生成结点；

生成<a,c>结点时，查找BICUM表，BICUM(<a,c>)＝23<33，不生成<a,c>结点；

生成<a,d>结点时，查找BICUM表，BICUM(<a,d>)＝23<33，不生成<a,d>结点。

遍历所有与b结合的项，按照字母序进行连接，最终生成a，b的2-q-序列的全部子结点为<(a,c)>、<a,b>、<b,a>、<b,b>、<b,c>和<b,d>。a，b的序列模式树如图1所示。

建立3-q-序列的子结点，对序列树中的2-q-序列进行从左到右扫描，并且按照字母序进行连接。

从树的最左端<(a,c)>开始，建立大小为1的3-q-序列。按照字母序只能与d进行连接，查找WICUM结构表找出相应的<(c,d)>的WICUM值为15小于阈值33，则不生成<(a,c,d)>结点。

建立大小为2的3-q-序列。<(a,c)>按照字母序分别与a,b,c,d连接，首先与a进行连接，查找BICUM结构表找出相应的<c,a>的BICUM值为23小于阈值33，不生成<(a,c),a>结点；

<(a,c)>与b进行项集间连接，查找BICUM结构表找出相应的<c,b>的BICUM值为81大于阈值33；

构建<(a,c),b>的效用矩阵，表15为<(a,c),b>的效用矩阵：

	l<sub>1</sub>	l<sub>2</sub>	l<sub>3</sub>	l<sub>4</sub>	l<sub>5</sub>
						s<sub>3</sub>	0	(26,0)	0	0	0
s<sub>5</sub>	0	(14,3)	0	0	0

表15

计算<(a,c),b>的真正效用值，u(<(a,c),b>,l₂,s₃)+u(<(a,c),b>,l₅,s₃>)＝40。

计算<(a,c),b>的上界效用值，<(a,c),b>的效用值上界为<(a,c),b>在效用矩阵中所有的效用值与剩余效用值总和，为u(<(a,c),b>,l₂,s₃)+u(<(a,c),b>,l₅,s₃>)+ru(<(a,c),b>,l₂,s₃)+ru(<(a,c),b>,l₂,s₅)＝26+14+3＝43大于阈值33，则继续向下生成结点。

<(a,c)>与c进行项集间连接，查找BICUM结构表找出相应的<c,c>的BICUM值为0小于阈值33，对<(a,c),c>进行剪枝。

<(a,c)>与d进行项集间连接，查找BICUM结构表找出相应的<c,d>的BICUM值为54大于阈值33，

构建<(a,c),d>的效用矩阵，表16为<(a,c),d>的效用矩阵：

	l<sub>1</sub>	l<sub>2</sub>	l<sub>3</sub>	l<sub>4</sub>	l<sub>5</sub>
						s<sub>5</sub>	0	0	0	(11,2)	0

表16

计算<(a,c),d>的真正效用值，u(<(a,c),d>,l₄,s₅)＝11。

计算<(a,c),d>的上界效用值。<(a,c),d>的效用值上界为<(a,c),d>在效用矩阵中所有的效用值与剩余效用值总和，为u(<(a,c),d>,l₄,s₅)+ru(<(a,c),d>,l₄,s₅)＝11+2＝13小于阈值33。则不进行继续向下生成结点。

接着扫描序列树的第二项2-q-序列<a,b>，因前面计算过<a,b>的上界效用值为23小于阈值33，则不进行向下进行扩展。

其余的2-q-序列也按照也同样的步骤进行扩展

序列树的3-q-序列生成完后，继续生成4-q-序列，5-q-序列...,直到最终建立完整的序列模式树，保存所有高效用序列模式，算法结束。

最后得到三个高效用序列模式分别为<b,a>效用值为34，<c,b>效用值为58和<(a,c),b>效用值为40。

说明服用了头孢拉定以后再服用双氯西林累计DDD值为34、服用了头孢雷特再服用头孢拉定累计DDD值为58、服用了双氯西林和头孢雷特再服用了头孢拉定的累计DDD值为40。

说明医生在开出头孢拉定以后接下来的周期开出双氯西林；开出头孢雷特以后接下来的周期开出头孢拉定；开出双氯西林和头孢雷特以后接下来的周期开出头孢拉定，有这样三种用药习惯。

说明这三种用药习惯，用药量太大。这样会降低抗生素的使用效果。挖掘出这样的序列模式将对有关部门发现滥用抗生素等情况有着重大的意义，同时也辅助医生在用药的时候注意过多使用某种抗生素。

Claims

1.一种基于快速剪枝策略的高效用序列模式的用药DDD值数据分析方法，其特征在于：包括以下步骤：

步骤1、整理出用药记录表和药品DDD值表，对用药记录表中每条用药记录的用药数据进行预处理；

步骤2、计算序列数据库中q-项的序列权重效用值SWU,将序列模式中的项、项集、序列、序列数据库扩展为q-项、q-项集、q-序列和q-序列数据库，设D＝{s₁,s₂,s₃,…,s_n}是一个包含序列效用信息的q-序列数据库，其中该数据库包含m个不同的项，即I＝{i₁,i₂,i₃,…,i_m}，s_j是数据库D中第j个q-序列，j＝1,2,3,…,n，j被称为q-序列的ID，q-序列s＝<l₁,l₂,l₃,…,l_h>，h为q-序列中q-项的个数或q-项集的个数，其中l代表q-项集，它的数据形式为(i_jk,q_k)是一个q-项并且1≤k≤n′，当q-项集中只有一个q-项则去掉中括号，q-项与项不同，比项多包含数量信息也称为内部效用值q(i,s)，q-项也关联一个外部效用值记为p(i)，这个外部效用值为项的单价或者权重；

步骤4、建立q-项集内连接效用矩阵WICUM；

步骤5、建立q-项集间连接效用矩阵BICUM；

步骤6、建立数据库中每个项的效用矩阵；

步骤7、建立序列模式树，过程如下：

7.1创建一个根结点；

7.2按照字母序建立1-q-序列的子结点；

7.3.1q-项集内的连接产生大小为1的2-q-序列，查找WICUM结构表找出相应的连接项的WICUM值，当WICUM值小于阈值ξ时，则不进行连接操作，进行剪枝，这个连接项不产生结点；否则生成结点，转到步骤7.3.3；

7.3.2q-项集间的连接产生大小为2的2-q-序列，查找BICUM结构表找出相应的连接项的BICUM值，当BICUM值小于阈值ξ时，则不进行连接操作，进行剪枝，这个连接项不产生结点，否则生成结点，转到步骤7.3.3；

7.3.3建立连接后新结点的效用矩阵，通过效用矩阵计算新结点的效用值7.3.4计算新结点的效用值上界，新结点的效用值上界为新结点在效用矩阵中效用值与剩余效用值总和，当效用值上界大于阈值ξ时，则向下生成结点，否则不向下生成结点；

7.4.1由大小为1的2-q-序列进行q-项集内的连接产生大小为1的3-q-序列，查找WICUM结构表找出相应的连接项的WICUM值，当WICUM值小于阈值ξ时，则不进行连接操作，进行剪枝，这个连接项不产生结点；否则生成结点，转到步骤7.4.5；

7.4.2由大小为1的2-q-序列进行q-项集间的连接产生大小为2的3-q-序列，查找BICUM结构表找出相应的连接项的BICUM值，当BICUM值小于阈值ξ时，则不进行连接操作，进行剪枝，这个连接项不产生结点；否则生成结点，转到步骤7.4.5；

7.4.3由大小为2的2-q-序列进行q-项集内的连接产生大小为2的3-q-序列，查找WICUM结构表找出相应的连接项的WICUM值，当WICUM值小于阈值ξ时，则不进行连接操作，进行剪枝，这个连接项不产生结点，否则生成结点，转到步骤7.4.5；

2.如权利要求1所述的基于快速剪枝策略的高效用序列模式的用药DDD值数据分析方法，其特征在于：所述步骤4中的q-项集内连接效用矩阵WICUM，WICUM结构保存的存在于q-序列数据库中q-序列里项集内一对q-项的SWU值，如果k-q-序列连接成为(k+1)-q-序列的时候，序列大小不变项集内发生连接时，如果k-q-序列的最后一项i_a与要连接的项i_b的SWU(<(i_ai_b)>)小于阈值ξ，则序列<(i_ai_b)>以及<(i_ai_b)>的所有超集都不是高效用序列模式；

当q-序列数据库D中有m个q-项，WICUM的结构如下表I所示：

表I。

3.如权利要求1或2所述的基于快速剪枝策略的高效用序列模式的用药DDD值数据分析方法，其特征在于：所述步骤5中的q-项集间连接效用矩阵BICUM，BICUM结构保存的存在于q-序列数据库中q-序列里项集间一对q-项的SWU值，如果k-q-序列连接成为(k+1)-q-序列的时候，序列大小加1，q-序列项集间发生连接时，如果k-q-序列的最后一项i_a与要连接的项i_b的SWU(<i_ai_b>)小于阈值ξ，则序列<i_ai_b>以及<i_ai_b>的所有超集都不是高效用序列模式；

当q-序列数据库D中有m个q-项，BICUM的结构如下表II所示：

表II。

4.如权利要求1或2所述的基于快速剪枝策略的高效用序列模式的用药DDD值数据分析方法，其特征在于：给定一个只含一个项的序列t的效用矩阵，序列t的效用矩阵包含q-序列的序列号s_m(m＝1,2,3,…)、q-序列s_m的项集号l_n(n＝1,2,3,…)、序列t的效用值和剩余效用值，序列t在q-序列s，q-项集l中的剩余效用值为排在t的后面的所有项的效用值总和，记为ru(t,l,s)，当序列t在序列s中的某项集内不存在则t在s该项集的效用值和剩余效用值都为0，在其定义如下

序列t的效用矩阵如下表所示：

∑_{i∈s′∧s′～t∧s′∈s∧s∈D∧l∈s}(u(s′)+rui,l,s)

称上面这个值为序列t与i的上界效用值；

2-q-序列的效用矩阵的效用矩阵不用再重新扫描数据库生成，只要从1-q-序列效用矩阵合成生成即可；