CN110349678A

CN110349678A - 一种基于高效用正负序列规则挖掘的中药销售系统及其工作方法

Info

Publication number: CN110349678A
Application number: CN201910654037.9A
Authority: CN
Inventors: 董祥军; 张孟姣
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2019-10-18
Also published as: LU102314A1; LU102314B1; WO2021012346A1

Abstract

本发明涉及一种基于高效用正负序列规则挖掘的中药销售系统及其工作方法，包括信息采集系统、信息推荐系统和信息管理系统；信息采集系统包括信息采集模块、第一信息传输模块；信息推荐系统包括信息处理模块、信息分析模块、第二信息传输模块；信息管理系统包括信息管理模块、销售模块和第三信息传输模块；信息采集模块实时采集购药行为数据；信息处理模块对购药行为数据进行数据清理，并进行数据分类；信息分析模块对病人的购药行为进行分析和预测；信息管理模块对信息推荐系统的结果进行分类存储；销售模块为病人推荐下一步的治疗方案。本发明更全面的理解和挖掘数据中的潜在含义，为病人的下一步用药提供科学的决策支持。

Description

一种基于高效用正负序列规则挖掘的中药销售系统及其工作方法

技术领域

本发明涉及一种基于高效用正负序列规则挖掘的中药销售系统及其工作方法，属于高效用正负序列规则的应用技术领域。

背景技术

中医药学是我国医学科学的特色,也是我国优秀文化的重要组成部分。进入本世纪后,中医药学受到人们越来越广泛的关注,呈现出良好的发展前景。在发展中医药方面,我国资源丰富、潜力巨大。随着企业的不断发展，公司在中药材种植、加工、销售、技术咨询服务等各个业务环节积累了大量的原始数据，各个流程环节操作的数据需要记录，异常情况需要提醒和预警，产品的历史数据需要追溯，产品的流向需要跟踪，这些需求都使企业急需要建立一套信息系统来综合管理整个业务流程。其中，非常重要的一个环节就是中药销售管理环节，在这个过程中，不仅要考虑到用户的用药需求，而且也要考虑公司的销售利润。如何根据患者的历史用药记录科学合理地预测患者下一步用药，提高药材销售公司的利润，是一个十分重要的研究课题。

数据挖掘旨在从大量数据中发现有效的、新颖的、有潜在应用价值的和最终可理解的模式，是数据库知识发现(Knowledge-Discovery in Databases，KDD)中的一个步骤。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。数据挖掘是目前有效处理和利用海量数字信息的主要计算机手段,是解决信息时代信息过载而知识缺乏问题的主体方法。

关联规则挖掘是数据挖掘中一个十分活跃的研究领域。传统的关联规则挖掘是以项集为中心的，即只对那些发生频率高的项集感兴趣，但是，频繁项集只考虑到项目出现的频繁程度，没有将项目之间的不同考虑在内，即忽略了项目之间的语义度量。项集的语义度量通常用效用值来描述，只有当项集满足给定的效用值约束时，用户才会对该项集感兴趣。因此，基于支持度-置信度的关联规则挖掘已很难满足实际问题的需求。尽管传统的算法能识别项集并产生不同的模式，但是它们的分析结果在现实生活中所起到的作用有限。如果我们能找到一种表示项集利润的百分比度量方法，就可以反映规则的语义度量，发现比支持度-置信度框架更有价值的规则。而高效用序列规则挖掘的出现解决了这一难题。与传统的关联规则挖掘相比，高效用序列规则挖掘更能清晰的表达现实世界的需求。因为在挖掘算法中，每个项目可以被赋予不同的效用权值，每个项出现的次数会被记录，而且项可以在每一条事务中重复出现，更符合现实世界的供应和需求。

考虑一个中药销售经理，他的目标是根据病人的病情以及历史用药记录为病人推荐用药类型以及数量，在此基础上尽可能获得高利润。例如，一条高效用负序列规则表示，如果病人在购买了一定剂量的中药a后没有购买中药b又购买了一定剂量的中药c，则接下来这位病人很有可能会购买一定剂量的中药d和f。在这种情况下，如果中药销售经理能适时地向病人推荐中药d和f，那么不仅能为病人带来健康，还能获得比较可观的销售利润。

以中药销售公司中的病人购药记录数据为挖掘的数据源。以3个病人在4个月内的购药记录为例，如表1是由交易ID、交易时间、病人ID、药品、数量和单价为关键字所排序的事务数据库。在一个事务数据库中，一个事务代表一次购药记录，一个单项代表购买的药物，单项属性中的字母记录的是药物ID。例如，T3表示，病人C3在11-4-2014 10:02:12购买了5剂量的药品b，3剂量的药品e，其中，药品b和e的单价分别为5和6。

进行数据预处理，将病人的事务数据库以时间为序转变为效用序列数据库，例如将表1事务数据库中的事务数据库转换为表2中的序列数据库以及表3的效用表。

表1

表2

客户ID	客户购买序列
		C1	<(a,1){(c,3)(e,5}>
C2	<{(b,2)(c,3)(d,1)}{(a,2)(d,5)}>
		C3	<{(b,5)(e,3)}(a,3)>

表3

项	a	b	c	d	e
						单位效用	10	5	2	3	6

一位病人在一定时间内所有的购药记录构成一条有序的序列，序列用<>表示。在序列中，项/项集是有时间顺序的，每个项都代表一种药物，而元素则是指该病人在某一个具体的时间点同时购买的药物，用{}表示，例如{(c,3)(e,5}表示，3剂量的c和5剂量的e是同时购买的。每个项后面都有一个数字，称为内部效用，代表该病人在该时间购买的该药的剂量；每个项都有自己的价值，称为外部效用，如表3所示，例如每单位剂量的a价值是10元。该病人可能在不同的时间段里购买同一种药物，即一个项可能在一条序列的不同元素中发生。

将基于高效用序列规则挖掘的推荐方法应用到药材的营销管理中，不但有望进一步提高预测结果的准确性，为患者推荐用药；还有利于药草选种种植；而且还能提高公司的销售利润。中药销售在药材生产和管理中占有重要地位，高效用序列规则挖掘发现具有最大商业价值的项集，使利润达到最大化。这样既有利于商家的利益，又有利于药草选种种植，还有利于患者健康，一举三得，具有重要的实际意义。

目前，国内外还没有关于高效用负序列规则的研究，主要原因有两点：一是现有的挖掘关联规则的算法无法直接应用到高效用负序列规则的研究中；二是没有统一的衡量序列规则有用性的标准。如何挖掘高效用正负序列规则，以全面反映病人的购药行为和购买药品之间的潜在关系，进而精准地为病人推荐用药，提高企业的利润，是亟待解决的技术问题。

发明内容

针对现有技术的不足，为了发现更多有趣的高效用正负序列规则，本发明提供了一种基于高效用正负序列规则挖掘的中药销售系统。

本发明还提供了上述基于高效用正负序列规则挖掘的中药销售系统的工作方法。

本发明提出了一个名为HUNSRM的高效算法来挖掘高效用正负序列规则。将HUNSRM算法应用到中药销售行为分析中，可以发现中药间的负相关关系，从而为病人推荐药物提供决策支持。

术语解释：

1、USpan算法：一种经典的高效用正序列模式挖掘的算法，包含两种连接策略、一种LQS-Tree存储结构、两种修剪策略。

2、HUNSP算法：一种高效用负序列模式挖掘算法，通过将高效用正序列模式进行负转换生成高效用负序列模式。

3、哈希表：散列表(Hash table，也叫哈希表)，是根据关键码值(Key value)而直接进行访问的数据结构。

4、效用值：utility，表示一条序列中每个项的数量与项的单位效用的乘积和。

5、最小效用阈值：minimum utility,简称min_utility，是一条高效用序列满足的最小效用值，区分高效用序列和低效用序列的临界值，是由用户设定的。

6、效用置信度：uconf,在高效用序列规则R：X→Y中，项集X在项集X∪Y中的局部效用值与项集X在数据库中的效用值的比值，含义为项集X为促成项集X∪Y的发生做出的效用贡献占自身总效用的比率，也称为项集X对项集X∪Y的主观贡献率

7、最小效用置信度阈值：minimum uconf,简称min_uconf，是一条高效用正(负)序列规则所满足的效用置信度的最小值。

8、效用加权贡献率：utility-weighted contribution rate，表示在高效用序列规则R：X→Y中，项集X为促成项集X∪Y的发生做出的主观效用贡献率和客观效用贡献率的加权和。

9、最小效用加权贡献率阈值：minimumutility-weighted contribution rate,简称min_uwcr，是一条高效用正(负)序列规则所满足的效用加权贡献率的最小值。

10、高效用正序列模式：High Utility Sequential Pattern,简称HUSP，是效用值大于等于最小效用阈值的正序列模式。例如，正序列模式t＝<a(df)>的效用值为80，若设定的最小效用阈值是75，那么t＝<a(df)>就是一条高效用正序列模式。

11、高效用负序列模式，High Utility Negative Sequential Pattern,简称HUNSP，是效用值大于等于最小效用阈值的负序列模式。例如，负序列模式的效用值为78，若设定的最小效用阈值是75，那么就是一条高效用负序列模式。

12、高效用正序列规则：High Utility Sequential Rule，简称HUSR，是同时满足最小效用阈值、最小效用置信度阈值、最小效用加权贡献率阈值的正序列规则。例如，正序列规则ab→c的效用值、效用置信度、效用加权贡献率分别是440、0.26、0.44，若设定的最小效用阈值、最小效用置信度阈值、最小效用加权贡献率阈值分别是200、0.25、0.4，那么ab→c就是一条高效用正序列规则。

13、高效用负序列规则：High Utility Negative Sequential Rule，简称HUNSR，是同时满足最小效用阈值、最小效用置信度阈值、最小效用加权贡献率阈值的负序列规则。例如负序列规则的效用值、效用置信度、效用加权贡献率分别是420、1、0.8，若设定的最小效用阈值、最小效用置信度阈值、最小效用加权贡献率阈值分别是200、0.25、0.4，那么就是一条高效用负序列规则。

本发明的技术方案如下：

一种基于高效用正负序列规则挖掘的中药销售系统，包括通过传输网络通信依次连接的信息采集系统、信息推荐系统和信息管理系统；

所述信息采集系统包括依次连接的信息采集模块、第一信息传输模块；

所述信息采集模块，用于实时采集并保存病人的购药行为数据，购药行为数据包括病人ID、时间戳(即购药时间)、病状、药品类型、药品剂量、药品单价；

所述第一信息传输模块，用于通过传输网络将病人的购药行为数据传输至所述信息推荐系统；

所述信息推荐系统包括依次连接的信息处理模块、信息分析模块、第二信息传输模块；并设置在云服务器内，所述第一信息传输模块连接所述信息处理模块；

所述信息处理模块，用于对采集的病人的购药行为数据进行数据清理，因为现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理后按照病人的病状进行数据分类；

所述信息分析模块，用于根据所述信息处理模块的处理结果对病人的购药行为进行分析和预测；是指：所述信息分析模块基于所述信息处理模块处理后的购药行为数据，建立与病人ID对应的用药行为序列，并对购药行为进行分析和预测，病状相同的病人的购药行为数据构成一个序列数据库，每个病人ID对应一条病人在某个时间段内所有的购药记录构成一个有序的序列；对序列数据库进行挖掘，得到符合最小效用阈值、最小效用置信度阈值和最小效用加权贡献率阈值要求的高效用正负序列规则，即治疗此病症常用的中药类型、中药剂量、中药顺序以及用药一段时间后接下来的用药推荐，利用所述符合要求的高效用正负序列规则对患者的用药行为进行分析；

所述第二信息传输模块，用于通过传输网络将所述信息推荐系统的处理结果传输至所述信息管理系统；

所述信息管理系统包括相互独立的信息管理模块、销售模块和第三信息传输模块；并设置在云服务器内，所述第三信息传输模块连接所述信息采集系统；

所述信息管理模块，用于对所述信息推荐系统的结果按照病状进行分类存储，并根据不同的用户权限进行数据显示，若是销售员登录，则具有一般权限，能够查看中药销售记录以及所述信息推荐系统的结果；若是超级管理员登录，除具有一般权限外，还能够进行药物单价(效用值)的修改设定，并将药物单价的修改情况通过第三信息传输模块反馈给所述信息采集系统；

所述销售模块，用于当病人来购药时，依据信息推荐系统的结果根据病人的病状推荐中药治疗方案，提供用药类型，并根据病人的服药情况推荐下一步的治疗方案；还可以对本次病人的购药行为数据进行缓存，并将本次的购药记录通过第三信息传输模块实时反馈给所述信息采集系统。

信息管理系统中信息管理模块对于药物单价(效用值)的修改以及销售模块中记录的最新的病人购药记录都会通过传输网络实时地传递给信息采集系统，保证信息采集系统获得的数据是最新的，才具有指导意义。

根据本发明优选的，所述传输网络为有线网、局域网、Wi-Fi、个人网或3G/4G网络。

本发明采用云端管理平台设计，所述信息推荐系统和信息管理系统都设置在云服务器内，无需进行复杂的线下硬件配置，简洁易行。公司各中药销售网点不需要单独配置服务器，直接租用本系统云端管理平台服务器，就能随时随地进行数据上传、下载、调取信息云端数据保存，不但能够降低资料丢失率，还能降低企业运营成本减少不必要的开支。管理员、销售员可通过互联网在任何地方通过相应权限登录系统，无需安装客户端，安全高效。本系统也可在公司内部私有化云部署，可部署在公司数据中心的防火墙内，也可以将部署在一个安全的主机托管场所，在不影响现有的公司IT管理的流程前提下充分利用现有硬件资源和软件资源，极大地降低公司的成本，提供对数据、安全性和服务质量的最有效控制。

上述基于高效用正负序列规则挖掘的中药销售系统的工作方法，包括步骤如下：

(1)所述信息采集模块实时采集并保存病人的购药行为数据，购药行为数据包括病人ID、时间戳(即购药时间)、病状、药品类型、药品剂量、药品单价；

(2)所述第一信息传输模块通过传输网络将病人的购药行为数据传输至所述信息推荐系统；

(3)所述信息推荐系统利用HUNSRM算法对购药行为数据进行分析，包括步骤如下：

1)所述信息处理模块对采集的病人的购药行为数据进行数据清理，因为现实世界的数据一般是不完整的、有噪声的和不一致的。通过信息采集系统对病人的购药行为数据进行采集时，会产生大量的数据量，同时数据中可能出现缺失值、重复和不一致数据等情况，例如缺失了病人C1的购药时间，病人C2和C3的信息交叉等情况。数据清理是指：对于缺失值，依次确定缺失值范围、去除不需要的字段、填充缺失内容；对于重复数据，删除保留一条信息；对于不一致数据，进行数据填充；

数据清理后按照病人的病状进行数据分类，数据分类是指：首先，筛选不同的病状，并将病状作为主键进行数据分类；其次，将具有同一种病状，即主键相同的购药行为数据组成一个数据库；不同病状的购药行为数据组成的数据库相互独立，每个数据库内包含具有该病状并进行购药的病人的所有购药行为数据；例如，病状为鼻炎的数据库包含的病人购药记录为：C1，2010.11.20，鼻炎，荆芥100克、防风100克；C2，2010.11.21，鼻炎，苏叶100克、辛夷60克；病状为痛风的数据库包含的病人购药记录为：C3，2011.1.2，痛风，黄芪100克、元参80克；C4，2011.1.3，痛风，麦冬60克、枸杞60克；

2)所述信息分析模块根据所述信息处理模块的处理结果，对病人的购药行为进行分析和预测；所述信息分析模块基于所述信息处理模块处理后的购药行为数据，建立与病人ID对应的以时间为序的用药行为序列，构成效用序列数据库，并对购药行为进行分析和预测，病状相同的病人的购药行为数据构成一个序列数据库，每个病人ID对应一条病人在某个时间段内所有的购药记录构成一个有序的序列；对序列数据库进行挖掘，包括步骤如下：

A、通过传统的高效用正序列模式挖掘方法USpan算法从效用序列数据库中挖掘得到所有的高效用正序列模式，即病人的购药序列中药物价值大于一定值的序列，并计算每个高效用正序列模式的效用值；例如，对于一条正序列模式t＝<a(df)>,它在效用序列数据库中对应的第一个病人C1的购药序列为<(a,2){(d,6)(f,5)}>，表示病人C1先购买了2剂量的中药a，又同时购买了6剂量的中药d和5剂量的中药f，总共花费53元；它在效用序列数据库中对应的第二个病人C2的购药序列为<(a,1){(d,4)(f,1)}>，表示病人C2先购买了1剂量的中药a，又同时购买了4剂量的中药d和1剂量的中药f，总共花费27元；所以该正序列模式的效用值为80，若设定的最小效用阈值79，那么t＝<a(df)>就是一条高效用正序列模式。效用序列数据库由数据分类的数据库转化而来，方法如下：以病人ID作为主键，先从数据库中找到所有包含该病人ID的购药行为数据；将病人ID相同的购药行为数据进行合并，即去掉时间戳(购药时间)、病状，保留病人ID，将该病人购买的药品类型以及药品剂量按照时间顺序排序组成第二个字段，由此得到每个病状对应的效用序列数据库；

B、通过传统的HUNSP算法从上述步骤A得到的高效用正序列模式中挖掘高效用负序列模式，即病人的购药序列中买了某种中药但是没有买另一种中药的高价值的购药序列；

将步骤A得到的高效用正序列模式和步骤B得到的高效用负序列模式存储在哈希表中，key值代表高效用正序列模式或高效用负序列模式，value值代表对应的效用值；

C、通过上述高效用正或负序列模式生成高效用正或负序列规则，即病人在一段时间内购买了或不购买某些中药序列，过了一段时间后又购买了或不购买某些中药序列，第一段时间的中药序列蕴含了第二段时间的中药序列，具有指导意义。

D、筛选高效用正或负序列规则：基于序列规则的效用值、效用置信度、效用加权贡献率对高效用正序列规则和高效用负序列规则进行筛选，按照效用值、效用置信度、效用加权贡献率的次序依次对每个序列规则进行筛选，包括步骤如下：

①计算当前高效用正或负序列规则的效用值以及规则的前件、后件的效用值，若三者中有任何一个不满足最小效用阈值，则删除当前规则，否则，保留当前规则进行步骤②；

②计算当前规则的效用置信度，若规则的效用置信度不满足用户设定的最小效用置信度阈值min_uconf，则删除当前规则，否则，保留当前规则进行步骤③；

③计算当前规则的效用加权贡献率，若规则的效用加权贡献率不满足用户设定的最小效用加权贡献率阈值min_uwcr，则删除当前规则，否则，保留当前规则；

经过上述步骤①-③的筛选，得到满足用户定义条件的高效用正或负序列规则；

3)所述第二信息传输模块通过传输网络将信息推荐系统的结果传输至所述信息管理系统；

(4)所述信息管理系统对信息推荐系统的结果进行存储、显示，并进行效用值的修改设定，为病人推荐治疗方案，并将效用值的修改情况以及最新的病人购药行为数据反馈给所述信息采集系统，包括步骤如下：

所述信息管理模块对所述信息推荐系统的结果按照病状进行分类存储，并根据不同的用户权限进行数据显示，若是销售员登录，则具有一般权限，能够查看中药销售记录以及所述信息推荐系统的结果；若是超级管理员登录，除具有一般权限外，还能够进行药物单价(效用值)的修改设定，并将药物单价的修改情况通过第三信息传输模块反馈给所述信息采集系统；

当病人来购药时，所述销售模块依据信息推荐系统的结果，根据病人的病状，推荐中药治疗方案，提供用药类型，并根据病人的服药情况推荐下一步的治疗方案；还对本次病人的购药行为数据进行缓存，并将本次的购药行为数据通过第三信息传输模块实时反馈给所述信息采集系统；

所述第三信息传输模块通过传输网络将病人的购药行为数据传输至所述信息推荐系统。

所述信息管理系统中信息管理模块对于药物单价(效用值)的修改以及销售模块中记录的最新的病人购药记录都会通过传输网络实时地传递给信息采集系统，保证信息采集系统获得的数据是最新的，才具有指导意义。

根据本发明优选的，所述步骤B，通过传统的HUNSP算法从上述步骤A得到的高效用正序列模式中挖掘高效用负序列模式，包括步骤如下：

产生高效用正序列模式对应的候选高效用负序列模式；一条高效用正序列模式对应的负序列就是把个不连续的元素变成负的，k为该高效用正序列模式中元素的个数，得到所有的候选高效用负序列模式HUNSC；

若候选高效用负序列模式HUNSC的长度为1，则将其删除；否则，计算每个候选高效用负序列模式HUNSC的效用值，规定负元素的效用值为零；

用最小效用阈值进行筛选所有的候选高效用负序列模式HUNSC，效用值大于等于最小效用阈值的即为所需的高效用负序列模式。

根据本发明优选的，所述步骤C，通过上述高效用正或负序列模式生成高效用正或负序列规则，是指：

一条高效用正序列模式或高效用负序列模式P表示为：P＝<e₁e₂e₃...e_k>，其中，e_i代表该序列模式中的元素，k代表该序列模式中元素的个数。高效用正或负序列规则的前件是<e₁e₂e₃...e_i-1>，后件是<e_i...e_k>；例如，是一条高效用负序列模式，该高效用负序列模式可以产生两条高效用负序列规则，分别是和特殊的，长度为1的高效用负序列模式不可以作为高效用负序列规则的前件或者后件；例如，或者是不允许的。

按照此方法产生所有的高效用正序列规则和高效用负序列规则。

根据本发明优选的，所述步骤①，计算效用值，包括：

a、假设当前高效用正或负序列规则为<e₁e₂e₃…e_i-1>→<e_i…e_k>，X表示前件<e₁e₂e₃…e_i-1>，Y表示后件<e_i…e_k>，t表示<e₁e₂…e_i-1e_i…e_k>，即t＝X∪Y,则该条序列规则表示为R：X→Y；

一条序列模式t的效用值u(t)计算公式如式(Ⅰ)所示：

式(Ⅰ)中，e_i∈t，u(e_i)＝q(e_i,t)×p(e_i)，q(e_i,t)为项e_i的内部效用，p(e_i)为项e_i的外部效用；

b、分别计算当前高效用正或负序列规则的前件X、后件Y、规则R的效用值：

当前高效用正或负序列规则的前件X的效用值u(X)如式(Ⅱ)所示：

当前高效用正或负序列规则的后件Y的效用值u(Y)如式(Ⅲ)所示：

当前高效用正或负序列规则R的效用值u(X∪Y)如式(Ⅳ)所示：

上述三个效用值中，若有任何一个效用值小于用户设定的最小效用阈值，则删除当前规则；否则，保留当前规则并进行步骤②；

根据本发明优选的，所述步骤②，计算效用置信度，包括：

c、计算项的局部效用值：一个项x_i在项集X中的局部效用值表示为luv(x_i,X)，定义为所有包含项集X的交易中项x_i的效用值的总和，项的局部效用值的计算公式如式(Ⅴ)所示：

式(Ⅴ)中，t_d是包含项集X的交易记录，x_i是包含在项集X中的编码为i的项；

d、计算项集的局部效用值：项集X在项集Y中(即)的局部效用值表示为luv(X,Y)，定义为在项集Y中，项集X包含的所有项的效用值总和，项集的局部效用值计算公式如式(Ⅵ)所示：

式(Ⅵ)中，x_i是包含在项集X中的项；luv(x_i,Y)是指项x_i在项集Y中的局部效用值；

e、计算效用置信度：高效用序列规则R：X→Y的效用置信度为项集X在项集X∪Y中的局部效用值与项集X在数据库中的效用值的比值，含义为项集X为促成项集X∪Y的发生做出的效用贡献占自身总效用的比率，也称为项集X对项集X∪Y的主观贡献率，计算公式如式(Ⅶ)所示：

式(Ⅶ)中，luv(X,X∪Y)表示项集X在项集X∪Y中的局部效用值，即只有在X∪Y发生的前提下才计算X的效用值；u(X)表示项集X在序列数据库中的总效用值；

根据本发明优选的，所述步骤③，计算计算效用加权贡献率，包括：

高效用序列规则R：X→Y的效用加权贡献率(utility-weighted contributionrate)计算公式如式(Ⅷ)所示：

式(Ⅷ)中，表示规则R的效用置信度；为项集X在项集X∪Y中的局部效用值与项集X∪Y在数据库中的效用值的比值,含义为项集X对于项集X∪Y的发生做出的效用贡献，也称为项集X对项集X∪Y的客观贡献率；m和n是由用户设定的权重参数，分别表示项集X对项集X∪Y的主观贡献率和客观贡献率的权重，且m+n＝1。

进一步优选的，m＝0.5,n＝0.5。

本发明的有益效果为：

1、无论是序列模式挖掘还是高效用序列模式挖掘，都有一个众所周知的局限性，就是无法对购买行为进行预测。本发明提出了一个高效用正负序列规则挖掘算法-HUNSRM算法，该算法不仅考虑了事物之间的正相关性，还将事物之间的负相关性考虑在内，它能更全面的理解和挖掘数据中的潜在含义。对于中药销售行为数据分析这个行业，可以为病人的下一步用药提供科学的决策支持。

2、现有的关联规则和序列规则挖掘算法都是基于支持度-置信度框架，提供了用户对感兴趣的规则的客观度量，但是却没有反映项目之间的语义度量。高效用正负序列规则挖掘不仅考虑了项的数量还考虑了项的单位价值，利用商品利润的百分比度量方法，反映了项目之间的语义度量，可以发现比支持度-置信度框架更有价值的规则，在为病人带来健康的同时还能为企业带来客观的利润。

3、本发明应用在中药销售行为分析中，适应了中药销售行业不仅关注用药类型还关注用药剂量的特点，当为病人提供建议时，本发明可以从历史用药记录中发现有趣的规则，为病人的下一步用药以及治疗方案提供支持。

附图说明

图1为本发明基于高效用正负序列规则挖掘的中药销售系统的结构框图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

一种基于高效用正负序列规则挖掘的中药销售系统，如图1所示，包括通过传输网络通信依次连接的信息采集系统、信息推荐系统和信息管理系统；

信息采集系统包括依次连接的信息采集模块、第一信息传输模块；

信息采集模块，用于实时采集并保存病人的购药行为数据，购药行为数据包括病人ID、时间戳(即购药时间)、病状、药品类型、药品剂量、药品单价；例如，从药店的智能管理终端(例如民康中医诊所系统、药精灵等)采集并保存病人的购药行为数据；

第一信息传输模块，用于通过传输网络将病人的购药行为数据传输至信息推荐系统；

信息推荐系统包括依次连接的信息处理模块、信息分析模块、第二信息传输模块；并设置在云服务器内，第一信息传输模块连接信息处理模块；

信息处理模块，用于对采集的病人的购药行为数据进行数据清理，因为现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理后按照病人的病状进行数据分类；

信息分析模块，用于根据信息处理模块的处理结果对病人的购药行为进行分析和预测；是指：信息分析模块基于信息处理模块处理后的购药行为数据，建立与病人ID对应的用药行为序列，并对购药行为进行分析和预测，病状相同的病人的购药行为数据构成一个序列数据库，每个病人ID对应一条病人在某个时间段内所有的购药记录构成一个有序的序列；对序列数据库进行挖掘，得到符合最小效用阈值、最小效用置信度阈值和最小效用加权贡献率阈值要求的高效用正负序列规则，即治疗此病症常用的中药类型、中药剂量、中药顺序以及用药一段时间后接下来的用药推荐，利用符合要求的高效用正负序列规则对患者的用药行为进行分析；

第二信息传输模块，用于通过传输网络将信息推荐系统的处理结果传输至信息管理系统；

信息管理系统包括相互独立的信息管理模块、销售模块和第三信息传输模块；并设置在云服务器内，第三信息传输模块连接信息采集系统；

信息管理模块，用于对信息推荐系统的结果按照病状进行分类存储，并根据不同的用户权限进行数据显示，若是销售员登录，则具有一般权限，能够查看中药销售记录以及信息推荐系统的结果；若是超级管理员登录，除具有一般权限外，还能够进行药物单价(效用值)的修改设定，并将药物单价的修改情况通过第三信息传输模块反馈给信息采集系统；

销售模块，用于当病人来购药时，依据信息推荐系统的结果根据病人的病状推荐中药治疗方案，提供用药类型，并根据病人的服药情况推荐下一步的治疗方案；还可以对本次病人的购药行为数据进行缓存，并将本次的购药记录通过第三信息传输模块实时反馈给信息采集系统。

传输网络为有线网、局域网、Wi-Fi、个人网或3G/4G网络。

本实施例采用云端管理平台设计，信息推荐系统和信息管理系统都设置在云服务器内，无需进行复杂的线下硬件配置，简洁易行。公司各中药销售网点不需要单独配置服务器，直接租用本系统云端管理平台服务器，就能随时随地进行数据上传、下载、调取信息云端数据保存，不但能够降低资料丢失率，还能降低企业运营成本减少不必要的开支。管理员、销售员可通过互联网在任何地方通过相应权限登录系统，无需安装客户端，安全高效。本系统也可在公司内部私有化云部署，可部署在公司数据中心的防火墙内，也可以将部署在一个安全的主机托管场所，在不影响现有的公司IT管理的流程前提下充分利用现有硬件资源和软件资源，极大地降低公司的成本，提供对数据、安全性和服务质量的最有效控制。

实施例2

根据实施例1所述的基于高效用正负序列规则挖掘的中药销售系统的工作方法，包括步骤如下：

(1)信息采集模块实时采集并保存病人的购药行为数据，购药行为数据包括病人ID、时间戳(即购药时间)、病状、药品类型、药品剂量、药品单价；

(2)第一信息传输模块通过传输网络将病人的购药行为数据传输至信息推荐系统；

(3)本实施例以某中药销售网点用于治疗益气补血病人的购药数据记录作为实验数据，表4、表5分别是将病人购药行为数据预处理后整理为效用序列数据库和效用表的部分结果，

表4

病人ID	购药序列
		C1	<(党参,100g)(茯苓,300g)>
C2	<(白术,200g)(当归,100g)(党参,200g)(当归,500g)>
		C3	<(白术,500g)(党参,300g)>
…	…

表5

项	党参	白术	茯苓	当归
					单位效用(元)	0.6	0.1	0.2	0.5

利用HUNSRM算法对中药销售系统中病人购药行为进行分析，最小效用阈值min_util＝200，最小效用置信度min_uconf＝0.25，最小效用加权贡献率min_uwcr＝0.4。包括步骤如下：

1)信息处理模块对采集的病人的购药行为数据进行数据清理，因为现实世界的数据一般是不完整的、有噪声的和不一致的。通过信息采集系统对病人的购药行为数据进行采集时，会产生大量的数据量，同时数据中可能出现缺失值、重复和不一致数据等情况，例如缺失了病人C1的购药时间，病人C2和C3的信息交叉等情况。数据清理是指：对于缺失值，依次确定缺失值范围、去除不需要的字段、填充缺失内容；对于重复数据，删除保留一条信息；对于不一致数据，进行数据填充；

2)信息分析模块根据信息处理模块的处理结果，对病人的购药行为进行分析和预测；信息分析模块基于信息处理模块处理后的购药行为数据，建立与病人ID对应的以时间为序的用药行为序列，构成效用序列数据库，并对购药行为进行分析和预测，病状相同的病人的购药行为数据构成一个序列数据库，每个病人ID对应一条病人在某个时间段内所有的购药记录构成一个有序的序列；对序列数据库进行挖掘，包括步骤如下：

A、通过传统的高效用正序列模式挖掘方法USpan算法从从表4的效用序列数据库中挖掘得到所有的高效用正序列模式，即病人购买的较多且价值较高的中药序列，并计算每个高效用正序列模式的效用值，表6显示了部分高效用正序列模式及其效用值。例如，对于一条正序列模式t＝<a(df)>,它在效用序列数据库中对应的第一个病人C1的购药序列为<(a,2){(d,6)(f,5)}>，表示病人C1先购买了2剂量的中药a，又同时购买了6剂量的中药d和5剂量的中药f，总共花费53元；它在效用序列数据库中对应的第二个病人C2的购药序列为<(a,1){(d,4)(f,1)}>，表示病人C2先购买了1剂量的中药a，又同时购买了4剂量的中药d和1剂量的中药f，总共花费27元；所以该正序列模式的效用值为80，若设定的最小效用阈值79，那么t＝<a(df)>就是一条高效用正序列模式。效用序列数据库由数据分类的数据库转化而来，方法如下：以病人ID作为主键，先从数据库中找到所有包含该病人ID的购药行为数据；将病人ID相同的购药行为数据进行合并，即去掉时间戳(购药时间)、病状，保留病人ID，将该病人购买的药品类型以及药品剂量按照时间顺序排序组成第二个字段，由此得到每个病状对应的效用序列数据库；

表6

高效用正序列模式(HUSP)	utility
		<党参>	360
<党参当归>	370
		<白术党参>	370
<当归党参当归>	420
		<白术当归党参当归>	440
…	…

将步骤A得到的高效用正序列模式和步骤B得到的高效用负序列模式存储在哈希表中，key值代表高效用正序列模式或高效用负序列模式，value值代表对应的效用值；包括步骤如下：

表7展示了由表6挖掘得到的部分高效用负序列模式。例如，高效用负序列模式表示病人在一定时间点没有购买当归，接着购买了一定量的党参，后来也没有购买当归，总价值是360，是一条高效用负序列模式。

表7

C、通过上述高效用正或负序列模式生成高效用正或负序列规则，即病人在一段时间内购买了或不购买某些中药序列，过了一段时间后又购买了或不购买某些中药序列，第一段时间的中药序列蕴含了第二段时间的中药序列，具有指导意义。是指：

按照此方法产生所有的高效用正或负序列规则。例如：等等。

①计算当前高效用正或负序列规则的效用值以及规则的前件、后件的效用值，若三者中有任何一个不满足最小效用阈值，则删除当前规则，否则，保留当前规则进行步骤②；包括：

一条序列模式t的效用值u(t)计算公式如式(Ⅰ)所示：

当前高效用正或负序列规则R的效用值u(X∪Y)如式(Ⅳ)所示：

②计算当前规则的效用置信度，若规则的效用置信度不满足用户设定的最小效用置信度阈值min_uconf，则删除当前规则，否则，保留当前规则进行步骤③；包括：

③计算当前规则的效用加权贡献率，若规则的效用加权贡献率不满足用户设定的最小效用加权贡献率阈值min_uwcr，则删除当前规则，否则，保留当前规则；包括：

式(Ⅷ)中，表示规则R的效用置信度；为项集X在项集X∪Y中的局部效用值与项集X∪Y在数据库中的效用值的比值,含义为项集X对于项集X∪Y的发生做出的效用贡献，也称为项集X对项集X∪Y的客观贡献率；m和n是由用户设定的权重参数，分别表示项集X对项集X∪Y的主观贡献率和客观贡献率的权重，且m+n＝1。m＝0.5,n＝0.5。

经过上述步骤①-③的筛选，得到满足用户定义条件的高效用正或负序列规则；生成的部分高效用正(负)序列规则如表8所示。

例如，高效用序列规则<白术当归>→<党参当归>表示，病人在购买了白术、当归之后很有可能在购买党参和当归，如果销售员能适时地向病人推荐党参和当归，则不仅有利于病人的疾病快速痊愈，还有利于公司获得利润。

表8

3)第二信息传输模块通过传输网络将信息推荐系统的结果传输至信息管理系统；

(4)信息管理系统对信息推荐系统的结果进行存储、显示，并进行效用值的修改设定，为病人推荐治疗方案，并将效用值的修改情况以及最新的病人购药行为数据反馈给信息采集系统，包括步骤如下：

信息管理模块对信息推荐系统的结果按照病状进行分类存储，并根据不同的用户权限进行数据显示，若是销售员登录，则具有一般权限，能够查看中药销售记录以及信息推荐系统的结果；若是超级管理员登录，除具有一般权限外，还能够进行药物单价(效用值)的修改设定，并将药物单价的修改情况通过第三信息传输模块反馈给信息采集系统；

当病人来购药时，销售模块依据信息推荐系统的结果，根据病人的病状，推荐中药治疗方案，提供用药类型，并根据病人的服药情况推荐下一步的治疗方案；还对本次病人的购药行为数据进行缓存，并将本次的购药行为数据通过第三信息传输模块实时反馈给信息采集系统；

第三信息传输模块通过传输网络将病人的购药行为数据传输至信息推荐系统。

算法伪代码

INPUT:效用序列数据库(D)，最小效用阈值(min_utility)，最小效用置信度阈值(min_uconf)，最小效用加权贡献率阈值(min_uwcr)

OUTPUT:高效用正(负)序列规则(HUSRs and HUNSRs)

步骤(1)通过USpan算法和HUNSPM算法挖掘得到所有的高效用正负序列模式；

步骤(2)将所有的高效用正负序列模式存储在HUPNSPset集合中；

步骤(3)将高效用候选规则集HUSRCset初始化为空集；

步骤(4)-(23)是对HUPNSPset集中的每个尺寸大于1的模式生成规则，并进行筛选，下面详细介绍；

步骤(6)(7)是用一种候选高效用规则生成方法生成所有形如的规则，并把规则存储在HUSRCset集合中；

步骤(8)-(11)是计算候选规则的前件和后件的效用值，并删除不满足最小效用阈值的规则；

步骤(13)-(16)是计算候选规则的效用置信度，并删除不满足最小效用置信度阈值的规则；

步骤(18)-(21)是计算候选规则的效用加权贡献率，并删除不满足最小效用加权贡献率阈值的规则；

步骤(24)返回HUSRCset集合。

Claims

1.一种基于高效用正负序列规则挖掘的中药销售系统，其特征在于，包括通过传输网络通信依次连接的信息采集系统、信息推荐系统和信息管理系统；

所述信息采集模块，用于实时采集并保存病人的购药行为数据，购药行为数据包括病人ID、时间戳、病状、药品类型、药品剂量、药品单价；所述第一信息传输模块，用于通过传输网络将病人的购药行为数据传输至所述信息推荐系统；

所述信息推荐系统包括依次连接的信息处理模块、信息分析模块、第二信息传输模块；所述第一信息传输模块连接所述信息处理模块；

所述信息处理模块，用于对采集的病人的购药行为数据进行数据清理，数据清理后按照病人的病状进行数据分类；所述信息分析模块，用于根据所述信息处理模块的处理结果对病人的购药行为进行分析和预测；是指：所述信息分析模块基于所述信息处理模块处理后的购药行为数据，建立与病人ID对应的用药行为序列，并对购药行为进行分析和预测，病状相同的病人的购药行为数据构成一个序列数据库，每个病人ID对应一条病人在某个时间段内所有的购药记录构成一个有序的序列；对序列数据库进行挖掘，得到符合最小效用阈值、最小效用置信度阈值和最小效用加权贡献率阈值要求的高效用正负序列规则，即治疗此病症常用的中药类型、中药剂量、中药顺序以及用药一段时间后接下来的用药推荐，利用所述符合要求的高效用正负序列规则对患者的用药行为进行分析；所述第二信息传输模块，用于通过传输网络将所述信息推荐系统的处理结果传输至所述信息管理系统；

所述信息管理系统包括信息管理模块、销售模块和第三信息传输模块；所述第三信息传输模块连接所述信息采集系统；

所述信息管理模块，用于对所述信息推荐系统的结果按照病状进行分类存储，并根据不同的用户权限进行数据显示，若是销售员登录，则具有一般权限，能够查看中药销售记录以及所述信息推荐系统的结果；若是超级管理员登录，除具有一般权限外，还能够进行药物单价的修改设定，并将药物单价的修改情况通过第三信息传输模块反馈给所述信息采集系统；所述销售模块，用于当病人来购药时，依据信息推荐系统的结果根据病人的病状推荐中药治疗方案，提供用药类型，并根据病人的服药情况推荐下一步的治疗方案；还可以对本次病人的购药行为数据进行缓存，并将本次的购药记录通过第三信息传输模块实时反馈给所述信息采集系统。

2.根据权利要求1所述的一种基于高效用正负序列规则挖掘的中药销售系统，其特征在于，所述传输网络为有线网、局域网、Wi-Fi、个人网或3G/4G网络。

3.权利要求1或2所述的基于高效用正负序列规则挖掘的中药销售系统的工作方法，其特征在于，包括步骤如下：

(1)所述信息采集模块实时采集并保存病人的购药行为数据，购药行为数据包括病人ID、时间戳、病状、药品类型、药品剂量、药品单价；

1)所述信息处理模块对采集的病人的购药行为数据进行数据清理，数据清理是指：对于缺失值，依次确定缺失值范围、去除不需要的字段、填充缺失内容；对于重复数据，删除保留一条信息；对于不一致数据，进行数据填充；

数据清理后按照病人的病状进行数据分类，数据分类是指：首先，筛选不同的病状，并将病状作为主键进行数据分类；其次，将具有同一种病状，即主键相同的购药行为数据组成一个数据库；不同病状的购药行为数据组成的数据库相互独立，每个数据库内包含具有该病状并进行购药的病人的所有购药行为数据；

A、通过高效用正序列模式挖掘方法USpan算法从效用序列数据库中挖掘得到所有的高效用正序列模式，即病人的购药序列中药物价值大于一定值的序列，并计算每个高效用正序列模式的效用值；效用序列数据库由数据分类的数据库转化而来，方法如下：以病人ID作为主键，先从数据库中找到所有包含该病人ID的购药行为数据；将病人ID相同的购药行为数据进行合并，即去掉时间戳(购药时间)、病状，保留病人ID，将该病人购买的药品类型以及药品剂量按照时间顺序排序组成第二个字段，由此得到每个病状对应的效用序列数据库；

B、通过HUNSP算法从上述步骤A得到的高效用正序列模式中挖掘高效用负序列模式，即病人的购药序列中买了某种中药但是没有买另一种中药的高价值的购药序列；

C、通过上述高效用正或负序列模式生成高效用正或负序列规则；

所述信息管理模块对所述信息推荐系统的结果按照病状进行分类存储，并根据不同的用户权限进行数据显示，若是销售员登录，则具有一般权限，能够查看中药销售记录以及所述信息推荐系统的结果；若是超级管理员登录，除具有一般权限外，还能够进行药物单价的修改设定，并将药物单价的修改情况通过第三信息传输模块反馈给所述信息采集系统；

4.根据权利要求3所述的基于高效用正负序列规则挖掘的中药销售系统的工作方法，其特征在于，所述步骤B，通过HUNSP算法从上述步骤A得到的高效用正序列模式中挖掘高效用负序列模式，包括步骤如下：

5.根据权利要求3所述的基于高效用正负序列规则挖掘的中药销售系统的工作方法，其特征在于，所述步骤C，通过上述高效用正或负序列模式生成高效用正或负序列规则，是指：

一条高效用正序列模式或高效用负序列模式P表示为：P＝<e₁e₂e₃...e_k>，e_i代表该序列模式中的元素，k代表该序列模式中元素的个数，高效用正或负序列规则的前件是<e₁e₂e₃...e_i-1>，后件是<e_i...e_k>；长度为1的高效用负序列模式不可以作为高效用负序列规则的前件或者后件；按照此方法产生所有的高效用正序列规则和高效用负序列规则。

6.根据权利要求3所述的基于高效用正负序列规则挖掘的中药销售系统的工作方法，其特征在于，所述步骤①，计算效用值，包括：

一条序列模式t的效用值u(t)计算公式如式(Ⅰ)所示：

当前高效用正或负序列规则R的效用值u(X∪Y)如式(Ⅳ)所示：

上述三个效用值中，若有任何一个效用值小于用户设定的最小效用阈值，则删除当前规则；否则，保留当前规则并进行步骤②。

7.根据权利要求6所述的基于高效用正负序列规则挖掘的中药销售系统的工作方法，其特征在于，所述步骤②，计算效用置信度，包括：

d、计算项集的局部效用值：项集X在项集Y中的局部效用值表示为luv(X,Y)，定义为在项集Y中，项集X包含的所有项的效用值总和，项集的局部效用值计算公式如式(Ⅵ)所示：

式(Ⅶ)中，luv(X,X∪Y)表示项集X在项集X∪Y中的局部效用值，即只有在X∪Y发生的前提下才计算X的效用值；u(X)表示项集X在序列数据库中的总效用值。

8.根据权利要求7所述的基于高效用正负序列规则挖掘的中药销售系统的工作方法，其特征在于，所述步骤③，计算计算效用加权贡献率，包括：

高效用序列规则R：X→Y的效用加权贡献率计算公式如式(Ⅷ)所示：

9.根据权利要求8所述的基于高效用正负序列规则挖掘的中药销售系统的工作方法，其特征在于，m＝0.5,n＝0.5。