CN107844514A

CN107844514A - 数据挖掘方法、装置及计算机可读存储介质

Info

Publication number: CN107844514A
Application number: CN201710872621.2A
Authority: CN
Inventors: 刘新; 陆振波; 秦文礼
Original assignee: Shenzhen Yicheng Automatic Driving Technology Co Ltd
Current assignee: Shenzhen Yicheng Automatic Driving Technology Co Ltd
Priority date: 2017-09-22
Filing date: 2017-09-22
Publication date: 2018-03-27

Abstract

本发明公开了一种数据挖掘方法，包括以下步骤：获取用户输入的第一物品集，并在预设关系数据库中获取所述第一物品集对应的第二物品集；提取所述第一物品集对应的第一事务记录与所述第二物品集对应的第二事务记录；基于所述第一事务记录与所述第二事务记录，通过预设算法生成目标频繁项集；基于所述目标频繁项集生成事务关系集，其中，所述事务关系集包括第一物品集中的物品与第二物品集中的物品之间关联关系的集合。本发明还公开了一种数据挖掘装置及计算机可读存储介质。本发明根据事务记录提取频繁项集，避免了对日志数据库的反复扫描，减少了数据的处理次数，提高了数据挖掘的效率，同时减小了服务器数据处理的压力。

Description

数据挖掘方法、装置及计算机可读存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据挖掘方法、装置及计算机可读存储介质。

背景技术

随着信息数据处理需求的日益增长以及不同领域的业务种类的日益丰富，数据的处理变得越来越重要，其中数据挖掘就是数据处理的重要方面，数据挖掘目的是发现大量的数据项之间存在的值得关注的关联或相关关系，从而可以从数据中提取出有关联关系的对象组合。

目前，在对数据进行挖掘时，采用Apriori算法生成k-频繁项集，服务器需要对日志数据库进行重复扫描，产生大量候选集，服务器对候选集进行重复运算，这种方法造成数据挖掘过程中服务器数据处理次数多、数据挖掘效率低。

发明内容

本发明的主要目的在于提供一种数据挖掘方法、装置及计算机可读存储介质，旨在解决在数据挖掘时，服务器处理数据次数增多而导致数据挖掘效率低的技术问题。

为实现上述目的，本发明提供数据挖掘方法，所述方法包括以下步骤：

获取用户输入的第一物品集，并在预设关系数据库中获取所述第一物品集对应的第二物品集；

提取所述第一物品集对应的第一事务记录与所述第二物品集对应的第二事务记录；

基于所述第一事务记录与所述第二事务记录，通过预设算法生成目标频繁项集；

基于所述目标频繁项集生成事务关系集，其中，所述事务关系集包括第一物品集中的物品与第二物品集中的物品之间关联关系的集合。

优选地，所述在预设关系数据库中获取所述第一物品集对应的第二物品集的步骤包括：

基于所述第一物品集，根据预设函数对所述第一物品集进行编码操作，以得到所述第一物品集的第一编码；

基于所述第一编码，在预设关系数据库中获取第一物品集对应的关系事务集，其中，所述关系事务集包括所述第一物品集对应的事务集合；

基于所述关系事务集获取第二物品集。

优选地，所述提取所述第一物品集对应的第一事务记录与所述第二物品集对应的第二事务记录的步骤包括：

基于所述第一编码提取所述第一物品集对应的第一事务记录；

基于所述关系事务集获取所述第二物品集对应的第二编码，并基于所述第二编码提取所述二物品集对应的第二事务记录。

优选地，述基于所述第一事务记录与所述第二事务记录，通过预设算法生成目标频繁项集的步骤包括：

将第一物品集中的至少一个元素与第二物品集中的至少一个元素分别进行组合，并将组合后得到的集合作为项集；

基于所述第一事务记录与所述第二事务记录获取所述项集中的各个集合对应的支持度；

将所述项集中的支持度大于预设支持度的集合作为目标频繁项集。

优选地，所述将所述项集中的支持度大于预设支持度的集合作为目标频繁项集的步骤包括：

基于所述第一事务记录与所述第二事务记录获取所述项集中的支持度大于预设支持度的集合对应的置信度；

将所述项集中的支持度大于预设支持度的集合中，置信度大于预设置信度的子集合作为目标频繁项集。

优选地，所述获取用户输入的第一物品集，并在预设关系数据库中获取所述第一物品集对应的第二物品集的步骤之前，所述数据挖掘方法包括：

获取预设数据库中的标准日志数据，其中，所述标准日志数据包括多个事务的物品集；

分别将所述标准日志数据中的各个物品集及所述标准日志数据对应的日志ID进行编码操作，以得到各个所述物品集对应的物品集编码及所述日志ID对应的日志编码；

将各个所述物品集编码与所述日志编码进行关联存储，基于存储结果获取各个所述物品集对应的事务记录，并基于获取到的各个事务记录生成事务记录集；

按照预设顺序依次基于所述事务记录集中的两个事务记录，生成一阶事务关系，并将所述一阶事务关系与所述日志编码进行关联存储。

优选地，所述分别将所述标准日志数据中的各个物品集及所述标准日志数据对应的日志ID进行编码操作，以得到各个所述物品集对应的物品集编码及所述日志ID对应的日志编码的步骤包括：

根据预设函数对所述日志ID进行编码操作，以得到所述日志编码；

根据预设函数对所述物品集中的各个物品的标识信息进行编码操作，以得到所述物品集编码。

优选地，所述按照预设顺序依次基于所述事务记录集中的两个事务记录，生成一阶事务关系的步骤包括：

按照预设顺序依次获取所述事务记录集中的两个事务记录；

分别获取两个所述事务记录对应的两个物品集中的一个元素，并将获取到的元素进行组合，以得到组合后的集合；

基于两个所述事务记录，获取各个所述集合对应的支持度与置信度，并基于两个所述事务记录、所述支持度及置信度生成一阶事务关系。

此外，为实现上述目的，本发明还提供一种数据挖掘装置，数据挖掘装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据挖掘程序，所述数据挖掘程序被所述处理器执行时实现上述任一项数据挖掘方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有数据挖掘程序，所述数据挖掘程序被处理器执行时实现上述任一项数据挖掘方法的步骤。

本发明通过获取用户输入的第一物品集，并在预设关系数据库中获取所述第一物品集对应的第二物品集，接着提取所述第一物品集对应的第一事务记录与所述第二物品集对应的第二事务记录，然后基于所述第一事务记录与所述第二事务记录，通过预设算法生成目标频繁项集，最后基于所述目标频繁项集生成事务关系集，其中，所述事务关系集包括第一物品集中的物品与第二物品集中的物品之间关联关系的集合；根据事务记录提取频繁项集，避免了对日志数据库的反复扫描，减少了数据的处理次数，提高了数据挖掘的效率，同时减小了服务器数据处理的压力。

附图说明

图1是本发明实施例方案涉及的硬件运行环境中数据挖掘装置所属终端的结构示意图；

图2为本发明数据挖掘方法第一实施例的流程示意图；

图3为本发明数据挖掘方法第二实施例中所述在预设关系数据库中获取所述第一物品集对应的第二物品集的步骤的细化流程示意图；

图4为本发明数据挖掘方法第三实施例中所述提取所述第一物品集对应的第一事务记录与所述第二物品集对应的第二事务记录的步骤的细化流程示意图；

图5为本发明数据挖掘方法第四实施例中所述基于所述第一事务记录与所述第二事务记录，通过预设算法生成目标频繁项集的步骤的细化流程示意图；

图6为本发明数据挖掘方法第五实施例中所述将所述项集中的支持度大于预设支持度的集合作为目标频繁项集的步骤的细化流程示意图；

图7为本发明数据挖掘方法第六实施例的流程示意图；

图8为本发明数据挖掘方法第七实施例中所述分别将所述标准日志数据中的各个物品集及所述标准日志数据对应的日志ID进行编码操作的步骤的细化流程示意图；

图9为本发明数据挖掘方法第八实施例中所述按照预设顺序依次基于所述事务记录集中的两个事务记录，生成一阶事务关系的步骤的细化流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例终端可以是PC。如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，终端还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在移动终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作服务器、网络通信模块、用户接口模块以及数据挖掘程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的数据挖掘程序。

在本实施例中，数据挖掘装置包括：存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的数据挖掘程序，其中，处理器1001调用存储器1005中存储的数据挖掘程序时，执行以下操作：

进一步地，处理器1001可以调用存储器1005中存储的数据挖掘程序，还执行以下操作：

基于所述关系事务集获取第二物品集。

按照预设顺序依次获取所述事务记录集中的两个事务记录；

本发明进一步提供一种数据挖掘方法。参照图2，图2为本发明数据挖掘方法第一实施例的方法示意图。

在本实施例中，该数据挖掘方法包括：

步骤S100，获取用户输入的第一物品集，并在预设关系数据库中获取所述第一物品集对应的第二物品集；

在本实施例中，用户在输入界面输入所要查询的物品名称，该物品包括商品、病症类型、生物行为、物理或者化学反应等，其中，该物品名称可以包括汉字、英文、字符、字符串等。第一物品集是指用户想要查询与其他物品之间存在事务关系的物品集合，例如，用户想要查询查询一天卖出的面包与其他商品存在的事务关系，则用户在输入界面输入“面包”的汉字或英文等，又例如，用户想要查询发烧与其他感冒症状的事务关系，则可以在输入界面输入“发烧”的汉字或英文等。

其中，预设关系数据库包括一阶关系数据库，在一阶关系数据库中，包括第一物品集与第二物品集的一阶事务关系，即包括第一物品集对应的第一事务与第二物品集对应的第二事务的关系事务集，具体地，首先通过预设函数将第一物品集中的物品进行编码操作，得到编码操作后第一物品集编码，通过第一物品集编码，服务器在一阶关系数据库获取第一物品集与第二物品集的关系事务集，然后根据关系事务集能够查询到与第一物品集存在一阶事务关系的第二物品集对应的事务字典库，然后在第二物品集对应的事务字典库中获取第二物品集编码，该编码可以通过解码操作进行解码，将物品集中的各个编码转化成该物品集中的对应的所有物品名称，即可获得第二物品集，其中，关系事务集包括与第一物品集具有事务关系的所有物品的集合。

当用户输入的物品名称在预设数据库中找不到该物品名称时，服务器则会在输出界面提示找不到该物品，当用户输入的物品名称与其他事务中的物品不存在一阶事务关系时，服务器则会输出一个空集。

步骤S200，提取所述第一物品集对应的第一事务记录与所述第二物品集对应的第二事务记录；

在本实施例中，事务记录包括事务对应物品在日志数据库中出现的位置、个数、频率等，例如，将顾客去超市买商品作为一个事务，事务记录就包括顾客购买的商品个数、顾客购买的商品在数据库中的位置、顾客购买商品的时间、购买的商品名称等。

步骤S300，基于所述第一事务记录与所述第二事务记录，通过预设算法生成目标频繁项集；

在本实施例中，预设算法包括Apriori算法，首先将第一物品集中的至少一个元素与第二物品集中的至少一个元素进行组合，并将组合后得到的集合作为项集，根据第一事务记录与第二事务记录获取项集中各个集合对应的支持度，再根据第一事务记录与第二事务记录获取项集中的支持度大于预设支持度的集合对应的置信度，将所述项集中的支持度大于预设支持度的集合中，置信度大于预设置信度的子集合作为目标频繁项集。

当然，可以根据其他算法生成目标频繁项集，本实施例对预设算法不作具体限定。

步骤S400，基于所述目标频繁项集生成事务关系集，其中，所述事务关系集包括第一物品集中的物品与第二物品集中的物品之间关联关系的集合。

在本实施例中，事务关系集包括第一物品集中的物品与第二物品集中的物品之间关联关系的集合，即该事务关系集包括一阶事务关系、二阶事务关系、多阶事务关系，例如，顾客去超市购买商品为事务A，事务A的物品集为(面包，牛奶，啤酒)，购买商品的年龄段为事务B，事务B的物品集为(11-20岁，21-30岁)，一阶事务关系包括，面包与11-20岁的事务关系，用面包→11-20岁表示，一阶事务关系还包括牛奶→11-20岁、面包→11-20岁等，二阶事务关系包括，面包、牛奶与11-20岁的事务关系，可以用(面包，牛奶)→11-20岁表示，二阶事务关系还包括，(面包，啤酒)→11-20岁、(面包，啤酒)→21-30岁等。

在生成的事务关系集时，服务器会输出多个事务关系，事务关系在输出界面直接显示，输出的事务关系包括一阶事务关系、二阶事务关系、多阶事务关系以及一阶事务关系、二阶事务关系、多阶事务关系中对应的置信度、支持度及物品在预设数据库中出现的频率即次数，其中预设数据库包括日志数据库。

本实施例提出的数据挖掘方法，通过获取用户输入的第一物品集，并在预设关系数据库中获取所述第一物品集对应的第二物品集，接着提取所述第一物品集对应的第一事务记录与所述第二物品集对应的第二事务记录，然后基于所述第一事务记录与所述第二事务记录，通过预设算法生成目标频繁项集，最后基于所述目标频繁项集生成事务关系集，其中，所述事务关系集包括第一物品集中的物品与第二物品集中的物品之间关联关系的集合；根据事务记录提取频繁项集，避免了对日志数据库的反复扫描，减少了数据的处理次数，提高了数据挖掘的效率，同时减小了服务器数据处理的压力。

基于第一实施例，提出本发明数据挖掘方法的第二实施例，参照图3，在本实施例中，步骤S100包括：

步骤S110，基于所述第一物品集，根据预设函数对所述第一物品集进行编码操作，以得到所述第一物品集的第一编码；

在本实施例中，预设函数包括哈希函数，将物品集中的各个物品的标识信息作为自变量代入哈希函数中得到的取值则为各个元素对应的编码，该编码的集合则为该物品集编码，其中，标识信息包括物品的名称及种类等。每个不同物品的标识信息通过该哈希函数得到的编码都不相同，即每个物品对应的编码是唯一的，该编码包括数字编号、字母等。

步骤S120，基于所述第一编码，在预设关系数据库中获取第一物品集对应的关系事务集，其中，所述关系事务集包括所述第一物品集对应的事务集合；

在本实施例中，预设关系数据库包括一阶关系数据库，在一阶关系数据库中包括第一物品对应的关系事务集、第一物品对应日志的日志编码、第一物品集中的物品与第二物品集的物品存在一阶事务关系时对应的支持度与置信度等。在一阶关系数据库中，获取与第一物品集中物品有关联关系的所有物品集合，即第一物品集对应的关系事务集。

步骤S130，基于所述关系事务集获取第二物品集。

在本实施例中，该关系事务集包括与第一物品集中的物品具有一阶事务关系的所有物品集合，其中，该关系事务集中的物品都是以编码的形式存在，根据第一物品集编码可以在关系事务集中获取第二物品集对应的第二编码，该第二编码可以通过解码得到第二编码对应的第二物品集。

本实施例提出的数据挖掘方法，通过基于所述第一物品集，根据预设函数对所述第一物品集进行编码操作，以得到所述第一物品集的第一编码，然基于所述第一编码，在预设关系数据库中获取第一物品集对应的关系事务集，其中，所述关系事务集包括所述第一物品集对应的事务集合，最后基于所述关系事务集获取第二物品集；直接在关系事务集中提取事务的物品集，不用再次扫面日志数据库，进一步提高了数据挖掘的效率，对物品进行编码，减小了数据字节，进而减小了数据的存储量，同时减小了服务器数据的处理压力。

基于第一实施例，提出本发明数据挖掘方法的第三实施例，参照图4，在本实施例中，步骤S200包括：

步骤S210，基于所述第一编码提取所述第一物品集对应的第一事务记录；

在本实施例中，第一事务记录包括第一物品集对应的第一编码，服务器根据第一编码可以在预设数据库中查询到第一物品集对应的第一事务记录，该第一事务记录的内容包括第一物品集中各个物品的个数、频率、位置等。

步骤S220，基于所述关系事务集获取所述第二物品集对应的第二编码，并基于所述第二编码提取所述第二物品集对应的第二事务记录。

在本实施例中，关系事务集中包括与第一物品集中的物品存在事务关系的第二物品集中的物品，可以根据第一物品集对应的第一编码查询第二物品集，并在第二物品集对应的事务字典库中获取第二物品集对应的第二编码，根据该第二编码获取第二物品集对应的第二事务记录。其中，在该事务字典库中包括该事务字典库对应物品集的物品集编码及物品集对应的日志编码。

本实施例提出的数据挖掘方法，通过基于所述第一编码提取所述第一物品集对应的第一事务记录，然后基于所述关系事务集获取所述第二物品集对应的第二编码，并基于所述第二编码提取所述第二物品集对应的第二事务记录；提取第一事务记录与第二事务记录后，能够直接在第一事务记录与第二事务记录中直接获取对应的频繁项集，避免了在预设数据库中进行获取，从而减小了数据的处理数量，提高了数据挖掘的效率。

基于第一实施例，提出本发明数据挖掘方法的第四实施例，参照图5，在本实施例中，步骤S300包括：

步骤S310，将第一物品集中的至少一个元素与第二物品集中的至少一个元素分别进行组合，并将组合后得到的集合作为项集；

在本实施例中，将第一物品集中的至少一个元素与第二物品集中的至少一个元素分别进行组合，服务器根据生成事务关系的等级来决定在第一物品集与第二物品集获取元素的个数，并且根据一阶事务关系可以生成二阶事务关系，根据二阶事务关系可以生成多阶事务关系，具体地，例如，有物品集为A(牛奶，面包，啤酒)、物品集B(21-30岁，11-20岁)，则可以将将(牛奶，21-30岁)、(啤酒，21-30岁)、(面包，21-30岁)、(啤酒，11-21岁)、(面包，11-21岁)、(牛奶，11-21岁)等集合作为项集。

进一步地，在根据一阶事务关系生成二阶事务关系过程中，将第一物品集的两个元素与第二物品集各个元素进行组合，得到的组合作为项集，当然也可以将第二物品集的两个元素与第一物品集的各个元素进行组合，得到的组合作为项集，例如，在物品集为A(牛奶，面包，啤酒)、物品集B(21-30岁，11-20岁)中，可以将(牛奶，面包，21-30岁)、(牛奶，啤酒，21-30岁)、(牛奶，面包，11-20岁)、(牛奶，啤酒，11-20岁)、(啤酒，面包，21-30岁)作为项集。

步骤S320，基于所述第一事务记录与所述第二事务记录获取所述项集中各个集合对应的支持度；

在本实施例中，事务记录包括事务记录对应物品集中的物品在日志数据库中出现的次数、位置等，在一阶事务关系生成时，服务器在第一事务记录与第二事务记录中获取该一阶事务关系对应的第一物品与第二物品的1-公共事务记录，当由一阶事务关系生成二阶事务关系时，服务器不需要在第一事务记录与第二事务记录中重新获取第一物品与第二物品对应的事务记录，仅需要在第一事务记录或者第二事务记录中获取第三物品对应的事务记录，直接根据该第一物品与第二物品的1-公共事务记录与该第三物品对应的事务记录获取集合对应的支持度，同时将生成1-公共事务记录与第三物品对应的事务记录的2-公共事务记录。多阶事务关系的生成与一阶事务关系生成二阶事务关系的方法一致。

进一步地，根据第一事务记录与第二事务记录获取各个项集中对应的支持度，在一阶事务关系生成过程中，该支持度为在所有事务中第一物品与第二物品同时出现的概率，在二阶事务关系生成过程中，该支持度为所有事务中第一物品、第二物品及第三物品同时出现的概率。在多阶事务关系的生成过程中，该支持度的计算与一阶事务关系、二阶事务关系生成过程中支持度的计算方法一致。

步骤S330，将所述项集中的支持度大于预设支持度的集合作为目标频繁项集。

在本实施例中，预设支持度是由用户根据所要研究的事务关系进行设定，将项集中的支持度大于预设支持度的集合作为目标频繁项集，例如，在步骤S310中，在一阶关系库中获取该项集中各个集合对应的支持度，该项集中各个集合对应的支持度同样是根据该集合中各个物品对应的事务记录进行计算获得的，当该集合对应的支持度大于预设支持度时，则将集合(牛奶，21-30岁)、(啤酒，21-30岁)、(面包，21-30岁)、(啤酒，11-21岁)、(面包，11-21岁)、(牛奶，11-21岁)作为目标频繁项集。

进一步地，在根据一阶事务关系生成二阶事务关系的过程中，例如，在步骤S310中，当该项集中各个集合对应的支持度都大于预设支持度，则将(牛奶，面包，21-30岁)(牛奶，啤酒，21-30岁)(牛奶，面包，11-20岁)(牛奶，啤酒，11-20岁)(啤酒，面包，21-30岁)作为目标频繁项集。

本实施例提出的数据挖掘方法，通过将第一物品集中的至少一个元素与第二物品集中的至少一个元素分别进行组合，并将组合后得到的集合作为项集，然后基于所述第一事务记录与所述第二事务记录获取所述项集中的各个集合对应的支持度，最后将所述项集中的支持度大于预设支持度的集合作为目标频繁项集；通过对预设支持度的判断，能够准确快速地筛选出有效的项集作为频繁项集，同时减少了无效数据的处理，进一步提高了数据挖掘的效率。

基于第四实施例，提出本发明数据挖掘方法的第五实施例，参照图6，在本实施例中，所述数据挖掘方法的步骤之前还包括以下步骤：

步骤S331，基于所述第一事务记录与所述第二事务记录获取所述项集中的支持度大于预设支持度的集合对应的置信度；

在本实施例中，事务记录包括事务记录对应物品集中的物品在日志数据库中出现的次数、位置等，在一阶事务关系生成时，服务器在第一事务记录与第二事务记录中获取该一阶事务关系对应的第一物品与第二物品的1-公共事务记录，当由一阶事务关系生成二阶事务关系时，服务器不需要在第一事务记录与第二事务记录中重新获取第一物品与第二物品对应的事务记录，仅需要在第一事务记录或者第二事务记录中获取第三物品对应的事务记录，直接根据该第一物品与第二物品的1-公共事务记录与该第三物品对应的事务记录获取集合对应的置信度，同时将生成1-公共事务记录与第三物品对应的事务记录的2-公共事务记录。多阶事务关系的生成与一阶事务关系生成二阶事务关系的方法一致。

进一步地，该置信度为条件概率，即出现第一事件的情况下出现第二事件的概率，例如，在步骤S310中，根据第一事务记录与第二事务记录获取项集中的支持度大于预设支持度的集合对应的置信度，在一阶事务关系生成过程中，该置信度为第一物品出现的情况下第二物品出现的概率，在二阶事务关系生成过程中，该置信度为第一物品出现的情况下第二物品与第三物品同时出现的概率。

步骤S332，将所述项集中的支持度大于预设支持度的集合中，置信度大于预设置信度的子集合作为目标频繁项集。

在本实施例中，预设置信度是由用户根据所要研究的事务关系进行设定，将项集中的支持度大于预设支持度的集合中，置信度大于预设置信度的子集合作为目标频繁项集，例如，在步骤S310中，在一阶关系库中获取该项集中各个集合对应的置信度，该项集中各个集合对应的置信度同样是根据该集合中各个物品对应的事务记录进行计算获得，当该集合对应的置信度大于预设置信度时，则将集合(牛奶，21-30岁)、(啤酒，21-30岁)、(面包，21-30岁)、(啤酒，11-21岁)、(面包，11-21岁)、(牛奶，11-21岁)作为目标频繁项集，该频繁项集对应的一阶事务关系表示为，牛奶→21-30岁、面包→21-30岁、啤酒→21-30岁、啤酒→11-21岁、面包→11-21岁、牛奶→11-21岁。

进一步地，在根据一阶事务关系生成二阶事务关系的过程中，例如，在步骤S310中，当该项集中各个集合对应的置信度都大于预设置信度，则将(牛奶，面包，21-30岁)(牛奶，啤酒，21-30岁)(牛奶，面包，11-20岁)(牛奶，啤酒，11-20岁)(啤酒，面包，21-30岁)作为目标频繁项集，该频繁项集对应的二阶事务关系表示为(牛奶，面包)→21-30岁、(牛奶，啤酒)，21-30岁→(牛奶，面包)，11-20岁、(牛奶，啤酒)→11-20岁、(啤酒，面包)→21-30岁，多阶事务关系的生成与一阶事务关系生成二阶事务关系的方法一样，根据事务关系等级增加，该事务关系对应的频繁项集中的元素也依次增加，例如，三阶事务关系对应的频繁项集包括(牛奶，面包，啤酒，11-20)等。

本实施例提出的数据挖掘方法，通过基于所述第一事务记录与所述第二事务记录获取所述项集中的支持度大于预设支持度的集合对应的置信度，然后将所述项集中的支持度大于预设支持度的集合中，置信度大于预设置信度的子集合作为目标频繁项集；通过对预设置信度的判断，进一步准确快速地筛选出有效的项集作为目标频繁项集，同时避免了对无效数据的处理，进一步提高了数据挖掘的效率。

基于上述施例，提出本发明数据挖掘方法的第六实施例，参照图7，在本实施例中，步骤S100之前还包括以下步骤：

步骤S500，获取预设数据库中的标准日志数据，其中，所述标准日志数据包括多个事务的物品集；

在本实施例中，预设数据库包括日志数据库，服务器对日志数据库进行扫描，得到标准的日志数据，该标准日志数据包括多个事务的物品集，并且在该标准日志数据中包括日志ID、事务的物品集等参量，该标准日志数据至少包括三个参量，即该标准日志数据至少包括两个事务的物品集，在每个事务的物品集中包含n个物品，其中n为大于1的整数，例如，物品集A_id＝(a₁，a₂，…，a_n)，物品集B_id＝(b₁，b₂，…，b_n)，其中，id为事务A与事务B的物品集所在日志ID，a₁，a₂，…，a_n与b₁，b₂，…，b_n分别为物品集中的物品，数量为n个。

步骤S600，分别将所述标准日志数据中的各个物品集及所述标准日志数据对应的日志ID进行编码操作，以得到各个所述物品集对应的物品集编码及所述日志ID对应的日志编码；

在本实施例中，对各个物品集与该日志ID进行编码操作，即对每个物品集中的物品与该日志ID进行编码操作。具体地，服务器将该日志ID与物品集中的物品的标识信息代入该哈希函数，得到的取值即为该日志ID与物品集中的物品对应的编码，即得到该日志编码与物品集编码。其中，该标识信息包括物品的名称、种类等，且物品的标识信息的存在形式包括汉字、字符或字符串、英文等。

步骤S700，将各个所述物品集编码与所述日志编码进行关联存储，基于存储结果获取各个所述物品集对应的事务记录，并基于获取到的各个事务记录生成事务记录集；

在本实施例中，关联存储包括将物品集编码与日志编码存储在该物品集对应的事务字典库中，每个物品集对应不同的事务，每个事务对应的事务字典库不同，例如，物品集A_id＝(a₁，a₂，…，a_n)表示事务A的物品集，物品集B_id＝(b₁，b₂，…，b_n)表示事务B的物品集。该事务字典库在服务器获取标准日志时，根据不同的事务在数据库中生成对应的事务字典库，例如，根据事务A与事务B分别生成了事务A字典库与事务B字典库。将物品集编码与日志编码关联存储时，服务器在日志数据库中获取各个物品对应的事务记录，并且各个物品对应的事务记录组成事务记录集。

步骤S800，依次基于所述事务记录集中的两个事务记录，生成一阶事务关系，并将所述一阶事务关系与所述日志编码进行关联存储。

在本实施例中，预设顺序包括根据事务记录集中的任意两个事务记录，生成一阶事务关系，例如，根据事务记录集中事务记录A与事务记录B生成A与B的一阶事务关系，还可以根据事务记录A与事务记录C生成A与C的一阶事务关系。在生成一阶事务关系时，同时将该一阶事务关系与该日志编码一起存储在一阶关系数据库中。

本实施例提出的数据挖掘方法，通过获取预设数据库中的标准日志数据，其中，所述标准日志数据包括多个事务的物品集，接着分别将所述标准日志数据中的各个物品集及所述标准日志数据对应的日志ID进行编码操作，以得到各个所述物品集对应的物品集编码及所述日志ID对应的日志编码，然后将各个所述物品集编码与所述日志编码进行关联存储，基于存储结果获取各个所述物品集对应的事务记录，并基于获取到的各个事务记录生成事务记录集，最后按照预设顺序依次基于所述事务记录集中的两个事务记录，生成一阶事务关系，并将所述一阶事务关系与所述日志编码进行关联存储；服务器只需对日志数据库进行一次扫描生成一阶事务关系存储在一阶关系数据库中，在进行数据挖掘时直接利用该一阶事务关系生成二阶事务关系不需要对日志数据库反复进行扫描，减少了服务器的数据处理次数，进而提高了数据挖掘效率。

基于第六实施例，提出本发明数据挖掘方法的第七实施例，参照图8，在本实施例中，所述数据挖掘方法的步骤之前还包括以下步骤：

步骤S610，根据预设函数对所述日志ID进行编码操作，以得到所述日志编码；

步骤S620，根据预设函数对所述物品集中的各个物品的标识信息进行编码操作，以得到所述物品集编码。

在本实施例中，预设函数包括哈希函数，将日志ID与该物品集中的各个物品的标志信息作为自变量代入哈希函数，得到的取值则为高日志编码与该物品集编码，该物品集包括所有物品对应的编码。

本实施例提出的数据挖掘方法，通过根据预设函数对所述日志ID进行编码操作，以得到所述日志编码，然后根据预设函数对所述物品集中的各个物品的标识信息进行编码操作，以得到所述物品集编码；通过对日志ID与事务集编码，减短了数据的字节，进一步提高了数据挖掘的效率。

基于第六实施例，提出本发明数据挖掘方法的第八实施例，参照图9，在本实施例中，步骤S800包括：

S810，依次获取所述事务记录集中的两个事务记录；

在本实施例中，预设顺序包括根据事务记录集中的任意两个事务记录，生产一阶事务关系，例如，根据事务记录集中事务记录A与事务记录B生成A与B的一阶事务关系，还可以根据事务记录A与事务记录C生成A与C的一阶事务关系。

步骤S820，分别获取两个所述事务记录对应的两个物品集中的一个元素，并将获取到的元素进行组合，以得到组合后的集合；

在本实施例中，服务器在该事务记录对应的两个物品集中分别获取一个元素进行组合，将组合后的两个元素作为一个集合，例如，物品集A(面包，啤酒，牛奶)，物品集B(11-20岁，21-30岁)，将A物品集一个元素与B物品集的一个元素进行组合，得到组合后的集合包括，(牛奶，21-30岁)、(啤酒，21-30岁)、(面包，21-30岁)、(啤酒，11-21岁)、(面包，11-21岁)、(牛奶，11-21岁)。

步骤S830，基于两个所述事务记录，获取各个所述集合对应的支持度与置信度，并基于两个所述事务记录、所述支持度及置信度生成一阶事务关系。

在本实施例中，根据两个该事务记录，获取各个集合的支持度与置信度，该支持度与置信度为两个物品的一阶事务关系对应的支持度与置信度，根据两个该事务记录生成一阶事务关系，将该一阶事务关系、该两个一阶事务记录、支持度及置信度一起存储在一阶关系数据库中。

本实施例提出的数据挖掘方法，通过按照预设顺序依次获取所述事务记录集中的两个事务记录，然后分别获取两个所述事务记录对应的两个物品集中的一个元素，并将获取到的元素进行组合，以得到组合后的集合，最后基于两个所述事务记录，获取各个所述集合对应的支持度与置信度，并基于两个所述事务记录、所述支持度及置信度生成一阶事务关系；根据事务记录生成的一阶事务关系可以在数据挖掘过程中直接进行利用，服务器不用再对日志数据库进行扫描，减少了数据处理的次数，进而提高了数据挖掘的效率。

本发明还提供一种计算机可读存储介质，在本实施例中，计算机可读存储介质上存储有数据挖掘程序，其中：

进一步地，该数据挖掘程序被所述处理器执行时，还实现如下步骤：

基于所述关系事务集获取第二物品集。

按照预设顺序依次获取所述事务记录集中的两个事务记录；

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种数据挖掘方法，其特征在于，所述数据挖掘方法包括以下步骤：

2.如权利要求1所述的数据挖掘方法，其特征在于，所述在预设关系数据库中获取所述第一物品集对应的第二物品集的步骤包括：

基于所述关系事务集获取第二物品集。

3.如权利要求1所述的数据挖掘方法，其特征在于，所述提取所述第一物品集对应的第一事务记录与所述第二物品集对应的第二事务记录的步骤包括：

4.如权利要求1所述的数据挖掘方法，其特征在于，所述基于所述第一事务记录与所述第二事务记录，通过预设算法生成目标频繁项集的步骤包括：

5.如权利要求4所述的数据挖掘方法，其特征在于，所述将所述项集中的支持度大于预设支持度的集合作为目标频繁项集的步骤包括：

6.如权利要求1至5任一项所述的数据挖掘方法，其特征在于，所述获取用户输入的第一物品集，并在预设关系数据库中获取所述第一物品集对应的第二物品集的步骤之前，所述数据挖掘方法包括：

依次基于所述事务记录集中的两个事务记录，生成一阶事务关系，并将所述一阶事务关系与所述日志编码进行关联存储。

7.如权利要求6所述的数据挖掘方法，其特征在于，所述分别将所述标准日志数据中的各个物品集及所述标准日志数据对应的日志ID进行编码操作，以得到各个所述物品集对应的物品集编码及所述日志ID对应的日志编码的步骤包括：

8.如权利要求6所述的数据挖掘方法，其特征在于，所述依次基于所述事务记录集中的两个事务记录，生成一阶事务关系的步骤包括：

依次获取所述事务记录集中的两个事务记录；

9.一种数据挖掘装置，其特征在于，所述数据挖掘装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据挖掘程序，所述数据挖掘程序被所述处理器执行时实现如权利要求1至8中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有数据挖掘程序，所述数据挖掘程序被处理器执行时实现如权利要求1至8中任一项所述的数据挖掘方法步骤。