CN104123312B

CN104123312B - 一种数据挖掘方法和装置

Info

Publication number: CN104123312B
Application number: CN201310156083.9A
Authority: CN
Inventors: 严骏驰; 王瑜; 朱俊; 田春华; 潘小勇
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2013-04-28
Filing date: 2013-04-28
Publication date: 2018-02-16
Anticipated expiration: 2033-04-28
Also published as: CN104123312A

Abstract

本发明涉及数据挖掘，其公开了一种数据挖掘方法和装置，该方法包括：收集信息完备的事件集合的数据和信息不完备的事件集合的数据；利用所述信息完备的事件集合的数据训练至少一个预测模型；获取所述信息不完备的事件集合的数据与所述至少一个预测模型的相关度；根据获取的相关度为所述信息不完备的事件集合匹配对应的预测模型；以及利用所述匹配的预测模型的数据补充所述信息不完备的事件集合的数据。根据本发明实施例的数据挖掘方法利用事件的动态数据和预测模型的数据来填充缺失的数据，即使在已知的静态数据非常少或者已知的静态数据质量很差的情况下，依然能够实现较精准的数据填充。

Description

一种数据挖掘方法和装置

技术领域

本发明涉及数据挖掘，更具体地，涉及对缺失的事件信息进行补充的方法和装置。

背景技术

随着软硬件计算能力的增强，大数据时代的来临和商业智能的日趋重要，越来越多的分析技术和系统工具被人们研发出来，分析和挖掘社会和商业活动中产生的大量数据，以此达到决策支持，归纳总结等目的。目前大多数工作关注和解决如何在给定的数据集上更好地挖掘潜在的信息，其前提往往假设数据本身是完整和准确的。

然而现实世界的数据常常有缺失、不一致、精度低和噪声多等数据质量的问题。需要进行数据预处理来提高数据精度和清洗数据。目前方案往往是利用部分完整的数据样本的静态数据来推断和补全另一部分缺失或者不精确的数据样本的静态数据，具体实现采用聚类、回归、分类等技术，而这些方案在缺失数据所占总体数据比重较大，或者缺失的静态数据和已有的静态数据之间相关性不大的情况时，往往效果不理想。

因此需要一种新的数据挖掘方法，在已知的静态数据非常少或者已知的静态数据质量很差的情况下，依然能够实现较精准的数据填充。

发明内容

根据本发明的一个方面，提供了一种数据挖掘方法，包括：收集信息完备的事件集合的数据和信息不完备的事件集合的数据；利用所述信息完备的事件集合的数据训练至少一个预测模型；获得所述信息不完备的事件集合的数据与所述至少一个预测模型的相关度；根据获取的相关度为所述信息不完备的事件集合匹配对应的预测模型；以及利用所述匹配的预测模型的数据补充所述信息不完备的事件集合的数据。

根据本发明的另一个方面，提供了一种数据挖掘装置，包括：数据收集模块，被配置为收集信息完备的事件集合的数据和信息不完备的事件集合的数据；模型训练模块，被配置为利用所述信息完备的事件集合的数据训练至少一个预测模型；相关度获取模块，被配置为获得所述信息不完备的事件集合的数据与所述至少一个预测模型的相关度；模型匹配模块，被配置为根据获取的相关度为所述信息不完备的事件集合匹配对应的预测模型；以及数据补充模块，被配置为利用所述匹配的预测模型的数据补充所述信息不完备的事件集合的数据。

根据本发明实施例的数据挖掘方法和装置利用事件的动态数据和预测模型的数据来填充缺失的数据，即使在已知的静态数据非常少或者已知的静态数据质量很差的情况下，依然能够实现较精准的数据填充。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。

图2示出根据本发明实施例的数据挖掘方法。

图3示出本发明的一个实施例的用户与模型的对应关系图。

图4示出根据本发明一个实施例的数据挖掘装置400。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

所属技术领域的技术人员知道，本发明可以实现为系统、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件（包括固件、驻留软件、微代码等），还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

下面将参照本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instructionmeans)的制造品（manufacture）。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图1显示的计算机系统/服务器12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图1所示，计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件（包括系统存储器28和处理单元16）的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构（ISA）总线，微通道体系结构（MAC）总线，增强型ISA总线、视频电子标准协会（VESA）局域总线以及外围组件互连（PCI）总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器（RAM）30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质（图1未显示，通常称为“硬盘驱动器”）。尽管图1中未示出，可以提供用于对可移动非易失性磁盘（例如“软盘”）读写的磁盘驱动器，以及对可移动非易失性光盘（例如CD-ROM,DVD-ROM或者其它光介质）读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组（至少一个）程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器12也可以与一个或多个外部设备14（例如键盘、指向设备、显示器24等）通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备（例如网卡，调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口22进行。并且，计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机系统/服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

图2示出根据本发明实施例的数据挖掘方法，包括：在步骤S201，收集信息完备的事件集合的数据和信息不完备的事件集合的数据；在步骤S202，利用所述信息完备的事件集合的数据训练至少一个预测模型；在步骤S203，获取所述信息不完备的事件集合的数据与所述至少一个预测模型的相关度；在步骤S204，根据获取的相关度为所述信息不完备的事件集合匹配对应的预测模型；在步骤S205，利用所述匹配的预测模型的数据补充所述信息不完备的事件集合的数据。

在步骤S201，收集信息完备的事件集合的数据和信息不完备的事件集合的数据其中所述信息完备的事件集合的数据包括事件集合的动态数据和静态数据，所述信息不完备的事件集合的数据包括事件集合的有缺失的动态数据和静态数据的至少之一，其中事件的动态数据是指随时间变化而改变的数据，包括事件发生的时间、事件参与者以及购买商品种类等其它上下文信息。事件参与者的静态数据是指不随时间变化而改变的数据，包括事件参与者注册的个人用户信息，例如姓名、性别、职业以及地区。

在步骤S202，利用所述信息完备的事件集合的数据训练至少一个预测模型，具体地，利用所述信息完备的事件集合中各个事件的参与者的静态数据对事件的参与者进行分类。利用同一类参与者的事件样本估计该同一类参与者的事件集合中各个事件独立发生的概率以及各个事件的转移概率，其中各个事件的转移概率是指在各个事件相互关联的情况下，在前一个事件发生后，后一个事件发生的概率，例如可以通过马尔科夫预测法（Markov）来实现事件的转移概率的计算，马尔科夫预测法就是一种预测事件发生的概率的方法。它是基于马尔可夫链，根据事件的目前状况预测其将来各个时刻（或时期）变动状况的一种预测方法。马尔可夫预测法的基本要求是状态转移概率矩阵必须具有一定的稳定性。因此，必须具有足够的统计数据，才能保证预测的精度与准确性。利用马尔可夫预测法中的状态转移概率矩阵来计算事件的转移概率，其中状态转移概率是指在事件的发展变化过程中，从某一种状态出发，下一时刻转移到其它状态的可能性，称为状态转移概率，由状态E_i转为状态E_j的状态转移概率是：

P(E_i→E_j)=P(E_j/E_i)=P_ij

在状态转移概率的基础上计算状态转移概率矩阵。假定某一个事件的发展过程有n个可能的状态，即E₁，E₂，…，E_n。记为从状态E_i转变为状态E_j的状态转移概率P(E_i→E_j)，则状态转移概率矩阵为：

本领域技术人员可以理解，现有技术中还有很多计算转移概率的方法，例如状态机模型和隐马尔科夫模型，在此不一一赘述。

最后，基于各个事件独立发生的概率和各个事件的转移概率建立对应于该同一类参与者的预测模型。

在步骤S203，获取所述信息不完备的事件集合的数据与所述至少一个预测模型的相关度，具体地，将所述信息不完备的事件集合中的事件划分为不同的事件序列组合；对于每个事件序列组合计算在预测模型下的相关度，即，计算该事件序列组合在各个预测模型下发生的概率，并将计算的概率作为相关度的指标，已知各个事件序列组合的相关动态信息，比如发生时间、上下文信息等，来计算在前一事件发生后，后一事件接着发生的概率。

在步骤S204，根据获取的相关度为所述信息不完备的事件集合匹配对应的预测模型，将对应于最大相关度的预测模型作为与所述信息不完备的事件集合匹配的预测模型。

在步骤S205，利用所述匹配的预测模型的数据补充所述信息不完备的事件集合的数据，具体地包括以下至少之一:利用所述匹配的预测模型包含的静态数据补充所述信息不完备的事件集合的缺失的静态数据；利用所述匹配的预测模型包含的动态数据补充所述信息不完备的事件集合的缺失的动态数据。

根据本发明的实施例，还可以利用补充了静态数据的事件集合的数据作为训练预测模型的事件样本反复训练预测模型，事件集合的动态数据随着时间的推移会不断发生，随着事件的动态数据日益丰富，补充完备的事件数据作为样本训练预测模型，反复迭代，逐步提高预测模型的精度，对缺失数据的填充会更准确和鲁棒。

根据本发明的实施例，还包括根据匹配的预测模型包含的参与者的特点向所述信息不完备的事件集合的参与者进行针对性的处理，例如推送针对性的信息、进行针对性的交互等。

在很多电子商务网站，客户通常以匿名的方式购买商品，交易平台提供方或者商家只能得到交易数据的基本信息，比如交易时间、交易牵涉的商品，价格，付款方式等信息，却无从得知购买商品的客户是谁。另外，由于很多家庭往往多个家庭成员共享一个电子商务账户，而一个账户往往只注册了一个客户的信息（比如三口之家中的母亲），所以即使对于非匿名购买的情况，仍然存在很大的歧义性。

具体来说，对于发生的五个交易事件1、2、3、4和5，我们知道这五次交易只可能发生在现在已经在交易平台注册的三个用户a、b和c，而在注册的时候，这些账号并没有向系统提供完整的静态个人信息，本实施例的目标是根据不完整的个人属性信息，以及未知购买主题的交易记录信息（交易记录时间上的关联性和牵涉商品的关联性），来估计缺失的个人信息。

已知三个注册用户a、b和c和所述三个用户发生的五个购买交易事件1、2、3、4和5，其中三个注册用户a、b和c在注册时提供了性别信息，而年龄、所在地区和职业是未知的，五件购买交易事件1、2、3、4和5包括交易时间、交易物品等。三个已有模型A、B和C，其中A代表珠三角男性老年人，B代表长三角女性老年人，C代表京津学生一族。本发明的实施例以交易事件1、2、3、4和5为桥梁，为每个事件找到对应的模型，从而得知哪些事件属于同一个交易主体（比如用户a），并将模型A中已知的地区个人信息通过事件作为桥梁传递给用户a，从而填补用户a的地区个人信息。此外，一旦上述五个交易事件被归类到各自的模型，这些事件样本可以作为新的训练数据去重新训练或者更新旧的A、B和C三个模型，从而为下次类似事件数据挖掘做准备。五个购买交易事件的信息如下：

事件1（2013-3-21:09:38:30,高血压检测仪，中老年保健品，300）

事件2（2013-3-23:06:09:30,女性假发，消费品，200）[用户b所为，购买方式为网银]

事件3（2013-3-25:21:27:30,中华牌香烟，消费品，100）

事件4（2013-3-26:22:41:30,元邦胶囊，男性保健品，300）[用户a所为，购买方式为信用卡]

事件5（2013-3-30:11:24:30,书包，文具，300）

需要注意的是，对于事件2和事件4，交易没有执行匿名购买，购买的用户是已知的，而其他事件1、3和5，则由于是匿名购买，用户信息缺失。已经训练好的三个模型A、B和C：

A代表珠三角男性老年人

B代表长三角女性老年人

C代表京津学生一族

给定的用户注册信息如下：

用户a（男）

用户b（女）

用户c（男，25岁）

首先进行模型A、B和C的训练过程，

模型训练模块：

1)对用户按属性信息进行划分，比如根据年龄，地区，性别分为A、B和C三类。

2）对于每个类别，搜集属于同类的用户的历史购买交易数据，由于每个交易具有事件和购买商品两个基本信息，对于某个用户有先后关系的两次交易，比如该类模型的用户在购买某种商品xk后,购买其他商品x1,x2,….的次数分别是y1和y2。这样，就可以用p=yi/(y1+y2+…)作为矩阵元素值来建立一个商品购买先后顺序转移概率矩阵，例如对模型A，统计关联商品购买先后发生的概率，如表1所示：

表1：模型A中用户发生商品关联购买的转移概率表

	高血压检测仪	中华牌香烟	元邦胶囊	书包	女性假发
						高血压检测仪	0.3	0.4	0.2	0.02	0.001
中华牌香烟	0.2	0.3	0.4	0.04	0.001
						元邦胶囊	0.3	0.3	0.2	0.02	0.001

表1中的一个元素代表其行所在的物品在被购买后发生其列所在物品被购买的概率。比如第二行第三列0.4是代表在购买高血压检测仪后该类用户再购买中华牌香烟的概率是0.4。同时也会对用户独立发生的购买行为进行概率统计，如表2所示。

表2：模型A中用户独立购买商品的概率估计表

血压检测仪	0.6
		元邦胶囊	0.2
中华牌香烟	0.1
		书包	0.02
女性假发	0.001

表3：模型B中用户发生商品关联购买的转移概率表

	高血压检测仪	中华牌香烟	元邦胶囊	书包	女性假发
						高血压检测仪	0.3	0.2	0.4	0.02	0.05
中华牌香烟	0.2	0.4	0.2	0.04	0.01
						元邦胶囊	0.3	0.3	0.2	0.02	0.01

表4：模型B中用户独立购买商品的概率估计表

高血压检测仪	0.5
		元邦胶囊	0.02
中华牌香烟	0.02
		书包	0.03
女性假发	0.2

表5：模型C中用户发生商品关联购买的转移概率表

	高血压检测仪	中华牌香烟	元邦胶囊	书包	女性假发
						高血压检测仪	0.3	0.3	0.3	0.02	0.05
中华牌香烟	0.3	0.3	0.3	0.04	0.05
						元邦胶囊	0.4	0.1	0.2	0.02	0.05

表6：模型C中用户独立购买商品的概率估计表

高血压检测仪	0.4
		元邦胶囊	0.15
中华牌香烟	0.2
		书包	0.05
女性假发	0.1

因为事件2和4已经明确分别属于用户b和a。对于其他事件，注意到将{1,3,5}三个事件可以被a、b和c三个用户进行划分，结合已知用户的事件2和4，可以产生比如{1,4}-a,{2,3}-b,{5}-c的划分，一共有3*3*3=81种可能的划分结果。

穷举可能的划分结果，一一计算和模型A、B和C的相关度，选出最优的一种划分，作为事件和模型的对应结果。这里选择一种划分{1,3,4}|{2}|{5}，一种具体的相关度计算方法如下:

步骤1：由于事件1、3和4分别是购买高血压检测仪，中华牌香烟和元邦胶囊，

由模型A的表2可以得到事件1发生的概率是PA1=0.6，由模型A的表一可以得到事件3在给定事件1的条件下发生的概率是PA3=0.4，由模型A的表一可以得到事件4在事件3的条件下发生的概率是PA4=0.4，则这些事件构成一个序列{1,3,4}的联合概率为PA134=PA1*PA3*PA4=0.6*0.4*0.4=0.096并类似地计算在模型B和模型C条件下发生的概率PB134和PC134如下：

PB134=PB1*PB3*PB4=0.5*0.2*0.2=0.02

PC134=PC1*PC3*PC4=0.4*0.3*0.3=0.036

选取相关度最大的PA134对应的模型A作为事件序列{1,3,4}对应的客户模型。

步骤2：从表2、4和6中可以看到，{2}这个序列在模型A，B，C的条件下分别发生的概率：PA2=0.001，PB2=0.2，PC2=0.1。

步骤3：计算{5}这个序列在模型A，B，C的条件下分别发生的概率：

PA5=0.02，PB5=0.03，PC5=0.05。

步骤4：从上述三步骤的结果挑选总分最高的组合：

P{134|2|5}=PA134*PB2*PC5=0.096*0.2*0.05=0.0096，注意还需要满足{134}{2}{5}分别属于不同模型的约束。即不考虑PA134*PA2*PA5这种情况。

对于其他可能的某一种划分，重复上述四个步骤，计算该划分对应的总分；并选择总分最高的一种划分，最后得到每个事件对应的模型。比如{1,3,4}对于模型A，{2}对于模型B，{5}对于模型C。

因为已知事件4的主体是用户a，则可以推论用户a与模型A对应，所以可以用模型A的用户属性信息来推断用户a的信息，比如用户a所在地区是珠三角。同时，注意到事件4的交易方式是信用卡，则可推测属于同一用户a的其它两次交易事件1和3的交易方式也是信用卡，这就推测出了信息缺失事件除了参与者相关信息之外其他动态数据信息。同理，可以通过桥梁{2}知道b和模型B对应，因此可以用模型B的用户属性信息来推断用户b的信息，比如用户b所在地区是长三角，同理可以用模型C的用户属性信息来推断用户c的信息，比如用户c所在地区是京津地区。这样，我们把用户a、b和c的缺失信息用对应的模型A、B和C补全了，而这种对应是靠事件信息建立的。图3示出根据本发明实施例的用户与模型的对应关系图，其中已知用户a、b和c的交易事件1、2、3、4和5，并且已知事件2由用户b发生和事件4由用户a发生，因此用户b与事件2之间以及用户a与事件4之间是实线，用户a与交易事件1和3之间以及用户c与交易事件5之间是通过与预测模型进行相关度计算的结果，因此是虚线，交易事件与模型之间是虚线，其中用户a和模型A通过交易事件序列1、3和4连通，因此可以将模型A的用户的静态数据传递给用户a，将用户a缺失的个人信息补全。用户b和模型B通过交易事件2连通，因此可以将模型B的用户的静态数据传递给用户b，将用户b缺失的信息补全。用户c和模型C通过交易事件5连通，因此可以将模型C的关于用户的静态数据传递给用户c，将用户c缺失的信息补全。同时将信息完备的用户a、b和c的数据（包括用户的静态数据和事件信息）作为训练模型A、B和C的事件样本，从而使模型A、B和C更加精确。还可以根据模型A、B和C的用户的特点向用户a、b和c推送广告信息。

基于同一发明构思，本发明还提出一种输入装置，图4示出根据本发明一个实施例的数据挖掘装置400，包括：数据收集模块401，被配置为收集信息完备的事件集合的数据和信息不完备的事件集合的数据；模型训练模块402，被配置为利用所述信息完备的事件集合的数据训练至少一个预测模型；相关度获取模块403，被配置为获取所述信息不完备的事件集合的数据与所述至少一个预测模型的相关度；模型匹配模块404，被配置为根据获取的相关度为所述信息不完备的事件集合匹配对应的预测模型；以及数据补充模块405，被配置为利用所述匹配的预测模型的数据补充所述信息不完备的事件集合的数据。

其中所述信息完备的事件集合的数据包括事件集合的动态数据和静态数据，所述信息不完备的事件集合的数据包括事件集合的有缺失的动态数据和静态数据的至少之一。

根据本发明的实施例，其中模型训练模块402包括：分类模块，被配置为利用所述信息完备的事件集合中各个事件的参与者的静态数据对事件的参与者进行分类；概率估计模块，被配置为利用同一类参与者的事件样本估计该同一类参与者的事件集合中各个事件独立发生的概率以及各个事件的转移概率；预测模型建立模块，被配置为基于各个事件独立发生的概率和各个事件的转移概率建立对应于该同一类参与者的预测模型。

根据本发明的实施例，其中相关度获取模块403包括：划分模块，被配置为将所述信息不完备的事件集合中的事件划分为不同的事件序列组合；相关度计算模块，被配置为对于每个事件序列组合计算在所述预测模型下的相关度。

根据本发明的实施例，其中模型匹配模块404被配置为：将对应于最大相关度的预测模型作为与所述信息不完备的事件集合匹配的预测模型。

根据本发明的实施例，数据补充模块405被配置为以下至少之一：利用所述匹配的预测模型包含的静态数据补充所述信息不完备的事件集合的缺失的静态数据；利用所述匹配的预测模型包含的动态数据补充所述信息不完备的事件集合的缺失的动态数据。

根据本发明的实施例，其中模型训练模块还被配置为：利用补充了缺失数据的事件集合的数据作为训练预测模型的事件样本反复训练预测模型。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种数据挖掘方法，包括：

收集信息完备的事件集合的数据和信息不完备的事件集合的数据；

利用所述信息完备的事件集合的数据训练至少一个预测模型；

获取所述信息不完备的事件集合的数据与所述至少一个预测模型的相关度；

根据获取的相关度为所述信息不完备的事件集合匹配对应的预测模型；以及

利用所述匹配的预测模型的数据补充所述信息不完备的事件集合的数据，

其中利用所述信息完备的事件集合的数据训练至少一个预测模型包括：

利用所述信息完备的事件集合中各个事件的参与者的静态数据对事件的参与者进行分类；

利用同一类参与者的事件样本估计该同一类参与者的事件集合中各个事件独立发生的概率以及各个事件的转移概率；

基于各个事件独立发生的概率和各个事件的转移概率建立对应于该同一类参与者的预测模型。

2.根据权利要求1所述的方法，其中获得所述信息不完备的事件集合的数据与所述至少一个预测模型的相关度包括：

将所述信息不完备的事件集合中的事件划分为不同的事件序列组合；

对于每个事件序列组合计算在所述预测模型下的相关度。

3.根据权利要求2所述的方法，其中根据预测的相关度为所述信息不完备的事件集合匹配对应的预测模型包括：

将对应于最大相关度的预测模型作为与所述信息不完备的事件集合匹配的预测模型。

4.根据权利要求3所述的方法，其中利用所述匹配的预测模型的数据补充所述信息不完备的事件集合的数据包括以下至少之一：

利用所述匹配的预测模型包含的静态数据补充所述信息不完备的事件集合的缺失的静态数据；

利用所述匹配的预测模型包含的动态数据补充所述信息不完备的事件集合的缺失的动态数据。

5.根据权利要求4所述的方法，还包括：利用补充了缺失的数据的事件集合的数据作为训练预测模型的事件样本反复训练预测模型。

6.一种数据挖掘装置，包括：

数据收集模块，被配置为收集信息完备的事件集合的数据和信息不完备的事件集合的数据；

模型训练模块，被配置为利用所述信息完备的事件集合的数据训练至少一个预测模型；

相关度获取模块，被配置为获得所述信息不完备的事件集合的数据与所述至少一个预测模型的相关度；

模型匹配模块，被配置为根据获取的相关度为所述信息不完备的事件集合匹配对应的预测模型；以及

数据补充模块，被配置为利用所述匹配的预测模型的数据补充所述信息不完备的事件集合的数据，

其中模型训练模块包括：

分类模块，被配置为利用所述信息完备的事件集合中各个事件的参与者的静态数据对事件的参与者进行分类；

概率估计模块，被配置为利用同一类参与者的事件样本估计该同一类参与者的事件集合中各个事件独立发生的概率以及各个事件的转移概率；

预测模型建立模块，被配置为基于各个事件独立发生的概率和各个事件的转移概率建立对应于该同一类参与者的预测模型。

7.根据权利要求6所述的装置，其中相关度获取模块包括：

划分模块，被配置为将所述信息不完备的事件集合中的事件划分为不同的事件序列组合；

相关度计算模块，被配置为对于每个事件序列组合计算在所述预测模型下的相关度。

8.根据权利要求7所述的装置，其中模型匹配模块被配置为：

9.根据权利要求8所述的装置，其中数据补充模块被配置为以下至少之一：

利用所述匹配的预测模型包含的参与者的静态数据补充所述信息不完备的事件集合的参与者的缺失的静态数据；

10.根据权利要求9所述的装置，其中模型训练模块还被配置为：利用所述补充了缺失的数据的事件集合的数据作为训练预测模型的事件样本反复训练预测模型。