CN105786941A

CN105786941A - 一种信息挖掘方法和装置

Info

Publication number: CN105786941A
Application number: CN201410855441.XA
Authority: CN
Inventors: 唐敏华; 邱志贤; 林嘉; 孙佳伟
Original assignee: China Mobile Group Shanghai Co Ltd
Current assignee: China Mobile Group Shanghai Co Ltd
Priority date: 2014-12-26
Filing date: 2014-12-26
Publication date: 2016-07-20
Anticipated expiration: 2034-12-26
Also published as: CN105786941B

Abstract

本发明涉及一种精准性高的信息挖掘方法和装置，用以解决现有技术中信息挖掘结果精准性低的问题。本发明实施例首先从多个数据来源系统获取数据，针对同一数据来源系统的数据根据预设的数据优先权值进行排序，选取每个数据来源系统中优先权值最高的多个数据，建立消息序列，然后根据消息序列所属的数据来源系统的权重值对消息序列进行排序，选取权重值最高的至少一个消息序列来建立消息队列，再对消息队列的数据进行组合映射，构建消息队列中关联数据之间的关联网络。通过引入数据来源系统的权重值以及数据的优先权值，对用户行为影响度较高的数据进行标识，优先对影响度较高的数据进行组合映射，使得信息挖掘结果反映的用户行为信息精准性提高。

Description

一种信息挖掘方法和装置

技术领域

本发明涉及信息挖掘技术，特别涉及一种精准性高的信息挖掘方法和装置。

背景技术

目前电信市场竞争中，如何保持用户越来越受到运营商的重视，为此需要分析用户入网或流失的原因，对用户在各个业务系统的行为信息进行挖掘。

当前各大服务运营商都使用专门的用户数据库进行用户关系管理，进而来有效组织企业资源，具体的说，就是利用用户数据库中特定时间或空间上的用户行为数据，通过特定的用户行为分析模型，例如流失分析模型、营销策略模型等等来获得用户行为的预测，挖掘用户的行为信息。但是由于在移动通信的众多业务系统中并发的数据量很大，并且各个业务系统的数据对于用户行为的影响程度也不相同，信息挖掘结果的准确性难以得到保证。

综上所述，现有用户信息挖方法精准性较低。

发明内容

本发明提供一种信息挖掘方法和装置，用以解决现有技术中信息挖掘结果精准性低的问题。

本发明实施例提供的一种信息挖掘方法，包括以下步骤：

从多个数据来源系统获取数据，针对同一数据来源系统的数据根据预设的数据优先权值进行排序，选取每个数据来源系统中优先权值最高的多个数据，建立消息序列；

根据所述消息序列所属的数据来源系统的权重值对所述消息序列进行排序，选取所述权重值最高的至少一个消息序列，建立消息队列；

对所述消息队列的数据进行组合映射，构建所述消息队列中关联数据之间的关联网络。

进一步地，从多个数据来源系统获取数据，具体包括：

采用分布式方式从多个数据来源系统实时获取数据。

进一步地，在根据所述消息序列所属的数据来源系统的权重值对所述消息序列进行排序，选取所述权重值最高的至少一个消息序列之后，还包括：

若包含权重值相同的多个消息序列，选取接收时间最早的至少一个消息序列，建立消息队列，其中所述接收时间为由所述数据来源系统获取所述消息序列中的数据的时间。

进一步地，在对所述消息队列的数据进行组合映射之前，还包括：

对所述消息队列中的数据进行清洗。

进一步地，对所述消息队列的数据进行组合映射，构建所述消息队列中关联数据之间的关联网络，具体包括：

由消息队列中提取特征，并根据所述特征为消息队列中的每个数据生成特征标签；

根据所述特征标签和关联规则，建立消息队列中数据之间的关联；

利用关系识别模型，对建立关联后的数据进行组合映射，建立关联后的数据的映射关系；

根据所述映射关系构建所述消息队列中关联数据之间的关联网络。

进一步地，从多个数据来源系统获取的数据包括决策信息数据、预测信息数据、用户反馈数据和生成时间数据中的至少一个；其中所述决策信息数据和预测信息数据根据所述数据来源系统的检索请求生成，所述用户反馈数据为用户根据所述决策信息数据或预测信息数据反馈的数据，所述生成时间数据为所述决策信息数据、预测信息数据或用户反馈数据的生成时间。

进一步地，在构建所述消息队列中符合关联规则的数据之间的关联网络之后，还包括：

将所述关联网络更新至数据库中，并将所述关联网络转化为数据表。

本发明实施例还提供了一种信息挖掘装置，包括：

第一数据处理模块，从多个数据来源系统获取数据，针对同一数据来源系统的数据根据预设的数据优先权值进行排序，选取每个数据来源系统中优先权值最高的多个数据，建立消息序列；

第二数据处理模块，用于根据所述消息序列所属的数据来源系统的权重值对所述消息序列进行排序，选取所述权重值最高的至少一个消息序列，建立消息队列；

映射关联模块，用于对所述消息队列的数据进行组合映射，构建所述消息队列中关联数据之间的关联网络。

进一步地，所述第一数据处理模块，具体用于：

采用分布式方式从多个数据来源系统实时获取数据。

进一步地，所述第二数据处理模块，还用于：

在根据所述消息序列所属的数据来源系统的权重值对所述消息序列进行排序，选取所述权重值最高的至少一个消息序列之后，若包含权重值相同的多个消息序列，选取接收时间最早的至少一个消息序列，建立消息队列，其中所述接收时间为由所述数据来源系统获取所述消息序列中的数据的时间。

进一步地，所述第二数据处理模块，还用于：

在对所述消息队列的数据进行组合映射之前，对所述消息队列中的数据进行清洗。

进一步地，所述映射关联模块，具体用于：

进一步地，所述第一数据处理模块中从多个数据来源系统获取的数据包括决策信息数据、预测信息数据、用户反馈数据和生成时间数据中的至少一个；其中所述决策信息数据和预测信息数据根据所述数据来源系统的检索请求生成，所述用户反馈数据为用户根据所述决策信息数据或预测信息数据反馈的数据，所述生成时间数据为所述决策信息数据、预测信息数据或用户反馈数据的生成时间。

进一步地，所述映射关联模块，还用于：

在构建所述消息队列中符合关联规则的数据之间的关联网络之后，将所述关联网络更新至数据库中，并将所述关联网络转化为数据表。

本发明实施例中首先从多个数据来源系统获取数据，针对同一数据来源系统的数据根据预设的数据优先权值进行排序，选取每个数据来源系统中优先权值最高的多个数据，建立消息序列，然后根据所述消息序列所属的数据来源系统的权重值对所述消息序列进行排序，选取所述权重值最高的至少一个消息序列来建立消息队列，再对所述消息队列的数据进行组合映射，构建所述消息队列中关联数据之间的关联网络。通过引入数据来源系统的权重值以及数据的优先权值，对用户行为影响度较高的数据进行标识，优先对影响度较高的数据进行组合映射，使得信息挖掘结果反映的用户行为信息精准性提高。

附图说明

图1为本发明实施例提供的一种信息挖掘方法的处理流程图；

图2为本发明实施例中对消息队列的数据进行组合映射的处理流程图；

图3为本发明实施例本实施例所涉及的相关系统的硬件构架示意图；

图4为本发明实施例提供的一种信息挖掘装置的结构示意图。

具体实施方式

本发明实施例中首先从多个数据来源系统获取数据，针对同一数据来源系统的数据根据预设的数据优先权值进行排序，选取每个数据来源系统中优先权值最高的多个数据，建立消息序列，然后根据消息序列所属的数据来源系统的权重值对消息序列进行排序，选取权重值最高的至少一个消息序列来建立消息队列，再对消息队列的数据进行组合映射，构建消息队列中关联数据之间的关联网络。通过引入数据来源系统的权重值以及数据的优先权值，对用户行为影响度较高的数据进行标识，优先对影响度较高的数据进行组合映射，使得信息挖掘结果反映的用户行为信息精准性提高。

下面结合说明书附图对本发明实施例作进一步详细描述。

本发明实施例提供的一种信息挖掘方法的处理流程如图1所示，包括以下步骤：

步骤101，从多个数据来源系统获取数据，针对同一数据来源系统的数据根据预设的数据优先权值进行排序，选取每个数据来源系统中优先权值最高的多个数据，建立消息序列。

对于电信运行商，其数据来源系统可以包括BOSS(Business&OperationSupportSystem，业务运营支撑系统)、CRM(CustomerRelationshipManagement，客户关系管理)系统、IVR(InteractiveVoiceResponse，互动式语音)系统、客服系统、网上营业厅系统、投诉系统、语音质检系统等等。对于需要进行信息挖掘的数据，可以通过实时采集上述数据来源系统的日志文件来获取。

为了保证数据的实时性，以便为后续的信息挖掘提供更好的基础数据支持，可以采用分布式方式从多个数据来源系统实时获取数据，以用构建消息序列。由此，避免了传统方式中由于数据实时性较差，数据库中的数据陈旧或者不完整导致影响后续精准性的问题。在实际应用中，各个数据来源系统的数据获取可以目前常用的分布式数据处理系统，例如TwitterStorm系统等。

由于各个数据来源系统的日志文件中并发的数据量很大，其中各个数据的内容对于用户行为的影响程度也不相同。因此对数据设置优先权值，能够标明该数据在同一数据来源系统中对于用户行为的影响程度高低，同时为建立消息序列提供依据。在实际实施中，消息序列可以根据实际需求选取优先权值最高的几个数据来建立，例如由IVR系统中接收了50个数据，根据这些数据的优先权值进行排序后，可以选择优先权值最高的20个或者30个，若对于数据样本的数量较高，也可以选取所有50个数据。

步骤102，根据消息序列所属的数据来源系统的权重值对消息序列进行排序，选取权重值最高的至少一个消息序列，建立消息队列。

由于消息序列中的数据采用分布式的方式获取，其接收的实时性能够得到有效保证。这些消息序列分别包含了各个数据来源系统的数据，在处理这些消息序列时，为其加入权重值，用以标明各个不同数据来源系统中的数据对于用户行为影响程度的不同。通过选取影响程度高的数据，即选取权重值最高的至少一个消息序列来建立消息队列，能够为进一步提高后续处理的精准性。

以某一用户进行业务提交操作为例，用户在IVR系统中发起业务提交操作时，会在IVR系统中生成业务记录，同时也会在CRM中生成对应的业务记录。在实际处理中，可以认为通过IVR系统进行业务提交操作的数据对于用户行为的影响程度较高，设定IVR系统的权重值高于CRM系统。当获取的来自IVR系统的消息序列以及CRM系统的消息序列时，可以将CRM系统的消息队列序列舍弃，仅以IVR系统的消息序列构建消息队列。

作为另一种实施方式，在构建消息队列时，除权重值外，还可以结合消息序列的接收时间作为依据。本实施例中，在依据权重值结合接收时间建立消息队列时，优先考虑权重值，在选取权重值最高的至少一个消息序列之后，若包含权重值相同的多个消息序列，选取接收时间最早的至少一个消息序列，建立消息队列。

步骤103，对消息队列的数据进行组合映射，构建消息队列中关联数据之间的关联网络。

作为一种优选的实施方式，在执行本步骤之前，可以先对消息队列中的数据进行清洗，从而消除重复数据，补全残缺数据，简化数据的数量和内容，以使消息队列中的数据更加优质，从而节省步骤103的处理时间，避免发生数据堵塞，提高处理效率，提高整个处理流程的实时性。

具体地说，消除重复数据可以采用数据名称相似匹配的方式，对消息队列中的重复的数据进行重复消除。为了避免数据的误删，仅针对消息队列中的每个数据单独进行相似匹配。同时，通过预设的相关业务信息对数据中缺失的部分进行补全。然后，通过模拟匹配、数据冗余和数据值冲突对消息队列的数据进行整合，对于有某些特定的需求，可以根据实际需求来定制数据结构，来对消息队列中的数据进行整合，从而简化数据的数量和内容。此外，消息队列的数据还可以进一步地进行数据概化、规范化或者数据归约等抽象化处理，使得数据数量和内容进一步简化。

在对消息队列的数据进行清洗后，则开始对消息队列的数据进行组合映射，具体可以采用如图2所示的几个步骤：

步骤201，由消息队列中提取特征，并根据特征为消息队列中的每个数据生成特征标签。

本实施例中，由消息队列中提取的特征可以采用数据在数据来源系统中操作渠道或者操作业务类型来表征。例如，消息队列中的数据记录了用户在客服系统中的一条呼入投诉，那么该消息的操作渠道为客服渠道，操作业务类型为投诉业务。由此可以根据该特征确定消息队列中对应数据的特征标签为投诉类型用户。

步骤202，根据特征标签和关联规则，建立消息队列中数据之间的关联。其中，关联规则可以各种常用的关联规则，例如社会关联规则、行为关联规则等等，在获取到数据的特征标签，直接调用这些预设的关联规则进行匹配，若特征标签符合关联规则，则建立数据之间的关联。

例如消息队列中包含两个数据，分别为运营商主动向用户推荐某款手机的呼出话务数据以及该用户主动向运营商客服咨询该款手机的呼入话务数据。通过步骤201生成的两个数据的特征标签为换机类型用户，对于该类业务，关联规则会关联换机类型用户的呼出话务数据以及该用户进行主动咨询的呼入话务数据，从而建立这两个数据之间的关联。

步骤203，利用关系识别模型，对建立关联后的数据进行组合映射，建立关联后的数据的映射关系。仍以上述步骤202中的两个话务数据为例，上述两个数据建立关联后，即可利用关系识别模型进行组合映射，对于该类业务，通过关系识别模型可以将该用户确定为换机意愿较强的用户，对关联后的数据进行组合映射，例如将前述关联后的呼出话务数据、呼入话务数据与用户信息(如用户联系方式、消费记录等)进行映射，建立映射关系。

步骤204，根据映射关系构建消息队列中关联数据之间的关联网络。将映射关系进行网络化的表示，方便数据的存储与查询。

进一步地，在构建关联网络之后，可以将关联网络更新至数据库中，并将关联网络转化为数据表。为了提高关联网络相关数据的访问速度，提高系统的实时性，将关联网络更新至采用分布式构架的数据库，例如Hadoop构架的数据库。通过利用分布式数据库的高容错性、高吞吐量的特点，为大量的数据库查询操作提供硬件支持。此外，在将关联网络转化为数据表时，可以采用Hive数据仓库工具来将分布式数据库内的关联网络数据转化为数据表的形式，以提供更快的查询。

在实际应用中，本实施例所涉及的相关系统可以采用如图3所示的硬件构架表示，具体分成来源层、实时解析层、存储层、检索层和消费层。

来源层用于获取数据，包含分布式消息中间件以及文件接口机。分布式消息中间件为不同平台或者系统提供数据传递的渠道，使得分布式系统能够在不同的平台或者系统之间共享资源，例如采用IBM的消息中间件WebSphereMQ，文件接口机为数据在来源层与存储层之间提供了接口。

实时解析层采用分布式系统平台，用于对消息进行处理并构建关联网络，例如TwitterStorm分布式系统平台。

存储层采用数据库的形式对数据进行存储，可以采用传统的关系型数据库结合分布式数据库的形式，例如本实施例中采用Oracle数据库结合Hadoop构架的数据库。该Hadoop构架的数据库包含HBase开源数据库、HDFS(HadoopDistributedFileSystem，分布式文件系统)、Hive数据仓库工具、Map/Reduce编程模型以及用于与Oracle数据库进行数据传递的Sqoop模块。

检索层，提供信息检索服务，用于根据消费层的请求查询存储层的数据，并根据相关数据生成决策信息或预测信息。

消费层，包括面向用户的业务平台，即前述的数据来源系统。作为与用户直接对接的业务平台，即为其日志文件中包含的数据，即为用于进行信息挖掘的原始数据。

为了进一步地实现用户数据的实时更新，步骤101中从多个数据来源系统获取的数据包含了决策信息数据、预测信息数据、用户反馈数据和生成时间数据。

其中，决策信息数据和预测信息数据根据数据来源系统的检索请求生成，具体生成过程如下：用户在消费层的各个业务平台中的相应操作会产生相应的检索请求，检索层由各个业务平台获取检索请求，并由检索请求中获取请求内容以及请求业务平台。然后在数据库的数据表中查询关联网络的相关数据，并送至决策生成器进行处理，由决策生成器根据预设的用户行为模型、销售模型等，生成决策信息或预测信息。在实际应用中，决策生成器一般配置在实时解析层中。

在生产决策信息或预测信息后，检索层会根据检索请求中的请求业务平台将决策信息或预测信息发送至消费层中对应的业务平台，由业务平台对用户进行决策信息或预测信息的数据展示。用户根据决策信息数据或预测信息数据反馈的数据，即为用户反馈数据。生成时间数据则为决策信息数据、预测信息数据或用户反馈数据的生成时间。

上述决策信息数据、预测信息数据、用户反馈数据和生成时间数据在设定优先权值后，重复图1所示的处理流程即可作为原始数据进一步用于更新关联网络，这样就实现了数据库的进一步更新。

基于同一发明构思，本发明实施例中还提供了一种信息挖掘装置，由于该装置解决问题的原理与本发明实施例中方法的实现相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

如图4所示，一种信息挖掘装置，包括：

第一数据处理模块410，用于从多个数据来源系统获取数据，针对同一数据来源系统的数据根据预设的数据优先权值进行排序，选取每个数据来源系统中优先权值最高的多个数据，建立消息序列；

第二数据处理模块420，用于根据消息序列所属的数据来源系统的权重值对消息序列进行排序，选取权重值最高的至少一个消息序列，建立消息队列；

映射关联模块430，用于对消息队列的数据进行组合映射，构建消息队列中关联数据之间的关联网络。

进一步地，第一数据处理模块410，具体用于：

采用分布式方式从多个数据来源系统实时获取数据。

进一步地，第二数据处理模块420，还用于：

在根据消息序列所属的数据来源系统的权重值对消息序列进行排序，选取权重值最高的至少一个消息序列之后，若包含权重值相同的多个消息序列，选取接收时间最早的至少一个消息序列，建立消息队列，其中接收时间为由数据来源系统获取消息序列中的数据的时间。

进一步地，第二数据处理模块420，还用于：

在对消息队列的数据进行组合映射之前，对消息队列中的数据进行清洗。

进一步地，映射关联模块430，具体用于：

由消息队列中提取特征，并根据特征为消息队列中的每个数据生成特征标签；

根据特征标签和关联规则，建立消息队列中数据之间的关联；

根据映射关系构建消息队列中关联数据之间的关联网络。

进一步地，第一数据处理模块410中从多个数据来源系统获取的数据包括决策信息数据、预测信息数据、用户反馈数据和生成时间数据中的至少一个；其中决策信息数据和预测信息数据根据数据来源系统的检索请求生成，用户反馈数据为用户根据决策信息数据或预测信息数据反馈的数据，生成时间数据为决策信息数据、预测信息数据或用户反馈数据的生成时间。

进一步地，映射关联模块430，还用于：

在构建消息队列中符合关联规则的数据之间的关联网络之后，将关联网络更新至数据库中，并将关联网络转化为数据表。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种信息挖掘方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，从多个数据来源系统获取数据，具体包括：

采用分布式方式从多个数据来源系统实时获取数据。

3.根据权利要求1所述的方法，其特征在于，在根据所述消息序列所属的数据来源系统的权重值对所述消息序列进行排序，选取所述权重值最高的至少一个消息序列之后，还包括：

4.根据权利要求1所述的方法，其特征在于，在对所述消息队列的数据进行组合映射之前，还包括：

对所述消息队列中的数据进行清洗。

5.根据权利要求1所述的方法，其特征在于，对所述消息队列的数据进行组合映射，构建所述消息队列中关联数据之间的关联网络，具体包括：

6.根据权利要求1所述的方法，其特征在于，从多个数据来源系统获取的数据包括决策信息数据、预测信息数据、用户反馈数据和生成时间数据中的至少一个；其中所述决策信息数据和预测信息数据为根据所述数据来源系统的检索请求生成的数据，所述用户反馈数据为用户根据所述决策信息数据或预测信息数据反馈的数据，所述生成时间数据为所述决策信息数据、预测信息数据或用户反馈数据的生成时间。

7.根据权利要求1-6任一所述的方法，其特征在于，在构建所述消息队列中符合关联规则的数据之间的关联网络之后，还包括：

8.一种信息挖掘装置，其特征在于，包括：

第一数据处理模块，用于从多个数据来源系统获取数据，针对同一数据来源系统的数据根据预设的数据优先权值进行排序，选取每个数据来源系统中优先权值最高的多个数据，建立消息序列；

9.根据权利要求8所述的装置，其特征在于，所述第一数据处理模块，具体用于：

采用分布式方式从多个数据来源系统实时获取数据。

10.根据权利要求8所述的装置，其特征在于，所述第二数据处理模块，还用于：

11.根据权利要求8所述的装置，其特征在于，所述第二数据处理模块，还用于：

12.根据权利要求8所述的装置，其特征在于，所述映射关联模块，具体用于：

13.根据权利要求8所述的装置，其特征在于，所述第一数据处理模块中从多个数据来源系统获取的数据包括决策信息数据、预测信息数据、用户反馈数据和生成时间数据中的至少一个；其中所述决策信息数据和预测信息数据根据所述数据来源系统的检索请求生成，所述用户反馈数据为用户根据所述决策信息数据或预测信息数据反馈的数据，所述生成时间数据为所述决策信息数据、预测信息数据或用户反馈数据的生成时间。

14.根据权利要求8-13任一所述的装置，其特征在于，所述映射关联模块，还用于：