CN104751235A - 用于数据挖掘的方法和装置 - Google Patents

用于数据挖掘的方法和装置 Download PDF

Info

Publication number
CN104751235A
CN104751235A CN201310756036.8A CN201310756036A CN104751235A CN 104751235 A CN104751235 A CN 104751235A CN 201310756036 A CN201310756036 A CN 201310756036A CN 104751235 A CN104751235 A CN 104751235A
Authority
CN
China
Prior art keywords
data
product
properties
user
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310756036.8A
Other languages
English (en)
Inventor
刘丽
王天青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EMC Corp
Original Assignee
EMC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EMC Corp filed Critical EMC Corp
Priority to CN201310756036.8A priority Critical patent/CN104751235A/zh
Priority to US14/573,235 priority patent/US20150186907A1/en
Publication of CN104751235A publication Critical patent/CN104751235A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/087Inventory or stock management, e.g. order filling, procurement or balancing against orders

Abstract

本公开的实施例涉及用于数据挖掘的方法和装置。该方法包括:获取与产品相关的、来自至少一个数据源的数据;对所述数据进行预先处理以确定所述数据的至少一个属性;至少部分基于所述至少一个属性、针对与产品相关的特性来分析预先处理的数据;以及基于与所述产品相关的特性关联的预定规则,根据所述分析而生成事件,所述事件预测可能的用户需求。还公开了相应的装置和计算机程序产品。

Description

用于数据挖掘的方法和装置
技术领域
本公开总体上涉及数据处理,更具体地,涉及用于数据挖掘的方法和装置。
背景技术
随着科学技术、尤其是网络技术的发展,当今生活中产生的各种数据以惊人地速度增长。人们已经越来越多地意识到这些数据对企业的重要性,随之而来地开展了数据分析、数据挖掘、数据安全等方面的研究。
数据可以存在于各行各业,并且具有不同的形式。例如,在用户从提供商购买了产品之后,在每个产品的生命周期期间将会产生大量有用的数据。同时,在更新或支持每个产品的生命周期期间,提供商也会产生大量有用的数据和信息。注意,此处的术语“产品”不仅指具体的物理产品,例如设备、装置、系统等,也可以指虚拟的产品,例如计算机程序产品或应用,还可以指所提供的服务,例如计算服务、培训课程等。
例如,用户可能购买了存储产品,那么至少将产生如下数据:
1)销售或合同数据。该数据例如可以涉及所购买产品的型号、序列号和配置等。该数据还可以包括关于该产品的所购买的支持服务信息,诸如服务级别和有效期等。
2)产品性能和使用数据。该数据可以包含用户在使用该产品期间产生的关于产品的性能和使用情况的数据。以存储产品为例,该数据可以包括容量使用率、吞吐量信息,诸如每秒读写操作次数(IOPS),或处理请求的响应时间(Response Time),等等。
3)支持案例数据。例如,该数据可以涉及每个支持案例的症状、支持处理过程、支持案例的类别以及相应的解决方案等。
4)教育服务数据。例如,该数据可以涉及用户预定或已参加的培训课程,相关的产品等等。
5)取决于具体产品,还可以存在其他数据。
另一方面,从例如存储器提供商的角度,可以至少产生如下数据:
1)产品供应数据。该数据例如可以包括所供应的各种产品的类别、型号和能力或功能等数据。
2)教育供应数据。该数据例如可以包括关于所提供的教育培训课程的名称、相关的产品和类别。此处的类别可以指技能类别或案例类别。
3)解决方案供应数据。该数据例如可以包括解决方案的类别、相关产品和用途。
4)取决于具体产品,也可以存在其他数据。
这些数据通常分散在不同的系统中,例如分别存在于用户的信息技术(IT)系统和提供商的IT系统中。而且,这些数据通常是孤立的,未经良好整合、分析和利用。最后,现有技术中尚不存在以有意义的方式来呈现数据的方案。
因此,本领域中需要一种更为有效的挖掘数据价值的解决方案。
发明内容
为了解决上述问题,本公开提出一种用于挖掘数据价值的方法和装置。
在本公开的一个方面,提供一种用于数据挖掘的方法。该方法包括:获取与产品相关的、来自至少一个数据源的数据;对所述数据进行预先处理以确定所述数据的至少一个属性;至少部分基于所述至少一个属性、针对与产品相关的特性来分析预先处理的数据;以及基于与所述产品相关的特性关联的预定规则,根据所述分析而生成事件,所述事件预测可能的用户需求。
在本公开的另一方面,提供一种用于数据挖掘的装置。该装置包括:数据获取模块,配置用于获取与产品相关的、来自至少一个数据源的数据;数据预处理模块,配置用于对所述数据进行预先处理以确定所述数据的至少一个属性;数据分析模块,配置用于至少部分基于所述至少一个属性、针对与所述产品相关的特性来分析预先处理的数据,以及配置用于基于与所述产品相关的特性关联的预定规则,根据所述分析而生成事件,所述事件预测可能的用户需求。
通过下文描述将会理解,根据本公开的实施例,通过采集来自至少一个数据源的数据并对其进行分析,根据分析而生成的相应事件可以预测可能的用户需求,从而挖掘出数据的价值。本公开的实施例所能实现的其他益处将通过下文描述而清楚。
附图说明
通过参考附图阅读下文的详细描述,本公开实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例而非限制性的方式示出了本公开的若干实施例,其中:
图1示出了根据本公开的一个示例实施例的示例性系统框图;
图2示出了根据本公开的一个示例实施例的用于数据挖掘的方法流程图;
图3示出了根据本公开的一个示例实施例的一个用例图示;
图4示出了根据本公开的一个示例实施例的另一用例图示;
图5示出了根据本公开的一个示例实施例的又一用例图示;
图6示出了根据本公开的一个实例实施例的再一用例图示;以及
图7示出了适于实现本公开的示例实施例的计算机系统的框图。
在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考附图中示出的若干示例实施例来描述本公开的原理。应当理解,描述这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。
如前所述,在生产生活中会产生大量各式各样的数据。发明人通过仔细观察这些数据,可以找出一些共同但本质的特征属性:
1)时间。每种数据都是时间相关的,也即具有关联的时间。例如,合同数据具有签署日期、产品发货日期以及服务有效/无效日期。性能和使用数据是基于时间的。支持案例数据具有案例发生时间和结束时间。培训课程具有开始日期和结束日期。产品具有发布日期、更新日期和服务结束日期。教育课程供应具有可用日期。解决方案供应数据具有发布或可用日期。
2)产品。所有数据将与一个或多个特定产品相关,也即具有关联的产品。这些数据还可以包含产品的型号、序列号和配置信息等。
3)用户。所有数据会具有关联的用户,例如一些数据属于某个特定用户,而一些数据指示合适的用户。
基于这些关联的时间、关联的产品和关联的用户,来自各种数据源的数据可以被连接或关联起来进行分析,并可视化地呈现给用户,从而挖掘出数据的价值。
本公开的主要思路是:收集分散于不同数据源(例如用户数据源或提供商数据源)的与产品相关的各种数据(例如,销售数据、产品和性能数据、服务供应数据,等等),对这些数据进行预先处理以基于上述至少一个公共的属性(例如,时间、产品和用户)而整合起来。针对与产品相关的特性,采用不同的分析方法来分析这些经过预先处理的数据,以及基于与产品相关的特性关联的预定规则,根据上述分析而生成事件。事件可以预测可能的用户需求。进一步地,可以响应于事件的生成而提供对应的解决方案。更进一步地,可以按时间轴方式可视化呈现经过预先处理的数据、生成的事件和提供的解决方案中的至少一项,以便于更直观的理解。
下面参考图1,其示出了根据本公开的一个示例实施例的示例性高级系统架构框图。
系统可以包括根据本文公开的实施例的数据挖掘平台110以及与产品相关的至少一个数据源。作为示例,图1示出了用户数据源120和提供商数据源130。本领域技术人员可以理解,还可以存在更多或更少的数据源,以提供数据供数据挖掘平台110使用。
用户数据源120可以包括各种数据,诸如支持案例数据121、销售数据122、教育服务数据123、产品性能和使用数据124以及其他数据125。
提供商数据源130也可以包括各种数据,诸如产品供应数据131、教育供应数据132、解决方案供应数据133以及其他数据134。
这些数据源的数据可以基于各种事件的发生而生成。例如,在用户数据源中,当用户购买了产品时,可以生成相应的销售数据、教育服务数据。在用户使用该产品期间,可以生成产品性能和使用数据、支持案例数据,等等。
数据挖掘平台110可以包括数据获取模块111、数据预处理模块112、数据分析模块113以及数据储存库114。可选地,数据挖掘平台110还可以包括解决方案模块115、数据可视化模块116和数据索引模块117。
数据获取模块111配置用于经由数据连接从诸如用户数据源120、提供商数据源130的至少一个数据源获取数据。在一些实施例中,数据获取模块111可以提供统一的应用程序接口API以允许各种数据源接入。在一些其他实施例中,数据获取模块111可以针对不同的数据源提供相应的数据接口,以便访问数据源中的数据。
数据连接可以基于预定安排(例如,周期性地或者响应于数据的生成而实时地)或基于请求(例如,在数据挖掘平台需要时),连续地或间歇地传送各种数据。
数据预处理模块112配置用于对数据获取模块111所获取的数据进行预先处理,以确定数据的至少一个属性。如前面所提到的,数据可以存在于各行各业并且具有不同的形式,但是这些数据具有一些共同和本质的属性,例如,关联的时间、关联的产品和关联的用户。然而,在一些实现中,所获取的数据可能并没有显式的包含这些属性。
因此,数据预处理模块112可以配置用于按如下来预先处理数据:对数据进行清洗以确定数据的至少一个属性,例如,关联的时间、关联的产品和关联的用户;以及将数据的该至少一个属性转换成统一的预定格式。
具体而言,针对不同的属性,对数据的清洗可以涉及如下操作。例如,对于时间属性,可以基于针对每种数据的一些预定规则而为数据提取关联的时间。举例而言,可以将获取数据的时间作为该数据的关联时间。对于产品和用户属性,可以基于一些全球数据入口配置而确定。例如,基于互联网协议(IP)地址,可以确定来自特定IP地址的数据属于用户A和产品B。
在确定了数据的这些属性之后,数据预处理模块112可以配置用于将这些属性转换成统一的预定格式,以方便后续处理。
可选的数据索引模块117可以配置用于使用这些确定的属性中的一个或多个(例如,时间,产品和用户)来对数据编制索引,以加速对数据的访问。编制索引的方法对于本领域技术人员而言是公知的,在此不再赘述。
数据储存库114可以配置用于存储已编制索引的数据以及其他数据,诸如原始获取的数据、经过预先处理的数据,等等。数据储存库114可以是传统的关系数据库、数据仓库或NoSQL数据库。优选地,数据储存库114支持一些索引机制以加速对数据的访问。
数据分析模块113可以配置用于至少部分基于所确定的数据的至少一个属性,针对与产品相关的特性、采用不同的分析方法来分析这些经过预先处理的数据,以及配置用于基于与产品相关的特性关联的预定规则,根据上述分析而生成事件。这些事件预测可能的用户需求。
针对与产品相关的不同特性,数据分析模块113可以提供不同类别的分析技术。数据分析模块113可以通过可插入架构来实现,以插入不同的分析能力。这些分析技术可以基于数据的诸如时间、产品和用户之类的上述属性,可选地还可以基于数据的其他属性。数据分析模块113的输出是所生成的事件,例如容量超出事件、案例增长事件、系统性能异常事件,等等。在下文的描述中,将结合几个用例来描述数据分析模块113的详细操作。
可选的解决方案模块115可以配置用于响应于数据分析模块113所生成的事件,提供对应的解决方案。在一些实施例中,解决方案模块115可以配置用于还经由数据获取模块111获取与所分析的产品相关的、来自至少一个其他数据源的数据。所获取的来自至少一个其他数据源的数据被与之前获取的数据进行比较。基于该比较,解决方案模块115可以提供对应的解决方案,以满足数据分析模块113生成的事件所指示的用户需求。
可选地,数据挖掘平台110还可以包括数据可视化模块116,以提供对数据和生成的事件的直观视图。数据可视化模块116可以配置用于按时间轴方式可视化地呈现各种信息,例如通过数据预处理模块112预先处理的数据、由数据分析模块113生成的事件、和/或解决方案模块115所提供的解决方案。
数据可视化模块116可以按照预先设置的图示方式来可视化呈现信息。可选地,数据可视化模块116也可以提供用户定制功能,以供用户定制各种显示方式。
下面结合图2描述按照本公开的实施例的数据挖掘平台的工作流程。图2示出了根据本公开的一个示例实施例的用于数据挖掘的方法流程图。
方法200开始之后,在步骤S201,获取与产品相关的、来自至少一个数据源的数据。数据的获取可以基于数据源的推送(例如,周期性地或者响应于数据的生成而实时地推送),也可以基于数据获取模块111的主动请求而取回(例如,在数据挖掘平台需要时)。
在步骤S202,对所获取的数据进行预先处理,以确定数据的至少一个属性。该至少一个属性可以选自包括如下的属性组:关联的时间、关联的产品和关联的用户。
预先处理可以包括:对数据进行清洗以确定数据的至少一个属性;以及将数据的该至少一个属性转换成统一的预定格式。
可选地,在步骤S203中,可以使用在预先处理步骤S202中所确定的属性中的一个或多个(例如,时间,产品和用户)来对数据编制索引以存储在数据储存库中,从而加速对数据的访问。
继而,在步骤S204中,至少部分基于所确定的数据的至少一个属性,针对与产品相关的特性来分析这些经过预先处理的数据。
接下来,方法200进行到步骤S205,其中基于与产品相关的特性关联的预定规则,根据分析步骤S204的分析而生成事件。这些事件预测可能的用户需求。
附加地,方法200还可以包括步骤S206,其中响应于步骤S205中生成的事件,提供对应的解决方案,以满足该事件所指示的可能的用户需求。进一步地,提供对应的解决方案可以包括参考其他数据源的数据来确定对应的解决方案。具体而言,可以获取关于所分析的产品的、来自至少一个其他数据源的数据,将所获取的数据与之前所分析的数据进行比较,以及基于该比较来确定适当的解决方案。
进一步附加地,方法200还可以包括步骤S207,其中按时间轴方式,可视化呈现经过预先处理的数据、生成的事件和提供的解决方案中的至少一项。
上面结合图1和图2分别概括性地描述了按照本公开的实施例的数据挖掘平台的各种功能模块及其工作流程。下文将参考几个具体用例来详细描述按照本公开的实施例的数据挖掘方案。
图3示出了根据本公开的一个示例实施例的一个用例的可视化图示。图3的用例涉及购买了产品(例如,预订了Web服务)的用户群(订户群)对所购买产品的使用,其中web服务提供商可以具有多个在线的web服务器以服务于订户群的请求。
具体而言,数据源可以包括来自订户群(例如,用户A、用户B、等等)的用户数据源。在此用例中,数据获取模块111需要获取的数据例如可以是产品性能和使用数据。该产品性能和使用数据可以包含随时间记录的各用户对web服务的使用效率,此使用效率例如可以使用终端用户的HTTP请求数量来表征。
数据分析模块113对这些服务使用数据进行分析,例如对所有的订户数据进行求和等运算。图3示出了可以由数据可视化模块116呈现的按照时间轴的方式展示的在一段时间(例如,两周)内的经分析的服务使用数据,其中横轴为时间,纵轴为服务使用效率,例如HTTP请求数量。从图3中可以看出,对服务的使用或者资源需求在周末时较低,而在工作日时较高。基于对这种不均匀分布的使用数据的分析,数据分析模块113可以按照预定规则生成相应的事件。该预定规则例如可以是工作日的日均HTTP请求数量与周末的日均HTTP请求数量之差超过预定阈值,所生成的相应事件可以是资源使用低效事件。
响应于资源使用低效事件的生成,解决方案模块115可以提供对应的解决方案。例如,在图3所示的用例中,可以提供基于工作日、周末这类时间窗而自动进行系统重新配置的解决方案。更具体而言,所提供的解决方案可以是web服务提供商在周末时关闭某些web服务器,以便节省能源。图3中也示出了所生成的事件和提供的解决方案。
图4示出了根据本公开的一个示例实施例的另一个用例的可视化图示。图4的用例涉及购买了某种产品类型(例如,特定存储系统,例如VNX7500)的若干用户(例如,用户A、用户B和用户C)对所购买产品(例如,相应地标识为系统A、系统B和系统C)的使用。
具体而言,数据源可以包括来自该特定用户A、B和C的用户数据源。在此用例中,数据获取模块111需要获取的数据例如可以是产品性能和使用数据。该产品性能和使用数据可以包含随时间记录的各用户(用户A、用户B和用户C)对其各自的存储系统(系统A、系统B和系统C)的系统使用性能度量,例如存储系统的平均响应时间。
数据分析模块113对这些产品性能和使用数据进行分析,例如将这三个用户的系统使用性能度量数据进行比较,以找出异常数据。在一个实施例中,数据分析模块113可以通过存储器阵列响应时间分析插件来实现。
此分析插件例如可以通过如下处理来进行分析。该分析插件可以包括数据解析器,其可以读取该类型产品(例如,VNX7500存储系统)的各个系统(例如,系统A、系统B和系统C)的响应时间数据。分析插件中的数据计算模块可以针对每个系统计算个体平均性能,以及针对所有三个系统计算总体平均性能。总体平均性能也可以是基于用户的,例如,一个用户拥有多个系统,因此可以针对用户拥有的多个系统计算一个总体平均性能。可以使用一些算法,诸如线性回归分析,来计算平均性能数据。
图4示出了可以由数据可视化模块116呈现的按照时间轴的方式展示的在一段时间内的经分析的产品性能和使用数据,其中横轴为时间,纵轴为计算的系统平均性能的度量。图4中示出了三个系统(系统A、系统B和系统C)各自的平均性能度量随时间变化的曲线,图4中还示出了基于诸如线性回归的算法而计算的所有系统的平均性能度量曲线。从图4中可以看出,系统A和系统B的平均性能度量曲线比较接近所有系统的平均性能度量曲线,而系统C的平均性能度量曲线离所有系统的平均性能度量曲线较远。
分析插件中的数据关联模块可以将各个系统的平均性能度量数据与所有系统的总体平均性能数据进行比较分析。基于预定的规则,数据关联模块可以发现性能异常的系统。例如,如果一个系统的平均性能度量比总体平均性能度量低一预定阈值,例如80%,则可以确定该系统的性能异常,从而可以生成相应的事件,例如系统性能异常事件。图4中示出了所生成的事件:系统C性能异常。
响应于系统性能异常事件的生成,解决方案模块115可以提供对应的解决方案。例如,在图4所示的用例中,解决方案模块115可以查看所有的系统配置,并且基于预定规则标识出该异常系统与其他正常系统之间的系统配置上的显著差别。继而,系统配置差别可以通知给用户。备选地,可以自动提供命令以对该异常系统应用基于所识别的系统配置差别而确定的新的配置方案。
图5示出了根据本公开的一个示例实施例的又一个用例的可视化图示。图5的用例涉及购买了产品(例如,特定存储系统,例如VNX7500)的特定用户A对所购买产品的使用。
具体而言,数据源可以包括来自该特定用户A的用户数据源。在此用例中,数据获取模块111需要获取的数据例如可以是销售数据以及产品性能和使用数据。销售数据可以包括关于用户A所购买的所有存储系统的销售信息。产品性能和使用数据可以包含随时间记录的用户A对这些购买的存储系统的使用情况,例如容量使用情况。
数据分析模块113对这些数据进行分析。例如,可以基于销售数据来计算用户A所购买的所有存储系统的总容量。在计算过程中可以参考销售数据中的产品型号、详细的配置以及其他相关数据等。图5中最上方的直线510示出了所计算的总容量,其中横轴为时间轴,其起始时间可以是送货时间或者存储系统的部署时间,纵轴为存储容量。
接着,数据分析模块113可以基于产品性能和使用数据来分析对这些存储系统的容量使用情况。各个存储系统的容量使用数据可以汇聚起来进行分析。图5中间的曲线520示出了所有存储系统的总计使用容量。从图5中可以看出,对存储容量的使用是随时间而变化的。
继而,数据分析模块113可以基于对曲线520的拟合而预测未来的容量使用情况。容量使用曲线可以是线性的或非线性的,因此,可以对容量使用曲线应用线性拟合算法或曲线拟合算法来预测未来的容量使用情况。本领域技术人员可以理解,容量使用情况也可以并不仅仅随时间而变化,还可以考虑其他变量或参数,例如使用这些存储系统的用户数量。此外,还需注意,图5中的曲线520既包含了原始容量使用数据,又包含了基于原始容量使用数据而预测出的容量使用数据。
通过分析所预测的未来的容量使用情况,数据分析模块113可以基于预定规则生成相应的事件。例如,如果基于预测的容量使用数据,未来5天的存储容量使用将达到90%,则可以生成容量超出事件。图5中示出了所生成的容量超出事件。
响应于容量超出事件的生成,解决方案模块115可以提供对应的解决方案。例如,在图5所示的用例中,解决方案模块115可以查看存储系统提供商的数据源,例如经由数据获取模块111从提供商的数据源获取产品供应数据或者解决方案供应数据,以找出最合适的产品或解决方案并提供给用户。图5中示出了所提供的解决方案,例如推荐相关的产品。
图6示出了根据本公开的一个示例实施例的再一个用例的可视化图示。图6的用例涉及支持案例统计以及教育服务规划。
具体而言,数据源可以包括来自特定产品的若干用户的用户数据源。在此用例中,数据获取模块111需要获取的数据例如可以是支持案例数据以及教育服务数据。支持案例数据可以包括用户在购买了产品之后所发生的支持案例信息,例如,支持案例的数量、症状、支持处理过程,等等。教育服务数据可以包括用户预定或已参与的培训服务课程。
理论上,支持案例的数量应当随着时间而逐渐减少。数据分析模块113可以统计具体产品相关的用户支持案例数量随时间的变化。图6中按时间轴方式示出了用户支持案例统计数量的条状图。例如,条610、条620和条630分别示出了在时间轴的一段时期内(例如,一周内)的用户支持案例数量。此外,考虑到用户支持案例数量有可能随着产品版本的更新等事件而发生变化。因此,数据分析模块113可以提取与具体产品相关的显著事件。例如,经由数据获取模块111从产品提供商的数据源中获取产品供应数据。这些显著事件例如可以是软件更新或硬件更新。图6中通过时间轴上的竖线640标识出该事件,例如存储产品版本更新事件。
继而,数据分析模块113可以对这些数据进行分析。例如,检测到用户支持案例数量的突然增长(例如,条630所指示的)之后,数据分析模块113可以查找最近一段时间发生的显著事件,以分析该突然增长的原因。在图6所示的用例中,找到存储产品版本更新事件640可能是该突然增长的原因。
继而,数据分析模块113可以基于一些预定规则来生成相应的事件。当检测到异常案例增长(例如,支持案例数量超出预定阈值并且与理论趋势相反时),可以生成案例增长事件。
响应于案例增长事件的生成,解决方案模块115可以提供对应的解决方案。例如,在图6所示的用例中,解决方案模块115可以查看相应产品的提供商的数据源,例如经由数据获取模块111从提供商的数据源获取产品供应数据、解决方案供应数据或者教育服务数据。在此用例中,例如从提供商的数据中发现最近针对更新的产品版本提供了大量新的培训课程。因此,解决方案模块115可以将相关的培训课程推荐给用户。图6中示出了所提供的解决方案,例如推荐相关的培训课程。
以上通过四个用例详细描述了按照本公开的实施例的数据挖掘平台110的操作。本领域技术人员可以理解,数据挖掘平台110中的各部件可以是硬件模块,也可以是软件单元模块。例如,在某些实施例中,数据挖掘平台110可以部分或者全部利用软件和/或固件来实现,例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地,数据挖掘平台110可以部分或者全部基于硬件来实现,例如被实现为集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。本公开的范围在此方面不受限制。
下面参考图7,其示出了适于用来实现本公开实施例的数据挖掘平台110的计算机系统700的示意性框图。如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM703中,还存储有系统700操作所需的各种程序和数据。CPU701、ROM702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施例,上文参考图1-图2描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行方法200的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。
一般而言,本公开的各种示例实施例可以在硬件或专用电路、软件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
而且,流程图中的各框可以被看作是方法步骤,和/或计算机程序代码的操作生成的操作,和/或理解为执行相关功能的多个耦合的逻辑电路元件。例如,本公开的实施例包括计算机程序产品,该计算机程序产品包括有形地实现在机器可读介质上的计算机程序,该计算机程序包含被配置为实现上文描述方法的程序代码。
在公开的上下文内,机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备,或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多根导线的电气连接、便携式计算机磁盘、硬盘、随机存储存取器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光存储设备、磁存储设备,或其任意合适的组合。
用于实现本公开的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器,使得程序代码在被计算机或其他可编程的数据处理装置执行的时候,引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。
另外,尽管操作以特定顺序被描绘,但这并不应该理解为要求此类操作以示出的特定顺序或以相继顺序完成,或者执行所有图示的操作以获取期望结果。在某些情况下,多任务或并行处理会是有益的。同样地,尽管上述讨论包含了某些特定的实施细节,但这并不应解释为限制任何发明或权利要求的范围,而应解释为对可以针对特定发明的特定实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或在任意合适的子组合中实施。
针对前述本公开的示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本公开的示例实施例范围。此外,前述说明书和附图存在启发的益处,涉及本公开的这些实施例的技术领域的技术人员将会想到此处阐明的本公开的其他实施例。
将会理解,本法明的实施例不限于公开的特定实施例,并且修改和其他实施例都应包含于所附的权利要求范围内。尽管此处使用了特定的术语,但是它们仅在通用和描述的意义上使用,而并不用于限制目的。

Claims (19)

1.一种用于数据挖掘的方法,所述方法包括:
获取与产品相关的、来自至少一个数据源的数据;
对所述数据进行预先处理以确定所述数据的至少一个属性;
至少部分基于所述至少一个属性、针对与所述产品相关的特性来分析预先处理的数据;以及
基于与所述产品相关的特性关联的预定规则,根据所述分析而生成事件,所述事件预测可能的用户需求。
2.根据权利要求1所述的方法,还包括:
响应于所述事件,提供对应的解决方案。
3.根据权利要求2所述的方法,还包括:
按时间轴方式可视化呈现所述预先处理的数据、生成的事件和提供的解决方案中的至少一项。
4.根据权利要求1-3任一所述的方法,还包括:
在对所述数据进行预先处理之后,使用数据的所述至少一个属性对所述数据编制索引以存储在数据储存库中。
5.根据权利要求1-4任一所述的方法,其中所述预先处理包括:
对所述数据进行清洗以确定所述数据的至少一个属性;以及
将所述数据的所述至少一个属性转换成统一的预定格式。
6.根据权利要求1-5任一所述的方法,其中所述提供对应的解决方案包括:
获取与所述产品相关的、来自至少一个其他数据源的数据;
将来自所述至少一个数据源的数据与来自所述至少一个其他数据源的数据进行比较;以及
基于所述比较而提供所述对应的解决方案。
7.根据权利要求1-6任一所述的方法,其中所述至少一个属性选自包括如下的属性组:关联的时间、关联的产品和关联的用户。
8.根据权利要求2-7任一所述的方法,其中所述至少一个数据源包括用户数据源,所述数据包括产品性能和使用数据,
所述分析包括:根据所述产品性能和使用数据,按照时间轴顺序来分析产品使用效率;
所述生成事件包括:根据所述产品使用效率在时间上的分布,按照预定规则生成资源使用低效事件;
所述提供对应的解决方案包括:基于所述产品使用效率在时间上的分布而提供产品基于时间的自动重新配置方案。
9.根据权利要求2-7任一所述的方法,其中所述至少一个数据源包括用户数据源,所述数据包括产品性能和使用数据,
所述分析包括:根据所述产品性能和使用数据,按照时间轴顺序来分析产品使用度量;
所述生成事件包括:根据所述产品使用度量在时间上的分布,按照预定规则生成产品性能异常事件;
所述提供对应的解决方案包括:获取关于同类产品的、来自至少一个其他用户数据源的产品性能和使用数据;将来自所述用户数据源的所述产品性能和使用数据与来自所述至少一个其他用户数据源的产品性能和使用数据进行比较;以及基于所述比较而提供产品性能优化方案。
10.一种用于数据挖掘的装置,所述装置包括:
数据获取模块,配置用于获取与产品相关的、来自至少一个数据源的数据;
数据预处理模块,配置用于对所述数据进行预先处理以确定所述数据的至少一个属性;
数据分析模块,配置用于至少部分基于所述至少一个属性、针对与所述产品相关的特性来分析预先处理的数据,以及配置用于基于与所述产品相关的特性关联的预定规则,根据所述分析而生成事件,所述事件预测可能的用户需求。
11.根据权利要求10所述的装置,还包括:
解决方案模块,配置用于响应于所述事件,提供对应的解决方案。
12.根据权利要求11所述的装置,还包括:
数据可视化模块,配置用于按时间轴方式可视化呈现所述预先处理的数据、生成的事件和提供的解决方案中的至少一项。
13.根据权利要求10-12任一所述的装置,还包括:
数据索引模块,配置用于在对所述数据进行预先处理之后,使用数据的所述至少一个属性对所述数据编制索引以存储在数据储存库中。
14.根据权利要求10-13任一所述的装置,其中所述数据预处理模块配置用于通过如下对所述数据进行预先处理:
对所述数据进行清洗以确定所述数据的至少一个属性;以及
将所述数据的所述至少一个属性转换成统一的预定格式。
15.根据权利要求10-14任一所述的装置,其中所述解决方案模块配置用于通过如下来提供对应的解决方案:
获取与所述产品相关的、来自至少一个其他数据源的数据;
将来自所述至少一个数据源的数据与来自所述至少一个其他数据源的数据进行比较;以及
基于所述比较而提供所述对应的解决方案。
16.根据权利要求10-15任一所述的装置,其中所述至少一个属性选自包括如下的属性组:关联的时间、关联的产品和关联的用户。
17.根据权利要求11-16任一所述的装置,其中所述至少一个数据源包括用户数据源,所述数据包括产品性能和使用数据,
所述数据分析模块配置用于:根据所述产品性能和使用数据,按照时间轴顺序来分析产品使用效率;根据所述产品使用效率在时间上的分布,按照预定规则生成资源使用低效事件;以及
所述解决方案模块配置用于:基于所述产品使用效率在时间上的分布而提供产品基于时间的自动重新配置方案。
18.根据权利要求11-17任一所述的装置,其中所述至少一个数据源包括用户数据源,所述数据包括产品性能和使用数据,
所述数据分析模块配置用于:根据所述产品性能和使用数据,按照时间轴顺序来分析产品使用度量;根据所述产品使用度量在时间上的分布,按照预定规则生成产品性能异常事件;以及
所述解决方案模块配置用于:获取关于同类产品的、来自至少一个其他用户数据源的产品性能和使用数据;将来自所述用户数据源的所述产品性能和使用数据与来自所述至少一个其他用户数据源的产品性能和使用数据进行比较;以及基于所述比较而提供产品性能优化方案。
19.一种用于数据挖掘的计算机程序产品,所述计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令,所述机器可执行指令在被执行时使机器执行根据权利要求1至9任一项所述的方法的步骤。
CN201310756036.8A 2013-12-27 2013-12-27 用于数据挖掘的方法和装置 Pending CN104751235A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310756036.8A CN104751235A (zh) 2013-12-27 2013-12-27 用于数据挖掘的方法和装置
US14/573,235 US20150186907A1 (en) 2013-12-27 2014-12-17 Data mining

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310756036.8A CN104751235A (zh) 2013-12-27 2013-12-27 用于数据挖掘的方法和装置

Publications (1)

Publication Number Publication Date
CN104751235A true CN104751235A (zh) 2015-07-01

Family

ID=53482259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310756036.8A Pending CN104751235A (zh) 2013-12-27 2013-12-27 用于数据挖掘的方法和装置

Country Status (2)

Country Link
US (1) US20150186907A1 (zh)
CN (1) CN104751235A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106127521A (zh) * 2016-03-23 2016-11-16 四川长虹电器股份有限公司 一种信息处理方法及数据处理系统
CN106202218A (zh) * 2016-03-23 2016-12-07 四川长虹电器股份有限公司 一种数据处理方法及数据处理系统
CN106204100A (zh) * 2016-03-23 2016-12-07 四川长虹电器股份有限公司 一种数据处理方法及数据处理系统
CN106204101A (zh) * 2016-03-23 2016-12-07 四川长虹电器股份有限公司 一种数据采集方法及数据处理系统
CN107292429A (zh) * 2017-06-07 2017-10-24 上海欧睿供应链管理有限公司 一种基于需求特性分析的需求预测模型选择方法
CN107886350A (zh) * 2017-10-17 2018-04-06 北京京东尚科信息技术有限公司 分析数据的方法和装置
CN108270772A (zh) * 2016-12-30 2018-07-10 瑞士优北罗股份有限公司 监视多个联网设备的监视装置、设备监视系统和方法
CN109902981A (zh) * 2017-12-08 2019-06-18 北京京东尚科信息技术有限公司 用于进行数据分析的方法及装置
CN110020333A (zh) * 2017-07-27 2019-07-16 北京嘀嘀无限科技发展有限公司 数据分析方法及装置、电子设备、存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108132989A (zh) * 2017-12-15 2018-06-08 华中师范大学 一种基于教育大数据的分布式系统
CN110008415A (zh) * 2019-03-21 2019-07-12 北京仝睿科技有限公司 一种数据对象变化趋势确定方法、装置及服务器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080215576A1 (en) * 2008-03-05 2008-09-04 Quantum Intelligence, Inc. Fusion and visualization for multiple anomaly detection systems
CN101436967A (zh) * 2008-12-23 2009-05-20 北京邮电大学 一种网络安全态势评估方法及其系统
US8332258B1 (en) * 2007-08-03 2012-12-11 At&T Mobility Ii Llc Business to business dynamic pricing system
CN103440164A (zh) * 2012-03-29 2013-12-11 穆西格马交易方案私人有限公司 数据解决方案系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050075949A1 (en) * 2000-12-29 2005-04-07 Uhrig Thomas C. Method and system for analyzing and planning an inventory
US20070282668A1 (en) * 2006-06-01 2007-12-06 Cereghini Paul M Methods and systems for determining product price elasticity in a system for pricing retail products
US8117085B1 (en) * 2008-06-05 2012-02-14 Amazon Technologies, Inc. Data mining processes for supporting item pair recommendations
WO2011037624A1 (en) * 2009-09-22 2011-03-31 Emc Corporation Snapshotting a performance storage system in a system for performance improvement of a capacity optimized storage system
US8595267B2 (en) * 2011-06-27 2013-11-26 Amazon Technologies, Inc. System and method for implementing a scalable data storage service
US8276140B1 (en) * 2011-11-14 2012-09-25 Google Inc. Adjustable virtual network performance
US20130325556A1 (en) * 2012-06-01 2013-12-05 Kurt L. Kimmerling System and method for generating pricing information
US9087306B2 (en) * 2012-07-13 2015-07-21 Sas Institute Inc. Computer-implemented systems and methods for time series exploration
US9244624B2 (en) * 2013-08-01 2016-01-26 International Business Machines Corporation File load times with dynamic storage usage
US20150160944A1 (en) * 2013-12-08 2015-06-11 International Business Machines Corporation System wide performance extrapolation using individual line item prototype results

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8332258B1 (en) * 2007-08-03 2012-12-11 At&T Mobility Ii Llc Business to business dynamic pricing system
US20080215576A1 (en) * 2008-03-05 2008-09-04 Quantum Intelligence, Inc. Fusion and visualization for multiple anomaly detection systems
CN101436967A (zh) * 2008-12-23 2009-05-20 北京邮电大学 一种网络安全态势评估方法及其系统
CN103440164A (zh) * 2012-03-29 2013-12-11 穆西格马交易方案私人有限公司 数据解决方案系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张卉: "《数据挖掘技术在B2B电子商务商品销售中的应用研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106127521A (zh) * 2016-03-23 2016-11-16 四川长虹电器股份有限公司 一种信息处理方法及数据处理系统
CN106202218A (zh) * 2016-03-23 2016-12-07 四川长虹电器股份有限公司 一种数据处理方法及数据处理系统
CN106204100A (zh) * 2016-03-23 2016-12-07 四川长虹电器股份有限公司 一种数据处理方法及数据处理系统
CN106204101A (zh) * 2016-03-23 2016-12-07 四川长虹电器股份有限公司 一种数据采集方法及数据处理系统
CN106204100B (zh) * 2016-03-23 2021-06-29 四川长虹电器股份有限公司 一种数据处理方法及数据处理系统
CN108270772A (zh) * 2016-12-30 2018-07-10 瑞士优北罗股份有限公司 监视多个联网设备的监视装置、设备监视系统和方法
CN108270772B (zh) * 2016-12-30 2023-09-01 瑞士优北罗股份有限公司 监视多个联网设备的监视装置、设备监视系统和方法
CN107292429A (zh) * 2017-06-07 2017-10-24 上海欧睿供应链管理有限公司 一种基于需求特性分析的需求预测模型选择方法
CN110020333A (zh) * 2017-07-27 2019-07-16 北京嘀嘀无限科技发展有限公司 数据分析方法及装置、电子设备、存储介质
CN107886350A (zh) * 2017-10-17 2018-04-06 北京京东尚科信息技术有限公司 分析数据的方法和装置
CN107886350B (zh) * 2017-10-17 2021-08-03 北京京东尚科信息技术有限公司 分析数据的方法和装置
CN109902981A (zh) * 2017-12-08 2019-06-18 北京京东尚科信息技术有限公司 用于进行数据分析的方法及装置

Also Published As

Publication number Publication date
US20150186907A1 (en) 2015-07-02

Similar Documents

Publication Publication Date Title
CN104751235A (zh) 用于数据挖掘的方法和装置
US7360697B1 (en) Methods and systems for making pricing decisions in a price management system
US8533235B2 (en) Infrastructure and architecture for development and execution of predictive models
US20150371244A1 (en) Forecasting information technology workload demand
US20160267503A1 (en) System and method for predicting sales
US20170024446A1 (en) Data storage extract, transform and load operations for entity and time-based record generation
US20100205039A1 (en) Demand forecasting
WO2015052851A1 (ja) 顧客データ解析システム
WO2011142988A1 (en) Risk element consolidation
WO2011142985A1 (en) Technology infrastructure-change risk model
Lanza et al. Integrated capacity planning over highly volatile horizons
US20120239375A1 (en) Standardized Modeling Suite
WO2011142987A1 (en) Organization-segment-based risk analysis model
US20130212154A1 (en) Processing event instance data in a client-server architecture
US10839318B2 (en) Machine learning models for evaluating differences between groups and methods thereof
US20120116843A1 (en) Assessing demand for products and services
Büyüktahtakın et al. A mixed-integer programming approach to the parallel replacement problem under technological change
CN111340240A (zh) 实现自动机器学习的方法及装置
CN110717597A (zh) 利用机器学习模型获取时序特征的方法和装置
CN112925978A (zh) 一种推荐系统评测方法、装置、电子设备和存储介质
CN111369344A (zh) 一种动态生成预警规则的方法和装置
CN116827950A (zh) 云资源的处理方法、装置、设备及存储介质
CN114925275A (zh) 产品推荐方法、装置、计算机设备及存储介质
US20130245804A1 (en) Network based calculations for planning and decision support tasks
Tarka et al. Decision Making in Reference to Model of Marketing Predictive Analytics–Theory and Practice

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200414

Address after: Massachusetts, USA

Applicant after: EMC IP Holding Company LLC

Address before: Massachusetts, USA

Applicant before: EMC Corp.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150701