CN102089759A - 生成用于输入分析模型的分析数据集的方法 - Google Patents
生成用于输入分析模型的分析数据集的方法 Download PDFInfo
- Publication number
- CN102089759A CN102089759A CN200880130317XA CN200880130317A CN102089759A CN 102089759 A CN102089759 A CN 102089759A CN 200880130317X A CN200880130317X A CN 200880130317XA CN 200880130317 A CN200880130317 A CN 200880130317A CN 102089759 A CN102089759 A CN 102089759A
- Authority
- CN
- China
- Prior art keywords
- data
- time
- relevant
- entity
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000004458 analytical method Methods 0.000 claims abstract description 44
- 238000012360 testing method Methods 0.000 claims description 7
- 230000008676 import Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 230000036962 time dependent Effects 0.000 abstract 5
- 230000008569 process Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 8
- 238000007726 management method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010205 computational analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000012517 data analytics Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000010419 fine particle Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000714 time series forecasting Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种从存储于至少一个数据库中的数据生成用于输入分析模型的数据集的方法和系统。该方法包括下述步骤:定义包括多个元组的标记时间的集群,且每个元组包括用于分析的实体的实体标识符,和至少一个与相应的实体标识符相关的参考时间戳;并通过生成至少一个与时间有关的属性值来创建数据集,与时间有关的属性值表示相应实体标识符的与时间有关的参数并依据相应的属性定义来生成,其中与时间有关的属性值或者每个与时间有关的属性值根据相应的时间戳而生成。预备步骤用于将实体定义为分析模型的分析目标以及定义用于描述该实体的分析记录,该分析记录包括至少一个由相应的属性定义而定义的与时间有关的属性。
Description
技术领域
本发明涉及一种从存储在至少一个数据库中的数据生成数据集的方法,尤其涉及一种自动生成用于输入分析模型的标准数据集的方法。
背景技术
由于现代工业、科学和商务中日益增长的数据容量和复杂度,分析记录数据以提取有用信息的工作逐渐变得困难。对大量数据进行分类整理并生成相关信息的过程(通常称为数据挖掘)可能会异常冗长并浪费时间。使用更复杂和精密的工具以便根据大量存储的数据生成有用信息的自动数据分析变得越来越常见。通过使用精密的算法,分析师能够例如识别商务过程的关键属性,预测客户行为并使用此信息以获取商业机会。这种数学和统计技术的实现被称为高级分析引擎或分析模型,并可根据功能分类为,例如,分类、回归、聚集、分节、属性重要性、相关规则、以及时间序列预测。然而,发展这些模型是一个昂贵以及浪费时间的过程,同时要使这些模型满足保持最新就需要对时间和费用进一步的投资。
由工业和商业生成的数据可存储于数据库中,例如操作型数据库(operational databases)、数据仓库或数据集市。典型地,数据集市可适合于存储适用于特定目的或主题的数据。数据仓库的设计原则通常需要将数据以其最基本的形式存储,即作为“原子”数据,并且通常它们包含大量的由原始数据列构成的数据库表格。
操作型数据库通常通过使用数据库规范进行优化,以保持数据的完整性以及商业交易的记录速度。为了加快数据检索的速度对数据仓库进行优化。采用基于多维度的模型,数据仓库中的数据常常是非规范化的。而且,为了加速数据检索,数据仓库的数据通常需多次存储——以它们最细微颗粒的形式并以称为聚集的总和形式。
操作型数据库和数据仓库一般都遵循实体-关系数据模式并通常基于关系数据库管理系统(RDBMS)。可有大量的工具和技术用于在各个存储库之间提取、转换、以及装载(ETL)数据,并且可有大量技术来执行数据操作,通常使用称为结构化查询语言(SQL)的标准数据和元数据查询语言。
分析所使用的数据可从多个数据源中采集,从由工业或商业记录在操作型数据库和数据仓库中的数据采集,以及从第三方数据提供商采集。第三方数据提供商可提供不同类型的数据,例如人口统计数据,生活方式数据,客户兴趣等等。
为了有效地操作,高级分析模型技术需要将数据以简单的形式填充至模型,例如,称为分析数据集的单表,该分析数据集包括位于指定时间所感兴趣实体的展示。分析数据集可视为虚拟数据表,其各行表示所指定的感兴趣实体,而其各列由属性(还被称为分析变量或注释值)组成,用于描述不同的实体。分析记录是用于描述该实体的属性构成的组。分析数据集有时称为虚拟展平文件。这类表格应当尽可能的完整以用于分析,并通常需要比存储于源数据库中的原始数据属性更为精细的数据属性。属性定义或表达式描述了指定的属性如何从用于分析记录的操作数据中得出,并可能包括基本要素和/或计算表达式。基本要素通常是基本的属性,而计算表达式可包括属性、聚集或其他功能。实体被定义为分析兴趣的目标,并可包括,例如:客户、产品、商店等等。在客户分析中,分析数据集有时表达为客户的‘360’度全景。客户可由数以千计的属性描述,这些属性可从包含于客户数据仓库内的原子数据计算出。有效的分析需要在指定时间为指定数量的客户简单地重建这些属性。
最近的数学发展以及最佳实践方法的传播使分析建模技术的自动化程度得到提高。然而,数学和统计引擎仍需要一种可重复和工业化的过程,以便创建用作其输入的分析数据集并始终保持这些数据集。
美国专利US7047251描述了一种标准化的客户应用,以将客户数据输入分析模型中。美国专利US7272617涉及对分析数据集的创建,以在客户关系管理系统中建模。然而,这些系统并不是以一种自动化的方式运行,也没有描述用户实体的属性,这些属性可能会随着时间而改变。
发明内容
据此,本发明的一个目的就是提供一种改进的方法,用于自动生成分析数据集以输入分析模型中。
一般来说,本发明旨在提供一种通过提供感兴趣实体的标记时间的集群和描述该实体的分析记录的交叉乘积,用于自动生成输入分析模型中的标准化数据集的方法和系统。
依据本发明的第一方面,提供了一种从存储在至少一个数据库中的数据来生成用于输入分析模型的数据集的方法,该方法包括以下步骤:定义包括多个元组的标记时间的集群,且每个元组包括用于分析的实体的实体标识符,和至少一个与相应的所述实体标识符相关的参考时间戳;以及通过为每个实体标识符生成至少一个与时间有关的属性值,从在所述至少一个数据库中与所述实体标识符相关的数据中创建数据集,所述与时间有关的属性值或者每个与时间有关的属性值都表示相应实体标识符的与时间有关的参数,且根据相应的属性定义而生成,其中,所述与时间有关的属性值或者每个与时间有关的属性值依据相应的参考时间戳而生成。
以此方式,根据本发明的方法为分析模型提供了一种标准化的输入。由于当前高级分析技术可用于非常高维度的空间中(一些技术,例如,可自动处理描述一实体的数以千计的属性),本发明的方法满足了一种用于自动创建非常宽的分析数据集的未实现的需求,其以正式的方式管理与时间有关的属性计算,只需最少量的编程知识以及人工介入。
所提出的自动方法(处理与时间有关的属性),对于将数据挖掘工作集成在预先安排的环境中是有利和有效的,并使得回溯测试设备的执行无需特定编程,且对于数据挖掘活动的整体效率是非常重要的。
该方法可包括下述预备步骤:将实体定义为分析模型的分析目标;以及定义用于描述该实体的分析记录,该分析记录包括至少一个由相应的属性定义来定义的与时间有关的属性。自然,分析记录还可包括一个或多个与时间无关的属性。
本发明方法的实施例的特征可包括:
●该属性定义或每个属性定义以结构化查询语言表述,以便被数据库管理系统执行;
●标记时间的集群由结构化查询语言定义,以便被数据库管理系统执行;
●与时间有关的属性定义或每个与时间有关的属性定义包括至少一个在一个或多个数据库的数据上执行的数据操作,其中所述数据库选自包括数据提取、数据转换、数据计算、数据聚集以及数据连接的组中;
●定义一个或多个属性组,且各个属性组包括一个或多个具有相似特征的属性集合。
本发明的第二个方面提供了一种使用分析模型来分析数据的方法,该方法包括:根据上述方法生成用于输入分析模型的数据集;将数据集输入分析模型,并根据分析模型执行数据分析。
本发明的第三个方面提供了一种预测实体行为的方法,包括使用上述方法中的分析模型来分析数据。
本发明的第四个方面提供了一种训练、评价或回溯测试分析模型的方法,包括使用上述方法中的分析模型来分析数据。
根据本发明的方法可通过计算机执行。它们也可以软件形式在编程装置上执行。它们还可单独地以硬件或软件方式执行或以两者结合的方式执行。
根据本发明的第五个方面,提供了一种用于从存储在至少一个数据库中的数据生成数据集的系统,其中,所述数据集用于输入分析模型中,该系统包括:
输入,用于接收来自一数据库的数据;
处理器,用于定义包括多个元组的标记时间的集群,且每个元组包括用于分析的实体的实体标识符,和至少一个与相应的实体标识符相关的参考时间戳;并用于通过为每个实体标识符生成至少一个与时间有关的属性值,从在至少一个数据库中与所述实体标识符相关的数据中创建数据集,每个属性值都表示相应实体标识符的与时间有关的参数,且根据属性定义而生成,其中,与时间有关的属性值或者每个与时间有关的属性值依据该相应时间戳而生成;以及,
输出,用于将数据集传输至分析模型。
本发明的系统的实施例的特征可包括:
●处理器可操作,以便将实体定义为分析模型的分析目标;并定义用于描述实体的分析记录,该分析记录包括至少一个由相应的属性定义来定义的与时间有关的属性;以及,
●用户界面,用于定义标记时间的集群、分析记录、或者至少一个组成分析记录的属性。
由于本发明可以软件形式执行,本发明可具体化为计算机可读代码,装载于任意合适的载体媒介上,以供可编程装置。一种有形的载体媒介可包括存储媒介,例如软盘,CD-ROM,硬盘驱动器,磁带装置或固态存储装置等。一种瞬时载体媒介可包括信号,例如电信号,电子信号,光信号,声音信号,磁信号或电磁信号,例如微波或射频(RF)信号。
附图说明
现在,仅通过示例的方式和参考下述附图,来描述本发明的实施例:
图1是根据本发明的一个实施例,用于自动生成分析数据集的系统的示意图;
图2示出了存储在图1所示数据库中的操作型数据表的集合;
图3示出了根据本发明一个实施例用于自动生成分析数据集而执行的方法的各个步骤的流程图;
图4A示出了由图1所示实施例所定义的标记时间的集群的两个示例性表格;
图4B示出了由图1所示实施例所生成的分析数据集的两个示例;
图5示出了根据本发明一个实施例用于生成分析数据集的方法的示意图;以及,
图6示出了根据本发明一个实施例分析数据的方法的各步骤的流程图。
具体实施方式
参考图1至图5,描述根据本发明方法的第一实施例。
参考图1,数据存储在数据库10的多个数据表11_1、11_2、......11_n中。数据库10可为任意数据存储系统,例如操作型数据库或数据仓库。为了能够从数据序列中提取出有用的信息,通过使用数据库查询引擎15,从数据集生成处理器20接收指令并通过数据集生成处理器20转换成分析数据集25以输入至分析模型中,相关数据从存储在多个数据表11_1、11_2、......11_n中的数据中提取或得到。可使用用户界面22以输入数据或定义用于生成数据集的参数。
图2示出了数据表11_1、11_2、11_3、12_1的示例,从中可得到用于分析的相关数据。表格11_1,表示为“Customers_T”,包含有关将客户描述为实体的描述数据,并包括3个客户示例:乔,约翰,以及苏珊,分别具有实体标识符Id234,145和456。每个客户都由姓名、家庭邮编、生日和性别这些数据属性描述。表12_1包含人口统计数据,其被称为“Geo-Demographics_T”,可从任意的第三方数据提供者(例如,Experian或Acxiom公司)处采集,并包括这些属性,例如位于指定邮编的家庭中出租房屋的比率,以及位于相应邮编的家庭中拥有至少一辆车的比率。应当理解的是,提供的这些示例仅为了说明的目的,这种表格中还可以包含其他类型的数据。表格11_2,被称为“2007-Billings_T”,包括一些在2007年为每个客户预先聚集的账单信息。该表格包括12列,各列对应于一个月份,示出了每个客户各月到期金额。表格11_3,被称为“Transaction_T”,包括交易数据,各行表示在指定日期客户购买的指定数量的产品的单笔交易。为了说明性的示例,我们示出了3个客户在2007年的头三个月的交易情况。可以看出,表格11_2中的账单信息与表格11_3的交易相互关联。
参考图3,根据本发明实施例的生成分析数据集的第一步S1,是要将兴趣实体定义为要由分析模型执行的高级数据分析过程。在图2示出的示例中,用户可将“客户”这一概念具体指定为兴趣实体。通过定义可在表11_1中找到‘客户’的全部列表来完成这一指定,其中‘Customer_T’使用属性‘Id’。应当注意,合适地定义该实体可能较为复杂。例如,零售银行可能在一些分析应用中考虑将其实体定义为‘家庭’,并在其他高级分析项目中,可能考虑将其实体定义为“账单所有者”。同一实体可被用于不同的分析项目。
如图3所示,根据本发明实施例的方法的下一步S2,是要定义分析记录以描述兴趣实体。每个实体可与至少一个分析记录相关。分析记录由一列属性定义,这些属性根据各自的属性定义通过数据操纵表达式来提供,包括但并不限制于从数据表中直接提取属性、连接操作以得出含在表格中的信息、使用表达式编辑器、计算、转换或复杂的聚集来创建新变量。在分析记录中的格式操作可由SQL来表达,通过数据库查询引擎15执行,以从图1所示的数据库10中获取数据。SQL是一种本领域公知的标准的交互式编程语言,用于查询和修改数据以及管理数据库,因此,为了理解本发明,不需对该技术作进一步的解释。格式操作的表达式可是指分析记录的在前属性,是指一种称为“参考时间戳(reference time stamp)”的变量,其在下文中称为RTS,或是指用户自定义的提示,其在分析数据集创建时可变为属性值。在图2示出的示例中,用户可能会决定在与‘客户’实体相关的分析记录中放置表11_1‘Customers_T’中所含的属性。这时,属性‘性别’可以被认为是在预测性的分析建模中使用的有价值的信息,属性‘生日’可能会被‘年龄’这一概念替代。为达此目标,用户可编辑分析记录的定义,使‘生日’不可见并使用表达式编辑器添加算出的列以增加一个新的称为年龄的变量,例如,可根据属性定义或表达式《convert(RTS-BirthDate)in years》得出。用户还可决定将“邮编”属性作为连接键值来连接所有的包含在表12_1“Geo-Demographics_T”中的地理-人口统计数据。
用户可能会希望加入一个新的属性,用于描述一个客户位于指定日期的上个月开销数量,其被称为该日期前的PM_Billing。为此,可基于用户标识符(“Id”)把包含在表11_2“2007_Billings_T”中的数据与一等价的包含2006年的数据的表“2006_Billings_T”连接在一起,并在切换语句后加入表达式以定义该属性,例如:《switch on (RTS),when[month(RTS)=01 and year(RTS)=2007],return 2006_Billings_T.M12,when[month(RTS)=02 and year(RTS)=2007],return 2007_Billings_T.M01,when[month(RTS)=03 and year(RTS)=2007],return 2007_Billings_T.M02,...》。用户还可决定通过为每件产品基于发生在两个在前月的购买量计算一些总和来定义一属性。在在前月期间对产品A的购买量可被称为“PM_ProductA”并可能,例如,表达为《count_filtered_aggregate(“Transactions_T,“T.Id”,“Id”,“Date”,RTS-1 month,RTS,“Product”,‘A’)》,其可被翻译为:当连接列“Customers_T.Id”和“Transactions_T.Id”时,计算出包含在“Transactions_T”表中的交易量,其中交易的“日期(Date)”必须介于RTS-1月以及TRS之间,仅保留属性“产品(Product)”等于“A”的交易。
所得出的分析数据集将包含至少一个与时间有关的属性。在当前示例中,有四个属性与时间有关:年龄(Age),PM_Billing,PM_Product_A和PM_Product_B。
可以理解的是,根据本发明的方法并不限制于特定的用于定义属性的语言表达式;这些表达式可由SQL生成,或由图形化的用户界面提供。还可以理解的是,根据本发明的方法并不限制于特定的数据操作。根据本发明的方法的概念是至少一个用于定义属性的数据操作涉及一个在与时间有关的表达式中使用的特定的日期值,以生成所期望的与时间有关的属性。
分析记录的属性可能会或可能不会被分组为同种属性,有时将其称为‘域(Domains)’。域是一组具有相似特征的属性,这些特征描述了实体的同种分块。例如,描述客户的分析记录可具有人口统计域或者行为域。同样,可为由分析模型生成的数据创建域,例如,评价和部分域。
本方法开始的两个步骤(S1&S2)可简单地使用表达式编辑器或一些编程语言技术来实现。然而,应当理解的是,根据本发明的方法在运行时,并不是每次都需要执行步骤S1和S2。分析项目第一次处理特定实体时,用户定义此实体以及相关的分析记录。接着,对同一实体执行的项目可重新利用已经定义的分析记录。可选地,关注于非常不同的域的多个分析记录可与一个实体相关。
参考图3,该过程中的第三步(S3)是要定义标记时间的集群。定义标记时间的集群可视作数据操作技术,其生成至少具有两列的表格:第一列包括所感兴趣实体标识符的值的列表,而第二列包括与每个实体标识符相关的时间戳的值,用户希望将其用作此实体的参考时间戳。因此,每行的标记时间的集群包括实体标识符的数据组或元组以及至少一个参考时间戳。例如,如图4A(i)所示,用户可从图2示出的数据中索取“2007年2月1日的男性”的标记时间的集群。用户可使用标记时间的集群的编辑器界面,以便为指定实体生成兴趣集群标识符的列表,以及他希望用来计算分析记录的与时间有关的属性值的相关时间戳。在提供的示例中,用户已决定过滤仅包含男性(Sex=‘M’)的集群,并计算用作参考时间戳“2007年2月1日”的分析记录的所有与时间有关的属性。如图4A(ii)所示,仅为解释的目的而提出的,标记时间的集群的另一示例包括所有与“2007年3月1日”这一时间戳有关的客户(男性和女性)。定义标记时间的集群是为不同的时间参考的期望集群而重新生成期望属性值所需的唯一操作。无需重新定义该分析记录。图4A中示出了这些标记时间的集群的两个示例。从过滤期望实体的列表、从对先前存在的时间戳集群的组合例如联合、交叉以及差异;或者,从选择的日期列表和实体标识符课表的笛卡尔乘积,通过用户界面22提供的图形化编辑器可提供对时间戳集群的简单创建。时间戳属性的定义可使用,例如,提示系统,其可以索取一值用于仅在运行时刻填充列,或者可自动地插入当前日期。时间戳可用于计算属性值或者查找包含在依赖于时间的特定列中的值。
应当理解的是,在本发明的一些实施例中,实体标识符可具有多于一个的参考时间戳,或者不同的实体标识符可与不同的时间戳关联。在单个标记时间的集群中,指定的实体可表示在不同的时间戳处。
第四步(S4)是要生成分析数据集。当为同一实体提供有指定分析记录以及相应标记时间的集群时,此步骤完全是自动进行的。在本发明的这一实施例中,该步骤通过由数据集生成处理器25生成SQL语句来实现。由数据库查询引擎15执行该SQL语句,从而从数据库10中检索数据,以便把分析数据集填入单元中,并创建包含至少一个基于标记时间的集群的RTS的属性值的分析数据集。
如图5所示,得到的分析数据集35可视为标记时间的集群31与分析记录32的交叉乘积,其中,标记时间的集群31包括实体标识符列311与时间参考列312,而分析记录32包括属性列,其分组为三个域:域1,域2以及域3。
由数据库查询引擎15执行的SQL语句可提供为非常复杂的“选择(select)”语句,其返回一易变的结果集合,并仅在查询时可用,或者可执行所得到的选择语句,以便根据用户的选择创建数据集。在图4B示出的得到的分析表中,客户145的情况示出了,在第一个得到的分析数据集(图4B(i))中,他的年龄,其为与时间有关的属性,在2007年2月是26岁,并且在第二个得到的分析数据集(图4B(ii))中,他的年龄,在2007年3月是27岁,这是因为他的生日是在2月,并且属性值随时间而变。
根据本发明的系统可以微处理器内部的硬件形式实现,或以微处理器执行的软件媒介上的软件或非易失性存储器中的可编程组件的形式实现。
根据本发明该实施例的方法提供了这一优点:无需每次当用于分析的时间因子改变时都重新定义分析记录。通过简单地改变标记时间的集群中的参考时间戳,可生成适于新的期望时间参考的新的数据集。因此,本发明提供以格式化和高自动化的方式对时间参考属性的管理,并具有最少量的人工介入。结果,生成数据集的时间消耗以及花费更少。用于分析或预测实体行为的分析模型可更有效地保持、重训练以及回溯测试。
根据本发明实施例的方法可用于很多分析应用中,例如实体行为分析、预测建模或对分析模型的训练、评价、重训练以及回溯测试等等。例如,该方法可用于为客户分类的客户分析中,即将具有相似特征的客户分组,然后使用这些分组创建目标客户列表以从事特定活动。
图6示出了描述分析数据的方法的各步骤的流程图,如上文所述,该方法包括执行生成用于输入分析模型的数据集的方法。步骤S11至S14的执行方式与图3的步骤S1至S4相似。在步骤S15中,生成的分析数据集输入至分析模型中,在步骤S16中,检索从分析模型中输出的相关信息。
根据本发明方法的潜在应用是用于使高级分析模型自动地按照预定计划的方式升级,使用最新版本的数据来执行模型重训练,或简单地将高级分析模型(有时称为“评价(scoring)”)应用于最新的兴趣实体视图。例如,电信运营机构可能会对所有的后付费客户进行评价感兴趣,以便得出哪些客户更倾向于离开并更换至其竞争机构,并为那些值得保留的客户配置保留计划。为此,该运营机构每个月都需要为其整个客户库进行评价。可能发生的是,用于评级的预测分析模型,作为一个关键的影响因素,将使用一些行为数据(例如:上个月给出的电话数量)。为了使分析变得完全自动化,生成数据集的过程也应当自动化,该数据集汇编了所有后付费客户及其所有属性值的信息。本发明提供了一种自动收集与时间有关的属性的最新值的正式方法。
本发明方法的另一潜在应用是用于回溯测试模型中。例如,在上述示例中,电信运营机构商业上的所有者可决定请求分析团队在过去的数据上测试高级分析模型,以便得到如果已在过去的6个月中使用该系统检测潜在的离开客户,该系统将如何执行。此时,该高级分析模型可用于汇编了描述客户在其6个月前、5个月前等时刻的属性值的数据集。本发明提供了一种简单地重建分析数据集的方法,该分析数据集汇编了后付费客户当其在指定日期在该系统中可知的信息。
进一步的潜在应用是当提出的高级分析模型需要更多的数据,以便获取比单一时间段提供的数据稳固的结果时。在电信运营机构周围更早发展的例子中,让我们假定其商业上的所有者希望拥有一种专用的模型,以对客户实现特定分组,例如(“5星”表示非常有价值的客户)。为了确保趋于离去并加入其竞争者的潜在“5星”客户的数量被正确地检测,他可能希望拥有为此分组而开发的特有模型。若在这一分组的人数非常少,对于任何建模技术来说,找到任一稳固的统计定律都是非常困难的。克服这一限制的方法是汇编一训练数据集,该数据集将连结“5星”客户的“快照”,不仅仅是上个月的,还包括前几个月的:在这种情况下,训练数据集可包括指定客户在不同日期的属性值。本发明提供了一种正式的过程,用于得出指定兴趣实体在指定时间的属性值(以汇编在其生命周期不同阶段的单一实体的多个版本)。
虽然本文参考特定实施例描述了本发明,但是本发明并不限制于该特定实施例,对于本领域技术人员来说,一些改变都是显而易见的,并且这些改变均属于本发明的范围。
Claims (13)
1.一种从存储在至少一个数据库中的数据生成用于输入分析模型的数据集的方法,该方法包括下述步骤:
定义包括多个元组的标记时间的集群且其中各个元组包括用于分析的实体的实体标识符,和至少一个与相应的所述实体标识符相关的参考时间戳;以及
通过为每个实体标识符生成至少一个与时间有关的属性值,从在所述至少一个数据库中与所述实体标识符相关的数据中创建数据集,所述与时间有关的属性值或者每个与时间有关的属性值都表示相应实体标识符的与时间有关的参数,且根据相应的属性定义而生成,其中,所述与时间有关的属性值或者每个与时间有关的属性值依据相应的参考时间戳或每个相应的参考时间戳而生成。
2.根据权利要求1所述的方法,进一步包括以下预备步骤:
将所述实体定义为所述分析模型的分析目标;以及
定义用于描述所述实体的分析记录,所述分析记录包括至少一个由相应的所述属性定义来定义的与时间有关的属性。
3.根据权利要求1或2所述的方法,其特征在于,所述属性定义或每个属性定义以结构化查询语言表述,以便被数据库管理系统执行。
4.根据上述任一权利要求所述的方法,其特征在于,所述标记时间的集群由结构化查询语言定义,以便数据库管理系统执行。
5.根据上述任一权利要求所述的方法,其特征在于,与时间有关的属性定义或每个与时间有关的属性定义包括至少一个在一个或多个数据库的数据上执行的数据操作,其中所述数据库选自包括数据提取、数据转换、数据计算、数据聚集以及数据连接的组中。
6.根据上述任一权利要求所述的方法,进一步包括定义一个或多个属性组,其中每个属性组包括一个或多个具有相似特征的属性集合。
7.一种使用分析模型来分析数据的方法,该方法包括:
根据上述任一权利要求所述的方法生成用于输入分析模型的数据集;
将所述数据集输入所述分析模型;以及
根据所述分析模型执行数据分析。
8.一种预测实体行为的方法,包括使用根据权利要求7所述方法中的分析模型来分析数据。
9.一种训练、评价或回溯测试分析模型的方法,包括使用根据权利要求7所述方法中的分析模型来分析数据。
10.一种用于从存储在至少一个数据库中的数据生成数据集的系统,其中,所述数据集用于输入分析模型中,该系统包括:
输入,用于接收来自数据库的数据;
处理器,用于定义包括多个元组的标记时间的集群,且每个元组包括用于分析的实体的实体标识符,和至少一个与相应的所述实体标识符相关的参考时间戳;并用于通过为每个实体标识符生成至少一个与时间有关的属性值,从在至少一个数据库中与所述实体标识符相关的数据中创建数据集,每个属性值都表示相应实体标识符的与时间有关的参数,且根据属性定义而生成,其中,所述与时间有关的属性值或者每个与时间有关的属性值依据相应时间戳而生成;以及
输出,用于将所述数据集传输至所述分析模型。
11.根据权利要求10所述的系统,其特征在于,所述处理器可操作,以便将所述实体定义为所述分析模型的分析目标;并定义用于描述所述实体的分析记录,所述分析记录包括至少一个由相应的属性定义来定义的与时间有关的属性。
12.根据权利要求10或11所述的系统,进一步包括用户界面,用于定义标记时间的集群、分析记录或者至少一个组成所述分析记录的属性。
13.一种计算机可读媒介,其具有计算机可执行指令,以便计算机系统能够执行根据权利要求1至9任一所述的方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/IB2008/054156 WO2010004369A1 (en) | 2008-07-09 | 2008-07-09 | A method of generating an analytical data set for input into an analytical model |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102089759A true CN102089759A (zh) | 2011-06-08 |
Family
ID=40473370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200880130317XA Pending CN102089759A (zh) | 2008-07-09 | 2008-07-09 | 生成用于输入分析模型的分析数据集的方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20110119300A1 (zh) |
EP (1) | EP2321742A1 (zh) |
CN (1) | CN102089759A (zh) |
WO (1) | WO2010004369A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930025A (zh) * | 2011-11-03 | 2013-02-13 | 微软公司 | 用于处理大数据的属性和区间的系统和方法 |
CN103136417A (zh) * | 2010-12-04 | 2013-06-05 | 提升科技有限公司 | 用于建模分析的基于互联网的托管系统和计算机可读介质 |
CN103455509A (zh) * | 2012-05-31 | 2013-12-18 | 阿里巴巴集团控股有限公司 | 一种获取时间窗口模型参数的方法和系统 |
CN103902511A (zh) * | 2012-12-26 | 2014-07-02 | 远光软件股份有限公司 | 一种数据表格的数据转换放大显示方法及系统 |
CN105045764A (zh) * | 2015-08-11 | 2015-11-11 | 精硕世纪科技(北京)有限公司 | 模型集群的输入参数获取方法及系统 |
CN106919579A (zh) * | 2015-12-24 | 2017-07-04 | 腾讯科技(深圳)有限公司 | 一种信息处理方法及装置、设备 |
CN107251010A (zh) * | 2015-03-24 | 2017-10-13 | 英特尔公司 | 非结构化ui |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103765453B (zh) | 2011-02-16 | 2018-08-14 | 维萨国际服务协会 | 快拍移动支付装置,方法和系统 |
US10586227B2 (en) | 2011-02-16 | 2020-03-10 | Visa International Service Association | Snap mobile payment apparatuses, methods and systems |
EP2678812A4 (en) | 2011-02-22 | 2015-05-20 | Visa Int Service Ass | APPARATUSES, METHODS AND SYSTEMS FOR UNIVERSAL ELECTRONIC PAYMENT |
AU2012278963B2 (en) | 2011-07-05 | 2017-02-23 | Visa International Service Association | Electronic wallet checkout platform apparatuses, methods and systems |
US9355393B2 (en) | 2011-08-18 | 2016-05-31 | Visa International Service Association | Multi-directional wallet connector apparatuses, methods and systems |
US9582598B2 (en) | 2011-07-05 | 2017-02-28 | Visa International Service Association | Hybrid applications utilizing distributed models and views apparatuses, methods and systems |
US9710807B2 (en) | 2011-08-18 | 2017-07-18 | Visa International Service Association | Third-party value added wallet features and interfaces apparatuses, methods and systems |
US10825001B2 (en) | 2011-08-18 | 2020-11-03 | Visa International Service Association | Multi-directional wallet connector apparatuses, methods and systems |
US10242358B2 (en) | 2011-08-18 | 2019-03-26 | Visa International Service Association | Remote decoupled application persistent state apparatuses, methods and systems |
US10223730B2 (en) | 2011-09-23 | 2019-03-05 | Visa International Service Association | E-wallet store injection search apparatuses, methods and systems |
AU2013214801B2 (en) | 2012-02-02 | 2018-06-21 | Visa International Service Association | Multi-source, multi-dimensional, cross-entity, multimedia database platform apparatuses, methods and systems |
US8880446B2 (en) | 2012-11-15 | 2014-11-04 | Purepredictive, Inc. | Predictive analytics factory |
US10423889B2 (en) | 2013-01-08 | 2019-09-24 | Purepredictive, Inc. | Native machine learning integration for a data management product |
US9218574B2 (en) | 2013-05-29 | 2015-12-22 | Purepredictive, Inc. | User interface for machine learning |
US9646262B2 (en) | 2013-06-17 | 2017-05-09 | Purepredictive, Inc. | Data intelligence using machine learning |
US9195470B2 (en) | 2013-07-22 | 2015-11-24 | Globalfoundries Inc. | Dynamic data dimensioning by partial reconfiguration of single or multiple field-programmable gate arrays using bootstraps |
US9672246B1 (en) * | 2013-09-07 | 2017-06-06 | Ca, Inc. | Time-varying data retrieval |
CN104331295B (zh) * | 2014-11-05 | 2018-06-26 | 北京中科辅龙信息技术有限公司 | 页面生成方法和系统 |
US10360520B2 (en) | 2015-01-06 | 2019-07-23 | International Business Machines Corporation | Operational data rationalization |
US10229169B2 (en) | 2016-03-15 | 2019-03-12 | International Business Machines Corporation | Eliminating false predictors in data-mining |
US10540358B2 (en) * | 2016-06-20 | 2020-01-21 | Microsoft Technology Licensing, Llc | Telemetry data contextualized across datasets |
US10824950B2 (en) * | 2018-03-01 | 2020-11-03 | Hcl Technologies Limited | System and method for deploying a data analytics model in a target environment |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5293615A (en) * | 1990-11-16 | 1994-03-08 | Amada Carlos A | Point and shoot interface for linking database records to spreadsheets whereby data of a record is automatically reformatted and loaded upon issuance of a recalculation command |
US5454104A (en) * | 1993-02-25 | 1995-09-26 | Steidlmayer Software, Inc. | Financial data event flow analysis system with study conductor display |
US6317750B1 (en) * | 1998-10-26 | 2001-11-13 | Hyperion Solutions Corporation | Method and apparatus for accessing multidimensional data |
US8275974B2 (en) * | 2001-01-16 | 2012-09-25 | Outlooksoft Corporation | Systems and methods providing dynamic spreadsheet functionality |
US7272617B1 (en) | 2001-11-30 | 2007-09-18 | Ncr Corp. | Analytic data set creation for modeling in a customer relationship management system |
US7047251B2 (en) * | 2002-11-22 | 2006-05-16 | Accenture Global Services, Gmbh | Standardized customer application and record for inputting customer data into analytic models |
GB2397401A (en) * | 2003-01-15 | 2004-07-21 | Luke Leonard Martin Porter | Time in databases and applications of databases |
EP1586057A2 (en) * | 2003-01-15 | 2005-10-19 | Luke Leonard Martin Porter | Time in databases and applications of databases |
US7299223B2 (en) * | 2003-07-16 | 2007-11-20 | Oracle International Corporation | Spreadsheet to SQL translation |
WO2005077864A1 (fr) * | 2004-01-30 | 2005-08-25 | Novalyst Discovery | Procede pour constituer une base de donnees permettant de selectionner au moins un catalyseur adapte a une reaction |
US8010554B1 (en) * | 2007-11-08 | 2011-08-30 | Teradata Us, Inc. | Processing a temporal aggregate query in a database system |
-
2008
- 2008-07-09 WO PCT/IB2008/054156 patent/WO2010004369A1/en active Application Filing
- 2008-07-09 US US13/003,271 patent/US20110119300A1/en not_active Abandoned
- 2008-07-09 EP EP08807943A patent/EP2321742A1/en not_active Withdrawn
- 2008-07-09 CN CN200880130317XA patent/CN102089759A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136417A (zh) * | 2010-12-04 | 2013-06-05 | 提升科技有限公司 | 用于建模分析的基于互联网的托管系统和计算机可读介质 |
CN103136417B (zh) * | 2010-12-04 | 2016-03-16 | 提升科技有限公司 | 一种基于互联网的自动建模分析方法及系统 |
CN102930025A (zh) * | 2011-11-03 | 2013-02-13 | 微软公司 | 用于处理大数据的属性和区间的系统和方法 |
CN102930025B (zh) * | 2011-11-03 | 2016-03-23 | 微软技术许可有限责任公司 | 用于处理大数据的属性和区间的系统和方法 |
CN103455509A (zh) * | 2012-05-31 | 2013-12-18 | 阿里巴巴集团控股有限公司 | 一种获取时间窗口模型参数的方法和系统 |
CN103455509B (zh) * | 2012-05-31 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 一种获取时间窗口模型参数的方法和系统 |
CN103902511A (zh) * | 2012-12-26 | 2014-07-02 | 远光软件股份有限公司 | 一种数据表格的数据转换放大显示方法及系统 |
CN107251010A (zh) * | 2015-03-24 | 2017-10-13 | 英特尔公司 | 非结构化ui |
US10922474B2 (en) | 2015-03-24 | 2021-02-16 | Intel Corporation | Unstructured UI |
CN105045764A (zh) * | 2015-08-11 | 2015-11-11 | 精硕世纪科技(北京)有限公司 | 模型集群的输入参数获取方法及系统 |
CN106919579A (zh) * | 2015-12-24 | 2017-07-04 | 腾讯科技(深圳)有限公司 | 一种信息处理方法及装置、设备 |
Also Published As
Publication number | Publication date |
---|---|
US20110119300A1 (en) | 2011-05-19 |
EP2321742A1 (en) | 2011-05-18 |
WO2010004369A1 (en) | 2010-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102089759A (zh) | 生成用于输入分析模型的分析数据集的方法 | |
US10853387B2 (en) | Data retrieval apparatus, program and recording medium | |
González López de Murillas et al. | Connecting databases with process mining: a meta model and toolset | |
EP3513314B1 (en) | System for analysing data relationships to support query execution | |
CN101506804B (zh) | 用于在大数据集分析期间维持一致性的方法和装置 | |
US7007020B1 (en) | Distributed OLAP-based association rule generation method and system | |
CN111008197A (zh) | 一种电力营销服务系统数据中台设计方法 | |
Corr et al. | Agile data warehouse design: Collaborative dimensional modeling, from whiteboard to star schema | |
CN102239468A (zh) | 可视化数据元素之间的关系以及数据元数据属性的图形表示 | |
US20100287146A1 (en) | System and method for change analytics based forecast and query optimization and impact identification in a variance-based forecasting system with visualization | |
CN107810500A (zh) | 数据质量分析 | |
CN103177068A (zh) | 按照生存规则合并源记录的系统和方法 | |
CN102314424A (zh) | 文件的基于维度的关系图示 | |
CN102541867A (zh) | 数据字典生成方法及系统 | |
CN105900092A (zh) | 时序数据管理方法以及时序数据管理系统 | |
CA2804441C (en) | Database performance analysis | |
Hira et al. | Data analysis using multidimensional modeling, statistical analysis and data mining on agriculture parameters | |
CN111078766A (zh) | 一种基于多维理论的数据仓库模型建设系统及方法 | |
CN112631889A (zh) | 针对应用系统的画像方法、装置、设备及可读存储介质 | |
CN111913962A (zh) | 一种多维度年度明细资金计划编制系统及方法 | |
US20080027966A1 (en) | Dynamic creation of star-schema database structures and cubes | |
CN114490571A (zh) | 一种建模方法、服务器及存储介质 | |
Taktak et al. | Toward propagating the evolution of data warehouse on data marts | |
Shikhli et al. | Data Acquisition Model for Analyzing Schedule Delays Using KDD: Knowledge Discovery and Datamining | |
US11216486B2 (en) | Data retrieval apparatus, program and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20110608 |