CN108241892B

CN108241892B - 一种数据建模方法和装置

Info

Publication number: CN108241892B
Application number: CN201611207678.2A
Authority: CN
Inventors: 方晓春
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2016-12-23
Filing date: 2016-12-23
Publication date: 2021-02-19
Anticipated expiration: 2036-12-23
Also published as: CN108241892A

Abstract

本发明公开了一种数据建模方法和装置，该方法包括：获取数据源；从所述数据源中识别原始变量；根据预设的规则库，获取与所述原始变量对应的衍生变量；选定预设置的分类模型，配置数据建模参数；根据所述数据建模参数、所述原始变量及其对应的衍生变量利用所述预设置的分类模型进行数据建模。该建模方法和装置能够提供端到端的建模服务，降低建模的技术门槛，从而降低了利用机器学习工具进行数据建模对用户的技术要求。

Description

一种数据建模方法和装置

技术领域

本发明涉及数据建模技术领域，尤其涉及一种数据建模方法和装置。

背景技术

随着大数据技术的发展，数据建模也衍生出一些数据建模工具。例如微软Azure的机器学习工具。这些机器学习工具能够从众多数据中找出和目标事件关联性最强的因子，建立模型，并对新事件进行预测。典型的例子有机器学习可以通过分析用户的各类线上线下行为，建立价值模型，识别高价值的用户，提高对这类用户的跟进程度，发放适当的促销广告，实现用户价值的最大体现和营销的最高效率。

机器学习的重要性已日益明显，所要解决的问题和解决思路也较为明确，即要从全体中识别出特殊群体，并掌握如何识别出该群体的方法，以提高对新群体进行预测的准确率。典型的应用场景是识别优、劣质用户，执行相应的业务政策。

但是利用机器学习工具进行数据建模对用户的计算机、统计学专业技能的要求较高，例如需要用户有较强的技术背景、熟悉数据分析、数理统计等专业知识，并且要求用户对建模有丰富经验、懂得数据建模的典型流程和各类参数的配置和优化方法。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的数据建模方法和装置。

一种数据建模方法，包括：

获取数据源；

从所述数据源中识别原始变量；

根据预设的规则库，获取与所述原始变量对应的衍生变量；所述预设的规则库中存储有原始变量与衍生变量的对应关系；

选定预设置的分类模型，配置数据建模参数；

根据所述数据建模参数、所述原始变量及其对应的衍生变量利用所述预设置的分类模型进行数据建模。

可选地，所述从所述数据源中识别原始变量，具体为：按照第一预设规则从数据源中提取数据信息，该提取到的数据信息即为所述原始变量。

可选地，所述从所述数据源中识别原始变量之前，还包括：根据第二预设规则从所述数据源中的字符串中提取子串，将所述子串作为用于识别原始变量的数据源。

可选地，所述选定预设置的分类模型，包括：选定多个预设置的分类模型；

所述配置数据建模参数包括：配置随机种子以及配置训练集和测试集的比例；

所述根据所述数据建模参数、所述原始变量及其对应的衍生变量利用所述预设置的分类模型进行数据建模，具体包括：

根据所述数据建模参数、所述原始变量及其对应的衍生变量分别利用各个所述预设置的分类模型进行数据建模。

可选地，所述根据所述数据建模参数、所述原始变量及其对应的衍生变量分别利用各个预设置的分类模型进行数据建模之后，还包括：

输出根据各个预设置的分类模型建模后的建模结果，比较所述建模结果推荐最优的分类模型。

可选地，所述方法还包括：

获取原始变量和/或衍生变量的数据分布情况。

一种数据建模装置，包括：

第一获取单元，用于获取数据源；

识别单元，用于从所述数据源中识别原始变量；

第二获取单元，用于根据预设的规则库，获取与所述原始变量对应的衍生变量；所述预设的规则库中存储有原始变量与衍生变量件的对应关系；

选定单元，用于选定预设置的分类模型；

配置单元，用于配置数据建模参数；

建模单元，用于根据所述数据建模参数、所述原始变量及其对应的衍生变量利用所述预设置的分类模型进行数据建模。

可选地，所述装置还包括：

提取单元，用于根据第二预设规则从所述数据源中的字符串中提取子串，将所述子串作为用于识别原始变量的数据源。

可选地，所述选定单元具体为用于选定多个预设置的分类模型的单元；

所述配置单元具体为用于配置随机种子，以及配置训练集和测试集的比例的单元；

所述建模单元具体为根据所述数据建模参数、所述原始变量及其对应的衍生变量分别利用各个所述预设置的分类模型进行数据建模的单元。

可选地，所述装置还包括：

输出单元，用于输出根据各个预设置的分类模型建模后的建模结果，比较所述建模结果推荐最优的分类模型。

借由上述技术方案，本发明提供的数据建模方法和装置从数据处理(包括字符串业务处理即从数据源的字符串中提取子串，自动识别原始变量，根据原始变量自动获取与其对应的衍生变量)、数据建模参数配置到数据建模的整个建模流程，用户不用自行完成这些步骤，而是通过产品的引导逐步完成整个流程，所以，本发明提供的数据建模方法和装置能够提供端到端的建模服务，降低建模的技术门槛，从而降低了利用机器学习工具进行数据建模对用户的技术要求。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例一提供的数据建模方法流程示意图；

图2示出了基于识别到的IP地址生成地理位置的示意图；

图3示出了本发明实施例提供的选定分类模型和配置建模参数的界面示意图；

图4示出了基于年龄信息的数据直方图；

图5示出了本发明实施例二提供的数据建模方法流程示意图；

图6示出了本发明实施例二提供的各个分类模型建模结果示意图；

图7示出了本发明实施例三提供的数据建模装置结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

图1是本发明实施例一提供的数据建模方法流程示意图。如图1所示，该方法包括以下步骤：

S11、获取数据源。

S12、根据第二预设规则从所述数据源中的字符串中提取子串，将所述子串作为用于识别原始变量的数据源：

一般情况下，数据源包括很多字符串，对所述数据源中的字符串根据第二预设规则从数据源中的字符串中提取子串，将所述子串作为用于识别原始变量的数据源，以在后续步骤中能够识别出更多的原始变量。

该步骤也可以看作是对数据源中的字符串进行业务处理。

作为示例，所述对数据源中的字符串进行业务处理可以为姓名拆分等处理，以便于后续从中提取姓名中的姓。

S13、从数据源中识别原始变量：

具体可以为：按照第一预设规则从数据源中识别原始变量。作为示例，原始变量可以为IP地址、日期。

在本发明实施例中，第一预设规则例如可以为：识别只存在数字，以数字开头和结尾的，中间包括3个半角句号的字符串。

需要说明，若识别原始变量之前对数据源中的字符串进行业务处理后，本步骤具体为：按照第一预设规则从字符串经过业务处理后的数据源中识别原始变量。

作为示例，本发明提供的数据建模方法能够自动识别例如IP地址、日期等原始变量内容。

作为示例，自动识别IP地址的具体方法可以为：通过正则表达式，识别只存在数字，以数字开头和结尾的，中间包括3个半角句号的字符串，即为IP地址。

S14、根据预设的规则库，获取与所述原始变量对应的衍生变量；所述预设的规则库中存储有原始变量与衍生变量件的对应关系：

作为示例，本发明实施例可以根据识别到的IP地址生成对应的物理位置。图2示出了根据IP地址与地理位置之间的对应关系，基于识别到的IP地址生成地理位置(即衍生变量)的示意图。

S15、选定预设置的分类模型，配置数据建模参数：

所述配置数据建模参数包括配置随机种子以及训练集和测试集比例；

其中，所述随机种子的配置具体可以为：随机测试多个种子，对多个种子的预测性能取平均值。

所述训练集和测试集比例的配置具体可以为：根据预设要求对训练集和测试集所占百分比进行配置。如图3所示，训练集占70％，测试集占30％。

所述预设置的分类模型是响应于用户的操作预先选定的分类模型。该分类模型可以包括随机森林模型，支持向量机模型和逻辑回归模型中的至少一种。

该预设置的分类模型可以为一种，也可以为多种。该配置多个预设置的分类模型的具体实施方式将在实施例二中详细描述。

作为示例，图3示出了本发明实施例提供的选定预设置的分类模型和配置数据建模参数界面示意图。

S16、根据所述数据建模参数、所述原始变量及其对应的衍生变量利用所述预设置的分类模型进行数据建模：

具体可以为：将原始变量作为输入变量，将该原始变量对应的衍生变量作为输出变量，根据数据建模参数利用预设置的分类模型进行数据建模。

在本发明实施例中，所述数据建模可以包括：缺失值自动处理、样本不平衡处理和数据类型优化处理中的至少一种处理过程。其中，数据类型优化处理主要是对数据类型优化，例如将连续数据转换为离散数据。这是因为：一些分类模型对离散数据的处理性能更好，因此，优化数据类型可以是根据分类模型对连续数据是否转换为离散的数据的处理。

这些处理过程可以省去用户对模型参数的调整和数据特征工程方面的工作，并应用建模过程的最佳实践，提高建模效率。

样本不平衡处理具体可以为：对数量较少的样本进行过采样(多次采样)，对数量较多的样本进行限采样(控制采样次数)，从而使数量较少的样本数量和数量较多的样本的数量达到平衡。

作为本发明的又一具体实施例，在上述数据建模方法的具体实施方式中，还可以包括：获取单个原始变量和/或单个衍生变量的数据分布情况。并且可以提供该单个变量的数据分布的直方图或柱状图。图4示出了基于年龄信息的数据直方图。

通过本发明实施例提供的数据建模方法能够自动从数据源中识别出原始变量，并且能够自动根据预设的规则库中的原始变量和衍生变量的对应关系，获取与原始变量对应的衍生变量。如此，通过本发明提供的数据建模方法无需用户自定义衍生变量，降低了对用户的计算机、统计学专业技能的要求，从而降低了利用机器学习工具建模的技术门槛。

进一步地，在该具体实施方式中，从数据处理(包括字符串业务处理，自动识别原始变量，根据原始变量自动生成衍生变量)、数据建模参数配置到数据建模的整个建模流程，用户不用自行完成这些步骤，而是通过产品的引导逐步完成整个流程，所以，本发明提供的数据建模方法能够提供端到端的建模服务，降低建模的技术门槛，从而降低了利用机器学习工具进行数据建模对用户的技术要求。

以上为本发明实施例一提供的数据建模方法的具体实施方式。在该具体实施方式中，在配置数据建模参数时是以配置一种分类模型为例说明的。实际上，本发明提供的数据建模方法可以配置多种分类模型，并可以比较各个分类模型的建模效果，从而供用户选择最优的分类模型，该具体实施方式请具体参见实施例二。

实施例二

图5是本发明实施例二提供的数据建模方法流程示意图。如图5所示，该方法包括以下步骤：

S51至步骤S54与实施例一中的步骤S11至步骤S14相同，为了简要起见，在此不再详细描述。

S55、选定多个预设置的分类模型，配置数据建模参数：

所述数据建模参数包括随机种子，以及训练集和测试集的比例：

本发明提供的数据建模方法能够配置多个分类模型。从而方便用户为数据源选择最优分类模型。

S56、将根据所述数据建模参数、所述原始变量及其对应的衍生变量分别利用各个预设置的分类模型进行数据建模：

S57、输出根据各个预设置的分类模型建模后的建模结果，比较所述建模结果推荐最优的分类模型：

为了能够比较各个分类模型的优劣，本发明实施例还可以根据各个预设置的分类模型建模后的建模结果，比较所述建模结果推荐最优的分类模型。以使用户根据各个分类模型的建模结果选择最优的分类模型进行数据建模。

作为示例，本发明实施例可以以模型报告的形式输出各个分类模型建模后的建模结果。如图6所示，在该模型报告中可以包括各个分类模型建模后的核心指标，如，如F1Score、TP Rate(正类判定为正类比例)、FP Rate(负类判定为正类比例)、Accuracy(准确率)、Recall(召回率)、Precision(精确率)、和AUC(精确率)。

此外，在该模型报告中还可以提供各个分类模型的核心指标对应的曲线，如此，用户可以对比不同分类模型的相同核心指标的曲线判断不同分类模型对数据的解释效果，从而可以从中选择最优的模型进行数据建模。

以上为本发明实施例二提供的数据建模方法的具体实施方式。在该具体实施方式中，从数据处理(包括字符串业务处理，自动识别原始变量，根据原始变量自动生成衍生变量)、分类模型配置、数据建模以及比较各个分类模型建模结果的整个建模流程，用户不用自行完成这些步骤，而是通过产品的引导逐步完成整个流程，所以，本发明提供的数据建模方法能够提供端到端的建模服务，降低建模的技术门槛，从而降低了利用机器学习工具进行数据建模对用户的技术要求。

此外，本发明提供的数据建模方法还能够对同一数据源采用多个分类模型进行建模，并且能够比较各个分类模型的建模结果，从而能够使用户根据这些建模结果从中选择最优的分类模型进行建模。因而，通过该数据建模方法能够自动优化建模过程的模型参数，并且能够从多个分类模型中选择出最优模型，所以，通过该数据建模方法提高数据建模的准确度，能够快速准确地找到最优分类模型，能够使最优分类模型得到推广，保证建模效果的一致性。

基于上述实施例提供的数据建模方法，本发明还提供了数据建模装置，具体参见实施例三。

实施例三

图7是本发明实施例三提供的数据建模装置结构示意图。如图7所示，该数据建模装置包括：

第一获取单元71，用于获取数据源；

识别单元72，用于从所述数据源中识别原始变量；

第二获取单元73，用于根据预设的规则库，获取与所述原始变量对应的衍生变量；所述预设的规则库中存储有原始变量与衍生变量件的对应关系；

选定单元74，用于选定预设置的分类模型；

配置单元75，用于配置数据建模参数；

建模单元76，用于根据所述数据建模参数、所述原始变量及其对应的衍生变量利用所述预设置的分类模型进行数据建模。

作为本发明的一具体实施例，上述所述的数据建模装置还可以包括：

提取单元77，用于对所述数据源中的字符串根据第二预设规则从所述数据源中的字符串中提取子串，将所述子串作为用于识别原始变量的数据源。

上述所述的数据建模装置从数据处理(包括字符串业务处理，自动识别原始变量，根据原始变量自动获取其对应的衍生变量)、数据建模参数配置到数据建模的整个建模流程，用户不用自行完成这些步骤，而是通过产品的引导逐步完成整个流程，所以，本发明提供的数据建模方法能够提供端到端的建模服务，降低建模的技术门槛，从而降低了利用机器学习工具进行数据建模对用户的技术要求。

作为本发明的一具体实施例，所述选定单元74可以具体为用于选定多个预设置的分类模型的单元；所述配置单元75可以具体为用于配置随机种子，以及配置训练集和测试集的比例的单元；

在选定了多个预设置的分类模型后，为了能够采用每个分类模型分别对数据源进行建模。所述建模单元76可以具体为根据所述数据建模参数、所述原始变量及其对应的衍生变量分别利用各个预设置的分类模型进行数据建模的的单元。

此外，进一步地，为了能够比较各个分类模型的建模效果，上述所述的数据建模装置还可以包括：

输出单元78，用于输出根据各个预设置的分类模型建模后的建模结果，比较所述建模结果推荐最优的分类模型。

所述数据建模装置包括处理器和存储器，上述第一获取单元、识别单元、第二获取单元、选定单元、配置单元、建模单元、提取单元和输出单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来降低利用机器学习工具进行数据建模时对用户的技术要求。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

装置技术效果

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：

获取数据源；

从所述数据源中识别原始变量；

选定预设置的分类模型，配置数据建模参数；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据建模方法，其特征在于，包括：

获取数据源；所述数据源至少包括IP地址；

从所述数据源中识别原始变量；所述原始变量包括IP地址；所述原始变量是按照第一预设规则从所述数据源中识别得到的；所述第一预设规则为识别只存在数字的以数字开头和结尾的中间包括3个半角句号的字符串；

根据预设的规则库，获取与所述原始变量对应的衍生变量；所述预设的规则库中存储有原始变量与衍生变量的对应关系；所述衍生变量包括地理位置；所述原始变量与衍生变量的对应关系包括IP地址与地理位置之间的对应关系；

选定预设置的分类模型，配置数据建模参数；

2.根据权利要求1所述的方法，其特征在于，所述从所述数据源中识别原始变量，具体为：按照第一预设规则从数据源中提取数据信息，该提取到的数据信息即为所述原始变量。

3.根据权利要求1所述的方法，其特征在于，所述从所述数据源中识别原始变量之前，还包括：根据第二预设规则从所述数据源中的字符串中提取子串，将所述子串作为用于识别原始变量的数据源。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述选定预设置的分类模型，包括：选定多个预设置的分类模型；

5.根据权利要求4所述的方法，其特征在于，所述根据所述数据建模参数、所述原始变量及其对应的衍生变量分别利用各个预设置的分类模型进行数据建模之后，还包括：

6.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

获取原始变量和/或衍生变量的数据分布情况。

7.一种数据建模装置，其特征在于，包括：

第一获取单元，用于获取数据源；所述数据源至少包括IP地址；

识别单元，用于从所述数据源中识别原始变量；所述原始变量包括IP地址；所述原始变量是按照第一预设规则从所述数据源中识别得到的；所述第一预设规则为识别只存在数字的以数字开头和结尾的中间包括3个半角句号的字符串；

第二获取单元，用于根据预设的规则库，获取与所述原始变量对应的衍生变量；所述预设的规则库中存储有原始变量与衍生变量件的对应关系；所述衍生变量包括地理位置；所述原始变量与衍生变量的对应关系包括IP地址与地理位置之间的对应关系；

选定单元，用于选定预设置的分类模型；

配置单元，用于配置数据建模参数；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.根据权利要求7或8所述的装置，其特征在于，所述选定单元具体为用于选定多个预设置的分类模型的单元；

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：