CN106095391B - 基于大数据平台和算法模型的计算方法及系统 - Google Patents
基于大数据平台和算法模型的计算方法及系统 Download PDFInfo
- Publication number
- CN106095391B CN106095391B CN201610377885.6A CN201610377885A CN106095391B CN 106095391 B CN106095391 B CN 106095391B CN 201610377885 A CN201610377885 A CN 201610377885A CN 106095391 B CN106095391 B CN 106095391B
- Authority
- CN
- China
- Prior art keywords
- data
- hive
- algorithm model
- model
- warehouse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/30007—Arrangements for executing specific machine instructions to perform operations on data operands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Stored Programmes (AREA)
Abstract
本发明公开了一种基于大数据平台和算法模型的计算方法及系统,其中所述计算方法包括:将数据保存在大数据平台的Hive数据仓库;将算法模型的脚本文件放到服务器上,所述算法模型的脚本文件用R语言编写;在服务器上启动Rserve并开启远程访问;连接Hive数据仓库和Rserve,将Hive数据仓库中保存的数据在Rserve上运行,并将计算结果导入到Hive数据仓库中。本发明弥补了现有技术中大数据平台处理后的数据不能直接用于算法模型计算的不足,利用java语言建立Hive数据仓库和Rserve之间的通信渠道,将数据的处理与算法模型相结合,使得数据的处理和模型计算能自由衔接,提高数据处理的速度。
Description
技术领域
本发明属于计算机领域,尤其涉及一种基于大数据平台和算法模型的计算方法。
背景技术
随着互联网的发展,用户数据量越来越大,并且具有多样性和实时性,如何对这些用户数据进行统计和分析变得非常有意义。如今广泛采用的Hadoop技术对于存储和处理大数据有非常好的效果,但在不同的应用场景下,数据的分析需要采用更专业的算法和模型进行计算,只有将两者相结合,才能满足现实需求。
在现在的互联网公司里,大数据处理和算法模型往往是独立处理的。因为两者的专业背景不同,使用的软件工具不同:数据处理常使用Hive(基于Hadoop的一个数据仓库工具)、Hbase(一个分布式的、面向列的开源数据库)、Hdfs(分布式文件系统)等技术,用来处理海量数据;统计模型则使用R(一种用于统计计算的编程语言)、spss(一种软件,用于统计产品与服务解决方案)等技术,对抽样数据进行统计分析。
但分别处理数据有一定的局限性,Hadoop(一种分布式系统基础架构)和R的设计原理不同,数据范围也不同,两者之间没有通信渠道,数据无法传递。数据的处理和专业的统计属于不同学科,技术背景和开发环境均不同,无法直接衔接,不能发挥大数据处理和专业统计合作的优势。现有技术中将数据处理和专业统计相结合的一种方式是在统计过程中调用大数据,并且在统计的过程中进行任务拆分和并发执行,这种方式需要重新编写统计程序的底层逻辑,难度很大。还有一种方式是通过数据库建立数据缓存,再用编程算法进行计算,这种方法处理速度慢,难以应对大数据量的需求,无法适应时代的发展。
发明内容
本发明要解决的技术问题是为了克服现有技术中大数据平台处理后的数据不能直接用于算法模型计算的缺陷,提供一种基于大数据平台和算法模型的计算方法。
本发明是通过以下技术方案解决上述技术问题的:
本发明提供一种基于大数据平台和算法模型的计算方法,其特点是,所述计算方法包括:
S1、将数据保存在大数据平台的Hive数据仓库;
S2、将算法模型的脚本文件放到服务器上,所述算法模型的脚本文件用R语言编写;
S3、在服务器上启动Rserve(一个基于TCP/IP协议的,允许R语言与其他语言通信的C/S结构的程序)并开启远程访问;
S4、连接Hive数据仓库和Rserve,将Hive数据仓库中保存的数据在Rserve上运行,并将计算结果导入到Hive数据仓库中。
本技术方案利用大数据平台对数据进行处理,利用Rserve存放用于数据分析的算法模型,将数据的处理与算法模型相结合,使得数据的处理和模型计算能自由衔接。
较佳地,所述计算方法还包括:
S5、将Hive数据仓库中的计算结果导出到数据库中。
较佳地,S4包括:
使用java(一种计算机编程语言)开发工具利用java语言访问Hive数据仓库;
将Hive数据仓库的数据以文件流的形式读入并进行分列,转化为所述算法模型的脚本文件可接受的数据格式;
远程调用所述算法模型的脚本文件进行计算,并将计算结果以文件流的形式返回,导入到Hive数据仓库中。
本技术方案利用java语言建立Hive数据仓库和Rserve之间的通信渠道,使得在大数据整理完成后直接进行算法模型的计算,不需要中间缓存,提高数据处理的速度。在通信渠道打通的情况下,数据的处理和模型可以根据现实需求单独进行改变,具有很强的灵活性。
较佳地,S1包括:从目标数据库中导入源数据,处理源数据,将处理后的源数据记为第一数据,并将所述第一数据存储在Hdfs文件系统中,并组成任务队列。
较佳地,所述算法模型为评分卡模型,S2还包括:
训练评分卡模型,将所述评分卡模型的脚本文件放到服务器上;
将所述第一数据根据逻辑回归模型进行权重赋值,将赋值了权重的第一数据记为第二数据,并将所述第二数据保存在Hive数据仓库中,所述第二数据用于参与所述评分卡模型的计算。
本发明还提供一种基于大数据平台和算法模型的计算系统,其特点是,所述计算系统包括:
第一保存单元,用于将数据保存在大数据平台的Hive数据仓库;
第二保存单元,用于将算法模型的脚本文件放到服务器上,所述算法模型的脚本文件用R语言编写;
启动单元,用于在服务器上启动Rserve并开启远程访问;
连接单元,用于连接Hive数据仓库和Rserve,将Hive数据仓库中保存的数据在Rserve上运行,并将计算结果导入到Hive数据仓库中。
较佳地,所述计算系统还包括:
导出单元,用于将Hive数据仓库中的计算结果导出到数据库中。
较佳地,所述连接单元包括:
访问模块,用于使用java开发工具利用java语言访问Hive数据仓库;
转化模块,用于将Hive数据仓库的数据以文件流的形式读入并进行分列,转化为所述算法模型的脚本文件可接受的数据格式;
计算模块,用于远程调用所述算法模型的脚本文件进行计算,并将计算结果以文件流的形式返回,导入到Hive数据仓库中。
较佳地,所述第一保存单元用于:从目标数据库中导入源数据,处理源数据,将处理后的源数据记为第一数据,并将所述第一数据存储在Hdfs文件系统中,并组成任务队列。
较佳地,所述算法模型为评分卡模型,所述第二保存单元还用于训练评分卡模型,将所述评分卡模型的脚本文件放到服务器上;
所述第二保存单元还用于将所述第一数据根据逻辑回归模型进行权重赋值,将赋值了权重的第一数据记为第二数据,并将所述第二数据保存在Hive数据仓库中,所述第二数据用于参与所述评分卡模型的计算。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明的积极进步效果在于:本发明利用大数据平台对数据进行处理,利用Rserve存放用于数据分析的算法模型,利用java语言建立Hive数据仓库和Rserve之间的通信渠道,将数据的处理与算法模型相结合,使得数据的处理和模型计算能自由衔接,在大数据整理完成后直接进行算法模型的计算,不需要中间缓存,提高数据处理的速度。
附图说明
图1为本发明较佳实施例的一种基于大数据平台和算法模型的计算方法的流程图。
图2为本发明较佳实施例的一种基于大数据平台和算法模型的计算方法的原理示意图。
图3为本发明较佳实施例的一种基于大数据平台和算法模型的计算系统的框图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例
一种基于大数据平台和算法模型的计算方法,如图1和2所示,所述计算方法包括:
步骤101、将数据保存在大数据平台的Hive数据仓库。具体包括:从目标数据库中导入源数据,所述目标数据库可以为多维度的真实交易数据库,由于源数据的量非常大,且分区格式不同,所以在导入的过程中还包括处理源数据的步骤,具体可以包括使用HQL语言对源数据进行提取,清洗,分割,重新分区,聚合,统计和计算。将处理后的源数据记为第一数据,并将所述第一数据存储在Hdfs文件系统01中,并组成任务队列,所述任务队列为有序的任务队列,Hdfs文件系统01与hadoop集群03连接。
步骤102、将算法模型的脚本文件放到服务器02上,所述算法模型的脚本文件用R语言编写。其中,所述算法模型可以为评分卡模型,步骤102具体包括以下步骤:
训练评分卡模型,将所述评分卡模型的脚本文件放到服务器上。具体训练评分卡模型的过程为:利用R语言对采样数据进行特征提取和分类形成训练集数据,采用评分卡模型(一种预测模型)对变量进行分箱并计算权重值,降低变量属性的个数。然后计算信息价值,选取在预测范围内的变量进入模型,对不同的群体变量进行拆分,分别开发评分卡。评分卡模型的计算公式如下:
IV=∑(Pgood-Pbad)×woe
其中,woe表示权重,IV表示信息价值,score表示评分;
Pgood表示好数据的数量分布,Pbad表示坏数据的数量分布;
βi为回归系数,α为截距,n为变量个数,offset为偏移量,factor为比例因子。
采用逻辑回归模型对评分卡模型进行训练,用L-BFGS算法作为模型的迭代算法,加快函数的收敛速度,条件概率为根据观测量X相对于某事件Y发生的概率。
使用贝叶斯公式迭代完成后,就能获得关键属性的权重。在此过程中不断进行校验和修正,训练出一个成熟稳健的评分卡模型,所述评分卡模型以R脚本的形式存放在服务器02上。
将所述第一数据根据逻辑回归模型进行权重赋值,将赋值了权重的第一数据记为第二数据,并将所述第二数据保存在Hive数据仓库中,所述第二数据用于参与所述评分卡模型的计算。具体可以通过在任务队列中增加一个hadoop任务实现。此时,保存在Hive数据仓库的数据包括所述第一数据和所述第二数据。
步骤103、在服务器02上启动Rserve并开启远程访问。本实施例的步骤103还可以包括将训练出的评分卡模型的脚本文件放到服务器02的文件目录下,服务器02上预先安装有Rserve运行时所依赖的程序。
步骤104、连接Hive数据仓库和Rserve,将Hive数据仓库中保存的数据在Rserve上运行,并将计算结果导入到Hive数据仓库中。具体包括以下步骤:
使用java开发工具利用java语言访问Hive数据仓库;
将Hive数据仓库的数据以文件流的形式读入并进行分列,转化为所述算法模型的脚本文件可接受的数据格式;
远程调用所述算法模型的脚本文件进行计算,并将计算结果以文件流的形式返回,导入到Hive数据仓库中。
在具体实现时,可以先将上述步骤编写为一个jar包,所述jar包用于使用java开发工具利用java语言访问Hive数据仓库,将Hive数据仓库的数据以文件流的形式读入并进行分列,转化为所述算法模型的脚本文件可接受的数据格式,远程调用所述算法模型的脚本文件进行计算,并将计算结果以文件流的形式返回,导入到Hive数据仓库中。然后在任务队列中增加一个hadloop任务,调用所述jar,以实现将Hive数据仓库中保存的数据在Rserve上运行,并将计算结果从文件流导入到Hive数据仓库中。
步骤105、将Hive数据仓库中的计算结果导出到数据库04中。此步骤还可以包括将Hive数据仓库中的计算结果和数据进行最后的整合和梳理,将数据通过shell脚本导出到Mysql或SQLServer数据库中,以供其他程序或应用使用。
一种基于大数据平台和算法模型的计算系统,如图3所示,所述计算系统包括:
第一保存单元201,用于将数据保存在大数据平台的Hive数据仓库。具体用于:从目标数据库中导入源数据,处理源数据,将处理后的源数据记为第一数据,并将所述第一数据存储在Hdfs文件系统中,并组成任务队列。其中处理源数据可以包括使用HQL语言对源数据进行提取,清洗,分割,重新分区,聚合,统计和计算。
第二保存单元202,用于将算法模型的脚本文件放到服务器上,所述算法模型的脚本文件用R语言编写。其中,所述算法模型可以为评分卡模型,第二保存单元,还用于训练评分卡模型,将所述评分卡模型的脚本文件放到服务器上。具体训练评分卡模型的过程为:利用R语言对采样数据进行特征提取和分类形成训练集数据,采用评分卡模型(一种预测模型)对变量进行分箱并计算权重值,降低变量属性的个数。然后计算信息价值,选取在预测范围内的变量进入模型,对不同的群体变量进行拆分,分别开发评分卡。评分卡模型的计算公式如下:
IV=∑(Pgood-Pbad)×woe
其中,woe表示权重,IV表示信息价值,score表示评分;
Pgood表示好数据的数量分布,Pbad表示坏数据的数量分布;
βi为回归系数,α为截距,n为变量个数,offset为偏移量,factor为比例因子。
采用逻辑回归模型对评分卡模型进行训练,用L-BFGS算法作为模型的迭代算法,加快函数的收敛速度,条件概率为根据观测量X相对于某事件Y发生的概率。
使用贝叶斯公式迭代完成后,就能获得关键属性的权重。在此过程中不断进行校验和修正,训练出一个成熟稳健的评分卡模型,所述评分卡模型以R脚本的形式存放在服务器上。
所述第二保存单元还用于将所述第一数据根据逻辑回归模型进行权重赋值,将赋值了权重的第一数据记为第二数据,并将所述第二数据保存在Hive数据仓库中,所述第二数据用于参与所述评分卡模型的计算。具体可以通过在任务队列中增加一个hadoop任务实现。此时,保存在Hive数据仓库的数据包括所述第一数据和所述第二数据。
启动单元203,用于在服务器上启动Rserve并开启远程访问。还可以用于将训练出的评分卡模型的脚本文件放到服务器的文件目录下,服务器上预先安装有Rserve运行时所依赖的程序。
连接单元204,用于连接Hive数据仓库和Rserve,将Hive数据仓库中保存的数据在Rserve上运行,并将计算结果导入到Hive数据仓库中。具体地,所述连接单元包括:
访问模块2041,用于使用java开发工具利用java语言访问Hive数据仓库;
转化模块2042,用于将Hive数据仓库的数据以文件流的形式读入并进行分列,转化为所述算法模型的脚本文件可接受的数据格式;
计算模块2043,用于远程调用所述算法模型的脚本文件进行计算,并将计算结果以文件流的形式返回,导入到Hive数据仓库中。
在具体实现时,可以先将所述连接单元编写为一个jar包,所述jar包用于使用java开发工具利用java语言访问Hive数据仓库,将Hive数据仓库的数据以文件流的形式读入并进行分列,转化为所述算法模型的脚本文件可接受的数据格式,远程调用所述算法模型的脚本文件进行计算,并将计算结果以文件流的形式返回,导入到Hive数据仓库中。然后在任务队列中增加一个hadloop任务,调用所述jar,以实现将Hive数据仓库中保存的数据在Rserve上运行,并将计算结果从文件流导入到Hive数据仓库中。
导出单元205,用于将Hive数据仓库中的计算结果导出到数据库中。所述导出单元还可以用于将Hive数据仓库中的计算结果和数据进行最后的整合和梳理,将数据通过shell脚本导出到Mysql或SQLServer数据库中,以供其他程序或应用使用。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (8)
1.一种基于大数据平台和算法模型的计算方法,其特征在于,所述计算方法包括:
S1、将数据保存在大数据平台的Hive数据仓库;
S2、将算法模型的脚本文件放到服务器上,所述算法模型的脚本文件用R语言编写;
S3、在服务器上启动Rserve并开启远程访问;
S4、连接Hive数据仓库和Rserve,将Hive数据仓库中保存的数据在Rserve上运行,并将计算结果导入到Hive数据仓库中;
S4包括:
使用java开发工具利用java语言访问Hive数据仓库;
将Hive数据仓库的数据以文件流的形式读入并进行分列,转化为所述算法模型的脚本文件可接受的数据格式;
远程调用所述算法模型的脚本文件进行计算,并将计算结果以文件流的形式返回,导入到Hive数据仓库中。
2.如权利要求1所述的计算方法,其特征在于,所述计算方法还包括:
S5、将Hive数据仓库中的计算结果导出到数据库中。
3.如权利要求1所述的计算方法,其特征在于,S1包括:从目标数据库中导入源数据,处理源数据,将处理后的源数据记为第一数据,并将所述第一数据存储在Hdfs文件系统中,并组成任务队列。
4.如权利要求3所述的计算方法,其特征在于,所述算法模型为评分卡模型,S2还包括:
训练评分卡模型,将所述评分卡模型的脚本文件放到服务器上;
将所述第一数据根据逻辑回归模型进行权重赋值,将赋值了权重的第一数据记为第二数据,并将所述第二数据保存在Hive数据仓库中,所述第二数据用于参与所述评分卡模型的计算。
5.一种基于大数据平台和算法模型的计算系统,其特征在于,所述计算系统包括:
第一保存单元,用于将数据保存在大数据平台的Hive数据仓库;
第二保存单元,用于将算法模型的脚本文件放到服务器上,所述算法模型的脚本文件用R语言编写;
启动单元,用于在服务器上启动Rserve并开启远程访问;
连接单元,用于连接Hive数据仓库和Rserve,将Hive数据仓库中保存的数据在Rserve上运行,并将计算结果导入到Hive数据仓库中;
所述连接单元包括:
访问模块,用于使用java开发工具利用java语言访问Hive数据仓库;
转化模块,用于将Hive数据仓库的数据以文件流的形式读入并进行分列,转化为所述算法模型的脚本文件可接受的数据格式;
计算模块,用于远程调用所述算法模型的脚本文件进行计算,并将计算结果以文件流的形式返回,导入到Hive数据仓库中。
6.如权利要求5所述的计算系统,其特征在于,所述计算系统还包括:
导出单元,用于将Hive数据仓库中的计算结果导出到数据库中。
7.如权利要求5所述的计算系统,其特征在于,所述第一保存单元用于:从目标数据库中导入源数据,处理源数据,将处理后的源数据记为第一数据,并将所述第一数据存储在Hdfs文件系统中,并组成任务队列。
8.如权利要求7所述的计算系统,其特征在于,所述算法模型为评分卡模型,所述第二保存单元还用于训练评分卡模型,将所述评分卡模型的脚本文件放到服务器上;
所述第二保存单元还用于将所述第一数据根据逻辑回归模型进行权重赋值,将赋值了权重的第一数据记为第二数据,并将所述第二数据保存在Hive数据仓库中,所述第二数据用于参与所述评分卡模型的计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610377885.6A CN106095391B (zh) | 2016-05-31 | 2016-05-31 | 基于大数据平台和算法模型的计算方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610377885.6A CN106095391B (zh) | 2016-05-31 | 2016-05-31 | 基于大数据平台和算法模型的计算方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106095391A CN106095391A (zh) | 2016-11-09 |
CN106095391B true CN106095391B (zh) | 2019-03-26 |
Family
ID=57230550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610377885.6A Active CN106095391B (zh) | 2016-05-31 | 2016-05-31 | 基于大数据平台和算法模型的计算方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106095391B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106600455A (zh) * | 2016-11-25 | 2017-04-26 | 国网河南省电力公司电力科学研究院 | 一种基于逻辑回归的电费敏感度评估方法 |
CN108229686B (zh) * | 2016-12-14 | 2022-07-05 | 阿里巴巴集团控股有限公司 | 模型训练、预测方法、装置、电子设备及机器学习平台 |
CN108228359B (zh) * | 2016-12-15 | 2020-11-03 | 北京京东尚科信息技术有限公司 | web程序与R程序集成处理数据的方法和系统 |
CN109840420B (zh) * | 2017-11-24 | 2023-07-04 | 广东亿迅科技有限公司 | 基于内存加解密的数据分析处理方法及装置 |
CN108090032B (zh) * | 2018-01-03 | 2021-03-23 | 第四范式(北京)技术有限公司 | 逻辑回归模型的可视化解释方法及装置 |
CN110908994A (zh) * | 2018-09-14 | 2020-03-24 | 北京京东金融科技控股有限公司 | 数据模型处理方法、系统、电子设备及可读介质 |
CN109377349A (zh) * | 2018-09-30 | 2019-02-22 | 深圳市元征科技股份有限公司 | 一种基于驾驶行为的授信额度评价方法及装置 |
CN112445794B (zh) * | 2019-09-05 | 2023-08-25 | 南京工程学院 | 一种大数据系统的缓存方法 |
CN110795993A (zh) * | 2019-09-12 | 2020-02-14 | 深圳云天励飞技术有限公司 | 一种构建模型的方法、装置、终端设备及介质 |
CN111654853B (zh) * | 2020-08-04 | 2020-11-10 | 索信达(北京)数据技术有限公司 | 一种基于用户信息的数据分析方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838617A (zh) * | 2014-02-18 | 2014-06-04 | 河海大学 | 大数据环境下的数据挖掘平台的构建方法 |
CN104424018A (zh) * | 2013-08-23 | 2015-03-18 | 阿里巴巴集团控股有限公司 | 分布式计算事务处理方法及装置 |
CN104657502A (zh) * | 2015-03-12 | 2015-05-27 | 浪潮集团有限公司 | 基于Hadoop对海量数据进行实时统计的系统和方法 |
CN105069158A (zh) * | 2015-08-25 | 2015-11-18 | 携程计算机技术(上海)有限公司 | 数据挖掘方法及系统 |
CN105512336A (zh) * | 2015-12-29 | 2016-04-20 | 中国建设银行股份有限公司 | 一种基于Hadoop的海量数据处理方法和装置 |
CN105574593A (zh) * | 2015-12-18 | 2016-05-11 | 中南大学 | 基于云计算和大数据的轨道状态静态检控系统及方法 |
-
2016
- 2016-05-31 CN CN201610377885.6A patent/CN106095391B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104424018A (zh) * | 2013-08-23 | 2015-03-18 | 阿里巴巴集团控股有限公司 | 分布式计算事务处理方法及装置 |
CN103838617A (zh) * | 2014-02-18 | 2014-06-04 | 河海大学 | 大数据环境下的数据挖掘平台的构建方法 |
CN104657502A (zh) * | 2015-03-12 | 2015-05-27 | 浪潮集团有限公司 | 基于Hadoop对海量数据进行实时统计的系统和方法 |
CN105069158A (zh) * | 2015-08-25 | 2015-11-18 | 携程计算机技术(上海)有限公司 | 数据挖掘方法及系统 |
CN105574593A (zh) * | 2015-12-18 | 2016-05-11 | 中南大学 | 基于云计算和大数据的轨道状态静态检控系统及方法 |
CN105512336A (zh) * | 2015-12-29 | 2016-04-20 | 中国建设银行股份有限公司 | 一种基于Hadoop的海量数据处理方法和装置 |
Non-Patent Citations (1)
Title |
---|
"基于Hadoop和R语言的网络自媒体热点挖掘系统的设计与实现";朱瑞峰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160215(第2期);第56-65页 |
Also Published As
Publication number | Publication date |
---|---|
CN106095391A (zh) | 2016-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106095391B (zh) | 基于大数据平台和算法模型的计算方法及系统 | |
CN108121795B (zh) | 用户行为预测方法及装置 | |
CN106897322B (zh) | 一种数据库和文件系统的访问方法和装置 | |
US11915104B2 (en) | Normalizing text attributes for machine learning models | |
AU2016328959B2 (en) | Updating attribute data structures to indicate trends in attribute data provided to automated modeling systems | |
CN106790718A (zh) | 服务调用链路分析方法及系统 | |
CN110491383A (zh) | 一种语音交互方法、装置、系统、存储介质及处理器 | |
CN106933724A (zh) | 一种分布式信息追踪系统、信息处理方法及装置 | |
CN108108426A (zh) | 自然语言提问的理解方法、装置及电子设备 | |
CN111694940A (zh) | 一种用户报告的生成方法及终端设备 | |
CN110069502A (zh) | 基于Spark架构的数据均衡分区方法及计算机存储介质 | |
CN106777142A (zh) | 基于移动互联网海量数据的服务层系统及其方法 | |
CN110610125A (zh) | 基于神经网络的牛脸识别方法、装置、设备及存储介质 | |
CN109472292A (zh) | 一种图像的情感分类方法、存储介质和服务器 | |
CN112036564B (zh) | 图片识别方法、装置、设备及存储介质 | |
CN106033438B (zh) | 舆情数据存储方法和服务器 | |
CN107025167A (zh) | 在处理器追踪日志中使用编译器类型信息进行数据流分析的方法和设备 | |
CN114611006A (zh) | 基于用户兴趣挖掘的大数据分析方法及系统 | |
CN109213758A (zh) | 数据存取方法、装置、设备及计算机可读存储介质 | |
CN114860742A (zh) | 基于人工智能的ai客服交互方法、装置、设备及介质 | |
US20150039289A1 (en) | Systems and Methods for Representing, Diagnosing, and Recommending Interaction Sequences | |
CN111629216B (zh) | 边缘网络环境下基于随机森林算法的vod业务缓存替换方法 | |
CN107480189A (zh) | 一种多维度实时分析系统及方法 | |
CN110413750A (zh) | 根据用户问句召回标准问句的方法和装置 | |
CN111368060A (zh) | 对话机器人的自学习方法、装置、系统、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |