CN105975574A - 一种基于r语言的大数据量数据筛选方法和系统 - Google Patents

一种基于r语言的大数据量数据筛选方法和系统 Download PDF

Info

Publication number
CN105975574A
CN105975574A CN201610289054.3A CN201610289054A CN105975574A CN 105975574 A CN105975574 A CN 105975574A CN 201610289054 A CN201610289054 A CN 201610289054A CN 105975574 A CN105975574 A CN 105975574A
Authority
CN
China
Prior art keywords
language
data
screening
internal memory
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610289054.3A
Other languages
English (en)
Inventor
陈蒙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Si Tech Information Technology Co Ltd
Original Assignee
Beijing Si Tech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Si Tech Information Technology Co Ltd filed Critical Beijing Si Tech Information Technology Co Ltd
Priority to CN201610289054.3A priority Critical patent/CN105975574A/zh
Publication of CN105975574A publication Critical patent/CN105975574A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明涉及网络技术领域,特别涉及一种基于R语言的大数据量数据筛选方法和系统。方法包括以下步骤,搭建R语言服务器;将原关系型数据库中的数据导入到R语言服务器内存;用户在业务系统的客户端,自定义用于筛选的R语言脚本;根据用于筛选的R语言脚本,对导入到R语言服务器内存中的数据进行筛选,并返回筛选结果。本发明提供用于自定义R语言脚本的可视化界面,可以简单灵活地对R语言脚本进行可视化编辑,并且封装一套符合JDBC接口规范的客户端JAR包,复用性高,可以方便地将对原关系型数据库的访问迁移到R语言服务器;同时利用R语言的内存计算特性,实现了对数据的快速筛选。

Description

一种基于R语言的大数据量数据筛选方法和系统
技术领域
本发明涉及网络技术领域,特别涉及一种基于R语言的大数据量数据筛选方法和系统。
背景技术
传统业务系统通常采用B/S架构,将数据存放在关系型数据库中,整个业务系统的运行效率很大程度上依赖于数据库和服务器的性能,因此在进行大数据量查询时,数据库往往成为系统的性能瓶颈,尤其在查询条件过多时,很难通过给数据库增加索引的方式来进行优化。而R语言是一套完整的数据处理、计算系统,基于其强大的数据运算能力,尤其是向量、矩阵方面的运算能力,在数据存储和处理领域,能够提供相比传统关系型数据库更快捷的处理速度,从而提高数据处理的效率。
发明内容
本发明所要解决的技术问题是提供一种基于R语言的大数据量数据筛选方法和系统,解决了现有技术进行大数据量筛选时,速度慢且难以对筛选过程进行优化的技术问题。
本发明解决上述技术问题的技术方案如下:一种基于R语言的大数据量数据筛选方法,包括以下步骤,
步骤1,搭建R语言服务器;
步骤2,将原关系型数据库中的数据导入到所述R语言服务器内存;
步骤3,用户在业务系统的客户端,自定义用于筛选的R语言脚本;
步骤4,根据所述用于筛选的R语言脚本,对导入到R语言服务器内存中的数据进行筛选,并返回筛选结果。
本发明的有益效果是:本发明提供用于自定义R语言脚本的可视化界面,可以简单灵活地对R语言脚本进行可视化编辑,并且封装一套符合JDBC接口规范的客户端JAR包,复用性高,可以方便地将对原关系型数据库的访问迁移到R语言服务器;同时利用R语言的内存计算特性,实现了对数据的快速筛选。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,步骤2具体为:编写用于读取数据的R语言脚本,通过调用shell将指定的关系型数据库表数据加载到所述R语言服务器内存。
进一步,步骤2还包括数据更新步骤,具体为:对实时性要求不高的数据,设置定时任务,在指定的时间间隔触发数据更新操作,将关系型数据库中更新的数据加载到所述R语言服务器内存;对实时性高的数据,编写守护进程,实时监控关系数据库中指定表的数据更新情况,并将更新的数据同步加载到所述R语言服务器内存。
采用上述进一步方案的有益效果是:本进一步的技术方案采用shell定时任务,定时触发数据库中指定表数据加载到R语言服务器内存,方法简单,加载数据快,而且可以及时对R语言服务器内存中的数据进行更新。
进一步,步骤4具体为:
在业务系统的客户端封装符合JDBC规范的客户端JAR包;
对业务系统的数据访问层代码进行改造,将对指定的关系型数据库表数据的访问操作迁移到所述R语言服务器上;
根据所述用于筛选的R语言脚本,对R语言服务器内存中的数据进行筛选,并返回筛选结果。
采用上述进一步方案的有益效果是:采用符合JDBC接口规范的客户端JAR包,可以方便的对业务系统的数据访问层代码进行改造,将对指定的关系型数据库表数据的访问操作迁移到所述R语言服务器上,复用性高,改造过程简单。
进一步,所述步骤3中,配置可视化界面,用户通过所述可视化界面自定义R语言脚本。
采用上述进一步方案的有益效果是:本进一步的技术方案采用可视化界面自定义R语言脚本,配置简单灵活,可维护性好。
一种基于R语言的大数据量数据筛选系统,包括服务器搭建模块、数据迁移模块、脚本编辑模块和筛选模块,
所述服务器搭建模块用于搭建R语言服务器;
所述数据迁移模块用于将原关系型数据库中的数据导入到所述R语言服务器内存;
所述脚本编辑模块用于用户在业务系统的客户端,自定义用于筛选的R语言脚本;
所述筛选模块用于根据所述用于筛选的R语言脚本,对导入到R语言服务器内存中的数据进行筛选,并返回筛选结果。
进一步,还包括数据更新模块,所述数据更新模块用于对实时性要求不高的数据,设置定时任务,在指定的时间间隔触发数据更新操作;对实时性高的数据,编写守护进程,实时监控原关系数据库中指定表的数据更新情况,并将更新的数据同步加载到所述R语言服务器内存。
进一步,还包括可视化界面,所述可视化界面用于对R语言脚本进行可视化编辑。
附图说明
图1为本发明一种基于R语言的大数据量数据筛选方法的流程示意图;
图2为本发明一种基于R语言的大数据量数据筛选系统的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,为本发明一种基于R语言的大数据量数据筛选方法的流程示意图,包括以下步骤:
步骤1,搭建R语言服务器。
步骤2,将原关系型数据库中的数据导入到所述R语言服务器内存;具体可以编写用于读取数据的R语言脚本,通过调用shell将指定的关系型数据库表数据加载到所述R语言服务器内存。
步骤3,用户在业务系统的客户端,自定义用于筛选的R语言脚本。可以在客户端配置可视化界面,用户通过所述可视化界面自定义R语言脚本。
步骤4,根据所述用于筛选的R语言脚本,对导入到R语言服务器内存中的数据进行筛选,并返回筛选结果。
编写用于读取数据的R语言脚本,通过调用shell将指定的关系型数据库表数据加载到所述R语言服务器内存。
优选的实施例中,步骤2中还包括对R语言服务器内存中的数据进行更新的步骤,具体为:对实时性要求不高的数据,设置定时任务,在指定的时间间隔触发数据更新操作,将关系型数据库中更新的数据加载到所述R语言服务器内存;对实时性高的数据,编写守护进程,实时监控关系数据库中指定表的数据更新情况,并将更新的数据同步加载到所述R语言服务器内存。
在优选的实施例中,步骤4具体为:
在业务系统的客户端封装符合JDBC规范的客户端JAR包;
对业务系统的数据访问层代码进行改造,将对指定的关系型数据库表数据的访问操作迁移到所述R语言服务器上;
根据所述用于筛选的R语言脚本,对R语言服务器内存中的数据进行筛选,并返回筛选结果。
如图2所示,为本发明一种基于R语言的大数据量数据筛选系统的结构示意图,包括服务器搭建模块、数据迁移模块、脚本编辑模块和筛选模块,
所述服务器搭建模块用于搭建R语言服务器;所述数据迁移模块用于将原关系型数据库中的数据导入到所述R语言服务器内存;所述脚本编辑模块用于用户在业务系统的客户端,自定义用于筛选的R语言脚本;所述筛选模块用于根据所述用于筛选的R语言脚本,对导入到R语言服务器内存中的数据进行筛选,并返回筛选结果。
本实施例中,还包括数据更新模块,所述数据更新模块用于对实时性要求不高的数据,设置定时任务,在指定的时间间隔触发数据更新操作;对实时性高的数据,编写守护进程,实时监控原关系数据库中指定表的数据更新情况,并将更新的数据同步加载到所述R语言服务器内存。本实施例中,还可以设置可视化界面,通过可视化界面对R语言脚本进行可视化编辑。
本发明提供用于自定义R语言脚本的可视化界面,可以简单灵活地对R语言脚本进行可视化编辑,并且封装一套符合JDBC接口规范的客户端JAR包,复用性高,可以方便地将对原关系型数据库的访问迁移到R语言服务器;同时利用R语言的内存计算特性,实现了对数据的快速筛选。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种基于R语言的大数据量数据筛选方法,其特征在于,包括以下步骤,
步骤1,搭建R语言服务器;
步骤2,将原关系型数据库中的数据导入到所述R语言服务器内存;
步骤3,用户在业务系统的客户端自定义用于筛选的R语言脚本;
步骤4,根据所述用于筛选的R语言脚本对导入到R语言服务器内存中的数据进行筛选,并返回筛选结果。
2.根据权利要求1所述的基于R语言的大数据量数据筛选方法,其特征在于,步骤2具体为:编写用于读取数据的R语言脚本,通过调用shell将指定的关系型数据库表数据加载到所述R语言服务器内存。
3.根据权利要求2所述的基于R语言的大数据量数据筛选方法,其特征在于,步骤2还包括数据更新步骤,具体为:对实时性要求不高的数据,设置定时任务,在指定的时间间隔触发数据更新操作,将关系型数据库中更新的数据加载到所述R语言服务器内存;对实时性要求高的数据,编写守护进程,实时监控关系数据库中指定表的数据更新情况,并将更新的数据同步加载到所述R语言服务器内存。
4.根据权利要求1~3任一所述的基于R语言的大数据量数据筛选方法,其特征在于,步骤4具体为:
在业务系统的客户端封装符合JDBC规范的客户端JAR包;
对业务系统的数据访问层代码进行改造,将对指定的关系型数据库表数据的访问操作迁移到所述R语言服务器上;
根据所述用于筛选的R语言脚本,对R语言服务器内存中的数据进行筛选,并返回筛选结果。
5.根据权利要求4所述的基于R语言的大数据量数据筛选方法,其特征在于,所述步骤3中,配置可视化界面,用户通过所述可视化界面自定义R语言脚本。
6.一种基于R语言的大数据量数据筛选系统,其特征在于,包括服务器搭建模块、数据迁移模块、脚本编辑模块和筛选模块,
所述服务器搭建模块用于搭建R语言服务器;
所述数据迁移模块用于将原关系型数据库中的数据导入到所述R语言服务器内存;
所述脚本编辑模块用于用户在业务系统的客户端,自定义用于筛选的R语言脚本;
所述筛选模块用于根据所述用于筛选的R语言脚本,对导入到R语言服务器内存中的数据进行筛选,并返回筛选结果。
7.根据权利要求6所述的基于R语言的大数据量数据筛选系统,其特征在于,还包括数据更新模块,所述数据更新模块用于对实时性要求不高的数据,设置定时任务,在指定的时间间隔触发数据更新操作;对实时性高的数据,编写守护进程,实时监控原关系数据库中指定表的数据更新情况,并将更新的数据同步加载到所述R语言服务器内存。
8.根据权利要求6所述的基于R语言的大数据量数据筛选系统,其特征在于,还包括可视化界面,所述可视化界面用于对R语言脚本进行可视化编辑。
CN201610289054.3A 2016-05-04 2016-05-04 一种基于r语言的大数据量数据筛选方法和系统 Pending CN105975574A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610289054.3A CN105975574A (zh) 2016-05-04 2016-05-04 一种基于r语言的大数据量数据筛选方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610289054.3A CN105975574A (zh) 2016-05-04 2016-05-04 一种基于r语言的大数据量数据筛选方法和系统

Publications (1)

Publication Number Publication Date
CN105975574A true CN105975574A (zh) 2016-09-28

Family

ID=56994858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610289054.3A Pending CN105975574A (zh) 2016-05-04 2016-05-04 一种基于r语言的大数据量数据筛选方法和系统

Country Status (1)

Country Link
CN (1) CN105975574A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932266A (zh) * 2017-05-26 2018-12-04 西门子公司 大数据处理方法、装置及系统和机器可读介质
CN112732744A (zh) * 2021-01-12 2021-04-30 重庆长安汽车股份有限公司 一种基于Tcl/Tk和R语言的高效处理CIDAS数据库的方法
CN113312053A (zh) * 2020-02-27 2021-08-27 北京沃东天骏信息技术有限公司 一种数据处理的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838617A (zh) * 2014-02-18 2014-06-04 河海大学 大数据环境下的数据挖掘平台的构建方法
CN104199889A (zh) * 2014-08-25 2014-12-10 山东瀚天信息技术有限公司 基于CEP技术的RTLogic大数据处理系统及方法
CN104731968A (zh) * 2015-04-08 2015-06-24 河海大学 一种单机的大规模数据集的聚类挖掘方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838617A (zh) * 2014-02-18 2014-06-04 河海大学 大数据环境下的数据挖掘平台的构建方法
CN104199889A (zh) * 2014-08-25 2014-12-10 山东瀚天信息技术有限公司 基于CEP技术的RTLogic大数据处理系统及方法
CN104731968A (zh) * 2015-04-08 2015-06-24 河海大学 一种单机的大规模数据集的聚类挖掘方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高官涛 等: ""面向R 语言的分布式流处理系统设计与实现"", 《科学技术与工程》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932266A (zh) * 2017-05-26 2018-12-04 西门子公司 大数据处理方法、装置及系统和机器可读介质
CN113312053A (zh) * 2020-02-27 2021-08-27 北京沃东天骏信息技术有限公司 一种数据处理的方法和装置
CN112732744A (zh) * 2021-01-12 2021-04-30 重庆长安汽车股份有限公司 一种基于Tcl/Tk和R语言的高效处理CIDAS数据库的方法
CN112732744B (zh) * 2021-01-12 2023-03-14 重庆长安汽车股份有限公司 一种基于Tcl/Tk和R语言的高效处理CIDAS数据库的方法

Similar Documents

Publication Publication Date Title
CN107122252B (zh) 一种系统间交互方法和装置
CN109358851A (zh) 图表组件的创建方法、装置及计算机可读存储介质
WO2018098429A1 (en) Event driven extract, transform, load (etl) processing
CN109690517A (zh) 利用微批处理管理快照和状态
CN106302008A (zh) 数据更新方法和装置
CN106446019B (zh) 一种软件功能处理方法和装置
CN106469076B (zh) 一种灰度发布方法及装置
CN105975574A (zh) 一种基于r语言的大数据量数据筛选方法和系统
CN110383764A (zh) 无服务器系统中使用历史数据处理事件的系统和方法
CN104954894B (zh) 一种视频流量引导方法、装置及一种电子设备
CN110175027A (zh) 一种开发业务功能的方法和装置
CN104423968A (zh) 设计业务逻辑的方法、执行其的服务器和储存媒介
CN104111994A (zh) 一种基于混合数据源的标签数据筛选方法及装置
CN109669976A (zh) 基于etl的数据服务方法及设备
CN107656729A (zh) 列表视图的更新装置、方法及计算机可读存储介质
CN108733496A (zh) 事件处理方法和装置
CN108021461A (zh) 提升社交圈子数据处理性能的方法及装置
CN110298007A (zh) 用户行为统计方法、装置、电子设备及计算机可读存储介质
CN111949832A (zh) 批量作业依赖关系的解析方法及装置
CN103885756A (zh) 智能终端的基础应用功能配置方法、实现方法和装置
CN110381026A (zh) 一种富客户端的业务服务封装和访问系统、方法和装置
CN104901998B (zh) 一体化云服务监控方法
CN104504010A (zh) 一种多对多的数据采集系统及其采集方法
CN105930178A (zh) 一种可配置的参数动态装载方法及系统
CN110442647A (zh) 数据一致性同步方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160928

RJ01 Rejection of invention patent application after publication