CN114528263A - 基于不同计算机语言的数据处理方法、系统、介质及设备 - Google Patents
基于不同计算机语言的数据处理方法、系统、介质及设备 Download PDFInfo
- Publication number
- CN114528263A CN114528263A CN202210128117.2A CN202210128117A CN114528263A CN 114528263 A CN114528263 A CN 114528263A CN 202210128117 A CN202210128117 A CN 202210128117A CN 114528263 A CN114528263 A CN 114528263A
- Authority
- CN
- China
- Prior art keywords
- data
- computer language
- computer
- data processing
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 88
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 238000007726 management method Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000013524 data verification Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 abstract description 12
- 230000007547 defect Effects 0.000 abstract description 7
- 238000007619 statistical method Methods 0.000 description 23
- 238000004458 analytical method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 230000004083 survival effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013515 script Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/176—Support for shared access to files; File sharing support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/116—Details of conversion of file system types or formats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24552—Database cache management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/30—Creation or generation of source code
- G06F8/31—Programming languages or programming paradigms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/546—Message passing systems or structures, e.g. queues
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Devices For Executing Special Programs (AREA)
Abstract
本发明提供一种基于不同计算机语言的数据处理方法、系统、介质及设备,包括:令第一计算机语言与第二计算机语言进行文件共享,利用所述第一计算机语言对所述原始数据文件中的原始数据进行预处理,将预处理后的原始数据存放于所述文件共享系统中,利用所述第二计算机语言由所述文件共享系统中读取预处理后的原始数据,进行数据处理;或令所述第一计算机语言与所述第二计算机语言进行数据共享,将预处理后的原始数据转换为所述第二计算机语言对应的数据结构文件,由所述第二计算机语言直接对所述数据结构文件进行数据处理。本发明提供了一种便捷的计算系统方法,融合了不同计算机语言各自的强大的功能,且弥补各自的不足。
Description
技术领域
本发明属于数据处理的技术领域,涉及一种数据处理方法,特别是涉及一种基于不同计算机语言的数据处理方法、系统、介质及设备。
背景技术
目前,在进行数据处理和统计分析时,数据科学工具的选择成了亟待解决的问题。在实际工作中,对于小数据集的数据操作和可视化,excel是比较好的选择,当数据集达到了一定规模时,excel的处理效率就会越来越慢且无法满足复杂的计算,对于大数据处理操作,一般会选择Python,因为Python有强大的数据科学处理开源库,如pandas、numpy等可以高效的完成数据处理和计算。对于一般的数据统计分析场景,SPSS(Statistical Productand Service Solutions,统计产品与服务解决方案)等统计分析软件可以提供大多数统计分析功能,输出可视化分析图表,但是SPSS等软件的统计理论和方法支持也有限,且难以满足个性化的统计分析需求,由此一般会选择R进行统计分析,因为相比于统计软件,R拥有自己的脚本语言和丰富的开源统计库。在脚本语言方面,Python在泛型编程上更具有优势,在API(Application Programming Interface,应用程序接口)构建问题上,Python也可以快速实现轻量级的API,而R则比较复杂。综上,现有统计分析工具存在的问题主要集中在以下方面:(1)现有的统计分析工具是相互独立。(2)对于复杂的统计分析任务,单个统计工具无法独立完成。(3)R语言是专业统计分析语言,但是在工程化和API构建方面略显不足。(4)Python语言是计算机工程语言且拥有强大的数据科学处理能力,但是在统计分析上不如R语言。(5)需要同时掌握Python和R语言能力的专业人员才能使用。
因此,如何提供一种基于不同计算机语言的数据处理方法、系统、介质及设备,以解决现有技术无法将不同数据处理分析工具结合使用,利用各自的优点并规避各自的不足等缺陷,成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于不同计算机语言的数据处理方法、系统、介质及设备,用于解决现有技术无法将不同数据处理分析工具结合使用,利用各自的优点并规避各自的不足的问题。
为实现上述目的及其他相关目的,本发明一方面提供一种基于不同计算机语言的数据处理方法,所述基于不同计算机语言的数据处理方法包括:令第一计算机语言与第二计算机语言进行文件共享,原始数据文件存放于一文件共享系统的预设路径中,利用所述第一计算机语言对所述原始数据文件中的原始数据进行预处理,将预处理后的原始数据存放于所述文件共享系统中,利用所述第二计算机语言由所述文件共享系统中读取预处理后的原始数据,进行数据处理;或令所述第一计算机语言与所述第二计算机语言进行数据共享,原始数据文件存放于一文件共享系统的预设路径中,利用所述第一计算机语言对所述原始数据文件中的原始数据进行预处理,将预处理后的原始数据转换为所述第二计算机语言对应的数据结构文件,由所述第二计算机语言直接对所述数据结构文件进行数据处理,将数据处理结果转换为所述第一计算机语言对应的数据结构文件。
于本发明的一实施例中,所述第一计算机语言包括Python语言,所述第二计算机语言包括R语言。
于本发明的一实施例中,在所述第一计算机语言与所述第二计算机语言进行文件共享时,将预处理后的原始数据存放于所述文件共享系统的预设目录中,生成待处理任务加入至任务队列系统中,等待所述第二计算机语言由所述文件共享系统中读取预处理后的原始数据,进行数据处理。
于本发明的一实施例中,在所述第一计算机语言与所述第二计算机语言进行数据共享时,将预处理后的原始数据放于内存中,在所述内存中转换为所述第二计算机语言对应的数据结构文件,由所述第二计算机语言直接对所述数据结构文件进行数据处理,将数据处理结果在所述内存中转换为所述第一计算机语言对应的数据结构文件。
于本发明的一实施例中,在所述将数据处理结果转换为所述第一计算机语言对应的数据结构文件的步骤之后,所述基于不同计算机语言的数据处理方法还包括:将所述第一计算机语言对应的数据结构文件返回至用户的终端。
于本发明的一实施例中,利用所述第一计算机语言对所述原始数据文件中的原始数据进行预处理包括:数据读取、数据清洗、数据验证和数据格式转换。
为实现上述目的及其他相关目的,本发明另一方面提供一种基于不同计算机语言的数据处理系统,其特征在于,所述基于不同计算机语言的数据处理系统包括:第一计算机语言模块、第二计算机语言模块、文件共享系统模块和内存管理模块;令第一计算机语言与第二计算机语言进行文件共享,原始数据文件存放于一文件共享系统的预设路径中,所述第一计算机语言模块利用所述第一计算机语言对所述原始数据文件中的原始数据进行预处理,将预处理后的原始数据存放于所述文件共享系统模块的文件共享系统中,所述第二计算机语言模块利用所述第二计算机语言由所述文件共享系统中读取预处理后的原始数据,进行数据处理;或令所述第一计算机语言与所述第二计算机语言进行数据共享,原始数据文件存放于一文件共享系统的预设路径中,所述第一计算机语言模块利用所述第一计算机语言对所述原始数据文件中的原始数据进行预处理,将预处理后的原始数据放于所述内存管理模块的内存中,在所述内存中转换为所述第二计算机语言对应的数据结构文件,所述第二计算机语言模块利用所述第二计算机语言直接对所述数据结构文件进行数据处理,将数据处理结果在所述内存中转换为所述第一计算机语言对应的数据结构文件。
于本发明的一实施例中,所述基于不同计算机语言的数据处理系统还包括:任务管理系统模块,用于负责任务调度和资源调度,保障数据处理任务顺利执行,资源合理应用;API框架:用于与外部软件或系统以API访问方式进行调用。
为实现上述目的及其他相关目的,本发明又一方面提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的基于不同计算机语言的数据处理方法。
为实现上述目的及其他相关目的,本发明最后一方面提供一种电子设备,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行所述的基于不同计算机语言的数据处理方法。
如上所述,本发明所述的基于不同计算机语言的数据处理方法、系统、介质及设备,具有以下有益效果:
本发明可以将不同数据处理分析工具结合使用,利用各自的优点并规避各自的不足,针对Python语言和R语言,具体提供了一种便捷的使用Python调用R语言的计算系统方法,融合了Python和R的各自的强大的功能,弥补各自的不足。功能涵盖数据处理、数据统计分析、数据建模等数据科学重要的部分,提高了生产效率。
附图说明
图1显示为本发明的基于不同计算机语言的数据处理方法于一实施例中的原理流程图。
图2显示为本发明的基于不同计算机语言的数据处理方法于一实施例中的文件共享原理图。
图3显示为本发明的基于不同计算机语言的数据处理方法于一实施例中的数据共享原理图。
图4显示为本发明的基于不同计算机语言的数据处理系统于一实施例中的结构原理图。
图5显示为本发明的电子设备于一实施例中的结构连接示意图。
元件标号说明
4 基于不同计算机语言的数据处理系统
41 第一计算机语言模块
42 第二计算机语言模块
43 文件共享系统模块
44 内存管理模块
45 任务管理系统模块
46 API框架
5 电子设备
51 处理器
52 存储器
S11~S12 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明所述的基于不同计算机语言的数据处理方法、系统、介质及设备提供了一种便捷的计算系统方法,融合了不同计算机语言各自的强大的功能,且弥补各自的不足。本发明提供一种使用Python和R的联合工作模式,灵活支持数据科学任务。让原本相互独立的Python和R统计分析工具不再是独立的。
以下将结合图1至图5详细阐述本实施例的一种基于不同计算机语言的数据处理方法、系统、介质及设备的原理及实施方式,使本领域技术人员不需要创造性劳动即可理解本实施例的基于不同计算机语言的数据处理方法、系统、介质及设备。
请参阅图1,显示为本发明的基于不同计算机语言的数据处理方法于一实施例中的原理流程图。如图1所示,所述基于不同计算机语言的数据处理方法具体包括以下步骤之一:
S11,令第一计算机语言与第二计算机语言进行文件共享,原始数据文件存放于一文件共享系统的预设路径中,利用所述第一计算机语言对所述原始数据文件中的原始数据进行预处理,将预处理后的原始数据存放于所述文件共享系统中,利用所述第二计算机语言由所述文件共享系统中读取预处理后的原始数据,进行数据处理。
于一实施例中,所述第一计算机语言包括Python语言,所述第二计算机语言包括R语言。
于一实施例中,在所述第一计算机语言与所述第二计算机语言进行文件共享时,将预处理后的原始数据存放于所述文件共享系统的预设目录中,生成待处理任务加入至任务队列系统中,等待所述第二计算机语言由所述文件共享系统中读取预处理后的原始数据,进行数据处理。
请参阅图2,显示为本发明的基于不同计算机语言的数据处理方法于一实施例中的文件共享原理图。如图2所示,R和Python文件共享。执行Python脚本,Python负责数据的预处理工作,数据预处理包括但不局限于数据清洗、数据验证、格式转换等。数据处理完成后,生成特定格式化的文件预置在文件共享系统的特定文件目录中,加入到任务管理系统的任务队列系统中,等待R去读取任务和文件,最终执行R脚本进行数据处理,数据处理可以是由R根据统计需求完成任务,并且输出统计结果和图表。
S12,令所述第一计算机语言与所述第二计算机语言进行数据共享,原始数据文件存放于一文件共享系统的预设路径中,利用所述第一计算机语言对所述原始数据文件中的原始数据进行预处理,将预处理后的原始数据转换为所述第二计算机语言对应的数据结构文件,由所述第二计算机语言直接对所述数据结构文件进行数据处理,将数据处理结果转换为所述第一计算机语言对应的数据结构文件。
于一实施例中,在所述第一计算机语言与所述第二计算机语言进行数据共享时,将预处理后的原始数据放于内存中,在所述内存中转换为所述第二计算机语言对应的数据结构文件,由所述第二计算机语言直接对所述数据结构文件进行数据处理,将数据处理结果在所述内存中转换为所述第一计算机语言对应的数据结构文件。
于一实施例中,在所述将数据处理结果转换为所述第一计算机语言对应的数据结构文件的步骤之后,所述基于不同计算机语言的数据处理方法还包括:将所述第一计算机语言对应的数据结构文件返回至用户的终端。
于一实施例中,在步骤S11和步骤S12中,利用所述第一计算机语言对所述原始数据文件中的原始数据进行预处理包括:数据读取、数据清洗、数据验证和数据格式转换。
请参阅图3,显示为本发明的基于不同计算机语言的数据处理方法于一实施例中的数据共享原理图。如图3所示,R和Python数据对象共享。将R嵌入到Python中运行,让R方法像Python函数一样成为可调用对象,并且提供R数据结构和Python数据结构的相互转换。具体步骤是,导入Python包,执行Python脚本,Python负责数据预处理工作,然后将处理好的Python数据结构转换成R数据结构,将编写好的R统计方法转换成Python可调用的函数对象,嵌入到Python代码中执行统计分析任务,任务执行结束,返回R对象结果,再将R对象结果转换成Python数据结构,做进一步数据格式转换。
于一具体实施例中,将一组“肿瘤患者生存数据”存放到文件管理系统,R和Python进行共享,上传原始数据文件到文件管理系统后。
若是R和Python文件共享,则通过指定文件存放路径,python解释器读取数据文件,对原始数据进行预处理。然后将处理好的结果以文件格式存放到同一个文件系统下,并告知R解释器,进行下一步的生存分析报告。
若是R和Python数据共享,则是,Python解释器读取数据文件,对原始数据进行预处理,处理好后,在内存里,将处理好的结果转换成R的数据结构文件,然后直接交给R解释器进行生存分析,生成生存分析报告,生成的报告在内存里转换成python的数据结构,返回给用户。
由此,本发明Python和R融合形成的计算系统方法具有以下优势:
(1)提供可支持复杂数据科学任务的计算库方法,而不需要同时使用多套统计工具。且该计算系统具有可扩展性。复杂的数据科学任务是指:一、数据处理过程较为复杂,二、数据科学跨多个不同的阶段,需要多个工具配合完成。
(2)本发明结合Python和R,发挥了Python某些方面的优势,弥补了R某些方面的劣势。R语言对文本数据处理效果不佳,所有的数据都在内存中进行,数据是在内存中是平行处理的,对于小数据而言不会有影响,但是当遇到超大规模的数据的时候,处理效率和性能的弊端就会越发凸显。Python和好的解决了R对数据处理的不足,Python拥有pandas和numpy等数据科学库,例如numpy对大数组的数据进行了高效处理,numpy加速了了数据索引的速度,其次调用了大量的C语言编写的算法库,使其可以直接操作内存,执行复杂的计算也能够大幅提高运行效率。在统计概念中,同一个统计指标有不同的计算方式,这就比较符合面向对象设计的思想,而R主要面向统计设计,代码量一般不会很大,主要是面向过程的编程方法。Python是高级程序语言,是面向对象设计语言,面向对象语言具有封装、集成,多态等特点,便于代码的扩充和复用。
(3)从统计分析角度出发,虽然Python有Scipy、statsmodels等统计三方库,但是与专业统计语言R相比,还是略显不足,本系统结合了R统计生态的优势,弥补了Python在一方面的不足。
(4)python调用R计算库,完成对R统计方法和Python数据处理和建模的封装,并以API接口的方式提供服务,这样从事数据分析从业人员就可以不需要同时掌握Python和R两门语言,只需要了解根据分析任务找到对应的解决方案,这样使业务人员专注与业务本身,而不需要掌握数据和编程语言知识,提高了工作效率。
本发明所述的基于不同计算机语言的数据处理方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。
以下将结合图示对本实施例所提供的基于不同计算机语言的数据处理系统进行详细描述。需要说明的是,应理解以下系统的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现,也可以全部以硬件的形式实现,还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如:某一模块可以为单独设立的处理元件,也可以集成在下述系统的某一个芯片中实现。此外,某一模块也可以以程序代码的形式存储于下述系统的存储器中,由下述系统的某一个处理元件调用并执行以下某一模块的功能。其它模块的实现与之类似。这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以下各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
以下这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),一个或多个数字信号处理器(Digital Signal Processor,简称DSP),一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。当以下某个模块通过处理元件调用程序代码的形式实现时,该处理元件可以是通用处理器,如中央处理器(Central ProcessingUnit,简称CPU)或其它可以调用程序代码的处理器。这些模块可以集成在一起,以片上系统(System-on-a-chip,简称SOC)的形式实现。
请参阅图4,显示为本发明的基于不同计算机语言的数据处理系统于一实施例中的结构原理图。如图4所示,所述基于不同计算机语言的数据处理系统4包括:第一计算机语言模块41、第二计算机语言模块42、文件共享系统模块43、内存管理模块44、任务管理系统模块45和API框架46。
令第一计算机语言与第二计算机语言进行文件共享,原始数据文件存放于一文件共享系统的预设路径中,所述第一计算机语言模块41利用所述第一计算机语言对所述原始数据文件中的原始数据进行预处理,将预处理后的原始数据存放于所述文件共享系统模块43的文件共享系统中,所述第二计算机语言模块42利用所述第二计算机语言由所述文件共享系统中读取预处理后的原始数据,进行数据处理;或
令所述第一计算机语言与所述第二计算机语言进行数据共享,原始数据文件存放于一文件共享系统的预设路径中,所述第一计算机语言模块41利用所述第一计算机语言对所述原始数据文件中的原始数据进行预处理,将预处理后的原始数据放于所述内存管理模块44的内存中,在所述内存中转换为所述第二计算机语言对应的数据结构文件,所述第二计算机语言模块42利用所述第二计算机语言直接对所述数据结构文件进行数据处理,将数据处理结果在所述内存中转换为所述第一计算机语言对应的数据结构文件。
所述任务管理系统模块45用于负责任务调度和资源调度,保障数据处理任务顺利执行,资源合理应用。
所述API框架46用于与外部软件或系统以API访问方式进行调用。
具体地,所述第一计算机语言模块为Python interpreter即Python解释器,所述第二计算机语言模块为R interpreter即R解释器。
于实际应用中,Python Interpreter模块包括四个部分:
a.数据处理。如数据读取、数据清洗、数据验证及数据格式转换等。
b.简单统计分析。如一般描述性统计分析,如数据的频数分布、几种趋势分析及离散程度分析等。
c.机器学习建模。机器学习建模包含分类和回归两类问题,支持的模型如逻辑斯地回归、树模型、集成模型等等。
d.深度学习。使用神经网络模型解决图像、文字、语言领域问题。
于实际应用中,R Interpreter模块主要包括三个部分:
a.统计分析。包括假设检验,影响因素分析、相关分析、生存分析及时间序列分析等部分。
b.数据建模。包括线性模型、聚类分析及回归分析等。
c.可视化。将分析或建模结果绘制成图表。
于实际应用中,文件共享系统模块主要包括三个部分:
a.数据文件管理:包括各种来源数据,如电子表格数据、数据库数据或其他特定格式数据。
b.任务文件:只任务管理数据,当执行特定任务时,系统会从任务管理系统找到任务文件,完成统计分析任务。
c.系统文件:整个系统文件启动时所需要的系统参数,系统启动时会进行初始化配置,可进行自定义配置。
于实际应用中,内存管理模块是指RAM模块,即系统内存管理。负责在内存中进行数据对象的转换,可以自动识别Python数据对象和R数据对象,并进行相互转换。
于实际应用中,任务管理系统模块负责任务调度和资源调度,保障任务顺利执行,资源合理应用。
于实际应用中,API框架是指Flask API,搭建轻量级的API框架,方便与其他软件或系统进行以API访问方式调用。
其中,Python调用R计算库使用方法为:客户端Client向服务端Server发出请求Request,服务端Server向客户端Client发送响应Response。于一具体应用场景中,Client客户端发送统计分析请求,Server端根据服务请求,并分配到任务队列,计算完成后,将结果再返回到客户端。
本发明所述的基于不同计算机语言的数据处理系统的原理与所述的基于不同计算机语言的数据处理方法一一对应,本发明所述的基于不同计算机语言的数据处理系统可以实现本发明所述的基于不同计算机语言的数据处理方法,但本发明所述的基于不同计算机语言的数据处理方法的实现装置包括但不限于本实施例列举的基于不同计算机语言的数据处理系统的结构,凡是根据本发明的原理所做的现有技术的结构变形和替换,都包括在本发明的保护范围内。
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述基于不同计算机语言的数据处理方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的计算机可读存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的计算机存储介质。
请参阅图5,显示为本发明的电子设备于一实施例中的结构连接示意图。如图5所示,本实施例提供一种电子设备5,具体包括:处理器51及存储器52;所述存储器52用于存储计算机程序,所述处理器51用于执行所述存储器52存储的计算机程序,使所述电子设备5执行所述基于不同计算机语言的数据处理方法的各个步骤。
上述的处理器51可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable GateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
上述的存储器52可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
于实际应用中,所述电子设备可以是包括存储器、存储控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克风、输入/输出(I/O)子系统、显示屏、其他输出或控制设备,以及外部端口等所有或部分组件的计算机;所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、个人数字助理(Personal DigitalAssistant,简称PDA)等个人电脑。在另一些实施方式中,所述电子设备还可以是服务器,所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上,也可以是由分布的或集中的服务器集群构成的云服务器,本实施例不作限定。
综上所述,本发明所述基于不同计算机语言的数据处理方法、系统、介质及设备可以将不同数据处理分析工具结合使用,利用各自的优点并规避各自的不足,针对Python语言和R语言,具体提供了一种便捷的使用Python调用R语言的计算系统方法,融合了Python和R的各自的强大的功能,弥补各自的不足。功能涵盖数据处理、数据统计分析、数据建模等数据科学重要的部分,提高了生产效率。本发明有效克服了现有技术中的种种缺点而具有高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种基于不同计算机语言的数据处理方法,其特征在于,所述基于不同计算机语言的数据处理方法包括:
令第一计算机语言与第二计算机语言进行文件共享,原始数据文件存放于一文件共享系统的预设路径中,利用所述第一计算机语言对所述原始数据文件中的原始数据进行预处理,将预处理后的原始数据存放于所述文件共享系统中,利用所述第二计算机语言由所述文件共享系统中读取预处理后的原始数据,进行数据处理;或
令所述第一计算机语言与所述第二计算机语言进行数据共享,原始数据文件存放于一文件共享系统的预设路径中,利用所述第一计算机语言对所述原始数据文件中的原始数据进行预处理,将预处理后的原始数据转换为所述第二计算机语言对应的数据结构文件,由所述第二计算机语言直接对所述数据结构文件进行数据处理,将数据处理结果转换为所述第一计算机语言对应的数据结构文件。
2.根据权利要求1所述的基于不同计算机语言的数据处理方法,其特征在于:
所述第一计算机语言包括Python语言,所述第二计算机语言包括R语言。
3.根据权利要求1所述的基于不同计算机语言的数据处理方法,其特征在于:
在所述第一计算机语言与所述第二计算机语言进行文件共享时,将预处理后的原始数据存放于所述文件共享系统的预设目录中,生成待处理任务加入至任务队列系统中,等待所述第二计算机语言由所述文件共享系统中读取预处理后的原始数据,进行数据处理。
4.根据权利要求1所述的基于不同计算机语言的数据处理方法,其特征在于:
在所述第一计算机语言与所述第二计算机语言进行数据共享时,将预处理后的原始数据放于内存中,在所述内存中转换为所述第二计算机语言对应的数据结构文件,由所述第二计算机语言直接对所述数据结构文件进行数据处理,将数据处理结果在所述内存中转换为所述第一计算机语言对应的数据结构文件。
5.根据权利要求1所述的基于不同计算机语言的数据处理方法,其特征在于,在所述将数据处理结果转换为所述第一计算机语言对应的数据结构文件的步骤之后,所述基于不同计算机语言的数据处理方法还包括:
将所述第一计算机语言对应的数据结构文件返回至用户的终端。
6.根据权利要求1所述的基于不同计算机语言的数据处理方法,其特征在于:
利用所述第一计算机语言对所述原始数据文件中的原始数据进行预处理包括:数据读取、数据清洗、数据验证和数据格式转换。
7.一种基于不同计算机语言的数据处理系统,其特征在于,所述基于不同计算机语言的数据处理系统包括:第一计算机语言模块、第二计算机语言模块、文件共享系统模块和内存管理模块;
令第一计算机语言与第二计算机语言进行文件共享,原始数据文件存放于一文件共享系统的预设路径中,所述第一计算机语言模块利用所述第一计算机语言对所述原始数据文件中的原始数据进行预处理,将预处理后的原始数据存放于所述文件共享系统模块的文件共享系统中,所述第二计算机语言模块利用所述第二计算机语言由所述文件共享系统中读取预处理后的原始数据,进行数据处理;或
令所述第一计算机语言与所述第二计算机语言进行数据共享,原始数据文件存放于一文件共享系统的预设路径中,所述第一计算机语言模块利用所述第一计算机语言对所述原始数据文件中的原始数据进行预处理,将预处理后的原始数据放于所述内存管理模块的内存中,在所述内存中转换为所述第二计算机语言对应的数据结构文件,所述第二计算机语言模块利用所述第二计算机语言直接对所述数据结构文件进行数据处理,将数据处理结果在所述内存中转换为所述第一计算机语言对应的数据结构文件。
8.根据权利要求7所述的基于不同计算机语言的数据处理系统,其特征在于,所述基于不同计算机语言的数据处理系统还包括:
任务管理系统模块,用于负责任务调度和资源调度,保障数据处理任务顺利执行,资源合理应用;
API框架:用于与外部软件或系统以API访问方式进行调用。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的基于不同计算机语言的数据处理方法。
10.一种电子设备,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行如权利要求1至6中任一项所述的基于不同计算机语言的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210128117.2A CN114528263A (zh) | 2022-02-11 | 2022-02-11 | 基于不同计算机语言的数据处理方法、系统、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210128117.2A CN114528263A (zh) | 2022-02-11 | 2022-02-11 | 基于不同计算机语言的数据处理方法、系统、介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114528263A true CN114528263A (zh) | 2022-05-24 |
Family
ID=81623628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210128117.2A Pending CN114528263A (zh) | 2022-02-11 | 2022-02-11 | 基于不同计算机语言的数据处理方法、系统、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114528263A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104978378A (zh) * | 2014-10-08 | 2015-10-14 | 腾讯科技(深圳)有限公司 | 一种网页访问方法和装置 |
CN109343833A (zh) * | 2018-09-20 | 2019-02-15 | 北京神州泰岳软件股份有限公司 | 数据处理平台以及数据处理方法 |
CN109522348A (zh) * | 2018-09-25 | 2019-03-26 | 南京中新赛克科技有限责任公司 | 一种融合多个智能分析语言的数据处理系统和方法 |
US20190171648A1 (en) * | 2017-12-01 | 2019-06-06 | Jpmorgan Chase Bank, N.A. | System and method for implementing an extract transform and load (etl) migration tool |
US20210049182A1 (en) * | 2019-08-14 | 2021-02-18 | Palantir Technologies Inc. | Multi-language object cache |
CN113391791A (zh) * | 2020-03-12 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及存储介质 |
-
2022
- 2022-02-11 CN CN202210128117.2A patent/CN114528263A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104978378A (zh) * | 2014-10-08 | 2015-10-14 | 腾讯科技(深圳)有限公司 | 一种网页访问方法和装置 |
US20190171648A1 (en) * | 2017-12-01 | 2019-06-06 | Jpmorgan Chase Bank, N.A. | System and method for implementing an extract transform and load (etl) migration tool |
CN109343833A (zh) * | 2018-09-20 | 2019-02-15 | 北京神州泰岳软件股份有限公司 | 数据处理平台以及数据处理方法 |
CN109522348A (zh) * | 2018-09-25 | 2019-03-26 | 南京中新赛克科技有限责任公司 | 一种融合多个智能分析语言的数据处理系统和方法 |
US20210049182A1 (en) * | 2019-08-14 | 2021-02-18 | Palantir Technologies Inc. | Multi-language object cache |
CN113391791A (zh) * | 2020-03-12 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9477512B2 (en) | Task-based modeling for parallel data integration | |
US20200285508A1 (en) | Method and Apparatus for Assigning Computing Task | |
CN105045607A (zh) | 一种实现多种大数据计算框架统一接口的方法 | |
US9977663B2 (en) | Technologies for optimizing sparse matrix code with field-programmable gate arrays | |
CN108171528B (zh) | 一种归因方法及归因系统 | |
US20180248934A1 (en) | Method and System for a Scheduled Map Executor | |
Prajapati et al. | Analytical study of parallel and distributed image processing | |
Ibtisum et al. | A comparative analysis of big data processing paradigms: Mapreduce vs. apache spark | |
US11042530B2 (en) | Data processing with nullable schema information | |
CN103198099A (zh) | 基于云计算的面向电信业务的数据挖掘应用方法 | |
Jain et al. | Charm++ and MPI: Combining the best of both worlds | |
CN110888972A (zh) | 一种基于Spark Streaming的敏感内容识别方法及装置 | |
Vijayalakshmi et al. | The survey on MapReduce | |
CN114528263A (zh) | 基于不同计算机语言的数据处理方法、系统、介质及设备 | |
CN115640613A (zh) | 基于rpa的隐私数据分布式控制方法、系统及电子终端 | |
US20220261227A1 (en) | Code Generation Tool for Cloud-Native High-Performance Computing | |
CN112507725B (zh) | 金融信息的静态发布方法、装置、设备及存储介质 | |
Rehman et al. | A comparative analysis on handling big data using cloud services | |
Yan | Building a productive domain-specific cloud for big data processing and analytics service | |
de Sousa Reis et al. | Archadia: An architecture for big data as a service in private cloud | |
Abeykoon et al. | HPTMT Parallel Operators for High Performance Data Science and Data Engineering | |
Aher et al. | Accelerate the execution of graph processing using GPU | |
Somov | Creation of information-technological reserve in Distributed Data Processing Systems | |
Tianshi et al. | Scalable and cooperative big data mining platform design for smart grid | |
CN117435367B (zh) | 用户行为处理方法、装置、设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |