CN104166701A - 机器学习方法及系统 - Google Patents

机器学习方法及系统 Download PDF

Info

Publication number
CN104166701A
CN104166701A CN201410379539.2A CN201410379539A CN104166701A CN 104166701 A CN104166701 A CN 104166701A CN 201410379539 A CN201410379539 A CN 201410379539A CN 104166701 A CN104166701 A CN 104166701A
Authority
CN
China
Prior art keywords
data
user
service
module
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410379539.2A
Other languages
English (en)
Other versions
CN104166701B (zh
Inventor
涂继业
张涌
宁立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Southern Power Grid Internet Service Co ltd
Ourchem Information Consulting Co ltd
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201410379539.2A priority Critical patent/CN104166701B/zh
Publication of CN104166701A publication Critical patent/CN104166701A/zh
Application granted granted Critical
Publication of CN104166701B publication Critical patent/CN104166701B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种机器学习方法,包括如下步骤:对来自不同数据源的数据进行预处理;对上述预处理后的数据进行特征提取以得到特征量;将上述特征提取的特征量转换为二进制文件格式进行存储;根据用户输入或选择的算法和参数,通过统一的接口将上述存储的二进制文件交给Hadoop系统或者GraphLab系统进行计算处理。本发明还涉及一种机器学习系统。本发明不仅能够处理易切分的普通数据集,还能够处理数据依赖性强的图数据,具有更多的选择和灵活性,而且提供更加简洁统一的接口,能够有效降低开发人员的学习难度。

Description

机器学习方法及系统
技术领域
本发明涉及一种机器学习方法及系统。
背景技术
目前已有的大数据处理系统主要有两种:一种是基于MapReduce模型的Hadoop系统,另一种是基于图计算模型的GraphLab系统。
其中,MapReduce模型是把海量数据切分为相对独立的多个子数据集,然后将这些子数据集分配到分布式集群上进行大规模并行计算,最后再将各个机器的计算结果收集起来,从而得到最终的计算结果。这个模型的原理决定了它只擅长处理一种数据,也即可以被切分为相对独立的各个子部分的数据集,而对于数据依赖性较强的其他类型的计算任务就显得无能为力。
而GraphLab系统则是基于图模型。它将一个大图按照图分割的算法分割为多个关联度较低的子图,然后在各个子图之间进行并行计算。图数据是一种数据关联性很强的数据,因此它在一定程度上弥补了Hadoop的不足。
然而,MapReduce模型和图模型都十分复杂,理解起来十分困难。基于这两种模型实现的大规模机器学习系统,则更是繁琐。更糟糕的是,这两种模型的差别导致了相对应的机器学习系统有巨大的差别,它们的接口完全不同。开发人员需要彻底理解两种模型后,再学习两个完全不同的系统开发,内容多,难度大,学习曲线十分陡峭,严重阻碍了大规模机器学习系统的应用。
发明内容
有鉴于此,有必要提供一种机器学习方法及系统。
本发明提供一种机器学习方法,该方法包括如下步骤:对来自不同数据源的数据进行预处理;对上述预处理后的数据进行特征提取以得到特征量;将上述特征提取的特征量转换为二进制文件格式进行存储;根据用户输入或选择的算法和参数,通过统一的接口将上述存储的二进制文件交给Hadoop系统或者GraphLab系统进行计算处理。
其中,该方法还包括:信息提示以及用户交互:所述信息提示指向用户展示当前系统的运行状态、运行进度,并提示用户进行相关的变量设置;所述用户交互包括:标准输入和配置文件输入两种方式。
该方法还包括:提供统一的接口。
该方法还包括:权限认证,通过身份认证的用户才能够使用该系统提供的服务。
所述数据包括:文本数据、视频数据及图数据;所述预处理包括:数据清洗、数据集成、数据规约。
本发明还提供一种机器学习系统,该系统包括预处理模块、特征提取模块、转换模块及处理模块,其中:所述预处理模块用于对来自不同数据源的数据进行预处理;所述特征提取模块用于对上述预处理后的数据进行特征提取以得到特征量;所述转换模块用于将上述特征提取的特征量转换为二进制文件格式进行存储;所述处理模块用于根据用户输入或选择的算法和参数,通过统一的接口将上述存储的二进制文件交给Hadoop系统或者GraphLab系统进行计算处理。
其中,该系统还包括交互模块用于:信息提示以及用户交互:所述信息提示指向用户展示当前系统的运行状态、运行进度,并提示用户进行相关的变量设置;所述用户交互包括:标准输入和配置文件输入两种方式。
该系统还包括接口封装模块用于:提供统一的接口。
该系统还包括认证模块用于:权限认证,通过身份认证的用户才能够使用该系统提供的服务。
所述数据包括:文本数据、视频数据及图数据;所述预处理包括:数据清洗、数据集成、数据规约。
本发明机器学习方法及系统,封装了Hadoop和GraphLab的所有功能,不仅能够处理易切分的普通数据集,还能够处理数据依赖性强的图数据,具有更多的选择和灵活性,而且提供更加简洁统一的接口,能够有效降低开发人员的学习难度。
附图说明
图1为本发明机器学习方法的流程图;
图2为本发明的系统架构图;
图3为本发明机器学习系统的硬件架构图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细的说明。
参阅图1所示,是本发明机器学习方法较佳实施例的作业流程图。
步骤S401,对来自不同数据源的数据进行预处理。其中,所述数据包括:文本数据、视频数据及图数据。所述预处理包括:数据清洗、数据集成、数据规约。具体而言:
所述数据清洗指:剔除严重不完整的数据,比如文本数据中包含不完整的字段项,则直接删除该条记录。
所述数据规约指:将来自不同数据源的数据的格式进行统一:将每个文本数据转化为一行进行表达;将每条视频数据转换为一个文件进行存储;将图数据转化为通用的EdgeList格式,也即每行包含两个顶点、一条边以及该边的权值。
所述数据集成指:将规约后的来自不同数据源的数据集成到相同的数据文件中。
步骤S402,对上述预处理后的数据进行特征提取以得到特征量。具体而言:
对于所述文本数据、所述视频数据每行为一条记录,对于所述图数据则每行为一条边,以行为单位进行特征提取,最终将文本数据、视频数据、图数据都转化为数字形式表述。进一步地,对所述文本数据、所述视频数据及所述图数据处理如下:
文本数据特征提取:采用向量空间模型(Vector Space Model,VSM)提取出用于表达每条文本数据的数学量。
视频数据特征提取:通过灰度共生矩阵方法,将每条视频数据压缩为一个矩阵以表达该视频具有的数学本质。
图数据特征提取:将不同含义的图数据抽象为图的顶点和边,从而得到数学意义上的抽象图。比如将人抽象为顶点,将人与人之间的关系抽象为边,从而得到人际关系的数学抽象。
步骤S403,将上述特征提取的特征量转换为二进制文件格式进行存储。这是由于海量数据的读写在大规模数据分析中往往是性能瓶颈之一,高效的压缩文件格式能够节约读写时间,提高运行效率和性能。
步骤S404,信息提示以及用户交互。所述信息提示指向用户展示当前系统的运行状态、运行进度,并提示用户进行相关的变量设置:选择想要使用的算法和平台。所述用户交互包括:标准输入和配置文件输入两种方式。所述标准输入指通过键盘输入,所述配置文件输入指通过编辑XML格式的配置文件来控制变量信息。
步骤S405,根据用户交互时的输入或选择,对上述以字符格式存储的数据,也即二进制文件,进行计算处理。
通过步骤S404的用户交互,确定需要使用的算法和参数,然后通过统一的接口将计算任务交互给Hadoop系统或者GraphLab系统进行计算。如图2所示Dolphin部件提供任务分发、参数转换、接口转换、任务管理、多线程加速等功能。当任务到来时,它根据用户选定的平台和算法,决定将任务分发给哪个底层系统进行处理;然后从用户设定的变量中解析参数,并且将参数转化为一个统一的字符串格式;并且将任务记录在数据库中,以备能够查询其进度和必要时停止;当有多个任务同时开启时,可以开启多个线程,每个线程负责对一个任务进行管理。图2中OS是操作系统,JDK是基于java技术的开发套件,Hadoop是基于可分割数据流的大数据处理系统,Mahout是基于Hadoop开发的一套机器学习算法库,GraphLab是基于图模型的机器学习系统。
步骤S406,为本发明提供统一的接口,对下层的Hadoop以及GraphLab进行进一步抽象,从而避免开发者必须学习两种不同的模型和两套完全不同的编程接口,降低了学习难度。
首先按照两种系统提供的算法功能将其分为分类、聚类、预测、关联分析四类,然后分别对于每一类功能都按照具体算法名称构造新函数,最后将所有函数的参数转化为字符串形式进行统一。
步骤S407,权限认证,使得通过身份认证的用户才能够使用该系统提供的服务,从而保证了系统安全。本实施例由图2中Tomcat和RESTfulAPI构成。该步骤基于Tomcat容器实现。将本发明部署在Tomcat容器内,并且基于广泛应用的HTTP协议,实现了如下RESTful API:
<protocol>://<ip>:<port>/<website>/<service>!<method>?<uid>=<value>&<token>=<value>&<paramters>=<value>
其中,protocol可以是http或者https,website为部署时选定的名称,service为用户设定的平台和算法,method是相关调用函数,而uid和token用于用户身份验证,parameters是用户交互提供的计算参数。用户通过发起HTTP请求即可直接调用该服务。
参阅图2所示,是本发明机器学习系统的硬件架构图。该系统包括预处理模块、特征提取模块、转换模块、交互模块、处理模块、接口封装模块及认证模块。
所述预处理模块用于对来自不同数据源的数据进行预处理。其中,所述数据包括:文本数据、视频数据及图数据。所述预处理包括:数据清洗、数据集成、数据规约。具体而言:
所述数据清洗指:剔除严重不完整的数据,比如文本数据中包含不完整的字段项,则直接删除该条记录。
所述数据规约指:将来自不同数据源的数据的格式进行统一:将每个文本数据转化为一行进行表达;将每条视频数据转换为一个文件进行存储;将图数据转化为通用的EdgeList格式,也即每行包含两个顶点、一条边以及该边的权值。
所述数据集成指:将规约后的来自不同数据源的数据集成到相同的数据文件中。
所述特征提取模块用于对上述预处理后的数据进行特征提取以得到特征量。具体而言:
对于所述文本数据、所述视频数据每行为一条记录,对于所述图数据则每行为一条边,以行为单位进行特征提取,最终将文本数据、视频数据、图数据都转化为数字形式表述。进一步地,对所述文本数据、所述视频数据及所述图数据处理如下:
文本数据特征提取:采用向量空间模型(Vector Space Model,VSM)提取出用于表达每条文本数据的数学量。
视频数据特征提取:通过灰度共生矩阵方法,将每条视频数据压缩为一个矩阵以表达该视频具有的数学本质。
图数据特征提取:将不同含义的图数据抽象为图的顶点和边,从而得到数学意义上的抽象图。比如将人抽象为顶点,将人与人之间的关系抽象为边,从而得到人际关系的数学抽象。
所述转换模块用于将上述特征提取的特征量转换为二进制文件格式进行存储。这是由于海量数据的读写在大规模数据分析中往往是性能瓶颈之一,高效的压缩文件格式能够节约读写时间,提高运行效率和性能。
所述交互模块用于提供信息提示以及用户交互。所述信息提示指向用户展示当前系统的运行状态、运行进度,并提示用户进行相关的变量设置:选择想要使用的算法和平台。所述用户交互包括:标准输入和配置文件输入两种方式。所述标准输入指通过键盘输入,所述配置文件输入指通过编辑XML格式的配置文件来控制变量信息。
所述处理模块用于对上述以字符格式存储的数据,也即二进制文件,根据用户交互时的输入或选择进行计算处理。
通过所述交互模块的用户交互,确定需要使用的算法和参数,然后通过统一的接口将计算任务交互给Hadoop系统或者GraphLab系统进行计算。如图2所示Dolphin部件提供任务分发、参数转换、接口转换、任务管理、多线程加速等功能。当任务到来时,它根据用户选定的平台和算法,决定将任务分发给哪个底层系统进行处理;然后从用户设定的变量中解析参数,并且将参数转化为一个统一的字符串格式;并且将任务记录在数据库中,以备能够查询其进度和必要时停止;当有多个任务同时开启时,可以开启多个线程,每个线程负责对一个任务进行管理。图2中OS是操作系统,JDK是基于java技术的开发套件,Hadoop是基于可分割数据流的大数据处理系统,Mahout是基于Hadoop开发的一套机器学习算法库,GraphLab是基于图模型的机器学习系统。
所述接口封装模块用于为本发明提供统一的接口,对下层的Hadoop以及GraphLab进行进一步抽象,从而避免开发者必须学习两种不同的模型和两套完全不同的编程接口,降低了学习难度。
首先按照两种系统提供的算法功能将其分为分类、聚类、预测、关联分析四类,然后分别对于每一类功能都按照具体算法名称构造新函数,最后将所有函数的参数转化为字符串形式进行统一。
所述认证模块用于权限认证,使得通过身份认证的用户才能够使用该系统提供的服务,从而保证了系统安全。本实施例由图2中Tomcat和RESTful API构成。该步骤基于Tomcat容器实现。将本发明部署在Tomcat容器内,并且基于广泛应用的HTTP协议,实现了如下RESTfulAPI:
<protocol>://<ip>:<port>/<website>/<service>!<method>?<uid>=<value>&<token>=<value>&<paramters>=<value>
其中,protocol可以是http或者https,website为部署时选定的名称,service为用户设定的平台和算法,method是相关调用函数,而uid和token用于用户身份验证,parameters是用户交互提供的计算参数。用户通过发起HTTP请求即可直接调用该服务。
本发明封装了Hadoop系统和GraphLab系统的所有功能,比仅仅使用Hadoop系统或者GraphLab系统具有更多的选择和灵活性。其次本发明提供了统一简洁的接口,隐藏了两种系统的复杂度,从而避免了开发人员需要学习两种完全不同的系统,极大的降低了学习难度。再次基于RESTful的服务使得该机器学习系统能够无缝迁移到几乎所有平台上,适用性广。另外,本发明提出的机器学习系统能够处理文本、视频、图数据等多种异构数据,具有明显优势。
虽然本发明参照当前的较佳实施方式进行了描述,但本领域的技术人员应能理解,上述较佳实施方式仅用来说明本发明,并非用来限定本发明的保护范围,任何在本发明的精神和原则范围之内,所做的任何修饰、等效替换、改进等,均应包含在本发明的权利保护范围之内。

Claims (10)

1.一种机器学习方法,其特征在于,该方法包括如下步骤:
对来自不同数据源的数据进行预处理;
对上述预处理后的数据进行特征提取以得到特征量;
将上述特征提取的特征量转换为二进制文件格式进行存储;
根据用户输入或选择的算法和参数,通过统一的接口将上述存储的二进制文件交给Hadoop系统或者GraphLab系统进行计算处理。
2.如权利要求1所述的方法,其特征在于,该方法还包括:
信息提示以及用户交互:所述信息提示指向用户展示当前系统的运行状态、运行进度,并提示用户进行相关的变量设置;所述用户交互包括:标准输入和配置文件输入两种方式。
3.如权利要求1所述的方法,其特征在于,该方法还包括:提供统一的接口。
4.如权利要求3所述的方法,其特征在于,该方法还包括:权限认证,通过身份认证的用户才能够使用该系统提供的服务。
5.如权利要求1所述的方法,其特征在于,所述数据包括:文本数据、视频数据及图数据;所述预处理包括:数据清洗、数据集成、数据规约。
6.一种机器学习系统,其特征在于,该系统包括预处理模块、特征提取模块、转换模块及处理模块,其中:
所述预处理模块用于对来自不同数据源的数据进行预处理;
所述特征提取模块用于对上述预处理后的数据进行特征提取以得到特征量;
所述转换模块用于将上述特征提取的特征量转换为二进制文件格式进行存储;
所述处理模块用于根据用户输入或选择的算法和参数,通过统一的接口将上述存储的二进制文件交给Hadoop系统或者GraphLab系统进行计算处理。
7.如权利要求6所述的系统,其特征在于,该系统还包括交互模块用于:
信息提示以及用户交互:所述信息提示指向用户展示当前系统的运行状态、运行进度,并提示用户进行相关的变量设置;所述用户交互包括:标准输入和配置文件输入两种方式。
8.如权利要求6所述的系统,其特征在于,该系统还包括接口封装模块用于:提供统一的接口。
9.如权利要求8所述的系统,其特征在于,该系统还包括认证模块用于:权限认证,通过身份认证的用户才能够使用该系统提供的服务。
10.如权利要求6所述的系统,其特征在于,所述数据包括:文本数据、视频数据及图数据;所述预处理包括:数据清洗、数据集成、数据规约。
CN201410379539.2A 2014-08-04 2014-08-04 机器学习方法及系统 Active CN104166701B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410379539.2A CN104166701B (zh) 2014-08-04 2014-08-04 机器学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410379539.2A CN104166701B (zh) 2014-08-04 2014-08-04 机器学习方法及系统

Publications (2)

Publication Number Publication Date
CN104166701A true CN104166701A (zh) 2014-11-26
CN104166701B CN104166701B (zh) 2018-07-31

Family

ID=51910514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410379539.2A Active CN104166701B (zh) 2014-08-04 2014-08-04 机器学习方法及系统

Country Status (1)

Country Link
CN (1) CN104166701B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731953A (zh) * 2015-03-31 2015-06-24 河海大学 一种基于r的数据预处理系统的构建方法
CN106779087A (zh) * 2016-11-30 2017-05-31 福建亿榕信息技术有限公司 一种通用机器学习数据分析平台
CN106980509A (zh) * 2017-04-05 2017-07-25 智恒科技股份有限公司 计算总线的计算方法和装置
CN107562894A (zh) * 2017-09-06 2018-01-09 广州供电局有限公司 一种web应用系统行为仿真的API获取和应用方法
CN108535707A (zh) * 2018-03-30 2018-09-14 北京润科通用技术有限公司 一种雷达性能预测模型建立方法及装置
CN109816114A (zh) * 2018-12-29 2019-05-28 大唐软件技术股份有限公司 一种机器学习模型的生成方法、装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975720A (zh) * 2006-12-27 2007-06-06 章毅 一种基于Web的数据挖掘系统及其控制方法
EP2690554A2 (en) * 2012-07-25 2014-01-29 Telefonaktiebolaget L M Ericsson AB (Publ) A method of operating a system for processing data and a system therefor

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975720A (zh) * 2006-12-27 2007-06-06 章毅 一种基于Web的数据挖掘系统及其控制方法
EP2690554A2 (en) * 2012-07-25 2014-01-29 Telefonaktiebolaget L M Ericsson AB (Publ) A method of operating a system for processing data and a system therefor

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ED BURNS: "GraphLab发布新产品 统一大数据平台整合多种类型的数据", 《HTTP://WWW.SEARCHBI.COM.CN/SHOWCONTENT_83834.HTM》 *
YUCHENG LOW等: "Distributed GraphLab: a framework for machine learning and data mining in the cloud", 《PROCEEDINGS OF THE VLDB ENDOWMENT VLDB ENDOWMENT HOMPAGE ARCHIVE》 *
刘刚: "数据挖掘技术与分类算法研究", 《中国优秀博硕士学位论文全文数据库 (博士) 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731953A (zh) * 2015-03-31 2015-06-24 河海大学 一种基于r的数据预处理系统的构建方法
CN106779087A (zh) * 2016-11-30 2017-05-31 福建亿榕信息技术有限公司 一种通用机器学习数据分析平台
CN106779087B (zh) * 2016-11-30 2019-02-22 福建亿榕信息技术有限公司 一种通用机器学习数据分析平台
CN106980509A (zh) * 2017-04-05 2017-07-25 智恒科技股份有限公司 计算总线的计算方法和装置
CN107562894A (zh) * 2017-09-06 2018-01-09 广州供电局有限公司 一种web应用系统行为仿真的API获取和应用方法
CN107562894B (zh) * 2017-09-06 2020-01-03 广州供电局有限公司 一种web应用系统行为仿真的API获取和应用方法
CN108535707A (zh) * 2018-03-30 2018-09-14 北京润科通用技术有限公司 一种雷达性能预测模型建立方法及装置
CN109816114A (zh) * 2018-12-29 2019-05-28 大唐软件技术股份有限公司 一种机器学习模型的生成方法、装置

Also Published As

Publication number Publication date
CN104166701B (zh) 2018-07-31

Similar Documents

Publication Publication Date Title
US11068439B2 (en) Unsupervised method for enriching RDF data sources from denormalized data
CN104166701A (zh) 机器学习方法及系统
US10353913B2 (en) Automating extract, transform, and load job testing
Chandra et al. Decentralized edge clouds
US10061858B2 (en) Method and apparatus for processing exploding data stream
Das et al. Big data analytics: A framework for unstructured data analysis
CN103336790B (zh) 基于Hadoop的邻域粗糙集快速属性约简方法
KR102103902B1 (ko) 컴포넌트 기반의 머신러닝 자동화 예측 장치 및 방법
US20160034547A1 (en) Systems and methods for an sql-driven distributed operating system
CN103778148B (zh) Hadoop分布式文件系统数据文件的生命周期管理方法和设备
CN106709012A (zh) 一种大数据分析方法及装置
CN109815283B (zh) 一种异构数据源可视化查询方法
US20120116743A1 (en) Optimizing storage cloud environments through adaptive statistical modeling
US20170053242A1 (en) System and Method for a Big Data Analytics Enterprise Framework
CN105574082A (zh) 基于Storm的流处理方法及系统
CN110362544A (zh) 日志处理系统、日志处理方法、终端及存储介质
US20160048566A1 (en) Techniques for interactive decision trees
US10776359B2 (en) Abstractly implemented data analysis systems and methods therefor
Constante Nicolalde et al. Big data analytics in IOT: challenges, open research issues and tools
CN110134646B (zh) 知识平台服务数据存储与集成方法及系统
US8839208B2 (en) Rating interestingness of profiling data subsets
CN106599241A (zh) 一种gis软件中针对大数据的可视化管理方法
WO2016093839A1 (en) Structuring of semi-structured log messages
US20220114019A1 (en) Distributed resource-aware training of machine learning pipelines
CN112925619A (zh) 大数据实时计算方法及平台

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230106

Address after: 510000 room 606-609, compound office complex building, No. 757, Dongfeng East Road, Yuexiu District, Guangzhou City, Guangdong Province (not for plant use)

Patentee after: China Southern Power Grid Internet Service Co.,Ltd.

Address before: Room 301, No. 235, Kexue Avenue, Huangpu District, Guangzhou, Guangdong 510000

Patentee before: OURCHEM INFORMATION CONSULTING CO.,LTD.

Effective date of registration: 20230106

Address after: Room 301, No. 235, Kexue Avenue, Huangpu District, Guangzhou, Guangdong 510000

Patentee after: OURCHEM INFORMATION CONSULTING CO.,LTD.

Address before: 1068 No. 518055 Guangdong city in Shenzhen Province, Nanshan District City Xili University School Avenue

Patentee before: SHENZHEN INSTITUTES OF ADVANCED TECHNOLOGY