CN106547883A - 一种用户定义函数udf运行情况的处理方法及系统 - Google Patents
一种用户定义函数udf运行情况的处理方法及系统 Download PDFInfo
- Publication number
- CN106547883A CN106547883A CN201610954051.7A CN201610954051A CN106547883A CN 106547883 A CN106547883 A CN 106547883A CN 201610954051 A CN201610954051 A CN 201610954051A CN 106547883 A CN106547883 A CN 106547883A
- Authority
- CN
- China
- Prior art keywords
- udf
- user
- task
- defined function
- execution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3452—Performance evaluation by statistical analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Abstract
一种用户定义函数UDF运行情况的处理方法,其能够以在线的方式自动收集UDF运行状态,定时输出数据报表,量化了UDF调用情况。该方法包括:(1)在HIVE执行计算作业时,每一个计算作业JOB包含N个任务TASK,收集计算作业的JOBID、TASKID、执行开始时间、执行人员、IP地址、作业名称、结束时间;(2)对处理数据量以及调用次数、成功次数以及失败次数做计数;(3)在TASK执行结束之前,在CLOSE方法中把步骤(1)和(2)收集到的信息持久化,存储到mysql数据库;(4)根据mysql数据库中存储的数据,定时统计分析出每一个UDF的执行状态,并输出数据报表。还有一种用户定义函数UDF运行情况的处理系统。
Description
技术领域
本发明涉及大数据处理的技术领域,尤其涉及一种用户定义函数UDF运行情况的处理方法,以及用户定义函数UDF运行情况的处理系统。
背景技术
HIVE是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
在HIVE平台上做大数据计算时通用会使用到UDF(User-Defined Functions,用户定义函数),主要是由于UDF非常灵活易用,用户可以在UDF中实现非常复杂的逻辑运算,在某些情况下UDF具有不可替代的作用。
然而在UDF发布之后,其运行情况非常难以掌握,完全不知道其是否运行正常,成功率如何、被哪些用户所使用等等问题都无从得知,所以要想持续提升UDF的稳定性和正确性,必须有一种手段把UDF的用户状况反馈出来,包括每一个UDF的调用频率、调用次数,以及成功率、失败率等的统计分析,拿到这些数据之后,才能够有针对性地去实施提升UDF的稳定性等一系列的优化方案。
目前对于UDF的处理相对简单,大部分情况下等待用户的直接反馈,有问题通过人员线下沟通,或者离线测试来保证UDF的质量,还没有在线的技术手段来反馈UDF的执行状态,无法掌握真实的UDF运行数据,所以导致UDF发布之后基本不可控,也无法有针对性地实施优化方案。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种用户定义函数UDF运行情况的处理方法,其能够以在线的方式自动收集UDF运行状态,定时输出数据报表,量化了UDF调用情况。
本发明的技术方案是:这种用户定义函数UDF运行情况的处理方法,该方法包括以下步骤:
(1)在HIVE执行计算作业时,每一个计算作业JOB包含N个任务TASK,收集计算作业的JOBID、TASKID、执行开始时间、执行人员、IP地址、作业名称、结束时间;
(2)对处理数据量以及调用次数、成功次数以及失败次数做计数;
(3)在TASK执行结束之前,在CLOSE方法中把步骤(1)和(2)收集到的信息持久化,存储到mysql数据库;
(4)根据mysql数据库中存储的数据,定时统计分析出每一个UDF的执行状态,并输出数据报表。
本发明通过建立一套完善的存储结构,把UDF运行过程中的信息全部收集回来,通过JOBID把分布式计算中的各TASK关联起来,进而做相关统计分析,推出UDF相关运行报表明细,所以能够以在线的方式自动收集UDF运行状态,定时输出数据报表,量化了UDF调用情况。
还提供了一种用户定义函数UDF运行情况的处理系统,该系统包括:
静态信息收集模块,其配置来在HIVE执行计算作业时,每一个计算作业JOB包含N个任务TASK,收集计算作业的JOBID、TASKID、执行开始时间、执行人员、IP地址、作业名称、结束时间;
动态信息收集模块,其配置来对处理数据量以及调用次数、成功次数以及失败次数做计数;
存储模块,其配置来在TASK执行结束之前,在CLOSE方法中把静态信息收集模块和动态信息收集模块收集到的信息持久化,存储到mysql数据库;
处理输出模块,其配置来根据mysql数据库中存储的数据,定时统计分析出每一个UDF的执行状态,并输出数据报表。
附图说明
图1所示为根据本发明的用户定义函数UDF运行情况的处理方法的流程图。
具体实施方式
如图1所示,这种用户定义函数UDF运行情况的处理方法,该方法包括以下步骤:
(1)在HIVE执行计算作业时,每一个计算作业JOB包含N个任务TASK,收集计算作业的JOBID、TASKID、执行开始时间、执行人员、IP地址、作业名称、结束时间;
(2)对处理数据量以及调用次数、成功次数以及失败次数做计数;
(3)在TASK执行结束之前,在CLOSE方法中把步骤(1)和(2)收集到的信息持久化,存储到mysql数据库;
(4)根据mysql数据库中存储的数据,定时统计分析出每一个UDF的执行状态,并输出数据报表。
本发明通过建立一套完善的存储结构,把UDF运行过程中的信息全部收集回来,通过JOBID把分布式计算中的各TASK关联起来,进而做相关统计分析,推出UDF相关运行报表明细,所以能够以在线的方式自动收集UDF运行状态,定时输出数据报表,量化了UDF调用情况。
另外,在HIVE平台下执行SQL的过程中使用该方法。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而所述的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。因此,与本发明的方法相对应的,本发明还同时包括一种用户定义函数UDF运行情况的处理系统,该系统通常以与方法各步骤相对应的功能模块的形式表示。使用该方法的系统包括:
静态信息收集模块,其配置来在HIVE执行计算作业时,每一个计算作业JOB包含N个任务TASK,收集计算作业的JOBID、TASKID、执行开始时间、执行人员、IP地址、作业名称、结束时间;
动态信息收集模块,其配置来对处理数据量以及调用次数、成功次数以及失败次数做计数;
存储模块,其配置来在TASK执行结束之前,在CLOSE方法中把静态信息收集模块和动态信息收集模块收集到的信息持久化,存储到mysql数据库;
处理输出模块,其配置来根据mysql数据库中存储的数据,定时统计分析出每一个UDF的执行状态,并输出数据报表。
另外,在HIVE平台下执行SQL的过程中使用该系统。
本发明的有益效果如下:
1.以在线的方式自动收集UDF运行状态;
2.定时输出数据报表,量化了UDF调用情况。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。
Claims (4)
1.一种用户定义函数UDF运行情况的处理方法,其特征在于:该方法包括以下步骤:
(1)在HIVE执行计算作业时,每一个计算作业JOB包含N个任务TASK,收集计算作业的JOBID、TASKID、执行开始时间、执行人员、IP地址、作业名称、结束时间;
(2)对处理数据量以及调用次数、成功次数以及失败次数做计数;
(3)在TASK执行结束之前,在CLOSE方法中把步骤(1)和(2)收集到的信息持久化,存储到mysql数据库;
(4)根据mysql数据库中存储的数据,定时统计分析出每一个UDF的执行状态,并输出数据报表。
2.根据权利要求1所述的用户定义函数UDF运行情况的处理方法,其特征在于:在HIVE平台下执行SQL的过程中使用该方法。
3.一种用户定义函数UDF运行情况的处理系统,其特征在于:该系统包括:
静态信息收集模块,其配置来在HIVE执行计算作业时,每一个计算作业JOB包含N个任务TASK,收集计算作业的JOBID、TASKID、执行开始时间、执行人员、IP地址、作业名称、结束时间;
动态信息收集模块,其配置来对处理数据量以及调用次数、成功次数以及失败次数做计数;
存储模块,其配置来在TASK执行结束之前,在CLOSE方法中把静态信息收集模块和动态信息收集模块收集到的信息持久化,存储到mysql数据库;
处理输出模块,其配置来根据mysql数据库中存储的数据,定时统计分析出每一个UDF的执行状态,并输出数据报表。
4.根据权利要求3所述的用户定义函数UDF运行情况的处理系统,其特征在于:在HIVE平台下执行SQL的过程中使用该系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610954051.7A CN106547883B (zh) | 2016-11-03 | 2016-11-03 | 一种用户定义函数udf运行情况的处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610954051.7A CN106547883B (zh) | 2016-11-03 | 2016-11-03 | 一种用户定义函数udf运行情况的处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106547883A true CN106547883A (zh) | 2017-03-29 |
CN106547883B CN106547883B (zh) | 2021-02-19 |
Family
ID=58393051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610954051.7A Active CN106547883B (zh) | 2016-11-03 | 2016-11-03 | 一种用户定义函数udf运行情况的处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106547883B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783503A (zh) * | 2019-01-07 | 2019-05-21 | 中国银行股份有限公司 | 时区更新方法、装置及计算机存储介质 |
CN116339744A (zh) * | 2023-03-23 | 2023-06-27 | 深圳计算科学研究院 | 一种自定义函数优化方法、装置、计算机设备及介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999044145A1 (en) * | 1998-02-27 | 1999-09-02 | Mci Worldcom, Inc. | Meta data processor for converting performance data into a generic format |
US20080071759A1 (en) * | 2003-11-13 | 2008-03-20 | International Business Machines Corporation | Method, apparatus, and computer program product for implementing enhanced query governor functions |
CN101477491A (zh) * | 2009-01-16 | 2009-07-08 | 杭州华三通信技术有限公司 | 一种统计函数运行状态的方法和装置 |
CN102880503A (zh) * | 2012-08-24 | 2013-01-16 | 新浪网技术(中国)有限公司 | 数据分析系统及数据分析方法 |
CN103262076A (zh) * | 2011-01-25 | 2013-08-21 | 惠普发展公司,有限责任合伙企业 | 分析数据处理 |
CN103294525A (zh) * | 2012-02-27 | 2013-09-11 | 国际商业机器公司 | 利用用户自定义函数进行数据库查询的方法和系统 |
CN103902543A (zh) * | 2012-12-25 | 2014-07-02 | 华为技术有限公司 | 数据库查询方法和装置及数据库系统 |
CN104239532A (zh) * | 2014-09-19 | 2014-12-24 | 浪潮(北京)电子信息产业有限公司 | Hive中自制用户提取信息工具的方法和装置 |
CN104298771A (zh) * | 2014-10-30 | 2015-01-21 | 南京信息工程大学 | 一种海量web日志数据查询与分析方法 |
CN104767795A (zh) * | 2015-03-17 | 2015-07-08 | 浪潮通信信息系统有限公司 | 一种基于hadoop的lte mro数据统计方法及系统 |
CN105897834A (zh) * | 2015-12-04 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | Hive客户端、Hive服务器、Hive执行日志远程监控系统和方法 |
CN106021580A (zh) * | 2016-06-03 | 2016-10-12 | 用友网络科技股份有限公司 | Impala 基于Hadoop集群日志分析方法和系统 |
-
2016
- 2016-11-03 CN CN201610954051.7A patent/CN106547883B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999044145A1 (en) * | 1998-02-27 | 1999-09-02 | Mci Worldcom, Inc. | Meta data processor for converting performance data into a generic format |
US20080071759A1 (en) * | 2003-11-13 | 2008-03-20 | International Business Machines Corporation | Method, apparatus, and computer program product for implementing enhanced query governor functions |
CN101477491A (zh) * | 2009-01-16 | 2009-07-08 | 杭州华三通信技术有限公司 | 一种统计函数运行状态的方法和装置 |
CN103262076A (zh) * | 2011-01-25 | 2013-08-21 | 惠普发展公司,有限责任合伙企业 | 分析数据处理 |
CN103294525A (zh) * | 2012-02-27 | 2013-09-11 | 国际商业机器公司 | 利用用户自定义函数进行数据库查询的方法和系统 |
CN102880503A (zh) * | 2012-08-24 | 2013-01-16 | 新浪网技术(中国)有限公司 | 数据分析系统及数据分析方法 |
CN103902543A (zh) * | 2012-12-25 | 2014-07-02 | 华为技术有限公司 | 数据库查询方法和装置及数据库系统 |
CN104239532A (zh) * | 2014-09-19 | 2014-12-24 | 浪潮(北京)电子信息产业有限公司 | Hive中自制用户提取信息工具的方法和装置 |
CN104298771A (zh) * | 2014-10-30 | 2015-01-21 | 南京信息工程大学 | 一种海量web日志数据查询与分析方法 |
CN104767795A (zh) * | 2015-03-17 | 2015-07-08 | 浪潮通信信息系统有限公司 | 一种基于hadoop的lte mro数据统计方法及系统 |
CN105897834A (zh) * | 2015-12-04 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | Hive客户端、Hive服务器、Hive执行日志远程监控系统和方法 |
CN106021580A (zh) * | 2016-06-03 | 2016-10-12 | 用友网络科技股份有限公司 | Impala 基于Hadoop集群日志分析方法和系统 |
Non-Patent Citations (4)
Title |
---|
ERIC FRIEDMAN ET AL: "SQL/MapReduce: a practical approach to self-describing, polymorphic, and parallelizable user-defined functions", 《PROCEEDINGS OF THE VLDB ENDOWMENT》 * |
RYANMRY: "Hive SQL运行状态监控(HiveSQLMonitor)", 《博客园》 * |
YANG杰杰杰杰杰杰: "hive表直接入库本地mysql,用udf从将hive的查询结果直接写入mysql数据库中", 《新浪博客》 * |
姜治光: "基于混合架构的海量数据存储系统的研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783503A (zh) * | 2019-01-07 | 2019-05-21 | 中国银行股份有限公司 | 时区更新方法、装置及计算机存储介质 |
CN116339744A (zh) * | 2023-03-23 | 2023-06-27 | 深圳计算科学研究院 | 一种自定义函数优化方法、装置、计算机设备及介质 |
CN116339744B (zh) * | 2023-03-23 | 2024-01-16 | 深圳计算科学研究院 | 一种自定义函数优化方法、装置、计算机设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106547883B (zh) | 2021-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108459939A (zh) | 一种日志收集方法、装置、终端设备及存储介质 | |
CN105488185B (zh) | 一种知识库的优化方法和装置 | |
CN102509001B (zh) | 一种自动去除时序数据野值点的方法 | |
CN107025224A (zh) | 一种监控任务运行的方法和设备 | |
US20170116189A1 (en) | Search method and apparatus and storage medium | |
CN107656968A (zh) | 大批量业务数据导出方法及系统 | |
CN103955577A (zh) | 一种机械设备的计算机自动设计方法 | |
CN106934591A (zh) | 工作流路径提取方法及系统 | |
CN106547883A (zh) | 一种用户定义函数udf运行情况的处理方法及系统 | |
CN110490237B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN113947468B (zh) | 一种数据管理方法及平台 | |
CN108287889A (zh) | 一种基于弹性表模型的多源异构数据存储方法和系统 | |
CN104199732B (zh) | 一种pga内存溢出智能处理方法 | |
CN114077826A (zh) | 一种数据处理的方法、装置及计算机可读介质 | |
CN108984156A (zh) | 一种基于模板的免代码开发的软件自动生成方法及系统 | |
CN108960630A (zh) | 知识产权自动检索和分析管理系统 | |
US10339826B1 (en) | Systems and methods for determining the effectiveness of source material usage | |
CN112597123A (zh) | 数据多版本动态切换方法及装置 | |
JP5206268B2 (ja) | ルール作成プログラム、ルール作成方法及びルール作成装置 | |
CN111949772A (zh) | 一种智能客服与知识库系统及管理方法 | |
CN103345781A (zh) | 一种多生物特征的考勤系统 | |
CN105808686A (zh) | 销售数据分析系统 | |
CN110262950A (zh) | 基于多项指标的异动检测方法和装置 | |
CN108415994A (zh) | 一种网络管理系统报表生成方法、装置和设备 | |
CN107704362A (zh) | 一种基于Ambari监控大数据组件的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220425 Address after: 100000 room 116, building 3, Shuangqiao (Shuangqiao dairy factory), Chaoyang District, Beijing Patentee after: Beijing Xiaoxiang innovation Artificial Intelligence Technology Co.,Ltd. Address before: 100085 901, 9th floor, building 5, yard 1, Shangdi East Road, Haidian District, Beijing Patentee before: BEIJING GEO POLYMERIZATION TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right |