CN104239537B - 一种大数据预处理文本数据生成处理流程实现方法 - Google Patents
一种大数据预处理文本数据生成处理流程实现方法 Download PDFInfo
- Publication number
- CN104239537B CN104239537B CN201410486188.5A CN201410486188A CN104239537B CN 104239537 B CN104239537 B CN 104239537B CN 201410486188 A CN201410486188 A CN 201410486188A CN 104239537 B CN104239537 B CN 104239537B
- Authority
- CN
- China
- Prior art keywords
- text data
- micro
- data
- component
- generation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/1734—Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/164—File meta data generation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及云计算领域,尤其是一种大数据预处理文本数据生成处理流程实现方法。本发明文本数据请求首先被定义SQL语句,然后该SQL语句通过后台系统分析解析,使用唯一的编号进行标识,使用该唯一的编号完成文本数据生成。本发明有效地实现了将文本数据生成步骤化,模块化,可视化,同时能够将文本数据生成分组分类、自动分发,根据机器性能配置参数控制文本数据生成时的并发数;可大规模应用于大数据预处理中的数据来源文本文件生成,传输及备份等。
Description
技术领域
本发明涉及云计算领域,尤其是一种大数据预处理文本数据生成处理流程实现方法。
背景技术
在现今大数据平台中,其数据来源多种多样,数据质量参差不齐,数据大小千差万别,文本数据生成方式不失一种处理数据介质的方式。数据预处理中文本数据生成平台采用先进的组件架构模型,以组件应用即服务的为设计理念,以简单流程向导式的数据生成方法为目标,力争打造一套具有核心竞争力数据生成处理流程平台。
发明内容
本发明解决的技术问题在于提供一种大数据预处理文本数据生成处理流程实现方法,其提供简单的流程向导式的数据生成方法,同时提供文本数据生成过程中的实时监控。
本发明解决上述技术问题的技术方案是:
文本数据请求首先被定义SQL语句,然后该SQL语句通过后台系统分析解析,使用唯一的编号进行标识,使用该唯一的编号完成文本数据生成。
所述的方法由WEB应用组件、微调度组件和数据生产代理组件的协同处理;
由WEB应用组件实现文本数据请求的管理与监控,并将文本数据请求封装成微调度组件需要的调度对象,然后向微调度组件发送调度命令;
微调度组件负责接收WEB应用组件的调用请求,并将调度对象封装为代理对象,然后向数据生成代理组件发送生产文本数据命令,期间将等待结果经过分组分类入列处理后不断推送更新文本数据生产状态;
数据生成代理组件接收到微调度组件调用请求,并将文本数据请求生成过程状态阶段性返回给微调度组件,同时数据生成代理组件将对文本数据进行生产。
所述的WEB应用组件的管理与监控流程如下:
第一步,WEB应用组件开始文本数据请求;
第二步,在WEB应用组件中配置向导配置生成数据的数据源,选择要生成数据的表,以及相关过滤条件进行注册;
第三步,WEB应用组件生成标准SQL DDL/DML语句,并连同数据源相关信息一并保存在数据库中,该信息将监控管理中显示该文本数据定义已经处于就绪状态,并显示处理步骤日志信息;
第四步,WEB应用组件将上述第三步中的定义交由业务后台处理,后台将定义封装文本数据生成定义对象;
第五步,WEB应用组件对封装文本数据生成定义对象进行分组分类,并封装成适合微调度组件接口调用的对象;
第六步,WEB应用组件建立与微调度组件通信连接;
第七步,WEB应用组件向微调度组件发送调度请求,并进入等待处理结果阶段;
第八步,微调度组件接收WEB组件调度请求,并返回已接收标识;
第九步,WEB应用组件接收微调度组件发送的标识,更新文本数据生成定义的生成状态,该信息将监控管理中显示该文本数据定义已经处于运行状态,并显示处理步骤日志信息;
第十步,微调度组件将请求入列,然后发送给数据生成代理组件;
第十一步,数据生成代理组件生成数据文件完毕,并将处理标识返回给微调度组件,微调度组件进而将处理标识更新到文本数据生成定义的生成状态,该信息将监控管理中显示该文本数据定义已经处于运行状态,并显示处理步骤日志信息。
所述的微调度组件的调度流程为:
第一步,接收WEB组件的请求调度对象包;
第二步,向WEB组件返回接收处理标识;
第三步,将调度对象包放入生产队列;
第四步,将生产队列中的调度对象弹出,并检测代理并发数,如果代理并发数已经达到最大,该调度对象将进入轮询等待区,待代理并发数满足条件后,即没有达到最大,进入下一步操作;
第五步,将调度对象封装为文本数据生成的代理对象;
第六步,微调度组件向数据生成代理组件发送数据生成请求,并进入等待处理结果阶段;
第七步,数据生成代理组件接收微调度组件的请求,并返回已接收处理标识;
第八步,数据生成代理组件生成数据文件完毕,并将处理标识返回给微调度组件,微调度组件等待处理结果阶段结束;
第九步,文本数据生成定义分组分类入列处理。
所述的数据生产代理组件的文本数据生成流程为:
第一步,接收微调度组件请求代理对象包;
第二步,向微调度组件返回已接收处理标识;
第三步,开启多线程进行代理对象包的分发处理;
第四步,为代理对象包选择数据库适配器;
第五步,与数据库建立连接;
第六步,使用代理对象包中的SQL DML语句查询连接的数据库,并生成文本数据;
第七步,返回处理标识给微调度组件。
本发明提供了一种大数据预处理文本数据生成处理流程的实现方法。针对数据来源为各种类型数据库,提供简单的流程向导式的数据生成方法,同时提供文本数据生成过程中实时监控。通过该数据生成平台,统一数据生成入口,完善数据生成方式及存储规范,简易文本数据生成流程,进而有效降低各种数据库数据提取使用难度,大幅提高数据的质量;统一存储为文本介质,其优势可以将文本介质提供给大数据平台接口进行导入,以便让这些数据更好更快更准确在大数据平台中展现应有的价值。
附图说明
下面结合附图对本发明进一步说明:
图1是本发明文本数据生成流程协同处理流程图;
图2是本发明组件之间交互模式图;
图3是本发明文本数据生成服务请求处理序列图;
图4是本发明文本数据生成流程图。
具体实施方式
本发明提出大数据预处理入口中文本数据生成的方法,其提供简单的流程向导式的数据生成方法,同时提供文本数据生成过程中的实时监控。文本数据请求首先被定义SQL语句,然后该SQL语句通过后台系统分析解析,使用唯一的编号进行标识,使用该唯一的编号完成文本数据生成。所述的方法包括WEB应用组件,微调度组件,数据生产代理组件的协同处理。WEB应用组件实现文本数据请求的管理与监控,并将文本数据请求封装成微调度组件需要的调度对象,然后向微调度组件发送调度命令。微调度组件负责接收WEB应用组件的调用请求,并将调度对象封装为代理对象,然后向数据生成代理组件发送生产文本数据命令,期间将等待结果经过分组分类处理后不断推送更新文本数据生产状态。数据生成代理组件接收到微调度组件调用请求,并将文本数据请求生成过程状态阶段性返回给微调度组件,同时数据生成代理组件将对文本数据进行生产
如图1所示,文本数据生成流程协同处理,详细流程为:
第一步,WEB应用组件开始文本数据请求;
第二步,在WEB应用组件中配置向导配置生成数据的数据源,选择要生成数据的表,以及相关过滤条件进行注册;
第三步,WEB应用组件生成标准SQL DDL/DML语句,并连同数据源相关信息一并保存在数据库中,该信息将监控管理中显示该文本数据定义已经处于就绪状态,并显示处理步骤日志信息。
第四步,WEB应用组件将上述第三步中的定义交由业务后台处理,后台将定义封装文本数据生成定义对象;
第五步,WEB应用组件对封装文本数据生成定义对象进行分组分类,并封装成适合微调度组件接口调用的对象;
第六步,WEB应用组件建立与微调度组件通信连接;
第七步,WEB应用组件向微调度组件发送调度请求,并进入等待处理结果阶段;
第八步,微调度组件接收WEB组件调度请求,并返回已接收标识;
第九步,WEB应用组件接收微调度组件发送的标识,更新文本数据生成定义的生成状态,该信息将监控管理中显示该文本数据定义已经处于运行状态,并显示处理步骤日志信息;
第十步,微调度组件将请求入列,然后发送给数据生成代理组件;
第十一步,数据生成代理组件生成数据文件完毕,并将处理标识返回给微调度组件,微调度组件进而将处理标识更新到文本数据生成定义的生成状态,该信息将监控管理中显示该文本数据定义已经处于运行状态,并显示处理步骤日志信息。
以上第四步到第十一步为自动流程。
如图2所示:组件服务之间交互模式的详细业务流程为:
第一步,WEB应用组件将封装好的调度对象,通过调度组件API向微调度组件发送请求;
第二步,微调度组件向WEB应用组件发送已接收到标识;
第三步,微调度组件通过将接收到的对象进行封装,并进行分组分类,然后交由内部引擎进行分发,继而向数据生成代理组件发送生成数据请求;
第四步,数据生成代理组件向微调度组件发送已接收到标识;
第五步,数据生成代理组件通过内部引擎进行文本数据生成;
第六步,文本数据生成完成后,异步调用微调度组件服务,返回处理完成标识;
第七步,微调度组件将返回处理完成标识包装后请求给WEB应用组件,继而更新文本数据生成标识。
如图3所示,大数据预处理入口中文本数据生成的方法中的服务请求处理的详细流程为:
第一步,WEB应用组件管理端的文本数据生成的提交请求;
第二步,WEB应用组件服务端封装好请求对象,并向微调度组件服务发送请求;
第三步,微调度组件服务返回调度信息接收结果;
第四步,WEB应用组件服务端返回处理后的调度信息给WEB应用组件管理端;
第五步,微调度组件发送数据生成请求;
第六步,数据生成代理组件服务使用异步方法返回代理已接收结果;
第七步,微调度组件返回代理已接收结果;
第八步,WEB应用组件服务端返回代理已接收结果;
第九步,该步骤和第六步后开展,在生成完文本数据后,数据生成代理组件服务异步返回代理生成数据标识;
第十步,微调度组件服务端异步返回代理生成数据标识;
第十一步,WEB应用组件服务端返回代理生成数据标识。
如图4所示,文本数据生成代
理组件的详细流程为:
第一步,文本数据被代理组件服务送入分发处理线程;
第二步,根据包装的代理组件对象提供的信息中的连接信息选择相应的数据库适配器;
第三步,设置文本数据行列分隔符
第四步,设置文本数据存储路径;
第五步,根据代理组件对象提供的文本数据命名规范命名文本名称;
第六步,根据代理组件对象提供的文本数据生成策略规范操作已生成的文本数据;
第七步,开启数据库连接;
第八步,执行SQL查询数据库生成文本数据;
第九步,文本数据生成完毕,关闭数据库连接;
第十步,退出数据生成处理线程。
在本发明中,文本数据数据可以来源于同一个数据库连接中的单个表或单个视图,也可以来源于同一个数据库连接中的多个表或多个视图,以及多个表和视图的的联合查询组合。
Claims (5)
1.一种大数据预处理文本数据生成处理流程实现方法,其特征在于:文本数据请求首先被定义SQL语句,然后该SQL语句通过后台系统分析解析,使用唯一的编号进行标识,使用该唯一的编号完成文本数据生成;
所述的方法由WEB应用组件、微调度组件和数据生产代理组件的协同处理;
由WEB应用组件实现文本数据请求的管理与监控,并将文本数据请求封装成微调度组件需要的调度对象,然后向微调度组件发送调度命令;
微调度组件负责接收WEB应用组件的调用请求,并将调度对象封装为代理对象,然后向数据生成代理组件发送生产文本数据命令,期间将等待结果经过分组分类入列处理后不断推送更新文本数据生产状态;
数据生成代理组件接收到微调度组件调用请求,并将文本数据请求生成过程状态阶段性返回给微调度组件,同时数据生成代理组件将对文本数据进行生产。
2.根据权利要求1所述的大数据预处理文本数据生成处理流程实现方法,其特征在于:所述的WEB应用组件的管理与监控流程如下:
第一步,WEB应用组件开始文本数据请求;
第二步,在WEB应用组件中配置向导配置生成数据的数据源,选择要生成数据的表,以及相关过滤条件进行注册;
第三步,WEB应用组件生成标准SQL DDL/DML语句,并连同数据源相关信息一并保存在数据库中,该信息将监控管理中显示该文本数据定义已经处于就绪状态,并显示处理步骤日志信息;
第四步,WEB应用组件将上述第三步中的定义交由业务后台处理,后台将定义封装文本数据生成定义对象;
第五步,WEB应用组件对封装文本数据生成定义对象进行分组分类,并封装成适合微调度组件接口调用的对象;
第六步,WEB应用组件建立与微调度组件通信连接;
第七步,WEB应用组件向微调度组件发送调度请求,并进入等待处理结果阶段;
第八步,微调度组件接收WEB组件调度请求,并返回已接收标识;
第九步,WEB应用组件接收微调度组件发送的标识,更新文本数据生成定义的生成状态,该信息将监控管理中显示该文本数据定义已经处于运行状态,并显示处理步骤日志信息;
第十步,微调度组件将请求入列,然后发送给数据生成代理组件;
第十一步,数据生成代理组件生成数据文件完毕,并将处理标识返回给微调度组件,微调度组件进而将处理标识更新到文本数据生成定义的生成状态,该信息将监控管理中显示该文本数据定义已经处于运行状态,并显示处理步骤日志信息。
3.根据权利要求2所述的大数据预处理文本数据生成处理流程实现方法,其特征在于:所述的微调度组件的调度流程为:
第一步,接收WEB组件的请求调度对象包;
第二步,向WEB组件返回接收处理标识;
第三步,将调度对象包放入生产队列;
第四步,将生产队列中的调度对象弹出,并检测代理并发数,如果代理并发数已经达到最大,该调度对象将进入轮询等待区,待代理并发数满足条件后,即没有达到最大,进入下一步操作;
第五步,将调度对象封装为文本数据生成的代理对象;
第六步,微调度组件向数据生成代理组件发送数据生成请求,并进入等待处理结果阶段;
第七步,数据生成代理组件接收微调度组件的请求,并返回已接收处理标识;
第八步,数据生成代理组件生成数据文件完毕,并将处理标识返回给微调度组件,微调度组件等待处理结果阶段结束;
第九步,文本数据生成定义分组分类入列处理。
4.根据权利要求1所述的大数据预处理文本数据生成处理流程实现方法,其特征在于:所述的微调度组件的调度流程为:
第一步,接收WEB组件的请求调度对象包;
第二步,向WEB组件返回接收处理标识;
第三步,将调度对象包放入生产队列;
第四步,将生产队列中的调度对象弹出,并检测代理并发数,如果代理并发数已经达到最大,该调度对象将进入轮询等待区,待代理并发数满足条件后,即没有达到最大,进入下一步操作;
第五步,将调度对象封装为文本数据生成的代理对象;
第六步,微调度组件向数据生成代理组件发送数据生成请求,并进入等待处理结果阶段;
第七步,数据生成代理组件接收微调度组件的请求,并返回已接收处理标识;
第八步,数据生成代理组件生成数据文件完毕,并将处理标识返回给微调度组件,微调度组件等待处理结果阶段结束;
第九步,文本数据生成定义分组分类入列处理。
5.根据权利要求2至4任一项所述的大数据预处理文本数据生成处理流程实现方法,其特征在于:所述的数据生产代理组件的文本数据生成流程为:
第一步,接收微调度组件请求代理对象包;
第二步,向微调度组件返回已接收处理标识;
第三步,开启多线程进行代理对象包的分发处理;
第四步,为代理对象包选择数据库适配器;
第五步,与数据库建立连接;
第六步,使用代理对象包中的SQL DML语句查询连接的数据库,并生成文本数据;
第七步,返回处理标识给微调度组件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410486188.5A CN104239537B (zh) | 2014-09-22 | 2014-09-22 | 一种大数据预处理文本数据生成处理流程实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410486188.5A CN104239537B (zh) | 2014-09-22 | 2014-09-22 | 一种大数据预处理文本数据生成处理流程实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104239537A CN104239537A (zh) | 2014-12-24 |
CN104239537B true CN104239537B (zh) | 2017-07-07 |
Family
ID=52227596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410486188.5A Active CN104239537B (zh) | 2014-09-22 | 2014-09-22 | 一种大数据预处理文本数据生成处理流程实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104239537B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104699779A (zh) * | 2015-03-11 | 2015-06-10 | 北京京东尚科信息技术有限公司 | 一种对象编号的生成方法和装置 |
CN107590125B (zh) * | 2017-09-07 | 2019-12-03 | 国网山东省电力公司 | 一种基于随机算法的大数据文本实时交互方法和装置 |
WO2021227632A1 (en) * | 2020-05-15 | 2021-11-18 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | System and method for auto-recommending at least one intelligent text to a user |
CN116595715A (zh) * | 2023-04-12 | 2023-08-15 | 北京世纪农丰土地科技有限公司 | 一种土地综合整治与生态修复数据处理系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1752971A (zh) * | 2004-09-24 | 2006-03-29 | 国际商业机器公司 | 用于从数据库取得和呈现数据的方法及系统 |
CN101272523A (zh) * | 2007-03-22 | 2008-09-24 | 华源润通(北京)科技有限公司 | 一种移动查询系统及其查询方法 |
CN102054043A (zh) * | 2010-12-30 | 2011-05-11 | 畅捷通软件有限公司 | 大数据生成方法和装置 |
CN102222071A (zh) * | 2010-04-16 | 2011-10-19 | 华为技术有限公司 | 数据同步处理方法、设备及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9372890B2 (en) * | 2011-11-23 | 2016-06-21 | Infosys Technologies, Ltd. | Methods, systems, and computer-readable media for providing a query layer for cloud databases |
-
2014
- 2014-09-22 CN CN201410486188.5A patent/CN104239537B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1752971A (zh) * | 2004-09-24 | 2006-03-29 | 国际商业机器公司 | 用于从数据库取得和呈现数据的方法及系统 |
CN101272523A (zh) * | 2007-03-22 | 2008-09-24 | 华源润通(北京)科技有限公司 | 一种移动查询系统及其查询方法 |
CN102222071A (zh) * | 2010-04-16 | 2011-10-19 | 华为技术有限公司 | 数据同步处理方法、设备及系统 |
CN102054043A (zh) * | 2010-12-30 | 2011-05-11 | 畅捷通软件有限公司 | 大数据生成方法和装置 |
Non-Patent Citations (1)
Title |
---|
面向分布式数据库的自适应多级缓存机制研究;谢海洋;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140615;I138-544 * |
Also Published As
Publication number | Publication date |
---|---|
CN104239537A (zh) | 2014-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109933306B (zh) | 一种基于作业类型识别的自适应混合云计算框架生成方法 | |
CN104239537B (zh) | 一种大数据预处理文本数据生成处理流程实现方法 | |
CN109254982A (zh) | 一种流数据处理方法、系统、装置及计算机可读存储介质 | |
CN107038162A (zh) | 基于数据库日志的实时数据查询方法和系统 | |
CN109492774A (zh) | 一种基于深度学习的云资源调度方法 | |
CN107220892B (zh) | 一种应用于海量p2p网贷金融数据智能预处理工具及方法 | |
CN106230985B (zh) | 一种基于物联网大数据处理方法、系统及服务处理端 | |
CN109067859A (zh) | 一种面向跨域协同服务的双层云架构系统及实现方法 | |
CN105135782A (zh) | 一种基于物联网的智能冰箱管理系统 | |
CN104572975B (zh) | 一种实时数据处理分析系统 | |
CN109274178A (zh) | 一种电力调度前置运行信息的自动化分析系统和方法 | |
CN109871527A (zh) | 一种基于分词的语义识别方法 | |
CN109885823A (zh) | 一种金融行业的分布式语义识别方法及系统装置 | |
CN108052402A (zh) | 一种中药提取中mes系统与erp系统对接方法 | |
CN111125518A (zh) | 家电信息推荐的系统及方法 | |
US20130297618A1 (en) | Social intelligence architecture | |
CN104050193B (zh) | 生成报文的方法和实现该方法的数据处理系统 | |
CN109379245A (zh) | 一种wifi报表生成方法及系统 | |
CN102156799A (zh) | 一种可级联的复杂事件处理引擎及列车检修自动记录方法 | |
Dikhanbayeva et al. | Analysis of textile manufacturing SMEs in Kazakhstan for industry 4.0 | |
US10447749B2 (en) | Method and system for delivering data to a batch consumer and a streaming consumer | |
CN207819973U (zh) | 物资调配预警信息的推送系统及装置 | |
CN107016128A (zh) | 一种数据处理方法及装置 | |
US20230054470A1 (en) | Industrial internet of things, control methods, and storage mediums for automatic executing product manufacturing based on tasks | |
CN105807729B (zh) | 一种基于语义化的产线预设流程优化方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder |
Address after: 523808 19th Floor, Cloud Computing Center, Chinese Academy of Sciences, No. 1 Kehui Road, Songshan Lake Hi-tech Industrial Development Zone, Dongguan City, Guangdong Province Patentee after: G-Cloud Technology Co., Ltd. Address before: 523808 No. 14 Building, Songke Garden, Songshan Lake Science and Technology Industrial Park, Dongguan City, Guangdong Province Patentee before: G-Cloud Technology Co., Ltd. |
|
CP02 | Change in the address of a patent holder |