CN111221667A - 一种基于cmsp的数据分布式预处理方法 - Google Patents
一种基于cmsp的数据分布式预处理方法 Download PDFInfo
- Publication number
- CN111221667A CN111221667A CN202010020433.9A CN202010020433A CN111221667A CN 111221667 A CN111221667 A CN 111221667A CN 202010020433 A CN202010020433 A CN 202010020433A CN 111221667 A CN111221667 A CN 111221667A
- Authority
- CN
- China
- Prior art keywords
- unit
- computing
- data
- cmsp
- message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007781 pre-processing Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 40
- 238000004364 calculation method Methods 0.000 claims description 25
- 238000004148 unit process Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 11
- 238000000926 separation method Methods 0.000 abstract description 2
- 238000001914 filtration Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000000547 structure data Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/546—Message passing systems or structures, e.g. queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/541—Interprogram communication via adapters, e.g. between incompatible applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/54—Indexing scheme relating to G06F9/54
- G06F2209/547—Messaging middleware
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Stored Programmes (AREA)
- Multi Processors (AREA)
Abstract
本发明公开一种基于CMSP的数据分布式预处理方法,涉及数据分布式处理技术领域;添加CMSP的计算框架,规定消息单向处理流程,建立计算框架模型,定义计算单元之间关系,计算单元包括通用计算单元与消息适配单元,计算框架调用计算单元时,消息适配单元转换其他数据类型为标准数据结构,通用计算单元进行标准数据结构数据处理;定义基本处理与逻辑框架流程,实现消息处理的逻辑与结构分离,将消息预处理与CMSP消息中间件相结合,在分布式消息分发处理场景中,在保证性能的同时,更加灵活且可复用。
Description
技术领域
本发明公开一种数据分布式预处理方法,涉及数据分布式处理技术领域,具体地说是一种基于CMSP的数据分布式预处理方法。
背景技术
随着计算机系统规模变的越来越大,业务单元间通过消息中间件进行信息交流已成为高效的消息分发传输手段。消息中间件作为消息传输的通路为信息的流转传输提供了输入输出的关系模型图。然而消息中间件对输入信息需要进行初步的加工过滤预处理过程,现有普遍的处理方式通常只是将数据总线作为简单的模块间通信途径,通过独立的模块程序实现加工过滤功能。但是这种方式存在弊端:一是存在额外开销,单独的加工过滤处理程序需要引入额外的接收分发开销,即加工过滤处理程序的引入增加模块本身的负担,同时还会带来额外的输入和输出队列开销,使进程通信效率较低,若独立的加工过滤处理模块过多,交互逻辑更为复杂;二是灵活性低,过于臃肿,通常加工过滤处理逻辑相对简单,单独实现一个进程降低了灵活性,加工过滤处理程序间的代码重复性较高,无法很好实现功能的细粒度复用,程序作为独立运行的个体,构建的成本相对较高,且对于一些简单功能,无法快速实现并验证功能。
CMSP:CMSP是Cloud Message Service Platform的简称,中文名称为云消息服务平台,是云和大数据时代的一种高性能消息中间件,以云服务和集群方式对外提供高性能和高可靠的消息队列服务,支撑大数据采集、传输、汇聚、交换和存储,大数据实时处理和微服务处理架构。
发明内容
本发明针对现有技术的问题,提供一种基于CMSP的数据分布式预处理方法,定义基本处理与逻辑框架流程,实现消息处理的逻辑与结构分离,将消息预处理与CMSP消息中间件相结合,在分布式消息分发处理场景中,在保证性能的同时,更加灵活且可复用。
本发明提出的具体方案是:
一种基于CMSP的数据分布式预处理方法:添加CMSP的计算框架,规定消息单向处理流程,建立计算框架模型,定义计算单元之间关系,
计算单元包括通用计算单元与消息适配单元,计算框架调用计算单元时,消息适配单元转换其他数据类型为标准数据结构,通用计算单元进行标准数据结构数据处理。
所述的一种基于CMSP的数据分布式预处理方法中计算框架模型中将每个计算单元作为计算单元节点,定义计算单元节点之间的关系。
所述的一种基于CMSP的数据分布式预处理方法中计算框架模型中定义Task表示一个任务流,Work表示计算单元节点,代表单输出;precede表示计算单元节点一对一的前后关系,broadcast表示计算单元节点一对多的关系,gather表示计算单元节点多对一的关系。
所述的一种基于CMSP的数据分布式预处理方法中根据数据分布式预处理场景中数据量的大小和性能面是否敏感,确定计算框架调用计算单元的方式。
所述的一种基于CMSP的数据分布式预处理方法中在数据量较大,性能面敏感的数据分布式预处理场景中,计算框架通过热加载插件方式调用计算单元;
在数据量较小,性能面不敏感的数据分布式预处理场景中,计算框架通过解析器调用计算单元。
一种基于CMSP的数据分布式预处理系统包括计算框架单元和计算单元,
其中在CMSP内添加计算框架单元,在计算框架单元内规定消息单向处理流程,建立计算框架模型,定义计算单元之间关系,
计算单元包括通用计算单元与消息适配单元,当计算框架单元调用计算单元时,消息适配单元转换其他数据类型为标准数据结构,通用计算单元进行标准数据结构数据处理。
所述的一种基于CMSP的数据分布式预处理系统中计算框架模型中将每个计算单元作为计算单元节点,定义计算单元节点之间的关系。
所述的一种基于CMSP的数据分布式预处理系统中计算框架模型中定义Task表示一个任务流,Work表示计算单元节点,代表单输出;precede表示计算单元节点一对一的前后关系,broadcast表示计算单元节点一对多的关系,gather表示计算单元节点多对一的关系。
本发明的有益之处是:
本发明方法提供一种基于CMSP的数据分布式预处理方法,通过将计算框架和计算单元内嵌入CMSP消息中间件中,消除了数据在不同组件中拷贝传输带来的开销,提升了系统的性能,简化了消息传输预处理场景下整个架构的复杂度;
通过将内嵌消息处理与调度框架分离的模式,将通常的独立部署的消息处理组件,抽象为相对稳定的计算单元与灵活多变的调度框架,调度框架通过计算框架模型可定义相关语意元素,描述相关数据逻辑走向。计算单元负责数据处理内部细节,提升了整体系统的灵活性和基本计算单元的复用性,并可针对不同适用场景,计算框架采用不同调用计算单元的模式,兼顾了性能与快速实现的平衡。
附图说明
图1是本发明方法流程示意图;
图2是本发明实施例中任务流程走向示意图。
具体实施方式
本发明提供一种基于CMSP的数据分布式预处理方法:添加CMSP的计算框架,规定单向消息处理流程,建立计算框架模型,定义计算单元之间关系,
计算单元包括通用计算单元与消息适配单元,计算框架调用计算单元时,消息适配单元转换其他数据类型为标准数据结构,通用计算单元进行标准数据结构数据处理。
同时提供与上述方法相应的一种基于CMSP的数据分布式预处理系统。
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
利用本发明方法基于CMSP进行数据分布式预处理时,具体过程为:
添加CMSP的计算框架,计算框架规定数据的流向,为消息单向处理流程,建立计算框架模型,定义计算单元之间关系,即计算单元与计算框架通过绑定,进行逻辑关联,
其中计算框架将每个计算单元作为计算单元节点,定义计算单元节点之间的关系,详细关系可见表1,
表1
例举一个计算框架模型,说明上述关系,如下:
{[A,B,C,D,E,F],(A,B)->C->(D,E)->F}(Demo)
不同信息流之间使用逗号分隔,[]括号内的表示了基本的计算单元节点,不同计算单元节点之间使用逗号隔开,计算单元节点重复自动忽略,任务调用链生成了一个名为Demo的任务处理流程,可参考图2,说明了数据流向是单向的,每个计算单元节点相对独立,计算单元包括通用计算单元与消息适配单元,计算框架调用计算单元时,消息适配单元转换其他数据类型为标准数据结构,通用计算单元进行标准数据结构数据处理,通过接收相关输入,通过内部逻辑处理得到输出结果,从而提高计算单元的可重用性。
在上述过程中,根据数据分布式预处理场景中数据量的大小和性能面是否敏感,可确定计算框架调用计算单元的方式,其中在数据量较大,性能面敏感的数据分布式预处理场景中,可采用语义模型+JIT编译生成计算框架,可由可视化调度工具通过图形界面构建相关的计算单元节点,并构建计算单元节点相关关系,可使用llvm提供的JIT功能,将计算框架模型编译为机器码,从而提升流程执行效率,而计算单元可采用预先编译构建完成,同时计算框架通过热加载插件方式调用计算单元,完成数据预处理过程;
在数据量较小,性能面不敏感的数据分布式预处理场景中,计算单元可以使用通用内嵌通用虚拟机,通过编写脚本语言实现,计算框架可通过数据总线内嵌通用脚本解析器的方式调用计算单元,比如js解析器、python解析器,lua解析器等。
利用本发明系统,基于CMSP进行数据分布式预处理时,具体过程为:
在CMSP内添加计算框架,计算框架规定数据的流向,为消息单向处理流程,建立计算框架模型,定义计算单元之间关系,即计算单元与计算框架通过绑定,进行逻辑关联,
其中计算框架将每个计算单元作为计算单元节点,定义计算单元节点之间的关系,详细关系可见表1,
通过表1,例举一个计算框架模型,如下:
{[A,B,C,D,E,F],(A,B)->C->(D,E)->F}(Demo)
不同信息流之间使用逗号分隔,[]括号内的表示了基本的计算单元节点,不同计算单元节点之间使用逗号隔开,计算单元节点重复自动忽略,任务调用链生成了一个名为Demo的任务处理流程,可参考图2,说明了数据流向是单向的,每个计算单元节点相对独立,计算单元包括通用计算单元与消息适配单元,计算框架调用计算单元时,消息适配单元转换其他数据类型为标准数据结构,通用计算单元进行标准数据结构数据处理,通过接收相关输入,通过内部逻辑处理得到输出结果,从而提高计算单元的可重用性。
在上述过程中,根据数据分布式预处理场景中数据量的大小和性能面是否敏感,可确定计算框架调用计算单元的方式,其中在数据量较大,性能面敏感的数据分布式预处理场景中,可采用语义模型+JIT编译生成计算框架,可由可视化调度工具通过图形界面构建相关的计算单元节点,并构建计算单元节点相关关系,可使用llvm提供的JIT功能,将计算框架模型编译为机器码,从而提升流程执行效率,而计算单元可采用预先编译构建完成,同时计算框架通过热加载插件方式调用计算单元,完成数据预处理过程;
在数据量较小,性能面不敏感的数据分布式预处理场景中,计算单元可以使用通用内嵌通用虚拟机,通过编写脚本语言实现,计算框架可通过数据总线内嵌通用脚本解析器的方式调用计算单元,比如js解析器、python解析器,lua解析器等。
利用本发明方法和本发明系统均可将计算框架及计算单元分离,实现程序的灵活定制、不停机升级、精确监控都带来了不同程度的便利。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。
Claims (8)
1.一种基于CMSP的数据分布式预处理方法,其特征是添加CMSP的计算框架,规定消息单向处理流程,建立计算框架模型,定义计算单元之间关系,
计算单元包括通用计算单元与消息适配单元,计算框架调用计算单元时,消息适配单元转换其他数据类型为标准数据结构,通用计算单元进行标准数据结构数据处理。
2.根据权利要求1所述的一种基于CMSP的数据分布式预处理方法,其特征是计算框架模型中将每个计算单元作为计算单元节点,定义计算单元节点之间的关系。
3.根据权利要求2所述的一种基于CMSP的数据分布式预处理方法,其特征是计算框架模型中定义Task表示一个任务流,Work表示计算单元节点,代表单输出;precede表示计算单元节点一对一的前后关系,broadcast表示计算单元节点一对多的关系,gather表示计算单元节点多对一的关系。
4.根据权利要求1-3任一所述的一种基于CMSP的数据分布式预处理方法,其特征是根据数据分布式预处理场景中数据量的大小和性能面是否敏感,确定计算框架调用计算单元的方式。
5.根据权利要求4所述的一种基于CMSP的数据分布式预处理方法,其特征是在数据量较大,性能面敏感的数据分布式预处理场景中,计算框架通过热加载插件方式调用计算单元;
在数据量较小,性能面不敏感的数据分布式预处理场景中,计算框架通过解析器调用计算单元。
6.一种基于CMSP的数据分布式预处理系统,其特征是包括计算框架单元和计算单元,
其中在CMSP内添加计算框架单元,在计算框架单元内规定消息单向处理流程,建立计算框架模型,定义计算单元之间关系,
计算单元包括通用计算单元与消息适配单元,当计算框架单元调用计算单元时,消息适配单元转换其他数据类型为标准数据结构,通用计算单元进行标准数据结构数据处理。
7.根据权利要求6所述的一种基于CMSP的数据分布式预处理系统,其特征是计算框架模型中将每个计算单元作为计算单元节点,定义计算单元节点之间的关系。
8.根据权利要求7所述的一种基于CMSP的数据分布式预处理系统,其特征是计算框架模型中定义Task表示一个任务流,Work表示计算单元节点,代表单输出;precede表示计算单元节点一对一的前后关系,broadcast表示计算单元节点一对多的关系,gather表示计算单元节点多对一的关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010020433.9A CN111221667B (zh) | 2020-01-09 | 2020-01-09 | 一种基于cmsp的数据分布式预处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010020433.9A CN111221667B (zh) | 2020-01-09 | 2020-01-09 | 一种基于cmsp的数据分布式预处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111221667A true CN111221667A (zh) | 2020-06-02 |
CN111221667B CN111221667B (zh) | 2024-03-22 |
Family
ID=70808794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010020433.9A Active CN111221667B (zh) | 2020-01-09 | 2020-01-09 | 一种基于cmsp的数据分布式预处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111221667B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165225A (zh) * | 2018-09-05 | 2019-01-08 | 浪潮软件股份有限公司 | 一种基于字节流格式的kudu数据导入系统及方法 |
CN109684097A (zh) * | 2018-12-21 | 2019-04-26 | 浪潮软件股份有限公司 | 一种基于cmsp的json数据解析与存储方法 |
CN109739654A (zh) * | 2018-08-10 | 2019-05-10 | 比亚迪股份有限公司 | 消息中间件及消息传输方法 |
CN109995875A (zh) * | 2019-04-11 | 2019-07-09 | 华夏天信(北京)智能低碳技术研究院有限公司 | 虚拟化数据分发弹性网络系统 |
CN110175213A (zh) * | 2019-05-27 | 2019-08-27 | 浪潮软件集团有限公司 | 一种基于SCN方式的Oracle数据库同步系统及方法 |
CN110377666A (zh) * | 2019-07-26 | 2019-10-25 | 浪潮软件股份有限公司 | 基于cmsp消息中间件进行异源数据库间数据同步的方法 |
US20190372693A1 (en) * | 2018-05-31 | 2019-12-05 | At&T Intellectual Property I, L.P. | Cellular broadcast messaging and indirection |
-
2020
- 2020-01-09 CN CN202010020433.9A patent/CN111221667B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190372693A1 (en) * | 2018-05-31 | 2019-12-05 | At&T Intellectual Property I, L.P. | Cellular broadcast messaging and indirection |
CN109739654A (zh) * | 2018-08-10 | 2019-05-10 | 比亚迪股份有限公司 | 消息中间件及消息传输方法 |
CN109165225A (zh) * | 2018-09-05 | 2019-01-08 | 浪潮软件股份有限公司 | 一种基于字节流格式的kudu数据导入系统及方法 |
CN109684097A (zh) * | 2018-12-21 | 2019-04-26 | 浪潮软件股份有限公司 | 一种基于cmsp的json数据解析与存储方法 |
CN109995875A (zh) * | 2019-04-11 | 2019-07-09 | 华夏天信(北京)智能低碳技术研究院有限公司 | 虚拟化数据分发弹性网络系统 |
CN110175213A (zh) * | 2019-05-27 | 2019-08-27 | 浪潮软件集团有限公司 | 一种基于SCN方式的Oracle数据库同步系统及方法 |
CN110377666A (zh) * | 2019-07-26 | 2019-10-25 | 浪潮软件股份有限公司 | 基于cmsp消息中间件进行异源数据库间数据同步的方法 |
Non-Patent Citations (1)
Title |
---|
李朝铭: "云消息服务平台CMSP多租户权限模型", no. 7, pages 10 - 13 * |
Also Published As
Publication number | Publication date |
---|---|
CN111221667B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101707399B (zh) | 电能信息采集方法及系统 | |
EP3731161A1 (en) | Model application method and system, and model management method and server | |
US20200285508A1 (en) | Method and Apparatus for Assigning Computing Task | |
CN109062617A (zh) | 一种支持多类型设备的平台的应用方法、移动终端 | |
CN102866925B (zh) | 一种中间件与用户界面的通信方法和系统 | |
CN111859638A (zh) | 一种实时高效分布式虚实结合仿真系统及构建方法 | |
CN108874677A (zh) | 一种安卓终端及其测试方法和系统 | |
CN114528044B (zh) | 一种接口调用方法、装置、设备及介质 | |
CN110764752A (zh) | 基于微服务架构实现Restful服务图形化服务编排的系统及其方法 | |
CN110806855B (zh) | 一种can设备开发系统及其方法 | |
CN109739624A (zh) | 分布式事务处理方法、装置、电子设备及计算机可读介质 | |
CN112181542A (zh) | 功能调用方法、装置、电子设备及存储介质 | |
CN113467972A (zh) | 通信接口构造方法、装置以及计算机设备、存储介质 | |
CN106686021A (zh) | 一种服务调用方法和网关 | |
US20200286012A1 (en) | Model application method, management method, system and server | |
CN111221667A (zh) | 一种基于cmsp的数据分布式预处理方法 | |
CN102591714B (zh) | 一种流程调用方法、系统及应用服务器 | |
CN101819524B (zh) | Rfid阅读器的访问方法及其接口驱动设备 | |
CN107479891B (zh) | 一种基于mvc模型数据处理系统及方法 | |
CN112511636B (zh) | 数据传输系统、方法、装置、计算机设备及存储介质 | |
CN115167985A (zh) | 一种虚拟化的算力提供方法及系统 | |
CN113703829A (zh) | 一种Android生命周期多业务分发方法及系统 | |
CN113849449A (zh) | 一种通信系统和信息交互方法、设备和介质 | |
CN107291455B (zh) | 一种基于工厂模式实现转账业务的方法及系统 | |
CN115994022B (zh) | 算法服务的调用方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Country or region after: China Address after: 271000 Langchao science and Technology Park, 527 Dongyue street, Tai'an City, Shandong Province Applicant after: INSPUR SOFTWARE Co.,Ltd. Address before: No. 1036, Shandong high tech Zone wave road, Ji'nan, Shandong Applicant before: INSPUR SOFTWARE Co.,Ltd. Country or region before: China |
|
GR01 | Patent grant | ||
GR01 | Patent grant |