CN110245797B - 基于Omid事务分析系统的联机分析处理的方法 - Google Patents

基于Omid事务分析系统的联机分析处理的方法 Download PDF

Info

Publication number
CN110245797B
CN110245797B CN201910527264.5A CN201910527264A CN110245797B CN 110245797 B CN110245797 B CN 110245797B CN 201910527264 A CN201910527264 A CN 201910527264A CN 110245797 B CN110245797 B CN 110245797B
Authority
CN
China
Prior art keywords
transaction
omid
short
long
affair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910527264.5A
Other languages
English (en)
Other versions
CN110245797A (zh
Inventor
赵志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Huituo Investment Center LP
Original Assignee
Harbin Huituo Investment Center LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Huituo Investment Center LP filed Critical Harbin Huituo Investment Center LP
Priority to CN201910527264.5A priority Critical patent/CN110245797B/zh
Publication of CN110245797A publication Critical patent/CN110245797A/zh
Application granted granted Critical
Publication of CN110245797B publication Critical patent/CN110245797B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Technology Law (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于Omid事务分析系统的联机分析处理的方法,属于数据处理领域。现有的Yahoo的事务处理系统Omid只适用于联机事务处理(OLTP),并不适用于联机分析处理(OLAP);且没有给出在联机事务处理过程中如何区分长事务和短事务的问题。一种基于Omid事务分析系统的联机分析处理的方法,将联机分析处理加入Omid事务分析系统;根据分析型事务为只读事务的原理,将其与长事务和短事务进行区分,从而先判断出分析型事务;在判断出分析型事务后剩余的事务中,使用机器学习回归算法区分长事务和短事务,对长事务和短事务并行处理。本发明有效地增加了联机分析处理的可扩展性、降低了时延。

Description

基于Omid事务分析系统的联机分析处理的方法
技术领域
本发明涉及一种基于Omid事务分析系统的联机分析处理的方法。
背景技术
目前,为了保证公共云平台所提供的大数据服务的可靠性,必须对应用于大数据平台的事务处理技术的各项性能进行改进。因此,文章“Taking Omid to the Clouds:Fast,Scalable Transactions for Real-Time Cloud Analytics”提出了对Yahoo的事务处理系统Omid的改进方案,提升了它的可扩展性和实时性,使其能够应用于大型多用户云平台。主要改进方案如下:
1;设计了Omid LL协议,将提交事务处理从原来的集中式改为分布式。Omid LL将提交事务处理中核心的更新提交表(Commit Table)的工作分布在了各个客户机处,而没有继续采用让事务处理器(Transaction Manager)进行集中更新的机制。
2;设计了对于单键值事务的特殊处理协议Omid FP,此协议放弃了向事务处理器发送开始事务与提交事务的机制,设计了新的算法与接口来加速短事务的处理。
但上述的技术方法存在如下缺陷:
文章“Taking Omid to the Clouds:Fast,Scalable Transactions for Real-Time Cloud Analytics”提出的技术只适用于联机事务处理(OLTP),并不适用于联机分析处理(OLAP)。但是,目前环境对于联机分析处理的可扩展性要求也在逐渐提高。另外,文章也没有提出对于联机事务处理中,长事务和短事务的区分。
发明内容
本发明的目的是为了解决现有的Yahoo的事务处理系统Omid只适用于联机事务处理(OLTP),并不适用于联机分析处理(OLAP);且没有给出在联机事务处理过程中如何区分长事务和短事务的问题,而提出一种基于Omid事务分析系统的联机分析处理的方法。
一种基于Omid事务分析系统的联机分析处理的方法,
步骤一、将联机分析处理加入Omid事务分析系统;
步骤二、根据分析型事务为只读事务的原理,将其与长事务和短事务进行区分,从而先判断出分析型事务;
步骤三、在判断出分析型事务后剩余的事务中,使用机器学习回归算法区分长事务和短事务;
步骤四、在将事务分成长事务和短事务之后,长事务和短事务开始并行处理,由Omid FP直接开始对短事务进行处理;由Omid LL处理长事务。
本发明的有益效果为:
本发明的关键点有二,其一在于将联机分析处理加入Omid事务分析系统,并针对分析型事务进行了加锁处理。其二在于有效地应用了机器学习回归算法。实现了联机事务处理中,长事务与短事务的区分。
与现有的方法相比,本发明提出的系统有效地增加了联机分析处理的可扩展性、降低了时延。同时也对Omid事务分析系统进行了完善补充,使其能够更加适应大型多用户云平台。另外,本发明提出的事务类型的区分算法也大大提高了原系统的效率。
附图说明
图1为本发明的方法流程图;
具体实施方式
具体实施方式一:
本实施方式的基于Omid事务分析系统的联机分析处理的方法,所述方法包括以下步骤:
步骤一、将联机分析处理加入Omid事务分析系统;
步骤二、根据分析型事务为只读事务的原理,将其与长事务和短事务进行区分,从而先判断出分析型事务;
步骤三、在判断出分析型事务后剩余的事务中,使用机器学习回归算法区分长事务和短事务;
步骤四、在将事务分成长事务和短事务之后,长事务和短事务开始并行处理,由Omid FP直接开始对短事务进行处理;由Omid LL处理长事务,这是提升效率的关键所在。
Omid LL全称Omid Low Latency,OMID低延迟;针对低延迟设计的Omid,显著缩短处理短事务的延迟,提升吞吐率;
Omid FP全称Omid Fast Path,OMID快速路径;采用新的Fast Path算法设计的Omid,最大限度的提升了单键事务(single-key transaction)的性能,基于本地HBase实现,处理事务的速度是Omid LL的两倍;
长事务、短事务分别是指长时间事务和短时间事务,简称长事务和短事务,是根据机器学习模型预测出的事务的操作数而决定的,随着模型的更新,阈值会变化,短事务长事务的分界线也会变化,并不是固定的。
具体实施方式二:
与具体实施方式一不同的是,本实施方式的基于Omid事务分析系统的联机分析处理的方法,
所述的步骤一中,将联机分析处理加入Omid事务分析系统的过程为:
依然采用分布式架构方式处理提交的事务,将更新提交表的工作分布在各个客户机处,以减轻事务处理器的负担,有效提升了系统的可扩展性;
之后,基于分析型事务的特点,当分析型事务执行读操作时,Omid事务分析系统自动为其增加一把共享锁锁定被查询的数据;由于共享锁具有良好的并发性能;
当多个事务试图读取相同的被查询的数据时,为每个事务都增加一把共享锁,以同时读取锁定的数据;
其中,Omid事务分析系统表示数据源事务管理优化系统,Omid是Optimisticallytransactional Management in Datasources的缩写,表示数据源事务管理优化;
具体实施方式三:
与具体实施方式二不同的是,本实施方式的基于Omid事务分析系统的联机分析处理的方法,所述的步骤三中,在判断出分析型事务后剩余的事务中,使用机器学习回归算法区分长事务和短事务的过程为,
步骤三一、以事务向事务管理器发送的开始操作及提交操作之间的操作数为目标值,以此为输出训练学习模型;
步骤三二、在开始处理事务之前,使用训练后的学习模型预处理,预测其操作数,并判断其是长事务还是短事务。
具体实施方式四:
与具体实施方式三不同的是,本实施方式的基于Omid事务分析系统的联机分析处理的方法,所述的步骤三一中,以事务向事务管理器发送的开始操作及提交操作之间的操作数为目标值,训练学习模型的过程为:
所述的训练学习模型过程为,采用多项式拟合方法进行训练:
将每次记录的事务向事务管理器发送的开始操作和提交操作之间的操作数作为自变量x,事务执行完毕,再记录下该事务实际设计的所有操作数,作为因变量y,这样得到训练数据(x,y)作为一组,记录下200-1000组这样的训练数据,就可以去进行多项式拟合,采用如下预测函数:
Figure BDA0002098631160000041
其中,M为多项式最高次数,xj表示x的j次幂,ωj是xj的系数;j为5-10的自然数;w是一个列向量,具体形式如下w=[ω1,ω2,...ωM]T,表示模型的参数,ωM表示w中的元素;
损失函数如下:
Figure BDA0002098631160000042
其中,N代表所有的训练样本数,n代表第n个训练样本;xn表示第n个训练样本的x值;tn代表每个输入的x对应训练数据中的y值,采用平方误差和作为损失函数,采用梯度下降或牛顿法等方法找到使损失函数最小化的一组解作为预测模型的参数,从而训练出预测模型。
具体实施方式五:
与具体实施方式四不同的是,本实施方式的基于Omid事务分析系统的联机分析处理的方法,所述的联机分析处理的方法还包括对模型进行更新的步骤,具体为:
设定更新周期,在步骤三一后,定期对预测模型进行更新,例如每执行10000次事务之后或者每个月更新一次,这样保证预测模型的时效性。
具体实施方式六:
与具体实施方式五不同的是,本实施方式的基于Omid事务分析系统的联机分析处理的方法,所述的步骤三二中,在开始处理事务之前,使用训练后的学习模型预处理,预测其操作数,并判断其是长事务还是短事务的过程具体为:
首先,针对训练数据中每个输入的x值(x值表示事务向事务管理器发送的开始操作和提交操作之间的操作数),记录所有的预测值,取所有预测值的中间值作为划分长事务和短事务的阈值;
然后,将预测的操作数和阈值比较大小,判断长事务还是短事务,预测的操作数比阈值大,即为长事务,反之为短事务。
实施例1:
在银行系统中,假设有两个事务;
T1:读取A账户中剩余的钱数,T2:B向C转账50元;
这时候,T1和T2同时到达银行系统中,首先先判断是否有只读事务,因为这可以将事务分为OLAP和OLTP,发现T1为只读事务,即OLAP事务,这时,可以直接根据系统中处理OLAP操作的协议,为要访问的数据加上一个共享锁,然后读取A账户中剩余的钱数,完成操作;在T1进行处理的同时,这时候将T2代入预测模型中(假设这时已经建立好预测模型,也得到了阈值)来判断其属于长事务还是短事务,通过和阈值的比较,来确定其种类,若为长事务,由Omid LL执行,若为短事务,由Omid FP执行;执行流程如下:
1.系统先为T2分配一个id,假设为130;
2.读取DT表(存有所有账户余额的一个表)中B和C中账户余额;
3.更新DT表中B和C账户余额,暂时先不写到存储,这里相当于标记,防止出错回滚;
4.冲突检查,没有冲突之后,为commit事务分配id,这里假设为137;
5.提交执行事务T2后的修改;
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (5)

1.一种基于Omid事务分析系统的联机分析处理的方法,其特征在于:所述方法包括以下步骤:
步骤一、将联机分析处理加入Omid事务分析系统;具体过程为:
采用分布式架构方式处理提交的事务,将更新提交表的工作分布在各个客户机处;
之后,当分析型事务执行读操作时,Omid事务分析系统自动为其增加一把共享锁锁定被查询的数据;
当多个事务试图读取相同的被查询的数据时,为每个事务都增加一把共享锁,以同时读取锁定的数据;
其中,Omid事务分析系统表示数据源事务管理优化系统,Omid是Optimisticallytransactional Management in Datasources的缩写,表示数据源事务管理优化;
步骤二、根据分析型事务为只读事务的原理,将其与长事务和短事务进行区分,从而先判断出分析型事务;
步骤三、在判断出分析型事务后剩余的事务中,使用机器学习回归算法区分长事务和短事务;
步骤四、在将事务分成长事务和短事务之后,长事务和短事务开始并行处理,由OmidFP直接开始对短事务进行处理,所述Omid FP表示Omid Fast Path,OMID快速路径;由OmidLL处理长事务,所述Omid LL表示Omid Low Latency,OMID低延迟。
2.根据权利要求1所述的基于Omid事务分析系统的联机分析处理的方法,其特征在于:所述的步骤三中,在判断出分析型事务后剩余的事务中,使用机器学习回归算法区分长事务和短事务的过程为,
步骤三一、以事务向事务管理器发送的开始操作及提交操作之间的操作数为目标值,训练学习模型
步骤三二、使用训练后的学习模型预处理,预测其操作数,并判断其是长事务还是短事务。
3.根据权利要求2所述的基于Omid事务分析系统的联机分析处理的方法,其特征在于:所述的步骤三一中,以事务向事务管理器发送的开始操作及提交操作之间的操作数为目标值,训练学习模型的过程为:
所述的训练学习模型过程为,采用多项式拟合方法进行训练:
将每次记录的事务向事务管理器发送的开始操作和提交操作之间的操作数作为自变量x,事务执行完毕,再记录下该事务实际设计的所有操作数,作为因变量y,得到训练数据(x,y)作为一组,记录下200-1000组的训练数据,进行多项式拟合,采用如下预测函数:
Figure FDA0003084918820000021
其中,M为多项式最高次数,xj表示x的j次幂,ωj是xj的系数;j为5-10的自然数;w是一个列向量,具体形式如下w=[ω1,ω2,...ωM]T,表示模型的参数,ωM表示w中的元素;
损失函数如下:
Figure FDA0003084918820000022
其中,N代表所有的训练样本数,n代表第n个训练样本;xn表示第n个训练样本的x值;tn代表每个输入的x对应训练数据中的y值,采用平方误差和作为损失函数,采用梯度下降或牛顿法方法找到使损失函数最小化的一组解作为预测模型的参数,从而训练出预测模型。
4.根据权利要求3所述的基于Omid事务分析系统的联机分析处理的方法,其特征在于:所述的联机分析处理的方法还包括对模型进行更新的步骤,具体为:
设定更新周期,在步骤三一后,定期对预测模型进行更新。
5.根据权利要求4所述的基于Omid事务分析系统的联机分析处理的方法,其特征在于:所述的步骤三二中,使用训练后的学习模型预处理,预测其操作数,并判断其是长事务还是短事务的过程具体为:
首先,针对训练数据中每个输入的x值,记录所有的预测值,取所有预测值的中间值作为划分长事务和短事务的阈值;
然后,将预测的操作数和阈值比较大小,判断长事务还是短事务,预测的操作数比阈值大,即为长事务,反之为短事务。
CN201910527264.5A 2019-06-18 2019-06-18 基于Omid事务分析系统的联机分析处理的方法 Active CN110245797B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910527264.5A CN110245797B (zh) 2019-06-18 2019-06-18 基于Omid事务分析系统的联机分析处理的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910527264.5A CN110245797B (zh) 2019-06-18 2019-06-18 基于Omid事务分析系统的联机分析处理的方法

Publications (2)

Publication Number Publication Date
CN110245797A CN110245797A (zh) 2019-09-17
CN110245797B true CN110245797B (zh) 2021-07-20

Family

ID=67887935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910527264.5A Active CN110245797B (zh) 2019-06-18 2019-06-18 基于Omid事务分析系统的联机分析处理的方法

Country Status (1)

Country Link
CN (1) CN110245797B (zh)

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011083056A2 (en) * 2010-01-11 2011-07-14 International Business Machines Corporation Transactional updating in dynamic distributed workloads
US8442987B2 (en) * 2010-08-19 2013-05-14 Yahoo! Inc. Method and system for providing contents based on past queries
US8170981B1 (en) * 2010-12-08 2012-05-01 Dassault Systemes Enovia Corporation Computer method and system for combining OLTP database and OLAP database environments
CN103955502B (zh) * 2014-04-24 2017-07-28 科技谷(厦门)信息技术有限公司 一种可视化olap的应用实现方法及系统
CN103971226B (zh) * 2014-05-26 2017-07-07 沈苹 网络交互平台及其使用方法
US10127252B2 (en) * 2015-03-23 2018-11-13 Oracle International Corporation History and scenario data tracking
US11321299B2 (en) * 2016-02-01 2022-05-03 Verizon Patent And Licensing Inc. Scalable conflict detection in transaction management
US10565184B2 (en) * 2016-10-31 2020-02-18 Oath Inc. Method and system for committing transactions in a semi-distributed manner
KR101926270B1 (ko) * 2017-09-04 2019-02-26 중소기업은행 외환특이거래 분석장치 및 방법
US10540356B2 (en) * 2017-10-25 2020-01-21 International Business Machines Corporation Transparent analytical query accelerator over encrypted data
US10673711B2 (en) * 2017-11-28 2020-06-02 International Business Machines Corporation Resource provisioning platform with optimized bundling
CN108664378B (zh) * 2018-05-10 2020-04-14 西安电子科技大学 一种微服务最短执行时间的优化方法

Also Published As

Publication number Publication date
CN110245797A (zh) 2019-09-17

Similar Documents

Publication Publication Date Title
Wang et al. Performance prediction for apache spark platform
EP4254183A1 (en) Transaction processing method and apparatus, computer device, and storage medium
EP3120261B1 (en) Dependency-aware transaction batching for data replication
US8347292B2 (en) Transaction aggregation to increase transaction processing throughout
US6026394A (en) System and method for implementing parallel operations in a database management system
US10127275B2 (en) Mapping query operations in database systems to hardware based query accelerators
US11138227B2 (en) Consistent query execution in hybrid DBMS
US20090187534A1 (en) Transaction prediction modeling method
US9811577B2 (en) Asynchronous data replication using an external buffer table
US20100257138A1 (en) Data change ordering in multi-log based replication
US20010014888A1 (en) Database management system and method for query process for the same
CN107851108B (zh) 使用位向量搜索索引的匹配文档
CN108475266B (zh) 用来移除匹配文档的匹配修复
CN108153897A (zh) 一种plsql程序代码生成方法及系统
Li et al. ASLM: Adaptive single layer model for learned index
CN111611221A (zh) 混合计算系统、数据处理方法及装置
CN110322931A (zh) 一种碱基识别方法、装置、设备及存储介质
CN110245797B (zh) 基于Omid事务分析系统的联机分析处理的方法
US20170269974A1 (en) Speculative execution of a stream of changes
US11934927B2 (en) Handling system-characteristics drift in machine learning applications
CN111126619A (zh) 一种机器学习方法与装置
Liu et al. A parameter-level parallel optimization algorithm for large-scale spatio-temporal data mining
CN114846458A (zh) 分布式可串行化并发控制方案
US20240232722A1 (en) Handling system-characteristics drift in machine learning applications
Wang et al. Fast quorum-based log replication and replay for fast databases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant