CN110245797A - 基于Omid事务分析系统的联机分析处理的方法 - Google Patents

基于Omid事务分析系统的联机分析处理的方法 Download PDF

Info

Publication number
CN110245797A
CN110245797A CN201910527264.5A CN201910527264A CN110245797A CN 110245797 A CN110245797 A CN 110245797A CN 201910527264 A CN201910527264 A CN 201910527264A CN 110245797 A CN110245797 A CN 110245797A
Authority
CN
China
Prior art keywords
affairs
omid
analysis system
short
transaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910527264.5A
Other languages
English (en)
Other versions
CN110245797B (zh
Inventor
赵志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Huituo Investment Center (limited Partnership)
Original Assignee
Harbin Huituo Investment Center (limited Partnership)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Huituo Investment Center (limited Partnership) filed Critical Harbin Huituo Investment Center (limited Partnership)
Priority to CN201910527264.5A priority Critical patent/CN110245797B/zh
Publication of CN110245797A publication Critical patent/CN110245797A/zh
Application granted granted Critical
Publication of CN110245797B publication Critical patent/CN110245797B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Technology Law (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

基于Omid事务分析系统的联机分析处理的方法,属于数据处理领域。现有的Yahoo的事务处理系统Omid只适用于联机事务处理(OLTP),并不适用于联机分析处理(OLAP);且没有给出在联机事务处理过程中如何区分长事务和短事务的问题。一种基于Omid事务分析系统的联机分析处理的方法,将联机分析处理加入Omid事务分析系统;根据分析型事务为只读事务的原理,将其与长事务和短事务进行区分,从而先判断出分析型事务;在判断出分析型事务后剩余的事务中,使用机器学习回归算法区分长事务和短事务,对长事务和短事务并行处理。本发明有效地增加了联机分析处理的可扩展性、降低了时延。

Description

基于Omid事务分析系统的联机分析处理的方法
技术领域
本发明涉及一种基于Omid事务分析系统的联机分析处理的方法。
背景技术
目前,为了保证公共云平台所提供的大数据服务的可靠性,必须对应用于大数据平台的事务处理技术的各项性能进行改进。因此,文章“Taking Omid to the Clouds:Fast,Scalable Transactions for Real-Time Cloud Analytics”提出了对Yahoo的事务处理系统Omid的改进方案,提升了它的可扩展性和实时性,使其能够应用于大型多用户云平台。主要改进方案如下:
1;设计了Omid LL协议,将提交事务处理从原来的集中式改为分布式。Omid LL将提交事务处理中核心的更新提交表(Commit Table)的工作分布在了各个客户机处,而没有继续采用让事务处理器(Transaction Manager)进行集中更新的机制。
2;设计了对于单键值事务的特殊处理协议Omid FP,此协议放弃了向事务处理器发送开始事务与提交事务的机制,设计了新的算法与接口来加速短事务的处理。
但上述的技术方法存在如下缺陷:
文章“Taking Omid to the Clouds:Fast,Scalable Transactions for Real-Time Cloud Analytics”提出的技术只适用于联机事务处理(OLTP),并不适用于联机分析处理(OLAP)。但是,目前环境对于联机分析处理的可扩展性要求也在逐渐提高。另外,文章也没有提出对于联机事务处理中,长事务和短事务的区分。
发明内容
本发明的目的是为了解决现有的Yahoo的事务处理系统Omid只适用于联机事务处理(OLTP),并不适用于联机分析处理(OLAP);且没有给出在联机事务处理过程中如何区分长事务和短事务的问题,而提出一种基于Omid事务分析系统的联机分析处理的方法。
一种基于Omid事务分析系统的联机分析处理的方法,
步骤一、将联机分析处理加入Omid事务分析系统;
步骤二、根据分析型事务为只读事务的原理,将其与长事务和短事务进行区分,从而先判断出分析型事务;
步骤三、在判断出分析型事务后剩余的事务中,使用机器学习回归算法区分长事务和短事务;
步骤四、在将事务分成长事务和短事务之后,长事务和短事务开始并行处理,由Omid FP直接开始对短事务进行处理;由Omid LL处理长事务。
本发明的有益效果为:
本发明的关键点有二,其一在于将联机分析处理加入Omid事务分析系统,并针对分析型事务进行了加锁处理。其二在于有效地应用了机器学习回归算法。实现了联机事务处理中,长事务与短事务的区分。
与现有的方法相比,本发明提出的系统有效地增加了联机分析处理的可扩展性、降低了时延。同时也对Omid事务分析系统进行了完善补充,使其能够更加适应大型多用户云平台。另外,本发明提出的事务类型的区分算法也大大提高了原系统的效率。
附图说明
图1为本发明的方法流程图;
具体实施方式
具体实施方式一:
本实施方式的基于Omid事务分析系统的联机分析处理的方法,所述方法包括以下步骤:
步骤一、将联机分析处理加入Omid事务分析系统;
步骤二、根据分析型事务为只读事务的原理,将其与长事务和短事务进行区分,从而先判断出分析型事务;
步骤三、在判断出分析型事务后剩余的事务中,使用机器学习回归算法区分长事务和短事务;
步骤四、在将事务分成长事务和短事务之后,长事务和短事务开始并行处理,由Omid FP直接开始对短事务进行处理;由Omid LL处理长事务,这是提升效率的关键所在。
Omid LL全称Omid Low Latency,OMID低延迟;针对低延迟设计的Omid,显著缩短处理短事务的延迟,提升吞吐率;
Omid FP全称Omid Fast Path,OMID快速路径;采用新的Fast Path算法设计的Omid,最大限度的提升了单键事务(single-key transaction)的性能,基于本地HBase实现,处理事务的速度是Omid LL的两倍;
长事务、短事务分别是指长时间事务和短时间事务,简称长事务和短事务,是根据机器学习模型预测出的事务的操作数而决定的,随着模型的更新,阈值会变化,短事务长事务的分界线也会变化,并不是固定的。
具体实施方式二:
与具体实施方式一不同的是,本实施方式的基于Omid事务分析系统的联机分析处理的方法,
所述的步骤一中,将联机分析处理加入Omid事务分析系统的过程为:
依然采用分布式架构方式处理提交的事务,将更新提交表的工作分布在各个客户机处,以减轻事务处理器的负担,有效提升了系统的可扩展性;
之后,基于分析型事务的特点,当分析型事务执行读操作时,Omid事务分析系统自动为其增加一把共享锁锁定被查询的数据;由于共享锁具有良好的并发性能;
当多个事务试图读取相同的被查询的数据时,为每个事务都增加一把共享锁,以同时读取锁定的数据;
其中,Omid事务分析系统表示数据源事务管理优化系统,Omid是Optimisticallytransactional Management in Datasources的缩写,表示数据源事务管理优化;
具体实施方式三:
与具体实施方式二不同的是,本实施方式的基于Omid事务分析系统的联机分析处理的方法,所述的步骤三中,在判断出分析型事务后剩余的事务中,使用机器学习回归算法区分长事务和短事务的过程为,
步骤三一、以事务向事务管理器发送的开始操作及提交操作之间的操作数为目标值,以此为输出训练学习模型;
步骤三二、在开始处理事务之前,使用训练后的学习模型预处理,预测其操作数,并判断其是长事务还是短事务。
具体实施方式四:
与具体实施方式三不同的是,本实施方式的基于Omid事务分析系统的联机分析处理的方法,所述的步骤三一中,以事务向事务管理器发送的开始操作及提交操作之间的操作数为目标值,训练学习模型的过程为:
所述的训练学习模型过程为,采用多项式拟合方法进行训练:
将每次记录的事务向事务管理器发送的开始操作和提交操作之间的操作数作为自变量x,事务执行完毕,再记录下该事务实际设计的所有操作数,作为因变量y,这样得到训练数据(x,y)作为一组,记录下200-1000组这样的训练数据,就可以去进行多项式拟合,采用如下预测函数:
其中,M为多项式最高次数,xj表示x的j次幂,ωj是xj的系数;j为5-10的自然数;w是一个列向量,具体形式如下w=[ω1,ω2,...ωM]T,表示模型的参数,ωM表示w中的元素;
损失函数如下:
其中,N代表所有的训练样本数,n代表第n个训练样本;xn表示第n个训练样本的x值;tn代表每个输入的x对应训练数据中的y值,采用平方误差和作为损失函数,采用梯度下降或牛顿法等方法找到使损失函数最小化的一组解作为预测模型的参数,从而训练出预测模型。
具体实施方式五:
与具体实施方式四不同的是,本实施方式的基于Omid事务分析系统的联机分析处理的方法,所述的联机分析处理的方法还包括对模型进行更新的步骤,具体为:
设定更新周期,在步骤三一后,定期对预测模型进行更新,例如每执行10000次事务之后或者每个月更新一次,这样保证预测模型的时效性。
具体实施方式六:
与具体实施方式五不同的是,本实施方式的基于Omid事务分析系统的联机分析处理的方法,所述的步骤三二中,在开始处理事务之前,使用训练后的学习模型预处理,预测其操作数,并判断其是长事务还是短事务的过程具体为:
首先,针对训练数据中每个输入的x值(x值表示事务向事务管理器发送的开始操作和提交操作之间的操作数),记录所有的预测值,取所有预测值的中间值作为划分长事务和短事务的阈值;
然后,将预测的操作数和阈值比较大小,判断长事务还是短事务,预测的操作数比阈值大,即为长事务,反之为短事务。
实施例1:
在银行系统中,假设有两个事务;
T1:读取A账户中剩余的钱数,T2:B向C转账50元;
这时候,T1和T2同时到达银行系统中,首先先判断是否有只读事务,因为这可以将事务分为OLAP和OLTP,发现T1为只读事务,即OLAP事务,这时,可以直接根据系统中处理OLAP操作的协议,为要访问的数据加上一个共享锁,然后读取A账户中剩余的钱数,完成操作;在T1进行处理的同时,这时候将T2代入预测模型中(假设这时已经建立好预测模型,也得到了阈值)来判断其属于长事务还是短事务,通过和阈值的比较,来确定其种类,若为长事务,由Omid LL执行,若为短事务,由Omid FP执行;执行流程如下:
1.系统先为T2分配一个id,假设为130;
2.读取DT表(存有所有账户余额的一个表)中B和C中账户余额;
3.更新DT表中B和C账户余额,暂时先不写到存储,这里相当于标记,防止出错回滚;
4.冲突检查,没有冲突之后,为commit事务分配id,这里假设为137;
5.提交执行事务T2后的修改;
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (6)

1.一种基于Omid事务分析系统的联机分析处理的方法,其特征在于:所述方法包括以下步骤:
步骤一、将联机分析处理加入Omid事务分析系统;
步骤二、根据分析型事务为只读事务的原理,将其与长事务和短事务进行区分,从而先判断出分析型事务;
步骤三、在判断出分析型事务后剩余的事务中,使用机器学习回归算法区分长事务和短事务;
步骤四、在将事务分成长事务和短事务之后,长事务和短事务开始并行处理,由OmidFP直接开始对短事务进行处理;由Omid LL处理长事务。
2.根据权利要求1所述的基于Omid事务分析系统的联机分析处理的方法,其特征在于:所述的步骤一中,将联机分析处理加入Omid事务分析系统的过程为:
采用分布式架构方式处理提交的事务,将更新提交表的工作分布在各个客户机处;
之后,当分析型事务执行读操作时,Omid事务分析系统自动为其增加一把共享锁锁定被查询的数据;
当多个事务试图读取相同的被查询的数据时,为每个事务都增加一把共享锁,以同时读取锁定的数据;
其中,Omid事务分析系统表示数据源事务管理优化系统,Omid是Optimisticallytransactional Management in Datasources的缩写,表示数据源事务管理优化。
3.根据权利要求2所述的基于Omid事务分析系统的联机分析处理的方法,其特征在于:所述的步骤三中,在判断出分析型事务后剩余的事务中,使用机器学习回归算法区分长事务和短事务的过程为,
步骤三一、以事务向事务管理器发送的开始操作及提交操作之间的操作数为目标值,训练学习模型
步骤三二、使用训练后的学习模型预处理,预测其操作数,并判断其是长事务还是短事务。
4.根据权利要求3所述的基于Omid事务分析系统的联机分析处理的方法,其特征在于:所述的步骤三一中,以事务向事务管理器发送的开始操作及提交操作之间的操作数为目标值,训练学习模型的过程为:
所述的训练学习模型过程为,采用多项式拟合方法进行训练:
将每次记录的事务向事务管理器发送的开始操作和提交操作之间的操作数作为自变量x,事务执行完毕,再记录下该事务实际设计的所有操作数,作为因变量y,得到训练数据(x,y)作为一组,记录下200-1000组的训练数据,进行多项式拟合,采用如下预测函数:
其中,M为多项式最高次数,xj表示x的j次幂,ωj是xj的系数;j为5-10的自然数;w是一个列向量,具体形式如下w=[ω1,ω2,...ωM]T,表示模型的参数,ωM表示w中的元素;
损失函数如下:
其中,N代表所有的训练样本数,n代表第n个训练样本;xn表示第n个训练样本的x值;tn代表每个输入的x对应训练数据中的y值,采用平方误差和作为损失函数,采用梯度下降或牛顿法方法找到使损失函数最小化的一组解作为预测模型的参数,从而训练出预测模型。
5.根据权利要求4所述的基于Omid事务分析系统的联机分析处理的方法,其特征在于:所述的联机分析处理的方法还包括对模型进行更新的步骤,具体为:
设定更新周期,在步骤三一后,定期对预测模型进行更新。
6.根据权利要求5所述的基于Omid事务分析系统的联机分析处理的方法,其特征在于:所述的步骤三二中,使用训练后的学习模型预处理,预测其操作数,并判断其是长事务还是短事务的过程具体为:
首先,针对训练数据中每个输入的x值,记录所有的预测值,取所有预测值的中间值作为划分长事务和短事务的阈值;
然后,将预测的操作数和阈值比较大小,判断长事务还是短事务,预测的操作数比阈值大,即为长事务,反之为短事务。
CN201910527264.5A 2019-06-18 2019-06-18 基于Omid事务分析系统的联机分析处理的方法 Active CN110245797B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910527264.5A CN110245797B (zh) 2019-06-18 2019-06-18 基于Omid事务分析系统的联机分析处理的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910527264.5A CN110245797B (zh) 2019-06-18 2019-06-18 基于Omid事务分析系统的联机分析处理的方法

Publications (2)

Publication Number Publication Date
CN110245797A true CN110245797A (zh) 2019-09-17
CN110245797B CN110245797B (zh) 2021-07-20

Family

ID=67887935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910527264.5A Active CN110245797B (zh) 2019-06-18 2019-06-18 基于Omid事务分析系统的联机分析处理的方法

Country Status (1)

Country Link
CN (1) CN110245797B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591910A (zh) * 2010-12-08 2012-07-18 达索系统艾诺维亚公司 用于组合oltp数据库和olap数据库环境的计算机方法和系统
CN102713850A (zh) * 2010-01-11 2012-10-03 国际商业机器公司 动态分布式工作负载中的事务更新
US8442987B2 (en) * 2010-08-19 2013-05-14 Yahoo! Inc. Method and system for providing contents based on past queries
US20170124500A1 (en) * 2014-05-26 2017-05-04 Ping Shen Network interactive platform and method for using the same
CN103955502B (zh) * 2014-04-24 2017-07-28 科技谷(厦门)信息技术有限公司 一种可视化olap的应用实现方法及系统
US20170220617A1 (en) * 2016-02-01 2017-08-03 Yahoo! Inc. Scalable conflict detection in transaction management
US20180121487A1 (en) * 2016-10-31 2018-05-03 Yahoo Holdings, Inc. Method and system for committing transactions in a semi-distributed manner
CN108664378A (zh) * 2018-05-10 2018-10-16 西安电子科技大学 一种微服务最短执行时间的优化方法
KR101926270B1 (ko) * 2017-09-04 2019-02-26 중소기업은행 외환특이거래 분석장치 및 방법
US20190095850A1 (en) * 2015-03-23 2019-03-28 Oracle International Corporation Data trend analysis
US20190121892A1 (en) * 2017-10-25 2019-04-25 International Business Machines Corporation Transparent analytical query accelerator over encrypted data
US20190166018A1 (en) * 2017-11-28 2019-05-30 International Business Machines Corporation Resource provisioning platform with optimized bundling

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102713850A (zh) * 2010-01-11 2012-10-03 国际商业机器公司 动态分布式工作负载中的事务更新
US8442987B2 (en) * 2010-08-19 2013-05-14 Yahoo! Inc. Method and system for providing contents based on past queries
CN102591910A (zh) * 2010-12-08 2012-07-18 达索系统艾诺维亚公司 用于组合oltp数据库和olap数据库环境的计算机方法和系统
CN103955502B (zh) * 2014-04-24 2017-07-28 科技谷(厦门)信息技术有限公司 一种可视化olap的应用实现方法及系统
US20170124500A1 (en) * 2014-05-26 2017-05-04 Ping Shen Network interactive platform and method for using the same
US20190095850A1 (en) * 2015-03-23 2019-03-28 Oracle International Corporation Data trend analysis
US20170220617A1 (en) * 2016-02-01 2017-08-03 Yahoo! Inc. Scalable conflict detection in transaction management
US20180121487A1 (en) * 2016-10-31 2018-05-03 Yahoo Holdings, Inc. Method and system for committing transactions in a semi-distributed manner
KR101926270B1 (ko) * 2017-09-04 2019-02-26 중소기업은행 외환특이거래 분석장치 및 방법
US20190121892A1 (en) * 2017-10-25 2019-04-25 International Business Machines Corporation Transparent analytical query accelerator over encrypted data
US20190166018A1 (en) * 2017-11-28 2019-05-30 International Business Machines Corporation Resource provisioning platform with optimized bundling
CN108664378A (zh) * 2018-05-10 2018-10-16 西安电子科技大学 一种微服务最短执行时间的优化方法

Also Published As

Publication number Publication date
CN110245797B (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
US10180946B2 (en) Consistent execution of partial queries in hybrid DBMS
EP4254183A1 (en) Transaction processing method and apparatus, computer device, and storage medium
EP3120261B1 (en) Dependency-aware transaction batching for data replication
KR101616967B1 (ko) 다수의 처리 명령어를 실시간으로 취급하고 처리하는 것과 관련된 개선
US10929398B2 (en) Distributed system with accelerator and catalog
CN109643310B (zh) 用于数据库中数据重分布的系统和方法
US20100257138A1 (en) Data change ordering in multi-log based replication
Li et al. ASLM: Adaptive single layer model for learned index
US20090222822A1 (en) Nested Queued Transaction Manager
CN101587491A (zh) 使用运行时可重配置硬件的混合数据库系统
CN106021445A (zh) 一种加载缓存数据的方法及装置
CN106354729A (zh) 一种图数据处理方法、装置和系统
CN101794247A (zh) 嵌套事务模型下实时数据库故障恢复方法
Zhang et al. CDBTune+: An efficient deep reinforcement learning-based automatic cloud database tuning system
Nin et al. Speed up gradual rule mining from stream data! A B-Tree and OWA-based approach
Mukherjee Synthesis of non-replicated dynamic fragment allocation algorithm in distributed database systems
CN115904638B (zh) 一种数据库事务智能管理方法及系统
TW201721471A (zh) 資料庫操作方法及裝置
CN106201918B (zh) 一种基于大数据量和大规模缓存快速释放的方法和系统
CN117215785A (zh) 一种行情回放系统微服务资源调度方法
Duan et al. Incremental materialized view maintenance on distributed log-structured merge-tree
US20200409939A1 (en) Systems and methods for scalable database technology
US20080189305A1 (en) Predictive Database Pool Preparation
CN110245797A (zh) 基于Omid事务分析系统的联机分析处理的方法
Kannan et al. {SEeSAW}-Similarity Exploiting Storage for Accelerating Analytics Workflows

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant