CN110297801A - 基于容错fpga的事务系统的正好一次事务语义 - Google Patents

基于容错fpga的事务系统的正好一次事务语义 Download PDF

Info

Publication number
CN110297801A
CN110297801A CN201910175657.4A CN201910175657A CN110297801A CN 110297801 A CN110297801 A CN 110297801A CN 201910175657 A CN201910175657 A CN 201910175657A CN 110297801 A CN110297801 A CN 110297801A
Authority
CN
China
Prior art keywords
fpga
host
request
client
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910175657.4A
Other languages
English (en)
Other versions
CN110297801B (zh
Inventor
马诺·卡鲁纳卡兰·南比亚尔
斯瓦普尼·罗迪
苏尼尔·阿南特·普拉尼克
马赫什·达莫达尔·巴威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tata Consultancy Services Ltd
Original Assignee
Tata Consultancy Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tata Consultancy Services Ltd filed Critical Tata Consultancy Services Ltd
Publication of CN110297801A publication Critical patent/CN110297801A/zh
Application granted granted Critical
Publication of CN110297801B publication Critical patent/CN110297801B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/40Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1471Saving, restoring, recovering or retrying involving logging of persistent data for recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1474Saving, restoring, recovering or retrying in transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2041Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with more than one idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
    • G06F15/17356Indirect interconnection networks
    • G06F15/17362Indirect interconnection networks hierarchical topologies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/78Architectures of general purpose stored program computers comprising a single central processing unit
    • G06F15/7867Architectures of general purpose stored program computers comprising a single central processing unit with reconfigurable architecture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/24569Query processing with adaptation to specific hardware, e.g. adapted for using GPUs or SSDs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • H04L43/106Active monitoring, e.g. heartbeat, ping or trace-route using time related information in packets, e.g. by adding timestamps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • H04L67/63Routing a service request depending on the request content or context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/16Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]
    • H04L69/161Implementation details of TCP/IP or UDP/IP stack architecture; Specification of modified or new header fields
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/16Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]
    • H04L69/163In-band adaptation of TCP data exchange; In-band control procedures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/28Timers or timing mechanisms used in protocols
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/805Real-time

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Hardware Redundancy (AREA)

Abstract

本公开一般涉及用于为基于容错FPGA的事务系统提供正好一次事务语义的方法和系统。该系统包括服务器中的中间件组件以及客户端。服务器包括主机和FPGA。该FPGA控制事务执行(应用程序处理逻辑也驻留在FPGA中),并借由改进式TCP实施方式提供高性能的容错。主机缓冲并持久化事务记录以进行故障恢复并实现正好一次事务语义。监视和故障检测组件跨FPGA和主机分布。通过取决于组件故障而在高性能模式和保守模式之间切换,可以在不牺牲性能的情况下实现正好一次事务语义。用于FPGA和主机之间连接的PCIE交换机确保即使主机发生故障FPGA也是可用的。当FPGA提供更高的处理元件和存储器时,可以消除主机。

Description

基于容错FPGA的事务系统的正好一次事务语义
优先权要求
本申请要求于2018年3月22日提交的印度专利申请号201821010571的优先权。上述申请的全部内容通过引用结合在此。
技术领域
本文的公开内容一般涉及事务系统,并且更具体地,涉及为基于容错现场可编程门阵列(Field Programmable Gate Array(FPGA))的事务系统提供正好一次(exactly-once)事务语义的框架。
背景技术
期望事务应用程序响应来自客户端或消息源的传入消息。数据库服务器系统是事务处理的主要示例。当数据库服务器在其内部实现方式(基于行到基于列、自定义数据结构、键值存储器)以及甚至技术(基于磁盘的存储到存储器中的存储(in-memory storage))上不断发展时,因此其应用程序也在不断发展。从纯客户端-服务器系统到多层到实时流分析-所有这些应用程序都需要与数据库服务器进行事务处理。无论应用程序如何发展,对事务数据库的需求仍然存在。并且当应用程序发展时,可能会有许多类别的应用程序,其需要处理速度、高吞吐量、高可用性而同时处理事务正好一次,无论有多少组件发生故障,无论故障事件的序列如何。当应用程序本身变得复杂时,拥有提供这些特征的框架简化了这些应用程序的设计,从而使能高性能。
发明内容
本公开的实施例呈现技术改进,作为本发明人在传统系统中认识到的一个或多个上述技术问题的解决方案。
在一个方面,提供了一种基于现场可编程门阵列(FPGA)的事务系统,包括:多个FPGA,所述多个FPGA包括主动FPGA和剩余的被动FPGA,所述多个FPGA中的每个被配置为与多个主机和至少一个客户端协作,所述多个FPGA经由传输控制协议(TCP)连接而与所述至少一个客户端连接,所述多个FPGA中的每个都具有易失性存储器。在实施例中,所述多个FPGA包括:改进式传输控制协议单元(MTCPU),其被配置为:由所述主动FPGA的MTCPU接收来自所述至少一个客户端的对应于传入请求的TCP数据包;将所述TCP数据包附加至少一个时间戳作为非确定性参数;由所述主动FPGA的MTCPU将所述TCP数据包发布到所述被动FPGA,并且然后在由所述被动FPGA接收到所述TCP数据包的内部确认之后,将所述传入请求的TCP确认发送到所述至少一个客户端;由所述主动FPGA的MTCPU控制所述传入请求以及在可配置延迟之后由应用程序的并发执行引起的重新提交的请求的调度,其中所述重新提交的请求优先于所述传入请求;并且通过准备对应于(a)响应或(b)所述响应和一个或多个通知的TCP数据包、并在接收到来自所述多个主机的内部确认时将准备好的TCP数据包发送到所述至少一个客户端来优化性能;消息解析单元(MPU),其被配置为:由所述主动FPGA的MPU检测基于相关联的请求标识符接收到的重复请求;由所述主动FPGA的MPU基于相关联的客户端标识符和相关联的请求标识符检索所述重新提交的请求;并且将从所述MTCPU按序列接收到的TCP数据包解析并转换成消息格式,其与所述至少一个客户端与所述多个FPGA和所述多个主机之间的网络相关联;并且按所述序列以所述消息格式发送所述传入请求;事务处理单元(TPU),其被配置为:托管处理来自所述MPU的传入请求或重新提交的请求的应用程序,并生成(a)所述响应或(b)所述响应以及与其相关联的一个或多个通知;并且接收由来自所述应用程序的并发执行引起的重新提交的请求,并经由所述MPU发送给所述MTCPU进行调度;事务提交单元(TCU),其被配置为:接收(a)所述响应或(b)所述响应以及来自所述TPU的一个或多个通知;生成消息,所述消息包括所述传入请求或所述重新提交的请求以及(a)所述响应或(b)所述响应和所述一个或多个通知;并且将所述消息发送到:(i)所述多个主机,以执行去往所述至少一个客户端的提交和发送中的至少一个,以及(ii)MTCPU以用于优化性能,其中准备好的TCP数据包构成(a)消息中的至少一部分或(b)所述消息中的一个或多个;以及监视单元(MU),其被配置为:如果检测到主动FPGA故障,则监视并发起FPGA故障转移过程。
在另一方面,提供了一种方法,包括:建立从至少一个客户端到每个现场可编程门阵列(FPGA)的传输控制协议(TCP)连接,并且基于FPGA的事务系统中的每个主机包括在其间发送消息的多个FPGA、多个主机和至少一个客户端,其中所述消息中的每个包括来自所述至少一个客户端的传入请求和到所述至少一个客户端的(a)响应或(b)所述响应和与其相关联的一个或多个通知,并且其中传入请求和对应的响应表示事务;取决于所述多个主机中的可用主机的数量,基于预先配置的模式切换阈值而在操作的高性能模式和操作的保守模式之间切换所述基于FPGA的事务系统的操作模式,其中(i)所述高性能模式涉及将所述消息保存在与所述多个主机中的每个相关联的易失性存储器中,并且然后将其内部确认发送到所述多个FPGA中的对应FPGA,并且(ii)所述保守模式涉及将所述消息保存到与所述多个主机中的每个相关联的非易失性存储器中,并且然后将其内部确认发送到所述多个FPGA中的对应FPGA;当操作的高性能模式切换到操作的保守模式时,在切换时段期间将来自所述易失性存储器的消息保存到所述多个主机的非易失性存储器中;延迟将(a)所述响应或(b)所述响应和所述一个或多个通知发送到所述至少一个客户端,直到在所述切换时段期间将所述相关联的消息保存到所述非易失性存储器中结束为止或基于预先配置的时间延迟,以确保作为在传入请求之前到达所述多个主机的相关联的重复请求的替代而由所述多个主机接收传入请求;并且延迟向所述多个FPGA发送所述内部确认,直到将所述相关联的消息保存到所述非易失性存储器中结束为止。
在实施例中,所述多个主机的易失性和非易失性存储器被实施为键值存储器,并且其中所述传入请求中的每个都利用客户端标识符和请求标识符进行标记,其中所述请求标识符是由与所述至少一个客户端相关联的中间件针对每个后续传入请求递增的唯一序列号;对应的响应利用所述请求标识符进行标记;传入请求和对应的响应表示事务;并且对应于所述传入请求的通知利用通知标识符进行标记,所述通知标识符包括:相关联的客户端标识符、相关联的请求标识符和所述事务内的通知的序列号。
在实施例中,上面描述的方法还包括由所述多个FPGA通过以下方式检测来自所述至少一个客户端的所有重复请求:针对列表中不可用的每个传入请求并且如果相关联的序列号大于从对应的客户端接收到的最大序列号,则在所述多个FPGA中的每个中附加请求标识符的列表,其与在所述多个FPGA中正处理的传入请求相关联;如果在所述列表中相关联的请求标识符可用,则丢弃传入请求;如果相关联的请求标识符在所述列表中不可用,则从应用程序获得(a)响应或(b)与所述传入请求相对应的一个或多个通知这二者中的至少一个;向所述多个主机发送(a)所述响应或(b)所述响应和所述一个或多个通知并且从所述列表中删除相关联的请求标识符;取决于所述操作模式,将包括所述传入请求或所述重新提交的请求的消息与(a)所述响应或(b)所述响应以及与其相关联的一个或多个通知存储在所述多个主机中的适当键值存储器中;如果相关联的请求标识符在请求标识符的列表中不可用并且如果所述相关联的序列号小于从所述对应客户端接收到的最大序列号,则将(a)所述响应或(b)所述响应和来自所述多个主机的易失性或非易失性存储器的一个或多个通知发送到所述至少一个客户端,从而由所述多个FPGA检测作为重复请求的传入请求;并且在接收到关于由对应客户端消耗(a)所述响应或(b)所述响应和所述一个或多个通知的确认时,从所述易失性存储器中删除所述消息并保存在所述多个主机的非易失性存储器中。
在实施例中,上面描述的方法还包括:如果在预先配置的时间内没有从所述至少一个客户端接收到关于接收所述通知的确认,则通过重新发送所述一个或多个通知来以正好一次语义将所述一个或多个通知发送到所述至少一个客户端。
在实施例中,上面描述的方法还包括通过以下方式提供每个事务的确定性执行:将对应于所述传入请求的TCP数据包附加至少时间戳作为非确定性参数,其中所述TCP数据包构成(a)消息的至少一部分或(b)所述消息中的一个或多个;由所述主动FPGA将所述TCP数据包发布到所述被动FPGA,并且然后在由所述被动FPGA接收到所述TCP数据包的内部确认之后,将所述传入请求的TCP确认发送到所述至少一个客户端;在所述主动FPGA中接收由应用程序并发执行引起的重新提交的请求;由所述主动FPGA仅将具有用于重新提交的请求的非确定性参数的请求标识符发布到所述被动FPGA;将所述重新提交的请求作为键值存储器而存储在所述多个FPGA的易失性存储器中;并且通过在所述主动FPGA中将所述重新提交的请求优先于所述传入请求,而在可配置延迟之后调度所述传入请求以及所述重新提交的请求的执行。
在实施例中,上面描述的方法还包括通过以下方式为所述事务系统提供高可用性:将所述多个FPGA中的一个识别为主动FPGA并将所述多个主机中的一个识别为主动主机,将来自所述多个FPGA的剩余FPGA和来自所述多个主机的剩余主机分别识别为被动FPGA和被动主机以实现冗余;在所述多个主机和所述多个FPGA之间没有内部消息的情况下,在预设心跳阈值内由所述主动FPGA向所述被动FPGA和所述多个主机中的每个发起心跳请求,其另外用作分别指示在所述多个FPGA和所述多个主机中的活动FPGA和活动主机的心跳;由用作监视服务器的主动主机向所述被动主机和所述被动FPGA发起心跳请求;由所述监视服务器基于所述心跳请求的状态而向所述多个FPGA中的每个和所述多个主机中的每个广播所述活动FPGA和所述活动主机的列表;如果(i)所述至少一个客户端经由所述被动FPGA触发FPGA故障转移过程或(ii)所述监视服务器在所述预设心跳阈值内未从所述主动FPGA接收到指示其故障的心跳请求,则向下一个被动FPGA发起FPGA故障转移过程,其中来自所述多个FPGA的预定序列并且在所述活动FPGA和活动主机的列表中被广播的下一个被动FPGA被识别为下一个主动FPGA;如果所述被动主机中的任何一个在所述预设心跳阈值内未从所述主动主机接收到指示其故障的心跳请求,则由被动主机从所述多个主机的预定序列发起主机故障转移过程,并且将来自所述多个主机的预定序列并在活动FPGA和活动主机的列表中被广播的被动主机进一步识别为所述下一个主动主机;在分别完成所述FPGA故障转移过程或所述主机故障转移过程之后,由所述主动FPGA或所述监视服务器向所述活动FPGA、所述活动主机和所述至少一个客户端中的每个广播所述下一个主动FPGA或所述下一个主动主机;并且终止等待使用心跳确定出的、关于基于由所述监视服务器发送的活动主机和活动FPGA的列表的另外主机和FPGA的故障的内部确认或消息。
在实施例中,上面描述的方法还包括通过执行以下中的一个或多个来在主动FPGA故障转移期间维持跨所述多个FPGA和所述多个主机的一致状态(320):解析由所述多个FPGA从所述主动FPGA接收到的所有TCP数据包;由所述多个FPGA丢弃不完整的消息;比较由所述被动FPGA和所述主动FPGA接收到的TCP数据包的数量,并将丢失的TCP数据包从所述主动FPGA拷贝到所述被动FPGA;并且处理所述多个FPGA中的重新提交的消息。
在又一方面,提供了一种基于现场可编程门阵列(FPGA)的事务系统(没有主机),包括:多个FPGA,包括主动FPGA和剩余的被动FPGA,所述多个FPGA中的每个被配置为经由传输控制协议(TCP)连接而与至少一个客户端协作,所述多个FPGA中的每个都具有一个或多个存储设备,其是易失性存储器和非易失性存储器的组合并且被实施为键值存储器,所述多个FPGA包括:改进式传输控制协议单元(MTCPU),其被配置为:由所述主动FPGA的MTCPU接收来自所述至少一个客户端的对应于传入请求的TCP数据包;将所述TCP数据包附加至少一个时间戳作为非确定性参数;由所述主动FPGA的MTCPU将所述TCP数据包发布到所述被动FPGA,并且然后将所述传入请求的TCP确认发送到所述至少一个客户端;由所述主动FPGA的MTCPU控制所述传入请求以及在可配置延迟之后由应用程序的并发执行引起的重新提交的请求的调度,其中所述重新提交的请求优先于所述传入请求;并且将(a)响应或(b)所述响应和一个或多个通知发送到所述至少一个客户端;消息解析单元(MPU),其被配置为:由所述主动FPGA的MPU检测基于相关联的请求标识符接收到的重复请求;由所述主动FPGA的MPU基于相关联的客户端标识符和相关联的请求标识符检索所述重新提交的请求;并且将从所述MTCPU按序列接收到的TCP数据包解析并转换成消息格式,其与所述至少一个客户端和所述多个FPGA之间的网络相关联;事务处理单元(TPU),其被配置为:托管处理来自所述MPU的传入请求或重新提交的请求的应用程序,并生成(a)所述响应或(b)所述响应和所述一个或多个通知;并且接收由来自所述应用程序的并发执行引起的重新提交的请求,并经由所述MPU发送到所述MTCPU进行调度;事务提交单元(TCU),其被配置为:接收(a)所述响应或(b)所述响应以及从所述TPU发送的一个或多个通知;生成消息,其包括所述传入请求或所述重新提交的请求和(a)所述响应或(b)所述响应和所述一个或多个通知,其中所述TCP数据包构成(a)消息的至少一部分或(b)所述消息中的一个或多个;并且将所述消息发送到所述MTCPU;以及监视单元(MU),其被配置为:如果检测到主动FPGA故障,则监视并发起FPGA故障转移过程。
在实施例中,在基于FPGA的事务系统(没有主机)中,所述多个FPGA还被配置为:取决于所述多个FPGA中的可用FPGA的数量,基于预先配置的模式切换阈值而在操作的高性能模式和操作的保守模式之间切换所述基于FPGA的事务系统的操作模式,其中(i)所述高性能模式涉及将所述消息保存在与所述多个FPGA中的每个相关联的易失性存储器中,并且然后将TCP确认发送到所述至少一个客户端,并且(ii)所述保守模式涉及将所述消息保存在与所述多个FPGA中的每个相关联的非易失性存储器中,并且然后向所述至少一个客户端发送TCP确认;当操作的高性能模式切换到操作的保守模式时,在切换时段期间将来自所述易失性存储器的消息保存到所述非易失性存储器中;并且延迟将(a)所述响应或(b)所述响应和所述一个或多个通知发送到所述至少一个客户端,直到所述消息保存到所述非易失性存储器中结束为止。
在实施例中,在基于FPGA的事务系统(没有主机)中,所述传入请求中的每个都利用客户端标识符和请求标识符进行标记,其中所述请求标识符是由与所述至少一个客户端相关联的中间件针对每个后续传入请求递增的唯一序列号;其中对应的响应利用所述请求标识符进行标记;其中传入请求和对应的响应表示事务;并且其中对应于所述传入请求的通知利用通知标识符进行标记,所述通知标识符包括:相关联的客户端标识符、相关联的请求标识符和所述事务内的通知的序列号。
在实施例中,在基于FPGA的事务系统(没有主机)中,被包括在用作监视服务器的主动FPGA中的MU被配置为,在所述被动FPGA和所述主动FPGA之间没有内部消息的情况下在预设心跳阈值内向所述被动FPGA发起心跳请求,其另外用作指示在所述多个FPGA内的活动FPGA的心跳,被包括在所述主动FPGA中的MU还被配置为将所述活动FPGA的列表广播到所述多个FPGA中的每个;并且其中包括在每个被动FPGA中的MU被配置为,如果(i)所述被动FPGA中的任何一个在预设心跳阈值内没有从主动FPGA接收到指示其发生故障的心跳请求,其中来自所述多个FPGA的预定序列并且在活动FPGA的列表中被广播的被动FPGA被识别为所述下一个主动FPGA,或(ii)所述至少一个客户端经由所述被动FPGA触发所述FPGA故障转移过程,则发起FPGA故障转移过程以将其自身转换为主动FPGA。
在实施例中,在基于FPGA的事务系统(没有主机)中,所述多个FPGA通过以下连接:(i)外围组件互连高速(PCIE)网络、(ii)PCIE和Infiniband网络的组合、或(iii)通过融合以太网的远程直接存储器存取(RDMA)(RoCE)网络和Infiniband网络的组合。
应当理解,前面的一般性描述和下面的详细描述都只是示例性和说明性的,并不是对要求保护的本发明的限制。
附图说明
包含在本公开中并构成本公开的一部分的附图示出了示例性实施例,并且与说明书一起用于解释所公开的原理:
图1示出了如本领域中已知的服务器和多个客户端之间的消息交换。
图2A示出了根据本公开的实施例的基于现场可编程门阵列(FPGA)的事务系统的示例性框图。
图2B示出了根据本公开另一实施例的基于FPGA的事务系统的示例性框图。
图3A至图3C是示出了根据本公开的实施例的用于在基于容错FPGA的事务系统中实现正好一次事务语义的计算机实现的方法的示例性流程图300。
图4A是根据本公开的实施例的图2A的基于FPGA的事务系统的示例性架构。
图4B是根据本公开的实施例的图2A的基于FPGA的事务系统的另一示例性架构。
图5是根据本公开的实施例的构成图2A的基于FPGA的事务系统的FPGA的示例性微架构。
图6A是根据本公开的实施例的在主动FPGA内处理不需要重新提交的事务的消息的示例性序列。
图6B是根据本公开的实施例的在主动FPGA内处理在重新提交之后已经重新提交、重新调度和提交的事务的消息的示例性序列。
图7A是根据本公开的实施例的当处理不需要重新提交的事务的消息时用于消息接收中的容错的示例性操作序列。
图7B是根据本公开的实施例的当处理已经重新提交的事务的消息时用于消息接收中的容错的示例性操作序列。
图8是根据本公开的实施例的当两个主机是活动的时用于事务的提交(commit)中的容错的示例性操作序列。
图9是根据本公开的实施例的当一个主机是活动的时用于事务的提交中的容错的示例性操作序列。
图10是根据本公开的实施例的用于客户端通知中的容错的示例性操作序列。
图11是根据本公开的实施例的示例性可用性监视的图示。
图12是根据本公开的实施例的当主动FPGA发生故障时采取的示例性恢复动作的图示。
图13是根据本公开的实施例的当主机发生故障时的示例性事件序列的图示。
图14是根据本公开的实施例的当客户端发生故障并且在恢复时发送已经提交的旧请求消息的示例性事件序列的图示。
图15是根据本公开的实施例的当处理客户端的确认时的示例性事件序列的图示。
图16是根据本公开的实施例的实现向客户端正好一次递送通知的操作序列的图示。
图17是根据本公开的实施例的FPGA卡的示例性框图。
图18是根据本公开的实施例的拥有全部都具有冗余网络连接性的2个主机、3个FPGA卡和2个客户端的基于FPGA的事务系统的示例性表示。
图19A是根据本公开的实施例的没有主机的基于FPGA的事务系统的示例性高级表示。
图19B是没有图19A的主机的基于FPGA的事务系统的示例性详细表示。
具体实施方式
参考附图描述示例性实施例。在附图中,附图标号的最左边的一个或多个数字标识首次出现附图标号的图。在任何方便的地方,贯穿附图使用相同的附图标号来指代相同或相似的部分。虽然本文描述了所公开原理的示例和特征,但是在不脱离所公开实施例的精神和范围的情况下,修改、改编和其他实现是可能的。旨在将以下详细描述视为仅是示例性的,其真实范围和精神由所附权利要求指示。
利用目前的技术水平,难以实现每秒超过数百万条消息的低延迟和高吞吐量,同时在可能的故障面前实现高可用性。容错检查和控制可能会限制性能。在现场可编程门阵列(FPGA)上构建应用程序所需的工程工作量很高,并且让应用程序开发人员关注非功能性问题会增加时间,从而导致市场延迟并使应用程序变得复杂。典型的事务型应用程序是传统的订单处理在线系统、用于证券交易所交易的订单匹配应用程序、实时流分析、物联网(Internet of things(IoT))应用程序和实时推荐系统等。
本公开提供了一种使用FPGA的事务框架,其可以在不妨碍性能的情况下递送容错和正好一次的消息传递语义。该框架可以显着减少应用程序开发时间,这是因为开发人员不再需要构建容错和正好一次特征。他们只需要确保应用程序处理是高性能的。
客户端通常通过传输控制协议/互联网协议(TCP/IP)连接。这样的系统可以具有多个层-例如,前端层(其复用客户端连接)和后端层(其托管数据库)。后端系统是服务器系统。服务器系统包括有状态的任何服务器,并且要求永远维护服务器的状态-这意味着应该应用程序永远不会丢失它去继续任何有意义的操作。客户端本身可能不是真实用户,而是高频交易引擎,其下订单以利用亚秒级交易机会。这意味着系统务必响应具有低延迟的事务。与此同时,可能有数千个这样的共同定位的客户端连接在一起下订单-换句话说,他们务必支持高吞吐量的事务。更重要的是,不应该有停机,理想情况是在市场营业时间期间-这些场景下的停机可能会转化为数百万美元的业务损失。
服务器典型地具有标准传输控制协议(TCP)接口。因此,对于每秒百万次订单的大量突发传入请求,服务器以微秒级快速响应是必要的。鉴于组件的故障,服务器需要具有容错能力或提供高可用性。服务器需要确保没有消息丢失,并且应该没有重复消息,尤其是在故障期间组件故障转移的情况下。服务器上需要的其他特征包括容忍客户端故障、支持正好一次事务语义以及支持客户端先前事务和消息的查询。
图1示出了如本领域中已知的服务器和多个客户端之间的消息交换。期望事务系统生成对每个传入请求的响应。响应不需要是同步的,即客户端可以一个接一个地向服务器发送请求,并且服务器可以以任何顺序将响应发送回客户端,其标识了正在响应的请求。传入请求和对应的响应消息的配对可以被称为事务(transaction)。传入请求也可以称为传入消息或命令。作为传入请求的处理的一部分,除了生成响应之外,可以存在为一个或多个客户端生成通知或警报的额外处理。对于事务处理,通知可能看起来是异步的,但它始终是事务处理的结果。来自客户端的传入请求不一定总是导致通知-它可能是由于来自另一个客户端的请求而发生的,在这种情况下,第一个客户端的请求似乎被延迟了(与请求消息无关)。通知可以发送到任何客户端,并由应用程序语义确定。尽管图1可能暗示客户端在发送下一个请求之前等待对请求的响应,但是客户端实际上可以在不等待响应的情况下发送下一个请求。从这个意义上讲,请求和响应也是异步的。
事务和通知是通过其序列号来识别的。客户端中间件可以生成作为唯一序列号的请求标识符(RN),如图1中示出的。对于传入请求的请求标识符(RN)针对由客户端发送的每个后续请求递增。客户端标识符(CLID)和请求标识符(RN)唯一地标识事务系统中的请求。服务器使用与传入请求相同的序列号(RN)来标记响应-从而使得可以标识事务。发送给客户端的每个通知都标记有唯一标识符。此通知标识符对于客户端是唯一的。对于另一个客户端的相同通知可以具有唯一标识该客户端的序列号的不同标识符。通知标识符包括客户端标识符(CLID)、与触发请求相关联的请求标识符(RN)以及事务内的通知序列(N、N+1、N+2等)。客户端应用程序处理了响应后,它会确认返回到服务器的响应或通知。系统此刻可以释放它分配给事务的资源(存储器/存储)。
现在参考附图,并且更具体地参考图2至图19B,其中类似的附图标记贯穿附图表示对应的特征,示出了优选实施例,并且在以下示例性系统和方法的上下文中描述了这些实施例。
图2A和图2B分别示出了根据本公开的两个实施例的基于现场可编程门阵列(FPGA)的事务系统100和200的示例性框图,其中图2A的基于FPGA的事务系统100的服务器系统包括与多个主机协作的多个FPGA,而图2B的基于FPGA的事务系统200的服务器系统仅包括多个FPGA。图3A至图3C是示出了根据本公开的实施例的用于在基于容错FPGA的事务系统中实现正好一次事务语义的方法300的示例性流程图。现在将参考图2A的系统100详细解释方法300的步骤。稍后将在说明书中解释图2B的实施例。尽管可以按连续的顺序描述处理步骤、方法步骤或技术等,但是这样的处理、方法和技术可以被配置为以交替顺序工作。可以经由一个或多个适当的接口(例如,应用程序接口(API))执行至少一些步骤。
根据本公开的实施例,图2A的基于FPGA的事务系统100表示基于FPGA的事务系统,其包括多个FPGA和多个主机,作为在服务器处实现的中间件框架的一部分。在本公开的上下文中,可以注意到,对FPGA的任何引用指示出可以托管一个或多个FPGA的FPGA卡以及在下文中称为FPGA的易失性存储器的内部存储器。每个主机都具有实现为键值存储器的非易失性存储器和易失性存储器。存储器可以包括本领域中已知的任何计算机可读介质,包括例如易失性存储器(诸如静态随机存取存储器(SRAM)和动态随机存取存储器(DRAM))和/或非易失性存储器(诸如只读存储器(ROM)、可擦除可编程ROM、闪速存储器、硬盘、光盘和磁带)。在本公开的上下文中,表达“存储器”和“存储”可以互换使用,并且对“数据库”的任何引用意味着被托管在“存储器”上的数据库。客户端上可能还存在中间件框架,以支持正好一次语义和容错要求。在本公开的上下文中,表达“正好一次语义(exactly-oncesemantics)”和“正好一次事务语义(exactly-once transaction semantics)”可以互换使用。在任何实施例中,客户端处的中间件框架可以用软件实现。在实施例中,客户端和服务器之间的连接可以以标准TCP/IP网络堆栈的形式建立。在实施例中,可以在最低层处使用以太网。
根据本公开,在不牺牲软件平台中存在的进程间通信的延迟的情况下,FPGA作为平台的使用使能提取事务处理功能中可用的最大并行性。服务器和客户端之间预先建立的TCP连接消除了否则可能存在于事务系统中的握手延迟。以DDR、SRAM、FPGA内部存储器或其组合形式托管在易失性存储器中的数据库也使能低延迟。
根据本公开,为了提供高可用性,确保组件的冗余。因此,从多个FPGA,FPGA中的一个被识别为主动(active)FPGA,并且剩余的FPGA被识别为被动(passive)FPGA。多个FPGA被配置为与多个主机和至少一个客户端协作。客户端与多个FPGA中的每个建立传输控制协议(TCP)连接。在多个主机当中,主机中的一个被识别为主动主机,而剩余的是被动主机。客户端还与多个主机中的每个建立TCP连接。冗余确保了当组件之一发生故障时,事务处理自动地故障转移到多个组件的预定序列中的备用被动组件。多个组件的预定序列旨在确保被动组件之间不存在作为主动组件接管的冲突。根据本公开,为了实现冗余,应用状态需要确认确定性执行。除了稍后在描述中讨论的其他状况(诸如有序锁定)外,有必要使进入每个被复制组件的事务序列相同,以实现跨组件的一致性,从而实现真正的冗余和高可用性。
根据本公开,无论任何发生故障,为了支持正好一次事务语义,下文中描述的方法和系统确保了客户端应用程序获得以其为目的的消息正好一次,其中消息中没有间隙,并且无关乎任何故障而没有消息递送两次。因此,本公开的基于FPGA的事务系统提供具有以下属性的正好一次语义:
-传入请求的最多一次执行
-没有虚构响应
-没有重复的响应
-响应的至少一次接收正好一次属性跨越其中组件可用或不可用的状态,即如果组件发生故障并且然后恢复,则它应该返回到在故障之前的确切的事务状态。
为了实现正好一次语义,在发送或传输之前将消息记录到非易失性存储器中。这适用于客户端和服务器两者。如果接收方未接收到消息,则可以查询日志以检索并重新发送该消息。只有在确定出客户端应用程序已经消耗了事务的响应(客户端通过发送确认来通知)时,才会删除日志中的条目。在这种正好一次实现中的事务放缓,延迟和吞吐量受到服务器端非易失性存储的I/O速度的限制。非易失性存储技术的速度比易失性存储技术低10倍。此外,所有组合的客户端的事务率务必由服务器支持,并且这可能导致严重的处理瓶颈并且可能影响事务系统的性能。因此,根据本公开,代替写入非易失性存储器,可以对易失性存储器进行写入,并且进一步可以通过在由其相应处理组件控制的两个或更多个单独的易失性存储器中并行写入相同的消息来复制该写入。然后,所有组件的易失性存储器可以具有相同的内容并且可以并行更新。如果由于某种原因,其中一个处理组件发生故障,则其他组件中的数据可以是可用的并用于继续处理,并且从而证明所述的复制用作对非易失性存储器的写入。因此,冗余提供的高可用性可以抵御故障。再者,在使用非易失性存储器时,这种对故障的弹性可用于在故障情况下掩盖以进行恢复。此外,并行性的使用可以在提供容错的同时获得性能。
事务系统的故障还包括客户端故障。为了确保正好一次语义,即使客户端应用程序发生故障,也应该在消息方面看到相同的状态。递送给客户端应用程序的消息不应丢失或重复。此外,客户端需要能够查询和检索先前的事务和通知,这意味着事务系统需要能够存储和检索它们。在本公开的实施例中,客户端中间件支持恢复以使事务为正好一次。一旦应用程序将消息传递给客户端中间件,消息就会在生成序列号之后并在通过TCP向FPGA发送确认(TCP确认-在数据包级别的客户端和服务器之间)之前记录到存储器。在崩溃后重新启动时,客户端中间件会检查其请求和响应日志。所有没有匹配响应的请求都会再次发送到FPGA。然后,FPGA检查主机并发送已在主机处提交的响应并处理其他传入请求,并将响应发送回客户端。在实施例中,为了高性能,客户端可以使用非易失性存储器来写入,如具有10微秒的存储器访问延迟的Intel'sTM3D交叉点。根据本公开的实施例,为了支持先前事务的查询,需要最终将所有消息写入非易失性存储器。
根据本公开,当以高性能模式持久化以调谐事务消息和通知消息被持久化到非易失性存储器下的间隔时,可以引入可配置延迟。理想情况下,该值应设置为尽可能低,以帮助将从高性能模式到保守模式的切换时间减少到尽可能低。这样,系统更接近于递送正好一次语义。这个值可能增加的唯一原因是能够批量处理大量事务和通知,以实现持久化到非易失性存储器的高效率。当传入的事务速率非常高时,这可能是必要的-在这种情况下,此设置的低值可能意味着将写入队列延迟添加到事务延迟。
图4A是根据本公开的实施例的图2A的基于FPGA的事务系统100的示例性架构。如图4A中看到的,提供了组件的冗余以实现高可用性。尽管示例性架构表示一定数量的组件(冗余因子M),但是可以理解,该数量仅是代表性的并且可以根据需要进行配置。为了便于描述,下文中的描述可以限于附图中示出的组件的数量。由于基于FPGA的系统需要基于主机CPU的系统对电源、配置和其他管理任务的支持,因此需要主机。对于某些网络,诸如外围组件互连高速(PCIE),这可能是强制性要求。可替选地,如果FPGA可以提供这些任务,则可以从架构中删除主机以提供没有主机的架构,如图2B中示意性示出的。根据本公开的方法300的步骤302,从至少一个客户端到每个FPGA建立TCP连接,并且每个主机(图4A的示例性图示中的一个客户端)和消息在其间传输,其中每个消息包括来自客户端的传入请求或重新提交的请求,以及(a)响应或(b)该响应和到客户端的一个或多个通知,并且其中传入请求和对应的响应表示如图1示出的事务。在本公开的上下文中,重新提交的请求是由服务器应用程序的并发执行引起的,如稍后在说明书中所解释的。
在图4A中,主机P和主机S分别指的是主要主机或主动主机以及次要主机或被动主机。FPGA PP指的是主动FPGA并且与主机P相关联。FPGA PS指的是第一被动FPGA并且与主机P相关联。FPGA SP是第二被动FPGA并且与主机S相关联。在实施例中,FPGA PS位于FPGA PP附近,并且因此其与FPGA PP的通信与FPGA SP相比具有更低的延迟。基于FPGA的事务系统100通过TCP/IP/以太网网络堆栈与如示出的客户端进行对接,该TCP/IP/以太网网络堆栈终止于对应的FPGA卡上。每个FPGA卡和主机可以配置有IP地址和端口。当基于FPGA的事务系统100启动时,客户端配置有所有3个FPGA卡和所有2个主机的IP地址和端口。客户端开始与FPGA PP通信。如果通信发生故障,则客户端开始与FPGA PS通信,并且在FPGA PS发生故障时,客户端会尝试与FPGA SP进行通信。客户端通过TCP连接与FPGA和主机通信,并且因此,从客户端到服务器至少存在5个TCP连接。根据实施例,客户端和FPGA之间的连接用于在正常稳态场景下发送请求、接收响应和通知。客户端和主机之间的连接用于在临时客户端恢复场景期间重新发送先前的响应和通知(如果有的话)。客户端还可以使用与主机的连接来查询持久化到主机的非易失性存储器中的先前事务消息和通知。取决于主机和客户端之间的查询流量,基于FPGA的事务系统100还可以被配置为在稳态场景期间从主机向客户端发送消息。
根据本公开,客户端与主动和被动FPGA以及主动和被动主机同时维持连接。虽然只有使用主动FPGA和主动主机才能进行主动通信,但其他连接仍保持待机状态,以便在任何主机或FPGA发生故障的情况下进行快速故障转移。
除了上面提到的5个TCP连接之外,还可以存在用户数据报协议(UDP)多播组,其用于以低延迟从服务器端向客户端发送控制消息。由于UDP是有损协议,因此控制消息也作为备份跨TCP连接发送。
取决于图4A的示例性体系结构中的5个服务器端组件的可用性,基于FPGA的事务系统100可具有2种功能状态,即可用和不可用。在可用状态中,当所有5个服务器端组件都启动并且所有5个端点的任何配对之间存在网络连接时,还可以存在完全可用状态。在本公开的上下文中,表达“端点(endpoint)”指的是服务器端的FPGA或主机,并且还可以互换地称为“组件(component)”。在可用状态中,当一个主机和一个FPGA在它们之间具有完全网络连接的情况下启动并且运行时,还可以存在部分可用状态。在不可用状态中,可以存在比部分可用状态更多的组件故障,或部分可用状态中端点之间的连接丢失。
根据本公开的方法300的步骤304,取决于多个主机中的可用主机的数量,基于FPGA的事务系统100可以基于预先配置的模式切换阈值(K)在高性能操作模式和保守操作模式之间切换操作模式,其中1<K<=M。在实施例中,高性能模式涉及将消息保存在与多个主机中的每个相关联的易失性存储器中,并且之后将其(在端点之间的)内部确认发送到多个FPGA中的对应FPGA。在实施例中,保守模式涉及将消息保存在与多个主机中的每个主机相关联的非易失性存储器中,并且然后将其内部确认发送到多个FPGA中的对应FPGA。
根据本公开的方法300的步骤306,当高性能操作模式切换到保守操作模式时,可以将消息从易失性存储器保存到多个主机的非易失性存储器中。如前面提到的,多个主机与客户端通信。根据本公开的方法300的步骤308,将(a)响应或者(b)响应和一个或多个通知发送到至少一个客户端可以被延迟直到在切换时段期间将相关联的消息保存到非易失性存储器中结束为止,或者基于预先配置的时间延迟,以确保多个主机接收传入请求而不是在传入请求之前到达多个主机的相关联的重复请求。稍后在描述中解释重复请求的检测,并且可以注意到,重复请求和传入请求从两个不同的FPGA单元发送到主机,并且像这样,重复请求可能在传入请求之前到达主机。步骤308引入的延迟解释了这个方面。根据本公开的方法300的步骤310,可以延迟向多个FPGA发送内部确认,直到将相关联的消息保存到非易失性存储器中结束为止。
图4B是根据本公开的实施例的图2A的基于FPGA的事务系统的另一示例性架构。多个FPGA和多个主机可以通过以下中的任一个连接(i)外围组件互连高速(PCIE)网络、(ii)PCIE和Infiniband网络的组合、或(iii)通过融合以太网的远程直接存储器存取(RDMA)(RoCE)网络和Infiniband网络的组合
图4B中的逻辑交换机(交换机P)可以在不失一般性的情况下利用交换机和链路的集合代替,以实现物理表现。在实施例中,一些物理实现包括:主机P、FPGA PP和FPGA PS可以经由PCIE连接。同样,主机S和FPGA SP也可以经由PCIE连接。FPGA卡可以插入相应主机的PCIE插槽中,或它们可以插入具有PCIE插槽的PCIE扩展盒中。在另一个实施例中,FPGA PP和FPGA PS可以经由Infiniband或以太网或PCIE连接到主机S和FPGA SP。在实施例中,如果主机基于IBMTM Power8,则通过PCIE的OpenCaPI可以是用于代替通过PCIE的DMA的更高层协议,这是默认的。
图5是根据本公开的实施例的构成图2A的基于FPGA的事务系统的FPGA的示例性微架构。多个FPGA中的每个包括如下文描述的各种功能单元。
改进式传输控制协议单元(MTCPU)被配置为,由活动FPGA的MTCPU,从与基于FPGA的事务系统100的服务器端处的多个FPGA和多个主机进行通信的客户端,而接收对应于传入请求的TCP数据包。TCP数据包被附加至少一个时间戳作为非确定性参数。主动FPGA的MTCPU将TCP数据包发布到被动FPGA,并且在由被动FPGA接收到TCP数据包的内部确认后,将传入请求的内部确认发送到客户端。主动FPGA的MTCPU还被配置为调度传入请求以及由FPGA托管的应用程序的并发执行引起的重新提交的请求,其中重新提交的请求优先于传入的请求。后面在说明书中引用的图6B中还示出了对请求的重新提交。MTCPU还被配置为:通过准备对应于(a)响应或(b)响应和一个或多个通知的TCP数据包,使得一旦从多个主机接收到内部确认,就可以将准备好的TCP数据包发送到客户端,来优化性能。根据本公开的方法300,不等待内部确认并且然后准备TCP数据包有助于实现低延迟。
消息解析单元(MPU)被配置为检测基于相关联的请求标识符接收到的重复请求。从MTCPU按序列接收到的TCP数据包被解析并转换成与客户端与多个FPGA和多个主机之间的网络(线路)相关联的消息格式。然后,以消息格式的传入请求在接收到的序列中被传递给事务处理单元(TPU)。
TPU被配置为托管以下应用程序,其处理来自MPU的传入请求和重新提交的请求以及(a)响应或(b)响应和用于发送到事务提交单元(TCU)的一个或多个通知。TPU还接收由应用程序的并发执行引起的重新提交的请求,并将重新提交的请求发送到MTCPU以经由MPU进行调度。
事务提交单元(TCU)被配置为接收(a)响应或(b)响应以及从TPU发送的一个或多个通知。包括传入请求或重新提交的请求和相关联的(a)响应或(b)响应和一个或多个通知的消息由TCU生成并发送到多个主机以用于提交或发送到客户端。根据本公开,可以由FPGA的MCTPU执行向客户端发送消息;然而,如果主机和客户端之间的查询流量减少,则基于FPGA的事务系统100可以被配置为避免跳到FPGA并且一旦提交消息就直接将该消息从主机发送到客户端。
监视单元(MU)被配置为在检测到主动FPGA故障的情况下监视并发起FPGA故障转移过程。
图6A是根据本公开的实施例的在主动FPGA内处理不需要重新提交的事务的消息的示例性序列。箭头指示出处理消息的序列对于不需要重新提交的事务从TCP/IP/以太网接口的入口经历到出口。在被动FPGA中,MPU从主动FPGA的MTCPU接收数据包(TCP流)。被动FPGA中的其余处理与主动FPGA中的处理相同。
图6B是根据本公开的实施例的对于在主动FPGA内已经重新提交的、重新调度的并在重新提交之后提交的事务的处理消息的示例性序列。箭头示出了由驻留在TPU中并由MTCPU重新调度的应用程序重新提交传入请求并在重新提交后提交的序列。当服务器端应用程序实现在处理开始时其不知道的新的锁定依赖关系时,会发生由该服务器端应用程序重新提交请求。在被动FPGA中,从主动FPGA的MTCPU接收重新提交的请求以及传入请求。
现在描述涉及根据本公开的方法和系统实现的容错,以确保即使一些组件发生故障也能继续操作。根据本公开的实施例,容错操作涉及通过在其间提供的低延迟高带宽互连链路上将消息的多个拷贝制作到多个端点而实现的消息接收中的容错。考虑到FPGA中的并行性,本公开使能在没有大量时间开销的情况下制作多个消息拷贝。当传入请求在以太网(或TCP/IUP)链接上递送时,请求将并行拷贝到多个位置。在图4A的示例性架构中,除了其自己的DDR或内部存储器之外,FPGA PP中的MTCPU还将输入请求拷贝到FPGA PS和FPGASP(通过PCIE或RDMA)。使用RDMA或PCIE DMA的经修改的无锁发布-订阅机制可用于将对应于来自以太网的传入请求的TCP数据包拷贝到用于每个客户端连接的FPGA PP存储器、FPGAPS和FPGA SP存储器中。在从拷贝上的传输层到存储器的内部确认之后,将对传入请求的TCP确认发送到客户端。多个拷贝确保了如果FPGA PP出现故障,则在FPGA PS或FPGA SP中该消息是可用的。因此,消息一旦向发送方(客户端)确认就永远不会丢失。一旦FPGA PP仅具有一个PCIE连接,则为了通过PCIE技术并行拷贝到FPGA PS和FPGA SP,可以在本公开的系统100的实施例中使用如PCIE交换机中可用的DMA多播的技术。根据另一个实施例,可以使用从FPGA PP到FPGA PS和FPGA SP的多个Infiniband(物理)连接来使能多个拷贝。FPGA的TCP堆栈(MTCPU)与所有FPGA上的消息解析单元(MPU)进行对接,其中主要输出包括:可用数据的信号发送;客户端连接标识符——其标识已发送数据的连接(客户端IP地址和端口);和传入的消息内容。TCP堆栈(MTCPU)严格按照以太网链路上记录的顺序输出应用程序有效负载的字节流。在FPGA上实现的服务器端的中间件负责解析TCP数据包并将它们转换成用于事务处理的消息,如上面参考图5描述的。一旦检测到完整的消息,它们就会被传递(排队)到TPU。正是来自多个客户端的主动FPGA中出现的这种TCP数据包的顺序决定了数据库在任何时刻的状态。
图7A是根据本公开的实施例的当处理不需要重新提交的事务的消息时消息接收中的容错的示例性操作序列。图中指示的序列号示出了如下面提到的步骤。
1.MTCPU接收与传入请求相对应的TCP数据包。
2.通过PCIE DMA/Infiniband RDMA将消息拷贝到FPGA PS和FPGA SP中的MPU并且通过无锁Pub Sub机制拷贝到FPGA PP中的MPU(以及图7B中解释的非确定性函数的结果)。
3.来自订阅者的确认(无锁pub sub排队机制的一部分)。
4.TCP确认发送回客户端。
5.TCP数据包解析并发送到TPU(可以与步骤3和4并行)。
图7B是根据本公开的实施例的当处理已经重新提交的事务的消息时用于消息接收中的容错的示例性操作序列。图中指示的序列号示出了如下面提到的步骤。
1.应用程序(TPU)重新提交请求并将消息排队到MPU。
2.MPU存储重新提交的请求并将其与客户端标识符相关联,并且请求标识符是序列号,并且在主动FPGA中将其传递给MTCPU。
3.配置的延迟后,MTCPU将重新提交的请求发送给所有FPGA中的MPU。TCP数据包附加有至少一个时间戳作为非确定性参数。
4.基于客户端标识符和请求标识符,MPU检索重新提交的请求,并将其与由主动FPGA转发的非确定性参数一起传递给TPU。如果语义需要它们,则期望应用程序使用这些参数。
5.成功处理重新提交的请求后,响应和通知(如果有的话)将传递给TCU。
根据本公开的实施例,容错操作涉及来自客户端的重复请求检测。如前面解释的,客户端中间件使用客户端标识符和请求标识符来标记每个传入请求。
同样,对应的响应利用请求标识符标记,并且对应的通知利用唯一的通知标识符标记。根据本公开,在客户端中间件生成请求标识符之后,它在发送到服务器(FPGA)之前持久化消息。在接收到来自服务器的响应后,客户端中间件持久化该响应。一旦客户端处的应用程序确认该消息,则删除请求和响应。每个传入请求都存储在键值存储器中,其中客户端标识符和请求标识符作为键。请求标识符是唯一的序列号,还记录从客户端接收到的最大序列号。如果客户端在发生故障后恢复,则可能会丢失接收到的一些响应但在其被持久化之前发生故障。结果,客户端可以重新发送它没有得到响应的所有请求。根据本公开的方法300的步骤312,多个FPGA检测来自客户端的重复请求(如果有的话)。当服务器端接收到请求时,如果请求标识符在列表中不可用并且如果相关联的序列号比从客户端接收到的最大序列号更大,则它首先检查请求标识符并将其附加到在多个FPGA中的每个FPGA中维持的请求标识符的列表中。如果请求标识符在列表中可用,则其处理正在进行中并且请求被丢弃或被忽略。然后,从应用程序获得相关联的响应和可选的一个或多个通知,并将其发送到多个主机,随后从列表中删除相关联的请求标识符。然后,取决于操作模式,将请求连同相关联的响应以及可选地由多个主机接收到的一个或多个通知存储在适当的键值存储器中。如果相关联的请求标识符在请求标识符列表中不可用,并且如果它小于从客户端接收到的最大序列号,则该请求被检测为重复请求,而不是处理它,多个FPGA将其传递给多个主机以用于从多个主机中的键值存储器检索响应和可选的一个或多个通知,然后将其发送到客户端或特别是客户端中间件。在接收到关于消耗响应的确认以及可选地客户端的一个或多个通知之后,在保存在非易失性存储器中之后,从多个主机的易失性存储器中删除该消息。
根据本公开的方法300的方法的步骤314,如果在来自客户端的预先配置的时间内没有接收到关于一个或多个通知的接收的确认,则一个或多个通知作为正好一次语义的一部分被重新发送到客户端。
如果务必利用冗余实现可用性,则应用程序状态(或其数据库状态)需要确认确定性执行。为确保每个数据库的状态一致,进入每个复制的组件的事务序列必须是相同的。只有这样,当活动组件发生故障时,才有可能故障转移到冗余组件。否则,复制是没有用的。根据本公开的实施例,容错操作涉及通过实现有序锁定跨所有具有相同数据库状态的FPGA的复制消息处理。如果对应于传入请求的TCP数据包以相同的序列发送以用于跨所有FPGA进行处理,并且如果FPGA依次按序列处理消息,则所有FPGA与来自客户端的传入请求的接收处于相同的状态。在实践中,有序锁定典型地通过要求事务在进入系统时立即请求所有相关联的锁定来实现(通过服务器应用程序),尽管存在可能是不可能的事务类。如果应用程序需要同时处理消息,则可能发生这种情况。如果应用程序语义允许每个事务以先入先出(FIFO)顺序访问其锁定依赖关系,则可以跨每个FPGA实现复制状态。换句话说,稍后发布的事务不应该比先前发布的事务更早地访问锁定的数据。锁定授权的这种排序需要由应用程序确保。根据本公开,一旦应用程序获知依赖关系作为事务的部分执行的一部分,就需要重新提交事务。因此,每次应用程序获知新的锁定依赖关系时,方法300提供API以重新提交事务。每次务必重新提交事务时,它都会回滚并安排在下一批要执行的事务中(通过MTCPU),其优先于传入的请求。在客户端应用程序获知其所有锁定依赖关系后,事务最终会提交或中止。
根据本公开的方法300的步骤316,容错操作涉及实现高可用性。首先,通过将多个FPGA中的一个识别为主动FPGA并将多个主机中的一个识别为主动主机来实现冗余,来自多个FPGA和多个主机中的剩余的FPGA和剩余主机分别被识别为被动FPGA和被动主机。任何故障都必须尽快向管理员发出警报。监视策略由两部分组成-主动FPGA监视和专用于监视的主机。主动FPGA监视还具有2倍监视策略。如果在预设心跳阈值内存在任何事务,则无需心跳来确认组件是否活动。根据本公开,心跳因此是自适应的。只有在预设心跳阈值内多个主机和多个FPGA之间没有内部消息的情况下,主动FPGA中包含的MU才会向被动FPGA和多个主机中的每个发起心跳请求,其另外充当指示分别在多个FPGA和多个主机内的活动FPGA和活动主机的心跳。然后,主动主机(监视服务器)更新活动FPGA和活动主机的列表,并将其发布到每个组件中。在实施例中,监视服务器是在主动主机中运行的软件组件。如果在预设心跳阈值内没有事务,则主动FPGA将心跳请求发送到所有端点,等待针对所有端点的某个预设心跳阈值去恢复,并向监视服务器报告心跳响应的状态。监视服务器配置为在开始时与主机P一起运行。它主动检查自身与主机S和被动FPGA的连接性。
根据本公开的实施例,如果客户端经由被动FPGA触发FPGA故障转移或者如果监视服务器在预设心跳阈值内未从主动FPGA接收到指示其故障的心跳请求,则向下一个被动FPGA发起FPGA故障转移过程。来自多个FPGA的预定序列并且在活动FPGA和活动主机列表中发布的下一个被动FPGA被识别为下一个主动FPGA。
根据本公开的实施例,当确定下一个被动FPGA将切换到主动FPGA时,可以引入可配置的时间延迟。由于FPGA故障转移由所有被动FPGA执行,因此被动FPGA可能也会在FPGA故障转移期间崩溃。因此,主动主机可以被配置为等待特定时间以确认来自FPGA的故障转移结束。在此时间内,如果默认下基于预定序列要选出作为主动FPGA的下一个被动FPGA不发送确认,则主动主机以预定序列指定下一个被动FPGA,以接管作为主动FPGA。
根据本公开的实施例,在任何被动主机在预设心跳阈值内未从主动主机接收到指示其故障的心跳请求的情况下,主机故障转移过程由来自多个主机的预定序列的被动主机发起。来自多个主机的预定序列的并且在发起主机故障转移过程的活动FPGA和活动主机的列表中发布的被动主机被进一步标识为下一个主动主机。
根据本公开的实施例,主动FPGA的MU被配置为基于由监视服务器发送的、在FPGA故障转移过程和主机故障转移过程期间使用心跳确定出的活动主机和活动FPGA的列表来立即终止等待内部确认或与附加主机和FPGA的故障有关的消息。
根据本公开的方法300的步骤318,实现每个事务的确定性执行以确保以相同的序列将请求发送到所有复制的组件。首先,由MTCPU附加对应于传入请求的TCP数据包,至少具有时间戳作为非确定性参数,其中准备好的TCP数据包构成消息的至少一部分。可替选地,一个或多个消息可以被包括在准备好的TCP数据包中。然后,主动FPGA的MTCPU将TCP数据包发布到被动FPGA,并且然后一旦接收到由被动FPGA接收到TCP数据包的内部确认,就将传入请求的TCP确认发送到客户端。如果接收到由应用程序的周期性执行引起的重新提交的请求,则只有请求标识符以及重新提交的请求的非确定性参数由主动FPGA发布到被动FPGA。重新提交的请求作为键值存储器而存储在FPGA的易失性存储器中,并被调度为与传入请求一起执行但具有更高的优先级。根据本公开,可以提供可配置的执行延迟以考虑可能仍然保持重新提交的请求所期望的锁定的事务。
根据本公开的实施例,容错操作涉及在系统100的两种操作模式中实现事务的提交。在高性能模式中,消息被发送到主机P和主机S。这使用发布-订阅FIFO机制来实现。这里的订阅者是主机P和主机S,并且发布者是主动FPGA(FPGA PP)。订阅者在其收到消息后立即确认消息,并将该消息保存在非易失性存储器中。当收到消息的所有内部确认时,发布者FPGA PP将响应和可选的一个或多个通知发送给客户端。主机接收来自所有FPGA的消息,并保存从任何FPGA接收到的消息,并丢弃从其他FPGA接收到的相同消息,但内部确认被发送到所有FPGA。这些消息稍后(异步地)持久化到非易失性存储。这也以低延迟实现了高吞吐量。在保守操作模式中,唯一的活动主机可以是主机P或主机S。一旦从多个FPGA接收到响应和可选的一个或多个通知,则其在被确认回之前首先被写入非易失性存储。这样可以确保如果最后剩余的主机发生故障,则事务和消息永远不会丢失。在这种情况下,主机也首先持久化从任何FPGA接收到的消息,并丢弃从其他FPGA接收到的相同消息,但内部确认被发送到所有FPGA。类似的提交策略也用于通知。
图8是根据本公开的实施例的当两个主机是活动的时用于事务的提交中的容错的示例性操作序列。在主动FPGA的TPU中处理请求后,消息被转发到主机P和主机S。该消息被传递到MTCPU以准备TCP数据包,并且一旦接收到来自主机的确认就发送,从而优化性能。这适用于响应消息和通知。在示出的示例性场景中,除响应之外还生成一个通知。图中指示出的序列号示出了如下面提到的步骤。
1.TPU执行事务。
2.TPU向生成响应的TCU发出信号,并通过无锁定队列将其发布到主机P和主机S。
3.TCU处理作为此事务的一部分而产生的其他异步操作(通知)。
4.TPU向生成通知消息的TCU发出信号,并通过无锁定队列将其发布到主机P和主机S以进行通知。
5.TCU将消息发送到MTCPU。
6.主机P和S在接收到消息后立即对消息进行确认(与5并行)。它将接收到的消息保存在易失性存储器中。
7.在接收到确认后,MTCPU将TCP数据包转发到客户端中间件。
图9是根据本公开的实施例的当一个主机是活动的时用于事务的提交中的容错的示例性操作序列。在主动FPGA的TPU中处理请求后,消息将转发到主机P或主机S(无论哪个是活动的)。一旦接收到消息后,主机会在确认接收到发送给FPGA的消息之前将消息写入非易失性存储器。同时,消息被传递到MTCPU以准备TCP数据包,并且一旦接收到来自主机的确认就发送,从而优化性能。这适用于响应消息和通知。在示出的示例性场景中,除响应之外还生成一个通知。图中指示出的序列号示出了如下面提到的步骤。
1.TPU执行事务。
2.TPU向生成响应的TCU发出信号,并通过无锁定队列将其发布到主机P或主机S。
3.TCU处理作为此事务的一部分而产生的其他异步操作(通知)。
4.TPU向生成通知消息的TCU发出信号,并通过无锁定队列将其发布到主机P和主机S以进行通知。
5.TCU将消息发送到MTCPU。
6.主机P或主机S将消息写入非易失性存储。
7.主机P或主机S确认该消息。
8.在接收到确认后,MTCPU将TCP数据包转发到客户端中间件。
步骤5与步骤6和步骤7并行执行。
根据本公开的实施例,容错操作涉及实现客户端通知中的容错。多个FPGA通过TCP连接将响应和可选的一个或多个通知发送到客户端。客户端中间件接收来自所有FPGA的响应和可选的一个或多个通知,但是仅第一个接收到的响应和可选的一个或多个通知被传递到客户端应用程序而其他由于重复而被丢弃。这使能低延迟响应递送以及容错。在实施例中,用于发送响应和可选的一个或多个通知的TCP连接可以与由客户端使用以通过TCP/IP/以太网接口向FPGA发送请求的TCP连接相同。
图10是根据本公开的实施例的用于客户端通知中的容错的示例性操作序列。如讨论的,两个FPGA都通过TCP/IP向客户端发送消息。客户端中间件获取到达的第一条消息并将其传递给应用程序。来自其他FPGA的其余消息被丢弃。
根据本公开的方法300的步骤320,为了在主动FPGA故障转移期间维持跨多个FPGA和多个主机的一致状态,解析由多个FPGA中的每个FPGA内的MPU从主动FPGA的MTCPU接收到的所有TCP数据包。由多个FPGA丢弃不完整的消息。主动FPGA的MPU将由被动FPGA接收到的TCP数据包数量与主动FPGA中的TCP数据包数量进行比较,并且丢失的TCP数据包从主动FPGA拷贝到被动FPGA,并且然后发起如前面解释的多个FPGA中的重新提交的消息的处理。
图11是根据本公开的实施例的示例性可用性监视的图示。箭头指示心跳请求的启动器(initiator)。所有心跳启动器都将其心跳结果发送到为主机P的监视服务器。如果主机P出现故障,则主机S接管为监视服务器。主动FPGA(以处于完全可用状态的FPGA PS开始)示出为发起大多数心跳消息。心跳中的被动端点具有相同的作用-如果它们不发起心跳,则它们期望接收心跳消息,并且如果它们没有接收到心跳消息,则它们会向监视服务器发出警报。主动主机(以处于完全可用状态的主机P开始)最初配置为监视服务器。如果它发生故障,则主机S接管为监视服务器。它还配置为向除主动FPGA之外的所有端点发起心跳请求。如果监视服务器在预设心跳阈值内没有从主动FPGA获得心跳请求,则它发起FPGA故障转移过程到下一个被动FPGA,在其最后它将被激活。类似地,如果被动主机在预设心跳阈值内没有从主动主机获得心跳请求,则它发起主机故障切换过程,使其自身成为主动主机。
可以注意到,为可配置变量、预设心跳阈值设置低值有助于快速检测故障,但同时可能导致可能干扰事务和通知流量的许多心跳消息。预设心跳阈值的功能可以总结如下。
1.由主动FPGA使用,以决定是否以及何时向其他端点发送心跳请求。
2.用于间隔由主动FPGA和主动主机发送的连续心跳请求。
3.如果在此阈值间隔内未收到心跳,则由主动主机和被动主机使用以分别检测主动FPGA和主动主机的可用性。
4.在进行故障转移过程之前,由被动FPGA使用以检查主动FPGA的可用性。
图12是根据本公开的实施例的当主动FPGA发生故障时采取的示例性恢复动作的图示。图中指示出的序列号示出了如下所述的步骤。
1.客户端检测到与主FPGA PP通信发生故障。
2.客户端向FPGA PS和SP发送故障转移请求消息。
3.FPGA PS和FPGA SP通过客户端网络(TCP/IP/以太网)使用FPGA PP发起心跳序列。(如果心跳成功,则FPGA PS会相应地通知客户端-客户端尝试再次与FPGA PP连接)。
4.如果心跳不成功,则FPGA PS和SP将针对FPGA故障转移过程的开始而发信号。此消息作为广播通过服务器端低延迟网络发送到所有端点。
5.通过TCP并且另外地通过UDP多播将故障转移消息发信号到所有客户端(下一步无需等待此步骤完成)。
6.FPGA PS和SP将传入的FIFO队列处理到其MPU,以便完全处理。
7.FPGA PS使用FPGA SP检查其MPU已处理的消息数。(TCP数据包-最多两个FPGA的区别在于一条消息)。如果FPGA PS具有一个额外的TCP数据包,则它会将该数据包传递给FPGA SP,或反之亦然。
8.FPGA PS和FPGA SP针对故障转移阶段结束而发信号。此消息作为广播通过低延迟网络发送到所有端点。此消息包含由每个客户端提交的最后一个消息序列号。
9.主机P向FPGA PS已接管为新的主动FPGA的所有端点发送广播消息。
10.FPGA PS使用FPGA SP设置发布-订阅者(或点对点,只有一个订阅者)队列。
11.如果仍存在任何重新提交的请求挂起,则新的主动FPGA会将它们推送到其MTCPU进行处理,从那里恢复正常处理。
12.一旦所有重新提交的结果都完成处理,FPGA PS就将接管为主设备,并通过FPGA PS和SP两者将其通告/广播给所有客户端。
13.客户端将请求发送到FPGA PS,现在它是主动服务器(TCP连接已经存在-因此消除了握手延迟)。这未在图12中示出。
在上面呈现的场景中,客户端在检测到它无法与FPGA PP通信后发起故障转移。
如果主机P首先检测到故障并且开始故障转移,则在这种情况下,步骤序列从步骤5开始,并且依此类推完成。在这种情况下,主机P针对主动故障转移阶段的开始而发信号。如果FPGA PP无法与甚至主机之一或甚至其他FPGA之一通信,则它将通知客户端尝试故障转移到其他FPGA。恢复正在进行时可能会发生另一次故障。假设不存在客户端故障,则存在四种可能的故障-FPGA PS、除FPGA PS之外的任何其他端点、端点之间的内部连接或从客户端到FPGA PS的连接。
如果FPGAPS发生故障,则已知客户端也已将故障转移请求发送到FPGA SP。当FPGA故障转移正在进行时,监视主机通过心跳机制实现FPGA PS已发生故障。如果在主动FPGA选择之前检测到故障,则监视服务器然后选择FPGA SP作为主动FPGA。在这种情况下,FPGA SP接管并且操作正常进行。如果在已选择主动FPGA时发生故障,则客户端中间件会超时并将FPGA故障转移请求重新发送到所有被动FPGA,在这种情况下,FPGA SP也会接收到请求并重新发起故障转移序列。监视服务器还可以检测并向FPGA SP发送控制消息以发起故障转移。
当其他端点(FPGA或主机)发生故障时,如由监视服务器更新,对于对应的端点,针对内部确认的等待立即终止。如果主机P或S中的一个也发生故障,则除非切换活动完成,否则剩余主机不会确认事务,因此对传入消息和通知的响应会延迟。如果主机P在FPGA故障转移期间已发生故障,则主机S在任何情况下都会得到所有消息。因此,在完成切换活动之后,主机S决定哪个FPGA是主动FPGA并相应地发送消息。
如果来自FPGA PS的内部连接发生故障,则它通知客户端故障转移到其他FPGA。
如果从客户端到FPGA PS的连接发生故障,则存在冗余(在物理连接中)以防止这种情况。如果冗余物理连接发生故障,则需要手动纠正,之后客户端开始通信。根据本公开,即使发生这种情况,也可以处理所有消息正好一次。
在客户端发生故障的情况下,涉及恢复过程,其包括检索旧响应和通知消息。上面提到的广播可以使用PCIE DMA多播和Infiniband/RoCE在主机和FPGA的服务器系统内最佳地实现。
通过使用点对点模式TCP连接在内部实现对客户端的广播,其中优先级给予已请求故障转移的那些客户端。在实施例中,还可以进行额外的UDP多播,使得大多数客户端可以更快地接收消息。
主机的关键功能之一是保持所有事务和通知的记录。这些永远不会丢失是必要的。因此,FPGA会向主机发送消息的拷贝,并在向客户端和管理员发送响应或通知消息之前等待其确认。因此,系统实现了高性能,这是因为在事务和通知处理期间不存在对所涉及的持久化存储的写入。在两个主机都是活动的状态下,冗余将作为持久化存储覆盖。在客户端确认消息或通知后,对持久化存储的写入异步发生。然而,如果主机之一发生故障,则存在这样的风险:当客户端可能接收到响应和通知时,主机上的另一个故障可能导致这些消息丢失。另一个主机(主动或被动)将更改功能,以在向FPGA确认之前同步提交每个事务和通知。下面提供了当最后一个剩余主机意识到它是最后一个主机时在最后一个剩余主机上更详细的步骤序列。
1.停止对FPGA的事务和通知的所有即时确认。
2.将易失性存储器中的所有事务和通知持久化到非易失性存储器。
3.完成后,只有在将消息持久化到非易失性存储器后才能将所有确认发送到FPGA。
重要的是,第二主机在第一主机的故障与直到最后的存储器驻留事务和通知被持久化到非易失性存储器中(以避免易失性存储器中的消息丢失)的时间之间的间隔中不会发生故障。然而,该时间间隔可以设计得尽可能低。在本公开的实施例中,服务器可以设置有备用电池;然后,由电池提供的剩余时间可用于将缓冲的消息持久化到非易失性存储器。
图13是根据本公开的实施例的当主机发生故障时的示例性事件序列的图示。图中指示出的序列号示出了如下面提到的步骤。
1.客户端向FPGA PP发送请求消息。
2.FPGA PP将请求拷贝到FPGA PS和SP。
3.主机P检测到主机S发生故障,并且它发起至同步模式的转换,该同步模式将数据从易失性存储器拷贝到非易失性存储器中。
4.PFP PP、PS和SP处理消息发送请求以将事务提交给主机P。(对于这种情况,假设所有FPGA已经接收到关于主机S发生故障的信息)。
5.主机P完成从易失性存储器到非易失性存储器的所有消息的持久化。
6.主机P持久化由FPGA发送的事务提交消息,并返回FPGA确认。
7.FPGA将响应消息发送回客户端。
如果部分可用状态中还有一个端点故障,则系统变为不可用。如果最后一个FPGA发生故障,则客户端无法发送或接收消息。如果最后一个主机发生故障,则FPGA无法发送任何响应消息,并且系统也不可用。
图14是根据本公开的实施例的当客户端发生故障并且在恢复时发送已经提交的旧请求消息的示例性事件序列的图示。这可能在以下条件下发生。
1.主FPGA正好在从客户端接收到TCP消息之后但在将确认发送回客户端之前发生了故障。
2.客户端崩溃、恢复、并且在恢复时发现没有接收到对某些消息的响应,并且因此重新发送具有未完成响应的请求消息。(这些消息是由系统发送的,但客户端中间件无法在客户端崩溃之前保存传入的响应和通知(如果有的话))。
图中指示出的序列号示出了如下面提到的步骤。
1.客户端向主动FPGA发送请求。
2.主动FPGA将与传入请求相对应的TCP数据包拷贝到被动FPGA,并将确认(TCP级别)发送回客户端(确认-未明确示出)。
3.MPU检测到旧消息。然后,主动FPGA将该消息发送给主机。
4.主机查找响应并将该响应直接传递给客户端。
5.客户端中间件采取第一个响应,丢弃重复项并将响应传递给应用程序。
被动FPGA未在图中示出。在实施例中,客户端中间件实现计时器以跟踪请求的发送。当接收到响应后,它会取消计时器。如果时间到期,则它会尝试重新发送请求,并且在成功重新发送时,它会重新发起计时器。这个循环一直持续到接收到响应。另一方面,在服务器端,它适合检测重复请求,并且因此将适当地响应它。
图15是根据本公开的实施例的当由客户端处理确认时的示例性事件序列的图示。除了步骤4之外,客户端确认也遵循与图14中类似的流程。图中指示出的序列号示出了如下面提到的步骤。
1.客户端向主动FPGA发送请求消息。
2.主动FPGA将与传入请求相对应的TCP数据包拷贝到被动FPGA,并将确认(TCP级别)发送回客户端(确认-未明确示出)。
3.MPU检测到这是确认消息。然后它将消息发送到Live_Hosts(主机P和主机S),其将消息标记为已确认。
图16是根据本公开的实施例的实现向客户端正好一次递送通知的一系列操作的图示。用于发送响应和接收确认的本公开的步骤还用于实现向客户端正好一次递送通知。不同之处在于它是服务器端应用程序,其发起通知。当在发送通知之前由FPGA将通知提交给主机时,主机启动通知确认计时器。如果客户端应用程序在此计时器到期之前未确认接收到通知,则主机会重新发送通知。此循环一直持续到客户端最终确认通知为止。在客户端确认通知后,主机发送第二级确认以帮助客户端释放用于通知确认的资源。图中指示出的序列号示出了如下面提到的步骤。
1.所有FPGA(上图中只示出了一个)向客户端中间件发送通知消息。
2.客户端中间件将通知消息传递给应用程序并丢弃重复项。
3.客户端应用程序确认通知消息。
4.客户端中间件将确认转发给主动FPGA。
5.主动FPGA将确认转发给主机。
6.主机发送第二级确认以使能客户端中间件清理用于通知的资源。
客户端中间件通过TCP连接与服务器系统通信。它与系统建立以下TCP连接。
1.一个连接用于向系统发送请求消息(从客户端到主动FPGA)并且用于从主动FPGA接收响应和通知(如果有的话)。
2.两个备用连接-每个被动FPGA各一个。
3.两个主机连接-每个主机一个,用于接收较旧的响应消息和通知。它们也用于查询。如果查询流量减少,这些也可以用于接收响应和通知(如果有的话)。
根据本公开的实施例,本公开的框架支持任何类型的有状态应用。在实施例中,来自应用程序端的使用框架的要求如下:
1.可以经由一个或多个API执行至少一些步骤。
2.执行完成-进入系统的每个事务都需要继续完成,直到它提交或直到由于确定性程序逻辑而中止为止。在任何一种情况下,应用程序都需要使用事务请求的相同客户端标识符生成回到发起客户端的响应。
3.应用程序通过实现有序锁定来并发处理传入请求。需要严格按照其被请求的顺序授予锁定。如果在开始处理事务之前无法确定要锁定的记录,则应用程序需要中止事务,并且一旦确定出使用框架的API,就将请求重新提交到框架。一旦重新提交的事务被注入回系统中,则只有当因变量的值没有改变时,执行才会进行到完成。否则,它务必再次确定它需要锁定的记录,中止当前执行的事务并重新提交请求。可以如由框架API所提供的那样使用非确定性函数的值。在生成通知时,它还应以确定性顺序为每个客户端生成通知。当发送通知时,应用程序需要提供API,触发事务编号和在该触发事务(事务可以跨许多客户端生成许多通知)内生成的通知的序列号(确定性确定出的)。
图17是根据本公开的实施例的FPGA卡的示例性框图。示出的实施例被设计成适合客户端所需的可用性、正好一次处理和性能要求。PCIE插槽连接器使能将FPGA板插入服务器或PCIE扩展盒中的PCIE插槽。以太网端口1和2用于通过TCP/IP/以太网连接到客户端。还提供了Infiniband端口的配对、PCIE电缆连接器端口的配对和以太网端口的另一配对。这些端口的仅一个配对可用于特定实现。其他三个配对用于连接端点(FPGA和主机)。
图18是根据本公开的实施例的基于FPGA的事务系统的示例性表示,其具有2个主机、3个FPGA卡和2个客户端,都带有冗余网络连接。示出了2个网络,其中一个网络是以太网网络,其用于将客户端连接到服务器。第二个网络用于服务器组件内的通信。该网络可以是使用RoCE NiC(通过聚合以太网的RDMA)使能的Infiniband、PCIE或以太网。在所有情况下,PCIE网络将FPGA卡连接到主机。FPGA卡安装在PCIE扩展盒中,其中具有PCIE开关(图中未示出)。在两个网络中,如果一个网络路径在任何两个端点之间下降,则通信将依赖于另一个端点。这两个网络也可以用于并行网络通信,这意味着进一步减少了延迟。每个端点与其连接的每个网络都具有2个连接。如果连接之一发生故障,则可以依赖于使用另一个连接。主机P被配置为包括主机和FPGA端点的PCIE网络的根集线器。如果它发生故障,则主机S接管为根集线器,其对FPGA卡没有影响,这是因为PCIE交换机支持此功能。
在实施例中,代替图17中示出的示例性FPGA卡,可以使用诸如具有4个QSFP连接插槽的FPGA卡的商用硬件。每个QSFP连接器可以连接到以太网网络(并使用RoCE进行通信)或Infiniband网络,其中配置被编程到FPGA中。因此,用于互连服务器系统组件的第二个网络可以是Infiniband或以太网。
根据本公开的实施例,客户端中间件以软件实现。在实施例中,在多层应用的情况下,客户端本身可以是服务器。例如,在客户端处数据库服务器可以是web服务器,其聚合终端用户的某集合。在股票交易所交易应用程序中,客户端可以是网关服务器,其复用终端用户并向订单匹配服务器发送请求。可替选地,它们可以是高频交易服务器,其基于市场反馈生成请求并将该请求发送到匹配服务器。虽然可以如上面描述的实现服务器,但是客户端(其也是服务器)可能由于客户端中间件的持久化写入而变慢。这样的客户端也与服务器本身位于同一位置。根据本公开的实施例,以下是在这样的客户端的情况下可能的选项,其可以是服务器:
1.使用高速持久化存储技术。
2.以与服务器端的FPGA持久化事务和通知相同的方式共享用在服务器端的主机以进行消息的持久化。这要求主机在不减慢任何操作的情况下有足够的资源来提供额外的工作负载。
3.不同于上面第2点那样与主机共享,具有主机的单独集合用于持久化消息。在实施例中,客户端本身可以在FPGA上实现,其中客户端中间件也可以在FPGA上实现。
根据本公开,主机的主要功能包括:
1.用作PCIE网络中的根联合体(root complex),其中主机CPU充当根联合体。
2.提供一种在更大的时间段内缓冲事务数据的装置,这是因为它们具有更大的存储器。
3.将事务和通知保留在存储中以便以后检索。
根据本公开的实施例,如图2B中示出的,系统200仅包括服务于主机功能的FPGA,如先前并且参考系统100所解释的。FPGA可以被配置为接管为根联合体,从而消除了对主机的需求。FPGA卡可以配置有高存储器,并且如果可用存储器可以满足应用程序要求,则可以消除对主机的需求。此外,以作为PCIE卡可用的非易失性存储器高速(NVME)形式的存储可以连接到PCIE网络,这意味着FPGA卡可以再次直接与其通信,从而消除了对主机的需求。消除主机的另一个原因可能是因为FPGA本身具有在其中制造的CPU内核。图19A是根据本公开的实施例的没有主机的基于FPGA的事务系统的示例性高级表示,并且图19B是没有图19A的主机的基于FPGA的事务系统的示例性详细表示。可以注意到,系统设计和构造被简化而不需要主机。根据示出的实施例,主动FPGA可以承担主动主机的附加角色,并且被动FPGA可以在不损失功能的情况下承担被动主机的附加角色。
根据本公开,对于具有主机或没有主机的实施例,可以注意到增加冗余增加了可用性。在允许的成本内,期望具有尽可能大的M(M+1冗余)值。对于“具有主机”构造,将需要两个M值-一个用于FPGA,并且一个用于主机。模式切换因子K的低设置倾向于将高优先级置于正好一次保守模式行为,而使用K的高值系统倾向于高性能模式行为。
在本公开的实施例中,可以供应具有存储的能量储备的备用电源,以在供应至基于FPGA的事务系统的主电源发生故障的情况下使用。针对可靠的备用电源(诸如电池)的可用性,K的值可以设置为M。在这样的配置中,系统递送高性能,而同时支持正好一次事务语义。
可以注意到,增加M的值会增加通信要求。发布-订阅机制正在复制请求和响应消息。随着M的增加,订阅者数量增加并导致更高的通信开销,这可能会影响延迟。由于FPGA实现使用了大量并行资源,因此这种开销最小(与软件平台相比),并且对于M的略低到中等值可以是可忽略不计的。发布-订阅的瓶颈的另一个来源可能是用于通信的物理端口的有限数量。理想情况下,需要有M个端口。使用交换机中可用的PCIE DMA多播特征可以克服这个瓶颈。假定交换机具有针对PCIE、Infiniband或RoCE网络的较大数量的端口,则可以容易地扩展前面描述的硬件结构以支持更大的M值。根据本公开的实施例,FPGA卡可以托管在可用的多个PCIE扩展盒中,以通过电源隔离实现最大可用性。
书面描述描述了本文的主题,以使能本领域技术人员制造和使用这些实施例。主题实施例的范围由权利要求限定,并且可以包括本领域技术人员想到的其他修改。如果这样的其他修改具有与权利要求的字面语言没有不同的相似元素,或者如果它们包括与权利要求的字面语言无实质差别的等效元素,则这样的其他修改旨在落入权利要求的范围内。
应当理解,保护范围扩展到这样的程序,并且除了其中具有消息的计算机可读装置之外;当程序在服务器或移动设备或任何合适的可编程设备上运行时,这样的计算机可读存储装置包含用于实现该方法的一个或多个步骤的程序代码装置。硬件设备可以是可编程的任何类型的设备,包括例如任何类型的计算机,如服务器或个人计算机等,或其任何组合。该设备还可以包括可以是:例如硬件装置的装置,如例如专用集成电路(ASIC)、现场可编程门阵列(FPGA);或硬件和软件装置的组合,例如ASIC和FPGA;或至少一个微处理器和至少一个存储器,其中软件模块位于其中。因此,该装置可以包括硬件装置和软件装置两者。这里描述的方法实施例可以用硬件和软件实现。该设备还可以包括软件装置。可替选地,例如使用多个CPU,实施例可以在不同的硬件设备上实现。
本文的实施例可包括硬件和软件元素。以软件实现的实施例包括但不限于固件、驻留软件、微代码等。由本文描述的各种模块执行的功能可以在其他模块或其他模块的组合中实现。出于本说明书的目的,计算机可用或计算机可读介质可以是能够包括、存储、传送、传播或传输程序以供指令执行系统、装置或设备使用或与之结合使用的任何装置。
示出的步骤被阐述以解释示出的示例性实施例,并且应该预期正在进行的技术开发将改变执行特定功能的方式。出于说明而非限制的目的,本文提供了这些示例。此外,为了便于描述,这里任意地定义了功能构建块的边界。可以定义可替选的边界,只要适当地执行指定的功能及其关系即可。基于本文包含的教导,替代方案(包括本文描述的那些的等同物、扩展、变化、偏差等)对于相关领域的技术人员将是显而易见的。这样的替代方案落入所公开实施例的范围和精神内。此外,词语“包含”、“具有”、“含有”和“包括”以及其他类似形式旨在在含义上是等同的并且是开放式的,在于这些词中的任何一个之后的一个或多个条目不是意味着是这样的一个或多个条目的详尽列表,或意味着仅限于列出的一个或多个条目。还必须注意,如本文和所附权利要求中所使用的,单数形式“一”、“一个”和“该”包括复数指代,除非上下文另有明确说明。
此外,可以使用一个或多个计算机可读存储介质来实现与本公开一致的实施例。计算机可读存储介质指的是其上可以存储处理器可读的信息或数据的任何类型的物理存储器。因此,计算机可读存储介质可以存储用于由一个或多个处理器执行的指令,包括用于使一个或多个处理器执行与本文描述的实施例一致的步骤或阶段的指令。术语“计算机可读介质”应该被理解为包括有形条目并且不包括载波和瞬态信号,即,是非暂时的。示例包括随机存取存储器(RAM)、只读存储器(ROM)、易失性存储器、非易失性存储器、硬盘驱动器、CD ROM、DVD、闪存驱动器、磁盘和任何其他已知的物理存储介质。
本公开和示例旨在被认为仅是示例性的,其中所公开的实施例的真实范围和精神由所附权利要求指示。

Claims (17)

1.一种基于现场可编程门阵列(FPGA)的事务系统(100),包括:多个FPGA,所述多个FPGA包括主动FPGA和剩余的被动FPGA,所述多个FPGA中的每个被配置为与多个主机和至少一个客户端协作,所述多个FPGA经由传输控制协议(TCP)连接而与所述至少一个客户端连接,所述多个FPGA中的每个都具有易失性存储器,所述多个FPGA包括:
改进式传输控制协议单元(MTCPU),其被配置为:
由所述主动FPGA的MTCPU接收来自所述至少一个客户端的对应于传入请求的TCP数据包;
将所述TCP数据包附加至少一个时间戳作为非确定性参数;
由所述主动FPGA的MTCPU将所述TCP数据包发布到所述被动FPGA,并且然后在由所述被动FPGA接收到所述TCP数据包的内部确认之后,将所述传入请求的TCP确认发送到所述至少一个客户端;
由所述主动FPGA的MTCPU控制所述传入请求以及在可配置延迟之后由应用程序的并发执行引起的重新提交的请求的调度,其中所述重新提交的请求优先于所述传入请求;并且
通过准备对应于(a)响应或(b)所述响应和一个或多个通知的TCP数据包、并在接收到来自所述多个主机的内部确认时将准备好的TCP数据包发送到所述至少一个客户端来优化性能;
消息解析单元(MPU),其被配置为:
由所述主动FPGA的MPU检测基于相关联的请求标识符接收到的重复请求;
由所述主动FPGA的MPU基于相关联的客户端标识符和相关联的请求标识符检索所述重新提交的请求;并且
将从所述MTCPU按序列接收到的TCP数据包解析并转换成消息格式,其与所述至少一个客户端与所述多个FPGA和所述多个主机之间的网络相关联;并且按所述序列以所述消息格式发送所述传入请求;
事务处理单元(TPU),其被配置为:
托管处理来自所述MPU的传入请求或重新提交的请求的应用程序,并生成(a)所述响应或(b)所述响应以及与其相关联的一个或多个通知;并且
接收由来自所述应用程序的并发执行引起的重新提交的请求,并经由所述MPU发送给所述MTCPU进行调度;
事务提交单元(TCU),其被配置为:
接收(a)所述响应或(b)所述响应以及来自所述TPU的一个或多个通知;
生成消息,所述消息包括所述传入请求或所述重新提交的请求以及(a)所述响应或(b)所述响应和所述一个或多个通知;并且
将所述消息发送到:(i)所述多个主机,以执行去往所述至少一个客户端的提交和发送中的至少一个,以及(ii)MTCPU以用于优化性能,其中准备好的TCP数据包构成(a)消息中的至少一部分或(b)所述消息中的一个或多个;以及
监视单元(MU),其被配置为:
如果检测到主动FPGA故障,则监视并发起FPGA故障转移过程。
2.根据权利要求1所述的基于FPGA的事务系统,其中包括主动主机和剩余的被动主机的多个主机被包括在所述基于FPGA的事务系统中,其中所述多个主机中的每个都具有被实施为键值存储器的易失性存储器和非易失性存储器,并经由TCP连接而与所述至少一个客户端连接,所述多个主机被配置为:
取决于所述多个主机中的可用主机的数量,基于预先配置的模式切换阈值而在操作的高性能模式和操作的保守模式之间切换所述基于FPGA的事务系统的操作模式,其中(i)所述高性能模式涉及将所述消息保存在与所述多个主机中的每个相关联的易失性存储器中,并且然后将其内部确认发送到所述多个FPGA中的对应FPGA,并且(ii)所述保守模式涉及将所述消息保存在与所述多个主机中的每个相关联的非易失性存储器中,并且然后将其内部确认发送到所述多个FPGA中的对应FPGA;
当操作的高性能模式切换到操作的保守模式时,在切换时段期间将来自所述易失性存储器的消息保存到所述非易失性存储器中;
延迟将(a)所述响应或(b)所述响应和所述一个或多个通知发送到所述至少一个客户端,直到在所述切换时段期间将所述消息保存到所述非易失性存储器中结束为止或者基于预先配置的时间延迟,以确保作为在所述传入请求之前到达所述多个主机的相关联的重复请求的替代而由所述多个主机接收传入请求;并且
延迟向所述多个FPGA发送所述内部确认,直到将所述消息保存到所述非易失性存储器中结束为止。
3.根据权利要求2所述的基于FPGA的事务系统,
其中,所述传入请求中的每个利用客户端标识符和请求标识符进行标记,其中请求标识符是由与所述至少一个客户端相关联的中间件针对每个后续传入请求递增的唯一序列号;
其中,对应的响应利用所述请求标识符进行标记;
其中,传入请求和对应的响应表示事务;并且
其中,对应于所述传入请求的通知利用通知标识符进行标记,所述通知标识符包括:相关联的客户端标识符、相关联的请求标识符和所述事务内的通知的序列号。
4.根据权利要求3所述的基于FPGA的事务系统,
其中,被包括在所述主动FPGA中的MU被配置为,在所述多个主机和所述多个FPGA之间没有内部消息的情况下在预设的心跳阈值内向所述被动FPGA和所述多个主机发起心跳请求,其另外用作分别指示所述多个FPGA和所述多个主机内的活动FPGA和活动主机的心跳;
其中,所述主动主机被配置为用作监视服务器并向所述被动主机和所述被动FPGA发起心跳请求,并向所述多个FPGA中的每个以及所述多个主机中的每个广播所述活动FPGA和所述主动主机的列表,并且还被配置为,如果(i)所述至少一个客户端经由所述被动FPGA触发所述FPGA故障转移过程或(ii)所述监视服务器在预设的心跳阈值内没有从所述主动FPGA接收到指示其故障的心跳请求,则向下一个被动FPGA的发起FPGA故障转移过程,其中来自所述多个FPGA的预定序列并且在活动FPGA和活动主机的列表中被广播的下一个被动FPGA被识别为所述下一个主动FPGA;并且
其中,所述剩余被动主机被配置为,如果所述被动主机中的任何一个在所述预设的心跳阈值内没有从所述主动主机接收到指示其故障的心跳请求,则发起主机故障转移过程以将其自身转换为主动主机,其中来自所述多个主机的预定序列并且在活动FPGA和活动主机的列表中被广播的被动主机被识别为所述下一个主动主机。
5.根据权利要求4所述的基于FPGA的事务系统,其中所述多个FPGA和所述多个主机通过以下进行连接:(i)外围组件互连高速(PCIE)网络、(ii)PCIE和Infiniband网络的组合、或者(iii)通过融合以太网的远程直接存储器存取(RDMA)(RoCE)网络和Infiniband网络的组合。
6.一种基于现场可编程门阵列(FPGA)的事务系统(200),包括:多个FPGA,包括主动FPGA和剩余的被动FPGA,所述多个FPGA中的每个被配置为经由传输控制协议(TCP)连接而与至少一个客户端协作,所述多个FPGA中的每个都具有一个或多个存储设备,其是易失性存储器和非易失性存储器的组合并且被实施为键值存储器,所述多个FPGA包括:
改进式传输控制协议单元(MTCPU),其被配置为:
由所述主动FPGA的MTCPU接收来自所述至少一个客户端的对应于传入请求的TCP数据包;
将所述TCP数据包附加至少一个时间戳作为非确定性参数;
由所述主动FPGA的MTCPU将所述TCP数据包发布到所述被动FPGA,并且然后将所述传入请求的TCP确认发送到所述至少一个客户端;
由所述主动FPGA的MTCPU控制所述传入请求以及在可配置延迟之后由应用程序的并发执行引起的重新提交的请求的调度,其中所述重新提交的请求优先于所述传入请求;并且
将(a)响应或(b)所述响应和一个或多个通知发送到所述至少一个客户端;
消息解析单元(MPU),其被配置为:
由所述主动FPGA的MPU检测基于相关联的请求标识符接收到的重复请求;
由所述主动FPGA的MPU基于相关联的客户端标识符和相关联的请求标识符检索所述重新提交的请求;并且
将从所述MTCPU按序列接收到的TCP数据包解析并转换成消息格式,其与所述至少一个客户端和所述多个FPGA之间的网络相关联;
事务处理单元(TPU),其被配置为:
托管处理来自所述MPU的传入请求或重新提交的请求的应用程序,并生成(a)所述响应或(b)所述响应和所述一个或多个通知;并且
接收由来自所述应用程序的并发执行引起的重新提交的请求,并经由所述MPU发送到所述MTCPU进行调度;
事务提交单元(TCU),其被配置为:
接收(a)所述响应或(b)所述响应以及从所述TPU发送的一个或多个通知;
生成消息,其包括所述传入请求或所述重新提交的请求和(a)所述响应或(b)所述响应和所述一个或多个通知,其中所述TCP数据包构成(a)消息的至少一部分或(b)所述消息中的一个或多个;并且
将所述消息发送到所述MTCPU;以及
监视单元(MU),其被配置为:
如果检测到主动FPGA故障,则监视并发起FPGA故障转移过程。
7.根据权利要求6所述的基于FPGA的事务系统,其中,所述多个FPGA还被配置为:
取决于所述多个FPGA中的可用FPGA的数量,基于预先配置的模式切换阈值而在操作的高性能模式和操作的保守模式之间切换所述基于FPGA的事务系统的操作模式,其中(i)所述高性能模式涉及将所述消息保存在与所述多个FPGA中的每个相关联的易失性存储器中,并且然后将TCP确认发送到所述至少一个客户端,并且(ii)所述保守模式涉及将所述消息保存在与所述多个FPGA中的每个相关联的非易失性存储器中,并且然后向所述至少一个客户端发送TCP确认;
当操作的高性能模式切换到操作的保守模式时,在切换时段期间将来自所述易失性存储器的消息保存到所述非易失性存储器中;并且
延迟将(a)所述响应或(b)所述响应和所述一个或多个通知发送到所述至少一个客户端,直到所述消息保存到所述非易失性存储器中结束为止。
8.根据权利要求7所述的基于FPGA的事务系统,
其中,所述传入请求中的每个都利用客户端标识符和请求标识符进行标记,其中所述请求标识符是由与所述至少一个客户端相关联的中间件针对每个后续传入请求递增的唯一序列号;
其中,对应的响应利用所述请求标识符进行标记;
其中,传入请求和对应的响应表示事务;并且
其中,对应于所述传入请求的通知利用通知标识符进行标记,所述通知标识符包括:相关联的客户端标识符、相关联的请求标识符和所述事务内的通知的序列号。
9.根据权利要求8所述的基于FPGA的事务系统,
其中,被包括在用作监视服务器的主动FPGA中的MU被配置为,在所述被动FPGA和所述主动FPGA之间没有内部消息的情况下在预设心跳阈值内向所述被动FPGA发起心跳请求,其另外用作指示在所述多个FPGA内的活动FPGA的心跳,被包括在所述主动FPGA中的MU还被配置为将所述活动FPGA的列表广播到所述多个FPGA中的每个;
并且其中包括在每个被动FPGA中的MU被配置为,如果(i)所述被动FPGA中的任何一个在预设心跳阈值内没有从主动FPGA接收到指示其发生故障的心跳请求,其中来自所述多个FPGA的预定序列并且在活动FPGA的列表中被广播的被动FPGA被识别为所述下一个主动FPGA,或(ii)所述至少一个客户端经由所述被动FPGA触发所述FPGA故障转移过程,则发起FPGA故障转移过程以将其自身转换为主动FPGA。
10.根据权利要求9所述的基于FPGA的事务系统,其中所述多个FPGA通过以下连接:(i)外围组件互连高速(PCIE)网络、(ii)PCIE和Infiniband网络的组合、或(iii)通过融合以太网的远程直接存储器存取(RDMA)(RoCE)网络和Infiniband网络的组合。
11.一种方法(300),包括:
建立从至少一个客户端到每个现场可编程门阵列(FPGA)的传输控制协议(TCP)连接,并且基于FPGA的事务系统中的每个主机包括在其间发送消息的多个FPGA、多个主机和至少一个客户端,其中所述消息中的每个包括来自所述至少一个客户端的传入请求和到所述至少一个客户端的(a)响应或(b)所述响应和与其相关联的一个或多个通知,并且其中传入请求和对应的响应表示事务(302);
取决于所述多个主机中的可用主机的数量,基于预先配置的模式切换阈值而在操作的高性能模式和操作的保守模式之间切换所述基于FPGA的事务系统的操作模式,其中(i)所述高性能模式涉及将所述消息保存在与所述多个主机中的每个相关联的易失性存储器中,并且然后将其内部确认发送到所述多个FPGA中的对应FPGA,并且(ii)所述保守模式涉及将所述消息保存到与所述多个主机中的每个相关联的非易失性存储器中,并且然后将其内部确认发送到所述多个FPGA中的对应FPGA(304);
当操作的高性能模式切换到操作的保守模式时,在切换时段期间将来自所述易失性存储器的消息保存到所述多个主机的非易失性存储器中(306);
延迟将(a)所述响应或(b)所述响应和所述一个或多个通知发送到所述至少一个客户端,直到在所述切换时段期间将所述相关联的消息保存到所述非易失性存储器中结束为止或基于预先配置的时间延迟,以确保作为在传入请求之前到达所述多个主机的相关联的重复请求的替代而由所述多个主机接收传入请求(308);并且
延迟向所述多个FPGA发送所述内部确认,直到将所述相关联的消息保存到所述非易失性存储器中结束为止(310)。
12.根据权利要求11所述的方法,其中,所述多个主机的易失性和非易失性存储器被实施为键值存储器,并且其中,
所述传入请求中的每个都利用客户端标识符和请求标识符进行标记,其中所述请求标识符是由与所述至少一个客户端相关联的中间件针对每个后续传入请求递增的唯一序列号;
对应的响应利用所述请求标识符进行标记;
传入请求和对应的响应表示事务;并且
对应于所述传入请求的通知利用通知标识符进行标记,所述通知标识符包括:相关联的客户端标识符、相关联的请求标识符和所述事务内的通知的序列号。
13.根据权利要求12所述的方法,还包括由所述多个FPGA通过以下方式检测来自所述至少一个客户端的所有重复请求(312):
针对列表中不可用的每个传入请求并且如果相关联的序列号大于从对应的客户端接收到的最大序列号,则在所述多个FPGA中的每个中附加请求标识符的列表,其与在所述多个FPGA中正处理的传入请求相关联;
如果在所述列表中相关联的请求标识符可用,则丢弃传入请求;
如果相关联的请求标识符在所述列表中不可用,则从应用程序获得(a)响应或(b)与所述传入请求相对应的一个或多个通知这二者中的至少一个;
向所述多个主机发送(a)所述响应或(b)所述响应和所述一个或多个通知并且从所述列表中删除相关联的请求标识符;
取决于所述操作模式,将包括所述传入请求或所述重新提交的请求的消息与(a)所述响应或(b)所述响应以及与其相关联的一个或多个通知存储在所述多个主机中的适当键值存储器中;
如果相关联的请求标识符在请求标识符的列表中不可用并且如果所述相关联的序列号小于从所述对应客户端接收到的最大序列号,则将(a)所述响应或(b)所述响应和来自所述多个主机的易失性或非易失性存储器的一个或多个通知发送到所述至少一个客户端,从而由所述多个FPGA检测作为重复请求的传入请求;并且
在接收到关于由对应客户端消耗(a)所述响应或(b)所述响应和所述一个或多个通知的确认时,从所述易失性存储器中删除所述消息并保存在所述多个主机的非易失性存储器中。
14.根据权利要求11所述的方法,还包括:如果在预先配置的时间内没有从所述至少一个客户端接收到关于接收所述通知的确认,则通过重新发送所述一个或多个通知来以正好一次语义将所述一个或多个通知发送到所述至少一个客户端(314)。
15.根据权利要求13所述的方法,还包括通过以下方式为所述事务系统提供高可用性(316):
将所述多个FPGA中的一个识别为主动FPGA并将所述多个主机中的一个识别为主动主机,将来自所述多个FPGA的剩余FPGA和来自所述多个主机的剩余主机分别识别为被动FPGA和被动主机以实现冗余;
在所述多个主机和所述多个FPGA之间没有内部消息的情况下,在预设心跳阈值内由所述主动FPGA向所述被动FPGA和所述多个主机中的每个发起心跳请求,其另外用作分别指示在所述多个FPGA和所述多个主机中的活动FPGA和活动主机的心跳;
由用作监视服务器的主动主机向所述被动主机和所述被动FPGA发起心跳请求;
由所述监视服务器基于所述心跳请求的状态而向所述多个FPGA中的每个和所述多个主机中的每个广播所述活动FPGA和所述活动主机的列表;
如果(i)所述至少一个客户端经由所述被动FPGA触发FPGA故障转移过程或(ii)所述监视服务器在所述预设心跳阈值内未从所述主动FPGA接收到指示其故障的心跳请求,则向下一个被动FPGA发起FPGA故障转移过程,其中来自所述多个FPGA的预定序列并且在所述活动FPGA和活动主机的列表中被广播的下一个被动FPGA被识别为下一个主动FPGA;
如果所述被动主机中的任何一个在所述预设心跳阈值内未从所述主动主机接收到指示其故障的心跳请求,则由被动主机从所述多个主机的预定序列发起主机故障转移过程,并且将来自所述多个主机的预定序列并在活动FPGA和活动主机的列表中被广播的被动主机进一步识别为所述下一个主动主机;
在分别完成所述FPGA故障转移过程或所述主机故障转移过程之后,由所述主动FPGA或所述监视服务器向所述活动FPGA、所述活动主机和所述至少一个客户端中的每个广播所述下一个主动FPGA或所述下一个主动主机;并且
终止等待使用心跳确定出的、关于基于由所述监视服务器发送的活动主机和活动FPGA的列表的另外主机和FPGA的故障的内部确认或消息。
16.根据权利要求15所述的方法,还包括通过以下方式提供每个事务的确定性执行(318):
将对应于所述传入请求的TCP数据包附加至少时间戳作为非确定性参数,其中所述TCP数据包构成(a)消息的至少一部分或(b)所述消息中的一个或多个;
由所述主动FPGA将所述TCP数据包发布到所述被动FPGA,并且然后在由所述被动FPGA接收到所述TCP数据包的内部确认之后,将所述传入请求的TCP确认发送到所述至少一个客户端;
在所述主动FPGA中接收由应用程序并发执行引起的重新提交的请求;
由所述主动FPGA仅将具有用于重新提交的请求的非确定性参数的请求标识符发布到所述被动FPGA;
将所述重新提交的请求作为键值存储器而存储在所述多个FPGA的易失性存储器中;并且
通过在所述主动FPGA中将所述重新提交的请求优先于所述传入请求,而在可配置延迟之后调度所述传入请求以及所述重新提交的请求的执行。
17.根据权利要求16所述的方法,还包括通过执行以下中的一个或多个来在主动FPGA故障转移期间维持跨所述多个FPGA和所述多个主机的一致状态(320):
解析由所述多个FPGA从所述主动FPGA接收到的所有TCP数据包;
由所述多个FPGA丢弃不完整的消息;
比较由所述被动FPGA和所述主动FPGA接收到的TCP数据包的数量,并将丢失的TCP数据包从所述主动FPGA拷贝到所述被动FPGA;并且
处理所述多个FPGA中的重新提交的消息。
CN201910175657.4A 2018-03-22 2019-03-08 基于容错fpga的事务系统的正好一次事务语义的系统和方法 Active CN110297801B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN201821010571 2018-03-22
IN201821010571 2018-03-22

Publications (2)

Publication Number Publication Date
CN110297801A true CN110297801A (zh) 2019-10-01
CN110297801B CN110297801B (zh) 2023-02-24

Family

ID=65685105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910175657.4A Active CN110297801B (zh) 2018-03-22 2019-03-08 基于容错fpga的事务系统的正好一次事务语义的系统和方法

Country Status (4)

Country Link
US (1) US10965519B2 (zh)
EP (1) EP3543870B1 (zh)
CN (1) CN110297801B (zh)
AU (2) AU2019201592B2 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026091A (zh) * 2019-12-27 2020-04-17 中国科学技术大学 分布式望远镜设备远程控制和观测系统
CN114338385A (zh) * 2021-12-31 2022-04-12 上海商汤智能科技有限公司 网络配置方法及系统、电子设备和存储介质
CN114787781A (zh) * 2019-11-27 2022-07-22 亚马逊技术有限公司 用于启用高可用性受管理故障转移服务的系统和方法
CN115174654A (zh) * 2022-07-14 2022-10-11 山东省计算中心(国家超级计算济南中心) 一种基于FPGA和InfiniBand网络的异地通信方法及系统
US11709741B1 (en) 2021-03-29 2023-07-25 Amazon Technologies, Inc. Systems and methods for enabling a failover service for block-storage volumes

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11144357B2 (en) * 2018-05-25 2021-10-12 International Business Machines Corporation Selecting hardware accelerators based on score
EP3609108B1 (en) * 2018-08-09 2021-04-28 Tata Consultancy Services Limited Method and system for message based communication and failure recovery for fpga middleware framework
US10892944B2 (en) 2018-11-29 2021-01-12 International Business Machines Corporation Selecting and using a cloud-based hardware accelerator
CN111625368A (zh) * 2020-05-22 2020-09-04 中国科学院空天信息创新研究院 一种分布式计算系统、方法及电子设备
CN113704166B (zh) * 2021-10-28 2022-02-18 苏州浪潮智能科技有限公司 一种fpga运算设备和运算算力提升系统
CN114237990B (zh) * 2021-11-18 2024-04-26 通号万全信号设备有限公司 一种基于fpga芯片的二乘冗余切换方法及装置
CN114697377B (zh) * 2022-04-07 2023-09-05 深信服科技股份有限公司 一种客户端产品的保活方法、系统、装置及可读存储介质
CN115629916B (zh) * 2022-12-23 2023-03-14 湖南博匠信息科技有限公司 一种基于Zynq的业务程序故障恢复方法
CN115687200B (zh) * 2022-12-30 2023-06-13 浙江中控研究院有限公司 基于FPGA应用于EPA的PCIe数据传输方法及系统
CN116257521B (zh) * 2023-01-18 2023-11-17 深存科技(无锡)有限公司 一种基于fpga的kv存储方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1533701A1 (en) * 2003-11-24 2005-05-25 TSX Inc. System and method for failover
CN102841828A (zh) * 2011-06-21 2012-12-26 西屋电气有限责任公司 逻辑电路中的故障检测和减轻
CN103370903A (zh) * 2010-11-17 2013-10-23 阿尔卡特朗讯 用于冗余服务器配置中的客户端恢复策略的方法和系统
CN107622006A (zh) * 2016-07-14 2018-01-23 上海思立微电子科技有限公司 用于测试移动装置的系统和方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5978933A (en) 1996-01-11 1999-11-02 Hewlett-Packard Company Generic fault tolerant platform
US6182086B1 (en) 1998-03-02 2001-01-30 Microsoft Corporation Client-server computer system with application recovery of server applications and client applications
DE19836347C2 (de) 1998-08-11 2001-11-15 Ericsson Telefon Ab L M Fehlertolerantes Computersystem
US8380854B2 (en) 2000-03-21 2013-02-19 F5 Networks, Inc. Simplified method for processing multiple connections from the same client
US8095824B2 (en) 2009-12-15 2012-01-10 Intel Corporation Performing mode switching in an unbounded transactional memory (UTM) system
US8737197B2 (en) * 2010-02-26 2014-05-27 Net Optic, Inc. Sequential heartbeat packet arrangement and methods thereof
US8776207B2 (en) * 2011-02-16 2014-07-08 Fortinet, Inc. Load balancing in a network with session information
US10027543B2 (en) * 2015-04-17 2018-07-17 Microsoft Technology Licensing, Llc Reconfiguring an acceleration component among interconnected acceleration components
WO2017052393A1 (en) * 2015-09-25 2017-03-30 Intel Corporation Efficient error control techniques for tcp-based multicast networks
EP3566407A1 (en) * 2017-01-03 2019-11-13 INTEL Corporation Cross-device segmentation offload
US11651428B2 (en) * 2017-03-27 2023-05-16 Chicago Mercantile Exchange Inc. Communications protocol based message identification transmission

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1533701A1 (en) * 2003-11-24 2005-05-25 TSX Inc. System and method for failover
CN1906593A (zh) * 2003-11-24 2007-01-31 Tsx公司 用于故障解决的系统和方法
CN103370903A (zh) * 2010-11-17 2013-10-23 阿尔卡特朗讯 用于冗余服务器配置中的客户端恢复策略的方法和系统
CN102841828A (zh) * 2011-06-21 2012-12-26 西屋电气有限责任公司 逻辑电路中的故障检测和减轻
CN107622006A (zh) * 2016-07-14 2018-01-23 上海思立微电子科技有限公司 用于测试移动装置的系统和方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114787781A (zh) * 2019-11-27 2022-07-22 亚马逊技术有限公司 用于启用高可用性受管理故障转移服务的系统和方法
CN114787781B (zh) * 2019-11-27 2023-04-14 亚马逊技术有限公司 用于启用高可用性受管理故障转移服务的系统和方法
CN116302719A (zh) * 2019-11-27 2023-06-23 亚马逊技术有限公司 用于启用高可用性受管理故障转移服务的系统和方法
US11693746B2 (en) 2019-11-27 2023-07-04 Amazon Technologies, Inc. Systems and methods for enabling a highly available managed failover service
CN116302719B (zh) * 2019-11-27 2023-11-17 亚马逊技术有限公司 用于启用高可用性受管理故障转移服务的系统和方法
CN111026091A (zh) * 2019-12-27 2020-04-17 中国科学技术大学 分布式望远镜设备远程控制和观测系统
CN111026091B (zh) * 2019-12-27 2022-09-30 中国科学技术大学 分布式望远镜设备远程控制和观测系统
US11709741B1 (en) 2021-03-29 2023-07-25 Amazon Technologies, Inc. Systems and methods for enabling a failover service for block-storage volumes
CN114338385A (zh) * 2021-12-31 2022-04-12 上海商汤智能科技有限公司 网络配置方法及系统、电子设备和存储介质
CN114338385B (zh) * 2021-12-31 2024-05-17 上海商汤智能科技有限公司 网络配置方法及系统、电子设备和存储介质
CN115174654A (zh) * 2022-07-14 2022-10-11 山东省计算中心(国家超级计算济南中心) 一种基于FPGA和InfiniBand网络的异地通信方法及系统
CN115174654B (zh) * 2022-07-14 2023-05-23 山东省计算中心(国家超级计算济南中心) 一种基于FPGA和InfiniBand网络的异地通信方法及系统

Also Published As

Publication number Publication date
EP3543870B1 (en) 2022-04-13
US20190296964A1 (en) 2019-09-26
CN110297801B (zh) 2023-02-24
AU2021200535A1 (en) 2021-02-25
AU2021200535B2 (en) 2022-02-24
AU2019201592A1 (en) 2019-10-10
AU2019201592B2 (en) 2020-11-19
EP3543870A1 (en) 2019-09-25
US10965519B2 (en) 2021-03-30

Similar Documents

Publication Publication Date Title
CN110297801A (zh) 基于容错fpga的事务系统的正好一次事务语义
CN100591031C (zh) 实现高可用性光纤信道交换机的方法和装置
JP3932994B2 (ja) サーバ引継システムおよびその方法
EP1543420B1 (en) Consistent message ordering for semi-active and passive replication
US7525964B2 (en) Mechanism for delivering messages to competing consumers in a point-to-point system
CN100483357C (zh) 用于在失效转移之后或在软件升级期间透明恢复路由状态的路由系统和方法
TWI337482B (en) Computer program product and method of improving availablity and scalability in a messaging system in a manner transparent to the application
EP1402363B1 (en) Method for ensuring operation during node failures and network partitions in a clustered message passing server
CN101136900B (zh) 一种面向服务的快速透明故障转移装置及实现方法
CN1534923B (zh) 通过提供单个编程模型简化应用开发的方法
CN1881944B (zh) 改进型分布式核心操作系统
US9319267B1 (en) Replication in assured messaging system
CN104205756A (zh) 并发进程执行
CN102177690A (zh) 在电信网络中提供镇静服务的方法、系统和计算机可读介质
CN110708175B (zh) 分布式网络中消息同步的方法
CN104247380A (zh) 在分布式协定协议中绑定crud型协议
CN108390919A (zh) 一种用于高可靠双机热备的消息同步系统及方法
JP2007133542A (ja) 情報引継ぎシステム、情報引継ぎ方法、現用系ノード及び待機系ノード
CN101336539B (zh) 网关实体
CN109347906A (zh) 一种数据传输方法、装置、与服务器
US20120096179A1 (en) Method For Processing Initial SIP Requests By Backends Of A SIP Cluster In The Presence Of A Fault, And Associated Processing Device
CN110351122A (zh) 容灾方法、装置、系统与电子设备
JP2009217765A (ja) 複数宛先への同期送信方法、その実施システム及び処理プログラム
CN110716827A (zh) 适用于分布式系统的热备份方法及分布式系统
CN110890989A (zh) 一种通道连接方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant