CN103703441A - 一种硬盘和数据处理方法 - Google Patents
一种硬盘和数据处理方法 Download PDFInfo
- Publication number
- CN103703441A CN103703441A CN201380000981.3A CN201380000981A CN103703441A CN 103703441 A CN103703441 A CN 103703441A CN 201380000981 A CN201380000981 A CN 201380000981A CN 103703441 A CN103703441 A CN 103703441A
- Authority
- CN
- China
- Prior art keywords
- write request
- read request
- hard disk
- enhanced ethernet
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/18—Multiprotocol handlers, e.g. single devices capable of handling multiple protocols
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
- G06F15/163—Interprocessor communication
- G06F15/173—Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
- G06F15/17306—Intercommunication techniques
- G06F15/17331—Distributed shared memory [DSM], e.g. remote direct memory access [RDMA]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0604—Improving or facilitating administration, e.g. storage management
- G06F3/0607—Improving or facilitating administration, e.g. storage management by facilitating the process of upgrading existing storage systems, e.g. for improving compatibility between host and storage device
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0655—Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
- G06F3/0658—Controller construction arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/067—Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/0671—In-line storage system
- G06F3/0673—Single storage device
- G06F3/0674—Disk device
- G06F3/0676—Magnetic disk device
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/16—Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/16—Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]
- H04L69/163—In-band adaptation of TCP data exchange; In-band control procedures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/30—Definitions, standards or architectural aspects of layered protocol stacks
- H04L69/32—Architecture of open systems interconnection [OSI] 7-layer type protocol stacks, e.g. the interfaces between the data link level and the physical level
- H04L69/322—Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computer And Data Communications (AREA)
- Information Transfer Systems (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明实施例在硬盘上增加增强型以太网接口,基于增强型以太网协议和网络通信,所述增强型以太网接口,用于基于增强型以太网协议与网络进行通信,对接收到的消息包根据物理层和链路层协议进行处理;第一处理器,对接收到的消息包机根据传输层和网络层协议进行处理;第二处理器,对接收到的消息包根据应用层业务逻辑进行处理;硬盘控制器,根据接收的消息包中的指令对硬盘驱动进行操作。
Description
技术领域
本发明涉及存储技术领域,尤其涉及一种硬盘和数据处理方法。
背景技术
随着云计算和云存储的兴起,基于海量数据存储以及处理、分析的大数据应用随之兴起。云存储和大数据应用离不开海量的数据存储和处理单元,例如硬盘。传统硬盘通过一个外接控制部件提供媒体访问控制地址(Media Access Control,MAC)接口,在外接控制部件内提供消息包的应用层、传输层等,其中,外接控制部件同串行连接SCSI(Serial AttachedSCSI,SAS)或串行ATA(SATA,Serial Advanced Technology Attachment)硬盘的连接通过硬盘的SAS或SATA。
发明人在研究中发现,传统硬盘并不包括外部控制部件,需要通过外部控制部件来提供接口进行连接组成的云存储系统中,大量硬盘会位于同一数据中心进行局域网络互连,例如,数据中心内,或机柜内,或机框内,网络带宽的条件好,但传统硬盘所支持的传输控制协议/因特网互联协议(Transmission Control Protocol/Internet Protocol,TCP/IP),是适合跨广域传输,并不能有效利用局域网良好的带宽条件,使得云存储系统中的局域网有利条件没有得到发挥。
发明内容
本发明实施例提供一种硬盘和数据处理方法,以提供一种能够实现更加灵活的设备互联方式的硬盘,有效发挥局域网的有利条件。
第一方面,本发明实施例提供一种硬盘,包括:
增强型以太网接口,用于基于增强型以太网协议与网络进行通信,对接收到的消息包根据物理层和链路层协议进行处理;
第一处理器,用于与所述增强型以太网接口通信,对接收到的消息包机根据传输层和网络层协议进行处理;
第二处理器,用于分别与硬盘控制器和所述第一处理器通信,对接收到的消息包根据应用层业务逻辑进行处理;
硬盘控制器,用于分别于所述第二处理器、所述第一处理器和所述增强型以太网接口通信,根据接收的消息包中的指令对硬盘驱动进行操作。
结合第一方面,在第一种可能实现的方式中,所述第一处理器集成在所述增强型以太网接口中。
结合第一方面的第一种可能方式,在第二种可能方式中,所述第一处理器,具体用于与所述增强型以太网接口通信,根据InfiniBand传输层和InfiniBand网络层协议对所接收的消息包进行传输层和网络层的处理。
结合第一方面的第一种可能方式,在第三种可能方式中,所述第一处理器,具体用于与所述增强型以太网接口通信,根据远程直接内存访问协议RDMAP+直接数据放置DDP协议+对齐的标记协议处理单元MPA+传输控制协议和因特网互联协议TCP/IP协议对所接收的消息包进行传输层和网络层的处理。
结合第一方面的第二种或第三种可能方式,在第四种可能方式中,所述第一处理器集成远程内存直接访问RDMA引擎。
结合第一方面的第四种可能方式,当所述增强型以太网接口接收到的消息包为第一写请求,所述增强型以太网接口具体用于对接收到的所述第一写请求根据物理层和链路层协议进行处理;
所述第一处理器还用于,判断得到所述第一写请求是指令直接将所述第一写请求对应的数据写入本地硬盘内存中,根据所述第一写请求中的数据写入地址,调用RDMA引擎在本地内存中直接写入所述第一写请求对应的数据;
当增强型以太网接口接收到的消息包是第一读请求,所述增强型以太网接口具体用于对接收到的所述第一读请求根据物理层和链路层协议进行处理;
所述第一处理器还用于,判断得到第一读请求是指令直接从本地内存中直接读取所述第一读请求对应的数据,则根据所述第一读请求中的数据读出地址,调用RDMA引擎在本地内存中直接读出所述第一读请求对应的数据。
第二方面,本发明实施例提供一种数据处理方法,应用于具有增强型以太网接口的硬盘,所述增强型以太网接口基于增强型以太网协议与网络进行通信,所述硬盘中集成远程内存直接访问RDMA引擎,所述方法包括:
接收第一写请求,对接收到的所述第一写请求根据物理层和链路层协议进行处理;
判断得到所述第一写请求是指令直接将所述第一写请求对应的数据写入本地内存中,对接收到的所述第一写请求根据传输层和网络层协议进行处理,根据所述第一写请求中的数据写入地址,调用RDMA引擎在本地内存中直接写入所述第一写请求对应的数据。
结合第二方面,在第一种可能方式中,方法还包括:
接收第一读请求,对接收到的所述第一读请求根据物理层和链路层协议进行处理;
判断得到所述第一读请求是指令直接从本地内存中读取数据,对接收到的所述第一读请求根据传输层和网络层协议进行处理,根据所述第一读请求中的数据读出地址,调用RDMA引擎在本地内存中直接读取所述第一读请求对应的数据。
结合第二方面的第一种可能方式,第二种可能方式中,方法还包括:
产生往远端目标设备内存中直接写入数据的第二写请求或直接读数据的第二读请求,所述第二写请求或第二读请求中携带有所述第二写请求或所述第二读请求对应数据在所述远端目标设备中的内存地址;对产生的所述第二写请求或第二读请求根据应用层业务逻辑进行处理;
对根据应用层业务逻辑处理后的所述第二写请求或所述第二读请求根据传输层和网络层协议进行处理,调用RDMA引擎对所述第二写请求或所述第二读请求进行处理,将处理后的所述第二写请求或所述第二读请求发送给所述增强型以太网接口;
所述增强型以太网接口对接收到的所述第二写请求或第二读请求基于增强以太协议进行处理,并将处理后的所述第二写请求或第二读请求发送至所述远端目标设备。
区别于传统硬盘外接控制部件以提供MAC接口,本发明实施例在硬盘上增加增强型以太网接口,基于增强型以太网协议和网络通信,发挥增强型以太在流量控制和时延处理的优势,并且能够支持更有利于网络有利条件发挥的设备互联协议,使得硬盘的连接方式更加灵活,网络良好带宽条件得到发挥。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的一种硬盘结构示意图;
图2为本发明实施例所提供的另一种硬盘结构示意图;
图3为本发明实施例所提供的另一种硬盘结构示意图;
图4为本发明实施例所提供的硬盘的一种应用场景图;
图5为本发明实施例所提供的数据处理方法流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
附图1为本发明实施例提供的一个实施例的硬盘结构图,包括磁盘驱动器(Hard Disk Drive,HDD)100,所述磁盘驱动器100包括:增强型以太网接口(Enhanced Ethernet interface)101,第一处理器104,第二处理器103,硬盘控制器105;
其中:
增强型以太网接口101,用于基于增强型以太网协议与网络进行通信,对接收到的消息包根据物理层和链路层协议进行处理;
相比传统以太网接口,所述增强型以太网接口能支持更多协议,例如可以支持:基于优先级的流量控制Priority-based Flow Control、增强传送控制Enhanced Transmission Control以及数据中心桥接能力交换DataCenter Bridgging Capabilities Exchange等协议,因此,所述增强型以太网接口还可以根据实际需要选择基于流控制优先协议(Priority-based FlowControl,PFC)、增强传送控制Enhanced Transmission Control或数据中心桥接能力交换Data Center Bridgging Capabilities Exchange协议对所接收的消息包进行处理。本发明实施例将增强型以太网接口集成到硬盘中,使硬盘能够支持增强型以太网接口协议族所包含的协议,实现这些协议对应的功能。
增强型以太网接口101对接收到的消息包进行封帧或解封帧,按照增强型以太网协议要求对消息包的发送和接收进行流量控制和传送控制等操作。其中,增强型以太网接101口所接收到的消息包,可能是增强型以太网接口通过网络接收的,也可能是硬盘其他功能模块或硬件设备发送到增强型以太网接口101的,本发明实施例不做限定,只要是增强型以太网接口接收到的消息包,都会基于增强型以太网协议对接收到的消息包进行处理。
第一处理器103,用于与所述增强型以太网接口101通信,对接收到的消息包根据传输层和网络层协议进行处理;
所述的第一处理器103通常会对接收到的消息包进行传输层和网络层的处理,例如,第一处理器将接收的消息包根据TCP/IP标准协议对消息包进行解包、包序重排等操作;又或者,第一处理器将接收的消息包根据InfiniBand传输和InfiniBand网络层协议的规定对接收的消息包进行处理。
同样,所述的第一处理器103所接收到的消息包,可能是增强型以太网接口101经过处理后的消息包,也可能是第二处理器104产生并进过处理后的消息包,也可能是硬盘其他功能模块或硬件设备发送到所述第一处理器103的消息包,本发明实施例不做限定,只要是所述第一处理器103接收到的消息包,都会传输层和网络层协议对接收到的消息包进行处理。
值得强调的是,所述的第一处理器在具体实现上,可以是处理器的核(Core)中体现为功能模块;也可以是作为一个独立于处理器的核(Core)的专门的硬件装置,例如,利用一个专用协处理器实现。
参见图2,本发明实施例所提供的另一种实施例中,还可以是将第一处理器103作为一个功能模块集成到增强以太网接口中,和增强以太网接口101一起作为一个独立于处理器的核(Core)的专门的硬件装置,让硬盘的处理器的核(Core)102能够更加专注地处理业务逻辑,降低硬盘通用处理器的资源消耗。
第二处理器104,用于与硬盘控制器105通信,对接收到的消息包根据应用层业务逻辑进行处理;
第二处理器104对所接收到或所产生的消息包,将进行与网络传输无关的应用层消息的处理,包括但不限于对HTTP、P2P、iSCSCI、以及特定业务应用的处理;以大数据应用为例,第二处理器可执行Google以及开源Hadoop应用中的Map-Reduce任务。
第二处理器104和第一处理器在附图1中从逻辑上表示出两者分离,在实体上两者可以是物理上合并但逻辑上分离,也可以是两个物理上分离的功能模块。
其中,增强型以太网接口101对自己接收到的消息包处理后,可根据实际情况将处理后的消息包发送给第一处理器103,如果经过所述增强型以太网接口101处理后的消息包,不需要再经过第一处理器103或者第二处理器104处理,可直接发送给硬盘控制器105,由硬盘控制器105根据接收到的消息包中的指令对硬盘驱动(hard disk drive,HDD)进行操作;同样,所述第一处理器103在对所接收的消息包进行处理后,如果不需要再经过第二处理器104处理,可直接发送给硬盘控制器105,由硬盘控制器105根据第一消息包中的指令对HDD进行操作;因此:
硬盘控制器105,用于分别与所述第二处理器104、所述第一处理器103和所述增强型以太网接口101通信,根据接收的消息包中的指令对HDD的进行操作。
在实际应用中,应用层也会产生应用层消息包,例如:云存储应用中,本地硬盘作为三副本机制中的主本存放硬盘,需要将两个副本存放到其他硬盘中,则在应用层产生副本数据相关的消息包;或者,在大数据应用中,本地硬盘作为一个子任务的执行主体,在执行完成后,需要将产生的数据写入到其他存储节点继续处理,则在应用层产生消息包。因此,在本发明实施例中,所述第二处理器104,需要产生消息包,将消息包基于应用程序协议进行处理,因此:
所述第二处理器104,还用于产生消息包,对所述产生的消息包根据应用层业务逻辑进行处理,对根据应用层业务逻辑处理后的消息包发送给所述第一处理器103;
对所述第二处理器104产生的消息包,所述第一处理器103根据传输层和网络层协议进行处理,然后将处理后的消息包发送给增强型以太网接口101,由增强型以太网接口101对消息包根据增强型以太网协议进行处理后按照消息包中的指令将消息发送出去。
本发明实施例在硬盘上增加增强型以太网接口,区别于传统硬盘外接控制部件以提供MAC接口,而增强型以太网接口能够支持更多的协议,实现这些协议所支持的功能,发挥增强型以太协议在流量控制和时延处理的优势,并且能够根据网络情况可以选择传统硬盘不能支持但更有利于发挥局域网优势的设备互联的协议,硬盘连接方式更加灵活,使得网络良好的带宽条件得到发挥。
其中,本发明实施例提供的硬盘还包括和传统硬盘类似的部件,例如:
缓存106,电可编程只读存储器107,磁头音圈电机108,读写通道109,变压器110等,其功能和传统硬盘功能相似。
参见图3,本发明实施例还提供另一种硬盘,其中,在硬盘的第一处理器中集成远程内存直接存取(Remote Direct Memory Access,RDMA)引擎,当然,集成RDMA引擎的第一处理器可以作为一个独立于处理器的核(Core)专门的硬件装置,例如,利用一个专用协处理器实现。
本发明实施例中,所述第一处理器103会对消息进行传输层和应用层的处理,在所述第一处理器集成了RDMA引擎的情况下,对消息包在传输层和网络层的处理可以是:例如,若消息包在传输层和网络层中所遵从的协议是InfiniBand传输和InfiniBand网络层协议,所述第一处理器103会根据InfiniBand传输和InfiniBand网络层协议对接收到消息包进行处理;若消息包在传输层和网络层中所遵从的协议是远程直接内存访问(remotedirect memory access,RDMA)协议+直接数据放置(direct data placement,DDP)协议+对齐的标记协议处理单元(marker protocol data unit aligned,MPA)+传输控制协议和因特网互联(Transmission ControlProtocol/Internet,TCP/IP)协议(RDMAP+DDP+MPA+TCP/IP),则所述第一处理器103会根据RDMAP+DDP+MPA+TCP/IP协议对接收到的消息包进行处理。
图3是以第一处理器103作为一个功能模块集成在所述增强型以太网接口中作为举例,在所述第一处理器103集成了RDMA引擎的基础上,硬盘接收到远端设备发送过来的读写消息时,对读写消息的处理与传统硬盘不同,例如:
若增强型以太网接口接收到的消息包是第一写请求,增强型以太网接口将接收到的消息包根据增强型以太网协议进行处理,
网络处理单元103还用于,判断得到所述第一写请求是指令直接将数据写入本地硬盘内存中,根据所述第一写请求中的数据写入地址,调用RDMA引擎在本地内存中直接写入所述第一写请求对应的数据;
若增强型以太网接口接收到的消息包是第一读请求,增强型以太网接口将接收到的消息包根据增强型以太网协议进行处理之后:
所述第一处理器103还用于,判断得到第一读请求是指令直接从本地硬盘内存中读取数据,则根据所述第一读请求中的数据读出地址,调用RDMA引擎在本地内存中直接读出所述第一读请求对应的数据。
可选的,同样以第一处理器103作为一个功能模块集成在所述增强型以太网接口中作为举例,在所述第一处理器103集成了RDMA引擎的基础上,硬盘也可以产生往远端设备内存中直接读写数据的请求,因此:
所述第二处理器104还用于,产生消息包,包括往远端目标设备内存直接写入数据的第二写请求或直接读数据的第二读请求,所述第二写请求或第二读请求中携带有所述第二写请求或所述第二读请求对应数据在所述远端目标设备中的内存地址;对产生的所述第二写请求或第二读请求进行应用层的处理后,发送至所述第一处理器103;
所述第一处理器103还用于,判断得到所述第二写请求或第二读请求指令将对应数据直接往所述远端设备内存中写入或直接读出,调用RDMA引擎对第二写请求或第二读请求进行处理,将处理后的所述第二写请求或第二读请求发送给所述增强型以太网接口101;
所述增强型以太网接口101,具体用于基于增强型以太网协议和网络进行通信,对接收到的所述第二写请求或第二读请求基于增强以太协议进行处理,并将处理后的所述第二写请求或第二读请求发送至所述远端目标设备。
在本发明实施例中,在硬盘中的第一处理器103中集成了RDMA引擎,在硬盘间可以远程直接内存访问的RDMA技术,而不需要在两个硬盘之间建立socket通信来进行数据搬移,降低时延,提高了传输性能。
进一步,在本发明实施例中,第一处理器集成了RDMA引擎,传输层和网络层可以采用InfiniBand传输层和InfiniBand网络层协议,硬盘间可以采用融合以太网提供远程直接内存访问(RoCE)技术,或者传输层和网络层采用改进后的TCP/IP协议,例如前面提到的RDMAP+DDP+MPA+TCP/IP协议;因此在采用了RDMA技术后,硬盘组成的存储子系统中,传输层和网络层可以不采用需要通过硬盘IP地址寻址的传统的TCP/IP协议,而是将原有的一层IP(Flat IP)地址方式变成二级地址形态,例如链路层地址MAC,也可以是InfiniBand要求的设备ID等;而在存储子系统之间的互连可以选择传统的TCP/IP协议,InfiniBand或PCI Express等互连方式进行互连,通过增强以太网协议将硬盘聚合为存储子系统,再通过增强型以太网协议将存储子系统聚合为存储系统,例如,1或多个存储子系统可以组成一个云存储系统,其中交换机可以基于2层交换机、InfiniBand交换机、或PCI Express交换机,每个云存储子系统连接到交换机的寻址地址可以是InfiniBand要求的设备标识或PCIExpress设备标识,将大幅度减少了存储系统中IP地址。
参见图4提供另一个本发明实施例所提供的一种硬盘的应用场景,对本发明实施例中提供增强型以太网接口的硬盘暂且称为“增强型以太盘”,图4中,应用服务器和增强以太交换机互连,增强型以太盘基于增强型以太网协议和增强以太交换机互连,增强型以太盘中集成了RDMA引擎,通过前面实施例的描述,可以知道,集成在硬盘中的RDMA引擎具体是集成在硬盘中第一处理器中;
在某一个应用服务器需要将数据写入增强型以太盘2中,可以通过RDMA技术,将需要写入的数据通过RDMA技术从应用服务器RDMA单元写入到增强型以太盘2对应内存位置;在数据写入硬盘的内存以后,增强型以太盘2的第二处理器对写入该数据的内存段中的数据进行处理,例如:将其切片,按照本地硬盘数据放置算法计算数据如何在硬盘盘片上放置,然后通知硬盘控制器将所述数据写入盘片。反之亦然,当增强型以太盘2往应用服务器内存中写入数据时,增强型以太盘2的第二处理器通知硬盘控制器读取硬盘盘片上的数据到缓存,经过处理后,将其提供给增强型以太盘的增强型以太网接口,由增强型以太网接口中的第一处理器调用RDMA引擎,将数据交给应用服务器1中的内存区段处理。
其中,增强型以太盘通过RDMA技术将需要发送给远端设备的数据直接写入远端设备的对应内存区段中,远端设备读取内存段数据进行后续业务处理。同样的方式也可以产生在增强型以太盘之间。
本发明实施例提供的一种硬盘具有增强型以太网接口,发挥增强型以太协议在流量控制和时延处理的优势,并且能够根据网络情况选择更有利于发挥局域网优势的设备互联协议;并且,本发明实施例还可以在增强型以太接口中集成RDMA引擎,实现在硬盘间远程直接内存访问,降低了延时,提高了传输性能。
参见图5,本发明实施例还提供一种数据处理方法,应用于本发明实施例所提供的具有增强型以太网接口的硬盘,所述增强型以太网接口基于增强型以太网协议与网络进行通信,所述硬盘中集成远程内存直接访问RDMA引擎,本发明实施例所提供对硬盘的内存直接访问或发出直接访问内存的请求,所述方法包括:
步骤:51:接收到的是接收第一写请求,对接收到的所述第一写请求根据物理层和链路层协议进行处理;
步骤52:判断得到所述第一写请求是指令直接将所述第一写请求对应的数据写入本地内存中,对接收到的所述第一写请求根据传输层和网络层协议进行处理,根据所述第一写请求中的数据写入地址,调用RDMA引擎在本地内存中直接写入所述第一写请求对应的数据;
其中,当硬盘的增强型以太网接口接收到第一写请求,会对接收到的所述第一写请求根据物理层和链路层协议进行处理;当硬盘中的处理器判断得到所述第一写请求是指令直接将所述第一写请求对应的数据写入本地内存中,则调用RDMA引擎在本地内存中直接写入所述第一写请求对应的数据。
本发明实施例多提供的数据处理方法,应用于具有增强型以太网接口的硬盘中,通过在硬盘中集成RDMA引擎,例如,可以集成到硬盘的协处理器中,使得硬盘可以直接访问内存,从而降低写数据时延,提升写数据效率。
当硬盘接收的是从硬盘内存中直接读取数据的命令的情况,本方法实施例还可以包括:
步骤53:接收第一读请求,对接收到的所述第一读请求根据物理层和链路层协议进行处理;
步骤54:判断得到所述第一读请求是指令直接从本地内存中读取数据,对接收到的所述第一读请求根据传输层和网络层协议进行处理,根据所述第一读请求中的数据读出地址,调用RDMA引擎在本地内存中直接读取所述第一读请求对应的数据。
进一步,如同前面附图2对应的装置实施例中的描述,在云存储应用中,本地硬盘作为三副本机制中的主本存放硬盘,需要将两个副本存放到其中其他硬盘中,需要将两个副本存放到其他硬盘中,因此,硬盘中的处理器会产生副本数据相关的消息包,因此,本发明实施例所提供的数据处理方法,还包括:
步骤55:产生往远端目标设备内存中直接写入数据的第二写请求或直接读数据的第二读请求,所述第二写请求或第二读请求中携带有所述第二写请求或所述第二读请求对应数据在所述远端目标设备中的内存地址;对产生的所述第二写请求或第二读请求根据应用层业务逻辑进行处理;
步骤56:对根据应用层业务逻辑处理后的所述第二写请求或所述第二读请求根据传输层和网络层协议进行处理,调用RDMA引擎对所述第二写请求或所述第二读请求进行处理,将处理后的所述第二写请求或所述第二读请求发送给所述增强型以太网接口;
步骤57:所述增强型以太网接口对接收到的所述第二写请求或第二读请求基于增强以太协议进行处理,并将处理后的所述第二写请求或第二读请求发送至所述远端目标设备。
本发明实施例所提供的数据处理方法,在具有增强型以太网接口的硬盘中集成RDMA引擎,实现在硬盘间远程直接内存访问,降低了延时,提高了传输性能。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、闪存、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (12)
1.一种硬盘,其特征在于,包括:
增强型以太网接口,用于基于增强型以太网协议与网络进行通信,对接收到的消息包根据物理层和链路层协议进行处理;
第一处理器,用于与所述增强型以太网接口通信,对接收到的消息包机根据传输层和网络层协议进行处理;
第二处理器,用于分别与硬盘控制器和所述第一处理器通信,对接收到的消息包根据应用层业务逻辑进行处理;
硬盘控制器,用于分别于所述第二处理器、所述第一处理器和所述增强型以太网接口通信,根据接收的消息包中的指令对硬盘驱动进行操作。
2.根据权利要求1所述的硬盘,其特征在于,所述增强型以太网接口支持基于流控制优先PFC协议,增强传送控制ETC协议以及数据中心桥接能力交换DCBX协议。
3.根据权利要求1所述的硬盘,其特征在于,所述第一处理器集成在所述增强型以太网接口中。
4.根据权利要求3所述的硬盘,其特征在于,所述第一处理器,具体用于与所述增强型以太网接口通信,根据InfiniBand传输层和InfiniBand网络层协议对所接收的消息包进行传输层和网络层的处理。
5.根据权利要求3所述的硬盘,其特征在于,所述第一处理器,具体用于与所述增强型以太网接口通信,根据远程直接内存访问协议RDMAP+直接数据放置DDP协议+对齐的标记协议处理单元MPA+传输控制协议和因特网互联协议TCP/IP协议对所接收的消息包进行传输层和网络层的处理。
6.根据权利要求3-5任一所述的硬盘,其特征在于,所述第一处理器集成远程内存直接访问RDMA引擎。
7.根据权利要求6所述的硬盘,其特征在于:
当所述增强型以太网接口接收到的消息包为第一写请求,所述增强型以太网接口具体用于对接收到的所述第一写请求根据物理层和链路层协议进行处理;
所述第一处理器还用于,判断得到所述第一写请求是指令直接将所述第一写请求对应的数据写入本地硬盘内存中,根据所述第一写请求中的数据写入地址,调用RDMA引擎在本地内存中直接写入所述第一写请求对应的数据;
当增强型以太网接口接收到的消息包是第一读请求,所述增强型以太网接口具体用于对接收到的所述第一读请求根据物理层和链路层协议进行处理;
所述第一处理器还用于,判断得到第一读请求是指令直接从本地内存中直接读取所述第一读请求对应的数据,则根据所述第一读请求中的数据读出地址,调用RDMA引擎在本地内存中直接读出所述第一读请求对应的数据。
8.根据权利要求6所述的硬盘,其特征在于:
所述第二处理器还用于,产生消息包,包括往远端目标设备内存中直接写入数据的第二写请求或直接读数据的第二读请求,所述第二写请求或第二读请求中携带有所述第二写请求或所述第二读请求对应数据在所述远端目标设备中的内存地址;对产生的所述第二写请求或第二读请求根据应用层业务逻辑行进行处理后,发送至所述第一处理器;
所述第一处理器还用于,判断得到所述第二写请求或第二读请求指令将对应数据直接往所述远端设备内存中写入或直接读出,调用RDMA引擎对所述第二写请求或所述第二读请求进行处理,将处理后的所述第二写请求或第二读请求发送给所述增强型以太网接口;
所述增强型以太网接口,具体用于基于增强型以太网协议和网络进行通信,对接收到的所述第二写请求或第二读请求基于增强以太协议进行处理,并将处理后的所述第二写请求或第二读请求发送至所述远端目标设备。
9.根据权利要求6所述硬盘,其特征在于,所述硬盘基于增强型以太网协议和增强型以太交换机互连。
10.一种数据处理方法,其特征在于,应用于具有增强型以太网接口的硬盘,所述增强型以太网接口基于增强型以太网协议与网络进行通信,所述硬盘中集成远程内存直接访问RDMA引擎,所述方法包括:
接收第一写请求,对接收到的所述第一写请求根据物理层和链路层协议进行处理;
判断得到所述第一写请求是指令直接将所述第一写请求对应的数据写入本地内存中,对接收到的所述第一写请求根据传输层和网络层协议进行处理,根据所述第一写请求中的数据写入地址,调用RDMA引擎在本地内存中直接写入所述第一写请求对应的数据。
11.根据权利要求10所述的方法,其特征在于,还包括:
接收第一读请求,对接收到的所述第一读请求根据物理层和链路层协议进行处理;
判断得到所述第一读请求是指令直接从本地内存中读取数据,对接收到的所述第一读请求根据传输层和网络层协议进行处理,根据所述第一读请求中的数据读出地址,调用RDMA引擎在本地内存中直接读取所述第一读请求对应的数据。
12.根据权利要求10所述的方法,还包括:
产生往远端目标设备内存中直接写入数据的第二写请求或直接读数据的第二读请求,所述第二写请求或第二读请求中携带有所述第二写请求或所述第二读请求对应数据在所述远端目标设备中的内存地址;对产生的所述第二写请求或第二读请求根据应用层业务逻辑进行处理;
对根据应用层业务逻辑处理后的所述第二写请求或所述第二读请求根据传输层和网络层协议进行处理,调用RDMA引擎对所述第二写请求或所述第二读请求进行处理,将处理后的所述第二写请求或所述第二读请求发送给所述增强型以太网接口;
所述增强型以太网接口对接收到的所述第二写请求或第二读请求基于增强以太协议进行处理,并将处理后的所述第二写请求或第二读请求发送至所述远端目标设备。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2013/075928 WO2014186940A1 (zh) | 2013-05-20 | 2013-05-20 | 一种硬盘和数据处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103703441A true CN103703441A (zh) | 2014-04-02 |
CN103703441B CN103703441B (zh) | 2015-04-08 |
Family
ID=50363918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380000981.3A Active CN103703441B (zh) | 2013-05-20 | 2013-05-20 | 一种硬盘和数据处理方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20150032837A1 (zh) |
EP (1) | EP2840576A4 (zh) |
JP (1) | JP2016529575A (zh) |
CN (1) | CN103703441B (zh) |
WO (1) | WO2014186940A1 (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103995745A (zh) * | 2014-05-22 | 2014-08-20 | 华为技术有限公司 | 一种ip硬盘任务执行方法以及ip硬盘 |
CN104023081A (zh) * | 2014-06-19 | 2014-09-03 | 华为技术有限公司 | 网协ip硬盘的数据处理方法及ip硬盘 |
WO2015196815A1 (zh) * | 2014-06-24 | 2015-12-30 | 华为技术有限公司 | Ip硬盘与存储系统,及其数据操作方法 |
CN105247618A (zh) * | 2014-04-30 | 2016-01-13 | 华为技术有限公司 | 一种硬盘执行应用代码的方法及装置 |
WO2016050139A1 (zh) * | 2014-09-29 | 2016-04-07 | 华为技术有限公司 | 数据写入方法及装置 |
CN108255426A (zh) * | 2017-12-29 | 2018-07-06 | 北京联想核芯科技有限公司 | 一种ssd硬盘的数据处理方法和装置 |
CN108768669A (zh) * | 2018-08-14 | 2018-11-06 | 杭州创谐信息技术股份有限公司 | 基于asic可信远程内存交换卡及其数据交换方法 |
CN109918172A (zh) * | 2019-02-26 | 2019-06-21 | 烽火通信科技股份有限公司 | 一种虚拟机热迁移方法及系统 |
CN110888598A (zh) * | 2019-10-09 | 2020-03-17 | 宜鼎国际股份有限公司 | 数据储存装置、电子设备及可远程控制电子设备的系统 |
WO2020233442A1 (zh) * | 2019-05-22 | 2020-11-26 | 阿里巴巴集团控股有限公司 | 区块链与网络系统、数据接收与发送方法及设备 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105407137B (zh) * | 2015-10-22 | 2019-07-23 | 华为技术有限公司 | 一种数据迁移方法、ip硬盘、ip盘网关及存储系统 |
TWM526712U (zh) * | 2016-05-06 | 2016-08-01 | Portwell Inc | 可支援並自動辨識ip硬碟與sata硬碟的伺服器 |
CN112887227B (zh) * | 2021-01-15 | 2022-05-13 | 苏州浪潮智能科技有限公司 | 一种固态硬盘中的报文接收方法、系统及相关装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101047720A (zh) * | 2005-06-07 | 2007-10-03 | 美国博通公司 | 处理网络数据的方法和系统 |
CN101546601A (zh) * | 2009-05-13 | 2009-09-30 | 杭州华三通信技术有限公司 | 固态硬盘及存储系统 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002017315A2 (en) * | 2000-08-23 | 2002-02-28 | Seagate Technology Llc | Intelligent data storage device |
US7577707B2 (en) * | 2004-04-21 | 2009-08-18 | International Business Machines Corporation | Method, system, and program for executing data transfer requests |
US20060168091A1 (en) * | 2005-01-21 | 2006-07-27 | International Business Machines Corporation | RNIC-BASED OFFLOAD OF iSCSI DATA MOVEMENT FUNCTION BY INITIATOR |
US8028109B2 (en) * | 2006-03-09 | 2011-09-27 | Marvell World Trade Ltd. | Hard disk drive integrated circuit with integrated gigabit ethernet interface module |
CN101409715B (zh) * | 2008-10-22 | 2012-04-18 | 中国科学院计算技术研究所 | 一种利用InfiniBand网络进行通信的方法及系统 |
CN101442548B (zh) * | 2008-12-17 | 2012-09-05 | 成都市华为赛门铁克科技有限公司 | 一种固态硬盘的操作方法和固态硬盘 |
US20100183024A1 (en) * | 2009-01-21 | 2010-07-22 | Brocade Communications Systems, Inc | Simplified rdma over ethernet and fibre channel |
US8942139B2 (en) * | 2011-12-07 | 2015-01-27 | International Business Machines Corporation | Support for converged traffic over ethernet link aggregation (LAG) |
US10275375B2 (en) * | 2013-03-10 | 2019-04-30 | Mellanox Technologies, Ltd. | Network interface controller with compression capabilities |
US9258185B2 (en) * | 2013-04-10 | 2016-02-09 | Cisco Technology, Inc. | Fibre channel over Ethernet support in a trill network environment |
-
2013
- 2013-05-20 JP JP2016514231A patent/JP2016529575A/ja active Pending
- 2013-05-20 EP EP13882055.0A patent/EP2840576A4/en not_active Ceased
- 2013-05-20 WO PCT/CN2013/075928 patent/WO2014186940A1/zh active Application Filing
- 2013-05-20 CN CN201380000981.3A patent/CN103703441B/zh active Active
-
2014
- 2014-10-14 US US14/513,665 patent/US20150032837A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101047720A (zh) * | 2005-06-07 | 2007-10-03 | 美国博通公司 | 处理网络数据的方法和系统 |
CN101546601A (zh) * | 2009-05-13 | 2009-09-30 | 杭州华三通信技术有限公司 | 固态硬盘及存储系统 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10310876B2 (en) | 2014-04-30 | 2019-06-04 | Huawei Technologies Co., Ltd. | Executing application code based on manner of accessing a hard disk |
CN105247618A (zh) * | 2014-04-30 | 2016-01-13 | 华为技术有限公司 | 一种硬盘执行应用代码的方法及装置 |
CN105247618B (zh) * | 2014-04-30 | 2017-12-15 | 华为技术有限公司 | 一种硬盘执行应用代码的方法及装置 |
CN103995745B (zh) * | 2014-05-22 | 2017-09-05 | 华为技术有限公司 | 一种ip硬盘任务执行方法以及ip硬盘 |
CN103995745A (zh) * | 2014-05-22 | 2014-08-20 | 华为技术有限公司 | 一种ip硬盘任务执行方法以及ip硬盘 |
CN104023081B (zh) * | 2014-06-19 | 2018-03-13 | 华为技术有限公司 | 网协ip硬盘的数据处理方法及ip硬盘 |
CN104023081A (zh) * | 2014-06-19 | 2014-09-03 | 华为技术有限公司 | 网协ip硬盘的数据处理方法及ip硬盘 |
CN104077239B (zh) * | 2014-06-24 | 2017-04-26 | 华为技术有限公司 | Ip硬盘与存储系统,及其数据操作方法 |
WO2015196815A1 (zh) * | 2014-06-24 | 2015-12-30 | 华为技术有限公司 | Ip硬盘与存储系统,及其数据操作方法 |
US9965213B2 (en) | 2014-06-24 | 2018-05-08 | Huawei Technologies Co., Ltd. | IP hard disk and storage system, and data operation methods therefor |
WO2016050139A1 (zh) * | 2014-09-29 | 2016-04-07 | 华为技术有限公司 | 数据写入方法及装置 |
CN108255426A (zh) * | 2017-12-29 | 2018-07-06 | 北京联想核芯科技有限公司 | 一种ssd硬盘的数据处理方法和装置 |
CN108768669A (zh) * | 2018-08-14 | 2018-11-06 | 杭州创谐信息技术股份有限公司 | 基于asic可信远程内存交换卡及其数据交换方法 |
CN109918172A (zh) * | 2019-02-26 | 2019-06-21 | 烽火通信科技股份有限公司 | 一种虚拟机热迁移方法及系统 |
WO2020233442A1 (zh) * | 2019-05-22 | 2020-11-26 | 阿里巴巴集团控股有限公司 | 区块链与网络系统、数据接收与发送方法及设备 |
CN110888598A (zh) * | 2019-10-09 | 2020-03-17 | 宜鼎国际股份有限公司 | 数据储存装置、电子设备及可远程控制电子设备的系统 |
CN110888598B (zh) * | 2019-10-09 | 2024-01-19 | 宜鼎国际股份有限公司 | 数据储存装置、电子设备及可远程控制电子设备的系统 |
Also Published As
Publication number | Publication date |
---|---|
US20150032837A1 (en) | 2015-01-29 |
EP2840576A1 (en) | 2015-02-25 |
EP2840576A4 (en) | 2015-07-01 |
JP2016529575A (ja) | 2016-09-23 |
CN103703441B (zh) | 2015-04-08 |
WO2014186940A1 (zh) | 2014-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103703441B (zh) | 一种硬盘和数据处理方法 | |
US9934065B1 (en) | Servicing I/O requests in an I/O adapter device | |
US11640269B2 (en) | Solid-state drive with initiator mode | |
US8868804B2 (en) | Unified I/O adapter | |
CN103858111B (zh) | 一种实现聚合虚拟化中内存共享的方法、设备和系统 | |
US9892071B2 (en) | Emulating a remote direct memory access (‘RDMA’) link between controllers in a storage array | |
CN109117386A (zh) | 一种网络远程读写二级存储的系统及方法 | |
CN107526616B (zh) | 一种主机对bmc进行数据写入和读取的方法及装置 | |
CN114546913B (zh) | 一种基于pcie接口的多主机之间数据高速交互的方法和装置 | |
US10108572B1 (en) | Pipelined I/O adapter device with low-latency write requests retries | |
US20160170646A1 (en) | Implementing enhanced performance flash memory devices | |
CN104951239B (zh) | 高速缓存驱动器、主机总线适配器及其使用的方法 | |
US20220222016A1 (en) | Method for accessing solid state disk and storage device | |
US20180293987A1 (en) | Speech recognition method, device and system based on artificial intelligence | |
JP6788691B2 (ja) | OpenFabricsにおけるスループットの改善 | |
CN107430584A (zh) | 经由具有完全连接网格拓扑的pci express结构从存储读取数据 | |
CN107533526A (zh) | 经由具有完全连接网格拓扑的pci express结构向存储写入数据 | |
US11275698B2 (en) | Termination of non-volatile memory networking messages at the drive level | |
US11847049B2 (en) | Processing system that increases the memory capacity of a GPGPU | |
CN106897021A (zh) | 一种读写数据的方法和装置 | |
CN106502828A (zh) | 一种优化的基于lvm的远程复制方法 | |
CN108614873A (zh) | 一种数据处理方法及装置 | |
CN103702136A (zh) | 一种多媒体数据的存储方法及装置 | |
CN115529275B (zh) | 一种报文处理系统及方法 | |
CN113419669A (zh) | Io请求处理方法、装置、电子设备及计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |