CN103944750B - 一种绑定网卡故障处理方法及装置 - Google Patents

一种绑定网卡故障处理方法及装置 Download PDF

Info

Publication number
CN103944750B
CN103944750B CN201410096132.9A CN201410096132A CN103944750B CN 103944750 B CN103944750 B CN 103944750B CN 201410096132 A CN201410096132 A CN 201410096132A CN 103944750 B CN103944750 B CN 103944750B
Authority
CN
China
Prior art keywords
server
probe
microsoft loopback
loopback adapter
card
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410096132.9A
Other languages
English (en)
Other versions
CN103944750A (zh
Inventor
曾德勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Hengtang Technology Industry Co ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201410096132.9A priority Critical patent/CN103944750B/zh
Publication of CN103944750A publication Critical patent/CN103944750A/zh
Application granted granted Critical
Publication of CN103944750B publication Critical patent/CN103944750B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Small-Scale Networks (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种绑定网卡故障处理方法及装置,该方法应用于第一服务器,其中第一服务器设置有至少两个物理网卡,所述第一服务器通过所述至少两个物理网卡分别连接对应的交换机,所述第一服务器通过所述交换机与第二服务器连接,该方法包括:所述第一服务器针对所述至少两个物理网卡中的每个物理网卡生成对应的虚拟网卡组,其中,所述虚拟网卡组包括发送探针的探针虚拟网卡和发送数据的数据虚拟网卡;当确定第一探针虚拟网卡接收或发送探针消息失败,则确定所述第一探针虚拟网卡对应的通信通道故障。本发明实施例提供的方法和装置能够自动检测服务器之间多个通信通道的故障情况,从而选择出通信正常的通道保证服务器数据传输的稳定性。

Description

一种绑定网卡故障处理方法及装置
技术领域
本发明涉及网络技术领域,尤其涉及一种绑定网卡故障处理方法及装置。
背景技术
现今几乎各行各业内部都建立了自己的服务器,由于服务器的特殊地位,它的可靠性和可用性就显得非常的重要。保持服务器的高可靠性和高可用性是企业级信息技术(Information Technology,IT)环境的重要指标,而这其中最重要的一点是服务器网络连接的高可靠性和高可用性。为实现服务器网络连接的高可靠性要求,现在服务器大都采用多网卡配置,随之出现了将服务器的多个网卡接口绑定在一起的链路聚集技术。链路聚集技术将多个链路虚拟成一个逻辑链路进而提供了一种廉价、有效的方法扩展网络设备和服务器的带宽,提高网络的灵活性与可用性。
例如:Linux2.4.x的内核中采用了Linux bonding技术,利用bonding技术可以将多块网卡接口通过绑定虚拟成为一块网卡,在用户看来这个聚合起来的设备好像是一个单独的以太网接口设备在工作。
如图1所示,现在的技术方案中,服务器S1通过绑定双网口(NIC1/NIC2)连接到交换机(W1和W2),服务器S2通过绑定双网口(NIC3/NIC4)连接同样到交换机(W1和W2)。这样两台服务器之间组成了冗余的两条通信通道(S1<->NIC1<->W1<->NIC3<->S2)和(S1<->NIC2<->W2<->NIC4<->S2)。一条通信通道出现故障的时候,bonding自动将通信通道切换到冗余的另外一条上来实现通信的高可靠性。
绑定模块(Bonding)分别运行在服务器S1和服务器S2上,运行在S1上的绑定模块(Bonding)只能检测服务器S1到交换机(W1/W2)的连接状态,不能检测交换机另一侧服务器S2到交换机(W1/W2)的连接状态。同样运行在S2上的绑定模块(Bonding)也只能检测S2到交换机(W1/W2)的连接状态。
但是如下场景下将会出现检测不到通信故障的问题:服务器S1启动并使用网卡绑定,S1上的绑定模块(Bonding)检测到网卡(NIC1/NIC2)正常工作并选定NIC1作为主用网卡。服务器S2启动并绑定网卡,S2上的绑定模块(Bonding)检测到NIC3故障,于是将选定NIC4作为主用网卡。由于NIC1和NIC4之间不存在网络通路,从而导致服务器S1和服务器S2之间不能正常通信。
所以现有技术中将服务器的多个网卡接口绑定在一起的链路聚集技术,存在以下技术问题:
现有实现方案使用bonding模块自动检测、自动切换的方式来组成双链路。在交换机的一侧网络通道故障时,该侧服务器已经切换通信通道的情况下,另一侧服务器的网卡绑定模块检测不到异常,不会主动切换链路,导致两台服务器选择将连接到不同交换机的网卡置为主用网卡,从而导致服务器之间的通信通道不可用。
另外,现有实现方案使用bonding模块自动检测方案,使用网口电路检测或者通过ping网络内有限的几个地址来检测网络断开。这两种检测方式在网口出现非连续性丢包等异常场景下不能检测到通信通道是否故障,从而不能实现网口切换。
发明内容
本发明实施例提供一种绑定网卡故障处理方法及装置,用于解决现有技术将服务器的多个网卡接口绑定在一起的链路聚集技术中,在一些情况下不能准确检出网卡故障的问题。
第一方面,提供一种绑定网卡故障处理方法,第一服务器设置有至少两个物理网卡,所述第一服务器通过所述至少两个物理网卡分别连接对应的交换机,所述第一服务器通过所述交换机与第二服务器连接,所述第一服务器通过所述至少两个物理网卡和所述第二服务器之间形成至少两条通信通道,该方法包括:
所述第一服务器针对所述至少两个物理网卡中的每个物理网卡生成对应的虚拟网卡组,其中,所述虚拟网卡组包括探针虚拟网卡和数据虚拟网卡,其中,所述探针虚拟网卡用于发送探针消息,所述探针消息用于检测所述通信通道故障情况,所述数据虚拟网卡用于发送数据报文;
当确定第一探针虚拟网卡接收或发送探针消息失败,则确定所述第一探针虚拟网卡对应的通信通道故障。
结合第一方面,在第一种可能的实现方式中,所述确定所述第一探针虚拟网卡对应的通信通道故障之后,该方法进一步包括:
根据预设的虚拟网卡组与物理网卡的对应关系,确定所述第一探针虚拟网卡对应的第一物理网卡,进而确定所述第一物理网卡出现通信通道故障。
结合第一方面或第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述确定所述第一探针虚拟网卡对应的通信通道故障之后,该方法还包括:
根据所述物理网卡和虚拟网卡组的对应关系,确定与所述第一探针虚拟网卡对应的第一数据虚拟网卡;
在所述数据虚拟网卡中,将所述第一数据虚拟网卡切换为备用网卡,将所述数据虚拟网卡中除所述第一数据虚拟网卡外的另一数据虚拟网卡切换为主用网卡。
结合第一方面至第一方面二种可能的实现方式中的任一种可能的实现方式,在第三种可能的实现方式中,所述确定第一探针虚拟网卡接收或发送探针消息失败具体包括:
检测设定时间段内所述第一探针虚拟网卡接收或发送探针消息的数量是否小于预设阈值,如果是,则确定第一探针虚拟网卡接收或发送探针消息失败。
第二方面,提供一种服务器,该服务器为第一服务器且设置有至少两个物理网卡,所述第一服务器通过所述至少两个物理网卡分别连接对应的交换机,所述第一服务器通过所述交换机与第二服务器连接,所述第一服务器通过所述至少两个物理网卡和所述第二服务器之间形成至少两条通信通道,所述第一服务器包括:
虚拟网卡生成模块,用于针对所述至少两个物理网卡中的每个物理网卡生成对应的虚拟网卡组,其中,所述虚拟网卡组包括探针虚拟网卡和数据虚拟网卡;其中,所述探针虚拟网卡用于发送探针消息,所述探针消息用于检测所述通信通道故障情况,所述数据虚拟网卡用于发送通信数据;
通道故障确定模块,用于确定第一探针虚拟网卡接收或发送探针消息失败,则确定所述第一探针虚拟网卡对应的通信通道故障。
结合第二方面,在第一种可能的实现方式中,该服务器还包括:
网卡故障确定模块,用于根据预设的虚拟网卡组与物理网卡的对应关系,确定所述第一探针虚拟网卡对应的第一物理网卡,进而确定所述第一物理网卡出现通信通道故障。
结合第二方面或第二方面的第一种可能的实现方式,在第二种可能的实现方式中,该服务器还包括:
切换模块,用于根据所述物理网卡和虚拟网卡组的对应关系,确定与所述第一探针虚拟网卡对应的第一数据虚拟网卡;在所述数据虚拟网卡中,将所述第一数据虚拟网卡切换为备用网卡,将所述数据虚拟网卡中除所述第一数据虚拟网卡外的另一数据虚拟网卡切换为主用网卡。
结合第二方面至第二方面二种可能的实现方式中的任一种可能的实现方式,在第三种可能的实现方式中,所述通道故障确定模块确定第一探针虚拟网卡接收或发送探针消息失败具体包括:检测设定时间段内所述第一探针虚拟网卡接收或发送探针消息的数量是否小于预设阈值,如果是,则确定第一探针虚拟网卡接收或发送探针消息失败。
第三方面,提供一种绑定网卡故障处理系统,该系统包括第一服务器、第二服务器和交换机,所述第一服务器设置有至少两个物理网卡,所述第一服务器通过所述至少两个物理网卡分别连接对应的交换机,所述第一服务器通过所述交换机与第二服务器连接,所述第一服务器通过所述至少两个物理网卡和所述第二服务器之间形成至少两条通信通道,其中,
所述第一服务器,用于针对所述至少两个物理网卡中的每个物理网卡生成对应的虚拟网卡组,其中,所述虚拟网卡组包括探针虚拟网卡和数据虚拟网卡,其中,所述探针虚拟网卡用于发送探针消息,所述探针消息用于检测所述通信通道故障情况,所述数据虚拟网卡用于发送数据报文;
当确定第一探针虚拟网卡接收或发送探针消息失败,则确定所述第一探针虚拟网卡对应的通信通道故障;
所述交换机,用于连接所述第一服务器和所述第二服务器;
所述第二服务器,用于通过所述交换机与所述第一服务器建立所述至少两条通信通道。
结合第三方面,在第一种可能的实现方式中,所述第一服务器,还用于在所述第一探针虚拟网卡对应的通信通道故障之后,根据预设的虚拟网卡组与物理网卡的对应关系,确定所述第一探针虚拟网卡对应的第一物理网卡,进而确定所述第一物理网卡出现通信通道故障。
结合第三方面,在第二种可能的实现方式中,所述第一服务器,还用于根据所述物理网卡和虚拟网卡组的对应关系,确定与所述第一探针虚拟网卡对应的第一数据虚拟网卡;在所述数据虚拟网卡中,将所述第一数据虚拟网卡切换为备用网卡,将所述数据虚拟网卡中除所述第一数据虚拟网卡外的另一数据虚拟网卡切换为主用网卡。
上述技术方案中的一个或两个,至少具有如下技术效果:
本发明实施例提供的方法和装置能够自动检测服务器之间多个通信通道的故障情况,从而能够选择出通信正常的通道和对应的物理网卡保证服务器数据传输的稳定性。
另外,根据物理网卡和虚拟网卡组中各虚拟网卡的对应关系,将虚拟网卡组中通信故障的虚拟网卡切换为备用状态,将对应的虚拟网卡组中通信正常的虚拟网卡切换为主用状态,达到各种故障场景下自动切换绑定组中主用网卡的目的。
附图说明
图1为现有技术中采用了Linux bonding将多块网卡接口通过绑定虚拟成为一块网卡的服务器结构示意图;
图2为本发明实施例一提供的一种绑定网卡故障处理方法流程示意图;
图3为本发明实施例二提供的一种服务器的结构示意图;
图4为本发明实施例三所提供两个服务器连接结构示意图;
图5为利用本发明实施例提供服务器实现网络链路检测方法流程示意图;
图6为利用本发明实施例提供一种绑定网卡故障处理系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如图2所示,针对现有技术中存在的问题,本发明实施例提供一种绑定网卡故障处理方法,本发明实施例所提供的方法可以是应用在多个服务器通过交换机互联的场景中,为了方便描述在该实施例中以两个交换机进行互联为例对本发明实施例所提供的方法进行说明:
其中,本发明实施例提供的方法可以应用于第一服务器中,所述第一服务器设置有至少两个物理网卡,所述第一服务器通过所述至少两个物理网卡分别连接对应的交换机,所述第一服务器通过所述交换机与第二服务器连接,所述第一服务器通过所述至少两个物理网卡和所述第二服务器之间形成至少两条通信通道,该方法包括:
步骤201,所述第一服务器针对所述至少两个物理网卡中的每个物理网卡生成对应的虚拟网卡组,其中,所述虚拟网卡组包括探针虚拟网卡和数据虚拟网卡,其中,所述探针虚拟网卡用于发送探针消息,所述探针消息用于检测所述通信通道故障情况,所述数据虚拟网卡用于发送数据报文;
在本发明实施例中,为了保证物理网卡发送数据报文的功能,有进一步的实现本发明实施例所要求的探针数据的发送,所以本发明实施例中会针对每个物理网卡生成对应的两个虚拟网卡(即所述虚拟网卡组);每个物理网卡都对应一个探针虚拟网卡和一个数据虚拟网卡。所述探针虚拟网卡用来控制物理网卡发送探针消息;所述数据虚拟网卡则控制物理网卡发送服务器交互的数据报文。
在该实施例中因为服务器存在两个物理网卡,所以会对应的生成四个虚拟网卡。
步骤202,当确定第一探针虚拟网卡接收或发送探针消息失败,则确定所述第一探针虚拟网卡对应的通信通道故障。
在该实施例中,针对现有实现方案使用bonding模块自动检测方案,使用网卡电路检测或者通过ping网络内有限的几个地址来检测网络断开。这两种检测方式在网卡出现非连续性丢包错包等异常场景下不能检测到通信通道是否故障,从而不能实现网卡切换的问题。为了克服上述问题本发明实施例所提供的方案中则选择了探针方式来检测网络的故障。因为探针消息是在两个连接的服务器(如第一服务器和第二服务)之间发送的,即端到端的数据通信,能够检测到第一服务器到第二服务器之间的完整通信通路的状况。所以就能避免现有技术中bonding模块的自动检测只能检测到交换机一侧网络通道故障,不能检测到一些特殊情况下网络故障的问题。
针对探针发送的特点,本发明实施例所述确定第一探针虚拟网卡接收或发送探针消息失败具体包括:
检测设定时间段内所述第一探针虚拟网卡接收或发送探针消息的数量是否小于预设阈值,如果是,则确定第一探针虚拟网卡接收或发送探针消息失败。
服务器出现非连续性丢包等情况就会影响到探针的数量,所以通过接收和/或发送探针的数量来确定通信通道是否故障,就可以检测出服务器连续丢包的情况,从而更准确的确定出服务器的连接故障。
在本发明实施例上述方法实施之后,只能检测出两个服务器连接某一条通信通道故障,但是造成通信通道故障的原因很多,为了保证通信通道故障后服务器还能够稳定的进行数据传输,以及进一步的确定造成故障的原因以便对所述服务器以及通信网络进行维护,所以本发明实施例所提供的方法还包括:
首先,为了保证服务器数据传输的稳定性,则在检测到某一条通信通道故障后,则需要进行数据通道的切换,则切换到另一条正常的通信通道进行通信,所以在该方法中确定所述第一物理网卡出现通信通道故障之后,该方法还包括:
根据所述物理网卡和虚拟网卡组的对应关系,确定与所述第一探针虚拟网卡对应的第一数据虚拟网卡;
在所述数据虚拟网卡中,将所述第一数据虚拟网卡切换为备用网卡,将所述数据虚拟网卡中除所述第一数据虚拟网卡外的另一数据虚拟网卡切换为主用网卡。
其次,进一步的确定造成故障的原因以便对所述服务器以及通信网络进行维护,所以还可以通过虚拟网卡与物理网卡的对应关系找到对应的物理网卡,进一步排查对应的物理网卡是否出现故障,所以在本发明实施例所提供的方法中所述确定所述第一探针虚拟网卡对应的通信通道故障之后,该方法进一步包括:
根据预设的虚拟网卡组与物理网卡的对应关系,确定所述第一探针虚拟网卡对应的第一物理网卡,进而确定所述第一物理网卡出现通信通道故障。
通过上述方法描述,可以确定本发明实施例提供的方法和装置能够自动检测服务器之间多个通信通道的故障情况,选择出通信正常的通道和对应的物理网卡。
另外,根据物理网卡和虚拟网卡组中各虚拟网卡的对应关系,将虚拟网卡组中通信故障的虚拟网卡切换为备用状态,将对应的虚拟网卡组中通信正常的虚拟网卡切换为主用状态,达到各种故障场景下自动切换绑定组中主用网卡的目的。
同时本发明实施例提供的方法将主机上的大量应用(包括其上的虚拟机)从复杂的网络故障检测和故障切换中解放出来,共用故障检测程序的网卡检测和切换,达到上层无感知、高可靠使用底层多网卡通信。并且本发明实施例提供的方法无需特殊交换机支持,无需特殊网卡支持,是一种通用的绑定网卡故障自动切换方法,适用于各种复杂的应用场景。
实施例二
如图3所示,针对上述方法,本发明实施例还提供一种服务器300,该服务器为第一服务器300且设置有至少两个物理网卡,所述第一服务器通过所述至少两个物理网卡分别连接对应的交换机,所述第一服务器通过所述交换机与第二服务器连接,所述第一服务器通过所述至少两个物理网卡和所述第二服务器之间形成至少两条通信通道,所述第一服务器包括:
虚拟网卡生成模块301,用于针对所述至少两个物理网卡中的每个物理网卡生成对应的虚拟网卡组,其中,所述虚拟网卡组包括探针虚拟网卡和数据虚拟网卡;其中,所述探针虚拟网卡用于发送探针消息,所述探针消息用于检测所述通信通道故障情况,所述数据虚拟网卡用于发送通信数据;
通道故障确定模块302,用于确定第一探针虚拟网卡接收或发送探针消息失败,则确定所述第一探针虚拟网卡对应的通信通道故障。
在本发明实施例中,为了避免网卡出现非连续性丢包错包等异常场景下不能检测到通信通道是否故障的问题,本发明实施例所提供的通道故障确定模块302还针对探针的特点进行通信通道的检测,所以:
所述通道故障确定模块302确定第一探针虚拟网卡接收或发送探针消息失败具体包括:检测设定时间段内所述第一探针虚拟网卡接收或发送探针消息的数量是否小于预设阈值,如果是,则确定第一探针虚拟网卡接收或发送探针消息失败。
进一步的确定造成故障的原因以便对所述服务器以及通信网络进行维护,所以还可以通过虚拟网卡与物理网卡的对应关系找到对应的物理网卡,进一步排查对应的物理网卡是否出现故障,所以在本发明实施例提供的该服务器还包括:
网卡故障确定模块303,用于根据预设的虚拟网卡组与物理网卡的对应关系,确定所述第一探针虚拟网卡对应的第一物理网卡,进而确定所述第一物理网卡出现通信通道故障。
另外,为了保证服务器数据传输的稳定性,则在检测到某一条通信通道故障后,则需要进行数据通道的切换,该服务器还包括:
切换模块304,用于根据所述物理网卡和虚拟网卡组的对应关系,确定与所述第一探针虚拟网卡对应的第一数据虚拟网卡;在所述数据虚拟网卡中,将所述第一数据虚拟网卡切换为备用网卡,将所述数据虚拟网卡中除所述第一数据虚拟网卡外的另一数据虚拟网卡切换为主用网卡。
实施例三
为了更详细的说明本发明实施例所提供的方法和装置,以下结合图4所示的服务器连接结构以及图5的方法流程对本发明实施例所提供的方案做进一步详细的说明,具体包括:
首先图4所示的连接结构具体为:
在服务器S1上对两块网卡进行虚拟化处理,将物理网卡NIC1虚拟为网卡vnic11和vnic12,将物理网卡NIC2虚拟为网卡vnic21和vnic22。将服务器S1虚拟出来的四块虚拟网卡按照图示组合。vnic11和vnic21组合起来作为一组,用于故障检测。vnic12和vnic22绑定起来,给业务层做通信使用。在服务器S2上做同样的处理。
服务器S1的故障检测模块使用虚拟网卡组(vnic11和vnic21),同时在vnic11和vnic21两个通信通道上周期性(周期为1秒)发送探针消息,服务器S2接收到此消息,如果持续收到探针消息,说明通信通道正常。如果一段时间内某个虚拟网卡(vnic31或vnic41)连续接收不到探针消息或者断断续续收到探针消息,说明该虚拟网卡(vnic31或vnic41)对应的通信通道故障。同时在服务器S2也发送探针消息探测检测S2->S1的通信通道故障情况。
故障检测模块检测到某一条通信通道故障或者异常后,首先根据检测使用的虚拟网卡组(vnic11和vnic21)和物理网卡(NIC1和NIC2)的对应关系,确定通信通道异常的物理网卡。然后根据物理网卡(NIC1和NIC2)和链路聚集使用的虚拟网卡组(vnic12和vnic22)的对应关系,确定通信通道异常的虚拟网卡(vnic12或vnic22)。最后在绑定组(bonding)中将通信通道异常的虚拟网卡切换为备用网卡,将通信通道正常的虚拟网卡切换为主用网卡。
如图5所示的方法流程,本发明实施例所提供的方法应用到图4所示的连接结构中时,具体实现步骤包括:
步骤501,初始化,服务器S1和S2创建故障检测用的探针虚拟网卡;
步骤502,初始化,服务器S1和S2创建业务使用的数据虚拟网卡;
可以在虚拟网卡上创建绑定组,即将所有的探针虚拟网卡绑定为一块虚拟网卡,将所有的数据虚拟网卡绑定为一个块虚拟网卡。
步骤503,服务器S1和S2的故障检测模块分别同时在两个物理网卡对应得到两块探针虚拟网卡上发送探针消息,一秒一次,如果出现发送失败,则记录对应探针虚拟网卡发送失败。
步骤504,服务器S1和S2的故障检测模块接收探针消息,如果一段时间持续接收不到探针消息,记录对应虚拟网卡接收失败。
步骤505,服务器S1和S2故障检测模块综合发送失败记录和接收失败记录,判定对应虚拟网卡通信故障或者通信质量差;
根据物理网卡生成虚拟网卡的对应关系,判定对应的物理网卡故障。
步骤506,服务器S1和S2故障检测模块根据物理网卡和bonding组中虚拟网卡的生成关系,判定对应的数据虚拟网卡故障,将bonding组中故障的数据虚拟网卡状态置为备用状态,将bonding组中的正常的数据虚拟网卡状态置为主用状态。
实施例四
如图6所示,针对上述方法本发明实施例是很还提供一种绑定网卡故障处理系统,该系统包括第一服务器601、第二服务器602和交换机603,所述第一服务器601设置有至少两个物理网卡,所述第一服务器601通过所述至少两个物理网卡分别连接对应的交换机603,所述第一服务器601通过所述交换机603与第二服务器602连接,所述第一服务器601通过所述至少两个物理网卡和所述第二服务器602之间形成至少两条通信通道,其中,
所述第一服务器601,用于针对所述至少两个物理网卡中的每个物理网卡生成对应的虚拟网卡组,其中,所述虚拟网卡组包括探针虚拟网卡和数据虚拟网卡,其中,所述探针虚拟网卡用于发送探针消息,所述探针消息用于检测所述通信通道故障情况,所述数据虚拟网卡用于发送数据报文;当确定第一探针虚拟网卡接收或发送探针消息失败,则确定所述第一探针虚拟网卡对应的通信通道故障;
所述交换机603,用于连接所述第一服务器601和所述第二服务器602;
所述第二服务器602,用于通过所述交换机603与所述第一服务器601建立所述至少两条通信通道。
在该实施例中,只能检测出两个服务器连接某一条通信通道故障,但是造成通信通道故障的原因很多,为了保证通信通道故障后服务器还能够稳定的进行数据传输,以及进一步的确定造成故障的原因以便对所述服务器以及通信网络进行维护,所以本发明实施例所提供的服务器还可以实现以下功能:
所述第一服务器601,还用于在所述第一探针虚拟网卡对应的通信通道故障之后,根据预设的虚拟网卡组与物理网卡的对应关系,确定所述第一探针虚拟网卡对应的第一物理网卡,进而确定所述第一物理网卡出现通信通道故障。
所述第一服务器601,还用于根据所述物理网卡和虚拟网卡组的对应关系,确定与所述第一探针虚拟网卡对应的第一数据虚拟网卡;在所述数据虚拟网卡中,将所述第一数据虚拟网卡切换为备用网卡,将所述数据虚拟网卡中除所述第一数据虚拟网卡外的另一数据虚拟网卡切换为主用网卡。
本申请实施例中的上述一个或多个技术方案,至少具有如下的技术效果:
本发明实施例提供的方法和装置能够自动检测服务器之间多个通信通道的故障情况,从而能够选择出通信正常的通道和对应的物理网卡保证服务器数据传输的稳定性。
另外,根据物理网卡和虚拟网卡组中各虚拟网卡的对应关系,将虚拟网卡组中通信故障的虚拟网卡切换为备用状态,将对应的虚拟网卡组中通信正常的虚拟网卡切换为主用状态,达到各种故障场景下自动切换绑定组中主用网卡的目的。
故障检测模块根据探针消息的发送失败记录和接收失败记录切换绑定组中的主用网卡,从而避免了bonding链路聚集组中存在通信断开的网卡或者通信质量不高的网卡承载业务流量的情况,提升了网络通信通道的可靠性。
本发明实施例提供的方法和装置将主机上的大量应用(包括其上的虚拟机)从复杂的网络故障检测和故障切换中解放出来,共用故障检测程序的网卡检测和切换,达到上层无感知、高可靠使用底层多网卡通信。并且本发明实施例提供的方法无需特殊交换机支持,无需特殊网卡支持,是一种通用的绑定网卡故障自动切换方法,适用于各种复杂的应用场景。
本发明实施例提供的方法并不限于上述具体实施方式,本领域技术人员根据本发明实施例提供的技术方案得出其它的实施方式,同样属于本发明的技术创新范围。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种绑定网卡故障处理方法,其特征在于,第一服务器设置有至少两个物理网卡,所述第一服务器通过所述至少两个物理网卡分别连接对应的交换机,所述第一服务器通过所述交换机与第二服务器连接,所述第一服务器通过所述至少两个物理网卡和所述第二服务器之间形成至少两条通信通道,该方法包括:
所述第一服务器针对所述至少两个物理网卡中的每个物理网卡生成对应的虚拟网卡组,其中,所述虚拟网卡组包括探针虚拟网卡和数据虚拟网卡,其中,所述探针虚拟网卡用于发送探针消息,所述探针消息用于检测所述通信通道故障情况,所述数据虚拟网卡用于发送数据报文;
当确定第一探针虚拟网卡接收或发送探针消息失败,则确定所述第一探针虚拟网卡对应的通信通道故障;
所述确定所述第一探针虚拟网卡对应的通信通道故障之后,该方法进一步包括:
根据预设的虚拟网卡组与物理网卡的对应关系,确定所述第一探针虚拟网卡对应的第一物理网卡,进而确定所述第一物理网卡出现通信通道故障。
2.如权利要求1所述的方法,其特征在于,所述确定所述第一探针虚拟网卡对应的通信通道故障之后,该方法还包括:
根据所述物理网卡和虚拟网卡组的对应关系,确定与所述第一探针虚拟网卡对应的第一数据虚拟网卡;
在所述数据虚拟网卡中,将所述第一数据虚拟网卡切换为备用网卡,将所述数据虚拟网卡中除所述第一数据虚拟网卡外的另一数据虚拟网卡切换为主用网卡。
3.如权利要求1或2所述的方法,其特征在于,所述确定第一探针虚拟网卡接收或发送探针消息失败具体包括:
检测设定时间段内所述第一探针虚拟网卡接收或发送探针消息的数量是否小于预设阈值,如果是,则确定第一探针虚拟网卡接收或发送探针消息失败。
4.一种服务器,其特征在于,该服务器为第一服务器且设置有至少两个物理网卡,所述第一服务器通过所述至少两个物理网卡分别连接对应的交换机,所述第一服务器通过所述交换机与第二服务器连接,所述第一服务器通过所述至少两个物理网卡和所述第二服务器之间形成至少两条通信通道,所述第一服务器包括:
虚拟网卡生成模块,用于针对所述至少两个物理网卡中的每个物理网卡生成对应的虚拟网卡组,其中,所述虚拟网卡组包括探针虚拟网卡和数据虚拟网卡;其中,所述探针虚拟网卡用于发送探针消息,所述探针消息用于检测所述通信通道故障情况,所述数据虚拟网卡用于发送通信数据;
通道故障确定模块,用于确定第一探针虚拟网卡接收或发送探针消息失败,则确定所述第一探针虚拟网卡对应的通信通道故障;
网卡故障确定模块,用于根据预设的虚拟网卡组与物理网卡的对应关系,确定所述第一探针虚拟网卡对应的第一物理网卡,进而确定所述第一物理网卡出现通信通道故障。
5.如权利要求4所述的服务器,其特征在于,该服务器还包括:
切换模块,用于根据所述物理网卡和虚拟网卡组的对应关系,确定与所述第一探针虚拟网卡对应的第一数据虚拟网卡;在所述数据虚拟网卡中,将所述第一数据虚拟网卡切换为备用网卡,将所述数据虚拟网卡中除所述第一数据虚拟网卡外的另一数据虚拟网卡切换为主用网卡。
6.如权利要求4或5所述的服务器,其特征在于,所述通道故障确定模块确定第一探针虚拟网卡接收或发送探针消息失败具体包括:检测设定时间段内所述第一探针虚拟网卡接收或发送探针消息的数量是否小于预设阈值,如果是,则确定第一探针虚拟网卡接收或发送探针消息失败。
7.一种绑定网卡故障处理系统,其特征在于,该系统包括第一服务器、第二服务器和交换机,所述第一服务器设置有至少两个物理网卡,所述第一服务器通过所述至少两个物理网卡分别连接对应的交换机,所述第一服务器通过所述交换机与第二服务器连接,所述第一服务器通过所述至少两个物理网卡和所述第二服务器之间形成至少两条通信通道,其中,
所述第一服务器,用于针对所述至少两个物理网卡中的每个物理网卡生成对应的虚拟网卡组,其中,所述虚拟网卡组包括探针虚拟网卡和数据虚拟网卡,其中,所述探针虚拟网卡用于发送探针消息,所述探针消息用于检测所述通信通道故障情况,所述数据虚拟网卡用于发送数据报文;
当确定第一探针虚拟网卡接收或发送探针消息失败,则确定所述第一探针虚拟网卡对应的通信通道故障;
所述交换机,用于连接所述第一服务器和所述第二服务器;
所述第二服务器,用于通过所述交换机与所述第一服务器建立所述至少两条通信通道;
所述第一服务器,还用于在所述第一探针虚拟网卡对应的通信通道故障之后,根据预设的虚拟网卡组与物理网卡的对应关系,确定所述第一探针虚拟网卡对应的第一物理网卡,进而确定所述第一物理网卡出现通信通道故障。
8.如权利要求7所述的系统,其特征在于,所述第一服务器,还用于根据所述物理网卡和虚拟网卡组的对应关系,确定与所述第一探针虚拟网卡对应的第一数据虚拟网卡;在所述数据虚拟网卡中,将所述第一数据虚拟网卡切换为备用网卡,将所述数据虚拟网卡中除所述第一数据虚拟网卡外的另一数据虚拟网卡切换为主用网卡。
CN201410096132.9A 2014-03-14 2014-03-14 一种绑定网卡故障处理方法及装置 Active CN103944750B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410096132.9A CN103944750B (zh) 2014-03-14 2014-03-14 一种绑定网卡故障处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410096132.9A CN103944750B (zh) 2014-03-14 2014-03-14 一种绑定网卡故障处理方法及装置

Publications (2)

Publication Number Publication Date
CN103944750A CN103944750A (zh) 2014-07-23
CN103944750B true CN103944750B (zh) 2017-08-29

Family

ID=51192248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410096132.9A Active CN103944750B (zh) 2014-03-14 2014-03-14 一种绑定网卡故障处理方法及装置

Country Status (1)

Country Link
CN (1) CN103944750B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106656659B (zh) * 2016-11-30 2020-12-29 浙江宇视科技有限公司 一种网络路径的选择方法以及网络硬盘录像机
CN106612233B (zh) * 2016-12-29 2019-12-13 广州华多网络科技有限公司 一种多通道网络切换方法和系统
CN108462589B (zh) * 2017-02-20 2019-06-11 视联动力信息技术股份有限公司 一种终端的网络连接方法和装置
CN107342894A (zh) * 2017-06-22 2017-11-10 光大环保能源(常州)有限公司 一种用于垃圾焚烧炉的通讯系统及其控制系统和实现方法
CN107390804A (zh) * 2017-06-22 2017-11-24 安徽康海时代科技股份有限公司 带端子的双网四串口服务器
CN108390798A (zh) * 2018-02-28 2018-08-10 郑州云海信息技术有限公司 服务器双网口工作的控制方法、装置、设备及存储介质
CN108718398A (zh) * 2018-05-25 2018-10-30 苏州科达科技股份有限公司 视频会议系统的码流传输方法、装置及会议设备
CN109683814A (zh) * 2018-12-03 2019-04-26 郑州云海信息技术有限公司 一种共享存储创建方法、装置、终端及存储介质
CN111212451A (zh) * 2019-12-26 2020-05-29 曙光信息产业股份有限公司 一种切换网络传输通道的方法和装置
CN111371642B (zh) * 2020-02-27 2022-06-21 深信服科技股份有限公司 网卡故障检测方法、装置、设备及存储介质
CN112118594A (zh) * 2020-08-07 2020-12-22 深圳市圣麾科技有限公司 数据上传方法、下载方法、电子设备及存储介质
CN118041757A (zh) * 2024-03-22 2024-05-14 广东保伦电子股份有限公司 一种网卡切换方法、系统、装置及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1505335A (zh) * 2002-12-04 2004-06-16 联想(北京)有限公司 一种提高以太网带宽的方法
CN101013975A (zh) * 2007-01-24 2007-08-08 中国人民解放军理工大学指挥自动化学院 测试ip网络中任意两个端系统之间性能参数的方法及系统
CN101079036A (zh) * 2006-06-23 2007-11-28 腾讯科技(深圳)有限公司 一种海量文件的存储方法及系统
US7813341B2 (en) * 2008-01-29 2010-10-12 International Business Machines Corporation Overhead reduction for multi-link networking environments
CN102104470A (zh) * 2009-12-17 2011-06-22 研祥智能科技股份有限公司 一种VxWorks系统下的多网卡双冗余装置及系统
CN103259678A (zh) * 2013-04-28 2013-08-21 华为技术有限公司 主备切换方法、装置、设备及系统
CN103514121A (zh) * 2012-06-29 2014-01-15 中国船舶重工集团公司第七0九研究所 WindowsXp操作系统下一种网卡冗余切换方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1505335A (zh) * 2002-12-04 2004-06-16 联想(北京)有限公司 一种提高以太网带宽的方法
CN101079036A (zh) * 2006-06-23 2007-11-28 腾讯科技(深圳)有限公司 一种海量文件的存储方法及系统
CN101013975A (zh) * 2007-01-24 2007-08-08 中国人民解放军理工大学指挥自动化学院 测试ip网络中任意两个端系统之间性能参数的方法及系统
US7813341B2 (en) * 2008-01-29 2010-10-12 International Business Machines Corporation Overhead reduction for multi-link networking environments
CN102104470A (zh) * 2009-12-17 2011-06-22 研祥智能科技股份有限公司 一种VxWorks系统下的多网卡双冗余装置及系统
CN103514121A (zh) * 2012-06-29 2014-01-15 中国船舶重工集团公司第七0九研究所 WindowsXp操作系统下一种网卡冗余切换方法
CN103259678A (zh) * 2013-04-28 2013-08-21 华为技术有限公司 主备切换方法、装置、设备及系统

Also Published As

Publication number Publication date
CN103944750A (zh) 2014-07-23

Similar Documents

Publication Publication Date Title
CN103944750B (zh) 一种绑定网卡故障处理方法及装置
CN106487578B (zh) 错误恢复方法及应用其的物联网系统与充电系统
CN107623593B (zh) 基于cu分离的双机热备的方法及设备
US20080117827A1 (en) Method and system for verifying connectivity of logical link
CN102299846B (zh) 一种bfd报文传输方法和设备
CN101179453B (zh) 一种链路状态检测方法和系统
CN102571492B (zh) 检测路由设备故障的方法和装置
CN111698028B (zh) 一种fc链路检测方法、装置、设备及机器可读存储介质
CN106533736A (zh) 一种网络设备重启方法和装置
CN109474495B (zh) 一种隧道检测方法及装置
CN101197733A (zh) 网络连通性的自动检测方法及装置
CN109450666A (zh) 分布式系统网络管理方法及装置
CN106603261A (zh) 热备份方法、第一主用设备、备用设备和通信系统
CN101252528B (zh) 一种故障检测方法及设备
CN109150659B (zh) 一种处理器及bfd报文传输方法
US20130100808A1 (en) Managing Utilization Of A Logical Communication Path In A Multi-Path Channel
CN102281263B (zh) 一种建立iSCSI会话的方法和iSCSI发起方
CN114448828A (zh) 存储双活功能测试方法、系统、终端及存储介质
CN103514121A (zh) WindowsXp操作系统下一种网卡冗余切换方法
CN110311861A (zh) 一种引导数据流量的方法和装置
CN105721190A (zh) 数据传输路径的故障检测方法、装置及服务器
CN104253747A (zh) 一种报文在链路聚合组中进行1:1保护的传输方法及装置
EP3001612A1 (en) Multi-domain network protection method and system, and node
CN113037622B (zh) 一种防止bfd震荡的系统及方法
CN112367179B (zh) 一种链路切换方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201103

Address after: 625, room 269, Connaught platinum Plaza, No. 518101, Qianjin Road, Xin'an street, Shenzhen, Guangdong, Baoan District

Patentee after: SHENZHEN SHANGGE INTELLECTUAL PROPERTY SERVICE Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20201202

Address after: 213000 No. 11 Qingyang North Road, Tianning District, Changzhou, Jiangsu

Patentee after: Changzhou Hong quantity Electronic Technology Co.,Ltd.

Address before: 625, room 269, Connaught platinum Plaza, No. 518101, Qianjin Road, Xin'an street, Shenzhen, Guangdong, Baoan District

Patentee before: SHENZHEN SHANGGE INTELLECTUAL PROPERTY SERVICE Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220829

Address after: Tianning District Hehai road 213000 Jiangsu city of Changzhou province No. 9

Patentee after: Changzhou Tianning Communication Technology Industrial Park Co.,Ltd.

Address before: 213000 No. 11 Qingyang North Road, Tianning District, Changzhou City, Jiangsu Province

Patentee before: Changzhou Hong quantity Electronic Technology Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230110

Address after: Tianning District Hehai road 213000 Jiangsu city of Changzhou province No. 9

Patentee after: Changzhou Hengtang Technology Industry Co.,Ltd.

Address before: Tianning District Hehai road 213000 Jiangsu city of Changzhou province No. 9

Patentee before: Changzhou Tianning Communication Technology Industrial Park Co.,Ltd.

TR01 Transfer of patent right