CN106502952B - 一种pcie设备安全掉线设计方法 - Google Patents

一种pcie设备安全掉线设计方法 Download PDF

Info

Publication number
CN106502952B
CN106502952B CN201610925722.7A CN201610925722A CN106502952B CN 106502952 B CN106502952 B CN 106502952B CN 201610925722 A CN201610925722 A CN 201610925722A CN 106502952 B CN106502952 B CN 106502952B
Authority
CN
China
Prior art keywords
pcie
pcie device
data
emulation unit
protocol emulation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610925722.7A
Other languages
English (en)
Other versions
CN106502952A (zh
Inventor
刘涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201610925722.7A priority Critical patent/CN106502952B/zh
Publication of CN106502952A publication Critical patent/CN106502952A/zh
Application granted granted Critical
Publication of CN106502952B publication Critical patent/CN106502952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • G06F13/4204Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus
    • G06F13/4221Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus being an input/output bus, e.g. ISA bus, EISA bus, PCI bus, SCSI bus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2213/00Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F2213/0012High speed serial bus, e.g. IEEE P1394

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种PCIE设备安全掉线设计方法,所述方法通过建立PCIE链路监控及协议模拟单元,对PCIE链路状态进行实时监控,链路异常发生时,该单元主动向主板CPU发送设备响应数据标志,主动通知主板CPU传送中止,保证传输机制的完整性,并对对链路中异常设备自动隔离,保证系统的可靠性。本发明在实际服务器系统PCIE设备使用过程中,解决了当前PCIE设备使用中的掉线安全保护及系统故障预警不足的问题,保证服务器系统的高效稳定运行。

Description

一种PCIE设备安全掉线设计方法
技术领域
本发明涉及计算机通信技术领域,具体涉及一种PCIE设备安全掉线设计方法。
背景技术
当前服务器系统中,PCIE设备直接挂在到主板的CPU上,承担系统数据的传输任务,作为服务器系统对外的关键数据通道,该数据链路的可靠性与稳定性均影响系统的稳定运行。当前PCIE设备直接与主板CPU直连的方式,即PCIE设备的高速信号直接与主板的输出端对应连接,简化了系统的互联方式,随着PCIE设备越来越呈现出多样化,PCIE设备的运行稳定性也各不相同,不同程度上影响并制约了系统的稳定性。
当前的PCIE设备使用方式中,系统中PCIE设备拔出,导致总线传输中止时,由于主板CPU端PCIE传输链路并无法接收到PCIE设备所产生的异常,尤其是在读写操作时,读写指令发出后,如果PCIE传输链路中断,主板CPU会进入无限等待模式,进而系统线程异常,导致上层软件进入循环溢出状态,因此当前的处理响应机制无法实现系统的不间断运行维护,即当前PCIE设备掉线存在较大的弊端:一是PCIE设备掉线,主板CPU端陷入指令响应等待循环,严重影响系统运行;二是PCIE设备CRC校验报错较多时,系统无法预判可能出现的异常,导致主板CPU反复数据的重发,导致系统运行效率的降低,系统的可靠性无法保证。针对当前PCIE设备使用中的掉线安全保护及系统故障预警不足的问题,为了保证服务器系统的高效稳定运行,在实际服务器系统PCIE设备使用过程中,实现PCIE设备安全掉线设计尤为重要,并成为决定服务器可靠性优势的关键要素之一。
发明内容
本发明要解决的技术问题是:本发明针对以上问题,提供一种PCIE设备安全掉线设计方法,针对当前服务器PCIE设备使用过程中遇到的上述问题,结合PCIE链路协议工作特征等关键电气因素,通过深入分析,我们总结了一种PCIE设备安全掉线设计方法。
主要思想要点为:建立PCIE链路监控及协议模拟单元,对PCIE链路状态进行实时监控,链路异常发生时,该单元主动向主板CPU发送设备响应数据标志,主动通知主板CPU传送中止,保证传输机制的完整性,并对链路中异常设备自动隔离,保证系统的可靠性。
本发明所采用的技术方案为:
一种PCIE设备安全掉线设计方法,所述方法通过建立PCIE链路监控及协议模拟单元,对PCIE链路状态进行实时监控,链路异常发生时,该单元主动向主板CPU发送设备响应数据标志,主动通知主板CPU传送中止,保证传输机制的完整性,并对链路中异常设备自动隔离,保证系统的可靠性。
所述方法实现步骤如下:
1)建立PCIE链路监控及协议模拟单元,放置于主板端PCIE总线上,串接于主板CPU与PCIE设备卡中间;
2)建立PCIE设备卡在位标志信号,放置于主板端;
3)PCIE链路监控及协议模拟单元监测并解析PCIE总线中数据读写标志位,判断当前的总线读写状态;
4)主板CPU在接收到PCIE链路监控及协议模拟单元发送的设备响应数据标志后,将内存对应的PCIE缓存区域禁用,并进行数据的有效性判断;
5)PCIE链路监控及协议模拟单元通过读取PCIE链路的CRC校验值,监测PCIE链路的报错情况,当数据链路持续报错时,PCIE链路监控及协议模拟单元将该PCIE链路中100MHZ时钟断开,使挂接在该总线上的PCIE设备卡停止工作,避免故障卡对系统资源的占用,实现系统的自动故障控制。
主板CPU所有PCIE总线全部接入所述PCIE链路监控及协议模拟单元的输入接口,包含数据发送TX端、数据接收RX端、100MHZ时钟信号,同时所述PCIE链路监控及协议模拟单元的输出接口为外置PCIE设备卡提供标准PCIE总线,PCIE设备卡通过PCIE标准槽接入该单元的输出接口。
所述PCIE设备卡在位标志信号默认为高电平,当PCIE设备卡接入系统时为低电平;当PCIE设备卡在位时,PCIE链路监控及协议模拟单元实时监测该标志信号的变化,当该信号由低电平变为高电平时,标志PCIE设备卡被拔出。
所述PCIE链路监控及协议模拟单元监测并解析PCIE总线中数据读写标志位过程如下:当PCIE设备卡被拔出,检测到PCIE总线数据读写标志位为有效时,即标志主板CPU正对PCIE设备卡进行读取或写入操作,设备拔出即链路中断后,PCIE链路监控及协议模拟单元将向主板CPU发送设备响应数据标志,主动通知主板CPU传送中止,防止CPU进入反复等待响应状态,实现PCIE读写操作通讯中断处理。
主板CPU在接收到PCIE链路监控及协议模拟单元发送的设备响应数据标志后,进行数据的有效性判断过程如下:将内存对应的PCIE缓存区域禁用,即不再进行数据存取操作,然后读取数据串中数据校验码,判断当前数据的完整性,如果当前的数据完整,则将传输信息存储到缓存中,当监测到数据不完整时,即数据与数据校验码不能匹配时,则此数据无效,不需存储到缓存中。
所述PCIE链路监控及协议模拟单元采用FPGA芯片EPM570建立。
所述PCIE设备卡在位标志信号连接到PCIE链路监控及协议模拟单元,实现过程如下:在主板端将该信号采用4.7K电阻上拉至P3V3电压上,在PCIE设备卡端将该信号直接连到GND上;当PCIE设备卡未接入系统时,该信号默认为高电平,当PCIE设备卡接入系统时,该信号为低电平;当PCIE设备卡在位时,在PCIE链路监控及协议模拟单元实时监测该标志信号的变化,当该信号由低电平变为高电平时,标志PCIE设备卡被拔出。
本发明的有益效果为:
本发明在实际服务器系统PCIE设备使用过程中,解决了当前PCIE设备使用中的掉线安全保护及系统故障预警不足的问题,保证服务器系统的高效稳定运行。
附图说明
图1为本发明方法实施流程示意图。
具体实施方式
下面根据说明书附图,结合具体实施方式对本发明进一步说明:
1、采用FPGA芯片EPM570,建立PCIE链路监控及协议模拟单元,主板CPU所有PCIE总线全部接入该单元的输入接口,包含数据发送TX端、数据接收RX端、100MHZ时钟信号, PCIE设备卡通过PCIE标准槽接入该单元的输出接口。
2、建立PCIE设备卡在位标志信号,并连接到PCIE链路监控及协议模拟单元,即在主板端将该信号采用4.7K电阻上拉至P3V3电压上,在PCIE设备卡端将该信号直接连到GND上;当PCIE设备卡未接入系统时,该信号默认为高电平,当PCIE设备卡接入系统时,该信号为低电平;当PCIE设备卡在位时,在PCIE链路监控及协议模拟单元实时监测该标志信号的变化,当该信号由低电平变为高电平时,标志PCIE设备卡被拔出。
3、PCIE链路监控及协议模拟单元实时读取监测并解析PCIE总线中数据读写标志位,判断当前的总线读写状态。当PCIE设备卡被拔出,检测到PCIE总线数据读写标志位为有效时,设备拔出即链路中断后,PCIE链路监控及协议模拟单元将向主板CPU发送设备响应数据标志,主动通知主板CPU传送中止,防止CPU进入反复等待响应状态,实现PCIE读写操作通讯中断处理。
4、主板CPU在接收到PCIE链路监控及协议模拟单元发送的设备响应数据标志后,通过系统的驱动将内存对应的PCIE缓存区域禁用。然后读取数据串中数据校验码,判断当前数据的完整性,当监测到数据不完整时,即数据与数据校验码不能匹配时,则此数据无效,不需存储到缓存中。
5、PCIE链路监控及协议模拟单元通过读取PCIE链路的CRC校验值,当数据链路单位时间内持续报错大于500个时,PCIE链路监控及协议模拟单元将该PCIE链路中100MHZ时钟通过模拟开关芯片断开,使挂接在该总线上的PCIE设备卡停止工作,避免故障卡对系统资源的占用,实现系统的自动故障控制。
实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (6)

1.一种PCIE设备安全掉线设计方法,其特征在于,所述方法通过建立PCIE链路监控及协议模拟单元,对PCIE链路状态进行实时监控,链路异常发生时,该单元主动向主板CPU发送设备响应数据标志,主动通知主板CPU传送中止,保证传输机制的完整性,并对链路中异常设备自动隔离,保证系统的可靠性;
所述方法实现步骤如下:
1)建立PCIE链路监控及协议模拟单元,放置于主板端PCIE总线上,串接于主板CPU与PCIE设备卡中间;
2)建立PCIE设备卡在位标志信号,放置于主板端;
3)PCIE链路监控及协议模拟单元监测并解析PCIE总线中数据读写标志位,判断当前的总线读写状态;
4)主板CPU在接收到PCIE链路监控及协议模拟单元发送的设备响应数据标志后,将内存对应的PCIE缓存区域禁用,并进行数据的有效性判断;
5)PCIE链路监控及协议模拟单元通过读取PCIE链路的CRC校验值,监测PCIE链路的报错情况,当数据链路持续报错时,PCIE链路监控及协议模拟单元将该PCIE链路中100MHZ时钟断开,使挂接在该总线上的PCIE设备卡停止工作;
当PCIE设备卡被拔出,检测到PCIE总线数据读写标志位为有效时,即标志主板CPU正对PCIE设备卡进行读取或写入操作,设备拔出即链路中断后,PCIE链路监控及协议模拟单元将向主板CPU发送设备响应数据标志,主动通知主板CPU传送中止,防止CPU进入反复等待响应状态,实现PCIE读写操作通讯中断处理。
2.根据权利要求1所述的一种PCIE设备安全掉线设计方法,其特征在于,主板CPU所有PCIE总线全部接入所述PCIE链路监控及协议模拟单元的输入接口,包含数据发送TX端、数据接收RX端、100MHZ时钟信号,同时所述PCIE链路监控及协议模拟单元的输出接口为外置PCIE设备卡提供标准PCIE总线,PCIE设备卡通过PCIE标准槽接入该单元的输出接口。
3.根据权利要求2所述的一种PCIE设备安全掉线设计方法,其特征在于,所述PCIE设备卡在位标志信号默认为高电平,当PCIE设备卡接入系统时为低电平;当PCIE设备卡在位时,PCIE链路监控及协议模拟单元实时监测该标志信号的变化,当该信号由低电平变为高电平时,标志PCIE设备卡被拔出。
4.根据权利要求2所述的一种PCIE设备安全掉线设计方法,其特征在于,主板CPU在接收到PCIE链路监控及协议模拟单元发送的设备响应数据标志后,进行数据的有效性判断过程如下:将内存对应的PCIE缓存区域禁用,即不再进行数据存取操作,然后读取数据串中数据校验码,判断当前数据的完整性,如果当前的数据完整,则将传输信息存储到缓存中,当监测到数据不完整时,即数据与数据校验码不能匹配时,则此数据无效,不需存储到缓存中。
5.根据权利要求2-4任一所述的一种PCIE设备安全掉线设计方法,其特征在于,所述PCIE链路监控及协议模拟单元采用FPGA芯片EPM570建立。
6.根据权利要求5所述的一种PCIE设备安全掉线设计方法,其特征在于,所述PCIE设备卡在位标志信号连接到PCIE链路监控及协议模拟单元,实现过程如下:在主板端将该信号采用4.7K电阻上拉至P3V3电压上,在PCIE设备卡端将该信号直接连到GND上;当PCIE设备卡未接入系统时,该信号默认为高电平,当PCIE设备卡接入系统时,该信号为低电平;当PCIE设备卡在位时,在PCIE链路监控及协议模拟单元实时监测该标志信号的变化,当该信号由低电平变为高电平时,标志PCIE设备卡被拔出。
CN201610925722.7A 2016-10-24 2016-10-24 一种pcie设备安全掉线设计方法 Active CN106502952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610925722.7A CN106502952B (zh) 2016-10-24 2016-10-24 一种pcie设备安全掉线设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610925722.7A CN106502952B (zh) 2016-10-24 2016-10-24 一种pcie设备安全掉线设计方法

Publications (2)

Publication Number Publication Date
CN106502952A CN106502952A (zh) 2017-03-15
CN106502952B true CN106502952B (zh) 2019-08-02

Family

ID=58319499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610925722.7A Active CN106502952B (zh) 2016-10-24 2016-10-24 一种pcie设备安全掉线设计方法

Country Status (1)

Country Link
CN (1) CN106502952B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733522A (zh) * 2018-05-22 2018-11-02 郑州云海信息技术有限公司 一种在机械测试中监测pcie卡在位的方法及系统
CN109815043B (zh) * 2019-01-25 2022-04-05 华为云计算技术有限公司 故障处理方法、相关设备及计算机存储介质
CN111459863B (zh) * 2020-03-08 2021-09-28 苏州浪潮智能科技有限公司 一种基于nvme-mi的机箱管理系统及方法
CN113419977B (zh) * 2021-05-28 2023-03-21 济南浪潮数据技术有限公司 一种服务器中pcie设备管理系统和服务器
CN114448780B (zh) * 2022-01-27 2023-06-20 西安微电子技术研究所 一种基于pcie接口的以太网控制器异常处理系统和方法
CN114912107B (zh) * 2022-07-15 2022-10-25 飞腾信息技术有限公司 访问管理方法、相关装置、系统及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102594643A (zh) * 2012-03-12 2012-07-18 北京经纬恒润科技有限公司 一种控制器局域网总线通讯控制方法、装置及系统
CN102662808A (zh) * 2012-03-21 2012-09-12 北京星网锐捷网络技术有限公司 一种pcie硬件故障检测的实现方法与装置
CN103440188A (zh) * 2013-08-29 2013-12-11 福建星网锐捷网络有限公司 一种pcie硬件故障的检测方法及装置
CN104170322A (zh) * 2014-04-02 2014-11-26 华为技术有限公司 一种PCIe链路故障的处理方法、设备及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5281942B2 (ja) * 2009-03-26 2013-09-04 株式会社日立製作所 計算機およびその障害処理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102594643A (zh) * 2012-03-12 2012-07-18 北京经纬恒润科技有限公司 一种控制器局域网总线通讯控制方法、装置及系统
CN102662808A (zh) * 2012-03-21 2012-09-12 北京星网锐捷网络技术有限公司 一种pcie硬件故障检测的实现方法与装置
CN103440188A (zh) * 2013-08-29 2013-12-11 福建星网锐捷网络有限公司 一种pcie硬件故障的检测方法及装置
CN104170322A (zh) * 2014-04-02 2014-11-26 华为技术有限公司 一种PCIe链路故障的处理方法、设备及系统

Also Published As

Publication number Publication date
CN106502952A (zh) 2017-03-15

Similar Documents

Publication Publication Date Title
CN106502952B (zh) 一种pcie设备安全掉线设计方法
CN105700510B (zh) Can通信系统的错误分散检测方法及can通信系统
CN105302755B (zh) 一种具有监控功能的pcie板卡及其监控方法
CN202285113U (zh) 配电单元控制系统
CN104350481A (zh) 设备断开检测
CN108445436A (zh) 一种双芯运行状态互检的电能表
CN101996128A (zh) 硬盘状态指示灯控制系统
CN106649021B (zh) PCIe从设备测试装置
CN104076808B (zh) 工控设备的故障诊断系统和方法
JP5418134B2 (ja) 情報端末およびコンピュータプログラム
CN102768561B (zh) 一种双桥片主板冗余的设计方法
CN101699416B (zh) 主机与多卡座读卡器的通信方法和系统
CN103795556B (zh) 一种故障处理方法及网络交换机
CN102147640A (zh) 一种具有多个主板的服务器
CN102215145A (zh) 一种上报链路连通状态检测结果的方法和装置
CN104290773A (zh) 一种用于试车线和培训中心的ace机架
CN116893609A (zh) 用于冗余模块切换方法、设备和介质
CN204631168U (zh) 一种工业变流器远程诊断及维护系统
CN107516118A (zh) 酒店入住监管系统和方法
CN204009881U (zh) 一种具有监控功能的pcie板卡
CN103858105B (zh) 连接方法
CN110457168A (zh) 一种用于数据处理的低速接口自检测方法
CN103440218A (zh) 基于usb-hid协议的can总线监控方法
CN111865411A (zh) 一种交换机光模块监控方法、装置及相关组件
CN108388488A (zh) 一种智能平台管理系统及故障处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant