CN106502952B - 一种pcie设备安全掉线设计方法 - Google Patents
一种pcie设备安全掉线设计方法 Download PDFInfo
- Publication number
- CN106502952B CN106502952B CN201610925722.7A CN201610925722A CN106502952B CN 106502952 B CN106502952 B CN 106502952B CN 201610925722 A CN201610925722 A CN 201610925722A CN 106502952 B CN106502952 B CN 106502952B
- Authority
- CN
- China
- Prior art keywords
- pcie
- data
- pcie device
- link
- link monitoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000013461 design Methods 0.000 title claims abstract description 13
- 238000012544 monitoring process Methods 0.000 claims abstract description 42
- 230000004044 response Effects 0.000 claims abstract description 16
- 230000005540 biological transmission Effects 0.000 claims abstract description 14
- 230000007246 mechanism Effects 0.000 claims abstract description 5
- 230000008569 process Effects 0.000 claims abstract description 5
- 238000002955 isolation Methods 0.000 claims abstract description 3
- 206010003830 Automatism Diseases 0.000 claims abstract 2
- 238000012545 processing Methods 0.000 claims description 4
- 230000007812 deficiency Effects 0.000 abstract 1
- 238000004088 simulation Methods 0.000 description 23
- 230000005856 abnormality Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 239000000725 suspension Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000010921 in-depth analysis Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/38—Information transfer, e.g. on bus
- G06F13/42—Bus transfer protocol, e.g. handshake; Synchronisation
- G06F13/4204—Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus
- G06F13/4221—Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus being an input/output bus, e.g. ISA bus, EISA bus, PCI bus, SCSI bus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2213/00—Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F2213/0012—High speed serial bus, e.g. IEEE P1394
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种PCIE设备安全掉线设计方法,所述方法通过建立PCIE链路监控及协议模拟单元,对PCIE链路状态进行实时监控,链路异常发生时,该单元主动向主板CPU发送设备响应数据标志,主动通知主板CPU传送中止,保证传输机制的完整性,并对对链路中异常设备自动隔离,保证系统的可靠性。本发明在实际服务器系统PCIE设备使用过程中,解决了当前PCIE设备使用中的掉线安全保护及系统故障预警不足的问题,保证服务器系统的高效稳定运行。
Description
技术领域
本发明涉及计算机通信技术领域,具体涉及一种PCIE设备安全掉线设计方法。
背景技术
当前服务器系统中,PCIE设备直接挂在到主板的CPU上,承担系统数据的传输任务,作为服务器系统对外的关键数据通道,该数据链路的可靠性与稳定性均影响系统的稳定运行。当前PCIE设备直接与主板CPU直连的方式,即PCIE设备的高速信号直接与主板的输出端对应连接,简化了系统的互联方式,随着PCIE设备越来越呈现出多样化,PCIE设备的运行稳定性也各不相同,不同程度上影响并制约了系统的稳定性。
当前的PCIE设备使用方式中,系统中PCIE设备拔出,导致总线传输中止时,由于主板CPU端PCIE传输链路并无法接收到PCIE设备所产生的异常,尤其是在读写操作时,读写指令发出后,如果PCIE传输链路中断,主板CPU会进入无限等待模式,进而系统线程异常,导致上层软件进入循环溢出状态,因此当前的处理响应机制无法实现系统的不间断运行维护,即当前PCIE设备掉线存在较大的弊端:一是PCIE设备掉线,主板CPU端陷入指令响应等待循环,严重影响系统运行;二是PCIE设备CRC校验报错较多时,系统无法预判可能出现的异常,导致主板CPU反复数据的重发,导致系统运行效率的降低,系统的可靠性无法保证。针对当前PCIE设备使用中的掉线安全保护及系统故障预警不足的问题,为了保证服务器系统的高效稳定运行,在实际服务器系统PCIE设备使用过程中,实现PCIE设备安全掉线设计尤为重要,并成为决定服务器可靠性优势的关键要素之一。
发明内容
本发明要解决的技术问题是:本发明针对以上问题,提供一种PCIE设备安全掉线设计方法,针对当前服务器PCIE设备使用过程中遇到的上述问题,结合PCIE链路协议工作特征等关键电气因素,通过深入分析,我们总结了一种PCIE设备安全掉线设计方法。
主要思想要点为:建立PCIE链路监控及协议模拟单元,对PCIE链路状态进行实时监控,链路异常发生时,该单元主动向主板CPU发送设备响应数据标志,主动通知主板CPU传送中止,保证传输机制的完整性,并对链路中异常设备自动隔离,保证系统的可靠性。
本发明所采用的技术方案为:
一种PCIE设备安全掉线设计方法,所述方法通过建立PCIE链路监控及协议模拟单元,对PCIE链路状态进行实时监控,链路异常发生时,该单元主动向主板CPU发送设备响应数据标志,主动通知主板CPU传送中止,保证传输机制的完整性,并对链路中异常设备自动隔离,保证系统的可靠性。
所述方法实现步骤如下:
1)建立PCIE链路监控及协议模拟单元,放置于主板端PCIE总线上,串接于主板CPU与PCIE设备卡中间;
2)建立PCIE设备卡在位标志信号,放置于主板端;
3)PCIE链路监控及协议模拟单元监测并解析PCIE总线中数据读写标志位,判断当前的总线读写状态;
4)主板CPU在接收到PCIE链路监控及协议模拟单元发送的设备响应数据标志后,将内存对应的PCIE缓存区域禁用,并进行数据的有效性判断;
5)PCIE链路监控及协议模拟单元通过读取PCIE链路的CRC校验值,监测PCIE链路的报错情况,当数据链路持续报错时,PCIE链路监控及协议模拟单元将该PCIE链路中100MHZ时钟断开,使挂接在该总线上的PCIE设备卡停止工作,避免故障卡对系统资源的占用,实现系统的自动故障控制。
主板CPU所有PCIE总线全部接入所述PCIE链路监控及协议模拟单元的输入接口,包含数据发送TX端、数据接收RX端、100MHZ时钟信号,同时所述PCIE链路监控及协议模拟单元的输出接口为外置PCIE设备卡提供标准PCIE总线,PCIE设备卡通过PCIE标准槽接入该单元的输出接口。
所述PCIE设备卡在位标志信号默认为高电平,当PCIE设备卡接入系统时为低电平;当PCIE设备卡在位时,PCIE链路监控及协议模拟单元实时监测该标志信号的变化,当该信号由低电平变为高电平时,标志PCIE设备卡被拔出。
所述PCIE链路监控及协议模拟单元监测并解析PCIE总线中数据读写标志位过程如下:当PCIE设备卡被拔出,检测到PCIE总线数据读写标志位为有效时,即标志主板CPU正对PCIE设备卡进行读取或写入操作,设备拔出即链路中断后,PCIE链路监控及协议模拟单元将向主板CPU发送设备响应数据标志,主动通知主板CPU传送中止,防止CPU进入反复等待响应状态,实现PCIE读写操作通讯中断处理。
主板CPU在接收到PCIE链路监控及协议模拟单元发送的设备响应数据标志后,进行数据的有效性判断过程如下:将内存对应的PCIE缓存区域禁用,即不再进行数据存取操作,然后读取数据串中数据校验码,判断当前数据的完整性,如果当前的数据完整,则将传输信息存储到缓存中,当监测到数据不完整时,即数据与数据校验码不能匹配时,则此数据无效,不需存储到缓存中。
所述PCIE链路监控及协议模拟单元采用FPGA芯片EPM570建立。
所述PCIE设备卡在位标志信号连接到PCIE链路监控及协议模拟单元,实现过程如下:在主板端将该信号采用4.7K电阻上拉至P3V3电压上,在PCIE设备卡端将该信号直接连到GND上;当PCIE设备卡未接入系统时,该信号默认为高电平,当PCIE设备卡接入系统时,该信号为低电平;当PCIE设备卡在位时,在PCIE链路监控及协议模拟单元实时监测该标志信号的变化,当该信号由低电平变为高电平时,标志PCIE设备卡被拔出。
本发明的有益效果为:
本发明在实际服务器系统PCIE设备使用过程中,解决了当前PCIE设备使用中的掉线安全保护及系统故障预警不足的问题,保证服务器系统的高效稳定运行。
附图说明
图1为本发明方法实施流程示意图。
具体实施方式
下面根据说明书附图,结合具体实施方式对本发明进一步说明:
1、采用FPGA芯片EPM570,建立PCIE链路监控及协议模拟单元,主板CPU所有PCIE总线全部接入该单元的输入接口,包含数据发送TX端、数据接收RX端、100MHZ时钟信号, PCIE设备卡通过PCIE标准槽接入该单元的输出接口。
2、建立PCIE设备卡在位标志信号,并连接到PCIE链路监控及协议模拟单元,即在主板端将该信号采用4.7K电阻上拉至P3V3电压上,在PCIE设备卡端将该信号直接连到GND上;当PCIE设备卡未接入系统时,该信号默认为高电平,当PCIE设备卡接入系统时,该信号为低电平;当PCIE设备卡在位时,在PCIE链路监控及协议模拟单元实时监测该标志信号的变化,当该信号由低电平变为高电平时,标志PCIE设备卡被拔出。
3、PCIE链路监控及协议模拟单元实时读取监测并解析PCIE总线中数据读写标志位,判断当前的总线读写状态。当PCIE设备卡被拔出,检测到PCIE总线数据读写标志位为有效时,设备拔出即链路中断后,PCIE链路监控及协议模拟单元将向主板CPU发送设备响应数据标志,主动通知主板CPU传送中止,防止CPU进入反复等待响应状态,实现PCIE读写操作通讯中断处理。
4、主板CPU在接收到PCIE链路监控及协议模拟单元发送的设备响应数据标志后,通过系统的驱动将内存对应的PCIE缓存区域禁用。然后读取数据串中数据校验码,判断当前数据的完整性,当监测到数据不完整时,即数据与数据校验码不能匹配时,则此数据无效,不需存储到缓存中。
5、PCIE链路监控及协议模拟单元通过读取PCIE链路的CRC校验值,当数据链路单位时间内持续报错大于500个时,PCIE链路监控及协议模拟单元将该PCIE链路中100MHZ时钟通过模拟开关芯片断开,使挂接在该总线上的PCIE设备卡停止工作,避免故障卡对系统资源的占用,实现系统的自动故障控制。
实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
Claims (6)
1.一种PCIE设备安全掉线设计方法,其特征在于,所述方法通过建立PCIE链路监控及协议模拟单元,对PCIE链路状态进行实时监控,链路异常发生时,该单元主动向主板CPU发送设备响应数据标志,主动通知主板CPU传送中止,保证传输机制的完整性,并对链路中异常设备自动隔离,保证系统的可靠性;
所述方法实现步骤如下:
1)建立PCIE链路监控及协议模拟单元,放置于主板端PCIE总线上,串接于主板CPU与PCIE设备卡中间;
2)建立PCIE设备卡在位标志信号,放置于主板端;
3)PCIE链路监控及协议模拟单元监测并解析PCIE总线中数据读写标志位,判断当前的总线读写状态;
4)主板CPU在接收到PCIE链路监控及协议模拟单元发送的设备响应数据标志后,将内存对应的PCIE缓存区域禁用,并进行数据的有效性判断;
5)PCIE链路监控及协议模拟单元通过读取PCIE链路的CRC校验值,监测PCIE链路的报错情况,当数据链路持续报错时,PCIE链路监控及协议模拟单元将该PCIE链路中100MHZ时钟断开,使挂接在该总线上的PCIE设备卡停止工作;
当PCIE设备卡被拔出,检测到PCIE总线数据读写标志位为有效时,即标志主板CPU正对PCIE设备卡进行读取或写入操作,设备拔出即链路中断后,PCIE链路监控及协议模拟单元将向主板CPU发送设备响应数据标志,主动通知主板CPU传送中止,防止CPU进入反复等待响应状态,实现PCIE读写操作通讯中断处理。
2.根据权利要求1所述的一种PCIE设备安全掉线设计方法,其特征在于,主板CPU所有PCIE总线全部接入所述PCIE链路监控及协议模拟单元的输入接口,包含数据发送TX端、数据接收RX端、100MHZ时钟信号,同时所述PCIE链路监控及协议模拟单元的输出接口为外置PCIE设备卡提供标准PCIE总线,PCIE设备卡通过PCIE标准槽接入该单元的输出接口。
3.根据权利要求2所述的一种PCIE设备安全掉线设计方法,其特征在于,所述PCIE设备卡在位标志信号默认为高电平,当PCIE设备卡接入系统时为低电平;当PCIE设备卡在位时,PCIE链路监控及协议模拟单元实时监测该标志信号的变化,当该信号由低电平变为高电平时,标志PCIE设备卡被拔出。
4.根据权利要求2所述的一种PCIE设备安全掉线设计方法,其特征在于,主板CPU在接收到PCIE链路监控及协议模拟单元发送的设备响应数据标志后,进行数据的有效性判断过程如下:将内存对应的PCIE缓存区域禁用,即不再进行数据存取操作,然后读取数据串中数据校验码,判断当前数据的完整性,如果当前的数据完整,则将传输信息存储到缓存中,当监测到数据不完整时,即数据与数据校验码不能匹配时,则此数据无效,不需存储到缓存中。
5.根据权利要求2-4任一所述的一种PCIE设备安全掉线设计方法,其特征在于,所述PCIE链路监控及协议模拟单元采用FPGA芯片EPM570建立。
6.根据权利要求5所述的一种PCIE设备安全掉线设计方法,其特征在于,所述PCIE设备卡在位标志信号连接到PCIE链路监控及协议模拟单元,实现过程如下:在主板端将该信号采用4.7K电阻上拉至P3V3电压上,在PCIE设备卡端将该信号直接连到GND上;当PCIE设备卡未接入系统时,该信号默认为高电平,当PCIE设备卡接入系统时,该信号为低电平;当PCIE设备卡在位时,在PCIE链路监控及协议模拟单元实时监测该标志信号的变化,当该信号由低电平变为高电平时,标志PCIE设备卡被拔出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610925722.7A CN106502952B (zh) | 2016-10-24 | 2016-10-24 | 一种pcie设备安全掉线设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610925722.7A CN106502952B (zh) | 2016-10-24 | 2016-10-24 | 一种pcie设备安全掉线设计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106502952A CN106502952A (zh) | 2017-03-15 |
CN106502952B true CN106502952B (zh) | 2019-08-02 |
Family
ID=58319499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610925722.7A Active CN106502952B (zh) | 2016-10-24 | 2016-10-24 | 一种pcie设备安全掉线设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106502952B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733522A (zh) * | 2018-05-22 | 2018-11-02 | 郑州云海信息技术有限公司 | 一种在机械测试中监测pcie卡在位的方法及系统 |
CN109815043B (zh) | 2019-01-25 | 2022-04-05 | 华为云计算技术有限公司 | 故障处理方法、相关设备及计算机存储介质 |
CN111459863B (zh) * | 2020-03-08 | 2021-09-28 | 苏州浪潮智能科技有限公司 | 一种基于nvme-mi的机箱管理系统及方法 |
CN113419977B (zh) * | 2021-05-28 | 2023-03-21 | 济南浪潮数据技术有限公司 | 一种服务器中pcie设备管理系统和服务器 |
CN114448780B (zh) * | 2022-01-27 | 2023-06-20 | 西安微电子技术研究所 | 一种基于pcie接口的以太网控制器异常处理系统和方法 |
CN114912107B (zh) * | 2022-07-15 | 2022-10-25 | 飞腾信息技术有限公司 | 访问管理方法、相关装置、系统及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102594643A (zh) * | 2012-03-12 | 2012-07-18 | 北京经纬恒润科技有限公司 | 一种控制器局域网总线通讯控制方法、装置及系统 |
CN102662808A (zh) * | 2012-03-21 | 2012-09-12 | 北京星网锐捷网络技术有限公司 | 一种pcie硬件故障检测的实现方法与装置 |
CN103440188A (zh) * | 2013-08-29 | 2013-12-11 | 福建星网锐捷网络有限公司 | 一种pcie硬件故障的检测方法及装置 |
CN104170322A (zh) * | 2014-04-02 | 2014-11-26 | 华为技术有限公司 | 一种PCIe链路故障的处理方法、设备及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5281942B2 (ja) * | 2009-03-26 | 2013-09-04 | 株式会社日立製作所 | 計算機およびその障害処理方法 |
-
2016
- 2016-10-24 CN CN201610925722.7A patent/CN106502952B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102594643A (zh) * | 2012-03-12 | 2012-07-18 | 北京经纬恒润科技有限公司 | 一种控制器局域网总线通讯控制方法、装置及系统 |
CN102662808A (zh) * | 2012-03-21 | 2012-09-12 | 北京星网锐捷网络技术有限公司 | 一种pcie硬件故障检测的实现方法与装置 |
CN103440188A (zh) * | 2013-08-29 | 2013-12-11 | 福建星网锐捷网络有限公司 | 一种pcie硬件故障的检测方法及装置 |
CN104170322A (zh) * | 2014-04-02 | 2014-11-26 | 华为技术有限公司 | 一种PCIe链路故障的处理方法、设备及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106502952A (zh) | 2017-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106502952B (zh) | 一种pcie设备安全掉线设计方法 | |
JP4886601B2 (ja) | Usbインタフェース設備に対して操作を行う装置及び方法 | |
CN108829567A (zh) | 支持双重点灯的单块NVMe硬盘背板及硬盘背板的点灯方法 | |
CN105700510A (zh) | Can通信系统的错误分散检测方法及can通信系统 | |
CN107590040A (zh) | 一种硬盘背板及计算机装置、硬盘故障检测方法及存储器 | |
CN104076808B (zh) | 工控设备的故障诊断系统和方法 | |
CN113992501A (zh) | 一种故障定位系统、方法及计算装置 | |
CN117076179A (zh) | 一种硬盘指示灯控制方法、装置、电子设备及存储介质 | |
CN115950608B (zh) | 漏液检测电路、系统、方法、电子设备及存储介质 | |
US9916273B2 (en) | Sideband serial channel for PCI express peripheral devices | |
CN115878356A (zh) | 磁盘故障预测方法及装置 | |
CN104331061A (zh) | 配网终端装置核心板的测试方法及其测试装置 | |
CN103914362B (zh) | 一种串口自检方法、电路及装置 | |
CN106648949B (zh) | 一种存储系统及数据传输方法 | |
CN211045905U (zh) | 一种具备主并模式的电子接口设备 | |
CN105955864B (zh) | 电源故障处理方法、电源模块、监控管理模块及服务器 | |
CN107729173A (zh) | 一种用于服务器的redriver参数配置监控方法 | |
CN111338907A (zh) | 一种pcie设备的远程状态监测系统及方法 | |
CN109726055B (zh) | 检测PCIe芯片异常的方法及计算机设备 | |
CN117951069B (zh) | 一种服务器系统、通信方法和服务器 | |
CN113868037B (zh) | 一种判断硬盘背板线缆连接准确性的系统和方法 | |
CN117149491A (zh) | 一种电源监测方法、系统、装置及存储介质 | |
CN103440218A (zh) | 基于usb-hid协议的can总线监控方法 | |
CN103558813A (zh) | 用于记录mvb网络物理层数据帧的记录方法及记录装置 | |
CN112804115B (zh) | 一种虚拟网络功能的异常检测方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |