CN114637624B - 一种主动错误探测的gpu显存访问修复方法及装置 - Google Patents

一种主动错误探测的gpu显存访问修复方法及装置 Download PDF

Info

Publication number
CN114637624B
CN114637624B CN202210543511.2A CN202210543511A CN114637624B CN 114637624 B CN114637624 B CN 114637624B CN 202210543511 A CN202210543511 A CN 202210543511A CN 114637624 B CN114637624 B CN 114637624B
Authority
CN
China
Prior art keywords
video memory
data
gpu
access
read
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210543511.2A
Other languages
English (en)
Other versions
CN114637624A (zh
Inventor
胡艳明
周佩文
呙涛
丁振青
刘天玥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Lingjiu Microelectronics Co ltd
Original Assignee
Wuhan Lingjiu Microelectronics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Lingjiu Microelectronics Co ltd filed Critical Wuhan Lingjiu Microelectronics Co ltd
Priority to CN202210543511.2A priority Critical patent/CN114637624B/zh
Publication of CN114637624A publication Critical patent/CN114637624A/zh
Application granted granted Critical
Publication of CN114637624B publication Critical patent/CN114637624B/zh
Priority to US18/078,498 priority patent/US11907089B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • G06F11/27Built-in tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1658Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2221Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test input/output devices or peripheral units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2236Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test CPU or processors
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)
  • For Increasing The Reliability Of Semiconductor Memories (AREA)

Abstract

本发明适用于计算机图形处理技术领域,提供一种主动错误探测的GPU显存访问修复方法及装置,本发明首先分配一小块显存,用于显存访问错误检测,通过定时主动检测及时发现显示数据访问异常的问题;当发现显存数据访问异常后,GPU桌面驱动模块能够暂停显示画面更新操作,GPU内核驱动模块先暂停所有的显存访问,然后对显存控制器重新进行初始化,修复显存访问异常,然后恢复所有模块对显存的正常访问,并刷新桌面显示,恢复图形桌面到正常状态。本发明通过显存访问错误主动探测机制,能够及时发现显存访问错误故障,并进行错误修复和现场恢复,能够解决一些因显存访问故障导致的显示花屏问题,且不需要进行硬件改动,并能提高GPU系统的稳定性和用户体验。

Description

一种主动错误探测的GPU显存访问修复方法及装置
技术领域
本发明属于计算机图形处理技术领域,尤其涉及一种主动错误探测的GPU显存访问修复方法及装置。
背景技术
图形处理器GPU在进行计算机图形渲染和数字图形显示输出时,大量的图形相关数据保存在GPU显存中,GPU需要频繁访问这些显存数据。如果GPU对显存的访问出现异常,会导致渲染图像错误、显示画面花屏等严重异常。GPU显存通常采用DDR2、DDR3、DDR4等高速同步动态随机存取存储器,由于数据传输频率非常高,GPU显存接口对电路时序要求也非常高。GPU显存控制器在显存初始化时对接口时序进行了校准,但在长时间运行过程中,由于接口时序在电压波动、温度漂移等不利环境因素的影响下,有一定概率出现时序校准实效,导致显存数据访问出错,且无法自动恢复。
针对上述时序校准实效问题,属于硬件故障范畴,与硬件电路的时序设计、电源纹波等相关。目前可通过优化电路设计提升显存接口信号质量的方法,但是优化电路设计通常需要重新设计印制电路板,时间周期较长,成本较高;而且实际情况下,由于时钟的温度漂移效应和电源纹波的影响,电路方法有改善效果,但往往无法彻底解决,通常存在较低概率的显存校准失效发生概率,而一旦发生显存校准失效,基本上无法自动恢复,用户体验较差,并不能真正解决问题。
另外,部分高端的显存控制器支持动态时序校准功能,虽然能够解决问题,但会增加显存控制器设计的复杂度和所占晶圆面积,导致GPU芯片设计厂家购置显存控制器IP成本和芯片晶圆成本的增加。另外,由于技术能力限制和专利壁垒,一些国产显存控制器和中低端的显存控制通常不支持动态显存校准技术,且对于已经采用这类显存控制器的GPU芯片,如果重新设计GPU显存控制器和流片,GPU芯片的流片成本和时间成本也非常高昂。
发明内容
鉴于上述问题,本发明的目的在于提供一种主动错误探测的GPU显存访问修复方法及装置,旨在解决现有因显存接口时序校准失效导致的显存数据访问出错的技术问题。
一方面,所述主动错误探测的GPU显存访问修复方法包括下述步骤:
步骤S1、分配一小块用于读写数据测试的显存测试空间,定时主动检测所述显存测试空间数据读写是否正常;
步骤S2、若出现显存测试空间数据读写检测失败,则发出触发指令控制GPU桌面驱动模块暂停显存访问操作,以及GPU内核驱动模块暂停所有硬件模块对显存的访问操作,然后对显存控制器进行复位和重新初始化,最后恢复所有硬件模块对显存的访问操作,实现对显存接口时序的重新校准,恢复对显存接口的正常访问;
步骤S3、GPU桌面驱动模块执行完整的桌面刷新操作,并恢复GPU桌面驱动模块的所有显存访问操作。
进一步的,所述步骤S1具体包括:
分配一小块用于读写数据测试的显存测试空间,所述显存测试空间满足显存数据宽度的2倍或4倍;
定时触发显存测试空间数据读写检测,检测过程为:写入随机一组数据至显存测试空间,然后读出并进行正确性校验,若读出数据与先前写入数据一致,表示读写正常,否则读写检测失败。
进一步的,所述步骤S2中,接收到触发指令后,GPU内核驱动模块动作如下:
暂停2D、3D、VPU、DMA、显示控制器硬件模块对显存的访问操作;
复位并重新初始化显存控制器;
恢复显存控制器、DMA、VPU、3D、2D硬件模块对显存的访问操作。
进一步的,所述步骤S3具体过程如下:
设置全屏更新标志,确保下一次桌面更新时更新整个桌面画面;
恢复到正常的图形桌面绘图操作流程;
恢复显存测试空间定时数据读写检测。
另一方面,所述主动错误探测的GPU显存访问修复装置包括:
定时检测模块,用于分配一小块用于读写数据测试的显存测试空间,定时主动检测所述显存测试空间数据读写是否正常;
指令触发模块,用于当出现显存测试空间数据读写检测失败时,发出触发指令;
GPU桌面驱动模块,用于当接收到触发指令时暂停显存访问操作,以及当恢复显存接口的正常访问后,执行完整的桌面刷新操作,并恢复所有显存访问操作;
GPU内核驱动模块,用于当接收到触发指令时暂停所有硬件模块对显存的访问操作,然后对显存控制器进行复位和重新初始化,实现对显存接口时序的重新校准,最后恢复所有硬件模块对显存的访问操作,恢复对显存接口的正常访问。
进一步的,所述定时检测模块包括:
显存分配单元,用于分配一小块用于读写数据测试的显存测试空间,所述显存测试空间满足显存数据宽度的2倍或4倍;
定时检测单元,用于定时触发显存测试空间数据读写检测,检测过程为:写入随机一组数据至显存测试空间,然后读出并进行正确性校验,若读出数据与先前写入数据一致,表示读写正常,否则读写检测失败。
进一步的,所述GPU内核驱动模块包括:
模块暂停单元,用于暂停2D、3D、VPU、DMA、显示控制器硬件模块对显存的访问操作;
控制器初始化单元,用于复位并重新初始化显存控制器;
模块恢复单元,用于恢复显存控制器、DMA、VPU、3D、2D硬件模块对显存的访问操作。
本发明的有益效果是:本发明通过定时主动错误探测机制,主动及时发现显存接口访问故障,然后暂停所有显存访问交易,并主动重新校准显存接口时序,最后恢复现场,实现显存接口访问故障的恢复,解决了GPU显存接口时序校准实效导致的显存访问故障问题。而且本发明技术方案不需要修改硬件电路或芯片设计,通过软件方法规避了硬件问题,对于一些低概率发生的显存访问故障,能够取得较好的效果,避免用户界面故障后一直花屏状态,需要重新启动计算机才能恢复正常,导致用户体验非常差。
附图说明
图1是本发明第一实施例提供的主动错误探测的GPU显存访问修复方法的流程图;
图2是本发明实施例提供的步骤S2中GPU内核驱动模块的一种执行流程示例;
图3是本发明第二实施例提供的主动错误探测的GPU显存访问修复装置的结构方框图。
具体实施方式
本发明通过设置定时主动错误探测机制,及时发现显存接口访问故障,然后暂停所有显存访问交易,并主动重新校准显存接口时序,最后恢复现场,实现显存接口访问故障的恢复。为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一:
图1示出了本发明实施例提供的主动错误探测的GPU显存访问修复方法的流程,为了便于说明仅示出了与本发明实施例相关的部分。
如图1所示,本实施例提供的主动错误探测的GPU显存访问修复方法包括下述步骤:
步骤S1、分配一小块用于读写数据测试的显存测试空间,定时主动检测所述显存测试空间数据读写是否正常。
GPU桌面驱动模块加载时,先分配一小块显存测试空间,比如Xorg图形桌面服务加载GPU桌面驱动模块时,先分配一小块显存测试空间,用于显存数据的读写检测,然后定时主动检测该显存空间数据读写访问是否正常,如果显存测试空间数据读写检测通过,则定时重复执行显存测试空间的访问测试,否则显存数据读写检测失败。具体实现时,过程如下:
S11、分配一小块用于读写数据测试的显存测试空间,所述显存测试空间满足显存数据宽度的2倍或4倍。如显存数据宽度为64位,亦即8字节,则只需要检测16字节或32字节大小的显存数据即可,显存测试空间的大小为16字节或32字节。
S12、定时触发显存测试空间数据读写检测,检测过程为:写入随机一组数据至显存测试空间,然后读出并进行正确性校验,若读出数据与先前写入数据一致,表示读写正常,否则读写检测失败。
显存定时检测可以通过设定定时器实现触发,如增加每秒检测一次的定时器,也可以创建一个专门线程定时执行显存检测操作。每次检测过程主要是通过写入随机数据,然后读取数据并比较写入和读取的是否一致,一致即表示读写正常,否则读写检测失败。比如读写错误检测通过通过一个检测模板进行判断,所述一组数据可以是一个数据也可以是多个数据,若是多个数据,则每个数据的读写都要一致才认定检测通过。列举一具体示例:每个字节写全0读出来判断;再写全0xff,再判断;再写0x55,再判断;再写0xaa,再判断。如果这四次的读写都正常,才判定为正常,否则判定检测失败。
步骤S2、若出现显存测试空间数据读写检测失败,则发出触发指令控制GPU桌面驱动模块暂停显存访问操作,以及GPU内核驱动模块暂停所有硬件模块对显存的访问操作,然后对显存控制器进行复位和重新初始化,实现对显存接口时序的重新校准,最后恢复所有硬件模块对显存的访问操作,恢复对显存接口的正常访问。这里所述硬件模块包括2D模块、3D模块、VPU模块、显示控制器、DMA模块、命令队列模块等。
如果出现读写检测失败,暂停定时检测,GPU桌面驱动模块先暂停本模块的所有显存访问操作,包括所有的图形绘制、搬移、读取和写入等,然后GPU内核驱动模块暂停所有硬件模块对显存的访问操作,暂停显存访问操作包括但不限于将GPU的2D模块和3D模块进入休眠状态,暂停视频编解码模块的运行,暂停所有DMA模块对显存的访问等操作,关闭显示控制器对显存的访问等。再对显存控制器进行复位和重新初始化,由于重新初始化过程包括了对显存接口信号的时序校准,从而能够修复因时序校准实效导致的显存访问错误的问题,最后恢复所有硬件模块对显存接口的正常访问操作。
作为一种具体实例,如图2所示,所述步骤S2中,当GPU内核驱动模块接收到触发指令后,GPU内核驱动模块先暂停2D、3D、VPU、DMA、显示控制器硬件模块对显存的访问操作,2D模块、3D模块进入休眠;然后复位并重新初始化显存控制器,修复显存控制器故障;最后恢复显存控制器、DMA、VPU、3D、2D硬件模块对显存的访问操作。
步骤S3、GPU桌面驱动模块执行完整的桌面刷新操作,并恢复GPU桌面驱动模块的所有显存访问操作。
本步骤中,显存接口恢复正常访问后,GPU桌面驱动模块执行完整的桌面刷新操作,并恢复该模块的后续正常的显存访问操作,实现操作系统图形界面恢复到正常状态。
具体的,本步骤实现过程如下:首先设置全屏更新标志,确保下一次桌面更新时更新整个桌面画面,而不是当前改变区域的画面,修复可能的显示花屏故障;然后恢复到正常的图形桌面绘图操作流程,并且恢复显存测试空间定时数据读写检测。
本实施例通过定时对显存测试空间进行读写数据测试,一旦检测到读写异常,则先暂停桌面显示更新和所有的显存访问操作,包括但不限于将GPU的2D和3D核进入休眠状态、暂停显存的DMA操作、关闭显示控制器等对显存的访问,然后对显存控制器进行重新初始化,初始化过程中会重新校准显存访问时序,待显存控制器初始化完成后,恢复GPU对显存的所有访问操作,并通知图形桌面服务程序对桌面进行刷新,恢复显示画面到正常状态。
实施例二:
图3示出了本发明实施例提供的主动错误探测的GPU显存访问修复装置的结构,为了便于说明仅示出了与本发明实施例相关的部分。
如图3所示,本实施例提供的主动错误探测的GPU显存访问修复装置包括:
定时检测模块100,用于分配一小块用于读写数据测试的显存测试空间,定时主动检测所述显存测试空间数据读写是否正常;
指令触发模块200,用于当出现显存测试空间数据读写检测失败时,发出触发指令;
GPU桌面驱动模块300,用于当接收到触发指令时暂停显存访问操作,以及当恢复显存接口的正常访问后,执行完整的桌面刷新操作,并恢复所有显存访问操作;
GPU内核驱动模块400,用于当接收到触发指令时暂停所有硬件模块对显存的访问操作,然后对显存控制器进行复位和重新初始化,实现对显存接口时序的重新校准,最后恢复所有硬件模块对显存的访问操作,恢复对显存接口的正常访问。
本结构中,定时检测模块和指令触发模块是一种显存访问错误主动探测机制,可以设计成独立的检测模块,也可以植入GPU桌面驱动模块中,这两种方式均在本实施例保护范围内。上述四个功能模块实现了实施例一中的步骤S1-S3,具体执行过程这里不再赘述。
作为一种优选结构,所述定时检测模块100包括:
显存分配单元,用于分配一小块用于读写数据测试的显存测试空间,所述显存测试空间满足显存数据宽度的2倍或4倍;
定时检测单元,用于定时触发显存测试空间数据读写检测,检测过程为:写入随机一组数据至显存测试空间,然后读出并进行正确性校验,若读出数据与先前写入数据一致,表示读写正常,否则读写检测失败。
所述GPU内核驱动模块包括:
模块暂停单元,用于暂停2D、3D、VPU、DMA、显示控制器硬件模块对显存的访问操作;
控制器初始化单元,用于复位并重新初始化显存控制器;
模块恢复单元,用于恢复显存控制器、DMA、VPU、3D、2D硬件模块对显存的访问操作。
综上,本发明通过提供一种GPU主动错误探测机制,通过定时主动检测发现显存访问问题,然后启动一些显存控制器相关的操作,包括暂停显存访问、显存控制器重新初始化、显存访问恢复、图像桌面刷新等,实现显存访问的恢复和显示故障的消除。而现有技术中,虽然可以通过重新设计电路板改善时序,但也不能必然解决或改善问题,如果通过购置支持动态时序校准的高端GPU显存控制器并重新GPU流片,但成本非常高昂。本发明无需改动硬件,通过软件驱动修复硬件缺陷问题,在不需要进行硬件改动情况下,提高GPU系统的稳定性和用户体验,不失为一种较好的错误规避方案。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种主动错误探测的GPU显存访问修复方法,其特征在于,所述方法包括下述步骤:
步骤S1、分配一小块用于读写数据测试的显存测试空间,定时主动检测所述显存测试空间数据读写是否正常;所述显存测试空间满足显存数据宽度的2倍或4倍;
步骤S2、若出现显存测试空间数据读写检测失败,则发出触发指令控制GPU桌面驱动模块暂停显存访问操作,以及GPU内核驱动模块暂停所有硬件模块对显存的访问操作,然后对显存控制器进行复位和重新初始化,实现对显存接口时序的重新校准,最后恢复所有硬件模块对显存的访问操作,恢复对显存接口的正常访问;
步骤S3、GPU桌面驱动模块执行完整的桌面刷新操作,并恢复GPU桌面驱动模块的所有显存访问操作;
其中所述步骤S3具体过程如下:
设置全屏更新标志,确保下一次桌面更新时更新整个桌面画面;
恢复到正常的图形桌面绘图操作流程;
恢复显存测试空间定时数据读写检测。
2.如权利要求1所述主动错误探测的GPU显存访问修复方法,其特征在于,所述步骤S1具体包括:
分配一小块用于读写数据测试的显存测试空间;
定时触发显存测试空间数据读写检测,检测过程为:写入随机一组数据至显存测试空间,然后读出并进行正确性校验,若读出数据与先前写入数据一致,表示读写正常,否则读写检测失败。
3.如权利要求2所述主动错误探测的GPU显存访问修复方法,其特征在于,所述步骤S2中,接收到触发指令后,GPU内核驱动模块动作如下:
暂停2D、3D、VPU、DMA、显示控制器硬件模块对显存的访问操作;
复位并重新初始化显存控制器;
恢复显存控制器、DMA、VPU、3D、2D硬件模块对显存的访问操作。
4.一种主动错误探测的GPU显存访问修复装置,其特征在于,所述装置包括:
定时检测模块,用于分配一小块用于读写数据测试的显存测试空间,定时主动检测所述显存测试空间数据读写是否正常;所述显存测试空间满足显存数据宽度的2倍或4倍;
指令触发模块,用于当出现显存测试空间数据读写检测失败时,发出触发指令;
GPU桌面驱动模块,用于当接收到触发指令时暂停显存访问操作,以及当恢复显存接口的正常访问后,执行完整的桌面刷新操作,并恢复所有显存访问操作,具体过程如下:设置全屏更新标志,确保下一次桌面更新时更新整个桌面画面;恢复到正常的图形桌面绘图操作流程;恢复显存测试空间定时数据读写检测;
GPU内核驱动模块,用于当接收到触发指令时暂停所有硬件模块对显存的访问操作,然后对显存控制器进行复位和重新初始化,实现对显存接口时序的重新校准,最后恢复所有硬件模块对显存的访问操作,恢复对显存接口的正常访问。
5.如权利要求4所述主动错误探测的GPU显存访问修复装置,其特征在于,所述定时检测模块包括:
显存分配单元,用于分配一小块用于读写数据测试的显存测试空间;
定时检测单元,用于定时触发显存测试空间数据读写检测,检测过程为:写入随机一组数据至显存测试空间,然后读出并进行正确性校验,若读出数据与先前写入数据一致,表示读写正常,否则读写检测失败。
6.如权利要求5所述主动错误探测的GPU显存访问修复装置,其特征在于,所述GPU内核驱动模块包括:
模块暂停单元,用于暂停2D、3D、VPU、DMA、显示控制器硬件模块对显存的访问操作;
控制器初始化单元,用于复位并重新初始化显存控制器;
模块恢复单元,用于恢复显存控制器、DMA、VPU、3D、2D硬件模块对显存的访问操作。
CN202210543511.2A 2022-05-19 2022-05-19 一种主动错误探测的gpu显存访问修复方法及装置 Active CN114637624B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210543511.2A CN114637624B (zh) 2022-05-19 2022-05-19 一种主动错误探测的gpu显存访问修复方法及装置
US18/078,498 US11907089B2 (en) 2022-05-19 2022-12-09 Method and apparatus for repairing GPU video memory access based on active error detection

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210543511.2A CN114637624B (zh) 2022-05-19 2022-05-19 一种主动错误探测的gpu显存访问修复方法及装置

Publications (2)

Publication Number Publication Date
CN114637624A CN114637624A (zh) 2022-06-17
CN114637624B true CN114637624B (zh) 2022-08-12

Family

ID=81953323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210543511.2A Active CN114637624B (zh) 2022-05-19 2022-05-19 一种主动错误探测的gpu显存访问修复方法及装置

Country Status (2)

Country Link
US (1) US11907089B2 (zh)
CN (1) CN114637624B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035875B (zh) * 2022-08-10 2022-11-15 武汉凌久微电子有限公司 一种三档优先级的gpu显示控制器预取显存方法及装置
CN115834874B (zh) * 2023-02-06 2023-04-28 武汉凌久微电子有限公司 一种用于gpu的显示带宽错误的实时监测方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750577A (zh) * 2015-04-13 2015-07-01 中国人民解放军国防科学技术大学 面向片上大容量缓冲存储器的任意多位容错方法及装置
CN107506261A (zh) * 2017-08-01 2017-12-22 北京丁牛科技有限公司 适应cpu、gpu异构集群的级联容错处理方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102053899A (zh) * 2009-10-28 2011-05-11 鸿富锦精密工业(深圳)有限公司 显存测试方法和系统
CN103309785A (zh) * 2012-03-12 2013-09-18 鸿富锦精密工业(深圳)有限公司 显卡故障自行恢复系统及方法
CN103514056A (zh) * 2012-06-19 2014-01-15 鸿富锦精密工业(深圳)有限公司 显卡故障处理系统及方法
US9298556B2 (en) * 2013-04-24 2016-03-29 Nintendo Co., Ltd. Graphics processing watchdog active reset
US9836354B1 (en) * 2014-04-28 2017-12-05 Amazon Technologies, Inc. Automated error detection and recovery for GPU computations in a service environment
CA2951819A1 (en) * 2015-12-18 2017-06-18 Stephen Viggers Methods and systems for monitoring the integrity of a gpu
TWM545940U (zh) * 2017-03-10 2017-07-21 Evga Corp 顯示卡無線監控裝置
US10852761B2 (en) * 2018-12-13 2020-12-01 Ati Technologies Ulc Computing system with automated video memory overclocking
GB2583001B (en) * 2019-09-30 2021-08-11 Imagination Tech Ltd Periodic reset
CN113127260B (zh) * 2019-12-31 2024-03-22 浙江宇视科技有限公司 一种显示异常处理方法、装置、设备及介质
CN113157476A (zh) * 2021-04-10 2021-07-23 作业帮教育科技(北京)有限公司 虚拟云环境中显卡故障的处理方法及装置
US11500711B1 (en) * 2021-07-20 2022-11-15 Rockwell Collins, Inc. System and method for determining error occurrence in graphics memory of graphics processing unit

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750577A (zh) * 2015-04-13 2015-07-01 中国人民解放军国防科学技术大学 面向片上大容量缓冲存储器的任意多位容错方法及装置
CN107506261A (zh) * 2017-08-01 2017-12-22 北京丁牛科技有限公司 适应cpu、gpu异构集群的级联容错处理方法

Also Published As

Publication number Publication date
CN114637624A (zh) 2022-06-17
US11907089B2 (en) 2024-02-20
US20230376393A1 (en) 2023-11-23

Similar Documents

Publication Publication Date Title
CN114637624B (zh) 一种主动错误探测的gpu显存访问修复方法及装置
US9275429B2 (en) Device hang detection and recovery
US7328365B2 (en) System and method for providing error check and correction in memory systems
US7200770B2 (en) Restoring access to a failed data storage device in a redundant memory system
TWI553650B (zh) 以記憶體控制器來處理資料錯誤事件之方法、設備及系統
US8219851B2 (en) System RAS protection for UMA style memory
US8020053B2 (en) On-line memory testing
TW201636770A (zh) 容錯式自動雙行記憶體模組更新技術
WO2022151717A1 (zh) 封装后的内存修复方法及装置、存储介质、电子设备
US20170031754A1 (en) Memory scrubbing in a mirrored memory system to reduce system power consumption
EP2204818A2 (en) Enabling an integrated memory controller to transparently work with defective memory devices
CN103620521A (zh) 用于控制系统功耗的技术
CN1269040C (zh) 信息处理设备
US20040205384A1 (en) Computer system and memory control method thereof
US20050028047A1 (en) Method and circuit for command integrity checking (CIC) in a graphics controller
US5204964A (en) Method and apparatus for resetting a memory upon power recovery
US20210279122A1 (en) Lifetime telemetry on memory error statistics to improve memory failure analysis and prevention
JP4411236B2 (ja) Cpuシステム
US12002530B2 (en) Embedded memory transparent in-system built-in self-test
US20230140090A1 (en) Embedded memory transparent in-system built-in self-test
US20230367676A1 (en) Checkpoint saving
CN116679875A (zh) 冗余磁盘阵列控制器切换系统、方法、电子设备及介质
JPS63187500A (ja) 半導体記憶装置
CN118160039A (zh) 嵌入式存储器透明的系统内内置自测试
CN118113497A (zh) 内存故障处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant