CN110457150B - 一种内存故障检测方法及装置 - Google Patents

一种内存故障检测方法及装置 Download PDF

Info

Publication number
CN110457150B
CN110457150B CN201910620003.8A CN201910620003A CN110457150B CN 110457150 B CN110457150 B CN 110457150B CN 201910620003 A CN201910620003 A CN 201910620003A CN 110457150 B CN110457150 B CN 110457150B
Authority
CN
China
Prior art keywords
memory
information
red
black tree
thread
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910620003.8A
Other languages
English (en)
Other versions
CN110457150A (zh
Inventor
熊化春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ruijie Networks Co Ltd
Original Assignee
Ruijie Networks Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ruijie Networks Co Ltd filed Critical Ruijie Networks Co Ltd
Priority to CN201910620003.8A priority Critical patent/CN110457150B/zh
Publication of CN110457150A publication Critical patent/CN110457150A/zh
Application granted granted Critical
Publication of CN110457150B publication Critical patent/CN110457150B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/52Program synchronisation; Mutual exclusion, e.g. by means of semaphores
    • G06F9/524Deadlock detection or avoidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/073Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例提供一种内存故障检测方法及装置。该方法包括:预先编译内存操作函数的重构函数,获取内存操作的内存信息和申请者信息;建立内存故障检测红黑树,当有内存操作时,将计算机程序链接至内存操作函数对应的重构函数,在红黑树中增加当前内存操作对应的节点,获取当前内存操作的内存信息和申请者信息并保存;在计算机程序编译过程中,在内存访问的指令中增加检测代码,获取当前访问的内存信息;遍历红黑树节点,对比访问的内存信息和红黑树节点中保存的内存信息,根据对比结果确定是否出现内存故障并根据红黑树中保存的申请者信息确定出现内存故障的申请模块。本发明实施例能够快速定位出现故障的模块。

Description

一种内存故障检测方法及装置
技术领域
本发明实施例涉及计算机技术领域,具体涉及一种内存故障检测方法及装置。
背景技术
内存改写、内存泄漏和死锁是代码开发过程中的常见问题,内存改写主要分为3种情形:内存越界、访问已释放内存和指针异常。内存泄漏是指程序中已动态分配的堆内存由于某种原因程序未释放或无法释放,造成系统内存的浪费。死锁是指两个或两个以上的进程在执行过程中,由于竞争资源或者由于彼此通信而造成的一种阻塞的现象。
目前内存故障检测工具主要为valgrind,valgrind中用于内存检测的工具为memcheck。对于内存改写,memcheck维护两个全局表valid-value和valid-address。valid-value对于整个地址空间的每一个字节,都有与之对应的8个bit,CPU的每个寄存器也有对应的bit向量,该表负责记录字节或者寄存器是否具有有效的、已经初始化的值;valid-address对于进程整个地址空间中的每一个字节,都有与之对应的1个bit负责记录该地址能否被读写。当进行内存读写操作时会从valid-value和valid-address这两个全局表取值,判断地址是否可读写或者是否初始化。对于内存泄漏,memcheck判断是否存在指向分配地址的指针,若只存在指向分配内存的指针但不是首地址则认为是可能泄漏,如果没有指针指向已分配内存则认为直接泄漏。对于多线程锁的检查则是另外一个工具helgrind,通过记录加锁、解锁的线程和位置,当发生死锁时,中断程序后则会输出占用锁的线程。
valgrind对于内存改写和内存泄漏都有比较好的支持,但工具内存损耗和性能都较为严重,当一个应用由多个模块组成时,valgrind无法进一步定位出现问题的模块。
发明内容
针对现有技术中的缺陷,本发明实施例提供了一种内存故障检测方法及装置。
第一方面,本发明实施例提供一种内存故障检测方法,包括:
预先编译内存操作函数的重构函数,所述重构函数用于获取内存操作的内存信息和申请者信息;
建立内存故障检测红黑树,在计算机程序编译过程中,当有内存操作时,将计算机程序链接至内存操作函数对应的重构函数,在所述红黑树中增加当前内存操作对应的节点,获取当前内存操作的内存信息和申请者信息,并在所述节点中保存所述内存信息和申请者信息;
在计算机程序编译过程中,在内存访问的指令中增加检测代码,所述检测代码用于获取当前访问的内存信息;
遍历红黑树节点,对比访问的内存信息和所述红黑树节点中保存的内存信息,根据对比结果确定是否出现内存故障;
若出现内存故障,则根据所述红黑树节点中保存的申请者信息确定出现内存故障的申请模块。
如上述方法,可选地,所述预先编译内存操作函数的重构函数,所述重构函数用于获取内存操作的内存信息和申请者信息,包括:
预先编译各个模块的内存分配函数的重构函数,所述重构函数用于在分配内存时多申请预设字节的隔离带以隔离不同的内存分配,并获取当前分配的内存首地址、内存大小和申请分配内存的模块信息;
相应地,所述建立内存故障检测红黑树,在计算机程序编译过程中,当有内存操作时,将计算机程序链接至内存操作函数对应的重构函数,在所述红黑树中增加当前内存操作对应的节点,获取当前内存操作的内存信息和申请者信息,并在所述节点中保存所述内存信息和申请者信息,包括:
建立内存改写检测红黑树,在计算机程序编译过程中,当有内存分配时,将计算机程序链接至内存分配函数对应的重构函数,在所述内存改写检测红黑树中增加当前内存分配对应的节点,获取当前内存分配的内存首地址、内存大小和申请分配内存的模块信息,并在所述节点中保存所述内存首地址、内存大小和申请分配内存的模块信息。
如上述方法,可选地,所述遍历红黑树节点,对比访问的内存信息和所述红黑树节点中保存的内存信息,根据对比结果确定是否出现内存故障,包括:
遍历所述内存改写检测红黑树节点,对比访问的内存信息和所述内存改写检测红黑树节点中保存的内存首地址、内存大小;
若所述访问的内存信息不在所述内存改写检测红黑树节点记载的内存信息中,则确定内存故障为访问未知内存;
若所述访问的内存信息中只有部分内存信息在所述内存改写检测红黑树节点记载的内存信息中,则确定内存故障为内存越界。
如上述方法,可选地,所述在计算机程序编译过程中,当有内存操作时,在所述红黑树中增加当前内存操作对应的节点之前,还包括:
在计算机程序编译过程中,在首次分配内存时创建扫描线程;
相应地,所述建立内存故障检测红黑树,在计算机程序编译过程中,当有内存操作时,将计算机程序链接至内存操作函数对应的重构函数,在所述红黑树中增加当前内存操作对应的节点,获取当前内存操作的内存信息和申请者信息,并在所述节点中保存所述内存信息和申请者信息,包括:
建立内存泄露检测红黑树,在计算机程序编译过程中,当有动态分配内存时,将计算机程序链接至内存操作函数对应的重构函数,在所述红黑树中增加当前动态分配内存对应的节点,获取当前动态分配内存的内存信息和申请模块信息,并在所述节点中保存所述内存信息和申请模块信息;
相应地,所述遍历红黑树节点,对比访问的内存信息和所述红黑树节点中保存的内存信息,根据对比结果确定是否出现内存故障,包括:
按预设周期定时扫描计算机程序编译过程中动态分配的内存,判断所述内存泄露检测红黑树中是否存在被扫描的内存指针,若不存在,则确定内存故障为内存泄露。
如上述方法,可选地,还包括:
通过所述检测代码检测到访问了所述内存泄露检测红黑树中记载的动态内存时,记录并更新最近访问时刻;
若待检测动态内存的最近访问时刻与当前时刻的差值超过预设时间段阈值,则确定所述待检测动态内存发生了内存泄露故障。
如上述方法,可选地,所述预先编译内存操作函数的重构函数,所述重构函数用于获取内存操作的内存信息和申请者信息,包括:
预先分别编译线程操作函数的重构函数和锁操作函数的重构函数,所述线程操作函数的重构函数用于获取线程信息和线程标识,所述锁操作函数的重构函数用于获取锁信息和锁标识;
相应地,所述建立内存故障检测红黑树,在计算机程序编译过程中,当有内存操作时,将计算机程序链接至内存操作函数对应的重构函数,在所述红黑树中增加当前内存操作对应的节点,获取当前内存操作的内存信息和申请者信息,并在所述节点中保存所述内存信息和申请者信息,包括:
建立死锁检测红黑树,在计算机程序编译过程中,当建立线程时,将计算机程序链接至所述线程操作函数的重构函数,在所述红黑树中增加当前建立线程对应的节点,获取当前线程,并在所述节点中保存所述线程信息和当前线程的线程标识;
在计算机程序编译过程中,当有加锁操作时,将计算机程序链接至所述锁操作函数的重构函数,在所述死锁检测红黑树中所述锁操作所在线程对应的节点中增加子节点,获取当前锁信息,并在所述子节点中按获取顺序依次保存所述锁信息和对应的锁标识,并标记锁状态为持有状态;
当有解锁操作时,在所述红黑树中对应的线程中查找与解锁操作对应的子节点,清除所述与解锁操作对应的子节点中锁信息的持有状态。
如上述方法,可选地,还包括:
遍历所述死锁检测红黑树中的所有子节点,依次获取第i个线程中第j个锁Uij在第m个线程中的位置Pijm以及所述锁Uij在所述第i个线程中的位置Piji
获取所述第m个线程中第k个锁Umk在所述第i个线程中的位置Pmki以及所述锁Umk在所述第m个线程中的位置Pmkm,其中i,j,k,m为整数,且i,m∈[0,N-1],N为所述死锁检测红黑树中记载的线程总数;
若判断获知sign(i,m)的结果为非负数,则确定所述第i个线程和所述第m个线程没有发生死锁,其中sign(i,m)={(Piji-Pmki)*(Pijm-Pmkm)}。
如上述方法,可选地,还包括:
若发生死锁,则通过所述死锁检测红黑树获取引起第一线程阻塞的第一锁,并在所述死锁检测红黑树中将所述第一锁对应的子节点标记为扫描状态,并记录标记次数;
通过所述死锁检测红黑树查找到持有所述第一锁的所有线程,判断每个持有所述第一锁的线程中引起阻塞的其他锁,并在所述死锁检测红黑树中将所述其他锁对应的子节点标记为扫描状态并记录标记次数,直到所述死锁检测红黑树中所有的子节点均被标记为扫描状态;
若第二锁的标记次数大于预设次数阈值,则将持有所述第二锁的所有线程中的每个锁标记为死锁状态。
第二方面,本发明实施例提供一种内存故障检测装置,包括:
预编译模块,用于预先编译内存操作函数的重构函数,所述重构函数用于获取内存操作的内存信息和申请者信息;
红黑树模块,用于建立内存故障检测红黑树,在计算机程序编译过程中,当有内存操作时,将计算机程序链接至内存操作函数对应的重构函数,在所述红黑树中增加当前内存操作对应的节点,获取当前内存操作的内存信息和申请者信息,并在所述节点中保存所述内存信息和申请者信息;
获取模块,用于在计算机程序编译过程中,在内存访问的指令中增加检测代码,所述检测代码用于获取当前访问的内存信息;
检测模块,用于遍历红黑树节点,对比访问的内存信息和所述红黑树节点中保存的内存信息,根据对比结果确定是否出现内存故障;
定位模块,用于若出现内存故障,则根据所述红黑树节点中保存的申请者信息确定出现内存故障的申请模块。
如上述装置,可选地,所述预编译模块具体用于:
预先编译各个模块的内存分配函数的重构函数,所述重构函数用于在分配内存时多申请预设字节的隔离带以隔离不同的内存分配,并获取当前分配的内存首地址、内存大小和申请分配内存的模块信息;
相应地,所述红黑树模块具体用于:
建立内存改写检测红黑树,在计算机程序编译过程中,当有内存分配时,将计算机程序链接至内存分配函数对应的重构函数,在所述内存改写检测红黑树中增加当前内存分配对应的节点,获取当前内存分配的内存首地址、内存大小和申请分配内存的模块信息,并在所述节点中保存所述内存首地址、内存大小和申请分配内存的模块信息。
如上述装置,可选地,所述检测模块具体用于:
遍历所述内存改写检测红黑树节点,对比访问的内存信息和所述内存改写检测红黑树节点中保存的内存首地址、内存大小;
若所述访问的内存信息不在所述内存改写检测红黑树节点记载的内存信息中,则确定内存故障为访问未知内存;
若所述访问的内存信息中只有部分内存信息在所述内存改写检测红黑树节点记载的内存信息中,则确定内存故障为内存越界。
如上述装置,可选地,还包括:
创建模块,用于在计算机程序编译过程中,在首次分配内存时创建扫描线程;
相应地,所述红黑树模块具体用于:
建立内存泄露检测红黑树,在计算机程序编译过程中,当有动态分配内存时,将计算机程序链接至内存操作函数对应的重构函数,在所述红黑树中增加当前动态分配内存对应的节点,获取当前动态分配内存的内存信息和申请模块信息,并在所述节点中保存所述内存信息和申请模块信息;
相应地,所述检测模块具体用于:
按预设周期定时扫描计算机程序编译过程中动态分配的内存,判断所述内存泄露检测红黑树中是否存在被扫描的内存指针,若不存在,则确定内存故障为内存泄露。
如上述装置,可选地,还包括:
统计模块,用于通过所述检测代码检测到访问了所述内存泄露检测红黑树中记载的动态内存时,记录并更新最近访问时刻;
相应地,所述定位模块还用于若待检测动态内存的最近访问时刻与当前时刻的差值超过预设时间段阈值,则确定所述待检测动态内存发生了内存泄露故障。
如上述装置,可选地,所述预编译模块具体用于:
预先分别编译线程操作函数的重构函数和锁操作函数的重构函数,所述线程操作函数的重构函数用于获取线程信息和线程标识,所述锁操作函数的重构函数用于获取锁信息和锁标识;
相应地,所述红黑树模块具体用于:
建立死锁检测红黑树,在计算机程序编译过程中,当建立线程时,将计算机程序链接至所述线程操作函数的重构函数,在所述红黑树中增加当前建立线程对应的节点,获取当前线程,并在所述节点中保存所述线程信息和当前线程的线程标识;
在计算机程序编译过程中,当有加锁操作时,将计算机程序链接至所述锁操作函数的重构函数,在所述死锁红黑树中所述锁操作所在线程对应的节点中增加子节点,获取当前锁信息,并在所述子节点中按获取顺序依次保存所述锁信息和对应的锁标识,并标记锁状态为持有状态;
当有解锁操作时,在所述红黑树中对应的线程中查找与解锁操作对应的子节点,清除所述与解锁操作对应的子节点中锁信息的持有状态。
如上述装置,可选地,还包括:
第一锁位置确定模块,用于遍历所述死锁检测红黑树中的所有子节点,依次获取第i个线程中第j个锁Uij在第m个线程中的位置Pijm以及所述锁Uij在所述第i个线程中的位置Piji
第二锁位置确定模块,用于获取,以及所述第m个线程中第k个锁Umk在所述第i个线程中的位置Pmki以及所述锁Umk在所述第m个线程中的位置Pmkm,其中i,j,k,m为整数,且i,m∈[0,N-1],N为所述死锁检测红黑树中记载的线程总数;
计算模块,用于若判断获知sign(i,m)的结果为非负数,则确定所述第i个线程和所述第m个线程没有发生死锁,其中sign(i,m)={(Piji-Pmki)*(Pijm-Pmkm)}。
如上述装置,可选地,还包括:
标记模块,用于若发生死锁,则通过所述死锁检测红黑树获取引起第一线程阻塞的第一锁,并在所述死锁检测红黑树中将所述第一锁对应的子节点标记为扫描状态,并记录标记次数;
扫描模块,用于通过所述死锁检测红黑树查找到持有所述第一锁的所有线程,判断每个持有所述第一锁的线程中引起阻塞的其他锁,并在所述死锁检测红黑树中将所述其他锁对应的子节点标记为扫描状态并记录标记次数,直到所述死锁检测红黑树中所有的子节点均被标记为扫描状态;
相应地,所述定位模块用于若第二锁的标记次数大于预设次数阈值,则将所述持有第二锁的所有线程中的每个锁标记为死锁状态。
本发明实施例提供的内存故障检测方法,在编译过程中链接重构函数获取红黑树需要记载的内存信息和申请内存的模块信息,通过在程序中插入检测代码获取分配的内存信息,支持在线的内存故障检测,引入申请者信息,能够快速定位出现故障的模块,且该内存故障检测方法内存使用少,性能损耗小,有利于在内存资源受限的环境中使用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的内存故障检测方法流程示意图;
图2为本发明实施例提供的内存故障检测装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的内存故障检测方法流程示意图,如图1所示,该方法包括:
步骤S11、预先编译内存操作函数的重构函数,所述重构函数用于获取内存操作的内存信息和申请者信息;
具体地,在进行内存故障检测时,首先编译各个内存操作函数的重构函数,内存操作函数包括但不限于:malloc、free等各类内存分配函数,pthread_create、mutex等各类线程操作函数以及spin、rwlock等各类锁操作函数。重构函数与原函数功能类似,重构函数用于获取内存操作的内存信息和申请内存操作的模块信息。例如用_wrap_func代替func函数,如使用_wrap_malloc代替malloc函数,或者在代码编写时直接使用带block名的重构函数代替原有函数,以此完成malloc、free、pthread_create、mutex、spin、rwlock等各类内存操作函数的重构,在重构函数中实现对内存信息、线程信息和锁信息的采集。
步骤S12、建立内存故障检测红黑树,在计算机程序编译过程中,当有内存操作时,将计算机程序链接至内存操作函数对应的重构函数,在所述红黑树中增加当前内存操作对应的节点,获取当前内存操作的内存信息和申请者信息,并在所述节点中保存所述内存信息和申请者信息;
具体地,在建立内存故障检测红黑树并存储在内存中,在计算机程序编译过程中,当有内存操作(例如分配内存、创建线程等)时,将计算机程序链接至内存操作函数对应的重构函数,例如当程序执行至malloc函数入口时,将程序链接至提前编译好的重构函数_wrap_malloc,_wrap_malloc函数可以在内存故障检测红黑树中创建节点Object,在Object中保存获取的malloc函数分配的内存信息以及申请内存分配的模块信息,或者在节点Object下建立子节点Block,Block保存申请者信息,这样内存故障检测红黑树中每个Object中元素Block表示是哪个模块申请或创建了对应的Object。
步骤S13、在计算机程序编译过程中,在内存访问的指令中增加检测代码,所述检测代码用于获取当前访问的内存信息;
具体地,在计算机程序编译过程中,对可重定位文件elf进行修改,修改的内容为在内存访问的指令中增加一段检测代码,在访问内存前插入检测代码,以获取当前访问的内存信息,通过在代码中插入检测代码,无需编译器支持,适用于各种代码检测。
步骤S14、遍历红黑树节点,对比访问的内存信息和所述红黑树节点中保存的内存信息,根据对比结果确定是否出现内存故障;
具体地,获取到当前访问的内存信息之后,对比访问的内存信息和内存故障检测红黑树节点Object中保存的内存信息,由于Object保存的是分配的内存信息,如果当前访问的内存信息不存在于Object保存的内存信息中,则表示出现了内存故障。
步骤S15、若出现内存故障,则根据所述红黑树节点中保存的申请者信息确定出现内存故障的申请模块。
具体地,如果检测到出现了内存故障,且已知出现内存故障的节点Object,则可以根据Object中记载的申请者信息,确定出现内存故障的申请模块,
本发明实施例提供的内存故障检测方法,在编译过程中链接重构函数获取红黑树需要记载的内存信息和申请内存的模块信息,通过在程序中插入检测代码获取分配的内存信息,支持在线的内存故障检测,引入申请者信息,能够快速定位出现故障的模块,且该内存故障检测方法内存使用少,性能损耗小,有利于在内存资源受限的环境中使用。
在上述实施例的基础上,进一步地,所述预先编译内存操作函数的重构函数,所述重构函数用于获取内存操作的内存信息和申请者信息,包括:
预先编译各个模块的内存分配函数的重构函数,所述重构函数用于在分配内存时多申请预设字节的隔离带以隔离不同的内存分配,并获取当前分配的内存首地址、内存大小和申请分配内存的模块信息;
相应地,所述建立内存故障检测红黑树,在计算机程序编译过程中,当有内存操作时,将计算机程序链接至内存操作函数对应的重构函数,在所述红黑树中增加当前内存操作对应的节点,获取当前内存操作的内存信息和申请者信息,并在所述节点中保存所述内存信息和申请者信息,包括:
建立内存改写检测红黑树,在计算机程序编译过程中,当有内存分配时,将计算机程序链接至内存分配函数对应的重构函数,在所述内存改写检测红黑树中增加当前内存分配对应的节点,获取当前内存分配的内存首地址、内存大小和申请分配内存的模块信息,并在所述节点中保存所述内存首地址、内存大小和申请分配内存的模块信息。
具体地,当进行内存改写检测时,首先针对各个模块的内存分配函数,分别编译与之对应的重构函数,利用上述的_wrap_func形式的链接选项,实现memset、memcpy、memmove、strcpy、strcat等内存操作函数的重构,这些重构函数用于在申请内存时,多分配预设字节的隔离带,例如会多申请一个8字节的空间,记为redzone,作为每次申请的内存之间的隔离。重构函数可以获得对应内存分配函数当前分配的内存信息和申请分配内存的模块信息,内存信息包括分配的内存的首地址和分配的内存大小。由于可以为每个模块分别编译其对应的重构函数,因此通过链接不同的重构函数,就可以确定申请分配内存的模块信息。
之后,建立内存改写检测红黑树,内存改写检测红黑树中存储每次内存分配的申请模块和分配的内存信息,具体地,在计算机程序编译过程中,当有内存分配时,链接至内存分配函数对应的重构函数,重构函数在内存改写检测红黑树中增加当前内存分配的节点,记录分配的内存地址和内存大小,并记录申请分配内存的模块信息,以此来获取计算机程序编译过程中的全局变量、栈空间或者动态分配的内存信息。
在上述各实施例的基础上,进一步地,所述遍历红黑树节点,对比访问的内存信息和所述红黑树节点中保存的内存信息,根据对比结果确定是否出现内存故障,包括:
遍历所述内存改写检测红黑树节点,对比访问的内存信息和所述内存改写检测红黑树节点中保存的内存首地址、内存大小;
若所述访问的内存信息不在所述内存改写检测红黑树节点记载的内存信息中,则确定内存故障为访问未知内存;
若所述访问的内存信息中只有部分内存信息在所述内存改写检测红黑树节点记载的内存信息中,则确定内存故障为内存越界。
具体地,建立完成内存改写检测红黑树之后,当检测代码检测到有内存访问时,遍历内存改写检测红黑树中的所有节点,对比访问的内存信息和内存改写检测红黑树中保存的内存首地址和内存大小信息,如果当前访问的内存信息不在内存改写检测红黑树节点记载的所有内存信息中,则表明当前访问了未知内存,标记出现了内存故障。进一步地,可对当前访问内存的模块进行追踪,以确定出现内存故障的模块。
如果访问的内存信息中只有一部分内存信息在内存改写检测红黑树节点记载的内存信息中,另一部分不在记载的内存信息中,则表明出现了内存越界,进一步,可根据记载在内存改写检测红黑树节点中的申请模块信息,确定出现内存故障的模块。
如果访问的内存信息在内存改写检测红黑树节点记载的内存信息中,则表明没有出现内存改写故障。
本发明实施例提供的内存故障检测方法,通过在内存分配时维护内存改写检测红黑树,记录分配的内存信息和申请分配内存的模块信息,通过插入检测代码获取访问的内存信息,对比访问的内存信息和记载的分配的内存信息,根据对比结果判断是否存在内存改写故障,支持在线的内存故障检测,引入申请者信息,能够快速定位出现故障的模块,且该内存故障检测方法内存使用少,性能损耗小,有利于在内存资源受限的环境中使用。
在上述各实施例的基础上,进一步地,所述在计算机程序编译过程中,当有内存操作时,在所述红黑树中增加当前内存操作对应的节点之前,还包括:
在计算机程序编译过程中,在首次分配内存时创建扫描线程;
相应地,所述建立内存故障检测红黑树,在计算机程序编译过程中,当有内存操作时,将计算机程序链接至内存操作函数对应的重构函数,在所述红黑树中增加当前内存操作对应的节点,获取当前内存操作的内存信息和申请者信息,并在所述节点中保存所述内存信息和申请者信息,包括:
建立内存泄露检测红黑树,在计算机程序编译过程中,当有动态分配内存时,将计算机程序链接至内存操作函数对应的重构函数,在所述红黑树中增加当前动态分配内存对应的节点,获取当前动态分配内存的内存信息和申请模块信息,并在所述节点中保存所述内存信息和申请模块信息;
相应地,所述遍历红黑树节点,对比访问的内存信息和所述红黑树节点中保存的内存信息,根据对比结果确定是否出现内存故障,包括:
按预设周期定时扫描计算机程序编译过程中动态分配的内存,判断所述内存泄露检测红黑树中是否存在被扫描的内存指针,若不存在,则确定内存故障为内存泄露。
具体地,当进行内存泄露检测时,在首次分配内存时创建扫描线程,之后建立内存泄露检测红黑树,在计算机程序编译过程中,当有动态分配内存时,将计算机程序链接至内存操作函数对应的重构函数,利用重构函数在红黑树中增加当前动态分配内存对应的节点,获取当前动态分配内存的内存信息和申请模块信息,并在节点中保存所述内存信息和申请模块信息。按预设周期定时扫描内存泄露检测红黑树中记载的动态分配内存,判断内存泄露检测红黑树中是否存在被扫描的内存指针,若不存在,则表明发生了内存泄露。
在上述各实施例的基础上,进一步地,还包括:
通过所述检测代码检测到访问了所述内存泄露检测红黑树中记载的动态内存时,记录并更新最近访问时刻;
若待检测动态内存的最近访问时刻与当前时刻的差值超过预设时间段阈值,则确定所述待检测动态内存发生了内存泄露故障。
具体地,还可以通过另一种方法判断是否发生了内存泄露,当通过检测代码检测到访问了内存泄露检测红黑树中记载的动态内存时,在红黑树中记录当前的访问时刻,如果再次访问该动态内存,则更新最近访问时刻。之后对所有动态内存的最近访问时刻进行排序,若待检测动态内存的最近访问时刻与当前时刻的差值超过预设时间段阈值,即该动态内存很久没有被访问了,则确定待检测动态内存发生了内存泄露故障。
本发明实施例提供的内存故障检测方法,通过在动态内存分配时维护内存泄露检测红黑树,记录动态分配的内存信息和申请分配内存的模块信息,通过插入检测代码获取访问的内存信息,对比访问的内存信息的最近访问时刻,根据时间长短判断是否存在内存泄露故障,支持在线的内存故障检测,能够检测出比较隐蔽的内存泄漏问题。
在上述各实施例的基础上,进一步地,所述预先编译内存操作函数的重构函数,所述重构函数用于获取内存操作的内存信息和申请者信息,包括:
预先分别编译线程操作函数的重构函数和锁操作函数的重构函数,所述线程操作函数的重构函数用于获取线程信息和线程标识,所述锁操作函数的重构函数用于获取锁信息和锁标识;
相应地,所述建立内存故障检测红黑树,在计算机程序编译过程中,当有内存操作时,将计算机程序链接至内存操作函数对应的重构函数,在所述红黑树中增加当前内存操作对应的节点,获取当前内存操作的内存信息和申请者信息,并在所述节点中保存所述内存信息和申请者信息,包括:
建立死锁检测红黑树,在计算机程序编译过程中,当建立线程时,将计算机程序链接至所述线程操作函数的重构函数,在所述红黑树中增加当前建立线程对应的节点,获取当前线程,并在所述节点中保存所述线程信息和当前线程的线程标识;
在计算机程序编译过程中,当有加锁操作时,将计算机程序链接至所述锁操作函数的重构函数,在所述死锁检测红黑树中所述锁操作所在线程对应的节点中增加子节点,获取当前锁信息,并在所述子节点中按获取顺序依次保存所述锁信息和对应的锁标识,并标记锁状态为持有状态;
当有解锁操作时,在所述红黑树中对应的线程中查找与解锁操作对应的子节点,清除所述与解锁操作对应的子节点中锁信息的持有状态。
具体地,当进行死锁检测时,预先编译线程操作函数的重构函数和锁操作函数的重构函数,锁包括互斥锁、自旋锁和读写锁等各类锁,线程操作函数的重构函数用于获取线程信息和线程标识,线程标识用于区分不同的线程,锁操作函数的重构函数用于获取锁信息和锁标识,锁标识用于区分不同的锁;
之后,建立死锁检测红黑树,在计算机程序编译过程中,当建立线程时,将计算机程序链接至线程操作函数的重构函数,利用重构函数在红黑树中增加当前线程操作对应的节点,获取当前线程和线程标识,并在节点中保存线程信息和线程标识,当某个线程中有加锁操作时,获取锁信息和锁标识,在死锁检测红黑树中按获取顺序增加该锁对应的子节点,保存锁信息和锁标识,并标记该锁的状态为持有状态,其中线程中锁的保存顺序为线程中锁的位置,即,某个线程中第一个获取的锁的位置为0,第二个获取的锁的位置为1等。
当某个线程中有解锁操作时,在死锁检测红黑树中该线程对应的节点查找到对应的持有锁,将锁标记的持有状态进行清除,这样在死锁检测红黑树中,被标记为持有状态的均为加锁操作且未被解锁的线程锁。由于将互斥锁、自旋锁和读写锁等类型进行抽象,抽象后的锁具有如下特性:一个线程被阻塞,最多只能被一个锁所阻塞;一个锁可以被多个线程持有,也可以被同一线程持有多次,但需要相应的解锁操作。通过将每个线程中的锁信息(包括加锁和解锁)保存在死锁检测红黑树中,根据抽象后的锁的特性,就可检测线程是否出现死锁,进一步还可以通过死锁检测红黑树确定发生死锁的所有线程。
本发明实施例提供的内存故障检测方法,通过在线程中获取到锁操作时维护死锁检测红黑树,记录每个线程的锁信息并标记锁状态,通过死锁检测红黑树判断是否出现死锁,支持在线的死锁检测,提高了死锁检测的正确率。
在上述各实施例的基础上,进一步地,还包括:
遍历所述死锁检测红黑树中的所有子节点,依次获取第i个线程中第j个锁Uij在第m个线程中的位置Pijm以及所述锁Uij在所述第i个线程中的位置Piji
获取所述第m个线程中第k个锁Umk在所述第i个线程中的位置Pmki以及所述锁Umk在所述第m个线程中的位置Pmkm,其中i,j,k,m为整数,且i,m∈[0,N-1],N为所述死锁检测红黑树中记载的线程总数;
若判断获知sign(i,m)的结果为非负数,则确定所述第i个线程和所述第m个线程没有发生死锁,其中sign(i,m)={(Piji-Pmki)*(Pijm-Pmkm)}。
具体地,在死锁检测红黑树中,记录线程所有的持有锁信息,按照持有顺序进行排序。解锁时记录当前线程锁持有锁和锁顺序信息,同时标记所有的持有锁,解锁时取消对应锁的标记,当下一次解锁时发现所有的持有锁都为标记状态且所有顺序包含在之前的记录中,则不做记录,防止记录信息冗余。若死锁检测红黑树中共有N个线程,M个持有锁,则首先遍历死锁检测红黑树中的所有子节点,即遍历所有线程中的持有锁,依次获取第i个线程中第j个锁Uij在该线程中的位置Piji以及该锁Uij在其他各个线程,例如第m个线程中的位置Pijm,其中i为从0到N-1的整数,j为小于M-1的整数。之后依次获取其他N-1个线程中第k个锁在第i个线程中的位置,例如第m个线程中第k个锁Umk在第i个线程中的位置Pmki以及锁Umk在第m个线程中的位置Pmkm,其中k为小于M-1的整数,如果某个锁在某个线程中不存在或者该锁在两个线程的位置相同且均有持有锁,则跳过该锁,检测下一个锁。
计算sign(i,m)={(Piji-Pmki)*(Pijm-Pmkm)},若结果为0或正数,则表明第i个线程和第m个线程没有发生死锁,若结果为负数,则表明第i个线程和第m个线程可能发生死锁。例如,当计算结果为负时,若线程i或线程m先一次性把两个锁获取到了,则不会发生死锁。如果线程i先获取一个锁,线程m再获取另外一个锁,此时会出现循环依赖,发生死锁。该公式表明,对任意两个锁E和锁F,如果这两个锁在线程i的加锁前后顺序与在这两个锁在线程m的加锁前后顺序相同,则线程i与线程m不会发生死锁。
例如,死锁检测红黑树中有3个线程,线程0、线程1和线程2,线程0中的持有锁按顺序依次为锁A、锁B和锁C,线程1中的持有锁按顺序依次为锁C、锁B和锁A,线程2中的持有锁按顺序依次为锁C、锁A和锁B。
首先取线程0中的第一个锁锁A,锁A在线程0中的位置P000=0,锁A在线程1中的位置为P001=2,锁A在线程2中的位置为P002=1,线程1中的第一个锁锁C在线程0中的位置P100=2,线程1中的第一个锁锁C在线程1中的位置P101=0,线程2中的第一个锁锁C在线程0中的位置P200=2,线程2中的第一个锁锁C在线程2中的位置P202=0。
线程0和线程1的符号函数sign(0,1)={(P000-P100)*(P001-P101)}=(0-2)*(2-0),结果为负数,表明当线程0获取到锁A后发生调度,线程1获取到锁C,则会发生线程1无法继续获取锁C(被线程1持有),线程1无法继续获取锁A(被线程0持有),则线程0和线程1发生死锁。
线程0和线程2的符号函数sign(0,2)={(P000-P200)*(P002-P202)}=(0-2)*(1-0),结果为负数,则线程0和线程2可能发生死锁。
取线程1中的第一个锁锁C在线程2中的位置P102=0,线程1中的第一个锁锁C在线程1中的位置P101=0,线程2中的第一个锁锁C在线程1中的位置P201=0,线程2中的第一个锁锁C在线程2中的位置P202=0。
线程1和线程2的符号函数sign(1,2)={(P101-P201)*(P102-P202)}=(0-0)*(0-0),结果为0,表明线程1和线程2一次性获取到自己需要的锁,则线程1和线程2不会发生死锁。
在上述实施例的基础上,进一步地,还包括:
若发生死锁,则通过所述死锁检测红黑树获取引起第一线程阻塞的第一锁,并在所述死锁检测红黑树中将所述第一锁对应的子节点标记为扫描状态,并记录标记次数;
通过所述死锁检测红黑树查找到持有所述第一锁的所有线程,判断每个持有所述第一锁的线程中引起阻塞的其他锁,并在所述死锁检测红黑树中将所述其他锁对应的子节点标记为扫描状态并记录标记次数,直到所述死锁检测红黑树中所有的子节点均被标记为扫描状态;
若第二锁的标记次数大于预设次数阈值,则将持有所述第二锁的所有线程中的每个锁标记为死锁状态。
具体地,如果已经发生死锁,则需要标记是哪些锁为死锁状态。通过死锁检测红黑树获取引起第一线程阻塞的第一锁锁A,并在死锁检测红黑树中将锁A对应的子节点标记为扫描状态,并记录标记次数为1。然后通过死锁检测红黑树查找到所有持有锁A的线程,判断这些线程中引起该线程阻塞的其他锁,将这些其他锁标记为扫描状态,并记录标记次数为1,当第二次扫描到标记次数为1的锁时,更新标记次数为2,以此类推,直到死锁检测红黑树中所有的子节点均被标记为扫描状态,如果某个锁的标记次数大于预设次数阈值,例如标记次数大于1,则将持有该锁的所有线程中的每个锁都标记为死锁状态。
例如,获取引起线程1阻塞的锁B,并标记为已扫描,扫描次数为1,从死锁检测红黑树中找到持有锁B的所有线程(例如其中一个是线程2),获取引起线程2阻塞的锁C,并标记为已扫描,扫描次数根据实际情况更新。以此类推。当检测到某个锁被至少扫描两次时,则认为是出现了死锁,标记死锁的扫描路径上的所有锁为死锁状态。按照该方法继续检测其他线程。本发明实施例通过维护死锁检测红黑树,不仅可以判断是否出现死锁,还可以定位具体出现问题的锁信息,进一步提高了死锁检测效率。
图2为本发明实施例提供的内存故障检测装置的结构示意图,如图2所示,该装置包括:预编译模块21、红黑树模块22、获取模块23、检测模块24和定位模块25,其中:
预编译模块21用于预先编译内存操作函数的重构函数,所述重构函数用于获取内存操作的内存信息和申请者信息;红黑树模块22用于建立内存故障检测红黑树,在计算机程序编译过程中,当有内存操作时,将计算机程序链接至内存操作函数对应的重构函数,在所述红黑树中增加当前内存操作对应的节点,获取当前内存操作的内存信息和申请者信息,并在所述节点中保存所述内存信息和申请者信息;获取模块23用于在计算机程序编译过程中,在内存访问的指令中增加检测代码,所述检测代码用于获取当前访问的内存信息;检测模块24用于遍历红黑树节点,对比访问的内存信息和所述红黑树节点中保存的内存信息,根据对比结果确定是否出现内存故障;定位模块25用于若出现内存故障,则根据所述红黑树节点中保存的申请者信息确定出现内存故障的申请模块。
在上述实施例的基础上,进一步地,所述预编译模块具体用于:
预先编译各个模块的内存分配函数的重构函数,所述重构函数用于在分配内存时多申请预设字节的隔离带以隔离不同的内存分配,并获取当前分配的内存首地址、内存大小和申请分配内存的模块信息;
相应地,所述红黑树模块具体用于:
建立内存改写检测红黑树,在计算机程序编译过程中,当有内存分配时,将计算机程序链接至内存分配函数对应的重构函数,在所述内存改写检测红黑树中增加当前内存分配对应的节点,获取当前内存分配的内存首地址、内存大小和申请分配内存的模块信息,并在所述节点中保存所述内存首地址、内存大小和申请分配内存的模块信息。
在上述各实施例的基础上,进一步地,所述检测模块具体用于:
遍历所述内存改写检测红黑树节点,对比访问的内存信息和所述内存改写检测红黑树节点中保存的内存首地址、内存大小;
若所述访问的内存信息不在所述内存改写检测红黑树节点记载的内存信息中,则确定内存故障为访问未知内存;
若所述访问的内存信息中只有部分内存信息在所述内存改写检测红黑树节点记载的内存信息中,则确定内存故障为内存越界。
在上述各实施例的基础上,进一步地,还包括:
创建模块,用于在计算机程序编译过程中,在首次分配内存时创建扫描线程;
相应地,所述红黑树模块具体用于:
建立内存泄露检测红黑树,在计算机程序编译过程中,当有动态分配内存时,将计算机程序链接至内存操作函数对应的重构函数,在所述红黑树中增加当前动态分配内存对应的节点,获取当前动态分配内存的内存信息和申请模块信息,并在所述节点中保存所述内存信息和申请模块信息;
相应地,所述检测模块具体用于:
按预设周期定时扫描计算机程序编译过程中动态分配的内存,判断所述内存泄露检测红黑树中是否存在被扫描的内存指针,若不存在,则确定内存故障为内存泄露。
在上述各实施例的基础上,进一步地,还包括:
统计模块,用于通过所述检测代码检测到访问了所述内存泄露检测红黑树中记载的动态内存时,记录并更新最近访问时刻;
相应地,所述定位模块还用于若待检测动态内存的最近访问时刻与当前时刻的差值超过预设时间段阈值,则确定所述待检测动态内存发生了内存泄露故障。
在上述各实施例的基础上,进一步地,所述预编译模块具体用于:
预先分别编译线程操作函数的重构函数和锁操作函数的重构函数,所述线程操作函数的重构函数用于获取线程信息和线程标识,所述锁操作函数的重构函数用于获取锁信息和锁标识;
相应地,所述红黑树模块具体用于:
建立死锁检测红黑树,在计算机程序编译过程中,当建立线程时,将计算机程序链接至所述线程操作函数的重构函数,在所述红黑树中增加当前建立线程对应的节点,获取当前线程,并在所述节点中保存所述线程信息和当前线程的线程标识;
在计算机程序编译过程中,当有加锁操作时,将计算机程序链接至所述锁操作函数的重构函数,在所述死锁检测红黑树中所述锁操作所在线程对应的节点中增加子节点,获取当前锁信息,并在所述子节点中按获取顺序依次保存所述锁信息和对应的锁标识,并标记锁状态为持有状态;
当有解锁操作时,在所述红黑树中对应的线程中查找与解锁操作对应的子节点,清除所述与解锁操作对应的子节点中锁信息的持有状态。
在上述各实施例的基础上,进一步地,还包括:
第一锁位置确定模块,用于遍历所述死锁检测红黑树中的所有子节点,依次获取第i个线程中第j个锁Uij在第m个线程中的位置Pijm以及所述锁Uij在所述第i个线程中的位置Piji
第二锁位置确定模块,用于获取所述第m个线程中第k个锁Umk在所述第i个线程中的位置Pmki以及所述锁Umk在所述第m个线程中的位置Pmkm,其中i,j,k,m为整数,且i,m∈[0,N-1],N为所述死锁检测红黑树中记载的线程总数;
计算模块,用于若判断获知sign(i,m)的结果为非负数,则确定所述第i个线程和所述第m个线程没有发生死锁,其中sign(i,m)={(Piji-Pmki)*(Pijm-Pmkm)}。
在上述各实施例的基础上,进一步地,还包括:
标记模块,用于若发生死锁,则通过所述死锁检测红黑树获取引起第一线程阻塞的第一锁,并在所述死锁检测红黑树中将所述第一锁对应的子节点标记为扫描状态,并记录标记次数;
扫描模块,用于通过所述死锁检测红黑树查找到持有所述第一锁的所有线程,判断每个持有所述第一锁的线程中引起阻塞的其他锁,并在所述死锁检测红黑树中将所述其他锁对应的子节点标记为扫描状态并记录标记次数,直到所述死锁检测红黑树中所有的子节点均被标记为扫描状态;
相应地,所述定位模块用于若第二锁的标记次数大于预设次数阈值,则将持有所述第二锁的所有线程中的每个锁标记为死锁状态。
本发明实施例提供的装置,用于实现上述方法,其功能具体参照上述方法实施例,此处不再赘述。
本发明实施例提供的内存故障检测装置,在编译过程中链接重构函数获取红黑树需要记载的内存信息和申请内存的模块信息,通过在程序中插入检测代码获取分配的内存信息,支持在线的内存故障检测,引入申请者信息,能够快速定位出现故障的模块,且该内存故障检测方法内存使用少,性能损耗小,有利于在内存资源受限的环境中使用。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
最后应说明的是:以上各实施例仅用以说明本发明的实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明的实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明的各实施例技术方案的范围。

Claims (14)

1.一种内存故障检测方法,其特征在于,包括:
预先编译内存操作函数的重构函数,所述重构函数用于获取内存操作的内存信息和申请者信息;
建立内存故障检测红黑树,在计算机程序编译过程中,当有内存操作时,将计算机程序链接至内存操作函数对应的重构函数,在所述红黑树中增加当前内存操作对应的节点,获取当前内存操作的内存信息和申请者信息,并在所述节点中保存所述内存信息和申请者信息;
在计算机程序编译过程中,在内存访问的指令中增加检测代码,所述检测代码用于获取当前访问的内存信息;
遍历红黑树节点,对比访问的内存信息和所述红黑树节点中保存的内存信息,根据对比结果确定是否出现内存故障;
若出现内存故障,则根据所述红黑树节点中保存的申请者信息确定出现内存故障的申请模块;
其中,所述预先编译内存操作函数的重构函数,所述重构函数用于获取内存操作的内存信息和申请者信息,包括:
预先分别编译线程操作函数的重构函数和锁操作函数的重构函数,所述线程操作函数的重构函数用于获取线程信息和线程标识,所述锁操作函数的重构函数用于获取锁信息和锁标识;
相应地,所述建立内存故障检测红黑树,在计算机程序编译过程中,当有内存操作时,将计算机程序链接至内存操作函数对应的重构函数,在所述红黑树中增加当前内存操作对应的节点,获取当前内存操作的内存信息和申请者信息,并在所述节点中保存所述内存信息和申请者信息,包括:
建立死锁检测红黑树,在计算机程序编译过程中,当建立线程时,将计算机程序链接至所述线程操作函数的重构函数,在所述红黑树中增加当前建立线程对应的节点,获取当前线程,并在所述节点中保存所述线程信息和当前线程的线程标识;
在计算机程序编译过程中,当有加锁操作时,将计算机程序链接至所述锁操作函数的重构函数,在所述死锁检测红黑树中所述锁操作所在线程对应的节点中增加子节点,获取当前锁信息,并在所述子节点中按获取顺序依次保存所述锁信息和对应的锁标识,并标记锁状态为持有状态;
当有解锁操作时,在所述红黑树中对应的线程中查找与解锁操作对应的子节点,清除所述与解锁操作对应的子节点中锁信息的持有状态。
2.根据权利要求1所述的方法,其特征在于,所述预先编译内存操作函数的重构函数,所述重构函数用于获取内存操作的内存信息和申请者信息,包括:
预先编译各个模块的内存分配函数的重构函数,所述重构函数用于在分配内存时多申请预设字节的隔离带以隔离不同的内存分配,并获取当前分配的内存首地址、内存大小和申请分配内存的模块信息;
相应地,所述建立内存故障检测红黑树,在计算机程序编译过程中,当有内存操作时,将计算机程序链接至内存操作函数对应的重构函数,在所述红黑树中增加当前内存操作对应的节点,获取当前内存操作的内存信息和申请者信息,并在所述节点中保存所述内存信息和申请者信息,包括:
建立内存改写检测红黑树,在计算机程序编译过程中,当有内存分配时,将计算机程序链接至内存分配函数对应的重构函数,在所述内存改写检测红黑树中增加当前内存分配对应的节点,获取当前内存分配的内存首地址、内存大小和申请分配内存的模块信息,并在所述节点中保存所述内存首地址、内存大小和申请分配内存的模块信息。
3.根据权利要求2所述的方法,其特征在于,所述遍历红黑树节点,对比访问的内存信息和所述红黑树节点中保存的内存信息,根据对比结果确定是否出现内存故障,包括:
遍历所述内存改写检测红黑树节点,对比访问的内存信息和所述内存改写检测红黑树节点中保存的内存首地址、内存大小;
若所述访问的内存信息不在所述内存改写检测红黑树节点记载的内存信息中,则确定内存故障为访问未知内存;
若所述访问的内存信息中只有部分内存信息在所述内存改写检测红黑树节点记载的内存信息中,则确定内存故障为内存越界。
4.根据权利要求1所述的方法,其特征在于,所述在计算机程序编译过程中,当有内存操作时,在所述红黑树中增加当前内存操作对应的节点之前,还包括:
在计算机程序编译过程中,在首次分配内存时创建扫描线程;
相应地,所述建立内存故障检测红黑树,在计算机程序编译过程中,当有内存操作时,将计算机程序链接至内存操作函数对应的重构函数,在所述红黑树中增加当前内存操作对应的节点,获取当前内存操作的内存信息和申请者信息,并在所述节点中保存所述内存信息和申请者信息,包括:
建立内存泄露检测红黑树,在计算机程序编译过程中,当有动态分配内存时,将计算机程序链接至内存操作函数对应的重构函数,在所述红黑树中增加当前动态分配内存对应的节点,获取当前动态分配内存的内存信息和申请模块信息,并在所述节点中保存所述内存信息和申请模块信息;
相应地,所述遍历红黑树节点,对比访问的内存信息和所述红黑树节点中保存的内存信息,根据对比结果确定是否出现内存故障,包括:
按预设周期定时扫描计算机程序编译过程中动态分配的内存,判断所述内存泄露检测红黑树中是否存在被扫描的内存指针,若不存在,则确定内存故障为内存泄露。
5.根据权利要求4所述的方法,其特征在于,还包括:
通过所述检测代码检测到访问了所述内存泄露检测红黑树中记载的动态内存时,记录并更新最近访问时刻;
若待检测动态内存的最近访问时刻与当前时刻的差值超过预设时间段阈值,则确定所述待检测动态内存发生了内存泄露故障。
6.根据权利要求1所述的方法,其特征在于,还包括:
遍历所述死锁检测红黑树中的所有子节点,依次获取第i个线程中第j个锁Uij在第m个线程中的位置Pijm以及所述锁Uij在所述第i个线程中的位置Piji
获取所述第m个线程中第k个锁Umk在所述第i个线程中的位置Pmki以及所述锁Umk在所述第m个线程中的位置Pmkm,其中i,j,k,m为整数,且i,m∈[0,N-1],N为所述死锁检测红黑树中记载的线程总数;
若判断获知sign(i,m)的结果为非负数,则确定所述第i个线程和所述第m个线程没有发生死锁,其中sign(i,m)={(Piji-Pmki)*(Pijm-Pmkm)}。
7.根据权利要求6所述的方法,其特征在于,还包括:
若发生死锁,则通过所述死锁检测红黑树获取引起第一线程阻塞的第一锁,并在所述死锁检测红黑树中将所述第一锁对应的子节点标记为扫描状态,并记录标记次数;
通过所述死锁检测红黑树查找到持有所述第一锁的所有线程,判断每个持有所述第一锁的线程中引起阻塞的其他锁,并在所述死锁检测红黑树中将所述其他锁对应的子节点标记为扫描状态并记录标记次数,直到所述死锁检测红黑树中所有的子节点均被标记为扫描状态;
若第二锁的标记次数大于预设次数阈值,则将持有所述第二锁的所有线程中的每个锁标记为死锁状态。
8.一种内存故障检测装置,其特征在于,包括:
预编译模块,用于预先编译内存操作函数的重构函数,所述重构函数用于获取内存操作的内存信息和申请者信息;
红黑树模块,用于建立内存故障检测红黑树,在计算机程序编译过程中,当有内存操作时,将计算机程序链接至内存操作函数对应的重构函数,在所述红黑树中增加当前内存操作对应的节点,获取当前内存操作的内存信息和申请者信息,并在所述节点中保存所述内存信息和申请者信息;
获取模块,用于在计算机程序编译过程中,在内存访问的指令中增加检测代码,所述检测代码用于获取当前访问的内存信息;
检测模块,用于遍历红黑树节点,对比访问的内存信息和所述红黑树节点中保存的内存信息,根据对比结果确定是否出现内存故障;
定位模块,用于若出现内存故障,则根据所述红黑树节点中保存的申请者信息确定出现内存故障的申请模块;
其中,所述预编译模块具体用于:
预先分别编译线程操作函数的重构函数和锁操作函数的重构函数,所述线程操作函数的重构函数用于获取线程信息和线程标识,所述锁操作函数的重构函数用于获取锁信息和锁标识;
相应地,所述红黑树模块具体用于:
建立死锁检测红黑树,在计算机程序编译过程中,当建立线程时,将计算机程序链接至所述线程操作函数的重构函数,在所述红黑树中增加当前建立线程对应的节点,获取当前线程,并在所述节点中保存所述线程信息和当前线程的线程标识;
在计算机程序编译过程中,当有加锁操作时,将计算机程序链接至所述锁操作函数的重构函数,在所述死锁检测红黑树中所述锁操作所在线程对应的节点中增加子节点,获取当前锁信息,并在所述子节点中按获取顺序依次保存所述锁信息和对应的锁标识,并标记锁状态为持有状态;
当有解锁操作时,在所述红黑树中对应的线程中查找与解锁操作对应的子节点,清除所述与解锁操作对应的子节点中锁信息的持有状态。
9.根据权利要求8所述的装置,其特征在于,所述预编译模块具体用于:
预先编译各个模块的内存分配函数的重构函数,所述重构函数用于在分配内存时多申请预设字节的隔离带以隔离不同的内存分配,并获取当前分配的内存首地址、内存大小和申请分配内存的模块信息;
相应地,所述红黑树模块具体用于:
建立内存改写检测红黑树,在计算机程序编译过程中,当有内存分配时,将计算机程序链接至内存分配函数对应的重构函数,在所述内存改写检测红黑树中增加当前内存分配对应的节点,获取当前内存分配的内存首地址、内存大小和申请分配内存的模块信息,并在所述节点中保存所述内存首地址、内存大小和申请分配内存的模块信息。
10.根据权利要求9所述的装置,其特征在于,所述检测模块具体用于:
遍历所述内存改写检测红黑树节点,对比访问的内存信息和所述内存改写检测红黑树节点中保存的内存首地址、内存大小;
若所述访问的内存信息不在所述内存改写检测红黑树节点记载的内存信息中,则确定内存故障为访问未知内存;
若所述访问的内存信息中只有部分内存信息在所述内存改写检测红黑树节点记载的内存信息中,则确定内存故障为内存越界。
11.根据权利要求8所述的装置,其特征在于,还包括:
创建模块,用于在计算机程序编译过程中,在首次分配内存时创建扫描线程;
相应地,所述红黑树模块具体用于:
建立内存泄露检测红黑树,在计算机程序编译过程中,当有动态分配内存时,将计算机程序链接至内存操作函数对应的重构函数,在所述红黑树中增加当前动态分配内存对应的节点,获取当前动态分配内存的内存信息和申请模块信息,并在所述节点中保存所述内存信息和申请模块信息;
相应地,所述检测模块具体用于:
按预设周期定时扫描计算机程序编译过程中动态分配的内存,判断所述内存泄露检测红黑树中是否存在被扫描的内存指针,若不存在,则确定内存故障为内存泄露。
12.根据权利要求11所述的装置,其特征在于,还包括:
统计模块,用于通过所述检测代码检测到访问了所述内存泄露检测红黑树中记载的动态内存时,记录并更新最近访问时刻;
相应地,所述定位模块还用于若待检测动态内存的最近访问时刻与当前时刻的差值超过预设时间段阈值,则确定所述待检测动态内存发生了内存泄露故障。
13.根据权利要求8所述的装置,其特征在于,还包括:
第一锁位置确定模块,用于遍历所述死锁检测红黑树中的所有子节点,依次获取第i个线程中第j个锁Uij在第m个线程中的位置Pijm以及所述锁Uij在所述第i个线程中的位置Piji
第二锁位置确定模块,用于获取所述第m个线程中第k个锁Umk在所述第i个线程中的位置Pmki以及所述锁Umk在所述第m个线程中的位置Pmkm,其中i,j,k,m为整数,且i,m∈[0,N-1],N为所述死锁检测红黑树中记载的线程总数;
计算模块,用于若判断获知sign(i,m)的结果为非负数,则确定所述第i个线程和所述第m个线程没有发生死锁,其中sign(i,m)={(Piji-Pmki)*(Pijm-Pmkm)}。
14.根据权利要求13所述的装置,其特征在于,还包括:
标记模块,用于若发生死锁,则通过所述死锁检测红黑树获取引起第一线程阻塞的第一锁,并在所述死锁检测红黑树中将所述第一锁对应的子节点标记为扫描状态,并记录标记次数;
扫描模块,用于通过所述死锁检测红黑树查找到持有所述第一锁的所有线程,判断每个持有所述第一锁的线程中引起阻塞的其他锁,并在所述死锁检测红黑树中将所述其他锁对应的子节点标记为扫描状态并记录标记次数,直到所述死锁检测红黑树中所有的子节点均被标记为扫描状态;
相应地,所述定位模块用于若第二锁的标记次数大于预设次数阈值,则将持有所述第二锁的所有线程中的每个锁标记为死锁状态。
CN201910620003.8A 2019-07-10 2019-07-10 一种内存故障检测方法及装置 Active CN110457150B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910620003.8A CN110457150B (zh) 2019-07-10 2019-07-10 一种内存故障检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910620003.8A CN110457150B (zh) 2019-07-10 2019-07-10 一种内存故障检测方法及装置

Publications (2)

Publication Number Publication Date
CN110457150A CN110457150A (zh) 2019-11-15
CN110457150B true CN110457150B (zh) 2023-03-21

Family

ID=68482625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910620003.8A Active CN110457150B (zh) 2019-07-10 2019-07-10 一种内存故障检测方法及装置

Country Status (1)

Country Link
CN (1) CN110457150B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111694747B (zh) * 2020-06-17 2023-03-28 抖音视界有限公司 线程的检测方法、装置、设备及计算机可读介质
CN112035314B (zh) * 2020-07-31 2024-04-30 北京达佳互联信息技术有限公司 内存泄漏的监控方法、装置及电子设备
CN112084024B (zh) * 2020-08-31 2024-02-02 北京字节跳动网络技术有限公司 一种内存监控方法、装置、介质和电子设备
CN112905372A (zh) * 2021-02-02 2021-06-04 浙江大华技术股份有限公司 线程的异常诊断方法及装置
CN113360403B (zh) * 2021-06-30 2024-07-05 中国工商银行股份有限公司 主机程序故障的定位方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5590329A (en) * 1994-02-04 1996-12-31 Lucent Technologies Inc. Method and apparatus for detecting memory access errors
CN101587455A (zh) * 2008-12-11 2009-11-25 南京南瑞继保电气有限公司 一种用于vxWorks操作系统检查内存泄漏的方法
CN106502880A (zh) * 2016-09-20 2017-03-15 东软集团股份有限公司 一种内存泄漏调试方法及装置
CN106933733A (zh) * 2015-12-30 2017-07-07 华为技术有限公司 一种确定内存泄露位置的方法和装置
CN108108258A (zh) * 2017-12-29 2018-06-01 杭州迪普科技股份有限公司 一种内存泄露的修复方法和装置
CN109144872A (zh) * 2018-08-20 2019-01-04 杭州迪普科技股份有限公司 内存泄漏的检测方法、装置、终端设备及可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9003240B2 (en) * 2012-08-28 2015-04-07 Nec Laboratories America, Inc. Blackbox memory monitoring with a calling context memory map and semantic extraction

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5590329A (en) * 1994-02-04 1996-12-31 Lucent Technologies Inc. Method and apparatus for detecting memory access errors
CN101587455A (zh) * 2008-12-11 2009-11-25 南京南瑞继保电气有限公司 一种用于vxWorks操作系统检查内存泄漏的方法
CN106933733A (zh) * 2015-12-30 2017-07-07 华为技术有限公司 一种确定内存泄露位置的方法和装置
CN106502880A (zh) * 2016-09-20 2017-03-15 东软集团股份有限公司 一种内存泄漏调试方法及装置
CN108108258A (zh) * 2017-12-29 2018-06-01 杭州迪普科技股份有限公司 一种内存泄露的修复方法和装置
CN109144872A (zh) * 2018-08-20 2019-01-04 杭州迪普科技股份有限公司 内存泄漏的检测方法、装置、终端设备及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种适合通信协议软件开发的内存管理方法;赵文华;《电信快报》;20091210(第12期);第33-35页 *
基于红黑树的堆内存泄漏动态检测技术;葛瑶等;《计算机工程》;20080820(第16期);第159-161页 *

Also Published As

Publication number Publication date
CN110457150A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN110457150B (zh) 一种内存故障检测方法及装置
Wen et al. Interval-based memory reclamation
US11200047B2 (en) Identifying versions of running programs using signatures derived from object files
US7549150B2 (en) Method and system for detecting potential races in multithreaded programs
US7512765B2 (en) System and method for auditing memory
US8555255B2 (en) Method of tracing object allocation site in program, as well as computer system and computer program therefor
US8356289B2 (en) Efficient encoding of instrumented data in real-time concurrent systems
US20040107227A1 (en) Method for efficient implementation of dynamic lock-free data structures with safe memory reclamation
CN104636259B (zh) 一种基于运行期动态跟踪的函数执行超时与死锁检测方法
US7293142B1 (en) Memory leak detection system and method using contingency analysis
JPH10254716A (ja) マルチスレッデッドプログラムにおけるコンカレントエラーの検出
US20130219367A9 (en) Atomicity violation detection using access interleaving invariants
US20120198460A1 (en) Deadlock Detection Method and System for Parallel Programs
JP2008276763A (ja) メモリエラーの検出法
Brown et al. Non-blocking interpolation search trees with doubly-logarithmic running time
US20080163174A1 (en) Threading model analysis system and method
US7801872B2 (en) Providing a publishing mechanism for managed objects
US20230004367A1 (en) Low-overhead detection techniques for synchronization problems in parallel and concurrent software
US7844977B2 (en) Identifying unnecessary synchronization objects in software applications
Chen et al. HAVE: Detecting atomicity violations via integrated dynamic and static analysis
US7996585B2 (en) Method and system for state tracking and recovery in multiprocessing computing systems
US8473464B2 (en) Method and device for data recovery using bit logging
Moreno et al. On the implementation of memory reclamation methods in a lock-free hash trie design
CN115080374A (zh) 一种基于偏序关系的通用并发缺陷检测方法及系统
US7437612B1 (en) Postmortem detection of owned mutual exclusion locks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant