CN106940654A - 源代码中内存错误的自动检测和定位方法 - Google Patents

源代码中内存错误的自动检测和定位方法 Download PDF

Info

Publication number
CN106940654A
CN106940654A CN201710079948.4A CN201710079948A CN106940654A CN 106940654 A CN106940654 A CN 106940654A CN 201710079948 A CN201710079948 A CN 201710079948A CN 106940654 A CN106940654 A CN 106940654A
Authority
CN
China
Prior art keywords
pointer
function
expression
tbl
prfpmd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710079948.4A
Other languages
English (en)
Other versions
CN106940654B (zh
Inventor
陈哲
严俊琦
杨志斌
黄志球
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201710079948.4A priority Critical patent/CN106940654B/zh
Publication of CN106940654A publication Critical patent/CN106940654A/zh
Application granted granted Critical
Publication of CN106940654B publication Critical patent/CN106940654B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/42Syntactic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/43Checking; Contextual analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/44Encoding

Abstract

本发明提供了源代码中内存错误的自动检测和定位方法,首先使用编译器对源代码进行词法分析和语法分析,构造符号表和抽象语法树;然后通过遍历抽象语法树,对可能产生内存错误的节点进行源代码变换,最后编译执行变换后的源代码,程序会自动判断内存错误的发生,并准确报告错误对应的源代码位置。本发明可以准确地自动检测和定位内存错误,实现更全面的错误检测,更好的兼容性,更好的平台普适性,更准确的源代码定位,更高的运行时性能和效率,从而提高软件的质量和软件维护的效率。

Description

源代码中内存错误的自动检测和定位方法
技术领域
本发明涉及一种源代码中内存错误的自动检测和定位方法,属于计算机软件领域,特别是指计算机软件测试领域。
背景技术
内存错误是一种普遍存在于C/C++程序中的设计缺陷,可能导致软件运行异常和安全漏洞。内存错误包括空间内存错误、时间内存错误、类型内存错误。空间内存错误也称为缓冲区溢出错误,包括:数组越界、指针访问越界、指针使用前未初始化、空指针解引用、对任意整型数据进行强制类型转化得到的指针进行解引用等;时间内存错误包括:悬挂栈指针,悬挂堆指针、多次释放、不完全释放等;类型内存错误包括:释放非堆上的内存空间、将函数指针作为数据指针进行解引用、将数据指针作为函数指针进行函数调用等。这些错误可能导致软件运行异常或崩溃,也可能被黑客利用来执行恶意代码,从而导致安全漏洞。对于安全关键软件和系统,这将会导致严重后果和巨大损失。因此,实现内存错误的高效自动检测和源代码定位,能够帮助开发人员在软件开发过程中发现并改正这些错误,极大地提高软件的质量和软件维护的效率。
目前常见的检测技术主要是扩展指针技术,该技术是通过扩展指针的数据类型,使指针在原来只存储一个内存地址的基础上,再额外记录该指针所指向内存块的基地址和大小等信息,以便在指针解引用时可以判断该指针是否在其所指向内存块的有效区间内,从而判断指针解引用是否存在错误。由于该技术修改了代码中指针的存储结构,造成了处理后的代码与原代码之间的不兼容,导致检测结果不稳定。此外,由于该技术只对指针所指向内存块的边界信息进行了记录,所以只能处理空间内存错误,无法检测时间和类型内存错误。
目前常见的检测技术主要针对二进制代码,即通过对程序的二进制代码进行修改,然后运行修改后的二进制代码以检测内存错误。由于该技术是对二进制代码进行修改,所以不具备平台普适性,即修改工具只能处理主流平台的二进制代码,而无法兼容某些领域所使用的特定的运行平台。此外,由于该技术无法准确定位到错误对应的源代码位置,导致不容易对错误进行调试。
因此,有必要提供一种新的内存错误的自动检测和源代码定位方法,以实现更全面的错误检测,更好的兼容性,更好的平台普适性,更准确的源代码定位,更高的运行时性能和效率,从而克服现有检测技术中存在的问题。
发明内容
为了克服上述已有技术和方法存在的不足,本发明的目的旨在提供一种源代码中内存错误的自动检测和定位方法,该方法通过使用源代码变换技术,将源代码变换为带有自动检测和错误定位功能的源代码,包括对指针定义初始化和赋值节点插入代码来记录或更新指针元数据,对指针解引用和数组下标访问节点插入内存错误检测和源代码定位的机制,对函数定义节点插入代码来更新形参的指针元数据,并插入包装函数定义来在函数之间传递指针元数据,对函数调用节点插入额外的实参来传入原实参的指针元数据;使得可以在软件运行过程中自动检测和定位软件中的内存访问错误,以实现更全面的错误检测,更好的兼容性,更好的平台普适性,更准确的源代码定位,更高的运行时性能和效率,从而克服现有的检测技术中存在的问题。
技术方案:
源代码中内存错误的自动检测和定位方法,包括:步骤1、使用编译器对源代码进行词法分析和语法分析,构造包含节点类型信息的符号表以及抽象语法树;步骤2、遍历抽象语法树,对指针变量定义初始化节点和赋值节点插入代码来记录或更新指针元数据,其中指针元数据包括指针指向内存块的边界、状态和类型信息;步骤3、遍历抽象语法树,对指针解引用节点和数组下标访问节点插入内存错误检测和源代码定位的机制;步骤4、遍历抽象语法树,对函数定义节点插入代码来更新形参的指针元数据,并插入包装函数定义来在函数之间传递指针元数据;步骤5、遍历抽象语法树,对函数调用节点插入额外的实参来传入原实参的指针元数据;步骤6、编译执行变换后的源代码,程序会自动判断内存错误的发生,并准确报告错误对应的源代码位置。
具体步骤包括:
步骤S1,选择需要变换的源代码目录,或者单个源代码文件;
步骤S2,将选择的源代码目录或文件复制到源代码变换的工作目录中;
步骤S3,对工作目录中的所有源文件进行宏扩展处理,并保存扩展结果到相应的源文件中;进一步地,宏扩展处理具体包括:操作1、利用编译器的词法分析器对文件进行词法分析,词法分析器返回经过宏扩展处理之后的词法单元;操作2、针对扩展自宏的词法单元,其属性中包括宏扩展之后的内容和宏扩展的位置,用扩展之后的内容替换宏扩展位置的原有内容;
步骤S4,遍历工作目录中的所有源文件,使用编译器对源代码进行词法分析和语法分析,构造符号表和抽象语法树;所述符号表中包含节点的类型信息;
步骤S5,遍历抽象语法树,若当前节点是变量定义初始化表达式,则判断该变量是否为指针类型或者是包含指针成员的结构体类型,若是则插入代码来记录指针元数据,若不是则转至步骤S6;
步骤S6,遍历抽象语法树,若当前节点是变量赋值表达式,则判断该表达式是否为指针赋值或者是包含指针成员的结构体赋值,若是则插入代码来更新指针元数据,若不是则转至步骤S7;
步骤S7,遍历抽象语法树,若当前节点是指针解引用表达式或者数组下标访问表达式,则插入内存错误检测和源代码定位的机制,否则转至步骤S8;
步骤S8,遍历抽象语法树,若当前节点是函数定义,假设函数名为func8,返回值类型为RetType,则判断该函数的返回值和形参是否为指针类型或者是包含指针成员的结构体类型,若是则插入代码来更新形参的指针元数据,并插入包装函数定义来在函数之间传递指针元数据,若不是则转至步骤S9;
步骤S9,遍历抽象语法树,若当前节点是函数调用表达式func9(a1,an),其中func9是函数名,a1,an表示n个实参,则判断该函数的返回值和形参是否为指针类型或者是包含指针成员的结构体类型,若是则插入额外的实参来传入原实参的指针元数据,若不是则转至步骤S10;
步骤S10,对于所有被改写的源文件,在文件开始位置插入include语句,用于包含所有数据结构、指针元数据操作函数和检测函数的定义文件;
步骤S11,将步骤S5到步骤S10中的所有替换改写保存到相应的源文件中,并将本次改写的文件加入已处理文件列表;
步骤S12,将经过变换的源代码目录或源代码文件按原有方式进行编译,生成可执行文件;
步骤S13,将可执行文件部署在目标平台上并运行,当出现内存错误时,插入的代码可以自动检测到错误的发生,并准确定位和报告错误在源代码中的位置;
其中步骤S5~S9的操作可以合并为遍历抽象语法树过程中的一个步骤或者同时执行。
所述步骤S5中插入代码来记录指针元数据,进一步包括:
步骤S51,若当前节点是指针变量定义Type51p51=Expr51(kpe51),其中Type51是指针变量类型,p51是指针变量名,kpe51是初始化表达式中的核心指针,Expr51(kpe51)是由kpe51构成的初始化表达式;
步骤S5101,若该核心指针kpe51是指针变量pv51,则将该变量定义替换为:
Type51p51=Expr51((Type51)PRFpmd_tbl_update_ptr_ret(&p51,&pv51,pv51))
其中函数PRFpmd_tbl_update_ptr_ret用于将p51的指针元数据更新为pv51的指针元数据;
步骤S5102,若该核心指针kpe51是指针常量pc51,则将该变量定义替换为:
Type51p51=Expr51((Type51)PRFpmd_tbl_update_as_ret(&p51,
pc51_status,pc51_base,pc51_bound,pc51))
其中函数PRFpmd_tbl_update_as_ret用于将p51的指针元数据更新为其余实参所表示的信息,pc51_status、pc51_base、pc51_bound分别是pc51的状态、下界和上界信息;
步骤S5103,若该核心指针kpe51是函数调用func51(a1,an),其中函数func51返回一个指针,a1,an表示n个实参,则将该变量定义替换为:
Type51p51=Expr51(PRFfunc51(&p51,a1,an))
其中函数PRFfunc51是func51的包装函数,用于将p51的指针元数据更新为func51返回值的指针元数据;
步骤S5104,若该核心指针kpe51是条件表达式cond?true_ptr:false_ptr,则将该变量定义替换为:
Type51p51=Expr51((Type51)PRFcond_expr(&p51,
PRFpmd_tbl_lookup(&true_ptr),PRFpmd_tbl_lookup(&false_ptr),
cond,cond?true_ptr:false_ptr))
其中函数PRFcond_expr用于将p51的指针元数据更新为条件表达式返回值的指针元数据;
步骤S52,若当前节点是结构体变量定义struct st52obj52=Expr52,其中st52是结构体变量类型,且包含n个指针成员(用pf1,pfn表示),obj52是结构体变量名,Expr52是初始化表达式;
步骤S5201,若该初始化表达式Expr52是结构体变量表达式Expr52(kpe52),其中kpe52是初始化表达式中的核心结构体,Expr52(kpe52)是由kpe52构成的初始化表达式,则将该变量定义替换为:
struct st52obj52=(PRFpmd_tbl_update_ptr(&obj52.pf1,&kpe52.pf1),
PRFpmd_tbl_update_ptr(&obj52.pfn,&kpe52.pfn),
Expr52(kpe52));
其中函数PRFpmd_tbl_update_ptr和逗号表达式用于将obj52中所有指针成员的指针元数据更新为kpe52中相应指针成员的指针元数据;
步骤S5202,若该初始化表达式Expr52是基于函数调用的结构体变量表达式Expr52(func52(a1,an)),其中函数func52返回一个结构体,a1,an表示n个实参,则将该变量定义替换为:
struct st52obj52=Expr52(PRFfunc52(&obj52,a1,an))
其中函数PRFfunc52是func52的包装函数,用于将obj52中所有指针成员的指针元数据更新为func52返回值中相应指针成员的指针元数据;
步骤S5203,若该初始化表达式Expr52是初始值表达式列表{Expr521(kpe521),Expr52n(kpe52n)},其中Expr52i(kpe52i)是由核心指针kpe52i构成的初始值表达式,1≤i≤n,则将该变量定义替换为:
struct st52obj52={
PRFpmd_tbl_update_ptr_ret(&obj52.pf1,&kpe521,Expr521(kpe521)),
PRFpmd_tbl_update_ptr_ret(&obj52.pfn,&kpe52n,Expr52n(kpe52n))}
其中函数PRFpmd_tbl_update_ptr_ret用于将obj52.pfi的指针元数据更新为kpe52i的指针元数据。
所述步骤S6中插入代码来更新指针元数据,进一步包括:
步骤S61,若当前节点是指针赋值Expr61A(p61)=Expr61B(kpe61),其中p61是赋值表达式左部中的核心指针变量,其类型是指针类型Type61,Expr61A(p61)是由p61构成的赋值表达式左部,kpe61是赋值表达式右部中的核心指针,Expr61B(kpe61)是由kpe61构成的赋值表达式右部;
步骤S6101,若该赋值表达式右部中的核心指针kpe61是指针变量pv61,则将该赋值表达式替换为:
Expr61A(p61)=Expr61B((Type61)PRFpmd_tbl_update_ptr_ret(&p61,&pv61,pv61))其中函数PRFpmd_tbl_update_ptr_ret用于将p61的指针元数据更新为pv61的指针元数据;
步骤S6102,若该赋值表达式右部中的核心指针kpe61是指针常量pc61,则将该赋值表达式替换为:
Expr61A(p61)=Expr61B((Type61)PRFpmd_tbl_update_as_ret(&p61,
pc61_status,pc61_base,p61_bound,pc61))
其中函数PRFpmd_tbl_update_as_ret用于将p61的指针元数据更新为其余实参所表示的信息,pc61_status、pc61_base、pc61_bound分别是pc61的状态、下界和上界信息;
步骤S6103,若该赋值表达式右部中的核心指针kpe61是函数调用func61(a1,an),其中函数func61返回一个指针,a1,an表示n个实参,则将该赋值表达式替换为:
Expr61A(p61)=Expr61B(PRFfunc61(&p61,a1,an))
其中函数PRFfunc61是func61的包装函数,用于将p61的指针元数据更新为func61返回值的指针元数据;
步骤S6104,若该赋值表达式右部中的核心指针kpe61是条件表达式cond?true_ptr:false_ptr,则将该赋值表达式替换为:
Expr61A(p61)=Expr61B((Type61)PRFcond_expr(&p61,
PRFpmd_tbl_lookup(&true_ptr),PRFpmd_tbl_lookup(&false_ptr),
cond,cond?true_ptr:false_ptr))
其中函数PRFcond_expr用于将p61的指针元数据更新为条件表达式返回值的指针元数据;
步骤S62,若当前节点是结构体赋值Expr62A(obj62)=Expr62B,其中obj62是赋值表达式左部中的核心结构体变量,其类型是结构体类型st62,且包含n个指针成员,用pf1,pfn表示,Expr62A(obj62)是由obj62构成的赋值表达式左部,Expr62B是赋值表达式右部;
步骤S6201,若该赋值表达式右部Expr62B是结构体变量表达式Expr62B(kpe62),其中kpe62是赋值表达式右部中的核心结构体,Expr62B(kpe62)是由kpe62构成的赋值表达式右部,则将该赋值表达式替换为:
Expr62A(obj62)=(PRFpmd_tbl_update_ptr(&obj62.pf1,&kpe62.pf1),
PRFpmd_tbl_update_ptr(&obj62.pfn,&kpe62.pfn),
Expr62B(kpe62));
其中函数PRFpmd_tbl_update_ptr和逗号表达式用于将obj62中所有指针成员的指针元数据更新为kpe62中相应指针成员的指针元数据;
步骤S6202,若该赋值表达式右部Expr62B是基于函数调用的结构体变量表达式Expr62B(func62(a1,an)),其中函数func62返回一个结构体,a1,an表示n个实参,则将该赋值表达式替换为:
Expr62A(obj62)=Expr62B(PRFfunc62(&obj62,a1,an))
其中函数PRFfunc62是func62的包装函数,用于将obj62中所有指针成员的指针元数据更新为func62返回值中相应指针成员的指针元数据。
所述步骤S7中插入内存错误检测和源代码定位的机制,进一步包括:
步骤S71,若当前节点是指针解引用表达式*Expr71(kpe71),其中kpe71是指针解引用表达式中的核心指针,其类型是指针类型Type71,*Expr71(kpe71)是由kpe71构成的指针解引用表达式;
步骤S7101,若该核心指针kpe71是指针变量pv71,则将该解引用表达式替换为:
*((Type71)(PRFcheck_dpv(&pv71,Expr71(pv71),sizeof(*Type71),
fileName,funcName,line,column)))
其中函数PRFcheck_dpv用于检测该解引用表达式访问的内存块是否在pv71的指针元数据所记录的范围内,*Type71表示Type71指向的数据类型,fileName,funcName,line,column分别表示当前节点所在的文件名,函数名,行号和列号;
步骤S7102,若该核心指针kpe71是指针常量pc71,则将该解引用表达式替换为:
*((Type71)(PRFcheck_dpc(pc71_base,pc71_bound,Expr71(pc71),sizeof(*Type71),
fileName,funcName,line,column)))
其中函数PRFcheck_dpc用于检测该解引用表达式访问的内存块是否在pc71的下界pc71_base和上界pc71_bound的范围内,*Type71表示Type71指向的数据类型,fileName,funcName,line,column分别表示当前节点所在的文件名,函数名,行号和列号;
步骤S7103,若该核心指针kpe71是函数指针pf71,则将该解引用表达式替换为:
*((Type71)(PRFcheck_dpf(&pf71,Expr71(pf71),
fileName,funcName,line,column)))
其中函数PRFcheck_dpf用于检测该解引用表达式访问的函数是否在pf71的指针元数据所记录的范围内,fileName,funcName,line,column分别表示当前节点所在的文件名,函数名,行号和列号;
步骤S72,若当前节点是数组下标访问表达式Expr72(kpe72)[index],其中kpe72是数组下标访问表达式中的核心指针,其类型是指针类型Type72,Expr72(kpe72)是由kpe72构成的数组基地址表达式,index是数组下标;
步骤S7201,若该核心指针kpe72是指针变量pv72,则将该数组下标访问表达式替换为:
Expr72(pv72)[PRFcheck_dpv_index(PRFpmd_tbl_lookup(&pv72),Expr72(pv72),index,
sizeof(*Type72),fileName,funcName,line,column)]
其中函数PRFcheck_dpv_index用于检测该表达式访问的内存块是否在pv72的指针元数据所记录的范围内,*Type72表示Type72指向的数据类型;
步骤S7202,若该核心指针kpe72是指针常量pc72,则将该数组下标访问表达式替换为:
Expr72(pc72)[PRFcheck_dpc_index(pc72_base,pc72_bound,Expr72(pc72),index,
sizeof(*Type72),fileName,funcName,line,column)]
其中函数PRFcheck_dpc_index用于检测该表达式访问的内存块是否在pc72的下界pc72_base和上界pc72_bound的范围内,*Type72表示Type72指向的数据类型。
所述步骤S8中插入代码来更新形参的指针元数据,并插入包装函数定义来在函数之间传递指针元数据,进一步包括:
步骤S81,在函数开头插入以下语句:
unsigned char ret_flag=0;
RetType ret_val;
PRFauto_stat*stack_as=PRFauto_stat_create(PRFstack,1);
其中ret_flag用于记录程序运行中该函数是否执行到return语句,ret_val用于记录该函数的返回值,函数PRFauto_stat_create用于创建一个类型为栈的状态信息,且引用者数量为1,stack_as是所有局部动态变量共用的状态信息;
在函数结尾前插入以下语句:
其中label_FID是由该函数体唯一标识符FID构成的标签,函数PRFpmd_tbl_remove用于删除所有局部指针变量pf1,pfn的指针元数据,函数PRFauto_stat_dc用于将stack_as状态的引用者数量减1;
步骤S82,遍历函数中所有的循环体节点,在每个循环体结尾前插入以下语句:
其中label_LID是由该循环体唯一标识符LID构成的标签,函数PRFpmd_tbl_remove用于删除循环体中所有局部指针变量pl1,pln的指针元数据,label_PID是由该循环体的上一层复合语句的唯一标识符PID构成的标签,bc_flag_LID是由该循环体唯一标识符LID为部分名字定义的变量,用于记录程序运行中该函数是否执行到break语句和continue语句;
步骤S83,遍历函数中所有的非循环体复合语句节点,在每个复合语句结尾前插入以下语句:
其中label_BID是由该复合语句唯一标识符BID构成的标签,函数PRFpmd_tbl_remove用于删除该复合语句中所有局部指针变量pb1,pbn的指针元数据,label_PID是由该复合语句的上一层复合语句的唯一标识符PID构成的标签,bc_flag_LID是由该复合语句的最近上层循环体的唯一标识符LID构成的变量名;
步骤S84,遍历函数中所有的break语句,将break语句替换为:
bc_flag_LID=1;goto label_BID;
其中bc_flag_LID是由该复合语句的最近上层循环体的唯一标识符LID构成的变量名,label_BID是由该语句所在的复合语句的唯一标识符BID构成的标签;
步骤S85,遍历函数中所有的continue语句,将continue语句替换为:
bc_flag_LID=2;goto label_BID;
步骤S86,遍历函数中所有的return语句,将return Expr(kpe);语句替换为:
ret_val=Expr(kpe);
ret_flag=1;goto label_BID;
步骤S87,如果函数有n个形参p1,pn的类型为指针、数组或包含指针成员的结构体,则在函数开头插入以下语句:
PRFpmd_tbl_update_fpmd(&p1,PRFfmd_tbl_lookup_fpmd(func8,1));
PRFpmd_tbl_update_fpmd(&pn,PRFfmd_tbl_lookup_fpmd(func8,n));
其中函数PRFfmd_tbl_lookup_fpmd用于从指针元数据表中取出函数func8的第i个实参的指针元数据,1≤i≤n;函数PRFpmd_tbl_update_fpmd用于将形参pi的指针元数据更新为取出的指针元数据;
步骤S88,如果函数的返回值类型为指针、数组或包含指针成员的结构体,则在函数的返回语句return Expr(kpe);之前插入:
PRFfmd_tbl_update_pmd(func8,0,PRFpmd_tbl_lookup(&kpe));
其中函数PRFfmd_tbl_update_pmd用于将函数func8的第0个指针元数据更新为kpe的指针元数据,即返回值的指针元数据;
步骤S89,在原函数之前插入一个包装函数定义RetType PRFfunc8(RetType*ret_addr,PRFpmd*p1_pmd,PRFpmd*pn_pmd,t1p1,tn pn),用于在函数之间传递参数和返回值的指针元数据,其中PRFpmd是指针元数据结构,包括指针指向内存块的边界、状态和类型信息。
所述步骤S9中插入额外的实参来传入原实参的指针元数据,进一步包括:
步骤S91,若该函数的返回值或形参是指针类型,则将该函数调用表达式替换为以下对包装函数的调用:
PRFfunc9(ret_addr,PRFpmd_tbl_lookup(&a1),PRFpmd_tbl_lookup(&an),a1,an)其中ret_addr是函数返回值被赋予的变量的地址;
步骤S92,若该函数的返回值或形参是包含指针成员的结构体类型,则将该函数调用表达式替换为以下对包装函数的调用:
PRFfunc9(ret_addr,PRFpmd_tbl_lookup(&a1.a1pf1),PRFpmd_tbl_lookup(&a1.a1pfj),
PRFpmd_tbl_lookup(&an.anpf1),PRFpmd_tbl_lookup(&an.anpfk),a1,an)
其中a1pf1,a1pfj表示a1中的j个指针成员,anpf1,anpfk表示an中的k个指针成员。
有益效果:与传统检测技术相比,本发明提供的内存错误的自动检测和定位方法,通过使用指针元数据记录指针指向内存块的边界、状态和类型信息,使得可以检测所有种类的内存错误,从而实现更全面的错误检测。进一步地,本发明通过将指针元数据和指针分开存储,并不修改代码中指针的存储结构,使得处理后的代码与原代码之间的数据结构兼容,从而实现更好的兼容性。进一步地,本发明通过使用源代码变换技术,使得变换后的源代码可以使用原有编译器进行编译和部署,从而实现更好的平台普适性。进一步地,本发明通过对源代码的抽象语法树进行分析,具有充分的语义信息来判断潜在的内存错误所在的源文件和代码行,并相应地进行源代码变换,使得在错误检测中可以使用这些位置信息,从而实现更准确的源代码定位。进一步地,本发明通过对源代码的抽象语法树进行分析,具有充分的语义信息来消除不必要的代码变换,并通过使用各种优化的哈希表对指针元数据进行存储和索引,使得对指针元数据的查找和存取操作更加高效,从而实现更高的运行时性能和效率。
因此,本发明可以解决计算机软件和系统,尤其是安全关键软件和系统开发过程中的内存错误的自动检测和定位的难题,能够实现更全面的错误检测,更好的兼容性,更好的平台普适性,更准确的源代码定位,更高的运行时性能和效率,从而克服现有的检测技术中存在的问题。提高软件的质量和软件维护的效率,具有良好的社会效益。
附图说明
图1为本发明的示意图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
本实施例采用本发明方法对一段C语言源代码进行内存错误的检测和定位,进一步具体说明本发明的有关方法、流程及相关步骤。例如,源代码如下(文件名为test.c):
本发明的具体步骤如下:
步骤S1,选择需要变换的源代码目录,或者单个源代码文件;
本例中,选择源代码文件test.c。
步骤S2,将选择的源代码目录或文件复制到源代码变换的工作目录中;
本例中,将源代码文件test.c复制到工作目录C:/work/中(Windows系统)或者/tmp/work/中(Linux系统)。
步骤S3,对工作目录中的所有源文件进行宏扩展处理,获得完整的源代码,并保存扩展结果到相应的源文件中;进一步地,宏扩展处理具体包括:操作1、利用编译器的词法分析器对文件进行词法分析,词法分析器返回经过宏扩展处理之后的词法单元;操作2、针对扩展自宏的词法单元,其属性中包括宏扩展之后的内容和宏扩展的位置,用扩展之后的内容替换宏扩展位置的原有内容;
本例中,将第18行“int a[N]={1,2};”替换为“int a[2]={1,2};”,并保存扩展结果到test.c文件中。
步骤S4,遍历工作目录中的所有源文件,使用编译器对源文件的源代码进行词法分析和语法分析,构造符号表和抽象语法树;所述符号表中包含节点的类型信息;
本例中,只有一个源文件test.c,使用编译器构造test.c对应的符号表和抽象语法树。
步骤S5,遍历抽象语法树,若当前节点是变量定义初始化表达式,则判断该变量是否为指针类型或者是包含指针成员的结构体类型,若是则插入代码来记录指针元数据,若不是则转至步骤S6;
本例中,第8行“int*r=&j;”是指针变量r的定义初始化表达式,第10行“int*t=&j;”是指针变量t的定义初始化表达式,第20行“int*p=(int*)malloc(5*sizeof(int));”是指针变量p的定义初始化表达式,第21~25行是结构体变量s1的定义初始化表达式,第26行“struct st s2=s1;”是结构体变量s2的定义初始化表达式,第27行“int*q=p+1;”是指针变量q的定义初始化表达式,第28行“int*(*fp)(int*)=foo;”是函数指针变量fp的定义初始化表达式,第29行“int*r=i?p+2:q;”是指针变量r的定义初始化表达式。
步骤S51,若当前节点是指针变量定义Type51p51=Expr51(kpe51),其中Type51是指针变量类型,p51是指针变量名,kpe51是初始化表达式中的核心指针,Expr51(kpe51)是由kpe51构成的初始化表达式;
本例中,第8行“int*r=&j;”中指针变量r的类型为int*,&j是初始化表达式中的核心指针,第10行“int*t=&j;”中指针变量t的类型为int*,&j是初始化表达式中的核心指针,第20行“int*p=(int*)malloc(5*sizeof(int));”中指针变量p的类型为int*,malloc(5*sizeof(int))是初始化表达式中的核心指针,第27行“int*q=p+1;”中指针变量q的类型为int*,p是初始化表达式中的核心指针,第28行“int*(*fp)(int*)=foo;”中指针变量fp的类型为int*(*)(int*),foo是初始化表达式中的核心指针,第29行“int*r=i?p+2:q;”中指针变量r的类型为int*,i?p+2:q是初始化表达式中的核心指针。
步骤S5101,若该核心指针kpe51是指针变量pv51,则将该变量定义替换为:
Type51p51=Expr51((Type51)PRFpmd_tbl_update_ptr_ret(&p51,&pv51,pv51))
其中函数PRFpmd_tbl_update_ptr_ret用于将p51的指针元数据更新为pv51的指针元数据;
本例中,第27行“int*q=p+1;”中的核心指针p是指针变量,则将该变量定义替换为:
27int*q=(int*)PRFpmd_tbl_update_ptr_ret(&q,&p,p)+1;
步骤S5102,若该核心指针kpe51是指针常量pc51,则将该变量定义替换为:
Type51p51=Expr51((Type51)PRFpmd_tbl_update_as_ret(&p51,
pc51_status,pc51_base,pc51_bound,pc51))
其中函数PRFpmd_tbl_update_as_ret用于将p51的指针元数据更新为其余实参所表示的信息,pc51_status、pc51_base、pc51_bound分别是pc51的状态、下界和上界信息;
本例中,第8行“int*r=&j;”中的核心指针&j是指针常量,第10行“int*t=&j;”中的核心指针&j是指针常量,第28行“int*(*fp)(int*)=foo;”中的核心指针foo是指针常量,则将以上变量定义分别替换为:
08int*r=(int*)PRFpmd_tbl_update_as_ret(&r,stack_as,&j,&j+1,&j);
10int*t=(int*)PRFpmd_tbl_update_as_ret(&t,stack_as,&j,&j+1,&j);
28int*(*fp)(int*)=(int*(*)(int*))PRFpmd_tbl_update_as_ret(&fp,function_as,foo,foo+1,foo);
其中stack_as是所有局部动态变量共用的状态信息,function_as是所有函数共用的状态信息。
步骤S5103,若该核心指针kpe51是函数调用func51(a1,an),其中函数func51返回一个指针,a1,an表示n个实参,则将该变量定义替换为:
Type51p51=Expr51(PRFfunc51(&p51,a1,an))
其中函数PRFfunc51是func51的包装函数,用于将p51的指针元数据更新为func51返回值的指针元数据;
本例中,第20行“int*p=(int*)malloc(5*sizeof(int));”中的核心指针malloc(5*sizeof(int))是函数调用,则将该变量定义替换为:
20int*p=(int*)PRFmalloc(&p,5*sizeof(int));
其中函数PRFmalloc是malloc的包装函数,用于将p的指针元数据更新为malloc返回值的指针元数据,定义如下:
步骤S5104,若该核心指针kpe51是条件表达式cond?true_ptr:false_ptr,则将该变量定义替换为:
Type51p51=Expr51((Type51)PRFcond_expr(&p51,
PRFpmd_tbl_lookup(&true_ptr),PRFpmd_tbl_lookup(&false_ptr),
cond,cond?true_ptr:false_ptr))
其中函数PRFcond_expr用于将p51的指针元数据更新为条件表达式返回值的指针元数据;
本例中,第29行“int*r=i?p+2:q;”中的核心指针i?p+2:q是条件表达式,则将该变量定义替换为:
29int*r=(int*)PRFcond_expr(&r,
PRFpmd_tbl_lookup(&p),PRFpmd_tbl_lookup(&q),i,i?p+2:q);
步骤S52,若当前节点是结构体变量定义struct st52obj52=Expr52,其中st52是结构体变量类型,且包含n个指针成员(用pf1,pfn表示),obj52是结构体变量名,Expr52是初始化表达式;
本例中,第21~25行是结构体变量定义,其中st是结构体变量类型,且包含1个指针成员ptr,s1是结构体变量名,{‘A’,p}是初始化表达式,第26行“struct st s2=s1;”是结构体变量定义,其中st是结构体变量类型,且包含1个指针成员ptr,s2是结构体变量名,s1是初始化表达式。
步骤S5201,若该初始化表达式Expr52是结构体变量表达式Expr52(kpe52),其中kpe52是初始化表达式中的核心结构体,Expr52(kpe52)是由kpe52构成的初始化表达式,则将该变量定义替换为:
struct st52obj52=(PRFpmd_tbl_update_ptr(&obj52.pf1,&kpe52.pf1),
PRFpmd_tbl_update_ptr(&obj52.pfn,&kpe52.pfn),
Expr52(kpe52));
其中函数PRFpmd_tbl_update_ptr和逗号表达式用于将obj52中所有指针成员的指针元数据更新为kpe52中相应指针成员的指针元数据;
本例中,第26行中的初始化表达式s1是结构体变量表达式,其中s1是初始化表达式中的核心结构体,则将该变量定义替换为:
26struct st s2=(PRFpmd_tbl_update_ptr(&s2.ptr,&s1.ptr),s1);
步骤S5202,若该初始化表达式Expr52是基于函数调用的结构体变量表达式Expr52(func52(a1,an)),其中函数func52返回一个结构体,a1,an表示n个实参,则将该变量定义替换为:
struct st52obj52=Expr52(PRFfunc52(&obj52,a1,an))
其中函数PRFfunc52是func52的包装函数,用于将obj52中所有指针成员的指针元数据更新为func52返回值中相应指针成员的指针元数据;
本例中,不存在初始化表达式是基于函数调用的结构体变量表达式,故不作处理。
步骤S5203,若该初始化表达式Expr52是初始值表达式列表{Expr521(kpe521),Expr52n(kpe52n)},其中Expr52i(kpe52i)是由核心指针kpe52i构成的初始值表达式,1≤i≤n,则将该变量定义替换为:
struct st52obj52={
PRFpmd_tbl_update_ptr_ret(&obj52.pf1,&kpe521,Expr521(kpe521)),
PRFpmd_tbl_update_ptr_ret(&obj52.pfn,&kpe52n,Expr52n(kpe52n))}
其中函数PRFpmd_tbl_update_ptr_ret用于将obj52.pfi的指针元数据更新为kpe52i的指针元数据;
本例中,第25行中的初始化表达式是初始值表达式列表{‘A’,p},则将该变量定义替换为:
25struct st s1={‘A’,PRFpmd_tbl_update_ptr_ret(&s1.ptr,&p,p)};
步骤S6,遍历抽象语法树,若当前节点是变量赋值表达式,则判断该表达式是否为指针赋值或者是包含指针成员的结构体赋值,若是则插入代码来更新指针元数据,若不是则转至步骤S7;
本例中,第30行、31行和第32行是指针赋值表达式,第34行是包含指针成员的结构体赋值表达式;
步骤S61,若当前节点是指针赋值Expr61A(p61)=Expr61B(kpe61),其中p61是赋值表达式左部中的核心指针变量,其类型是指针类型Type61,Expr61A(p61)是由p61构成的赋值表达式左部,kpe61是赋值表达式右部中的核心指针,Expr61B(kpe61)是由kpe61构成的赋值表达式右部;
本例中,第30行是指针赋值q=foo(p)+1,其中q是赋值表达式左部中的核心指针变量,其类型是指针类型int*,foo(p)是赋值表达式右部中的核心指针,第31行是指针赋值q=&i,其中q是赋值表达式左部中的核心指针变量,其类型是指针类型int*,&i是赋值表达式右部中的核心指针,第32行是指针赋值q=p+5,其中q是赋值表达式左部中的核心指针变量,其类型是指针类型int*,p是赋值表达式右部中的核心指针;
步骤S6101,若该赋值表达式右部中的核心指针kpe61是指针变量pv61,则将该赋值表达式替换为:
Expr61A(p61)=Expr61B((Type61)PRFpmd_tbl_update_ptr_ret(&p61,&pv61,pv61))其中函数PRFpmd_tbl_update_ptr_ret用于将p61的指针元数据更新为pv61的指针元数据;
本例中,第32行“q=p+5;”赋值表达式右部中的核心指针p是指针变量,则将该赋值表达式替换为:
32q=(int*)PRFpmd_tbl_update_ptr_ret(&q,&p,p)+5;
步骤S6102,若该赋值表达式右部中的核心指针kpe61是指针常量pc61,则将该赋值表达式替换为:
Expr61A(p61)=Expr61B((Type61)PRFpmd_tbl_update_as_ret(&p61,
pc61_status,pc61_base,p61_bound,pc61))
其中函数PRFpmd_tbl_update_as_ret用于将p61的指针元数据更新为其余实参所表示的信息,pc61_status、pc61_base、pc61_bound分别是pc61的状态、下界和上界信息;
本例中,第31行“q=&i;”赋值表达式右部中的核心指针&i是指针常量,则将该赋值表达式替换为:
31q=PRFpmd_tbl_update_as_ret(&q,PRFstack_as,&i,&i+1,&i);
步骤S6103,若该赋值表达式右部中的核心指针kpe61是函数调用func61(a1,an),其中函数func61返回一个指针,a1,an表示n个实参,则将该赋值表达式替换为:
Expr61A(p61)=Expr61B(PRFfunc61(&p61,a1,an))
其中函数PRFfunc61是func61的包装函数,用于将p61的指针元数据更新为func61返回值的指针元数据;
本例中,第30行“q=foo(p)+1;”赋值表达式右部中的核心指针foo(p)是函数调用,其中函数foo返回一个指针,p是实参,则将该赋值表达式替换为:
30q=PRFfoo(&q,p)+1;
步骤S6104,若该赋值表达式右部中的核心指针kpe61是条件表达式cond?true_ptr:false_ptr,则将该赋值表达式替换为:
Expr61A(p61)=Expr61B((Type61)PRFcond_expr(&p61,
PRFpmd_tbl_lookup(&true_ptr),PRFpmd_tbl_lookup(&false_ptr),
cond,cond?true_ptr:false_ptr))
其中函数PRFcond_expr用于将p61的指针元数据更新为条件表达式返回值的指针元数据;
本例中,不存在赋值表达式右部中的核心指针是条件表达式的情况,故不作处理。
步骤S62,若当前节点是结构体赋值Expr62A(obj62)=Expr62B,其中obj62是赋值表达式左部中的核心结构体变量,其类型是结构体类型st62,且包含n个指针成员(用pf1,pfn表示),Expr62A(obj62)是由obj62构成的赋值表达式左部,Expr62B是赋值表达式右部;
本例中,第34行是结构体赋值s3=s2,其中s3是赋值表达式左部中的核心结构体变量,其类型是结构体类型st,且包含1个指针成员ptr,s2是赋值表达式右部。
步骤S6201,若该赋值表达式右部Expr62B是结构体变量表达式Expr62B(kpe62),其中kpe62是赋值表达式右部中的核心结构体,Expr62B(kpe62)是由kpe62构成的赋值表达式右部,则将该赋值表达式替换为:
Expr62A(obj62)=(PRFpmd_tbl_update_ptr(&obj62.pf1,&kpe62.pf1),
PRFpmd_tbl_update_ptr(&obj62.pfn,&kpe62.pfn),
Expr62B(kpe62));
其中函数PRFpmd_tbl_update_ptr和逗号表达式用于将obj62中所有指针成员的指针元数据更新为kpe62中相应指针成员的指针元数据;
本例中,第34行赋值表达式右部s2是结构体变量表达式,其中s2是核心结构体,则将该赋值表达式替换为:
34s2=(PRFpmd_tbl_update_ptr(&s2.ptr,&s3.ptr),s3);
步骤S6202,若该赋值表达式右部Expr62B是基于函数调用的结构体变量表达式Expr62B(func62(a1,an)),其中函数func62返回一个结构体,a1,an表示n个实参,则将该赋值表达式替换为:
Expr62A(obj62)=Expr62B(PRFfunc62(&obj62,a1,an))
其中函数PRFfunc62是func62的包装函数,用于将obj62中所有指针成员的指针元数据更新为func62返回值中相应指针成员的指针元数据;
本例中,不存在赋值表达式右部是基于函数调用的结构体变量表达式,故不作处理。
步骤S7,遍历抽象语法树,若当前节点是指针解引用表达式或者数组下标访问表达式,则插入内存错误检测和源代码定位的机制,否则转至步骤S8;
本例中,第5行“int i=*(p+1);”、第35行“i=*q;”和第36行“i=*(a+1);”中存在指针解引用节点,第19行“int i=a[2];”中存在数组下标访问节点。
步骤S71,若当前节点是指针解引用表达式*Expr71(kpe71),其中kpe71是指针解引用表达式中的核心指针,其类型是指针类型Type71,*Expr71(kpe71)是由kpe71构成的指针解引用表达式;
本例中,第5行中存在指针解引用表达式*(p+1),其中p是指针解引用表达式中的核心指针,其类型是指针类型int*;第35行中存在指针解引用表达式*q,其中q是指针解引用表达式中的核心指针,其类型是指针类型int*;第36行中存在指针解引用表达式*(a+1),其中a是指针解引用表达式中的核心指针,其类型是指针类型int*。
步骤S7101,若该核心指针kpe71是指针变量pv71,则将该解引用表达式替换为:
*((Type71)(PRFcheck_dpv(&pv71,Expr71(pv71),sizeof(*Type71),
fileName,funcName,line,column)))
其中函数PRFcheck_dpv用于检测该解引用表达式访问的内存块是否在pv71的指针元数据所记录的范围内,*Type71表示Type71指向的数据类型,fileName,funcName,line,column分别表示当前节点所在的文件名,函数名,行号和列号,
本例中,第5行中*(p+1)的核心指针p是指针变量,第35行中*q的核心指针q是指针变量,则分别替换为:
05int i=*((int*)(PRFcheck_dpv(&p,p+1,sizeof(int),“test.c”,“foo”,5,11);
35i=*((int*)(PRFcheck_dpv(&q,q,sizeof(int),“test.c”,“main”,35,7);
步骤S7102,若该核心指针kpe71是指针常量pc71,则将该解引用表达式替换为:
*((Type71)(PRFcheck_dpc(pc71_base,pc71_bound,Expr71(pc71),sizeof(*Type71),
fileName,funcName,line,column)))
其中函数PRFcheck_dpc用于检测该解引用表达式访问的内存块是否在pc71的下界pc71_base和上界pc71_bound的范围内,*Type71表示Type71指向的数据类型,fileName,funcName,line,column分别表示当前节点所在的文件名,函数名,行号和列号;
本例中,第36行中*(a+1)的核心指针a是指针常量,则将该解引用表达式替换为:
36i=*((int*)(PRFcheck_dpc(a,a+sizeof(a),a+1,“test.c”,“main”,36,7);
步骤S7103,若该核心指针kpe71是函数指针pf71,则将该解引用表达式替换为:
*((Type71)(PRFcheck_dpf(&pf71,Expr71(pf71),
fileName,funcName,line,column)))
其中函数PRFcheck_dpf用于检测该解引用表达式访问的函数是否在pf71的指针元数据所记录的范围内,fileName,funcName,line,column分别表示当前节点所在的文件名,函数名,行号和列号;
本例中,没有对函数指针进行解引用,故不作处理。
步骤S72,若当前节点是数组下标访问表达式Expr72(kpe72)[index],其中kpe72是数组下标访问表达式中的核心指针,其类型是指针类型Type72,Expr72(kpe72)是由kpe72构成的数组基地址表达式,index是数组下标;
本例中,第19行中存在数组下标访问表达式a[2],其中a是数组下标访问表达式中的核心指针,其类型是指针类型int*,a也是数组基地址表达式,2是数组下标。
步骤S7201,若该核心指针kpe72是指针变量pv72,则将该数组下标访问表达式替换为:
Expr72(pv72)[PRFcheck_dpv_index(PRFpmd_tbl_lookup(&pv72),Expr72(pv72),index,
sizeof(*Type72),fileName,funcName,line,column)]
其中函数PRFcheck_dpv_index用于检测该表达式访问的内存块是否在pv72的指针元数据所记录的范围内,*Type72表示Type72指向的数据类型;
本例中,不存在数组下标访问表达式中的核心指针是指针变量的情况,故不作处理。
步骤S7202,若该核心指针kpe72是指针常量pc72,则将该数组下标访问表达式替换为:
Expr72(pc72)[PRFcheck_dpc_index(pc72_base,pc72_bound,Expr72(pc72),index,
sizeof(*Type72),fileName,funcName,line,column)]
其中函数PRFcheck_dpc_index用于检测该表达式访问的内存块是否在pc72的下界pc72_base和上界pc72_bound的范围内,*Type72表示Type72指向的数据类型;
本例中,第19行中a[2]的核心指针a是指针常量,则将该数组下标访问表达式替换为:
19int i=a[PRFcheck_dpc_index(a,a+sizeof(a),a,2,
sizeof(int),“test.c”,“main”,19,11)];
步骤S8,遍历抽象语法树,若当前节点是函数定义,假设函数名为func8,返回值类型为RetType,则判断该函数的返回值和形参是否为指针类型或者是包含指针成员的结构体类型,若是则插入代码来更新形参的指针元数据,并插入包装函数定义来在函数之间传递指针元数据,若不是则转至步骤S9;
本例中,foo函数的返回值和形参均为指针类型。
步骤S81,在函数开头插入以下语句:
unsigned char ret_flag=0;
RetType ret_val;//对于void类型函数不插入此语句
PRFauto_stat*stack_as=PRFauto_stat_create(PRFstack,1);
其中ret_flag用于记录程序运行中该函数是否执行到return语句(值为1),ret_val用于记录该函数的返回值,函数PRFauto_stat_create用于创建一个类型为栈的状态信息,且引用者数量为1,stack_as是所有局部动态变量共用的状态信息;
在函数结尾前插入以下语句:
其中label_FID是由该函数体唯一标识符FID构成的标签,函数PRFpmd_tbl_remove用于删除所有局部指针变量pf1,pfn的指针元数据,函数PRFauto_stat_dc用于将stack_as状态的引用者数量减1;
本例中,在foo函数开头插入以下语句:
unsigned char ret_flag=0;
int*ret_val;
PRFauto_stat*stack_as=PRFauto_stat_create(PRFstack,1);
在函数结尾前插入以下语句:
步骤S82,遍历函数中所有的循环体节点,在每个循环体结尾前插入以下语句:
其中label_LID是由该循环体唯一标识符LID构成的标签,函数PRFpmd_tbl_remove用于删除循环体中所有局部指针变量pl1,pln的指针元数据,label_PID是由该循环体的上一层复合语句的唯一标识符PID构成的标签,bc_flag_LID是由该循环体唯一标识符LID为部分名字定义的变量,用于记录程序运行中该函数是否执行到break语句(值为1)和continue语句(值为2);
本例中,在第13行函数foo中的while循环体结尾前插入以下语句:
步骤S83,遍历函数中所有的非循环体复合语句节点,在每个复合语句结尾前插入以下语句:
其中label_BID是由该复合语句唯一标识符BID构成的标签,函数PRFpmd_tbl_remove用于删除该复合语句中所有局部指针变量pb1,pbn的指针元数据,label_PID是由该复合语句的上一层复合语句的唯一标识符PID构成的标签,bc_flag_LID是由该复合语句的最近上层循环体的唯一标识符LID构成的变量名;
本例中,在第12行的if复合语句结尾前插入以下语句:
步骤S84,遍历函数中所有的break语句,将break语句替换为:
bc_flag_LID=1;goto label_BID;
其中bc_flag_LID是由该复合语句的最近上层循环体的唯一标识符LID构成的变量名,label_BID是由该语句所在的复合语句的唯一标识符BID构成的标签;
本例中,将第11行的break语句替换为:
bc_flag_L1=1;goto label_B1;
步骤S85,遍历函数中所有的continue语句,将continue语句替换为:
bc_flag_LID=2;goto label_BID;
本例中,不存在continue语句,故不作处理。
步骤S86,遍历函数中所有的return语句,将return Expr(kpe);语句替换为:
ret_val=Expr(kpe);//对于void类型函数不插入此语句
ret_flag=1;goto label_BID;
本例中,将第14行的return p;语句替换为:
ret_val=p;
ret_flag=1;goto label_FID;
步骤S87,如果函数有n个形参p1,pn的类型为指针、数组或包含指针成员的结构体,则在函数开头插入以下语句:
PRFpmd_tbl_update_fpmd(&p1,PRFfmd_tbl_lookup_fpmd(func8,1));
PRFpmd_tbl_update_fpmd(&pn,PRFfmd_tbl_lookup_fpmd(func8,n));
其中函数PRFfmd_tbl_lookup_fpmd用于从指针元数据表中取出函数func8的第i个实参的指针元数据(1≤i≤n),函数PRFpmd_tbl_update_fpmd用于将形参pi的指针元数据更新为取出的指针元数据;
本例中,函数foo有一个形参p的类型为指针,则在函数开头插入以下语句:
PRFpmd_tbl_update_fpmd(&p,PRFfmd_tbl_lookup_fpmd(foo,1));
步骤S88,如果函数的返回值类型为指针、数组或包含指针成员的结构体,则在函数的返回语句return Expr(kpe);之前插入:
PRFfmd_tbl_update_pmd(func8,0,PRFpmd_tbl_lookup(&kpe));
其中函数PRFfmd_tbl_update_pmd用于将函数func8的第0个指针元数据更新为kpe的指针元数据(即返回值的指针元数据);
本例中,函数foo的返回值类型为指针,则在函数的返回语句return p;之前插入:
PRFfmd_tbl_update_pmd(foo,0,PRFpmd_tbl_lookup(&p));
步骤S89,在原函数之前插入一个包装函数定义,用于在函数之间传递参数和返回值的指针元数据,定义如下:
其中函数PRFfmd_tbl_create用于为函数func8创建一个大小为n+1的指针元数据表,函数PRFfmd_tbl_update_pmd用于将函数func8的第i个实参的指针元数据更新为相应的传入实参的指针元数据(1≤i≤n),函数PRFpmd_tbl_update_fpmd用于将返回值的指针元数据更新为函数func8的第0个指针元数据;
本例中,在函数foo之前插入一个包装函数定义,该函数定义如下:
步骤S9,遍历抽象语法树,若当前节点是函数调用表达式func9(a1,an),其中func9是函数名,a1,an表示n个实参,则判断该函数的返回值和形参是否为指针类型或者是包含指针成员的结构体类型,若是则插入额外的实参来传入原实参的指针元数据,若不是则转至步骤S10;
本例中,第20行中包含函数调用表达式malloc(5*sizeof(int)),其中malloc是函数名,且该函数的返回值是指针类型;第30行中包含函数调用表达式foo(p),其中foo是函数名,且该函数的返回值是指针类型,形参也是指针类型;第37行和第38行中包含函数调用表达式free(p),其中free是函数名,且该函数的形参是指针类型。
步骤S91,若该函数的返回值或形参是指针类型,则将该函数调用表达式替换为以下对包装函数的调用:
PRFfunc9(ret_addr,PRFpmd_tbl_lookup(&a1),PRFpmd_tbl_lookup(&an),a1,an)
其中ret_addr是函数返回值被赋予的变量的地址;
本例中,第20行中“malloc(5*sizeof(int))”、第30行中“foo(p)”、第37行和第38行中“free(p)”函数的返回值或形参是指针类型,则分别替换为以下对包装函数的调用:
20PRFmalloc(&p,5*sizeof(int))
30PRFfoo(&q,PRFpmd_tbl_lookup(&p),p)
37PRFfree(PRFpmd_tbl_lookup(&p),p)
38PRFfree(PRFpmd_tbl_lookup(&p),p)
其中PRFfree函数的定义如下:
步骤S92,若该函数的返回值或形参是包含指针成员的结构体类型,则将该函数调用表达式替换为以下对包装函数的调用:
PRFfunc9(ret_addr,PRFpmd_tbl_lookup(&a1.a1pf1),PRFpmd_tbl_lookup(&a1.a1pfj),
PRFpmd_tbl_lookup(&an.anpf1),PRFpmd_tbl_lookup(&an.anpfk),a1,an)
其中a1pf1,a1pfj表示a1中的j个指针成员,anpf1,anpfk表示an中的k个指针成员;
本例中,不存在函数的返回值或形参是包含指针成员的结构体类型,故不作处理。
步骤S10,对于所有被改写的源文件,在文件开始位置插入include语句,用于包含所有数据结构、指针元数据操作函数和检测函数的定义文件;
本例中,在test.c文件开始位置插入“#include“memsafe.h””语句,用于包含所有数据结构、指针元数据操作函数和检测函数的定义。
步骤S11,将步骤S5到步骤S10中的所有替换改写保存到相应的源文件中,并将本次改写的文件加入已处理文件列表;
本例中,将以上所有替换改写保存到test.c中,并将“test.c”加入已处理文件列表。
步骤S12,将经过变换的源代码目录或源代码文件按原有方式进行编译,生成可执行文件;
本例中,将test.c按原有方式进行编译,生成可执行文件。
步骤S13,将可执行文件部署在目标平台上并运行,当出现内存错误时,插入的代码可以自动检测到错误的发生,并准确定位和报告错误在源代码中的位置。
本例中,运行生成的可执行文件,可以自动检测到错误的发生,并报告在test.c中的第5行和第35行出现指针访问越界,第19行出现数组访问越界,第38行出现指针重复释放错误。
通过上述实施例可见,使用源代码变换方法,经过上述步骤的操作,在源代码中加入内存错误自动检测和定位机制,即可在软件运行过程中自动检测内存错误并在源代码中定位。其中步骤S5~S9的操作可以合并为遍历抽象语法树过程中的一个步骤或者同时执行。
与传统检测技术相比,本实施例提供的内存错误的自动检测和定位方法,通过使用指针元数据记录指针指向内存块的边界、状态和类型信息,使得可以检测所有种类的内存错误,从而实现更全面的错误检测。进一步地,本实施例通过将指针元数据和指针分开存储,并不修改代码中指针的存储结构,使得处理后的代码与原代码之间的数据结构兼容,从而实现更好的兼容性。进一步地,本实施例通过使用源代码变换技术,使得变换后的源代码可以使用原有编译器进行编译和部署,从而实现更好的平台普适性。进一步地,本实施例通过对源代码的抽象语法树进行分析,具有充分的语义信息来判断潜在的内存错误所在的源文件和代码行,并相应地进行源代码变换,使得在错误检测中可以使用这些位置信息,从而实现更准确的源代码定位。进一步地,本实施例通过对源代码的抽象语法树进行分析,具有充分的语义信息来消除不必要的代码变换,并通过使用各种优化的哈希表对指针元数据进行存储和索引,使得对指针元数据的查找和存取操作更加高效,从而实现更高的运行时性能和效率。
因此,本实施例可以解决计算机软件和系统,尤其是安全关键软件和系统开发过程中的内存错误的自动检测和定位的难题,能够实现更全面的错误检测,更好的兼容性,更好的平台普适性,更准确的源代码定位,更高的运行时性能和效率,从而克服现有的检测技术中存在的问题。提高软件的质量和软件维护的效率,具有良好的社会效益。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.源代码中内存错误的自动检测和定位方法,其特征在于,包括:步骤1、使用编译器对源代码进行词法分析和语法分析,构造包含节点类型信息的符号表以及抽象语法树;步骤2、遍历抽象语法树,对指针变量定义初始化节点和赋值节点插入代码来记录或更新指针元数据,其中指针元数据包括指针指向内存块的边界、状态和类型信息;步骤3、遍历抽象语法树,对指针解引用节点和数组下标访问节点插入内存错误检测和源代码定位的机制;步骤4、遍历抽象语法树,对函数定义节点插入代码来更新形参的指针元数据,并插入包装函数定义来在函数之间传递指针元数据;步骤5、遍历抽象语法树,对函数调用节点插入额外的实参来传入原实参的指针元数据;步骤6、编译执行变换后的源代码,程序会自动判断内存错误的发生,并准确报告错误对应的源代码位置。
2.如权利要求1所述的源代码中内存错误的自动检测和定位方法,其特征在于,具体步骤包括:
步骤S1,选择需要变换的源代码目录,或者单个源代码文件;
步骤S2,将选择的源代码目录或文件复制到源代码变换的工作目录中;
步骤S3,对工作目录中的所有源文件进行宏扩展处理,并保存扩展结果到相应的源文件中;进一步地,宏扩展处理具体包括:操作1、利用编译器的词法分析器对文件进行词法分析,词法分析器返回经过宏扩展处理之后的词法单元;操作2、针对扩展自宏的词法单元,其属性中包括宏扩展之后的内容和宏扩展的位置,用扩展之后的内容替换宏扩展位置的原有内容;
步骤S4,遍历工作目录中的所有源文件,使用编译器对源代码进行词法分析和语法分析,构造符号表和抽象语法树;所述符号表中包含节点的类型信息;
步骤S5,遍历抽象语法树,若当前节点是变量定义初始化表达式,则判断该变量是否为指针类型或者是包含指针成员的结构体类型,若是则插入代码来记录指针元数据,若不是则转至步骤S6;
步骤S6,遍历抽象语法树,若当前节点是变量赋值表达式,则判断该表达式是否为指针赋值或者是包含指针成员的结构体赋值,若是则插入代码来更新指针元数据,若不是则转至步骤S7;
步骤S7,遍历抽象语法树,若当前节点是指针解引用表达式或者数组下标访问表达式,则插入内存错误检测和源代码定位的机制,否则转至步骤S8;
步骤S8,遍历抽象语法树,若当前节点是函数定义,假设函数名为func8,返回值类型为RetType,则判断该函数的返回值和形参是否为指针类型或者是包含指针成员的结构体类型,若是则插入代码来更新形参的指针元数据,并插入包装函数定义来在函数之间传递指针元数据,若不是则转至步骤S9;
步骤S9,遍历抽象语法树,若当前节点是函数调用表达式func9(a1,an),其中func9是函数名,a1,an表示n个实参,则判断该函数的返回值和形参是否为指针类型或者是包含指针成员的结构体类型,若是则插入额外的实参来传入原实参的指针元数据,若不是则转至步骤S10;
步骤S10,对于所有被改写的源文件,在文件开始位置插入include语句,用于包含所有数据结构、指针元数据操作函数和检测函数的定义文件;
步骤S11,将步骤S5到步骤S10中的所有替换改写保存到相应的源文件中,并将本次改写的文件加入已处理文件列表;
步骤S12,将经过变换的源代码目录或源代码文件按原有方式进行编译,生成可执行文件;
步骤S13,将可执行文件部署在目标平台上并运行,当出现内存错误时,插入的代码可以自动检测到错误的发生,并准确定位和报告错误在源代码中的位置;
其中步骤S5~S9的操作可以合并为遍历抽象语法树过程中的一个步骤或者同时执行。
3.如权利要求2所述的源代码中内存错误的自动检测和定位方法,其特征在于,所述步骤S5中插入代码来记录指针元数据,进一步包括:
步骤S51,若当前节点是指针变量定义Type51p51=Expr51(kpe51),其中Type51是指针变量类型,p51是指针变量名,kpe51是初始化表达式中的核心指针,Expr51(kpe51)是由kpe51构成的初始化表达式;
步骤S5101,若该核心指针kpe51是指针变量pv51,则将该变量定义替换为:
Type51p51=Expr51((Type51)PRFpmd_tbl_update_ptr_ret(&p51,&pv51,pv51))
其中函数PRFpmd_tbl_update_ptr_ret用于将p51的指针元数据更新为pv51的指针元数据;
步骤S5102,若该核心指针kpe51是指针常量pc51,则将该变量定义替换为:
Type51p51=Expr51((Type51)PRFpmd_tbl_update_as_ret(&p51,
pc51_status,pc51_base,pc51_bound,pc51))
其中函数PRFpmd_tbl_update_as_ret用于将p51的指针元数据更新为其余实参所表示的信息,pc51_status、pc51_base、pc51_bound分别是pc51的状态、下界和上界信息;
步骤S5103,若该核心指针kpe51是函数调用func51(a1,an),其中函数func51返回一个指针,a1,an表示n个实参,则将该变量定义替换为:
Type51p51=Expr51(PRFfunc51(&p51,a1,an))
其中函数PRFfunc51是func51的包装函数,用于将p51的指针元数据更新为func51返回值的指针元数据;
步骤S5104,若该核心指针kpe51是条件表达式cond?true_ptr:false_ptr,则将该变量定义替换为:
Type51p51=Expr51((Type51)PRFcond_expr(&p51,
PRFpmd_tbl_lookup(&true_ptr),PRFpmd_tbl_lookup(&false_ptr),
cond,cond?true_ptr:false_ptr))
其中函数PRFcond_expr用于将p51的指针元数据更新为条件表达式返回值的指针元数据;
步骤S52,若当前节点是结构体变量定义struct st52obj52=Expr52,其中st52是结构体变量类型,且包含n个指针成员(用pf1,pfn表示),obj52是结构体变量名,Expr52是初始化表达式;
步骤S5201,若该初始化表达式Expr52是结构体变量表达式Expr52(kpe52),其中kpe52是初始化表达式中的核心结构体,Expr52(kpe52)是由kpe52构成的初始化表达式,则将该变量定义替换为:
struct st52obj52=(PRFpmd_tbl_update_ptr(&obj52.pf1,&kpe52.pf1),
PRFpmd_tbl_update_ptr(&obj52.pfn,&kpe52.pfn),
Expr52(kpe52));
其中函数PRFpmd_tbl_update_ptr和逗号表达式用于将obj52中所有指针成员的指针元数据更新为kpe52中相应指针成员的指针元数据;
步骤S5202,若该初始化表达式Expr52是基于函数调用的结构体变量表达式Expr52(func52(a1,an)),其中函数func52返回一个结构体,a1,an表示n个实参,则将该变量定义替换为:
struct st52obj52=Expr52(PRFfunc52(&obj52,a1,an))
其中函数PRFfunc52是func52的包装函数,用于将obj52中所有指针成员的指针元数据更新为func52返回值中相应指针成员的指针元数据;
步骤S5203,若该初始化表达式Expr52是初始值表达式列表{Expr521(kpe521),Expr52n(kpe52n)},其中Expr52i(kpe52i)是由核心指针kpe52i构成的初始值表达式,1≤i≤n,则将该变量定义替换为:
struct st52obj52={
PRFpmd_tbl_update_ptr_ret(&obj52.pf1,&kpe521,Expr521(kpe521)),
PRFpmd_tbl_update_ptr_ret(&obj52.pfn,&kpe52n,Expr52n(kpe52n))}
其中函数PRFpmd_tbl_update_ptr_ret用于将obj52.pfi的指针元数据更新为kpe52i的指针元数据。
4.如权利要求2所述的源代码中内存错误的自动检测和定位方法,其特征在于,所述步骤S6中插入代码来更新指针元数据,进一步包括:
步骤S61,若当前节点是指针赋值Expr61A(p61)=Expr61B(kpe61),其中p61是赋值表达式左部中的核心指针变量,其类型是指针类型Type61,Expr61A(p61)是由p61构成的赋值表达式左部,kpe61是赋值表达式右部中的核心指针,Expr61B(kpe61)是由kpe61构成的赋值表达式右部;
步骤S6101,若该赋值表达式右部中的核心指针kpe61是指针变量pv61,则将该赋值表达式替换为:
Expr61A(p61)=Expr61B((Type61)PRFpmd_tbl_update_ptr_ret(&p61,&pv61,pv61))其中函数PRFpmd_tbl_update_ptr_ret用于将p61的指针元数据更新为pv61的指针元数据;
步骤S6102,若该赋值表达式右部中的核心指针kpe61是指针常量pc61,则将该赋值表达式替换为:
Expr61A(p61)=Expr61B((Type61)PRFpmd_tbl_update_as_ret(&p61,
pc61_status,pc61_base,p61_bound,pc61))
其中函数PRFpmd_tbl_update_as_ret用于将p61的指针元数据更新为其余实参所表示的信息,pc61_status、pc61_base、pc61_bound分别是pc61的状态、下界和上界信息;
步骤S6103,若该赋值表达式右部中的核心指针kpe61是函数调用func61(a1,an),其中函数func61返回一个指针,a1,an表示n个实参,则将该赋值表达式替换为:
Expr61A(p61)=Expr61B(PRFfunc61(&p61,a1,an))
其中函数PRFfunc61是func61的包装函数,用于将p61的指针元数据更新为func61返回值的指针元数据;
步骤S6104,若该赋值表达式右部中的核心指针kpe61是条件表达式cond?true_ptr:false_ptr,则将该赋值表达式替换为:
Expr61A(p61)=Expr61B((Type61)PRFcond_expr(&p61,
PRFpmd_tbl_lookup(&true_ptr),PRFpmd_tbl_lookup(&false_ptr),
cond,cond?true_ptr:false_ptr))
其中函数PRFcond_expr用于将p61的指针元数据更新为条件表达式返回值的指针元数据;
步骤S62,若当前节点是结构体赋值Expr62A(obj62)=Expr62B,其中obj62是赋值表达式左部中的核心结构体变量,其类型是结构体类型st62,且包含n个指针成员,用pf1,pfn表示,Expr62A(obj62)是由obj62构成的赋值表达式左部,Expr62B是赋值表达式右部;
步骤S6201,若该赋值表达式右部Expr62B是结构体变量表达式Expr62B(kpe62),其中kpe62是赋值表达式右部中的核心结构体,Expr62B(kpe62)是由kpe62构成的赋值表达式右部,则将该赋值表达式替换为:
Expr62A(obj62)=(PRFpmd_tbl_update_ptr(&obj62.pf1,&kpe62.pf1),
PRFpmd_tbl_update_ptr(&obj62.pfn,&kpe62.pfn),
Expr62B(kpe62));
其中函数PRFpmd_tbl_update_ptr和逗号表达式用于将obj62中所有指针成员的指针元数据更新为kpe62中相应指针成员的指针元数据;
步骤S6202,若该赋值表达式右部Expr62B是基于函数调用的结构体变量表达式Expr62B(func62(a1,an)),其中函数func62返回一个结构体,a1,an表示n个实参,则将该赋值表达式替换为:
Expr62A(obj62)=Expr62B(PRFfunc62(&obj62,a1,an))
其中函数PRFfunc62是func62的包装函数,用于将obj62中所有指针成员的指针元数据更新为func62返回值中相应指针成员的指针元数据。
5.如权利要求2所述的源代码中内存错误的自动检测和定位方法,其特征在于,所述步骤S7中插入内存错误检测和源代码定位的机制,进一步包括:
步骤S71,若当前节点是指针解引用表达式*Expr71(kpe71),其中kpe71是指针解引用表达式中的核心指针,其类型是指针类型Type71,*Expr71(kpe71)是由kpe71构成的指针解引用表达式;
步骤S7101,若该核心指针kpe71是指针变量pv71,则将该解引用表达式替换为:
*((Type71)(PRFcheck_dpv(&pv71,Expr71(pv71),sizeof(*Type71),
fileName,funcName,line,column)))
其中函数PRFcheck_dpv用于检测该解引用表达式访问的内存块是否在pv71的指针元数据所记录的范围内,*Type71表示Type71指向的数据类型,fileName,funcName,line,column分别表示当前节点所在的文件名,函数名,行号和列号;
步骤S7102,若该核心指针kpe71是指针常量pc71,则将该解引用表达式替换为:
*((Type71)(PRFcheck_dpc(pc71_base,pc71_bound,Expr71(pc71),sizeof(*Type71),
fileName,funcName,line,column)))
其中函数PRFcheck_dpc用于检测该解引用表达式访问的内存块是否在pc71的下界pc71_base和上界pc71_bound的范围内,*Type71表示Type71指向的数据类型,fileName,funcName,line,column分别表示当前节点所在的文件名,函数名,行号和列号;
步骤S7103,若该核心指针kpe71是函数指针pf71,则将该解引用表达式替换为:
*((Type71)(PRFcheck_dpf(&pf71,Expr71(pf71),
fileName,funcName,line,column)))
其中函数PRFcheck_dpf用于检测该解引用表达式访问的函数是否在pf71的指针元数据所记录的范围内,fileName,funcName,line,column分别表示当前节点所在的文件名,函数名,行号和列号;
步骤S72,若当前节点是数组下标访问表达式Expr72(kpe72)[index],其中kpe72是数组下标访问表达式中的核心指针,其类型是指针类型Type72,Expr72(kpe72)是由kpe72构成的数组基地址表达式,index是数组下标;
步骤S7201,若该核心指针kpe72是指针变量pv72,则将该数组下标访问表达式替换为:
Expr72(pv72)[PRFcheck_dpv_index(PRFpmd_tbl_lookup(&pv72),Expr72(pv72),index,
sizeof(*Type72),fileName,funcName,line,column)]
其中函数PRFcheck_dpv_index用于检测该表达式访问的内存块是否在pv72的指针元数据所记录的范围内,*Type72表示Type72指向的数据类型;
步骤S7202,若该核心指针kpe72是指针常量pc72,则将该数组下标访问表达式替换为:
Expr72(pc72)[PRFcheck_dpc_index(pc72_base,pc72_bound,Expr72(pc72),index,
sizeof(*Type72),fileName,funcName,line,column)]
其中函数PRFcheck_dpc_index用于检测该表达式访问的内存块是否在pc72的下界pc72_base和上界pc72_bound的范围内,*Type72表示Type72指向的数据类型。
6.如权利要求2所述的源代码中内存错误的自动检测和定位方法,其特征在于,所述步骤S8中插入代码来更新形参的指针元数据,并插入包装函数定义来在函数之间传递指针元数据,进一步包括:
步骤S81,在函数开头插入以下语句:
unsigned char ret_flag=0;
RetType ret_val;
PRFauto_stat*stack_as=PRFauto_stat_create(PRFstack,1);
其中ret_flag用于记录程序运行中该函数是否执行到return语句,ret_val用于记录该函数的返回值,函数PRFauto_stat_create用于创建一个类型为栈的状态信息,且引用者数量为1,stack_as是所有局部动态变量共用的状态信息;
在函数结尾前插入以下语句:
其中label_FID是由该函数体唯一标识符FID构成的标签,函数PRFpmd_tbl_remove用于删除所有局部指针变量pf1,pfn的指针元数据,函数PRFauto_stat_dc用于将stack_as状态的引用者数量减1;
步骤S82,遍历函数中所有的循环体节点,在每个循环体结尾前插入以下语句:
其中label_LID是由该循环体唯一标识符LID构成的标签,函数PRFpmd_tbl_remove用于删除循环体中所有局部指针变量pl1,pln的指针元数据,label_PID是由该循环体的上一层复合语句的唯一标识符PID构成的标签,bc_flag_LID是由该循环体唯一标识符LID为部分名字定义的变量,用于记录程序运行中该函数是否执行到break语句和continue语句;
步骤S83,遍历函数中所有的非循环体复合语句节点,在每个复合语句结尾前插入以下语句:
其中label_BID是由该复合语句唯一标识符BID构成的标签,函数PRFpmd_tbl_remove用于删除该复合语句中所有局部指针变量pb1,pbn的指针元数据,label_PID是由该复合语句的上一层复合语句的唯一标识符PID构成的标签,bc_flag_LID是由该复合语句的最近上层循环体的唯一标识符LID构成的变量名;
步骤S84,遍历函数中所有的break语句,将break语句替换为:
bc_flag_LID=1;goto label_BID;
其中bc_flag_LID是由该复合语句的最近上层循环体的唯一标识符LID构成的变量名,label_BID是由该语句所在的复合语句的唯一标识符BID构成的标签;
步骤S85,遍历函数中所有的continue语句,将continue语句替换为:
bc_flag_LID=2;goto label_BID;
步骤S86,遍历函数中所有的return语句,将return Expr(kpe);语句替换为:
ret_val=Expr(kpe);
ret_flag=1;goto label_BID;
步骤S87,如果函数有n个形参p1,pn的类型为指针、数组或包含指针成员的结构体,则在函数开头插入以下语句:
PRFpmd_tbl_update_fpmd(&p1,PRFfmd_tbl_lookup_fpmd(func8,1));
PRFpmd_tbl_update_fpmd(&pn,PRFfmd_tbl_lookup_fpmd(func8,n));
其中函数PRFfmd_tbl_lookup_fpmd用于从指针元数据表中取出函数func8的第i个实参的指针元数据,1≤i≤n;函数PRFpmd_tbl_update_fpmd用于将形参pi的指针元数据更新为取出的指针元数据;
步骤S88,如果函数的返回值类型为指针、数组或包含指针成员的结构体,则在函数的返回语句return Expr(kpe);之前插入:
PRFfmd_tbl_update_pmd(func8,0,PRFpmd_tbl_lookup(&kpe));
其中函数PRFfmd_tbl_update_pmd用于将函数func8的第0个指针元数据更新为kpe的指针元数据,即返回值的指针元数据;
步骤S89,在原函数之前插入一个包装函数定义RetType PRFfunc8(RetType*ret_addr,PRFpmd*p1_pmd,PRFpmd*pn_pmd,t1p1,tn pn),用于在函数之间传递参数和返回值的指针元数据,其中PRFpmd是指针元数据结构,包括指针指向内存块的边界、状态和类型信息。
7.如权利要求2所述的源代码中内存错误的自动检测和定位方法,其特征在于,所述步骤S9中插入额外的实参来传入原实参的指针元数据,进一步包括:
步骤S91,若该函数的返回值或形参是指针类型,则将该函数调用表达式替换为以下对包装函数的调用:
PRFfunc9(ret_addr,PRFpmd_tbl_lookup(&a1),PRFpmd_tbl_lookup(&an),a1,an)
其中ret_addr是函数返回值被赋予的变量的地址;
步骤S92,若该函数的返回值或形参是包含指针成员的结构体类型,则将该函数调用表达式替换为以下对包装函数的调用:
PRFfunc9(ret_addr,PRFpmd_tbl_lookup(&a1.a1pf1),PRFpmd_tbl_lookup(&a1.a1pfj),
PRFpmd_tbl_lookup(&an.anpf1),PRFpmd_tbl_lookup(&an.anpfk),a1,an)
其中a1pf1,a1pfj表示a1中的j个指针成员,anpf1,anpfk表示an中的k个指针成员。
CN201710079948.4A 2017-02-15 2017-02-15 源代码中内存错误的自动检测和定位方法 Active CN106940654B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710079948.4A CN106940654B (zh) 2017-02-15 2017-02-15 源代码中内存错误的自动检测和定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710079948.4A CN106940654B (zh) 2017-02-15 2017-02-15 源代码中内存错误的自动检测和定位方法

Publications (2)

Publication Number Publication Date
CN106940654A true CN106940654A (zh) 2017-07-11
CN106940654B CN106940654B (zh) 2020-08-14

Family

ID=59468911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710079948.4A Active CN106940654B (zh) 2017-02-15 2017-02-15 源代码中内存错误的自动检测和定位方法

Country Status (1)

Country Link
CN (1) CN106940654B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107479941A (zh) * 2017-09-26 2017-12-15 深圳市茁壮网络股份有限公司 一种程序容错方法及程序容错装置
CN108197035A (zh) * 2018-02-01 2018-06-22 江南大学 一种检测内存边界溢出错误的方法
CN108958739A (zh) * 2018-06-06 2018-12-07 北京大学 一种二进制反编译中数组数据结构恢复方法及系统
CN109240700A (zh) * 2018-07-06 2019-01-18 北京大学 关键代码定位方法与系统
CN109524053A (zh) * 2018-11-06 2019-03-26 深圳格兰达智能装备股份有限公司 一种内存条自动检测设备
CN110162967A (zh) * 2019-05-15 2019-08-23 武汉大学 一种基于mpx的内存时间错误防护方法
CN110309656A (zh) * 2019-05-27 2019-10-08 南京航空航天大学 一种隐式类型转换安全性检测方法
CN110471669A (zh) * 2019-08-02 2019-11-19 Xc5有限公司 一种空指针引用的检测方法及检测装置
CN110471670A (zh) * 2019-08-20 2019-11-19 杭州和利时自动化有限公司 一种编译器、编译方法和追踪方法及dcs控制器
CN110674495A (zh) * 2019-09-03 2020-01-10 Xc5 香港有限公司 一种数组越界访问的检测方法、装置及设备
CN110879708A (zh) * 2019-11-19 2020-03-13 安徽中科国创高可信软件有限公司 一种基于抽象语法树和定理证明的局部敏感程序分析方法
CN111736846A (zh) * 2020-06-15 2020-10-02 南京航空航天大学 一种面向动态分析的源代码插桩改进方法
CN111858322A (zh) * 2020-07-10 2020-10-30 中国科学技术大学 一种Python语言特征自动识别系统和方法
CN112083956A (zh) * 2020-09-15 2020-12-15 哈尔滨工业大学 一种面向异构平台的复杂指针数据结构自动管理系统
CN112114793A (zh) * 2020-09-14 2020-12-22 中国船舶重工集团公司第七0九研究所 通用json对象转换为c/c++结构化对象的代码生成方法及系统
CN112114792A (zh) * 2020-09-14 2020-12-22 中国船舶重工集团公司第七0九研究所 通用c/c++结构化对象转换为json对象的代码生成方法与系统
CN112506515A (zh) * 2019-09-16 2021-03-16 努比亚技术有限公司 一种编译控制方法、终端及计算机可读存储介质
CN112733153A (zh) * 2021-01-27 2021-04-30 腾讯科技(深圳)有限公司 源代码扫描方法、装置、电子设备和存储介质
WO2023071611A1 (zh) * 2021-10-26 2023-05-04 华为技术有限公司 一种不友好访存检测方法及相关设备
WO2023206873A1 (zh) * 2022-04-28 2023-11-02 三六零科技集团有限公司 基于抽象语法树的代码检测方法、装置、设备及存储介质
CN112506515B (zh) * 2019-09-16 2024-05-10 努比亚技术有限公司 一种编译控制方法、终端及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5560009A (en) * 1990-09-21 1996-09-24 Hewlett-Packard Company Generating symbolic debug information by merging translation and compiler debug information
CN103778061A (zh) * 2014-01-17 2014-05-07 南京航空航天大学 数组越界错误的自动检测和校正方法
CN104298594A (zh) * 2014-09-25 2015-01-21 南京航空航天大学 一种源代码中值计算错误的自动检测和定位方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5560009A (en) * 1990-09-21 1996-09-24 Hewlett-Packard Company Generating symbolic debug information by merging translation and compiler debug information
CN103778061A (zh) * 2014-01-17 2014-05-07 南京航空航天大学 数组越界错误的自动检测和校正方法
CN104298594A (zh) * 2014-09-25 2015-01-21 南京航空航天大学 一种源代码中值计算错误的自动检测和定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
朱云龙等: "针对C语言的面向方面语言设计与实现", 《小型微型计算机系统》 *
王文俊: "C/C++程序缓冲区越界静态检测研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107479941A (zh) * 2017-09-26 2017-12-15 深圳市茁壮网络股份有限公司 一种程序容错方法及程序容错装置
CN108197035A (zh) * 2018-02-01 2018-06-22 江南大学 一种检测内存边界溢出错误的方法
CN108958739B (zh) * 2018-06-06 2020-11-10 北京大学 一种二进制反编译中数组数据结构恢复方法及系统
CN108958739A (zh) * 2018-06-06 2018-12-07 北京大学 一种二进制反编译中数组数据结构恢复方法及系统
CN109240700A (zh) * 2018-07-06 2019-01-18 北京大学 关键代码定位方法与系统
CN109524053A (zh) * 2018-11-06 2019-03-26 深圳格兰达智能装备股份有限公司 一种内存条自动检测设备
CN109524053B (zh) * 2018-11-06 2023-01-20 深圳格芯集成电路装备有限公司 一种内存条自动检测设备
CN110162967A (zh) * 2019-05-15 2019-08-23 武汉大学 一种基于mpx的内存时间错误防护方法
CN110162967B (zh) * 2019-05-15 2023-02-24 武汉大学 一种基于mpx的内存时间错误防护方法
CN110309656A (zh) * 2019-05-27 2019-10-08 南京航空航天大学 一种隐式类型转换安全性检测方法
CN110309656B (zh) * 2019-05-27 2023-05-12 南京航空航天大学 一种隐式类型转换安全性检测方法
CN110471669A (zh) * 2019-08-02 2019-11-19 Xc5有限公司 一种空指针引用的检测方法及检测装置
CN110471669B (zh) * 2019-08-02 2023-09-05 支付宝知识产权控股公司 一种空指针引用的检测方法及检测装置
CN110471670A (zh) * 2019-08-20 2019-11-19 杭州和利时自动化有限公司 一种编译器、编译方法和追踪方法及dcs控制器
CN110674495B (zh) * 2019-09-03 2021-07-09 Xc5 香港有限公司 一种数组越界访问的检测方法、装置及设备
CN110674495A (zh) * 2019-09-03 2020-01-10 Xc5 香港有限公司 一种数组越界访问的检测方法、装置及设备
CN112506515B (zh) * 2019-09-16 2024-05-10 努比亚技术有限公司 一种编译控制方法、终端及计算机可读存储介质
CN112506515A (zh) * 2019-09-16 2021-03-16 努比亚技术有限公司 一种编译控制方法、终端及计算机可读存储介质
CN110879708B (zh) * 2019-11-19 2023-05-02 安徽中科国创高可信软件有限公司 一种基于抽象语法树和定理证明的局部敏感程序分析方法
CN110879708A (zh) * 2019-11-19 2020-03-13 安徽中科国创高可信软件有限公司 一种基于抽象语法树和定理证明的局部敏感程序分析方法
CN111736846A (zh) * 2020-06-15 2020-10-02 南京航空航天大学 一种面向动态分析的源代码插桩改进方法
CN111736846B (zh) * 2020-06-15 2021-06-22 南京航空航天大学 一种面向动态分析的源代码插桩改进方法
CN111858322A (zh) * 2020-07-10 2020-10-30 中国科学技术大学 一种Python语言特征自动识别系统和方法
CN112114792A (zh) * 2020-09-14 2020-12-22 中国船舶重工集团公司第七0九研究所 通用c/c++结构化对象转换为json对象的代码生成方法与系统
CN112114793A (zh) * 2020-09-14 2020-12-22 中国船舶重工集团公司第七0九研究所 通用json对象转换为c/c++结构化对象的代码生成方法及系统
CN112114793B (zh) * 2020-09-14 2023-09-22 中国船舶重工集团公司第七0九研究所 通用json对象转换为c/c++结构化对象的代码生成方法及系统
CN112114792B (zh) * 2020-09-14 2023-09-22 中国船舶重工集团公司第七0九研究所 通用c/c++结构化对象转换为json对象的代码生成方法与系统
CN112083956A (zh) * 2020-09-15 2020-12-15 哈尔滨工业大学 一种面向异构平台的复杂指针数据结构自动管理系统
CN112733153A (zh) * 2021-01-27 2021-04-30 腾讯科技(深圳)有限公司 源代码扫描方法、装置、电子设备和存储介质
WO2023071611A1 (zh) * 2021-10-26 2023-05-04 华为技术有限公司 一种不友好访存检测方法及相关设备
WO2023206873A1 (zh) * 2022-04-28 2023-11-02 三六零科技集团有限公司 基于抽象语法树的代码检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN106940654B (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN106940654A (zh) 源代码中内存错误的自动检测和定位方法
CN102804147B (zh) 执行abap源代码的代码检查的代码检查执行系统
CN102339252B (zh) 基于xml中间模型以及缺陷模式匹配的静态检测系统
US5659723A (en) Entity/relationship to object oriented logical model conversion method
CN102375826B (zh) Sql脚本解析方法、装置及系统
CN109144882A (zh) 一种基于程序不变量的软件故障定位方法及装置
CN105843614B (zh) 一种面向软件演化的代码可兼容性评估方法
CN103440201A (zh) 动态污点分析装置及其在文件格式逆向解析中的应用
CN105808369B (zh) 一种基于符号执行的内存泄漏检测方法
CN104133733B (zh) 一种内存错误检测方法
CN104298594B (zh) 一种源代码中值计算错误的自动检测和定位方法
CN113497809B (zh) 基于控制流和数据流分析的mips架构漏洞挖掘方法
CN115309451A (zh) 代码克隆检测方法、装置、设备、存储介质及程序产品
CN103745755A (zh) 一种高效且高可用的空间内存错误检测方法
CN112131120B (zh) 一种源代码缺陷检测方法及装置
CN105930267B (zh) 一种基于数据库字典的存储过程静态检测方法及系统
CN112199115A (zh) 基于特征相似度匹配的跨Java字节码和源代码行关联方法
CN111966578A (zh) 一种安卓兼容性缺陷修复效果的自动化评估方法
CN114282227B (zh) 一种Fabric区块链系统智能合约的安全分析检测方法
CN115080448B (zh) 一种软件代码不可达路径自动检测的方法和装置
CN114924767A (zh) 一种基于对齐空洞的内核数据类型动态扩展热补方法
Shao et al. Combining lexical and structural information for static bug localisation
CN114153451A (zh) 一种利用数据流分析算法分析c代码中的内存安全的方法
CN112199217B (zh) 一种软硬协同的线程私有数据访问优化方法
CN105988923A (zh) 一种录制被测Android程序的用户操作的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant