CN111858549A - 一种数据对象特征数据库的构建及更新方法 - Google Patents

一种数据对象特征数据库的构建及更新方法 Download PDF

Info

Publication number
CN111858549A
CN111858549A CN202010644589.4A CN202010644589A CN111858549A CN 111858549 A CN111858549 A CN 111858549A CN 202010644589 A CN202010644589 A CN 202010644589A CN 111858549 A CN111858549 A CN 111858549A
Authority
CN
China
Prior art keywords
data
data object
feature
characteristic
cleared
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010644589.4A
Other languages
English (en)
Other versions
CN111858549B (zh
Inventor
汤健
王丹丹
周晓钟
禹明生
李霞
段雨洪
韩红桂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202010644589.4A priority Critical patent/CN111858549B/zh
Publication of CN111858549A publication Critical patent/CN111858549A/zh
Application granted granted Critical
Publication of CN111858549B publication Critical patent/CN111858549B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/219Managing data history or versioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种数据对象特征数据库的构建及更新方法,通过数据对象特征数据案例构建模块、待清除数据扫描及数据对象识别模块、特征数据比对与匹配模块、未知案例提取模块、以及未知案例更新模块实现,以获得安全且高效的信息清除方案;同时,为适应众多的和不断更新的数据对象类型需要对数据对象特征数据库进行更新。

Description

一种数据对象特征数据库的构建及更新方法
技术领域
本发明属于电子设备的信息处理,尤其涉及一种数据对象特征数据库的构建及更新方法。
背景技术
移动终端类设备和电脑等电子产品的更新换代速度逐渐加快。据统计,截至2015年10月,我国手机用户已达13.02亿,每年产生的废弃手机大约有2亿部,然而其回收率尚不足1%[1],原因之一在于交投用户担心废旧手机内的隐私信息被泄露。通常,这些电子设备自身所带有的信息删除或格式化功能并不能真正地清除存储在这些固件系统上的数据信息,采用专用软件的非专业户化处理即可恢复部分或全部数据[2],这对个人隐私乃至国家安全都构成了严重的威胁[3]。
信息清除是指采用各种技术手段将存储设备中的隐私数据予以彻底删除,数据覆写是目前最为有效和经济的方法之一[4]。文献[5]所提出的基于不同安全等级的信息清除策略是国内清除设备/软件的主流解决方案,但其清除策略是固定的,并未考虑待清除数据对象的差异化特性。文献[6]给出了包含前端清除设备、后台服务器的信息清除系统整体设计理念,并提出全盘覆写和穿插区域随机覆写等方式提高清除效率。
废旧电子设备中往往存储着大量的用户数据,这些数据一般以文件的形式存在,而文件的类型格式多种多样且千差万别,包括程序文件、视频文件、文本文件、数据库文件等等,除此之外,对于像智能手机类似的将闪存作为存储芯片的电子设备由于其异地更新的存储特性,为保证信息清除的彻底性,考虑在清除用户文件的同时,也需要对存储着无效数据的存储空间进行清除,这些存储空间中一般存储着各种各样的文件碎片。同时,不同用户对于电子设备的使用的差异,也造成不同废旧电子设备中存储的数据在大小、类型等方面也存在这较大差异,且目前市场上不同软件公司都不断地设计新的文件格式,使得文件格式种类不断增加。所以,在信息清除过程中待清除废旧电子设备的待清除数据的差异对信息清除方案定制化造成很大难度,但可以很大程度上提高信息清除的安全性,也可以间接的提高信息清除的效率。
为了获得安全且高效的信息清除方案,有必要构建数据对象特征数据库,以便针对不同数据对象高效地生成定制化的信息清除覆写数据包;同时,为适应不断产生的新文件格式对数据对象特征数据库进行更新。
发明内容
信息清除的目的是彻底清除存储于电子设备/存储设备的信息,使其无法被恢复以避免重要信息/隐私信息的泄露。信息清除系统在保障信息被安全清除的同时,还要保障信息清除过程的效率以及信息清除的成本,要求经过信息清除的电子设备/存储器仍可以正常使用,所以采用基于覆写的信息清除技术来实现安全高效的信息粉碎。存储设备通过“0”和“1”二进制数字进行信息的存储,但根据不同的排序、编码规则和运算方式等实现多种多样的信息存储与读取。电子设备的存储器/存储芯片中存储着除设备固有的操作系统、应用程序等程数据外,还存储着多种多样的用户应用与用户信息,这些程序、信息、数据都按照不同的编码规则以文件的形式进行存储,并按照不同的计算规则进行解析、读取。不同类型的文件在格式上、大小上等都存在差异,对不同类型/格式文件采用不同信息清除方案,可进一步提高该过程的安全性与高效性。因此,如何准确的识别待清除数据对象,需要建立一个待清除数据对象特征数据库,以便于根据数据对象特征生成信息清除的可执行方案。本申请提出了数据对象特征数据库的构建及更新方法,其包括数据对象特征数据案例构建模块、待清除数据扫描及数据对象识别模块、特征数据比对与匹配模块、未知案例提取模块、以及未知案例更新模块。
综上,本发明提供一种数据对象特征数据库的构建及更新方法包括:
步骤1、通过数据对象特征数据案例构建模块,基于不同类型的文件/数据对象建立相应的标准待清除数据对象特征集模型,并基于对不同类型、不同格式文件的分析,提取并收集相关的特征信息,如文件后缀、编码规则、文件大小级别等,再将收集到的特征信息进行规范化,整合成为数据对象的特征数据,接着根据这些特征数据设计进行信息清除实验,研究不同数据对象特征数据对应的最佳信息清除方案参数,将以上数据对象的特征数据、以及对应的信息清除方案参数整合为一个待清除数据对象特征案例存储于待清除数据对象特征数据库中,形成基础的待清除数据对象特征数据库。
步骤2、通过待清除数据扫描及数据对象识别模块,在信息清除过程中,对待清除废旧电子设备的待清除数据进行全盘扫描,获取待清除数据包,对待清除数据包进行解析,形成待清除数据对象集,并对其进行逐一初步识别,即基于文件后缀等文件基础属性识别文件格式。
步骤3、通过特征数据比对与匹配模块,对待清除数据对象集中各数据对象进行特征数据提取,根据提取到的数据对象特征数据与初步识别到文件格式的特征数据进行比对,若比对后的差异值在允许范围内,则确认数据对象的文件格式,并输出相应的信息清除方案参数;否则,需基于待清除数据对象与数据对象特征数据库中案例进行特征数据匹配。根据提取到的待清除数据对象特征数据与数据对象特征数据库中案例进行特征数据匹配,若匹配到相似案例,则输出该案例对应的信息清除方案参数;否则,将该数据对象视为未知案例进行进行未知案例提取。
步骤4、通过未知案例提取模块,对待清除数据对象进行特征数据提取,并相应的修改或添加特征集模型。
步骤5、通过未知案例更新模块,将提取到的案例的特征数据存储于数据对象特征数据库,并向数据对象特征数据库修改/添加相应特征集模型。
其中,待清除数据对象集中包含一系列的数据对象,以上每个步骤需按照数据对象顺序依次进行并标记。
附图说明
图1数据对象特征数据库的构建及更新方法总体结构图;
图2待清除数据对象特征数据案例构建模块功能流程图;
图3待清除数据扫描及数据对象识别模块功能流程图;
图4特征数据比对与匹配模块功能流程图;
图5未知案例提取模块功能流程图;
图6未知案例更新模块功能流程图。
其中,图3至图6中“实线箭头”表示数据库功能流程,“虚线箭头”表示数据库中数据/信息的调取与使用。
具体实施方式
废旧电子设备存储着大量的用户数据,这些用户数据类型、存储地址、大小等存在这千差万别,除此之外,待清除用户数据还存在以下问题影响着信息清除过程:
1)用户待清除数据包中包含着各种各样的文件、数据等,包含应用程序、视频文件、文本文件等,而这些文件都会以无差别式的数据形式提取,形成统一的数据包,进行统一的特征识别并不合理;
2)待清除数据的属性可能被篡改,与实际不符;
3)待清除数据可能经过压缩、加密处理;
4)一部分待清除数据无法匹配到相似案例,影响整个信息清除过程。
基于上述问题考虑以下解决方案:
1)提取到的待清除数据包在进行特征识别前,划分为一个个特征数据对象,形成待清除数据对象集,分别进行特征识别;
2)根据数据对象格式进行识别后,再进行特征数据比对,以避免因格式篡改造成的识别错误;
3)压缩、加密处理的数据,在特征识别前进行压缩/加密识别,在特征识别过程中进行分别处理;
待清除数据对象集在特征识别过程中,若存在无法识别的数据对象,则赋予其默认信息清除方案参数,以避免影响整个信息清除进程,但该做法将降低信息清除方案的安全性评估。
本发明提出了一种数据对象特征数据库的构建及更新方法,其包括数据对象特征数据案例构建模块、待清除数据扫描及数据对象识别模块、特征数据比对与匹配模块、未知案例提取模块、以及未知案例更新模块,如图1所示。
(1)数据对象特征数据案例构建模块
该模块的输入为文件/数据对象,输出为特征集模型和特征数据。通过分析综合文件/数据对象特征,对应构建不同的标准特征集模型,再根据标准特征集模型离线采集不同类型数据对象的不同格式的数据对象特征信息,对收集到的数据对象特征信息进行规范,得到数据对象特征数据,再根据这些特征信息进行信息清除实验,研究不同数据对象特征对应的信息清除方案参数的最佳选择,以确保信息清除的安全性与高效性。将上述数据对象特征数据及其对应的信息清除方案参数整理作为一条案例存储于数据对象特征数据库,构建的数据对象特征数据库为信息清除系统的待清除数据对象特征识别和案例匹配提供支撑。
(2)待清除数据扫描与数据对象识别模块
该模块的输入为待清除废旧电子设备,输出为待清除废旧电子设备的待清除数据对象集及其初始特征数据集。对废旧电子设备进行扫描,提取其待清除数据包,对其进行解析形成待清除数据对象集,通过待清除数据对象的格式信息与数据库中案例进行匹配,获取该待清除数据对象的初始特征数据,为特征数据比对与匹配模块中数据对象实际特征数据与其初始特征数据比对提供支撑;若未匹配到相同案例,则进入特征数据比对与匹配模块,根据待清除数据对象与数据库中案例进行特征数据匹配。
(3)特征数据比对与匹配模块
该模块的输入为待清除数据对象集及其初始特征数据集,输出为信息清除方案参数集或未知数据对象。将待清除数据对象提取到的特征数据与匹配得到的待清除数据对象初始特征数据进行比对分析,若两者差异在允许范围内,则将初始特征数据作为该特征数据的最终特征数据,输出对应的信息清除方案参数;若两者差异超过允许范围,则初始特征数据不作为该数据对象的最终特征数据,再利用待清除数据对象提取的特征数据与数据库中案例的特征数据进行匹配,若匹配到相似案例,则将该案例的特征数据作为待清除数据对象的特征数据,并输出对应的信息清除方案参数;若未匹配到相似案例则将该待清除数据对象视为未知案例,重新分析并提取其特征数据作为新案例存储,但赋予该待清除数据对象默认的信息清除方案参数进行输出。
(4)未知案例提取模块
该模块的输入为未知数据对象,输出为初始特征集和案例剩余信息。根据该未知数据对象与数据对象特征数据库中不同标准特征集模型进行特征数据提取,并根据数据库中相应案例进行校验以匹配到适用于该未知案例的标准特征集模型,将初始特征集与案例剩余信息输出。若未匹配到标准模型,则将该未知案例信息保存,并向后台服务器发送警告,手动构建标准模型并添加与数据库中。
(5)未知案例更新模块
该模块的输入为未知案例的初始特征集模型和案例剩余信息,输出为新增案例特征集,并对待清除数据对象特征数据库进行更新,然后再向后台服务器发送通知,通过实验设计研究该案例对应的信息清除案例参数,并存储于数据库中,与相应案例对应。
数据对象特征数据案例构建模块的工作过程为:
该模块构建的数据对象特征数据库用于存储数据对象特征案例,用于根据待清除废旧电子设备的待清除数据包的特征信息,匹配数据库中相似案例,以获取对应的信息清除方案参数。数据对象特征数据库中每个案例包括不同格式文件的特征数据集,及与之对应的信息清除方案参数。
数据对象特征集包括特征集模型和特征数据。特征集模型表现为特征项的集合,它规定了需要收集/提取数据对象的哪些特征数据,如{数据对象类型;文件格式/后缀;编码方式;文件大小级别;...};特征数据表现为数据集合,代表规范化后的数据集模型的值。特征集模型分为标准特征集模型和衍生特征集模型,标准特征集模型表示一类数据对象的共有特征,包含了可用于识别数据对象的关键特征项,如视频文件可构建一个标准特征集;衍生特征集模型包含标准特征集的所有项,同时还包含数据对象的其他重要特征项,如“mp4”格式可构建一个衍生特征集模型。在构建数据对象特征数据库的前期需要通过对不同类型数据对象进行分析综合,以人工构造标准的特征集模型,而随着数据对象类型的不断增多,标准的特征集模型由数据库维护人员构造并添加。而特征集衍生模型在数据库构建前期需要人工构建,随后由数据库算法根据标准模型和其他衍生模型自动修改并添加。
该模块的输入为现有数据对象/文件,输出为特征集,包含特征集模型和与之对应的特征数据,流程如图2所示,具体过程如下:
首先,分析与综合不同类型数据对象/文件的特性,人工构建相应的标准特征集模型,并定义相应特征数据的规范化形式。
其次,基于现有数据对象/文件,利用数据分析器对不同的数据对象进行分析,获得该数据对象的类型、格式、编码规则、编译方式、字符组合逻辑、典型字符组合片段、加密方式、压缩方式等特征信息,若文件属于程序文件,考虑收集其开发语言等特征信息。其中,每种数据对象/文件的特征要考虑其压缩前后、加密前后的格式变化。基于获得的数据对象/文件特征信息,通过人工分析与综合,构建相应的数据对象衍生模型,对相应的特征数据进行规范化定义,并根据衍生模型提取该数据对象的特征数据并规范化后,在相应衍生模型下创建一个案例,存入该特征数据。根据以上方法,进行半自动化的案例创建。
最后,将创建的特征集模型和案例的特征数据保存至数据对象特征数据库中,并根据各案例的特征数据进行信息清除实验,研究相应的信息清除方案参数的最佳取值,并存入数据库相应案例中。
待清除数据扫描及数据对象识别模块的工作过程为:
该模块的输入为待清除废旧电子设备,输出为待清除废旧电子设备待清除数据对象的初始特征数据集、待清除数据对象集,流程如图3所示,具体过程如下:
首先,利用数据提取器对通过硬件连接的废旧电子设备进行扫描,提取其待清除数据包,提取的待清除数据包包含数据对象的有效数据、属性信息以及其存储地址等信息;
接着,对待清除数据包进行初步解析,根据一定准则将待清除数据包划分为一个个待清除的数据对象,分析各个数据对象是否经压缩、加密等处理,并根据分析结果对数据对象进行标记,形成待清除数据对象集。其中,任一数据对象都包含有效数据、属性信息、存储地址、及是否经特殊处理等信息。
然后,对经过初步解析后形成的待清除数据对象集进行数据对象格式匹配,即根据每个数据对象属性信息中的文件后缀信息与数据对象特征数据库中案例进行匹配,若匹配到相同案例(仅使用数据对象格式进行匹配,需匹配到格式相同而非相似的案例),则将该案例的特征数据视为该待清除数据对象的初始特征数据,为避免因恶意篡改数据对象属性而造成的匹配错误,需进一步进行特征数据的比对,输出该待清除数据对象及其初始特征数据;若未匹配到相同案例,则认为数据库中不存在该待清除数据对象格式,为避免因恶意篡改数据对象属性而造成的识别错误,需进一步通过待清除数据对象特征数据进行相似案例匹配,输出该待清除数据对象。该过程存在匹配到和未匹配到相同案例的情况,均需进一步根据特征数据进行对比/匹配处理。为简化数据库功能,综合两种情况考虑,在未匹配到相同案例的情况下,也输出相应的初始特征数据,但该初始特征数据均设置为默认值,在特征数据比对时,差异值必超出允许范围,从而进行特征数据匹配过程。根据以上描述,对整个待清除数据对象集进行基于格式的匹配,获取对应的待清除数据对象初始特征数据集,故该模块最终输出待清除数据对象集及其应的初始特征数据集。
其中,若待清除数据对象是经过压缩/加密等处理的,则根据压缩/加密前的数据对象格式进行格式匹配。
特征数据比对与匹配模块的工作过程为:
该模块的输入为待清除废旧电子设备待清除数据对象集及其对应的初始特征数据,输出为信息清除方案参数集,或未知数据对象,流程如图4所示,具体过程如下:
首先,根据待清除数据对象初始特征集的特征集模型(初始特征集模型是相应标准模型的衍生版本,对于在上一模块未匹配到相同案例的情况,这里的初始特征集模型指的是默认特征集模型),建立特征数据提取器,将待清除数据对象的有效数据进行归类整理、分析提取形成标准格式的特征数据;具体地,若存在提取不到的特征项,则将其值设定为默认值。
接着,基于初始特征集对应的标准特征集模型(标准模型包含的特征项都是待清除数据对象必要的关键特征,对于在上一模块未匹配到相同案例的情况,这里的标准特征集模型指的是默认标准特征集模型),对提取到的特征数据与匹配到的初始特征数据进行比对,该过程在特征数据比对器中进行。基于标准特征集模型进行特征数据比对是因为,虽然提取到的特征数据与初始特征数据具有相同的特征集模型,但其中可能含有待清除数据对象的非关键特征项、非固有特征项等,这不利于两者进行相似性比对。
具体地,根据标准特征集模型提取并构建出进行比对的标准实际特征数据和标准初始特征数据,这些特征数据均表现为规范化数据,可直接依据特征数据比对器中规则进行数值(或字符)比较,特征数据比对器根据各项比对结果及相应规则计算出综合差异值。若该差异值在允许范围内,则认为匹配到的初始特征数据符合实际待清除数据对象特征,将初始特征数据作为该待清除数据对象的实际特征数据,并将匹配到的案例对应的信息清除方案参数,及由该待清除数据对象的大小和存储地址等组成的信息清除方案参数进行输出(输出由数据对象的大小和存储地址等组成的信息清除方案参数是因为,需要根据这些信息生成用于覆写待清除数据对象的数据块);若差异值超出允许范围,则认为匹配到的初始特征数据不符合实际待清除数据对象特征,需要依据提取到的特征数据与数据对象特征数据库中的案例进行特征数据匹配。
接着,在特征数据匹配器中,逐一调取数据对象特征数据库中案例,将案例对应的特征集依据标准特征集模型进行简化(标准特征集模型由调取的案例决定,为案例对应的标准模型),再进行逐一的相似性比对,若可以匹配到差异值在允许范围内的相似案例,选择差异值最小的案例的特征数据作为该待清除数据对象的特征数据,并将该案例对应的信息清除方案参数,及由该待清除数据对象的大小和存储地址等组成的信息清除方案参数进行输出;若未匹配到相似案例,则将该待清除数据对象特征视为未知案例,需建立新的案例进行描述,所以将未知数据对象作为输出,进行进一步的未知案例提取,同时,赋予待清除数据对象以默认信息清除方案参数,结合由其大小和存储地址等组成的信息清除方案参数进行输出,以避免因为个别待清除数据对象无法识别造成的整个信息清除过程无法实现的问题。
根据以上所述,对待清除数据对象集的所有数据对象进行特征数据比对或特征数据匹配,将最终形成的信息清除方案参数集进行统一输出。其中,若待清除数据对象经过压缩处理,则将数据对象解压后进行基于特征数据的比对/匹配,但需要输出基于压缩后数据对象的信息清除方案参数;若待清除数据对象经过加密处理,由于加密的方法较多,解密难度大,且加密过的数据对象已经有一定的安全保障,所以赋予其默认的信息清除方案参数。
未知案例提取模块的工作过程为:
该模块结合未知案例更新模块旨在实现信息清除系统在投入使用时,能够自动化的识别、提取、构建新的数据对象特征集。
该模块的输入为未知数据对象,输出为该未知数据对象形成的新案例的初始特征集和案例剩余信息,包括临时特征集模型和与之对应的未知特征数据,流程如图5所示,具体过程如下:
首先,根据数据对象特征数据库中各个标准特征集模型等信息,建立未知数据对象的特征数据提取与校验机制。
具体地,需要对未知数据对象进行数据分析及标准化特征数据提取与校验。从数据对象特征数据库中调取一个标准特征集模型,依据该模型从未知数据对象中提取出相应特征数据(无法提取的特征项的值设置为默认值),将该标准模型对应的所有案例依据该模型进行标准型简化,逐一与提取到的特征数据进行比对,最后计算总体的综合差异值。根据以上方法分别对待清除数据对象特征数据库中所有标准特征集模型进行校验,获取相应的差异值。选择在允许范围内差异值最小的标准特征集模型和与之对应的已提取的特征数据作为该未知案例的初始特征集,并将其输出至未知案例更新模块进行进一步的模型修正和特征数据提取。若所有的校验结果都超出允许范围,则向后台管理员发出警告,并将该未知数据对象保存,用于人工进行新案例构建或数据库维护。
除了已提取的初始特征数据,未知案例信息中一般仍含有其他有效特征数据(这些特征数据不能用于待清除数据对象的识别,但影响信息清除过程),要进一步的进行特征集模型修正,所以将案例剩余信息输出至未知案例更新模块。
未知案例更新模块的工作过程为:
该模块的输入为初始特征集、案例剩余信息,输出为新增特征集,包括新增特征集模型、新增特征数据,流程如图6所示,具体过程如下:
首先,在初始特征集的基础上添加其他特征项。具体地,从待数据对象特征数据库中调取未知案例提取模块匹配到的标准模型对应的所有衍生模型的特征项,依据衍生模型的特征项从案例剩余信息中提取对应的特征数据值,并将可提取的特征项添加至初始特征集模型中(例如,依据衍生模型1,为初始模型添加了“特征项1”和“特征项2”,依据衍生模型2,又在模型上添加了“特征项B”,依据衍生模型3,没有为模型添加任何特征项...),由此依据所有衍生模型添加特征项后,可获得修正后的特征集模型,且其对应的特征数据也已经提取完成。经过模型修正后,若还存在其他未被提取的案例剩余信息,则将其整理后存放于数据隔离区,并索引至该新案例,以备数据库维护使用。
接着,将已修正的特征集模型与上述的所有衍生模型进行比较,以确定该案例的最终特征集,指导更新待清除数据对象特征数据库。具体地,用已修正的特征集模型逐一与所有衍生模型进行特征项的比较,确定其包含关系(例如,已修正的特征集模型包含衍生模型1的所有特征项,已修正的特征集模型与衍生模型2的特征项存在交叉),
1)若存在一个衍生模型与已修正的特征集模型的所有特征项相同,则直接将该衍生模型作为该案例的最终特征集模型;
2)若存在一个衍生模型包含已修正的特征集模型的所有特征项,则将该衍生模型作为该案例的最终特征集模型,将未知的特征项的值设定为默认值;
3)若存在一个衍生模型包含于已修正的特征集模型的所有特征项,则依照已修正的特征集模型对待清除数据对象特征数据库中该衍生模型进行修正,数据库中与该衍生模型对应的所有案例的新增特征项的值均设定为默认值(未知特征项的值在识别到相同案例时,有自动补充功能,也可以通过后台管理员人工添加);
4)若所有衍生模型与已修正的特征集模型的特征项都是交叉关系,则将该已修正的特征集模型作为新衍生模型添加至待清除数据对象特征数据库。
最后,通过案例添加/更新机制对待清除数据对象特征数据库实现上述相应操作,同时向后台发送提示,通过信息清除实验研究并完善该案例对应的最佳信息清除方案参数。
本发明方法专利的创新性体现在:
1)可以从废旧电子设备的待清除数据包中自动地识别、提取其特征数据,并匹配数据对象特征数据库中相似案例;
2)可以根据未知数据对象,构建新的数据对象特征案例,并更新数据库。
参考文献
[1]周婧.标准化推动我国废旧手机回收产业发展的研究[J].质量与标准化,2018(01):41-43.
[2]尹燕彬,文伟平.计算机数据安全删除和隐私保护[J].信息网络安全,2009(05):55-58.
[3]叶清明.基于MDA的SQLite碎片数据清除技术的研究[D].昆明理工大学,2016.
[4]沈贺磊.漫谈信息消除技术[J].信息安全与通信保密,2009(08):92-94.
[5]杜银霞.安全清除硬盘中残留数据的研究[D].河北科技大学,2012.
[6]刘君;许常乐;耿利达.智能手机上的原有信息进行彻底清除的方法[P].中国专利:CN107277089A,2017-10-20.

Claims (4)

1.一种数据对象特征数据库的构建及更新方法,其特征在于,包括:
步骤1、通过数据对象特征数据案例构建模块,基于不同类型的文件/数据对象建立相应的标准待清除数据对象特征集模型,并基于对不同类型、不同格式文件的分析,提取并收集相关的特征信息,其包含文件后缀、编码规则、文件大小级别等,再将收集到的特征信息进行规范化,整合成为数据对象的特征数据,接着根据这些特征数据设计进行信息清除实验,研究不同数据对象特征数据对应的最佳信息清除方案参数,将以上数据对象的特征数据、对应的信息清除方案参数整合为一个待清除数据对象特征案例存储于待清除数据对象特征数据库中,形成基础的电子设备待清除数据对象特征数据库;
步骤2、通过待清除数据扫描及数据对象识别模块,在信息清除过程中,对待清除废旧电子设备的待清除数据进行全盘扫描,获取待清除数据包,对待清除数据包进行解析,形成待清除数据对象集,并对其进行逐一初步识别,即基于文件后缀等文件基础属性识别文件格式;
步骤3、通过特征数据比对与匹配模块,对待清除数据对象集中各数据对象进行特征数据提取,根据提取到的数据对象特征数据与初步识别到文件格式的特征数据进行比对,若比对后的差异值在允许范围内,则确认数据对象的文件格式,并输出相应的信息清除方案参数;否则,需基于待清除数据对象与数据对象特征数据库中案例进行特征数据匹配;根据提取到的待清除数据对象特征数据与数据对象特征数据库中案例进行特征数据匹配,若匹配到相似案例,则输出该案例对应的信息清除方案参数;否则,将该数据对象视为未知案例进行进行未知案例提取;
步骤4、通过未知案例提取模块,对待清除数据对象进行特征数据提取,并相应的修改或添加特征集模型;
步骤5、通过未知案例更新模块,将提取到的案例的特征数据存储于数据对象特征数据库,并向数据对象特征数据库修改/添加相应特征集模型;
其中,待清除数据对象集中包含一系列的数据对象,以上每个步骤需按照数据对象顺序依次进行并标记。
2.如权利要求1所述的数据对象特征数据库的构建及更新方法,其特征在于,步骤2具体为:
首先,利用数据提取器对通过硬件连接的废旧电子设备进行扫描,提取其待清除数据包,提取的待清除数据包包含数据对象的有效数据、属性信息以及其存储地址等信息;
接着,对待清除数据包进行初步解析,根据一定准则将待清除数据包划分为一个个待清除数据对象,分析各个数据对象是否经压缩、加密等处理,并根据分析结果对数据对象进行标记,形成待清除数据对象集;
然后,对经过初步解析后形成的待清除数据对象集进行数据对象格式匹配,即根据每个数据对象属性信息中的文件后缀信息与数据对象特征数据库中案例进行匹配,若匹配到相同案例,则将该案例的特征数据视为该待清除数据对象的初始特征数据,为避免因恶意篡改数据对象属性而造成的匹配错误,需进一步进行特征数据的比对,输出该待清除数据对象及其初始特征数据;若未匹配到相同案例,则认为数据库中不存在该待清除数据对象格式,为避免因恶意篡改数据对象属性而造成的识别错误,需进一步通过待清除数据对象特征数据进行相似案例匹配,输出该待清除数据对象;该过程存在匹配到和未匹配到相同案例的情况,均需进一步根据特征数据进行对比/匹配处理,综合两种情况考虑,在未匹配到相同案例的情况下,也输出相应的初始特征数据,但该初始特征数据均设置为默认值,在特征数据比对时,差异值必超出允许范围,从而进行特征数据匹配过程;根据以上描述,对整个待清除数据对象集进行基于格式的匹配,获取对应的待清除数据对象初始特征数据集,故该模块最终输出待清除数据对象集及其应的初始特征数据集;
其中,若待清除数据对象是经过压缩/加密等处理的,则根据压缩/加密前的数据对象格式进行格式匹配。
3.如权利要求2所述的数据对象特征数据库的构建及更新方法,其特征在于,步骤3具体为:
首先,根据待清除数据对象初始特征集的特征集模型,建立特征数据提取器,将待清除数据对象的有效数据进行归类整理、分析提取形成标准格式的特征数据;具体地,若存在提取不到的特征项,则将其值设定为默认值;
接着,基于初始特征集对应的标准特征集模型,对提取到的特征数据与匹配到的初始特征数据进行比对,该过程在特征数据比对器中进行;根据标准特征集模型提取并构建出进行比对的标准实际特征数据和标准初始特征数据,这些特征数据均表现为规范化数据,可直接依据特征数据比对器中规则进行数值或字符比较,特征数据比对器根据各项比对结果及相应规则计算出综合差异值;若该差异值在允许范围内,则认为匹配到的初始特征数据符合实际待清除数据对象特征,将初始特征数据作为该待清除数据对象的实际特征数据,并将匹配到的案例对应的信息清除方案参数,及由该待清除数据对象的大小和存储地址等组成的信息清除方案参数进行输出;若差异值超出允许范围,则认为匹配到的初始特征数据不符合实际待清除数据对象特征,需要依据提取到的特征数据与数据对象特征数据库中的案例进行特征数据匹配;
接着,在特征数据匹配器中,逐一调取数据对象特征数据库中案例,将案例对应的特征集依据标准特征集模型进行简化,再进行逐一的相似性比对,若可以匹配到差异值在允许范围内的相似案例,选择差异值最小的案例的特征数据作为该待清除数据对象的特征数据,并将该案例对应的信息清除方案参数,及由该待清除数据对象的大小和存储地址组成的信息清除方案参数进行输出;若未匹配到相似案例,则将该待清除数据对象特征视为未知案例,需建立新的案例进行描述,所以将未知数据对象作为输出,进行进一步的未知案例提取,同时,赋予待清除数据对象以默认信息清除方案参数,结合由其大小和存储地址等组成的信息清除方案参数进行输出;
根据以上所述,对待清除数据对象集的所有数据对象进行特征数据比对或特征数据匹配,将最终形成的信息清除方案参数集进行统一输出,其中,若待清除数据对象经过压缩处理,则将数据对象解压后进行基于特征数据的比对/匹配,输出基于压缩后数据对象的信息清除方案参数;若待清除数据对象经过加密处理,所以赋予其默认的信息清除方案参数。
4.如权利要求3所述的数据对象特征数据库的构建及更新方法,其特征在于,步骤5具体为:
首先,在初始特征集的基础上添加其他特征项;从待数据对象特征数据库中调取未知案例提取模块匹配到的标准模型对应的所有衍生模型的特征项,依据衍生模型的特征项从案例剩余信息中提取对应的特征数据值,并将可提取的特征项添加至初始特征集模型中,由此依据所有衍生模型添加特征项后,可获得修正后的特征集模型,且其对应的特征数据也已经提取完成;经过模型修正后,若还存在其他未被提取的案例剩余信息,则将其整理后存放于数据隔离区,并索引至该新案例;
接着,将已修正的特征集模型与上述的所有衍生模型进行比较,以确定该案例的最终特征集,指导更新待清除数据对象特征数据库;采用已修正的特征集模型逐一与所有衍生模型进行特征项的比较,确定其包含关系,
1)若存在一个衍生模型与已修正的特征集模型的所有特征项相同,则直接将该衍生模型作为该案例的最终特征集模型;
2)若存在一个衍生模型包含已修正的特征集模型的所有特征项,则将该衍生模型作为该案例的最终特征集模型,将未知的特征项的值设定为默认值;
3)若存在一个衍生模型包含于已修正的特征集模型的所有特征项,则依照已修正的特征集模型对待清除数据对象特征数据库中该衍生模型进行修正,数据库中与该衍生模型对应的所有案例的新增特征项的值均设定为默认值;
4)若所有衍生模型与已修正的特征集模型的特征项都是交叉关系,则将该已修正的特征集模型作为新衍生模型添加至待清除数据对象特征数据库;
最后,通过案例添加/更新机制对待清除数据对象特征数据库实现上述相应操作,同时向后台发送提示,通过信息清除实验研究并完善该案例对应的最佳信息清除方案参数。
CN202010644589.4A 2020-07-07 2020-07-07 一种数据对象特征数据库的构建及更新方法 Active CN111858549B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010644589.4A CN111858549B (zh) 2020-07-07 2020-07-07 一种数据对象特征数据库的构建及更新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010644589.4A CN111858549B (zh) 2020-07-07 2020-07-07 一种数据对象特征数据库的构建及更新方法

Publications (2)

Publication Number Publication Date
CN111858549A true CN111858549A (zh) 2020-10-30
CN111858549B CN111858549B (zh) 2022-05-24

Family

ID=73152350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010644589.4A Active CN111858549B (zh) 2020-07-07 2020-07-07 一种数据对象特征数据库的构建及更新方法

Country Status (1)

Country Link
CN (1) CN111858549B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101174316A (zh) * 2006-11-02 2008-05-07 中国移动通信集团公司 一种基于案例树进行案例推理的装置及方法
CN101620618A (zh) * 2009-07-24 2010-01-06 中兴通讯股份有限公司 内存存储数据的维护方法与装置
EP2391075A1 (en) * 2010-05-28 2011-11-30 Prim'Vision System and method for non intrusive delivery of messages to a device
CN110866291A (zh) * 2019-11-15 2020-03-06 北京工业大学 一种基于双重安全机制的废旧电子产品信息清除方法
CN110866279A (zh) * 2019-11-15 2020-03-06 北京工业大学 一种基于废旧电子产品特征的信息清除参数获取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101174316A (zh) * 2006-11-02 2008-05-07 中国移动通信集团公司 一种基于案例树进行案例推理的装置及方法
CN101620618A (zh) * 2009-07-24 2010-01-06 中兴通讯股份有限公司 内存存储数据的维护方法与装置
EP2391075A1 (en) * 2010-05-28 2011-11-30 Prim'Vision System and method for non intrusive delivery of messages to a device
CN110866291A (zh) * 2019-11-15 2020-03-06 北京工业大学 一种基于双重安全机制的废旧电子产品信息清除方法
CN110866279A (zh) * 2019-11-15 2020-03-06 北京工业大学 一种基于废旧电子产品特征的信息清除参数获取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
侯玉梅: "基于案例推理法研究综述", 《燕山大学学报》 *

Also Published As

Publication number Publication date
CN111858549B (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
CN106572117B (zh) 一种WebShell文件的检测方法和装置
KR100932537B1 (ko) 이미지 필터를 이용한 포렌식 증거 분석 시스템 및 방법
CN107797916B (zh) Ddl语句审核方法和装置
CN110727643B (zh) 一种基于机器学习的文件分类管理方法及系统
CN111858550B (zh) 一种固件系统特征数据库的构建及更新方法
CN114564740A (zh) 大数据匿名化处理方法及大数据处理设备
CN113239365B (zh) 一种基于知识图谱的漏洞修复方法
CN110866279A (zh) 一种基于废旧电子产品特征的信息清除参数获取方法
CN112765673A (zh) 一种敏感数据统计方法及相关装置
CN113704328A (zh) 基于人工智能的用户行为大数据挖掘方法及系统
CN111858549B (zh) 一种数据对象特征数据库的构建及更新方法
CN106156046B (zh) 一种信息化管理方法、装置、系统及分析设备
CN113297583B (zh) 漏洞风险分析方法、装置、设备及存储介质
CN108563751A (zh) 数据库碎片提取方法
CN114003737A (zh) 基于人工智能的双录审查辅助方法、装置、设备及介质
CN112686029A (zh) 用于数据库审计系统的sql新语句识别方法及装置
CN113407495A (zh) 一种基于simhash的文件相似度判定方法及系统
CN112597498A (zh) 一种webshell的检测方法、系统、装置及可读存储介质
CN113065130A (zh) 一种日志分类方法及相关装置
CN115622818B (zh) 一种网络攻击数据处理方法及装置
CN111858548B (zh) 一种存储介质特征数据库的构建及更新方法
CN116450745B (zh) 基于多设备的笔记文件操作方法、系统和可读存储介质
JP6952090B2 (ja) 生成装置、プログラム、及び生成方法
CN114996290B (zh) 基于云计算的软件开发应用数据处理方法及软件开发平台
Tuttle et al. Reverse engineering for mobile systems forensics with Ares

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant