CN108536845A - 残缺数据库文件检验方法 - Google Patents

残缺数据库文件检验方法 Download PDF

Info

Publication number
CN108536845A
CN108536845A CN201810336702.5A CN201810336702A CN108536845A CN 108536845 A CN108536845 A CN 108536845A CN 201810336702 A CN201810336702 A CN 201810336702A CN 108536845 A CN108536845 A CN 108536845A
Authority
CN
China
Prior art keywords
data
database
extraction
recovery
library file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810336702.5A
Other languages
English (en)
Inventor
秦玉海
徐国天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHINA COLLEGE OF CRIMINAL POLICE
Original Assignee
CHINA COLLEGE OF CRIMINAL POLICE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHINA COLLEGE OF CRIMINAL POLICE filed Critical CHINA COLLEGE OF CRIMINAL POLICE
Priority to CN201810336702.5A priority Critical patent/CN108536845A/zh
Publication of CN108536845A publication Critical patent/CN108536845A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属信息安全技术领域,尤其涉及一种残缺数据库文件检验方法,包括如下步骤:A、提取系统数据存储文件,确定数据库中的系统表;B、分析数据库所有表中每个记录的逻辑结构关系及数据存储格式,得到各个字段的具体信息和数据存储在表中的内容特征并记录;C、根据数据库存储的逻辑结构关系,得出数据恢复具体逻辑结构特征;D、按照数据提取逻辑算法在硬盘中提取特征数据,再将所述数据组成数据表形式,并进行提取;E、采用数据页定位、无日志恢复、提取和排序重组算法,自动恢复、提取、重组被删数据库文件残留在磁盘内的数据。本发明在“无日志”条件下,可有效完成数据信息恢复,具有涉案记录提取功能。

Description

残缺数据库文件检验方法
技术领域
本发明属信息安全技术领域,尤其涉及一种残缺数据库文件检验方法。
背景技术
当前数据库被应用在各个领域,数据库中存储的涉案信息在各类涉网案件办理过程中发挥了关键作用。例如网络传销案件中,传销团伙实际发展会员数量(去重之后)、发展会员的层级关系、平台的实际获利金额、核心会员的身份信息和联系方式,等涉案信息存储在传销平台数据库中。网络赌博案件中,用户的投注金额、账户资金流水额、涉赌人员身份信息及联系方式,等信息存储在赌博网站后台数据库中。各类经济案件中,涉案金额等关键信息保存在财务数据库中。基于伪基站的电信诈骗案件中,诈骗短信内容、编辑时间、实际发送数量和嫌疑人联系方式,等涉案信息保存在伪基站数据库中。研究网络犯罪案件涉案数据库的取证、分析方法对公安机关的电子数据检验鉴定工作有重要意义。
目前涉案数据库的检验鉴定工作存在以下问题:
1、在无日志或日志被清理情况下,无法有效恢复涉案数据库中被删除的涉案信息。
为了逃避法律的制裁,犯罪分子可能会恶意删除、修改涉案数据库中一些关键记录,通常情况下公安机关的电子数据检验人员会根据数据库的日志文件来恢复这些被删除和修改的数据记录;通过逐一分析恢复出的数据记录,办案人员可以从中找出与案件相关的线索。
但是目前的“数据库恢复”方法存在以下问题:① 在实际办案中,我们发现日志通常已被系统定期自动清理或删除。因此很多情况下,数据库中被删除的涉案记录几乎无法完整恢复。② 数据库的数据容量通常以GB为单位,庞大的数据量单纯依靠人工的方式逐一进行检查显然不符合实际。
2、被删数据库文件存储特征值被局部覆盖情况下,无法有效恢复数据库文件。
目前大型数据库管理系统(如Oracle、SQL Server)均具备独立的数据库文件,例如Oracle的system.dbf文件、SQL Server的master.mdf文件,数据库中所有数据记录均保存在这些数据库文件中。犯罪分子为了逃避法律的制裁,可能会将数据库文件删除或直接格式化硬盘。
现有文件恢复软件(如Final Data)采用的是通用恢复策略,而没有针对不同类型网络数据库的存储特点设计专门的恢复策略。因此在被删除数据库文件局部存储特征值被覆盖的情况下,现有取证系统无法有效恢复被删数据库文件。
3、现有的数据库取证分析方法效率较低,取证周期长。
早期网络数据库容量通常以MB为单位,编写简单的存储过程就可以对数据库进行取证分析。例如利用存储过程分析传销网站会员层级数量,整个分析过程不过十几分钟。但是,近几年出现的传销平台,数据库容量通常以GB,甚至TB为单位,急剧增加的数据量导致分析效率明显降低,分析周期显著增加。一个传销平台会员层级的统计操作可能需要十几天,甚至几十天才能完成。因此,研制基于多线程技术的高效率统计分析算法就显得尤为重要。
4、现场勘查过程中,涉案服务器直接断电,造成数据库文件损坏,无法正常使用的问题。
网络犯罪案件现场勘查过程中,办案人员经常采用直接断电的方式中止涉案服务器的运行。直接断电导致数据库未执行正常的关闭流程,内存中的数据页未及时写入硬盘、日志记录等操作未能正常完成。由于数据库文件损坏,无法正常启动,造成数据库内存储的海量涉案信息无法提取。
5、涉案网络平台实际发展会员人数的准确认定问题。
网络犯罪案件中,涉案网络平台实际发展会员人数是案件定罪量刑的关键环节。嫌疑人辩护律师经常在这一方面提出质疑,认为存在同一人注册多个账户、同一人使用大量他人身份证号重复注册等问题。认为取证过程中统计出的会员数量并不能代表平台实际发展人数,实际人数无法认定,进而对案件的审理工作造成影响。
发明内容
本发明旨在克服现有技术的不足之处而提供一种在“无日志”条件下,解决涉案数据库内核心数据表定位和表内关键字段含义解析及现有的数据库取证分析方法效率较低,取证周期长等问题,可有效完成数据信息恢复,具有涉案记录提取功能的残缺数据库文件检验方法。
为解决上述技术问题,本发明是这样实现的:
一种残缺数据库文件检验方法,按如下步骤依次进行:
A、提取系统数据存储文件,确定数据库中的系统表;
B、分析数据库所有表中每个记录的逻辑结构关系及数据存储格式,得到各个字段的具体信息和数据存储在表中的内容特征并记录;
C、根据数据库存储的逻辑结构关系,得出数据恢复具体逻辑结构特征;
D、按照数据提取逻辑算法在硬盘中提取特征数据,再将所述数据组成数据表形式,并进行提取;
E、采用数据页定位、无日志恢复、提取和排序重组算法,自动恢复、提取、重组被删数据库文件残留在磁盘内的数据。
作为一种优选方案,本发明完成E步骤后,通过海量会员信息层级统计及关键词自动搜索算法对恢复后的数据进行处理。
进一步地,本发明完成E步骤后,通过海量用户信息的自动化去重统计算法对恢复后的数据进行处理。依据数据库内记录的用户登录IP地址、会员注册时使用的身份证号、银行卡号、姓名及手机号码关键信息实现自动关联去重,通过数据集交叉计算,统计最小集合。
本发明针对当前应用最广泛的网络数据库系统(即Oracle、SQL Server、MYSQL)展开研究,数据库碎片提取方法可实现以下主要功能。
(1)可以在“无日志”条件下,恢复数据库中被删除和修改的数据记录。
(2)可以直接从硬盘分区中恢复被删除的数据库文件。
(3)可以对残缺数据库文件进行取证,从中提取出有价值的数据信息。
(4)可以在数据库中按照“关键字”自动搜索特定信息。
(5)可以实现涉网案件海量会员信息层级关系的自动统计。
(6)可以实现涉案平台实际发展会员人数的计算。
附图说明
下面结合附图和具体实施方式对本发明作进一步说明。本发明的保护范围不仅局限于下列内容的表述。
图1为本发明残缺数据库文件检验方法流程框图。
具体实施方式
如图1所示,残缺数据库文件检验方法,按如下步骤依次进行:
A、提取系统数据存储文件,确定数据库中的系统表;
B、分析数据库所有表中每个记录的逻辑结构关系及数据存储格式,得到各个字段的具体信息和数据存储在表中的内容特征并记录;
C、根据数据库存储的逻辑结构关系,得出数据恢复具体逻辑结构特征;
D、按照数据提取逻辑算法在硬盘中提取特征数据,再将所述数据组成数据表形式,并进行提取;
E、采用数据页定位、无日志恢复、提取和排序重组算法,自动恢复、提取、重组被删数据库文件残留在磁盘内的数据。
本发明主要用于网络犯罪案件涉案数据库的取证分析工作。主要解决问题包括。
(1)设计了一种数据页定位、提取和排序重组算法,可自动提取、重组被删数据库文件残留在磁盘内的数据碎片。解决了数据库碎片无法有效提取的问题。
(2)设计了残缺、破损数据库文件取证方法。解决现场勘查过程中,涉案服务器直接断电,造成数据库文件损坏,无法正常使用的问题。
(3)设计了“无日志”条件下,数据表中被删记录的恢复算法。解决“无日志”或日志被清理条件下,数据记录的有效恢复问题。
(4)设计了涉网案件海量会员信息层级统计和关键词自动搜索算法,显著提高了办案效率、缩短了取证周期。
(5)设计了海量用户信息的自动化去重统计算法,解决涉案平台实际发展会员人数的准确认定问题。
本发明主要设计核心。
(1)在“无日志”条件下,完成数据信息恢复。
现有数据库恢复软件是通过日志文件来恢复用户对数据表执行的增、删、改操作,但当无日志或日志被清理的情况下,现有软件无法恢复出数据表中被删除和修改的数据记录。本发明可在无日志条件下,直接从数据库文件中恢复出被删除和修改数据记录。
(2)根据“数据页”硬盘存储特征值恢复被删除的数据库文件。
现有的数据恢复软件(如FinalData 和 EasyRecovery)是根据硬盘分区(如NTFS、EXT3)的地址链表和文件头部的特征签名来完成数据恢复。在文件被删除之后,随着计算机的使用、这两个关键信息很可能遭到破坏,这时即使被删除文件的大部分数据仍然残留在硬盘空间内,现有恢复软件也无法完成数据恢复。本发明可在硬盘分区关键信息被破坏、现有工具无法恢复的情况下,根据“数据页”存储特征来恢复被删除的数据库文件。
(3)对残缺数据库文件进行取证分析。
数据库文件被删除之后,随着涉案计算机的使用,其占用的部分存储空间通常会被其它文件覆盖。这时,现有软件最多只能恢复出一个内容残缺不全、无法正常使用的数据库文件。目前办案人员无法从这类残缺数据库文件中提取出有价值的数据记录。本发明可对残缺数据库文件进行修复,从中提取出有价值的数据信息,解决目前残缺数据库文件无法进行取证分析的问题。
(4)设计了海量用户信息的自动化去重统计算法,解决涉案平台实际发展会员人数的准确认定问题。
网络犯罪案件中,涉案网络平台实际发展会员人数是案件定罪量刑的关键环节。嫌疑人辩护律师经常在这一方面提出质疑,认为存在同一人注册多个账户、同一人使用大量他人身份证号重复注册等问题。认为取证过程中统计出的会员数量并不能代表平台实际发展人数,实际人数无法认定。 本发明可以依据数据库内记录的用户登录IP地址、会员注册时使用的身份证号、银行卡号、姓名、手机号码,等关键信息实现自动关联去重,通过数据集交叉计算,统计最小集合,进而实现人数统计。
可以理解地是,以上关于本发明的具体描述,仅用于说明本发明而并非受限于本发明实施例所描述的技术方案,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换,以达到相同的技术效果;只要满足使用需要,都在本发明的保护范围之内。

Claims (3)

1.一种残缺数据库文件检验方法,其特征在于,按如下步骤依次进行:
A、提取系统数据存储文件,确定数据库中的系统表;
B、分析数据库所有表中每个记录的逻辑结构关系及数据存储格式,得到各个字段的具体信息和数据存储在表中的内容特征并记录;
C、根据数据库存储的逻辑结构关系,得出数据恢复具体逻辑结构特征;
D、按照数据提取逻辑算法在硬盘中提取特征数据,再将所述数据组成数据表形式,并进行提取;
E、采用数据页定位、无日志恢复、提取和排序重组算法,自动恢复、提取、重组被删数据库文件残留在磁盘内的数据。
2.根据权利要求1所述的残缺数据库文件检验方法,其特征在于:完成E步骤后,通过海量会员信息层级统计及关键词自动搜索算法对恢复后的数据进行处理。
3.根据权利要求1所述的残缺数据库文件检验方法,其特征在于:完成E步骤后,通过海量用户信息的自动化去重统计算法对恢复后的数据进行处理;依据数据库内记录的用户登录IP地址、会员注册时使用的身份证号、银行卡号、姓名及手机号码关键信息实现自动关联去重,通过数据集交叉计算,统计最小集合。
CN201810336702.5A 2018-04-16 2018-04-16 残缺数据库文件检验方法 Pending CN108536845A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810336702.5A CN108536845A (zh) 2018-04-16 2018-04-16 残缺数据库文件检验方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810336702.5A CN108536845A (zh) 2018-04-16 2018-04-16 残缺数据库文件检验方法

Publications (1)

Publication Number Publication Date
CN108536845A true CN108536845A (zh) 2018-09-14

Family

ID=63481197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810336702.5A Pending CN108536845A (zh) 2018-04-16 2018-04-16 残缺数据库文件检验方法

Country Status (1)

Country Link
CN (1) CN108536845A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175087A (zh) * 2019-05-20 2019-08-27 中国刑事警察学院 一种Office文件数据分片修复方法
CN110727532A (zh) * 2019-09-25 2020-01-24 武汉奥浦信息技术有限公司 一种数据修复方法、电子设备及存储介质
CN112541149A (zh) * 2020-12-18 2021-03-23 厦门市美亚柏科信息股份有限公司 一种用于手机网页内容的恢复方法和系统
CN113157704A (zh) * 2021-05-06 2021-07-23 成都卫士通信息产业股份有限公司 层级关系分析方法、装置、设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876996A (zh) * 2009-12-01 2010-11-03 广州从兴电子开发有限公司 一种内存数据库到文件数据库的数据同步方法及系统
CN105068888A (zh) * 2015-08-03 2015-11-18 四川效率源信息安全技术有限责任公司 一种基于Oracle数据库的数据恢复方法
CN105808595A (zh) * 2014-12-31 2016-07-27 北京航天测控技术有限公司 一种规范文件的数据库生成方法及装置
CN107066616A (zh) * 2017-05-09 2017-08-18 北京京东金融科技控股有限公司 用于账号处理的方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876996A (zh) * 2009-12-01 2010-11-03 广州从兴电子开发有限公司 一种内存数据库到文件数据库的数据同步方法及系统
CN105808595A (zh) * 2014-12-31 2016-07-27 北京航天测控技术有限公司 一种规范文件的数据库生成方法及装置
CN105068888A (zh) * 2015-08-03 2015-11-18 四川效率源信息安全技术有限责任公司 一种基于Oracle数据库的数据恢复方法
CN107066616A (zh) * 2017-05-09 2017-08-18 北京京东金融科技控股有限公司 用于账号处理的方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宋鹏: "电子证据在网络传销案件侦查中的运用", 《湖南警察学院学报》 *
徐国天: "电子商务平台数据库恢复软件的开发与应用", 《信息网络安全》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175087A (zh) * 2019-05-20 2019-08-27 中国刑事警察学院 一种Office文件数据分片修复方法
CN110175087B (zh) * 2019-05-20 2023-04-11 中国刑事警察学院 一种Office文件数据分片修复方法
CN110727532A (zh) * 2019-09-25 2020-01-24 武汉奥浦信息技术有限公司 一种数据修复方法、电子设备及存储介质
CN112541149A (zh) * 2020-12-18 2021-03-23 厦门市美亚柏科信息股份有限公司 一种用于手机网页内容的恢复方法和系统
CN112541149B (zh) * 2020-12-18 2022-07-08 厦门市美亚柏科信息股份有限公司 一种用于手机网页内容的恢复方法和系统
CN113157704A (zh) * 2021-05-06 2021-07-23 成都卫士通信息产业股份有限公司 层级关系分析方法、装置、设备及计算机可读存储介质
CN113157704B (zh) * 2021-05-06 2023-07-25 成都卫士通信息产业股份有限公司 层级关系分析方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN108536845A (zh) 残缺数据库文件检验方法
Nguyen et al. Automatic image filtering on social networks using deep learning and perceptual hashing during crises
CN102929901B (zh) 提高数据仓库性能的方法和装置
CN101222348B (zh) 统计网站真实用户的方法及系统
CN107437038B (zh) 一种网页篡改的检测方法及装置
US20070226095A1 (en) Method for generating predictive models for a business problem via supervised learning
CN104731977B (zh) 电话号码数据的发现与分类方法
Goldberg et al. Restructuring transactional data for link analysis in the FinCEN AI system
CN112559771A (zh) 基于知识图谱的资金交易智能监测方法及监测系统
CN106844588A (zh) 一种基于网络爬虫的用户行为数据的分析方法及系统
CN113204603B (zh) 金融数据资产的类别标注方法及装置
CN103167202A (zh) 一种不同源话单稽核方法和装置
CN106650961A (zh) 智慧城市桥梁数字化管养云平台系统
CN109033351A (zh) 案情数据的归并方法及装置
CN108563751A (zh) 数据库碎片提取方法
Kale et al. Classification of fraud calls by intent analysis of call transcripts
CN112363996B (zh) 用于建立电网知识图谱的物理模型的方法及系统和介质
CN105207831B (zh) 操作事件的检测方法和装置
CN109446167A (zh) 一种日志数据存储、提取方法及装置
CN106156046B (zh) 一种信息化管理方法、装置、系统及分析设备
CN111563256A (zh) 一种安全的大数据收集存放方法
CN115640158A (zh) 一种基于数据库的检测分析方法及装置
Wei et al. Location-based event detection using geotagged semantic graphs
CN110111109A (zh) 一种基于大数据的金融反欺诈分析方法
Adderley et al. The effects of deprivation on the time spent examining crime scenes and the recovery of DNA and fingerprints

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180914

RJ01 Rejection of invention patent application after publication