CN114140674A - 结合图像处理及数据挖掘技术的电子证据可用性鉴别方法 - Google Patents

结合图像处理及数据挖掘技术的电子证据可用性鉴别方法 Download PDF

Info

Publication number
CN114140674A
CN114140674A CN202111218360.5A CN202111218360A CN114140674A CN 114140674 A CN114140674 A CN 114140674A CN 202111218360 A CN202111218360 A CN 202111218360A CN 114140674 A CN114140674 A CN 114140674A
Authority
CN
China
Prior art keywords
picture
pictures
identified
screening
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111218360.5A
Other languages
English (en)
Other versions
CN114140674B (zh
Inventor
张有为
薛兵
辜钰婷
葛方丽
郭赵飞
耿政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Xinda Institute of Advanced Technology
Original Assignee
Zhengzhou Xinda Institute of Advanced Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Xinda Institute of Advanced Technology filed Critical Zhengzhou Xinda Institute of Advanced Technology
Priority to CN202111218360.5A priority Critical patent/CN114140674B/zh
Publication of CN114140674A publication Critical patent/CN114140674A/zh
Application granted granted Critical
Publication of CN114140674B publication Critical patent/CN114140674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/587Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Fuzzy Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种结合图像处理及数据挖掘技术的电子证据可用性鉴别方法,所述方法包括以下步骤:步骤1,从嫌疑人的存储介质中恢复出已删除的图片,将恢复图片中的模糊图片作为待识别图片;步骤2,提取待识别图片中的关键信息;步骤3,从公众资源中爬取与所述待识别图片类似的图片;步骤4,利用Hadoop从所述第一组筛选图片中筛选出第二组筛选图片;步骤5,利用SURF算法对所述第二组筛选图片进行匹配,并将匹配出的图片作为第三组筛选图片;步骤6,利用SIFT算法对所述第三组筛选图片和所述待识别图片进行匹配,并将匹配出的图片作为关联图片;步骤7,根据所述关联图片与所述待识别图片之间的相似度,鉴别待识别图片的可用性。

Description

结合图像处理及数据挖掘技术的电子证据可用性鉴别方法
技术领域
本发明涉及电子取证技术领域,具体的说,涉及了一种结合图像处理及数据挖掘技术的电子证据可用性鉴别方法。
背景技术
电子取证是指利用计算机软硬件技术,以符合法律规范的方式对计算机入侵、破坏、欺诈、攻击等犯罪行为进行证据获取、保存、分析和出示的过程。从技术方面看,计算机犯罪取证是一个对受侵计算机系统进行扫描和破解,对入侵事件进行重建的过程。具体而言,是指把计算机看作犯罪现场,运用先进的辨析技术,对计算机犯罪行为进行解剖,搜寻罪犯及其犯罪证据。
电子取证中的数据恢复技术,能够将基于用户层次删除的文件进行恢复,由此使得被找回的文件可以作为证据起到重要的作用。
现有的数据恢复技术能够提供存储介质中照片、视频等恢复能力,但是对于有些损坏的文件(如图片、视频等),往往恢复后是损坏的(图片在存储介质上是以二进制存储,恢复后图片打不开,或者只有一部分显示),或者拍摄的图像本身就非常模糊,往往会认为不具有取证价值。
然而,这部分恢复后的照片,往往可能为最终破案提供关键信息,尤其嫌疑人自己拍摄的照片(可能包含现场踩点时拍摄的照片);但是,恢复后的照片可能是模糊的、海量的,如何快速且准确进行证据可用性识别成为亟待解决的问题。
为了解决以上存在的问题,人们一直在寻求一种理想的技术解决方案。
发明内容
本发明的目的是针对现有技术的不足,从而提供一种结合图像处理及数据挖掘技术的电子证据可用性鉴别方法及系统。
为了实现上述目的,本发明所采用的技术方案是:
本发明第一方面提供一种结合图像处理及数据挖掘技术的电子证据可用性鉴别方法,所述方法包括以下步骤:
步骤1,从嫌疑人的存储介质中恢复出已删除的图片,将恢复图片中的模糊图片作为待识别图片;
步骤2,提取待识别图片中的关键信息,所述关键信息包括关键时间段、关键地点范围和图像掩码模板;
步骤3,基于所述关键时间段、所述关键地点范围和所述图像掩码模板,从公众资源中爬取与所述待识别图片类似或者有关联的图片;
将爬取的图片作为第一组筛选图片,并将所述第一组筛选图片和对应的描述信息关联存储;
步骤4,基于所述关键时间段和所述关键地点范围,利用Hadoop从所述第一组筛选图片中筛选出第二组筛选图片;
步骤5,利用SURF算法对所述第二组筛选图片和所述待识别图片进行匹配,并将匹配出的图片作为第三组筛选图片;
步骤6,利用SIFT算法对所述第三组筛选图片和所述待识别图片进行匹配,并将匹配出的图片作为关联图片;
步骤7,根据所述关联图片与所述待识别图片之间的相似度,鉴别待识别图片的可用性。
本发明第二方面提供一种结合图像处理及数据挖掘技术的电子证据可用性鉴别系统,所述系统包括数据恢复模块、关键信息提取模块、网络爬取模块、第一筛选模块、第二筛选模块、第三筛选模块和第一识别模块;
所述数据恢复模块,用于从嫌疑人的存储介质中恢复出已删除的图片,将恢复图片中的模糊图片作为待识别图片;
所述关键信息提取模块,用于提取待识别图片中的关键信息,所述关键信息包括关键时间段、关键地点范围和图像掩码模板;
所述网络爬取模块,用于基于所述关键时间段、所述关键地点范围和所述图像掩码模板,从公众资源中爬取与所述待识别图片类似或者有关联的图片;以及用于将爬取的图片作为第一组筛选图片,并将所述第一组筛选图片和对应的描述信息关联存储;
所述第一筛选模块,用于基于所述关键时间段和所述关键地点范围,利用Hadoop从所述第一组筛选图片中筛选出第二组筛选图片;
所述第二筛选模块,用于利用SURF算法对所述第二组筛选图片和所述待识别图片进行匹配,并将匹配出的图片作为第三组筛选图片;
所述第三筛选模块,用于利用SIFT算法对所述第三组筛选图片和所述待识别图片进行匹配,并将匹配出的图片作为关联图片;
所述第一识别模块,用于根据所述关联图片与所述待识别图片之间的相似度,鉴别待识别图片的可用性。
本发明相对现有技术具有突出的实质性特点和显著的进步,具体的说:
1)本发明提出一种结合图像处理及数据挖掘技术的电子证据可用性鉴别方法及系统,以从嫌疑人的存储介质中恢复出的模糊图片作为待识别图片,快速且准确地搜寻关联图片,基于所述关联图片与所述待识别图片之间的相似度,来鉴别所述待识别图片属于第一类数据、第二类数据还是第三类数据;
然后,根据所述待识别图片所属类别,对从嫌疑人的存储介质中恢复出的模糊图片进行快速且准确的证据可用性识别;
2)借助现有地图3D城市街景,对从嫌疑人的存储介质中恢复出的模糊图片进行证据可用性识别,从而使得证据可用性识别方法更加多样化;
同时,可以对两种证据可用性识别方法的鉴别结果进行比对,挑出二者结论一致的数据作为最终的鉴别结果,使得二者相互印证,从而保证鉴别结果的准确率。
附图说明
图1是本发明的电子证据可用性鉴别方法流程图一;
图2是本发明的电子证据可用性鉴别方法流程图二;
图3是本发明的精筛流程示意图;
图4是本发明的电子证据可用性鉴别方法的步骤1的流程示意图;
图5是实施例3中的电子证据可用性鉴别方法流程图;
图6是实施例5的电子证据可用性鉴别系统的结构示意图;
图7是实施例6的电子证据可用性鉴别系统的结构示意图。
具体实施方式
下面通过具体实施方式,对本发明的技术方案做进一步的详细描述。
实施例1
如附图1和附图2所示,一种结合图像处理及数据挖掘技术的电子证据可用性鉴别方法,所述电子证据可用性鉴别方法包括以下步骤:
步骤1,从嫌疑人的存储介质中恢复出已删除的图片,将恢复图片中的模糊图片作为待识别图片;
步骤2,提取待识别图片中的关键信息,所述关键信息包括关键时间段、关键地点范围和图像掩码模板;
步骤3,基于所述关键时间段、所述关键地点范围和所述图像掩码模板,从公众资源中爬取与所述待识别图片类似或者有关联的图片;
将爬取的图片作为第一组筛选图片,并将所述第一组筛选图片和对应的描述信息关联存储在NAS(Network Attached Storage:网络附属存储)网络存储设备中;
步骤4,基于所述关键时间段和所述关键地点范围,利用Hadoop从所述第一组筛选图片中筛选出第二组筛选图片;
步骤5,利用SURF算法对所述第二组筛选图片和所述待识别图片进行匹配,并将匹配出的图片作为第三组筛选图片;
步骤6,利用SIFT算法对所述第三组筛选图片和所述待识别图片进行匹配,并将匹配出的图片作为关联图片;
步骤7,根据所述关联图片与所述待识别图片之间的相似度,鉴别待识别图片的可用性。
需要说明的是,从嫌疑人的存储介质中恢复出的图片有些是不清晰的,考虑到速度、效果、代码实现的难易度等方面,本实施例采用直方图均衡算法、分水岭算法、高斯滤波、小波变换或者行人检测算法等,对于恢复图片中的模糊图片的关键信息进行提取,以恢复出的图片或者恢复出的图片部分RAW(CMOS或者CCD图像感应器将捕捉到的光源信号转化为数字信号的原始数据)数据(即先决条件中的模糊图像或者是恢复的部分损坏的图片)为输入参数,以图像掩码模板(图片特征的掩模图)为输出;
可以理解,图像掩码模板(图片特征的掩模图)可能对图片进行区域划分,图片上不同区域特征值不同,之所以这样区域划分是为了将来在匹配时候能够从海量图片样本中提取相似度更高的图片。
具体的,所述嫌疑人的存储介质可以为U盘和电脑硬盘,也可以为智能手机、智能手表、相机、可拍照的无人机等设备中存储模块;所述图像掩码模板包括图片上的关键特征(可能是背景、建筑物、路牌、广告牌等等)。
所述公众资源指的是网络上的资源,具体包括贴吧、微博、公众号、论坛和博客等,所述第一组筛选图片对应的描述信息指的是图片拍摄时间、图片拍摄地点、图片拍摄角度等等,具体包括发布的说说、朋友圈、评论等。
具体的,所述步骤3中,以所述关键时间段、所述关键地点范围和所述图像掩码模板,作为网络爬虫的关键配置参数,对海量图片数据的爬虫和特征比对,调用数据挖掘引擎来爬取下载大致时间范围内和大致地理范围内的图片数据,大大缩短数据处理量。
需要说明的是,Hadoop针对文字类的大数据分析方面具有优势,适合于作为本申请特殊应用场景的大数据分析工具;所述步骤4中,利用Hadoop大数据分析工具进行初筛(粗筛),以图片特征的图像掩码模板(根据需要选择是否使用)、时间范围、地点范围、相似度阈值(可能对图片进行区域划分,根据区域的不同阈值不同)、自动匹配迭代时候的阈值自动调整范围等等,作为输入参数。粗筛(初筛)主要针对图片关联文字的信息(所述第一组筛选图片对应的描述信息)进行筛选,比如:案件发生在XX公园,则会针对此公园以及公园范围内的标志性建筑等等,针对这些文字对所述第一组筛选图片进行粗略的筛选。
可以理解,将所述第一组筛选图片和对应的描述信息(包含地址信息和时间信息),以及待识别图片对应的关键时间段和关键地点范围,作为输入进行时间匹配和地址匹配,从而获得时间相似度和地址相似度;若所述第一组筛选图片对应的描述信息时间信息落入待识别图片中的关键时间段内,或者描述信息包含地址信息落入关键地点范围内,则将对应的第一组筛选图片挑选出来。
利用Hadoop技术搭建的大数据分析工具进行粗筛(初筛)的优势在于:将所述第一组筛选图片和对应的描述信息分块存储至多个不同的计算单元,同时进行时间匹配和地址匹配,保证精确度的同时大大提高粗筛效率。
进一步的,根据筛选输出的第二组筛选图片的数量来调整相似度阈值,在第二组筛选图片的数量大于第一预设数据值时,自动以预设第一步进值增加相似度阈值;在第二组筛选图片的数量小于第二预设数据值时,自动以预设第二步进值降低相似度阈值;
其中,所述第一预设数据值大于所述第二预设数据值。
进一步的,所述步骤7中,根据所述关联图片与所述待识别图片之间的相似度,鉴别待识别图片的可用性时,执行:
若所述关联图片与所述待识别图片之间的相似度超过第一阈值,则判定所述待识别图片属于第一类数据,所述第一类数据用于证明嫌疑人在关键时间段出现在关键地点范围;
若所述关联图片与所述待识别图片之间的相似度超过第二阈值且未超过所述第一阈值,则判定所述待识别图片属于第二类数据,所述第二类数据用于作为案件侦查线索;
若所述关联图片与所述待识别图片之间的相似度未超过所述第二阈值,则判定所述识别待识别图片属于第三类数据;
其中,所述第一阈值>所述第二阈值。
需要说明的是,所述关联图片与所述待识别图片之间的相似度根据步骤6中的匹配结果获得,SIFT匹配算法会对输入的图片进行分析运算,输出相似度值(0~100范围)。
可以理解,本发明自动对嫌疑人的存储介质中图像数据进行恢复和关键信息提取,将网络爬取的类似或者关联图片作为第一组筛选图片,再针对第一组筛选图片进行一次粗略筛选、两次精细化筛选,从而获得一组关联图片;最后,获得关联图片与所述待识别图片之间相似度,确认待识别图片属于第一类数据、第二类数据还是第三类数据。
可以理解,SURF算法针对海量图片进行匹配,能够比其他算法进行匹配的速度快3、4倍,但是在小数据量精细化匹配方面不具有优势;相反,SIFT算法在图像关键信息匹配方面具有精细化匹配优势;因此,本发明采用SURF和SIFT算法相结合的方法实现两次精细化筛选。
具体的,利用SURF特征匹配算法对所述第二组筛选图片和所述待识别图片进行匹配时,执行:
步骤5.1,以所述第二组筛选图片和所述待识别图片作为输入,构建Hessian矩阵,生成SURF特征点;
步骤5.2,对所述第二组筛选图片和所述待识别图片进行尺度缩放,构建不同的尺度空间;
步骤5.3,对所述第二组筛选图片和所述待识别图片进行特征点定位后,进行特征点主方向匹配,得到每一个SURF特征点的主方向;
步骤5.4,生成对所述第二组筛选图片和所述待识别图片的特征点描述子,进行特征点匹配。
具体的,利用SIFT特征匹配算法对所述第三组筛选图片和所述待识别图片进行匹配时,执行:
步骤6.1,分别提取所述第三组筛选图片和所述待识别图片的特征点:
(1)构建尺度空间,检测所述第三组筛选图片和所述待识别图片的极值点,获得尺度不变性;(2)特征点过滤并进行精确定位;(3)为特征点分配方向值;(4)生成特征描述子,以特征点为中心取16*16的邻域作为采样窗口,将采样点与特征点的相对方向通过高斯加权后归入包含8个bin的方向直方图,最后获得4*4*8的128维特征描述子。由关键点领域梯度信息生成特征向量;
步骤6.2,获得所述第三组筛选图片和所述待识别图片的Sift特征向量之后,将关键点特征向量的欧式距离来作为两幅图像(所述第三组筛选图片中的某一幅图片和所述待识别图片)中关键点的相似性判定度量;
取所述待识别图片的某个关键点,通过遍历找到某个所述第三组筛选图片中的距离最近的两个关键点;在这两个关键点中,如果次近距离除以最近距离小于某个阈值,则判定为一对匹配点。
通过所述第三组筛选图片和所述待识别图片的特征点(附带上特征向量的关键点)的两两比较,找出相互匹配的若干对特征点;若匹配出的特征点数量超过预设值,则将对应的所述第三组筛选图片筛选出来。
两次精细化筛选过程如附图3所示,其中,SURF针对前期海量的图片进行快速的匹配,针对匹配过的数据,对于满足设定阈值的图像进行SIFT的精细化匹配,达到筛选速度快且准确度高的效果。
以往确定证据链的时候,可能需要几十个技术人员耗时数月进行图像、视频检索,本发明利用现代技术,能够生成一个对恢复的模糊图像匹配的具有关联关系的结论报告,提供给技术人员,结论可能包括:
1)经过数据分析找到第一类数据,能够印证该嫌疑人的证据链,具有特征相似度非常高的关联图片,通过图片能够确认嫌疑人出现在现场的确切时间、地点;
2)根据数据分析找到第二类数据,具有一定的相似度,但是与恢复的图像中的特征匹配度较低,仅能作为案件侦查线索;但第二类数据仍可以为技术人员提供侦破案件的思路;
3)根据数据分析找到均为第三类数据,即无法找到相关匹配图像,说明该次数据比对失败,恢复出的图片用处不大。
需要说明的是,嫌疑人可能事先去往事件发生区域踩点拍照,而踩点拍照的照片可以成为侦破案件的关键信息;然而,踩点拍照的图片往往被嫌疑人删除,虽然在电子取证过程中可以采用数据恢复技术对图片或视频进行恢复,但恢复出的图片有些是模糊的、拖影的,甚至已被损坏,无法辨识图片中有可能隐含真实有效信息;
针对上述问题,本发明利用图像处理、大数据分析等手段来进行检索比对,根据大数据的比对结果来印证恢复出的图片的关联信息,进而鉴别恢复图片中模糊图片的可用性。
实施例2
本实施例给出了几种获得待识别图片的具体实施方式:
(1)采用ACE、HRT等数据恢复工具对已删除的图片进行恢复,将恢复图片中的模糊图片作为待识别图片;
(2)如附图4所示,实际应用中,可能存在同一图片的图像数据在存储介质中不同位置连续存储的情况,对于这种情况,可以采用以下步骤来获得待识别图片:
先扫描嫌疑人的存储介质,得到同一图片在存储介质中不同位置连续存储的(残留的)图像数据,对得到的图像数据进行数据恢复,得到同一图片的多个残留的碎片;
对同一图片的多个残留的碎片进行图片重组,获得待识别图片;
(3)需要说明的是,对于有可能作为证据的图片(如踩点拍照的照片),嫌疑人一般会连续拍摄多张,这些连续拍摄的图片相似度比较高;且这些图片被删除的时间可能不是同一时间(删除时间不同,恢复出的图片质量一般不同),例如先前拍照时候认为拍摄不清晰的图片可能先被删除;对于这种情况,可以采用以下步骤来获得待识别图片:
采用ACE、HRT等数据恢复工具对已删除的图片进行恢复,获得多个恢复图片;
若基于文件大小和尺寸、位深、色调、饱和度和亮度等属性信息,能够筛选出多张属性相似的恢复图片,则说明被删除的图片里存在连续拍摄的图片;否则,说明被删除的图片里不存在连续拍摄的图片;
采用图像拼接技术对筛选出多张属性相似的恢复图片进行处理,将拼接后的图片中的模糊图片作为待识别图片;
(4)需要说明的是,对于有可能作为证据的图片(如踩点拍照的照片),嫌疑人还可能复制多次;复制多次的图片的删除时间,可能不是同一时间;因此,对于复制多次的同一个图片,即使删除之后,依旧会在存储介质中的不同位置留有痕迹;对于这种情况,可以采用以下步骤来获得待识别图片:
扫描嫌疑人的存储介质,得到残留的图像数据后;对残留的图像数据进行数据恢复,得到多个恢复图片;
若能够筛选出多张属性信息(文件大小和尺寸、位深、色调、饱和度、亮度或者色彩纹理特征等)一致的恢复图片,则被删除的图片里存在被复制多次的同一个图片;否则,说明被删除的图片里不存在被复制多次的同一个图片;
采用图像拼接技术对筛选出多张属性一致的模糊图片进行处理,将拼接后的图片中的模糊图片作为待识别图片。
需要说明的是,采用(2)至(4)的方法步骤,能够得到更为清晰、准确的待识别图片,能够大大提高电子证据可用性鉴别的精确度。
实施例3
为了使得证据可用性识别方法更加多样化,在上述实施例的基础上,本实施例给出了另一种电子证据可用性鉴别方法;
如附图5所示,所述结合图像处理及数据挖掘技术的电子证据可用性鉴别方法,还包括以下步骤:
获取预估的事件发生地大致范围,基于待识别图片的色彩度和地图数据,从事件发生地大致范围中确定目标区域;其中,所述目标区域指的是关键地点范围所在区域;
基于地图数据中的3D城市街景建立目标区域的3D彩色模型,结合关键时间段的天气状况获得渲染图片背景;
根据所述目标区域的3D彩色模型和所述渲染图片背景,生成多个角度的渲染图片;
根据所述渲染图片与所述待识别图片之间的相似度,鉴别待识别图片的可用性。
需要说明的是,可以采用SIFT匹配算法获得所述渲染图片与所述待识别图片之间的相似度,SIFT匹配算法会对输入的图片进行分析运算,输出相似度值(0~100范围)。
具体的,根据所述渲染图片与所述待识别图片之间的相似度,鉴别待识别图片的可用性时,执行:
若所述渲染图片与所述待识别图片之间的相似度超过第三阈值,则判定所述待识别图片属于第一类数据,所述第一类数据用于证明嫌疑人在关键时间段出现在关键地点范围;
若所述渲染图片与所述待识别图片之间的相似度超过第四阈值且未超过所述第三阈值,则判定所述待识别图片属于第二类数据,所述第二类数据用于作为案件侦查线索;
若所述渲染图片与所述待识别图片之间的相似度未超过所述第四阈值,则判定所述识别待识别图片属于第三类数据;
其中,所述第三阈值>所述第四阈值。
需要说明的是,地图数据中的3D城市街景中的建筑物等,一般是实地采集的,图像纹理特征接近于现实街景;因此,生成的渲染图片的图像纹理特征与现实街景类似。
可以理解,将基于地图数据生成对应位置的图片数据,作为类似数据,与恢复图片中的模糊图片进行对比(文字、轮廓等),在特征匹配度超过阈值时,判定恢复出的模糊图片中的静态关键特征(建筑物及关联关系)为地图数据中对应位置的静态关键特征(颜色特征、纹理特征、形状特征和空间关系特征等),嫌疑人确实曾经出现在该静态关键特征附近;例如,恢复的模糊图片中有个亭子轮廓、小桥轮廓等。
实施例4
本实施例与上述实施例的区别在于:所述步骤2中,提取待识别图片中的关键信息之前,还执行:
获取预估的事件发生地,基于预估出的事件发生地从地图数据中查找到对应的位置;
基于地图数据中的3D城市街景获取对应位置的图片数据,根据获取到的图片数据对所述待识别图片进行修正。
具体的,根据获取到的图片数据对所述待识别图片进行修正时,执行:
获取预估的大致范围,基于地图数据从大致范围中确定目标区域;
基于地图数据中的3D城市街景和建立目标区域的3D彩色模型,生成多个角度的目标区域图片;所述目标区域图片可以为此处范围内的标志性建筑、广告灯箱、路牌等,甚至可能会有相关的店铺门面、网红打卡地等等;
基于所述目标区域图片对所述待识别图片中残缺的部分进行修正。
需要说明的是,技术人员根据事件发生的情况,预估出事件发生地,基于预估出的事件发生地从地图数据中查找到对应的位置,基于地图数据生成对应位置的图片数据;基于该图片数据对第一步恢复出的图片、视频等进行修正、特征提取,以改善第一步数据恢复得到的数据,进而得到更为清晰、准确的关键信息,从而提高电子证据可用性鉴别的精确度。
实施例5
如附图6所示,在上述实施例的基础上,本实施例给出了一种结合图像处理及数据挖掘技术的电子证据可用性鉴别系统,所述电子证据可用性鉴别系统包括数据恢复模块、关键信息提取模块、网络爬取模块、第一筛选模块、第二筛选模块、第三筛选模块和第一识别模块;
所述数据恢复模块,用于从嫌疑人的存储介质中恢复出已删除的图片,将恢复图片中的模糊图片作为待识别图片;
所述关键信息提取模块,用于提取待识别图片中的关键信息,所述关键信息包括关键时间段、关键地点范围和图像掩码模板;
所述网络爬取模块,用于基于所述关键时间段、所述关键地点范围和所述图像掩码模板,从公众资源中爬取与所述待识别图片类似或者有关联的图片;以及用于将爬取的图片作为第一组筛选图片,并将所述第一组筛选图片和对应的描述信息关联存储;
所述第一筛选模块,用于基于所述关键时间段和所述关键地点范围,利用Hadoop从所述第一组筛选图片中筛选出第二组筛选图片;
所述第二筛选模块,用于利用SURF算法对所述第二组筛选图片和所述待识别图片进行匹配,并将匹配出的图片作为第三组筛选图片;
所述第三筛选模块,用于利用SIFT算法对所述第三组筛选图片和所述待识别图片进行匹配,并将匹配出的图片作为关联图片;
所述第一识别模块,用于根据所述关联图片与所述待识别图片之间的相似度,鉴别待识别图片的可用性。
进一步的,所述第一识别模块,具体用于:
若所述关联图片与所述待识别图片之间的相似度超过第一阈值,则判定所述待识别图片属于第一类数据,所述第一类数据用于证明嫌疑人在关键时间段出现在关键地点范围;
若所述关联图片与所述待识别图片之间的相似度超过第二阈值且未超过所述第一阈值,则判定所述待识别图片属于第二类数据,所述第二类数据用于作为案件侦查线索;
若所述关联图片与所述待识别图片之间的相似度未超过所述第二阈值,则判定所述识别待识别图片属于第三类数据,所述第三类数据不可用,可选择丢弃;
其中,所述第一阈值>所述第二阈值。
进一步的,所述数据恢复模块,具体用于:扫描得到嫌疑人的存储介质中残留的图像数据,对得到的原始数据进行数据恢复,得到同一图片的多个残留的碎片;通过同一图片的多个残留的碎片进行图片重组,获得待识别图片。
需要说明的是,本发明通过图像处理恢复出来一个包含关键点信息的图片,对恢复图片的关键特征建模,然后利用数据挖掘技术、网络爬虫等技术从博客、微博等公众网络上别人分享的图片上,找到与之前关键特征匹配的类似图片,通过对其他人分享的图片相关信息来帮助确定恢复图片的时间、地点、拍照角度等,基于比对结果得出相关证据,达到电子取证的目的;
即使是存储设备中被破坏的文件、图片、视频等恢复出的数据,也能够提供有力的辅助手段,帮助技术人员快速侦破案件,甚至对嫌疑人进行判罪处理,解决现实工作中的痛点。
实施例6
在实施例5的基础上,为了使得证据可用性识别方法更加多样化,所述电子证据可用性鉴别系统还包括第二识别模块,其用于:
获取预估的事件发生地大致范围,基于待识别图片的色彩度和地图数据,从事件发生地大致范围中确定目标区域;其中,所述目标区域指的是关键地点范围所在区域;
基于地图数据中的3D城市街景建立目标区域的3D彩色模型,结合关键时间段的天气状况获得渲染图片背景;
根据所述目标区域的3D彩色模型和所述渲染图片背景,生成多个角度的渲染图片;
根据所述渲染图片与所述待识别图片之间的相似度,鉴别待识别图片的可用性。
需要说明的是,所述第一识别模块输出第一鉴别结果,所述第二识别模块输出第二鉴别结果;一方面,可以根据相似度的大小选取第一鉴别结果或者第二鉴别结果作为最终的鉴别结果;例如,第二鉴别结果对应的相似度较低时,选择以第一鉴别结果作为最终的鉴别结果;
另一方面,为了提高鉴别结果的准确度,如附图7所示,系统还可以增设比对模块,对两种识别模块的鉴别结果进行比对,挑出二者结论一致的数据作为最终的鉴别结果,利用两种证据可用性识别方法的鉴别结果相互印证来保证最终鉴别结果的准确度。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。

Claims (6)

1.一种结合图像处理及数据挖掘技术的电子证据可用性鉴别方法,其特征在于,包括以下步骤:
步骤1,从嫌疑人的存储介质中恢复出已删除的图片,将恢复图片中的模糊图片作为待识别图片;
步骤2,提取待识别图片中的关键信息,所述关键信息包括关键时间段、关键地点范围和图像掩码模板;
步骤3,基于所述关键时间段、所述关键地点范围和所述图像掩码模板,从公众资源中爬取与所述待识别图片类似或者有关联的图片;
将爬取的图片作为第一组筛选图片,并将所述第一组筛选图片和对应的描述信息关联存储;
步骤4,基于所述关键时间段和所述关键地点范围,利用Hadoop从所述第一组筛选图片中筛选出第二组筛选图片;
步骤5,利用SURF算法对所述第二组筛选图片和所述待识别图片进行匹配,并将匹配出的图片作为第三组筛选图片;
步骤6,利用SIFT算法对所述第三组筛选图片和所述待识别图片进行匹配,并将匹配出的图片作为关联图片;
步骤7,根据所述关联图片与所述待识别图片之间的相似度,鉴别待识别图片的可用性。
2.根据权利要求1所述的结合图像处理及数据挖掘技术的电子证据可用性鉴别方法,其特征在于,步骤7中,根据所述关联图片与所述待识别图片之间的相似度,鉴别待识别图片的可用性时,执行:
若所述关联图片与所述待识别图片之间的相似度超过第一阈值,则判定所述待识别图片属于第一类数据,所述第一类数据用于证明嫌疑人在关键时间段出现在关键地点范围;
若所述关联图片与所述待识别图片之间的相似度超过第二阈值且未超过所述第一阈值,则判定所述待识别图片属于第二类数据,所述第二类数据用于作为案件侦查线索;
若所述关联图片与所述待识别图片之间的相似度未超过所述第二阈值,则判定所述识别待识别图片属于第三类数据;
其中,所述第一阈值>所述第二阈值。
3.根据权利要求2所述的结合图像处理及数据挖掘技术的电子证据可用性鉴别方法,其特征在于,还包括以下步骤:
基于地图数据中的3D城市街景建立目标区域的3D彩色模型,结合关键时间段的天气状况获得渲染图片背景;
根据所述目标区域的3D彩色模型和所述渲染图片背景,生成多个角度的渲染图片;
根据所述渲染图片与所述待识别图片之间的相似度,鉴别待识别图片的可用性。
4.一种结合图像处理及数据挖掘技术的电子证据可用性鉴别系统,其特征在于,包括数据恢复模块、关键信息提取模块、网络爬取模块、第一筛选模块、第二筛选模块、第三筛选模块和第一识别模块;
所述数据恢复模块,用于从嫌疑人的存储介质中恢复出已删除的图片,将恢复图片中的模糊图片作为待识别图片;
所述关键信息提取模块,用于提取待识别图片中的关键信息,所述关键信息包括关键时间段、关键地点范围和图像掩码模板;
所述网络爬取模块,用于基于所述关键时间段、所述关键地点范围和所述图像掩码模板,从公众资源中爬取与所述待识别图片类似或者有关联的图片;以及用于将爬取的图片作为第一组筛选图片,并将所述第一组筛选图片和对应的描述信息关联存储;
所述第一筛选模块,用于基于所述关键时间段和所述关键地点范围,利用Hadoop从所述第一组筛选图片中筛选出第二组筛选图片;
所述第二筛选模块,用于利用SURF算法对所述第二组筛选图片和所述待识别图片进行匹配,并将匹配出的图片作为第三组筛选图片;
所述第三筛选模块,用于利用SIFT算法对所述第三组筛选图片和所述待识别图片进行匹配,并将匹配出的图片作为关联图片;
所述第一识别模块,用于根据所述关联图片与所述待识别图片之间的相似度,鉴别待识别图片的可用性。
5.根据权利要求4所述的结合图像处理及数据挖掘技术的电子证据可用性鉴别系统,其特征在于,所述第一识别模块,具体用于:
若所述关联图片与所述待识别图片之间的相似度超过第一阈值,则判定所述待识别图片属于第一类数据,所述第一类数据用于证明嫌疑人在关键时间段出现在关键地点范围;
若所述关联图片与所述待识别图片之间的相似度超过第二阈值且未超过所述第一阈值,则判定所述待识别图片属于第二类数据,所述第二类数据用于作为案件侦查线索;
若所述关联图片与所述待识别图片之间的相似度未超过所述第二阈值,则判定所述识别待识别图片属于第三类数据,所述第三类数据不可用;
其中,所述第一阈值>所述第二阈值。
6.根据权利要求5所述的结合图像处理及数据挖掘技术的电子证据可用性鉴别系统,其特征在于,还包括第二识别模块,其用于:
基于地图数据中的3D城市街景建立目标区域的3D彩色模型,结合关键时间段的天气状况获得渲染图片背景;其中,所述目标区域指的是关键地点范围所在区域;
根据所述目标区域的3D彩色模型和所述渲染图片背景,主动生成多个角度的渲染图片;
根据所述渲染图片与所述待识别图片之间的相似度,鉴别待识别图片的可用性。
CN202111218360.5A 2021-10-20 2021-10-20 结合图像处理及数据挖掘技术的电子证据可用性鉴别方法 Active CN114140674B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111218360.5A CN114140674B (zh) 2021-10-20 2021-10-20 结合图像处理及数据挖掘技术的电子证据可用性鉴别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111218360.5A CN114140674B (zh) 2021-10-20 2021-10-20 结合图像处理及数据挖掘技术的电子证据可用性鉴别方法

Publications (2)

Publication Number Publication Date
CN114140674A true CN114140674A (zh) 2022-03-04
CN114140674B CN114140674B (zh) 2024-04-16

Family

ID=80394461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111218360.5A Active CN114140674B (zh) 2021-10-20 2021-10-20 结合图像处理及数据挖掘技术的电子证据可用性鉴别方法

Country Status (1)

Country Link
CN (1) CN114140674B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028988A (zh) * 2023-02-28 2023-04-28 深圳市大恒数据安全科技有限责任公司 一种电子数据固证方法、终端及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210252A (zh) * 2019-04-28 2019-09-06 深圳法大大网络科技有限公司 一种电子数据的主动保全方法、装置及服务器
CN110533050A (zh) * 2019-07-22 2019-12-03 平安科技(深圳)有限公司 图片地理信息获取方法、装置、计算机设备及存储介质
CN110738216A (zh) * 2019-09-04 2020-01-31 南京理工大学 基于改进surf算法的药品识别方法
WO2021057797A1 (zh) * 2019-09-27 2021-04-01 Oppo广东移动通信有限公司 定位方法及装置、终端、存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210252A (zh) * 2019-04-28 2019-09-06 深圳法大大网络科技有限公司 一种电子数据的主动保全方法、装置及服务器
CN110533050A (zh) * 2019-07-22 2019-12-03 平安科技(深圳)有限公司 图片地理信息获取方法、装置、计算机设备及存储介质
CN110738216A (zh) * 2019-09-04 2020-01-31 南京理工大学 基于改进surf算法的药品识别方法
WO2021057797A1 (zh) * 2019-09-27 2021-04-01 Oppo广东移动通信有限公司 定位方法及装置、终端、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
冯镜蒯;: "基于SIFT特征匹配算法的城市地点识别系统", 电脑与电信, no. 08, 10 August 2009 (2009-08-10) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028988A (zh) * 2023-02-28 2023-04-28 深圳市大恒数据安全科技有限责任公司 一种电子数据固证方法、终端及系统

Also Published As

Publication number Publication date
CN114140674B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
Mushtaq et al. Digital image forgeries and passive image authentication techniques: a survey
Wu et al. Deep matching and validation network: An end-to-end solution to constrained image splicing localization and detection
KR101781358B1 (ko) 디지털 영상 내의 얼굴 인식을 통한 개인 식별 시스템 및 방법
Saber et al. A survey on image forgery detection using different forensic approaches
Gill et al. A review paper on digital image forgery detection techniques
CN111079816A (zh) 图像的审核方法、装置和服务器
CN110334622B (zh) 基于自适应特征金字塔的行人检索方法
Thajeel et al. A Novel Approach for Detection of Copy Move Forgery using Completed Robust Local Binary Pattern.
CN112215780B (zh) 基于类特征修复融合的图像取证对抗性攻击防御方法
Liu et al. Overview of image inpainting and forensic technology
Dixit et al. Copy-move forgery detection exploiting statistical image features
CN114140674B (zh) 结合图像处理及数据挖掘技术的电子证据可用性鉴别方法
Mani et al. A survey on digital image forensics: Metadata and image forgeries
Kumar et al. Towards recent developments in the field of digital image forgery detection
Karsh et al. Copy-move forgery detection using ASIFT
Gopakumar A survey on image splice forgery detection and localization techniques
Abdullah et al. 2.5 d facial analysis via bio-inspired active appearance model and support vector machine for forensic application
Abdosalehi et al. Splicing localization in tampered blurred images
Akoum et al. Image Forgery Analyse and Detection
Lourembam et al. A robust image copy detection method using machine learning
Nixon et al. Spn dash-fast detection of adversarial attacks on mobile via sensor pattern noise fingerprinting
Wadhwa et al. FA-Net: A Deep Face Anti-Spoofing Framework using Optical Maps
Kanwal et al. A taxonomy and analysis of digital image forgery detection techniques
Reddy et al. An Overview on Digital Forensics Tools used in Crime Investigation for Forgery Detection
Roshini et al. A novel approach to image forgery detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant